CN109446324A

CN109446324A - 样本数据的处理方法、装置、存储介质及电子设备

Info

Publication number: CN109446324A
Application number: CN201811204498.8A
Authority: CN
Inventors: 宝腾飞; 韩旭; 王科; 朱晓雨
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Douyin Vision Co Ltd; Douyin Vision Beijing Co Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2019-03-08
Anticipated expiration: 2038-10-16
Also published as: CN109446324B

Abstract

本公开公开了一种样本数据的处理方法、装置、存储介质及电子设备，方法包括：根据预先标注好的正样本集合和预定相似条件创建样本召回器；通过样本召回器召回全部样本集合中符合预定相似条件的样本，生成召回样本集合；将召回样本集合输入至预定分类器。本公开通过样本召回器生成了召回样本集合后，虽然召回样本集合中可能存在大量的负样本，但由于召回的样本是按照预定相似条件召回的，因此，可以大大降低输入至预定分类器中正样本和负样本的比例，无论是在训练预定分类器或通过预定分类器进行预测的过程中，都可以大大增加正样本的学习比例，提升预定分类器的准确率。

Description

样本数据的处理方法、装置、存储介质及电子设备

技术领域

本公开涉及机器学习领域，特别涉及一种样本数据的处理方法、装置、存储介质及电子设备。

背景技术

文本分类技术的落地场景非常多，比如传统的新闻领域的频道自动分类，对评论做情感分析等；通常情况下，分类器的构建过程一般为：获取原始样本、对样本标注、设计分类器特征、使用分类算法训练和预测等。

以应用最广的二分类为例，存在一个影响分类效果的样本不平衡问题，即正样本和负样本的比例很悬殊，一般是正样本非常少，负样本多。此种情况下，会导致分类器在训练过程中学习较多的负样本，在分类时会大大降低分类器的准确率。

发明内容

有鉴于此，本公开实施例提出了一种样本数据的处理方法、装置、存储介质及电子设备，用以解决现有技术的如下问题：分类器在训练过程中正样本非常少，但负样本却很多，导致分类器学习较多的负样本，在分类时会大大降低分类器的准确率。

一方面，本公开实施例提出了一种样本数据的处理方法，包括：根据预先标注好的正样本集合和预定相似条件创建样本召回器；通过所述样本召回器召回全部样本集合中符合所述预定相似条件的样本，生成召回样本集合；将所述召回样本集合输入至预定分类器。

在一些实施例中，所述根据预先标注好的正样本集合和预定相似条件创建样本召回器，包括：通过预定LDA(Latent Dirichlet Allocation，文档主题生成模型)确定所述预先标注好的正样本集合的主题向量，其中，所述预定LDA为通过预定语料训练后的LDA；设置所述正样本集合的主题向量与待召回样本之间的所述预定相似条件，其中，所述预定相似条件包括预定相似度计算公式和召回阈值；根据所述正样本集合的主题向量和所述预定相似条件创建所述样本召回器。

在一些实施例中，通过所述样本召回器召回全部样本集合中符合所述预定相似条件的样本，生成召回样本集合，包括：确定所述全部样本集合中每个样本的主题向量；通过所述预定相似度计算公式确定所述每个样本的主题向量和所述正样本集合的主题向量之间的相似度；检测所述相似度是否达到所述召回阈值；在所述相似度达到所述召回阈值的情况下，将与所述相似度对应的样本召回。

在一些实施例中，通过样本召回器将全部样本集合中符合预定相似条件的样本召回之前，还包括：通过预定LDA确定所述预先标注好的正样本集合的主题向量，其中，所述预定LDA为通过预定语料训练后的LDA；设置所述正样本集合的主题向量与待召回样本之间的所述预定相似条件；根据所述正样本集合的主题向量、所述预定相似条件和预定相似度计算公式创建所述样本召回器。

在一些实施例中，所述通过预定LDA确定所述预先标注好的正样本集合的主题向量，包括：通过所述预定LDA统计所述预先标注好的正样本集合中正样本的主题分布，并根据每个所述正样本的主题分布确定所述预先标注好的正样本集合的主题向量。

在一些实施例中，所述预定相似度计算公式至少包括以下之一：欧氏距离公式、余弦公式。

在一些实施例中，所述全部样本集合包括所述预先标注好的正样本集合。

另一方面，本公开实施例提出了一种样本数据的处理装置，包括：创建模块，用于根据预先标注好的正样本集合和预定相似条件创建样本召回器；召回模块，用于通过所述样本召回器召回全部样本集合中符合所述预定相似条件的样本，生成召回样本集合；输入模块，用于将所述召回样本集合输入至预定分类器。

在一些实施例中，所述创建模块包括：第一确定单元，用于通过预定LDA确定所述预先标注好的正样本集合的主题向量，其中，所述预定LDA为通过预定语料训练后的LDA；设置单元，用于设置所述正样本集合的主题向量与待召回样本之间的所述预定相似条件，其中，所述预定相似条件包括预定相似度计算公式和召回阈值；创建单元，用于根据所述正样本集合的主题向量和所述预定相似条件创建所述样本召回器。

在一些实施例中，所述召回模块包括：第二确定单元，用于确定所述全部样本集合中每个样本的主题向量；第三确定单元，用于通过所述预定相似度计算公式确定所述每个样本的主题向量和所述正样本集合的主题向量之间的相似度；检测单元，用于检测所述相似度是否达到所述召回阈值；召回单元，用于在所述相似度达到所述召回阈值的情况下，将与所述相似度对应的样本召回。

另一方面，本公开实施例提出了一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

另一方面，本公开实施例提出了一种电子设备，至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器在执行所述存储器上的计算机程序时实现上述方法的步骤。

现有技术中全部样本集合中正样本和负样本的比例通常差的非常多，当通过本公开样本召回器生成了召回样本集合后，虽然召回样本集合中可能存在大量的负样本，但由于召回的样本是按照预定相似条件召回的，因此，可以大大降低输入至预定分类器中正样本和负样本的比例，无论是在训练预定分类器或通过预定分类器进行预测的过程中，都可以大大增加正样本的学习比例，提升预定分类器的准确率。

附图说明

图1为本公开一实施例提供的样本数据的处理方法的流程图；

图2为本公开另一实施例提供的样本数据的处理装置的结构示意图；

图3为现有技术分类体系树架构示意图；

图4为本公开另一实施例提供的存储介质中样本数据的处理架构示意图；

图5为本公开另一实施例提供的电子设备的结构示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

本公开一实施例提供了一种样本数据的处理方法，该方法的流程如图1所示，包括步骤S101至S103：

S101，根据预先标注好的正样本集合和预定相似条件创建样本召回器。

具体实现时，可以按照如下过程进行创建：通过预定LDA确定预先标注好的正样本集合的主题向量，其中，预定LDA为通过预定语料训练后的LDA；设置正样本集合的主题向量与待召回样本之间的预定相似条件，其中，预定相似条件包括预定相似度计算公式和召回阈值；根据正样本集合的主题向量和预定相似条件创建样本召回器。在通过预定LDA确定预先标注好的正样本集合的主题向量时，具体可以先通过预定LDA统计预先标注好的正样本集合中正样本的主题分布，再并根据每个正样本的主题分布确定预先标注好的正样本集合的主题向量。

实现过程中，为了在使用样本召回器过程中，能够更为准确的将正样本全部召回，还能尽量减少负样本的数量，所以，本公开实施例的样本召回器也是需要训练的，通过训练的过程可以确定较为合理的预定相似条件，本领域技术人员可以根据实际需求进行训练，此处不再赘述。

S102，通过样本召回器召回全部样本集合中符合预定相似条件的样本，生成召回样本集合。

如果是为了过滤预定分类器训练过程中的样本，则预先标注好的正样本集合可以是全部样本集合中的一部分，这样，预定分类器在训练的过程中，样本召回器就可以通过预先标注好的正样集合和预定相似条件以最高效率召回可能是正样本的所有样本，并生成召回样本集合。

如果是为了过滤预定分类器预测过程中数以亿计的样本，则创建样本召回器时使用的预先标注好的正样本集合可以作为召回参考，样本召回器根据预定相似条件来确定当前样本是否符合预定相似条件，进而生成召回样本集合。

具体实现的过程中，在通过样本召回器召回全部样本集合中符合预定相似条件的样本的过程中，具体可以包括如下过程：确定全部样本集合中每个样本的主题向量；通过预定相似度计算公式确定每个样本的主题向量和正样本集合的主题向量之间的相似度；检测相似度是否达到召回阈值；在相似度达到召回阈值的情况下，将与相似度对应的样本召回。对于相似度未达到召回阈值的样本则不进行召回操作。实现时，上述预定相似度计算公式可以是欧氏距离公式、余弦公式等，相对应的，如果预定相似度计算公式是欧氏距离公式，则召回阈值就可以设置为距离，本领域技术人员可以根据实际需求进行设置。由于样本召回器的设计目的就是为了缩小正样本和负样本之间的比例，进而提升预定分类器的准确率，因此，通过上述过程，更多的负样本是没有被样本召回器召回的，只有少部分负样本被样本召回器召回。

S103，将召回样本集合输入至预定分类器。

现有技术中全部样本集合中正样本和负样本的比例通常差的非常多，当通过样本召回器生成了召回样本集合后，虽然召回样本集合中可能存在大量的负样本，但由于召回的样本是按照预定相似条件召回的，因此，可以大大降低输入至预定分类器中正样本和负样本的比例，无论是在训练预定分类器或通过预定分类器进行预测的过程中，都可以大大增加正样本的学习比例，提升预定分类器的准确率。

本公开另一实施例提供了一种样本数据的处理装置，该装置的结构示意如图2所示，包括：

创建模块10，用于根据预先标注好的正样本集合和预定相似条件创建样本召回器；召回模块20，与创建模块10耦合，用于通过样本召回器召回全部样本集合中符合预定相似条件的样本，生成召回样本集合；输入模块30，与召回模块20耦合，用于将召回样本集合输入至预定分类器。

如果是为了过滤预定分类器训练过程中的样本，则预先标注好的正样本可以是全部样本集合中的一部分，这样，预定分类器在训练的过程中，样本召回器就可以通过预先标注好的正样和预定相似条件以最高效率召回可能是正样本的样本，并生成召回样本集合。

如果是为了过滤预定分类器预测过程中数以亿计的样本，则创建样本召回器时使用的预先标注好的正样本可以作为召回参考，样本召回器根据预定相似条件来确定当前样本是否相对于预先标注好的正样本符合预定相似条件，进而生成召回样本集合。

上述创建模块10可以包括：第一确定单元101，用于通过预定LDA确定预先标注好的正样本集合的主题向量，其中，预定LDA为通过预定语料训练后的LDA；设置单元102，与第一确定单元101耦合，用于设置正样本集合的主题向量与待召回样本之间的预定相似条件，其中，预定相似条件包括预定相似度计算公式和召回阈值；创建单元103，与设置单元102耦合，用于根据正样本集合的主题向量和预定相似条件创建样本召回器。其中，第一确定单元101具体可以先通过预定LDA统计预先标注好的正样本集合中正样本的主题分布，再并根据每个正样本的主题分布确定预先标注好的正样本集合的主题向量。

上述召回模块20可以包括：第二确定单元201，用于确定全部样本集合中每个样本的主题向量；第三确定单元202，用于通过预定相似度计算公式确定每个样本的主题向量和正样本集合的主题向量之间的相似度；检测单元203，与第三确定单元202耦合，用于检测相似度是否达到召回阈值；召回单元204，与检测单元203耦合，用于在相似度达到召回阈值的情况下，将与相似度对应的样本召回。实现时，上述预定相似度计算公式可以是欧氏距离公式、余弦公式等，相对应的，如果预定相似度计算公式是欧氏距离公式，则召回阈值就可以设置为距离，本领域技术人员可以根据实际需求进行设置。

由于样本召回器的设计目的就是为了缩小正样本和负样本之间的比例，进而提升预定分类器的准确率，因此，通过上述设置，更多的负样本是没有被样本召回器召回的，只有少部分负样本被样本召回器召回。

本公开另一实施例提供了一种存储介质，存储有计算机程序，其特征在于，上述计算机程序被处理器执行时实现如下步骤：

S1，根据预先标注好的正样本集合和预定相似条件创建样本召回器；

S2，通过样本召回器召回全部样本集合中符合预定相似条件的样本，生成召回样本集合；

S3，将召回样本集合输入至预定分类器。

上述计算机程序被处理器执行根据预先标注好的正样本集合和预定相似条件创建样本召回器的步骤时，具体被处理器执行如下步骤：通过预定LDA确定预先标注好的正样本集合的主题向量，其中，预定LDA为通过预定语料训练后的LDA；设置正样本集合的主题向量与待召回样本之间的预定相似条件，其中，预定相似条件包括预定相似度计算公式和召回阈值；根据正样本集合的主题向量和预定相似条件创建样本召回器。

上述计算机程序被处理器执行通过样本召回器召回全部样本集合中符合预定相似条件的样本的步骤时，具体被处理器执行：确定全部样本集合中每个样本的主题向量；通过预定相似度计算公式确定每个样本的主题向量和正样本集合的主题向量之间的相似度；检测相似度是否达到召回阈值；在相似度达到召回阈值的情况下，将与相似度对应的样本召回。

下面，结合附图以及具体实例对上述过程进行更详细的说明。

现有技术中的分类都是基于分类体系树的分类方法，如图3所示，当接收到一篇有关中国男足的文章后，首先，将文章在一级分类上都做一次预测，比如依次判断文章是否属于娱乐、美食、社会、体育等，会得到该篇文章的一级类结果，也就是体育类；基于对文章的在一级类的分类结果，再依次判断该篇文章在一级类体育下属于哪些二级类，比如体育八卦、篮球、足球等，再依次判断并将文章分到相应的二级类中，得到文章的二级类结果，也就是足球类；三级、四级类的判断过程同上。最终，将该篇有关中国男足的文章相应地分到体育——足球——中国足球——中国男足的相应类别中，最终完成文章的精准分类。

该过程的缺点显而易见，首先，分类层级较多，文章进行分类判断的次数较多，并且，若是文章在一级分类时判断错误，文章就不会进入次一级分类的判断了，而越是下游的分类，文章数越少。

本实例引入样本召回器，解决了分类样本不平衡的方法；如图4所示，本实例在每个分类器前都设置了样本召回器，提出用先召回再分类的架构替换分类体系树，做到了实现方式与分类体系树解耦，提高了小类的覆盖。针对文本二分类，本实例新的分类流程如下：

(一)创建样本召回器。

本实例中，创建样本召回器是以TopicModel为基础构造，过程如下：

(1)用原始语料训练一个通用的LDA，其中，LDA的维度可以根据需要选择，比如2048维。

(2)通过LDA统计预先标注好的正样本的Topic分布，得到预先标注好的正样本集合的Topic向量；其中，预先标注好的正样本是预先确定的全部训练样本集中的正样本，标准一般是将样本中的词或者语段进行标注。标注时，可以先标注全部正样本中的一部分正样本，如果该一部分正样本不足以确定一个较好的召回效果，则再次训练样本召回器时可以对全部的正样本进行标注，增加正样本数量。

(3)设置正样本集合的Topic向量与待召回样本之间的预定相似条件，其中，这里的预定相似条件包括预定相似度的计算公式和召回阈值，其中，预定相似度计算公式用以表征该待召回样本与正样本集合的Topic向量之间的相似度，召回阈值可通过例如欧式距离公式确定，并不断增加正样本集合中正样本的数量来确定一个较好的召回阈值，以完成样本召回器的创建。

本实例中，样本召回器的作用是召回有可能为正样本的样本，负样本仍然会大量召回进来；天然情况下，正负样本的比例可能是1：1000，通过召回器，样本召回器起到的作用是能把正样本都召回，但正负样本比例能降到1：10；没有召回器的情况下，若是原始样本中没有包含的负样本，模型返回的时候会容易犯错，通过样本召回器，相当于把模型要泛化的空间做了限定，使得问题得到了简化。

(二)训练分类器。

(1)通过样本召回器召回原始样本中的部分样本(相当于过滤完全不可能的负样本)。

实现时，针对全部训练样本，得到每个样本的Topic向量；用欧式距离公式计算每个样本其与正样本集合的Topic向量之间的距离；当距离高出召回阈值时，将该样本召回。

样本召回器的设计至关重要，其主要作用是枚举正样本的典型词汇，凡是包含这些词汇的样本都该被召回，这种情况下，引入Topic作为召回器即合理又直观，因为Topic会把同类词汇自动学到一起，能到泛化的作用。

(2)通过部分样本训练分类器，得到分类器的分类模型。

(三)预测过程中使用样本召回器和分类器。

在预测分类效果时，本实例采用了一个分类器对应的设置一个样本召回器，样本召回器召回的样本中负样本的比例相比于原始的待分类样本中负样本的比例大大降低，当样本被样本召回器召回后，会将该样本输入至对应的分类器进行分类。

每个样本召回器对应一个分类器，如图4所示，样本集合中的每个样本都要过每个分类器对应的样本召回器，该操作相对于现有的分类体系树方法而言，处理速度按指数级增长，大大提升了处理速度。

通过引入样本召回器，文章要过一遍全部的召回器，确定需要做哪些分类的判断；根据召回结果，再判断分类结果。比如，一篇文章，被体育、足球、中超的召回器都召回了，就再依次过体育、足球、中超的分类即可了，解除了原来的分类体系树依赖。

例如，本实施例大类到小类依次排序为：体育/足球/中国足球/中国男足。该表示说明了类的层级关系，即足球是体育的小类、中国足球是足球的小类、中国男足是中国足球的小类。

现有的传统方法会先创建体育分类器(正样本为体育类样本，负样本为非体育类样本)、足球分类器(正样本为体育类下的足球类，负样本为体育类下的非足球类)、中国足球分类器(正样本为足球类下的中国足球类、负样本为足球类下的非中国足球类)、中国男足分类器(正样本为中国足球类中的中国男足类，负样本为中国足球类下的非中国男足类)。该方法在寻找任意类的样本时，正负样本比例会达到1：10000，而这样的样本比例对于训练分类器来说，训练效果较差。

在本公开实施例的方法中：首先，确定全部数据集，随机选取100万条新闻样本；其次，进行正样本选取，即只用标注一些“中国男足类”的正样本，例如，1000至2000个样本；随后，用标注好的正样本构造召回器，即用正样本的Topic中心向量、相似度用欧式距离，召回阈值设置为0.5；召回分类器真正用的正负样本，对全部数据集跑一遍召回器，留下阈值以上的，这时候会包含1000+正样本，5000+负样本；最后，分类器用召回器召回的正样本和负样本做训练。本实施例的方法相比传统方法：效果提升，由于解除了链式依赖，避免错误积累，召回率能提高50％以上；正负样本比例相对于现有方法明显增加，训练速度增加，能做到分类器训练互相之间不耦合，训练效率能提高5倍以上。

本公开实施例，在构建分类器的过程中引入样本召回器这个步骤，能让分类器对样本集的大小减少(主要是负样本)，同时能让正样本的准确和召回都大幅提升；解耦了大小类层级的依赖，还解决了分类体系数的错误传递问题(即一级类的错误会导致二级类召回不全，这样会层层衰减)。

本公开另一实施例还提供了一种电子设备，下面参考图5，其示出了适于用来实现本公开实施例的电子设备800的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

通常，以下装置可以连接至I/O接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备800，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从ROM 802被安装。在该计算机程序被处理装置801执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，电子设备执行上述一个或者多个程序，实现时，该电子设备执行：根据预先标注好的正样本集合和预定相似条件创建样本召回器；通过样本召回器召回全部样本集合中符合预定相似条件的样本，生成召回样本集合；将召回样本集合输入至预定分类器。

电子设备执行上述一个或者多个程序时，当该电子设备在执行根据预先标注好的正样本集合和预定相似条件创建样本召回器时，具体执行：通过预定文档主题生成模型LDA确定预先标注好的正样本集合的主题向量，其中，预定LDA为通过预定语料训练后的LDA；设置正样本集合的主题向量与待召回样本之间的预定相似条件，其中，预定相似条件包括预定相似度计算公式和召回阈值；根据正样本集合的主题向量和预定相似条件创建样本召回器。

电子设备执行上述一个或者多个程序时，当该电子设备在执行通过样本召回器召回全部样本集合中符合预定相似条件的样本，生成召回样本集合时，具体执行：确定全部样本集合中每个样本的主题向量；通过预定相似度计算公式确定每个样本的主题向量和正样本集合的主题向量之间的相似度；检测相似度是否达到召回阈值；在相似度达到召回阈值的情况下，将与相似度对应的样本召回。

电子设备执行上述一个或者多个程序时，当该电子设备在执行通过预定LDA确定预先标注好的正样本集合的主题向量时，具体执行：通过预定LDA统计预先标注好的正样本集合中正样本的主题分布，并根据每个正样本的主题分布确定预先标注好的正样本集合的主题向量。

其中，预定相似度计算公式至少包括以下之一：欧氏距离公式、余弦公式。全部样本集合包括预先标注好的正样本集合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

以上对本公开多个实施例进行了详细说明，但本公开不限于这些具体的实施例，本领域技术人员在本公开构思的基础上，能够做出多种变型和修改实施例，这些变型和修改都应落入本公开所要求保护的范围之内。

Claims

1.一种样本数据的处理方法，其特征在于，包括：

根据预先标注好的正样本集合和预定相似条件创建样本召回器；

通过所述样本召回器召回全部样本集合中符合所述预定相似条件的样本，生成召回样本集合；

将所述召回样本集合输入至预定分类器。

2.如权利要求1所述的方法，其特征在于，所述根据预先标注好的正样本集合和预定相似条件创建样本召回器，包括：

通过预定文档主题生成模型LDA确定所述预先标注好的正样本集合的主题向量，其中，所述预定LDA为通过预定语料训练后的LDA；

设置所述正样本集合的主题向量与待召回样本之间的所述预定相似条件，其中，所述预定相似条件包括预定相似度计算公式和召回阈值；

根据所述正样本集合的主题向量和所述预定相似条件创建所述样本召回器。

3.如权利要求2所述的方法，其特征在于，所述通过所述样本召回器召回全部样本集合中符合所述预定相似条件的样本，生成召回样本集合，包括：

确定所述全部样本集合中每个样本的主题向量；

通过所述预定相似度计算公式确定所述每个样本的主题向量和所述正样本集合的主题向量之间的相似度；

检测所述相似度是否达到所述召回阈值；

在所述相似度达到所述召回阈值的情况下，将与所述相似度对应的样本召回。

4.如权利要求2所述的方法，其特征在于，所述通过预定LDA确定所述预先标注好的正样本集合的主题向量，包括：

通过所述预定LDA统计所述预先标注好的正样本集合中正样本的主题分布，并根据每个所述正样本的主题分布确定所述预先标注好的正样本集合的主题向量。

5.如权利要求2所述的方法，其特征在于，所述预定相似度计算公式至少包括以下之一：欧氏距离公式、余弦公式。

6.如权利要求1所述的方法，其特征在于，所述全部样本集合包括所述预先标注好的正样本集合。

7.一种样本数据的处理装置，其特征在于，包括：

创建模块，用于根据预先标注好的正样本集合和预定相似条件创建样本召回器；

召回模块，用于通过所述样本召回器召回全部样本集合中符合所述预定相似条件的样本，生成召回样本集合；

输入模块，用于将所述召回样本集合输入至预定分类器。

8.如权利要求7所述的装置，其特征在于，所述创建模块包括：

第一确定单元，用于通过预定LDA确定所述预先标注好的正样本集合的主题向量，其中，所述预定LDA为通过预定语料训练后的LDA；

设置单元，用于设置所述正样本集合的主题向量与待召回样本之间的所述预定相似条件，其中，所述预定相似条件包括预定相似度计算公式和召回阈值；

创建单元，用于根据所述正样本集合的主题向量和所述预定相似条件创建所述样本召回器。

9.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。

10.一种电子设备，至少包括存储器、处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器在执行所述存储器上的计算机程序时实现权利要求1至6中任一项所述方法的步骤。