CN107229614B

CN107229614B - 用于分类数据的方法和装置

Info

Publication number: CN107229614B
Application number: CN201710517316.1A
Authority: CN
Inventors: 戴明洋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2020-11-10
Anticipated expiration: 2037-06-29
Also published as: CN107229614A

Abstract

本申请公开了用于分类数据的方法和装置。方法的一具体实施方式包括：对原始数据进行分词，得到原始样本集；基于文档主题生成模型，将原始样本集聚类至预定数量的主题；查询预设的领域表征词是否命中从主题提取的主题表征词，若是，则将主题表征词归类至领域表征词所表征的领域；基于领域中的主题表征词，确定领域的初始样本集。该实施方式由于类别内部的样本多样性好，提高了初始样本集的准确率，增强了对于未知样本的分类能力。

Description

用于分类数据的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及计算机网络技术领域，尤其涉及用于分类数据的方法和装置。

背景技术

在处理上千亿的文本数据，为文本分类模型准备质量较高的训练数据时，也即为无类别信息的用户搜索Query及点击Title这样的原始数据设计学习方法时，可以为其打上相应的类别标签，再通过设计过滤方法及增补方法来保证各类样本的纯度及数量，从而为用户画像的兴趣属性分类问题，挖掘训练样本，也即对用于用户画像的数据进行分类。

目前，对用于用户画像的数据进行分类的方法，可以采用人工审查的方法，或者采用编制领域专名词汇来匹配日志的方法，抓取或过滤出各类别的样本。

然而，目前的这种对用于用户画像的数据进行分类的方法，采用人工审查的方法的成本太大，而且不同的人，对类别的定义标准不稳定；采用编制领域专名词汇的方法，虽然由于数据量基数较大，可以在数量上得以保证，但在类别内部的样本多样性上欠缺，并且指定专名的个数也较少，且不易更新。

发明内容

本申请的目的在于提出一种改进的用于分类数据的方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请实施例提供了一种用于分类数据的方法，方法包括：对原始数据进行分词，得到原始样本集；基于文档主题生成模型，将原始样本集聚类至预定数量的主题；查询预设的领域表征词是否命中从主题提取的主题表征词，若是，则将主题表征词归类至领域表征词所表征的领域；基于领域中的主题表征词，确定领域的初始样本集。

在一些实施例中，基于领域中的主题表征词，确定领域的初始样本集包括：采用领域关键词以及反词典，过滤领域中的主题表征词；将过滤后的领域中的主题表征词对应的原始样本集，确定为领域的初始样本集。

在一些实施例中，将过滤后的领域中的主题表征词对应的原始样本集，确定为领域的初始样本集包括：基于过滤后的领域中的主题表征词，经由文档主题生成模型对主题-词映射矩阵的解析，确定初始样本的主题；基于初始样本的主题，经由文档主题生成模型对文档-主题映射矩阵的解析，得到领域的初始样本集。

在一些实施例中，方法还包括：对初始样本集进行多分类器投票过滤，直至单次舍弃掉的样本的数量小于预定阈值；将舍弃掉样本后的初始样本集确定为标准样本集。

在一些实施例中，多分类器投票过滤包括：将初始样本集拆分为训练集和测试集；采用训练集，分别训练多个分类器；采用测试集，分别验证分类器；响应于验证结果统一并且正确的分类器占多个分类器的比例小于预定比例，舍弃测试集中的样本；采用舍弃掉样本后的初始样本集，更新进行多分类器投票过滤的初始样本集。

在一些实施例中，从主题提取的主题表征词包括：采用以下一项或多项从主题提取的主题表征词：文档主题生成模型、文本关键词提取算法以及词频-逆向文件频率算法。

在一些实施例中，从主题提取的主题表征词包括以下一项或多项：对主题表征词去停用词；以及对主题表征词去与本词相关性低于预定阈值的词。

在一些实施例中，原始数据包括：用户搜索查询数据和/或用户点击标题数据。

第二方面，本申请实施例提供了一种用于分类数据的装置，装置包括：数据分词单元，用于对原始数据进行分词，得到原始样本集；样本聚类单元，用于基于文档主题生成模型，将原始样本集聚类至预定数量的主题；表征词归类单元，用于查询预设的领域表征词是否命中从主题提取的主题表征词，若是，则将主题表征词归类至领域表征词所表征的领域；样本确定单元，用于基于领域中的主题表征词，确定领域的初始样本集。

在一些实施例中，样本确定单元包括：过滤子单元，用于采用领域关键词以及反词典，过滤领域中的主题表征词；确定子单元，用于将过滤后的领域中的主题表征词对应的原始样本集，确定为领域的初始样本集。

在一些实施例中，确定子单元进一步用于：基于过滤后的领域中的主题表征词，经由文档主题生成模型对主题-词映射矩阵的解析，确定初始样本的主题；基于初始样本的主题，经由文档主题生成模型对文档-主题映射矩阵的解析，得到领域的初始样本集。

在一些实施例中，装置还包括：投票过滤单元，用于对初始样本集进行多分类器投票过滤，直至单次舍弃掉的样本的数量小于预定阈值；样本优化单元，用于将舍弃掉样本后的初始样本集确定为标准样本集。

在一些实施例中，投票过滤单元所进行的多分类器投票过滤包括：将初始样本集拆分为训练集和测试集；采用训练集，分别训练多个分类器；采用测试集，分别验证分类器；响应于验证结果统一并且正确的分类器占多个分类器的比例小于预定比例，舍弃测试集中的样本；采用舍弃掉样本后的初始样本集，更新进行多分类器投票过滤的初始样本集。

在一些实施例中，表征词归类单元中从主题提取的主题表征词包括：采用以下一项或多项从主题提取的主题表征词：文档主题生成模型、文本关键词提取算法以及词频-逆向文件频率算法。

在一些实施例中，表征词归类单元中从主题提取的主题表征词包括以下一项或多项：对主题表征词去停用词；以及对主题表征词去与本词相关性低于预定阈值的词。

在一些实施例中，数据分词单元中的原始数据包括：用户搜索查询数据和/或用户点击标题数据。

第三方面，本申请实施例提供了一种设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任意一项用于分类数据的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上任意一项用于分类数据的方法。

本申请上述实施例提供的用于分类数据的方法和装置，首先对原始数据进行分词，得到原始样本集；之后，基于文档主题生成模型，将原始样本集聚类至预定数量的主题；查询预设的领域表征词是否命中从主题提取的主题表征词，若是，则将从主题表征词归类至领域表征词所表征的领域；基于领域中的主题表征词，确定领域的初始样本集。上述实施例通过聚类主题和归类主题表征词至领域，从而确定领域的初始样本集，由于类别内部的样本多样性好，提高了初始样本集的准确率，增强了对于未知样本的分类能力。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1a是根据本申请的用于分类数据的方法的一个实施例的示意性流程图；

图1b是图1a的用于分类数据的方法的一个示例性应用场景；

图2a是在图1a的基础上优化的用于分类数据的方法的一个实施例的示意性流程图；

图2b是图2a的优化的用于分类数据的方法的一个示例性应用场景；

图3是根据本申请的用于分类数据的装置的一个实施例的示例性结构图；

图4是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1a，图1a示出了根据本申请的用于分类数据的方法的一个实施例的流程。

如图1a所示，该用于分类数据的方法100包括：

在步骤110中，对原始数据进行分词，得到原始样本集。

在本实施例中，原始数据是指未经处理的用户交互文档数据，例如用户搜索查询数据和/或用户点击标题数据。分词是指将连续的字序列按照一定的规范重新切分并组合成词序列的过程。在对原始数据进行分词后，可以得到分词后的原始数据，该分词后的原始数据也即原始样本集。

在步骤120中，基于文档主题生成模型，将原始样本集聚类至预定数量的主题。

在本实施例中，文档主题生成模型(Latent Dirichlet Allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。基于LDA这一主题模型学习技术，可以得到各原始样本的主题，进一步将得到的主题聚类，可以得到预定数量的主题。例如，可以将海量(1300亿)的原始样本聚类为800个主题。

在步骤130中，查询预设的领域表征词是否命中从主题提取的主题表征词，若是，则将主题表征词归类至领域表征词所表征的领域。

在本实施例中，预设的领域表征词，是指对于预定数量的预设领域，为每一个预设领域预设的表征词，例如，可以定义用户的兴趣类别作为预设领域，例如可以定义31个预设领域，包括汽车、餐饮美食、旅游出行等。从主题提取的主题表征词，可以采用各种关键词提取方法来完成。例如，采用以下一项或多项从主题提取主题表征词：文档主题生成模型、文本关键词提取算法以及词频-逆向文件频率算法。

在这里，可以为每个预设领域指定预定数量的领域表征词，作为本领域区别于其它领域的标识；也可以从主题提取预设数量的主题表征词，作为本主题区别于其它主题的标识。

这里的查询预设的领域表征词是否命中从主题提取的主题表征词，也即将各主题的样本集按照预设领域进行归类。示例性地，可以将上述800个主题的样本集，归类至31个预设领域。

在归类时，还可以通过对有限的主题进行人工查看来进行归类。从而通过归类，可以定义该主题是否为某个领域的词的聚类结果。对于归类的结果，还可以进行人工校对判定。

在步骤140中，基于领域中的主题表征词，确定领域的初始样本集。

在本实施例中，基于领域中的主题表征词，可以确定所有领域中包括的主题，之后根据主题可以回溯出领域的原始样本集，从而得到初始样本集。

在本实施例的一些可选实现方式中，基于领域中的主题表征词，确定领域的初始样本集可以包括：采用领域关键词以及反词典，过滤领域中的主题表征词；将过滤后的领域中的主题表征词对应的原始样本集，确定为领域的初始样本集。

在本实现方式中，对于归类好的各领域的样本，有可能出现数据量上的不均、存在主题内部的噪音以及两三个主题在一个主题内部出现等情况，针对这些问题，可以通过领域关键词以及反词典这样的匹配方案来对样本进行过滤。这里的反词典，是指不该出现在各主题的词形成的词典。

在本实施例的一些可选实现方式中，将过滤后的领域中的主题表征词对应的原始样本集，确定为领域的初始样本集包括：基于过滤后的领域中的主题表征词，经由文档主题生成模型对主题-词映射矩阵的解析，确定初始样本的主题；基于初始样本的主题，经由文档主题生成模型对文档-主题映射矩阵的解析，得到领域的初始样本集。

本申请的上述实施例提供的用于分类数据的方法，通过对海量原始数据进行分词并聚类，得到预定数量的主题，再根据从主题提取的主题表征词与领域表征词的匹配结果，将各主题的样本集分类至各个领域，从而得到领域的初始样本集，在这一过程中采用的数据量的基数较大，可以保证用于分类的样本的数量，并且健全了类别内部的样本的多样性，提高了初始样本集的准确率，增强了对于未知样本的分类能力。

以下结合图1b，描述本申请实施例对应图1a的用于分类数据的方法的示例性应用场景。

如图1b所示，图1b示出了根据本申请实施例的对应图1a的用于分类数据的方法的一个应用场景的示例性流程图。

在图1b所示的流程图中，包括以下步骤：

对于原始语料151，首先执行步骤152；

在步骤152中，根据词频进行特征提取，可以得到无监督原始数据的特征向量153，其中，特征向量153按照数量可以分为包括2千万样本的小样本集、包括2亿样本的中级样本集以及包括1300亿样本的大样本集，之后，对于特征向量153，可以执行步骤154；

在步骤154中，可以执行主题模型训练，从而从各级样本中分别得到主题的数量：小样本集中的样本可以得到80个主题，中级样本集中的样本可以得到800个主题，大样本集中的样本可以得到10000个主题，之后，可以对于各级样本的主题，分别执行步骤155和步骤160；

在步骤155中，生成词-主题(w-z)的映射矩阵(Pwz)，之后，执行步骤156；

在步骤156中，基于词-主题的映射矩阵，根据在同一主题(z)条件下的词(w)的概率排序样本集，并且根据主题的概率排序，之后，执行步骤157；

在步骤157中，进行领域与主题的归类映射，包括：在步骤158中，将领域与主题做归类映射，之后，执行步骤162；以及在步骤159中，对于语义明显但无法与现有领域对应的主题，可以作为新的领域挖掘；

在步骤160中，生成文档-主题(d-z)的映射矩阵(Pdz)，之后，执行步骤161或执行步骤162；

在步骤161中，建立主题到文档的倒排索引，根据在同一文档中的主题的概率排序，之后执行步骤162；

在步骤162中，根据文档-主题(d-z)的映射矩阵(Pdz)或概率排序的结果，回溯样本集，包括：在步骤163中，回溯属于指定主题且概率值在阈值之上的所有样本，之后，得到初始样本集164。

本申请的上述应用场景中提供的用于分类数据的方法，提高了用于分类的样本的数量，保障了类别内部的样本的多样性，对于未知样本的分类能力较好。

进一步参考图2a，图2a示出了根据本申请的优化的用于分类数据的方法的又一个实施例的示意性流程图。

如图2a所示，该优化的用于分类数据的方法200在图1a中示出的用于分类数据的方法的基础上，还包括：

在步骤210中，对初始样本集进行多分类器投票过滤，直至单次舍弃掉的样本的数量小于预定阈值。

在本实施例中，使用至目前已得的初始样本集作为数据集，采用多个分类器可以验证数据集分类的正确性，并迭代优化数据分类结果，直至单次舍弃掉的样本的数量小于预定阈值。

在采用多个分类器可以验证数据集分类的正确性，并迭代优化数据分类结果时，多分类器投票过滤这一迭代步骤可以包括：将初始样本集拆分为训练集和测试集；采用训练集，分别训练多个分类器；采用测试集，分别验证分类器；响应于验证结果统一并且正确的分类器占多个分类器的比例大于或等于预定比例，保留该条样本；响应于验证结果统一并且正确的分类器占多个分类器的比例小于预定比例，舍弃测试集中的样本；采用舍弃掉样本后的初始样本集，更新进行多分类器投票过滤的初始样本集，进行下一轮迭代。这里的分类器可以为现有技术或未来发展的技术中的分类器，本申请对此不做限定。

示例性地，对于初始样本集，以8：2的比例无交叉拆分训练集与测试集，采用分类训练支持向量机模型(SVM)，朴素贝叶斯算法(Native Bayes)，最大熵模型和线性分类器(Liblinear)的分类器，对测试集中的同一样本，四个分类器的结果若有三个及以上的结果统一并正确，则该条样本留下，否则舍弃之。

在步骤220中，将舍弃掉样本后的初始样本集确定为标准样本集。

在本实施例中，舍弃掉样本后的初始样本集中的样本状态已收敛，此时可以将该已收敛的样本集确定为标准样本集。

本申请的上述实施例提供的用于分类数据的方法，可以自动的迭代更新，学习计算出验证的结果统一且正确的比例大于预定比例的更新后的样本集合，舍弃不符合需求的样本直至样本状态收敛，从而得到较优的带标注的样本集，提高了标准样本集中样本的准确度以及对未知样本的分类能力。

以下结合图2b，描述本申请实施例对应图2a的用于分类数据的方法的示例性应用场景。

如图2b所示，图2b示出了根据本申请实施例的对应图2a的用于分类数据的方法的一个应用场景的示例性流程图。

在图2b所示的流程图中，包括以下步骤：

首先，对于初始样本集230(也即图1b的应用场景中得到的初始样本集164)，随机按照预定比例拆分为训练集231和测试集232；

之后，采用训练集231分别训练四个分类器233、234、235和236；

之后，采用测试集232中的各样本分别验证分类器233、234、235和236，得到四个验证结果237、238、239和240；

之后，分别判断验证结果237、238、239和240的准确率241、242、243和244是否分别大于计数器1中的计数值，若大于则验证结果正确，若验证结果237、238、239和240统一且正确的比例大于预定比例，则执行步骤245：合并测试集中正确的样本到训练集中，得到新的样本集246；

之后，判断单次舍弃掉的样本的数量是否小于预定阈值，若是，则将新的样本集246作为标准样本集；若否，则将新的样本集作为初始样本集230进行下一轮迭代，直至单次舍弃掉的样本的数量小于预定阈值。

本申请的上述应用场景中提供的用于分类数据的方法，得到了较优的带标注的样本集，提高了标准样本集中样本的准确度以及对未知样本的分类能力。

进一步参考图3，作为对上述方法的实现，本申请实施例提供了一种用于分类数据的装置的一个实施例，该用于分类数据的方法的实施例与图1a至图2b所示的用于分类数据的方法的实施例相对应，由此，上文针对图1a至图2b中用于分类数据的方法描述的操作和特征同样适用于用于分类数据的装置300及其中包含的单元，在此不再赘述。

如图3所示，该配置用于分类数据的装置300包括：数据分词单元310，用于对原始数据进行分词，得到原始样本集；样本聚类单元320，用于基于文档主题生成模型，将原始样本集聚类至预定数量的主题；表征词归类单元330，用于查询预设的领域表征词是否命中从主题提取的主题表征词，若是，则将主题表征词归类至领域表征词所表征的领域；样本确定单元340，用于基于领域中的主题表征词，确定领域的初始样本集。

在本实施例的一些可选实现方式中(图中未示出)，样本确定单元包括：过滤子单元，用于采用领域关键词以及反词典，过滤领域中的主题表征词；确定子单元，用于将过滤后的领域中的主题表征词对应的原始样本集，确定为领域的初始样本集。

在本实施例的一些可选实现方式中，确定子单元进一步用于：基于过滤后的领域中的主题表征词，经由文档主题生成模型对主题-词映射矩阵的解析，确定初始样本的主题；基于初始样本的主题，经由文档主题生成模型对文档-主题映射矩阵的解析，得到领域的初始样本集。

在本实施例的一些可选实现方式中，装置还包括：投票过滤单元350，用于对初始样本集进行多分类器投票过滤，直至单次舍弃掉的样本的数量小于预定阈值；样本优化单元360，用于将舍弃掉样本后的初始样本集确定为标准样本集。

在本实施例的一些可选实现方式中，投票过滤单元所进行的多分类器投票过滤包括：将初始样本集拆分为训练集和测试集；采用训练集，分别训练多个分类器；采用测试集，分别验证分类器；响应于验证结果统一并且正确的分类器占多个分类器的比例小于预定比例，舍弃测试集中的样本；采用舍弃掉样本后的初始样本集，更新进行多分类器投票过滤的初始样本集。

在本实施例的一些可选实现方式中，表征词归类单元中从主题提取的主题表征词包括：采用以下一项或多项从主题提取的主题表征词：文档主题生成模型、文本关键词提取算法以及词频-逆向文件频率算法。

在本实施例的一些可选实现方式中，表征词归类单元中从主题提取的主题表征词包括以下一项或多项：对主题表征词去停用词；以及对主题表征词去与本词相关性低于预定阈值的词。

在本实施例的一些可选实现方式中，数据分词单元中的原始数据包括：用户搜索查询数据和/或用户点击标题数据。

本申请还提供了一种设备的实施例，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任意一项所述的用于分类数据的方法。

本申请还提供了一种计算机可读存储介质的实施例，其上存储有计算机程序，该程序被处理器执行时实现如上任意一项所述的用于分类数据的方法。

下面参考图4，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统400的结构示意图。图4示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分，所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括数据分词单元、样本聚类单元、表征词归类单元和样本确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，数据分词单元还可以被描述为“对原始数据进行分词，得到原始样本集的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：对原始数据进行分词，得到原始样本集；基于文档主题生成模型，将原始样本集聚类至预定数量的主题；查询预设的领域表征词是否命中从主题提取的主题表征词，若是，则将主题表征词归类至领域表征词所表征的领域；基于领域中的主题表征词，确定领域的初始样本集。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于分类数据的方法，其特征在于，所述方法包括：

对原始数据进行分词，得到原始样本集；

基于文档主题生成模型，将原始样本集聚类至预定数量的主题；

查询预设的领域表征词是否命中从所述主题提取的主题表征词，若是，则将所述主题表征词归类至所述领域表征词所表征的领域；

基于领域中的主题表征词，确定所述领域的初始样本集；

对所述初始样本集进行多分类器投票过滤，直至单次舍弃掉的样本的数量小于预定阈值；所述多分类器投票过滤包括：将所述初始样本集拆分为训练集和测试集；采用所述训练集，分别训练多个分类器；采用所述测试集，分别验证所述多个分类器；响应于验证结果统一并且正确的分类器占所述多个分类器的比例小于预定比例，舍弃所述测试集中的样本；采用舍弃掉样本后的初始样本集，更新进行多分类器投票过滤的所述初始样本集；

将舍弃掉样本后的初始样本集确定为标准样本集。

2.根据权利要求1所述的方法，其特征在于，所述基于领域中的主题表征词，确定所述领域的初始样本集包括：

采用领域关键词以及反词典，过滤领域中的主题表征词，其中，反词典，是指不该出现在各主题的词形成的词典；

将过滤后的领域中的主题表征词对应的原始样本集，确定为所述领域的初始样本集。

3.根据权利要求2所述的方法，其特征在于，将过滤后的领域中的主题表征词对应的原始样本集，确定为所述领域的初始样本集包括：

基于过滤后的领域中的主题表征词，经由文档主题生成模型对主题-词映射矩阵的解析，确定初始样本的主题；

基于所述初始样本的主题，经由文档主题生成模型对文档-主题映射矩阵的解析，得到所述领域的初始样本集。

4.根据权利要求1所述的方法，其特征在于，所述从所述主题提取的主题表征词包括：

采用以下一项或多项从所述主题提取的主题表征词：文档主题生成模型、文本关键词提取算法以及词频-逆向文件频率算法。

5.根据权利要求1或4任意一项所述的方法，其特征在于，所述从所述主题提取的主题表征词包括以下一项或多项：

对所述主题表征词去停用词；以及

对所述主题表征词去与本词相关性低于预定阈值的词。

6.根据权利要求1所述的方法，其特征在于，所述原始数据包括：

用户搜索查询数据和/或用户点击标题数据。

7.一种用于分类数据的装置，其特征在于，所述装置包括：

数据分词单元，用于对原始数据进行分词，得到原始样本集；

样本聚类单元，用于基于文档主题生成模型，将原始样本集聚类至预定数量的主题；

表征词归类单元，用于查询预设的领域表征词是否命中从所述主题提取的主题表征词，若是，则将所述主题表征词归类至所述领域表征词所表征的领域；

样本确定单元，用于基于领域中的主题表征词，确定所述领域的初始样本集；

投票过滤单元，用于对所述初始样本集进行多分类器投票过滤，直至单次舍弃掉的样本的数量小于预定阈值；所述投票过滤单元所进行的多分类器投票过滤包括：将所述初始样本集拆分为训练集和测试集；采用所述训练集，分别训练多个分类器；采用所述测试集，分别验证所述多个分类器；响应于验证结果统一并且正确的分类器占所述多个分类器的比例小于预定比例，舍弃所述测试集中的样本；采用舍弃掉样本后的初始样本集，更新进行多分类器投票过滤的所述初始样本集；

样本优化单元，用于将舍弃掉样本后的初始样本集确定为标准样本集。

8.根据权利要求7所述的装置，其特征在于，所述样本确定单元包括：

过滤子单元，用于采用领域关键词以及反词典，过滤领域中的主题表征词，其中，反词典，是指不该出现在各主题的词形成的词典；

确定子单元，用于将过滤后的领域中的主题表征词对应的原始样本集，确定为所述领域的初始样本集。

9.根据权利要求8所述的装置，其特征在于，所述确定子单元进一步用于：

10.根据权利要求7所述的装置，其特征在于，所述表征词归类单元中从所述主题提取的主题表征词包括：

11.根据权利要求7或10任意一项所述的装置，其特征在于，所述表征词归类单元中从所述主题提取的主题表征词包括以下一项或多项：

对所述主题表征词去停用词；以及

对所述主题表征词去与本词相关性低于预定阈值的词。

12.根据权利要求7所述的装置，其特征在于，所述数据分词单元中的原始数据包括：

用户搜索查询数据和/或用户点击标题数据。

13.一种计算机技术领域的设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任意一项所述的用于分类数据的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任意一项所述的用于分类数据的方法。