CN107229731B

CN107229731B - 用于分类数据的方法和装置

Info

Publication number: CN107229731B
Application number: CN201710427453.6A
Authority: CN
Inventors: 戴明洋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2021-05-25
Anticipated expiration: 2037-06-08
Also published as: CN107229731A

Abstract

本申请公开了用于分类数据的方法和装置。方法的一具体实施方式包括：采用各预定类别的初始过滤词集合，过滤原始数据，得到各预定类别的原始样本集合；对原始样本集合进行分类处理，得到验证的准确率满足阈值的更新后的样本集合；其中，分类处理包括：对原始样本集合进行过滤处理，得到更新后的样本集合，对更新后的样本集合进行验证，得到验证的准确率，响应于验证的准确率不满足阈值，对原始样本集合进行分类处理直至准确率满足阈值。该实施方式自动的学习计算出准确率满足阈值的更新后的样本集合，提高了更新后的样本集合的准确率，增强了对于未知样本的分类能力。

Description

用于分类数据的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及计算机网络技术领域，尤其涉及用于分类数据的方法和装置。

背景技术

在处理上千亿的文本数据，为文本分类模型准备质量较高的训练数据时，也即为无类别信息的用户搜索Query及点击Title这样的原始数据设计学习方法时，可以为其打上相应的类别标签，再通过设计过滤方法及增补方法来保证各类样本的纯度及数量，从而为用户画像的兴趣属性分类问题，挖掘训练样本，也即对用于用户画像的数据进行分类。

目前，对用于用户画像的数据进行分类的方法，可以采用人工审查的方法，或者采用编制领域专名词汇来匹配日志的方法，抓取或过滤出各类别的样本。

然而，目前的这种对用于用户画像的数据进行分类的方法，采用人工审查的方法的成本太大，而且不同的人，对类别的定义标准不稳定；采用编制领域专名词汇的方法，虽然由于数据量基数较大，可以在数量上得以保证，但在类别内部的样本多样性上欠缺，并且指定专名的个数也较少，且不易更新。

发明内容

本申请的目的在于提出一种改进的用于分类数据的方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请实施例提供了一种用于分类数据的方法，方法包括：采用各预定类别的初始过滤词集合，过滤原始数据，得到各预定类别的原始样本集合；对原始样本集合进行分类处理，得到验证的准确率满足阈值的更新后的样本集合；其中，分类处理包括：对原始样本集合进行过滤处理，得到更新后的样本集合，对更新后的样本集合进行验证，得到验证的准确率，响应于验证的准确率不满足阈值，对原始样本集合进行分类处理直至准确率满足阈值。

在一些实施例中，对原始样本集合进行过滤处理，得到更新后的样本集合包括：提取原始样本集合的表征词集合；对表征词集合去噪，得到更新后的过滤词集合；响应于原始数据命中更新后的过滤词集合的数量超过预定数量，将原始数据添加至与更新后的过滤词集合相对应的更新后的样本集合。

在一些实施例中，对原始样本集合进行过滤处理，得到更新后的样本集合包括：提取原始样本集合的表征词集合；对表征词集合去噪，得到更新后的过滤词集合；响应于原始数据命中更新后的过滤词集合的数量超过预定数量，将原始数据添加至与更新后的过滤词集合相对应的更新样本集合；响应于原始数据未命中更新后的过滤词集合，将原始数据添加至其它类别的样本集合；将更新样本集合和其它类别的样本集合，确定为更新后的样本集合。

在一些实施例中，提取原始样本集合的表征词集合包括：采用以下一项或多项提取原始样本集合的表征词集合：文档主题生成模型、文本关键词提取算法以及词频-逆向文件频率算法。

在一些实施例中，对表征词集合去噪包括以下一项或多项：对表征词集合去停用词；以及对表征词集合去与本词相关性低于预定阈值的词。

在一些实施例中，对更新后的样本集合进行验证包括：对更新后的样本集合进行K折交叉验证；和/或对更新后的样本集合进行随机划分训练集合与测试集合的验证。

在一些实施例中，方法还包括：将验证的准确率满足阈值的更新后的样本集合确定为标准样本集合；输出标准样本集合。

在一些实施例中，原始数据包括：用户搜索查询数据和/或用户点击标题数据。

第二方面，本申请实施例提供了一种用于分类数据的装置，装置包括：初始过滤单元，用于采用各预定类别的初始过滤词集合，过滤原始数据，得到各预定类别的原始样本集合；分类处理单元，用于对原始样本集合进行分类处理，得到验证的准确率满足阈值的更新后的样本集合；其中，分类处理包括：对原始样本集合进行过滤处理，得到更新后的样本集合，对更新后的样本集合进行验证，得到验证的准确率，响应于验证的准确率不满足阈值，对原始样本集合进行分类处理直至准确率满足阈值。

在一些实施例中，分类处理单元包括：第一表征词提取单元，用于提取原始样本集合的表征词集合；第一表征词去噪单元，用于对表征词集合去噪，得到更新后的过滤词集合；更新后样本添加单元，用于响应于原始数据命中更新后的过滤词集合的数量超过预定数量，将原始数据添加至与更新后的过滤词集合相对应的更新后的样本集合。

在一些实施例中，分类处理单元包括：第二表征词提取单元，用于提取原始样本集合的表征词集合；第二表征词去噪单元，用于对表征词集合去噪，得到更新后的过滤词集合；更新样本确定单元，用于响应于原始数据命中更新后的过滤词集合的数量超过预定数量，将原始数据添加至与更新后的过滤词集合相对应的更新样本集合；其它样本确定单元，用于响应于原始数据未命中更新后的过滤词集合，将原始数据添加至其它类别的样本集合；更新后样本确定单元，用于将更新样本集合和其它类别的样本集合，确定为更新后的样本集合。

在一些实施例中，第一表征词提取单元和第二表征词提取单元进一步用于：采用以下一项或多项提取原始样本集合的表征词集合：文档主题生成模型、文本关键词提取算法以及词频-逆向文件频率算法。

在一些实施例中，第一表征词去噪单元和第二表征词去噪单元进一步用于以下一项或多项：对表征词集合去停用词；以及对表征词集合去与本词相关性低于预定阈值的词。

在一些实施例中，分类处理单元进一步用于：对更新后的样本集合进行K折交叉验证；和/或对更新后的样本集合进行随机划分训练集合与测试集合的验证。

在一些实施例中，装置还包括：标准样本确定单元，用于将验证的准确率满足阈值的更新后的样本集合确定为标准样本集合；标准样本输出单元，用于输出标准样本集合。

在一些实施例中，初始过滤单元中的原始数据包括：用户搜索查询数据和/或用户点击标题数据。

第三方面，本申请实施例提供了一种设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任意一项用于分类数据的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上任意一项用于分类数据的方法。

本申请上述实施例提供的用于分类数据的方法和装置，首先采用各预定类别的初始过滤词集合，过滤原始数据，得到各预定类别的原始样本集合；对原始样本集合进行分类处理，得到验证的准确率满足阈值的更新后的样本集合；其中，分类处理包括：对原始样本集合进行过滤处理，得到更新后的样本集合，对更新后的样本集合进行验证，得到验证的准确率，响应于验证的准确率不满足阈值，对原始样本集合进行分类处理直至准确率满足阈值。上述实施例可以人工干预初始过滤词集合，并对基于初始过滤词集合得到的原始样本集合提取表征词，得到更新后的过滤词集合，基于更新后的过滤词集合得到更新后的样本集合，并对验证的准确率不满足阈值的更新后的样本集合进行迭代，从而自动的学习计算出准确率满足阈值的更新后的样本集合，提高了更新后的样本集合的准确率，增强了对于未知样本的分类能力，又由于类别内部的样本多样性好，并且更新后的过滤词集合可以迭代更新，因此分类数据所采用的过滤词的个数较多且更新性良好。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的用于分类数据的方法的一个实施例的示意性流程图；

图2是根据本申请实施例的用于分类数据的方法的一个应用场景的示例性流程图；

图3是根据本申请的用于分类数据的装置的一个实施例的示例性结构图；

图4是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了根据本申请的用于分类数据的方法的一个实施例的流程100。该用于分类数据的方法包括：

在步骤110中，采用各预定类别的初始过滤词集合，过滤原始数据，得到各预定类别的原始样本集合。

在本实施例中，每一个预定类别对应一个初始过滤词集合，该初始过滤词集合中包括预定数量的初始过滤词。原始数据是指未经处理的用户交互文档数据，例如用户搜索查询数据和/或用户点击标题数据。在采用各预定类别的初始过滤词集合过滤原始数据时，可以判断原始数据是否命中各预定类别的初始过滤词，若原始数据命中某一预定类别的初始过滤词，那么将该原始数据分类至这一预定类别。

示例性的，可以定义用户的兴趣类别作为预定类别，例如可以定义31个预定类别，包括汽车、餐饮美食、旅游出行等。可以为每个类别指定一定数量的初始过滤词作为本类别区别于其它类别的标识，原始数据命中一个初始过滤词，即可判定原始数据所属类别。这里初始过滤词的数量可以根据用户需要设定，数量越多越好。例如可以设定为20个，为旅游出行类可指定的初始过滤词可以包括：自驾游，一日游，旅游攻略，XX潭，Y国旅游，周边游等。在采用初始过滤词集合过滤原始数据时，可以准备海量(例如千亿数量级)用户的搜索查询(Query)及点击标题(Title)数据。在这批原始数据中用准备好的31个类别的初始过滤词集合过滤，并判断为其所属类别。即可得到带标签的原始样本集合。

在步骤120中，对原始样本集合进行分类处理，得到验证的准确率满足阈值的更新后的样本集合。

在本实施例中，分类处理可以包括：对原始样本集合进行过滤处理，得到更新后的样本集合，对更新后的样本集合进行验证，得到验证的准确率，响应于验证的准确率不满足阈值，对原始样本集合进行分类处理直至准确率满足阈值。

在对原始样本集合进行过滤处理，得到更新后的样本集合时，可以提取原始样本集合的表征词集合，对表征词集合去噪，得到预设数量的更新后的过滤词集合，并且响应于原始数据命中更新后的过滤词集合的数量超过预定数量，可以通过以下任意一种方式得到更新后的样本集合：第一种，是直接将原始数据添加至与更新后的过滤词集合相对应的更新后的样本集合；第二种，是将原始数据添加至与更新后的过滤词集合相对应的更新样本集合，并且响应于原始数据未命中更新后的过滤词集合，将原始数据添加至其它类别的样本集合，并将更新样本集合和其它类别的样本集合，确定为更新后的样本集合。

在提取原始样本集合的表征词时，可以采用一些提取文档关键词的算法来完成提取，例如，采用文档主题生成模型(LDA)、文本关键词(Textrank)提取算法、词频-逆文档频率算法(TF-IDF)等，来提取原始样本集合的表征词集合。

例如，在原始样本集合的样本内，采用LDA和Textrank算法来计算本类别的带权重的表征词，从而可以用这些表征词来代表该类别。对每个类别计算而得的表征词进行一些去噪操作，如去停用词中及一些与本词相关性不是很强的词，从而得到预设数量的更新后的过滤词集合，更新后的过滤词集合会比初始过滤词集合的数量多很多，但缺点在于不像初始过滤词集合那样可通过是否出现一个初始过滤词集合中的词即可判定是否原始数据所属类别，这里需要设定一个预定数量N(N为大于0的整数)，用更新后的过滤词集合来过滤原始数据，每条原始数据要出现至少N个更新后的过滤词集合中的词，才算命中，即可选中该原始数据作为更新后的过滤词集合所代表的类别的所属样本，并基于此得到更新后的样本集合。在这里，若原始数据未命中每个类别的更新后的过滤词集合，即可认为该原始数据为其它类别的样本，得到其它类别的样本集合。

在这里，验证的方法可以为对更新后的样本集合的准确率进行验证的方法，例如，验证的方法可以为对更新后的样本集合进行k折交叉验证的方法，备选地或附加地，验证的方法可以为对更新后的样本集合进行随机划分训练集合与测试集合的验证的方法。

以k折交叉验证中的5折交叉验证为例，也即对于更新后的样本集合，可以将其分为5份(每份包含20％的样本)，每次将其中的4份作为训练样本，1份作为测试样本做一次测试，直到5种训练样本与测试样本的排列均做了一次测试，并计算测试结果的平均值作为验证的准确率。若准确率达到要求，可完成无监督的样本学习，若不满足，则需要迭代上述的分类处理步骤至样本类别收敛为止。

可选地，在步骤130中，可以将验证的准确率满足阈值的更新后的样本集合确定为标准样本集合。

可选地，对应步骤130，在步骤140中，可以输出标准样本集合。

在本实施例中，在将验证的准确率满足阈值的更新后的样本集合确定为标准样本集合之后，可以输出该标准样本集合，以备后续的用户画像的兴趣属性分类使用。

本申请的上述实施例提供的用于分类数据的方法，可以人工干预类别初始词，可以自动的学习计算出更新后的过滤词集合并且可以迭代进行，可以人工设置各类别需要共现的词汇的数量，准确率满足阈值的更新后的样本集合的准确度高，数据分类的准确度较高，对于未知样本的分类能力较好。又由于类别内部的样本多样性好，并且更新后的过滤词集合可以迭代更新，因此分类数据所采用的过滤词的个数较多且更新性良好。

以下结合图2，描述本申请实施例的用于分类数据的方法的示例性应用场景。

如图2所示，图2示出了根据本申请实施例的用于分类数据的方法的一个应用场景的示例性流程图。

在图2所示的流程图中，包括以下步骤：

首先，对于原始数据201，采用初始过滤词集合202进行过滤，可以得到原始样本集合203；

之后，对于原始样本集合203，可以在步骤204中提取表征词集合；

之后，可以在步骤205中对表征词集合去噪，得到更新后的过滤词集合206；

之后，可以在步骤207中采用更新后的过滤词集合206对原始数据201进行过滤，并判断每条原始数据是否命中某类别的N个更新后的过滤词，若是，则得到更新后的初始样本集合208；

之后，可以在步骤209中，对初始样本集合208中的词去重，对于去重后的更新后的初始样本集合，可以先将其作为更新样本集合210，并在步骤211中，采用原始数据201对更新后的过滤词集合206进行反过滤；

之后，在步骤212中，若反过滤的结果为原始数据201未命中更新后的过滤词集合206，将原始数据添加至其它样本集合，并将更新样本集合210以及其它样本集合作为更新后的样本集合213；

应当理解，作为经由步骤210、211及212确定更新后的样本集合213的备选方案，还可以直接将步骤209中去重后的更新后的初始样本集合直接作为更新后的样本集合213；

之后，在步骤214中，对更新后的样本集合213进行稳定性测试，若稳定性测试通过，将更新后的样本集合213作为标准测试集合，若稳定性测试不通过，则跳转至执行步骤204。

本申请的上述应用场景中提供的用于分类数据的方法，可以基于主体观点对提供评论内容以及评论情感，可以人工干预初始过滤词，并对准确率不满足阈值的更新后的样本集合进行迭代过滤，并且可以人工设置迭代过滤时各类别需要共现的词汇的数量，从而可以自动的学习计算出准确率满足阈值的更新后的样本集合，提高了更新后的样本集合的准确率，并且增强了对于未知样本的分类能力。又由于类别内部的样本多样性好，并且更新后的过滤词集合可以迭代更新，因此分类数据所采用的过滤词的个数较多且更新性良好。

进一步参考图3，作为对上述方法的实现，本申请实施例提供了一种用于分类数据的装置的一个实施例，该用于分类数据的方法的实施例与图1至图2所示的用于分类数据的方法的实施例相对应，由此，上文针对图1至图2中用于分类数据的方法描述的操作和特征同样适用于用于分类数据的装置300及其中包含的单元，在此不再赘述。

如图3所示，该配置用于分类数据的装置300包括：初始过滤单元310，用于采用各预定类别的初始过滤词集合，过滤原始数据，得到各预定类别的原始样本集合；分类处理单元320，用于对原始样本集合进行分类处理，得到验证的准确率满足阈值的更新后的样本集合；其中，分类处理包括：对原始样本集合进行过滤处理，得到更新后的样本集合，对更新后的样本集合进行验证，得到验证的准确率，响应于验证的准确率不满足阈值，对原始样本集合进行分类处理直至准确率满足阈值。

在本实施例的一些可选实现方式中(图中未示出)，分类处理单元310包括：第一表征词提取单元，用于提取原始样本集合的表征词集合；第一表征词去噪单元，用于对表征词集合去噪，得到更新后的过滤词集合；更新后样本添加单元，用于响应于原始数据命中更新后的过滤词集合的数量超过预定数量，将原始数据添加至与更新后的过滤词集合相对应的更新后的样本集合。

在本实施例的一些可选实现方式中(图中未示出)，分类处理单元310包括：第二表征词提取单元，用于提取原始样本集合的表征词集合；第二表征词去噪单元，用于对表征词集合去噪，得到更新后的过滤词集合；更新样本确定单元，用于响应于原始数据命中更新后的过滤词集合的数量超过预定数量，将原始数据添加至与更新后的过滤词集合相对应的更新样本集合；其它样本确定单元，用于响应于原始数据未命中更新后的过滤词集合，将原始数据添加至其它类别的样本集合；更新后样本确定单元，用于将更新样本集合和其它类别的样本集合，确定为更新后的样本集合。

在本实施例的一些可选实现方式中，第一表征词提取单元和第二表征词提取单元进一步用于：采用以下一项或多项提取原始样本集合的表征词集合：文档主题生成模型、文本关键词提取算法以及词频-逆向文件频率算法。

在本实施例的一些可选实现方式中，第一表征词去噪单元和第二表征词去噪单元进一步用于以下一项或多项：对表征词集合去停用词；以及对表征词集合去与本词相关性低于预定阈值的词。

在本实施例的一些可选实现方式中，分类处理单元进一步用于：对更新后的样本集合进行K折交叉验证；和/或对更新后的样本集合进行随机划分训练集合与测试集合的验证。

在本实施例的一些可选实现方式中，装置还包括：标准样本确定单元330，用于将验证的准确率满足阈值的更新后的样本集合确定为标准样本集合；标准样本输出单元340，用于输出标准样本集合。

在本实施例的一些可选实现方式中，初始过滤单元中的原始数据包括：用户搜索查询数据和/或用户点击标题数据。

在本申请的上述实施例中，第一表征词提取单元和第二表征词提取单元仅代表在两个不同的实现方式中的表征词提取单元，这两个表征词提取单元所作的操作以及提取的内容相同。本领域技术人员应当理解，其中的第一或第二并不构成对表征词提取单元的特殊限定。

同理，在在本申请的上述实施例中，第一表征词去噪单元和第二表征词去噪单元仅代表在两个不同的实现方式中的表征词去噪单元，这两个表征词去噪单元所完成的操作以及得到的更新后的过滤词集合相同。本领域技术人员应当理解，其中的第一或第二并不构成对表征词去噪单元的特殊限定。

本申请还提供了一种设备的实施例，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任意一项所述的用于分类数据的方法。

本申请还提供了一种计算机可读存储介质的实施例，其上存储有计算机程序，该程序被处理器执行时实现如上任意一项所述的用于分类数据的方法。

下面参考图4，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统400的结构示意图。图4示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分，所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括初始过滤单元和分类处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，初始过滤单元还可以被描述为“采用各预定类别的初始过滤词集合，过滤原始数据，得到各预定类别的原始样本集合的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：采用各预定类别的初始过滤词集合，过滤原始数据，得到各预定类别的原始样本集合；对原始样本集合进行分类处理，得到验证的准确率满足阈值的更新后的样本集合。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于分类数据的方法，其特征在于，所述方法包括：

采用各预定类别的初始过滤词集合，过滤原始数据，得到各预定类别的原始样本集合，包括：响应于所述原始数据命中所述初始过滤词集合中的一个初始过滤词，将所述原始数据添加至所述初始过滤词对应的类别的原始样本集合；

对所述原始样本集合进行分类处理，得到验证的准确率满足阈值的更新后的样本集合；

其中，所述分类处理包括：对所述原始样本集合进行过滤处理，得到更新后的样本集合，对所述更新后的样本集合进行验证，得到所述验证的准确率，响应于所述验证的准确率不满足阈值，对所述原始样本集合进行所述分类处理直至所述准确率满足阈值；

其中，所述对所述原始样本集合进行过滤处理，得到更新后的样本集合包括：基于文档主体生成模型提取原始样本集合的表征词集合，包括：采用文档主体生成模型提取所述原始样本集合的表征词集合；对所述表征词集合去噪，得到更新后的过滤词集合；

响应于所述原始数据命中所述更新后的过滤词集合的数量超过预定数量N，将所述原始数据添加至与所述更新后的过滤词集合相对应的更新后的样本集合，其中，N为大于1的整数。

2.根据权利要求1所述的方法，其特征在于，所述对所述原始样本集合进行过滤处理，得到更新后的样本集合还包括：

提取所述原始样本集合的表征词集合；

对所述表征词集合去噪，得到更新后的过滤词集合；

响应于所述原始数据命中所述更新后的过滤词集合的数量超过预定数量，将所述原始数据添加至与所述更新后的过滤词集合相对应的更新样本集合；

响应于所述原始数据未命中所述更新后的过滤词集合，将所述原始数据添加至其它类别的样本集合；

将所述更新样本集合和所述其它类别的样本集合，确定为更新后的样本集合。

3.根据权利要求1或2任意一项所述的方法，其特征在于，所述基于文档主题生成模型提取所述原始样本集合的表征词集合还包括：

采用以下一项或多项提取所述原始样本集合的表征词集合：文本关键词提取算法以及词频-逆向文件频率算法。

4.根据权利要求1或2任意一项所述的方法，其特征在于，所述对所述表征词集合去噪包括以下一项或多项：

对所述表征词集合去停用词；以及

对所述表征词集合去与本词相关性低于预定阈值的词。

5.根据权利要求1所述的方法，其特征在于，所述对所述更新后的样本集合进行验证包括：

对所述更新后的样本集合进行K折交叉验证；和/或

对所述更新后的样本集合进行随机划分训练集合与测试集合的验证。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述验证的准确率满足阈值的更新后的样本集合确定为标准样本集合；

输出所述标准样本集合。

7.根据权利要求1所述的方法，其特征在于，所述原始数据包括：

用户搜索查询数据和/或用户点击标题数据。

8.一种用于分类数据的装置，其特征在于，所述装置包括：

初始过滤单元，用于采用各预定类别的初始过滤词集合，过滤原始数据，得到各预定类别的原始样本集合，包括：响应于所述原始数据命中所述初始过滤词集合中的一个初始过滤词，将所述原始数据添加至所述初始过滤词对应的类别的原始样本集合；

分类处理单元，用于对所述原始样本集合进行分类处理，得到验证的准确率满足阈值的更新后的样本集合，进一步用于：第一表征词提取单元，用于基于文档主体生成模型提取原始样本集合的表征词集合，包括：采用文档主体生成模型提取所述原始样本集合的表征词集合；第一表征词去噪单元，用于对所述表征词集合去噪，得到更新后的过滤词集合；更新后样本添加单元，用于响应于所述原始数据命中所述更新后的过滤词集合的数量超过预定数量N，将所述原始数据添加至与所述更新后的过滤词集合相对应的更新后的样本集合，其中，N为大于1的整数；

其中，所述分类处理包括：对所述原始样本集合进行过滤处理，得到更新后的样本集合，对所述更新后的样本集合进行验证，得到所述验证的准确率，响应于所述验证的准确率不满足阈值，对所述原始样本集合进行所述分类处理直至所述准确率满足阈值。

9.根据权利要求8所述的装置，其特征在于，所述分类处理单元还包括：

第二表征词提取单元，用于提取所述原始样本集合的表征词集合；

第二表征词去噪单元，用于对所述表征词集合去噪，得到更新后的过滤词集合；

更新样本确定单元，用于响应于所述原始数据命中所述更新后的过滤词集合的数量超过预定数量，将所述原始数据添加至与所述更新后的过滤词集合相对应的更新样本集合；

其它样本确定单元，用于响应于所述原始数据未命中所述更新后的过滤词集合，将所述原始数据添加至其它类别的样本集合；

更新后样本确定单元，用于将所述更新样本集合和所述其它类别的样本集合，确定为更新后的样本集合。

10.根据权利要求9所述的装置，其特征在于，所述第一表征词提取单元和所述第二表征词提取单元进一步还用于：

11.根据权利要求9所述的装置，其特征在于，所述第一表征词去噪单元和所述第二表征词去噪单元进一步用于以下一项或多项：

对所述表征词集合去停用词；以及

对所述表征词集合去与本词相关性低于预定阈值的词。

12.根据权利要求8所述的装置，其特征在于，所述分类处理单元进一步用于：

对所述更新后的样本集合进行K折交叉验证；和/或

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

标准样本确定单元，用于将所述验证的准确率满足阈值的更新后的样本集合确定为标准样本集合；

标准样本输出单元，用于输出所述标准样本集合。

14.根据权利要求8所述的装置，其特征在于，所述初始过滤单元中的原始数据包括：

用于搜索查询数据和/或用户点击标题数据。

15.一种设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任意一项所述的用于分类数据的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任意一项所述的用于分类数据的方法。