CN111651586B

CN111651586B - 文本分类的规则模板生成方法、分类方法及装置、介质

Info

Publication number: CN111651586B
Application number: CN202010475878.6A
Authority: CN
Inventors: 韩佳乘; 齐保元; 孟二利
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-05-30
Anticipated expiration: 2040-05-29
Also published as: CN111651586A

Abstract

本公开是关于一种文本分类的规则模板生成方法、分类方法及装置、介质。该方法包括：对候选文本进行分词，获得第一分词结果；基于预设关键词库内的关键词，去除所述第一分词结果中所述关键词以外的非关键词；基于已去除非关键词的第一分词结果，得到候选模板；从所述候选模板中选择出正确率达标的，作为对文本分类的规则模板保存。通过该方法，能缓解人工从文本中制定规则需要大量时间的问题。

Description

文本分类的规则模板生成方法、分类方法及装置、介质

技术领域

本公开涉及自然语言处理领域，尤其涉及一种文本分类的规则模板生成方法、分类方法及装置、介质。

背景技术

文本分类(Text Classification)任务是计算机根据文本内容，自动划分到规定的分类体系中某一类的自然语言处理任务，是众多自然语言处理(Natural LanguageProcessing，NLP)问题的重要组成部分。

目前有两种主流的文本分类方法，一种是传统的机器学习方法，另一种是深度学习方法。传统机器学习需要人工进行文本特征的提取，再利用机器学习模型进行分类。与传统方法相比，在深度学习中使用端到端的模型，文本特征可以通过神经网络自动提取。

不管是传统的机器学习方法还是深度学习方法，对于一些类别都会存在分类效果较差的现象，例如召回率较低。解决这一问题可以通过观察文本数据，总结经验规则加以区分。但由于需要观察的数据量巨大，所以存在规则制定需要花费大量的时间和人力且效率较低的问题。

发明内容

本公开提供一种文本分类的规则模板生成方法、分类方法及装置、介质。

根据本公开实施例的第一方面，提供一种文本分类的规则模板生成方法，包括：

对候选文本进行分词，获得第一分词结果；

基于预设关键词库内的关键词，去除所述第一分词结果中所述关键词以外的非关键词；

基于已去除非关键词的第一分词结果，得到候选模板；

从所述候选模板中选择出正确率达标的，作为对文本分类的规则模板保存。

可选的，所述从所述候选模板中选择出正确率达标的，作为对文本分类的规则模板保存，包括：

利用带文本类型标签的测试文本分别对所述候选模板进行测试，获得各所述候选模板对所述测试文本的预测结果；

根据所述预测结果与所述文本类型标签，选择一个或多个正确率达标的作为所述规则模板保存。

可选的，所述利用带文本类型标签的测试文本分别对所述候选模板进行测试，获得各所述候选模板对所述测试文本的预测结果，包括：

对所述测试文本进行分词，获得第二分词结果；

基于所述预设关键词库内的关键词，去除所述第二分词结果中所述关键词以外的非关键词；

基于已去除非关键词的第二分词结果，得到所述候选模板对应的预测结果；

所述根据所述预测结果与所述文本类型标签，选择一个或多个正确率达标的作为所述规则模板保存，包括：

根据所述预测结果和所述测试文本的文本类型标签是否匹配，分别确定各所述候选模板的正确率；

选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存。

可选的，所述选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存，包括：

对各所述候选模板的正确率进行排序，获得排序结果；

根据所述排序结果，选择正确率最大的一个或多个候选模板作为所述规则模板保存。

可选的，所述方法还包括：

对所述候选模板进行去重；

所述从所述候选模板中选择出正确率达标的，作为对文本分类的规则模板保存，包括：

从去重后的所述候选模板中选择出正确率达标的，作为对所述文本分类的规则模板保存。

可选的，所述对文本分类的规则模板保存，包括：

将所述规则模板以字典数据结构形式进行保存；所述字典数据结构包括：所述规则模板及所述规则模板的模板索引。

可选的，所述预设关键词库内的关键词包括以下至少之一：

动词；

疑问词。

可选的，所述动词包括以下至少之一：

表征肯定的能愿动词；

表征否定的能愿动词。

根据本公开实施例的第二方面，提供一种文本分类方法，使用上述第一方面中的文本分类的规则模板，所述方法包括：

对待分类文本进行分词，获得第三分词结果；

基于所述预设关键词库内的关键词，去除所述第三分词结果中所述关键词以外的非关键词；

将已去除非关键词的第三分词结果与所述规则模板进行匹配；

若所述已去除非关键词的第三分词结果与所述规则模板匹配上，则确定所述待分类文本为所述规则模板所对应的文本类型。

可选的，所述方法还包括：

若所述已去除非关键词的第三分词结果与所述规则模板不匹配，则确定所述待分类文本不为所述规则模板所对应的文本类型。

根据本公开实施例的第三方面，提供一种文本分类的规则模板生成装置，包括：

第一分词模块，配置为对候选文本进行分词，获得第一分词结果；

第一去除模块，配置为基于预设关键词库内的关键词，去除所述第一分词结果中所述关键词以外的非关键词；

候选模块，配置为基于已去除非关键词的第一分词结果，得到候选模板；

保存模块，配置为从所述候选模板中选择出正确率达标的，作为对文本分类的规则模板保存。

可选的，所述保存模块，具体配置为利用带文本类型标签的测试文本分别对所述候选模板进行测试，获得各所述候选模板对所述测试文本的预测结果；根据所述预测结果与所述文本类型标签，选择一个或多个正确率达标的作为所述规则模板保存。

可选的，所述保存模块，具体配置为对所述测试文本进行分词，获得第二分词结果；基于所述预设关键词库内的关键词，去除所述第二分词结果中所述关键词以外的非关键词；基于已去除非关键词的第二分词结果，得到所述候选模板对应的预测结果；根据所述预测结果和所述测试文本的文本类型标签是否匹配，分别确定各所述候选模板的正确率；选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存。

可选的，所述保存模块，具体配置为对各所述候选模板的正确率进行排序，获得排序结果；根据所述排序结果，选择正确率最大的一个或多个候选模板作为所述规则模板保存。

可选的，所述装置还包括：

去重模块，配置为对所述候选模板进行去重；

所述保存模块，具体配置为从去重后的所述候选模板中选择出正确率达标的，作为对所述文本分类的规则模板保存。

可选的，所述保存模块，具体配置为将所述规则模板以字典数据结构形式进行保存；所述字典数据结构包括：所述规则模板及所述规则模板的模板索引。

可选的，所述预设关键词库内的关键词包括以下至少之一：

动词；

疑问词。

可选的，所述动词包括以下至少之一：

表征肯定的能愿动词；

表征否定的能愿动词。

根据本公开实施例的第四方面，提供一种文本分类装置，使用上述第一方面中的文本分类的规则模板，所述装置包括：

第二分词模块，配置为对待分类文本进行分词，获得第三分词结果；

第二去除模块，配置为基于所述预设关键词库内的关键词，去除所述第三分词结果中所述关键词以外的非关键词；

匹配模块，配置为将已去除非关键词的第三分词结果与所述规则模板进行匹配；

第一确定模块，配置为若所述已去除非关键词的第三分词结果与所述规则模板匹配上，则确定所述待分类文本为所述规则模板所对应的文本类型。

可选的，所述装置还包括：

第二确定模块，配置为若所述已去除非关键词的第三分词结果与所述规则模板不匹配，则确定所述待分类文本不为所述规则模板所对应的文本类型。

根据本公开实施例的第五方面，提供一种文本分类装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如上述第一方面中所述的文本分类的规则模板生成方法；或，执行如上述第二方面中所述的文本分类方法。

根据本公开实施例的第六方面，提供一种存储介质，包括：

当所述存储介质中的指令由计算机的处理器执行时，使得计算机能够执行如上述第一方面中所述的文本分类的规则模板生成方法；或，执行如上述第二方面中所述的文本分类方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

在本公开的实施例中，终端事先对候选文本进行分词，并利用预设关键词库对分词处理后的第一分词结果进行关键词抽取，随后基于已去除非关键词的第一分词结果得到候选模板，并从候选模板中选择出正确率达标的模板作为对文本分类的规则模板保存。可以理解的是，本公开利用候选文本和预设关键词库自动抽取生成规则模板，提升了对文本类型下规则的覆盖率，减少了人工总结规则的繁杂工作，缓解了人工从文本中制定规则模板需要大量时间的问题。此外，基于自动抽取生成的规则模板是从候选模板中选择出的正确率达标的模板，因而自动抽取的规则模板在用于文本分类时可以提升文本分类的召回率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例示出的一种文本分类的规则模板生成方法流程图。

图2是本公开实施例示出的一种文本分类方法流程图。

图3是本公开实施例示出的一种文本分类的规则模板生成方法流程示例图。

图4是本公开实施例示出的一种文本分类方法流程示例图。

图5是根据一示例性实施例示出的一种文本分类的规则模板生成装置图。

图6是根据一示例性实施例示出的一种文本分类装置图。

图7是本公开实施例示出的一种终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是本公开实施例示出的一种文本分类的规则模板生成方法流程图，如图1所示，应用于终端中的文本分类的规则模板生成方法包括以下步骤：

S11、对候选文本进行分词，获得第一分词结果；

S12、基于预设关键词库内的关键词，去除所述第一分词结果中所述关键词以外的非关键词；

S13、基于已去除非关键词的第一分词结果，得到候选模板；

S14、从所述候选模板中选择出正确率达标的，作为对文本分类的规则模板保存。

在本公开的实施例中，终端设备包括：移动设备和固定设备；所述移动设备包括：手机、平板电脑等。所述固定设备包括但不限于个人电脑(Personal Computer，PC)。

在步骤S11中，终端对候选文本进行分词，获得第一分词结果。其中，分词是指将连续的字序列按照一定的规范组合成词序列。终端可基于词典分词算法进行分词，也可基于支持向量机(support vector machines，SVM)、隐马尔可夫模型(Hidden Markov Model，HMM)、深度学习等方法进行分词，对此本公开不做具体限制。

在本公开的实施例中，候选文本可为不带文本类型标签的任意文本或带文本类型标签的任意文本。该候选文本可以是来自报刊、书籍中的文本，或来自社交网络中的文本等。

在步骤S12中，终端会基于预设关键词库中的关键词，去除第一分词结果中关键词以外的非关键词。

通常，对于某一文本类型，可能会存在比较明显的句式，句式中包括一些标志性的词语。例如，针对文本类型为建议类别的，观察建议类句式可以发现如下明显的规律：希望XXX加入XXX，建议XXX改善XXX。其中，“希望”、“加入”、“建议”和“改善”等属于具有标识性的词语。对此，本公开预设关键词库，该预设关键词库中包括属于某一预定文本类型的关键词。

在一种实施例中，所述预设关键词库内的关键词包括以下至少之一：

动词；

疑问词。

需要说明的是，动词和疑问词通常能反映出文本的类型，因而在本公开的实施例中，可选择动词和疑问词作为关键词。当然，也可根据不同文本类型的特点来确定如形容词等为关键词。例如，针对文本类型为情绪类别的，可选择例如“开心”或“高兴”等形容词来作为关键词。

在一种实施例中，所述动词包括以下至少之一：

表征肯定的能愿动词；

表征否定的能愿动词。

在该实施例中，动词可包括表征肯定的能愿动词以及表征否定的能愿动词，还可包括一般性动词。此外，在本公开的实施例中，疑问词可包括疑问代词，也可包括疑问副词等。

以建议类别为例，表征肯定的能愿动词如下表一所示：

表一肯定能愿动词

愿意	愿望	想要	应该	应当
					能	能够	可以	望	希望

表征否定的能愿动词如下表二所示：

表二否定能愿动词

不愿意	不愿望	不想要	不应该	不应当
					不能	不能够	不可以	不望	不希望

一般性动词如下表三所示：

表三一般性动词

升级	反馈	建议	强烈建议	要求
					加入	添加	加上	找回来	改回来
无法	恢复	支持	找不到	开通
					改善	没有	修改	处理	更新
删除	解决	增加	减少	找到

疑问代词如下表四所示：

表四疑问代词

怎么没有	怎么不	怎么	如何	什么时候
					能不能	为什么	何时	想想办法吧	哪里

本公开基于预设关键词库，保留第一分词结果中属于预设关键词库中关键词的部分。在步骤S13中，基于已去除非关键词的第一分词结果，得到候选模板。例如，对于已去除非关键词的第一分词结果，对剩余的分词用空格或逗号进行分隔而形成候选模板。

可以理解的是，该候选模板中保留的是属于预设关键词库中的关键词。同时，基于候选文本的语法规则，抽取了关键词后的候选模板中还基于语法规则保留了各关键词之间的顺序，即保留了句式特点。

在步骤S14中，选择出正确率达标的候选模板，作为对文本分类的规则模板，并保存规则模板。需要说明的是，在本公开的实施例中，虽然候选模板中保留的均是预设关键词库中的关键词，但是使用该候选模板进行文本类型判断的准确率可能并不高。例如，以建议类别为例，候选模板中只有一个关键词“加入”，然而可能并不是输入的句子中有这个词就一定是建议类别。因此，本公开从候选模板中选择出正确率达标的模板作为文本分类的规则模板。

需要说明的是，本公开实施例中，从候选模板中选择出正确率达标的模板的方式，可以是从候选模板中选择出关键词个数达标的模板，其中，正确率达标可指关键词的个数满足预设个数阈值。从候选模板中选择出正确率达标的模板的方式还可以是利用带文本类型标签的测试文本来对候选模板进行测试选择出规则模板。

在利用测试文本的方式中，正确率达标可以是指利用测试文本获得的候选模板的正确率超过预设正确率阈值，还可以是指候选模板的正确率从高到低排序后排序靠前的部分。

可以理解的是，候选模板中关键词的个数越多，属于预定文本类型的可能性就越大；此外，带文本类型标签的测试文本因事先知道文本类型标签，因而方便对候选模板的正确性进行验证。本公开基于选择出的规则模板，即可利用该规则模板对输入文本进行文本分类。

在一种实施例中，所述从所述候选模板中选择出正确率达标的，作为对文本分类的规则模板保存，包括：

在该实施例中，如前所述的，带文本类型标签的测试文本因事先知道文本类型，因而方便对候选模板的正确性进行预测，从而根据预测结果和文本类型标签筛选出正确率达标的模板作为规则模板保存。

需要说明的是，在本公开的实施例中，预测结果包括将测试文本与候选模板进行匹配时得到的预测文本类型标签。

基于预测文本类型标签与测试文本已知的文本类型标签是否一致，即可确定出候选模板的正确率。

此外，在本公开的实施例中，测试文本包括属于预设关键词库所对应文本类型(预定文本类型)的文本(正样本)，该正样本对应的文本类型标签标识为预定文本类型；测试文本中还包括预设关键词库所对应文本类型以外的文本(负样本)，该负样本对应的文本类型标签标识为非预定文本类型。利用包括属于预定文本类型和非预定文本类型的测试文本对候选模板进行测试，从而选择出正确率达标的候选模板作为规则模板，能提升规则模板的质量。

在该实施例中，针对每个候选模板，均用所有的测试文本进行测试获得预测结果，并结合测试文本对应的文本类型标签来确定当前测试的候选模板的正确率。在分别确定各候选模板的正确率后，即可根据正确率选择规则模板保存。

可以理解的是，相对于根据候选模板中关键词个数的方式来选择出规则模板的方式，利用带文本类型标签的测试文本的方式因考虑到了句式特点，因而在结合事先已知的文本类型标签来选择出规则模板时，能提升规则模板选择的质量。

在一种实施例中，所述利用带文本类型标签的测试文本分别对所述候选模板进行测试，获得各所述候选模板对所述测试文本的预测结果，包括：

对所述测试文本进行分词，获得第二分词结果；

基于已去除非关键词的第二分词结果，得到所述候选模板对应的所述预测结果；

在该实施例中，在利用带文本类型标签的测试文本进行测试时，也需要做分词处理获得第二分词结果。在获得第二分词结果后，终端利用预设关键词库内的关键词去除第二分词结果中关键词以外的非关键词，并基于已去除非关键词的第二分词结果，得到候选模板对应的预测结果。在得到预测结果后，基于预测结果和文本类型标签是否匹配，即可分别确定各候选模板的正确率。

例如，候选模板包括：(1)希望增加；(2)希望加入。测试文本包括：(1)正样本：希望增加；(2)负样本：希望睡觉。在利用测试文本对候选模板进行测试时：

针对候选模板(1)，利用测试文本(1)对候选模板(1)测试时，得到的是相匹配的预测结果，基于测试文本(1)被标记为正样本，则确定候选文本(1)针对测试文本(1)正确；利用测试文本(2)对候选模板(1)测试时，得到的是不匹配的预测结果，基于测试文本(2)被标记为负样本，则确定候选文本(1)针对测试文本(2)也正确，则候选模板(1)的正确率为100％。

针对候选模板(2)，利用测试文本(1)对候选模板(2)测试时，得到的是不相匹配的预测结果，基于测试文本(1)被标记为正样本，则确定候选模板(2)针对测试文本(1)错误；利用测试文本(2)对候选模板(2)测试时，得到的是不相匹配的预测结果，基于测试文本(2)被标记为负样本，则确定候选模板(2)针对测试文本(2)正确，则候选模板(2)的正确率为50％。

基于各候选模板的正确率，即可选择出规则模板进行保存。如前所述的，在一种方式中，可将各正确率与预设正确率阈值进行比较，选择出一个或多个正确率超过预设正确率阈值的候选模板作为规则模板保存。例如，预设正确率阈值是80％，则选择出候选模板(1)为规则模板。

在另一种实施例中，所述选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存，包括：

对各所述候选模板的正确率进行排序，获得排序结果

在该实施例中，对候选模板的正确率进行排序，基于排序结果选择正确率最大的一个或多个候选模板作为规则模板保存，例如，对各候选模板的正确率按从大到小的顺序进行排序后，确定正确率位于前80％位置的候选模板作为规则模板保存。

可以理解的是，在该实施例中，通过对候选模板的正确率进行排序后来选择规则模板，可提升规则模板的选择速度。

在一种实施例中，所述方法还包括：

对所述候选模板进行去重；

在本公开的实施例中，如前所述的，候选模板是对候选文本利用预设关键词库进行关键词筛选后获得的，因不同的候选文本可能存在相同的关键词，因而得到的候选模板可能存在重复。

对此，本公开事先对候选模板进行去重再确定规则模板进行保存，能减少不必要的选取以及重复保存，因而能提升规则模板的获取速度和减少内存占用。

在一种实施例中，所述对文本分类的规则模板保存，包括：

在该实施例中，在保存规则模板时，可以字典数据结构形式进行保存。当以字典数据结构进行保存时，通常是以键值对的方式进行保存，以方便后续检索。在一种实施例中，以规则模板作为关键字(key)，以模板索引作为值(value)。

可以理解的是，以字典数据结构形式保存规则模板，使得在利用规则模板对待分类文本进行分类时，可以以单条规则模板整体为单位进行匹配，而不用逐个字去匹配待分类文本与规则模板是否匹配，因而通过该种保存方式能降低匹配时的时间复杂度。

当然，在本公开的实施例中，也可以以树结构的形式保存规则模板。例如，树结构的父节点为不同规则模板中相同的首词语，而子节点逐级覆盖规则模板中的其他词语。

通过树结构的保存形式，使得在利用规则模板对待分类文本进行分类时，可以根据待分类文本的首词语仅加载对应的树，并进一步确定是否能与树结构中的一条路径匹配。可以理解的是，通过树结构的保存方式，也能降低匹配时的时间复杂度。

图2是本公开实施例示出的一种文本分类方法流程图，该文本分类方法利用了上述文本分类的规则模板，如图2所示，应用于终端中的文本分类方法包括以下步骤：

S21、对待分类文本进行分词，获得第三分词结果；

S22、基于所述预设关键词库内的关键词，去除所述第三分词结果中所述关键词以外的非关键词；

S23、将已去除非关键词的第三分词结果与所述规则模板进行匹配；

S24、若所述已去除非关键词的第三分词结果与所述规则模板匹配上，则确定所述待分类文本为所述规则模板所对应的文本类型。

在本公开的实施例中，在利用上述文本分类的规则模板生成方法获得的规则模板进行文本分类时，终端也需要事先对待分类文本进行分词，并利用预设关键词库对分词处理后的第三分词结果进行关键词抽取，随后将已去除非关键词的第三分词结果与规则模板进行匹配，若能匹配上，则确定待分类文本为规则模板所对应的文本类型。

利用本公开的规则模板对待分类文本进行分类后，即可基于文本分类结果进行如扫黄识别、用户画像建立或信息推荐等应用。例如，规则模板是情绪类的模板，当基于采集用户一段时间内输入的聊天信息(待分类文本)，基于规则模板确定用户在这段时间内经常表达情绪相关内容后，即可确定该用户最近情绪可能出现异常，从而提示需要对该用户给予一定关注，或向该用户推荐情绪排解相关的广告等。

在一种实施例中，所述方法还包括：

在该实施例中，若已去除非关键词的第三分词结果与规则模板不匹配，则确定待分类文本不为规则模板所对应的文本类型。

可以理解的是，在本公开的实施例中，利用终端自动抽取的规则模板进行文本分类，能提升文本分类的召回率。

图3是本公开实施例示出的一种文本分类的规则模板生成方法流程示例图，如图3所示，包括以下步骤：

S101、数据集划分。

在该实施例中，数据集是指大量的文本，从大量的文本中划分出候选文本以及测试文本，以用于获得高质量的规则模板。

例如，在数据集中，划分出20％的文本作为测试文本，80％的作为候选文本。其中，候选文本用于提取关键字，抽取候选模板；测试文本用于验证候选模板的正确性，以选择出正确率达标的规则模板。

S102、建立关键词字典。

在该实施例中，关键词字典即预设的关键词库，其中的关键词可包括肯定的能愿动词、否定的能愿动词、一般动词、疑问词等。

S103、模板抽取。

在该实施例中，模板抽取即获得候选模板的过程。首先对一条候选文本进行分词，删除不属于预设关键词库中关键词的分词，将剩余的分词用空格分隔，即形成一条候选模板。

S104、模板筛选。

在该实施例中，模板筛选包括候选模板的去重，还包括将每一条规则模板在测试文本上进行验证得到正确率结果，再对正确率结果从大到小进行排序，删除正确率过低的模板。筛选后的模板即为规则模板。

S105、模板持久化。

在该实施例中，模板持久化即为规则模板的保存。如上述的，可以字典数据结构的形式进行保存，例如将规则模板持久化到规则文件中，每一行保存一条规则模板。当然，也可以以树结构的形式进行保存。

以规则模板是建议类的模板为例，图4是本公开实施例示出的一种文本分类方法流程示例图，如图4所示，包括如下步骤：

S201、待判断文本分词。

在该实施例中，待判断文本即为待分类文本，对待判断文本分词得到第三分词结果。

S202、保留关键词。

在该实施例中，同样运用预设关键词库去除第三分词结果中关键词以外的非关键词。需要说明的是，该预设关键词库中存储的是属于建议类的关键词。

S203、规则是否匹配。若是，执行步骤S204；若否，执行步骤S205。

在该实施例中，规则匹配即将已去除非关键词的第三分词结果与规则模板进行匹配。

S204、是建议类。

在该实施例例中，若能匹配上规则模板中的一条规则，则说明待判断文本是建议类。

S205、不是建议类。

在该实施例例中，若不能匹配上规则模板中的一条规则，则说明待判断文本不是建议类。

图5是根据一示例性实施例示出的一种文本分类的规则模板生成装置图。参照图5，该文本分类的规则模板生成装置包括：

第一分词模块101，配置为对候选文本进行分词，获得第一分词结果；

第一去除模块102，配置为基于预设关键词库内的关键词，去除所述第一分词结果中所述关键词以外的非关键词；

候选模块103，配置为基于已去除非关键词的第一分词结果，得到候选模板；

保存模块104，配置为从所述候选模板中选择出正确率达标的，作为对文本分类的规则模板保存。

可选的，所述保存模块104，具体配置为利用带文本类型标签的测试文本分别对所述候选模板进行测试，获得各所述候选模板对所述测试文本的预测结果；根据所述预测结果与所述文本类型标签，选择一个或多个正确率达标的作为所述规则模板保存。

可选的，所述保存模块104，具体配置为对所述测试文本进行分词，获得第二分词结果；基于所述预设关键词库内的关键词，去除所述第二分词结果中所述关键词以外的非关键词；基于已去除非关键词的第二分词结果，得到所述候选模板对应的预测结果；根据所述预测结果和所述测试文本的文本类型标签是否匹配，分别确定各所述候选模板的正确率；选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存。

可选的，所述保存模块104，具体配置为对各所述候选模板的正确率进行排序，获得排序结果；根据所述排序结果，选择正确率最大的一个或多个候选模板作为所述规则模板保存。

可选的，所述装置还包括：

去重模块105，配置为对所述候选模板进行去重；

所述保存模块104，具体配置为从去重后的所述候选模板中选择出正确率达标的，作为对所述文本分类的规则模板保存。

可选的，所述保存模块104，具体配置为将所述规则模板以字典数据结构形式进行保存；所述字典数据结构包括：所述规则模板及所述规则模板的模板索引。

可选的，所述预设关键词库内的关键词包括以下至少之一：

动词；

疑问词。

可选的，所述动词包括以下至少之一：

表征肯定的能愿动词；

表征否定的能愿动词。

图6是根据一示例性实施例示出的一种文本分类装置图。该文本分类装置使用上述的文本分类的规则模板，参照图6，所述装置包括：

第二分词模块201，配置为对待分类文本进行分词，获得第三分词结果；

第二去除模块202，配置为基于所述预设关键词库内的关键词，去除所述第三分词结果中所述关键词以外的非关键词；

匹配模块203，配置为将已去除非关键词的第三分词结果与所述规则模板进行匹配；

第一确定模块204，配置为若所述已去除非关键词的第三分词结果与所述规则模板匹配上，则确定所述待分类文本为所述规则模板所对应的文本类型。

可选的，所述装置还包括：

第二确定模块205，配置为若所述已去除非关键词的第三分词结果与所述规则模板不匹配，则确定所述待分类文本不为所述规则模板所对应的文本类型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种终端装置800的框图。例如，装置800可以是手机，电脑等。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行文本分类的规则模板生成方法，所述方法包括：

对候选文本进行分词，获得第一分词结果；

基于已去除非关键词的第一分词结果，得到候选模板；

本公开中，当所述存储介质中的指令由终端的处理器执行时，还使得终端能够执行文本分类方法，该文本分类方法使用上述文本分类的规则模板，所述方法包括：

对待分类文本进行分词，获得第三分词结果；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本分类的规则模板生成方法，其特征在于，所述方法包括：

对候选文本进行分词，获得第一分词结果；

基于已去除非关键词的第一分词结果，得到候选模板；

2.根据权利要求1所述的方法，其特征在于，所述从所述候选模板中选择出正确率达标的，作为对文本分类的规则模板保存，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用带文本类型标签的测试文本分别对所述候选模板进行测试，获得各所述候选模板对所述测试文本的预测结果，包括：

对所述测试文本进行分词，获得第二分词结果；

根据所述候选模板及已去除非关键词的第二分词结果，得到所述候选模板对应的预测结果；

4.根据权利要求3所述的方法，其特征在于，所述选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存，包括：

对各所述候选模板的正确率进行排序，获得排序结果；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述候选模板进行去重；

6.据权利要求1所述的方法，其特征在于，所述对文本分类的规则模板保存，包括：

7.根据权利要求1所述的方法，其特征在于，所述预设关键词库内的关键词包括以下至少之一：

动词；

疑问词。

8.根据权利要求7所述的方法，其特征在于，所述动词包括以下至少之一：

表征肯定的能愿动词；

表征否定的能愿动词。

9.一种文本分类方法，其特征在于，使用权利要求1至8中任一项所述的文本分类的规则模板，所述方法包括：

对待分类文本进行分词，获得第三分词结果；

10.根据权利要求9所述的方法，其特征在，所述方法还包括：

11.一种文本分类的规则模板生成装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，

所述保存模块，具体配置为利用带文本类型标签的测试文本分别对所述候选模板进行测试，获得各所述候选模板对所述测试文本的预测结果；根据所述预测结果与所述文本类型标签，选择一个或多个正确率达标的作为所述规则模板保存。

13.根据权利要求12所述的装置，其特征在于，

所述保存模块，具体配置为对所述测试文本进行分词，获得第二分词结果；基于所述预设关键词库内的关键词，去除所述第二分词结果中所述关键词以外的非关键词；基于已去除非关键词的第二分词结果，得到所述候选模板对应的预测结果；根据所述预测结果和所述测试文本的文本类型标签是否匹配，分别确定各所述候选模板的正确率；选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存。

14.根据权利要求13所述的装置，其特征在于，

所述保存模块，具体配置为对各所述候选模板的正确率进行排序，获得排序结果；根据所述排序结果，选择正确率最大的一个或多个候选模板作为所述规则模板保存。

15.根据权利要求11所述的装置，其特征在于，所述装置还包括：

去重模块，配置为对所述候选模板进行去重；

16.据权利要求11所述的装置，其特征在于，

所述保存模块，具体配置为将所述规则模板以字典数据结构形式进行保存；所述字典数据结构包括：所述规则模板及所述规则模板的模板索引。

17.根据权利要求11所述的装置，其特征在于，所述预设关键词库内的关键词包括以下至少之一：

动词；

疑问词。

18.根据权利要求17所述的装置，其特征在于，所述动词包括以下至少之一：

表征肯定的能愿动词；

表征否定的能愿动词。

19.一种文本分类装置，其特征在于，使用权利要求1至8中任一项所述的文本分类的规则模板，所述装置包括：

20.根据权利要求19所述的装置，其特征在，所述装置还包括：

21.一种文本分类装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1至8中任一项所述的文本分类的规则模板生成方法；或，执行如权利要求9至10中任一项所述的文本分类方法。

22.一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算机的处理器执行时，使得计算机能够执行如权利要求1至8中任一项所述的文本分类的规则模板生成方法；或，执行如权利要求9至10中任一项所述的文本分类方法。