CN106778862A

CN106778862A - 一种信息分类方法及装置

Info

Publication number: CN106778862A
Application number: CN201611139448.7A
Authority: CN
Inventors: 蔡宏伟; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2017-05-31
Anticipated expiration: 2036-12-12
Also published as: CN106778862B

Abstract

一种信息分类方法及装置，所述方法包括：获取多个样例特征标签，并获取每个样例特征标签与待分类的主题类别之间的关系；对多个待分类句子进行分词处理，得到待处理词语集合；对待处理词语进行同类词替换处理，得到更新后词语集合；根据所述更新后词语集合中各待分类句子包含的第一词语组合出现的频次，生成待分类特征标签；计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度，当所述最大语义相似度大于或等于预设的相似度阈值时，则最大语义相似度对应的样例特征标签作为所述待分类特征标签的目标特征标签；将所述待分类特征标签对应的待分类句子标注为所述目标特征标签对应的主题类别。所述方法及装置可以提升信息分类的效率。

Description

一种信息分类方法及装置

技术领域

本发明涉及信息处理领域，尤其涉及一种信息分类方法及装置。

背景技术

在信息处理领域，尤其是在数据分析领域，通常需要数据进行分类，然后对已分类的数据进行进一步处理。例如在智能交互中对交互日志的数据分析过程中，就需要对分类后的交互日志进行进一步的分析处理。

在现有技术中，通常需要人工进行信息分类，效率较低。

发明内容

本发明解决的技术问题是提升信息分类的效率。

为解决上述技术问题，本发明实施例提供一种信息分类方法，包括：获取多个样例特征标签，并获取每个样例特征标签与待分类的主题类别之间的关系；对多个待分类句子进行分词处理，得到待处理词语集合；对待处理词语进行同类词替换处理，得到更新后词语集合；根据所述更新后词语集合中各待分类句子包含的第一词语组合出现的频次，生成待分类特征标签；计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度，当所述最大语义相似度大于或等于预设的相似度阈值时，则最大语义相似度对应的样例特征标签作为所述待分类特征标签的目标特征标签；将所述待分类特征标签对应的待分类句子标注为所述目标特征标签对应的主题类别。

可选的，所述第一词语组合的生成过程，包括：将所述更新后词语集合中每个待分类句子对应的全部词语的组合作为一个第一词语组合。

可选的，所述同类词替换处理包括将待处理词语替换为与其同义或同类的目标词语。

可选的，同类词替换处理前，还包括：将所述样例特征标签中与所述待处理词语同类或同义的词作为目标词语。

可选的，生成待分类特征标签的过程，包括：若所述更新后词语集合中有第一词语组合出现的频次大于或等于预设的频次阈值，则将该第一词语组合作为待分类特征标签。

可选的，所述信息分类方法还包括：若所述更新后词语集合中有第一词语组合出现的频次小于或等于预设第一频次阈值，则针对该第一词语组合对应的每个待分类句子生成各自的待分类特征标签。

可选的，计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度，包括：

将所述待分类特征标签对应的第一词语组合与所述样例特征标签对应的第二词语组合进行匹配，得到匹配词语；

根据所述待分类特征标签与匹配词语的预设语义权重值加和，分别生成所述待分类特征标签与各样例特征标签的语义相似度值；

将所述待分类特征标签与各样例特征标签的语义相似度值中的最大值作为得到最大语义相似度。

可选的，生成与各样例特征标签的语义相似度值之前，还包括：将业务名词和/或商品名词的语义权重值设置为大于或等于所述预设的相似度阈值。

可选的，所述信息分类方法，还包括，若所述最大语义相似度小于或等于所述预设的相似度阈值，则将所述待分类特征标签对应的待分类句子标注为缺省主题类别。

可选的，所述生成待分类特征标签之前，还包括：

去除所述更新后词语集合中对所述待分类句子的语义的影响值小于或等于预设影响值的词语，以生成所述待分类句子对应的所述第一词语组合。

可选的，所述多个待分类句子包括：交互系统的交互日志中的问题语句和/或答案语句。

可选的，所述样例特征标签通过如下方式生成：

对所述主题类别的语料中各个样例语句进行分词处理，得到主题词语集合；

对所述主题词语集合进行同类词替换处理，得到更新后的主题词语集合；

根据所述更新后的主题词语集合中所述各个样例语句包含的第二词语组合出现的频次，生成所述主题类别对应的至少一个所述样例特征标签。

可选的，根据所述更新后的主题词语集合中所述各个样例语句包含的第二词语组合出现的频次，生成所述主题类别对应的至少一个所述样例特征标签，包括：

若所述主题词语集合中有第二词语组合出现的频次大于或等于预设的第二频次阈值，则将该第二词语组合作为所述样例特征标签。

可选的，生成所述主题类别对应的样例特征标签之前，还包括：

去除更新后的主题词语集合中对所述各个样例语句的语义的影响值小于或等于预设影响值的词语，以生成所述各个样例语句对应的第二词语组合。

可选的，所述语义的影响值小于或等于预设影响值的词语包括以下至少一种：连接词以及助词。

可选的，所述对所述主题词语集合进行同类词替换处理，得到更新后的主题词语集合，包括：

对基于同类词库确定所述主题词语集合中的同类的多个词语；

将所述同类或同义的多个词语统一替换为目标词语，得到更新后的主题词语集合；

其中，对所述待处理词语集合进行替换处理与对所述主题词语集合进行同类词替换处理基于相同的同类词库，且所述待处理词语集合与所述主题词语集合中的同类或同义词替换为相同的目标词语。

可选的，采用反向最大匹配法或viterbi算法进行所述分词处理。

本发明实施例还提供一种信息分类装置，包括：

样例特征标签获取模块，适于获取多个样例特征标签，并获取每个样例特征标签与待分类的主题类别之间的关系；

分词处理模块，适于对多个待分类句子进行分词处理，得到待处理词语集合；

替换处理模块，适于对待处理词语进行同类词替换处理，得到更新后词语集合；

待分类特征标签生成模块，适于根据所述更新后词语集合中各待分类句子包含的第一词语组合出现的频次，生成待分类特征标签；

目标特征标签确定模块，适于计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度，当所述最大语义相似度大于或等于预设的相似度阈值时，则最大语义相似度对应的样例特征标签作为所述待分类特征标签的目标特征标签；

主题类别确定模块，适于将所述待分类特征标签对应的待分类句子标注为所述目标特征标签对应的主题类别。

可选的，待分类特征标签生成模块适于将所述更新后词语集合中每个待分类句子对应的全部词语的组合作为一个第一词语组合。

可选的，所述替换处理模块适于将待处理词语替换为与其同义或同类的目标词语。

可选的，所述信息分类装置还包括：目标词语确定模块，适于在所述替换处理模块进行所述替换处理前，将将所述样例特征标签中与所述待处理词语同类或同义的词作为目标词语。

可选的，所述待分类特征标签生成模块，适于若所述更新后词语集合中有第一词语组合出现的频次大于或等于预设的频次阈值，则将该第一词语组合作为待分类特征标签。

可选的，所述待分类特征标签生成模块，适于若所述更新后词语集合中有第一词语组合出现的频次小于或等于预设第一频次阈值，则针对该第一词语组合对应的每个待分类句子生成各自的待分类特征标签。

可选的，所述目标特征标签确定模块，包括：

匹配词语确定单元，适于将所述待分类特征标签对应的第一词语组合与所述样例特征标签对应的第二词语组合进行匹配，得到匹配词语；

语义相似度计算单元，适于根据所述待分类特征标签与匹配词语的预设语义权重值加和，分别生成所述待分类特征标签与各样例特征标签的语义相似度值；

最大语义相似度确定单元，适于将所述待分类特征标签与各样例特征标签的语义相似度值中的最大值作为得到最大语义相似度。

可选的，所述信息分类装置还包括：缺省主题类别模块，适于若所述最大语义相似度小于或等于所述预设的相似度阈值，则将所述待分类特征标签对应的待分类句子标注为缺省主题类别。

可选的，所述信息分类装置还包括：第一词语去除模块，适于去除所述更新后词语集合中对所述待分类句子的语义的影响值小于或等于预设影响值的词语，以生成所述待分类句子对应的所述第一词语组合。

可选的，所述样例特征标签获取模块包括：

主题词语集合生成单元，适于对所述主题类别的语料中各个样例语句进行分词处理，得到主题词语集合；

主题词语集合更新单元，适于对所述主题词语集合进行同类词替换处理，得到更新后的主题词语集合；

样例特征标签生成单元，适于根据所述更新后的主题词语集合中所述各个样例语句包含的第二词语组合出现的频次，生成所述主题类别对应的至少一个所述样例特征标签。

可选的，样例特征标签生成单元适于若所述主题词语集合中有第二词语组合出现的频次大于或等于预设的第二频次阈值，则将该第二词语组合作为所述样例特征标签。

可选的，所述信息分类装置还包括：第二词语去除单元，适于在样例特征标签生成单元生成所述主题类别对应的样例特征标签之前，去除更新后的主题词语集合中对所述各个样例语句的语义的影响值小于或等于预设影响值的词语，以生成所述各个样例语句对应的第二词语组合。

可选的，主题词语集合更新单元，包括：

同义或同类词语确定子单元，适于对基于同类词库确定所述主题词语集合中的同类或同义的多个词语；

目标词语替换子单元，适于将所述同类或同义的多个词语统一替换为目标词语，得到更新后的主题词语集合；

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例中，通过获取与主题类别相关联的样例特征标签；通过分词、同类词替换等过程生成待分类特征标签；基于待分类特征标签与样例特征标签的语义相似度确定目标特征标签；根据目标特征标签对应的主题类别，确定待分类句子的主题类别。通过上述过程，可以更为智能的确定待分类句子的主题类别，提升信息分类的效率。由于待分类标签是对多个待分类句子进行处理得到的，故本发明实施例中的信息分类方法可以用于批量处理，信息分类的效率较高。由于待分类特征标签是基于第一词语组合出现的频次生成的，故通过对分词后得到的待处理词语进行同类词替换处理，可以提升待分类特征标签生成的效率，进而提升信息分类的效率。

进一步，将所述样例特征标签中与所述待处理词语同类或同义的词作为目标词语，可以提升待分类特征标签和样例特征标签中词语重合的概率，进而可以提升信息分类的准确性和效率。

进一步，本发明一实施例可以通过匹配待分类特征标签对应的第一词语组合与所述样例特征标签对应的第二词语组合，得到匹配词语；根据所述待分类特征标签与匹配词语的预设语义权重值加和，分别生成所述待分类特征标签与各样例特征标签的语义相似度值，将所述待分类特征标签与各样例特征标签的语义相似度值中的最大值作为得到最大语义相似度。由此，可以通过预设匹配词语的权重值，以得到样例特征标签的语义相似度值，进而可以更加灵活的对特征标签的语义相似度值进行计算，以满足更多的应用场景的需要和更多样化的用户需求。

进一步，在生成待分类特征标签之前，去除所述更新后词语集合中对所述待分类句子的语义的影响值小于或等于预设影响值的词语，可以提升各个第一词语组合中包含的词语的重合率，进而可以提升生成待分类特征标签的成功率和效率。

另外，对所述待处理词语集合进行替换处理与对所述主题词语集合进行同类词替换处理基于相同的同类词库，并且所述待处理词语集合与所述主题词语集合中的同类或同义词替换为相同的目标词语，可以使得待分类特征标签和样例特征标签中各个同类词语均被替换为相同的目标词语，可以提升待分类特征标签和样例特征标签中词语重合的概率，进而可以提升信息分类的准确性和效率。

附图说明

图1是本发明实施例中一种信息分类方法的流程图；

图2是图1中步骤S15的一种具体实现的流程图；

图3是本发明实施例中一种样例特征标签生成方法的流程图；

图4是图3中步骤S32的一种具体实现的流程图；

图5是本发明实施例中一种信息分类装置的结构示意图；

图6是图5中目标特征标签确定模块55的一种具体实现的结构示意图；

图7是图5中样例特征标签获取模块51的一种具体实现的结构示意图；

图8是图7中主题词语集合更新单元72的一种具体实现的结构示意图。

具体实施方式

如前所述，在信息处理领域，尤其是在数据分析领域，通常需要对已分类的数据进行进一步处理。例如在智能交互中对交互日志的数据分析的过程中，就需要对分类后的交互日志进行进一步的分析处理。但是在现有技术中，通常需要人工进行信息分类，效率较低。

在本发明实施例中，通过获取与主题类别相关联的样例特征标签；通过分词、同类词替换等过程生成待分类特征标签；基于待分类特征标签与样例特征标签的语义相似度确定目标特征标签；根据目标特征标签对应的主题类别，确定待分类句子的主题类别。通过上述过程，可以更为智能的确定待分类句子的主题类别，提升信息分类的效率。由于待分类标签是对多个待分类句子进行处理得到的，故本发明实施例中的信息分类方法可以用于批量处理，信息分类的效率较高。

由于待分类特征标签是基于第一词语组合出现的频次生成的，故通过对分词后得到的待处理词语进行同类词替换处理，可以使得各个第一词语组合中原不同的同类词被替换成相同的目标词语，进而可以提升第一词语组合出现的频次，并提升待分类标签生成的成功率，进一步可以提升信息分类的成功率。

另外，生成待分类特征标签的过程需要对词语集合中各待分类句子包含的第一词语组合出现的频次进行统计，故第一词语组合的种类越多，统计所针对的对象越多，效率越低。故对待处理词语进行同类词替换处理，可以减少仅因包含同类词而不被作为相同的第一词语组合的概率，进而可以提升待分类特征标签生成的效率，进一步可以提升信息分类的效率。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例中一种信息分类方法的流程图，包括步骤S11至步骤S16。

在步骤S11中，获取多个样例特征标签，并获取每个样例特征标签与待分类的主题类别之间的关系。

样例特征标签对应于主题类别，一个主题类别可以对应于多个特征标签，一个特征标签可以只对应于一个主题类别。

在步骤S12中，对多个待分类句子进行分词处理，得到待处理词语集合。

在具体实施中，多个待分类句子可以来自交互系统中的交互日志，可以是一段时间内对应同一主体的交互日志。更具体而言，待分类句子可以是交互系统的交互日志中的问题语句和/或答案语句。

在步骤S13中，对待处理词语进行同类词替换处理，得到更新后词语集合。

同类词可以是同类型词语或者同义词语。例如，诸如肯德基、麦当劳之类对应于快餐名称的词语可以作为同类词，不同的手机品牌也可以作为同类词语；温度、气温等意思相近的词语也可以作为同类词。

在一具体实现中，进行同类词替换，可以是将同类词统一替换为与该同类词同义或同类的目标词语。如此，替换后的目标词语也具有较高的可读性。

目标词语可以是根据需要进行设定的，由于待分类特征标签是基于第一词语组合出现的频次生成的，故通过对分词后得到的待处理词语进行同类词替换处理，可以使得各个第一词语组合中原不同的同类词被替换成相同的目标词语，进而可以提升第一词语组合出现的频次，并提升待分类标签生成的效率，进一步可以提升信息分类的效率。

优选地，也可以将所述样例特征标签中与所述待处理词语同类或同义的词作为目标词语。由此，可以提升待分类特征标签和样例特征标签中词语重合的概率，进而可以提升信息分类的准确性和效率。

在步骤S14中，根据所述更新后词语集合中各待分类句子包含的第一词语组合出现的频次，生成待分类特征标签。

各个待分类句子均可以包含词语组合，词语组合中可以包括多个词语，第一词语组合可以是所述更新后词语集合中每个待分类句子对应的全部的词语组合。也即，若待分类句子在经过分词处理和同类词替换后，对应的词语集合中还包含三个词语，则将该三个词语的两两组合和该三个词语的组合均作为第一词语组合。

具体地，可以将出现的频次大于或等于预设的频次阈值的第一词语组合作为待分类特征标签。通过设置频次阈值，可以灵活设置对待分类特征标签的生成条件，进而满足更多的应用场景和用户需求。

当所述更新后词语集合中有第一词语组合出现的频次小于或等于预设第一频次阈值时，也可以针对该第一词语组合对应的每个待分类句子生成各自的待分类特征标签。根据需要，也可以将待分类特征标签与各样例特征标签进行对比，如下述步骤S15和步骤S16，以避免待分类句子的主题类别确定的遗漏。

可以看出，出现的频次大于或等于预设的频次阈值的第一词语组合或出现的频次小于预设的频次阈值的第一词语组合均可以作为待分类特征标签，对于出现频次大于或等于预设的频次阈值的第一词语组合，可以均用来计算与样例特征标签的最大语义相似度，例如进行步骤S15和步骤S16，而对于出现的频次小于预设的频次阈值的第一词语组合，可以根据需要进行设定。

这是由于，当第一词语组合的出现的频次大于或等于预设的频次阈值时，对应该第一词语组合的待分类句子较多，此时进行与样例特征标签的最大语义相似度，确定目标特征标签后，可以一次对多个待分类句子进行主题类别的确定，效率较高。

而对于频次小于预设的频次阈值的第一词语组合，可以进行更加灵活的处理，根据需要，当需要确定更多待分类句子的主题类别时，可以将出现的频次小于预设的频次阈值的第一词语组合也作为待分类特征标签，以进行后续的主题类别的判断。

在具体实施中，也可以针对不同的第一词语组合，设定不同的频次阈值，具体地，可以将对包含业务名词和/或商品名词的第一词语组合设定较低的频次阈值，例如，可以设定为包含业务名词和/或商品名词的第一词语组合出现1次即可生成待分类特征标签。由此，可以根据用户需要，避免遗漏对用户更为关注的领域的待分类句子进行主题分类。

在具体实施中，生成待分类特征标签之前还可以去除所述更新后词语集合中对所述待分类句子的语义的影响值小于或等于预设影响值的词语，以生成所述待分类句子对应的所述第一词语组合。例如，可以去除助词和连词。

通过对多个待分类句子进行处理，以生成待分类特征标签，可以对完成对待分类句子的批量处理，进而可以提升信息分类方法的效率。

在步骤S15中，计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度，当所述最大语义相似度大于或等于预设的相似度阈值时，则最大语义相似度对应的样例特征标签作为所述待分类特征标签的目标特征标签。

若所述最大语义相似度小于或等于所述预设的相似度阈值，则可以将所述待分类特征标签对应的待分类句子标注为缺省主题类别。

参见图2，在具体实施中，可以通过步骤S21至步骤S23完成待分类特征标签与多个所述样例特征标签的最大语义相似度的计算：

步骤S21，将所述待分类特征标签对应的第一词语组合与所述样例特征标签对应的第二词语组合进行匹配，得到匹配词语；

步骤S22，根据所述待分类特征标签与匹配词语的预设语义权重值加和，分别生成所述待分类特征标签与各样例特征标签的语义相似度值；

步骤S23，将所述待分类特征标签与各样例特征标签的语义相似度值中的最大值作为得到最大语义相似度。

其中，匹配词语的预设语义权重值可以从预设的词语权重表中得到，词语权重表中可以包含词语以及对应的权重值，可以将词语权重表中未包含的词语的权重值设置为预设值。词语权重表可以根据需要进行设置，具体地，可以对关注度较高的词语设置较高的权重值，进一步的，可以在生成与各样例特征标签的语义相似度值之前，可以将业务名词和/或商品名词的语义权重值设置为大于或等于所述预设的相似度阈值，例如，电商可以对商品名称设置较高的权重值。

从而，所述匹配词语中可以包含预设语义权重值大于所述预设的相似度阈值的词语。沿用前例，可以对商品名称设置大于所述预设的相似度阈值的权重值，则一旦待分类特征标签中出现商品名称或业务名词，即可以很大概率确定该待分类特征标签对应的主题类别，提高分类的准确率和效率。

继续参见图1，在步骤S16中，将所述待分类特征标签对应的待分类句子标注为所述目标特征标签对应的主题类别。

待分类特征标签对应的待分类句子可以是包含该待分类标签的待分类句子，通常为多个待分类句子。

通过步骤S11至步骤S16，可以更为智能的确定待分类句子的主题类别，提升信息分类的效率。通过上述过程，可以更为智能的确定待分类句子的主题类别，提升信息分类的效率。由于待分类标签是对多个待分类句子进行处理得到的，故本发明实施例中的信息分类方法可以用于批量处理，信息分类的效率较高。由于待分类特征标签是基于第一词语组合出现的频次生成的，故通过对分词后得到的待处理词语进行同类词替换处理，可以提升待分类特征标签生成的效率，进而提升信息分类的效率。

参见图3，样例特征标签可以通过如下步骤生成：

步骤S31，对所述主题类别的语料中各个样例语句进行分词处理，得到主题词语集合；

步骤S32，对所述主题词语集合进行同类词替换处理，得到更新后的主题词语集合；

步骤S33，根据所述更新后的主题词语集合中所述各个样例语句包含的第二词语组合出现的频次，生成所述主题类别对应的至少一个所述样例特征标签。

例如，可以在所述主题词语集合中有第二词语组合出现的频次大于或等于预设的第二频次阈值时，将该第二词语组合作为所述样例特征标签。

在具体实施中，生成所述主题类别对应的样例特征标签之前，还可以去除更新后的主题词语集合中对所述各个样例语句的语义的影响值小于或等于预设影响值的词语，以生成所述各个样例语句对应的第二词语组合。例如可以去除连接词、以及助词。

参见图4，图3中步骤S32可以通过如下步骤完成：

步骤S41，对基于同类词库确定所述主题词语集合中的同类的多个词语；

步骤S42，将所述同类或同义的多个词语统一替换为目标词语，得到更新后的主题词语集合；

其中，对所述待处理词语集合进行替换处理与对所述主题词语集合进行同类词替换处理基于相同的同类词库，且所述待处理词语集合与所述主题词语集合中的同类或同义词替换为相同的目标词语。目标词语可以是文字词语，也可以是字母、数字、符号、文字中一种或几种的组合。

由于对所述待处理词语集合进行替换处理与对所述主题词语集合进行同类词替换处理基于相同的同类词库，并且所述待处理词语集合与所述主题词语集合中的同类或同义词替换为相同的目标词语，可以使得待分类特征标签和样例特征标签中各个同类词语均被替换为相同的目标词语，可以提升待分类特征标签和样例特征标签中词语重合的概率，进而可以提升信息分类的准确性和效率。

本发明实施例中的分词处理，可以采用反向最大匹配法或viterbi算法进行所述分词处理，或者也可以采用其它合适的方式进行分词处理。

为使得对本发明实施例中的信息分类方法更加直观，以下结合一个具体实例进行说明。

参见表1，在一个非限定性的例子中，主题类别中的其中一种为“查询天气”，根据该主体类别对应的样例语句“今天天气怎么样”、“天气如何”、“现在外面多少度”以及“今天热吗”，生成对应的样例特征标签：“查询天气”和“查询温度”。

在生成样例特征标签的过程中，去除了语义的影响值小于或等于预设影响值的词语，并进行了同类词替换。

以生成“查询天气”的样例特征标签为例，对样例语句“今天的天气怎么样啊”去除对所述待分类句子的语义的影响值小于或等于预设影响值的词语“的”、“啊”，并进行同类词替换，将“怎么样”替换为“情况”，可以得到“今天天气情况”、“天气情况”“今天情况”等第二词语组合；对样例语句“天气如何”，将“如何”替换为“情况”可以得到第二词语组合“天气情况”。

为说明方便，本发明实施例中给出的样例语句较少，但根据上述方式，依然可以得到两个样例语句共同的第二词语组合“天气情况”。在具体实施中，可以根据更多的样例语句得到样例特征标签，并且在样例语句更多时，得到的样例特征标签更加准确。

主题类别	样例语句	样例特征标签
			查询天气	今天的天气怎么样啊	天气情况
查询天气	天气如何	天气情况
			查询天气	现在外面多少度	温度情况
查询天气	今天热吗	温度情况

表1

表2示出了对来自交互日志的待分类句子生成待分类特征标签：

待分类句子	待分类特征标签
		明天天气情况	天气情况
天气预报	天气情况
		今天热不热	温度情况
外面现在很热，衣服是不是应该少穿一点	穿衣
		最近天气不好，我想购买一套雨具	购物

表2

对比待分类特征标签和样例特征标签，可以得到如表3所示的待分类句子和主题类别对应关系：

主题类别	待分类句子
		查询天气	明天天气情况
查询天气	天气预报
		查询天气	今天热不热
缺省	外面现在很热，衣服是不是应该少穿一点
		缺省	最近天气不好，我想购买一套雨具

表3

本发明实施例还提供一种信息分类装置，其结构示意图参见图5，包括：

样例特征标签获取模块51，适于获取多个样例特征标签，并获取每个样例特征标签与待分类的主题类别之间的关系；

分词处理模块52，适于对多个待分类句子进行分词处理，得到待处理词语集合；

替换处理模块53，适于对待处理词语进行同类词替换处理，得到更新后词语集合；

待分类特征标签生成模块54，适于根据所述更新后词语集合中各待分类句子包含的第一词语组合出现的频次，生成待分类特征标签；

目标特征标签确定模块55，适于计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度，当所述最大语义相似度大于或等于预设的相似度阈值时，则最大语义相似度对应的样例特征标签作为所述待分类特征标签的目标特征标签；

主题类别确定模块56，适于将所述待分类特征标签对应的待分类句子标注为所述目标特征标签对应的主题类别。

本发明实施例中的信息分类装置可以更为智能的确定待分类句子的主题类别，提升信息分类的效率。由于待分类标签是对多个待分类句子进行处理得到的，故本发明实施例中的信息分类方法可以用于批量处理，信息分类的效率较高。

在具体实施中，待分类特征标签生成模块54适于将所述更新后词语集合中每个待分类句子对应的词语的组合作为一个第一词语组合。

在具体实施中，所述替换处理模块53适于将待处理词语替换为与其同义或同类的目标词语。

在具体实施中，信息分类装置，还包括：目标词语确定模块57，适于在所述替换处理模块53进行所述替换处理前，将将所述样例特征标签中与所述待处理词语同类或同义的词作为目标词语。

将所述样例特征标签中与所述待处理词语同类或同义的词作为目标词语，可以提升待分类特征标签和样例特征标签中词语重合的概率，进而可以提升信息分类的准确性和效率。

在具体实施中，所述待分类特征标签生成模块54，适于若所述更新后词语集合中有第一词语组合出现的频次大于或等于预设的频次阈值，则将该第一词语组合作为待分类特征标签。

在具体实施中，待分类特征标签生成模块54，适于若所述更新后词语集合中有第一词语组合出现的频次小于或等于预设第一频次阈值，则针对该第一词语组合对应的每个待分类句子生成各自的待分类特征标签。根据需要，也可以将待分类特征标签与各样例特征标签进行对比，以避免待分类句子的主题类别确定的遗漏。

参见图6，在具体实施中，图5中目标特征标签确定模块55，包括：

匹配词语确定单元61，适于将所述待分类特征标签对应的第一词语组合与所述样例特征标签对应的第二词语组合进行匹配，得到匹配词语；

语义相似度计算单元62，适于根据所述待分类特征标签与匹配词语的预设语义权重值加和，分别生成所述待分类特征标签与各样例特征标签的语义相似度值；

最大语义相似度确定单元63，适于将所述待分类特征标签与各样例特征标签的语义相似度值中的最大值作为得到最大语义相似度。

由此，可以通过预设匹配词语的权重值，以得到样例特征标签的语义相似度值，进而可以更加灵活的对特征标签的语义相似度值进行计算，以满足更多的应用场景的需要和更多样化的用户需求。

在具体实施中，目标特征标签确定模块55还包括权重设置单元，用于生成与各样例特征标签的语义相似度之前，将业务名词和/或商品名词的语义权重值设置为大于或等于所述预设的相似度阈值。所述匹配词语中可以包含预设语义权重值大于所述预设的相似度阈值的词语。沿用前例，可以对商品名称设置大于所述预设的相似度阈值的权重值，则一旦待分类特征标签中出现商品名称或业务名词，即可以很大概率确定该待分类特征标签对应的主题类别，提高分类的准确率和效率。

在具体实施中，所述信息分类装置还可以包括：缺省主题类别模块，适于若所述最大语义相似度小于或等于所述预设的相似度阈值，则将所述待分类特征标签对应的待分类句子标注为缺省主题类别。

在具体实施中，所述信息分类装置还可以包括：第一词语去除模块，适于去除所述更新后词语集合中对所述待分类句子的语义的影响值小于或等于预设影响值的词语，以生成所述待分类句子对应的所述第一词语组合。

在生成待分类特征标签之前，去除所述更新后词语集合中对所述待分类句子的语义的影响值小于或等于预设影响值的词语，可以提升各个第一词语组合中包含的词语的重合率，进而可以提升生成待分类特征标签的成功率和效率。

在具体实施中，所述多个待分类句子包括：交互系统的交互日志中的问题语句和/或答案语句。

参见图7，在具体实施中，图5中所述样例特征标签获取模块51可以包括：

主题词语集合生成单71，适于对所述主题类别的语料中各个样例语句进行分词处理，得到主题词语集合；

主题词语集合更新单元72，适于对所述主题词语集合进行同类词替换处理，得到更新后的主题词语集合；

样例特征标签生成单元73，适于根据所述更新后的主题词语集合中所述各个样例语句包含的第二词语组合出现的频次，生成所述主题类别对应的至少一个所述样例特征标签。

在具体实施中，样例特征标签生成单元73适于若所述主题词语集合中有第二词语组合出现的频次大于或等于预设的第二频次阈值，则将该第二词语组合作为所述样例特征标签。

在具体实施中，所述信息分类装置还可以包括：第二词语去除单元，适于在样例特征标签生成单元生成所述主题类别对应的样例特征标签之前，去除更新后的主题词语集合中对所述各个样例语句的语义的影响值小于或等于预设影响值的词语，以生成所述各个样例语句对应的第二词语组合。

在具体实施中，所述语义的影响值小于或等于预设影响值的词语包括以下至少一种：连接词以及助词。

参见图8，在具体实施中，图7中主题词语集合更新单元72可以包括：

同义或同类词语确定子单元81，适于对基于同类词库确定所述主题词语集合中的同类或同义的多个词语；

目标词语替换子单元82，适于将所述同类或同义的多个词语统一替换为目标词语，得到更新后的主题词语集合；

对所述待处理词语集合进行替换处理与对所述主题词语集合进行同类词替换处理基于相同的同类词库，并且所述待处理词语集合与所述主题词语集合中的同类或同义词替换为相同的目标词语，可以使得待分类特征标签和样例特征标签中各个同类词语均被替换为相同的目标词语，可以提升待分类特征标签和样例特征标签中词语重合的概率，进而可以提升信息分类的准确性和效率。

本发明实施例中的分词处理可以采用反向最大匹配法或viterbi算法进行。

本发明实施例中的分词处理装置所涉及的名词及工作原理可以参照本发明实施例中的分词处理方法，在此不再赘述。

本发明实施例中的分词处理装置可以位于单台服务器或者服务器集群，或者也可以利用硬件电路和控制器搭建得到。例如可以利用数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种信息分类方法，其特征在于，包括：

获取多个样例特征标签，并获取每个样例特征标签与待分类的主题类别之间的关系；

对多个待分类句子进行分词处理，得到待处理词语集合；

对待处理词语进行同类词替换处理，得到更新后词语集合；

根据所述更新后词语集合中各待分类句子包含的第一词语组合出现的频次，生成待分类特征标签；

计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度，当所述最大语义相似度大于或等于预设的相似度阈值时，则最大语义相似度对应的样例特征标签作为所述待分类特征标签的目标特征标签；

将所述待分类特征标签对应的待分类句子标注为所述目标特征标签对应的主题类别。

2.根据权利要求1所述的信息分类方法，其特征在于，所述第一词语组合的生成过程，包括：将所述更新后词语集合中每个待分类句子对应的全部词语的组合作为一个第一词语组合。

3.根据权利要求1所述的信息分类方法，其特征在于，所述同类词替换处理包括将待处理词语替换为与其同义或同类的目标词语。

4.根据权利要求1所述的信息分类方法，其特征在于，同类词替换处理前，还包括：将所述样例特征标签中与所述待处理词语同类或同义的词作为目标词语。

5.根据权利要求1所述的信息分类方法，其特征在于，生成待分类特征标签的过程，包括：若所述更新后词语集合中有第一词语组合出现的频次大于或等于预设的频次阈值，则将该第一词语组合作为待分类特征标签。

6.根据权利要求1所述的信息分类方法，其特征在于，若所述更新后词语集合中有第一词语组合出现的频次小于或等于预设第一频次阈值，则针对该第一词语组合对应的每个待分类句子生成各自的所述待分类特征标签。

7.根据权利要求1所述的信息分类方法，其特征在于，计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度，包括：

8.根据权利要求7所述的信息分类方法，其特征在于，生成与各样例特征标签的语义相似度值之前，还包括：将业务名词和/或商品名词的语义权重值设置为大于或等于所述预设的相似度阈值。

9.根据权利要求1所述的信息分类方法，其特征在于，还包括，若所述最大语义相似度小于或等于所述预设的相似度阈值，则将所述待分类特征标签对应的待分类句子标注为缺省主题类别。

10.根据权利要求1所述的信息分类方法，其特征在于，所述生成待分类特征标签之前，还包括：

11.根据权利要求1所述的信息分类方法，其特征在于，所述多个待分类句子包括：交互系统的交互日志中的问题语句和/或答案语句。

12.根据权利要求1所述的信息分类方法，其特征在于，所述样例特征标签通过如下方式生成：

13.根据权利要求12所述的信息分类方法，其特征在于，根据所述更新后的主题词语集合中所述各个样例语句包含的第二词语组合出现的频次，生成所述主题类别对应的至少一个所述样例特征标签，包括：

14.根据权利要求12所述的信息分类方法，其特征在于，生成所述主题类别对应的样例特征标签之前，还包括：

15.根据权利要求10或14所述的信息分类方法，其特征在于，所述语义的影响值小于或等于预设影响值的词语包括以下至少一种：连接词以及助词。

16.根据权利要求12所述的信息分类方法，其特征在于，所述对所述主题词语集合进行同类词替换处理，得到更新后的主题词语集合，包括：

17.根据权利要求1至14和16中任一项所述的信息分类方法，其特征在于，采用反向最大匹配法或viterbi算法进行所述分词处理。

18.一种信息分类装置，其特征在于，包括：

19.根据权利要求18所述的信息分类装置，其特征在于，待分类特征标签生成模块适于将所述更新后词语集合中每个待分类句子对应的全部词语的组合作为一个第一词语组合。

20.根据权利要求18所述的信息分类装置，其特征在于，所述替换处理模块适于将待处理词语替换为与其同义或同类的目标词语。

21.根据权利要求18所述的信息分类装置，其特征在于，还包括：目标词语确定模块，适于在所述替换处理模块进行所述替换处理前，将将所述样例特征标签中与所述待处理词语同类或同义的词作为目标词语。

22.根据权利要求18所述的信息分类装置，其特征在于，所述待分类特征标签生成模块，适于若所述更新后词语集合中有第一词语组合出现的频次大于或等于预设的频次阈值，则将该第一词语组合作为待分类特征标签。

23.根据权利要求18所述的信息分类装置，其特征在于所述待分类特征标签生成模块，适于若所述更新后词语集合中有第一词语组合出现的频次小于或等于预设第一频次阈值，则针对该第一词语组合对应的每个待分类句子生成各自的待分类特征标签。

24.根据权利要求18所述的信息分类装置，其特征在于，所述目标特征标签确定模块，包括：

25.根据权利要求24所述的信息分类装置，其特征在于，所述目标特征标签确定模块还包括权重设置单元，用于生成与各样例特征标签的语义相似度之前，将业务名词和/或商品名词的语义权重值设置为大于或等于所述预设的相似度阈值。

26.根据权利要求18所述的信息分类装置，其特征在于，还包括：缺省主题类别模块，适于若所述最大语义相似度小于或等于所述预设的相似度阈值，则将所述待分类特征标签对应的待分类句子标注为缺省主题类别。

27.根据权利要求18所述的信息分类装置，其特征在于，还包括：第一词语去除模块，适于去除所述更新后词语集合中对所述待分类句子的语义的影响值小于或等于预设影响值的词语，以生成所述待分类句子对应的所述第一词语组合。

28.根据权利要求18所述的信息分类装置，其特征在于，所述多个待分类句子包括：交互系统的交互日志中的问题语句和/或答案语句。

29.根据权利要求18所述的信息分类装置，其特征在于，所述样例特征标签获取模块包括：

30.根据权利要求29所述的信息分类装置，其特征在于，样例特征标签生成单元适于若所述主题词语集合中有第二词语组合出现的频次大于或等于预设的第二频次阈值，则将该第二词语组合作为所述样例特征标签。

31.根据权利要求29所述的信息分类装置，其特征在于，还包括：第二词语去除单元，适于在样例特征标签生成单元生成所述主题类别对应的样例特征标签之前，去除更新后的主题词语集合中对所述各个样例语句的语义的影响值小于或等于预设影响值的词语，以生成所述各个样例语句对应的第二词语组合。

32.根据权利要求27或31所述的信息分类装置，其特征在于，所述语义的影响值小于或等于预设影响值的词语包括以下至少一种：连接词以及助词。

33.根据权利要求29所述的信息分类装置，其特征在于，主题词语集合更新单元，包括：

34.根据权利要求18至31和33任一项所述的信息分类装置，其特征在于，采用反向最大匹配法或viterbi算法进行所述分词处理。