CN102541958A

CN102541958A - 一种用于识别短文本类别信息的方法、装置和计算机设备

Info

Publication number: CN102541958A
Application number: CN2010106236715A
Authority: CN
Inventors: �田�浩; 万伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2010-12-30
Filing date: 2010-12-30
Publication date: 2012-07-04

Abstract

一种计算机实现的用于识别短文本类别信息的短文本处理方法、装置及计算机设备，根据本发明的方案通过获取待分类的短文本信息；获取分别基于多个预训练的分类模型组获得的该短文本信息的多个类别判断结果；并基于第一预定规则，根据所述多个类别判断结果，来综合确定所述待分类短文本信息的类别信息。与现有技术相比，本发明具有以下优点：1)本发明通过多个短文本特征信息来综合判断短文本信息的类别，提高了判断准确率；2)本发明通过迭代训练并分类的方式实现已分类短文本信息的自动扩展；3)通过生成短文本匹配词典，能够实时获取短文本信息的类别信息。

Description

一种用于识别短文本类别信息的方法、装置和计算机设备

技术领域

本发明涉及计算机网络技术，尤其涉及一种用于识别短文本类别信息的方法、装置和计算机设备。

背景技术

在现代互联网技术中，如何根据来自用户的搜索信息来提供符合用户需求的搜索结果，无疑十分重要。现有技术中所采用的一种技术方案为通过获得与来自用户的搜索信息相关的相关关键词，并根据该等相关关键词来触发其对应的搜索结果。因此，如何获取与搜索信息相关的相关关键词，十分重要。

现有技术中判断文本信息相关度的方案多用于判断大段文本内容的相似度，而来自用户的搜索信息多为短文本信息，判断大段文本内容相似度的方案并不适用于判断短文本信息的相似度。

发明内容

本发明的目的是提供一种用于识别短文本类别信息的方法、装置和计算机设备。

根据本发明的一个方面，提供一种计算机实现的用于识别短文本类别信息的方法，其中，该方法包括以下步骤：

a获取待分类的短文本信息；

b获取分别基于多个预训练的分类模型组获得的该短文本信息的多个类别判断结果；

c基于第一预定规则，根据所述多个类别判断结果，来综合确定所述待分类短文本信息的类别信息；

其中，每个分类模型组包含一个或多个分类模型，各分类模型组分别通过采用不同的预设短文本特征信息进行训练而得到。

根据本发明的另一个方面，还提供了一种计算机实现的用于识别短文本类别信息的短文本处理装置，其中，该短文本处理装置包括：

第一获取装置、用于获取待分类的短文本信息；

类别获取装置、用于获取分别基于多个预训练的分类模型组获得的该短文本信息的多个类别判断结果；

确定装置、用于基于第一预定规则，根据所述多个类别判断结果，来综合确定所述待分类短文本信息的类别信息；

根据本发明的再一个方面，还提供了一种计算机设备，其中，该计算机设备包括前述短文本处理装置。

与现有技术相比，本发明具有以下优点：1)本发明通过多个短文本特征信息来综合判断短文本信息的类别，提高了判断准确率；2)本发明通过迭代训练并分类的方式实现已分类短文本信息的自动扩展，因此，仅需人工提供少量训练语料，即能自动扩展出足够的训练语料来满足短文本分类词典的生成要求，极大地节省了人力；3)通过生成短文本匹配词典，能够实时获取短文本信息的类别信息；4)根据本发明的方案所得的已分类短文本信息能够在多种应用中辅助相应设备进行短文本信息处理操作，例如，在搜索环境中辅助搜索引擎根据用户输入的输入序列判断用户更希望搜索的内容，以相应调整所提供的候选项的排序；或者，在本机或网络输入法中用于辅助输入法处理装置根据用户输入的输入序列来判断用户实际希望输入的文本，以选择提供给用户的输入法候选项；或者，在B2B/B2C网站中用于辅助网站相应处理设备判断用户的实际需要的商品等。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一个方面的用于识别短文本类别信息的方法流程图；

图2为本发明一个优选实施例的用于识别短文本类别信息的方法流程图；

图3为本发明另一优选实施例的用于识别短文本类别信息的方法流程图；

图4为本发明另一个优选实施例的用于识别短文本类别信息的方法流程图；

图5为本发明再一优选实施例的用于识别短文本类别信息的方法流程图；

图6为本发明一个方面的用于识别短文本类别信息的短文本处理装置结构示意图；

图7为本发明一个优选实施例的用于识别短文本类别信息的短文本处理装置结构示意图；

图8为本发明另一优选实施例的用于识别短文本类别信息的短文本处理装置结构示意图；

图9为本发明另一个优选实施例的用于识别短文本类别信息的短文本处理装置结构示意图；

图10为本发明再一优选实施例的用于识别短文本类别信息的短文本处理装置结构示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1为本发明一个方面的用于识别短文本类别信息的方法流程图。其中，根据本发明的方法可通过计算机设备中的操作系统或处理控制芯片来完成，为简明起见，以下将所述操作系统或处理控制芯片统称为短文本处理装置。其中，该计算机设备包括但不限于：1)用户设备；2)网络设备。其中，所述用户设备包括但不限于：个人电脑、智能手机、PDA等；所述网络设备包括但不限于：单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在步骤S1中，短文本处理装置获取待分类的短文本信息。

其中，所述短文本信息包括但不限于：

1)来自用户的输入序列；

2)计算机设备当前需要处理的信息等。

该短文本处理装置获取该待分类短文本信息的方法包括但不限于：

1)实时获取用户直接输入或经由其他设备或装置输入的输入序列，或者，实时获取计算机设备当前需要处理的信息；

2)获取预存储在所述计算机设备或其他设备中的需要进行分类处理的短文本信息。

接着，在步骤S2中，短文本处理装置获取分别基于多个预训练的分类模型组获得的该短文本信息的多个类别判断结果。其中，各分类模型组分别通过采用不同的预设短文本特征信息进行训练而得到。

其中，每个分类模型组至少包括以下一种分类模型：

1)支持向量机分类模型；

2)最大熵向量分类模型；

3)决策树分类模型；

4)k最近邻分类模型。

所述短文本特征信息包括以下至少一项：

1)切词特征信息；

2)n-gram特征信息；

3)短文本首词尾词特征信息；

4)短文本扩展特征信息；

5)PLSA特征信息；

6)ESA特征信息；

7)PCA特征信息。

具体地，短文本处理装置通过多个预训练的分类模型组，分别对该短文本信息的类别进行判断，以获得多个类别判断结果。其中，每个分类模型组包含一个或多个分类模型。当每个分类模型组仅包含一个分类模型时，短文本处理装置直接获取各分类模型输出的多个类别判断结果。当至少一个分类模型组包含至少两个分类模型时，对于仅包含一个分类模型的分类模型组，短文本处理装置直接获取该分类模型输出的类别判断结果；对于包含至少两个分类模型的分类模型组，短文本处理装置可直接获取分类模型输出的类别判断结果，也可获取分类模型组综合其所包含的各分类模型判断结果而得到的类别判断结果，或者，短文本处理装置同时获取各分类模型输出的多个判断结果及各分类模型组输出的多个判断结果。

例如，若预训练的分类模型组共有三组，其中，第一个分类模型组仅包含一个支持向量机分类模型，第二个分类模型组仅包含一个最大熵向量分类模型，第三个分类模型组仅包含一个支持向量机分类模型。其中，第一个分类模型组所包含的支持向量机分类模型通过采用切词特征信息进行训练而得到，第二个分类模型组所包含的最大熵向量分类模型通过采用n-gram特征信息进行训练而得到，第三个分类模型组所包含的支持向量机分类模型通过采用PLSA特征信息进行训练而得到。短文本处理装置分别通过上述三个分类模型组，来对短文本信息“音乐手机”的类别进行判断，并获取到上述三个分类模型输出的判断结果分别为“手机”、“下载”、“下载”，则短文本处理装置所获取的多个类别判断结果“手机”、“下载”、“下载”。优选地，短文本处理装置在获取类别判断结果时，还记录该类别判断结果对应的分类模型信息，例如，记录判断结果“手机”对应的分类模型组为第一个分类模型组，类别判断结果“下载”对应的分类模型组为第二及第三个分类模型组等信息。

又例如，若预训练的分类模型组共有三组，其中，第一个分类模型组仅包含一个支持向量机分类模型，第二个分类模型组包含一个最大熵向量分类模型、一个支持向量机分类模型及一个决策树分类模型，第三个分类模型组包含一个决策树分类模型及一个k最近邻分类模型。其中，第一个分类模型组通过采用切词特征信息训练得到，第二个分类模型组包含的所有分类模型均通过采用n-gram特征信息进行训练而得到，第三个分类模型组包含的所有分类模型通过采用PLSA特征信息进行训练而得到。短文本处理装置分别通过上述三个分类模型组，来对短文本信息“手机音乐”的类别进行判断，并获取到上述三个分类模型组输出的类别判断结果分别为“手机”、“下载”、“下载”。优选地，短文本处理装置在获取类别判断结果时，还记录该类别判断结果对应的分类模型信息，例如，记录类别判断结果“手机”对应的分类模型组为第一个分类模型组，类别判断结果“下载”对应的分类模型组为第二及第三个分类模型组等信息。

其中，分类模型组可根据以下任一种多种方式来综合其所包含的各分类模型判断结果以得到类别判断结果：

1)选择数量最多的判断结果；

例如，对于短文本信息“手机音乐”，若第二个分类模型组所包含的支持向量机分类模型及决策树分类模型的判断结果为“下载”，最大熵向量分类模型的判断结果为“手机”，则最终输出的类别判断结果为“下载”。

2)根据各分类模型的权重值及其对应的判断结果，来确定类别判断结果；

例如，对于短文本信息“手机音乐”，若第二个分类模型组所包含的决策树分类模型及k最近邻分类模型的判断结果分别为“下载”及“手机”，且决策树分类模型的权重值高于k最近邻分类模型的权重值，则最终输出的类别判断结果为“下载”。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据其他方式来综合分类模型组所包含的各分类模型判断结果以得到类别判断结果的实现方式，均应包含在本发明的范围内。

再例如，若预训练的分类模型组共有三组，其中，每个分类模型组均包含一个支持向量机分类模型及一个最大熵向量分类模型，且第一个分类模型组包含的所有分类模型通过采用切词特征信息训练得到，第二个分类模型组包含的所有分类模型均通过采用n-gram特征信息进行训练而得到，第三个分类模型组包含的所有分类模型通过采用PLSA特征信息进行训练而得到。短文本处理装置分别通过上述三个分类模型组，来对短文本信息“手机音乐”的类别进行判断，并获取到各个分类模型的类别判断结果为“手机”、“下载”、“下载”、“手机”、“下载”、“下载”。优选地，短文本处理装置在获取类别判断结果时，还记录该类别判断结果对应的分类模型信息，例如，记录类别判断结果“手机”对应的分类模型为第一个分类模型组中的支持向量机分类模型及第二个分类模型组中的最大熵向量分类模型，类别判断结果“下载”对应的分类模型组为第一个分类模型组中的最大熵向量模型、第二个分类模型组中的支持向量机分类模型及第三个分类模型组所包含的所有分类模型等信息。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据通过多个预训练的分类模型组，分别对该短文本信息的类别进行判断，以获得多个类别判断结果的实现方式，均应包含在本发明的范围内。

接着，在步骤S3中，短文本处理装置基于第一预定规则，根据所述多个类别判断结果，来综合确定所述待分类短文本信息的类别信息。

具体地，所述第一预定规则中规定了如何根据多个类别判断结果，来综合确定待分类短文本信息的类别信息的第一确定规则。短文本处理装置基于上述第一预定规则所规定的第一确定规则，并根据所获取的多个类别判断结果，来综合确定所述待分类短文本信息的类别信息。

例如，第一预定规则中规定统计相同的类别判断结果的数量，并选择数量最多的类别判断结果包含的类别作为待分类短文本信息的类别。则对于短文本信息“手机音乐”，短文本处理装置获得三个分类模型组输出的类别判断结果分别为“手机”、“下载”、“下载”，则短文本处理装置分析得到类别判断结果“下载”数量为二，类别判断结果“手机”数量为一，则选择“下载”作为待分类短文本信息的类别。

又例如，第一预定规则中规定采用切词特征信息训练所得的分类模型组或其包含的分类模型输出的类别判断结果权重值为0.3，采用n-gram特征信息训练所得的分类模型组或其包含的分类模型输出的类别判断结果权重值为0.5，采用PLSA特征信息训练所得的分类模型组或其包含的分类模型输出的类别判断结果权重值为0.2，并规则了根据上述权重值及各分类模型组输出的类别判断结果，综合得到相同类别判断结果的权重值，并将权重值最高的类别判断结果所包含的类别作为待分类短文本信息的类别信息的第二确定规则。则若预训练的分类模型组共有三组，其中，每个分类模型组均包含一个支持向量机分类模型及一个最大熵向量分类模型，且第一个分类模型组包含的所有分类模型通过采用切词特征信息训练得到，第二个分类模型组包含的所有分类模型均通过采用n-gram特征信息进行训练而得到，第三个分类模型组包含的所有分类模型通过采用PLSA特征信息进行训练而得到。短文本处理装置获取到第一个分类模型组的输出的类别判断结果为“手机”、“下载”，第二个分类模型组输出的类别判断结果为“下载”、“手机”，第三个分类模型组输出的类别判断结果为“下载”、“下载”。则短文本处理装置根据第一预定规则所确定的第二确定规则，计算得到“手机”的总权重值＝0.3+0.5＝0.8，“下载”的总权重值＝0.3+0.5+0.2+0.2＝1.2，则短文本处理装置选择“下载”作为待分类短文本信息的类别信息。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何基于第一预定规则，根据所述多个类别判断结果，来综合确定所述待分类短文本信息的类别信息的实现方式，均应包含在本发明的范围内。

本实施例中，由于各个分类模型组均采用不同的短文本特征信息进行训练，因此，短文本处理装置可通过各分类模型组，以不同的短文本特征来综合判断该短文本特征信息的类别，减少了因单一特征而造成误判的可能，大大提高了类别判断的准确定。

并且，当各分类模型组中包括多个不同类别的分类模型时，还可以不同分类模型的判断方式，结合不同的短文本特征来综合判断该短文本特征信息的类别，进一步提高了类别判断的准确定。

并且，根据本发明的方案所得的已分类短文本信息能够在多种应用中辅助相应设备进行短文本信息处理操作，例如，在搜索环境中辅助搜索引擎根据用户输入的输入序列判断用户更希望搜索的内容，以相应调整所提供的候选项的排序；或者，在本机或网络输入法中用于辅助输入法处理装置根据用户输入的输入序列来判断用户实际希望输入的文本，以选择提供给用户的输入法候选项；或者，在B2B/B2C网站中用于辅助网站相应处理设备判断用户的实际需要的商品等。

图2为本发明一个优选实施例的用于识别短文本类别信息的方法流程图。根据本实施例的方法，包括步骤S1至步骤S6。其中，步骤S1至步骤S3已在参照图1所示实施例中予以详述，并以引用的方式包含于此，不再赘述。

在步骤S4中，短文本处理装置由已分类短文本信息库中获取已分类的短文本信息。其中，该已分类短文本信息库在短文本处理装置执行步骤S4之前已预设。

接着，在步骤S5中，短文本处理装置根据所述已分类短文本信息，获取其对应的多种类别的短文本特征信息。

具体地，短文本处理装置获取该多种类别的短文本特征信息的方式包括但不限于：

1)分析所述短文本特征信息，以提取其短文本特征信息；

例如，短文本处理装置由已分类短文本信息库中获取到一个或多个已分类短文本信息后，实时提取其短文本特征信息，并将所述短文本信息的类别作为其对应的短文本特征信息的类别。

2)获取预存储的与所述短文本信息对应的短文本特征信息；

具体地，所述预存储的短文本特征信息可存储在所述已分类短文本信息库中，或者，存储在其他信息库中且与所述短文本信息具有对应关系。

需要说明的是，短文本处理装置可结合上述两种获取方式，来综合获得短文本特征信息。例如，以实时分析的方式获取短文本信息的切词特征信息、n-gram特征信息及短文本首词尾词特征信息，并获取预存储的与该短文本信息对应的短文本扩展特征信息、PLSA特征信息、ESA特征信息及PCA特征信息等。

接着，在步骤S6中，短文本处理装置根据所述多种类别的短文本特征信息，对所述多个分类模型组进行训练，以获取或更新所述多个分类模型组。其中，每个分类模型组所采用的短文本特征信息类别均与其他分类模型组所采用的短文本特征信息类别不同。

具体地，对于每一短文本特征信息，短文本处理装置仅将该短文本特征信息用于训练一个分类模型组，但对于一个分类模型组，短文本处理装置可采用一种或多种短文本特征信息对该分类模型组进行训练。

例如，若当前已建立四个的分类模型组，且每组均包含一个支持向量机分类模型及最大熵向量分类模型，在步骤S5中，短文本处理装置分析得到四种短文本特征信息：切词特征信息、n-gram特征信息、短文本首词尾词特征信息及短文本扩展特征信息，则短文本处理装置采用切词特征信息来训练第一组分类模型组所包含的分类模型，采用n-gram特征信息来训练第二组分类模型组所包含的分类模型，采用短文本首词尾词特征信息来训练第三组分类模型组所包含的分类模型，采用短文本扩展特征信息来训练第四组分类模型组所包含的分类模型，以更新该四组分类模型组。

需要说明的是，本实施例中，步骤S1与步骤S4至步骤S6并行执行，或者，步骤S1在步骤S6之后执行。

需要进一步说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据所述多种类别的短文本特征信息，对所述多个分类模型组进行训练，以获取或更新所述多个分类模型组的实现方式，例如，改变上述举例中分类模型组的数量及所包含的分类模型，或采用其他短文本特征信息来训练分类模型组等，均应包含在本发明的范围内。

图3为本发明另一优选实施例的用于识别短文本类别信息的方法流程图。根据本实施例的方法包括步骤S1、步骤S2及步骤S3。其中，步骤S3进一步包括步骤S31及步骤S32。

步骤S1及步骤S2已在参照图1或图2所示实施例中予以详述，并以引用的方式包含于此，不再赘述。

本实施例中，前述参照图1及图2所示实施例中所述第一预定规则进一步包括统计判断规则。

在步骤S31中，短文本处理装置根据所述多个类别判断结果，来获得类别判断统计结果。

具体地，所述类别判断统计结果包括以下至少一项：

1)相一致的所述类别判断结果数量；

短文本处理装置分别统计相一致的类别判断结果数量，并将该统计的相一致的类别判断结果数量包含在判断统计结果中。

例如，短文本处理装置获得的类别判断结果分别为“手机”、“下载”、“下载”、“手机”、“下载”、“下载”。则短文本处理装置统计得到类别判断结果“手机”的数量为二，类别判断结果“下载”的数量为四，并将上述两个统计结果包含在判断统计结果中。

2)所有类别判断结果数量；

短文本处理装置统计所有类别判断结果数量，并将该所有类别判断结果数量包含在判断统计结果中。

例如，短文本处理装置获得的类别判断结果分别为“手机”、“下载”、“下载”、“手机”、“下载”、“下载”。则短文本处理装置统计得到所有类别判断结果的数量为六。

3)相一致的所述类别判断结果数量占所有类别判断结果数量的比例；

短文本处理装置分别统计相一致的类别判断结果数量及所有类别判断结果数量，计算该相一致的所述类别判断结果数量占所有类别判断结果数量的比例，并将该比例包含在判断统计结果中。

接着，在步骤S32中，短文本处理装置基于所述统计判断规则，根据所述类别判断统计结果，来确定所述待分类短文本信息的类别信息。

具体地，所述统计判断规则中规定了确定所述待分类短文本信息的第三确定规则。短文本处理装置根据所规定的第三确定规则，来确定所述待分类短文本信息的类别信息。

例如，所述统计判断规则中规定，当相一致的所述类别判断结果数量超过第一预定阈值时，将该等类别判断结果包含的类别作为所述待分类短文本信息的类别信息。则短文本处理装置判断得到判断统计结果中包含的相一致的所述类别判断结果数量超过第一预定阈值时，将该等类别判断结果包含的类别作为所述待分类短文本信息的类别信息。

又例如，所述统计判断规则中规定，当相一致的所述类别判断结果数量占所有类别判断结果数量的比例超过第二预定阈值时，将该类别判断结果包含的类别作为所述待分类短文本信息的类别信息。则当短文本处理装置判断统计结果中包含的相一致的所述类别判断结果数量占所有类别判断结果数量的比例超过第二预定阈值时，短文本处理装置将该类别判断结果包含的类别作为所述待分类短文本信息的类别信息。或者，当判断统计结果中包含相一致的类别判断结果数量及所有类别判断结果数量时，短文本处理装置根据上述两者来获得前述比例，随后，当短文本处理装置判断所获取的比例超过第二预定阈值时，将该类别判断结果包含的类别作为所述待分类短文本信息的类别信息。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何基于所述统计判断规则，根据所述类别判断统计结果，来确定所述待分类短文本信息的类别信息的实现方式，均应包含在本发明的范围内。

图4为本发明另一个优选实施例的用于识别短文本类别信息的方法流程图。根据本实施例的方法包括步骤S1、步骤S2及步骤S3。其中，步骤S3进一步包括步骤S33、步骤S34及步骤S35。

本实施例中，前述参照图1及图2所示实施例中所述第一预定规则进一步包括权重判断规则。

在步骤S33中，短文本处理装置获取所述多个类别判断结果对应的权重值。

具体地，短文本处理装置根据类别判断结果对应的分类模型组或对应的分类模型来确定各个类别判断结果的权重值。其中，短文本处理装置获取所述权重值的方式包括但不限于：

1)在获取类别判断结果时，即根据输出该类别判断结果的分类模型组或分类模型，来获取该类别判断结果的权重值。

例如，短文本处理装置获取第一个分类模型组包含的支持向量机分类模型输出的类别判断结果时，在预设的对应关系中查询得到该分类模型对应的权重值为0.5，则将该权重值作为该类别判断结果的权重值。

2)在获取类别判断结果时，记录该类别判断结果对应的分类模型或分类模型组，当需要处理该类别判断结果时，根据其对应的分类模型或分类模型组，来获取其权重值。

例如，短文本处理装置获取第一个分类模型组包含的支持向量机分类模型输出的类别判断结果时，记录该类别判断结果对应的分类模型，当短文本处理装置需要处理该类别判断结果时，查询得到所记录的该类别判断结果对应的分类模型的权重值为0.5，则将该权重值作为该类别判断结果对应的权重值。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据类别判断结果对应的分类模型组或对应的分类模型来确定类别判断结果的权重值的实现方式，均应包含在本发明的范围内。

在步骤S34中，短文本处理装置基于权重判断规则，根据所述多个类别判断结果及其对应的权重值，来获得所述短文本信息的一个或多个类别评价值。

具体的，所述权重判断规则中规定了根据所述多个类别判断结果及其对应的权重值，来获得所述短文本信息的一个或多个类别评价值的第四确定规则。短文本处理装置基于权重判断规则中规定的第四确定规则，根据所述多个类别判断结果及其对应的权重值，来获得所述短文本信息的一个或多个类别评价值。

例如，所述第四确定规则中规定，将相同的类别判断结果对应的所有权重值相加，以获得该类别判断结果的类别评价值。则对于短文本信息“dnf游戏下载”，短文本处理装置所获取的类别判断结果及其对应的权重值如下：

“游戏”0.2

“下载”0.4

“下载”0.3

“游戏”0.5

“下载”0.2

“下载”0.3

则短文本处理装置分别将类别判断结果“游戏”及“下载”对应的所有权重值相加，得到“游戏”的类别评价值分别为0.7及1.2。

又例如，所述第四确定规则中规定，获取相同的类别判断结果对应的所有权重值的平方和，以获得该类别判断结果的类别评价值。则对于短文本信息“dnf游戏下载”，短文本处理装置所获取的类别判断结果及其对应的权重值如下：

“游戏”0.2

“下载”0.4

“下载”0.3

“游戏”0.5

“下载”0.2

“下载”0.3

则短文本处理装置分别获取类别判断结果“游戏”及“下载”对应的所有权重值的平方和，得到“游戏”的类别评价值分别为0.29及0.38。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何基于权重判断规则，根据所述多个类别判断结果及其对应的权重值，来获得所述短文本信息的一个或多个类别评价值的实现方式，均应包含在本发明的范围内。

接着，在步骤S35中，短文本处理装置根据所述类别评价值，来确定所述待分类短文本信息的类别信息。

例如，短文本处理装置选择类别评价值最高，或者，类别评价值为前N位的类别判断结果包含的类别，来作为所述待分类短文本信息的类别信息。其中，本领域技术人员应可根据实际情况和需求来选择并设定N的值。

又例如，短文本处理装置选择类别评价值超过第三预定阈值的类别判断结果包含的类别，来作为所述待分类短文本信息的类别信息。其中，本领域技术人员应可根据实际情况和需求来选择并设定所述第三预定阈值。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据所述类别评价值，来确定所述待分类短文本信息的类别信息的实现方式，均应包含在本发明的范围内。

图5为本发明再一优选实施例的用于识别短文本类别信息的方法流程图。根据本实施例的方法，包括步骤S1’、步骤S2’、步骤S3、步骤S4’、步骤S5、步骤S6、步骤S7、步骤S8及步骤S9。其中，步骤S3、步骤S5及步骤S6已在参照图2、图3或图4所示实施例中予以详述，并以引用的方式包含于此，不再赘述。

在步骤S7中，短文本处理装置将基于所述已综合确定类别信息的短文本信息及其对应的类别信息，更新至所述已分类短文本信息库中。

具体地，短文本处理装置获得在步骤S3中综合确定类别信息的短文本信息及其对应的类别信息后，根据上述两者来更新已分类短文本信息库中包含的短文本信息及其对应的类别信息，以扩展已分类短文本信息库。

在步骤S8中，短文本处理装置判断所述已分类短文本信息库包含的内容信息是否满足词典生成条件。

具体地，短文本处理装置可采用多种方式判断已分类短文本信息库中包含的内容信息是否满足词典生成条件。例如，已分类短文本信息库中的短文本信息数量是否超过第四预定阈值；又例如，已分类短文本信息库中的短文本信息数量占总的短文本信息数量的比例是否超过第五预定阈值等。其中，本领域技术人员应可根据实际情况和需求来选择并设定所述第四及第五预定阈值。

当所述内容信息满足词典生成条件，在步骤S9中，短文本处理装置根据所述内容信息，生成短文本匹配词典。其中，该短文本匹配词典包括短文本信息及其对应的类别信息。

当所述内容信息不满足词典生成条件时，在步骤S4’中，短文本处理装置继续由所述已分类短文本信息库中获取已分类的短文本信息，以便短文本处理装置能够执行后续步骤S5及步骤S6。其中，短文本处理装置由所述已分类短文本信息库中获取已分类的短文本信息，已在参照图2至图4所示实施例中的步骤S4中详述，并以引用的方式包含于此，不再赘述。

并且，当所述内容信息不满足词典生成条件时，在步骤S1’中，短文本处理装置获取所述待分类的短文本信息。

具体地，当所述内容信息不满足词典生成条件时，短文本处理装置继续获取待分类的短文本信息。其中，短文本处理装置获取待分类的短文本信息的方式，已在参照图1至图4所示实施例中的步骤S1中详述，并以引用的方式包含于此，不再赘述。

在步骤S2’中，当更新所述多个分类模型组后，短文本处理装置获取分别基于更新后的分类模型组获得的该短文本信息的多个类别判断结果。

具体地，在短文本处理装置执行步骤S4’以更新多个分类模型组之后，短文本处理装置分别基于更新后的分类模型组，来获得在步骤S1’中获取的短文本信息的多个类别判断结果。其中，短文本处理装置获取分别基于多个分类模型组获得的该短文本信息的多个类别判断结果的方式，已在参照图1至图4所示实施例中的步骤S2中详述，并以引用的方式包含于此，不再赘述。

需要说明的是，本实施例中，步骤S1’与步骤S4’至步骤S6并行执行，或者，步骤S1’在步骤S6之后执行。

根据本实施例的方法，能够通过迭代的方式训练并更新分类模型组，并扩展已分类短文本信息，直至已分类短文本信息能够生成短文本匹配词典。并且，对于在一次分类过程中无法判断类别的短文本信息，可以在下一次分类过程中再行判断；而对于生成短文本匹配词典后依然无法判断类别的短文本信息，则将其判断为无需覆盖的信息，不对其进行分类处理。

作为本发明的优选方案之一，根据本发明的方法还包括短文本处理装置获取待处理的短文本信息，并将该待处理的短文本信息在所述短文本匹配词典中进行匹配查询，以获得该待处理的短文本信息的类别信息的步骤。

具体的，短文本处理装置将该处理的短文本信息与短文本匹配词典中包含的短文本信息进行匹配，并获取能够成功匹配的短文本信息对应的类别作为待处理短文本信息的类别。

根据本实施例，短文本处理装置能够根据生成的短文本匹配词典，实时在线获取短文本信息的类别。

图6为本发明一个方面的用于识别短文本类别信息的短文本处理装置结构示意图。根据本实施例的短文本处理装置包括第一获取装置1、类别获取装置2及确定装置3。

第一获取装置1获取待分类的短文本信息。

其中，所述短文本信息包括但不限于：

1)来自用户的输入序列；

2)计算机设备当前需要处理的信息等。

该第一获取装置1获取该待分类短文本信息的方法包括但不限于：

类别获取装置2获取分别基于多个预训练的分类模型组获得的该短文本信息的多个类别判断结果。其中，各分类模型组分别通过采用不同的预设短文本特征信息进行训练而得到。

其中，每个分类模型组至少包括以下一种分类模型：

1)支持向量机分类模型；

2)最大熵向量分类模型；

3)决策树分类模型；

4)k最近邻分类模型。

所述短文本特征信息包括以下至少一项：

1)切词特征信息；

2)n-gram特征信息；

3)短文本首词尾词特征信息；

4)短文本扩展特征信息；

5)PLSA特征信息；

6)ESA特征信息；

7)PCA特征信息。

具体地，类别获取装置2通过多个预训练的分类模型组，分别对该短文本信息的类别进行判断，以获得多个类别判断结果。其中，每个分类模型组包含一个或多个分类模型。当每个分类模型组仅包含一个分类模型时，类别获取装置2直接获取各分类模型输出的多个类别判断结果。当至少一个分类模型组包含至少两个分类模型时，对于仅包含一个分类模型的分类模型组，类别获取装置2直接获取该分类模型输出的类别判断结果；对于包含至少两个分类模型的分类模型组，类别获取装置2可直接获取分类模型输出的类别判断结果，也可获取分类模型组综合其所包含的各分类模型判断结果而得到的类别判断结果，或者，类别获取装置2同时获取各分类模型输出的多个判断结果及各分类模型组输出的多个判断结果。

例如，若预训练的分类模型组共有三组，其中，第一个分类模型组仅包含一个支持向量机分类模型，第二个分类模型组仅包含一个最大熵向量分类模型，第三个分类模型组仅包含一个支持向量机分类模型。其中，第一个分类模型组所包含的支持向量机分类模型通过采用切词特征信息进行训练而得到，第二个分类模型组所包含的最大熵向量分类模型通过采用n-gram特征信息进行训练而得到，第三个分类模型组所包含的支持向量机分类模型通过采用PLSA特征信息进行训练而得到。类别获取装置2分别通过上述三个分类模型组，来对短文本信息“音乐手机”的类别进行判断，并获取到上述三个分类模型输出的判断结果分别为“手机”、“下载”、“下载”，则类别获取装置2所获取的多个类别判断结果“手机”、“下载”、“下载”。优选地，类别获取装置2在获取类别判断结果时，还记录该类别判断结果对应的分类模型信息，例如，记录判断结果“手机”对应的分类模型组为第一个分类模型组，类别判断结果“下载”对应的分类模型组为第二及第三个分类模型组等信息。

又例如，若预训练的分类模型组共有三组，其中，第一个分类模型组仅包含一个支持向量机分类模型，第二个分类模型组包含一个最大熵向量分类模型、一个支持向量机分类模型及一个决策树分类模型，第三个分类模型组包含一个决策树分类模型及一个k最近邻分类模型。其中，第一个分类模型组通过采用切词特征信息训练得到，第二个分类模型组包含的所有分类模型均通过采用n-gram特征信息进行训练而得到，第三个分类模型组包含的所有分类模型通过采用PLSA特征信息进行训练而得到。类别获取装置2分别通过上述三个分类模型组，来对短文本信息“手机音乐”的类别进行判断，并获取到上述三个分类模型组输出的类别判断结果分别为“手机”、“下载”、“下载”。优选地，类别获取装置2在获取类别判断结果时，还记录该类别判断结果对应的分类模型信息，例如，记录类别判断结果“手机”对应的分类模型组为第一个分类模型组，类别判断结果“下载”对应的分类模型组为第二及第三个分类模型组等信息。

1)选择数量最多的判断结果；

再例如，若预训练的分类模型组共有三组，其中，每个分类模型组均包含一个支持向量机分类模型及一个最大熵向量分类模型，且第一个分类模型组包含的所有分类模型通过采用切词特征信息训练得到，第二个分类模型组包含的所有分类模型均通过采用n-gram特征信息进行训练而得到，第三个分类模型组包含的所有分类模型通过采用PLSA特征信息进行训练而得到。类别获取装置2分别通过上述三个分类模型组，来对短文本信息“手机音乐”的类别进行判断，并获取到各个分类模型的类别判断结果为“手机”、“下载”、“下载”、“手机”、“下载”、“下载”。优选地，类别获取装置2在获取类别判断结果时，还记录该类别判断结果对应的分类模型信息，例如，记录类别判断结果“手机”对应的分类模型为第一个分类模型组中的支持向量机分类模型及第二个分类模型组中的最大熵向量分类模型，类别判断结果“下载”对应的分类模型组为第一个分类模型组中的最大熵向量模型、第二个分类模型组中的支持向量机分类模型及第三个分类模型组所包含的所有分类模型等信息。

确定装置3基于第一预定规则，根据所述多个类别判断结果，来综合确定所述待分类短文本信息的类别信息。

具体地，所述第一预定规则中规定了如何根据多个类别判断结果，来综合确定待分类短文本信息的类别信息的第一确定规则。确定装置3基于上述第一预定规则所规定的第一确定规则，并根据所获取的多个类别判断结果，来综合确定所述待分类短文本信息的类别信息。

例如，第一预定规则中规定统计相同的类别判断结果的数量，并选择数量最多的类别判断结果包含的类别作为待分类短文本信息的类别。则对于短文本信息“手机音乐”，确定装置3获得三个分类模型组输出的类别判断结果分别为“手机”、“下载”、“下载”，则确定装置3分析得到类别判断结果“下载”数量为二，类别判断结果“手机”数量为一，则选择“下载”作为待分类短文本信息的类别。

又例如，第一预定规则中规定采用切词特征信息训练所得的分类模型组或其包含的分类模型输出的类别判断结果权重值为0.3，采用n-gram特征信息训练所得的分类模型组或其包含的分类模型输出的类别判断结果权重值为0.5，采用PLSA特征信息训练所得的分类模型组或其包含的分类模型输出的类别判断结果权重值为0.2，并规则了根据上述权重值及各分类模型组输出的类别判断结果，综合得到相同类别判断结果的权重值，并将权重值最高的类别判断结果所包含的类别作为待分类短文本信息的类别信息的第二确定规则。则若预训练的分类模型组共有三组，其中，每个分类模型组均包含一个支持向量机分类模型及一个最大熵向量分类模型，且第一个分类模型组包含的所有分类模型通过采用切词特征信息训练得到，第二个分类模型组包含的所有分类模型均通过采用n-gram特征信息进行训练而得到，第三个分类模型组包含的所有分类模型通过采用PLSA特征信息进行训练而得到。确定装置3获取到第一个分类模型组的输出的类别判断结果为“手机”、“下载”，第二个分类模型组输出的类别判断结果为“下载”、“手机”，第三个分类模型组输出的类别判断结果为“下载”、“下载”。则确定装置3根据第一预定规则所确定的第二确定规则，计算得到“手机”的总权重值＝0.3+0.5＝0.8，“下载”的总权重值＝0.3+0.5+0.2+0.2＝1.2，则确定装置3选择“下载”作为待分类短文本信息的类别信息。

图7为本发明一个优选实施例的用于识别短文本类别信息的短文本处理装置结构示意图。根据本实施例的短文本处理装置包括第一获取装置1、类别获取装置2、确定装置3、第二获取装置4、特征获取装置5及训练装置6。其中，第一获取装置1、类别获取装置2及确定装置3已在参照图6所示实施例中予以详述，并以引用的方式包含于此，不再赘述。

第二获取装置4由已分类短文本信息库10中获取已分类的短文本信息。其中，该已分类短文本信息库10在第二获取装置4执行获取步骤之前已预设。

特征获取装置5根据所述已分类短文本信息，获取其对应的多种类别的短文本特征信息。

具体地，特征获取装置5获取该多种类别的短文本特征信息的方式包括但不限于：

1)分析所述短文本特征信息，以提取其短文本特征信息；

例如，第二获取装置4由已分类短文本信息库10中获取到一个或多个已分类短文本信息后，特征获取装置5实时提取其短文本特征信息，并将所述短文本信息的类别作为其对应的短文本特征信息的类别。

2)获取预存储的与所述短文本信息对应的短文本特征信息；

具体地，所述预存储的短文本特征信息可存储在所述已分类短文本信息库10中，或者，存储在其他信息库中且与所述短文本信息具有对应关系。

需要说明的是，特征获取装置5可结合上述两种获取方式，来综合获得短文本特征信息。例如，特征获取装置5以实时分析的方式获取短文本信息的切词特征信息、n-gram特征信息及短文本首词尾词特征信息，并获取预存储的与该短文本信息对应的短文本扩展特征信息、PLSA特征信息、ESA特征信息及PCA特征信息等。

训练装置6根据所述多种类别的短文本特征信息，对所述多个分类模型组进行训练，以获取或更新所述多个分类模型组。其中，每个分类模型组所采用的短文本特征信息类别均与其他分类模型组所采用的短文本特征信息类别不同。

具体地，对于每一短文本特征信息，训练装置6仅将该短文本特征信息用于训练一个分类模型组，但对于一个分类模型组，训练装置6可采用一种或多种短文本特征信息对该分类模型组进行训练。

例如，若当前已建立四个的分类模型组，且每组均包含一个支持向量机分类模型及最大熵向量分类模型，特征获取装置5分析得到四种短文本特征信息：切词特征信息、n-gram特征信息、短文本首词尾词特征信息及短文本扩展特征信息，则训练装置6采用切词特征信息来训练第一组分类模型组所包含的分类模型，采用n-gram特征信息来训练第二组分类模型组所包含的分类模型，采用短文本首词尾词特征信息来训练第三组分类模型组所包含的分类模型，采用短文本扩展特征信息来训练第四组分类模型组所包含的分类模型，以更新该四组分类模型组。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据所述多种类别的短文本特征信息，对所述多个分类模型组进行训练，以获取或更新所述多个分类模型组的实现方式，例如，改变上述举例中分类模型组的数量及所包含的分类模型，或采用其他短文本特征信息来训练分类模型组等，均应包含在本发明的范围内。

图8为本发明另一优选实施例的用于识别短文本类别信息的短文本处理装置结构示意图。根据本实施例的短文本处理装置包括第一获取装置1、类别获取装置2及确定装置3。其中，确定装置3进一步包括统计装置31及第一子确定装置32。

第一获取装置1及类别获取装置2已在参照图6或图7所示实施例中予以详述，并以引用的方式包含于此，不再赘述。

本实施例中，前述参照图6及图7所示实施例中所述第一预定规则进一步包括统计判断规则。

统计装置31根据所述多个类别判断结果，来获得类别判断统计结果。

具体地，所述类别判断统计结果包括以下至少一项：

1)相一致的所述类别判断结果数量；

统计装置31分别统计相一致的类别判断结果数量，并将该统计的相一致的类别判断结果数量包含在判断统计结果中。

例如，类别获取装置2获得的类别判断结果分别为“手机”、“下载”、“下载”、“手机”、“下载”、“下载”。则统计装置31统计得到类别判断结果“手机”的数量为二，类别判断结果“下载”的数量为四，并将上述两个统计结果包含在判断统计结果中。

2)所有类别判断结果数量；

统计装置31统计所有类别判断结果数量，并将该所有类别判断结果数量包含在判断统计结果中。

例如，类别获取装置2获得的类别判断结果分别为“手机”、“下载”、“下载”、“手机”、“下载”、“下载”。则统计装置31统计得到所有类别判断结果的数量为六。

统计装置31分别统计相一致的类别判断结果数量及所有类别判断结果数量，计算该相一致的所述类别判断结果数量占所有类别判断结果数量的比例，并将该比例包含在判断统计结果中。

第一子确定装置32基于所述统计判断规则，根据所述类别判断统计结果，来确定所述待分类短文本信息的类别信息。

具体地，所述统计判断规则中规定了确定所述待分类短文本信息的第三确定规则。第一子确定装置32根据所规定的第三确定规则，来确定所述待分类短文本信息的类别信息。

例如，所述统计判断规则中规定，当相一致的所述类别判断结果数量超过第一预定阈值时，将该等类别判断结果包含的类别作为所述待分类短文本信息的类别信息。则第一子确定装置32判断得到判断统计结果中包含的相一致的所述类别判断结果数量超过第一预定阈值时，将该等类别判断结果包含的类别作为所述待分类短文本信息的类别信息。

又例如，所述统计判断规则中规定，当相一致的所述类别判断结果数量占所有类别判断结果数量的比例超过第二预定阈值时，将该类别判断结果包含的类别作为所述待分类短文本信息的类别信息。则当第一子确定装置32判断统计结果中包含的相一致的所述类别判断结果数量占所有类别判断结果数量的比例超过第二预定阈值时，第一子确定装置32将该类别判断结果包含的类别作为所述待分类短文本信息的类别信息。或者，当判断统计结果中包含相一致的类别判断结果数量及所有类别判断结果数量时，第一子确定装置32根据上述两者来获得前述比例，随后，当第一子确定装置32判断所获取的比例超过第二预定阈值时，将该类别判断结果包含的类别作为所述待分类短文本信息的类别信息。

图9为本发明另一个优选实施例的用于识别短文本类别信息的短文本处理装置结构示意图。根据本实施例的短文本处理装置包括第一获取装置1、类别获取装置2及确定装置3。其中，确定装置3进一步包括第三获取装置33、评价获取装置34及第二子确定装置35。

本实施例中，前述参照图6及图7所示实施例中所述第一预定规则进一步包括权重判断规则。

第三获取装置33获取所述多个类别判断结果对应的权重值。

具体地，第三获取装置33根据类别判断结果对应的分类模型组或对应的分类模型来确定各个类别判断结果的权重值。其中，第三获取装置33获取所述权重值的方式包括但不限于：

例如，第三获取装置33获取第一个分类模型组包含的支持向量机分类模型输出的类别判断结果时，在预设的对应关系中查询得到该分类模型对应的权重值为0.5，则将该权重值作为该类别判断结果的权重值。

例如，类别获取装置2获取第一个分类模型组包含的支持向量机分类模型输出的类别判断结果时，记录该类别判断结果对应的分类模型，当第三获取装置33需要处理该类别判断结果时，查询得到所记录的该类别判断结果对应的分类模型的权重值为0.5，则将该权重值作为该类别判断结果对应的权重值。

评价获取装置34基于权重判断规则，根据所述多个类别判断结果及其对应的权重值，来获得所述短文本信息的一个或多个类别评价值。

具体的，所述权重判断规则中规定了根据所述多个类别判断结果及其对应的权重值，来获得所述短文本信息的一个或多个类别评价值的第四确定规则。评价获取装置34基于权重判断规则中规定的第四确定规则，根据所述多个类别判断结果及其对应的权重值，来获得所述短文本信息的一个或多个类别评价值。

例如，所述第四确定规则中规定，将相同的类别判断结果对应的所有权重值相加，以获得该类别判断结果的类别评价值。则对于短文本信息“dnf游戏下载”，评价获取装置34所获取的类别判断结果及其对应的权重值如下：

“游戏”0.2

“下载”0.4

“下载”0.3

“游戏”0.5

“下载”0.2

“下载”0.3

则评价获取装置34分别将类别判断结果“游戏”及“下载”对应的所有权重值相加，得到“游戏”的类别评价值分别为0.7及1.2。

又例如，所述第四确定规则中规定，获取相同的类别判断结果对应的所有权重值的平方和，以获得该类别判断结果的类别评价值。则对于短文本信息“dnf游戏下载”，评价获取装置34所获取的类别判断结果及其对应的权重值如下：

“游戏”0.2

“下载”0.4

“下载”0.3

“游戏”0.5

“下载”0.2

“下载”0.3

则评价获取装置34分别获取类别判断结果“游戏”及“下载”对应的所有权重值的平方和，得到“游戏”的类别评价值分别为0.29及0.38。

第二子确定装置35根据所述类别评价值，来确定所述待分类短文本信息的类别信息。

例如，第二子确定装置35选择类别评价值最高，或者，类别评价值为前N位的类别判断结果包含的类别，来作为所述待分类短文本信息的类别信息。其中，本领域技术人员应可根据实际情况和需求来选择并设定N的值。

又例如，第二子确定装置35选择类别评价值超过第三预定阈值的类别判断结果包含的类别，来作为所述待分类短文本信息的类别信息。其中，本领域技术人员应可根据实际情况和需求来选择并设定所述第三预定阈值。

图10为本发明再一优选实施例的用于识别短文本类别信息的短文本处理装置结构示意图。根据本实施例的短文本处理装置，包括第一获取装置1、第类别获取装置2、确定装置3、第二获取装置4、特征获取装置5、训练装置6、更新装置7、判断装置8及生成装置9。其中，确定装置3、特征获取装置5及训练装置6已在参照图7、图8或图9所示实施例中予以详述，并以引用的方式包含于此，不再赘述。

更新装置7将基于所述已综合确定类别信息的短文本信息及其对应的类别信息，更新至所述已分类短文本信息库10中。

具体地，更新装置7根据确定装置3所获得的综合确定类别信息的短文本信息及其对应的类别信息来更新已分类短文本信息库10中包含的短文本信息及其对应的类别信息，以扩展已分类短文本信息库10。

判断装置8判断所述已分类短文本信息库10包含的内容信息是否满足词典生成条件。

具体地，判断装置8可采用多种方式判断已分类短文本信息库10中包含的内容信息是否满足词典生成条件。例如，已分类短文本信息库10中的短文本信息数量是否超过第四预定阈值；又例如，已分类短文本信息库10中的短文本信息数量占总的短文本信息数量的比例是否超过第五预定阈值等。其中，本领域技术人员应可根据实际情况和需求来选择并设定所述第四及第五预定阈值。

当判断装置8判断所述内容信息满足词典生成条件，则生成装置9根据所述内容信息，生成短文本匹配词典11。其中，该短文本匹配词典11包括短文本信息及其对应的类别信息。

当判断装置8判断所述内容信息不满足词典生成条件，则第二获取装置4继续由所述已分类短文本信息库10中获取已分类的短文本信息，以便特征获取装置5及训练装置6能够执行各自的操作。其中，第二获取装置4由所述已分类短文本信息库10中获取已分类的短文本信息，已在参照图7至图9所示实施例中予以详述，并以引用的方式包含于此，不再赘述。

并且，当判断装置8判断所述内容信息不满足词典生成条件时，第一获取装置1获取所述待分类的短文本信息。

具体地，当判断装置8判断所述内容信息不满足词典生成条件，则第一获取装置1继续获取待分类的短文本信息。其中，第一获取装置1获取待分类的短文本信息的方式，已在参照图6至图9所示实施例中予以详述，并以引用的方式包含于此，不再赘述。

当训练装置6更新所述多个分类模型组后，类别获取装置2获取分别基于更新后的分类模型组获得的该短文本信息的多个类别判断结果。

具体地，在训练装置6更新多个分类模型组之后，类别获取装置2分别基于更新后的分类模型组，并根据第一获取装置1获取的短文本信息来得到多个类别判断结果。其中，类别获取装置2获取分别基于多个分类模型组获得的该短文本信息的多个类别判断结果的方式，已在参照图6至图9所示实施例中予以详述，并以引用的方式包含于此，不再赘述。

根据本实施例的短文本处理装置，能够通过迭代的方式训练并更新分类模型组，并扩展已分类短文本信息，直至已分类短文本信息能够生成短文本匹配词典。

需要说明的是，本实施例的迭代过程可由第一获取装置1、第类别获取装置2、确定装置3、第二获取装置4、特征获取装置5、训练装置6、更新装置7及判断装置8自主实现。即当第一获取装置1及第二获取装置4在收到判断装置8判断已分类短文本信息库10不满足词典生成条件的判断结果后，即执行各自的操作，并分别向类别获取装置2及特征获取装置5输出所获取的短文本信息，则第二获取装置4触发特征获取装置5，特征获取装置5触发训练装置6，而第一获取装置1及训练装置6触发类别获取装置2，类别获取装置2触发确定装置3，确定装置3触发更新装置7，更新装置7触发判断装置8，以实现迭代的过程。或者，本实施例的迭代过程可由短文本处理装置所包含的主控装置控制第一获取装置1、第类别获取装置2、确定装置3、第二获取装置4、特征获取装置5、训练装置6、更新装置7及判断装置8来实现。并且，对于在一次分类过程中无法判断类别的短文本信息，可以在下一次分类过程中再行判断；而对于生成短文本匹配词典11后依然无法判断类别的短文本信息，则将其判断为无需覆盖的信息，不对其进行分类处理。

作为本发明的优选方案之一，根据本发明的短文本处理装置还包括第四获取装置(图未示)及匹配查询装置(图未示)。第四获取装置获取待处理的短文本信息，匹配查询装置将该待处理的短文本信息在所述短文本匹配词典中进行匹配查询，以获得该待处理的短文本信息的类别信息的步骤。

具体的，匹配查询装置将该处理的短文本信息与短文本匹配词典中包含的短文本信息进行匹配，并获取能够成功匹配的短文本信息对应的类别作为待处理短文本信息的类别。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种计算机实现的用于识别短文本类别信息的方法，其中，该方法包括以下步骤：

a获取待分类的短文本信息；

2.根据权利要求1所述的方法，其中，该方法还包括以下步骤：

d由已分类短文本信息库中获取已分类的短文本信息；

e根据所述已分类短文本信息，获取其对应的多种类别的短文本特征信息；

f根据所述多种类别的短文本特征信息，对所述多个分类模型组进行训练，以获取或更新所述多个分类模型组；

其中，每个分类模型组所采用的短文本特征信息类别均与其他分类模型组所采用的短文本特征信息类别不同。

3.根据权利要求1或2所述的方法，其中，所述第一预定规则包括以下任一项：

-统计判断规则；

-权重判断规则。

4.根据权利要求3所述的方法，其中，所述第一预定规则包括统计判断规则，所述步骤c包括以下步骤：

-根据所述多个类别判断结果，来获得类别判断统计结果；

-基于所述统计判断规则，根据所述类别判断统计结果，来确定所述待分类短文本信息的类别信息；

其中，所述类别判断统计结果包括以下至少一项：

-相一致的所述类别判断结果数量；

-所有类别判断结果数量；

-相一致的所述类别判断结果数量占所有类别判断结果数量的比例。

5.根据权利要求3所述的方法，其中，所述第一预定规则包括权重判断规则，所述步骤c包括以下步骤：

-获取所述多个类别判断结果对应的权重值；

-基于权重判断规则，根据所述多个类别判断结果及其对应的权重值，获得所述短文本信息的一个或多个类别评价值；

-根据所述类别评价值，来确定所述待分类短文本信息的类别信息。

6.根据权利要求2至5中任一项所述的方法，其中，该方法还包括以下步骤：

-将基于所述已综合确定类别信息的短文本信息及其对应的类别信息，更新至所述已分类短文本信息库中。

7.根据权利要求6所述的方法，其中，该方法还包括以下步骤：

-判断所述已分类短文本信息库包含的内容信息是否满足词典生成条件；

-当所述内容信息满足词典生成条件，则根据所述内容信息，生成短文本匹配词典；

其中，所述步骤d包括以下步骤：

-当所述内容信息不满足词典生成条件时，由所述已分类短文本信息库中获取已分类的短文本信息；

所述步骤a包括以下步骤：

-当所述内容信息不满足词典生成条件时，获取所述待分类的短文本信息；

所述步骤b包括以下步骤：

当更新所述多个分类模型组后，获取分别基于多个更新后的分类模型组获得的该短文本信息的多个类别判断结果。。

8.根据权利要求7所述的方法，其中，该方法还包括以下步骤：

-获取待处理的短文本信息；

-将该待处理的短文本信息在所述短文本匹配词典中进行匹配查询，以获得该待处理的短文本信息的类别信息。

9.根据权利要求1至8中任一项所述的方法，其中，所述分类模型组包括以下至少一种分类模型：

-支持向量机分类模型；

-最大熵向量分类模型；

-决策树分类模型；

-k最近邻分类模型。

10.根据权利要求1至9中任一项所述的方法，其中，所述短文本特征信息包括以下至少一项：

-切词特征信息；

-n-gram特征信息；

-短文本首词尾词特征信息；

-短文本扩展特征信息；

-PLSA特征信息；

-ESA特征信息；

-PCA特征信息。

11.一种计算机实现的用于识别短文本类别信息的短文本处理装置，其中，该短文本处理装置包括：

第一获取装置、用于获取待分类的短文本信息；

12.根据权利要求11所述的短文本处理装置，其中，该短文本处理装置还包括：

第二获取装置、用于由已分类短文本信息库中获取已分类的短文本信息；

特征获取装置、用于根据所述已分类短文本信息，获取其对应的多种类别的短文本特征信息；

训练装置、用于根据所述多种类别的短文本特征信息，对所述多个分类模型组进行训练，以获取或更新所述多个分类模型组；

其中，每个分类模型组所采用的短文本特征信息类别均与其他分类模型所采用的短文本特征信息类别不同。

13.根据权利要求11或12所述的短文本处理装置，其中，所述第一预定规则包括以下任一项：

-统计判断规则；

-权重判断规则。

14.根据权利要求13所述的短文本处理装置，其中，所述第一预定规则包括统计判断规则，所述确定装置包括：

统计装置、用于根据所述多个类别判断结果，来获得类别判断统计结果；

第一子确定装置、用于基于所述统计判断规则，根据所述类别判断统计结果，来确定所述待分类短文本信息的类别信息；

其中，所述类别判断统计结果包括以下至少一项：

-相一致的所述类别判断结果数量；

-所有类别判断结果数量；

15.根据权利要求13所述的短文本处理装置，其中，所述第一预定规则包括权重判断规则，所述确定装置包括：

第三获取装置、用于获取所述多个类别判断结果对应的权重值；

评价获取装置、用于基于权重判断规则，根据所述多个类别判断结果及其对应的权重值，获得所述短文本信息的一个或多个类别评价值；

第二子确定装置、用于根据所述类别评价值，来确定所述待分类短文本信息的类别信息。

16.根据权利要求12至15中任一项所述的短文本处理装置，其中，该短文本处理装置还包括：

更新装置、用于将基于所述已综合确定类别信息的短文本信息及其对应的类别信息，更新至所述已分类短文本信息库中。

17.根据权利要求16所述的短文本处理装置，其中，该短文本处理装置还包括：

判断装置、用于判断所述已分类短文本信息库包含的内容信息是否满足词典生成条件；

生成装置、用于当所述内容信息满足词典生成条件，则根据所述内容信息，生成短文本匹配词典；

其中，所述第二获取装置还用于：

当所述内容信息不满足词典生成条件时，由所述已分类短文本信息库中获取已分类的短文本信息；

所述第一获取装置还用于：

当所述内容信息不满足词典生成条件时，获取所述待分类的短文本信息；

所述类别获取装置还用于：

当更新所述多个分类模型组后，获取分别基于多个更新后的分类模型组获得的该短文本信息的多个类别判断结果。

18.根据权利要求17所述的短文本处理装置，其中，该短文本处理装置还包括：

第三获取装置、用于获取待处理的短文本信息；

匹配查询装置、用于将该待处理的短文本信息在所述短文本匹配词典中进行匹配查询，以获得该待处理的短文本信息的类别信息。

19.根据权利要求11至18中任一项所述的短文本处理装置，其中，所述分类模型组包括以下至少一种分类模型：

-支持向量机分类模型；

-最大熵向量分类模型；

-决策树分类模型；

-k最近邻分类模型。

20.根据权利要求11至19中任一项所述的短文本处理装置，其中，所述短文本特征信息包括以下至少一项：

-切词特征信息；

-n-gram特征信息；

-短文本首词尾词特征信息；

-短文本扩展特征信息；

-PLSA特征信息；

-ESA特征信息；

-PCA特征信息。

21.一种计算机设备，其中，该计算机设备包括权利要求11至20中至少一项所述的短文本处理装置。