CN107644101B

CN107644101B - 信息分类方法和装置、信息分类设备及计算机可读介质

Info

Publication number: CN107644101B
Application number: CN201710929284.6A
Authority: CN
Inventors: 王跃虎; 李枝灵
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2020-11-13
Anticipated expiration: 2037-09-30
Also published as: CN107644101A

Abstract

本发明提出一种信息分类方法，训练样本中包括文本信息，每个文本信息预设有对应的分类信息，训练样本中的文本信息的数量为多个，且训练样本中的分类信息的种类有多种，该方法包括：对训练样本中的文本信息进行词的成分特征标注，词的成分特征的种类有多种；计算训练样本中的每种分类信息的先验概率，以及每个文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率；针对待分类的文本信息，根据训练样本计算待分类的文本信息对应各种分类信息的后验概率，并选择后验概率最大的对应分类信息作为待分类的文本信息的分类信息。本发明还提出一种信息分类装置、设备和计算机可读介质。通过本发明，能够提高文本信息分类的准确率和召回率。

Description

信息分类方法和装置、信息分类设备及计算机可读介质

技术领域

本发明涉及文本信息分类技术领域，尤其涉及一种信息分类方法和装置、信息分类设备及计算机可读介质。

背景技术

相关技术中针对文本信息的分类方法大多只是将文本信息中的每个词当作一个单独的特征进行处理，并基于关键词匹配的规则进行分类。这种分类方法主要存在以下缺陷：

一、召回率(Recall Rate)低，一旦文本信息中不包含预先设置的关键词，就无法对该文本信息进行分类；其中，所谓召回率是指能够完成分类的文本信息量，占执行分类的文本信息总量的比值。

二、分类准确率低，关键词匹配的规则无法考虑到词与词之间的关联性，容易导致分类错误。

针对地图兴趣点信息的分类，采用上述基于关键词匹配的规则方法也会存在同样的缺陷。所谓兴趣点(POI，Point of Interest)是地理信息系统中的一个术语，泛指一切可以抽象为点的地理对象，尤其是一些与人们生活密切相关的地理实体，如学校、银行、餐馆、加油站、医院、超市等。兴趣点的主要用途是对事物或事件的地址进行描述，能在很大程度上增强对事物或事件位置的描述能力和查询能力，提高地理定位的精度和速度。举例说明：兴趣点名称“清华大学”和兴趣点名称“清华大学-东门”，这两个兴趣点名称按照关键词匹配的规则，都会被分为“教育培训；高等院校”这一类；然而，“清华大学-东门”实际应当属于“出入口；门”这一类，显然的，这就属于分类错误，“清华大学-东门”被分到“教育培训；高等院校”这一类是错误的操作。

因此，怎样提高文本信息(不仅限于地图兴趣点信息)分类的准确率和召回率，是亟待解决的技术问题。

发明内容

本发明实施例提供一种信息分类方法和装置、信息分类设备及计算机可读介质，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种信息分类方法，训练样本中包括文本信息，且所述训练样本中的每个文本信息预设有对应的分类信息，所述训练样本中的文本信息的数量为多个，且所述训练样本中的分类信息的种类有多种，所述方法包括：

对所述训练样本中的文本信息进行词的成分特征标注，所述词的成分特征的种类有多种；

计算所述训练样本中的每种分类信息的先验概率，以及每个文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率；

针对待分类的文本信息，根据所述训练样本计算所述待分类的文本信息对应各种分类信息的后验概率，并选择后验概率最大的对应分类信息作为所述待分类的文本信息的分类信息。

结合第一方面，本发明在第一方面的第一种实现方式中，所述根据条件概率和先验概率，计算所述文本信息对应各种分类信息的后验概率，包括：

对所述待分类的文本信息进行词的成分特征标注；

利用所述待分类的文本信息中的至少一个成分特征，并根据所述训练样本中的先验概率和条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率。

结合第一方面的第一种实现方式，本发明在第一方面的第二种实现方式中，所述词的成分特征的种类为三种，包括第一维成分特征、第二维成分特征、第三维成分特征，

所述针对待分类的文本信息，根据训练样本计算待分类的文本信息对应各种分类信息的后验概率，并选择后验概率最大的对应分类信息作为待分类的文本信息的分类信息，包括：

利用所述待分类的文本信息被标注的第一维成分特征、第二维成分特征和第三维成分特征，并结合所述训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率；

计算最大后验概率与第二大后验概率之间的差值，并在所述差值大于等于预设的第一阈值时，将所述最大后验概率对应的分类信息作为所述待分类的文本信息的分类信息。

结合第一方面的第一种实现方式，本发明在第一方面的第三种实现方式中，所述词的成分特征的种类为三种，包括第一维成分特征、第二维成分特征、第三维成分特征，

利用所述待分类的文本信息被标注的第一维成分特征和第二维成分特征，并结合所述训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率；

计算最大后验概率与第二大后验概率之间的差值，并在所述差值大于等于预设的第二阈值时，将所述最大后验概率对应的分类信息作为所述待分类的文本信息的分类信息。

结合第一方面的第三种实现方式，在第一方面的第四种实现方式中，所述方法还包括：在所述差值小于预设的第二阈值时，利用所述待分类的文本信息被标注的第一维成分特征、第二维成分特征和第三维成分特征，并结合所述训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率；

计算最大后验概率与第二大后验概率之间的差值，并在所述差值大于等于预设的第三阈值时，将所述最大后验概率对应的分类信息作为所述待分类的文本信息的分类信息。

结合第一方面的第一种实现方式、第二种实现方式、第三种实现方式或第四中实现方式，在第一方面的第五种实现方式中，在计算所述后验概率之前，所述方法还包括：

根据所述文本信息以及第一维成分特征，判断是否满足预设的特定分类判定规则，并在判断满足时，将所述文本信息以及第一维成分特征按所述规则匹配的分类信息作为对应文本信息的分类信息。

结合第一方面，本发明在第一方面的第六种实现方式中，所述方法还包括：

利用条件随机场(CRF)算法对所述训练样本中的文本信息进行词的成分特征标注。

结合第一方面，本发明在第一方面的第七种实现方式中，所述方法还包括：

利用极大似然估计算法计算所述训练样本中的每种分类信息的先验概率，以及每个文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率。

第二方面，本发明实施例提供了一种信息分类装置，包括：

训练样本存储单元，用于存储训练样本，所述训练样本中包括文本信息，且所述训练样本中的每个文本信息预设有对应的分类信息，所述训练样本中的文本信息的数量为多个，且所述训练样本中的分类信息的种类有多种；

成分特征标注单元，用于对所述训练样本中的文本信息进行词的成分特征标注，所述词的成分特征的种类有多种；

第一概率计算单元，用于计算所述训练样本中的每种分类信息的先验概率，以及每个文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率；

第二概率计算单元，用于针对待分类的文本信息，根据所述训练样本计算所述待分类的文本信息对应各种分类信息的后验概率，并选择后验概率最大的对应分类信息作为所述待分类的文本信息的分类信息。

结合第二方面，本发明在第二方面的第一种实现方式中，所述第二概率计算单元进一步用于，利用所述待分类的文本信息中的至少一个成分特征，并根据所述训练样本中的先验概率和条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率。

结合第二方面的第一种实现方式，本发明在第二方面的第二种实现方式中，所述词的成分特征的种类为三种，包括第一维成分特征、第二维成分特征和第三维成分特征，

所述第二概率计算单元进一步用于，利用所述待分类的文本信息被标注的第一维成分特征、第二维成分特征和第三维成分特征，并结合所述训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率；

结合第二方面的第一种实现方式，本发明在第二方面的第三种实现方式中，所述词的成分特征的种类为三种，包括第一维成分特征、第二维成分特征、第三维成分特征，

所述第二概率计算单元进一步用于，利用所述待分类的文本信息被标注的第一维成分特征和第二维成分特征，并结合所述训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率；

结合第二方面的第三种实现方式，在第二方面的第四种实现方式中，所述第二概率计算单元还用于，在所述差值小于预设的第二阈值时，利用所述待分类的文本信息被标注的第一维成分特征、第二维成分特征和第三维成分特征，并结合所述训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率；

结合第二方面的第一种实现方式、第二种实现方式、第三种实现方式或第四种实现方式，在第二方面的第五种实现方式中，所述装置还包括：规则匹配单元，用于在所述第二概率计算单元计算所述后验概率之前，所述规则匹配单元根据所述文本信息以及第一维成分特征，判断是否满足预设的特定分类判定规则，并在判断满足时，将所述文本信息以及第一维成分特征按所述规则匹配的分类信息作为对应文本信息的分类信息。

所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，信息分类装置的结构中包括处理器和存储器，所述存储器用于存储支持信息分类装置执行上述第一方面中信息分类方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述信息分类装置还可以包括通信接口，用于信息分类装置与其他设备或通信网络通信。

第三方面，本发明实施例提供了一种计算机可读介质，用于存储信息分类装置所用的计算机软件指令，其包括用于执行上述第一方面中的信息分类方法而为信息分类装置所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：通过对文本信息中各个词进行成分标注并将其作为成分特征，提升了文本信息分类算法的准确率和覆盖率；

上述技术方案中的另一个技术方案具有如下优点或有益效果：与现有技术中基于关键词规则进行匹配的文本信息分类方法相比，分类准确率得到大幅提升，分类覆盖率得到大幅提升；

上述技术方案中的再一个技术方案具有如下优点或有益效果：不需要维护复杂的关键词匹配规则，减少了人力成本。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例一的信息分类方法的流程示意图；

图2为本发明实施例二的后验概率计算的方法的流程示意图；

图3为本发明实施例三的后验概率计算的方法的流程示意图；

图4为本发明实施例四的信息分类装置的组成结构示意图一；

图5为本发明实施例五的信息分类装置的组成结构示意图二；

图6为本发明实施例六的信息分类设备的组成结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

本发明实施例旨在提出能够提升文本信息分类的召回率和准确率的解决方案。在很多技术领域和应用环境下，都有对文本信息进行分类的实际需求，例如：在电子地图领域，需要对地图兴趣点进行分类，因为分类是地图兴趣点的重要属性，分类决定了兴趣点在电子地图上的展现层级以及展现的图标(icon)，电子地图的不同放大缩小比例对应了不同的展现层级，也就是说，在不同的展现层级下展现的兴趣点的内容是不同的，兴趣点所属的分类决定了该兴趣点所处的展现层级。再例如：在电商领域，需要对商品信息进行分类，不同分类决定了商品的不同位置。还例如：新闻分类、邮件分类/过滤、短消息分类/过滤等等。

本发明实施例期望通过对文本信息(如：地图兴趣点信息、商品信息、新闻标题、邮件标题等等)的处理，能够提升在各个领域中所涉及到的信息分类操作的召回率和准确率。所谓文本信息分类的召回率是指，能够完成分类的文本信息量，占执行分类的文本信息总量的比值。所谓文本信息分类的准确率是指，文本信息被准确的归为其应当所属分类的比例。本发明实施例的核心思想为：先通过样本训练，对训练样本中的每个文本信息进行词的成分特征标注；再基于所述成分特征标注，计算训练样本中的每种分类信息的先验概率，以及每个文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率；最后在需要预测某个文本信息的分类时，根据所述训练样本中计算的条件概率和先验概率，计算待预测的文本信息对应各种分类信息的后验概率，并选择后验概率最大的对应分类信息作为所述待预测的文本信息的分类信息。本发明实施例通过对文本信息进行词的成分特征标注，并结合先验概率、条件概率和后验概率运算方法，将词与词之间的内在关联引入到对文本信息分类操作中来，以此来达到提升文本信息分类的准确率和召回率的目的。下面分实施例进行技术方案的展开描述。

实施例一

如图1所示，本发明实施例一提供了一种信息分类方法，训练样本中包括文本信息，且训练样本中的每个文本信息预设有对应的分类信息，训练样本中的文本信息的数量为多个，且训练样本中的分类信息的种类有多种，该方法包括：

步骤S101，对训练样本中的文本信息进行词的成分特征标注，词的成分特征的种类有多种。

训练样本中收集了一定数量的文本信息，对训练样本中的文本信息进行词的成分特征标注的操作可以通过机器学习的方式来完成。当然，机器学习首先要依赖于大量的学习数据，本发明实施例中的学习数据包括一定数量的文本信息，且这些文本信息需要通过人工的方式进行词的成分特征标注；机器学习是指通过学习人工的词成分特征标注规律和规则，并基于学习的规则对训练样本中未进行标注的词进行成分特征标注。

词的成分特征的种类是预先设定的，可以根据实际需要进行有针对性的设定。例如：对于兴趣点的名称，可以特别设定三种成分特征，包括：第一维成分特征、第二维成分特征、第三维成分特征；第一维成分特征为suffix(尾缀)，第二维成分特征为scope(形容词)，第三维成分特征为core(核心词)，其中，suffix用于标注兴趣点名称的尾缀，scope用于标注兴趣点名称中的形容性词汇，core用于标注兴趣点名称中的核心词。以“奎科科技大厦”为例，其中的core为“奎科”、scope为“科技”，suffix为“大厦”；以“清华大学”为例，其中的core为“清华”、suffix为“大学”，没有scope；以“清华大学-东门”为例，其中core为“清华”，suffix为“东门”，scope为“大学”。

如此，通过机器学习的方式，在步骤S101中完成对训练样本中的文本信息的词的成分特征标注。

需要说明的是，本发明实施例词的成分特征的种类并不仅限于以上所举，也并不仅限于以上三种，在实际应用中可以根据本发明实施例的应用范围、以及文本信息的特点，有针对性的设定使用的成分特征及其种类。例如：可以对第三维成分特征core进一步细分，划分出来多种core，对每种core的特征进行分别定义，那么在一个文本信息中可以标注多个不同种类的core；也可以对第二维成分特征scope进一步细分，划分出来多种scope，对每种scope的特征进行分别定义，那么在一个文本信息中可以标注多个不同种类的scope。

步骤S102，计算训练样本中的每种分类信息的先验概率，以及每个文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率。

本发明实施例利用极大似然估计算法计算训练样本中的每种分类信息的先验概率，以及每个文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率。

朴素贝叶斯模型中的先验概率和条件概率，其具体过程如下：

设输入空间为n维向量的集合，输出空间为类标记集合{c₁，c₂，...，c_k}。输入为特征向量X属于输入空间，输出为类标记Y属于输出空间。X是定义在输入空间上的随机向量，Y是定义在输出空间上的随机向量。P(X，Y)表示X和Y的联合概率分布。训练样本(也称训练数据集)为：

T＝{(x₁，y₁)，(x₂，y₂)...，(x_N，y_N)}

其中，x₁表示训练样本中第1个文本信息，y₁表示预先标注的第1文本信息所属的分类；x₂表示训练样本中第2个文本信息，y₂表示预先标注的第2个文本信息所属的分类；以此类推，x_N表示训练样本中第N个文本信息，y_N表示预先标注的第N个文本信息所属的分类。

如果应用在兴趣点名称的分类中，x₁表示训练样本中第1个兴趣点的名称，y₁表示预先标注的第1个兴趣点名称所属的分类；x₂表示训练样本中第2个兴趣点的名称，y₂表示预先标注的第2个兴趣点名称所属的分类；以此类推，x_N表示训练样本中第N个兴趣点的名称，y_N表示预先标注的第N个兴趣点名称所属的分类。

朴素贝叶斯通过训练样本学习联合概率分布P(X，Y)。具体地，学习以下先验概率分布及条件概率分布。

一、先验概率

P(Y＝c_k)的极大似然估计是：

上式中，P(Y＝c_k)表示Y为c_k的先验概率，c_k表示训练样本中的第k种分类信息，分类信息如：“政府机关”、“教育培训；高等院校”、“出入口；门”等等。I(y_i＝c_k)用于表示第i个训练样本的分类y_i是否为c_k，如果第i个训练样本的分类y_i是c_k，则I(y_i＝c_k)的取值为1，否则I(y_i＝c_k)的取值为0。K表示训练样本中所有的分类的数量，N表示训练样本中文本信息的总数。

二、条件概率

设第j个成分特征x^(j)可能取值的集合为

集合

表示的是训练样本的集合中某一维成分特征的所有可能的结果，下标S_j表示第j个成分特征所有取值的个数。例如：训练样本一共有3个，奎科科技大厦、清华大学和小金星幼儿园，按词的成分特征标注，“奎科”标注为core、“科技”标注为scope、“大厦”标注为suffix，“清华”标注为core、“大学”标注为scope，“小金星”标注为core、“幼儿园”标注为scope。那么，对于第一维成分特征core来说，所有可能的取值集合为{奎科、清华、小金星}，对应的S₁＝3；对于第二维成分特征scope来说，所有可能的取值集合为{科技}，对应的S₂＝1，对于第三维成分特征suffix来说，所有可能的取值集合为{大厦、大学、幼儿园}，对应的S₃＝3。

条件概率P(X^(j)＝a_jl|Y＝c_k)的极大似然估计是：

j＝1，2，...，n；l＝1，2，...，S_j；k＝1，2，...，K

上式中，P(X^(j)＝a_jl|Y＝c_k)表示在Y＝c_k的条件下X^(j)＝a_jl的概率，c_k表示训练样本中的第k种分类信息，X^(j)表示第j个成分特征，a_jl表示第j个成分特征可能取的第l个值，

表示第i个训练样本的第j个成分特征，y_i表示第i个训练样本的分类信息；I为指示函数，在指示函数

中，当满足

时，I的取值为1，否则为0，在指示函数I(y_i＝c_k)中，当满足y_i＝c_k时，I的取值为1，否则为0。在成分特征包括core、scope和suffix的实例中，j的最大取值为3。条件概率的描述如：在“教育培训；高等院校”的分类条件下，第一维成分特征core为“清华”的概率；在“教育培训；高等院校”的分类条件下，第三维成分特征suffix为“大学”的概率。

步骤S103，针对待分类的文本信息，根据训练样本计算待分类的文本信息对应各种分类信息的后验概率，并选择后验概率最大的对应分类信息作为待分类的文本信息的分类信息。

实施步骤S103时，首先要对待分类的文本信息进行词的成分特征标注；然后可以利用待分类的文本信息中的至少一个成分特征，并根据训练样本中的先验概率和条件概率，计算待分类的文本信息对应各种分类信息的后验概率。例如：待分类的地图兴趣点名称为“浙江大学-南门”，可以对其进行词的成分特征标注，“浙江”标注为core，“大学”标注为scope，“南门”标注为suffix，那么可以利用以上至少一个成分特征，并根据训练样本中的先验概率和条件概率，计算“浙江大学-南门”分别为各种分类信息时的后验概率。

步骤S103中在需要计算某个文本信息的分类信息时，直接根据训练样本中的条件概率和先验概率，计算文本信息对应各种分类信息的后验概率即可，从中选择后验概率最大的分类信息作为该文本信息的分类信息。

其中，利用朴素贝叶斯计算后验概率的部分如下所述：

朴素贝叶斯法对条件概率分布作了条件独立性的假设，

上式中，c_k表示训练样本中的第k种分类信息，X^(j)表示第j个成分特征，x^(j)表示第j维成分特征的具体取值。朴素贝叶斯法分类时，对给定的输入X，通过学习到的模型计算后验概率分布P(Y＝c_k|X＝x)，将后验概率最大的类作为输出。后验概率计算根据以下贝叶斯定理进行：

其中，P(Y＝c_k|X＝x)表示在X＝x的条件下，Y＝c_k的概率。

将条件独立性假设代入上式得：

上式是朴素贝叶斯分类的基本公式。其中，

表示j从1至n，所有P(X^(j)＝x^(j)|Y＝c_k)的乘积，j表示成分特征的序号；

表示k从1至K，所有

之和，k表示分类信息的序号。

于是，朴素贝叶斯分类器可表示为：

注意到上式中的分母对所有c_k都是相同的，所以

上式中，c_k表示训练样本中的一种分类信息，X表示输入特征向量，j表示第j维成分特征(如第一维成分特征suffix、第二维成分特征scope、第三维成分特征core)。x^(j)表示第j维成分特征的具体取值。

需要说明的是，在需要计算某个文本信息的分类信息时，如果对该文本信息进行词的成分标注后，该文本信息的词被标注有多种成分特征，那么可以选择该文本信息的所有成分特征计算后验概率，也可以只选择该文本信息中的部分成分特征(一个以上成分特征)计算后验概率。只选择部分成分特征计算后验概率能够减少运算量，选择全部成分特征计算后验概率能够获得更高的分类准确率和召回率，在实际应用中可以根据需要在这两者间做出选择或平衡。下面以地图兴趣点名称为例，介绍一种后验概率计算的实施例，该实施例中，成分特征的种类有三种，即第一维成分特征suffix、第二维成分特征scope、第三维成分特征core。

实施例二

本发明实施例二的一种后验概率计算的方法，如图2所示，该方法主要包括：

步骤S201，对需要计算后验概率的兴趣点名称进行词的成分标注，将兴趣点名称中的词标注为第一维成分特征suffix、第二维成分特征scope、第三维成分特征core。

利用条件随机场(CRF，Conditional Random Field)算法对所述训练样本中的文本信息进行词的成分特征标注。CRF是一种判别式概率模型，是随机场的一种，CRF被用于中文分词和词性标注等词法分析工作。条件随机场则使用一种概率图模型，具有表达长距离依赖性和交叠性特征的能力，能够较好地解决标注(分类)偏置等问题的优点，而且所有特征可以进行全局归一化，能够求得全局的最优解。

需要说明的是，并非所有的兴趣点名称在进行词的成分标注时，都能成功的标注出所有的成分特征，例如：“清华大学”在进行词的成分标注时，就只能标注出suffix和core这两个成分特征，没有scope成分特征，“清华”被标注为core，“大学”被标注为suffix。

步骤S202，利用第一维成分特征suffix和第二维成分特征scope这两个成分特征计算兴趣点名称的后验概率。

具体计算是，根据待分类的兴趣点名称在训练样本中的先验概率，以及在训练样本中待分类的兴趣点名称中的第一维成分特征suffix与相应文本信息的分类信息之间的条件概率、第二维成分特征scope与相应文本信息的分类信息之间的条件概率，计算待分类的兴趣点名称对应各种分类信息的后验概率。

步骤S203，将该兴趣点名称中对应各种分类信息的后验概率中，最大的后验概率取值与第二大的后验概率取值进行差值计算，判断该差值是否大于等于预设的第二阈值，如果大于等于，则执行步骤S204；否则，执行步骤S205。

步骤S204，输出最大的后验概率取值所对应的分类信息作为该待分类的文本信息的分类信息。

步骤S205，利用第一维成分特征suffix、第二维成分特征scope和第三维成分特征core这三个成分特征计算兴趣点名称的后验概率。

具体计算是，根据待分类的兴趣点名称在训练样本中的先验概率，以及在训练样本中待分类的兴趣点名称中的第一维成分特征suffix与相应文本信息的分类信息之间的条件概率、第二维成分特征scope与相应文本信息的分类信息之间的条件概率、以及第三维成分特征core与相应文本信息的分类信息之间的条件概率，计算待分类的兴趣点名称对应各种分类信息的后验概率。

步骤S206，将该兴趣点名称中对应各种分类信息的后验概率中，最大的后验概率取值与第二大的后验概率取值进行差值计算，判断该差值是否大于等于预设的第三阈值，如果大于等于，则执行步骤S204；否则，执行步骤S207。

其中，第二阈值和第三阈值的取值可以相同，也可以不同，具体根据实际需要进行设定。

步骤S207，确定该兴趣点名称没有召回，即该兴趣点名称没有成功被分类。

当然，也可以在步骤S202后直接执行步骤S205，用计算所得最大后验概率与第二大后验概率之间的差值与预设的第一阈值进行比较，如果大于等于第一阈值，则输出最大的后验概率取值所对应的分类信息作为该待分类的文本信息的分类信息；否则，确定该兴趣点名称没有召回，即该兴趣点名称没有成功被分类。比较可以看出，这里只有一次后验概率计算，但运算量稍大，用到的成分特征较多，而步骤S202-S205则最多有两次后验概率计算，如果只通过步骤S202的计算就能输出满足要求的分类信息，那么就能降低运算量，因为步骤S202计算用到的成分特征较少。

实施例三

本实施例可在实施二的基础上结合关键词匹配的分类操作和方法，进一步有助于提升分类效率、分类准确率和召回率。本发明实施例三的一种后验概率计算的方法，如图3所示，该方法主要包括：

步骤S301，对需要计算后验概率的兴趣点名称进行词的成分标注，将兴趣点名称中的词标注为第一维成分特征suffix、第二维成分特征scope、第三维成分特征core。

步骤S302，将兴趣点名称和第一维成分特征suffix，与预设的特定分类判定规则进行匹配，判断是否满足预设的特定分类判定规则，如满足，执行步骤S303；否则，执行步骤S304。

特定分类判定规则可以是基于关键词匹配的分类规则，即维护一个关键词库和对应的关键词匹配规则，如果兴趣点名称的第一维成分特征suffix的词能够在关键词库中成功匹配到对应的关键词，则将该关键词对应的分类信息确定为该兴趣点名称所属的分类信息。需要说明的是，由于有后续的后验概率计算过程，因此，这里的关键词库和对应的关键词匹配规则可以不同于现有技术，其可以筛选更精准的关键词和更严格的匹配规则。

步骤S303，将按特定分类判定规则匹配成功的分类信息作为兴趣点名称的分类信息。

如果兴趣点名称的第一维成分特征suffix的词能够在关键词库中成功匹配到对应的关键词，则将该关键词对应的分类信息确定为该兴趣点名称所属的分类信息。

步骤S304，利用第一维成分特征suffix和第二维成分特征scope这两个成分特征计算兴趣点名称的后验概率。

步骤S305，将该兴趣点名称中对应各种分类信息的后验概率中，最大的后验概率取值与第二大的后验概率取值进行差值计算，判断该差值是否大于等于预设的第一阈值，如果大于等于，则执行步骤S306；否则，执行步骤S307。

步骤S306，输出最大的后验概率取值所对应的分类信息作为该待分类的文本信息的分类信息。

步骤S307，利用第一维成分特征suffix、第二维成分特征scope和第三维成分特征core这三个成分特征计算兴趣点名称的后验概率。

步骤S308，将该兴趣点名称中对应各种分类信息的后验概率中，最大的后验概率取值与第二大的后验概率取值进行差值计算，判断该差值是否大于等于预设的第二阈值，如果大于等于，则执行步骤S306；否则，执行步骤S309。

其中，第一阈值和第二阈值的取值可以相同，也可以不同，具体根据实际需要进行设定。

步骤S309，确定该兴趣点名称没有召回，即该兴趣点名称没有成功被分类。

实施例四

下面结合一种具体示例进一步阐述上述实施例所提及的信息分类方法。在该示例中，假设训练样本中有以下五个兴趣点名称：清华大学、人民大学、奎科科技大厦、北大国际医院、浙江大学-东门，分类信息的种类包括以下四类：“教育培训；高等院校”、“建筑物”、“医疗机构”、“出入口；门”。

首先，在训练样本中对以上兴趣点名称进行了预先分类(可以是人工分类)，具体如下：

“清华大学”的预分类为“教育培训；高等院校”，

“人民大学”的预分类为“教育培训；高等院校”，

“奎科科技大厦”的预分类为“建筑物”，

“北大国际医院”的预分类为“医疗机构”，

“浙江大学-东门”的预分类为“出入口；门”。

其次，对训练样本中的所有兴趣点名称进行词的成分特征标注(可以使用CRF的方法进行标注)，本示例中成分特征的种类包括core、scope和suffix，具体如下：

针对“清华大学”，“清华”标注为core，“大学”标注为suffix，也就是说，此兴趣点名称中没有scope特征；

针对“人民大学”，“人民”标注为core，“大学”标注为suffix，也就是说，此兴趣点名称中没有scope特征；

针对“奎科科技大厦”，“奎科”标注为core，“科技”标注为scope，“大厦”标注为suffix；

针对“北大国际医院”，“北大”标注为core，“国际”标注为scope，“医院”标注为suffix；

针对“浙江大学-东门”，“浙江”标注为core，“大学”标注为scope，“东门”标注为suffix。

然后，计算训练样本中每种分类信息的先验概率，具体如下：

训练样本中的兴趣点名称的总数为5，在训练样本中分类信息“教育培训；高等院校”出现的次数为2，即“清华大学”和“人民大学”都被分为“教育培训；高等院校”，那么“教育培训；高等院校”的先验概率为2/5；

“建筑物”出现的次数为1，其的先验概率为1/5；

“医疗机构”出现的次数为1，其的先验概率为1/5；

“出入口；门”出现的次数为1，其的先验概率为1/5。所有分类信息的先验概率的总和为1。

计算训练样本中每个兴趣点名称中的各成分特征与相应兴趣点名称的分类信息之间的条件概率，具体如下：

统计每种分类下每个core、每个scope、每个suffix出现的次数；

根据以上统计，计算分类信息为“教育培训；高等院校”的条件下，core为“清华”的概率为1/2，core为“人民”的概率为1/2，因为在“教育培训；高等院校”分类下，core出现了两次，一次为“清华”，一次为“人民”；计算分类信息为“教育培训；高等院校”条件下，suffix为“大学”的概率为1，因为在“教育培训；高等院校”分类下，suffix出现了两次，两次都为“大学”；

以此类推，分别计算分类信息为“建筑物”的条件下，core为“奎科”的概率，scope为“科技”的概率，suffix为“大厦”的概率；分类信息为“医疗机构”的条件下，core为“北大”的概率，scope为“国际”的概率，suffix为“医院”的概率；分类信息为“出入口；门”的条件下，core为“浙江”的概率，scope为“大学”的概率，suffix为“东门”的概率。需要说明的是，实际中训练样本中兴趣点名称的数量成千上万，甚至更多；分类信息的种类少则十几种，多则几十种、上百种。本发明此处的示例仅仅用于示意性的描述词的成分标注、先验概率和条件概率计算、后验概率计算等过程，并不表示实际应用中就只有这几种分类信息和兴趣点名称。

以上也称训练样本的训练阶段，下面是对待分类的兴趣点名称(待分类的兴趣点名称可以是训练样本之外的新的兴趣点名称，当然也可以是训练样本中已存在的兴趣点名称)的预测阶段，包括：

针对待分类的兴趣点名称，首先对其进行词的成分标注；然后根据在训练阶段训练样本中计算的兴趣点名称的先验概率、以及兴趣点名称中的成分特征与相应兴趣点名称的分类信息之间的条件概率，计算待分类的兴趣点名称对应各种分类信息的后验概率，选择后验概率最大的对应分类信息作为所述待分类的兴趣点名称的分类信息。

以新的兴趣点名称“浙江大学”为例，先对“浙江大学”进行词的成分标注，“浙江”标注为core，“大学”标注为suffix，利用本发明实施例一中的朴素贝叶斯方法计算“浙江大学”作为每种分类的后验概率，从而从中选择后验概率最大的对应分类作为“浙江大学”的所属分类。

实施例四

对应本发明实施例一的信息分类方法，本发明实施例四还提供了一种信息分类装置，如图4所示，该装置主要包括：

训练样本存储单元10，用于存储训练样本，训练样本中包括文本信息，且训练样本中的每个文本信息预设有对应的分类信息，训练样本中的文本信息的数量为多个，且训练样本中的分类信息的种类有多种；

成分特征标注单元20，用于对训练样本中的文本信息进行词的成分特征标注，词的成分特征的种类有多种；

第一概率计算单元30，用于计算训练样本中的每种分类信息的先验概率，以及每个文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率；

第二概率计算单元40，用于针对待分类的文本信息，根据训练样本计算待分类的文本信息对应各种分类信息的后验概率，并选择后验概率最大的对应分类信息作为所述待分类的文本信息的分类信息。需要说明的是，待分类的文本信息也需要进行词的成分特征标注。

在实施例四的一种实现方式中，第二概率计算单元40进一步用于，利用待分类的文本信息中的至少一个成分特征，并根据训练样本中的先验概率和条件概率，计算待分类的文本信息对应各种分类信息的后验概率。

在实施例四的一种实现方式中，词的成分特征的种类为三种，包括第一维成分特征、第二维成分特征、第三维成分特征，

第二概率计算单元40进一步用于，利用待分类的文本信息被标注的第一维成分特征、第二维成分特征和第三维成分特征，并结合训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算待分类的文本信息对应各种分类信息的后验概率；

在实施例四的另一种实现方式中，词的成分特征的种类为三种，包括第一维成分特征、第二维成分特征、第三维成分特征，

所述第二概率计算单元40进一步用于，利用所述待分类的文本信息被标注的第一维成分特征和第二维成分特征，并结合所述训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率；

计算最大后验概率与第二大后验概率之间的差值，并在所述差值大于等于预设的第二阈值时，将所述最大后验概率对应的分类信息作为所述待分类的文本信息的分类信息；

在所述差值小于预设的第二阈值时，利用所述待分类的文本信息被标注的第一维成分特征、第二维成分特征和第三维成分特征，并结合所述训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率；

本发明实施例五在实施例四的基础上，如图5所示，该装置还包括：规则匹配单元50，用于在所述第二概率计算单元40计算所述后验概率之前，所述规则匹配单元根据所述文本信息以及第一维成分特征，判断是否满足预设的特定分类判定规则，并在判断满足时，将所述文本信息以及第一维成分特征按所述规则匹配的分类信息作为对应文本信息的分类信息。

本发明实施例所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

实施例五

本发明实施例五提供一种信息分类设备，如图6所示，该设备包括：存储器21和处理器22，存储器21内存储有可在处理器22上运行的计算机程序。处理器22执行所述计算机程序时实现上述实施例中的信息分类方法。存储器21和处理器22的数量可以为一个或多个。

该设备还包括：

通信接口23，用于存储器21和处理器22之间的通信。

存储器21可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器21、处理器22和通信接口23独立实现，则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器21、处理器22及通信接口23集成在一块芯片上，则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

综上所述，通过实施本发明实施例的方案，对文本信息中各个词进行成分标注并将其作为成分特征，提升了文本信息分类算法的准确率和覆盖率；与现有技术中基于关键词规则进行匹配的文本信息分类方法相比，分类准确率得到大幅提升，分类覆盖率得到大幅提升；不需要维护复杂的关键词匹配规则，减少了人力成本。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息分类方法，其特征在于，训练样本中包括文本信息，且所述训练样本中的每个文本信息预设有对应的分类信息，所述训练样本中的文本信息的数量为多个，且所述训练样本中的分类信息的种类有多种，所述方法包括：

针对待分类的文本信息，根据所述训练样本计算所述待分类的文本信息对应各种分类信息的后验概率，并选择后验概率最大的对应分类信息作为所述待分类的文本信息的分类信息；

选择后验概率最大的对应分类信息作为文本信息的分类信息，包括：在所述待分类的文本信息对应各种分类信息的后验概率中，最大后验概率与第二大后验概率之间的差值大于等于预设的阈值时，将所述最大后验概率对应的分类信息作为所述待分类的文本信息的分类信息。

2.根据权利要求1所述的信息分类方法，其特征在于，所述针对待分类的文本信息，根据训练样本计算待分类的文本信息对应各种分类信息的后验概率，包括：

对所述待分类的文本信息进行词的成分特征标注；

3.根据权利要求2所述的信息分类方法，其特征在于，所述词的成分特征的种类为三种，包括第一维成分特征、第二维成分特征和第三维成分特征，

4.根据权利要求2所述的信息分类方法，其特征在于，所述词的成分特征的种类为三种，包括第一维成分特征、第二维成分特征、第三维成分特征，

5.根据权利要求4所述的信息分类方法，其特征在于，所述方法还包括：在所述差值小于预设的第二阈值时，利用所述待分类的文本信息被标注的第一维成分特征、第二维成分特征和第三维成分特征，并结合所述训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率；

6.根据权利要求2至5任一项所述的信息分类方法，其特征在于，在计算所述后验概率之前，所述方法还包括：

7.根据权利要求1所述的信息分类方法，其特征在于，所述方法还包括：

利用条件随机场CRF算法对所述训练样本中的文本信息进行词的成分特征标注。

8.根据权利要求1所述的信息分类方法，其特征在于，所述方法还包括：

9.一种信息分类装置，其特征在于，包括：

第二概率计算单元，用于针对待分类的文本信息，根据所述训练样本计算所述待分类的文本信息对应各种分类信息的后验概率，并选择后验概率最大的对应分类信息作为所述待分类的文本信息的分类信息；

所述第二概率计算单元还用于，在所述待分类的文本信息对应各种分类信息的后验概率中，最大后验概率与第二大后验概率之间的差值大于等于预设的阈值时，将所述最大后验概率对应的分类信息作为所述待分类的文本信息的分类信息。

10.根据权利要求9所述的信息分类装置，其特征在于，所述第二概率计算单元进一步用于，利用所述待分类的文本信息中的至少一个成分特征，并根据所述训练样本中的先验概率和条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率。

11.根据权利要求10所述的信息分类装置，其特征在于，所述词的成分特征的种类为三种，包括第一维成分特征、第二维成分特征和第三维成分特征，

12.根据权利要求10所述的信息分类装置，其特征在于，所述词的成分特征的种类为三种，包括第一维成分特征、第二维成分特征、第三维成分特征，

13.根据权利要求12所述的信息分类装置，其特征在于，所述第二概率计算单元还用于，在所述差值小于预设的第二阈值时，利用所述待分类的文本信息被标注的第一维成分特征、第二维成分特征和第三维成分特征，并结合所述训练样本中每种分类信息的先验概率，以及每种文本信息中的各成分特征与相应文本信息的分类信息之间的条件概率，计算所述待分类的文本信息对应各种分类信息的后验概率；

14.根据权利要求10至13任一项所述的信息分类装置，其特征在于，所述装置还包括：规则匹配单元，用于在所述第二概率计算单元计算所述后验概率之前，所述规则匹配单元根据所述文本信息以及第一维成分特征，判断是否满足预设的特定分类判定规则，并在判断满足时，将所述文本信息以及第一维成分特征按所述规则匹配的分类信息作为对应文本信息的分类信息。

15.一种信息分类设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

16.一种计算机可读介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的信息分类方法。