CN105183808A

CN105183808A - 一种问题分类方法及装置

Info

Publication number: CN105183808A
Application number: CN201510530887.XA
Authority: CN
Inventors: 李寿山; 张栋; 周国栋
Original assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Current assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2015-12-23

Abstract

本发明公开了一种问题分类方法及装置，该方法包括：将待分类问题输入至预先建立的分类器中，所述分类器为对多组已知类别的训练样本集进行训练得到的，包括主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率；通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别以及客观类别的条件概率；分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率；将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别。本发明所提供的问题分类方法及装置，能够实现对输入的问题的主客观类别分类，具有较高的分类准确率。

Description

一种问题分类方法及装置

技术领域

本发明涉及自然语言处理及模式识别技术领域，特别是涉及一种问题分类方法及装置。

背景技术

自动问答技术是自然语言处理领域中一个非常热门的研究方向，一般包括三个主要组成部分：问题分类、信息检索和答案抽取。

在问答系统中，问题分类作为其第一个重要模块主要有两个作用，第一，问题分类能有效地减少候选答案的空间，提高系统返回答案的准确率。第二，问题分类提供的答案类型信息，决定了答案抽取策略。

问题分类可以看作一种特殊的文本分类，然而，问题分类与文本分类存在巨大的差别。例如，文本分类需要将一些无实际贡献的词(“什么”“是”等)作为停用词过滤，而对于问题分类这些词则不能去掉，因为这些词正是区分问题类别的关键。再比如在文本分类中词频信息对于区分文本中每个词汇的贡献程度很大，但在问题分类中词频信息不具明显区分作用，因为问题通常比较短，问题中每个词汇的词频普遍为1。与文本相比，问题所包含的词汇信息较少，这就需要我们加入对问题的情感分析以及更多的辅助特征，这样才能获得较高的分类精度。

传统的问答分类基本都是针对问题的主题相关提问类型(例如：“why”，“what”类型)进行分类，然而，实际应用中，用户会提出许多情感或者事实相关的问题，即主观或者客观的问题。回答这些问题仅仅检索句中的主题词还远远不够，还需要对这些主题词的评论文本进行情感分析，即对问题进行主客观分类。

主客观分类(Subjective/ObjectiveClassification)是将文本分为主观性文本或者客观性文本的任务。所谓主观性文本是指对于非事实进行描述的文本，在文本中会带有发表者的个人情感倾向。所谓客观性文本是指作者对于事件、对象等进行基于事实的描述，不带有个人的好恶和偏见。例如：“淘宝从什么时候开的？2003年5月10日投资创立”，这句话就是客观句；“送怀孕班主任什么礼物好？送康乃馨吧”为主观句。

对问题进行主客观分类，能够更好的帮助我们分析目前的浩瀚文本信息中的主客观信息，并有助于进一步的处理情感分析任务，例如情感倾向性分类。因此，对问题进行主客观分类技术的研究具有重要的实用价值和理论意义。

发明内容

本发明的目的是提供一种问题分类方法及装置，目的在于解决现有技术中不能对问题进行主客观分类的问题。

为解决上述技术问题，本发明提供一种问题分类方法，包括：

将待分类问题输入至预先建立的分类器中，所述分类器为对多组已知类别的训练样本集进行训练得到的，包括主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率；

通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别以及客观类别的条件概率；

分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率；

将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别。

可选地，所述分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率包括：

分别计算主观类别在所述训练样本集中出现的概率与所述待分类问题对对应类别的条件概率的第一乘积，以及客观类别在所述训练样本集中出现的概率与所述待分类问题对客观类别的条件概率的第二乘积；

所述将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别包括：

将所述第一乘积以及第二乘积中较大值对应的类别作为所述待分类问题所属的类别。

可选地，所述特征属性为问题中的一元词特征或一元与二元的组合特征。

可选地，预先建立所述分类器包括步骤：

抓取多个问题；

通过人工标注的方法对所抓取语料进行主客观类别的标注，作为训练样本集；

计算主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率。

可选地，所述抓取多个问题之后还包括：

将抓取到的问题进行过滤后，作为抓取语料。

本发明还提供了一种问题分类装置，包括：

输入模块，用于将待分类问题输入至预先建立的分类器中，所述分类器为对多组已知类别的训练样本集进行训练得到的，包括主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率；

确定模块，用于通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别以及客观类别的条件概率；

计算模块，用于分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率；

分类模块，用于将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别。

可选地，所述计算模块用于分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率包括：

所述计算模块具体用于分别计算主观类别在所述训练样本集中出现的概率与所述待分类问题对对应类别的条件概率的第一乘积，以及客观类别在所述训练样本集中出现的概率与所述待分类问题对客观类别的条件概率的第二乘积；

所述分类模块用于将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别包括：

所述分类模块具体用于将所述第一乘积以及第二乘积中较大值对应的类别作为所述待分类问题所属的类别。

本发明所提供的问题分类方法及装置，通过将待分类问题输入至预先建立的分类器中，确定得到待分类问题的每个特征属性对主观类别以及客观类别的条件概率；然后分别计算待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率；将所述第一后验概率以及第二后验概率中较大值对应的类别作为待分类问题所属的类别。可见，本发明所提供的问题分类方法及装置基于朴素贝叶斯分类器，能够实现对输入的问题的主客观类别分类，具有较高的分类准确率。

附图说明

图1为本发明所提供的问题分类方法的一种具体实施方式的方法流程图；

图2为本发明所提供的问题分类方法的另一种具体实施方式的方法流程图；

图3为本发明所提供的问题分类装置的一种具体实施方式的结构框图。

具体实施方式

传统的问题分类，基本都是针对问题的主题相关提问类型(例如：“why”，“what”等类型)进行分类。然而，实际应用中，用户会提出许多情感或者事实相关的问题。例如，考虑以下四个问题：

例1：怎么修理台灯？(主题问题)

例2：白酒泡鸡蛋可以美白，鸡蛋需要去壳浸泡吗？(主题问题)

例3：御宝珍羊牌奶粉质量好不好？(主观问题)

例4：毛毯什么牌子好啊？(主观问题)

这四个例子中，例1和例2都是传统的主题问题，回答此类问题可以利用信息检索技术帮助搜素句子中的主题词进行自动答案回复。然而，例3、例4是典型的主观问题。回答此类问题仅仅检索句中的主题词还远远不够，还需要对这些主题词的评论文本进行情感分析，结合情感分析技术(例如，情感极性分类、情感对象识别等)才能很好的实现自动问题问答。

鉴于此，本发明提供了一种对问题进行主客观分类的方法及装置。值得一提的是，本发明的问题主客观分类同传统普通文本情感分类也有着本质差别。普通文本情感分类主要是针对文本是否表达情感进行分类，而问题的情感分类需要考虑到，提问者想得到的答案是否需要回答者带有情感色彩去回答。例如：“这件漂亮的衣服在哪买的？”，在普通文本情感分类中会根据“漂亮”这个词将其分为情感类文本，但是在我们定义的情感问题分类中是被分为客观问题。这是因为该问题需要得到一个准确的地点，而不带有情感倾向。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提供的问题分类方法的一种具体实施方式的方法流程图如图1所示，该方法包括：

步骤S101：将待分类问题输入至预先建立的分类器中，所述分类器为对多组已知类别的训练样本集进行训练得到的，包括主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率；

步骤S102：通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别以及客观类别的条件概率；

步骤S103：分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率；

步骤S104：将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别。

本发明所提供的问题分类方法，通过将待分类问题输入至预先建立的分类器中，确定得到待分类问题的每个特征属性对主观类别以及客观类别的条件概率；然后分别计算待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率；将所述第一后验概率以及第二后验概率中较大值对应的类别作为待分类问题所属的类别。可见，本发明所提供的问题分类方法基于朴素贝叶斯分类器，能够实现对输入问题的主客观类别分类，具有较高的分类准确率。

本发明所提供的问题分类方法的另一种具体实施方式的方法流程图如图2所示，该方法包括：

步骤S201：将待分类问题输入至预先建立的分类器中，所述分类器为对多组已知类别的训练样本集进行训练得到的，包括主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率；

步骤S202：通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别以及客观类别的条件概率；

步骤S203：分别计算主观类别在所述训练样本集中出现的概率与所述待分类问题对对应类别的条件概率的第一乘积，以及客观类别在所述训练样本集中出现的概率与所述待分类问题对客观类别的条件概率的第二乘积；

步骤S204：将所述第一乘积以及第二乘积中较大值对应的类别作为所述待分类问题所属的类别。

本发明还提供了问题分类方法的又一种具体实施方式，在该具体实施例中，可以将对问题进行分类的过程分为三个阶段：为朴素贝叶斯分类做必要准备的准备阶段、分类器训练阶段以及应用阶段。

其中，准备阶段的主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分。抓取多个问题，然后通过人工标注的方法对一部分待分类项进行分类，形成训练样本集。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

分类器训练阶段的任务是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，可以根据贝叶斯公式由程序自动计算完成。

应用阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。

本实施例中一共抓取了1500条问题，但由于以下原因过滤掉一些数据：1、不少问题十分短，人工都无法判别其主客观类别；2、一些问题抓取不全，很难判断类别。最终人工标注了1300条(主客观各650条)问题作为实验数据。

然后对语料进行人工标注，该过程有两位不同标注者参与。由于不同的人对语料的主客观标注可能存在不一致性，根据Kappa值计算公式，计算得此处Kappa值为82％。从此分值可以看出我们语料中主客观标注一致性是比较好的。标注不一致的原因，一方面可能是人工的失误或者理解偏差；另一方面，由于一些问题的类别存在歧义，本实施例中默认法律类问题属于客观问题，寻求设计方案类问题属于主观问题。

在人工标注的1300条问题中随机选取1000条作为标注样本，300个样本作为测试样本(主客观各150个)。再将训练样本分为五组：130，260，520，780，1000。

用朴素贝叶斯分类方法，使用问题文本的词特征进行分类。即特征属性可以为问题中的一元词特征或一元与二元的组合特征。

例如“秦羊奶粉怎么认真假”分词成：‘秦’、‘羊’、‘奶粉’、‘怎么’、‘认’、‘真假’，作为一元词特征。

将上述一元词特征前后两两结合，例如：‘秦_羊’、‘羊_奶粉’、‘奶粉_怎么’、‘怎么_认’、‘认_真’、‘真_假’，作为一元与二元的组合特征。

在实际实验中发现，加入二元特征后，虽然特征空间变大，但分类性能并没有得到提高，反而有所降低。例如，在使用1000个训练样本时，问题分类结果准确率从0.84降到了0.81。因此，在本实施例的分类器融合中，每个子分类器选用文本的一元特征作为分类特征。

本发明采用了朴素贝叶斯分类算法，分类的思路为：

步骤S301：设x＝{a₁,a₂,…,a_m}为一个待分类项，而每个a为x的一个特征属性。本发明的目的为判断x所属的类别集合C＝{y₁,y₂,…,y_n}。

步骤S302：计算P(y₁|x),P(y₂|x),…,P(y_n|x)。

步骤S303：如果P(y_k|x)＝max{P(y₁|x),P(y₂|x),…,P(y_n|x)}，则x∈y_k。

那么现在的关键就是如何计算步骤S302中的各个条件概率。具体可以为：

找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

P (y_{i} | x) = \frac{P (x | y_{i}) P (y_{i})}{P (x)}

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

P (x | y_{i}) P (y_{i}) = P (a_{1} | y_{i}) P (a_{2} | y_{i}) ... P (a_{m} | y_{i}) P (y_{i}) = P (y_{i}) Π_{j = 1}^{m} P (a_{j} | y_{i})

样本属于主客观类别的判定通过后验概率P(c_subjective|D)和P(c_objective|D)来决定，具体判定规则如下：

如果P(c_subjective|D)＞P(c_objective|D)，则样本属于主观，否则样本属于客观。

朴素贝叶斯分类器(NaiveBayesClassifier,或NBC)发源于古典数学理论，有着坚实的数学基础以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。

本实施例所提供的基于朴素贝叶斯的问题主客观分类方法，首先收集语料，人工对待分类语料进行分类，形成训练集合；其次，计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录；最后，使用分类器对待分类项进行分类，给出输入问题的主客观类别。

根据实验结果验证得到，利用得到的分类器对测试样本300条进行分类，其分类准确率比较高，说明本发明是一种比较优秀的问题分类方法。

本发明的方法还集合答案同时进行主客观分类，能够进一步提升问题主客观分类的准确率。

本发明所提供的问题分类装置的一种具体实施方式的结构框图如图3所示，该装置包括：

输入模块100，用于将待分类问题输入至预先建立的分类器中，所述分类器为对多组已知类别的训练样本集进行训练得到的，包括主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率；

确定模块200，用于通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别以及客观类别的条件概率；

计算模块300，用于分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率；

分类模块400，用于将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别。

本发明所提供的问题分类装置，通过将待分类问题输入至预先建立的分类器中，确定得到待分类问题的每个特征属性对主观类别以及客观类别的条件概率；然后分别计算待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率；将所述第一后验概率以及第二后验概率中较大值对应的类别作为待分类问题所属的类别。可见，本发明所提供的问题分类装置基于朴素贝叶斯分类器，能够实现对输入问题的主客观类别分类，具有较高的分类准确率。

本发明所提供的问题分类装置与上述方法相对应，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种问题分类方法，其特征在于，包括：

2.如权利要求1所述的问题分类方法，其特征在于，所述分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率包括：

3.如权利要求1所述的问题分类方法，其特征在于，所述特征属性为问题中的一元词特征或一元与二元的组合特征。

4.如权利要求1至3任一项所述的问题分类方法，其特征在于，预先建立所述分类器包括步骤：

抓取多个问题；

5.如权利要求4所述的问题分类方法，其特征在于，所述抓取多个问题之后还包括：

将抓取到的问题进行过滤后，作为抓取语料。

6.一种问题分类装置，其特征在于，包括：

7.如权利要求6所述的问题分类装置，其特征在于，所述计算模块用于分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率包括：