CN105045924A

CN105045924A - 一种问题分类方法及系统

Info

Publication number: CN105045924A
Application number: CN201510531001.3A
Authority: CN
Inventors: 李寿山; 张栋; 周国栋
Original assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Current assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2015-11-11

Abstract

本发明公开了一种问题分类方法及系统，包括：获取第一预设量的第一训练文本和第二预设量的第二训练文本，第一训练文本已提供问题类型，第二训练文本未提供问题类型；利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型；确定第一训练文本和第二训练文本为训练文本，将训练文本进行分词处理，得到分别与每个训练文本对应的训练词组；利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器；利用最大熵分类器对待测词组进行分类，得到与待测词组对应的待测文本的问题类型。由此，不需确定大量训练文本的问题类型，无需耗费大量人力，且对待测词组进行分类得到的结果准确率较高。

Description

一种问题分类方法及系统

技术领域

本发明涉及自然语言处理技术领域，更具体地说，涉及一种问题分类方法及系统。

背景技术

自动问答技术是自然语言处理技术领域中一个非常热门的研究方向，在自动问答技术中，问题分类是最重要的方面之一。

问题分类是将文本分为该主题和非该主题的文本的任务，例如，将文本分为电脑类，如“我的电脑不能创建文件夹”，和非电脑类，如“梵高画过的黄房子现在还有吗”；等。

现有的问题分类方法通常是基于统计模型的方法，这类方法对领域的限定性较低，可扩展性较好。但是，现有的问题分类方法通常需要利用大量已确定其问题类型的样本进行机器学习，而确定大量样本的问题类型通常是由人工完成的，因此需要耗费大量的人力。

综上所述，现有技术中的问题分类方法存在需要耗费大量的人力的问题。

发明内容

本发明的目的是提供一种问题分类方法及系统，以解决现有技术中存在的需要耗费大量的人力的问题。

为了实现上述目的，本发明提供如下技术方案：

一种问题分类方法，包括：

获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型；

利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法确定每个所述第二训练文本的问题类型；

确定所述第一训练文本和所述第二训练文本为训练文本，将所述训练文本进行分词处理，得到分别与每个所述训练文本对应的训练词组；

利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器；

利用所述最大熵分类器对待测词组进行分类，得到与所述待测词组对应的待测文本的问题类型。

优选的，所述利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器，包括：

按照TF-IDF向量法将所述训练词组转换成与每个所述训练文本对应的测试特征向量；

利用每个所述训练文本的测试特征向量及每个所述训练文本的问题类型训练最大熵分类器。

优选的，所述获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型，包括：

获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型；所述问题类型包括电脑类和非电脑类，或者情感类和非情感类，或者运动类和非运动类，或者生活类和非生活类，或者文化类和非文化类，或者健康类和非健康类。

优选的，所述获取第一预设量的第一训练文本和第二预设量的第二训练文本，包括：

获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第二预设量大于所述第一预设量。

在特定的问答平台中，通过网络爬虫程序获取第一预设量的第一训练文本和第二预设量的第二训练文本。

优选的，所述利用所述最大熵分类器对待测词组进行分类，得到与所述待测词组对应的待测文本的问题类型，包括:

获取待测样本，将所述待测样本进行分词处理，得到待测词组；所述待测样本未提供其问题类型；

按照TF-IDF向量法将所述待测词组转换成待测特征向量；

将所述待测特征向量作为最大熵分类器的输入，得到与所述待测特征向量对应的测试结果；

根据所述测试结果确定所述待测文本的问题类型。

优选的，所述根据所述测试结果确定所述待测文本的问题类型，包括：

确定所述待测文本对应每个问题类型的概率；

确定所述概率中最大的概率对应的问题类型为待测文本的问题类型。

一种问题分类系统，包括：

获取模块，用于获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型；

确定模块，用于利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法确定每个所述第二训练文本的问题类型；

分词模块，用于确定所述第一训练文本和所述第二训练文本为训练文本，将所述训练文本进行分词处理，得到分别与每个所述训练文本对应的训练词组；

训练模块，用于利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器；

分类模块，用于利用所述最大熵分类器对待测词组进行分类，得到与所述待测词组对应的待测文本的问题类型。

本发明提供的一种问题分类方法及系统，包括：获取第一预设量的第一训练文本和第二预设量的第二训练文本，第一训练文本已提供其问题类型，第二训练文本未提供其问题类型；利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型；确定第一训练文本和第二训练文本为训练文本，将训练文本进行分词处理，得到分别与每个训练文本对应的训练词组；利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器；利用最大熵分类器对待测词组进行分类，得到与待测词组对应的待测文本的问题类型。与现有技术相比，本申请中利用已提供其问题类型的第一训练文本去获取未提供其问题类型的第二训练文本的问题类型，然后利用第一训练文本和第二训练文本训练最大熵分类器，由此，不需对大量训练文本的问题类型进行确定，而是利用少量已确定问题类型的训练文本去获取其他训练文本的问题类型，无需耗费大量人力，且实验证明，本发明实施例提供的一种问题分类方法对待测词组进行分类得到的结果准确率较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种问题分类方法的流程图；

图2为本发明实施例提供的一种问题分类方法中利用最大熵分类器对待测词组进行分类，得到与待测词组对应的待测文本的问题类型的流程图；

图3为本发明实施例提供的一种问题分类系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种问题分类方法的流程图，可以包括以下步骤：

S11：获取第一预设量的第一训练文本和第二预设量的第二训练文本，第一训练文本已提供其问题类型，第二训练文本未提供其问题类型。

其中，第一预设量和第二预设量可以根据实际需要进行确定。

S12：利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型。

其中，标签传播算法是一种基于图的半监督学习方法，其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。在本申请实施例中，节点即为训练文本，标签信息即为问题类型。

S13：确定第一训练文本和第二训练文本为训练文本，将训练文本进行分词处理，得到分别与每个训练文本对应的训练词组。

其中，本发明实施例中进行的分词处理均可以是基于中文分词完成的，中文分词指的是将一个汉字序列切分成一个一个单独的词，即将连续的字序列按照一定的规范重新组合成词序列的过程。如将汉字序列“秦羊奶粉怎么认真假”，分词成：‘秦’、‘羊’、‘奶粉’、‘怎么’、‘认’、‘真假’。

S14：利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器。

S15：利用最大熵分类器对待测词组进行分类，得到与待测词组对应的待测文本的问题类型。

本申请中利用已提供其问题类型的第一训练文本去获取未提供其问题类型的第二训练文本的问题类型，然后利用第一训练文本和第二训练文本训练最大熵分类器，由此，不需对大量训练文本的问题类型进行确定，而是利用少量已确定问题类型的训练文本去获取其他训练文本的问题类型，无需耗费大量人力，且实验证明，本发明实施例提供的一种问题分类方法对待测词组进行分类得到的结果准确率较高。

其中，最大熵分类器是基于最大熵信息理论构建的，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。相对于朴素贝叶斯方法，该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。

在最大熵信息理论对应的最大熵模型下，假设p(y|X)代表样本X属于类别y的概率，最大熵模型要求p(y|X)满足一定约束条件，同时必须使依据以下公式计算得到的熵取得最大值：

H (p) = - \underset{X, y}{Σ} p (y | X) l o g (p (y | X)

这里H(p)代表条件熵H(y|X)，H(y|X)是一种度量条件概率p(y|X)均匀性的方法，强调对概率分布p的依赖。上述约束条件是指所有已知事实，可用以下方式表述：

其中，f(X,y)为最大熵模型的特征。可以看到：这些特征描述了向量X与类别y的联系，最终概率输出为：

p (y | X) = \frac{1}{Z (X)} \exp (\underset{i}{Σ} λ_{i} f_{i} (X, y))

其中，

Z (X) = \underset{y}{Σ} \exp (\underset{i}{Σ} λ_{i} f_{i} (X, y))

称为归一化因子；λ_i为特征的权重。

需要说明的是，上述实施例提供的一种问题分类方法中，利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器，可以包括：

按照TF-IDF(termfrequency–inversedocumentfrequency，信息检索数据挖掘的常用加权技术)向量法将训练词组转换成与每个训练文本对应的测试特征向量；

利用每个训练文本的测试特征向量及每个训练文本的问题类型训练最大熵分类器。

其中，每个训练文本对应一个训练词组。TF-IDF是一种统计方法，用以评估一字或词对于一个文件集或一个语料库中的其中一份文件的重要程度。而TF-IDF向量法则可以将每个训练词组均可以转换成一维特征向量，其中，每个词语对应的一维特征向量中的分量为该词语在全部训练词组中出现的频度。

将利用每个训练文本的测试特征向量及每个训练文本的问题类型训练最大熵分类器，能够综合考虑训练词组中每个词语在全部训练词组中的出现的频度，即为其相对于全部训练词组的重要程度，实验证明，由此训练出的最大熵分类器在对待测词组的进行问题分类时得到的结果准确率较高。

需要说明的是，上述实施例提供的一种问题分类方法中，获取第一预设量的第一训练文本和第二预设量的第二训练文本，第一训练文本已提供其问题类型，第二训练文本未提供其问题类型，可以包括：

获取第一预设量的第一训练文本和第二预设量的第二训练文本，第一训练文本已提供其问题类型，第二训练文本未提供其问题类型；问题类型包括电脑类和非电脑类，或者情感类和非情感类，或者运动类和非运动类，或者生活类和非生活类，或者文化类和非文化类，或者健康类和非健康类。

其中，针对一个主题，问题类型可以分为两类，即为该主题和非该主题，如上述的电脑类和非电脑类、情感类和非情感类等。具体对于问题的分类可以根据实际需要进行确定。

需要说明的是，上述实施例提供的一种问题分类方法中，获取第一预设量的第一训练文本和第二预设量的第二训练文本，可以包括：

获取第一预设量的第一训练文本和第二预设量的第二训练文本，第二预设量大于第一预设量。

将第二预设量设置成小于第一预设量，由此，利用第一训练文本获取第二训练文本的问题类型，即为由少量的训练文本获取更多其他训练文本的问题类型，节省了确定每个训练文本的问题类型的人力和时间，且，基于这种半监督方法，即通过一部分已知问题类型的训练文本获取其他未知问题类型的训练文本的问题类型的方法以通过全部训练文本构建最大熵分类器，相对于全监督方法，即利用全部已知问题类型的训练文本构建最大熵分类器，得到的待测词组的测试结果的准确率更高。

其中，特定的问答平台可根据实际需要进行确定。

网络爬虫程序是一个沿着链接漫游Web(互联网)文档集合的程序。它一般驻留在服务器上，通过给定的一些URL(UniformResourceLocator，统一资源定位符)，利用HTTP(HyperTextTransferProtocol，超文本传输协议)等标准协议读取相应文档，然后以文档中包括的所有未访问过的URL作为新的起点，继续进行漫游，直到没有满足条件的新URL为止。

通过上述方法，可以根据用户需要实时获取相关文本，操作简单，效率高。

需要说明的是，上述实施例提供的一种问题分类方法中，利用最大熵分类器对待测词组进行分类，得到与待测词组对应的待测文本的问题类型，可以包括以下步骤:

S21：获取待测样本，并将待测样本进行分词处理，得到待测词组；上述待测样本未提供其问题类型。

分词处理的具体说明请参考上文中的相关内容。另外，获取待测样本也可以是在特定的问答平台中，通过网络爬虫程序获取。

S22：按照TF-IDF向量法将待测词组转换成待测特征向量。

按照TF-IDF向量法转换向量的具体说明请参考上文中的相关内容。

S23：将待测特征向量作为最大熵分类器的输入，得到与待测特征向量对应的测试结果。

S24：根据测试结果确定待测文本的问题类型。

具体的，根据测试结果确定待测文本的问题类型，可以包括：

确定待测文本对应每个问题类型的概率；

确定概率中最大的概率对应的问题类型为待测文本的问题类型。

由此，将待测特征向量作为最大熵分类器的输入，能够输出与之对应的与待测特征向量对应的测试结果，且，确定概率中最大的概率对应的问题类型为待测文本的问题类型能够使得获取的测试结果更加准确。

与上述方法实施例相对应，本发明实施例还提供了一种问题分类系统，如图3所示，可以包括：

获取模块31，用于获取第一预设量的第一训练文本和第二预设量的第二训练文本，第一训练文本已提供其问题类型，第二训练文本未提供其问题类型；

确定模块32，用于利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型；

分词模块33，用于确定第一训练文本和第二训练文本为训练文本，将训练文本进行分词处理，得到分别与每个训练文本对应的训练词组；

训练模块34，用于利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器；

分类模块35，用于利用最大熵分类器对待测词组进行分类，得到与待测词组对应的待测文本的问题类型。

通过上述问题分类系统，利用已提供其问题类型的第一训练文本去获取未提供其问题类型的第二训练文本的问题类型，然后利用第一训练文本和第二训练文本训练最大熵分类器，由此，不需对大量训练文本的问题类型进行确定，而是利用少量已确定问题类型的训练文本去获取其他训练文本的问题类型，无需耗费大量人力，且实验证明，本发明实施例提供的一种问题分类系统对待测词组进行分类得到的结果准确率较高。

为了证明本发明实施例提供的一种问题分类方法及系统具有上述有益效果，可进行六组实验，每组实验包括对应一个主题，可以分别是电脑类和非电脑类、情感类和非情感类、运动类和非运动类、生活类和非生活类、文化类和非文化类，及健康类和非健康类，也可以是其他主题。

每组实验均获取2000训练文本，其中，可以具体为：第一训练文本为100个，第二训练文本为1500个，待测文本为400个。

其中，第一种方法：按照上述实施例提供的一种问题分类方法构建最大熵分类器，并利用最大熵分类器确定待测文本的问题类型。

第二种方法：仅仅利用第一训练文本构建最大熵分类器，并利用最大熵分类器确定待测文本的问题类型。

当最大熵分类器确定出的待测文本的文本类型与待测文本实际的问题类型一致时则说明测试结果正确。由此，可以确定出第一种方法的准确率和第二种方法的准确率，如下表所示。可以很明显的看出，第一种方法，即本申请实施例提供的一种问题分类方法的准确率明显较高。

第一种方法和第二种方法的准确率统计表

主题	第二种方法	第一种方法
			电脑	0.709	0.779
文化	0.678	0.718
			健康	0.638	0.718
生活	0.580	0.619
			情感	0.750	0.790
运动	0.626	0.713

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种问题分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型，包括：

4.根据权利要求2所述的方法，其特征在于，所述获取第一预设量的第一训练文本和第二预设量的第二训练文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述获取第一预设量的第一训练文本和第二预设量的第二训练文本，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述利用所述最大熵分类器对待测词组进行分类，得到与所述待测词组对应的待测文本的问题类型，包括:

将所述待测样本进行分词处理，得到待测词组；

按照TF-IDF向量法将所述待测词组转换成待测特征向量；

根据所述测试结果确定所述待测文本的问题类型。

7.根据权利要求6所述的方法，其特征在于，所述根据所述测试结果确定所述待测文本的问题类型，包括：

确定所述待测文本对应每个问题类型的概率；

8.一种问题分类系统，其特征在于，包括：