CN110781275A

CN110781275A - 基于多特征的问题可回答性判别方法及计算机存储介质

Info

Publication number: CN110781275A
Application number: CN201910881528.7A
Authority: CN
Inventors: 徐建; 吴蔚; 王鑫鹏
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2020-02-11
Anticipated expiration: 2039-09-18
Also published as: CN110781275B

Abstract

本发明公开了一种基于多特征的问题可回答性判别方法及计算机存储介质，所述方法包括以下步骤：1)对问题和文章对进行预处理并统计语料信息；2)计算问题和文章的4种交互特征，所述4种交互特征为距离特征、共现特征、归一化点互信息和主题特征；所述距离特征为两个句子编码间的距离；所述共现特征为两个句子中的词共现个数；所述归一化点互信息为单词之间的结合紧密程度；所述主题特征为句子语义上的相似度；3)选择阈值并进行分类判别。本发明解决了现有方法无法充分刻画问题和文章特征的不足，充分地挖掘问题和文章的特征以及二者的交互特征，较好地实现了针对给定的问题判断某篇文章是否可以回答该问题。

Description

基于多特征的问题可回答性判别方法及计算机存储介质

技术领域

本发明涉及一种问题可回答性判别方法及计算机存储介质，特别是涉及一种基于多特征的问题可回答性判别方法及计算机存储介质。

背景技术

判断文章是否包含足够的信息回答给定的问题是一个极具挑战性的问题，也是许多其他任务的前提任务，比如：针对社区问题需要判断某个答案能够回复用户提出的问题，针对多文档阅读理解任务需要判断给定的文章能否回答提出的问题。所以该任务是自然语言中非常重要的基础任务，该任务的解决效果直接影响了其他后续任务。现有的判别方法无法充分刻画问题和文章的特征，因而判别效果不够好，所以需要一种能够充分刻画二者及其关系的判别方法。

发明内容

发明目的：本发明要解决的技术问题是提供一种基于多特征的问题可回答性判别方法及计算机存储介质，解决了现有方法无法充分刻画问题和文章特征的不足，充分地挖掘问题和文章的特征以及二者的交互特征，特别是针对军事领域数据的特点进行深度的挖掘和分析，较好地实现了针对给定的问题判断某篇文章是否可以回答该问题。

技术方案：本发明所述的基于多特征的问题可回答性判别方法，包括以下步骤：

(1)对问题和文章对进行预处理并统计语料信息；

(2)计算问题和文章的4种交互特征，所述4种交互特征为距离特征、共现特征、归一化点互信息和主题特征；

所述距离特征为两个句子编码间的距离；

所述共现特征为两个句子中的词共现个数；

所述归一化点互信息为单词之间的结合紧密程度；

所述主题特征为句子语义上的相似度；

(3)选择阈值并进行分类判别。

进一步的，步骤(1)具体包括以下步骤：

(1.1)对问题和文章对利用分词器进行分词；

(1.2)针对分词后的文章统计文章个数及文章平均单词个数；

(1.3)根据分词对文章建立索引；

(1.4)针对每个分词后的问题和文章对，分别计算词频，并针对各自的单词进行组合，对组合成的单词对计算归一化点互信息npmi，

其中，c12表示两个单词共现词频，n_docs表示单词所在文章的总计词数，c1表示单词1出现词频；c2表示单词2的出现词频。

进一步的，步骤(2)中计算问题q和文章d的距离特征的方法为：

其中，f(q_i,d)表示问题的单词q_i在文章d的出现词频，avg_dl表示在文章d的平均文档长度，

D表示文章总个数，n_t表示单词q_i出现的文章总个数，k₁为取正值的调优参数，用于对文档中的词项频率进行缩放控制，b是调节参数，用于决定文档长度的缩放程度。

进一步的，步骤(2)中共现特征的计算方法为：计算文章中的单词个数，计算问题中有多少个连续单词出现在文章中，并计算最大连续个数。

进一步的，步骤(2)中计算归一化点互信息的方法为：针对问题和文章中的单词两两组合，查询二者的npmi值，并针对每个问题计算平均npmi值、最大npmi值和最小npmi值。

进一步的，步骤(2)中计算主题特征的方法为：使用lda聚类方法，将每个词压缩成一个低纬的主题向量，并根据余弦相似度进行聚类。

进一步的，步骤(3)中阈值选择方法为：将数据集按照比例划分训练集和验证集，针对分类器设置不同的阈值，根据每个阈值计算在验证集上的F1值，选择最大F1值的阈值作为判别依据。

进一步的，步骤(3)中分类判别的方法为：将步骤(2)中的交互特征输入xgboost分类器进行二分类判断，分类器的输出为正表示相关，输出为负表示不相关。

本发明所述的计算机存储介质，其上存储有计算机程序，所述计算机程序在被计算机处理器执行时实现上述的基于多特征的问题可回答性判别方法。

有益效果：本发明的显著优点为：1)充分考虑了问题和文章的各种特征，特别是针对军事领域数据的特点，建立了距离特征、共现特征、归一化点互信息和主题特征，尽可能全面的描述问题和文章的关系，距离特征主要计算两个句子编码间的距离，共现特征主要衡量两个句子词共现个数，归一化点互信息主要衡量单词之间的结合紧密程度，主题特征主要衡量句子语义上的相似度；2)针对领域数据选择合适的分类器以及阈值。

附图说明

图1是本方法实施方式的整体流程图。

具体实施方式

本发明主要考虑了问题和文章的4种交互特征，包括距离特征、共现特征、归一化点互信息特征和主题特征。其中，距离特征主要是计算两个句编码间的距离，包括BM25，余弦相似度、欧式距离、最长公共子串和编辑距离；共现特征主要衡量两个句子中的词共现数，直观上说两个句子的共现越多就应该越相似，这里主要考虑1,2,3gram在字符和单次级的共线统计；归一化点互信息npmi特征主要衡量单词之间的结合紧密程度，平均npmi值，最大npmi值，最小nmpi值；主题特征主要从聚类的角度出发，采用了lda这种聚类方法，将每个词压缩成一个低纬的主题向量，并用余弦相似度衡量两个句子在主题上的相似性。经过特征化的数据利用xgboost分类器分类，并根据F1值选择合适的阈值，判断文章是否能够回答给定的问题。该方法在数据集特别是军事领域数据集上取得了较好的效果，当面对海量检索的文章时利用机器进行判断，较好地提高了效率。本发明的方法流程如图1所示，具体为包含3个阶段10个步骤：

阶段1：离线统计语料信息阶段

步骤(1)针对问题和文章对利用jieba分词器分词

步骤(2)针对分词后的文章统计文章总个数以及文章平均单词个数；

步骤(3)针对文章利用lucene建立索引；

步骤(4)针对每个分词后问题文章对，分别计算词频；并针对各自的单词进行组合，对组合成的单词对计算归一化逐点互信息npmi；

其中，npmi是计算两个单词的特征，c12表示两个词共现词频，n_docs表示文章总计次数，c1表示单词1出现词频，c2表示单词2的出现词频；

阶段2：实时数据特征化阶段

步骤(5)计算问题和文章的距离特征，

其中f(q_i,d)表示问题的某个单词在文章d的出现词频，avg_dl表示平均文档长度，

D表示文章总个数，n_t表示单词q_i出现的文章总个数；k1是一个取正值的调优参数，用于对文档中的词项频率进行缩放控制，如果k₁取0，则相当于不考虑词频，如果k₁取较大的值，那么对应于使用原始词项频率；b是另外一个调节参数(0≤b≤1)，决定文档长度的缩放程度，b＝1表示基于文档长度对词项权重进行完全的缩放，b＝0表示归一化时不考虑文档长度因素，本实施例中，k₁＝1.2，b＝0.75。

步骤(6)问题文章的共现特征：问题中有多少个单词出现在了文章中；统计问题中有多少个连续单词出现在文章中，并求出最大连续个数；

步骤(7)归一化逐点互信息：针对问题和文章中的词两两组和，查询二者的npmi值，并针对每个问题计算平均npim值、最大npmi值和最小npmi值；

步骤(8)主题特征主要从聚类的角度出发，衡量二者的相似性。主要采用了lda聚类方法，将每个词压缩成一个低纬的主题向量，并用余弦相似度衡量两个句子在主题上的相似性。

阶段3：分类模型以及阈值选择阶段

步骤(9)将数据集按照9：1的比例划分训练集和验证集；针对分类器设置不同的阈值，根据每个阈值计算在验证集上的准确率、召回率以及F1值，并选择最大F1的阈值作为判别依据；

F1＝2*pre*recall/(pre+recall)，

pre为准确率，recall为召回率；

步骤(10)将问题文章对按照上述步骤特征化以后输入分类器进行二分类判断，这里选择xgboost分类器，分类器输出为正表示相关，为负则表示不相关。如果为相关，则判断文章能够回答给定的问题。

本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实例不限制于任何特定的硬件和软件结合。

相应的，本发明的实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述基于多特征的问题可回答性判别方法。例如，该计算机存储介质为计算机可读存储介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于多特征的问题可回答性判别方法，其特征在于，包括以下步骤：

(1)对问题和文章对进行预处理并统计语料信息；

所述距离特征为两个句子编码间的距离；

所述共现特征为两个句子中的词共现个数；

所述归一化点互信息为单词之间的结合紧密程度；

所述主题特征为句子语义上的相似度；

(3)选择阈值并进行分类判别。

2.根据权利要求1所述的基于多特征的问题可回答性判别方法，其特征在于，步骤(1)具体包括以下步骤：

(1.1)对问题和文章对利用分词器进行分词；

(1.2)针对分词后的文章统计文章个数及文章平均单词个数；

(1.3)根据分词对文章建立索引；

3.根据权利要求2所述的基于多特征的问题可回答性判别方法，其特征在于，步骤(2)中计算问题q和文章d的距离特征的方法为：

4.根据权利要求2所述的基于多特征的问题可回答性判别方法，其特征在于，步骤(2)中共现特征的计算方法为：计算文章中的单词个数，计算问题中有多少个连续单词出现在文章中，并计算最大连续个数。

5.根据权利要求2所述的基于多特征的问题可回答性判别方法，其特征在于，步骤(2)中计算归一化点互信息的方法为：针对问题和文章中的单词两两组合，查询二者的npmi值，并针对每个问题计算平均npmi值、最大npmi值和最小npmi值。

6.根据权利要求2所述的基于多特征的问题可回答性判别方法，其特征在于，步骤(2)中计算主题特征的方法为：使用lda聚类方法，将每个词压缩成一个低纬的主题向量，并根据余弦相似度进行聚类。

7.根据权利要求1所述的基于多特征的问题可回答性判别方法，其特征在于，步骤(3)中阈值选择方法为：将数据集按照比例划分训练集和验证集，针对分类器设置不同的阈值，根据每个阈值计算在验证集上的F1值，选择最大F1值的阈值作为判别依据。

8.根据权利要求1所述的基于多特征的问题可回答性判别方法，其特征在于，步骤(3)中分类判别的方法为：将步骤(2)中的交互特征输入xgboost分类器进行二分类判断，分类器的输出为正表示相关，输出为负表示不相关。

9.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序在被计算机处理器执行时实现权利要求1至8任一项所述的方法。