CN112528003B

CN112528003B - 一种基于语义排序和知识修正的多项选择问答方法

Info

Publication number: CN112528003B
Application number: CN202011548750.4A
Authority: CN
Inventors: 黄河燕; 任慕成; 高扬
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-10-04
Anticipated expiration: 2040-12-24
Also published as: CN112528003A

Abstract

本发明公开了一种基于语义排序和知识修正的多项选择问答方法，属于计算机自然语言处理技术领域。本发明从外部语料库中检索与问题相关的知识，辅助模型进行理解和推理，通过知识修正和语义排序的技术，进一步提升检索获得的知识的质量和精度，从而引导系统进行正确的推理。在相同的数据集下，本发明与传统技术相比，在准确率评测指标上有显著提升。

Description

一种基于语义排序和知识修正的多项选择问答方法

技术领域

本发明涉及一种基于语义排序和知识修正的多项选择问答方法，属于计算机自然语言处理技术领域。

背景技术

随着互联网的高速发展，计算机技术被广泛地运用于日常生活中。当用户向机器提出一个挑战性较高的问题，问答系统能够通过深度的理解和推理对多个候选答案选项进行辨别，为用户提供精准的答案，提高用户的体验，具有广泛的商业应用范围。

多项选择问答系统是问答系统领域中的一种类型，其定义为：给定一个问题及多个候选答案，系统需要对问题进行理解，从候选答案选项中预测出正确的一项。此外，如果数据集提供与问题相关的背景段落，系统还需要根据问题对段落进行阅读理解及推理。

传统的多项选择问答系统所基于的处理方法，大多采用端到端一步式直接预测答案选项，具体操作为：将问题与各个答案选项进行拼接，通过分类器直接获得每个选项的分数，根据分数的高低确定最终的答案选项。但是，此类方法具备两个缺点：一是不具备良好的可解释性，系统阅读推理的过程呈“黑盒”状态不可视；二是精确率受限，很多问题及答案选项并无法提供足够的信息供系统进行深度的理解和推理。

针对以上两个问题，部分工作尝试从外部语料库中检索与问题相关的知识，增强题干信息，辅助系统进行推理，最终取得了性能的提升。然而，这类检索外部知识方法仍然存在不足，系统模型的表现很大程度取决于检索出知识的质量。而目前方法大多采用传统的TF-IDF方法，该类方法根据词频及词共现检索知识，导致检索到的知识存在语义混淆的问题，无法对系统解决问题的过程提供有用的信息。

发明内容

本发明的目的是为了解决传统TF-IDF方法检索出的知识存在语义混淆的技术问题，创造性地提出一种基于语义排序和知识修正的多项选择问答方法。本方法通过提供高置信度的知识，为问答系统模型的理解和推理提供可解释性及性能的提升。

本发明是通过以下技术方案实现的。

一种基于语义排序和知识修正的多项选择问答方法。

首先，进行相关定义，具体如下：

定义1：多项选择问答。即针对一个问题，需要从两个及以上答案候选选项中寻找正确的答案选项。

定义2：答案候选选项。即一个问题下，可能是正确答案的选项。

定义3：置信度。即能够体现答案本身质量的标识。

定义4：TF-IDF(term frequency-inverse document frequency)，一种信息检索中常用的加权技术。用以统计、评估一个字词对于一个文件集或语料库中一份文件的重要程度。

定于5：外部语料库。即与当前任务领域无关的大量文本，比如Wikipedia。

定义6：候选知识集合。即包含若干个与当前问题相关的句子的集合。

定义7：预训练语言模型。即经过大规模语料预训练的向量表示模型，能够对输入的字、词、句提供各个级别的向量表示。

定义8：查询句。即问题与答案候选选项拼接后形成的语句，用于从外部语料库中检索相关知识。

定义9：停滞词语。即普遍的功能词，不具备任何实际含义。

定义10：负采样。即根据正样本的构建方式采样生成与之相反的负样本。

定义11：背景知识段落。即多个主题相关的知识句子拼接而成的文本段落。

步骤1：根据问题及答案候选选项，利用TF-IDF技术，从外部语料库中进行知识检索，获得候选知识集合。其中，答案候选选项如定义2所述；TF-IDF如定义4所述；外部语料库如定义5所述；候选知识集合如定义6所述。

步骤1具体实现方法如下：

步骤1.1：将问题与每个答案候选选项进行拼接构成查询句，记为S。其中，查询句如定义8所述。

步骤1.2：将步骤1.1中得到的查询句进行步骤1.2.1至步骤1.2.2操作。

步骤1.2.1：剔除查询句中存在的停滞词语。其中，停滞词语如定义9所述。

步骤1.2.2：使用TF-IDF技术，计算步骤1.2.1的查询句与外部语料库中每个句子的匹配度。按照数值从大到小进行排序，选取前N个句子构成候选知识集合。

步骤1.3：将同一个问题下的每个答案候选选项获得的步骤1.2.2中的候选知识集合进行汇总，选取前M个句子形成新的候选知识集合，记为K。

步骤2：利用标注的语料及负采样技术训练知识修正模块。其中，负采样如定义10所述。

步骤2具体实现方法如下：

步骤2.1：根据步骤2.1.1-步骤2.1.2构建供知识修正模块训练的数据集。

步骤2.1.1：提取步骤1.1中的问题和每个答案候选选项所构成的查询句S，以及数据集本身提供的最相关的知识句，记为F；

步骤2.1.2：对步骤2.1.1提取到查询句及对应的知识句，依照以下规则构建正负样例：

将正确答案候选选项与问题拼接所构成的查询句，与对应的知识句F一起标记为正例-1；反之，错误答案候选选项与问题拼接所构成的查询句，与对应的知识句F一起标记为负例-0；

步骤2.2：通过基于双向变换器的神经语言模型BERT，对步骤2.1.1中的查询句S以及知识句F分别进行编码，输出为查询句和知识句的向量表示；

步骤2.3：采用负采样技术，设立训练目标函数L_KR。针对步骤2.2获得的查询句和知识句的向量表示，将其代入如下公式：

L_KR＝-(log(σ(V_S+ ^TV_F))+log(σ(-V_S- ^TV_F))) (1)

其中，σ为激活函数，将变量映射到0-1之间；V_S+/-、V_F分别是由两个不同初始权重的神经语言模型编码获得的查询句和知识句向量表示，其中，V_S+为步骤2.1.2中标记为正例的查询句表示，V_S-为步骤2.1.2中标记为负例的查询句表示；T为点乘操作；

步骤2.4：使用梯度下降算法，优化目标函数L_KR中神经语言模型中的参数，使L_KR最小化。优化结束后得到知识修正模块中所有神经网络的最优参数。

步骤3：利用知识修正模块对候选知识集合进行语义排序。

步骤3具体实现方法如下：

步骤3.1：利用步骤2中训练得到知识修正模块中的神经语言模型，对步骤1.1中的查询句S以及步骤1.3的候选知识集合K分别进行编码表示，记作V_S和V_K。

步骤3.2：将V_S和V_K代入公式(2)中，获得置信度分数：

其中，置信度如定义3所述；j表示候选知识集合中第j条知识句子，上限为M，i表示同一个问题对应的第i个答案候选选项，上限为n。V_Si表示由第i个答案候选选项与问题所构成的查询句的向量表示，V_Kj表示候选知识集合中第j条知识句子的向量表示，n表示同一个问题下的答案候选选项数目上限。

步骤3.3：利用步骤3.2计算得到的置信度分数，对步骤1.3中的候选知识集合K进行句子排序；

步骤4：结合语义排序后的知识，输入答案预测模型进行答案预测:。

步骤4具体实现方法如下：

步骤4.1：取步骤3.3中语义排序后的后续知识集合K取前五句，进行拼接构成背景知识段落。其中，背景知识段落如定义11所述。

步骤4.2：将步骤4.1中的背景知识段落、步骤1.1中的问题和答案候选选项进行拼接，将拼接后的语句以及对应的答案标签输入至由双向变换器的神经语言模型BERT和一层分类层叠加构建的答案预测模型中进行训练。

步骤4.3：使用梯度下降算法，优化交叉熵损失函数中双向变换器的神经语言模型参数、分类层的参数，使交叉熵损失函数最小化，优化结束后得到答案预测模型中神经网络的最优参数。

步骤4.4：使用步骤4.3中训练好的答案预测模型对测试样本数据进行预测，利用分类器最后的数值对每个答案候选选项进行排序，分数最高的答案候选选项为模型预测的最终选项。

有益效果

本发明方法，与现有的多项选择问答系统模型相比，具有以下优点：

1.利用检索模块从外部语料库中检索与问题相关的知识，辅助模型进行理解和推理；并通过知识修正和语义排序的技术，进一步提升检索获得的知识的质量和精度，从而引导模型进行正确的推理。

2.通过ARC、OpenbookQA英文多项选择问答数据集中进行多项选择问答任务中，实验结果表明，在相同的数据集下，本发明所采用的方法与传统不引入知识的方法以及基于TF-IDF检索知识的方法相比，本发明所提出的基于语义排序和知识修正的多项选择问答方法在准确率Accuracy评测指标上有显著提升。

附图说明

图1为本发明方法的整体框架流程图。

具体实施方式

下面结合附图和实施例对本发明方法做进一步详细描述。

实施例1

一种基于语义排序和知识修正的多项选择问答方法，如图1所示。本实施例给出了本发明所述方法的流程及其具体实施例。

本实施例中使用的数据由来自ARC及OpenbookQA英文多项选择问答数据集。

步骤1：根据问题及答案候选选项，利用TF-IDF技术从外部语料库中进行知识检索，获得候选知识集合；

步骤1.1：将问题与每个答案候选选项进行拼接构成查询句,记为S,比如给定问题“What is the smallest unit of copper that still maintains the characteristicsof copper？(能保持铜特性的最小铜单位是什么？)”，以及四个选项a原子、b电子、c细胞核、d质子，能够生成四条查询句；

步骤1.2：将步骤1.2中得到的查询句进行步骤1.2.1至步骤1.2.2操作：

步骤1.2.1：剔除查询句中存在的停滞词语，比如what,that,the这些没有实质意义的词语；

步骤1.2.2：使用TF-IDF计算步骤1.2.1的查询句与外部语料库中每个句子的匹配度，根据数值大小进行排序，选取前N个句子构成候选知识集合，例如N取25；

步骤1.3：将同一个问题下的每个答案候选选项获得的步骤1.2.2中的候选知识集合进行汇总，选取前M个句子形成新的候选知识集合，记为K，例如M取50，给定问题的候选知识句子的TF-IDF分数以及在集合中的排序如表1所示；

步骤2：利用标注的语料及负采样技术训练知识修正模块；

步骤2.1：根据步骤2.1.1至步骤2.1.2构建供知识修正模块训练的数据集。

步骤2.1.2：对步骤2.1.1提取到查询句及对应的知识句依照以下规则构建正负样例：正确答案候选选项与问题拼接所构成的查询句S，与对应的知识句F一起标记为正例-1；反之，错误答案候选选项与问题拼接所构成的查询句S′，与对应的知识句F一起标记为负例-0；

步骤2.2：通过基于双向变换器的神经语言模型BERT对步骤2.1.1中的查询句S以及知识句F进行分别编码，输出为查询句和知识句的向量表示；

步骤2.3：采用负采样技术设立训练目标函数L_KR，针对步骤2.2获得的查询句和知识句的向量表示，将其代入如下公式(1)：

L_KR＝-(log(σ(V_S+ ^TV_F))+log(σ(-V_S- ^TV_F))) (1)

其中，σ为激活函数，将变量映射到0-1之间，V_S+/-、V_F分别是由两个不同初始权重的神经语言模型编码获得的查询句和知识句向量表示，其中，V_S+为步骤2.1.2中标记为正例的查询句表示，V_S-为步骤2.1.2中标记为负例的查询句表示；T为点乘操作；

步骤2.4：使用梯度下降算法优化目标函数L_KR中神经语言模型中的参数，使L_KR最小化，优化结束后得到知识修正模块中所有神经网络的最优参数；

步骤3：利用知识修正模块对候选知识集合进行语义排序；

步骤3.1：利用步骤2.4中训练得到知识修正模块中神经语言模型，对步骤1.1中的查询句S以及步骤1.3的候选知识集合K分别进行编码表示，记作V_S和V_K；

步骤3.2：将步骤3.1中获得的V_S和V_K代入公式(2)中，获得置信度分数：

其中，j表示候选知识集合中第j条知识句子，上限为M，i表示同一个问题对应的第i个答案候选选项，上限为n；

步骤3.3：利用步骤3.2计算得到的置信度分数对步骤1.3中的候选知识集合K进行句子排序，例如，给定问题的候选知识句子经过知识修正以及于语义排序后的分数和在集合的排序如表1所示；

步骤4：结合语义排序后的知识，输入答案预测模型进行答案预测；

步骤4.1：取步骤3.3中语义排序后的后续知识集合K取前五句，进行拼接构成背景知识段落；

步骤4.3：使用梯度下降算法优化交叉熵损失函数中双向变换器的神经语言模型参数、分类层的参数，使交叉熵损失函数最小化，优化结束后得到答案预测模型中神经网络的最优参数。

步骤4.4：使用步骤4.3中训练好的答案预测模型对测试样本数据进行预测，利用分类器最后的数值对每个答案候选选项进行排序，分数最高的答案候选选项为系统预测的最终选项。

例如，模型在融入经过知识修正和语义排序后的知识后，成功地预测答案选项为A，而采用传统TF-IDF的方法则错误地预测为B。

表1本方法在ARC数据集中具体实例上的效果

实施例2

在通过ARC和OpenbookQA英文多项选择问答数据集中进行多项选择问答任务中，实验表明，在相同的数据集下，本发明所采用的基于语义排序和知识修正的多项选择问答方法与传统不引入知识的方法以及基于TF-IDF检索知识的方法相比，采用准确率Accuracy作为评测指标，可以得到如下实验结果：

表2使用本发明方法与传统方法性能对比

表2的实验结果证明：在数据相同的情况下，采用本发明所述方法与不使用本发明的方法相比，Accuracy评测指标有明显提升。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实例和附图所公开的内容。凡是不脱离本发明所公开的精神下所完成的等效或修改，都落入本发明的保护范围。

Claims

1.一种基于语义排序和知识修正的多项选择问答方法，其特征在于，所述多项选择问答，即针对一个问题，需要从两个及以上答案候选选项中寻找正确的答案选项；

包括以下步骤：

步骤1：根据问题及答案候选选项，利用TF-IDF技术，从外部语料库中进行知识检索，获得候选知识集合；其中，答案候选选项即一个问题下，可能是正确答案的选项，TF-IDF用以统计、评估一个字词对于一个文件集或语料库中一份文件的重要程度，外部语料库即与当前任务领域无关的文本，候选知识集合即包含若干个与当前问题相关的句子的集合；

步骤1.1：将问题与每个答案候选选项进行拼接构成查询句，记为S；其中，查询句即问题与答案候选选项拼接后形成的语句，用于从外部语料库中检索相关知识；

步骤1.2：将步骤1.1中得到的查询句进行步骤1.2.1至步骤1.2.2操作；

步骤1.2.1：剔除查询句中存在的停滞词语，其中，停滞词语即普遍的功能词，不具备任何实际含义；

步骤1.2.2：使用TF-IDF技术，计算步骤1.2.1的查询句与外部语料库中每个句子的匹配度；按照数值从大到小进行排序，选取前N个句子构成候选知识集合；

步骤1.3：将同一个问题下的每个答案候选选项获得的步骤1.2.2中的候选知识集合进行汇总，选取前M个句子形成新的候选知识集合，记为K；

步骤2：利用标注的语料及负采样技术训练知识修正模块；其中，负采样即根据正样本的构建方式采样生成与之相反的负样本；

步骤2.1：根据步骤2.1.1-步骤2.1.2构建供知识修正模块训练的数据集；

步骤2.3：采用负采样技术，设立训练目标函数