CN112818106A

CN112818106A - 一种生成式问答的评价方法

Info

Publication number: CN112818106A
Application number: CN202110184397.4A
Authority: CN
Inventors: 刘博�; 王星文; 徐宽; 胡志超
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-05-18
Anticipated expiration: 2041-02-10
Also published as: CN112818106B

Abstract

一种生成式问答的评价方法涉及自然语言处理领域。本发明针对生成式问答的答案在语言质量和语义准确度上存在的各种问题，分别构建数据集的正负样本。通过在数据集构建上进行处理，就能使问答评价网络在训练后能够结合语言质量和语义准确性两方面对生成的答案进行打分。相比传统的评价方法对答案的评价更全面、准确。

Description

一种生成式问答的评价方法

技术领域

本发明涉及自然语言处理领域，特别是涉及一种生成式问答的评价方法。

背景技术

随着互联网的发展，生活中越来越多的信息都可以通过网络获取到，人们经常通过搜索引擎获得想要的信息，通常使用搜索关键词的方法来返回相关的网页信息，这难以满足人们复杂的搜索需求，想要更精准的信息还需要用户人工筛选以及二次加工等，为了更方便地获取所需信息，问答系统应运而生。问答系统是自然语言处理领域的一个重要研究方向，在问答系统中，用户以自然语言形式提出想要查询的问题，系统能用准确、简洁的自然语言回答用户提出的问题。

根据答案来源的不同，问答系统可以分为检索式问答和生成式问答。检索式问答是通过检索以及匹配等技术从现有语料库中选取答案，答案为原文的某个片段。生成式问答是指通过对文章信息的捕捉及理解，系统能够自动生成用户所需答案，答案既可以是原文的某个片段，也可以是包含新生成词语的句子。生成式问答的答案更加灵活多样，能够应对现实生活中各种复杂的情况，正因如此，生成式问答的评价也更加困难。

问答系统的发展和评价方法息息相关。在生成式问答的评价上，现有的评价方法主要是BLEU和ROUGE方法。BLEU是一种基于精确率的方法，最早对机器翻译进行评价，后来被应用到多种生成任务的评价上，思想是结合n元词语、权重和惩罚因子来衡量机器文本与人工文本的相似程度，两者越接近它的得分就越高。ROUGE是一种基于召回率进行评价的方法，包含四种方法，常用的是ROUGE-N和ROUGE-L。ROUGE-N是根据参考答案和机器答案共有n元词语的个数来评分的，ROUGE-L则考虑了机器答案和参考答案之间的最长公共子序列。

可以看出，现有评价方法主要是基于参考答案和生成答案之间词语共现率的统计来计算的，这类评价方法对于生成式问答的评价还存在着不足：从语义准确度来看，对于新生成的词语不能考虑到，并且易受常用词干扰，导致评价还不够准确；从语言质量角度讲，评价方法难以衡量语句是否符合语法标准。在生成式问答的评价上，打分结果要能体现答案的语言质量和语义准确度，这样的评价能更全面且准确地反映出问答模型的优缺点，从而促进问答技术的发展。所以，生成式问答的评价方法还有很大的提升空间，对其进行研究有重要意义。

发明内容

对上述技术中存在的问题，本发明提出一种基于神经网络的生成式问答评价方法，针对生成式答案的特点，采用不同方法来构建相应的数据集正负样本，使得问答评价网络可以考虑到语言质量和语义准确度两方面对所生成答案进行评分，对答案的评价结合了更多语言上的因素，适用于生成式回答的评估。本发明解决其技术问题采用如下技术方案来实现：

步骤1，将生成式问答评价看作二分类任务

步骤2，根据答案的特点，构建问答评价网络数据集

步骤3，构建问答评价网络

步骤4，训练问答评价网络直至模型收敛

步骤5，输入待评价答案，使用问答评价网络对生成答案进行评分

一种优选的实施方式，步骤1具体表述为：

本发明提出的评价方法从机器学习角度出发，将对答案的评分看成一项二分类任务，1表示答案准确且表述合理，0表示答案不准确或者质量较差，通过问答评价网络将对生成答案的评价得分映射到0和1之间，分数越高表示答案的综合质量越高。

一种优选的实施方式，步骤2具体表述为：

数据集应恰当地反映出数据中存在的各种情况，这样训练出来的模型才能更客观地处理数据，得到更准确的结果。

本发明考虑到答案中存在的问题，根据语言质量和语义准确度将数据集分为了四部分，针对生成式答案在语言质量和语义准确度两方面的特点分别采用不同的方式构建数据集，通过对数据集的针对性处理来达到最终打分能够结合语言质量和语义准确度两方面的目的。

数据集是在中文阅读理解多选数据集基础上构建而得到的，该阅读理解数据集主要是形式自由的多项选择题，由一段原文、相关问题和四项专家书写的答案组成，其中只有一个是正确答案。本发明选择其中符合条件的部分，保留原文和相关的问题，并对答案做不同处理，分别构建数据集的正样本和负样本两部分。

正样本部分直接选取中文阅读理解多选数据集的选项中的正确答案，这部分答案是由专家书写的，所以语义表述准确，还使用了部分新生成的单词，能够考虑到新生成单词的问题，同时答案符合日常语法，所以答案的语言质量也有保证，是用户所需要的高分答案。例如选取答案“师生之间缺乏面对面交流”与问题“远程授课的特点是什么？”组成的问答对作为正样本。

负样本部分由以下两部分组成：

一部分采用选择正确答案项并重复某些单词的方式构造。这种方式可以处理答案准确但是语言质量差的情况，通常表现为答案中存在连续的重复词语，能理解语句的意思但是阅读体验较差，例如“学习没有有有有动力”。

另一部分用来处理答案的语义不准确的情况，即答案和问题不相匹配。一种方法是直接从错误答案中选择一项构成不匹配的问答对，可以处理语义不准确但语言质量好的情况，例如使用答案“老师无须备课”与问题“远程授课的特点是什么？”组成的问答对作为负样本；另一种方法是从错误选项中任意选取一项后将单词的顺序打乱，以构成不通顺的句子，这考虑到了语义不准确时语言质量差的情况，例如“学费交无需”。

综合以上方法构建的数据集负样本充分考虑到了答案的语言质量和语义准确度上经常存在的问题，能够较准确地反映答案的综合质量。

一种优选的实施方式，步骤3具体由以下几部分构成：

问答评价网络是基于预训练模型BERT进行微调而得到的。

网络的输入是原文、问题和答案组成的句子对，具体形式为：[CLS]原文，问题[SEP]答案[SEP]。在序列首部添加[CLS]符号，并用[SEP]符号分割输入的两句话。并且用0和1给两个句子编号进行区分，对不同位置的字词附加位置向量，最后通过嵌入层将句子对表示成向量的形式。

将句子对的向量形式输入到编码器中，BERT模型作为问答评价网络的特征提取器，结合原文提取问题和答案的深层语义特征并进行编码，使用输入序列[CLS]所对应的向量C来表征整个句子对所包含的特征信息，并将其作为下游解码器的输入。

在BERT模型的下游部分使用解码器对前一部分提取到的语义信息解码，解码器首先是单层前向神经网络FFN，并使用dropout技术来舍弃某些神经元以防止过拟合，在解码器的最后通过softmax层对语义信息进行分类，得到对应的概率值作为生成答案的得分。

与现有技术相比，本发明采用的技术方案有以下特点：

1.提出一种针对性的数据集构建方法，针对生成式问答的答案在语言质量和语义准确度上存在的各种问题，分别构建数据集的正负样本。通过在数据集构建上进行处理，就能使问答评价网络在训练后能够结合语言质量和语义准确性两方面对生成的答案进行打分。

2.构建基于预训练模型BERT的问答评价网络，仅需通过微调就能得到较好的效果，最终使用训练好的网络对答案进行打分评价，相比传统的评价方法对答案的评价更全面、准确。

附图说明

图1是本发明的评价方法流程图

图2是问答评价网络数据集的构建方法

图3是问答评价网络数据集的样本示例

图4是本发明的问答评价网络结构图

图5是问答评价网络得分展示

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的[CLS]标签是指：BERT模型在分词中所添加的分类标签。

本发明中的[SEP]标签是指：BERT模型在句子结尾添加的句子结束标签。

本发明中的BERT模型是指：Google公司在2018年的论文《BERT:Pre-training ofDeep Bidirectional Transformers for Language Understanding》中所提出的预训练语言模型。

下面结合附图对本发明做进一步的详细描述：

一种生成式问答评价方法，如图1所示，所述方法包括：

步骤1，将生成式问答评价定义为二分类任务

从机器学习角度来看，生成式问答的评价就是一项二分类任务，通过模型可以将答案分为0和1两类，0代表答案的质量差或者表述的语义不准确，1代表答案准确且符合语法规范，根据不同的概率可以将得分映射到0-1之间，比如一句话经过分类后为1的概率为0.95，那么该语句所对应的得分就是0.95分。

步骤2，构建问答评价网络数据集

问答评价网络数据集是基于中文阅读理解多选数据集来构建的，该阅读理解数据集收集主要是形式自由的多项选择题，由一段原文、相关问题和四项专家书写的答案组成，其中只有一个是正确答案，数据集分为正式书面文本和口语化文本两部分。

本发明选择其中的正式书面文本部分，保留原文和相关的问题，对答案进行不同的处理来构建问答评价数据集的正样本和负样本两部分，采用的数据集构建方法如图2所示，最终得到的问答评价网络数据集的样本示例如图3所示：

正样本部分，直接选取四个选项中的正确选项作为答案，共构建了原文、问题和答案的句子对5000条。专家书写的答案语义表述准确，且答案的语言质量有保证。

负样本部分又由两部分组成：

对于答案的语义表述相对准确但语言质量差的情况，采用选择正确答案项并重复某些单词的方式构造，共构建了句子对4000条；

对于答案的语义不准确的情况，直接从错误选项中选择一项构成不匹配的问答对，共构建了3000条，又从错误选项中选取一项后将单词的顺序打乱构建了3000条，分别考虑到了语义不匹配时语言质量好和差的情况。

步骤3，构建问答评价网络

首先对数据进行预处理，对训练集中每句话按照字进行划分，假设句子对为X，则划分后得到序列表示：

X＝[X₁₀，X₁₁…X_1m，X₂₀，X₂₁…_2n]

X₁₀到X_1m表示原文+问题组成的句子，₂₀到X_2n表示对应的答案语句，m和n是句子的最大长度，取值范围是(0，512)。

在两个句子的前后添加标识符，处理后X的序列表示如下所示：

X＝[[CLS]X₁₀，X₁₁…X_1m[SEP]X₂₀，X₂₁…X_2n[SEP]]

[CLS]标签和[SEP]标签是分词处理后人为添加在句子的首部和尾部的，这是BERT模型输入的标准形式，预处理之后的数据用于问答评价网络的训练。

问答评价网络的结构如图4所示，具体包括：

本发明使用BERT模型作为编码器以提取词嵌入，编码器的输入是文本处理后的词向量，BERT模型作为双向深层系统，能够捕捉到真正意义上的上下文信息，经过处理后输出的是文本中各个字/词融合了全文语义信息后的向量表示。在文本分类中，选取[CLS]对应的向量C作为全文信息的向量表示。

将特征向量C作为解码器的输入，解码器由单层前向神经网络FFN层和softmax层构成。前向神经网络层的作用是：实现对输入信息的处理，并结合softmax层将高维特征转换到对应的分类维度上。如图4中即是表示进行二分类，前向神经网络层的作用就是将高维向量降为2维向量，softmax层使用的是sigmoid函数，本实例中前向神经网络的单元数设置为1024，解码器的公式如下：

r～Bernoulli(p) (1)

y＝sigmoid(r*σ(WX+b)) (2)

其中，r表示二进制向量0或1，服从概率为p的伯努利分布，W是连接BERT输出和分类器输入的权重向量，初始化方式是He，X是解码器的输入，即特征向量C，b是偏差项，设置为0.1，σ是激活函数，使用ReLU函数来引入非线性因素。

步骤4，训练问答评价网络直至模型收敛。

加载预训练模型并进行微调来训练问答评价网络，预训练模型BERT使用的是中文版本的BERT-base(Chinese)：一共有12层，隐藏层是768维，自注意力头数是12，总参数量为110M。

设置dropout参数的值为0.9。

使用交叉熵损失函数(Cross Entropy Loss)来计算损失值，通过反向传播更新模型的权重参数，使用Adam算法进行优化，当损失函数的损失值Loss不再下降并且在至少两轮迭代过程中趋于稳定时，说明模型收敛，可以结束模型的训练过程，此时得到训练好的问答评价模型。一般情况下，大约迭代训练4到6轮后损失值就会趋于稳定，就可以终止训练。

在训练完成后，该问答评价网络便能够根据所输入的原文、问题和答案组成的文本对得到反映该答案语义准确度和语言质量的得分。

使用问答模型根据文章和问题来生成答案，将所生成答案和原文以及问题按照步骤3中的输入格式组成相应的句子对，并进行分词、向量转换等处理后输送到问答评价网络中，使用问答评价网络可以自动对所生成答案进行打分，然后将打分结果保存到csv文件中。

图5是使用本发明的问答评价网络对答案进行评分的结果展示。其中，一部分给出了原文、问题和参考答案以进行详细分析，序号1到3是与之对应的三个答案句子。鉴于篇幅原因，另一部分序号4到8中仅给出生成的答案及评分，用于展示本方法对答案的评分情况。

答案1和2的都能回答问题，语义和参考答案相近，但是表达方式不同，两种方法的得分也有区别。可以看到BLEU的得分相差略大，对表达方式与参考答案相差较大的答案2，打分较低，而本方法不仅仅是通过单词共现率来打分，而是能结合该答案的语义和原文进行评分，结果更加准确。答案3的语义与参考答案完全相反，BLEU的得分并不能准确识别，而本方法结合语义和原文的信息能给出较客观的评分。

答案7的语义容易理解，可以回答问题，但是语言质量较差，BLEU方法的得分处理了重复词语问题，但是没有考虑到答案的语法，而本方法结合语法角度给出了较低的评分。在答案4到8中，本方法打分高的答案不仅表述的意思明确，而且语法上表现也更好。

综上，问答评价网络的打分是综合考虑答案的语言质量和语义准确度后给出的评分，高分的答案不仅语言表述合理，符合我们常用的语法规则，而且答案所表述的语义也与问题相匹配，能够准确回答问题。通过分值的高低也能够反映出模型的优缺点，并针对不足之处进行优化与改进。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于神经网络的生成式问答评价方法，其特征在于，包括以下步骤：

步骤1，将生成式问答评价定义为二分类任务

步骤2，根据答案的特点，构建问答评价网络数据集

步骤3，构建问答评价网络

步骤4，训练问答评价网络直至模型收敛

步骤5，输入待评价答案，使用问答评价网络对生成答案进行评分。

2.根据权利要求1所述的生成式问答评价方法，其特征在于，步骤1具体表述为：

将对答案的评分看成一项二分类任务，1表示答案准确且表述合理，0表示答案不准确或者质量较差，通过问答评价网络将对生成答案的评价得分映射到0和1之间，分数越高表示答案的综合质量越高。

3.根据权利要求1所述的生成式问答评价方法，其特征在于，步骤2具体表述为：

根据语言质量和语义准确度将数据集分为了四部分，针对生成式答案在语言质量和语义准确度两方面的特点分别采用不同的方式构建数据集，通过对数据集的针对性处理来达到最终打分能够结合语言质量和语义准确度两方面的目的；

数据集是在中文阅读理解多选数据集基础上构建而得到的，该阅读理解数据集是形式自由的多项选择题，由一段原文、相关问题和四项专家书写的答案组成，其中只有一个是正确答案；选择其中符合条件的部分，保留原文和相关的问题，并对答案做不同处理，分别构建数据集的正样本和负样本两部分；

正样本部分直接选取中文阅读理解多选数据集的选项中的正确答案，这部分答案不仅语义表述准确，还使用了部分新生成的单词；

负样本部分由两以下部分组成：

一部分用于处理答案准确但是语言质量差的情况，表现为答案中存在重复词语；

另一部分用来处理答案的语义不准确的情况，一种方法是直接从错误选项中选择一项答案构成不匹配的问答对，另一种方法是从错误选项中选取后将单词的顺序打乱，分别考虑到了语义不匹配时语言质量好和差的情况。

4.根据权利要求1所述的生成式问答评价方法，其特征在于，步骤3具体由以下几部分构成：

网络的输入是原文、问题和答案组成的句子对，具体形式为：[CLS]原文，问题[SEP]答案[SEP]；在序列首部添加[CLS]符号，并用[SEP]符号分割输入的两句话；并且用0和1给两个句子编号进行区分，对不同位置的字词附加位置向量，最后通过嵌入层将句子对表示成向量的形式；

将句子对的向量形式输入到编码器中，BERT模型作为问答评价网络的特征提取器，结合原文提取问题和答案的深层语义特征并进行编码，使用输入序列[CLS]所对应的向量C来表征整个句子对所包含的特征信息，并将其作为下游解码器的输入；

[CLS]是指：BERT模型在分词中所添加的分类标签；

[SEP]是指：BERT模型在句子结尾添加的句子结束标签；

在BERT模型的下游部分使用解码器对提取到的语义信息解码，得到对应的概率值作为生成答案的得分；BERT模型是Google公司所提出的预训练语言模型。