CN113032539A

CN113032539A - 一种基于预训练神经网络的因果性问答对匹配方法

Info

Publication number: CN113032539A
Application number: CN202110277668.0A
Authority: CN
Inventors: 任飞扬; 蔡铭
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-25

Abstract

本发明公开了一种基于预训练神经网络的因果性问答对匹配方法，该方法首先利用预训练模型BERT对问题句子和候选答案句子进行编码得到相应的句子嵌入；然后模型通过卷积或链接方式充分利用句子嵌入的上下文信息，并根据问答句子对的分类特征、上下文的局部显著特征和整体特征得到问答句子对相关的因果特征；最后由全连接网络构成的分类器判断因果极性。本发明充分利用了预训练模型学到的上下文相关的编码信息，能捕获问答句子对编码的因果特征，在COPA和SOCIAL IQA两个关于因果性问答对的数据集上的匹配效果可以达到目前研究的先进水平。

Description

一种基于预训练神经网络的因果性问答对匹配方法

技术领域

本发明属于因果性问答对匹配领域，尤其涉及一种基于预训练神经网络的因果性问答对匹配方法。

背景技术

现有技术仅仅利用预训练模型输出的一个分类标记来衡量问答句子对的匹配程度，这种方法往往考量的是两个句子的语义相似度，对于因果性的问答句子对匹配任务而言，仅利用分类标记作为特征向量不足以充分涵盖因果性信息。例如，给出一个句子A:“Ifelt exhausted.”，而要预测的下一句话有两个候选项，分别是，(a):“I went to bedearly.”；(b):“I stayed up all night.”，要求是在选项(a)和选项(b)中选择合理的一项作为句子A的结果(effect)。从语义相似性的角度上看选项(b)和句子A更加匹配，两者都有“我已经精疲力尽”的意思。但是在因果性匹配任务中，要求下一句话是“effect”的前提下，选项(a)显然更加合理，因为“累了就早点上床休息”更加符合人类的生活习性。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于预训练神经网络的因果性问答对匹配方法。

本发明的目的是通过以下技术方案来实现的：一种基于预训练神经网络的因果性问答对匹配方法，包括以下步骤：

(1)构建因果性问答对分类网络：所述因果性问答对分类网络由输入层、编码层、特征提取层和分类层依次组成。

所述输入层将问题句子和候选答案句子的单词记号通过词典索引转化为词嵌入。

所述编码层将词嵌入输入预训练模型BERT；预训练模型BERT的最后一层隐藏层的输出包括问答句子对的分类特征和上下文相关的编码信息。

所述特征提取层根据预训练模型BERT输出的问答句子对的分类特征和上下文相关的编码信息，得到问答句子对相关的因果特征，使用卷积或链接的方式实现。

所述分类层为由全连接网络构成的分类器，根据问答句子对相关的因果特征输出候选答案句子的因果性匹配分数和非因果性匹配分数，两者之和为1。

(2)训练因果性问答对分类网络：输入问题句子和候选答案句子以及对应的因果极性匹配分数进行训练；因果极性包括因果性和非因果性。

(3)将待测的问答句子对输入步骤(2)训练的因果性问答对分类网络，计算出待测的问答句子对的因果极性匹配分数，获得因果极性判断结果。

进一步地，所述因果性问答对分类网络采用的优化函数为随机梯度下降，损失函数为交叉熵损失。

进一步地，所述编码层中，问答句子对的分类特征来源于预训练模型BERT的[CLS]所表示的分类嵌入。

进一步地，所述特征提取层中，将上下文相关的编码信息经过最大池化得到上下文的局部显著特征；将上下文相关的编码信息经过平均池化得到上下文的整体特征。

进一步地，所述特征提取层以卷积的方式实现时，相应的模型为因果性问答对分类卷积网络。特征提取层采用通道为3宽度为2的卷积核，将问答句子对的分类特征、上下文的局部显著特征和整体特征分别输入卷积核的三个通道，得到问答句子对相关的因果特征。

进一步地，所述因果性问答对分类卷积网络选择ReLU函数作为激活函数。

进一步地，所述特征提取层以链接的方式实现时，相应的模型为因果性问答对分类链接网络。特征提取层将问答句子对的分类特征、上下文的局部显著特征和整体特征依次串联拼接至同一个向量空间中，得到问答句子对相关的因果特征。

进一步地，所述分类层采用softmax回归的方法。

进一步地，步骤(2)中，训练时，具有因果性的候选答案句子对应的因果性匹配分数为1，非因果性匹配分数为0；不具有因果性的候选答案句子对应的因果性匹配分数为0，非因果性匹配分数为1。

进一步地，匹配分数较高的因果极性为候选答案句子的因果极性判断结果。

本发明的有益效果是：本发明把因果性问答对匹配任务转化成基于预训练模型的问答句子对分类任务，即计算句子A和选项(a)、选项(b)的匹配分数，之后模型通过比较两者分数的高低做出抉择。本发明能捕获问答句子对编码的因果特征，匹配更符合因果关系的答案；在COPA和SOCIAL IQA两个关于因果性问答对的数据集上的匹配效果可以达到目前研究的先进水平。

附图说明

图1是本发明的CNet-Conv模型结构示意图；

图2是本发明的CNet-Concat模型结构示意图。

具体实施方式

本发明一种基于预训练神经网络的因果性问答对匹配方法，用于实现单项选择型的因果性问答对匹配任务，其本质上是问答句子对的分类任务，即通过计算问答句子对的得分来衡量两个句子互为因果性的程度，从而在较少的答案候选项中选择最为合理的一项。

本发明具体包括以下步骤：

(1)构建因果性问答对分类网络(CNet)：所述因果性问答对分类网络由输入层、编码层、特征提取层和分类层依次组成；采用的优化函数为随机梯度下降，损失函数为交叉熵损失。

所述输入层将问题句子和候选答案句子(问答句子对)的单词记号通过词典索引转化为词嵌入。并且输入层在句子对头部插入[CLS]标志符，在句子对之间插入[SEP]标志符，在句子对末尾加入[SEP]标志符。

所述编码层将词嵌入输入预训练模型BERT；预训练模型BERT的最后一层隐藏层的输出为问答句子对的分类特征和上下文相关的编码信息；其中，问答句子对的分类特征来源于预训练模型BERT的[CLS]所表示的分类嵌入。

所述特征提取层使用卷积和链接两种方式实现，相应的模型分别命名为因果性问答对分类卷积网络CNet-Conv和因果性问答对分类链接网络CNet-Concat。两种模型的特征提取层都充分利用到预训练模型输出的上下文相关的编码信息，对上下文相关的编码信息采用时序最大池化max-over-time pooling的方法得到上下文的局部显著特征，对上下文相关的编码信息采用时序平均池化mean-over-time pooling的方法得到上下文的整体特征；再根据问答句子对的分类特征、上下文的局部显著特征和整体特征，得到问答句子对相关的因果特征。

如图1所示，CNet-Conv模型的特征提取层以卷积的方式实现，选择ReLU函数作为激活函数，可以有效地抑制和因果不相关的信息，更多地关注于因果相关的特征。卷积过程中采用了通道为3宽度为2的卷积核，将问答句子对的分类特征、上下文的局部显著特征和整体特征分别输入卷积核的三个通道，同时考虑三者对因果极性判断的影响，得到问答句子对相关的因果特征。所述因果极性包括问答句子对蕴含的因果性和非因果性。

如图2所示，CNet-Concat模型的特征提取层以链接的方式实现。将问答句子对的分类特征、上下文的局部显著特征和整体特征依次串联拼接至同一个向量空间中，得到问答句子对相关的因果特征。

所述分类层为由全连接网络构成的分类器，采用softmax回归的方法，根据问答句子对相关的因果特征输出候选答案句子的因果性匹配分数和非因果性匹配分数；两者之和为1，因果性匹配分数为具有因果性的概率，非因果性匹配分数为不具有因果性的概率。

(2)训练因果性问答对分类网络：输入问题句子和候选答案句子以及对应的因果极性进行训练；训练时，具有因果性的候选答案句子对应的因果性匹配分数为1，非因果性匹配分数为0；不具有因果性的候选答案句子对应的因果性匹配分数为0，非因果性匹配分数为1。

(3)将待测的问答句子对输入步骤(2)训练的因果性问答对分类网络，计算出问答句子对的因果极性匹配分数，匹配分数较高的因果极性为候选答案句子的因果极性判断结果。

本实施例在COPA和SOCIAL IQA数据集上进行了评测。COPA包含1000个常识问题，用于自然语言处理的研究，可以评估模型因果推理的能力；SOCIAL IQA是关于社会情况的常识推理的大规模数据集。SOCIAL IQA包含38000个左右的选择题，聚焦于人们日常生活中情绪和社交方面的推理。实验结果为，在COPA数据集上，CNet-Conv的分类准确率为78.6％，CNet-Concat的分类准确率为77.4％；在SOCIAL IQA数据集上，CNet-Conv的分类准确率为65.6％，CNet-Concat的分类准确率为63.58％。通过多种对比方法的比较实验，CNet-Conv模型在两个数据集上均取得较高的准确率。综上所述，有理由相信在模型中加入上下文相关的显著局部特征和整体特征，非常有助于提升问答句子对因果性匹配的效果。

Claims

1.一种基于预训练神经网络的因果性问答对匹配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于预训练神经网络的因果性问答对匹配方法，其特征在于，所述因果性问答对分类网络采用的优化函数为随机梯度下降，损失函数为交叉熵损失。

3.根据权利要求1所述基于预训练神经网络的因果性问答对匹配方法，其特征在于，所述编码层中，问答句子对的分类特征来源于预训练模型BERT的[CLS]所表示的分类嵌入。

4.根据权利要求1所述基于预训练神经网络的因果性问答对匹配方法，其特征在于，所述特征提取层中，将上下文相关的编码信息经过最大池化得到上下文的局部显著特征；将上下文相关的编码信息经过平均池化得到上下文的整体特征。

5.根据权利要求4所述基于预训练神经网络的因果性问答对匹配方法，其特征在于，所述特征提取层以卷积的方式实现时，相应的模型为因果性问答对分类卷积网络。特征提取层采用通道为3宽度为2的卷积核，将问答句子对的分类特征、上下文的局部显著特征和整体特征分别输入卷积核的三个通道，得到问答句子对相关的因果特征。

6.根据权利要求5所述基于预训练神经网络的因果性问答对匹配方法，其特征在于，所述因果性问答对分类卷积网络选择ReLU函数作为激活函数。

7.根据权利要求4所述基于预训练神经网络的因果性问答对匹配方法，其特征在于，所述特征提取层以链接的方式实现时，相应的模型为因果性问答对分类链接网络。特征提取层将问答句子对的分类特征、上下文的局部显著特征和整体特征依次串联拼接至同一个向量空间中，得到问答句子对相关的因果特征。

8.根据权利要求1所述基于预训练神经网络的因果性问答对匹配方法，其特征在于，所述分类层采用softmax回归的方法。

9.根据权利要求1所述基于预训练神经网络的因果性问答对匹配方法，其特征在于，步骤(2)中，训练时，具有因果性的候选答案句子对应的因果性匹配分数为1，非因果性匹配分数为0；不具有因果性的候选答案句子对应的因果性匹配分数为0，非因果性匹配分数为1。

10.根据权利要求9所述基于预训练神经网络的因果性问答对匹配方法，其特征在于，匹配分数较高的因果极性为候选答案句子的因果极性判断结果。