CN113342950B

CN113342950B - 基于语义联合的答案选取方法及系统

Info

Publication number: CN113342950B
Application number: CN202110625585.6A
Authority: CN
Inventors: 张仰森; 黄改娟; 向尕; 李剑龙
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2023-04-21
Anticipated expiration: 2041-06-04
Also published as: CN113342950A

Abstract

本发明提供一种基于语义联合的答案选取方法，文本预处理与输入层对原始数据预处理，删除无正确答案问题，将问题与答案语义联合拼成文段序列，使用特殊标志分割将问题和答案句子区分，得到格式数组；语义编码层将格式数组输入，用自注意力机制使单词成为隐藏文段中其他单词信息的语义向量，并输入向前传播层，得到文段的向量表示；特征提取层获取向量表示作为问题和答案的语义信息，用线性函数将高维向量转化为低维；并用进行特征提取，获得语义语法信息；语义关联层使用分类，对语义语法信息的相关联程度进行评分，得到二维向量，选取后一维度的数值，得到关联度。本发明的方法在问答数据集上表现出优越的性能，提取答案与问题关键信息能力显著。

Description

基于语义联合的答案选取方法及系统

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种基于语义联合的答案选取方法及系统。

背景技术

随着互联网技术的快速发展，网络中的文本信息量呈指数级增长，成为了人们获取信息的重要来源，因此，利用搜索引擎从海量信息中检索出所需的信息已成为人们获取信息的主要方式。

然而，申请人在研究中发现，现有的搜索引擎的检索策略大多是基于字符串匹配，缺乏从语义角度挖掘知识的能力，导致搜索结果精度差，冗余度高。还需要用户从大规模搜索结果中进一步理解和筛选才能够获取到真正需要的信息，这与用户快速准确获得信息的需求还有一定的差距。因此提出一套能够从语义角度进行分析的答案选取模型对改进搜索策略有重大意义。

近些年，自然语言处理技术，在深度学习研究的浪潮下也慢慢地从先前的基于特征表示的层面转向语义表示的层面。作为自然语言处理的重要研究方向，答案选取也得到了技术和方法的依托。但是，现有技术的答案选取模型，仅仅从浅层的语句特征中进行信息统计，然后利用统计得到的浅层语义信息进行下游任务的训练和学习。这种方法虽然简单可行，但由于自然语言的复杂和多样性，其无法对一词多义和近义词进行辨别，导致特征信息表示的可区分性不尽人意。

2018年BERT模型的提出，打破了自然语言处理的瓶颈，其完全基于注意力机制的模型刷新了机器阅读理解的榜单，甚至在一些任务上得分超过人类选手。谷歌团队使用大规模语料和强大的计算资源，为自然语言处理研究打下了坚实的基础，同时也为句子语义的表征提供了新的思路。

申请人在研究中发现，BERT强大的语义编码能力同样可以运用到答案选取任务中，借助其强大的语义编码能力，对答案和问题进行语义表征。其设计方法与人类在做阅读理解时的思路非常吻合，通过关注句子中的关键信息补全整个句子的语义倾向，并对句子进行语义表达。

答案选取作为阅读理解的一个具体任务，同时也是搜素引擎的关键技术之一，其选取结果直接关系到用户的满意度，同时一个高效、健壮的答案选取模型还影响着互联网企业的核心竞争力。然而申请人在研究中发现，现有技术的答案选取模型，缺乏从语义层面对问题和答案对进行研究，虽然取得了较好的效果，但研究工作都仅仅局限在训练方法和上层模型中。

发明内容

为了解决现有技术存在的问题，本发明借助深度学习技术，从语义理解层面，在整个阶段进行研究，提出一种基于语义联合的答案选取方法及模型--ASMSU(AnswerSelection Model Based on Semantic Union)。本方法及模型从语义理解的角度融合问题与答案之间的相关性，然后在此基础上进行n元语法特征提取，用以完成答案选取工作，并公开一种上述方法的系统。采用本发明的方法和系统，增强了问题与答案之间关键信息配对，同时通过特征提取器又挖掘出问题与答案之间潜存的关联信息，解决了答案选取模型中关键信息抽取效率低下的问题，提升答案的选取效果。

为了实现上述技术目的，本发明的技术方案如下。

一方面，本发明提供一种基于语义联合的答案选取方法。

基于语义联合的答案选取方法，包括文本预处理与输入层、语义编码层、特征提取层和语义关联层；

其中，所述文本预处理与输入层对原始文本的数据进行预处理，将没有正确答案的问题删除；

将问题与答案的语义联合，拼成文段序列，中间使用特殊标志分割；并在文段序列中加入位置编码信息，将问题和答案句子进行区分，得到格式数组；

所述语义编码层将文本预处理与输入层的格式数组输入，通过自注意力机制使每一个单词都成为隐藏文段中其他单词信息的语义向量；

将语义向量输入向前传播层，得到文段的向量表示；

所述特征提取层获取语义编码层的文段的向量表示，作为问题和答案的语义信息，使用线性函数将高维向量转化为低维向量；

使用不同大小的卷积对该文段的向量表示进行特征提取，获得语义语法信息；

所述语义关联层直接使用分类的方法，对问题和答案的语义语法信息进行关联度评分，得到二维向量，其维度分别表示问题与答案的语义不相关或者相关程度；

选取后一维度的数值表示句子对的语义关联得分，得到关联度。

进一步的，本发明的基于语义联合的答案选取方法，其中，对原始文本的数据进行预处理，将没有正确答案的问题删除的方法为，

采用过采样和欠采样处理方法，过采样使用SMOTE算法对少数类样本进行数据生成，兼顾模型计算时的数据量，使用欠采样算法剔除少部分多类样本。

进一步的，本发明的基于语义联合的答案选取方法，其中，将文本预处理与输入层的格式数组输入，通过自注意力机制使每一个单词都成为隐藏文段中其他单词信息的语义向量的方法为，

通过构建三个向量对文段的嵌入向量进行加权表示，其三个向量分别为：键向量K、值向量V和查询向量Q；

训练时，此三个向量不断的进行权值的更新，每个单词的对应的注意力Att值计算公式为：

其中，d_k为文段的最大长度；softmax为非线性变化函数；

Q，K，V矩阵在语义编码层中先进行初始化赋值，然后根据梯度下降和反向传播算法进行参数的更新，经过训练微调得到最优的参数配置。

进一步的，本发明的基于语义联合的答案选取方法，其中，自注意机制使用8个多头注意力搭建，使用8个不同的Q，K，V矩阵进行计算，将得到的8个向量进行拼接，并使用一个权重矩阵与得到的拼接向量相乘，最后得到所有单词对应的自注意力加权向量，此向量使用x表示。

进一步的，本发明的基于语义联合的答案选取方法，其中，将语义向量输入向前传播层，得到文段的向量表示的方法为，

将x向量输入到前向传播层中，得到文段的向量表示FFN(x)，其公式为：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

其中，max(0,x)为非线性变化函数，W₁和W₂为权重矩阵，b₁和b₂为偏移量；

上述几个参数依据梯度下降算法和反向传播算法进行数值的更新。

进一步的，本发明的基于语义联合的答案选取方法，其中，获取语义编码层的向量表示，作为问题和答案的部分语义信息，使用线性函数将高维向量转化为低维向量的方法为，

取得语义编码层中的[cls]向量，作为问题和答案的语义信息，使用非线性函数将高维向量[cls]转化为低维向量t，其函数为，

t＝relu([cls]W^T+b)

式中函数选取relu作为激活函数，其表达式为：relu(t)＝max(0,t)，W^T为权重矩阵，b 为偏移量；

权重矩阵和偏移量在训练时，根据反向传播算法进行数值更新。

进一步的，本发明的基于语义联合的答案选取方法，其中，使用不同大小的卷积核对文段的向量表示FFN(x)进行特征提取的方法为，

使用三组不同大小的卷积核每组各两个对潜藏在语义编码中的n元语法特征进行抽取，使用其纵向维度为词向量维度的卷积核进行计算，

设滤波器W^f∈R^k×s，其中k表示滤波器的窗尺寸大小，s是语义编码层中的词向量维度，对于在语义表示向量中的第i行到第i+k-1行的k元语法信息向量S_i:i+k-1，卷积操作所提取的第i个特征值y_i表示为：

其中f(x)为非线性激活函数，选择relu或sigmoid函数进行非线性变化，表示卷积操作，b为偏移量，且滤波器W^f和b中的参数在进行随机初始化后，在模型训练过程中依据反向传播算法进行参数的更新，

设此时语法信息向量S_i:i+k-1的维度为：k*s，则经过卷积操作得到一个具体的特征值，即为y_i；

对于句子S，其被步长为1的卷积操作分割为S＝{X_1:k,X_2:k+1,…,X_n-k+1:n}，经过一个滤波器后得到句子的k元语法特征Y：

Y＝[y₁,y₂,y₃,…,y_n-k+1]

式中，y_i表示卷积核在每一步操作后得到的结果，将所有步数的组合拼接组合得到Y；

然后将Y进行最大池化操作，得到k元语法的最优特征

式中，Y表示语法特征，maxpooling表示最大池化操作；

经过以上特征提取后，即可获得融合问答对信息的向量x和k元语法的最优特征

设使用n个卷积核对潜藏的语法信息进行挖掘，则可得到n个语法特征信息，可表示为并将其与x向量进行横向拼接，最终得到句子对的语义语法信息F：

式中，t为cls向量经过维度转化后的低维向量，为第i个卷积滤波器从句子对信息中提取到的第i个最优特征。

进一步的，本发明的基于语义联合的答案选取方法，其中，直接使用分类的方法，对答案和问题的相关联程度进行评分的方法为，其计算公式为，

P＝softmax(FW^T+b)

其中，F为语义语法信息向量，W^T为语义关联层的参数，为W的转置矩阵表示，b为偏移量，softmax为概率激活函数，P为模型最后计算得到的结果；

所述的P为二维向量，其每个维度表示问题与答案的语义不相关或者相关程度。

进一步的，本发明的基于语义联合的答案选取方法，其中，选取后一维度的数值表示句子对的语义关联得分，得到关联度的方法为，

将关联度记计为P_true，

P_true＝P(C＝1|X,Y)

其中，P为上一步中经过计算得到的二维向量，X表示问题与答案不相关概率，Y表示问题与答案相关概率。

另一方面，本申请还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述方法。

本发明采用上述技术方案获得的技术效果为：

能够对问题和答案之间的存在的联系进行深层次的特征挖掘，并对候选答案进行关联度排序，能够高效选择出与问题关联度最高的答案，但此发明的具体实现方法并不限于挖掘问题和答案间的关联度。同时，本发明通过将问题和答案进行拼接，增强了问答对中关键信息的关注效果，有效避免了由于句子对中重要词关注程度不足导致候选答案无法正确排序的结果。

可以从语义理解的角度出发，通过特征提取层能够从深层次的角度提取句子的语义语法信息，在实际问答对的关联度评分程序的使用上，现有的模型缺乏从语义理解和语法的角度对问题和答案对进行特征的提取，借助ASMSU模型，评分程序可以从多个方面关注问答对中的特征信息，使得答案选取效果有所提升，且模型的可解释型增强。

使用上述方法，在Wiki-QA和TREC-QA数据集上，得到了非常理想的效果，通过分析模型的性能发现，其能挖掘句子中的n元语法信息，通过与国内外的同类模型进行比较，该方法在两个数据集上的表现较其他模型均有提升。

本发明从语义理解的角度提出了一套答案选取任务的解决方法，并在实验中探究了方法各个模型层的特征关注能力。经过实验证明该方法切实可行，借助该模型的强大特征提取能力，能够对问答对的语义特征进行抽取，用于关联度评分。

从实验结果中可以看出，本发明的方法在各种问答数据集上表现出优越的性能，在不使用辅助语料和单模型的情况下，各个评价指标能够领先于现有同类别模型，且模型提取答案与问题关键信息的能力显著。在模型设计中，通过语法信息的提取，增加了句子的语义表征信息，强化了模型的学习能力。

实验证明，在不借助相似语料微调和单一模型的情况下，本发明提出的方法模型高于已知同类模型，在Wiki-QA和TREC-QA数据集上，MAP值分别为83.8％和93.8％。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为BERT模型结构示意图；

图2为基于深度学习的答案选取思路示意图；

图3为本发明的ASMSU模型图；

图4为kernel-size对Wiki-QA的影响图；

图5为语义联合在Wiki-QA上的结果图；

图6为kernel-size对TREC-QA的影响图；

图7为语义联合在TREC-QA上的结果图；

图8为问题答案展示图；

图9为问答句中词关联度展示图；

图10为2-gram可视化图；

图11为3-gram可视化图；

图12为4-gram可视化图。

具体实施方式

下面将参照具体实施方式和附图更详细地描述本公开的示例性实施例。虽然具体实施方式和附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明中的相关定义或者术语的背景及解释如下：

词向量

语句信息嵌入是指将文字信息投射到高维稠密的向量空间中，用以实现文本的数字化表示，根据嵌入过程词向量的表示方法可以将语句信息嵌入分为one-hot和词嵌入两种。

One-hot(独热编码)，是一种使用稀疏矩阵对单词进行信息嵌入的方式。独热编码通过假设词与词之间的相互独立性，在向量的不同位置设定值为1，其余位置的值设为0来表示每一个单词。这种简单的编码方式能够对小数据集进行词语的特征表示，同时能够表示词语的唯一性。同时one-hot编码方式，借助其简单且有效的编码方式，在专业领域的分类任务中有着广泛的引用。

但是此种编码方式也容易引起维度爆炸等问题，在海量文本信息面前，独热编码需要为不同的词语开辟一个数组空间，高纬度的稀疏矩阵即占用了大量的存储空间，同时也增加了时间开销。由于其词向量之间的正交性，独热编码无法体现字词之间的语义相关性。

词嵌入实际上是一种将文本单词信息映射到高维稠密向量中的方法。与独热编码方试不同，词嵌入方式能够解决一词多义和近义词在向量空间上的不相关性问题。

自2013年以来，Word2vec是一种有效创建词嵌入的方法。除了用在词嵌入外，它还可以使用在搜索引擎地创建和顺序数据的理解上。比如Airbnb，阿里巴巴，Spotify和Anghami 等公司都在自然语言处理中创造强大的工具并将其用于生产中，这为新型推荐引擎的发展提供了支持。

作为一种经典的词嵌入模型，Word2vec模型通过上下文来得到当前词的向量表达，将其映射到特定维度的稠密向量中。这既让当前词融合了其在句子中的特定语义信息，也解决了向量空间开销大的问题。尽管Word2vec模型解决了词语相似性的问题，但还是跟其他词嵌入模型一样无法解决一词多义问题。

为了对一词多义进行区分，ELMO使用双向LSTM结构进行模型的训练，以对词语进行编码，模型将文本上下文信息嵌入到当前词中。同时在近几年，BERT模型通过在海量数据上进行预训练，得到了广适的词向量，使用注意力机制解决了一词多义的问题，为词向量的表示提供了新思路。

预训练模型BERT

2016年，微软亚洲研究院的何凯明发表了残差网络的论文，首次使用残差的解决办法将卷积神经网络提升到了百层之上，而且他们的研究在图像辨别的任务上打破了当时的最好纪录.由于网络层数的不断加深，想要完全重新训练一个神经网络则需要大量的数据,这使得重新训练一个模型的代价陡增。由于上述问题的产生，研究人员不再完全重新训练一个网络，而是采用预训练技术进行下游任务的研究，用以减少开销。BERT模型就是如此，研究人员使用 mask机制在大规模数据集上进行预训练，其独特的训练方式，让句子嵌入了更加深层的语义特征，同时还能解决一词多义的问题。BERT模型的架构如图1所示。

底层E是文本中词的文本输入，经过Transformer的编码层得到整个文本的向量输出。从 BERT模型的结构可以看出，模型的主要单元是Transformer。其中，Transformer框架不同于循环神经网络或卷积神经网络，其使用位置编码方式解决长文本依赖。词向量经多个 Transformer编码器输出到一个线性映射中。最后，得到每个词的固定嵌入维度表示。

谷歌团队提出的BERT是在GPT的基础上对其功能和目标进行了一定的面向于特定任务的修改，而且在数据集的训练上，该模型使用了更具有代表性和广泛的数据集进行训练，在 2018年进行的阅读理解任务测试中，该模型在测试过程中表现出惊人的能力，在准确率和与检索相关的指标上全面的超越了人类的评测成绩。

答案选取

答案选取的定义为：给定一个问题和问题的若干答案，根据问题与答案的匹配程度，对答案进行重新排序。本质上，答案选取任务其实是一个排序任务，是问答任务中的一个核心步骤。答案选择任务随着问答形式的不同，往往呈现出不一样的形式。常见的问答形式有：单项选择题形式，即从问题所给的答案列表中选择相关的答案作为正确答案；阅读理解式，从相关文档信息中提取出切合问题的关键字信息，作为问题的答案；数据库匹配式，主要应用在智能客服系统中，通过对问题的分析，查询数据库中的答案，用以回答用户的提问。

对于答案选取任务给出其定义，有一个问题Q，其候选答案序列为A＝{a₁,a₂,a₃,…,a_n}，候选答案与问题的相关度S＝{s₁,s₂,s₃,…,s_n}，n为候选答案的个数。答案选择的目标就是，根据问题Q，计算Q与a_i之间的关联度s_i，并根据s_i对候选答案进行排序，最后选出与问题关联度最高的答案作为最佳答案。

国内外对于答案选取的研究已经持续了非常长的一段时间，并且取得了大量的成果。现有的答案选择模型大致可以分为两类，一类是基于传统统计学特征的模型，传统模型在早期的答案选择模型中使用较多，主要从语句的浅层进行特征的提取和研究；另一类则是基于深度神经网络的模型，随着深度学习技术的发展，答案选取工作也从基于传统特征的研究转向深层语义信息的研究。更是近几年随着各大预训练模型的开源，答案选取的研究也进入了一个全新的阶段。

传统模型通过关注句子的词法、句法和统计学特征对语句进行建模，仅仅从语句浅层进行答案选取模型的研究。robertson，使用BM25算法对句子中词频、词语等信息统计，用以计算问题和答案之间的相关度。问题和答案之间的相同词越多，其相似度得分就越高。2008 年，xue等人提出使用TRANSLM方法，通过答案生成问题的概率来得到当前问题与答案的相关性。面对词句信息不足的问题，Chitra等使用多种语法特征进行组合，通过支持向量机 (SVM)对提取的多种特征进行建模,并加入遗传算法对问答任务进行研究。由于自然语言的复杂性和灵活性，基于传统浅表特征的模型很难从深层次挖掘句子的语义信息，限制了答案选取的效果。

深度学习模型利用深度学习模型对词语进行语义嵌入，得到包含上下文信息的词向量，并将词向量合成成为句子的语义表示向量。然后使用深度神经网络抽取隐藏在语义向量中的特征信息，用于答案选取任务的研究。基于深度学习的答案选取基本思路如图2所示。

在接下来的研究中Tan等通过引入双向LSTM，提出了基于循环神经网络的基准模型，同时也得到了不错的答案选取效果。Hongjie等提出了多维特征联合方法，用以捕获问题和答案之间潜藏的多元特征。Wang和Nyberg将问题和答案直接连接，然后输入到深度学习模型中，得到问题答案相连之后的向量表示，并使用联合后的表示进行答案相关性的判别。张仰森和王胜等通过引入多阶段注意力机制和语句关键信息对候选答案进行语义增强，取得了不错的效果。

申请人认为，以上工作虽然为答案选取模型的研究提供了解决思路，但却缺乏从问答对语义的角度研究问题和答案之间的语义相关性，同时以上模型对语义特征的捕捉能力有限。

为了解决这些问题，本发明从语义联合的角度出发，提出一种能够解决问答对语义嵌入低效的方法，优化其语义表示，并提取关键特征信息，用以实现对答案选取方法及系统的研究。

以上是发明的基本思路，在此基础上，通过以下实施例和实验例，对本申请的内容进行进一步的阐述。

一方面，本发明提供一种基于语义联合的答案选取方法。

此方法借助BERT的语义编码能力和特征选取层对潜藏在词向量中的特征进行搭建，实现思路上采用微调和迁移学习策略，同时在模型中加入卷积和池化操作提取文本的n元语法信息，用以实现对问答对的打分和答案选取工作。ASMSU模型整体架构如图3。

本发明提供的一种基于语义联合的答案选取方法，包括文本预处理与输入层、语义编码层

特征提取层和语义关联层。

1、文本预处理与输入层

首先，对原始文本的数据进行预处理，将没有正确答案的问题删除。

具体的，可以使用现有技术的减少冗余数据数据处理方法对原始文本的数据进行预处理，将没有正确答案的问题删除，从而避免训练数据中的干扰项的影响。

本发明中，为了对具体任务中的类别标签分配不均衡的情况，针对当前任务，采用过采样和欠采样处理方法，其中过采样使用SMOTE算法对少数类样本进行数据生成，兼顾模型计算时的数据量，使用欠采样算法剔除少部分多类样本。

具体的，SMOTE算法是随机过采样算法的一种改进，其具体操作方法为：对于少数类中的一个样本，以欧式距离为标准计算其到每一个少数类样本的距离，进行排序后得到其k近邻；然后根据上采样策略，对于每一个少数类样本，从其k近邻中随机选取若干个样本；最后根据相应策略生成相应的数据。以三维空间中的两个数据为例，将其进行连线，随后在连线上任取一个点作为生成数据。欠采样算法在实现过程中，直接根据采样比例对多数类样本进行随机删除。使用前述方法，数据被处理成为适应计算需求并且类别比例相对均衡的数据集合。

然后，将问题与答案的语义联合，将其拼接成一个文段序列，中间使用特殊标志进行分割。

具体的，结合现有开源工具包：keras-bert，对问题和答案对进行拼接处理，且在句首和句尾分别使用[cls]和[sep]进行标记，并根据词典，将句子中的基于字符串表示的词语转化为基于数值表示的文段序列，中间使用特殊标志[sep]进行分割。

并，在文段序列中加入位置编码信息和句段标识，用以将问题和答案句子进行区分并将词语的位置信息嵌入。

具体的，位置编码使用正弦和余弦函数进行编码，句段标识使用0和1对句子中的词语进行句子区分，且中间的特殊标志[sep]使用0进行标识。

问题和答案文本经过预处理后成为一个定长的序列，此时的定长序列已经嵌入了文本的句段标识信息和句子的位置编码信息。

经过本层的处理，将原始文段转化为可以输入到语义编码层中的格式数组。

2、语义编码层

首先，将文本预处理及输入层的输出：格式数组，即一个包含文段信息的字符向量输入语义编码层中。

然后，通过自注意力机制，使每一个单词都成为隐藏文段中其他单词信息的语义向量。

具体的，此层称为自注意力层，其通过构建三个向量对文段的嵌入向量进行加权表示，此三个向量分别为：键向量K、值向量V和查询向量Q。

训练时，这三个向量会不断的进行权值的更新，每个单词的对应的注意力Att值计算如下。

其中，d_k为文段的最大长度；softmax为非线性变化函数；Q，K，V矩阵在语义编码层中先进行初始化赋值，然后根据梯度下降和反向传播算法进行参数的更新，最后经过训练微调得到最优的参数配置

本发明中，自注意机制使用8个多头注意力进行搭建，在计算过程中，使用8个不同的 Q，K，V矩阵进行计算，将得到的8个向量进行拼接，并使用一个权重矩阵与得到的拼接向量相乘，最后得到所有单词对应的自注意力加权向量，此向量使用x表示。接着，将x向量输入到前向传播层中，得到文段的向量表示FFN(x)，实质上前向传播层是一个激活函数，其计算方式如式(2)。

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (2)

其中，max(0,x)为非线性变化函数；

W₁和W₂为权重矩阵；

b₁和b₂为偏移量。

在模型训练进行和微调的过程中，上述几个参数依据梯度下降算法和反向传播算法进行数值的更新。

3、特征提取层

首先，取得语义编码层中的[cls]向量，作为问题和答案的部分语义信息，使用非线性函数将高维向量[cls]转化为低维向量t。

具体的，其函数表示如下。

t＝relu([cls]W^T+b) (3)

式中函数选取relu作为激活函数，其表达式为：relu(t)＝max(0,t)，W^T为权重矩阵，b 为偏移量，权重矩阵和偏移量会在训练时，根据反向传播算法进行数值更新。

其中[cls]维度可表示为：1*768，假设此时需要的得到的低维向量为1*200，则其中m＝768，n＝200，b＝[b₁,b₂,…,b₂₀₀]，经过转换[cls]从高维向量经过参数的变化转换成为了一个维度较低的向量。

随后，使用不同大小的卷积核对文段的向量表示FFN(x)进行特征提取。

本发明中，在网络的设计上总共使用三组不同大小的卷积核每组各两个对潜藏在语义编码中的n元语法特征进行抽取，在卷积核的设计上，本发明使用其纵向维度为词向量维度的卷积核进行计算。

具体的，假设滤波器W^f∈R^k×s，其中k表示滤波器的窗尺寸大小，s是语义编码层中的词向量维度。对于在语义表示向量中的第i行到第i+k-1行的k元语法信息向量S_i:i+k-1，卷积操作所提取的第i个特征值y_i可以表示为：

其中f(x)为非线性激活函数，可以选择relu或sigmoid函数进行非线性变化，表示卷积操作，b为偏移量。且滤波器W^f和b中的参数在进行随机初始化后，在模型训练过程中依据反向传播算法进行参数的更新。假设此时语法信息向量S_i:i+k-1的维度为：k*s，则经过卷积操作得到一个具体的特征值，即为y_i，所以此时的b为一个具体的数值。

对于句子S，其可以被步长为1的卷积操作分割为S＝{X_1:k,X_2:k+1,…,X_n-k+1:n}，经过一个滤波器后得到句子的k元语法特征Y：

Y＝[y₁,y₂,y₃,…,y_n-k+1] (5)

式中，y_i表示卷积核在每一步操作后得到的结果，将所有步数的组合拼接组合得到Y。

然后将Y进行最大池化操作，得到k元语法的最优特征

式中，Y表示语法特征，maxpooling表示最大池化操作。例如Y中的数据最大值为y_i，则有

假设使用n个卷积核对潜藏的语法信息进行挖掘，则可得到n个语法特征信息，可表示为并将其与x向量进行横向拼接，最终得到句子对的语义语法信息F：

式中，t为cls向量经过维度转化后的低维向量，表示第i个卷积滤波器从句子对信息中提取到的第i个最优特征。

4、语义关联层

首先，直接使用分类的方法，对答案和问题的相关联程度进行评分。

具体的，其计算公式如(8)：

P＝softmax(FW^T+b) (8)

且W^T和b在模型开始计算时进行随机初始化，然后在训练过程中进行调优，调优过程依赖反向传播和梯度下降算法。

例如：得到的语义语法信息F＝[f₁,f₂,…,f_n]，经过参数调优后的b＝[b₁,b₂]，FW^T+b计算得到一个二维的向量，表示为：[r₁,r₂]，最后经过softmax函数得到：

经过语义关联层的计算后，得到的P为二维向量，其每个维度表示问题与答案的语义不相关或者相关程度。

然后，选取后一维度的数值表示句子对的语义关联得分，得到关联度，并将关联度记为 P_TRUE。

在传统的句子匹配模型中，语义关联度的评分大多数使用余弦相似度进行评分。在本发明中，由于答案使用标签0,1表示其与问题的关联性，选取后一维度的数值表示句子对的语义关联得分，并将关联度记为P_TRUE。

具体的，其数学表示如式(9)。

P_TRUE＝P(C＝1|X,Y) (9)

式(9)中，P为上一步中经过计算得到的二维向量，X表示问题与答案不相关概率，Y表示问题与答案相关概率。

例如：上面计算得到的在P(C＝1|X,Y)中C表示选取纬度为1的数据值，即使用Y表示句子关联度，即有：和最后得到

在本发明的此模型中，直接使用分类的思想对其语义相关性进行数值上的打分，通过关注问题和答案之间的语义相关性，对模型进行参数的调节和特征的学习。

实验例

为了验证本发明的一种基于语义联合的答案选取方法(ASMSU模型)的有效性，本发明选择在英文问答数据Wiki-QA和TREC-QA数据集上进行实验，并对实验过程中对参数和实验结果进行记录。

在损失函数的选取上交叉熵损失函数进行计算，其计算方法如式(10)所示。

loss＝-ylog(y)-(1-y)log(1-y)(10)

其中y表示模型预测的正向得分，y表示正向样本分数。实验中通过反向传播和梯度更新算法，对网络中的参数进行更新，最后得到答案选取模型。

数据集简介

本发明在实验过程中使用Wiki-QA和TREC-QA数据集进行实验，Wiki-QA语料库是一份公开的问题和句子对集，这份数据集搜集的问题和回答的语料主要用于在开放领域中问答任务的研究。在数据中，每个问题的答案都链接到一个维基百科的页面。同时每个问题答案都使用0或1进行标注。为了减少干扰，将没有正确答案的问题删除，并对信息进行统计。研究过程中使用的Wiki-QA和TREC-QA数据信息如表1、表2所示。Q为问题的个数，A为答案的个数，q-len为问题的平均长度，a-len为答案的平均长度，pos为正确答案个数的比例。

表1 Wiki-QA数据信息

表2 TREC-QA数据信息

从表中可以看出，在Wiki-QA数据集中，同时正确答案占比在10％左右，正确答案的占比较少。TREC-QA数据集中，在各个数据集中与问题相关的答案占比分差异较大，且数据集的问题数量较Wiki-QA少。

评价标准

在本实验中主要用MAP指标进行对模型的性能进行评价，同时使用借助准确率ACC和 MRR进行辅助评价，对于本排序任务中的ACC，计算公式如下所示。

其中C表示对于所有问题，正确答案排在第一的问题的个数；N表示问题总数。

MAP(Mean Average Precision)，该指标反映的是检索任务中，检索到的内容与输入问题的相关程度的大小，MAP与检索系统的准确率和精确度成正比。在本答案排序任务中的均值AP(Average Precision)是对每一个问题答案的排序情况求均值。AP和MAP的数学表达式如(12)、(13)所示。

其中，rank_j为第j个正确答案的排序，k为问题的正确答案总数。

式中i表示问题和对应的答案的组合；n为问题总个数，x表示数的平均值。

MRR(Mean Reciprocal Rank)，表示在一个问题中对它的所有的答案进行排序后，问题对应的第一个正确答案所在的排名名次取倒数作为这一个问题的指标得分，然后在对所有的问题通过这个计算方法求平均就得到了模型对整个排序任务的MRR值。MRR的计算公式如下。

式中，n表示问题个数，rank_i为第i问题中第一个正确答案排名。

实验方案与参数

实验使用tensorflow深度学习框架在2核4g的GPU(NVIDIA Tesla)上进行模型的调试和计算。经过多次对比实验和消融实验^[19]，模型的可调参数最终确定如表3所示。

表3可调参数表

由于使用微调学习策略进行研究，根据先前工作和适应计算需求，学习率设置较小； kernel-size设有三种大小，每种为kernel-num＝64；Batch-size设置为8和10.

实验对比模型

本发明要在评价指标MAP上进行对比，在不借助大型辅助语料的情况下进行模型之间的对比，主要对比模型如下：

Com-Clip+LM+LC，该模型通过潜在聚合的方式挖掘问题与答案之间的潜藏信息，以实现对问题和答案的高效编码，从而实现答案的选取。

MSAAS-with-KISI，此模型使用循环神经网络对问题和答案进行语义表示，然后通过多重注意力机制的引入和问题与答案关键信息的抽取，巧妙地解决了句子在语义表征过程中的信息弥散，并使用余弦公式计算加权后的问题和答案的相似度，取得了不错的效果。

BERT-Attention，此模型使用BERT模型对问题和答案进行语义表征，然后在下游引入 attention机制进行信息交互，最后计算问题和答案之间的相关度。

BERT-B FT，此模型借助BERT的强大编码能力，采用微调的方式，对问题和候选答案的级联进行语义编码和特征的学习，然后通过全连接层对答案的相关性进行打分。

HAS，此模型的设计原理与BERT-Attention较为相似，但是引入了hash机制进行数据的存储，提高了模型的计算效率，减少时间开销。

RE2，其主要研究序列对其的关键特征的选取，构建各种对其特征，从而实现最佳答案的选取。

BERT-LSTM with attention，该模型使用BERT进行问题和答案向量的语义建模，然后通过引入LSTM网络和attention机制对答案和问题进行特征学习，最后通过相似度计算得到语义关联度。

BERT+GSAMN+TF，将BERT的强大语义编码能力和门控自注意力机制结合，并使用迁移学习的思想进行答案选取任务建模，计算问题与答案之间的关联度。

实验结果与分析

本发明在Wiki-QA和TREC-QA数据集上进行实验，为了探究各个参数对实验结果的影响，设计了大量的对比实验，用以确定最优参数值。

实验结果分析

各个数据集已经规范划分，因而表中其他模型的数据均来自相关论文。Wiki-QA的测试集的实验结果如表4所示，TREC-QA数据的实验结果如表5所示。

表4 Wiki-QA实验结果对比

表5 TREC-QA实验结果对比

从表中可以看出，本发明提出的ASMSU模型在任务数据集上表现优越，较同类模型在上述三个指标上均有明显的提升。在Wiki-QA数据集上，经过多次消融实验和最优参数配比，其MAP值在83.81％，较同类模型使用相似度匹配的方法高出5％左右，比BERT-BASE高出2.5％。在TREC-QA数据集中表现十分亮眼，MAP值可达93％。

实验中，为了探究特征提取过程中cls向量和kernel-size大小组合对实验结果的影响，设计了大量消融实验进行探究。

为了对kernel-size组合进行探讨，设计多组实验并对实验结果进行记录，结果如图4、5、6、7，实验结果为平均值。其中，图4kernel-size对Wiki-QA的影响；图5为语义联合在Wiki-QA 上的结果；图6为kernel-size对TREC-QA的影响；图7为语义联合在TREC-QA上的结果。

在实验中，选取5组卷积滤波器，每组各三种，每种64个卷积核，对问答语义向量进行 n元语法信息提取。从图4和图6中可以看出，在Wiki-QA数据集上只进行n元语法信息提取时，kernel-size组合为(5,6,7)时，实验效果最为理想，MRR值在0.8以上；在TREC-QA 数据集上，仅对语法信息进行提取时，各个卷积组合的实验差距较为细微，但MAP值确能非常轻易达到0.8以上。出现这种情况，是因为在TREC-QA数据的测试集中，正确答案所占的比例高达20％，模型能够更好的对正确答案进行预测与排序，因而实验效果较为理想。

比较图4和图5的实验结果，使用卷积滤波器对问答矩阵进行n元语法信息提取能够显著的提升答案选取效果，在Wiki-QA数据集上使用cls向量与kernel-size为(3,4,5)的卷积滤波器组合的效果提升最为显著，在ACC指标上可突破75％，同时MAP为83.81％，MRR值突破85％。虽然在kernel-size为(6,7,8)时，实验结果有上升的趋势，但在兼顾计算量和网络复杂度的情况下，最终确定kernel-size为(3,4,5)是Wiki-QA数据集上的最优参数配置；在TREC-QA 数据集中，实验效果较为理想，使用cls向量与kernel-size为(2,3,4)的卷积滤波器效果最好， MRR值突破0.96，且在其他两个指标上也为各个组合的最优值，但在kernel-size为(3,4,5) 时，出现明显的性能下降，其原因有：TREC-QA数据集语法信息较为集中，导致学习到模型学到扰动特征，影响模型的答案选取效果。

模型性能分析

为了探究模型在具体问题上的答案选取效果，与各答案之间的评分差异，选择数据集中的单个问题和答案进行分析，问题与候选答案集如图8所示：

图8中，只有答案6为正确答案，在使用本模型进行问答对的语义关联度评分时，各个答案的得分为：0.140,0.351,0.210,0.022,0.234,0.601。从评分中可以看出，答案6的分值最高，且错误答案的得分较正确答案低0.2左右，模型对答案正误有较好的区分能力，这也进一步的证明了本发明提出的模型的有效性，对答案选取任务具有非常良好的效果。

为了查看模型对问题和答案中关键词的关联度信息，将模型的中间层输出以二维数组的格式进行展示，效果如图9所示。

图中，横纵坐标都是问题和答案的词语，同时颜色越浅表示词语之间的相关联程度越高。从图中可以注意到此模型在进行答案选择任务时，可以关注到对问题回答有效的答案词语。对于问题中的词语how，正常的回答思路应该关注方法方式类的词语，从图中可以看出，其与by、work等词的关联度较高，这也印证了本发明的模型在问题答案关键信息的强大语义联合能力。

同时为了探究卷积滤波器对n元语法特征的提取能力，对上一个问答句进行特征贡献度可视化，其2元、3元、4元语法特征的的贡献度分别如图10、11、12所示。其中，图10为2-gram可视化，图11为3-gram可视化，图12为4-gram可视化。

对于句子起始位置的贡献度，将其设置为0，同时由于在参数的设计过程中，每组卷积滤波器都有多个卷积核，因而在贡献度的可视化上，使用对后续特征提取器有效的数据进行可视化展示，上图中，从当前词所对应的特征颜色即为最近的n元语法特征贡献度。选取的语法单位越少，其贡献度越密集。

本发明从语义理解的角度提出了一套答案选取任务的解决思路，并在实验中探究了各个模型层的特征关注能力。经过实验证明该方法切实可行，借助该模型的强大特征提取能力，能够对问答对的语义特征进行抽取，用于关联度评分。从实验结果中可以看出，本发明的方法在各种问答数据集上表现出优越的性能，在不使用辅助语料和单模型的情况下，各个评价指标能够领先于现有同类别模型，且模型提取答案与问题关键信息的能力显著。在模型设计中，通过语法信息的提取，增加了句子的语义表征信息，强化了模型的学习能力。

现有的答案选取算法无法从语义理解的角度出发，导致问答系统表现力差、检索能力低下。为解决现有答案选取模型中存在的问题，本文将从语义理解的角度出发，通过关注问题与答案的语义关联度对候选答案进行排序，为构建答案选取模型提供新的解决思路。

借助预训练模型的语义表征能力对句子进行语义映射，并使用卷积神经网络，抽取n元语法信息用于语义关联度计算。

实验证明，在不借助相似语料微调和单一模型的情况下，本发明提出的方法模型高于已知同类方法模型，在Wiki-QA和TREC-QA数据集上，MAP值分别为83.8％和93.8％。

Claims

1.一种基于语义联合的答案选取方法，其特征在于：包括文本预处理与输入层、语义编码层、特征提取层和语义关联层；

将语义向量输入向前传播层，得到文段的向量表示；

选取后一维度的数值表示句子对的语义关联得分，得到关联度；

其中，获取语义编码层的向量表示，作为问题和答案的部分语义信息，使用线性函数将高维向量转化为低维向量的方法为，

t＝relu([cls]W^T+b)

式中函数选取relu作为激活函数，其表达式为：relu(t)＝max(0,t)，W^T为权重矩阵，b为偏移量；

权重矩阵和偏移量在训练时，根据反向传播算法进行数值更新；

其中，使用不同大小的卷积核对文段的向量表示FFN(x)进行特征提取的方法为，

Y＝[y₁,y₂,y₃,…,y_n-k+1]

然后将Y进行最大池化操作，得到k元语法的最优特征

式中，Y表示语法特征，maxpooling表示最大池化操作；

经过以上特征提取后，即获得融合问答对信息的向量x和k元语法的最优特征

设使用n个卷积核对潜藏的语法信息进行挖掘，则得到n个语法特征信息，表示为并将其与x向量进行横向拼接，最终得到句子对的语义语法信息F：

式中，t为cls向量经过维度转化后的低维向量，为第i个卷积滤波器从句子对信息中提取到的第i个最优特征；

其中，直接使用分类的方法，对答案和问题的相关联程度进行评分的方法为，其计算公式为，P＝softmax(FW^T+b)

所述的P为二维向量，其每个维度表示问题与答案的语义不相关或者相关程度；

其中，选取后一维度的数值表示句子对的语义关联得分，得到关联度的方法为，

将关联度记计为P_true，

P_true＝P(C＝1|X,Y)

其中，P为上一步中经过计算得到的二维向量，X表示问题与答案不相关概率，Y表示问题与答案相关概率，C表示选取纬度为1的数据值。

2.根据权利要求1所述的基于语义联合的答案选取方法，其特征在于：对原始文本的数据进行预处理，将没有正确答案的问题删除的方法为，

3.根据权利要求1或2所述的基于语义联合的答案选取方法，其特征在于：将文本预处理与输入层的格式数组输入，通过自注意力机制使每一个单词都成为隐藏文段中其他单词信息的语义向量的方法为：

其中，d_k为文段的最大长度；softmax为非线性变化函数；

4.根据权利要求3所述的基于语义联合的答案选取方法，其特征在于：自注意机制使用8个多头注意力搭建，使用8个不同的Q，K，V矩阵进行计算，将得到的8个向量进行拼接，并使用一个权重矩阵与得到的拼接向量相乘，最后得到所有单词对应的自注意力加权向量，此向量使用x表示。

5.根据权利要求4所述的基于语义联合的答案选取方法，其特征在于：将语义向量输入向前传播层，得到文段的向量表示的方法为，

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

上述参数依据梯度下降算法和反向传播算法进行数值的更新。

6.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至5任一所述的基于语义联合的答案选取方法。