CN111597316A

CN111597316A - 融合语义与问题关键信息的多阶段注意力答案选取方法

Info

Publication number: CN111597316A
Application number: CN202010409957.7A
Authority: CN
Inventors: 张仰森; 王胜; 黄改娟
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-28
Anticipated expiration: 2040-05-15
Also published as: CN111597316B

Abstract

本发明公开了融合语义与问题关键信息的多阶段注意力答案选取方法，该方法包括两个阶段，第一阶段为：获取候选答案LSTM双向输出的语义表示，利用问题的关键信息对候选答案的语义表示进行注意力加权更新，将加权更新后的候选答案语义表示与问题的语义表示进行相关度计算，筛选出相关度最高的候选答案；第二阶段为：获取筛选出的候选答案LSTM双向输出的语义表示，利用问题的语义信息对候选答案的语义表示进行注意力加权更新，将加权更新后的候选答案语义表示再次与问题的语义表示进行相关度计算，从候选答案中选取最佳答案。本发明可加强模型对候选答案关键信息的捕获能力，从而提升答案选取的准确率。

Description

融合语义与问题关键信息的多阶段注意力答案选取方法

技术领域

本发明属于自动问答技术领域，具体涉及融合语义与问题关键信息的多阶段注意力答案选取方法。

背景技术

随着互联网技术的快速发展，网络中的文本信息量呈指数级增长，成为了人们获取信息的重要来源，因此，利用搜索引擎从海量信息中检索出所需的信息成为了人们获取信息的主要方式。然而，现有的搜索引擎的检索策略大多是基于字符串匹配的，缺乏从语义角度挖掘知识的能力，导致搜索到的结果精度差，冗余度高，还需要用户从大规模搜索结果中进一步理解和筛选才能够获取到真正需要的信息，这与用户快速准确获得信息的需求还有一定的差距。随着文本处理与理解技术的快速发展和广泛应用，能够更好的满足用户需要的智能问答技术也逐步成熟，并催生了一批智能助手的问世，与传统的搜索引擎相比，智能助手更贴近用户的实际需求，他们都力求从语义层面分析用户的问题，精准定位用户的意图，从而快速、有效、准确地为用户提供所需的信息。

当给定一个问题时，自动问答系统一般的处理流程如下：首先，分析问题以获取问题的类型、语义等相关信息；然后，依据分析结果在数据集中筛选出候选答案集合；最后，在候选集合中采用各种排序技术进行重排，筛选出最佳答案或含有最佳答案的文本返回给用户。因此，最佳答案的选取效果将直接影响到自动问答系统的整体性能，优化最佳答案的选取策略可以有效的提升自动问答系统为用户服务的能力。

传统的答案选取模型大多利用词法或句法分析以及人工构造特征的方法来选取答案，这类方法较难捕捉到问题与候选答案之间的语义关联信息。随着深度学习技术的发展，研究学者们将深度学习框架引入到答案选取任务中来，利用神经网络模型获取问题和候选答案的语义关联信息，并对它们之间的匹配关联程度进行评估，进而选取匹配关系最强的答案作为最佳答案。由于答案的选取，完全依赖于问题所传递的信息，因此在基于深度学习的答案选取模型中，研究者们往往会利用问题的语义信息生成注意力向量，以此来更新候选答案的语义表示，优化问题与候选答案之间匹配关系的评估效果。这类引入注意力的模型虽然能够强化问题与候选答案之间语义关联的程度，但是在一定程度上忽略了两者之间关键信息的联系，从而影响其问题和答案的建模效果。因为对于不同类型的问题，其最佳答案中关注的内容往往有所不同，例如询问时间相关的问题时，其最佳答案表示中应更注重于表示时间的关键信息或者与时间语义关联较强的信息；询问天气相关的问题时，其最佳答案应更注重于表示天气相关的关键信息或者与天气关联较强的信息。另外，现有的基于注意力的答案选取模型往往将问题和答案的建模放在同一阶段进行，这对从多个候选答案选取一个最佳答案的答案选取任务来说，不容易捕捉到答案相互之间的差异。

发明内容

针对背景技术中指出的问题，本发明在语义注意力的基础上，提出了融合语义与问题关键信息的多阶段注意力答案选取方法，本发明分阶段地将问题的关键信息和问题的语义信息以注意力机制的方式对候选答案进行信息增强，以增加对候选答案中的关键信息的捕获能力，解决在问题和答案的建模过程中，对候选答案关键信息捕获不足的问题，以此来提升答案的选取效果。

本发明提供的融合语义与问题关键信息的多阶段注意力答案选取方法，包括第一阶段和第二阶段；

所述第一阶段包括：

获取候选答案LSTM双向输出的语义表示，利用问题的关键信息对候选答案的语义表示进行注意力加权更新，通过将加权更新后的语义表示与问题的语义表示进行相关度计算，从n个候选答案中筛选出相关度最高的k个候选答案；

所述问题的关键信息包括问题的类型信息和中心词信息；

所述利用问题的关键信息对候选答案的语义表示进行注意力加权更新为：仅利用类型信息进行注意力加权更新、仅利用中心词信息进行注意力加权更新、或结合类型信息和中心词信息进行注意力加权更新；

利用类型信息进行注意力加权更新具体为：

人工分析总结问题的类型以及各类型问题的特征和最佳答案的常见类型；

分别构建各类型问题的表示向量v_QT，利用v_QT对候选答案的语义表示进行注意力加权更新；

利用中心词信息进行注意力加权更新具体为：

利用依存句法分析获取问题的中心词集，将中心词集对应的词向量集合的向量表示作为中心词的注意力向量v_QW＝{s₁,s₂,…,s_l}；

将集合v_QW中每个词向量分别和候选答案语义表示进行相似度计算，利用最大的相似度对候选答案语义表示进行注意力加权更新；

结合类型信息和中心词信息进行注意力加权更新具体为：

在语义信息抽取层，利用v_QT与v_QW分别从基于类型注意力和问题中心词注意力，同时对候选答案的Bi-LSTM的隐藏节点的输出进行更新；之后经抽取得到添加了多维注意力的候选答案的语义表示；

所述第二阶段包括：

获取筛选出的k个候选答案LSTM双向输出的语义表示，利用问题的语义信息r_Q对该k个候选答案的语义表示进行注意力加权更新，将加权更新后的候选答案语义表示再次与问题的语义表示进行相关度计算，从k个候选答案中选取最佳答案。

进一步的，第一阶段中，利用v_QT对候选答案语义表示进行注意力加权更新的公式为

其中，weight_i2为v_QT对候选答案LSTM输出每一时刻的语义编码

的关注权重，

进一步的，第一阶段中，利用v_QW对候选答案语义表示进行注意力加权更新的公式为

其中，weight_i3为所计算出的最大的相似度。

进一步的，第二阶段中的注意力加权更新公式为

其中，weight_i1为r_Q对

的关注权重，

为LSTM双向输出每一时刻候选答案的语义编码。

本发明具有如下特点和有益效果：

(1)本发明在语义信息的基础上，融入问题关键信息，以提升候选答案中关键信息的捕获能力，优化候选答案的语义表示，从而更加全面的捕捉问题与候选答案之间的关联关系，以此来提升答案选取的准确率。

(2)本发明将问题语义信息和问题关键信息分为多个阶段对候选答案进行信息增强，以此来加强模型对候选答案关键信息的捕获能力，提升类似答案之间差异的判断能力。

附图说明

图1为已有的答案选取基础模型；

图2为本发明中问题语义信息注意力的信息增强模型框架；

图3为问句的依存句法分析示例；

图4为本发明融合语义信息与问题关键信息的多阶段注意力答案选取模型框架；

图5为实施例中InsuranceQA问题类型分布情况；

图6为实施例中TREC-QA问题类型分布情况；

图7为实施例中InsuranceQA问题语义和关键信息注意力性能对比图；

图8为实施例中TREC-QA问题语义和关键信息注意力性能对比图；

图9为实施例中问题1最佳候选答案语义表示词语的权重分布；

图10为实施例中问题1非最佳候选答案语义表示词语的权重分布；

图11为实施例中问题2最佳候选答案语义表示词语的权重分布；

图12为实施例中问题2非最佳候选答案语义表示词语的权重分布；

图13为实施例中问题2非最佳候选答案语义表示词语的权重分布；

图14～15为实施例中的对比实验结果示意图。

具体实施方式

为便于理解本发明技术原理、技术方案及技术效果，下面将对本发明相关技术背景、所涉及的相关理论、以及技术方案的具体实施方式做进一步描述。

一、相关技术背景介绍

(一)答案选取

答案选取是自动问答技术的关键技术之一，针对自动问答技术中的答案选取问题，以往的研究者们通常将其视为分类任务和相似度计算任务两种类型的问题进行解决。基于分类的答案选取任务是依据问题与候选答案之间的关联关系，将候选答案分到正确或错误类别，将正确类别中的答案作为最佳答案。基于相似度计算的答案选取任务是通过计算问题与候选答案之间的相似度，选取相似度最高的答案作为最佳答案。为了能够有效提升答案选取的效果，大多研究学者都致力于研究问题与候选答案之间相关关系的表示上，主要的研究工作可分为两个阶段：第一阶段是基于语言学知识和特征工程的答案选取方法，第二阶段是基于深度学习的答案选取方法。

虽然已有的答案选取方法已将词频、词语相似度等词级别的特征引入到了候选答案的语义表示中，但是对于候选答案中的关键信息以及问题与候选答案之间的关联关系的捕捉能力有限。因此本发明在语义信息的基础上，融入问题关键信息，以提升候选答案中关键信息的捕获能力，优化候选答案的语义表示，从而更加全面的捕捉问题与候选答案之间的关联关系，以此来提升答案选取的准确率。

(二)注意力机制

注意力机制可以抽象为针对性的提高数据中特定位置的关注度，注意力机制最早被应用于图像领域，用以关注重点区域的重点信息。现有注意力机制在答案选取任务中的运用大多采用问题的信息对答案进行注意力增强，从而将问题和答案的建模放在同一阶段进行，这不利于从多个维度对候选答案的关键信息进行捕获，从而导致对于多个候选答案之间差异性的捕获能力有限。因此，本发明将问题语义信息和问题关键信息分为多个阶段对候选答案进行信息增强，以此来加强模型对候选答案关键信息的捕获能力，提升类似答案之间差异的判断能力。

二、技术方案

答案选取过程可形式化为：给定问题Q，存在相应的候选答案集合{A₁,A₂,…,A_n}，在候选答案集合中寻找与问题Q最匹配的答案，即最佳答案A_best(1≤best≤n)，其中，best为最佳答案在候选答案集合中的编号，t为候选答案的个数。本发明答案选取方法包括两个部分：问题与候选答案的相关度计算，以及最佳答案的选取。对于问题与候选答案的相关度计算部分，在问题语义信息关联关系的基础上引入问题关键信息，包括问题类型和问题中心词两个维度的信息，构建了一种融合语义信息与问题关键信息的多阶段注意力答案选取模型；对于问题最佳答案的选取，利用问题与候选答案之间的相关度，选出相关度最高的答案作为最佳答案，其中相关度是问题和候选答案的语义编码向量的余弦相似度。

下面将描述该技术方案的具体实现过程。

(一)答案选取基础模型

参见图1，所示为答案选取基础模型的主要架构，其中Q和A分别表示问题和候选答案，该架构也为现有模型架构，其主要由问题与候选答案的语义表示层、语义抽象层和相关度计算层组成。

语义表示层中，利用问题和候选答案所包含词语信息的词向量，分别对问题和候选答案进行语义表示，得到问题的语义表示

和候选答案的语义表示

其中，n_Q和n_A分别为问题和候选答案的词语个数，q_x为问题的第x个词语的词向量，a_y为候选答案的第y个词语的词向量，词向量的维度记为d。

语义抽取层中，采用Bi-LSTM+Pooling对输入的问题和候选答案的语义表示的上下文进行语义编码，得到编码后的语义表示r_Q和r_A，r_Q和r_A分别编码后的表示问题和候选答案的语义表示。

相关度计算层中，利用余弦相似度计算问题和答案的语义表示r_Q和r_A之间的相似度S_QA，S_QA作为问题和答案的相关程度的度量。

(二)基于问题语义信息注意力的信息增强模型

从语义表示层和语义抽象层，可获问题的语义表示向量r_Q，这一向量较全面的包含了问题的上下文语义信息，本发明利用问题的语义表示，采用注意力机制，对候选答案的语义信息进行增强，使得候选答案中与问题相关度较高的部分所占权重更高，以此来构建候选答案针对当前问题Q的表示，提升候选答案与问题语义相关性。

本发明的基于问题语义信息注意力的信息增强模型的框架如图2所示。该信息增强主要利用问题的语义信息r_Q对候选答案的LSTM输出进行注意力加权更新，强化候选答案中与问题有关的部分。在LSTM中，对每一时刻节点的正向输出

与反向输出

进行拼接，得到语义编码

同时包含当前时刻i的上文信息与下文信息。组合各个LSTM各个时刻的输出，得到问题的语义编码矩阵

M_Q为m行n列矩阵，h表示行，d表示列，行表示法经过转置成为列表示法，

表示第n行，

表示第m列，对问题的语义编码矩阵进行压缩，得到问题的语义信息r_Q，如公式(1)所示。

其中，n表示LSTM展开的时间步数，m为LSTM隐藏单元个数的2倍。

同理将答案的每一时刻的LSTM正向和反向输出拼接得到每一时刻的候选答案的语义编码

将r_Q与

进行余弦相似度计算，将该值作为r_Q对

的关注权重weight_i1，计算公式如公式(2)所示。

利用weight_i1对答案经过LSTM后的每一时刻的语义编码

进行加权更新，如公式(3)所示。

(三)基于问题关键信息注意力的信息增强模型

本发明采用问题的类型和问题的中心词作为问题的关键信息，利用注意力机制对候选答案进行信息增强，具体如下：

(1)基于问题类型的关键信息注意力

问题类型对候选答案的选取有十分重要的指导作用，对待同一个候选答案，不同类型的问题对候选答案中的关注点有所不同。例如，当提问“When do an auto insurancepremium go up？”时，候选答案中希望更加关注于“next renewal period”和“monthlyquarterly semiannually annually”等表示时间的词语；当提问“Which factors affectthe auto insurance premium？”时，候选答案会更希望关注于“activity or claimticket and accident”等表示实物的词语。

本发明对数据集中问题的类型和其最佳答案进行了的分析，总结了7种类型的问题以及该类型问题的特征和最佳答案的常见类型，如表1所示。

表1问题的类型、特征及答案常见类型

不同类型的问题对候选答案中关注的部分有所不同，参照语义信息增强的方法，提取问题的类型，构建类型的表示，作为一种注意力向量，引入到候选答案的语义信息表示中。具体来说，为每一种问题类型分别设定一个表示向量v_QT，即在模型初始化时为每个类型初始化一个向量作为类型对应的embedding层，随着模型的训练即可获得该问题对应的类型信息v_QT。利用v_QT为候选答案各个隐藏节点的输出信息分配权重，所分配权重记为weight_i2，采用和图2中类似的方式进行加权更新。

v_QT对候选答案的LSTM输出的语义编码

的关注权重weight_i2的计算见式(4)：

利用weight_i2对候选答案的LSTM输出的语义编码

进行加权更新，加权更新后的

记为

(2)基于问题中心词的关键信息注意力

当候选答案中存在多个与问题类型相关的部分时，仅采用问题类型进行关键词增强很难进行区分，针对该问题，本发明通过引入问题中心词的概念，以此来加大候选答案文本中与问题主题相关的词语所占的权重，同时减小不相关的词语所占的权重。

本发明将问句中能够反映句子主要信息的名词或动词作为问题的中心词。例如问句“Does life insurance require a credit check？”，它所表达的信息主要由“require”、“life insurance”和“credit check”体现；问句“When do an auto insurancepremium go up？”，它所表达的信息则主要由“go up”、“auto insurance premium”体现。

对于问题的中心词，可以利用依存句法分析来获取，如问句“How do I apply forMedicare in Texas？”，通过依存句法分析，可得到如图3所示的结果，“apply”为主要动词，则提取“apply”作为问题的主要动词word_V。如果word_V的主语或宾语为名词或名词短语时，提取主语和宾语作为主要名词word_N，word_N的个数可能为多个。如在图3中，“apply”的主语为“I”、宾语为“Medicare”，因为主语“I”为人称代词，不是名词或名词短语，故不将其作为主要名词，而宾语“Medicare”为名词，故将其作为主要名词，同时“Texas”又作为名词修饰“Medicare”因此，“Texas”也作为主要名词。所以，图3问句中的中心词集合为{apply，Medicare，Texas}，其中，中心动词word_V为apply，中心名词word_N为{Medicare，Texas}。

在得到问题的中心词后，将中心词对应的词向量集合的向量表示作为中心词的注意力向量v_QW＝{s₁,s₂,…,s_l}，其中，l为问句中心词的个数，采用v_QW对候选答案正向LSTM的输出

和反向LSTM的输出

拼接后的输出h_ai进行加权更新。具体来说，将集合v_QW中的每个词向量分别和

进行相似度计算，然后将其中的最大值作为问题中心词的注意力向量在h_t上的权重表示v_t，计算方法如公式(6)所示。

利用v_t对h_t进行加权更新，得到加权更新后的h_t'，也即t时刻h_t的表示。采用同样的方式依次对候选答案的每一时刻的表示进行加权更新，即可得到候选答案基于问题中心词注意力的信息增强表示。

(四)融合语义信息与问题关键信息的注意力答案选取模型

为了充分利用问题的语义信息和关键信息对候选答案进行信息增强，本发明构建了融合语义信息与问题关键信息的多阶段注意力答案选取模型，具体来说，主要利用问题的相关信息，采用注意力机制，分为两个阶段对候选答案进行信息增强。首先采用问题的关键信息，包括问题的类型信息和问题的中心词信息，利用注意力机制，对候选答案的语义表示进行问题关键信息增强，构建候选答案针对当前问题关键信息的语义表示，并与问题的语义表示进行相关度计算，从n个候选答案中选取k个候选答案，重复实验比较k的取值对结果的影响，选取最高准确率对应的k值，本具体实施方式中，得到k取8时达到最高的准确率；然后，采用问题的语义信息，再次利用注意力机制对k个候选答案进行语义信息增强，再一次构建候选答案针对当前问题语义信息的语义表示，并与问题的语义表示进行相关度计算，选取问题的最佳答案。具体模型框架如图4所示。

在对问题的语义表示和候选答案的语义表示进行相关度计算时，采用余弦相似度的方法，作为两者之间的相关度S_QA。

答案选取模型期望达到的效果是：当模型的输入为问题的最佳答案时，S_QA应该尽可能大；当模型输入为问题的非最佳答案时，S_QA应该尽可能小。因此，在对模型训练过程中，每一轮同时输入问题Q、最佳答案A⁺和非最佳答案A^-，然后分别计算问题与最佳答案的相关度

和问题与非最佳答案的相关度

因此，采用如公式(7)所示的Hinge Loss函数作为损失函数对模型进行训练。

其中，mar为A⁺与A^-与问题之间差距。

当二者的差值小于m时，此时的A⁺的表示并不能满足要求，需要通过网络来更新参数，只有二者的差值大于等于m的时候，当前{Q,A⁺,A^-}的表示才满足要求。

对于非最佳答案A^-的选取，为了提升模型的学习能力，在训练的过程中，选取全部问题的候选答案中除该问题最佳答案A⁺之外的最佳答案作为A^-的值，具体如公式(8)所示。

其中，n为训练数据集合中所有问题候选答案的总数。

基于前述，本发明融合语义信息与问题关键信息的多阶段注意力答案选取方法，该方法包括第一阶段和第二阶段；

所述第一阶段包括：获取候选答案LSTM双向输出的语义表示，利用问题的关键信息对候选答案的语义表示进行注意力加权更新，将加权更新后的候选答案语义表示与问题的语义表示进行相关度计算，从n个候选答案中筛选出相关度最高的k个候选答案；

所述问题的关键信息包括问题的类型信息和中心词信息；

所述利用问题的关键信息对候选答案的语义表示进行注意力加权更新为：

仅利用类型信息进行注意力加权更新、仅利用中心词信息进行注意力加权更新、或结合类型信息和中心词信息进行注意力加权更新；

利用类型信息进行注意力加权更新具体为：

利用中心词信息进行注意力加权更新具体为：

结合类型信息和中心词信息进行注意力加权更新具体为：在语义信息抽取层，利用v_QT与v_QW分别从基于类型注意力和问题中心词注意力，同时对候选答案的Bi-LSTM的隐藏节点的输出进行更新；之后经Polling得到添加了多维注意力的候选答案的语义表示；

所述第二阶段包括：

实施例

本实施例在InsuranceQA数据集和TREC-QA数据集上进行实验，以验证本发明方法的有效性。

(1)实验数据集

(a)InsuranceQA数据集

InsuranceQA数据集是一个来自保险领域的专业数据集，该数据集共包括四部分，分别为训练集、验证集、测试集1、测试集2，共有17487个问题和24981个答案，数据集的详细数量如表2所示，其中，Q-A为问题的平均长度，A-A为答案的平均长度。InsuranceQA数据集的评价指标采用最佳答案的准确率进行评价。

表2InsuranceQA问题与答案数量分布

	训练集	验证集	测试集1	测试集2
					问题	12 887	1 000	1 800	1 800
答案	18 540	1 454	2 616	2 593
					Q-A	7.15	7.16	7.16	7.17
A-A	95.61	95.54	95.54	95.54

除此之外，本实施例还对该数据集的问题类型分布进行统计，统计结果如图4所示，纵坐标为各类型所占的比例。从图中可以看出，在训练集、验证集、测试集1和测试集2中的问题类型分布基本一致，其中占比最高的为其他问句、占比最少的为地点问句。

(b)TREC-QA数据集

TREC-QA数据集的具体信息如表3，其中Question为问题，Pairs为问答对，Q-A为问题的平均长度，A-A为答案的平均长度。TRAIN为原始标注数据，TRAIN-ALL为训练集，CLEAN-DEV为测试集，CLEAN-TEST为验证集。

表3 TREC-QA问题与答案数量分布

	Question	Pairs	Q-A	A-A
					TRAIN	94	4718	11.3	24.6
TRAIN-ALL	1229	53417	8.3	27.7
					CLEAN-DEV	65	1117	8.0	24.9
CLEAN-TEST	68	1442	8.6	25.6

该测试数据中，一个问题通常对应多个正确答案与多个错误答案，需要尽可能将正确的答案排名靠前。因此，该数据集的性能评价指标采用MAP与MRR，其中MAP反映的是所有正确答案的平均得分，其计算公式(9)所示。

其中，Q表示问题集合，q表示Q中元素；N_Q表示问题的总数，P(q)表示正确答案排序位置的得分，ave(P(q))表示该问题对应所有正确答案排序位置的平均得分。MAP得分越高，则问题全部正确答案的排名越靠前，从而说明对应的系统性能越好。

MRR表示问题对应的第一个正确答案的平均得分，其计算公式(10)所示。

其中，Q表示问题集合，N_Q表示问题的总数，rank_q表示第一个正确答案的排名。MRR得分越高，则第一个结果越可能为正确答案。

除此之外，本实施例还对该数据集的问题的类型分布进行统计，统计结果如图5所示，从图中可以发现在TRAIN-ALL、CLEAN-DEV和CLEAN-TEST中的问题类型分布基本一致，其中占比最高的为实物问句、占比最少的为其他问句。

(2)实验对比模型

进行对比实验的模型包括：

Bag-of-Word(见参见文献：Feng M,Xiang B,Glass M R,et al.Applying deeplearning to answer selection:A study and an open task.Automatic SpeechRecognition and Understanding,IEEE,2016:813-820)：该模型采用问题和候选答案词语的IDF权重对词语的词向量进行加权求和，构建问题和候选答案的特征向量表示，采用余弦相似度计算问题和答案特征向量的相似度。该模型是采用传统方式进行答案选择的代表模型。

CNN with GESD(见参见文献：Feng M,Xiang B,Glass M R,et al.Applying deeplearning to answer selection:A study and an open task.Automatic SpeechRecognition and Understanding,IEEE,2016:813-820)：该模型使用CNN对问题和候选答案进行语义编码，构建问题和候选答案的特征向量表示，采用GESD替代余弦进行相似度计算，将相似度最高的候选答案作为最佳答案。该模型是较早利用深度学习模型进行答案选择的方法。

QA-LSTM with Attention(见参考文献：Tan M,Santos C D,Xiang B,etal.Improved representation learning for question answer matching.Meeting ofthe Association for Computational Linguistics.2016:464-473)该模型作为基础模型，首先提出对问题和答案进行单独编码，并尝试使用LSTM中最后一层、各层取平均、各层取最大值的方法，并尝试使用注意力的机制获得问题与答案的语义表示。

Attention based Bi-LSTM(见参考文献：Tan M,Santos C D,Xiang B,etal.Improved representation learning for question answer matching.Meeting ofthe Association for Computational Linguistics.2016:464-473)：该模型使用BiLSTM对问题和候选答案进行语义编码，然后将问题的语义作为注意力对候选答案的编码进行更新，最后使用余弦相似度进行相似度计算。该模型是较早利用Attention机制引入到答案选择的方法。

IARNN-Gate(见参考文献：Wang B,Liu K,Zhao J.Inner attention basedrecurrent neural networks for answer selection[C]//Proceedings of the 54thAnnual Meeting of the Association for Computational Linguistics(Volume 1:LongPapers).2016,1:1288-1297)：该模型是2019年新提出的模型，其将注意力信息加入到GRU的每个门函数中，构建了基于RNN的门控注意力单元，以此来构建问题和候选答案的特征向量表示，采用GESD进行相似度计算。

Multihop-Sequential-LSTM(见参考文献：Tran N K,Niedereée C.Multihopattention networks for question answer matching[C]//The 41st InternationalACM SIGIR Conference on Research&Development in Information Retrieval.ACM,2018:325-334)：该模型采用动态记忆网络(DMNS)的对问题和答案进行建模，采用了多种注意力机制，进行迭代的注意力操作构建问题和候选答案的特征向量表示，采用余弦相似度进行相似度计算。

iGGSA with Multihop-Seq-Att(见参考文献：Xu D,Ji J,Huang H,et al.GatedGroup Self-Attention for Answer Selection[J].arXiv preprint arXiv:1905.10720,2019)：该模型是2019年的新提出的模型，其采用门控自注意力组(GGSA)的方式对问题和答案进行建模，采用余弦相似度进行相似度计算。

Transformer with Hard Negatives(见参考文献：Kumar S,Mehta K,RasiwasiaN.Improving Answer Selection and Answer Triggering using Hard Negatives[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural LanguageProcessing and the 9th International Joint Conference on Natural LanguageProcessing(EMNLP-IJCNLP).2019:5913-5919：该模型对应的文献发表于EMNLP2019，其采用Transformer对问题和答案进行建模，并利用Hard Negatives的方式选取负例样本，采用余弦相似度进行相似度计算。

BERT-Attention(见参考文献：Xu D,Wu J.Hashing based Answer Selection[C]//Proceedings of the 2020Association for the Advancement of ArtificialIntelligence(AAAI).2020)：该模型对应的文献发表于AAAI2020，其采用BERT模型对问题和答案进行建模，并构建了基于问题语义的注意力机制，采用余弦相似度进行相似度计算。

本实施例采用深度学习框架PyTorch对相关模型进行编码实现，并在Ubuntu16.04系统上采用GPU(Tesla P100)进行模型的训练和调试。在实验过程中，采用词向量的维度大小为300，对于模型中各个参数的设置，本实施例采用Hyperopt库进行分布式参数调节，获取模型的最优参数集合，具体的选取结果为：隐藏层的维度为300，mini-batch的大小设置为16，优化函数采用Adam，学习率lr设置为0.001，对于InsuranceQA数据集，损失函数m设置为0.2，对于TREC-QA数据集，损失函数m设置为0.19。

(3)实验结果

按照相关数据集评测指标，本实施例分别对InsuranceQA数据集和TREC-QA数据集进行了实验分析，具体实验结果如表4和表5。其中，MSAAS with KI-SI表示本发明融合语义信息与问题关键信息的多阶段注意力答案选取模型，其中，MSAAS with KI-SI(type)表示第一阶段只采用问题类型作为问题关键信息进行信息增强，MSAAS with KI-SI(head)表示第一阶段只采用问题中心词作为问题关键信息进行信息增强，MSAAS with KI-SI(head+type)表示第一阶段同时采用问题类型和问题中心词作为问题关键信息进行信息增强。

表4 InsuranceQA数据集实验对比结果

模型	dev	test1	test2
				Bag-of-Word	31.90	32.10	32.20
CNN with GESD	65.40	65.30	61.00
				QA-LSTM with Attention	68.40	68.10	62.20
Attention based Bi-LSTM	68.90	69.0	64.80
				IARNN-Gate	70.00	70.10	62.80
Multihop-Sequential-LSTM	-	70.50	66.90
				iGGSA with Multihop-Seq-Att	-	74.47	71.40
Transformer with Hard Negatives	75.70	75.60	73.40
				BERT-Attention		76.12	74.12
MSAAS with KI-SI(type)	78.60	78.06	74.56
				MSAAS with KI-SI(head)	78.30	78.33	75.06
MSAAS with KI-SI(head+type)	78.70	77.78	74.72

其中，dev表示数据集中的验证集，test1表示测试集1，test2表示测试集2。

表5 TREC-QA数据集实验对比结果

模型	MAP	MRR
			QA-LSTM with Attention	72.79	82.40
Attention based Bi-LSTM	75.30	83.00
			IARNN-Gate	73.70	82.10
Multihop-Sequential-LSTM	81.30	89.30
			MSAAS with KI-SI(type)	80.04	90.32
MSAAS with KI-SI(head)	80.46	89.46
			MSAAS with KI-SI(head+type)	79.84	89.58

根据表4和表5发现，Bag-of-Word模型的效果最差，这是由于Bag-of-Word模型单纯的从词的角度分析，未考虑其他的特征；基于RNN或LSTM的模型(QA-LSTM withAttention、Attention based Bi-LSTM、IARNN-Gate、Multihop-Sequential-LSTM和iGGSAwith Multihop-Seq-Att)的效果优于基于CNN的模型(CNN with GESD)的效果，这是由于候选答案多为较长的句子(InsuranceQA数据集答案的平均长度为95，TREC-QA数据集答案平均长度为25)，CNN对长句的编码能力不如RNN，带来了一定的信息丢失所导致。从注意力的增加来看，添加了注意力机制的模型的效果要明显优于不添加注意力机制模型的效果；从注意力机制的添加方式来看，采用self-attention或者multi-head self-attention的模型(Multihop-Sequential-LSTM、iGGSA with Multihop-Seq-Att、Transformer with HardNegatives 模型)效果也要优于其他注意力添加方式；另外，基于BERT的模型(BERT-attention)，相比于以往的模型，取得了最佳的效果。

在InsuranceQA数据集中，本发明MSAAS with SIKI模型分阶段的融合了语义信息和问题关键信息两个维度的注意力，取得了最好的效果，证明了本发明模型的有效性。在TREC-QA数据集中，本发明MSAAS with KI-SI(type)模型在MRR指标上取得结果好于已知最好的模型，且MSAAS with KI-SI模型的性能都有所提升，也说明了本发明模型的有效性。对于MAP指标稍微偏低的原因可能是在TREC-QA数据集中，有少量问题的正确答案个数比较多，本文模型在进行分阶段筛选时，若第一阶段没有筛选到，则在计算MAP指标时作为较低的得分处理，从而导致MAP指标中的正确答案的平均得分偏低。

(a)问题语义和关键信息注意力性能分析

为了验证本发明模型问题语义注意力和问题关键信息注意力的引入对模型的性能的影响，本发明在InsuranceQA数据集和TREC-QA数据集上分别设置了六组对照实验，分别是基础模型(AS，即图1所示模型)、只采用问题关键信息对候选答案进行第一阶段注意力增强选出最佳答案的模型(SAAS with KI)、只采用问题语义信息对候选答案进行第一阶段注意力增强选出最佳答案的模型(SAAS with SI)和MSAAS with KI-SI模型。其中，SAASwith KI模型包括SAAS with KI(t)、SAAS with KI(h)和SAAS with KI(t&h)，分别对应问题的关键信息采用问题类型、问题中心词、同时采用问题类型和中心词。具体的实验结果如图7和图8所示，其中图7的纵坐标为准确率，图8的纵坐标为MAP指标与MRR指标对应的数值。

从图7和图8可以看出，对于InsuranceQA数据集和TREC-QA数据集，在基础模型上单独添加问题语义信息和问题关键信息的注意力对候选答案进行信息增强，相比于基础模型都有不同程度的性能提升，问题语义信息的注意力信息增强性能提升的程度要大问题关键信息，对于问题关键信息，问题类型信息的注意力信息增强性能提升的程度要大问题中心词；同时，在第一阶段添加问题关键信息的基础上，在第二阶段再次添加问题语义信息，性能也有一定程度的提升。这说明了，本发明所构建的问题语义信息和问题关键信息均对模型性能的提升是有帮助的。

另外，单独对比问题语义、问题类型、问题中心词三种注意力对模型相关的影响(见模型SAAS with KI(t)，SAAS with KI(h)，SAAS with SI的效果)，发现单独添加问题语义注意力对模型效果的提升最为明显，可能原因是问题的语义信息在一定程度上也包含了问题类型信息和问题的中心词信息，除此之外，还包含了一些其他信息，这也是在本发明中将语义信息添加在第二阶段的原因之一。

(b)问题语义和关键信息注意力可视化分析

添加问题的语义信息，可以让候选答案中与问题语义相关的词语权重加大，为了更进一步说明问题，本实施例从数据集中选取了一些问题和其候选答案，输出了其各个词语的权重表示，如在InsuranceQA数据集中，对于问题1：“can you borrow against globelife insurance？”，其最佳答案与相似度最高的非最佳答案的语义表示在经过问题语义注意力增强后的权重分布如图9和图10所示。

对于问题1，本实施例选取了两个答案，其与问题的相似度得分分别为0.4597、0.3353，选择得分最高的作为最佳答案。从图9和图10中可以看出，对于最佳候选答案，在其语义表示中，与问题语义相关的词语或者句子的权重要明显高于其他词语的权重，如首句“borrow against a life insurance policy require”，词语“borrow against”和“cashvalue”；而对于非最佳答案，其权重的分布相对比较分散，虽然也有一些词语权重较高，但是也都不是非常明显，且与问题的语义关联性不是太高。进一步证明了本发明问题语义信息注意力的有效性。

添加问题的关键信息，可以让候选答案中与问题关键信息相关的词语权重加大，更容易捕获候选答案中的关键信息，从而建立候选答案与问题的联系，同样，本实施例从数据集中选取了一些问题和其候选答案，输出了其各个词语的权重表示，如在InsuranceQA数据集中，对于问题2：“When be the first Life Insurance policy issue？”，其问题类型为时间类型的问句，抽取出的中心词集合为{first，Life Insurance policy，issue}，其最佳答案与非最佳答案的语义表示在经过问题关键信息注意力增强后的权重分布如图11、图12和图13所示。

对于问题二，选取三个答案，其与问题的相似度得分分别为0.4253、0.3083和-0.2554，选择得分最高的作为最佳答案，答案1直接对问题对应的产生时间及背景进行了阐述；而答案2虽然提到了时间信息，但在语义方面，讲述的是保险生效时间，与问题语义不符，故答案1表述的更为正确。

从图11、图12和图13中可以看出，对于最佳候选答案，在其语义表示中，“June 18,1583”、“1year”、“end”、“before”等与时间相关的词语和“life”、“insurance”、“policy”等与问题中心词语相关的词语的权重要明显高于其他词语的权重；而对于非最佳答案，其权重分布相对比较分散，这进一步证明了本发明问题关键信息注意力的有效性。

(c)多阶段注意力引入性能分析

为了验证模型将问题语义注意力和关键信息注意力分多个阶段引入对模型的性能的影响，本实施例在InsuranceQA数据集和TREC-QA数据集上分别设置了六组对照实验，分别是基础模型(AS)、SAAS with KISI、第一二阶段分别采用问题语义信息和问题关键信息进行注意力增强选出最佳答案的模型(MSAAS with SI-KI)和MSAAS with KI-SI模型。其中，MSAAS with SI-KI模型同样包括MSAAS with SI-KI(t)、MSAAS with SI-KI(h)和MSAASwith SI-KI(t&h)，分别对应问题的关键信息采用问题类型、问题中心词、同时采用问题类型和中心词。实验结果如图14和图15所示。

从图14和图15可以看出，对于InsuranceQA和TREC-QA数据集，相比与在同一阶段加入多种注意力(SAAS with SIKI)以及交换问题语义注意力和问题关键信息注意力的添加顺序(MSAAS with SI-KI)，本发明MSAAS with KI-SI模型性能均为最优，说明了本发明分阶段注意力的引入方式的有效性。

本发明多阶段注意力机制跟人在做答案选择任务时的方式是一致的，当人在做答案选取任务时，首先会阅读问题，然后以问题中的一些关键信息对候选答案进行初步的筛选，接着，以问题中的详细信息与初步筛选出来的答案进行进一步的对比，从而选出最佳答案。人类以关键信息进行初步筛选的过程就可以看作是MSAAS with KI-S模型第一阶段以问题关键信息进行信息增强筛选答案的过程；人类以问题中的详细信息进行进一步对比的过程就可以看作是MSAAS with KI-S模型第二阶段以问题语义信息进行信息增强筛选答案的过程，因此本发明模型与人进行该任务是的步骤大致吻合。

本发明提供的技术方案，不受上述实施例的限制，凡是利用本发明的结构和方式，经过变换和代换所形成的技术方案，都在本发明的保护范围内。