CN110941962A

CN110941962A - 基于图网络的答案句选择方法及装置

Info

Publication number: CN110941962A
Application number: CN201911173056.6A
Authority: CN
Inventors: 赵军; 张元哲; 刘康; 田志兴
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-03-31
Anticipated expiration: 2039-11-26
Also published as: CN110941962B

Abstract

本发明涉及自然语言处理技术领域，具体涉及一种基于图网络的答案句选择方法和装置。为了解决现有技术未考虑候选句之间的关联度导致答案选择错误的问题，本发明提出一种基于图网络的答案句选择方法，该方法包括对预先获取的多个第一句子，分别获取对应的第一向量；根据第一句子和第一向量构建多个第一句子的关系图；基于关系图以及第一向量，通过图网络获取第二向量，其中，图网络基于神经网络构建，第二向量为多个第一句子的上下文信息融合后的向量；基于第二向量，通过问答句预测器从第一句子中选择答案句，其中，问答句预测器用于获取第二向量对应的第一句子的预测分数。利用本发明的方法能够提高从候选句中选择正确答案的概率。

Description

基于图网络的答案句选择方法及装置

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于图网络的答案句选择方法及装置。

背景技术

随着社会的发展、科技的进步，人工智能领域近年来取得了快速地发展。在人工智能领域，语言智能更是受到广泛的关注。语言是信息的载体，让机器理解语言也被认为是强人工智能的一个重要体现。问答正是检验机器理解语言能力的一个重要手段，同时问答系统的研究也能直接推动社交、医疗、金融等多个领域的智能化进程。

问答句选择是问答任务的一个子任务，同时也是问答系统中重要的组成部分。问答句选择通常是给定一个问题以及多个候选句子，要求系统从多个候选句子中找出能够回答给定问题的答案句。

现有的答案句选择任务的候选句有两种构成方式，一种是从不同篇章中抽取多个句子作为候选句，另一种是将一个篇章中的所有句子看作候选句。对于第一种构成方式，候选句之间的关联程度较低，而第二种构成方式中，因为选自同一篇章，所以候选句之间的关联程度较高。

传统的答案句选择模型大多忽略了候选句之间的语义关联，通过对每个候选句单独建模，并单独计算每个候选句作为答案的概率。在候选句之间存在关联度的情况上，传统的方法会导致每个候选句的语义建模不充分，进而导致答案选择错误。

因此，如何提出一种充分考虑候选句之间关联度进而从候选句中选择正确答案的方法是本领域技术人员需要解决的技术问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术未考虑候选句之间的关联度导致答案选择错误的问题，本发明的第一方面提供了一种基于图网络的答案句选择方法，所述方法应用于基于图网络的答案句选择装置，所述装置包括问答句预测器，所述方法包括：对预先获取的多个第一句子，分别获取对应的第一向量，其中，所述第一句子作为所述答案句的候选句子；

根据所述第一句子和所述第一向量构建多个所述第一句子的关系图，其中，所述关系图用于获取多个所述第一句子之间的关系；

基于所述关系图以及所述第一向量，通过所述图网络获取第二向量，其中，所述图网络基于神经网络构建，所述第二向量为多个所述第一句子的上下文信息融合后的向量；

基于所述第二向量，通过所述问答句预测器从所述第一句子中选择答案句，其中，所述问答句预测器用于获取所述第二向量对应的第一句子的预测分数。

优选地，所述关系图包括第一关系图和第二关系图；“根据所述第一向量以及所述第一句子构建所述第一句子的关系图”，其方法包括：

根据所述第一句子并通过第一策略构建所述第一关系图，

根据所述第一向量并通过第二策略构建所述第二关系图，

其中，所述第一策略用于根据所述第一句子并基于第一工具、第二工具以及第三工具构建所述第一关系图，所述第一工具用于连接含有相同实体的第一句子，所述第二工具用于根据所述第一句子之间的距离计算所述第一句子之间的权重，所述第三工具用于计算所述第一句子之间的语义相似度；

所述第二策略用于根据所述第一向量并基于自注意力机制构建所述第二关系图。

优选地，“根据所述关系图以及所述第一向量并基于所述图网络获取第二向量”，其方法包括：

根据所述关系图并基于图卷积网络按照如下公式所示的方法更新所述第一向量：

根据更新后的第一向量并基于门控循环单元按照如下公式所示的方法获取所述第二向量：

H^mpge＝GRU([H⁰；H^ent；H^dist；H^simi])

其中，所述H^(t+1)表示所述图卷积网络的输出，所述σ表示激活函数，所述

表示A的度量矩阵，所述A表示某一句子的关系图，所述H^(t)表示所述图卷积网络的输入，所述W^(t)表示权重参数，所述H^mpge表示所述第二向量，所述GRU表示门控循环单元，所述H⁰表示初始第一向量，所述H^ent表示根据第一工具构建的关系图更新后的第一向量，所述H^dist表示根据第二工具构建的关系图更新后的第一向量，所述H^simi表示根据第三工具构建的关系图更新后的第一向量。

优选地，“根据所述第二向量并基于所述问答句预测器从所述第一句子中选择答案句”，其方法包括：

根据所述第二向量、所述第一句子并基于所述问答句预测器获取每一个所述第一句子的预测分数，将预测分数最高的第一句子作为所述答案句。

优选地，“根据所述第二向量并基于所述问答句预测器获取每一个所述第一句子的预测分数”，其方法包括：

根据所述第二向量并基于所述问答句预测器按照如下公式所示的方法获取每一个所述第一句子的预测分数：

Score＝Softmax(MLP(H^mpge))

其中，所述Score表示所述第一句子的预测分数，所述MLP表示多层感知机，所述H^mpge表示所述第二向量。

本发明的第二方面提供了一种基于图网络的答案句选择装置，所述装置包括第一模块、第二模块、第三模块以及第四模块；

所述第一模块用于对预先获取的多个第一句子，分别获取对应的第一向量，其中，所述第一句子作为所述答案句的候选句子；

所述第二模块用于根据所述第一句子和所述第一向量构建多个所述第一句子的关系图，其中，所述关系图用于获取多个所述第一句子之间的关系；

所述第三模块用于基于所述关系图以及所述第一向量，通过所述图网络获取第二向量，其中，所述图网络基于神经网络构建，所述第二向量为多个所述第一句子的上下文信息融合后的向量；

所述第四模块用于基于所述第二向量，通过所述问答句预测器从所述第一句子中选择答案句，其中，所述问答句预测器用于获取所述第二向量对应的第一句子的预测分数。

优选地，所述关系图包括第一关系图和第二关系图，所述第二模块还用于：

根据所述第一句子并通过第一策略构建所述第一关系图，

根据所述第一向量并通过第二策略构建所述第二关系图，

优选地，所述第二模块还用于：

H^mpge＝GRU([H⁰；H^ent；H^dist；H^simi])

优选地，所述第四模块还用于：

Score＝Softmax(MLP(H^mpge))

本发明提供的基于图网络的答案句选择方法从多个角度构建候选句之间的关联，并且对每个候选句的语义建模，得到多个候选句之间关系，并且从多个角度融合多个候选句的上下文信息，通过问答句预测器获取每个候选句的预测分数，将预测分数最高的候选句作为答案句，极大地提高了选择正确答案的概率。

附图说明

图1是本发明的基于图网络的答案句选择方法的流程示意图；

图2是本发明方法与现有方法实验比较结果示意图；

图3是本发明的基于图网络的答案句选择装置的结构示意图。

具体实施方式

为使本发明的实施例、技术方案和优点更加明显，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所述的实施例是本发明的一部分实施例，而不是全部实施例。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

参照图1，图1示例性地示出了本发明的基于图网络的答案句选择方法的流程示意图。

本发明提供的基于图网络的答案句选择方法包括如下步骤：

S101、对预先获取的多个第一句子，分别获取对应的第一向量，其中，所述第一句子作为所述答案句的候选句子。

为了说明的方便，本发明中第一句子均以候选句为例进行说明。首先，使用层级编码获取每个候选句的初始向量表示，其中，层级编码可以包括词级别和句子级别的编码形式，候选句的初始句子表示可以表示为H⁰。将问句与每个候选句进行拼接，得到多个候选组合，再将每个组合输入到预先训练好的语言模型中得到原始的问题感知的候选句的词级别表示。

然后，使用注意力机制，判断每个词对其所在句子语义表达的重要性，得到每个词的权重，根据每个词的权重对候选句进行池化操作，进而每个句子都得到一个向量表示，即第一向量，将第一向量作为候选句的初始表示。

S102、根据所述第一句子和所述第一向量构建多个所述第一句子的关系图，其中，所述关系图用于获取多个所述第一句子之间的关系。

得到每个候选句的表示之后，即第一向量，根据第一向量和第一句子构建第一句子的关系图。具体地，可以根据第一句子并通过第一策略构建第一关系图，根据第一向量通过第二策略构建第二关系图。

可以理解的是，第一策略可以是静态构图策略，其中，静态构图策略是根据第一工具、第二工具以及第三工具构建第一关系图。可选地，第一工具可以是实体共现，实体共现是在两个句子之间有相同的实体时，在关系图中将两个句子节点进行连接。其中，基于第一工具构建的关系图可以表示为A^ent。

第二工具可以是句间距离，句间距离是在距离越近相关度越高的基础上，根据两个句子在原始文本中的距离，对两个句子节点间的边进行赋值，距离越近的边的权重越高，反之越低。其中，基于第二工具构建的关系图可以表示为A^dist。

第三工具可以是应用预先训练好的语言模型获取每个句子的向量表示，应用余弦相似度计算两个句子之间的语义相似度，并将该值作为两个句节点间边的权重。其中，基于第三工具构建的关系图可以表示为A^simi。

第二策略是根据第一向量并且基于自注意力机制构建第二关系图。具体地，第二策略可以是动态构图策略，其是根据候选句之间的初始表示，即第一向量，使用自注意力机制计算两个句子之间的相关度，从而赋予两个句子的边不同的权值，构建动态的句子的关系图，该类图在模型训练中会不断进行更新优化。

S103、基于所述关系图以及所述第一向量，通过所述图网络获取第二向量，其中，所述图网络为神经网络，所述第二向量用于指示多个第一句子的上下文信息融合后的向量。

从多种角度构建关系图之后，将每个从特定角度构建的图与候选句的初始表示进行组合，输入到图卷积网络中，可以得到从不同句间关系建模的候选句表示。

将更新后的第一向量输入到门控循环单元，得到融合后的候选句表示，即更新后的第一向量。其中，H^ent表示根据第一工具构建的关系图更新后的第一向量，H^dist表示根据第二工具构建的关系图更新后的第一向量，H^simi表示根据第三工具构建的关系图更新后的第一向量。对于每个候选句而言，此时的表示已从不同的角度融合了来自其他候选句的上下文信息。

具体地，根据关系图并基于图卷积网络可以按照如下公式(1)所示的方法更新第一向量：

根据更新后的第一向量并基于门控循环单元按照如下公式(2)所示的方法获取第二向量：

H^mpge＝GRU([H⁰；H^ent；H^dist；H^simi]) (2)

S104、基于所述第二向量，通过所述问答句预测器从所述第一句子中选择答案句，其中，所述问答句预测器用于获取所述第二向量对应的第一句子的预测分数。

在得到了使用图网络更新之后的候选句的表示之后，使用一个答案句预测器根据该表示预测最终的答案句。该预测器将多维的句子向量输入到一个多层感知机得到每一个句子的预测分数，然后再通过softmax函数将多个候选句的预测分数进行归一化处理。最终，得到每个候选句作为答案句的预测分数，将预测分数最高的第一句子作为所述答案句。

其中，根据所述第二向量并基于所述问答句预测器按照如下公式(3)所示的方法获取每一个所述第一句子的预测分数：

Score＝Softmax(MLP(H^mpge)) (3)

为了说明本发明方法的有效性，本发明通过图2实验中所示的数据表示本发明方法的性能。图2示例性地示出了本发明方法与现有方法实验比较结果示意图。其中，实验用到的测试语料为WikiQ和SQuAD两个数据集，图2中，CNN-MULT和wGRU-sGRU为现有的两个基线方法，且后者为当前性能最好的方法。本申请实验中采用平均精度均值(MAP)作为评价指标，从图2中可以看出，在两个数据集上，本方法均取得了比现有的两个基线方法更好的结果。

参与附图3，图3示例性地示出了本发明基于图网络的答案句选择装置的结构示意图。

本发明的第二方面提供了一种基于图网络的答案句选择装置，所述装置包括第一模块1、第二模块2、第三模块3以及第四模块4；

所述第一模块1用于对预先获取的多个第一句子，分别获取对应的第一向量，其中，所述第一句子作为所述答案句的候选句子；

所述第二模块2用于根据所述第一句子和所述第一向量构建多个所述第一句子的关系图；

所述第三模块3用于基于所述关系图以及所述第一向量，通过所述图网络获取第二向量，其中，所述图网络基于神经网络构建，所述第二向量为多个所述第一句子的上下文信息融合后的向量；

所述第四模块4用于基于所述第二向量，通过所述问答句预测器从所述第一句子中选择答案句，其中，所述问答句预测器用于获取所述第二向量对应的第一句子的预测分数。

优选地，所述关系图包括第一关系图和第二关系图，所述第二模块2还用于：

根据所述第一句子并通过第一策略构建所述第一关系图，

根据所述第一向量并通过第二策略构建所述第二关系图，

优选地，所述第二模块2还用于根据所述关系图并基于图卷积网络按照公式(1)所示的方法更新所述第一向量；

根据更新后的第一向量并基于门控循环单元按照公式(2)所示的方法获取所述第二向量。

优选地，所述第四模块4还用于根据所述第二向量并基于所述问答句预测器获取每一个所述第一句子的预测分数，将预测分数最高的第一句子作为所述答案句。

优选地，根据所述第二向量并基于所述问答句预测器按照公式(3)所示的方法获取每一个所述第一句子的预测分数。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。