CN110096711B

CN110096711B - 序列全局关注和局部动态关注的自然语言语义匹配方法

Info

Publication number: CN110096711B
Application number: CN201910391956.1A
Authority: CN
Inventors: 陈恩红; 刘淇; 张琨; 吕广奕; 吴乐
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2022-10-28
Anticipated expiration: 2039-05-09
Also published as: CN110096711A

Abstract

本发明公开了一种序列全局关注和局部动态关注的自然语言语义匹配方法，不仅通过堆叠门控循环神经网络和自注意力机制实现对句子语义的全局理解和表示；而且通过局部动态关注机制实现对句子重要信息的动态分析，得到句子语义的动态局部表示。利用对句子序列的全局关注和局部动态关注实现对句子语义的更为全面的理解，进而准确建模两个句子之间的语义交互，最终实现对句子语义匹配关系的准确判断，弥补了现有方法在注意力机制使用上存在的不足。

Description

序列全局关注和局部动态关注的自然语言语义匹配方法

技术领域

本发明涉及深度学习和自然语言理解技术领域，尤其涉及一种序列全局关注和局部动态关注的自然语言语义匹配方法。

背景技术

自然语言句子语义匹配(Sentence Semantic Matching)是自然语言处理领域的一个十分重要的组成部分，是评价句子语义表征是否准确的一种常用方法。其解决的主要问题是判断两个句子之间的语义关系。根据具体任务的不同，句子间的语义关系也有不同的定义。例如在自然语言推理(Natural Language Inference,NLI)中，句子语义匹配主要用于判断前提句(Premise Sentence)的语义是否蕴涵假设句(Hypothesis Sentence)的语义。在信息检索(Information Retrieval，IR)中，句子语义匹配主要用于判断两个句子的语义是否表达相同的含义。因此该任务要解决的一个首要问题是自然语言句子的语义表示。自然语言句子的语义表示是自然语言处理甚至人工智能领域一个基础但极其重要的研究内容，无论是基础的信息检索，语义抽取，还是复杂的问答系统，对话系统，都需要对输入句子的语义有一个全面准确的理解和表示，这样才能为机器理解人类复杂的语言系统提供坚实的基础。伴随着大规模标注数据的不断出现以及深度学习技术的不断发展，自然语言语义表示已经取得令人印象深刻的成绩，其中，模仿人类的注意力行为的注意力机制学习方法受到越来越多的关注。注意力机制可以忽略那些不相关的信息，有选择的挑选对句子语义表达十分重要的信息，从而更好地建模和表示自然语言语义。研究人员已经提出了各种不同的注意力机制，例如自注意力(Self-Attention)，互注意力(Co-Attention)，多头注意力(Multi-Head Attention)。这些注意力机制分别从不同的角度对句子语义进行建模，从而实现对句子语义更全面，更准确的理解和表示。因此，利用注意力机制对自然语言语义表示进行研究，并将其应用到自然语言语义表示模型中已经成为自然语言领域探索的一个十分重要的研究方向。

目前，利用注意力机制对自然语言语义表示的研究主要有以下内容：

通过模仿人类的注意力方式，研究人员提出了多种不同的注意力机制，并将其应用到自然语言语义的表示模型中。例如自注意力(Self-Attention)，通过分析一个句子中的不同位置的元素对整体语义的影响程度，选取对语义表示更重要的内容，从而生成更好的语义表示；互注意力(Co-Attention)能够建模两个句子之间的语义交互，以一个更细粒度的方式分析两个句子之间的相似程度，从而更好地进行句子间语义匹配的建模分析；多头注意力(Multi-Head Attention)能够在不同的语义表示子空间对句子语义进行分析，从而以一个更全面的角度进行语义表示和语义匹配的建模分析。

上述利用注意力机制对自然语言语义表示的研究主要是在一次选择中选出所有重要的信息，忽略了两个重要的现象：1)句子中的重要部分可能会随着对句子语义的深入理解(或者周围情境的深入理解)而发生变化；2)句子中处在不同位置的相同词对句子语义的影响程度是不一样的，而这些相同词对应的局部结构有助于区分这种不同。这两个重要的现象说明了在对句子语义进行建模分析时不仅需要动态分析句子中的每个元素(词)对句子语义表示的影响程度；同时需要在对重要元素分析时考虑其对应的局部结构，更准确的理解每个元素(词)所表示的信息以及其对整体语义的影响，从而最终实现对句子语义的准确理解。

发明内容

本发明的目的是提供一种序列全局关注和局部动态关注的自然语言语义匹配方法，可以通过从全局角度对句子语义的整体把握，以及从局部角度对句子重要信息的动态分析和精确理解，从而实现对自然语言语义的准确理解以及自然语言语义匹配的准确判断。

本发明的目的是通过以下技术方案实现的：

一种序列全局关注和局部动态关注的自然语言语义匹配方法，包括：

对自然语言句子对中的每个单词进行语义建模，获得相应的语义表示向量；

对于每一自然语言句子，利用得到的每个单词的语义表示向量，通过堆叠门控循环神经网络实现句子中每个字的语义的全面分析，得到每个单词的句子级别的隐含语义表示，并结合自注意力进行全局关注，得到句子语义的全局表示向量；

结合自然语言句子对的句子语义的全局表示向量，通过局部动态关注机制选出每一自然语言句子需要关注的信息作为重要信息，并通过动态分析，得到每一自然语言句子的重要信息的隐含语义表示向量；

利用门控神经网络对自然语言句子对的重要信息的隐含语义表示向量进行融合，得到句子语义的动态局部融合表示向量；

融合自然语言句子对的句子语义的全局表示向量，并与句子语义的动态局部表示向量进行拼接后，通过分类操作，获得自然语言句子对中两个句子之间语义关系。

由上述本发明提供的技术方案可以看出，针对自然语言句子，通过从全局角度和动态局部角度对句子语义进行建模分析，从而实现对句子语义更全面的建模和表示，最终实现句子语义匹配的精确判断。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种序列全局关注和局部动态关注的自然语言语义匹配方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种序列全局关注和局部动态关注的自然语言语义匹配方法，如图1所示，其主要包括如下步骤：

步骤11、对自然语言句子对中的每个单词进行语义建模，获得相应的语义表示向量。

本步骤优选实施方式如下：

1)使用统一的数学形式表示自然语言句子对：自然语言句子对包括两个自然语言句子，一个自然语言句子记为

其表示其由l_a个单词组成的文本，另一个自然语言句子记为

其表示其由l_b个单词组成的文本；其中，

对应的分别表示自然语言句子s^a中的第i个单词、自然语言句子s^b中的第j个单词。

2)自然语言句子对s^a与s^b中的所有单词构成一个词典V，其大小用l^v表示；自然语言句子对s^a和s^b中的每一个单词都用一个独热向量(one-hotvector)表示，向量长度为词典V的大小，每个单词的独热向量中只有其在词典V中对应的索引位置为1，其他均为0；在此基础上，使用预训练好的词向量矩阵E得到每个单词的特征表示，也即预训练的词语义表示向量：

其中，

对应于自然语言句子s^a中第i个单词、自然语言句子s^b中第j个单词的预训练的语义表示；

3)假设自然语言句子对为英文文本，则将所有的英文字母组成一个字符集的词典V^c，其大小为26；单词中的每个字母都用一个独热向量(one-hotvector)表示，向量长度为词典V^c的大小，每个字母的独热向量中只有其在词典V^c中对应的索引位置为1，其他均为0；在此基础上，使用一维卷积分别处理单词的字母序列，可以使用不同的卷积核(unigram，bigram，trigram)对句子进行处理，然后使用最大池化操作(maxpooling)，从而最后得到每个单词字符级别的语义表示向量：

其中，E^c表示需要训练的字符的向量表示矩阵，Conv1D表示一维卷积操作，Maxpooling表示最大池化操作，

对应的表示自然语言句子s^a中第i个单词的第i_c个字母的独热表示、自然语言句子s^b中第j个单词的第j_c个字母的独热表示；

4)为了更准确更全面的表示每个词，将预训练的词语义表示向量与相应的单词字符级别的语义表示拼接起来，然后使用两层的高速网络整合这些信息，从而最终得到自然语言句子中每个单词的语义表示向量：

其中，Highway(·)表示高速网络结构，a_i、b_j对应的表示自然语言句子s^a中第i个单词的语义表示向量、自然语言句子s^b中第j个单词的语义表示向量。

步骤12、对于每一自然语言句子，利用得到的每个单词的语义表示向量，通过堆叠门控循环神经网络实现句子中每个字的语义的全面分析，得到每个单词的句子级别的隐含语义表示，并结合自注意力进行全局关注，得到句子语义的全局表示向量。

人类可以利用丰富的先验知识直接在句子中选择重要的信息，但神经网络并不具有这样的能力，因此，模型首先要做的就是尽可能多的收集句子的信息，对输入句子有一个全面的理解。

为了实现该目标，在本发明实施例中，使用堆叠循环神经网络(Stack GatedRecurrent Network,Stack-GRU)对每一自然语言句子进行建模，得到每一自然语言句子中每个单词的隐含状态序列：采用门结构循环网络(GRU)作为基本单元，对于f时刻的输入x_f，GRU的隐含状态h_f更新方式为：

z＝σ(x_fU^z+h_f-1W^z)

r＝σ(x_fU^r+h_f-1W^r)

其中，z、r、c^m分别是GRU的更新门、重置门、记忆单元；U^z与W^z为更新门的参数矩阵，U^r与W^r为重置门的参数矩阵，U^h与W^h为记忆单元的参数矩阵，

表示点乘；x_f表示自然语言句子s^a或s^b中第f个单词的语义表示向量；σ表示Sigmoid激活操作；

在此基础上，实现对句子语义的重复阅读和理解，从而实现对句子语义更全面的理解。随着网络层数的加深，模型无法保留所有已学到的信息，同时还面临梯度消失或者爆炸(gradient vanish or explore)问题。为了避免以上问题，通过堆叠多层GRU，即stack-GRU，将每一层GRU的输入和隐层输出拼接到一起，作为下一层的输入：

其中，GRU_l表示第l层的GRU，

表示第l-1层GRU的第f个隐层状态，

表示l-1层GRU的第f个输入，符号[，]表示拼接操作；通过这样的类残差结构，不仅可以利用全局的情境信息编码句子中的每个词，同时可以保留从最底层的词向量输入到最顶层的循环网络输出中的左右信息，并在一定程度上避免梯度消失或者爆炸的问题。

利用stack-GRU对自然语言句子对进行分析，得到每个自然语言句子中每个单词的隐含语义表示向量：

其中，

对应的表示自然语言句子s^a中第i'个单词、自然语言句子s^b中第j'个单词在句子级别的语义表示，

表示自然语言句子s^a中从第1个短语级别的语义表示到第i'个短语级别的语义表示的集合，

表示自然语言句子s^b中从第1个短语级别的语义表示到第j'个短语级别的语义表示的集合。

上一阶段得到的是每一自然语言句子中每个词的句子级别的隐含语义表示，而整个句子的语义表示可以认为是是这些单词的隐含语义表示的整合。但每个单词的隐含语义表示对整个句子的语义表示贡献是不同的，需要衡量每个词的隐含语义的重要程度。自注意力机制(Self-Attention)可以通过分析一个句子中的不同位置的元素对整体语义的影响程度，选取对语义表示更重要的内容，从而生成更好的语义表示。

本发明实施例中，使用自注意力机制计算每个单词的隐含语义表示向量的权值，并使用这些权值对所有单词的隐层状态表示做加权和，从而得到了句子语义的全局表示向量；对于自然语言句子s^a，上述操作表示为：

α^a＝ω^T tanh(WA^a+b)

其中，ω，W为自注意力机制计算中的权值，b为自注意力机制计算中的偏置，都属于模型训练过程中的参数，α^a表示对自然语言句子s^a使用注意力机制之后得到的权值分布，h^a表示自然语言句子s^a的句子语义的全局表示向量；

同理，对自然语言句子s^b使用相同的操作，得到自然语言句子s^b的句子语义的全局表示向量h^b。

通过本步骤，不仅实现了对句子信息尽可能全面的收集，同时从全局的角度对句子语义进行建模，并得到句子语义的全局表示。

步骤13、结合自然语言句子对的句子语义的全局表示向量，通过局部动态关注机制选出每一自然语言句子需要关注的信息作为重要信息，并通过动态分析，得到每一自然语言句子的重要信息的隐含语义表示向量。

前文提到，在对自然语言句子语义进行理解与表示时，需要考虑两个重要的现象：1)句子中的重要部分可能会随着对句子语义的深入理解(或者周围情境的深入理解)而发生变化；2)句子中处在不同位置的相同词对句子语义的影响程度是不一样的，而这些相同词对应的局部结构有助于区分这种不同。

为了在分析句子语义时充分考虑这两种现象，本发明实施例提出了一种局部动态关注机制(Dynamic Local Attention)，利用一个位置生成函数生成当前时刻需要关注的单词的位置，将需要关注的单词作为重要单词；然后，利用局部注意力机制建模分析重要单词以及对应的局部信息，从而得到当前时刻重要单词的局部信息表达向量，并通过GRU处理得到当前时刻重要单词的隐含语义表示向量；并且重复以上过程，直到达到最大的序列动态分析长度l_T；由于该过程中GRU的输入是不确定的，需要根据之前所掌握的信息计算出当前的输入内容，同时还会考虑其对应的局部信息，因此该机制称之为局部动态关注机制(Dynamic Local Attention)。

以自然语言句子s^a为例，上述过程可以形式化表示为：

其中，G表示位置生成函数，F表示局部注意力计算函数(函数相关细节会在后文介绍)，

表示t-1时刻的重要单词的隐含语义表示向量，p_t表示t时刻重要单词的位置，c_t表示t时刻重要单词的局部信息表达向量；

最终，自然语言句子s^a的重要信息的隐含语义表示向量记为

对于自然语言句子s^b使用相同的操作，得到重要信息的隐含语义表示向量，记为

如之前所述，本步骤需要首先考虑的一个问题是如何根据已知信息选择出当前时刻对句子语义最重要的部分，考虑到人类在选择重要信息时也是以一种序列的方式进行处理，因此，本发明实施例首先利用位置生成函数G，根据已知信息生成t时刻重要单词的位置p_t，其具体计算方式如下：

其中，

v_a,U_a表示位置生成函数G中的偏置，属于模型训练中的参数，T表示矩阵的转置操作，m_t为一个中间量。

需要考虑的第二个问题就是如何确定关注的重要词的准确语义表示。因为自然语言句子中，处于不同位置的相同词对最终句子语义的影响程度是不同的，但直接考虑单个重要的词无法做出这种区分。因此本发明实施例通过考虑重要词周围的局部信息，利用局部信息区分这些相同词的不同语义表达，从而实现对这些重要词的精确理解和表示。具体而言，本发明实施例中，在得到重要单词的位置p_t后，将相应位置为中心来计算一个高斯分布，并将该高斯分布乘以相应时刻对应的权重分布向量，从而获取到重要词的局部信息表达向量c_t，c_t的具体计算方式如下：

上式中，

为高斯分布的方差，D表示为预先设定的局部的窗口大小，s_a为自然语言句子s^a中每个单词的顺序位置表示；g_t表示t时刻以p_t为中心，

为方差的高斯分布；ω_d,W_d,U_d,M_d为局部注意力计算中的权值，属于模型训练中的参数，β_t ^a表示t时刻每个单词的语义表示对最终句子的语义表示的权重分布向量，

分别表示经过高斯分布处理之后的权重分布向量

中的第i个、第k'个元素，

表示一个全为1的行向量。

步骤14、利用门控神经网络对自然语言句子对的重要信息的隐含语义表示向量进行融合，得到句子语义的动态局部融合表示向量。

本发明实施例，首先利用启发式的方法整合自然语言句子对的重要信息的隐含语义表示向量，再结合门控神经网络，得到句子语义的动态局部融合表示向量：

u＝u_T

其中，⊙表示点乘操作，-表示相减操作，u_t表示GRU在t时刻的隐层状态，u_T表示GRU在T时刻的隐层状态，同时也是最终的动态局部融合表示向量u。GRU的初始隐层状态为自然语言句子对的句子语义的全局表示向量的融合结果：u₀＝[h^a,h^b,h^a⊙h^b,h^b-h^a]。

步骤15、融合自然语言句子对的句子语义的全局表示向量，并与句子语义的动态局部表示向量进行拼接后，通过分类操作，获得自然语言句子对中两个句子之间语义关系。

本发明实施例中，在得到句子语义的动态局部融合表示向量之后，通过和自然语言句子对的句子语义的全局表示向量的融合结果进行拼接，然后将其通过一个多层感知机(MLP)求出在给定不同方面信息的条件下，两个句子之间的语义关系的概率，上述过程可以表示为：

P(y|(s^a,s^b))＝MLP([u₀,u])

其中，P(y|(s^a,s^b))表示自然语言句子对中两个句子之间语义关系的概率分布，MLP是一个三层结构，包含两层的全连接层和ReLu激活函数，以及一层softmax输出层。

本发明实施例提供的上述方法，不仅通过堆叠门控循环神经网络和自注意力机制实现对句子语义的全局理解和表示；而且通过局部动态关注机制实现对句子重要信息的动态分析，得到句子语义的动态局部表示。利用对句子序列的全局关注和局部动态关注实现对句子语义的更为全面的理解，进而准确建模两个句子之间的语义交互，最终实现对句子语义匹配关系的准确判断，弥补了现有方法在注意力机制使用上存在的不足。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种序列全局关注和局部动态关注的自然语言语义匹配方法，其特征在于，包括：

2.根据权利要求1所述的一种序列全局关注和局部动态关注的自然语言语义匹配方法，其特征在于，所述对自然语言句子对中的每个单词进行语义建模，获得相应的语义表示向量包括：

所述的自然语言句子对包括两个自然语言句子，一个自然语言句子记为

其表示其由l_a个单词组成的文本，另一个自然语言句子记为

其表示其由l_b个单词组成的文本；其中，

对应的分别表示自然语言句子s^a中的第i个单词、自然语言句子s^b中的第j个单词；

自然语言句子对s^a与s^b中的所有单词构成一个词典V，其大小用l^v表示；自然语言句子对s^a和s^b中的每一个单词都用一个独热向量表示，向量长度为词典V的大小，每个单词的独热向量中只有其在词典V中对应的索引位置为1，其他均为0；在此基础上，使用预训练好的词向量矩阵E得到每个单词的特征表示，也即预训练的词语义表示向量：

其中，

假设自然语言句子对为英文文本，则将所有的英文字母组成一个字符集的词典V^c，其大小为26；单词中的每个字母都用一个独热向量表示，向量长度为词典V^c的大小，每个字母的独热向量中只有其在词典V^c中对应的索引位置为1，其他均为0；在此基础上，使用一维卷积分别处理单词的字母序列，然后使用最大池化操作，从而最后得到每个单词字符级别的语义表示向量：

再将预训练的词语义表示向量与相应的单词字符级别的语义表示拼接起来，然后使用两层的高速网络整合这些信息，从而最终得到自然语言句子中每个单词的语义表示向量：

3.根据权利要求2所述的一种序列全局关注和局部动态关注的自然语言语义匹配方法，其特征在于，所述对于每一自然语言句子，利用得到的每个单词的语义表示向量，通过堆叠门控循环神经网络实现句子中每个字的语义的全面分析，得到每个单词的句子级别的隐含语义表示，并结合自注意力进行全局关注，得到句子语义的全局表示向量包括：

使用堆叠循环神经网络对每一自然语言句子进行建模，得到每一自然语言句子中每个单词的隐含状态序列：采用门结构循环网络GRU作为基本单元，对于f时刻的输入x_f，GRU的隐含状态h_f更新方式为：

z＝σ(x_fU^z+h_f-1W^z)

r＝σ(x_fU^r+h_f-1W^r)

在此基础上，通过堆叠多层GRU，即stack-GRU，将每一层GRU的输入和隐层输出拼接到一起，作为下一层的输入：

其中，GRU_l表示第l层的GRU，

表示第l-1层GRU的第f个隐层状态，

表示l-1层GRU的第f个输入，符号[，]表示拼接操作；

其中，

表示自然语言句子s^b中从第1个短语级别的语义表示到第j'个短语级别的语义表示的集合；

使用自注意力机制计算每个单词的隐含语义表示向量的权值，并使用这些权值对所有单词的隐层状态表示做加权和，从而得到了句子语义的全局表示向量；对于自然语言句子s^a，上述操作表示为：

α^a＝ω^T tanh(WA^a+b)

4.根据权利要求3所述的一种序列全局关注和局部动态关注的自然语言语义匹配方法，其特征在于，所述结合自然语言句子对的句子语义的全局表示向量，通过局部动态关注机制选出每一自然语言句子需要关注的信息作为重要信息，并通过动态分析，得到每一自然语言句子的重要信息的隐含语义表示向量包括：

利用一个位置生成函数生成当前时刻需要关注的单词的位置，将需要关注的单词作为重要单词；然后，利用局部注意力机制建模分析重要单词以及对应的局部信息，从而得到当前时刻重要单词的局部信息表达向量，并通过GRU处理得到当前时刻重要单词的隐含语义表示向量；并且重复以上过程，直到达到最大的序列动态分析长度l_T；

对于自然语言句子s^a，得到每一时刻重要单词的隐含语义表示向量的过程形式化表示为：