CN111666753B

CN111666753B - 基于全局和局部匹配的短文本匹配方法及系统

Info

Publication number: CN111666753B
Application number: CN202010389959.4A
Authority: CN
Inventors: 郑海涛; 徐子涵; 翟少鹏; 王栋; 周岚; 沈颖; 肖喜
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2023-04-18
Anticipated expiration: 2040-05-11
Also published as: CN111666753A

Abstract

本发明提供一种基于全局和局部匹配的短文本匹配方法及系统，通过构建匹配图，基于预训练语言模型将短文本对整体表示为图节点，基于图注意力网络节点分类进行跨对匹配学习，通过图注意力网络节点的连接权重将局部和全局匹配静态结合，通过联合训练、迭代更新的方式将它们动态结合，从而更好地发挥局部和全局的优势，适应不同的短文本匹配任务。

Description

基于全局和局部匹配的短文本匹配方法及系统

技术领域

本发明涉及计算机应用，特别是涉及基于全局和局部匹配的短文本匹配方法及系统。

背景技术

短文本匹配是自然语言处理中的一个基本问题。许多问题本质上都是短文本匹配问题。如复述检测(Paraphrase Identification)、自然语言推理(Natural LanguageInference)、问答(Question Answering)等。这些问题一般都采用相似度匹配框架解决。

传统的短文本匹配主要是基于特征的提取和匹配，近年来，深度学习的应用充分发挥了表示学习的优势。然而，通过语义召回的分数来判断匹配程度，神经网络容易把高概率分配给具有相似模式(词、短语、结构、句子等)的短文本对。此外，不同短文本匹配任务的特点不完全一样。例如，在智能问答的答案选择任务中，问句和答句一般不是同义或近义句，如果完全通过基于相似度的匹配框架来学习匹配过程，由于神经网络数据驱动的特征，在数据量不足的情况下难有好的效果，在数据量足够时往往也会造成资源的浪费。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明的主要目的在于克服现有技术的上述缺陷，提供基于全局和局部匹配的短文本匹配方法及系统。

为实现上述目的，本发明采用以下技术方案：

一种基于全局和局部匹配的短文本匹配方法，包括以下步骤：

S1、进行局部匹配，其中通过文本对内部的匹配模型进行匹配学习；

S2、将局部匹配的结果作为全局匹配中每个文本对节点自身连接的注意力权重；

S3、基于预训练语言模型得到文本对的向量表示，并将每个匹配对作为节点，匹配对的向量作为图节点的特征；

S4、基于文本对向量相似度构建文本对匹配图，使得相似的序列之间相连而成为相邻节点；

S5、将全局匹配和局部匹配进行联合训练，由此获取新的局部匹配分数；其中所述全局匹配通过基于图注意力网络节点分类和半监督学习来进行跨对匹配学习；

S6、使用所述新的局部匹配分数，重复步骤S1-S5进行迭代训练。

进一步地：

所述文本对匹配图基于语料构建，将语料中的每个源文本和其对应的候选匹配文本组成匹配对；所述语料是完整的语料，或是通过对负样本进行降采样处理后的部分语料。

步骤S2中，将初始局部匹配的结果作为每个文本对节点自身连接的注意力权重，从而初步将局部匹配融入到全局匹配中。

通过将不同匹配对之间进行比较，将全局信息引入到每个匹配对中。

步骤S4中，基于文本对向量相似度得到关系矩阵，通过设定阈值将所述关系矩阵二值化，得到图的邻接矩阵并构建匹配图。

步骤S5中，基于图注意力网络，采用作用于邻居节点集合的注意力机制进行学习，以通过动态自适应地发现节点之间关系，从而权衡邻居节点的贡献。

所述局部匹配中，对于源文本s，其对应的待匹配文本为t_i,i＝1,2,…,n。通过一般的深度语义匹配方法进行匹配学习，得到s和所有t_i的局部匹配的分数Intra_i,i＝1,2,…,n，其中，深度语义匹配模型通过基于句向量直接进行预先相似度计算，或采用MatchPyramid、对比-聚合网络匹配模型。

所述预训练语言模型为BERT模型(基于Transformer的深度双向语言表征模型)，得到所述匹配对各自的BERT向量，之后将每个匹配对作为节点，匹配对的BERT向量作为节点特征来构建图；

具体地，G＝(V,E),V(|V|＝n)和E分别是节点和边的集合；

是特征矩阵，即n个节点的BERT向量；基于向量相似度得到关系矩阵S，并将通过设定阈值τ，将关系矩阵二值化，从而得到图的邻接矩阵并构建图：

步骤S5中，将获取的局部匹配模型分数intra_i作为每个节点自身的权重，基于注意力的反向传播层对第t层(t∈{1,…,l})：

Z^t+1＝P^(t)Z^(t)

其中，Z⁽⁰⁾＝X，传播矩阵

是输入Z^(t)的函数，只考虑存在的边；节点i输出的行向量为：

其中，

为从节点j到i的参数化注意力：

cos(x,y)＝x^Ty/||x||||y||

其中，j∈N(i)∪{i}，

为参数。

训练的网络判断文本对是否为一对匹配对，节点输出内容最后经过一层softmax层获得相应的类别概率即匹配分数：

Z^(l)＝softmax(Z^(l-1)W)

其中

为参数矩阵。F是输出的维度，即类的数量。

全局匹配的损失函数被定义为所有带有标签的文本对上的交叉熵损失：

其中

是带标签的文本对的索引，Y是指示矩阵。

一种基于全局和局部匹配的短文本匹配系统，包括计算机可读存储介质和处理器，所述计算机可读存储介质存储有可执行程序，其特征在于，所述可执行程序被所述处理器执行时，实现所述的基于全局和局部匹配的短文本匹配方法。

本发明具有如下有益效果：

传统深度匹配框架通过语义召回分数来判断匹配程度，容易将高概率分配给具有相似模式的文本，且不同短文本匹配任务特点不一样，过于依赖深度匹配框架的直接应用容易造成资源的浪费。本发明提供了新的短文本匹配框架，采用全局和局部匹配相结合的方式。除了文本对内部的匹配，本发明将文本对转换为匹配图中的节点。即将每个文本对视为整体，通过预训练语言模型得到其向量表示，并使匹配模式相近的文本对成为匹配图中的相邻节点。然后通过图注意力网络进行节点分类，从而更直接地学习跨对匹配关系。最后，本发明通过图注意力网络节点连接权重的分配，以及迭代更新，在联合训练的过程中将全局和局部匹配更好地进行结合。局部匹配更侧重文本对内部的匹配关系，全局匹配将待匹配的文本对视为整体，更侧重文本对的联结关系，能弥补局部匹配容易受到相似模式影响的缺点。同时，将二者有效地联合，还可以根据不同的短文本匹配任务中这两种关系的强弱来调整学习的过程。因此，本发明对于短文本匹配模式变化有较好的鲁棒性，比一般的匹配模型能更好地适应不同的短文本匹配任务，可以作为通用的文本匹配模块，直接在不同的短文本匹配系统中(复述检测、自然语言推理、问答等)进行应用。

附图说明

图1为本发明实施例的基于全局和局部匹配的短文本匹配方法流程图。

图2为本发明实施例的局部和全局匹配示意图(内部匹配基于对比-聚合网络)。

图3为本发明实施例的短文本匹配结构示意图。

图4为本发明实施例的文本对匹配示意图。

具体实施方式

以下对本发明的实施方式作详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

参阅图1，本发明实施例提供一种基于全局和局部匹配的短文本匹配方法，包括以下步骤：

本发明实施例的方法通过将局部匹配和全局匹配相结合的方式进行短文本匹配。局部匹配由内部匹配方式进行。为了进行全局匹配，本发明引入跨对匹配，并通过文本对图及图神经网络实现。通过图注意力网络节点的连接权重将局部和全局匹配静态结合，通过联合训练、迭代更新的方式将它们动态结合，从而更好地发挥两者的优势。

传统深度匹配框架通过语义召回分数来判断匹配程度，容易将高概率分配给具有相似模式的文本，且不同短文本匹配任务特点不一样，过于依赖深度匹配框架的直接应用容易造成资源的浪费。本发明实施例提供了新的匹配框架，提出全局和局部匹配相结合的方式。除了短文本对内部的匹配，本发明设计了与之相结合的全局匹配的方法。即将待匹配的文本对视为整体，得到正负样本，通过预训练语言模型得到向量表示，并基于向量相似度构建跨对匹配图，将文本对转换为匹配图中的节点，而具有相近模式的匹配对是图中的相邻节点。然后本发明基于文本对匹配图，通过图注意力网络的节点分类过程进行跨对匹配学习，通过节点之间的信息传播来更好地学习文本对整体的匹配模式。最后，通过基于注意力分配和迭代更新的方式，对局部和全局匹配进行联合训练。局部匹配更侧重匹配关系，全局匹配更侧重联结关系，这样可以根据不同匹配任务中这两种关系强弱的不同来调整学习的过程，从而更好地适应不同特点的文本匹配任务。

局部匹配即采用传统的深度语义匹配模型(基于神经网络的相似度计算)进行文本对内部的直接比较。这里的深度语义匹配模型具体可以是基于句向量直接进行预先相似度计算，也可以采用MatchPyramid、对比-聚合网络(compare-aggregatenetwork)等更为复杂的匹配模型，最后通过预测过程得到局部匹配的分数。

不同于单一的局部匹配，本发明设计了全局匹配的文本匹配方式。首先基于语料构建文本对匹配图，语料可以是完整的，也可以是通过对负样本进行降采样(undersampling)处理后的。对于语料中的每个源文本s和其对应的候选匹配文本为t_i,i＝1,2,…,n，将它们组成匹配对P＝(s,t_i)，然后基于预训练语言模型得到文本对的向量表示。之后将每个匹配对作为节点，匹配对的向量作为节点特征。得到基于向量相似度得到关系矩阵后，通过设定阈值将关系矩阵二值化，得到图的邻接矩阵并构建图。

接着，通过基于图注意力网络的半监督学习来进行全局匹配。具体地，对于源文本s的每个候选匹配文本t，除了常见的将s和t进行比较(局部匹配)，本发明还将这个匹配对P＝(s,t)和其他匹配对之间进行比较。这样，全局信息就被引入到每个匹配对中。

全局匹配一定程度上避免了局部匹配容易受相似模式的缺点，但图构建时对边的阈值设置要求高，如果设置不合理，可能当待测试集中的源文本s'和训练集中某源文本s本身很相似时，会出现s'和正样本P＝(s,t)以及某负样本P＝(s,t')都成为邻居节点的情况。这样正确和错误的匹配对都会对决策造成影响，但实际上除了源文本的局部相似，正确的匹配对一般在整体匹配模式上也是和正样本P＝(s,t)有相似性的。因此每个邻居节点对中心节点的影响比重是不一样的。为了对邻居节点进行区分，从而学习到更准确的信息，本发明基于图注意力网络，采用作用于邻居节点集合的注意力机制(attentionmechanism)进行学习，该机制可以通过动态自适应地发现节点之间关系，从而权衡邻居节点的贡献。

然后，本发明给出了将全局匹配和局部匹配相结合的方法，以更好地适应不同的短文本匹配任务。一般图注意力网络在传播过程中会给节点自身加上连接(self-loop)来确保特征和节点自身的隐层状态信息不会丢失，即对每个v，(v,v)∈E。在本发明中，我们将初始局部匹配的结果Intra_i,i＝1,2,…,n作为每个文本对节点自身连接的注意力权重，从而初步将局部匹配融入到全局匹配中。然后，我们将全局匹配和局部匹配进行联合训练，由此获取新的局部匹配分数，并重复整个过程，进行迭代训练。这样通过学习的过程，能有效地将局部匹配为自身连接赋予的权重更好地和注意力机制为邻居节点的赋予权重统一起来。

最后，本发明中的短文本匹配方法将直接以接口的形式(传递匹配打分)应用到不同的短文本匹配系统(复述判别、自然语言推理、问答等)。局部和全局匹配分别侧重于待匹配内容内部的比较，以及待匹配内容整体模式与其他模式(正负样本)的比较，全局和局部匹配相结合的思路能更灵活地适应不同任务的特点，解决不同的匹配问题。且全局匹配相比于局部匹配不易受到文本相似模式的影响，能很好地弥补局部匹配的不足。

以下进一步描述本发明具体实施例。

局部匹配

对于源文本s，其对应的待匹配文本为t_i,i＝1,2,…,n。通过一般的深度语义匹配方法进行匹配学习，得到s和所有t_i的局部匹配的分数Intra_i,i＝1,2,…,n。这里的传统深度语义匹配模型具体可以是基于句向量直接进行预先相似度计算，也可以采用MatchPyramid、对比-聚合网络(compare-aggregatenetwork)等更为复杂的匹配模型。

匹配图构建

文本对匹配图是基于完整或部分语料(对负样本进行降采样)构建的。对于源文本s和其对应的候选匹配文本为t_i,i＝1,2,…,n。将它们组成匹配对P＝(s,t_i)，然后分别得到各自的BERT(基于Transformer的深度双向语言表征模型)向量。之后将每个匹配对作为节点，匹配对的BERT向量作为节点特征来构建图。

具体地，G＝(V,E),V(|V|＝n)和E分别是节点和边的集合。

是特征矩阵，即n个节点的BERT向量。本发明基于向量相似度得到关系矩阵S，并将通过设定阈值τ，将关系矩阵二值化，从而得到图的邻接矩阵并构建图：

度矩阵D_ii＝∑_jA_ij。

全局匹配

全局匹配是通过基于图注意力网络节点分类来进行跨对匹配学习。具体地，对于源文本s的每个候选匹配文本t，除了常见的将s和t进行比较(局部匹配)，本发明还将这个匹配对P＝s,t和其他匹配对之间进行比较。这样，全局信息就被引入到每个匹配对中。

为了对邻居节点进行区分，从而学习到更准确的信息，本发明基于采用作用于邻居节点集合的注意力机制(attentionmechanism)，该机制可以通过动态自适应地发现节点之间关系，从而权衡邻居节点的贡献。同时，为了更好地将局部匹配和全局匹配相结合，本发明将获取的局部匹配模型分数intra_i作为每个节点自身的权重。具体地，基于attention的反向传播(attention-guidedpropagation)层对第t层(t∈{1,…,l})的定义如下：

Z^t+1＝P^(t)Z^(t)

其中Z⁽⁰⁾＝X，传播矩阵

是输入Z^(t)的函数，只考虑存在的边。

节点i输出的行向量为：

其中，

为从节点j到i的参数化注意力：

cos(x,y)＝x^Ty/||x||||y||

其中j∈N(i)∪{i}，

为参数。这种传播法则是动态的，通过β^(t)的变化，层之间的传播会改变，同时也是自适应的，能给更相关的邻居赋予更多的权重。

最后，需要判断文本对是否为一对匹配对，节点输出内容最后经过一层softmax层获得相应的类别概率(匹配分数)：

Z^(l)＝softmax(Z^(l-1)W)

其中

为参数矩阵。F是输出的维度，即类的数量。

其中

是带标签的文本对的索引，Y是指示矩阵。

训练时是基于全部的样本数据(full-batch)进行的。为了适应大型语料图的规模，可以应用图分割相应的技术，采用多个批(batch)进行训练。但由于基于图注意力网络的半监督学习有比较高的标签效率，也可以采用简单的权衡方式，如调整边的阈值、使用更少的训练样本等。

全局和局部匹配的结合

通过图注意力网络节点的连接权重将局部和全局匹配静态结合，通过联合训练、迭代更新的方式将它们动态结合，从而更好地发挥两者的优势，以适应不同的短文本匹配任务。

一般图注意力网络在传播过程中会给节点自身加上连接(self-loop)来确保特征和节点自身的隐层状态信息不会丢失，即对每个v，(v,v)∈E。在本发明中，我们首先将初始局部匹配的结果Intra_i,i＝1,2,…,n作为连接权重，从而将局部匹配融入到全局匹配中。

然后，我们将全局匹配和局部匹配进行联合训练，因此最终的损失函数定义为：

其中α>0为权衡参数。由此获取新的局部匹配分数，并重复整个过程，进行迭代训练。从而通过学习的过程，有效地将局部匹配的为自身连接赋予的权重更好地和注意力机制为邻居节点的赋予权重统一起来。预测时将局部和全局匹配的分数相加得到最后的匹配打分。

局部和全局匹配分别侧重于待匹配内容内部的比较，以及待匹配内容整体模式与其他模式(正负样本)的比较。全局和局部匹配相结合的思路能更灵活地适应不同任务的特点，解决不同的匹配问题。而且全局匹配相比于局部匹配不易受到文本相似模式的影响，能很好地弥补局部匹配的不足。

综上，本发明实施例提供了新的匹配框架，提出全局和局部匹配相结合的方式。相对传统的序列内部短文本匹配方法，本方法通过基于跨对匹配的全局匹配方式，更好地学习对文本对匹配模式，从而更有效地完成短文本匹配任务。且本发明基于图注意力网络节点的连接权重分配以及联合训练、迭代更新的方式将局部匹配和全局匹配通过静态和动态的方法进行有效结合，从而使得本短文本匹配方法能灵活适应不同的短文本匹配任务的特点。图注意力网络的应用也降低了对数据的依赖，大大提升了文本对匹配学习的效率。此外，本发明的跨对匹配实施方式基于完整或部分语料，通过预训练语言模型构建文本图，也给图神经网络在文本的应用，以及与其他模型的结合方式提供了新方法。

本发明的背景部分可以包含关于本发明的问题或环境的背景信息，而不一定是描述现有技术。因此，在背景技术部分中包含的内容并不是申请人对现有技术的承认。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中，参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点，但应当理解，在不脱离专利申请的保护范围的情况下，可以在本文中进行各种改变、替换和变更。

Claims

1.一种基于全局和局部匹配的短文本匹配方法，其特征在于，包括以下步骤：

2.如权利要求1所述的短文本匹配方法，其特征在于，所述文本对匹配图基于语料构建，将语料中的每个源文本和其对应的候选匹配文本组成匹配对；所述语料是完整的语料，或是通过对负样本进行降采样处理后的部分语料。

3.如权利要求1所述的短文本匹配方法，其特征在于，步骤S2中，将初始局部匹配的结果作为每个文本对节点自身连接的注意力权重，从而初步将局部匹配融入到全局匹配中；

4.如权利要求1所述的短文本匹配方法，其特征在于，步骤S4中，基于文本对向量相似度得到关系矩阵，通过设定阈值将所述关系矩阵二值化，得到图的邻接矩阵并构建匹配图。

5.如权利要求1所述的短文本匹配方法，其特征在于，步骤S5中，基于图注意力网络，采用作用于邻居节点集合的注意力机制进行学习，以通过动态自适应地发现节点之间关系，从而权衡邻居节点的贡献。

6.如权利要求1至5任一项所述的短文本匹配方法，其特征在于，所述局部匹配中，对于源文本s，其对应的待匹配文本为t_i,i＝1,2,…,n，通过一般的深度语义匹配方法进行匹配学习，得到s和所有t_i的局部匹配的分数Intra_i,i＝1,2,…,n，其中，深度语义匹配模型通过基于句向量直接进行预先相似度计算，或采用MatchPyramid、对比-聚合网络匹配模型。

7.如权利要求1至5任一项所述的短文本匹配方法，其特征在于，所述预训练语言模型为BERT模型，所述BERT模型为基于Transformer的深度双向语言表征模型，得到所述匹配对各自的BERT向量，之后将每个匹配对作为节点，匹配对的BERT向量作为节点特征来构建图；

具体地，G＝(V,E)，V和E分别是节点和边的集合，|V|＝n；是特征矩阵，即n个节点的BERT向量；基于向量相似度得到关系矩阵S，并将通过设定阈值τ，将关系矩阵二值化，从而得到图的邻接矩阵并构建图：

8.如权利要求1至5任一项所述的短文本匹配方法，其特征在于，步骤S5中，将获取的局部匹配模型分数intra_i作为每个节点自身的权重，基于注意力的反向传播层对第t层，t∈{1,…,l}：

Z^t+1＝P^(t)Z^(t)

其中，Z⁽⁰⁾＝X，传播矩阵是输入Z^(t)的函数，只考虑存在的边；节点i输出的行向量为：

其中，为从节点j到i的参数化注意力：

cos(x,y)＝x^Ty/||x||||y||

其中，j∈N(i)∪{i}，为参数。

9.如权利要求1至5任一项所述的短文本匹配方法，其特征在于，训练的网络判断文本对是否为一对匹配对，节点输出内容最后经过一层softmax层获得相应的类别概率即匹配分数：

Z^(l)＝softmax(Z^(l-1)W)

其中为参数矩阵，F是输出的维度，即类的数量，

其中是带标签的文本对的索引，Y是指示矩阵。

10.一种基于全局和局部匹配的短文本匹配系统，包括计算机可读存储介质和处理器，所述计算机可读存储介质存储有可执行程序，其特征在于，所述可执行程序被所述处理器执行时，实现如权利要求1至9任一项所述的基于全局和局部匹配的短文本匹配方法。