CN115456176A

CN115456176A - 一种基于知识增强的文本匹配方法及系统

Info

Publication number: CN115456176A
Application number: CN202211235989.5A
Authority: CN
Inventors: 赵亚慧; 姜克鑫; 金国哲; 崔荣一; 张振国; 李德; 王苑儒; 刘帆; 鲁雅鑫; 夏明会; 赵晓辉; 任一平
Original assignee: Yanbian University
Current assignee: Yanbian University
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2022-12-09
Anticipated expiration: 2042-10-10
Also published as: CN115456176B

Abstract

本申请公开了一种基于知识增强的文本匹配方法及系统，包括以下步骤：S1、采集外部知识；S2、采用预训练语言模型获取文本的词向量和外部知识的词向量；S3、将外部知识的词向量与文本的词向量输入至文本匹配模块，获得文本特征向量与知识特征向量；S4、将文本特征向量与知识特征向量进行融合，通过线性层进行分类，完成匹配。在文本匹配模块采用交叉注意力进行首次交互，双向注意力进行二次交互以达到深度交互的效果。采用的融合函数在一定程度上消除了知识引入的噪声。相较于不加入外部知识的模型，本申请方法在准确率上均有提高，加入外部知识对模型的整体性能起到了促进作用。

Description

一种基于知识增强的文本匹配方法及系统

技术领域

本申请属于计算机智能信息处理中的自然语言处理技术领域，具体涉及一种基于知识增强的文本匹配方法及系统。

背景技术

文本匹配是比较两个文本并识别它们之间关系的任务。它是各种任务的基础技术，已经成功的应用在自然语言处理的许多领域。如，阅读理解、问答系统、机器翻译等。文本匹配任务包括文本蕴含识别、释义识别、答案挑选等。文本蕴含识别是研究前提和假设关系的问题，主要包括蕴含、矛盾和中立。释义识别，又称复述检测。对于给定的两个句子，如果它们的含义相同，就称为释义对。答案挑选任务是指给定一个问题，根据问题与各个候选答案的匹配分数对候选答案进行排序。

当前的匹配模型主要可归结为两类：(1)基于传统方法的文本匹配模型。(2)基于深度学习的文本匹配模型。传统的文本匹配方法主要是依靠人工定义的特征，计算句子间的相似度。如TF-IDF和BM25等算法，得到的是大维度的稀疏矩阵，难以提取深层次的语义信息。近年来，由于深度学习的快速发展以及相关大规模的带标注的数据集发布，如SNLI、MultiNLI等，基于深度学习的方法已经成为当前的主流方法。其主要是基于表示的文本匹配方法——通过深度学习的方法将两个句子编码成向量，以及基于交互的文本匹配方法——使用注意力机制对两个句子进行交互。这些方法都能够有效地提取句子语义信息，因此其性能高于基于传统的文本匹配方法。基于深度学习的方法需要大量的训练数据以获得优化的参数。为了节省训练时间，大型开放语料库已经提出了预训练模型来提前训练参数。ELMo基于BiLSTM捕获上下文信息以调整单词语义。BERT和RoBERTa使用Transformer作为基本编码器，在超大数据集上进行预训练，在NLP中的多个任务上取得了很好的效果。

但上述模型很少引入外部知识，然而外部知识在某些程度上在文本匹配过程中起到很大的作用，比如说加入一些常识性的知识，可以使计算机快速地推断出文本间的关系，同时外部知识的引入可以使得模型在数据量不足的情况下达到较好的效果。

发明内容

本申请提出了一种基于知识增强的文本匹配方法及系统，以克服现有模型在生成两段文本的句子向量后，仅仅只能提取句子表面的浅层语义信息，以及很少引入外部知识以增强模型的推理能力。

为实现上述目的，本申请提供了如下方案：

一种基于知识增强的文本匹配方法，包括以下步骤：

S1、采集外部知识；

S2、采用预训练语言模型获取文本的词向量和所述外部知识的词向量；

S3、将所述外部知识的词向量与所述文本的词向量输入至文本匹配模块，获得文本特征向量与知识特征向量；

S4、将所述文本特征向量与所述知识特征向量进行融合，通过线性层进行分类，得出匹配结果。

优选的，从维基百科中获取单词释义作为所述外部知识。

优选的，所述预训练语言模型采用BERT和ELMo进行词嵌入。

优选的，所述文本匹配模块包括编码层、交叉注意力层、聚合层、双向注意力层和池化层；

所述编码层用于获取所述文本词向量和所述外部知识词向量进行编码；

所述交叉注意力层用于对编码后的所述文本进行首次交互；

所述聚合层用于聚合所述交叉注意力前后的三个视角；

所述双向注意力层用于对聚合后的所述文本进行二次交互；

所述池化层用于获取所述文本特征向量和所述知识特征向量。

优选的，采用最大池化和平均池化来获取特征，将所述最大池化输出和所述平均池化输出直接拼接，获得所述文本特征向量和所述知识特征向量。

优选的，采用基于门控机制的方法融合所述文本特征向量和所述知识特征向量。

优选的，所述基于门控机制的融合方法包括：

g＝sigmoid(W₂[x；y；x⊙y；x-y])

式中，z表示文本和知识融合的结果，g表示融合比例，W₁和W₂表示可训练的参数矩阵，x和y分别是文本语义信息和知识语义信息；⊙表示元素级乘法，

表示文本和知识聚合的结果。

本申请还提供一种基于知识增强的文本匹配系统，包括：外部知识获取单元、文本处理单元、特征向量获取单元和融合单元；

所述外部知识获取单元用于采集外部知识；

所述文本处理单元用于采用预训练语言模型获取文本的词向量和所述外部知识的词向量；

所述特征向量获取单元用于获得文本特征向量与知识特征向量；

所述融合单元用于融合所述文本特征向量与所述知识特征向量，完成匹配。

本申请的有益效果为：

本申请公开了一种基于知识增强的文本匹配方法及系统，采用基于注意力机制的方法获取文本特征和知识特征；为了克服双向LSTM编码时未能考虑长距离依赖关系的问题，在编码层首先使用多个CNN提取局部特征，然后使用多头注意力获取全局特征。采用交叉注意力进行首次交互，双向注意力进行二次交互以达到深度交互的效果。采用的融合函数在一定程度上消除了知识引入的噪声。相较于不加入外部知识的模型，本申请方法在准确率上均有提高，加入外部知识对模型的整体性能起到了促进作用。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请基于知识增强的文本匹配方法流程示意图；

图2为本申请基于知识增强的文本匹配模型结构示意图；

图3为本申请基于知识增强的文本匹配系统结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

如图1所示，为本申请一种基于知识增强的文本匹配方法流程示意图，包括以下步骤：

S1、采集外部知识；

在本实施例中，将从维基百科中获取单词释义作为外部知识，具体的做法为：首先在官网下载离线的维基词典，其中包含了999614个单词以及这些单词的释义，其次我们在数据集中检索这些单词的释义，将这些单词的释义作为我们的外部知识。

S2、采用预训练语言模型获取文本的词向量和外部知识的向量；

在本实施例中，选取BERT作为预训练语言模型，将文本和知识分别输入到预训练语言模型BERT中，获取外部知识的词向量KX,KY和文本的词向量X,Y。

S3、将外部知识的词向量与文本的词向量输入至文本匹配模块，获得文本特征向量与知识特征向量；

文本匹配模块主要构架如图2所示，包括编码层、交叉注意力层、聚合层、双向注意力层以及池化层。

编码层：

为了克服双向LSTM编码时未考虑长距离依赖关系的问题，本实施例编码层首先使用多个CNN提取局部特征，然后使用多头自注意力获取全局特征。

以文本A的编码为例，公式如下：

Ac＝Conv(X)

Am＝MultiHead([Ac:X])

P＝[Ac:Am]∈R^n*d

其中，Ac表示通过一维卷积之后的结果，Am表示通过多头注意力机制的结果，[Ac:X]和[Ac:Am]表示拼接操作，n表示文本A的长度，d表示隐藏层维度。同理可以得到句子B的编码为H∈R^m*d。

交叉注意力层：

在得到文本A的编码P以及文本B的编码H后，采用交叉注意力进行首次交互，具体方法如下：

首先，计算P与H的相似矩阵S，然后将其归一化，得到注意力权重，最后对其加权平均，得到文本表示P'和H'。计算公式如下：

S＝relu(W_cP^T)^Trelu(W_qH^T)

a＝softmax(S)

P'＝a·H H'＝a^T·P

其中，T表示转置符号，W_c和W_q表示可学习的权重矩阵，a表示注意力权重系数。

聚合层：

在本实施例中，聚合层采用神经网络进行聚合；聚合层用于将交叉注意力前后的三个视角聚合在一起，以文本A为例，计算公式如下：

a₁＝G₁([P；P'])

a₂＝G₂([P；P-P'])

a₃＝G₃([P；P⊙P'])

C＝G([a₁；a₂；a₃])

式中，C表示文本A的表示向量，a₁表示交叉注意力前后的结果直接拼接，a₂表示两个向量差值的结果，a₃表示两个向量乘积的结果；G₁，G₂，G₃，G分别表示一个前向的神经网络；⊙表示元素级乘法。减法操作符体现了两个向量的差异，乘法操作符体现了两个向量的相似度。同理，可以得到文本B的表示向量Q。

双向注意力层：

随后，采用双向注意力进行二次交互。双向注意力层用于将得到的文本信息再一次进行交互，以达到深度交互的效果。双向注意力需要分别计算C到Q以及Q到C的注意力，这两个方向的注意力都源于C和Q的相似度矩阵T∈R^n*m，其中T_ij表示C的第i个单词和Q的第j个单词的相似性。

C→Q:该注意力描述的是句子C中哪些单词与Q最相关。其计算公式如下所示:

α＝softmax(T)

Q’＝a^T*C

Q→C:该注意力表示Q中哪些单词与C最相似。其计算方法如下：

首先取相似度矩阵T中数值最大的一列，然后进行归一化处理，得到注意力权重b_t,然后对C进行加权求和，将其拓展n个时间步，得到C'∈R^d*n，其中，C'表示Q到C注意力矩阵的其中一列，其计算公式如下所示：

在得到Q‘以及C'之后，我们通过多层感知机把这两个方向上的注意力进行拼接，最终得到拼接后的上下文表示G∈R^4d*n，其计算公式如下所示:

G_:t＝β(C'_:t,C_:t,Q'_:t)

β(c',c,q')＝[c；q'；c⊙q'；c⊙c']∈R^4d

式中，G_:t表示双向注意力的结果，β表示一个函数，本实施例采用直接拼接函数，C'_:t表示Q到C注意力矩阵中第t列元素，Q'_:t表示C到Q注意力矩阵中第t列元素。

池化层：

最后，采用最大池化以及平均池化来获取特征，将最大池化输出与平均池化输出直接拼接，得到特征向量。

计算公式如下：

Gmax＝MAX(G)

Gmean＝mean(G)

H＝[Gmax；Gmean]

其中，MAX表示最大池化，mean表示平均池化，H表示池化后的向量，即为文本特征向量，同理可以获取知识特征向量KH。

S4、将文本特征向量与所述知识特征向量进行融合，通过线性层进行分类，完成匹配。

本实施例采用基于门控机制的方法融合文本特征向量和知识特征向量；计算方法如下：

g＝sigmoid(W₂[x；y；x⊙y；x-y])

表示文本和知识聚合的结果。

实施例二

本实施例在显卡RTX5000，显存为16G的硬件环境下进行。系统为Ubuntu20.04，开发语言为Python3.7，深度学习框架为Pytorch1.8的实验环境下来对本申请文本匹配方法进行性能评价、验证。

本实施例使用了文本匹配数据集SNLI、SciTail、Quora以及SICK。其中，SNLI数据集包含570K个由人工标注且分类平衡的句子对，包括蕴含、中立、矛盾标签。SciTail数据集包含27k个句子对，是根据多项选择科学问答任务和网络句子创建的文本蕴含数据集，包含蕴含、中立标签。Quora问题对数据集包含超过400k对真实数据，每个问题对都有二进制注释，1表示重复，0表示不重复。SICK包含10K个涉及构词法知识的句子对，包括蕴含、中立、矛盾标签。评价采用的指标为准确率。SNLI、SciTail、Quora、SICK数据的分布如表1所示。

表1

在文本匹配模型训练过程中，隐藏层维度设为200，文本最大长度设为128，具体的超参数设置如表2所示：

表2

将文本匹配模型在上述数据集上进行实验，实验结果如表3所示。其中，KETM(ELMo)表示采用ELMo进行词嵌入。KETM(BERT)表示采用BERT进行词嵌入并且在文本匹配层后拼接cls向量。

KTEM-KB表示模型没有使用外部知识，即模型只有嵌入层和文本匹配层。*为复现的结果。

表3

由表3可知，本申请提出的基于知识增强的文本匹配方法在SNLI、Scitail、Quora、Sick测试集上分别达到了90.6％、92.6％、91.0％以及87.1％的准确率，在所列方法中达到最优。

整体上来说，基于表示的文本匹配模型性能上略弱于基于交互的模型，可能导致的原因是基于表示的方法只关注句子本身的信息，而忽略句子间的复杂交互信息。相比于基于表示的文本匹配模型，本申请文本匹配模型的结果均有大幅度提升。在三个数据集(SNLI、Scitail、Quora)上分别较表现最好的模型准确率提高了4.0、6.6以及7.0个百分点。相比于基于交互的模型，我们的模型较于准确率较高的RE2模型,四个数据集上的准确率分别提高了1.9、6.0、1.6以及7.3个百分点。在所列的方法中达到最优。相比于预训练语言模型BERT_base以及使用BERT作为编码器的MFAE模型。我们的模型同样在四个数据集上的效果最优，分别高出0.6，、0.6、0.5以及1.7个百分点。

相比于不加入外部知识，当使用ELMo作为词向量时，本申请的文本匹配模型在四个数据集上的准确率分别提高了0.6、0.9、0.2以及3.9个百分点。在SNLI数据集和Quora数据集上提升的效果不明显，可能的原因是其数据量已经很大且不加入知识的准确率较高，加入外部知识也起不到太大作用，然而在Sick数据集上提升的结果比较显著。说明了加入外部知识对模型的性能整体上的起到促进作用。

实施例三

为了验证本申请提出的基于知识增强的文本匹配方法的通用性，本实施例采用文本匹配模型ESIM和预训练语言模型BERT进行实验，并在其基础上加入外部知识，得到的结果如表4所示。

表4

由表4可知，在非transformer架构ESIM模型上，通过加入外部知识，在四个数据集上的准确率分别提升了0.7、3.1、2.9、4.4个百分点。在不同的模型上加入知识，性能均有所提升。在Transofmer架构BERT模型上，加入外部知识之后，模型的准确率分别提高了0.5、1.1、0.3、1.4个百分点。通过在基于非Transformer架构和Transformer架构的模型上加入知识，性能均有所提升。进而验证了本申请提出基于知识增强的文本匹配方法的有效性。

实施例四

为了验证知识在不同训练数据大小所起的作用，本实施例选取了SNLI数据集的部分训练集进行训练，得到的结果如表5所示。

表5

由表5可知，当使用1％的训练数据进行训练时，加入外部知识时，模型提升的性能最大，说明了外部知识在少量数据时取得较大作用。同时，当我们分别使用10％、50％、100％的训练数据进行训练时，加入知识后，其准确率分别提升1.6、0.9、0.6个百分点，实验结果表明外部知识在不同的训练数据大小中均起的促进作用。

实施例五

本实施例通过在scitail的验证集上进行实验，探究不同编码块数目以及不同CNN个数对模型性能的影响，实验结果如表6所示。

表6

由表6可知，当编码数目为1，CNN个数为3时，模型的性能最好。编码块数为2时，模型的整体性能最好。当模型参数继续增大时，模型的性能反而下降，说明增加模型复杂度与模型性能不成正比。

实施例七

为了验证知识在对抗性数据集上的作用，本实施例在SNLI训练集上进行训练，在对抗数据集BreakNLI数据集进行测试，BreakNLI数据集主要为了检验模型的词汇单词的推理知识，该测试集的前提是由SNLI训练集的句子构成，假设句子是替换其中的某个单词，从而得到新的文本对。蕴涵样例是通过将单词替换为其同义词或上位词(相比于该单词概括性较强的单词)生成的；矛盾样例是通过将单词替换为其互斥的词来生成的；中立样例是通过将单词替换为其下位词(相比于该单词特定性较强的单词)来生成的。实验结果如表7所示。

表7

由表7可知，原本在SNLI数据集表现良好的模型ESIM、BIMPM、RE2模型，在BreakNLI数据集上效果显著下降。在ESIM模型上加入本文所选的外部知识，其准确率高出13个百分点。同时，相较于本申请提出的模型，加入外部知识，在对抗性数据集上提高3.5个百分点。其主要的原因可能是我们的方法加入了单词的解释，因此模型可以根据单词的解释判断单词间的关系，进而在对抗性数据集BreakNLI上表现良好。实验结果也表明加入外部知识对本申请基于知识增强的文本匹配模型是有效的。

实施例八

为了验证模型融合层以及文本匹配模块的有效性，本实施例在sick、scitail的验证集上进行了消融实验，不使用融合函数是指将文本信息与知识信息直接拼接，其结果如表8所示。

表8

由表8可知，不使用融合函数，其准确率分别下降了1.6和1个百分点，说明本申请提出的融合函数能在一定程度上消除知识引入的噪声。同时在文本匹配模块中，不使用双向注意力，模型分别下降1和0.5个百分点，说明在编码阶段后再进行双向注意力交互能够更好地融合句子对的信息。

实施例九

如图3所示，本申请还提供一种基于知识增强的文本匹配系统，包括：外部知识获取单元、文本处理单元、特征向量获取单元和融合单元；本实施例将结合基于知识增强的文本匹配方法对系统的各个单元工作过程进行详细介绍。

外部知识获取单元用于采集外部知识；

本实施例中，外部知识获取单元从维基百科中获取单词释义作为外部知识。

文本处理单元用于采用预训练语言模型获取文本的词向量和外部知识的词向量；

在本实施例中，文本处理单元选取BERT作为预训练语言模型，用来获取外部知识的词向量和文本的词向量。

特征向量获取单元用于获得文本特征向量与知识特征向量；

特征向量获取单元用于存储文本匹配模块，并基于文本匹配模块获取文本特征向量与知识特征向量；其中，文本匹配模块包括编码层、交叉注意力层、聚合层、双向注意力层以及池化层。

特征向量获取单元的具体工作过程如下：

以文本A的编码为例，公式如下：

Ac＝Conv(X)

Am＝MultiHead([Ac:X])

P＝[Ac:Am]∈R^n*d

S＝relu(W_cP^T)^Trelu(W_qH^T)

a＝softmax(S)

P'＝a·H H'＝a^T·P

聚合层：

a₁＝G₁([P；P'])

a₂＝G₂([P；P-P'])

a₃＝G₃([P；P⊙P'])

C＝G([a₁；a₂；a₃])

式中，C表示文本A的表示向量，a₁表示交叉注意力前后的结果直接拼接，a₂表示两个向量差值的结果，a₃表示两个向量乘积的结果；G₁，G₂，G₃，G分别表示一个前向的神经网络；⊙表示元素级乘法。减法操作符体现了两个向量的差异，乘法操作符体现了两个向量的相似度。同理，可以得到文本B的表示Q。

双向注意力层：

C→Q:该注意力描述的是句子C中哪些单词与Q最相关。其计算公式如下所示。

α＝softmax(T)

Q’＝a^T*C

G_:t＝β(C'_:t,C_:t,Q'_:t)

β(c',c,q')＝[c；q'；c⊙q'；c⊙c']∈R^4d

池化层：

计算公式如下：

Gmax＝MAX(G)

Gmean＝mean(G)

H＝[Gmax；Gmean]

融合单元用于融合文本特征向量与知识特征向量，完成匹配。

g＝sigmoid(W₂[x；y；x⊙y；x-y])

表示文本和知识聚合的结果。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种基于知识增强的文本匹配方法，其特征在于，包括以下步骤：

S1、采集外部知识；

S4、将所述文本特征向量与所述知识特征向量进行融合，通过线性层进行分类，完成匹配。

2.根据权利要求1所述基于知识增强的文本匹配方法，其特征在于，从维基百科中获取单词释义作为所述外部知识。

3.根据权利要求1所述基于知识增强的文本匹配方法，其特征在于，所述预训练语言模型采用BERT和ELMo进行词嵌入。

4.根据权利要求1所述基于知识增强的文本匹配方法，其特征在于，所述文本匹配模块包括编码层、交叉注意力层、聚合层、双向注意力层和池化层；

所述交叉注意力层用于对编码后的所述文本进行首次交互；

所述聚合层用于聚合所述交叉注意力前后的三个视角；

所述双向注意力层用于对聚合后的所述文本进行二次交互；

5.根据权利要求4所述基于知识增强的文本匹配方法，其特征在于，采用最大池化和平均池化来获取特征，将所述最大池化输出和所述平均池化输出直接拼接，获得所述文本特征向量和所述知识特征向量。

6.根据权利要求1所述基于知识增强的文本匹配方法，其特征在于，采用基于门控机制的方法融合所述文本特征向量和所述知识特征向量。

7.根据权利要求6所述基于知识增强的文本匹配方法，其特征在于，所述基于门控机制的融合方法包括：

g＝sigmoid(W₂[x；y；x⊙y；x-y])

表示文本和知识聚合的结果。

8.一种基于知识增强的文本匹配系统，其特征在于，包括：外部知识获取单元、文本处理单元、特征向量获取单元和融合单元；

所述外部知识获取单元用于采集外部知识；