CN114491029A

CN114491029A - 基于图神经网络的短文本相似度计算方法

Info

Publication number: CN114491029A
Application number: CN202210056446.0A
Authority: CN
Inventors: 彭德中; 沈何川; 吕建成; 彭玺; 桑永胜; 胡鹏; 孙亚楠; 王旭; 陈杰; 王骞
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-05-13
Anticipated expiration: 2042-01-18
Also published as: CN114491029B

Abstract

本发明公开了一种基于图神经网络的短文本相似度计算方法，包括以下步骤：构建文本图表达获取文本的基础图结构数据；基于注意力的边学习机制，通过节点信息学习到文本图的边；采用混合多头图学习机制，将图注意力网络及GraphSAGE网络产生的节点进行混合表达；图相似度计算。本发明通过将获取的文本表示建模为图结构并送入图注意力网络和GraphSAGE网络进行学习，对学习到的结果进行融合，再通过全连接层获取到句子综合了上下文信息和高层语义信息的最终表达，最后采用皮尔逊相关系数对计算句子表达之间的相似性。

Description

基于图神经网络的短文本相似度计算方法

技术领域

本发明属于语言处理技术领域，具体涉及到一种基于图神经网络的短文本相似度计算方法。

背景技术

在日常生活中，因短文本在微博、短信、短视频领域的频繁出现，短文本相似度计算这一任务的需求在日益扩增。短文本相似度计算是自然语言处理(NLP)乃至机器学习领域的难点和热点，它是NLP中一个重要任务，既可以当成一个单独的任务，又可以作为其它NLP应用的基础。目前短文本相似度计算方法通常使用基于外部知识的方法及基于序列的方法，其中基于外部知识的方法借助譬如语义关联知识库、语义分析树、外部语料库等语言学工具以及预训练模型，这类方法依赖于人为构建的既定规则以及人工构建的特征工程，通常需要大量的计算资源以及专业知识作为前期工作；基于序列的方法通常是将一个文本表示成一组标志的有序组合，这种方法缺乏文本的结构性知识并且不能获取到两个距离较长的标志之间的关系，缺乏对文本内容的准确和细腻的理解。

发明内容

本发明要解决的技术问题在于提供一种基于图神经网络的短文本相似度计算方法，该方法通过边学习机制、混合多头图学习机制进行短文本相似度计算，解决了现有技术中存在的问题。

为了解决上述技术问题，本发明通过以下方式来实现：

基于图神经网络的短文本相似度计算方法，包括以下步骤：

1)构建文本图表达获取文本的基础图结构数据；

2)基于注意力的边学习机制，通过节点信息学习到文本图的边；

3)采用混合多头图学习机制，将图注意力网络及GraphSAGE网络产生的节点进行混合表达；

4)图相似度计算。

进一步的，所述步骤1)中的构建文本图表达获取文本的基础图结构数据，首先将输入的短文本进行文本清洗及文本分词，通过图构建将原始文本转为能够被图神经网络利用的图结构形式，然后采用采用预训练的GloVe模型对清洗后的文本进行词嵌入，将每个词嵌入作为图的一个节点，进而通过文本图表达获取文本的基础图结构数据。

进一步的，所述步骤2)中基于注意力的边学习机制，通过节点信息学习到文本图的边，利用可学习的权重矩阵计算每个节点之间的相关度，若相关度大于等于某阈值，则在两个节点之间构建边，其具体公式如下：

其中，W表示为可学习权重矩阵，能够根据下游任务调整自身的数值，α表示为设定阈值，v_j、v_i表示为节点表示，⊙表示向量之间的点乘，×表示矩阵之间的乘法，若e_ij为1，则在节点i、j之间构建边。

进一步的，所述步骤3)中采用混合多头图学习机制，针对图注意力网络(GAT)及GraphSAGE网络构造不同的图，增强了网络的学习能力，并采用了残差结构优化了梯度下降的路径，更好的适应深层的网络结构，所述的混合多头图学习机制的公式如下：

其中，h_e表示为节点的最终表达，A(h)表示为一个包含GAT及GraphSAGE学习到的节点表达集合，h_i表示为节点i的表达，T为转置符号。

进一步的，所述步骤4)中图相似度计算，具体包括以下分步骤：

41)采用加权相加的方法对图进行池化，利用一个全连接层计算图中每个节点的权重，将每个节点权重附加到节点表示上进行累加得到图的最终表示，进而获取到文本综合了上下文信息和高层语义信息的最终表达，其具体公式如下：

其中，G表示为句子的最终表达，G(v)表示为包含图中所有节点的集合，Linear表示全连接网络；

42)利用皮尔逊相关系数对池化后的向量计算相似度，用于表示文本的相似性，其具体公式如下：

其中，S(X，Y)表示为短文本对间的相似度，X，Y表示为两个句子的最终表达，E表示为期望值计算函数，μ_X和μ_Y分别表示为X和Y的平均值，X_i表示句子最终表达X矩阵中的一个元素，Y_i表示句子最终表达Y矩阵中的一个元素。

与现有技术相比，本发明具有的有益效果：

本发明通过边学习机制、注意力的动态文本图表达和混合多头图学习机制，能够使得所学习到的节点包含的信息维度更加丰富，从而获取到更加丰富的句子表达；分别针对GAT和GraphSAGE构造不同的图，进一步增强网络的学习能力，而采用残差结构优化了梯度下降的路径，能够更好的适应深层的网络结构，通过把特征构建成图结构的数据并对图进行学习来获得每个句子的最终表达，利用获取到的两个不同的句子表达计算其相似度。

附图说明

图1为本发明的混合图学习的数据处理流程。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它网络或其组合的存在或添加。

如图1所示，基于图神经网络的短文本相似度计算方法，包括以下步骤：

1)构建文本图表达获取文本的基础图结构数据；

首先将输入的短文本进行文本清洗及文本分词，通过图构建将原始文本转为能够被图神经网络利用的图结构形式，然后采用采用预训练的GloVe模型对清洗后的文本进行词嵌入，将每个词嵌入作为图的一个节点，进而通过文本图表达获取文本的基础图结构数据。

原始的文本数据是以ASCII编码的形式存放于计算机当中，不能被图神经网络学习，因此需要对原始的文本数据进行图构建，将其转为能够被图神经网络利用的图结构形式。GloVe模型是2014年斯坦福nlp的研究组提出的一种新的生成词向量的方法，相较于之前的Word2Vec的方法，和统计方法TF-IDF/LSA，GloVe模型能够获取到更加丰富的语义信息。

首先利用可学习的权重矩阵计算每个节点之间的相关度，若相关度大于等于某阈值，则在两个节点之间构建边，其具体公式如下：

其中，W表示为可学习权重矩阵，能够根据下游任务调整自身的数值，即W是固定形式的矩阵且矩阵中的每个元素都是通过学习得到的；α表示为设定阈值，v_j、v_i表示为节点表示，⊙表示向量之间的点乘，×表示矩阵之间的乘法，若e_ij为1，则在节点i、j之间构建边。

在本申请中采用的基于注意力的边学习机制，通过节点信息自动学习到图的边，相比于传统的通过语法树、共现次数、语义解析构建图中边的方法更能适应下游任务，并且也不需要外部知识的支撑。

针对图注意力网络(GAT)及GraphSAGE网络构造不同的图，增强了网络的学习能力，并采用了残差结构优化了梯度下降的路径，更好的适应深层的网络结构，即通过单独的残差优化网络结构，利用简单的相加来实现梯度传播路径的下降，使得深层的网络结构能够得到更好的训练；所述的混合多头图学习机制的公式如下：

其中，h_e表示为节点的最终表达，A(h)表示为一个包含GAT及GraphSAGE学习到的节点表达集合，h_i表示为节点i的表达。

图注意力网络由Petar

于2018年提出，是将注意力机制引入到基于空间域的图神经网络，GAT所产生的节点包含丰富的邻居节点信息。GraphSAGE由WilliamL.Hamilton于2017年提出，使用节点之间连接信息，对邻居进行采样，然后通过多层聚合函数不断地将相邻节点的信息融合在一起，GraphSAGE所产的节点包含丰富的图结构信息。本发明采用一种混合机制将GAT以及GraphSAGE所产生的节点进行混合，使所学习到的节点包含的信息维度更加丰富，从而获取到更加丰富的句子表达，且分别针对GAT和GraphSAGE构造不同的图，进一步增强网络的学习能力；采用残差结构优化了梯度下降的路径。能够更好的适应深层的网络结构。

4)图相似度计算，具体包括以下分步骤：

其中，在介绍图网络结构时G表示单个句子的最终表达，G(v)表示包含图中所有节点的集合，Linear表示全连接网络；

其中，S(X，Y)表示为短文本对间的相似度，在进行对比学习时X，Y表示为两个句子的最终表达，E表示为期望值计算函数，μ_X和μ_Y分别表示为X和Y的平均值，X_i表示句子最终表达X矩阵中的一个元素，Y_i表示句子最终表达Y矩阵中的一个元素。

以上所述仅是本发明的实施方式，再次声明，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进，这些改进也列入本发明权利要求的保护范围内。

Claims

1.基于图神经网络的短文本相似度计算方法，其特征在于：包括以下步骤：

1)构建文本图表达获取文本的基础图结构数据；

4)图相似度计算。

2.根据权利要求1所述的基于图神经网络的短文本相似度计算方法，其特征在于：

所述步骤1)中的构建文本图表达获取文本的基础图结构数据，首先将输入的短文本进行文本清洗及文本分词，通过图构建将原始文本转为能够被图神经网络利用的图结构形式，然后采用采用预训练的GloVe模型对清洗后的文本进行词嵌入，将每个词嵌入作为图的一个节点，进而通过文本图表达获取文本的基础图结构数据。

3.根据权利要求1所述的基于图神经网络的短文本相似度计算方法，其特征在于：

所述步骤2)中基于注意力的边学习机制，通过节点信息学习到文本图的边，利用可学习的权重矩阵计算每个节点之间的相关度，若相关度大于等于某阈值，则在两个节点之间构建边，其具体公式如下：

其中，W表示为可学习权重矩阵，α表示为设定阈值，v_j、v_i表示为节点表示，⊙表示向量之间的点乘，×表示矩阵之间的乘法，若e_ij为1，则在节点i、j之间构建边。

4.根据权利要求1所述的基于图神经网络的短文本相似度计算方法，其特征在于：

所述步骤3)中采用混合多头图学习机制，针对图注意力网络(GAT)及GraphSAGE网络构造不同的图，增强了网络的学习能力，并采用了残差结构优化了梯度下降的路径，更好的适应深层的网络结构，所述的混合多头图学习机制的公式如下：

5.根据权利要求1所述的基于图神经网络的短文本相似度计算方法，其特征在于：

所述步骤4)中图相似度计算，具体包括以下分步骤：

其中，S(X，Y)表示为短文本对间的相似度，X，Y表示为两个句子的最终表达，E表示为期望值值计算函数，μ_X和μ_Y分别表示为X和Y的平均值，X_i表示句子最终表达X矩阵中的一个元素，Y_i表示句子最终表达Y矩阵中的一个元素。