CN116304749A

CN116304749A - 基于图卷积的长文本匹配方法

Info

Publication number: CN116304749A
Application number: CN202310565214.2A
Authority: CN
Inventors: 段俊文; 贾明颐; 廖剑波; 王建新
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-06-23
Anticipated expiration: 2043-05-19
Also published as: CN116304749B

Abstract

本发明公开了一种基于图卷积的长文本匹配方法，包括获取现有的长文本数据集；构建关键词图；获取节点的网络特征向量和概率统计特征，得到各个节点的初始特征表示；构建语义超图；构建长文本匹配模型；采用长文本数据集及得到的结果训练长文本匹配模型得到训练后的长文本匹配模型；采用训练后的长文本匹配模型进行实际的长文本匹配。本发明不仅实现了长文本的匹配，而且简化了任务难度，实现了文本对之间细粒度的语义对齐，实现了对匹配信号更准确的语义划分，保证了训练过程中超边节点间的特征相似性，可靠性高、精确性好且客观科学。

Description

基于图卷积的长文本匹配方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于图卷积的长文本匹配方法。

背景技术

文本匹配是自然语言处理领域的一种分支，其旨在研究源文本与目标文本之间的关系，例如判断两篇文本是否描述同一事件，或是否具有上下文关系等。长文本匹配是文本匹配中源文本与目标文本均为长文本的一类任务，长文本匹配技术被广泛应用于文本推荐、信息检索、新闻事件匹配以及抄袭检测等大量已知的自然语言处理任务中。同时，随着深度学习技术的不断发展，各类基于文本内容分发的应用与自媒体平台都开始广泛使用长文本匹配技术。因此，精确和高效地实现长文本匹配，已经成为了行业的广泛需求。

现今，在常用的短文本匹配技术方案中，输入的文本长度一般较短，因此文本的语义信息较为集中；所以在短文本匹配方案中，一般都是直接对文本内容进行序列化编码，便能完成文本间的语义对齐。但是，长文本包含了更加复杂的语义逻辑关系，同时在文本中也存在更多的文本噪声，这使得文本间的匹配信号较为稀疏，且分布不均匀，序列化的编码方式难以对齐这些文本间稀疏的匹配信号。所以，目前的短文本匹配方案难以直接应用于长文本的匹配任务中。此外，现有的长文本匹配的技术方案，同样也存在匹配精度不高、匹配结果可靠性较差的问题。

发明内容

本发明的目的在于提供一种可靠性高、精确性好且客观科学的基于图卷积的长文本匹配方法。

本发明提供的这种基于图卷积的长文本匹配方法，包括如下步骤：

S1. 获取现有的长文本数据集；

S2. 基于获取的长文本数据集中的文档及对应的关键词，以关键词为节点，并基于包括关键词的句子所组成的文本序列的重要程度，构建关键词图；

S3. 根据步骤S2得到的关键词图，基于孪生网络获取节点的网络特征向量，基于相似度获取节点的概率统计特征，并结合节点的网络特征向量和概率统计特征，计算得到各个节点的初始特征表示；

S4. 根据步骤S2得到的关键词图所对应的邻接矩阵，计算得到关键词图的相似度阈值，并根据关键词图中节点与对应的邻接点之间的边的权重值与相似度阈值之间的关系，构建语义超图；

S5. 基于超图卷积神经网络和前馈神经网络，构建长文本匹配模型；所述超图卷积神经网络用于获取输入数据的特征交互信息；所述前馈神经网络用于根据超图卷积神经网络输出的特征交互信息，完成分类预测；

S6. 采用步骤S1获取的长文本数据集及步骤S2~S4得到的对应的结果，对步骤S5构建的长文本匹配模型进行训练，得到训练后的长文本匹配模型；

S7. 采用步骤S6得到的训练后的长文本匹配模型，进行实际的基于图卷积的长文本匹配。

所述的步骤S1，具体包括如下步骤：

获取的长文本数据集S表示为

，其中/>

为第i个样本对中的第1篇文档；/>

为第i个样本对中的第2篇文档；/>

为从第i个样本对中抽取得到的关键词；/>

为第i个样本对的标签；N为长文本数据集S中样本对的总数。

所述的步骤S2，具体包括如下内容：

对于第i个样本对

和/>

，以及对应的关键词/>

，以关键词/>

作为关键词图中的节点；

基于文档

和/>

中包括关键词的句子所组成文本序列之间的TF-IDF值，计算得到关键词图中边的权重值；

构建得到关键词图。

所述的步骤S2，具体包括如下步骤：

A. 对于第i个样本对的文档

和文档/>

，分别进行分句处理；

B. 对于所对应的关键词

中的第j个关键词/>

，将文档/>

中包括关键词/>

的所有句子构建为句子集合/>

，将文档/>

中包括关键词/>

的所有句子构建为句子集合

，同时将句子集合/>

和/>

作为关键词/>

所对应的节点/>

的属性；

C. 对于任意两个节点

和/>

：

将节点

所对应的句子集合/>

和/>

进行拼接，得到对应的文本序列

；将节点/>

所对应的句子集合/>

和/>

进行拼接，得到对应的文本序列/>

；

计算文本序列

中每个单词的TF-IDF值，并构成文本向量/>

；计算文本序列

中每个单词的TF-IDF值，并构成文本向量/>

；

最后，计算得到节点

和/>

之间的边所对应的权重/>

为

，其中/>

表示文本序列/>

和/>

中相同的词所对应的TF-IDF值的点积，/>

为二范数符号；

D. 采用步骤B计算所有的关键词所对应的节点的属性；然后采用步骤C计算所有的任意两个节点之间的边所对应的权重值；

E. 根据步骤D的计算结果，构建得到最终的关键词图。

所述的步骤S3，具体包括如下内容：

基于步骤S2获取的关键词图，将图中节点所对应的句子集合分别拼接得到文本序列，再将文本序列输入到孪生网络中得到对应的节点特征，最后拼接得到网络特征向量；

对文本序列计算得到设定类型的余弦相似度，并拼接得到概率统计特征；

最后，基于网络特征向量和概率统计特征，计算得到各个节点的初始特征表示。

所述的步骤S3，具体包括如下步骤：

a. 对于关键词图中的第k个节点，获取对应的句子集合

和/>

；

b. 针对步骤a得到的句子集合

和/>

，将句子集合/>

中的句子进行拼接得到文本序列/>

，将句子集合/>

中的句子进行拼接得到文本序列/>

；

c. 将步骤b得到的文本序列

和文本序列/>

，输入到孪生网络中进行处理：

孪生网络包括内容层和匹配层；

将文本序列

输入到内容层中，得到对应的语义向量/>

；将文本序列/>

输入到内容层中，得到对应的语义向量/>

；

将得到的语义向量

和/>

输入到匹配层中，计算得到对应的网络特征向量/>

为/>

，其中/>

为拼接操作，/>

为语义向量/>

和/>

的哈达玛积，/>

为语义向量/>

和/>

的差向量；

d. 针对步骤b得到的文本序列

和文本序列/>

，分别计算两者之间的TF余弦相似度、TF-IDF余弦相似度、BM25余弦相似度、Ochiai相似度和基于1-gram的Jaccard相似度，并将得到的相似度分数进行拼接，得到节点的概率统计特征；

e. 将步骤c得到的网络特征向量和步骤d得到的概率统计特征进行拼接，得到关键词图中的第k个节点的初始特征表示；

f. 重复步骤a~e，计算得到关键词图中所有节点的初始特征表示。

所述的步骤S4，具体包括如下内容：

根据关键词图的邻接矩阵，计算得到关键词图的相似度阈值；

对于关键词图中的每个节点进行判断：若当前节点与邻接点之间边的权重大于相似度阈值，则将当前节点与该邻接点构建一组超边节点；

对所有的节点均进行以上判断后，再删除节点数量小于设定值的超边，并将剩余的超边构建得到最终的语义超图。

所述的步骤S4，具体包括如下步骤：

（1）根据关键词图，计算得到关键词图的邻接矩阵AA，邻接矩阵AA为nn行nn列的矩阵；

（2）采用如下算式计算得到关键词图的相似度阈值kk：

式中

为邻接矩阵AA中第ii行第jj列的元素的值；/>

为邻接矩阵AA中值不为0的元素的个数；

（3）构建超边：对于关键词图中的任意节点，判断该节点与邻接节点之间的边的权重是否大于步骤（2）计算得到的相似度阈值kk，将该节点与其邻接节点之间权值大于相似度阈值的边所连接的节点构建为一组超边节点；

（4）对关键词图中的所有节点，均执行步骤（3）的操作，构建得到超边集合；然后在超边集合中，删除节点数量小于设定值的超边，并利用剩余的超边构建得到最终的语义超图。

所述的步骤S5，具体包括如下内容：

长文本匹配模型包括超图卷积神经网络和分类器网络，所述分类器网络为前馈神经网络；

选择每条超边中特征差异最大的两个节点，构建得到语义图；

将得到的语义图通过超图卷积神经网络进行特征交互，得到语义图中每个节点的输出特征；

将输出特征池化后，再采用分类器网络进行预测分类，得到最终的预测结果。

所述的步骤S5，具体包括如下步骤：

长文本匹配模型包括超图卷积神经网络和分类器网络，所述分类器网络采用单层前馈神经网络；

对于任意超边所对应的节点

，采用线性层将节点转换为特征表示

，/>

为线性层处理函数，m为当前当前超边的节点个数；计算任意两个节点的特征表示之间的二范数，并选择二范数最大的两个节点作为当前超边的表示节点，两个表示节点之间的边的权重为关键词图中对应的权重；重复本步骤直至所有的超边均计算完成，得到语义图；

将得到的语义图通过超图卷积神经网络进行特征交互，得到语义图中每个节点的输出特征；特征交互的过程采用如下算式表示：

式中/>

为节点v的第/>

层的特征表示；/>

为非线性激活函数；θ为权重参数；/>

为卷积层的层数；/>

为节点v的邻接节点集合；/>

为语义图的邻接矩阵中节点v与节点u之间归一化后的权重；/>

为节点v的第/>

层的特征表示；

将输出特征进行均值池化后，再采用分类器网络进行预测分类，得到最终的预测结果。

步骤S6所述的训练，具体包括如下步骤：

1）将全部的数据按照设定的比例划分为训练集、验证集和测试集；设定迭代轮次变量并初始化为1；设定最佳评价指标变量并初始化为0，最佳评价指标变量用于评价模型的表现；

2）设置训练步数变量并初始化为0；

3）随机从训练集中选取一个样本；

4）根据步骤3）选取的样本，构建语义超图；

5）将生成的语义超图输入到当前的长文本匹配模型中进行处理；

6）采用交叉熵损失作为模型的损失函数；

7）进行反向传播，得到待训练参数的梯度；

8）采用Adam优化器作为优化器来更新待训练参数；

9）训练步数变量的值增加1，并进行判断：

若训练步数变量的值为设定的间隔记录值的整数倍，则采用验证集对当前的长文本匹配模型进行评估：计算当前模型在验证集上的F1值，并与当前的最佳评价指标变量的值进行比较，若当前模型的F1值大于当前的最佳评价指标变量的值，则将当前的最佳评价指标变量的值更新为当前模型的F1值，同时保存当前模型的参数、当前模型的F1值和当前的训练步数；否则，继续进行后续的步骤；

若训练步数变量的值不为设定的间隔记录值的整数倍，则继续进行后续的步骤；

10）重复步骤3）~9），直至训练集中的所有样本均被选取并训练完毕，当前训练轮次结束；迭代轮次变量的值增加1；

11）重复步骤2）~10），直至迭代轮次变量的值达到设定值，训练过程结束；此时得到训练后的最终的长文本匹配模型。

本发明提供的这种基于图卷积的长文本匹配方法，通过关键词图的构建长文本匹配问题被简化为了多个基于关键词节点划分的短文本匹配问题，不仅简化了任务难度，而且实现了文本对之间细粒度的语义对齐；同时通过语义超图的构建实现了对匹配信号更准确的语义划分，超图卷积神经网络的使用则保证了训练过程中超边节点间的特征相似性；因此，本发明不仅实现了长文本的匹配，而且可靠性高、精确性好且客观科学。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

如图1所示为本发明的方法流程示意图：本发明提供的这种基于图卷积的长文本匹配方法，包括如下步骤：

S1. 获取现有的长文本数据集；具体包括如下步骤：

获取的长文本数据集S表示为

，其中/>

为第i个样本对中的第1篇文档；/>

为第i个样本对中的第2篇文档；/>

为从第i个样本对中抽取得到的关键词；/>

为第i个样本对的标签；N为长文本数据集S中样本对的总数。

在抽取关键词时，可以采用TextRank算法进行关键词的抽取；TextRank算法是一种基于图的排序算法，主要用于关键词的提取、文本摘要的抽取等；

S2. 基于获取的长文本数据集中的文档及对应的关键词，以关键词为节点，并基于包括关键词的句子所组成的文本序列的重要程度，构建关键词图；具体包括如下内容：

对于第i个样本对

和/>

，以及对应的关键词/>

，以关键词/>

作为关键词图中的节点；

基于文档

和/>

中包括关键词的句子所组成文本序列之间的TF-IDF（TermFrequency–Inverse Document Frequency，词频-逆文本频率）值，计算得到关键词图中边的权重值；其中，TF-IDF值用于评估字词对于文件集或语料库中的文件的重要程度；

构建得到关键词图；

具体实施时，包括如下步骤：

A. 对于第i个样本对的文档

和文档/>

，分别进行分句处理；

B. 对于所对应的关键词

中的第j个关键词/>

，将文档/>

中包括关键词/>

的所有句子构建为句子集合/>

，将文档/>

中包括关键词/>

的所有句子构建为句子集合

，同时将句子集合/>

和/>

作为关键词/>

所对应的节点/>

的属性；

C. 对于任意两个节点

和/>

：

将节点

所对应的句子集合/>

和/>

进行拼接，得到对应的文本序列/>

；将节点/>

所对应的句子集合/>

和/>

进行拼接，得到对应的文本序列/>

；

计算文本序列

中每个单词的TF-IDF值，并构成文本向量/>

；计算文本序列/>

中每个单词的TF-IDF值，并构成文本向量/>

；

最后，计算得到节点

和/>

之间的边所对应的权重/>

为

，其中/>

表示文本序列/>

和/>

中相同的词所对应的TF-IDF值的点积，/>

为二范数符号；

E. 根据步骤D的计算结果，构建得到最终的关键词图；

S3. 根据步骤S2得到的关键词图，基于孪生网络获取节点的网络特征向量，基于相似度获取节点的概率统计特征，并结合节点的网络特征向量和概率统计特征，计算得到各个节点的初始特征表示；具体包括如下内容：

最后，基于网络特征向量和概率统计特征，计算得到各个节点的初始特征表示；

具体实施时，包括如下步骤：

a. 对于关键词图中的第k个节点，获取对应的句子集合

和/>

；

b. 针对步骤a得到的句子集合

和/>

，将句子集合/>

中的句子进行拼接得到文本序列/>

，将句子集合/>

中的句子进行拼接得到文本序列/>

；

c. 将步骤b得到的文本序列

和文本序列/>

，输入到孪生网络中进行处理：

孪生网络包括内容层和匹配层；

将文本序列

输入到内容层中，得到对应的语义向量/>

；将文本序列/>

输入到内容层中，得到对应的语义向量/>

；

将得到的语义向量

和/>

输入到匹配层中，计算得到对应的网络特征向量/>

为/>

，其中/>

为拼接操作，/>

为语义向量/>

和/>

的哈达玛积，/>

为语义向量/>

和/>

的差向量；

d. 针对步骤b得到的文本序列

和文本序列/>

，分别计算两者之间的TF余弦相似度、TF-IDF余弦相似度、BM25余弦相似度、Ochiai相似度和基于1-gram的Jaccard相似度，并将得到的相似度分数进行拼接，得到节点的概率统计特征。

其中，TF余弦相似度、TF-IDF余弦相似度、BM25余弦相似度能够根据词频信息计算出两文本中每个词的重要性，并根据重叠词汇的重要性分数来计算两文本间的相似度，属于细粒度的概率统计特征；而Ochiai相似度与基于1-gram的Jaccard相似度仅通过两文本的重叠词数量来计算两文本间的相似度，属于粗粒度的概率统计特征；

f. 重复步骤a~e，计算得到关键词图中所有节点的初始特征表示；

S4. 根据步骤S2得到的关键词图所对应的邻接矩阵，计算得到关键词图的相似度阈值，并根据关键词图中节点与对应的邻接点之间的边的权重值与相似度阈值之间的关系，构建语义超图；具体包括如下内容：

对所有的节点均进行以上判断后，再删除节点数量小于设定值的超边，并将剩余的超边构建得到最终的语义超图；

具体实施时，包括如下步骤：

（2）采用如下算式计算得到关键词图的相似度阈值kk：

式中

为邻接矩阵AA中第ii行第jj列的元素的值；/>

为邻接矩阵AA中值不为0的元素的个数；

（4）对关键词图中的所有节点，均执行步骤（3）的操作，构建得到超边集合；然后在超边集合中，删除节点数量小于设定值（优选为2）的超边，并利用剩余的超边构建得到最终的语义超图；

S5. 基于超图卷积神经网络和前馈神经网络，构建长文本匹配模型；所述超图卷积神经网络用于获取输入数据的特征交互信息；所述前馈神经网络用于根据超图卷积神经网络输出的特征交互信息，完成分类预测；具体包括如下内容：

将输出特征池化后，再采用分类器网络进行预测分类，得到最终的预测结果；

具体实施时，包括如下步骤：

对于任意超边所对应的节点

，采用线性层将节点转换为特征表示/>

，/>

式中

为节点v的第/>

层的特征表示；/>

为非线性激活函数；θ为权重参数；/>

为卷积层的层数；/>

为节点v的邻接节点集合；/>

为语义图的邻接矩阵中节点v与节点u之间归一化后的权重；/>

为节点v的第/>

层的特征表示；

将输出特征进行均值池化后，再采用分类器网络进行预测分类，得到最终的预测结果；

训练时，具体包括如下步骤：

1）将全部的数据按照设定的比例（比如设定为3:1:1）划分为训练集、验证集和测试集；设定迭代轮次变量并初始化为1；设定最佳评价指标变量并初始化为0，最佳评价指标变量用于评价模型的表现；

2）设置训练步数变量并初始化为0；

3）随机从训练集中选取一个样本；

4）根据步骤3）选取的样本，构建语义超图；

6）采用交叉熵损失作为模型的损失函数；

7）进行反向传播，得到待训练参数的梯度；

8）采用Adam优化器作为优化器来更新待训练参数；

9）训练步数变量的值增加1，并进行判断：

若训练步数变量的值为设定的间隔记录值的整数倍，则采用验证集对当前的长文本匹配模型进行评估：计算当前模型在验证集上的F1值，并与当前的最佳评价指标变量的值进行比较，若当前模型的F1值大于当前的最佳评价指标变量的值，则将当前的最佳评价指标变量的值更新为当前模型的F1值，同时保存当前模型的参数、当前模型的F1值和当前的训练步数；否则，继续进行后续的步骤；其中，F1值为分类问题常用的评价指标，该评价指标综合考虑了分类问题的准确率和召回率；

11）重复步骤2）~10），直至迭代轮次变量的值达到设定值（比如10轮），训练过程结束；此时得到训练后的最终的长文本匹配模型；

以下结合一个实施例，对本发明方法进行进一步说明：

在现有公开的数据集CNSE和CNSS上，采用现有方法与本发明提供的匹配方法进行长文本匹配，并以准确率和F1值作为评估指标；其中CNSE为中文新闻同事件数据集，CNSS为中文新闻同故事数据集；两个数据集均包含许多对带有标签的新闻文章，这些标签表示一对新闻文章是否正在报道同一突发新闻事件。

最终，得到的对比数据如表1所示：

表1对比数据示意表

通过表1的实验数据可以看到，本申请模型超过了所有的现有技术的匹配模型，在CNSE与CNSS数据集上均达到了较好的匹配效果，充分说明了本申请方案在长文本匹配任务上的优越性。

然后，将不同模型在CNSE数据集上的匹配性能进行对比，相应的对比数据如表2所示：

表2不同模型在CNSE数据集上的匹配性能对比数据表

对比表中三个模型的参数量，本申请模型的参数个数约为8.7K，相较于现有CIG模型的17.4K，参数量减少了48.6%，而Match-Ignition模型由于是基于预训练微调的模型，因而参数量远远大于其他模型。同时，本方法的单轮次的训练时长为12.3分钟，相较于CIG模型的20.7分减少了40.8%，相较于Match-Ignition模型的35.6分减少了65.45%。因此，通过表2的数据可以知道，本申请的模型具有良好的匹配性能，而且本申请方案的效率也较高。