CN116304749A - 基于图卷积的长文本匹配方法 - Google Patents

基于图卷积的长文本匹配方法 Download PDF

Info

Publication number
CN116304749A
CN116304749A CN202310565214.2A CN202310565214A CN116304749A CN 116304749 A CN116304749 A CN 116304749A CN 202310565214 A CN202310565214 A CN 202310565214A CN 116304749 A CN116304749 A CN 116304749A
Authority
CN
China
Prior art keywords
nodes
graph
value
node
long text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310565214.2A
Other languages
English (en)
Other versions
CN116304749B (zh
Inventor
段俊文
贾明颐
廖剑波
王建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310565214.2A priority Critical patent/CN116304749B/zh
Publication of CN116304749A publication Critical patent/CN116304749A/zh
Application granted granted Critical
Publication of CN116304749B publication Critical patent/CN116304749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图卷积的长文本匹配方法,包括获取现有的长文本数据集;构建关键词图;获取节点的网络特征向量和概率统计特征,得到各个节点的初始特征表示;构建语义超图;构建长文本匹配模型;采用长文本数据集及得到的结果训练长文本匹配模型得到训练后的长文本匹配模型;采用训练后的长文本匹配模型进行实际的长文本匹配。本发明不仅实现了长文本的匹配,而且简化了任务难度,实现了文本对之间细粒度的语义对齐,实现了对匹配信号更准确的语义划分,保证了训练过程中超边节点间的特征相似性,可靠性高、精确性好且客观科学。

Description

基于图卷积的长文本匹配方法
技术领域
本发明属于自然语言处理领域,具体涉及一种基于图卷积的长文本匹配方法。
背景技术
文本匹配是自然语言处理领域的一种分支,其旨在研究源文本与目标文本之间的关系,例如判断两篇文本是否描述同一事件,或是否具有上下文关系等。长文本匹配是文本匹配中源文本与目标文本均为长文本的一类任务,长文本匹配技术被广泛应用于文本推荐、信息检索、新闻事件匹配以及抄袭检测等大量已知的自然语言处理任务中。同时,随着深度学习技术的不断发展,各类基于文本内容分发的应用与自媒体平台都开始广泛使用长文本匹配技术。因此,精确和高效地实现长文本匹配,已经成为了行业的广泛需求。
现今,在常用的短文本匹配技术方案中,输入的文本长度一般较短,因此文本的语义信息较为集中;所以在短文本匹配方案中,一般都是直接对文本内容进行序列化编码,便能完成文本间的语义对齐。但是,长文本包含了更加复杂的语义逻辑关系,同时在文本中也存在更多的文本噪声,这使得文本间的匹配信号较为稀疏,且分布不均匀,序列化的编码方式难以对齐这些文本间稀疏的匹配信号。所以,目前的短文本匹配方案难以直接应用于长文本的匹配任务中。此外,现有的长文本匹配的技术方案,同样也存在匹配精度不高、匹配结果可靠性较差的问题。
发明内容
本发明的目的在于提供一种可靠性高、精确性好且客观科学的基于图卷积的长文本匹配方法。
本发明提供的这种基于图卷积的长文本匹配方法,包括如下步骤:
S1. 获取现有的长文本数据集;
S2. 基于获取的长文本数据集中的文档及对应的关键词,以关键词为节点,并基于包括关键词的句子所组成的文本序列的重要程度,构建关键词图;
S3. 根据步骤S2得到的关键词图,基于孪生网络获取节点的网络特征向量,基于相似度获取节点的概率统计特征,并结合节点的网络特征向量和概率统计特征,计算得到各个节点的初始特征表示;
S4. 根据步骤S2得到的关键词图所对应的邻接矩阵,计算得到关键词图的相似度阈值,并根据关键词图中节点与对应的邻接点之间的边的权重值与相似度阈值之间的关系,构建语义超图;
S5. 基于超图卷积神经网络和前馈神经网络,构建长文本匹配模型;所述超图卷积神经网络用于获取输入数据的特征交互信息;所述前馈神经网络用于根据超图卷积神经网络输出的特征交互信息,完成分类预测;
S6. 采用步骤S1获取的长文本数据集及步骤S2~S4得到的对应的结果,对步骤S5构建的长文本匹配模型进行训练,得到训练后的长文本匹配模型;
S7. 采用步骤S6得到的训练后的长文本匹配模型,进行实际的基于图卷积的长文本匹配。
所述的步骤S1,具体包括如下步骤:
获取的长文本数据集S表示为
Figure SMS_1
,其中/>
Figure SMS_2
为第i个样本对中的第1篇文档;/>
Figure SMS_3
为第i个样本对中的第2篇文档;/>
Figure SMS_4
为从第i个样本对中抽取得到的关键词;/>
Figure SMS_5
为第i个样本对的标签;N为长文本数据集S中样本对的总数。
所述的步骤S2,具体包括如下内容:
对于第i个样本对
Figure SMS_6
和/>
Figure SMS_7
,以及对应的关键词/>
Figure SMS_8
,以关键词/>
Figure SMS_9
作为关键词图中的节点;
基于文档
Figure SMS_10
和/>
Figure SMS_11
中包括关键词的句子所组成文本序列之间的TF-IDF值,计算得到关键词图中边的权重值;
构建得到关键词图。
所述的步骤S2,具体包括如下步骤:
A. 对于第i个样本对的文档
Figure SMS_12
和文档/>
Figure SMS_13
,分别进行分句处理;
B. 对于所对应的关键词
Figure SMS_15
中的第j个关键词/>
Figure SMS_16
,将文档/>
Figure SMS_18
中包括关键词/>
Figure SMS_21
的所有句子构建为句子集合/>
Figure SMS_23
,将文档/>
Figure SMS_24
中包括关键词/>
Figure SMS_25
的所有句子构建为句子集合
Figure SMS_14
,同时将句子集合/>
Figure SMS_17
和/>
Figure SMS_19
作为关键词/>
Figure SMS_20
所对应的节点/>
Figure SMS_22
的属性;
C. 对于任意两个节点
Figure SMS_26
和/>
Figure SMS_27
将节点
Figure SMS_29
所对应的句子集合/>
Figure SMS_30
和/>
Figure SMS_31
进行拼接,得到对应的文本序列
Figure SMS_32
;将节点/>
Figure SMS_33
所对应的句子集合/>
Figure SMS_34
和/>
Figure SMS_35
进行拼接,得到对应的文本序列/>
Figure SMS_28
计算文本序列
Figure SMS_36
中每个单词的TF-IDF值,并构成文本向量/>
Figure SMS_37
;计算文本序列
Figure SMS_38
中每个单词的TF-IDF值,并构成文本向量/>
Figure SMS_39
最后,计算得到节点
Figure SMS_41
和/>
Figure SMS_42
之间的边所对应的权重/>
Figure SMS_43
Figure SMS_44
,其中/>
Figure SMS_45
表示文本序列/>
Figure SMS_46
和/>
Figure SMS_47
中相同的词所对应的TF-IDF值的点积,/>
Figure SMS_40
为二范数符号;
D. 采用步骤B计算所有的关键词所对应的节点的属性;然后采用步骤C计算所有的任意两个节点之间的边所对应的权重值;
E. 根据步骤D的计算结果,构建得到最终的关键词图。
所述的步骤S3,具体包括如下内容:
基于步骤S2获取的关键词图,将图中节点所对应的句子集合分别拼接得到文本序列,再将文本序列输入到孪生网络中得到对应的节点特征,最后拼接得到网络特征向量;
对文本序列计算得到设定类型的余弦相似度,并拼接得到概率统计特征;
最后,基于网络特征向量和概率统计特征,计算得到各个节点的初始特征表示。
所述的步骤S3,具体包括如下步骤:
a. 对于关键词图中的第k个节点,获取对应的句子集合
Figure SMS_48
和/>
Figure SMS_49
b. 针对步骤a得到的句子集合
Figure SMS_50
和/>
Figure SMS_51
,将句子集合/>
Figure SMS_52
中的句子进行拼接得到文本序列/>
Figure SMS_53
,将句子集合/>
Figure SMS_54
中的句子进行拼接得到文本序列/>
Figure SMS_55
c. 将步骤b得到的文本序列
Figure SMS_56
和文本序列/>
Figure SMS_57
,输入到孪生网络中进行处理:
孪生网络包括内容层和匹配层;
将文本序列
Figure SMS_58
输入到内容层中,得到对应的语义向量/>
Figure SMS_59
;将文本序列/>
Figure SMS_60
输入到内容层中,得到对应的语义向量/>
Figure SMS_61
将得到的语义向量
Figure SMS_63
和/>
Figure SMS_65
输入到匹配层中,计算得到对应的网络特征向量/>
Figure SMS_67
为/>
Figure SMS_69
,其中/>
Figure SMS_70
为拼接操作,/>
Figure SMS_71
为语义向量/>
Figure SMS_72
和/>
Figure SMS_62
的哈达玛积,/>
Figure SMS_64
为语义向量/>
Figure SMS_66
和/>
Figure SMS_68
的差向量;
d. 针对步骤b得到的文本序列
Figure SMS_73
和文本序列/>
Figure SMS_74
,分别计算两者之间的TF余弦相似度、TF-IDF余弦相似度、BM25余弦相似度、Ochiai相似度和基于1-gram的Jaccard相似度,并将得到的相似度分数进行拼接,得到节点的概率统计特征;
e. 将步骤c得到的网络特征向量和步骤d得到的概率统计特征进行拼接,得到关键词图中的第k个节点的初始特征表示;
f. 重复步骤a~e,计算得到关键词图中所有节点的初始特征表示。
所述的步骤S4,具体包括如下内容:
根据关键词图的邻接矩阵,计算得到关键词图的相似度阈值;
对于关键词图中的每个节点进行判断:若当前节点与邻接点之间边的权重大于相似度阈值,则将当前节点与该邻接点构建一组超边节点;
对所有的节点均进行以上判断后,再删除节点数量小于设定值的超边,并将剩余的超边构建得到最终的语义超图。
所述的步骤S4,具体包括如下步骤:
(1)根据关键词图,计算得到关键词图的邻接矩阵AA,邻接矩阵AAnnnn列的矩阵;
(2)采用如下算式计算得到关键词图的相似度阈值kk
Figure SMS_75
式中
Figure SMS_76
为邻接矩阵AA中第ii行第jj列的元素的值;/>
Figure SMS_77
为邻接矩阵AA中值不为0的元素的个数;
(3)构建超边:对于关键词图中的任意节点,判断该节点与邻接节点之间的边的权重是否大于步骤(2)计算得到的相似度阈值kk,将该节点与其邻接节点之间权值大于相似度阈值的边所连接的节点构建为一组超边节点;
(4)对关键词图中的所有节点,均执行步骤(3)的操作,构建得到超边集合;然后在超边集合中,删除节点数量小于设定值的超边,并利用剩余的超边构建得到最终的语义超图。
所述的步骤S5,具体包括如下内容:
长文本匹配模型包括超图卷积神经网络和分类器网络,所述分类器网络为前馈神经网络;
选择每条超边中特征差异最大的两个节点,构建得到语义图;
将得到的语义图通过超图卷积神经网络进行特征交互,得到语义图中每个节点的输出特征;
将输出特征池化后,再采用分类器网络进行预测分类,得到最终的预测结果。
所述的步骤S5,具体包括如下步骤:
长文本匹配模型包括超图卷积神经网络和分类器网络,所述分类器网络采用单层前馈神经网络;
对于任意超边所对应的节点
Figure SMS_78
,采用线性层将节点转换为特征表示
Figure SMS_79
,/>
Figure SMS_80
为线性层处理函数,m为当前当前超边的节点个数;计算任意两个节点的特征表示之间的二范数,并选择二范数最大的两个节点作为当前超边的表示节点,两个表示节点之间的边的权重为关键词图中对应的权重;重复本步骤直至所有的超边均计算完成,得到语义图;
将得到的语义图通过超图卷积神经网络进行特征交互,得到语义图中每个节点的输出特征;特征交互的过程采用如下算式表示:
Figure SMS_82
式中/>
Figure SMS_83
为节点v的第/>
Figure SMS_85
层的特征表示;/>
Figure SMS_86
为非线性激活函数;θ为权重参数;/>
Figure SMS_87
为卷积层的层数;/>
Figure SMS_88
为节点v的邻接节点集合;/>
Figure SMS_89
为语义图的邻接矩阵中节点v与节点u之间归一化后的权重;/>
Figure SMS_81
为节点v的第/>
Figure SMS_84
层的特征表示;
将输出特征进行均值池化后,再采用分类器网络进行预测分类,得到最终的预测结果。
步骤S6所述的训练,具体包括如下步骤:
1)将全部的数据按照设定的比例划分为训练集、验证集和测试集;设定迭代轮次变量并初始化为1;设定最佳评价指标变量并初始化为0,最佳评价指标变量用于评价模型的表现;
2)设置训练步数变量并初始化为0;
3)随机从训练集中选取一个样本;
4)根据步骤3)选取的样本,构建语义超图;
5)将生成的语义超图输入到当前的长文本匹配模型中进行处理;
6)采用交叉熵损失作为模型的损失函数;
7)进行反向传播,得到待训练参数的梯度;
8)采用Adam优化器作为优化器来更新待训练参数;
9)训练步数变量的值增加1,并进行判断:
若训练步数变量的值为设定的间隔记录值的整数倍,则采用验证集对当前的长文本匹配模型进行评估:计算当前模型在验证集上的F1值,并与当前的最佳评价指标变量的值进行比较,若当前模型的F1值大于当前的最佳评价指标变量的值,则将当前的最佳评价指标变量的值更新为当前模型的F1值,同时保存当前模型的参数、当前模型的F1值和当前的训练步数;否则,继续进行后续的步骤;
若训练步数变量的值不为设定的间隔记录值的整数倍,则继续进行后续的步骤;
10)重复步骤3)~9),直至训练集中的所有样本均被选取并训练完毕,当前训练轮次结束;迭代轮次变量的值增加1;
11)重复步骤2)~10),直至迭代轮次变量的值达到设定值,训练过程结束;此时得到训练后的最终的长文本匹配模型。
本发明提供的这种基于图卷积的长文本匹配方法,通过关键词图的构建长文本匹配问题被简化为了多个基于关键词节点划分的短文本匹配问题,不仅简化了任务难度,而且实现了文本对之间细粒度的语义对齐;同时通过语义超图的构建实现了对匹配信号更准确的语义划分,超图卷积神经网络的使用则保证了训练过程中超边节点间的特征相似性;因此,本发明不仅实现了长文本的匹配,而且可靠性高、精确性好且客观科学。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
如图1所示为本发明的方法流程示意图:本发明提供的这种基于图卷积的长文本匹配方法,包括如下步骤:
S1. 获取现有的长文本数据集;具体包括如下步骤:
获取的长文本数据集S表示为
Figure SMS_90
,其中/>
Figure SMS_91
为第i个样本对中的第1篇文档;/>
Figure SMS_92
为第i个样本对中的第2篇文档;/>
Figure SMS_93
为从第i个样本对中抽取得到的关键词;/>
Figure SMS_94
为第i个样本对的标签;N为长文本数据集S中样本对的总数。
在抽取关键词时,可以采用TextRank算法进行关键词的抽取;TextRank算法是一种基于图的排序算法,主要用于关键词的提取、文本摘要的抽取等;
S2. 基于获取的长文本数据集中的文档及对应的关键词,以关键词为节点,并基于包括关键词的句子所组成的文本序列的重要程度,构建关键词图;具体包括如下内容:
对于第i个样本对
Figure SMS_95
和/>
Figure SMS_96
,以及对应的关键词/>
Figure SMS_97
,以关键词/>
Figure SMS_98
作为关键词图中的节点;
基于文档
Figure SMS_99
和/>
Figure SMS_100
中包括关键词的句子所组成文本序列之间的TF-IDF(TermFrequency–Inverse Document Frequency,词频-逆文本频率)值,计算得到关键词图中边的权重值;其中,TF-IDF值用于评估字词对于文件集或语料库中的文件的重要程度;
构建得到关键词图;
具体实施时,包括如下步骤:
A. 对于第i个样本对的文档
Figure SMS_101
和文档/>
Figure SMS_102
,分别进行分句处理;
B. 对于所对应的关键词
Figure SMS_104
中的第j个关键词/>
Figure SMS_106
,将文档/>
Figure SMS_108
中包括关键词/>
Figure SMS_110
的所有句子构建为句子集合/>
Figure SMS_112
,将文档/>
Figure SMS_113
中包括关键词/>
Figure SMS_114
的所有句子构建为句子集合
Figure SMS_103
,同时将句子集合/>
Figure SMS_105
和/>
Figure SMS_107
作为关键词/>
Figure SMS_109
所对应的节点/>
Figure SMS_111
的属性;
C. 对于任意两个节点
Figure SMS_115
和/>
Figure SMS_116
将节点
Figure SMS_117
所对应的句子集合/>
Figure SMS_119
和/>
Figure SMS_120
进行拼接,得到对应的文本序列/>
Figure SMS_121
;将节点/>
Figure SMS_122
所对应的句子集合/>
Figure SMS_123
和/>
Figure SMS_124
进行拼接,得到对应的文本序列/>
Figure SMS_118
计算文本序列
Figure SMS_125
中每个单词的TF-IDF值,并构成文本向量/>
Figure SMS_126
;计算文本序列/>
Figure SMS_127
中每个单词的TF-IDF值,并构成文本向量/>
Figure SMS_128
最后,计算得到节点
Figure SMS_130
和/>
Figure SMS_131
之间的边所对应的权重/>
Figure SMS_132
Figure SMS_133
,其中/>
Figure SMS_134
表示文本序列/>
Figure SMS_135
和/>
Figure SMS_136
中相同的词所对应的TF-IDF值的点积,/>
Figure SMS_129
为二范数符号;
D. 采用步骤B计算所有的关键词所对应的节点的属性;然后采用步骤C计算所有的任意两个节点之间的边所对应的权重值;
E. 根据步骤D的计算结果,构建得到最终的关键词图;
S3. 根据步骤S2得到的关键词图,基于孪生网络获取节点的网络特征向量,基于相似度获取节点的概率统计特征,并结合节点的网络特征向量和概率统计特征,计算得到各个节点的初始特征表示;具体包括如下内容:
基于步骤S2获取的关键词图,将图中节点所对应的句子集合分别拼接得到文本序列,再将文本序列输入到孪生网络中得到对应的节点特征,最后拼接得到网络特征向量;
对文本序列计算得到设定类型的余弦相似度,并拼接得到概率统计特征;
最后,基于网络特征向量和概率统计特征,计算得到各个节点的初始特征表示;
具体实施时,包括如下步骤:
a. 对于关键词图中的第k个节点,获取对应的句子集合
Figure SMS_137
和/>
Figure SMS_138
b. 针对步骤a得到的句子集合
Figure SMS_139
和/>
Figure SMS_140
,将句子集合/>
Figure SMS_141
中的句子进行拼接得到文本序列/>
Figure SMS_142
,将句子集合/>
Figure SMS_143
中的句子进行拼接得到文本序列/>
Figure SMS_144
c. 将步骤b得到的文本序列
Figure SMS_145
和文本序列/>
Figure SMS_146
,输入到孪生网络中进行处理:
孪生网络包括内容层和匹配层;
将文本序列
Figure SMS_147
输入到内容层中,得到对应的语义向量/>
Figure SMS_148
;将文本序列/>
Figure SMS_149
输入到内容层中,得到对应的语义向量/>
Figure SMS_150
将得到的语义向量
Figure SMS_152
和/>
Figure SMS_154
输入到匹配层中,计算得到对应的网络特征向量/>
Figure SMS_156
为/>
Figure SMS_158
,其中/>
Figure SMS_159
为拼接操作,/>
Figure SMS_160
为语义向量/>
Figure SMS_161
和/>
Figure SMS_151
的哈达玛积,/>
Figure SMS_153
为语义向量/>
Figure SMS_155
和/>
Figure SMS_157
的差向量;
d. 针对步骤b得到的文本序列
Figure SMS_162
和文本序列/>
Figure SMS_163
,分别计算两者之间的TF余弦相似度、TF-IDF余弦相似度、BM25余弦相似度、Ochiai相似度和基于1-gram的Jaccard相似度,并将得到的相似度分数进行拼接,得到节点的概率统计特征。
其中,TF余弦相似度、TF-IDF余弦相似度、BM25余弦相似度能够根据词频信息计算出两文本中每个词的重要性,并根据重叠词汇的重要性分数来计算两文本间的相似度,属于细粒度的概率统计特征;而Ochiai相似度与基于1-gram的Jaccard相似度仅通过两文本的重叠词数量来计算两文本间的相似度,属于粗粒度的概率统计特征;
e. 将步骤c得到的网络特征向量和步骤d得到的概率统计特征进行拼接,得到关键词图中的第k个节点的初始特征表示;
f. 重复步骤a~e,计算得到关键词图中所有节点的初始特征表示;
S4. 根据步骤S2得到的关键词图所对应的邻接矩阵,计算得到关键词图的相似度阈值,并根据关键词图中节点与对应的邻接点之间的边的权重值与相似度阈值之间的关系,构建语义超图;具体包括如下内容:
根据关键词图的邻接矩阵,计算得到关键词图的相似度阈值;
对于关键词图中的每个节点进行判断:若当前节点与邻接点之间边的权重大于相似度阈值,则将当前节点与该邻接点构建一组超边节点;
对所有的节点均进行以上判断后,再删除节点数量小于设定值的超边,并将剩余的超边构建得到最终的语义超图;
具体实施时,包括如下步骤:
(1)根据关键词图,计算得到关键词图的邻接矩阵AA,邻接矩阵AAnnnn列的矩阵;
(2)采用如下算式计算得到关键词图的相似度阈值kk
Figure SMS_164
式中
Figure SMS_165
为邻接矩阵AA中第ii行第jj列的元素的值;/>
Figure SMS_166
为邻接矩阵AA中值不为0的元素的个数;
(3)构建超边:对于关键词图中的任意节点,判断该节点与邻接节点之间的边的权重是否大于步骤(2)计算得到的相似度阈值kk,将该节点与其邻接节点之间权值大于相似度阈值的边所连接的节点构建为一组超边节点;
(4)对关键词图中的所有节点,均执行步骤(3)的操作,构建得到超边集合;然后在超边集合中,删除节点数量小于设定值(优选为2)的超边,并利用剩余的超边构建得到最终的语义超图;
S5. 基于超图卷积神经网络和前馈神经网络,构建长文本匹配模型;所述超图卷积神经网络用于获取输入数据的特征交互信息;所述前馈神经网络用于根据超图卷积神经网络输出的特征交互信息,完成分类预测;具体包括如下内容:
长文本匹配模型包括超图卷积神经网络和分类器网络,所述分类器网络为前馈神经网络;
选择每条超边中特征差异最大的两个节点,构建得到语义图;
将得到的语义图通过超图卷积神经网络进行特征交互,得到语义图中每个节点的输出特征;
将输出特征池化后,再采用分类器网络进行预测分类,得到最终的预测结果;
具体实施时,包括如下步骤:
长文本匹配模型包括超图卷积神经网络和分类器网络,所述分类器网络采用单层前馈神经网络;
对于任意超边所对应的节点
Figure SMS_167
,采用线性层将节点转换为特征表示/>
Figure SMS_168
,/>
Figure SMS_169
为线性层处理函数,m为当前当前超边的节点个数;计算任意两个节点的特征表示之间的二范数,并选择二范数最大的两个节点作为当前超边的表示节点,两个表示节点之间的边的权重为关键词图中对应的权重;重复本步骤直至所有的超边均计算完成,得到语义图;
将得到的语义图通过超图卷积神经网络进行特征交互,得到语义图中每个节点的输出特征;特征交互的过程采用如下算式表示:
Figure SMS_171
式中
Figure SMS_173
为节点v的第/>
Figure SMS_174
层的特征表示;/>
Figure SMS_175
为非线性激活函数;θ为权重参数;/>
Figure SMS_176
为卷积层的层数;/>
Figure SMS_177
为节点v的邻接节点集合;/>
Figure SMS_178
为语义图的邻接矩阵中节点v与节点u之间归一化后的权重;/>
Figure SMS_170
为节点v的第/>
Figure SMS_172
层的特征表示;
将输出特征进行均值池化后,再采用分类器网络进行预测分类,得到最终的预测结果;
S6. 采用步骤S1获取的长文本数据集及步骤S2~S4得到的对应的结果,对步骤S5构建的长文本匹配模型进行训练,得到训练后的长文本匹配模型;
训练时,具体包括如下步骤:
1)将全部的数据按照设定的比例(比如设定为3:1:1)划分为训练集、验证集和测试集;设定迭代轮次变量并初始化为1;设定最佳评价指标变量并初始化为0,最佳评价指标变量用于评价模型的表现;
2)设置训练步数变量并初始化为0;
3)随机从训练集中选取一个样本;
4)根据步骤3)选取的样本,构建语义超图;
5)将生成的语义超图输入到当前的长文本匹配模型中进行处理;
6)采用交叉熵损失作为模型的损失函数;
7)进行反向传播,得到待训练参数的梯度;
8)采用Adam优化器作为优化器来更新待训练参数;
9)训练步数变量的值增加1,并进行判断:
若训练步数变量的值为设定的间隔记录值的整数倍,则采用验证集对当前的长文本匹配模型进行评估:计算当前模型在验证集上的F1值,并与当前的最佳评价指标变量的值进行比较,若当前模型的F1值大于当前的最佳评价指标变量的值,则将当前的最佳评价指标变量的值更新为当前模型的F1值,同时保存当前模型的参数、当前模型的F1值和当前的训练步数;否则,继续进行后续的步骤;其中,F1值为分类问题常用的评价指标,该评价指标综合考虑了分类问题的准确率和召回率;
若训练步数变量的值不为设定的间隔记录值的整数倍,则继续进行后续的步骤;
10)重复步骤3)~9),直至训练集中的所有样本均被选取并训练完毕,当前训练轮次结束;迭代轮次变量的值增加1;
11)重复步骤2)~10),直至迭代轮次变量的值达到设定值(比如10轮),训练过程结束;此时得到训练后的最终的长文本匹配模型;
S7. 采用步骤S6得到的训练后的长文本匹配模型,进行实际的基于图卷积的长文本匹配。
以下结合一个实施例,对本发明方法进行进一步说明:
在现有公开的数据集CNSE和CNSS上,采用现有方法与本发明提供的匹配方法进行长文本匹配,并以准确率和F1值作为评估指标;其中CNSE为中文新闻同事件数据集,CNSS为中文新闻同故事数据集;两个数据集均包含许多对带有标签的新闻文章,这些标签表示一对新闻文章是否正在报道同一突发新闻事件。
最终,得到的对比数据如表1所示:
表1对比数据示意表
Figure SMS_179
通过表1的实验数据可以看到,本申请模型超过了所有的现有技术的匹配模型,在CNSE与CNSS数据集上均达到了较好的匹配效果,充分说明了本申请方案在长文本匹配任务上的优越性。
然后,将不同模型在CNSE数据集上的匹配性能进行对比,相应的对比数据如表2所示:
表2不同模型在CNSE数据集上的匹配性能对比数据表
Figure SMS_180
对比表中三个模型的参数量,本申请模型的参数个数约为8.7K,相较于现有CIG模型的17.4K,参数量减少了48.6%,而Match-Ignition模型由于是基于预训练微调的模型,因而参数量远远大于其他模型。同时,本方法的单轮次的训练时长为12.3分钟,相较于CIG模型的20.7分减少了40.8%,相较于Match-Ignition模型的35.6分减少了65.45%。因此,通过表2的数据可以知道,本申请的模型具有良好的匹配性能,而且本申请方案的效率也较高。

Claims (10)

1.一种基于图卷积的长文本匹配方法,其特征在于包括如下步骤:
S1. 获取现有的长文本数据集;
S2. 基于获取的长文本数据集中的文档及对应的关键词,以关键词为节点,并基于包括关键词的句子所组成的文本序列的重要程度,构建关键词图;
S3. 根据步骤S2得到的关键词图,基于孪生网络获取节点的网络特征向量,基于相似度获取节点的概率统计特征,并结合节点的网络特征向量和概率统计特征,计算得到各个节点的初始特征表示;
S4. 根据步骤S2得到的关键词图所对应的邻接矩阵,计算得到关键词图的相似度阈值,并根据关键词图中节点与对应的邻接点之间的边的权重值与相似度阈值之间的关系,构建语义超图;
S5. 基于超图卷积神经网络和前馈神经网络,构建长文本匹配模型;所述超图卷积神经网络用于获取输入数据的特征交互信息;所述前馈神经网络用于根据超图卷积神经网络输出的特征交互信息,完成分类预测;
S6. 采用步骤S1获取的长文本数据集及步骤S2~S4得到的对应的结果,对步骤S5构建的长文本匹配模型进行训练,得到训练后的长文本匹配模型;
S7. 采用步骤S6得到的训练后的长文本匹配模型,进行实际的基于图卷积的长文本匹配。
2.根据权利要求1所述的基于图卷积的长文本匹配方法,其特征在于所述的步骤S1,具体包括如下步骤:
获取的长文本数据集S表示为
Figure QLYQS_1
,其中/>
Figure QLYQS_2
为第i个样本对中的第1篇文档;/>
Figure QLYQS_3
为第i个样本对中的第2篇文档;/>
Figure QLYQS_4
为从第i个样本对中抽取得到的关键词;
Figure QLYQS_5
为第i个样本对的标签;N为长文本数据集S中样本对的总数;
所述的步骤S2,具体包括如下内容:
对于第i个样本对
Figure QLYQS_6
和/>
Figure QLYQS_7
,以及对应的关键词/>
Figure QLYQS_8
,以关键词/>
Figure QLYQS_9
作为关键词图中的节点;
基于文档
Figure QLYQS_10
和/>
Figure QLYQS_11
中包括关键词的句子所组成文本序列之间的TF-IDF值,计算得到关键词图中边的权重值;
构建得到关键词图。
3.根据权利要求2所述的基于图卷积的长文本匹配方法,其特征在于所述的步骤S2,具体包括如下步骤:
A. 对于第i个样本对的文档
Figure QLYQS_12
和文档/>
Figure QLYQS_13
,分别进行分句处理;
B. 对于所对应的关键词
Figure QLYQS_15
中的第j个关键词/>
Figure QLYQS_17
,将文档/>
Figure QLYQS_19
中包括关键词/>
Figure QLYQS_21
的所有句子构建为句子集合/>
Figure QLYQS_23
,将文档/>
Figure QLYQS_24
中包括关键词/>
Figure QLYQS_25
的所有句子构建为句子集合/>
Figure QLYQS_14
,同时将句子集合/>
Figure QLYQS_16
和/>
Figure QLYQS_18
作为关键词/>
Figure QLYQS_20
所对应的节点/>
Figure QLYQS_22
的属性;
C. 对于任意两个节点
Figure QLYQS_26
和/>
Figure QLYQS_27
将节点
Figure QLYQS_29
所对应的句子集合/>
Figure QLYQS_30
和/>
Figure QLYQS_31
进行拼接,得到对应的文本序列/>
Figure QLYQS_32
;将节点/>
Figure QLYQS_33
所对应的句子集合/>
Figure QLYQS_34
和/>
Figure QLYQS_35
进行拼接,得到对应的文本序列/>
Figure QLYQS_28
计算文本序列
Figure QLYQS_36
中每个单词的TF-IDF值,并构成文本向量/>
Figure QLYQS_37
;计算文本序列/>
Figure QLYQS_38
中每个单词的TF-IDF值,并构成文本向量/>
Figure QLYQS_39
最后,计算得到节点
Figure QLYQS_40
和/>
Figure QLYQS_42
之间的边所对应的权重/>
Figure QLYQS_43
Figure QLYQS_44
,其中/>
Figure QLYQS_45
表示文本序列/>
Figure QLYQS_46
和/>
Figure QLYQS_47
中相同的词所对应的TF-IDF值的点积,/>
Figure QLYQS_41
为二范数符号;
D. 采用步骤B计算所有的关键词所对应的节点的属性;然后采用步骤C计算所有的任意两个节点之间的边所对应的权重值;
E. 根据步骤D的计算结果,构建得到最终的关键词图。
4.根据权利要求3所述的基于图卷积的长文本匹配方法,其特征在于所述的步骤S3,具体包括如下内容:
基于步骤S2获取的关键词图,将图中节点所对应的句子集合分别拼接得到文本序列,再将文本序列输入到孪生网络中得到对应的节点特征,最后拼接得到网络特征向量;
对文本序列计算得到设定类型的余弦相似度,并拼接得到概率统计特征;
最后,基于网络特征向量和概率统计特征,计算得到各个节点的初始特征表示。
5.根据权利要求4所述的基于图卷积的长文本匹配方法,其特征在于所述的步骤S3,具体包括如下步骤:
a. 对于关键词图中的第k个节点,获取对应的句子集合
Figure QLYQS_48
和/>
Figure QLYQS_49
b. 针对步骤a得到的句子集合
Figure QLYQS_50
和/>
Figure QLYQS_51
,将句子集合/>
Figure QLYQS_52
中的句子进行拼接得到文本序列/>
Figure QLYQS_53
,将句子集合/>
Figure QLYQS_54
中的句子进行拼接得到文本序列/>
Figure QLYQS_55
c. 将步骤b得到的文本序列
Figure QLYQS_56
和文本序列/>
Figure QLYQS_57
,输入到孪生网络中进行处理:
孪生网络包括内容层和匹配层;
将文本序列
Figure QLYQS_58
输入到内容层中,得到对应的语义向量/>
Figure QLYQS_59
;将文本序列/>
Figure QLYQS_60
输入到内容层中,得到对应的语义向量/>
Figure QLYQS_61
将得到的语义向量
Figure QLYQS_63
和/>
Figure QLYQS_65
输入到匹配层中,计算得到对应的网络特征向量/>
Figure QLYQS_67
Figure QLYQS_68
,其中/>
Figure QLYQS_70
为拼接操作,/>
Figure QLYQS_71
为语义向量/>
Figure QLYQS_72
Figure QLYQS_62
的哈达玛积,/>
Figure QLYQS_64
为语义向量/>
Figure QLYQS_66
和/>
Figure QLYQS_69
的差向量;
d. 针对步骤b得到的文本序列
Figure QLYQS_73
和文本序列/>
Figure QLYQS_74
,分别计算两者之间的TF余弦相似度、TF-IDF余弦相似度、BM25余弦相似度、Ochiai相似度和基于1-gram的Jaccard相似度,并将得到的相似度分数进行拼接,得到节点的概率统计特征;
e. 将步骤c得到的网络特征向量和步骤d得到的概率统计特征进行拼接,得到关键词图中的第k个节点的初始特征表示;
f. 重复步骤a~e,计算得到关键词图中所有节点的初始特征表示。
6.根据权利要求4所述的基于图卷积的长文本匹配方法,其特征在于所述的步骤S4,具体包括如下内容:
根据关键词图的邻接矩阵,计算得到关键词图的相似度阈值;
对于关键词图中的每个节点进行判断:若当前节点与邻接点之间边的权重大于相似度阈值,则将当前节点与该邻接点构建一组超边节点;
对所有的节点均进行以上判断后,再删除节点数量小于设定值的超边,并将剩余的超边构建得到最终的语义超图。
7.根据权利要求6所述的基于图卷积的长文本匹配方法,其特征在于所述的步骤S4,具体包括如下步骤:
(1)根据关键词图,计算得到关键词图的邻接矩阵AA,邻接矩阵AAnnnn列的矩阵;
(2)采用如下算式计算得到关键词图的相似度阈值kk
Figure QLYQS_75
式中/>
Figure QLYQS_76
为邻接矩阵AA中第ii行第jj列的元素的值;/>
Figure QLYQS_77
为邻接矩阵AA中值不为0的元素的个数;
(3)构建超边:对于关键词图中的任意节点,判断该节点与邻接节点之间的边的权重是否大于步骤(2)计算得到的相似度阈值kk,将该节点与其邻接节点之间权值大于相似度阈值的边所连接的节点构建为一组超边节点;
(4)对关键词图中的所有节点,均执行步骤(3)的操作,构建得到超边集合;然后在超边集合中,删除节点数量小于设定值的超边,并利用剩余的超边构建得到最终的语义超图。
8.根据权利要求6所述的基于图卷积的长文本匹配方法,其特征在于所述的步骤S5,具体包括如下内容:
长文本匹配模型包括超图卷积神经网络和分类器网络,所述分类器网络为前馈神经网络;
选择每条超边中特征差异最大的两个节点,构建得到语义图;
将得到的语义图通过超图卷积神经网络进行特征交互,得到语义图中每个节点的输出特征;
将输出特征池化后,再采用分类器网络进行预测分类,得到最终的预测结果。
9.根据权利要求8所述的基于图卷积的长文本匹配方法,其特征在于所述的步骤S5,具体包括如下步骤:
长文本匹配模型包括超图卷积神经网络和分类器网络,所述分类器网络采用单层前馈神经网络;
对于任意超边所对应的节点
Figure QLYQS_78
,采用线性层将节点转换为特征表示
Figure QLYQS_79
,/>
Figure QLYQS_80
为线性层处理函数,m为当前当前超边的节点个数;计算任意两个节点的特征表示之间的二范数,并选择二范数最大的两个节点作为当前超边的表示节点,两个表示节点之间的边的权重为关键词图中对应的权重;重复本步骤直至所有的超边均计算完成,得到语义图;
将得到的语义图通过超图卷积神经网络进行特征交互,得到语义图中每个节点的输出特征;特征交互的过程采用如下算式表示:
Figure QLYQS_82
式中
Figure QLYQS_84
为节点v的第/>
Figure QLYQS_85
层的特征表示;/>
Figure QLYQS_86
为非线性激活函数;θ为权重参数;/>
Figure QLYQS_87
为卷积层的层数;/>
Figure QLYQS_88
为节点v的邻接节点集合;/>
Figure QLYQS_89
为语义图的邻接矩阵中节点v与节点u之间归一化后的权重;/>
Figure QLYQS_81
为节点v的第/>
Figure QLYQS_83
层的特征表示;
将输出特征进行均值池化后,再采用分类器网络进行预测分类,得到最终的预测结果。
10.根据权利要求8所述的基于图卷积的长文本匹配方法,其特征在于步骤S6所述的训练,具体包括如下步骤:
1)将全部的数据按照设定的比例划分为训练集、验证集和测试集;设定迭代轮次变量并初始化为1;设定最佳评价指标变量并初始化为0,最佳评价指标变量用于评价模型的表现;
2)设置训练步数变量并初始化为0;
3)随机从训练集中选取一个样本;
4)根据步骤3)选取的样本,构建语义超图;
5)将生成的语义超图输入到当前的长文本匹配模型中进行处理;
6)采用交叉熵损失作为模型的损失函数;
7)进行反向传播,得到待训练参数的梯度;
8)采用Adam优化器作为优化器来更新待训练参数;
9)训练步数变量的值增加1,并进行判断:
若训练步数变量的值为设定的间隔记录值的整数倍,则采用验证集对当前的长文本匹配模型进行评估:计算当前模型在验证集上的F1值,并与当前的最佳评价指标变量的值进行比较,若当前模型的F1值大于当前的最佳评价指标变量的值,则将当前的最佳评价指标变量的值更新为当前模型的F1值,同时保存当前模型的参数、当前模型的F1值和当前的训练步数;否则,继续进行后续的步骤;
若训练步数变量的值不为设定的间隔记录值的整数倍,则继续进行后续的步骤;
10)重复步骤3)~9),直至训练集中的所有样本均被选取并训练完毕,当前训练轮次结束;迭代轮次变量的值增加1;
11)重复步骤2)~10),直至迭代轮次变量的值达到设定值,训练过程结束;此时得到训练后的最终的长文本匹配模型。
CN202310565214.2A 2023-05-19 2023-05-19 基于图卷积的长文本匹配方法 Active CN116304749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310565214.2A CN116304749B (zh) 2023-05-19 2023-05-19 基于图卷积的长文本匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310565214.2A CN116304749B (zh) 2023-05-19 2023-05-19 基于图卷积的长文本匹配方法

Publications (2)

Publication Number Publication Date
CN116304749A true CN116304749A (zh) 2023-06-23
CN116304749B CN116304749B (zh) 2023-08-15

Family

ID=86789140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310565214.2A Active CN116304749B (zh) 2023-05-19 2023-05-19 基于图卷积的长文本匹配方法

Country Status (1)

Country Link
CN (1) CN116304749B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125358A (zh) * 2019-12-17 2020-05-08 北京工商大学 一种基于超图的文本分类方法
CN113535912A (zh) * 2021-05-18 2021-10-22 北京邮电大学 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN113743079A (zh) * 2021-06-08 2021-12-03 浙江华巽科技有限公司 一种基于共现实体交互图的文本相似度计算方法及装置
CN114048305A (zh) * 2021-11-05 2022-02-15 山东大学 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
US20220343146A1 (en) * 2021-04-23 2022-10-27 Alibaba Singapore Holding Private Limited Method and system for temporal graph neural network acceleration
CN115545001A (zh) * 2022-11-29 2022-12-30 支付宝(杭州)信息技术有限公司 一种文本匹配方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125358A (zh) * 2019-12-17 2020-05-08 北京工商大学 一种基于超图的文本分类方法
US20220343146A1 (en) * 2021-04-23 2022-10-27 Alibaba Singapore Holding Private Limited Method and system for temporal graph neural network acceleration
CN113535912A (zh) * 2021-05-18 2021-10-22 北京邮电大学 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN113743079A (zh) * 2021-06-08 2021-12-03 浙江华巽科技有限公司 一种基于共现实体交互图的文本相似度计算方法及装置
CN114048305A (zh) * 2021-11-05 2022-02-15 山东大学 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN115545001A (zh) * 2022-11-29 2022-12-30 支付宝(杭州)信息技术有限公司 一种文本匹配方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BANG LIU 等: "Matching Long Text Documents via Graph Convolutional Networks", ARXIV, pages 1 - 10 *
郭佳乐 等: "基于图分类的中文长文本匹配算法", 智能计算机与应用, pages 294 - 299 *

Also Published As

Publication number Publication date
CN116304749B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN111274405B (zh) 一种基于gcn的文本分类方法
US10891321B2 (en) Systems and methods for performing a computer-implemented prior art search
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN109948125B (zh) 改进的Simhash算法在文本去重中的方法及系统
Irena et al. Fake news (hoax) identification on social media twitter using decision tree c4. 5 method
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN112487190A (zh) 基于自监督和聚类技术从文本中抽取实体间关系的方法
CN104008187A (zh) 一种基于最小编辑距离的半结构化文本匹配方法
KR102091633B1 (ko) 연관법령 제공 방법
CN116401542A (zh) 一种多意图多行为解耦推荐方法及装置
Bansal et al. An Evolving Hybrid Deep Learning Framework for Legal Document Classification.
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
Bortnikova et al. Search Query Classification Using Machine Learning for Information Retrieval Systems in Intelligent Manufacturing.
CN111241271B (zh) 文本情感分类方法、装置及电子设备
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
CN111523311B (zh) 一种搜索意图识别方法及装置
Kulkarni et al. Detection of Catchphrases and Precedence in Legal Documents.
CN112417147A (zh) 训练样本的选取方法与装置
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Diwakar et al. Proposed machine learning classifier algorithm for sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant