CN114491029B - 基于图神经网络的短文本相似度计算方法 - Google Patents

基于图神经网络的短文本相似度计算方法 Download PDF

Info

Publication number
CN114491029B
CN114491029B CN202210056446.0A CN202210056446A CN114491029B CN 114491029 B CN114491029 B CN 114491029B CN 202210056446 A CN202210056446 A CN 202210056446A CN 114491029 B CN114491029 B CN 114491029B
Authority
CN
China
Prior art keywords
graph
text
network
node
expressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210056446.0A
Other languages
English (en)
Other versions
CN114491029A (zh
Inventor
彭德中
沈何川
吕建成
彭玺
桑永胜
胡鹏
孙亚楠
王旭
陈杰
王骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210056446.0A priority Critical patent/CN114491029B/zh
Publication of CN114491029A publication Critical patent/CN114491029A/zh
Application granted granted Critical
Publication of CN114491029B publication Critical patent/CN114491029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图神经网络的短文本相似度计算方法,包括以下步骤:构建文本图表达获取文本的基础图结构数据;基于注意力的边学习机制,通过节点信息学习到文本图的边;采用混合多头图学习机制,将图注意力网络及GraphSAGE网络产生的节点进行混合表达;图相似度计算。本发明通过将获取的文本表示建模为图结构并送入图注意力网络和GraphSAGE网络进行学习,对学习到的结果进行融合,再通过全连接层获取到句子综合了上下文信息和高层语义信息的最终表达,最后采用皮尔逊相关系数对计算句子表达之间的相似性。

Description

基于图神经网络的短文本相似度计算方法
技术领域
本发明属于语言处理技术领域,具体涉及到一种基于图神经网络的短文本相似度计算方法。
背景技术
在日常生活中,因短文本在微博、短信、短视频领域的频繁出现,短文本相似度计算这一任务的需求在日益扩增。短文本相似度计算是自然语言处理(NLP)乃至机器学习领域的难点和热点,它是NLP中一个重要任务,既可以当成一个单独的任务,又可以作为其它NLP应用的基础。目前短文本相似度计算方法通常使用基于外部知识的方法及基于序列的方法,其中基于外部知识的方法借助譬如语义关联知识库、语义分析树、外部语料库等语言学工具以及预训练模型,这类方法依赖于人为构建的既定规则以及人工构建的特征工程,通常需要大量的计算资源以及专业知识作为前期工作;基于序列的方法通常是将一个文本表示成一组标志的有序组合,这种方法缺乏文本的结构性知识并且不能获取到两个距离较长的标志之间的关系,缺乏对文本内容的准确和细腻的理解。
发明内容
本发明要解决的技术问题在于提供一种基于图神经网络的短文本相似度计算方法,该方法通过边学习机制、混合多头图学习机制进行短文本相似度计算,解决了现有技术中存在的问题。
为了解决上述技术问题,本发明通过以下方式来实现:
基于图神经网络的短文本相似度计算方法,包括以下步骤:
1)构建文本图表达获取文本的基础图结构数据;
2)基于注意力的边学习机制,通过节点信息学习到文本图的边;
3)采用混合多头图学习机制,将图注意力网络及GraphSAGE网络产生的节点进行混合表达;
4)图相似度计算。
进一步的,所述步骤1)中的构建文本图表达获取文本的基础图结构数据,首先将输入的短文本进行文本清洗及文本分词,通过图构建将原始文本转为能够被图神经网络利用的图结构形式,然后采用采用预训练的GloVe模型对清洗后的文本进行词嵌入,将每个词嵌入作为图的一个节点,进而通过文本图表达获取文本的基础图结构数据。
进一步的,所述步骤2)中基于注意力的边学习机制,通过节点信息学习到文本图的边,利用可学习的权重矩阵计算每个节点之间的相关度,若相关度大于等于某阈值,则在两个节点之间构建边,其具体公式如下:
其中,W表示为可学习权重矩阵,能够根据下游任务调整自身的数值,α表示为设定阈值,vj、vi表示为节点表示,⊙表示向量之间的点乘,×表示矩阵之间的乘法,若eij为1,则在节点i、j之间构建边。
进一步的,所述步骤3)中采用混合多头图学习机制,针对图注意力网络(GAT)及GraphSAGE网络构造不同的图,增强了网络的学习能力,并采用了残差结构优化了梯度下降的路径,更好的适应深层的网络结构,所述的混合多头图学习机制的公式如下:
其中,he表示为节点的最终表达,A(h)表示为一个包含GAT及GraphSAGE学习到的节点表达集合,hi表示为节点i的表达,T为转置符号。
进一步的,所述步骤4)中图相似度计算,具体包括以下分步骤:
41)采用加权相加的方法对图进行池化,利用一个全连接层计算图中每个节点的权重,将每个节点权重附加到节点表示上进行累加得到图的最终表示,进而获取到文本综合了上下文信息和高层语义信息的最终表达,其具体公式如下:
其中,G表示为句子的最终表达,G(v)表示为包含图中所有节点的集合,Linear表示全连接网络;
42)利用皮尔逊相关系数对池化后的向量计算相似度,用于表示文本的相似性,其具体公式如下:
其中,S(X,Y)表示为短文本对间的相似度,X,Y表示为两个句子的最终表达,E表示为期望值计算函数,μX和μY分别表示为X和Y的平均值,Xi表示句子最终表达X矩阵中的一个元素,Yi表示句子最终表达Y矩阵中的一个元素。
与现有技术相比,本发明具有的有益效果:
本发明通过边学习机制、注意力的动态文本图表达和混合多头图学习机制,能够使得所学习到的节点包含的信息维度更加丰富,从而获取到更加丰富的句子表达;分别针对GAT和GraphSAGE构造不同的图,进一步增强网络的学习能力,而采用残差结构优化了梯度下降的路径,能够更好的适应深层的网络结构,通过把特征构建成图结构的数据并对图进行学习来获得每个句子的最终表达,利用获取到的两个不同的句子表达计算其相似度。
附图说明
图1为本发明的混合图学习的数据处理流程。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它网络或其组合的存在或添加。
如图1所示,基于图神经网络的短文本相似度计算方法,包括以下步骤:
1)构建文本图表达获取文本的基础图结构数据;
首先将输入的短文本进行文本清洗及文本分词,通过图构建将原始文本转为能够被图神经网络利用的图结构形式,然后采用采用预训练的GloVe模型对清洗后的文本进行词嵌入,将每个词嵌入作为图的一个节点,进而通过文本图表达获取文本的基础图结构数据。
原始的文本数据是以ASCII编码的形式存放于计算机当中,不能被图神经网络学习,因此需要对原始的文本数据进行图构建,将其转为能够被图神经网络利用的图结构形式。GloVe模型是2014年斯坦福nlp的研究组提出的一种新的生成词向量的方法,相较于之前的Word2Vec的方法,和统计方法TF-IDF/LSA,GloVe模型能够获取到更加丰富的语义信息。
2)基于注意力的边学习机制,通过节点信息学习到文本图的边;
首先利用可学习的权重矩阵计算每个节点之间的相关度,若相关度大于等于某阈值,则在两个节点之间构建边,其具体公式如下:
其中,W表示为可学习权重矩阵,能够根据下游任务调整自身的数值,即W是固定形式的矩阵且矩阵中的每个元素都是通过学习得到的;α表示为设定阈值,vj、vi表示为节点表示,⊙表示向量之间的点乘,×表示矩阵之间的乘法,若eij为1,则在节点i、j之间构建边。
在本申请中采用的基于注意力的边学习机制,通过节点信息自动学习到图的边,相比于传统的通过语法树、共现次数、语义解析构建图中边的方法更能适应下游任务,并且也不需要外部知识的支撑。
3)采用混合多头图学习机制,将图注意力网络及GraphSAGE网络产生的节点进行混合表达;
针对图注意力网络(GAT)及GraphSAGE网络构造不同的图,增强了网络的学习能力,并采用了残差结构优化了梯度下降的路径,更好的适应深层的网络结构,即通过单独的残差优化网络结构,利用简单的相加来实现梯度传播路径的下降,使得深层的网络结构能够得到更好的训练;所述的混合多头图学习机制的公式如下:
其中,he表示为节点的最终表达,A(h)表示为一个包含GAT及GraphSAGE学习到的节点表达集合,hi表示为节点i的表达。
图注意力网络由Petar于2018年提出,是将注意力机制引入到基于空间域的图神经网络,GAT所产生的节点包含丰富的邻居节点信息。GraphSAGE由WilliamL.Hamilton于2017年提出,使用节点之间连接信息,对邻居进行采样,然后通过多层聚合函数不断地将相邻节点的信息融合在一起,GraphSAGE所产的节点包含丰富的图结构信息。本发明采用一种混合机制将GAT以及GraphSAGE所产生的节点进行混合,使所学习到的节点包含的信息维度更加丰富,从而获取到更加丰富的句子表达,且分别针对GAT和GraphSAGE构造不同的图,进一步增强网络的学习能力;采用残差结构优化了梯度下降的路径。能够更好的适应深层的网络结构。
4)图相似度计算,具体包括以下分步骤:
41)采用加权相加的方法对图进行池化,利用一个全连接层计算图中每个节点的权重,将每个节点权重附加到节点表示上进行累加得到图的最终表示,进而获取到文本综合了上下文信息和高层语义信息的最终表达,其具体公式如下:
其中,在介绍图网络结构时G表示单个句子的最终表达,G(v)表示包含图中所有节点的集合,Linear表示全连接网络;
42)利用皮尔逊相关系数对池化后的向量计算相似度,用于表示文本的相似性,其具体公式如下:
其中,S(X,Y)表示为短文本对间的相似度,在进行对比学习时X,Y表示为两个句子的最终表达,E表示为期望值计算函数,μX和μY分别表示为X和Y的平均值,Xi表示句子最终表达X矩阵中的一个元素,Yi表示句子最终表达Y矩阵中的一个元素。
以上所述仅是本发明的实施方式,再次声明,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进,这些改进也列入本发明权利要求的保护范围内。

Claims (3)

1.基于图神经网络的短文本相似度计算方法,其特征在于:包括以下步骤:
1)构建文本图表达获取文本的基础图结构数据;
2)基于注意力的边学习机制,通过节点信息学习到文本图的边;
3)采用混合多头图学习机制,将图注意力网络及GraphSAGE网络产生的节点进行混合表达;
4)图相似度计算;
所述步骤2)中基于注意力的边学习机制,通过节点信息学习到文本图的边,利用可学习的权重矩阵计算每个节点之间的相关度,若相关度大于等于某阈值,则在两个节点之间构建边,其具体公式如下:
其中,W表示为可学习权重矩阵,α表示为设定阈值,vj、vi表示为节点表示,⊙表示向量之间的点乘,×表示矩阵之间的乘法,若eij为1,则在节点i、j之间构建边;
所述步骤3)中采用混合多头图学习机制,针对图注意力网络(GAT)及GraphSAGE网络构造不同的图,增强了网络的学习能力,并采用了残差结构优化了梯度下降的路径,更好的适应深层的网络结构,所述的混合多头图学习机制的公式如下:
其中,he表示为节点的最终表达,A(h)表示为一个包含GAT及GraphSAGE学习到的节点表达集合,hi表示为节点i的表达。
2.根据权利要求1所述的基于图神经网络的短文本相似度计算方法,其特征在于:
所述步骤1)中的构建文本图表达获取文本的基础图结构数据,首先将输入的短文本进行文本清洗及文本分词,通过图构建将原始文本转为能够被图神经网络利用的图结构形式,然后采用预训练的GloVe模型对清洗后的文本进行词嵌入,将每个词嵌入作为图的一个节点,进而通过文本图表达获取文本的基础图结构数据。
3.根据权利要求1所述的基于图神经网络的短文本相似度计算方法,其特征在于:
所述步骤4)中图相似度计算,具体包括以下分步骤:
41)采用加权相加的方法对图进行池化,利用一个全连接层计算图中每个节点的权重,将每个节点权重附加到节点表示上进行累加得到图的最终表示,进而获取到文本综合了上下文信息和高层语义信息的最终表达,其具体公式如下:
其中,G表示为句子的最终表达,G(v)表示为包含图中所有节点的集合,Linear表示全连接网络;
42)利用皮尔逊相关系数对池化后的向量计算相似度,用于表示文本的相似性,其具体公式如下:
其中,S(X,Y)表示为短文本对间的相似度,X,Y表示为两个句子的最终表达,E表示为期望值值计算函数,μX和μY分别表示为X和Y的平均值,Xi表示句子最终表达X矩阵中的一个元素,Yi表示句子最终表达Y矩阵中的一个元素。
CN202210056446.0A 2022-01-18 2022-01-18 基于图神经网络的短文本相似度计算方法 Active CN114491029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210056446.0A CN114491029B (zh) 2022-01-18 2022-01-18 基于图神经网络的短文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210056446.0A CN114491029B (zh) 2022-01-18 2022-01-18 基于图神经网络的短文本相似度计算方法

Publications (2)

Publication Number Publication Date
CN114491029A CN114491029A (zh) 2022-05-13
CN114491029B true CN114491029B (zh) 2023-07-25

Family

ID=81473268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210056446.0A Active CN114491029B (zh) 2022-01-18 2022-01-18 基于图神经网络的短文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN114491029B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805059B (zh) * 2023-06-26 2024-04-09 重庆邮电大学 一种基于大数据的专利分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646099A (zh) * 2013-12-19 2014-03-19 南京大学 一种基于多层图的论文推荐方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9411890B2 (en) * 2012-04-04 2016-08-09 Google Inc. Graph-based search queries using web content metadata
CN107463658B (zh) * 2017-07-31 2020-03-31 广州市香港科大霍英东研究院 文本分类方法及装置
EP3896581A1 (en) * 2020-04-14 2021-10-20 Naver Corporation Learning to rank with cross-modal graph convolutions
CN111914185B (zh) * 2020-07-06 2024-03-22 华中科技大学 一种基于图注意力网络的社交网络中文本情感分析方法
CN111783963A (zh) * 2020-07-24 2020-10-16 中国人民解放军国防科技大学 一种基于星图神经网络的推荐方法
CN112784092B (zh) * 2021-01-28 2022-03-25 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
CN113204954A (zh) * 2021-05-27 2021-08-03 武汉红火蚁智能科技有限公司 基于大数据的数据检测方法、设备及计算机可读存储介质
CN113255366B (zh) * 2021-05-28 2022-12-09 西安交通大学 一种基于异构图神经网络的方面级文本情感分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646099A (zh) * 2013-12-19 2014-03-19 南京大学 一种基于多层图的论文推荐方法

Also Published As

Publication number Publication date
CN114491029A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN112487203B (zh) 一种融入动态词向量的关系抽取系统
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
Bhoir et al. Comparative analysis of different word embedding models
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN110532395B (zh) 一种基于语义嵌入的词向量改进模型的建立方法
CN112084338B (zh) 一种文档自动归类方法、系统、计算机设备及存储介质
CN111177392A (zh) 一种数据处理方法及装置
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN114841140A (zh) 依存分析模型及基于依存分析的中文联合事件抽取方法
CN116992886A (zh) 一种基于bert的热点新闻事件脉络生成方法及装置
CN111523319B (zh) 基于情景lstm结构网络的微博情感分析方法
Niu et al. An Improved Method for Web Text Affective Cognition Computing Based on Knowledge Graph.
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN114491029B (zh) 基于图神经网络的短文本相似度计算方法
CN114443846B (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
Kalo et al. Knowlybert-hybrid query answering over language models and knowledge graphs
WO2023093909A1 (zh) 一种工作流节点推荐方法及装置
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN110633363A (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN115934944A (zh) 一种基于Graph-MLP与相邻对比损失的实体关系抽取方法
Yun et al. Combining vector space features and convolution neural network for text sentiment analysis
Gao et al. A hybrid GCN and RNN structure based on attention mechanism for text classification
Nguyen et al. Text summarization on large-scale Vietnamese datasets
CN111695359A (zh) 生成词向量的方法、装置、计算机存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant