CN114491029A - 基于图神经网络的短文本相似度计算方法 - Google Patents
基于图神经网络的短文本相似度计算方法 Download PDFInfo
- Publication number
- CN114491029A CN114491029A CN202210056446.0A CN202210056446A CN114491029A CN 114491029 A CN114491029 A CN 114491029A CN 202210056446 A CN202210056446 A CN 202210056446A CN 114491029 A CN114491029 A CN 114491029A
- Authority
- CN
- China
- Prior art keywords
- graph
- text
- expression
- node
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Optimization (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图神经网络的短文本相似度计算方法,包括以下步骤:构建文本图表达获取文本的基础图结构数据;基于注意力的边学习机制,通过节点信息学习到文本图的边;采用混合多头图学习机制,将图注意力网络及GraphSAGE网络产生的节点进行混合表达;图相似度计算。本发明通过将获取的文本表示建模为图结构并送入图注意力网络和GraphSAGE网络进行学习,对学习到的结果进行融合,再通过全连接层获取到句子综合了上下文信息和高层语义信息的最终表达,最后采用皮尔逊相关系数对计算句子表达之间的相似性。
Description
技术领域
本发明属于语言处理技术领域,具体涉及到一种基于图神经网络的短文本相似度计算方法。
背景技术
在日常生活中,因短文本在微博、短信、短视频领域的频繁出现,短文本相似度计算这一任务的需求在日益扩增。短文本相似度计算是自然语言处理(NLP)乃至机器学习领域的难点和热点,它是NLP中一个重要任务,既可以当成一个单独的任务,又可以作为其它NLP应用的基础。目前短文本相似度计算方法通常使用基于外部知识的方法及基于序列的方法,其中基于外部知识的方法借助譬如语义关联知识库、语义分析树、外部语料库等语言学工具以及预训练模型,这类方法依赖于人为构建的既定规则以及人工构建的特征工程,通常需要大量的计算资源以及专业知识作为前期工作;基于序列的方法通常是将一个文本表示成一组标志的有序组合,这种方法缺乏文本的结构性知识并且不能获取到两个距离较长的标志之间的关系,缺乏对文本内容的准确和细腻的理解。
发明内容
本发明要解决的技术问题在于提供一种基于图神经网络的短文本相似度计算方法,该方法通过边学习机制、混合多头图学习机制进行短文本相似度计算,解决了现有技术中存在的问题。
为了解决上述技术问题,本发明通过以下方式来实现:
基于图神经网络的短文本相似度计算方法,包括以下步骤:
1)构建文本图表达获取文本的基础图结构数据;
2)基于注意力的边学习机制,通过节点信息学习到文本图的边;
3)采用混合多头图学习机制,将图注意力网络及GraphSAGE网络产生的节点进行混合表达;
4)图相似度计算。
进一步的,所述步骤1)中的构建文本图表达获取文本的基础图结构数据,首先将输入的短文本进行文本清洗及文本分词,通过图构建将原始文本转为能够被图神经网络利用的图结构形式,然后采用采用预训练的GloVe模型对清洗后的文本进行词嵌入,将每个词嵌入作为图的一个节点,进而通过文本图表达获取文本的基础图结构数据。
进一步的,所述步骤2)中基于注意力的边学习机制,通过节点信息学习到文本图的边,利用可学习的权重矩阵计算每个节点之间的相关度,若相关度大于等于某阈值,则在两个节点之间构建边,其具体公式如下:
其中,W表示为可学习权重矩阵,能够根据下游任务调整自身的数值,α表示为设定阈值,vj、vi表示为节点表示,⊙表示向量之间的点乘,×表示矩阵之间的乘法,若eij为1,则在节点i、j之间构建边。
进一步的,所述步骤3)中采用混合多头图学习机制,针对图注意力网络(GAT)及GraphSAGE网络构造不同的图,增强了网络的学习能力,并采用了残差结构优化了梯度下降的路径,更好的适应深层的网络结构,所述的混合多头图学习机制的公式如下:
其中,he表示为节点的最终表达,A(h)表示为一个包含GAT及GraphSAGE学习到的节点表达集合,hi表示为节点i的表达,T为转置符号。
进一步的,所述步骤4)中图相似度计算,具体包括以下分步骤:
41)采用加权相加的方法对图进行池化,利用一个全连接层计算图中每个节点的权重,将每个节点权重附加到节点表示上进行累加得到图的最终表示,进而获取到文本综合了上下文信息和高层语义信息的最终表达,其具体公式如下:
其中,G表示为句子的最终表达,G(v)表示为包含图中所有节点的集合,Linear表示全连接网络;
42)利用皮尔逊相关系数对池化后的向量计算相似度,用于表示文本的相似性,其具体公式如下:
其中,S(X,Y)表示为短文本对间的相似度,X,Y表示为两个句子的最终表达,E表示为期望值计算函数,μX和μY分别表示为X和Y的平均值,Xi表示句子最终表达X矩阵中的一个元素,Yi表示句子最终表达Y矩阵中的一个元素。
与现有技术相比,本发明具有的有益效果:
本发明通过边学习机制、注意力的动态文本图表达和混合多头图学习机制,能够使得所学习到的节点包含的信息维度更加丰富,从而获取到更加丰富的句子表达;分别针对GAT和GraphSAGE构造不同的图,进一步增强网络的学习能力,而采用残差结构优化了梯度下降的路径,能够更好的适应深层的网络结构,通过把特征构建成图结构的数据并对图进行学习来获得每个句子的最终表达,利用获取到的两个不同的句子表达计算其相似度。
附图说明
图1为本发明的混合图学习的数据处理流程。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它网络或其组合的存在或添加。
如图1所示,基于图神经网络的短文本相似度计算方法,包括以下步骤:
1)构建文本图表达获取文本的基础图结构数据;
首先将输入的短文本进行文本清洗及文本分词,通过图构建将原始文本转为能够被图神经网络利用的图结构形式,然后采用采用预训练的GloVe模型对清洗后的文本进行词嵌入,将每个词嵌入作为图的一个节点,进而通过文本图表达获取文本的基础图结构数据。
原始的文本数据是以ASCII编码的形式存放于计算机当中,不能被图神经网络学习,因此需要对原始的文本数据进行图构建,将其转为能够被图神经网络利用的图结构形式。GloVe模型是2014年斯坦福nlp的研究组提出的一种新的生成词向量的方法,相较于之前的Word2Vec的方法,和统计方法TF-IDF/LSA,GloVe模型能够获取到更加丰富的语义信息。
2)基于注意力的边学习机制,通过节点信息学习到文本图的边;
首先利用可学习的权重矩阵计算每个节点之间的相关度,若相关度大于等于某阈值,则在两个节点之间构建边,其具体公式如下:
其中,W表示为可学习权重矩阵,能够根据下游任务调整自身的数值,即W是固定形式的矩阵且矩阵中的每个元素都是通过学习得到的;α表示为设定阈值,vj、vi表示为节点表示,⊙表示向量之间的点乘,×表示矩阵之间的乘法,若eij为1,则在节点i、j之间构建边。
在本申请中采用的基于注意力的边学习机制,通过节点信息自动学习到图的边,相比于传统的通过语法树、共现次数、语义解析构建图中边的方法更能适应下游任务,并且也不需要外部知识的支撑。
3)采用混合多头图学习机制,将图注意力网络及GraphSAGE网络产生的节点进行混合表达;
针对图注意力网络(GAT)及GraphSAGE网络构造不同的图,增强了网络的学习能力,并采用了残差结构优化了梯度下降的路径,更好的适应深层的网络结构,即通过单独的残差优化网络结构,利用简单的相加来实现梯度传播路径的下降,使得深层的网络结构能够得到更好的训练;所述的混合多头图学习机制的公式如下:
其中,he表示为节点的最终表达,A(h)表示为一个包含GAT及GraphSAGE学习到的节点表达集合,hi表示为节点i的表达。
图注意力网络由Petar于2018年提出,是将注意力机制引入到基于空间域的图神经网络,GAT所产生的节点包含丰富的邻居节点信息。GraphSAGE由WilliamL.Hamilton于2017年提出,使用节点之间连接信息,对邻居进行采样,然后通过多层聚合函数不断地将相邻节点的信息融合在一起,GraphSAGE所产的节点包含丰富的图结构信息。本发明采用一种混合机制将GAT以及GraphSAGE所产生的节点进行混合,使所学习到的节点包含的信息维度更加丰富,从而获取到更加丰富的句子表达,且分别针对GAT和GraphSAGE构造不同的图,进一步增强网络的学习能力;采用残差结构优化了梯度下降的路径。能够更好的适应深层的网络结构。
4)图相似度计算,具体包括以下分步骤:
41)采用加权相加的方法对图进行池化,利用一个全连接层计算图中每个节点的权重,将每个节点权重附加到节点表示上进行累加得到图的最终表示,进而获取到文本综合了上下文信息和高层语义信息的最终表达,其具体公式如下:
其中,在介绍图网络结构时G表示单个句子的最终表达,G(v)表示包含图中所有节点的集合,Linear表示全连接网络;
42)利用皮尔逊相关系数对池化后的向量计算相似度,用于表示文本的相似性,其具体公式如下:
其中,S(X,Y)表示为短文本对间的相似度,在进行对比学习时X,Y表示为两个句子的最终表达,E表示为期望值计算函数,μX和μY分别表示为X和Y的平均值,Xi表示句子最终表达X矩阵中的一个元素,Yi表示句子最终表达Y矩阵中的一个元素。
以上所述仅是本发明的实施方式,再次声明,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进,这些改进也列入本发明权利要求的保护范围内。
Claims (5)
1.基于图神经网络的短文本相似度计算方法,其特征在于:包括以下步骤:
1)构建文本图表达获取文本的基础图结构数据;
2)基于注意力的边学习机制,通过节点信息学习到文本图的边;
3)采用混合多头图学习机制,将图注意力网络及GraphSAGE网络产生的节点进行混合表达;
4)图相似度计算。
2.根据权利要求1所述的基于图神经网络的短文本相似度计算方法,其特征在于:
所述步骤1)中的构建文本图表达获取文本的基础图结构数据,首先将输入的短文本进行文本清洗及文本分词,通过图构建将原始文本转为能够被图神经网络利用的图结构形式,然后采用采用预训练的GloVe模型对清洗后的文本进行词嵌入,将每个词嵌入作为图的一个节点,进而通过文本图表达获取文本的基础图结构数据。
5.根据权利要求1所述的基于图神经网络的短文本相似度计算方法,其特征在于:
所述步骤4)中图相似度计算,具体包括以下分步骤:
41)采用加权相加的方法对图进行池化,利用一个全连接层计算图中每个节点的权重,将每个节点权重附加到节点表示上进行累加得到图的最终表示,进而获取到文本综合了上下文信息和高层语义信息的最终表达,其具体公式如下:
其中,G表示为句子的最终表达,G(v)表示为包含图中所有节点的集合,Linear表示全连接网络;
42)利用皮尔逊相关系数对池化后的向量计算相似度,用于表示文本的相似性,其具体公式如下:
其中,S(X,Y)表示为短文本对间的相似度,X,Y表示为两个句子的最终表达,E表示为期望值值计算函数,μX和μY分别表示为X和Y的平均值,Xi表示句子最终表达X矩阵中的一个元素,Yi表示句子最终表达Y矩阵中的一个元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210056446.0A CN114491029B (zh) | 2022-01-18 | 2022-01-18 | 基于图神经网络的短文本相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210056446.0A CN114491029B (zh) | 2022-01-18 | 2022-01-18 | 基于图神经网络的短文本相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114491029A true CN114491029A (zh) | 2022-05-13 |
CN114491029B CN114491029B (zh) | 2023-07-25 |
Family
ID=81473268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210056446.0A Active CN114491029B (zh) | 2022-01-18 | 2022-01-18 | 基于图神经网络的短文本相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114491029B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805059A (zh) * | 2023-06-26 | 2023-09-26 | 重庆邮电大学 | 一种基于大数据的专利分类方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130268533A1 (en) * | 2012-04-04 | 2013-10-10 | Google Inc. | Graph-based search queries using web content metadata |
CN103646099A (zh) * | 2013-12-19 | 2014-03-19 | 南京大学 | 一种基于多层图的论文推荐方法 |
CN107463658A (zh) * | 2017-07-31 | 2017-12-12 | 广州市香港科大霍英东研究院 | 文本分类方法及装置 |
CN111783963A (zh) * | 2020-07-24 | 2020-10-16 | 中国人民解放军国防科技大学 | 一种基于星图神经网络的推荐方法 |
CN111914185A (zh) * | 2020-07-06 | 2020-11-10 | 华中科技大学 | 一种基于图注意力网络的社交网络中文本情感分析方法 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
CN113204954A (zh) * | 2021-05-27 | 2021-08-03 | 武汉红火蚁智能科技有限公司 | 基于大数据的数据检测方法、设备及计算机可读存储介质 |
CN113255366A (zh) * | 2021-05-28 | 2021-08-13 | 西安交通大学 | 一种基于异构图神经网络的方面级文本情感分析方法 |
EP3896581A1 (en) * | 2020-04-14 | 2021-10-20 | Naver Corporation | Learning to rank with cross-modal graph convolutions |
-
2022
- 2022-01-18 CN CN202210056446.0A patent/CN114491029B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130268533A1 (en) * | 2012-04-04 | 2013-10-10 | Google Inc. | Graph-based search queries using web content metadata |
CN103646099A (zh) * | 2013-12-19 | 2014-03-19 | 南京大学 | 一种基于多层图的论文推荐方法 |
CN107463658A (zh) * | 2017-07-31 | 2017-12-12 | 广州市香港科大霍英东研究院 | 文本分类方法及装置 |
EP3896581A1 (en) * | 2020-04-14 | 2021-10-20 | Naver Corporation | Learning to rank with cross-modal graph convolutions |
CN111914185A (zh) * | 2020-07-06 | 2020-11-10 | 华中科技大学 | 一种基于图注意力网络的社交网络中文本情感分析方法 |
CN111783963A (zh) * | 2020-07-24 | 2020-10-16 | 中国人民解放军国防科技大学 | 一种基于星图神经网络的推荐方法 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
CN113204954A (zh) * | 2021-05-27 | 2021-08-03 | 武汉红火蚁智能科技有限公司 | 基于大数据的数据检测方法、设备及计算机可读存储介质 |
CN113255366A (zh) * | 2021-05-28 | 2021-08-13 | 西安交通大学 | 一种基于异构图神经网络的方面级文本情感分析方法 |
Non-Patent Citations (2)
Title |
---|
HECHEN SHEN等: "word relation-based graph neural network for short text similarity measurement", pages 1 - 4 * |
郭方舟: "面向复杂图数据的可视表达与交互可视分析关键方法研究", pages 138 - 29 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805059A (zh) * | 2023-06-26 | 2023-09-26 | 重庆邮电大学 | 一种基于大数据的专利分类方法 |
CN116805059B (zh) * | 2023-06-26 | 2024-04-09 | 重庆邮电大学 | 一种基于大数据的专利分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114491029B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487203B (zh) | 一种融入动态词向量的关系抽取系统 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN112069408B (zh) | 一种融合关系抽取的推荐系统及方法 | |
CN111753024A (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN111930894B (zh) | 长文本匹配方法及装置、存储介质、电子设备 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN110532395B (zh) | 一种基于语义嵌入的词向量改进模型的建立方法 | |
CN109992788B (zh) | 基于未登录词处理的深度文本匹配方法及装置 | |
CN107871158A (zh) | 一种结合序列文本信息的知识图谱表示学习方法及装置 | |
CN111159409B (zh) | 基于人工智能的文本分类方法、装置、设备、介质 | |
CN111027595A (zh) | 双阶段语义词向量生成方法 | |
CN110502640A (zh) | 一种基于建构的概念词义发展脉络的提取方法 | |
CN113128206B (zh) | 基于单词重要性加权的问题生成方法 | |
CN109446423A (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN112100486B (zh) | 一种基于图模型的深度学习推荐系统及其方法 | |
CN114841140A (zh) | 依存分析模型及基于依存分析的中文联合事件抽取方法 | |
CN116992886A (zh) | 一种基于bert的热点新闻事件脉络生成方法及装置 | |
CN114742071B (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
CN117708692A (zh) | 基于双通道图卷积神经网络的实体情感分析方法及系统 | |
CN114491029B (zh) | 基于图神经网络的短文本相似度计算方法 | |
CN115062139A (zh) | 一种对话文本摘要模型自动搜索方法 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN116304064A (zh) | 一种基于抽取式的文本分类方法 | |
US20230168989A1 (en) | BUSINESS LANGUAGE PROCESSING USING LoQoS AND rb-LSTM | |
CN115934944A (zh) | 一种基于Graph-MLP与相邻对比损失的实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |