CN116662566A - 一种基于对比学习机制的异质信息网络链路预测方法 - Google Patents

一种基于对比学习机制的异质信息网络链路预测方法 Download PDF

Info

Publication number
CN116662566A
CN116662566A CN202310587954.6A CN202310587954A CN116662566A CN 116662566 A CN116662566 A CN 116662566A CN 202310587954 A CN202310587954 A CN 202310587954A CN 116662566 A CN116662566 A CN 116662566A
Authority
CN
China
Prior art keywords
text
node
representation
encoder
heterogeneous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310587954.6A
Other languages
English (en)
Inventor
肖卫东
赵翔
吴丹
王宇恒
曾维新
谭真
方阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202310587954.6A priority Critical patent/CN116662566A/zh
Publication of CN116662566A publication Critical patent/CN116662566A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于对比学习机制的异质信息网络链路预测方法,包括以下步骤:采用文本编码器将文本编码成低维向量,生成文本表示;采用图谱编码器对异质信息网络的结构特征、异质特征和自监督信息进行编码,获得图表示;通过对比学习,将文本表示和图表示进行预训练对齐;引入自动生成的可学习且连续的提示向量,将标识的自然语言语句提供给文本编码器,并将自然语言语句与图谱编码器生成的结构和异质特征表示进行比较来生成分类时的权重,融合得到单一表示;利用获得的单一表示,进行异质信息网络的链路预测。本发明方法能够在异质信息网络的链路预测任务中获得更优异显著的预测性能。

Description

一种基于对比学习机制的异质信息网络链路预测方法
技术领域
本发明涉及自然语言处理中的知识图谱网络技术领域,尤其涉及一种基于对比学习机制的异质信息网络链路预测方法。
背景技术
异质信息网络无处不在。社交网络、知识图谱以及搜索和推荐系统中用户和项目之间的交互可以被建模为具有多种类型的节点和边的网络。文本异质信息网络是具有文本信息的网络,例如学术网络中论文节点的标题和摘要,可以为下游任务提供富有成效的辅助信息。目前关于异质信息网络的大多数工作都忽略了此类文本信息,并将图的节点映射到仅基于结构信息的低维表示。为了填补这一空白,一些挖掘异质信息网络的模型建议将文本信息集成到节点表示中。他们主要设计一个框架,将节点的结构信息与文本信息结合起来,以生成单个节点表示。
上面提到的文本网络嵌入模型面临着许多局限性。首先,它们只能用训练好的标签对节点进行分类,换句话说,它们不适用于小样本学习设置。在小样本学习中,我们需要在测试阶段迁移预训练的模型来分类带有不可见标签的节点。在实际应用中,通常只有少数几个标签可用,这对维持性能提出了严重的挑战。其次,之前的使用文本信息的方法最初都是为同质信息网络设计的,还没有工作尝试解决文本异质信息网络上的小样本学习问题。
为了解决小样本学习问题,自然语言处理相关的研究(例,ChatGPT)提出了提示学习,它重新制定了下游任务,使其看起来像预训练任务。无论是否有微调,提示学习都有助于将先验知识快速应用于新的任务中,从而加强小样本学习。最近,在多模态场景中也采用了提示学习,对图像和文本数据进行对齐。然而,目前还没有基于提示学习的技术被用于处理图谱和文本数据。
鉴于此,提出一种基于对比学习机制的异质信息网络链路预测方法,将提示学习用于图谱数据,解决文本异质信息网络上的小样本学习问题,获得更高效准确的异质信息网络链路预测任务结果。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于对比学习机制的异质信息网络链路预测方法。所述方法采用一个文本编码器来编码文本信息;采用一个图谱编码器,对结构和异质特征以及自监督信息进行编码;采用一种对比学习机制,用于对齐文本表示和网络表示,以及一个可学习的连续向量式的提示学习框架,用于解决文本异质信息网络上的小样本问题。
一种基于对比学习机制的异质信息网络链路预测方法,所述方法包括:
步骤1,采用文本编码器将文本编码成低维向量,生成文本表示;
步骤2,采用图谱编码器对异质信息网络的结构特征、异质特征和自监督信息进行编码,获得图表示;
步骤3,通过对比学习,将文本表示和图表示进行预训练对齐;
步骤4,引入自动生成的可学习且连续的提示向量,将标识的自然语言语句提供给文本编码器,并将自然语言语句与图谱编码器生成的结构和异质特征表示进行比较来生成分类时的权重,融合得到单一表示;
步骤5,利用获得的单一表示,进行异质信息网络的链路预测。
具体地,所述的文本编码器采用Sentence-BERT模型,生成固定大小的文本表示。
具体地,步骤2中具体包括以下步骤:
步骤201,对异质子图进行采样,对于给定的节点,需要先对节点周围的子图进行采样;
步骤202,采用自编码器来捕获子图的结构信息,给定子图的邻接矩阵A,它将首先由编码器处理以生成多层的潜在表示,然后,解码器将上述过程逆向得到重构输出自编码器旨在最小化输入和输出的重构误差,使具有相似结构的节点具有相似的表示,损失函数Lstructure计算公式如下:
其中,B是施加于非零元素的惩罚稀疏,以减轻稀疏性问题,e表示按位相乘,表示正则化操作;
步骤203,探索异质信息网络的异质特征,将具有相同类型的节点分组在一起,在每个组上应用Bi-LSTM来对特定于类型的特征进行建模,给定类型Tj的节点组节点v的表示/>计算如下:
其中,Bi-LSTM{v}表示将Bi-LSTM应用于节点v的类型分组上,表示节点组/>的数量;
然后,应用注意力机制来聚合所有类型组以生成给定节点的表示hv
其中,δ表示激活函数,使用LeakyReLU,u∈Rd是权重参数,uT表示u的转置,是节点v的表示,{T}表示类型的集合,αv,j表示注意力权重;
步骤204,基于自监督信息预训练子图,引入两个预训练任务,掩码节点建模任务和边重构任务,以实现节点级和边级的图谱探索。
具体地,所述的掩码节点建模任务,根据节点的排名进行排序,随机抽取预设比例的节点以[MASK]标识代替,排序好的节点会被送入到Transformer的编码器中,由Bi-LSTM生成的表示会作为标识表示,排序信息会作为位置向量,由Transformer编码器学习得到的隐藏层会送入到前馈层,以预测目标节点,数学表示为:
pv=softmax(WMNMzv),
其中,zv是前馈层的输出,Feedforward()表示由前馈层,softmax()表示激活函数,WMNM∈Vv×d是与输入节点表示矩阵共享的用于分类的权重,Vv是子图的节点数,d是隐藏层向量的维度,pv是v在所有节点上的预测分布,在训练时,使用独热标签和预测/>之间的交叉熵,损失函数LMNM计算如下:
其中,yi和pi是yi和pi的第i个分量,yi表示标签的集合,pi表示预测概率的集合;
所述的边重构任务,在子图中对正边和负边进行采样,正边是确实存在于原始子图中的边,而负边在原始子图中不存在,给定正边和负边合并集NS,通过一对节点之间的内积来计算边重构的分数,即 是计算得分,hv是节点v的表示,e是内积,hu是节点u的表示,采用预测边和真实边之间的二元交叉熵以计算边重构的损失函数LER
|NS|表示节点对的数量,BinaryCrossEntropy()表示二元交叉熵,euv表示节点u和节点v的实际得分,(u,v)表示节点u和节点v的连边。
更进一步地,所述的对节点周围的子图进行采样采用带重启的随机游走的抽样策略,将迭代地遍历给定节点v的邻域,并有一定的概率返回起始节点v,为了对重要性更高的节点进行采样,让随机游走策略首先到达高排序的节点,为了使图谱编码器具有异质性,将遍历限制为对所有类型的节点进行采样。
具体地,所述的对比学习用于在训练过程中对齐文本表示和图表示,学习目标被设计为对比损失函数,给定一批文本-子图对,最大化匹配的文本-子图对的相似度分数,同时最小化不匹配文本-子图对的分数。
在所述的对比学习的过程中,给定一个节点v,图谱编码器学习的节点表示为H,文本编码器生成的权重向量表示为其中K表示类别的数量,每个权重wi都是从提示中学习的,预测概率可以计算为
其中,τ是学习得到的温度超参数,<,·>表示相似度分数,<wi,H>表示文本权重向量wi和节点表示向量H的相似度分数。
具体地,步骤4中所述的引入自动生成的可学习且连续的提示向量,是从数据中端到端学习的连续向量来替换离散的文本单词,输入到文本编码器的提示P设计为
P=[V1][V2]…[VM][CLASS],
其中,[CLASS]表示节点的类别标签,[VM]是一个与训练阶段的词表示维度相同的词向量,M是一个超参数,表示提示中连续文本向量的个数,将连续提示P输入给文本编码器Text(·)后,即可得到代表节点概念的分类权重向量,预测概率计算为
其中,每个提示Pi中的类别标记被第i个类别名的词向量表示替换,Text(Pi)表示将提示Pi送入文本编码器后得到的向量。
优选地,在步骤4中获得更准确的提示向量,采用基于文本编码器和图谱编码器之间的残差连接来利用给定节点的上下文子图,将类别标签的文本表示和子图中的节点表示输入到文本-子图自注意力层,帮助文本特征找到给定节点的最相关的上下文节点;
获得文本-子图对比器的输出De之后,通过残差连接更新文本特征,
Text(P)←Text(P)+λDe
其中λ是一个可学习的参数,用于控制残差连接的程度。
优选地,将λ初始化为10-4,一个很小的值,以便可以最大限度地保留来自文本特征的先验语言知识。
与现有方法相比,本发明方法的优点在于:提出了一个提示学习框架来利用文本异质信息网络中的文本信息,并同时处理小样本学习问题;引入了一个图谱编码器,它可以捕获异质信息网络的结构和异质特征,同时保留网络子图的节点级和边级的自监督信息。由此,本发明一种基于对比学习机制的异质信息网络链路预测方法,在异质信息网络链路预测任务中获得更优异显著的预测性能。
附图说明
图1示出了本发明实施例的流程示意图;
图2示出了本发明实施例中预训练框架示意图;
图3示出了本发明实施例的提示学习优化框架示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
预备知识:
令G=(V,E,T)表示一个异构信息网络,其中V和E分别表示节点集和边集;TV和TE分别表示节点类型集和边类型集。一个异构信息网络是|TV|>1和/或|TE|>1的网络。
如图1所述,本发明实施例一种基于对比学习机制的异质信息网络链路预测方法,所述方法包括:
步骤1,采用文本编码器将文本编码成低维向量,生成文本表示;
步骤2,采用图谱编码器对异质信息网络的结构特征、异质特征和自监督信息进行编码,获得图表示;
步骤3,通过对比学习,将文本表示和图表示进行预训练对齐;
步骤4,引入自动生成的可学习且连续的提示向量,将标识的自然语言语句提供给文本编码器,并将自然语言语句与图谱编码器生成的结构和异质特征表示进行比较来生成分类时的权重,融合得到单一表示;
步骤5,利用获得的单一表示,进行异质信息网络的链路预测任务。
本发明方法中主要包括了文本编码器和图谱编码器,分别将文本和网络子图编码为低维向量。实施例中采用Sentence-Bert(SBERT)作为文本编码器来生成文本表示;对于图谱编码器,首先对要处理的子图进行采样,并强制所有类型的节点都被采样以确保异质性,然后应用自编码器机制来探索结构特征,并将Bi-LSTM作用于由类型分组的节点来刻画图谱的异质性。
引入了两个图谱预训练任务,即掩码节点建模和边重构,来利用节点级和边级的自监督信息。之后,引入了一个对比学习框架,可以对齐这两种表示。具体的,给定一对文本和子图,如果它们都属于给定节点,则它们是匹配的。对比学习框架用来最大化匹配的文本子图对的相似度分数,最小化不匹配的文本子图对的相似度分数。
需要将上述预先训练的模型迁移到下游任务中,以适应少样本设置。具体的,在优化阶段,对于每个新的预测任务,可以通过将描述感兴趣类别的自然语言语句提供给文本编码器,并将它们与网络编码器生成的结构和异质特征表示进行比较来生成分类时的权重。那么如何设计对于下游任务非常重要的提示?提示中词语的细微改动就可能影响模型的性能。本实施例中没有设计“a paper of[CLASS]domain”之类的手工提示,而是引入了自动生成的可学习且连续的提示向量。本实施例中的自动化提示机制可以为预训练模型带来更多与任务相关且更高效的迁移效果。
具体的技术方案如下所述。
文本编码器
本实施例的预训练框架如图2所示。它由两个编码器组成,即文本编码器和图谱编码器。文本编码器将自然语言文本映射到低维表示向量。使用Sentence-BERT(SBERT)模型来生成固定大小的文本表示。
图谱编码器
图谱编码器将网络数据映射到低维表示中。
异质子图采样
对于给定的节点,需要先对节点周围的子图进行采样,然后子图由图谱编码器处理以生成节点表示。在对子图进行采样后,子图中的节点将通过评估节点重要性的中心性指标进行排名。
采用带重启的随机游走的抽样策略。它将迭代地遍历给定节点v的邻域,并有一定的概率返回起始节点v。为了对重要性更高的节点进行采样,让该游走策略首先到达高排序的节点。为了使编码器具有异质性,将遍历限制为对所有类型的节点进行采样。
结构模块
首先采用自编码器来捕获子图的结构信息。给定子图的邻接矩阵A,它将首先由编码器处理以生成多层的潜在表示。然后,解码器将上述过程逆向得到重构输出自编码器旨在最小化输入和输出的重构误差,使具有相似结构的节点具有相似的表示。数学上,
其中,B是施加于非零元素的惩罚稀疏,以减轻稀疏性问题,e表示按位相乘,表示正则化操作。
异质模块
为了探索网络的异质特征,首先将具有相同类型的节点分组在一起。这个操作可能会破坏子图的结构,但是,之前采用的自动编码器已经保留了结构特征。然后在每个组上应用Bi-LSTM来对特定于类型的特征进行建模。Bi-LSTM能够捕捉节点特征的交互并具有广泛的序列表示能力。给定类型Tj的节点组节点v的表示/>计算如下:
其中,Bi-LSTM{v}表示将Bi-LSTM应用于节点v的类型分组上,表示节点组/>的数量;
然后应用注意力机制来聚合所有类型组以生成给定节点的表示hv
其中,δ表示激活函数,使用LeakyReLU,u∈Rd是权重参数,uT表示u的转置,是节点v的表示,{T}表示类型的集合,αv,j表示注意力权重。
自监督预训练
进一步基于自监督信息预训练子图。具体的,引入两个预训练任务,掩码节点建模(Masked node modeling,MNM)和边重构(Edge Reconstruction,ER),以实现节点级和边级的图谱探索。
对于掩码节点建模任务,我们根据节点的排名进行排序,随机抽取15%的节点以[MASK]标识代替。排序好的节点会被送入到Transformer的编码器中,其中由Bi-LSTM生成的表示会作为标识表示,排序信息会作为位置向量。由Transformer编码器学习得到的隐藏层会送入到前馈层,以预测目标节点,数学的,
pv=softmax(WMNMzv), (6)
其中,zv是前馈层的输出,Feedforward()表示由前馈层,softmax()表示激活函数,WMNM∈Vv×d是与输入节点表示矩阵共享的用于分类的权重,Vv是子图的节点数,d是隐藏层向量的维度,pv是v在所有节点上的预测分布,在训练时,使用独热标签和预测/>之间的交叉熵,损失函数LMNM计算如下,
其中,yi和pi是yi和pi的第i个分量,yi表示标签的集合,pi表示预测概率的集合。
所述的边重构任务,在子图中对正边和负边进行采样,正边是确实存在于原始子图中的边,而负边在原始子图中不存在。在实践中,可以设置|NS|=6,且正边和负边数量一样。给定正边和负边合并集NS,通过一对节点之间的内积来计算边重构的分数,即 是计算得分,hv是节点v的表示,e是内积,hu是节点u的表示,采用预测边和真实边之间的二元交叉熵以计算边重构的损失函数LER
|NS|表示节点对的数量,BinaryCrossEntropy()表示二元交叉熵,euv表示节点u和节点v的实际得分,(u,v)表示节点u和节点v的连边。
通过对比学习进行预训练
本实施例在训练过程中对齐文本和图形的表示空间,其学习目标被设计为对比损失函数。具体来说,给定一批文本-子图对,本实施例需要最大化匹配的文本-子图对的相似度分数,同时最小化不匹配文本-子图对的分数。例如,给定一个节点的子图,文本信息为该节点的摘要,那么该文本-子图对是相匹配的,文本信息与该节点无关,就不匹配。相似度分数采用余弦相似度计算。
在对比学习环境中,高质量的负样本有助于提升模型性能。因此在训练批次中,使用的文本和子图是从具有相同标签的节点中选择的,以使其难以区分。
图3展示了提示学习优化框架。本实施例可以应用于少样本的实验环境中。经过预训练的模型在面对新的标签类型的样本时,可以预测节点的子图是否与文本描述匹配。这可以通过将图谱编码器生成的节点表示与文本编码器生成的分类权重进行比较来实现。文本描述可用于指定感兴趣的节点类别,即使该类别是少样本的。给定一个节点v,图谱编码器学习的节点表示为H,文本编码器生成的权重向量表示为其中K表示类别的数量。每个权重wi都是从提示中学习的,例如,“a paper of[CLASS]domain”,“CLASS”标识可以是特定的类别名,例如“Information Retrieval”、“database”或“data mining”。为了便于链接预测的下游任务,提示也可以设计为“The two nodes are[CLASS]”,它是一个二元标识,如“connected”和“unconnected”。在数学上,预测概率可以计算为
其中,τ是学习得到的温度超参数,<·,·>表示相似度分数,<wi,H>表示文本权重向量wi和节点表示向量H的相似度分数。
连续提示
传统的提示学习方法采用的是专家设计的手动提示,本实施例选择可以从数据中端到端学习的连续向量来替换离散的文本单词。具体的,输入到文本编码器的提示P应设计为
P=[V1][V2]…[VM][CLASS], (10)
其中,[CLASS]表示节点的类别标签,[VM]是一个与训练阶段的词表示维度相同的词向量,M是一个超参数,表示提示中连续文本向量的个数。将连续提示P输入给文本编码器Text(·)后,即可得到代表节点概念的分类权重向量。在数学上,预测概率计算为
其中,每个提示Pi中的类别标记被第i个类别名的词向量表示替换,Text(Pi)表示将提示Pi送入文本编码器后得到的向量。
残差连接
考虑给定节点的上下文节点,例如论文节点的作者节点,将有助于文本编码器变得更加准确。因此,为了进一步提示预训练的语言模型,采用基于文本编码器和图谱编码器之间的残差连接来利用给定节点的上下文子图。首先将类别标签的文本表示和子图中的节点表示输入到文本-子图自注意力层,帮助文本特征找到给定节点的最相关的上下文节点。获得文本-子图对比器的输出De之后,通过残差连接更新文本特征,如下所示
Text(P)←Text(P)+λDe (12)
其中λ是一个可学习的参数,用于控制残差连接的程度。将λ初始化为一个小的值10-4,以便可以最大限度地保留来自文本特征的先验语言知识。
为了优化文本向量,通过训练以最小化基于交叉熵的标准分类损失函数。梯度可以通过文本编码器Text(·)进行反向传播,以利用参数中编码的丰富知识。对连续文本向量的选择还可以充分探索词表示空间,从而改善任务相关文本的学习。
本实施例考虑三个真实世界的数据集,即OAG、YELP和Reddit。OAG是一个具有四种类型节点的学术网络,选择标题和摘要作为文本,并将对应的论文节点分为五类:(1)信息检索、(2)数据库、(3)数据挖掘、(4)机器学习和(5)自然语言处理。YELP是一个场地签到网络,有四种类型的节点。文字描述是对该餐厅的评论,而餐厅分为五种类型:(1)中餐、(2)快餐、(3)寿司店、(4)法餐和(5)印度餐厅。Reddit是从在线论坛Reddit中提取的数据集;文字描述是对帖子的评论,帖子被分类到不同的社区。OAG和YELP只有5个标签用于小样本分类,而Reddit有42个标签,可以验证本发明方法可以适应不同的实际场景。
将数据集分为80%的训练数据集、10%的验证数据集和10%的测试数据集。表1总结了上述数据集的信息。
表1:数据集统计数据。
本实施例选取了几个专门用于文本图谱的基线模型用于比较。TADW使用矩阵分解框架将文本特征合并到表示中。CENE将文本视为节点来整合文本和结构信息。CANE通过对节点语义建模的互注意力机制学习文本感知的节点表示。WANE通过匹配所有节点对的文本序列之间的重要单词,将文本特征合并到节点表示中。NEIFA提出了一种深度神经架构,可以有效地将结构信息和文本信息融合到一个单一的表示中。DetGP提出了一个高斯过程来动态建模结构和文本信息。
所有表示的向量维度固定为512。对于文本编码器,词汇量为49,152,每个文本序列固定为77,包含[SOS]和[EOS]标签。优化过程中的文本向量由标准差等于0.02的零均值高斯分布初始化。训练时文本词的数量设置为8。采用随机梯度下降进行训练,初始学习率为0.002;使用余弦退火规则衰减。最大训练周期数设置为200。为了减轻在早期训练迭代中可能遇到的爆炸性梯度,使用预热技巧在第一个训练周期将学习率固定为1e-5。三个标签用于OAG和YELP中的训练,其余的标签用于测试。在Reddit数据集上,31个标签的数据用于训练,其余用于测试。对于基准模型,直接采用原始论文中报告的最佳参数配置。每个类别使用5个样本(5-shot)进行训练。
使用Intel(R)Xeon(R)Platinum 8268CPU和Tesla V100来运行预训练和下游任务的实验。
本实施例评估本发明方法和基准模型在链路预测任务上的性能。采用ACC和Macro-F1值作为评估指标(五次取平均)。
表2展示了链路预测任务的实验结果;最高分以粗体显示。
本发明方法在所有数据集上始终显著优于基线,这证明了模型的有效性。具体来说,实验中调整了微调阶段,使模型能够实现链路预测任务。具体的,将链路预测任务转换为二进制分类任务,标签判断子图中的节点对是否连接。
这可以归因于两个主要原因。一是采用了残差连接,将节点的上下文信息编码入标签文本的表示向量中,节点的上下文信息有利于发现是否存在链路。二是因为提示学习设置有助于有效地挖掘文本特征,从而在下游任务中获得更好的性能。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (10)

1.一种基于对比学习机制的异质信息网络链路预测方法,其特征在于,包括以下步骤:
步骤1,采用文本编码器将文本编码成低维向量,生成文本表示;
步骤2,采用图谱编码器对异质信息网络的结构特征、异质特征和自监督信息进行编码,获得图表示;
步骤3,通过对比学习,将文本表示和图表示进行预训练对齐;
步骤4,引入自动生成的可学习且连续的提示向量,将标识的自然语言语句提供给文本编码器,并将自然语言语句与图谱编码器生成的结构和异质特征表示进行比较来生成分类时的权重,融合得到单一表示;
步骤5,利用获得的单一表示,进行异质信息网络的链路预测。
2.根据权利要求1所述的一种基于对比学习机制的异质信息网络链路预测方法,其特征在于,步骤2中具体包括以下步骤:
步骤201,对异质子图进行采样,对于给定的节点,需要先对节点周围的子图进行采样;
步骤202,采用自编码器来捕获子图的结构信息,给定子图的邻接矩阵A,它将首先由编码器处理以生成多层的潜在表示,然后,解码器将上述过程逆向得到重构输出自编码器旨在最小化输入和输出的重构误差,使具有相似结构的节点具有相似的表示,损失函数Lstructure计算公式如下:
其中,B是施加于非零元素的惩罚稀疏,以减轻稀疏性问题,e表示按位相乘,表示正则化操作;
步骤203,探索异质信息网络的异质特征,将具有相同类型的节点分组在一起,在每个组上应用Bi-LSTM来对特定于类型的特征进行建模,给定类型Tj的节点组节点v的表示计算如下:
其中,Bi-LSTM{v}表示将Bi-LSTM应用于节点v的类型分组上,表示节点组/>的数量;
然后,应用注意力机制来聚合所有类型组以生成给定节点的表示hv
其中,δ表示激活函数,使用LeakyReLU,u∈Rd是权重参数,uT表示u的转置,是节点v的表示,{T}表示类型的集合,αv,j表示注意力权重;
步骤204,基于自监督信息预训练子图,引入两个预训练任务,掩码节点建模任务和边重构任务,以实现节点级和边级的图谱探索。
3.根据权利要求2所述的一种基于对比学习机制的异质信息网络链路预测方法,其特征在于,所述的掩码节点建模任务,根据节点的排名进行排序,随机抽取预设比例的节点以[MASK]标识代替,排序好的节点会被送入到Transformer的编码器中,由Bi-LSTM生成的表示作为标识表示,排序信息会作为位置向量,由Transformer编码器学习得到的隐藏层送入到前馈层,以预测目标节点,数学表示为:
pv=soft max(WMNMzv),
其中,zv是前馈层的输出,Feedforward()表示由前馈层,softmax()表示激活函数,WMNM∈Vv×d是与输入节点表示矩阵共享的用于分类的权重,Vv是子图的节点数,d是隐藏层向量的维度,pv是v在所有节点上的预测分布,在训练时,使用独热标签和预测/>之间的交叉熵,损失函数LMNM计算如下:
其中,yi和pi是yi和pi的第i个分量,yi表示标签的集合,pi表示预测概率的集合;
所述的边重构任务,在子图中对正边和负边进行采样,正边是确实存在于原始子图中的边,而负边在原始子图中不存在,给定正边和负边合并集NS,通过一对节点之间的内积来计算边重构的分数,即 是计算得分,hv是节点v的表示,e是内积,hu是节点u的表示,采用预测边和真实边之间的二元交叉熵以计算边重构的损失函数LER
|NS|表示节点对的数量,BinaryCrossEntropy()表示二元交叉熵,euv表示节点u和节点v的实际得分,(u,v)表示节点u和节点v的连边。
4.根据权利要求2所述的一种基于对比学习机制的异质信息网络链路预测方法,其特征在于,所述的对节点周围的子图进行采样采用带重启的随机游走的抽样策略,将迭代地遍历给定节点v的邻域,并有一定的概率返回起始节点v,为了对重要性更高的节点进行采样,让随机游走策略首先到达高排序的节点,为了使图谱编码器具有异质性,将遍历限制为对所有类型的节点进行采样。
5.根据权利要求1所述的一种基于对比学习机制的异质信息网络链路预测方法,其特征在于,所述的对比学习用于在训练过程中对齐文本表示和图表示,学习目标被设计为对比损失函数,给定一批文本-子图对,最大化匹配的文本-子图对的相似度分数,同时最小化不匹配文本-子图对的分数。
6.根据权利要求5所述的一种基于对比学习机制的异质信息网络链路预测方法,其特征在于,在所述的对比学习的过程中,给定一个节点v,图谱编码器学习的节点表示为H,文本编码器生成的权重向量表示为其中K表示类别的数量,每个权重wi都是从提示中学习的,预测概率计算为:
其中,τ是学习得到的温度超参数,<,·>表示相似度分数,<wi,H>表示文本权重向量wi和节点表示向量H的相似度分数。
7.根据权利要求2所述的一种基于对比学习机制的异质信息网络链路预测方法,其特征在于,步骤4中所述的引入自动生成的可学习且连续的提示向量,是从数据中端到端学习的连续向量来替换离散的文本单词,输入到文本编码器的提示P设计为:
P=[V1][V2]…[VM][CLASS],
其中,[CLASS]表示节点的类别标签,[VM]是一个与训练阶段的词表示维度相同的词向量,M是一个超参数,表示提示中连续文本向量的个数,将连续提示P输入给文本编码器Text(·)后,即可得到代表节点概念的分类权重向量,预测概率计算为
其中,每个提示Pi中的类别标记被第i个类别名的词向量表示替换,Text(Pi)表示将提示Pi送入文本编码器后得到的向量。
8.根据权利要求7所述的一种基于对比学习机制的异质信息网络链路预测方法,其特征在于,在步骤4中获得更准确的提示向量,采用基于文本编码器和图谱编码器之间的残差连接来利用给定节点的上下文子图,将类别标签的文本表示和子图中的节点表示输入到文本-子图自注意力层,帮助文本特征找到给定节点的最相关的上下文节点;
获得文本-子图对比器的输出De之后,通过残差连接更新文本特征,
Text(P)←Text(P)+λDe
其中λ是一个可学习的参数,用于控制残差连接的程度。
9.根据权利要求1所述的一种基于对比学习机制的异质信息网络链路预测方法,其特征在于,所述的文本编码器采用Sentence-BERT模型,生成固定大小的文本表示。
10.根据权利要求8所述的一种基于对比学习机制的异质信息网络链路预测方法,其特征在于,将λ初始化为10-4
CN202310587954.6A 2023-05-23 2023-05-23 一种基于对比学习机制的异质信息网络链路预测方法 Pending CN116662566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310587954.6A CN116662566A (zh) 2023-05-23 2023-05-23 一种基于对比学习机制的异质信息网络链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310587954.6A CN116662566A (zh) 2023-05-23 2023-05-23 一种基于对比学习机制的异质信息网络链路预测方法

Publications (1)

Publication Number Publication Date
CN116662566A true CN116662566A (zh) 2023-08-29

Family

ID=87714610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310587954.6A Pending CN116662566A (zh) 2023-05-23 2023-05-23 一种基于对比学习机制的异质信息网络链路预测方法

Country Status (1)

Country Link
CN (1) CN116662566A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473124A (zh) * 2023-11-03 2024-01-30 哈尔滨工业大学(威海) 一种具备抵制过度平滑能力的自监督异质图表示学习方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473124A (zh) * 2023-11-03 2024-01-30 哈尔滨工业大学(威海) 一种具备抵制过度平滑能力的自监督异质图表示学习方法
CN117473124B (zh) * 2023-11-03 2024-04-16 哈尔滨工业大学(威海) 一种具备抵制过度平滑能力的自监督异质图表示学习方法

Similar Documents

Publication Publication Date Title
CN111581510B (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN116304066B (zh) 一种基于提示学习的异质信息网络节点分类方法
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN111611361A (zh) 抽取式机器智能阅读理解问答系统
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN111291188B (zh) 一种智能信息抽取方法及系统
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
CN116662565A (zh) 基于对比学习预训练的异质信息网络关键词生成方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN113806482A (zh) 视频文本跨模态检索方法、装置、存储介质和设备
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN111080551A (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN114461890A (zh) 分层多模态的知识产权搜索引擎方法与系统
CN115203507A (zh) 一种面向文书领域的基于预训练模型的事件抽取方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115422939A (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN116662566A (zh) 一种基于对比学习机制的异质信息网络链路预测方法
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination