CN116304066B - 一种基于提示学习的异质信息网络节点分类方法 - Google Patents
一种基于提示学习的异质信息网络节点分类方法 Download PDFInfo
- Publication number
- CN116304066B CN116304066B CN202310584825.1A CN202310584825A CN116304066B CN 116304066 B CN116304066 B CN 116304066B CN 202310584825 A CN202310584825 A CN 202310584825A CN 116304066 B CN116304066 B CN 116304066B
- Authority
- CN
- China
- Prior art keywords
- node
- text
- representation
- encoder
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000005295 random walk Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 235000013410 fast food Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于提示学习的异质信息网络节点分类方法,包括以下步骤:采用文本编码器将文本编码成低维向量,生成文本表示;采用图谱编码器对异质信息网络的结构特征、异质特征和自监督信息进行编码,获得图表示;通过对比学习,将文本表示和图表示进行预训练对齐;引入自动生成的可学习且连续的提示向量,将标识的自然语言语句提供给文本编码器,并将自然语言语句与图谱编码器生成的结构和异质特征表示进行比较来生成分类时的权重,融合得到单一表示;利用获得的单一表示,进行异质信息网络的节点分类。本发明方法能够在异质信息网络节点分类任务中获得更优异显著的分类性能。
Description
技术领域
本发明涉及自然语言处理中的知识图谱网络技术领域,尤其涉及一种基于提示学习的异质信息网络节点分类方法。
背景技术
异质信息网络无处不在。社交网络、知识图谱以及搜索和推荐系统中用户和项目之间的交互可以被建模为具有多种类型的节点和边的网络。文本异质信息网络是具有文本信息的网络,例如学术网络中论文节点的标题和摘要,可以为下游任务提供富有成效的辅助信息。目前关于异质信息网络的大多数工作都忽略了此类文本信息,并将图的节点映射到仅基于结构信息的低维表示。为了填补这一空白,一些挖掘异质信息网络的模型建议将文本信息集成到节点表示中。他们主要设计一个框架,将节点的结构信息与文本信息结合起来,以生成单个节点表示。
上面提到的文本网络嵌入模型面临着许多局限性。首先,它们只能用训练好的标签对节点进行分类,换句话说,它们不适用于小样本学习设置。在小样本学习中,我们需要在测试阶段迁移预训练的模型来分类带有不可见标签的节点。在实际应用中,通常只有少数几个标签可用,这对维持性能提出了严重的挑战。其次,之前的使用文本信息的方法最初都是为同质信息网络设计的,还没有工作尝试解决文本异质信息网络上的小样本学习问题。
为了解决小样本学习问题,自然语言处理相关的研究(例,ChatGPT)提出了提示学习,它重新制定了下游任务,使其看起来像预训练任务。无论是否有微调,提示学习都有助于将先验知识快速应用于新的任务中,从而加强小样本学习。最近,在多模态场景中也采用了提示学习,对图像和文本数据进行对齐。然而,目前还没有基于提示学习的技术被用于处理图谱和文本数据。
鉴于此,提出一种基于提示学习的异质信息网络节点分类方法,将提示学习用于图谱数据,解决文本异质信息网络上的小样本学习问题,获得更高效准确的异质信息网络节点分类结果。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于提示学习的异质信息网络节点分类方法。所述方法采用一个文本编码器来编码文本信息;采用一个图谱编码器,对结构和异质特征以及自监督信息进行编码;采用一种对比学习机制,用于对齐文本表示和网络表示,以及一个可学习的连续向量式的提示学习框架,用于解决文本异质信息网络上的小样本问题。
一种基于提示学习的异质信息网络节点分类方法,所述方法包括:
步骤1,采用文本编码器将文本编码成低维向量,生成文本表示;
步骤2,采用图谱编码器对异质信息网络的结构特征、异质特征和自监督信息进行编码,获得图表示;
步骤3,通过对比学习,将文本表示和图表示进行预训练对齐;
步骤4,引入自动生成的可学习且连续的提示向量,将标识的自然语言语句提供给文本编码器,并将自然语言语句与图谱编码器生成的结构和异质特征表示进行比较来生成分类时的权重,融合得到单一表示;
步骤5,利用获得的单一表示,进行异质信息网络的节点分类。
具体地,所述的文本编码器采用Sentence-BERT模型,生成固定大小的文本表示。
具体地,步骤2中具体包括以下步骤:
步骤201,对异质子图进行采样,对于给定的节点,需要先对节点周围的子图进行采样;
步骤202,采用自编码器来捕获子图的结构信息,给定子图的邻接矩阵A,它将首先由编码器处理以生成多层的潜在表示,然后,解码器将上述过程逆向得到重构输出,自编码器旨在最小化输入和输出的重构误差,使具有相似结构的节点具有相似的表示,损失函数计算公式如下:
;
其中,B是施加于非零元素的惩罚稀疏,以减轻稀疏性问题,e表示按位相乘,表示正则化操作;
步骤203,探索异质信息网络的异质特征,将具有相同类型的节点分组在一起,在每个组上应用Bi-LSTM来对特定于类型的特征进行建模,给定类型的节点组/>,节点v的表示/>计算如下:
;
其中,表示Bi-LSTM{v}将Bi-LSTM应用于节点v的类型分组上,表示节点组/>的数量;
然后,应用注意力机制来聚合所有类型组以生成给定节点的表示,
,
;
其中,表示激活函数,使用LeakyReLU,/>是权重参数,/>表示u的转置,/>是节点v的表示,{T}表示类型的集合,/>表示注意力权重;
步骤204,基于自监督信息预训练子图,引入两个预训练任务,掩码节点建模任务和边重构任务,以实现节点级和边级的图谱探索。
具体地,所述的掩码节点建模任务,根据节点的排名进行排序,随机抽取预设比例的节点以[MASK]标识代替,排序好的节点会被送入到Transformer的编码器中,由Bi-LSTM生成的表示作为标识表示,排序信息会作为位置向量,由Transformer编码器学习得到的隐藏层送入到前馈层,以预测目标节点,数学表示为:
,
;
其中,是前馈层的输出,FeedForward()表示由前馈层,softmax()表示激活函数,/>是与输入节点表示矩阵共享的用于分类的权重,/>是子图的节点数,d是隐藏层向量的维度,/>是v在所有节点上的预测分布,在训练时,使用独热标签/>和预测/>之间的交叉熵,损失函数/>计算如下:
;
其中,和/>是/>和/>的第个分量,/>表示标签的集合,/>表示预测概率的集合;
所述的边重构任务,在子图中对正边和负边进行采样,正边是确实存在于原始子图中的边,而负边在原始子图中不存在,给定正边和负边合并集,通过一对节点之间的内积来计算边重构的分数,即/>,/>是计算得分,/>是节点v的表示,e是内积,/>是节点u的表示,采用预测边和真实边之间的二元交叉熵以计算边重构的损失函数/>:
,
表示节点对的数量,BinaryCrossEntropy()表示二元交叉熵,/>表示节点u和节点v的实际得分,(u,v)表示节点u和节点v的连边。
更进一步地,所述的对节点周围的子图进行采样采用带重启的随机游走的抽样策略,将迭代地遍历给定节点的邻域,并有一定的概率返回起始节点,为了对重要性更高的节点进行采样,让随机游走策略首先到达高排序的节点,为了使图谱编码器具有异质性,将遍历限制为对所有类型的节点进行采样。
具体地,所述的对比学习用于在训练过程中对齐文本表示和图表示,学习目标被设计为对比损失函数,给定一批文本-子图对,最大化匹配的文本-子图对的相似度分数,同时最小化不匹配文本-子图对的分数。
在所述的对比学习的过程中,给定一个节点v,图谱编码器学习的节点表示为H,文本编码器生成的权重向量表示为,其中K表示类别的数量,每个权重/>都是从提示中学习的,预测概率计算为:
;
其中,是学习得到的温度超参数,/>表示相似度分数,/>表示权重/>和节点表示向量H的相似度分数。
更进一步地,步骤4中所述的引入自动生成的可学习且连续的提示向量,是从数据中端到端学习的连续向量来替换离散的文本单词,输入到文本编码器的提示P设计为:
;
其中,[CLASS]表示节点的类别标签,是一个与训练阶段的词表示维度相同的词向量,M是一个超参数,表示提示中连续文本向量的个数,将连续提示P输入给文本编码器后,即可得到代表节点概念的分类权重向量,预测概率计算为
;
其中,每个提示中的类别标记被第i个类别名的词向量表示替换,/>表示将提示/>送入文本编码器后得到的向量。
具体地,在步骤4中获得更准确的提示向量,采用基于文本编码器和图谱编码器之间的残差连接来利用给定节点的上下文子图,将类别标签的文本表示和子图中的节点表示输入到文本-子图自注意力层,帮助文本特征找到给定节点的最相关的上下文节点;
获得文本-子图对比器的输出之后,通过残差连接更新文本特征,
;
其中是一个可学习的参数,用于控制残差连接的程度。
所述的文本编码器采用Sentence-BERT模型,生成固定大小的文本表示。优选地,将初始化为/>,一个很小的值,以便可以最大限度地保留来自文本特征的先验语言知识。
与现有方法相比,本发明方法的优点在于:提出了一个提示学习框架来利用文本异质信息网络中的文本信息,并同时处理小样本学习问题;引入了一个图谱编码器,它可以捕获异质信息网络的结构和异质特征,同时保留网络子图的节点级和边级的自监督信息。由此,本发明一种基于提示学习的异质信息网络节点分类方法,在异质信息网络节点分类任务中获得更优异显著的分类性能。
附图说明
图1示出了本发明实施例的流程示意图;
图2示出了本发明实施例中预训练框架示意图;
图3示出了本发明实施例的提示学习优化框架示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
预备知识:令G = (V, E, T) 表示一个异构信息网络,其中V和E分别表示节点集和边集;TV和TE分别表示节点类型集和边类型集。一个异构信息网络是|TV|>1和/或|TE|>1的网络。
如图1所述,本发明实施例一种基于提示学习的异质信息网络节点分类方法,所述方法包括:
步骤1,采用文本编码器将文本编码成低维向量,生成文本表示;
步骤2,采用图谱编码器对异质信息网络的结构特征、异质特征和自监督信息进行编码,获得图表示;
步骤3,通过对比学习,将文本表示和图表示进行预训练对齐;
步骤4,引入自动生成的可学习且连续的提示向量,将标识的自然语言语句提供给文本编码器,并将自然语言语句与图谱编码器生成的结构和异质特征表示进行比较来生成分类时的权重,融合得到单一表示;
步骤5,利用获得的单一表示,进行异质信息网络的节点分类。
本发明方法中主要包括了文本编码器和图谱编码器,分别将文本和网络子图编码为低维向量。实施例中采用 Sentence-Bert (SBERT)作为文本编码器来生成文本表示;对于图谱编码器,首先对要处理的子图进行采样,并强制所有类型的节点都被采样以确保异质性,然后应用自编码器机制来探索结构特征,并将Bi-LSTM作用于由类型分组的节点来刻画图谱的异质性。
引入了两个图谱预训练任务,即掩码节点建模和边重构,来利用节点级和边级的自监督信息。之后,引入了一个对比学习框架,可以对齐这两种表示。具体的,给定一对文本和子图,如果它们都属于给定节点,则它们是匹配的。对比学习框架用来最大化匹配的文本子图对的相似度分数,最小化不匹配的文本子图对的相似度分数。
需要将上述预先训练的模型迁移到下游任务中,以适应少样本设置。具体的,在优化阶段,对于每个新的分类任务,可以通过将描述感兴趣类别的自然语言语句提供给文本编码器,并将它们与网络编码器生成的结构和异质特征表示进行比较来生成分类时的权重。那么如何设计对于下游任务非常重要的提示?提示中词语的细微改动就可能影响模型的性能。本实施例中没有设计“a paper of [CLASS] domain”之类的手工提示,而是引入了自动生成的可学习且连续的提示向量。本实施例中的自动化提示机制可以为预训练模型带来更多与任务相关且更高效的迁移效果。
具体的技术方案如下所述。
文本编码器:本实施例的预训练框架如图2所示。它由两个编码器组成,即文本编码器和图谱编码器。文本编码器将自然语言文本映射到低维表示向量。使用 Sentence-BERT (SBERT)模型来生成固定大小的文本表示。
图谱编码器将网络数据映射到低维表示中。
异质子图采样:对于给定的节点,需要先对节点周围的子图进行采样,然后子图由图谱编码器处理以生成节点表示。在对子图进行采样后,子图中的节点将通过评估节点重要性的中心性指标进行排名。
采用带重启的随机游走的抽样策略。它将迭代地遍历给定节点v的邻域,并有一定的概率返回起始节点v。为了对重要性更高的节点进行采样,让该游走策略首先到达高排序的节点。为了使编码器具有异质性,将遍历限制为对所有类型的节点进行采样。
结构模块:采用自编码器来捕获子图的结构信息,给定子图的邻接矩阵A,它将首先由编码器处理以生成多层的潜在表示,然后,解码器将上述过程逆向得到重构输出,自编码器旨在最小化输入和输出的重构误差,使具有相似结构的节点具有相似的表示,损失函数计算公式如下:
;
其中,B是施加于非零元素的惩罚稀疏,以减轻稀疏性问题,e表示按位相乘,表示正则化操作。
异质模块:为了探索网络的异质特征,首先将具有相同类型的节点分组在一起。这个操作可能会破坏子图的结构,但是,之前采用的自动编码器已经保留了结构特征。然后在每个组上应用Bi-LSTM 来对特定于类型的特征进行建模。Bi-LSTM能够捕捉节点特征的交互并具有广泛的序列表示能力。
给定类型的节点组/>,节点v的表示/>计算如下:
;
其中,表示Bi-LSTM{v}将Bi-LSTM应用于节点v的类型分组上,表示节点组/>的数量;
然后,应用注意力机制来聚合所有类型组以生成给定节点的表示,
,
;
其中,表示激活函数,使用LeakyReLU,/>是权重参数,/>表示u的转置,/>是节点v的表示,{T}表示类型的集合,/>表示注意力权重。
自监督预训练
进一步基于自监督信息预训练子图。具体的,引入两个预训练任务,掩码节点建模(Masked node modeling, MNM)和边重构(Edge Reconstruction, ER),以实现节点级和边级的图谱探索。
对于掩码节点建模任务,我们根据节点的排名进行排序,随机抽取15%的节点以[MASK] 标识代替。排序好的节点会被送入到Transformer的编码器中,其中由Bi-LSTM生成的表示会作为标识表示,排序信息会作为位置向量。
由Transformer编码器学习得到的隐藏层送入到前馈层,以预测目标节点,数学表示为:
,
;
其中,是前馈层的输出,FeedForward()表示由前馈层,softmax()表示激活函数,/>是与输入节点表示矩阵共享的用于分类的权重,/>是子图的节点数,d是隐藏层向量的维度,/>是v在所有节点上的预测分布,在训练时,使用独热标签/>和预测/>之间的交叉熵,损失函数/>计算如下:
;
其中,和/>是/>和/>的第个分量,/>表示标签的集合,/>表示预测概率的集合。
所述的边重构任务,在子图中对正边和负边进行采样,正边是确实存在于原始子图中的边,而负边在原始子图中不存在。在实践中,可以设置,且正边和负边数量一样。给定正边和负边合并集/>,通过一对节点之间的内积来计算边重构的分数,即,/>是计算得分,/>是节点v的表示,e是内积,/>是节点u的表示,采用预测边和真实边之间的二元交叉熵以计算边重构的损失函数/>:
,
表示节点对的数量,BinaryCrossEntropy()表示二元交叉熵,/>表示节点u和节点v的实际得分,(u,v)表示节点u和节点v的连边。
通过对比学习进行预训练:本实施例在训练过程中对齐文本和图形的表示空间,其学习目标被设计为对比损失函数。具体来说,给定一批文本-子图对,本实施例需要最大化匹配的文本-子图对的相似度分数,同时最小化不匹配文本-子图对的分数。例如,给定一个节点的子图,文本信息为该节点的摘要,那么该文本-子图对是相匹配的,文本信息与该节点无关,就不匹配。相似度分数采用余弦相似度计算。
在对比学习环境中,高质量的负样本有助于提升模型性能。因此在训练批次中,使用的文本和子图是从具有相同标签的节点中选择的,以使其难以区分。
图3展示了提示学习优化框架。本实施例可以应用于少样本的实验环境中。经过预训练的模型在面对新的标签类型的样本时,可以预测节点的子图是否与文本描述匹配。这可以通过将图谱编码器生成的节点表示与文本编码器生成的分类权重进行比较来实现。文本描述可用于指定感兴趣的节点类别,即使该类别是少样本的。
在所述的对比学习的过程中,给定一个节点v,图谱编码器学习的节点表示为H,文本编码器生成的权重向量表示为,其中K表示类别的数量,每个权重/>都是从提示中学习的,例如,“a paper of [CLASS] domain”, “CLASS”标识可以是特定的类别名,例如“Information Retrieval”、“database”或“data mining”。为了便于下游任务,提示也可以设计为“The two nodes are [CLASS]”,它是一个二元标识,如“connected”和“unconnected”。预测概率计算为:
;
其中,是学习得到的温度超参数,/>表示相似度分数,/>表示权重/>和节点表示向量H的相似度分数。
连续提示:
传统的提示学习方法采用的是专家设计的手动提示,本实施例选择可以从数据中端到端学习的连续向量来替换离散的文本单词。具体的,输入到文本编码器的提示P应设计为
;
其中,[CLASS]表示节点的类别标签,是一个与训练阶段的词表示维度相同的词向量,M是一个超参数,表示提示中连续文本向量的个数,将连续提示P输入给文本编码器后,即可得到代表节点概念的分类权重向量,预测概率计算为
;
其中,每个提示中的类别标记被第i个类别名的词向量表示替换,/>表示将提示/>送入文本编码器后得到的向量。
残差连接:
考虑给定节点的上下文节点,例如论文节点的作者节点,将有助于文本编码器变得更加准确。因此,为了进一步提示预训练的语言模型,采用基于文本编码器和图谱编码器之间的残差连接来利用给定节点的上下文子图。首先将类别标签的文本表示和子图中的节点表示输入到文本-子图自注意力层,帮助文本特征找到给定节点的最相关的上下文节点。
获得文本-子图对比器的输出之后,通过残差连接更新文本特征,
;
其中是一个可学习的参数,用于控制残差连接的程度。将/>初始化为/>,一个很小的值,以便可以最大限度地保留来自文本特征的先验语言知识。
为了优化文本向量,通过训练以最小化基于交叉熵的标准分类损失函数。梯度可以通过文本编码器Text(.)进行反向传播,以利用参数中编码的丰富知识。对连续文本向量的选择还可以充分探索词表示空间,从而改善任务相关文本的学习。
本实施例考虑三个真实世界的数据集,即OAG、YELP和Reddit。OAG是一个具有四种类型节点的学术网络,选择标题和摘要作为文本,并将对应的论文节点分为五类:(1)信息检索、(2)数据库、(3)数据挖掘、(4)机器学习和(5)自然语言处理。YELP 是一个场地签到网络,有四种类型的节点。文字描述是对该餐厅的评论,而餐厅分为五种类型:(1)中餐、(2)快餐、(3) 寿司店、(4)法餐和(5)印度餐厅。Reddit是从在线论坛Reddit中提取的数据集;文字描述是对帖子的评论,帖子被分类到不同的社区。OAG和YELP只有5个标签用于小样本分类,而Reddit有42个标签,可以验证本发明方法可以适应不同的实际场景。
将数据集分为 80% 的训练数据集、10% 的验证数据集和 10% 的测试数据集。表1总结了上述数据集的信息。
表1:数据集统计数据;
。
本实施例选取了几个专门用于文本图谱的基线模型用于比较。TADW使用矩阵分解框架将文本特征合并到表示中。CENE将文本视为节点来整合文本和结构信息。CANE通过对节点语义建模的互注意力机制学习文本感知的节点表示。WANE通过匹配所有节点对的文本序列之间的重要单词,将文本特征合并到节点表示中。NEIFA提出了一种深度神经架构,可以有效地将结构信息和文本信息融合到一个单一的表示中。DetGP提出了一个高斯过程来动态建模结构和文本信息。我们还包括了GPPT模型,它将提示学习的技术用于图谱数据,并忽视了文本信息。GPPT只能适用于节点分类任务。
所有表示的向量维度固定为512。对于文本编码器,词汇量为49,152,每个文本序列固定为77,包含[SOS]和[EOS]标签。优化过程中的文本向量由标准差等于0.02的零均值高斯分布初始化。训练时文本词的数量设置为8。采用随机梯度下降进行训练,初始学习率为 0.002;使用余弦退火规则衰减。最大训练周期数设置为200。为了减轻在早期训练迭代中可能遇到的爆炸性梯度,使用预热技巧在第一个训练周期将学习率固定为1e-5。三个标签用于OAG和YELP中的训练,其余的标签用于测试。在Reddit数据集上,31个标签的数据用于训练,其余用于测试。对于基准模型,直接采用原始论文中报告的最佳参数配置。每个类别使用5个样本(5-shot)进行训练。
使用Intel(R) Xeon(R) Platinum 8268 CPU 和 Tesla V100来运行预训练和下游任务的实验。
本实施例评估本发明方法和基准模型在节点分类任务上的性能。采用ACC和Macro-F1值作为评估指标(五次取平均)。
表2展示了节点分类任务的实验结果;最高分以粗体显示。
表2:节点分类任务的结果;
。
本发明方法在所有数据集上始终显著优于基线,这证明了模型的有效性。具体来说,所有文本网络表示模型的性能都比本发明方法差,这可以归因于它们无法处理少样本问题。即使没有文本信息,GPPT的性能也与NEIFA相当。这是因为GPPT的提示技术有助于处理少样本设置。本发明方法仍然表现最佳。我们认为这是因为本发明方法提供了一个基于提示学习的,利用异质图的文本信息的新角度,同时帮助本发明方法适应少样本情形。此外,之前的方法不是专门为异质信息网络设计的,而本发明方法设计了一个可以处理异质特征的图谱编码器。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (7)
1.一种基于提示学习的异质信息网络节点分类方法,其特征在于,包括以下步骤:
步骤1,采用文本编码器将文本编码成低维向量,生成文本表示;
步骤2,采用图谱编码器对异质信息网络的结构特征、异质特征和自监督信息进行编码,获得图表示;
步骤3,通过对比学习,将文本表示和图表示进行预训练对齐;
步骤4,引入自动生成的可学习且连续的提示向量,将标识的自然语言语句提供给文本编码器,并将自然语言语句与图谱编码器生成的结构和异质特征表示进行比较来生成分类时的权重,融合得到单一表示;
步骤5,利用获得的单一表示,进行异质信息网络的节点分类;
步骤2中具体包括以下步骤:
步骤201,对异质子图进行采样,对于给定的节点,需要先对节点周围的子图进行采样;
步骤202,采用自编码器来捕获子图的结构信息,给定子图的邻接矩阵A,它将首先由编码器处理以生成多层的潜在表示,然后,解码器将上述过程逆向得到重构输出自编码器旨在最小化输入和输出的重构误差,使具有相似结构的节点具有相似的表示,损失函数计算公式如下:
其中,B是施加于非零元素的惩罚稀疏,以减轻稀疏性问题,e表示按位相乘,表示正则化操作;
步骤203,探索异质信息网络的异质特征,将具有相同类型的节点分组在一起,在每个组上应用Bi-LSTM来对特定类型的特征进行建模,给定类型Tj的节点组节点v的表示/>计算如下:
其中,Bi-LSTM{v}表示将Bi-LSTM应用于节点v的类型分组上,表示节点组/>的数量;
然后,应用注意力机制来聚合所有类型组以生成给定节点的表示,
其中,δ表示激活函数,使用LeakyReLU,u∈Rd是权重参数,uT表示u的转置,是节点v的表示,{T}表示类型的集合,αv,j表示注意力权重;
步骤204,基于自监督信息预训练子图,引入两个预训练任务,掩码节点建模任务和边重构任务,以实现节点级和边级的图谱探索;
所述的掩码节点建模任务,根据节点的排名进行排序,随机抽取预设比例的节点以[MASK]标识代替,排序好的节点会被送入到Transformer编码器中,由Bi-LSTM生成的表示作为标识表示,排序信息会作为位置向量,由Transformer编码器学习得到的隐藏层送入到前馈层,以预测目标节点,数学表示为:
pv=softmax(WMNMzv);
其中,zv是前馈层的输出,FeedForward()表示前馈层,softmax()表示激活函数,WMNM∈Vv×d是与输入节点表示矩阵共享的用于分类的权重,Vv是子图的节点数,d是隐藏层向量的维度,pv是v在所有节点上的预测分布,在训练时,使用独热标签和预测概率/>之间的交叉熵计算损失函数LMNM:
其中,yi和pi是Yi和Pi的第i个分量,Yi表示标签的集合,
Pi表示预测概率的集合;
所述的边重构任务,在子图中对正边和负边进行采样,正边是确实存在于原始子图中的边,而负边在原始子图中不存在,给定正边和负边合并集NS,通过一对节点之间的内积来计算边重构的分数,即是计算得分,hv是节点v的表示,e是内积,hu是节点u的表示,采用预测边和真实边之间的二元交叉熵以计算边重构的损失函数LER:
|NS|表示节点对的数量,BinaryCrossEntropy()表示二元交叉熵,euv表示节点u和节点v的实际得分,(u,v)表示节点u和节点v的连边;
步骤4中所述的引入自动生成的可学习且连续的提示向量,是从数据中端到端学习的连续向量来替换离散的文本单词,输入到文本编码器的提示P设计为:
P=[V1][V2]...[VM][CLASS];
其中,[CLASS]表示节点的类别标签,[VM]是一个与训练阶段的词表示维度相同的词向量,M是一个超参数,表示提示中连续文本向量的个数,将连续提示P输入给文本编码器Text(·)后,即可得到代表节点概念的分类权重向量,预测概率计算为
其中,每个提示Pi中的类别标记被第i个类别名的词向量表示替换,Text(Pi)表示将提示Pi送入文本编码器后得到的向量。
2.根据权利要求1所述的一种基于提示学习的异质信息网络节点分类方法,其特征在于,所述的对节点周围的子图进行采样采用带重启的随机游走的抽样策略,将迭代地遍历给定节点v的邻域,并有一定的概率返回起始节点v,为了对重要性更高的节点进行采样,让随机游走策略首先到达高排序的节点,为了使图谱编码器具有异质性,将遍历限制为对所有类型的节点进行采样。
3.根据权利要求1所述的一种基于提示学习的异质信息网络节点分类方法,其特征在于,所述的对比学习用于在训练过程中对齐文本表示和图表示,学习目标被设计为对比损失函数,给定一批文本-子图对,最大化匹配的文本-子图对的相似度分数,同时最小化不匹配文本-子图对的分数。
4.根据权利要求3所述的一种基于提示学习的异质信息网络节点分类方法,其特征在于,在所述的对比学习的过程中,给定一个节点v,图谱编码器学习的节点表示为H,文本编码器生成的权重向量表示为其中K表示类别的数量,每个权重wi都是从提示中学习的,预测概率计算为:
其中,τ是学习得到的温度超参数,<·,·>表示相似度分数,<wi,H>表示权重wi和节点表示向量H的相似度分数。
5.根据权利要求4所述的一种基于提示学习的异质信息网络节点分类方法,其特征在于,在步骤4中获得更准确的提示向量,采用基于文本编码器和图谱编码器之间的残差连接来利用给定节点的上下文子图,将类别标签的文本表示和子图中的节点表示输入到文本-子图自注意力层,帮助文本特征找到给定节点的最相关的上下文节点;获得文本-子图对比器的输出De之后,通过残差连接更新文本特征,Text(P)←Text(P)+λDe;
其中λ是一个可学习的参数,用于控制残差连接的程度。
6.根据权利要求1所述的一种基于提示学习的异质信息网络节点分类方法,其特征在于,所述的文本编码器采用Sentence-BERT模型,生成固定大小的文本表示。
7.根据权利要求5所述的一种基于提示学习的异质信息网络节点分类方法,其特征在于,将λ初始化为10-4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310584825.1A CN116304066B (zh) | 2023-05-23 | 2023-05-23 | 一种基于提示学习的异质信息网络节点分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310584825.1A CN116304066B (zh) | 2023-05-23 | 2023-05-23 | 一种基于提示学习的异质信息网络节点分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116304066A CN116304066A (zh) | 2023-06-23 |
CN116304066B true CN116304066B (zh) | 2023-08-22 |
Family
ID=86820747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310584825.1A Active CN116304066B (zh) | 2023-05-23 | 2023-05-23 | 一种基于提示学习的异质信息网络节点分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304066B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610807B (zh) * | 2023-07-21 | 2023-10-13 | 北京语言大学 | 一种基于异质图神经网络的知识结构识别方法及装置 |
CN116644196A (zh) * | 2023-07-26 | 2023-08-25 | 北京智谱华章科技有限公司 | 基于参数高效的通用检索方法和装置 |
CN117473124B (zh) * | 2023-11-03 | 2024-04-16 | 哈尔滨工业大学(威海) | 一种具备抵制过度平滑能力的自监督异质图表示学习方法 |
CN117576710B (zh) * | 2024-01-15 | 2024-05-28 | 西湖大学 | 用于大数据分析的基于图生成自然语言文本的方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182511A (zh) * | 2020-11-27 | 2021-01-05 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
CN114090780A (zh) * | 2022-01-20 | 2022-02-25 | 宏龙科技(杭州)有限公司 | 一种基于提示学习的快速图片分类方法 |
CN114239711A (zh) * | 2021-12-06 | 2022-03-25 | 中国人民解放军国防科技大学 | 基于异构信息网络少样本学习的节点分类方法 |
CN114254655A (zh) * | 2022-02-28 | 2022-03-29 | 南京众智维信息科技有限公司 | 一种基于提示自监督学习网络安全溯源语义识别方法 |
CN115311389A (zh) * | 2022-08-05 | 2022-11-08 | 西北大学 | 一种基于预训练模型的多模态视觉提示技术表示学习方法 |
CN115659234A (zh) * | 2022-09-30 | 2023-01-31 | 山东科技大学 | 一种融合文本属性的异质图表示学习方法 |
CN115713072A (zh) * | 2022-11-14 | 2023-02-24 | 东南大学 | 一种基于提示学习和上下文感知的关系类别推断系统及方法 |
CN116011456A (zh) * | 2023-03-17 | 2023-04-25 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144577B (zh) * | 2019-12-26 | 2022-04-22 | 北京百度网讯科技有限公司 | 异构图之中节点表示的生成方法、装置和电子设备 |
CN112669916B (zh) * | 2020-12-25 | 2022-03-15 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
US20230106416A1 (en) * | 2021-10-05 | 2023-04-06 | Microsoft Technology Licensing, Llc | Graph-based labeling of heterogenous digital content items |
US11989941B2 (en) * | 2021-11-16 | 2024-05-21 | Salesforce, Inc. | Systems and methods for video and language pre-training |
-
2023
- 2023-05-23 CN CN202310584825.1A patent/CN116304066B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182511A (zh) * | 2020-11-27 | 2021-01-05 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
CN114239711A (zh) * | 2021-12-06 | 2022-03-25 | 中国人民解放军国防科技大学 | 基于异构信息网络少样本学习的节点分类方法 |
CN114090780A (zh) * | 2022-01-20 | 2022-02-25 | 宏龙科技(杭州)有限公司 | 一种基于提示学习的快速图片分类方法 |
CN114254655A (zh) * | 2022-02-28 | 2022-03-29 | 南京众智维信息科技有限公司 | 一种基于提示自监督学习网络安全溯源语义识别方法 |
CN115311389A (zh) * | 2022-08-05 | 2022-11-08 | 西北大学 | 一种基于预训练模型的多模态视觉提示技术表示学习方法 |
CN115659234A (zh) * | 2022-09-30 | 2023-01-31 | 山东科技大学 | 一种融合文本属性的异质图表示学习方法 |
CN115713072A (zh) * | 2022-11-14 | 2023-02-24 | 东南大学 | 一种基于提示学习和上下文感知的关系类别推断系统及方法 |
CN116011456A (zh) * | 2023-03-17 | 2023-04-25 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
SentiBERT:结合情感信息的预训练语言模型;杨晨;宋晓宁;宋威;;计算机科学与探索(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116304066A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581510B (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN116304066B (zh) | 一种基于提示学习的异质信息网络节点分类方法 | |
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN113239181B (zh) | 基于深度学习的科技文献引文推荐方法 | |
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
WO2022198868A1 (zh) | 开放式实体关系的抽取方法、装置、设备及存储介质 | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN111753550A (zh) | 一种自然语言的语义解析方法 | |
CN116662565A (zh) | 基于对比学习预训练的异质信息网络关键词生成方法 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
CN112732862B (zh) | 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置 | |
CN115203507A (zh) | 一种面向文书领域的基于预训练模型的事件抽取方法 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN111080551A (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
CN113486177A (zh) | 一种基于文本分类的电力领域表格列标注方法 | |
CN115422939A (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN116662566A (zh) | 一种基于对比学习机制的异质信息网络链路预测方法 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN113051886A (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN117076608A (zh) | 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |