CN115659234A

CN115659234A - 一种融合文本属性的异质图表示学习方法

Info

Publication number: CN115659234A
Application number: CN202211217839.1A
Authority: CN
Inventors: 李超; 王振; 闫页宇; 赵中英; 李香菊; 苏令涛; 段华; 曾庆田
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-31

Abstract

本发明公开了一种融合文本属性的异质图表示学习方法，属于图数据处理技术领域，该学习方法将文本表示方法与图表示学习方法相结合，基于transformer和图神经网络模型进行构建。首先利用已有节点文本属性进行基于文本编码策略的文本特征表示，并将文本的表示向量融入到异质图中。而后，基于邻居节点的均值聚合以及节点特征变换的方法实现节点缺失属性的补全。最终，将补全属性的异质图输入到已有图神经网络模型，通过端到端的训练策略生成最佳的节点向量。本发明能够深度的融合节点文本属性从而提升图神经网络模型的性能。

Description

一种融合文本属性的异质图表示学习方法

技术领域

本发明属于图数据处理技术领域，具体涉及一种融合文本属性的异质图表示学习方法。

背景技术

图结构数据是现实生活中广泛存在的一类数据形式。宏观上的互联网、知识图谱、社交网络数据，微观上的蛋白质、化合物分子等都可以用图结构来建模和表示。异质图能够准确有效建模现实世界中丰富的语义信息和复杂的网络关系。

随着人工智能的发展，真实世界的图数据得到大量的积累，如何深入分析与挖掘这些图数据成为了数据挖掘的研究热点，对图数据研究方法大致如下：

(1)浅层图嵌入模型：图嵌入的目的是将图中的节点投影到低维向量空间，用低维稠密向量来表示网络中的任意节点，从而更灵活地应用于不同数据挖掘任务中；同时在低维向量空间中，节点的表示能够反映节点之间关系以及保留节点的特征信息。当前方法大多基于已有的深度模型并结合网络特征学习节点或边的特征表示，如DeepWalk，将随机游走和skip-gram模型结合来学习节点表示；LINE在一阶邻居相似性的基础上加上二阶相似性，来获取具有丰富信息的节点表示；SDNE借助深度自动编码器来抽取网络结构的非线性特征生成节点表示；metapath2vec则以异质图为研究对象，在meta-paths的引导下生成随机节点序列，然后将序列输入skip-gram模型生成节点表示。与metapath2vec类似，HERec提出了一种类型约束策略，以过滤节点序列并捕获异构图中复杂语义。

(2)图神经网络模型：图神经网络是深层图嵌入模型，将深度学习推广到图结构数据，遵循信息传递框架聚合邻居的信息，该框架分为两个步骤：1)按照节点间的拓扑关系传播信息；2)节点的信息聚合来更新节点表示。图神经网络模型可以分为谱域和空域两种。基于谱域的图神经网络依赖于拉普拉斯矩阵的特征分解，如GCN和FAGCN通过设计不同的核函数聚合邻域的特征信息。基于空域的方法直接在图上定义卷积，从每个节点的邻域中聚合特征信息。如GraphSAGE和GAT设计不同的函数来聚合邻域的特征信息。上述的图神经网络仅适用于同质图。最近的一些研究将图神经网络扩展到异质图，例如HAN首先通过节点级注意力学习不同元路径下邻域节点的重要性；之后通过语义级注意力学习不同元路径的重要性，最后根据重要性来聚合不同元路径下的邻域节点的特征信息。HetGNN首先通过带重启的随机游走对邻居进行采样，然后通过长短期记忆网络(LSTM)与注意力机制聚合邻域中不同类型的节点信息。MAGNN模型首先将不同类型节点的特征信息映射到同一空间下，然后聚合元路径下的信息，最后完成多条元路径下的节点向量的聚合。

从以上研究来看，基于深度学习方法在图数据的表示学习上取得了较好成绩。但是在对图数据进行表示学习中浅层的图嵌入模型和图神经网络模型都存在不能充分挖掘节点文本信息的问题，造成语义信息的损失。因此如何实现图节点文本属性融入和科学准确的属性表示和属性补全，文本属性表示、补全与模型设计之间相互增强成为当下研究需要解决的问题。

已有网络表示学习方法主要针对模型的改进来提高算法性能，随着异质图神经网络研究的深入，研究人员发现完备的节点属性是算法运行的必要前提。已有的研究对于属性的缺失采用一些简单的手工插补方法(例如平均插补、one-hot向量插补)进行补全。这些方法将属性补全与图表示学习过程分开，忽略了准确的属性对于下游任务的重要性，因此很难使用简单插补后的属性来保证模型的性能。尤其是针对节点文本属性的表示与图神经网络的融入。传统的异质图神经网络的节点属性是将文本用one-hot向量表示构建的，存在语义稀疏的问题；对于缺失属性的节点通过均值求和补全属性，这种补全方式会引入噪音信息，从而导致模型的性能降低。

发明内容

为了解决上述问题，本发明提出了一种融合文本属性的异质图表示学习方法，以异质图表示学习为基础，深度表示了异质图中节点文本属性，实现了文本属性与异质图神经网络模型的深度融合技术。

本发明的技术方案如下：

一种融合文本属性的异质图表示学习方法，具体包括如下步骤：

步骤1、获取数据集节点文本数据T，对文本数据进行预训练，利用已有节点文本属性进行基于文本编码策略的文本特征表示，得到文本表示的特征向量X_T，将其表示为numpy矩阵的格式并保存起来，根据数据集中的节点关系构建异质图，得到节点之间的邻接矩阵A，并将保存的特征向量X_T作为具有文本属性节点的属性融入到异质图中；

步骤2、通过邻接矩阵A找到缺失属性节点邻域中具有文本属性的节点，对其文本属性采用均值聚合以及经过全连接网络进行节点特征变换的方法实现节点缺失属性的补全，得到完备的节点属性矩阵X^S；

步骤3、将补全属性的完备的异质图的邻接矩阵A以及完备的节点属性矩阵X^S输入到已有图神经网络模型，通过节点分类任务端到端的训练生成最佳的节点表示向量Z。

进一步地，步骤1的具体过程如下：

步骤1.1、获取所需数据，构建数据集，采用爬虫算法爬取当前数据集中的内容作为节点的文本数据T＝(W₁,W₂…W_n)，W₁,W₂…W_n表示文本T中的词汇；

步骤1.2、分别将文本数据集中的各节点按照之间的关系构建节点间的邻接矩阵A，邻接矩阵A是一个节点数目*节点数目的方阵，方阵中的每一个元素代表节点之间的边关系，若节点之间有关系则对应位置为1，反之为0，进而构建出邻接矩阵结构的异质图；

步骤1.3、将爬取到的文本数据T进行文本的预处理，包括去除停用词以及将英文大写转化为小写；

步骤1.4、将预处理后的文本数据T输入编码器，基于机器翻译任务预训练的Transformer模型对节点文本属性进行编码，输出编码后的表示向量，编码器由6个相同的层堆叠组成；每层有两个子层，一个子层是多头的自注意力机制，另一个子层是前馈网络层，在两个子层之间使用残差连接，然后进行层归一化，每个子层的输出是LayerNorm(x+Sublayer(x))，其中Sublayer(x)是每一层的功能函数；x表示文本特征；

步骤1.5、将编码器的输出及文本的其它语言形式输入解码器，通过机器翻译任务预训练得到文本的表示向量X_T＝g(W₁,W₂…W_n)；解码器也是由6个相同的层堆叠而成；除了编码器中的两个子层之外，解码器插入了第三个子层，该层对编码器的输出执行掩码的多头注意力机制；其中，g(·)是文本向量化编码方法Transformer；_T是一个384维的向量，将其表示为numpy格式的有文本属性的节点数目*384的矩阵，并保存起来，矩阵的每一行表示一个节点。

进一步地，步骤2的具体过程如下：

步骤2.1、找到缺失文本属性的节点v^-邻域中有文本属性的邻居节点v⁺；

步骤2.2、通过均值聚合邻域节点文本属性补全缺失文本属性；

缺失文本属性的节点v^-通过连接的有文本属性的邻居节点v⁺补全自身属性，补全计算公式如下：

其中，

是待补全的节点属性，

是节点v^-邻域中有文本属性节点的文本属性，agg(·)是均值聚合的补全方式，

是节点v^-的邻域中有文本信息的节点集合；

步骤2.3、对文本属性进行特征变换为每一个节点构建一个文本属性表示向量；

通过全连接网络对节点属性进行特征变换来根据下游任务更新节点属性，具体被定义为：

其中，MLP是一个两层的全连接网络，将补全的目标节点属性进行特征变换以适应于下游的任务，A表示节点v^-与

之间的邻接矩阵，D^-1表示节点v^-的度的倒数，

表示节点v^-的邻域中有文本信息节点的文本属性矩阵；

步骤2.4、得到完备的异质图；

通过联合步骤2.3为缺失文本属性节点的文本属性以及有文本属性的节点v⁺的文本属性构建完备的属性矩阵

最后联合步骤1.2下的邻接矩阵A构成完备的异质图G＝(A,X^S)。

进一步地，步骤3的具体过程如下：

步骤3.1、将构建的异质图G中的节点按照比例划分训练集、验证集和测试集；并同时输入到图神经网络模型：

其中，

表示图神经网络模型，Z表示图神经网络得到的节点表示，之后将Z通过MLP变换到节点标签的维度得到

步骤3.2、进行分类预测，

其中，L_prediction表示分类损失，

表示模型的预测值，Y表示节点的标签，

和Y是节点数目*节点标签类别数目的矩阵，f表示交叉熵损失函数，取决于具体的下游任务；

步骤3.3、通过最小化训练集交叉熵损失来优化模型，交叉熵损失函数公式如下：

其中，

和Y(x_i)分别为节点预测标签概率分布和节点真实标签概率分布；

步骤3.4、对参数进行优化，通过反向传播端到端的操作减小步骤3.3中的交叉熵损失函数来更新图神经网络和全连接网络中的可训练参数，直到在验证集上的分类准确率不再上升，模型收敛；

步骤3.5、模型收敛之后，通过测试集验证模型性能，同时得到最佳的节点表示向量Z。

本发明所带来的有益技术效果：

构建了基于编码器与解码器的Transformer模型编码节点文本属性，为具有文本属性的节点构建具有丰富文本语义信息的属性向量；提出了基于邻居节点的均值聚合以及节点特征变换节点缺失属性补全的方法，通过均值聚合以及节点特征变换对节点缺失属性进行补全能够减少传统方法(均值补全)带来的噪音信息以及克服传统方法将属性补全与模型训练割裂的缺点，从而提升模型整体的性能；通过设计端到端的训练策略得到节点的表示向量，端到端的训练策略能够学习适合下游任务的表示向量；本发明将文本表示方法与图表示学习方法相结合，可以充分挖掘异质图中节点文本的语义信息从而提升异质图神经网络模型的表达能力；本发明聚焦图节点的文本属性融入，侧重科学准确的属性表示和属性补全，实现文本属性表示、补全与模型设计之间相互增强；本发明提出方法结合图神经网络模型在节点分类任务上具有更高的准确性和更强的适应性。

附图说明

图1为本发明方法的流程图；

图2为本发明文本表示的流程图；

图3为本发明节点文本属性补全的流程图；

图4为本发明中端到端训练图神经网络模型的流程图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

文本表示学习是本发明的技术基础，本发明侧重对节点文本信息进行深度表示，将得到的表示向量融入到图神经网络表示学习中以提升图神经网络模型的表示能力。

本发明以图数据为基础，以提高异质图神经网络模型性能为核心目标，需要解决的核心问题包括：第一：节点文本数据的获取与表示。第二：异质图中缺失文本属性节点的文本属性补全。第三：端到端生成节点表示向量的训练策略的设计。

关键技术问题1：节点文本数据的获取与表示

分别爬取DBLP数据集中论文节点的标题与IMDB数据集中电影节点的情节描述作为节点的文本数据，对获取到的文本数据T＝(W₁,W₂…W_n)通过文本表示的方法充分挖掘文本的语义信息得到表示向量X_T＝g(W₁,W₂…W_n)。其中，g(·)是文本向量化编码方法(Transformer)。W₁,W₂…W_n表示文本T中的词汇。

关键技术问题2：异质图中缺失文本属性节点的文本属性补全

本发明基于邻居节点的均值聚合以及节点特征变换的方法实现节点缺失属性的补全。文本属性补全是为网络中缺失文本属性的节点补全文本属性，具体而言，缺失文本属性的节点v^-通过连接的有文本属性的邻居节点v⁺补全自身属性

其中，

是待补全的节点属性，

是节点v^-邻域中有文本属性节点的文本属性，agg(·)是补全方式(均值聚合)，

是节点v^-的邻域中有文本信息的节点集合。

关键技术问题3：端到端生成节点表示向量的训练策略的设计

本发明将提出的融合文本属性的异质图表示学习方法与图神经网络结合并根据下游任务实现端到端的优化。所有节点的属性

将完备的属性矩阵X^S与图的拓扑结构一起输入到图神经网络模型：

其中，

表示图神经网络模型，Z经过MLP得到

表示模型的预测值，Y表示节点的标签，f表示损失函数，取决于具体的下游任务。通过最小化损失来实现模型端到端的优化。

如图1所示，本发明以“节点文本表示-文本属性补全-端到端训练”为主线。框架首先利用transformer进行基于文本编码策略的文本特征表示，并将文本的表示向量融入到异质图中。而后，基于邻居节点的均值聚合以及节点特征变换的方法实现节点缺失属性的补全。最终，将补全属性的异质图输入到已有图神经网络模型，通过端到端的训练策略生成节点的向量。

本发明提出一种融合节点文本属性的异质图表示学习方法(HGNN-ETA)，该框架包含基于注意力机制的节点文本属性编码、基于邻居聚合机制的节点属性补全和端到端异质图模型构建与优化三个关键部分。

异质图中良好的节点属性有利于提升图神经网络模型整体的性能，异质图中节点文本属性具有重要的特征(例如DBLP数据集中的论文节点、IMDB数据集中的电影节点)，其文本中含有丰富的语义信息，因此本发明将文本信息融入到异质图的表示学习中。本发明基于机器翻译任务预训练的Transformer模型对节点文本属性进行编码，其中编码器的输入是节点文本属性，解码器的输入为编码器的输出及文本的其它语言形式，通过机器翻译任务预训练得到文本的表示向量。

节点文本属性编码的具体流程如图2所示，其中，数据集获取途径根据具体应用场景获取，包括推荐系统现有历史数据以及系统实时获取的当前客户数据。本发明实施例数据集包括DBLP、IMDB两个数据集，其中DBLP为现有数据集，IMDB数据集则是自己构建的。首先通过爬虫算法获取实验所需的数据集(DBLP、IMDB)的文本，其次通过数据集中节点之间关系进行异质图构建，然后将构建好的异质图中的文本进行提取，最后通过基于编码器与解码器的Transformer模型编码节点文本属性，最终得到文本表示向量。具体过程如下：

步骤1.1、采用爬虫算法分别爬取DBLP数据集中论文节点的标题与IMDB数据集中电影节点的情节描述作为节点的文本数据T＝(W₁,W₂…W_n)；W₁,W₂…W_n表示文本T中的词汇；

步骤1.2、分别将DBLP数据集中的论文、作者、发表的会议、以及论文关键词节点按照节点之间的关系(作者撰写论文、论文发表于会议、论文包含关键词)；IMDB数据集中的电影、导演、演员节点以及节点之间的关系(导演拍摄电影、演员出演电影)构建节点间的邻接矩阵A，邻接矩阵A是一个节点数目*节点数目的方阵，方阵中的每一个元素代表节点之间的边关系，只要节点之间有关系对应位置为1，反之为0，进而构建出异质图；

步骤1.3、将爬取到的文本数据(DBLP中的论文标题、IMDB中的电影情节)T去除停用词以及将英文大写转化为小写等进行文本的预处理；

步骤1.4、将清洗后的文本数据T输入编码器，基于机器翻译任务预训练的Transformer模型对节点文本属性进行编码，输出编码后的表示向量，编码器由6个相同的层堆叠组成。每层有两个子层，一个子层是多头的自注意力机制，另一个子层是前馈网络层，在两个子层之间使用残差连接，然后进行层归一化，即每个子层的输出是LayerNorm(x+Sublayer(x))；其中，Sublayer(x)是每一层的功能函数；x表示文本特征；

步骤1.5、将编码器的输出及文本的其它语言形式输入解码器，通过机器翻译任务预训练得到文本的表示向量X_T＝g(W₁,W₂…W_n)；解码器也是由6个相同的层堆叠而成。除了编码器中的两个子层之外，解码器插入了第三个子层，该层对编码器的输出执行掩码的多头注意力机制。其中，g(·)是文本向量化编码方法Transformer；_T是一个384维的向量，将其表示为numpy格式的有文本属性的节点数目*384的矩阵并保存起来，矩阵的每一行表示一个节点。

基于编码器与解码器的Transformer模型编码节点文本属性，为具有文本属性的节点构建具有丰富文本语义信息的属性向量。通过该方法能够充分挖掘节点的文本属性信息，将得到的文本表示向量融入到模型中能够提高模型的性能。

异质图中某些类型节点没有文本信息(例如DBLP中的作者与会议节点、IMDB中的导演与演员节点)，通过图神经网络的信息传递机制，这些类型节点可以聚合其邻居节点的文本信息来补全自己的文本属性。节点文本属性补全分两步实现：(1)均值聚合邻居信息，(2)节点特征变换。

节点文本属性补全的具体流程如图3所示，本发明首先通过均值聚合邻域节点文本属性补全缺失文本属性，其次通过对文本属性进行特征变换为每一个节点构建一个文本属性表示向量，进而得到完备的异质图。具体过程如下：

异质图中某些类型节点没有文本信息(例如DBLP中的作者与会议节点、IMDB中的导演与演员节点)，这些类型的节点的属性是缺失的，但这些节点直接连接到具有属性的节点，例如DBLP数据集中作者节点连接到具有属性的论文节点，IMDB中的导演与演员节点连接到电影节点，本发明为缺失文本属性的节点从其邻域中找到有文本属性的节点；

缺失文本属性的节点v^-通过连接的有文本属性的邻居节点v⁺补全自身属性，补全计算如下：

其中，

是待补全的节点属性，

是节点v^-的邻域中有文本信息的节点集合；

通过全连接网络对节点属性进行特征变换来根据下游任务更新节点属性，具体可以被定义为：

其中，MLP是一个两层的全连接网络，将补全的目标节点属性进行特征变换以适应于下游的任务，

表示为节点缺失性节点v^-构建的属性，A表示节点v^-与

之间的邻接矩阵，D^-1表示节点v^-的度的倒数，

表示v^-的邻域中有文本信息节点的文本属性矩阵。

为网络中缺失文本属性节点的数目*MLP输出层维度大小的矩阵。

步骤2.4、得到完备的异质图。

X_i表示为缺失节点补全的文本属性，X_j表示数据集中具有文本属性节点的属性，联合步骤1.2下的邻接矩阵A构成完备的异质图G＝(A,X^S)。

本发明将提出的融合文本属性的异质图表示学习方法与图神经网络结合根据下游任务实现端到端的优化。将补全文本属性得到的完备异质图与现有的图神经网络模型(HAN和GAT)结合根据节点分类任务实现端到端的优化训练。

端到端训练图神经网络模型的具体流程如图4所示，所有节点的属性

将完备的属性矩阵X^S与图邻接矩阵A一起构建完备的异质图，之后将完备的异质图输入到图神经网络模型(HAN、GAT)进行分类预测，通过最小化交叉熵损失函数来优化网络的参数，得到节点表示向量Z。具体过程如下：

步骤3.1、将构建的异质图G中的节点按照比例划分训练集、验证集和测试集，并一起输入到图神经网络模型：

其中，

步骤3.2、进行分类预测，

其中，L_prediction表示分类损失，

表示模型的预测值，Y表示节点的标签，

步骤3.3、通过最小化交叉熵损失来优化模型；交叉熵损失函数公式如下：

其中，

步骤3.4、对参数进行优化，通过反向传播端到端的操作减小步骤3.3中的交叉熵损失函数来更新图神经网络和全连接网络中的可训练参数，直到在验证集上的分类准确率不再上升，模型收敛。

步骤3.5、模型收敛之后，通过通过测试集验证模型性能，同时得到最佳的节点表示向量Z。

为了充分证明本发明的可行性与优越性，本发明进行了相关实验研究。实验采用两个公开数据集(DBLP和IMDB)。

将提出的HGNN-ETA框架与与两个图神经网络模型(HAN和GAT)分别进行结合构建模型进行对比实验；其中，GAT相结合，构建GAT-ETA模型；与HAN相结合，构建HAN-ETA模型。

分别与三个浅层嵌入模型(Deepwalk、Metapath2vec、herec)以及五个图神经网络模型(GCN、GAT、AM-GCN、NSHE、HAN)进行对比实验。

在两个公开的数据集上与这八个方法进行比较，验证在节点分类任务上的有效性，实验结果如表1所示。实验时，将构建的异质图G中节点分别按照20％、40％、60％、80％的比例当做训练集，10％的节点作为验证集，剩余节点作为测试集，通过测试集验证模型的性能，以macio-f1和micro-f1为评价指标。从表1中可以直观的看出，GAT-ETA与HAN-ETA较GAT与HAN有明显的效果提升，HAN-ETA模型效果最佳，证明了本发明提出方法的有效性和优越性。

表1节点分类实验结果(％)表

本发明将文本表示方法与图表示学习方法相结合，基于transformer和图神经网络模型进行构建。首先利用已有节点文本属性进行基于文本编码策略的文本特征表示，并将文本的表示向量融入到异质图中。而后，基于邻居节点的均值聚合以及节点特征变换的方法实现节点缺失属性的补全。最终，将补全属性的异质图输入到已有图神经网络模型，通过端到端的训练策略生成节点的向量。本发明能够深度的融合节点文本属性从而提升图神经网络模型的性能。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种融合文本属性的异质图表示学习方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述融合文本属性的异质图表示学习方法，其特征在于，所述步骤1的具体过程如下：

步骤1.5、将编码器的输出及文本的其它语言形式输入解码器，通过机器翻译任务预训练得到文本的表示向量X_T＝g(W₁,W₂…W_n)；解码器也是由6个相同的层堆叠而成；除了编码器中的两个子层之外，解码器插入了第三个子层，该层对编码器的输出执行掩码的多头注意力机制；其中，g(·)是文本向量化编码方法Transformer；X_T是一个384维的向量，将其表示为numpy格式的有文本属性的节点数目*384的矩阵，并保存起来，矩阵的每一行表示一个节点。

3.根据权利要求2所述融合文本属性的异质图表示学习方法，其特征在于，所述步骤2的具体过程如下：