CN114511060A

CN114511060A - 基于自编码器和生成对抗网络的属性补全和网络表示方法

Info

Publication number: CN114511060A
Application number: CN202111302172.0A
Authority: CN
Inventors: 王涛; 金弟; 焦鹏飞
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-05-17

Abstract

本发明公开了基于自编码器和生成对抗网络的属性补全和网络表示方法，构建属性生成器；利用图神经网络构建图编码器，以全部属性以及网络拓扑作为输入，输出节点表示；构建解码器，利用节点表示重构网络拓扑；构建属性编码器以及结构编码器，分别以属性和结构作为输入得到属性表示以及结构表示；构建互信息估计器，其中生样本对是属性表示和节点表示的组合，负样本对是扰动之后的属性表示以及节点表示的组合；构建判别器去判别属性与结构之间的关系。本发明能够解决真实网络中存在的属性缺失问题，能够利用属性与结构之间的隐含关系还原真实的属性，并且促进节点表示过程，同时节点表示过程也有助于真实属性的生成。

Description

基于自编码器和生成对抗网络的属性补全和网络表示方法

技术领域

本发明属于机器学习的技术领域，具体涉及基于自编码器和生成对抗网络的属性补全和网络表示方法。

背景技术

在复杂网络分析中，网络表示学习由于能够在特征空间很好保持原始网络的拓扑特性和语义特性而引起了广泛的关注，并且学习到的在特征空间中的表示可以应用于许多网络分析任务，比如社团发现，链接预测，异常检测等。图自编码器在网络表示学习中发挥了关键性的作用。图自编码器通常包含图编码器和解码器，其中编码器使用图卷积神经网络，通过在网络拓扑上进行特征传播和聚合来有效融合网络拓扑和节点语义信息(即节点属性)，而解码器则通过向量内积或者全连接神经网络来重构原始网络拓扑，使其能够保留原始的网络统计特性。近几年来，很多研究者关注设计更具表达能力的图编码器，比如利用注意力机制，以及聚合高阶邻域信息，或者利用节点表示之间的相似性(如余弦相似性)来允许负消息传递等。相较于传统的复杂网络分析方法(如矩阵分解，概率图模型等)，基于图神经网络的方法展现出了更强大的建模和处理图结构数据的能力以及融合节点语义空间和网络拓扑空间的能力。

目前，基于图神经网络的自编码器都利用了节点特征沿网络拓扑的传播和聚合原则，即隐含假设节点上属性是完全的，不存在缺失数据。然而在现实应用中，往往由于隐私问题等导致网络部分节点属性缺失。利用传统的数据补全方式(如插补法)将属性补全之后再利用编码器进行特征提取往往导致效果不佳的问题。同时已有的数据补全方法忽略了隐含在节点属性和网络拓扑中的关系信息。

发明内容

本发明的目的在于：针对现有技术的不足，提供基于自编码器和生成对抗网络的属性补全和网络表示方法，能够解决真实网络中存在的属性缺失问题，能够利用属性与结构之间的隐含关系还原真实的属性，并且促进节点表示过程，同时节点表示过程也有助于真实属性的生成。

为了实现上述目的，本发明采用如下技术方案：

基于自编码器和生成对抗网络的属性补全和网络表示方法，包括步骤一、构建属性生成器，从隐空间中采样隐变量，采用全连接神经网络生成缺失节点属性；步骤二、构建图神经网络构建编码器，以属性和结构作为输入，以低维节点表示作为输出，并采用矩阵内积运算构建解码器，保留原始网络拓扑；步骤三、构建属性编码器以及结构编码器，分别以属性和结构作为输入得到属性表示以及结构表示；步骤四、构建判别器去判别属性与结构之间的关系；步骤五、构建互信息估计器；步骤六、整体模型以端到端的方式进行训练学习。

优选的，所述步骤一中，采用用全连接神经网络构建生成器，以高斯分布生成的隐变量为输入，生成初步的缺失属性。

优选的，所述步骤三中，采用用前馈神经网络和图神经网络分别构建属性编码器以及结构编码器。

优选的，所述步骤四中，输入为属性表示和结构表示的组合，真实节点属性表示以及该节点对应的结构表示为正样本对，生成的属性经编码得到的节点属性表示及其对应的结构表示为负样本对。

优选的，所述步骤五中，属性表示和节点表示为正样本对，扰动的属性表示及节点表示为负样本对。

优选的，所述步骤五中，正样本对是真实属性编码之后的属性表示以及其对应的结构表示的组合，负样本对是生成的节点属性得到的属性表示及其对应的结构表示的组合

优选的，所述步骤六中，采用互信息损失以及属性结构判别损失训练属性生成器及属性编码器。

优选的，所述步骤六中，采用dam优化器进行训练，初始化网络权重参数，随机梯度下降的方式进行参数更新，待模型收敛之后，采用学到的节点表示进行分类聚类以及可视化实验。

本发明的有益效果在于，本发明通过设计属性补全和节点表示一体化模型，有效解决真实网络中存在的属性缺失问题，能够利用属性与结构之间的隐含关系还原真实的属性，并且促进节点表示过程，同时节点表示过程也有助于真实属性的生成。另外，本发明主要利用数据本身存在的关系以及规律来还原缺失部分属性，并没有引入先验知识，完全由数据本身驱动，因此能够有效应用于实际应用。本发明利用图深度学习以及深度生成对抗网络，模型能够得到高效训练，具有强扩展行以及处理大数据的能力，可以应用到存在大量属性缺失的大规模复杂网络中。在多个真实数据集中的实验表明，即时大部分节点属性缺失，所提方法仍能得到高精确度，提高了鲁棒性以及有效性。本发明还具有以下特点：利用属性与结构在隐空间中的关系还原缺失属性，数据本身驱动，没有引入额外的先验知识；属性补全通过互信息最大化原则与节点表示形成相互促进的过程；完全无监督学习，不依赖手工标注标签；模型训练高效，可扩展性强，可应用于大规模复杂网络。

附图说明

下面将参考附图来描述本发明示例性实施方式的特征、优点和技术效果。

图1为本发明的工作流程框架图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图1对本发明作进一步详细说明，但不作为对本发明的限定。

在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中，步骤一中，采用用全连接神经网络构建生成器，以高斯分布生成的隐变量为输入，生成初步的缺失属性。

在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中，步骤三中，采用用前馈神经网络和图神经网络分别构建属性编码器以及结构编码器。

在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中，步骤四中，输入为属性表示和结构表示的组合，真实节点属性表示以及该节点对应的结构表示为正样本对，生成的属性经编码得到的节点属性表示及其对应的结构表示为负样本对。

在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中，步骤五中，属性表示和节点表示为正样本对，扰动的属性表示及节点表示为负样本对。

在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中，步骤五中，正样本对是真实属性编码之后的属性表示以及其对应的结构表示的组合，负样本对是生成的节点属性得到的属性表示及其对应的结构表示的组合

在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中，步骤六中，采用互信息损失以及属性结构判别损失训练属性生成器及属性编码器。

在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中，步骤六中，采用dam优化器进行训练，初始化网络权重参数，随机梯度下降的方式进行参数更新，待模型收敛之后，采用学到的节点表示进行分类聚类以及可视化实验。

参见图1，基于自编码器和生成对抗网络的属性补全和节点表示方法，该方法为：构建属性生成器，从隐空间中采样隐变量，利用全连接神经网络生成缺失节点属性；利用图神经网络构建图编码器，以全部属性以及网络拓扑作为输入，输出节点表示；构建解码器，利用节点表示重构网络拓扑；构建属性编码器以及结构编码器，分别以属性和结构作为输入得到属性表示以及结构表示；构建互信息估计器，其中生样本对是属性表示和节点表示的组合，负样本对是扰动之后的属性表示以及节点表示的组合；构建判别器去判别属性与结构之间的关系，其中正样本是真实属性得到的表示及其对应的结构表示的组合，假样本是生成的属性表示以及对应的结构表示的组合。

下面以本发明的一个优选实施例来进一步说明本发明的工作流程及工作原理：

基于自编码器和生成对抗网络的属性补全和节点表示方法，该方法可包括如下步骤：

步骤一，用全连接神经网络构建生成器，以高斯分布生成的隐变量为输入，生成初步的缺失属性。

步骤二，利用图神经网络构建图编码器，以完整节点属性和网络拓扑为输入，生成隐含节点表示。并且用内积运算构建解码器，重构原始网络拓扑。

式中Z⁽⁰⁾＝X表示完整属性，D为归一化度矩阵，A为邻接矩阵，W表示图神经网络的权重参数。

步骤三，分别用全连接神经网络以及图神经网络(其中属性设置为单位矩阵)构建属性编码器和结构编码器，得到属性隐含表示以及结构隐含表示。

Z_X＝E_X(X)＝MLP(X)

Z_A＝E_A(A)＝GCN(A,I)

式中MLP表示全连接神经网络，GCN表示图卷积神经网络。

步骤四，用全连接神经网络构建属性-结构关系判别器，其中输入为属性表示和结构表示的组合，真实节点属性表示以及该节点对应的结构表示为正样本对，生成的属性经编码得到的节点属性表示及其对应的结构表示为负样本对。

对应的生成对抗可以写成最大-最小的目标函数形式：

步骤五，构建互信息估计器，其中属性表示和节点表示为正样本对，扰动的属性表示及节点表示为负样本对。

步骤六，整体模型训练过程如下：

图自编码器包含重构损失

生成器包含来自判别器的一部分对抗损失以及互信息估计损失，其中对抗损失能够使其生成的节点属性与真实的节点结构之间的关系还原真实属性与结构之间的关系；互信息估计损失使其生成的节点属性受网络拓扑的指导，同时生成更精确的节点属性能够进一步促进节点表示过程，从而使的属性补全过程与节点表示过程相关促进。。

属性编码器包含互信息估计损失，使其属性表示能够逼近真实节点表示；结构编码器包含重构损失，使结构表示能够保留原始网络拓扑特性。

通过属性补全和节点表示一体化训练，能够使得聚类结果更加精确，且节点的表示分布的可视化，即通过观察节点的表征在二维空间上的分布，以及每个节点所属的社团，可以看出本发明的方法可以获取高质量的节点表示。

表1为选取的一个测试数据的具体说明

表1：测试数据

数据集名称	节点数	边数	属性数	社团数
					Pubmed	19717	44324	500	3

表2为通过本发明的实验结果与其他节点表示方法的实验结果在聚类上的对比，其中采用聚类指标为精确度和归一化互信息。

表2：聚类精度和归一化互信息对比

方法	精度	归一化互信息
			DeepWalk	0.645	0.255
LINE	0.403	0.013
			Node2Vec	0.400	0.087
DGI	0.656	0.262
			VAE	0.669	0.295
GCN	0.672	0.262
			GAT	0.678	0.294
SAT	0.662	0.243
			本发明的方法	0.701	0.324

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.基于自编码器和生成对抗网络的属性补全和网络表示方法，其特征在于，包括：

步骤一、构建属性生成器，从隐空间中采样隐变量，采用全连接神经网络生成缺失节点属性；

步骤二、构建图神经网络构建编码器，以属性和结构作为输入，以低维节点表示作为输出，并采用矩阵内积运算构建解码器，保留原始网络拓扑；

步骤三、构建属性编码器以及结构编码器，分别以属性和结构作为输入得到属性表示以及结构表示；

步骤四、构建判别器去判别属性与结构之间的关系；

步骤五、构建互信息估计器；

步骤六、整体模型以端到端的方式进行训练学习。

2.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法，其特征在于：所述步骤一中，采用用全连接神经网络构建生成器，以高斯分布生成的隐变量为输入，生成初步的缺失属性。

3.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法，其特征在于：所述步骤三中，采用用前馈神经网络和图神经网络分别构建属性编码器以及结构编码器。

4.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法，其特征在于：所述步骤四中，输入为属性表示和结构表示的组合，真实节点属性表示以及该节点对应的结构表示为正样本对，生成的属性经编码得到的节点属性表示及其对应的结构表示为负样本对。

5.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法，其特征在于：所述步骤五中，属性表示和节点表示为正样本对，扰动的属性表示及节点表示为负样本对。

6.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法，其特征在于：所述步骤五中，正样本对是真实属性编码之后的属性表示以及其对应的结构表示的组合，负样本对是生成的节点属性得到的属性表示及其对应的结构表示的组合。

7.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法，其特征在于：所述步骤六中，采用互信息损失以及属性结构判别损失训练属性生成器及属性编码器。

8.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法，其特征在于：所述步骤六中，采用dam优化器进行训练，初始化网络权重参数，随机梯度下降的方式进行参数更新，待模型收敛之后，采用学到的节点表示进行分类聚类以及可视化实验。