CN114511060A - 基于自编码器和生成对抗网络的属性补全和网络表示方法 - Google Patents

基于自编码器和生成对抗网络的属性补全和网络表示方法 Download PDF

Info

Publication number
CN114511060A
CN114511060A CN202111302172.0A CN202111302172A CN114511060A CN 114511060 A CN114511060 A CN 114511060A CN 202111302172 A CN202111302172 A CN 202111302172A CN 114511060 A CN114511060 A CN 114511060A
Authority
CN
China
Prior art keywords
attribute
representation
node
encoder
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111302172.0A
Other languages
English (en)
Inventor
王涛
金弟
焦鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111302172.0A priority Critical patent/CN114511060A/zh
Publication of CN114511060A publication Critical patent/CN114511060A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于自编码器和生成对抗网络的属性补全和网络表示方法,构建属性生成器;利用图神经网络构建图编码器,以全部属性以及网络拓扑作为输入,输出节点表示;构建解码器,利用节点表示重构网络拓扑;构建属性编码器以及结构编码器,分别以属性和结构作为输入得到属性表示以及结构表示;构建互信息估计器,其中生样本对是属性表示和节点表示的组合,负样本对是扰动之后的属性表示以及节点表示的组合;构建判别器去判别属性与结构之间的关系。本发明能够解决真实网络中存在的属性缺失问题,能够利用属性与结构之间的隐含关系还原真实的属性,并且促进节点表示过程,同时节点表示过程也有助于真实属性的生成。

Description

基于自编码器和生成对抗网络的属性补全和网络表示方法
技术领域
本发明属于机器学习的技术领域,具体涉及基于自编码器和生成对抗网络的属性补全和网络表示方法。
背景技术
在复杂网络分析中,网络表示学习由于能够在特征空间很好保持原始网络的拓扑特性和语义特性而引起了广泛的关注,并且学习到的在特征空间中的表示可以应用于许多网络分析任务,比如社团发现,链接预测,异常检测等。图自编码器在网络表示学习中发挥了关键性的作用。图自编码器通常包含图编码器和解码器,其中编码器使用图卷积神经网络,通过在网络拓扑上进行特征传播和聚合来有效融合网络拓扑和节点语义信息(即节点属性),而解码器则通过向量内积或者全连接神经网络来重构原始网络拓扑,使其能够保留原始的网络统计特性。近几年来,很多研究者关注设计更具表达能力的图编码器,比如利用注意力机制,以及聚合高阶邻域信息,或者利用节点表示之间的相似性(如余弦相似性)来允许负消息传递等。相较于传统的复杂网络分析方法(如矩阵分解,概率图模型等),基于图神经网络的方法展现出了更强大的建模和处理图结构数据的能力以及融合节点语义空间和网络拓扑空间的能力。
目前,基于图神经网络的自编码器都利用了节点特征沿网络拓扑的传播和聚合原则,即隐含假设节点上属性是完全的,不存在缺失数据。然而在现实应用中,往往由于隐私问题等导致网络部分节点属性缺失。利用传统的数据补全方式(如插补法)将属性补全之后再利用编码器进行特征提取往往导致效果不佳的问题。同时已有的数据补全方法忽略了隐含在节点属性和网络拓扑中的关系信息。
发明内容
本发明的目的在于:针对现有技术的不足,提供基于自编码器和生成对抗网络的属性补全和网络表示方法,能够解决真实网络中存在的属性缺失问题,能够利用属性与结构之间的隐含关系还原真实的属性,并且促进节点表示过程,同时节点表示过程也有助于真实属性的生成。
为了实现上述目的,本发明采用如下技术方案:
基于自编码器和生成对抗网络的属性补全和网络表示方法,包括步骤一、构建属性生成器,从隐空间中采样隐变量,采用全连接神经网络生成缺失节点属性;步骤二、构建图神经网络构建编码器,以属性和结构作为输入,以低维节点表示作为输出,并采用矩阵内积运算构建解码器,保留原始网络拓扑;步骤三、构建属性编码器以及结构编码器,分别以属性和结构作为输入得到属性表示以及结构表示;步骤四、构建判别器去判别属性与结构之间的关系;步骤五、构建互信息估计器;步骤六、整体模型以端到端的方式进行训练学习。
优选的,所述步骤一中,采用用全连接神经网络构建生成器,以高斯分布生成的隐变量为输入,生成初步的缺失属性。
优选的,所述步骤三中,采用用前馈神经网络和图神经网络分别构建属性编码器以及结构编码器。
优选的,所述步骤四中,输入为属性表示和结构表示的组合,真实节点属性表示以及该节点对应的结构表示为正样本对,生成的属性经编码得到的节点属性表示及其对应的结构表示为负样本对。
优选的,所述步骤五中,属性表示和节点表示为正样本对,扰动的属性表示及节点表示为负样本对。
优选的,所述步骤五中,正样本对是真实属性编码之后的属性表示以及其对应的结构表示的组合,负样本对是生成的节点属性得到的属性表示及其对应的结构表示的组合
优选的,所述步骤六中,采用互信息损失以及属性结构判别损失训练属性生成器及属性编码器。
优选的,所述步骤六中,采用dam优化器进行训练,初始化网络权重参数,随机梯度下降的方式进行参数更新,待模型收敛之后,采用学到的节点表示进行分类聚类以及可视化实验。
本发明的有益效果在于,本发明通过设计属性补全和节点表示一体化模型,有效解决真实网络中存在的属性缺失问题,能够利用属性与结构之间的隐含关系还原真实的属性,并且促进节点表示过程,同时节点表示过程也有助于真实属性的生成。另外,本发明主要利用数据本身存在的关系以及规律来还原缺失部分属性,并没有引入先验知识,完全由数据本身驱动,因此能够有效应用于实际应用。本发明利用图深度学习以及深度生成对抗网络,模型能够得到高效训练,具有强扩展行以及处理大数据的能力,可以应用到存在大量属性缺失的大规模复杂网络中。在多个真实数据集中的实验表明,即时大部分节点属性缺失,所提方法仍能得到高精确度,提高了鲁棒性以及有效性。本发明还具有以下特点:利用属性与结构在隐空间中的关系还原缺失属性,数据本身驱动,没有引入额外的先验知识;属性补全通过互信息最大化原则与节点表示形成相互促进的过程;完全无监督学习,不依赖手工标注标签;模型训练高效,可扩展性强,可应用于大规模复杂网络。
附图说明
下面将参考附图来描述本发明示例性实施方式的特征、优点和技术效果。
图1为本发明的工作流程框架图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图1对本发明作进一步详细说明,但不作为对本发明的限定。
基于自编码器和生成对抗网络的属性补全和网络表示方法,包括步骤一、构建属性生成器,从隐空间中采样隐变量,采用全连接神经网络生成缺失节点属性;步骤二、构建图神经网络构建编码器,以属性和结构作为输入,以低维节点表示作为输出,并采用矩阵内积运算构建解码器,保留原始网络拓扑;步骤三、构建属性编码器以及结构编码器,分别以属性和结构作为输入得到属性表示以及结构表示;步骤四、构建判别器去判别属性与结构之间的关系;步骤五、构建互信息估计器;步骤六、整体模型以端到端的方式进行训练学习。
在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中,步骤一中,采用用全连接神经网络构建生成器,以高斯分布生成的隐变量为输入,生成初步的缺失属性。
在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中,步骤三中,采用用前馈神经网络和图神经网络分别构建属性编码器以及结构编码器。
在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中,步骤四中,输入为属性表示和结构表示的组合,真实节点属性表示以及该节点对应的结构表示为正样本对,生成的属性经编码得到的节点属性表示及其对应的结构表示为负样本对。
在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中,步骤五中,属性表示和节点表示为正样本对,扰动的属性表示及节点表示为负样本对。
在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中,步骤五中,正样本对是真实属性编码之后的属性表示以及其对应的结构表示的组合,负样本对是生成的节点属性得到的属性表示及其对应的结构表示的组合
在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中,步骤六中,采用互信息损失以及属性结构判别损失训练属性生成器及属性编码器。
在根据本发明的基于自编码器和生成对抗网络的属性补全和网络表示方法中,步骤六中,采用dam优化器进行训练,初始化网络权重参数,随机梯度下降的方式进行参数更新,待模型收敛之后,采用学到的节点表示进行分类聚类以及可视化实验。
参见图1,基于自编码器和生成对抗网络的属性补全和节点表示方法,该方法为:构建属性生成器,从隐空间中采样隐变量,利用全连接神经网络生成缺失节点属性;利用图神经网络构建图编码器,以全部属性以及网络拓扑作为输入,输出节点表示;构建解码器,利用节点表示重构网络拓扑;构建属性编码器以及结构编码器,分别以属性和结构作为输入得到属性表示以及结构表示;构建互信息估计器,其中生样本对是属性表示和节点表示的组合,负样本对是扰动之后的属性表示以及节点表示的组合;构建判别器去判别属性与结构之间的关系,其中正样本是真实属性得到的表示及其对应的结构表示的组合,假样本是生成的属性表示以及对应的结构表示的组合。
下面以本发明的一个优选实施例来进一步说明本发明的工作流程及工作原理:
基于自编码器和生成对抗网络的属性补全和节点表示方法,该方法可包括如下步骤:
步骤一,用全连接神经网络构建生成器,以高斯分布生成的隐变量为输入,生成初步的缺失属性。
Figure BDA0003338708860000061
步骤二,利用图神经网络构建图编码器,以完整节点属性和网络拓扑为输入,生成隐含节点表示。并且用内积运算构建解码器,重构原始网络拓扑。
Figure BDA0003338708860000063
Figure BDA0003338708860000062
式中Z(0)=X表示完整属性,D为归一化度矩阵,A为邻接矩阵,W表示图神经网络的权重参数。
步骤三,分别用全连接神经网络以及图神经网络(其中属性设置为单位矩阵)构建属性编码器和结构编码器,得到属性隐含表示以及结构隐含表示。
ZX=EX(X)=MLP(X)
ZA=EA(A)=GCN(A,I)
式中MLP表示全连接神经网络,GCN表示图卷积神经网络。
步骤四,用全连接神经网络构建属性-结构关系判别器,其中输入为属性表示和结构表示的组合,真实节点属性表示以及该节点对应的结构表示为正样本对,生成的属性经编码得到的节点属性表示及其对应的结构表示为负样本对。
对应的生成对抗可以写成最大-最小的目标函数形式:
Figure BDA0003338708860000071
步骤五,构建互信息估计器,其中属性表示和节点表示为正样本对,扰动的属性表示及节点表示为负样本对。
Figure BDA0003338708860000072
步骤六,整体模型训练过程如下:
图自编码器包含重构损失
Figure BDA0003338708860000073
生成器包含来自判别器的一部分对抗损失以及互信息估计损失,其中对抗损失能够使其生成的节点属性与真实的节点结构之间的关系还原真实属性与结构之间的关系;互信息估计损失使其生成的节点属性受网络拓扑的指导,同时生成更精确的节点属性能够进一步促进节点表示过程,从而使的属性补全过程与节点表示过程相关促进。。
Figure BDA0003338708860000074
Figure BDA0003338708860000075
属性编码器包含互信息估计损失,使其属性表示能够逼近真实节点表示;结构编码器包含重构损失,使结构表示能够保留原始网络拓扑特性。
通过属性补全和节点表示一体化训练,能够使得聚类结果更加精确,且节点的表示分布的可视化,即通过观察节点的表征在二维空间上的分布,以及每个节点所属的社团,可以看出本发明的方法可以获取高质量的节点表示。
表1为选取的一个测试数据的具体说明
表1:测试数据
数据集名称 节点数 边数 属性数 社团数
Pubmed 19717 44324 500 3
表2为通过本发明的实验结果与其他节点表示方法的实验结果在聚类上的对比,其中采用聚类指标为精确度和归一化互信息。
表2:聚类精度和归一化互信息对比
方法 精度 归一化互信息
DeepWalk 0.645 0.255
LINE 0.403 0.013
Node2Vec 0.400 0.087
DGI 0.656 0.262
VAE 0.669 0.295
GCN 0.672 0.262
GAT 0.678 0.294
SAT 0.662 0.243
本发明的方法 0.701 0.324
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

Claims (8)

1.基于自编码器和生成对抗网络的属性补全和网络表示方法,其特征在于,包括:
步骤一、构建属性生成器,从隐空间中采样隐变量,采用全连接神经网络生成缺失节点属性;
步骤二、构建图神经网络构建编码器,以属性和结构作为输入,以低维节点表示作为输出,并采用矩阵内积运算构建解码器,保留原始网络拓扑;
步骤三、构建属性编码器以及结构编码器,分别以属性和结构作为输入得到属性表示以及结构表示;
步骤四、构建判别器去判别属性与结构之间的关系;
步骤五、构建互信息估计器;
步骤六、整体模型以端到端的方式进行训练学习。
2.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法,其特征在于:所述步骤一中,采用用全连接神经网络构建生成器,以高斯分布生成的隐变量为输入,生成初步的缺失属性。
3.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法,其特征在于:所述步骤三中,采用用前馈神经网络和图神经网络分别构建属性编码器以及结构编码器。
4.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法,其特征在于:所述步骤四中,输入为属性表示和结构表示的组合,真实节点属性表示以及该节点对应的结构表示为正样本对,生成的属性经编码得到的节点属性表示及其对应的结构表示为负样本对。
5.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法,其特征在于:所述步骤五中,属性表示和节点表示为正样本对,扰动的属性表示及节点表示为负样本对。
6.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法,其特征在于:所述步骤五中,正样本对是真实属性编码之后的属性表示以及其对应的结构表示的组合,负样本对是生成的节点属性得到的属性表示及其对应的结构表示的组合。
7.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法,其特征在于:所述步骤六中,采用互信息损失以及属性结构判别损失训练属性生成器及属性编码器。
8.如权利要求1所述的基于自编码器和生成对抗网络的属性补全和网络表示方法,其特征在于:所述步骤六中,采用dam优化器进行训练,初始化网络权重参数,随机梯度下降的方式进行参数更新,待模型收敛之后,采用学到的节点表示进行分类聚类以及可视化实验。
CN202111302172.0A 2021-11-04 2021-11-04 基于自编码器和生成对抗网络的属性补全和网络表示方法 Pending CN114511060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111302172.0A CN114511060A (zh) 2021-11-04 2021-11-04 基于自编码器和生成对抗网络的属性补全和网络表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111302172.0A CN114511060A (zh) 2021-11-04 2021-11-04 基于自编码器和生成对抗网络的属性补全和网络表示方法

Publications (1)

Publication Number Publication Date
CN114511060A true CN114511060A (zh) 2022-05-17

Family

ID=81548485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111302172.0A Pending CN114511060A (zh) 2021-11-04 2021-11-04 基于自编码器和生成对抗网络的属性补全和网络表示方法

Country Status (1)

Country Link
CN (1) CN114511060A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439845A (zh) * 2022-08-02 2022-12-06 北京邮电大学 基于图神经网络的图像外推方法、装置、存储介质及终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439845A (zh) * 2022-08-02 2022-12-06 北京邮电大学 基于图神经网络的图像外推方法、装置、存储介质及终端

Similar Documents

Publication Publication Date Title
CN113065974B (zh) 一种基于动态网络表示学习的链路预测方法
CN111783879B (zh) 基于正交注意力机制的层次化压缩图匹配方法及系统
Yu et al. Unsupervised euclidean distance attack on network embedding
CN114511060A (zh) 基于自编码器和生成对抗网络的属性补全和网络表示方法
CN114118416A (zh) 一种基于多任务学习的变分图自动编码器方法
Li et al. COCLEP: Contrastive Learning-based Semi-Supervised Community Search
CN112286996A (zh) 一种基于网络链接和节点属性信息的节点嵌入方法
CN116051911B (zh) 基于不确定性学习的小样本轴承振动图像数据故障诊断方法
CN111428873A (zh) 一种基于自编码器的多视图属性网络嵌入方法
CN117056763A (zh) 基于变分图嵌入的社区发现方法
CN104408072B (zh) 一种基于复杂网络理论的适用于分类的时间序列特征提取方法
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN113902091A (zh) 一种基于非线性非负矩阵分解的社区发现方法
Liang et al. Mxpool: Multiplex pooling for hierarchical graph representation learning
Wang et al. Efficient causal structure learning from multiple interventional datasets with unknown targets
CN116304367B (zh) 基于图自编码器自监督训练用于获得社区的算法及装置
CN116203929B (zh) 一种面向长尾分布数据的工业过程故障诊断方法
Li et al. Graph Embedding Based on Feature Propagation for Community Detection
Ma et al. A multi-scale disperse dynamic routing capsule network knowledge graph embedding model based on relational memory
Wang et al. Embedding-Based Asynchronous Entity Classification Algorithm Framework for the Defect Knowledge Graph of Distribution Network Equipment
Zhao et al. Clustering Information-guided Multi-view Contrastive Graph Clustering
Zhang et al. Graph Clustering With Graph Capsule Network
Nayyeri et al. Motif Learning in Knowledge Graphs Using Trajectories Of Differential Equations
Li et al. Discovering causal relationships in mixed-type non-Euclidean data with applications to fault diagnosis
Zhou et al. Representation Learning on Networks for Community Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination