CN115544307A - 基于关联矩阵的有向图数据特征提取与表达方法和系统 - Google Patents

基于关联矩阵的有向图数据特征提取与表达方法和系统 Download PDF

Info

Publication number
CN115544307A
CN115544307A CN202211066764.1A CN202211066764A CN115544307A CN 115544307 A CN115544307 A CN 115544307A CN 202211066764 A CN202211066764 A CN 202211066764A CN 115544307 A CN115544307 A CN 115544307A
Authority
CN
China
Prior art keywords
node
edge
feature
feature vector
graph data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211066764.1A
Other languages
English (en)
Inventor
蹇松雷
张钰森
谭郁松
黄辰林
李宝
董攀
丁滟
任怡
王晓川
张建锋
谭霜
郭勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211066764.1A priority Critical patent/CN115544307A/zh
Publication of CN115544307A publication Critical patent/CN115544307A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于关联矩阵的有向图数据特征提取与表达方法和系统,本发明基于关联矩阵的有向图数据特征提取与表达方法包括将输入的有向图数据的节点集合V和关联矩阵B进行对齐操作;利用关联矩阵B分别对输入的有向图数据中的节点集合V和边集合E分别进行编码采样为同一特征空间内的节点特征向量Zv和边特征向量Ze;对节点特征向量Zv和边特征向量Ze进行正则化约束以使图数据的结构信息被提取至正则化约束得到的特征向量中,并将正则化约束得到的特征向量作为特征表达结果输出。本发明能够解决现有方法不能充分提取有向图数据的特征的问题,实现对于有向图的重构、有向边的建模及有向链接预测等问题的有效处理。

Description

基于关联矩阵的有向图数据特征提取与表达方法和系统
技术领域
本发明属于计算机边缘计算和人工智能领域,特别涉及一种基于关联矩阵的有向图数据特征提取与表达方法和系统。
背景技术
图数据是一种非常复杂的数据结构,是非欧氏空间的离散型数据。由于图数据研究的是不同对象之间的关联关系,所以日常生活中图数据的应用非常广泛,例如神经网络结构自动化设计、因果推理模型的搭建与优化,以及约束求解器的分析与改进。因此,如何更加深入和系统的研究图数据的特征提取和表达方法,对于解决现实问题具有非常重要的意义。
有向图是一种更复杂的图数据结构,其所描述的关系具有方向性,即对于单向关联关系的描述。例如,在交通流量预测问题中,不同的路径之间是具有方向性的,因此在建模成图数据的时候需要用有向图来表示。而要更加深入的去分析和解决该问题,如何充分的提取出有向边和节点的特征是非常重要的。与表格型数据不同,图数据研究的是不同元素之间的相互关系,而且这种关系往往是多对多的关系。图数据通过将研究对象建模成节点,而将对象之间的相互关系建模成节点之间边,根据对象之间的关系将代表不同对象的节点连接起来从而形成了图数据。根据研究对象的不同,图数据又可以广义的分成无向图和有向图这两大类。对于一些特定的领域,不同对象之间的关联关系是需要区分方向的,这时的边仅能从某些节点出发指向另一些节点,形成的图为有向图。有向图是一种描述指向性关联关系的图数据,其特征提取与表达方法会更加复杂。
为处理图数据这种非欧氏的离散数据,将深度学习技术与图数据结构结合起来是一种主流的处理方式,图神经网络便是解决这个问题的一个非常有效的手段。根据实现方式的不同,图神经网络又可以分成基于谱分解的图卷积神经网络,以及基于空间结构的图卷积神经网络。图卷积神经网络可以将输入的原始图数据映射到一个新的特征空间,且该特征空间是一个连续可微的特征空间,基于此,可以利用特征空间来开展图数据的分析与处理工作。尽管如此,现有的图卷积神经网络都是针对无向图而设计的,其构造原理和实现细节,都要求输入是无向图,而且不能够直接将其迁移至有向图的任务上来。在这种情况下,很多工作开始试图对现有的图卷积神经网络进行修改和优化,试图使其能够用于有向图的特征提取。但是,这类工作都是针对有向图的邻接矩阵或者拉普拉斯矩阵进行松弛和缩放,使得有向图作为输入能够满足图神经网络的条件,于是便可以利用图神经网络进行特征提取和图数据处理了。但是,这种方式导致的问题有两个方面:一是对邻接矩阵或拉普拉斯矩阵进行近似操作或者缩放操作,会损失一部分结构信息,利用图卷积神经网络提取到的特征仅能用于对结构信息没有要求的任务;二是受限于现有图卷积神经网络的原理,这种方式仅能够提取到结点级的特征,无法获得边以及方向的信息,这给有向图数据的处理带来了一定的限制和困难。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于关联矩阵的有向图数据特征提取与表达方法和系统,本发明旨在解决现有方法不能充分提取有向图数据的特征的问题,实现对于有向图的重构、有向边的建模及有向链接预测等问题的有效处理。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于关联矩阵的有向图数据特征提取与表达方法,包括:
S1,将输入的有向图数据的节点集合V和关联矩阵B进行对齐操作;
S2,利用关联矩阵B分别对输入的有向图数据中的节点集合V和边集合E分别进行编码采样为同一特征空间内的节点特征向量Zv和边特征向量Ze
S3,对节点特征向量Zv和边特征向量Ze进行正则化约束以使图数据的结构信息被提取至正则化约束得到的特征向量中,并将正则化约束得到的特征向量作为特征表达结果输出。
可选地,步骤S2包括:
S2.1,将节点集合V生成节点初始化特征
Figure BDA00038286801500000214
基于关联矩阵B和节点初始化特征
Figure BDA0003828680150000025
生成边初始化特征ε;
S2.2,将节点初始化特征
Figure BDA0003828680150000026
进行嵌入得到节点特征向量
Figure BDA0003828680150000027
将边初始化特征ε进行嵌入得到边特征向量ε′以实现去稀疏;
S2.3,分别利用关联矩阵B将节点特征向量
Figure BDA0003828680150000028
编码为节点特征向量Zv的分布、将边特征向量ε′编码为边特征向量Ze的分布;
S2.4,分别对节点特征向量Zv的分布进行采样得到节点特征向量Zv、对边特征向量Ze的分布进行采样得到边特征向量Ze
可选地,步骤S2.1中将节点集合V生成节点初始化特征
Figure BDA0003828680150000029
时,若输入的有向图数据包含节点的属性信息,则直接将节点的属性信息直接作为节点初始化特征
Figure BDA00038286801500000210
否则,根据输入的有向图数据的拓扑信息生成节点的属性信息,并将节点的属性信息直接作为节点初始化特征
Figure BDA00038286801500000213
所述基于关联矩阵B和节点初始化特征
Figure BDA00038286801500000211
生成边初始化特征ε的函数表达式为:
Figure BDA0003828680150000021
其中
Figure BDA0003828680150000022
为权重参数。
可选地,步骤S2.2中将节点初始化特征
Figure BDA00038286801500000212
进行嵌入得到节点特征向量
Figure BDA0003828680150000023
将边初始化特征ε进行嵌入得到边特征向量ε′的函数表达式为:
Figure BDA0003828680150000024
ε′=ψE(ε),
上式中,ψV为将节点初始化特征
Figure BDA00038286801500000313
进行嵌入的嵌入函数,ψE为将边初始化特征ε进行嵌入的嵌入函数。
可选地,步骤S2.3中分别利用关联矩阵B将节点特征向量
Figure BDA00038286801500000314
编码为节点特征向量Zv的分布、将边特征向量ε′编码为边特征向量Ze的分布的函数表达式为:
Figure BDA0003828680150000031
Figure BDA0003828680150000032
上式中,
Figure BDA0003828680150000033
为节点的特征分布,n为输入有向图的节点数,
Figure BDA0003828680150000034
为节点特征后验概率,
Figure BDA0003828680150000035
为节点vi的多元高斯分布,zv,i为节点vi的隐空间随机变量,μv,i为节点vi的高斯分布均值,σv,i为节点vi的高斯分布方差,p(Ze|ε,B)为边的特征分布,m为输入有向图的边数,p(ze,i|ε,B)为边ei的特征后验概率,
Figure BDA0003828680150000036
为边ei的多元高斯分布,ze,i为边ei的隐空间随机变量,μe,i为边ei的高斯分布均值,σe,i为边ei的高斯分布方差;且最终得到的节点特征向量Zv的分布为
Figure BDA0003828680150000037
边特征向量Ze的分布为
Figure BDA0003828680150000038
其中μv为节点特征的方差,σv为节点特征的均值,μe为边特征的方差,σe为边特征的均值。
可选地,步骤S2.4中分别对节点特征向量Zv的分布进行采样得到节点特征向量Zv、对边特征向量Ze的分布进行采样得到边特征向量Ze时,所述采样是指利用参数重构方法进行采样,且利用参数重构方法进行采样的函数表达式为:
zi=∈i⊙σii
上式中,zi为采样得到的节点特征向量Zv或边特征向量Ze
Figure BDA0003828680150000039
是由标准正太分布采样得到的随机向量,σi为节点特征或边特征的均值,μi为节点特征或边特征的方差,⊙表示哈达玛积。
可选地,步骤S2中进行正则化约束的函数表达式为:
Figure BDA00038286801500000310
上式中,p(B|Ze,Zv)表示,B为输入有向图的关联矩阵,m为输入有向图的边数,n为输入有向图的节点数,p(Bij|ze,i,zv,j)为关联矩阵元素Bij的后验概率,p(Bij=1|ze,i,zv,j)为关联矩阵元素Bij=1时的后验概率,σ为Sigmoid函数,ze,i为边ei的隐空间随机变量,zv,j为节点vj的隐空间随机变量,Ψ(ze,i,zv,j)为ze,i、zv,j之间的相关性。
可选地,任意边和节点ei、vj之间的相关性的计算函数表达式为:
Figure BDA00038286801500000311
上式中,
Figure BDA00038286801500000312
为度量矩阵,ωe为边的关联度量,ωv为节点的关联度量。
可选地,步骤S1之前还包括将权重参数
Figure BDA0003828680150000041
度量矩阵
Figure BDA0003828680150000042
作为可学习参数,通过基于有向图数据样本迭代执行步骤S1~步骤S3以训练获取最优的可学习参数的步骤,且迭代执行步骤S1~步骤S3以训练获取最优的可学习参数时所采用的损失函数的函数表达式为:
Figure BDA0003828680150000043
上式中,
Figure BDA0003828680150000044
为损失函数,ω为全部可学习参数,
Figure BDA0003828680150000045
为数学期望,pω(B|Ze,Zv)为关联矩阵B的后验概率;α和β为超参数,用于控制正则约束KL对于整个优化问题求解的影响强度,其取值范围均为[0,1];KL[pω(Ze|ε,B)||p(Ze)]表示计算pω(Ze|ε,B)和p(Ze)之间的相关程度,相关程度值越大表示相关程度越高,
Figure BDA0003828680150000046
表示计算
Figure BDA0003828680150000047
和p(Zv)之间的相关程度,pω(Ze|ε,B)表示全部可学习参数ω下边的特征分布,p(Ze)为边特征的真实概率,
Figure BDA0003828680150000048
表示全部可学习参数ω下节点的特征分布,p(Zv)为节点特征的真实概率。
此外,本发明还提供一种基于关联矩阵的有向图数据特征提取与表达系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述基于关联矩阵的有向图数据特征提取与表达方法的步骤。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行所述基于关联矩阵的有向图数据特征提取与表达方法的步骤。
和现有技术相比,本发明具有下述优点:
1、本发明基于关联矩阵的有向图数据特征提取与表达方法包括将输入的有向图数据的节点集合V和关联矩阵B进行对齐操作;利用关联矩阵B分别对输入的有向图数据中的节点集合V和边集合E分别进行编码采样为同一特征空间内的节点特征向量Zv和边特征向量Ze;对节点特征向量Zv和边特征向量Ze进行正则化约束以使图数据的结构信息被提取至正则化约束得到的特征向量中,并将正则化约束得到的特征向量作为特征表达结果输出。本发明能够解决现有方法不能充分提取有向图数据的特征的问题,实现对于有向图的重构、有向边的建模及有向链接预测等问题的有效处理。
2、本发明给出了一种端到端的有向图数据特征提取方法,即利用本发明方法可以实现自动化的有向图数据特征提取与表达,不需要进行额外的处理工作,给定有向图数据集,本实施例可以自动化的对其进行分析、处理和学习,并给出最终的特征表达。
附图说明
图1为本发明实施例方法的原理框架示意图。
图2为本发明实施例中二元分类问题的构造方式图。
图3为本发明实施例中状态自适应的感知方法R(·)的流程图。
图4为本发明实施例中方法的搜索流程图。
具体实施方式
有向图数据是一种用于描述不同实体或事件之间的交互关系,且这种交互关系是有方向的,即有向边。利用有向图,可以描述、分析和解决工程项目中的工序安排、工程时间等流程统筹和时间序列问题。对于一个面向超级计算机系统的大型的计算工程项目(Project)而言,可以将其分成若干个计算工程子项目,可称之为活动(Active),各个活动都会受到一定条件的约束。而对于计算工程项目问题,需要关心的是该计算工程项目是否可以正常完成,影响该计算工程项目进度的关系活动是什么,以及完成该计算工程项目的最短时间估算等。
基于此,可以对计算工程项目的各活动内容进行如下抽象:
节点:用于表示活动(Active),具体为一个计算工程子项目;
有向边:用于表示不同活动(Active)之间的先导(或依赖)关系,即活动B(ActiveB)的执行是以活动A执(ActiveA)行完毕为条件,如果两个活动之间是无先导关系,则对应的两个节点之间没有有向边的连接;如果活动A必须在活动B之间进行,则有一条有向边由活动A对应的节点指向活动B对应的节点;
于是,基于本发明基于关联矩阵的有向图数据特征提取与表达方法及系统,能够有效地获取到有向的节点和边的特征(属性),节点的特征(属性)可从而可用于分析活动(Activate)的重要性,分析出计算目标工程的关键节点等;边的特征(属性)可以用于分析整个计算工程项目的整体情况,如最短时间估计等,这些节点和边的特征(属性)到所需得到的结果之间的映射计算,一般采用机器学习分类器,机器学习分类器被预先训练建立了节点和边的特征(属性)、到所需得到的结果之间的映射关系,在应用时,将采用本发明基于关联矩阵的有向图数据特征提取与表达方法及系统得到的节点或边的特征(属性)作为机器学习分类器的输入,即可得到对应的结果,如目标工程的关键节点或最短时间等。下文将结合附图和具体实施例,对本发明基于关联矩阵的有向图数据特征提取与表达方法(简称VDGAE,即Variational Directed Graph Auto-Encoders)及系统进行进一步的详细说明。
如图1所示,本实施例基于关联矩阵的有向图数据特征提取与表达方法包括:
S1,将输入的有向图数据的节点集合V和关联矩阵B进行对齐操作;
S2,利用关联矩阵B分别对输入的有向图数据中的节点集合V和边集合E分别进行编码采样为同一特征空间内的节点特征向量Zv和边特征向量Ze
S3,对节点特征向量Zv和边特征向量Ze进行正则化约束以使图数据的结构信息被提取至正则化约束得到的特征向量中,并将正则化约束得到的特征向量作为特征表达结果输出。
有向图可表示为G=(V,E),其中V={v1,v2,…,vn}为该有向图G的节点集,n=|V|表示该有向图节点的数量,
Figure BDA0003828680150000061
表示的是有向边的集合,其中的每个元素eij∈E表示的是一条由节点vi指向vj的有向边。如果有向图G的边有权重Wij>0,则G为带权重的有向图。为简单起见,本文中提到的所有有向图其边的权重均被定义为Wij=1。
给定一个有向图G,其关联矩阵可以表示为B(G)、简写为关联矩阵B。关联矩阵是一个{0,±1}矩阵,其行和列分别与图G的边和节点一一对应,每个元素的值表示的是边和对应节点之间的关联关系。如果图G有m条有向边和n个节点,那么他的关联矩阵B是一个m×n的矩阵,且每个元素的取值如公式(1)所定义:
Figure BDA0003828680150000062
上式中,Bij(ei,vj)为关联矩阵第i行第j列所对应元素,该元素表示的是边ei和节点vj之间的关系。如果节点vj是边ei的终点,则Bij=1,如果节点vj是边ei的起点,则Bij=-1,否则Bij=0。因为图数据是一种描述不同对象之间相互关联关系的数据结构,是一种非欧氏的离散数据,因此图数据可以构建成任意的大小和复杂的拓扑结构,没有固定的结点排序或参考点,图数据的结构通常是动态的,并具有多模态的特征,根据描述对象的不同而不同。这些特点虽然使得图数据有更强的表达能力,也能够广泛应用于不同的任务场景,但是这给图数据的特征提取和表达带来了非常大的困难。所以,在开始图数据特征提取之前,首先要进行对齐操作等图数据预处理工作。给定一组图数据集合G:
Figure BDA0003828680150000063
其中,Gi为n个图数据中的第i个图数据;如图2所示,对图数据的预处理包括:
S101,若输入的有向图数据(简称输入图)中不包含关联矩阵B,则由输入的有向图数据(简称输入图)G(A,X)构建关联矩阵B;如果输入的有向图数据中包含关联矩阵B,则可省去该步;
S102,计算输入的有向图数据的规模,即节点集合的长度|V|;
S103,计算规模差值,即与数据集中规模最大的有向图数据的差值max(|Vi|)-|V|,其中|Vi|表示与数据集中规模最大的有向图数据,该有向图数据的序号为i;
S104,对该输入图数据进行填充操作,对于节点集合填充类型为DUMMY的节点(指定类型的节点,与普通节点以示区别),对关联矩阵的对应列填充全零向量,实现与数据集中规模最大的图数据的对齐操作。
S105,检查输入图数据是否给定了节点属性、类别等信息,如果给定则直接输入嵌入函数进行特征转换,并返回初始化结果;如果未给定,则利用该图数据的拓扑结构信息对节点和边的特征进行初始化,然后再输入嵌入函数,返回最终的初始化结果。
上述预处理过程中,通过对该数据集进行整体分析,获得所有图数据中节点数最大的图,即获得maxi∈[0,n](|V(Gi)|);接下来,对于那些规模小于最大规模的图,要对其进行对齐操作,主要有两个方面的工作:一个是对节点集合V(Gi)进行填充,使其长度达到maxi∈[0,n](|V(Gi)|),填充的节点类型要设置为一类特殊的类型,用于后续进行剪枝操作;另一个是对关联矩阵进行B(Gi)的列进行填充,使得关联矩阵的列数同填充之后的节点集合长度一致,填充内容为全零项,不会影响该图数据最终所表达的信息。通过上述对图数据的预处理,可实现对图数据的规范化处理,使得图数据有更强的表达能力,也能够广泛应用于不同的任务场景。
如图3所示,本实施例中步骤S2包括:
S2.1,将节点集合V生成节点初始化特征
Figure BDA0003828680150000075
基于关联矩阵B和节点初始化特征
Figure BDA0003828680150000076
生成边初始化特征ε;常见的图数据通常会以邻接矩阵A和特征矩阵X的形式进行存储,邻接矩阵A存储了节点之间的连接关系,特征矩阵X存储了每个节点的属性和类别,即G(A,X)。如果输入的图数据没有给定关联矩阵,需要将邻接矩阵转换成关联矩阵再展开后续图数据的特征提取与表达工作;
S2.2,将节点初始化特征
Figure BDA0003828680150000077
进行嵌入得到节点特征向量
Figure BDA0003828680150000078
将边初始化特征ε进行嵌入得到边特征向量ε′以实现去稀疏;
S2.3,分别利用关联矩阵B将节点特征向量
Figure BDA0003828680150000079
编码为节点特征向量Zv的分布、将边特征向量ε′编码为边特征向量Ze的分布;
S2.4,分别对节点特征向量Zv的分布进行采样得到节点特征向量Zv、对边特征向量Ze的分布进行采样得到边特征向量Ze
参见图3,本实施例图数据编码步骤中,首先分别对输入图数据的节点初始化特征向量和边特征向量进行特征编码,得到节点和边的特征分布,即
Figure BDA0003828680150000071
和p(Ze|ε,B)。然后利用参数重构方法,采样得到节点和边的具体特征向量,即
Figure BDA0003828680150000072
Figure BDA0003828680150000073
最后向采样得到的特征向量添加正则化约束,使得结构信息能够嵌入至节点和边的特征向量中,即p(B|Zv,Ze),返回正则化约束结果。
本实施例中,步骤S2.1中将节点集合V生成节点初始化特征
Figure BDA00038286801500000710
时,若输入的有向图数据包含节点的属性信息,则直接将节点的属性信息直接作为节点初始化特征
Figure BDA00038286801500000711
否则,根据输入的有向图数据的拓扑信息生成节点的属性信息,并将节点的属性信息直接作为节点初始化特征
Figure BDA00038286801500000713
所述基于关联矩阵B和节点初始化特征
Figure BDA00038286801500000712
生成边初始化特征ε的函数表达式为:
Figure BDA0003828680150000074
其中,
Figure BDA0003828680150000081
为权重参数。
本实施例中,步骤S2.2中将节点初始化特征
Figure BDA00038286801500000814
进行嵌入得到节点特征向量
Figure BDA00038286801500000815
将边初始化特征ε进行嵌入得到边特征向量ε′的函数表达式为:
Figure BDA0003828680150000082
ε′=ψE(ε),(3)
上式中,ψV为将节点初始化特征
Figure BDA00038286801500000816
进行嵌入的嵌入函数,ψE为将边初始化特征ε进行嵌入的嵌入函数。本实施例方法关键是利用关联矩阵所表达的边与节点之间的相互关系,来充分地提取有向图数据的特征,从而对其进行连续可微的表达。给定一个有向图G,如果未给定节点属性、类别等信息,需要根据输入图数据本身的拓扑结构信息对其进行初始化。同理,边也需要进行初始化。边的初始化操作有两种方式,一是可以利用节点和关联矩阵获得,即式(2),其中
Figure BDA0003828680150000083
为可学习参数。此外,通常情况下图数据的节点和边的初始化特征都是非常稀疏的,为了更好提取图数据特征,在数据预处理时需要同时将其转换成相对紧致的表达,这里引入了嵌入函数来实现该操作,如式(3)所示。
图数据是一种描述不同对象之间相互关系的数据,因此图数据特征提取与表达过程中,图的拓扑结构信息的提取非常重要。传统的基于图卷积神经网络的方法主要有两种方式提取结构信息,一种是通过利用邻接矩阵提供的连接关系,以聚合邻居结点特征的方式来提取结构信息,另一种是利用邻接矩阵构建出图数据中的路径(即有关联关系的一组节点),然后利用消息传递机制实现图数据结构信息的提取。不同于传统方法,本实施例方法中主要利用关联矩阵来提取图数据的结构信息,步骤S2.3中分别利用关联矩阵B将节点特征向量
Figure BDA00038286801500000817
编码为节点特征向量Zv的分布、将边特征向量ε′编码为边特征向量Ze的分布的函数表达式为:
Figure BDA0003828680150000084
Figure BDA0003828680150000085
上式中,
Figure BDA0003828680150000086
为节点的特征分布,n为输入有向图的节点数,
Figure BDA0003828680150000087
为节点特征后验概率,
Figure BDA0003828680150000088
为节点vi的多元高斯分布,zv,i为节点vi的隐空间随机变量,μv,i为节点vi的高斯分布均值,σv,i为节点vi的高斯分布方差,p(Ze|ε,B)为边的特征分布,m为输入有向图的边数,p(ze,i|ε,B)为边ei的特征后验概率,
Figure BDA0003828680150000089
为边ei的多元高斯分布,ze,i为边ei的隐空间随机变量,μe,i为边ei的高斯分布均值,σe,i为边ei的高斯分布方差;且最终得到的节点特征向量Zv的分布为
Figure BDA00038286801500000810
边特征向量Ze的分布为
Figure BDA00038286801500000811
其中μv为节点特征的方差,σv为节点特征的均值,μe为边特征的方差,σe为边特征的均值。不同于传统方法,在本实施例中,编码器将节点和边编码成一个分布,而不是一个固定的向量,即
Figure BDA00038286801500000812
Figure BDA00038286801500000813
利用这种方式,一方面可以提升编码的多样性,即面向不同任务均能够获得一种适合于当前应用场景的编码,另一方面还能够获得更加丰富的编码信息,从而更加精准的对图数据进行表达。
本实施例步骤S2.4中分别对节点特征向量Zv的分布进行采样得到节点特征向量Zv、对边特征向量Ze的分布进行采样得到边特征向量Ze时,所述采样是指利用参数重构方法进行采样,且利用参数重构方法进行采样的函数表达式为:
zi=∈i⊙σii,(6)
上式中,zi为采样得到的节点特征向量Zv或边特征向量Ze
Figure BDA0003828680150000091
是由标准正太分布采样得到的随机向量,σi为节点特征或边特征的均值,μi为节点特征或边特征的方差,⊙表示哈达玛积(Hadamard product)。由于编码得到的是一个分布,而不是一个固定的向量,而在计算节点与边之间的关联关系时,需要使用具体的表示而非不确定的分布。基于此,本实施例提出了利用参数重构方法进行采样的策略,一方面能够由编码得到的分布获得一个具体的表示向量,另一方面能够保证优化求解时梯度依然存在,且能够正常反向传播。
本实施例种,步骤S2中进行正则化约束的函数表达式为:
Figure BDA0003828680150000092
上式中,p(B|Ze,Zv)表示,B为输入有向图的关联矩阵,m为输入有向图的边数,n为输入有向图的节点数,p(Bij|ze,i,zv,j)为关联矩阵元素Bij的后验概率,p(Bij=1|ze,i,zv,j)为关联矩阵元素Bij=1时的后验概率,σ为Sigmoid函数,ze,i为边ei的隐空间随机变量,zv,j为节点vj的隐空间随机变量,Ψ(ze,i,zv,j)为ze,i、zv,j之间的相关性。通过步骤S2.3将图数据映射到了一个分布,利用步骤S2.4可以在该分布中采样得到一个确定的特征向量,即得到了不同节点以及不同有向边的表征向量。但是,由于不同的图数据其拓扑结构是不相同的,所以应该将该结构信息转换为正则化约束,添加至特征向量上,使得不同的图数据都能够有不一样的表征,且该表征能够充分反应该图数据的特点。基于此,本实施例充分利用关联矩阵所描述的节点与有向边之间的关系,并将这种关联关系转换成正则化约束,使得图数据的结构信息能够被更加充分地提取至特征向量中,从而为图数据的后续处理工作提供良好的基础,具体正则化约束如式(7)所示,所描述的正则化约束是利用关联矩阵中的非零项,将有连接关系的边和节点之间的相关性增强,从而实现图数据结构信息的提取。σ(·)为Sigmoid函数,用于将Ψ(·)输出的取值范围限制在区间[0,1]之间。Ψ(ei,vj)是相关性度量函数,输出越大表示边ei和节点vj之间的相关性越大。具体地,本实施例中任意边和节点ei、vj之间的相关性的计算函数表达式为:
Figure BDA0003828680150000093
上式中,
Figure BDA0003828680150000094
为度量矩阵,ωe为边的关联度量,ωv为节点的关联度量。
为了能够更好的进行有向图数据的特征提取与表达,本实施例给出了一种端到端的自动化特征提取策略,主要原理是利用梯度下降方法,去训练整个系统以获得最终解,包括前面提到的可学习参数。具体地,本实施例中步骤S1之前还包括将权重参数
Figure BDA0003828680150000101
度量矩阵
Figure BDA0003828680150000102
作为可学习参数,通过基于有向图数据样本迭代执行步骤S1~步骤S3以训练获取最优的可学习参数的步骤,且迭代执行步骤S1~步骤S3以训练获取最优的可学习参数时所采用的损失函数的函数表达式为:
Figure BDA0003828680150000103
上式中,
Figure BDA0003828680150000104
为损失函数,ω为全部可学习参数,
Figure BDA0003828680150000105
为数学期望,pω(B|Ze,Zv)为关联矩阵B的后验概率;α和β为超参数,用于控制正则约束KL对于整个优化问题求解的影响强度,其取值范围均为[0,1];KL[pω(Ze|ε,B)||p(Ze)]表示计算pω(Ze|ε,B)和p(Ze)之间的相关程度,相关程度值越大表示相关程度越高,
Figure BDA0003828680150000106
表示计算
Figure BDA0003828680150000107
和p(Zv)之间的相关程度,pω(Ze|ε,B)表示全部可学习参数ω下边的特征分布,p(Ze)为边特征的真实概率,
Figure BDA0003828680150000108
表示全部可学习参数ω下节点的特征分布,p(Zv)为节点特征的真实概率。计算的是两个不同的分布p和q之间的相关程度可表示为KL(p||q),KL(p||q)的值越大,表示分布p和分布q越相似。图4是本实施例方法的搜索流程图,包括:首先,对输入有向图数据G进行特征初始化;然后,利用图数据编码模块对初始化的特征向量进行编码;接下来,对编码后并采样得到的特征向量进行正则化约束;最后,将正则化约束结果和输入图数据的关联矩阵同时输入式(9)所示的损失函数
Figure BDA00038286801500001011
中,计算优化问题的最优解,判断当前结果是否最优,如果最优则返回当前计算得到的有向图数据特征表达;否则,利用梯度下降方法反向传播当前操作函数的梯度,更新图1中网络结构的参数,再次执行上述操作,直到取得权重参数
Figure BDA0003828680150000109
度量矩阵
Figure BDA00038286801500001010
的最优解,训练结束。
此外,本实施例还提供一种基于关联矩阵的有向图数据特征提取与表达系统,包括相互连接的微处理器和存储器,前述微处理器被编程或配置以执行前述基于关联矩阵的有向图数据特征提取与表达方法的步骤。参见图1,本实施例的系统包含用于完成有向图数据处理的特征初始化模块、有向图数据编码模块、有向图特征数据正则化约束模块,以及用于完成最终自动化特征提取与表达的目标函数。各个模块的主要功能描述如下:有向图数据初始化模块主要用于对稀疏的节点特征和边特征进行嵌入映射,对于未给定节点属性、类别等信息的图数据,利用输入图数据本身的拓扑结构信息进行节点和边的特征初始化。有向图数据编码模块以节点和边的初始化特征为输入,将图数据的节点和边的特征编码成一个分布,接着利用参数重构方法进行采样,得到每个节点和每条边的固定的特征向量。有向图数据特征正则化约束模块以节点和边的特征编码向量为输入,对其进行正则化约束操作,使得有向图的结构信息,特别是方向信息能够更加充分的提取至特征向量中。式(9)所示的目标函数是本实施例中自动化特征提取策略的数学优化模型,是梯度下降法求解该优化问题最优解的优化目标。利用该目标函数,可求解出整个表达系统的全部参数,包括前文提到的可学习参数:权重参数
Figure BDA0003828680150000111
和度量矩阵
Figure BDA0003828680150000112
此外,本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,前述计算机程序用于被微处理器编程或配置以执行前述基于关联矩阵的有向图数据特征提取与表达方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于关联矩阵的有向图数据特征提取与表达方法,其特征在于,包括:
S1,将输入的有向图数据的节点集合V和关联矩阵B进行对齐操作;
S2,利用关联矩阵B分别对输入的有向图数据中的节点集合V和边集合E分别进行编码采样为同一特征空间内的节点特征向量Zv和边特征向量Ze
S3,对节点特征向量Zv和边特征向量Ze进行正则化约束以使图数据的结构信息被提取至正则化约束得到的特征向量中,并将正则化约束得到的特征向量作为特征表达结果输出。
2.根据权利要求1所述的基于关联矩阵的有向图数据特征提取与表达方法,其特征在于,步骤S2包括:
S2.1,将节点集合V生成节点初始化特征
Figure FDA0003828680140000011
基于关联矩阵B和节点初始化特征
Figure FDA0003828680140000012
生成边初始化特征ε;
S2.2,将节点初始化特征
Figure FDA0003828680140000013
进行嵌入得到节点特征向量
Figure FDA0003828680140000014
将边初始化特征ε进行嵌入得到边特征向量ε′以实现去稀疏;
S2.3,分别利用关联矩阵B将节点特征向量
Figure FDA0003828680140000015
编码为节点特征向量Zv的分布、将边特征向量ε′编码为边特征向量Ze的分布;
S2.4,分别对节点特征向量Zv的分布进行采样得到节点特征向量Zv、对边特征向量Ze的分布进行采样得到边特征向量Ze
3.根据权利要求2所述的基于关联矩阵的有向图数据特征提取与表达方法,其特征在于,步骤S2.1中将节点集合V生成节点初始化特征
Figure FDA0003828680140000016
时,若输入的有向图数据包含节点的属性信息,则直接将节点的属性信息直接作为节点初始化特征
Figure FDA0003828680140000017
否则,根据输入的有向图数据的拓扑信息生成节点的属性信息,并将节点的属性信息直接作为节点初始化特征
Figure FDA0003828680140000018
所述基于关联矩阵B和节点初始化特征
Figure FDA0003828680140000019
生成边初始化特征ε的函数表达式为:
Figure FDA00038286801400000110
其中
Figure FDA00038286801400000111
为权重参数,步骤S2.2中将节点初始化特征
Figure FDA00038286801400000112
进行嵌入得到节点特征向量
Figure FDA00038286801400000113
将边初始化特征ε进行嵌入得到边特征向量ε′的函数表达式为:
Figure FDA00038286801400000114
ε′=ψE(ε),
上式中,ψV为将节点初始化特征
Figure FDA00038286801400000118
进行嵌入的嵌入函数,ψE为将边初始化特征ε进行嵌入的嵌入函数。
4.根据权利要求2所述的基于关联矩阵的有向图数据特征提取与表达方法,其特征在于,步骤S2.3中分别利用关联矩阵B将节点特征向量
Figure FDA00038286801400000115
编码为节点特征向量Zv的分布、将边特征向量ε′编码为边特征向量Ze的分布的函数表达式为:
Figure FDA00038286801400000116
Figure FDA00038286801400000117
上式中,
Figure FDA0003828680140000021
为节点的特征分布,n为输入有向图的节点数,
Figure FDA0003828680140000022
为节点特征后验概率,
Figure FDA0003828680140000023
为节点vi的多元高斯分布,zv,i为节点vi的隐空间随机变量,μv,i为节点vi的高斯分布均值,σv,i为节点vi的高斯分布方差,p(Ze|ε,B)为边的特征分布,m为输入有向图的边数,p(ze,i|ε,B)为边ei的特征后验概率,
Figure FDA0003828680140000024
为边ei的多元高斯分布,ze,i为边ei的隐空间随机变量,μe,i为边ei的高斯分布均值,σe,i为边ei的高斯分布方差;且最终得到的节点特征向量Zv的分布为
Figure FDA0003828680140000025
边特征向量Ze的分布为
Figure FDA0003828680140000026
其中μv为节点特征的方差,σv为节点特征的均值,μe为边特征的方差,σe为边特征的均值。
5.根据权利要求2所述的基于关联矩阵的有向图数据特征提取与表达方法,其特征在于,步骤S2.4中分别对节点特征向量Zv的分布进行采样得到节点特征向量Zv、对边特征向量Ze的分布进行采样得到边特征向量Ze时,所述采样是指利用参数重构方法进行采样,且利用参数重构方法进行采样的函数表达式为:
zi=∈i⊙σii
上式中,zi为采样得到的节点特征向量Zv或边特征向量Ze
Figure FDA0003828680140000027
是由标准正太分布采样得到的随机向量,σi为节点特征或边特征的均值,μi为节点特征或边特征的方差,⊙表示哈达玛积。
6.根据权利要求1所述的基于关联矩阵的有向图数据特征提取与表达方法,其特征在于,步骤S2中进行正则化约束的函数表达式为:
Figure FDA0003828680140000028
上式中,p(B|Ze,Zv)表示,B为输入有向图的关联矩阵,m为输入有向图的边数,n为输入有向图的节点数,p(Bij|ze,i,zv,j)为关联矩阵元素Bij的后验概率,p(Bij=1|ze,i,zv,j)为关联矩阵元素Bij=1时的后验概率,σ为Sigmoid函数,ze,i为边ei的隐空间随机变量,zv,j为节点vj的隐空间随机变量,Ψ(ze,i,zv,j)为ze,i、zv,j之间的相关性。
7.根据权利要求6所述的基于关联矩阵的有向图数据特征提取与表达方法,其特征在于,任意边和节点ei、vj之间的相关性的计算函数表达式为:
Figure FDA0003828680140000029
上式中,
Figure FDA00038286801400000210
为度量矩阵,ωe为边的关联度量,ωv为节点的关联度量。
8.根据权利要求7所述的基于关联矩阵的有向图数据特征提取与表达方法,其特征在于,步骤S1之前还包括将权重参数
Figure FDA00038286801400000211
度量矩阵
Figure FDA00038286801400000212
作为可学习参数,通过基于有向图数据样本迭代执行步骤S1~步骤S3以训练获取最优的可学习参数的步骤,且迭代执行步骤S1~步骤S3以训练获取最优的可学习参数时所采用的损失函数的函数表达式为:
Figure FDA0003828680140000031
上式中,
Figure FDA0003828680140000032
为损失函数,ω为全部可学习参数,
Figure FDA0003828680140000036
为数学期望,pω(B|Ze,Zv)为关联矩阵B的后验概率;α和β为超参数,用于控制正则约束KL对于整个优化问题求解的影响强度,其取值范围均为[0,1];KL[pω(Ze|ε,B)||p(Ze)]表示计算pω(Ze|ε,B)和p(Ze)之间的相关程度,相关程度值越大表示相关程度越高,
Figure FDA0003828680140000033
表示计算
Figure FDA0003828680140000034
和p(Zv)之间的相关程度,pω(Ze|ε,B)表示全部可学习参数ω下边的特征分布,p(Ze)为边特征的真实概率,
Figure FDA0003828680140000035
表示全部可学习参数ω下节点的特征分布,p(Zv)为节点特征的真实概率。
9.一种基于关联矩阵的有向图数据特征提取与表达系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述基于关联矩阵的有向图数据特征提取与表达方法。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述计算机程序用于被微处理器编程或配置以执行权利要求1~8中任意一项所述基于关联矩阵的有向图数据特征提取与表达方法。
CN202211066764.1A 2022-09-01 2022-09-01 基于关联矩阵的有向图数据特征提取与表达方法和系统 Pending CN115544307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211066764.1A CN115544307A (zh) 2022-09-01 2022-09-01 基于关联矩阵的有向图数据特征提取与表达方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211066764.1A CN115544307A (zh) 2022-09-01 2022-09-01 基于关联矩阵的有向图数据特征提取与表达方法和系统

Publications (1)

Publication Number Publication Date
CN115544307A true CN115544307A (zh) 2022-12-30

Family

ID=84725062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211066764.1A Pending CN115544307A (zh) 2022-09-01 2022-09-01 基于关联矩阵的有向图数据特征提取与表达方法和系统

Country Status (1)

Country Link
CN (1) CN115544307A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258504A (zh) * 2023-03-16 2023-06-13 广州信瑞泰信息科技有限公司 银行客户关系管理系统及其方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258504A (zh) * 2023-03-16 2023-06-13 广州信瑞泰信息科技有限公司 银行客户关系管理系统及其方法
CN116258504B (zh) * 2023-03-16 2024-06-25 广州微明信息科技有限公司 银行客户关系管理系统及其方法

Similar Documents

Publication Publication Date Title
WO2022083624A1 (zh) 一种模型的获取方法及设备
Mousavi et al. Traffic light control using deep policy‐gradient and value‐function‐based reinforcement learning
Zhang et al. Efficient evolutionary search of attention convolutional networks via sampled training and node inheritance
Scardapane et al. Distributed learning for random vector functional-link networks
CN108108854B (zh) 城市路网链路预测方法、系统及存储介质
US20200167659A1 (en) Device and method for training neural network
US10152673B2 (en) Method for pseudo-recurrent processing of data using a feedforward neural network architecture
CN111737535B (zh) 一种基于元结构和图神经网络的网络表征学习方法
CN110138595A (zh) 动态加权网络的时间链路预测方法、装置、设备及介质
CN109214599B (zh) 一种对复杂网络进行链路预测的方法
CN111079931A (zh) 一种基于图神经网络的状态空间概率性多时间序列预测方法
CN110677284A (zh) 一种基于元路径的异构网络链路预测的方法
CN113988464A (zh) 基于图神经网络的网络链路属性关系预测方法及设备
CN112529069A (zh) 一种半监督节点分类方法、系统、计算机设备和存储介质
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
CN111488498A (zh) 基于图神经网络的“节点-图”跨层图匹配方法及系统
CN110136017A (zh) 一种基于数据增强和非负矩阵稀疏分解的群组发现方法
CN116994093A (zh) 基于对偶图卷积神经网络的高光谱图像分类方法
CN115544307A (zh) 基于关联矩阵的有向图数据特征提取与表达方法和系统
CN114358317A (zh) 基于机器学习框架的数据分类方法及相关设备
CN117971354A (zh) 基于端到端学习的异构加速方法、装置、设备及存储介质
CN114550849A (zh) 基于量子图神经网络解决化学分子性质预测的方法
Hajewski et al. An evolutionary approach to variational autoencoders
Zhang et al. End‐to‐end generation of structural topology for complex architectural layouts with graph neural networks
CN117853596A (zh) 无人机遥感测绘方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination