CN114722273A - 基于局部结构特征增强的网络对齐方法、装置及设备 - Google Patents

基于局部结构特征增强的网络对齐方法、装置及设备 Download PDF

Info

Publication number
CN114722273A
CN114722273A CN202210265499.3A CN202210265499A CN114722273A CN 114722273 A CN114722273 A CN 114722273A CN 202210265499 A CN202210265499 A CN 202210265499A CN 114722273 A CN114722273 A CN 114722273A
Authority
CN
China
Prior art keywords
network
alignment
model
nodes
data sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210265499.3A
Other languages
English (en)
Inventor
谭真
黄旭倩
董康生
何磊
王俞涵
赵翔
唐九阳
李硕豪
王吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210265499.3A priority Critical patent/CN114722273A/zh
Publication of CN114722273A publication Critical patent/CN114722273A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于局部结构特征增强的网络对齐方法、装置及设备。所述方法包括:将两个网络数据集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,该网络对齐模型包括编码部分以及解码部分,编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,以缓解原始网络结构中的噪音,而解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测,以增加局部特征,最终提高网络对齐的精准度。

Description

基于局部结构特征增强的网络对齐方法、装置及设备
技术领域
本申请涉及网络对齐技术领域,特别是涉及一种基于局部结构特征增强的网络对齐方法、装置及设备。
背景技术
在当今世界,网络几乎无处不在。从计算机视觉、生物信息学、网络挖掘、化学到社会网络分析,各种各样的网络自然地出现在许多具有高度影响力的应用领域。通常情况下,网络对齐(即,在不同的网络中查找节点的对应关系)实际上是这些应用程序中任何数据挖掘任务的第一步。例如,通过链接不同社交网站的用户,可以将一个网站(如淘宝)的产品推荐给另一个网站(如微信)的用户。在生物信息学中,整合不同的组织特异性蛋白质-蛋白质相互作用(PPI)网络已导致候选基因优先排序的显著改进。
一般来说,假设两个(或多个)的节点之间存在固有的对应关系,网络对齐的目的就是发现两个(或更多)网络中的一组节点对。考虑到现实生活中的网络规模都较大,而基于谱方法的网络对齐模型计算效率不高,基于网络表示学习的网络对齐方法因此出现。虽然基于网络表示学习的方法也被证明在学习两个网络的表示方面是有效的,但是目前的如PALE、IONE等基于网络表示学习的网络对齐方法忽略了网络本身存在的噪声问题。而基于迭代深度图学习的网络对齐方法忽略了数据稀疏问题,同时,模型更多的是关注全局结构特征,忽略了局部结构特征,这也使得模型在稀疏数据集上的效果不够理想。
发明内容
基于此,有必要针对上述技术问题,提供一种能够增强局部特征,同时缓解网络噪声问题的基于局部结构特征增强的网络对齐方法、装置及设备。
一种基于局部结构特征增强的网络对齐方法,所述方法包括:
获取训练集,所述训练集中包括两个网络数据集,各所述网络数据集中均包括有多个节点的合集,以及代表两节点之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链,并组成节点对;
将所述训练集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,其中,所述网络对齐模型包括编码部分以及解码部分,所述编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,所述解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测;
获取待对齐的两个网络数据集,并将这两个网络数据集输入所述已训练的网络对齐模型,以得到两个网络中具备匹配关系的节点对。
在其中一实施例中,在所述解码部分采用知识表示学习方法时,分别计算其中一优化后的网络结构中的各节点与另一优化后的网络结构中的各节点之间的评分函数,并根据评分函数对两个节点是否对齐进行预测。
在其中一实施例中,所述评分函数根据两个节点以及两个节点之间的边进行计算。
在其中一实施例中,在所述解码部分基于知识表示学习方法选取TransE、TransH、DistMult、ComplEx以及RotatE模型中任意一种模型对应的评分函数进行网络对齐预测。
在其中一实施例中,在对所述网络对齐模型进行训练时,分别利用损失函数对编码部分以及解码部分进行训练,其中,在所述解码部分,采用与选取的模型相应的损失函数作为预测损失函数对所述解码部分进行训练,而在所述编码部分,采用图正则化损失函数以及所述预测损失函数的混合损失函数对所述编码部分进行训练。
在其中一实施例中,在对所述网络对齐模型进行训练时,采用Bootstrapping算法将新生成的节点对加入所述训练集中对所述网络对齐模型进行训练。
一种基于局部结构特征增强的网络对齐装置,所述装置包括:
训练集获取模块,用于获取训练集,所述训练集中包括两个网络数据集,各所述网络数据集中均包括有多个节点的合集,以及代表两节点之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链,并组成节点对;
网络对齐模型训练模块,用于将所述训练集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,其中,所述网络对齐模型包括编码部分以及解码部分,所述编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,所述解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测;
网络对齐模块,用于获取待对齐的两个网络数据集,并将这两个网络数据集输入所述已训练的网络对齐模型,以得到两个网络中具备匹配关系的节点对。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练集,所述训练集中包括两个网络数据集,各所述网络数据集中均包括有多个节点的合集,以及代表两节点之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链,并组成节点对;
将所述训练集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,其中,所述网络对齐模型包括编码部分以及解码部分,所述编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,所述解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测;
获取待对齐的两个网络数据集,并将这两个网络数据集输入所述已训练的网络对齐模型,以得到两个网络中具备匹配关系的节点对。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练集,所述训练集中包括两个网络数据集,各所述网络数据集中均包括有多个节点的合集,以及代表两节点之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链,并组成节点对;
将所述训练集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,其中,所述网络对齐模型包括编码部分以及解码部分,所述编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,所述解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测;
获取待对齐的两个网络数据集,并将这两个网络数据集输入所述已训练的网络对齐模型,以得到两个网络中具备匹配关系的节点对。
上述基于局部结构特征增强的网络对齐方法、装置及设备,通过在网络对齐模型中采用迭代深度图学习方法将输入的网络结构进行迭代优化得到更适合进行网络对齐的更新网络结构,这样可以缓解网络结构中存在的噪声,再采用知识表示学习方法基于更新网络结构进行网络对齐以增强网络结构的局部特征,以提高网络对齐的准确性。
附图说明
图1为一个实施例中基于局部结构特征增强的网络对齐方法的流程示意图;
图2为一个实施例中网络对齐模型的结构示意图;
图3为实验中Success@10随训练集比例变化情况示意图;
图4为实验中MAP随训练集比例变化情况示意图;
图5为一个实施例中基于局部结构特征增强的网络对齐装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,提供了一种基于局部结构特征增强的网络对齐方法,包括以下步骤:
步骤S100,获取训练集,训练集中包括两个网络数据集,各网络数据集中均包括有多个节点的合集,以及代表两节点之间关系的边的合集,且两个网络数据集中存在匹配关系的两节点之间具有锚链,并组成节点对;
步骤S110,将训练集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,其中,网络对齐模型包括编码部分以及解码部分,编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测;
步骤S120,获取待对齐的两个网络数据集,并将这两个网络数据集输入已训练的网络对齐模型,以得到两个网络中具备匹配关系的节点对。
在本实施例中,步骤S100和S110为训练网络对齐模型的步骤,而S120为应用已训练好的网络对齐模型。在本文中着重对步骤S100与S110进行阐述。
在步骤S110中,训练集中的两个网络数据集将网络结构表示为G=(V,E),其中V和E分别代表G的节点集合和边集合,|V|和|E|表示节点和边的数量。对于节点集合中的任意两个节点ui和uj,如果它们之间存在链接,那么则有一条边ei存在于边集合当中。
作为例子,以社交网络为例,可以把用户看作节点,观察到的用户之间的关系作为边,如果两个用户不存在边,则说明两个用户不是朋友(或者是未被观察到)。而用户通常可能会在两个的社交网络上进行注册,而这些社交网络上的一些朋友可能会重叠。因此在两个网络中找到节点的对应关系就是网络对齐任务。
而对于网络对齐,也就是说给定两个网络(Gs,Gt),Gs表示源网络,Gt表示目标网络,网络对齐的目标是找到一个映射π:Vs→Vt,找到从Vs到Vt的一对一的对应关系,即vt=π(us),同样的,us=π-1(vt),其中us和vt分别表示Gs和Gt中的节点。
如图2所示,网络对齐模型包括编码部分以及解码部分,其中编码部分为基于迭代深度图学习的神经网络以对输入的网络结构进行优化迭代以得到更新的网络结构,并且该网络结构更适合于下游任务也就是进行网络对齐,通过迭代深度图学习可以有效的缓解原始网络结构中的噪音。而解码部分为基于知识表示学习的神经网络可以基于网络结构的局部结构特征增强进行网络对齐预测。在下文中,首先介绍基于迭代深度图学习的编码部分,再对知识表示学习的解码部分进行介绍。
具体的,迭代深度图学习是一种新的迭代方法,其目的是搜索一种隐式图结构,以增强下游预测任务的初始图结构。基于提出的停止准则,当学习的图结构接近优化图(相对于下游任务)时,迭代方法在每个小批量中动态停止。此外,图形构建过程可以以端到端的方式针对下游任务(对齐任务)进行优化。而在方法中,各种网络结构均可以图结构的方式进行表征,所以可以利用迭代深度图学习方法对图结构进行更新。
在以前的方法中将图学习问题建模为在图的边上学习联合离散概率分布,这些方法显示出了良好的性能。但是,由于它们是通过假设图形节点已知来优化边连接性,因此它们无法处理归纳设置(在测试期间使用新节点)。为了克服这个问题,在本实施例中将图结构学习问题转化为相似性度量学习。
具体的,图相似性度量学习的常见方法包括余弦相似性(cosine similarity)、径向基函数(Radial Basis Function,RBF)核和注意机制(attention mechanism)。一个好的相似性度量函数应该是可学习的,并且表现力很强。虽然迭代深度图学习框架对各种相似性度量函数是不可知的,但在不丧失通用性的情况下,而在本实施例中,以加权余弦相似性作为度量函数,即sij=cos(w⊙vi,w⊙vj),其中⊙表示哈德曼积(Hadamard product),w是一个可学习的权重向量,其维数与输入向量vi和vj相同,并学习突出显示向量的不同维数。值得注意的是,这两个输入向量可以是原始节点特征或者是经过计算的节点嵌入。
同时,为了稳定学习过程并提高表达能力,将相似性度量函数扩展到一个多头的版本。具体而言,就是使用m个权重向量,每个权重向量代表一个视角,使用上述相似性函数计算m个独立的相似性矩阵,并将其平均值作为最终相似性,公式如下所示:
Figure BDA0003552431480000071
在公式(1)中,
Figure BDA0003552431480000072
计算第p个视角的两个输入向量vi和vj之间的余弦相似度,其中每个视角考虑的是在向量中捕获的语义的一部分。
通常情况下,由相似性度量计算得出的邻接矩阵应该是非负的,但是sij的范围在[-1,1]之间。此外,许多底层图结构比完全连通图要稀疏得多,因为完全连通图不仅计算昂贵,而且可能会引入噪声(即不重要的边)。因此,通过只考虑每个节点的ε邻域,继续从S中提取对称稀疏非负邻接矩阵A。具体来说,也就是屏蔽掉S中小于非负阈值ε的元素,将值设为0。
虽然初始图可能会有噪声,但它通常仍然包含关于真实图拓扑的丰富而有用的信息。理想情况下,学习到的图结构A可以补充原始图拓扑A(0),以针对对齐任务为GNNs制定优化图。因此,在温和假设优化图结构可能是初始图结构的“转移”的情况下,将学习的图与初始图相结合,公式如下所示:
Figure BDA0003552431480000073
在公式(2)中,I(0)=D(0)-1/2A(0)D(0)-1/2是初始图的归一化邻接矩阵。A(t)和A(1)分别是通过公式1计算出来的第t次和第1次迭代的两个邻接矩阵。对邻接矩阵进一步进行归一化,就得到f(A)ij=Aij/∑jAij
值得注意的是,A(0)是根据原始的节点特征X计算得到的,而A(t)则是根据先前更新的节点嵌入Z(t-1)计算得出的,该节点嵌入Z(t-1)是针对对齐预测任务进行优化得到的。因此,将最终学习的图结构作为它们的线性组合,通过超参数η来进行加权,从而将两者的优点结合起来。最后,再使用另一个超参数λ来平衡学习到的图结构和初始图结构之间的平衡。
同时,图形学习框架与各种GNN架构(以节点特征矩阵和邻接矩阵作为输入来计算节点嵌入)和预测任务无关。在本实施例中的迭代深度图学习网络中采用了两层GCN,其中第一层(表示为GNN1)将原始节点特征X映射到中间嵌入空间,第二层(表示为GNN2)进一步将中间节点嵌入Z映射到输出空间。
同时,提出的图形学习框架与各种GNN架构(以节点特征矩阵和邻接矩阵作为输入来计算节点嵌入)和预测任务无关。在本文中,采用了两层GCN,其中第一层(表示为GNN1)将原始节点特征X映射到中间嵌入空间,第二层(表示为GNN2)进一步将中间节点嵌入Z映射到输出空间。
Figure BDA0003552431480000081
在公式(3)中,σ(·)和l(·)分别是任务相关的输出函数和损失函数。在对齐预测任务中,σ(.)是softmax函数,l(.)是用于计算预测损失的交叉熵函数。MP(·,·)是一个消息传递函数,并且在GCN中,
Figure BDA0003552431480000082
用到了特征/嵌入矩阵F和规范化邻接矩阵
Figure BDA0003552431480000083
(使用公式2得到的)。
虽然将学习图A(t)与初始图A(0)相结合是逼近优化图的有效方法,但学习图A(t)的质量对提高最终图
Figure BDA0003552431480000084
的质量起着重要作用。在实践中,控制生成的学习图A(t)的平滑度、连通性和稀疏性是非常重要的,它忠实地反映了关于初始节点属性X和下游任务的图拓扑。
将特征矩阵X的每一列视为图信号。图信号的一个广泛采用的假设是值在相邻节点之间平滑变化。给定一个具有对称加权邻接矩阵A的无向图,一组n个图信号
Figure BDA0003552431480000085
通常用狄里克莱能测量,公式如下:
Figure BDA0003552431480000086
在公式(4)中,tr(·)表示矩阵的迹,L=D-A是图拉普拉斯算子,D=∑jAij是度矩阵。可以看出,最小化Ω(A,X)可以迫使相邻节点具有相似的特征,从而增强与A关联的图上的图信号的平滑性。
但是,仅最小化平滑度损失将导致零解A=0。此外,还希望能够控制生成的图的稀疏程度。因此,迭代深度图学习网络中在对学习的图施加额外的约束,公式如下所示:
Figure BDA0003552431480000091
在公式(5)中,||·||F表示矩阵的Frobenius范数。第一项通过对数势垒惩罚不连通图的形成,第二项通过惩罚第一项的大程度来控制稀疏性。
然后,将总体图的正则化损失定义为上述损失
Figure BDA0003552431480000092
的总和,它能够控制学习图的平滑性、连通性和稀疏性,其中α、β和χ都是非负超参数。
而在对这一部分的神经网络进行训练时,与之前基于图正则化损失或者任务相关预测损失直接优化邻接矩阵的工作相比,在迭代深度图学习网络中通过最小化结合任务预测损失和图正则化损失的混合损失函数,即
Figure BDA0003552431480000093
来联合和迭代地学习图结构和GNN参数。其中任务预测损失为解码部分神经网络的损失函数,在后文中将会进行解释。
在通过编码部分对网络结构进行迭代更新之后再通过解码部分对网络进行对齐预测。而在这一部分中采用了知识表示学习的方式,由于在本方法中网络结构是以多个节点以及两两具有关系节点之间的边进行表示的,而在知识表示学习中,一个知识图谱可以表示为
Figure BDA0003552431480000094
其中ε,
Figure BDA0003552431480000095
Figure BDA0003552431480000096
分别表示实体、关系和三元组的集合。头部实体可以表示为h,关系表示为r,尾实体表示为t。因此,(h,r,t)表示一个三元组,粗体字母h、r、t表示(h,r,t)的嵌入。实体的数量、关系和嵌入的维数用ne、nr和d表示。而网络中的节点可以看作实体,边可以看作关系,这样知识表示学习方法就可以运用到网络对齐任务中。
具体的,因为网络中的节点可以看作是知识表示学习中的实体,而网络中的边则可以看作是关系,这样就可以把网络中的对齐问题看作是知识表示学习中的链路预测问题。
进一步的,在解码部分采用知识表示学习方法时,分别计算其中一优化后的网络结构中的各节点与另一优化后的网络结构中的各节点之间的评分函数,并根据评分函数对两个节点是否对齐进行预测。而评分函数根据两个节点以及两个节点之间的边进行计算。
在本实施例中,在解码部分可以应用知识表示学习方法中可选取TransE、TransH、DistMult、ComplEx以及RotatE模型其中任意一种模型适应网络对齐框架,从而作为可以进行对齐预测的方法。而每一种模型均有对应的评分函数,接下来对每一种模型的评分函数进行介绍:
在TransE模型中,其思想是期望源网络中的节点的嵌入通过边嵌入的平移之后能够与目标网络中对应的节点的嵌入的距离足够接近,因此TransE模型的得分函数可以用以下公式表示:
fTransE(u+e,v)=||u+e-v|| (6)
在公式(6)中,u和v表示节点的嵌入,e表示边的嵌入,
Figure BDA0003552431480000101
对于TransH模型来说,它是为了克服TransE在边建模时的缺陷,使得节点在涉及不同的边的时候具有分布式的表示。对于一条边,模型将边特定的平移向量de定位在特定边的超平面we中,而不是在节点嵌入的空间当中,其评分函数用以下公式表示:
Figure BDA0003552431480000102
在公式(7)中,u和v表示节点的嵌入,e表示边的嵌入,
Figure BDA0003552431480000104
DistMult模型采用了双线性编码,该模型中节点和边的嵌入可以通过一个神经网络来学习。第一层将一对输入节点投影到低维向量上,第二层将这两个向量组合到一个标量上,通过具有特定于边参数的评分函数进行比较。其评分函数为:
fDistMult(u,v)=uTBev (8)
在公式(8)中,u和v表示节点的嵌入,Be是特定于边的参数。
ComlpEx模型则是将复向量空间引入到嵌入当中,其评分函数用以下公式表示:
Figure BDA0003552431480000103
在公式(9)中,Re(·)表示实部,Im(·)表示虚部。u和v表示节点的嵌入,e表示边的嵌入,
Figure BDA0003552431480000111
Figure BDA0003552431480000112
表示vk共轭。Θ对应于嵌入
Figure BDA0003552431480000113
RotatE模型与ComplEx模型一样将节点与边建模在复向量空间当中,不同的是RotatE将边向量的模量限制为1,使其成为源网络节点到目标网络对应节点的旋转向量,因此,其评分函数表示为:
Figure BDA0003552431480000118
在公式(10)中,
Figure BDA0003552431480000119
是Hadmard积,u和v表示节点的嵌入,e表示边的嵌入,
Figure BDA0003552431480000114
ei表示
Figure BDA0003552431480000115
的每个元素,
Figure BDA0003552431480000116
的模量被限制为|ei|=1。
这样,在对解码部分的模型进行选择的时候灵活性更大,可根据具体情况对解码部分的模型进行选择。
在本实施例中,网络对齐模型实在为基于迭代深度图学习方法的神经网络以及基于知识表示学习的神经网络共同构成的联合模型,而在图2中,并未将知识表示学习模型的具体名称写在框架图中,因为可以选择任意的知识表示学习模型实现网络对齐。
而在对网络对齐模型进行训练时,关基于迭代深度图学习方法的神经网络的损失函数已经在前文中提到了,接下来对基于知识表示学习的神经网络的损失函数进行介绍:
知识表示学习方法进行对齐预测时,针对不同的模型需要对应不同的损失函数进行训练。
针对TransE模型,为了学习基于翻译的嵌入,在训练集上最小化了一个基于边际的排名标准:
Figure BDA0003552431480000117
在公式(11)中,[x]+=max{0,x},S′(u,v)表示通过重组(u,v)而构造的负节点对齐集,即用Gs或Gt中随机选择的节点替换u或v。u和v以及u′和v′表示节点的嵌入,e表示边的嵌入。δ1>0是TransE模型中分隔正节点对齐和负节点对齐的边界超参数。
对TransH模型来说,为了鼓励区分正确的对齐节点和错误的对齐节点,使用以下基于边际的排名损失:
Figure BDA0003552431480000121
在公式(12)中,[x]+=max{0,x},S′(u,v)表示通过重组(u,v)而构造的负节点对齐集,即用Gs或Gt中随机选择的节点替换u或v。u和v以及u′和v′表示节点的嵌入。δ2>0是TransH模型中分隔正节点对齐和负节点对齐的边界超参数。
DistMult模型中,可以通过最小化基于边际的排名目标来学习,该目标鼓励正节点对齐的得分高于任何负节点对齐的得分。模型训练的目标是最大限度地减少基于边际的排名损失:
Figure BDA0003552431480000122
在公式(13)中,[x]+=max{0,x},S′(u,v)表示通过重组(u,v)而构造的负节点对齐集,即用Gs或Gt中随机选择的节点替换u或v。u和v以及u′和v′表示节点的嵌入。
在ComplEx模型中,通过对所考虑模型的参数Θ进行正则化,最小化逻辑模型的负对数似然,使用小批量随机梯度下降和AdaGrad对模型进行训练,以调整学习率:
Figure BDA0003552431480000123
在公式(14)中,当节点对为正确的对齐节点时,Yeuv=1,当节点对为错误的对齐节点时,Yeuv=-1。λ可在{0.1,0.03,0.01,0.003,0.001,0.0003,0.00001,0.0}中进行验证。
RotatE模型的损失函数与上述模型有些区别,它采取自对抗训练的负采样损失函数进行训练:
Figure BDA0003552431480000124
在公式(15)中,δ3为边界超参数,σ为sigmoid函数,(u′i,e,v′i)为第i个负对齐节点。具体而言,p(v′i,e,v′i)可以定义为:
Figure BDA0003552431480000131
在公式(16)中,α表示采样权重。
而以上模型的损失函数也均会作为基于迭代深度图学习神经网络的
Figure BDA0003552431480000132
损失函数部分进行迭代学习更好的网络结构,也就是上文中提到的任务预测损失。
也就是说在对所述网络对齐模型进行训练时,分别利用损失函数对编码部分以及解码部分进行训练,其中,在解码部分,采用与选取的模型相应的损失函数作为预测损失函数对所述解码部分进行训练,而在编码部分,采用图正则化损失函数以及预测损失函数的混合损失函数对编码部分进行训练。
而在本实施例中,在对网络对齐模型进行训练时,采用Bootstrapping算法将新生成的节点对加入训练集中对网络对齐模型进行训练。
具体的,在对网络对齐模型进行训练时,尤其是在对解码部分进行训练时,需要应用到训练集中的已经具有锚链的节点对,这样才能通过损失函数对该部分的参数进行调整,直至损失函数符合预设要求。而训练集中的并不是所有具有匹配关系的都设置有锚链,所以在进行训练时,会出现新的节点对,并将这些出现得到的新的节点对加图训练集中再对模型进行训练,这样有效缓解了训练数据稀疏的问题。同样的在对模型初步完成训练后,还会利用测试集中模型进行测试以调节模型的精度。
在本文中,还通过实验对本方法进行验证,具体内容包括:
实验在1个真实世界数据集(2个真实世界网络)上进行了实验,仅选择了数据集Flickr和Myspace进行实验。原因是在这个数据集中,Flickr和Myspace的边的数量相对节点数量来说较少,网络结构较为稀疏,同时属性数量也较少。而本文提出的模型的目的是能够进一步学习更好的节点表示以及局部的网络结构表示,以此来提升模型的效果,因此,与数据集Allmovie和Imdb和数据集Douban Online和Douban offline相比,数据集Flickr和Myspace更加能够体现模型的效果。数据集的相关信息如表1所示。
Flickr和Myspace数据集:Flickr和Myspace这两个子网被收集在文章中,然后按照文章中的方法进行处理。Flickr的子网包含6714个节点,Myspace的子网包含10733个节点。用户的性别用于表示节点属性,并且只有部分事实(groundtruth)是可用于对齐的。
表1真实世界网络的数据信息
Figure BDA0003552431480000141
而本实验中的相关设置:
其中,对衡量指标的设置,从预测角度和排名角度,使用最先进的指标评估网络对齐的性能。从预测视角来看,采用Success@q,它指示前q个候选中是否出现真正的正匹配。更具体地说,对于每个锚对
Figure BDA0003552431480000142
在基本事实中,如果对齐得分为
Figure BDA0003552431480000143
在对齐矩阵S的第
Figure BDA0003552431480000144
行中的前q个最高值范围内,节点
Figure BDA0003552431480000145
的对齐输出被记录为成功案例:
Figure BDA0003552431480000146
Figure BDA0003552431480000147
在公式(17)和(18)中,SuccessB/A@q表示网络B/A中每个节点在网络A/B中的测试集中的命中数,Success@q是双向计数的平均值。
从排名角度来说,使用平均精度均值MAP(Mean Average Precision)(即成对设置下的MRR)作为衡量指标:
Figure BDA0003552431480000148
Figure BDA0003552431480000149
在公式(19)和(20)中,ranki是指网络A/B中测试集中的第i个锚节点在网络B/A中的基本事实对应物的排名位置。和Success@q一样,MAP也是双向计数的平均。
在实验中,Success@q中q的取值为1,3,5和10。一个好的网络对齐模型应该具有高的Success@q值和MAP值。
在实验中,选择了基于迭代深度图学习的网络对齐方法作为模型的基线,实验中将加入不同知识表示学习方法的网络对齐模型与基线模型进行对比。
而对于网络对齐模型中的超参数,嵌入维数d设置为100,对齐预测的损失函数中,边界超参数δ1、δ2、δ3设置为1。
结果平均超过10次运行,以减轻随机性。所有实验都在处理器为i7-9700K,内存为16GB的GeForce RTX2080Ti服务器上进行,并通过PyTorch来实现。
为了验证网络对齐模型在网络对齐任务上的效果,在本实验中将模型与基于迭代深度图学习的网络对齐方法在数据集Flickr和Myspace上进行比较,训练集与测试集的比例为0.8:0.2,实验结果如表2所示。从实验结果中可以看出,将对齐预测部分设置为RotatE时,模型的效果最为突出,尤其是在Success@1以及MAP指标上。但是其他知识表示模型替换解码部分之后没有能够提高模型的效果,其原因可能是因为在网络数据集中,并没有赋予网络中的边和知识图谱中的关系一样多的信息,只是将其简单地设置为存在与不存在的含义,因此这样就大大减小了知识表示模型在对齐中的效果。而在RotatE中,它将边的模量限制为1,将其作为源网络节点到目标网络节点的旋转,边只起到方向变换的作用,因此模型的效果会更加突出。同时,RotatE采用了自对抗训练的负采样损失函数,这种损失函数与其他方式都不相同,模型效果的提升可能也与训练模式有关。
表3则进一步给出了训练集与测试集比例为0.2:0.8时的模型效果比较。可以看出,在弱监督的情况下,将编码部分设置成ComplEx时模型的效果最好,尤其是在Success@1、Success@3以及MAP指标。而将编码部分设置成TransH时,则是在Success@5和Success@10的结果上更好。这说明在弱监督的情况下,超平面和复向量空间的设置可以提升模型的效果。
表2模型在Flickr和Myspace数据集上的实验结果(训练集与测试集的比例为0.8:0.2)
Figure BDA0003552431480000161
表3模型在Flickr和Myspace数据集上的实验结果(训练集与测试集的比例为0.2:0.8)
Figure BDA0003552431480000162
为了进一步了解模型中训练集与测试集的比例对实验结果的影响情况,在本实验中对该参数进行了实验,实验过程中只改变该参数的值,并设置其他参数不变。实验过程中训练集的比例从开始的0.1增加到0.9,每次增加0.1,实验结果如图3和4所示。
图3是指标Success@10随训练集比例变化的情况,从图中可以看出当训练集比例较小时,即训练集比例为0.1、0.2和0.3时,编码部分为知识表示学习模型时效果更好。这说明,在弱监督的条件下,知识表示学习模型作为解码部分时效果更好。而当训练集比例增加之后,RotatE模型作为编码部分时与原来的基于迭代深度图学习的网络对齐模型效果相似,而TransH和ComplEx模型作为编码部分的优势则逐渐变得不明显。
而图4则是指标MAP随训练集比例变化的情况,从整体趋势来看,与Success@10指标的变化情况相似,当编码部分为知识表示学习模型时,在训练集比例为0.1、0.2、0.3时,模型效果优于基于迭代深度图学习的网络对齐模型。但是在整个变化过程中,各个模型在MAP的指标变化上起伏更加大。与其他模型不同,RotatE模型作为编码部分时,在训练集比例从0.7变化至0.8时,效果提升明显,但是从0.8变化至0.9时,模型效果提升并不明显。另一方面,相较于TransE、TransH和ComplEx模型,DistMult模型作为编码部分时,在MAP指标上随着训练集比例的增大,模型效果提升更加明显,说明双线性编码在对齐任务中的有效性。
总结:本方法中提出的基于局部结构特征增强的网络对齐方法的网络对齐模型考虑到基于迭代深度图学习的网络对齐方法中忽略了节点特征中存在的噪声,同时也并没有考虑数据稀疏的问题,将目光瞄准于知识表示学习在节点特征学习以及缓解数据稀疏问题方面的作用,将知识表示学习模型加入到基于迭代深度图学习的网络对齐模型的解码部分。基于局部结构特征增强的模型尝试了5种经典的知识表示学习模型用于对齐模式,并在训练过程中加入了Bootstrapping算法,解决网络对齐中的噪声问题和数据稀疏问题。模型选择稀疏的数据集Flickr和Myspace进行实验,实验结果表明,在训练集比例较小的时候,基于局部结构特征增强的网络对齐方法的效果优先于基于迭代深度图学习的网络对齐方法,而在训练集比例增加的情况下,RotatE模型作为编码部分时,模型仍旧具有较好的效果。
上述基于局部结构特征增强的网络对齐方法中,通过知识表示学习方法增强局部结构特征的刻画,同时缓解了网络噪声和数据稀疏的问题,而在模型训练中,设计了Bootstrapping算法,将训练中新生成的对齐节点对输入到训练集中再次参加训练,能够进一步缓解数据稀疏的问题。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基于局部结构特征增强的网络对齐装置,包括:训练集获取模块200、网络对齐模型训练模块210和网络对齐模块220,其中:
训练集获取模块200,用于获取训练集,所述训练集中包括两个网络数据集,各所述网络数据集中均包括有多个节点的合集,以及代表两节点之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链,并组成节点对;
网络对齐模型训练模块210,用于将所述训练集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,其中,所述网络对齐模型包括编码部分以及解码部分,所述编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,所述解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测;
网络对齐模块220,用于获取待对齐的两个网络数据集,并将这两个网络数据集输入所述已训练的网络对齐模型,以得到两个网络中具备匹配关系的节点对。
关于基于局部结构特征增强的网络对齐装置的具体限定可以参见上文中对于基于局部结构特征增强的网络对齐方法的限定,在此不再赘述。上述基于局部结构特征增强的网络对齐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于局部结构特征增强的网络对齐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取训练集,所述训练集中包括两个网络数据集,各所述网络数据集中均包括有多个节点的合集,以及代表两节点之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链,并组成节点对;
将所述训练集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,其中,所述网络对齐模型包括编码部分以及解码部分,所述编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,所述解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测;
获取待对齐的两个网络数据集,并将这两个网络数据集输入所述已训练的网络对齐模型,以得到两个网络中具备匹配关系的节点对。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取训练集,所述训练集中包括两个网络数据集,各所述网络数据集中均包括有多个节点的合集,以及代表两节点之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链,并组成节点对;
将所述训练集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,其中,所述网络对齐模型包括编码部分以及解码部分,所述编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,所述解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测;
获取待对齐的两个网络数据集,并将这两个网络数据集输入所述已训练的网络对齐模型,以得到两个网络中具备匹配关系的节点对。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.基于局部结构特征增强的网络对齐方法,其特征在于,所述方法包括:
获取训练集,所述训练集中包括两个网络数据集,各所述网络数据集中均包括有多个节点的合集,以及代表两节点之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链,并组成节点对;
将所述训练集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,其中,所述网络对齐模型包括编码部分以及解码部分,所述编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,所述解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测;
获取待对齐的两个网络数据集,并将这两个网络数据集输入所述已训练的网络对齐模型,以得到两个网络中具备匹配关系的节点对。
2.根据权利要求1所述的网络对齐方法,其特征在于,在所述解码部分采用知识表示学习方法时,分别计算其中一优化后的网络结构中的各节点与另一优化后的网络结构中的各节点之间的评分函数,并根据评分函数对两个节点是否对齐进行预测。
3.根据权利要求2所述的网络对齐方法,其特征在于,所述评分函数根据两个节点以及两个节点之间的边进行计算。
4.根据权利要求2所述的网络对齐方法,其特征在于,在所述解码部分基于知识表示学习方法选取TransE、TransH、DistMult、ComplEx以及RotatE模型中任意一种模型对应的评分函数进行网络对齐预测。
5.根据权利要求4所述的网络对齐方法,其特征在于,在对所述网络对齐模型进行训练时,分别利用损失函数对编码部分以及解码部分进行训练,其中,在所述解码部分,采用与选取的模型相应的损失函数作为预测损失函数对所述解码部分进行训练,而在所述编码部分,采用图正则化损失函数以及所述预测损失函数的混合损失函数对所述编码部分进行训练。
6.根据权利要求5所述的网络对齐方法,其特征在于,在对所述网络对齐模型进行训练时,采用Bootstrapping算法将新生成的节点对加入所述训练集中对所述网络对齐模型进行训练。
7.一种基于局部结构特征增强的网络对齐装置,其特征在于,所述装置包括:
训练集获取模块,用于获取训练集,所述训练集中包括两个网络数据集,各所述网络数据集中均包括有多个节点的合集,以及代表两节点之间关系的边的合集,且两个所述网络数据集中存在匹配关系的两节点之间具有锚链,并组成节点对;
网络对齐模型训练模块,用于将所述训练集输入网络对齐模型中进行训练,直至得到具备将两个网络进行对齐能力的已训练的网络对齐模型,其中,所述网络对齐模型包括编码部分以及解码部分,所述编码部分采用迭代深度图学习方法对网络数据集表示的网络结构进行优化,所述解码部分采用知识表示学习方法对优化后的网络结构进行对齐预测;
网络对齐模块,用于获取待对齐的两个网络数据集,并将这两个网络数据集输入所述已训练的网络对齐模型,以得到两个网络中具备匹配关系的节点对。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
CN202210265499.3A 2022-03-17 2022-03-17 基于局部结构特征增强的网络对齐方法、装置及设备 Pending CN114722273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210265499.3A CN114722273A (zh) 2022-03-17 2022-03-17 基于局部结构特征增强的网络对齐方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210265499.3A CN114722273A (zh) 2022-03-17 2022-03-17 基于局部结构特征增强的网络对齐方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114722273A true CN114722273A (zh) 2022-07-08

Family

ID=82237664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210265499.3A Pending CN114722273A (zh) 2022-03-17 2022-03-17 基于局部结构特征增强的网络对齐方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114722273A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503031A (zh) * 2023-06-29 2023-07-28 中国人民解放军国防科技大学 基于简历解析的人员相似性计算方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503031A (zh) * 2023-06-29 2023-07-28 中国人民解放军国防科技大学 基于简历解析的人员相似性计算方法、装置、设备及介质
CN116503031B (zh) * 2023-06-29 2023-09-08 中国人民解放军国防科技大学 基于简历解析的人员相似性计算方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Mardt et al. VAMPnets for deep learning of molecular kinetics
Lin et al. Deep learning for missing value imputation of continuous data and the effect of data discretization
Moniz et al. Nested lstms
US11537898B2 (en) Generative structure-property inverse computational co-design of materials
Zhang et al. Convolutional neural networks-based lung nodule classification: A surrogate-assisted evolutionary algorithm for hyperparameter optimization
Virgolin et al. On explaining machine learning models by evolving crucial and compact features
Kumar et al. Future of machine learning (ML) and deep learning (DL) in healthcare monitoring system
López et al. Robust twin support vector regression via second-order cone programming
Golzari Oskouei et al. EDCWRN: efficient deep clustering with the weight of representations and the help of neighbors
Mariappan et al. Deep collective matrix factorization for augmented multi-view learning
Gao et al. Adversarial mobility learning for human trajectory classification
Xu et al. Graph-based sparse bayesian broad learning system for semi-supervised learning
Munikoti et al. A general framework for quantifying aleatoric and epistemic uncertainty in graph neural networks
Liu et al. EACP: An effective automatic channel pruning for neural networks
Xu et al. Optimizing the prototypes with a novel data weighting algorithm for enhancing the classification performance of fuzzy clustering
Huang et al. Self-supervised graph attention networks for deep weighted multi-view clustering
CN114722273A (zh) 基于局部结构特征增强的网络对齐方法、装置及设备
Xia et al. An iterative model-free feature screening procedure: Forward recursive selection
Chu et al. Broad minimax probability learning system and its application in regression modeling
Simsek et al. Deep learning in smart health: Methodologies, applications, challenges
Mishra et al. Unsupervised functional link artificial neural networks for cluster Analysis
Da Cunha Machine Learning for the Physical Sciences: Fundamentals and Prototyping with Julia
Liu et al. Semi‐supervised breast histopathological image classification with self‐training based on non‐linear distance metric
He et al. Rank-based greedy model averaging for high-dimensional survival data
Kim Active label correction using robust parameter update and entropy propagation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination