CN110851662A - 基于元路径的异质信息网络链路预测方法 - Google Patents
基于元路径的异质信息网络链路预测方法 Download PDFInfo
- Publication number
- CN110851662A CN110851662A CN201911068606.8A CN201911068606A CN110851662A CN 110851662 A CN110851662 A CN 110851662A CN 201911068606 A CN201911068606 A CN 201911068606A CN 110851662 A CN110851662 A CN 110851662A
- Authority
- CN
- China
- Prior art keywords
- meta
- path
- information network
- link prediction
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明提供一种基于元路径的异质信息网络链路预测方法,首先提取异质信息网络中所有可观测到的存在连接关系的节点对对应的元路径特征向量以及分类标签,构成样本集;构建链路预测模型,利用样本集对链路预测模型进行训练,得到训练好的链路预测模型即节点对的元路径特征向量与节点对之间存在直接连接关系的概率之间的映射关系;对于异质信息网络中待进行链路预测的节点对,提取其对应的元路径特征向量,输入到训练好的链路预测模型,得到待进行链路预测的节点对之间存在直接连接关系的概率。本发明不仅可以较好的利用了已观察到的异质信息网络的结构信息,还充分提取利用异质信息网络中元路径蕴含的丰富语义信息辅助链路预测。
Description
技术领域
本发明涉及到链路预测技术领域,具体涉及一种基于元路径的异质信息网络链路预测方法。
背景技术
链路预测是现在数据挖掘中的热点,旨在对一条链路将来存在的概率进行评估,或根据观察到的已经有信息对缺失链路进行预测恢复。在传统的链路预测问题中,研究多集中在同质网络,即网络中的节点及边具有相同的类型。
然而,现实世界中的大部分网络是异质的,由不同类型的对象组成,这些对象通过各种各样的关系连接在一起,构成复杂的异质信息网络。异质信息网络中节点及边关系中蕴含了丰富的语义信息,如何将异质信息网络中包含的丰富语义加以利用来服务于链路预测研究是一个非常重要的课题。并且,异质信息网络结构复杂且组成各异也为链路预测带来了很大挑战:
(1)异质信息网络的异质性要求在链路预测过程中需要对网络中多种类型链路同时进行预测,而传统链路预测只需对单一类型的链路进行预测;
(2)异质信息网络多种链路存在结构上的依赖关系。
目前已有很多学者对异质网络中的链路预测问题进行了研究。两种最常用的方法分别是概率模型和基于元路径的模型。元路径框架被证明是进行异质信息网络挖掘的有力工具。然而,目前现有的回归或统计模型可能面临过度拟合的问题,尤其是当构建的网络矩阵特别稀疏的情况下。
发明内容
针对现有技术存在的问题,本发明提供一种基于元路径的异质信息网络链路预测方法。本发明兼顾网络结构信息以及链路之间丰富的语义信息提出了基于元路径的异质信息网络链路预测方法,通过对异质信息网络中的元路径进行梳理,提取出元路径特征,生成元路径特征向量,借助模型转化方法对异质信息网络中的链路进行预测。
为实现本发明的技术目的,采用以下技术方案:
一种基于元路径的异质信息网络链路预测方法,包括:
对于给定的异质信息网络G=(V,E),其中V为异质信息网络G中的所有节点组成集合,即异质信息网络G的点集;E为异质信息网络G中可观测到的存在连接关系的节点对的集合;提取异质信息网络G中所有可观测到的存在连接关系的节点对对应的元路径特征向量以及分类标签,构成样本集,其中所述存在连接关系的节点对包括存在直接连接关系以及存在间接连接关系的节点对;
构建链路预测模型,利用样本集对链路预测模型进行训练,得到训练好的链路预测模型即节点对的元路径特征向量与节点对之间存在直接连接关系的概率之间的映射关系;
对于异质信息网络G=(V,E)中待进行链路预测的节点对,提取其对应的元路径特征向量,根据节点对的元路径特征向量与节点对之间存在直接连接关系的概率之间的映射关系,得到待进行链路预测的节点对之间存在直接连接关系的概率。
本发明中,提取异质信息网络G中所有可观测到的存在连接关系的节点对的分类标签的方法是:
对于异质信息网络G中任一可观测到的存在连接关系的节点对 ei=<v,u>,v,u∈V,若节点对ei=<v,u>之间存在直接连接关系,则该节点对ei=<v,u> 的分类标签Yi设为1;若节点对ei=<v,u>之间不存在直接连接关系,则该节点对 ei=<v,u>的分类标签Yi设为0;以此得到异质信息网络G中所有可观测到的存在连接关系的节点对的分类标签。
本发明中,提取异质信息网络G中所有可观测到的存在连接关系的节点对对应的元路径特征向量的方法是:
设异质信息网络G=(V,E)中的元路径类型数目为n,对于异质信息网络G中任一可观测到的存在连接关系的节点对ei=<v,u>,v,u∈V,提取节点对ei=<v,u>在不同元路径下的元路径实例数量作为该节点对的元路径特征,得到节点对 ei=<v,u>对应的元路径特征向量Xi=(xi1,xi2,...,xin),xij表示该节点对ei在第j类元路径下的元路径实例数量,其中j=1,2,3…n。
本发明中构建基于BP神经网络的链路预测模型,利用样本集对链路预测模型进行训练的方法是:
设置样本集中各节点对的元路径特征向量所对应的神经网络的初始连接权重,将各节点对的元路径特征向量输入到基于BP神经网络的链路预测模型,计算各节点其存在直接连接关系的概率,将各节点对计算得到的概率与节点对对应的分类标签进行比较得到误差,通过误差对损失函数进行计算,通过优化方法更新神经网络的连接权重,以使损失函数值最小。
不断循环迭代,直到达到了设定的最大循环次数或者计算损失函数R的值低于某一阈值达到预期,得到训练好的链路预测模型。
具体地,设样本集中的节点对集合为ET,对于样本集中的任一节点对 ei=<v,u>,ei∈ET,其对应的元路径特征向量Xi=(xi1,xi2,...,xin)以及分类标签Yi,将元路径特征向量Xi=(xi1,xi2,...,xin)作为输入数据,通过链路预测模型计算其存在直接连接关系的概率Pi,将计算得到的Pi与节点对ei=<v,u>对应的分类标签Yi进行比较,Yi与Pi之间的差值为误差。
对于节点对ei=<v,u>,通过下式计算其存在直接连接关系的概率Pi:
式中:xij表示节点对ei在第j类元路径下的元路径实例数量,wj为xij对应的神经网络的连接权重,其初始值为给定值,如设为1。
对于节点对集合ET中各节点对,误差函数R定义如下:
其中Pi为节点对ei∈ET通过链路预测模型计算得到的存在直接连接关系的概率,Yi为该节点对的分类标签。
对于节点对ei∈ET,与其元路径特征向量Xi=(xi1,xi2,...,xin)相对应的神经网络的连接权重wj∈W更新过程如下:
其中η∈[0,1]为取值为0到1之间的常数,表示神经网络学习速率;Pi k为第k次迭代过程中通过链路预测模型计算得到的节点对ei存在直接连接关系的概率。Yi为该节点对的分类标签。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于元路径的异质信息网络链路预测方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于元路径的异质信息网络链路预测方法的步骤。
与现有技术相比,本发明能够产生以下技术效果:
本发明的不仅可以利用异质信息网络中已观测到的结构连接信息,而且还能充分利用元路径蕴含的丰富语义信息服务于链路预测任务;本发明具有良好的可扩展性,可以应用于多种不同类型异质信息网络的链路预测中。
通过与11种传统链路预测方法进行比较,结果显示本发明提出的链路预测算法预测效果更佳。
附图说明
图1是基因疾病异质信息网络的一个示例图。
图2是基因疾病异质信息网络中两种不同类型元路径图。
图3是武器装备体系异质信息网络示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面将对本发明实施例中的技术方案进行清楚、完整地描述,做进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明。
与传统的同质网络不同,异质信息网络由多种不同类型实体节点及链路组成。在异质信息网络中,实体节点间通过不同类型的元路径广泛连接。图1给出了一个基因疾病异质信息网络的示例,包括两种实体节点类型分为为基因G 和影响疾病D。其中,基因G5可通过不同路径对疾病D4产生影响,如基因G5可以通过影响疾病D3进而影响疾病D4,元路径为G5-D3-D4,该元路径对应的元路径类型为G-D-D。基因G5也可以通过关联基因G4影响疾病D4,元路径为 G5-G4-D4,该元路径对应的元路径类型为G-G-D。以上两条元路径在实体节点类型组成及具体语义含义上都有区别。
元路径是指异质信息网络中实体节点类型之间的根据一定关联约束构成的具有特定语义含义的序列,是异质信息网络中链路类型的扩展,不同类型的元路径具有不同的语义。图2显示了基因疾病信息网络中两种不同类型的元路径。元路径类型G-D-D表示一个基因与属于同一个家族两种疾病的表达相关,而元路径类型G-G-D则意味着一种疾病与两个相关基因的表达有关。
异质信息网络中两个节点可以通过某一元路径类型定义下的不同元路径联系在一起,如对于图1中的节点对G5与D4可以通过元路径类型G-G-D定义下的不同元路径(G5G4D4)、(G5G6D4)关联在一起,(G5G4D4)、(G5G6D4)称之为G5与D4在元路径类型G-G-D定义下的元路径实例。在图1中,节点对G5与 D4在元路径G-G-D定义下的元路径实例只有两条,因此节点对G5与D4在元路径类型G-G-D定义下元路径实例的数量为2。
实施例1:
一种基于元路径的异质信息网络链路预测方法,包括:
(1)对于给定的异质信息网络G=(V,E),其中V为异质信息网络G中的所有节点组成集合,即异质信息网络G的点集;E为异质信息网络G中可观测到的存在连接关系的节点对的集合;提取异质信息网络G中所有可观测到的存在连接关系的节点对对应的元路径特征向量以及分类标签,构成样本集,其中所述存在连接关系的节点对包括存在直接连接关系以及存在间接连接关系的节点对。
对于异质信息网络G中任一可观测到的存在连接关系的节点对 ei=<v,u>,v,u∈V,若节点对ei=<v,u>之间存在直接连接关系,则该节点对ei=<v,u> 的分类标签Yi设为1;若节点对ei=<v,u>之间不存在直接连接关系,则该节点对 ei=<v,u>的分类标签Yi设为0;以此得到异质信息网络G中所有可观测到的存在连接关系的节点对的分类标签。参照图1,节点G5和G4之间存在直接连接的连边即存在直接连接关系,则节点G5和G4组成的节点对的分类标签设为1。节点 G5和D4之间不存在直接连接的连边,则节点G5和D4组成的节点对的分类标签设为0。G4和D4之间存在直接连接的连边,则节点G4和D4组成的节点对的分类标签设为1。
根据异质信息网络G=(V,E)由多种不同实体类型的实体节点及元路径组成。在异质信息网络中,实体节点间通过不同类型的元路径广泛连接。设已知异质信息网络G=(V,E)中的元路径类型数目为n,对于异质信息网络G中任一可观测到的存在连接关系的节点对ei=<v,u>,v,u∈V,提取节点对ei=<v,u>在不同元路径下的元路径实例数量作为该节点对的元路径特征,得到节点对ei=<v,u>对应的元路径特征向量Xi=(xi1,xi2,...,xin),xij表示该节点对ei在第j类元路径下的元路径实例数量,其中j=1,2,3…n。
(2)构建链路预测模型,利用样本集对链路预测模型进行训练,得到训练好的链路预测模型即节点对的元路径特征向量与节点对之间存在直接连接关系的概率之间的映射关系。
设置样本集中各节点对的元路径特征向量所对应的神经网络的初始连接权重,将各节点对的元路径特征向量输入到基于BP神经网络的链路预测模型,计算各节点其存在直接连接关系的概率,将各节点对计算得到的概率与节点对对应的分类标签进行比较得到误差,通过误差对损失函数进行计算,通过优化方法更新神经网络的连接权重,以使损失函数值最小。
不断循环迭代,直到达到了设定的最大循环次数或者计算损失函数R的值低于某一阈值达到预期,得到训练好的链路预测模型。
设样本集中的节点对集合为ET,对于样本集中的任一节点对ei=<v,u>,ei∈ET,其对应的元路径特征向量Xi=(xi1,xi2,...,xin)以及分类标签Yi,将元路径特征向量 Xi=(xi1,xi2,...,xin)作为输入数据,通过链路预测模型计算其存在直接连接关系的概率Pi,将计算得到的Pi与节点对ei=<v,u>对应的分类标签Yi进行比较,Yi与Pi之间的差值为误差。
具体地,对于节点对ei=<v,u>,通过下式计算其存在直接连接关系的概率Pi:
式中:xij表示节点对ei在第j类元路径下的元路径实例数量,wj为xij对应的神经网络的连接权重,其初始值为给定值,如设为1。
对于节点对集合ET中各节点对,误差函数R定义如下:
其中Pi为节点对ei∈ET通过链路预测模型计算得到的存在直接连接关系的概率,Yi为该节点对的分类标签。
对于节点对ei∈ET,与其元路径特征向量Xi=(xi1,xi2,...,xin)相对应的神经网络的连接权重wj∈W更新过程如下:
其中η∈[0,1]为取值为0到1之间的常数,表示神经网络学习速率;Pi k为第k次迭代过程中通过链路预测模型计算得到的节点对ei存在直接连接关系的概率。Yi为该节点对的分类标签。
(3)对于异质信息网络G=(V,E)中待进行链路预测的节点对,按照(1)中的方法提取其对应的元路径特征向量,根据(2)中训练得到的节点对的元路径特征向量与节点对之间存在直接连接关系的概率之间的映射关系,得到待进行链路预测的节点对之间存在直接连接关系的概率。
实施例2:
一种基于元路径的异质信息网络链路预测模型的训练方法,包括:
(1)对于给定的异质信息网络G=(V,E),其中V为异质信息网络G中的所有节点组成集合,即异质信息网络G的点集;E为异质信息网络G中可观测到的存在连接关系的节点对的集合;提取异质信息网络G中所有可观测到的存在连接关系的节点对对应的元路径特征向量以及分类标签,构成样本集,其中所述存在连接关系的节点对包括存在直接连接关系以及存在间接连接关系的节点对。
对于异质信息网络G中任一可观测到的存在连接关系的节点对 ei=<v,u>,v,u∈V,若节点对ei=<v,u>之间存在直接连接关系,则该节点对ei=<v,u> 的分类标签Yi设为1;若节点对ei=<v,u>之间不存在直接连接关系,则该节点对 ei=<v,u>的分类标签Yi设为0;以此得到异质信息网络G中所有可观测到的存在连接关系的节点对的分类标签。参照图1,节点G5和G4之间存在直接连接的连边即存在直接连接关系,则节点G5和G4组成的节点对的分类标签设为1。节点 G5和D4之间不存在直接连接的连边,则节点G5和D4组成的节点对的分类标签设为0。G4和D4之间存在直接连接的连边,则节点G4和D4组成的节点对的分类标签设为1。
根据异质信息网络G=(V,E)由多种不同实体类型的实体节点及元路径组成。在异质信息网络中,实体节点间通过不同类型的元路径广泛连接。设已知异质信息网络G=(V,E)中的元路径类型数目为n,对于异质信息网络G中任一可观测到的存在连接关系的节点对ei=<v,u>,v,u∈V,提取节点对ei=<v,u>在不同元路径下的元路径实例数量作为该节点对的元路径特征,得到节点对ei=<v,u>对应的元路径特征向量Xi=(xi1,xi2,...,xin),xij表示该节点对ei在第j类元路径下的元路径实例数量,其中j=1,2,3…n。
(2)构建链路预测模型,利用样本集对链路预测模型进行训练,得到训练好的链路预测模型即节点对的元路径特征向量与节点对之间存在直接连接关系的概率之间的映射关系。
设置样本集中各节点对的元路径特征向量所对应的神经网络的初始连接权重,将各节点对的元路径特征向量输入到基于BP神经网络的链路预测模型,计算各节点其存在直接连接关系的概率,将各节点对计算得到的概率与节点对对应的分类标签进行比较得到误差,通过误差对损失函数进行计算,通过优化方法更新神经网络的连接权重,以使损失函数值最小。
不断循环迭代,直到达到了设定的最大循环次数或者计算损失函数R的值低于某一阈值达到预期,得到训练好的链路预测模型。
设样本集中的节点对集合为ET,对于样本集中的任一节点对ei=<v,u>,ei∈ET,其对应的元路径特征向量Xi=(xi1,xi2,...,xin)以及分类标签Yi,将元路径特征向量 Xi=(xi1,xi2,...,xin)作为输入数据,通过链路预测模型计算其存在直接连接关系的概率Pi,将计算得到的Pi与节点对ei=<v,u>对应的分类标签Yi进行比较,Yi与Pi之间的差值为误差。
具体地,对于节点对ei=<v,u>,通过下式计算其存在直接连接关系的概率Pi:
式中:xij表示节点对ei在第j类元路径下的元路径实例数量,wj为xij对应的神经网络的连接权重,其初始值为给定值,如设为1。
对于节点对集合ET中各节点对,误差函数R定义如下:
其中Pi为节点对ei∈ET通过链路预测模型计算得到的存在直接连接关系的概率,Yi为该节点对的分类标签。
对于节点对ei∈ET,与其元路径特征向量Xi=(xi1,xi2,...,xin)相对应的神经网络的连接权重wj∈W更新过程如下:
其中η∈[0,1]为取值为0到1之间的常数,表示神经网络学习速率;Pi k为第k次迭代过程中通过链路预测模型计算得到的节点对ei存在直接连接关系的概率。Yi为该节点对的分类标签。
实施例3:
为了验证本发明所提出的一种基于元路径的异质信息网络链路预测方法的可行性及有效性,本实施例以武器装备体系异质信息网络为例设计场景。
武器装备体系由多种不同类别装备组成,装备按照不同作战能力可划分为侦察类装备实体(S),决策类装备实体(D),打击类装备实体(I)。不同类型的装备实体相互配合相互作用共同完成作战任务。武器装备体系可抽象为异质信息网络,即武器装备体系信息网络G=(V,E),其中表示不同类型作战实体,武器装备体系信息网络中信息传递关系多种多样, E=ES→S∪ES→D∪ED→D∪ED→S∪ED→I∪EI→S,其中包括侦察情报共享S→S,侦察情报上传S→D,指挥控制通信D→S,情报侦察指挥调度D→S,作战命令下达 D→I,及火力控制引导I→S。
图3中展示了武器装备体系信息网络示意图。表1对武器装备体系信息网络中包含的节点以及节点间可观测到的连边的基本信息进行了统计。
表1武器装备体系信息网络基本信息统计
异质信息网络的元路径特征反映了对象的基本连接属性,是开展异质信息网络数据挖掘及分析的得力工具。本实施例中,对武器装备体系信息网络中抽取的元路径及其代表的具体的物理含义进行了详细描述。元路径选取的方式有多种,本发明将元路径蕴含的物理含义作为选择元路径的指导原则。由于计算复杂性高,无法穷举异质信息网络中所有的元路径,由于长度较长的元路径可通过长度较短的元路径进行组合得到,故本实施例中选取的元路径其长度不超过4个节点。
表2不同元路径类型的武器装备体系信息网络抽取的元路径及其物理含义
武器装备体系信息网络是一个有向异质信息网络,武器装备体系中作战实体可以分为侦察节点(S)、决策节点(D)及打击节点(I)三类。这三类作战实体通过各种不同的物质能量信息流连接在一起。例如,侦察类节点之间存在信息共享,侦察类节点将情报收集上传给决策类实体,决策类实体对打击类节点下达作战指挥命令等。本章中武器装备体系信息网络中的信息流可以分为六类:D→D,D→S,D→I,S→S,S→D和I→S。本实施例基于武器装备体系信息网络抽取的元路径具体符号及物理含义如表2所示。
采用本发明提供的基于元路径的异质信息网络链路预测方法对上述武器装备体系信息网络进行链路预测。
(1)对于给定的武器装备体系信息网络G=(V,E),其中V为武器装备体系信息网络G=(V,E)中的所有节点组成集合,即武器装备体系信息网络G=(V,E) 的点集;E为武器装备体系信息网络G=(V,E)中可观测到的存在连接关系的节点对的集合;提取武器装备体系信息网络G=(V,E)中所有可观测到的存在连接关系的节点对对应的元路径特征向量以及分类标签,构成样本集
对于武器装备体系信息网络G=(V,E)中任一可观测到的存在连接关系的节点对ei=<v,u>,v,u∈V,若节点对ei=<v,u>之间存在直接连接关系,则该节点对ei=<v,u>的分类标签Yi设为1;若节点对ei=<v,u>之间不存在直接连接关系,则该节点对ei=<v,u>的分类标签Yi设为0;以此得到异质信息网络G中所有可观测到的存在连接关系的节点对的分类标签。
武器装备体系信息网络G=(V,E)由多种不同实体类型的实体节点及元路径组成。已知武器装备体系信息网络G=(V,E)中的元路径类型数目为n,对于异质信息网络G中任一可观测到的存在连接关系的节点对ei=<v,u>,v,u∈V,提取节点对ei=<v,u>在不同元路径下的元路径实例数量作为该节点对的元路径特征,得到节点对ei=<v,u>对应的元路径特征向量Xi=(xi1,xi2,...,xin),xij表示该节点对ei在第j 类元路径下的元路径实例数量,其中j=1,2,3…n。
(2)构建链路预测模型,利用样本集对链路预测模型进行训练,得到训练好的链路预测模型即节点对的元路径特征向量与节点对之间存在直接连接关系的概率之间的映射关系。
(3)对于武器装备体系信息网络G=(V,E)中待进行链路预测的节点对,提取其对应的元路径特征向量,根据中训练得到的节点对的元路径特征向量与节点对之间存在直接连接关系的概率之间的映射关系,得到待进行链路预测的节点对之间存在直接连接关系的概率。
BP神经网络是本发明采用的链接预测方法,该方法基于神经网络框架,能够充分利用异质信息网络中提取的元路径特征来对异质信息网络中多种不同类型链路进行预测。本实施例中,采用本发明提出的基于元路径的异质信息网络链路预测方法对上述武器装备体系信息网络进行链路预测。
为了研究本发明提出的基于元路径的异质信息链路预测方法的可行性,同时也选取了11中其他的传统链路预测方法进行预测及比较。
传统链路预测方法一般可分为无监督及有监督两大类。对于无监督链路预测方法,选取偏好连结(PA)、Jaccard’s指数(JC),资源分配(RA),公共邻居(CN),Adamic-Adar指数(AA)和本地路径(LocalP)等方法。对于有监督的方法,选择了三种基于局部朴素贝叶斯(LNB)的方法,分别为基于公共邻居的局部朴素贝叶斯(LNBCN),基于Adam-Adar指数的局部朴素贝叶斯 (LNBAA)和基于资源分配的局部朴素贝叶斯(LNBRA)。另外还选取其他两种基于元路径的链路预测方法,分别为基于元路径的路径数目(PC)和基于元路径的随机游走(RW)。PC方法计算了两个实体之间不同元路径类型的所有路径实例计数之和,而RW则测量起始节点和结束节点之间所有路径实例的随机游走概率。
为了评估算法性能,使用一些标准度量来量化预测算法的准确度:在接收机工作特性曲线下的面积(AUC)、准确度和召回率。AUC强调对算法的整体性能进行评估,精确度和召回率分别对预测结果的正确性和完整性进行评估。由于其计算简单,准确方便,AUC、准确度和召回率这几个指标被广泛应用于对链路预测算法性能的评估中。
武器装备体系信息网络为有向异质信息网络,对于该网络,设计了六个实验:(a)D→D类型链路预测,(b)D→S类型链路预测,(c)D→I类型链路预测,(d)S→S类型链路预测,(e)S→D类型链路预测,(f)I→S类型链路预测。
对于每个实验,选择一种类型的链路作为目标链路进行链路预测,剩下的各种类型链路作为信息源。在实验中,选取排名前20%链路作为预测链路。本实施例采用十折交叉验证方法,对于每个实验将目标链路均分为十份,依次选取每份目标链路作为测试集,剩下九份作为训练集合。为排除随机因素对实验结果造成影响,对每次实验进行20次模拟,选取其平均值作为每个实验的最终结果。
针对不同的链路预测任务及比较算法,本文选取排名前20%链路作为预测链路,进而计算AUC,准确度,及召回率,实验结果如表3所示。
表3显示了针对武器装备体系信息网络,不同链路预测方法的性能。如表3 所示,在AUC性能值方面,本发明所提出利用BP神经网络计算的基于元路径的异质信息网络链路预测方法在武器装备体系信息网络中所有六种类型链路预测任务中均优于其他比较方法。例如,D→D类型链路预测任务中,通过本发明提出的方法得到的链路预测结果的AUC性能值比排名第二的PA方法高5.86%,比CN方法高14.97%等。在预测准确度方面,所提出的MPBP方法在所有比较 12种比价方法中预测性能最佳,其次为PC和RW方法。在异质信息网络中,基于元路径的三种链路预测方法在准确度方面均优于统的链路预测算法。同样,本发明提出的方法在召回率性能上也有出色的表现,对于六种不同的链路预测任务在所有算法中排名均为最佳。
表3武器装备体系信息网络针对不同链路预测任务各方法链路预测性能
注:0.000表示小于0.0005的数值,因为数值太小,所以表中没有显示准确度的标准偏差.
从以上链路预测结果可以看出,本发明所提出的方法框架能够较好的解决异质信息网络中不同类型链路预测问题,无论在AUC、准确度还是召回率方面与传统链路预测算法相比都具有较大优势,尤其在异质信息网络较为稀疏的情况下,如武器装备体系信息网络。主要原因为本发明提出的方法不仅可以较好的利用了已观察到的异质信息网络的结构信息,而且还充分提取利用异质信息网络中元路径蕴含的丰富语义信息辅助链路预测。
以上所述仅为本发明的优选的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于元路径的异质信息网络链路预测方法,其特征在于,包括:
对于给定的异质信息网络G=(V,E),其中V为异质信息网络G中的所有节点组成集合,即异质信息网络G的点集;E为异质信息网络G中可观测到的存在连接关系的节点对的集合;提取异质信息网络G中所有可观测到的存在连接关系的节点对对应的元路径特征向量以及分类标签,构成样本集,其中所述存在连接关系的节点对包括存在直接连接关系以及存在间接连接关系的节点对;
构建链路预测模型,利用样本集对链路预测模型进行训练,得到训练好的链路预测模型即节点对的元路径特征向量与节点对之间存在直接连接关系的概率之间的映射关系;
对于异质信息网络G=(V,E)中待进行链路预测的节点对,提取其对应的元路径特征向量,根据节点对的元路径特征向量与节点对之间存在直接连接关系的概率之间的映射关系,得到待进行链路预测的节点对之间存在直接连接关系的概率。
2.根据权利要求1所述的基于元路径的异质信息网络链路预测方法,其特征在于,提取异质信息网络G中所有可观测到的存在连接关系的节点对的分类标签的方法是:
对于异质信息网络G中任一可观测到的存在连接关系的节点对ei=<v,u>,v,u∈V,若节点对ei=<v,u>之间存在直接连接关系,则该节点对ei=<v,u>的分类标签Yi设为1;若节点对ei=<v,u>之间不存在直接连接关系,则该节点对ei=<v,u>的分类标签Yi设为0;以此得到异质信息网络G中所有可观测到的存在连接关系的节点对的分类标签。
3.根据权利要求2所述的基于元路径的异质信息网络链路预测方法,其特征在于,提取异质信息网络G中所有可观测到的存在连接关系的节点对对应的元路径特征向量的方法是:
设异质信息网络G=(V,E)中的元路径类型数目为n,对于异质信息网络G中任一可观测到的存在连接关系的节点对ei=<v,u>,v,u∈V,提取节点对ei=<v,u>在不同元路径下的元路径实例数量作为该节点对的元路径特征,得到节点对ei=<v,u>对应的元路径特征向量Xi=(xi1,xi2,...,xin),xij表示该节点对ei在第j类元路径下的元路径实例数量,其中j=1,2,3…n。
4.根据权利要求3所述的基于元路径的异质信息网络链路预测方法,其特征在于,所述链路预测模型为基于BP神经网络的链路预测模型,利用样本集对链路预测模型进行训练的方法是:
设置样本集中各节点对的元路径特征向量所对应的神经网络的初始连接权重,将各节点对的元路径特征向量输入到基于BP神经网络的链路预测模型,计算各节点其存在直接连接关系的概率,将各节点对计算得到的概率与节点对对应的分类标签进行比较得到误差,通过误差对损失函数进行计算,通过优化方法更新神经网络的连接权重,以使损失函数值最小。
不断循环迭代,直到达到了设定的最大循环次数或者计算损失函数R的值低于某一阈值达到预期,得到训练好的链路预测模型。
5.根据权利要求4所述的基于元路径的异质信息网络链路预测方法,其特征在于,设样本集中的节点对集合为ET,对于样本集中的任一节点对ei=<v,u>,ei∈ET,其对应的元路径特征向量Xi=(xi1,xi2,...,xin)以及分类标签Yi,将元路径特征向量Xi=(xi1,xi2,...,xin)作为输入数据,通过链路预测模型计算其存在直接连接关系的概率Pi,将计算得到的Pi与节点对ei=<v,u>对应的分类标签Yi进行比较,Yi与Pi之间的差值为误差。
7.根据权利要求6所述的基于元路径的异质信息网络链路预测方法,其特征在于,误差函数R定义如下:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任一权利要求所述基于元路径的异质信息网络链路预测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一权利要求所述基于元路径的异质信息网络链路预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911068606.8A CN110851662B (zh) | 2019-11-05 | 2019-11-05 | 基于元路径的异质信息网络链路预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911068606.8A CN110851662B (zh) | 2019-11-05 | 2019-11-05 | 基于元路径的异质信息网络链路预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851662A true CN110851662A (zh) | 2020-02-28 |
CN110851662B CN110851662B (zh) | 2023-08-11 |
Family
ID=69599769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911068606.8A Active CN110851662B (zh) | 2019-11-05 | 2019-11-05 | 基于元路径的异质信息网络链路预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851662B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232492A (zh) * | 2020-10-30 | 2021-01-15 | 北京邮电大学 | 一种基于解耦的异质网络嵌入方法、装置及电子设备 |
CN112333102A (zh) * | 2020-11-02 | 2021-02-05 | 北京邮电大学 | 基于知识图谱的软件定义网络路由选择方法和系统 |
CN112836050A (zh) * | 2021-02-04 | 2021-05-25 | 山东大学 | 针对关系不确定性的引文网络节点分类方法及系统 |
CN113139185A (zh) * | 2021-04-13 | 2021-07-20 | 北京建筑大学 | 基于异质信息网络的恶意代码检测方法及系统 |
WO2021179838A1 (zh) * | 2020-03-10 | 2021-09-16 | 支付宝(杭州)信息技术有限公司 | 一种基于异构图神经网络模型进行预测的方法和系统 |
-
2019
- 2019-11-05 CN CN201911068606.8A patent/CN110851662B/zh active Active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021179838A1 (zh) * | 2020-03-10 | 2021-09-16 | 支付宝(杭州)信息技术有限公司 | 一种基于异构图神经网络模型进行预测的方法和系统 |
CN112232492A (zh) * | 2020-10-30 | 2021-01-15 | 北京邮电大学 | 一种基于解耦的异质网络嵌入方法、装置及电子设备 |
CN112333102A (zh) * | 2020-11-02 | 2021-02-05 | 北京邮电大学 | 基于知识图谱的软件定义网络路由选择方法和系统 |
CN112836050A (zh) * | 2021-02-04 | 2021-05-25 | 山东大学 | 针对关系不确定性的引文网络节点分类方法及系统 |
CN112836050B (zh) * | 2021-02-04 | 2022-05-17 | 山东大学 | 针对关系不确定性的引文网络节点分类方法及系统 |
CN113139185A (zh) * | 2021-04-13 | 2021-07-20 | 北京建筑大学 | 基于异质信息网络的恶意代码检测方法及系统 |
CN113139185B (zh) * | 2021-04-13 | 2023-09-05 | 北京建筑大学 | 基于异质信息网络的恶意代码检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110851662B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851662B (zh) | 基于元路径的异质信息网络链路预测方法 | |
CN109544998B (zh) | 一种基于分布估计算法的航班时隙分配多目标优化方法 | |
Fang et al. | Transfer learning across networks for collective classification | |
CN113378913B (zh) | 一种基于自监督学习的半监督节点分类方法 | |
CN113098714A (zh) | 一种基于深度强化学习的低时延网络切片的方法 | |
CN105574541A (zh) | 一种基于紧密度排序的网络社区发现方法 | |
CN111553469A (zh) | 一种无线传感器网络数据融合方法、装置和存储介质 | |
CN114639483A (zh) | 一种基于图神经网络的电子病历检索方法及装置 | |
Li et al. | Network topology optimization via deep reinforcement learning | |
CN112770256B (zh) | 一种无人机自组织网络中的节点轨迹预测方法 | |
Gao et al. | An efficient evolutionary algorithm based on deep reinforcement learning for large-scale sparse multiobjective optimization | |
Salama et al. | Data reduction for classification with ant colony algorithms | |
CN115629883A (zh) | 资源预测方法、装置、计算机设备及存储介质 | |
Sun et al. | Aledar: An attentions-based encoder-decoder and autoregressive model for workload forecasting of cloud data center | |
CN104702497A (zh) | 一种基于Sarsa算法和蚁群优化的路由控制算法 | |
Anwar et al. | ADR-Miner: An ant-based data reduction algorithm for classification | |
CN115220477A (zh) | 一种基于量子遗传算法的异构无人机联盟形成方法 | |
Yu et al. | Community detection in the textile-related trade network using a biased estimation of distribution algorithm | |
CN114154685A (zh) | 智能电网中电能数据调度方法 | |
Bai et al. | Measuring and sampling: A metric‐guided subgraph learning framework for graph neural network | |
Liu et al. | Research on node importance of power communication network based on multi-attribute analysis | |
Aliehyaei et al. | Ant colony optimization, genetic programming and a hybrid approach for credit scoring: a comparative study | |
Vasisht et al. | Multi-fidelity Bayesian Optimization for Co-design of Resilient Cyber-Physical Systems | |
Fang et al. | Active class discovery and learning for networked data | |
US11973662B1 (en) | Intelligent mapping method for cloud tenant virtual network based on reinforcement learning model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |