CN114154024A - 一种基于动态网络属性表示的链接预测方法 - Google Patents

一种基于动态网络属性表示的链接预测方法 Download PDF

Info

Publication number
CN114154024A
CN114154024A CN202111460275.XA CN202111460275A CN114154024A CN 114154024 A CN114154024 A CN 114154024A CN 202111460275 A CN202111460275 A CN 202111460275A CN 114154024 A CN114154024 A CN 114154024A
Authority
CN
China
Prior art keywords
node
network
attribute
personnel
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111460275.XA
Other languages
English (en)
Other versions
CN114154024B (zh
Inventor
黄双全
刘威
张鹏
张照星
黄潭龙
施一琳
范英
康凯
徐平
徐飞
陈洁
徐骁
高乾坤
宰旭昕
许广文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ministry Of Public Security Household Policies Management Research Center
Original Assignee
Ministry Of Public Security Household Policies Management Research Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ministry Of Public Security Household Policies Management Research Center filed Critical Ministry Of Public Security Household Policies Management Research Center
Priority to CN202111460275.XA priority Critical patent/CN114154024B/zh
Priority claimed from CN202111460275.XA external-priority patent/CN114154024B/zh
Publication of CN114154024A publication Critical patent/CN114154024A/zh
Application granted granted Critical
Publication of CN114154024B publication Critical patent/CN114154024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于动态网络属性表示的链接预测方法,其包括:步骤S1:在关系网络数据集基础上,动态生成人员主题库网络数据新链接,并按时间戳对节点新产生的链接进行排序得到链接序列;步骤S2:采用基于连接强度的随机游走算法对人员主题库网络节点信息进行扩散,形成网络模型;步骤S3:采用梯度下降法对网络模型的节点向量参数进行更新;步骤S4:通过属性网络链接预测算法对人员主题库网络进行基于网络结构的节点特征学习;步骤S5:通过属性网络链接预测算法对人员主题库网络进行基于节点属性的节点特征学习;步骤S6:将基于网络结构的节点特征与基于节点属性的节点特征进行特征融合及属性网络链接预测。

Description

一种基于动态网络属性表示的链接预测方法
技术领域
本发明涉及数据处理技术,具体而言,涉及一种基于动态网络属性表示的链接预测方法。
背景技术
人员主题库是在较高层次上将信息系统中的数据进行综合、归类和分析利用的一个抽象概念。在人员主题库的构建过程中,存在大量不同维度的关系数据,其关系纷繁复杂。将纷繁复杂的数据关联成网状结构进行链式预测,从而对隐藏信息进行挖掘可大大提高信息利用率。链接预测是网络分析中一个重要的应用,链接预测主要是基于已知的网络预测网络中隐藏的链路,或者基于现在的网络预测未来即将产生的链路,从而可以从多角度、多侧面、多层次的获取信息,以丰富人员主题库信息。传统的链接预测方法主要是基于节点相似性进行的。处理链接预测的关键步骤在于从网络数据中获取已知的链接关系信息,设计合理的链接预测模型。在社会网络或其他复杂网络数据中,根据网络数据信息可将链接关系转化为有向图或无向图,图中的顶点集用来表示网络节点,而边集则表示连接关系存在的可能性,对网络数据的分析,便可以构造模型通过机器学习算法进行预测,为了提高机器学习算法的学习和预测效果,构造模型的过程需要进行数据的内在结构分析,充分利用网络数据源中数据的相关信息。
网络数据最大特点是数据极其稀疏且结构极其复杂,人员主题库中的关系网络数据是指根据各主体之间的连接关系(如好友关系、同住关系、同户关系、同行关系等)形成的关系网络数据。传统链接预测算法不能很好地从人员主题网数据中学习有价值的信息,从而不能很好适应大数据时代对链接预测任务在算法效率和精度方面的更高要求。例如中国专利CN112184468A公开了一种基于时空关系的动态社会关系网络链路预测方法,该方法包括获取动态社会关系数据,并进行预处理生成样本集;对样本集中的任意节点构建加权相似性特征时间序列;基于加权相似性特征时间序列,采用预设算法计算待预测时刻下的任意节点对的特征值以构建特征矩阵;将特征矩阵输入预先训练的分类模型中,输出待预测时刻下的动态社会关系网络的可能链路。该方法在网络拓扑结构特征和链路生成时序信息的基础上建立了动态网络的特征时间序列,将预测方法从静态网络扩展到动态时变网络。
现有的研究方法大多只考虑了发生变化的节点本身的信息变化情况,而没有关注节点邻域所受到的影响。但实际人员主题库中的关系网络往往是由大量节点、节点属性以及节点之间复杂链接关系共同构成的网络结构。并且现有方法大多仅考虑了均匀间隔的时间间隔,而忽视了不同时间间隔对节点偏好信息的影响。
发明内容
为了解决现有技术的不足,本发明提供一种基于动态网络属性表示的链接预测方法,是一种能够有效提取人员主题关系网络结构信息和节点属性信息的方法,用以将数据中的各种关系抽象为关系网络。首先对网络中不均匀的动态信息进行了学习,提出了基于连接强度的随机游走算法来模拟动态信息在网络中的扩散,从而得到新时刻下的节点表示,如通过人员住址信息得出邻居关系,通过好友关系得出共同好友,通过亲属关系对人节点属性进行丰富等;通过深度网络结构将网络中各节点表征到低维、稠密向量空间;然后通过相似度度量模型重新定义丰富网络中邻居节点间的关系,从而梳理人员主题库中相关人员的关联关系。
为达到上述目的,本发明提供了一种基于动态网络属性表示的链接预测方法,其包括以下步骤:
步骤S1:在关系网络数据集基础上,动态生成人员主题库网络数据新链接,并按时间戳对节点新产生的链接进行排序得到链接序列;
步骤S2:采用基于连接强度的随机游走算法对人员主题库网络节点信息进行扩散,形成网络模型;
步骤S3:采用梯度下降法对网络模型的节点向量参数进行更新;
步骤S4:通过属性网络链接预测算法对人员主题库网络进行基于网络结构的节点特征学习;
步骤S5:通过属性网络链接预测算法对人员主题库网络进行基于节点属性的节点特征学习;
步骤S6:将基于网络结构的节点特征与基于节点属性的节点特征进行特征融合及属性网络链接预测。
在本发明一实施例中,其中,步骤S1具体为:
若当前时刻为t时刻,则此时的人员主题库网络用G(Vt,Et,t)表示,其中Vt为t时刻的人员节点集合,Et为t时刻的属性关系边集合,t为对应的时间戳;
按照时间戳对节点v新产生的链接进行排序得到链接序列Sv={(v,vi,t0),(v,vi,t1),…(v,vi,tn)},其中(v,vi,t)表示t时刻人员节点v与vi之间新建立的链接,vi∈Nv表示节点v的一阶邻域节点,Nv表示节点v的一阶邻域节点集合;t0,t1,……tn表示不同关系链接建立的时间戳,且t0<t1<…<tn
在本发明一实施例中,其中,步骤S2具体为:
步骤S201:当产生新增人员节点时,新增链接eij∈Enew,其中Enew为新增链接的集合;
步骤S202:当与新增链接相关联的一个人员节点v在新增链接eij上时,其随机游走的长度m的初始值为0;
步骤S203:在人员节点v随机游走的过程中,当其随机游走的长度m<L时,初始化对应边的权重概率分布P,其中L为预设的随机游走序列的最大长度;
步骤S204:当人员节点v的任意一阶邻居节点u在人员节点v的一阶邻居节点集合Nv中时,通过式(1)计算人员节点v与其任一邻域节点间的连接强度
Figure BDA0003389653500000041
并将连接强度
Figure BDA0003389653500000042
作为对应边的权重概率分布P,其中
Figure BDA0003389653500000043
式中,uv为人员节点v的属性维度表示向量,vi为人员节点v的邻域节点,uvi为邻域节点vi的属性维度表示向量;
步骤S205:重复步骤S204直至完成所有节点间边的权重概率分布P的计算;
步骤S206:根据每一边的权重概率分布P值选择下一个节点u’,并将u’加入人员节点v的随机游走结果集合Rv中,同时将此时的随机游走的长度m加1,即m=m+1;将人员节点v替换为节点u’,以此完成一个相关节点的邻域采样;
步骤S207:重复步骤S206直至完成所有相关节点的邻域采样;
步骤S208:将每次得到的随机游走结果集合Rv加入随机游走序列R中,完成人员主题库网络节点的信息扩散。
在本发明一实施例中,其中,步骤S3具体为:
网络模型将输出的人员节点表示向量hv应用于基于图的损失函数,其中v∈V,V为网络中节点集合,并采用梯度下降法对网络模型的参数进行更新,其中,在基于图的损失函数中假设相互连接的节点有着相似的网络节点表示向量,按照式(2)计算损失函数J(hv),
Figure BDA0003389653500000044
式中,
Figure BDA0003389653500000051
为节点v和节点u之间存在链接的概率,Pn(v)为负采样分布,Q为负采样的数量,
Figure BDA0003389653500000052
为节点vn的负采样分布期望值,节点vn为节点集合V中的第n个节点。
在本发明一实施例中,其中,步骤S4具体为:
设人员主题库网络为节点属性网络G=(V,E,X),其中,V为人员主题库网络中的节点集,且V={v1,v2,…,v|V|},|V|为属性网络中的节点总数;E为人员主题库网络中链接集,且eij∈E表示节点vi与节点vj之间的链接关系;对于属性网络G中的每个节点vi∈V都伴随一个n维的属性向量xi,向量矩阵X={x1,x2,…,x|V|}∈Rn×|V|包含所有节点的属性信息,其中Rn ×|V|为|V|个节点包含的n维向量的集合;在人员主题库网络中,进行基于网络结构的节点特征学习,具体为:
步骤S401:将邻接矩阵S(也可称为直接关系矩阵)作为自动编码器的输入矩阵,其中,邻接矩阵S表示网络中节点与节点之间的直接关系(同行、好友、同住、邻居等),S的第i行第j列Si,j表示点vi与节点vj之间的直接关系;
设隐含层的总层数为M,以Hm(S)表示第m层隐含层的输出,以
Figure BDA0003389653500000053
表示第m层隐含层的转换矩阵,以
Figure BDA0003389653500000054
表示第m层隐含层的偏置矩阵,m=1,2,……M且
Figure BDA0003389653500000055
步骤S402:通过深度自动编码器进行编码,基于第m-1层隐含层的输出Hm-1(S),通过式(3)计算第m层隐含层的输出Hm(S),
Figure BDA0003389653500000056
式中,σ(·)为激活函数,当m=1时,令Hm-1(S)=S;
步骤S403:通过深度自动编码器进行解码,得到节点与节点之间的预测关系矩阵
Figure BDA0003389653500000057
Figure BDA0003389653500000058
其中,f(·)为激活函数,
Figure BDA0003389653500000059
表示第M层隐含层转换矩阵,
Figure BDA0003389653500000061
表示第M层隐含层偏置矩阵;
步骤S404:通过式(4)计算损失函数Ls
Figure BDA0003389653500000062
其中,
Figure BDA0003389653500000063
分别为深度自动编码器输出矩阵
Figure BDA0003389653500000064
中第i行、第j列;
步骤S405:基于网络结构的节点特征向量由(m+1)/2层隐含层获得,则节点vi的节点特征向量即为结构特征向量
Figure BDA0003389653500000065
表示为
Figure BDA0003389653500000066
在本发明一实施例中,其中,步骤S5具体为:
步骤S501:对于人员主题库属性网络G,所有节点属性向量矩阵X作为属性信息矩阵,根据杰卡德相似系数求出节点之间的属性关系矩阵T,节点vi与节点vj的属性相似度Ti,j表示为
Figure BDA0003389653500000067
其中,xi,xj分别节点vi与节点vj的属性向量,并采用独热编码表示;
步骤S502:通过深度自动编码器基于人员主题库属性关系学习出节点的属性特征向量,并通过式(5)计算最终的损失函数LT
Figure BDA0003389653500000068
其中,
Figure BDA0003389653500000069
分别为深度自动编码器输出矩阵
Figure BDA00033896535000000610
中第i行、第j列,Wt为基于节点属性的训练过程中隐含层的转换矩阵;bt为基于节点属性的训练过程中隐含层的偏置矩阵;
步骤S503:基于节点属性的节点特征向量可由(m+1)/2层隐含层获得,则节点vi的节点属性特征向量
Figure BDA00033896535000000611
表示为
Figure BDA00033896535000000612
在本发明一实施例中,其中,步骤S6具体为:
步骤S601:将基于网络结构的节点特征向量与基于节点属性的节点特征向量拼接形成人员节点画像库,得到节点的人员主题库全局特征向量,其中,节点vi的人员主题库全局特征向量ei表示为
Figure BDA0003389653500000071
步骤S602:通过式(6)的相似度质量函数计算节点vi与节点vj的关系,
sim(vi,vj)=-||ei-ej||2 (6)
式中,ei、ej分别为节点vi、节点vj的全局特征向量;
步骤S603:根据步骤S4和步骤S5得到整体损失函数为:
Figure BDA0003389653500000072
其中,Lreg为正则化部分,训练采用l2归一化方法,λ1、λ2、λ3为权重参数,即λ1、λ2、λ3分别是由与其对应相乘的变量所引起的约束条件变化时,对目标函数最优值L影响的度量。
在本发明一实施例中,其中,网络节点集包括手机号、身份证号、住址门牌信息、微信号。
在本发明一实施例中,其中,节点之间的关系包括同行关系、同住关系、好友关系、邻居关系。
在本发明一实施例中,其中,属性向量包括好友数、住址、活跃地、出行。
与现有技术相比,本发明通过面向人员主题库属性网络图,提出了基于随机游走的表示学习模型,训练得到的节点与属性向量能够保留人员主题库原始网络图的结构完整性与属性完整性。并利用深度自动编码器模型对人员主题库节点属性网络特征学习问题进行优化,相比于传统特征学习模型可以学出更丰富的节点特征。通过基于属性网络表示学习的链接预测模型,综合考虑节点属性和网络结构信息,将网络中每一个节点都映射到一个低维向量空间,并且在此空间内保持原有图的结构信息或属性信息。该模型可以针对数据稀疏的特点,更好地实现链接预测,通过链路预测不断丰富节点关系属性信息,能够得到精准的节点特征描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的流程图;
图2为本发明步骤S4所采用的ANE-LP模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例的流程图,如图1所示,本实施例提供了一种基于动态网络属性表示的链接预测方法,其包括以下步骤:
步骤S1:在关系网络数据集基础上,动态生成人员主题库网络数据新链接,并按时间戳对节点新产生的链接进行排序得到链接序列;
由人员主题库关联形成的网状数据,随时间动态演化的网络可以看做在不同时刻下的静态网络。若当前时刻为t时刻,则此时的人员主题库网络用G(Vt,Et,t)表示,其中Vt为t时刻的人员节点集合,Et为t时刻的属性关系边集合,t为对应的时间戳。随着时间的推移,人员主题网络中的人员节点会不断地与网络中的其他节点建立新的节点关系链接,例如同行关系链接、同住关系链接等,这些新链接会改变当前节点已有的属性信息。新增人员节点链接的建立顺序以及他们建立的时间间隔对当前人员节点属性特征的变化也有着非常重要的影响。按照时间戳对节点v新产生的链接进行排序得到链接序列Sv={(v,vi,t0),(v,vi,t1),…(v,vitn)},其中(v,vi,t)表示t时刻人员节点v与vi之间新建立的链接,vi∈Nv表示节点v的一阶邻域节点,Nv表示节点v的一阶邻域节点集合;t0,t1,……tn表示不同关系链接建立的时间戳,且t0<t1<…<tn。在链接序列Sv中,人员关系链接建立的时间越晚,序列的排序越靠后,则对节点v属性变化的影响越大。新链接之间的时间间隔Δt即链接序列Sv里两个相邻节点新链接((v,vi,t-x)与(v,vi,t))之间的时间戳之差的绝对值,Δt=|t-(t-x)|。其形式化定义如下:给定一个链接序列Sv={(v,vi,t0),(v,vi,t1),…(v,vi,tn)},新链接之间的时间间隔Δt定义为:在链接序列Sv中,链接(t,ti,t-x)建立的时间戳t-x与其后一个链接(v,vi,t)建立的时间戳t的差的绝对值|t-(t-x)|,即Δt=|t-(t-x)|。时间间隔Δt的值越大则次序较后建立的链接关系对节点属性变化的影响越大。
步骤S2:采用基于连接强度的随机游走算法对人员主题库网络节点信息进行扩散,形成网络模型;
当主题网络中有新信息产生时,例如产生新节点vj,则节点vi,vj之间的新增链接(如同行关系、同住关系等)不仅会对链接两端的节点产生影响,同时也会影响与vi,vj距离较近的其他节点。因此,通过对产生新链接的人员节点(如身份证号、手机号等身份识别信息)进行邻域采样来模拟新增信息在网络中的扩散过程,用以后对采样到的邻域人员节点进行信息更新。在人员节点邻域采样的过程中,模型采用基于连接强度的随机游走算法。通过把人员节点间的连接强度作为随机游走中的边的权重概率分布,对目标人员节点进行加权随机游走采样,从而得到人员节点vi,vj的局部邻域,其具体过程如下:
步骤S201:当产生新增人员节点时,新增链接eij∈Enew,其中Enew为新增链接的集合;
步骤S202:当与新增链接相关联的一个人员节点v在新增链接eij上时,其随机游走的长度m的初始值为0,即m=0;
步骤S203:在人员节点v随机游走的过程中,当其随机游走的长度m<L时,初始化对应边的权重概率分布P,其中L为预设的随机游走序列的最大长度;
步骤S204:当人员节点v的任意一阶邻居节点u在人员节点v的一阶邻居节点集合Nv中时,通过式(1)计算人员节点v与其任一邻域节点间的连接强度
Figure BDA0003389653500000101
并将连接强度
Figure BDA0003389653500000102
作为对应边的权重概率分布P,其中
Figure BDA0003389653500000103
式中,uv为人员节点v的属性维度表示向量,vi为人员节点v的邻域节点,uvi为邻域节点vi的属性维度表示向量;在本实施例中,可以将连接强度
Figure BDA0003389653500000104
看作一个归一化后的概率值,并根据该概率值来选择目标节点信息在下一时刻所要扩散到的节点,以此进行信息的扩散。
步骤S205:重复步骤S204直至完成所有节点间边的权重概率分布P的计算;
步骤S206:根据每一边的权重概率分布P值选择下一个节点u’,并将u’加入人员节点v的随机游走结果集合Rv中,同时将此时的随机游走的长度m加1,即m=m+1;将人员节点v替换为节点u’,以此完成一个相关节点的邻域采样;
步骤S207:重复步骤S206直至完成所有相关节点的邻域采样;
步骤S208:将每次得到的随机游走结果集合Rv加入随机游走序列R中,完成人员主题库网络节点的信息扩散。
本实施例通过基于连接强度的随机游走算法,找到相关节点的局部邻域Rv,Rv是一个有序的随机游走序列,越靠前的节点越容易从相关节点到达,从而刻画出相关节点信息的扩散过程。
步骤S3:采用梯度下降法对网络模型的节点向量参数进行更新;
在本实施例中,其中,为了在无监督方式下进行参数学习,网络模型将输出的人员节点表示向量hv应用于基于图的损失函数,其中v∈V,V为网络中人员节点集合,并采用梯度下降法对网络模型的参数进行更新。在基于图的损失函数中假设相互连接的节点有着相似的网络节点表示向量,按照式(2)计算损失函数J(hv),
Figure BDA0003389653500000111
式中,
Figure BDA0003389653500000112
为节点v和节点u之间存在链接的概率,Pn(v)为负采阵分布,Q为负采样的数量,
Figure BDA0003389653500000113
为节点vn的负采样分布期望值,节点vn为节点集合V中的第n个节点。
本实施例通过上述损失函数习得的网络表示包含了各网络节点之间的交互信息,可以直接用于后续的链接预测任务。
步骤S4:通过属性网络链接预测算法(ANE-LP)对人员主题库网络进行基于网络结构的节点特征学习;
图2为本发明步骤S4所采用的ANE-LP模型示意图,如图2所示,本实施例所采用的属性网络链接预测算法即ANE-LP的模型是对应与节点属性网络的。主要包括基于网络结构的节点特征学习、基于节点属性的节点特征学习、融合节点结构特征及属性特征进行特征向量训练,最后将学到的特征向量应用于链接预测任务中。图中Si表示节点vi与所有节点之间的结构联系,Ti表示节点vi与所有节点之间的属性联系,n1,n2,n3……表示网络中的不同节点,0.1、0.5、0.3用于示意属性网络中节点属性之间的相似系数。
在本实施例中,其中,步骤S4具体为:
设人员主题库网络为节点属性网络G=(V,E,X),其中,V为人员主题库网络中的节点集,且V={v1,v2,…,v|V|},|V|为属性网络中的节点总数;E为人员主题库网络中链接集,且eij∈E表示节点vi与节点vj之间的链接关系;对于属性网络G中的每个节点vi∈V都伴随一个n维的属性向量xi,向量矩阵X={x1,x2,…,x|V|}∈Rn×|V|包含所有节点的属性信息,其中Rn ×|V|为|V|个节点包含的n维向量的集合;
在本实施例中,其中,网络节点集包括手机号、身份证号、住址门牌信息、微信号等。
在本实施例中,其中,节点vi与节点vj之间的链接关系包括同行关系、同住关系、好友关系、邻居关系等。
在本实施例中,其中,属性向量包括好友数、住址、活跃地、出行等。
在人员主题库网络中,进行基于网络结构的节点特征学习,具体为:
步骤S401:将邻接矩阵S(也可称为直接关系矩阵)作为自动编码器的输入矩阵,其中,邻接矩阵S表示网络中节点与节点之间的直接关系(同行、好友、同住、邻居等),S的第i行第j列Si,j表示点vi与节点vj之间的直接关系;
设隐含层的总层数为M,以Hm(S)表示第m层隐含层的输出,以
Figure BDA0003389653500000121
表示第m层隐含层的转换矩阵,以
Figure BDA0003389653500000122
表示第m层隐含层的偏置矩阵,m=1,2,……M且
Figure BDA0003389653500000123
步骤S402:通过深度自动编码器进行编码,基于第m-1层隐含层的输出Hm-1(S),通过式(3)计算第m层隐含层的输出Hm(S),
Figure BDA0003389653500000124
式中,σ(·)为激活函数,当m=1时,令Hm-1(S)=S;
步骤S403:通过深度自动编码器进行解码,得到节点与节点之间的预测关系矩阵
Figure BDA0003389653500000125
Figure BDA0003389653500000126
其中,f(·)为激活函数,
Figure BDA0003389653500000127
表示第M层隐含层转换矩阵,
Figure BDA0003389653500000128
表示第M层隐含层偏置矩阵;
步骤S404:通过式(4)计算损失函数Ls
Figure BDA0003389653500000129
其中,
Figure BDA0003389653500000131
分别为深度自动编码器输出矩阵
Figure BDA0003389653500000132
中第i行、第j列;
步骤S405:基于网络结构的节点特征向量由(m+1)/2层隐含层获得,则节点vi的节点特征向量即为结构特征向量
Figure BDA0003389653500000133
表示为
Figure BDA0003389653500000134
本实施例采用的深度自动编码器是一种无监督模型,训练过程可以简单分为编码和解码。通过反向传播算法训练网络,使得模型输出数据尽可能等于输入数据。
步骤S5:通过属性网络链接预测算法(ANE-LP)对人员主题库网络进行基于节点属性的节点特征学习;
在本实施例中,其中,步骤S5具体为:
步骤S501:对于人员主题库属性网络G(包括各个节点之间的属性关系,邻居、好友等),所有节点属性向量矩阵X作为属性信息矩阵,根据杰卡德相似系数求出节点之间的属性关系矩阵T,节点vi与节点vj的属性相似度Ti,j表示为
Figure BDA0003389653500000135
其中,xi,xj分别节点vi与节点vj的属性向量,并采用独热编码表示;本实施例中将属性向量xi,xj当作0、1的数据集合,以便于计算杰卡德相似系数。
步骤S502:通过深度自动编码器基于人员主题库属性关系学习出节点的属性特征向量(如好友数、住址、活跃地、出行等),并通过式(5)计算最终的损失函数LT
Figure BDA0003389653500000136
其中,
Figure BDA0003389653500000137
分别为深度自动编码器输出矩阵
Figure BDA0003389653500000138
中第i行、第j列,Wt为基于节点属性的训练过程中隐含层的转换矩阵;bt为基于节点属性的训练过程中隐含层的偏置矩阵;在本实施例中,基于节点属性的训练过程与步骤S402~S404的基于网络结构的节点特征学习类似,在此不做赘述。
步骤S503:基于节点属性的节点特征向量可由(m+1)/2层隐含层获得,则节点vi的节点属性特征向量
Figure BDA0003389653500000141
表示为
Figure BDA0003389653500000142
步骤S6:将基于网络结构的节点特征与基于节点属性的节点特征进行特征融合及属性网络链接预测。
基于步骤S4及步骤S5,可以得到基于人员主题库网络结构的节点特征向量和基于人员主题库节点属性的节点特征向量。类似LINE中的方法,ANE-LP通过将2个特征向量拼接实现对结构特征向量和属性特征向量的聚合形成人员节点画像库,在本实施例中,其中,步骤S6具体为:
步骤S601:将基于网络结构的节点特征向量与基于节点属性的节点特征向量拼接形成人员节点画像库,得到节点的人员主题库全局特征向量,其中,节点vi的人员主题库全局特征向量ei表示为
Figure BDA0003389653500000143
步骤S602:通过式(6)的相似度质量函数计算节点vi与节点vj的关系,
sim(vi,vj)=-||ei-ej||2 (6)
式中,ei、ej分别为节点vi、节点vj的全局特征向量;
步骤S603:根据步骤S4和步骤S5得到整体损失函数为:
Figure BDA0003389653500000144
其中,Lreg为正则化部分,在本实施例中,为防止过拟合,训练采用l2归一化方法,λ1、λ2、λ3为权重参数,即λ1、λ2、λ3分别是由与其对应相乘的变量所引起的约束条件变化时,对目标函数最优值L影响的度量,或者说表示了最优值的“灵敏度”,因此此处可以将其定义为权重参数。
通过随机梯度下降法调整参数对目标函数进行优化求解,使得L值达到最小,在求多元函数的条件极值时,通常使用Langrange乘数法,但在求解时,一般在都不直接给出参数λ的值,往往把参数λ看成是求可能极值点的“媒介”“桥梁”或“润滑剂”等,而常认为参数λ对问题本身没有什么含义。
本发明通过面向人员主题库属性网络图,提出了基于随机游走的表示学习模型,训练得到的节点与属性向量能够保留人员主题库原始网络图的结构完整性与属性完整性。利用深度自动编码器模型对人员主题库节点属性网络特征学习问题进行优化,相比于传统特征学习模型可以学出更丰富的节点特征,如可在主题库已有信息的基础上增加邻居关系、亲属关系、共同好友关系等。提出一个基于属性网络表示学习的链接预测模型,综合考虑节点属性和网络结构信息。将网络中每一个节点都映射到一个低维向量空间,并且在此空间内保持原有图的结构信息或属性信息。该模型可以针对数据稀疏的特点,更好地实现链接预测。
与现有技术相比,本发明提出的随机游走算法模型不仅学习了人员主题库网络中的动态信息,还考虑了其对邻居节点的影响以及时间间隔对信息更新的影响。提出的属性网络表示方法链接预测模型采用了多层神经网络对稀疏数据进行深度挖掘学习网络节点深度非线性特征关系,同时考虑了主题库中网络节点的属性信息,在主题库形成过程中,会遇到各式各样的数据资源,存储的方式和字段含义各不相同,以住址举例,比如一张表里A住址字段内容为“XX小区5栋”,而B住址字段内容为“XX小区6栋”,则据此可推断出A\B为邻居关系,同时,若B与C为邻居关系,可推断出ABC为邻居关系,丰富节点表示,扩充人员主题库构建过程中的属性维度。通过链路预测不断丰富节点关系属性信息,得到了精准的节点特征描述。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种基于动态网络属性表示的链接预测方法,其特征在于,包括以下步骤:
步骤S1:在关系网络数据集基础上,动态生成人员主题库网络数据新链接,并按时间戳对节点新产生的链接进行排序得到链接序列;
步骤S2:采用基于连接强度的随机游走算法对人员主题库网络节点信息进行扩散,形成网络模型;
步骤S3:采用梯度下降法对网络模型的节点向量参数进行更新;
步骤S4:通过属性网络链接预测算法对人员主题库网络进行基于网络结构的节点特征学习;
步骤S5:通过属性网络链接预测算法对人员主题库网络进行基于节点属性的节点特征学习;
步骤S6:将基于网络结构的节点特征与基于节点属性的节点特征进行特征融合及属性网络链接预测。
2.根据权利要求1所述的链接预测方法,其特征在于,步骤S1具体为:
若当前时刻为t时刻,则此时的人员主题库网络用G(Vt,Et,t)表示,其中Vt为t时刻的人员节点集合,Et为t时刻的属性关系边集合,t为对应的时间戳;
按照时间戳对节点v新产生的链接进行排序得到链接序列Sv={(v,vi,t0),(v,vi,t1),…(v,vi,tn)},其中(v,vi,t)表示t时刻人员节点v与vi之间新建立的链接,vi∈Nv表示节点v的一阶邻域节点,Nv表示节点v的一阶邻域节点集合;t0,t1,……tn表示不同关系链接建立的时间戳,且t0<t1<…<tn
3.根据权利要求2所述的链接预测方法,其特征在于,步骤S2具体为:
步骤S201:当产生新增人员节点时,新增链接eij∈Enew,其中Enew为新增链接的集合;
步骤S202:当与新增链接相关联的一个人员节点v在新增链接eij上时,其随机游走的长度m的初始值为0;
步骤S203:在人员节点v随机游走的过程中,当其随机游走的长度m<L时,初始化对应边的权重概率分布P,其中L为预设的随机游走序列的最大长度;
步骤S204:当人员节点v的任意一阶邻居节点u在人员节点v的一阶邻居节点集合Nv中时,通过式(1)计算人员节点v与其任一邻域节点间的连接强度
Figure FDA0003389653490000021
并将连接强度
Figure FDA0003389653490000022
作为对应边的权重概率分布P,其中
Figure FDA0003389653490000023
式中,uv为人员节点v的属性维度表示向量,vi为人员节点v的邻域节点,uvi为邻域节点vi的属性维度表示向量;
步骤S205:重复步骤S204直至完成所有节点间边的权重概率分布P的计算;
步骤S206:根据每一边的权重概率分布P值选择下一个节点u’,并将u’加入人员节点v的随机游走结果集合Rv中,同时将此时的随机游走的长度m加1,即m=m+1;将人员节点v替换为节点u’,以此完成一个相关节点的邻域采样;
步骤S207:重复步骤S206直至完成所有相关节点的邻域采样;
步骤S208:将每次得到的随机游走结果集合Rv加入随机游走序列R中,完成人员主题库网络节点的信息扩散。
4.根据权利要求3所述的链接预测方法,其特征在于,步骤S3具体为:
网络模型将输出的人员节点表示向量hv应用于基于图的损失函数,其中v∈V,V为网络中节点集合,并采用梯度下降法对网络模型的参数进行更新,其中,在基于图的损失函数中假设相互连接的节点有着相似的网络节点表示向量,按照式(2)计算损失函数J(hv),
Figure FDA0003389653490000031
式中,
Figure FDA0003389653490000032
为节点v和节点u之间存在链接的概率,Pn(v)为负采样分布,Q为负采样的数量,
Figure FDA0003389653490000033
为节点vn的负采样分布期望值,节点vn为节点集合V中的第n个节点。
5.根据权利要求4所述的链接预测方法,其特征在于,步骤S4具体为:
设人员主题库网络为节点属性网络G=(V,E,X),其中,V为人员主题库网络中的节点集,且V={v1,v2,...,v|V|},|V|为属性网络中的节点总数;E为人员主题库网络中链接集,且eij∈E表示节点vi与节点vj之间的链接关系;对于属性网络G中的每个节点vi∈V都伴随一个n维的属性向量xi,向量矩阵X={x1,x2,...,x|V|}∈Rn×|V|包含所有节点的属性信息,其中Rn ×|V|为|V|个节点包含的n维向量的集合;在人员主题库网络中,进行基于网络结构的节点特征学习,具体为:
步骤S401:将邻接矩阵S(也可称为直接关系矩阵)作为自动编码器的输入矩阵,其中,邻接矩阵S表示网络中节点与节点之间的直接关系(同行、好友、同住、邻居等),S的第i行第j列Si,j表示点vi与节点vj之间的直接关系;
设隐含层的总层数为M,以Hm(S)表示第m层隐含层的输出,以Ws m表示第m层隐含层的转换矩阵,以
Figure FDA0003389653490000034
表示第m层隐含层的偏置矩阵,m=1,2,……M且
Figure FDA0003389653490000035
步骤S402:通过深度自动编码器进行编码,基于第m-1层隐含层的输出Hm-1(S),通过式(3)计算第m层隐含层的输出Hm(S),
Figure FDA0003389653490000036
式中,σ(·)为激活函数,当m=1时,令Hm-1(S)=S;
步骤S403:通过深度自动编码器进行解码,得到节点与节点之间的预测关系矩阵
Figure FDA0003389653490000041
Figure FDA0003389653490000042
其中,f(·)为激活函数,
Figure FDA0003389653490000043
表示第M层隐含层转换矩阵,
Figure FDA0003389653490000044
表示第M层隐含层偏置矩阵;
步骤S404:通过式(4)计算损失函数Ls
Figure FDA0003389653490000045
其中,
Figure FDA0003389653490000046
分别为深度自动编码器输出矩阵
Figure FDA0003389653490000047
中第i行、第j列;
步骤S405:基于网络结构的节点特征向量由(m+1)/2层隐含层获得,则节点vi的节点特征向量即为结构特征向量
Figure FDA0003389653490000048
表示为
Figure FDA0003389653490000049
6.根据权利要求5所述的链接预测方法,其特征在于,步骤S5具体为:
步骤S501:对于人员主题库属性网络G,所有节点属性向量矩阵X作为属性信息矩阵,根据杰卡德相似系数求出节点之间的属性关系矩阵T,节点vi与节点vj的属性相似度Ti,j表示为
Figure FDA00033896534900000410
其中,xi,xj分别节点vi与节点vj的属性向量,并采用独热编码表示;
步骤S502:通过深度自动编码器基于人员主题库属性关系学习出节点的属性特征向量,并通过式(5)计算最终的损失函数LT
Figure FDA00033896534900000411
其中,
Figure FDA00033896534900000412
分别为深度自动编码器输出矩阵
Figure FDA00033896534900000413
中第i行、第j列,Wt为基于节点属性的训练过程中隐含层的转换矩阵;bt为基于节点属性的训练过程中隐含层的偏置矩阵;
步骤S503:基于节点属性的节点特征向量可由(m+1)/2层隐含层获得,则节点vi的节点属性特征向量
Figure FDA0003389653490000051
表示为
Figure FDA0003389653490000052
7.根据权利要求6所述的链接预测方法,其特征在于,步骤S6具体为:
步骤S601:将基于网络结构的节点特征向量与基于节点属性的节点特征向量拼接形成人员节点画像库,得到节点的人员主题库全局特征向量,其中,节点vi的人员主题库全局特征向量ei表示为
Figure FDA0003389653490000053
步骤S602:通过式(6)的相似度质量函数计算节点vi与节点vj的关系,
sim(vi,vj)=-||Ei-ej||2 (6)
式中,ei、ej分别为节点vi、节点vj的全局特征向量;
步骤S603:根据步骤S4和步骤S5得到整体损失函数为:
Figure FDA0003389653490000054
其中,Lreg为正则化部分,训练采用l2归一化方法,λ1、λ2、λ3为权重参数,即λ1、λ2、λ3分别是由与其对应相乘的变量所引起的约束条件变化时,对目标函数最优值L影响的度量。
8.根据权利要求6所述的链接预测方法,其特征在于,网络节点集包括手机号、身份证号、住址门牌信息、微信号。
9.根据权利要求6所述的链接预测方法,其特征在于,节点之间的关系包括同行关系、同住关系、好友关系、邻居关系。
10.根据权利要求6所述的链接预测方法,其特征在于,属性向量包括好友数、住址、活跃地、出行。
CN202111460275.XA 2021-12-02 一种基于动态网络属性表示的链接预测方法 Active CN114154024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111460275.XA CN114154024B (zh) 2021-12-02 一种基于动态网络属性表示的链接预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111460275.XA CN114154024B (zh) 2021-12-02 一种基于动态网络属性表示的链接预测方法

Publications (2)

Publication Number Publication Date
CN114154024A true CN114154024A (zh) 2022-03-08
CN114154024B CN114154024B (zh) 2024-08-02

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216886A (zh) * 2023-11-09 2023-12-12 中国空气动力研究与发展中心计算空气动力研究所 一种基于扩散模型的飞行器气动布局反设计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101629A (zh) * 2018-08-14 2018-12-28 合肥工业大学 一种基于深度网络结构和节点属性的网络表示方法
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
US20200074246A1 (en) * 2018-09-05 2020-03-05 Siemens Aktiengesellschaft Capturing network dynamics using dynamic graph representation learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101629A (zh) * 2018-08-14 2018-12-28 合肥工业大学 一种基于深度网络结构和节点属性的网络表示方法
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
US20200074246A1 (en) * 2018-09-05 2020-03-05 Siemens Aktiengesellschaft Capturing network dynamics using dynamic graph representation learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩忠明;李胜男;郑晨烨;段大高;杨伟杰;: "基于动态网络表示的链接预测", 物理学报, no. 16, 31 December 2020 (2020-12-31) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216886A (zh) * 2023-11-09 2023-12-12 中国空气动力研究与发展中心计算空气动力研究所 一种基于扩散模型的飞行器气动布局反设计方法
CN117216886B (zh) * 2023-11-09 2024-04-05 中国空气动力研究与发展中心计算空气动力研究所 一种基于扩散模型的飞行器气动布局反设计方法

Similar Documents

Publication Publication Date Title
CN111368074B (zh) 一种基于网络结构和文本信息的链路预测方法
CN110347932B (zh) 一种基于深度学习的跨网络用户对齐方法
CN111950708B (zh) 一种发现大学生日常生活习惯的神经网络结构与方法
CN111709474A (zh) 一种融合拓扑结构和节点属性的图嵌入链路预测方法
CN111125530A (zh) 一种基于多类型特征深度学习的信息流推荐方法
CN113095948B (zh) 一种基于图神经网络的多源异构网络用户对齐方法
CN114265986B (zh) 一种融合知识图谱结构与路径语义的信息推送方法和系统
CN111325340B (zh) 信息网络关系预测方法及系统
CN114547325B (zh) 一种概率超图驱动的地学知识图谱推理优化系统和方法
US20240086731A1 (en) Knowledge-graph extrapolating method and system based on multi-layer perception
CN113434782B (zh) 基于联合嵌入学习模型的跨社交网络用户身份识别方法
CN112561031A (zh) 基于人工智能的模型搜索方法、装置及电子设备
CN115470994B (zh) 基于显式时间和级联注意力的信息流行度预测方法和系统
CN115629160A (zh) 一种基于时空图的空气污染物浓度预测方法及系统
CN112446489A (zh) 基于变分自编码器的动态网络嵌入链接预测方法
CN115952424A (zh) 一种基于多视图结构的图卷积神经网络聚类方法
CN116630777A (zh) 一种信息瓶颈图压缩的医疗指标缺失数据补全方法
CN114154024A (zh) 一种基于动态网络属性表示的链接预测方法
CN114154024B (zh) 一种基于动态网络属性表示的链接预测方法
Cheng et al. User alignment via structural interaction and propagation
CN115169521A (zh) 一种保持预测顺序和结构依赖关系的图神经网络解释方法
Liu et al. Spatiotemporal adaptive attention graph convolution network for city-level air quality prediction
Liao [Retracted] Development and Utilization of English Online Course Resources Based on Fuzzy Neural Network
CN117133116B (zh) 一种基于时空关联网络的交通流预测方法及系统
Kerrache et al. A complex network based graph embedding method for link prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant