CN114154024B - 一种基于动态网络属性表示的链接预测方法 - Google Patents
一种基于动态网络属性表示的链接预测方法 Download PDFInfo
- Publication number
- CN114154024B CN114154024B CN202111460275.XA CN202111460275A CN114154024B CN 114154024 B CN114154024 B CN 114154024B CN 202111460275 A CN202111460275 A CN 202111460275A CN 114154024 B CN114154024 B CN 114154024B
- Authority
- CN
- China
- Prior art keywords
- node
- network
- attribute
- personnel
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 80
- 238000005295 random walk Methods 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000011478 gradient descent method Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 6
- 238000009792 diffusion process Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000314 lubricant Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于动态网络属性表示的链接预测方法,其包括:步骤S1:在关系网络数据集基础上,动态生成人员主题库网络数据新链接,并按时间戳对节点新产生的链接进行排序得到链接序列;步骤S2:采用基于连接强度的随机游走算法对人员主题库网络节点信息进行扩散,形成网络模型;步骤S3:采用梯度下降法对网络模型的节点向量参数进行更新;步骤S4:通过属性网络链接预测算法对人员主题库网络进行基于网络结构的节点特征学习;步骤S5:通过属性网络链接预测算法对人员主题库网络进行基于节点属性的节点特征学习;步骤S6:将基于网络结构的节点特征与基于节点属性的节点特征进行特征融合及属性网络链接预测。
Description
技术领域
本发明涉及数据处理技术,具体而言,涉及一种基于动态网络属性表示的链接预测方法。
背景技术
人员主题库是在较高层次上将信息系统中的数据进行综合、归类和分析利用的一个抽象概念。在人员主题库的构建过程中,存在大量不同维度的关系数据,其关系纷繁复杂。将纷繁复杂的数据关联成网状结构进行链式预测,从而对隐藏信息进行挖掘可大大提高信息利用率。链接预测是网络分析中一个重要的应用,链接预测主要是基于已知的网络预测网络中隐藏的链路,或者基于现在的网络预测未来即将产生的链路,从而可以从多角度、多侧面、多层次的获取信息,以丰富人员主题库信息。传统的链接预测方法主要是基于节点相似性进行的。处理链接预测的关键步骤在于从网络数据中获取已知的链接关系信息,设计合理的链接预测模型。在社会网络或其他复杂网络数据中,根据网络数据信息可将链接关系转化为有向图或无向图,图中的顶点集用来表示网络节点,而边集则表示连接关系存在的可能性,对网络数据的分析,便可以构造模型通过机器学习算法进行预测,为了提高机器学习算法的学习和预测效果,构造模型的过程需要进行数据的内在结构分析,充分利用网络数据源中数据的相关信息。
网络数据最大特点是数据极其稀疏且结构极其复杂,人员主题库中的关系网络数据是指根据各主体之间的连接关系(如好友关系、同住关系、同户关系、同行关系等)形成的关系网络数据。传统链接预测算法不能很好地从人员主题网数据中学习有价值的信息,从而不能很好适应大数据时代对链接预测任务在算法效率和精度方面的更高要求。例如中国专利CN112184468A公开了一种基于时空关系的动态社会关系网络链路预测方法,该方法包括获取动态社会关系数据,并进行预处理生成样本集;对样本集中的任意节点构建加权相似性特征时间序列;基于加权相似性特征时间序列,采用预设算法计算待预测时刻下的任意节点对的特征值以构建特征矩阵;将特征矩阵输入预先训练的分类模型中,输出待预测时刻下的动态社会关系网络的可能链路。该方法在网络拓扑结构特征和链路生成时序信息的基础上建立了动态网络的特征时间序列,将预测方法从静态网络扩展到动态时变网络。
现有的研究方法大多只考虑了发生变化的节点本身的信息变化情况,而没有关注节点邻域所受到的影响。但实际人员主题库中的关系网络往往是由大量节点、节点属性以及节点之间复杂链接关系共同构成的网络结构。并且现有方法大多仅考虑了均匀间隔的时间间隔,而忽视了不同时间间隔对节点偏好信息的影响。
发明内容
为了解决现有技术的不足,本发明提供一种基于动态网络属性表示的链接预测方法,是一种能够有效提取人员主题关系网络结构信息和节点属性信息的方法,用以将数据中的各种关系抽象为关系网络。首先对网络中不均匀的动态信息进行了学习,提出了基于连接强度的随机游走算法来模拟动态信息在网络中的扩散,从而得到新时刻下的节点表示,如通过人员住址信息得出邻居关系,通过好友关系得出共同好友,通过亲属关系对人节点属性进行丰富等;通过深度网络结构将网络中各节点表征到低维、稠密向量空间;然后通过相似度度量模型重新定义丰富网络中邻居节点间的关系,从而梳理人员主题库中相关人员的关联关系。
为达到上述目的,本发明提供了一种基于动态网络属性表示的链接预测方法,其包括以下步骤:
步骤S1:在关系网络数据集基础上,动态生成人员主题库网络数据新链接,并按时间戳对节点新产生的链接进行排序得到链接序列;
步骤S2:采用基于连接强度的随机游走算法对人员主题库网络节点信息进行扩散,形成网络模型;
步骤S3:采用梯度下降法对网络模型的节点向量参数进行更新;
步骤S4:通过属性网络链接预测算法对人员主题库网络进行基于网络结构的节点特征学习;
步骤S5:通过属性网络链接预测算法对人员主题库网络进行基于节点属性的节点特征学习;
步骤S6:将基于网络结构的节点特征与基于节点属性的节点特征进行特征融合及属性网络链接预测。
在本发明一实施例中,其中,步骤S1具体为:
若当前时刻为t时刻,则此时的人员主题库网络用G(Vt,Et,t)表示,其中Vt为t时刻的人员节点集合,Et为t时刻的属性关系边集合,t为对应的时间戳;
按照时间戳对节点v新产生的链接进行排序得到链接序列Sv={(v,vi,t0),(v,vi,t1),…(v,vi,tn)},其中(v,vi,t)表示t时刻人员节点v与vi之间新建立的链接,vi∈Nv表示节点v的一阶邻域节点,Nv表示节点v的一阶邻域节点集合;t0,t1,……tn表示不同关系链接建立的时间戳,且t0<t1<…<tn。
在本发明一实施例中,其中,步骤S2具体为:
步骤S201:当产生新增人员节点时,新增链接eij∈Enew,其中Enew为新增链接的集合;
步骤S202:当与新增链接相关联的一个人员节点v在新增链接eij上时,其随机游走的长度m的初始值为0;
步骤S203:在人员节点v随机游走的过程中,当其随机游走的长度m<L时,初始化对应边的权重概率分布P,其中L为预设的随机游走序列的最大长度;
步骤S204:当人员节点v的任意一阶邻居节点u在人员节点v的一阶邻居节点集合Nv中时,通过式(1)计算人员节点v与其任一邻域节点间的连接强度并将连接强度作为对应边的权重概率分布P,其中
式中,uv为人员节点v的属性维度表示向量,vi为人员节点v的邻域节点,uvi为邻域节点vi的属性维度表示向量;
步骤S205:重复步骤S204直至完成所有节点间边的权重概率分布P的计算;
步骤S206:根据每一边的权重概率分布P值选择下一个节点u’,并将u’加入人员节点v的随机游走结果集合Rv中,同时将此时的随机游走的长度m加1,即m=m+1;将人员节点v替换为节点u’,以此完成一个相关节点的邻域采样;
步骤S207:重复步骤S206直至完成所有相关节点的邻域采样;
步骤S208:将每次得到的随机游走结果集合Rv加入随机游走序列R中,完成人员主题库网络节点的信息扩散。
在本发明一实施例中,其中,步骤S3具体为:
网络模型将输出的人员节点表示向量hv应用于基于图的损失函数,其中v∈V,V为网络中节点集合,并采用梯度下降法对网络模型的参数进行更新,其中,在基于图的损失函数中假设相互连接的节点有着相似的网络节点表示向量,按照式(2)计算损失函数J(hv),
式中,为节点v和节点u之间存在链接的概率,Pn(v)为负采样分布,Q为负采样的数量,为节点vn的负采样分布期望值,节点vn为节点集合V中的第n个节点。
在本发明一实施例中,其中,步骤S4具体为:
设人员主题库网络为节点属性网络G=(V,E,X),其中,V为人员主题库网络中的节点集,且V={v1,v2,…,v|V|},|V|为属性网络中的节点总数;E为人员主题库网络中链接集,且eij∈E表示节点vi与节点vj之间的链接关系;对于属性网络G中的每个节点vi∈V都伴随一个n维的属性向量xi,向量矩阵X={x1,x2,…,x|V|}∈Rn×|V|包含所有节点的属性信息,其中Rn ×|V|为|V|个节点包含的n维向量的集合;在人员主题库网络中,进行基于网络结构的节点特征学习,具体为:
步骤S401:将邻接矩阵S(也可称为直接关系矩阵)作为自动编码器的输入矩阵,其中,邻接矩阵S表示网络中节点与节点之间的直接关系(同行、好友、同住、邻居等),S的第i行第j列Si,j表示点vi与节点vj之间的直接关系;
设隐含层的总层数为M,以Hm(S)表示第m层隐含层的输出,以表示第m层隐含层的转换矩阵,以表示第m层隐含层的偏置矩阵,m=1,2,……M且
步骤S402:通过深度自动编码器进行编码,基于第m-1层隐含层的输出Hm-1(S),通过式(3)计算第m层隐含层的输出Hm(S),
式中,σ(·)为激活函数,当m=1时,令Hm-1(S)=S;
步骤S403:通过深度自动编码器进行解码,得到节点与节点之间的预测关系矩阵为其中,f(·)为激活函数,表示第M层隐含层转换矩阵,表示第M层隐含层偏置矩阵;
步骤S404:通过式(4)计算损失函数Ls,
其中,分别为深度自动编码器输出矩阵中第i行、第j列;
步骤S405:基于网络结构的节点特征向量由(m+1)/2层隐含层获得,则节点vi的节点特征向量即为结构特征向量表示为
在本发明一实施例中,其中,步骤S5具体为:
步骤S501:对于人员主题库属性网络G,所有节点属性向量矩阵X作为属性信息矩阵,根据杰卡德相似系数求出节点之间的属性关系矩阵T,节点vi与节点vj的属性相似度Ti,j表示为其中,xi,xj分别节点vi与节点vj的属性向量,并采用独热编码表示;
步骤S502:通过深度自动编码器基于人员主题库属性关系学习出节点的属性特征向量,并通过式(5)计算最终的损失函数LT,
其中,分别为深度自动编码器输出矩阵中第i行、第j列,Wt为基于节点属性的训练过程中隐含层的转换矩阵;bt为基于节点属性的训练过程中隐含层的偏置矩阵;
步骤S503:基于节点属性的节点特征向量可由(m+1)/2层隐含层获得,则节点vi的节点属性特征向量表示为
在本发明一实施例中,其中,步骤S6具体为:
步骤S601:将基于网络结构的节点特征向量与基于节点属性的节点特征向量拼接形成人员节点画像库,得到节点的人员主题库全局特征向量,其中,节点vi的人员主题库全局特征向量ei表示为
步骤S602:通过式(6)的相似度质量函数计算节点vi与节点vj的关系,
sim(vi,vj)=-||ei-ej||2 (6)
式中,ei、ej分别为节点vi、节点vj的全局特征向量;
步骤S603:根据步骤S4和步骤S5得到整体损失函数为:
其中,Lreg为正则化部分,训练采用l2归一化方法,λ1、λ2、λ3为权重参数,即λ1、λ2、λ3分别是由与其对应相乘的变量所引起的约束条件变化时,对目标函数最优值L影响的度量。
在本发明一实施例中,其中,网络节点集包括手机号、身份证号、住址门牌信息、微信号。
在本发明一实施例中,其中,节点之间的关系包括同行关系、同住关系、好友关系、邻居关系。
在本发明一实施例中,其中,属性向量包括好友数、住址、活跃地、出行。
与现有技术相比,本发明通过面向人员主题库属性网络图,提出了基于随机游走的表示学习模型,训练得到的节点与属性向量能够保留人员主题库原始网络图的结构完整性与属性完整性。并利用深度自动编码器模型对人员主题库节点属性网络特征学习问题进行优化,相比于传统特征学习模型可以学出更丰富的节点特征。通过基于属性网络表示学习的链接预测模型,综合考虑节点属性和网络结构信息,将网络中每一个节点都映射到一个低维向量空间,并且在此空间内保持原有图的结构信息或属性信息。该模型可以针对数据稀疏的特点,更好地实现链接预测,通过链路预测不断丰富节点关系属性信息,能够得到精准的节点特征描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的流程图;
图2为本发明步骤S4所采用的ANE-LP模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例的流程图,如图1所示,本实施例提供了一种基于动态网络属性表示的链接预测方法,其包括以下步骤:
步骤S1:在关系网络数据集基础上,动态生成人员主题库网络数据新链接,并按时间戳对节点新产生的链接进行排序得到链接序列;
由人员主题库关联形成的网状数据,随时间动态演化的网络可以看做在不同时刻下的静态网络。若当前时刻为t时刻,则此时的人员主题库网络用G(Vt,Et,t)表示,其中Vt为t时刻的人员节点集合,Et为t时刻的属性关系边集合,t为对应的时间戳。随着时间的推移,人员主题网络中的人员节点会不断地与网络中的其他节点建立新的节点关系链接,例如同行关系链接、同住关系链接等,这些新链接会改变当前节点已有的属性信息。新增人员节点链接的建立顺序以及他们建立的时间间隔对当前人员节点属性特征的变化也有着非常重要的影响。按照时间戳对节点v新产生的链接进行排序得到链接序列Sv={(v,vi,t0),(v,vi,t1),…(v,vitn)},其中(v,vi,t)表示t时刻人员节点v与vi之间新建立的链接,vi∈Nv表示节点v的一阶邻域节点,Nv表示节点v的一阶邻域节点集合;t0,t1,……tn表示不同关系链接建立的时间戳,且t0<t1<…<tn。在链接序列Sv中,人员关系链接建立的时间越晚,序列的排序越靠后,则对节点v属性变化的影响越大。新链接之间的时间间隔Δt即链接序列Sv里两个相邻节点新链接((v,vi,t-x)与(v,vi,t))之间的时间戳之差的绝对值,Δt=|t-(t-x)|。其形式化定义如下:给定一个链接序列Sv={(v,vi,t0),(v,vi,t1),…(v,vi,tn)},新链接之间的时间间隔Δt定义为:在链接序列Sv中,链接(t,ti,t-x)建立的时间戳t-x与其后一个链接(v,vi,t)建立的时间戳t的差的绝对值|t-(t-x)|,即Δt=|t-(t-x)|。时间间隔Δt的值越大则次序较后建立的链接关系对节点属性变化的影响越大。
步骤S2:采用基于连接强度的随机游走算法对人员主题库网络节点信息进行扩散,形成网络模型;
当主题网络中有新信息产生时,例如产生新节点vj,则节点vi,vj之间的新增链接(如同行关系、同住关系等)不仅会对链接两端的节点产生影响,同时也会影响与vi,vj距离较近的其他节点。因此,通过对产生新链接的人员节点(如身份证号、手机号等身份识别信息)进行邻域采样来模拟新增信息在网络中的扩散过程,用以后对采样到的邻域人员节点进行信息更新。在人员节点邻域采样的过程中,模型采用基于连接强度的随机游走算法。通过把人员节点间的连接强度作为随机游走中的边的权重概率分布,对目标人员节点进行加权随机游走采样,从而得到人员节点vi,vj的局部邻域,其具体过程如下:
步骤S201:当产生新增人员节点时,新增链接eij∈Enew,其中Enew为新增链接的集合;
步骤S202:当与新增链接相关联的一个人员节点v在新增链接eij上时,其随机游走的长度m的初始值为0,即m=0;
步骤S203:在人员节点v随机游走的过程中,当其随机游走的长度m<L时,初始化对应边的权重概率分布P,其中L为预设的随机游走序列的最大长度;
步骤S204:当人员节点v的任意一阶邻居节点u在人员节点v的一阶邻居节点集合Nv中时,通过式(1)计算人员节点v与其任一邻域节点间的连接强度并将连接强度作为对应边的权重概率分布P,其中
式中,uv为人员节点v的属性维度表示向量,vi为人员节点v的邻域节点,uvi为邻域节点vi的属性维度表示向量;在本实施例中,可以将连接强度看作一个归一化后的概率值,并根据该概率值来选择目标节点信息在下一时刻所要扩散到的节点,以此进行信息的扩散。
步骤S205:重复步骤S204直至完成所有节点间边的权重概率分布P的计算;
步骤S206:根据每一边的权重概率分布P值选择下一个节点u’,并将u’加入人员节点v的随机游走结果集合Rv中,同时将此时的随机游走的长度m加1,即m=m+1;将人员节点v替换为节点u’,以此完成一个相关节点的邻域采样;
步骤S207:重复步骤S206直至完成所有相关节点的邻域采样;
步骤S208:将每次得到的随机游走结果集合Rv加入随机游走序列R中,完成人员主题库网络节点的信息扩散。
本实施例通过基于连接强度的随机游走算法,找到相关节点的局部邻域Rv,Rv是一个有序的随机游走序列,越靠前的节点越容易从相关节点到达,从而刻画出相关节点信息的扩散过程。
步骤S3:采用梯度下降法对网络模型的节点向量参数进行更新;
在本实施例中,其中,为了在无监督方式下进行参数学习,网络模型将输出的人员节点表示向量hv应用于基于图的损失函数,其中v∈V,V为网络中人员节点集合,并采用梯度下降法对网络模型的参数进行更新。在基于图的损失函数中假设相互连接的节点有着相似的网络节点表示向量,按照式(2)计算损失函数J(hv),
式中,为节点v和节点u之间存在链接的概率,Pn(v)为负采阵分布,Q为负采样的数量,为节点vn的负采样分布期望值,节点vn为节点集合V中的第n个节点。
本实施例通过上述损失函数习得的网络表示包含了各网络节点之间的交互信息,可以直接用于后续的链接预测任务。
步骤S4:通过属性网络链接预测算法(ANE-LP)对人员主题库网络进行基于网络结构的节点特征学习;
图2为本发明步骤S4所采用的ANE-LP模型示意图,如图2所示,本实施例所采用的属性网络链接预测算法即ANE-LP的模型是对应与节点属性网络的。主要包括基于网络结构的节点特征学习、基于节点属性的节点特征学习、融合节点结构特征及属性特征进行特征向量训练,最后将学到的特征向量应用于链接预测任务中。图中Si表示节点vi与所有节点之间的结构联系,Ti表示节点vi与所有节点之间的属性联系,n1,n2,n3……表示网络中的不同节点,0.1、0.5、0.3用于示意属性网络中节点属性之间的相似系数。
在本实施例中,其中,步骤S4具体为:
设人员主题库网络为节点属性网络G=(V,E,X),其中,V为人员主题库网络中的节点集,且V={v1,v2,…,v|V|},|V|为属性网络中的节点总数;E为人员主题库网络中链接集,且eij∈E表示节点vi与节点vj之间的链接关系;对于属性网络G中的每个节点vi∈V都伴随一个n维的属性向量xi,向量矩阵X={x1,x2,…,x|V|}∈Rn×|V|包含所有节点的属性信息,其中Rn ×|V|为|V|个节点包含的n维向量的集合;
在本实施例中,其中,网络节点集包括手机号、身份证号、住址门牌信息、微信号等。
在本实施例中,其中,节点vi与节点vj之间的链接关系包括同行关系、同住关系、好友关系、邻居关系等。
在本实施例中,其中,属性向量包括好友数、住址、活跃地、出行等。
在人员主题库网络中,进行基于网络结构的节点特征学习,具体为:
步骤S401:将邻接矩阵S(也可称为直接关系矩阵)作为自动编码器的输入矩阵,其中,邻接矩阵S表示网络中节点与节点之间的直接关系(同行、好友、同住、邻居等),S的第i行第j列Si,j表示点vi与节点vj之间的直接关系;
设隐含层的总层数为M,以Hm(S)表示第m层隐含层的输出,以表示第m层隐含层的转换矩阵,以表示第m层隐含层的偏置矩阵,m=1,2,……M且
步骤S402:通过深度自动编码器进行编码,基于第m-1层隐含层的输出Hm-1(S),通过式(3)计算第m层隐含层的输出Hm(S),
式中,σ(·)为激活函数,当m=1时,令Hm-1(S)=S;
步骤S403:通过深度自动编码器进行解码,得到节点与节点之间的预测关系矩阵为其中,f(·)为激活函数,表示第M层隐含层转换矩阵,表示第M层隐含层偏置矩阵;
步骤S404:通过式(4)计算损失函数Ls,
其中,分别为深度自动编码器输出矩阵中第i行、第j列;
步骤S405:基于网络结构的节点特征向量由(m+1)/2层隐含层获得,则节点vi的节点特征向量即为结构特征向量表示为
本实施例采用的深度自动编码器是一种无监督模型,训练过程可以简单分为编码和解码。通过反向传播算法训练网络,使得模型输出数据尽可能等于输入数据。
步骤S5:通过属性网络链接预测算法(ANE-LP)对人员主题库网络进行基于节点属性的节点特征学习;
在本实施例中,其中,步骤S5具体为:
步骤S501:对于人员主题库属性网络G(包括各个节点之间的属性关系,邻居、好友等),所有节点属性向量矩阵X作为属性信息矩阵,根据杰卡德相似系数求出节点之间的属性关系矩阵T,节点vi与节点vj的属性相似度Ti,j表示为其中,xi,xj分别节点vi与节点vj的属性向量,并采用独热编码表示;本实施例中将属性向量xi,xj当作0、1的数据集合,以便于计算杰卡德相似系数。
步骤S502:通过深度自动编码器基于人员主题库属性关系学习出节点的属性特征向量(如好友数、住址、活跃地、出行等),并通过式(5)计算最终的损失函数LT,
其中,分别为深度自动编码器输出矩阵中第i行、第j列,Wt为基于节点属性的训练过程中隐含层的转换矩阵;bt为基于节点属性的训练过程中隐含层的偏置矩阵;在本实施例中,基于节点属性的训练过程与步骤S402~S404的基于网络结构的节点特征学习类似,在此不做赘述。
步骤S503:基于节点属性的节点特征向量可由(m+1)/2层隐含层获得,则节点vi的节点属性特征向量表示为
步骤S6:将基于网络结构的节点特征与基于节点属性的节点特征进行特征融合及属性网络链接预测。
基于步骤S4及步骤S5,可以得到基于人员主题库网络结构的节点特征向量和基于人员主题库节点属性的节点特征向量。类似LINE中的方法,ANE-LP通过将2个特征向量拼接实现对结构特征向量和属性特征向量的聚合形成人员节点画像库,在本实施例中,其中,步骤S6具体为:
步骤S601:将基于网络结构的节点特征向量与基于节点属性的节点特征向量拼接形成人员节点画像库,得到节点的人员主题库全局特征向量,其中,节点vi的人员主题库全局特征向量ei表示为
步骤S602:通过式(6)的相似度质量函数计算节点vi与节点vj的关系,
sim(vi,vj)=-||ei-ej||2 (6)
式中,ei、ej分别为节点vi、节点vj的全局特征向量;
步骤S603:根据步骤S4和步骤S5得到整体损失函数为:
其中,Lreg为正则化部分,在本实施例中,为防止过拟合,训练采用l2归一化方法,λ1、λ2、λ3为权重参数,即λ1、λ2、λ3分别是由与其对应相乘的变量所引起的约束条件变化时,对目标函数最优值L影响的度量,或者说表示了最优值的“灵敏度”,因此此处可以将其定义为权重参数。
通过随机梯度下降法调整参数对目标函数进行优化求解,使得L值达到最小,在求多元函数的条件极值时,通常使用Langrange乘数法,但在求解时,一般在都不直接给出参数λ的值,往往把参数λ看成是求可能极值点的“媒介”“桥梁”或“润滑剂”等,而常认为参数λ对问题本身没有什么含义。
本发明通过面向人员主题库属性网络图,提出了基于随机游走的表示学习模型,训练得到的节点与属性向量能够保留人员主题库原始网络图的结构完整性与属性完整性。利用深度自动编码器模型对人员主题库节点属性网络特征学习问题进行优化,相比于传统特征学习模型可以学出更丰富的节点特征,如可在主题库已有信息的基础上增加邻居关系、亲属关系、共同好友关系等。提出一个基于属性网络表示学习的链接预测模型,综合考虑节点属性和网络结构信息。将网络中每一个节点都映射到一个低维向量空间,并且在此空间内保持原有图的结构信息或属性信息。该模型可以针对数据稀疏的特点,更好地实现链接预测。
与现有技术相比,本发明提出的随机游走算法模型不仅学习了人员主题库网络中的动态信息,还考虑了其对邻居节点的影响以及时间间隔对信息更新的影响。提出的属性网络表示方法链接预测模型采用了多层神经网络对稀疏数据进行深度挖掘学习网络节点深度非线性特征关系,同时考虑了主题库中网络节点的属性信息,在主题库形成过程中,会遇到各式各样的数据资源,存储的方式和字段含义各不相同,以住址举例,比如一张表里A住址字段内容为“XX小区5栋”,而B住址字段内容为“XX小区6栋”,则据此可推断出A\B为邻居关系,同时,若B与C为邻居关系,可推断出ABC为邻居关系,丰富节点表示,扩充人员主题库构建过程中的属性维度。通过链路预测不断丰富节点关系属性信息,得到了精准的节点特征描述。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
Claims (7)
1.一种基于动态网络属性表示的链接预测方法,其特征在于,包括以下步骤:
步骤S1:在关系网络数据集基础上,动态生成人员主题库网络数据新链接,并按时间戳对节点新产生的链接进行排序得到链接序列;
步骤S2:采用基于连接强度的随机游走算法对人员主题库网络节点信息进行扩散,形成网络模型,具体为:
步骤S201:当产生新增人员节点时,新增链接eij∈Enew,其中Enew为新增链接的集合;
步骤S202:当与新增链接相关联的一个人员节点v在新增链接eij上时,其随机游走的长度m的初始值为0;
步骤S203:在人员节点v随机游走的过程中,当其随机游走的长度m<L时,初始化对应边的权重概率分布P,其中L为预设的随机游走序列的最大长度;
步骤S204:当人员节点v的任意一阶邻居节点u在人员节点v的一阶邻居节点集合Nv中时,通过式(1)计算人员节点v与其任一邻域节点间的连接强度并将连接强度作为对应边的权重概率分布P,其中
式中,uv为人员节点v的属性维度表示向量,vi为人员节点v的邻域节点,uvi为邻域节点vi的属性维度表示向量;
步骤S205:重复步骤S204直至完成所有节点间边的权重概率分布P的计算;
步骤S206:根据每一边的权重概率分布P值选择下一个节点u’,并将u’加入人员节点v的随机游走结果集合Rv中,同时将此时的随机游走的长度m加1,即m=m+1;将人员节点v替换为节点u’,以此完成一个相关节点的邻域采样;
步骤S207:重复步骤S206直至完成所有相关节点的邻域采样;
步骤S208:将每次得到的随机游走结果集合Rv加入随机游走序列R中,完成人员主题库网络节点的信息扩散;
步骤S3:采用梯度下降法对网络模型的节点向量参数进行更新;
步骤S4:通过属性网络链接预测算法对人员主题库网络进行基于网络结构的节点特征学习,具体为:
设人员主题库网络为节点属性网络G=(V,E,X),其中,V为人员主题库网络中的节点集,且V={v1,v2,...,v|V|},|V|为属性网络中的节点总数;E为人员主题库网络中链接集,且eij∈E表示节点vi与节点vj之间的链接关系;对于属性网络G中的每个节点vi∈V都伴随一个n维的属性向量xi,向量矩阵X={x1,x2,...,x|V|}∈Rn×|V|包含所有节点的属性信息,其中Rn ×|V|为|V|个节点包含的n维向量的集合;在人员主题库网络中,进行基于网络结构的节点特征学习,具体为:
步骤S401:将邻接矩阵S作为自动编码器的输入矩阵,其中,邻接矩阵S表示网络中节点与节点之间的直接关系,S的第i行第j列Si,j表示点vi与节点vj之间的直接关系;
设隐含层的总层数为M,以Hm(S)表示第m层隐含层的输出,以Ws m表示第m层隐含层的转换矩阵,以表示第m层隐含层的偏置矩阵,m=1,2,……M且
步骤S402:通过深度自动编码器进行编码,基于第m-1层隐含层的输出Hm-1(S),通过式(3)计算第m层隐含层的输出Hm(S),
式中,σ(·)为激活函数,当m=1时,令Hm-1(S)=S;
步骤S403:通过深度自动编码器进行解码,得到节点与节点之间的预测关系矩阵为其中,f(·)为激活函数,表示第M层隐含层转换矩阵,表示第M层隐含层偏置矩阵;
步骤S404:通过式(4)计算损失函数Ls,
其中,分别为深度自动编码器输出矩阵中第i行、第j列;
步骤S405:基于网络结构的节点特征向量由(m+1)/2层隐含层获得,则节点vi的节点特征向量即为结构特征向量表示为
步骤S5:通过属性网络链接预测算法对人员主题库网络进行基于节点属性的节点特征学习,具体为:
步骤S501:对于人员主题库属性网络G,所有节点属性向量矩阵X作为属性信息矩阵,根据杰卡德相似系数求出节点之间的属性关系矩阵T,节点vi与节点vj的属性相似度Ti,j表示为其中,xi,xj分别节点vi与节点vj的属性向量,并采用独热编码表示;
步骤S502:通过深度自动编码器基于人员主题库属性关系学习出节点的属性特征向量,并通过式(5)计算最终的损失函数LT,
其中,分别为深度自动编码器输出矩阵中第i行、第j列,Wt为基于节点属性的训练过程中隐含层的转换矩阵;bt为基于节点属性的训练过程中隐含层的偏置矩阵;
步骤S503:基于节点属性的节点特征向量可由(m+1)/2层隐含层获得,则节点vi的节点属性特征向量表示为
步骤S6:将基于网络结构的节点特征与基于节点属性的节点特征进行特征融合及属性网络链接预测。
2.根据权利要求1所述的链接预测方法,其特征在于,步骤S1具体为:
若当前时刻为t时刻,则此时的人员主题库网络用G(Vt,Et,t)表示,其中Vt为t时刻的人员节点集合,Et为t时刻的属性关系边集合,t为对应的时间戳;
按照时间戳对节点v新产生的链接进行排序得到链接序列Sv={(v,vi,t0),(c,vi,t1),…(v,vi,tn)},其中(v,vi,t)表示t时刻人员节点v与vi之间新建立的链接,vi∈Nv表示节点v的一阶邻域节点,Nv表示节点v的一阶邻域节点集合;t0,t1,……tn表示不同关系链接建立的时间戳,且t0<t1<…<tn。
3.根据权利要求1所述的链接预测方法,其特征在于,步骤S3具体为:
网络模型将输出的人员节点表示向量hv应用于基于图的损失函数,其中v∈V,V为网络中节点集合,并采用梯度下降法对网络模型的参数进行更新,其中,在基于图的损失函数中假设相互连接的节点有着相似的网络节点表示向量,按照式(2)计算损失函数J(hv),
式中,为节点v和节点u之间存在链接的概率,Pn(v)为负采样分布,Q为负采样的数量,为节点vn的负采样分布期望值,节点vn为节点集合V中的第n个节点。
4.根据权利要求1所述的链接预测方法,其特征在于,步骤S6具体为:
步骤S601:将基于网络结构的节点特征向量与基于节点属性的节点特征向量拼接形成人员节点画像库,得到节点的人员主题库全局特征向量,其中,节点vi的人员主题库全局特征向量ei表示为
步骤S602:通过式(6)的相似度质量函数计算节点vi与节点vj的关系,
sim(vi,yj)=-||ei-ej||2 (6)
式中,ei、ej分别为节点vi、节点vj的全局特征向量;
步骤S603:根据步骤S4和步骤S5得到整体损失函数为:
其中,Lreg为正则化部分,训练采用l2归一化方法,λ1、λ2、λ3为权重参数,即λ1、λ2、λ3分别是由与其对应相乘的变量所引起的约束条件变化时,对目标函数最优值L影响的度量。
5.根据权利要求1所述的链接预测方法,其特征在于,网络节点集包括手机号、身份证号、住址门牌信息、微信号。
6.根据权利要求1所述的链接预测方法,其特征在于,节点之间的关系包括同行关系、同住关系、好友关系、邻居关系。
7.根据权利要求1所述的链接预测方法,其特征在于,属性向量包括好友数、住址、活跃地、出行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111460275.XA CN114154024B (zh) | 2021-12-02 | 2021-12-02 | 一种基于动态网络属性表示的链接预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111460275.XA CN114154024B (zh) | 2021-12-02 | 2021-12-02 | 一种基于动态网络属性表示的链接预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114154024A CN114154024A (zh) | 2022-03-08 |
CN114154024B true CN114154024B (zh) | 2024-08-02 |
Family
ID=80455926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111460275.XA Active CN114154024B (zh) | 2021-12-02 | 2021-12-02 | 一种基于动态网络属性表示的链接预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114154024B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216886B (zh) * | 2023-11-09 | 2024-04-05 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种基于扩散模型的飞行器气动布局反设计方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101629A (zh) * | 2018-08-14 | 2018-12-28 | 合肥工业大学 | 一种基于深度网络结构和节点属性的网络表示方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200074301A1 (en) * | 2018-09-04 | 2020-03-05 | Beijing Jingdong Shangke Information Technology Co., Ltd. | End-to-end structure-aware convolutional networks for knowledge base completion |
US11562186B2 (en) * | 2018-09-05 | 2023-01-24 | Siemens Aktiengesellschaft | Capturing network dynamics using dynamic graph representation learning |
-
2021
- 2021-12-02 CN CN202111460275.XA patent/CN114154024B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101629A (zh) * | 2018-08-14 | 2018-12-28 | 合肥工业大学 | 一种基于深度网络结构和节点属性的网络表示方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114154024A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bi et al. | Daily tourism volume forecasting for tourist attractions | |
CN109523021B (zh) | 一种基于长短时记忆网络的动态网络结构预测方法 | |
Tabouy et al. | Variational inference for stochastic block models from sampled data | |
CN113705772A (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN111950708B (zh) | 一种发现大学生日常生活习惯的神经网络结构与方法 | |
CN112784913A (zh) | 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 | |
CN110347932A (zh) | 一种基于深度学习的跨网络用户对齐方法 | |
CN111210002B (zh) | 一种基于生成对抗网络模型的多层学术网络社区发现方法、系统 | |
CN113065974A (zh) | 一种基于动态网络表示学习的链路预测方法 | |
CN109960755B (zh) | 一种基于动态迭代快速梯度的用户隐私保护方法 | |
CN113434782B (zh) | 基于联合嵌入学习模型的跨社交网络用户身份识别方法 | |
CN114154024B (zh) | 一种基于动态网络属性表示的链接预测方法 | |
CN115629160A (zh) | 一种基于时空图的空气污染物浓度预测方法及系统 | |
CN115329211A (zh) | 一种基于自监督学习和图神经网络的个性化兴趣推荐方法 | |
CN110232151B (zh) | 一种混合概率分布检测的QoS预测模型的构建方法 | |
CN113590971A (zh) | 一种基于类脑时空感知表征的兴趣点推荐方法及系统 | |
CN116842277A (zh) | 一种基于跨主题对比学习的社交推荐方法 | |
CN115470994B (zh) | 基于显式时间和级联注意力的信息流行度预测方法和系统 | |
CN115905859A (zh) | 一种基于显著分数的联邦学习客户端贡献评估方法 | |
CN113256024B (zh) | 一种融合群体行为的用户行为预测方法 | |
CN114936890A (zh) | 一种基于逆倾向加权方法的反事实公平的推荐方法 | |
CN116977010A (zh) | 业务推荐模型的构建、业务推荐方法及装置 | |
Stanhope et al. | Group link prediction | |
Hayato et al. | Flexible Framework to Provide Explainability for Fake News Detection Methods on social media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |