CN104484365A - 一种多源异构网络中社会关系的预测方法与系统 - Google Patents
一种多源异构网络中社会关系的预测方法与系统 Download PDFInfo
- Publication number
- CN104484365A CN104484365A CN201410734192.9A CN201410734192A CN104484365A CN 104484365 A CN104484365 A CN 104484365A CN 201410734192 A CN201410734192 A CN 201410734192A CN 104484365 A CN104484365 A CN 104484365A
- Authority
- CN
- China
- Prior art keywords
- main body
- path
- relation
- weight
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000002123 temporal effect Effects 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 8
- 108010007425 oligomycin sensitivity conferring protein Proteins 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000004891 communication Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 9
- 238000011160 research Methods 0.000 description 8
- 239000013065 commercial product Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006317 isomerization reaction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000235070 Saccharomyces Species 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的主要工作是基于多源异构网络推断主体(用户)之间的社会关系(包括同类型之间或不同类型之间的主体关系,本发明中只以用户为例)的方法,异构网络是指网络中主体类型多种或者主体之间的关系类型多种,关系可以分为好友和其他两种。主要内容包括在两个(例如Twitter网络、通讯网络)异构网络中,两个网络的主体类型都包含有用户,但不同网络中主体之间的关系链接类型是不同的在Twitter网络中用户之间的关系是关注、被关注两种,在通讯网中关系类型为好友和其他两种等。要推断不同网络主体之间的社会关系必须要通过两个网络之间通过重叠用户关联起来,即部分用户同时存在于两个网络中。
Description
技术领域
本发明属于网络应用技术领域,更具体地,涉及一种多源异构网络中社会关系的预测方法与系统。
背景技术
随着互联网的兴起,越来越多的人在使用网络。网络给人们带来了各种各样的方便,网络资源无奇不有,网络内容无所不包。研究表明,截止2011年12月31日,全球共有22.672亿网络用户,全球网络普及率为32.7%。在2011年3月,Internet WorldStats公布的全球网络用户数为20.95亿,9个月时间内全球网络用户增加了1.7222亿。按照这个速度计算,截止目前全球网民数量已超过23亿。平均每秒新增约8个网络用户,可见现在使用网络的人群数量是非常庞大的。随着互联网的普及,网民越来越多,社会网络普及程度越来越高。
社会网络源自个体与个体之间的社交关系组成的网络,现有的在线社会网络如Twitter网络、Facebook网络、新浪微博、淘宝网等。对于Twitter网络如果使用Twitter的用户及用户所发布的推文Tweet视为网络中的主体,用户发表、转发推文等视为网络主体之间的关联,就可以将其抽象成为一个典型的社会网络。但社会网络并不是一层不变的,它是随着时间推移由新节点的添加或者节点间新关系的形成动态变化的,因此对社会网络结构的动态变化的研究是很有意义的。考虑将关系链接的形成过程作为网络发展和演变的基本原则,那么在给定节点的网络中,网络的成长发展是通过节点之间新关系的建立而形成。而本发明目的是通过研究异构网络中给定节点之间新关系的建立从而发现网络发展和演变的过程。广义来讲,社会网络可以是蛋白质相互作用网络,神经网络等生物信息网络;还可以是万维网的Web结构、Internet的拓扑结构、通讯网络等信息网络;生活中最常见的也是最直观的社会网络当属社交网络,包括学术合作、人物关系、在线交友等应用等。针对于异构网络主体相关性的研究可以应用到社交网络和电子商务的结合,如新浪微博和淘宝商品推荐等;还可以应用到决策通讯网网络主体间通讯模式(如电话、短信等);还有生物学中酵母菌蛋白质相互作用问题的研究等。
目前社会网络是在其网络结构内部是相互链接的。现有的对自然科学、社会信息网络的研究都是假定网络类型结构是同构类型的,即网络节点类型相同,链接节点之间的关系类型也相同。但现实生活中大部分的网络是异构类型的,即网络节点类型多种,链接节点之间的关系类型也是多种。如DBLP网络主体节点类型有作者、论文、会议和关键词,而他们之间的多种关系如作者、论文之间撰写、引用,论文、会议之间发表、收录等;蛋白质网络主体节点类型基因、酵母等都是异构类型。
传统网络中预测两个主体之间的关系方法已经存在多种,链接预测是众多方法中最常用到的。在同构网络中链接预测已经得到了广泛的应用,但是在异构网络中由于网络本身结构的特点导致常用链接预测在异构网络内不能实现。
发明内容
异构网络的特点主要有首先异构网络中虽然存在一些结构特征,但是没有一种特征能够很好地概括整个网络;其次异构网络的标签是复杂的,网络中标签一般都是昂贵或者难以获取的;再次网络复杂,异构网络中主体类型多种,关系类型也是多种。另外现有关系预测的研究大多针对静态无权网络,而对动态加权网络的研究相对较少;对局部因素考虑得比较具体,而对整体因素考虑得过于抽象。
为了能够实现预测异构社会网络主体之间的社会关系,按照本发明的一个方面,提供了一种基于多源异构网络的社会关系预测方法,包括以下步骤:
(1)对网络G=(V,E)按照相等的时间片长度分别进行划分,分成n个时间片快照,整个网络表示为G={T1,T2,T3,...,Tn};其中对于网络G=(V,E),其中V表示网络中所有主体(用户)集合,E表示所有主体间存在的链接关系集合;
(2)统计两两主体的时序动作特征向量Edge_Vector(·),并对主体的时序特征向量Edge_Vector(·)内所有元素求和,从而得到主体间的链接关系的时序权重w(u,v);
(3)分别对异构网络Gs=(Vs,Es)、Gt=(Vt,Et)采用步骤(1)(2)的方法获得网络主体之间的时序权重ws、wt,通过计算Gs、Gt中重叠的用户即同时存在于两个网络中的主体v,v∈Vs且v∈Vt,从而将Gs、Gt网络组合成Gnew;
(4)以最小路径权重和为原则采用最短路径Dijkstra算法,计算网络Gnew中主体间的最短时序权重路径;根据最短时序权重路径所属的链接关系从而构成最短关系路径Shortest_Relation_Path;
(5)预测异构网络Gnew中主体之间潜在的社会关系概率,根据已知的异构网络Gne中的主体u和主体v之间的最短关系路径Shortest_Relation_Path(u,v)=(R1,R2,...,Rl),采用HeteFlow方法计算u和v间社会关系的概率;
(6)基于给定阈值δ判断异构网络主体u和v之间的社会关系,主体u和v之间的社会关系概率大于设定阈值δ,则存在关系,否则不存在关系。
按照本发明的另一方面,还提供了一种多源异构网络中社会关系的预测系统,包括网络划分模块、时序权重计算模块、网络组合模块、最短路径计算模块、社会关系概率计算模块以及社会关系预测模块,其中:所述网络划分模块,用于对网络G=(V,E)按照相等的时间片长度分别进行划分,分成n个时间片快照,整个网络表示为G={T1,T2,T3,...,Tn};其中对于网络G=(V,E),其中V表示网络中所有主体(用户)集合,E表示所有主体间存在的链接关系集合;
所述时序权重计算模块,用于统计两两主体的时序动作特征向量Edge_Vector(·),并对主体的时序特征向量Edge_Vector(·)内所有元素求和,从而得到主体间的链接关系的时序权重w(u,v);
所述网络组合模块,用于分别对异构网络Gs=(Vs,Es)、Gt=(Vt,Et)采用网络划分模块及时序权重计算模块获得网络主体之间的时序权重ws、wt,通过计算Gs、Gt中重叠的用户即同时存在于两个网络中的主体v,v∈Vs且v∈Vt,从而将Gs、Gt网络组合成Gnew;
所述最短路径计算模块,用于以最小路径权重和为原则采用最短路径Dijkstra算法,计算网络Gnew中主体间的最短时序权重路径;根据最短时序权重路径所属的链接关系从而构成最短关系路径Shortest_Relation_Path;
所述社会关系概率计算模块,用于预测异构网络Gnew中主体之间潜在的社会关系概率,根据已知的异构网络Gnew中的主体u和主体v之间的最短关系路径Shortest_Relation_Path(u,v)=(R1,R2,...,Rl),采用HeteFlow方法计算u和v间社会关系的概率;
所述社会关系预测模块,用于基于给定阈值δ判断异构网络主体u和v之间的社会关系,主体u和v之间的社会关系概率大于设定阈值δ,则存在关系,否则不存在关系。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果:
(1)灵活高效性:因为采用了步骤(1),所以该方法不仅适用于静态不变的拓扑结构,而且还可以应用到网络动态演变拓扑结构;由于采用了步骤(3),系统会根据自身的网络组成和特性自动调整其拓扑结构,不仅仅是针对于同构网络而使得异构网络关系预测具有普遍适用性,且主体的类型不在受限即针对于不同的主体类型或者相同主体类型都能灵活使用;
(2)自适应性:由于采用了步骤(2),使用了根据时序权重特性下主体间最短时序路径特性,使得在处理的过程中自适应式的将时间对关系的影响考虑在范围内,并且根据关系动作而自行调整而不需要人工干预,只需在初始化阶段之前制定好需要的参数(如时序关系动作值等),这样系统在后面的运行过程中针对所有获取的结果自动调整操作。
附图说明
图1是本发明多源异构网络主体社会关系预测方法的流程图。
图2是本发明步骤(1)的细化流程图。
图3是本发明步骤(3)的细化流程图。
图4为影响最大化的加权级联图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明针对于社会网络演变过程中主体的关系建立存在的问题,提出了一套基于多源异构网络推断主体之间社会关系的方法。它综合考虑了随着时间演变主体之间关系权重的微弱变化,并利用不同异构网络中重叠的主体通过网络的拓扑关系路径组合的方式,使得两个不同异构网络主体相互关联从而发现异构网络主体之间潜在的社会关系。首先对本发明中涉及到的名词和术语进行说明和解释:
社交网络节点关系预测是指通过已知的社交网络结构等信息,如何预测网络中尚未存在连边的两个节点之间产生连接的可能性。而预测未来可能产生的连边则与网络的演化相关。传统的方法是基于机器学习的,虽然能够得到较高的预测精度,但是由于计算的复杂度以及非普适性使其应用范围受到限制,也存在着如下问题:1)目前针对网络主体关系的研究着重于同构网络中,但现实中大部分的网络是异构类型的,譬如用户商品推荐网络、DBLP网络等;2)在社交网络中进行关系预测时,单个网络的数据稀疏性仍是很大的挑战;
同构网络是指:网络中所有主体类型相同,所有主体的关系类型也相同。
异构网络是指:网络中主体类型多种或者主体的关系类型多种。例如:商品推荐网络主体类型有用户、商品等,主体关系类型有用户购买商品、商品被用户购买等;DBLP网络中主体类型有作者、会议、论文、关键词,而主体的关系类型有作者发表论文、论文被会议录用、论文中包含有关键词等。
为了能够实现预测异构社会网络主体之间的社会关系,如图1所示,本发明提供了一种基于多源异构网络主体间社会关系的预测方法,主要包括以下步骤:
对于网络G=(V,E),其中V表示网络中所有主体(用户)集合,E表示所有主体间存在的链接关系集合。定义三种链接关系的动作特征:创建(e)、保留(c)、取消(r),并分别初始化e,c,r为-1、-0.5、2,表示在不同时间片中网络主体(用户)之间链接关系的动作状态。
如采用E(·)、C(·)、R(·)记录主体(用户)之间链接关系的动作状态结果,则E(u,v,k),C(u,v,k),R(u,v,k)分别表示时间片k内主体(用户)之间的创建、保留、取消链接关系的动作状态结果。其时序特征的形式化表达如下:
(1)对网络G=(V,E)按照相等的时间片长度分别进行划分,分成n个时间片快照。整个网络表示为G={T1,T2,T3,...,Tn}。
(2)统计两两主体(用户)的时序动作特征向量Edge_Vector(·)。并对主体的时序特征向量Edge_Vector(·)内所有元素求和,从而得到主体间的链接关系(即主体之间的边)的时序权重w(u,v)。
(2-1)统计网络G中任意两主体(用户)之间的链接关系在n个时间片内所有的动作状态集合,即时序动作特征向量Edge_Vector(·)。例如在网络G中主体u和v在整个网络中时序动作特征为关系不存在、创建关系、保留关系、……、取消关系、关系不存在,则其时序动作特征向量表示为Edge_Vector(u,v)=(0,e,c,…,r,0)。
(2-2)将主体的时序特征向量Edge_Vector(·)中所有元素求和得到主体间链接关系的时序权重w(u,v)。对时序特征向量Edge_Vector(u,v)中的第k个向量元素Edge_Vector(u,v)[k],具体采用如下的公式计算时序权重:
(3)分别对异构网络Gs=(Vs,Es)、Gt=(Vt,Et)采用步骤(1)(2)的方法获得网络主体之间的时序权重ws、wt。通过计算Gs、Gt中重叠的用户即同时存在于两个网络中的主体v(v∈Vs且v∈Vt),从而将Gs、Gt网络组合成Gnew。
(4)以最小路径权重和为原则采用最短路径Dijkstra算法,计算网络Gnew中主体间的最短时序权重路径。根据最短时序权重路径所属的链接关系从而构成最短关系路径Shortest_Relation_Path。步骤流程图如图2所示。例如以异构网络Gne中的主体u和v为例,其最短关系路径为Shortest_Relation_Path(u,v)=(R1,R2,...,Rl)。其中Ri表示主体的链接关系类型,如朋友关系、同学关系、同事关系等。
(4-1)初始化主体u到主体集合V中任意主体k的路径权重weight为极大值。将主体集合V中任意主体k的先前主体prev(k)设置为空。源主体u路径权重weight的初始值为0。
(4-2)将集合V中所有主体的路径权重值存放在优先队列H内,并按路径权重值大小排列。只要优先队列H不为空,则首先查找最小的路径权重节点p,并从优先队列H中删除该主体p及其路径权重weight。然后在链接关系集合E中,对于与主体p有链接关系的所有主体q,计算主体p的路径权重与时序权重路径w(p,q)之和。并将该和与主体q的路径权重比较大小。若优先队列H中主体q的路径权重略高,则采用主体p的路径权重与时序权重路径w(p,q)之和进行替换。然后重置主体q的先前主体为p,并更新优先队列H中主体q的路径权重。如此循环迭代优先队列H为空。
(4-3)从目标主体v开始,使用先前主体方法获取主体v的先前主体k。如果先前主体k不是源主体u,则将主体k与v的链接关系类型R保存到关系路径矩阵Shortest_Relation_Path。并将主体k设置为目标主体v,再根据先前主体方法更新先前主体k,如此逆序向前直到找到源主体u循环停止。否则直接将主体u和v之间的链接关系类型保存到关系路径Shortest_Relation_Path中。
下面用伪代码来说明获取最短路径的方法:
(5)预测异构网络Gnew中主体之间潜在的社会关系概率。根据已知的异构网络Gne中的主体u和主体v之间的最短关系路径Shortest_Relation_Path(u,v)=(R1,R2,...,Rl),采用HeteFlow方法计算u和v间社会关系的概率。步骤流程图如图3所示。HeteFlow方法中所用的标识符描述如表1所示。
RiοRj | 表示关系路径path先经过Ri关系再经过Rj |
s | 源节点 |
t | 目标节点 |
Ri | 节点之间关系类型 |
pi | 从源节点出发指向的节点 |
qj | 指向目标节点的节点 |
O(u|Ri) | 从节点u出发通过Ri关系到达的所有节点 |
I(v|Ri) | 通过Ri关系指向v节点的所有节点 |
表1 HeteFlow方法公式标识符描述
本步骤具体包括如下子步骤:
(5-1)HeteFlow方法采用宽度搜索的方式,结合影响最大化中加权级联的方法,获取主体u对其邻居v的影响概率flow(u,v)。图4中主体u的信息值score(u)、主体u和v的时序权重w(u,v)及主体u的度d(u)作为输入,从而计算出主体u到v的影响概率flow(u,v)。其具体公式描述为:
(5-2)根据主体节点u及主体u和v之间的最短关系路径向量Shorte st_Relation_Path(u,v),查找关系路径Shorte st_Relation_Path(u,v)中的第一个链接关系类型R1。然后计算出以R1为链接关系类型并从主体u出发的出度O(u|R1)。再统计出所有从主体u出发并经过R1链接关系类型而到达的主体节点集合P={p1,p2,...pm}。最后计算从主体u到集合P中任一主体pi的影响概率值flow(u,pi)。
(5-3)根据主体节点v及主体u和v之间的最短关系路径向量Shorte st_Relation_Path(u,v),查找关系路径Shorte st_Relation_Path(u,v)中的最后一个链接关系类型R1。然后计算出以R1为链接关系类型并到达主体v的入度I(v|Rl)。再以R1链接关系类型统计出所有到达主体v的主体节点集合Q={q1,q2,...qk}。最后计算出从Q内任一主体qj到主体v的影响概率值flow(qj,v)。
(5-4)采用步骤(5-2)获得主体u到集合P中任一主体pi的影响概率值flow(u,pi)。采用步骤(5-3)得到Q内任一主体qj到主体v的影响概率值flow(qj,v)。并将影响概率flow(u,pi)、flow(qj,v)求和。判断主体pi与qj是否相同,相同则表示主体pi与qj为同一主体节点,跳转到步骤(6)。
(5-5)将主体u重置为主体pi,主体v重置为主体qj重复步骤(5-2)。具体公式为:
其中,
下面用伪代码来说明获取最短路径的方法:
(6)基于给定阈值δ判断异构网络主体u和v之间的社会关系,主体u和v之间的社会关系概率大于阈值δ,则存在关系。否则不存在关系。
进一步地,本发明还提供了一种多源异构网络中社会关系的预测系统,所述系统包括网络划分模块、时序权重计算模块、网络组合模块、最短路径计算模块、社会关系概率计算模块以及社会关系预测模块,其中:所述网络划分模块,用于对网络G=(V,E)按照相等的时间片长度分别进行划分,分成n个时间片快照,整个网络表示为G={T1,T2,T3,...,Tn};其中对于网络G=(V,E),其中V表示网络中所有主体(用户)集合,E表示所有主体间存在的链接关系集合;
所述时序权重计算模块,用于统计两两主体的时序动作特征向量Edge_Vector(·),并对主体的时序特征向量Edge_Vector(·)内所有元素求和,从而得到主体间的链接关系的时序权重w(u,v);
所述网络组合模块,用于分别对异构网络Gs=(Vs,Es)、Gt=(Vt,Et)采用网络划分模块及时序权重计算模块获得网络主体之间的时序权重ws、wt,通过计算Gs、Gt中重叠的用户即同时存在于两个网络中的主体v,v∈Vs且v∈Vt,从而将Gs、Gt网络组合成Gnew;
所述最短路径计算模块,用于以最小路径权重和为原则采用最短路径Dijkstra算法,计算网络Gnew中主体间的最短时序权重路径;根据最短时序权重路径所属的链接关系从而构成最短关系路径Shortest_Relation_Path;
所述社会关系概率计算模块,用于预测异构网络Gnew中主体之间潜在的社会关系概率,根据已知的异构网络Gnew中的主体u和主体v之间的最短关系路径Shortest_Relation_Path(u,v)=(R1,R2,...,Rl),采用HeteFlow方法计算u和v间社会关系的概率;
所述社会关系预测模块,用于基于给定阈值δ判断异构网络主体u和v之间的社会关系,主体u和v之间的社会关系概率大于设定阈值δ,则存在关系,否则不存在关系。
进一步地,所述网络划分模块中定义的三种链接关系的动作特征具体为:
创建(e)、保留(c)、取消(r),并分别初始化e,c,r为-1、-0.5、2,用于表示在不同时间片中网络主体之间链接关系的动作状态;
采用E(·)、C(·)、R(·)记录主体之间链接关系的动作状态结果,则E(u,v,k),C(u,v,k),R(u,v,k)分别表示时间片k内主体(用户)之间的创建、保留、取消链接关系的动作状态结果;其时序特征的形式化表达如下:
进一步地,所述时序权重计算模块具体包括时序动作特征向量统计子模块和时序权重计算子模块,其中:
所述时序动作特征向量统计子模块,用于统计网络G中任意两主体之间的链接关系在n个时间片内所有的动作状态集合,即时序动作特征向量Edge_Vector(·);
所述时序权重计算子模块,用于将主体的时序特征向量Edge_Vector(·)中所有元素求和得到主体间链接关系的时序权重w(u,v);对于时序特征向量Edge_Vector(u,v)中的第k个向量元素Edge_Vector(u,v)[k],具体采用如下的公式计算时序权重:
进一步地,所述最短路径计算模块具体包括权重值初始化子模块、路径权重计算子模块以及最短路径生成子模块,其中:
权重值初始化子模块,用于初始化主体u到主体集合V中任意主体k的路径权重weight为极大值,将主体集合V中任意主体k的先前主体prev(k)设置为空,源主体u路径权重weight的初始值为0;
所述路径权重计算子模块,用于将集合V中所有主体的路径权重值存放在优先队列H内,并按路径权重值大小排列;只要优先队列H不为空,则首先查找最小的路径权重节点p,并从优先队列H中删除该主体p及其路径权重weight;然后在链接关系集合E中,对于与主体p有链接关系的所有主体q,计算主体p的路径权重与时序权重路径w(p,q)之和;并将该和与主体q的路径权重比较大小;若优先队列H中主体q的路径权重略高,则采用主体p的路径权重与时序权重路径w(p,q)之和进行替换;然后重置主体q的先前主体为p,并更新优先队列H中主体q的路径权重;如此循环迭代优先队列H为空;
所述最短路径生成子模块,用于从目标主体v开始,使用先前主体方法获取主体v的先前主体k;如果先前主体k不是源主体u,则将主体k与v的链接关系类型R保存到关系路径矩阵Shortest_Relation_Path;并将主体k设置为目标主体v,再根据先前主体方法更新先前主体k,如此逆序向前直到找到源主体u循环停止;否则直接将主体u和v之间的链接关系类型保存到关系路径Shortest_Relation_Path中。
进一步地,所述社会关系概率计算模块具体包括影响概率计算子模块、第一路径影响概率值计算子模块、第二路径影响概率值计算子模块、相同主体判断子模块以及迭代计算子模块,其中:
所述影响概率计算子模块,用于采用宽度搜索的方式,结合影响最大化中加权级联的方法,获取主体u对其邻居v的影响概率flow(u,v),将主体u的信息值score(u)、主体u和v的时序权重w(u,v)及主体u的度d(u)作为输入,计算出主体u到v的影响概率flow(u,v);其具体公式描述为:
所述第一路径影响概率值计算子模块,用于根据主体节点u及主体u和v之间的最短关系路径向量Shorte st_Relation_Path(u,v),查找关系路径Shorte st_Relation_Path(u,v)中的第一个链接关系类型R1;然后计算出以R1为链接关系类型并从主体u出发的出度O(u|R1);再统计出所有从主体u出发并经过R1链接关系类型而到达的主体节点集合P={p1,p2,...pm};最后计算从主体u到集合P中任一主体pi的影响概率值flow(u,pi);
所述第二路径影响概率值计算子模块,用于根据主体节点v及主体u和v之间的最短关系路径向量Shorte st_Relation_Path(u,v),查找关系路径Shorte st_Relation_Path(u,v)中的最后一个链接关系类型R1;然后计算出以R1为链接关系类型并到达主体v的入度I(v|Rl);再以R1链接关系类型统计出所有到达主体v的主体节点集合Q={q1,q2,...qk};最后计算出从Q内任一主体qj到主体v的影响概率值flow(qj,v);
所述相同主体判断子模块,用于利用第一路径影响概率值计算子模块获得主体u到集合P中任一主体pi的影响概率值flow(u,pi),以及第二路径影响概率值计算子模块获得Q内任一主体qj到主体v的影响概率值flow(qj,v);并将影响概率flow(u,pi)、flow(qj,v)求和;判断主体pi与qj是否相同,相同则表示主体pi与qj为同一主体节点,跳转到所述社会关系预测模块;
所述迭代计算子模块,用于将主体u重置为主体pi,主体v重置为主体qj并转第一路径影响概率值计算子模块;具体公式为:
其中,
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多源异构网络中社会关系的预测方法,其特征在于,所述方法包括如下步骤:(1)对网络G=(V,E)按照相等的时间片长度分别进行划分,分成n个时间片快照,整个网络表示为G=(T1,T2,T3,...,Tn);其中对于网络G=(V,E),其中V表示网络中所有主体(用户)集合,E表示所有主体间存在的链接关系集合;
(2)统计两两主体的时序动作特征向量Edge_Vector(·),并对主体的时序特征向量Edge_Vector(·)内所有元素求和,从而得到主体间的链接关系的时序权重w(u,v);
(3)分别对异构网络Gs=(Vs,Es)、Gt=(Vt,Et)采用步骤(1)(2)的方法获得网络主体之间的时序权重ws、wt,通过计算Gs、Gt中重叠的用户即同时存在于两个网络中的主体v,v∈Vs且v∈Vt,从而将Gs、Gt网络组合成Gnew;
(4)以最小路径权重和为原则采用最短路径Dijkstra算法,计算网络Gnew中主体间的最短时序权重路径;根据最短时序权重路径所属的链接关系从而构成最短关系路径Shortest_Relation_Path;
(5)预测异构网络Gnew中主体之间潜在的社会关系概率,根据已知的异构网络Gne中的主体u和主体v之间的最短关系路径Shortest_Relation_Path(u,v)=(R1,R2,...,Rl),采用HeteFlow方法计算u和v间社会关系的概率;
(6)基于给定阈值δ判断异构网络主体u和v之间的社会关系,主体u和v之间的社会关系概率大于设定阈值δ,则存在关系,否则不存在关系。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)中定义的三种链接关系的动作特征具体为:
创建(e)、保留(c)、取消(r),并分别初始化e,c,r为-1、-0.5、2,用于表示在不同时间片中网络主体之间链接关系的动作状态;
采用E(·)、C(·)、R(·)记录主体之间链接关系的动作状态结果,则E(u,v,k),C(u,v,k),R(u,v,k)分别表示时间片k内主体(用户)之间的创建、保留、取消链接关系的动作状态结果;其时序特征的形式化表达如下:
3.如权利要求1或2所述的方法,其特征在于,所述步骤(2)具体包括如下子步骤:
(2-1)统计网络G中任意两主体之间的链接关系在n个时间片内所有的动作状态集合,即时序动作特征向量Edge_Vector(·);
(2-2)将主体的时序特征向量Edge_Vector(·)中所有元素求和得到主体间链接关系的时序权重w(u,v);对于时序特征向量Edge_Vector(u,v)中的第k个向量元素Edge_Vector(u,v)[k],具体采用如下的公式计算时序权重:
4.如权利要求1或2所述的方法,其特征在于,所述步骤(4)具体包括如下子步骤:
(4-1)初始化主体u到主体集合V中任意主体k的路径权重weight为极大值,将主体集合V中任意主体k的先前主体prev(k)设置为空,源主体u路径权重weight的初始值为0;
(4-2)将集合V中所有主体的路径权重值存放在优先队列H内,并按路径权重值大小排列;只要优先队列H不为空,则首先查找最小的路径权重节点p,并从优先队列H中删除该主体p及其路径权重weight;然后在链接关系集合E中,对于与主体p有链接关系的所有主体q,计算主体p的路径权重与时序权重路径w(p,q)之和;并将该和与主体q的路径权重比较大小;若优先队列H中主体q的路径权重略高,则采用主体p的路径权重与时序权重路径w(p,q)之和进行替换;然后重置主体q的先前主体为p,并更新优先队列H中主体q的路径权重;如此循环迭代优先队列H为空;
(4-3)从目标主体v开始,使用先前主体方法获取主体v的先前主体k;如果先前主体k不是源主体u,则将主体k与v的链接关系类型R保存到关系路径矩阵Shortest_Relation_Path;并将主体k设置为目标主体v,再根据先前主体方法更新先前主体k,如此逆序向前直到找到源主体u循环停止;否则直接将主体u和v之间的链接关系类型保存到关系路径Shortest_Relation_Path中。
5.如权利要求1或2所述的方法,其特征在于,所述步骤(5)具体包括如下子步骤:
(5-1)采用宽度搜索的方式,结合影响最大化中加权级联的方法,获取主体u对其邻居v的影响概率flow(u,v),将主体u的信息值score(u)、主体u和v的时序权重w(u,v)及主体u的度d(u)作为输入,计算出主体u到v的影响概率flow(u,v);其具体公式描述为:
(5-2)根据主体节点u及主体u和v之间的最短关系路径向量Shorte st_Relation_Path(u,v),查找关系路径Shorte st_Relation_Path(u,v)中的第一个链接关系类型R1;然后计算出以R1为链接关系类型并从主体u出发的出度O(u|R1);再统计出所有从主体u出发并经过R1链接关系类型而到达的主体节点集合P={p1,p2,...pm};最后计算从主体u到集合P中任一主体pi的影响概率值flow(u,pi);
(5-3)根据主体节点v及主体u和v之间的最短关系路径向量Shorte st_Relation_Path(u,v),查找关系路径Shorte st_Relation_Path(u,v)中的最后一个链接关系类型R1;然后计算出以R1为链接关系类型并到达主体v的入度I(v|Rl);再以R1链接关系类型统计出所有到达主体v的主体节点集合Q={q1,q2,...qk};最后计算出从Q内任一主体qj到主体v的影响概率值flow(qj,v);
(5-4)采用步骤(5-2)获得主体u到集合P中任一主体pi的影响概率值flow(u,pi);采用步骤(5-3)得到Q内任一主体qj到主体v的影响概率值flow(qj,v);并将影响概率flow(u,pi)、flow(qj,v)求和;判断主体pi与qj是否相同,相同则表示主体pi与qj为同一主体节点,跳转到步骤(6);
(5-5)将主体u重置为主体pi,主体v重置为主体qj重复步骤(5-2);具体公式为:
其中,
6.一种多源异构网络中社会关系的预测系统,其特征在于,所述系统包括网络划分模块、时序权重计算模块、网络组合模块、最短路径计算模块、社会关系概率计算模块以及社会关系预测模块,其中:所述网络划分模块,用于对网络G=(V,E)按照相等的时间片长度分别进行划分,分成n个时间片快照,整个网络表示为G={T1,T2,T3,...,Tn};其中对于网络G=(V,E),其中V表示网络中所有主体(用户)集合,E表示所有主体间存在的链接关系集合;
所述时序权重计算模块,用于统计两两主体的时序动作特征向量Edge_Vector(·),并对主体的时序特征向量Edge_Vector(·)内所有元素求和,从而得到主体间的链接关系的时序权重w(u,v);
所述网络组合模块,用于分别对异构网络Gs=(Vs,Es)、Gt=(Vt,Et)采用网络划分模块及时序权重计算模块获得网络主体之间的时序权重ws、wt,通过计算Gs、Gt中重叠的用户即同时存在于两个网络中的主体v,v∈Vs且v∈Vt,从而将Gs、Gt网络组合成Gnew;
所述最短路径计算模块,用于以最小路径权重和为原则采用最短路径Dijkstra算法,计算网络Gnew中主体间的最短时序权重路径;根据最短时序权重路径所属的链接关系从而构成最短关系路径Shortest_Relation_Path;
所述社会关系概率计算模块,用于预测异构网络Gnew中主体之间潜在的社会关系概率,根据已知的异构网络Gnew中的主体u和主体v之间的最短关系路径Shortest_Relation_Path(u,v)=(R1,R2,...,Rl),采用HeteFlow方法计算u和v间社会关系的概率;
所述社会关系预测模块,用于基于给定阈值δ判断异构网络主体u和v之间的社会关系,主体u和v之间的社会关系概率大于设定阈值δ,则存在关系,否则不存在关系。
7.如权利要求6所述的系统,其特征在于,所述网络划分模块中定义的三种链接关系的动作特征具体为:
创建(e)、保留(c)、取消(r),并分别初始化e,c,r为-1、-0.5、2,用于表示在不同时间片中网络主体之间链接关系的动作状态;
采用E(·)、C(·)、R(·)记录主体之间链接关系的动作状态结果,则E(u,v,k),C(u,v,k),R(u,v,k)分别表示时间片k内主体(用户)之间的创建、保留、取消链接关系的动作状态结果;其时序特征的形式化表达如下:
8.如权利要求6或7所述的系统,其特征在于,所述时序权重计算模块具体包括时序动作特征向量统计子模块和时序权重计算子模块,其中:
所述时序动作特征向量统计子模块,用于统计网络G中任意两主体之间的链接关系在n个时间片内所有的动作状态集合,即时序动作特征向量Edge_Vector(·);
所述时序权重计算子模块,用于将主体的时序特征向量Edge_Vector(·)中所有元素求和得到主体间链接关系的时序权重w(u,v);对于时序特征向量Edge_Vector(u,v)中的第k个向量元素Edge_Vector(u,v)[k],具体采用如下的公式计算时序权重:
9.如权利要求6或7所述的系统,其特征在于,所述最短路径计算模块具体包括权重值初始化子模块、路径权重计算子模块以及最短路径生成子模块,其中:
权重值初始化子模块,用于初始化主体u到主体集合V中任意主体k的路径权重weight为极大值,将主体集合V中任意主体k的先前主体prev(k)设置为空,源主体u路径权重weight的初始值为0;
所述路径权重计算子模块,用于将集合V中所有主体的路径权重值存放在优先队列H内,并按路径权重值大小排列;只要优先队列H不为空,则首先查找最小的路径权重节点p,并从优先队列H中删除该主体p及其路径权重weight;然后在链接关系集合E中,对于与主体p有链接关系的所有主体q,计算主体p的路径权重与时序权重路径w(p,q)之和;并将该和与主体q的路径权重比较大小;若优先队列H中主体q的路径权重略高,则采用主体p的路径权重与时序权重路径w(p,q)之和进行替换;然后重置主体q的先前主体为p,并更新优先队列H中主体q的路径权重;如此循环迭代优先队列H为空;
所述最短路径生成子模块,用于从目标主体v开始,使用先前主体方法获取主体v的先前主体k;如果先前主体k不是源主体u,则将主体k与v的链接关系类型R保存到关系路径矩阵Shortest_Relation_Path;并将主体k设置为目标主体v,再根据先前主体方法更新先前主体k,如此逆序向前直到找到源主体u循环停止;否则直接将主体u和v之间的链接关系类型保存到关系路径Shortest_Relation_Path中。
10.如权利要求6或7所述的系统,其特征在于,所述步骤社会关系概率计算模块具体包括影响概率计算子模块、第一路径影响概率值计算子模块、第二路径影响概率值计算子模块、相同主体判断子模块以及迭代计算子模块,其中:
所述影响概率计算子模块,用于采用宽度搜索的方式,结合影响最大化中加权级联的方法,获取主体u对其邻居v的影响概率flow(u,v),将主体u的信息值score(u)、主体u和v的时序权重w(u,v)及主体u的度d(u)作为输入,计算出主体u到v的影响概率flow(u,v);其具体公式描述为:
所述第一路径影响概率值计算子模块,用于根据主体节点u及主体u和v之间的最短关系路径向量Shorte st_Relation_Path(u,v),查找关系路径Shorte st_Relation_Path(u,v)中的第一个链接关系类型R1;然后计算出以R1为链接关系类型并从主体u出发的出度O(u|R1);再统计出所有从主体u出发并经过R1链接关系类型而到达的主体节点集合P={p1,p2,...px};最后计算从主体u到集合P中任一主体pi的影响概率值flow(u,pi);
所述第二路径影响概率值计算子模块,用于根据主体节点v及主体u和v之间的最短关系路径向量Shorte st_Relation_Path(u,v),查找关系路径Shorte st_Relation_Path(u,v)中的最后一个链接关系类型R1;然后计算出以R1为链接关系类型并到达主体v的入度I(v|Rl);再以R1链接关系类型统计出所有到达主体v的主体节点集合Q={q1,q2,...qk};最后计算出从Q内任一主体qj到主体v的影响概率值flow(qj,v);
所述相同主体判断子模块,用于利用第一路径影响概率值计算子模块获得主体u到集合P中任一主体pi的影响概率值flow(u,pi),以及第二路径影响概率值计算子模块获得Q内任一主体qj到主体v的影响概率值flow(qj,v);并将影响概率flow(u,pi)、flow(qj,v)求和;判断主体pi与qj是否相同,相同则表示主体pi与qj为同一主体节点,跳转到所述社会关系预测模块;
所述迭代计算子模块,用于将主体u重置为主体pi,主体v重置为主体qj并转第一路径影响概率值计算子模块;具体公式为:
其中,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410734192.9A CN104484365B (zh) | 2014-12-05 | 2014-12-05 | 一种多源异构在线社会网络中网络主体之间社会关系的预测方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410734192.9A CN104484365B (zh) | 2014-12-05 | 2014-12-05 | 一种多源异构在线社会网络中网络主体之间社会关系的预测方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104484365A true CN104484365A (zh) | 2015-04-01 |
CN104484365B CN104484365B (zh) | 2017-12-12 |
Family
ID=52758906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410734192.9A Active CN104484365B (zh) | 2014-12-05 | 2014-12-05 | 一种多源异构在线社会网络中网络主体之间社会关系的预测方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104484365B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631752A (zh) * | 2016-03-22 | 2016-06-01 | 南京信息工程大学 | 一种改进Dijkstra权重的社交网络抽样生成算法 |
CN106529562A (zh) * | 2016-09-09 | 2017-03-22 | 浙江工业大学 | 一种基于Email网络的开源软件项目开发者预测方法 |
CN109194509A (zh) * | 2018-08-28 | 2019-01-11 | 浙江工业大学 | 一种基于路径强弱关系和社区信息的预测网络连边的方法 |
CN117495481A (zh) * | 2023-10-25 | 2024-02-02 | 宁夏大学 | 一种基于异构时序图关注度网络的物品推荐方法 |
CN117495481B (zh) * | 2023-10-25 | 2024-06-11 | 宁夏大学 | 一种基于异构时序图关注度网络的物品推荐方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107135153A (zh) * | 2017-04-28 | 2017-09-05 | 常州工学院 | 基于传播路径逆向追溯的信源和影响力节点定位方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605793A (zh) * | 2013-12-04 | 2014-02-26 | 西安电子科技大学 | 基于遗传算法的异构社会网络社区检测方法 |
US8665755B2 (en) * | 2010-02-24 | 2014-03-04 | Fujitsu Limited | Communication device, communication system, and route allocation method |
CN103810288A (zh) * | 2014-02-25 | 2014-05-21 | 西安电子科技大学 | 基于聚类算法对异构社会网络进行社区检测的方法 |
CN103942614A (zh) * | 2014-04-09 | 2014-07-23 | 清华大学 | 一种异构网络链接关系的预测方法及系统 |
-
2014
- 2014-12-05 CN CN201410734192.9A patent/CN104484365B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8665755B2 (en) * | 2010-02-24 | 2014-03-04 | Fujitsu Limited | Communication device, communication system, and route allocation method |
CN103605793A (zh) * | 2013-12-04 | 2014-02-26 | 西安电子科技大学 | 基于遗传算法的异构社会网络社区检测方法 |
CN103810288A (zh) * | 2014-02-25 | 2014-05-21 | 西安电子科技大学 | 基于聚类算法对异构社会网络进行社区检测的方法 |
CN103942614A (zh) * | 2014-04-09 | 2014-07-23 | 清华大学 | 一种异构网络链接关系的预测方法及系统 |
Non-Patent Citations (3)
Title |
---|
TOMASZ TYLENDA 等: "Towards Time-aware Link Prediction in Evolving Social Networks", 《SNA-KDD’09 PROCEEDINGS OF THE 3RD WORKSHOP ON SOCIAL NETWORK MINING AND ANALYSIS ARTICLE NO.9》 * |
YIZHOU SUN 等: "When Will It Happen? — Relationship Prediction in Heterogeneous Information Networks", 《MSDM’12 PROCEEDINGS OF THE FIFTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 * |
敬明 等: "结合概率搜索定界的入度统计最短路径算法", 《交通运输系统工程与信息》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631752A (zh) * | 2016-03-22 | 2016-06-01 | 南京信息工程大学 | 一种改进Dijkstra权重的社交网络抽样生成算法 |
CN106529562A (zh) * | 2016-09-09 | 2017-03-22 | 浙江工业大学 | 一种基于Email网络的开源软件项目开发者预测方法 |
CN109194509A (zh) * | 2018-08-28 | 2019-01-11 | 浙江工业大学 | 一种基于路径强弱关系和社区信息的预测网络连边的方法 |
CN109194509B (zh) * | 2018-08-28 | 2022-03-01 | 浙江工业大学 | 一种基于路径强弱关系和社区信息的预测网络连边的方法 |
CN117495481A (zh) * | 2023-10-25 | 2024-02-02 | 宁夏大学 | 一种基于异构时序图关注度网络的物品推荐方法 |
CN117495481B (zh) * | 2023-10-25 | 2024-06-11 | 宁夏大学 | 一种基于异构时序图关注度网络的物品推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104484365B (zh) | 2017-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033234B (zh) | 一种基于状态更新传播的流式图计算方法及系统 | |
Bai et al. | Consensus with a reference state for fractional-order multi-agent systems | |
CN104484365A (zh) | 一种多源异构网络中社会关系的预测方法与系统 | |
CN109992784B (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
Rödder et al. | Entropy based evaluation of net structures–deployed in social network analysis | |
Guo et al. | A general method of community detection by identifying community centers with affinity propagation | |
Chen et al. | A novel trust-based community detection algorithm used in social networks | |
CN103810260A (zh) | 基于拓扑特性的复杂网络社团发现方法 | |
Sefair et al. | A defender-attacker model and algorithm for maximizing weighted expected hitting time with application to conservation planning | |
Moradabadi et al. | Link prediction in fuzzy social networks using distributed learning automata | |
Wu et al. | Estimating fund-raising performance for start-up projects from a market graph perspective | |
Huth et al. | Long-distance rescue and slow extinction dynamics govern multiscale metapopulations | |
CN113610610B (zh) | 基于图神经网络和评论相似度的会话推荐方法和系统 | |
J. Toal et al. | Performance of an ensemble of ordinary, universal, non-stationary and limit Kriging predictors | |
CN102722569A (zh) | 基于rdf图路径游走的知识发现装置及方法 | |
CN110889493A (zh) | 针对关系网络添加扰动的方法及装置 | |
Lewis et al. | Introduction to synchronization in nature and physics and cooperative control for multi-agent systems on graphs | |
Philips et al. | Detecting activity-based communities using dynamic membership propagation | |
WO2009107416A1 (ja) | グラフ構造変化検出装置、グラフ構造変化検出方法およびプログラム | |
WO2022166125A1 (en) | Recommendation system with adaptive weighted baysian personalized ranking loss | |
Li et al. | DTCMF: Dynamic trust-based context-aware matrix factorization for collaborative filtering | |
Muñoz-Gil et al. | Optimal foraging strategies can be learned | |
Zhang et al. | Improved slime mould algorithm based on hybrid strategy optimization of Cauchy mutation and simulated annealing | |
Coquidé et al. | PageRank computation for Higher-Order networks | |
Zivan et al. | The effect of asynchronous execution and message latency on max-sum |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |