CN109993338A - 一种链路预测方法及装置 - Google Patents
一种链路预测方法及装置 Download PDFInfo
- Publication number
- CN109993338A CN109993338A CN201711481642.8A CN201711481642A CN109993338A CN 109993338 A CN109993338 A CN 109993338A CN 201711481642 A CN201711481642 A CN 201711481642A CN 109993338 A CN109993338 A CN 109993338A
- Authority
- CN
- China
- Prior art keywords
- network node
- node
- network
- neighbor
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000011159 matrix material Substances 0.000 claims description 124
- 238000012545 processing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种链路预测方法及装置,用以解决现有技术中链路预测方法导致预测的结果准确度低的问题。在该方法中,将待预测的网络划分成多个社团,针对每个社团中未连接的第一网络节点和第二网络节点执行:通过第一网络节点与第二网络节点的至少一个邻居节点之间的结构相似度,以及第二网络节点和第一网络节点的至少一个邻居节点之间的结构相似度,确定所述第一网络节点和所述第二网络节点之间的连接概率。这样,基于未连接的两个网络节点与各自对应的网络节点的邻居节点之间的结构相似度,确定为连接的两个网络节点之间的连接概率,而无需考虑网络节点的属性信息,这样可以使确定的所述未连接的两个网络节点之间的连接概率准确度较高。
Description
技术领域
本发明涉及链路预测领域,尤其涉及一种链路预测方法及装置。
背景技术
链路预测是指如何通过已知的网络节点以及网络结构等信息预测网络中尚未产生连边的两个节点之间产生链接的可能性。随着科学技术的不断发展,人与人、人与物之间连接关系越来越紧密,人与人、人与物之间的相互关系通常由抽象化的网络去模拟,因此可以通过链路预测来推测未连接的人与人、人与物之间在未来产生连接的可能性。
目前,通常通过各网络节点的属性信息来进行链路预测,例如,在预测论文发表网络中不同的两个人之间的合作可能性时,考虑不同个体的属性信息如各自研究兴趣、各自合作者、是否属于共同机构、是否参加过相关会议等等,然后将上述不同的因素赋予不同的权值来计算所述两个人之间合作的可能性。
但是,在实际应用中,由于网络节点的属性信息往往由于隐私或者不统一会很难被完整地获取到,且部分网络中的网络节点的属性信息存在虚假或者不准确的情况,因此,采用上述链路预测方法会导致预测的结果准确度低。
发明内容
本发明提供一种链路预测方法及装置,用以解决现有技术中链路预测方法导致预测的结果准确度低的问题。
本发明提供的具体技术方案如下:
第一方面,本发明实施例提供了一种链路预测方法,包括:
将待预测的网络划分成多个社团,其中,任一个社团包含多个网络节点;
通过以下步骤,确定任一个社团中的第一网络节点和第二网络节点之间的连接概率,其中所述第一网络节点和所述第二网络节点为所述社团中任一对未连接的网络节点:
确定所述第一网络节点与至少一个第三网络节点中每个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与至少一个第四网络节点中每个第四网络节点之间的第二结构相似度;其中,所述至少一个第三网络节点为所述第二网络节点的邻居节点,所述至少一个第四网络节点为所述第一网络节点的邻居节点;
根据确定的至少一个第一结构相似度和至少一个第二结构相似度确定所述第一网络节点和所述第二网络节点之间的连接概率。
可选的,确定所述第一网络节点与任一个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与任一个第四网络节点之间的第二结构相似度,包括:
根据所述社团中的多个网络节点之间的连接关系,确定邻接矩阵;
将所述邻接矩阵自相乘,得到第一中间矩阵,所述第一中间矩阵指示所述社团中的多个网络节点中每两个网络节点之间的共同邻居节点个数;
将所述邻接矩阵的每行中的值相加,得到第二中间矩阵,所述第二中间矩阵指示所述社团中的每个网络节点的邻居节点个数;
根据所述第一中间矩阵确定所述第一网络节点与该第三网络节点之间的第一共同邻居节点个数,根据所述第二中间矩阵确定所述第一网络节点的第一邻居节点个数和该第三网络节点的第二邻居节点个数,并根据所述第一共同邻居节点个数、所述第一邻居节点个数和所述第二邻居节点个数,确定所述第一网络节点和该第三网络节点之间的第一结构相似度;以及
根据所述第一中间矩阵确定所述第二网络节点与该第四网络节点之间的第二共同邻居节点个数,根据所述第二中间矩阵确定所述第二网络节点的第三邻居节点个数和该第四网络节点的第四邻居节点个数,并根据所述第二共同邻居节点个数、所述第三邻居节点个数和所述第四邻居节点个数,确定所述第二网络节点和该第四网络节点之间的第二结构相似度。
可选的,确定任两个网络节点之间的结构相似度Simx,y,符合以下公式:
其中,A为网络节点x和网络节点y之间的共同邻居节点个数;D(x)为网络节点x的邻居节点个数;D(y)为网络节点y的邻居节点个数。
可选的,确定所述第一网络节点和所述第二网络节点之间的连接概率Sa,b,符合以下公式:
其中,Γ(a)为第一网络节点a的邻居节点集合;Γ(b)为第二网络节点b的邻居节点集合;c为Γ(a)中任一个网络节点;d为Γ(b)中任一个网络节点;Sima,c为所述第一网络节点a与网络节点c之间的结构相似度;Simb,d为所述第二网络节点b与网络节点d之间的结构相似度。
可选的,在确定所述第一网络节点和所述第二网络节点之间的连接概率之后,还包括:
确定所述连接概率的准确度。
第二方面,本发明实施例提供了一种链路预测装置,包括:
划分单元,用于将待预测的网络划分成多个社团,其中,任一个社团包含多个网络节点;
处理单元,用于通过以下步骤,确定任一个社团中的第一网络节点和第二网络节点之间的连接概率,其中所述第一网络节点和所述第二网络节点为所述社团中任一对未连接的网络节点:
确定所述第一网络节点与至少一个第三网络节点中每个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与至少一个第四网络节点中每个第四网络节点之间的第二结构相似度;其中,所述至少一个第三网络节点为所述第二网络节点的邻居节点,所述至少一个第四网络节点为所述第一网络节点的邻居节点;
根据确定的至少一个第一结构相似度和至少一个第二结构相似度确定所述第一网络节点和所述第二网络节点之间的连接概率。
可选的,所述处理单元,在确定所述第一网络节点与任一个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与任一个第四网络节点之间的第二结构相似度时,具体用于:
根据所述社团中的多个网络节点之间的连接关系,确定邻接矩阵;
将所述邻接矩阵自相乘,得到第一中间矩阵,所述第一中间矩阵指示所述社团中的多个网络节点中每两个网络节点之间的共同邻居节点个数;
将所述邻接矩阵的每行中的值相加,得到第二中间矩阵,所述第二中间矩阵指示所述社团中的每个网络节点的邻居节点个数;
根据所述第一中间矩阵确定所述第一网络节点与该第三网络节点之间的第一共同邻居节点个数,根据所述第二中间矩阵确定所述第一网络节点的第一邻居节点个数和该第三网络节点的第二邻居节点个数,并根据所述第一共同邻居节点个数、所述第一邻居节点个数和所述第二邻居节点个数,确定所述第一网络节点和该第三网络节点之间的第一结构相似度;以及
根据所述第一中间矩阵确定所述第二网络节点与该第四网络节点之间的第二共同邻居节点个数,根据所述第二中间矩阵确定所述第二网络节点的第三邻居节点个数和该第四网络节点的第四邻居节点个数,并根据所述第二共同邻居节点个数、所述第三邻居节点个数和所述第四邻居节点个数,确定所述第二网络节点和该第四网络节点之间的第二结构相似度。
可选的,所述处理单元,在确定任两个网络节点之间的结构相似度Simx,y时,符合以下公式:
其中,A为网络节点x和网络节点y之间的共同邻居节点个数;D(x)为网络节点x的邻居节点个数;D(y)为网络节点y的邻居节点个数。
可选的,所述处理单元,在确定所述第一网络节点和所述第二网络节点之间的连接概率Sa,b时,符合以下公式:
其中,Γ(a)为第一网络节点a的邻居节点集合;Γ(b)为第二网络节点b的邻居节点集合;c为Γ(a)中任一个网络节点;d为Γ(b)中任一个网络节点;Sima,c为所述第一网络节点a与网络节点c之间的结构相似度;Simb,d为所述第二网络节点b与网络节点d之间的结构相似度。
可选的,所述处理单元,还用于:
在确定所述第一网络节点和所述第二网络节点之间的连接概率之后,确定所述连接概率的准确度。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述链路预测方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述链路预测方法。
本发明实施例的技术方案中,将待预测的网络划分成多个社团,针对每个社团中未连接的第一网络节点和第二网络节点执行:通过第一网络节点与第二网络节点的至少一个邻居节点之间的结构相似度,以及第二网络节点和第一网络节点的至少一个邻居节点之间的结构相似度,确定所述第一网络节点和所述第二网络节点之间的连接概率。在该方法中,基于未连接的两个网络节点与各自对应的网络节点的邻居节点之间的结构相似度,确定为连接的两个网络节点之间的连接概率,而无需考虑网络节点的属性信息,这样可以使确定的所述未连接的两个网络节点之间的连接概率准确度较高。
附图说明
图1为本发明实施例提供的一种链路预测方法的流程图;
图2为本发明实施例提供的一种划分的网络的示意图;
图3为本发明实施例提供的一种社团的结构示意图;
图4为本发明实施例提供的一种链路预测装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供一种链路预测方法及装置,用以解决现有技术中链路预测方法导致预测的结果准确度低的问题。其中,本发明所述方法和装置基于同一发明构思,由于方法及装置解决问题的原理相似,因此装置与方法的实施可以相互参见,重复之处不再赘述。
本发明实施例的技术方案中,将待预测的网络划分成多个社团,针对每个社团中未连接的第一网络节点和第二网络节点执行:通过第一网络节点与第二网络节点的至少一个邻居节点之间的结构相似度,以及第二网络节点和第一网络节点的至少一个邻居节点之间的结构相似度,确定所述第一网络节点和所述第二网络节点之间的连接概率。在该方法中,基于未连接的两个网络节点与各自对应的网络节点的邻居节点之间的结构相似度,确定为连接的两个网络节点之间的连接概率,而无需考虑网络节点的属性信息,这样可以使确定的所述未连接的两个网络节点之间的连接概率准确度较高。
本发明实施例中涉及的网络可以是分子生物学、地理信息学、社会学、生命科学、经济学等领域中的网络。
为了更加清晰地描述本发明实施例的技术方案,下面结合附图,对本发明实施例提供的链路预测方法及装置进行详细说明。
本发明实施例提供的一种链路预测方法,参阅图1所示,该方法的具体流程包括:
步骤101:将待预测的网络划分成多个社团,其中,任一个社团包含多个网络节点。
可选的,可以采用社团划分算法等将所述网络划分成多个社团,例如,可以采用提高链式(Kernighan-Lin)算法。其中,采用所述Kernighan-Lin算法对网络进行划分时,是将网络中差异较小的网络节点划分到同一个社团中,进而形成多个社团,具体过程可以为:首先对网络进行随机划分,得到初始的社团,然后分别对来自不同的社团的所有网络节点对进行增益函数的计算,其中所述增益函数为两个社团内部的连边总数与连接这两个社团的边数的差值,选择增益函数最大的网络节点对进行交换,并不断重复上述过程,直至社团的结构稳定为止,即直至任一社团中的所有的网络节点都被交换一次为止。
例如,图2为划分成多个社团的网络的示意图,其中,图2中的网络包含三个社团,每个虚线圈中的所有网络节点均组成一个社团。
步骤102:确定任一个社团中的第一网络节点与至少一个第三网络节点中每个第三网络节点之间的第一结构相似度,以及确定所述社团中的第二网络节点与至少一个第四网络节点中每个第四网络节点之间的第二结构相似度;其中,所述第一网络节点和所述第二网络节点为所述社团中任一对未连接的网络节点,所述至少一个第三网络节点为所述第二网络节点的邻居节点,所述至少一个第四网络节点为所述第一网络节点的邻居节点。
可选的,确定任两个网络节点之间的结构相似度Simx,y,符合以下公式一:
其中,上述公式一种A为网络节点x和网络节点y之间的共同邻居节点个数;D(x)为网络节点x的邻居节点个数;D(y)为网络节点y的邻居节点个数。
可选的,确定所述第一网络节点与任一个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与任一个第四网络节点之间的第二结构相似度,具体方法可以分为以下四个步骤:
a1、根据所述社团中的多个网络节点之间的连接关系,确定邻接矩阵;
a2、将所述邻接矩阵自相乘,得到第一中间矩阵,所述第一中间矩阵指示所述社团中的多个网络节点中每两个网络节点之间的共同邻居节点个数;
a3、将所述邻接矩阵的每行中的值相加,得到第二中间矩阵,所述第二中间矩阵指示所述社团中的每个网络节点的邻居节点个数;
a4、根据所述第一中间矩阵确定所述第一网络节点与该第三网络节点之间的第一共同邻居节点个数,根据所述第二中间矩阵确定所述第一网络节点的第一邻居节点个数和该第三网络节点的第二邻居节点个数,并根据所述第一共同邻居节点个数、所述第一邻居节点个数和所述第二邻居节点个数,确定所述第一网络节点和该第三网络节点之间的第一结构相似度;以及
根据所述第一中间矩阵确定所述第二网络节点与该第四网络节点之间的第二共同邻居节点个数,根据所述第二中间矩阵确定所述第二网络节点的第三邻居节点个数和该第四网络节点的第四邻居节点个数,并根据所述第二共同邻居节点个数、所述第三邻居节点个数和所述第四邻居节点个数,确定所述第二网络节点和该第四网络节点之间的第二结构相似度。
例如,图3为一个社团的结构示意图,所述社团中实线连接的网络节点对表示当前已有连接关系的网络节点对,例如图中的网络节点1和网络节点2;虚线连接的网络节点对为未连接的网络节点对,例如图中的网络节点1和网络节点4。以图3为例对上述步骤a1-a4进行详细说明:
在上述步骤a1中,根据图3所示的社团中的多个网络节点之间的连接关系,可以确定的邻接矩阵TRAIN为:
其中,上述邻接矩阵中矩阵的左边和矩阵上边的1-5均表示网络节点的标识,矩阵中的值1表示两个网络节点之间已连接,例如从图3中可看出网络节点1和网络节点2之间已连接,则在上述邻接矩阵中网络节点1和网络节点2之间的对应的值为1;值0表示两个网络节点之间未连接,例如从图3中可看出网络节点1和网络节点4之间未连接,则在上述邻接矩阵中网络节点1和网络节点3之间的对应的值为0。因此从上述邻接矩阵中可以看出任意两个网络节点之间的连接关系。
在上述步骤a2中,根据上述步骤a1中的邻接矩阵可以得到所述第一中间矩阵为:
具体的,上述第一中间矩阵中的值表示每两个网络节点中的共同邻居节点个数,例如,从图3中可以看出网络节点1的邻居节点为网络节点2,网络节点4的邻居节点为网络节点2和网络节点5,由此可知,网络节点1和网络节点4有一个共同邻居节点(网络节点2),即网络节点1和网络节点4之间的共同邻居节点个数为1,因此在上述第一中间矩阵中网络节点1和网络节点4之间对应的矩阵的值为1。由此可知,可以通过第一中间矩阵确定任意两个网络节点之间的共同邻居节点个数。
在上述步骤a3中,根据上述步骤a1中的邻接矩阵可以得到所述第二中间矩阵为:
其中,上述第二中间矩阵中的值表示每个网络节点的邻居节点个数,例如图3所示的网络节点2的邻居节点有网络节点1、网络节点4和网络节点5三个网络节点,即网络节点2的邻居节点个数为3,可以看出在上述第二中间矩阵中网络节点2对应的值为3。由此可知,可以通过第二中间矩阵中的值确定每个网络节点对应的邻居节点个数,例如网络节点4的邻居节点个数为2。
在上述步骤a4中,假设图3中的网络节点1为所述第一网络节点,网络节点4为所述第二网络节点,进而可以得出网络节点2和网络节点5均为第三网络节点,网络节点2也为第四网络节点。下面仅以确定网络节点1和网络节点5之间的第一结构相似度为例对步骤a4中的方法进行说明:由上述第一中间矩阵可以确定网络节点1和网络节点5之间的第一共同邻居个数为1;由上述第二中间矩阵可以确定网络节点1的第一邻居节点个数为1,网络节点5的第二邻居节点个数为3;最后根据确定第一共同邻居个数1、第一邻居节点个数1和第二邻居节点个数3可以确定出网络节点1和网络节点5之间的第一结构相似度。具体的,可以将第一共同邻居个数1、第一邻居节点个数1和第二邻居节点个数3代入上述公式一中,得到所述第一结构相似度。
其他结构相似度(例如第二结构相似度)的确定方法与上述方法确定第一结构相似度的方法相同,可以相互参见,此处不再赘述。
通过上述方法可以确定任两个网络节点之间的结构相似度,进而可以使得确定任一个社团中任一对未连接的网络节点之间的连接概率。
步骤103:根据确定的至少一个第一结构相似度和至少一个第二结构相似度确定所述第一网络节点和所述第二网络节点之间的连接概率。
可选的,确定所述第一网络节点和所述第二网络节点之间的连接概率Sa,b,符合以下公式二:
其中,Γ(a)为第一网络节点a的邻居节点集合;Γ(b)为第二网络节点b的邻居节点集合;c为Γ(a)中任一个网络节点;d为Γ(b)中任一个网络节点;Sima,c为所述第一网络节点a与网络节点c之间的结构相似度;Simb,d为所述第二网络节点b与网络节点d之间的结构相似度。
例如,仍以图3为例,假设网络节点1为所述第一网络节点,网络节点4为所述第二网络节点。网络节点1的邻居节点集合为{网络节点2},网络节点4的邻居节点集合为{网络节点2,网络节点5},首先需要确定网络节点1与网络节点2之间的第一结构相似度、网络节点1和网络节点5之间的第一结构相似度、网络节点4和网络节点2之间的第二结构相似度;然后将确定的上述两个第一结构相似度和第二结构相似度代入上述公式二中可以得到网络节点1和网络节点4之间的连接概率S1,4。
可选的,在确定所述第一网络节点和所述第二网络节点之间的连接概率之后,还可以确定所述连接概率的准确度。这样可以对通过上述方法预测的连接概率进行准确度分析,以验证采用本发明实施例提供的链路预测方法比现有的链路预测方法预测的网络节点之间的准确度高。
可选的,确定所述准确度的方法可以为:
确定任一社团需要预测连接概率的测试集,所述测试集含多个未连接的网络节点对;并确定测试集矩阵,所述测试集矩阵指示测试集中的网络节点之间的未连接关系;
将所述社团的网络节点的完全图矩阵减去邻接矩阵,再减去测试集矩阵,确定不存在边集矩阵;其中完全图矩阵为任两个网络节点均已连接的矩阵,完全图矩阵中第i行第i列的值为0,其余的值全为1;
确定所述社团中每两个网络节点之间的连接概率,得到总连接概率矩阵,并根据所述测试集矩阵在所述总连接概率矩阵中确定对应所述测试集矩阵的第一概率矩阵,以及根据所述不存在边集矩阵在所述总连接概率矩阵中确定对应所述不存在边集矩阵的第二概率矩阵;
根据所述第一概率矩阵和所述第二概率矩阵中的值进行独立比较,得到比较结果,并通过以下公式三得到所述准确度AUC:
其中,n表示独立比较的次数,n'为从第一概率矩阵中选择的值大于从第二概率矩阵中选择的值的次数,n”为从第一概率矩阵中选择的值等于从第二概率矩阵中选择的值的次数。
例如,仍以图3所示的网络社团为例,对上述确定准确度的方法进行说明:
假设测试集为{(网络节点1,网络节点4),(网络节点2,网络节点3)},即图3中虚线所示的网络节点对;确定的测试集矩阵为:
其中,所述测试集矩阵中的值1表示未连接的网络节点,即测试集中的网络节点对,例如,网络节点1和网络节点4对应的值为1。
其次,得到所述不存在边集矩阵为:
其中,所述不存在边集矩阵中的值1表示所述社团中除测试集之外的未连接的网络节点对,例如网络节点1和网络节点3未连接,且不在测试集中,所以对应的矩阵中的值为1。
之后,通过本发明实施例提供的链路预测方法可以确定所述社团中任两个网络节点之间的连接概率,从而得到总连接概率矩阵如下:
上述总连接概率矩阵中的“x”为空或者为任意值;
进而通过所述总连接概率矩阵可以得到第一概率矩阵和第二概率矩阵如下:
其中所述第一概率矩阵中不为零的值为测试集矩阵中值为1的两个网络节点对应的总概率矩阵中的值,所述第二概率矩阵中不为零的值为不存在边集矩阵中值为1的两个网络节点对应的总概率矩阵中的值。
下面,以计算S1,4为例具体说明连接概率的计算过程:
首先利用公式一求出网络节点1与网络节点4的所有邻居节点(网络节点2,网络节点5)之间的第一结构相似度:
以及公式一求出网络节点4与网络节点1的所有邻居节点(网络节点2)之间的第二结构相似度:
然后利用公式二求出网络节点1和网络节点4之间的连接概率:
其中,从上述第一概率矩阵可以得出S1,4=0.441,S2,3=0.588;从上述第二概率矩阵可以得出S1,3=0.409,S1,5=0.588,S3,4=0.441。然后进行6次独立比较可以得出如下比较结果:S1,4>S1,3,S1,4<S1,5,S1,4=S3,4,S2,3>S1,3,S2,3=S1,5,S2,3>S3,4。由上述比较结果可以得出n'为3,n”为2,结合n为6可以得出AUC约为0.67。
通过上述方法就可以对本发明实施例提供的链路预测方法得到的连接概率的准确度进行分析,以验证本发明实施例提供的链路预测方法的准确度较高。
采用本发明实施例提供的链路预测方法,将待预测的网络划分成多个社团,针对每个社团中未连接的第一网络节点和第二网络节点执行:通过第一网络节点与第二网络节点的至少一个邻居节点之间的结构相似度,以及第二网络节点和第一网络节点的至少一个邻居节点之间的结构相似度,确定所述第一网络节点和所述第二网络节点之间的连接概率。在该方法中,基于未连接的两个网络节点与各自对应的网络节点的邻居节点之间的结构相似度,确定为连接的两个网络节点之间的连接概率,而无需考虑网络节点的属性信息,这样可以使确定的所述未连接的两个网络节点之间的连接概率准确度较高。并且先进行社团划分,可以降低计算复杂度,提高工作效率。
基于以上实施例,本发明实施例还提供了一种链路预测装置,该链路预测装置具有实现如图1所示的链路预测方法的功能,如图4所示,该链路预测装置包括:划分单元401和处理单元402,其中:
所述划分单元401,用于将待预测的网络划分成多个社团,其中,任一个社团包含多个网络节点;
所述处理单元402,用于通过以下步骤,确定任一个社团中的第一网络节点和第二网络节点之间的连接概率,其中所述第一网络节点和所述第二网络节点为所述社团中任一对未连接的网络节点:
确定所述第一网络节点与至少一个第三网络节点中每个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与至少一个第四网络节点中每个第四网络节点之间的第二结构相似度;其中,所述至少一个第三网络节点为所述第二网络节点的邻居节点,所述至少一个第四网络节点为所述第一网络节点的邻居节点;
根据确定的至少一个第一结构相似度和至少一个第二结构相似度确定所述第一网络节点和所述第二网络节点之间的连接概率。
可选的,所述处理单元402,在确定所述第一网络节点与任一个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与任一个第四网络节点之间的第二结构相似度时,具体用于:
根据所述社团中的多个网络节点之间的连接关系,确定邻接矩阵;
将所述邻接矩阵自相乘,得到第一中间矩阵,所述第一中间矩阵指示所述社团中的多个网络节点中每两个网络节点之间的共同邻居节点个数;
将所述邻接矩阵的每行中的值相加,得到第二中间矩阵,所述第二中间矩阵指示所述社团中的每个网络节点的邻居节点个数;
根据所述第一中间矩阵确定所述第一网络节点与该第三网络节点之间的第一共同邻居节点个数,根据所述第二中间矩阵确定所述第一网络节点的第一邻居节点个数和该第三网络节点的第二邻居节点个数,并根据所述第一共同邻居节点个数、所述第一邻居节点个数和所述第二邻居节点个数,确定所述第一网络节点和该第三网络节点之间的第一结构相似度;以及
根据所述第一中间矩阵确定所述第二网络节点与该第四网络节点之间的第二共同邻居节点个数,根据所述第二中间矩阵确定所述第二网络节点的第三邻居节点个数和该第四网络节点的第四邻居节点个数,并根据所述第二共同邻居节点个数、所述第三邻居节点个数和所述第四邻居节点个数,确定所述第二网络节点和该第四网络节点之间的第二结构相似度。
可选的,所述处理单元402,在确定任两个网络节点之间的结构相似度Simx,y时,符合以下公式:
其中,A为网络节点x和网络节点y之间的共同邻居节点个数;D(x)为网络节点x的邻居节点个数;D(y)为网络节点y的邻居节点个数。
可选的,所述处理单元402,在确定所述第一网络节点和所述第二网络节点之间的连接概率Sa,b时,符合以下公式:
其中,Γ(a)为第一网络节点a的邻居节点集合;Γ(b)为第二网络节点b的邻居节点集合;c为Γ(a)中任一个网络节点;d为Γ(b)中任一个网络节点;Sima,c为所述第一网络节点a与网络节点c之间的结构相似度;Simb,d为所述第二网络节点b与网络节点d之间的结构相似度。
可选的,所述处理单元402,还用于:在确定所述第一网络节点和所述第二网络节点之间的连接概率之后,确定所述连接概率的准确度。
采用本发明实施例提供的链路预测装置,将待预测的网络划分成多个社团,针对每个社团中未连接的第一网络节点和第二网络节点执行:通过第一网络节点与第二网络节点的至少一个邻居节点之间的结构相似度,以及第二网络节点和第一网络节点的至少一个邻居节点之间的结构相似度,确定所述第一网络节点和所述第二网络节点之间的连接概率。这样,基于未连接的两个网络节点与各自对应的网络节点的邻居节点之间的结构相似度,确定为连接的两个网络节点之间的连接概率,而无需考虑网络节点的属性信息,这样可以使确定的所述未连接的两个网络节点之间的连接概率准确度较高。并且先进行社团划分,可以降低计算复杂度,提高工作效率。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
基于上述实施例,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述的链路预测方法。
基于上述实施例,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述实施例所述的链路预测方法。
综上所述,本发明实施例提供了一种链路预测方法及装置,在该方法中,将待预测的网络划分成多个社团,针对每个社团中未连接的第一网络节点和第二网络节点执行:通过第一网络节点与第二网络节点的至少一个邻居节点之间的结构相似度,以及第二网络节点和第一网络节点的至少一个邻居节点之间的结构相似度,确定所述第一网络节点和所述第二网络节点之间的连接概率。这样,基于未连接的两个网络节点与各自对应的网络节点的邻居节点之间的结构相似度,确定为连接的两个网络节点之间的连接概率,而无需考虑网络节点的属性信息,这样可以使确定的所述未连接的两个网络节点之间的连接概率准确度较高。并且先进行社团划分,可以降低计算复杂度,提高工作效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种链路预测方法,其特征在于,包括:
将待预测的网络划分成多个社团,其中,任一个社团包含多个网络节点;
通过以下步骤,确定任一个社团中的第一网络节点和第二网络节点之间的连接概率,其中所述第一网络节点和所述第二网络节点为所述社团中任一对未连接的网络节点:
确定所述第一网络节点与至少一个第三网络节点中每个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与至少一个第四网络节点中每个第四网络节点之间的第二结构相似度;其中,所述至少一个第三网络节点为所述第二网络节点的邻居节点,所述至少一个第四网络节点为所述第一网络节点的邻居节点;
根据确定的至少一个第一结构相似度和至少一个第二结构相似度确定所述第一网络节点和所述第二网络节点之间的连接概率。
2.如权利要求1所述的方法,其特征在于,确定所述第一网络节点与任一个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与任一个第四网络节点之间的第二结构相似度,包括:
根据所述社团中的多个网络节点之间的连接关系,确定邻接矩阵;
将所述邻接矩阵自相乘,得到第一中间矩阵,所述第一中间矩阵指示所述社团中的多个网络节点中每两个网络节点之间的共同邻居节点个数;
将所述邻接矩阵的每行中的值相加,得到第二中间矩阵,所述第二中间矩阵指示所述社团中的每个网络节点的邻居节点个数;
根据所述第一中间矩阵确定所述第一网络节点与该第三网络节点之间的第一共同邻居节点个数,根据所述第二中间矩阵确定所述第一网络节点的第一邻居节点个数和该第三网络节点的第二邻居节点个数,并根据所述第一共同邻居节点个数、所述第一邻居节点个数和所述第二邻居节点个数,确定所述第一网络节点和该第三网络节点之间的第一结构相似度;以及
根据所述第一中间矩阵确定所述第二网络节点与该第四网络节点之间的第二共同邻居节点个数,根据所述第二中间矩阵确定所述第二网络节点的第三邻居节点个数和该第四网络节点的第四邻居节点个数,并根据所述第二共同邻居节点个数、所述第三邻居节点个数和所述第四邻居节点个数,确定所述第二网络节点和该第四网络节点之间的第二结构相似度。
3.如权利要求1或2所述的方法,其特征在于,确定任两个网络节点之间的结构相似度Simx,y,符合以下公式:
其中,A为网络节点x和网络节点y之间的共同邻居节点个数;D(x)为网络节点x的邻居节点个数;D(y)为网络节点y的邻居节点个数。
4.如权利要求1或2所述的方法,其特征在于,确定所述第一网络节点和所述第二网络节点之间的连接概率Sa,b,符合以下公式:
其中,Γ(a)为第一网络节点a的邻居节点集合;Γ(b)为第二网络节点b的邻居节点集合;c为Γ(a)中任一个网络节点;d为Γ(b)中任一个网络节点;Sima,c为所述第一网络节点a与网络节点c之间的结构相似度;Simb,d为所述第二网络节点b与网络节点d之间的结构相似度。
5.如权利要求1或2所述的方法,其特征在于,在确定所述第一网络节点和所述第二网络节点之间的连接概率之后,还包括:
确定所述连接概率的准确度。
6.一种链路预测装置,其特征在于,包括:
划分单元,用于将待预测的网络划分成多个社团,其中,任一个社团包含多个网络节点;
处理单元,用于通过以下步骤,确定任一个社团中的第一网络节点和第二网络节点之间的连接概率,其中所述第一网络节点和所述第二网络节点为所述社团中任一对未连接的网络节点:
确定所述第一网络节点与至少一个第三网络节点中每个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与至少一个第四网络节点中每个第四网络节点之间的第二结构相似度;其中,所述至少一个第三网络节点为所述第二网络节点的邻居节点,所述至少一个第四网络节点为所述第一网络节点的邻居节点;
根据确定的至少一个第一结构相似度和至少一个第二结构相似度确定所述第一网络节点和所述第二网络节点之间的连接概率。
7.如权利要求6所述的装置,其特征在于,所述处理单元,在确定所述第一网络节点与任一个第三网络节点之间的第一结构相似度,以及确定所述第二网络节点与任一个第四网络节点之间的第二结构相似度时,具体用于:
根据所述社团中的多个网络节点之间的连接关系,确定邻接矩阵;
将所述邻接矩阵自相乘,得到第一中间矩阵,所述第一中间矩阵指示所述社团中的多个网络节点中每两个网络节点之间的共同邻居节点个数;
将所述邻接矩阵的每行中的值相加,得到第二中间矩阵,所述第二中间矩阵指示所述社团中的每个网络节点的邻居节点个数;
根据所述第一中间矩阵确定所述第一网络节点与该第三网络节点之间的第一共同邻居节点个数,根据所述第二中间矩阵确定所述第一网络节点的第一邻居节点个数和该第三网络节点的第二邻居节点个数,并根据所述第一共同邻居节点个数、所述第一邻居节点个数和所述第二邻居节点个数,确定所述第一网络节点和该第三网络节点之间的第一结构相似度;以及
根据所述第一中间矩阵确定所述第二网络节点与该第四网络节点之间的第二共同邻居节点个数,根据所述第二中间矩阵确定所述第二网络节点的第三邻居节点个数和该第四网络节点的第四邻居节点个数,并根据所述第二共同邻居节点个数、所述第三邻居节点个数和所述第四邻居节点个数,确定所述第二网络节点和该第四网络节点之间的第二结构相似度。
8.如权利要求6或7所述的装置,其特征在于,所述处理单元,在确定任两个网络节点之间的结构相似度Simx,y时,符合以下公式:
其中,A为网络节点x和网络节点y之间的共同邻居节点个数;D(x)为网络节点x的邻居节点个数;D(y)为网络节点y的邻居节点个数。
9.如权利要求6或7所述的装置,其特征在于,所述处理单元,在确定所述第一网络节点和所述第二网络节点之间的连接概率Sa,b时,符合以下公式:
其中,Γ(a)为第一网络节点a的邻居节点集合;Γ(b)为第二网络节点b的邻居节点集合;c为Γ(a)中任一个网络节点;d为Γ(b)中任一个网络节点;Sima,c为所述第一网络节点a与网络节点c之间的结构相似度;Simb,d为所述第二网络节点b与网络节点d之间的结构相似度。
10.如权利要求6或7所述的装置,其特征在于,所述处理单元,还用于:
在确定所述第一网络节点和所述第二网络节点之间的连接概率之后,确定所述连接概率的准确度。
11.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1~5任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1~5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711481642.8A CN109993338B (zh) | 2017-12-29 | 2017-12-29 | 一种链路预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711481642.8A CN109993338B (zh) | 2017-12-29 | 2017-12-29 | 一种链路预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109993338A true CN109993338A (zh) | 2019-07-09 |
CN109993338B CN109993338B (zh) | 2021-08-06 |
Family
ID=67109106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711481642.8A Active CN109993338B (zh) | 2017-12-29 | 2017-12-29 | 一种链路预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109993338B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765491A (zh) * | 2021-04-07 | 2021-05-07 | 中国人民解放军国防科技大学 | 考虑节点局域链接紧密度的链路预测方法和装置 |
US20220272488A1 (en) * | 2021-02-22 | 2022-08-25 | Red Point Positioning Corporation | Method and system to synchronize radio devices in a wireless network |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104581734A (zh) * | 2013-10-17 | 2015-04-29 | 中国移动通信集团广东有限公司 | 一种网络社区划分方法及装置 |
CN105162654A (zh) * | 2015-08-25 | 2015-12-16 | 浙江工业大学 | 一种基于局部社团信息的链路预测方法 |
CN106330541A (zh) * | 2016-08-23 | 2017-01-11 | 浙江工业大学 | 一种基于二阶局部社团和偏好连接的预测网络未知连边的方法 |
KR20170091912A (ko) * | 2016-02-02 | 2017-08-10 | 한국전자통신연구원 | 단말 자원을 활용한 지역삼각형 개수 산출 시스템 및 그 동작 방법 |
CN107222410A (zh) * | 2017-06-29 | 2017-09-29 | 广州杰赛科技股份有限公司 | 链接预测的方法、装置、终端及计算机可读存储介质 |
-
2017
- 2017-12-29 CN CN201711481642.8A patent/CN109993338B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104581734A (zh) * | 2013-10-17 | 2015-04-29 | 中国移动通信集团广东有限公司 | 一种网络社区划分方法及装置 |
CN105162654A (zh) * | 2015-08-25 | 2015-12-16 | 浙江工业大学 | 一种基于局部社团信息的链路预测方法 |
KR20170091912A (ko) * | 2016-02-02 | 2017-08-10 | 한국전자통신연구원 | 단말 자원을 활용한 지역삼각형 개수 산출 시스템 및 그 동작 방법 |
CN106330541A (zh) * | 2016-08-23 | 2017-01-11 | 浙江工业大学 | 一种基于二阶局部社团和偏好连接的预测网络未知连边的方法 |
CN107222410A (zh) * | 2017-06-29 | 2017-09-29 | 广州杰赛科技股份有限公司 | 链接预测的方法、装置、终端及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
QINGSHUANG SUN 等: "An Improved Link Prediction Algorithm Based on Degrees and Similarities of Nodes", 《IEEE》 * |
陈莎 等: "一种基于混合相似性指标的网络动态链路预测方法", 《小型微型计算机系统》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220272488A1 (en) * | 2021-02-22 | 2022-08-25 | Red Point Positioning Corporation | Method and system to synchronize radio devices in a wireless network |
CN112765491A (zh) * | 2021-04-07 | 2021-05-07 | 中国人民解放军国防科技大学 | 考虑节点局域链接紧密度的链路预测方法和装置 |
CN112765491B (zh) * | 2021-04-07 | 2021-06-22 | 中国人民解放军国防科技大学 | 考虑节点局域链接紧密度的链路预测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109993338B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112352234A (zh) | 用于处理并发属性图查询的系统 | |
CN110287942A (zh) | 年龄估计模型的训练方法、年龄估计方法以及对应的装置 | |
Marble et al. | Asymptotically near-optimal planning with probabilistic roadmap spanners | |
CN108898218A (zh) | 一种神经网络模型的训练方法、装置、及计算机设备 | |
RU2607621C2 (ru) | Способ, система и машиночитаемый носитель данных для группирования в социальных сетях | |
CN107688823A (zh) | 一种图像特征获取方法及装置,电子设备 | |
Guo et al. | A parallel attractor finding algorithm based on Boolean satisfiability for genetic regulatory networks | |
CN113255895B (zh) | 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法 | |
CN110213164A (zh) | 一种基于拓扑信息融合的识别网络关键传播者的方法及装置 | |
Knoch et al. | Cycle representatives for the coarse-graining of systems driven into a non-equilibrium steady state | |
CN110414627A (zh) | 一种模型的训练方法及相关设备 | |
CN113516246A (zh) | 参数优化方法、量子芯片的控制方法及装置 | |
CN114077912A (zh) | 数据预测方法以及数据预测装置 | |
CN109993338A (zh) | 一种链路预测方法及装置 | |
CN108364327A (zh) | 一种图数据处理的方法及装置 | |
CN109345252A (zh) | 一种线上交易控制方法、装置、及计算机设备 | |
CN104572687B (zh) | 微博传播的关键用户识别方法和装置 | |
CN109981755A (zh) | 图像识别方法、装置和电子设备 | |
CN105391590A (zh) | 一种自动获取numa架构下系统路由表的方法及系统 | |
CN109615680A (zh) | 基于泰森多边形和距离反比实现无线频谱资源空间分布插值处理的方法、装置及其存储介质 | |
CN113284027B (zh) | 团伙识别模型的训练方法、异常团伙识别方法及装置 | |
François et al. | Global optimization methods for genome scaffolding | |
Chen et al. | Live accurate and dense reconstruction from a handheld camera | |
WO2011131248A1 (en) | Method and apparatus for losslessly compressing/decompressing data | |
Núñez et al. | Optimizing the trade-offs between cost and performance in scientific computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |