CN114283021A - 一种异质网络社团发现方法及系统 - Google Patents

一种异质网络社团发现方法及系统 Download PDF

Info

Publication number
CN114283021A
CN114283021A CN202111499733.0A CN202111499733A CN114283021A CN 114283021 A CN114283021 A CN 114283021A CN 202111499733 A CN202111499733 A CN 202111499733A CN 114283021 A CN114283021 A CN 114283021A
Authority
CN
China
Prior art keywords
nodes
node
chain
centrality
seed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111499733.0A
Other languages
English (en)
Inventor
鲁云军
陈克斌
韩梦瑶
刘乾
郭亮
赵律君
郑雪
苏耀峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111499733.0A priority Critical patent/CN114283021A/zh
Publication of CN114283021A publication Critical patent/CN114283021A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种异质网络社团发现方法及系统。该方法包括步骤:搜索并记录异质网络中所有的交互链;计算该网络中每个节点的交互链中心性,选择区域内交互链中心性最大的节点作为种子节点;确定种子节点的标签,并由种子节点向其相连的且满足预设条件的节点扩散自身的标签,其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。本发明从异质网络形成的交互链出发,能够有效处理异质网络的异质性,探测出符合异质网络实际意义的社团结构。

Description

一种异质网络社团发现方法及系统
技术领域
本发明属于网络技术领域,更具体地,涉及一种异质网络社团发现方法及系统。
背景技术
自无标度网络和小世界网络发现以来,复杂网络一直是学术界研究的热点。将复杂系统抽象为复杂网络并研究,可以深入了解复杂系统的特性,指导人们优化、控制和使用复杂系统。在传统的研究中,通常将复杂系统抽象为同质的复杂网络,即节点和边均是同一属性的。同质复杂网络的研究目前较为广泛,其处理方式也较为方便。然而,随着人们的研究深入,发现将复杂系统抽象为同质网络在许多情况下并不符合事实,这种抽象也过于简单,例如,在引文网络中,节点分为作者、文章以及期刊等三类。因此,目前已有众多学者开始研究异质网络,用于发现真实复杂系统的性质。
社团结构是复杂网络演化出的重要结构。社团结构通常具有以下特征:社团内部节点连接较为紧密,社团之间连接较为疏松。发现和研究社团结构能够很好的解决现实中的诸多问题。例如,研究社交网络中的社团结构,能够发现相同兴趣的人员团体;研究蛋白质网络中的社团结构,能够发现具有相同功能的蛋白质。因此,目前已有众多学者提出了各种各样的社团探测算法,以确保能够精确有效的探测出网络中的社团结构。这些社团探测算法大多是针对同质复杂网络,即在探测社团时,将网络中的节点和边认定是相同的。这种假设能够大幅降低社团探测算法的难度,同时也有助于提高算法的效率。
目前,针对异质网络社团探测的研究较少,通常采用以下两种手段:一是忽略网络节点和边的异质性,直接采用同质网络的社团探测算法进行社团探测;二是以某一类节点为种子节点,采用同质社团探测算法对种子节点进行社团探测,产生种子社团,随后将其他类节点吸收进入种子社团,得到最终的全网社团结构。上述两种算法均存在问题:第一种方法直接忽略了网络的异质性,使网络中重要信息丢失,造成了探测结果的失真失效;第二种方法必须选定合适的种子节点,种子节点的选取不同,社团探测的最终结果不同,难以得到唯一的探测结果。并且,采用先种子节点,后其他节点的探测方式,割裂了不同类型节点之间的联系,而这种联系恰恰是某些网络异质性的产生原因。综上,目前现有的技术手段,仍然难以有效应对复杂异质网络的社团探测。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种异质网络社团发现方法及系统,从异质网络形成的交互链出发,能够有效处理异质网络的异质性,探测出符合异质网络实际意义的社团结构。
为实现上述目的,按照本发明的第一方面,提供了一种异质网络社团发现方法,包括步骤:
搜索并记录异质网络中所有的交互链,交互链是该网络中各节点交互形成的链路;
计算该网络中每个节点的交互链中心性,交互链中心性是描述通过某个节点的交互链的数量以及质量的值,选择区域内交互链中心性最大的节点作为种子节点,区域内交互链中心性最大是指某个节点与其相连的节点相比交互链中心性最大;
确定种子节点的标签,并由种子节点向其相连的且满足预设条件的节点扩散自身的标签,其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。
进一步地,所述预设条件是交互链中心性和交互链相似性需满足的条件,交互链相似性是描述两个节点共享交互链情况的值。
进一步地,所述预设条件是种子节点的交互链中心性大于其相连节点的交互链中心性,并且种子节点与其相连节点的交互链相似性大于预设阈值。
进一步地,交互链中心性的计算公式为:
Figure BDA0003401038820000031
其中,cx为x节点的交互链中心性,
Figure BDA0003401038820000032
是通过x节点的第j条交互链,
Figure BDA0003401038820000033
是描述交互链
Figure BDA0003401038820000034
质量的函数。
进一步地,交互链相似性的计算公式为:
Figure BDA0003401038820000035
其中,sim(x,y)是x和y节点的交互链相似性,
Figure BDA0003401038820000036
是描述交互链
Figure BDA0003401038820000037
质量的函数,
Figure BDA0003401038820000038
是描述交互链
Figure BDA0003401038820000039
质量的函数,
Figure BDA00034010388200000310
是通过x节点的第j条交互链,
Figure BDA00034010388200000311
是通过y节点的第j条交互链。
进一步地,所述根据所有节点的标签确定社团是将具有相同标签的节点归为同一社团。
按照本发明的第二方面,提供了一种异质网络社团发现系统,包括:
交互链确定模块,用于搜索并记录异质网络中所有的交互链,交互链是该网络中各节点交互形成的链路;
种子节点确定模块,用于计算该网络中每个节点的交互链中心性,交互链中心性是描述通过某个节点的交互链的数量以及质量的值,选择区域内交互链中心性最大的节点作为种子节点,区域内交互链中心性最大是指某个节点与其相连的节点相比交互链中心性最大;
标签确定模块,用于确定种子节点的标签,并由种子节点向其相连的且满足预设条件的节点扩散自身的标签,其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。
总体而言,本发明与现有技术相比,具有有益效果:
(1)本发明从异质网络形成的交互链出发,能够有效处理异质网络的异质性,探测出符合异质网络实际意义的社团结构。
(2)本发明将种子扩散算法和标签传播算法相结合,能够稳定有效的探测社团,避免了传统标签算法的随机性。
(3)本发明在种子扩散时,每个节点可以收到多个标签,能够探测出重叠社团。
附图说明
图1是本发明实施例的交互链示意图;
图2是本发明实施例的一种异质网络社团发现方法的流程图;
图3是本发明实施例的一种异质网络社团发现方法与其他现有算法的效果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提出异质网络交互链的概念,交互链是异网络中各节点交互形成的链路,是网络异质性形成的根本原因,交互链是研究异质网络性质的重要工具。
异质网络的异质性,包括节点的异质性以及边的异质性,其中节点的异质性由节点的类型决定,边的异质性则由不同节点交互产生。在异质网络中,这种交互通常是网络异质性产生原因。也正是因为交互的需求,产生了异质网络。例如,在引文网络中,作者节点、论文节点和期刊节点也形成了紧密的链路,作者从期刊节点获取最新的前沿成果,撰写论文,随后投稿至期刊,形成了从期刊节点出发、至作者节点、到论文节点、最后又达到期刊节点的链路。本发明实施例定义这些链路为异质网络交互链,图1示出了引文网络中的交互链,其中J表示期刊节点,A表示作者节点,P表示论文节点。可以看到,异质网的存在正是为了服务交互链路,交互链路同时也满足了节点交互的需求,是网络异质性形成的根本源头。
进一步地,本发明实施例提出了两个重要参数:交互链中心性和交互链相似性。
其中,交互链中心性是描述一个异质网络中通过某个节点的交互链的数量以及质量的值,可以表示为:
Figure BDA0003401038820000051
其中,cx为x节点的交互链中心性,
Figure BDA0003401038820000052
是通过x节点的第j条交互链,
Figure BDA0003401038820000053
是描述交互链质量的函数,对于不同的异质网络,其具体表现形式不同。例如,在引文网中,组成交互链的期刊、作者的质量通常反应了交互链的质量。
交互链相似性是描述两个节点共享交互链情况的值,两个节点交互链相似性越高,则表明两个节点共享越多的高质量交互链,则两个节点在异质网中关系更为亲密。交互链中心性可以表示为:
Figure BDA0003401038820000054
其中,sim(x,y)是x和y节点的交互链相似性,
Figure BDA0003401038820000055
是描述交互链
Figure BDA0003401038820000056
质量的函数,
Figure BDA0003401038820000057
是描述交互链
Figure BDA0003401038820000058
质量的函数,
Figure BDA0003401038820000059
是通过x节点的第j条交互链,
Figure BDA00034010388200000510
是通过y节点的第j条交互链。式(2)的定义方法更强调了y节点对x节点的依存关系,sim(x,y)越大,则表明y节点经过的交互链与x节点所经过的交互链相同,x节点对y节点的影响力越大,y节点更应该与x节点分配到同一社团。
如图2所示,本发明实施例的一种异质网络社团发现方法,包括步骤:
S1,搜索并记录异质网络中所有的交互链,交互链是该网络中各节点交互形成的链路。
搜索并记录网络中所有的交互链的具体方式是:采用深度优先算法搜索并记录网络中所有交互链。深度优先算法的过程是深入到异质网络的每一个可能的分支路径,直到不能再进一步,每个节点只能访问一次。从每个可能的交互链的起点开始,使用深度优先算法,便可得到以此为起点的交互链。当遍历所有起点后,则能得到整个网络中的交互链。
S2,计算该网络中每个节点的交互链中心性,交互链中心性是描述通过某个节点的交互链的数量以及质量的值,选择区域内交互链中心性最大的节点作为种子节点,区域内交互链中心性最大是指某个节点与其相连的节点相比交互链中心性最大。
具体地,统计并记录网络中各个节点所通过的交互链,然后根据(1)式计算每个节点的交互链中心性cx,对于某个节点,若该节点与其相连的每个节点相比交互链中心性最大,则该节点为种子节点,对网络中的每个节点都进行判断,找出网络中所有的种子节点。
S3,确定种子节点的标签,并由种子节点向其相连的且满足预设条件的节点扩散自身的标签,其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。
种子节点的标签是节点的序号。网络中的所有节点都有唯一的序号,种子节点的标签就是种子节点的序号。
进一步地,预设条件是交互链中心性和交互链相似性需满足的条件。
进一步地,预设条件为以下公式:
cseed>cneighbor (3)
sim(seed,neighbor)>thershold (4)
其中,cseed为种子节点seed的交互链中心性,cseed为种子节点相连节点neighbor的交互链中心性,sim(seed,neighbor)为种子节点seed与相连节点neighbor的交互链相似性,为预设阈值thershold。
上述预设条件表示种子节点的交互链中心性大于周围的节点,并且种子节点和邻居节点的交互链相似性大于一定的阈值。其中(3)式说明种子节点对周围节点具有较强的控制能力和影响力,周围节点能够很好地被种子节点所控制或影响。(4)式说明周围节点与种子节点共享了较多的交互链,两个节点在网络中合作非常紧密。种子扩散时,每个节点保留所有收到的标签。
周围获得标签的节点继续按照(3)式和(4)式,向该节点周围的节点扩散标签,直到网络中所有节点都获得标签。
然后根据所有节点的标签确定社团,可将具有相同标签的节点归为同一社团。
进一步地,本方法在种子扩散时,由于节点没有标签数量的限制,每个节点可以收到多个标签。由于具有相同标签的节点归为同一社团,当某个节点有多个标签时,则该节点属于多个社团。具有多个标签的节点,就是社团的重叠部分。因此,得到的某些社团是重叠的,即本算法可以探测出重叠社团。
将本发明实施例的异质网络社团发现方法(称为ILLPA算法)与三种现有技术中的算法LZLPA、SLPA、Modularity应用于某异质网络,并对网络进行社团探测,通过对比来验证算法效果。如图3所示,图3(a)为异质网络,该图中的S节点因为网络的异质性,作为信息流的末端,无法参加OODA循环,因此从网络实际运转来看,无法与其他节点配合,不该被分配至任何一个社团。图3(b)为本发明实施例的异质网络社团发现方法的社团发现结果,可以看出本方法可以精确识别出该节点应该属于独立的节点,不属于任何社团。图3(c)(d)(e)分别是其他三种算法LZLPA、SLPA和Modularity的社团发现结果,可以看出它们均无法发现该节点为独立节点,并将其该节点归入其他社团。因此,本发明实施例的异质网络社团发现方法能够很好处理网络的异质性,找到符合网络实际运行规律的异质网络社团结构。
本发明实施例的一种异质网络社团发现系统,包括:
交互链确定模块,用于记录异质网络中所有的交互链,交互链是该网络中各节点交互形成的链路;
种子节点确定模块,用于计算该网络中每个节点的交互链中心性,交互链中心性是描述通过某个节点的交互链的数量以及质量的值,选择区域内交互链中心性最大的节点作为种子节点,区域内交互链中心性最大是指某个节点与其相连的节点相比交互链中心性最大;
标签确定模块,用于确定种子节点的标签,并由种子节点向与其相连的且满足预设条件的节点扩散自身的标签,与其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。
进一步地,所述预设条件是交互链中心性和交互链相似性需满足的条件,交互链相似性是描述两个节点共享交互链情况的值。
进一步地,所述预设条件是种子节点的交互链中心性大于其相连节点的交互链中心性,并且种子节点与其相连节点的交互链相似性大于预设阈值。
进一步地,所述根据所有节点的标签确定社团是将具有相同标签的节点归为同一社团。
系统的实现原理、技术效果与上述方法类似,此处不再赘述。
必须说明的是,上述任一实施例中,方法并不必然按照序号顺序依次执行,只要从执行逻辑中不能推定必然按某一顺序执行,则意味着可以以其他任何可能的顺序执行。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种异质网络社团发现方法,其特征在于,包括步骤:
搜索并记录异质网络中所有的交互链,交互链是该网络中各节点交互形成的链路;
计算该网络中每个节点的交互链中心性,交互链中心性是描述通过某个节点的交互链的数量以及质量的值,选择区域内交互链中心性最大的节点作为种子节点,区域内交互链中心性最大是指某个节点与其相连的节点相比交互链中心性最大;
确定种子节点的标签,并由种子节点向其相连的且满足预设条件的节点扩散自身的标签,其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。
2.如权利要求1所述的一种异质网络社团发现方法,其特征在于,所述预设条件是交互链中心性和交互链相似性需满足的条件,交互链相似性是描述两个节点共享交互链情况的值。
3.如权利要求2所述的一种异质网络社团发现方法,其特征在于,所述预设条件是种子节点的交互链中心性大于其相连节点的交互链中心性,并且种子节点与其相连节点的交互链相似性大于预设阈值。
4.如权利要求1所述的一种异质网络社团发现方法,其特征在于,交互链中心性的计算公式为:
Figure FDA0003401038810000011
其中,cx为x节点的交互链中心性,
Figure FDA0003401038810000012
是通过x节点的第j条交互链,
Figure FDA0003401038810000013
是描述交互链
Figure FDA0003401038810000014
质量的函数。
5.如权利要求2或3所述的一种异质网络社团发现方法,其特征在于,交互链相似性的计算公式为:
Figure FDA0003401038810000021
其中,sim(x,y)是x和y节点的交互链相似性,
Figure FDA0003401038810000022
是描述交互链
Figure FDA0003401038810000023
质量的函数,
Figure FDA0003401038810000024
是描述交互链
Figure FDA0003401038810000025
质量的函数,
Figure FDA0003401038810000026
是通过x节点的第j条交互链,
Figure FDA0003401038810000027
是通过y节点的第j条交互链。
6.如权利要求1所述的一种异质网络社团发现方法,其特征在于,所述根据所有节点的标签确定社团是将具有相同标签的节点归为同一社团。
7.一种异质网络社团发现系统,其特征在于,包括:
交互链确定模块,用于搜索并记录异质网络中所有的交互链,交互链是该网络中各节点交互形成的链路;
种子节点确定模块,用于计算该网络中每个节点的交互链中心性,交互链中心性是描述通过某个节点的交互链的数量以及质量的值,选择区域内交互链中心性最大的节点作为种子节点,区域内交互链中心性最大是指某个节点与其相连的节点相比交互链中心性最大;
标签确定模块,用于确定种子节点的标签,并由种子节点向其相连的且满足预设条件的节点扩散自身的标签,其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。
8.如权利要求7所述的一种异质网络社团发现系统,其特征在于,所述预设条件是交互链中心性和交互链相似性需满足的条件,交互链相似性是描述两个节点共享交互链情况的值。
9.如权利要求8所述的一种异质网络社团发现系统,其特征在于,所述预设条件是种子节点的交互链中心性大于其相连节点的交互链中心性,并且种子节点与其相连节点的交互链相似性大于预设阈值。
10.如权利要求7所述的一种异质网络社团发现系统,其特征在于,所述根据所有节点的标签确定社团是将具有相同标签的节点归为同一社团。
CN202111499733.0A 2021-12-09 2021-12-09 一种异质网络社团发现方法及系统 Pending CN114283021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111499733.0A CN114283021A (zh) 2021-12-09 2021-12-09 一种异质网络社团发现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111499733.0A CN114283021A (zh) 2021-12-09 2021-12-09 一种异质网络社团发现方法及系统

Publications (1)

Publication Number Publication Date
CN114283021A true CN114283021A (zh) 2022-04-05

Family

ID=80871412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111499733.0A Pending CN114283021A (zh) 2021-12-09 2021-12-09 一种异质网络社团发现方法及系统

Country Status (1)

Country Link
CN (1) CN114283021A (zh)

Similar Documents

Publication Publication Date Title
Dotsika et al. Identifying potentially disruptive trends by means of keyword network analysis
Fan et al. Answering graph pattern queries using views
Benouaret et al. Selecting skyline web services from uncertain qos
CN107480213B (zh) 基于时序文本网络的社区检测与用户关系预测方法
CN102385588B (zh) 用于提高数据并行插入的性能的方法和系统
Greco et al. Efficient computation of deterministic extensions for dynamic abstract argumentation frameworks
CN109088862B (zh) 一种基于分布式系统的节点性质识别方法
CN109656898A (zh) 基于节点度的分布式大规模复杂社团探测方法及装置
CN104954263A (zh) 一种复杂网络目标节点的搜索方法及装置
Jiao et al. [Retracted] An Improved Cuckoo Search Algorithm for Multithreshold Image Segmentation
CN114283021A (zh) 一种异质网络社团发现方法及系统
Jia et al. Network clustering algorithm based on fast detection of central node
CN106503319A (zh) 一种适用于网络节点分类方法评估的仿真网络生成方法
CN103440339B (zh) 一种查找应用系统变更关联对象的方法、装置及系统
CN109711478A (zh) 一种基于时序密度聚类的大规模数据群组搜索方法
CN106599187B (zh) 一种基于边不稳定度的社区发现系统及方法
Sun et al. A parallel self-organizing community detection algorithm based on swarm intelligence for large scale complex networks
Chen et al. Graph Neural Networks and Graph Kernels For Learning Heuristics: Is there a difference?
Leng et al. Active semisupervised community detection based on asymmetric similarity measure
CN111553789A (zh) 多实体公司联合贷款额度分配方法及装置
CN111274498A (zh) 一种网络特征社区查找方法
CN117576125B (zh) 一种神经网络计算图的分割方法、装置、设备及存储介质
Caramia et al. Solving the minimum‐weighted coloring problem
Guan et al. A network topology clustering algorithm for service identification
CN115514580B (zh) 一种自编码器溯源入侵检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination