CN105653667A - 一种基于节点相似度的有向网络化简系统 - Google Patents

一种基于节点相似度的有向网络化简系统 Download PDF

Info

Publication number
CN105653667A
CN105653667A CN201511016881.7A CN201511016881A CN105653667A CN 105653667 A CN105653667 A CN 105653667A CN 201511016881 A CN201511016881 A CN 201511016881A CN 105653667 A CN105653667 A CN 105653667A
Authority
CN
China
Prior art keywords
node
similarity
adj
limit
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511016881.7A
Other languages
English (en)
Inventor
张峰
张德
刘光宏
王凤华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201511016881.7A priority Critical patent/CN105653667A/zh
Publication of CN105653667A publication Critical patent/CN105653667A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于节点相似度的有向网络化简系统,包括相似度计算模块,入边筛选模块、出边筛选模块及输出模块;所述相似度计算模块用于对原始网络G中每一节点i的入边相似度及出边相似度进行计算;所述入边筛选模块用于对每一节点i的所有入边相似度进行从高到低排序,保留相似度大于阈值的入边;所述出边筛选模块用于对每一节点i的所有出边相似度进行从高到低排序,保留相似度大于阈值的出边;所述输出模块用于输出化简后的网络。该系统用以解决大规模有向网络的网络化简,不损失节点信息,且不会因删除连边产生离散节点。

Description

一种基于节点相似度的有向网络化简系统
技术领域
本发明涉及复杂网络计算技术领域,尤其涉及一种基于节点相似度的有向网络的网络化简系统。
背景技术
在现实生活中,包括生物、基因、社交、通信等个体和个体之间通常会以有向的方式建立联系,形成复杂的有向网络。社团发现是复杂网络研究的一个分支,通过分析网络特征,发现网络中的社团结构及其相互作用的关联性,从而打开了理解群体性复杂行为的新视角。其成果可用于用户群体行为分析、推荐系统和基因功能关联性挖掘等相关领域。
然而,随着科技的发展,大数据时代的到来,数据规模呈现出爆炸性增长趋势,网络规模越来越大,而通常社团发现算法的时间和空间复杂度较高,很难直接应用于大规模复杂网络的社团发现。
针对大规模网络的社团发现问题,目前有两个解决思路:
(1)利用主流的并行计算技术和大数据分析平台,将算法进行并行化,利用多部计算机的计算资源执行计算任务。
(2)大型网络中的节点和连边重要性不同,可以通过不同的策略算法将大型网络进行化简,来避免针对整个数据集进行采集和测量,只保留网络主干,从而提高下一步社团发现的效率;
利用并行计算提高算法效率的方法需要有并行计算环境的支撑,并且算法必须是可被并行化的,这两个缺点使得该方法门槛和成本较高,且适用性不高;
目前主流的网络化简方法以采样算法为主,如基于图遍历的采样算法和基于随机游走的采样算法。采样算法主要考虑保证整个网络宏观层面在采样前后不丢失属性信息,但是会造成网络局部节点的丢失,即产生离群节点。有研究人员提出了一个根据节点相似度排序的网络化简方法,将网络中的非重要连边剔除,已到达减少网络规模的目的,但是只能用于无向网络的化简。
发明内容
鉴于上述的分析,本发明旨在提供一种有向网络化简系统,用以解决大规模有向网络的网络化简;不损失节点信息,且不会因删除连边产生离散节点。
本发明的目的主要是通过以下技术方案实现的:
一种基于节点相似度的有向网络化简系统,包括相似度计算模块,入边筛选模块、出边筛选模块及输出模块;
所述相似度计算模块用于对原始网络G中每一节点i的入边相似度及出边相似度进行计算;
所述入边筛选模块用于对每一节点i的所有入边的相似度进行从高到低排序,保留相似度大于阈值的连边;
所述出边筛选模块用于对每一节点i的所有出边的相似度进行从高到低排序,保留相似度大于阈值的连边;
所述输出模块用于输出化简后的网络。
进一步,所述相似度计算模块包括入边相似度计算子模块及出边相似度计算子模块;所述入边相似度计算子模块用于计算原始网络G中的任一节点i和原始网络G中指向节点i的集合Adj+(i)中的任一节点j的相似度。
进一步,所述入边筛选模块中应用的阈值与控制网络化简程度的调节参数e1有关,保留相似度大于阈值的连边,具体为对节点i的所有入边的相似度进行从高到低排序,保留前条边,为节点i的入度。
进一步,所述出边相似度计算子模块用于计算原始网络G中的任一节点i和原始网络G中节点i所指向的其他节点的集合Adj-(i)中的任一节点j的相似度。
进一步,所述出边筛选模块中应用的阈值与控制网络化简程度的调节参数e2有关,保留相似度大于阈值的连边,具体为对节点i的所有出边的相似度进行从高到低排序,保留前条边,为节点i的出度。
进一步,所述相似度计算模块所采用的计算方式为
S i m ( i , j ) = 1 3 ( Sim c c ( i , j ) + Sim t r ( i , j ) + Sim b r ( i , j ) ) ,
其中,Simcc(i,j)为共引关系节点的相似度、Simtr(i,j)为具有耦合关系节点的相似度、Simbr(i,j)为具有传递关系节点的相似度。
进一步,所述共引关系节点的相似度计算公式为:
Sim c c ( i , j ) = | Adj + ( i ) ∩ Adj + ( j ) | | Adj + ( i ) ∪ Adj + ( j ) |
耦合关系节点的相似度计算公式为:
Sim t r ( i , j ) = 1 2 ( | Adj + ( i ) ∩ Adj - ( j ) | | Adj + ( i ) ∪ Adj - ( j ) | + | Adj - ( i ) ∩ Adj + ( j ) | | Adj - ( i ) ∪ Adj + ( j ) | )
传递关系节点的相似度计算公式为:
Sim b r ( i , j ) = | Adj - ( i ) ∩ Adj - ( j ) | | Adj - ( i ) ∪ Adj - ( j ) |
式中,Adj+(i)表示原始网络G中指向节点i的集合,Adj-(i)表示原始网络G中节点i所指向的其他节点的集合;Adj+(j)表示原始网络G中与节点j相连,且指向节点j的所有节点的集合,Adj-(j)表示原始网络G中与节点j相连,且被节点j指向的所有节点的集合。
进一步,控制网络化简程度的调节参数e1、e2的取值范围为(0,1)。。
本发明有益效果如下:
(1)该系统适用于大规模有向网络的网络化简;
(2)采用该系统进行网络化简不损失节点信息,且不会因删除连边产生离散节点;
(3)经该系统化简的网络,在进行社团发现时,其结果与不经处理就进行社团发现的网络精度偏差不大;
(4)通过该系统处理后的网络,在进行社团发现时能极大的提高计算效率
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明结构框图
图2为采用本发明所进行的社团发现过程图;
图3(a)为共引关系节点示意图;
图3(b)为耦合关系节点示意图;
图3(c)为传递关系节点示意图;
图4为采用本发明所进行网络化简前后对比示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
本发明的目的是提供一种基于节点相似性计算的网络化简系统,作为复杂网络社团发现的预处理阶段,使用该系统可以在对有向网络进行化简的同时,保证社团发现精确度,从而提升网络社团发现的效率。
如图1所述,该系统包括相似度计算模块,入边筛选模块、出边筛选模块及输出模块;相似度计算模块包括入边相似度计算子模块及出边相似度计算子模块;入边相似度计算子模块用于计算原始网络G中的任一节点i和原始网络G中指向节点i的集合Adj+(i)中的任一节点j的相似度。出边相似度计算子模块用于计算原始网络G中的任一节点i和原始网络G中节点i所指向的其他节点的集合Adj-(i)中的任一节点j的相似度。入边筛选模块用于对每一节点i的所有入边的相似度进行从高到低排序,保留相似度大于阈值的连边;入边筛选模块中应用的阈值与控制网络化简程度的调节参数e1有关,保留相似度大于阈值的连边,具体为对节点i的所有入边的相似度进行从高到低排序,保留前条边,为节点i的入度。出边筛选模块用于对每一节点i的所有出边的相似度进行从高到低排序,保留相似度大于阈值的连边;输出模块用于输出化简后的网络;出边筛选模块中应用的阈值与控制网络化简程度的调节参数e2有关,保留相似度大于阈值的连边,具体为对节点i的所有出边的相似度进行从高到低排序,保留前条边,为节点i的出度。
该系统具有良好的扩展性,可以和主流的社团发现相结合使用,从而提高社团发现过程的整体效率。其整个过程如图2所示。本发明的系统主要内容涵盖流程1至5,为社团发现的预处理部分,6至8部分为目前现有的成果,主要为表明整个流程的完整性和化简方法的通用扩展性。
通过一系列的计算,得出网络中连边关系的重要性,然后根据网络结构的特性将部分非重要连边删除,从而达到网络化简的效果。
本系统所化简的输入网络为一张有向网络,例如现实中的微博网络,存在关注、非关注和双向关注,通话网络中,也存在通话发起方和接听方。以此形成的关系网络被称为有向网络。而例如同事同学关系,不存在单向关系,故属于无向网络。
本系统基于对输入的网络中的节点对进行相似性计算。以节点对相似性来度量节点间连边的重要性。例如网络中有相连的节点i和节点j,则根据相似性计算得出的数值较高,表明节点i和节点j有着较强的联系,即他们之间的边很重要,那么在后续的化简中,将不会剔除两节点间的连边。
在无向网络中,节点间的连接没有方向性。而在有向网络中,两个节点间的关系传统上归纳为共引、耦合和传递.如图3(a)-(c)所示。
Adj+(i)表示有向网络G中指向节点i的节点的集合,该集合中元素个数等于节点i的入度设i和j分别表示网络中节点对中的节点,Adj+(i)表示网络中指向节点i的集合,Adj+(j)表示原始网络G中与节点j相连,且指向节点j的所有节点的集合,Adj-(j)表示原始网络G中与节点j相连,且被节点j指向的所有节点的集合。
cc表示共引,tr表示耦合,br表示传递,共引、耦合和传递三种节点的相似度计算公式如下所示:
Sim c c ( i , j ) = | Adj + ( i ) ∩ Adj + ( j ) | | Adj + ( i ) ∪ Adj + ( j ) | - - - ( 1 - 1 )
Sim t r ( i , j ) = 1 2 ( | Adj + ( i ) ∩ Adj - ( j ) | | Adj + ( i ) ∪ Adj - ( j ) | + | Adj - ( i ) ∩ Adj + ( j ) | | Adj - ( i ) ∪ Adj + ( j ) | ) - - - ( 1 - 2 )
Sim b r ( i , j ) = | Adj - ( i ) ∩ Adj - ( j ) | | Adj - ( i ) ∪ Adj - ( j ) | - - - ( 1 - 3 )
分别计算节点对(i,j)的三种相似度关系后,按照下式1-4所示计算节点间绝对相似度,得到Sim(i,j);
S i m ( i , j ) = 1 3 ( Sim c c ( i , j ) + Sim t r ( i , j ) + Sim b r ( i , j ) ) - - - ( 1 - 4 )
设G为原始网络,e1和e2为控制网络化简程度的调节参数,取值范围为(0,1),分别表示节点i的入度和出度,通过网络化简,将网络中的非重要连边删除。化简流程步骤如下所示:
(1)输入原始网络G;
(2)循环遍历网络G,从中依次选取节点i;
(3)计算节点i的入度和出度
(4)计算节点i保留的入边和出边数量
(5)循环指向节点i的集合Adj+(i),从中依次选取节点j;
(6)按照公式1-4计算节点j和i的相似度;
(7)对每一个节点i的所有入边的相似度进行从高到低排序,对每一节点i均保留前条边;
(8)循环节点i所指向的其他节点的集合Adj-(i),从中依次选取节点j;
(9)按照公式1-4计算节点j和i的相似度;
(10)对每一个节点i的所有出边的相似度进行从高到低排序,对每一节点i均保留前条边;
(11)结束后生成化简后的网络。
伪代码流程如下,用for循环表示嵌套关系。
以图4为例,左边为原始图,右边为采用本发明系统化简后的图。可以看出明显的社团结构。
通常网络社团发现算法的时间空间复杂度都与网络的节点数和连边数相关,网络进行化简后,总结点数不变,而连边减少,且较好的保留了网络的局部特性,因此可以在不损失较多精度的情况下,大大提高后续社团发现算法的效率。
本发明技术方案带来的有益效果为:
1、传统化简系统通常以采样的方式,会造成节点丢失,网络信息不全。本系统保留节点,只删除网络中的非重要连边,可最大限度保留网络特性;
2、全网化简虽然会保留所有节点,但是将所有节点都统一对待,不考虑节点的局部特性,会导致化简后的网络产生离群节点,影响后期社团发现的准确度。本系统在化简时考虑节点的局部特性→出度和入度。不会导致离群节点出现,对后期社团发现的准确度影响较小。
3、本系统为社团发现前的预处理系统,可以处理有向和无向网络,并且可与其他图变换算法和社团发现算法结合,具有较高的扩展性;并且化简本身复杂度不高,具有较高的效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于节点相似度的有向网络化简系统,其特征在于,包括相似度计算模块,入边筛选模块、出边筛选模块及输出模块;
所述相似度计算模块用于对原始网络G中每一节点i的入边相似度及出边相似度进行计算;
所述入边筛选模块用于对每一节点i的所有入边相似度进行从高到低排序,保留相似度大于阈值的连边;
所述出边筛选模块用于对每一节点i的所有出边相似度进行从高到低排序,保留相似度大于阈值的连边;
所述输出模块用于输出化简后的网络。
2.根据权利要求1所述的有向网络化简系统,其特征在于:所述相似度计算模块包括入边相似度计算子模块及出边相似度计算子模块;所述入边相似度计算子模块用于计算原始网络G中的任一节点i和原始网络G中指向节点i的集合Adj+(i)中的任一节点j的相似度。
3.根据权利要求2所述的有向网络化简系统,其特征在于:所述入边筛选模块中应用的阈值与控制网络化简程度的调节参数e1有关,保留相似度大于阈值的连边,具体为对节点i的所有入边的相似度进行从高到低排序,保留前条边,为节点i的入度。
4.根据权利要求2所述的有向网络化简系统,其特征在于:所述出边相似度计算子模块用于计算原始网络G中的任一节点i和原始网络G中节点i所指向的其他节点的集合Adj-(i)中的任一节点j的相似度。
5.根据权利要求4所述的有向网络化简系统,其特征在于:所述出边筛选模块中应用的阈值与控制网络化简程度的调节参数e2有关,保留相似度大于阈值的连边,具体为对节点i的所有出边的相似度进行从高到低排序,保留前条边,为节点i的出度。
6.根据权利要求1所述的有向网络化简系统,其特征在于:所述相似度计算模块所采用的计算方式为
S i m ( i , j ) = 1 3 ( Sim c c ( i , j ) + Sim t r ( i , j ) + Sim b r ( i , j ) ) ,
其中,Simcc(i,j)为共引关系节点的相似度、Simtr(i,j)为具有耦合关系节点的相似度、Simbr(i,j)为具有传递关系节点的相似度。
7.根据权利要求6所述的有向网络化简系统,其特征在于:所述共引关系节点的相似度计算公式为:
Sim c c ( i , j ) = | Adj + ( i ) ∩ Adj + ( j ) | | Adj + ( i ) ∪ Adj + ( j ) |
式中,Adj+(i)表示原始网络G中指向节点i的集合;Adj+(j)表示原始网络G中与节点j相连,且指向节点j的所有节点的集合。
8.根据权利要求6所述的有向网络化简系统,其特征在于:所述耦合关系节点的相似度计算公式为:
Sim t r ( i , j ) = 1 2 ( | Adj + ( i ) ∩ Adj - ( j ) | | Adj + ( i ) ∪ Adj - ( j ) | + | Adj - ( i ) ∩ Adj + ( j ) | | Adj - ( i ) ∪ Adj + ( j ) | )
式中,Adj+(i)表示原始网络G中指向节点i的集合,Adj-(i)表示原始网络G中节点i所指向的其他节点的集合;Adj+(j)表示原始网络G中与节点j相连,且指向节点j的所有节点的集合,Adj-(j)表示原始网络G中与节点j相连,且被节点j指向的所有节点的集合。
9.根据权利要求6所述的有向网络化简系统,其特征在于:所述传递关系节点的相似度计算公式为:
Sim b r ( i , j ) = | Adj - ( i ) ∩ Adj - ( j ) | | Adj - ( i ) ∪ Adj - ( j ) |
式中,Adj-(i)表示原始网络G中节点i所指向的其他节点的集合;Adj-(j)表示原始网络G中与节点j相连,且被节点j指向的所有节点的集合。
10.根据权利要求3或5所述的有向网络化简系统,其特征在于:控制网络化简程度的调节参数e1、e2的取值范围为(0,1)。
CN201511016881.7A 2015-12-29 2015-12-29 一种基于节点相似度的有向网络化简系统 Pending CN105653667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511016881.7A CN105653667A (zh) 2015-12-29 2015-12-29 一种基于节点相似度的有向网络化简系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511016881.7A CN105653667A (zh) 2015-12-29 2015-12-29 一种基于节点相似度的有向网络化简系统

Publications (1)

Publication Number Publication Date
CN105653667A true CN105653667A (zh) 2016-06-08

Family

ID=56478345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511016881.7A Pending CN105653667A (zh) 2015-12-29 2015-12-29 一种基于节点相似度的有向网络化简系统

Country Status (1)

Country Link
CN (1) CN105653667A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280135A (zh) * 2017-12-26 2018-07-13 阿里巴巴集团控股有限公司 实现数据结构可视化的方法、装置和电子设备
CN110943877A (zh) * 2018-09-21 2020-03-31 华为技术有限公司 网络状态测量方法、设备及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张峰: "基于网络化数据分析的社会计算关键问题研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280135A (zh) * 2017-12-26 2018-07-13 阿里巴巴集团控股有限公司 实现数据结构可视化的方法、装置和电子设备
CN108280135B (zh) * 2017-12-26 2021-08-10 创新先进技术有限公司 实现数据结构可视化的方法、装置和电子设备
CN110943877A (zh) * 2018-09-21 2020-03-31 华为技术有限公司 网络状态测量方法、设备及系统
CN110943877B (zh) * 2018-09-21 2022-02-22 华为技术有限公司 网络状态测量方法、设备及系统

Similar Documents

Publication Publication Date Title
Blume et al. Which networks are least susceptible to cascading failures?
CN112579797B (zh) 针对知识图谱的业务处理方法及装置
Nguyen et al. Stochastic dominance in stochastic DCOPs for risk-sensitive applications
CN105138601A (zh) 一种支持模糊约束关系的图模式匹配方法
CN105630797A (zh) 数据处理方法及系统
CN102663108B (zh) 基于复杂网络模型并行化标签传播算法的药物社团发现方法
CN105653667A (zh) 一种基于节点相似度的有向网络化简系统
Yamín et al. Exact bidirectional algorithm for the least expected travel-time path problem on stochastic and time-dependent networks
CN114003775A (zh) 图数据处理、查询方法及其系统
Matei et al. Consensus problems with directed Markovian communication patterns
CN102004951B (zh) 一种基于角色关联的角色组划分方法
CN105654389A (zh) 一种基于节点相似度的有向网络化简方法
Afanas' eva et al. Research of production groups formation problem subject to logical restrictions
CN101695079A (zh) 一种正确性可保证的自动服务组合方法及系统
CN106296420A (zh) 一种社区发现方法
Lu et al. Framework of industrial networking sensing system based on edge computing and artificial intelligence
CN115456093A (zh) 一种基于注意力图神经网络的高性能图聚类方法
CN114385576A (zh) 基于业务需求数据流图的云计算微服务划分方法和系统
CN108286957A (zh) 一种快稳简的平面度误差评定方法
Mochinski et al. Developing an Intelligent Decision Support System for large-scale smart grid communication network planning
Muros et al. Cooperative game theory tools to detect critical nodes in distributed control systems
Krumke On the approximability of location and network design problems
CN110619047B (zh) 一种自然语言模型的构建方法、装置以及可读存储介质
Huang et al. Growing Like a Tree: Finding Trunks From Graph Skeleton Trees
Rahwan et al. An exact algorithm for coalition structure generation and complete set partitioning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160608

RJ01 Rejection of invention patent application after publication