CN102456062A - 社区相似度计算方法与社会网络合作模式发现方法 - Google Patents

社区相似度计算方法与社会网络合作模式发现方法 Download PDF

Info

Publication number
CN102456062A
CN102456062A CN2010105355098A CN201010535509A CN102456062A CN 102456062 A CN102456062 A CN 102456062A CN 2010105355098 A CN2010105355098 A CN 2010105355098A CN 201010535509 A CN201010535509 A CN 201010535509A CN 102456062 A CN102456062 A CN 102456062A
Authority
CN
China
Prior art keywords
community
similarity
node
modality
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105355098A
Other languages
English (en)
Other versions
CN102456062B (zh
Inventor
韩毅
贾焰
方滨兴
韩伟红
周斌
杨树强
李爱平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN 201010535509 priority Critical patent/CN102456062B/zh
Publication of CN102456062A publication Critical patent/CN102456062A/zh
Application granted granted Critical
Publication of CN102456062B publication Critical patent/CN102456062B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于计算社区之间相似度的方法,包括:将待计算相似度的第一社区与第二社区分别用第一图与第二图表示;将所述第一图与所述第二图中的各个节点分别按照所述节点权威性值进行降序排列;为第一图与第二图计算相似值,进而得到所述第一图与所述第二图所代表的社区的相似程度。本发明还提供了一种从社会网络中查找合作模式的方法。本发明在发现合作模式的过程中,不仅仅考虑了结构特征,也考虑了节点的权威性分布,使得所发现的合作模式更具有代表性。

Description

社区相似度计算方法与社会网络合作模式发现方法
技术领域
本发明涉及网络模式挖掘,特别涉及一种社会网络合作模式发现方法。
背景技术
社会网络(Social Networking,简称SN)是一种用来表示社会中各个个体之间相互联系的关系网络,如学术合作网络、在线交友网络等。现实生活中广受欢迎的Facebook、Twitter等都可视为社会网络。社会网络可以用矩阵法或图示法加以表示。在图示法中,用图中的节点表示社会中的某一个体,用节点间的链接表示个体间的联系,用链接的大小表示个体间联系的紧密程度。
社会网络中的个体与网络中其它个体之间的联系存在紧密与稀疏的差别,将社会网络中那些具有紧密联系的个体的集合称为社区。社区往往体现出多种多样的合作模式。所述的合作模式被认为是一种常常固定出现的组合,它可以被提炼出来供研究者进行规律分析。例如,在学术合作网络中,用户往往希望了解具有一定影响力的作者之间的合作规律以及他们领导组织学术团队的组织结构,从而可以起到定位学术前沿、并组织引导自己的团队的作用;在在线交友网络中,用户往往发现个别话题总是能够获得快速传播,研究信息流动和特定的网络结构的关系可以在商业情报分析、产品推广、垃圾广告检测方面起到重要的作用;在蛋白质相互作用的网络结构中,研究者总是能够发现某些类型的蛋白质能够迅速结合,研究这种结合和其结构网络的关系可以帮助发现各种蛋白质中有效成分的结合规律,从而有效提升研究水平。从社区中提炼出所述合作模式的过程被称为模式挖掘。
社区上的模式挖掘是近年来的研究热点之一,面向无标度图的频繁模式挖掘是其中的一个主要方向。在无标度图上实现的频繁模式挖掘方法的主要思想是:给定一个支持度阈值,将社会网络中发现的频繁程度不低于这个阈值的频繁的子图作为挖掘出来的模式。与在事务性数据上的频繁模式挖掘方法类似,现有技术中主流的社区频繁模式挖掘方法也可以概括为基于Apriori算法的方法和基于Pattern-Growth的方法。但与事务性数据不同的是,社区频繁模式挖掘方法中用于表示社会网络的图结构的立体性给计算带来了新的挑战。例如,基于Apriori算法的方法中,图模式候选集的生成不但需要考虑节点的扩展,还需要同时考虑边的扩展,这样所带来的组合爆炸问题十分明显。伊利诺伊香槟分校的Yan、Han等人在02年提出了一种基于Pattern-Growth的频繁模式挖掘算法gSpan,为了避免发现重复的结构,其给出了一种右路优先的遍历策略;该方法仅仅使用频繁度作为衡量模式好与坏的唯一标准,没有考虑频繁模式挖掘中的其他代表性因素,因此会影响挖掘结果的准确性。
在前述的频繁模式挖掘思想下,人们通常使用能否符合给定的同构映射来判断两个子图是否相等。但在现实世界里,社会网络的链接上往往携带有丰富的信息,因此结构相同的子图并不意味着相同的合作模式,这就给图的挖掘算法带来了更多的困难。例如,在学术合作网络中,一个连接形式完全相同的子图,如完全图Clique,可能代表成员社会地位对等的工作组,但也可能是少数重要影响力的作者领导的一个学术团体。在这种情况下,图中节点与边的权重信息和标注信息往往有助于对图中重要节点进行识别,并作为衡量子图相似性的一个参考。在参考文献1“L.Page,S.Brin,R.Motwani,and T.Winograd.The pagerank citation ranking:Bringing orderto the web.1998”和参考文献2“J.Kleinberg,R.Kumar,P.Raghavan,S.Rajagopalan,and A.Tomkins.The web as a graph:Measurements,models,andmethods.Computing and Combinatorics,pages 1-17,1999”所提到的方法中,对图的链接关系的结构加以提炼,并将这种结构带来的信息传递效应转化为节点的重要性指标,这种指标也可以作为衡量不同社区节点间相似度的标准。然而,由于图结构的复杂性,往往该类计算的开销与节点规模和边密度呈指数级规模增长,算法的伸缩性不强,很难应用到大规模的网络结构中。
此外,基于支持度阈值的频繁模式挖掘算法也存在应用上的局限性。在某些社会网络中,带有某些典型特征的合作模式往往并不很常见。例如,在学术网络中,某些知名学者间的合作模式并不频繁出现;在在线交友网站或微博客的网站中,由名人效应带来的聚集群体在数量上也会比一般的讨论区少很多。支持度阈值设置过高往往会导致算法忽略网络中的一些特定结构,而支持度阈值设置过低又会带来性能问题。本领域技术人员很难设定一个合适的支持度阈值。
发明内容
本发明的目的是克服现有的频繁模式挖掘方法在应用上的局限性,从而提供了一种社区相似度计算方法,包括:
步骤1)、将待计算相似度的第一社区与第二社区分别用第一图与第二图表示,其中,所述第一图与所述第二图中的节点上标注有用来表示该节点所对应的社区中个体的权威性的节点权威性值,所述节点之间的边上标注有用来表示该边所连接的两节点之间某一类型信息的边标注值;
步骤2)、将所述第一图与所述第二图中的各个节点分别按照所述节点权威性值进行降序排列;
步骤3)、为步骤2)所得到的第一图与第二图计算相似值,进而得到所述第一图与所述第二图所代表的社区的相似程度。
上述技术方案中,在所述的步骤1)和步骤2)之间还包括:
步骤a)、比较所述第一图与第二图的节点数目,为节点数较少的图添加空节点,确保两个图有相同的节点数量;
步骤b)、在所添加的空节点之间以及所述空节点与原有节点之间添加虚拟边,使得所述第一图与第二图成为完全图;所述虚拟边的边标注值为0。
上述技术方案中,在所述的步骤3)中,所述相似值为余弦相似值;计算余弦相似值的公式为:
D ( S 1 , S 2 ) = &beta; cos ( &angle; < I V ( S 1 * ) , I V ( S 2 * ) > ) + ( 1 - &beta; ) cos ( &angle; < I E ( S 1 * ) , I E ( S 2 * ) > )
其中,∠<>表示向量间的夹角;β表示加权因子,代表在添加虚拟边后成为完全图的第一图,
Figure BSA00000338444400033
代表在添加虚拟边后成为完全图的第二图,
Figure BSA00000338444400034
表示的节点权重向量,表示
Figure BSA00000338444400037
中的边权重向量。
本发明还提供了一种从社会网络中查找合作模式的方法,包括:
步骤1)、从用于表示社会网络的图中找出所有用于表示社区的子图,将这些子图所代表的社区存入一个集合中;
步骤2)、从步骤1)所找出的社区的集合中,提取一个社区,将该社区作为模式库中的第一个合作模式;
步骤3)、从步骤1)所找出的社区的集合中继续提取一个新的社区,根据所述的社区相似度计算方法对该新的社区与所述模式库中的已有合作模式进行相似度计算,根据相似度计算结果将该新的社区与已有合作模式合并或者作为一种新的合作模式添加到所述模式库中;
步骤4)、判断所述社区的集合中的社区是否已经被提取完,如果有尚未处理的新的社区,重新执行步骤3),否则,结束操作,输出模式库中的所有合作模式。
上述技术方案中,在所述的步骤1)中还包括将从用于表示社会网络的图中所找出的所有社区的显著性与一预先设定的显著性指标进行比较,将显著性小于该显著性指标的社区作为非重要社区从所述社区的集合中剔除。
上述技术方案中,在所述的步骤3)中,所述的根据相似度计算结果将该新的社区与已有合作模式合并或者作为一种新的合作模式添加到所述模式库中包括:
所述相似度计算结果大于一设定的相似度阈值,将所述新的社区与已有合作模式合并。
上述技术方案中,在所述的步骤3)中,所述的根据相似度计算结果将该新的社区与已有合作模式合并或者作为一种新的合作模式添加到所述模式库中还包括:
所述相似度计算结果小于或等于一设定的相似度阈值,将所述新的社区作为一种新的合作模式添加到所述模式库中。
本发明的优点在于:
本发明在发现合作模式的过程中,不仅仅考虑了结构特征,也考虑了节点的权威性分布(即重要节点需在相似的结构中处于相似的社会地位),使得所发现的合作模式更具有代表性。
附图说明
图1(a)为一个实施例中所涉及的一个子图的示意图;
图1(b)为一个实施例中所涉及的另一个子图的示意图;
图2为描述了在本发明的一个实验中,一个数据集中节点度分布的情况;
图3为在本发明的一个实验中,相似度阈值α与最终发现模式数量的关系示意图;
图4为对应于图3的相似度阈值α设置生成的模式数量规模和运行时间的关系示意图;
图5为相似度阈值α和运行时间的关系示意图;
图6中为根据实验结果所得到的点/边加权因子β与模式库规模的关系图;
图7为本发明方法在一个实施例中的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。
在对本发明方法做详细说明前,首先对本发明中所涉及的相关概念加以定义。
1、社会网络的表示方法
在现实生活中,存在多种类型的社会网络,如在线交友网站、学术合作网络、通信网络、生物蛋白质相互作用网络等,这些网络虽然形式多样,但都可以通过公知的统计或测量的方法模型化为距离加权图。在本发明中可以采用如下的四元组来表示图形化后的社会网络:
Figure BSA00000338444400051
其中,v∈V表示个体和个体集,个体间的关系由无向边e={u,v}∈E表示,E代表边(链接)的集合;
Figure BSA00000338444400052
用来表示节点v上的标注函数,通常表示节点v在整个图中的权威性,它是一个数值型变量,可以通过某些统计数据(如在博客网络中的发帖量)或由结构运算产生的变量(如节点v的PageRank值)获取;
Figure BSA00000338444400053
是边e={u,v}上的标注函数,代表边e两端的节点u、v在图上的距离,该函数的值可以表示物理距离上的远近、社会关系的强弱、相互通信的频率等多种类型的信息,其值的大小通常通过公知的统计方法或测量方法获得。
2、社区的表示方法
由于社区是社会网络的一个组成部分,因此可以适用导出子图(Induced Subgraph)来定义图G上的社区C,在这一定义过程中要求用来表示社区C的子图的连接关系和全图的连接关系一致。在对本发明方法的以下描述中,出于叙述简单的考虑,以无向加权图为例来表示社区,但本领域技术人员应当了解,本发明方法通过简单变换也可以直接应用到用有向加权图表示的社区中。
3、如何定义社区的重要性
在真实世界中,往往那些具有显著性特征的社区被认为是重要的,值得关注的。例如,在学术合作网络中,合作产生论文数较多的群体;在Web结构中,点击率高的网页集合和链接结构;在在线社会网络服务中,能够快速发布信息的节点群等。在本发明中,使用目标函数和显著性特征来定义社区的重要性,即给定一个显著性函数
Figure BSA00000338444400061
和一个显著性阈值δ,对于一个社区C,如果则C是一个重要社区。
Figure BSA00000338444400063
在不同的社会网络中可以表达不同的意义,例如在学术合作网络中,表达一个群体合作论文的总数;在P2P网络中,可以表达某个群体中内联流量等。
4、合作模式的表示方法
合作模式可以用一个加权的子图表示,其中,V(P)表示其节点集,E(P)表示其边集,分别是节点和边的标注函数。合作模式是用于表示社会网络的图的子图的一种抽象。
5、模式对社区的描述能力
一个合作模式能否代表一个社区需要有一个衡量标准。在本发明中定义一种相似度函数来表达合作模式对社区的描述能力。当一个合作模式和一个社区的相似度达到一定标准时,就认为这种合作模式可以代表该类型的社区。对于模式对社区的描述能力可以做以下定义:
定义1【α-描述】:对于一个社区C和一个模式P,desc(P→C)表示P对C的描述能力;给定一个描述度阈值α,如果desc(P→C)≥α,就说模式P对社区C满足α-描述要求。
6、合作模式与社区的相似性度量方法与有关的相似性度量函数
从前面的描述可以知道,在本发明中,无论是合作模式还是社区,都可以用图来表示,因此合作模式与社区的相似性度量问题也就会演变成对用来表示社会网络的大规模图G中的两个子图S1和S2之间的相似性度量问题。在现有技术中,要衡量两个图的相似度存在多种方法,如计算图编辑距离(Graph Edit Distance)的方法,或者通过计算两个图的公共结构来衡量两图的相似程度。但这些方法不仅有计算开销大的问题,而且在相似性度量上也存在局限性。在本发明中,在度量相似性时不仅要考虑图结构间的相似性,也要考虑图中个体权威性和个体间连接关系紧密度分布上的相似性。因此,本发明采用了基于余弦相似度的相似度度量方法。下面对这一方法的具体实现加以说明。
在衡量图S1和S2的相似度时,首先将S1和S2中的节点根据节点的权威性标注进行降序排列,如图1中所示的顺时针方向,其目的是要给图中的节点做一个全局遍历序,以确保不同图中具有相当社会地位的节点能够被在同一级别上进行结构比较。也就是说,两个相似的社区首先要保证权重和结构的一致性。例如,在交友网络中,星形和雪花型是常见的组织结构,如果要认定两个星形结构的社区是一致的,那么需要首先保证其对应重要节点处在两个结构的同一相对位置(如中心)。
对于两个社区中节点数量不对等的情况,即|S1|≠|S2|,为了方便表示,将会在社区所对应的图中添加空节点,以确保两个图有相同的节点数量。在两个图中节点数量相同的前提下,可以采用余弦相似度来衡量两社区间节点权威性分布的差别和边权重的差别。如图1(a)、(b)所示,将图1(a)中的子图用S1表示,将图1(b)中的子图用S2表示,由于S2中的节点数目少于S1中的节点数目,因此在图1(b)中添加一个空节点。此外还要在这两个图中为节点间不存在连接之处添加权重为零的虚拟边(在图中用虚线表示)。通过上述操作,S1和S2就被扩充成为两个节点数量完全相等的完全图
Figure BSA00000338444400071
Figure BSA00000338444400072
在完成对社区所对应图的上述操作后,就可以用相似性度量函数来衡量两个社区的相似程度。假设
Figure BSA00000338444400073
表示的节点权重向量,其中,
Figure BSA00000338444400075
表示向量各维按照节点权重降序排列;
Figure BSA00000338444400076
表示
Figure BSA00000338444400077
中的边权重向量,其中ei(1<i<m)表示对应节点间依照组合遍历序排列的对应边的权重。那么可以用下列公式来衡量两个社区间的相似程度:
D ( S 1 , S 2 ) = &beta; cos ( &angle; < I V ( S 1 * ) , I V ( S 2 * ) > ) + ( 1 - &beta; ) cos ( &angle; < I E ( S 1 * ) , I E ( S 2 * ) > )
上述公式中,∠<>代表向量之间的夹角;0≤β≤1,β表示点/边加权因子,这是一个用户预先设定的参数,用于确定用来表示点的余弦相似度值的点权威性分布与用来表示边的余弦相似度值的结构权威性分布在相似度衡量函数中的权重比例。D(S1,S2)的值被约束在0~1之间,越接近1,两个子图S1和S2的相似程度越高,等于1则表示两个子图完全相同,且两个子图的权重分布完全成比例(例如,两个子图的相似度为1,则一个子图中的边AB边权值为1,CD边权值为2,那么在另一个子图中A’B’的权值为10,C’D’的权值是20;两个图中的两条边的权值大小不同,但相对大小是一样的),0表示两个子图完全正交,没有相似度。
与现有技术中的图编辑距离等方法相比,本发明采用的余弦相似度更容易计算。需要注意的是,对于一个节点规模为n的社区,虚拟边和真实边的总数会达到
Figure BSA00000338444400081
由于虚拟边的权重为零,添加虚拟边并不会增加计算的复杂度。由于余弦相似度的结果会受到维度的影响,添加大量的虚拟边会稀释真实边的权重差异;对于两个拥有较多成员的社区,做到结构和结构权重分布精确匹配是不现实的,也是没有必要的,所以这种稀释现象是合理的。也就是说,本发明的相似度计算方法会随着节点规模的增加而适当的放松。
此外,当两个节点在图中所处位置相当的时候(即这两个节点的权威性分布相差不大),使用上述的相似度计算方法可能会导致完全不同的计算结果。例如,图1(a)中的u、v两节点的权威性指标完全一致,但是如果在降序排列过程中将它们的位置对调,将会生成一个新的子图
Figure BSA00000338444400082
两种不同的次序将会导致
Figure BSA00000338444400083
Figure BSA00000338444400084
存在维度对应上的差异,使子图S1不是自相似的。由于良好的相似性衡量方法应当满足自相似的要求。因此,对本发明的一种直观的解决方法是:对于
Figure BSA00000338444400085
如果
Figure BSA00000338444400086
(γ是一个用户指定参数,通常根据节点权威性的数值分布来确定),那么u和v在S*中的相对位置是可交换的;在计算S与另一社区S’的相似度时,对于每一种可能的S*都会计算其与S’*的相似度,取相似度最大值作为S与S’的相似度。
本发明中给出的上述相似度模型是在度量空间上的,用如下的定理表示:
定理1:本发明给出的余弦相似度模型是一个在度量空间上的,即任意给定三个社区S1、S2和S3,有
D(S1,S2)+D(S2,S3)≥D(S1,S3);
D(S1,S2)-D(S2,S3)≤D(S1,S3)。
证明:根据定义,对于任意两个社区S1、S2,显然有D(S1,S2)=D(S2,S1)。相似度定义是两对向量夹角余弦的线性组合,由于向量夹角总是为正,且满足三角不等式,所以其余弦也满足三角不等式,从而其线性组合也满足三角不等式。证毕。
由于本发明给出的相似度度量函数符合三角不等式,因此,合理的模式间的区分度阈值θ至多设置为α/2。
以上是对本发明中所涉及的相关概念的统一描述,下面对本发明方法的实现过程进行说明。
正如前文中所提到的,利用公知技术可以将现有技术中的社会网络用无向加权图表示,本发明的目的就是给定一个用来表示社会网络的图G和一个相似度阈值α,通过分析所有图中显著性指标大于δ的社区C,获得一组模式P1,…,Pn∈PS,对于
Figure BSA00000338444400091
Pj∈PS(i≠j)都有desc(Pi→Pj)<θ;对于
Figure BSA00000338444400092
Figure BSA00000338444400093
θ是一个区分度参数,表示两个发现的模式至少其相似度要小于一个给定的阈值,也就是说,目标模式集PS中的模式要互不相同,但是对于图中的社区要具有代表性。相似度阈值α的大小可以根据应用的要求和具体的实践来确定,在本实施例中可以设定为80%。
如图7所示,本发明方法的实现步骤如下:
步骤1)、首先从用于表示社会网络的大规模图G中找出所有的用于表示社区的子图,从社会网络中找社区的方法为本领域的公知技术,此处不再重复。
在一个优选实施例中,本步骤还包括将从大规模图G中找出的子图所代表的社区的显著性与一个预先设定的显著性指标δ进行比较,从而选出较为重要的社区,在后续的步骤中,只对这些较为重要的社区进行操作。
步骤2)、在步骤1)所得到的社区的集合中,提取出一个社区,将该社区作为模式库中的第一个模式。在初始的时候,模式库中为空。
步骤3)、从社区的集合中继续抽取一个新的社区,将这一社区与所述模式库中已有模式进行相似度计算,根据相似度计算结果判断该社区与该已有模式是否匹配,如果匹配,即社区与模式的相似度计算结果大于所述的相似度阈值α,则将该新的社区与已有模式进行合并,如果没有匹配,则将这一新的社区加到模式库中。
在本步骤中,如何计算社区与已有模式的相似度在前文中已经有详细的说明,此处不在重复。本步骤中所提到的将新的社区与已有模式进行合并的目的在于确保所发现的模式位于其所代表的社区群组的抽象位置中心,在一个实施例中,所述合并采用加权合并的方式。在加权合并的过程中,假设每个已有模式都已经匹配了若干社区,当新的社区与已有模式进行合并时,已有模式会根据其代表的社区数量被赋予一定的权重。由于每个模式和社区都可以抽象表示为一个边向量和一个点向量,因此,其合并方式使用了向量的加权平均。
步骤4)、判断社区集合中的社区是否已经被抽取完,如果有尚未处理的新的社区,重新执行步骤3),否则,结束操作,输出模式库中的结果。
以上是对本发明方法实现步骤的描述,下面结合实验结果来证明本发明方法的有效性。
在一个实验中,在一个真实的学术合作网络数据集上验证本发明的方法。在此实验中挑选了9个国际会议(即SIGMOD、VLDB、PODS、ICDE、ICDT、DOOD、EDBT、SSD和CIKM)从2000年1月到2008年8月的论文作为基本素材,得到相应的数据集。这个数据集包含10307个作者和10372篇论文,相关数据可以在DBLP(http://dblp.uni-trier.de/xml/)上下载。由这一数据集可以生成无向加权图。无向加权图中的每个节点代表文章的一个作者,如果两个作者之间合作过论文,那么他们之间就会存在一条无向加权边,权值表示他们合作的论文数量。在该次实验中,无向加权图上的节点的权威性使用了参考文献3“Y.Han,B.Zhou,J.Pei,Yan Jia:Understanding Importance of Collaborations in Co-authorship Networks:ASupportiveness Analysis Approach.SDM 2009:1111-1122”中所定义的支持度,该支持度代表在学术合作网络中一个作者支持他人的程度。在图2中则描述了前述数据集中节点度(相邻节点的数量)分布的情况。由无向加权图表示的学术合作网络的网络结构可以通过邻接表的形式加以存储。
通过现有技术可以在上述数据集中枚举出3,071个不同的社区。在这些社区的基础上采用本发明的方法可以进行模式发现的工作。在本发明的方法中,相似度阈值α描述了一个模式应该以怎样的程度去匹配一个社区。模式和社区的匹配阈值设置越高,一个社区在模式库中找到匹配模式的概率就越低,从而模式库的规模也就越大。当α=1时,意味着模式与社区必须完全匹配。图3描述了α设置与最终发现模式数量的关系。从图中可以发现,α≥0.95时,发现的模式数量保持在一个很高的数值,说明社区在较高的门槛下匹配率很低。在α=0.85时,曲线发生了较为明显的拐点,匹配率明显升高,并趋于稳定。
对于每个社区,都要在模式库中寻找匹配的模式,从而决定是否要进行增加或更新操作,所以,发现模式的数量也决定了程序的运行效率。图4描述了对应于图3的α设置生成的模式数量规模和运行时间的关系。从图中可以看出,运行时间和模式库的规模在宏观上呈线性,在α设置较低的时候,模式规模较小,运行时间相对较低。值得注意的是,我们在前文中提到了γ的设置,由于本实验使用的节点权成性定义是整数型,所以设置γ=0,即仅当一个社区存在2个节点权威性完全相等时才进行节点向量的重新生成。图5描述了α和运行时间的关系。
在本发明方法中所提到的点/边加权因子β用来权衡节点相似度和边相似度在相似度衡量函数中的地位,在本实验中也测试了β对生成模式的数量的影响。在图6中描述了根据实验结果所得到的β与模式库规模的关系图。参数β=1表示完全根据点的权威性分布进行相似度匹配,β=0表示节点权威度分布仅用来约束结构,相似性完全根据边的分布来确定。从图中可以看出,节点权威性在β>0.4时对整体相似度起支配作用。正如前文所提到的,本文所述的学术合作网络中存在小范围的密集连接关系(多人合作一篇论文),其边上的权重差异会被这种密集连接关系所稀释,当逐渐增加边的权重时,受边的影响,匹配率会逐渐降低。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种社区相似度计算方法,包括:
步骤1)、将待计算相似度的第一社区与第二社区分别用第一图与第二图表示,其中,所述第一图与所述第二图中的节点上标注有用来表示该节点所对应的社区中个体的权威性的节点权威性值,所述节点之间的边上标注有用来表示该边所连接的两节点之间某一类型信息的边标注值;
步骤2)、将所述第一图与所述第二图中的各个节点分别按照所述节点权威性值进行降序排列;
步骤3)、为步骤2)所得到的第一图与第二图计算相似值,进而得到所述第一图与所述第二图所代表的社区的相似程度。
2.根据权利要求1所述的社区相似度计算方法,其特征在于,在所述的步骤1)和步骤2)之间还包括:
步骤a)、比较所述第一图与第二图的节点数目,为节点数较少的图添加空节点,确保两个图有相同的节点数量;
步骤b)、在所添加的空节点之间以及所述空节点与原有节点之间添加虚拟边,使得所述第一图与第二图成为完全图;所述虚拟边的边标注值为0。
3.根据权利要求1或2所述的社区相似度计算方法,其特征在于,在所述的步骤3)中,所述相似值为余弦相似值;计算余弦相似值的公式为:
D ( S 1 , S 2 ) = &beta; cos ( &angle; < I V ( S 1 * ) , I V ( S 2 * ) > ) + ( 1 - &beta; ) cos ( &angle; < I E ( S 1 * ) , I E ( S 2 * ) > )
其中,∠<>表示向量间的夹角;β表示加权因子,代表在添加虚拟边后成为完全图的第一图,
Figure FSA00000338444300013
代表在添加虚拟边后成为完全图的第二图,
Figure FSA00000338444300014
表示
Figure FSA00000338444300015
的节点权重向量,
Figure FSA00000338444300016
表示
Figure FSA00000338444300017
中的边权重向量。
4.一种从社会网络中查找合作模式的方法,包括:
步骤1)、从用于表示社会网络的图中找出所有用于表示社区的子图,将这些子图所代表的社区存入一个集合中;
步骤2)、从步骤1)所找出的社区的集合中,提取一个社区,将该社区作为模式库中的第一个合作模式;
步骤3)、从步骤1)所找出的社区的集合中继续提取一个新的社区,根据权利要求1-3之一所述的社区相似度计算方法对该新的社区与所述模式库中的已有合作模式进行相似度计算,根据相似度计算结果将该新的社区与已有合作模式合并或者作为一种新的合作模式添加到所述模式库中;
步骤4)、判断所述社区的集合中的社区是否已经被提取完,如果有尚未处理的新的社区,重新执行步骤3),否则,结束操作,输出模式库中的所有合作模式。
5.根据权利要求4所述的从社会网络中查找合作模式的方法,其特征在于,在所述的步骤1)中还包括将从用于表示社会网络的图中所找出的所有社区的显著性与一预先设定的显著性指标进行比较,将显著性小于该显著性指标的社区作为非重要社区从所述社区的集合中剔除。
6.根据权利要求4或5所述的从社会网络中查找合作模式的方法,其特征在于,在所述的步骤3)中,所述的根据相似度计算结果将该新的社区与已有合作模式合并或者作为一种新的合作模式添加到所述模式库中包括:
所述相似度计算结果大于一设定的相似度阈值,将所述新的社区与已有合作模式合并。
7.根据权利要求4或5所述的从社会网络中查找合作模式的方法,其特征在于,在所述的步骤3)中,所述的根据相似度计算结果将该新的社区与已有合作模式合并或者作为一种新的合作模式添加到所述模式库中还包括:
所述相似度计算结果小于或等于一设定的相似度阈值,将所述新的社区作为一种新的合作模式添加到所述模式库中。
CN 201010535509 2010-11-04 2010-11-04 社区相似度计算方法与社会网络合作模式发现方法 Expired - Fee Related CN102456062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010535509 CN102456062B (zh) 2010-11-04 2010-11-04 社区相似度计算方法与社会网络合作模式发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010535509 CN102456062B (zh) 2010-11-04 2010-11-04 社区相似度计算方法与社会网络合作模式发现方法

Publications (2)

Publication Number Publication Date
CN102456062A true CN102456062A (zh) 2012-05-16
CN102456062B CN102456062B (zh) 2013-05-08

Family

ID=46039257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010535509 Expired - Fee Related CN102456062B (zh) 2010-11-04 2010-11-04 社区相似度计算方法与社会网络合作模式发现方法

Country Status (1)

Country Link
CN (1) CN102456062B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831219A (zh) * 2012-08-22 2012-12-19 浙江大学 一种应用于社区发现的可覆盖聚类算法
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法
CN103020163A (zh) * 2012-11-26 2013-04-03 南京大学 一种网络中基于节点相似度的网络社区划分方法
CN103268520A (zh) * 2013-05-09 2013-08-28 武汉大学 一种基于技能贡献值的网络团队自动组建方法
CN103729475A (zh) * 2014-01-24 2014-04-16 福州大学 一种社交网络中的多标签传播重叠社区发现方法
CN103853835A (zh) * 2014-03-14 2014-06-11 西安电子科技大学 基于gpu加速的网络社区检测方法
CN104246787A (zh) * 2012-05-30 2014-12-24 惠普发展公司,有限责任合伙企业 用于模式发现的参数调节
CN105184653A (zh) * 2015-09-08 2015-12-23 苏州大学 一种面向社交网络的基于信任的众包工人筛选方法
CN108171612A (zh) * 2016-12-06 2018-06-15 北京国双科技有限公司 一种关联方法和装置
CN109766940A (zh) * 2018-12-29 2019-05-17 北京天诚同创电气有限公司 评估多个污水处理系统间的相似度的方法和装置
CN111199002A (zh) * 2019-12-17 2020-05-26 北京邮电大学 一种信息处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275899A1 (en) * 2007-05-01 2008-11-06 Google Inc. Advertiser and User Association
CN101877711A (zh) * 2009-04-28 2010-11-03 华为技术有限公司 社会网络建立方法及装置、以及社区发现方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275899A1 (en) * 2007-05-01 2008-11-06 Google Inc. Advertiser and User Association
CN101877711A (zh) * 2009-04-28 2010-11-03 华为技术有限公司 社会网络建立方法及装置、以及社区发现方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩毅等: "社会网络中面向多准则约束的社区发现方法", 《计算机科学与探索》, vol. 4, no. 8, 31 August 2010 (2010-08-31), pages 683 - 691 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10027686B2 (en) 2012-05-30 2018-07-17 Entit Software Llc Parameter adjustment for pattern discovery
CN104246787A (zh) * 2012-05-30 2014-12-24 惠普发展公司,有限责任合伙企业 用于模式发现的参数调节
CN102831219A (zh) * 2012-08-22 2012-12-19 浙江大学 一种应用于社区发现的可覆盖聚类算法
CN102831219B (zh) * 2012-08-22 2015-12-16 浙江大学 一种应用于社区发现的可覆盖聚类方法
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法
CN103020163A (zh) * 2012-11-26 2013-04-03 南京大学 一种网络中基于节点相似度的网络社区划分方法
CN103268520B (zh) * 2013-05-09 2016-03-02 武汉大学 一种基于技能贡献值的网络团队自动组建方法
CN103268520A (zh) * 2013-05-09 2013-08-28 武汉大学 一种基于技能贡献值的网络团队自动组建方法
CN103729475A (zh) * 2014-01-24 2014-04-16 福州大学 一种社交网络中的多标签传播重叠社区发现方法
CN103853835B (zh) * 2014-03-14 2017-03-29 西安电子科技大学 基于gpu加速的网络社区检测方法
CN103853835A (zh) * 2014-03-14 2014-06-11 西安电子科技大学 基于gpu加速的网络社区检测方法
CN105184653A (zh) * 2015-09-08 2015-12-23 苏州大学 一种面向社交网络的基于信任的众包工人筛选方法
CN108171612A (zh) * 2016-12-06 2018-06-15 北京国双科技有限公司 一种关联方法和装置
CN109766940A (zh) * 2018-12-29 2019-05-17 北京天诚同创电气有限公司 评估多个污水处理系统间的相似度的方法和装置
CN109766940B (zh) * 2018-12-29 2024-02-02 北京天诚同创电气有限公司 评估多个污水处理系统间的相似度的方法和装置
CN111199002A (zh) * 2019-12-17 2020-05-26 北京邮电大学 一种信息处理方法及装置

Also Published As

Publication number Publication date
CN102456062B (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN102456062B (zh) 社区相似度计算方法与社会网络合作模式发现方法
Allshouse et al. Lagrangian based methods for coherent structure detection
Li et al. A comparative analysis of evolutionary and memetic algorithms for community detection from signed social networks
Hammouda et al. Hierarchically distributed peer-to-peer document clustering and cluster summarization
Isaac et al. Low-cost parallel algorithms for 2: 1 octree balance
Wang et al. Dynamic community detection based on network structural perturbation and topological similarity
Zhou et al. Movie recommendation system employing the user-based cf in cloud computing
CN105893381A (zh) 一种基于半监督标签传播的微博用户群体划分方法
CN104462374B (zh) 一种广义最大度随机游走图抽样方法
Han et al. Neighborhood-based uncertainty generation in social networks
CN105893382A (zh) 一种基于先验知识的微博用户群体划分方法
CN102456064B (zh) 在社会网络中实现社区发现的方法
Qiu et al. Efficient structural clustering on probabilistic graphs
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
Wu et al. Dpscan: Structural graph clustering based on density peaks
Chen et al. Fast community detection based on distance dynamics
Zhou et al. A cooperative game theory-based algorithm for overlapping community detection
Han et al. A semantic community detection algorithm based on quantizing progress
Shao et al. Improving iForest for hydrological time series anomaly detection
Zelinka et al. Hidden complexity of evolutionary dynamics: Analysis
Lee et al. Origin-based partial linearization method for the stochastic user equilibrium traffic assignment problem
Negara et al. Social network analysis to detect influential actors with Indonesian hastags using the centrality method
Teng et al. Team formation with the communication load constraint in social networks
CN108846439A (zh) 一种无先验知识条件下基于小数据集的贝叶斯网络参数学习方法
Lyu et al. Predicting missing links via structural similarity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130508

Termination date: 20141104

EXPY Termination of patent right or utility model