CN101887441A - 一种社会网络建立方法和系统及网络社区挖掘方法和系统 - Google Patents

一种社会网络建立方法和系统及网络社区挖掘方法和系统 Download PDF

Info

Publication number
CN101887441A
CN101887441A CN2009101404552A CN200910140455A CN101887441A CN 101887441 A CN101887441 A CN 101887441A CN 2009101404552 A CN2009101404552 A CN 2009101404552A CN 200910140455 A CN200910140455 A CN 200910140455A CN 101887441 A CN101887441 A CN 101887441A
Authority
CN
China
Prior art keywords
community
node
network
current
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009101404552A
Other languages
English (en)
Inventor
刘茂征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2009101404552A priority Critical patent/CN101887441A/zh
Publication of CN101887441A publication Critical patent/CN101887441A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种社会网络建立方法和系统及网络中社区挖掘方法和系统,其中,所述社区挖掘方法包括:计算所述社会网络中的各个节点的节点强度,某个节点的节点强度为所有与该节点相连的边的权值之和;根据节点强度选取的初始节点,以所述初始节点为基础,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值,模块度达到极大值的社区即为待挖掘社区。本发明实施例所提供的方法,能够有效地从社会网络中发现具有某种特征的用户群或用户社区,且能够基于这些具有不同特征的用户群或社区,提供更有价值的服务,比如信息传播、业务推荐和朋友推荐等。

Description

一种社会网络建立方法和系统及网络社区挖掘方法和系统
技术领域
本发明涉及本发明涉及通信及互联网领域,尤其涉及一种社会网络建立方法和系统及网络社区挖掘方法和系统。
背景技术
网络论坛以互联网作为传播载体和运行平台,论坛中的网络用户可以自由地参与其中,围绕某类或某个特定的问题,自主地面向公众发布信息、发表评论、交流观点和意见。网络论坛为网民提供了一个方便的发表个人观点的场所,网民通过论坛能找到志趣相投的网友进行各种交流,例如分享原创文章、求助或者帮别人解决疑难问题等等。
随着网络技术的发展,论坛能够为用户提供越来越多的服务,如音乐论坛向用户推荐歌曲,新闻论坛向用户推荐时下热点主题等等。
发明人通过研究发现,现有的这些推荐基本上都是根据用户的搜索历史以及用户的登记属性对用户进行的,虽然有一定效果,但是仍然不能准确全面的反映用户的兴趣爱好。更何况,用户的兴趣爱好是随着时间不断变化的,搜索历史并不能真实地反映用户当前的兴趣点;而用户的登记属性,信息是有限的,并且不能实时更新。
发明内容
有鉴于此,本发明实施例的目的在于提供一种社会网络建立方法和系统及网络社区挖掘方法和系统,用于发现具有某种特征,并且能够为之提供更有价值的服务的用户群或用户社区。
为实现上述目的,本发明实施例提供了如下技术方案:
一种社会网络建立方法,包括:
从信息单元中提取并保存相互关联的数据;
根据保存的相互关联的数据确定网络用户之间的关系,根据所述网络用户之间的关系建立所述社会网络。
一种社会网络中的社区挖掘方法,包括:
计算社会网络中的各个节点的节点强度,某个节点的节点强度为所有与该节点相连的边的权值之和;
根据节点强度选取初始节点,以所述初始节点为基础,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值,模块度达到极大值的社区即为待挖掘社区。
一种建立论坛用户社会网络的系统,包括:
存储单元,用于从信息单元中提取并保存相互关联的数据;
构建单元,用于根据所述存储单元保存的相互关联的数据确定网络用户之间的关系,根据所述网络用户之间的关系建立所述社会网络。
一种社会网络中的社区挖掘系统,包括:
统计单元,用于计算所述社会网络中的各个节点的节点强度,某个节点的节点强度为所有与该节点相连的边的权值之和;
挖掘单元,用于根据所述统计单元计算的节点强度选取初始节点,以所述初始节点为基础,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值,模块度达到极大值的社区即为待挖掘社区。
可见,在本发明实施例中,从信息单元中提取并保存相互关联的数据;根据保存的相互关联的数据确定网络用户之间的关系,根据所述网络用户之间的关系建立所述社会网络,在社会网络建立后,计算所述社会网络中的各个节点的节点强度,某个节点的节点强度为所有与该节点相连的边的权值之和;根据节点强度选取初始节点,以所述初始节点为基础,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值,模块度达到极大值的社区即为待挖掘社区,本发明实施例所提供的方法,根据信息单元中的信息建立社会网络,客观地反映出了网络用户之间的关系;同时,能够有效地从社会网络中发现具有某种特征的用户群或用户社区,且能够向这些具有不同特征的用户群或社区中的用户,提供更有价值的服务,比如信息传播、业务推荐和朋友推荐等。
附图说明
图1为本发明一实施例所提供的方法的流程图;
图2为本发明另一实施例所提供的方法的流程图;
图2a为本发明一实施例所提供的方法的子步骤的流程图;
图3为本发明一实施例所提供的社会网络结构示意图;
图4为本发明另一实施例所提供的方法的流程图;
图5为本发明一实施例所提供的方法的流程图;
图6为本发明一实施例所提供的另一社会网络结构示意图;
图7为本发明一实施例所提供的系统的结构示意图;
图8为本发明另一实施例所提供的系统的结构示意图;
图9为本发明一实施例所提供的系统中一单元的结构示意图。
具体实施方式
本发明实施例公开了一种社会网络建立及网络社区挖掘方法和系统,为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明作进一步详细说明。
参见图1,本发明实施例所提供的方法具体包括:
步骤101:从信息单元中提取并保存相互关联的数据。
所述信息单元可以是网页中包含的任何信息,在本发明实施例中以网页中的帖子为例进行说明。
一个网络中的帖子包括几个基本属性,如帖子的主题标识、主题相关用户的用户标识以及主题相关用户间相互沟通的次数。
所述帖子的主题标识可以是帖子的名称或者是帖子在网页中的特定代码;所述主题相关用户的用户标识可以是用户的用户名或者用户在网页中的特定代码。主题相关用户则包括该主题的发起者和该主题的参与者。
主题相关用户之间通过互相对彼此所发帖子的回复或者引用来表达自己对一个主题不同的观点。而通过这些互相回复或者引用,这些主题的相关用户都关联了起来。
步骤102:根据保存的相互关联的数据提取网络用户之间的关系,根据所述网络用户之间的关系建立所述社会网络。
如前所述,以网络中的帖子为基本的信息单元,主题相关用户都关联了起来。
一个网页中不仅仅包含一个主题,一个主题的用户也有可能会在多个帖子间浏览,所以,通过主题相关用户之间回复和引用的关系就将网络中的用户都联系起来。提取出主题相关用户和他们之间的连接关系,就建成了所述社会网络。
下面参见图2,通过一个具体的例子说明社会网络建立的过程。
步骤201:抓取网页并保存到本地。
步骤202:分析抓取到的网页的结构,以帖子为单元将网页进行拆分,提取出帖子中相关联的数据。
所述相关联的数据包括主题编号,各发帖回帖用户编号,用户间相互回复和引用次数。
步骤203:将提取的数据保存到本地数据库。
将相关联的数据保存到本地数据库有利于后续方便快捷地对相关数据进行分析进而能够更加快速地建立社会网络。
进一步地,可以根据相关联的数据的特点建立相应的表格对相关联的数据进行保存。
例如,在本发明实施例中,建立一个主题信息表(topicinfo)来记录所有的主题的信息,包括主题编号,对应的主题发起者的编号等信息。建立一个主题用户表(topicanduser)来记录主题编号以及主题参与者编号等信息;建立一个引用关系表(quotation)来记录主题相关用户间的引用关系。
步骤204:从数据库中提取数据,确定网络用户间的相互关系,构成社会网络。
网络用户间的关系通过如下方法确定:如果两个用户之间存在回复或者引用关系,那么他们之间就有一条边,边的权值为用户间回复和引用的次数。
参见图2a,一个主题中的用户网络关系采用如下方法具体构建:
步骤S101:根据保存的主题信息表,获取某个主题的发起者,为描述方便,简称主题A。
步骤S102:从主题用户表中获取参与主题A的用户,建立发起者与参与者的关系。即建立一个由发起者指向参与者的有向连接。连边的权值设定为参与者对发起者的回复次数。
步骤S103:从引用关系表中根据该主题中的用户的引用关系,建立由被引用者指向引用者的有向连接。连边的权值为引用者引用被引用者的次数。
若步骤S103与步骤S102得到的用户关系产生重叠,则将权值求和。
重复步骤S101-S103直至所有主题中的用户关系都处理完成,从而构建出用户社会网络。
网络关系的存储采用三元组实现,以一张数据表的形式保存在数据库中。该表数据结构如表1所示。其中memberA表示用户A,memberB表示用户B,relationValue4表示用户A和用户B之间回复或者引用的次数。
表1
  列名  memberA   memberB   relationValue
  数据类型  int   int   int
  长度  4   4   4
通过上述方法构建出基于回复和引用的用户社会网络是有向带权网络,网络中的节点表示论坛的用户,边的方向表示用户之间的回复和引用关系,关系强度用通过回复和引用次数形成的权值来表示。
本发明实施例中,构建社会网络的目的是为了发现用户关系,而图中的方向对网络关系的存在没有特别的影响,所以为了更好地挖掘用户关系,本发明实施例在不改变网络分布的前提下对网络进行改造,将网络中的方向删除,同时将两个用户间的关系进行修正,从而将有向带权网络改造为无向带权网络。
修正方法为,将原有向连接两端点间的单向连接次数进行合并,例如,假设用户1对用户2进行了3次回复,而用户2对用户1进行了1次回复和1次引用,那么用户1和用户2之间的关系强度为3+1+1=5。在数据表中的表现为去除用户与自己的关系,对于确定的用户A和用户B来说,二者之间的关系是唯一且对称的。
本发明实施例所提供的方法,以网络中的帖子为信息单元,基于网络用户间回复和引用而构建出社会网络,客观地反映出了网络用户之间的关系。
本发明实施例还提供一种从社会网络挖掘局部社区的方法。
社会网络直观地体现了网络用户之间的连接关系,这些关系错综复杂。所述局部社区挖掘就是要从社会网络中将联系最为紧密的网络用户组成的局部社区挖掘出来,一般来说,这样的社区中的用户具有较为接近的具有某种特征,例如较为相同的兴趣点等等,从而为有针对性地对这个局部社区中的网络用户提供后续的服务,提高网络用户的体验奠定基础。
为了使社区挖掘方法更为清楚明白,下面先介绍几个相关概念。
1)节点强度:即与某节点相连的边的权值之和,用符号I表示。
例如,在图3中,节点1和节点2,节点4,节点6有连接关系,连接关系的权值分别为3,4,6,那么节点1的节点强度就为3+4+6=13。同理节点6的节点强度为6+5+1=12。
2)节点对社区的贡献度:指节点与社区联系的紧密程度,其计算公式如式1所示:
T ( i , C ) = I ( i , C ) I i 式1
其中,所述T(i,C)表示节点i对社区C的贡献度;I(i,C)为节点i与社区C的联系强度,即节点i与社区C中所有节点的关联节点强度;所述Ii为节点i的节点强度。
例如:在图3中,假设节点1,4,5,6已经合并为一个社区C,现在社区C的邻接点为节点2和节点3。那么节点2对社区C的贡献度=(3+1)/(3+1+2)=2/3,同理节点3对社区C的贡献度=2/(2+2)=1/2。
3)模块度
模块度用来衡量网络的某一个社区划分结果的优劣程度。如果一个社会网络所划分的社区内部有很多连边,而社区与社区之间的连边很少,那么模块度较大,社区划分结果较好。
本发明实施例所提出的社区模块度的计算公式如式2所示:
Q i = e i N in - ( α i N out ) 2 式2
其中,所述ei为社区i内部所有边的权值之和与所述社会网络所有边的权值之和的比值;所述αi为所述社会网络中所有与所述社区i相连的边的权值之和与所述社会网络所有边的权值之和的比值;所述Ni为所述社区i内部节点总数;所述Nout为所述社会网络中所有与所述社区i相连的节点数与社区i的节点数之和。
参见图4,本发明实施例所提供的一种社会网络中的社区挖掘方法包括:
步骤401:计算所述社会网络中的各个节点的节点强度。
本发明实施例中,首先根据前述社会网络建立方法构建社会网络,该社会网络由网络节点和节点间的连接构成。其中,所述网络节点即为网络用户,而节点间的连接即为用户之间的连接关系,通过用户之间针对一个或者多个主题的回复或者引用产生。本发明实施例中的社会网络的连接是有权值的,该权值表示网络节点之间的连接强度,其实质是网络用户之间针对一个或者多个主题相互回复或者引用的次数之和。
如前所述,节点i的节点强度是与节点i所连接的所有边的权值之和。按照式2进行计算即可。所述节点强度实际上是节点i与所述社会网络中其他节点的连接强度。
步骤402:根据节点强度选取初始节点,以所述初始节点为基础,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值,模块度达到极大值的社区即为待挖掘社区。
为使本发明实施例所提供的社区挖掘方法更加清楚,下面结合图5,以图6所示的社会网络为例对社区挖掘方法进行详细说明。
步骤501:计算各个节点的节点强度。
步骤502:选取节点强度最小的节点作为初始节点,以所述初始节点为基础形成当前社区。
步骤503:从当前社区的邻居节点中选择对当前社区贡献度最大的节点加入当前社区。
从初始节点开始,对当前社区进行不断扩展。
假设图6中的节点1、2、3已经合并成一个社区C,那么当前社区就是社区C。社区C的邻居节点有节点5和节点4,从中选择对社区C贡献最大的节点,即按照式1分别计算节点4和节点5对社区C的贡献度。其中:
T(4,C)=(4+5)/(4+5+1+1)=9/11,T(5,C)=(3+1)/(3+1+2+2)=1/2,因为T(4,C)>T(5,C),所以选择节点4加入到社区C中。
步骤504:计算节点加入前后当前社区的模块度。
步骤505:判断当前社区的模块度是否达到极大值;如果是,进入步骤506;否则进入步骤503。
要判断当前社区的模块度是否达到极大值,就需要将加入新节点后的社区的模块度与加入新节点前的社区的模块度进行对比,如果加入新节点后社区模块度大于加入新节点前的模块度,那说明社区还处于增长状态;当时,如果加入新节点后社区模块度小于加入新节点前的模块度,则说明社区的增长在加入新节点前已经达到极限,加入新节点前的社区即为待挖掘社区。
将节点4加入社区C后,为了判断此时社区C的模块度是否达到极值,就需要根据式2分别计算节点4加入社区C之前社区C的模块度Q1和节点4加入社区C之后社区C的模块度Q2,其中,
Figure B2009101404552D0000081
Figure B2009101404552D0000082
显然,Q2>Q1,所以社区C的模块度没有达到极值。此时,社区C包含节点1、2、3、4共4个节点,进入步骤503,继续向社区C中加入节点,直至社区C的模块度达到极大值。
步骤506:模块度达到极大值的社区即为待挖掘社区,将待挖掘社区的节点和边从社会网络中移除。
步骤507:将待挖掘社区移除后产生的孤立节点从所述社会网络中移除并加入待挖掘社区。
仍然以图6为例,假设包含节点1~4的社区C的模块度已经达到极大值,此时的社区C即为待挖掘社区,将社区C从社会网络中移除之后,节点6和节点7成为孤立节点,根据步骤507将这两个节点也从社会网络中移除,加入到社区C中,此时社区C所包含的节点为节点1~节点4、节点6和节点7共6个节点。
步骤508:检查所述社会网络中是否还有剩余节点,如果是,进入步骤502;否则,结束流程。
本发明实施例所提供的方法,能够有效地从社会网络中发现具有某种特征的用户群或用户社区,且能够基于这些具有不同特征的用户群或社区,提供更有价值的服务,比如信息传播、业务推荐和朋友推荐等。
与方法实施例相对应,本发明实施例还提供一种建立社会网络的系统,参见图7,该系统包括:
存储单元701,用于从信息单元中提取并保存相互关联的数据;
所述信息单元为网页中的帖子,所述相互关联的数据包括:帖子的主题标识、主题相关用户的用户标识以及主题相关用户之间相互沟通的次数。
优选地,在本发明的另一实施例中,可以将以表格的形式将所述相互关联的数据存储在数据库中,以便后续快速地查找和使用。例如,在本发明实施例中,建立一个主题信息表(topicinfo)来记录所有的主题的信息,包括主题编号,对应的主题发起者的编号等信息。建立一个主题用户表(topicanduser)来记录主题编号以及主题参与者编号等信息;建立一个引用关系表(quotation)来记录主题中用户间的引用关系。
构建单元702,用于根据所述存储单元保存的相互关联的数据确定网络用户之间的关系,根据所述网络用户之间的关系建立所述社会网络。
进一步地,所述构建单元703包括:
第一构建子单元7021,用于根据保存的某个帖子的主题标识、主题相关用户的用户标识,确定当前主题的发起者以及参与者;
第二构建子单元7022,用于根据所述当前主题相关用户相互沟通的次数建立当前主题相关用户之间的连接关系,以便根据所述连接关系形成社会网络。
所述主题相关用户通过对所述主题进行回复或者相互之间的引用进行沟通。
更进一步地,所述第二构建子单元7022包括:
第一连接模块M1,用于根据主题相关用户对所述主题进行回复建立由主题发起者指向主题参与者的有向连接,连接的权值为主题参与者对主题发起者的回复次数;
第二连接模块M2,用于根据主题相关用户相互之间的引用建立被引用者指向引用者的有向连接,连接的权值为引用者引用被引用者的次数。
本发明实施例所提供的系统构建出用户社会网络是有向带权网络,网络中的节点表示论坛的用户,边的方向表示用户之间的回复和引用关系,关系强度用通过回复和引用次数形成的权值来表示。
本发明实施例中,构建社会网络的目的是为了发现网络用户间的关系,而图中的方向对网络关系的存在没有特别的影响,在本发明另一实施例中,在不改变网络分布的前提下对网络进行改造,将网络中的方向删除,同时将两个用户间的关系进行修正,从而将有向带权网络改造为无向带权网络。即图7所示的系统还包括:
修正单元703,用于删除所述第一连接模块和第二连接模块建立的有向连接的方向,将原有向连接两端点间的单向连接次数进行合并。
本发明实施例所提供的系统,以网络中的帖子为信息单元,基于网络用户间回复和引用而构建出社会网络,客观地反映出了网络用户之间的关系。
参见图8,本发明实施例还提供一种网络社区挖掘系统,该系统包括:
统计单元801,用于计算所述社会网络中的各个节点的节点强度,某个节点的节点强度为所有与该节点相连的边的权值之和。
挖掘单元802,用于根据所述统计单元计算的节点强度选取初始节点,以所述初始节点为基础,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值,模块度达到极大值的社区即为待挖掘社区。
移除单元803,用于将所述待挖掘社区关联的节点和边从所述社会网络中移除。
进一步地,参见图9,所述挖掘单元802包括:
第一选取子单元8021,用于根据所述统计单元计算的节点强度选取初始节点;
第二选取子单元8022,用于计算与所述第一选取子单元8021选取的初始节点相连的所有节点对当前社区的贡献度,选取所述贡献度值最大的节点加入当前社区;
判断子单元8023,用于计算当前社区的模块度,判断当前社区的模块度是否达到极大值;
控制子单元8024,用于在判断子单元确定当前社区的模块度到极大值时结束社区挖掘,模块度达到极大值的社区即为待挖掘社区。
优选地,所述控制子单元8024,还用于在判断子单元8023确定当前社区的模块度未到极大值时将当前社区信息输入所述第二选取子单元8022;
所述第二选取子单元8022,还用于根据所述控制子单元8024输入的当前社区的信息,计算与当前社区相连的所有节点对当前社区的贡献度,选取所述贡献度值最大的节点加入当前社区。
为了进一步对挖掘到的社区进行完善,图8所示的系统还可以包括:
修正单元804,用于将所述移除单元操作后产生的孤立节点从所述社会网络中移除并加入所述待挖掘社区。
为了对社会网络所包含的节点进行完整的挖掘,当某个社区被挖掘后,还要继续对社会网络中剩余的节点进行考察,故在本发明另一实施例中,图8所示的系统还包括:
检测单元805,用于检测当前社会网络是否还有剩余节点,如果有,将剩余节点信息发送给所述挖掘单元的第一选取子单元8021,启动所述第一选取子单元,继续进行社区挖掘。
本发明实施例所提供的系统,能够有效地从社会网络中发现具有某种特征的用户群或用户社区,且能够基于这些具有不同特征的用户群或社区,提供更有价值的服务,比如信息传播、业务推荐和朋友推荐等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (29)

1.一种社会网络建立方法,其特征在于,包括:
从信息单元中提取并保存相互关联的数据;
根据保存的相互关联的数据确定网络用户之间的关系,根据所述网络用户之间的关系建立所述社会网络。
2.根据权利要求1所述的方法,其特征在于,所述信息单元为网页中的帖子,所述相互关联的数据包括:帖子的主题标识、主题相关用户的用户标识、以及主题相关用户之间相互沟通的次数,所述主题相关用户包括主题的发起者以及主题的参与者。
3.根据权利要求2所述的方法,其特征在于,所述根据保存的相互关联的数据确定网络用户之间的关系,根据所述网络用户之间的关系建立所述社会网络包括:
根据保存的某个帖子的主题标识、主题相关用户的用户标识,确定当前主题的发起者以及参与者;
根据所述主题相关用户之间沟通的次数建立当前主题相关用户之间的连接关系;
当所保存的相关数据中的所有主题相关用户之间的连接关系都建立完成时形成的网络即社会网络。
4.根据权利要求3所述的方法,其特征在于,所述主题相关用户通过对所述主题进行回复或者相互之间的引用进行沟通。
5.根据权利要求4所述的方法,其特征在于,根据所述主题相关用户之间相互沟通的次数建立当前主题相关用户之间的连接关系包括:
根据主题相关用户对所述主题进行回复建立由主题发起者指向主题参与者的有向连接,连接的权值为主题参与者对主题发起者的回复次数;
根据主题相关用户相互之间的引用建立被引用者指向引用者的有向连接,连接的权值为引用者引用被引用者的次数。
6.根据权利要求5所述的方法,其特征在于,还包括:
删除所述有向连接的方向,将原有向连接两端点间的单向连接次数进行合并。
7.根据权利要求1~6任意一项所述的方法,其特征在于,还包括:
计算所述社会网络中的各个节点的节点强度,某个节点的节点强度为所有与该节点相连的边的权值之和;
根据节点强度选取初始节点,以所述初始节点为基础形成当前社区,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值,模块度达到极大值的社区即为待挖掘社区。
8.一种社会网络中的社区挖掘方法,其特征在于,包括:
计算社会网络中的各个节点的节点强度,某个节点的节点强度为所有与该节点相连的边的权值之和;
根据节点强度选取初始节点,以所述初始节点为基础形成当前社区,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值,模块度达到极大值的社区即为待挖掘社区。
9.根据权利要求8所述的方法,其特征在于,以所述初始节点为基础形成当前社区,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值包括:
计算与所述初始节点相连的所有节点对当前社区的贡献度,选取所述贡献度值最大的节点加入当前社区;
根据当前社区中的节点强度计算当前社区的模块度;
若当前社区的模块度达到极大值,则模块度达到极大值的社区即为待挖掘社区,则当前社区即为待挖掘社区;
否则,以当前社区为基础,计算与当前社区相连的所有节点对当前社区的贡献度,选取所述贡献度值最大的节点加入当前社区,进入根据当前社区中的节点强度计算当前社区的模块度的步骤。
10.根据权利要求9所述的方法,其特征在于,所述贡献度通过如下方法计算:
某一节点i对社区C的节点贡献度
Figure F2009101404552C0000031
其中:
所述I(i,C)为节点i与社区C中所有节点的关联节点强度;所述Ii为节点i的节点强度。
11.根据权利要求8所述的方法,其特征在于,还包括,
将所述待挖掘社区关联的节点和边从所述社会网络中移除。
12.根据权利要求11所述的方法,其特征在于,还包括:
将所述待挖掘社区关联的节点移除后产生的孤立节点从所述社会网络中移除并加入所述待挖掘社区。
13.根据权利要求12所述的方法,其特征在于,还包括:
判断当前社会网络是否还有剩余节点,如果有,进入根据所述剩余节点的节点强度选取初始节点的步骤。
14.根据权利要求8~13任意一项所述的方法,其特征在于,所述模块度根据如下方法计算:
社区i的模块度
Figure F2009101404552C0000032
其中:
所述ei为社区i内部所有边的权值之和与所述社会网络所有边的权值之和的比值;所述αi为所述社会网络中所有与所述社区i相连的边的权值之和与所述社会网络所有边的权值之和的比值;所述Nin为所述社区i内部节点总数;所述Nout为所述社会网络中所有与所述社区i相连的节点数与社区i的节点数之和。
15.一种建立论坛用户社会网络的系统,其特征在于,包括:
存储单元,用于从信息单元中提取并保存相互关联的数据;
构建单元,用于根据所述存储单元保存的相互关联的数据确定网络用户之间的关系,根据所述网络用户之间的关系建立所述社会网络。
16.根据权利要求15所述的系统,其特征在于,所述信息单元为网页中的帖子,所述相互关联的数据包括:帖子的主题标识、主题相关用户的用户标识以及主题相关用户之间相互沟通的次数,所述主题相关用户包括主题的发起者以及主题的参与者。
17.根据权利要求16所述的系统,其特征在于,所述构建单元包括:
第一构建子单元,用于根据保存的某个帖子的主题标识、主题相关用户的用户标识,确定当前主题的发起者以及参与者;
第二构建子单元,用于根据所述当前主题相关用户相互沟通的次数建立当前主题相关用户之间的连接关系,以便根据所述连接关系形成社会网络。
18.根据权利要求17所述的系统,其特征在于,所述主题,所述主题相关用户包括主题的发起者以及主题的参与者通过对所述主题进行回复或相互之间的者引用进行沟通。
19.根据权利要求18所述的系统,其特征在于,所述第二构建子单元包括:
第一连接模块,用于根据主题相关用户对所述主题进行回复建立由主题发起者指向主题参与者的有向连接,连接的权值为主题参与者对主题发起者的回复次数;
第二连接模块,用于根据主题相关用户相互之间的引用建立被引用者指向引用者的有向连接,连接的权值为引用者引用被引用者的次数。
20.根据权利要求19所述的系统,其特征在于,还包括:
修正单元,用于删除所述第一连接模块和第二连接模块建立的有向连接的方向,将原有向连接两端点间的单向连接次数进行合并。
21.根据权利要求15~20任意一项所述的系统,其特征在于,还包括:
挖掘子系统,用于计算所述社会网络中的各个节点的节点强度;根据节点强度选取初始节点,以所述初始节点为基础,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值,模块度达到极大值的社区即为待挖掘社区。
22.一种社会网络中的社区挖掘系统,其特征在于,包括:
统计单元,用于计算所述社会网络中的各个节点的节点强度,某个节点的节点强度为所有与该节点相连的边的权值之和;
挖掘单元,用于根据所述统计单元计算的节点强度选取初始节点,以所述初始节点为基础,根据当前社区的模块度对当前社区进行扩展直至当前社区的模块度达到极大值,模块度达到极大值的社区即为待挖掘社区。
23.根据权利要求22所述的系统,其特征在于,所述挖掘单元包括:
第一选取子单元,用于根据所述统计单元计算的节点强度选取的初始节点;
第二选取子单元,用于计算与所述第一选取子单元选取的初始节点相连的所有节点对当前社区的贡献度,选取所述贡献度值最大的节点加入当前社区;
判断子单元,用于计算当前社区的模块度,判断当前社区的模块度是否达到极大值;
控制子单元,用于在判断子单元确定当前社区的模块度到极大值时结束社区挖掘,模块度达到极大值的社区即为待挖掘社区。
24.根据权利要求23所述的系统,其特征在于,
所述控制子单元,还用于在判断子单元确定当前社区的模块度未到极大值时将当前社区信息输入所述第二选取子单元;
所述第二选取子单元,还用于根据所述控制子单元输入的当前社区的信息,计算与当前社区相连的所有节点对当前社区的贡献度,选取所述贡献度值最大的节点加入当前社区。
25.根据权利要求23所述的系统,其特征在于,所述贡献度通过如下方法计算:
某一节点i对社区C的节点贡献度
Figure F2009101404552C0000051
其中:
所述I(i,C)为节点i与社区C中所有节点的关联节点强度;所述Ii为节点i的节点强度。
26.根据权利要求22所述的系统,其特征在于,还包括,
移除单元,用于将所述待挖掘社区关联的节点和边从所述社会网络中移除。
27.根据权利要求26所述的系统,其特征在于,还包括:
修正单元,用于将所述移除单元操作后产生的孤立节点从所述社会网络中移除并加入所述待挖掘社区。
28.根据权利要求27所述的系统,其特征在于,还包括:
检测单元,用于检测当前社会网络是否还有剩余节点,如果有,将剩余节点信息发送给所述挖掘单元的第一选取子单元,启动所述第一选取子单元,继续进行社区挖掘。
29.根据权利要求22~28任意一项所述的系统,其特征在于,所述模块度根据如下方法计算:
社区i的模块度
Figure F2009101404552C0000061
其中:
所述ei为社区i内部所有边的权值之和与所述社会网络所有边的权值之和的比值;所述αi为所述社会网络中所有与所述社区i相连的边的权值之和与所述社会网络所有边的权值之和的比值;所述Nin为所述社区i内部节点总数;所述Nout为所述社会网络中所有与所述社区i相连的节点数与社区i的节点数之和。
CN2009101404552A 2009-05-15 2009-05-15 一种社会网络建立方法和系统及网络社区挖掘方法和系统 Pending CN101887441A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101404552A CN101887441A (zh) 2009-05-15 2009-05-15 一种社会网络建立方法和系统及网络社区挖掘方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101404552A CN101887441A (zh) 2009-05-15 2009-05-15 一种社会网络建立方法和系统及网络社区挖掘方法和系统

Publications (1)

Publication Number Publication Date
CN101887441A true CN101887441A (zh) 2010-11-17

Family

ID=43073367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101404552A Pending CN101887441A (zh) 2009-05-15 2009-05-15 一种社会网络建立方法和系统及网络社区挖掘方法和系统

Country Status (1)

Country Link
CN (1) CN101887441A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087730A (zh) * 2009-12-08 2011-06-08 深圳市腾讯计算机系统有限公司 一种产品用户网络构建方法和装置
CN102456064A (zh) * 2011-04-25 2012-05-16 中国人民解放军国防科学技术大学 在社会网络中实现社区发现的方法
CN102637182A (zh) * 2011-02-15 2012-08-15 北京大学 Web社会网络核心用户信息交互演化分析方法
CN102722750A (zh) * 2012-06-06 2012-10-10 清华大学 动态网络社区结构的更新方法及装置
CN103154945A (zh) * 2010-11-29 2013-06-12 日本电气株式会社 内容分析系统、内容分析设备、内容分析方法以及内容分析程序
CN103164514A (zh) * 2013-02-25 2013-06-19 用友软件股份有限公司 数据引用关系检测装置和数据引用关系检测方法
CN103268332A (zh) * 2013-05-06 2013-08-28 南京邮电大学 一种基于社区结构的可信的服务选择方法
CN103412872A (zh) * 2013-07-08 2013-11-27 西安交通大学 一种基于有限节点驱动的微博社会网络信息推荐方法
CN103500168A (zh) * 2013-09-02 2014-01-08 中国矿业大学 一种基于拓扑势的重叠复杂网络社区发现方法及系统
CN103593342A (zh) * 2012-08-13 2014-02-19 腾讯科技(深圳)有限公司 基于单向用户关系的专家挖掘方法及挖掘系统
CN103902547A (zh) * 2012-12-25 2014-07-02 深圳先进技术研究院 一种基于mdl的增量式动态社区快速发现方法及系统
CN102694741B (zh) * 2011-03-24 2016-05-18 腾讯科技(深圳)有限公司 微博整合方法、微博终端、微博列表、微博话题服务器及系统
CN106776792A (zh) * 2016-11-23 2017-05-31 北京锐安科技有限公司 网络社区的挖掘方法及装置
CN107358308A (zh) * 2017-05-16 2017-11-17 广州杰赛科技股份有限公司 实现社会网络影响力最大化的方法和装置
CN108109069A (zh) * 2016-11-24 2018-06-01 方正国际软件(北京)有限公司 一种社会网络连接的建立方法及装置
CN108959394A (zh) * 2012-08-08 2018-12-07 谷歌有限责任公司 聚类的搜索结果
CN109255073A (zh) * 2018-08-28 2019-01-22 麒麟合盛网络技术股份有限公司 一种个性化推荐方法、装置及电子设备
CN111159576A (zh) * 2019-12-31 2020-05-15 亚信科技(中国)有限公司 一种用户分类方法、装置及系统
CN111444402A (zh) * 2019-10-29 2020-07-24 天津大学 基于索引构建和社会因控网络进行社区检测的分析方法
CN113221016A (zh) * 2021-07-08 2021-08-06 北京达佳互联信息技术有限公司 资源推荐方法、装置、计算机设备及介质
CN113239127A (zh) * 2021-05-13 2021-08-10 北方工业大学 科技服务关联网络的构建、依赖关系的识别方法及计算机产品
CN113468437A (zh) * 2021-09-02 2021-10-01 北京芯盾时代科技有限公司 一种社群挖掘方法、装置、电子设备及存储介质

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087730A (zh) * 2009-12-08 2011-06-08 深圳市腾讯计算机系统有限公司 一种产品用户网络构建方法和装置
CN103154945A (zh) * 2010-11-29 2013-06-12 日本电气株式会社 内容分析系统、内容分析设备、内容分析方法以及内容分析程序
CN102637182B (zh) * 2011-02-15 2014-05-28 北京大学 Web社会网络核心用户信息交互演化分析方法
CN102637182A (zh) * 2011-02-15 2012-08-15 北京大学 Web社会网络核心用户信息交互演化分析方法
CN102694741B (zh) * 2011-03-24 2016-05-18 腾讯科技(深圳)有限公司 微博整合方法、微博终端、微博列表、微博话题服务器及系统
CN102456064A (zh) * 2011-04-25 2012-05-16 中国人民解放军国防科学技术大学 在社会网络中实现社区发现的方法
CN102456064B (zh) * 2011-04-25 2013-04-24 中国人民解放军国防科学技术大学 在社会网络中实现社区发现的方法
CN102722750A (zh) * 2012-06-06 2012-10-10 清华大学 动态网络社区结构的更新方法及装置
CN102722750B (zh) * 2012-06-06 2015-10-28 清华大学 动态网络社区结构的更新方法及装置
CN108959394A (zh) * 2012-08-08 2018-12-07 谷歌有限责任公司 聚类的搜索结果
CN108959394B (zh) * 2012-08-08 2022-01-11 谷歌有限责任公司 聚类的搜索结果
CN103593342A (zh) * 2012-08-13 2014-02-19 腾讯科技(深圳)有限公司 基于单向用户关系的专家挖掘方法及挖掘系统
CN103593342B (zh) * 2012-08-13 2017-10-31 腾讯科技(深圳)有限公司 基于单向用户关系的专家挖掘方法及挖掘系统
CN103902547A (zh) * 2012-12-25 2014-07-02 深圳先进技术研究院 一种基于mdl的增量式动态社区快速发现方法及系统
CN103164514A (zh) * 2013-02-25 2013-06-19 用友软件股份有限公司 数据引用关系检测装置和数据引用关系检测方法
CN103268332B (zh) * 2013-05-06 2016-03-02 南京邮电大学 一种基于社区结构的可信的服务选择方法
CN103268332A (zh) * 2013-05-06 2013-08-28 南京邮电大学 一种基于社区结构的可信的服务选择方法
CN103412872A (zh) * 2013-07-08 2013-11-27 西安交通大学 一种基于有限节点驱动的微博社会网络信息推荐方法
CN103412872B (zh) * 2013-07-08 2017-04-26 西安交通大学 一种基于有限节点驱动的微博社会网络信息推荐方法
CN103500168B (zh) * 2013-09-02 2017-03-15 中国矿业大学 一种基于拓扑势的重叠复杂网络社区发现方法及系统
CN103500168A (zh) * 2013-09-02 2014-01-08 中国矿业大学 一种基于拓扑势的重叠复杂网络社区发现方法及系统
CN106776792A (zh) * 2016-11-23 2017-05-31 北京锐安科技有限公司 网络社区的挖掘方法及装置
CN106776792B (zh) * 2016-11-23 2020-07-17 北京锐安科技有限公司 网络社区的挖掘方法及装置
CN108109069A (zh) * 2016-11-24 2018-06-01 方正国际软件(北京)有限公司 一种社会网络连接的建立方法及装置
CN107358308A (zh) * 2017-05-16 2017-11-17 广州杰赛科技股份有限公司 实现社会网络影响力最大化的方法和装置
CN107358308B (zh) * 2017-05-16 2021-06-18 广州杰赛科技股份有限公司 实现社会网络影响力最大化的方法和装置
CN109255073A (zh) * 2018-08-28 2019-01-22 麒麟合盛网络技术股份有限公司 一种个性化推荐方法、装置及电子设备
CN109255073B (zh) * 2018-08-28 2022-03-29 麒麟合盛网络技术股份有限公司 一种个性化推荐方法、装置及电子设备
CN111444402A (zh) * 2019-10-29 2020-07-24 天津大学 基于索引构建和社会因控网络进行社区检测的分析方法
CN111159576A (zh) * 2019-12-31 2020-05-15 亚信科技(中国)有限公司 一种用户分类方法、装置及系统
CN111159576B (zh) * 2019-12-31 2023-08-11 亚信科技(中国)有限公司 一种用户分类方法、装置及系统
CN113239127A (zh) * 2021-05-13 2021-08-10 北方工业大学 科技服务关联网络的构建、依赖关系的识别方法及计算机产品
CN113239127B (zh) * 2021-05-13 2024-02-09 北方工业大学 科技服务关联网络的构建、依赖关系的识别方法及计算机产品
CN113221016A (zh) * 2021-07-08 2021-08-06 北京达佳互联信息技术有限公司 资源推荐方法、装置、计算机设备及介质
CN113468437A (zh) * 2021-09-02 2021-10-01 北京芯盾时代科技有限公司 一种社群挖掘方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN101887441A (zh) 一种社会网络建立方法和系统及网络社区挖掘方法和系统
Liu et al. Rumor propagation in online social networks like twitter--a simulation study
Bonato et al. How to burn a graph
CN103593393B (zh) 基于微博互动关系挖掘社交圈的方法及装置
CN104268664B (zh) 一种推荐拼车路线的方法及装置
CN107391542A (zh) 一种基于文件知识图谱的开源软件社区专家推荐方法
CN102646122B (zh) 一种学术社交网络的自动构建方法
CN105721279B (zh) 一种电信网络用户的交往圈挖掘方法及系统
CN106126521A (zh) 目标对象的社交账号挖掘方法及服务器
CN107846278A (zh) 智能合约处理方法及装置
CN109598563A (zh) 刷单检测方法、装置、存储介质和电子设备
CN105760443B (zh) 项目推荐系统、项目推荐装置以及项目推荐方法
CN103136267A (zh) 一种基于社区的专家挖掘方法与装置
CN105608624A (zh) 基于用户体验的微博大数据兴趣社区分析优化方法
CN107529656A (zh) 一种社交网络社区的划分方法及服务器
CN106708978B (zh) 一种基于二分图的服务推荐方法及装置
CN107123055A (zh) 一种基于PageRank的社交大数据信息最大化方法
Guo et al. GroupMe: Supporting group formation with mobile sensing and social graph mining
Marzouk et al. Feasibility study of industrial projects using Simos’ procedure
CN112541072B (zh) 一种基于知识图谱的供需信息推荐方法及系统
CN108183956A (zh) 一种传播网络的关键路径提取方法
CN105139258A (zh) 群组成员添加方法及装置
CN107945037A (zh) 一种基于节点结构特征的社交网络去匿名化方法
CN114422885A (zh) 基于拓扑路由的路由搜索方法、装置、设备及介质
CN102722530B (zh) 一种复杂网络中的社团探测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101117