CN102880644A - 社区发现方法 - Google Patents

社区发现方法 Download PDF

Info

Publication number
CN102880644A
CN102880644A CN2012103040976A CN201210304097A CN102880644A CN 102880644 A CN102880644 A CN 102880644A CN 2012103040976 A CN2012103040976 A CN 2012103040976A CN 201210304097 A CN201210304097 A CN 201210304097A CN 102880644 A CN102880644 A CN 102880644A
Authority
CN
China
Prior art keywords
user
vector
rightarrow
community
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103040976A
Other languages
English (en)
Other versions
CN102880644B (zh
Inventor
于秦
李定伟
马立香
毛玉明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201210304097.6A priority Critical patent/CN102880644B/zh
Publication of CN102880644A publication Critical patent/CN102880644A/zh
Application granted granted Critical
Publication of CN102880644B publication Critical patent/CN102880644B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社区发现方法。包括步骤:分析每个用户的信息,从中提取特征词,计算用户对应的特征向量;以某一个用户为基准,计算其余用户与该用户的相似度;将相似度高于门限值的用户标记为相似用户,将所有相似用户合并成为一个新的用户,被合并的相似用户记录为新用户的子用户,计算并简化新用户的特征向量;直到新用户达到设定的社区发现门限时完成新社区的发现。本发明的方法根据用户多属性相似度进行社区划分,不依赖用户的网络行为,在社会网络形成之初就能将兴趣相似、研究方向相似、行为方式相似的用户们组织在一个社区内,且发现的社区属性丰富,社区用户相似度高,能够为用户提供一个较为理想的信息交流和共享的平台。

Description

社区发现方法
技术领域
本发明属于社会网络领域,具体涉及一种基于多属性相似度的社区发现方法。
背景技术
随着互联网的快速发展,社会网络得到了越来越多的关注,如何发掘社会网络内个体的关系,已经成为研究的重点。社会网络是由一个个单独的个体组成的,这些个体之间相互联系相互依赖形成了一个关系网络,这些个体之间的联系有紧密的,也有稀疏的,将社会网络中具有紧密联系的个体的集合称为社区。社区发现是社会网络分析的一种重要方法,可以发现社会网络中内部紧密联系的个体;社区存在的意义是为了给社会网络中的个体提供一个相互交流和共享信息的平台,因此,如何正确划分一个社区将直接决定这个社区的价值。
现有的社区发现方法主要有两类,第一类方法是基于个体的兴趣,计算各个个体兴趣的相似度,将个体按兴趣划分到不同的群组,从而得到以兴趣为中心的社区结构;第二类方法是基于个体的直接关系,将社会网络划分为各个社区,形成以个体为中心的社区网络。按照上述方法划分社区时都存在一定的缺陷。第一类方法只按照个体的兴趣来划分社区,这样的社区属性比较单调,可交流或共享的信息局限,且个体之间的关系不紧密,即使有相同的兴趣可能也会因为层次的不同而不能很好的沟通;按照第二类方法划分的社区中,个体联系比较紧密,但由于社区属性过于庞杂,主题明确不明确,个体之间不能有很好的交流点。
发明内容
本发明的目的是为了解决现有的社区发现方法存在的上述问题,提出了一种社区发现方法。
本发明的技术方案是:一种社区发现方法,具体包括如下步骤:
步骤1:建立一个基准特征向量
Figure BDA00002052516900011
和特征词库;
步骤2:提取社会网络中的用户特征词,所述社会网络可以图的形式来表示,令G=(V,E),其中,G表示一个社会网络,V表示用户v的集合,E表示用户之间边e的集合;社会网络图中的每个节点代表一个用户,每个用户的用户信息用来描述用户的属性,用户信息可以分割为多个标签,标签是用户信息的基本单位。将每个标签看成关键词,然后将各个关键词与已建立的特征词库里的特征词作比较,若该关键词存在于特征词库里,则该关键词就为特征词,反之,则不是特征词;
步骤3:建立用户特征向量,用户vi的特征向量
Figure BDA00002052516900021
用数学符号
Figure BDA00002052516900022
来表示,其中,i为用户标号,
Figure BDA00002052516900023
为特征向量
Figure BDA00002052516900024
的分量;
步骤4:计算用户相似度,根据步骤3得到用户特征向量,随机以某一个用户为基准,计算其余用户与该基准用户的相似程度,两个用户vi和vj相似度的采用如下公式得到:
sim ( L → i , L → j ) = w 1 sim ( A → i , A → j ) + w 2 sim ( B → j , B → j ) + w 3 sim ( C → i , C → j ) + . . . i ≠ j
其中,
Figure BDA00002052516900027
分别为用户vi和vj的特征向量,特征向量中的元素个数为N,各个分向量的相似度的权重wi,(i=1,2,...,N)满足
Figure BDA000020525169000210
的分向量
Figure BDA000020525169000212
的相似度,采用如下公式:
sim ( A → i , A → j ) = A → i · A → j + ϵ max ( | | A → i | | 2 , | | A → j | | 2 ) + ϵ + min ( | | A → i | | 2 , | | A → j | | 2 ) - A → i · A → j | | A → max | | 2 , i ≠ j
其中,
Figure BDA000020525169000214
分别为两个用户所对应的特征向量中分向量的模,
Figure BDA000020525169000216
表示两个分向量的内积,ε表示一个极小值,
Figure BDA000020525169000217
表示全为1的向量,即
步骤5:将相似度高于相似门限值的用户记录为相似用户,把所有的相似用户合并成为一个新的用户,被合并的相似用户记录为新用户的子用户;
步骤6:重复步骤4和步骤5,直到所有用户都被划分到新用户中,若新用户达到预先设定的社区发现的门限值时,发现新的社区,该新用户内的所有子用户组成一个社区。
进一步的,步骤6中所述的发现新的社区具体过程如下:
步骤7:计算步骤6中得到的新用户对应的用户特征向量,新用户对应的用户特征向量是通过其子用户的特征向量计算得到的,该步骤分为两个部分:更新基准特征向量
Figure BDA000020525169000219
和计算新用户特征向量;
更新基准特征向量将所有子用户的各个分量的模相加,得到新用户各个分量的相似度权值Wm,其中,m表示新用户的标号,具体的计算公式为:
Figure BDA000020525169000221
p表示子用户vp,然后将所有新用户的各个分量的相似度权值Wm相加得到总相似权值W,
Figure BDA000020525169000222
将总权值W中最小的αN个特征分量从基准特征向量
Figure BDA000020525169000223
中删除,其中,α为预先设定的第一阈值,取值范围为(0 1),得到一个新的基准特征向量
Figure BDA00002052516900031
该基准特征向量的特征分向量的个数更改为(1-α)N。
根据更新的基准特征向量
Figure BDA00002052516900032
和子用户的特征向量计算新用户对应的特征向量;
步骤8:重复步骤4至步骤7,直到新用户找不到与它相似的用户或者新用户对应的基准特征向量的特征分向量的个数等于βN时,发现新社区,其中,β为预先设定的第二阈值,取值范围为(0 1),该新用户下的所有子用户都是所述新社区的成员,将所述新社区对应的特征分向量作为关键词添加到新社区的属性标签里,当所有社区发现完时,将基准特征向量还原到初始状态,基准特征向量的特征分向量个数为N;
步骤9:简化社会网络。
简化所有用户的特征向量,为每个用户生成一个其对应的新的特征向量
Figure BDA00002052516900033
所述特征向量
Figure BDA00002052516900034
的每个分量是数字“1”或“0”,分量个数为N,若用户特征向量
Figure BDA00002052516900035
的分向量中有用户信息的特征词,则相应的分量值为“1”,反之则为“0”;
为每个社区生成其对应的社区特征向量所述特征向量
Figure BDA00002052516900038
的每个分量与
Figure BDA00002052516900039
的中的每个分量是一一对应的,每个分量是数字“1”或“0”,分量个数为N,从社区的标签中提取特征词,将社区特征词对应的分量用“1”表示,其余的都用“0”表示;
一一计算某个用户与其所属社区外的所有社区的相似度,对于某个社区,若计算得到的相似度小于预先设定的第三阈值,则去除所述用户与所述社区内所有用户的连接,将所有用户遍历一次,则得到一个精简社会网络。
本发明的有益效果:本发明的方法是根据用户多属性相似度进行社区划分,不依赖于用户的网络行为,在社会网络形成之初就能将兴趣相似、研究方向相似、行为方式相似的用户们组织在一个社区内,且发现的社区属性丰富、主题多样,社区用户相似度高,能够为用户提供一个较为理想的信息交流和共享的平台。
附图说明
图1为本发明社区发现方法的流程示意图。
图2为社会网络的表示图。
图3为基于社区简化后的社会网络表示图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的说明:
针对背景技术中提到的现有社区发现方法存在的社区属性单调、共享信息局限、主题不明确等不足,本发明提出了一种社区发现方法,具体为基于多属性相似度的社区发现方法。
为了更好的理解本发明,首先对社会网络相关概念作一说明。本发明所述社会网络以图的形式表示,如图2所示,令G=(V,E),其中,V表示用户v的集合,E表示用户之间边e的集合,初始社会网络中的用户都是两两相连的。
社会网络图中每个用户有自己的用户信息,用户信息用来描述用户的属性。用户信息可以分割为多个标签,而标签是用户信息的基本单位。
根据用户信息的内容特点为用户设置的特征向量,是由所述用户信息的特征词构成的,每个用户对应一个特征向量,每个有意义的标签对应一个特征词,所述特征词能够充分体现用户的研究方向,喜好,关注的问题等。特征向量用数学符号
Figure BDA00002052516900041
来表示,每个分量可以是数字,对应一个特征词;也可以是一个向量,对应一个特征类,每个特征类中包含一定的数量的特征值。
例如,用户信息中可以包含用户的研究方向,一般的研究方向有哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、管理学。这些研究方向就是一个特征分量,每个特征分量有自己一定数量的特征值。以其中几个特征分量为例,经济学包含经济类、财政类、保险类,金融类、贸易类等特征词;法学包含法学类、马克思主义理论类、社会学类、政治学类、公安学类等特征词;医学包含基础医学类、预防医学类、临床医学类、口腔医学类、中医学类、法医学类、护理学类、医药学类等特征词。由此,特征向量
Figure BDA00002052516900042
中的特征向量
Figure BDA00002052516900043
Figure BDA00002052516900044
Figure BDA00002052516900045
可使用数学符号形式表示为:
经济学向量
Figure BDA00002052516900046
法学向量
医学向量
其中,向量中的每个特征词的对应的分量分别用“1”和“0”表示用户信息中是否存在该特征词。
本发明社区发现方法的流程示意图如图1所示,具体包括以下步骤:
步骤1:建立一个基准特征向量
Figure BDA00002052516900049
和特征词库,所述的特征词库尽可能包含了所有用户的有用信息中存在的特征词,根据特征词库生成基准特征向量
Figure BDA000020525169000410
特征分向量中的每个特征词的对应的分量分别用“1”和“0”表示用户信息中是否存在该特征词,其中,
Figure BDA00002052516900052
的特征分量个数为N。
步骤2:从用户信息中提取用户特征词。用户信息可以分割为多个标签(具体的分割处理可以利用现有的相关技术完成),将每个标签先看成关键词,然后将各个关键词与特征词库里的特征词作比较,若该关键词存在于特征词库里,则该关键词就为特征词,反之,则不是特征词。例如:通过分割处理用户vi的用户信息,得到用户vi的标签为金融学、社会学、阳光、平易近人、爬山、骑车、吉他、NBA等,将这些关键词与特征词库就比较,得到用户vi的特征词为金融学、社会学、爬山、骑车、吉他、NBA。
步骤3:建立用户的特征向量。
用户vi的特征向量
Figure BDA00002052516900053
用数学符号
Figure BDA00002052516900054
来表示,其中,i为用户标号,
Figure BDA00002052516900055
为特征向量
Figure BDA00002052516900056
的分量。这里的每个分量可以是数字,对应一个特征词;也可以是一个向量,对应一个特征类,每个特征类中包含一定的数量的特征词,可使用数学符号形式表示为 A → i = ( a 1 , a 2 , a 3 , . . . ) , B → i = ( b 1 , b 2 , b 3 , . . . ) , C → i = ( c 1 , c 2 , c 3 , . . . ) , 其中,向量中的每个特征词的对应的分量分别用“1”和“0”表示用户信息中是否存在该特征词。
以基准特征向量为模版,对比用户特征词,将用户特征词对应的分量用“1”表示,其余的都用“0”表示。继续以用户vi为例,根据从步骤2中得到特征词,用户vi的特征向量
Figure BDA000020525169000510
Figure BDA000020525169000511
(0,0,1,0,0),(0,0,0,0,0,0,0,0),…,(0,1,1,0,0,0)…,(1,0,0,0,0),(0,0,0,1,0,0,0,0)…)。
步骤4:随机选取一个用户为基准,根据用户的特征向量,计算其他用户与该用户的相似度。所述用户相似度的计算采用如下公式:
sim ( L → 1 , L → 2 ) = w 1 sim ( A → 1 , A → 2 ) + w 2 sim ( B → 1 , B → 2 ) + w 3 sim ( C → 1 , C → 2 ) + . . .
其中,
Figure BDA000020525169000513
Figure BDA000020525169000514
分别为用户v1和v2的特征向量,特征向量中的元素个数为N。不失一般性,本发明中,假设用户的每个特征分量都同等重要,即各个分向量的相似度的权重wi=1/N,(i=1,2,…,N)。
Figure BDA000020525169000515
的取值范围为[0,1],
Figure BDA000020525169000516
值越接近1,说明两个用户之间的相似度越大。
是用户v1和v2的特征向量
Figure BDA000020525169000518
Figure BDA000020525169000519
的分向量
Figure BDA000020525169000521
的相似度,采用如下公式:
sim ( A → 1 , A → 2 ) = A → 1 · A → 2 + ϵ max ( | | A → 1 | | 2 , | | A → 2 | | 2 ) + ϵ + min ( | | A → 1 | | 2 , | | A → 2 | | 2 ) - A → 1 · A → 2 | | A → max | | 2
其中,
Figure BDA00002052516900062
Figure BDA00002052516900063
分别为两个用户v1和v2所对应的特征向量中分向量的模,
Figure BDA00002052516900064
表示两个分向量的内积,ε表示一个极小值,
Figure BDA00002052516900065
表示全为1的向量,需要说明的是:这里为了防止分母为0,设置一个极小值ε,取一个无限接近于0的值,这里的极小值ε对于本领域技术人员来说,其含义是清楚的。假设
Figure BDA00002052516900066
Figure BDA00002052516900067
由上式可见,
Figure BDA00002052516900068
的取值范围为[0,1],
Figure BDA00002052516900069
由两部分组成,是根据 中完全相同的特征词计算出来的相似度,若
Figure BDA000020525169000613
Figure BDA000020525169000614
两个向量完全相同(
Figure BDA000020525169000615
都为空也是完全相同的两个向量),得到
Figure BDA000020525169000617
Figure BDA000020525169000618
Figure BDA000020525169000619
在每一个分向量
Figure BDA000020525169000620
中,ai和aj(i≠j)虽然不是相同特征词,但它们在同一个分向量中,具有一定的相似度,可以近似的认为
Figure BDA000020525169000621
因此
Figure BDA000020525169000622
是根据
Figure BDA000020525169000623
Figure BDA000020525169000624
中不同的特征词计算出来的相似度。例如
Figure BDA000020525169000626
通过上述公式的计算得到
Figure BDA000020525169000627
步骤5:根据相似度门限值γ合并用户,生成新的用户,被合并的用户记录为新用户的子用户。本发明设定相似度门限值γ为0.7,例如,用户v1为基准用户,用户v3、v7、v8与v1的相似度达到0.7以上,将它们进行合并,得到新用户va1,用户v1、v3、v7、v8都记录为其子用户。
步骤6:重复步骤4和步骤5,直到所有用户都被划分到新用户中,若新用户达到预先设定的社区发现的门限值时,发现新的社区,该新用户内的所有子用户组成一个社区。
作为一种优选方案,步骤6中所述的发现新的社区具体过程如下:
步骤7:计算步骤6中得到的新用户对应的用户特征向量。新用户对应的用户特征向量是通过其用户的特征向量计算得到的。该步骤分为两个部分:更新基准特征向量
Figure BDA000020525169000628
和计算新用户特征向量。
更新基准特征向量
Figure BDA000020525169000629
将所有子用户的各个分量的模相加,得到新用户各个分量的相似度权值Wm(m表示新用户的标号),具体的计算公式为:
Figure BDA00002052516900071
p表示子用户vp。然后将所有新用户的各个分量的相似度权值Wm相加得到总相似权值W,
Figure BDA00002052516900072
M表示新用户的总数,最后将总权值W中最小的0.2N个特征分量从基准特征向量
Figure BDA00002052516900073
中删除,得到一个新的基准特征向量该基准特征向量的特征分向量的个数更改为0.8N。
根据更新的基准特征向量
Figure BDA00002052516900075
和子用户的特征向量计算新用户对应的特征向量。以新用户va1为例,用户v1、v3、v7、v8是其子用户,先计算各个分量的特征词相似度权重分量(其中
Figure BDA00002052516900077
)。假设特征分向量
Figure BDA00002052516900078
具体的计算公式如下:
Figure BDA00002052516900079
取(q1,q2,q3,q4,q5)中最大的两个值所对应的特征词作为新用户分向量
Figure BDA000020525169000710
的特征词,以此类推,可以得到新用户va1对应的特征向量
Figure BDA000020525169000711
步骤8:重复步骤4至步骤7,直到新用户找不到与它相似的用户或者新用户对应的基准特征向量的特征分向量的个数等于0.4N时,发现新社区s(S表示社区s的集合,s∈S),该新用户下的所有子用户都是所述新社区的成员。将所述新社区对应的特征分向量作为关键词添加到新社区的属性标签里。当所有社区发现完时,将基准特征向量还原到初始状态,基准特征向量的特征分向量个数为N。
步骤9:简化社会网络。初始的社会网络中的用户都是两两相连,这样的网络过于复杂,可以根据用户与其他社区之间的相似度简化社会网络,去除相似度较小的连接。
简化用户的特征向量,得到一个新的用户特征向量
Figure BDA000020525169000712
,所述特征向量
Figure BDA000020525169000713
的每个分量是数字“1”或“0”,分量个数为N,若用户特征向量
Figure BDA000020525169000714
的分向量中有用户信息的特征词,则
Figure BDA000020525169000715
相应的分量值为“1”,反之则为“0”。
为每个社区生成其对应的社区特征向量
Figure BDA000020525169000716
所述特征向量
Figure BDA000020525169000717
的每个分量与
Figure BDA000020525169000718
的中的每个分量是一一对应的,每个分量是数字“1”或“0”,分量个数为N。从社区的标签中提取特征词,将社区特征词对应的分量用“1”表示,其余的都用“0”表示。
一一计算某个用户与其所属社区外的所有社区的相似度,对于某个社区,若计算得到的相似度小于预先设定的第三阈值,则去除所述用户与所述社区内所有用户的连接,将所有用户遍历一次,则得到一个精简社会网络。
例如,计算用户vi与其所属社区外的社区sk的相似度,
Figure BDA000020525169000719
是用户vi的特征向量
Figure BDA00002052516900081
和社区sk的特征向量
Figure BDA00002052516900082
的相似度,采用如下公式:
Figure BDA00002052516900083
Figure BDA00002052516900084
的值小于0.2,则去除所述用户vi与所述社区sk
Figure BDA00002052516900085
内所有用户的连接,以此类推,将所有用户遍历一次,则得到一个精简社会网络,如图3所示。
以上是本发明的具体实现方式。
本发明根据用户多属性相似度来划分社区,将多种兴趣相似(例如:都爱好体育、电影、音乐等)、研究方向相似、行为方式相似的用户们组织在一个社区内。该社区属性丰富,主题多样,社区用户相似度高,能够为用户提供一个较为理想的信息交流和共享的平台。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (2)

1.一种社区发现方法,具体包括如下步骤:
步骤1:建立一个基准特征向量
Figure FDA00002052516800011
和特征词库;
步骤2:提取社会网络中的用户特征词,所述社会网络可以图的形式来表示,令G=(V,E),其中,G表示一个社会网络,V表示用户v的集合,E表示用户之间边e的集合;社会网络图中的每个节点代表一个用户,每个用户的用户信息用来描述用户的属性,用户信息可以分割为多个标签,标签是用户信息的基本单位,将每个标签看成关键词,然后将各个关键词与已建立的特征词库里的特征词作比较,若该关键词存在于特征词库里,则该关键词就为特征词,反之,则不是特征词;
步骤3:建立用户特征向量,用户vi的特征向量用数学符号
Figure FDA00002052516800013
来表示,其中,i为用户标号,
Figure FDA00002052516800014
为特征向量
Figure FDA00002052516800015
的分量;
步骤4:计算用户相似度,根据步骤3得到用户特征向量,随机以某一个用户为基准,计算其余用户与该基准用户的相似程度,两个用户vi和vj相似度的采用如下公式得到:
sim ( L → i , L → j ) = w 1 sim ( A → i , A → j ) + w 2 sim ( B → j , B → j ) + w 3 sim ( C → i , C → j ) + . . . i ≠ j
其中,
Figure FDA00002052516800017
Figure FDA00002052516800018
分别为用户vi和vj的特征向量,特征向量中的元素个数为N,各个分向量的相似度的权重wi,(i=1,2,…,N)满足
Figure FDA00002052516800019
L → i = ( A → i , B → i , C → i , D → i , . . . ) L → j = ( A → j , B → j , C → j , D → j , . . . ) 的分向量
Figure FDA000020525168000113
Figure FDA000020525168000114
的相似度,采用如下公式:
sim ( A → i , A → j ) = A → i · A → j + ϵ max ( | | A → i | | 2 , | | A → j | | 2 ) + ϵ + min ( | | A → i | | 2 , | | A → j | | 2 ) - A → i · A → j | | A → max | | 2 , i ≠ j
其中,
Figure FDA000020525168000116
Figure FDA000020525168000117
分别为两个用户所对应的特征向量中分向量的模,
Figure FDA000020525168000118
表示两个分向量的内积,ε表示一个极小值,表示全为1的向量,即
Figure FDA000020525168000120
步骤5:将相似度高于相似门限值的用户记录为相似用户,把所有的相似用户合并成为一个新的用户,被合并的相似用户记录为新用户的子用户;
步骤6:重复步骤4和步骤5,直到所有用户都被划分到新用户中,若新用户达到预先设定的社区发现的门限值时,发现新的社区,该新用户内的所有子用户组成一个社区。
2.根据权利要求1所述的社区发现方法,其特征在于,步骤6中所述的发现新的社区具体过程如下:
步骤7:计算步骤6中得到的新用户对应的用户特征向量,新用户对应的用户特征向量是通过其子用户的特征向量计算得到的,该步骤分为两个部分:更新基准特征向量
Figure FDA00002052516800021
和计算新用户特征向量;
更新基准特征向量将所有子用户的各个分量的模相加,得到新用户各个分量的相似度权值Wm,其中,m表示新用户的标号,具体的计算公式为:p表示子用户vp,然后将所有新用户的各个分量的相似度权值Wm相加得到总相似权值W,将总权值W中最小的αN个特征分量从基准特征向量
Figure FDA00002052516800025
中删除,其中,α为预先设定的第一阈值,取值范围为(0 1),得到一个新的基准特征向量该基准特征向量的特征分向量的个数更改为(1-α)N。
根据更新的基准特征向量
Figure FDA00002052516800027
和子用户的特征向量计算新用户对应的特征向量;
步骤8:重复步骤4至步骤7,直到新用户找不到与它相似的用户或者新用户对应的基准特征向量的特征分向量的个数等于βN时,发现新社区,其中,β为预先设定的第二阈值,取值范围为(0 1),该新用户下的所有子用户都是所述新社区的成员,将所述新社区对应的特征分向量作为关键词添加到新社区的属性标签里,当所有社区发现完时,将基准特征向量还原到初始状态,基准特征向量的特征分向量个数为N;
步骤9:简化社会网络。
简化所有用户的特征向量,为每个用户生成一个其对应的新的特征向量
Figure FDA00002052516800028
所述特征向量
Figure FDA00002052516800029
的每个分量是数字“1”或“0”,分量个数为N,若用户特征向量
Figure FDA000020525168000210
的分向量中有用户信息的特征词,则
Figure FDA000020525168000211
相应的分量值为“1”,反之则为“0”;
为每个社区生成其对应的社区特征向量
Figure FDA000020525168000212
所述特征向量
Figure FDA000020525168000213
的每个分量与
Figure FDA000020525168000214
的中的每个分量是一一对应的,每个分量是数字“1”或“0”,分量个数为N,从社区的标签中提取特征词,将社区特征词对应的分量用“1”表示,其余的都用“0”表示;
一一计算某个用户与其所属社区外的所有社区的相似度,对于某个社区,若计算得到的相似度小于预先设定的第三阈值,则去除所述用户与所述社区内所有用户的连接,将所有用户遍历一次,则得到一个精简社会网络。
CN201210304097.6A 2012-08-24 2012-08-24 社区发现方法 Expired - Fee Related CN102880644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210304097.6A CN102880644B (zh) 2012-08-24 2012-08-24 社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210304097.6A CN102880644B (zh) 2012-08-24 2012-08-24 社区发现方法

Publications (2)

Publication Number Publication Date
CN102880644A true CN102880644A (zh) 2013-01-16
CN102880644B CN102880644B (zh) 2015-05-06

Family

ID=47481970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210304097.6A Expired - Fee Related CN102880644B (zh) 2012-08-24 2012-08-24 社区发现方法

Country Status (1)

Country Link
CN (1) CN102880644B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218400A (zh) * 2013-03-15 2013-07-24 北京工业大学 基于链接与文本内容的网络社区用户群划分方法
CN103327075A (zh) * 2013-05-27 2013-09-25 电子科技大学 基于标签交互的分布式社团发现方法
CN103425868A (zh) * 2013-07-04 2013-12-04 西安理工大学 基于分形特征的复杂网络社区发现方法
CN103577592A (zh) * 2013-11-13 2014-02-12 西安工程大学 基于性格相似度匹配计算的网络社区用户好友推荐方法
CN104090890A (zh) * 2013-12-12 2014-10-08 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN105138684A (zh) * 2015-09-15 2015-12-09 联想(北京)有限公司 一种信息处理方法和信息处理装置
CN105608174A (zh) * 2015-12-21 2016-05-25 西北工业大学 一种基于跨模态节点链接聚类的社区发现方法
CN105893382A (zh) * 2014-12-23 2016-08-24 天津科技大学 一种基于先验知识的微博用户群体划分方法
CN106453096A (zh) * 2016-09-05 2017-02-22 北京邮电大学 一种动态网络社区发现方法及装置
CN107025463A (zh) * 2017-04-10 2017-08-08 刘欣语 基于合并分组算法的寝室分组装置及方法
CN107357858A (zh) * 2017-06-30 2017-11-17 中山大学 一种基于地理位置的网络重构方法
CN107609982A (zh) * 2017-09-14 2018-01-19 福州大学 考虑社区结构稳定度和增量相关节点进行社区发现的方法
CN107798141A (zh) * 2017-11-24 2018-03-13 广州数说故事信息科技有限公司 一种基于统计指标的迭代运算的确定用户标签方法
CN109446171A (zh) * 2017-08-30 2019-03-08 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN110019567A (zh) * 2019-04-10 2019-07-16 武汉斗鱼鱼乐网络科技有限公司 发现未知风险模式的方法、装置、电子设备及存储介质
CN110166344A (zh) * 2018-04-25 2019-08-23 腾讯科技(深圳)有限公司 一种身份标识识别方法、装置以及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877711A (zh) * 2009-04-28 2010-11-03 华为技术有限公司 社会网络建立方法及装置、以及社区发现方法及装置
US7831538B2 (en) * 2007-05-23 2010-11-09 Nec Laboratories America, Inc. Evolutionary spectral clustering by incorporating temporal smoothness
CN102347917A (zh) * 2011-11-04 2012-02-08 西安电子科技大学 用于网络消息通信的联系人语义分组方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831538B2 (en) * 2007-05-23 2010-11-09 Nec Laboratories America, Inc. Evolutionary spectral clustering by incorporating temporal smoothness
CN101877711A (zh) * 2009-04-28 2010-11-03 华为技术有限公司 社会网络建立方法及装置、以及社区发现方法及装置
CN102347917A (zh) * 2011-11-04 2012-02-08 西安电子科技大学 用于网络消息通信的联系人语义分组方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊正理: "在线社会网络中社区发现技术及其应用研究", 《中南大学》, 1 May 2012 (2012-05-01) *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218400A (zh) * 2013-03-15 2013-07-24 北京工业大学 基于链接与文本内容的网络社区用户群划分方法
CN103218400B (zh) * 2013-03-15 2017-04-05 北京工业大学 基于链接与文本内容的网络社区用户群划分方法
CN103327075A (zh) * 2013-05-27 2013-09-25 电子科技大学 基于标签交互的分布式社团发现方法
CN103327075B (zh) * 2013-05-27 2015-11-18 电子科技大学 基于标签交互的分布式社团发现方法
CN103425868B (zh) * 2013-07-04 2016-12-28 西安理工大学 基于分形特征的复杂网络社区发现方法
CN103425868A (zh) * 2013-07-04 2013-12-04 西安理工大学 基于分形特征的复杂网络社区发现方法
CN103577592A (zh) * 2013-11-13 2014-02-12 西安工程大学 基于性格相似度匹配计算的网络社区用户好友推荐方法
CN104090890A (zh) * 2013-12-12 2014-10-08 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN104090890B (zh) * 2013-12-12 2016-05-04 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN105893382A (zh) * 2014-12-23 2016-08-24 天津科技大学 一种基于先验知识的微博用户群体划分方法
CN105138684A (zh) * 2015-09-15 2015-12-09 联想(北京)有限公司 一种信息处理方法和信息处理装置
CN105138684B (zh) * 2015-09-15 2018-12-14 联想(北京)有限公司 一种信息处理方法和信息处理装置
CN105608174A (zh) * 2015-12-21 2016-05-25 西北工业大学 一种基于跨模态节点链接聚类的社区发现方法
CN106453096A (zh) * 2016-09-05 2017-02-22 北京邮电大学 一种动态网络社区发现方法及装置
CN106453096B (zh) * 2016-09-05 2019-06-14 北京邮电大学 一种动态网络社区发现方法及装置
CN107025463A (zh) * 2017-04-10 2017-08-08 刘欣语 基于合并分组算法的寝室分组装置及方法
CN107357858B (zh) * 2017-06-30 2020-09-08 中山大学 一种基于地理位置的网络重构方法
CN107357858A (zh) * 2017-06-30 2017-11-17 中山大学 一种基于地理位置的网络重构方法
CN109446171B (zh) * 2017-08-30 2022-03-15 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN109446171A (zh) * 2017-08-30 2019-03-08 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN107609982A (zh) * 2017-09-14 2018-01-19 福州大学 考虑社区结构稳定度和增量相关节点进行社区发现的方法
CN107609982B (zh) * 2017-09-14 2020-11-24 福州大学 考虑社区结构稳定度和增量相关节点进行社区发现的方法
CN107798141A (zh) * 2017-11-24 2018-03-13 广州数说故事信息科技有限公司 一种基于统计指标的迭代运算的确定用户标签方法
CN110166344A (zh) * 2018-04-25 2019-08-23 腾讯科技(深圳)有限公司 一种身份标识识别方法、装置以及相关设备
CN110166344B (zh) * 2018-04-25 2021-08-24 腾讯科技(深圳)有限公司 一种身份标识识别方法、装置以及相关设备
CN110019567A (zh) * 2019-04-10 2019-07-16 武汉斗鱼鱼乐网络科技有限公司 发现未知风险模式的方法、装置、电子设备及存储介质
CN110019567B (zh) * 2019-04-10 2021-07-23 武汉斗鱼鱼乐网络科技有限公司 发现未知风险模式的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN102880644B (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
CN102880644B (zh) 社区发现方法
CN111368219B (zh) 信息推荐方法、装置、计算机设备以及存储介质
CN103325061B (zh) 一种社区发现方法和系统
CN101916256A (zh) 综合行动者兴趣与网络拓扑的社区发现方法
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN108509607A (zh) 一种基于Louvain算法的社区发现方法及系统
CN110532436A (zh) 基于社区结构的跨社交网络用户身份识别方法
Li et al. Detection and characterization of human trafficking networks using unsupervised scalable text template matching
CN107391670A (zh) 一种融合协同过滤和用户属性过滤的混合推荐方法
CN106021366A (zh) 一种基于异构信息的api标签推荐方法
CN103425763A (zh) 基于sns的用户推荐方法及装置
CN104077723A (zh) 一种社交网络推荐系统及方法
CN104992259A (zh) 一种基于社团结构的复杂网络抗毁性和关键节点分析方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN112966091A (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN111476673A (zh) 基于神经网络的社交网络间用户对齐的方法、装置、介质
Huang et al. Cross-modal deep metric learning with multi-task regularization
CN104731887B (zh) 一种协同过滤中的用户相似度度量方法
Sun et al. Overlapping community detection based on information dynamics
Chiang et al. A multi-embedding neural model for incident video retrieval
Wang et al. Toward the new item problem: context-enhanced event recommendation in event-based social networks
CN111008338A (zh) 一种基于层次聚类的社交网络多尺度结构挖掘方法及介质
Zhang et al. Dynamic structure evolution of time-dependent network
CN109670071A (zh) 一种序列化多特征指导的跨媒体哈希检索方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150506

Termination date: 20190824

CF01 Termination of patent right due to non-payment of annual fee