CN103927371A - 一种基于局部相似度的社区挖掘方法 - Google Patents

一种基于局部相似度的社区挖掘方法 Download PDF

Info

Publication number
CN103927371A
CN103927371A CN201410167205.9A CN201410167205A CN103927371A CN 103927371 A CN103927371 A CN 103927371A CN 201410167205 A CN201410167205 A CN 201410167205A CN 103927371 A CN103927371 A CN 103927371A
Authority
CN
China
Prior art keywords
node
similarity
tight
corporations
community
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410167205.9A
Other languages
English (en)
Other versions
CN103927371B (zh
Inventor
翁伟
朱顺痣
曾志强
张念
肖蕾
马樱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yuhao Marriott Intelligent Equipment Co.,Ltd.
Original Assignee
Xiamen University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University of Technology filed Critical Xiamen University of Technology
Priority to CN201410167205.9A priority Critical patent/CN103927371B/zh
Publication of CN103927371A publication Critical patent/CN103927371A/zh
Application granted granted Critical
Publication of CN103927371B publication Critical patent/CN103927371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于局部相似度的社区挖掘方法,该方法通过网络结构本身关系的紧密与否发现关系紧密的局部区域,将这些区域视为社区的雏形赋予标签,然后根据投票原则采用标签传播的办法再扩展、调整这些区域形成社区。本发明不需要任何人工参数,直接通过网络本身结点联系的紧密与否的结构性质得到社区结构。

Description

一种基于局部相似度的社区挖掘方法
技术领域
本发明涉及一种社区挖掘方法,具体地说,具体涉及一种基于局部相似度的社区挖掘方法。
背景技术
社会网络是由一些个人或组织以及它们之间的联系所构成的集合。20世纪90年代,随着网络技术的迅猛发展,特别是近几年SNS(socialnetworkingsystem)的涌现,越来越多的个人用户加入到由这些虚拟关系所构建的网络中,社会网络的研究得到了逐步加强。现今涌现出了大量的社会网络平台,包括网络论坛(如天涯社区,CSDN,小虫网等),聊天室(如新浪聊天室),校园BBS系统(如水木清华,一塌糊涂等),社会关系网站(如Facebook等),博客(如Myspace,Twitter),即时通讯网络(如MSN、QQ)等等,积累了海量的、不断更新的社会网络数据。这些社会网络是人们现实生活直接或间接的反应,并进一步影响了人们的社会行为,例如网站中互相评论、标记和连接日志的博友是现实生活中的好友,或者可能发展为现实生活中的好友,维基百科(Wikipedia)已经成为互联网上最大、最流行的参考书,IMDB论坛上的影片评论成为观众购票观影的指南。
社区是复杂的社会网络的基本特征之一。将社会网络抽象成图,将参与的对象表示成点,对象之间的关系表示成线,则社区为一个子图,该子图内部的关系比较紧密,子图与子图外部(其他子图)之间的关系相对稀疏。物理类聚,人以群分,认识网络中的社区结构,有助于理解复杂的网络结构中组织架构,进而能够理解对象之间关系的相互影响和组织功能。目前社区挖掘方法往往从某些角度定义一个描述社区优劣的定量指标,然后利用贪心算法,将初始网络看成一个社区不断拆分或将初始网络中每个结点看成是一个社区不断合并,最终使得这个指标尽可能达到最优。也有一些方法需要预定义参数(比如社区个数等阈值)和某种关系度量函数对网络结点进行分类得出社区结构。总而言之,这些方法事实上限制了社区形成的过程、形状和结构。
发明内容
为了克服现有技术中存在的缺陷,本发明提供一种基于局部相似度的社区挖掘方法,该方法通过网络结构本身联系的紧密与否发现关系紧密的局部区域,将这些局部区域视为社区的雏形赋予初始标签,然后根据投票原则采用标签传播的办法再扩展、调整这个区域形成社区。不需要任何人工参数,直接通过网络本身结点联系的紧密与否的结构性质得到社区结构。
为了叙述方便,先对基本概念进行形式化定义。设网络G=(V,E),其中V={v1,v2,......vn}为结点集合,E={e1,e2,......em}为边集,其中ei∈V×V。vi的邻居记为N(vi),即N(vi)={vj|wij>0},vi的星型邻域St(vi)={vi}∪N(vi)。记表示结点vi关联的边权值之和,定义为vi的度。
其技术方案如下:
一种基于局部相似度的社区挖掘方法,包括以下步骤:
(1)根据网络的邻接矩阵计算各结点对的相似度。
那么结点对(vi,vj)的相似度计算公式如下:
S ij = Σ V l ∈ St ( v i ) ∩ St ( v j ) 1 K ( v l ) Σ v m ∈ St ( v i ) 1 K ( v m ) Σ v n ∈ St ( v j ) 1 K ( v n )
根据上式,结点vi和vj的相似度与他们星型邻域交集中结点(可以看成是中介点)的度有关,度越大说明该点对vi和vj的相似度贡献越小,这是因为这种情况下中介点的连接作用被分散了。分母起到归一化使得Sij∈[0,1],Sij=0时说明结点vi和vj既不相连接也没有共同的邻居,Sij=1时则说明St(vi)=St(vj)。由此看来,若结点vi和vj有共同的邻居(无论这两个结点本身是否连接),则这两个结点的相似度总大于零,表示他们之间有关系,避免的其他度量方法的低估现象(例如在两结点连接但无共同邻居的情况下,有些指标为将其相似度计算为0,这明显低估了这两点的关系)。在本发明中,只计算存在边的结点之间的相似度。
(2)找出所有的紧密点对。
如果某结点对(u,v)的相似度是其邻接结点中相似度最大的,称之为紧密点对,即
σ(u,v)=max{s(x,y)|(x=u,y∈Γ(u)-{u})∨(x=v,y∈Γ(v)-{v})},记作其中ε=σ(u,v)。找出这些结点对构成紧密点对的集合;
(3)找出所有的紧密微社团。
若某些结点构成的集合,其中的某个结点总有另外一个在集合中的结点与之构成紧密点对,并且任何一个在里面的结点,与之构成紧密点对的另外一个结点均不在集合之外,这些结点就构成了紧密微社团。紧密微社团事实上是一个子图,可记为C(a)=(V',E',ε),满足三个条件:1)a∈V';2)对任何u∈V',存在3)不存在
(4)给所有的紧密微社团赋予初始标签,同一个紧密微社团中的结点初始标签相同,紧密微社团之间的初始标签不同;
(5)将网络中的结点按度从大到小的次序放入集合X中。
(6)设置t=1。
(7)按X中的次序取出每个结点x∈X,将x的邻接结点按标签类型分组,数量最多的那一组的标签赋予x,若存在数量最多的分数有多个,那么选择分组中各结点度之和最大的那个分组的标签。
(8)如果前后两次标签赋值未发生变化,那么算法结束;否则设t=t+1,转(7)。
本发明的有益效果:
(1)经过测试,本发明的方法挖掘出的社区与直观感觉吻合,能够进行合理解析;在基准数据集测试,其效果很好。
(2)传统的社区挖掘方法有些需要人工参数(例如预先设定社区个数),但本方法完全依赖社会网络本身的结构。此外,有些方法依赖于设定社区优劣的定量函数,然后采用贪心算法,初始时候将每个结点视为一个社区逐步合并使得该函数增大或者刚开始将整个网络视为一个社区不断分裂使得该函数增大。但是贪心算法容易陷入局部最优。
(3)与同类型的标签传播算法比较来说,本方法主要贡献在于找到了标签传播算法中初始标签的简便赋值方法,大大减少了初始标签的数目,并且初始标签反映了社区结构的雏形,进而消除了传统标签传播算法中的精度限制现象。所谓精度限制问题,是指不能产生小的社区,而趋向于将小的社区合并的现象。例如图2所示,明显能看出存在2个社区,但很多算法只能挖掘出一个社区{a,b,c,d,e,f,g},这便是精度限制问题。本算法能够将其挖掘出2个社区,分别是{a,b,c,d}和{e,f,g},有效消除了精度限制问题。
附图说明:
图1是本发明基于局部相似度的社区挖掘方法的流程图;
图2是一个可能产生精度限制问题的网络;
图3是测试网络;
图4是邻接矩阵;
图5是相似度矩阵;
图6是边上赋予相似度;
图7是设置初始标签;
图8是第一次结点e得到更新;
图9是第二次结点i得到更新;
图10是最终的社团结构;
图11是基准网络。
具体实施方式
下面结合附图和具体实施例详细描述本发明的技术方案。
(1)将图3所示网络表示为邻接矩阵,如图4所示。
(2)根据网络的邻居矩阵计算各结点对的相似度,如图5所示。这里为了更清晰地表示,将相似度标注在图上,如图6所示。
(3)如果某结点对的相似度是其邻接结点中相似度最大的,这找出这些结点对构成紧密点对;
针对图6,一共可以发现四对紧密点对:(a,c)、(b,d)、(f,h)、(g,i)、(h,k)和(i,j)。
(4)若某些结点构成的集合,其中的某个结点总有另外一个在集合中的结点与之构成紧密点对,并且任何一个在里面的结点,与之构成紧密点对的另外一个结点均不在集合之外,这些结点就构成了紧密微社团;找出所有这些紧密微社团;
针对图6,一共可以找出四个紧密微社团:(a,c)、(b,d)、(f,h,k)和(g,i,j)。
(5)给所有的紧密微社团赋予初始标签,同一个紧密微社团中的结点初始标签相同,
紧密微社团之间的初始标签不同;
针对图6,用△、◇、□和▽分别表示四种不同的标签,则初始标签设置如图7所示。
(6)根据投票原则进行标签传播,直到任何结点的标签均不能更新;
在图7的基础上,需要进行一轮标签传播,第一次更新的结点是e,如图8所示,第二轮更新标签的结点是i,如图9所示。其余更新不再给出图示。
(7)输出最终的社团结构,最终的社团结构如图10所示。
各个结点经过一次更新之后,便得到了最终的社团结构。
从结果来看,与观察结构吻合。进一步的,我们用一个基准的数据进行测试,图11是社区挖掘中常用的一个测试数据,该网络中一共34个结点,圆心结点和方形结点代表两类社团。本方法能够完全正确挖掘出这两类社区,从而证明了本方法的有效性。
以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims (2)

1.一种基于局部相似度的社区挖掘方法,其特征在于,包括以下步骤:
(1)根据网络的邻接矩阵计算各结点对的相似度;
(2)如果某结点对的相似度是其邻接结点中相似度最大的,这找出这些结点对构成紧密点对;
(3)若某些结点构成的集合,其中的某个结点总有另外一个在集合中的结点与之构成紧密点对,并且任何一个在里面的结点,与之构成紧密点对的另外一个结点均不在集合之外,这些结点就构成了紧密微社团;找出所有这些紧密微社团;
(4)给所有的紧密微社团赋予初始标签,同一个紧密微社团中的结点初始标签相同,紧密微社团之间的初始标签不同;
(5)根据投票原则进行标签传播,直到任何结点的标签均不能更新;
(6)得到了最终的社团结构。
2.根据权利要求1所述的基于局部相似度的社区挖掘方法,其特征在于:
(1)相似度的计算方法
设网络G=(V,E),其中V={v1,v2,......vn}为结点集合,E={e1,e2,......em}为边集,其中ei∈V×V;vi的邻居记为N(vi),即N(vi)={vj|wij>0},vi的星型邻域St(vi)={vi}∪N(vi);记表示结点vi关联的边权值之和,定义为vi的度;
那么结点对(vi,vj)的相似度计算公式如下:
S ij = Σ V l ∈ St ( v i ) ∩ St ( v j ) 1 K ( v l ) Σ v m ∈ St ( v i ) 1 K ( v m ) Σ v n ∈ St ( v j ) 1 K ( v n )
根据上式,结点vi和vj的相似度与他们星型邻域交集中结点的度有关,度越大说明该点对vi和vj的相似度贡献越小,这是因为这种情况下中介点的连接作用被分散了;分母起到归一化使得Sij∈[0,1],Sij=0时说明结点vi和vj既不相连接也没有共同的邻居,Sij=1时要么是i=j,要么是结点vi和vj只和对方互相连接而无其他邻接点;由此看来,若结点vi和vj有共同的邻居,则这两个结点的相似度总大于零,避免的其他度量方法的低估现象;只计算存在边的结点之间的相似度;
(2)紧密点对的计算方法;
如果某结点对(u,v)的相似度是其邻接结点中相似度最大的,称之为紧密点对,即σ(u,v)=max{s(x,y)|(x=u,y∈Γ(u)-{u})∨(x=v,y∈Γ(v)-{v})},记作
其中ε=σ(u,v);找出这些结点对构成紧密点对的集合;
(3)紧密微社团的计算方法;
若某些结点构成的集合,其中的某个结点总有另外一个在集合中的结点与之构成紧密点对,并且任何一个在里面的结点,与之构成紧密点对的另外一个结点均不在集合之外,这些结点就构成了紧密微社团;紧密微社团事实上是一个子图,可记为C(a)=(V',E',ε),满足三个条件:1)a∈V';2)对任何u∈V',存在
v ∈ V ′ ( u ↔ ϵ v ) ; 3 ) 不存在
(4)初始标签的赋值方法;
给所有的紧密微社团赋予初始标签,同一个紧密微社团中的结点初始标签相同,紧密微社团之间的初始标签不同;
(5)标签传播的方法
(5.1)将网络中的结点按度从大到小的次序放入集合X中,然后
(5.2)设置t=1;
(5.3)按X中的次序取出每个结点x∈X,将x的邻接结点按标签类型分组,数量最多的那一组的标签赋予x,若存在数量最多的分组有多个,那么选择分组中各结点度之和最大的那个分组的标签;
(5.4)如果前后两次标签赋值未发生变化,那么算法结束;否则设t=t+1,转(5.3)。
CN201410167205.9A 2014-04-24 2014-04-24 一种基于局部相似度的社区挖掘方法 Active CN103927371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410167205.9A CN103927371B (zh) 2014-04-24 2014-04-24 一种基于局部相似度的社区挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410167205.9A CN103927371B (zh) 2014-04-24 2014-04-24 一种基于局部相似度的社区挖掘方法

Publications (2)

Publication Number Publication Date
CN103927371A true CN103927371A (zh) 2014-07-16
CN103927371B CN103927371B (zh) 2017-02-22

Family

ID=51145592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410167205.9A Active CN103927371B (zh) 2014-04-24 2014-04-24 一种基于局部相似度的社区挖掘方法

Country Status (1)

Country Link
CN (1) CN103927371B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631157A (zh) * 2016-01-13 2016-06-01 西安电子科技大学 基于传播限制的标签传播方法
CN108400889A (zh) * 2018-01-30 2018-08-14 重庆邮电大学 一种基于局部最优化的社区发现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070118539A1 (en) * 2005-11-18 2007-05-24 International Business Machines Corporation Focused community discovery
CN101383748A (zh) * 2008-10-24 2009-03-11 北京航空航天大学 一种复杂网络中的社区划分方法
US20090216581A1 (en) * 2008-02-25 2009-08-27 Carrier Scott R System and method for managing community assets
CN103020163A (zh) * 2012-11-26 2013-04-03 南京大学 一种网络中基于节点相似度的网络社区划分方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070118539A1 (en) * 2005-11-18 2007-05-24 International Business Machines Corporation Focused community discovery
US20090216581A1 (en) * 2008-02-25 2009-08-27 Carrier Scott R System and method for managing community assets
CN101383748A (zh) * 2008-10-24 2009-03-11 北京航空航天大学 一种复杂网络中的社区划分方法
CN103020163A (zh) * 2012-11-26 2013-04-03 南京大学 一种网络中基于节点相似度的网络社区划分方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631157A (zh) * 2016-01-13 2016-06-01 西安电子科技大学 基于传播限制的标签传播方法
CN108400889A (zh) * 2018-01-30 2018-08-14 重庆邮电大学 一种基于局部最优化的社区发现方法

Also Published As

Publication number Publication date
CN103927371B (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
Sheng et al. Identifying influential nodes in complex networks based on global and local structure
Zhang et al. Event detection and popularity prediction in microblogging
Liu et al. Weighted graph clustering for community detection of large social networks
Moosavi et al. Community detection in social networks using user frequent pattern mining
Zhang et al. User community discovery from multi-relational networks
CN102262681A (zh) 一种博客信息传播中识别关键博客集的方法
CN105069122B (zh) 一种基于用户行为的个性化推荐方法及其推荐装置
CN103425763B (zh) 基于sns的用户推荐方法及装置
CN105893381A (zh) 一种基于半监督标签传播的微博用户群体划分方法
CN110826164B (zh) 一种基于局部和全局连通性的复杂网络节点重要度评估方法
CN101887460A (zh) 一种文献质量评估方法及应用
CN103020163A (zh) 一种网络中基于节点相似度的网络社区划分方法
CN105893637A (zh) 大规模微博异构信息网络中的链接预测方法
CN105279187A (zh) 一种基于边聚集系数的社会网络群体划分方法
Ma et al. Balancing user profile and social network structure for anchor link inferring across multiple online social networks
CN102571431A (zh) 针对复杂网络的基于群思想改进的Fast-Newman聚类方法
Li et al. Multi-layer network community detection model based on attributes and social interaction intensity
CN103366009A (zh) 一种基于自适应聚类的图书推荐方法
Xu et al. A novel matrix factorization recommendation algorithm fusing social trust and behaviors in micro-blogs
Bhat et al. OCMiner: a density-based overlapping community detection method for social networks
CN103927371A (zh) 一种基于局部相似度的社区挖掘方法
CN109977131A (zh) 一种房型匹配系统
CN105159918A (zh) 一种基于信任关联度的微博网络社区发现方法
Li et al. Finding Missing Links in Complex Networks: A Multiple‐Attribute Decision‐Making Method
WO2017050991A1 (en) Aggregating profile information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200520

Address after: Unit 1801, Straits building, No.9, Hubin East Road, Siming District, Xiamen City, Fujian Province

Patentee after: Xiamen Yuhao Marriott Intelligent Equipment Co.,Ltd.

Address before: 361024 School of computer and information engineering, Xiamen University of Technology, 600 Polytechnic Road, Jimei District, Fujian, Xiamen

Patentee before: XIAMEN UNIVERSITY OF TECHNOLOGY

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Community Mining Method Based on Local Similarity

Effective date of registration: 20231208

Granted publication date: 20170222

Pledgee: Xiamen Bank Co.,Ltd.

Pledgor: Xiamen Yuhao Marriott Intelligent Equipment Co.,Ltd.

Registration number: Y2023980070169