CN107705213B - 一种静态社交网络的重叠社团发现方法 - Google Patents
一种静态社交网络的重叠社团发现方法 Download PDFInfo
- Publication number
- CN107705213B CN107705213B CN201710579248.1A CN201710579248A CN107705213B CN 107705213 B CN107705213 B CN 107705213B CN 201710579248 A CN201710579248 A CN 201710579248A CN 107705213 B CN107705213 B CN 107705213B
- Authority
- CN
- China
- Prior art keywords
- edge
- graph
- community
- overlapping
- edges
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000003068 static effect Effects 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 11
- 238000013139 quantization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004883 computer application Methods 0.000 abstract description 2
- 238000005192 partition Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机应用技术领域,公开了一种静态社交网络的重叠社团发现方法,将原始网络图转化为边图,利用边的社团归属唯一性的特性,将原图中的边当作研究对象,将边转化为节点,节点转化为边;由于社团发现和文本当中的主题发现有很高的相似性;本发明采用主题发现模型,将得到的边图作为模型的输入;为了得到可调重叠程度的社团结构,采用重叠社团划分策略,可以得到不同重叠程度的社团划分结果。本发明的可以根据具体的实验数据得到不同重叠程度的重叠社团划分结果,比起现有的社团划分方法有着更高的实用价值。
Description
技术领域
本发明属于计算机应用技术领域,尤其涉及一种静态社交网络的重叠社团发现方法。
背景技术
在社交网络中,网络往往具有分簇的形态,簇内中的社交成员联系紧密,簇间的社交成员联系稀疏,把这种簇叫作社团或是社群,挖掘社团的过程叫做社团发现。在社交网络中,将社交成员当成节点,社交成员之间的联系用节点之间的连线表示,这样就形成了图网络。Ahn等人在2010年《Nature》杂志发表了文章“Link communities reveal multiscalecomplexity in networks”首次提出边图概念,而且利用边图进行社团发现,边图的概念在后来被人们多次使用,本发明所进行的社团发现也是以边图为基础的,该文章所提出的方法复杂度较高,不适合大规模社交网络。Zhang在2007年IEEE in intelligence andsecurity informatics的文章“An LDA-based community structure discoveryapproach for large-scale social networks”中利用LDA方法,但是他是以节点为LDA模型的输入数据。于乐等在2014年ASONAM 2014会议上发表了“overlapping communitydetection in large networks from a data fusion view”,文章在边图下利用LDA模型,然而在设计重叠划分准则时过于简单。
综上所述,现有技术存在的问题是:针对大规模社交网络,利用边图进行社团发现的算法效率低下,而且重叠程度固定不可调。对于于乐等人提出的方法,重叠划分准则只考虑了边的归属概率值大小,本发明指出这样的准则是不准确的,本发明提出了一种更加准确的划分准则方法。
发明内容
针对现有技术存在的问题,本发明提供了一种静态社交网络的重叠社团发现方法。
本发明是这样实现的,一种静态社交网络的重叠社团发现方法,所述静态社交网络的重叠社团发现方法包括以下步骤:
第一步,对社交网络进行边图转化;
第二步,将边图和主题发现模型进行映射,得到边的归属情况;
第三步,利用划分准则对边的归属概率矩阵进行重叠划分。
进一步,所述静态社交网络的重叠社团发现方法包括以下步骤:
步骤一,将原图转化为边图,对边图进行网络量化编码;
步骤二,边图结构与主题发现模型的映射;
步骤三,重叠社团划分。
进一步,所述步骤一具体包括:
(a)给定网络G=(V,E),其中顶点集为V=(v1,…,vn),边集为E=(e1,…em),构建边图将原图G中的边ei看作边图中的节点,边图中的两节点是否有边连接是看在原图G中是否两条边是否存在公共节点;
边图LG的节点原图G中边映射为边图中的节点,边图中的节点表示为V(LG)=E(G);
边图LG的边边图中的边取决于在原图中两条边是否存在公共节点,对于e∈E(G),用EP(e)表示原图G中边的两个端点,于是边图LG中的边即原图中两条边是否存在公共节点表示为:
边图LG边的权重定义边图中边的权重,建立G的关联矩阵A:
通过关联矩阵A得到边的权重:
其中,D(vm)表示原图G节点vm的度;
(b)对边图进行网络量化编码
对于图G=(V,E),按照定义先转化为边图LG,定义边图的邻接矩阵HE×E,而且H(i,j)=Wi,j。
进一步,所述步骤二具体包括:
(2)文档和主题、主题和词语之间通过主题联系。
进一步,所述步骤三具体包括:
定义归属概率计算方法:
其中,pr*(i,j)=max{Pr(i,:)},count{pr*(i,j)}表示第i条边划分到第j个社团的次数,α和β为权重系数;得到节点的归属概率值后,可调重叠的策略;
社团重叠程度的方法:
其中,γ∈(0,1)是重叠因子。
本发明的另一目的在于提供一种应用所述静态社交网络的重叠社团发现方法的社区网络。
本发明的优点及积极效果为:提出门限准则来控制社团的重叠程度,可以得到不同重叠程度的社团发现结果。社团划分结果可以提高对社团内用户行为分析的准确性,而且还可以进行重要用户的挖掘和潜在好友的推荐。在本发明中,以这种图网络作为对象;在早期的社团发现中,人们只关注如何将网络结构划分成非重叠社团。然而在实际的社交网络中,社团之间往往是重叠的,某些社交成员往往属于多个社团,本发明把这种社团发现叫做重叠社团发现(也叫模糊社团发现)。
本发明采用对边图编码的数据,利用主题发现模型进行社团发现;边图的编码降低了原图中度数较大节点对社团发现的影响,采用文本主题发现模型中采样过程降低了社团发现中个别干扰边对社团的整体划分,重叠准则的设计,提高了社团重叠结构的准确性,并且使得重叠程度可控。
附图说明
图1是本发明实施例提供的静态社交网络的重叠社团发现方法流程图。
图2是本发明实施例提供的边图示意图。
图3是本发明实施例提供的边社团采样示意图。
图4是本发明实施例提供的LDA模型的过程示意图。
图5是本发明实施例提供的社区发现重要节点示意图。
图6是本发明实施例提供的与(Me)和OSLOM、ABL方法示意图;
图中:(a)μ=0.1;(b)μ=0.4。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的静态社交网络的重叠社团发现方法包括以下步骤:
S101:对社交网络进行边图转化;
S102:将边图和主题发现模型进行映射,得到边的归属情况;
S103:利用划分准则对边的归属概率矩阵进行重叠划分。
下面结合附图对本发明的应用原理作进一步的描述。
本发明实施例提供的静态社交网络的重叠社团发现方法具体包括以下步骤:
步骤1:将原图转化为边图,然后对边图进行网络量化编码。
(1a)给定网络G=(V,E),其中顶点集为V=(v1,…,vn),边集为E=(e1,…em)。构建边图(Line graph)的方法是将原图G中的边ei看作边图中的节点,而边图中的两节点是否有边连接是看在原图G中是否两条边是否存在公共节点。
定义1-1边图LG的节点原图G中边映射为边图中的节点,那么边图中的节点可以表示为V(LG)=E(G)。
定义1-2边图LG的边边图中的边取决于在原图中两条边是否存在公共节点。对于e∈E(G),用EP(e)表示原图G中边的两个端点,于是边图LG中的边即原图中两条边是否存在公共节点可以表示为:
定义1-3边图LG边的权重定义边图中边的权重,首先建立G的关联矩阵A:
通过关联矩阵A可以得到边的权重。一种常用的边权重计算方式为(实际应用中计算方式可以根据需求进行调整):
其中,D(vm)表示原图G节点vm的度。
(1b)对边图进行网络量化编码
对于图G=(V,E),按照定义先转化为边图LG。定义边图的邻接矩阵HE×E,而且H(i,j)=Wi,j(根据边图中连接边权重定义)。
如图2,以3号边为例,与3号边相连的临边有1、2、5、6号边,组成了3号的临边集。于是,H的第三行H(3,:)=(W3,1W3,200W3,5W3,600)。考虑到实际情况,矩阵中会出现大量的零元素,在实际应用的时候采用稀疏矩阵存储数据。
步骤2:边图结构与主题发现模型的映射。
下面具体以LDA模型为例介绍具体过程。边图结构与LDA模型映射,把网络编码的结果作为模型的输入数据,利用LDA–GibbsSampling得到边的归属概率矩阵。
(2a)LDA模型假设doc-topic(文档和主题之间)服从参数为的多项式分布,topic-word(主题和词语之间)服从参数为多项式分布,由于参数是随机变量,LDA模型利用贝叶斯学派的思想假设和服从超参数分别为和的Dirichlet分布。
使用概率图模型表示,LDA模型的过程如下图3所示:
(2b)“doc”-“topic”“topic”-“word”之间通过主题联系的,采用LDA模型进行社团发现的核心思想是,“doc”与边的映射,“word”与临边集的映射,“topic”与社团的映射。
如图4,z11表示边e1的临边集w11所属的社团。在边社团采样中,边作为采样对象,采样结果是记录每条边及边地临边集被划分到每个社团的次数,这里只关注隐含分布变量,用Nik标记边ei及其临边集被划分到社团k的次数,Ni标记边ei及其临边集被划分到社团中的总次数,对于LDA模型可以得到边社团划分概率:
于是,将得到一个边划分的归属概率矩阵Pr=[p(zi=k|ei)]mk。利用其它的主题发现模型同样可以得到边的归属概率,实际应用中可以根据不同的需要选择合适的主题发现模型。
步骤3:重叠社团划分准则
(3)如图5,像α这种节点在实际社团发现中是非常重要的,它是连接两个社团的重要节点。进行重叠社团发现的目的就是将类似这样的节点找出来。如果它属于A和B社团的概率接近,应该即把它划分到A中,也划分到B中,从而提高社团划分的准确性。
在实际应用中,可以设计具体的重叠划分准则,根据不同的需求,划分方式可以有细微的差异。例如式本发明定义了一种的归属概率计算方法:
其中,pr*(i,j)=max{Pr(i,:)},count{pr*(i,j)}表示第i条边划分到第j个社团的次数,α和β为权重系数。当本发明得到节点的归属概率值后,设计可调重叠的策略。例如式,本发明给出了一种具体的社团重叠程度的方法:
其中,γ∈(0,1)是重叠因子。本发明可以通过调节γ来控制节点的重叠程度,提高社团发现的准确性。真实网络的社团结构往往是未知的,重叠程度更是无从知晓,在实际应用中本发明只有通过调节参数,加上其它外在条件才能得到更加准确的社团结构。
下面结合具体的应用对本发明的应用原理作进一步的描述。
LFR网络生成数据的应用,LFR是由Lancichinetti等人在New Journal ofPhysics发表的文章“Detecting the overlapping and hierarchical communitystructure in complex networks”提出的人为可控的网络生成程序。本发明可以通过该程序生成不同大小、不同重叠程度的人造网络,而且程序会给出标准的社团划分结构,一般本发明都会结合NMI准则来验证社团发现结果的准确率。归一化互信息(Normalized MutualInformation,NMI)是计算两个社团之间的互信息量的,两个社团结构越相似,NMI的值就越大,NMI的取值范围为0~1。
这里本发明生成节点数(1000),最大的节点度数(30),平均度数(10),最小社团数(10),最大社团数(20),重叠节点数(50),重叠节点所在社团数目(2)的参数下的网络数据。
下面结合对比对本发明的应用效果作详细的描述。
本发明和OSLOM(A.LANCICHINETTI,F.RADICCHI,J.RAMASCO.Findingstatistically significant communities in networks[J].PloS one,2011,6(4):el8961.)方法、ABL(Y.AHN,J.BAGROW,S.LEHMANN.Link communities reveal multiscalecomplexity in networks[J].Nature,2010,466(7307):761-764.)方法进行比较,比较了在不同的μ(混合参数)下的NMI性能。
如图6,比较了本发明提出的方法(Me)和OSLOM、ABL方法,从图中本发明可以看出,本发明提出的方法的NMI性能明显优于OSLOM和ABL方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种静态社交网络的重叠社团发现方法,其特征在于,所述静态社交网络的重叠社团发现方法包括以下步骤:
第一步,对社交网络进行边图转化;
第二步,将边图和主题发现模型进行映射,得到边的归属情况;
第三步,利用划分准则对边的归属概率矩阵进行重叠划分;
所述静态社交网络的重叠社团发现方法具体包括以下步骤:
步骤一,将原图转化为边图,对边图进行网络量化编码:(a)给定网络G=(V,E),其中顶点集为V=(v1,…,vn),边集为E=(e1,…em″),构建边图:将原图G中的边ei看作边图中的节点,边图中的两节点是否有边连接是看在原图G中是否两条边是否存在公共节点;
构建边图LG的节点:将原图G中边映射为边图中的节点,边图中的节点表示为V(LG)=E(G);
构建边图LG的边:边图中的边取决于在原图中两条边是否存在公共节点,对于e∈E(G),用EP(e)表示原图G中边的两个端点,于是边图LG中的边即原图中两条边是否存在公共节点表示为:
定义边图LG边的权重,建立G的关联矩阵A:
通过关联矩阵A得到边的权重:
其中,D(vm)表示原图G节点vm的度;
(b)对边图进行网络量化编码
对于图G=(V,E),按照定义先转化为边图LG,定义边图的邻接矩阵HE×E,而且H(i,j)=Wi,j
(2)文档和主题、主题和词语之间通过主题联系;
步骤三,重叠社团划分:定义归属概率计算方法:
其中,pr*(i,j)=max{Pr(i,:)},count{pr*(i,j)}表示第i条边划分到第j个社团的次数,α和β为权重系数;得到节点的归属概率值后,可调用重叠的策略;
计算社团重叠程度的方法:
其中,γ∈(0,1)是重叠因子。
2.一种应用权利要求1所述静态社交网络的重叠社团发现方法的社区网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710579248.1A CN107705213B (zh) | 2017-07-17 | 2017-07-17 | 一种静态社交网络的重叠社团发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710579248.1A CN107705213B (zh) | 2017-07-17 | 2017-07-17 | 一种静态社交网络的重叠社团发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107705213A CN107705213A (zh) | 2018-02-16 |
CN107705213B true CN107705213B (zh) | 2022-01-28 |
Family
ID=61170706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710579248.1A Active CN107705213B (zh) | 2017-07-17 | 2017-07-17 | 一种静态社交网络的重叠社团发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107705213B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108614932B (zh) * | 2018-04-23 | 2021-11-30 | 中南大学 | 基于边图的线性流重叠社区发现方法、系统及存储介质 |
CN109299464B (zh) * | 2018-10-12 | 2023-07-28 | 天津大学 | 基于网络链接和文档内容的主题嵌入、文档表示方法 |
CN111626891B (zh) * | 2020-06-03 | 2023-08-01 | 四川大学 | 一种基于扩展节点的动态销售网络社团发现方法 |
CN114707044B (zh) * | 2021-12-29 | 2023-06-23 | 哈尔滨理工大学 | 基于社区发现的集体社交行为的提取方法及系统 |
CN115375502B (zh) * | 2022-08-16 | 2023-05-23 | 中国人民解放军海军指挥学院 | 一种基于双尺度图小波神经网络的重叠社团智能挖掘方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929942A (zh) * | 2012-09-27 | 2013-02-13 | 福建师范大学 | 一种基于集成学习的社会网络重叠社区发现方法 |
CN103345531A (zh) * | 2013-07-26 | 2013-10-09 | 苏州大学 | 一种复杂网络中网络社团的确定方法及装置 |
CN103793501A (zh) * | 2014-01-20 | 2014-05-14 | 惠州学院 | 基于社交网络的主题社团发现方法 |
CN104991956A (zh) * | 2015-07-21 | 2015-10-21 | 中国人民解放军信息工程大学 | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 |
-
2017
- 2017-07-17 CN CN201710579248.1A patent/CN107705213B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929942A (zh) * | 2012-09-27 | 2013-02-13 | 福建师范大学 | 一种基于集成学习的社会网络重叠社区发现方法 |
CN103345531A (zh) * | 2013-07-26 | 2013-10-09 | 苏州大学 | 一种复杂网络中网络社团的确定方法及装置 |
CN103793501A (zh) * | 2014-01-20 | 2014-05-14 | 惠州学院 | 基于社交网络的主题社团发现方法 |
CN104991956A (zh) * | 2015-07-21 | 2015-10-21 | 中国人民解放军信息工程大学 | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 |
Non-Patent Citations (3)
Title |
---|
Line graphs, link partitions, and overlapping communities;T. S. Evans,R. Lambiotte;《Physical review, E. Statistical, nonlinear, and soft matter physics》;20090731;DOI: 10.1103/PhysRevE.80.016105 * |
一种面向语义重叠社区发现的Block场取样算法;辛宇等;《自动化学报》;20150228;第41卷(第2期);362-375 * |
社会网络中社团发现及网络演化分析;于乐;《中国博士学位论文全文数据库(电子期刊) 基础科学辑》;20150415(第04期);A002-15 * |
Also Published As
Publication number | Publication date |
---|---|
CN107705213A (zh) | 2018-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107705213B (zh) | 一种静态社交网络的重叠社团发现方法 | |
US20240163684A1 (en) | Method and System for Constructing and Analyzing Knowledge Graph of Wireless Communication Network Protocol, and Device and Medium | |
CN108776844B (zh) | 基于上下文感知张量分解的社交网络用户行为预测方法 | |
Xiaomei et al. | Microblog sentiment analysis with weak dependency connections | |
Liu et al. | Keep your data locally: Federated-learning-based data privacy preservation in edge computing | |
Zhi et al. | Dynamic truth discovery on numerical data | |
Liu et al. | Real-time streaming graph embedding through local actions | |
Garcia-Perez et al. | Precision as a measure of predictability of missing links in real networks | |
CN111985623A (zh) | 基于最大化互信息和图神经网络的属性图群组发现方法 | |
Li | Network traffic prediction of the optimized BP neural network based on Glowworm Swarm Algorithm | |
Zhang et al. | A unified framework for epidemic prediction based on poisson regression | |
CN113228059A (zh) | 面向跨网络的表示学习算法 | |
AU2021102006A4 (en) | A system and method for identifying online rumors based on propagation influence | |
Janssen et al. | Nonuniform distribution of nodes in the spatial preferential attachment model | |
Wang | Multimodal emotion recognition algorithm based on edge network emotion element compensation and data fusion | |
CN113515519A (zh) | 图结构估计模型的训练方法、装置、设备及存储介质 | |
CN113360725A (zh) | 基于边缘协同分类的电力时序数据检索方法 | |
CN113128667A (zh) | 一种跨域自适应的图卷积平衡迁移学习方法与系统 | |
Cao et al. | A stochastic model for detecting overlapping and hierarchical community structure | |
WO2021081741A1 (zh) | 一种基于多关系社交网络的图像分类方法及系统 | |
CN107767278B (zh) | 社群层次结构构建方法和装置 | |
Zhang | Network public opinion data mining model of hierarchical multi level | |
CN114925523A (zh) | 一种基于不确定供需的交通用户均衡鲁棒优化方法及系统 | |
Tao et al. | The discretization of continuous attributes based on improved SOM clustering | |
Zhang et al. | Two-Stage User Identification Based on User Topology Dynamic Community Clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |