CN101344940A - 一种基于全局划分和局部扩展的网络重叠社团检测方法 - Google Patents

一种基于全局划分和局部扩展的网络重叠社团检测方法 Download PDF

Info

Publication number
CN101344940A
CN101344940A CNA200810041958XA CN200810041958A CN101344940A CN 101344940 A CN101344940 A CN 101344940A CN A200810041958X A CNA200810041958X A CN A200810041958XA CN 200810041958 A CN200810041958 A CN 200810041958A CN 101344940 A CN101344940 A CN 101344940A
Authority
CN
China
Prior art keywords
corporations
node
expansion
seed
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200810041958XA
Other languages
English (en)
Inventor
魏芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNA200810041958XA priority Critical patent/CN101344940A/zh
Publication of CN101344940A publication Critical patent/CN101344940A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于全局划分和局部扩展的网络重叠社团结构检测方法,具体属Web和数据库技术领域。该方法引入了用种子结点来发现社团且允许不同的社团内有重复的结点,并利用全局信息来寻找种子结点,并从局部最优角度用随机行进方法来进行社团扩展。在随机行进中并不考虑当前要扩展的结点是否已经属于其它社团,得到的不同社团允许有重复的结点,有效预防了重要信息的丢失。

Description

一种基于全局划分和局部扩展的网络重叠社团检测方法
技术领域
本发明属Web和数据库技术领域,具体涉及一种基于全局划分和局部扩展的网络重叠社团结构检测方法。
背景技术
许多网络系统都表现了社团结构的特征,如社会网络和生物群落等,简要地说,社团是整个网络中那些联系相对紧密的结点的集合。近年来,社团结构识别技术引起了物理、应用数学和计算机科学等领域的广泛关注。
已经提出的方法大都关注地是网络的划分,应用最小割边划分原则把网络结构划分成几个不相交的子网络。许多方法的检测规则是网络中的每个结点最多只能划分到一个社团,基于这样的规则,就无法找到有重叠结点的社团。这样的划分有时是不合理的,因为在现实生活中的很多情况下重叠结点是很有必要的,比如在社会网络中,一个人因为代表不同的利益因而可以在不同的社团中充当不同的角色,如果我们要对社会网络进行划分,这个人在不同的社团中都应该存在。所以针对这种情形,应该提出新的方法来进行社团发现。
发明内容
本发明的目的在于提出了一种基于全局划分和局部扩展的网络重叠社团结构检测方法,该方法引入了用种子结点来发现社团且允许不同的社团内有重复的结点。
一种基于全局划分和局部扩展的网络重叠社团检测方法DOCS,它是这样实现的:
该方法引入了用种子结点来发现社团且允许不同的社团内有重复的结点,
具体步骤为:
第一步,我们应用谱划分方法生成种子集合,并用这些种子来产生重叠社团结构,这个经典方法从网路结构的全局角度和社团结构的全局属性来产生最优种子;
第二步,根据产生的种子,从局部最优角度对社团进行扩展。我们利用模块函数Q来衡量社团每一步要扩展的结点,对每一个扫描到的结点,我们计算此结点加入后对模块Q的贡献和模块间的重叠率,比较这两个衡量标准,我们给出一个定理来决定要加入和删除的结点;
第三步是社团扩展终止条件。当扫描的结点的规范化概率低于特定阈值时或社团间的重叠率超过用户的容许值时算法停止。
本发明利用全局信息来寻找种子结点,并从局部最优角度用随机行进方法来进行社团扩展,在随机行进中我们并不考虑当前要扩展的结点是否已经属于其它社团,所以我们得到的不同社团中允许有重复的结点,这样就可以预防重要信息的丢失。
附图说明
图1为描述一个新的结点被加入到候选社团的过程。
具体实施方式
1.与本发明有关的一些概念和定义。
【1】网络模型:
本发明中,网络可以建模成图G=(V,E),其中V是图中结点集合,E是图中边的集合。我们用A=(Aij)n×n来表示网络关联矩阵,其中
Figure A20081004195800041
我们用D=(Dij)n×n来表示对角矩阵,其中Dij=∑k Aik,如果i=j,其它情况下Dij=0。
矩阵A和D是基础矩阵,其它矩阵如拉普拉斯矩阵L和转换矩阵P都可由这两个矩阵得到,其中L=D-A,P=D-1 A。
【2】边缘边(割):
一个社团S的边缘边B(S)是这样的边,其中边的一个端点在S中,另一个端点在其它社团中,形式化定义如下:
B ( S ) = { { u , v } | { u , v } ∈ E , u ∈ S , v ∉ S } ,
且|B(S)|表示社团S的割的大小。
【3】模块度:
如果网络被划分成Pk,其中k是划分的社团的个数,则模块度函数Q形式化定义如下:
Q ( P k ) = Σ c = 1 k [ A ( V c , V c ) A ( V , V ) - ( A ( V c , V ) A ( V , V ) ) 2 ] ,
其中A(V′,V″)=∑u∈V′,v∈V″w(u,v),w(u,v)是连接结点u,v的边的权重。定义中测量边在同一个社团c的概率,测量一个点至少在社团c中的边的概率。
【4】社团重叠率:
给定网络中的一个社团集合(Ci,…,Cj),这个集合与社团Ci有重叠,则社团Ci的社团重叠率形式化定义如下:
COR ( C i ) = | C i ∩ C m | ∪ · · · ∪ | C i ∩ C j | | C i | ,
其中COR是社团重叠率(Community Overlapping Rate)的缩写,|Ci|表示社团Ci中边的个数,|Ci⌒Cj|表示社团Ci和社团Cj中相同的边的个数。
针对本发明具体内容的说明:
【1】检测重叠社团结构的算法DOCS(Detecting Overlapping CommunityStructures):
DOCS算法基于全局信息对社团进行划分并利用局部策略对社团进行扩展,算法分为三步。第一步,我们应用图的谱划分方法生成种子集合,并用这些种子来产生重叠社团结构的基础。第二步,根据产生的种子,从局部最优角度对社团进行扩展。我们利用模块度函数Q来衡量社团每一步要扩展的结点。对每一个扫描到的结点,我们计算此结点加入后对模块Q的贡献值和模块间的重叠率,比较这两个衡量标准,我们给出一个定理来决定要加入和删除的结点。第三步是社团扩展终止条件。当扫描的结点的概率低于特定阈值时或社团间的重叠率超过用户的容许值时算法就停止。DOCS算法利用全局划分的结果集作为产生社团结构的种子,大大减少了社团向关联不紧密结点扩展的概率,使我们能有效的发现重叠社团结构。当产生的社团中的总边数小于3时,我们去除这个种子,因为这样的社团种子无法显示目标社团的整体结构。
【2】DOCS算法社团扩展过程:
根据产生的种子结点,我们利用懒散的随机行走技术来进行社团扩展。扩展过程用时间t来度量。在每一步,我们对扫描到的结点按其规范化的概率降序排列,如果加入此结点能对候选社团的模块函数Q带来好的变化,则把此结点加入社团。图1给出了一个新的结点被加入到候选社团的过程。
连接种子内部结点的边成为内部种子连接,这些边的个数记为|IL|,种子团连向外部的边称为外部种子连接,这些边的个数记为|OL|。当要决定是否在社团中加入某结点时,这两种边影响模块函数Q的值。我们利用模块函数公式来计算模块度Q的值和相应的变化。
初始种子记为S,种子大小为|S|,割的大小为|B(S)|,则初始模块度Q的值为:
Q 0 = | S | | E | - ( | S | + | B ( S ) | E | ) 2 ,
当加入一个新的邻居结点后,模块度为:
Q ′ = | S | + | IL | | E | - ( | S | + | B ( S ) + | OL | | | E | ) 2 ,
则模块度Q的改变值为:
Q ′ - Q 0 = | IL | | E | - 2 ( | S | + | B ( S ) | ) × | OL | + | OL | 2 | E | 2 .
如果此改变值大于0,则此结点为由贡献结点,否则此结点为无贡献结点。局部最优扩展过程要选择有贡献的结点加入到社团中。当社团扩展到一定步数就到了随机行走的收敛时间。如果此时图是连通的,择结点度的概率收敛成统一静态分布Ψv,且结点度和Ψv的差值我们可以通过计算得到,通过这个差值,我们可以停止社团扩展过程并且可以安全去除一些具有低概率的结点。
以上是对本发明的描述而非限定,基于本发明思想的其它实施方式,均在本发明的保护范围之中。

Claims (3)

1、一种基于全局划分和局部扩展的网络重叠社团检测方法DOCS,该方法引入了用种子结点来发现社团且允许不同的社团内有重复的结点,
具体步骤为:
第一步,我们应用谱划分方法生成种子集合,并用这些种子来产生重叠社团结构,这个经典方法从网路结构的全局角度和社团结构的全局属性来产生最优种子;
第二步,根据产生的种子,从局部最优角度对社团进行扩展。我们利用模块函数Q来衡量社团每一步要扩展的结点,对每一个扫描到的结点,我们计算此结点加入后对模块Q的贡献和模块间的重叠率,比较这两个衡量标准,我们给出一个定理来决定要加入和删除的结点;
第三步是社团扩展终止条件。当扫描的结点的规范化概率低于特定阈值时或社团间的重叠率超过用户的容许值时算法停止。
2、根据权利要求1所述的DOCS算法,其特征在于:利用全局信息来寻找种子结点,并从局部最优角度用随机行走方法来进行社团扩展,在随机行进中我们并不考虑当前要扩展的结点是否已经属于其它社团,所以我们得到的不同社团中允许有重复的结点,这样就可以预防重要结构信息的丢失,
利用全局划分结果集作为产生社团结构的种子,大大减少了社团向关联不紧密结点扩展的概率,使我们能有效的发现重叠社团结构,
当产生的社团中的总边数小于3时,我们去除这个种子,因为这样的社团无法显示目标社团的整体结构。
3、根据权利要求1所述的DOCS算法,其特征在于:利用懒散随机行走技术来进行社团扩展,扩展过程用时间t来衡量,
在每一步,我们对扫描到的结点按其规范化的概率降序排列,如果加入此结点能对候选社团的模块函数Q带来好的变化,则把此结点加入社团,
局部最优扩展过程选择有贡献的结点加入到社团中,当社团扩展到一定步数就到了随机行走的收敛时间。如果此时图是连通的,择结点度的概率收敛成统一静态分布Ψv,且结点度和Ψv的差值我们可以通过计算得到,通过这个差值,我们可以停止社团扩展过程并且可以安全删除一些具有低概率的结点。
CNA200810041958XA 2008-08-21 2008-08-21 一种基于全局划分和局部扩展的网络重叠社团检测方法 Pending CN101344940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA200810041958XA CN101344940A (zh) 2008-08-21 2008-08-21 一种基于全局划分和局部扩展的网络重叠社团检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200810041958XA CN101344940A (zh) 2008-08-21 2008-08-21 一种基于全局划分和局部扩展的网络重叠社团检测方法

Publications (1)

Publication Number Publication Date
CN101344940A true CN101344940A (zh) 2009-01-14

Family

ID=40246941

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200810041958XA Pending CN101344940A (zh) 2008-08-21 2008-08-21 一种基于全局划分和局部扩展的网络重叠社团检测方法

Country Status (1)

Country Link
CN (1) CN101344940A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073700A (zh) * 2010-12-30 2011-05-25 浙江大学 一种复杂网络社团的发现方法
CN102682162A (zh) * 2012-04-24 2012-09-19 河海大学 基于复杂网络社区发现的层次重叠核心药群发现方法
CN103345531A (zh) * 2013-07-26 2013-10-09 苏州大学 一种复杂网络中网络社团的确定方法及装置
CN103400299A (zh) * 2013-07-02 2013-11-20 西安交通大学 基于重叠点识别的网络重叠社团检测方法
CN105335438A (zh) * 2014-08-11 2016-02-17 天津科技大学 一种基于局部最短回路的社会网络群体划分方法
CN106055568A (zh) * 2016-05-18 2016-10-26 安徽大学 一种基于单步添加团的社交网络的朋友自动分组方法
CN106533796A (zh) * 2016-12-15 2017-03-22 北京邮电大学 基于分组业务流社团结构的服务质量波动传播控制方法
CN107743070A (zh) * 2016-08-12 2018-02-27 华为技术有限公司 一种双属性网络的社群划分方法及装置
CN108230174A (zh) * 2018-01-19 2018-06-29 隆中天 一种基于谱分析的工业互联网社团检测的方法
CN110674390A (zh) * 2019-08-14 2020-01-10 国家计算机网络与信息安全管理中心 基于置信度的群体发现方法及装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073700B (zh) * 2010-12-30 2012-12-19 浙江大学 一种复杂网络社团的发现方法
CN102073700A (zh) * 2010-12-30 2011-05-25 浙江大学 一种复杂网络社团的发现方法
CN102682162A (zh) * 2012-04-24 2012-09-19 河海大学 基于复杂网络社区发现的层次重叠核心药群发现方法
CN103400299A (zh) * 2013-07-02 2013-11-20 西安交通大学 基于重叠点识别的网络重叠社团检测方法
CN103400299B (zh) * 2013-07-02 2015-04-29 西安交通大学 基于重叠点识别的网络重叠社团检测方法
CN103345531A (zh) * 2013-07-26 2013-10-09 苏州大学 一种复杂网络中网络社团的确定方法及装置
CN103345531B (zh) * 2013-07-26 2017-05-24 苏州大学 一种复杂网络中网络社团的确定方法及装置
CN105335438A (zh) * 2014-08-11 2016-02-17 天津科技大学 一种基于局部最短回路的社会网络群体划分方法
CN106055568B (zh) * 2016-05-18 2019-06-28 安徽大学 一种基于单步添加团的社交网络的朋友自动分组方法
CN106055568A (zh) * 2016-05-18 2016-10-26 安徽大学 一种基于单步添加团的社交网络的朋友自动分组方法
CN107743070A (zh) * 2016-08-12 2018-02-27 华为技术有限公司 一种双属性网络的社群划分方法及装置
CN107743070B (zh) * 2016-08-12 2021-08-31 华为技术有限公司 一种双属性网络的社群划分方法及装置
CN106533796A (zh) * 2016-12-15 2017-03-22 北京邮电大学 基于分组业务流社团结构的服务质量波动传播控制方法
CN106533796B (zh) * 2016-12-15 2019-06-14 北京邮电大学 基于分组业务流社团结构的服务质量波动传播控制方法
CN108230174B (zh) * 2018-01-19 2021-01-29 隆中天 一种基于谱分析的工业互联网社团检测的方法
CN108230174A (zh) * 2018-01-19 2018-06-29 隆中天 一种基于谱分析的工业互联网社团检测的方法
CN110674390A (zh) * 2019-08-14 2020-01-10 国家计算机网络与信息安全管理中心 基于置信度的群体发现方法及装置

Similar Documents

Publication Publication Date Title
CN101344940A (zh) 一种基于全局划分和局部扩展的网络重叠社团检测方法
Ayodele et al. A multi-criteria GIS based model for wind farm site selection using interval type-2 fuzzy analytic hierarchy process: The case study of Nigeria
Shin et al. Heterogeneous mixture distributions for modeling wind speed, application to the UAE
Ouyang et al. Modeling wind-turbine power curve: A data partitioning and mining approach
Pathak et al. A generalized linear threshold model for multiple cascades
Kar et al. Rain gauge network design for flood forecasting using multi-criteria decision analysis and clustering techniques in lower Mahanadi river basin, India
Gaitan et al. Comparison of statistically downscaled precipitation in terms of future climate indices and daily variability for southern Ontario and Quebec, Canada
Shahbazi et al. A novel regression imputation framework for Tehran air pollution monitoring network using outputs from WRF and CAMx models
Ropero et al. Discretizing environmental data for learning Bayesian-network classifiers
CN105741175A (zh) 一种对在线社交网络中账户进行关联的方法
CN105740245A (zh) 频繁项集挖掘方法
Weng et al. Graphical model for state estimation in electric power systems
CN102879677A (zh) 基于粗糙贝叶斯网络分类器的智能故障诊断方法
CN107704992A (zh) 输电线路雷击风险评估的方法及装置
KR20210019310A (ko) 확률분포에 기반한 가뭄 예측 방법 및 이를 위한 장치
Hong et al. Mid-and long-term runoff predictions by an improved phase-space reconstruction model
CN103412878B (zh) 基于领域知识地图社区结构的文档主题划分方法
CN102200981A (zh) 面向多层文本分类的特征选择方法和装置
CN110705045A (zh) 一种利用网络拓扑特性构建加权网络的链路预测方法
Sahraei et al. A novel hybrid GIS‐based multi‐criteria decision‐making approach for flood susceptibility analysis in large ungauged watersheds
Kim et al. Flood forecasting using neural computing techniques and conceptual class segregation
CN111445087A (zh) 基于极限学习机的洪水预测方法
CN103347028A (zh) 云架构下基于贝叶斯的对等网络信任度量模型
Becker et al. A probabilistic algorithm for vertex connectivity of graphs
Ghasemian et al. Application of a novel hybrid machine learning algorithm in shallow landslide susceptibility mapping in a mountainous area

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Wei Fang

Document name: Notification of Passing Preliminary Examination of the Application for Invention

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090114