CN104408096A - 一种基于信息瓶颈理论的社区探测方法 - Google Patents
一种基于信息瓶颈理论的社区探测方法 Download PDFInfo
- Publication number
- CN104408096A CN104408096A CN201410650940.5A CN201410650940A CN104408096A CN 104408096 A CN104408096 A CN 104408096A CN 201410650940 A CN201410650940 A CN 201410650940A CN 104408096 A CN104408096 A CN 104408096A
- Authority
- CN
- China
- Prior art keywords
- mrow
- cluster
- msub
- graph
- mfrac
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000005192 partition Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种基于信息瓶颈理论的社区探测方法,在聚类过程中,信息损失变化的趋势非常明显,但模块化曲线的变化趋势相对平缓,有时模块化曲线的最大值也不突出。但是,当簇数目较小时,信息损失曲线较快上升。通过分析信息损失曲线的拐点,可以确定最优的k值。由于采用信息瓶颈理论进行相似度的计算,避免了在传统聚类中随意选择相似度算法产生的主观误差,同时降低了时间复杂度,聚类的效率和准确率得到提高,且可以避免层次聚类容易导致的局部最优解,更适合处理目前的大规模数据集。
Description
技术领域
本申请属于计算机科学数据挖掘领域。
背景技术
目前,Web搜索引擎已经成为人们从Internet获取信息的首要工具。然而,即使最成功的Web搜索引擎仍在致力于提供高质量的检索结果,因为有大约50%的Web检索会话不能为用户找到满意的信息,所以如何快速、准确的找到用户需要的信息仍然是信息检索研究中的热点内容。
在相似的Web检索上下文中,总是存在着不同的用户群体,每个群体中的用户拥有相同的兴趣、需求、期望和动机去选择相似的信息。从这个角度出发,Web检索的过程不但是一种个人的活动,而且是一种集体协同的活动。社区中的用户根据自己的检索经验向别人进行推荐,提高用户检索的效率和准确率。
社区探测是图和网络研究中非常重要的内容。将网络中的节点进行分组,分组后组内的节点连接紧密,而组间的节点连接松散,借此有效揭示网络的功能和结构间的关系。从这个角度讲,社区探测和数据挖掘中的文本聚类技术非常相似。实际上,文本聚类算法已广泛应用于社区探测。
层次聚类是社区探测研究中最常用的聚类算法,其结果是一个树状图,用以表示簇及簇间关系。层次聚类对相似度算法十分依赖,因此对于文档相似度度量方法的选择至关重要,因为不同的方法很可能导致最终的聚类结果存在较大差别。但实际上,用于文档相似度计算的方法种类繁多,而对于如何选择合适的相似度算法进行聚类,并没有一个统一的规范。为避免因随意选择相似度算法而存在的主观误差,信息瓶颈理论在聚类研究中扮演了重要角色。但是,基于信息瓶颈理论的层次聚类算法存在两个缺点:⑴时间复杂度较高;⑵层次聚类的贪婪策略容易使之陷入局部最优解。
发明内容
基于以上缺陷,本申请提出一种基于信息瓶颈理论的社区探测方法,该方法采用划分式聚类,将网络中的n个节点分为k个簇,簇也叫社区,其中n,k为自然数,且2≤k<n,具体步骤如下:
(1)给定一个无向图G=(V,E),将该图转换成二部图B,转换规则为:①图G中的节点a对应图B中的两个节点ua和va;②图G中的边(a,b)对应图B中的两条边(ua,vb)和(ub,va),且这两条边的权重等于图G中边(a,b)的权重,即wab,其中G=(V,E)表示一个n个节点和m条边的无向图,m为自然数,V表示节点集合,E表示边集合,V={1,2,…,n},E={(a,b)|a,b∈V},wab表示边(a,b)的权重,a,b为自然数,1≤a≤n,1≤b≤n;转换后,得到关于该二部图的矩阵M,矩阵M的行对应节点(u1,u2,…,un),矩阵M的列对应节点(v1,v2,…,vn),矩阵M的元素mab对应边(ua,vb)的权重,即mab=wab,再对矩阵M的元素执行标准化,即mab=mab/w,其中w为矩阵M中所有元素之和;
(2)给定一个网络,划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇和所有节点组成的的簇P间信息损失为令簇Ci质心的特征向量为(Wi1,Wi2,…,Win),其中Wi1,Wi2,…,Win为质心向量的特征值;令簇P质心的特征向量为(W1,W2,…,Wn),当簇Ci和簇P合并时产生的信息损失 其中再给定一个网络,被划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇Ci和该簇内每个节点组成的簇{d}间的簇内信息损失为E和I的交点为k。
(3)网络被随机划分为k个簇,表示为C={C1,C2,…,Ck},依次选择每个节点d,将其从现有归属簇中选出,形成一个临时簇{d},计算{d}与现有每个簇的信息损失dis({d},Ci);将节点d合并到簇C’中,其中C'=argminv∈Cdis({d},v),执行该重新分配过程l次,l为自然数;
以上步骤共执行z次,每次选取不同的k个初始簇,评分函数S等于在聚类过程中所有信息损失之和,当S值最小时,选择此时对应的方案为最佳方案。
由于采用信息瓶颈理论进行相似度的计算,避免了在传统聚类中随意选择相似度算法产生的主观误差,同时降低了时间复杂度,聚类的效率和准确率得到提高,且可以避免层次聚类容易导致的局部最优解,更适合处理目前的大规模数据集。
附图说明
图1为单部网络变换成二部图网络示意图;
图2为DS1,DS2和DS3数据集上合并对象时产生的信息损失图;
图3为根据E和I两条曲线预测k值图。
具体实施方式
1.构建方法框架
将单部网络变换成二部图网络,根据该二部图网络得到一个关于节点信息的矩阵,据此在信息论的框架下探测社区。为了确定社区的个数,提供了一个k值预测功能。与层次化的聚类方法不同,本方法基于信息瓶颈理论,利用划分式聚类,经多次迭代产生用户社区。其中G=(V,E)表示一个n个节点和m条边的无向图,V表示节点集合,E表示边集合,V={1,2,…,n},E={(i,j)|i,j∈V},wij表示边(i,j)的权重,k表示社区的数目。
2.图的转换
本方法的第一步是将单部网络变换成二部图网络,之后可获得节点信息矩阵。给定一个无向图G=(V,E),该图可以转换成一个二部图B。转换规则如下:①图G中的节点a对应图B中的两个节点ua和va;②图G中的边(a,b)对应图B中的两条边(ua,vb)和(ub,va),且这两条边的权重等于图G中边(a,b)的权重,即wab。转换过程如图1所示。
上述转换过程之后,能够得到关于该二部图的矩阵M。矩阵M的行对应于二部图的左部,即节点(u1,u2,…,un),矩阵M的列对应于二部图的右部,即节点(v1,v2,…,vn)。矩阵M的元素mab对应于边(ua,vb)的权重,即mab=wab。为方便后续聚类过程,矩阵M的元素执行标准化,即mab=mab/w,其中w为矩阵M中所有元素之和。
3.k值预测
矩阵M为社区探测奠定了基础。在开始聚类过程之前,需要确定k值。已有研究表明,确定k值是一个非常关键的步骤,因为不准确的k值将使得社区探测的质量下降;然而,确定的k值在准确性上又往往难以保证。
许多方法选择模块化度量方法帮助确定最优的k值。尽管比较有效,但也存在一些弊端。比如对于小规模的数据,此类算法所产生的簇的质量难以符合预期。本发明考察了聚类过程中的信息损失变化,认为其变化趋势将有助于k值的确定。本发明构造了三个实验数据DS1,DS2和DS3,实验结果如图2所示。
从图2可以看出,在聚类过程中,信息损失变化的趋势非常明显,但模块化曲线的变化趋势相对平缓,有时模块化曲线的最大值也不突出。但是,当簇数目较小时,信息损失曲线较快上升。通过分析信息损失曲线的拐点,可以确定最优的k值。
以上实验表明,簇的数目引起的信息损失的变化非常明显。当k值变化时,信息损失变化明显,尤其是当k值接近最优的时候。该特点表明信息损失曲线对于分析k值十分合适。基于以上分析结论,提出了如下k值预测方法。首先介绍如下两个定义:
定义1簇间信息损失:给定一个网络,被划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇和所有节点组成的簇P间信息损失为
其中,令簇Ci质心的特征向量为(Wi1,Wi2,…,Win),其中Wi1,Wi2,…,Win为质心向量的特征值;令簇P质心的特征向量为(W1,W2,…,Wn),当簇Ci和簇P合并时产生的信息损失
其中,
定义2簇内信息损失:给定一个网络,被划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇Ci和该簇内每个节点组成的簇{d}间的簇内信息损失定义为:
当k=1时,E=0,因为此时只有一个簇,其特征与所有节点的特征一致。随着k值的增加,E值也逐渐增加。I的变化规律刚好相反。既然聚类过程的目标是最大化类间聚类,最小化类内距离,本发明通过寻找E和I两条曲线的交点确定最优的k值,如图3所示。
4.划分式聚类
本发明的方法从网络中所有节点的k个随机划分开始,即网络被随机划分为k个簇,表示为C={C1,C2,…,Ck}。划分式聚类的过程如下:
依次选择每个节点d,将其从现有归属簇中选出,形成一个临时簇{d},计算{d}与现有每个簇的信息损失dis({d},Ci)。将节点d合并到簇C’中,其中C'=argminv∈Cdis({d},v),执行该重新分配过程l次,l为自然数。
为避免算法陷入局部最优,需执行算法共z次,每次选取不同的k个初始簇。为了从z个解决方案中找到最优解,定义了一个评分函数S,S等于在聚类过程中所有信息损失之和。本发明选择z个解决方案中产生最小的S值的结果确定为最优解。
Claims (1)
1.一种基于信息瓶颈理论的社区探测方法,其特征在于,该方法采用划分式聚类,将网络中的n个节点分为k个簇,簇也叫社区,其中n,k为自然数,且2≤k<n,具体步骤如下:
(1)给定一个无向图G=(V,E),将该图转换成二部图B,转换规则为:
①图G中的节点a对应图B中的两个节点ua和va;
②图G中的边(a,b)对应图B中的两条边(ua,vb)和(ub,va),且这两条边的权重等于图G中边(a,b)的权重,即wab,其中G=(V,E)表示一个n个节点和m条边的无向图,m为自然数,V表示节点集合,E表示边集合,V={1,2,…,n},E={(a,b)|a,b∈V},wab表示边(a,b)的权重,a,b为自然数,1≤a≤n,1≤b≤n;
转换后,得到关于该二部图的矩阵M,矩阵M的行对应节点(u1,u2,…,un),矩阵M的列对应节点(v1,v2,…,vn),矩阵M的元素mab对应边(ua,vb)的权重,即mab=wab,再对矩阵M的元素执行标准化,即mab=mab/w,其中w为矩阵M中所有元素之和。
(2)给定一个网络,划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇和所有节点组成的簇P间信息损失为令簇Ci质心的特征向量为(Wi1,Wi2,…,Win),其中Wi1,Wi2,…,Win为质心向量的特征值;令簇P质心的特征向量为(W1,W2,…,Wn),当簇Ci和簇P合并时产生的信息损失 其中再给定一个网络,被划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇Ci和该簇内每个节点组成的簇{d}间的簇内信息损失为E和I的交点为k。
(3)网络被随机划分为k个簇,表示为C={C1,C2,…,Ck},依次选择每个节点d,将其从现有归属簇中选出,形成一个临时簇{d},计算{d}与现有每个簇的信息损失dis({d},Ci);将节点d合并到簇C’中,其中C'=argminv∈C dis({d},v),执行该重新分配过程l次,l为自然数;
以上步骤共执行z次,每次选取不同的k个初始簇,评分函数S等于在聚类过程中所有信息损失之和,当S值最小时,选择此时对应的方案为最佳方案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410650940.5A CN104408096B (zh) | 2014-11-17 | 2014-11-17 | 一种基于信息瓶颈理论和社区探测的网络信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410650940.5A CN104408096B (zh) | 2014-11-17 | 2014-11-17 | 一种基于信息瓶颈理论和社区探测的网络信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104408096A true CN104408096A (zh) | 2015-03-11 |
CN104408096B CN104408096B (zh) | 2017-01-25 |
Family
ID=52645727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410650940.5A Expired - Fee Related CN104408096B (zh) | 2014-11-17 | 2014-11-17 | 一种基于信息瓶颈理论和社区探测的网络信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104408096B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776600A (zh) * | 2015-11-19 | 2017-05-31 | 北京国双科技有限公司 | 文本聚类的方法及装置 |
CN108920676A (zh) * | 2018-07-09 | 2018-11-30 | 清华大学 | 一种处理图数据的方法及系统 |
CN110009365A (zh) * | 2019-01-23 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 非正常转移电子资产的用户群体检测方法、装置和设备 |
CN114900838A (zh) * | 2022-04-22 | 2022-08-12 | 苏州大学应用技术学院 | 基于时序图神经网络的网络信道瓶颈点检测及分配方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150335A (zh) * | 2013-01-25 | 2013-06-12 | 河南理工大学 | 一种基于联合聚类的煤矿舆情监测系统 |
CN104077279B (zh) * | 2013-03-25 | 2019-02-05 | 中兴通讯股份有限公司 | 一种并行社区发现方法和装置 |
-
2014
- 2014-11-17 CN CN201410650940.5A patent/CN104408096B/zh not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776600A (zh) * | 2015-11-19 | 2017-05-31 | 北京国双科技有限公司 | 文本聚类的方法及装置 |
CN108920676A (zh) * | 2018-07-09 | 2018-11-30 | 清华大学 | 一种处理图数据的方法及系统 |
CN110009365A (zh) * | 2019-01-23 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 非正常转移电子资产的用户群体检测方法、装置和设备 |
CN110009365B (zh) * | 2019-01-23 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 非正常转移电子资产的用户群体检测方法、装置和设备 |
CN114900838A (zh) * | 2022-04-22 | 2022-08-12 | 苏州大学应用技术学院 | 基于时序图神经网络的网络信道瓶颈点检测及分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104408096B (zh) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Talagala et al. | Meta-learning how to forecast time series | |
Greene et al. | Producing a unified graph representation from multiple social network views | |
Goloboff et al. | Phylogenetic morphometrics (II): algorithms for landmark optimization | |
CN104408096B (zh) | 一种基于信息瓶颈理论和社区探测的网络信息检索方法 | |
CN107291847A (zh) | 一种基于MapReduce的大规模数据分布式聚类处理方法 | |
CN108427756B (zh) | 基于同类用户模型的个性化查询词补全推荐方法和装置 | |
CN105117488B (zh) | 一种基于混合层次聚类的分布式存储rdf数据平衡分割方法 | |
CN106897262A (zh) | 一种文本分类方法和装置以及处理方法和装置 | |
CN107545033B (zh) | 一种基于表示学习的知识库实体分类的计算方法 | |
Pinto et al. | Trend detection in social networks using Hawkes processes | |
CN109033084B (zh) | 一种语义层次树构建方法以及装置 | |
CN104536979A (zh) | 主题模型的生成方法及装置、主题分布的获取方法及装置 | |
CN103246685B (zh) | 将对象实例的属性规则化为特征的方法和设备 | |
Wijayanto et al. | Implementation of multi-criteria collaborative filtering on cluster using Apache Spark | |
Zhang et al. | Common community structure in time-varying networks | |
CN104731811A (zh) | 一种面向大规模动态短文本的聚类信息演化分析方法 | |
CN109409522B (zh) | 一种基于集成学习的生物网络推理算法 | |
CN106844743B (zh) | 维吾尔语文本的情感分类方法及装置 | |
CN105447158A (zh) | 一种基于图的专利搜索日志中同义词集自动挖掘方法 | |
WO2015158224A1 (zh) | 消息推荐方法及装置 | |
Ashrafi Payaman et al. | Graph hybrid summarization | |
CN104794237A (zh) | 网页信息处理方法及装置 | |
CN105162648A (zh) | 基于骨干网络扩展的社团检测方法 | |
US20150356143A1 (en) | Generating a hint for a query | |
CN108197259B (zh) | 一种网络在线话题大数据检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170125 Termination date: 20211117 |