CN104408096A - 一种基于信息瓶颈理论的社区探测方法 - Google Patents

一种基于信息瓶颈理论的社区探测方法 Download PDF

Info

Publication number
CN104408096A
CN104408096A CN201410650940.5A CN201410650940A CN104408096A CN 104408096 A CN104408096 A CN 104408096A CN 201410650940 A CN201410650940 A CN 201410650940A CN 104408096 A CN104408096 A CN 104408096A
Authority
CN
China
Prior art keywords
mrow
cluster
msub
graph
mfrac
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410650940.5A
Other languages
English (en)
Other versions
CN104408096B (zh
Inventor
刘永利
侯占伟
乔应旭
孙江峰
王东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201410650940.5A priority Critical patent/CN104408096B/zh
Publication of CN104408096A publication Critical patent/CN104408096A/zh
Application granted granted Critical
Publication of CN104408096B publication Critical patent/CN104408096B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种基于信息瓶颈理论的社区探测方法,在聚类过程中,信息损失变化的趋势非常明显,但模块化曲线的变化趋势相对平缓,有时模块化曲线的最大值也不突出。但是,当簇数目较小时,信息损失曲线较快上升。通过分析信息损失曲线的拐点,可以确定最优的k值。由于采用信息瓶颈理论进行相似度的计算,避免了在传统聚类中随意选择相似度算法产生的主观误差,同时降低了时间复杂度,聚类的效率和准确率得到提高,且可以避免层次聚类容易导致的局部最优解,更适合处理目前的大规模数据集。

Description

一种基于信息瓶颈理论的社区探测方法
技术领域
本申请属于计算机科学数据挖掘领域。
背景技术
目前,Web搜索引擎已经成为人们从Internet获取信息的首要工具。然而,即使最成功的Web搜索引擎仍在致力于提供高质量的检索结果,因为有大约50%的Web检索会话不能为用户找到满意的信息,所以如何快速、准确的找到用户需要的信息仍然是信息检索研究中的热点内容。
在相似的Web检索上下文中,总是存在着不同的用户群体,每个群体中的用户拥有相同的兴趣、需求、期望和动机去选择相似的信息。从这个角度出发,Web检索的过程不但是一种个人的活动,而且是一种集体协同的活动。社区中的用户根据自己的检索经验向别人进行推荐,提高用户检索的效率和准确率。
社区探测是图和网络研究中非常重要的内容。将网络中的节点进行分组,分组后组内的节点连接紧密,而组间的节点连接松散,借此有效揭示网络的功能和结构间的关系。从这个角度讲,社区探测和数据挖掘中的文本聚类技术非常相似。实际上,文本聚类算法已广泛应用于社区探测。
层次聚类是社区探测研究中最常用的聚类算法,其结果是一个树状图,用以表示簇及簇间关系。层次聚类对相似度算法十分依赖,因此对于文档相似度度量方法的选择至关重要,因为不同的方法很可能导致最终的聚类结果存在较大差别。但实际上,用于文档相似度计算的方法种类繁多,而对于如何选择合适的相似度算法进行聚类,并没有一个统一的规范。为避免因随意选择相似度算法而存在的主观误差,信息瓶颈理论在聚类研究中扮演了重要角色。但是,基于信息瓶颈理论的层次聚类算法存在两个缺点:⑴时间复杂度较高;⑵层次聚类的贪婪策略容易使之陷入局部最优解。
发明内容
基于以上缺陷,本申请提出一种基于信息瓶颈理论的社区探测方法,该方法采用划分式聚类,将网络中的n个节点分为k个簇,簇也叫社区,其中n,k为自然数,且2≤k<n,具体步骤如下:
(1)给定一个无向图G=(V,E),将该图转换成二部图B,转换规则为:①图G中的节点a对应图B中的两个节点ua和va;②图G中的边(a,b)对应图B中的两条边(ua,vb)和(ub,va),且这两条边的权重等于图G中边(a,b)的权重,即wab,其中G=(V,E)表示一个n个节点和m条边的无向图,m为自然数,V表示节点集合,E表示边集合,V={1,2,…,n},E={(a,b)|a,b∈V},wab表示边(a,b)的权重,a,b为自然数,1≤a≤n,1≤b≤n;转换后,得到关于该二部图的矩阵M,矩阵M的行对应节点(u1,u2,…,un),矩阵M的列对应节点(v1,v2,…,vn),矩阵M的元素mab对应边(ua,vb)的权重,即mab=wab,再对矩阵M的元素执行标准化,即mab=mab/w,其中w为矩阵M中所有元素之和;
(2)给定一个网络,划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇和所有节点组成的的簇P间信息损失为令簇Ci质心的特征向量为(Wi1,Wi2,…,Win),其中Wi1,Wi2,…,Win为质心向量的特征值;令簇P质心的特征向量为(W1,W2,…,Wn),当簇Ci和簇P合并时产生的信息损失 dis ( C i , P ) = | C i | n Σ t = 1 n W it log W it W t ′ + | C | n Σ t = 1 n W t log W t W t ′ , 其中再给定一个网络,被划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇Ci和该簇内每个节点组成的簇{d}间的簇内信息损失为E和I的交点为k。
(3)网络被随机划分为k个簇,表示为C={C1,C2,…,Ck},依次选择每个节点d,将其从现有归属簇中选出,形成一个临时簇{d},计算{d}与现有每个簇的信息损失dis({d},Ci);将节点d合并到簇C’中,其中C'=argminv∈Cdis({d},v),执行该重新分配过程l次,l为自然数;
以上步骤共执行z次,每次选取不同的k个初始簇,评分函数S等于在聚类过程中所有信息损失之和,当S值最小时,选择此时对应的方案为最佳方案。
由于采用信息瓶颈理论进行相似度的计算,避免了在传统聚类中随意选择相似度算法产生的主观误差,同时降低了时间复杂度,聚类的效率和准确率得到提高,且可以避免层次聚类容易导致的局部最优解,更适合处理目前的大规模数据集。
附图说明
图1为单部网络变换成二部图网络示意图;
图2为DS1,DS2和DS3数据集上合并对象时产生的信息损失图;
图3为根据E和I两条曲线预测k值图。
具体实施方式
1.构建方法框架
将单部网络变换成二部图网络,根据该二部图网络得到一个关于节点信息的矩阵,据此在信息论的框架下探测社区。为了确定社区的个数,提供了一个k值预测功能。与层次化的聚类方法不同,本方法基于信息瓶颈理论,利用划分式聚类,经多次迭代产生用户社区。其中G=(V,E)表示一个n个节点和m条边的无向图,V表示节点集合,E表示边集合,V={1,2,…,n},E={(i,j)|i,j∈V},wij表示边(i,j)的权重,k表示社区的数目。
2.图的转换
本方法的第一步是将单部网络变换成二部图网络,之后可获得节点信息矩阵。给定一个无向图G=(V,E),该图可以转换成一个二部图B。转换规则如下:①图G中的节点a对应图B中的两个节点ua和va;②图G中的边(a,b)对应图B中的两条边(ua,vb)和(ub,va),且这两条边的权重等于图G中边(a,b)的权重,即wab。转换过程如图1所示。
上述转换过程之后,能够得到关于该二部图的矩阵M。矩阵M的行对应于二部图的左部,即节点(u1,u2,…,un),矩阵M的列对应于二部图的右部,即节点(v1,v2,…,vn)。矩阵M的元素mab对应于边(ua,vb)的权重,即mab=wab。为方便后续聚类过程,矩阵M的元素执行标准化,即mab=mab/w,其中w为矩阵M中所有元素之和。
3.k值预测
矩阵M为社区探测奠定了基础。在开始聚类过程之前,需要确定k值。已有研究表明,确定k值是一个非常关键的步骤,因为不准确的k值将使得社区探测的质量下降;然而,确定的k值在准确性上又往往难以保证。
许多方法选择模块化度量方法帮助确定最优的k值。尽管比较有效,但也存在一些弊端。比如对于小规模的数据,此类算法所产生的簇的质量难以符合预期。本发明考察了聚类过程中的信息损失变化,认为其变化趋势将有助于k值的确定。本发明构造了三个实验数据DS1,DS2和DS3,实验结果如图2所示。
从图2可以看出,在聚类过程中,信息损失变化的趋势非常明显,但模块化曲线的变化趋势相对平缓,有时模块化曲线的最大值也不突出。但是,当簇数目较小时,信息损失曲线较快上升。通过分析信息损失曲线的拐点,可以确定最优的k值。
以上实验表明,簇的数目引起的信息损失的变化非常明显。当k值变化时,信息损失变化明显,尤其是当k值接近最优的时候。该特点表明信息损失曲线对于分析k值十分合适。基于以上分析结论,提出了如下k值预测方法。首先介绍如下两个定义:
定义1簇间信息损失:给定一个网络,被划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇和所有节点组成的簇P间信息损失为
E = Σ i = 1 k dis ( C i , P ) ,
其中,令簇Ci质心的特征向量为(Wi1,Wi2,…,Win),其中Wi1,Wi2,…,Win为质心向量的特征值;令簇P质心的特征向量为(W1,W2,…,Wn),当簇Ci和簇P合并时产生的信息损失
dis ( C i , P ) = | C i | n Σ t = 1 n W it log W it W t ′ + | C | n Σ t = 1 n W t log W t W t ′ ,
其中,
定义2簇内信息损失:给定一个网络,被划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇Ci和该簇内每个节点组成的簇{d}间的簇内信息损失定义为:
I = Σ i = 1 k Σ d ∈ C i dis ( { d } , C i ) .
当k=1时,E=0,因为此时只有一个簇,其特征与所有节点的特征一致。随着k值的增加,E值也逐渐增加。I的变化规律刚好相反。既然聚类过程的目标是最大化类间聚类,最小化类内距离,本发明通过寻找E和I两条曲线的交点确定最优的k值,如图3所示。
4.划分式聚类
本发明的方法从网络中所有节点的k个随机划分开始,即网络被随机划分为k个簇,表示为C={C1,C2,…,Ck}。划分式聚类的过程如下:
依次选择每个节点d,将其从现有归属簇中选出,形成一个临时簇{d},计算{d}与现有每个簇的信息损失dis({d},Ci)。将节点d合并到簇C’中,其中C'=argminv∈Cdis({d},v),执行该重新分配过程l次,l为自然数。
为避免算法陷入局部最优,需执行算法共z次,每次选取不同的k个初始簇。为了从z个解决方案中找到最优解,定义了一个评分函数S,S等于在聚类过程中所有信息损失之和。本发明选择z个解决方案中产生最小的S值的结果确定为最优解。

Claims (1)

1.一种基于信息瓶颈理论的社区探测方法,其特征在于,该方法采用划分式聚类,将网络中的n个节点分为k个簇,簇也叫社区,其中n,k为自然数,且2≤k<n,具体步骤如下:
(1)给定一个无向图G=(V,E),将该图转换成二部图B,转换规则为:
①图G中的节点a对应图B中的两个节点ua和va
②图G中的边(a,b)对应图B中的两条边(ua,vb)和(ub,va),且这两条边的权重等于图G中边(a,b)的权重,即wab,其中G=(V,E)表示一个n个节点和m条边的无向图,m为自然数,V表示节点集合,E表示边集合,V={1,2,…,n},E={(a,b)|a,b∈V},wab表示边(a,b)的权重,a,b为自然数,1≤a≤n,1≤b≤n;
转换后,得到关于该二部图的矩阵M,矩阵M的行对应节点(u1,u2,…,un),矩阵M的列对应节点(v1,v2,…,vn),矩阵M的元素mab对应边(ua,vb)的权重,即mab=wab,再对矩阵M的元素执行标准化,即mab=mab/w,其中w为矩阵M中所有元素之和。
(2)给定一个网络,划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇和所有节点组成的簇P间信息损失为令簇Ci质心的特征向量为(Wi1,Wi2,…,Win),其中Wi1,Wi2,…,Win为质心向量的特征值;令簇P质心的特征向量为(W1,W2,…,Wn),当簇Ci和簇P合并时产生的信息损失 dis ( C i , P ) = | C i | n Σ t = 1 n W it log W it W t ′ + | C | n Σ t = 1 n W t log W t W t ′ , 其中再给定一个网络,被划分为k个簇,其集合为C={C1,C2,…,Ck},每个簇Ci和该簇内每个节点组成的簇{d}间的簇内信息损失为E和I的交点为k。
(3)网络被随机划分为k个簇,表示为C={C1,C2,…,Ck},依次选择每个节点d,将其从现有归属簇中选出,形成一个临时簇{d},计算{d}与现有每个簇的信息损失dis({d},Ci);将节点d合并到簇C’中,其中C'=argminv∈C dis({d},v),执行该重新分配过程l次,l为自然数;
以上步骤共执行z次,每次选取不同的k个初始簇,评分函数S等于在聚类过程中所有信息损失之和,当S值最小时,选择此时对应的方案为最佳方案。
CN201410650940.5A 2014-11-17 2014-11-17 一种基于信息瓶颈理论和社区探测的网络信息检索方法 Expired - Fee Related CN104408096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410650940.5A CN104408096B (zh) 2014-11-17 2014-11-17 一种基于信息瓶颈理论和社区探测的网络信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410650940.5A CN104408096B (zh) 2014-11-17 2014-11-17 一种基于信息瓶颈理论和社区探测的网络信息检索方法

Publications (2)

Publication Number Publication Date
CN104408096A true CN104408096A (zh) 2015-03-11
CN104408096B CN104408096B (zh) 2017-01-25

Family

ID=52645727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410650940.5A Expired - Fee Related CN104408096B (zh) 2014-11-17 2014-11-17 一种基于信息瓶颈理论和社区探测的网络信息检索方法

Country Status (1)

Country Link
CN (1) CN104408096B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776600A (zh) * 2015-11-19 2017-05-31 北京国双科技有限公司 文本聚类的方法及装置
CN108920676A (zh) * 2018-07-09 2018-11-30 清华大学 一种处理图数据的方法及系统
CN110009365A (zh) * 2019-01-23 2019-07-12 腾讯科技(深圳)有限公司 非正常转移电子资产的用户群体检测方法、装置和设备
CN114900838A (zh) * 2022-04-22 2022-08-12 苏州大学应用技术学院 基于时序图神经网络的网络信道瓶颈点检测及分配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150335A (zh) * 2013-01-25 2013-06-12 河南理工大学 一种基于联合聚类的煤矿舆情监测系统
CN104077279B (zh) * 2013-03-25 2019-02-05 中兴通讯股份有限公司 一种并行社区发现方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776600A (zh) * 2015-11-19 2017-05-31 北京国双科技有限公司 文本聚类的方法及装置
CN108920676A (zh) * 2018-07-09 2018-11-30 清华大学 一种处理图数据的方法及系统
CN110009365A (zh) * 2019-01-23 2019-07-12 腾讯科技(深圳)有限公司 非正常转移电子资产的用户群体检测方法、装置和设备
CN110009365B (zh) * 2019-01-23 2021-07-06 腾讯科技(深圳)有限公司 非正常转移电子资产的用户群体检测方法、装置和设备
CN114900838A (zh) * 2022-04-22 2022-08-12 苏州大学应用技术学院 基于时序图神经网络的网络信道瓶颈点检测及分配方法

Also Published As

Publication number Publication date
CN104408096B (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
Talagala et al. Meta-learning how to forecast time series
Greene et al. Producing a unified graph representation from multiple social network views
Goloboff et al. Phylogenetic morphometrics (II): algorithms for landmark optimization
CN104408096B (zh) 一种基于信息瓶颈理论和社区探测的网络信息检索方法
CN107291847A (zh) 一种基于MapReduce的大规模数据分布式聚类处理方法
CN108427756B (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
CN105117488B (zh) 一种基于混合层次聚类的分布式存储rdf数据平衡分割方法
CN106897262A (zh) 一种文本分类方法和装置以及处理方法和装置
CN107545033B (zh) 一种基于表示学习的知识库实体分类的计算方法
Pinto et al. Trend detection in social networks using Hawkes processes
CN109033084B (zh) 一种语义层次树构建方法以及装置
CN104536979A (zh) 主题模型的生成方法及装置、主题分布的获取方法及装置
CN103246685B (zh) 将对象实例的属性规则化为特征的方法和设备
Wijayanto et al. Implementation of multi-criteria collaborative filtering on cluster using Apache Spark
Zhang et al. Common community structure in time-varying networks
CN104731811A (zh) 一种面向大规模动态短文本的聚类信息演化分析方法
CN109409522B (zh) 一种基于集成学习的生物网络推理算法
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
CN105447158A (zh) 一种基于图的专利搜索日志中同义词集自动挖掘方法
WO2015158224A1 (zh) 消息推荐方法及装置
Ashrafi Payaman et al. Graph hybrid summarization
CN104794237A (zh) 网页信息处理方法及装置
CN105162648A (zh) 基于骨干网络扩展的社团检测方法
US20150356143A1 (en) Generating a hint for a query
CN108197259B (zh) 一种网络在线话题大数据检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170125

Termination date: 20211117