CN102831219B - 一种应用于社区发现的可覆盖聚类方法 - Google Patents
一种应用于社区发现的可覆盖聚类方法 Download PDFInfo
- Publication number
- CN102831219B CN102831219B CN201210300460.7A CN201210300460A CN102831219B CN 102831219 B CN102831219 B CN 102831219B CN 201210300460 A CN201210300460 A CN 201210300460A CN 102831219 B CN102831219 B CN 102831219B
- Authority
- CN
- China
- Prior art keywords
- user
- candidate
- subgraph
- attribute
- sigma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种应用于社区发现的可覆盖聚类方法,在得到原始数据之后,将其转化为“用户—属性图”,它的基本单元是“用户—属性对”。在初始化“用户—属性图”之后,首先对其中的“用户—属性对”进行初步的分类,每一个类即为一个候选子图。其次,计算出每个候选子图的发生概率;同时计算出每个用户和各个候选子图之间的相关性。之后,建立概率统计模型,计算每个“用户—属性对”和候选子图之间的相关性。最后,根据数据环境中的这些候选子图的建立,对于数据中的各个“用户—属性图”对进行合理的分类,发现拥有多种属性的关键用户。本发明用于同时处理内容性数据和相关性数据,更好的适应真实网络环境中的社区发现需求。
Description
技术领域
本发明属于网络信息技术领域,特别地涉及一种应用于社区发现基于内容性数据和相关性数据的可覆盖聚类方法。
背景技术
随着互联网技术的发展,各种新型的网络应用层出不穷,日益丰富了网络用户的虚拟社交行为。进而,互联网和用户之间早已不是像信息发布端和信息接收端这种简单而直接的关系,互联网已构成了向用户提供生产生活的密不可分的另一个世界——“虚拟社会网络”,并且用户也更加积极和主动地融入进这个新的社会平台中。比如,用户会提出自己特定的观点,用户会自发形成讨论组,而网络公司则针对用户群体进行差异化的营销。为了能有效和深入地研究虚拟社会网络这一新型的互联网的表现形式,大量的研究者们对于网络中的“社区发现”这一问题进行了大量的工作。“社区发现”这一名词中的社区指的是网络中具有相同行为特性的用户的集合,从微观上来看集合内的用户之间,相比于集合外存在大量的信息交互、行为合作;而从宏观上来看,集合往往自身具有相似的兴趣倾向,并对社会事件有相似的观点或理解。于是,“社区发现”具体是指通过科学的数学建模和高效的大规模计算方法从社会网络中找出大量的潜在的社区或社区结构,即为用户形成的类。“社区发现”有着广泛的社会应用,比如发现不同的用户群体进而实现差别化的广告投放,或是依照用户所在社区的不同特点对用户进行相应不同的信用评分。
传统的社区发现方法,大多假设网络中的每一个用户只能属于单一的社区;或者认为每个用户在网络中地位或作用是平等的。因此,发展一种新型的契合目前复杂数据环境的聚类方法迫在眉睫。目前发展的可覆盖的社区发现方法,其重视网络中的核心用户的作用,认为这些核心用户可以从属于多个社区。于是,这种可覆盖的社区发现方法就很好的突破传统方法的局限性,并且可以更有效地展示出社会网络潜在的社区结构。
但目前的可覆盖社区发现方法或聚类方法,存在以下问题:(1)目前的可覆盖社区发现方法或聚类方法的数据应用环境单一,只能处理内容性数据或只能处理相关性数据。(2)一般来说,传统社区发现方法只是仅仅将网络中的用户作为社会网络中的主体,这就潜在的造成了平等的对待每个用户这一假定,因为这时每个用户的权重值都相等。
发明内容
为解决上述问题,本发明的目的在于提供一种应用于社区发现的可覆盖聚类方法,用于同时处理内容性数据和相关性数据,更好的适应真实网络环境中的社区发现需求。
为实现上述目的,本发明的技术方案为:
一种应用于社区发现的可覆盖聚类方法,包括以下步骤:
步骤1,给出所需要的数据输入,具体包括以下子步骤,
步骤11,设立数据环境中的用户集合为U={u1,u2,u3,……uN},一共有N个;设立数据环境中的属性集合为A={a1,a2,a3,……aM},一共有M个;用ui→aj代表第i个用户拥有第j个属性;
步骤12,用属性矩阵E代表用户和属性之间的关系,即为内容性数据,在数据环境中,定义E∈RN×M,eij∈{0,1},1≤i≤N,1≤j≤M,当eij=1时,表示第i个用户拥有第j个属性,eij=0时,表示第i个用户不拥有第j个属性;
步骤13,用邻接矩阵W来代表用户和用户之间的关系,即为相关性数据,在数据环境中,定义W∈RN×N,Wij≥0,1≤i≤N,1≤j≤N,wij的大小代表了第i个用户和第j个用户之间的关系紧密度;
步骤2,建立候选子图,分为以下子步骤,
步骤21,建立“用户—属性图”,“用户—属性图”是建立同时具有内容性数据和相关性数据基础上的数据结构,按照所述步骤1的定义可以表示为G=(U,A,W,E),其中U是数据环境中用户的集合,A是数据环境中属性的集合,W代表了用户和用户之间的相关性的度量,而E代表了用户和属性之间的关联性质,
步骤22,在给出所述“用户—属性图”的基础上,一系列候选子图被定义为Si=(Ui,Ai,Wi,Ei),其中i∈{1,2,…,L},每一个候选子图实际上为“用户—属性图”的部分结构,并且所有的候选子图的用户的总和即是原有数据环境中的所有用户总和;各个候选子图不会占有同一个用户;
步骤3,评估候选子图,建立起测量用户或属性和这些候选子图之间相关性的准则,
步骤31,度量属性和候选子图之间的相关性
在上式中r(ai|Sl)是一种度量属性和候选子图之间相关性的核心技术;
具体定义r(ai|Sl)为,
在上式中,ml是Wl内所有元素的权重之和;dt和dg分别代表用户ut和用户ug的度数,为了更清晰明了的表达上式的含义,将其转化为下面的描述,
上式中,Ul ai代表在第l个候选子图中,所有拥有属性ai的用户的集合;Cut(A,B)代表集合A和集合B之间所有连接关系权重的总和。
t是一个门限参数,它是由所有属性与候选子图做相关性测量后,再取均值所得到的;H是一个归一化参数;λa是一个控制参数,而pa是一较小的正常数,如果属性和该候选子图的相关性较高,那么该属性从属于该子图的概率也就很高,并和相关性成指数关系,反之该属性从属的概率就很小,并取一个很小的正常数p;
步骤32,度量用户和候选子图的相关性
采用一种马尔科夫随机场的变形来测量用户和候选子图之间的相关性,具体的测量准则如下所示:
公式4
上中H是一个归一化参数,N(i)是用户ui所有邻居用户的集合;λn是一个控制参数,而pn是一个正常数;
步骤33,度量”用户—属性对”和候选子图的相关性
在分别定义好属性和用户与候选子图的相关性之后,建立起度量”用户—属性对”和候选子图之间的相关性,具体如下所示:
p(ui→aj|Sl)∝p(ui|Sl)p(aj|Sl)公式5
步骤4,可覆盖社区发现
步骤41,通过建立概率统计模型来求解具有可覆盖性的社区,先假设用户和属性是已知的变量,而候选子图是隐藏的变量s={sl}L l=1,因此,每一个”用户—属性对”可以在概率上从属于多个候选子图,于是可以用下面的公式来描述”用户—属性对”,
上式中的πl代表了第l候选子图的权重。
步骤42,采用EM算法来最大化似然函数p(E|π),于是基于完整数据集{E,S},其中E表示包含所有eij的集合,S表示包含所有sl的集合,定义似然函数如下:
在上式中,sijl代表sij的第l个成分,为了方便推导公式,将上式转移成log形式,
(3)给出了基于EM算法的公式推导。
E步:
对于候选子图的后验概率推导,可以由下式表达:
之后,求取sijl的期望值,具体的推导如下:
在上式中,p(eij|sl=1)可以由公式3计算得出,而γ(sijl)则是代表一种可信度的概念,
M步:
在M步中,将要推导模型的相关参数,首先来看模型参数πnew,
上式是模型参数的求解公式,其中πnew表示的是下一次迭代中的参数π,而πold表示的是当前迭代中的参数π。为了求解出模型参数,采用了拉格朗日乘子法,具体如下:
上式中λ为拉格朗日乘子
不同于一般的概率统计模型,本发明并不直接使用p(S|E)去重新确立一系列候选子图;实际上,采用p(S|U)去重新确立候选子图,即根据用户相对于候选子图的归属,并以此来重新建立候选子图,
具体而言,本发明中使用向量{p(sl=1|ui)}l=1,2,..,L来表征用户ui然后使用这种信息对所有的用户做聚类处理,并得到新的一系列候选子图,在新的候选子图的基础上,EM算法进行下一次的迭代运算,最终就可以得到稳定而可信的L个候选子图,最后,对”用户—属性对”的聚类分析,必然会有一部分拥有多个”用户—属性对”的用户从属于多个不同的类,即具有可覆盖性的社区发现的完成。
本发明实施例所提出的可覆盖聚类方法,相比于目前的可覆盖或聚类方法,具有以下有益效果:
(1)本发明提出的方法可以同时处理内容性数据和相关性数据。并且,目前的网络数据往往是同时拥有这两种数据,因而本发明提出的方法很好的切合了实际的应用环境。
(2)本发明提出的方法定义了一种用户结构的概念,即“候选子图”。“候选子图”的建立借鉴了社区模度测量(Modularity)和马尔可夫随机场(MarkovRandomField)的概念,其中以上两种概念都是由真实社会网络分析、提炼得来的,使得本发明的提出的方法更加切合真实的社会网络的内在结构。
(3)本发明提出的方法将“网络行为”作为了社会网络中的主体。这里的网络行为指的是”用户—属性对”,即行为是由用户和用户拥有的属性两部分组成的。然而,将网络行为作为主体,就使得在网络中那些关键用户或核心用户权重变高。因为通常这些用户相比于普通用户会产生更多的行为,即拥有更多的属性,本发明的方法很好的考虑到了网络中用户之间存在差异性这一重要特性。
附图说明
图1为本发明实施例的应用于社区发现的可覆盖聚类方法的流程图;
图2为本发明实施例的应用于社区发现的可覆盖聚类方法的用户—属性图的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,所示为本发明实施例的应用于社区发现的可覆盖聚类方法的流程图,包括以下步骤:
S1,给出所需要的数据输入,具体包括以下子步骤,
S11,设立数据环境中的用户集合为U={u1,u2,u3,……uN},一共有N个;设立数据环境中的属性集合为A={a1,a2,a3,……aM},一共有M个;用ui→aj代表第i个用户拥有第j个属性;
S12,用属性矩阵E代表用户和属性之间的关系,即为内容性数据,在数据环境中,定义E∈RN×M,eij∈{0,1},1≤i≤N,1≤j≤M,当eij=1时,表示第i个用户拥有第j个属性,eij=0时,表示第i个用户不拥有第j个属性;
S13,用邻接矩阵W来代表用户和用户之间的关系,即为相关性数据,在数据环境中,定义W∈RN×N,Wij≥0,1≤i≤N,1≤j≤N,wij的大小代表了第i个用户和第j个用户之间的关系紧密度,数值越大,代表两者之间的相关性越高。
S2,建立候选子图,分为以下子步骤,
根据以上的数据输入,就可以在原有的数据基础上,先定义出一种“用户—属性图”的概念。这种概念的建立有助于理解原始数据内在结构和后续方法设计。
S21,下面,给出“用户—属性图”的具体定义:
【用户—属性图】:一个“用户—属性图”是建立同时具有内容性数据和相关性数据基础上的数据结构,可以表示为G=(U,A,W,E)。
其中U是数据环境中用户的集合,A是数据环境中属性的集合,W代表了用户和用户之间的相关性的度量,而E代表了用户和属性之间的关联性质。特别的,可以把E中值为1的元素看作是一种连接用户和属性之间实际存在的边的关系。
参见图2是“用户—属性图”的一个简单示例。在上图中,可以清楚的观察到连接用户和属性之间的边被看成了数据的主体。建立“用户—属性图”的优点可以由一个的小例子说明。从图中可以看出,和u4相连的既有红色的边,又有蓝色的边。而且从上图的结构中可以看出,(u1—u4)和(u4—u7)都有很大的可能形成数据类。于是从传统的聚类方法来看,无论是硬聚类方法或是软聚类方法,都无法同时将u4这个用户分配给上述的两个数据类。但是借助“用户—属性”边的定义,将红色的边分为一类,而将蓝色的边分为另外一类,就可以很到的解决这个问题,即这时u4可以同时属于两个数据类,当然这也是因为该用户本身就拥有了两种不同的属性。
下面将要定义候选子图的概念,这个概念的主要作用是有效的理解数据中的内在结构;从另一方面上说,这个概念对后续提出的概率统计模型中的隐藏变量作了铺陈性说明。
S22,【候选子图】:在给出上述的“用户—属性图”的基础上,一系列候选子图被定义为Si=(Ui,Ai,Wi,Ei,),其中i∈{1,2,…,L}。每一个候选子图实际上为“用户—属性图”的部分结构。并且所有的候选子图的用户的总和即是原有数据环境中的所有用户总和;各个候选子图不会占有同一个用户,也就是说不会存在某个数据中的用户同时归属于多个候选子图。Ai则是相应的Ui所用的所有属性的集合,Wi则是相应的Ui集合中的各个用户之间所形成的相关性信息,Ei则是连接Ui和Ai之间的“用户—属性”信息。另一方面,也假设在一个候选子图中,用户之间的相关性非常紧密;同时,在这此候选子图中,应该存在部分占优属性,这些属性通常可以代表该候选子图内大部分用户的特征。
S3,评估候选子图
本节的主要任务是在已知候选子图的基础上,建立起测量用户或属性和这些候选子图之间相关性的准则。建立这种准则的优点在于:第一,通过建立起用户或属性和候选子图之间的关系,就可以准确地理解该候选子图的实际特点。第二,在知道候选子图的实际特点后,就可以对这些候选子图做出相应的调整。
S31,度量属性和候选子图的相关性:
在上式中tl是一个门限参数,它是由所有属性与候选子图做相关性测量后,再取均值所得到的;Hi是一个归一化参数;λa是一个控制参数,而pa是一个正常数。具体的说,如果属性和该候选子图的相关性较高,那么该属性从属于该子图的概率也就很高,并和相关性成指数关系,反之该属性从属的概率就很小,并取一个很小的正常数pa。
S32,度量用户和候选子图的相关性
本节,采用一种马尔科夫随机场的变形来测量用户和候选子图之间的相关性。具体的测量准则如下所示:
公式2
上中H是一个归一化参数,N(i)是用户ui所有邻居用户的集合;λ是一个控制参数,而pn是一个正常数。从上式中,可以看出如果一个用户,其邻居用户大多属于某个候选子图,那么他也属于该候选子图的概率就会特别高,反之则亦然。特别的是,如果某个用户没有邻居用户,那么上述的测量值就取以一个极小的正常数p。
S33,度量”用户—属性对”和候选子图的相关性
在分别定义好属性和用户与候选子图的相关性之后,建立起度量”用户—属性对”和候选子图之间的相关性,即在用户属性图的概念下,每一条边或行为从属于候选子图的概率。具体如下所示:
p(ui→aj|Sl)∝p(ui|Sl)p(aj|Sl)公式3
S4,可覆盖社区发现
在本节中,将通过建立概率统计模型来求解具有可覆盖性的社区。先假设用户和属性是已知的变量,而候选子图是隐藏变量s={sl}L l=1。因此,每一个”fi户—属性对”可以在概率上从属于多个候选子图。于是可以用下面的公式来描述”用户—属性对”。
上式中的π代表了每个候选子图的权重。
之后采用EM算法来最大化似然函数p(E|π)基于π。于是基于完整数据集{E,S},我们定义似然函数如下:
在上式中,sijl指示“用户i—属性j对”是否从属于第l个候选子图,具体为sijl=1指示属于,sijl=0指示为不属于;之后为了方便推导公式,我们将上式转移成log形式。
随后,本节具体给出了基于EM算法的公式推导。
E步:
对于隐藏变量(候选子图)的后验概率推导,可以由下式表达:
之后,求取sijl的期望值,具体的推导如下:
在上式中,p(eij|sl=1)可以由公式3计算得出。而γ(sijl)则是代表一种可信度,即“用户i—属性j对”从属于第l个候选子图的可信度。
M步:
在M步中,将要推导模型的相关参数。首先来看模型参数πnew。
上式是模型参数的求解公式,其中πnew表示的是下一次迭代中的参数π,而πold表示的是当前迭代中的参数π。。为了求解出模型参数,采用了拉格朗日乘子法,具体如下:
不同于一般的概率统计模型,本发明并不直接使用p(S|E)去重新确立一系列候选子图;实际上,采用p(S|U)去重新确立候选子图,即根据用户相对于候选子图的归属,并以此来重新建立候选子图。
具体而言,本发明中使用向量{p(sl=1|ui)}L l=1来表征用户ui,然后使用这种信息对所有的用户做聚类处理,并得到新的一系列候选子图。在新的候选子图的基础上,EM算法进行下一次的迭代运算。最终就可以得到稳定而可信的L个候选子图。
在得到候选子图之后,将对所有的”用户—属性对”基于它们和候选子图之间的归属关系,进行聚类处理(距离函数选为cosine测量)。最后,对”用户—属性对”(社会网络中的行为信息)的聚类分析,必然会有一部分拥有多个”用户—属性对”的用户从属于多个不同的类,即具有可覆盖性的社区发现的完成。
在步骤31之前可以进一步包括以下步骤:
首先建立起属性和候选子图之间的度量关系,
在上式中,ml是Wl内所有元素的权重之和;dt和dg分别代表用户ut和用户ug的度数。这种定义的提出是受到了“modularitymeasure”的启发。并且,如果一个属性在一个候选子图内是一个占优属性,那么该候选子图内所有拥有这种属性的节点,他们所形成的网络结构应该具有较高的“modularity”的值。为了更清晰明了的表达上式的含义,我们将其转化为下面的描述。
上式中,Ul ai代表在第l个候选子图中,所有拥有属性ai的用户的集合;Cut(A,B)代表集合A和集合B之间所有连接关系权重的总和。为了考虑到实际的数据环境情况和简化计算,对占优属性做了一定的限制,进而,测量属性和这些候选子图之间相关性的准则,得到公式1。
综上所述,本发明实施例首先在得到原始数据之后,将其转化为“用户—属性图”。然后预先设定候选子图的数目L以及之后要发现的社区数目K。在初始化候选子图之后,对“用户—属性图”中的行为进行初步的分类,一般是随机分配这些”用户—属性对”至各个候选子图。其次,计算出每个候选子图的占优属性,也可以视为计算每种属性和各个候选子图之间的相关性;同时计算出每个用户和各个候选子图之间的相关性。之后,建立概率统计模型,计算每个”用户—属性对”和候选子图之间的相关性,即方法的E-step步;在E-step步后,计算方法的M-step步,得到每个候选子图的权重和每个用户和各个候选子图的相关性。在得到用户和候选子图的相关性后,方法以此对候选子图进行迭代构造。方法中的循环结构,一直运行到可以得到稳定而有效的候选子图结构为止。最后,根据数据环境中的这些候选子图的建立,对于数据中的各个”用户—属性对”进行合理的分类;相应的就会发现一些拥有多种属性的关键用户,自然地可覆盖的聚类发现也就完成,即方法的最后一步。
通过以上技术方案,本发明实施例在同时基于内容性数据和相关性数据的基础上发展了一种具有可覆盖性的社区发现方法。本发明可以同时和有效地利用两种不同模态的信息,即内容性数据和相关性数据完成社区发现这一用户,并且提出的方法不需要任何的方法训练过程。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种应用于社区发现的可覆盖聚类方法,其特征在于,包括以下步骤:
步骤1,给出所需要的数据输入,具体包括以下子步骤,
步骤11,设立数据环境中的用户集合为U={u1,u2,u3,……uN},一共有N个;设立数据环境中的属性集合为A={a1,a2,a3,……aM},一共有M个;用ui→aj代表第i个用户拥有第j个属性;
步骤12,用属性矩阵E代表用户和属性之间的关系,即为内容性数据,在数据环境中,定义E∈RN×M,eij∈{0,1},1≤i≤N,1≤j≤M,当eij=1时,表示第i个用户拥有第j个属性,eij=0时,表示第i个用户不拥有第j个属性;
步骤13,用邻接矩阵W来代表用户和用户之间的关系,即为相关性数据,在数据环境中,定义W∈RN×N,Wij≥0,1≤i≤N,1≤j≤N,wij的大小代表了第i个用户和第j个用户之间的关系紧密度;
步骤2,建立候选子图,分为以下子步骤,
步骤21,建立“用户—属性图”,“用户—属性图”是建立同时具有内容性数据和相关性数据基础上的数据结构,按照所述步骤1的定义可以表示为G=(U,A,W,E),其中U是数据环境中用户的集合,A是数据环境中属性的集合,W代表了用户和用户之间的相关性的度量,而E代表了用户和属性之间的关联性质,
步骤22,在给出所述“用户—属性图”的基础上,一系列候选子图被定义为Sl=(Ul,Al,Wl,El),其中l∈{1,2,…,L},每一个候选子图实际上为“用户—属性图”的部分结构,并且所有的候选子图的用户的总和即是原有数据环境中的所有用户总和;各个候选子图不会占有同一个用户,
步骤3,评估候选子图,建立起测量用户或属性和这些候选子图之间相关性的准则,
步骤31,度量属性和候选子图之间的相关性
在上式中r(ai|Sl)是一种度量属性和候选子图之间相关性的核心技术,其具体定义为
在上式中,ml是Wl内所有元素的权重之和;dt和dg分别代表用户ut和用户ug的度数,
为了更清晰明了的表达上式的含义,将其转化为下面的描述,
上式中,Ul ai代表在第l个候选子图中,所有拥有属性ai的用户的集合;Cut(A,B)代表集合A和集合B之间所有连接关系权重的总和,
公式1的其他参数的定义如下所示,tl是一个门限参数,它是由所有属性与候选子图做相关性测量后,再取均值所得到的;Hi是一个归一化参数;λa是一个控制参数,而pa是一较小的正常数,如果属性和该候选子图的相关性较高,那么该属性从属于该子图的概率也就很高,并和相关性成指数关系,反之该属性从属的概率就很小,并取一个较小的正常数pa;
步骤32,度量用户和候选子图的相关性
采用一种马尔科夫随机场的变形来测量用户和候选子图之间的相关性,具体的测量准则如下所示:
公式2
在上式中Hi是一个归一化参数,N(i)是用户ui所有邻居用户的集合;λn是一个控制参数,而pn是一个正常数;对于特定用户,他的邻居用户和某个候选子图的相关性较高,那么该用户从属于该子图的概率也就很高,并和相关性成对数关系,反之该属性从属的概率就很小,并取一个较小的正常数pn;
步骤33,度量“用户—属性对”和候选子图的相关性
在分别定义好属性和用户与候选子图的相关性之后,建立起度量“用户—属性对”和候选子图之间的相关性,具体如下所示:
p(ui→aj|Sl)∝p(ui|Sl)p(aj|Sl)公式3
步骤4,可覆盖社区发现
步骤41,通过建立概率统计模型来求解具有可覆盖性的社区,先假设用户和属性是已知的变量,而候选子图可表示为隐藏的变量s={sl}L l=1,L表示候选子图的数量,因此,每一个“用户—属性对”可以在概率上从属于多个候选子图,于是可以用下面的公式来描述“用户—属性对”,
步骤42,采用EM算法来最大化似然函数p(E|π),于是基于完整数据集{E,S},定义似然函数如下:
为了方便推导公式,将上式转移成log形式,
(3)给出了基于EM算法的公式推导
E步:
对于候选子图的后验概率推导,可以由下式表达:
之后,求取sijl的期望值,具体的推导如下:
在上式中,p(eij|sl=1)可以由公式3计算得出,而γ(sijl)则是代表一种可信度,
M步:
在M步中,将要推导模型的相关参数,首先来看模型参数πnew,
上式是模型参数的求解公式,其中πnew表示的是下一次迭代中的参数π,而πold表示的是当前迭代中的参数π,
为了求解出模型参数,采用了拉格朗日乘子法,具体如下:
采用p(S|U)去重新确立候选子图,即根据用户相对于候选子图的归属,并以此来重新建立候选子图,
具体而言,本发明中使用向量{p(sl=1|ui)}L l=1来表征用户ui,然后使用这种信息对所有的用户做聚类处理,并得到新的一系列候选子图,在新的候选子图的基础上,EM算法进行下一次的迭代运算,最终就可以得到稳定而可信的L个候选子图,最后,对“用户—属性对”的聚类分析,会有一部分拥有多个“用户—属性对”的用户从属于多个不同的类,即具有可覆盖性的社区发现的完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210300460.7A CN102831219B (zh) | 2012-08-22 | 2012-08-22 | 一种应用于社区发现的可覆盖聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210300460.7A CN102831219B (zh) | 2012-08-22 | 2012-08-22 | 一种应用于社区发现的可覆盖聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102831219A CN102831219A (zh) | 2012-12-19 |
CN102831219B true CN102831219B (zh) | 2015-12-16 |
Family
ID=47334354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210300460.7A Expired - Fee Related CN102831219B (zh) | 2012-08-22 | 2012-08-22 | 一种应用于社区发现的可覆盖聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102831219B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105101475B (zh) * | 2014-05-12 | 2018-09-25 | 中国移动通信集团湖南有限公司 | 一种识别无线局域网wlan潜在用户的方法及装置 |
CN106056137B (zh) * | 2016-05-25 | 2019-06-04 | 南京大学 | 一种基于数据挖掘多分类算法的电信集团业务推荐方法 |
CN110162956B (zh) * | 2018-03-12 | 2024-01-19 | 华东师范大学 | 确定关联账户的方法和装置 |
CN108596444B (zh) * | 2018-04-02 | 2021-06-29 | 清华大学 | 基于多元化策略的大规模社会网络用户抽样的方法及装置 |
CN109492076B (zh) * | 2018-09-20 | 2022-02-11 | 西安交通大学 | 一种基于网络的社区问答网站答案可信评估方法 |
CN110363015A (zh) * | 2019-07-10 | 2019-10-22 | 华东师范大学 | 一种基于用户属性分类的马尔可夫预取模型的构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901251A (zh) * | 2010-06-28 | 2010-12-01 | 吉林大学 | 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法 |
CN102456062A (zh) * | 2010-11-04 | 2012-05-16 | 中国人民解放军国防科学技术大学 | 社区相似度计算方法与社会网络合作模式发现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090099921A1 (en) * | 2007-09-17 | 2009-04-16 | Matias Klein | System and method for advertising and deliverig media in conjunction with an electronic medical records management, imaging and sharing system |
-
2012
- 2012-08-22 CN CN201210300460.7A patent/CN102831219B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901251A (zh) * | 2010-06-28 | 2010-12-01 | 吉林大学 | 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法 |
CN102456062A (zh) * | 2010-11-04 | 2012-05-16 | 中国人民解放军国防科学技术大学 | 社区相似度计算方法与社会网络合作模式发现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102831219A (zh) | 2012-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102831219B (zh) | 一种应用于社区发现的可覆盖聚类方法 | |
CN103024017B (zh) | 一种社交网络重要目标及社区群体识别方法 | |
CN103559407B (zh) | 一种用于度量有向加权图中节点亲密度的推荐系统及方法 | |
CN109299436B (zh) | 一种满足本地差分隐私的偏好排序数据收集方法 | |
CN106326367A (zh) | 基于wnbi和rsvd混合协同推荐算法 | |
CN104268271A (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
CN104462385A (zh) | 一种基于用户兴趣模型的电影个性化相似度计算方法 | |
CN105893406A (zh) | 群体用户画像方法及系统 | |
CN104731962A (zh) | 一种社交网络中基于相似社团的好友推荐方法及系统 | |
CN106959966A (zh) | 一种信息推荐方法及系统 | |
CN106909643A (zh) | 基于知识图谱的社交媒体大数据主题发现方法 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN107895038A (zh) | 一种链路预测关系推荐方法及装置 | |
CN103116611A (zh) | 社交网络意见领袖识别方法 | |
CN109829337A (zh) | 一种社会网络隐私保护的方法、系统及设备 | |
CN113807520A (zh) | 基于图神经网络的知识图谱对齐模型的训练方法 | |
Chen et al. | A novel trust-based community detection algorithm used in social networks | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
CN111611499A (zh) | 协同过滤方法、协同过滤装置及系统 | |
CN103106615B (zh) | 基于电视观看日志挖掘的用户行为分析方法 | |
CN106296315A (zh) | 基于用户用电数据的情境感知系统 | |
CN110932962B (zh) | 一种基于矩阵分解的网络结构去匿名化系统及方法 | |
CN111475744A (zh) | 一种基于集成学习的个性化位置推荐方法 | |
Johansson | Gossip spread in social network Models | |
CN105956925A (zh) | 一种基于传播网络的重要用户发现方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151216 Termination date: 20210822 |