CN102831219B

CN102831219B - 一种应用于社区发现的可覆盖聚类方法

Info

Publication number: CN102831219B
Application number: CN201210300460.7A
Authority: CN
Inventors: 何周舟; 张仲非; 飞利浦.余
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-08-22
Filing date: 2012-08-22
Publication date: 2015-12-16
Anticipated expiration: 2032-08-22
Also published as: CN102831219A

Abstract

本发明公开了一种应用于社区发现的可覆盖聚类方法，在得到原始数据之后，将其转化为“用户—属性图”，它的基本单元是“用户—属性对”。在初始化“用户—属性图”之后，首先对其中的“用户—属性对”进行初步的分类，每一个类即为一个候选子图。其次，计算出每个候选子图的发生概率；同时计算出每个用户和各个候选子图之间的相关性。之后，建立概率统计模型，计算每个“用户—属性对”和候选子图之间的相关性。最后，根据数据环境中的这些候选子图的建立，对于数据中的各个“用户—属性图”对进行合理的分类，发现拥有多种属性的关键用户。本发明用于同时处理内容性数据和相关性数据，更好的适应真实网络环境中的社区发现需求。

Description

一种应用于社区发现的可覆盖聚类方法

技术领域

本发明属于网络信息技术领域，特别地涉及一种应用于社区发现基于内容性数据和相关性数据的可覆盖聚类方法。

背景技术

随着互联网技术的发展，各种新型的网络应用层出不穷,日益丰富了网络用户的虚拟社交行为。进而，互联网和用户之间早已不是像信息发布端和信息接收端这种简单而直接的关系，互联网已构成了向用户提供生产生活的密不可分的另一个世界——“虚拟社会网络”，并且用户也更加积极和主动地融入进这个新的社会平台中。比如，用户会提出自己特定的观点，用户会自发形成讨论组，而网络公司则针对用户群体进行差异化的营销。为了能有效和深入地研究虚拟社会网络这一新型的互联网的表现形式，大量的研究者们对于网络中的“社区发现”这一问题进行了大量的工作。“社区发现”这一名词中的社区指的是网络中具有相同行为特性的用户的集合，从微观上来看集合内的用户之间，相比于集合外存在大量的信息交互、行为合作；而从宏观上来看，集合往往自身具有相似的兴趣倾向，并对社会事件有相似的观点或理解。于是，“社区发现”具体是指通过科学的数学建模和高效的大规模计算方法从社会网络中找出大量的潜在的社区或社区结构，即为用户形成的类。“社区发现”有着广泛的社会应用，比如发现不同的用户群体进而实现差别化的广告投放，或是依照用户所在社区的不同特点对用户进行相应不同的信用评分。

传统的社区发现方法，大多假设网络中的每一个用户只能属于单一的社区；或者认为每个用户在网络中地位或作用是平等的。因此，发展一种新型的契合目前复杂数据环境的聚类方法迫在眉睫。目前发展的可覆盖的社区发现方法，其重视网络中的核心用户的作用，认为这些核心用户可以从属于多个社区。于是，这种可覆盖的社区发现方法就很好的突破传统方法的局限性，并且可以更有效地展示出社会网络潜在的社区结构。

但目前的可覆盖社区发现方法或聚类方法，存在以下问题：(1)目前的可覆盖社区发现方法或聚类方法的数据应用环境单一，只能处理内容性数据或只能处理相关性数据。(2)一般来说，传统社区发现方法只是仅仅将网络中的用户作为社会网络中的主体，这就潜在的造成了平等的对待每个用户这一假定，因为这时每个用户的权重值都相等。

发明内容

为解决上述问题，本发明的目的在于提供一种应用于社区发现的可覆盖聚类方法，用于同时处理内容性数据和相关性数据，更好的适应真实网络环境中的社区发现需求。

为实现上述目的，本发明的技术方案为：

一种应用于社区发现的可覆盖聚类方法，包括以下步骤：

步骤1，给出所需要的数据输入，具体包括以下子步骤，

步骤11，设立数据环境中的用户集合为U＝{u₁,u₂,u₃,……u_N}，一共有N个；设立数据环境中的属性集合为A＝{a₁,a₂,a₃,……a_M}，一共有M个；用u_i→a_j代表第i个用户拥有第j个属性；

步骤12，用属性矩阵E代表用户和属性之间的关系，即为内容性数据，在数据环境中，定义E∈R^N×M，e_ij∈{0,1}，1≤i≤N，1≤j≤M，当e_ij＝1时，表示第i个用户拥有第j个属性，e_ij＝0时，表示第i个用户不拥有第j个属性；

步骤13，用邻接矩阵W来代表用户和用户之间的关系，即为相关性数据，在数据环境中，定义W∈R^N×N，W_ij≥0，1≤i≤N，1≤j≤N，w_ij的大小代表了第i个用户和第j个用户之间的关系紧密度；

步骤2，建立候选子图，分为以下子步骤，

步骤21，建立“用户—属性图”，“用户—属性图”是建立同时具有内容性数据和相关性数据基础上的数据结构，按照所述步骤1的定义可以表示为G＝(U，A，W，E)，其中U是数据环境中用户的集合，A是数据环境中属性的集合，W代表了用户和用户之间的相关性的度量，而E代表了用户和属性之间的关联性质，

步骤22，在给出所述“用户—属性图”的基础上，一系列候选子图被定义为S_i＝(U_i,A_i,W_i,E_i)，其中i∈{1,2,…,L}，每一个候选子图实际上为“用户—属性图”的部分结构，并且所有的候选子图的用户的总和即是原有数据环境中的所有用户总和；各个候选子图不会占有同一个用户；

步骤3，评估候选子图，建立起测量用户或属性和这些候选子图之间相关性的准则，

步骤31，度量属性和候选子图之间的相关性

p (a_{i} | S_{l}) = \frac{1}{H_{i}} \times \{\begin{matrix} \exp (λ_{a} (r (a_{i} | S_{l}) - t_{l})) & for & r (a_{i} | S_{l}) &GreaterEqual; t_{l} \\ p_{a} & for & other \end{matrix}

公式1

在上式中r(a_i|S_l)是一种度量属性和候选子图之间相关性的核心技术；

具体定义r(a_i|S_l)为，

r (a_{i} | S_{l}) = \frac{1}{2 m_{l}} \underset{u_{t}, u_{g} &RightArrow; a_{i}}{\underset{u_{t}, u_{g} &Element; S_{l}}{Σ}} (w_{tg} - \frac{d_{t} d_{g}}{2 m_{l}})

公式2

在上式中，m_l是W_l内所有元素的权重之和；d_t和d_g分别代表用户u_t和用户u_g的度数，为了更清晰明了的表达上式的含义，将其转化为下面的描述，

r (a_{i} | S_{l}) = \frac{Cut (U_{l}^{a_{i}}, U_{l}^{a_{i}})}{2 m_{l}} - {(\frac{Cut (U_{l}^{a_{i}}, U_{l})}{2 m_{l}})}^{2}

公式3

上式中，U_l ^ai代表在第l个候选子图中，所有拥有属性a_i的用户的集合；Cut(A，B)代表集合A和集合B之间所有连接关系权重的总和。

t是一个门限参数，它是由所有属性与候选子图做相关性测量后，再取均值所得到的；H是一个归一化参数；λ_a是一个控制参数，而p_a是一较小的正常数，如果属性和该候选子图的相关性较高，那么该属性从属于该子图的概率也就很高，并和相关性成指数关系，反之该属性从属的概率就很小，并取一个很小的正常数p；

步骤32，度量用户和候选子图的相关性

采用一种马尔科夫随机场的变形来测量用户和候选子图之间的相关性，具体的测量准则如下所示：

公式4

上中H是一个归一化参数，N(i)是用户u_i所有邻居用户的集合；λ_n是一个控制参数，而p_n是一个正常数；

步骤33，度量”用户—属性对”和候选子图的相关性

在分别定义好属性和用户与候选子图的相关性之后，建立起度量”用户—属性对”和候选子图之间的相关性，具体如下所示：

p(u_i→a_j|S_l)∝p(u_i|S_l)p(a_j|S_l)公式5

步骤4，可覆盖社区发现

步骤41，通过建立概率统计模型来求解具有可覆盖性的社区，先假设用户和属性是已知的变量，而候选子图是隐藏的变量s＝{s_l}^L _l＝1，因此，每一个”用户—属性对”可以在概率上从属于多个候选子图，于是可以用下面的公式来描述”用户—属性对”，

p (u_{i} &RightArrow; a_{j}) = p (e_{ij}) = Σ_{l = 1}^{L} π_{l} p (e_{ij} | s_{l} = 1)

公式6

上式中的π_l代表了第l候选子图的权重。

步骤42，采用EM算法来最大化似然函数p(E|π)，于是基于完整数据集{E，S}，其中E表示包含所有e_ij的集合,S表示包含所有s_l的集合,定义似然函数如下：

\begin{matrix} p (E, S | π) = Π_{i = 1}^{N} Π_{j = 1}^{M} Π_{l = 1}^{L} p {(e_{ij}, s_{l})}^{w_{ij}} \\ = Π_{i = 1}^{N} Π_{j = 1}^{M} Π_{l = 1}^{L} {(π^{s_{ijl}} p {(e_{ij} | s_{l} = 1)}^{s_{ijl}})}^{w_{ij}} \end{matrix}

公式7

在上式中，s_ijl代表s_ij的第l个成分，为了方便推导公式，将上式转移成log形式，

\ln p (E, S | π) = Σ_{i = 1}^{N} Σ_{j = 1}^{M} Σ_{l = 1}^{L} w_{ij} s_{ijl} {\ln π_{l} + \ln p (e_{ij} | s_{l} = 1)}

公式8

(3)给出了基于EM算法的公式推导。

E步：

对于候选子图的后验概率推导，可以由下式表达：

\ln p (E, S | π) &Proportional; Π_{i = 1}^{N} Π_{j = 1}^{M} Π_{l = 1}^{L} {[π_{l} p (e_{ij} | s_{l})]}^{s_{ijl}}

公式9

之后，求取s_ijl的期望值，具体的推导如下：

\begin{matrix} E [s_{ijl}] = \frac{Σ_{s_{ijl}} s_{ijl} {[π_{l} p (e_{ij} | s_{l} = 1)]}^{s_{ijl}}}{Σ_{s_{ijl}} {[π_{l} p (e_{ij} | s_{l} = 1)]}^{s_{ijl}}} \\ = \frac{π_{l} p (e_{ij} | s_{l} = 1)}{Σ_{l = 1}^{L} π_{l} p (e_{ij} | s_{l} = 1)} = γ (s_{ijl}) \end{matrix}

公式10

在上式中，p(e_ij|s_l＝1)可以由公式3计算得出，而γ(s_ijl)则是代表一种可信度的概念，

M步：

在M步中，将要推导模型的相关参数，首先来看模型参数π^new，

π^{new} = \underset{π}{\arg \max} Q ({π, π}^{old})

\begin{matrix} Q ({π, π}^{old}) \\ = \underset{S}{Σ} p (S | E, π^{old}) \ln p (E, S | π) \\ = E_{s} [\ln p (E, S | π)] \\ = Σ_{i = 1}^{N} Σ_{j = 1}^{M} Σ_{l = 1}^{L} w_{ij} γ (s_{ijl}) {{\ln π}_{l} + \ln p (e_{ij} | s_{l} = 1)} \end{matrix}

公式11

上式是模型参数的求解公式，其中π^new表示的是下一次迭代中的参数π，而π^old表示的是当前迭代中的参数π。为了求解出模型参数，采用了拉格朗日乘子法，具体如下：

\begin{matrix} \frac{&PartialD;}{{&PartialD; π}_{l}} {Q ({π, π}^{lod}) - λ (Σ_{l = 1}^{L} π_{l} - 1)} = 0 \\ &DoubleRightArrow; Σ_{i = 1}^{N} Σ_{j = 1}^{M} \frac{w_{ij} γ (s_{ijl})}{π_{l}} = λ \\ &DoubleRightArrow; π_{l} = \frac{Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{ij} γ (s_{ijl})}{Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{ij}} \end{matrix}

公式12

上式中λ为拉格朗日乘子

不同于一般的概率统计模型，本发明并不直接使用p(S|E)去重新确立一系列候选子图；实际上，采用p(S|U)去重新确立候选子图，即根据用户相对于候选子图的归属，并以此来重新建立候选子图，

p (s_{l} = 1 | u_{i}) = \frac{π_{l} p (u_{i} | s_{l} = 1)}{Σ_{t = 1}^{L} π_{t} p (u_{i} | s_{t} = 1)}

公式13

具体而言，本发明中使用向量{p(s_l＝1|u_i)}_l＝1,2,..,L来表征用户u_i然后使用这种信息对所有的用户做聚类处理，并得到新的一系列候选子图，在新的候选子图的基础上，EM算法进行下一次的迭代运算，最终就可以得到稳定而可信的L个候选子图，最后，对”用户—属性对”的聚类分析，必然会有一部分拥有多个”用户—属性对”的用户从属于多个不同的类，即具有可覆盖性的社区发现的完成。

本发明实施例所提出的可覆盖聚类方法，相比于目前的可覆盖或聚类方法，具有以下有益效果：

(1)本发明提出的方法可以同时处理内容性数据和相关性数据。并且，目前的网络数据往往是同时拥有这两种数据，因而本发明提出的方法很好的切合了实际的应用环境。

(2)本发明提出的方法定义了一种用户结构的概念，即“候选子图”。“候选子图”的建立借鉴了社区模度测量(Modularity)和马尔可夫随机场(MarkovRandomField)的概念，其中以上两种概念都是由真实社会网络分析、提炼得来的，使得本发明的提出的方法更加切合真实的社会网络的内在结构。

(3)本发明提出的方法将“网络行为”作为了社会网络中的主体。这里的网络行为指的是”用户—属性对”，即行为是由用户和用户拥有的属性两部分组成的。然而，将网络行为作为主体，就使得在网络中那些关键用户或核心用户权重变高。因为通常这些用户相比于普通用户会产生更多的行为，即拥有更多的属性，本发明的方法很好的考虑到了网络中用户之间存在差异性这一重要特性。

附图说明

图1为本发明实施例的应用于社区发现的可覆盖聚类方法的流程图；

图2为本发明实施例的应用于社区发现的可覆盖聚类方法的用户—属性图的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，所示为本发明实施例的应用于社区发现的可覆盖聚类方法的流程图，包括以下步骤：

S1，给出所需要的数据输入，具体包括以下子步骤，

S11，设立数据环境中的用户集合为U＝{u₁,u₂,u₃,……u_N}，一共有N个；设立数据环境中的属性集合为A＝{a₁,a₂,a₃,……a_M}，一共有M个；用u_i→a_j代表第i个用户拥有第j个属性；

S12，用属性矩阵E代表用户和属性之间的关系，即为内容性数据，在数据环境中，定义E∈R^N×M，e_ij∈{0,1}，1≤i≤N，1≤j≤M，当e_ij＝1时，表示第i个用户拥有第j个属性，e_ij＝0时，表示第i个用户不拥有第j个属性；

S13，用邻接矩阵W来代表用户和用户之间的关系，即为相关性数据，在数据环境中，定义W∈R^N×N，W_ij≥0，1≤i≤N，1≤j≤N，w_ij的大小代表了第i个用户和第j个用户之间的关系紧密度，数值越大，代表两者之间的相关性越高。

S2，建立候选子图，分为以下子步骤，

根据以上的数据输入，就可以在原有的数据基础上，先定义出一种“用户—属性图”的概念。这种概念的建立有助于理解原始数据内在结构和后续方法设计。

S21，下面,给出“用户—属性图”的具体定义：

【用户—属性图】：一个“用户—属性图”是建立同时具有内容性数据和相关性数据基础上的数据结构，可以表示为G＝(U，A，W，E)。

其中U是数据环境中用户的集合，A是数据环境中属性的集合，W代表了用户和用户之间的相关性的度量，而E代表了用户和属性之间的关联性质。特别的，可以把E中值为1的元素看作是一种连接用户和属性之间实际存在的边的关系。

参见图2是“用户—属性图”的一个简单示例。在上图中，可以清楚的观察到连接用户和属性之间的边被看成了数据的主体。建立“用户—属性图”的优点可以由一个的小例子说明。从图中可以看出，和u₄相连的既有红色的边，又有蓝色的边。而且从上图的结构中可以看出，(u₁—u₄)和(u₄—u₇)都有很大的可能形成数据类。于是从传统的聚类方法来看，无论是硬聚类方法或是软聚类方法，都无法同时将u₄这个用户分配给上述的两个数据类。但是借助“用户—属性”边的定义，将红色的边分为一类，而将蓝色的边分为另外一类，就可以很到的解决这个问题，即这时u₄可以同时属于两个数据类，当然这也是因为该用户本身就拥有了两种不同的属性。

下面将要定义候选子图的概念，这个概念的主要作用是有效的理解数据中的内在结构；从另一方面上说，这个概念对后续提出的概率统计模型中的隐藏变量作了铺陈性说明。

S22，【候选子图】：在给出上述的“用户—属性图”的基础上，一系列候选子图被定义为S_i＝(U_i,A_i,W_i,E_i,)，其中i∈{1,2,…,L}。每一个候选子图实际上为“用户—属性图”的部分结构。并且所有的候选子图的用户的总和即是原有数据环境中的所有用户总和；各个候选子图不会占有同一个用户，也就是说不会存在某个数据中的用户同时归属于多个候选子图。A_i则是相应的U_i所用的所有属性的集合，W_i则是相应的U_i集合中的各个用户之间所形成的相关性信息，E_i则是连接U_i和A_i之间的“用户—属性”信息。另一方面，也假设在一个候选子图中，用户之间的相关性非常紧密；同时，在这此候选子图中，应该存在部分占优属性，这些属性通常可以代表该候选子图内大部分用户的特征。

S3，评估候选子图

本节的主要任务是在已知候选子图的基础上，建立起测量用户或属性和这些候选子图之间相关性的准则。建立这种准则的优点在于：第一，通过建立起用户或属性和候选子图之间的关系，就可以准确地理解该候选子图的实际特点。第二，在知道候选子图的实际特点后，就可以对这些候选子图做出相应的调整。

S31，度量属性和候选子图的相关性：

p (a_{i} | S_{l}) = \frac{1}{H_{i}} \times \{\begin{matrix} \exp (λ_{a} (r (a_{i} | S_{l}) - t_{l})) & for & r (a_{i} | S_{l}) &GreaterEqual; t_{l} \\ p_{a} & for & other \end{matrix}

公式1

在上式中t_l是一个门限参数，它是由所有属性与候选子图做相关性测量后，再取均值所得到的；Hi是一个归一化参数；λa是一个控制参数，而pa是一个正常数。具体的说，如果属性和该候选子图的相关性较高，那么该属性从属于该子图的概率也就很高，并和相关性成指数关系，反之该属性从属的概率就很小，并取一个很小的正常数pa。

S32，度量用户和候选子图的相关性

本节，采用一种马尔科夫随机场的变形来测量用户和候选子图之间的相关性。具体的测量准则如下所示：

公式2

上中H是一个归一化参数，N_(i)是用户u_i所有邻居用户的集合；λ是一个控制参数，而pn是一个正常数。从上式中，可以看出如果一个用户，其邻居用户大多属于某个候选子图，那么他也属于该候选子图的概率就会特别高，反之则亦然。特别的是，如果某个用户没有邻居用户，那么上述的测量值就取以一个极小的正常数p。

S33，度量”用户—属性对”和候选子图的相关性

在分别定义好属性和用户与候选子图的相关性之后，建立起度量”用户—属性对”和候选子图之间的相关性，即在用户属性图的概念下，每一条边或行为从属于候选子图的概率。具体如下所示：

p(u_i→a_j|S_l)∝p(u_i|S_l)p(a_j|S_l)公式3

S4，可覆盖社区发现

在本节中，将通过建立概率统计模型来求解具有可覆盖性的社区。先假设用户和属性是已知的变量，而候选子图是隐藏变量s＝{s_l}^L _l＝1。因此，每一个”fi户—属性对”可以在概率上从属于多个候选子图。于是可以用下面的公式来描述”用户—属性对”。

p (u_{i} &RightArrow; a_{j}) = p (e_{ij}) = Σ_{l = 1}^{L} π_{l} p (e_{ij} | s_{l} = 1)

公式4

上式中的π代表了每个候选子图的权重。

之后采用EM算法来最大化似然函数p(E|π)基于π。于是基于完整数据集{E，S}，我们定义似然函数如下：

\begin{matrix} p (E, S | π) = Π_{i = 1}^{N} Π_{j = 1}^{M} Π_{l = 1}^{L} p {(e_{ij}, s_{l})}^{w_{ij}} \\ = Π_{i = 1}^{N} Π_{j = 1}^{M} Π_{l = 1}^{L} {(π^{s_{ijl}} p {(e_{ij} | s_{l} = 1)}^{s_{ijl}})}^{w_{ij}} \end{matrix}

公式5

在上式中，s_ijl指示“用户i—属性j对”是否从属于第l个候选子图，具体为s_ijl＝1指示属于，s_ijl＝0指示为不属于；之后为了方便推导公式，我们将上式转移成log形式。

\ln p (E, S | π) = Σ_{i = 1}^{N} Σ_{j = 1}^{M} Σ_{l = 1}^{L} w_{ij} s_{ijl} {\ln π_{l} + \ln p (e_{ij} | s_{l} = 1)}

公式6

随后，本节具体给出了基于EM算法的公式推导。

E步：

对于隐藏变量(候选子图)的后验概率推导，可以由下式表达：

\ln p (E, S | π) &Proportional; Π_{i = 1}^{N} Π_{j = 1}^{M} Π_{l = 1}^{L} {[π_{l} p (e_{ij} | s_{l})]}^{s_{ijl}}

公式7

之后，求取s_ijl的期望值，具体的推导如下：

\begin{matrix} E [s_{ijl}] = \frac{Σ_{s_{ijl}} s_{ijl} {[π_{l} p (e_{ij} | s_{l} = 1)]}^{s_{ijl}}}{Σ_{s_{ijl}} {[π_{l} p (e_{ij} | s_{l} = 1)]}^{s_{ijl}}} \\ = \frac{π_{l} p (e_{ij} | s_{l} = 1)}{Σ_{l = 1}^{L} π_{l} p (e_{ij} | s_{l} = 1)} = γ (s_{ijl}) \end{matrix}

公式8

在上式中，p(e_ij|s_l＝1)可以由公式3计算得出。而γ(s_ijl)则是代表一种可信度，即“用户i—属性j对”从属于第l个候选子图的可信度。

M步：

在M步中，将要推导模型的相关参数。首先来看模型参数π^new。

π^{new} = \underset{π}{\arg \max} Q ({π, π}^{old})

\begin{matrix} Q ({π, π}^{old}) \\ = \underset{S}{Σ} p (S | E, π^{old}) \ln p (E, S | π) \\ = E_{s} [\ln p (E, S | π)] \\ = Σ_{i = 1}^{N} Σ_{j = 1}^{M} Σ_{l = 1}^{L} w_{ij} γ (s_{ijl}) {{\ln π}_{l} + \ln p (e_{ij} | s_{l} = 1)} \end{matrix}

公式9

上式是模型参数的求解公式，其中π^new表示的是下一次迭代中的参数π，而π^old表示的是当前迭代中的参数π。。为了求解出模型参数，采用了拉格朗日乘子法，具体如下：

\begin{matrix} \frac{&PartialD;}{{&PartialD; π}_{l}} {Q ({π, π}^{lod}) - λ (Σ_{l = 1}^{L} π_{l} - 1)} = 0 \\ &DoubleRightArrow; Σ_{i = 1}^{N} Σ_{j = 1}^{M} \frac{w_{ij} γ (s_{ijl})}{π_{l}} = λ \\ &DoubleRightArrow; π_{l} = \frac{Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{ij} γ (s_{ijl})}{Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{ij}} \end{matrix}

公式10

不同于一般的概率统计模型，本发明并不直接使用p(S|E)去重新确立一系列候选子图；实际上，采用p(S|U)去重新确立候选子图，即根据用户相对于候选子图的归属，并以此来重新建立候选子图。

p (s_{l} = 1 | u_{i}) = \frac{π_{l} p (u_{i} | s_{l} = 1)}{Σ_{t = 1}^{L} π_{t} p (u_{i} | s_{t} = 1)}

公式11

具体而言，本发明中使用向量{p(s_l＝1|u_i)}^L _l＝1来表征用户u_i，然后使用这种信息对所有的用户做聚类处理，并得到新的一系列候选子图。在新的候选子图的基础上，EM算法进行下一次的迭代运算。最终就可以得到稳定而可信的L个候选子图。

在得到候选子图之后，将对所有的”用户—属性对”基于它们和候选子图之间的归属关系，进行聚类处理(距离函数选为cosine测量)。最后，对”用户—属性对”(社会网络中的行为信息)的聚类分析，必然会有一部分拥有多个”用户—属性对”的用户从属于多个不同的类，即具有可覆盖性的社区发现的完成。

在步骤31之前可以进一步包括以下步骤：

首先建立起属性和候选子图之间的度量关系，

r (a_{i} | S_{l}) = \frac{1}{2 m_{l}} \underset{u_{t}, u_{g} &RightArrow; a_{i}}{\underset{u_{t}, u_{g} &Element; S_{l}}{Σ}} (w_{tg} - \frac{d_{t} d_{g}}{2 m_{l}})

公式12

在上式中，m_l是W_l内所有元素的权重之和；d_t和d_g分别代表用户u_t和用户u_g的度数。这种定义的提出是受到了“modularitymeasure”的启发。并且，如果一个属性在一个候选子图内是一个占优属性，那么该候选子图内所有拥有这种属性的节点，他们所形成的网络结构应该具有较高的“modularity”的值。为了更清晰明了的表达上式的含义，我们将其转化为下面的描述。

r (a_{i} | S_{l}) = \frac{Cut (U_{l}^{a_{i}}, U_{l}^{a_{i}})}{2 m_{l}} - {(\frac{Cut (U_{l}^{a_{i}}, U_{l})}{2 m_{l}})}^{2}

公式13

上式中，U_l ^ai代表在第l个候选子图中，所有拥有属性a_i的用户的集合；Cut(A，B)代表集合A和集合B之间所有连接关系权重的总和。为了考虑到实际的数据环境情况和简化计算，对占优属性做了一定的限制，进而，测量属性和这些候选子图之间相关性的准则，得到公式1。

综上所述，本发明实施例首先在得到原始数据之后，将其转化为“用户—属性图”。然后预先设定候选子图的数目L以及之后要发现的社区数目K。在初始化候选子图之后，对“用户—属性图”中的行为进行初步的分类，一般是随机分配这些”用户—属性对”至各个候选子图。其次，计算出每个候选子图的占优属性，也可以视为计算每种属性和各个候选子图之间的相关性；同时计算出每个用户和各个候选子图之间的相关性。之后,建立概率统计模型，计算每个”用户—属性对”和候选子图之间的相关性，即方法的E-step步；在E-step步后，计算方法的M-step步，得到每个候选子图的权重和每个用户和各个候选子图的相关性。在得到用户和候选子图的相关性后，方法以此对候选子图进行迭代构造。方法中的循环结构，一直运行到可以得到稳定而有效的候选子图结构为止。最后，根据数据环境中的这些候选子图的建立，对于数据中的各个”用户—属性对”进行合理的分类；相应的就会发现一些拥有多种属性的关键用户，自然地可覆盖的聚类发现也就完成，即方法的最后一步。

通过以上技术方案，本发明实施例在同时基于内容性数据和相关性数据的基础上发展了一种具有可覆盖性的社区发现方法。本发明可以同时和有效地利用两种不同模态的信息，即内容性数据和相关性数据完成社区发现这一用户，并且提出的方法不需要任何的方法训练过程。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种应用于社区发现的可覆盖聚类方法，其特征在于，包括以下步骤：

步骤1，给出所需要的数据输入，具体包括以下子步骤，

步骤2，建立候选子图，分为以下子步骤，

步骤22，在给出所述“用户—属性图”的基础上，一系列候选子图被定义为S_l＝(U_l,A_l,W_l,E_l)，其中l∈{1,2,…,L}，每一个候选子图实际上为“用户—属性图”的部分结构，并且所有的候选子图的用户的总和即是原有数据环境中的所有用户总和；各个候选子图不会占有同一个用户，

步骤31，度量属性和候选子图之间的相关性

p (a_{i} | S_{l}) = \frac{1}{H_{i}} \times \{\begin{matrix} \exp (λ_{a} (r (a_{i} | S_{l}) - t_{l})) & for & r (a_{i} | S_{l}) &GreaterEqual; t_{l} \\ P_{s} & for & other \end{matrix}

公式1

在上式中r(a_i|S_l)是一种度量属性和候选子图之间相关性的核心技术，其具体定义为

r (a_{i} | S_{l}) = \frac{1}{{2 m}_{l}} \underset{u_{t}, u_{g} &RightArrow; a_{i}}{\underset{u_{t}, u_{h} &Element; S_{l}}{Σ}} (w_{tg} - \frac{d_{t} d_{g}}{{2 m}_{l}})

在上式中，m_l是W_l内所有元素的权重之和；d_t和d_g分别代表用户u_t和用户u_g的度数，

为了更清晰明了的表达上式的含义，将其转化为下面的描述，

r (a_{i} | S_{l}) = \frac{Cut (U_{l}^{a_{i}}, U_{l}^{a_{i}})}{{2 m}_{l}} - {(\frac{Cut (U_{l}^{a_{i}}, U_{l})}{{2 m}_{l}})}^{2}

上式中，U_l ^ai代表在第l个候选子图中，所有拥有属性a_i的用户的集合；Cut(A，B)代表集合A和集合B之间所有连接关系权重的总和，

公式1的其他参数的定义如下所示，t_l是一个门限参数，它是由所有属性与候选子图做相关性测量后，再取均值所得到的；Hi是一个归一化参数；λ_a是一个控制参数，而p_a是一较小的正常数，如果属性和该候选子图的相关性较高，那么该属性从属于该子图的概率也就很高，并和相关性成指数关系，反之该属性从属的概率就很小，并取一个较小的正常数p_a；

步骤32，度量用户和候选子图的相关性

公式2

在上式中Hi是一个归一化参数，N_(i)是用户u_i所有邻居用户的集合；λ_n是一个控制参数，而p_n是一个正常数；对于特定用户，他的邻居用户和某个候选子图的相关性较高，那么该用户从属于该子图的概率也就很高，并和相关性成对数关系，反之该属性从属的概率就很小，并取一个较小的正常数p_n；

步骤33，度量“用户—属性对”和候选子图的相关性

在分别定义好属性和用户与候选子图的相关性之后，建立起度量“用户—属性对”和候选子图之间的相关性，具体如下所示：

p(u_i→a_j|S_l)∝p(u_i|S_l)p(a_j|S_l)公式3

步骤4，可覆盖社区发现

步骤41，通过建立概率统计模型来求解具有可覆盖性的社区，先假设用户和属性是已知的变量，而候选子图可表示为隐藏的变量s＝{s_l}^L _l＝1，L表示候选子图的数量，因此，每一个“用户—属性对”可以在概率上从属于多个候选子图，于是可以用下面的公式来描述“用户—属性对”，

p (u_{i} &RightArrow; a_{j}) = p (e_{ij}) = Σ_{l = 1}^{L} π_{l} p (e_{ij} | s_{l} = 1)

公式4

步骤42，采用EM算法来最大化似然函数p(E|π)，于是基于完整数据集{E，S}，定义似然函数如下：

\begin{matrix} p (E, S | π) = Π_{i = 1}^{N} Π_{j = 1}^{M} Π_{l = 1}^{L} p {(e_{ij}, s_{l})}^{w_{ij}} \\ = Π_{i = 1}^{N} Π_{j = 1}^{M} Π_{l = 1}^{L} {(π^{s_{ijl}} p {(e_{ij} | s_{l} = 1)}^{s_{ijl}})}^{w_{ij}} \end{matrix}

公式5

为了方便推导公式，将上式转移成log形式，

\ln p (E, S | π) = Σ_{i = 1}^{N} Σ_{j = 1}^{M} Σ_{l = 1}^{L} w_{ij} s_{ijl} {{\ln π}_{l} + \ln p (e_{ij} | s_{l} = 1)}

公式6

(3)给出了基于EM算法的公式推导

E步：

对于候选子图的后验概率推导，可以由下式表达：

\ln p (W, S | π) &Proportional; Π_{i = 1}^{N} Π_{j = 1}^{M} Π_{l = 1}^{L} {[π_{l} p (e_{ij} | s_{l})]}^{s_{ijl}}

公式7

之后，求取s_ijl的期望值，具体的推导如下：

E [s_{ijl}] = \{\begin{matrix} \frac{Σ_{s_{ijl}} s_{ijl} {[π_{l} p (e_{ij} | s_{l} = 1)]}^{s_{ijl}}}{Σ_{s_{ijl}} {[π_{l} p (e_{ij} | s_{l} = 1)]}^{s_{ijl}}} \\ = \frac{π_{l} p (e_{ij} | s_{l} = 1)}{Σ_{l = 1}^{L} π_{l} p (e_{ij} {| S}_{sl} = 1)} = γ (s_{ijl}) \end{matrix}

公式8

在上式中，p(e_ij|s_l＝1)可以由公式3计算得出，而γ(s_ijl)则是代表一种可信度，

M步：

π^{new} = \underset{π}{\arg \max} Q (π, π^{old})

\begin{matrix} Q (π, π^{old}) \\ = \underset{s}{Σ} p (S | E, π^{old}) \ln p (E, S | π) \\ = E_{s} [\ln p (E, S | π)] \\ = Σ_{i = 1}^{N} Σ_{j = 1}^{M} Σ_{l = 1}^{L} w_{ij} γ (s_{ijll}) {\ln π_{l} + \ln p (e_{ij} | s_{l} = 1)} \end{matrix}

公式9

上式是模型参数的求解公式，其中π^new表示的是下一次迭代中的参数π，而π^old表示的是当前迭代中的参数π，

为了求解出模型参数，采用了拉格朗日乘子法，具体如下：

\begin{matrix} \frac{&PartialD;}{{&PartialD; π}_{l}} {Q (π, π^{old}) - λ (Σ_{l = 1}^{L} π_{l} - 1)} = 0 \\ &DoubleRightArrow; Σ_{i = 1}^{N} Σ_{j = 1}^{M} \frac{w_{ij} γ (s_{ijl})}{π_{l}} = λ \\ &DoubleRightArrow; π_{l} = \frac{Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{ij} γ (s_{ijl})}{Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{ij}} \end{matrix}

公式10

采用p(S|U)去重新确立候选子图，即根据用户相对于候选子图的归属，并以此来重新建立候选子图，

p (s_{l} = 1 | u_{i}) = \frac{π_{l} p (u_{i} | s_{l} - 1)}{Σ_{t = 1}^{L} π_{t} p (u_{i} | s_{t} = 1)}

公式11

具体而言，本发明中使用向量{p(s_l＝1|u_i)}^L _l＝1来表征用户u_i，然后使用这种信息对所有的用户做聚类处理，并得到新的一系列候选子图，在新的候选子图的基础上，EM算法进行下一次的迭代运算，最终就可以得到稳定而可信的L个候选子图，最后，对“用户—属性对”的聚类分析，会有一部分拥有多个“用户—属性对”的用户从属于多个不同的类，即具有可覆盖性的社区发现的完成。