CN105159911A

CN105159911A - 基于主题交互的社区发现方法

Info

Publication number: CN105159911A
Application number: CN201510390683.0A
Authority: CN
Inventors: 王柱; 於志文; 冯斌; 郭斌
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2015-07-06
Filing date: 2015-07-06
Publication date: 2015-12-16
Anticipated expiration: 2035-07-06
Also published as: CN105159911B

Abstract

本发明公开了一种基于主题交互的社区发现方法，用于解决现有社区发现方法对社区描述准确度差的技术问题。技术方案是提取某一时间段内网络中文本、照片等的主题信息，根据网络中的每一次交互建立超图模型。对于超图模型按照用户熵以及主题熵计算超边的权值，选取用户中的种子节点，并根据超边权值计算不同节点的子图贡献度。迭代计算不同节点的贡献度，得到密集子图。以层次聚类方法对密集子图进行不同程度的聚合，得到不同层次下的社区。由于以种子节点出发构建初始子图，并根据超边权值计算不同节点的子图贡献度，然后迭代计算不同节点的贡献度，得到密集子图，对密集子图进行不同程度的聚合，得到不同主题节点对社区的贡献值，准确地描述社区。

Description

基于主题交互的社区发现方法

技术领域

本发明涉及一种社区发现方法，特别是涉及一种基于主题交互的社区发现方法。

背景技术

社交网络属于复杂网络中的一种，是一种异构网络。在社交网络中不仅包括用户节点，其还包括由文本构成的主题节点，由用户签到信息构成的位置节点，由照片构成的兴趣节点等，暨社交网络不再是大量的性质相同节点的链接，而是许多不同类型的节点的相互链接。把不同性质节点因为在网络中的紧密交互行为而构成的密集子图称为网络中的社区。

针对复杂网络中的社区发现主要有两种方式：一种是将复杂网络简化为一般网络，暨只含有同种性质节点的网络，然后利用用户相似度，从而得到网络中的社区。另一种方式是将同质网络中的社区发现方法修正或提出新方法应用到复杂网络中，从而发现网络中的社区。第一种方法将复杂网络简化为一般网络，会明显的丢失网络中的信息，而且用户之间的关系不紧密，不利于进行社区发现，同时在完成社区的发现后，并不能直观的得知社区的特征，暨用户因为什么原因，对什么感兴趣而形成了一个社区，因为社区中并不直观的包含主题信息。第二种方法中，对一般方法的改变并不能完全适应在复杂网络中的社区发现，同时在完成社区发现后，也不能直观的通过观察社区得知不同主题节点对社区的贡献程度，暨社区特征的精确刻画。

文献“专利公开号是CN10428271A的中国发明专利”公开了首先一种社区发现方法，该方法通过用户在社交网络中发布的内容进行归档，并提取用户的兴趣特征，从而获取用户的兴趣特征集。之后通过构建用户关系图，并以不同用户间的兴趣相似度作为用户关系的权重，采用已有的加权五项网络社区发现算法发现网络中的重叠社区。该专利的一个不足之处是在得到社区的同时，并不知道这个社区是因为什么原因聚集在一起的，不能精准的对社区进行刻画。而且即使为了刻画社区，对社区中的所有用户发布的内容进行主题特征提取，但是这样得到的特征并不能很好的刻画社区，因为形成该社区的主题并不是得自用户的所有信息，而只是用户的部分信息所得。

发明内容

为了克服现有社区发现方法对社区描述准确度差的不足，本发明提供一种基于主题交互的社区发现方法。该方法提取某一时间段内网络中文本、照片等的主题信息，对于社交网络中的用户、主题关系，根据网络中的每一次交互建立超图模型。对于超图模型中的每一条边，按照用户熵以及主题熵计算超边的权值，选取用户中的种子节点，并以这些种子节点出发构建初始子图，并根据超边权值计算不同节点的子图贡献度。迭代计算不同节点的贡献度，使得子图的密度达到最大，得到密集子图。以层次聚类的方法对密集子图进行不同程度的聚合，得到不同层次下的社区。由于以种子节点出发构建初始子图，并根据超边权值计算不同节点的子图贡献度，然后迭代计算不同节点的贡献度，得到密集子图，对密集子图进行不同程度的聚合，得到不同主题节点对社区的贡献值，准确地描述社区。

本发明解决其技术问题所采用的技术方案是：一种基于主题交互的社区发现方法，其特点是采用以下步骤：

步骤一、采用LDA提取微博网络中文本的主题信息，根据微博网络中用户的每一次交互信息建立超图模型。超图模型中包括用户节点以及主题节点；每一次发布行为构成一条发布边u-t，其中u表示用户，t表示主题，每一次转发行为构成一条转发边u1-t1-u2，暨用户u₁从用户u₂处转发了主题为t1的微博文本。

步骤二、计算用户集合U中不同用户有关不同主题的用户熵，同时计算主题集合T中不同主题有关不同用户的主题熵。采用计算发布边的权重，其中C_ut表示u-t边出现的次数，e_vu表示用户熵，e_vt表示主题熵；采用

w_{u_{1} {tu}_{2}} = C_{u_{1} {tu}_{2}} / ((e_{v_{u_{1}}} + 1) * (e_{v t} + 1) * (e_{v_{u 2}} + 1))

表示发布边的权值大小。

步骤三、在将网络映射为超图模型后，用表示子图V＇的密度，其中s表示子图中的所有边，w_s表示边的权值，s_i表示边s的第i个相关节点。表示s_i节点对整个子图的贡献程度。若子图V＇是密集子图，则f(x)达到最大值。在超图中进行社区发现的问题采用以下公式表达：

{\begin{matrix} \max f (x) = Σ_{v_{I}, ... v_{k} &Element; V} w (v_{1}, ... v_{k}) Π_{i = 1}^{k} x_{v_{i}} \\ s u c h t h a t Σ_{i = 1 ... k} x_{i} = 1 a n d x_{i} &Element; [0, ϵ] \end{matrix} - - - (1)

其中w(v₁,…v_k)表示包含节点v₁,…v_k的边的权值，所有节点对社区的最大贡献为1/ε,暨ε用来控制社区的初始大小。

计算网络中的每一个用户节点的邻居节点的数目|Nu|，其中Nu表示用户u的邻居节点集合，表示用户u的邻居节点u_i的邻居节点数，表示用户u的所有邻居节点的平均邻居节点数。选取|N_u|>avg(N_u)的用户节点作为种子节点。

从种子节点出发，选取与种子节点相关的节点构成初始子图。在初始子图中，根据节点所在超边的权重计算节点的权重比例p(i)＝(∑w(1,…k-1,i))/(∑w(1,…,k))，其中i表示节点，w(1,…,k)表示初始子图中的超边的权值，w(1,…k-1,i)表示初始子图中包含节点i的超边的权值。设暨对avg(N_u)向上取整。根据节点的权重比例,以及x_i<ε计算不同节点对密集子图的初始贡献度x_i。

步骤四、采用拉格朗日公式

L (x, λ, α, β) = f (x) - λ (Σ_{i = 1}^{n} x_{i} - 1) + Σ_{i = 1}^{n} α_{i} x_{i} + Σ_{i = 1}^{n} β_{i} (ϵ - x_{i})

进行问题求解。同时，对节点进行分类V_u(x)＝{i|x_i∈(0,ε]}，V_d(x)＝{i|x_i∈[0,ε)}，表示f(x)关于x_i的偏导数。对公式进行推导，根据组合优化的KKT条件，根据公式

x_{m}^{l + 1} = \{\begin{matrix} x_{m}^{l} & m &NotEqual; i, m &NotEqual; j \\ x_{m}^{l} + α & m = i \\ x_{m}^{l} - α & m = j \end{matrix}

迭代的计算节点x_m对密集子图的贡献程度，其中i表示Vu中g_i(x)最大的节点，j表示Vd中g_i(x)最小的节点，l表示迭代次数。

α = \{\begin{matrix} m i n {x_{j}, ϵ - x_{i}} & g_{i j} (x) \leq 0 \\ m i n {x_{j}, ϵ - x_{i}, (g_{i} (x) - g_{j} (x)) / 2 g_{i j} (x)} & g_{i j} (x) > 0 \end{matrix},

其中g_ij(x)表示x的两阶导。迭代终止条件为，节点贡献度不在变化或社区大小小于ε。得到社区的密集子图。

步骤五、对于得到的密集子图，采用Jaccard系数作为相似度进行度量，以层次聚类的方式得到不同程度下的社区。

本发明的有益效果是：该方法提取某一时间段内网络中文本、照片等的主题信息，对于社交网络中的用户、主题关系，根据网络中的每一次交互建立超图模型。对于超图模型中的每一条边，按照用户熵以及主题熵计算超边的权值，选取用户中的种子节点，并以这些种子节点出发构建初始子图，并根据超边权值计算不同节点的子图贡献度。迭代计算不同节点的贡献度，使得子图的密度达到最大，得到密集子图。以层次聚类的方法对密集子图进行不同程度的聚合，得到不同层次下的社区。由于以种子节点出发构建初始子图，并根据超边权值计算不同节点的子图贡献度，然后迭代计算不同节点的贡献度，得到密集子图，对密集子图进行不同程度的聚合，得到不同主题节点对社区的贡献值，准确地描述社区。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于主题交互的社区发现方法的流程图。

具体实施方式

参照图1。本发明基于主题交互的社区发现方法具体步骤如下：

步骤一、采用LDA提取微博网络中文本的主题信息，根据微博网络中用户的每一次交互信息(暨发布微博，转发微博)建立超图模型。超图模型中包括两类主题节点，用户节点以及主题节点；每一次发布行为构成一条发布边u-t,其中u表示用户，t表示主题，每一次转发行为构成一条转发边u1-t1-u2,暨用户u₁从用户u₂处转发了主题为t1的微博文本。

步骤二、计算U(用户集合)中不同用户有关不同主题的用户熵，同时计算T(主题集合)中不同主题有关不同用户的主题熵。用户熵越小，说明与用户相关的主题的多样性越低，暨与用户相关的主题的重要程度越高；同理主题熵越小，说明与主题相关的用户的重要程度越高。因此采用来计算发布边的权重，其中C_ut表示u-t边出现的次数，e_vu表示用户熵，e_vt表示主题熵；同理，采用

w_{u_{1} {tu}_{2}} = C_{u_{1} {tu}_{2}} / ((e_{v_{u_{1}}} + 1) * (e_{v t} + 1) * (e_{v_{u 2}} + 1))

表示发布边的权值大小。

步骤三、在将网络映射为超图模型后，暨相当于在超图模型中进行密集子图的发现。用表示子图V＇的密度，其中s表示子图中的所有边，w_s表示边的权值，s_i表示边s的第i个相关节点。表示s_i节点对整个子图的贡献程度。因此，若子图V＇是密集子图，则f(x)达到最大值。因此，在超图中进行社区发现的问题可以被如下公式表达：

{\begin{matrix} \max f (x) = Σ_{v_{I}, ... v_{k} &Element; V} w (v_{1}, ... v_{k}) Π_{i = 1}^{k} x_{v_{i}} \\ s u c h t h a t Σ_{i = 1 ... k} x_{i} = 1 a n d x_{i} &Element; [0, ϵ] \end{matrix} - - - (1)

计算网络中的每一个用户节点的邻居节点的数目|Nu|,其中Nu表示用户u的邻居节点集合，表示用户u的邻居节点u_i的邻居节点数，表示用户u的所有邻居节点的平均邻居节点数。选取|N_u|>avg(N_u)的用户节点作为种子节点，暨选取邻居节点数大于其邻居的平均邻居节点数的用户作为种子节点。

步骤四、公式1是组合优化问题，因此采用拉格朗日公式来进行问题求解暨

L (x, λ, α, β) = f (x) - λ (Σ_{i = 1}^{n} x_{i} - 1) + Σ_{i = 1}^{n} α_{i} x_{i} + Σ_{i = 1}^{n} β_{i} (ϵ - x_{i}) .

同时，对节点进行分类V_u(x)＝{i|x_i∈(0,ε]}，V_d(x)＝{i|x_i∈[0,ε)}，表示f(x)关于x_i的偏导数。对公式进行推导，根据组合优化的KKT条件，可以根据公式

x_{m}^{l + 1} = \{\begin{matrix} x_{m}^{l} & m &NotEqual; i, m &NotEqual; j \\ x_{m}^{l} + α & m = i \\ x_{m}^{l} - α & m = j \end{matrix}

α = \{\begin{matrix} m i n {x_{j}, ϵ - x_{i}} & g_{i j} (x) \leq 0 \\ m i n {x_{j}, ϵ - x_{i}, (g_{i} (x) - g_{j} (x)) / 2 g_{i j} (x)} & g_{i j} (x) > 0 \end{matrix},

其中g_ij(x)表示x的两阶导。迭代终止条件为，节点贡献度不在变化或社区大小小于ε。这样可以使得得到的社区的密度达到最大，暨得到密集子图。

Claims

1.一种基于主题交互的社区发现方法，其特征在于包括以下步骤：

步骤一、采用LDA提取微博网络中文本的主题信息，根据微博网络中用户的每一次交互信息建立超图模型；超图模型中包括用户节点以及主题节点；每一次发布行为构成一条发布边u-t，其中u表示用户，t表示主题，每一次转发行为构成一条转发边u1-t1-u2，暨用户u₁从用户u₂处转发了主题为t1的微博文本；

步骤二、计算用户集合U中不同用户有关不同主题的用户熵，同时计算主题集合T中不同主题有关不同用户的主题熵；采用计算发布边的权重，其中C_ut表示u-t边出现的次数，e_vu表示用户熵，e_vt表示主题熵；采用

w_{u_{1} {tu}_{2}} = C_{u_{1} {tu}_{2}} / ((e_{v_{u_{1}}} + 1) * (e_{v t} + 1) * (e_{v_{u 2}} + 1))

表示发布边的权值大小；

步骤三、在将网络映射为超图模型后，用表示子图V＇的密度，其中s表示子图中的所有边，w_s表示边的权值，s_i表示边s的第i个相关节点；表示s_i节点对整个子图的贡献程度；若子图V＇是密集子图，则f(x)达到最大值；在超图中进行社区发现的问题采用以下公式表达：

\{\begin{matrix} \max f (x) = Σ_{v_{l}, ... v_{k} &Element; V} w (v_{1}, ... v_{k}) Π_{i = 1}^{k} x_{v_{i}} \\ {such that Σ}_{i = l ... k} x_{i} = 1 a n d x_{i} &Element; [0, ϵ] \end{matrix} - - - (1)

其中w(v₁,…v_k)表示包含节点v₁,…v_k的边的权值，所有节点对社区的最大贡献为1/ε,暨ε用来控制社区的初始大小；

计算网络中的每一个用户节点的邻居节点的数目|Nu|，其中Nu表示用户u的邻居节点集合，|N_ui|表示用户u的邻居节点u_i的邻居节点数，表示用户u的所有邻居节点的平均邻居节点数；选取|N_u|>avg(N_u)的用户节点作为种子节点；

从种子节点出发，选取与种子节点相关的节点构成初始子图；在初始子图中，根据节点所在超边的权重计算节点的权重比例p(i)＝(∑w(1,…k-1,i))/(∑w(1,…,k))，其中i表示节点，w(1,…,k)表示初始子图中的超边的权值，w(1,…k-1,i)表示初始子图中包含节点i的超边的权值；设暨对avg(N_u)向上取整；根据节点的权重比例,以及x_i<ε计算不同节点对密集子图的初始贡献度x_i；

步骤四、采用拉格朗日公式

L (x, λ, α, β) = f (x) - λ (Σ_{i = 1}^{n} x_{i} - 1) + Σ_{i = 1}^{n} α_{i} x_{i} + Σ_{i = 1}^{n} β_{i} (ϵ - x_{i})

进行问题求解；同时，对节点进行分类V_u(x)＝{i|x_i∈(0,ε]}，V_d(x)＝{i|x_i∈[0,ε)}，表示f(x)关于x_i的偏导数；对公式进行推导，根据组合优化的KKT条件，根据公式

x_{m}^{l + 1} = \{\begin{matrix} x_{m}^{l} & m &NotEqual; i, m &NotEqual; j \\ x_{m}^{l} + α & m = i \\ x_{m}^{l} - α & m = j \end{matrix}

迭代的计算节点x_m对密集子图的贡献程度，其中i表示Vu中g_i(x)最大的节点，j表示Vd中g_i(x)最小的节点，l表示迭代次数；

α = \{\begin{matrix} \min {x_{j}, ϵ - x_{i}} & g_{i j} (x) \leq 0 \\ \min {x_{j}, ϵ - x_{i}, (g_{i} (x) - g_{j} (x)) / 2 g_{i j} (x)} & g_{i j} (x) > 0 \end{matrix},

其中g_ij(x)表示x的两阶导；迭代终止条件为，节点贡献度不在变化或社区大小小于ε；得到社区的密集子图；