CN105760426A

CN105760426A - 一种面向在线社交网络的主题社区挖掘方法

Info

Publication number: CN105760426A
Application number: CN201610059166.XA
Authority: CN
Inventors: 贺超波; 汤庸; 刘海; 陈国华; 付志文; 杨灵; 张世龙
Original assignee: South China Normal University; Zhongkai University of Agriculture and Engineering
Current assignee: South China Normal University; Zhongkai University of Agriculture and Engineering
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2016-07-13
Anticipated expiration: 2036-01-28
Also published as: CN105760426B

Abstract

本发明提出一种面向在线社交网络的主题社区挖掘方法，该方法是基于非负矩阵分解(Nonnegative Matrix Factorization，NMF)的主题社区挖掘方法，可以通过NMF模型统一集成用户节点链接和内容信息，并应用矩阵近似分解方法得到用户节点与社区之间的归属关系矩阵以及各社区与主题特征词之间的关联强度矩阵，从而可以利用分解矩阵信息直接挖掘主题社区。该方法不仅可以采用统一模型处理用户节点的链接和内容两类信息，而且挖掘过程更加简单有效，具备更好的挖掘质量，因此更适合实际应用于挖掘在线社交网络存在的主题社区。

Description

一种面向在线社交网络的主题社区挖掘方法

技术领域

本发明涉及在线社交网络服务技术领域，更具体的，涉及一种面向在线社交网络的主题社区挖掘方法。

背景技术

在线社交网络的主题社区挖掘不同于传统的只基于用户节点链接信息的社区挖掘，它综合考虑了用户节点的链接以及内容信息，从而可以获得成员节点链接紧密而且主题特征相似的社区。主题社区的挖掘结果在现实中更具有应用价值，例如可以为在线社交网络群体行为监测、舆情分析、电子商务运营商进行精准社会化营销以及广告投放等提供有力支持。

目前主题社区挖掘已成为在线社交网络社区挖掘问题新的研究热点，研究人员提出了一些具有代表性的方法，其中包括基于距离相似度计算的SACluster方法，基于概率模型的BAGC、LCTA、SNLDA方法以及基于图聚类模型的CODICIL方法等。总的来说，上述主题社区挖掘方法都存在如下问题：对用户节点链接信息和内容信息需要分别设计不同模型处理，社区挖掘过程需要划分多个阶段，从而造成挖掘过程过于复杂，并不适合实际应用。因此，现有主题社区挖掘方法仍有不断改善的空间，需要设计一种更加有效的方法。

发明内容

本发明针对现有方法存在的问题，提出一种面向在线社交网络的主题社区挖掘方法，该方法是基于非负矩阵分解(NonnegativeMatrixFactorization，NMF)的主题社区挖掘方法，可以通过NMF模型统一集成用户节点链接和内容信息，并应用矩阵近似分解方法得到用户节点与社区之间的归属关系矩阵以及各社区与主题特征词之间的关联强度矩阵，从而可以利用分解矩阵信息直接挖掘主题社区。该方法不仅可以采用统一模型处理用户节点的链接和内容两类信息，而且挖掘过程更加简单有效，具备更好的挖掘质量，因此更适合实际应用于挖掘在线社交网络存在的主题社区。

为了实现上述目的，本发明的技术方案为：

一种面向在线社交网络的主题社区挖掘方法，包括：

步骤1：形式化表示在线社交网络：

将在线社交网络形式化表示为无向图G＝(V,E,T)，

其中V＝{v₀,v₁,...,v_n-1}为用户节点集合，E＝{e_ij|v_i∈V,v_j∈V}为用户节点的链接边集合，T＝{t₀,t₁,...,t_m-1}为主题特征词汇集合，且有n＝|V|以及m＝|T|；

步骤2：构建用户节点链接矩阵和主题特征词关联矩阵其中表示非负数；

对于任意两个用户节点v_i和v_j，如果则X中对应的元素x_ij＝x_ji＝1，否则x_ij＝x_ji＝0；

由于能够从用户节点的内容信息中抽取出每个节点所关联的主题特征词集合，那么都能够关联一个主题特征词向量(y_0i,y_1i,...,y_(m-1)i)，其中y_ji用于表示用户节点v_i在特征词t_j的取值，所有用户节点关联的主题特征词向量计算完成后，则构成主题特征词关联矩阵Y；

步骤3：构建主题社区挖掘模型：

设社区挖掘数为k，令用于表示用户节点与主题社区的归属关系矩阵，用于表示主题社区之间的交互程度矩阵，表示主题特征词与主题社区的关联强度矩阵，表示非负数，则主题社区挖掘模型为：

m i n {J (H, S, W) = \frac{1}{2} (| | X - {HSH}^{T} | |_{F}^{2} + | | Y - {WH}^{T} | |_{F}^{2})}

其中上标T表示矩阵转置；下标F表示Frobenius范数；

步骤4：求解主题社区挖掘模型：

通过将最小化目标函数J(H,S,W)转化为典型的受限约束求极值问题，然后应用拉格朗日乘数方法进行求解；

步骤5：获取主题社区挖掘结果：

首先设定迭代次数t以及收敛阈值ω，随机初始化H，S以及W，然后迭代应用H，S以及W的乘性迭代求解规则，当迭代次数超过t或者

\frac{1}{2} (| | X - {HSH}^{T} | |_{F}^{2} + | | Y - {WH}^{T} | |_{F}^{2}) > ω,

则可以获得H，S以及W的局部最优解，最后根据H获取k个主题社区：假定待挖掘的k个主题社区为C＝{c₀,c₁,...,c_k-1}，对于任意一个用户节点v_i，则有c_p＝c_p∪{v_i}，

且对于任意一个社区c_i，根据W对应的列向量W_i获取该社区关联的主题特征词。

优选的，用于表示用户节点v_i在特征词t_j的取值y_ji，其取值采用经典的词袋模型TF/IDF进行计算，即有：y_ji＝f_jilogn/n_j，其中f_ji为特征词t_j在用户节点v_i内容文档中出现的次数，n_j为包含特征词t_j的用户节点数量。

优选的，所述步骤4中通过将最小化目标函数J(H,S,W)转化为典型的受限约束求极值问题，应用拉格朗日乘数方法进行求解，其具体操作过程为：

(1)构建J(H,S,W)的拉格朗日乘数函数L为：

L＝J(H,S,W)+tr(αH^T)+tr(βS^T)+tr(λW^T)，

其中α＝[α_ij]^n×k、β＝[β_pq]^k×k和λ＝[λ_ab]^m×k分别为H，S和W对应的拉格朗日乘数；

(2)引入Karush-Kuhn-Tucker条件，计算：

(3)令以及根据KKT平滑条件，有h_ijα_ij＝0，s_pqβ_pq＝0，w_abλ_ab＝0，则可以分别获得H，S以及W的乘性迭代求解规则为：

\begin{matrix} h_{i j} = h_{i j} \frac{{[{XHS}^{T} + X^{T} H S + Y^{T} W]}_{i j}}{{[{HSH}^{T} + {HS}^{T} + {HS}^{T} H^{T} H S + {HW}^{T} W]}_{i j}}, s_{p q} = s_{p q} \frac{{[{αH}^{T} X H]}_{p q}}{{[{αH}^{T} {HSH}^{T} H]}_{p q}} \\ w_{a b} = w_{a b} \frac{{[Y H]}_{a b}}{{[{WH}^{T} H]}_{a b}} \end{matrix} .

与现有主题社区挖掘技术相比，本发明的有益效果在于：具有统一的模型处理用户节点的链接信息以及内容信息，可以根据模型求解结果直接获得主题社区挖掘结果，更适合实际操作应用，同时主题社区挖掘质量可得到更好的保证。

附图说明

图1是本发明方法的流程图。

图2是一个在线社交网络示例，其中每一个用户节点都关联有主题特征词。

图3是对在线社交网络示例进行主题社区挖掘的结果。

具体实施方式

下面结合图2所示的一个在线社交网络示例说明本发明方法的具体实施方式。

步骤1：形式化表示在线社交网络。对在线社交网络示例形式化表示为G＝(V,E,T)，其中V＝(v₀,v₁,v₂,v₃,v₄,v₅,v₆,v₇)，

E＝{e₀₁,e₀₄,e_12,e₂₄,e₃₄,e₄₅,e₅₆,e₅₇,e₆₇}，T＝{社交网络,大数据}，n＝8，m＝2。

步骤2：构建用户节点链接矩阵和主题特征词关联矩阵根据V和E，可得到X为：

X = [\begin{matrix} 0 & 1 & 0 & 0 & 1 & 0 & 0 & 0 \\ 1 & 0 & 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 \\ 1 & 0 & 1 & 1 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 & 0 & 1 & 1 \\ 0 & 0 & 0 & 0 & 0 & 1 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 & 1 & 1 & 0 \end{matrix}]

对于Y，需要首先依次计算各用户节点关联的主题特征词特征向量。以用户节点v₄为例，该节点关联2个主题特征词：社交网络和大数据，并且各出现1次，由于t₀＝(社交网络)，t₁＝(大数据)，则有f₀₄＝1，f₁₄＝1，具有主题特征词社交网络的用户节点数n₀＝4，具有主题特征词大数据的用户节点数n₁＝5，可以计算y₀₄＝1×log9/4＝0.35，y₁₄＝1×log9/5＝0.26，则v₄关联的主题特征词特征向量为(0.35,0.26)。同理可计算其它用户节点v₀、v₁、v₂、v₃、v₅、v₆以及v₇的主题特征词特征向量分别为[0,0.26]、[0,0.26]、[0,0.26]、[0,0.26]、[0.35,0]、[0.35,0]以及[0.35,0]，可得到Y为：

Y = [\begin{matrix} 0.00 & 0.00 & 0.00 & 0.00 & 0.35 & 0.35 & 0.35 & 0.35 \\ 0.26 & 0.26 & 0.26 & 0.26 & 0.26 & 0.00 & 0.00 & 0.00 \end{matrix}]

步骤3：构建主题社区挖掘模型。设定社区挖掘数k＝2，令用于表示用户节点与主题社区的归属关系矩阵，用于表示主题社区之间的交互程度矩阵，表示主题特征词与主题社区的关联强度矩阵，构建的主题社区挖掘模型为：

m i n {J (H, S, W) = \frac{1}{2} (| | X - {HSH}^{T} | |_{F}^{2} + | | Y - {WH}^{T} | |_{F}^{2})}

步骤4：求解主题社区挖掘模型。通过如下乘性迭代规则求解：

\begin{matrix} h_{i j} = h_{i j} \frac{{[{XHS}^{T} + X^{T} H S + Y^{T} W]}_{i j}}{{[{HSH}^{T} + {HS}^{T} + {HS}^{T} H^{T} H S + {HW}^{T} W]}_{i j}}, s_{p q} = s_{p q} \frac{{[{αH}^{T} X H]}_{p q}}{{[{αH}^{T} {HSH}^{T}]}_{p q}} \\ w_{a b} = w_{a b} \frac{{[Y H]}_{a b}}{{[{WH}^{T} H]}_{a b}} \end{matrix},

步骤5：获取主题社区挖掘结果。设置迭代次数t＝30，收敛阈值ω＝15，使用非负值随机初始化H、S以及W，本示例的H、S以及W的随机初始化结果为：

H = [\begin{matrix} 29.83 & 67.57 \\ 72.32 & 56.08 \\ 11.03 & 63.78 \\ 74.06 & 33.36 \\ 55.42 & 96.14 \\ 11.71 & 20.21 \\ 36.91 & 15.93 \\ 68.54 & 78.98 \end{matrix}], S = [\begin{matrix} 67.47 & 33.19 \\ 48.91 & 80.29 \end{matrix}], W = [\begin{matrix} 92.57 & 58.86 \\ 41.36 & 52.11 \end{matrix}]

迭代收敛后获得的H、S以及W的结果为：

H = [\begin{matrix} 0.03 & 0.68 \\ 0.00 & 0.69 \\ 0.03 & 0.68 \\ 0.07 & 0.42 \\ 0.44 & 0.64 \\ 0.87 & 0.11 \\ 0.76 & 0.00 \\ 0.76 & 0.00 \end{matrix}], S = [\begin{matrix} 0.81 & 0.06 \\ 0.06 & 0.81 \end{matrix}], W = [\begin{matrix} 0.89 & 0.12 \\ 0.00 & 0.83 \end{matrix}]

根据H可判断待挖掘的2个主题社区c₀和c₁的成员，例如对于用户节点v₀，其在H中对应的社区归属度分布向量为[0.03,0.68]，0.68>0.03，所以c₁＝c₁∪{v₀}，同理，可判断其余用户节点的社区归属关系，最终的主题社区划分结果为：c₀＝{v₅,v₆,v₇}，c₁＝{v₀,v₁,v₂,v₃,v₄}。此外，根据W可判断每一个主题社区的强关联主题特征词，对于社区c₀，其在W对应的主题特征词关联强度分布向量为[0.89,0.00]，可判断该社区的强关联主题特征词为t₀＝(社交网络)，同理可判断社区c₁的强关联主题特征词为t₁＝(大数据)。

以上所述的本发明的实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种面向在线社交网络的主题社区挖掘方法，其特征包括：

步骤1：形式化表示在线社交网络：

将在线社交网络形式化表示为无向图G＝(V,E,T)，其中V＝{v₀,v₁,...,v_n-1}为用户节点集合，E＝{e_ij|v_i∈V,v_j∈V}为用户节点的链接边集合，T＝{t₀,t₁,...,t_m-1}为主题特征词汇集合，且有n＝|V|以及m＝|T|；