CN102880644B

CN102880644B - 社区发现方法

Info

Publication number: CN102880644B
Application number: CN201210304097.6A
Authority: CN
Inventors: 于秦; 李定伟; 马立香; 毛玉明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2012-08-24
Filing date: 2012-08-24
Publication date: 2015-05-06
Anticipated expiration: 2032-08-24
Also published as: CN102880644A

Abstract

本发明公开了一种社区发现方法。包括步骤：分析每个用户的信息，从中提取特征词，计算用户对应的特征向量；以某一个用户为基准，计算其余用户与该用户的相似度；将相似度高于门限值的用户标记为相似用户，将所有相似用户合并成为一个新的用户，被合并的相似用户记录为新用户的子用户，计算并简化新用户的特征向量；直到新用户达到设定的社区发现门限时完成新社区的发现。本发明的方法根据用户多属性相似度进行社区划分，不依赖用户的网络行为，在社会网络形成之初就能将兴趣相似、研究方向相似、行为方式相似的用户们组织在一个社区内，且发现的社区属性丰富，社区用户相似度高，能够为用户提供一个较为理想的信息交流和共享的平台。

Description

社区发现方法

技术领域

本发明属于社会网络领域，具体涉及一种基于多属性相似度的社区发现方法。

背景技术

随着互联网的快速发展，社会网络得到了越来越多的关注，如何发掘社会网络内个体的关系，已经成为研究的重点。社会网络是由一个个单独的个体组成的，这些个体之间相互联系相互依赖形成了一个关系网络，这些个体之间的联系有紧密的，也有稀疏的，将社会网络中具有紧密联系的个体的集合称为社区。社区发现是社会网络分析的一种重要方法，可以发现社会网络中内部紧密联系的个体；社区存在的意义是为了给社会网络中的个体提供一个相互交流和共享信息的平台，因此，如何正确划分一个社区将直接决定这个社区的价值。

现有的社区发现方法主要有两类，第一类方法是基于个体的兴趣，计算各个个体兴趣的相似度，将个体按兴趣划分到不同的群组，从而得到以兴趣为中心的社区结构；第二类方法是基于个体的直接关系，将社会网络划分为各个社区，形成以个体为中心的社区网络。按照上述方法划分社区时都存在一定的缺陷。第一类方法只按照个体的兴趣来划分社区，这样的社区属性比较单调，可交流或共享的信息局限，且个体之间的关系不紧密，即使有相同的兴趣可能也会因为层次的不同而不能很好的沟通；按照第二类方法划分的社区中，个体联系比较紧密，但由于社区属性过于庞杂，主题明确不明确，个体之间不能有很好的交流点。

发明内容

本发明的目的是为了解决现有的社区发现方法存在的上述问题，提出了一种社区发现方法。

本发明的技术方案是：一种社区发现方法，具体包括如下步骤：

步骤1：建立一个基准特征向量和特征词库；

步骤2：提取社会网络中的用户特征词，所述社会网络可以图的形式来表示，令G=(V,E)，其中，G表示一个社会网络，V表示用户v的集合，E表示用户之间边e的集合；社会网络图中的每个节点代表一个用户，每个用户的用户信息用来描述用户的属性，用户信息可以分割为多个标签，标签是用户信息的基本单位。将每个标签看成关键词，然后将各个关键词与已建立的特征词库里的特征词作比较，若该关键词存在于特征词库里，则该关键词就为特征词，反之，则不是特征词；

步骤3：建立用户特征向量，用户v_i的特征向量用数学符号来表示，其中，i为用户标号，为特征向量的分量；

步骤4：计算用户相似度，根据步骤3得到用户特征向量，随机以某一个用户为基准，计算其余用户与该基准用户的相似程度，两个用户v_i和v_j相似度的采用如下公式得到：

sim ({\overset{&RightArrow;}{L}}_{i}, {\overset{&RightArrow;}{L}}_{j}) = w_{1} sim ({\overset{&RightArrow;}{A}}_{i}, {\overset{&RightArrow;}{A}}_{j}) + w_{2} sim ({\overset{&RightArrow;}{B}}_{j}, {\overset{&RightArrow;}{B}}_{j}) + w_{3} sim ({\overset{&RightArrow;}{C}}_{i}, {\overset{&RightArrow;}{C}}_{j}) + . . . i &NotEqual; j

其中，和分别为用户v_i和v_j的特征向量，特征向量中的元素个数为N，各个分向量的相似度的权重w_i,(i=1,2,...,N)满足

是和的分向量的相似度，采用如下公式：

sim ({\overset{&RightArrow;}{A}}_{i}, {\overset{&RightArrow;}{A}}_{j}) = \frac{{\overset{&RightArrow;}{A}}_{i} \cdot {\overset{&RightArrow;}{A}}_{j} + ϵ}{\max ({| | {\overset{&RightArrow;}{A}}_{i} | |}^{2}, {| | {\overset{&RightArrow;}{A}}_{j} | |}^{2}) + ϵ} + \frac{\min ({| | {\overset{&RightArrow;}{A}}_{i} | |}^{2}, {| | {\overset{&RightArrow;}{A}}_{j} | |}^{2}) - {\overset{&RightArrow;}{A}}_{i} \cdot {\overset{&RightArrow;}{A}}_{j}}{{| | {\overset{&RightArrow;}{A}}_{\max} | |}^{2}}, i &NotEqual; j

其中，分别为两个用户所对应的特征向量中分向量的模，表示两个分向量的内积，ε表示一个极小值，表示全为1的向量，即

步骤5：将相似度高于相似门限值的用户记录为相似用户，把所有的相似用户合并成为一个新的用户，被合并的相似用户记录为新用户的子用户；

步骤6：重复步骤4和步骤5，直到所有用户都被划分到新用户中，若新用户达到预先设定的社区发现的门限值时，发现新的社区，该新用户内的所有子用户组成一个社区。

进一步的，步骤6中所述的发现新的社区具体过程如下：

步骤7：计算步骤6中得到的新用户对应的用户特征向量，新用户对应的用户特征向量是通过其子用户的特征向量计算得到的，该步骤分为两个部分：更新基准特征向量和计算新用户特征向量；

更新基准特征向量将所有子用户的各个分量的模相加，得到新用户各个分量的相似度权值W_m，其中，m表示新用户的标号，具体的计算公式为：p表示子用户v_p，然后将所有新用户的各个分量的相似度权值W_m相加得到总相似权值W，将总权值W中最小的αN个特征分量从基准特征向量中删除，其中，α为预先设定的第一阈值，取值范围为(0 1)，得到一个新的基准特征向量该基准特征向量的特征分向量的个数更改为(1－α)N。

根据更新的基准特征向量和子用户的特征向量计算新用户对应的特征向量；

步骤8：重复步骤4至步骤7，直到新用户找不到与它相似的用户或者新用户对应的基准特征向量的特征分向量的个数等于βN时，发现新社区，其中，β为预先设定的第二阈值，取值范围为(0 1)，该新用户下的所有子用户都是所述新社区的成员，将所述新社区对应的特征分向量作为关键词添加到新社区的属性标签里，当所有社区发现完时，将基准特征向量还原到初始状态，基准特征向量的特征分向量个数为N；

步骤9：简化社会网络。

简化所有用户的特征向量，为每个用户生成一个其对应的新的特征向量所述特征向量的每个分量是数字“1”或“0”，分量个数为N，若用户特征向量的分向量中有用户信息的特征词，则相应的分量值为“1”，反之则为“0”；

为每个社区生成其对应的社区特征向量所述特征向量的每个分量与的中的每个分量是一一对应的，每个分量是数字“1”或“0”，分量个数为N，从社区的标签中提取特征词，将社区特征词对应的分量用“1”表示，其余的都用“0”表示；

一一计算某个用户与其所属社区外的所有社区的相似度，对于某个社区，若计算得到的相似度小于预先设定的第三阈值，则去除所述用户与所述社区内所有用户的连接，将所有用户遍历一次，则得到一个精简社会网络。

本发明的有益效果：本发明的方法是根据用户多属性相似度进行社区划分，不依赖于用户的网络行为，在社会网络形成之初就能将兴趣相似、研究方向相似、行为方式相似的用户们组织在一个社区内，且发现的社区属性丰富、主题多样，社区用户相似度高，能够为用户提供一个较为理想的信息交流和共享的平台。

附图说明

图1为本发明社区发现方法的流程示意图。

图2为社会网络的表示图。

图3为基于社区简化后的社会网络表示图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的说明：

针对背景技术中提到的现有社区发现方法存在的社区属性单调、共享信息局限、主题不明确等不足，本发明提出了一种社区发现方法，具体为基于多属性相似度的社区发现方法。

为了更好的理解本发明，首先对社会网络相关概念作一说明。本发明所述社会网络以图的形式表示，如图2所示，令G=(V,E)，其中，V表示用户v的集合，E表示用户之间边e的集合，初始社会网络中的用户都是两两相连的。

社会网络图中每个用户有自己的用户信息，用户信息用来描述用户的属性。用户信息可以分割为多个标签，而标签是用户信息的基本单位。

根据用户信息的内容特点为用户设置的特征向量，是由所述用户信息的特征词构成的，每个用户对应一个特征向量，每个有意义的标签对应一个特征词，所述特征词能够充分体现用户的研究方向，喜好，关注的问题等。特征向量用数学符号来表示，每个分量可以是数字，对应一个特征词；也可以是一个向量，对应一个特征类，每个特征类中包含一定的数量的特征值。

例如，用户信息中可以包含用户的研究方向，一般的研究方向有哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、管理学。这些研究方向就是一个特征分量，每个特征分量有自己一定数量的特征值。以其中几个特征分量为例，经济学包含经济类、财政类、保险类，金融类、贸易类等特征词；法学包含法学类、马克思主义理论类、社会学类、政治学类、公安学类等特征词；医学包含基础医学类、预防医学类、临床医学类、口腔医学类、中医学类、法医学类、护理学类、医药学类等特征词。由此，特征向量中的特征向量和可使用数学符号形式表示为：

经济学向量

法学向量

医学向量

其中，向量中的每个特征词的对应的分量分别用“1”和“0”表示用户信息中是否存在该特征词。

本发明社区发现方法的流程示意图如图1所示，具体包括以下步骤：

步骤1：建立一个基准特征向量和特征词库，所述的特征词库尽可能包含了所有用户的有用信息中存在的特征词，根据特征词库生成基准特征向量特征分向量中的每个特征词的对应的分量分别用“1”和“0”表示用户信息中是否存在该特征词，其中，的特征分量个数为N。

步骤2：从用户信息中提取用户特征词。用户信息可以分割为多个标签（具体的分割处理可以利用现有的相关技术完成），将每个标签先看成关键词，然后将各个关键词与特征词库里的特征词作比较，若该关键词存在于特征词库里，则该关键词就为特征词，反之，则不是特征词。例如：通过分割处理用户v_i的用户信息，得到用户v_i的标签为金融学、社会学、阳光、平易近人、爬山、骑车、吉他、NBA等，将这些关键词与特征词库就比较，得到用户v_i的特征词为金融学、社会学、爬山、骑车、吉他、NBA。

步骤3：建立用户的特征向量。

用户v_i的特征向量用数学符号来表示，其中，i为用户标号，为特征向量的分量。这里的每个分量可以是数字，对应一个特征词；也可以是一个向量，对应一个特征类，每个特征类中包含一定的数量的特征词，可使用数学符号形式表示为

{\overset{&RightArrow;}{A}}_{i} = (a_{1}, a_{2}, a_{3}, . . .),

{\overset{&RightArrow;}{B}}_{i} = (b_{1}, b_{2}, b_{3}, . . .),

{\overset{&RightArrow;}{C}}_{i} = (c_{1}, c_{2}, c_{3}, . . .),

以基准特征向量为模版，对比用户特征词，将用户特征词对应的分量用“1”表示，其余的都用“0”表示。继续以用户v_i为例，根据从步骤2中得到特征词，用户v_i的特征向量（0,0,1,0,0）,（0,0,0,0,0,0,0,0），…，（0,1,1,0,0,0）…，（1,0,0,0,0），（0,0,0,1,0,0,0,0）…）。

步骤4：随机选取一个用户为基准，根据用户的特征向量，计算其他用户与该用户的相似度。所述用户相似度的计算采用如下公式：

sim ({\overset{&RightArrow;}{L}}_{1}, {\overset{&RightArrow;}{L}}_{2}) = w_{1} sim ({\overset{&RightArrow;}{A}}_{1}, {\overset{&RightArrow;}{A}}_{2}) + w_{2} sim ({\overset{&RightArrow;}{B}}_{1}, {\overset{&RightArrow;}{B}}_{2}) + w_{3} sim ({\overset{&RightArrow;}{C}}_{1}, {\overset{&RightArrow;}{C}}_{2}) + . . .

其中，和分别为用户v₁和v₂的特征向量，特征向量中的元素个数为N。不失一般性，本发明中，假设用户的每个特征分量都同等重要，即各个分向量的相似度的权重w_i=1/N,(i=1,2,…,N)。的取值范围为[0,1]，值越接近1，说明两个用户之间的相似度越大。

是用户v₁和v₂的特征向量和的分向量的相似度，采用如下公式：

sim ({\overset{&RightArrow;}{A}}_{1}, {\overset{&RightArrow;}{A}}_{2}) = \frac{{\overset{&RightArrow;}{A}}_{1} \cdot {\overset{&RightArrow;}{A}}_{2} + ϵ}{\max ({| | {\overset{&RightArrow;}{A}}_{1} | |}^{2}, {| | {\overset{&RightArrow;}{A}}_{2} | |}^{2}) + ϵ} + \frac{\min ({| | {\overset{&RightArrow;}{A}}_{1} | |}^{2}, {| | {\overset{&RightArrow;}{A}}_{2} | |}^{2}) - {\overset{&RightArrow;}{A}}_{1} \cdot {\overset{&RightArrow;}{A}}_{2}}{{| | {\overset{&RightArrow;}{A}}_{\max} | |}^{2}}

其中，和分别为两个用户v₁和v₂所对应的特征向量中分向量的模，表示两个分向量的内积，ε表示一个极小值，表示全为1的向量，需要说明的是：这里为了防止分母为0，设置一个极小值ε，取一个无限接近于0的值，这里的极小值ε对于本领域技术人员来说，其含义是清楚的。假设即

由上式可见，的取值范围为[0,1]，由两部分组成，是根据中完全相同的特征词计算出来的相似度，若两个向量完全相同（和都为空也是完全相同的两个向量），得到在每一个分向量中，a_i和a_j（i≠j）虽然不是相同特征词，但它们在同一个分向量中，具有一定的相似度，可以近似的认为因此是根据中不同的特征词计算出来的相似度。例如通过上述公式的计算得到

步骤5：根据相似度门限值γ合并用户，生成新的用户，被合并的用户记录为新用户的子用户。本发明设定相似度门限值γ为0.7，例如，用户v₁为基准用户，用户v₃、v₇、v₈与v₁的相似度达到0.7以上，将它们进行合并，得到新用户v_a1，用户v₁、v₃、v₇、v₈都记录为其子用户。

作为一种优选方案，步骤6中所述的发现新的社区具体过程如下：

步骤7：计算步骤6中得到的新用户对应的用户特征向量。新用户对应的用户特征向量是通过其用户的特征向量计算得到的。该步骤分为两个部分：更新基准特征向量和计算新用户特征向量。

更新基准特征向量将所有子用户的各个分量的模相加，得到新用户各个分量的相似度权值W_m（m表示新用户的标号），具体的计算公式为：p表示子用户v_p。然后将所有新用户的各个分量的相似度权值W_m相加得到总相似权值W，M表示新用户的总数，最后将总权值W中最小的0.2N个特征分量从基准特征向量中删除，得到一个新的基准特征向量该基准特征向量的特征分向量的个数更改为0.8N。

根据更新的基准特征向量和子用户的特征向量计算新用户对应的特征向量。以新用户v_a1为例，用户v₁、v₃、v₇、v₈是其子用户，先计算各个分量的特征词相似度权重分量(其中)。假设特征分向量具体的计算公式如下：取(q₁,q₂,q₃,q₄,q₅)中最大的两个值所对应的特征词作为新用户分向量的特征词，以此类推，可以得到新用户v_a1对应的特征向量

步骤8：重复步骤4至步骤7，直到新用户找不到与它相似的用户或者新用户对应的基准特征向量的特征分向量的个数等于0.4N时，发现新社区s（S表示社区s的集合，s∈S），该新用户下的所有子用户都是所述新社区的成员。将所述新社区对应的特征分向量作为关键词添加到新社区的属性标签里。当所有社区发现完时，将基准特征向量还原到初始状态，基准特征向量的特征分向量个数为N。

步骤9：简化社会网络。初始的社会网络中的用户都是两两相连，这样的网络过于复杂，可以根据用户与其他社区之间的相似度简化社会网络，去除相似度较小的连接。

简化用户的特征向量，得到一个新的用户特征向量，所述特征向量的每个分量是数字“1”或“0”，分量个数为N，若用户特征向量的分向量中有用户信息的特征词，则相应的分量值为“1”，反之则为“0”。

为每个社区生成其对应的社区特征向量所述特征向量的每个分量与的中的每个分量是一一对应的，每个分量是数字“1”或“0”，分量个数为N。从社区的标签中提取特征词，将社区特征词对应的分量用“1”表示，其余的都用“0”表示。

例如，计算用户v_i与其所属社区外的社区s_k的相似度，是用户v_i的特征向量和社区s_k的特征向量的相似度，采用如下公式：若的值小于0.2，则去除所述用户v_i与所述社区s_k 内所有用户的连接，以此类推，将所有用户遍历一次，则得到一个精简社会网络，如图3所示。

以上是本发明的具体实现方式。

本发明根据用户多属性相似度来划分社区，将多种兴趣相似（例如：都爱好体育、电影、音乐等）、研究方向相似、行为方式相似的用户们组织在一个社区内。该社区属性丰富，主题多样，社区用户相似度高，能够为用户提供一个较为理想的信息交流和共享的平台。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种社区发现方法，具体包括如下步骤：

步骤1：建立一个基准特征向量和特征词库；

步骤2：提取社会网络中的用户特征词，所述社会网络以图的形式来表示，令G＝(V,E)，其中，G表示一个社会网络，V表示用户v的集合，E表示用户之间边e的集合；社会网络图中的每个节点代表一个用户，每个用户的用户信息用来描述用户的属性，用户信息分割为多个标签，标签是用户信息的基本单位，将每个标签看成关键词，然后将各个关键词与已建立的特征词库里的特征词作比较，若该关键词存在于特征词库里，则该关键词就为特征词，反之，则不是特征词；

其中，和分别为用户v_i和v_j的特征向量，特征向量中的元素个数为N，各个分向量的相似度的权重w_i,(i＝1,2,...,N)满足

是和的分向量的相似度，采用如下公式：

步骤6：重复步骤4和步骤5，直到所有用户都被划分到新用户中，若新用户达到预先设定的社区发现的门限值时，发现新的社区，该新用户内的所有子用户组成一个社区；

步骤6中所述的发现新的社区具体过程如下：

更新基准特征向量将所有子用户的各个分量的模相加，得到新用户各个分量的相似度权值W_m，其中，m表示新用户的标号，具体的计算公式为：p表示子用户v_p，然后将所有新用户的各个分量的相似度权值W_m相加得到总相似权值W，M表示新用户的总数，将总权值W中最小的αN个特征分量从基准特征向量中删除，其中，α为预先设定的第一阈值，取值范围为(0，1)_，得到一个新的基准特征向量该基准特征向量的特征分向量的个数更改为(1－α)N；

步骤8：重复步骤4至步骤7，直到新用户找不到与它相似的用户或者新用户对应的基准特征向量的特征分向量的个数等于βN时，发现新社区，其中，β为预先设定的第二阈值，取值范围为(0，1)，该新用户下的所有子用户都是所述新社区的成员，将所述新社区对应的特征分向量作为关键词添加到新社区的属性标签里，当所有社区发现完时，将基准特征向量还原到初始状态，基准特征向量的特征分向量个数为N；

步骤9：简化社会网络，