CN101877711B

CN101877711B - 社会网络建立方法及装置、以及社区发现方法及装置

Info

Publication number: CN101877711B
Application number: CN 200910135387
Authority: CN
Inventors: 刘茂征
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-04-28
Filing date: 2009-04-28
Publication date: 2013-08-28
Anticipated expiration: 2029-04-28
Also published as: CN101877711A

Abstract

本发明公开了一种社会网络建立方法及装置、社区发现方法及装置，包括：分别从各信息单元中提取特征词，根据所述特征词计算各信息单元对应的特征向量；根据所述特征向量分别计算每两信息单元之间的相似度；根据计算得到的信息单元之间的相似度，建立社会网络。上述方法和装置能够更加真实的体现网络中节点间的联系，并能够更好的对有权网络进行社区划分。

Description

社会网络建立方法及装置、以及社区发现方法及装置

技术领域

本发明涉及网络建立以及社区挖掘技术，尤其涉及社会网络建立方法及装置、以及社区发现方法及装置。

背景技术

复杂网络是对于复杂系统的高度抽象，其中，网络的许多性质，如小世界性质、无标度性质以及聚集性质等等，已经得到了充分的研究。大量文献表明：复杂网络呈现出的社区结构(Community structure)特性、以及如何在大型网络中高效地发现社区(Community finding)问题是近年来复杂网络的研究热点。

社区是指网络中满足同一类型的节点及这些节点之间的连接构成的子图。社区发现是网络分析的一种重要方法，可以发现网络中内部联系紧密的社区。随着对网络性质的物理意义和数学特性的深入研究，大量实证研究表明，许多网络是异构的，即网络不是由一大批性质完全相同的节点随机地连接在一起，而是许多类型节点的组合，相同类型的节点之间存在的连接较多，不同类型节点之间存在的连接相对较少。

在网络中自动搜寻或发现社区具有重要的实用价值，如：社会网络中的社区代表有共同兴趣或相似背景的真实社会团体；引文网络中的社区代表针对同一方向的相关论文；万维网中的社区就是讨论相关主题的若干网站；生物化学网络或者电子电路网络中的社区则是某一类功能单元；音乐论坛中的社区可以是喜好相近的一些用户发起的若干主题，或者兴趣取向相近的用户组成的用户群等等。揭示和发现网络中的社区结构，对了解网络结构与分析网络特性十分重要，有助于更加有效地理解和开发这些网络。

所述网络分为无权网络和有权网络，其中，无权网络中，节点与节点之间的关系简化为“有关系”和“无关系”两种状态；有权网络中，节点与节点之间的关系则引入了节点间相互作用的强度，刻画了连接的多样性，增加了网络的抽象刻画能力。目前，在进行网络分析和挖掘时，均建立无权网络，所提出的社区发现方法也大都针对无权网络。当建立无权网络时，由于节点间关系简化为“有关系”和“无关系”两种状态，从而，这样的简化导致了节点间有用价值的大量丧失，使得网络无法真实体现节点间的联系；在此基础上所提出的社区发现方法也无法很好的对社区进行划分。

发明内容

有鉴于此，本发明要解决的技术问题是，提供一种社会网络建立方法及装置，能够更加真实的体现网络中节点间的联系。

本发明还提供一种社区发现方法及装置，能够更好的对网络进行社区划分。

为此，本发明实施例采用如下技术方案：

本发明实施例提供一种社会网络建立方法，包括：

分别从各信息单元中提取特征词，根据所述特征词计算各信息单元对应的特征向量；

根据所述特征向量分别计算每两信息单元之间的相似度；

根据计算得到的信息单元之间的相似度，建立社会网络。

本发明实施例还提供一种网络社区发现方法，包括：

查找网络中最大的相似度所对应的两个节点，将所述两个节点合并为一个新节点；

计算所述新节点与该新节点邻接节点的相似度；

返回所述查找步骤，直至网络满足社区发现条件，输出社区发现结果。

本发明实施例还提供一种社会网络建立装置，包括：提取单元、向量计算单元、相似度计算单元、以及网络建立单元；其中，

提取单元，用于从各信息单元中提取特征词；

向量计算单元，用于根据提取单元提取到的所述特征词，计算各信息单元对应的特征向量；

相似度计算单元，用于根据向量计算单元计算得到的特征向量，分别计算每两信息单元之间的相似度；

网络建立单元，用于根据相似度计算单元计算得到的所述相似度，建立社会网络。

本发明实施例同时提供一种网络社区发现装置，包括：合并模块、相似度计算模块、社区发现结果输出模块；其中，

合并模块，用于查找网络中最大的相似度所对应的两个节点，将所述两个节点合并为一个新节点；

相似度计算模块，用于计算合并模块合并得到的所述新节点与该新节点邻接节点的相似度；

社区发现结果输出模块，用于当网络满足社区发现条件时，输出社区发现结果。

对于上述技术方案的技术效果分析如下：

从各信息单元中提取特征词，根据所述特征词计算各信息单元对应的特征向量；根据所述特征向量分别计算每两信息单元之间的相似度；根据计算得到的信息单元之间的相似度，建立社会网络；从而，根据信息单元的内容进行特征向量的计算，并最终计算得到信息单元直接的相似度，建立社会网络，使得建立的网络为有权网络，且连接权值与信息单元的内容相关联，从而能够更加真实的体现网络中信息单元间的内容联系程度。

附图说明

图1为本发明实施例社会网络建立方法流程示意图；

图2为本发明实施例一种社区发现方法流程示意图；

图3为本发明实施例另一种社区发现方法流程示意图；

图4为本发明实施例一种社会网络建立装置结构示意图；

图5为本发明实施例一种社区发现装置结构示意图。

具体实施方式

本发明实施例中社会网络建立方法以及社区发现方法是从信息单元发布的信息单元内容出发，网络中的节点表示信息单元，每个信息单元可以用ID号标识，且根据一类信息单元的内容特点设置特征向量，由所述一类信息单元的特征词构成，每个信息单元对应一个特征向量；用节点间的连接权值表示两个信息单元之间的相似度，所述连接权值根据信息单元对应的特征向量计算。

在设置某一类信息单元对应的特征向量时，所述特征向量由信息单元中的特征词构成，所述特征词体现发布一类信息单元用户的喜好、关注的焦点问题等。

特征向量可以用数学符号

\overset{&RightArrow;}{L} = (\overset{&RightArrow;}{A}, \overset{&RightArrow;}{B}, \overset{&RightArrow;}{C}, \overset{&RightArrow;}{D}, . . .)

来表示，每个分量可以为数字，对应一个特征词；也可以为一个向量，对应一个特征类，每个特征类中包括一定数量的特征词。

例如，所述信息单元可以为论坛中用户发布的信息，如主题等，由于一般论坛中用户发起的主题最能反映出用户的喜好，在此以主题为例，特征向量由主题中的特征词构成，所述特征词根据主题内容，从多角度描述用户的喜好、关注的问题等。例如，当主题为音乐时，用户在音乐论坛中发表评论，虽然对音乐的评价角度不同，但评论内容中往往表现出对歌手、歌曲、乐器、旋律、歌词、歌曲背景等不同程度的喜好。因此，音乐论坛中主题可反映出用户对音乐的喜好特征。综合考虑音乐的各种表现形式、人们对音乐欣赏的角度及音乐论坛中用户常常讨论的话题，例如可以选取音乐流派、乐器、歌手类型、旋律四个方面作为表示用户音乐喜好的特征类。上述四种特征类分别由若干个不同的更具体的特征词来描述，如表1所示。

表1

特征类	特征词
		音乐流派	爵士，流行，乡村，民谣，摇滚，古典，军旅，舞曲
乐器	钢琴，笛子，吉他，贝司，小提琴，电子琴，风琴，古筝，二胡，萧，萨克斯，大提琴，琵琶，小号，大号
		歌手类型	大陆，港台，欧美，日韩

旋律	优美，悲壮，凄凉，忧郁，甜蜜，浪漫，柔情，欢快，思念

如表1所示，表示用户不同音乐喜好的特征向量由四个特征类共36个特征词组成：爵士、流行、乡村、民谣、摇滚、古典、军旅、舞曲、钢琴、笛子、吉他、贝司、小提琴、电子琴、风琴、古筝、二胡、萧、萨克斯、大提琴、琵琶、小号、大号、大陆、港台、欧美、日韩、优美、悲壮、凄凉、忧郁、甜蜜、浪漫、柔情、欢快、思念。特征向量根据用户所关心的多种音乐特征，从多角度描述了用户的喜好，因此，具有现实性和准确性。

将上述特征向量使用数学符号形式表示，音乐流派向量表示由音乐流派特征组成的向量：

乐器类型向量

表示由乐器类特征组成的向量：

歌手类型向量

表示由歌手类型特征组成的向量：

旋律向量

表示由旋律组成的向量：

\overset{&RightArrow;}{D} = (d_{1,} d_{2,} d_{3,} d_{4,} d_{5,} d_{6,} d_{7,} d_{8}, d_{9}) =

其中，向量中的每个特征词对应的分量可以分别用“1”和“0”表示信息单元中是否存在该特征词。

基于以上特征向量，如图1所示，本发明实施例提供一种社会网络的建立方法，包括：

步骤101：分别从各个信息单元中提取特征词。

本步骤的具体实现可以为：

A、获取信息单元；

B、对信息单元中的内容进行分词处理，得到信息单元的关键词。

具体的分词处理可以使用现有技术中的相关技术完成，不过多赘述。谨举例如图1a所示：获取主体单元所包含字符串，进行分词预处理，得到子句集；针对每一经预处理后的子句进行逆向最大匹配，针对每一子句进行正向最大匹配；切分歧义词采集；判断上述切分是否具有歧义切分，如果是，使用预订规则消除歧义切分，否则，输出关键词。

C、依次判断各个关键词是否为特征向量中所包含的特征词。具体可以为：依次将各个关键词与喜好特征词进行比较，是否一致，如果一致，则为特征词，否则，不是特征词。

以下，仍以上述表示用户音乐喜好的特征向量为例，详述本步骤从信息单元中提取特征词的实现：

由图2可知，对于用于音乐喜好的特征词的提取步骤如下所述：

读取音乐论坛中某个主题帖的内容；

对主题帖进行分词处理，得到关键词；

从关键词中提取特征词，可以对所述分词得到的每一个关键词作如下处理：

与音乐流派特征词库(爵士，流行，乡村，民谣，摇滚，古典，军旅，舞曲)进行比较，如果存在比较结果为相同的关键词，则将该关键词保存在音乐流派列表中；否则，

与乐器类型特征词库(钢琴，笛子，吉他，贝司，小提琴，电子琴，风琴，古筝，二胡，萧，萨克斯，大提琴，琵琶，小号，大号)进行比较，如果存在比较结果为相同的关键词，则将该关键词保存在乐器类型列表中；否则，

与歌手库进行比较，其中歌手库中保存着歌手的信息，包括歌手编号、歌手名、歌手类型，如果存在比较结果为相同的关键词，则将该关键词保存在歌手信息列表中；否则，

求关键词与旋律类特征词(优美，悲壮，凄凉，忧郁，甜蜜，浪漫，柔情，欢快，思念)的相似度，利用相似度向量

\overset{&RightArrow;}{S} = (s_{1}, s_{2}, s_{3}, s_{4}, s_{5}, s_{6}, s_{7}, s_{8,} s_{9})

表示，若

\max_{1 \leq i \leq 9} (s_{i}) > 0.45,

则该词归为旋律特征词，将其保存在旋律词列表中；否则，不予考虑。

步骤102：根据提取到的所述特征词计算各信息单元对应的特征向量。

具体计算过程可以为：依次将提取到的特征词对应的分量设为1，其他未提取到的特征词对应的分量的设为0。

仍以所述表示用户音乐喜好的分量为例：

音乐流派向量

的计算：

依次取出音乐流派列表中所保存的特征词，如果出现(或重复出现)音乐流派特征词中的第i个词，则向量对应的分量a_i＝1，表明主题帖中所讨论的音乐属于该类流派；否则a_i＝0，最终可得到音乐流派向量

\overset{&RightArrow;}{A} = (a_{1}, a_{2}, a_{3}, a_{4}, a_{5}, a_{6}, a_{7}, a_{8}) .

例如：如果某一主题所对应的音乐流派列表中包括“流行”、“舞曲”这两个特征词，则该主题的音乐流派向量

\overset{&RightArrow;}{A} = (0,1,0,0

0,0,0,1),

表示主题中所讨论的音乐属于流行舞曲。

乐器向量

的计算与音乐流派向量的计算类似，这里不再赘述。

歌手类型向量

的计算：

歌手类型一般是由歌手所在地域来确定，包括大陆，港台，欧美，日韩四大类。为了确定歌手的类型，可以事先以歌手编号、歌手名、歌手类型为字段建立一个歌手库，库中包括大部分大陆，港台，欧美，日韩歌手以及歌手的昵称，例如：港台歌手“张学友”，我们将“张学友”和“学友”都保存至库中，使歌手库中的信息尽可能全面。歌手编号用来唯一标识一个歌手，相同编号表示同一歌手的信息，这样也便于索引。歌手类型用库中用1、2、3、4分别代表大陆、港台、欧美、日韩四类。例如：港台歌手“刘德华”，假设其歌手编号为99，在歌手库中保存的信息为(99，“刘德华”，2)、(99，“德华”，2)、(99，“华仔”，2)，这三个记录表示同一歌手刘德华的信息。

在提取喜好特征词时，已将主题中所提到的歌手信息保存至歌手信息列表中，每个记录包括歌手的编号，歌手名，歌手类型。为了确定歌手类型向量，对歌手信息列表进行如下分析：

若歌手信息列表为空，即没有从主题帖中提取出歌手类型的特征词，则

\overset{&RightArrow;}{C} = (0,0,0,0);

否则，统计歌手信息列表中相同歌手类型出现的次数，将出现次数最多的歌手类型i(1≤i≤4)作为主题歌手类型，同时赋值c_i＝1及c_j＝0(j≠i)。

由于歌手类型的唯一性，在向量

中至多有一个分量的取值为1。例如：若某个主题所对应的歌手类型列表中包括“陈慧琳”和“慧琳”两个歌手类型，由于这两个特征词对应记录的歌手编号相同，即为同一歌手的信息，其类型都是2(为港台歌手)，所以这个主题对应的歌手类型特征向量为

\overset{&RightArrow;}{C} = (0,1,0,0) .

旋律向量

的计算：

从上述提取特征词的描述可知，进行特征词的提取时，已计算得到旋律词列表中每个旋律词与旋律类特征词的相似度向量

\overset{&RightArrow;}{S} = (s_{1}, s_{2}, s_{3}, s_{4}, s_{5}, s_{6}, s_{7}, s_{8,} s_{9}) .

主题中所讨论音乐的旋律是由所有的旋律词共同体现的，因此将所有的旋律词与(优美，悲壮，凄凉，忧郁，甜蜜，浪漫，柔情，欢快，思念)的相似度向量求和，所得的和向量即为主题的旋律向量。假设旋律词列表中有k个旋律词，与旋律特征词的相似度向量分别为：

则旋律向量为为了便于直观理解和社区分析，可以将旋律向量进行如下归一化处理，最后求得旋律向量

\overset{&RightArrow;}{D} = \frac{1}{M} Σ_{i = 1}^{k} {\overset{&RightArrow;}{S}}_{i},

其中M为向量

的各分量之和。

步骤103：根据信息单元对应的特征向量，计算每两个信息单元之间的相似度。

特征向量由若干个分向量构成，本步骤具体可以为：

分别计算各个分向量的相似度；根据各个分向量的相似度计算两个信息单元之间的相似度。

其中，计算各个分向量的相似度时，可以使用下式所示的公式进行计算：

sim ({\overset{&RightArrow;}{A}}_{1}, {\overset{&RightArrow;}{A}}_{2}) = \frac{Σ_{i = 1}^{N_{A}} \min (a_{1, i}, a_{2, i})}{Σ_{i = 1}^{N_{A}} \max (a_{1, i}, a_{2, i})} - - - (1)

其中，

和

分别为两个信息单元所对应特征向量中的分向量；a_1，i表示分向量

第i个分量的值；a_2，i表示分向量

的第i个分量的值；N_A表示

和

中的分量个数。

或者，也可以使用下式的公式计算各个分向量的相似度：

sim (\overset{&RightArrow;}{D_{1}}, \overset{&RightArrow;}{D_{2}}) = \frac{\overset{&RightArrow;}{D_{1}} \cdot \overset{&RightArrow;}{D_{2}}}{| | \overset{&RightArrow;}{D_{1}} | | \cdot | | \overset{&RightArrow;}{D_{2}} | |} - - - (2)

其中，

分别为两个信息单元所对应特征向量中的分向量的模，

表示两个分向量的内积。

对于两个信息单元之间相似度的计算，可以使用如下所示的公式计算：

sim (\overset{&RightArrow;}{S_{1}}, \overset{&RightArrow;}{S_{2}}) = w_{1} sim ({\overset{&RightArrow;}{A}}_{1}, {\overset{&RightArrow;}{A}}_{2}) + w_{2} sim (\overset{&RightArrow;}{B_{1}}, \overset{&RightArrow;}{B_{2}}) + w_{3} sim (\overset{&RightArrow;}{C_{1}}, \overset{&RightArrow;}{C_{2}}) + w_{4} sim (\overset{&RightArrow;}{D_{1}}, \overset{&RightArrow;}{D_{2}})

其中，w_i的取值范围为[0，1]，且

Σ_{i = 1}^{4} w_{i} = 1 .

w_i为各个分向量相似读的权值。为了更好反应特征向量中各个特征类对用户贡献，可以为每一个特征类的相似度赋予权值w_i，权值w_i的设定可以根据实际应用设定，这里并不限定。例如，如果用户将权值设为：w₁＝w₂＝w₃＝0.2，w₄＝0.4，根据所赋的权值侧重考虑特征向量中D₁分向量的相似度对信息单元之间相似度贡献。

仍以表示用于音乐喜好的特征向量为例，对本步骤中相似度的计算举例如下：

设

\overset{&RightArrow;}{S_{1}} = (\overset{&RightArrow;}{A_{1}}, \overset{&RightArrow;}{B_{1}} {, \overset{&RightArrow;}{C}}_{1}, \overset{&RightArrow;}{D_{1}})

和

\overset{&RightArrow;}{S_{2}} = (\overset{&RightArrow;}{A_{2}}, \overset{&RightArrow;}{B_{2}} {, \overset{&RightArrow;}{C}}_{2}, \overset{&RightArrow;}{D_{2}})

表示任意两个主题的所对应的特征向量，则各分向量相似度的计算方法可以使用如下的计算方法：

对于用户喜好向量前三个分向量：音乐流派向量乐器向量

歌手类型向量的相似度计算采用公式(1)：

两个音乐流派分向量的相似度

sim ({\overset{&RightArrow;}{A}}_{1}, {\overset{&RightArrow;}{A}}_{2}) = \frac{Σ_{i = 1}^{N_{A}} \min (a_{1, i}, a_{2, i})}{Σ_{i = 1}^{N_{A}} \max (a_{1, i}, a_{2, i})},

其中，a_1，i表示音乐流派向量

第i个分量的值；a_2，i表示音乐流派向量

的第i个分量的值；N_A：表示音乐流派向量的分量个数(本发明中N_A＝8)；

两个乐器类型分向量的相似度

sim ({\overset{&RightArrow;}{B}}_{1}, \overset{&RightArrow;}{B_{2}}) = \frac{Σ_{i = 1}^{N_{B}} \min (b_{1, i}, b_{2, i})}{Σ_{i = 1}^{N_{B}} \max (b_{1, i}, b_{2, i})},

其中，b_1，i表示乐器类型向量第i个分量的值；b_2，i表示乐器向量

的第i个分量的值；N_B：表示乐器类型向量的分量个数(本发明中N_B＝15)；

两个歌手类型分向量的相似度

sim (\overset{&RightArrow;}{C_{1}}, \overset{&RightArrow;}{C_{2}}) = \frac{Σ_{i = 1}^{N_{C}} \min (c_{1, i}, c_{2, i})}{Σ_{i = 1}^{N_{C}} \max (c_{1, i}, c_{2, i})},

其中，c_1，i表示歌手类型向量

第i个分量的值；c_2，i表示歌手类型向量

的第i个分量的值；N_C：表示歌手类型向量的分量个数(本文中N_C＝4)；

两个旋律分向量的相似度采用公式(2)：

sim (\overset{&RightArrow;}{D_{1}}, \overset{&RightArrow;}{D_{2}}) = \frac{\overset{&RightArrow;}{D_{1}} \cdot \overset{&RightArrow;}{D_{2}}}{| | \overset{&RightArrow;}{D_{1}} | | \cdot | | \overset{&RightArrow;}{D_{2}} | |},

其中，

分别表示这两个向量的模，

表示这两个向量的内积；

两个特征向量的相似度(也即特征向量对应信息单元之间的相似度)采用混合相似度计算方法

sim (\overset{&RightArrow;}{S_{1}}, \overset{&RightArrow;}{S_{2}}) = w_{1} sim ({\overset{&RightArrow;}{A}}_{1}, {\overset{&RightArrow;}{A}}_{2}) + w_{2} sim (\overset{&RightArrow;}{B_{1}}, \overset{&RightArrow;}{B_{2}}) + w_{3} sim (\overset{&RightArrow;}{C_{1}}, \overset{&RightArrow;}{C_{2}}) + w_{4} sim (\overset{&RightArrow;}{D_{1}}, \overset{&RightArrow;}{D_{2}}),

其中w_i的取值范围为[0，1]，且

Σ_{i = 1}^{4} w_{i} = 1;

例如，如果用户将权值设为：w₁＝w₂＝w₃＝0.2，w₄＝0.4，根据所赋的权值侧重考虑喜好向量中旋律分向量的相似度对用户喜好相似度贡献，表明偏向于通过旋律来反应用户的喜好。

步骤104：根据计算得到的所述相似度，建立社会网络。

本步骤具体可以为：分别以每个信息单元为节点，两个信息单元之间的相似度为节点间权值，建立社会网络。

此时，建立起来的网络是完全连通的，但对于连接权值较小的边，相应的两个信息单元反映的用户喜好或关注的焦点问题等相差较大，没有建立连接的必要性。根据实际的需要，可以去除网络中部分连接，将网络中的边按百分比过滤掉权值较小的那部分连接。经实验发现去除60％的连接建立的网络较好，可比较真实地体现用户间喜好一致的程度。

具体的，本步骤之后还可以进一步包括：

判断社会网络中节点之间的连接权值是否大于权值阈值，如果否，则删除两节点间的连接；或者，

根据社会网络中节点间的连接数量以及连接删除的比重计算所需删除连接的数量，删除连接权值最小的所述数量个连接。

图1所示的本发明实施例网络建立方法中，从各信息单元中提取特征词，根据所述特征词计算各信息单元对应的特征向量；根据所述特征向量分别计算每两信息单元之间的相似度；根据计算得到的信息单元之间的相似度，建立社会网络；从而，根据信息单元的内容进行特征向量的计算，并最终计算得到信息单元直接的相似度，建立社会网络，使得建立的网络为有权网络，且连接权值与信息单元的内容相关联，从而能够更加真实的体现网络中信息单元间的内容联系程度。

图2为本发明实施例一种社区发现方法流程示意图，包括：

步骤201：查找网络中最大的相似度所对应的两个节点。

步骤202：将所述两个节点合并为一个新节点。

步骤203：修改新节点与该新节点邻接节点的相似度。

其中，所述新节点的邻接节点为未合并之前的两个节点的邻接节点。

假设节点v_k是节点v_i或节点v_j的邻接点，那么新节点v′与节点v_k的相似度可以定义为：

sim (v_{k}, v^{'}) = \frac{sim (v_{k}, v_{i}) + sim (v_{k}, v_{j})}{2},

其中：sim(v_i，v_j)表示节点v_i和节点v_j的相似度。

步骤204：重复步骤201～步骤203，直至网络满足社区发现条件，输出社区发现结果。

所述网络满足社区发现条件具体可以为：网络中只存在一个节点。

初始时，网络中一个节点对应一个信息单元，节点间的连接权值就是两个信息单元所对应的特征向量的相似度；而且，初始时网络中的每个节点就是一个社团，图2所示本发明实施例社区发现方法的特点是从网络所包含的n个节点中，反复找出相似度最大的两个节点进行合并，进行n-1次合并后结束，此时网络中的所有节点都被划分到一个社区。

图2所示的本发明实施例社区发现方法，查找网络中最大的相似度所对应的两个节点，将所述两个节点合并为一个新节点；计算所述新节点与该新节点邻接节点的相似度；返回所述查找步骤，直至网络满足社区发现条件，输出社区发现结果，根据节点间的相似度进行社区发现，从而实现了有权网络的社区发现。

为了定量地衡量社区划分的优劣，确保社区发现的结果可以很好地反映网络的社团结构，本发明还可以在图2所示本发明实施例社区发现方法中引入“模块度”的概念。以下，通过图3所示的本发明实施例说明引入模块度后的社区发现方法，如图3所示，包括：

步骤301：查找网络中最大的相似度所对应的两个节点。

步骤302：将所述两个节点合并为一个新节点。

步骤303：修改新节点与该新节点邻接节点的相似度，计算合并节点后得到的网络的总体模块度。

模块度Q可以采用如下的公式计算：

Q = \frac{Σ Q_{l}}{n} - - - (3)

其中，n表示当前网络所包括的社区个数，这里的社区指当前网络中的节点的个数，所述节点可以为初始的信息单元对应的节点，也可以为经过合并后的节点；Q_l表示单个社区的模块度，可以通过以下的公式(4)计算：

Q_{l} = \frac{\underset{i &Element; l, t &NotElement; l}{Σ} sim (i, t) / E_{out}}{\underset{i, j &Element; l}{Σ} sim (i, j) / E_{in} + \underset{i &Element; l, t &NotElement; l}{Σ} sim (i, t) / E_{out}} - - - (4)

其中，

表示社区l内所有信息单元中每两个信息单元之间相似度的总和，E_in表示社区l内信息单元之间连接数；∑sim(i，t)表示社区l与其它社区之间的相似度的总和，E_out表示社区l中的信息单元与其它社区的信息单元之间的连接数。

通过单个社区模块度Q_l的计算公式可以看出，Q_l的值越小，表明社区内部的节点联系越紧密，社区划分的结果越好；Q_l的值越大，表明社区之间的联系越多，社区划分的结果越差。每次合并节点后，计算当前网络的总体模块度，总体模块度Q的值达到最小时，即认为是网络的一个最优划分。

步骤304：重复步骤301～步骤303，直至网络满足社区发现条件，输出社区发现结果。

所述网络满足社区发现条件可以为：网络模块度不大于模块度阈值；具体的，本步骤为：

判断模块度是否不大于预设模块度阈值，如果是，则输出社区发现结果，否则，返回步骤301继续进行节点的合并。

图3所示的本发明实施例在图2所示社区实现方法的基础上，引入网络的模块度的计算，当合并后的网络的模块度达到模块度阈值时，输出社区发现结果，无需合并网络至网络中只包含一个节点，节省了社区发现时间；而且，通过合并后网络的模块度的计算，定量衡量社区划分的优劣，从而可以更好的进行有权网络中社区的发现。

图4为本发明实施例一种社会网络建立装置，包括：提取单元410、向量计算单元420、相似度计算单元430、以及网络建立单元440；其中，

提取单元410，用于从各信息单元中提取特征词。

向量计算单元420，用于根据提取单元410提取到的所述特征词，计算各信息单元对应的特征向量。

相似度计算单元430，用于根据向量计算单元420计算得到的特征向量，分别计算每两信息单元之间的相似度。

具体的，所述相似度计算单元430用于：根据向量计算单元420计算得到的特征向量，分别计算特征向量中各个分向量的相似度；根据各个分向量的相似度计算两个信息单元之间的相似度。

网络建立单元440，用于根据相似度计算单元430计算得到的所述相似度，建立社会网络。

具体的，网络建立单元440用于：以信息单元为节点，以相似度计算单元计算得到的所述相似度为两节点间的权值，建立社会网络。

该装置还可以进一步包括：网络简化单元450，用于判断网络建立单元440建立的社会网络中节点之间的连接权值是否大于权值阈值，如果否，则删除两节点间的连接；或者，

用于根据社会网络中节点间的连接数量以及连接删除的比重计算所需删除连接的数量，删除连接权值最小的所述数量个连接。

图4所示的本发明实施例网络建立装置中，从各信息单元中提取特征词，根据所述特征词计算各信息单元对应的特征向量；根据所述特征向量分别计算每两信息单元之间的相似度；根据计算得到的信息单元之间的相似度，建立社会网络；从而，根据信息单元的内容进行特征向量的计算，并最终计算得到信息单元直接的相似度，建立社会网络，使得建立的网络为有权网络，且连接权值与信息单元的内容相关联，从而能够更加真实的体现网络中信息单元间的内容联系程度。

图5为本发明实施例一种网络社区发现方法，包括：合并模块510、相似度计算模块520、社区发现结果输出模块530；其中，

合并模块510，用于查找得到网络中相似度最大的两个节点，将所述两个节点合并为一个新节点。

相似度计算模块520，用于计算合并模块510合并得到的所述新节点与该新节点邻接节点的相似度。

社区发现结果输出模块530，用于当网络满足社区发现条件时，输出社区发现结果。

相似度计算模块520计算完成后，将得到合并后的新网络以及新网络中节点之间的相似度。之后，社区发现结果输出模块530即根据相似度计算模块520计算完成后的所述新网络进行后续操作。

一般的，由于网络中一般包括若干个节点，因此，合并模块510、相似度计算模块520、以及社区发现结果输出模块530之间一般将形成循环，当社区发现结果输出模块530确定网络不满足社区发现条件时，将继续由合并模块510开始新一轮的节点合并。如此循环，直至社区发现结果输出模块530判断网络满足社区发现条件，输出社区发现结果为止。

其中，社区发现结果输出模块530具体用于：当网络中只存在一个节点时，输出社区发现结果。

或者，社区发现结果输出模块530具体用于：当网络模块度不大于模块度阈值时，输出社区发现结果；

相应的，该装置还包括：

模块度处理模块540，用于根据相似度计算模块520计算得到的所述相似度，计算网络的模块度，将计算得到的所述网络的模块度发送给社区发现结果输出模块530。

图5所示的本发明实施例社区发现装置，查找网络中最大的相似度所对应的两个节点，将所述两个节点合并为一个新节点；计算所述新节点与该新节点邻接节点的相似度；返回所述查找步骤，直至网络满足社区发现条件，输出社区发现结果，根据节点间的相似度进行社区发现，从而实现了有权网络的社区发现。

进一步地，可以引入模块度的概念，模块度处理模块540计算合并后的网络的模块度，社区发现结果输出模块530将所述模块度与模块度阈值比较，当模块度不大于模块度阈值时，即可输出社区发现结果，从而无须合并网络至只包含一个节点，节省了社区发现时间；而且，通过对于合并后网络的模块度的计算，可以定量衡量社区划分的优劣，从而可以更好的进行有权网络中社区的发现。

本领域普通技术人员可以理解，实现上述实施例社会网络的建立方法以及社区发现方法的过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读取存储介质中，该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如：ROM/RAM、磁碟、光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种社会网络建立方法，其特征在于，包括：

根据所述特征向量分别计算每两信息单元之间的相似度；

根据计算得到的信息单元之间的相似度，建立社会网络；

其中，所述分别从各信息单元中提取特征词包括：

获取信息单元；

对信息单元中的内容进行分词处理，得到信息单元的关键词；

依次判断各个关键词是否为特征向量中所包含的特征词，如果是，保存所述关键词；

其中，所述根据所述特征向量分别计算每两信息单元之间的相似度包括：

分别计算特征向量中各个分向量的相似度；

根据各个分向量的相似度计算两个信息单元之间的相似度。

2.根据权利要求1所述的方法，其特征在于，所述根据计算得到的信息单元之间的相似度，建立社会网络具体为：

以信息单元为节点、信息单元之间的相似度为连接权值，建立社会网络。

3.根据权利要求2所述的方法，其特征在于，建立社会网络之后，进一步包括：

根据社会网络中连接删除的比重、以及节点间的连接数量计算所需删除连接数量，删除连接权值最小的所述所需删除连接数量个连接。

4.一种网络社区发现方法，其特征在于，包括：

根据所述特征向量分别计算每两信息单元之间的相似度；

根据计算得到的信息单元之间的相似度，建立社会网络；

计算所述新节点与该新节点邻接节点的相似度；

返回所述查找步骤，直至网络满足社区发现条件，输出社区发现结果；

其中，所述分别从各信息单元中提取特征词包括：

获取信息单元；

分别计算特征向量中各个分向量的相似度；

根据各个分向量的相似度计算两个信息单元之间的相似度。

5.根据权利要求4所述的方法，其特征在于，所述网络满足社区发现条件具体为：网络中只存在一个节点。

6.根据权利要求4所述的方法，其特征在于，所述网络满足社区发现条件具体为：网络模块度不大于模块度阈值；

相应的，所述计算相似度之后，所述返回查找步骤之前，进一步包括：

根据计算得到的所述相似度，计算当前网络的模块度。

7.根据权利要求6所述的方法，其特征在于，网络的模块度的计算公式为：

其中，n为当前网络所包括的社区个数；Q_l表示每个社区的模块度，计算公式为：

其中，表示社区l内所有信息单元中每两个信息单元之间相似度的总和；E_in表示社区l内信息单元之间连接数；表示社区l与其它社区之间的相似度的总和；E_out表示社区l中的主题与其它社区主题连边的总和。

8.一种社会网络建立装置，其特征在于，包括：提取单元、向量计算单元、相似度计算单元、以及网络建立单元；其中，

提取单元，用于从各信息单元中提取特征词；

网络建立单元，用于根据相似度计算单元计算得到的所述相似度，建立社会网络；

其中，所述提取单元具体用于获取信息单元；对信息单元中的内容进行分词处理，得到信息单元的关键词；依次判断各个关键词是否为特征向量中所包含的特征词，如果是，保存所述关键词；

所述相似度计算单元具体用于根据向量计算单元计算得到的特征向量，分别计算特征向量中各个分向量的相似度；根据各个分向量的相似度计算两个信息单元之间的相似度。

9.根据权利要求8所述的装置，其特征在于，网络建立单元具体用于：以信息单元为节点，以相似度计算单元计算得到的所述相似度为连接权值，建立社会网络。

10.根据权利要求9所述的装置，其特征在于，该装置进一步包括：网络简化单元，用于判断网络建立单元所建立的社会网络中节点之间的连接权值是否大于权值阈值，如果否，则删除两节点间的连接；或者，

用于根据社会网络中连接删除的比重、以及节点间的连接数量计算所需删除连接数量，删除连接权值最小的所述所需删除连接数量个连接。

11.一种网络社区发现装置，其特征在于，包括：提取单元、向量计算单元、相似度计算单元、网络建立单元、合并模块、相似度计算模块、社区发现结果输出模块；其中，

提取单元，用于从各信息单元中提取特征词；

社区发现结果输出模块，用于当网络满足社区发现条件时，输出社区发现结果；

12.根据权利要求11所述的装置，其特征在于，社区发现结果输出模块具体用于：当网络中只存在一个节点时，输出社区发现结果。

13.根据权利要求11所述的装置，其特征在于，社区发现结果输出模块具体用于：当当前网络模块度不大于模块度阈值时，输出社区发现结果；

相应的，该装置还包括：

模块度处理模块，用于根据相似度计算模块计算得到的所述相似度，计算当前网络的模块度，将计算得到的所述模块度发送给社区发现结果输出模块。