CN103218400A

CN103218400A - 基于链接与文本内容的网络社区用户群划分方法

Info

Publication number: CN103218400A
Application number: CN2013100840391A
Authority: CN
Inventors: 闫健卓; 王颖; 方丽英; 王普; 齐孟尧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2013-03-15
Filing date: 2013-03-15
Publication date: 2013-07-24
Anticipated expiration: 2033-03-15
Also published as: CN103218400B

Abstract

本发明属于互联网络领域，提供了一种基于链接与文本内容的网络社区用户群划分方法。本发明利用基于链接的分析方法对网络社区用户在链接上所表现出的网络结构进行分析，同时利用基于兴趣的分析方法对用户在文本内容上所表现的相同兴趣结构进行分析，将二者的结果进行差异性融合，得到具有综合性的网络社区用户群划分结果。在此基础上，分别对每一个划分结果进行评价，验证整划分结果的准确性，对不满足指标要求的，按照紧密程度对该群体成员进行筛选。通过两种方式相互验证和补充，提高了划分结果的准确性、可靠性，使得网络社区用户群的划分不再单纯以链接关系为依据，更多地突出了丰富的文本信息在网络社区用户群划分过程中的重要作用。

Description

基于链接与文本内容的网络社区用户群划分方法

技术领域

本发明属于互联网络领域，具体涉及一种基于链接与文本内容的网络社区用户群划分方法，旨在为网络社区优化和个性化服务提供理论基础与技术手段。

背景技术

随着Web2.0技术的发展，互联网进入了一个崭新的阶段。根据中国互联网信息中心发布的第31次中国互联网络发展状况统计报告表明，中国网民达到5.64亿，互联网普及率达到42.1%。用户数量的增长，进一步推动了网络服务与应用的革新与发展。网络社区为人们提供了一个资源丰富的、便捷的网上交流平台。在网络社区中，一方面，用户可以通过相互链接显性地表现彼此间的关注和关联；另一方面，具有相同兴趣爱好的用户会通过发表文章、评论等信息隐性地表现彼此间关注和联系。发掘存在于网络社区中用户间的显性和隐性关系，可以客观地反映网络社区中用户之间的关联关系，对于发现完善和优化网络社区应用服务、增加价值具有基础性作用与意义。

网络社区的生存往往需要经过探索、建立、发展、成熟、灭亡五个阶段，其中社区的成熟阶段具有最大的用户群和稳定的关系网络，如何使得社区维持在成熟阶段，保证社区的可持续发展，引起了国内外专家学者的广泛关注。主要围绕如何完善网络社区中检索、好友识别等功能，提升社区的个性化和主动式服务质量。申请号为CN102929889A的专利公布了一种完善社区网络的方法和系统，利用提取网页特征词，计算语义相似的方法对网络社区中每个用户的网页内容进行标签标定，以便于优化社区中的信息检索；申请号为CN1021857872的专利公布了一种自动识别好友的方法与系统，通过提取用户输入内容中的好友信息与好友列表进行匹配来确认该好友身份，提醒用户添加新好友。但这些技术都是仅从单一用户的表象特征着手分析，既没有考虑到用户隐含在文本、链接等内容背后的隐性特征，也没有认识到分析网络结构和用户群体特征的重要性。

发明内容

为了解决现有技术中存在的上述问题，本发明提出了一种应用链接分析和web文本信息分类技术相结合实现网络社区用户群划分的方法，旨在为网络社区应用服务的优化与完善提供方法和技术手段。

本发明的原理如下：

链接分析方法是搜索引擎中最常用与快速的方法，用于分析正向链接与反向链接的数量，以此为基础对每个链接进行排序形成检索结果。事实上，链接分析的主要作用是分析链接间的紧密程度，正、反向链接数量越大，链接间的紧密程度越高。在网络社区中，用户通常会建立友情链接或者引用链接，通过对这些链接进行分析，可挖掘出社区中用户间的亲疏关系，划分网络社区用户群。

网络社区用户通过发表文章、评论即时地表现自己的观点认识，但对这些信息进行收集和整理不难发现，用户发表的文章，关注的内容具有一定相似性。利用web文本分类技术对每个用户的文本信息进行分类统计，可清晰地分析出每个用户的兴趣偏好，根据“物以类聚，人以群分”的思想，网络社区用户群可按照相同兴趣爱好进行划分。

本发明采用的技术方案如下：

本发明利用基于链接的分析方法对网络社区用户在链接上所表现出的网络结构进行分析，同时利用基于文本内容的分析方法对网络社区用户在文本内容上所表现的相同兴趣结构进行分析，将二者的结果进行差异性融合，得到具有综合性的网络社区用户群划分结果。在此基础上，分别对每一个划分结果运用社会网络分析方法对网络密度、群半径等多个指标进行评价，验证整个网络社区用户群划分结果的准确性。若发现不满足指标要求，将按照紧密程度对该群体成员进行筛选。以保证网络社区用户划分结果的可靠性。

一种基于链接与文本内容的网络社区用户群划分方法，其特征在于包括以下步骤：

步骤一，利用爬虫技术分别爬取网页文本内容（包括正文、评论）和链接（包括友情链接、引用链接），并分别存入文本数据库和链接数据库。

步骤二，利用基于java语言开发的中文分词工具包IKAnalyzer对网页文本内容进行中文分词，利用基于支持向量机（SVM）的文本分类方法对文本进行分类。

步骤三，统计每个网络用户的网页文本类别，得到网络社区中用户在文本内容中所表现的兴趣取向，并用向量表示如下：

Character_i＝{I₁,I₂,I₃,……}

其中，Character表示用户兴趣特征集合，I_i表示兴趣i的特征权值。

以此为基础，网络社区用户兴趣以矩阵形式表示如下：

[\begin{matrix} I_{11} & I_{12} & I_{13} & . . . & I_{1 n} \\ I_{21} & I_{22} & I_{23} & . . . & I_{2 n} \\ . . . . . . \\ I_{m 1} & I_{m 2} & I_{m 3} & . . . & I_{mn} \end{matrix}]

其中，n表示兴趣特征个数，m表示用户数量。

步骤四，通过计算最小类间距离和平均类内距离，选择最优聚类K的值，方法如下：

最小类间距离为：

b (j, i) = \min_{i \leq k \leq c_{i}, k &NotEqual; j} (\frac{1}{n_{k}} Σ_{p = 1}^{n_{k}} {| | x_{p}^{(k)} - x_{i}^{(j)} | |}^{2})

其中，c_i为聚类个数，k和j表示类别，均小于c_i，表示第j类的第i个样本，表示k类的第P个样本，n_k表示k类中的样本数。

平均类内距离为：

w (j, i) = \frac{1}{n_{j} - 1} Σ_{q = 1, q &NotEqual; i}^{n_{j}} {| | x_{q}^{(j)} - x_{i}^{(j)} | |}^{2}

其中

表示第j类的第q个样本，并且q≠i，n_j表示第j类中的样本个数。

则该样本的最小类间距离和类内距离之和为：

baw(j,i)＝b(j,i)+w(j,i)

最小类间距离和类内距离之差为：

bsw(j,i)＝b(j,i)-w(j,i)

令：则最佳聚类数K为：

K = \arg \max {\frac{1}{n} ΣΣU}

步骤五，根据K值选择结果，利用K-means算法，以网络社区用户兴趣矩阵作为输入，进行聚类分析，划分出基于用户兴趣的用户群体。

步骤六，顺序读取链接数据库，循环爬取每个URL内容中的友情链接与引用链接。

步骤七，统计每个连接出现在友情链接和引用链接中的次数，包括链接的出度和入度，其中，出度为引用的次数，入度为被引用的次数。

步骤八，应用Pajek提供的一整套复杂网络关系分析算法，利用Pajek可视化工具，输入链接出入度值，构建网络社区用户社群图，直观、清晰地展示用户间亲疏关系和群体分类情况。

步骤九，对社群图各群体划分情况进行分析，与基于文本内容的划分结果进行比较，对两者结果进行差异性融合。

步骤十，根据融合的结果，计算每个群网络密度、图直径、群半径和点的链接数量，并对点度中心度和凝聚子群进行分析和评价，剔除不满足指标的点。

网络密度的表达式为：

ρ = \frac{2 * N_{line}}{n * (n - 1)}

其中，ρ网络密度，N_line为两点之间的连线数，n为点的个数。

图直径的表达式为：

D＝max{d(i,j)}

其中，D为图直径，d(i,j)为i和j两点的距离。

与现有技术相比，本发明改进的地方主要有如下两点：

（1）现有的网络社区用户群划分方法基本是通过获取相互链接数量实现的，本发明考虑到用户通过相同兴趣爱好所表现出的关联关系。如ABCD四个用户，ABC三者之间存在链接关系，根据现有方法的划分结果为ABC一组，D一组，但事实ABC与D之间四者具有相同的兴趣爱好，因此利用本发明的方法可以得到ABCD之间是存在关联关系的，应划分为同一族群。

（2）现有的技术往往从单一指标对结果进行评价，如节点对社区贡献度，而本发明考虑到方法的实用意义，不仅利用社会网络分析方法对网络划分结果进行二次反复验证，同时通过密度、图直径、群半径和点的链接数量，并对点度中心度、凝聚子群等几个指标对每个族群划分结果进行评价。增强了分析结果的可信度与可靠性。

本发明的有益效果是：在利用链接分析的基础上，结合文本兴趣偏好分析，对网络社区用户群进行划分。通过两种方式相互验证和补充，提高了划分结果的准确性、可靠性，使得网络社区用户群的划分不再单纯以链接关系作为依据，更多地突出了丰富的文本信息在网络社区用户群划分过程中的重要作用。本发明不仅客观地反映了网络社区中用户之间的关系，而且清晰地展示了用户群体的公共兴趣特征，为向不同特征的用户群提供更主动、直接的服务，如业务推荐和朋友推荐等，提供了依据，也为电子商务和个性化服务提供基础性技术支撑。

附图说明

图1为本发明的整体结构图；

图2为本发明所涉及的方法流程图；

图3为计算得到的U—K曲线；

图4为基于链接分析的用户群划分结果图；

图5为基于链接与文本内容的网络社区划分结果图。

具体实施方式

下面结合附图对本发明实施例进行详细说明。

本发明的整体结构图如图1所示。本发明包括分析阶段和验证修正阶段两部分。其中分析阶段主要利用链接分析和聚类分析两种方法；验证与修正阶段主要利用社会网络分析方法中的多个指标对网络社区用户群划分结果进行评价。对于不满足指标标准的进行及时修正。

本实施例选取新浪博客进行网络社区用户群划分方法实现的对象，并从中任意选择1000位博主作为研究目标。本发明的方法流程图如图2所示，具体包括以下步骤：

步骤一，爬取每个用户的网页文本内容与链接，存入文本数据库和链接数据库。

步骤三，对用户兴趣进行表示，其中选取7个兴趣特征，分别为娱乐、经济、文学、科技、健康、军事、体育，则网络社区用户兴趣表示结果如下：

[\begin{matrix} 0.14 & 0.25 & 0.08 & 0.43 & 0.05 & 0.00 & 0.05 \\ 0.52 & 0.02 & 0.10 & 0.03 & 0.12 & 0.00 & 0.21 \\ 0.17 & 0.13 & 0.03 & 0.16 & 0.04 & 0.43 & 0.04 \\ . . . . . . \\ 0.09 & 0.22 & 0.13 & 0.08 & 0.15 & 0.03 & 0.30 \end{matrix}]

步骤四，通过计算最小类间距离和平均类内距离，选择最优K值。K的范围为2～10。通过计算得到的U—K曲线如图3所示，由图可知，K=5时，U取得最大值，所以K的最优值为5。

步骤五，令K=5，利用K-means算法，以网络社区用户兴趣矩阵作为输入，进行聚类分析，划分出基于用户兴趣的用户群体。划分结果如表1所示。

表1 基于文本内容的用户群划分结果

娱乐	经济	文学	科技	健康	体育	军事	编号	类别
									12.9	19.35	16.94	9.68	0.81	40.32	0.00	4	1
2.55	16.36	8.73	49.45	0.00	20	0.00	7	1
									7.41	25.93	20.37	1.85	0.00	42.59	0.00	11	1
0.00	23.81	12.38	31.43	0.00	24.29	0.48	12	1
									3.85	30.29	11.54	17.31	0.00	33.65	0.00	14	1
14.71	23.53	16.91	11.03	0.00	30.88	1.47	18	1
									3.30	8.96	18.40	16.40	0.47	48.58	0.00	19	1
14.09	22.82	24.83	4.03	0.00	31.54	0.00	24	1
									0.78	19.38	8.53	44.96	0.00	22.87	0.00	26	1
12.03	13.53	21.80	12.78	1.50	33.83	0.00	28	1
									14.63	22.56	12.80	15.24	2.44	29.27	0.00	31	1
4.36	18.12	15.94	12.32	0.00	47.10	0.00	33	1

从表1可以看出，类别1中包含编号为4、7、11、12、14等多个用户，这些用户的共同特征为对体育和经济表现出极大的兴趣，而对于健康和军事方面信息关注度不高。

步骤六，读取链接数据库，爬取每个URL内容中的友情链接与引用链接。

步骤七，统计每个链接的出度和入度，其中出度为引用的次数，入度为被引用的次数。

步骤八，利用Pajek可视化工具，输入链接出入度值，构建网络社区用户社群图。基于链接的用户群划分结果如图4所示。

对社群图各群体划分情况进行分析，与基于文本内容的划分结果进行比较，发现基于链接的划分结果中，缺少编号为26、33、14、42、4等多个结点，说明在这些用户之间不存在链接关系，但是从基于文本内容的划分结果中，可以看出他们之间是具有共同特性与兴趣联系的。对两者结果进行差异性融合后的结果如图5所示。

步骤十，根据上述结果，计算每个群网络密度、图直径、群半径和点的链接数量，并对点度中心度、凝聚子群进行分析和评价，剔除不满足指标的点。

经计算群密度为0.0435718，图的直径为12，一般情况下，群密度>0.01说明该网络内点与点之间连接比较紧密。18号节点是整个网络的中心结点，点度中心度为59，而81号结点点度中心度为1，与其他节点连接不紧密，说明该用户与其他用户联系不频繁，因此可以剔除该结点。

Claims

1.一种基于链接与文本内容的网络社区用户群划分方法，其特征在于包括以下步骤：

步骤一，利用爬虫技术分别爬取网页文本内容和链接，并分别存入文本数据库和链接数据库；

步骤二，利用基于java语言开发的中文分词工具包IKAnalyzer对网页文本内容进行中文分词，利用基于支持向量机的文本分类方法对文本进行分类；

Character_i＝{I₁,I₂,I₃,……}

其中，Character表示用户兴趣特征集合，I_i表示兴趣i的特征权值；

以此为基础，用下面的矩阵形式表示网络社区用户兴趣：

[\begin{matrix} I_{11} & I_{12} & I_{13} & . . . & I_{1 n} \\ I_{21} & I_{22} & I_{23} & . . . & I_{2 n} \\ . . . . . . \\ I_{m 1} & I_{m 2} & I_{m 3} & . . . & I_{mn} \end{matrix}]

其中，n表示兴趣特征个数，m表示用户数量；

最小类间距离为：

b (j, i) = \min_{i \leq k \leq c_{i}, k &NotEqual; j} (\frac{1}{n_{k}} Σ_{p = 1}^{n_{k}} {| | x_{p}^{(k)} - x_{i}^{(j)} | |}^{2})

其中，c_i为聚类个数，k和j表示类别，其值均小于

表示第j类的第i个样本，

表示k类的第P个样本，n_k表示k类中的样本数；

平均类内距离为：

w (j, i) = \frac{1}{n_{j} - 1} Σ_{q = 1, q &NotEqual; i}^{n_{j}} {| | x_{q}^{(j)} - x_{i}^{(j)} | |}^{2}

其中，表示第j类的第q个样本，并且q≠i，n_j表示第j类中的样本个数；

则该样本的最小类间距离和类内距离之和为：

baw(j,i)＝b(j,i)+w(j,i)

最小类间距离和类内距离之差为：

bsw(j,i)＝b(j,i)-w(j,i)

令：

则最佳聚类数K为：

K = \arg \max {\frac{1}{n} ΣΣU}

步骤五，根据K值选择结果，利用K-means算法，以网络社区用户兴趣矩阵作为输入，进行聚类分析，划分出基于用户兴趣的用户群体；

步骤六，顺序读取链接数据库，循环爬取每个URL内容中的友情链接与引用链接；

步骤七，统计每个连接出现在友情链接和引用链接中的次数，包括链接的出度和入度，其中，出度为引用的次数，入度为被引用的次数；

步骤八，应用Pajek提供的一整套复杂网络关系分析算法，利用Pajek可视化工具，输入链接出入度值，构建网络社区用户社群图，展示用户间亲疏关系和群体分类情况；

步骤九，对社群图各群体划分情况进行分析，与基于文本内容的划分结果进行比较，对两者结果进行差异性融合；

步骤十，根据融合的结果，计算每个群网络密度、图直径、群半径和点的链接数量，并对点度中心度和凝聚子群进行分析和评价，剔除不满足指标的点；

网络密度的表达式为：

ρ = \frac{2 * N_{line}}{n * (n - 1)}

其中，ρ网络密度，N_line为两点之间的连线数，n为点的个数；

图直径的表达式为：

D＝max{d(i,j)}

其中，D为图直径，d(i,j)为i和j两点的距离。