CN102768670A

CN102768670A - 基于节点属性标签传播的网页聚类方法

Info

Publication number: CN102768670A
Application number: CN2012101769125A
Authority: CN
Inventors: 张乐君; 夏磊; 张健沛; 杨静; 国林
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2012-05-31
Filing date: 2012-05-31
Publication date: 2012-11-07
Anticipated expiration: 2032-05-31
Also published as: CN102768670B

Abstract

本发明提供的是一种基于节点属性标签传播的网页聚类方法。依据网页的链接关系构造拓扑结构图模型；为图模型中每个节点构建属性特征向量；初始化网络中的节点标签；依据拓扑结构及节点属性迭代更新节点的标签；定义停止更新节点标签的条件。本发明无需了解网页分组的数量和规模等先验知识或者预先定义临界值等参数，只需提取互联网络的拓扑关系及标记网页特征的属性信息，就可以在近乎线性的时间内有效地、高质量地实现网页的聚类。由于该算法概念简单，易于理解及实现，具有较低的时间复杂度，且能够产生优质的网络聚类结果，因此适用于规模庞大的互联网络。

Description

基于节点属性标签传播的网页聚类方法

技术领域

本发明涉及的是一种网页聚类方法。

背景技术

随着对数据挖掘理论的不断深入探索，复杂网络分析引起了当前许多领域研究者的关注。复杂网络聚类更是成为一些国内外学者研究兴趣的聚焦点。许多学者致力于研究复杂网络中聚类技术，他们通过使用不同的方法，发现网络簇结构。

网络中的节点可能具有不同层次的组织结构，如大的簇结构内可能包含小的簇结构。层次聚类方法是实现聚类的传统方法，包括自顶向下的分裂层次聚类与自底向上的凝聚层次聚类两种方法，代表算法分别为PNAS.2002,99(12)中文章Community structure in social andbiological networks刊登的GN算法、Physical Review E.2004,69(6),066133中文章Fastalgorithm for detecting community structure in networks刊登的Newman贪婪算法。谱方法本质上是一种基于矩阵特征向量提取新数据特征的方法，将聚类问题转化为图划分问题。在inthIntl.Conf.on Hybrid Intelligent Systems.2009中文章An improved spectral clustering algorithmfor community discovery提出了一种改进的谱聚类算法检测社会网络中的簇结构，它充分利用网络特征，通过核心元素来挖掘簇结构，在时间和精度方面具有优越性。目前源自于生物学的算法广泛应用于各类问题，许多学者也致力于将该思想应用于社会网络聚类研究领域中。在Proceedings of the 10th annual conference on genetic and evolutionar computation,2008:1137-1138中文章Community detection in social networks with Genetic Algorithms提出了用于发现网络簇结构的遗传算法，使用一个适应度函数来识别网络中内部联系稠密、之间联系稀疏的节点组。随机游走图是一个由随机过程产生的图模型，其中节点、边的数量及节点间的连接等属性都是以某种随机方式产生的，该图由节点出现或者缺失的联合分布来定义的。Statistical computing.2008,18(2):173-183中文章A mixture model for random graphs引入了随机游走方法，并采用块结构模型，在社会自然科学网络中探索簇结构。另外，在社会网络中，由于某个元素可能不仅属于一个，而可以属于多个簇，这种现象叫做簇结构重叠。目前，绝大多数算法不考虑重叠的网络簇结构。但在多数应用中，重叠的网络簇结构更具有实际意义。Physics A:Statistical Mechanics and its Applications.2007,374(1):483-490中文章Identificationof overlapping community structure in complex networks using fuzzy c-means clustering提出了一种fuzzy c-means聚类方法，来检测复杂网络中的重叠簇结构。

但上述算法的目的都是对网络的整个簇结构进行检测，几乎都需要以了解网络的整体结构为基础，或者需要预先知道网络簇结构的数量、规模等信息，对复杂网络进行聚类。而随着互联网络技术的不断发展，数据规模不断增大，上述算法一般具有较高的时间复杂度，网络全部簇结构的挖掘将会耗费较多时间，对于大规模的网络并不能很好的适用。

发明内容

本发明的目的在于提供一种适用于大规模的数据网络，易于理解实现、时间复杂度相对较低的基于节点属性标签传播的网页聚类方法。

本发明的目的是这样实现的：

（1）依据网页的链接关系构造拓扑结构图模型；

（2）为图模型中每个节点构建属性特征向量；

（3）初始化网络中的节点标签；

（4）依据拓扑结构及节点属性迭代更新节点的标签；

（5）定义停止更新节点标签的条件。

本发明还可以包括：

所述的依据网页的链接关系构造拓扑结构图模型的方法是：1）将互联网中的网页映射为图模型中的节点；2）将网页中的链接关系映射为图模型中节点之间相互连接的边。

所述的为图模型中每个节点构建属性特征向量的方法是：1）提取每个网页能够表现其特征的关键词；2）对所有的关键词进行汇总整理并以此构建一个属性集合，其中的元素按拼音字母先后顺序排序；3）依次为图模型中每个网页节点标记其属性向量，向量的维数与集合的规模相等。

所述的初始化网络中的节点标签的方法是：依次为图中每个节点分配一个唯一的数字标签，以表示它所属的簇结构。

所述的依据拓扑结构及节点属性迭代更新节点的标签的方法是：当算法未满足终止条件时，反复迭代执行以下步骤：1）以随机顺序排列网络中的节点；2）按照随机排列的顺序，依次依据其邻节点中出现次数最多的标签异步更新当前节点的标签；3）若最高频率的标签不唯一，依次计算每个最高频率标签对应的节点集中所包含元素的属性平均值；4）计算当前待更新节点与各个节点集属性均值的相似度，选择相似度最大的节点集对应的标签更新当前节点。

所述的定义停止更新节点标签的条件的方法是：判断图中的所有节点的标签是否都是它们的邻节点中出现次数最多的标签，如果每个节点都与其大多数邻接点标签一致，那么算法终止，网络显示出簇结构的特征。

本发明重点研究的基于局部信息的启发式聚类法，它从局部的观点出发，将网络聚类问题转化为预定义启发式规则的设计问题，主要考虑当前网络中节点的局部信息进行聚类，适用于大规模的数据网络，具有易于理解实现、时间复杂度相对较低等优点。

本发明从网络的拓扑结构及网页的属性信息出发，提出一种基于节点属性标签传播的网页聚类方法。经实验验证，这个技术能够很好地解决大规模的互联网络中网页聚类的效率低、质量差的不足。

本发明是基于如下问题而设计的：

在规模庞大的互联网络中，通过聚类技术可以发现纷繁复杂的互联网中的某个主题或者类别的网页集合，可以为用户快速有效的查找信息提供较好的指导，也可以针对一些特定领域进行推荐，具有重要的理论价值和现实意义。然而由于传统的复杂网络聚类方法通常不能同时满足聚类质量高、运行速度快、无需先验知识作为指导，且适用于大规模网络的优点，因此需要设计一种快速、有效的网络聚类方法。

为了能够高效、优质地挖掘网络中潜在的簇结构，采用一种所需信息量小且有效的方法。首先将网络转换为图模型，并标记图中每个节点的属性信息；其次主要以拓扑结构为主要依据实现标签在网络中的快速传播；当待更新节点可选择的标签不唯一时，参考节点的属性信息，更加准确地更新节点标签；最后，当所有节点与其大多数节点标签一致时，实现网络的聚类。

本发明的主要技术特征体现在：

1）算法所需信息量少，聚类速度快、质量高

传统的网络聚类算法通常从全局观点出发，对某一节点进行聚类时需要考虑整个网络的结构，因此往往需要耗费大量的时间。本发明从局部角度出发，主要依据节点的链接情况，必要时参考节点属性信息进行聚类，可以提高聚类速度并保证网络划分的质量。

具体技术路线是：1.从局部观点出发，根据当前节点的大多数邻接点具有的标签来确定该节点所应属的簇结构；2.当邻接点中最高频率标签不唯一时，参考节点属性信息，并选择相似度更高的节点集对应的标签。

2）适用于动态增长的网络

随着Internet技术的发展，互联网的信息量也与日俱增。当网络规模发生增长时，对于新增加的网页，主要依据与其链接的网页信息即可高效聚类，而不必重新对整个网络重新进行聚类。

具体技术路线：1.根据新增加网页与原始网络的链接关系，完善图模型；2）为新增节点创建属性向量；3）对新增节点，主要依据与网络节点的局部连接关系，参考节点属性信息实现聚类。

本发明的优点在于：可以在大规模动态增长的网络中，高效、优质地挖掘簇结构，发现网页的分组信息。

附图说明

图1是美国大学足球赛程网络的图模型；

图2是基于节点属性标签传播的网页聚类方法在足球赛程网络上运行，所得到的聚类结果图；

图3是基于节点属性标签传播的网页聚类方法在优酷网上运行，所得的部分网页聚类效果图；

图4是基于节点属性标签传播的网页聚类方法在的优酷网聚类速度效果图；

图5是基于节点属性标签传播的网页聚类方法在算法在足球赛程网络上运行所得到的实验数据表；

图6是基于节点属性标签传播的网页聚类方法在算法在优酷网上运行所得到的实验数据表。

具体实施方式

下面结合附图举例对本发明做更详细地描述：

1）依据网页之间的链接关系构造拓扑结构图模型

为了对网络进行分析研究，首先需要通过一种合适的数学模型来描述它，而图论与网络之间存在着非常密切的联系。将网络转换为图模型G(V,E)的具体方法如下：

将网络中的网页映射为图模型中的节点，用V表示所有节点的集合{v₁,v₂,...,v_N}；

将网页间按链接关系映射为图模型中节点之间的边，用E表示节点对之间的连接。

2）为图模型中的每个节点构造属性向量

网络中的网页都具有其自身的属性信息，按照如下方法依次为每个网页构建属性向量：

提取每个网页能够标记其特征属性的关键词，如优酷网中的每个视频网页都有明确的标签信息；

令{w₁,w₂,...,w_T}分别表示网络中所有节点v_i中出现的关键词，按照拼音字母的先后顺序进行排列；

每个网页节点可以用一个向量来表示s_i＝(d_i1,d_i2，...,d_iT)，其中d_il表示关键词w_l在文件v_i中是否出现，若出现则d_il＝1，否则d_il＝0。

3）相关定义

完成网络的建模以后，为了实现对网络的聚类，本发明给出如下定义：

定义1节点属性集：集合S＝{s₁，s₂，...，s_N}称为节点属性集，其中s_i表示节点v_i的属性数据。

定义2邻接矩阵：节点问的邻接矩阵记为E_N×N，其中e_ij(e_ij≥0)表示节点v_i和v_j连接的情况，如果e_ij＝1，表示v_i和v_j是有连接的，否则两节点问无连接。

定义3标签集合：集合X＝{x₁，x₂，...，x_N}称为标签集合，在标签传播的迭代过程中，每个节点v_i务必与集合X中的某一元素对应，即每个节点务必属于某个标签所代表的数据集中。

定义4邻接系统：节点v_i的邻接系统定义为：当节点v_i存在邻节点，即v_i的度大于零时，它的邻接系统为N_i＝{j；e_ij＞0，i≠j}，否则当v_i的度为0时，

在标签传播的过程中，有的时候邻接系统中的出现次数最多的标签不止一个，那么根据标签的不同，将邻接系统划分为若十的邻接子系统N_i1，...，N_ir，...，N_iw。其中每个子系统用一个标签号X_ir来标记，X_ir∈X。

定义5邻近子系统属性平均值：在节点v_i的邻接系统中，如果存在若十个邻接子系统N_i1，...，N_ir，...，N_iw，设子系统N_ir中含有t个实体

，当实体屈性表现为数据属性时，按照下式计算该邻接子系统的属性值平均值：

S_{N_{ir}} = \frac{1}{t} Σ_{i = 1}^{t} S_{v_{pi}} - - - (1)

当实体的属性表现为文本属性时，则该邻接子系统的属性平均值为：

S_{N_{ir}} = (\frac{Σ_{i = 1}^{t} d_{v_{pi}} 1}{t}, \frac{Σ_{i = 1}^{t} d_{v_{pi}} 2}{t}, . . ., \frac{Σ_{i = 1}^{t} d_{v_{pi}} T}{t}) - - - (2)

定义6属性相似度：节点v_i自身的属性数掘为S_i，v_i与其邻近子系统

的节点属性相似度用

来表示，定义为该节点的属性与其邻接子系统属性平均值的差的绝对值。同样，根据节点具有属性类型的不同，采用不同的计算方式。当实体属性表现为数据属性时，按照下式计算节点v_i与其邻接子系统

的属性相似度：

Simi (S_{i}, S_{N_{ir}}) = | S_{i} - S_{N_{ir}} | - - - (3)

当实体的属性表现为文本属性时，则按照下式计算属性相似度：

Simi (S_{i}, S_{N_{ir}}) = \sqrt{{(S_{i 1} - S_{N_{ir} 1})}^{2} + {(S_{i 2} - S_{N_{ir} 2})}^{2} + {(S_{iT} - S_{N_{ir} T})}^{2}} - - - (4)

4)图模型预处理

由于图模型包含节点及边的信息，基于节点属性标签传播的网页聚类算法每次迭代时，要根据邻居节点标签信息来决定当前节点的标签，如果每次都统计该节点有哪些邻节点，算法运行时需要耗费大量的时间。因此，首先进行预处理工作，为网络的拓扑结构构造一个邻接表，存储每个节点的邻节点数量和其邻节点的位置信息，这样在迭代寻找最大频率标签的过程中，每个节点寻找它的邻节点时，只需直接遍历在邻接表中存储的它的邻节点就可以，不需要重新遍历所有节点，这大大减少了算法运行的时间开销。具体工作如下：

根据图G的拓扑结构，构造对应的邻接表结构体ALGraph。ALGraph包含顶点表节点结构体VNode和边表节点结构体ArcNode。VNode存储了每个节点的邻节点数量及其属性信息，ArcNode存储了邻居节点位置信息及边信息。

5）初始化图模型中的节点标签

依次为每个节点分配唯一的数字标签。即对于节点v，令C_v(0)＝v。

6）依据拓扑结构及节点属性迭代更新节点的标签，实现网络聚类

在每次迭代过程中，将节点顺序随机排列，按照随机排序结果依次更新节点标签，选择当前它大多数邻节点具有的标签作为它的标签。当待更新节点的大部分邻节点所属的簇结构不止一个，即该节点的邻接子系统不唯一时，计算每个邻接子系统中节点属性的平均值，然后计算待更新节点与各邻接子系统的属性相似度，并选取令相似度

最高的子系统的标签作为当前节点的标签。随着迭代的进行而节点标签不断地发生改变，连接比较稠密的节点逐渐达到相同的标签号，整个网络逐渐表现出簇结构的特征。具体的实现过程描述如下：

（1）设置迭代计数器t＝1。

（2）以随机顺序排列网络中的节点，并将排序结果存放在向量X中。

（3）按照向量X中存储的顺序，对于向量X中的每个v∈X，根据异步公式

依次更新节点的标签符号。f返回当前邻节点中出现次数最多的标签。若次数最多的标签不止一个，即节点v存在若干邻接子系统时，根据节点属性的不同，按照公式（1）或者（3）计算每个标签对应的子系统的属性平均值

然后按照公式（2）或者（4）计算节点v与每个子系统的属性相似度，选择相似度最高的子系统具有的标签作为节点v的标签。

（4）如果每个节点具有的标签，都是它的邻节点中出现次数最多的标签，那么算法停止。否则，令t＝t+1，转到第（2）步。

7）实验及分析

硬件环境：Inter（R）Core（TM）2.66GHz，2G内存的PC机一台

软件环境：Microsoft Windows XP版操作系统

（1）将该方法应用到美国足球赛程网络验证其可行性及有效性

美国足球赛程网络是分析复杂网络聚类的经典数据集，根据2000年秋季常规赛的比赛计划构建的，包含115个代表大学足球队的节点，616条表示两个大学球队之间进行了比赛的边。这些球队构成了一个具有簇结构特性的网络，通常8到12个足球队组成一个小组，不同小组间的球队比赛的可能性要少于同一小组内的球队间比赛的可能。美国足球赛程网络的图模型如图1所示。

该网络包含12个簇结构，在已知原数据集聚类结果的基础上，为每个簇中的节点按条件随机分配一定范围内的数据属性值。将基于节点属性标签传播的网页聚类算法应用到该网络上，所得聚类结果如图2所示，相关实验数据如图5的表所示。

通过分析实验数据可知：算法在网络中挖掘12个簇结构时的模块度为0.5974，运行时间为0.035秒，有10个节点划分错误，正确率高达91.30%。其中模块度是衡量算法聚类质量一个有效的评价标准，目前被广泛地使用。一般地，模块度值越接近1，表明网络的簇结构特性越明显，网络聚类的质量越高。且现实世界中大量网络实例显示，模块度值一般在0.3~0.7的范围内。由此可见，算法可以在毫秒级的时间里，优质地挖掘该足球赛程网络的簇结构。

（2）将方法应用到优酷网络实现网页聚类

使用网络爬虫从优酷网上获取视频网页的集合，根据网页间的链接关系构建一个包含16780个节点、47594条边的网络。另外，优酷网站为每个视频提供由若干关键字组成的标签，如http://v.youku.com/v_show/id_XMzMyMzQ2MjM2.html网页的视频标签信息为：“圣诞”“礼物”，对出现的标签进行汇总整理，并对意义相近的标签合并，尽量降低向量的维数。

将基于节点属性标签传播的网页聚类算法应用在该数据集上，将各个视频网页之间的链接关系作为已知条件，同时考虑每个网页的“标签”属性信息，将网络聚类成若干个簇结构。图3展示了数据集中的351个网页节点聚类的结果，内容比较相似的网页联系比较密切，而内容差异较大的网页联系比较稀疏。

该方法在优酷网数据集上实现，得到的相关性能数据如图6的表所示。算法随着迭代过程的不断进行，节点被正确划分到其所属的簇结构中情况如图4所示，其中纵坐标代表被正确聚类的节点数量的百分比。从该图可以看出，节点属性标签传播聚类方法的收敛速度有所变化。在前3次迭代过程中，由于簇结构相对较小，每个节点统计其邻接点信息时所需的时间都比较少，网络聚类速度表现得比较快，超过75%的节点很快找到其所属的簇结构。随着迭代的继续进行，簇结构不断增大，算法收敛速度减慢，当迭代6次时，95%以上的网页标签不再变化，经过8次迭代，最后将16780个网页划分为2520个簇结构，而且具有良好的模块度值。对簇结构内的网页进行分析，发现结构内的网页联系的非常紧密，视频标签的相似性非常高。当用户浏览某一个网页时，可以根据聚类结果，为其推荐其它容易引起用户兴趣的视频网页。

综上所述，通过在美国大学足球赛程网络数据集上进行实验，所得的数据验证了基于节点属性标签传播的网页聚类算法在无需先验知识指导的情况下，可以快速地挖掘网络中潜在的簇结构。将其应用到网页聚类问题中，以网页的拓扑结构为主要依据，同时参考网页的文本信息，可以实现对大规模互联网络的高效、优质聚类，挖掘出主题相似的网页，进而有效地发现互联网的分组信息。

Claims

1.一种基于节点属性标签传播的网页聚类方法，其特征是：

（1）依据网页的链接关系构造拓扑结构图模型；

（2）为图模型中每个节点构建属性特征向量；

（3）初始化网络中的节点标签；

（4）依据拓扑结构及节点属性迭代更新节点的标签；

（5）定义停止更新节点标签的条件。

2.根据权利要求1所述的基于节点属性标签传播的网页聚类方法，其特征是所述的依据网页的链接关系构造拓扑结构图模型的方法是：

1）将互联网中的网页映射为图模型中的节点；

2）将网页中的链接关系映射为图模型中节点之间相互连接的边。

3.根据权利要求1或2所述的基于节点属性标签传播的网页聚类方法，其特征是所述的为图模型中每个节点构建属性特征向量的方法是：

1）提取每个网页能够表现其特征的关键词；

2）对所有的关键词进行汇总整理并以此构建一个属性集合，其中的元素按拼音字母先后顺序排序；

3）依次为图模型中每个网页节点标记其属性向量，向量的维数与集合的规模相等。

4.根据权利要求1或2所述的基于节点属性标签传播的网页聚类方法，其特征是所述的初始化网络中的节点标签的方法是：依次为图中每个节点分配一个唯一的数字标签，以表示它所属的簇结构。

5.根据权利要求3所述的基于节点属性标签传播的网页聚类方法，其特征是所述的初始化网络中的节点标签的方法是：依次为图中每个节点分配一个唯一的数字标签，以表示它所属的簇结构。

6.根据权利要求1或2所述的基于节点属性标签传播的网页聚类方法，其特征是所述的依据拓扑结构及节点属性迭代更新节点的标签的方法是：当算法未满足终止条件时，反复迭代执行以下步骤，

1）以随机顺序排列网络中的节点；

2）按照随机排列的顺序，依次依据其邻节点中出现次数最多的标签异步更新当前节点的标签；

3）若最高频率的标签不唯一，依次计算每个最高频率标签对应的节点集中所包含元素的属性平均值；

4）计算当前待更新节点与各个节点集属性均值的相似度，选择相似度最大的节点集对应的标签更新当前节点。

7.根据权利要求3所述的基于节点属性标签传播的网页聚类方法，其特征是所述的依据拓扑结构及节点属性迭代更新节点的标签的方法是：当算法未满足终止条件时，反复迭代执行以下步骤，

1）以随机顺序排列网络中的节点；

8.根据权利要求4所述的基于节点属性标签传播的网页聚类方法，其特征是所述的依据拓扑结构及节点属性迭代更新节点的标签的方法是：当算法未满足终止条件时，反复迭代执行以下步骤，

1）以随机顺序排列网络中的节点；

9.根据权利要求5所述的基于节点属性标签传播的网页聚类方法，其特征是所述的依据拓扑结构及节点属性迭代更新节点的标签的方法是：当算法未满足终止条件时，反复迭代执行以下步骤，

1）以随机顺序排列网络中的节点；

10.根据权利要求6所述的基于节点属性标签传播的网页聚类方法，其特征是所述的定义停止更新节点标签的条件的方法是：判断图中的所有节点的标签是否都是它们的邻节点中出现次数最多的标签，如果每个节点都与其大多数邻接点标签一致，则终止，网络显示出簇结构的特征。