CN102768670A - 基于节点属性标签传播的网页聚类方法 - Google Patents

基于节点属性标签传播的网页聚类方法 Download PDF

Info

Publication number
CN102768670A
CN102768670A CN2012101769125A CN201210176912A CN102768670A CN 102768670 A CN102768670 A CN 102768670A CN 2012101769125 A CN2012101769125 A CN 2012101769125A CN 201210176912 A CN201210176912 A CN 201210176912A CN 102768670 A CN102768670 A CN 102768670A
Authority
CN
China
Prior art keywords
node
label
webpage
network
nodal community
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101769125A
Other languages
English (en)
Other versions
CN102768670B (zh
Inventor
张乐君
夏磊
张健沛
杨静
国林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201210176912.5A priority Critical patent/CN102768670B/zh
Publication of CN102768670A publication Critical patent/CN102768670A/zh
Application granted granted Critical
Publication of CN102768670B publication Critical patent/CN102768670B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的是一种基于节点属性标签传播的网页聚类方法。依据网页的链接关系构造拓扑结构图模型;为图模型中每个节点构建属性特征向量;初始化网络中的节点标签;依据拓扑结构及节点属性迭代更新节点的标签;定义停止更新节点标签的条件。本发明无需了解网页分组的数量和规模等先验知识或者预先定义临界值等参数,只需提取互联网络的拓扑关系及标记网页特征的属性信息,就可以在近乎线性的时间内有效地、高质量地实现网页的聚类。由于该算法概念简单,易于理解及实现,具有较低的时间复杂度,且能够产生优质的网络聚类结果,因此适用于规模庞大的互联网络。

Description

基于节点属性标签传播的网页聚类方法
技术领域
本发明涉及的是一种网页聚类方法。
背景技术
随着对数据挖掘理论的不断深入探索,复杂网络分析引起了当前许多领域研究者的关注。复杂网络聚类更是成为一些国内外学者研究兴趣的聚焦点。许多学者致力于研究复杂网络中聚类技术,他们通过使用不同的方法,发现网络簇结构。
网络中的节点可能具有不同层次的组织结构,如大的簇结构内可能包含小的簇结构。层次聚类方法是实现聚类的传统方法,包括自顶向下的分裂层次聚类与自底向上的凝聚层次聚类两种方法,代表算法分别为PNAS.2002,99(12)中文章Community structure in social andbiological networks刊登的GN算法、Physical Review E.2004,69(6),066133中文章Fastalgorithm for detecting community structure in networks刊登的Newman贪婪算法。谱方法本质上是一种基于矩阵特征向量提取新数据特征的方法,将聚类问题转化为图划分问题。在inthIntl.Conf.on Hybrid Intelligent Systems.2009中文章An improved spectral clustering algorithmfor community discovery提出了一种改进的谱聚类算法检测社会网络中的簇结构,它充分利用网络特征,通过核心元素来挖掘簇结构,在时间和精度方面具有优越性。目前源自于生物学的算法广泛应用于各类问题,许多学者也致力于将该思想应用于社会网络聚类研究领域中。在Proceedings of the 10th annual conference on genetic and evolutionar computation,2008:1137-1138中文章Community detection in social networks with Genetic Algorithms提出了用于发现网络簇结构的遗传算法,使用一个适应度函数来识别网络中内部联系稠密、之间联系稀疏的节点组。随机游走图是一个由随机过程产生的图模型,其中节点、边的数量及节点间的连接等属性都是以某种随机方式产生的,该图由节点出现或者缺失的联合分布来定义的。Statistical computing.2008,18(2):173-183中文章A mixture model for random graphs引入了随机游走方法,并采用块结构模型,在社会自然科学网络中探索簇结构。另外,在社会网络中,由于某个元素可能不仅属于一个,而可以属于多个簇,这种现象叫做簇结构重叠。目前,绝大多数算法不考虑重叠的网络簇结构。但在多数应用中,重叠的网络簇结构更具有实际意义。Physics A:Statistical Mechanics and its Applications.2007,374(1):483-490中文章Identificationof overlapping community structure in complex networks using fuzzy c-means clustering提出了一种fuzzy c-means聚类方法,来检测复杂网络中的重叠簇结构。
但上述算法的目的都是对网络的整个簇结构进行检测,几乎都需要以了解网络的整体结构为基础,或者需要预先知道网络簇结构的数量、规模等信息,对复杂网络进行聚类。而随着互联网络技术的不断发展,数据规模不断增大,上述算法一般具有较高的时间复杂度,网络全部簇结构的挖掘将会耗费较多时间,对于大规模的网络并不能很好的适用。
发明内容
本发明的目的在于提供一种适用于大规模的数据网络,易于理解实现、时间复杂度相对较低的基于节点属性标签传播的网页聚类方法。
本发明的目的是这样实现的:
(1)依据网页的链接关系构造拓扑结构图模型;
(2)为图模型中每个节点构建属性特征向量;
(3)初始化网络中的节点标签;
(4)依据拓扑结构及节点属性迭代更新节点的标签;
(5)定义停止更新节点标签的条件。
本发明还可以包括:
所述的依据网页的链接关系构造拓扑结构图模型的方法是:1)将互联网中的网页映射为图模型中的节点;2)将网页中的链接关系映射为图模型中节点之间相互连接的边。
所述的为图模型中每个节点构建属性特征向量的方法是:1)提取每个网页能够表现其特征的关键词;2)对所有的关键词进行汇总整理并以此构建一个属性集合,其中的元素按拼音字母先后顺序排序;3)依次为图模型中每个网页节点标记其属性向量,向量的维数与集合的规模相等。
所述的初始化网络中的节点标签的方法是:依次为图中每个节点分配一个唯一的数字标签,以表示它所属的簇结构。
所述的依据拓扑结构及节点属性迭代更新节点的标签的方法是:当算法未满足终止条件时,反复迭代执行以下步骤:1)以随机顺序排列网络中的节点;2)按照随机排列的顺序,依次依据其邻节点中出现次数最多的标签异步更新当前节点的标签;3)若最高频率的标签不唯一,依次计算每个最高频率标签对应的节点集中所包含元素的属性平均值;4)计算当前待更新节点与各个节点集属性均值的相似度,选择相似度最大的节点集对应的标签更新当前节点。
所述的定义停止更新节点标签的条件的方法是:判断图中的所有节点的标签是否都是它们的邻节点中出现次数最多的标签,如果每个节点都与其大多数邻接点标签一致,那么算法终止,网络显示出簇结构的特征。
本发明重点研究的基于局部信息的启发式聚类法,它从局部的观点出发,将网络聚类问题转化为预定义启发式规则的设计问题,主要考虑当前网络中节点的局部信息进行聚类,适用于大规模的数据网络,具有易于理解实现、时间复杂度相对较低等优点。
本发明从网络的拓扑结构及网页的属性信息出发,提出一种基于节点属性标签传播的网页聚类方法。经实验验证,这个技术能够很好地解决大规模的互联网络中网页聚类的效率低、质量差的不足。
本发明是基于如下问题而设计的:
在规模庞大的互联网络中,通过聚类技术可以发现纷繁复杂的互联网中的某个主题或者类别的网页集合,可以为用户快速有效的查找信息提供较好的指导,也可以针对一些特定领域进行推荐,具有重要的理论价值和现实意义。然而由于传统的复杂网络聚类方法通常不能同时满足聚类质量高、运行速度快、无需先验知识作为指导,且适用于大规模网络的优点,因此需要设计一种快速、有效的网络聚类方法。
为了能够高效、优质地挖掘网络中潜在的簇结构,采用一种所需信息量小且有效的方法。首先将网络转换为图模型,并标记图中每个节点的属性信息;其次主要以拓扑结构为主要依据实现标签在网络中的快速传播;当待更新节点可选择的标签不唯一时,参考节点的属性信息,更加准确地更新节点标签;最后,当所有节点与其大多数节点标签一致时,实现网络的聚类。
本发明的主要技术特征体现在:
1)算法所需信息量少,聚类速度快、质量高
传统的网络聚类算法通常从全局观点出发,对某一节点进行聚类时需要考虑整个网络的结构,因此往往需要耗费大量的时间。本发明从局部角度出发,主要依据节点的链接情况,必要时参考节点属性信息进行聚类,可以提高聚类速度并保证网络划分的质量。
具体技术路线是:1.从局部观点出发,根据当前节点的大多数邻接点具有的标签来确定该节点所应属的簇结构;2.当邻接点中最高频率标签不唯一时,参考节点属性信息,并选择相似度更高的节点集对应的标签。
2)适用于动态增长的网络
随着Internet技术的发展,互联网的信息量也与日俱增。当网络规模发生增长时,对于新增加的网页,主要依据与其链接的网页信息即可高效聚类,而不必重新对整个网络重新进行聚类。
具体技术路线:1.根据新增加网页与原始网络的链接关系,完善图模型;2)为新增节点创建属性向量;3)对新增节点,主要依据与网络节点的局部连接关系,参考节点属性信息实现聚类。
本发明的优点在于:可以在大规模动态增长的网络中,高效、优质地挖掘簇结构,发现网页的分组信息。
附图说明
图1是美国大学足球赛程网络的图模型;
图2是基于节点属性标签传播的网页聚类方法在足球赛程网络上运行,所得到的聚类结果图;
图3是基于节点属性标签传播的网页聚类方法在优酷网上运行,所得的部分网页聚类效果图;
图4是基于节点属性标签传播的网页聚类方法在的优酷网聚类速度效果图;
图5是基于节点属性标签传播的网页聚类方法在算法在足球赛程网络上运行所得到的实验数据表;
图6是基于节点属性标签传播的网页聚类方法在算法在优酷网上运行所得到的实验数据表。
具体实施方式
下面结合附图举例对本发明做更详细地描述:
1)依据网页之间的链接关系构造拓扑结构图模型
为了对网络进行分析研究,首先需要通过一种合适的数学模型来描述它,而图论与网络之间存在着非常密切的联系。将网络转换为图模型G(V,E)的具体方法如下:
Figure BDA00001712558100041
将网络中的网页映射为图模型中的节点,用V表示所有节点的集合{v1,v2,...,vN};
Figure BDA00001712558100042
将网页间按链接关系映射为图模型中节点之间的边,用E表示节点对之间的连接。
2)为图模型中的每个节点构造属性向量
网络中的网页都具有其自身的属性信息,按照如下方法依次为每个网页构建属性向量:
Figure BDA00001712558100043
提取每个网页能够标记其特征属性的关键词,如优酷网中的每个视频网页都有明确的标签信息;
Figure BDA00001712558100044
令{w1,w2,...,wT}分别表示网络中所有节点vi中出现的关键词,按照拼音字母的先后顺序进行排列;
Figure BDA00001712558100045
每个网页节点可以用一个向量来表示si=(di1,di2,...,diT),其中dil表示关键词wl在文件vi中是否出现,若出现则dil=1,否则dil=0。
3)相关定义
完成网络的建模以后,为了实现对网络的聚类,本发明给出如下定义:
定义1节点属性集:集合S={s1,s2,...,sN}称为节点属性集,其中si表示节点vi的属性数据。
定义2邻接矩阵:节点问的邻接矩阵记为EN×N,其中eij(eij≥0)表示节点vi和vj连接的情况,如果eij=1,表示vi和vj是有连接的,否则两节点问无连接。
定义3标签集合:集合X={x1,x2,...,xN}称为标签集合,在标签传播的迭代过程中,每个节点vi务必与集合X中的某一元素对应,即每个节点务必属于某个标签所代表的数据集中。
定义4邻接系统:节点vi的邻接系统定义为:当节点vi存在邻节点,即vi的度大于零时,它的邻接系统为Ni={j;eij>0,i≠j},否则当vi的度为0时,
Figure BDA00001712558100051
在标签传播的过程中,有的时候邻接系统中的出现次数最多的标签不止一个,那么根据标签的不同,将邻接系统划分为若十的邻接子系统Ni1,...,Nir,...,Niw。其中每个子系统用一个标签号Xir来标记,Xir∈X。
定义5邻近子系统属性平均值:在节点vi的邻接系统中,如果存在若十个邻接子系统Ni1,...,Nir,...,Niw,设子系统Nir中含有t个实体
Figure BDA00001712558100052
,当实体屈性表现为数据属性时,按照下式计算该邻接子系统的属性值平均值:
S N ir = 1 t Σ i = 1 t S v pi - - - ( 1 )
当实体的属性表现为文本属性时,则该邻接子系统的属性平均值为:
S N ir = ( Σ i = 1 t d v pi 1 t , Σ i = 1 t d v pi 2 t , . . . , Σ i = 1 t d v pi T t ) - - - ( 2 )
定义6属性相似度:节点vi自身的属性数掘为Si,vi与其邻近子系统
Figure BDA00001712558100055
的节点属性相似度用
Figure BDA00001712558100056
来表示,定义为该节点的属性与其邻接子系统属性平均值的差的绝对值。同样,根据节点具有属性类型的不同,采用不同的计算方式。当实体属性表现为数据属性时,按照下式计算节点vi与其邻接子系统
Figure BDA00001712558100057
的属性相似度:
Simi ( S i , S N ir ) = | S i - S N ir | - - - ( 3 )
当实体的属性表现为文本属性时,则按照下式计算属性相似度:
Simi ( S i , S N ir ) = ( S i 1 - S N ir 1 ) 2 + ( S i 2 - S N ir 2 ) 2 + ( S iT - S N ir T ) 2 - - - ( 4 )
4)图模型预处理
由于图模型包含节点及边的信息,基于节点属性标签传播的网页聚类算法每次迭代时,要根据邻居节点标签信息来决定当前节点的标签,如果每次都统计该节点有哪些邻节点,算法运行时需要耗费大量的时间。因此,首先进行预处理工作,为网络的拓扑结构构造一个邻接表,存储每个节点的邻节点数量和其邻节点的位置信息,这样在迭代寻找最大频率标签的过程中,每个节点寻找它的邻节点时,只需直接遍历在邻接表中存储的它的邻节点就可以,不需要重新遍历所有节点,这大大减少了算法运行的时间开销。具体工作如下:
根据图G的拓扑结构,构造对应的邻接表结构体ALGraph。ALGraph包含顶点表节点结构体VNode和边表节点结构体ArcNode。VNode存储了每个节点的邻节点数量及其属性信息,ArcNode存储了邻居节点位置信息及边信息。
5)初始化图模型中的节点标签
依次为每个节点分配唯一的数字标签。即对于节点v,令Cv(0)=v。
6)依据拓扑结构及节点属性迭代更新节点的标签,实现网络聚类
在每次迭代过程中,将节点顺序随机排列,按照随机排序结果依次更新节点标签,选择当前它大多数邻节点具有的标签作为它的标签。当待更新节点的大部分邻节点所属的簇结构不止一个,即该节点的邻接子系统不唯一时,计算每个邻接子系统中节点属性的平均值,然后计算待更新节点与各邻接子系统的属性相似度,并选取令相似度
Figure BDA00001712558100061
最高的子系统的标签作为当前节点的标签。随着迭代的进行而节点标签不断地发生改变,连接比较稠密的节点逐渐达到相同的标签号,整个网络逐渐表现出簇结构的特征。具体的实现过程描述如下:
(1)设置迭代计数器t=1。
(2)以随机顺序排列网络中的节点,并将排序结果存放在向量X中。
(3)按照向量X中存储的顺序,对于向量X中的每个v∈X,根据异步公式
Figure BDA00001712558100062
依次更新节点的标签符号。f返回当前邻节点中出现次数最多的标签。若次数最多的标签不止一个,即节点v存在若干邻接子系统时,根据节点属性的不同,按照公式(1)或者(3)计算每个标签对应的子系统的属性平均值
Figure BDA00001712558100063
然后按照公式(2)或者(4)计算节点v与每个子系统的属性相似度,选择相似度最高的子系统具有的标签作为节点v的标签。
(4)如果每个节点具有的标签,都是它的邻节点中出现次数最多的标签,那么算法停止。否则,令t=t+1,转到第(2)步。
7)实验及分析
硬件环境:Inter(R)Core(TM)2.66GHz,2G内存的PC机一台
软件环境:Microsoft Windows XP版操作系统
(1)将该方法应用到美国足球赛程网络验证其可行性及有效性
美国足球赛程网络是分析复杂网络聚类的经典数据集,根据2000年秋季常规赛的比赛计划构建的,包含115个代表大学足球队的节点,616条表示两个大学球队之间进行了比赛的边。这些球队构成了一个具有簇结构特性的网络,通常8到12个足球队组成一个小组,不同小组间的球队比赛的可能性要少于同一小组内的球队间比赛的可能。美国足球赛程网络的图模型如图1所示。
该网络包含12个簇结构,在已知原数据集聚类结果的基础上,为每个簇中的节点按条件随机分配一定范围内的数据属性值。将基于节点属性标签传播的网页聚类算法应用到该网络上,所得聚类结果如图2所示,相关实验数据如图5的表所示。
通过分析实验数据可知:算法在网络中挖掘12个簇结构时的模块度为0.5974,运行时间为0.035秒,有10个节点划分错误,正确率高达91.30%。其中模块度是衡量算法聚类质量一个有效的评价标准,目前被广泛地使用。一般地,模块度值越接近1,表明网络的簇结构特性越明显,网络聚类的质量越高。且现实世界中大量网络实例显示,模块度值一般在0.3~0.7的范围内。由此可见,算法可以在毫秒级的时间里,优质地挖掘该足球赛程网络的簇结构。
(2)将方法应用到优酷网络实现网页聚类
使用网络爬虫从优酷网上获取视频网页的集合,根据网页间的链接关系构建一个包含16780个节点、47594条边的网络。另外,优酷网站为每个视频提供由若干关键字组成的标签,如http://v.youku.com/v_show/id_XMzMyMzQ2MjM2.html网页的视频标签信息为:“圣诞”“礼物”,对出现的标签进行汇总整理,并对意义相近的标签合并,尽量降低向量的维数。
将基于节点属性标签传播的网页聚类算法应用在该数据集上,将各个视频网页之间的链接关系作为已知条件,同时考虑每个网页的“标签”属性信息,将网络聚类成若干个簇结构。图3展示了数据集中的351个网页节点聚类的结果,内容比较相似的网页联系比较密切,而内容差异较大的网页联系比较稀疏。
该方法在优酷网数据集上实现,得到的相关性能数据如图6的表所示。算法随着迭代过程的不断进行,节点被正确划分到其所属的簇结构中情况如图4所示,其中纵坐标代表被正确聚类的节点数量的百分比。从该图可以看出,节点属性标签传播聚类方法的收敛速度有所变化。在前3次迭代过程中,由于簇结构相对较小,每个节点统计其邻接点信息时所需的时间都比较少,网络聚类速度表现得比较快,超过75%的节点很快找到其所属的簇结构。随着迭代的继续进行,簇结构不断增大,算法收敛速度减慢,当迭代6次时,95%以上的网页标签不再变化,经过8次迭代,最后将16780个网页划分为2520个簇结构,而且具有良好的模块度值。对簇结构内的网页进行分析,发现结构内的网页联系的非常紧密,视频标签的相似性非常高。当用户浏览某一个网页时,可以根据聚类结果,为其推荐其它容易引起用户兴趣的视频网页。
综上所述,通过在美国大学足球赛程网络数据集上进行实验,所得的数据验证了基于节点属性标签传播的网页聚类算法在无需先验知识指导的情况下,可以快速地挖掘网络中潜在的簇结构。将其应用到网页聚类问题中,以网页的拓扑结构为主要依据,同时参考网页的文本信息,可以实现对大规模互联网络的高效、优质聚类,挖掘出主题相似的网页,进而有效地发现互联网的分组信息。

Claims (10)

1.一种基于节点属性标签传播的网页聚类方法,其特征是:
(1)依据网页的链接关系构造拓扑结构图模型;
(2)为图模型中每个节点构建属性特征向量;
(3)初始化网络中的节点标签;
(4)依据拓扑结构及节点属性迭代更新节点的标签;
(5)定义停止更新节点标签的条件。
2.根据权利要求1所述的基于节点属性标签传播的网页聚类方法,其特征是所述的依据网页的链接关系构造拓扑结构图模型的方法是:
1)将互联网中的网页映射为图模型中的节点;
2)将网页中的链接关系映射为图模型中节点之间相互连接的边。
3.根据权利要求1或2所述的基于节点属性标签传播的网页聚类方法,其特征是所述的为图模型中每个节点构建属性特征向量的方法是:
1)提取每个网页能够表现其特征的关键词;
2)对所有的关键词进行汇总整理并以此构建一个属性集合,其中的元素按拼音字母先后顺序排序;
3)依次为图模型中每个网页节点标记其属性向量,向量的维数与集合的规模相等。
4.根据权利要求1或2所述的基于节点属性标签传播的网页聚类方法,其特征是所述的初始化网络中的节点标签的方法是:依次为图中每个节点分配一个唯一的数字标签,以表示它所属的簇结构。
5.根据权利要求3所述的基于节点属性标签传播的网页聚类方法,其特征是所述的初始化网络中的节点标签的方法是:依次为图中每个节点分配一个唯一的数字标签,以表示它所属的簇结构。
6.根据权利要求1或2所述的基于节点属性标签传播的网页聚类方法,其特征是所述的依据拓扑结构及节点属性迭代更新节点的标签的方法是:当算法未满足终止条件时,反复迭代执行以下步骤,
1)以随机顺序排列网络中的节点;
2)按照随机排列的顺序,依次依据其邻节点中出现次数最多的标签异步更新当前节点的标签;
3)若最高频率的标签不唯一,依次计算每个最高频率标签对应的节点集中所包含元素的属性平均值;
4)计算当前待更新节点与各个节点集属性均值的相似度,选择相似度最大的节点集对应的标签更新当前节点。
7.根据权利要求3所述的基于节点属性标签传播的网页聚类方法,其特征是所述的依据拓扑结构及节点属性迭代更新节点的标签的方法是:当算法未满足终止条件时,反复迭代执行以下步骤,
1)以随机顺序排列网络中的节点;
2)按照随机排列的顺序,依次依据其邻节点中出现次数最多的标签异步更新当前节点的标签;
3)若最高频率的标签不唯一,依次计算每个最高频率标签对应的节点集中所包含元素的属性平均值;
4)计算当前待更新节点与各个节点集属性均值的相似度,选择相似度最大的节点集对应的标签更新当前节点。
8.根据权利要求4所述的基于节点属性标签传播的网页聚类方法,其特征是所述的依据拓扑结构及节点属性迭代更新节点的标签的方法是:当算法未满足终止条件时,反复迭代执行以下步骤,
1)以随机顺序排列网络中的节点;
2)按照随机排列的顺序,依次依据其邻节点中出现次数最多的标签异步更新当前节点的标签;
3)若最高频率的标签不唯一,依次计算每个最高频率标签对应的节点集中所包含元素的属性平均值;
4)计算当前待更新节点与各个节点集属性均值的相似度,选择相似度最大的节点集对应的标签更新当前节点。
9.根据权利要求5所述的基于节点属性标签传播的网页聚类方法,其特征是所述的依据拓扑结构及节点属性迭代更新节点的标签的方法是:当算法未满足终止条件时,反复迭代执行以下步骤,
1)以随机顺序排列网络中的节点;
2)按照随机排列的顺序,依次依据其邻节点中出现次数最多的标签异步更新当前节点的标签;
3)若最高频率的标签不唯一,依次计算每个最高频率标签对应的节点集中所包含元素的属性平均值;
4)计算当前待更新节点与各个节点集属性均值的相似度,选择相似度最大的节点集对应的标签更新当前节点。
10.根据权利要求6所述的基于节点属性标签传播的网页聚类方法,其特征是所述的定义停止更新节点标签的条件的方法是:判断图中的所有节点的标签是否都是它们的邻节点中出现次数最多的标签,如果每个节点都与其大多数邻接点标签一致,则终止,网络显示出簇结构的特征。
CN201210176912.5A 2012-05-31 2012-05-31 基于节点属性标签传播的网页聚类方法 Expired - Fee Related CN102768670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210176912.5A CN102768670B (zh) 2012-05-31 2012-05-31 基于节点属性标签传播的网页聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210176912.5A CN102768670B (zh) 2012-05-31 2012-05-31 基于节点属性标签传播的网页聚类方法

Publications (2)

Publication Number Publication Date
CN102768670A true CN102768670A (zh) 2012-11-07
CN102768670B CN102768670B (zh) 2014-08-20

Family

ID=47096074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210176912.5A Expired - Fee Related CN102768670B (zh) 2012-05-31 2012-05-31 基于节点属性标签传播的网页聚类方法

Country Status (1)

Country Link
CN (1) CN102768670B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036013A (zh) * 2014-06-25 2014-09-10 燕山大学 基于属性拓扑的博客数据的形式概念计算方法
CN104217020A (zh) * 2014-09-25 2014-12-17 浪潮(北京)电子信息产业有限公司 一种基于MapReduce框架的网页聚类方法和系统
CN104657391A (zh) * 2013-11-21 2015-05-27 阿里巴巴集团控股有限公司 页面的处理方法及装置
JP2015115066A (ja) * 2013-12-06 2015-06-22 パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated モードベースのグラフクラスタリングを使用した関心情報の効率的な検出
CN105677648A (zh) * 2014-11-18 2016-06-15 四三九九网络股份有限公司 一种基于标签传播算法的社团发现方法及系统
CN105893381A (zh) * 2014-12-23 2016-08-24 天津科技大学 一种基于半监督标签传播的微博用户群体划分方法
CN103218419B (zh) * 2013-03-29 2016-08-31 新浪网技术(中国)有限公司 网络标签聚类方法和系统
CN106446124A (zh) * 2016-09-19 2017-02-22 成都知道创宇信息技术有限公司 一种基于网络关系图的网站分类方法
CN106598970A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种标签确定方法、设备和系统
CN106610989A (zh) * 2015-10-22 2017-05-03 北京国双科技有限公司 搜索关键词聚类方法及装置
CN106708495A (zh) * 2015-11-18 2017-05-24 优信拍(北京)信息科技有限公司 一种基于移动终端的页面显示方法及装置
CN107529656A (zh) * 2016-06-22 2018-01-02 腾讯科技(深圳)有限公司 一种社交网络社区的划分方法及服务器
CN108076105A (zh) * 2016-11-18 2018-05-25 腾讯科技(北京)有限公司 信息推荐方法、应用服务器和应用客户端
CN108491511A (zh) * 2018-03-23 2018-09-04 腾讯科技(深圳)有限公司 基于图数据的数据挖掘方法和装置、模型训练方法和装置
CN108804582A (zh) * 2018-05-24 2018-11-13 天津大学 基于大数据间复杂关系的图数据库优化的方法
CN109040214A (zh) * 2018-07-25 2018-12-18 北京邮电大学 一种云环境下可靠性增强的服务部署方法
CN109885797A (zh) * 2019-02-18 2019-06-14 武汉大学 一种基于多身份空间映射的关系网络构建方法
CN110009113A (zh) * 2018-01-02 2019-07-12 中国移动通信有限公司研究院 物联网设备自主学习方法、装置、设备、存储介质
CN110442674A (zh) * 2019-06-11 2019-11-12 中南民族大学 标签传播的聚类方法、终端设备、存储介质及装置
CN110874607A (zh) * 2018-08-31 2020-03-10 浙江大学 一种网络节点的聚类方法及装置
CN111222304A (zh) * 2019-10-17 2020-06-02 珠海许继芝电网自动化有限公司 一种基于配网自动化的图模导出转换方法
CN111742307A (zh) * 2018-02-21 2020-10-02 威斯康星校友研究基金会 用于高速图遍历的计算机架构
CN112905591A (zh) * 2021-02-04 2021-06-04 成都信息工程大学 一种基于机器学习的数据表连接顺序选择方法
CN110287977B (zh) * 2018-03-19 2021-09-21 阿里巴巴(中国)有限公司 内容聚类方法及装置
CN116304457A (zh) * 2023-02-27 2023-06-23 山东乾舜广告传媒有限公司 一种网页多重信息属性的标记方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582796A (zh) * 2018-12-05 2019-04-05 深圳前海微众银行股份有限公司 企业舆情事件网络的生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075259A (zh) * 2006-05-16 2007-11-21 索尼株式会社 使用公众网站获取元数据
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075259A (zh) * 2006-05-16 2007-11-21 索尼株式会社 使用公众网站获取元数据
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
肖宇等: "基于近邻传播算法的半监督聚类", 《软件学报》 *
郭景峰等: "基于文本―链接模型和近邻传播算法的网页聚类", 《计算机应用研究》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218419B (zh) * 2013-03-29 2016-08-31 新浪网技术(中国)有限公司 网络标签聚类方法和系统
US10387545B2 (en) 2013-11-21 2019-08-20 Alibaba Group Holding Limited Processing page
CN104657391A (zh) * 2013-11-21 2015-05-27 阿里巴巴集团控股有限公司 页面的处理方法及装置
CN104657391B (zh) * 2013-11-21 2018-08-03 阿里巴巴集团控股有限公司 页面的处理方法及装置
JP2015115066A (ja) * 2013-12-06 2015-06-22 パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated モードベースのグラフクラスタリングを使用した関心情報の効率的な検出
CN104036013A (zh) * 2014-06-25 2014-09-10 燕山大学 基于属性拓扑的博客数据的形式概念计算方法
CN104036013B (zh) * 2014-06-25 2017-10-20 燕山大学 基于属性拓扑的博客数据的形式概念计算方法
CN104217020A (zh) * 2014-09-25 2014-12-17 浪潮(北京)电子信息产业有限公司 一种基于MapReduce框架的网页聚类方法和系统
CN105677648B (zh) * 2014-11-18 2018-08-28 四三九九网络股份有限公司 一种基于标签传播算法的社团发现方法及系统
CN105677648A (zh) * 2014-11-18 2016-06-15 四三九九网络股份有限公司 一种基于标签传播算法的社团发现方法及系统
CN105893381A (zh) * 2014-12-23 2016-08-24 天津科技大学 一种基于半监督标签传播的微博用户群体划分方法
CN106598970A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种标签确定方法、设备和系统
CN106598970B (zh) * 2015-10-14 2020-04-24 阿里巴巴集团控股有限公司 一种标签确定方法、设备和系统
CN106610989A (zh) * 2015-10-22 2017-05-03 北京国双科技有限公司 搜索关键词聚类方法及装置
CN106610989B (zh) * 2015-10-22 2021-06-01 北京国双科技有限公司 搜索关键词聚类方法及装置
CN106708495A (zh) * 2015-11-18 2017-05-24 优信拍(北京)信息科技有限公司 一种基于移动终端的页面显示方法及装置
CN107529656B (zh) * 2016-06-22 2021-01-15 腾讯科技(深圳)有限公司 一种社交网络社区的划分方法及服务器
CN107529656A (zh) * 2016-06-22 2018-01-02 腾讯科技(深圳)有限公司 一种社交网络社区的划分方法及服务器
CN106446124B (zh) * 2016-09-19 2019-11-15 成都知道创宇信息技术有限公司 一种基于网络关系图的网站分类方法
CN106446124A (zh) * 2016-09-19 2017-02-22 成都知道创宇信息技术有限公司 一种基于网络关系图的网站分类方法
CN108076105B (zh) * 2016-11-18 2020-12-18 腾讯科技(北京)有限公司 信息推荐方法、应用服务器和应用客户端
CN108076105A (zh) * 2016-11-18 2018-05-25 腾讯科技(北京)有限公司 信息推荐方法、应用服务器和应用客户端
CN110009113A (zh) * 2018-01-02 2019-07-12 中国移动通信有限公司研究院 物联网设备自主学习方法、装置、设备、存储介质
CN111742307A (zh) * 2018-02-21 2020-10-02 威斯康星校友研究基金会 用于高速图遍历的计算机架构
CN110287977B (zh) * 2018-03-19 2021-09-21 阿里巴巴(中国)有限公司 内容聚类方法及装置
CN108491511A (zh) * 2018-03-23 2018-09-04 腾讯科技(深圳)有限公司 基于图数据的数据挖掘方法和装置、模型训练方法和装置
CN108804582A (zh) * 2018-05-24 2018-11-13 天津大学 基于大数据间复杂关系的图数据库优化的方法
CN109040214A (zh) * 2018-07-25 2018-12-18 北京邮电大学 一种云环境下可靠性增强的服务部署方法
CN109040214B (zh) * 2018-07-25 2020-07-17 北京邮电大学 一种云环境下可靠性增强的服务部署方法
CN110874607A (zh) * 2018-08-31 2020-03-10 浙江大学 一种网络节点的聚类方法及装置
CN109885797B (zh) * 2019-02-18 2020-12-01 武汉大学 一种基于多身份空间映射的关系网络构建方法
CN109885797A (zh) * 2019-02-18 2019-06-14 武汉大学 一种基于多身份空间映射的关系网络构建方法
CN110442674A (zh) * 2019-06-11 2019-11-12 中南民族大学 标签传播的聚类方法、终端设备、存储介质及装置
CN110442674B (zh) * 2019-06-11 2021-09-14 中南民族大学 标签传播的聚类方法、终端设备、存储介质及装置
CN111222304A (zh) * 2019-10-17 2020-06-02 珠海许继芝电网自动化有限公司 一种基于配网自动化的图模导出转换方法
CN111222304B (zh) * 2019-10-17 2023-09-05 珠海许继芝电网自动化有限公司 一种基于配网自动化的图模导出转换方法
CN112905591A (zh) * 2021-02-04 2021-06-04 成都信息工程大学 一种基于机器学习的数据表连接顺序选择方法
CN116304457A (zh) * 2023-02-27 2023-06-23 山东乾舜广告传媒有限公司 一种网页多重信息属性的标记方法
CN116304457B (zh) * 2023-02-27 2024-03-29 山东乾舜广告传媒有限公司 一种网页多重信息属性的标记方法

Also Published As

Publication number Publication date
CN102768670B (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
CN102768670B (zh) 基于节点属性标签传播的网页聚类方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
CN103325061B (zh) 一种社区发现方法和系统
CN102810113B (zh) 一种针对复杂网络的混合型聚类方法
CN106886524A (zh) 一种基于随机游走的社会网络社区划分方法
CN103559252A (zh) 给游客推荐其很可能会浏览的景点的方法
US20220318317A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN104272222A (zh) 输入文本的系统和输入文本的方法
CN105893381A (zh) 一种基于半监督标签传播的微博用户群体划分方法
CN105279187A (zh) 一种基于边聚集系数的社会网络群体划分方法
Singh et al. Artifical bee colony algorithm using problem-specific neighborhood strategies for the tree t-spanner problem
CN105335438A (zh) 一种基于局部最短回路的社会网络群体划分方法
Guo et al. PORA: A Physarum-inspired obstacle-avoiding routing algorithm for integrated circuit design
CN104200272A (zh) 一种基于改进遗传算法的复杂网络社区挖掘方法
CN103116574A (zh) 从自然语言文本挖掘领域过程本体的方法
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN103838852A (zh) 一种快速查找多块结构化网格对接关系的方法
Hashem et al. An efficient dynamic superset bit-vector approach for mining frequent closed itemsets and their lattice structure
Xia et al. Toward solving the Steiner travelling salesman problem on urban road maps using the branch decomposition of graphs
Ullah et al. A novel relevance-based information interaction model for community detection in complex networks
CN101276370A (zh) 基于关键帧的三维人体运动数据检索方法
Huang et al. Structure clustering for Chinese patent documents
CN100349163C (zh) 三维cad模型基于形状的相似度评估方法
CN102663108A (zh) 基于复杂网络模型并行化标签传播算法的药物社团发现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140820

Termination date: 20200531