CN103218419B - 网络标签聚类方法和系统 - Google Patents

网络标签聚类方法和系统 Download PDF

Info

Publication number
CN103218419B
CN103218419B CN201310109375.7A CN201310109375A CN103218419B CN 103218419 B CN103218419 B CN 103218419B CN 201310109375 A CN201310109375 A CN 201310109375A CN 103218419 B CN103218419 B CN 103218419B
Authority
CN
China
Prior art keywords
clusters
web tab
mesh
clusters mesh
bunch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310109375.7A
Other languages
English (en)
Other versions
CN103218419A (zh
Inventor
陈玉焓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201310109375.7A priority Critical patent/CN103218419B/zh
Publication of CN103218419A publication Critical patent/CN103218419A/zh
Application granted granted Critical
Publication of CN103218419B publication Critical patent/CN103218419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络标签聚类方法和系统,所述方法包括:根据网络标签向量集中各网络标签向量的模值大小对二维化的网络标签向量进行排序;根据排序结果,选取数目与簇数目相一致的、网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;根据簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。本发明将网络标签向量二维化,从而可以采用优化初始质心和或优化簇数目的技术手段,来提高网络标签向量进行聚类的精度,即提高了网络标签向量对应的网络标签的聚类精度。

Description

网络标签聚类方法和系统
技术领域
本发明涉及互联网领域,尤其涉及一种网络标签聚类方法和系统。
背景技术
随着互联网的发展,网络资源越来越丰富。互联网上的网络资源可以包括:网络上的视频、音乐、图片文件,或者话题、课件等文件;网络标签(Tag)是用户根据自己的需要、理解和偏好,对网络资源进行标注得到的,用于描述网络资源的主题、类型、功能等多种特征。网络标签具有揭示资源的隐含内容或信息、分类的作用,并在此基础上实现网络资源聚合、协同与推荐等功能。
通过对网络标签的向量化,得到网络标签向量;现有网络标签向量是由用户数据、网络资源和网络标签三维属性来表征的,现有网络标签向量中每一个元素表示每个用户数据与每个网络资源与网络标签三者之间的总关联度。
在对网络标签向量化后,可以针对向量化后网络标签进行聚类算法的计算,实现对网络标签的聚类;对网络标签聚类后,有助于挖掘出范围更广、程度更深的与网络标签相关的网络资源,可以提高以网络标签来搜索、推荐网络资源等互联网应用的效率。
所谓对向量化后的网络标签的聚类,就是对于由多个网络标签向量所构成的网络标签向量集,使用某种算法将该网络标签向量集划分成若干网络标签向量子集,使得聚在同一网络标签向量子集中的网络标签向量之间的相似度较高;这样,通过对网络标签向量的聚类,也就实现了网络标签向量所对应的网络标签的聚类;即同一网络标签向量子集中的网络标签向量所对应的网络标签之间具有较高的相似度。
通常,将网络标签向量子集定义为一个簇;对簇中的全部网络标签向量求平均后得到一个平均向量,将该簇内与该平均向量距离最小的网络标签向量定义为该簇的质心;计算簇内任意两个网络标签向量之间的距离,将计算出的最大距离定义为该簇的直径;网络标签向量之间的距离与网络标签向量之间的相似度互为倒数关系。
常用的网络标签向量聚类算法有层次聚类算法和k-means(k均值)聚类算法等,由于层次聚类算法在网络标签向量数目较大时,计算复杂而耗时较长,因此对于大数目的网络标签向量,一般采用k-means聚类算法。如图1所示,对网络标签向量集的k-means聚类算法的具体步骤如下:
S101:进行初始化,令迭代次数j=1。
具体的,在对网络标签向量集进行k-means聚类之前,先进行初始化:设定网络标签向量集中的簇的数目(即簇数目),和用于判断k-means聚类过程中迭代步骤是否结束的准则函数阈值;从网络标签向量集中随机选择与设定的簇数目相同数目的网络标签向量,分别作为各簇的初始质心,即第1次迭代过程中的各簇的质心。
S102:根据第j次迭代过程中的各簇的质心,进行第j次迭代过程中的一次聚类,从而确定第j次迭代过程中的网络标签向量集的各簇所包含的网络标签向量。
具体的,根据各簇的第j次迭代过程中的各簇的质心,进行第j次迭代过程中的一次聚类过程为:针对网络标签向量集中每个非质心的网络标签向量,分别计算该非质心的网络标签向量与各簇的第j次迭代过程中的质心之间的距离;确定出与该非质心的网络标签向量之间的距离最小的质心;将该非质心的网络标签向量聚类到(即划分到)确定出的质心所在的簇中;由此,确定出第j次迭代过程中的网络标签向量集的各簇所包含的网络标签向量。其中,非质心的网络标签向量具体指的是,网络标签向量集中除第j次迭代过程中的各簇的质心之外的其它网络标签向量。
S103:根据第j次迭代过程中的网络标签向量集的各簇所包含的网络标签向量,计算第j次迭代过程中的准则函数值。
具体地,在确定第j次迭代过程中的网络标签向量集的各簇所包含的网络标签向量后,针对第j次迭代过程中的网络标签向量集中的每个簇,确定该簇的距离评估值:k-means聚类算法的准则函数一般采用平方误差准则函数(squared-error crkterkon)进行距离评估值的计算,具体可以用如下公式1来表示:
F=∑P∈C|P-m|2 (公式1)
公式1中,簇C为网络标签向量集中的任一个簇,F为第j次迭代过程中簇C的距离评估值,P表示簇C中的任一个非质心网络标签向量,m表示簇C的质心,P-m表示P与m的差值,即P到m之间的距离。
将第j次迭代过程中的各簇的距离评估值进行累加,得到第j次迭代过程中的准则函数值。
S104:将第j次迭代过程中的准则函数值与设定的准则函数阈值进行比较;若第j次迭代过程中的准则函数值大于准则函数阈值,则执行步骤S105;否则,结束迭代,执行步骤S106。
S105:计算各簇的新质心,分别作为第j+1次迭代过程中的各簇的质心后,令j=j+1,跳转到步骤S102。
具体的,对于步骤S102中第j次迭代过程中的一次聚类后得到的网络标签向量集的各簇,针对每簇,计算该簇中全部网络标签向量的平均向量,选择该簇中与计算出的平均向量距离最小的网络标签向量作为该簇的新质心,即第j+1次迭代过程中的该簇的质心。
在确定出第j+1次迭代过程中的各簇的质心后,令j=j+1,跳转到步骤S102。
S106:将第j次迭代过程中的一次聚类后得到的网络标签向量集的各簇,作为此次k-means聚类所得到的最终的聚类结果,结束此次k-means聚类过程。
具体的,将第j次迭代过程中的一次聚类后得到的网络标签向量集的各簇,亦即将第j次迭代过程中确定的网络标签向量集的各簇所包含的网络标签向量,作为此次k-means聚类所得到的最终的聚类结果,并结束此次k-means聚类过程。
事实上,上述的每一次迭代过程,完成了对网络标签向量集的一次聚类;其中后一次迭代过程的准则函数值会小于前一次迭代过程的准则函数值,即后一次对网络标签集的聚类精度要高于或等于前一次的聚类精度。多次迭代过程,实际上是对网络标签向量集的多次聚类,且聚类精度是逐次提高的,当聚类精度恒定时,完成本次k-means聚类。
然而,本发明的发明人发现,现有的网络标签聚类方法即使采用多次迭代的聚类算法,达到聚类精度恒定时,其精度仍然不高。其原因有两个:其一,在对网络标签向量集运用聚类算法时,簇数目是固定的;如果设定的簇数目过多,则互相之间距离较小(相似度较大)的网络标签向量也有可能被聚类到不同的簇中,造成簇间精度降低和簇冗余;如果设定的簇数目过少,则互相之间距离较大(相似度较小)的网络标签向量也有可能被聚类到同一个簇中,造成簇内精度降低。总之,不合适的簇数目,会造成聚类结果的精度降低。
另一个原因则是,由于在对网络标签向量集运用聚类算法前,每个簇的初始质心为随机选取,如果个别的,如介词、助词等组成的无意义的网络标签向量化后的网络标签向量、不常用词汇组成的网络标签向量化后的网络标签向量等噪声性质的网络标签向量被选取为初始质心,则导致初始质心所在的簇将没有聚类的意义或者簇内聚类精度降低,总体上降低了聚类的精度。
综上所述,现有技术的网络标签聚类方法所得到的聚类结果精度低,有必要提供一种聚类结果精度更高的网络标签聚类方法。
发明内容
针对上述现有技术存在的缺陷,本发明提供了一种网络标签聚类方法和系统,用以提高聚类结果的精度。
本发明的技术方案公开了一种网络标签聚类方法,包括:
计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;
根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;
根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
其中,所述簇数目为预先设定的;或者所述簇数目根据如下方法确定:
对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;
根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;
将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;
根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目。
其中,所述一组参考簇数目为预先设定的一组数目;或者所述一组参考簇数目是根据所述网络标签向量集中的网络标签向量个数确定的:对1~n的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,n为所述网络标签向量集中的网络标签向量个数。
较优的,所述根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目,具体包括:以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目;以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目;选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目。
较优的,所述选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目,具体包括:
将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素,构成所述待选簇数目集合;判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则:
将所述一组参考簇数目作为第1次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第1次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代:
将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i+1次迭代过程中的一组参考簇数目;针对第i+1次迭代过程中的一组参考簇数目,确定第i+1次迭代过程中的待选簇数目集合;若判断第i+1次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代;其中,i为自然数。
较优的,所述根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,具体包括:
针对所述网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到确定出的初始质心所在的簇中;以及所述聚类算法具体为k均值聚类算法。
本发明的技术方案还公开了一种网络标签聚类方法,包括:
对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;
根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;
将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;
根据找出的差值所对应的两个相邻的参考簇数目,确定出簇数目;
根据确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇;
其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的。
其中,所述网络标签向量集中各簇的初始质心是从所述网络标签向量集中随机选取的;或者所述网络标签向量集中各簇的初始质心根据如下方法确定:
计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与簇数目相一致的、排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心。
其中,所述一组参考簇数目为预先设定的一组数目;或者
所述一组参考簇数目是根据所述网络标签向量集中的网络标签向量个数确定的:对1~n的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,n为所述网络标签向量集中的网络标签向量个数。
较优的,所述根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目,具体包括:
以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目;以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目;选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目。
较优的,所述选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目,具体包括:
将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素,构成所述待选簇数目集合;判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则:
将所述一组参考簇数目作为第1次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第1次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代:
将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i+1次迭代过程中的一组参考簇数目;针对第i+1次迭代过程中的一组参考簇数目,确定第i+1次迭代过程中的待选簇数目集合;若判断第i+1次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代;其中,i为自然数。
较优的,所述根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,具体包括:
针对所述网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到确定出的初始质心所在的簇中;以及所述聚类算法具体为k均值聚类算法。
本发明的技术方案还公开了一种网络标签聚类系统,包括:
模值确定模块,用于计算网络标签向量集中各网络标签向量的模值;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;
模值排序模块,用于根据所述模值确定模块计算出的各网络标签向量的模值的大小,对所述网络标签向量集中的网络标签向量进行排序;
初始质心确定模块,用于根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;
聚类模块,用于根据所述簇数目,以及所述初始质心确定模块确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
较优的,所述网络标签聚类系统还包括:
簇数目确定模块,用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目;以及所述聚类模块具体用于根据所述簇数目确定模块确定出的簇数目,以及所述初始质心确定模块确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
本发明的技术方案还公开了一种网络标签聚类系统,包括:
簇数目确定模块和聚类模块;其中,所述簇数目确定模块包括:
参考性聚类单元用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;
参考簇最大直径确定单元用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据所述参考性聚类单元确定出的对应于该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;
直径差值确定单元用于根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;
簇数目确定单元用于将所述直径差值确定单元计算出的直径差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出簇数目;
所述聚类模块用于根据所述簇数目确定单元确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
较优的,所述簇数目确定模块还包括:
初始质心确定单元,用于对于一组参考簇数目,分别针对其中每个参考簇数目执行如下操作:计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与该参考簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各参考簇的初始质心;以及所述参考性聚类单元具体用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述初始质心确定单元针对该参考簇数目确定出的所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果。
本发明的技术方案中,由于根据网络标签向量的模值优先出初始质心,相比于现有技术采用随机方法选取的初始质心,其与网络资源关联更多,为重要网络标签向量,采用重要网络标签向量作为初始质心,可以提高网络标签向量集的簇内、簇间聚类精度。
本发明的技术方案中,由于根据多次参考性聚类后得到的簇的最大直径来选择合适的簇数目,可以同时得到该网络标签向量集的较高的簇内和簇间聚类精度,有效达到提高聚类结果精度的目的。
附图说明
图1为现有技术的对网络标签进行k-means聚类的方法流程图;
图2a为本发明的进行参考性聚类后的网络标签向量集的簇最大直径与簇数目关系曲线图;
图2b为本发明实施例一的网络标签聚类方法的流程图;
图2c为本发明实施例一的网络标签聚类的内部结构框图;
图3a为本发明实施例二的网络标签聚类方法的流程图;
图3b、3c为本发明实施例二的采用参考性聚类方法优选簇数目的方法流程图;
图4为本发明实施例二的网络标签聚类的内部结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、网络标签、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。
本发明的发明人,在对现有技术的网络标签聚类方法所得到的聚类结果精度低的原因进行分析后,分别针对这两个原因,采用如下技术手段来达到提高聚类结果精度的目的:其一,优选初始质心;其二,优选簇数目。为采用上述技术手段,本发明的技术方案中,对现有技术的三维网络标签向量进行改进,改进后,使用二维网络标签向量来表征网络标签:本发明的网络标签向量是对网络标签进行二维向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;也就是说,本发明的网络标签向量中的各元素分别表示各网络资源与该网络标签的关联度。例如,网络标签向量具体表征为D=[d1,…di,..,dN],其中di表示第i个网络资源与该网络标签的关联度;一种简单向量化后得到的二维网络标签向量中,di的取值为1或者0,取1表示第i个网络资源与该网络标签相关联,取0表示第i个网络资源与该网络标签不相关;其中,i为1~N的自然数,N为网络资源的总数。
采用二维网络标签向量后,呈现出网络标签向量的模值与网络标签向量的重要程度相关联的特点;依据这个特点,可以根据网络标签向量的模值来选择初始质心,达到优选初始质心的目的;从而提高聚类结果的精度。与网络资源关联数多的网络标签对应的网络标签向量(以下简称重要网络标签向量)比与网络资源关联数少的网络标签对应的网络标签向量(以下简称非重要网络标签向量)更重要,重要网络标签向量是噪声性质的网络标签向量的概率,小于非重要网络标签向量是噪声性质的网络标签向量的概率,因此选择若干个重要网络标签向量来作为网络标签向量集中簇的初始质心,可以提高网络标签向量集的簇内聚类精度升高的概率。另一方面,由于网络资源集的资源数目通常都很大,而网络标签向量的维数在数值上等于网络资源数目,导致网络标签向量的维数也很大,使得重要网络标签向量之间被同一个资源都关联的概率很小,从而重要网络标签向量之间的距离较小(相似度较大)的概率很小,进而选择确定个数的重要网络标签向量来作为网络标签向量集的簇的初始质心,可以提高簇间聚类精度。
采用二维网络标签向量后,网络标签向量集的簇的最大直径呈现出随该网络标签向量集中簇数目变化而变化的规律特点;依据这个特点,可以对网络标签向量集进行多次参考性聚类,计算参考性聚类后得到的簇的最大直径,根据多次参考性聚类后得到的簇的最大直径来选择合适的簇数目,达到优选簇数目的目的;从而提高最终聚类后得到的聚类结果的精度。
图2a示出了多次参考性聚类后网络标签向量集的簇的最大直径随簇数目(k)的变化曲线:横向方向为网络标签向量集的簇数目(k)的变化趋势,从左到右逐渐增大,纵向方向为网络标签向量集的簇的最大直径的变化趋势,从上到下逐渐减小;从图2a可以看出,随网络标签向量集的簇数目的增加,网络标签向量集的簇的最大直径逐渐减少而且减少的幅度也越来越小。图2a所示曲线中存在一个拐点,大于该拐点的网络标签向量集的簇数目再增加,网络标签向量集的簇的最大直径变化量也很小,此时说明,拐点附近的网络标签向量集的簇内的聚类精度基本已经达到最高程度,同时网络标签向量集的簇冗余现象还没有出现,网络标签向量集的簇间聚类精度降低的概率还很小。因此,参考拐点选取合适的簇数目作为该网络标签向量集运用聚类算法时所采用的簇数目,可以同时得到该网络标签向量集的较高的簇内和簇间聚类精度,有效达到提高聚类结果精度的目的。
基于上述的分析,本发明提供了两个具体实施例来说明本发明的技术方案。实施例一是以优化初始质心为主要技术手段的网络标签聚类技术方案;实施例二是以优化簇数目为主要技术手段的网络标签聚类技术方案。下面结合附图详细说明本发明的技术方案。
实施例一
本发明实施例一提供的网络标签聚类方法,具体流程图如图2b所示,具体包括如下步骤:
S201:计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序。
具体的,对于本发明的二维网络标签向量所构成的网络标签向量集,针对其中每个网络标签向量取模;网络标签向量的模值越大,表示与该网络标签向量对应的网络标签相关联的网络资源越多,即为该网络标签向量对应的网络标签出现频次越多;反之,网络标签向量的模值越小,即为该网络标签向量对应网络标签出现频次越少。
在对网络标签向量集中每个网络标签向量取模,得到每个网络标签向量的模值后,将网络标签向量集中各网络标签向量,根据各网络标签向量的模值从大到小进行排序;排序后得到一个根据模值大小排序的网络标签向量序列。
S202:根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心。
具体的,根据步骤S201得到的根据模值大小排序的网络标签向量序列,选择该序列中模值较大的网络标签向量,即选择排序在前的网络标签向量,分别作为该网络标签向量集待聚类过程中的各簇的初始质心;其中,选取的网络标签向量的数目与簇数目相一致,该簇数目为所述网络标签向量集中待聚类的簇的数目;该簇数目为预先设定的,或者是采用参考性聚类方法优选出来的。如何采用参考性聚类方法优选簇数目的方法将在后面的实施例二中详细介绍。
S203:根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
具体地,可以根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用现有的聚类算法得到所述网络标签向量集中聚类后的各簇;例如,可以运用k-means聚类算法得到所述网络标签向量集中聚类后的各簇。
本发明实施例一提供的一种网络标签聚类系统,内部结构框图如图2c所示,包括:模值确定模块211、模值排序模块212、初始质心确定模块213、聚类模块214。
模值确定模块211用于计算网络标签向量集中各网络标签向量的模值;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;
模值排序模块212用于根据所述模值确定模块211计算出的各网络标签向量的模值的大小,对所述网络标签向量集中的网络标签向量进行排序;
初始质心确定模块213用于根据模值排序模块212的排序结果,选取数目与簇数目相应的、所述网络标签向量集中模值较大的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;
聚类模块214用于根据所述簇数目,以及初始质心确定模块213确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
进一步,图2c所示的网络标签聚类系统中还可包括:簇数目确定模块215。
簇数目确定模块,用于采用参考性聚类方法优选出簇数目,其具体方法将在后续进行详细介绍。
由此,上述的聚类模块214具体用于根据簇数目确定模块215确定出的簇数目,以及初始质心确定模块213确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
本发明实施例一的技术方案中,由于根据网络标签向量的模值优先出初始质心,相比于现有技术采用随机方法选取的初始质心,其与网络资源关联更多,为重要网络标签向量,采用重要网络标签向量作为初始质心,可以提高网络标签向量集的簇内、簇间聚类精度。
进一步,采用参考性聚类方法优选簇数目,也可达到提高最终聚类后得到的聚类结果的精度的目的。
实施例二
本发明实施例二提供的网络标签聚类方法,具体流程图如图3a所示,具体包括如下步骤:
S331:采用参考性聚类方法优选簇数目。
S332:根据上述步骤S331优选确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇;
其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;所述的数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心具体可以是随机选取的,或者是优先得到的:计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与簇数目相应的、模值较大的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心。
上述实施例一中的步骤S202,以及本实施例二中的步骤S331所提到的采用参考性聚类方法优选簇数目的方法,主要流程步骤可以如图3b所示,包括如下步骤:
S361:对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类。
其中,网络标签向量集中的网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的。
具体地,本步骤中对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及数目与该参考簇数目相应的、网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类的具体过程为:针对网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到(即划分到)确定出的初始质心所在的簇中。
上述的数目与该参考簇数目相应的、网络标签向量集中各参考簇的初始质心既可以是随机选取的,也可以是采用与上述实施例一的步骤S201-S202中相同的方法优化得到的:计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与该参考簇数目相应的、所述网络标签向量集中模值较大的网络标签向量,分别作为所述网络标签向量集中各参考簇的初始质心。
S362:分别针对每个参考簇数目,确定出对应于该参考簇数目的参考簇最大直径。
具体地,将分别针对每个参考簇数目,对所述网络标签向量集进行参考性聚类后,得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径。
其中,所述一组参考簇数目可以是预先设定一组自然数,或者是根据所述网络标签向量集中的网络标签向量个数确定的:对1~n的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,n为所述网络标签向量集中的网络标签向量个数。
S363:根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值。
具体地,对各参考簇数目进行排序后,根据对各参考簇数目的排序结果,计算相邻的两个参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的两个参考簇数目的直径差值。
S364:将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值。
其中,差值阈值由技术人员根据经验设置,例如可以设置差值阈值为4.6。
S365:根据步骤S364中找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目(所述簇数目为所述网络标签向量集中待聚类的簇的数目)。
具体地,以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目;以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目;选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为优选出的所述簇数目。
事实上,一种较优地选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目的方法,可以是多次迭代后,从上限参考簇数目和下限参考簇数目之间优选出簇数目:
将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素,构成所述待选簇数目集合后,判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则:
将所述一组参考簇数目作为第1次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第1次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代:
将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i+1次迭代过程中的一组参考簇数目;其中,i为自然数。针对第i+1次迭代过程中的一组参考簇数目,确定第i+1次迭代过程中的待选簇数目集合;若判断第i+1次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代。其中,元素数目阈值由技术人员根据经验预先设置,比如可以设置元素数目阈值为10。
图3c示出了采用参考性聚类方法的多次迭代优选簇数目的具体流程,包括如下步骤:
S301:进行初始化,令迭代次数i=1。
具体的,在初始化过程中,选取一组参考簇数目作为第1次迭代过程中的一组参考簇数目;具体地,预先设定一组自然数作为第1次迭代过程中的一组参考簇数目,或者根据所述网络标签向量集中的网络标签向量个数确定第1次迭代过程中的一组参考簇数目:对1~n的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以设定间隔选取数字作为所述一组参考簇数目;其中,n为所述网络标签向量集中的网络标签向量个数。
之后,令迭代次数i=1。
S302:对于第i次迭代过程中的一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,得到对应于该参考簇数目的参考性聚类结果。
具体地,本步骤中对于第i次迭代过程中的一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及数目与该参考簇数目相应的、网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类的具体过程为:针对网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到(即划分到)确定出的初始质心所在的簇中;在将网络标签向量中的各网络标签向量聚类到簇中之后,得到对应于该参考簇数目的参考性聚类结果。
S303:对于第i次迭代过程中的一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目的参考性聚类结果,计算该参考性聚类结果中每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径。
S304:根据对第i次迭代过程中的一组参考簇数目的排序结果,针对排序后两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的两个参考簇数目的直径差值。
S305:在第i次迭代过程中,将步骤S304中计算出的直径差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大的差值。
S306:确定第i次迭代过程中的待选簇数目集合。
具体的,在第i次迭代过程中,确定出步骤S305中找出的差值所对应的两个相邻的参考簇数目;以所述两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目,以所述两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目,选取所述上限参考簇数目和所述下限参考簇数目之间的自然数作为第i次迭代过程中的待选簇数目集合中的各元素,从而构成第i次迭代过程中的待选簇数目集合。
S307:判定第i次迭代过程中的待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若是,结束迭代,执行步骤S309;否则,执行步骤S308。
S308:从第i次迭代过程中的待选簇数目集合中选取一组参考簇数目,作为第i+1次迭代过程中的一组参考簇数目后,令迭代次数i=i+1,跳转到步骤S302。
具体地,从第i次迭代过程中的待选簇数目集合中,间隔选取设定个数的数字作为第i+1次迭代过程中的一组参考簇数目;或者从第i次迭代过程中的待选簇数目集合中以设定间隔选取数字作为第i+1次迭代过程中的一组参考簇数目。
S309:从第i次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目。
在本发明中,任意两个网络标签向量之间的距离被定义为任意两个网络标签向量之间相似度的倒数。因此,只要计算两个网络标签向量之间的相似度,即可确定两个网络标签向量之间的距离。
进一步的,可以根据两个网络标签向量之间的夹角,来计算两个网络标签向量之间的相似度,具体根据如下公式2计算两个网络标签向量之间的相似度:
sim ( X , Y ) = cos θ = Σ t x t y t Σ t x t 2 2 × Σ t y t 2 2 (公式2)
公式2中,X表示网络标签集中的其中一个网络标签向量,具体为X=(x1,…,xt,…,xq),xt表示资源集中第t个资源与该网络标签之间的关联度,Y表示网络标签集中的另一个网络标签向量,具体为Y=(y1,…,yt,…,yq),yt表示资源集中第t个资源与该网络标签之间的关联度,其中,t为1~q的自然数,q为网络标签向量的维数,sim(X,Y)表示向量X和向量Y之间的相似度,θ表示向量X与向量Y之间的夹角。
计算出的相似度越大越接近1,则表明两个网络标签向量之间越相似,两个网络标签向量之间距离越小;余弦值越小越接近0,则表明两个网络标签向量之间越不相似,两个网络标签向量之间距离越大。
本发明实施例二提供的一种网络标签聚类系统,内部结构框图如图4所示,包括:簇数目确定模块401、以及聚类模块402。
簇数目确定模块401采用参考性聚类方法优选出簇数目:对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目;其采用参考性聚类方法优选出簇数目的具体方法可以参考上述图3a、3b、3c所示步骤中的方法。
其中,簇数目确定模块401中具体可以包括:参考性聚类单元411、参考簇最大直径确定单元412、直径差值确定单元413、簇数目确定单元414。
具体地,簇数目确定模块401中的参考性聚类单元411用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;
簇数目确定模块401中的参考簇最大直径确定单元412用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据参考性聚类单元411确定出的对应于该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;
簇数目确定模块401中的直径差值确定单元413用于根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;
簇数目确定模块401中的簇数目确定单元414用于将直径差值确定单元413计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出簇数目。
进一步,簇数目确定模块401还可包括:初始质心确定单元415;
簇数目确定模块401中的初始质心确定单元415用于对于一组参考簇数目,分别针对其中每个参考簇数目执行如下操作:计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与该参考簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各参考簇的初始质心;以及
上述的参考性聚类单元411具体用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及初始质心确定单元415针对该参考簇数目确定出的所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果。
上述实施例一中的簇数目确定模块215的功能与本发明实施例二中的簇数目确定模块401的功能相同,此处不再赘述。
聚类模块402用于根据簇数目确定模块401确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
本发明实施例二的技术方案中,由于根据多次参考性聚类后得到的簇的最大直径来选择合适的簇数目,可以同时得到该网络标签向量集的较高的簇内和簇间聚类精度,有效达到提高聚类结果精度的目的。
综上所述,本发明将网络标签向量二维化,从而可以采用优化初始质心和或优化簇数目的技术手段,来提高网络标签向量进行聚类的精度,即提高了网络标签向量对应的网络标签的聚类精度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (16)

1.一种网络标签聚类方法,其特征在于,包括:
计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;
根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;
根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
2.如权利要求1所述的方法,其中,所述簇数目为预先设定的;或者
所述簇数目根据如下方法确定:
对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;
根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;
将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;
根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目。
3.如权利要求2所述的方法,其特征在于,所述一组参考簇数目为预先设定的一组数目;或者
所述一组参考簇数目是根据所述网络标签向量集中的网络标签向量个数确定的:对1~n的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,n为所述网络标签向量集中的网络标签向量个数。
4.如权利要求3所述的方法,其特征在于,所述根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目,具体包括:
以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目;
以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目;
选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目。
5.如权利要求4所述的方法,其特征在于,所述选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目,具体包括:
将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素,构成所述待选簇数目集合;
判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则:
将所述一组参考簇数目作为第1次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第1次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代:
将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i+1次迭代过程中的一组参考簇数目;
针对第i+1次迭代过程中的一组参考簇数目,确定第i+1次迭代过程中的待选簇数目集合;
若判断第i+1次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代;
其中,i为自然数。
6.如权利要求2-5任一所述的方法,其特征在于,所述根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,具体包括:
针对所述网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到确定出的初始质心所在的簇中;以及
所述聚类算法具体为k均值聚类算法。
7.一种网络标签聚类方法,其特征在于,包括:
对于一组参考簇数目,分别针对其中每个参考簇数目执行如下操作:根据该参考簇数目,以及网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;
根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;
将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;
根据找出的差值所对应的两个相邻的参考簇数目,确定出簇数目;
根据确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇;
其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的。
8.如权利要求7所述的方法,其特征在于,所述网络标签向量集中各簇的初始质心是从所述网络标签向量集中随机选取的;或者
所述网络标签向量集中各簇的初始质心根据如下方法确定:
计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;
根据排序结果,选取数目与簇数目相一致的、排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心。
9.如权利要求8所述的方法,其特征在于,所述一组参考簇数目为预先设定的一组数目;或者
所述一组参考簇数目是根据所述网络标签向量集中的网络标签向量个数确定的:对1~n的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,n为所述网络标签向量集中的网络标签向量个数。
10.如权利要求9所述的方法,其特征在于,所述根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目,具体包括:
以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目;
以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目;
选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目。
11.如权利要求10所述的方法,其特征在于,所述选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目,具体包括:
将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素,构成所述待选簇数目集合;
判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则:
将所述一组参考簇数目作为第1次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第1次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代:
将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i+1次迭代过程中的一组参考簇数目;
针对第i+1次迭代过程中的一组参考簇数目,确定第i+1次迭代过程中的待选簇数目集合;
若判断第i+1次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代;
其中,i为自然数。
12.如权利要求7-11任一所述的方法,其特征在于,所述根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,具体包括:
针对所述网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到确定出的初始质心所在的簇中;以及
所述聚类算法具体为k均值聚类算法。
13.一种网络标签聚类系统,其特征在于,包括:
模值确定模块,用于计算网络标签向量集中各网络标签向量的模值;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;
模值排序模块,用于根据所述模值确定模块计算出的各网络标签向量的模值的大小,对所述网络标签向量集中的网络标签向量进行排序;
初始质心确定模块,用于根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;
聚类模块,用于根据所述簇数目,以及所述初始质心确定模块确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
14.如权利要求13所述的系统,其特征在于,还包括:
簇数目确定模块,用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目;以及
所述聚类模块具体用于根据所述簇数目确定模块确定出的簇数目,以及所述初始质心确定模块确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
15.一种网络标签聚类系统,其特征在于,包括:簇数目确定模块和聚类模块;其中,所述簇数目确定模块包括:
参考性聚类单元用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;
参考簇最大直径确定单元用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据所述参考性聚类单元确定出的对应于该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;
直径差值确定单元用于根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;
簇数目确定单元用于将所述直径差值确定单元计算出的直径差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出簇数目;
所述聚类模块用于根据所述簇数目确定单元确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
16.如权利要求15所述的系统,其特征在于,所述簇数目确定模块还包括:
初始质心确定单元,用于对于一组参考簇数目,分别针对其中每个参考簇数目执行如下操作:计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与该参考簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各参考簇的初始质心;以及
所述参考性聚类单元具体用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述初始质心确定单元针对该参考簇数目确定出的所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果。
CN201310109375.7A 2013-03-29 2013-03-29 网络标签聚类方法和系统 Active CN103218419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310109375.7A CN103218419B (zh) 2013-03-29 2013-03-29 网络标签聚类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310109375.7A CN103218419B (zh) 2013-03-29 2013-03-29 网络标签聚类方法和系统

Publications (2)

Publication Number Publication Date
CN103218419A CN103218419A (zh) 2013-07-24
CN103218419B true CN103218419B (zh) 2016-08-31

Family

ID=48816206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310109375.7A Active CN103218419B (zh) 2013-03-29 2013-03-29 网络标签聚类方法和系统

Country Status (1)

Country Link
CN (1) CN103218419B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944481A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777285B (zh) * 2016-12-29 2020-03-06 中国移动通信集团江苏有限公司 用户通信消费数据的标签聚类的方法和装置
US11392825B2 (en) 2017-01-09 2022-07-19 Samsung Electronics Co., Ltd. Method and algorithm of recursive deep learning quantization for weight bit reduction
CN108829807A (zh) * 2018-06-07 2018-11-16 武汉斗鱼网络科技有限公司 一种舆情归并方法、装置、服务器和存储介质
CN109408562B (zh) * 2018-11-07 2021-11-26 广东工业大学 一种基于客户特征的分组推荐方法及其装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010267277A (ja) * 1999-01-26 2010-11-25 Xerox Corp 初期クラスタセンタセット選択方法、ウエーブフロントクラスタリング方法
CN102768670A (zh) * 2012-05-31 2012-11-07 哈尔滨工程大学 基于节点属性标签传播的网页聚类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968852A (zh) * 2010-09-09 2011-02-09 西安电子科技大学 基于熵排序的半监督谱聚类确定聚类数的方法
CN102663100B (zh) * 2012-04-13 2014-01-15 西安电子科技大学 一种两阶段混合粒子群优化聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010267277A (ja) * 1999-01-26 2010-11-25 Xerox Corp 初期クラスタセンタセット選択方法、ウエーブフロントクラスタリング方法
CN102768670A (zh) * 2012-05-31 2012-11-07 哈尔滨工程大学 基于节点属性标签传播的网页聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐厚金等.基于相似中心的k-cmeans文本聚类算法.《计算机工程与设计》.2010, *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944481A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN107944481B (zh) * 2017-11-16 2022-02-18 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
CN103218419A (zh) 2013-07-24

Similar Documents

Publication Publication Date Title
CN103218419B (zh) 网络标签聚类方法和系统
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
Pham et al. S3g2: A scalable structure-correlated social graph generator
CN103279556B (zh) 基于自适应子空间学习的迭代文本聚类方法
CN105373597A (zh) 基于k-medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法
CN103699678B (zh) 一种基于多阶段分层采样的层次聚类方法和系统
CN105138647A (zh) 一种基于Simhash算法的旅游网络社区划分方法
CN103971161A (zh) 基于柯西分布量子粒子群的混合推荐方法
Lee et al. How to impute missing ratings? Claims, solution, and its application to collaborative filtering
CN108665148B (zh) 一种电子资源质量评价方法、装置和存储介质
CN102200981B (zh) 面向多层文本分类的特征选择方法和装置
CN107958338A (zh) 用电策略推荐方法及装置、存储介质
CN110533116A (zh) 基于欧式距离的自适应集成的不平衡数据分类方法
CN105468632B (zh) 一种地理编码方法及装置
CN103888541A (zh) 一种融合拓扑势和谱聚类的社区发现方法及系统
CN107818491A (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN107944485A (zh) 基于聚类群组发现的推荐系统及方法、个性化推荐系统
CN109840833A (zh) 贝叶斯协同过滤推荐方法
Scanagatta et al. Improved local search in Bayesian networks structure learning
CN108628967A (zh) 一种基于学习生成网络相似度的网络学习群组划分方法
CN108573274A (zh) 一种基于数据稳定性的选择性聚类集成方法
CN103095849B (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN112785005A (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
CN104123321B (zh) 一种确定推荐图片的方法及装置
CN114254615A (zh) 组卷方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230412

Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Sina Technology (China) Co.,Ltd.

Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor

Patentee before: Sina.com Technology (China) Co.,Ltd.

TR01 Transfer of patent right