CN103699573A - 社交平台的ugc标签聚类方法和装置 - Google Patents

社交平台的ugc标签聚类方法和装置 Download PDF

Info

Publication number
CN103699573A
CN103699573A CN201310626462.XA CN201310626462A CN103699573A CN 103699573 A CN103699573 A CN 103699573A CN 201310626462 A CN201310626462 A CN 201310626462A CN 103699573 A CN103699573 A CN 103699573A
Authority
CN
China
Prior art keywords
bunch
label
cluster
barycenter
ugc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310626462.XA
Other languages
English (en)
Inventor
昝艳
张俊林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201310626462.XA priority Critical patent/CN103699573A/zh
Publication of CN103699573A publication Critical patent/CN103699573A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社交平台的UGC标签聚类方法和装置,该方法包括:从UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,一次聚类以及质心的更新过程中:对未聚类的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,将该标签聚类到与之相似度最大的簇中;否则生成一个新的以该标签为质心的簇;统计本次聚类完成后得到的每个簇中的标签的个数,将标签个数小于第一数量阈值的簇解散后,针对剩余的每个簇,对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。应用本发明,可提高聚类准确度以及运算速度。

Description

社交平台的UGC标签聚类方法和装置
技术领域
本发明涉及互联网技术,尤其涉及一种社交平台的UGC标签聚类方法和装置。
背景技术
随着互联网技术的发展,通过社交平台来进行信息的分享、传播以及获取,已成为广大网民的主要社交方式之一。例如,通过微博或Twitter(推特)等社交平台,用户可以通过各种客户端组建个人社区,以140字左右的文字更新信息,并实现将自己的最新动态和想法即时分享。
而社交平台下的UGC(User Generated Content,用户生成内容)标签,是由用户生成的对用户特征刻画的最为直接的内容,比如用户的身份、性格、兴趣情感等,因此,UGC标签成为社交平台下的领域专家搜索、好友推荐等应用的重要数据源。但是,UGC标签是用户自主生成的缺乏引导的多媒体数据,使得UGC标签中经常出现标签同义、或语义模糊等现象,导致UGC标签无法直接为上述应用提供有效的数据支持。因此,经常会预先对UGC标签进行聚类,将已聚类的UGC标签作为数据源。
现有的基于凝聚式的层次聚类算法可以对UGC标签进行聚类。具体地,将每个标签分别当做一个簇后,计算每个簇之间的相似度,并将相似度高于设定阈值的簇合并成一个更大的簇;如此迭代,直到达到预期数量的簇。
本发明的发明人发现,该基于凝聚式的层次聚类算法中,对于迭代过程中将某一标签划分为某一类簇后,在后续的迭代过程中将永远属于该类簇,因此,聚类准确度不高;而且,该基于凝聚式的层次聚类算法的时间复杂度与迭代次数成正比,而与社交平台下的UGC标签的总数的平方成正比,当进行大规模的标签聚类时,存在运算速度慢的不足。
现有还提出了一种由K-means(K-聚类方法)算法演变的K中心聚类算法也可以对UGC标签进行聚类:根据预先指定的簇数目k,在聚类过程中计算标签到k个簇中心点(簇中心点是某个具体的标签)的相似度来完成类别指派,然后根据规则更新各个簇的中心点;反复迭代,直到满足k个中心点不再发生变化为止;这样将社交平台的UGC标签最终聚类到k个簇中。然而,本发明的发明人发现,该算法也存在聚类结果不准确的问题:在实际应用中,预先指定的簇数目k可能并不合适,例如,当指定的k值过大时,可能会出现相似度较高的两个标签划分到不同的簇中,使得聚类比较分散,聚类结果准确度不高;当指定的k值过小时,则簇中的标签个数会比较多,这样会存在相似度不高的两个标签聚类到一个簇中,使得簇的凝聚度不高,降低聚类结果的准确度。此外,该算法的时间复杂度也与社交平台下的UGC标签的总数的平方成正比,因此,运算速度也较慢。
综上所述,现有对UGC标签进行聚类的方法,存在聚类结果不准确以及运算速度慢的不足;因此,有必要提供一种可以提高聚类准确度和运算速度的社交平台的UGC标签聚类方法。
发明内容
本发明实施例提供了一种社交平台的UGC标签聚类方法和装置,用以提高聚类准确度并提高运算速度。
根据本发明的一个方面,提供了一种社交平台的UGC标签聚类方法,包括:
从用户生成内容UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,在一次聚类以及质心的更新过程中:
对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;
对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散后,对于剩余的每个簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。
较佳地,在所述统计该簇的标签的个数之后,所述社交平台的UGC标签聚类方法还包括:
将标签的个数大于第二数量阈值的簇进行解散;其中,第一数量阈值小于第二数量阈值。
较佳地,所述计算该标签与各簇的相似度,具体包括:
对于每个簇,计算该标签与该簇中的每个标签的PMI,将计算出的PMI求和得到该标签与该簇的相似度;
其中,所述计算该标签与该簇中的每个标签的PMI,具体包括:
根据如下公式1计算出该标签t与该簇中的一个标签c的PMI:
PMI = log F ( t , c ) × G F ( t ) × F ( c )     (公式1)
其中,F(t)为t在所述社交平台各用户的UGC标签中出现的频率;F(c)为c在所述社交平台各用户的UGC标签中出现的频率;F(t,c)为t和c同时出现在一个用户的UGC标签中的共现频率;G为所述社交平台上标注了UGC标签的用户总数;
其中,所述F(t,c)是根据预先统计的t和c同时出现在一个用户的UGC标签中的频次,与所述社交平台上标注了UGC标签的用户总数的比值确定的。
较佳地,所述计算出该标签与该簇中的其它标签的相似度的和值,具体为:
计算出该标签与该簇中的其它标签的PMI的和值。
较佳地,所述进行至少一次聚类以及质心的更新,具体为:进行指定次数的聚类以及质心的更新。
较佳地,在所述一次聚类以及质心的更新前,所述社交平台的UGC标签聚类方法还包括:
统计剩余的簇的个数作为本次聚类的有效簇个数;以及
在所述一次聚类以及质心的更新后,还包括:
若确定本次聚类的有效簇个数与前次聚类的有效簇个数的差值小于设定个数,则继续下次聚类以及质心的更新。
根据本发明的另一个方面,还提供了一种社交平台的UGC标签聚类装置,包括:
初始化模块,用于从UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,发送聚类迭代通知;
聚类迭代模块,用于接收到所述聚类迭代通知后进行至少一次聚类以及质心的更新;其中,在一次聚类以及质心的更新过程中:对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散后,对于剩余的每个簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。
较佳地,所述聚类迭代模块具体包括:
迭代控制单元,用于接收到所述聚类迭代通知后,发送至少一次聚类通知;
聚类单元,用于每次接收到所述聚类通知后,对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;并在完成本次聚类完成后,发送有效簇确定通知;
有效簇确定单元,用于接收到所述有效簇确定通知后,对于所述聚类单元聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散,确定剩余的簇为本次聚类的有效簇后,发送质心更新通知;
质心更新单元,用于接收到所述质心更新通知后,对于每个有效簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。
较佳地,所述有效簇确定单元还用于在所述将标签的个数小于第一数量阈值的簇进行解散之后、在所述确定剩余的簇为本次聚类的有效簇之前,将标签的个数大于第二数量阈值的簇进行解散;其中,第一数量阈值小于第二数量阈值。
较佳地,所述质心更新单元还用于在所述对于每个有效簇,进行该簇质心的更新后,向所述迭代控制单元返回更新完毕通知;以及
所述迭代控制单元还用于在接收到所述质心更新单元返回的更新完毕通知后,在判断迭代条件满足的情况下,继续发送聚类通知;
其中,所述迭代条件具体为:所述聚类通知的发送次数小于指定次数;或者
所述迭代条件具体为:所述有效簇确定单元当前聚类得到的有效簇个数与其前次聚类得到的有效簇个数的差值小于设定个数。
本发明实施例的技术方案中,以未聚类的标签与簇中的每个标签的PMI的和值作为该标签与该簇的相似度。在从社交平台的UGC标签中选取k个标签分别聚类到初始化的k个簇后,计算未聚类的标签与各簇的相似度,若计算的相似度大于设定阈值,则将未聚类的标签聚类到与之相似度最大的簇中;否则,将该未聚类的标签作为一个新的簇的质心。对于每次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签个数小于第一数量阈值的簇、或标签个数大于第二数量阈值进行解散。从而在下一次的聚类过程中,可以对解散形成的未聚类的标签进行重新指派,这样,每次聚类完成后得到的簇的个数以及未聚类的标签均会自适应的调整,使得最终得到具有一定规模和高凝聚度的标签聚类,提高了UGC标签聚类的准确度。
而对于剩余的每个簇,将与该簇中的其它标签的PMI的和值最大的标签更新为该簇的质心,以优化聚类结果。而且,相比现有基于凝聚式的层次聚类算法,本发明提供的社交平台的UGC标签聚类方法的时间复杂度与社交平台的UGC标签的总数成正比,大大提高了运算速度。
附图说明
图1为本发明实施例的社交平台的UGC标签聚类方法的总流程示意图;
图2为本发明实施例的进行一次聚类以及质心的更新的流程示意图;
图3为本发明实施例的社交平台的UGC标签聚类装置的内部结构图;
图4为本发明实施例的聚类迭代模块的内部结构图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内。
本发明的技术方案提供了一种自适应的社会化标签聚类算法来对UGC标签进行聚类。具体地,可以从社交平台的UGC标签中随机选取k个标签分别作为初始化k个簇的初始质心后,每一次聚类,可以对于每个未聚类的标签,通过计算该标签与该k个簇中的每个标签的PMI(Pointwise Mutual Information,点互信息)的和值作为该标签与该k个簇的相似度,若存在与该标签的相似度大于设定阈值的簇,则将该标签聚类到与之相似度最大的簇中;否则,将该标签作为一个新的簇的质心。
对于每次聚类完成后所得到的簇,统计该簇的标签的个数;一方面,将标签的个数小于第一数量阈值的簇进行解散,进一步地,还可以将标签的个数大于第二数量阈值的簇进行解散;从而在下一次的聚类过程中,可以对解散形成的未聚类的标签进行重新指派。这样,每次聚类完成后得到的簇的个数以及未聚类的标签均会自适应的调整,使得最终得到具有一定规模和高凝聚度的标签聚类,提高了UGC标签聚类的准确度。
另一方面,对于剩余的每个簇,则可以以该簇中的各标签之间的PMI作为标签之间的相似度,将与该簇中的其它标签的PMI的和值最大的标签更新为该簇的质心。这样,就可以对社交平台的UGC标签进行聚类,并通过更新质心优化聚类结果。而且,采用自适应的社会化标签聚类算法对社交平台的UGC标签进行聚类的时间复杂度与社交平台的UGC标签的总数成正比,相比现有基于凝聚式的层次聚类算法,大大提高了运算速度。
下面结合附图详细说明本发明的技术方案。
本发明实施例提供的社交平台的UGC标签聚类方法中,可以从UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;具体流程如图1所示,包括如下步骤:
S101:进行初始化。
具体地,初始化k个不包含任何簇元素的簇后,从社交平台的UGC标签中随机选取k个标签,并将选取的k个标签分别聚类到k个簇中作为质心。这样,对于每个初始化的簇,该簇中仅有一个作为质心的已聚类标签。此时,社交平台的UGC标签中选取的k个标签为已聚类标签,其它标签为未聚类的标签。其中,所述社交平台具体可以是微博、推特等。
此外,还可设置聚类次数为0。
S102:进行一次聚类以及质心的更新。
本步骤中,对于UGC标签中每个未聚类的标签,计算该标签与各簇的相似度;判断是否存在与该标签的相似度大于设定阈值的簇,若存在,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,并将该标签作为该新的簇的质心。在完成一次聚类之后,对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;并将标签的个数小于第一数量阈值的簇解散后,进一步将标签的个数大于第二数量阈值的簇解散;对于剩余的每个簇,针对该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值,并将和值最大的标签更新为该簇的质心。
其中,第一数量阈值、第二数量阈值可以由本领域技术人员根据经验预先设定,而且,第一数量阈值的数值要小于第二数量阈值的数值。这样,每次聚类完成后,簇的个数会根据设定的第一数量阈值和第二数量阈值进行自适应的调整,使得最终得到具有一定规模的和高凝聚度的标签聚类,可以提高UGC标签聚类的准确度。关于UGC标签的每一次聚类以及质心更新的过程将在后续详细介绍。
在完成一次聚类以及质心的更新过程后,将聚类次数加1。
S103:判断是否满足迭代条件;若满足,则跳转到步骤S102进行下一次聚类以及质心的更新;否则,执行步骤S104,结束流程,得到最终的聚类结果。
其中,所述迭代条件可以由本领域技术人员根据实际情况设定;例如,设定的迭代条件为:社交平台的UGC标签的聚类次数小于指定次数;依据该迭代条件,本步骤中,在判断聚类次数小于指定次数时,确定满足迭代条件,则跳转到步骤S102进行下一次聚类以及质心的更新;否则,不满足迭代条件,执行步骤S104,结束流程,得到社交平台的UGC标签的最终的聚类结果。
或者,设定的迭代条件为:本次聚类的有效簇个数与前次聚类的有效簇个数的差值小于设定个数;其中,有效簇个数具体为:完成一次聚类后所剩余的簇的个数。依据该迭代条件,本步骤中,在判断本次聚类的有效簇个数与前次聚类的有效簇个数的差值小于设定个数时,确定满足迭代条件,则跳转到步骤S102进行下一次聚类以及质心的更新;否则,不满足迭代条件,执行步骤S104,结束社交平台的UGC标签聚类流程。所述设定个数可以由技术人员根据经验设置,比如可以设置设定个数为3或5。
S104:结束,得到最终的聚类结果。
本发明实施例中,在社交平台的UGC标签聚类过程中,将进行指定次数的聚类以及质心的更新过程。上述步骤S102提到的一次聚类以及质心的更新过程,如图2所示,具体包括如下步骤:
S201:对UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心。
为便于描述,本文中将社交平台的UGC标签中未聚类到簇中的标签称为未聚类的标签;具体地,如果本次聚类以及质心的更新过程为步骤S101后第一次的聚类以及质心的更新过程,则未聚类的标签为步骤S101中未被选取为质心的UGC标签;如果本次聚类以及质心的更新过程为步骤S101后第二次、或第二次以后的聚类以及质心的更新过程,则未聚类的标签为前次聚类以及质心的更新过程之后,没有被聚类到各簇中的标签。
具体地,对于每个未聚类的标签,针对每个簇,计算该标签与该簇中的每个标签的PMI,将计算出的PMI求和得到该标签与该簇的相似度。将计算出的该标签与各簇的相似度与设定阈值进行比较,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,并将该标签作为该新的簇的质心。其中,计算的相似度大于设定阈值是指,计算得到的该标签与各簇的相似度中至少有一个簇与该标签的相似度大于设定阈值。
本发明实施例中,对于每个簇,可以根据如下公式1可计算出未聚类的标签t与该簇中的一个标签c的PMI:
PMI = log F ( t , c ) × G F ( t ) × F ( c )     (公式1)
其中,F(t)为t在社交平台各用户的UGC标签中出现的频率;F(c)为c在社交平台各用户的UGC标签中出现的频率;F(t,c)为t和c同时出现在一个用户的UGC标签中的共现频率;G为社交平台上标注了UGC标签的用户总数。
实际应用中,F(t)是根据预先统计的t在社交平台各用户的UGC标签中出现的频次,与社交平台上标注了UGC标签的用户总数的比值确定的;F(c)是根据预先统计的c在社交平台各用户的UGC标签中出现的频次,与社交平台上标注了UGC标签的用户总数的比值确定的;F(t,c)是根据预先统计的t和c同时出现在一个用户的UGC标签中的频次,与社交平台上标注了UGC标签的用户总数的比值确定的。
S202:对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数。
S203:将标签的个数小于第一数量阈值的簇进行解散。
具体地,根据步骤S202统计的各簇的标签的个数,将标签的个数小于第一数量阈值的簇进行解散,这样,对于每个解散的簇,该簇中原包含的已聚类标签将在该簇进行解散之后,成为未聚类的标签。而在下一次的聚类过程中,则可以对解散形成的未聚类标签进行重新指派,以此来优化聚类结果。这样,避免出现簇的标签个数过少导致聚类结果过于分散的情况,提高了UGC标签聚类的准确度。
更优地,还可以将标签的个数大于第二数量阈值的簇进行解散;其中,第一数量阈值小于第二数量阈值。这样,可以避免出现由于簇的标签个数过多而导致簇的凝聚度不高的情况,有利于提高UGC标签聚类的准确度。
S204:对于剩余的每个簇,进行该簇质心的更新。
具体地,针对剩余的每个簇,对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值,并将该簇的质心更新为和值最大的标签。实际应用中,该标签与该簇中的其它标签的相似度的和值具体为该标签与该簇中的其它标签的PMI的和值,其中,该标签与该簇中的其它标签的PMI可根据上述公式1计算得到。
由此,通过上述步骤S201-S204完成一次聚类以及质心的更新过程。
基于上述社交平台的UGC标签聚类方法,本发明实施例还提供了一种社交平台的UGC标签聚类装置,如图3所示,包括:初始化模块301、聚类迭代模块302。
初始化模块301用于从UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,发送聚类迭代通知。
聚类迭代模块302用于接收到聚类迭代通知后进行至少一次聚类以及质心的更新。其中,在一次聚类以及质心的更新过程中:聚类迭代模块302对UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心。聚类迭代模块302对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散后,对于剩余的每个簇,进行该簇质心的更新。具体地,聚类迭代模块302可以针对剩余的每个簇,对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。
本发明实施例中,上述聚类迭代模块302中的具体内部结构,如图4所示,包括:迭代控制单元401、聚类单元402、有效簇确定单元403、质心更新单元404。
其中,迭代控制单元401用于接收到聚类迭代通知后,发送至少一次聚类通知。
聚类单元402用于每次接收到聚类通知后,对UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;并在完成本次聚类完成后,发送有效簇确定通知。具体地,聚类单元402对于每个簇,计算该标签与该簇中的每个标签的PMI,将计算出的PMI求和得到该标签与该簇的相似度。其中,该标签与该簇中的每个标签的PMI可通过上述公式1计算得到。
有效簇确定单元403用于接收到由聚类单元402发送的有效簇确定通知后,对于聚类单元402聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散,确定剩余的簇为本次聚类的有效簇后,发送质心更新通知。
进一步地,有效簇确定单元403还用于在将标签的个数小于第一数量阈值的簇进行解散后,以及确定剩余的簇为本次聚类的有效簇之前,将标签的个数大于第二数量阈值的簇进行解散。
质心更新单元404用于接收到由有效簇确定单元403发送的质心更新通知后,对于每个有效簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。具体地,质心更新单元404将计算出该标签与该簇中的其它标签的PMI的和值作为该标签与该簇中的其它标签的相似度的和值。
进一步,质心更新单元404接收到质心更新通知,并对于每个有效簇,进行该簇质心的更新后,向迭代控制单元401返回更新完毕通知。
相应地,迭代控制单元401还可用于在接收到质心更新单元404返回的更新完毕通知后,根据设定的迭代条件决定是否继续发送聚类通知。在判断迭代条件满足的情况下,继续发送聚类通知。
其中,迭代条件可以由本领域技术人员根据实际情况设定,例如,迭代条件具体为:聚类通知的发送次数小于指定次数;这样,迭代控制单元401在接收到质心更新单元404返回的更新完毕通知后,若判断聚类通知的发送次数小于指定次数,则决定继续发送聚类通知;否则,不发送聚类通知,结束社交平台的UGC标签的聚类,得到聚类结果。
或者,设定的迭代条件具体为:有效簇确定单元403当前聚类得到的有效簇个数与其前次聚类得到的有效簇个数的差值小于设定个数;这样,迭代控制单元401在接收到质心更新单元404返回的更新完毕通知后,在判断有效簇确定单元403当前聚类得到的有效簇个数与其前次聚类得到的有效簇个数的差值小于设定个数的情况下,决定继续发送聚类通知;否则,不发送聚类通知,结束社交平台的UGC标签的聚类,得到聚类结果。其中,所述设定个数是由本领域技术人员根据经验预先设置的。
本发明的技术方案中,在每一次聚类以及质心的更新过程中,以未聚类的标签与簇中的每个标签的PMI的和值作为该标签与该簇的相似度。在从社交平台的UGC标签中选取k个标签分别聚类到初始化的k个簇后,计算未聚类的标签与各簇的相似度,若计算的相似度大于设定阈值,则将未聚类的标签聚类到与之相似度最大的簇中;否则,将该未聚类的标签作为一个新的簇的质心。对于每次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签个数小于第一数量阈值的簇以及标签个数大于第二数量阈值的簇进行解散,这样,在下一次的聚类过程中,可以对解散形成的未聚类的标签进行重新指派,使得每次聚类完成后所得到的簇的个数以及未聚类的标签均会自适应的调整,提高了UGC标签聚类的准确度。
而对于剩余的每个簇,将与该簇中的其它标签的PMI的和值最大的标签更新为该簇的质心,以优化聚类结果。而且,相比现有基于凝聚式的层次聚类算法,本发明提供的社交平台的UGC标签聚类方法的时间复杂度与社交平台的UGC标签的总数成正比,大大提高了运算速度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种社交平台的UGC标签聚类方法,其特征在于,包括:
从用户生成内容UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,在一次聚类以及质心的更新过程中:
对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;
对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散后,对于剩余的每个簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。
2.如权利要求1所述的方法,其特征在于,在所述统计该簇的标签的个数之后,还包括:
将标签的个数大于第二数量阈值的簇进行解散;其中,第一数量阈值小于第二数量阈值。
3.如权利要求2所述的方法,其特征在于,所述计算该标签与各簇的相似度,具体包括:
对于每个簇,计算该标签与该簇中的每个标签的PMI,将计算出的PMI求和得到该标签与该簇的相似度;
其中,所述计算该标签与该簇中的每个标签的PMI,具体包括:
根据如下公式1计算出该标签t与该簇中的一个标签c的PMI:
PMI = log F ( t , c ) × G F ( t ) × F ( c )     (公式1)
其中,F(t)为t在所述社交平台各用户的UGC标签中出现的频率;F(c)为c在所述社交平台各用户的UGC标签中出现的频率;F(t,c)为t和c同时出现在一个用户的UGC标签中的共现频率;G为所述社交平台上标注了UGC标签的用户总数;
其中,所述F(t,c)是根据预先统计的t和c同时出现在一个用户的UGC标签中的频次,与所述社交平台上标注了UGC标签的用户总数的比值确定的。
4.如权利要求2所述的方法,其特征在于,所述计算出该标签与该簇中的其它标签的相似度的和值,具体为:
计算出该标签与该簇中的其它标签的PMI的和值。
5.如权利要求1-4任一所述的方法,其特征在于,所述进行至少一次聚类以及质心的更新,具体为:进行指定次数的聚类以及质心的更新。
6.如权利要求1-4任一所述的方法,其特征在于,在所述一次聚类以及质心的更新前,还包括:
统计剩余的簇的个数作为本次聚类的有效簇个数;以及
在所述一次聚类以及质心的更新后,还包括:
若确定本次聚类的有效簇个数与前次聚类的有效簇个数的差值小于设定个数,则继续下次聚类以及质心的更新。
7.一种社交平台的UGC标签聚类装置,其特征在于,包括:
初始化模块,用于从UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,发送聚类迭代通知;
聚类迭代模块,用于接收到所述聚类迭代通知后进行至少一次聚类以及质心的更新;其中,在一次聚类以及质心的更新过程中:对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散后,对于剩余的每个簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。
8.如权利要求7所述的装置,其特征在于,所述聚类迭代模块具体包括:
迭代控制单元,用于接收到所述聚类迭代通知后,发送至少一次聚类通知;
聚类单元,用于每次接收到所述聚类通知后,对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;并在完成本次聚类完成后,发送有效簇确定通知;
有效簇确定单元,用于接收到所述有效簇确定通知后,对于所述聚类单元聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散,确定剩余的簇为本次聚类的有效簇后,发送质心更新通知;
质心更新单元,用于接收到所述质心更新通知后,对于每个有效簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。
9.如权利要求8所述的装置,其特征在于,
所述有效簇确定单元还用于在所述将标签的个数小于第一数量阈值的簇进行解散之后、在所述确定剩余的簇为本次聚类的有效簇之前,将标签的个数大于第二数量阈值的簇进行解散;其中,第一数量阈值小于第二数量阈值。
10.如权利要求8所述的装置,其特征在于,
所述质心更新单元还用于在所述对于每个有效簇,进行该簇质心的更新后,向所述迭代控制单元返回更新完毕通知;以及
所述迭代控制单元还用于在接收到所述质心更新单元返回的更新完毕通知后,在判断迭代条件满足的情况下,继续发送聚类通知;
其中,所述迭代条件具体为:所述聚类通知的发送次数小于指定次数;或者
所述迭代条件具体为:所述有效簇确定单元当前聚类得到的有效簇个数与其前次聚类得到的有效簇个数的差值小于设定个数。
CN201310626462.XA 2013-11-28 2013-11-28 社交平台的ugc标签聚类方法和装置 Pending CN103699573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310626462.XA CN103699573A (zh) 2013-11-28 2013-11-28 社交平台的ugc标签聚类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310626462.XA CN103699573A (zh) 2013-11-28 2013-11-28 社交平台的ugc标签聚类方法和装置

Publications (1)

Publication Number Publication Date
CN103699573A true CN103699573A (zh) 2014-04-02

Family

ID=50361101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310626462.XA Pending CN103699573A (zh) 2013-11-28 2013-11-28 社交平台的ugc标签聚类方法和装置

Country Status (1)

Country Link
CN (1) CN103699573A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699851A (zh) * 2015-04-08 2015-06-10 上海理想信息产业(集团)有限公司 一种大数据环境下业务标签的扩展方法
CN104978332A (zh) * 2014-04-04 2015-10-14 腾讯科技(深圳)有限公司 用户生成内容标签数据生成方法、装置及相关方法和装置
CN106777285A (zh) * 2016-12-29 2017-05-31 中国移动通信集团江苏有限公司 标签聚类的方法和装置
CN112348123A (zh) * 2020-12-08 2021-02-09 武汉卓尔数字传媒科技有限公司 一种用户聚类的方法、装置及电子设备
CN113554041A (zh) * 2020-04-03 2021-10-26 北京京东振世信息技术有限公司 一种对用户标记标签的方法和装置
WO2023088142A1 (zh) * 2021-11-16 2023-05-25 阿里巴巴达摩院(杭州)科技有限公司 音频信号处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
CN102129470A (zh) * 2011-03-28 2011-07-20 中国科学技术大学 标签聚类方法和系统
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
CN102129470A (zh) * 2011-03-28 2011-07-20 中国科学技术大学 标签聚类方法和系统
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐艺萍: "动态聚类法研究", 《中国优秀硕士学位论文全文数据库》 *
王志涛等: "基于词典和规则集的中文微博情感分析", 《计算机工程与应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978332A (zh) * 2014-04-04 2015-10-14 腾讯科技(深圳)有限公司 用户生成内容标签数据生成方法、装置及相关方法和装置
CN104978332B (zh) * 2014-04-04 2019-06-14 腾讯科技(深圳)有限公司 用户生成内容标签数据生成方法、装置及相关方法和装置
CN104699851A (zh) * 2015-04-08 2015-06-10 上海理想信息产业(集团)有限公司 一种大数据环境下业务标签的扩展方法
CN106777285A (zh) * 2016-12-29 2017-05-31 中国移动通信集团江苏有限公司 标签聚类的方法和装置
CN106777285B (zh) * 2016-12-29 2020-03-06 中国移动通信集团江苏有限公司 用户通信消费数据的标签聚类的方法和装置
CN113554041A (zh) * 2020-04-03 2021-10-26 北京京东振世信息技术有限公司 一种对用户标记标签的方法和装置
CN113554041B (zh) * 2020-04-03 2023-09-26 北京京东振世信息技术有限公司 一种对用户标记标签的方法和装置
CN112348123A (zh) * 2020-12-08 2021-02-09 武汉卓尔数字传媒科技有限公司 一种用户聚类的方法、装置及电子设备
WO2023088142A1 (zh) * 2021-11-16 2023-05-25 阿里巴巴达摩院(杭州)科技有限公司 音频信号处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
TWI743428B (zh) 目標用戶群體的確定方法和裝置
CN103699573A (zh) 社交平台的ugc标签聚类方法和装置
CN103678431B (zh) 一种基于标准标签和项目评分的推荐方法
CN109784973A (zh) 基于大数据分析的广告投放方法、装置及电子设备
CN107613022A (zh) 内容推送方法、装置及计算机设备
CN104081392A (zh) 社会媒体配置文件的影响评分
CN111708934A (zh) 知识内容的评价方法、装置、电子设备和存储介质
CN111143039B (zh) 一种虚拟机的调度方法、装置及计算机存储介质
Chatterjee et al. Single document extractive text summarization using genetic algorithms
CN106202224B (zh) 搜索处理方法及装置
CN111222931B (zh) 一种产品推荐方法及系统
CN109271380A (zh) 一种数据表海量数据校验方法及终端设备
CN103631874A (zh) 社交平台的ugc标签类别确定方法和装置
CN111460384A (zh) 策略的评估方法、装置和设备
CN110473073A (zh) 线性加权推荐的方法及装置
Song et al. Cold-start aware deep memory networks for multi-entity aspect-based sentiment analysis
Zhong et al. An Improved Differential Evolution Algorithm Based on Dual‐Strategy
Krishnamoorthi et al. ABK-means: an algorithm for data clustering using ABC and K-means algorithm
CN113032671B (zh) 内容处理方法、装置、电子设备和存储介质
CN110909136A (zh) 满意度预估模型的训练方法、装置、电子设备及存储介质
CN113642727A (zh) 神经网络模型的训练方法和多媒体信息的处理方法、装置
CN112989170A (zh) 应用于信息搜索的关键词匹配方法、信息搜索方法及装置
CN108595395B (zh) 一种昵称的生成方法、装置及设备
CN106651408B (zh) 一种数据分析方法及装置
CN109472455B (zh) 活动评估方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140402