CN104216993A - 一种标签共现的标签聚类方法 - Google Patents

一种标签共现的标签聚类方法 Download PDF

Info

Publication number
CN104216993A
CN104216993A CN201410457010.8A CN201410457010A CN104216993A CN 104216993 A CN104216993 A CN 104216993A CN 201410457010 A CN201410457010 A CN 201410457010A CN 104216993 A CN104216993 A CN 104216993A
Authority
CN
China
Prior art keywords
label
matrix
value
tag
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410457010.8A
Other languages
English (en)
Inventor
李鹏
王娅丹
金瑜
刘宇
何亨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN201410457010.8A priority Critical patent/CN104216993A/zh
Publication of CN104216993A publication Critical patent/CN104216993A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种标签共现的标签聚类方法,为了提高聚类有效性,定义标注矩阵、共同标注矩阵、标签重要度矩阵、相似度矩阵,用于通过对标签共现信息的提取,确定标签的特征向量;通过特征向量的提取计算相似度,将传统聚类算法中用几何距离计算对象与中心对象的距离改为用皮尔森相关系数计算;提出结合K-means聚类算法对标签进行聚类的标签共现聚类方法。本发明所提供聚类方法效果要好于其它的聚类方法,具有良好的有效性和可行性。

Description

一种标签共现的标签聚类方法
技术领域
本发明涉及网络标签聚类技术领域,具体涉及一种标签共现的标签聚类方法。
背景技术
标签是用户对信息的主观理解,是联系客观信息和主观认识的中介。在社会网络中信息通过相同的标签联系在一起,用户也通过使用标签与其他资源及用户联系在一起,这样人与人之间就可以通过标签进行联系、交友等操作。标签作为在线社会化网络的一部分,已得到了广泛的研究,Flickr、del.icio.us、豆瓣网和Youtobe等网站都采用了标签的协同标注及聚类研究,但目前针对标签之间相关联系的研究比较少。现阶段对标签系统进行优化的研究主要集中于标签云,标签的有序化组织。标签之间关联度的研究有助于对信息进行分类检索与浏览,同时也可以挖掘出用户之间的相似性,从而可以对用户进行个性化推荐。标签的聚类就可以形成一个个的社区网络,随着标签的不断增多网络也会随之扩大。
参考文献:Golder S A,Huberman B A.Usage patterns of collaborative tagging systems[J].Journal of information science,2006,32(2):198~208;Kaser O,Lemire D.Tag-cloud drawing:Algorithms for cloud visualization[J].ArXiv preprint cs/0703109,2007.3~5;易明,毛进,邓卫华.基于社会化标签网络的细粒度用户兴趣建模[J].现代图书情报技术,2011,4:008;Lin Y R,ChiY,Zhu S,Sundaram H,Tseng B.Analyzing communities and their evolutions in dynamic socialnetwork[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2009,3(2):1~31;孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48~61.
大众分类(folksonomy)是典型的Web2.0系统,允许所有互联网用户为网络资源添加标签。folksonomy是VanderWal和Smith于2004年首先提出,其含义是由大众的一致意见而产生的基于用户的分类体系。此分类法根据用户个人的使用习惯,以自定义的词对网络资源进行标注和分类。这些自定义的词称为标签(tag),也就是指描述信息资源的字、词或者短语。
Folksonomy使得传统的分类法摆脱了固化的现象,并且跟大众的认知程度密切的结合起来,同时这种分类方法也为群体用户和信息之间建立了一个联系的桥梁。然而正是因为用户参与的广泛性,标注的随意性,使得大众标注过于自由,个性化。因此会导致一系列的问题,标签的意义可能混淆,系统的推荐很不合理,用户标签时存在错误等。
目前,国外对于大众分类中的标签聚类问题的研究已从理论研究向实际应用过渡,且更加注重在潜在语义层面上的聚类研究。Heymann等提出将大量的标签转化为可导航的层次结构分类目,将标签所标注的资源次数表示成向量形式,计算标签的相似度,最后得到潜在层级分类法。Begelman等人提出采用聚类技术对大量标签进行自动聚类的方法来改善自由分类法的检索和浏览。
参考文献:Sinclair J,Cardew-Hall M.The folksonomy tag cloud:when is it useful?[J].Journal of Information Science,2008,34(1):15~29;Gruber T.Ontology of folksonomy:A mash-upof apples and oranges[J].International Journal on Semantic Web and Information Systems(IJSWIS),2007,3(1):1~11;Heymann P,Garcia-Molina H.Collaborative creation of communalhierarchical taxonomies in social tagging systems[J].2006.1~5;Begelman G,Keller P,Smadja F.Automated tag clustering:Improving search and exploration in the tag space[C]Collaborative WebTagging Workshop at WWW2006,Edinburgh,Scotland.2006:15~33.
国内也有专家提出了一些有关标签聚类的算法。武汉大学的曹高辉等人利用凝聚式层次聚类算法对标签聚类进行研究,利用相关标签的权重计算标签之间的相关度,从而实现标签的聚类。江南大学的吴志媛等人,引入PLSI模型来挖掘页面资源与标签间的潜在语义关系,并结合提出的HAK-mesiods聚类算法对潜在语义下的标签进行相似度聚类,最后得到潜在语义下的聚合标签集。
现有的研究成果表明,对标签进行合理的聚类有助于实现标签的有序化组织。
参考文献:曹高辉,焦玉英,成全.基于凝聚式层次聚类算法的标签聚类研究[J].现代图书情报技术,2008,51(4):23~27;吴志媛,钱雪忠.基于PLSI的标签聚类研究[J].计算机应用研究,2013,30(5):1316~1319.
发明内容
本发明在以上研究的基础上,基于对以往的标签聚类方法进行改进,解决了标签描述资源准确度低,组织混乱,存在语义模糊等问题。
为达到上述目的,本发明采用的技术方案提供一种标签共现的标签聚类方法,包括首先进行以下定义,
一、定义一个标注矩阵,该矩阵Unxm是n×m型矩阵,n为标签个数,m为资源个数,矩阵中的元素uiq表示标签ti标注资源rq的频度,此处的i取值为1,2,…,n,q取值为1,2,…,m;
二、定义一个共同标注矩阵,该矩阵Cn×n是n×n型矩阵,n为标签个数,矩阵中的元素cij表示标签ti和标签tj共现频度,如下式,
c ij = W ( t i , t j ) Σ j = 1 n W ( t i , t j ) - - - ( 1 )
此处的i取值为1,2,…,n,j取值为1,2,…,n;其中,W(ti,tj)表示标签ti和标签tj共同出现的次数,当i=j时,W(ti,tj)为标签ti标注过的资源数;
三、定义一个标签重要度矩阵,该矩阵An×n是n×n型矩阵,n为标签个数,矩阵中的元素aij表示标签ti在所有m个资源内的重要度,即
a ij = c ij × lg ( n 1 + Γ ( t i ) ) - - - ( 2 )
此处的i取值为1,2,…,n,j取值为1,2,…,n;其中,Γ(ti)表示在m个资源中,与标签ti共同出现过的标签的个数;
四、定义一个相似度矩阵,该矩阵Sn×n是n×n型矩阵,n为标签个数,矩阵中的元素sij表示标签ti和标签tj的特征向量相似度,即
s ij = n · Σ A i · A j - Σ A i · Σ A j n · Σ A 2 i - ( Σ A i ) 2 · n · Σ A j 2 - ( Σ A j ) 2 - - - ( 3 )
其中,Ai、Aj表示标签重要度矩阵中的第i、j个行向量;
然后基于定义执行以下流程,
步骤1,输入聚类的类别数目K,标签个数n,标签集合T={t1,t2….tn},资源集合R,和标签标注资源的关系集合A;初始化当前处理标签序号i取值为1;转到步骤2;
步骤2,计算标注矩阵的元素uiq,得到标签与资源之间的关联,进一步得到标签ti和标签tj共同出现的次数W(ti,tj),转到步骤3;
步骤3,根据式(1),计算表示共现频度的元素cij,转到步骤4;
步骤4,根据式(2),计算表示重要度的元素aij,转到步骤5;
步骤5,得到标签ti的特征向量Ai(ai1,ai2….ain),转到步骤6;
步骤6,令i=i+1,判断ti是否属于标签集合T,如果属于则返回步骤2,否则转到步骤7;
步骤7,选择K个标签作为初始的聚类中心,转到步骤8;
步骤8,初始定义变量newJ=0,oldJ=-1,转到步骤9;
步骤9,计算newJ-oldJ的绝对值,如果结果大于等于0.00001,.转到步骤10,否则转到步骤14;
步骤10,根据式(3),计算每个标签与K个聚类中心分别的相似度sij,转到步骤11;
步骤11,根据计算出来的相似度,对每个标签分别判断与哪个聚类中心的相似度最大并将该标签划分到相应的类别中,转到步骤12;
步骤12,计算每个类别中所有标签特征向量的平均值,作为该类别新的聚类中心,转到步骤13;
步骤13,令oldJ=newJ,计算新的准则函数值赋值给newJ,转到步骤9;
步骤14,输出n个标签的聚类结果,结束。
而且,步骤13中,准则函数的计算式为nj代表相应的类别中标签个数,d(Aj,Zk)表示两个特征向量之间的偏差的平方,Aj为相应类别中的标签特征向量,Zk为相应类的聚类中心。
本发明对标签之间的共现信息进行提取,然后用聚类方法对标签进行聚类。同时从聚类有效性进行比较可以发现不同的分类最后聚类效果有很大的差别,由此可见选择有效的聚类方法对于标签的聚类是很必要的。本发明的特点:综合标签共现信息计算标签特征向量;将传统K-means中用几何距离计算对象与中心对象之间的相似度改为利用皮尔森相关系数去计算。本发明实现的聚类方法更为有效快捷,可自动化得到可靠的聚类结果,系统资源要求低,实用价值高。
附图说明
图1为本发明实施例的流程图。
图2为本发明实现的聚类方法与其它两种聚类方法在不同标签个数的情况下Purity的对比示意图;
图3为本发明实现的聚类方法与其它两种聚类方法在不同标签个数的情况下精确度的对比示意图;
图4为本发明实现的聚类方法与其它两种聚类方法在不同标签个数的情况下召回率的对比示意图;
图5为用本发明提取的标签特征向量和用标签资源的关联提取的特征向量去计算标签与标注主题相似度在标签个数为5的情况下稳定性的对比示意图;
图6为用本发明提取的标签特征向量和用标签资源的关联提取的特征向量去计算标签与标注主题相似度在标签个数为10的情况下稳定性的对比示意图;
图7为用本发明提取的标签特征向量和用标签资源的关联提取的特征向量去计算标签与标注主题相似度在标签个数为15的情况下稳定性的对比示意图;
图8为用本发明提取的标签特征向量和用标签资源的关联提取的特征向量去计算标签与标注主题相似度在标签个数为20的情况下稳定性的对比示意图。
具体实施方式
本发明技术方案可采用软件技术实现自动流程运行。下面结合附图和实施例对本发明技术方案进一步详细说明。
本发明是对标签聚类方法进行研究,提出标签共现的标签聚类方法,该方法的实现主要有两个部分的创新:特征向量的提取;用改进的K-means进行聚类。
特征向量的提取基于如下定义:
一、定义一个标注矩阵,该矩阵Unxm是n×m型矩阵,n为标签个数,m为资源个数,矩阵中的元素uiq表示标签ti标注资源rq的频度,此处的i取值为1,2,…,n,q取值为1,2,…,m。
二、定义一个共同标注矩阵,该矩阵Cn×n是n×n型矩阵,n为标签个数,矩阵中的元素cij表示标签ti和标签tj共现频度,即
c ij = W ( t i , t j ) Σ j = 1 n W ( t i , t j ) - - - ( 1 )
此处的i取值为1,2,…,n,j取值为1,2,…,n。当i取值为一个确定值时,表示j从1取到n时,对W(ti,tj)进行求和。
其中W(ti,tj)表示标签ti和标签tj共同出现的次数,当i=j时,W(ti,tj)为标签ti标注过的资源数。在一定程度上,这个度量越大说明标签ti和标签tj共同出现的几率越高,即标签ti与标签tj之间的关系就越密切。
三、定义一个标签重要度矩阵,该矩阵An×n是n×n型矩阵,n为标签个数,矩阵中的元素aij表示标签ti在所有m个资源内的重要度,即
a ij = c ij × lg ( n 1 + Γ ( t i ) ) - - - ( 2 )
此处的i取值为1,2,…,n,j取值为1,2,…,n。
其中,Γ(ti)表示在m个资源中,与标签ti共同出现过的标签的个数,cij表示标签ti和标签tj同出现的频度,可由式(1)得到。在式中,分母加1防止分母为0的情况。这个度量的物理含义代表在m个资源内标签出现的高频率,以及该标签在整个资源集合中的低共现频率,可以产生出高权重的aij,该值越大说明标签ti在整个资源集合中越重要。
通过式(2)的计算得到的标签重要度矩阵中,每个行向量Ai(ai1,ai2….ain)即代表该标签ti的特征向量。
四、定义一个相似度矩阵,该矩阵Sn×n是n×n型矩阵,n为标签个数,矩阵中的元素sij表示标签ti和标签tj的特征向量相似度,即
s ij = n · Σ A i · A j - Σ A i · Σ A j n · Σ A 2 i - ( Σ A i ) 2 · n · Σ A j 2 - ( Σ A j ) 2 - - - ( 3 )
其中,Ai、Aj表示标签重要度矩阵中的第i、j个行向量,即Ai对应标签的特征向量Ai(ai1,ai2….ain),通过计算(3)式后得到两个向量Ai(ai1,ai2….ain)、Aj(aj1,aj2….ajn)之间的相似度。该式反映了两个变量线性相关程度的统计量。
特征向量提取完成后用改进的K-means对标签进行聚类。
K-means聚类算法用欧氏距离作为相似性度量和距离计算,计算各数据点到其类别中心的距离平方和。本文提出的标签共现的标签聚类方法(可简称Tag co-occurrence方法),首先根据式(1),式(2)计算出标签特征向量,然后对K-means的相似性和距离度量进行了改进,用式(3)来进行两个向量相似度计算,就可以对标签集合进行聚类,得到最终聚类结果。具体实施时,本领域技术人员可采用计算机软件技术实现聚类流程的自动运行。
见附图1所示,实施例的流程包括步骤如下:
Step1:输入聚类的类别数目K,标签个数n,标签集合T={t1,t2….tn},资源集合R和标签标注资源的关系集合A;初始化当前处理标签序号i取值为1;转到Step2;
Step2:计算标注矩阵的元素uiq,标签ti标注资源rq的频度,得到标签与资源之间的关联,从而可以进一步得到标签ti和标签tj共同出现的次数W(ti,tj),转到Step3;
Step3:根据式(1),计算表示共现频度的元素cij,转到Step4;
Step4:根据式(2),计算表示重要度的元素aij,转到Step5;
Step5:得到标签ti的特征向量Ai(ai1,ai2….ain),转到Step6;
Step6:令i=i+1,判断ti是否属于标签集合T(即判断i是否小于等于n),如果属于则返回Step2,基于当前处理标签序号i执行Step2~Step6,否则转到Step7;具体流程实现时,按照习惯,也可统一在执行步骤2之前就判断ti是否属于标签集合T,如图1中初始化当前处理标签序号i取值为1后进行判断,然后每次i++后返回判断;
Step7:选择K个标签对象作为初始的聚类中心,具体实施时,本领域技术人员可以自行选择初始的聚类中心,转到Step8;
Step8:初始定义变量newJ=0,oldJ=-1,转到Step9;
Step9:计算fabs(newJ-oldJ),fabs是C语言数学函数,相当于计算绝对值。如果fabs(newJ-oldJ)>=1e-5,转到Step10,否则转到Step14;
其中,fabs(newJ-oldJ)>=1e-5表示newJ-oldJ的绝对值大于等于0.00001,用于循环控制条件;
Step10:根据式(3),计算每个标签与这K个聚类中心分别的相似度sij,转到Step11;
Step11:根据计算出来的相似度,对每个标签分别判断与哪个聚类中心的相似度最大并将该标签划分到相应的类别中,转到Step12;
Step12:重新计算每个聚类的均值(计算每个类别中所有标签特征向量的平均值,该平均值就是该类别新的聚类中心),转到Step13;
Step13:令oldJ=newJ,计算新的准则函数值赋值给newJ(准则函数的计算公式nj代表相应的类别中标签个数,d(Aj,Zk)表示两个特征向量之间的偏差的平方,Aj为相应类别中的标签特征向量,Zk为相应类别的聚类中心),转到Step9;
Step14:输出n个标签的聚类结果(每个类别有哪些标签),结束。
进行相关实验说明该聚类方法聚类效果良好,从两个方面进行了实验。
一方面是对三种聚类方法的有效性进行了对比。这三种聚类方法如下:
仅仅考虑标签共现次数的聚类(Frequency of co-occurrence):仅仅考虑了共现次数,即随机选取K个标签为聚类中心,标签与哪个中心标签共现次数多就把它归为其中;
传统的K-means方法:在仅仅考虑共现次数的基础上先确定标签特征向量即矩阵Xnxn,元素xij表示标签ti和标签tj共同出现的次数,Xnxn矩阵中每个行向量表示对应标签的特征向量,然后用欧式距离确定相似度K-means进行聚类;
本文提出的Tag co-occurrence方法:综合了共现信息,根据式(1),式(2)确定特征向量,然后利用式(3)计算向量相似度再进行聚类。
有效性评价指标有三个Purity(纯度)、Precision(精确度)与Recall(召回率):
Purity来评价聚类有效性,只需计算正确聚类的标签数占总标签数的比例。这是一种极为简单的评价方法。
Purity ( W , T ) = 1 n Σ k max j | w k ∩ t j | - - - ( 4 )
其中W={w1.......wK}是聚类的集合,wk表示其中第k个类别的集合,k的取值为1,2,…,K。T
是标签集合,tj表示在聚类结果中被划分到第k个类别中的标签,n表示标签总数。
精确度与召回率是常用的指标下面介绍一下要求出精确度与召回率需要确定的几个参数:TP(True Positives),FP(False Positives),TN(True Negatives),FN(False Negatives)。
(1)TP:聚类方法将一对标签分在了同一类别中,并且在先验类别中它们也在相同的类别中。
(2)FP:聚类方法将一对标签分在了同一类别中,但在先验类别中它们属于不同的类别。
(3)TN:聚类方法将一对标签分在了不同类别中,并且在先验类别中它们也属于不同类别。
(4)FN:聚类方法将一对标签分在了不同类别中,但在先验类别中它们属于相同的类别。
精确率为: Precision = TP TP + FP - - - ( 5 )
召回率为: Recall = TP TP + FN - - - ( 6 )
另一方面是分别用本发明所涉及到的标签共现信息的关联和标签资源的关联中去计算标签与其标注主题的相似度。
首先引入两个概念:
质心Ot用来表示标签t标注主题的质心。
o t = 1 U ( t ) Σ u p ∈ U ( t ) u p - - - ( 7 )
在用标签资源的关联去进行计算时,up表示定义1中标注矩阵的列向量,U(t)表示标签t标注的资源个数。在用标签与标签共现信息关联去计算时,up表示定义3中标签重要度矩阵的列向量,即up(a1p,a2p....anp),U(t)表示与标签t有关联的标签个数。
Tcs = 1 U ( t ) Σ u p ∈ U ( t ) cos ( u p , o t ) - - - ( 8 )
Tcs表示标签与主题的相似性,cos(up,ot)表示两个向量之间余弦值,同样在用标签资源的关联去进行计算时,up表示定义1中标注矩阵的列向量,U(t)表示标签t标注的资源个数。在用标签与标签共现信息关联去计算时,up表示定义3中标签重要度矩阵的列向量,U(t)表示与标签t有关联的标签个数。
聚类有效性实验结果图见附图2、3、4,横坐标为标签数,从纵坐标所提供Purity,精确度和召回率的比较来看,本发明提出的标签共现的聚类方法聚类效果更好。
相似性计算的实验结果见附图5、6、7、8,横坐标为标签序号,纵坐标为相似度,由图可以直观的看出根据综合标签共现信息计算出的标签与它标注主题的相似度相对比较平稳。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似方式替代,但并不会偏离本发明的精神或超越所附权利要求书所定义的范围。

Claims (2)

1.一种标签共现的标签聚类方法,其特征在于:包括首先进行以下定义,
一、定义一个标注矩阵,该矩阵Unxm是n×m型矩阵,n为标签个数,m为资源个数,矩阵中的元素uiq表示标签ti标注资源rq的频度,此处的i取值为1,2,…,n,q取值为1,2,…,m;
二、定义一个共同标注矩阵,该矩阵Cn×n是n×n型矩阵,n为标签个数,矩阵中的元素cij表示标签ti和标签tj共现频度,如下式,
c ij = W ( t i , t j ) Σ j = 1 n W ( t i , t j ) - - - ( 1 )
此处的i取值为1,2,…,n,j取值为1,2,…,n;其中,W(ti,tj)表示标签ti和标签tj共同出现的次数,当i=j时,W(ti,tj)为标签ti标注过的资源数;
三、定义一个标签重要度矩阵,该矩阵An×n是n×n型矩阵,n为标签个数,矩阵中的元素aij表示标签ti在所有m个资源内的重要度,即
a ij = c ij × lg ( n 1 + Γ ( t i ) ) - - - ( 2 )
此处的i取值为1,2,…,n,j取值为1,2,…,n;其中,Γ(ti)表示在m个资源中,与标签ti共同出现过的标签的个数;
四、定义一个相似度矩阵,该矩阵Sn×n是n×n型矩阵,n为标签个数,矩阵中的元素sij表示标签ti和标签tj的特征向量相似度,即
s ij = n · Σ A i · A j - Σ A i · Σ A j n · Σ A 2 i - ( Σ A i ) 2 · n · Σ A j 2 - ( Σ A j ) 2 - - - ( 3 )
其中,Ai、Aj表示标签重要度矩阵中的第i、j个行向量;
然后基于定义执行以下流程,
步骤1,输入聚类的类别数目K,标签个数n,标签集合T={t1,t2….tn},资源集合R,和标签标注资源的关系集合A;初始化当前处理标签序号i取值为1;转到步骤2;
步骤2,计算标注矩阵的元素uiq,得到标签与资源之间的关联,进一步得到标签ti和标签tj共同出现的次数W(ti,tj),转到步骤3;
步骤3,根据式(1),计算表示共现频度的元素cij,转到步骤4;
步骤4,根据式(2),计算表示重要度的元素aij,转到步骤5;
步骤5,得到标签ti的特征向量Ai(ai1,ai2….ain),转到步骤6;
步骤6,令i=i+1,判断ti是否属于标签集合T,如果属于则返回步骤2,否则转到步骤7;
步骤7,选择K个标签作为初始的聚类中心,转到步骤8;
步骤8,初始定义变量newJ=0,oldJ=-1,转到步骤9;
步骤9,计算newJ-oldJ的绝对值,如果结果大于等于0.00001,.转到步骤10,否则转到步骤14;
步骤10,根据式(3),计算每个标签与K个聚类中心分别的相似度sij,转到步骤11;
步骤11,根据计算出来的相似度,对每个标签分别判断与哪个聚类中心的相似度最大并将该标签划分到相应的类别中,转到步骤12;
步骤12,计算每个类别中所有标签特征向量的平均值,作为该类别新的聚类中心,转到步骤13;
步骤13,令oldJ=newJ,计算新的准则函数值赋值给newJ,转到步骤9;
步骤14,输出n个标签的聚类结果,结束。
2.根据权利要求1所述标签共现的标签聚类方法,其特征在于:步骤13中,准则函数的计算式为nj代表相应的类别中标签个数,d(Aj,Zk)表示两个特征向量之间的偏差的平方,Aj为相应类别中的标签特征向量,Zk为相应类的聚类中心。
CN201410457010.8A 2014-09-10 2014-09-10 一种标签共现的标签聚类方法 Pending CN104216993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410457010.8A CN104216993A (zh) 2014-09-10 2014-09-10 一种标签共现的标签聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410457010.8A CN104216993A (zh) 2014-09-10 2014-09-10 一种标签共现的标签聚类方法

Publications (1)

Publication Number Publication Date
CN104216993A true CN104216993A (zh) 2014-12-17

Family

ID=52098483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410457010.8A Pending CN104216993A (zh) 2014-09-10 2014-09-10 一种标签共现的标签聚类方法

Country Status (1)

Country Link
CN (1) CN104216993A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657336A (zh) * 2015-03-10 2015-05-27 湖北大学 一种基于半余弦函数的个性化推荐算法
CN105825396A (zh) * 2016-03-11 2016-08-03 合网络技术(北京)有限公司 一种基于共现的广告标签聚类的方法及系统
CN107239993A (zh) * 2017-05-24 2017-10-10 海南大学 一种基于拓展标签的矩阵分解推荐方法及系统
CN109284509A (zh) * 2017-07-21 2019-01-29 北京搜狗科技发展有限公司 一种文本处理方法、系统和一种用于文本处理的装置
CN109325631A (zh) * 2018-10-15 2019-02-12 华中科技大学 基于数据挖掘的电动汽车充电负荷预测方法和系统
CN109451018A (zh) * 2018-11-07 2019-03-08 掌阅科技股份有限公司 信息对象的推送方法、计算设备及计算机存储介质
WO2019085120A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 协同过滤推荐方法、电子设备及计算机可读存储介质
CN113128472A (zh) * 2021-05-17 2021-07-16 北京邮电大学 一种基于智能协同学习的多标签标注方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100228691A1 (en) * 2009-03-03 2010-09-09 Microsoft Corporation Media Tag Recommendation Technologies
CN102129470A (zh) * 2011-03-28 2011-07-20 中国科学技术大学 标签聚类方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100228691A1 (en) * 2009-03-03 2010-09-09 Microsoft Corporation Media Tag Recommendation Technologies
CN102129470A (zh) * 2011-03-28 2011-07-20 中国科学技术大学 标签聚类方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王娅丹等: "《标签共现的标签聚类算法研究》", 《计算机工程与应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657336B (zh) * 2015-03-10 2016-05-11 武汉迎风聚智科技有限公司 一种基于半余弦函数的个性化推荐方法
CN104657336A (zh) * 2015-03-10 2015-05-27 湖北大学 一种基于半余弦函数的个性化推荐算法
CN105825396A (zh) * 2016-03-11 2016-08-03 合网络技术(北京)有限公司 一种基于共现的广告标签聚类的方法及系统
CN105825396B (zh) * 2016-03-11 2020-02-14 优酷网络技术(北京)有限公司 一种基于共现的广告标签聚类的方法及系统
CN107239993A (zh) * 2017-05-24 2017-10-10 海南大学 一种基于拓展标签的矩阵分解推荐方法及系统
CN109284509B (zh) * 2017-07-21 2022-10-14 北京搜狗科技发展有限公司 一种文本处理方法、系统和一种用于文本处理的装置
CN109284509A (zh) * 2017-07-21 2019-01-29 北京搜狗科技发展有限公司 一种文本处理方法、系统和一种用于文本处理的装置
WO2019085120A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 协同过滤推荐方法、电子设备及计算机可读存储介质
CN109325631A (zh) * 2018-10-15 2019-02-12 华中科技大学 基于数据挖掘的电动汽车充电负荷预测方法和系统
CN109451018A (zh) * 2018-11-07 2019-03-08 掌阅科技股份有限公司 信息对象的推送方法、计算设备及计算机存储介质
CN109451018B (zh) * 2018-11-07 2021-03-19 掌阅科技股份有限公司 信息对象的推送方法、计算设备及计算机存储介质
CN113128472A (zh) * 2021-05-17 2021-07-16 北京邮电大学 一种基于智能协同学习的多标签标注方法
CN113128472B (zh) * 2021-05-17 2022-09-20 北京邮电大学 一种基于智能协同学习的多标签标注方法

Similar Documents

Publication Publication Date Title
CN104216993A (zh) 一种标签共现的标签聚类方法
CN110059198B (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN102254043B (zh) 一种基于语义映射的服装图像检索方法
CN102629275B (zh) 面向跨媒体新闻检索的人脸-人名对齐方法及系统
CN105760888B (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN102129470A (zh) 标签聚类方法和系统
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN106991447A (zh) 一种嵌入式多类别属性标签动态特征选择算法
Gao et al. Multi‐dimensional data modelling of video image action recognition and motion capture in deep learning framework
CN109947987B (zh) 一种交叉协同过滤推荐方法
CN105843799B (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
CN106886601A (zh) 一种基于子空间混合超图学习的交叉模态检索算法
CN108897791B (zh) 一种基于深度卷积特征和语义相似度量的图像检索方法
CN104199822A (zh) 一种识别搜索对应的需求分类的方法和系统
CN102081655A (zh) 基于贝叶斯分类算法的信息检索方法
Papadopoulos et al. Image clustering through community detection on hybrid image similarity graphs
CN103778206A (zh) 一种网络服务资源的提供方法
Murtaza et al. Clothes retrieval using M-AlexNet with mish function and feature selection using Joint Shannon’s Entropy Pearson’s correlation coefficient
CN110389932A (zh) 电力文件自动分类方法及装置
CN105354264B (zh) 一种基于局部敏感哈希的主题标签快速赋予方法
Goldberg et al. CASTLE: crowd-assisted system for text labeling and extraction
CN116450938A (zh) 一种基于图谱的工单推荐实现方法及系统
CN106775694A (zh) 一种软件配置代码制品的层次分类方法
Zhang et al. Ontology-based clustering algorithm with feature weights
Zhang et al. HetGRec: Heterogeneous graph attention network for group recommendation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141217