CN102289514B - 社会标签自动标注的方法以及社会标签自动标注器 - Google Patents

社会标签自动标注的方法以及社会标签自动标注器 Download PDF

Info

Publication number
CN102289514B
CN102289514B CN201110263798.5A CN201110263798A CN102289514B CN 102289514 B CN102289514 B CN 102289514B CN 201110263798 A CN201110263798 A CN 201110263798A CN 102289514 B CN102289514 B CN 102289514B
Authority
CN
China
Prior art keywords
label
webpage
lambda
sigma
chi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110263798.5A
Other languages
English (en)
Other versions
CN102289514A (zh
Inventor
刘盛华
程学旗
郭嘉丰
刘悦
廖华明
朱亚涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201110263798.5A priority Critical patent/CN102289514B/zh
Publication of CN102289514A publication Critical patent/CN102289514A/zh
Application granted granted Critical
Publication of CN102289514B publication Critical patent/CN102289514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重,以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重,并归一化;对上述权重建立线性融合权值模型,并估计线性融合参数;以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准确性。

Description

社会标签自动标注的方法以及社会标签自动标注器
技术领域
本发明属于互联网信息搜索与检索领域,尤其涉及针对以文本为主要内容的网页的分类方法。
背景技术
社会标签是一种针对文章或图片等信息的更为灵活、有趣的分类方式。用户可以为每篇文章或每张图片,或每条信息添加一个或多个标签,从而根据这些标签把这些文章或图片或信息进行分类。用户可以在系统中创建自己的标签,也可以对文章或链接使用标签来标记。简单地,用户可以把一个标签(Tag)理解为一个文章或图片的分类。标签,又被称为软分类,即根据文章或者图片或者信息的意义,由信息的组织者为信息指定一个或者多个“标签”。传统的分类,又称为硬分类,即就是网页发布文章或图片或信息时,所选择的系统现有的固定的分类。标签和硬分类相比,硬分类一般是事先预定好的,即文章或图片属于哪一个分类,事先就已经规定好了。而标签不同,它是在文章或图片完成之后,再由用户添加的。
网页的社会标签标注,又名合作标签标注、社会分类法、社会标引,其是一种个人或团体将术语、名称等(也可称为“标签”)与一个在线“社会”环境中的数字资源作关联的方法。
随着Web2.0技术应用的兴起,社会标签标注因其在组织内容上的优势变得越来越流行。它可以为网络信息导航、过滤、提高网络搜索质量以及查询推荐等网络应用提供支持。但另一方面,网络上的大多网页很少甚至没有标注标签,即使是标签服务网站,如Del.icio.us也只是对网络上小部分链接进行了标注。这就给社会标签的应用带来了很大的不便。
可以想象,如果能为大多网页标注社会标签,无疑会将上述的障碍扫除。因此自动化的社会标签标注,即基于已有的社会标签标注的数据对一个新的网页进行标注,正得到越来越多的关注。
现有的技术主要分为三类:基于本体和关键词抽取的方法,例如参考文献1(Dill,S.,Eiron,N.,Gibson,D.,Gruhl,D.,Guha,R.V.,Jhingran,A.,Kanungo,T.,Rajagopalan,S.,Tomkins,A.,Tomlin,J.A.,andZien,J.Y.2003.SemTagandSeeker:BootstrappingtheSemanticWebviaAutomatedSemanticAnnotation.InWWW’03:Proc.oftheTwelfthInternationalWorldWideWebConference.178-186.)中提供一个大规模文本分析和自动语义标注的平台,它通过对一小部分训练数据的学习来对网页进行自动标注。但这里的应用的前提是假设本体工程在社会标签标注前已经建立好或者本体工程的建立仅仅依赖于网页的关键词(Keyword)抽取。另外,关键词直观描述了Web文档的内容,同时社会标签与文档的内容具有一致性,因此关键词成为了生成标签的最直接的方法。基于“词袋”的语言模型假设,文档中词项的出现频率(TermFrequency,TF)(也可简称为词频),反映了该词项的关键程度,于是往往成为的关键词提取的权重之一。例如参考文献2(Chirita,P.A.,Costache,S.,Nejdl,W.,andHandschuh,S.2007.P-tag:largescaleautomaticgenerationofpersonalizedannotationtagsfortheweb.InWWW’07:Proceedingsofthe16thinternationalconferenceonWorldWideWeb.845-854.)通过提取Web文档关键词的方法来自动标签标注。而现实情况是社会标签的内容不仅仅来源于网页的关键词,它还涉及很多网页文本之外的内容。
基于协同过滤(collaborativefiltering,CF)的方法,例如参考文献3(Lu,Y.-T.,Yu,S.-I.,Chang,T.-C.,andHsu,J.Y.2009.Acontent-basedmethodtoenhancetagrecommendation.InInProc.ofIJCAI’09.2064-2069.)提出了一个生成网页标签的协同过滤方法,该方法依据当前网页与其近邻网页内容的相似度大小,从其近邻网页的标签中生成当前网页的标签。然而,基于协同过滤的标签推荐方法仅仅是从当前网页的近邻网页中生成标签,而没有考虑到语义层面,尤其是同义和反义。
基于话题模型的方法,例如混合成员的话题模型MM-LDA(mixedmembershipLDA)模型(参考文献4:Erosheva,E.,Fienberg,S.,andLafferty,J.2004.Mixedmembershipmodelsofscientificpublications.InProceedingsoftheNationalAcademyofSciences.Vol.101.press,5220-5227.)将Web文档的词项和标注的标签分别完全独立地由同一个话题分布生成。进一步参考文献5(Guo,J.,Cheng,X.,Shen,H.,andBai,S.2009.Exploringcollaborativelyannotateddataforautomaticannotation.InWorkshoponContentAnalysisintheWeb2.0inthe18thInternationalWorldWideWebConference.)提出了一致性话题模型Corr-LDA(correspondencelatentDirichletallocation)。该模型更加紧凑地模型化了Web文档词项与标签的生成过程。但随着词项降维和混合隐藏话题的建模,这两种话题模型MM-LDA和Corr-LDA在标签预测中往往会忽略很多细节并带有噪音数据。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种自动进行社会标签标注的方法,同时考虑文档具体内容的一致性和抽象语义层的相关性,以提高社会标签自动标注的准确性。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种社会标签自动标注的方法,包括:
步骤1)初始化网页数据集,形成对应的词项空间和标签空间;所述网页数据集由已经被用户标注的网页组成,并被分为训练集R和R’;
步骤2)对于训练集R’中的每个网页,计算所述标签空间中每个标签对于该网页的权值向量,其中,标签j对于网页i的权值向量τi,j,ζi,j,ρi,j分别为基于训练集R和R’,利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值;
步骤3)建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ,
并且基于训练集R’对参数λ=[λ1,λ2,λ3]进行估计,其中π表示对于网页i的一种标签项序列,标签项π(j)处于该序列的第j位;
步骤4)基于步骤3)所估计的参数,计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值,按该权值的大小自动生成用于标注该网页的标签项序列。
上述方法中,步骤1)包括以下步骤:
步骤11)基于词袋模型对网页数据集进行处理,形成对应的词项空间V和标签空间U;
步骤12)在词项空间V和标签空间U的基础上,将网页数据集中的每个网页表示为一个二元组(wi,ti),其中wi∈V,ti∈U,矢量wi的元素wi,j表示词项在网页i中出现的次数,矢量ti的元素ti,k表示标签在网页i中标注过的次数。
上述方法中,在步骤11)之前还包括对网页数据进行降噪处理,过滤掉少于100个用户标注的网页的步骤。
上述方法中,步骤3)采用梯度下降法来基于训练集R’对参数λ=[λ1,λ2,λ3]进行估计。
上述方法中,步骤3)中包括以下步骤:
步骤31)建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ;
步骤32)在训练集R’上建立似然函数:
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) )
其中, p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ||R’||表示训练集R’的大小;
步骤33)对于参数λ执行以下步骤:
(1)选择一个初始的λ值,作如下计算:
Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3 ;
(2)判断||Δλ||≥ε是否成立;
(3)如果不等式成立,则回溯直线查找发现一个步长值t,更新λ值(λ=λ-tΔλ),并对λ值正规化,然后返回步骤(2);
(4)如果不等式不成立,则返回线性融合参数λ;
其中,λ值的初始值为[0,1]间的随机数,ε取0.0001。
又一方面,本发明提供了一种社会标签自动标注器,包括:
网页数据集初始化装置,用于初始化网页数据集,形成对应的词项空间和标签空间;所述网页数据集由已经被用户标注的网页组成,并被分为训练集R和R’;
权重计算装置,用于对训练集R’中的每个网页,计算所述标签空间中每个标签对于该网页的权值向量,其中,标签j对于网页i的权值向量τi,j,ζi,j,ρi,j分别为基于训练集R和R’,利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值;
线性融合参数估计装置,用于建立线性融合权值模型:
X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , 并且基于训练集R’对参数λ=[λ1,λ2,λ3]进行估计,其中π表示对于网页i的一种标签项序列,标签项π(j)处于该序列的第j位;
标签标注装置,用于根据所估计的参数,计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值,按该权值的大小自动生成用于标注该网页的标签项序列。
上述社会标签自动标注器中,所述网页数据集初始化装置包括:
用于基于词袋模型对网页数据集进行处理,形成对应的词项空间V和标签空间U的装置;
用于在词项空间V和标签空间U的基础上,将网页数据集中的每个网页表示为一个二元组(wi,ti)的装置,其中wi∈V,ti∈U,矢量wi的元素wi,j表示词项在网页i中出现的次数,矢量ti的元素ti,k表示标签在网页i中标注过的次数。
上述社会标签自动标注器中,所述网页数据集初始化装置还包括用于对网页数据进行降噪处理,过滤掉少于100个用户标注的网页的装置。
上述社会标签自动标注器中,所述线性融合参数估计装置包括:用于建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) 的装置;
用于在训练集R’上建立似然函数L的装置,其中
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) )
其中, p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ||R’||表示训练集R’的大小;估计参数λ的装置,其用于:
(1)选择一个初始的λ值,作如下计算:
Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3 ;
(2)判断||Δλ||≥ε是否成立;
(3)如果不等式成立,则回溯直线查找发现一个步长值t,更新λ值(λ=λ-tΔλ),并对λ值正规化,然后返回步骤(2);
(4)如果不等式不成立,则返回线性融合参数λ;
其中,λ值的初始值为[0,1]间的随机数,ε取0.0001。
与现有技术相比,本发明的优点在于:
同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准确性。从实验结果也可以看出通过本发明的实施例提供的自动进行社会标签标注的方法相比现有的方法在社会标签自动标注方面显著的优越性。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的社会标签自动标注的方法的流程示意图;
图2为一致性话题模型Corr-LDA的示意图;
图3为根据本发明实施例的梯度下降算法估计线性融合参数的流程图;
图4(a)为根据本发明实施例的社会标签自动标注与现有方法在Top-k准确率比较结果示意图;
图4(b)为根据本发明实施例的社会标签自动标注与现有方法在Exact-k准确率比较结果示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1描述了社会标签自动标注的方法的一个实施例的流程示意图。该方法包括初始化数据集;计算标签词项在文档中的频率(TF)权重,以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重,并归一化;建立线性融合权值模型(也可以简称为线性融合模型或融合模型),并估计线性融合参数(也可以简称为融合参数);基于线性融合模型对社会标签进行自动标注。下面将结合一个基于Del.icio.us网站语料库的实例对社会标签自动注的方法的一个实施例进行更详细的讨论。在这个实施例中的语料库来自于Del.icio.us网站2008年10月至2008年11月的数据,包含825,402个用户在带有5,916,196个标签的57,813,581个不同的URL上标注的167,958,659个标记。
步骤1,初始化数据集,
初始化数据集主要包括对原始网页数据集进行降噪处理,过滤掉被很少用户标注过的网页;将数据集划分成两个集合,即训练集R和测试集D,同时在训练集R中随机抽取部分网页作为训练线性融合模型的训练集R’;而所述测试集D用于对比不同的标注方法的实验。然后,对所有数据集中的词项和网页标注信息分别进行后缀剥离和词干还原,形成对应的词项空间V和标签空间U;接着,在词项空间V和标签空间U的基础上,将训练集中的网页矢量化,即将每个网页表示为一个二元组(wi,ti),其中wi∈V,ti∈U,矢量wi的元素wi,j表示词项在网页i中出现的次数,同理,矢量ti的元素ti,k表示标签在网页i中标注过的次数。
在本实施例中,利用已知的混合爬取策略在网站Del.icio.us上爬取的大量网页作为原始数据集,并对其进行降噪处理,过滤掉少于100个用户标注的网页。在得到的数据集60,000个网页中将50,000个网页作为训练集R,另外的10,000个网页作为测试集D,同时在训练集R中随机抽取10,000个网页作为训练线性融合模型的训练集R’。训练集R、测试集D中所有的网页都顺次分配一个能唯一标识的网页ID(从1开始,依此累加),以便于后续处理。然后,基于“词袋”模型对网页中的词项和网页标注信息分别进行后缀剥离和词干还原,形成对应的词项空间V和标签空间U,处理结果为词项空间V包含67,146个词项,标签空间U包含12,669个标签项。最后,在词项空间V和标签空间U的基础上,将训练集R中的网页矢量化,即将每个网页表示为一个二元组(wi,ti),其中wi∈V,ti∈U,矢量wi的元素wij表示词项在网页i中出现的次数,同理,矢量ti的元素tik表示标签在网页i中标注过的次数。
步骤2,对于训练集R’中每个网页i,分别计算在所述标签空间中每个标签j对于该网页i的归一化的TF权重值τi,j、CF权重值ζi,j、Corr-LDA权重值ρi,j
为了下文与其他方法对比效果的方便,下面以测试集D中的ID为90的网页为例来进行说明。训练集R’中每个网页的操作与其相同。另外需要说明的是,网页中不同的词项和标签往往比较多,因此限于书写空间,仅列出排在前10(top-10)的具有代表性的数据,即top-K取为top-10,其他数据的计算可依此类推。
步骤2-1),使用如下公式来计算归一化的TF权重值τi,j
其中k表示词项出现在前k项标签列表的位置。
以测试集D中的ID为90的网页为例,计算#90网页的wi,j(i=90),即对于#90网页内容中词频排在前十位,并且存在于标签空间U的词项的频次进行归一化处理。这里的归一化处理就是将符合条件的某一词项的词频数除以所有符合条件的词项的词频数总和。如网页#90中符合条件的词项和词频如下表。
Σ 10 w 90,10 = ( 35 + 26 + 22 + 19 + 17 + 16 + 4 + 4 + 3 + 2 ) = 148
由此可得相应各词项的相应TF权重值τ90,j
步骤2-2),计算归一化CF权重值ζi,j,主要包括以下步骤:
a)首先计算网页间基于网页内容的相似度,用向量空间的余弦相似度表示: Sim i , j = w i · w j | | w i | | | | w j | |
计算训练集R’中每个网页与数据集R-R’后的所有网页的余弦相似度,由大到小排序,找出排名前50的值,即对应R’中当前网页的50个近邻网页。以#90网页为例,计算它与#1网页的余弦相似度。#90网页向量表示w90=(0,...,0,1,0,...5,...),其中每i个元素项表示词项i在#90网页中出现的次数,同此,#1网页向量表示w1=(0,...,2,0,0,...23,...),代入余弦相似度的计算公式 Sim i , j = w i · w j | | w i | | | | w j | | , 其中i,j分别为90和1,可得Sim90,1=0.333513。依次计算#90网页与其他每一个网页的余弦相似度后排序,可得到其50个近邻的网页ID分别为:40176,13065,48800,15291,5616,...,39499,5473,19853,44946,8238。
b)计算标签重要性的标示指标pi,j
p i , j = t i , j Σ 1 ∈ U t i , 1
即用标签项j在当前网页i的标注次数除以所有标签项在当前网页i的标注次数总和。例如网页#90的所有标签项标注次数为(11+35+5+...+48+5)=426,其中标签项#9标注次数是35,则p90,9=35/426=0.08216;依此可以计算每个标签项在当前网页#90的标签重要性的标示指标p90,j。同理可以计算出网页#90的50个近邻网页的标签重要性的标示指标pi,j(其中i属于网页#90的50个近邻网页ID)。
c)计算基于协同过滤(CF)方法产生的标签权重ri,j
r i , j = Σ k ∈ k i ( p k , j × s i , k × log Σ 1 ∈ U t k , 1 ) 其中ki指网页i的近邻网页集合(这里以取50个近邻为例),Si,k表示CF方法中当前网页i与其近邻网页k的相似度,以如下公式进行计算:
s i , k = Sim i , k Σ k ′ ∈ k i Sim i , k ′
这样,计算式中各项都可依照前面步骤计算得出。如计算网页#90的r90,j后,排序的前10位分别为
即通过CF方法得到网页#90的推荐top-10标签为secure,password,tool,software,window,hack,firefox,howto,tip,recovery。同理可得到其推荐top-K标签。
d)计算归一化CF权重ζi,j
其中k表示标签项出现在前k项标签列表的位置。
在本实施例中,只需计算处于其推荐top-K中的标签项,其他标签项的相应参数值取0。处于其推荐top-K中的标签项的CF权重值ζi,j等于每一个标签项的ri,j值除以所有处于其推荐top-K中的标签项的ri,j值的总和。如网页#90的CF权重值ζ90,j以top-10为例,首先计算推荐top-10标签项的ri,j值的总和(1.32354+0.400672+0.289863+0.223276+0.214289+0.169809+0.15723+0.14299+0.119932+0.106532)=3.148133,然后可得ζ90,secure=1.32354/3.148133=0.420421,同理可计算其他标签项的CF权重值ζ90,j
步骤2-3)计算归一化Corr-LDA权重值ρi,j,主要包括以下步骤:
(1)构建Corr-LDA模型(如图2所示,可参阅参考文献5),
首先,计算网页i包含的全部词项数目Ni和全部标签数目Mi,其中,
N i = Σ j ∈ V w i , j
对于每个Ni中的词项wn提取对应的主题分配zn~Multinomial(θ)提取词项wn~p(wn|zn,β),
M i = Σ j ∈ U t i , j
对于每个Mi中的标签项tm提取索引序列ym~Unif(1,...,N)提取标签项tm~p(tm|ym,z,η)
例如,网页#90的词项总数为
N 90 = Σ j ∈ V w 90 , j = ( 2 + 8 + . . . + 1 + 1 ) = 1563 以及
网页#90的标签项总数为
M 90 = Σ j ∈ U t 90 , j = ( 2 + 5 + . . . + 4 + 4 ) = 505 .
接着,按照Corr-LDA模型提取主题比例θ~Dir(α):
p ( θ | α ) = Γ ( Σ i = 1 K α i ) Π i = 1 K Γ ( α i ) θ 1 α 1 - 1 . . . θ K αK - 1 在本实施例中,K=300。
(2)进行参数估计
首先,建立极大似然函数。
在给定参数α,β和η后,可得到一个二元组(w,f)的边缘分布为:
p ( w , t | α , β , η ) = ∫ p ( θ | α ) ( Π n = 1 N Σ z n p ( z n | θ ) p ( w n | z n , β ) )
( Π m = 1 M Σ y m p ( y m | N ) p ( t m | y m , z , η ) ) dθ
由此可得似然函数:
p ( R | α , β , η ) = Π i = 1 D ∫ p ( θ i | α ) ( Π n = 1 N i Σ z in p ( z in | θ i ) p ( w in | z in , β ) )
( Π m = 1 M i Σ y mi p ( y im | N i ) p ( t im | y im , z i , η ) ) d θ i
然后,利用变分EM法估计参数。
给定潜在变量的概率分布:
其中自由变量参数γ是一个K维的狄利克雷参数,φn是N中K维多项参数,φm是M中K维多项参数。
让βiv表示概率p(wv n|zn=i,β)的值,则变分EM法估计参数的过程为迭代调用如下三个等式,直到KL散度收敛。
γ i = α i + Σ n = 1 N φ ni
通过上述变分EM法,基于训练数据集R-R’上的学习,获得参数γi 的估计。
下表给出了训练后,其中5个话题(topic)的词项(word)和标签(tag)的排列情况。
(3)利用所得到的估计参数,通过下式:
可得到Corr-LDA模型对网页#90的标签项预测概率结果:
(4)计算Corr-LDA权重值ρi,j
其中k表示标签项出现在前k项标签列表的位置。
在本实施例中,通过上述概率结果可计算得出Corr-LDA权重值ρi,j。处于其推荐top-10中的标签项的Corr-LDA权重值ρi,j等于每一个标签项的p(ti,j|wi)值除以所有处于其推荐top-10中的标签项的p(ti,j|wi)值的总和。如网页#90的Corr-LDA权重值ρ90,j,以top-10为例。首先计算推荐top-10标签项的p(ti,j|wi)值的总和(0.149007+0.0738018+...+0.0321281+0.0174572)=0.536027,然后可得ρ90。secure=0.149007/0.536027=0.137683,同理可计算其他标签项的Corr-LDA权重值ρ90,j。而非top-10的标签项的Corr-LDA权重值ρ90,j均取值为零。
应指出,在上述步骤2中所采用的公式及其中的变量和符号的含义可参见上文提及的参考文献2、参考文献3和参考文献5。
步骤3,建立线性融合权值模型,并基于训练集R’估计融合参数
步骤3-1)按照步骤2给出的方法计算得出融合模型的训练集R’中的所有网页的TF、CF和Corr-LDA的归一化权值。令标签j对于网页i的权值向量为:
x j ( i ) = [ τ i , j , ζ i , j , ρ i , j ] T
其中,τi,j通过统计网页i中的词频归一化后直接获得;ζi,j按照步骤2-2介绍的方法从集合R-R’中获取50个近邻后计算得到;ρi,j直接通过将网页的特征向量wi代入步骤2-3训练获得的Corr-LDA模型计算得到。
如标签“jquery”对于网页#11的权值向量的计算结果如下:
x jquery ( 11 ) = [ 0.228158,0.401349,0.136817 ] T .
步骤3-2)建立线性融合模型
通过步骤3-1得到每个标签对于训练集R’的网页i的三个权值序列,并对每一个权值序列由大到小分别排序。然后,从三个有序序列中分别取前k个标签的权值,得到x(i) π(j)(j=1...k)。其中,π表示标签项的一种序列,π(j)表示标签项π(j)处于序列的第j位。
则,线性融合权值x(i) π(j)定义为:
X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ,
模型的参数为λ=[λ1,λ2,λ3]。
步骤3-3)线性融合模型参数估计
(1)在训练集R’上建立似然函数:
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) ,
其中, P ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) ( i ) ) Σ t = j k exp ( χ π ( t ) ( i ) ) 为网页i的标签序列的枚举概率模型,
||R’||表示数据集R’的大小,在本实施例中,其值为10000。
(3)利用图3所示的梯度下降算法对线性融合模型的参数λi(i=1,2,3)(为了方便,可简称为线性融合参数或者融合参数)进行估计。
设定一个很小的正数ε(一般设置为0.0001)作为梯度下降法迭代的收敛终止条件。如图3所示的梯度下降算法包括以下步骤:
1)选择一个初始的λ值,接着做如下计算:
Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3
2)判断||Δλ||≥ε是否成立。
3)如果不等式成立,则回溯直线查找发现一个步长值t,更新λ值(λ=λ-tΔλ),并对λ值正规化,然后返回步骤(2)。
4)如果不等式不成立,则返回融合参数λ
在本实施例中,计算的最终结果为λ=[0.305,0.268,0.427]。
步骤4,基于线性融合权值模型来进行自动的社会标签标注。
也就是,利用融合参数λi(i=1,2,3)计算标签j对于网页i的线性融合权值
( χ π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ) , 按照线性融合权值的从大到小排序后,依次进行自动推荐。
针对测试集D的每一个网页进行线性融合权值的计算,将计算结果降序排列后得到其预测标注标签的Top-N。以测试集D中的网页#90为例,用线性融合式对其标签项进行处理后的结果为:
将网页#90的TF、CF、Corr-LDA以及本发明的融合模型所得到的前10个自动生成的标签列于下表,其中User行数据指的是测试集网页#90的用户标注结果。
在又一个实施例中,提供了一种社会标签自动标注器,包括网页数据集初始化装置、权重计算装置、线性融合参数估计装置以及标签标注装置。其中,网页数据集初始化装置用于初始化网页数据集,形成对应的词项空间和标签空间;所述网页数据集由已经被用户标注的网页组成,并被分为训练集R和R’。权重计算装置用于对训练集R’中的每个网页,计算所述标签空间中每个标签对于该网页的权值向量,其中,标签j对于网页i的权值向量τi,j,ζi,j,ρi,j分别为基于训练集R和R’,利用上文提到的词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值。线性融合参数估计装置用于建立线性融合权值模型: X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , 并且基于训练集R’对参数λ=[λ1,λ2,λ3]进行估计,其中π表示对于网页i的一种标签项序列,标签项π(j)处于该序列的第j位。标签标注装置用于根据所估计的参数,计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值,按该权值的大小自动生成用于标注该网页的标签项序列。
网页数据集初始化装置包括用于基于词袋模型对网页数据集进行处理,形成对应的词项空间V和标签空间U的装置;用于在词项空间V和标签空间U的基础上,将网页数据集中的每个网页表示为一个二元组(wi,ti)的装置,其中wi∈V,ti∈U,矢量wi的元素wi,j表示词项在网页i中出现的次数,矢量ti的元素ti,k表示标签在网页i中标注过的次数。网页数据集初始化装置还包括用于对网页数据进行降噪处理,过滤掉少于100个用户标注的网页的装置。
线性融合参数估计装置包括用于建立线性融合权值模型
X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) 的装置;用于在训练集R’上建立似然函数L的装置,以及利用上文提到的梯度下降法估计参数λ的装置,其中,
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) )
p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ||R’||表示训练集R’的大小。
性能分析
为了测试融合模型的准确性与客观性,在本申请中首先对TF、CF和Corr-LDA三个方法之间的互补性做了验证,然后将本发明的融合模型与三个方法各自独立使用的情况以及应用MM-LDA(mixedmembershipLDA)模型的情况进行了比较。
首先,将能够被TF方法正确预测而没有被Corr-LDA模型预测中的标签数量与总的预测标签量的比例定义为TF方法相对于Corr-LDA模型的互补值,公式如下:
Ntf,cl/K
其中Ntf,cl表示被TF方法正确预测而没有被Corr-LDA模型预测中的标签数,K的值表示总的预测标签数。依次类推可以定义其他方法对的互补值。在训练集R’和测试集D上进行训练和评估后(K取值10),可得到三个方法间的互补值,如表1所示:
表1TF、CF和Corr-LDA三个方法间的互补值
从表中可以看到,使用CF和Corr-LDA相对基本的TF方法的互补值高于0.3,而反之也有互补值将近0.1,所以三者之间没有哪一个方法具有压倒性优势的,相互之间是存在互补关系的。
在训练集R’和测试集D上分别应用TF、CF、Corr-LDA、MM-LDA方法与本文所讨论的社会标签自动标注方法进行比较,并按照参考文献6(Song,Y.,Zhuang,Z.,Li,H.,Zhao,Q.,Li,J.,Lee,W.-C.,andGiles,C.L.2008.Real-timeautomatictagrecommendation.InSIGIR’08:Proceedingsofthe31stannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.515-522.al.2008)中提出的几个指标----Top-k准确率,Exact-k准确率,Tag召回率,Tag正确率进行统计,可得到如下数据(空间所限,只列出了Top-10)。
表2上述几种方法的效果比较(top-k和exact-k列的数据省略了%)
图4(a)和图4(b)所示的分别是以直方图的形式统计Top-k和Exact-k的准确率。
从实验结果可以看到通过本发明的实施例提供的自动进行社会标签标注的方法相比现有的方法在社会标签自动标注方面显著的优越性。这是由于本发明提供的社会标签自动标注方法考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准确性。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims (9)

1.一种社会标签自动标注的方法,所述方法包括:
步骤1)初始化网页数据集,形成对应的词项空间和标签空间;所述网页数据集由已经被用户标注的网页组成,并被分为训练集R和R’;
步骤2)对于训练集R’中的每个网页,计算所述标签空间中每个标签对于该网页的权值向量,其中,标签j对于网页i的权值向量τi,ji,ji,j分别为基于训练集R和R’,利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值;
步骤3)建立线性融合权值模型 χ π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · x π ( j ) ( i ) , 并且基于训练集R’对参数λ=[λ123]进行估计,其中π表示对于网页i的一种标签项序列,标签项π(j)处于该序列的第j位;
步骤4)基于步骤3)所估计的参数,计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值,按该权值的大小自动生成用于标注该网页的标签项序列。
2.根据权利要求1所述的方法,其中步骤1)包括以下步骤:
步骤11)基于词袋模型对网页数据集进行处理,形成对应的词项空间V和标签空间U;
步骤12)在词项空间V和标签空间U的基础上,将网页数据集中的每个网页表示为一个二元组(wi,ti),其中wi∈V,ti∈U,矢量wi的元素wi,j表示词项vj在网页i中出现的次数,矢量ti的元素ti,k表示标签uk在网页i中标注过的次数,vj表示词项空间V中第j个词项,uk表示标签空间U中第k个标签。
3.根据权利要求2所述的方法,其中在步骤11)之前还包括对网页数据进行降噪处理,过滤掉少于100个用户标注的网页的步骤。
4.根据权利要求1或2所述的方法,步骤3)采用梯度下降法来基于训练集R’对参数λ=[λ123]进行估计。
5.根据权利要求4所述的方法,其中步骤3)中包括以下步骤:
步骤31)对通过步骤2得到每个标签对于训练集R’的网页i的三个权值序列中的每一个权值序列由大到小分别排序,从这三个有序序列中分别取前k个标签的权值,得到x(i) π(j)(j=1…k),以及建立线性融合权值模型 χ π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · x π ( j ) ( i ) ;
步骤32)在训练集R’上建立似然函数:
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - l n Σ l = t k exp ( χ π ( l ) ( i ) ) )
其中,||R’||表示训练集R’的大小;
步骤33)对于参数λ执行以下步骤:
(1)选择一个初始的λ值,作如下计算:
Δ λ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1 , 2 , 3 ;
(2)判断||Δλ||≥ε是否成立;
(3)如果不等式成立,则回溯直线查找发现一个步长值t,更新λ值(λ=λ-tΔλ),并对λ值正规化,然后返回步骤(2);
(4)如果不等式不成立,则返回线性融合参数λ;
其中,λ值的初始值为[0,1]间的随机数,ε取0.0001。
6.一种社会标签自动标注器,包括:
网页数据集初始化装置,用于初始化网页数据集,形成对应的词项空间和标签空间;所述网页数据集由已经被用户标注的网页组成,并被分为训练集R和R’;
权重计算装置,用于对训练集R’中的每个网页,计算所述标签空间中每个标签对于该网页的权值向量,其中,标签j对于网页i的权值向量τi,ji,ji,j分别为基于训练集R和R’,利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值;
线性融合参数估计装置,用于建立线性融合权值模型:
χ π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · x π ( j ) ( i ) , 并且基于训练集R’对参数λ=[λ123]进行估计,其中π表示对于网页i的一种标签项序列,标签项π(j)处于该序列的第j位;
标签标注装置,用于根据所估计的参数,计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值,按该权值的大小自动生成用于标注该网页的标签项序列。
7.根据权利要求6所述的社会标签自动标注器,其中,所述网页数据集初始化装置包括:
用于基于词袋模型对网页数据集进行处理,形成对应的词项空间V和标签空间U的装置;
用于在词项空间V和标签空间U的基础上,将网页数据集中的每个网页表示为一个二元组(wi,ti)的装置,其中wi∈V,ti∈U,矢量wi的元素wi,j表示词项vj在网页i中出现的次数,矢量ti的元素ti,k表示标签uk在网页i中标注过的次数,vj表示词项空间V中第j个词项,uk表示标签空间U中第k个标签。
8.根据权利要求7所述的社会标签自动标注器,其中,所述网页数据集初始化装置还包括用于对网页数据进行降噪处理,过滤掉少于100个用户标注的网页的装置。
9.根据权利要求6或7所述的社会标签自动标注器,其中,所述线性融合参数估计装置包括:
用于对所得到每个标签对于训练集R’的网页i的三个权值序列中的每一个权值序列由大到小分别排序,从这三个有序序列中分别取前k个标签的权值,得到x(i) π(j)(j=1…k),以及建立线性融合权值模型 χ π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · x π ( j ) ( i ) 的装置;
用于在训练集R’上建立似然函数L的装置,其中
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - l n Σ l = t k exp ( χ π ( l ) ( i ) ) )
其中,||R’||表示训练集R’的大小;
估计参数λ的装置,其用于:
(1)选择一个初始的λ值,作如下计算:
Δ λ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1 , 2 , 3 ;
(2)判断||Δλ||≥ε是否成立;
(3)如果不等式成立,则回溯直线查找发现一个步长值t,更新λ值(λ=λ-tΔλ),并对λ值正规化,然后返回步骤(2);
(4)如果不等式不成立,则返回线性融合参数λ;
其中,λ值的初始值为[0,1]间的随机数,ε取0.0001。
CN201110263798.5A 2011-09-07 2011-09-07 社会标签自动标注的方法以及社会标签自动标注器 Active CN102289514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110263798.5A CN102289514B (zh) 2011-09-07 2011-09-07 社会标签自动标注的方法以及社会标签自动标注器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110263798.5A CN102289514B (zh) 2011-09-07 2011-09-07 社会标签自动标注的方法以及社会标签自动标注器

Publications (2)

Publication Number Publication Date
CN102289514A CN102289514A (zh) 2011-12-21
CN102289514B true CN102289514B (zh) 2016-03-30

Family

ID=45335940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110263798.5A Active CN102289514B (zh) 2011-09-07 2011-09-07 社会标签自动标注的方法以及社会标签自动标注器

Country Status (1)

Country Link
CN (1) CN102289514B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760149B (zh) * 2012-04-05 2015-02-25 中国人民解放军国防科学技术大学 开源软件主题自动标注方法
CN103425716B (zh) * 2012-05-24 2016-08-31 Tcl美国研究所 一种数据挖掘中基于命题逻辑的主特征分析方法及系统
CN103699628B (zh) * 2013-12-20 2017-04-05 北京百度网讯科技有限公司 获取多标签的方法及装置
CN104111973B (zh) * 2014-06-17 2017-10-27 中国科学院计算技术研究所 一种学者重名的消歧方法及其系统
CN104965814B (zh) * 2015-06-30 2018-01-16 北京航空航天大学 一种民用飞机技术出版物的源数据标注扩展方法
CN106095746B (zh) * 2016-06-01 2019-05-10 竹间智能科技(上海)有限公司 文字情感辨识系统及方法
CN107885722B (zh) * 2017-10-31 2021-05-25 北京奇艺世纪科技有限公司 一种关键词抽取方法和装置
CN108121700B (zh) * 2017-12-21 2021-06-25 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727463A (zh) * 2008-10-24 2010-06-09 中国科学院计算技术研究所 一种文本训练方法和分类方法
CN101739430A (zh) * 2008-11-21 2010-06-16 中国科学院计算技术研究所 一种基于关键词的文本情感分类器的训练方法和分类方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727463A (zh) * 2008-10-24 2010-06-09 中国科学院计算技术研究所 一种文本训练方法和分类方法
CN101739430A (zh) * 2008-11-21 2010-06-16 中国科学院计算技术研究所 一种基于关键词的文本情感分类器的训练方法和分类方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种新的基于社会化标签的网页排名算法;张晖等;《扬州大学学报(自然科学版)》;20080831;第11卷(第3期);全文 *

Also Published As

Publication number Publication date
CN102289514A (zh) 2011-12-21

Similar Documents

Publication Publication Date Title
CN102289514B (zh) 社会标签自动标注的方法以及社会标签自动标注器
CN103207899B (zh) 文本文件推荐方法及系统
Do et al. Legal question answering using ranking SVM and deep convolutional neural network
CN101321190B (zh) 一种异构网络中的推荐方法及推荐系统
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
Guan et al. Personalized tag recommendation using graph-based ranking on multi-type interrelated objects
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
Jomsri et al. A framework for tag-based research paper recommender system: an IR approach
CN103049470B (zh) 基于情感相关度的观点检索方法
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN106599181A (zh) 一种基于主题模型的新闻热点检测方法
WO2009005744A1 (en) Processing a content item with regard to an event and a location
CN105574047A (zh) 一种基于网站主页特征分析的中文网站分类方法和系统
CN101706812B (zh) 一种文档的检索方法和装置
CN103886067A (zh) 使用标签隐含主题进行图书推荐的方法
Kim et al. A framework for tag-aware recommender systems
Mehrotra et al. Terms, topics & tasks: Enhanced user modelling for better personalization
CN103678412A (zh) 一种文档检索的方法及装置
CN103049528A (zh) 基于用户兴趣向量的个性化网页搜索排序方法
CN104268175A (zh) 一种数据搜索的装置及其方法
CN105468649B (zh) 一种待展示对象匹配的判断方法及其装置
CN102156747B (zh) 一种引入社会化标签的协作过滤评分预测方法及装置
Raviv et al. A ranking framework for entity oriented search using markov random fields
CN105808541B (zh) 一种信息匹配处理方法和装置
Song et al. Hierarchical tag visualization and application for tag recommendations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20111221

Assignee: Branch DNT data Polytron Technologies Inc

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract record no.: 2018110000033

Denomination of invention: Social label automatic labelling method and social label automatic labeller

Granted publication date: 20160330

License type: Common License

Record date: 20180807