CN102289514B

CN102289514B - 社会标签自动标注的方法以及社会标签自动标注器

Info

Publication number: CN102289514B
Application number: CN201110263798.5A
Authority: CN
Inventors: 刘盛华; 程学旗; 郭嘉丰; 刘悦; 廖华明; 朱亚涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2011-09-07
Filing date: 2011-09-07
Publication date: 2016-03-30
Anticipated expiration: 2031-09-07
Also published as: CN102289514A

Abstract

本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重，以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重，并归一化；对上述权重建立线性融合权值模型，并估计线性融合参数；以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性，因此能够提高社会标签自动标注的准确性。

Description

社会标签自动标注的方法以及社会标签自动标注器

技术领域

本发明属于互联网信息搜索与检索领域，尤其涉及针对以文本为主要内容的网页的分类方法。

背景技术

社会标签是一种针对文章或图片等信息的更为灵活、有趣的分类方式。用户可以为每篇文章或每张图片，或每条信息添加一个或多个标签，从而根据这些标签把这些文章或图片或信息进行分类。用户可以在系统中创建自己的标签，也可以对文章或链接使用标签来标记。简单地，用户可以把一个标签(Tag)理解为一个文章或图片的分类。标签，又被称为软分类，即根据文章或者图片或者信息的意义，由信息的组织者为信息指定一个或者多个“标签”。传统的分类，又称为硬分类，即就是网页发布文章或图片或信息时，所选择的系统现有的固定的分类。标签和硬分类相比，硬分类一般是事先预定好的，即文章或图片属于哪一个分类，事先就已经规定好了。而标签不同，它是在文章或图片完成之后，再由用户添加的。

网页的社会标签标注，又名合作标签标注、社会分类法、社会标引，其是一种个人或团体将术语、名称等(也可称为“标签”)与一个在线“社会”环境中的数字资源作关联的方法。

随着Web2.0技术应用的兴起，社会标签标注因其在组织内容上的优势变得越来越流行。它可以为网络信息导航、过滤、提高网络搜索质量以及查询推荐等网络应用提供支持。但另一方面，网络上的大多网页很少甚至没有标注标签，即使是标签服务网站，如Del.icio.us也只是对网络上小部分链接进行了标注。这就给社会标签的应用带来了很大的不便。

可以想象，如果能为大多网页标注社会标签，无疑会将上述的障碍扫除。因此自动化的社会标签标注，即基于已有的社会标签标注的数据对一个新的网页进行标注，正得到越来越多的关注。

现有的技术主要分为三类：基于本体和关键词抽取的方法，例如参考文献1(Dill，S.，Eiron，N.，Gibson，D.，Gruhl，D.，Guha，R.V.，Jhingran，A.，Kanungo，T.，Rajagopalan，S.，Tomkins，A.，Tomlin，J.A.，andZien，J.Y.2003.SemTagandSeeker：BootstrappingtheSemanticWebviaAutomatedSemanticAnnotation.InWWW’03：Proc.oftheTwelfthInternationalWorldWideWebConference.178-186.)中提供一个大规模文本分析和自动语义标注的平台，它通过对一小部分训练数据的学习来对网页进行自动标注。但这里的应用的前提是假设本体工程在社会标签标注前已经建立好或者本体工程的建立仅仅依赖于网页的关键词(Keyword)抽取。另外，关键词直观描述了Web文档的内容，同时社会标签与文档的内容具有一致性，因此关键词成为了生成标签的最直接的方法。基于“词袋”的语言模型假设，文档中词项的出现频率(TermFrequency，TF)(也可简称为词频)，反映了该词项的关键程度，于是往往成为的关键词提取的权重之一。例如参考文献2(Chirita，P.A.，Costache，S.，Nejdl，W.，andHandschuh，S.2007.P-tag：largescaleautomaticgenerationofpersonalizedannotationtagsfortheweb.InWWW’07：Proceedingsofthe16^thinternationalconferenceonWorldWideWeb.845-854.)通过提取Web文档关键词的方法来自动标签标注。而现实情况是社会标签的内容不仅仅来源于网页的关键词，它还涉及很多网页文本之外的内容。

基于协同过滤(collaborativefiltering，CF)的方法，例如参考文献3(Lu，Y.-T.，Yu，S.-I.，Chang，T.-C.，andHsu，J.Y.2009.Acontent-basedmethodtoenhancetagrecommendation.InInProc.ofIJCAI’09.2064-2069.)提出了一个生成网页标签的协同过滤方法，该方法依据当前网页与其近邻网页内容的相似度大小，从其近邻网页的标签中生成当前网页的标签。然而，基于协同过滤的标签推荐方法仅仅是从当前网页的近邻网页中生成标签，而没有考虑到语义层面，尤其是同义和反义。

基于话题模型的方法，例如混合成员的话题模型MM-LDA(mixedmembershipLDA)模型(参考文献4：Erosheva，E.，Fienberg，S.，andLafferty，J.2004.Mixedmembershipmodelsofscientificpublications.InProceedingsoftheNationalAcademyofSciences.Vol.101.press，5220-5227.)将Web文档的词项和标注的标签分别完全独立地由同一个话题分布生成。进一步参考文献5(Guo，J.，Cheng，X.，Shen，H.，andBai，S.2009.Exploringcollaborativelyannotateddataforautomaticannotation.InWorkshoponContentAnalysisintheWeb2.0inthe18thInternationalWorldWideWebConference.)提出了一致性话题模型Corr-LDA(correspondencelatentDirichletallocation)。该模型更加紧凑地模型化了Web文档词项与标签的生成过程。但随着词项降维和混合隐藏话题的建模，这两种话题模型MM-LDA和Corr-LDA在标签预测中往往会忽略很多细节并带有噪音数据。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种自动进行社会标签标注的方法，同时考虑文档具体内容的一致性和抽象语义层的相关性，以提高社会标签自动标注的准确性。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种社会标签自动标注的方法，包括：

步骤1)初始化网页数据集，形成对应的词项空间和标签空间；所述网页数据集由已经被用户标注的网页组成，并被分为训练集R和R’；

步骤2)对于训练集R’中的每个网页，计算所述标签空间中每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量τ_i，j，ζ_i，j，ρ_i，j分别为基于训练集R和R’，利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值；

步骤3)建立线性融合权值模型

X_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot X_{π (j)}^{(i)},

并且基于训练集R’对参数λ＝[λ₁，λ₂，λ₃]进行估计，其中π表示对于网页i的一种标签项序列，标签项π(j)处于该序列的第j位；

步骤4)基于步骤3)所估计的参数，计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值，按该权值的大小自动生成用于标注该网页的标签项序列。

上述方法中，步骤1)包括以下步骤：

步骤11)基于词袋模型对网页数据集进行处理，形成对应的词项空间V和标签空间U；

步骤12)在词项空间V和标签空间U的基础上，将网页数据集中的每个网页表示为一个二元组(w_i，t_i)，其中w_i∈V，t_i∈U，矢量w_i的元素w_i，j表示词项在网页i中出现的次数，矢量t_i的元素t_i，k表示标签在网页i中标注过的次数。

上述方法中，在步骤11)之前还包括对网页数据进行降噪处理，过滤掉少于100个用户标注的网页的步骤。

上述方法中，步骤3)采用梯度下降法来基于训练集R’对参数λ＝[λ₁，λ₂，λ₃]进行估计。

上述方法中，步骤3)中包括以下步骤：

步骤31)建立线性融合权值模型

X_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot X_{π (j)}^{(i)};

步骤32)在训练集R’上建立似然函数：

L = Σ_{i = 1}^{| | R^{'} | |} \ln P^{(i)} (π | χ) = Σ_{i = 1}^{| | R^{'} | |} Σ_{t = 1}^{k} (χ_{π (t)}^{(i)} - \ln Σ_{l = t}^{k} \exp (χ_{π (l)}^{(i)}))

其中，

p^{(i)} (π | χ) = Π_{j = 1}^{k} \frac{\exp (χ_{π (j)}^{i})}{Σ_{t = j}^{k} \exp (χ_{π (t)}^{i})},

||R’||表示训练集R’的大小；

步骤33)对于参数λ执行以下步骤：

(1)选择一个初始的λ值，作如下计算：

Δλ = \frac{- &PartialD; L}{{&PartialD; λ}_{m}} = - \underset{i}{Σ} \underset{t}{Σ} (x_{π (t)}^{(i)}, m - \frac{Σ_{l = t}^{k} x_{π (t)}^{(i)}, m . \exp (χ_{π (t)}^{(i)})}{Σ_{l = t}^{k} \exp (χ_{π (t)}^{(i)})}), m = 1,2,3;

(2)判断||Δλ||≥ε是否成立；

(3)如果不等式成立，则回溯直线查找发现一个步长值t，更新λ值(λ＝λ-tΔλ)，并对λ值正规化，然后返回步骤(2)；

(4)如果不等式不成立，则返回线性融合参数λ；

其中，λ值的初始值为[0，1]间的随机数，ε取0.0001。

又一方面，本发明提供了一种社会标签自动标注器，包括：

网页数据集初始化装置，用于初始化网页数据集，形成对应的词项空间和标签空间；所述网页数据集由已经被用户标注的网页组成，并被分为训练集R和R’；

权重计算装置，用于对训练集R’中的每个网页，计算所述标签空间中每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量τ_i，j，ζ_i，j，ρ_i，j分别为基于训练集R和R’，利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值；

线性融合参数估计装置，用于建立线性融合权值模型：

X_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot X_{π (j)}^{(i)},

标签标注装置，用于根据所估计的参数，计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值，按该权值的大小自动生成用于标注该网页的标签项序列。

上述社会标签自动标注器中，所述网页数据集初始化装置包括：

用于基于词袋模型对网页数据集进行处理，形成对应的词项空间V和标签空间U的装置；

用于在词项空间V和标签空间U的基础上，将网页数据集中的每个网页表示为一个二元组(w_i，t_i)的装置，其中w_i∈V，t_i∈U，矢量w_i的元素w_i，j表示词项在网页i中出现的次数，矢量t_i的元素t_i，k表示标签在网页i中标注过的次数。

上述社会标签自动标注器中，所述网页数据集初始化装置还包括用于对网页数据进行降噪处理，过滤掉少于100个用户标注的网页的装置。

上述社会标签自动标注器中，所述线性融合参数估计装置包括：用于建立线性融合权值模型

X_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot X_{π (j)}^{(i)}

的装置；

用于在训练集R’上建立似然函数L的装置，其中

L = Σ_{i = 1}^{| | R^{'} | |} \ln P^{(i)} (π | χ) = Σ_{i = 1}^{| | R^{'} | |} Σ_{t = 1}^{k} (χ_{π (t)}^{(i)} - \ln Σ_{l = t}^{k} \exp (χ_{π (l)}^{(i)}))

其中，

p^{(i)} (π | χ) = Π_{j = 1}^{k} \frac{\exp (χ_{π (j)}^{i})}{Σ_{t = j}^{k} \exp (χ_{π (t)}^{i})},

||R’||表示训练集R’的大小；估计参数λ的装置，其用于：

(1)选择一个初始的λ值，作如下计算：

Δλ = \frac{- &PartialD; L}{{&PartialD; λ}_{m}} = - \underset{i}{Σ} \underset{t}{Σ} (x_{π (t)}^{(i)}, m - \frac{Σ_{l = t}^{k} x_{π (t)}^{(i)}, m . \exp (χ_{π (t)}^{(i)})}{Σ_{l = t}^{k} \exp (χ_{π (t)}^{(i)})}), m = 1,2,3;

(2)判断||Δλ||≥ε是否成立；

(4)如果不等式不成立，则返回线性融合参数λ；

其中，λ值的初始值为[0，1]间的随机数，ε取0.0001。

与现有技术相比，本发明的优点在于：

同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性，因此能够提高社会标签自动标注的准确性。从实验结果也可以看出通过本发明的实施例提供的自动进行社会标签标注的方法相比现有的方法在社会标签自动标注方面显著的优越性。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的社会标签自动标注的方法的流程示意图；

图2为一致性话题模型Corr-LDA的示意图；

图3为根据本发明实施例的梯度下降算法估计线性融合参数的流程图；

图4(a)为根据本发明实施例的社会标签自动标注与现有方法在Top-k准确率比较结果示意图；

图4(b)为根据本发明实施例的社会标签自动标注与现有方法在Exact-k准确率比较结果示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1描述了社会标签自动标注的方法的一个实施例的流程示意图。该方法包括初始化数据集；计算标签词项在文档中的频率(TF)权重，以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重，并归一化；建立线性融合权值模型(也可以简称为线性融合模型或融合模型)，并估计线性融合参数(也可以简称为融合参数)；基于线性融合模型对社会标签进行自动标注。下面将结合一个基于Del.icio.us网站语料库的实例对社会标签自动注的方法的一个实施例进行更详细的讨论。在这个实施例中的语料库来自于Del.icio.us网站2008年10月至2008年11月的数据，包含825,402个用户在带有5,916,196个标签的57,813,581个不同的URL上标注的167,958,659个标记。

步骤1，初始化数据集，

初始化数据集主要包括对原始网页数据集进行降噪处理，过滤掉被很少用户标注过的网页；将数据集划分成两个集合，即训练集R和测试集D，同时在训练集R中随机抽取部分网页作为训练线性融合模型的训练集R’；而所述测试集D用于对比不同的标注方法的实验。然后，对所有数据集中的词项和网页标注信息分别进行后缀剥离和词干还原，形成对应的词项空间V和标签空间U；接着，在词项空间V和标签空间U的基础上，将训练集中的网页矢量化，即将每个网页表示为一个二元组(w_i，t_i)，其中w_i∈V，t_i∈U，矢量w_i的元素w_i，j表示词项在网页i中出现的次数，同理，矢量t_i的元素t_i，k表示标签在网页i中标注过的次数。

在本实施例中，利用已知的混合爬取策略在网站Del.icio.us上爬取的大量网页作为原始数据集，并对其进行降噪处理，过滤掉少于100个用户标注的网页。在得到的数据集60,000个网页中将50,000个网页作为训练集R，另外的10,000个网页作为测试集D，同时在训练集R中随机抽取10,000个网页作为训练线性融合模型的训练集R’。训练集R、测试集D中所有的网页都顺次分配一个能唯一标识的网页ID(从1开始，依此累加)，以便于后续处理。然后，基于“词袋”模型对网页中的词项和网页标注信息分别进行后缀剥离和词干还原，形成对应的词项空间V和标签空间U，处理结果为词项空间V包含67,146个词项，标签空间U包含12，669个标签项。最后，在词项空间V和标签空间U的基础上，将训练集R中的网页矢量化，即将每个网页表示为一个二元组(w_i，t_i)，其中w_i∈V，t_i∈U，矢量w_i的元素w_ij表示词项在网页i中出现的次数，同理，矢量t_i的元素t_ik表示标签在网页i中标注过的次数。

步骤2，对于训练集R’中每个网页i，分别计算在所述标签空间中每个标签j对于该网页i的归一化的TF权重值τ_i，j、CF权重值ζ_i，j、Corr-LDA权重值ρ_i，j。

为了下文与其他方法对比效果的方便，下面以测试集D中的ID为90的网页为例来进行说明。训练集R’中每个网页的操作与其相同。另外需要说明的是，网页中不同的词项和标签往往比较多，因此限于书写空间，仅列出排在前10(top-10)的具有代表性的数据，即top-K取为top-10，其他数据的计算可依此类推。

步骤2-1)，使用如下公式来计算归一化的TF权重值τ_i，j：

其中k表示词项出现在前k项标签列表的位置。

以测试集D中的ID为90的网页为例，计算#90网页的w_i，j(i＝90)，即对于#90网页内容中词频排在前十位，并且存在于标签空间U的词项的频次进行归一化处理。这里的归一化处理就是将符合条件的某一词项的词频数除以所有符合条件的词项的词频数总和。如网页#90中符合条件的词项和词频如下表。

\underset{10}{Σ} w_{90,10 = (35 + 26 + 22 + 19 + 17 + 16 + 4 + 4 + 3 + 2) = 148}

由此可得相应各词项的相应TF权重值τ_90，j：

步骤2-2)，计算归一化CF权重值ζ_i，j，主要包括以下步骤：

a)首先计算网页间基于网页内容的相似度，用向量空间的余弦相似度表示：

{Sim}_{i, j} = \frac{w_{i} \cdot w_{j}}{| | w_{i} | | | | w_{j} | |}

计算训练集R’中每个网页与数据集R-R’后的所有网页的余弦相似度，由大到小排序，找出排名前50的值，即对应R’中当前网页的50个近邻网页。以#90网页为例，计算它与#1网页的余弦相似度。#90网页向量表示w₉₀＝(0，...，0，1，0，...5，...)，其中每i个元素项表示词项i在#90网页中出现的次数，同此，#1网页向量表示w₁＝(0，...，2，0，0，...23，...)，代入余弦相似度的计算公式

{Sim}_{i, j} = \frac{w_{i} \cdot w_{j}}{| | w_{i} | | | | w_{j} | |},

其中i，j分别为90和1，可得Sim_90，1＝0.333513。依次计算#90网页与其他每一个网页的余弦相似度后排序，可得到其50个近邻的网页ID分别为：40176，13065，48800，15291，5616，...，39499，5473，19853，44946，8238。

b)计算标签重要性的标示指标p_i，j：

p_{i, j} = \frac{t_{i, j}}{\underset{1 &Element; U}{Σ} t_{i, 1}}

即用标签项j在当前网页i的标注次数除以所有标签项在当前网页i的标注次数总和。例如网页#90的所有标签项标注次数为(11+35+5+...+48+5)＝426，其中标签项#9标注次数是35，则p_90，9＝35/426＝0.08216；依此可以计算每个标签项在当前网页#90的标签重要性的标示指标p_90，j。同理可以计算出网页#90的50个近邻网页的标签重要性的标示指标p_i，j(其中i属于网页#90的50个近邻网页ID)。

c)计算基于协同过滤(CF)方法产生的标签权重r_i，j：

r_{i, j} = \underset{k &Element; k_{i}}{Σ} (p_{k, j} \times s_{i, k} \times \log \underset{1 &Element; U}{Σ} t_{k, 1})

其中k_i指网页i的近邻网页集合(这里以取50个近邻为例)，S_i，k表示CF方法中当前网页i与其近邻网页k的相似度，以如下公式进行计算：

s_{i, k} = \frac{{Sim}_{i, k}}{\underset{k^{'} &Element; k_{i}}{Σ} {Sim}_{i, k^{'}}}

这样，计算式中各项都可依照前面步骤计算得出。如计算网页#90的r_90，j后，排序的前10位分别为

即通过CF方法得到网页#90的推荐top-10标签为secure，password，tool，software，window，hack，firefox，howto，tip，recovery。同理可得到其推荐top-K标签。

d)计算归一化CF权重ζ_i，j：

其中k表示标签项出现在前k项标签列表的位置。

在本实施例中，只需计算处于其推荐top-K中的标签项，其他标签项的相应参数值取0。处于其推荐top-K中的标签项的CF权重值ζ_i，j等于每一个标签项的r_i，j值除以所有处于其推荐top-K中的标签项的r_i，j值的总和。如网页#90的CF权重值ζ_90，j以top-10为例，首先计算推荐top-10标签项的r_i，j值的总和(1.32354+0.400672+0.289863+0.223276+0.214289+0.169809+0.15723+0.14299+0.119932+0.106532)＝3.148133，然后可得ζ_90，secure＝1.32354/3.148133＝0.420421，同理可计算其他标签项的CF权重值ζ_90，j。

步骤2-3)计算归一化Corr-LDA权重值ρ_i，j，主要包括以下步骤：

(1)构建Corr-LDA模型(如图2所示，可参阅参考文献5)，

首先，计算网页i包含的全部词项数目N_i和全部标签数目M_i，其中，

N_{i} = \underset{j &Element; V}{Σ} w_{i, j}

对于每个N_i中的词项w_n提取对应的主题分配z_n～Multinomial(θ)提取词项w_n～p(w_n|z_n，β)，

M_{i} = \underset{j &Element; U}{Σ} t_{i, j}

对于每个M_i中的标签项t_m提取索引序列y_m～Unif(1，...，N)提取标签项t_m～p(t_m|y_m，z，η)

例如，网页#90的词项总数为

N_{90} = \underset{j &Element; V}{Σ} w_{90, j} = (2 + 8 + . . . + 1 + 1) = 1563

以及

网页#90的标签项总数为

M_{90} = \underset{j &Element; U}{Σ} t_{90, j} = (2 + 5 + . . . + 4 + 4) = 505 .

接着，按照Corr-LDA模型提取主题比例θ～Dir(α)：

p (θ | α) = \frac{Γ (Σ_{i = 1}^{K} α_{i})}{Π_{i = 1}^{K} Γ (α_{i})} {θ_{1}}^{α_{1} - 1} . . . {θ_{K}}^{αK - 1}

在本实施例中，K＝300。

(2)进行参数估计

首先，建立极大似然函数。

在给定参数α，β和η后，可得到一个二元组(w，f)的边缘分布为：

p (w, t | α, β, η) = &Integral; p (θ | α) (Π_{n = 1}^{N} Σ_{z_{n}} p (z_{n} | θ) p (w_{n} | z_{n}, β))

(Π_{m = 1}^{M} Σ_{y_{m}} p (y_{m} | N) p (t_{m} | y_{m}, z, η)) dθ

由此可得似然函数：

p (R | α, β, η) = Π_{i = 1}^{D} &Integral; p (θ_{i} | α) (Π_{n = 1}^{N_{i}} Σ_{z_{in}} p (z_{in} | θ_{i}) p (w_{in} | z_{in}, β))

(Π_{m = 1}^{M_{i}} Σ_{y_{mi}} p (y_{im} | N_{i}) p (t_{im} | y_{im}, z_{i}, η)) d θ_{i}

然后，利用变分EM法估计参数。

给定潜在变量的概率分布：

其中自由变量参数γ是一个K维的狄利克雷参数，φ_n是N中K维多项参数，φ_m是M中K维多项参数。

让β_iv表示概率p(w^v _n|z_n＝i，β)的值，则变分EM法估计参数的过程为迭代调用如下三个等式，直到KL散度收敛。

γ_{i} = α_{i} + Σ_{n = 1}^{N} φ_{ni}

通过上述变分EM法，基于训练数据集R-R’上的学习，获得参数γ_i，的估计。

下表给出了训练后，其中5个话题(topic)的词项(word)和标签(tag)的排列情况。

(3)利用所得到的估计参数，通过下式：

可得到Corr-LDA模型对网页#90的标签项预测概率结果：

(4)计算Corr-LDA权重值ρ_i，j

其中k表示标签项出现在前k项标签列表的位置。

在本实施例中，通过上述概率结果可计算得出Corr-LDA权重值ρ_i，j。处于其推荐top-10中的标签项的Corr-LDA权重值ρ_i，j等于每一个标签项的p(t_i，j|w_i)值除以所有处于其推荐top-10中的标签项的p(t_i，j|w_i)值的总和。如网页#90的Corr-LDA权重值ρ_90，j，以top-10为例。首先计算推荐top-10标签项的p(t_i，j|w_i)值的总和(0.149007+0.0738018+...+0.0321281+0.0174572)＝0.536027，然后可得ρ_90。secure＝0.149007/0.536027＝0.137683，同理可计算其他标签项的Corr-LDA权重值ρ_90，j。而非top-10的标签项的Corr-LDA权重值ρ_90，j均取值为零。

应指出，在上述步骤2中所采用的公式及其中的变量和符号的含义可参见上文提及的参考文献2、参考文献3和参考文献5。

步骤3，建立线性融合权值模型，并基于训练集R’估计融合参数

步骤3-1)按照步骤2给出的方法计算得出融合模型的训练集R’中的所有网页的TF、CF和Corr-LDA的归一化权值。令标签j对于网页i的权值向量为：

x_{j}^{(i)} = {[τ_{i, j}, ζ_{i, j}, ρ_{i, j}]}^{T}

其中，τ_i，j通过统计网页i中的词频归一化后直接获得；ζ_i，j按照步骤2-2介绍的方法从集合R-R’中获取50个近邻后计算得到；ρ_i，j直接通过将网页的特征向量w_i代入步骤2-3训练获得的Corr-LDA模型计算得到。

如标签“jquery”对于网页#11的权值向量的计算结果如下：

x_{jquery}^{(11)} = {[0.228158,0.401349,0.136817]}^{T} .

步骤3-2)建立线性融合模型

通过步骤3-1得到每个标签对于训练集R’的网页i的三个权值序列，并对每一个权值序列由大到小分别排序。然后，从三个有序序列中分别取前k个标签的权值，得到x⁽ⁱ⁾ _π(j)(j＝1...k)。其中，π表示标签项的一种序列，π(j)表示标签项π(j)处于序列的第j位。

则，线性融合权值x⁽ⁱ⁾ _π(j)定义为：

X_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot X_{π (j)}^{(i)},

模型的参数为λ＝[λ₁，λ₂，λ₃]。

步骤3-3)线性融合模型参数估计

(1)在训练集R’上建立似然函数：

L = Σ_{i = 1}^{| | R^{'} | |} \ln P^{(i)} (π | χ) = Σ_{i = 1}^{| | R^{'} | |} Σ_{t = 1}^{k} (χ_{π (t)}^{(i)} - \ln Σ_{l = t}^{k} \exp (χ_{π (l)}^{(i)})),

其中，

P^{(i)} (π | χ) = Π_{j = 1}^{k} \frac{\exp (χ_{π (j)}^{(i)})}{Σ_{t = j}^{k} \exp (χ_{π (t)}^{(i)})}

为网页i的标签序列的枚举概率模型，

||R’||表示数据集R’的大小，在本实施例中，其值为10000。

(3)利用图3所示的梯度下降算法对线性融合模型的参数λ_i(i＝1，2，3)(为了方便，可简称为线性融合参数或者融合参数)进行估计。

设定一个很小的正数ε(一般设置为0.0001)作为梯度下降法迭代的收敛终止条件。如图3所示的梯度下降算法包括以下步骤：

1)选择一个初始的λ值，接着做如下计算：

Δλ = \frac{- &PartialD; L}{{&PartialD; λ}_{m}} = - \underset{i}{Σ} \underset{t}{Σ} (x_{π (t)}^{(i)}, m - \frac{Σ_{l = t}^{k} x_{π (t)}^{(i)}, m . \exp (χ_{π (t)}^{(i)})}{Σ_{l = t}^{k} \exp (χ_{π (t)}^{(i)})}), m = 1,2,3

2)判断||Δλ||≥ε是否成立。

3)如果不等式成立，则回溯直线查找发现一个步长值t，更新λ值(λ＝λ-tΔλ)，并对λ值正规化，然后返回步骤(2)。

4)如果不等式不成立，则返回融合参数λ

在本实施例中，计算的最终结果为λ＝[0.305，0.268，0.427]。

步骤4，基于线性融合权值模型来进行自动的社会标签标注。

也就是，利用融合参数λ_i(i＝1，2，3)计算标签j对于网页i的线性融合权值

(χ_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot X_{π (j)}^{(i)}),

按照线性融合权值的从大到小排序后，依次进行自动推荐。

针对测试集D的每一个网页进行线性融合权值的计算，将计算结果降序排列后得到其预测标注标签的Top-N。以测试集D中的网页#90为例，用线性融合式对其标签项进行处理后的结果为：

将网页#90的TF、CF、Corr-LDA以及本发明的融合模型所得到的前10个自动生成的标签列于下表，其中User行数据指的是测试集网页#90的用户标注结果。

在又一个实施例中，提供了一种社会标签自动标注器，包括网页数据集初始化装置、权重计算装置、线性融合参数估计装置以及标签标注装置。其中，网页数据集初始化装置用于初始化网页数据集，形成对应的词项空间和标签空间；所述网页数据集由已经被用户标注的网页组成，并被分为训练集R和R’。权重计算装置用于对训练集R’中的每个网页，计算所述标签空间中每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量τ_i，j，ζ_i，j，ρ_i，j分别为基于训练集R和R’，利用上文提到的词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值。线性融合参数估计装置用于建立线性融合权值模型：

X_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot X_{π (j)}^{(i)},

并且基于训练集R’对参数λ＝[λ₁，λ₂，λ₃]进行估计，其中π表示对于网页i的一种标签项序列，标签项π(j)处于该序列的第j位。标签标注装置用于根据所估计的参数，计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值，按该权值的大小自动生成用于标注该网页的标签项序列。

网页数据集初始化装置包括用于基于词袋模型对网页数据集进行处理，形成对应的词项空间V和标签空间U的装置；用于在词项空间V和标签空间U的基础上，将网页数据集中的每个网页表示为一个二元组(w_i，t_i)的装置，其中w_i∈V，t_i∈U，矢量w_i的元素w_i，j表示词项在网页i中出现的次数，矢量t_i的元素t_i，k表示标签在网页i中标注过的次数。网页数据集初始化装置还包括用于对网页数据进行降噪处理，过滤掉少于100个用户标注的网页的装置。

线性融合参数估计装置包括用于建立线性融合权值模型

X_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot X_{π (j)}^{(i)}

的装置；用于在训练集R’上建立似然函数L的装置，以及利用上文提到的梯度下降法估计参数λ的装置，其中，

L = Σ_{i = 1}^{| | R^{'} | |} \ln P^{(i)} (π | χ) = Σ_{i = 1}^{| | R^{'} | |} Σ_{t = 1}^{k} (χ_{π (t)}^{(i)} - \ln Σ_{l = t}^{k} \exp (χ_{π (l)}^{(i)}))

p^{(i)} (π | χ) = Π_{j = 1}^{k} \frac{\exp (χ_{π (j)}^{i})}{Σ_{t = j}^{k} \exp (χ_{π (t)}^{i})},

||R’||表示训练集R’的大小。

性能分析

为了测试融合模型的准确性与客观性，在本申请中首先对TF、CF和Corr-LDA三个方法之间的互补性做了验证，然后将本发明的融合模型与三个方法各自独立使用的情况以及应用MM-LDA(mixedmembershipLDA)模型的情况进行了比较。

首先，将能够被TF方法正确预测而没有被Corr-LDA模型预测中的标签数量与总的预测标签量的比例定义为TF方法相对于Corr-LDA模型的互补值，公式如下：

N_tf，cl/K

其中N_tf，cl表示被TF方法正确预测而没有被Corr-LDA模型预测中的标签数，K的值表示总的预测标签数。依次类推可以定义其他方法对的互补值。在训练集R’和测试集D上进行训练和评估后(K取值10)，可得到三个方法间的互补值，如表1所示：

表1TF、CF和Corr-LDA三个方法间的互补值

从表中可以看到，使用CF和Corr-LDA相对基本的TF方法的互补值高于0.3，而反之也有互补值将近0.1，所以三者之间没有哪一个方法具有压倒性优势的，相互之间是存在互补关系的。

在训练集R’和测试集D上分别应用TF、CF、Corr-LDA、MM-LDA方法与本文所讨论的社会标签自动标注方法进行比较，并按照参考文献6(Song，Y.，Zhuang，Z.，Li，H.，Zhao，Q.，Li，J.，Lee，W.-C.，andGiles，C.L.2008.Real-timeautomatictagrecommendation.InSIGIR’08：Proceedingsofthe31stannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.515-522.al.2008)中提出的几个指标----Top-k准确率，Exact-k准确率，Tag召回率，Tag正确率进行统计，可得到如下数据(空间所限，只列出了Top-10)。

表2上述几种方法的效果比较(top-k和exact-k列的数据省略了％)

图4(a)和图4(b)所示的分别是以直方图的形式统计Top-k和Exact-k的准确率。

从实验结果可以看到通过本发明的实施例提供的自动进行社会标签标注的方法相比现有的方法在社会标签自动标注方面显著的优越性。这是由于本发明提供的社会标签自动标注方法考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性，因此能够提高社会标签自动标注的准确性。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种社会标签自动标注的方法，所述方法包括：

步骤2)对于训练集R’中的每个网页，计算所述标签空间中每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量τ_i,j,ζ_i,j,ρ_i,j分别为基于训练集R和R’，利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值；

步骤3)建立线性融合权值模型

χ_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot x_{π (j)}^{(i)},

并且基于训练集R’对参数λ＝[λ₁,λ₂,λ₃]进行估计，其中π表示对于网页i的一种标签项序列，标签项π(j)处于该序列的第j位；

2.根据权利要求1所述的方法，其中步骤1)包括以下步骤：

步骤12)在词项空间V和标签空间U的基础上，将网页数据集中的每个网页表示为一个二元组(w_i，t_i)，其中w_i∈V，t_i∈U，矢量w_i的元素w_i,j表示词项v_j在网页i中出现的次数，矢量t_i的元素t_i,k表示标签u_k在网页i中标注过的次数，v_j表示词项空间V中第j个词项，u_k表示标签空间U中第k个标签。

3.根据权利要求2所述的方法，其中在步骤11)之前还包括对网页数据进行降噪处理，过滤掉少于100个用户标注的网页的步骤。

4.根据权利要求1或2所述的方法，步骤3)采用梯度下降法来基于训练集R’对参数λ＝[λ₁,λ₂,λ₃]进行估计。

5.根据权利要求4所述的方法，其中步骤3)中包括以下步骤：

步骤31)对通过步骤2得到每个标签对于训练集R’的网页i的三个权值序列中的每一个权值序列由大到小分别排序，从这三个有序序列中分别取前k个标签的权值，得到x⁽ⁱ⁾ _π(j)(j＝1…k)，以及建立线性融合权值模型

χ_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot x_{π (j)}^{(i)};

步骤32)在训练集R’上建立似然函数：

L = Σ_{i = 1}^{| | R^{'} | |} \ln P^{(i)} (π | χ) = Σ_{i = 1}^{| | R^{'} | |} Σ_{t = 1}^{k} (χ_{π (t)}^{(i)} - l n Σ_{l = t}^{k} \exp (χ_{π (l)}^{(i)}))

其中，||R’||表示训练集R’的大小；

步骤33)对于参数λ执行以下步骤：

(1)选择一个初始的λ值，作如下计算：

Δ λ = \frac{- \partial L}{\partial λ_{m}} = - \underset{i}{Σ} \underset{t}{Σ} (x_{π (t)}^{(i)}, m - \frac{Σ_{l = t}^{k} x_{π (t)}^{(i)}, m . \exp (χ_{π (t)}^{(i)})}{Σ_{l = t}^{k} \exp (χ_{π (t)}^{(i)})}), m = 1, 2, 3;

(2)判断||Δλ||≥ε是否成立；

(4)如果不等式不成立，则返回线性融合参数λ；

其中，λ值的初始值为[0,1]间的随机数，ε取0.0001。

6.一种社会标签自动标注器，包括：

权重计算装置，用于对训练集R’中的每个网页，计算所述标签空间中每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量τ_i,j,ζ_i,j,ρ_i,j分别为基于训练集R和R’，利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值；

线性融合参数估计装置，用于建立线性融合权值模型：

χ_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot x_{π (j)}^{(i)},

7.根据权利要求6所述的社会标签自动标注器，其中，所述网页数据集初始化装置包括：

用于在词项空间V和标签空间U的基础上，将网页数据集中的每个网页表示为一个二元组(w_i，t_i)的装置，其中w_i∈V，t_i∈U，矢量w_i的元素w_i,j表示词项v_j在网页i中出现的次数，矢量t_i的元素t_i,k表示标签u_k在网页i中标注过的次数，v_j表示词项空间V中第j个词项，u_k表示标签空间U中第k个标签。

8.根据权利要求7所述的社会标签自动标注器，其中，所述网页数据集初始化装置还包括用于对网页数据进行降噪处理，过滤掉少于100个用户标注的网页的装置。

9.根据权利要求6或7所述的社会标签自动标注器，其中，所述线性融合参数估计装置包括：

用于对所得到每个标签对于训练集R’的网页i的三个权值序列中的每一个权值序列由大到小分别排序，从这三个有序序列中分别取前k个标签的权值，得到x⁽ⁱ⁾ _π(j)(j＝1…k)，以及建立线性融合权值模型

χ_{π (j)}^{(i)} = λ_{1} τ_{i, π (j)} + λ_{2} ζ_{i, π (j)} + λ_{3} ρ_{i, π (j)} = λ^{T} \cdot x_{π (j)}^{(i)}

的装置；

用于在训练集R’上建立似然函数L的装置，其中

L = Σ_{i = 1}^{| | R^{'} | |} \ln P^{(i)} (π | χ) = Σ_{i = 1}^{| | R^{'} | |} Σ_{t = 1}^{k} (χ_{π (t)}^{(i)} - l n Σ_{l = t}^{k} \exp (χ_{π (l)}^{(i)}))

其中，||R’||表示训练集R’的大小；

估计参数λ的装置，其用于：

(1)选择一个初始的λ值，作如下计算：

Δ λ = \frac{- \partial L}{\partial λ_{m}} = - \underset{i}{Σ} \underset{t}{Σ} (x_{π (t)}^{(i)}, m - \frac{Σ_{l = t}^{k} x_{π (t)}^{(i)}, m . \exp (χ_{π (t)}^{(i)})}{Σ_{l = t}^{k} \exp (χ_{π (t)}^{(i)})}), m = 1, 2, 3;

(2)判断||Δλ||≥ε是否成立；

(4)如果不等式不成立，则返回线性融合参数λ；

其中，λ值的初始值为[0,1]间的随机数，ε取0.0001。