CN102929975A

CN102929975A - 基于文档标签表征的推荐方法

Info

Publication number: CN102929975A
Application number: CN2012103918016A
Authority: CN
Inventors: 袁通; 刘志镜; 王静; 权江; 刘慧�; 姚勇; 屈鉴铭; 贺文骅; 王纵虎
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2012-10-15
Filing date: 2012-10-15
Publication date: 2013-02-13

Abstract

本发明公开了一种基于文档标签表征的推荐方法，主要解决现有推荐方法建模复杂、效果较差，方法不够准确、较依赖标签结构的问题。其技术方案为：（1）从数据库中读入书签信息；（2）根据读入的信息，初始化相关矩阵；（3）将矩阵进行标准化处理；（4）生成相似度矩阵；（5）选择推荐内容，得到权重矩阵；（6）根据权重矩阵，完成标签推荐、文档推荐、用户推荐；（7）计算书签权重值；（8）选择权值较大的标签作为索引，以提高搜索效率。本发明采用了一种新型的框架，建模简单、有较好的准确性，受标签结构影响较小，可以应用于数据挖掘、解决信息超载。

Description

基于文档标签表征的推荐方法

技术领域

本发明属于计算机技术领域，更进一步涉及文档、标签、用户的推荐方法。可以应用于数据挖掘、解决信息超载和海量数据处理。

背景技术

推荐，是指在网络中根据用户的兴趣特点和需求，向用户推荐用户感兴趣的信息。随着互联网规模的不断扩大，信息个数和种类快速增长，用户需要花费大量的时间才能找到自己需要的信息。这种浏览大量无关的信息的过程会增加用户大量不必要的消耗。

互联网技术的迅速发展使得大量的信息同时呈现在我们面前，传统的方法无法针对不同用户的兴趣爱好提供相应的服务。信息的爆炸使得信息的利用率反而降低，这种现象被称之为信息超载。个性化推荐，包括个性化搜索，被认为是当前解决这个问题最有效的工具之一。

个性化推荐是建立在海量数据挖掘基础上的一种高级智能平台，以帮助互联网网站为其用户提供个性化的信息服务。

Social Bookmark，社会化书签，可以将网站随时加入自己的网络书签中；用多个关键词标示和整理书签，并与人共享。2004年起Web出现的一种新的内容标引方法。相对于专业的编目和用户提供元数据的现行方式，社会书签以其方便实用而备受人们的关注和喜爱，被认为是下一代的Web信息基础设施。

社会化书签在Web2.0时代占用非常重要的地位，社会化书签对信息共享、改进搜索都用重要的意义。与传统的系统相比，社会化书签系统的用户可以选择自己喜好的词条对感兴趣的文档进行描述，这就使社会化书签系统有了较好的柔韧性。社会化书签可以应用于加强传统的信息检索、标签推荐、用户推荐、文档推荐。与传统的以文档为中心的系统相比，社会化书签系统将用户、描述文档的标签考虑在内。

个性化推荐的常用方法有基于关联规则的推荐算法、基于内容的推荐算法、协同过滤算法。以社会化书签为基础的文档表征推荐方法也是其中一种方法，它通过用户给文档进行标识，然后计算各个类别的权重，可以进行用户推荐、文档推荐和标签推荐。

用户、标签、文档是社会化书签的三个要素。用户推荐：给定一个文档和若干标签，系统会推荐出对此文档感谢兴趣的用户。标签推荐：给定一个文档和使用这个文档的用户，系统会推荐给用户一个或者多个标签来描述该文档。文档推荐：跟定用户和用户感兴趣的标签，系统推荐出符合标签的内容的文档。在推荐算法中分析各个用户、标签和文档的使用情况，分别进行权重的排序，根据权重的排序进行标签推荐、用户推荐、文档推荐。同时根据社会化书签的排序完成搜索性能的加强。

Bischoff等人在“Can All Tags be Used for Search?”一文中提出有效的标签可以提高整个搜索的效率。但不是所有的标签可以提高搜索效率，只有社会化书签中较为普遍标签才可以帮助我们提高整个的搜索效率。

Golder等人在“Usage pattern of collaborative tagging systems”一文中提出了一种对标签进行分类的方法，并且证明标签的样式和用户的知识水平也可以影响系统的搜索效率。

从已有的研究可以看出，用户给文档进行标记后，系统通过分析以往用户的标签信息和当前用户的需求，可以得到当前用户的兴趣，为当前用户推荐其感兴趣的信息。然而由于书签自身的样式以及使用者的知识水平的差异会对推荐效果产生影响，所以现有的以社会化书签为基础的推荐方法不够精确、非常依赖标签的结构、搜索效率低。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于文档标签表征的推荐方法，以提高推荐的精度，增强搜索效率。

实现本发明目的的技术思路是：由文档、用户、标签组成书签，对书签进行编码。依照该编码方式，通过读取数据库中的内容，初始化用户标签矩阵、文档标签矩阵、文档用户矩阵。通过矩阵中元素之间的相似度与相应的初始化矩阵的乘积，得到最终的权值矩阵，以完成相关推荐和寻找最佳标签来提高搜索效率。具体步骤包括如下：

（1）从数据库中读入书签信息，并获得用户想要推荐的内容；

（2）根据读入的书签信息，初始化相关矩阵：

初始化用户标签矩阵为M_UT(i,j)，用于表示第i个用户使用第j个标签的次数，

初始化文档标签矩阵为M_DT(i,j)，用于表示第i个文档被第j个标签描述的次数，

初始化文档用户矩阵为M_DU(i,j)，用于表示第i个用户描述第j个文档的次数，

其中i和j均为大于0的整数；

（3）矩阵标准化：

使用公式

M_{UT} (p, q) = M_{UT} (i, j) \cdot \log^{- 1} (1 + \underset{k}{Σ} M_{UT} (i, k))

对用户标签矩阵进行标准化，其中M_UT(p,q)表示标准化后的用户标签矩阵，

使用公式

M_{DT} (p, q) = M_{DT} (i, j) \cdot \log^{- 1} (1 + \underset{k}{Σ} M_{DT} (i, k))

对文档标签矩阵进行标准化，其中M_DT(p,q)表示标准化后的文档标签矩阵，

使用公式

M_{DU} (p, q) = M_{DU} (i, j) \cdot \log^{- 1} (1 + \underset{k}{Σ} M_{DU} (i, k))

对文档用户矩阵进行标准化，其中M_DU(p,q)表示标准化后的文档用户矩阵；

（4）生成相似度矩阵：

4a）根据标准化后的用户标签矩阵和初始用户信息，计算该用户在标签空间下与其他用户的相似度，得到标签空间下用户相似度矩阵S_U|T(u₁)；根据标准化后的文档用户矩阵和初始用户信息，计算该用户在文档空间下与其他用户的相似度，得到文档空间下用户相似度矩阵S_U|D(u₁)；

4b）根据标准化后的用户标签矩阵和初始标签信息，计算该标签在用户空间下与其他标签的相似度，得到用户空间下标签相似度矩阵S_T|U(t₁)；根据标准化后的文档标签矩阵和初始标签信息，计算该标签在文档空间下与其他标签的相似度，得到文档空间下标签相似度矩阵S_T|D(t₁)；

4c）根据标准化后的文档标签矩阵和初始文档信息，计算该文档在标签空间下与其他文档的相似度，得到标签空间下文档相似度矩阵S_D|T(d₁)；根据标准化后的文档用户矩阵和初始文档信息，计算该文档在用户空间下与其他文档的相似度，得到用户空间下文档相似度矩阵S_D|U(d₁)；

（5）选择推荐内容，得到权重矩阵：

5a）对于需要进行标签推荐的用户，通过如下公式计算标签权重矩阵：

W_T(u₁,d₁)＝αS_U|T(u₁)M_UT+(1-α)S_D|T(d₁)M_DT

其中，α为比例系数，取值范围为0到1；

5b）对于需要进行用户推荐的用户，通过如下公式计算用户权重矩阵：

W_U(t₁,d₁)＝αS_T|U(t₁)M_TU+(1-α)S_D|U(d₁)M_DU

5c）对于需要进行文档推荐的用户，通过如下公式计算文档权重矩阵：

W_D(t₁,u₁)＝αS_T|D(t₁)M_TD+(1-α)S_U|D(u₁)M_UD；

（6）根据权重矩阵，得到推荐结果：

对于需要进行标签推荐的用户，将标签权重矩阵W_T(u₁,d₁)中权值最大的项作为标签推荐结果；

对于需要进行用户推荐的用户，将用户权重矩阵W_U(t₁,d₁)中权值最大的项作为用户推荐结果；

对于需要进行文档推荐的用户，将文档权重矩阵W_D(t₁,u₁)中权值最大的项作为文档推荐结果；

（7）计算书签权重值

根据步骤（5）中计算得到的标签权重矩阵、用户权重矩阵、文档权重矩阵，通过如下的公式计算书签(d₁,u₁,t₁)的权重值：

w(d₁,u₁,t₁)＝γ₁W_T(u₁,d₁)[t₁]+γ₂W_U(t₁,d₁)[u₁]+γ₃W_D(t₁,u₁)[d₁]

其中，W_T(u₁,d₁)[t₁]表示在标签权重矩阵中标签t₁的权重，W_U(t₁,d₁)[u₁]表示在用户权重矩阵中用户u₁的权重，W_D(t₁,u₁)[d₁]表示在文档权重矩阵中文档d₁的权重；γ₁表示W_T(u₁,d₁)[t₁]的比例系数，γ₂表示W_U(t₁,d₁)[u₁]的比例系数，γ₃表示W_D(t₁,u₁)[d₁]的比例系数，γ₁、γ₂、γ₃的取值范围均为0到1且γ₁+γ₂+γ₃=1；

（8）根据得到的书签权重，权值较大的书签对文档信息有较好的区分度，选择权值较大的标签作为搜索标签内容，提高了搜索效率。

本发明与现有技术相比具有如下优点：

第一，本发明在进行推荐时，读入系统中用户标记文档的信息和所需推荐的内容，根据初始信息建立初始矩阵，将初始矩阵标准化，然后生成相似度矩阵，最后生成标签权重矩阵、文档权重矩阵、用户权重矩阵，可以完成标签推荐、文档推荐、用户推荐，克服了现有推荐系统建模复杂、效果较差的缺点，使本发明在推荐时有较好的准确性。

第二，本发明在计算社会化书签权重时，采用一种新型的框架，即通过标签权重矩阵、用户权重矩阵、文档权重矩阵计算书签的权重，得到标签的权重值，选择权值较大的标签作为搜索标签内容，提高了搜索效率。

以下结合附图对本发明作进一步详细描述。

附图说明

图1是本发明的流程图；

图2是本发明读入的书签信息示意图。

具体实施方式

参照图1，本发明的实施步骤如下：

步骤1，从数据库中读入书签信息，如图2所示。

从图2可得到的书签信息如下：

b₁＝(d₁,u₁,t₂)，

b₂＝(d₁,u₁,t₁)，

b₃＝(d₁,u₂,t₂)，

b₄＝(d₂,u₂,t₁)，

b₅＝(d₁,u₃,t₂)，

b₆＝(d₂,u₃,t₁)，

其中，b₁表示用户u₁使用标签t₂描述文档d₁，b₂表示用户u₁使用标签t₁描述文档d₁，b₃表示用户u₂使用标签t₂描述文档d₁，b₄表示用户u₂使用标签t₁描述文档d₂，b₅表示用户u₃使用标签t₂描述文档d₁，b₆表示用户u₃使用标签t₁描述文档d₂。

步骤2，根据读入的书签信息，初始化相关矩阵。

初始化用户标签矩阵为M_UT，其中，矩阵中每一项元素M_UT(i,j)表示第i个用户使用第j个标签的次数；

M_{UT} = |\begin{matrix} 1 & 1 \\ 1 & 1 \\ 1 & 1 \end{matrix}|;

初始化文档标签矩阵为M_DT，其中，矩阵中每一项元素M_DT(i,j)表示第i个文档被第j个标签描述的次数；

M_{DT} = |\begin{matrix} 1 & 3 \\ 2 & 0 \end{matrix}|;

初始化文档用户矩阵为M_DU，其中，矩阵中每一项元素M_DU(i,j)表示第i个用户描述第j个文档的次数；

M_{DU} = |\begin{matrix} 2 & 1 & 1 \\ 0 & 1 & 1 \end{matrix}| .

步骤3，矩阵标准化，根据公式对以上三个矩阵进行如下标准化处理，即：

M_{UT} = |\begin{matrix} 0.63 & 0.63 \\ 0.63 & 0.63 \\ 0.63 & 0.63 \end{matrix}|,

M_{DT} = |\begin{matrix} 0.43 & 1.29 \\ 1.26 & 0 \end{matrix}|,

M_{DU} = |\begin{matrix} 0.86 & 0.43 & 0.43 \\ 0 & 0.63 & 0.63 \end{matrix}| .

步骤4，生成相似度矩阵。

4a）根据标准化后的用户标签矩阵M_UT和初始用户信息，计算用户u_m在标签空间下与其他用户的相似度S_U|T(u_m)，生成相似度矩阵：

S_U|T(u_m)＝{S_U|T(u_m)[u₁],S_U|T(u_m)[u₂],...,S_U|T(u_m)[u_n]}

其中，u_m表示第m个用户，表示在标签空间下用户u_m与用户u_i的相似度；

式中，i=1…n，n表示用户的数量；

表示在M_UT矩阵中标签空间T下向量u_m与标签空间T下向量u_i的余弦相似度；β表示整个架构的缩放比例参数，β＝0时认为所有向量是独立的，β→∞时认为所有向量都是相同的，这里取β＝1.0。

由此可以得到不同用户在标签空间下与其他用户的相似度：

第一个用户u₁在标签空间下与其他用户的相似度：S_U|T(u₁)＝(1,1,1)

第二个用户u₂在标签空间下与其他用户的相似度：S_U|T(u₂)=(1，l，1)

第三个用户u₃在标签空间下与其他用户的相似度：S_U|T(u₃)=(1，l，1)

4b)根据标准化后的用户文档矩阵M_UD和初始用户信息，计算用户u_m在文档空间下与其他用户的相似度S_U|D(u_m)，生成相似度矩阵：

S_U|D(u_m)={S_U|D(u_m)[u₁]，S_U|D(u_m)[u₂]，…，S_U|D(u_m)[u_n]}

其中，u_m表示第m个用户，

表示在文档空间下用户u_m与用户u_i的相似度；

式中，i=1…n，n表示用户的数量；

表示在M_UD矩阵中文档空间D下向量u_m与文档空间D下向量u_i的余弦相似度；β表示整个架构的缩放比例参数，β=0时认为所有向量是独立的，β→∞时认为所有向量都是相同的，这里取β=1.0。

由此可以得到不同用户在文档空间下与其他用户的相似度：

第一个用户u₁在文档空间下与其他用户的相似度：S_U|D(u₁)=(1，0.65，0.65)

第二个用户u₂在文档空间下与其他用户的相似度：S_U|D(u₂)=(0.65，l，1)

第三个用户u₃在文档空间下与其他用户的相似度：S_U|D(u₃)=(0.65，l，1)

4c)根据标准化后的标签用户矩阵M_TU和初始标签信息，计算标签t_m在用户空间下与其他标签的相似度S_T|U(t_m)，生成相似度矩阵：

S_T|U(t_m)={S_T|U(t_m)[t₁]，S_T|U(t_m)[t₂]，…，S_T|U(t_m)[t_n]}

其中，t_m表示第m个标签，表示在用户空间下标签t_m与t_i的相似度；

式中，i=1…n，n表示标签的数量；

表示在M_TU矩阵中用户空间U下向量t_m与用户空间U下向量t_i的余弦相似度；β表示整个架构的缩放比例参数，β=0时认为所有向量是独立的，β→∞时认为所有向量都是相同的，这里取β=1.0。

由此可以得到不同标签在用户空间下与其他标签的相似度：

第一个标签t₁在用户空间下与其他标签的相似度：S_U|U(t₁)＝(1,1)

第二个标签t₂在用户空间下与其他用户的相似度：S_U|U(t₂)＝(1,1)

4d）根据标准化后的标签文档矩阵M_TD和初始标签信息，计算标签t_m在文档空间下与其他标签的相似度S_T|D(t₁)，生成相似度矩阵：

S_T|D(t_m)＝{S_T|D(t_m)[t₁],S_T|D(t_m)[t₂],…,S_T|D(t_m)[t_n]}

其中，t_m表示第m个标签，表示在文档空间下标签t_m与t_i的相似度；

式中，i=1…n，n表示标签的数量；

表示在M_TD矩阵中文档空间D下向量t_m与文档空间D下向量t_i的余弦相似度；β表示整个架构的缩放比例参数，β＝0时认为所有向量是独立的，β→∞时认为所有向量都是相同的，这里取β＝1.0。

由此可以得到不同标签在文档空间下与其他标签的相似度：

第一个标签t₁在文档空间下与其他标签的相似度：S_T|D(t₁)＝(1,0.51)

第二个标签t₂在文档空间下与其他标签的相似度：S_T|D(t₂)＝(0.51,1)

4e）根据标准化后的文档标签矩阵M_DT和初始文档信息，计算该文档在标签空间下与其他文档的相似度，生成相似度矩阵：

S_D|T(d_m)＝{S_D|T(d_m)[d₁],S_D|T(d_m)[d₂],…,S_D|T(d_m)[d_n]}

其中，d_m表示第m个文档，

表示在标签空间下文档d_m与d_i的相似度；

式中，i=1…n，n表示文档的数量；

表示在矩阵M_DT中标签空间T下向量d_m与标签空间T下向量d_i的余弦相似度；β表示整个架构的缩放比例参数，β＝0时认为所有向量是独立的，β→∞时认为所有向量都是相同的，这里取β＝1.0。

由此可以得到不同文档在标签空间下与其他文档的相似度：

第一个文档d₁在标签空间下与其他文档的相似度：S_D|T(d₁)＝(1,0.51)

第二个文档d₂在标签空间下与其他文档的相似度：S_D|T(d₂)＝(0.51,1)

4f）根据标准化后的文档用户矩阵M_DU和初始文档信息，计算该文档在用户空间下与其他文档的相似度，生成相似度矩阵：

S_D|U(d_m)＝{S_D|U(d_m)[d₁],S_D|U(d_m)[d₂],...,S_D|U(d_m)[d_n]}

其中，d_m表示第m个文档，

表示在用户空间下文档d_m与d_i的相似度；

式中，i=1…n，n表示文档的数量；

表示在矩阵M_DU中用户空间U下向量d_m与用户空间U下向量d_i的余弦相似度；β表示整个架构的缩放比例参数，β＝0时认为所有向量是独立的，β→∞时认为所有向量都是相同的，这里取β＝1.0。

由此可以得到不同文档在用户空间下与其他文档的相似度：

第一个文档d₁在用户空间下与其他文档的相似度：S_D|U(d₁)＝(1,0.66)

第二个文档d₂在用户空间下与其他文档的相似度：S_D|U(d₂)＝(0.66,1)

步骤5，选择推荐内容，得到权重矩阵。

5a）如果需要进行标签推荐，则将用户u_m在标签空间下的相似度矩阵S_U|T(u_m)与用户标签矩阵M_UT相乘，再将文档d_m在标签空间下的相似度矩阵S_D|T(d_m)与文档标签矩阵M_DT相乘，最后选择系数α将以上两者相加，得到用户u_m和文档d_m的标签权重矩阵W_T(u_m，d_m)，完成标签推荐：

W_T(u_m,d_m)＝αS_U|T(u_m)M_UT+(1-α)S_D|T(d_m)M_DT，α＝0.5

由此可以得到不同用户与不同文档的标签权重矩阵，即：

用户u₁和文档d₁的标签权重矩阵为：

W_{T} (u_{1}, d_{1}) = \frac{1}{2} \cdot S_{U | T} (u_{1}) M_{UT} + \frac{1}{2} \cdot S_{D | T} (d_{1}) M_{DT}

= \frac{1}{2} \cdot (1,1,1) \cdot |\begin{matrix} 0.63 & 0.63 \\ 0.63 & 0.63 \\ 0.63 & 0.63 \end{matrix}| + \frac{1}{2} \cdot (1,0.51) \cdot |\begin{matrix} 0.43 & 1.29 \\ 1.26 & 0 \end{matrix}|

= (1.48,1.59)

用户u₁和文档d₂的标签权重矩阵为：

W_{T} (u_{1}, d_{2}) = \frac{1}{2} \cdot S_{U | T} (u_{1}) M_{UT} + \frac{1}{2} \cdot S_{D | T} (d_{2}) M_{DT}

= \frac{1}{2} \cdot (1,1,1) \cdot |\begin{matrix} 0.63 & 0.63 \\ 0.63 & 0.63 \\ 0.63 & 0.63 \end{matrix}| + \frac{1}{2} \cdot (0.51,1) \cdot |\begin{matrix} 0.43 & 1.29 \\ 1.26 & 0 \end{matrix}|

= (1.69,1.28)

用户u₂和文档d₁的标签权重矩阵为：

W_{T} (u_{2}, d_{1}) = \frac{1}{2} \cdot S_{U | T} (u_{2}) M_{UT} + \frac{1}{2} \cdot S_{D | T} (d_{1}) M_{DT}

= \frac{1}{2} \cdot (1,1,1) \cdot |\begin{matrix} 0.63 & 0.63 \\ 0.63 & 0.63 \\ 0.63 & 0.63 \end{matrix}| + \frac{1}{2} \cdot (1,0.51) \cdot |\begin{matrix} 0.43 & 1.29 \\ 1.26 & 0 \end{matrix}|

= (1.48,1.59)

用户u₂和文档d₂的标签权重矩阵为：

W_{T} (u_{2}, d_{2}) = \frac{1}{2} \cdot S_{U | T} (u_{2}) M_{UT} + \frac{1}{2} \cdot S_{D | T} (d_{2}) M_{DT}

= \frac{1}{2} \cdot (1,1,1) \cdot |\begin{matrix} 0.63 & 0.63 \\ 0.63 & 0.63 \\ 0.63 & 0.63 \end{matrix}| + \frac{1}{2} \cdot (0.51,1) \cdot |\begin{matrix} 0.43 & 1.29 \\ 1.26 & 0 \end{matrix}|

= (1.69,1.28)

用户u₃和文档d₁的标签权重矩阵为：

W_{T} (u_{3}, d_{1}) = \frac{1}{2} \cdot S_{U | T} (u_{3}) M_{UT} + \frac{1}{2} \cdot S_{D | T} (d_{1}) M_{DT}

= \frac{1}{2} \cdot (1,1,1) \cdot |\begin{matrix} 0.63 & 0.63 \\ 0.63 & 0.63 \\ 0.63 & 0.63 \end{matrix}| + \frac{1}{2} \cdot (1,0.51) \cdot |\begin{matrix} 0.43 & 1.29 \\ 1.26 & 0 \end{matrix}|

= (1.48,1.59)

用户u₃和文档d₂的标签权重矩阵为：

W_{T} (u_{3}, d_{2}) = \frac{1}{2} \cdot S_{U | T} (u_{3}) M_{UT} + \frac{1}{2} \cdot S_{D | T} (d_{2}) M_{DT}

= \frac{1}{2} \cdot (1,1,1) \cdot |\begin{matrix} 0.63 & 0.63 \\ 0.63 & 0.63 \\ 0.63 & 0.63 \end{matrix}| + \frac{1}{2} \cdot (0.51,1) \cdot |\begin{matrix} 0.43 & 1.29 \\ 1.26 & 0 \end{matrix}|

= (1.69,1.28);

5b）如果需要进行用户推荐，则将标签t_m在用户空间下的相似度矩阵S_T|U(t_m)与标签用户矩阵M_TU相乘，再将文档d_m在用户空间下的相似度矩阵S_D|U(d_m)与文档用户矩阵M_DU相乘，最后选择系数α将以上两者相加，得到标签t_m和文档d_m的用户权重矩阵W_U(t_m,d_m)，完成用户推荐：

W_U(t_m,d_m)＝αS_T|U(t_m)M_TU+(1-α)S_D|U(d_m)M_DU，α＝0.5，

由此可以得到不同标签和不同文档的用户权重矩阵，即：

标签t₁和文档d₁的用户权重矩阵为：

W_{U} (t_{1}, d_{1}) = \frac{1}{2} \cdot S_{T | U} (t_{1}) M_{TU} + \frac{1}{2} \cdot S_{D | U} (d_{1}) M_{DU}

= \frac{1}{2} \cdot (1,1) \cdot |\begin{matrix} 0.63 & 0.63 & 0.63 \\ 0.63 & 0.63 & 0.63 \end{matrix}| + \frac{1}{2} \cdot (1,0.66) \cdot |\begin{matrix} 0.86 & 0.43 & 0.43 \\ 0 & 0.63 & 0.63 \end{matrix}|

= (1.06,1.05,1.05)

标签t₁和文档d₂的用户权重矩阵为：

W_{U} (t_{1}, d_{2}) = \frac{1}{2} \cdot S_{T | U} (t_{1}) M_{TU} + \frac{1}{2} \cdot S_{D | U} (d_{2}) M_{DU}

= \frac{1}{2} \cdot (1,1) \cdot |\begin{matrix} 0.63 & 0.63 & 0.63 \\ 0.63 & 0.63 & 0.63 \end{matrix}| + \frac{1}{2} \cdot (0.66,1) \cdot |\begin{matrix} 0.86 & 0.43 & 0.43 \\ 0 & 0.63 & 0.63 \end{matrix}|

= (0.91,1.09,1.09)

标签t₂和文档d₁的用户权重矩阵为：

W_{U} (t_{2}, d_{1}) = \frac{1}{2} \cdot S_{T | U} (t_{2}) M_{TU} + \frac{1}{2} \cdot S_{D | U} (d_{1}) M_{DU}

= \frac{1}{2} \cdot (1,1) \cdot |\begin{matrix} 0.63 & 0.63 & 0.63 \\ 0.63 & 0.63 & 0.63 \end{matrix}| + \frac{1}{2} \cdot (1,0.66) \cdot |\begin{matrix} 0.86 & 0.43 & 0.43 \\ 0 & 0.63 & 0.63 \end{matrix}|

= (1.06,1.05,1.05)

标签t₂和文档d₂的用户权重矩阵为：

W_{U} (t_{2}, d_{2}) = \frac{1}{2} \cdot S_{T | U} (t_{2}) M_{TU} + \frac{1}{2} \cdot S_{D | U} (d_{2}) M_{DU}

= \frac{1}{2} \cdot (1,1) \cdot |\begin{matrix} 0.63 & 0.63 & 0.63 \\ 0.63 & 0.63 & 0.63 \end{matrix}| + \frac{1}{2} \cdot (0.66,1) \cdot |\begin{matrix} 0.86 & 0.43 & 0.43 \\ 0 & 0.63 & 0.63 \end{matrix}|

= (0.91,1.09,1.09);

5c）如果需要进行文档推荐，则将标签t_m在文档空间下的相似度矩阵S_T|D(t_m)与标签文档矩阵M_TD相乘，再将用户u_m在文档空间下的相似度矩阵S_U|D(u_m)与用户文档矩阵M_UD相乘，最后选择系数α将以上两者相加，得到标签t_m和用户u_m的文档权重矩阵W_D(t_m,u_m)，完成文档推荐：

W_D(t_m,u_m)＝αS_T|D(t_m)M_TD+(1-α)S_U|D(u_m)M_UD，α＝0.5

由此可以得到不同标签和不同用户的文档权重矩阵，即：

标签t₁和用户u₁的文档权重矩阵为：

W_{D} (t_{1}, u_{1}) = \frac{1}{2} \cdot S_{T | D} (t_{1}) M_{TD} + \frac{1}{2} \cdot S_{U | D} (u_{1}) M_{UD}

= \frac{1}{2} \cdot (1,0.51) \cdot |\begin{matrix} 0.43 & 1.26 \\ 1.29 & 0 \end{matrix}| + \frac{1}{2} \cdot (1,0.65,0.65) \cdot |\begin{matrix} 0.86 & 0 \\ 0.43 & 0.63 \\ 0.43 & 0.63 \end{matrix}|

= (1.25,1.04)

标签t₁和用户u₂的文档权重矩阵为：

W_{D} (t_{1}, u_{2}) = \frac{1}{2} \cdot S_{T | D} (t_{1}) M_{TD} + \frac{1}{2} \cdot S_{U | D} (u_{2}) M_{UD}

= \frac{1}{2} \cdot (1,0.51) \cdot |\begin{matrix} 0.43 & 1.26 \\ 1.29 & 0 \end{matrix}| + \frac{1}{2} \cdot (0.65,1,1) \cdot |\begin{matrix} 0.86 & 0 \\ 0.43 & 0.63 \\ 0.43 & 0.63 \end{matrix}|

= (1.25,1.26)

标签t₁和用户u₃的文档权重矩阵为：

W_{D} (t_{1}, u_{3}) = \frac{1}{2} \cdot S_{T | D} (t_{1}) M_{TD} + \frac{1}{2} \cdot S_{U | D} (u_{3}) M_{UD}

= \frac{1}{2} \cdot (1,0.51) \cdot |\begin{matrix} 0.43 & 1.26 \\ 1.29 & 0 \end{matrix}| + \frac{1}{2} \cdot (0.65,1,1) \cdot |\begin{matrix} 0.86 & 0 \\ 0.43 & 0.63 \\ 0.43 & 0.63 \end{matrix}|

= (1.25,1.26)

标签t₂和用户u₁的文档权重矩阵为：

W_{D} (t_{2}, u_{1}) = \frac{1}{2} \cdot S_{T | D} (t_{2}) M_{TD} + \frac{1}{2} \cdot S_{U | D} (u_{1}) M_{UD}

= \frac{1}{2} \cdot (1,0.51) \cdot |\begin{matrix} 0.43 & 1.26 \\ 1.29 & 0 \end{matrix}| + \frac{1}{2} \cdot (1,0.65,0.65) \cdot |\begin{matrix} 0.86 & 0 \\ 0.43 & 0.63 \\ 0.43 & 0.63 \end{matrix}|

= (1.46,0.73)

标签t₂和用户u₂的文档权重矩阵为：

W_{D} (t_{2}, u_{2}) = \frac{1}{2} \cdot S_{T | D} (t_{2}) M_{TD} + \frac{1}{2} \cdot S_{U | D} (u_{2}) M_{UD}

= \frac{1}{2} \cdot (1,0.51) \cdot |\begin{matrix} 0.43 & 1.26 \\ 1.29 & 0 \end{matrix}| + \frac{1}{2} \cdot (0.65,1,1) \cdot |\begin{matrix} 0.86 & 0 \\ 0.43 & 0.63 \\ 0.43 & 0.63 \end{matrix}|

= (1.46,0.95)

标签t₂和用户u₃的文档权重矩阵为：

W_{D} (t_{2}, u_{3}) = \frac{1}{2} \cdot S_{T | D} (t_{2}) M_{TD} + \frac{1}{2} \cdot S_{U | D} (u_{3}) M_{UD}

= \frac{1}{2} \cdot (1,0.51) \cdot |\begin{matrix} 0.43 & 1.26 \\ 1.29 & 0 \end{matrix}| + \frac{1}{2} \cdot (0.65,1,1) \cdot |\begin{matrix} 0.86 & 0 \\ 0.43 & 0.63 \\ 0.43 & 0.63 \end{matrix}|

= (1.46,0.95) .

步骤6，得到不同用户的推荐结果。

对于需要进行标签推荐的用户，将标签权重矩阵W_T(u_m,d_m)中权值最大的项作为标签推荐结果，对用户u₁和文档d₁、用户u₂和文档d₁、用户u₃和文档d₁推荐标签t₂；对用户u₁和文档d₂、用户u₂和文档d₂、用户u₃和文档d₂推荐标签t₁；

对于需要进行用户推荐的用户，将用户权重矩阵W_U(t_m,d_m)中权值最大的项作为用户推荐结果，对标签t₁和文档d₁、标签t₂和文档d₁推荐用户u₁；对标签t₁和文档d₂、标签t₂和文档d₂推荐用户u₂或者u₃；

对于需要进行文档推荐的用户，将文档权重矩阵W_D(t_m,u_m)中权值最大的项作为文档推荐结果，对标签t₁和用户u₁、标签t₂和用户u₁、标签t₂和用户u₂、标签t₂和用户u₃推荐文档d₁；对标签t₁和用户u₂、标签t₁和用户u₃推荐文档d₂。

步骤7，计算书签权重值。

根据（5）中得到的标签权重矩阵W_T(u_m,d_m)、用户权重矩阵W_U(t_m,d_m)、文档权重矩阵W_D(t_m,u_m)计算出某一书签b_m＝(d_m,u_m,t_m)的权重值，根据书签的权重值可以优化搜索。计算书签权重值的公式如下：

w(d_m,u_m,t_m)＝γ₁W_T(u_m,d_m)[t_m]+γ₂W_U(t_m,d_m)[u_m]+γ₃W_D(t_m,u_m)[d_m]

其中，W_T(u_m,d_m)[t_m]表示在用户u_m和文档d_m的标签权重矩阵中标签t_m的权重，W_U(t_m,d_m)[u_m]表示在标签t_m和文档d_m的用户权重矩阵中用户u_m的权重，W_D(t_m,u_m)[d_m表示在标签t_m和用户u_m的文档权重矩阵中文档d_m的权重；γ₁表示W_T(u_m,d_m)[t_m]的比例系数，γ₂表示W_U(t_m,d_m)[u_m]的比例系数，γ₃表示W_D(t_m,u_m)[d_m]的比例系数，γ₁、γ₂、γ₃的取值范围均为0到1且γ₁+γ₂+γ₃=1；

由此可以得到不同书签的权重值：

书签b₁＝(d₁,u₁,t₂)的权重值为：

w (d_{1}, u_{1}, t_{2}) = \frac{1}{3} \cdot W_{T} (u_{1}, d_{1}) [t_{2}] + \frac{1}{3} \cdot W_{U} (t_{2}, d_{1}) [u_{1}] + \frac{1}{3} \cdot W_{D} (t_{2}, u_{1}) [d_{1}]

= \frac{1.59 + 1.06 + 1.46}{3}

= 1.37

书签b₂＝(d₁,u₁,t₁)的权重值为：

w (d_{1}, u_{1}, t_{1}) = \frac{1}{3} \cdot W_{T} (u_{1}, d_{1}) [t_{1}] + \frac{1}{3} \cdot W_{U} (t_{1}, d_{1}) [u_{1}] + \frac{1}{3} \cdot W_{D} (t_{1}, u_{1}) [d_{1}]

= \frac{1.48 + 1.06 + 1.25}{3}

= 1.263

书签b₃＝(d₁,u₂,t₂)的权重值为：

w (d_{1}, u_{2}, t_{2}) = \frac{1}{3} \cdot W_{T} (u_{1}, d_{2}) [t_{2}] + \frac{1}{3} \cdot W_{U} (t_{2}, d_{1}) [u_{2}] + \frac{1}{3} \cdot W_{D} (t_{2}, u_{2}) [d_{1}]

= \frac{1.59 + 1.09 + 1.46}{3}

= 1.367

书签b₄＝(d₂,u₂,t₁)的权重值为：

w (d_{2}, u_{2}, t_{1}) = \frac{1}{3} \cdot W_{T} (u_{2}, d_{2}) [t_{1}] + \frac{1}{3} \cdot W_{U} (t_{1}, d_{2}) [u_{2}] + \frac{1}{3} \cdot W_{D} (t_{1}, u_{2}) [d_{2}]

= \frac{1.69 + 1.09 + 1.26}{3}

= 1.347

书签b₅＝(d₁,u₃,t₂)的权重值为：

w (d_{1}, u_{3}, t_{2}) = \frac{1}{3} \cdot W_{T} (u_{3}, d_{1}) [t_{2}] + \frac{1}{3} \cdot W_{U} (t_{2}, d_{1}) [u_{3}] + \frac{1}{3} \cdot W_{D} (t_{2}, u_{3}) [d_{1}]

= \frac{1.59 + 1.05 + 1.46}{3}

= 1.367

书签b₆＝(d₂,u₃,t₁)的权重值为：

w (d_{2}, u_{3}, t_{1}) = \frac{1}{3} \cdot W_{T} (u_{3}, d_{2}) [t_{1}] + \frac{1}{3} \cdot W_{U} (t_{1}, d_{2}) [u_{3}] + \frac{1}{3} \cdot W_{D} (t_{1}, u_{3}) [d_{2}]

= \frac{1.69 + 1.09 + 1.26}{3}

= 1.347

步骤8，根据得到的书签权重，选择权值较大的标签作为索引。

标签t₁的权值：

w(t₁)＝w(d₂,u₂,t₁)+w(d₂,u₃,t₁)+w(d₁,u₁,t₁)=1.347+1.347+1.263=3.957

标签t₂的权值：

w(t₂)＝w(d₁,u₂,t₂)+w(d₁,u₃,t₂)+w(d₁,u₁,t₂)=1.367+1.367+1.37=4.104

因为标签t₂的权重大于标签t₁的权值，所以以标签t₂对文档信息有较好的区分度，选择标签t₂作为搜索标签内容，提高了搜索效率。

Claims

1.一种基于文档标签表征的推荐方法,包括如下步骤：

（2）根据读入的书签信息，初始化相关矩阵：

其中i和j均为大于0的整数；

（3）矩阵标准化：

使用公式

M_{UT} (p, q) = M_{UT} (i, j) \cdot \log^{- 1} (1 + \underset{k}{Σ} M_{UT} (i, k))

使用公式

M_{DT} (p, q) = M_{DT} (i, j) \cdot \log^{- 1} (1 + \underset{k}{Σ} M_{DT} (i, k))

使用公式

M_{DU} (p, q) = M_{DU} (i, j) \cdot \log^{- 1} (1 + \underset{k}{Σ} M_{DU} (i, k))

（4）生成相似度矩阵：

（5）选择推荐内容，得到权重矩阵：

W_T(u₁,d₁)＝αS_U|T(u₁)M_UT+(1-α)S_D|T(d₁)M_DT

其中，α为比例系数，取值范围为0到1；

W_U(t₁,d₁)＝αS_T|U(t₁)M_TU+(1-α)S_D|U(d₁)M_DU

W_D(t₁,u₁)＝αS_T|D(t₁)M_TD+(1-α)S_U|D(u₁)M_UD；

（6）根据权重矩阵，得到推荐结果：

（7）计算书签权重值

（8）权值较大的书签对文档信息有较好的区分度。根据得到的书签权重，选择权值较大的标签作为搜索标签内容，提高了搜索效率。

2.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4a）所述的计算标签空间下用户相似度矩阵S_U|T(u₁)，公式如下：

S_U|T(u₁)＝{S_U|T(u₁)[u₁],S_U|T(u₁)[u₂],…,S_U|T(u₁)[u_n]}

其中，

表示在标签空间下用户u₁与u_i的相似度；

式中，i=1…n，n表示用户的数量；

表示在M_UT矩阵中向量u₁与向量u_i的余弦相似度；β表示整个架构的缩放比例参数，β＝0时认为所有向量是独立的，β→∞时认为所有向量都是相同的。

3.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4a）所述的计算文档空间下用户相似度矩阵S_U|D(u₁)，公式如下：

S_U|D(u₁)＝{S_U|D(u₁)[u₁],S_U|D(u₁)[u₂],…,S_U|D(u₁)[u_n]}

其中，表示在文档空间下用户u₁与u_i的相似度；

式中，i=1…n，n表示用户的数量；表示在M_UD矩阵中向量u₁与向量u_i的余弦相似度；β表示整个架构的缩放比例参数，β＝0时认为所有向量是独立的，β→∞时认为所有向量都是相同的。

4.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4b）所述的计算用户空间下标签相似度矩阵S_T|U(t₁)，公式如下：

S_T|U(t₁)＝{S_T|U(t₁)[t₁],S_T|U(t₁)[t₂],…,S_T|U(t₁)[t_n]}

其中，

表示在用户空间下标签t₁与t_i的相似度；

式中，i=1…n，n表示标签的数量；

表示在M_TU矩阵中向量t₁与向量t_i的余弦相似度；β表示整个架构的缩放比例参数，β＝0时认为所有向量是独立的，β→∞时认为所有向量都是相同的。

5.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4b）所述的计算文档空间下标签相似度矩阵S_T|D(t₁)，公式如下：

S_T|D(t₁)＝{S_T|D(t₁)[t₁],S_T|D(t₁)[t₂],…,S_T|D(t₁)[t_n]}

其中，

表示在文档空间下标签t₁与t_i的相似度；

式中，i=1…n，n表示标签的数量；

表示在M_TD矩阵中向量t₁与向量t_i的余弦相似度；β表示整个架构的缩放比例参数，β＝0时认为所有向量是独立的，β→∞时认为所有向量都是相同的。

6.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4c）所述的计算标签空间下文档相似度矩阵S_D|T(d₁)，公式如下：

S_D|T(d₁)＝{S_D|T(d₁)[d₁],S_D|T(d₁)[d₂],…,S_D|T(d₁)[d_n]}

其中，

表示在标签空间下文档d₁与d_i的相似度；

式中，i=1…n，n表示文档的数量；表示在矩阵M_DT中向量d₁与向量d_i的余弦相似度；β表示整个架构的缩放比例参数，β＝0时认为所有向量是独立的，β→∞时认为所有向量都是相同的。

7.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4c）所述的计算用户空间下文档相似度矩阵S_D|U(d₁)，公式如下：

S_D|U(d₁)＝{S_D|U(d₁)[d₁],S_D|U(d₁)[d₂],…,S_D|U(d₁)[d_n]}

其中，

表示在用户空间下文档d₁与d_i的相似度；

式中，i=1…n，n表示文档的数量；表示在矩阵M_DU中向量d₁与向量d_i的余弦相似度；β表示整个架构的缩放比例参数，β＝0时认为所有向量是独立的，β→∞时认为所有向量都是相同的。