CN102929975A - 基于文档标签表征的推荐方法 - Google Patents

基于文档标签表征的推荐方法 Download PDF

Info

Publication number
CN102929975A
CN102929975A CN2012103918016A CN201210391801A CN102929975A CN 102929975 A CN102929975 A CN 102929975A CN 2012103918016 A CN2012103918016 A CN 2012103918016A CN 201210391801 A CN201210391801 A CN 201210391801A CN 102929975 A CN102929975 A CN 102929975A
Authority
CN
China
Prior art keywords
user
document
label
matrix
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103918016A
Other languages
English (en)
Inventor
袁通
刘志镜
王静
权江
刘慧�
姚勇
屈鉴铭
贺文骅
王纵虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN2012103918016A priority Critical patent/CN102929975A/zh
Publication of CN102929975A publication Critical patent/CN102929975A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文档标签表征的推荐方法,主要解决现有推荐方法建模复杂、效果较差,方法不够准确、较依赖标签结构的问题。其技术方案为:(1)从数据库中读入书签信息;(2)根据读入的信息,初始化相关矩阵;(3)将矩阵进行标准化处理;(4)生成相似度矩阵;(5)选择推荐内容,得到权重矩阵;(6)根据权重矩阵,完成标签推荐、文档推荐、用户推荐;(7)计算书签权重值;(8)选择权值较大的标签作为索引,以提高搜索效率。本发明采用了一种新型的框架,建模简单、有较好的准确性,受标签结构影响较小,可以应用于数据挖掘、解决信息超载。

Description

基于文档标签表征的推荐方法
技术领域
本发明属于计算机技术领域,更进一步涉及文档、标签、用户的推荐方法。可以应用于数据挖掘、解决信息超载和海量数据处理。
背景技术
推荐,是指在网络中根据用户的兴趣特点和需求,向用户推荐用户感兴趣的信息。随着互联网规模的不断扩大,信息个数和种类快速增长,用户需要花费大量的时间才能找到自己需要的信息。这种浏览大量无关的信息的过程会增加用户大量不必要的消耗。
互联网技术的迅速发展使得大量的信息同时呈现在我们面前,传统的方法无法针对不同用户的兴趣爱好提供相应的服务。信息的爆炸使得信息的利用率反而降低,这种现象被称之为信息超载。个性化推荐,包括个性化搜索,被认为是当前解决这个问题最有效的工具之一。
个性化推荐是建立在海量数据挖掘基础上的一种高级智能平台,以帮助互联网网站为其用户提供个性化的信息服务。
Social Bookmark,社会化书签,可以将网站随时加入自己的网络书签中;用多个关键词标示和整理书签,并与人共享。2004年起Web出现的一种新的内容标引方法。相对于专业的编目和用户提供元数据的现行方式,社会书签以其方便实用而备受人们的关注和喜爱,被认为是下一代的Web信息基础设施。
社会化书签在Web2.0时代占用非常重要的地位,社会化书签对信息共享、改进搜索都用重要的意义。与传统的系统相比,社会化书签系统的用户可以选择自己喜好的词条对感兴趣的文档进行描述,这就使社会化书签系统有了较好的柔韧性。社会化书签可以应用于加强传统的信息检索、标签推荐、用户推荐、文档推荐。与传统的以文档为中心的系统相比,社会化书签系统将用户、描述文档的标签考虑在内。
个性化推荐的常用方法有基于关联规则的推荐算法、基于内容的推荐算法、协同过滤算法。以社会化书签为基础的文档表征推荐方法也是其中一种方法,它通过用户给文档进行标识,然后计算各个类别的权重,可以进行用户推荐、文档推荐和标签推荐。
用户、标签、文档是社会化书签的三个要素。用户推荐:给定一个文档和若干标签,系统会推荐出对此文档感谢兴趣的用户。标签推荐:给定一个文档和使用这个文档的用户,系统会推荐给用户一个或者多个标签来描述该文档。文档推荐:跟定用户和用户感兴趣的标签,系统推荐出符合标签的内容的文档。在推荐算法中分析各个用户、标签和文档的使用情况,分别进行权重的排序,根据权重的排序进行标签推荐、用户推荐、文档推荐。同时根据社会化书签的排序完成搜索性能的加强。
Bischoff等人在“Can All Tags be Used for Search?”一文中提出有效的标签可以提高整个搜索的效率。但不是所有的标签可以提高搜索效率,只有社会化书签中较为普遍标签才可以帮助我们提高整个的搜索效率。
Golder等人在“Usage pattern of collaborative tagging systems”一文中提出了一种对标签进行分类的方法,并且证明标签的样式和用户的知识水平也可以影响系统的搜索效率。
从已有的研究可以看出,用户给文档进行标记后,系统通过分析以往用户的标签信息和当前用户的需求,可以得到当前用户的兴趣,为当前用户推荐其感兴趣的信息。然而由于书签自身的样式以及使用者的知识水平的差异会对推荐效果产生影响,所以现有的以社会化书签为基础的推荐方法不够精确、非常依赖标签的结构、搜索效率低。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于文档标签表征的推荐方法,以提高推荐的精度,增强搜索效率。
实现本发明目的的技术思路是:由文档、用户、标签组成书签,对书签进行编码。依照该编码方式,通过读取数据库中的内容,初始化用户标签矩阵、文档标签矩阵、文档用户矩阵。通过矩阵中元素之间的相似度与相应的初始化矩阵的乘积,得到最终的权值矩阵,以完成相关推荐和寻找最佳标签来提高搜索效率。具体步骤包括如下:
(1)从数据库中读入书签信息,并获得用户想要推荐的内容;
(2)根据读入的书签信息,初始化相关矩阵:
初始化用户标签矩阵为MUT(i,j),用于表示第i个用户使用第j个标签的次数,
初始化文档标签矩阵为MDT(i,j),用于表示第i个文档被第j个标签描述的次数,
初始化文档用户矩阵为MDU(i,j),用于表示第i个用户描述第j个文档的次数,
其中i和j均为大于0的整数;
(3)矩阵标准化:
使用公式 M UT ( p , q ) = M UT ( i , j ) · log - 1 ( 1 + Σ k M UT ( i , k ) ) 对用户标签矩阵进行标准化,其中MUT(p,q)表示标准化后的用户标签矩阵,
使用公式 M DT ( p , q ) = M DT ( i , j ) · log - 1 ( 1 + Σ k M DT ( i , k ) ) 对文档标签矩阵进行标准化,其中MDT(p,q)表示标准化后的文档标签矩阵,
使用公式 M DU ( p , q ) = M DU ( i , j ) · log - 1 ( 1 + Σ k M DU ( i , k ) ) 对文档用户矩阵进行标准化,其中MDU(p,q)表示标准化后的文档用户矩阵;
(4)生成相似度矩阵:
4a)根据标准化后的用户标签矩阵和初始用户信息,计算该用户在标签空间下与其他用户的相似度,得到标签空间下用户相似度矩阵SU|T(u1);根据标准化后的文档用户矩阵和初始用户信息,计算该用户在文档空间下与其他用户的相似度,得到文档空间下用户相似度矩阵SU|D(u1);
4b)根据标准化后的用户标签矩阵和初始标签信息,计算该标签在用户空间下与其他标签的相似度,得到用户空间下标签相似度矩阵ST|U(t1);根据标准化后的文档标签矩阵和初始标签信息,计算该标签在文档空间下与其他标签的相似度,得到文档空间下标签相似度矩阵ST|D(t1);
4c)根据标准化后的文档标签矩阵和初始文档信息,计算该文档在标签空间下与其他文档的相似度,得到标签空间下文档相似度矩阵SD|T(d1);根据标准化后的文档用户矩阵和初始文档信息,计算该文档在用户空间下与其他文档的相似度,得到用户空间下文档相似度矩阵SD|U(d1);
(5)选择推荐内容,得到权重矩阵:
5a)对于需要进行标签推荐的用户,通过如下公式计算标签权重矩阵:
WT(u1,d1)=αSU|T(u1)MUT+(1-α)SD|T(d1)MDT
其中,α为比例系数,取值范围为0到1;
5b)对于需要进行用户推荐的用户,通过如下公式计算用户权重矩阵:
WU(t1,d1)=αST|U(t1)MTU+(1-α)SD|U(d1)MDU
5c)对于需要进行文档推荐的用户,通过如下公式计算文档权重矩阵:
WD(t1,u1)=αST|D(t1)MTD+(1-α)SU|D(u1)MUD
(6)根据权重矩阵,得到推荐结果:
对于需要进行标签推荐的用户,将标签权重矩阵WT(u1,d1)中权值最大的项作为标签推荐结果;
对于需要进行用户推荐的用户,将用户权重矩阵WU(t1,d1)中权值最大的项作为用户推荐结果;
对于需要进行文档推荐的用户,将文档权重矩阵WD(t1,u1)中权值最大的项作为文档推荐结果;
(7)计算书签权重值
根据步骤(5)中计算得到的标签权重矩阵、用户权重矩阵、文档权重矩阵,通过如下的公式计算书签(d1,u1,t1)的权重值:
w(d1,u1,t1)=γ1WT(u1,d1)[t1]+γ2WU(t1,d1)[u1]+γ3WD(t1,u1)[d1]
其中,WT(u1,d1)[t1]表示在标签权重矩阵中标签t1的权重,WU(t1,d1)[u1]表示在用户权重矩阵中用户u1的权重,WD(t1,u1)[d1]表示在文档权重矩阵中文档d1的权重;γ1表示WT(u1,d1)[t1]的比例系数,γ2表示WU(t1,d1)[u1]的比例系数,γ3表示WD(t1,u1)[d1]的比例系数,γ1、γ2、γ3的取值范围均为0到1且γ123=1;
(8)根据得到的书签权重,权值较大的书签对文档信息有较好的区分度,选择权值较大的标签作为搜索标签内容,提高了搜索效率。
本发明与现有技术相比具有如下优点:
第一,本发明在进行推荐时,读入系统中用户标记文档的信息和所需推荐的内容,根据初始信息建立初始矩阵,将初始矩阵标准化,然后生成相似度矩阵,最后生成标签权重矩阵、文档权重矩阵、用户权重矩阵,可以完成标签推荐、文档推荐、用户推荐,克服了现有推荐系统建模复杂、效果较差的缺点,使本发明在推荐时有较好的准确性。
第二,本发明在计算社会化书签权重时,采用一种新型的框架,即通过标签权重矩阵、用户权重矩阵、文档权重矩阵计算书签的权重,得到标签的权重值,选择权值较大的标签作为搜索标签内容,提高了搜索效率。
以下结合附图对本发明作进一步详细描述。
附图说明
图1是本发明的流程图;
图2是本发明读入的书签信息示意图。
具体实施方式
参照图1,本发明的实施步骤如下:
步骤1,从数据库中读入书签信息,如图2所示。
从图2可得到的书签信息如下:
b1=(d1,u1,t2),
b2=(d1,u1,t1),
b3=(d1,u2,t2),
b4=(d2,u2,t1),
b5=(d1,u3,t2),
b6=(d2,u3,t1),
其中,b1表示用户u1使用标签t2描述文档d1,b2表示用户u1使用标签t1描述文档d1,b3表示用户u2使用标签t2描述文档d1,b4表示用户u2使用标签t1描述文档d2,b5表示用户u3使用标签t2描述文档d1,b6表示用户u3使用标签t1描述文档d2
步骤2,根据读入的书签信息,初始化相关矩阵。
初始化用户标签矩阵为MUT,其中,矩阵中每一项元素MUT(i,j)表示第i个用户使用第j个标签的次数;
M UT = 1 1 1 1 1 1 ;
初始化文档标签矩阵为MDT,其中,矩阵中每一项元素MDT(i,j)表示第i个文档被第j个标签描述的次数;
M DT = 1 3 2 0 ;
初始化文档用户矩阵为MDU,其中,矩阵中每一项元素MDU(i,j)表示第i个用户描述第j个文档的次数;
M DU = 2 1 1 0 1 1 .
步骤3,矩阵标准化,根据公式对以上三个矩阵进行如下标准化处理,即:
M UT = 0.63 0.63 0.63 0.63 0.63 0.63 ,
M DT = 0.43 1.29 1.26 0 ,
M DU = 0.86 0.43 0.43 0 0.63 0.63 .
步骤4,生成相似度矩阵。
4a)根据标准化后的用户标签矩阵MUT和初始用户信息,计算用户um在标签空间下与其他用户的相似度SU|T(um),生成相似度矩阵:
SU|T(um)={SU|T(um)[u1],SU|T(um)[u2],...,SU|T(um)[un]}
其中,um表示第m个用户,表示在标签空间下用户um与用户ui的相似度;
式中,i=1…n,n表示用户的数量;
Figure BDA00002253968000068
表示在MUT矩阵中标签空间T下向量um与标签空间T下向量ui的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的,这里取β=1.0。
由此可以得到不同用户在标签空间下与其他用户的相似度:
第一个用户u1在标签空间下与其他用户的相似度:SU|T(u1)=(1,1,1)
第二个用户u2在标签空间下与其他用户的相似度:SU|T(u2)=(1,l,1)
第三个用户u3在标签空间下与其他用户的相似度:SU|T(u3)=(1,l,1)
4b)根据标准化后的用户文档矩阵MUD和初始用户信息,计算用户um在文档空间下与其他用户的相似度SU|D(um),生成相似度矩阵:
SU|D(um)={SU|D(um)[u1],SU|D(um)[u2],…,SU|D(um)[un]}
其中,um表示第m个用户,
Figure BDA00002253968000071
表示在文档空间下用户um与用户ui的相似度;
式中,i=1…n,n表示用户的数量;
Figure BDA00002253968000072
表示在MUD矩阵中文档空间D下向量um与文档空间D下向量ui的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的,这里取β=1.0。
由此可以得到不同用户在文档空间下与其他用户的相似度:
第一个用户u1在文档空间下与其他用户的相似度:SU|D(u1)=(1,0.65,0.65)
第二个用户u2在文档空间下与其他用户的相似度:SU|D(u2)=(0.65,l,1)
第三个用户u3在文档空间下与其他用户的相似度:SU|D(u3)=(0.65,l,1)
4c)根据标准化后的标签用户矩阵MTU和初始标签信息,计算标签tm在用户空间下与其他标签的相似度ST|U(tm),生成相似度矩阵:
ST|U(tm)={ST|U(tm)[t1],ST|U(tm)[t2],…,ST|U(tm)[tn]}
其中,tm表示第m个标签,表示在用户空间下标签tm与ti的相似度;
式中,i=1…n,n表示标签的数量;
Figure BDA00002253968000074
表示在MTU矩阵中用户空间U下向量tm与用户空间U下向量ti的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的,这里取β=1.0。
由此可以得到不同标签在用户空间下与其他标签的相似度:
第一个标签t1在用户空间下与其他标签的相似度:SU|U(t1)=(1,1)
第二个标签t2在用户空间下与其他用户的相似度:SU|U(t2)=(1,1)
4d)根据标准化后的标签文档矩阵MTD和初始标签信息,计算标签tm在文档空间下与其他标签的相似度ST|D(t1),生成相似度矩阵:
ST|D(tm)={ST|D(tm)[t1],ST|D(tm)[t2],…,ST|D(tm)[tn]}
其中,tm表示第m个标签,表示在文档空间下标签tm与ti的相似度;
式中,i=1…n,n表示标签的数量;
Figure BDA00002253968000082
表示在MTD矩阵中文档空间D下向量tm与文档空间D下向量ti的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的,这里取β=1.0。
由此可以得到不同标签在文档空间下与其他标签的相似度:
第一个标签t1在文档空间下与其他标签的相似度:ST|D(t1)=(1,0.51)
第二个标签t2在文档空间下与其他标签的相似度:ST|D(t2)=(0.51,1)
4e)根据标准化后的文档标签矩阵MDT和初始文档信息,计算该文档在标签空间下与其他文档的相似度,生成相似度矩阵:
SD|T(dm)={SD|T(dm)[d1],SD|T(dm)[d2],…,SD|T(dm)[dn]}
其中,dm表示第m个文档,
Figure BDA00002253968000083
表示在标签空间下文档dm与di的相似度;
式中,i=1…n,n表示文档的数量;
Figure BDA00002253968000084
表示在矩阵MDT中标签空间T下向量dm与标签空间T下向量di的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的,这里取β=1.0。
由此可以得到不同文档在标签空间下与其他文档的相似度:
第一个文档d1在标签空间下与其他文档的相似度:SD|T(d1)=(1,0.51)
第二个文档d2在标签空间下与其他文档的相似度:SD|T(d2)=(0.51,1)
4f)根据标准化后的文档用户矩阵MDU和初始文档信息,计算该文档在用户空间下与其他文档的相似度,生成相似度矩阵:
SD|U(dm)={SD|U(dm)[d1],SD|U(dm)[d2],...,SD|U(dm)[dn]}
其中,dm表示第m个文档,
Figure BDA00002253968000091
表示在用户空间下文档dm与di的相似度;
式中,i=1…n,n表示文档的数量;
Figure BDA00002253968000092
表示在矩阵MDU中用户空间U下向量dm与用户空间U下向量di的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的,这里取β=1.0。
由此可以得到不同文档在用户空间下与其他文档的相似度:
第一个文档d1在用户空间下与其他文档的相似度:SD|U(d1)=(1,0.66)
第二个文档d2在用户空间下与其他文档的相似度:SD|U(d2)=(0.66,1)
步骤5,选择推荐内容,得到权重矩阵。
5a)如果需要进行标签推荐,则将用户um在标签空间下的相似度矩阵SU|T(um)与用户标签矩阵MUT相乘,再将文档dm在标签空间下的相似度矩阵SD|T(dm)与文档标签矩阵MDT相乘,最后选择系数α将以上两者相加,得到用户um和文档dm的标签权重矩阵WT(um,dm),完成标签推荐:
WT(um,dm)=αSU|T(um)MUT+(1-α)SD|T(dm)MDT,α=0.5
由此可以得到不同用户与不同文档的标签权重矩阵,即:
用户u1和文档d1的标签权重矩阵为:
W T ( u 1 , d 1 ) = 1 2 · S U | T ( u 1 ) M UT + 1 2 · S D | T ( d 1 ) M DT
= 1 2 · ( 1,1,1 ) · 0.63 0.63 0.63 0.63 0.63 0.63 + 1 2 · ( 1,0.51 ) · 0.43 1.29 1.26 0
= ( 1.48,1.59 )
用户u1和文档d2的标签权重矩阵为:
W T ( u 1 , d 2 ) = 1 2 · S U | T ( u 1 ) M UT + 1 2 · S D | T ( d 2 ) M DT
= 1 2 · ( 1,1,1 ) · 0.63 0.63 0.63 0.63 0.63 0.63 + 1 2 · ( 0.51,1 ) · 0.43 1.29 1.26 0
= ( 1.69,1.28 )
用户u2和文档d1的标签权重矩阵为:
W T ( u 2 , d 1 ) = 1 2 · S U | T ( u 2 ) M UT + 1 2 · S D | T ( d 1 ) M DT
= 1 2 · ( 1,1,1 ) · 0.63 0.63 0.63 0.63 0.63 0.63 + 1 2 · ( 1,0.51 ) · 0.43 1.29 1.26 0
= ( 1.48,1.59 )
用户u2和文档d2的标签权重矩阵为:
W T ( u 2 , d 2 ) = 1 2 · S U | T ( u 2 ) M UT + 1 2 · S D | T ( d 2 ) M DT
= 1 2 · ( 1,1,1 ) · 0.63 0.63 0.63 0.63 0.63 0.63 + 1 2 · ( 0.51,1 ) · 0.43 1.29 1.26 0
= ( 1.69,1.28 )
用户u3和文档d1的标签权重矩阵为:
W T ( u 3 , d 1 ) = 1 2 · S U | T ( u 3 ) M UT + 1 2 · S D | T ( d 1 ) M DT
= 1 2 · ( 1,1,1 ) · 0.63 0.63 0.63 0.63 0.63 0.63 + 1 2 · ( 1,0.51 ) · 0.43 1.29 1.26 0
= ( 1.48,1.59 )
用户u3和文档d2的标签权重矩阵为:
W T ( u 3 , d 2 ) = 1 2 · S U | T ( u 3 ) M UT + 1 2 · S D | T ( d 2 ) M DT
= 1 2 · ( 1,1,1 ) · 0.63 0.63 0.63 0.63 0.63 0.63 + 1 2 · ( 0.51,1 ) · 0.43 1.29 1.26 0
= ( 1.69,1.28 ) ;
5b)如果需要进行用户推荐,则将标签tm在用户空间下的相似度矩阵ST|U(tm)与标签用户矩阵MTU相乘,再将文档dm在用户空间下的相似度矩阵SD|U(dm)与文档用户矩阵MDU相乘,最后选择系数α将以上两者相加,得到标签tm和文档dm的用户权重矩阵WU(tm,dm),完成用户推荐:
WU(tm,dm)=αST|U(tm)MTU+(1-α)SD|U(dm)MDU,α=0.5,
由此可以得到不同标签和不同文档的用户权重矩阵,即:
标签t1和文档d1的用户权重矩阵为:
W U ( t 1 , d 1 ) = 1 2 · S T | U ( t 1 ) M TU + 1 2 · S D | U ( d 1 ) M DU
= 1 2 · ( 1,1 ) · 0.63 0.63 0.63 0.63 0.63 0.63 + 1 2 · ( 1,0.66 ) · 0.86 0.43 0.43 0 0.63 0.63
= ( 1.06,1.05,1.05 )
标签t1和文档d2的用户权重矩阵为:
W U ( t 1 , d 2 ) = 1 2 · S T | U ( t 1 ) M TU + 1 2 · S D | U ( d 2 ) M DU
= 1 2 · ( 1,1 ) · 0.63 0.63 0.63 0.63 0.63 0.63 + 1 2 · ( 0.66,1 ) · 0.86 0.43 0.43 0 0.63 0.63
= ( 0.91,1.09,1.09 )
标签t2和文档d1的用户权重矩阵为:
W U ( t 2 , d 1 ) = 1 2 · S T | U ( t 2 ) M TU + 1 2 · S D | U ( d 1 ) M DU
= 1 2 · ( 1,1 ) · 0.63 0.63 0.63 0.63 0.63 0.63 + 1 2 · ( 1,0.66 ) · 0.86 0.43 0.43 0 0.63 0.63
= ( 1.06,1.05,1.05 )
标签t2和文档d2的用户权重矩阵为:
W U ( t 2 , d 2 ) = 1 2 · S T | U ( t 2 ) M TU + 1 2 · S D | U ( d 2 ) M DU
= 1 2 · ( 1,1 ) · 0.63 0.63 0.63 0.63 0.63 0.63 + 1 2 · ( 0.66,1 ) · 0.86 0.43 0.43 0 0.63 0.63
= ( 0.91,1.09,1.09 ) ;
5c)如果需要进行文档推荐,则将标签tm在文档空间下的相似度矩阵ST|D(tm)与标签文档矩阵MTD相乘,再将用户um在文档空间下的相似度矩阵SU|D(um)与用户文档矩阵MUD相乘,最后选择系数α将以上两者相加,得到标签tm和用户um的文档权重矩阵WD(tm,um),完成文档推荐:
WD(tm,um)=αST|D(tm)MTD+(1-α)SU|D(um)MUD,α=0.5
由此可以得到不同标签和不同用户的文档权重矩阵,即:
标签t1和用户u1的文档权重矩阵为:
W D ( t 1 , u 1 ) = 1 2 · S T | D ( t 1 ) M TD + 1 2 · S U | D ( u 1 ) M UD
= 1 2 · ( 1,0.51 ) · 0.43 1.26 1.29 0 + 1 2 · ( 1,0.65,0.65 ) · 0.86 0 0.43 0.63 0.43 0.63
= ( 1.25,1.04 )
标签t1和用户u2的文档权重矩阵为:
W D ( t 1 , u 2 ) = 1 2 · S T | D ( t 1 ) M TD + 1 2 · S U | D ( u 2 ) M UD
= 1 2 · ( 1,0.51 ) · 0.43 1.26 1.29 0 + 1 2 · ( 0.65,1,1 ) · 0.86 0 0.43 0.63 0.43 0.63
= ( 1.25,1.26 )
标签t1和用户u3的文档权重矩阵为:
W D ( t 1 , u 3 ) = 1 2 · S T | D ( t 1 ) M TD + 1 2 · S U | D ( u 3 ) M UD
= 1 2 · ( 1,0.51 ) · 0.43 1.26 1.29 0 + 1 2 · ( 0.65,1,1 ) · 0.86 0 0.43 0.63 0.43 0.63
= ( 1.25,1.26 )
标签t2和用户u1的文档权重矩阵为:
W D ( t 2 , u 1 ) = 1 2 · S T | D ( t 2 ) M TD + 1 2 · S U | D ( u 1 ) M UD
= 1 2 · ( 1,0.51 ) · 0.43 1.26 1.29 0 + 1 2 · ( 1,0.65,0.65 ) · 0.86 0 0.43 0.63 0.43 0.63
= ( 1.46,0.73 )
标签t2和用户u2的文档权重矩阵为:
W D ( t 2 , u 2 ) = 1 2 · S T | D ( t 2 ) M TD + 1 2 · S U | D ( u 2 ) M UD
= 1 2 · ( 1,0.51 ) · 0.43 1.26 1.29 0 + 1 2 · ( 0.65,1,1 ) · 0.86 0 0.43 0.63 0.43 0.63
= ( 1.46,0.95 )
标签t2和用户u3的文档权重矩阵为:
W D ( t 2 , u 3 ) = 1 2 · S T | D ( t 2 ) M TD + 1 2 · S U | D ( u 3 ) M UD
= 1 2 · ( 1,0.51 ) · 0.43 1.26 1.29 0 + 1 2 · ( 0.65,1,1 ) · 0.86 0 0.43 0.63 0.43 0.63
= ( 1.46,0.95 ) .
步骤6,得到不同用户的推荐结果。
对于需要进行标签推荐的用户,将标签权重矩阵WT(um,dm)中权值最大的项作为标签推荐结果,对用户u1和文档d1、用户u2和文档d1、用户u3和文档d1推荐标签t2;对用户u1和文档d2、用户u2和文档d2、用户u3和文档d2推荐标签t1
对于需要进行用户推荐的用户,将用户权重矩阵WU(tm,dm)中权值最大的项作为用户推荐结果,对标签t1和文档d1、标签t2和文档d1推荐用户u1;对标签t1和文档d2、标签t2和文档d2推荐用户u2或者u3
对于需要进行文档推荐的用户,将文档权重矩阵WD(tm,um)中权值最大的项作为文档推荐结果,对标签t1和用户u1、标签t2和用户u1、标签t2和用户u2、标签t2和用户u3推荐文档d1;对标签t1和用户u2、标签t1和用户u3推荐文档d2
步骤7,计算书签权重值。
根据(5)中得到的标签权重矩阵WT(um,dm)、用户权重矩阵WU(tm,dm)、文档权重矩阵WD(tm,um)计算出某一书签bm=(dm,um,tm)的权重值,根据书签的权重值可以优化搜索。计算书签权重值的公式如下:
w(dm,um,tm)=γ1WT(um,dm)[tm]+γ2WU(tm,dm)[um]+γ3WD(tm,um)[dm]
其中,WT(um,dm)[tm]表示在用户um和文档dm的标签权重矩阵中标签tm的权重,WU(tm,dm)[um]表示在标签tm和文档dm的用户权重矩阵中用户um的权重,WD(tm,um)[dm表示在标签tm和用户um的文档权重矩阵中文档dm的权重;γ1表示WT(um,dm)[tm]的比例系数,γ2表示WU(tm,dm)[um]的比例系数,γ3表示WD(tm,um)[dm]的比例系数,γ1、γ2、γ3的取值范围均为0到1且γ123=1;
由此可以得到不同书签的权重值:
书签b1=(d1,u1,t2)的权重值为:
w ( d 1 , u 1 , t 2 ) = 1 3 · W T ( u 1 , d 1 ) [ t 2 ] + 1 3 · W U ( t 2 , d 1 ) [ u 1 ] + 1 3 · W D ( t 2 , u 1 ) [ d 1 ]
= 1.59 + 1.06 + 1.46 3
= 1.37
书签b2=(d1,u1,t1)的权重值为:
w ( d 1 , u 1 , t 1 ) = 1 3 · W T ( u 1 , d 1 ) [ t 1 ] + 1 3 · W U ( t 1 , d 1 ) [ u 1 ] + 1 3 · W D ( t 1 , u 1 ) [ d 1 ]
= 1.48 + 1.06 + 1.25 3
= 1.263
书签b3=(d1,u2,t2)的权重值为:
w ( d 1 , u 2 , t 2 ) = 1 3 · W T ( u 1 , d 2 ) [ t 2 ] + 1 3 · W U ( t 2 , d 1 ) [ u 2 ] + 1 3 · W D ( t 2 , u 2 ) [ d 1 ]
= 1.59 + 1.09 + 1.46 3
= 1.367
书签b4=(d2,u2,t1)的权重值为:
w ( d 2 , u 2 , t 1 ) = 1 3 · W T ( u 2 , d 2 ) [ t 1 ] + 1 3 · W U ( t 1 , d 2 ) [ u 2 ] + 1 3 · W D ( t 1 , u 2 ) [ d 2 ]
= 1.69 + 1.09 + 1.26 3
= 1.347
书签b5=(d1,u3,t2)的权重值为:
w ( d 1 , u 3 , t 2 ) = 1 3 · W T ( u 3 , d 1 ) [ t 2 ] + 1 3 · W U ( t 2 , d 1 ) [ u 3 ] + 1 3 · W D ( t 2 , u 3 ) [ d 1 ]
= 1.59 + 1.05 + 1.46 3
= 1.367
书签b6=(d2,u3,t1)的权重值为:
w ( d 2 , u 3 , t 1 ) = 1 3 · W T ( u 3 , d 2 ) [ t 1 ] + 1 3 · W U ( t 1 , d 2 ) [ u 3 ] + 1 3 · W D ( t 1 , u 3 ) [ d 2 ]
= 1.69 + 1.09 + 1.26 3
= 1.347
步骤8,根据得到的书签权重,选择权值较大的标签作为索引。
标签t1的权值:
w(t1)=w(d2,u2,t1)+w(d2,u3,t1)+w(d1,u1,t1)=1.347+1.347+1.263=3.957
标签t2的权值:
w(t2)=w(d1,u2,t2)+w(d1,u3,t2)+w(d1,u1,t2)=1.367+1.367+1.37=4.104
因为标签t2的权重大于标签t1的权值,所以以标签t2对文档信息有较好的区分度,选择标签t2作为搜索标签内容,提高了搜索效率。

Claims (7)

1.一种基于文档标签表征的推荐方法,包括如下步骤:
(1)从数据库中读入书签信息,并获得用户想要推荐的内容;
(2)根据读入的书签信息,初始化相关矩阵:
初始化用户标签矩阵为MUT(i,j),用于表示第i个用户使用第j个标签的次数,
初始化文档标签矩阵为MDT(i,j),用于表示第i个文档被第j个标签描述的次数,
初始化文档用户矩阵为MDU(i,j),用于表示第i个用户描述第j个文档的次数,
其中i和j均为大于0的整数;
(3)矩阵标准化:
使用公式 M UT ( p , q ) = M UT ( i , j ) · log - 1 ( 1 + Σ k M UT ( i , k ) ) 对用户标签矩阵进行标准化,其中MUT(p,q)表示标准化后的用户标签矩阵,
使用公式 M DT ( p , q ) = M DT ( i , j ) · log - 1 ( 1 + Σ k M DT ( i , k ) ) 对文档标签矩阵进行标准化,其中MDT(p,q)表示标准化后的文档标签矩阵,
使用公式 M DU ( p , q ) = M DU ( i , j ) · log - 1 ( 1 + Σ k M DU ( i , k ) ) 对文档用户矩阵进行标准化,其中MDU(p,q)表示标准化后的文档用户矩阵;
(4)生成相似度矩阵:
4a)根据标准化后的用户标签矩阵和初始用户信息,计算该用户在标签空间下与其他用户的相似度,得到标签空间下用户相似度矩阵SU|T(u1);根据标准化后的文档用户矩阵和初始用户信息,计算该用户在文档空间下与其他用户的相似度,得到文档空间下用户相似度矩阵SU|D(u1);
4b)根据标准化后的用户标签矩阵和初始标签信息,计算该标签在用户空间下与其他标签的相似度,得到用户空间下标签相似度矩阵ST|U(t1);根据标准化后的文档标签矩阵和初始标签信息,计算该标签在文档空间下与其他标签的相似度,得到文档空间下标签相似度矩阵ST|D(t1);
4c)根据标准化后的文档标签矩阵和初始文档信息,计算该文档在标签空间下与其他文档的相似度,得到标签空间下文档相似度矩阵SD|T(d1);根据标准化后的文档用户矩阵和初始文档信息,计算该文档在用户空间下与其他文档的相似度,得到用户空间下文档相似度矩阵SD|U(d1);
(5)选择推荐内容,得到权重矩阵:
5a)对于需要进行标签推荐的用户,通过如下公式计算标签权重矩阵:
WT(u1,d1)=αSU|T(u1)MUT+(1-α)SD|T(d1)MDT
其中,α为比例系数,取值范围为0到1;
5b)对于需要进行用户推荐的用户,通过如下公式计算用户权重矩阵:
WU(t1,d1)=αST|U(t1)MTU+(1-α)SD|U(d1)MDU
5c)对于需要进行文档推荐的用户,通过如下公式计算文档权重矩阵:
WD(t1,u1)=αST|D(t1)MTD+(1-α)SU|D(u1)MUD
(6)根据权重矩阵,得到推荐结果:
对于需要进行标签推荐的用户,将标签权重矩阵WT(u1,d1)中权值最大的项作为标签推荐结果;
对于需要进行用户推荐的用户,将用户权重矩阵WU(t1,d1)中权值最大的项作为用户推荐结果;
对于需要进行文档推荐的用户,将文档权重矩阵WD(t1,u1)中权值最大的项作为文档推荐结果;
(7)计算书签权重值
根据步骤(5)中计算得到的标签权重矩阵、用户权重矩阵、文档权重矩阵,通过如下的公式计算书签(d1,u1,t1)的权重值:
w(d1,u1,t1)=γ1WT(u1,d1)[t1]+γ2WU(t1,d1)[u1]+γ3WD(t1,u1)[d1]
其中,WT(u1,d1)[t1]表示在标签权重矩阵中标签t1的权重,WU(t1,d1)[u1]表示在用户权重矩阵中用户u1的权重,WD(t1,u1)[d1]表示在文档权重矩阵中文档d1的权重;γ1表示WT(u1,d1)[t1]的比例系数,γ2表示WU(t1,d1)[u1]的比例系数,γ3表示WD(t1,u1)[d1]的比例系数,γ1、γ2、γ3的取值范围均为0到1且γ123=1;
(8)权值较大的书签对文档信息有较好的区分度。根据得到的书签权重,选择权值较大的标签作为搜索标签内容,提高了搜索效率。
2.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4a)所述的计算标签空间下用户相似度矩阵SU|T(u1),公式如下:
SU|T(u1)={SU|T(u1)[u1],SU|T(u1)[u2],…,SU|T(u1)[un]}
其中,
Figure FDA00002253967900031
表示在标签空间下用户u1与ui的相似度;
式中,i=1…n,n表示用户的数量;
Figure FDA00002253967900032
表示在MUT矩阵中向量u1与向量ui的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的。
3.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4a)所述的计算文档空间下用户相似度矩阵SU|D(u1),公式如下:
SU|D(u1)={SU|D(u1)[u1],SU|D(u1)[u2],…,SU|D(u1)[un]}
其中,表示在文档空间下用户u1与ui的相似度;
式中,i=1…n,n表示用户的数量;表示在MUD矩阵中向量u1与向量ui的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的。
4.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4b)所述的计算用户空间下标签相似度矩阵ST|U(t1),公式如下:
ST|U(t1)={ST|U(t1)[t1],ST|U(t1)[t2],…,ST|U(t1)[tn]}
其中,
Figure FDA00002253967900035
表示在用户空间下标签t1与ti的相似度;
式中,i=1…n,n表示标签的数量;
Figure FDA00002253967900036
表示在MTU矩阵中向量t1与向量ti的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的。
5.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4b)所述的计算文档空间下标签相似度矩阵ST|D(t1),公式如下:
ST|D(t1)={ST|D(t1)[t1],ST|D(t1)[t2],…,ST|D(t1)[tn]}
其中,
Figure FDA00002253967900041
表示在文档空间下标签t1与ti的相似度;
式中,i=1…n,n表示标签的数量;
Figure FDA00002253967900042
表示在MTD矩阵中向量t1与向量ti的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的。
6.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4c)所述的计算标签空间下文档相似度矩阵SD|T(d1),公式如下:
SD|T(d1)={SD|T(d1)[d1],SD|T(d1)[d2],…,SD|T(d1)[dn]}
其中,
Figure FDA00002253967900043
表示在标签空间下文档d1与di的相似度;
式中,i=1…n,n表示文档的数量;表示在矩阵MDT中向量d1与向量di的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的。
7.根据权利1所述的一种基于文档标签表征的推荐方法,其特征在于,步骤4c)所述的计算用户空间下文档相似度矩阵SD|U(d1),公式如下:
SD|U(d1)={SD|U(d1)[d1],SD|U(d1)[d2],…,SD|U(d1)[dn]}
其中,
Figure FDA00002253967900045
表示在用户空间下文档d1与di的相似度;
式中,i=1…n,n表示文档的数量;表示在矩阵MDU中向量d1与向量di的余弦相似度;β表示整个架构的缩放比例参数,β=0时认为所有向量是独立的,β→∞时认为所有向量都是相同的。
CN2012103918016A 2012-10-15 2012-10-15 基于文档标签表征的推荐方法 Pending CN102929975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012103918016A CN102929975A (zh) 2012-10-15 2012-10-15 基于文档标签表征的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012103918016A CN102929975A (zh) 2012-10-15 2012-10-15 基于文档标签表征的推荐方法

Publications (1)

Publication Number Publication Date
CN102929975A true CN102929975A (zh) 2013-02-13

Family

ID=47644773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103918016A Pending CN102929975A (zh) 2012-10-15 2012-10-15 基于文档标签表征的推荐方法

Country Status (1)

Country Link
CN (1) CN102929975A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544135A (zh) * 2013-10-24 2014-01-29 哈尔滨工业大学 一种结合限制数据的特征权值量化方法
CN103823868A (zh) * 2014-02-26 2014-05-28 中国科学院计算技术研究所 一种面向在线百科的事件识别方法和事件关系抽取方法
CN105224507A (zh) * 2015-09-29 2016-01-06 杭州天宽科技有限公司 一种基于张量分解的缺失关联规则挖掘方法
CN105939388A (zh) * 2016-06-28 2016-09-14 华为技术有限公司 一种推送业务内容的方法和内容控制器
CN107239993A (zh) * 2017-05-24 2017-10-10 海南大学 一种基于拓展标签的矩阵分解推荐方法及系统
CN109522401A (zh) * 2018-09-19 2019-03-26 咪咕数字传媒有限公司 一种信息推荐方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408886A (zh) * 2007-10-05 2009-04-15 富士通株式会社 通过分析文档的段落来选择该文档的标签
CN102004722A (zh) * 2010-10-19 2011-04-06 北京红旗中文贰仟软件技术有限公司 信息文档的处理方法及装置
US20110219011A1 (en) * 2009-08-30 2011-09-08 International Business Machines Corporation Method and system for using social bookmarks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408886A (zh) * 2007-10-05 2009-04-15 富士通株式会社 通过分析文档的段落来选择该文档的标签
US20110219011A1 (en) * 2009-08-30 2011-09-08 International Business Machines Corporation Method and system for using social bookmarks
CN102004722A (zh) * 2010-10-19 2011-04-06 北京红旗中文贰仟软件技术有限公司 信息文档的处理方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544135A (zh) * 2013-10-24 2014-01-29 哈尔滨工业大学 一种结合限制数据的特征权值量化方法
CN103823868A (zh) * 2014-02-26 2014-05-28 中国科学院计算技术研究所 一种面向在线百科的事件识别方法和事件关系抽取方法
CN105224507A (zh) * 2015-09-29 2016-01-06 杭州天宽科技有限公司 一种基于张量分解的缺失关联规则挖掘方法
CN105939388A (zh) * 2016-06-28 2016-09-14 华为技术有限公司 一种推送业务内容的方法和内容控制器
CN105939388B (zh) * 2016-06-28 2019-03-19 华为技术有限公司 一种推送业务内容的方法和内容控制器
CN107239993A (zh) * 2017-05-24 2017-10-10 海南大学 一种基于拓展标签的矩阵分解推荐方法及系统
CN109522401A (zh) * 2018-09-19 2019-03-26 咪咕数字传媒有限公司 一种信息推荐方法及装置

Similar Documents

Publication Publication Date Title
Mulet-Forteza et al. A bibliometric research in the tourism, leisure and hospitality fields
CN104935963B (zh) 一种基于时序数据挖掘的视频推荐方法
CN103886067B (zh) 使用标签隐含主题进行图书推荐的方法
CN102982131B (zh) 一种基于马尔科夫链的图书推荐方法
Ashrafi et al. The efficiency of the hotel industry in Singapore
CN102929975A (zh) 基于文档标签表征的推荐方法
CN105976229A (zh) 一种基于用户和项目混合的协同过滤算法
CN103440329A (zh) 权威作者和高质量论文推荐系统和推荐方法
CN104834686A (zh) 一种基于混合语义矩阵的视频推荐方法
CN104915734A (zh) 基于时间序列的商品热度预测方法和系统
CN102004774A (zh) 基于统一概率模型的个性化用户标签建模与推荐方法
Bano et al. The nexus of tourism, renewable energy, income, and environmental quality: an empirical analysis of Pakistan
CN102929928A (zh) 基于多维相似度的个性化新闻推荐方法
CN105426514A (zh) 个性化的移动应用app推荐方法
Lu et al. Scalable news recommendation using multi-dimensional similarity and Jaccard–Kmeans clustering
CN104281956A (zh) 基于时间信息的适应用户兴趣变化的动态推荐方法
CN104077415A (zh) 搜索方法及装置
Daum et al. A novel feasible discretization method for linear semi-infinite programming applied to basket option pricing
CN105930507A (zh) 一种获得用户的Web浏览兴趣的方法及装置
CN105426550A (zh) 一种基于用户质量模型的协同过滤标签推荐方法及系统
CN105488213A (zh) 面向lbs的基于马尔可夫预测算法的个性化推荐方法
CN106528812A (zh) 一种基于usdr模型的云推荐方法
CN112801425B (zh) 信息点击率的确定方法、装置、计算机设备和存储介质
CN104008204A (zh) 一种动态的多维情境感知电影推荐系统及其实现方法
Song et al. Personalized recommendation based on weighted sequence similarity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130213