CN103324648A - 一种获取用户和文档个性化特征的方法和系统 - Google Patents

一种获取用户和文档个性化特征的方法和系统 Download PDF

Info

Publication number
CN103324648A
CN103324648A CN2012100866819A CN201210086681A CN103324648A CN 103324648 A CN103324648 A CN 103324648A CN 2012100866819 A CN2012100866819 A CN 2012100866819A CN 201210086681 A CN201210086681 A CN 201210086681A CN 103324648 A CN103324648 A CN 103324648A
Authority
CN
China
Prior art keywords
document
user
vector
parameter vector
ordering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100866819A
Other languages
English (en)
Inventor
祁勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2012100866819A priority Critical patent/CN103324648A/zh
Publication of CN103324648A publication Critical patent/CN103324648A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种获取用户和文档个性化特征的方法和系统。所述方法通过用户访问文档的信号,来自动地更新用户和文档的个性化特征。用户的个性化特征,依据所述用户访问过的文档的个性化特征进行更新;文档的个性化特征,依据访问过所述文档的用户的个性化特征进行更新。根据获取的用户和文档的个性化特征,可对网页排序算法进行优化以实现个性化的文档排序;根据用户和文档的个性化特征,可对社交网络中获得的信息做进一步的过滤和筛选。本发明还提出了一种获取用户和文档个性化特征的系统。本发明方法能够提高搜索引擎的查准率和网页排名算法的反作弊能力,并且能够提高社交网络检索信息的效率。

Description

一种获取用户和文档个性化特征的方法和系统
技术领域
本发明涉及互联网领域,具体来说涉及一种获取用户和文档个性化特征的方法和系统。
背景技术
搜索引擎和社交网络是互联网上获取网络信息的主要工具。但是这两种工具存在一个共同的缺点,即没有考虑到用户和文档的个性化特征在信息检索中的作用。
搜索引擎是利用信息检索技术进行大规模的网页收集、索引、排序,以及根据排序结果将网页呈现给查询用户的应用程序。搜索引擎的核心技术是排序算法。最为有效的排序算法是超链分析算法,例如谷歌的PageRank算法。超链分析算法的输入是由网页设计者根据其主观意愿构建的网页链接关系,尽管它充分反映了网页设计者的个人偏好和对网页链接关系的理解,但是它却没有反映出搜索引擎的使用者-用户的个人偏好。由于从事不同行业或具有不同爱好的用户对同一个网页的重要性评价通常是不同的,而PageRank等超链分析算法无法进行这种区分,它们只能对每个网页给出唯一的网页排名,因此,超链分析算法的设计是有缺陷的。一个可行的解决方案是结合用户和网页的个性化特征来改进搜索结果,使得每个网页的排名不仅依赖于网页之间的链接关系,而且依赖于提交搜索查询的用户和被查询的网页的个性化特征。有分析表明,借助用户和网页的个性化特征,能够提高搜索引擎的查准率,减少用户对无效信息的扫描和浏览。
社交网络是在互联网上人们彼此之间进行沟通的平台。社交网络每天发布的信息已达数亿条。虽然在社交网络中用户可以通过其关系网络来过滤和筛选信息,例如通过加关注(follow)获得他人的信息或通过点击喜欢(like)按钮帮助其他人筛选信息等,但是目前在微博和脸谱(Facebook)等社交网络中已经出现了信息过载现象。由于担心有重要的或者有趣的信息被遗漏,用户通常会在社交网络中关注更多的人或者加入更多的好友。研究发现当朋友数量超过邓巴数(Dunbar)150之后,社交网络将会逐渐演变成为一种对用户进行“信息轰炸”的服务。另外,用户关系网络中的好友发送的每条信息,也未必都是用户所需要的。例如在微博中用户A关注了用户B,即使用户A只对用户B发布的某类信息感兴趣,用户A也不得不接收来自用户B发布的所有信息,而不能有选择地接收这些信息。一个可行的解决方案是结合用户和信息本身的个性化特征来过滤和筛选这些信息,使得用户在社交网络上获得的信息不仅依赖于用户自己建立的关系网络,而且依赖于用户和信息本身的个性化特征。为表述方便起见,本文把社交网络中的一条信息,如一条微博,也当作一个文档。有分析表明,结合用户和文档的个性化特征能够对社交网络上的海量信息进行有效地过滤和筛选,进而提高社交网络的信息检索效率。
从上述分析看出,用户和文档的个性化特征在信息检索领域能够发挥重要的作用。但是在互联网上获取用户和文档的个性化特征通常是困难的,主要有以下几个难点。第一是个性化信息的自动获取问题。据估算目前互联网上有数千亿个网页和二十亿用户,手工维护网页文档和用户的个性化特征是不现实的。如何自动获取用户和网页文档的个性化特征是一个难题。第二是个性化信息的更新问题。随着时间的推移,用户的兴趣爱好、工作地点、从事的行业和教育程度等个人信息会发生改变,但是要求大多数用户实时地更新其个性化信息是困难的。第三是个性化信息的语义差异问题。在用户设置的个性化特征中,术语不同但语义相同的个性化特征,难以进行有效归类。第四是个性化信息的完备性问题。用户在网站上提供的个人信息通常比较简略。例如用户兴趣爱好的典型描述是喜欢音乐、打棒球或看书等几项内容,而要求用户全面地细致地描述出其感兴趣的领域是困难的。
综上所述,如何有效地获取用户和文档的个性化特征,并根据所述个性化特征来提高搜索引擎的查准率以及提高社交网络的信息检索效率,是一个亟待解决的问题。
发明内容
鉴于上述现有技术存在的问题,本发明的目的在于提供一种获取用户和文档个性化特征的方法和系统,来自动获取用户和文档的个性化特征,进而根据所述个性化特征,提高用户在互联网上检索信息的效率。
根据以上所述的目的,本发明提出了一种获取用户和文档个性化特征的方法,其特征在于,
获取并存储由多个文档组成的文档集D={1,2,...,M},获取并存储由多个用户组成的用户集U={1,2,...,N},设置并存储特征集K={1,2,...,L};
为所述文档集D中的部分文档设置参数向量初始值以及为所述用户集U中的部分用户设置参数向量初始值;
多次执行如下参数向量更新算法:
接收任意一个用户j(j∈U)访问任意一个文档i(i∈D)的信号;
根据所述信号中包含的所述文档i的标识,读取所述文档i的参数向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL),所述dwik表示所述文档i与特征k(k∈K)的相关度;
根据所述信号中包含的所述用户j的标识,读取所述用户j的参数向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),所述uwjk表示所述用户j与特征k(k∈K)的相关度;
更新所述文档i和所述用户j的参数向量,即
Kd *(i)=function1[Kd(i),Ku(j)];
Ku *(j)=function2[Kd(i),Ku(j)];
其中所述Kd(i)和所述Kd *(i)分别表示更新前和更新后所述文档i的参数向量,所述Ku(j)和所述Ku *(j)分别表示更新前和更新后所述用户j的参数向量。
与现有技术相比,本发明方法根据获取的用户和文档的参数向量,实现了个性化的文档排序算法,提高了搜索引擎的查准率;根据获取的文档和用户的参数向量,提高了社交网络的信息检索效率。另外,由于使用了文档和用户的个性化特征,因此,本专利方法能够提高网页排序算法的反作弊能力。
附图说明
图1为在文档集D中每个文档的参数向量表示方法;
图2为在用户集U中每个用户的参数向量表示方法;
图3为文档和用户的参数向量更新算法流程图;
图4为在文档集D中每个文档的排序向量表示方法;
图5为基于查询向量和排序向量的个性化文档排序方法流程图;
图6为基于查询向量和参数向量的个性化文档排序方法流程图;
图7为一种获取用户和文档个性化特征的系统结构图。
具体实施方式
结合附图对本发明方法作进一步详细说明。
对本专利方法的具体实施方案说明,包括以下几个部分。首先,说明文档、用户和特征的编号方法,以及文档和用户的参数向量表示方法;然后,说明文档和用户的参数向量更新算法;再后,说明文档的排序向量表示方法以及基于文档参数向量的文档排序算法;最后,说明一种获取用户和文档个性化特征的方法和系统。
首先说明文档、用户和特征的编号方法。在互联网上获取多个文档,例如通过蜘蛛程序获取多个Web网页。互联网上的文档,具有唯一标识,例如Web网页的URL地址。我们将所述文档的标识进行统一编号,就得到了文档集D={1,2,...,M},其中M为文档个数。文档标识与其编号一一对应。同样,在互联网上获取多个用户,每个用户具有唯一标识,例如用户帐号、手机号码、Cookie识别码、IP地址、Email地址和即时通信号码等。我们将所述用户的标识进行统一编号,就得到了用户集U={1,2,...,N},其中N为用户个数。用户标识与其编号一一对应。
选取多个文档和用户共同具有的特征,并对所述特征进行统一编号,形成特征集K={1,2,...,L},其中L为特征个数。所述特征表示用户和文档的属性,例如新闻、财经、科学、音乐、军事和体育等等。所述特征既能描述文档的属性,又能描述用户的属性。例如,一个文档具有“科学”特征,说明该文档的内容与“科学”相关;而一个用户具有“科学”特征,说明该用户喜爱与“科学”相关的话题。
下面介绍文档和用户的参数向量的表示方法。所述表示方法与向量空间模型VSM的向量表述方法相似,即以特征项作为文档或用户的特征的基本单位。用文档与各个特征的相关度的集合来表示文档的参数向量;用用户与各个特征的相关度的集合来表示用户的参数向量。
图1为在文档集D中每个文档的参数向量表示方法。在文档集D中任意一个文档i(i∈D)的参数向量设置为Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL),其中所述dwik表示所述文档i与特征k(k∈K)的相关度,dwik∈[a,b],a和b为非负常数。另外,将所述文档集D中的每个文档的第k个特征的相关度汇集在一起,组成一个向量,叫做文档集D的第k个文档列向量(dw1k,dw2k,...,dwik,...,dwMk)。
图2为在用户集U中每个用户的参数向量表示方法。在用户集U中任意一个用户j(j∈U)的参数向量设置为Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),其中所述uwjk表示所述用户j与特征k(k∈K)的相关度,uwjk∈[a,b],a和b为非负常数。另外,将所述用户集U中的每个用户的第k个特征的相关度汇集在一起,组成一个向量,叫做用户集U的第k个用户列向量(uw1k,uw2k,...,uwjk,...,uwNk)。
所述相关度是一个实数值,它表示文档或者用户与特征集K中的某个特征的关系紧密程度。如果一个文档或者用户与音乐特征关联多一点与体育特征关联少一点,我们就说该文档或者用户与音乐特征的相关度高,与体育特征的相关度低。另外,有些特征之间是具有相关性的,例如物理和力学,因此在特征选择时可以通过减少特征之间的相关性来降低特征集K的维度,减少对服务器存储空间的需求,提高算法效率。有些特征不必直接列入特征集中,因为这些特征的相关度可以通过特征集K中一个或几个其它特征的相关度计算出来。
下面说明文档和用户的参数向量的更新方法。首先,通过三个例子说明部分文档和部分用户的参数向量初始值设置方法,然后,说明文档和用户的参数向量更新算法。如果文档或用户的参数向量没有被设置初始值,其参数向量初始值缺省设为零向量。
例1是人工设置文档i(i∈D)或者用户j(j∈D)的参数向量初始值的方法。例如设置特征总数L=5,特征集K=(科学,财经,教育,音乐,体育),设置Kd(i)=(dwi1,dwi2,dwi3,dwi4,dwi5)=(0,0.00032,0,0.00059,0)。即文档i与“财经”特征的相关度为0.00032,与“音乐”特征的相关度为0.00059,与其它特征的相关度为零。同样,使用类似方法可以设置用户参数向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL)的初始值。
例2是设置用户j(j∈U)的参数向量初始值的方法。由所述用户j提交的一组文档集合
Figure BSA00000692530200051
所述文档r(r∈H)的参数向量为Kd(r)=(dwr1,dwr2,...,dwrL),因此,对于每个k∈K,设置uwjk=(σ1/s)·∑(r∈H)[dwrk/(∑(k∈K)dwrk)],其中s为所述集合H的元素个数,σ1为设定常数。使用类似方法,所述用户j也可以在所述用户集U中选择一组用户来计算所述用户j的参数向量初始值。
例3是一种设置文档的参数向量初始值的方法。目录是一种特殊文档,有相应的文档编号。我们假设相同目录下的文档具有某些相同的特征,例如体育目录下的文档都与体育相关。如果文档i(i∈D)是目录n(n∈D)下的一个文档,则所述文档i的参数向量初始值由所述目录n的参数向量来决定。例如,对于每个k∈K,设置dwik=σ2·dwnk,其中σ2为常数。
图3为文档和用户的参数向量更新算法流程图。所述参数向量更新算法,包括如下具体步骤:
S11.获取并存储由多个文档组成的文档集D={1,2,...,M},获取并存储由多个用户组成的用户集U={1,2,...,N},设置并存储特征集K={1,2,...,L};
S12.为所述文档集D中的部分文档设置参数向量初始值,以及为所述用户集U中的部分用户设置参数向量初始值;
S13.接收任意一个用户j(j∈U)访问任意一个文档i(i∈D)的信号;
S14.根据所述信号中包含的所述文档i的标识,读取所述文档i的参数向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL),其中所述dwik表示所述文档i与特征k(k∈K)的相关度;
S15.根据所述信号中包含的所述用户j的标识,读取所述用户j的参数向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),其中所述uwjk表示所述用户j与特征k(k∈K)的相关度;
S16.更新所述文档i和所述用户j的参数向量,即
Kd *(i)=function1[Kd(i),Ku(j)];
Ku *(j)=function2[Kd(i),Ku(j)];
在执行完所述步骤S16后,返回所述步骤S13。
其中所述Kd(i)和所述Kd *(i)分别表示更新前和更新后所述文档i的参数向量,所述Ku(j)和所述Ku *(j)分别表示更新前和更新后所述用户j的参数向量,所述Kd *(i)=(dwi1 *,dwi2 *,...,dwik *,...,dwiL *),所述Ku *(j)=(uwj1 *,uwj2 *,...,uwjk *,...,uwjL *);所述function1表示Kd *(i)是Kd(i)和Ku(j)的函数,所述function2表示Ku *(j)是Kd(i)和Ku(j)的函数。
在图3所述方法中,执行完所述步骤S16之后并且在返回所述步骤S13之前,还包括更新所述Kd(i)和所述Ku(j)的步骤,即设置Kd(i)=Kd *(i)和Ku(j)=Ku *(j)。两个向量相等的含义是两个向量的各个分量相等。
在图3所述方法中,所述信号的类型是以下类型中的一种:T=1表示所述用户j点击所述文档i的链接,T=2表示所述用户j键入所述文档i的地址,T=3表示所述用户j给所述文档i设置标签,T=4表示所述用户j将所述文档i设置为书签,T=5表示所述用户j将所述文档i设置为喜欢(如脸谱的Like和谷歌的+1),T=6表示所述用户j转发所述文档i,T=7表示所述用户j评论所述文档i。在图3所述方法的一个应用实例中,所述信号是从Web日志中采集的。所述Web日志,包括服务器日志(server log)、错误日志(error log)和Cookie日志等。
在图3所述方法的一个应用实例中,所述方法满足Kd *(i)≥Kd(i)且Ku *(j)≥Ku(j)。其中不等式Kd *(i)≥Kd(i)的含义是对于任意k∈K,有dwik *≥dwik;不等式Ku *(j)≥Ku(j)的含义是对于任意k∈K,有uwjk *≥uwjk
在图3所述方法的一个应用实例中,所述Kd *(i)的向量分量dwik *是所述uwjk的增函数,是∑(k∈K)uwjk的减函数;所述Ku*(j)的向量分量uwjk *是所述dwik的增函数,是∑(k∈K)dwik的减函数。
在图3所述方法中,在执行所述参数向量更新算法达到设定次数t1后,在每个特征k∈K下,对文档列向量(dw1k,dw2k,...,dwik,...,dwMk)进行归一化处理(normalization);在执行所述参数向量更新算法达到设定次数t2后,在每个特征k∈K下,对用户列向量(uw1k,uw2k,...,uwjk,...,uwNk)进行归一化处理,其中所述次数t1和所述次数t2都为正整数。所述设定次数的含义是,将所述Kd(i)和所述Ku(j)分别带入所述function1和所述function2,得到所述Ku *(j)和所述Kd *(i)的过程,就叫做执行了一次参数向量更新算法。
所述归一化方法的具体应用实例如下:
例1:对所述文档集D中第k个文档列向量(dw1k,dw2k,...,dwik,...,dwNk)进行归一化处理的方法,包括对于每个i∈D设置dwik=dwik/(∑(t∈D)dwtk);对用户集U中第k个用户列向量(uw1k,uw2k,...,uwjk,...,uwNk)进行归一化处理的方法,包括对于每个j∈U设置uwjk=uwjk/(∑(t∈U)uwtk)。
例2:在所述文档集D的第k个文档列向量(dw1k,dw2k,...,dwik,...,dwMk)中随机抽取R个数据并对它们进行排序,得到集合{s1,s2,...,sR},且s1<s2<...<sR。对于每个i∈D,如果sm≤dwik≤sm+1,则设置dwik=g(sm);如果dwik≤sm,则设置dwik=a;如果dwik≥sm+1,则设置dwik=b。其中g(sm)为增函数,g(sm)∈[a,b],a和b为非负常数。使用同样方法,可对所述用户集U中第k个用户列向量(uw1k,uw2k,...,uwjk,...,uwNk)进行归一化处理。
应用实例1
这是图3所述参数向量更新算法的一个应用实例,所述应用实例使用如下具体算法来更新所述文档i(i∈D)的参数向量Kd *(i)和所述用户j(j∈U)的参数向量Ku *(j),即
dwik *=dwik1(i,j,T)·f1[Ku(j)]    (对于每个
Figure BSA00000692530200081
)
uwjk *=uwjk2(i,j,T)·f2[Kd(i)]    (对于每个
Figure BSA00000692530200082
)
其中,所述dwik和所述dwik *分别表示更新前和更新后所述文档i的参数向量的第k个分量,所述uwjk和所述uwjk *分别表示更新前和更新后所述用户j的参数向量的第k个分量;所述λ1(i,j,T)为在所述信号的类型T下,所述用户j对所述文档i的影响系数,所述λ2(i,j,T)为在所述信号的类型T下,所述文档i对所述用户j的影响系数。所述DKi是由所述文档i的参数向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL)中数值最大的Pi个分量所对应的特征组成的集合,所述UKj是由所述用户j的参数向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL)中数值最大的Qj个分量所对应的特征组成的集合,Pi和Qj为设定参数。例如i=30,P30=3,DK30={文学,计算机,生物学};j=265,Q265=2,UK265={科学,历史}。所述具体算法还包括在执行所述具体算法之后进行以下设置,即对于每个k∈DKi,设置uwjk=uwjk *;对于每个k∈UKj,设置dwik=dwik *
在所述应用实例1中,所述具体算法可以被进一步限定为对于每个k∈DKi,满足uwjk *≥uwjk;对于每个k∈UKj,满足dwik *≥dwik
在所述应用实例1中,所述f1[Ku(j)]是所述用户j的参数向量Ku(j)的函数,所述f2[Kd(i)]是所述文档i的参数向量Kd(i)的函数。所述f1[Ku(j)]和所述f2[Kd(i)]的具体实现方法包括:
例1:所述f1[Ku(j)]是所述uwjk的增函数,是∑(k∈K)uwjk的减函数;所述f2[Kd(i)]是所述dwik的增函数,是∑(k∈K)dwik的减函数。
例2:f1[Ku(j)]=σ3·uwjk/(∑(k∈K)uwjk),f2[Kd(i)]=σ4·dwik/(∑(k∈K)dwik),其中σ3和σ4为设定常数。
例3:f1[Ku(j)]=σ5·uwjk,f2[Kd(i)]=σ6·dwik,其中σ5和σ6为设定常数。
例4:f1[Ku(j)]=σ7·{1/[1+exp(-uwjk)]},f2[Kd(i)]=σ8·{1/[1+exp(-dwik)]},其中σ7和σ8为设定常数。
在所述应用实例1中,所述λ1(i,j,T)和所述λ2(i,j,T)的具体实现方法包括:
例1:所述λ1(i,j,T)和所述λ2(i,j,T)分别是所述文档i和所述用户j的参数向量之间数学距离sim(i,j)的函数。例如λ1(i,j,T)=c1·sim(i,j),λ2(i,j,T)=c2·sim(i,j),其中sim(i,j)=||Kd(i),Ku(j)||=[∑k(dwik·uwjk)]/{[∑k(dwik)2]1/2·[∑k(uwjk)2]1/2},c1和c2为设定常数。这个例子的含义是文档和用户的参数向量之间的数学距离越大,它们的相似程度越高,那么它们彼此“投票”的比例系数越大。
例2:所述λ1(i,j,T)=u1(j)·d1(i),所述λ2(i,j,T)=u2(j)·d2(i),其中u1(j)表示用户j的参数向量是否可以用于更新文档集D中文档的参数向量,d1(i)表示文档i的参数向量是否可以被用户集U中用户的参数向量更新,u2(j)表示用户j的参数向量是否可以被文档集D中文档的参数向量更新,d2(i)表示文档i的参数向量是否可以用于更新用户集U中用户的参数向量。u1(j),u2(j),d1(i)和d2(i)是设定参数,它们的取值为0或者1。1代表是,0代表否。这个例子的含义是为防止恶意攻击,有些经过可靠性认证的文档(或用户),其参数向量不能被其它用户(或文档)的参数向量所更新;而有些文档(或用户)由于没有经过可靠性认证,其参数向量不能对其它用户(或文档)的参数向量进行更新。
例3:所述λ1(i,j,T)=s1(T),所述λ2(i,j,T)=s2(T)。其中所述T为用户访问文档信号的类型,所述s1(T)和所述s2(T)是设定常数。
例4:使用上述例1~3的方法组合来生成所述λ1(i,j,T)和λ2(i,j,T)。例如
λ1(i,j,T)={c1·sim(i,j)}·{u1(j)·d1(i)}·s1(T)
λ2(i,j,T)={c2·sim(i,j)}·{u2(j)·d2(i)}·s2(T)。
例5:所述λ1(i,j,T)和所述λ2(i,j,T)为设定常数。
在所述应用实例1中,当执行所述具体的参数向量更新算法达到设定次数后,需要针对每个特征k∈K,分别对文档列向量(dw1k,dw2k,...,dwik,...,dwMk)和用户列向量(uw1k,uw2k,...,uwjk,...,uwNk)进行归一化处理。
应用实例2
这是所述应用实例1的一个具体应用举例。为了便于说明,我们假设在互联网上有两个用户和三个文档,每个用户和每个文档均有两个特征,即用户集U={1,2},文档集D={1,2,3},特征集K={1,2}。用户1和用户2的参数向量分别为(uw11,uw12)和(uw21,uw22),文档1、文档2和文档3的参数向量分别为(dw11,dw12)、(dw21,dw22)和(dw31,dw32)。其中uwjk(j∈U,k∈K)表示所述用户j与特征k的相关度;dwik(i∈D,k∈K)表示所述文档i与特征k的相关度。
假设收到了所述用户2访问所述文档3的信号,且信号类型T=1,则根据如下参数向量更新算法,更新所述文档3和所述用户2的参数向量:
dw31 *=dw311(2,3,1){uw21/(uw21+uw22)}
dw32 *=dw321(2,3,1){uw22/(uw21+uw22)}
uw21 *=uw212(2,3,1){dw31/(dw31+dw32)}
uw22 *=uw222(2,3,1){dw32/(dw31+dw32)}
其中λ1(2,3,1)表示在信号类型T=1下,所述用户2对所述文档3的影响系数;λ2(2,3,1)表示在信号类型T=1下,所述文档3对所述用户2的影响系数。例如设λ1(2,3,1)=c1·sim(2,3)·s1(1);λ2(2,3,1)=c2·sim(2,3)·s2(1),设s1(1)=s2(1)=1.5;c1和c2为设定常数;所述sim(2,3)表示所述用户2和所述文档3的参数向量之间的数学距离,即:
sim(2,3)=(uw21·dw31+uw22·dw32)/{[(uw21)2+(uw22)2]1/2·[(dw31)2+(dw32)2]1/2}。
在执行完上述算法后,更新所述文档3和所述用户2的参数向量,即设置dw31=dw31 *,dw32=dw32 *,uw21=uw21 *和uw22=uw22 *
当执行参数向量更新算法达到预设次数后,需要对用户列向量(uw11,uw21)和(uw12,uw22)进行归一化处理,以及对文档列向量(dw11,dw21,dw31)和(dw12,dw22,dw32)进行归一化处理。归一化处理算法如下:
nw11=uw11/(uw11+uw21),uw21=uw21/(uw11+uw21);(对特征k=1)
uw12=uw12/(uw12+uw22),uw22=uw22/(uw12+uw22);(对特征k=2)
dw11=dw11/(dw11+dw21+dw31),dw21=dw21/(dw11+dw21+dw31),
dw31=dw31/(dw11+dw21+dw31);(对特征k=1)
dw12=dw12/(dw12+dw22+dw32),dw22=dw22/(dw12+dw22+dw32),
dw32=dw32/(dw12+dw22+dw32);(对特征k=2)。
应用实例3
下面说明根据参数向量更新算法而获得的用户和文档的参数向量,在个性化搜索方面的一个应用实例。搜索引擎的核心技术是排序算法,其中最著名的是PageRank算法,因此以PageRank算法为例进行说明。标准的PageRank算法可以用如下公式表示。
PR ( m ) = 1 - d M + d Σ i ∈ T PR ( i ) C ( i ) - - - ( 1 )
其中,集合
Figure BSA00000692530200112
为网页m(m∈D)的链入网页集合,C(i)为网页i(i∈T)的链出网页数量;d为跳转因子,它表示用户通过其它网页的链接来访问所述网页m的概率,1-d表示用户通过键入URL地址直接访问所述网页m的概率,且d∈(0,1);PR(m)表示所述网页m在所述文档集D中的网页排序值PageRank,M表示文档集D中的网页数量。另外,每个网页的初始排序值设为1/M。
标准的PageRank算法的缺点是在互联网上的每个网页仅有唯一的一个网页排序值。而实际上,从事不同行业或具有不同爱好的用户对同一个网页的重要性评价往往是不同的。因此,需要对现有排序算法进行改进。
图4为在文档集D中每个文档的排序向量表示方法。为了实现个性化搜索,我们把网页的传统PageRank值进行扩展,将所述文档集D中的任意一个文档i的一维排序值PR(i),扩展为基于领域特征的多维度的排序向量。设文档i(i∈D)的排序向量Kp(i)=[PR(i,1),PR(i,2),...,PR(i,k),...,PR(i,L)],其中所述PR(i,k)表示所述文档i在特征k(k∈K)下的排序值。需要说明一点,网页是一种文档。
定义了文档的排序向量后,就可以更新所述文档集D中每个文档的排序向量了。排序向量更新算法如下:所述文档集D中的任意一个文档m在特征k(k∈K)下的排序值,是所述文档集S中链接到所述文档m的每个文档在所述特征k下的排序值以及所述文档集S中链接到所述文档m的每个文档与所述特征k的相关度的函数。例如文档m(m∈D)的第k(k∈K)个特征的排序值可定义为:
PR ( m , k ) = 1 - d M + d Σ i ∈ T PR ( i , k ) · dw ik C ( i ) - - - ( 2 )
其中,集合为网页m(m∈D)的链入网页集合;d为跳转因子,它表示用户通过其他网页的链接来访问所述网页m的概率,1-d表示用户通过键入URL地址直接访问所述网页m的概率,且d∈(0,1);PR(m,k)表示所述网页m在特征k(k∈K)下的网页排序值。C(i)是网页i(i∈T)的链出网页数量。所述dwik表示所述文档i与特征k(k∈K)的相关度。另外,对于每个网页m∈D和每个特征k∈K,设网页的初始排序值PR(m,k)=1/M。
在所述排序向量更新算法中,所述文档集D中至少含有两个文档子集,其中文档集
Figure BSA00000692530200123
中的每个文档含有至少一个链接指向所述文档集D中的文档,文档集
Figure BSA00000692530200124
中的每个文档至少被所述文档集S中的一个文档所含有的链接指向;并且S∪E=D,S∩E≠Φ,其中Φ为空集。
在所述排序向量更新算法中,需要对文档集D做出一些预处理,以便剔除等级沉没(rank sink)和等级泄露(rank leak)的网页。所谓等级沉没是指一组相互链接的网页都没有指向这一组之外任何网页的链接;所谓等级泄露是指网页没有外出链接。在所述文档集D中,通过添加一个指向链入网页的返回链接来解决等级沉没问题;通过剔除产生等级泄露的网页来消除等级泄露带来的影响。
在所述排序向量更新算法中,可以通过迭代方式计算出在每个特征k∈K下,所述文档集D中的任意一个文档m的排序值PR(m,k)。我们将所述文档集D中的每个文档的第k个特征的排序值汇集在一起,组成一个向量,叫做文档集D的第k个排序列向量A(k)=[PR(1,k),PR(2,k),...,PR(M,k)]。因此,排序向量更新算法的迭代终止条件是对于每个特征k,满足||An+1(k)-An(k)||小于预设罚值或者迭代次数达到设定常数,其中n为迭代步数。另外,在所述公式(2)的一个应用实例中,在每步迭代后需要对排序列向量A(k)=[PR(1,k),PR(2,k),...,PR(M,k)]进行归一化处理,以保证所述公式(2)的收敛性。
在所述公式(2)的一个应用实例中,所述C(i)不再是网页i(i∈T)的链出网页数量,而是定义为对于任意i∈T,设置C(i)=1。
图5为基于查询向量和排序向量的个性化文档排序方法流程图。该方法包括在服务器中执行如下步骤:
S10.根据所述参数向量更新算法,更新所述文档集D中文档的参数向量和所述用户集U中用户的参数向量;具体实现方法包括图3中所述步骤S11至所述步骤S16;
S20.设置所述文档集D中每个文档的排序向量初始值;
S30.用所述排序向量更新算法,迭代更新在每个特征k(k∈K)下所述文档集D中每个文档的排序值,即更新所述文档集D中每个文档的排序向量;
S40.接收用户n(n∈D)设置的查询向量和所述用户n(n∈D)提交的搜索条件,并且在所述搜索条件中提取搜索关键字;其中所述搜索条件可设为用户在搜索对话框中提交的所有信息;
S50.在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;
S60.根据所述查询向量和所述一组文档Q中的每个文档的排序向量,计算所述一组文档Q中的每个文档的个性化排序值UR(i,n);所述UR(i,n)表示基于所述用户n的查询向量的所述文档i(i∈Q)的个性化排序值;
S70.根据所述个性化排序值UR(i,n),对所述一组文档Q进行排序,并且根据排序结果将所述一组文档Q发送给所述用户n。
在图5所述方法中,设用户n的查询向量为Ks(n)=(swn1,swn2,...,swnk,...,swnL),其中swnk表示被查询文档与特征k(k∈K)的相关度,swnk∈[a,b],a和b为预设非负常数。所述查询向量Ks(n)有如下几种设置方法。
第一种是由所述用户n在特征集K中选择特征,并对其设置特征相关度,例如设置swn2=0.00023,swn6=0.00061,其它向量分量为0。
第二种是把所述用户n的参数向量赋值给所述查询向量Ks(n)。
第三种是所述用户n提交一组用户或文档的标识Sn{...,r,...}。当
Figure BSA00000692530200131
时,所述用户r(r∈Sn)的参数向量为(uwr1,uwr2,...,uwrL),因此所述用户n的查询向量设为:对于每个特征k∈K,swnk=(σ9/s)·∑(r∈Sn)[uwrk/(∑(k∈K)uwrk)];当
Figure BSA00000692530200132
时,所述文档r(r∈Sn)的参数向量为(dwr1,dwr2,...,dwrL),因此所述用户n的查询向量设置为对于每个特征k∈K,swnk=(σ10/s)·∑(r∈Sn)[dwrk/(∑(k∈K)dwrk)];当
Figure BSA00000692530200141
时,所述用户n的查询向量设为:对于每个特征k∈K,swnk=(σ9/s)·∑(r∈Sn∩U)[uwrk/(∑(k∈K)uwrk)]+(σ10/s)·∑(r∈Sn∩D)[dwrk/(∑(k∈K)dwrk)],其中s为所述集合Sn的元素个数,σ9和σ10为设定常数。
在图5所述方法的一个应用实例中,所述个性化排序值UR(i,n)是根据所述用户n的查询向量Ks(n)=(swn1,swn2,...,swnk,...,swnL)以及所述文档i(i∈Q)的排序向量Kp(i)=[PR(i,1),PR(i,2),...,PR(i,k),...,PR(i,L)]进行计算而得到的,例如
UR ( i , n ) = Σ k = 1 L { PR ( i , k ) · sw nk }
其中,所述PR(i,k)表示在特征k(k∈K)下所述文档i在所述文档集D中的排序值,所述swnk表示被查询文档与特征k(k∈K)的相关度。
图6为基于查询向量和参数向量的个性化文档排序方法流程图。所述方法包括在服务器中执行如下步骤:
A10.根据所述参数向量更新算法,更新所述文档集D中文档的参数向量以及所述用户集U中用户的参数向量;具体实现方法包括图3中所述步骤S11至所述步骤S16;
A20.接收用户n(n∈D)设置的查询向量和所述用户n(n∈D)提交的搜索条件,并且在所述搜索条件中提取搜索关键字;其中所述搜索条件可设为用户在搜索对话框中提交的所有信息;
A30.在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;
A40.根据所述查询向量和所述一组文档Q中的每个文档的参数向量,计算所述一组文档Q中的每个文档的个性化排序值UR(i,n);所述UR(i,n)表示基于所述用户n的查询向量的所述文档i(i∈Q)的个性化排序值;
A50.根据所述个性化排序值UR(i,n),对所述一组文档Q进行排序,并且根据排序结果将所述一组文档Q发送给所述用户n。
在图6所述方法的一个应用实例中,所述UR(i,n)代表所述用户n的查询向量与所述一组文档Q中的文档i的参数向量之间的数学距离。设所述用户n的查询向量为Ks(n)=(swn1,swn2,...,swnL),所述文档i(i∈Q)的参数向量Kd(i)=(dwi1,dwi2,...,dwiL),则:
UR(i,n)=||Ks(n),Kd(i)||=[∑k(swnk·dwik)]/{[∑k(swnk)2]1/2·[∑k(dwik)2]1/2}。
在图6所述方法的一个应用实例中,所述个性化排序值UR(i,n)是根据所述用户n的查询向量Ks(n)=(swn1,swn2,...,swnk,...,swnL)以及所述文档i(i∈Q)的参数向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL)进行计算而得到的,例如
UR ( i , n ) = Σ k = 1 L { dw ik · sw nk }
其中,所述PR(i,k)表示在特征k(k∈K)下所述文档i在所述文档集D中的排序值,所述swnk表示被查询文档与特征k(k∈K)的相关度。
图6所述方法的一个应用场景是微博。在微博中,用户访问文档(即一条微博)的信号类型T包括:T=6转发微博(Retweet)、T=7为评论微博、T=8为用户回复微博、T=9收藏微博、T=10给微博打标签(Tag)、T=11阅读微博等。
用户创建并发布一条微博文档(tweet)后,就可以设置这条微博文档的参数向量初始值了,即把发布这个微博的用户的参数向量乘以一个预设常数后,赋值给这条微博文档的参数向量。当在微博服务器上收到了任一用户访问任一微博文档的信号后,根据所述信号中包含的用户标识和微博文档标识,分别读取所述用户和所述微博文档的参数向量;然后根据参数向量更新算法,更新所述用户和所述微博文档的参数向量。当查询用户打开微博时,他就可以通过其设置的查询向量对微博的信息列表(timeline)中的微博文档进行过滤和筛选。其方法是首先由用户设置的查询向量,然后,根据所述查询向量和信息列表中的每个微博文档的参数向量,计算信息列表中每个微博文档的个性化排序值UR(i,n),以及根据UR(i,n)的数值大小,对信息列表中的微博文档进行过滤和筛选。例如只将在所述信息列表中排名前30%的微博文档发送给查询用户。
图7为一种获取用户和文档个性化特征的系统结构图。所述系统200包括如下功能模块:
文档用户特征设置模块211:获取多个文档,例如通过蜘蛛程序获取多个Web网页文档,来组成文档集D={1,2,...,M},将所述文档集D存储于文档数据库220中;获取互联网上的多个用户,组成用户集U={1,2,...,N},将所述用户集U存储于用户数据库230中;设置特征集K={1,2,...,L},并将其存储于特征数据库240中;
文档和用户初始值设置模块212:为所述文档集D中的部分文档设置参数向量初始值,为所述文档集D中的每个文档设置排序向量初始值,并将所述参数向量初始值和所述排序向量初始值存储于文档数据库220中;为用户集U中的部分用户设置参数向量初始值,并将其存储于用户数据库230中;未被设置参数向量初始值的用户和文档,其缺省参数向量初始值设为零向量;
用户访问文档信号采集模块213:用于采集任意一个用户j(j∈U)(102)访问任意一个文档i(i∈D)的信号,所述信号存储于Web日志数据库250中;所述用户j(102)访问所述文档i的信号,将被发送到至少一个应用服务器中,所述应用服务器包括门户网站服务器301、社交网络服务器302、搜索引擎服务器303和即时通信服务器304;
文档和用户参数向量更新模块214:根据所述信号中包含的所述文档i和所述用户j(102)的标识,在所述文档数据库220中读取所述文档i的参数向量,以及在所述用户数据库230中读取用户j的参数向量;然后通过参数向量更新算法,更新所述文档i和所述用户j(102)的参数向量;最后根据更新后的所述文档i和所述用户j(102)的参数向量,分别更新所述文档数据库220和所述用户数据库230;
文档排序向量更新模块215:在所述文档集D中,以文档之间的链接关系、每个文档的排序向量初始值以及每个文档的参数向量作为输入数据,应用排序向量更新算法,迭代更新在每个特征k(k∈K)下所述文档集D中每个文档的排序值,以及应用更新后的所述排序值更新所述文档数据库220;
用户查询模块216:首先,接收由用户设置的查询向量和提交的搜索条件,并且在所述搜索条件中提取搜索关键字;然后,在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;之后,根据所述查询向量和所述一组文档Q中每个文档的排序向量,计算所述一组文档Q中每个文档的个性化排序值,或者根据所述查询向量和所述一组文档Q中每个文档的参数向量,计算所述一组文档Q中每个文档的个性化排序值;最后,根据所述个性化排序值对所述一组文档Q进行排序,以及按照排序结果将所述一组文档Q分批发送给提交查询的用户。
以上所述应用实例仅为本发明的较佳的应用实例,并非用以限定本发明的保护范围。

Claims (13)

1.一种获取用户和文档个性化特征的方法,其特征在于,
获取并存储由多个文档组成的文档集D={1,2,...,M},获取并存储由多个用户组成的用户集U={1,2,...,N},设置并存储特征集K={1,2,...,L};
为所述文档集D中的部分文档设置参数向量初始值,以及为所述用户集U中的部分用户设置参数向量初始值;
多次执行如下参数向量更新算法:
接收任意一个用户j(j∈U)访问任意一个文档i(i∈D)的信号;
根据所述信号包含的所述文档i的标识,读取所述文档i的参数向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL),所述dwik表示所述文档i与特征k(k∈K)的相关度;
根据所述信号包含的所述用户j的标识,读取所述用户j的参数向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),所述uwjk表示所述用户j与特征k(k∈K)的相关度;
更新所述文档i和所述用户j的参数向量,即
Kd *(i)=function1[Kd(i),Ku(j)];
Ku *(j)=function2[Kd(i),Ku(j)];
其中所述Kd(i)和所述Kd *(i)分别表示更新前和更新后所述文档i的参数向量,所述Ku(j)和所述Ku *(j)分别表示更新前和更新后所述用户j的参数向量。
2.根据权利要求1所述的方法,其特征在于,在所述参数向量更新算法中,满足Kd *(i)≥Kd(i)和Ku *(j)≥Ku(j)。
3.根据权利要求1所述的方法,其特征在于,设所述Kd *(i)=(dwi1 *,dwi2 *,...,dwik *,...,dwiL *),所述Ku *(j)=(uwj1 *,uwj2 *,...,uwjk *,...,uwjL *),则所述dwik *是所述uwjk的增函数,是∑(k∈K)uwjk的减函数;所述uwjk *是所述dwik的增函数,是∑(k∈K)dwik的减函数。
4.根据权利要求1所述的方法,其特征在于,所述信号的类型至少是以下类型中的一种,包括所述用户j点击所述文档i的链接、所述用户j键入所述文档i的地址、所述用户j给所述文档i设置标签、所述用户j将所述文档i设置为书签、所述用户j将所述文档i设置为喜欢、所述用户j评论所述文档i以及所述用户j转发所述文档i。
5.根据权利要求1所述的方法,其特征在于,所述参数向量更新算法包括如下的一个具体应用实例;所述具体应用实例通过如下算法来更新所述文档i的参数向量Kd *(i)和所述用户j的参数向量Ku *(j):
dwik *=dwik1(i,j,T)·f1[Ku(j)]    (对于每个
Figure FSA00000692530100021
)
uwjk *=uwjk2(i,j,T)·f2[Kd(i)]    (对于每个
Figure FSA00000692530100022
)
其中,所述dwik和所述dwik *分别表示更新前和更新后所述文档i的参数向量的第k个分量,所述uwjk和所述uwjk *分别表示更新前和更新后所述用户j的参数向量的第k个分量;所述λ1(i,j,T)为在所述信号的类型T下,所述用户j对所述文档i的影响系数,所述λ2(i,j,T)为在所述信号的类型T下,所述文档i对所述用户j的影响系数;所述DKi是由所述文档i的参数向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL)中数值最大的Pi个分量所对应的特征组成的集合,所述UKj是由所述用户j的参数向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL)中数值最大的Qj个分量所对应的特征组成的集合,Pi和Qj为设定参数。
6.根据权利要求5所述的方法,其特征在于,所述λ1(i,j,T)和所述λ2(i,j,T)分别是所述文档i的参数向量和所述用户j的参数向量之间的数学距离的函数。
7.根据权利要求1所述的方法,其特征在于,执行所述参数向量更新算法达到设定次数t1后,在每个特征k∈K下,对文档列向量(dw1k,dw2k,...,dwik,...,dwMk)进行归一化处理;执行所述参数向量更新算法达到设定次数t2后,在每个特征k∈K下,对用户列向量(uw1k,uw2k,...,uwjk,...,uwNk)进行归一化处理。
8.根据权利要求1所述的方法,其特征在于,所述文档集D中至少含有两个文档子集,其中文档集
Figure FSA00000692530100023
中的每个文档含有至少一个链接指向所述文档集D中的文档,文档集
Figure FSA00000692530100024
中的每个文档至少被所述文档集S中的一个文档所含有的链接指向;并且S∪E=D,S∩E≠Φ;
所述文档集D中的每个文档还设有排序向量;设文档m(m∈D)的排序向量Kp(m)=[PR(m,1),PR(m,2),...,PR(m,k),...,PR(m,L)],其中所述PR(m,k)表示在特征k(k∈K)下所述文档m在所述文档集D中的排序值;
因此,所述方法还包括应用排序向量更新算法,对所述文档集D中每个文档的排序向量进行更新的步骤;所述排序向量更新算法如下:
所述文档集D中的任意一个文档m在特征k(k∈K)下的排序值,是所述文档集S中链接到所述文档m的每个文档在所述特征k下的排序值以及所述文档集S中链接到所述文档m的每个文档与所述特征k的相关度的函数;
根据所述排序向量,对所述文档集D中的文档进行处理。
9.根据权利要求8所述的方法,其特征在于,多次使用所述排序向量更新算法,对所述文档集D中每个文档的排序向量进行迭代更新。
10.根据权利要求8所述的方法,其特征在于,所述排序向量更新算法还包括以下步骤,即根据所述文档集S中每个文档的链出数,调整所述文档集S中的每个文档在每个特征k(k∈K)下的排序值。
11.根据权利要求8所述的方法,其特征在于,所述方法包括一个文档排序应用实例,所述应用实例包括在服务器中执行如下步骤:
S10.根据所述参数向量更新算法,更新所述文档集D中文档的参数向量以及所述用户集U中用户的参数向量;
S20.设置所述文档集D中每个文档的排序向量初始值;
S30.用所述排序向量更新算法,迭代更新在每个特征k(k∈K)下所述文档集D中每个文档的排序值,即更新所述文档集D中每个文档的排序向量;
S40.接收用户n(n∈D)设置的查询向量和所述用户n提交的搜索条件,并且在所述搜索条件中提取搜索关键字;
S50.在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;
S60.根据所述查询向量和所述一组文档Q中的每个文档的排序向量,计算所述一组文档Q中的每个文档的个性化排序值;
S70.根据所述个性化排序值,对所述一组文档Q进行排序,并且根据排序结果将所述一组文档Q发送给所述用户n。
12.根据权利要求1所述的方法,其特征在于,所述方法包括一个文档排序应用实例,所述应用实例包括在服务器中执行如下步骤:
A10.根据所述参数向量更新算法,更新所述文档集D中文档的参数向量以及所述用户集U中用户的参数向量;
A20.接收用户n(n∈D)设置的查询向量和所述用户n提交的搜索条件,并且在所述搜索条件中提取搜索关键字;
A30.在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;
A40.根据所述查询向量和所述一组文档Q中的每个文档的参数向量,计算所述一组文档Q中的每个文档的个性化排序值;
A50.根据所述个性化排序值,对所述一组文档Q进行排序,并且根据排序结果将所述一组文档Q发送给所述用户n。
13.一种获取用户和文档个性化特征的系统,其特征在于,所述系统包括如下功能模块:
文档用户特征设置模块:获取互联网上多个文档,组成文档集D={1,2,...,M},将所述文档集D存储于文档数据库中;获取互联网上的多个用户,组成用户集U={1,2,...,N},将所述用户集U存储于用户数据库中;设置特征集K={1,2,...,L},并将其存储于特征数据库中;
文档和用户初始值设置模块:为所述文档集D中的部分文档设置参数向量初始值,为所述文档集D中的每个文档设置排序向量初始值,并将所述参数向量初始值和所述排序向量初始值存储于文档数据库;为用户集U中的部分用户设置参数向量初始值,并将其存储于用户数据库;未被设置参数向量初始值的用户和文档,其参数向量初始值缺省设为零向量;
用户访问文档信号采集模块:用于采集任意一个用户j(j∈U)访问任意一个文档i(i∈D)的信号,所述信号存储于Web日志数据库中;所述用户j访问所述文档i的信号,将被发送到至少一个应用服务器中,所述应用服务器包括门户网站服务器、社交网络服务器、搜索引擎服务器和即时通信服务器;
文档和用户参数向量更新模块:根据所述信号中包含的所述文档i和所述用户j的标识,在所述文档数据库中读取所述文档i的参数向量,以及在所述用户数据库中读取用户j的参数向量;然后通过参数向量更新算法,更新所述文档i和所述用户j的参数向量;最后根据更新后的所述文档i和所述用户j的参数向量,分别更新所述文档数据库和所述用户数据库;
文档排序向量更新模块:在所述文档集D中,以文档之间的链接关系、每个文档的排序向量初始值以及每个文档的参数向量作为输入数据,应用排序向量更新算法,迭代更新在每个特征k(k∈K)下所述文档集D中每个文档的排序值,以及应用更新后的所述排序值更新所述文档数据库;
用户查询模块:首先,接收由用户设置的查询向量和提交的搜索条件,并且在所述搜索条件中提取搜索关键字;然后,在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;之后,根据所述查询向量和所述一组文档Q中每个文档的排序向量,计算所述一组文档Q中每个文档的个性化排序值,或者根据所述查询向量和所述一组文档Q中每个文档的参数向量,计算所述一组文档Q中每个文档的个性化排序值;最后,根据所述个性化排序值对所述一组文档Q进行排序,以及按照排序结果将所述一组文档Q分批发送给提交查询的用户。
CN2012100866819A 2012-03-20 2012-03-20 一种获取用户和文档个性化特征的方法和系统 Pending CN103324648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100866819A CN103324648A (zh) 2012-03-20 2012-03-20 一种获取用户和文档个性化特征的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100866819A CN103324648A (zh) 2012-03-20 2012-03-20 一种获取用户和文档个性化特征的方法和系统

Publications (1)

Publication Number Publication Date
CN103324648A true CN103324648A (zh) 2013-09-25

Family

ID=49193395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100866819A Pending CN103324648A (zh) 2012-03-20 2012-03-20 一种获取用户和文档个性化特征的方法和系统

Country Status (1)

Country Link
CN (1) CN103324648A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514237A (zh) * 2012-06-25 2014-01-15 祁勇 一种获取用户和文档个性化特征的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1667607A (zh) * 2004-03-11 2005-09-14 国际商业机器公司 用于文档浏览的个性化分类处理方法及系统
CN102999540A (zh) * 2011-09-10 2013-03-27 祁勇 一种在互联网上确定用户特征的方法和系统
CN103309900A (zh) * 2012-03-06 2013-09-18 祁勇 一种个性化多维度的文档排序方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1667607A (zh) * 2004-03-11 2005-09-14 国际商业机器公司 用于文档浏览的个性化分类处理方法及系统
CN102999540A (zh) * 2011-09-10 2013-03-27 祁勇 一种在互联网上确定用户特征的方法和系统
CN103309900A (zh) * 2012-03-06 2013-09-18 祁勇 一种个性化多维度的文档排序方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514237A (zh) * 2012-06-25 2014-01-15 祁勇 一种获取用户和文档个性化特征的方法和系统
CN103514237B (zh) * 2012-06-25 2018-09-04 深圳市易图资讯股份有限公司 一种获取用户和文档个性化特征的方法和系统

Similar Documents

Publication Publication Date Title
US20170364834A1 (en) Real-time monitoring of public sentiment
Zhao et al. Connecting social media to e-commerce: Cold-start product recommendation using microblogging information
US20190384745A1 (en) Systems and Methods for Management of Data Platforms
TWI493367B (zh) 搜尋結果之先進過濾方法
US10062098B2 (en) Recommendation engine
Gezici et al. Evaluation metrics for measuring bias in search engine results
KR101463974B1 (ko) 마케팅을 위한 빅데이터 분석 시스템 및 방법
US20150356123A1 (en) Systems and methods for management of data platforms
US9864768B2 (en) Surfacing actions from social data
JP6758454B2 (ja) ソーシャルネットワークの検索結果提示方法及び装置、並びに記憶媒体
WO2009005744A1 (en) Processing a content item with regard to an event and a location
Vosecky et al. Searching for quality microblog posts: Filtering and ranking based on content analysis and implicit links
US20200134689A1 (en) Product and content association
US10002187B2 (en) Method and system for performing topic creation for social data
US9245010B1 (en) Extracting and leveraging knowledge from unstructured data
Hong et al. Personalized research paper recommendation system using keyword extraction based on userprofile
CN103309900A (zh) 一种个性化多维度的文档排序方法和系统
CN103514237B (zh) 一种获取用户和文档个性化特征的方法和系统
EP3152678A1 (en) Systems and methods for management of data platforms
Papadogiorgaki et al. Two‐Level Automatic Adaptation of a Distributed User Profile for Personalized News Content Delivery
CN103324648A (zh) 一种获取用户和文档个性化特征的方法和系统
Maake et al. Information processing in research paper recommender system classes
Rana et al. Analysis of web mining technology and their impact on semantic web
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining
Khan et al. Business data extraction from social networking

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130925