CN103514237A - 一种获取用户和文档个性化特征的方法和系统 - Google Patents

一种获取用户和文档个性化特征的方法和系统 Download PDF

Info

Publication number
CN103514237A
CN103514237A CN201210228726.1A CN201210228726A CN103514237A CN 103514237 A CN103514237 A CN 103514237A CN 201210228726 A CN201210228726 A CN 201210228726A CN 103514237 A CN103514237 A CN 103514237A
Authority
CN
China
Prior art keywords
document
user
vector
feature
parameter vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210228726.1A
Other languages
English (en)
Other versions
CN103514237B (zh
Inventor
祁勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yi Map Touchplus Information Corp
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810739450.0A priority Critical patent/CN108959579B/zh
Priority to CN201210228726.1A priority patent/CN103514237B/zh
Publication of CN103514237A publication Critical patent/CN103514237A/zh
Application granted granted Critical
Publication of CN103514237B publication Critical patent/CN103514237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种获取用户和文档个性化特征的方法和系统。所述方法通过用户访问文档的信号,来自动地更新用户和文档的个性化特征。用户的个性化特征,依据所述用户访问过的文档的个性化特征进行更新;文档的个性化特征,依据访问过该文档的用户的个性化特征进行更新。根据获取的用户和文档的个性化特征,可在搜索引擎中实现个性化的文档排序;根据用户和文档的个性化特征,可在社交网络中实现个性化的信息过滤和筛选。本发明还提出了一种获取用户和文档个性化特征的系统。本发明方法能够提高搜索引擎的查准率和社交网络检索信息的效率。另外本发明方法能够提高网页排名算法的反作弊能力。

Description

一种获取用户和文档个性化特征的方法和系统
技术领域
本发明涉及互联网领域,具体来说涉及一种获取用户和文档个性化特征的方法和系统。
背景技术
搜索引擎和社交网络是互联网上获取信息的主要工具。这两种工具存在一个共同的缺点,即不能根据用户的个性化特征来进行信息的过滤和筛选。例如,不同的用户在同一个搜索引擎中输入相同的关键字,其返回的搜索结果是相同的,与哪个用户提交的搜索查询无关;不同的用户在同一个社交网络中建立相同的关系网络,其获得的信息也是相同的,与哪个用户建立的关系网络无关。
搜索引擎是利用信息检索技术进行大规模的网页收集、索引、排序,以及根据排序结果将网页呈现给查询用户的应用程序。搜索引擎的核心技术是排序算法,最著名的是谷歌的PageRank算法。该算法的输入是由网页设计者根据其主观意愿构建的网页链接关系。尽管它充分反映了网页设计者的个人偏好和对网页链接关系的理解,但是它却无法反映出搜索引擎的使用者——用户的个人偏好。由于从事不同行业或具有不同爱好的用户对同一个网页的重要性评价通常是不同的,而PageRank等现有排序技术无法对这种不同进行区分,它们对不同的用户只能给出唯一的网页排名,这是现有搜索技术的缺点。一个可行的技术解决方案是结合用户和网页的个性化特征来改进搜索结果,使得每个网页的排名不仅依赖于网页之间的链接关系,而且依赖于提交搜索查询的用户的个性化特征和被查询网页的个性化特征。有分析表明,借助用户和网页的个性化特征,能够提高搜索引擎的查准率,减少用户对无效信息的扫描和浏览。
社交网络是互联网上人们彼此之间进行沟通的平台。在社交网络中,用户通过自己建立的关系网络来获取信息,例如通过关注(follow)他人和加好友等操作来获取他人发布的信息。被关注的人和加为好友的人越多,用户获得的信息也越多。由于担心有重要的或者有趣的信息被遗漏,用户通常会在社交网络中关注更多的人或者加入更多的好友。但是,当关系网络中的用户数量超过邓巴数(Dunbar)150之后,微博和脸谱(Facebook)等社交网络会逐渐成为对用户进行“信息轰炸”的服务。其原因是现有社交网络技术要求用户必须接收其关系网络中的所有用户发布的所有信息,而不能按信息类别有选择地接收这些信息,这是现有社交网络技术的缺点。一个可行的技术解决方案是让用户获得的信息不仅依赖用户建立的关系网络,而且依赖用户的个性化特征和获取的信息的个性化特征。这将有助于对社交网络上的海量信息进行有效地过滤和筛选,提高社交网络的信息检索效率。为了叙述方便,我们通常把用户在社交网络上获得的每条信息(如一条微博),也看作一个文档,它有唯一的网络地址。
要实现上述两个技术解决方案,其必要条件是能够获取用户和网页文档的个性化特征。但是在互联网上获取用户和网页文档的个性化特征通常是困难的,主要有以下几个难点。第一是个性化信息的自动获取问题。据估算目前互联网上有数千亿个网页和二十亿用户,手工维护网页文档和用户的个性化特征是不现实的。如何自动获取用户和网页文档的个性化特征是一个难题。第二是个性化信息的更新问题。随着时间的推移,用户的兴趣爱好、工作地点、从事的行业和教育程度等个人信息会发生改变,但是要求大多数用户实时地更新其个性化信息是困难的。第三是个性化信息的语义差异问题。在用户设置的个性化特征中,术语不同但语义相同的个性化特征,难以对其进行有效归类。第四是个性化信息的完备性问题。用户在网站上提供的个人信息通常比较简略。例如对用户兴趣爱好的描述通常是喜欢音乐、打棒球或看书等几项内容,而要求用户全面地描述出其感兴趣的领域是困难的。
综上所述,如何有效地获取用户和文档的个性化特征,并根据所述个性化特征来提高搜索引擎的查准率以及提高社交网络的信息检索效率,是一个亟待解决的问题。
发明内容
鉴于上述现有技术存在的问题,本发明的目的在于提供一种获取用户和文档个性化特征的方法和系统,来自动获取用户和文档的个性化特征,并根据所述个性化特征来帮助用户过滤和筛选其在互联网上获得的信息。
根据以上所述的目的,本发明提出了一种获取用户和文档个性化特征的方法,其特征在于,
在接入互联网的服务器中,存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D;存储由多个特征标识组成的特征集K;
在所述服务器中,至少为所述用户集U中的一个用户或者所述文档集D中的一个文档设置参数向量初始值;
在所述服务器中,多次执行如下步骤:
接收任意一个用户m(m∈U)访问任意一个文档n(n∈D)的信号;
根据所述信号,读取所述用户m的参数向量U(m)=(uwm1,uwm2,...,uwmk,...,uwmL),其中所述uwmk表示所述用户m与特征k(k∈K)的相关度;
根据所述信号,读取所述文档n的参数向量D(n)=(dwn1,dwn2,...,dwnk,...,dwnL),其中所述dwnk表示所述文档n与特征k(k∈K)的相关度;
应用参数向量更新算法,更新所述用户m和所述文档n的参数向量;设更新后所述用户m的参数向量为U*(m)=(uwm1 *,uwm2 *,...,uwmk *,...,uwmL *),更新后所述文档n的参数向量为D*(n)=(dwn1 *,dwn2 *,...,dwnk *,...,dwnL *),则所述参数向量更新算法包括:
U*(m)=F1[U(m),D(n)];
D*(m)=F2[U(m),D(n)];
其中所述F1(·)和所述F2(·)分别是以所述U(m)和所述D(n)为自变量的函数。
与现有技术相比,本发明可实现个性化的文档排序,进而提高了搜索引擎的查准率以及提高社交网络的信息检索效率。另外,利用网页文档的个性化特征还能够提高网页排序算法的反作弊能力。
附图说明
图1为在用户集U中每个用户的参数向量表示方法;
图2为在文档集D中每个文档的参数向量表示方法;
图3为用户和文档的参数向量更新算法流程图;
图4为在文档集D中每个文档的排序向量表示方法;
图5为文档排序向量更新算法流程图;
图6为基于查询向量和排序向量的个性化文档检索方法流程图;
图7为基于查询向量和参数向量的个性化文档检索方法流程图;
图8为一种获取用户和文档个性化特征的系统结构图;
图9为一种获取用户和文档个性化特征的系统信号序列图。
具体实施方式
结合附图对本发明方法作进一步详细说明。
本专利方法的具体实施方案说明,包括以下几个部分。首先,说明用户集、文档集和特征集的含义以及用户和文档的参数向量表示方法;然后,说明用户和文档的参数向量更新算法;之后,说明文档的排序向量表示方法以及基于文档参数向量的文档排序算法;再后,说明基于查询向量的个性化文档检索方法;最后,说明一种获取用户和文档个性化特征的系统。
首先说明用户集U、文档集D和特征集K的含义。
在接入互联网的服务器中,存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D。所述用户标识是在互联网上用户的唯一识别码,包括用户帐号、手机号码、Cookie识别码、IP地址、Email地址和即时通信号码中的一个;所述文档标识是在互联网上文档的唯一识别码,例如Web网页文档的URL地址。所述用户集U含有M个元素,所述文档集D含有N个元素。
在接入互联网的服务器中,存储由多个特征标识组成的特征集K,所述特征集K含有L个元素。所述特征集K中的特征,是在所述用户集U中用户的特征和所述文档集D中文档的特征中选取的。用户和文档使用相同的特征集K。若用户具有“音乐”特征,说明用户爱好音乐,而文档具有“音乐”特征,说明文档与音乐主题相关。
下面介绍用户和文档的参数向量的表示方法。所述参数向量表示方法与向量空间模型VSM的向量表述方法相似,即以特征项作为用户特征或文档特征的基本单位。本专利所述方法和系统中,以用户与各个特征的相关度的集合作为用户的参数向量,以文档与各个特征的相关度的集合作为文档的参数向量。
图1为用户集U中每个用户的参数向量表示方法。在用户集U中任意一个用户m(m∈U)的参数向量设置为U(m)=(uwm1,uwm2,...,uwmk,...,uwmL),其中所述uwmk表示所述用户m与特征k(k∈K)的相关度。另外,将所述用户集U中的每个用户与特征k的相关度汇集在一起,组成一个向量,叫做用户集U的第k个用户列向量(uw1k,uw2k,...,uwMk)。
图2为文档集D中每个文档的参数向量表示方法。在文档集D中任意一个文档n(n∈D)的参数向量设置为D(n)=(dwn1,dwn2,...,dwnk,...,dwnL),其中所述dwnk表示所述文档n与特征k(k∈K)的相关度。另外,将所述文档集D中的每个文档与特征k的相关度汇集在一起,组成一个向量,叫做文档集D的第k个文档列向量(dw1k,dw2k,...,dwNk)。
所述相关度是一个实数值,它表示用户或者文档与特征集K中的某个特征的关系紧密程度。如果一个用户或者文档与音乐特征关联多一点与体育特征关联少一点,我们就说该用户或者文档与音乐特征的相关度高,与体育特征的相关度低。另外在特征选取时,有些特征之间是具有相关性的,因此可以通过减少特征之间的相关性来降低特征集K的维度,减少对服务器存储空间的需求,提高算法效率。有些特征不必直接列入特征集中,因为这些特征的相关度可以通过特征集K中的一个或几个其它特征的相关度计算出来。
下面说明用户或文档的参数向量初始值的设置方法。举如下三个例子进行说明。用户或文档的参数向量初始值范围通常设置为对于任意m∈U、n∈D和k∈K,有uwmk∈[0,1]和dwnk∈[0,1]。如果用户或文档的参数向量没有被设置初始值,其参数向量初始值缺省设为零向量。
例1是人工设置用户m(m∈U)或者文档n(n∈D)的参数向量初始值的方法。例如设置特征总数L=5,特征集K=(科学,教育,财经,音乐,体育),设置U(m)=(uwm1,uwm2,uwm3,uwm4,uwm5)=(0,0.9,0,1,0)。即用户m与“教育”特征的相关度为0.9,与“音乐”特征的相关度为1,与其它特征的相关度均为零。同理,可以设置所述文档n的参数向量D(n)=(dwn1,dwn2,...,dwnk,...,dwnL)的初始值。
例2是设置用户m(m∈U)的参数向量初始值的方法。首先由所述用户m提交一组文档集合
Figure BSA00000743818400051
所述文档r(r∈H)的参数向量为(dwr1,dwr2,...,dwrL),然后,对于每个k∈K,设置uwmk=(σ1/s)·∑(r∈H)dwrk或者uwmk=(σ1/s)·∑(r∈H)[dwrk/(∑(k∈K)dwrk)],其中s为所述集合H的元素个数,σ1为设定正常数。使用类似方法,所述用户m也可以在所述用户集U中选择一组用户来计算所述用户m的参数向量初始值。
例3是一种设置文档的参数向量初始值的方法。分类目录是一种特殊文档,比如门户网站通常包括新闻、音乐、体育、财经和科技等分类目录。我们假设相同分类目录下的文档具有某些相同的特征,例如体育目录下的文档都与体育相关。如果文档n(n∈D)是分类目录h(h∈D)下的一个文档,则所述文档n的参数向量初始值由所述分类目录h的参数向量来决定。例如对于每个k∈K,设置dwnk=σ2·dwhk,其中σ2为设定正常数。
图3为用户和文档的参数向量更新算法流程图。具体包括在接入互联网的服务器中,执行如下步骤:
S11.存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D;存储由多个特征标识组成的特征集K;
S12.至少为所述用户集U中的一个用户或者所述文档集D中的一个文档设置参数向量初始值;
S13.接收任意一个用户m(m∈U)访问任意一个文档n(n∈D)的信号;
S14.根据所述信号,读取所述用户m的参数向量U(m)=(uwm1,uwm2,...,uwmk,...,uwmL),其中所述uwmk表示所述用户m与特征k(k∈K)的相关度;
S15.根据所述信号,读取所述文档n的参数向量D(n)=(dwn1,dwn2,...,dwnk,...,dwnL),其中所述dwnk表示所述文档n与特征k(k∈K)的相关度;
S16.应用参数向量更新算法更新所述用户m和所述文档n的参数向量;设更新后所述用户m的参数向量U*(m)=(uwm1 *,uwm2 *,...,uwmk *,...,uwmL *),更新后所述文档n的参数向量D*(n)=(dwn1 *,dwn2 *,...,dwnk *,...,dwnL *),则所述算法包括:
U*(m)=F1[U(m),D(n)];
D*(m)=F2[U(m),D(n)];
在执行完所述步骤S16后,返回所述步骤S13。
其中所述F1(·)和所述F2(·)分别是以所述U(m)和所述D(n)为自变量的函数。所述用户m代表用户集U中的任何一个用户,而不特指某个用户,所述文档n代表文档集D中的任何一个文档,而不特指某个文档。例如第n次执行步骤S13时在所述信号中m=1023,n=3428,而第n+1次执行步骤S 13时在所述信号中m=33456,n=28477。
在图3所述方法的一个应用实例中,对每个k∈K,所述uwmk *是所述dwnk的增函数,所述dwnk *是所述uwmk的增函数。
在图3所述方法的一个应用实例中,对于每一个k∈K,所述uwmk *和所述dwnk *都是所述用户m访问所述文档集D的频次的减函数。所述频次是在一设定时间段内所述用户m访问所述文档集D中的文档的次数除以所述设定时间段的长度。
在图3所述方法的一个应用实例中,对每个k∈K,所述uwmk *是∑(k∈K)dwnk的减函数,所述dwnk *是∑(k∈K)uwmk的减函数。
在图3所述方法的一个应用实例中,所述信号是在一设定时间内从Web日志中随机抽取的。在所述一设定时间内,对所述用户集U中的每个活跃用户抽取相同数量的访问信号作为图3所述方法的输入信号。所述活跃用户是指在所述一设定时间内,访问所述文档集D达到设定次数的用户。非活跃用户不能使用图3所述方法更新用户和文档的参数向量。
在图3所述方法中,在执行所述参数向量更新算法达到设定次数t1后,在每个特征k∈K下,对第k个用户列向量(uw1k,uw2k,...,uwMk)进行归一化处理;在执行所述参数向量更新算法达到设定次数t2后,在每个特征k∈K下,对第k个文档列向量(dw1k,dw2k,...,dwNk)进行归一化处理;其中t1和t2为正整数。执行一次参数向量更新算法,即执行一次所述步骤S16。所述归一化方法包括以下的具体应用实例。
例1:对用户集U中第k个用户列向量(uw1k,uw2k,...,uwMk)进行归一化处理的方法如下:对集合{uw1k,uw2k,...,uwMk)按由大到小的顺序进行排序,将排名第M1的元素赋值给
Figure BSA00000743818400071
以及对于每个m∈U,如果则设uwmk=1,否则设置
Figure BSA00000743818400073
对文档集D中第k个文档列向量(dw1k,dw2k,...,dwNk)进行归一化处理的方法如下:对集合{dw1k,dw2k,...,dwNk)按由大到小的顺序进行排序,将排名第N1的元素赋值给
Figure BSA00000743818400074
以及对于每个n∈D,如果则设dwnk=1,否则设置
Figure BSA00000743818400076
其中,M1和N1为设定正常数。
例2:对文档集D中第k个文档列向量(dw1k,dw2k,...,dwNk)进行归一化处理的方法如下:首先对集合{dw1k,dw2k,...,dwNk)进行排序,以及按照排序结果将集合{dw1k,dw2k,...,dwNk}分成元素个数近似相等的r组,其中任意两组a组和b组的关系是a组中的任何一个元素大于等于b组中的任何一个元素,或者a组中的任何一个元素小于等于b组中的任何一个元素;在每组中取出数值最小的一个数据组成集合{s1,s2,...,sr},且s1<s2<...<sr;然后,对于每个n∈D,如果dwnk<s1,则设置dwnk=0;如果sm≤dwnk≤sm+1,则设置dwnk=g1(sm);如果dwnk>sr,则设置dwnk=1。其中g1(sm)为增函数,g1(sm)∈(0,1),例如设g1(sm)=sm/sr;1≤m<r,r为设定正数。同样方法,可对用户集U中第k个用户列向量进行归一化处理。
在图3所述方法的一个应用实例中,执行完所述步骤S16之后,还包括对于每个k∈K,设置uwmk=uwmk *和dwnk=dwnk *
在图3所述方法的一个应用实例中,所述方法满足对于每个k∈K,有uwmk *≥uwmk和dwnk *≥dwnk
在图3所述方法中,所述信号的类型至少是以下类型中的一种:T=1表示所述用户m点击所述文档n的链接,T=2表示所述用户m键入所述文档n的地址,T=3表示所述用户m将所述文档n设置为喜欢(如脸谱的Like和谷歌的+1),T=4表示所述用户m转发所述文档n,T=5表示所述用户m评论所述文档n,T=6表示所述用户m收藏所述文档n。
应用实例1
在图3所述方法的一个应用实例中,所述参数向量更新算法具体包括:
uwmk *=β1·uwmk1(n,m,T)·f1(dwnk)    (对于每个k∈K)
dwnk *=β2·dwnk2(m,n,T)·f2(uwmk)    (对于每个k∈K)
其中,所述λ1(n,m,T)为在所述信号的类型T下所述文档n对所述用户m的影响系数,所述λ2(m,n,T)为在所述信号的类型T下所述用户m对所述文档n的影响系数;β1和β2为设定正常数;所述f1(dwnk)是所述dwnk的增函数,所述f2(uwmk)是所述uwmk的增函数。例如f1(dwnk)=σ3·dwnk,f2(uwmk)=σ4·uwmk;或者f1(dwnk)=σ5·{1/[1+exp(-dwnk)]},f2(uwmk)=σ6·{1/[1+exp(-uwmk)]},其中σ3、σ4、σ5和σ6为设定正常数。
在所述应用实例1中,对于每个特征k∈K,为第k个文档列向量设置阀值dCk,如果dwnk≤dCk,则取f1(dwnk)=0;对于每个特征k∈K,为第k个用户列向量设置阀值uCk,如果uwmk≤uCk,则取f2(uwmk)=0。其中dCk等于第k个文档列向量(dw1k,dw2k,...,dwNk)的各个分量中排名在第a1名的分量;uCk等于第k个用户列向量(uw1k,uw2k,...,uwMk)的各个分量中排名在第a2名的分量;a1和a2为设定正整数。
在所述应用实例1中,所述λ1(n,m,T)和所述λ2(m,n,T)的具体实现方法包括如下实例:
例1:设所述λ1(n,m,T)和所述λ2(m,n,T)为设定常数。例如λ1(n,m,T)=c1和λ2(m,n,T)=c2,其中c1和c2为设定正常数,如c1=c2=0.01。
例2:所述λ1(n,m,T)和所述λ2(m,n,T)分别是所述用户m访问所述文档集D的频次的减函数。如设λ1(n,m,T)=1/g2[freq(m)],λ2(m,n,T)=1/g2[freq(m)],所述g2(x)为增函数。例如g2(x)为分段函数,当x<a3时,g2(x)=1;当x≥a3时,g2(x)=1+a4(x-a3),其中a3和a4为预设正常数。所述freq(m)为所述用户m访问所述文档集D中的文档的频次。
例3:设λ1(n,m,T)=1/g3[∑(k∈K)dwnk],λ2(m,n,T)=1/g3[∑(k∈K)uwmk],g3(x)为增函数。例如g3(x)为分段函数,当x<a5时,g3(x)=1;当x≥a5时,g3(x)=1+a6(x-a5),其中a5和a6为预设正常数。在计算∑(k∈K)dwnk时,如果dwnk≤min_dCk,则取dwnk=0;在计算∑(k∈K)uwmk时,如果uwmk≤min_uCk,则取uwmk=0;其中min_dCk和min_uCk是设定正常数。
例4:所述λ1(n,m,T)=d1(n)·u2(m),所述λ2(m,n,T)=u1(m)·d2(n),其中d1(n)表示文档n的参数向量是否可以用于更新用户集U中用户的参数向量,u2(m)表示用户m的参数向量是否可以被文档集D中文档的参数向量更新,u1(m)表示用户m的参数向量是否可以用于更新文档集D中文档的参数向量,d2(n)表示文档n的参数向量是否可以被用户集U中用户的参数向量更新。u1(m),u2(m),d1(n)和d2(n)是预设参数,它们的取值为0或者1。1代表是,0代表否。这个例子的含义是为防止恶意攻击,有些文档(或用户)由于没有经过可靠性认证,其参数向量不能对其它用户(或文档)的参数向量进行更新;有些重要文档(或用户),其参数向量不能被其它用户(或文档)的参数向量所更新。
例5:所述λ1(n,m,T)=s1(T),所述λ2(m,n,T)=s2(T)。其中所述T为用户访问文档信号的类型,所述s1(T)和所述s2(T)分别是所述T的函数。
例6:所述λ1(n,m,T)是所述文档n的被访问次数或者PageRank值的增函数,所述λ2(m,n,T)是所述用户m的粉丝(follower)数量的增函数。
例7:所述λ1(n,m,T)和所述λ2(m,n,T)分别是所述用户m和所述文档n的参数向量之间的相似度sim(m,n)的增函数。例如λ1(n,m,T)=1+c3·sim(m,n),λ2(m,n,T)=1+c4·sim(m,n),其中c3和c4为大于等于1的设定常数,且sim(m,n)=[∑(k∈K)(uwmk·dwnk)]/{[∑(k∈K)(uwmk)2]1/2·[∑(k∈K)(dwnk)2]1/2}。这个例子的含义是用户和文档的参数向量之间的相似度越高,它们彼此“投票”的比例系数越大。在计算sim(m,n)时,如果dwnk≤min_dCk,则取dwnk=0;如果uwmk≤min_uCk,则取uwmk=0,其中min_dCk和min_uCk是设定正常数。
例8:使用上述例1~7各方法中的至少两种方法的组合,来生成所述λ1(n,m,T)和λ2(m,n,T)。比如在freq(m)>a3时,有
λ1(n,m,T)=c1·{1+c3·sim(m,n)}·{1/[1+a4(freq(m)-a3)]}·{d1(n)·u2(m)}·s1(T)
λ2(m,n,T)=c2·{1+c4·sim(m,n)}·{1/[1+a4(freq(m)-a3)]}·{u1(m)·d2(n)}·s2(T)。
在所述应用实例1中,当执行所述具体的参数向量更新算法达到设定次数后,需要针对每个特征k∈K,分别对第k个文档列向量(dw1k,dw2k,...,dwNk)和第k个用户列向量(uw1k,uw2k,...,uwMk)进行归一化处理。
应用实例2
这是应用实例1的一个具体实现方法。为了便于说明,假设在互联网上有两个用户和三个文档,每个用户和每个文档均有两个特征,即用户集U={1,2},文档集D={1,2,3},特征集K={1,2}。用户1和用户2的参数向量分别为(uw11,uw12)和(uw21,uw22),文档1、文档2和文档3的参数向量分别为(dw11,dw12)、(dw21,dw22)和(dw31,dw32)。其中uwmk(m∈U,k∈K)表示所述用户m与特征k的相关度;dwnk(n∈D,k∈K)表示所述文档n与特征k的相关度。
假设在服务器中收到了所述用户2访问所述文档3的信号,且信号类型T=1,则根据如下参数向量更新算法更新所述用户2和所述文档3的参数向量:
uw21 *=β1·uw211(3,2,1)·dw31;uw22 *=β1·uw221(3,2,1)·dw32
dw31 *=β2·dw312(2,3,1)·uw21;dw32 *=β2·dw322(2,3,1)·uw22
其中,β1=β2=1;λ1(3,2,1)表示在信号类型T=1时所述文档3对所述用户2的影响系数;λ2(2,3,1)表示在信号类型T=1时所述用户2对所述文档3的影响系数。例如:
λ1(3,2,1)=c1·{1+c3·sim(2,3)}·{1/[1+a4(freq(2)-a3)]}·{d1(3)·u2(2)}·s1(1)
λ2(2,3,1)=c2·{1+c4·sim(2,3)}·{1/[1+a4(freq(2)-a3)]}·{u1(2)·d2(3)}·s2(1)
其中,c1=c2=0.01,c3=c4=3,sim(2,3)=(uw21·dw31+uw22·dw32)/{[(uw21)2+(uw22)2]1/2·[(dw31)2+(dw32)2]1/2},a3=200,a4=0.01,d1(3)=u2(2)=u1(2)=d2(3)=1,s1(1)=2,s2(1)=1,且假设freq(2)>a3
在执行完上述参数向量更新算法后,进行如下设置:uw21=uw21 *,uw22=uw22 *,dw31=dw31 *和dw32=dw32 *
在执行完上述参数向量更新算法后,对用户列向量(uw11,uw21)和(uw12,uw22)进行归一化处理,以及对文档列向量(dw11,dw21,dw31)和(dw12,dw22,dw32)进行归一化处理。
对用户列向量的归一化处理的算法如下:设temp1=max(uw11,uw21),则对特征k=1设置uw11=uw11/temp1,uw21=uw21/temp1;设temp2=max(uw12,uw22),则对特征k=2设置uw12=uw12/temp2,uw22=uw22/temp2。
对文档列向量的归一化处理的算法如下:设temp1=max(dw11,dw21,dw31),则对特征k=1设置dw11=dw11/temp1,dw21=dw21/temp1,dw31=dw31/temp1;设temp2=max(dw12,dw22,dw32),则对特征k=2设置dw12=dw12/temp2,dw22=dw22/temp2,dw32=dw32/temp2。
图4为在文档集D中每个文档的排序向量表示方法。
搜索引擎的核心技术是排序算法,其中最著名的是PageRank算法。标准的PageRank算法可以用如下公式表示。
PR ( p ) = 1 - d N + d Σ i ∈ T PR ( i ) C ( i ) - - - ( 1 )
其中,集合T
Figure BSA00000743818400112
为网页p(p∈D)的链入网页集合,C(i)为网页i(i∈T)的链出网页数量;d表示用户通过其它网页的链接来访问所述网页p的概率;1-d表示用户不通过其它网页的链接(如通过键入URL地址等方式)来访问所述网页p的概率,d∈(0,1);PR(p)表示所述网页p在所述文档集D中的排序值,N表示文档集D中的网页数量。另外每个网页的初始排序值设为1/N。这里,文档集D中的每个元素都是一个网页。
标准的PageRank(算法的缺点是在互联网上的每个网页仅有唯一的一个网页排序值,即该算法假设每个用户对同一个网页的重要性的评价是相同的。也就是说,PageRank算法没有考虑到提交搜索查询的用户的个性化差异。因此,需要对现有排序算法进行改进。
我们把传统的PageRank值进行扩展,即将所述文档集D中的任意一个文档p的一维排序值PR(p),扩展为基于领域特征的多维的排序向量。设任一文档p(p∈D)的排序向量为[PR(p,1),PR(p,2),...,PR(p,k) ,...,PR(p,L)],其中所述PR(p,k)表示在特征k(k∈K)下所述文档p在所述文档集D中的排序值。将特征k∈K下的每个文档的排序值汇集在一起,组成一个向量,叫做文档集D的第k个排序列向量,即 P → k = [ PR ( 1 , k ) , PR ( 2 , k ) , . . . , PR ( N , k ) ] T .
图5为文档排序向量更新算法流程图。设所述文档集D中至少含有两个文档子集,其中文档子集S
Figure BSA00000743818400122
中的每个文档都含有至少一个链接指向所述文档集D中的其它文档,而文档子集E
Figure BSA00000743818400123
中的每个文档都被所述文档子集S中的至少一个文档含有的链接所指向;并且S∪E=D,S∩E≠Φ,其中Φ为空集。因此,排序向量更新算法如下:所述文档集D中的任意一个文档p在特征k(k∈K)下的排序值,是所述文档p的每个链入文档在所述特征k下的排序值和所述链入文档与所述特征k的相关度的函数。
所述排序向量更新算法包括以下两个具体应用实例。
例1:在特征k∈K下任一文档p(p∈D)在所述文档集D中的排序值定义为:
PR ( p , k ) = ( 1 - d ) N + d Σ i ∈ T PR ( i , k ) · dw ik - - - ( 2 )
其中,集合T
Figure BSA00000743818400125
为所述文档p的链入文档集合;d表示用户通过其它文档的链接来访问所述文档p的概率;1-d表示用户不通过其它文档的链接(如通过键入URL地址等方式)来访问所述文档p的概率,d∈(0,1);PR(i,k)表示文档i在特征k(k∈K)下的排序值;所述dwik表示文档i与特征k(k∈K)的相关度;N是所述文档集D中的文档个数。另外,对于每个文档i∈D和每个特征k∈K,设所述文档i的初始排序值PR(i,k)=1/N。
所述公式(2)可以表述成如下的向量形式:
P → k = ( 1 - d ) N e → + dA T P → k - - - ( 3 )
其中,k∈K, P → k = [ PR ( 1 , k ) PR ( 2 , k ) , . . . , PR ( N , k ) ] T ;
Figure BSA00000743818400133
是全1的列向量;A是一个非负矩阵,A=(aij)N×N定义如下:
Figure BSA00000743818400134
例2:在特征k∈K下任一文档p(p∈D)在所述文档集D中的排序值定义为:
PR ( p , k ) = ( 1 - d ) N + d Σ i ∈ T PR ( i , k ) · dw ik C ( i ) - - - ( 4 )
其中,集合T为所述文档p的链入文档集合;d表示用户通过其它文档的链接来访问所述文档p的概率;1-d表示用户不通过其它文档的链接(如通过键入URL地址等方式)来访问所述文档p的概率,d∈(0,1);PR(i,k)表示文档i在特征k(k∈K)下的排序值;所述dwik表示文档i与特征k(k∈K)的相关度;C(i)表示文档i(i∈T)的链出文档数量;N是所述文档集D中的文档个数。另外对于每个文档i∈D和每个特征k∈K,设文档i的初始排序值PR(i,k)=1/N。
所述公式(4)的向量形式也可以表述成公式(3)的形式,其中
Figure BSA00000743818400138
Figure BSA00000743818400139
是全1的列向量;非负矩阵A=(aij)N×N定义如下:
Figure BSA000007438184001310
为了保证所述公式(3)有效性,需要对文档集D中的文档之间的链接关系进行若干限制,例如剔除悬垂页(Dangling Page)和指向它的每个链接,当其它文档的排序值计算完毕后,再将悬垂页和指向它的链接恢复,并根据所述公式(3)计算悬垂页的排序值。
所述公式(3)可以通过幂迭代方法(Power Method)近似计算它的解,即计算所述文档集D中的第k个排序列向量设在第n次迭代后,所述排序列向量为
Figure BSA00000743818400142
则所述幂迭代法包括如下步骤:
R10.选取任一特征k∈K;
R11.根据所述公式(2)或者公式(4),生成非负矩阵A;
R12.设置文档集D中第k个排序列向量的初始值
Figure BSA00000743818400143
n=0;
R13.执行所述公式(3),即根据第n步的排序列向量
Figure BSA00000743818400144
来计算第n+1步的排序列向量
Figure BSA00000743818400145
P → k n + 1 = ( 1 - d ) N e → + dA T P → k n
R14.对所述
Figure BSA00000743818400147
进行归一化处理,即
Figure BSA00000743818400148
R15.判断是否
Figure BSA00000743818400149
或者n>STEP,是则结束;否则设n=n+1,返回步骤R13。
其中ε和STEP是设定正常数;
Figure BSA000007438184001410
表示向量
Figure BSA000007438184001411
按模最大的分量。
图6为基于查询向量和排序向量的个性化文档检索方法流程图。该方法包括在服务器中执行如下步骤:
S10.根据所述参数向量更新算法,更新所述文档集D中多个文档的参数向量和所述用户集U中多个用户的参数向量;具体实现方法包括图3中所述步骤S11至所述步骤S16;
S20.设置所述文档集D中每个文档的排序向量初始值;
S30.在每个特征k(k∈K)下,应用所述排序向量更新算法,迭代更新所述文档集D中的第k个排序列向量,即更新所述文档集D中每个用户的排序向量;
S40.接收用户q(q∈D)设置的查询向量和所述用户q提交的搜索条件,并且在所述搜索条件中提取搜索关键字;其中所述搜索条件可设为用户在搜索对话框中提交的所有信息;
S50.在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;
S60.根据所述查询向量和所述一组文档Q中的每个文档的排序向量,计算所述一组文档Q中的每个文档的个性化排序值;
S70.根据所述个性化排序值,对所述一组文档Q进行排序,并且根据排序结果将所述一组文档Q中的多个文档的链接发送给所述用户q。
在图6所述方法中,设用户q的查询向量为(swq1,swq2,...,swqk,...,swqL),其中swqk表示在特征k(k∈K)下被查询文档在所述文档集D中的排序值,swqk∈[0,1]。所述查询向量的设置方法举例如下。
第一种是由所述用户n在特征集K中选择特征,并设置被查询文档的排序值,例如设置swq2=0.00023,swq6=0.00061,其它向量分量为0。
第二种是所述用户q提交一组文档标识Sq={...,r,...}。所述文档r(r∈Sq)的排序向量为[PR(r,1),PR(r,2),...,PR(r,k),...,PR(r,L)],因此对于每个特征k∈K,所述用户q的查询向量设置为swqk=(σ7/s)·∑(r∈Sq)PR(r,k)或者swqk=(σ7/s)·∑(r∈Sq){PR(r,k)/∑(k∈K)PR(r,k)};其中s为所述集合Sq的元素个数,σ7为设定正常数。
在图6所述方法的一个应用实例中,基于所述用户q提交的查询向量的所述文档i(i∈Q)的个性化排序值UR(i,q)定义为所述用户q的查询向量(swq1,swq2,...,swqk,...,swqL)与所述文档i的排序向量[PR(i,1),PR(i,2),...,PR(i,k),...,PR(i,L)]之间的相似度,例如
UR(i,q)=∑(k∈K)[PR(i,k)·swqk]}/{[∑(k∈K)(PR(i,k))2]1/2·[∑(k∈K)(swqk)2]1/2}
其中,所述PR(i,k)表示在特征k(k∈K)下所述文档i在所述文档集D中的排序值,所述swqk表示在特征k(k∈K)下被查询文档在所述文档集D中的排序值。在计算所述UR(i,q)时,对于任一k∈K,如果PR(i,k)<min_PR,则取PR(i,k)=0;如果swqk<min_SW,则取swqk=0。min_PR和min_SW为设定正常数。
图7为基于查询向量和参数向量的个性化文档检索方法流程图。所述方法包括在服务器中执行如下步骤:
A10.根据所述参数向量更新算法,更新所述文档集D中多个文档的参数向量和所述用户集U中多个用户的参数向量;具体实现方法包括图3中所述步骤S11至所述步骤S16;
A20.接收用户q(q∈D)设置的查询向量和所述用户q提交的搜索条件,并且在所述搜索条件中提取搜索关键字;其中所述搜索条件可设为用户在搜索对话框中提交的所有信息;
A30.在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;
A40.根据所述查询向量和所述一组文档Q中的每个文档的参数向量,计算所述一组文档Q中的每个文档的个性化排序值;
A50.根据所述个性化排序值,对所述一组文档Q进行排序,并且根据排序结果将所述一组文档Q中的多个文档的链接发送给所述用户q。
在图7所述方法中,设用户q的查询向量为(swq1,swq2,...,swqk,...,swqL),其中swqk表示被查询文档与特征k(k∈K)的相关度,swqk∈[0,1]。所述查询向量有如下几种设置方法。
第一种是由所述用户n在特征集K中选择特征,并对其设置特征相关度,例如设置swq2=0.8,swq6=0.9,其它向量分量为0。
第二种是把所述用户q的参数向量赋值给所述查询向量。
第三种是所述用户q提交一组用户标识或文档标识Sq={...,r,...}。当时,所述用户r(r∈Sq)的参数向量为(uwr1,uwr2,...,uwrL),因此所述用户q的查询向量设为对于每个特征k∈K,swqk=(σ8/s)·∑(r∈Sq)uwrk或swqk=(σ8/s)·∑(r∈Sq)[uwrk/(∑(k∈K)uwrk)];当
Figure BSA00000743818400162
时,所述文档r(r∈Sq)的参数向量为(dwr1,dwr2,...,dwrL),因此所述用户q的查询向量设置为对于每个特征k∈K,swqk=(σ9/s)·∑(r∈Sq)dwrk或swqk=(σ9/s)·∑(r∈Sq)[dwrk/(∑(k∈K)dwrk)];其中s为所述集合Sq的元素个数,σ8和σ9为设定正常数。
在图7所述方法的一个应用实例中,基于所述用户q提交的查询向量的所述文档i(i∈Q)的个性化排序值UR(i,q)定义为所述用户q的查询向量(swq1,swq2,...,swqk,...,swqL)与所述文档i的参数向量(dwi1,dwi2,...,dwiL)之间的相似度,即
UR(i,q)=[∑k(swqk·dwik)]/{[∑k(swqk)2]1/2·[∑k(dwik)2]1/2}。
图7所述方法的一个应用场景是微博。用户发布一条微博文档后,就可以设置这条微博文档的参数向量初始值了,即把发布这个微博的用户的参数向量乘以一个预设常数,赋值给这条微博文档的参数向量。当在微博服务器上收到了用户访问微博文档的信号后(如由转发、评论或收藏等动作产生的信号),根据所述信号中包含的用户标识和微博文档标识,分别读取所述用户的参数向量和所述微博文档的参数向量;然后根据参数向量更新算法,更新所述用户和所述微博文档的参数向量。当用户打开微博时,他就可以通过其预设的查询向量对关系网络中其他人发布的信息进行过滤和筛选。其方法是首先由用户预设查询向量,然后以所述查询向量和用户收到的每条微博文档的参数向量之间的相似度作为每个微博文档的个性化排序值,并根据所述个性化排序值的数值大小,对用户收到的微博文档进行过滤和筛选。例如只将个性化排序值排名前30%的微博文档发送给查询用户。
图8为一种获取用户和文档个性化特征的系统结构图。所述系统200包括如下功能模块:
用户集、文档集和特征集设置模块211:在用户数据库220中存储由多个用户标识组成的用户集U,在文档数据库230中存储由多个文档标识组成的文档集D;在特征数据库240中存储由多个特征标识组成的特征集K;
用户和文档初始值设置模块212:为所述用户集U中的至少一个用户设置参数向量初始值并将其存储于用户数据库220;为所述文档集D中的至少一个文档设置参数向量初始值并将其存储于文档数据库230;为所述文档集D中的每个文档设置排序向量初始值;未被设置参数向量初始值的用户和文档,其参数向量初始值缺省为零向量;
用户访问文档信号采集模块213:用于采集任意一个用户m(m∈U)(102)访问任意一个文档n(n∈D)的信号,所述信号存储于Web日志数据库250中;所述用户m(102)访问所述文档n的信号,将被发送到至少一个应用服务器中,所述应用服务器包括门户网站服务器301、社交网络服务器302、搜索引擎服务器303和即时通信服务器304;
用户和文档参数向量更新模块214:根据所述信号,在所述用户数据库220中读取所述用户m(102)的参数向量以及在所述文档数据库230中读取所述文档n的参数向量,然后应用参数向量更新算法,更新所述用户m(102)和所述文档n的参数向量,最后用更新后的所述用户m(102)的参数向量和所述文档n的参数向量分别更新所述用户数据库220和所述文档数据库230;
文档排序向量更新模块215:在所述文档集D中,以文档之间的链接关系、每个文档的排序向量初始值以及每个文档的参数向量作为输入数据,应用排序向量更新算法,迭代更新在每个特征k(k∈K)下所述文档集D中每个文档的排序值,以及应用更新后的所述排序值更新所述文档数据库230;所述文档之间的链接关系,是由所述文档集D中的每个文档包所含的文档链接来决定的;
用户查询模块216:首先,接收查询用户q设置的查询向量和所述用户q提交的搜索条件,并且在所述搜索条件中提取搜索关键字;然后,在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;之后,根据所述查询向量和所述一组文档Q中每个文档的排序向量,计算所述一组文档Q中每个文档的个性化排序值,或者根据所述查询向量和所述一组文档Q中每个文档的参数向量,计算所述一组文档Q中每个文档的个性化排序值;最后,根据所述个性化排序值对所述一组文档Q进行排序,以及按照排序结果将所述一组文档Q中的多个文档的链接发送给所述用户q。
图9为一种获取用户和文档个性化特征的系统信号序列图。首先,在用户访问文档信号采集模块213中采集用户m(102)访问文档n的信号;然后,由用户访问文档信号采集模块213向用户和文档参数向量更新模块214转发所述信号,同时将所述信号发送到Web日志数据库240;之后,由用户和文档参数向量更新模块214向用户数据库220发送读取所述用户m(102)的参数向量的请求,后者返回所述用户m(102)的参数向量,由用户和文档参数向量更新模块214向文档数据库230发送读取所述文档n的参数向量的请求,后者返回所述文档n的参数向量;再后,在用户和文档参数向量更新模块214中,使用参数向量更新算法,更新所述用户m(102)和所述文档n的参数向量;最后,用户和文档参数向量更新模块214将更新后的所述用户m(102)和所述文档n的参数向量分别发送给用户数据库220和文档数据库230。
以上所述应用实例仅为本发明的较佳的应用实例,并非用以限定本发明的保护范围。

Claims (14)

1.一种获取用户和文档个性化特征的方法,其特征在于,
在接入互联网的服务器中,存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D;存储由多个特征标识组成的特征集K;
在所述服务器中,至少为所述用户集U中的一个用户或者所述文档集D中的一个文档设置参数向量初始值;
在所述服务器中,多次执行如下步骤:
接收任意一个用户m(m∈U)访问任意一个文档n(n∈D)的信号;
根据所述信号,读取所述用户m的参数向量U(m)=(uwm1,uwm2,...,uwmk,...,uwmL),其中所述uwmk表示所述用户m与特征k(k∈K)的相关度;
根据所述信号,读取所述文档n的参数向量D(n)=(dwn1,dwn2,...,dwnk,...,dwnL),其中所述dwnk表示所述文档n与特征k(k∈K)的相关度;
应用参数向量更新算法,更新所述用户m和所述文档n的参数向量;设更新后所述用户m的参数向量为U*(m)=(uwm1 *,uwm2 *,...,uwmk *,...,uwmL *),更新后所述文档n的参数向量为D*(n)=(dwn1 *,dwn2 *,...,dwnk *,...,dwnL *),则所述参数向量更新算法包括:
U*(m)=F1[U(m),D(n)];
D*(m)=F2[U(m),D(n)];
其中所述F1(·)和所述F2(·)分别是以所述U(m)和所述D(n)为自变量的函数。
2.根据权利要求1所述的方法,其特征在于,对于每个特征k∈K,所述uwmk *是所述dwnk的增函数,所述dwnk *是所述uwmk的增函数。
3.根据权利要求1所述的方法,其特征在于,对于每个特征k∈K,所述uwmk *和dwnk *分别是所述用户m访问所述文档集D的频次的减函数。
4.根据权利要求1所述的方法,其特征在于,对于每一个k∈K,所述uwmk *是∑(k∈K)dwnk的减函数,所述dwnk *是∑(k∈K)uwmk的减函数。
5.根据权利要求1所述的方法,其特征在于,执行所述参数向量更新算法达到设定次数后,针对每个特征k∈K,对第k个用户列向量(uw1k,uw2k,...,uwMk)进行归一化处理;执行所述参数向量更新算法达到设定次数后,针对每个特征k∈K,对第k个文档列向量(dw1k,dw2k,...,dwNk)进行归一化处理。
6.根据权利要求1所述的方法,其特征在于,在所述参数向量更新算法的一个应用实例中,所述uwmk *和所述dwnk *的具体更新方法如下:
uwmk *=β1·uwmk1(n,m,T)·f1(dwnk)    (对于每个k∈K)
dwnk *=β2·dwnk2(m,n,T)·f2(uwmk)    (对于每个k∈K)
其中,所述λ1(n,m,T)为在所述信号的类型T下所述文档n对所述用户m的影响系数,所述λ2(m,n,T)为在所述信号的类型T下所述用户m对所述文档n的影响系数;β1和β2为设定正常数;所述f1(dwnk)是所述dwnk的增函数,所述f2(uwmk)是所述uwmk的增函数。
7.根据权利要求6所述的方法,其特征在于,所述λ1(n,m,T)和所述λ2(m,n,T)分别是所述用户m访问所述文档集D的频次的减函数。
8.根据权利要求6所述的方法,其特征在于,所述λ1(n,m,T)和所述λ2(m,n,T)分别是所述用户m的参数向量和所述文档n的参数向量之间的相似度的增函数。
9.根据权利要求1所述的方法,其特征在于,所述文档集D中至少含有两个文档子集,其中文档子集S
Figure FSA00000743818300021
中的每个文档都含有至少一个链接指向所述文档集D中的其它文档,文档子集E
Figure FSA00000743818300022
中的每个文档都被所述文档子集S中的至少一个文档含有的链接所指向;并且S∪E=D,S∩E≠Φ;
所述文档集D中的每个文档还设有排序向量,设任一文档p(p∈D)的排序向量为[PR(p,1),PR(p,2),...,PR(p,k),...,PR(p,L)],其中所述PR(p,k)表示在特征k(k∈K)下所述文档p在所述文档集D中的排序值;
因此,排序向量更新算法如下:所述文档集D中的任意一个文档p在特征k(k∈K)下的排序值,是所述文档p的每个链入文档在所述特征k下的排序值和所述链入文档与所述特征k的相关度的函数。
10.根据权利要求9所述的方法,其特征在于,在所述方法的一个应用实例中,在每个特征k∈K下,任一文档p∈D在所述文档集D中的排序值定义为:
PR ( p , k ) = ( 1 - d ) N + d Σ i ∈ T PR ( i , k ) · dw ik
其中,集合T
Figure FSA00000743818300024
为所述文档p的链入文档集合,d表示用户通过其它文档的链接来访问所述文档p的概率,PR(i,k)表示文档i在特征k(k∈K)下的排序值,所述dwik表示所述文档i与特征k(k∈K)的相关度,N是所述文档集D中的文档个数。
11.根据权利要求9所述的方法,其特征在于,在所述方法的一个应用实例中,在每个特征k∈K下,任一文档p∈D在所述文档集D中的排序值定义为:
PR ( p , k ) = ( 1 - d ) N + d Σ i ∈ T PR ( i , k ) · dw ik C ( i )
其中,集合T为所述文档p的链入文档集合,d表示用户通过其它文档的链接来访问所述文档p的概率,PR(i,k)表示文档i在特征k(k∈K)下的排序值,所述dwik表示所述文档i与特征k(k∈K)的相关度,C(i)是所述文档i的链出文档数量,N是所述文档集D中的文档个数。
12.根据权利要求9所述的方法,其特征在于,所述方法包括一个文档排序应用实例,所述应用实例包括在所述服务器中执行如下步骤:
S10.根据所述参数向量更新算法,更新所述文档集D中多个文档的参数向量以及所述用户集U中多个用户的参数向量;
S20.设置所述文档集D中每个文档的排序向量初始值;
S30.在每个特征k(k∈K)下,应用所述排序向量更新算法,迭代更新所述文档集D中第k个排序列向量,即更新所述文档集D中每个用户的排序向量;
S40.接收用户q(q∈U)设置的查询向量和所述用户q提交的搜索条件,并且在所述搜索条件中提取搜索关键字;
S50.在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;
S60.根据所述查询向量和所述一组文档Q中的每个文档的排序向量,计算所述一组文档Q中的每个文档的个性化排序值;
S70.根据所述个性化排序值,对所述一组文档Q进行排序,并且根据排序结果将所述一组文档Q中的多个文档的链接发送给所述用户q。
13.根据权利要求1所述的方法,其特征在于,所述方法包括一个文档排序应用实例,所述应用实例包括在所述服务器中执行如下步骤:
A10.根据所述参数向量更新算法,更新所述文档集D中多个文档的参数向量以及所述用户集U中多个用户的参数向量;
A20.接收用户q(q∈U)设置的查询向量和所述用户q提交的搜索条件,并且在所述搜索条件中提取搜索关键字;
A30.在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;
A40.根据所述查询向量和所述一组文档Q中的每个文档的参数向量,计算所述一组文档Q中的每个文档的个性化排序值;
A50.根据所述个性化排序值,对所述一组文档Q进行排序,并且根据排序结果将所述一组文档Q中的多个文档的链接发送给所述用户q。
14.一种获取用户和文档个性化特征的系统,其特征在于,所述系统包括如下功能模块:
用户集、文档集和特征集设置模块:在用户数据库中存储由多个用户标识组成的用户集U,在文档数据库中存储由多个文档标识组成的文档集D;在特征数据库中存储由多个特征标识组成的特征集K;
用户和文档初始值设置模块:为所述用户集U中的至少一个用户设置参数向量初始值并将其存储于用户数据库;为所述文档集D中的至少一个文档设置参数向量初始值并将其存储于文档数据库;为所述文档集D中的每个文档设置排序向量初始值;未被设置参数向量初始值的用户和文档,其参数向量初始值缺省为零向量;
用户访问文档信号采集模块:用于采集任意一个用户m(m∈U)访问任意一个文档n(n∈D)的信号,所述信号存储于Web日志数据库中;
用户和文档参数向量更新模块:根据所述信号中包含的所述用户m和所述文档n的标识,在所述用户数据库中读取所述用户m的参数向量以及在所述文档数据库中读取所述文档n的参数向量;然后通过参数向量更新算法,更新所述用户m和所述文档n的参数向量;最后用更新后的所述用户m和所述文档n的参数向量分别更新所述用户数据库和所述文档数据库;
文档排序向量更新模块:在所述文档集D中,以文档之间的链接关系、每个文档的排序向量初始值以及每个文档的参数向量作为输入数据,应用排序向量更新算法,迭代更新在每个特征k(k∈K)下所述文档集D中每个文档的排序值,以及应用更新后的所述排序值更新所述文档数据库;所述文档之间的链接关系,是由所述文档集D中的每个文档包含的文档链接所决定的;
用户查询模块:首先,接收查询用户q(q∈D)设置的查询向量和所述用户q提交的搜索条件,并且在所述搜索条件中提取搜索关键字;然后,在所述文档集D中检索与所述搜索关键字匹配的一组文档Q;之后,根据所述查询向量和所述一组文档Q中每个文档的排序向量,计算所述一组文档Q中每个文档的个性化排序值,或者根据所述查询向量和所述一组文档Q中每个文档的参数向量,计算所述一组文档Q中每个文档的个性化排序值;最后,根据所述个性化排序值对所述一组文档Q进行排序,以及按照排序结果将所述一组文档Q中的多个文档的链接发送给所述用户q。
CN201210228726.1A 2012-06-25 2012-06-25 一种获取用户和文档个性化特征的方法和系统 Active CN103514237B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810739450.0A CN108959579B (zh) 2012-06-25 2012-06-25 一种获取用户和文档个性化特征的系统
CN201210228726.1A CN103514237B (zh) 2012-06-25 2012-06-25 一种获取用户和文档个性化特征的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210228726.1A CN103514237B (zh) 2012-06-25 2012-06-25 一种获取用户和文档个性化特征的方法和系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201810739450.0A Division CN108959579B (zh) 2012-06-25 2012-06-25 一种获取用户和文档个性化特征的系统

Publications (2)

Publication Number Publication Date
CN103514237A true CN103514237A (zh) 2014-01-15
CN103514237B CN103514237B (zh) 2018-09-04

Family

ID=49896968

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810739450.0A Expired - Fee Related CN108959579B (zh) 2012-06-25 2012-06-25 一种获取用户和文档个性化特征的系统
CN201210228726.1A Active CN103514237B (zh) 2012-06-25 2012-06-25 一种获取用户和文档个性化特征的方法和系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201810739450.0A Expired - Fee Related CN108959579B (zh) 2012-06-25 2012-06-25 一种获取用户和文档个性化特征的系统

Country Status (1)

Country Link
CN (2) CN108959579B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544190A (zh) * 2012-07-17 2014-01-29 祁勇 一种获取用户和文档个性化特征的方法和系统
CN106033574A (zh) * 2015-03-10 2016-10-19 阿里巴巴集团控股有限公司 一种作弊行为的识别方法及装置
CN107330737A (zh) * 2017-07-05 2017-11-07 北京奇虎科技有限公司 反作弊的性能优化方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086215A1 (en) * 2002-06-14 2005-04-21 Igor Perisic System and method for harmonizing content relevancy across structured and unstructured data
CN1667607A (zh) * 2004-03-11 2005-09-14 国际商业机器公司 用于文档浏览的个性化分类处理方法及系统
CN101071445A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 分类样本集的优化方法和内容相关广告服务器
CN101770520A (zh) * 2010-03-05 2010-07-07 南京邮电大学 基于用户浏览行为的用户兴趣建模方法
CN103324648A (zh) * 2012-03-20 2013-09-25 祁勇 一种获取用户和文档个性化特征的方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331514A (ja) * 2000-05-19 2001-11-30 Ricoh Co Ltd 文書分類装置及び文書分類方法
JP3865688B2 (ja) * 2002-11-13 2007-01-10 アクシスソフト株式会社 外字処理システム、外字処理プログラム及び外字処理の方法
CN100353361C (zh) * 2004-07-09 2007-12-05 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
KR20070101217A (ko) * 2004-09-16 2007-10-16 텔레노어 아사 개인 웹에서의 문서의 검색, 항행, 및 순위 부여를 위한방법, 시스템, 컴퓨터 프로그램 제품
JP5224868B2 (ja) * 2008-03-28 2013-07-03 株式会社東芝 情報推薦装置および情報推薦方法
CN101923545B (zh) * 2009-06-15 2012-10-10 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086215A1 (en) * 2002-06-14 2005-04-21 Igor Perisic System and method for harmonizing content relevancy across structured and unstructured data
CN1667607A (zh) * 2004-03-11 2005-09-14 国际商业机器公司 用于文档浏览的个性化分类处理方法及系统
CN101071445A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 分类样本集的优化方法和内容相关广告服务器
CN101770520A (zh) * 2010-03-05 2010-07-07 南京邮电大学 基于用户浏览行为的用户兴趣建模方法
CN103324648A (zh) * 2012-03-20 2013-09-25 祁勇 一种获取用户和文档个性化特征的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜鑫维 等: ""Topic PageRank ———一种基于主题的搜索引擎"", 《计算机技术与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544190A (zh) * 2012-07-17 2014-01-29 祁勇 一种获取用户和文档个性化特征的方法和系统
CN106033574A (zh) * 2015-03-10 2016-10-19 阿里巴巴集团控股有限公司 一种作弊行为的识别方法及装置
CN106033574B (zh) * 2015-03-10 2021-07-30 创新先进技术有限公司 一种作弊行为的识别方法及装置
CN107330737A (zh) * 2017-07-05 2017-11-07 北京奇虎科技有限公司 反作弊的性能优化方法及装置

Also Published As

Publication number Publication date
CN103514237B (zh) 2018-09-04
CN108959579A (zh) 2018-12-07
CN108959579B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
Zhao et al. Connecting social media to e-commerce: Cold-start product recommendation using microblogging information
CN102982042B (zh) 一种个性化内容推荐方法、平台以及系统
CN102789462B (zh) 一种项目推荐方法及系统
US8200617B2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
CN105488233A (zh) 阅读信息推荐方法和系统
Leme et al. Identifying candidate datasets for data interlinking
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN106663100B (zh) 多域查询补全
CN103886487A (zh) 基于分布式的b2b平台的个性化推荐方法与系统
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN103729359A (zh) 一种推荐搜索词的方法及系统
CN102509233A (zh) 一种基于用户网上动作信息的推荐方法
CN109918563A (zh) 一种基于公开数据的图书推荐的方法
CN104899236B (zh) 一种评论信息显示方法、装置及系统
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN104537080B (zh) 资讯推荐方法和系统
CN103514237A (zh) 一种获取用户和文档个性化特征的方法和系统
CN106202312A (zh) 一种用于移动互联网的兴趣点搜索方法和系统
CN103309900A (zh) 一种个性化多维度的文档排序方法和系统
KR101866411B1 (ko) 문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치
CN103227791B (zh) 一种无线数据采集的方法及装置
KR101363497B1 (ko) Foaf 데이터 관리 방법 및 장치
CN105095404A (zh) 网页信息的处理方法、网页信息的推荐方法及装置
CN103544190A (zh) 一种获取用户和文档个性化特征的方法和系统
CN103870517A (zh) 一种获取用户个性化特征的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180523

Address after: 226661 No. 123 South Street, Qu Tang Town, Haian, Nantong, Jiangsu

Applicant after: Jing Zhuqiang

Address before: 518053 Guangdong Shenzhen Nanshan District overseas Chinese town beautiful Fairview garden 20E

Applicant before: Qi Yong

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180731

Address after: 518040 2 to 5 floors of nine run building, No. 36, Xiang Lin Road, Futian District, Shenzhen, Guangdong.

Applicant after: Shenzhen Yi map Touchplus information Corp

Address before: 226661 No. 123 South Street, Qu Tang Town, Haian, Nantong, Jiangsu

Applicant before: Jing Zhuqiang

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 518063 floor 14-15, block a, building 10, Shenzhen Bay science and technology ecological park, No. 10, Gaoxin South 9th Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: SHENZHEN ETOP INFORMATION Co.,Ltd.

Address before: 518040 2 to 5 floors of nine run building, No. 36, Xiang Lin Road, Futian District, Shenzhen, Guangdong.

Patentee before: SHENZHEN ETOP INFORMATION Co.,Ltd.

CP02 Change in the address of a patent holder