CN103514237B

CN103514237B - 一种获取用户和文档个性化特征的方法和系统

Info

Publication number: CN103514237B
Application number: CN201210228726.1A
Authority: CN
Inventors: 祁勇
Original assignee: Shenzhen Yi Map Touchplus Information Corp
Current assignee: Shenzhen Yi map Touchplus information Corp
Priority date: 2012-06-25
Filing date: 2012-06-25
Publication date: 2018-09-04
Anticipated expiration: 2032-06-25
Also published as: CN103514237A; CN108959579A; CN108959579B

Abstract

本发明提出了一种获取用户和文档个性化特征的方法和系统。所述方法通过用户访问文档的信号，来自动地更新用户和文档的个性化特征。用户的个性化特征，依据所述用户访问过的文档的个性化特征进行更新；文档的个性化特征，依据访问过该文档的用户的个性化特征进行更新。根据获取的用户和文档的个性化特征，可在搜索引擎中实现个性化的文档排序；根据用户和文档的个性化特征，可在社交网络中实现个性化的信息过滤和筛选。本发明还提出了一种获取用户和文档个性化特征的系统。本发明方法能够提高搜索引擎的查准率和社交网络检索信息的效率。另外本发明方法能够提高网页排名算法的反作弊能力。

Description

一种获取用户和文档个性化特征的方法和系统

技术领域

本发明涉及互联网领域，具体来说涉及一种获取用户和文档个性化特征的方法和系统。

背景技术

搜索引擎和社交网络是互联网上获取信息的主要工具。这两种工具存在一个共同的缺点，即不能根据用户的个性化特征来进行信息的过滤和筛选。例如，不同的用户在同一个搜索引擎中输入相同的关键字，其返回的搜索结果是相同的，与哪个用户提交的搜索查询无关；不同的用户在同一个社交网络中建立相同的关系网络，其获得的信息也是相同的，与哪个用户建立的关系网络无关。

搜索引擎是利用信息检索技术进行大规模的网页收集、索引、排序，以及根据排序结果将网页呈现给查询用户的应用程序。搜索引擎的核心技术是排序算法，最著名的是谷歌的PageRank算法。该算法的输入是由网页设计者根据其主观意愿构建的网页链接关系。尽管它充分反映了网页设计者的个人偏好和对网页链接关系的理解，但是它却无法反映出搜索引擎的使用者——用户的个人偏好。由于从事不同行业或具有不同爱好的用户对同一个网页的重要性评价通常是不同的，而PageRank等现有排序技术无法对这种不同进行区分，它们对不同的用户只能给出唯一的网页排名，这是现有搜索技术的缺点。一个可行的技术解决方案是结合用户和网页的个性化特征来改进搜索结果，使得每个网页的排名不仅依赖于网页之间的链接关系，而且依赖于提交搜索查询的用户的个性化特征和被查询网页的个性化特征。有分析表明，借助用户和网页的个性化特征，能够提高搜索引擎的查准率，减少用户对无效信息的扫描和浏览。

社交网络是互联网上人们彼此之间进行沟通的平台。在社交网络中，用户通过自己建立的关系网络来获取信息，例如通过关注(follow)他人和加好友等操作来获取他人发布的信息。被关注的人和加为好友的人越多，用户获得的信息也越多。由于担心有重要的或者有趣的信息被遗漏，用户通常会在社交网络中关注更多的人或者加入更多的好友。但是，当关系网络中的用户数量超过邓巴数(Dunbar)150之后，微博和脸谱(Facebook)等社交网络会逐渐成为对用户进行“信息轰炸”的服务。其原因是现有社交网络技术要求用户必须接收其关系网络中的所有用户发布的所有信息，而不能按信息类别有选择地接收这些信息，这是现有社交网络技术的缺点。一个可行的技术解决方案是让用户获得的信息不仅依赖用户建立的关系网络，而且依赖用户的个性化特征和获取的信息的个性化特征。这将有助于对社交网络上的海量信息进行有效地过滤和筛选，提高社交网络的信息检索效率。为了叙述方便，我们通常把用户在社交网络上获得的每条信息(如一条微博)，也看作一个文档，它有唯一的网络地址。

要实现上述两个技术解决方案，其必要条件是能够获取用户和网页文档的个性化特征。但是在互联网上获取用户和网页文档的个性化特征通常是困难的，主要有以下几个难点。第一是个性化信息的自动获取问题。据估算目前互联网上有数千亿个网页和二十亿用户，手工维护网页文档和用户的个性化特征是不现实的。如何自动获取用户和网页文档的个性化特征是一个难题。第二是个性化信息的更新问题。随着时间的推移，用户的兴趣爱好、工作地点、从事的行业和教育程度等个人信息会发生改变，但是要求大多数用户实时地更新其个性化信息是困难的。第三是个性化信息的语义差异问题。在用户设置的个性化特征中，术语不同但语义相同的个性化特征，难以对其进行有效归类。第四是个性化信息的完备性问题。用户在网站上提供的个人信息通常比较简略。例如对用户兴趣爱好的描述通常是喜欢音乐、打棒球或看书等几项内容，而要求用户全面地描述出其感兴趣的领域是困难的。

综上所述，如何有效地获取用户和文档的个性化特征，并根据所述个性化特征来提高搜索引擎的查准率以及提高社交网络的信息检索效率，是一个亟待解决的问题。

发明内容

鉴于上述现有技术存在的问题，本发明的目的在于提供一种获取用户和文档个性化特征的方法和系统，来自动获取用户和文档的个性化特征，并根据所述个性化特征来帮助用户过滤和筛选其在互联网上获得的信息。

根据以上所述的目的，本发明提出了一种获取用户和文档个性化特征的方法，其特征在于，

在接入互联网的服务器中，存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D；存储由多个特征标识组成的特征集K；

在所述服务器中，至少为所述用户集U中的一个用户或者所述文档集D中的一个文档设置参数向量初始值；

在所述服务器中，多次执行如下步骤：

接收任意一个用户m(m∈U)访问任意一个文档n(n∈D)的信号；

根据所述信号，读取所述用户m的参数向量U(m)＝(uw_m1，uw_m2，...，uw_mk，...，uw_mL)，其中所述uw_mk表示所述用户m与特征k(k∈K)的相关度；

根据所述信号，读取所述文档n的参数向量D(n)＝(dw_n1，dw_n2，...，dw_nk，...，dw_nL)，其中所述dw_nk表示所述文档n与特征k(k∈K)的相关度；

应用参数向量更新算法，更新所述用户m和所述文档n的参数向量；设更新后所述用户m的参数向量为U^*(m)＝(uw_m1 ^*，uw_m2 ^*，...，uw_mk ^*，...，uw_mL ^*)，更新后所述文档n的参数向量为D^*(n)＝(dw_n1 ^*，dw_n2 ^*，...，dw_nk ^*，...，dw_nL ^*)，则所述参数向量更新算法包括：

U^*(m)＝F₁[U(m)，D(n)]；

D^*(m)＝F₂[U(m)，D(n)]；

其中所述F₁(·)和所述F₂(·)分别是以所述U(m)和所述D(n)为自变量的函数。

与现有技术相比，本发明可实现个性化的文档排序，进而提高了搜索引擎的查准率以及提高社交网络的信息检索效率。另外，利用网页文档的个性化特征还能够提高网页排序算法的反作弊能力。

附图说明

图1为在用户集U中每个用户的参数向量表示方法；

图2为在文档集D中每个文档的参数向量表示方法；

图3为用户和文档的参数向量更新算法流程图；

图4为在文档集D中每个文档的排序向量表示方法；

图5为文档排序向量更新算法流程图；

图6为基于查询向量和排序向量的个性化文档检索方法流程图；

图7为基于查询向量和参数向量的个性化文档检索方法流程图；

图8为一种获取用户和文档个性化特征的系统结构图；

图9为一种获取用户和文档个性化特征的系统信号序列图。

具体实施方式

结合附图对本发明方法作进一步详细说明。

本专利方法的具体实施方案说明，包括以下几个部分。首先，说明用户集、文档集和特征集的含义以及用户和文档的参数向量表示方法；然后，说明用户和文档的参数向量更新算法；之后，说明文档的排序向量表示方法以及基于文档参数向量的文档排序算法；再后，说明基于查询向量的个性化文档检索方法；最后，说明一种获取用户和文档个性化特征的系统。

首先说明用户集U、文档集D和特征集K的含义。

在接入互联网的服务器中，存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D。所述用户标识是在互联网上用户的唯一识别码，包括用户帐号、手机号码、Cookie识别码、IP地址、Email地址和即时通信号码中的一个；所述文档标识是在互联网上文档的唯一识别码，例如Web网页文档的URL地址。所述用户集U含有M个元素，所述文档集D含有N个元素。

在接入互联网的服务器中，存储由多个特征标识组成的特征集K，所述特征集K含有L个元素。所述特征集K中的特征，是在所述用户集U中用户的特征和所述文档集D中文档的特征中选取的。用户和文档使用相同的特征集K。若用户具有“音乐”特征，说明用户爱好音乐，而文档具有“音乐”特征，说明文档与音乐主题相关。

下面介绍用户和文档的参数向量的表示方法。所述参数向量表示方法与向量空间模型VSM的向量表述方法相似，即以特征项作为用户特征或文档特征的基本单位。本专利所述方法和系统中，以用户与各个特征的相关度的集合作为用户的参数向量，以文档与各个特征的相关度的集合作为文档的参数向量。

图1为用户集U中每个用户的参数向量表示方法。在用户集U中任意一个用户m(m∈U)的参数向量设置为U(m)＝(uw_m1，uw_m2，...，uw_mk，...，uw_mL)，其中所述uw_mk表示所述用户m与特征k(k∈K)的相关度。另外，将所述用户集U中的每个用户与特征k的相关度汇集在一起，组成一个向量，叫做用户集U的第k个用户列向量(uw_1k，uw_2k，...，uw_Mk)。

图2为文档集D中每个文档的参数向量表示方法。在文档集D中任意一个文档n(n∈D)的参数向量设置为D(n)＝(dw_n1，dw_n2，...，dw_nk，...，dw_nL)，其中所述dw_nk表示所述文档n与特征k(k∈K)的相关度。另外，将所述文档集D中的每个文档与特征k的相关度汇集在一起，组成一个向量，叫做文档集D的第k个文档列向量(dw_1k，dw_2k，...，dw_Nk)。

所述相关度是一个实数值，它表示用户或者文档与特征集K中的某个特征的关系紧密程度。如果一个用户或者文档与音乐特征关联多一点与体育特征关联少一点，我们就说该用户或者文档与音乐特征的相关度高，与体育特征的相关度低。另外在特征选取时，有些特征之间是具有相关性的，因此可以通过减少特征之间的相关性来降低特征集K的维度，减少对服务器存储空间的需求，提高算法效率。有些特征不必直接列入特征集中，因为这些特征的相关度可以通过特征集K中的一个或几个其它特征的相关度计算出来。

下面说明用户或文档的参数向量初始值的设置方法。举如下三个例子进行说明。用户或文档的参数向量初始值范围通常设置为对于任意m∈U、n∈D和k∈K，有uw_mk∈[0，1]和dw_nk∈[0，1]。如果用户或文档的参数向量没有被设置初始值，其参数向量初始值缺省设为零向量。

例1是人工设置用户m(m∈U)或者文档n(n∈D)的参数向量初始值的方法。例如设置特征总数L＝5，特征集K＝(科学，教育，财经，音乐，体育)，设置U(m)＝(uw_m1，uw_m2，uw_m3，uw_m4，uw_m5)＝(0，0.9，0，1，0)。即用户m与“教育”特征的相关度为0.9，与“音乐”特征的相关度为1，与其它特征的相关度均为零。同理，可以设置所述文档n的参数向量D(n)＝(dw_n1，dw_n2，...，dw_nk，...，dw_nL)的初始值。

例2是设置用户m(m∈U)的参数向量初始值的方法。首先由所述用户m提交一组文档集合所述文档r(r∈H)的参数向量为(dw_r1，dw_r2，...，dw_rL)，然后，对于每个k∈K，设置uw_mk＝(σ₁/s)·∑_(r∈H)dw_rk或者uw_mk＝(σ₁/s)·∑_(r∈H)[dw_rk/(∑_(k∈K)dw_rk)]，其中s为所述集合H的元素个数，σ₁为设定正常数。使用类似方法，所述用户m也可以在所述用户集U中选择一组用户来计算所述用户m的参数向量初始值。

例3是一种设置文档的参数向量初始值的方法。分类目录是一种特殊文档，比如门户网站通常包括新闻、音乐、体育、财经和科技等分类目录。我们假设相同分类目录下的文档具有某些相同的特征，例如体育目录下的文档都与体育相关。如果文档n(n∈D)是分类目录h(h∈D)下的一个文档，则所述文档n的参数向量初始值由所述分类目录h的参数向量来决定。例如对于每个k∈K，设置dw_nk＝σ₂·dw_hk，其中σ₂为设定正常数。

图3为用户和文档的参数向量更新算法流程图。具体包括在接入互联网的服务器中，执行如下步骤：

S11.存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D；存储由多个特征标识组成的特征集K；

S12.至少为所述用户集U中的一个用户或者所述文档集D中的一个文档设置参数向量初始值；

S13.接收任意一个用户m(m∈U)访问任意一个文档n(n∈D)的信号；

S14.根据所述信号，读取所述用户m的参数向量U(m)＝(uw_m1，uw_m2，...，uw_mk，...，uw_mL)，其中所述uw_mk表示所述用户m与特征k(k∈K)的相关度；

S15.根据所述信号，读取所述文档n的参数向量D(n)＝(dw_n1，dw_n2，...，dw_nk，...，dw_nL)，其中所述dw_nk表示所述文档n与特征k(k∈K)的相关度；

S16.应用参数向量更新算法更新所述用户m和所述文档n的参数向量；设更新后所述用户m的参数向量U^*(m)＝(uw_m1 ^*，uw_m2 ^*，...，uw_mk ^*，...，uw_mL ^*)，更新后所述文档n的参数向量D^*(n)＝(dw_n1 ^*，dw_n2 ^*，...，dw_nk ^*，...，dw_nL ^*)，则所述算法包括：

U^*(m)＝F₁[U(m)，D(n)]；

D^*(m)＝F₂[U(m)，D(n)]；

在执行完所述步骤S16后，返回所述步骤S13。

其中所述F₁(·)和所述F₂(·)分别是以所述U(m)和所述D(n)为自变量的函数。所述用户m代表用户集U中的任何一个用户，而不特指某个用户，所述文档n代表文档集D中的任何一个文档，而不特指某个文档。例如第n次执行步骤S13时在所述信号中m＝1023，n＝3428，而第n+1次执行步骤S 13时在所述信号中m＝33456，n＝28477。

在图3所述方法的一个应用实例中，对每个k∈K，所述uw_mk ^*是所述dw_nk的增函数，所述dw_nk ^*是所述uw_mk的增函数。

在图3所述方法的一个应用实例中，对于每一个k∈K，所述uw_mk ^*和所述dw_nk ^*都是所述用户m访问所述文档集D的频次的减函数。所述频次是在一设定时间段内所述用户m访问所述文档集D中的文档的次数除以所述设定时间段的长度。

在图3所述方法的一个应用实例中，对每个k∈K，所述uw_mk ^*是∑_(k∈K)dw_nk的减函数，所述dw_nk ^*是∑_(k∈K)uw_mk的减函数。

在图3所述方法的一个应用实例中，所述信号是在一设定时间内从Web日志中随机抽取的。在所述一设定时间内，对所述用户集U中的每个活跃用户抽取相同数量的访问信号作为图3所述方法的输入信号。所述活跃用户是指在所述一设定时间内，访问所述文档集D达到设定次数的用户。非活跃用户不能使用图3所述方法更新用户和文档的参数向量。

在图3所述方法中，在执行所述参数向量更新算法达到设定次数t₁后，在每个特征k∈K下，对第k个用户列向量(uw_1k，uw_2k，...，uw_Mk)进行归一化处理；在执行所述参数向量更新算法达到设定次数t₂后，在每个特征k∈K下，对第k个文档列向量(dw_1k，dw_2k，...，dw_Nk)进行归一化处理；其中t₁和t₂为正整数。执行一次参数向量更新算法，即执行一次所述步骤S16。所述归一化方法包括以下的具体应用实例。

例1：对用户集U中第k个用户列向量(uw_1k，uw_2k，...，uw_Mk)进行归一化处理的方法如下：对集合{uw_1k，uw_2k，...，uw_Mk)按由大到小的顺序进行排序，将排名第M₁的元素赋值给以及对于每个m∈U，如果则设uw_mk＝1，否则设置对文档集D中第k个文档列向量(dw_1k，dw_2k，...，dw_Nk)进行归一化处理的方法如下：对集合{dw_1k，dw_2k，...，dw_Nk)按由大到小的顺序进行排序，将排名第N₁的元素赋值给以及对于每个n∈D，如果则设dw_nk＝1，否则设置其中，M₁和N₁为设定正常数。

例2：对文档集D中第k个文档列向量(dw_1k，dw_2k，...，dw_Nk)进行归一化处理的方法如下：首先对集合{dw_1k，dw_2k，...，dw_Nk)进行排序，以及按照排序结果将集合{dw_1k，dw_2k，...，dw_Nk}分成元素个数近似相等的r组，其中任意两组a组和b组的关系是a组中的任何一个元素大于等于b组中的任何一个元素，或者a组中的任何一个元素小于等于b组中的任何一个元素；在每组中取出数值最小的一个数据组成集合{s₁，s₂，...，s_r}，且s₁＜s₂＜...＜s_r；然后，对于每个n∈D，如果dw_nk＜s₁，则设置dw_nk＝0；如果s_m≤dw_nk≤s_m+1，则设置dw_nk＝g₁(s_m)；如果dw_nk＞s_r，则设置dw_nk＝1。其中g₁(s_m)为增函数，g₁(s_m)∈(0，1)，例如设g₁(s_m)＝s_m/s_r；1≤m＜r，r为设定正数。同样方法，可对用户集U中第k个用户列向量进行归一化处理。

在图3所述方法的一个应用实例中，执行完所述步骤S16之后，还包括对于每个k∈K，设置uw_mk＝uw_mk ^*和dw_nk＝dw_nk ^*。

在图3所述方法的一个应用实例中，所述方法满足对于每个k∈K，有uw_mk ^*≥uw_mk和dw_nk ^*≥dw_nk。

在图3所述方法中，所述信号的类型至少是以下类型中的一种：T＝1表示所述用户m点击所述文档n的链接，T＝2表示所述用户m键入所述文档n的地址，T＝3表示所述用户m将所述文档n设置为喜欢(如脸谱的Like和谷歌的+1)，T＝4表示所述用户m转发所述文档n，T＝5表示所述用户m评论所述文档n，T＝6表示所述用户m收藏所述文档n。

应用实例1

在图3所述方法的一个应用实例中，所述参数向量更新算法具体包括：

uw_mk ^*＝β₁·uw_mk+λ₁(n，m，T)·f₁(dw_nk) (对于每个k∈K)

dw_nk ^*＝β₂·dw_nk+λ₂(m，n，T)·f₂(uw_mk) (对于每个k∈K)

其中，所述λ₁(n，m，T)为在所述信号的类型T下所述文档n对所述用户m的影响系数，所述λ₂(m，n，T)为在所述信号的类型T下所述用户m对所述文档n的影响系数；β₁和β₂为设定正常数；所述f₁(dw_nk)是所述dw_nk的增函数，所述f₂(uw_mk)是所述uw_mk的增函数。例如f₁(dw_nk)＝σ₃·dw_nk，f₂(uw_mk)＝σ₄·uw_mk；或者f₁(dw_nk)＝σ₅·{1/[1+exp(-dw_nk)]}，f₂(uw_mk)＝σ₆·{1/[1+exp(-uw_mk)]}，其中σ₃、σ₄、σ₅和σ₆为设定正常数。

在所述应用实例1中，对于每个特征k∈K，为第k个文档列向量设置阀值dC_k，如果dw_nk≤dC_k，则取f₁(dw_nk)＝0；对于每个特征k∈K，为第k个用户列向量设置阀值uC_k，如果uw_mk≤uC_k，则取f₂(uw_mk)＝0。其中dC_k等于第k个文档列向量(dw_1k，dw_2k，...，dw_Nk)的各个分量中排名在第a₁名的分量；uC_k等于第k个用户列向量(uw_1k，uw_2k，...，uw_Mk)的各个分量中排名在第a₂名的分量；a₁和a₂为设定正整数。

在所述应用实例1中，所述λ₁(n，m，T)和所述λ₂(m，n，T)的具体实现方法包括如下实例：

例1：设所述λ₁(n，m，T)和所述λ₂(m，n，T)为设定常数。例如λ₁(n，m，T)＝c₁和λ₂(m，n，T)＝c₂，其中c₁和c₂为设定正常数，如c₁＝c₂＝0.01。

例2：所述λ₁(n，m，T)和所述λ₂(m，n，T)分别是所述用户m访问所述文档集D的频次的减函数。如设λ₁(n，m，T)＝1/g₂[freq(m)]，λ₂(m，n，T)＝1/g₂[freq(m)]，所述g₂(x)为增函数。例如g₂(x)为分段函数，当x＜a₃时，g₂(x)＝1；当x≥a₃时，g₂(x)＝1+a₄(x-a₃)，其中a₃和a₄为预设正常数。所述freq(m)为所述用户m访问所述文档集D中的文档的频次。

例3：设λ₁(n，m，T)＝1/g₃[∑_(k∈K)dw_nk]，λ₂(m，n，T)＝1/g₃[∑_(k∈K)uw_mk]，g₃(x)为增函数。例如g₃(x)为分段函数，当x＜a₅时，g₃(x)＝1；当x≥a₅时，g₃(x)＝1+a₆₍x-a₅)，其中a₅和a₆为预设正常数。在计算∑_(k∈K)dw_nk时，如果dw_nk≤min_dC_k，则取dw_nk＝0；在计算∑_(k∈K)uw_mk时，如果uw_mk≤min_uC_k，则取uw_mk＝0；其中min_dC_k和min_uC_k是设定正常数。

例4：所述λ₁(n，m，T)＝d₁(n)·u₂(m)，所述λ₂(m，n，T)＝u₁(m)·d₂(n)，其中d₁(n)表示文档n的参数向量是否可以用于更新用户集U中用户的参数向量，u₂(m)表示用户m的参数向量是否可以被文档集D中文档的参数向量更新，u₁(m)表示用户m的参数向量是否可以用于更新文档集D中文档的参数向量，d₂(n)表示文档n的参数向量是否可以被用户集U中用户的参数向量更新。u₁(m)，u₂(m)，d₁(n)和d₂(n)是预设参数，它们的取值为0或者1。1代表是，0代表否。这个例子的含义是为防止恶意攻击，有些文档(或用户)由于没有经过可靠性认证，其参数向量不能对其它用户(或文档)的参数向量进行更新；有些重要文档(或用户)，其参数向量不能被其它用户(或文档)的参数向量所更新。

例5：所述λ₁(n，m，T)＝s₁(T)，所述λ₂(m，n，T)＝s₂(T)。其中所述T为用户访问文档信号的类型，所述s₁(T)和所述s₂(T)分别是所述T的函数。

例6：所述λ₁(n，m，T)是所述文档n的被访问次数或者PageRank值的增函数，所述λ₂(m，n，T)是所述用户m的粉丝(follower)数量的增函数。

例7：所述λ₁(n，m，T)和所述λ₂(m，n，T)分别是所述用户m和所述文档n的参数向量之间的相似度sim(m，n)的增函数。例如λ₁(n，m，T)＝1+c₃·sim(m，n)，λ₂(m，n，T)＝1+c₄·sim(m，n)，其中c₃和c₄为大于等于1的设定常数，且sim(m，n)＝[∑_(k∈K)(uw_mk·dw_nk)]/{[∑_(k∈K)(uw_mk)²]^1/2·[∑_(k∈K)(dw_nk)²]^1/2}。这个例子的含义是用户和文档的参数向量之间的相似度越高，它们彼此“投票”的比例系数越大。在计算sim(m，n)时，如果dw_nk≤min_dC_k，则取dw_nk＝0；如果uw_mk≤min_uC_k，则取uw_mk＝0，其中min_dC_k和min_uC_k是设定正常数。

例8：使用上述例1～7各方法中的至少两种方法的组合，来生成所述λ₁(n，m，T)和λ₂(m，n，T)。比如在freq(m)＞a₃时，有

λ₁(n，m，T)＝c₁·{1+c₃·sim(m，n)}·{1/[1+a₄(freq(m)-a₃)]}·{d₁(n)·u₂(m)}·s₁(T)

λ₂(m，n，T)＝c₂·{1+c₄·sim(m，n)}·{1/[1+a₄(freq(m)-a₃)]}·{u₁(m)·d₂(n)}·s₂(T)。

在所述应用实例1中，当执行所述具体的参数向量更新算法达到设定次数后，需要针对每个特征k∈K，分别对第k个文档列向量(dw_1k，dw_2k，...，dw_Nk)和第k个用户列向量(uw_1k，uw_2k，...，uw_Mk)进行归一化处理。

应用实例2

这是应用实例1的一个具体实现方法。为了便于说明，假设在互联网上有两个用户和三个文档，每个用户和每个文档均有两个特征，即用户集U＝{1，2}，文档集D＝{1，2，3}，特征集K＝{1，2}。用户1和用户2的参数向量分别为(uw₁₁，uw₁₂)和(uw₂₁，uw₂₂)，文档1、文档2和文档3的参数向量分别为(dw₁₁，dw₁₂)、(dw₂₁，dw₂₂)和(dw₃₁，dw₃₂)。其中uw_mk(m∈U，k∈K)表示所述用户m与特征k的相关度；dw_nk(n∈D，k∈K)表示所述文档n与特征k的相关度。

假设在服务器中收到了所述用户2访问所述文档3的信号，且信号类型T＝1，则根据如下参数向量更新算法更新所述用户2和所述文档3的参数向量：

uw₂₁ ^*＝β₁·uw₂₁+λ₁(3，2，1)·dw₃₁；uw₂₂ ^*＝β₁·uw₂₂+λ₁(3，2，1)·dw₃₂

dw₃₁ ^*＝β₂·dw₃₁+λ₂(2，3，1)·uw₂₁；dw₃₂ ^*＝β₂·dw₃₂+λ₂(2，3，1)·uw₂₂

其中，β₁＝β₂＝1；λ₁(3，2，1)表示在信号类型T＝1时所述文档3对所述用户2的影响系数；λ₂(2，3，1)表示在信号类型T＝1时所述用户2对所述文档3的影响系数。例如：

λ₁(3，2，1)＝c₁·{1+c₃·sim(2，3)}·{1/[1+a₄(freq(2)-a₃)]}·{d₁(3)·u₂(2)}·s₁(1)

λ₂(2，3，1)＝c₂·{1+c₄·sim(2，3)}·{1/[1+a₄(freq(2)-a₃)]}·{u₁(2)·d₂(3)}·s₂(1)

其中，c₁＝c₂＝0.01，c₃＝c₄＝3，sim(2，3)＝(uw₂₁·dw₃₁+uw₂₂·dw₃₂)/{[(uw₂₁)²+(uw₂₂)²]^1/2·[(dw₃₁)²+(dw₃₂)²]^1/2}，a₃＝200，a₄＝0.01，d₁(3)＝u₂(2)＝u₁(2)＝d₂(3)＝1，s₁(1)＝2，s₂(1)＝1，且假设freq(2)＞a₃。

在执行完上述参数向量更新算法后，进行如下设置：uw₂₁＝uw₂₁ ^*，uw₂₂＝uw₂₂ ^*，dw₃₁＝dw₃₁ ^*和dw₃₂＝dw₃₂ ^*。

在执行完上述参数向量更新算法后，对用户列向量(uw₁₁，uw₂₁)和(uw₁₂，uw₂₂)进行归一化处理，以及对文档列向量(dw₁₁，dw₂₁，dw₃₁)和(dw₁₂，dw₂₂，dw₃₂)进行归一化处理。

对用户列向量的归一化处理的算法如下：设temp1＝max(uw₁₁，uw₂₁)，则对特征k＝1设置uw₁₁＝uw₁₁/temp1，uw₂₁＝uw₂₁/temp1；设temp2＝max(uw₁₂，uw₂₂)，则对特征k＝2设置uw₁₂＝uw₁₂/temp2，uw₂₂＝uw₂₂/temp2。

对文档列向量的归一化处理的算法如下：设temp1＝max(dw₁₁，dw₂₁，dw₃₁)，则对特征k＝1设置dw₁₁＝dw₁₁/temp1，dw₂₁＝dw₂₁/temp1，dw₃₁＝dw₃₁/temp1；设temp2＝max(dw₁₂，dw₂₂，dw₃₂)，则对特征k＝2设置dw₁₂＝dw₁₂/temp2，dw₂₂＝dw₂₂/temp2，dw₃₂＝dw₃₂/temp2。

图4为在文档集D中每个文档的排序向量表示方法。

搜索引擎的核心技术是排序算法，其中最著名的是PageRank算法。标准的PageRank算法可以用如下公式表示。

其中，集合T为网页p(p∈D)的链入网页集合，C(i)为网页i(i∈T)的链出网页数量；d表示用户通过其它网页的链接来访问所述网页p的概率；1-d表示用户不通过其它网页的链接(如通过键入URL地址等方式)来访问所述网页p的概率，d∈(0，1)；PR(p)表示所述网页p在所述文档集D中的排序值，N表示文档集D中的网页数量。另外每个网页的初始排序值设为1/N。这里，文档集D中的每个元素都是一个网页。

标准的PageRank(算法的缺点是在互联网上的每个网页仅有唯一的一个网页排序值，即该算法假设每个用户对同一个网页的重要性的评价是相同的。也就是说，PageRank算法没有考虑到提交搜索查询的用户的个性化差异。因此，需要对现有排序算法进行改进。

图5为文档排序向量更新算法流程图。设所述文档集D中至少含有两个文档子集，其中文档子集S中的每个文档都含有至少一个链接指向所述文档集D中的其它文档，而文档子集E中的每个文档都被所述文档子集S中的至少一个文档含有的链接所指向；并且S∪E＝D，S∩E≠Φ，其中Φ为空集。因此，排序向量更新算法如下：所述文档集D中的任意一个文档p在特征k(k∈K)下的排序值，是所述文档p的每个链入文档在所述特征k下的排序值和所述链入文档与所述特征k的相关度的函数。

所述排序向量更新算法包括以下两个具体应用实例。

例1：在特征k∈K下任一文档p(p∈D)在所述文档集D中的排序值定义为：

其中，集合T为所述文档p的链入文档集合；d表示用户通过其它文档的链接来访问所述文档p的概率；1-d表示用户不通过其它文档的链接(如通过键入URL地址等方式)来访问所述文档p的概率，d∈(0，1)；PR(i，k)表示文档i在特征k(k∈K)下的排序值；所述dw_ik表示文档i与特征k(k∈K)的相关度；N是所述文档集D中的文档个数。另外，对于每个文档i∈D和每个特征k∈K，设所述文档i的初始排序值PR(i，k)＝1/N。

所述公式(2)可以表述成如下的向量形式：

例2：在特征k∈K下任一文档p(p∈D)在所述文档集D中的排序值定义为：

其中，集合T为所述文档p的链入文档集合；d表示用户通过其它文档的链接来访问所述文档p的概率；1-d表示用户不通过其它文档的链接(如通过键入URL地址等方式)来访问所述文档p的概率，d∈(0，1)；PR(i，k)表示文档i在特征k(k∈K)下的排序值；所述dw_ik表示文档i与特征k(k∈K)的相关度；C(i)表示文档i(i∈T)的链出文档数量；N是所述文档集D中的文档个数。另外对于每个文档i∈D和每个特征k∈K，设文档i的初始排序值PR(i，k)＝1/N。

所述公式(4)的向量形式也可以表述成公式(3)的形式，其中是全1的列向量；非负矩阵A＝(a_ij)_N×N定义如下：

为了保证所述公式(3)有效性，需要对文档集D中的文档之间的链接关系进行若干限制，例如剔除悬垂页(Dangling Page)和指向它的每个链接，当其它文档的排序值计算完毕后，再将悬垂页和指向它的链接恢复，并根据所述公式(3)计算悬垂页的排序值。

所述公式(3)可以通过幂迭代方法(Power Method)近似计算它的解，即计算所述文档集D中的第k个排序列向量设在第n次迭代后，所述排序列向量为则所述幂迭代法包括如下步骤：

R10.选取任一特征k∈K；

R11.根据所述公式(2)或者公式(4)，生成非负矩阵A；

R12.设置文档集D中第k个排序列向量的初始值n＝0；

R13.执行所述公式(3)，即根据第n步的排序列向量来计算第n+1步的排序列向量即

R14.对所述进行归一化处理，即

R15.判断是否或者n＞STEP，是则结束；否则设n＝n+1，返回步骤R13。

其中ε和STEP是设定正常数；表示向量按模最大的分量。

图6为基于查询向量和排序向量的个性化文档检索方法流程图。该方法包括在服务器中执行如下步骤：

S10.根据所述参数向量更新算法，更新所述文档集D中多个文档的参数向量和所述用户集U中多个用户的参数向量；具体实现方法包括图3中所述步骤S11至所述步骤S16；

S20.设置所述文档集D中每个文档的排序向量初始值；

S30.在每个特征k(k∈K)下，应用所述排序向量更新算法，迭代更新所述文档集D中的第k个排序列向量，即更新所述文档集D中每个用户的排序向量；

S40.接收用户q(q∈D)设置的查询向量和所述用户q提交的搜索条件，并且在所述搜索条件中提取搜索关键字；其中所述搜索条件可设为用户在搜索对话框中提交的所有信息；

S50.在所述文档集D中检索与所述搜索关键字匹配的一组文档Q；

S60.根据所述查询向量和所述一组文档Q中的每个文档的排序向量，计算所述一组文档Q中的每个文档的个性化排序值；

S70.根据所述个性化排序值，对所述一组文档Q进行排序，并且根据排序结果将所述一组文档Q中的多个文档的链接发送给所述用户q。

在图6所述方法中，设用户q的查询向量为(sw_q1，sw_q2，...，sw_qk，...，sw_qL)，其中sw_qk表示在特征k(k∈K)下被查询文档在所述文档集D中的排序值，sw_qk∈[0，1]。所述查询向量的设置方法举例如下。

第一种是由所述用户n在特征集K中选择特征，并设置被查询文档的排序值，例如设置sw_q2＝0.00023，sw_q6＝0.00061，其它向量分量为0。

第二种是所述用户q提交一组文档标识S_q＝{...，r，...}。所述文档r(r∈S_q)的排序向量为[PR(r，1)，PR(r，2)，...，PR(r，k)，...，PR(r，L)]，因此对于每个特征k∈K，所述用户q的查询向量设置为sw_qk＝(σ₇/s)·∑_(r∈Sq)PR(r，k)或者sw_qk＝(σ7/s)·∑_(r∈Sq){PR(r，k)/∑_(k∈K)PR(r，k)}；其中s为所述集合S_q的元素个数，σ₇为设定正常数。

在图6所述方法的一个应用实例中，基于所述用户q提交的查询向量的所述文档i(i∈Q)的个性化排序值UR(i，q)定义为所述用户q的查询向量(sw_q1，sw_q2，...，sw_qk，...，sw_qL)与所述文档i的排序向量[PR(i，1)，PR(i，2)，...，PR(i，k)，...，PR(i，L)]之间的相似度，例如

UR(i，q)＝∑_(k∈K)[PR(i，k)·sw_qk]}/{[∑_(k∈K)(PR(i，k))²]^1/2·[∑_(k∈K)(sw_qk)²]^1/2}

其中，所述PR(i，k)表示在特征k(k∈K)下所述文档i在所述文档集D中的排序值，所述sw_qk表示在特征k(k∈K)下被查询文档在所述文档集D中的排序值。在计算所述UR(i，q)时，对于任一k∈K，如果PR(i，k)＜min_PR，则取PR(i，k)＝0；如果sw_qk＜min_SW，则取sw_qk＝0。min_PR和min_SW为设定正常数。

图7为基于查询向量和参数向量的个性化文档检索方法流程图。所述方法包括在服务器中执行如下步骤：

A10.根据所述参数向量更新算法，更新所述文档集D中多个文档的参数向量和所述用户集U中多个用户的参数向量；具体实现方法包括图3中所述步骤S11至所述步骤S16；

A20.接收用户q(q∈D)设置的查询向量和所述用户q提交的搜索条件，并且在所述搜索条件中提取搜索关键字；其中所述搜索条件可设为用户在搜索对话框中提交的所有信息；

A30.在所述文档集D中检索与所述搜索关键字匹配的一组文档Q；

A40.根据所述查询向量和所述一组文档Q中的每个文档的参数向量，计算所述一组文档Q中的每个文档的个性化排序值；

A50.根据所述个性化排序值，对所述一组文档Q进行排序，并且根据排序结果将所述一组文档Q中的多个文档的链接发送给所述用户q。

在图7所述方法中，设用户q的查询向量为(sw_q1，sw_q2，...，sw_qk，...，sw_qL)，其中sw_qk表示被查询文档与特征k(k∈K)的相关度，sw_qk∈[0，1]。所述查询向量有如下几种设置方法。

第一种是由所述用户n在特征集K中选择特征，并对其设置特征相关度，例如设置sw_q2＝0.8，sw_q6＝0.9，其它向量分量为0。

第二种是把所述用户q的参数向量赋值给所述查询向量。

第三种是所述用户q提交一组用户标识或文档标识S_q＝{...，r，...}。当时，所述用户r(r∈S_q)的参数向量为(uw_r1，uw_r2，...，uw_rL)，因此所述用户q的查询向量设为对于每个特征k∈K，sw_qk＝(σ₈/s)·∑_(r∈Sq)uw_rk或sw_qk＝(σ₈/s)·∑_(r∈Sq)[uw_rk/(∑_(k∈K)uw_rk)]；当时，所述文档r(r∈S_q)的参数向量为(dw_r1，dw_r2，...，dw_rL)，因此所述用户q的查询向量设置为对于每个特征k∈K，sw_qk＝(σ₉/s)·∑_(r∈Sq)dw_rk或sw_qk＝(σ₉/s)·∑_(r∈Sq)[dw_rk/(∑(k∈K)dw_rk)]；其中s为所述集合S_q的元素个数，σ₈和σ₉为设定正常数。

在图7所述方法的一个应用实例中，基于所述用户q提交的查询向量的所述文档i(i∈Q)的个性化排序值UR(i，q)定义为所述用户q的查询向量(sw_q1，sw_q2，...，sw_qk，...，sw_qL)与所述文档i的参数向量(dw_i1，dw_i2，...，dw_iL)之间的相似度，即

UR(i，q)＝[∑_k(sw_qk·dw_ik)]/{[∑_k(sw_qk)²]^1/2·[∑_k(dw_ik)²]^1/2}。

图7所述方法的一个应用场景是微博。用户发布一条微博文档后，就可以设置这条微博文档的参数向量初始值了，即把发布这个微博的用户的参数向量乘以一个预设常数，赋值给这条微博文档的参数向量。当在微博服务器上收到了用户访问微博文档的信号后(如由转发、评论或收藏等动作产生的信号)，根据所述信号中包含的用户标识和微博文档标识，分别读取所述用户的参数向量和所述微博文档的参数向量；然后根据参数向量更新算法，更新所述用户和所述微博文档的参数向量。当用户打开微博时，他就可以通过其预设的查询向量对关系网络中其他人发布的信息进行过滤和筛选。其方法是首先由用户预设查询向量，然后以所述查询向量和用户收到的每条微博文档的参数向量之间的相似度作为每个微博文档的个性化排序值，并根据所述个性化排序值的数值大小，对用户收到的微博文档进行过滤和筛选。例如只将个性化排序值排名前30％的微博文档发送给查询用户。

图8为一种获取用户和文档个性化特征的系统结构图。所述系统200包括如下功能模块：

用户集、文档集和特征集设置模块211：在用户数据库220中存储由多个用户标识组成的用户集U，在文档数据库230中存储由多个文档标识组成的文档集D；在特征数据库240中存储由多个特征标识组成的特征集K；

用户和文档初始值设置模块212：为所述用户集U中的至少一个用户设置参数向量初始值并将其存储于用户数据库220；为所述文档集D中的至少一个文档设置参数向量初始值并将其存储于文档数据库230；为所述文档集D中的每个文档设置排序向量初始值；未被设置参数向量初始值的用户和文档，其参数向量初始值缺省为零向量；

用户访问文档信号采集模块213：用于采集任意一个用户m(m∈U)(102)访问任意一个文档n(n∈D)的信号，所述信号存储于Web日志数据库250中；所述用户m(102)访问所述文档n的信号，将被发送到至少一个应用服务器中，所述应用服务器包括门户网站服务器301、社交网络服务器302、搜索引擎服务器303和即时通信服务器304；

用户和文档参数向量更新模块214：根据所述信号，在所述用户数据库220中读取所述用户m(102)的参数向量以及在所述文档数据库230中读取所述文档n的参数向量，然后应用参数向量更新算法，更新所述用户m(102)和所述文档n的参数向量，最后用更新后的所述用户m(102)的参数向量和所述文档n的参数向量分别更新所述用户数据库220和所述文档数据库230；

文档排序向量更新模块215：在所述文档集D中，以文档之间的链接关系、每个文档的排序向量初始值以及每个文档的参数向量作为输入数据，应用排序向量更新算法，迭代更新在每个特征k(k∈K)下所述文档集D中每个文档的排序值，以及应用更新后的所述排序值更新所述文档数据库230；所述文档之间的链接关系，是由所述文档集D中的每个文档包所含的文档链接来决定的；

用户查询模块216：首先，接收查询用户q设置的查询向量和所述用户q提交的搜索条件，并且在所述搜索条件中提取搜索关键字；然后，在所述文档集D中检索与所述搜索关键字匹配的一组文档Q；之后，根据所述查询向量和所述一组文档Q中每个文档的排序向量，计算所述一组文档Q中每个文档的个性化排序值，或者根据所述查询向量和所述一组文档Q中每个文档的参数向量，计算所述一组文档Q中每个文档的个性化排序值；最后，根据所述个性化排序值对所述一组文档Q进行排序，以及按照排序结果将所述一组文档Q中的多个文档的链接发送给所述用户q。

图9为一种获取用户和文档个性化特征的系统信号序列图。首先，在用户访问文档信号采集模块213中采集用户m(102)访问文档n的信号；然后，由用户访问文档信号采集模块213向用户和文档参数向量更新模块214转发所述信号，同时将所述信号发送到Web日志数据库240；之后，由用户和文档参数向量更新模块214向用户数据库220发送读取所述用户m(102)的参数向量的请求，后者返回所述用户m(102)的参数向量，由用户和文档参数向量更新模块214向文档数据库230发送读取所述文档n的参数向量的请求，后者返回所述文档n的参数向量；再后，在用户和文档参数向量更新模块214中，使用参数向量更新算法，更新所述用户m(102)和所述文档n的参数向量；最后，用户和文档参数向量更新模块214将更新后的所述用户m(102)和所述文档n的参数向量分别发送给用户数据库220和文档数据库230。

以上所述应用实例仅为本发明的较佳的应用实例，并非用以限定本发明的保护范围。

Claims

1.一种获取用户和文档个性化特征的方法，其特征在于，

在所述服务器中，多次执行如下步骤：

接收任意一个用户m(m∈U)访问任意一个文档n(n∈D)的信号；

根据所述信号，读取所述用户m的参数向量U(m)＝(uwm1，uwm2，...，uwmk，...，uwmL)，其中所述uwmk表示所述用户m与特征k(k∈K)的相关度；

根据所述信号，读取所述文档n的参数向量D(n)＝(dwn1，dwn2，...，dwnk，...，dwnL)，其中所述dwnk表示所述文档n与特征k(k∈K)的相关度；

应用参数向量更新算法，更新所述用户m和所述文档n的参数向量；设更新后所述用户m的参数向量为U*(m)＝(uwm1*，uwm2*，...，uwmk*，...，uwmL*)，更新后所述文档n的参数向量为D*(n)＝(dwn1*，dwn2*，...，dwnk*，...，dwnL*)，则所述参数向量更新算法包括：

U*(m)＝F1[U(m)，D(n)]；

D*(m)＝F2[U(m)，D(n)]；

其中所述F1(·)和所述F2(·)分别是以所述U(m)和所述D(n)为自变量的函数；

对于每个特征k∈K，所述uwmk*和dwnk*分别是所述用户m访问所述文档集D的频次的减函数；

在所述参数向量更新算法的一个应用实例中，所述uwmk*和所述dwnk*的具体更新方法如下：

uwmk*＝β1·uwmk+λ1(n，m，T)·f1(dwnk)(对于每个k∈K)

dwnk*＝β2·dwnk+λ2(m，n，T)·f2(uwmk)(对于每个k∈K)

其中，所述λ1(n，m，T)为在所述信号的类型T下所述文档n对所述用户m的影响系数，所述λ2(m，n，T)为在所述信号的类型T下所述用户m对所述文档n的影响系数；β1和β2为设定正常数；所述f1(dwnk)是所述dwnk的增函数，所述f2(uwmk)是所述uwmk的增函数；对于每一个k∈K，所述uwmk*是∑(k∈K)dwnk的减函数，所述dwnk*是∑(k∈K)uwmk的减函数；所述λ1(n，m，T)和所述λ2(m，n，T)分别是所述用户m访问所述文档集D的频次的减函数。

2.根据权利要求1所述的方法，其特征在于，对于每个特征k∈K，所述uwmk*是所述dwnk的增函数，所述dwnk*是所述uwmk的增函数。

3.根据权利要求1所述的方法，其特征在于，执行所述参数向量更新算法达到设定次数后，针对每个特征k∈K，对第k个用户列向量(uw1k，uw2k，...，uwMk)进行归一化处理；执行所述参数向量更新算法达到设定次数后，针对每个特征k∈K，对第k个文档列向量(dw1k，dw2k，...，dwNk)进行归一化处理。

4.根据权利要求3所述的方法，其特征在于，所述λ1(n，m，T)和所述λ2(m，n，T)分别是所述用户m的参数向量和所述文档n的参数向量之间的相似度的增函数。

5.根据权利要求1所述的方法，其特征在于，所述文档集D中至少含有两个文档子集，其中文档子集S(S∈D)中的每个文档都含有至少一个链接指向所述文档集D中的其它文档，文档子集E(E∈D)中的每个文档都被所述文档子集S中的至少一个文档含有的链接所指向；并且S∪E＝D，S∩E≠Φ；

所述文档集D中的每个文档还设有排序向量，设任一文档p(p∈D)的排序向量为[PR(p，1)，PR(p，2)，...，PR(p，k)，...，PR(p，L)]，其中所述PR(p，k)表示在特征k(k∈K)下所述文档p在所述文档集D中的排序值；

因此，排序向量更新算法如下：所述文档集D中的任意一个文档p在特征k(k∈K)下的排序值，是所述文档p的每个链入文档在所述特征k下的排序值和所述链入文档与所述特征k的相关度的函数。

6.根据权利要求1所述的方法，其特征在于，所述方法包括一个文档排序应用实例，所述应用实例包括在所述服务器中执行如下步骤：

A10.根据所述参数向量更新算法，更新所述文档集D中多个文档的参数向量以及所述用户集U中多个用户的参数向量；

A20.接收用户q(q∈U)设置的查询向量和所述用户q提交的搜索条件，并且在所述搜索条件中提取搜索关键字；