CN102231165B

CN102231165B - 一种基于用户停留时间分析的个性化网页搜索排序方法

Info

Publication number: CN102231165B
Application number: CN 201110194078
Authority: CN
Inventors: 徐颂华; 江浩; 刘智满
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-07-11
Filing date: 2011-07-11
Publication date: 2013-01-09
Anticipated expiration: 2031-07-11
Also published as: CN102231165A

Abstract

本发明公开了一种基于用户停留时间分析的个性化网页搜索排序方法，该方法首先通过一个自定义网页浏览器获取文档级的用户停留时间，据此推测出在概念词级的用户停留时间；然后跟据推测获得的概念词级的用户停留时间，进一步预测该用户对任意网页搜索结果中的每个网页的个性化阅读兴趣；最终依据该用户的个性化阅读兴趣生成面向这一用户的个性化网页搜索结果。本发明利用人工智能相关技术，应用网页搜索和文本处理等方法来估计用户对于不同概念的阅读兴趣，从而将个人阅读习惯和需求考虑在网页搜索排序的过程中，使得网页搜索结果排序更加贴近用户个性化预期的结果，为用户提供更好的网络搜索和浏览支持。

Description

一种基于用户停留时间分析的个性化网页搜索排序方法

技术领域

本发明涉及计算机搜索、数据挖掘以及人工智能领域，尤其涉及一种基于用户停留时间的个性化网页搜索排序方法。

背景技术

近年来，出现了一系列的研究活动，以研究个性化或面向用户的搜索引擎和算法，如2007年发表在第十六届国际万维网会议(WWW’07:Proceedingsof the 16^th international conference on World Wide Web)上的一篇文章“个性化搜索策略的大规模评价与分析”(“A large-scale evaluation and analysis ofpersonalized search strategies”)。在2008年第二十三届美国人工智能学会会议上的一篇文章“基于用户关注时间的面向用户网页排序算法”(“Auser-orientedwebpage ranking algorithm based on user attention time”)里，作者也提出建立一个面向用户的网页搜索引擎的个性化解决方案。

现有的个性化引擎依靠的是用户的反馈，它可以分为显式反馈和隐式反馈。我们从这两种反馈中都可以得到用户的喜好特征(Salton&Buckley 1990；White，Jose，&Ruthven 2001；White，Ruthven，&Jose 2002)。但是用户一般都不愿意去提供显式的反馈，所以现在的研究越来越多的研究都转向隐式反馈(Granka，Joachims，&Gay 2004；Guan&Cutrell 2007；Fu 2007)。研究表明，隐式反馈可以很好的反映用户的搜索意图(Fox et al.2005；Dou，Song，&Wen2007；Fu 2007).并且从大量的隐式反馈中得到的用户喜好往往比显式反馈更加可靠。

查询历史：现代研究中，用得最多的隐式反馈就是用户的查询历史。Google的个性化搜索(http://www.google.com/psearch)就是基于用户的查询历史的。总的来说，基于查询历史的算法又可以分为以下两类：一类是基于整个查询历史的算法，另一类是基于某个查询会话(指的是一连串相关的查询)。对于前者来说，通常算法会产生一个该用户的概要文本用来描述用户的搜索喜好。

点击数据：点击数据是另一种非常重要的隐式反馈，如(Dupret，Mrudock，&Piwowarski 2007；Joachims 2002)。在一个搜索结果页面上，我们假设用户点击过的链接比用户没有点过的链接对于此用户来说更加重要。研究者们用了很多中方法从用户的点击行为中获取用户的喜好特征。举例来说，有些研究者用一种叫Ranking SVM的算法(Hersh et al.1994)通过用户的点击信息来获得对该用户来说最好的网页排序。在(Radlinski&Joachims 2005)一文中，作者不但从用户的单次查询中提取用户喜好，同时也从用户对同一信息的一连串查询中提取用户的喜好，这些喜好特征然后通过Ranking SVM的改进算法来进行训练。Sun et al.(2005)提出了一种基于Singluar Value Decomposition的算法，它通过分析用户的点击数据来提高搜索引擎的建议系统的准确率。

关注时间：相对来说，关注时间是一个新型的隐式用户反馈。虽然它在近期的研究中越来越多被提到，但是关于它是否真的能够反映用户意图仍然有争辩。Kelly和Belkin(2004；2001)建议说，在文本的关注时间和它对用户的有用度之间并没有非常可靠的相互关系。但是不同的是，在他们的研究当中，关注时间是通过测量一组用户阅读不同主题的文章而得到的平均关注时间。Halabi et al.(2007)认为对于一个的用户在同一个搜索行为中关注时间，它可以很好的反映出用户的喜好。

然而，在目前现有技术中，并没有对用户关注时间(停留时间)做更深入研究，特别是如何根据用户在每个文档上的阅读时间，进一步推测该用户对每个话题的阅读兴趣。

发明内容

本发明提出了一种基于最优化模型的方法，并充分利用了在线资源维基百科，通过文档级用户停留时间来推测概念词级用户停留时间，从而更加精准的捕捉用户的阅读兴趣，为个人用户提供更理想的网页搜索结果。

一种基于用户停留时间分析的个性化网页搜索排序方法，包括以下步骤：

1)获取用户在其阅读过的每个网页上的用户停留时间；

2)将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合；

3)推测用户在每个概念词上的用户停留时间；

4)估计用户对搜索结果中每个网页的阅读兴趣，并生成个性化的网页搜索结果。

所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为：

a)利用自定义浏览器，记录用户在每个网页页面上的停留时间，即该页面作为活动(active)页面的时间；所谓自定义浏览器，即为自行开发的可记录用户在网页上的关注时间的网页客户端软件，或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件；

b)对收集的用户停留时间样本进行如下校正：

DT(D_i)＝max{T(D_i)-T₀，0}；

其中是T(D_i)通过自定义浏览器获得的用户对于网页D_i的停留时间；T₀是用户用来判断该网页是否值得一读的时间，缺省设为0～10秒的定值；DT(D_i)则是经校正后网页D_i的用户停留时间。如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作，则会丢弃该用户停留时间样本，认为该用户在浏览网页的过程中暂时离开了当前电脑。该时间阈值缺省设置为2分钟。

所述的将用户阅读过的每个网页都表示成一个若干个概念词的集合的步骤为：

c)对用户阅读过的每个网页D_i，使用2006年“Detecting spam web pagesthrough content analysis”文章中提到的内容分析来检测垃圾网页的算法去除网页中的非内容部分，得到该网页的纯文本内容；

d)对D_i中的每一个词，若在维基百科上存在对该词定义的页面，则将该词标记为一个概念词；

e)统计D_i中每个概念词C_j的出现次数，将D_i表示成一个概念词的集合：

CV (D_{i}) = {(C_{j}, n_{j}) | j = 1,2, . . ., z (D_{i})}, n_{1} &GreaterEqual; n_{2} &GreaterEqual; . . . &GreaterEqual; n_{z (D_{i})};

其中n_j是第j个概念词C_j在D_i中的出现次数，z(D_i)是D_i中不同概念词的个数。

所述的推测用户在每个概念词上的用户停留时间的步骤为：

f)在用户阅读过的网页中出现过的所有概念词中，记每个待求的概念词C_i的用户停留时间为DT(C_i)；

g)根据神经认知科学中的大脑厌倦原理，根据用户对每个概念词C_i单次出现时获得的用户停留时间DT(C_i)，使用如下公式，导出该概念词在某个网页中累计出现n_i次时获得的综合用户停留时间NDT(C_i)：

NDT (C_{i}) = \frac{a_{2} DT (C_{i})}{a_{2} - 1 + \exp (a_{1} (1 - n_{i}))};

其中n_i为概念词C_i在网页中累计出现的次数；a₁，a₂为系数，分别缺省设为0.33，1.16；上述公式所体现的大脑厌倦机制是：当同一概念词被用户反复阅读时，这一概念词获得的用户停留时间会以非线性方式逐次减少，趋于饱和；

h)对在用户阅读过的网页中出现过的任意两个概念词C_i，C_j，使用2007年“Computing semantic relatedness using wikipedia-based explicit semanticanalysis”文章中提到的基于维基百科语义分析的算法计算它们之间的语义相似度，记为s(C_i，C_j)；

i)定义辅助函数Q(D_i，k)为若网页D_i只含有其出现次数最多的前k个概念词时，用户在D_i上的停留时间。Q(D_i，k)的值可由如下公式逐步计算导出：

Q (D_{i}, k) = \{\begin{matrix} Q (D_{i}, k - 1) + P (D_{i}, k - 1), & k > 1 \\ NDT (C_{k}), & k = 1 \end{matrix};

其中C_k表示网页D_i中出现次数第k多的概念词；函数P(D_i，k-1)的定义如下：

P (D_{i}, k - 1) = \frac{a_{2} DT (C_{i})}{a_{2} - 1 + \exp (a_{1} (1 - n_{i} - Σ_{C_{j} &Element; D_{i}} s (C_{i}, C_{j}) \cdot n_{j}))};

其中

是所有在网页D_i中出现的概念词C_j的出现次数n_j的加权和，其加权系数为s(C_i，C_j)；

j)对任意两个概念词，C_i，C_j，计算它们之间的用户停留时间相对差RD(C_i，C_j)：

RD (C_{i}, C_{j}) = \frac{| DT (C_{i}) - DT (C_{j}) |}{\max {DT (C_{i}), DT (C_{j})}};

k)用最优化方法求出每个概念词C_i的用户停留时间DT(C_i)的解值，使得所有的用户停留时间相对差之间达到最大的一致性。

所述的用最优化方法求出每个概念词C_i的用户停留时间DT(C_i)的解值，使得所有的用户停留时间相对差之间达到最大的一致性，包括以下步骤：

1)对在用户阅读过的网页中出现过的任意三个概念词C_i，C_j C_k，定义三个辅助函数F₁(C_i，C_j，C_k)，F₂(C_i，C_j，C_k)，F₃(C_i，C_j，C_k)为：

F₁(C_i，C_j，C_k)＝(RD(C_i，C_j)-RD(C_i，C_k))(s(C_i，C_j)-s(C_i，C_k))，

F₂(C_i，C_j，C_k)＝(RD(C_i，C_j)-RD(C_j，C_k))(s(C_i，C_j)-s(C_j，C_k))，

F₃(C_i，C_j，C_k)＝(RD(C_i，C_k)-RD(C_j，C_k))(s(C_i，C_k)-s(C_j，C_k))；

m)记F(C_i，C_j，C_k)＝F₁(C_i，C_j，C_k)+F₂(C_i，C_j，C_k)+F₃(C_i，C_j，C_k)，将求解每个概念词的用户停留时间的问题转化为以下的最优化问题：

\begin{matrix} Minimize & G = {\underset{i}{Σ} (DT (D_{i}) - Q (D_{i}, z (D_{i})))}^{2} - \underset{i, j, k}{Σ} F (C_{i}, C_{j}, C_{k}); \end{matrix}

其中，每个概念词C_i的用户停留时间DT(C_i)为待求的自变量，z(D_i)是D_i中不同概念词的个数；

n)为每个概念词C_i的用户停留时间DT(C_i)随机选取一个不超过所有DT(D_i)中最大值的正实数，用以作为DT(C_i)的初始值；

o)计算此时的G值，采用梯度下降(gradient descent)算法使G值最大化；此时的DT(C_i)值即为概念词C_i的用户停留时间；

p)根据此时每个概念词C_i的DT(C_i)值，将a₁，a₂视为自变量，采用梯度下降(gradient descent)算法求出使G值最大化时的a₁，a₂的值；

q)反复执行步骤1)-n)，直至DT(C_i)和a₁，a₂的取值都稳定为止，或反复执行次数达到100次。

所述的估计用户对搜索结果中每个网页的阅读兴趣，并生成个性化的网页搜索结果的步骤为：

r)当用户提交一个网页搜索请求时，使用传统的网页搜索引擎获得搜索结果的前300个网页；

s)对其中的每个网页D_x，使用步骤c)-e)所述方法，将其表示为若干个概念词组成的集合；

t)对该网页中所有概念词的用户停留时间求和，将总和作为该用户对网页D_x的用户停留时间，记为DT(D_x)；

u)估计该用户对网页D_x的阅读兴趣I(D_x)：

I (D_{x}) = (1 - t) DT (D_{x}) + \frac{2 t \cdot \exp (- b \cdot R_{x})}{1 + \exp (- b \cdot R_{x})};

其中R_x为网页D_x在传统的网页搜索引擎的排序名次；参数b设为0.2；而t＝exp(-N/100)，其中N代表目前为止该用户所阅读过的文章数量；

v)将网页按照用户对其阅读兴趣从大到小重新排列，生成个性化的网页搜索结果。

本发明有效地将用户的喜好结合在搜索过程中，充分的利用了数据挖掘和文本处理的方法获取用户对每个概念词的兴趣所在，更加准确的预测了网页对用户的潜在吸引力，使得最终的搜索排名结果更加接近用户期待的理想排名，从而使得改善过的网页搜索引擎能为用户提供更好的个性化服务。

附图说明

图1是本发明所述个性化网页搜索排序方法具体实施方式的系统流程结构示意图；

图2是分别使用本发明所述个性化网页搜索排序方法(Ours)以及谷歌搜索引擎(Google)对20个不同关键词进行搜索后，搜索结果对于用户的理想程度比较；其中，图2a为理想程度的柱状图，图2b为理想程度的箱形图(box-plot)。

图3是分别使用本发明所述系统(Ours)与谷歌搜索引擎(Google)、必应搜索引擎(Bing)、雅虎搜索引擎(Yahoo)，根据2008年“基于用户关注时间面向用户的网页排序算法”文章所述方法实现的个性化网页搜索系统(AT08)，以及本发明在缺少概念词级用户停留时间推测模块时的系统(Ours-Ψ)，本发明在缺少最优化求解模块时的系统(Ours-I)，对15个不同关键词进行搜索后，搜索结果对于用户的理想程度比较。

具体实施方式

一种基于用户停留时间的个性化网页搜索排序方法，包括以下步骤：

1)获取用户在其阅读过的每个网页上的用户停留时间；

3)推测用户在每个概念词上的用户停留时间；

b)对收集的用户停留时间样本进行如下校正：

DT(D_i)＝max{T(D_i)-T₀，0}.

CV (D_{i}) = {(C_{j}, n_{j}) | j = 1,2, . . ., z (D_{i})}, n_{1} &GreaterEqual; n_{2} &GreaterEqual; . . . &GreaterEqual; n_{z (D_{i})};

所述的推测用户在每个概念词上的用户停留时间的步骤为：

NDT (C_{i}) = \frac{a_{2} DT (C_{i})}{a_{2} - 1 + \exp (a_{1} (1 - n_{i}))};

Q (D_{i}, k) = \{\begin{matrix} Q (D_{i}, k - 1) + P (D_{i}, k - 1), & k > 1 \\ NDT (C_{k}), & k = 1 \end{matrix};

P (D_{i}, k - 1) = \frac{a_{2} DT (C_{i})}{a_{2} - 1 + \exp (a_{1} (1 - n_{i} - Σ_{C_{j} &Element; D_{i}} s (C_{i}, C_{j}) \cdot n_{j}))};

其中

RD (C_{i}, C_{j}) = \frac{| DT (C_{i}) - DT (C_{j}) |}{\max {DT (C_{i}), DT (C_{j})}};

\begin{matrix} Minimize & G = {\underset{i}{Σ} (DT (D_{i}) - Q (D_{i}, z (D_{i})))}^{2} - \underset{i, j, k}{Σ} F (C_{i}, C_{j}, C_{k}); \end{matrix}

u)估计该用户对网页D_x的阅读兴趣I(D_x)：

I (D_{x}) = (1 - t) DT (D_{x}) + \frac{2 t \cdot \exp (- b \cdot R_{x})}{1 + \exp (- b \cdot R_{x})};

一种基于用户停留时间的个性化网页搜索排序方法的具体系统流程结构如图1所示。该系统包括客户端和服务端两部分，客户端包括自定义浏览器10，个性化网页搜索排序结果90；服务端包括文档级用户停留时间20，最优化问题求解30，概念词级用户停留时间40，用户停留时间预测50，传统搜索引擎60，基本搜索结果70，搜索结果的个性化重排序80。

自定义浏览器10：通过插件的形式，在现有的网络资源浏览器如Firefox，Intemet Explorer中嵌入一个可记录用户阅读每个网页时的所花费时间的模块；然后使用2008年“A user-oriented webpage ranking algorithm based on userattention time”文章中提到的自定义网页浏览器方法来获取用户每次阅读时在每个网页上的用户停留时间。

文档级用户停留时间20：通过自定义浏览器10获得的每次用户阅读网页时在每个网页上的用户停留时间数据对每个网页；具体地，对网页D_i的用户停留时间DT(D_i)为：DT(D_i)＝∑_j T(D_i，j)，j＝1，2，...；其中T(D_i，j)为用户第j次阅读网页D_i时的用户停留时间。

最优化问题求解30：跟据文档级用户停留时间20，采用一个最优化问题的模型来求解该用户在每个概念词上的停留时间，即推测产生出概念词级用户停留时间40；其具体步骤为：

(a)对用户阅读过的每个网页D_i，使用2006年“Detecting spam web pagesthrough content analysis”文章中的算法去除网页中的非内容部分如标签、广告、重定向链接等，得到该网页的纯文本内容；

(b)对D_i中的每一个词，若在维基百科上存在对该词定义的页面，则将该词标记为一个概念词；

(c)统计D_i中每个概念词C_j的出现次数，将D_i表示成一个概念词的集合：

CV(D_i)＝{(C_j，n_j)|j＝1，2，...，z(D_i)}(n₁≥n₂≥...≥n_z(D_i))；

(d)在用户阅读过的网页中出现过的所有概念词中，记每个待求的概念词C_i的用户停留时间为DT(C_i)；

(e)对任意两个概念词，C_i，C_j，计算它们之间的用户停留时间相对差RD(C_i，C_j)：

RD (C_{i}, C_{j}) = \frac{| DT (C_{i}) - DT (C_{j}) |}{\max {DT (C_{i}), DT (C_{j})}};

(f)对在用户阅读过的网页中出现过的任意两个概念词C_i，C_j，使用2007年“Computing semantic relatedness using wikipedia-based explicit semanticanalysis”文章的算法计算它们之间的语义相似度，记为s(C_i，C_j)；

(g)对在用户阅读过的网页中出现过的任意三个概念词C_i，C_j，C_k，定义三个辅助函数F₁(C_i，C_j，C_k)，F₂(C_i，C_j，C_k)，F₃(C_i，C_j，C_k)为：

(h)记F(C_i，C_j，C_k)＝F₁(C_i，C_j，C_k)+F₂(C_i，C_j，C_k)+F₃(C_i，C_j，C_k)，将求解每个概念词的用户停留时间的问题转化为以下的最优化问题：

\begin{matrix} Minimize & G = {\underset{i}{Σ} (DT (D_{i}) - Q (D_{i}, z (D_{i})))}^{2} - \underset{i, j, k}{Σ} F (C_{i}, C_{j}, C_{k}) \end{matrix}

(i)为每个概念词C_i的用户停留时间DT(C_i)随机选取一个不超过所有DT(D_i)中最大值的正实数，用以作为DT(C_i)的初始值；

(j)计算此时的G值，采用梯度下降(gradient descent)算法使G值最大化；此时的DT(C_i)值即为概念词C_i的用户停留时间；为保证G值不陷入局部极值，反复执行步骤(i)-(j)多次，在本发明所述系统实施例中，反复执行50～100次。

概念词级用户停留时间40：通过最优化问题求解30得到的用户在每个概念词上的用户停留时间数据。

用户停留时间预测50：根据概念词级用户停留时间40的数据，对任意一个网页，使用步骤(a)-(c)所述方法，将其表示为若干个概念词组成的集合；然后对该网页中所有概念词的用户停留时间求和，将总和作为用户对该网页的用户停留时间。

传统搜索引擎60：提供一个用户界面，调用网络资源搜索服务；在本实施例中，此界面使用jsp实现；当用户提交一个查询请求时，调用普通网页搜索引擎谷歌获得搜索结果。

基本搜索结果70：利用传统搜索引擎60进行搜索后，对其搜索结果页面进行解析并获取其返回结果中的前300个网页。

搜索结果的个性化重排序80：对网页集中的每个网页D_x，估计用户对该网页D_x的阅读兴趣I(D_x)：

I (D_{x}) = (1 - t) DT (D_{x}) + \frac{2 t \cdot \exp (- b \cdot R_{x})}{1 + \exp (- b \cdot R_{x})};

其中R_x为网页D_x在传统的网页搜索引擎谷歌的搜索结果中的排序名次；参数b通常设为0.2；而t＝exp(-N/100)，其中N代表目前为止该用户所阅读过的文章数量；然后将网页按照用户对其阅读兴趣从大到小重新排列，从而生成个性化网页搜索排序结果90。

个性化网页搜索排序结果90：经过搜索结果的个性化重排序80的过程后得到个性化网页搜索结果；该搜索结果充分考虑到了用户的阅读兴趣，使得网页搜索结果可以更大限度的贴近用户的个人喜好，从而为用户提供更好的互联网体验。

图2、图3及表1所示的实验结果清晰的显示出本方法的优越性。

图2所示分别使用本发明所述系统(Ours)以及谷歌搜索引擎(Google)对20个不同关键词进行搜索后，搜索结果对于用户的理想程度比较；其中，图2a为理想程度的柱状图，图2b为理想程度的箱形图(box-plot)。

我们使用了Normalized Discounted Cumulative Gain(NDCG)来度量两个系统的搜索结果排序与该用户理想结果排序之间的相似程度；即NDCG值越大，该搜索结果就越令用户满意；这20个搜索关键词分别为：apple，car，barcelona，da vinci，ETS，gnome linux，greenhouse effect，happy new year，NBA，olympics，WoW，great wall，hurricane，iron man，moon，national treasure，porsche，forbidden kingdom，tiger，west lake。

表1所示分别使用本发明所述系统(Ours)与谷歌搜索引擎(Google)、必应搜索引擎(Bing)、雅虎搜索引擎(Yahoo)，以及根据2008年“A user-orientedwebpage ranking algorithm based on user attention time”所述方法实现的个性化网页搜索系统(AT08)，对15个不同关键词进行搜索后，搜索结果对于用户的理想程度比较；我们同样使用了Normalized Discounted Cumulative Gain(NDCG)来度量两个系统的搜索结果排序与该用户理想结果排序之间的相似程度；即NDCG值越大，该搜索结果就越令用户满意。

表1

图3是分别使用本发明所述系统(Ours)与谷歌搜索引擎(Google)、必应搜索引擎(Bing)、雅虎搜索引擎(Yahoo)，根据2008年“A user-oriented webpageranking algorithm based on user attention time”所述方法实现的个性化网页搜索系统(AT08)，以及本发明在缺少概念词级用户停留时间推测模块时的系统(Ours-Ψ)，本发明在缺少最优化求解模块时的系统(Ours-I)，对表1中所述的15个不同关键词进行搜索后，搜索结果对于用户的理想程度比较。

上述实验表明，本发明有效地利用了人工智能相关技术，应用网页搜索和文本处理等方法来估计用户对于不同概念的阅读兴趣，从而将个人阅读习惯和需求考虑在网页搜索排序的过程中，使得网页搜索结果排序更加贴近用户个性化预期的结果，为用户提供更好的网络搜索和浏览支持。

以上所述仅为本发明的一种基于用户停留时间的个性化网页搜索排序方法的较佳实施例，并非用以限定本发明的实质技术内容的范围。本发明的一种基于用户停留时间的个性化网页搜索排序方法，其实质技术内容是广泛的定义于权利要求书中，任何他人所完成的技术实体或方法，若是与权利要求书中所定义者完全相同，或是同一等效的变更，均将被视为涵盖于此专利保护范围之内。

Claims

1.一种基于用户停留时间分析的个性化网页搜索排序方法，其特征在于：包括以下步骤：

1)获取用户在其阅读过的每个网页上的用户停留时间；

3)推测用户在每个概念词上的用户停留时间；

4)估计用户对搜索结果中每个网页的阅读兴趣，并生成个性化的网页搜索结果；所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为：

a)利用自定义浏览器，记录用户在每个网页页面上的停留时间，即该页面作为活动（active）页面的时间；所述的自定义浏览器，为用于记录用户在网页上的关注时间的网页客户端软件，或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件；

b)对收集的用户停留时间样本进行如下校正：

DT(D_i)=max{T(D_i)-T₀,0}；

其中是T(D_i)通过自定义浏览器获得的用户对于网页D_i的停留时间；T₀是用户用来判断该网页是否值得一读的时间，缺省设为0～10秒的定值；DT(D_i)则是经校正后网页D_i的用户停留时间，如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作，则会丢弃该用户停留时间样本；

所述的将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合的步骤为：

c)对用户阅读过的每个网页D_i，使用内容分析来检测垃圾网页，去除网页中的非内容部分，得到该网页的纯文本内容；

CV(D_i)={(C_j,n_j)|j=1,2,...,z(D_i)},

2.根据权利要求1所述的基于用户停留时间分析的个性化网页搜索排序方法，其特征在于：所述的推测用户在每个概念词上的用户停留时间的步骤为：

g)根据神经认知科学中的大脑厌倦原理，根据用户对每个概念词C_i单次出现时获得的用户停留时间DT(C_i),使用如下公式，导出该概念词在某个网页中累计出现n_i次时获得的综合用户停留时间NDT(C_i)：

NDT (C_{i}) = \frac{a_{2} DT (C_{i})}{a_{2} - 1 + \exp (a_{1} (1 - n_{i}))};

其中n_i为概念词C_i在网页中累计出现的次数；a₁,a₂为系数，分别缺省设为0.33,1.16；上述公式所体现的大脑厌倦机制是：当同一概念词被用户反复阅读时，这一概念词获得的用户停留时间会以非线性方式逐次减少，趋于饱和；

h)对在用户阅读过的网页中出现过的任意两个概念词C_i,C_j，使用基于维基百科语义分析的算法计算它们之间的语义相似度，记为s(C_i,C_j)；

i)定义辅助函数Q(D_i,k)为若网页D_i只含有其出现次数最多的前k个概念词时，用户在D_i上的停留时间，Q(D_i,k)的值可由如下公式逐步计算导出：

Q (D_{i}, k) = \{\begin{matrix} Q (D_{i}, k - 1) + P (D_{i}, k - 1), & k > 1 \\ NDT (C_{k}), & k = 1 \end{matrix};

其中C_k表示网页D_i中出现次数第k多的概念词；函数P(D_i,k-1)的定义如下：

P (D_{i}, k - 1) = \frac{a_{2} DT (C_{i})}{a_{2} - 1 + \exp (a_{1} (1 - n_{i} - Σ_{C_{j} &Element; D_{i}} s (C_{i}, C_{j}) \cdot n_{j}))};

其中

是所有在网页D_i中出现的概念词C_j的出现次数n_j的加权和，其加权系数为s(C_i,C_j)；

j)对任意两个概念词，C_i,C_j，计算它们之间的用户停留时间相对差RD(C_i,C_j)：

RD (C_{i}, C_{j}) = \frac{| DT (C_{i}) - DT (C_{j}) |}{\max {DT (C_{i}), DT (C_{j})}}'

3.根据权利要求2所述的基于用户停留时间分析的个性化网页搜索排序方法，其特征在于：所述的用最优化方法求出每个概念词C_i的用户停留时间DT(C_i)的解值，使得所有的用户停留时间相对差之间达到最大的一致性，包括以下步骤：

l)对在用户阅读过的网页中出现过的任意三个概念词C_i,C_j,C_k，定义三个辅助函数F₁(C_i,C_j,C_k)，F₂(C_i,C_j,C_k)，F₃(C_i,C_j,C_k)为：

F₁(C_i,C_j,C_k)=(RD(C_i,C_j)-RD(C_i,C_k))(s(C_i,C_j)-s(C_i,C_k))，

F₂(C_i,C_j,C_k)=(RD(C_i,C_j)-RD(C_j,C_k))(s(C_i,C_j)-s(C_j,C_k))，

F₃(C_i,C_j,C_k)=(RD(C_i,C_k)-RD(C_j,C_k))(s(C_i,C_k)-s(C_j,C_k))；

m)记F(C_i,C_j,C_k)=F₁(C_i,C_j,C_k)+F₂(C_i,C_j,C_k)+F₃(C_i,C_j,C_k)，将求解每个概念词的用户停留时间的问题转化为以下的最优化问题：

MinimizeG = \underset{i}{Σ} {(DT (D_{i}) - Q (D_{i}, z (D_{i})))}^{2} - \underset{i, j, k}{Σ} F (C_{i}, C_{j}, C_{k})

n)为每个概念词C_i的用户停留时间DT(C_i)随机选取一个不超过所有DT(D_i)中最大值的正实数,用以作为DT(C_i)的初始值；

o)计算此时的G值，采用梯度下降算法使G值最大化；此时的DT(C_i)值即为概念词C_i的用户停留时间；

p)根据此时每个概念词C_i的DT(C_i)值，将a₁,a₂视为自变量，采用梯度下降算法求出使G值最大化时的a₁,a₂的值；

q)反复执行步骤l)-n)，直至DT(C_i)和a₁,a₂的取值都稳定为止，或反复执行次数达到100次。

4.根据权利要求1所述的基于用户停留时间分析的个性化网页搜索排序方法，其特征在于：所述的估计用户对搜索结果中每个网页的阅读兴趣，并生成个性化的网页搜索结果的步骤为：

u)估计该用户对网页D_x的阅读兴趣I(D_x)：

I (D_{x}) = (1 - t) DT (D_{x}) + \frac{2 t \cdot \exp (- b \cdot R_{x})}{1 + \exp (- b \cdot R_{x})};

其中R_x为网页D_x在传统的网页搜索引擎的排序名次；参数b设为0.2；而t=exp(-N/100)，其中N代表目前为止该用户所阅读过的文章数量；