CN102231165B - 一种基于用户停留时间分析的个性化网页搜索排序方法 - Google Patents
一种基于用户停留时间分析的个性化网页搜索排序方法 Download PDFInfo
- Publication number
- CN102231165B CN102231165B CN 201110194078 CN201110194078A CN102231165B CN 102231165 B CN102231165 B CN 102231165B CN 201110194078 CN201110194078 CN 201110194078 CN 201110194078 A CN201110194078 A CN 201110194078A CN 102231165 B CN102231165 B CN 102231165B
- Authority
- CN
- China
- Prior art keywords
- user
- webpage
- residence time
- word
- notional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000014759 maintenance of location Effects 0.000 title abstract 5
- 238000012163 sequencing technique Methods 0.000 title abstract 4
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims description 16
- 210000004556 brain Anatomy 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 229920006395 saturated elastomer Polymers 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户停留时间分析的个性化网页搜索排序方法,该方法首先通过一个自定义网页浏览器获取文档级的用户停留时间,据此推测出在概念词级的用户停留时间;然后跟据推测获得的概念词级的用户停留时间,进一步预测该用户对任意网页搜索结果中的每个网页的个性化阅读兴趣;最终依据该用户的个性化阅读兴趣生成面向这一用户的个性化网页搜索结果。本发明利用人工智能相关技术,应用网页搜索和文本处理等方法来估计用户对于不同概念的阅读兴趣,从而将个人阅读习惯和需求考虑在网页搜索排序的过程中,使得网页搜索结果排序更加贴近用户个性化预期的结果,为用户提供更好的网络搜索和浏览支持。
Description
技术领域
本发明涉及计算机搜索、数据挖掘以及人工智能领域,尤其涉及一种基于用户停留时间的个性化网页搜索排序方法。
背景技术
近年来,出现了一系列的研究活动,以研究个性化或面向用户的搜索引擎和算法,如2007年发表在第十六届国际万维网会议(WWW’07:Proceedingsof the 16th international conference on World Wide Web)上的一篇文章“个性化搜索策略的大规模评价与分析”(“A large-scale evaluation and analysis ofpersonalized search strategies”)。在2008年第二十三届美国人工智能学会会议上的一篇文章“基于用户关注时间的面向用户网页排序算法”(“Auser-orientedwebpage ranking algorithm based on user attention time”)里,作者也提出建立一个面向用户的网页搜索引擎的个性化解决方案。
现有的个性化引擎依靠的是用户的反馈,它可以分为显式反馈和隐式反馈。我们从这两种反馈中都可以得到用户的喜好特征(Salton&Buckley 1990;White,Jose,&Ruthven 2001;White,Ruthven,&Jose 2002)。但是用户一般都不愿意去提供显式的反馈,所以现在的研究越来越多的研究都转向隐式反馈(Granka,Joachims,&Gay 2004;Guan&Cutrell 2007;Fu 2007)。研究表明,隐式反馈可以很好的反映用户的搜索意图(Fox et al.2005;Dou,Song,&Wen2007;Fu 2007).并且从大量的隐式反馈中得到的用户喜好往往比显式反馈更加可靠。
查询历史:现代研究中,用得最多的隐式反馈就是用户的查询历史。Google的个性化搜索(http://www.google.com/psearch)就是基于用户的查询历史的。总的来说,基于查询历史的算法又可以分为以下两类:一类是基于整个查询历史的算法,另一类是基于某个查询会话(指的是一连串相关的查询)。对于前者来说,通常算法会产生一个该用户的概要文本用来描述用户的搜索喜好。
点击数据:点击数据是另一种非常重要的隐式反馈,如(Dupret,Mrudock,&Piwowarski 2007;Joachims 2002)。在一个搜索结果页面上,我们假设用户点击过的链接比用户没有点过的链接对于此用户来说更加重要。研究者们用了很多中方法从用户的点击行为中获取用户的喜好特征。举例来说,有些研究者用一种叫Ranking SVM的算法(Hersh et al.1994)通过用户的点击信息来获得对该用户来说最好的网页排序。在(Radlinski&Joachims 2005)一文中,作者不但从用户的单次查询中提取用户喜好,同时也从用户对同一信息的一连串查询中提取用户的喜好,这些喜好特征然后通过Ranking SVM的改进算法来进行训练。Sun et al.(2005)提出了一种基于Singluar Value Decomposition的算法,它通过分析用户的点击数据来提高搜索引擎的建议系统的准确率。
关注时间:相对来说,关注时间是一个新型的隐式用户反馈。虽然它在近期的研究中越来越多被提到,但是关于它是否真的能够反映用户意图仍然有争辩。Kelly和Belkin(2004;2001)建议说,在文本的关注时间和它对用户的有用度之间并没有非常可靠的相互关系。但是不同的是,在他们的研究当中,关注时间是通过测量一组用户阅读不同主题的文章而得到的平均关注时间。Halabi et al.(2007)认为对于一个的用户在同一个搜索行为中关注时间,它可以很好的反映出用户的喜好。
然而,在目前现有技术中,并没有对用户关注时间(停留时间)做更深入研究,特别是如何根据用户在每个文档上的阅读时间,进一步推测该用户对每个话题的阅读兴趣。
发明内容
本发明提出了一种基于最优化模型的方法,并充分利用了在线资源维基百科,通过文档级用户停留时间来推测概念词级用户停留时间,从而更加精准的捕捉用户的阅读兴趣,为个人用户提供更理想的网页搜索结果。
一种基于用户停留时间分析的个性化网页搜索排序方法,包括以下步骤:
1)获取用户在其阅读过的每个网页上的用户停留时间;
2)将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合;
3)推测用户在每个概念词上的用户停留时间;
4)估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果。
所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为:
a)利用自定义浏览器,记录用户在每个网页页面上的停留时间,即该页面作为活动(active)页面的时间;所谓自定义浏览器,即为自行开发的可记录用户在网页上的关注时间的网页客户端软件,或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件;
b)对收集的用户停留时间样本进行如下校正:
DT(Di)=max{T(Di)-T0,0};
其中是T(Di)通过自定义浏览器获得的用户对于网页Di的停留时间;T0是用户用来判断该网页是否值得一读的时间,缺省设为0~10秒的定值;DT(Di)则是经校正后网页Di的用户停留时间。如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作,则会丢弃该用户停留时间样本,认为该用户在浏览网页的过程中暂时离开了当前电脑。该时间阈值缺省设置为2分钟。
所述的将用户阅读过的每个网页都表示成一个若干个概念词的集合的步骤为:
c)对用户阅读过的每个网页Di,使用2006年“Detecting spam web pagesthrough content analysis”文章中提到的内容分析来检测垃圾网页的算法去除网页中的非内容部分,得到该网页的纯文本内容;
d)对Di中的每一个词,若在维基百科上存在对该词定义的页面,则将该词标记为一个概念词;
e)统计Di中每个概念词Cj的出现次数,将Di表示成一个概念词的集合:
其中nj是第j个概念词Cj在Di中的出现次数,z(Di)是Di中不同概念词的个数。
所述的推测用户在每个概念词上的用户停留时间的步骤为:
f)在用户阅读过的网页中出现过的所有概念词中,记每个待求的概念词Ci的用户停留时间为DT(Ci);
g)根据神经认知科学中的大脑厌倦原理,根据用户对每个概念词Ci单次出现时获得的用户停留时间DT(Ci),使用如下公式,导出该概念词在某个网页中累计出现ni次时获得的综合用户停留时间NDT(Ci):
其中ni为概念词Ci在网页中累计出现的次数;a1,a2为系数,分别缺省设为0.33,1.16;上述公式所体现的大脑厌倦机制是:当同一概念词被用户反复阅读时,这一概念词获得的用户停留时间会以非线性方式逐次减少,趋于饱和;
h)对在用户阅读过的网页中出现过的任意两个概念词Ci,Cj,使用2007年“Computing semantic relatedness using wikipedia-based explicit semanticanalysis”文章中提到的基于维基百科语义分析的算法计算它们之间的语义相似度,记为s(Ci,Cj);
i)定义辅助函数Q(Di,k)为若网页Di只含有其出现次数最多的前k个概念词时,用户在Di上的停留时间。Q(Di,k)的值可由如下公式逐步计算导出:
其中Ck表示网页Di中出现次数第k多的概念词;函数P(Di,k-1)的定义如下:
j)对任意两个概念词,Ci,Cj,计算它们之间的用户停留时间相对差RD(Ci,Cj):
k)用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性。
所述的用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性,包括以下步骤:
1)对在用户阅读过的网页中出现过的任意三个概念词Ci,Cj Ck,定义三个辅助函数F1(Ci,Cj,Ck),F2(Ci,Cj,Ck),F3(Ci,Cj,Ck)为:
F1(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Ci,Ck))(s(Ci,Cj)-s(Ci,Ck)),
F2(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Cj,Ck))(s(Ci,Cj)-s(Cj,Ck)),
F3(Ci,Cj,Ck)=(RD(Ci,Ck)-RD(Cj,Ck))(s(Ci,Ck)-s(Cj,Ck));
m)记F(Ci,Cj,Ck)=F1(Ci,Cj,Ck)+F2(Ci,Cj,Ck)+F3(Ci,Cj,Ck),将求解每个概念词的用户停留时间的问题转化为以下的最优化问题:
其中,每个概念词Ci的用户停留时间DT(Ci)为待求的自变量,z(Di)是Di中不同概念词的个数;
n)为每个概念词Ci的用户停留时间DT(Ci)随机选取一个不超过所有DT(Di)中最大值的正实数,用以作为DT(Ci)的初始值;
o)计算此时的G值,采用梯度下降(gradient descent)算法使G值最大化;此时的DT(Ci)值即为概念词Ci的用户停留时间;
p)根据此时每个概念词Ci的DT(Ci)值,将a1,a2视为自变量,采用梯度下降(gradient descent)算法求出使G值最大化时的a1,a2的值;
q)反复执行步骤1)-n),直至DT(Ci)和a1,a2的取值都稳定为止,或反复执行次数达到100次。
所述的估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果的步骤为:
r)当用户提交一个网页搜索请求时,使用传统的网页搜索引擎获得搜索结果的前300个网页;
s)对其中的每个网页Dx,使用步骤c)-e)所述方法,将其表示为若干个概念词组成的集合;
t)对该网页中所有概念词的用户停留时间求和,将总和作为该用户对网页Dx的用户停留时间,记为DT(Dx);
u)估计该用户对网页Dx的阅读兴趣I(Dx):
其中Rx为网页Dx在传统的网页搜索引擎的排序名次;参数b设为0.2;而t=exp(-N/100),其中N代表目前为止该用户所阅读过的文章数量;
v)将网页按照用户对其阅读兴趣从大到小重新排列,生成个性化的网页搜索结果。
本发明有效地将用户的喜好结合在搜索过程中,充分的利用了数据挖掘和文本处理的方法获取用户对每个概念词的兴趣所在,更加准确的预测了网页对用户的潜在吸引力,使得最终的搜索排名结果更加接近用户期待的理想排名,从而使得改善过的网页搜索引擎能为用户提供更好的个性化服务。
附图说明
图1是本发明所述个性化网页搜索排序方法具体实施方式的系统流程结构示意图;
图2是分别使用本发明所述个性化网页搜索排序方法(Ours)以及谷歌搜索引擎(Google)对20个不同关键词进行搜索后,搜索结果对于用户的理想程度比较;其中,图2a为理想程度的柱状图,图2b为理想程度的箱形图(box-plot)。
图3是分别使用本发明所述系统(Ours)与谷歌搜索引擎(Google)、必应搜索引擎(Bing)、雅虎搜索引擎(Yahoo),根据2008年“基于用户关注时间面向用户的网页排序算法”文章所述方法实现的个性化网页搜索系统(AT08),以及本发明在缺少概念词级用户停留时间推测模块时的系统(Ours-Ψ),本发明在缺少最优化求解模块时的系统(Ours-I),对15个不同关键词进行搜索后,搜索结果对于用户的理想程度比较。
具体实施方式
一种基于用户停留时间的个性化网页搜索排序方法,包括以下步骤:
1)获取用户在其阅读过的每个网页上的用户停留时间;
2)将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合;
3)推测用户在每个概念词上的用户停留时间;
4)估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果。
所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为:
a)利用自定义浏览器,记录用户在每个网页页面上的停留时间,即该页面作为活动(active)页面的时间;所谓自定义浏览器,即为自行开发的可记录用户在网页上的关注时间的网页客户端软件,或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件;
b)对收集的用户停留时间样本进行如下校正:
DT(Di)=max{T(Di)-T0,0}.
其中是T(Di)通过自定义浏览器获得的用户对于网页Di的停留时间;T0是用户用来判断该网页是否值得一读的时间,缺省设为0~10秒的定值;DT(Di)则是经校正后网页Di的用户停留时间。如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作,则会丢弃该用户停留时间样本,认为该用户在浏览网页的过程中暂时离开了当前电脑。该时间阈值缺省设置为2分钟。
所述的将用户阅读过的每个网页都表示成一个若干个概念词的集合的步骤为:
c)对用户阅读过的每个网页Di,使用2006年“Detecting spam web pagesthrough content analysis”文章中提到的内容分析来检测垃圾网页的算法去除网页中的非内容部分,得到该网页的纯文本内容;
d)对Di中的每一个词,若在维基百科上存在对该词定义的页面,则将该词标记为一个概念词;
e)统计Di中每个概念词Cj的出现次数,将Di表示成一个概念词的集合:
其中nj是第j个概念词Cj在Di中的出现次数,z(Di)是Di中不同概念词的个数。
所述的推测用户在每个概念词上的用户停留时间的步骤为:
f)在用户阅读过的网页中出现过的所有概念词中,记每个待求的概念词Ci的用户停留时间为DT(Ci);
g)根据神经认知科学中的大脑厌倦原理,根据用户对每个概念词Ci单次出现时获得的用户停留时间DT(Ci),使用如下公式,导出该概念词在某个网页中累计出现ni次时获得的综合用户停留时间NDT(Ci):
其中ni为概念词Ci在网页中累计出现的次数;a1,a2为系数,分别缺省设为0.33,1.16;上述公式所体现的大脑厌倦机制是:当同一概念词被用户反复阅读时,这一概念词获得的用户停留时间会以非线性方式逐次减少,趋于饱和;
h)对在用户阅读过的网页中出现过的任意两个概念词Ci,Cj,使用2007年“Computing semantic relatedness using wikipedia-based explicit semanticanalysis”文章中提到的基于维基百科语义分析的算法计算它们之间的语义相似度,记为s(Ci,Cj);
i)定义辅助函数Q(Di,k)为若网页Di只含有其出现次数最多的前k个概念词时,用户在Di上的停留时间。Q(Di,k)的值可由如下公式逐步计算导出:
其中Ck表示网页Di中出现次数第k多的概念词;函数P(Di,k-1)的定义如下:
j)对任意两个概念词,Ci,Cj,计算它们之间的用户停留时间相对差RD(Ci,Cj):
k)用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性。
所述的用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性,包括以下步骤:
1)对在用户阅读过的网页中出现过的任意三个概念词Ci,Cj Ck,定义三个辅助函数F1(Ci,Cj,Ck),F2(Ci,Cj,Ck),F3(Ci,Cj,Ck)为:
F1(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Ci,Ck))(s(Ci,Cj)-s(Ci,Ck)),
F2(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Cj,Ck))(s(Ci,Cj)-s(Cj,Ck)),
F3(Ci,Cj,Ck)=(RD(Ci,Ck)-RD(Cj,Ck))(s(Ci,Ck)-s(Cj,Ck));
m)记F(Ci,Cj,Ck)=F1(Ci,Cj,Ck)+F2(Ci,Cj,Ck)+F3(Ci,Cj,Ck),将求解每个概念词的用户停留时间的问题转化为以下的最优化问题:
其中,每个概念词Ci的用户停留时间DT(Ci)为待求的自变量,z(Di)是Di中不同概念词的个数;
n)为每个概念词Ci的用户停留时间DT(Ci)随机选取一个不超过所有DT(Di)中最大值的正实数,用以作为DT(Ci)的初始值;
o)计算此时的G值,采用梯度下降(gradient descent)算法使G值最大化;此时的DT(Ci)值即为概念词Ci的用户停留时间;
p)根据此时每个概念词Ci的DT(Ci)值,将a1,a2视为自变量,采用梯度下降(gradient descent)算法求出使G值最大化时的a1,a2的值;
q)反复执行步骤1)-n),直至DT(Ci)和a1,a2的取值都稳定为止,或反复执行次数达到100次。
所述的估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果的步骤为:
r)当用户提交一个网页搜索请求时,使用传统的网页搜索引擎获得搜索结果的前300个网页;
s)对其中的每个网页Dx,使用步骤c)-e)所述方法,将其表示为若干个概念词组成的集合;
t)对该网页中所有概念词的用户停留时间求和,将总和作为该用户对网页Dx的用户停留时间,记为DT(Dx);
u)估计该用户对网页Dx的阅读兴趣I(Dx):
其中Rx为网页Dx在传统的网页搜索引擎的排序名次;参数b设为0.2;而t=exp(-N/100),其中N代表目前为止该用户所阅读过的文章数量;
v)将网页按照用户对其阅读兴趣从大到小重新排列,生成个性化的网页搜索结果。
一种基于用户停留时间的个性化网页搜索排序方法的具体系统流程结构如图1所示。该系统包括客户端和服务端两部分,客户端包括自定义浏览器10,个性化网页搜索排序结果90;服务端包括文档级用户停留时间20,最优化问题求解30,概念词级用户停留时间40,用户停留时间预测50,传统搜索引擎60,基本搜索结果70,搜索结果的个性化重排序80。
自定义浏览器10:通过插件的形式,在现有的网络资源浏览器如Firefox,Intemet Explorer中嵌入一个可记录用户阅读每个网页时的所花费时间的模块;然后使用2008年“A user-oriented webpage ranking algorithm based on userattention time”文章中提到的自定义网页浏览器方法来获取用户每次阅读时在每个网页上的用户停留时间。
文档级用户停留时间20:通过自定义浏览器10获得的每次用户阅读网页时在每个网页上的用户停留时间数据对每个网页;具体地,对网页Di的用户停留时间DT(Di)为:DT(Di)=∑j T(Di,j),j=1,2,...;其中T(Di,j)为用户第j次阅读网页Di时的用户停留时间。
最优化问题求解30:跟据文档级用户停留时间20,采用一个最优化问题的模型来求解该用户在每个概念词上的停留时间,即推测产生出概念词级用户停留时间40;其具体步骤为:
(a)对用户阅读过的每个网页Di,使用2006年“Detecting spam web pagesthrough content analysis”文章中的算法去除网页中的非内容部分如标签、广告、重定向链接等,得到该网页的纯文本内容;
(b)对Di中的每一个词,若在维基百科上存在对该词定义的页面,则将该词标记为一个概念词;
(c)统计Di中每个概念词Cj的出现次数,将Di表示成一个概念词的集合:
CV(Di)={(Cj,nj)|j=1,2,...,z(Di)}(n1≥n2≥...≥nz(Di));
其中nj是第j个概念词Cj在Di中的出现次数,z(Di)是Di中不同概念词的个数。
(d)在用户阅读过的网页中出现过的所有概念词中,记每个待求的概念词Ci的用户停留时间为DT(Ci);
(e)对任意两个概念词,Ci,Cj,计算它们之间的用户停留时间相对差RD(Ci,Cj):
(f)对在用户阅读过的网页中出现过的任意两个概念词Ci,Cj,使用2007年“Computing semantic relatedness using wikipedia-based explicit semanticanalysis”文章的算法计算它们之间的语义相似度,记为s(Ci,Cj);
(g)对在用户阅读过的网页中出现过的任意三个概念词Ci,Cj,Ck,定义三个辅助函数F1(Ci,Cj,Ck),F2(Ci,Cj,Ck),F3(Ci,Cj,Ck)为:
F1(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Ci,Ck))(s(Ci,Cj)-s(Ci,Ck)),
F2(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Cj,Ck))(s(Ci,Cj)-s(Cj,Ck)),
F3(Ci,Cj,Ck)=(RD(Ci,Ck)-RD(Cj,Ck))(s(Ci,Ck)-s(Cj,Ck));
(h)记F(Ci,Cj,Ck)=F1(Ci,Cj,Ck)+F2(Ci,Cj,Ck)+F3(Ci,Cj,Ck),将求解每个概念词的用户停留时间的问题转化为以下的最优化问题:
其中,每个概念词Ci的用户停留时间DT(Ci)为待求的自变量,z(Di)是Di中不同概念词的个数;
(i)为每个概念词Ci的用户停留时间DT(Ci)随机选取一个不超过所有DT(Di)中最大值的正实数,用以作为DT(Ci)的初始值;
(j)计算此时的G值,采用梯度下降(gradient descent)算法使G值最大化;此时的DT(Ci)值即为概念词Ci的用户停留时间;为保证G值不陷入局部极值,反复执行步骤(i)-(j)多次,在本发明所述系统实施例中,反复执行50~100次。
概念词级用户停留时间40:通过最优化问题求解30得到的用户在每个概念词上的用户停留时间数据。
用户停留时间预测50:根据概念词级用户停留时间40的数据,对任意一个网页,使用步骤(a)-(c)所述方法,将其表示为若干个概念词组成的集合;然后对该网页中所有概念词的用户停留时间求和,将总和作为用户对该网页的用户停留时间。
传统搜索引擎60:提供一个用户界面,调用网络资源搜索服务;在本实施例中,此界面使用jsp实现;当用户提交一个查询请求时,调用普通网页搜索引擎谷歌获得搜索结果。
基本搜索结果70:利用传统搜索引擎60进行搜索后,对其搜索结果页面进行解析并获取其返回结果中的前300个网页。
搜索结果的个性化重排序80:对网页集中的每个网页Dx,估计用户对该网页Dx的阅读兴趣I(Dx): 其中Rx为网页Dx在传统的网页搜索引擎谷歌的搜索结果中的排序名次;参数b通常设为0.2;而t=exp(-N/100),其中N代表目前为止该用户所阅读过的文章数量;然后将网页按照用户对其阅读兴趣从大到小重新排列,从而生成个性化网页搜索排序结果90。
个性化网页搜索排序结果90:经过搜索结果的个性化重排序80的过程后得到个性化网页搜索结果;该搜索结果充分考虑到了用户的阅读兴趣,使得网页搜索结果可以更大限度的贴近用户的个人喜好,从而为用户提供更好的互联网体验。
图2、图3及表1所示的实验结果清晰的显示出本方法的优越性。
图2所示分别使用本发明所述系统(Ours)以及谷歌搜索引擎(Google)对20个不同关键词进行搜索后,搜索结果对于用户的理想程度比较;其中,图2a为理想程度的柱状图,图2b为理想程度的箱形图(box-plot)。
我们使用了Normalized Discounted Cumulative Gain(NDCG)来度量两个系统的搜索结果排序与该用户理想结果排序之间的相似程度;即NDCG值越大,该搜索结果就越令用户满意;这20个搜索关键词分别为:apple,car,barcelona,da vinci,ETS,gnome linux,greenhouse effect,happy new year,NBA,olympics,WoW,great wall,hurricane,iron man,moon,national treasure,porsche,forbidden kingdom,tiger,west lake。
表1所示分别使用本发明所述系统(Ours)与谷歌搜索引擎(Google)、必应搜索引擎(Bing)、雅虎搜索引擎(Yahoo),以及根据2008年“A user-orientedwebpage ranking algorithm based on user attention time”所述方法实现的个性化网页搜索系统(AT08),对15个不同关键词进行搜索后,搜索结果对于用户的理想程度比较;我们同样使用了Normalized Discounted Cumulative Gain(NDCG)来度量两个系统的搜索结果排序与该用户理想结果排序之间的相似程度;即NDCG值越大,该搜索结果就越令用户满意。
表1
图3是分别使用本发明所述系统(Ours)与谷歌搜索引擎(Google)、必应搜索引擎(Bing)、雅虎搜索引擎(Yahoo),根据2008年“A user-oriented webpageranking algorithm based on user attention time”所述方法实现的个性化网页搜索系统(AT08),以及本发明在缺少概念词级用户停留时间推测模块时的系统(Ours-Ψ),本发明在缺少最优化求解模块时的系统(Ours-I),对表1中所述的15个不同关键词进行搜索后,搜索结果对于用户的理想程度比较。
上述实验表明,本发明有效地利用了人工智能相关技术,应用网页搜索和文本处理等方法来估计用户对于不同概念的阅读兴趣,从而将个人阅读习惯和需求考虑在网页搜索排序的过程中,使得网页搜索结果排序更加贴近用户个性化预期的结果,为用户提供更好的网络搜索和浏览支持。
以上所述仅为本发明的一种基于用户停留时间的个性化网页搜索排序方法的较佳实施例,并非用以限定本发明的实质技术内容的范围。本发明的一种基于用户停留时间的个性化网页搜索排序方法,其实质技术内容是广泛的定义于权利要求书中,任何他人所完成的技术实体或方法,若是与权利要求书中所定义者完全相同,或是同一等效的变更,均将被视为涵盖于此专利保护范围之内。
Claims (4)
1.一种基于用户停留时间分析的个性化网页搜索排序方法,其特征在于:包括以下步骤:
1)获取用户在其阅读过的每个网页上的用户停留时间;
2)将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合;
3)推测用户在每个概念词上的用户停留时间;
4)估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果;所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为:
a)利用自定义浏览器,记录用户在每个网页页面上的停留时间,即该页面作为活动(active)页面的时间;所述的自定义浏览器,为用于记录用户在网页上的关注时间的网页客户端软件,或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件;
b)对收集的用户停留时间样本进行如下校正:
DT(Di)=max{T(Di)-T0,0};
其中是T(Di)通过自定义浏览器获得的用户对于网页Di的停留时间;T0是用户用来判断该网页是否值得一读的时间,缺省设为0~10秒的定值;DT(Di)则是经校正后网页Di的用户停留时间,如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作,则会丢弃该用户停留时间样本;
所述的将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合的步骤为:
c)对用户阅读过的每个网页Di,使用内容分析来检测垃圾网页,去除网页中的非内容部分,得到该网页的纯文本内容;
d)对Di中的每一个词,若在维基百科上存在对该词定义的页面,则将该词标记为一个概念词;
e)统计Di中每个概念词Cj的出现次数,将Di表示成一个概念词的集合:
其中nj是第j个概念词Cj在Di中的出现次数,z(Di)是Di中不同概念词的个数。
2.根据权利要求1所述的基于用户停留时间分析的个性化网页搜索排序方法,其特征在于:所述的推测用户在每个概念词上的用户停留时间的步骤为:
f)在用户阅读过的网页中出现过的所有概念词中,记每个待求的概念词Ci的用户停留时间为DT(Ci);
g)根据神经认知科学中的大脑厌倦原理,根据用户对每个概念词Ci单次出现时获得的用户停留时间DT(Ci),使用如下公式,导出该概念词在某个网页中累计出现ni次时获得的综合用户停留时间NDT(Ci):
其中ni为概念词Ci在网页中累计出现的次数;a1,a2为系数,分别缺省设为0.33,1.16;上述公式所体现的大脑厌倦机制是:当同一概念词被用户反复阅读时,这一概念词获得的用户停留时间会以非线性方式逐次减少,趋于饱和;
h)对在用户阅读过的网页中出现过的任意两个概念词Ci,Cj,使用基于维基百科语义分析的算法计算它们之间的语义相似度,记为s(Ci,Cj);
i)定义辅助函数Q(Di,k)为若网页Di只含有其出现次数最多的前k个概念词时,用户在Di上的停留时间,Q(Di,k)的值可由如下公式逐步计算导出:
其中Ck表示网页Di中出现次数第k多的概念词;函数P(Di,k-1)的定义如下:
j)对任意两个概念词,Ci,Cj,计算它们之间的用户停留时间相对差RD(Ci,Cj):
k)用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性。
3.根据权利要求2所述的基于用户停留时间分析的个性化网页搜索排序方法,其特征在于:所述的用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性,包括以下步骤:
l)对在用户阅读过的网页中出现过的任意三个概念词Ci,Cj,Ck,定义三个辅助函数F1(Ci,Cj,Ck),F2(Ci,Cj,Ck),F3(Ci,Cj,Ck)为:
F1(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Ci,Ck))(s(Ci,Cj)-s(Ci,Ck)),
F2(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Cj,Ck))(s(Ci,Cj)-s(Cj,Ck)),
F3(Ci,Cj,Ck)=(RD(Ci,Ck)-RD(Cj,Ck))(s(Ci,Ck)-s(Cj,Ck));
m)记F(Ci,Cj,Ck)=F1(Ci,Cj,Ck)+F2(Ci,Cj,Ck)+F3(Ci,Cj,Ck),将求解每个概念词的用户停留时间的问题转化为以下的最优化问题:
其中,每个概念词Ci的用户停留时间DT(Ci)为待求的自变量,z(Di)是Di中不同概念词的个数;
n)为每个概念词Ci的用户停留时间DT(Ci)随机选取一个不超过所有DT(Di)中最大值的正实数,用以作为DT(Ci)的初始值;
o)计算此时的G值,采用梯度下降算法使G值最大化;此时的DT(Ci)值即为概念词Ci的用户停留时间;
p)根据此时每个概念词Ci的DT(Ci)值,将a1,a2视为自变量,采用梯度下降算法求出使G值最大化时的a1,a2的值;
q)反复执行步骤l)-n),直至DT(Ci)和a1,a2的取值都稳定为止,或反复执行次数达到100次。
4.根据权利要求1所述的基于用户停留时间分析的个性化网页搜索排序方法,其特征在于:所述的估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果的步骤为:
r)当用户提交一个网页搜索请求时,使用传统的网页搜索引擎获得搜索结果的前300个网页;
s)对其中的每个网页Dx,使用步骤c)-e)所述方法,将其表示为若干个概念词组成的集合;
t)对该网页中所有概念词的用户停留时间求和,将总和作为该用户对网页Dx的用户停留时间,记为DT(Dx);
u)估计该用户对网页Dx的阅读兴趣I(Dx):
其中Rx为网页Dx在传统的网页搜索引擎的排序名次;参数b设为0.2;而t=exp(-N/100),其中N代表目前为止该用户所阅读过的文章数量;
v)将网页按照用户对其阅读兴趣从大到小重新排列,生成个性化的网页搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110194078 CN102231165B (zh) | 2011-07-11 | 2011-07-11 | 一种基于用户停留时间分析的个性化网页搜索排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110194078 CN102231165B (zh) | 2011-07-11 | 2011-07-11 | 一种基于用户停留时间分析的个性化网页搜索排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102231165A CN102231165A (zh) | 2011-11-02 |
CN102231165B true CN102231165B (zh) | 2013-01-09 |
Family
ID=44843729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110194078 Expired - Fee Related CN102231165B (zh) | 2011-07-11 | 2011-07-11 | 一种基于用户停留时间分析的个性化网页搜索排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102231165B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186565B (zh) * | 2011-12-28 | 2017-02-22 | 中国移动通信集团浙江有限公司 | 根据用户网页浏览行为判断用户偏好的方法及装置 |
CN103810183A (zh) * | 2012-11-07 | 2014-05-21 | 江苏仕德伟网络科技股份有限公司 | 一种得到真实访客停留时长的方法 |
CN103838727B (zh) * | 2012-11-21 | 2018-01-19 | 华为技术有限公司 | 一种历史记录和收藏夹的生成方法和用户终端 |
ES2518015B1 (es) * | 2013-04-01 | 2015-08-12 | Crambo, S.A. | Método, dispositivo móvil, sistema y producto informático para la detección y medición del nivel de atención de un usuario |
CN103559203A (zh) * | 2013-10-08 | 2014-02-05 | 北京奇虎科技有限公司 | 网页排序方法、装置和系统 |
CN104657372B (zh) | 2013-11-20 | 2018-11-06 | 腾讯科技(深圳)有限公司 | 页面操作数据处理方法及装置 |
CN104933069A (zh) * | 2014-03-19 | 2015-09-23 | 黄凯 | 一种桌面终端上网浏览统计的分析方法和系统 |
CN104166741B (zh) * | 2014-09-10 | 2018-09-18 | 北京国双科技有限公司 | 网页浏览分析处理方法及装置 |
CN106156096A (zh) * | 2015-04-02 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 一种页面停留时间获取方法、系统以及用户终端 |
CN107977452A (zh) * | 2017-12-15 | 2018-05-01 | 金陵科技学院 | 一种基于大数据的信息检索系统及方法 |
CN109359178A (zh) * | 2018-09-14 | 2019-02-19 | 华南师范大学 | 一种检索方法、装置、存储介质及设备 |
CN112380352B (zh) * | 2020-10-28 | 2024-06-18 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 一种交互式检索方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320387A (zh) * | 2008-07-11 | 2008-12-10 | 浙江大学 | 基于用户关注时间的网页文本与图像排序方法 |
CN101334783A (zh) * | 2008-05-20 | 2008-12-31 | 上海大学 | 基于语义矩阵的网络用户行为个性化的表达方法 |
CN101499098A (zh) * | 2009-03-04 | 2009-08-05 | 阿里巴巴集团控股有限公司 | 一种网页评估值的确定及运用的方法、系统 |
-
2011
- 2011-07-11 CN CN 201110194078 patent/CN102231165B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334783A (zh) * | 2008-05-20 | 2008-12-31 | 上海大学 | 基于语义矩阵的网络用户行为个性化的表达方法 |
CN101320387A (zh) * | 2008-07-11 | 2008-12-10 | 浙江大学 | 基于用户关注时间的网页文本与图像排序方法 |
CN101499098A (zh) * | 2009-03-04 | 2009-08-05 | 阿里巴巴集团控股有限公司 | 一种网页评估值的确定及运用的方法、系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102231165A (zh) | 2011-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102231165B (zh) | 一种基于用户停留时间分析的个性化网页搜索排序方法 | |
Guan et al. | Personalized tag recommendation using graph-based ranking on multi-type interrelated objects | |
US9910930B2 (en) | Scalable user intent mining using a multimodal restricted boltzmann machine | |
CN1758245B (zh) | 利用摘要来分类显示页的方法和系统 | |
Song et al. | Adapting deep ranknet for personalized search | |
Lu et al. | Scalable news recommendation using multi-dimensional similarity and Jaccard–Kmeans clustering | |
CN104484431A (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
Claster et al. | Naïve Bayes and unsupervised artificial neural nets for Cancun tourism social media data analysis | |
CN101382939B (zh) | 基于眼球跟踪的网页文本个性化搜索方法 | |
Li et al. | Deep learning powered in-session contextual ranking using clickthrough data | |
Bouadjenek et al. | Persador: personalized social document representation for improving web search | |
CN110348919A (zh) | 物品推荐方法、装置和计算机可读存储介质 | |
Takano et al. | An adaptive e-learning recommender based on user's web-browsing behavior | |
CN103095849B (zh) | 基于QoS属性预测和纠错的有监督Web服务发现方法及系统 | |
Zhuhadar et al. | A hybrid recommender system guided by semantic user profiles for search in the e-learning domain. | |
Deng et al. | Improving personalized search with dual-feedback network | |
Barla et al. | Ordinary web pages as a source for metadata acquisition for open corpus user modeling | |
Zhang et al. | An explainable person-job fit model incorporating structured information | |
CN107766419A (zh) | 一种基于阈值去噪的TextRank文档摘要方法及装置 | |
CN113362034B (zh) | 一种职位推荐方法 | |
Zhang et al. | Complementary classification techniques based personalized software requirements retrieval with semantic ontology and user feedback | |
Preetha et al. | Personalized search engines on mining user preferences using clickthrough data | |
CN111177514B (zh) | 基于网站特征分析的信源评价方法、装置及存储设备、程序 | |
Duan et al. | Hierarchical preference hash network for news recommendation | |
Song et al. | Searchable web sites recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130109 Termination date: 20140711 |
|
EXPY | Termination of patent right or utility model |