CN100507920C

CN100507920C - 一种基于用户行为信息的搜索引擎检索结果重排序方法

Info

Publication number: CN100507920C
Application number: CNB2007100995946A
Authority: CN
Inventors: 岑荣伟; 刘奕群; 张敏; 金奕江; 马少平
Original assignee: Tsinghua University
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2007-05-25
Filing date: 2007-05-25
Publication date: 2009-07-01
Anticipated expiration: 2027-05-25
Also published as: CN101055587A

Abstract

本发明属于互联网信息处理领域，其特征在于：它根据单个或多个搜索引擎日志，首先利用查询对应的用户数信息，从中筛选出用户关注的常用查询集合；随后计算常用查询集中各查询对应的用户点击页面对应的用户点击率，若利用多搜索引擎日志信息，则对用户点击率进行合并；根据用户点击率对用户点击页面进行有效筛选，并把相关查询和对应的结果页面地址保存到相关数据库；最后，当用户提交查询需求时，把从用户信息得到的结果和搜索引擎搜索得到的结果进行有效融合，重新排序后返回给用户。该方法具有计算机自动完成，实时有效客观地提交搜索引擎性能的优点。

Description

一种基于用户行为信息的搜索引擎检索结果重排序方法

技术领域

本发明属于互联网信息处理领域，特别是涉及信息检索系统，具体说是利用群体用户行为信息，对搜索引擎检索结果进行重排序，提高检索排序性能的处理方法。

背景技术

搜索引擎是以一定的策略收集互联网上的信息，对信息进行组织和处理后为用户提供网络信息服务的计算机系统，它包括计算机网络、计算机硬件系统以及在硬件系统上运行的软件程序三个部分。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。

目前，通用网络搜索引擎主要包含信息收集、信息处理和用户查询服务三部分。搜索引擎通过被称为网络蜘蛛(Spider)的工具根据站点或页面的URL信息和网页之间的链接关系进行信息收集，用链接信息分析器、文本分析器以及索引器对抓取的页面信息进行整理，进而通过查询服务器负责与用户交交互，根据用户提交的查询关键词进行检索，并返回相关结果列表，提供相关信息以满足用户的查询需求。

从使用者的角度看，搜索引擎提供一个包含搜索框的页面，用户在搜索框输入能反映自已需求的查询关键词，通过浏览器提交给搜索引擎后，搜索引擎返回和用户输入的内容相关的搜索结果信息列表，用户进行点击相关结果页面，查找所需要的信息。

查询服务器中的一个关键技术是对相关的文档进行有效排序，使得用户想要的页面排在返回结果的前列位置，相关信息更容易被访问到。从20世纪60年代中期以来，人们提出了大量的文本相似度模型。90年代后，随着Web页面的大规模出现，部分相似度模型应用到了网络信息搜索引擎上，其主要的思想就是“TF*IDF”。当前应用广泛的模型主要有布尔模型(Boolean Model)，统计模型(Statistical Model)和语言知识模型(Linguistic andKnowl edge-based Model)。由于这类相似度模型基本上都是基于普通文本检索提出的，和真实网络环境上的Web文本信息有一定的区别。另外，各Web站点为提高搜索结果排名，利用相关Spam技术，如在各自的页面中添加各种关键词，欺骗搜索引擎，提升搜索结果排名，提高站点知名度。

由于网络检索的特殊性，用户提交关键词进行搜索时，其目标页面并不一定完全是和查询关键词相关的内容，用户一般也难于用简单的几个关键词对其想要的目标页面进行合理描述，很多实际检索任务往往转化为查找相关的关键资源页面。关键资源页面通常是指一系列相关信息页面的入口页面，即用户能通过该页面很容易找到自己想要的信息，和传统的文本信息检索有很大的不同。

90年代中后期，针对已有的网络环境和网络用户的需求特点，人们开始对Web页面的质量问题进行相关研究和考察，其中最主要的依据是网络页面上的超链接结构。超链接结构是网络信息环境与传统的信息媒介的最大区别之一，是指两个页面或页面的两个不同部分之间的一种指向关系，包含源页面和目标页面，基于链接结构提出的技术主要有Pagerank和Hits等算法。Pagerank算法是Google公司的Brin等人根据因特网用户浏览模型建立的超链接分析算法，其主要利用超链接关系对不同页面进行一定的质量评级，用页面对应的评级结果对搜索引擎的搜索结果进行改进，把页面质量高且相关性好的页面排在结果前列返回给用户，能很大程度的提高了实际用户检索的满意度。Pagerank算法的基本架构和实现思路因此也在实际商用搜索引擎的应用中取得了巨大成功。

事实上，尽管各种新模型新技术在搜索引擎中被使用，但还是没法很好的满足检索用户对信息查询的满意度。为尽量提高搜索引擎的搜索性能，很多实际的搜索引擎站点使用一些人工挑选的手段的来提高部分查询词的检索性能，挑选那些用户经常使用且目标唯一的查询词(通常为导航类查询词，如“搜狐：www.sohu.com”，)。当用户检索时，把人工挑选的相关检索目标页面融合在自动检索的页面中，通常如放在返回结果页面前几位。但由于人工挑选带来的投入代价太大，而且很难对更大规模的查询进行人工挑选。

在实际商用搜索引擎中，用户对查询返回结果会按照自己的理解和满意程度进行点击，很容易对用户的该点击行为进行记录，该记录通常也被称为搜索引擎日志。查询记录点击信息不但体现了用户的查询兴趣，也包含了用户对查询结果判断和挑选，蕴含了大量的群体用户的知识和信息，从用户的查询点击信息中筛选相关的查询和结果页面是可行的。已有统计研究表明，在日常的用户搜索中，查询最频繁的1％的查询词占了70％以上的查询次数，因此只要对用户点击信息进行统计，找出那些常用的用户查询，则能代表大多数用户查询需求，分析其相关用户点击行为信息，并融合到搜索引擎结果中去，则能自动利用群体用户的知识提高检索性能。

发明内容

本发明针对现有各种检索排序算法存在的不足以及人工挑选所需要的大量劳动力和时效性的不足，提出了基于用户行为信息的搜索引擎检索结果重排序方法。该方法利用已有的在一家或多家搜索引擎上的用户查询及其点击行为信息，对其进行宏观统计分析，对那些用户近期常用的查询挑选用户最关注的几个目标页面，融合到搜索引擎返回的原始结果之中对其结果页面改进，作为最终查询结果返回给用户。利用多家搜索引擎的用户查询点击行为信息能很好的避免因单个搜索引擎索引数据规模和检索排序策略给用户点击带来的偏向性和不足，但收集多家搜索引擎用户日志信息有一定的难度；利用近期的信息能很好的保持一定的时效性；利用用户点击的信息返回的结果页面有一定的用户认同感，把其作为结果页面的一部分，能提高结果的准确度和用户的满意度。上述处理过程都是由计算机自动完成，因此，在提高性能的基础上大量的减少了人工辅助检索劳动，并能及时、准确、有效、客观的返回结果页面和满足用户需求。

该方法的具体内容如下：

1.利用查询的用户数等信息，自动筛选出具有时效性，能包含大部分用户查询需求，且能够较准确标注的查询；

2.根据用户行为信息，计算各查询对应的用户点击页面的点击率，若利用多搜索引擎的用户行为日志，则进行相关合并，得到合并后各查询的用户点击率；

3.根据各查询对应页面的用户点击率，筛选出该查询的结果页面；

4.当用户查询时，将标出的查询结果融合到搜索引擎返回的结果中去，并最终显示给用户。

本发明的特征在于：

它是在计算机上自动完成的，依次含有如下步骤：

步骤1用户常用查询集筛选

步骤1.1数据预处理

用于利用用户行为信息的搜索引擎检索结果重排序所使用的查询集、查询对应的结果页面以及页面筛选过程中所使用的相关信息来源于一个或多个搜索引擎的用户日志，对于这些搜索引擎用户日志，它至少需要包含以下内容信息才能用于搜索引擎结果重排序的方法中：

表1 供基于用户行为信息的搜索引擎检索结果重排序所使用的用户日志需包含的内容

名称	记录内容	记录位数(Bit)
名称	记录内容	记录位数(Bit)	Query	用户提交的查询	256
URL	对应这个查询用户点击的结果地址	256	Query	用户提交的查询	256
URL	对应这个查询用户点击的结果地址	256	Id	由系统自动分配的用户标识号，某个用户某次使用搜索引擎时即会被自动分配一个不同的标识号。	32

一般搜索引擎服务提供商都可以很容易的通过搜索引擎网络服务器得到以上信息，从而保证了本方法的可行性。由于各个搜索引擎对其用户日志存储格式和表现形式上有所不同，具体处理过程略有差别，但基本上都需要如下步骤对用户日志进行预处理：

步骤1.1.1进行用户日志编码转换，将服务器记录的编码格式转换成国家标准汉字编码的GBK格式。

步骤1.1.2利用表1中列出的内容项对用户日志进行整理，去除表1内容项之外的信息，并将日志整理成以上内容项字符串的形式。

步骤1.1.3利用字符串匹配技术(如KMP算法)过滤用户查询中的噪声信息，包括违禁查询词、某些在线商品推广使用的查询词等，仅保留直接反映搜索引擎普通用户查询需求与行为的内容项。

经过数据预处理过程，可以从中提取表1中列举的内容，并应用于方法的以下步骤。

步骤1.2查询用户数信息提取

按以下规则统计各个查询的用户数信息：

对于日志中用户提交的某查询Q，对提交过该查询Q的用户数进行计数得到。

对于每一个提交的查询，其用户数都是一个大于等于1的值。查询的用户数信息包含了人们对该查询的关注度。由于查询的用户数和日志记录的时间有很大关系，为保持一定的时效性，选择最近一个月或半个月的日志作为数据源。

步骤1.3常用查询集筛选

按照以下规则挑选常用查询集合S：

若：某查询Q在搜索引擎日志中其查询用户数小于20，则排除在S之外；

否则：把该查询Q放入常用查询集合S中。

用查询的用户数对查询主题进行一定的筛选，挑选那些用户数较多的查询是因为这些查询占据了大量的用户查询，用少量的用户查询词集合满足大部分用户的查询需求，并能保证所选择的查询反应当前用户的关注趋势和热点，保证时效性和关注度，有一定的代表性。另外，挑选那些用户数较多的查询，能提高步骤2中计算用户点击率信息的可靠性和稳定性，减少因个别用户的点击行为带来较大的波动。

步骤2用户点击率信息提取

步骤2.1用户点击率信息提取

对于查询集合S中的每个查询Q，都有一系列被点击的结果页面，通过表1提供的用户查询和点击信息，可以得到这一系列被点击页面的地址URL，并针对该查询计算每个页面URL的“用户点击率”，即页面被点击的概率。查询Q的某一结果页面URL的“用户点击率”计算公式是：

其中，“查询Q用户点击查询结果URL的次数”可以通过对查询Q中点击结果URL的用户行为计数得到，而“查询Q用户的点击总次数”可以通过对查询Q的所有用户点击行为计数得到。

按照其定义，由于“查询Q用户点击查询结果URL的次数”必然小于等于“查询Q用户的点击总次数”，因此“用户点击率”的取值范围在0和1之间。对查询Q，所有被点击的结果页面URL的“用户点击率”之和为1。

“用户点击率”描述对于查询Q，该结果页面URL的认可度，其值越大，表示更多用户对该页面URL和查询Q关系认可，可作为该查询和URL相关度的一个有效度量。

步骤2.2多搜索引擎用户点击率信息合并

使用单搜索引擎日志信息在日志数据获取上相对比较容易，但其存在着检索数据有限和搜索引擎排序引导偏向的不足，如果能使用多搜索引擎的用户日志，其性能提高将更加理想。

用概率表达式P(URL|查询Q)表示合并后对查询Q结果页面URL的“用户点击率”信息，使用条件分布的全概率公式得到其计算公式如下：

由概率的相关概念可以知道P(URL|查询Q)的取值范围必然在0至1之间。其中，P(URL|SE_i，查询Q)表示在搜索引擎日志SE_i中，对于查询Q，点击结果页面URL的点击率，用(1)式计算该结果页面URL在搜索引擎SE_i上的“用户点击率”得到。P(SE_i|查询Q)表示对于查询Q，搜索引擎用户日志SE_i给出的支持度，用如下(3)式计算的“SE_i查询可信度”得到：

由(3)可知该“查询可信度”是一取值范围在0至1之间，且该查询的各搜索引擎“查询可信度”之和为1，该值是各搜索引擎日志关于该查询用户点击率的合并权重。

合并后查询的“用户点击率”排除了单个搜索引擎日志上得到的“用户点击率”存在的不足，对于检索排序性能提高效果更好(见相关验证实验)。

步骤3利用用户行为信息进行搜索引擎检索结果改进

步骤3.1查询结果页面筛选

对于某一查询Q对应的结果页面集，按以下两种方法之一确定相关结果页面：

固定点击率和法：

对于查询Q，其“用户点击率”最大的连续前M个页面即是其查询Q对应的从搜索引擎用户日志中得到的结果页面，其中M满足：从融合后“用户点击率”最大的页面开始，连续前M个页面的融合后“用户点击点击率”之和大于0.8，但连续前M-1个页面的融合后“用户点击率”之和小于0.8，且该M个页面的“用户点击率”都大于0.1。

该方法确定的各个查询对应的结果数可能有所不同，对于用户点击率集中度高的查询，一般只返回极少个别的页面；对于用户点击率相对比较分散的查询，可能返回较多的页面。

固定结果页面数法：

对于查询Q，其“用户点击率”最大的连续前n个页面是其对应的所需结果页面，其中n满足：该n个页面对应的“用户点击率”都大于0.1，且n为小于等于N的最大整数，N为一常数，通常为3。

该方法确定结果的页面个数，对所有的查询其结果页面数都不超过N个，且每一个查询结果都有一定的可信度。

实际中，对于导航类查询，其结果页面比较唯一且确定，因此使用固定结果页面数法比较合适；对于信息类查询，其结果页面多样化，数目不确定，因此使用固定点击率和法比较合适。

通过上述步骤确定了能够融合用户行为信息检索排序的查询，以及其对应的从日志中获得的结果页面，将其以一定形式存储起来(如数据库)。

步骤3.2指定搜索引擎原始检索结果的获取

当用户向指定搜索引擎提交相关查询关键词进行查询时，把该查询提交给指定的搜索引擎，搜索引擎将返回查询相关的排好序的结果页面集，并有计算得到的页面相关度信息。

若没有独立的搜索引擎，可抓取特定的搜索引擎结果页面(实验中使用了该方法)，抓取方法如下：

首先选用一种互联网网页抓取程序，如wget，FlashGet等，以便利用这个工具对相应的URL的网页进行抓取。其次根据查询Q的不同，利用模式替换的方式生成对应Q的搜索引擎结果页面的URL。不同搜索引擎结果页面URL记录Q的方式不同。但搜索引擎都需要在URL中记录Q以便向服务器传递Q的信息。如使用Baidu搜索引擎，其对应Q的结果页面URL是http://www.baidu.com/baidu？wd＝Q。最后，调用网页抓取程序，自动抓取该URL对应的页面，并获取查询Q对应的查询结果页面。

步骤3.3基于用户行为信息的检索结果合并

当用户提交查询Q进行查询时，将其分别提交给搜索引擎(步骤3.2)和从步骤3.1筛选得到的查询结果集数据库中，返回得到该查询的两个结果页面序列，分别命名为序列SEQ和序列LOG。若从用户日志得到的查询集数据库中不包含该查询Q，则不进行如下处理，直接返回搜索引擎查询结果序列SE。否则，按如下方法融合上述两个序列的结果页面，并作为最终返回结果页面集返回给用户：

首先，按“用户点击率”的大小依次取序列LOG中的每一个结果页面，放入最终返回结果页面集中，至取完为止；其次，按SEQ序列中已有的顺序，依次取其中的每一个结果页面，至取完为止，如果该页面已经出现在最终返回结果页面集中，则不再取该页面。

经过上述步骤，完成了将用户的点击行为信息融合到搜索引擎返回的结果中去，包含了大量用户的知识和信息，通过实验可以看到其能提高搜索引擎的检索排序性能。

为了验证本发明的有效性、可靠性和应用性，我们设计和测试了相关的验证实验。

从数据源上，我们使用了4个常用搜索引擎的用户查询日志。另外，选择了约320个用户查询，并使用结果池过滤技术(Pooling，由美国国家技术研究所NIST组织的文本检索会议TREC提出)，对这些查询进行了人工答案集标注，作为测试答案。Pooling池包括国内搜狗，百度，Google，中搜，雅虎，新浪等各大著名搜索引擎，每个搜索引擎返回前20个结果作为池中的备选答案。在验证实验中使用信息检索中常用的平均检索精度(MAP)进行性能的评价。

搜索引擎很容易记录其自身用户访问的情况，进而可以得到关于该单个搜索引擎的用户行为信息，进行相关检索结果重排序。利用获取的2007年3月1日至4月8日的搜索引擎用户日志，利用对搜狗搜索引擎结果页面抓取的方式验证本方法的性能。表2列出了使用固定结果页面数法筛选查询结果页面时，使用不同N值融合后的性能提高情况，可以看到其基本上有5％以上的提高。

表2 融合单搜索引擎用户行为信息的检索性能提高情况

N值	原始搜索结果性能	重排序后搜索结果性能	提高幅度(％)
N值	原始搜索结果性能	重排序后搜索结果性能	提高幅度(％)	1	0.669	0.689	3.0
2	0.669	0.703	5.1	1	0.669	0.689	3.0
2	0.669	0.703	5.1	3	0.669	0.715	6.9
4	0.669	0.723	8.1	3	0.669	0.715	6.9
4	0.669	0.723	8.1	5	0.669	0.726	8.5
6	0.669	0.727	8.7	5	0.669	0.726	8.5

另外，利用多家搜索用户日志，对融合多搜索引擎用户行为信息查询排序进行验证。考察了其对6家常用搜索引擎结果重排序后性能改进情况，使用了固定结果页面数法筛选查询结果页面，取N为3。表3显示各搜索引擎性能提高情况，可以看到该方法能平均提高15％的评价性能，尤其对原有性能较差的搜索引擎，其提高幅度非常明显，如新浪和中搜。同样比较搜狗搜索引擎的情况，使用单搜索引擎用户行为信息时，其提高了6.9％(见表2)，使用多搜索引擎用户行为信息后其提高了13.6％(见表3)，提高效果更加明显。

表3 融合多搜索引擎用户行为信息的检索性能提高情况

搜索引擎	原始搜索结果性能	重排序后搜索结果性能	提高幅度(％)
搜索引擎	原始搜索结果性能	重排序后搜索结果性能	提高幅度(％)	百度	0.74	0.773	4.6
6oogle	0.702	0.743	5.8	百度	0.74	0.773	4.6
6oogle	0.702	0.743	5.8	雅虎	0.774	0.798	3.1
搜狗	0.664	0.754	13.6	雅虎	0.774	0.798	3.1
搜狗	0.664	0.754	13.6	新浪	0.552	0.779	41.2
中搜	0.564	0.775	37.4	新浪	0.552	0.779	41.2
中搜	0.564	0.775	37.4	平均性能	0.666	0.77	15.6

本发明能够自动的从单个或多个搜索引擎日志中筛选出用户关注的查询以及这些查询对应的可信度高的结果页面，进而当用户进行查询时，把相关结果融合在搜索引擎返回的结果中，提供给用户。该方法处理简单，算法复杂度低，能有效的利用已有的搜索引擎用户行为信息，使用群体用户的智慧来改进搜索引擎的检索结果，提高性能。在测试数据上取得了很好的结果，提高了搜索引擎的检索性能。这说明本发明具有较好的推广性和适应性，能对搜索引擎的搜索结果有效改进，具有良好的应用前景。

附图说明

图1.搜索引擎基本流程架构；

图2.基于用户行为信息的搜索引擎检索结果重排序方法的流程；

图3.多搜索引擎用户点击率合并算法；

图4.结果页面筛选的两种方法流程；

图5.用户行为信息结构。

具体实施方式

附图2描述了本方法的流程。本发明对于搜索引擎性能的提高，具有广泛的适应性和应用性。下面利用四个常用搜索引擎的日志进行融合多搜索引擎用户行为信息的检索结果重排序，就以上方法进行详细的流程说明：

1.数据预处理

所使用的日志包括在2007年3月18号至2007年4月23号的37天时间内收集到的四个常用搜索引擎的用户查询点击信息记录，共有非空查询点击信息58，092，696条(四个搜索引擎分别有32，983，339条，11，159，594条，3，450，045条，10，499，718条)。记录中的包括的信息有：

表4：搜狗搜索引擎提供的4个常用搜索引擎用户日志包含信息项：

名称	记录内容
名称	记录内容	FromURL	用户点击的检索结果列表地址URL
ToUrl	用户点击的结果地址URL	FromURL	用户点击的检索结果列表地址URL
ToUrl	用户点击的结果地址URL	Time	用户点击发生的日期、时间
Id	由系统自动分配的用户标识号	Time	用户点击发生的日期、时间

FromUrl信息中包含了该日志所属的搜索引擎。通常，该地址的变量中包含了相关的查询关键词。ToUrl即用户点击结果页面。因此，这些日志包含了表1所对应的数据信息项，可以提供融合排序中所需的用户行为信息。

日志的预处理包括：过滤非搜索引擎日志记录(如搜索引擎的站内互相跳转等)；对搜索引擎日志按搜索引擎进行分类，得到四个常用搜索引擎各自的用户查询点击信息记录；从FromUrl的变量中提取相关的查询关键词部分，进行URL转码，并最终统一转码成GBK编码；过滤记录中非表1所需要的无用信息以及相关噪音信息；对相同查询的用户点击信息进行组织，计算各查询的用户数，查询对应的各点击页面的用户点击数等信息。

2.常用查询集筛选

搜索引擎的用户查询有一定的重复性和密集性，对于用户关心的查询，会经常被查询用户提交。查询的密集性和重复性也是我们利用已有的用户行为信息提高检索性能的依据和保障。

以下为查询集合的筛选过程，如果使用多家搜索引擎日志，则在各个日志上独立进行考察和筛选。

单搜索引擎日志上的常用查询筛选流程：

每个搜索引擎日志经过预处理后，对于每个查询Q根据其查询用户数进行筛选，如果总查询次数少于20，则认为这个查询没有足够的宏观用户点击行为信息，无法进行有效的分析，同时该查询也缺少足够的代表性来描述用户所关心的话题，剔除该查询。否则，将该查询进行保留。根据以前对搜狗日志进行分析后发现，用户查询次数大于100的查询超过3万个，而用户在这部分查询上的总点击次数占到全部点击次数的70％左右。这与前人的一些研究结果相同，即较少数量的查询被用户反复查询，占据了大部分的搜索引擎服务。

3.用户点击率信息获取

对于每一个查询的用户点击率，其表示了在同一查询下，用户对各个结果页面的偏好度。对于单搜索引擎日志，直接利用(1)式计算得到每个查询下的各个页面的用户点击率大小。如果利用多搜索引擎日志，则根据单搜索引擎的用户点击率，通过(2)式进行合并计算。图3描述了合并算法，可以得到合并后的用户点击率大小。

用户点击率包含了宏观用户群对于特定查询各个结果页面的判断信息。基于单搜索引擎的用户点击率信息其存在着检索结果排序引导的偏向和单搜索引擎因资源有限而带来的数据集的偏向，但其用户日志收集相对比较简单，易于实现。基于多搜索引擎的用户点击率信息则能很好的避免存在的偏向问题，但相对来说由于各商用搜索引擎存在这竞争关系，获取日志信息相对较难。

4.用户日志结果筛选和搜索引擎检索结果重排序

有了每个查询及其对应结果页面的用户点击率后，需要对用户点击页面进行筛选。图4描述了两种利用已有的用户点击率信息对用户点击页面进行筛选的方法，即固定点击率和法和固定结果页面数法。经过筛选后把常用查询及其对应的标出来的结果页面进行数据库保存，并提供查询服务。当用户提交某查询Q时，将其提交给保存的常用查询集和对应结果页面的数据库，如果包含该查询Q，则返回相关的结果页面，否则，返回为空。同时将该查询提交给搜索引擎，得到搜索引擎返回的结果，按照先挑选由用户行为信息得到的结果页面，再挑选搜索引擎返回的页面的顺序生成最终的查询Q的查询结果，返回给用户。

按照以上步骤，就可以利用宏观群体搜索引擎用户的查询行为信息和智慧，改进搜索引擎检索结果，提高搜索引擎检索性能。

Claims

1.一种基于用户行为信息的搜索引擎检索结果重排序方法，其特征在于该方法是在搜索引擎的计算机上依次按以下步骤实现的：

步骤(1).用户常用查询集的筛选：

步骤(1.1).数据预处理：通过搜索引擎网络服务器从至少一个搜索引擎的用户日志中提取供基于用户行为进行搜索结果重排序的用户信息，形成的用户信息至少包含以下内容：

Query：用户提交的查询；

URL：该查询对应的用户点击的结果页面地址；

Id：系统自动分配给每个用户每次使用搜索引擎时的标识号；

所述步骤(1.1)依次含有以下各子步骤：

步骤(1.1.1).把搜索引擎网络服务器记录的编码格式转换成国家标准汉字编码的GBK格式；

步骤(1.1.2).去除所述Query、URL、Id以外的信息，并把日志信息整理成所述用户日志的Query、URL和Id字符串的形式；

步骤(1.1.3).在步骤(1.1.2)的范围内，再利用KMP的字符串匹配算法过滤用户查询中的噪声信息，仅保留直接反映搜索引擎普通用户查询需求行为的内容项；

步骤(1.2).提取查询用户数信息：

对于在设定的最近时间段内用户日志中的用户提交的每一个查询Q，统计提交过该查询Q的用户数，该用户数表示了用户对该查询Q的关注度；

步骤(1.3).常用查询集的筛选：

若：某查询Q在搜索引擎用户日志中其查询用户数小于设定值，则排除在常用查询集合之外；否则，把该查询Q放在常用查询集合S中；

步骤(2).用户点击率信息的提取：

步骤(2.1).单搜索引擎用户点击率的提取：

步骤(2.2).多搜索引擎下用户点击率信息合并，用一个概率表达式P(URL|查询Q)来表示合并后查询Q的结果页面地址URL的用户点击率：

其中，P(SE_i|查询Q)表示在第i个搜索引擎日志SE_i中查询Q的概率，用SE_i查询可信度表示：

P(URL|SE_i，查询Q)表示在搜索引擎日志SE_i中，对于查询Q，用户点击结果页面地址URL的点击率，用步骤(2.1)中所述的方法求出，i＝1，2，...，I，因而P(URL|SE_i，查询Q)取值范围在0～1之间；

步骤(3).利用用户行为信息进行搜索引擎结果改进：

步骤(3.1).用以下两种方法之一对用户点击的结果页面进行筛选，再把结果页面集保存；

固定点击率和法：

对于查询Q，寻找根据搜索引擎用户行为信息的用户点击率最大的前M个页面，该M个页面满足以下条件：连续前M个页面合并后的用户点击率之和大于0.8，但连续前M-1个页面的合并后的用户点击率之和小于0.8，而且该M个页面的用户点击率都大于0.1；

固定结果页面数法：

对于查询Q，寻找用户点击率最大的连续前n个页面：该n个页面对应的用户点击率都大于0.1，且n≤3；

步骤(3.2).搜索引擎原始检索结果的获取：

对于查询Q，将其提交给指定的搜索引擎得到该搜索引擎的检索结果序列；

步骤(3.3).基于用户行为信息的检索结果合并：

当用户向指定搜索引擎提交查询Q进行查询时，根据步骤(3.2)得到搜索引擎原始结果序列SEQ，同时提交给步骤(3.1)根据用户日志信息确定的结果页面集合中查询得到结果页面序列LOG，按如下方法合并该两个序列，将最终结果返回给用户：

按用户点击率大小依次取序列LOG中的每一个结果页面，放入最终返回结果页面集，至取完为止；再取序列SEQ中的每一个结果页面，放入最终返回结果页面集，至取完为止，若最终返回结果页面集中已经存在该结果页面，则不再取该结果页面。