CN1963816A

CN1963816A - 一种搜索引擎性能评价的自动化处理方法

Info

Publication number: CN1963816A
Application number: CN 200610144289
Authority: CN
Inventors: 刘奕群; 张敏; 金奕江; 马少平
Original assignee: Tsinghua University
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2006-12-01
Filing date: 2006-12-01
Publication date: 2007-05-16
Anticipated expiration: 2026-12-01
Also published as: CN100440224C

Abstract

本发明属于互联网信息处理领域，其特征在于：它首先从搜索引擎用户访问日志中提取出用户的查询信息，在此基础上对用户查询进行分类；随后，对于不同类型的用户查询，根据用户访问日志中的用户点击信息进行自动分析，得出对应这些查询的用户点击焦点；最后对待评价搜索引擎的查询结果进行抓取，并根据用户查询的对应点击焦点对查询结果进行评价，得到搜索引擎性能的数值评价结果。它具有不需要人工参与，准确客观和快捷及时的优点。

Description

一种搜索引擎性能评价的自动化处理方法

技术领域

本发明属于互联网信息处理领域，特别是涉及一种基于用户行为分析、挖掘的搜索引擎性能评价的自动化处理方法。

背景技术

1.搜索引擎的定义与结构

搜索引擎是一种提供网络信息服务的计算机系统，它包括计算机网络、计算机硬件系统以及在硬件系统上运行的软件程序三个部分。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。

目前，绝大多数搜索引擎提供服务的方式是通过关键词查询的方式实现的，即用户利用网页浏览器访问搜索引擎网站，并提交反映自己查询需求的关键词(通常为几个字、词)；搜索引擎系统继而反馈互联网络上与用户查询相关的结果列表。结果列表通常是一系列网络页面或通过计算机网络可以获取的文件，并按照搜索引擎计算的与用户查询相关程度的大小排序，相关程度高的页面(或文件)排在列表中比较靠前的位置。

使用搜索引擎进行查询的过程可以看作：用户向系统输入以关键词表示的查询需求，系统输出与查询需求相关的网页(或文件)列表。搜索引擎通过被称为网络蜘蛛的网页获取装置收集互联网页面和文件并建立索引，进而通过查询装置处理用户查询，并反馈结果列表，达到满足用户查询需求的效果。

2.搜索引擎的性能评价技术

搜索引擎的性能评价一直受到产业界和研究人员的广泛关注：对于搜索引擎服务供应商而言，性能评价是进一步提高检索服务质量的必要辅助手段；对于一般企业而言，性能评价关系到企业互联网广告投放的有效性问题；对于一般用户而言，性能评价的结果则会对他们使用搜索引擎的行为产生明确的引导作用，从而又对搜索引擎的用户量变化产生影响。总之，公允、准确、全面、客观的搜索引擎性能评价会得到广泛的社会群体关注，并具有很强的引导作用。

由于搜索引擎系统很大程度上属于网络信息检索系统的范畴，因此主流研究人员应用传统的信息检索评价方法来评测搜索引擎的性能。在信息检索评价方法中，评测用查询集合以及对应这些查询的标准答案集合是不可或缺的两个因素。而传统评测方法中，这两者的确定都需要耗费大量的人力劳动。相比较而言，由于查询集合的规模一般在几百到几千，因此可通过搜索引擎日志或者用户调研的方式进行，难度相对较低，但如何确定有充分代表性的查询集合也是需要深入研究的课题。

真正造成搜索引擎评测困境的是查询标准答案的确定，由于搜索引擎的检索对象可以认为是互联网数据集合全体，考虑到互联网页面浩瀚的数量，确定与这些查询集合相对应的标准答案集合则完全不可能单纯由手工完成。

当前解决这一问题的主要思路来自于由美国国家标准技术研究所(NIST)组织的文本检索会议(Text retrieval conference，TREC)，TREC从1992年创立之初就将促进大规模文本信息检索的研究作为其首要目的，通过每年组织各种形式的检索评测，TREC积累了丰富的对大规模文本信息检索系统的评价经验，其核心技术被称为结果池过滤技术(pooling)。

结果池过滤技术的施行步骤如下：

1.根据数据规模的大小，选择适当的查询答案集合规模N。

2.对于某个查询主题，利用若干检索技术(T₁，T₂，...，T_i)对大规模文档集合进行检索，并分别得出各自的查询答案集合(RC₁，RC₂，...，RC_n)，其中|RC_i|＝N，(i＝1，2，...，n)。

3.构建结果池，pool＝RC₁∪RC₂∪…RC_n。

4.对上述结果池进行过滤，利用手工评价结果池中的文档是否与查询主题相关

经过过滤的结果池中的文档，就可以视作此主题的相关文档集合。TREC在应用结果池过滤技术构建相关文档集合方面积累了相当丰富的经验：检索的数据对象从纯文本集合到真实的网络数据集合，而数据规模则从较小规模(1-2G)到大规模(20G)再到超大规模(500G)，然而无论文档集合、查询任务的变化如何，结果池过滤技术构建出的相关文档集合还是能够得到广泛的认可，TREC的评测结果也始终具有较高的公信力。国内从2003年开始，也逐渐开始进行针对搜索引擎系统的相关评测，而所采用的构建标准答案集合的方法，也基本沿用了结果池过滤方法。

尽管结果池过滤技术在现有的搜索引擎评测中被普遍应用，但其缺点也是明显的，尽管手工标注的工作量被大大减少了，但大规模的评测依然难以操作，而手工标注带来的标注人员主观影响也仍然很难避免。尽管TREC的评测语料库规模在1000万文档左右，而评测查询集合的规模一般仅在200个左右，NIST仍需要花费几个月的时间以及组织几十名评测人员对标准答案进行标注。这对于大规模(语料规模超过10亿文档)、及时(每周或每几天反馈一次)的网络搜索引擎评测和性能变化趋势分析是远远不够的。

除结果池过滤技术之外，对于某些特定种类的用户需求而言，还可以利用已有的网络信息资源自动寻找相关文档集合。美国在线公司的Chowdhury在就研究了利用开放目录计划(ODP，Open Directory Project，一个利用志愿者标注网络资源的项目)自动查找导航类查询目标页面的可能性。由于导航类查询目标页面的唯一性，这种尝试得到了成功，但由于缺乏相应的网络资源，对于目标页面集合较大的查询需求而言，这种自动定位不可能得到广泛的应用。

IBM Haifa研究院的研究人员提出的基于相关词项集合(Term Relevant Set，TRELS)方法的评测方法一定程度上能够缓解上述两类评价方法带来的问题。该方法选取一部分有代表性的用户查询，并组织评测人员选取网络上通常用来描述这些用户查询词的词项，这些词项组成相关词项集合。在评测过程中，一个网页如果包括较多的相关词项，则可以认为是检索的标准答案。通过这个方法，评测算法避免了在每次评价时组织手工文档相关度标注的繁琐操作，从而能够及时地反馈评价结果。但这个方法本身也难以克服手工标注相关词项的主观性、以及标注人员的不一致问题，而且利用相关词项集合评价文档相关度这一假设的可靠性也值得商榷。

3.搜索引擎查询分类体系

将查询(Query)进行分类不是最近几年才出现的新想法，但真正比较可行的分类方式却是经过了很长时间的讨论和综合才得到的。现在一般认为比较合适的分类是：搜索引擎的分类分为导航类检索(Navigational search)和信息事务类检索(Informational & trasactionalsearch)两类。这两类检索的分类标准，则是用户是否有一个确定的查找目标页面。

对于导航类检索而言，用户有一个确定的查找目标，这个目标的获知，或者来自于以前的浏览经历，或者来自于道听途说。总之，他想要浏览这个页面，但却记不起或不知道这个页面的地址(URL)，因此需要搜索引擎的帮助。典型的例子为这样的查询(摘自Baidu的查询瞬时风向标)：“上海市虹口区政府”、“中国签证网”、“国家环保总局”、“德国大使馆商务签证表”等等。

而对于信息事务类检索而言，用户没有一个确定的查找目标，它查找的目的，是为了获得关于某个主题的信息，或者想要享受某种类型的服务(如软件下载，购买商品等)。典型的例子为(同样摘自Baidu的查询瞬时风向标)：“FIFA2004游戏下载”、“现代企业制度的形式”、“农村党员队伍状况”等。

在考虑搜索引擎评价技术的实施时，必须对这两类查询主题进行不同的处理，这是由于此两类查询对应的查询目的、检索方法、评价指标等都有较大的不同，分别进行评价有利于评价搜索引擎不同方面的检索性能优劣。

发明内容

本发明的目的是针对已有方法的不足，提出基于用户行为分析的搜索引擎评价方法。该方法利用搜索引擎用户查询、点击行为的宏观分析，自动挑选适用于搜索引擎评价的查询集合，并进一步自动定位对应这些查询的标准答案。由于挑选查询集合和标准答案的过程由计算机自动完成，因此可以及时、准确、客观的反映搜索引擎的真实性能。该方法的具体内容描述如下：

1.从评价算法设计的角度，搜索引擎的用户查询可以依据用户的查询目标页面是否唯一这一标准分为两类：导航类查询(查询目标唯一)以及信息类查询(查询目标不唯一)；

2.依照用户点击次数以及对不同排序结果点击的集中程度等因素，利用机器学习算法把用户查询自动分类成导航类查询和信息类查询；

3.依照用户查询频率、结果点击等因素，自动筛选出适合充当评价用查询集合的查询，这些查询应该具备代表用户需求、有较明确答案等特点；

4.针对查询集合中的导航类查询与信息类查询，分别利用用户点击集中程度等因素自动标注其标准答案；

5.根据以上自动筛选的查询集合和标注的答案集合对不同搜索引擎(不限于提供用户日志的搜索引擎)的查询答案进行评测，评测指标等因素可以采用平均精度、前n位结果精度等传统信息检索指标。

本发明的特征在于：

它是在计算机上完成的，依次含有如下步骤：

步骤1.评价用查询集合的筛选和分类

步骤1.1数据预处理

搜索引擎评价使用的查询集合是来自于搜索引擎用户日志，对于某个搜索引擎的用户日志而言，它至少应该包括如下内容才能用于提取评价用查询集合：

表1供评价使用的搜索引擎用户日志包括的内容

名称

记录内容

记录位数(Bit)

Query	用户提交的查询	256
Query	用户提交的查询	256	URL	对应这个查询用户点击的结果地址	256
Rank	URL在返回结果中按照搜索引擎计算的与用户查询相关程度的大小的排名	4	URL	对应这个查询用户点击的结果地址	256
Rank	URL在返回结果中按照搜索引擎计算的与用户查询相关程度的大小的排名	4	Id	由系统自动分配的用户标识号，某个用户某次使用搜索引擎时即会被自动分配一个不同的标识号。	32

一般搜索引擎服务提供商都可以很容易的通过搜索引擎网络服务器得到以上信息，从而保证了本方法的可行性。对用户日志进行预处理的步骤包括：

步骤1.1.1进行用户日志编码转换，将服务器记录的编码格式(通常为通用资源标志符即URI格式)转换成国家标准汉字编码的GBK格式。

步骤1.1.2利用表1中列出的内容项对用户日志进行整理，去除表1内容项之外的信息，并将日志整理成以上内容项字符串的形式。

步骤1.1.3利用字符串匹配技术过滤用户查询中的噪声信息，包括违禁查询词、某些在线商品推广使用的查询词等，仅保留直接反映搜索引擎普通用户查询需求与行为的内容项。

经过数据预处理过程，我们可以从搜索引擎原始用户日志中提取以上内容，并应用于方法的以下步骤。

步骤1.2提取“前N位结果满足用户需求率”信息

通过表1提供的用户查询和点击信息，我们可以计算针对某个查询的“前N位结果满足用户需求率”，即只需点击前N位搜索引擎返回的网页结果就满足其信息需求的用户比例。对于某个查询Q而言，具体的计算公式是：

其中，“查询Q的总用户数”可以通过对查询Q的不同Id计数得到，而“查询Q时用户都点击了哪些排序的结果”则可以通过对查询Q的不同Id对应的Rank得到，进而也可以对“查询Q时只点击前N个结果的用户数”进行统计。

按照其定义，由于“查询Q时只点击前N个结果的用户”必然是“查询Q的用户”的一部分，因此“前N位结果满足用户需求率”的取值范围必然在0至1之间。

步骤1.3提取“前N次点击满足用户需求率”信息

与步骤1.2类似，通过表1提供的用户查询和点击信息，我们可以计算针对某个查询的“前N次点击满足用户需求率”，即只需对搜索引擎返回的结果进行小于或等于N次点击就满足其信息需求的用户比例。对于某个查询Q而言，具体的计算公式是：

其中，“查询Q的总用户数”可以通过对查询Q的不同Id计数得到，而“查询Q时用户的点击数”则可以通过对查询Q的不同Id对应的用户点击数得到，进而也可以对“查询Q时只点击不足N次的用户数”进行统计。

按照其定义，由于“查询Q时点击次数小于或等于N次的用户”必然是“查询Q的用户”的一部分，因此“前N次点击满足用户需求率”的取值范围必然在0至1之间。

步骤1.4提取“用户点击集中度”信息

与步骤1.2和1.3类似，我们可以通过表1提供的用户查询和点击信息计算针对某个查询的“用户点击集中度”，即针对某个查询用户对于搜索引擎返回结果点击的集中程度。对于某个查询Q而言，我们可以首先定义“用户点击最集中的查询答案”为：针对Q的查询中，被不同用户点击的次数最多的查询答案URL。

则对于Q的“用户点击集中度”具体计算公式是：

其中，“查询Q用户的总点击数”可以通过对查询Q的用户点击计数得到，而“用户点击最集中的查询答案被点击的次数”则可以通过对查询Q时“用户点击最集中的查询答案”的用户点击计数得到，进而也可以对“用户点击集中度”进行统计。

按照其定义，由于“用户点击最集中的查询结果被点击的次数”必然小于或者等于“查询Q用户的总点击数”，因此“用户点击集中度”的取值范围必然在0至1之间。

步骤1.5待评测查询分类

利用步骤1.2-1.4计算出的“前N次点击满足用户需求率”、“前N位结果满足用户需求率”和“用户点击集中度”，可以根据如下统计规律(如附图2所示)判定某个用户查询Q属于“导航类查询”还是“信息类查询”。

若：Q的“前5位结果满足用户需求率”取值在0.6至1.0之间，则Q初步判定为“导航类查询”。

若：Q的“前5位结果满足用户需求率”取值在0至0.6之间，但“前2次点击满足用户需求率”取值在0.9至1之间，则Q初步判定为“导航类查询”。

否则：Q初步判定为“信息类查询”

为求得更准确地分类判定结果，对以上初步判定的结果进行修正，即

若：Q的“用户点击集中度”取值在0.5至1.0之间，则Q判定为“导航类查询”；

若：Q的“用户点击集中度”取值在0至0.2之间，则Q判定为“信息类查询”；

否则：Q的初步判定结果保持不变。

步骤1.6确定评测用查询集合

按照以下规则挑选用于评测的查询集合S：

若：某个查询Q的在搜索引擎日志中被不同用户查询的次数小于50次，则排除在S之外。

若：某个查询Q是信息类查询，对于Q，如果“用户点击最集中的五个查询结果”对应的“用户点击集中度”之和小于0.8，则排除在S之外。

对于不属于以上任何一个限制条件的Q的集合，依据计算机运算处理能力的高低选择300-500个左右的查询进入S。依据已有的大规模信息检索系统评测工作，这个规模的查询集合具有较好的代表性，能够起到较为可靠的评价作用。

步骤2.导航类/信息类查询答案的自动标注

步骤2.1导航类查询答案的自动标注

对于依照步骤1挑选出的导航类查询，记为Q(NAV)。则按照如下规则标注Q(NAV)对应的标准答案：

对于Q(NAV)，其“用户点击集中度”最大的网页即是其标准答案。

按照步骤1.5的挑选规则，所有Q(NAV)对应的“用户点击集中度”都大于0.5，这表示“用户点击集中度”最大的网页有且仅有一个，以此保证导航类查询答案的唯一性。

步骤2.2信息类查询答案的自动标注

对于依照步骤1挑选出的导航类查询，记为Q(INF)。则按照如下规则标注Q(INF)对应的标准答案：

对于Q(INF)，其“用户点击集中度”最大的连续前M个网页即是其标准答案，其中M满足：从“用户点击集中度”最大的网页开始，连续前M个网页的“用户点击集中度”之和大于0.8，但连续前M-1个网页的“用户点击集中度”之和小于0.8。

依照步骤1.6的要求，M应当不大于5，这保证了信息类查询答案的数目处于一个合理的范围内。

步骤3.搜索引擎结果的抓取与过滤

步骤3.1针对指定查询词的搜索引擎结果页面抓取

对步骤1挑选出的待评测查询集合S中的每一个查询词Q，需要对搜索引擎结果页面进行抓取，以便进一步获得搜索引擎针对Q的查询结果条目。

抓取搜索引擎结果页面的方法是：

首先选用一种互联网网页抓取程序，如Linux平台下的公开源代码工具wget，Windows平台下的免费软件FlashGet等。以便利用这个工具对对应URL的网页进行抓取。这些程序使用时，都具有用户提供网页URL地址，程序下载对应网页并保存的特性。

其次根据Q的不同，利用模式替换的方式生成对应Q的搜索引擎结果页面的URL。不同搜索引擎结果页面URL记录Q的方式不同。但搜索引擎都需要在URL中记录Q以便向服务器传递Q的信息。如Baidu搜索引擎对应Q的结果页面URL是http://www.baidu.com/baidu？wd＝Q；Google搜索引擎对应Q的结果页面URL是http://www.google.cn/search？q＝Q；而Sogou搜索引擎对应Q的结果页面URL就是http://www.sogou.com/web？query＝Q。由于待评测搜索引擎的数目不多，因此可以针对不同搜索引擎，在浏览器中进行一些样例查询的搜索。根据样例查询与搜索引擎结果页面URL的对应关系，获得搜索引擎结果页面自动生成URL的规律。

最后，利用计算机网络和运行在计算机上的软件程序，调用互联网网页抓取程序，自动抓取待评测查询集合S中的每一个查询词Q对应的查询结果页面并加以保存。

步骤3.2搜索引擎结果页面中结果条目的抽取

通过步骤3.1，可以获得每一个待评测搜索引擎对应待评测查询集合S中的每一个查询词Q的查询结果页面。对这些结果页面，可以利用模式匹配的方法获得其中的查询结果条目。

由于搜索引擎的查询结果页面都是通过脚本语言自动生成，因此可以根据其HTML文本发现查询结果的组织规律，进而利用这个规律和模式匹配的方法实现结果提取。

例如：对于Baidu搜索引擎而言，查询结果条目就是记录在如下格式中的：

对于Google搜索引擎，其结果条目记录格式如下：

<p class＝g><a class＝l href＝″查询结果URL″target＝_blank

而对于Sogou搜索引擎，其查询结果条目记录格式如下：

<a class＝″ff″href＝″查询结果URL″onclick＝″itmclk

由于待评测搜索引擎的个数不多，因此可以针对不同搜索引擎，在浏览器中进行一些样例查询的搜索。根据样例查询的结果条目与搜索引擎结果页面中HTML内容的对应关系，获得搜索引擎结果页面自动生成查询结果页面的规律，并把这个规律用计算机程序的方式记录下来。

利用记录了搜索引擎结果页面组织规律的计算机程序，即可以针对待评测查询集合S中的每一个查询词Q，获得不同搜索引擎对应Q的查询结果条目。

步骤4.根据标准答案的搜索引擎结果评测

对步骤3获得的搜索引擎对应S中查询的结果条目，以及步骤1标注的对应S中查询的标准答案，对搜索引擎的查询性能进行评价。评价的主要指标包括如下几种：

1.平均检索精度(Average Precision，AP)：应用于导航类和信息类查询评测。

AP = \frac{1}{K} Σ_{i = 1}^{K} Precision (i),

其中

平均检索精度用来评价搜索引擎的综合性能(既包括信息类检索性能，也包括导航类检索性能)，式子中的K表示标准答案的数目，而Precision(i)则是系统找到第i个答案时返回结果的精确度(匹配标准答案的结果数/总结果数)。例如一个query有2个标准答案，分别在第3位和第5位返回，则我们系统对于这个query的AP就是0.5*(1/3+2/5)＝36.67％。AP对于各个用户查询进行平均，就是平均检索精度，这个指标可以用于对两类查询主题中任何一类的评测。

2.排序倒数(Reciprocal Rank，RR)：应用于导航类查询评测。

RR = \frac{1}{Rank {(1)}^{,}}

其中Rank(1)表示第1个标准答案出现的排序值

排序倒数RR是指出现第一个标准答案的排序倒数，这个指标主要用于导航类检索的评测。值得注意的是，标准答案出现在前列的结果被给予一个很高的评价，把标准答案返回在第一位，则RR＝100％，返回在第2位，则RR下降到50％。另外，当只有一个标准答案时，RR＝AP。

3.前10位结果精度(Precision@10)：应用于信息类查询评测。

前10位结果精度是指搜索引擎返回的前10个结果对应的精确度。实际的应用背景就是看搜索引擎返回的的第一页结果(因为大多数搜索引擎返回的每个结果页面都包含10个结果)有多高的Precision，它比较适用于信息事务类检索的评价。

利用以上三个指标，可以给出待评测搜索引擎处理不同类型查询的绝对性能与横向比较结果，从而实现搜索引擎的性能评价。

为了验证本发明的有效性和可靠性，我们进行了性能评测的相关试验。

从运行效率上讲，当程序运行硬件环境为1.8G主频CPU、1G内存与100MLAN网络时，计算机在进行搜索引擎性能评价时处理400个查询所需的时间约为2个小时。这比较原有人工评价方式耗时几周到几个月才能进行性能评价反馈的做法有了很大的提高。

从评价的正确性上讲，经过与一定量手工标注结果的比照(81个信息类查询、152个导航类查询及它们对应的标准答案)，自动标注结果的准确率如下：信息类查询自动标注准确率为72％，而导航类查询自动标注准确率为91％。表2列出了部分标注结果：

表2：部分标注结果

查询类别	查询词	自动标注结果页面URL
查询类别	查询词	自动标注结果页面URL	信息类	交通管理局	http://www.bjjtgl.gov.cn
河南移动公司	http://www.ha.chinamobile.com/			交通管理局	http://www.bjjtgl.gov.cn
河南移动公司	http://www.ha.chinamobile.com/	北斗		http://www.139shop.com/
导航类	天气预报	北斗		http://www.139shop.com/	http://weather.sina.com.cn/
		http://www.nmc.gov.cn			http://weather.sina.com.cn/
		http://www.nmc.gov.cn	http://weather.news.sohu.com/
		http://www.weathercn.com/	http://weather.news.sohu.com/
		http://www.weathercn.com/	火车时刻表	http://train.long369.com/
	http://train.tielu.org/			http://train.long369.com/
	http://train.tielu.org/	http://www.huoche.com.cn/

利用从sogou公司获取的2006年2月份搜索引擎用户日志，经过对部分著名中文搜索引擎的性能比较，我们发现，两种类型自动评价的结果与手动评测的结果基本相同：

表3：手工评测结果与搜索引擎自动评测结果的比较

	手工评测结果(对查询集合的答案进行手工标注)		利用搜索引擎日志自动标注答案进行的评价结果
	手工评测结果(对查询集合的答案进行手工标注)		利用搜索引擎日志自动标注答案进行的评价结果		搜索引擎	导航类(RR/名次)	信息类(P@10/名次)	导航类(RR/名次)	信息类(P@10/名次)
百度	0.931/1	0.669/2	0.842/2	0.576/2	搜索引擎	导航类(RR/名次)	信息类(P@10/名次)	导航类(RR/名次)	信息类(P@10/名次)

搜狗	0.907/2	0.638/3	0.915/1	0.553/3
搜狗	0.907/2	0.638/3	0.915/1	0.553/3	Google	0.893/3	0.679/1	0.801/3	0.587/1
新浪	0.825/4	0.567/4	0.726/4	0.423/4	Google	0.893/3	0.679/1	0.801/3	0.587/1

不仅如此，这个评价与权威机构对用户使用体验的市场调研结果也基本相同(数值关系基本相同，Google与搜狐的排序关系略有差别)：

表4：市场调研结果与搜索引擎自动评侧结果的比较

CNNIC中国搜索引擎市场调查报告给出的“新用户首选的搜索引擎”排序	利用搜索引擎日志自动标注答案进行的评价结果/平均检索精度
CNNIC中国搜索引擎市场调查报告给出的“新用户首选的搜索引擎”排序	利用搜索引擎日志自动标注答案进行的评价结果/平均检索精度	百度	百度/0.206
搜狗	Google/0.185	百度	百度/0.206
搜狗	Google/0.185	Google	搜狗/0.179
新浪	新浪/0.135	Google	搜狗/0.179
新浪	新浪/0.135	其他(3721)	其他(中搜)/0.133

本发明能够自动从搜索引擎日志数据中发现和提取用于搜索引擎自动评价的用户查询，并对这些查询进行分类和答案的自动标注，进而利用对互联网数据的抓取，可以实现搜索引擎的自动评价。模型结构和参数简单，算法复杂度低，在实验测试数据上取得了很好的性能，与手工搜索引擎评测结果和权威机构市场调查结果基本一致。这说明本发明具有较好的推广性和适应性，对搜索引擎性能的评价具有客观、可靠、全面的特点，具有良好的应用前景。

附图说明

图1.搜索引擎自动评价方法流程图；

图2.预处理后的日志组织结构图；

图3.查询分类算法流程图；

图4.待评测用户查询集合挑选流程图；

图5.查询答案自动标注：

5a.导航类查询答案标注；5b.信息类查询答案标注。

具体实施方式

附图1描述了本方法的流程。本发明对于评价各种搜索引擎性能具有广泛的适应性，但出于描述的方便，下面将以利用Sogou网站的搜索引擎日志评价Baidu搜索引擎检索性能为例，就以上方法详细进行说明：

1.数据预处理

所使用的日志包括了搜狗搜索引擎在2006年2月1日至2006年2月28日的28天时间内的所有查询。其中，非空查询共45,745,985个，非重复的非空查询共4,345,557个。日志中包括的信息有：

表5：Sogou搜索引擎日志包含的信息项

名称	记录内容
名称	记录内容	query	用户提交的查询
URL	用户点击的结果地址	query	用户提交的查询
URL	用户点击的结果地址	time	用户点击发生时的日期、时间
rank	该URL在返回结果中的排名	time	用户点击发生时的日期、时间
rank	该URL在返回结果中的排名	order	用户点击的顺序号(这是用户点击的第几个页面)
id	由系统自动分配的用户标识号	order	用户点击的顺序号(这是用户点击的第几个页面)
id	由系统自动分配的用户标识号	submitter information	浏览器信息，计算机信息

以上日志信息中包含了足够的用于搜索引擎自动评价的信息项，因此可以利用这个日志进行各中文搜索引擎的性能评价。

搜索引擎日志的数据预处理包括：对原始搜索引擎日志进行统一编码(日志中记录的一般是UTF-8编码，需要统一转换为GBK编码统一分析处理)，过滤无用信息(仅保留搜索引擎自动评价所需的信息项)，统一计算搜索引擎各个查询的“用户查询量”、“前5位结果满足用户需求率”、“前2次点击满足用户需求率”、对应这个查询的各个结果URL的“用户点击集中度”等操作。

经过数据预处理的搜索引擎日志统一成如附图2的格式，依次记录了查询词、查询词对应的“用户查询量”、“前5位结果满足用户需求率”、“前2次点击满足用户需求率”信息，以及此查询词对应的N个用户点击结果的URL和它们对应的用户点击集中度信息。

2.待评测查询集合筛选

可以依据附图4的步骤对用户查询进行筛选，挑选出适用于搜索引擎自动评价的查询集合Q，其中查询分类的操作需要依照附图3的决策树方式进行。

其具体步骤是：

1.对每个日志中出现的查询，首先根据其用户查询量进行筛选，如果总的查询次数少于50，则认为这个查询没有足够的宏观用户点击行为信息，无法用户搜索引擎的自动评价。根据对我们所使用的sogou日志进行分析后发现，用户查询次数大于100的查询超过3万个，而用户在这部分查询上的总点击次数占到全部点击次数的70％左右，这与前人的一些研究结果相同，即搜索引擎中，较少数量的查询被反复查询，占据了大多数的搜索引擎服务时间。

2.对查询依据用户查询量进行筛选后，即按照图3的决策树方式对其进行分类操作。由于导航类查询具有查询目标页面单一的特点，而搜索引擎系统对于导航类查询的查询性能一般也比较高(对80％的查询能将正确结果返回在第一位)；因此导航类查询的“前2次点击满足用户需求率”和“前5个结果满足用户需求率”比较高也是可以预见的。认为这两个标准比较高的查询属于导航类查询也就是合理的。而由于导航类查询的歧义性较小，不同用户的查找目标相对固定，因此其“用户点击集中度”自然也比较高。利用决策树形式将三个特征加以综合，就得到了图3所示的分类方法。输入查询后，依据这三个特征就可以将其分类为导航类查询或信息类查询。根据我们利用手工标注结果进行的评测，这个算法的分类准确率和召回率都在80％以上，能够较好的满足下一步性能评测算法的需要(如表6所示)。

表6：查询分类算法的性能

	训练集			测试集
	训练集			测试集			信息类	导航类	综合	信息类	导航类	综合
	精确率	76.00％	91.07％	87.65％	73.74％	85.62％	信息类	导航类	综合	信息类	导航类	综合	81.49％
召回率	精确率	76.00％	91.07％	87.65％	73.74％	85.62％	66.67％	90.71％	85.25％	72.83％	86.18％	81.54％	81.49％

3.查询分类结束后，需要依据查询种类的不同对用户查询进行进一步的筛选，这是出于控制查询对应的答案页面数量，选取答案页面相对较为集中的查询用于评测。对于导航类查询，由于其“用户点击集中度”都超过0.5，而其对应的答案页面一般仅有一个，所以可以简单的把这个“用户点击集中度”最大的页面作为答案页面。对于信息类查询，则需要进行答案页面数量的控制，根据对信息类检索算法的已有研究，一个典型的此类查询所对应的答案页面一般在4-5个，因此规定只有“用户点击集中度”最大的前5位结果所对应的“用户点击集中度”之和大于0.8，即超过80％的用户点击集中在这5个(或更少数目)的结果上时，我们才认为这个信息类查询对应的答案页面比较集中，可以用于搜索引擎评测。

经过上述3个步骤，即可筛选出待评测查询集合。经过筛选后，一个月的用户日志中有2637个信息类查询和793个导航类查询进入了待评测查询集合。

3.用户查询对应答案的自动标注

导航类查询答案的自动标注可以参见图5a所示的流程，对导航类查询词Q而言，它的标注过程就是挑选出其用户点击焦点页面的过程，由于按照分类方法，导航类查询有且仅有一个结果页面对应的“用户点击集中度”大于0.5，因此这个挑选焦点的过程又可以简化为找出“用户点击集中度”大于0.5的页面的过程，一旦找出这个页面，算法就可以结束。

信息类查询答案的自动标注可以参见图5b所示的流程，按照筛选方法，只有“用户点击集中度”最大的前5位结果所对应的“用户点击集中度”之和大于0.8的信息类查询才会被挑选出来。这就意味着，如果我们选取“用户点击集中度”之和大于0.8的前N位结果，N一定小于或者等于5。这保证了我们至多选取5个页面作为信息类查询的标准答案页面。

利用“用户点击集中度”进行答案标注的合理性在于：“用户点击集中度”记录了页面被用户关注的程度，这个数值较大的页面是用户在进行某个查询时的点击焦点，也是关注焦点。而海量搜索引擎用户的宏观行为，能够很大程度上反映页面的内容质量及其与查询在语义上的相关性，成为用户关注焦点的页面则必然具有内容上的高质量或者与当前查询具有较大的相关性。

经过答案自动标注后，所有的导航类查询(793个)都有且仅有一个标准答案；而所有的信息类查询(2637个)共被标注了9558个答案，即每个查询对应约3.6个答案。

4.搜索引擎性能评价

经过以上步骤，我们已经选取出了用于评测的查询集合，并标注了对应这些查询的标准答案页面。考虑到计算机、网络系统的实际处理能力以及评测的可靠性，可以选取其中约1/6的查询用于最终的搜索引擎评测操作。

对于每一个待评测查询，可以按如下步骤获取搜索引擎对应的查询结果：

1.抓取搜索引擎对应的查询结果页面。根据搜索引擎网络服务的格式，可以自动生成搜索引擎对应待评测查询结果页面的URL，从而实现页面的抓取。如Baidu搜索引擎的查询结果页面URL就是“http://www.baidu.com/baidu？wd＝查询词”，只要把“查询词”换成待评测查询，就可以对结果页面进行抓取。

2.对搜索引擎返回的结果页面，根据其页面组织形式抽取其中的查询结果URL。由于搜索引擎的查询结果页面都是通过脚本语言自动生成，因此可以根据其HTML文本发现查询结果的组织规律，进而利用这个规律实现结果提取。例如对于Baidu搜索引擎而言，查询结果就是记录在如下格式中的：

3.对不同搜索引擎返回的查询结果序列，按照标准答案对其进行评价。其中平均检索精度(MAP)用于综合性能的评价，平均排序倒数(MRR)用于导航类查询性能的评价，而前十位结果精度(P@10)则用于信息类查询性能的评价。

按照以上步骤，就可以实现搜索引擎性能的自动评价，利用宏观搜索引擎用户的行为客观、可靠的对搜索引擎查询性能进行评价。

Claims

1.一种搜索引擎性能评价的自动化处理方法其特征在于该方法依次含有如下步骤：

步骤(1)评价用查询集合的筛选和分类，搜索引擎服务提供商通过搜索引擎网络服务获得搜索引擎用户日志，其中依次记录了以下表项：用户提交的查询Query、对应这个查询用户点击的结果地址URL、统一标准的资源地址URL按搜索引擎计算的与用户查询相关的程度在返回结果中的排名Rank、当某个用户某次使用搜索引擎时由系统自动分配唯一的用户标识号ID；接着，按以下步骤进行：

步骤(1.1)数据预处理

步骤(1.1.1)该搜索引擎网络服务商进行用户日志编码转换，把该服务器记录的编码格式从URL格式转换成国家标准汉字编码的GBK格式；

步骤(1.1.2)利用字符串匹配技术过滤用户查询过程中的冗余信息和噪声信息，把用户日志的内容整理成内容项字符串；

步骤(1.2)提取“前N位结果满足用户需求率”信息：

取值范围在0到1之间，其中，N为设定值，

“查询Q的总用户数”通过对查询Q的不同Id计数得到，

“查询Q时只点击前N个结果的用户数”则通过对查询Q的不同Id对应的Rank得到；

步骤(1.3)提取“前N次点击满足用户需求率”信息：

取值范围在0到1之间，其中，N为设定值，

“查询Q时点击次数小于或等于N次的用户”通过对查询Q的不同ID对应的用户点击数中只点击不足N次的用户数得到；

步骤(1.4)提取“用户点击集中度”信息：

取值范围在0到1之间；

步骤(1.5)待评测查询的分类：

若：Q的“前5位结果满足用户需求率”取值在0.6至1.0之间，则Q为“导航类查询”，

若：Q的“前5位结果满足用户需求率”取值在0至0.6之间，但“前2次点击满足用户需求率”取值在0.9至1之间，则Q为“导航类查询”，是一种查询目标唯一的查询，

否则：Q为“信息类查询”，是一种查询目标不唯一的查询；

步骤(1.6)确定评测用的查询集合，形成标准答案：

若：某个查询Q在搜索引擎用户日志中被不同用户查询的次数小于50次，则排除在S之外，

若：某个查询Q是信息类查询，对于该查询，如果“用户点击最集中的五个查询结果”对应的“用户点击集中度”之和小于0.8，则排除在S之外；

步骤(2)导航类、信息类查询答案的自动标注：

对于导航类查询Q(NAV)，其“用户点击集中度”最大的网页即是其标准答案，

对于信息类查询Q(INF)，其“用户点击集中度”最大的连续前M个网页即是其标准答案，其中M满足：从“用户点击集中度”最大的网页开始，连续前M个网页的“用户点击集中度”之和大于0.8，但连续前M-1个网页的“用户点击集中度”之和小于0.8；

步骤(3)搜索引擎结果的抓取与过滤：

步骤(3.1)针对指定查询词的搜索引擎结果页面抓取：对步骤1挑选出的待评测查询集合S中的每一个查询词Q，对其搜索引擎结果页面进行抓取，以便进一步获得搜索引擎针对Q的查询结果条目，其步骤依次如下：

步骤(3.1.1)选用一种互联网网页抓取程序；

步骤(3.1.2)根据不同的查询类别，利用模式替换的方式生成对应查询的搜索引擎结果页面的URL，同时，搜索引擎在该URL中记录该查询；

步骤(3.1.3)调用步骤3.1.1中的互联网网页抓取程序，自动抓取待评测查询集合S中的每一个查询词对应的查询结果页面并保存；

步骤(3.2)搜索引擎结果页面中结果条目的抓取，依次含有以下步骤：

步骤(3.2.1)找出形成搜索引擎的查询结果页面的脚本语言中的HTML文本；

步骤(3.2.2)针对不同的搜索引擎，在浏览器中进行一些样例查询的搜索，得到阳历查询的结果条目；

步骤(3.2.3)通过模式匹配的方法，根据样例查询的结果条目与搜索引擎结果页面中HTML文本的对应关系，得到描述由搜索引擎结果页面自动生成查询结果的程序；

步骤(3.2.4)根据步骤3.2.3得到的程序，针对待评测查询集合中的每一个查询词，得到对应的查询结果条目；

步骤(4)根据步骤1.6得到的标准答案进行搜索引擎结果评价，所用的评测指标如下：

A.平均检索精度AP同时应用于导航和信息类查询的评测，评价搜索引擎的综合性能：

AP = \frac{1}{K} Σ_{ι = 1}^{K} Precision (i),

其中，

K表示标准答案的数目，

B.排序倒数RR，用于导航类查询评测：

RR = \frac{1}{Rank (1)},

其中Rank(1)表示第1个标准答案出现的排序值，RR是第1个标准答案的排序倒数；

C.前十位结果精度，用于信息类查询评测，用Precision@10表示：

Precision@10表示搜索引擎返回的前10个结果的精度，在大多数搜索引擎返回的结果页面首页中都包含有10个结果，因此Precision@10也代表了搜索引擎返回的第1页结果的精度。

2.根据权利要求1所述的一种搜索引擎性能评价的自动化处理方法，其特征在于，在步骤(1.5)所述的待评测查询分类中；

若Q的“用户点击集中度”取值在0.5至1.0之间，则Q判定为“导航类查询”，若取值在0至0.2之间，则判定为“信息类查询”，否则，查询Q的初步判定结果保持不变。

3.根据权利要求1所述的一种搜索引擎性能评价的自动化处理方法，其特征在于，在步骤(1.6)确定评测用查询集合S中，对于不属于所述任何一个限制条件的集合S，选择300-500个查询进入集合S。

4.根据权利要求1所述的一种搜索引擎性能评价的自动化处理方法，其特征在于，在步骤(2)所述的导航类查询Q(NAV)中，所有用户点击集中度大于0.5，就表示“用户点击集中度”最大的网页有且仅有一个。