CN105512224A

CN105512224A - 基于光标位置序列的搜索引擎用户满意度自动评估方法

Info

Publication number: CN105512224A
Application number: CN201510857213.0A
Authority: CN
Inventors: 陈烨; 刘奕群; 许静芳; 张阔; 茹立云; 张敏; 马少平; 汪萌; 洪日昌
Original assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2016-04-20

Abstract

本发明涉及一种基于用户行为模式的搜索满意度自动评估方法，属于信息检索领域，该方法包括：获取用于搜索满意度自动评估的搜索引擎查询日志；对获取的两种搜索引擎查询日志进行预处理；从处理后的搜索引擎查询日志挖掘出用于满意度自动评估的光标位置序列；对满意度评估分类器进行训练；将不包含满意度反馈信息的搜索引擎查询日志输入到该分类器中，分类器的输出即为搜索满意度自动评估结果。本发明方法通过对用户在搜索过程中的交互日志的分析，对比被用户反馈为“满意”和“不满意”的搜索引擎查询日志中所体现出的光标位置序列差异，挖掘出可以高效区分用户不同满意程度的光标位置序列，以达到对搜索满意度进行自动评估的目的。

Description

基于光标位置序列的搜索引擎用户满意度自动评估方法

技术领域

本发明属于信息检索领域，特别是涉及一种基于搜索引擎用户的交互行为分析、挖掘的搜索满意度自动评估方法。

背景技术

搜索引擎是一种提供网络信息服务的计算机系统，它包括计算机网络、计算机硬件系统以及在硬件系统上运行的软件程序三个部分。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。

目前，绝大多数搜索引擎提供服务的方式是通过关键词查询的方式实现的，即用户利用网页浏览器访问搜索引擎网站，并提交反映自己查询需求的关键词(通常为几个字、词)；搜索引擎系统继而反馈互联网络上与用户查询相关的结果列表。结果列表通常是一系列网络页面或通过计算机网络可以获取的文件，并按照搜索引擎计算的与用户查询相关程度的大小排序，相关程度高的页面(或文件)排在列表中比较靠前的位置。

使用搜索引擎进行查询的过程可以看作：用户向系统输入以关键词表示的查询需求，系统输出与查询需求相关的网页(或文件)列表。搜索引擎通过被称为网络蜘蛛的网页获取装置收集互联网页面和文件并建立索引，进而通过查询装置处理用户查询，并反馈结果列表，达到满足用户查询需求的效果。

为了改进系统性能，记录运行情况等原因，绝大多数搜索引擎都会记录用户与搜索引擎进行交互的行为日志，这种日志一般被称为搜索引擎查询日志。查询日志通常记录的内容包括：用户使用搜索引擎的时间、用户提交的查询词、用户点击了哪些结果、这些结果在搜索引擎里的排序如何等。通过在搜索引擎后台的具体实现，还可以记录更加细粒度的用户交互信息，例如用户鼠标移动的位置，悬停的位置，滚动条滑动的时间位置等信息。

由于搜索引擎具有海量的用户数量，查询日志的规模也十分巨大，Google公司在2008年7月时，每日处理的用户查询需求数就达到2亿次以上，这意味着其对应的查询日志条目数每日要达到近十亿条(每个用户查询对应的用户结果点击平均为4-5次)。

由于查询日志是在不影响用户正常使用的情况下完成记录的，因此具有客观、真实保存用户与搜索引擎交互情况的作用。当前，来自研究领域和产业界的相当数量的研究者使用查询日志在搜索引擎算法改进、服务质量监控、社会舆情热点分析等方面进行了大量的研究。而微软、美国在线、搜狐等国内外公司也通过各种形式共享了部分查询日志，以便产业界和学术界各方面人员共同对这些资源进行分析与利用。

性能评价作为检索系统改进排序算法、检测困难查询、优化查询系统的重要依据和保障，一直是信息检索领域关注的热点。Cranfield评价体系是搜索引擎评价方面的经典研究框架，该体系通过给定的标准查询输入下系统输出与标准输出的差异来衡量检索系统的性能好坏。然而，随着文本检索技术和网络搜索引擎的发展与普及，传统的以“文档—查询”相关性标注为主要依据的Cranfield评价体系在实际应用中体现出了越来越多的局限性，对搜索引擎性能的评价模式也变得越来越多样化，对搜索引擎的满意度评估就是其中的一个重要的研究方向。搜索满意度被定义为用户完成特定需求或目的的程度，是从搜索引擎用户的角度直接给出的对使用搜索引擎的体验过程的满意程度的评价。对搜索满意度的评估结果能够为搜索引擎商业运营带来最直观的性能描述，也因此受到搜索产品研发人员和搜索广告商的高度重视。

如何合理的利用用户与搜索引擎的交互信息实现大规模的自动化评估与度量是搜索满意度评估研究所面临的一项重要挑战。借助用户标定或者标注者标定的策略，搜索引擎可以收集到对于部分用户搜索过程的满意度评估结果，但由于人力资源成本的限制，纯人工标注的方式无法推广到大规模的真实应用场景，仅能在必要范围内提供满意度性能的参考。现有的研究工作表明，以点击为主的交互类信息可以在预测用户满意度上取得较好的效果，其中Guo等人于2012年提出的基于细粒度交互特征的预测方法和Jiang等人于2015年提出的一种基于“收益-成本”框架的评估方法都取得了非常好的效果。但随着商业搜索引擎的不断发展，以点击为主要特征的预测模型已无法满足当前真实的搜索环境。当搜索结果中广泛存在富媒体展现形式(以图片、视频等形式展现的结果)和多模态交互形式(如搜索结果列表中整合的汇率计算、航班查询等功能)的结果时，用户往往无需进行点击交互即可获得所需信息，这就导致了基于点击交互特征的满意度预测模型在实际过程中往往难以获得充分的点击信息以进行满意度评估，从而不能高效应用。

鼠标移动模式的概念由Lagun等人于2014年首次提出，被定义为一定长度的光标位置序列。光标位置序列体现的是用户在查询过程中的鼠标移动过程，例如在某个结果摘要上横向移动的光标轨迹可以反映用户阅读该结果的浏览行为，而杂乱地遍布整个搜索结果页面的光标移动轨迹很可能暗示用户在寻找相关结果时遇到了困难。光标位置序列包含了用户在搜索过程中与搜索引擎的交互细节，如果合理利用，将有助于我们评估用户的搜索满意度。

Lagun等人提出一种在大规模数据中快速提取光标位置序列的方法，他们从每个搜索结果所链接到的页面(landingpage)上抽取光标位置序列，并从中选择出现频率最高的那些光标位置序列，以此推断用户的意图和偏好，从而进行结果的相关性预测和排序，并发现引入光标位置序列会对现有的用于结果相关性预测和排序的模型带来效果提升。但是，Lagun等人并没有提出如何将光标位置序列的概念应用到搜索满意度的自动评估上，同时，他们的方法是从landingpage上抽取光标位置序列，这样的数据收集方式难度较大，会对搜索引擎服务器带来负担。

发明内容

本发明的目的是针对已有的对搜索满意度评估算法的不足，提出基于光标位置序列的搜索引擎用户满意度自动评估方法。该方法通过对用户在搜索过程中的交互日志的分析，对比被用户反馈为“满意”和“不满意”的搜索引擎查询日志中所体现出的光标位置序列差异，挖掘出可以高效区分用户不同满意程度的光标位置序列，以达到对搜索满意度进行自动评估的目的。

一种基于用户行为模式的搜索满意度自动评估方法，其特征在于，该方法包括以下步骤：

1)获取用于搜索满意度自动评估的两种搜索引擎查询日志：通过搜索引擎网络服务器得到的含有查询词、用户标识、时间戳、光标屏幕坐标信息的搜索引擎查询日志，该搜索引擎查询日志不包含用于搜索满意度自动评估的满意度反馈；预先邀请一定数目的用户进行预定目标的搜索任务并对每个搜索任务进行满意度评价，通过搜索引擎网络服务器收集这些用户所完成的搜索任务所对应的包含查询词、用户标识、时间戳、光标屏幕坐标信息的搜索引擎查询日志，该搜索引擎查询日志同时还包含每一位用户对自己完成的每一个搜索任务给出一个包含“满意(SAT)”，或者“不满意(DSAT)”的满意度反馈信息，用于光标位置序列的抽取；

2)对步骤1)获取的两种搜索引擎查询日志进行预处理：具体包括：

2.1)进行搜索引擎查询日志编码转换：将服务器记录的编码格式转换成国家标准汉字编码的GBK格式；

2.2)利用字符串匹配技术过滤搜索引擎查询日志中的噪声信息；

3)从处理后的搜索引擎查询日志挖掘出用于满意度自动评估的光标位置序列；具体包括：

3.1)构建光标位置序列备选集合：

设定由N个位置坐标构成的光标位置序列T，则有其中(x_i,y_i)为t_i时刻光标在屏幕上的位置坐标；设定一个滑动窗口的长度，记为L，用滑动窗口从每一个搜索引擎查询日志所记录的所有光标位置坐标中截取出所有长度为L的光标位置序列，将从所有被用户标记为满意(SAT)的搜索引擎查询日志(SAT_DATA)中获得的光标位置序列作为备选集合M_SAT，从所有被标记为不满意(DSAT)的搜索引擎查询日志(DSAT_DATA)中获得的光标位置序列作为备选集合M_DSAT；

3.2)对光标位置序列备选集M_SAT和M_DSAT中的每个备选光标位置序列进行归一化：

对光标位置序列备选集合中的每一个备选光标位置序列做的转换，其中分别是该备选光标位置序列的x,y坐标的均值；

3.3)光标位置序列筛选

采用“基于距离差异”或“基于分布差异”的方法从归一化后的光标位置序列备选集合M_SAT和M_DSAT集合中筛选出评估能获得理想的评估效果的一定量的光标位置序列，用于后续满意度自动评估；

“基于距离差异”的筛选方法，具体方法：为每一个备选光标位置序列计算一个评分Score_distance，对于M_SAT中的每个备选光标位置序列C_SAT，计算评分Score_distance公式为：

{Score}_{d i s \tan c e} (C_S A T) = \frac{Σ_{C_{i} &Element; M_D S A T} D T W (C_S A T, C_{i})}{| M_D S A T |} - - - (1)

其中C_i表示光标位置序列备选集合M_DSAT中的一个备选光标位置序列，DTW(C_SAT,C_i)表示两个备选光标位置序列C_SAT和C_i的DTW距离,|M_DSAT|表示光标位置序列备选集合M_DSAT中光标位置序列的个数；

对于M_DSAT中的备选光标位置序列C_DSAT，计算评分Score_distance公式为：

{Score}_{d i s \tan c e} (C_D S A T) = \frac{Σ_{C_{i} &Element; M_S A T} D T W (C_D S A T, C_{i})}{| M_S A T |} - - - (2)

公式(2)中的C_i表示光标位置序列备选集合M_SAT中的一个备选光标位置序列，DTW(C_DSAT,C_i)表示两个备选光标位置序列C_DSAT和C_i的DTW距离,|M_SAT|表示光标位置序列备选集合M_DST中光标位置序列的个数；

对所有备选光标位置序列的评分由大到小排序，然后依次挑选出评分最高的前50-500个光标位置序列，作为光标位置序列集合M，用于后续满意度自动评估；

“基于分布差异”的筛选方法，具体方法，判断先定义一个光标位置序列C与某个搜索引擎查询日志S的距离，用于判断一个光标位置序列是否能覆盖一个搜索引擎查询日志：

Dist(C,S)＝min{DTW(C_i,C)|C_i∈S}(3)

公式(3)中的C_i表示用长度为L的滑动窗口从S中截取到的光标位置序列；

再定义光标位置序列C在SAT_DATA或DSAT_DATA搜索引擎查询日志集合D上的覆盖率CoverRate(C,D)：

C o v e r R a t e (C, D) = \frac{| {\frac{| D | D i s t (C, S_{i})}{Σ_{S_{i} &Element; D} D i s t (C, Σ)} < r | S_{i} &Element; D} |}{| D |} - - - (4)

公式(4)中的r为覆盖的阈值；

最后定义一个备选光标位置序列在两类数据SAT_DATA和DSAT_DATA上的覆盖率的比值，作为该光标位置序列的分布差异得分：

{Score}_{d i s t r i} (C_S A T) = \frac{C o v e r R a t e (C_S A T, S A T_D A T A)}{C o v e r R a t e (C_S A T, D S A T_D A T A)} - - - (5)

{Score}_{d i s t r i} (C_D S A T) = \frac{C o v e r R a t e (C_D S A T, D S A T_D A T A)}{C o v e r R a t e (C_D S A T, S A T_D A T A)} - - - (6)

对于M_SAT中的备选光标位置序列C_SAT，按照公式(5)计算得分，而对于M_DSAT中的备选光标位置序列C_DSAT，按照公式(6)计算得分；在计算出所有备选光标位置序列的评分以后，按照评分由大到小进行排序，然后依次筛选出评分最高的前50-500个光标位置序列，作为光标序列集合M，用于后续满意度自动评估；

4)对满意度评估分类器进行训练：

将收集到的包含用户满意度反馈的数据SAT_DATA和DSAT_DATA作为训练数据集；对训练数据集中的每一个搜索引擎查询日志S，对于集合M中的每一个光标位置序列m_i，按照公式(3)计算距离Dist(m_i,S)作为特征，若M中有n个光标位置序列，则S可以获得一个n维的特征向量，将用户的满意度反馈作为预测目标，训练一个满意度分类器；

5)搜索满意度自动评估：

对于在不包含满意度反馈的搜索引擎查询日志，按照公式(3)，计算集合M中每一个光标位置序列与搜索引擎查询日志的距离，获得一个n维的特征向量，然后输入到满意度分类器中，该分类器的输出即为搜索满意度自动评估结果。

本发明的特点及有益效果：

本发明方法通过对搜索引擎查询日志的分析，抽取用户进行查询时在搜索结果页面上的光标位置序列等交互信息，从中挖掘高质量的光标位置序列。用户进行搜索时，在不同满意程度的页面上所呈现的光标位置序列可能不同，利用挖掘得到的光标位置序列，可以对用户的搜索满意度进行自动评估。

与传统的满意度自动评估方法不同，本发明所基于的数据资源是用户在搜索过程中的光标位置序列，在几乎所有的搜索引擎查询日志中都可以大规模低成本地获取。同时，与Lagun等在搜索结果所链向的结果页上挖掘光标位置序列进行结果相关性预测的方法不同，本发明从搜索结果页面上直接挖掘光标位置序列，这使得本发明在搜索引擎端可以更加方便地实现，而不需要去获取搜索结果所链向的其他网页上的信息，本发明也进一步提出采用“基于距离差异”和“基于分布差异”的光标位置序列挖掘方法，相比Lagun提出的基于频率的挖掘方法，可以更高效地获得高质量的光标位置序列，并能对搜索满意度进行更精准地评估。本发明所采用的方法可以更加方便地大规模地实现和应用。

附图说明

图1为本发明的搜索满意度自动评估方法流程框图；

图2为本发明与已有的光标位置序列筛选方法的搜索满意度评估能力比较曲线图。

具体实施方式

本发明提出一种基于用户行为模式的搜索满意度自动评估方法，结合附图及实施例说明如下：

本发明提出的一种基于用户行为模式的搜索满意度自动评估方法实施例总体流程如图1所示,包括以下步骤：

1)获取用于搜索满意度自动评估的两种搜索引擎查询日志：通过搜索引擎网络服务器得到的含有查询词、用户标识、时间戳、光标屏幕坐标信息的搜索引擎查询日志，该搜索引擎查询日志不包含用于搜索满意度自动评估的满意度反馈；预先邀请一定数目的用户进行预定目标的搜索任务并对每个搜索任务进行满意度评价，通过搜索引擎网络服务器收集这些用户所完成的搜索任务所对应的包含查询词、用户标识、时间戳、光标屏幕坐标信息的搜索引擎查询日志(一般至少邀请30位用户，每位用户至少进行30个搜索任务，这样至少可以获得30×30＝900搜索引擎查询日志)，这些搜索引擎查询日志同时还包含每一位用户对自己完成的每一个搜索任务给出一个包含“满意(SAT)”，或者“不满意(DSAT)”的满意度反馈信息，用于光标位置序列的抽取；

表1给出了本实施例中两部分搜索引擎查询日志所应包含内容的具体信息。

表1用于搜索满意度自动评估的搜索引擎查询日志所包含的内容

2.1)进行搜索引擎查询日志编码转换：将服务器记录的编码格式(通常为通用资源标志符即URI格式)转换成国家标准汉字编码的GBK格式；

2.2)利用字符串匹配技术过滤搜索引擎查询日志中的噪声信息，噪声信息包括违禁查询词、某些在线商品推广使用的查询词等；

3.1)构建光标位置序列备选集合：

设定由N个位置坐标构成的光标位置序列T，则有其中(x_i,y_i)为t_i时刻光标在屏幕上的位置坐标；设定一个滑动窗口的长度(一般为3-5秒)，记为L(即光标位置序列的时间跨度)，用滑动窗口从每一个搜索引擎查询日志所记录的所有光标位置坐标中截取出所有长度为L的光标位置序列，将从所有被用户标记为满意(SAT)的搜索引擎查询日志(SAT_DATA)中获得的光标位置序列作为备选集合M_SAT，从所有被标记为不满意(DSAT)的搜索引擎查询日志(DSAT_DATA)中获得的光标位置序列作为备选集合M_DSAT；

(为了将注意力集中在光标位置序列的形状特征上，排除位置属性的影响)对光标位置序列备选集合中的每一个备选光标位置序列做的转换，其中分别是该备选光标位置序列的x,y坐标的均值；

3.3)光标位置序列筛选

采用“基于距离差异”或“基于分布差异”的方法从归一化后的光标位置序列备选集合M_SAT和M_DSAT集合中筛选出评估能获得理想的评估效果的一定量(具体数量可以根据数据集合大小以可使用的计算资源多少酌情选择，本实施例测试了采用从1个到500个光标位置序列时的满意度评估效果，发现随着所使用的光标位置序列数量的上升，评估效果也会提升，但效果的提升会逐渐趋于稳定，综合考虑算法的效率，采用100个光标位置序列即能获得理想的评估效果)的光标位置序列，用于后续满意度自动评估，

(基于距离差异的筛选方法基于差异性假设：M_SAT中的具有强区分度的光标位置序列应与M_DSAT中的光标位置序列具有足够大的差异，M_DSAT中的具有强区分度的光标位置序列也应与M_SAT中的光标位置序列具有足够大的差异。)具体方法：为每一个备选光标位置序列计算一个评分Score_distance，对于M_SAT中的每个备选光标位置序列C_SAT，计算评分Score_distance公式为：

{Score}_{d i s \tan c e} (C_S A T) = \frac{Σ_{C_{i} &Element; M_D S A T} D T W (C_S A T, C_{i})}{| M_D S A T |} - - - (1)

其中C_i表示光标位置序列备选集合M_DSAT中的一个备选光标位置序列，DTW(C_SAT,C_i)表示两个备选光标位置序列C_SAT和C_i的DTW距离(DTW距离算法，即DynamicTimeWarping，动态时间规整算法，是一种计算两个时间矢量相似度的方法),|M_DSAT|表示光标位置序列备选集合M_DSAT中光标位置序列的个数；(直观地，该公式表示计算某一个M_SAT中的光标位置序列与M_DSAT中所有光标位置序列的平均距离作为其评分)；

{Score}_{d i s \tan c e} (C_D S A T) = \frac{Σ_{C_{i} &Element; M_S A T} D T W (C_D S A T, C_{i})}{| M_S A T |} - - - (2)

对所有备选光标位置序列的评分由大到小排序，然后依次挑选出评分最高的前50-500个(可以是其他合适的值，本实施例取100个)光标位置序列，作为光标位置序列集合M，用于后续满意度自动评估；

(基于分布差异的筛选方法基于覆盖性假设：M_SAT中的具有强区分度的光标位置序列应当覆盖足够多的M_SAT集合中的SAT_DATA和足够少的DSAT_DATA，M_DSAT中的光标位置序列应该覆盖足够多的DSAT_DATA和足够少的SAT_DATA。)具体方法，判断先定义一个光标位置序列C与某个搜索引擎查询日志S的距离，用于判断一个光标位置序列是否能覆盖一个搜索引擎查询日志：

Dist(C,S)＝min{DTW(C_i,C)|C_i∈S}(3)

公式(3)中的C_i表示用长度为L的滑动窗口从S中截取到的光标位置序列(直观来看，即用C与搜索引擎查询日志S所包含的所有光标位置序列的距离的最小值作为C与S的距离)；

再定义光标位置序列C在某一搜索引擎查询日志集合D(即SAT_DATA或DSAT_DATA)上的覆盖率CoverRate(C,D)：

C o v e r R a t e (C, D) = \frac{| {\frac{| D | D i s t (C, S_{i})}{Σ_{S_{i} &Element; D} D i s t (C, S_{i})} < r | S_{i} &Element; D} |}{| D |} - - - (4)

公式(4)中的r为覆盖的阈值(其作用是保证筛选出数量合适的光标位置序列)，一般取左右；(直观而言，认为当C与搜索引擎查询日志集合D中的某个搜索引擎查询日志S_i的距离小于阈值时，即为覆盖了S_i。)

{Score}_{d i s t r i} (C_S A T) = \frac{C o v e r R a t e (C_S A T, S A T_D A T A)}{C o v e r R a t e (C_S A T, D S A T_D A T A)} - - - (5)

{Score}_{d i s t r i} (C_D S A T) = \frac{C o v e r R a t e (C_D S A T, D S A T_D A T A)}{C o v e r R a t e (C_D S A T, S A T_D A T A)} - - - (6)

对于M_SAT中的备选光标位置序列C_SAT，按照公式(5)计算得分，而对于M_DSAT中的备选光标位置序列C_DSAT，按照公式(6)计算得分；在计算出所有备选光标位置序列的评分以后，按照评分由大到小进行排序，然后依次筛选出评分最高的前100个光标位置序列，作为光标序列集合M，用于后续满意度自动评估；

4)对满意度评估分类器进行训练

在通过步骤3)中的筛选方法获得用于满意度自动评估的光标位置序列集合M后，将收集到的包含用户满意度反馈的数据SAT_DATA和DSAT_DATA作为训练数据集。对数据集中的每一个搜索引擎查询日志S，对于集合M中的每一个光标位置序列m_i，按照公式(3)计算距离Dist(m_i,S)作为特征，这样若M中有n个光标位置序列，则S可以获得一个n维的特征向量，将用户的满意度反馈(满意SAT，或不满意DSAT)作为预测目标，训练一个满意度分类器(分类器可以是支持向量机(SVM)、逻辑回归(LogisticRegression)、迭代决策树等机器学习领域常用的分类模型)。

5)搜索满意度自动评估

在步骤4)获得满意度评估分类器后，对于在不包含满意度反馈的搜索引擎查询日志，按照公式(3)，计算集合M中每一个光标位置序列与搜索引擎查询日志的距离，获得一个n维的特征向量，然后输入到满意度分类器中，分类器的输出即为搜索满意度自动评估结果。

为了验证发明的有效性和可靠性，本发明方法进行了搜索满意度自动评估的相关实验。邀请了75位大学低年级学生参与实验，每人完成30个搜索任务。这些同学都来自生命科学、经济管理、法学等院系，并没有来自信息学院的可能对搜索引擎的使用非常熟悉的同学，具有很好的代表性。将他们在完成查询任务过程中的信息以及满意度反馈按照表1的形式整理成搜索引擎查询日志。在这些数据上进行五折交叉验证，采用迭代决策树作为分类模型，测试本发明的满意度评估效果。

图2给出了不同光标位置序列筛选策略下，对搜索满意度的预测效果。图中横轴表示满意度自动评估过程中所使用的光标位置序列的数量，纵轴是满意度的评估正确率，带菱形的折线所示为采用Lagun提出的基于频率的筛选方法挖掘到的光标位置序列的评估效果，带正方形的折线和带三角形的折线则分别是采用本发明所提出的基于距离差异和基于分布差异的筛选方法所挖掘到的光标位置序列的评估效果。从图中呈现的满意度评估正确率上看，本发明使用的基于距离差异和基于分布差异的筛选方法要远优于基于频率的筛选方法。

表2更加详细地列出了在使用基于分布差异的筛选方法时，光标位置序列对搜索满意度的自动评估效果。为了进行比较，实现了当前国际上用于搜索满意度评估的两种非常先进的方法，分别是Guo等人于2012年提出的方法和由Jiang等人于2015年提出的方法。同时对数据集进行了三种采样方式，分别是随机采样：随机地对数据进行训练集和测试集的划分；按用户采样：来自同一个用户的搜索引擎查询会话只能要么出现在训练集中，要么出现在测试集中；按查询采样：来自相同查询任务的搜索引擎查询会话只能要么出现在训练集中，要么出现在测试集中。后两种采样方法能很好地测试本发明对于未知用户和未知查询的搜索引擎查询会话的满意度自动评估能力。同时，也在两种不同的搜索结果页面上测试满意度的评估效果，即只含普通查询结果的页面和带有垂直结果的页面，其中普通查询结果即现在搜索引擎结果页面最常见的结果形式，通常是一个带有超链接的内容标题再加上一段文字摘要，而垂直结果则指近期在搜索引擎上大量涌现的一些以图片、视频等不同于普通文字形式呈现的搜索结果，相关研究表明这样的结果会对用户行为造成较大的影响，所以针对这两种搜索结果页面，分别测试了满意度评估效果。

表2中的数据代表满意度评估的准确率，括号中的数字代表引入光标位置序列后，组合特征的方法相比原有的方法的效果提升百分比。从表中可以看到，无论是在只含普通搜索结果的页面还是带有垂直结果的页面上进行满意度评估，本发明的基于搜索引擎查询会话的满意度评估方法都可以获得更高的评估正确率，并且如果将光标位置序列整合到现有的满意度评估方法中去，则可以获得非常显著的效果提升。与此同时，当对数据按用户或按查询采样时，基于光标位置序列的方法的评估效果并不会有明显的下滑，说明这种方法对于未知用户、未知查询的搜索体验的满意度评估具有非常好的泛化能力。

表2光标位置序列的满意度自动评估效果

Claims

1.一种基于用户行为模式的搜索满意度自动评估方法，其特征在于，该方法包括以下步骤：

1)获取用于搜索满意度自动评估的两种搜索引擎查询日志：通过搜索引擎网络服务器得到的含有查询词、用户标识、时间戳、光标屏幕坐标信息的搜索引擎查询日志，该搜索引擎查询日志不包含用于搜索满意度自动评估的满意度反馈；预先邀请一定数目的用户进行预定目标的搜索任务并对每个搜索任务进行满意度评价，通过搜索引擎网络服务器收集这些用户所完成的搜索任务所对应的包含查询词、用户标识、时间戳、光标屏幕坐标信息的搜索引擎查询日志，该搜索引擎查询日志同时还包含每一位用户对自己完成的每一个搜索任务所给出的一个包含“满意(SAT)”，或者“不满意(DSAT)”的满意度反馈信息，用于光标位置序列的抽取；

3.1)构建光标位置序列备选集合：

3.3)光标位置序列筛选

{Score}_{d i s \tan c e} (C_S A T) = \frac{Σ_{C_{i} &Element; M_D S A T} D T W (C_S A T, C_{i})}{| M_D S A T |} - - - (1)

{Score}_{d i s \tan c e} (C_D S A T) = \frac{Σ_{C_{i} &Element; M_S A T} D T W (C_D S A T, C_{i})}{| M_S A T |} - - - (2)

“基于分布差异”的筛选方法具体方法，判断先定义一个光标位置序列C与某个搜索引擎查询日志S的距离，用于判断一个光标位置序列是否能覆盖一个搜索引擎查询日志：

Dist(C,S)＝min{DTW(C_i,C)|C_i∈S}(3)

C o v e r R a t e (C, D) = \frac{| {\frac{| D | D i s t (C, S_{i})}{Σ_{S_{i} &Element; D} D i s t (C, S_{i})} < r | S_{i} &Element; D} |}{| D |} - - - (4)

公式(4)中的r为覆盖的阈值；

{Score}_{d i s t r i} (C_S A T) = \frac{C o v e r R a t e (C_S A T, S A T_D A T A)}{C o v e r R a t e (C_S A T, D S A T_D A T A)} - - - (5)

{Score}_{d i s t r i} (C_D S A T) = \frac{C o v e r R a t e (C_D S A T, D S A T_D A T A)}{C o v e r R a t e (C_D S A T, S A T_D A T A)} - - - (6)

4)对满意度评估分类器进行训练：

5)搜索满意度自动评估：