CN1763749A - 分析来自搜索系统的操作数据和其它数据 - Google Patents

分析来自搜索系统的操作数据和其它数据 Download PDF

Info

Publication number
CN1763749A
CN1763749A CNA2005101133124A CN200510113312A CN1763749A CN 1763749 A CN1763749 A CN 1763749A CN A2005101133124 A CNA2005101133124 A CN A2005101133124A CN 200510113312 A CN200510113312 A CN 200510113312A CN 1763749 A CN1763749 A CN 1763749A
Authority
CN
China
Prior art keywords
user
result
search
factor
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005101133124A
Other languages
English (en)
Other versions
CN100481075C (zh
Inventor
B·E·安德森
小F·H·贝尔
J·C·芬格
J·J·马尔斯曼
K·卡那瓦特
M·B·米德兰
P·M·玛罗莱普斯
清水刚
T·D·怀特
Y·张
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1763749A publication Critical patent/CN1763749A/zh
Application granted granted Critical
Publication of CN100481075C publication Critical patent/CN100481075C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种系统分析来自搜索引擎的数据。用户搜索打包器分析用户搜索,将相似的用户搜索组合成用户搜索包。因子发生器考虑用户搜索和相关信息以生成各因子,其中每个因子与来自搜索结果集的特定结果相关。相关性分类器接收各因子并基于各个因子操作以产生对每个结果的判断。度量发生器基于各个因子和各个判断生成度量,且数据合成器将已提取数据格式化到数据库中。

Description

分析来自搜索系统的操作数据和其它数据
技术领域
本发明涉及用于分析数据的系统和方法,该数据包括在诸如用于响应搜索请求的系统的系统操作期间编译的数据。本发明尤其涉及为了包括改进响应和维持系统性能的目的而分析相对较大量的数据的系统和方法。
背景技术
结合诸如典型的搜索引擎,访问该典型搜索引擎的用户通过输入包含一个或多个搜索项的可能带有布尔操作符的搜索串等来请求搜索。作为响应,搜索引擎基于该搜索串来搜索一个或多个数据库,生成一个搜索结果集,并可能以用户可查看的信息页面或信息链接的形式将这些搜索结果返回给请求用户。特别是在信息链接形式的情形中,用户可访问一个或多个链接,以查看与特定搜索结果相关的内容,且如果与搜索结果的一个或多个链接相关联的内容对用户而言是可接受的,则该用户通常继续以任何看起来适当的方式来采用这种可接受的内容。
然而,可能是相反的情形,因为搜索结果中没有内容满足所请求的搜索,搜索结果对用户而言是不可接受的(至少从该用户的角度看来)。在这种情形中,用户可决定输入新的搜索串或修改先前输入的搜索串,并查看基于该新的或经修改的搜索串的来自搜索引擎的搜索结果。可以理解,这样的过程可以搜索对话的形式反复多次直到用户找到可接受的搜索结果或放弃为止。
一般而言,在诸如前述搜索引擎的高质量系统中,来自用户的如在搜索串中提出的每个查询应当准确地映射到表示回答该查询的内容的搜索结果。这种目标对提供好的搜索体验是重要的,并且实际上符合这种目标可显示出以下两者之间的差异:将以新的搜索对话返回该搜索引擎的快乐的满意的用户,和将相反访问另一搜索引擎的愤怒的不满意的用户。
为了实现该目标,已经认识到系统本身应当进行调整或“调谐”以改进响应并保持系统性能。如可以理解的那样,这种调整可主要(但不是只)基于系统操作期间编译的操作数据和其它数据来进行。然而,如果系统特别大,具有较高的通信量等,可用于分析的这种数据量会特别大,因而不易使用并以其它方式显现为难以工作。因此,需要用于分析大量数据,特别是来自搜索系统的大量数据的系统和方法。
发明内容
前述需要至少部分地通过本发明得到了满足,在本发明中提供用于分析来自搜索引擎的数据的系统。该搜索引擎基于从请求用户处接收的查询串来生成一个搜索结果集,其中查询串和搜索结果一起组成用户搜索。搜索结果包括至少一个结果,其中每个结果指向相信与查询串相关的特定内容项。一系列相关用户搜索组成一个对话,并且搜索引擎存储每个用户搜索及相关信息。
在该系统中,用户搜索打包器(USB)分析用户搜索,以找出这些用户搜索中相似的用户搜索,并将这些相似的用户搜索组成用户搜索包,而意图处理器(IP)基于来自USB的用户搜索包产生意图。每个意图是被认为是彼此相关的一个或多个对话的组合。
因素发生器(FG)考虑用户搜索及相关信息以产生因素,其中每个因素关于来自一个搜索结果集的一个特定结果。每个因素涉及一个或多个事件,其中,每个事件是与查询用户进行的动作有关的一段信息。相关性分类器(RC)接收FG为每个结果生成的因素,并基于它们操作以产生对结果的判断,其中该判断表示对在用户决定访问来自各搜索结果的结果之后用户如何判断该结果的确定。度量发生器(MG)基于由FG生成的因素和由RC生成的判断来产生度量,其中每个度量是有关结果、用户搜索或对话的度量。最后,数据合成器(DS)提取由USB、IP、FG、RC和MG生成的数据,将已提取数据格式化到一个或多个数据库,并将各数据库存储到库中,借此,可查看并聚集数据以提供反馈或生成报告。
附图说明
结合附图阅读前面的发明内容和以下本发明各实施例的详细描述,能得到更好的理解。为了说明本发明,在附图中示出当前优选的各实施例;然而,应理解本发明并不限于所示的精确排列和装置。在附图中:
图1是示出其中可组合本发明各方面和/或各部分的通用计算机系统的框图,以及
图2是根据本发明各实施例示出用于分析来自诸如搜索引擎之类的较大系统的数据的数据分析流水线的框图。
具体实施方式
计算机环境
图1和以下讨论旨在提供一种本发明和/或其部分可在其中实现的适当计算环境的简要一般说明。尽管不是必需的,本发明将在由诸如客户机工作站或服务器的计算机执行的诸如程序模块的计算机可执行指令的一般环境中进行说明。通常,程序模块包括执行特定任务或实现具体抽象数据类型的例程、程序、对象、组件、数据结构等等。此外,本领域技术人员将理解,本发明和/或其部分可在其它计算机系统配置中实践,包括手持式装置、多处理器系统、基于微处理器的或可编程的电器消费品、网络PC、小型计算机、大型计算机等等。本发明还可在任务由经通信网络链接的远程处理装置执行的分布式计算环境中实践。在分布式计算环境中,程序模块可被置于本地和远程存储器存储设备中。
如图1所示,示例性通用计算系统具有常规个人计算机120等,包括处理单元121、系统存储器122以及把包括系统存储器的各种系统组件耦合到处理单元121的系统总线123。系统总线123可能是若干总线结构类型中的任何一种,包括存储器总线或存储器控制器、外围总线、以及使用多种总线体系结构的任一种的局部总线。系统存储器包括只读存储器(ROM)124和随机存储器(RAM)125。含有帮助如启动期间在个人计算机120中元件之间传递信息的基本例程的基本输入/输出系统(BIOS)126被存储在ROM 124中。
个人计算机120还包括读取和写入硬盘(未示出)的硬盘驱动器127、读取或写入可移动磁盘129的磁盘驱动器128、以及读取或写入诸如CD ROM或其它光学介质等可移动光盘131的光盘驱动器130。硬盘驱动器127、磁盘驱动器128和光盘驱动器130分别通过硬盘驱动器接口132、磁盘驱动器接口133和光盘驱动器接口134连接至系统总线123。诸驱动器及其相关联计算机可读介质为计算机120提供计算机可读指令、数据结构、程序模块和其它数据的非易失性储存。
尽管在此所述示例性环境采用了硬盘、可移动磁盘129和可移动光盘131,但本领域技术人员应理解也可在示例性操作环境中使用其它类型计算机可访问的能够存储数据的计算机可读介质。这样的其它类型的介质包括诸如磁带盒、闪存卡、数字视频盘、Bernoulli卡式磁带、随机存取存储器(RAM)、只读存储器(ROM)等等。
包括操作系统135、一个或多个应用程序136、其它程序模块137和程序数据138的众多程序模块,可存储在硬盘、磁盘129、光盘131、ROM 124或RAM 125中。用户可通过诸如键盘140和定位装置142的输入装置把指令和信息输入个人计算机120。其它输入装置(未示出)可包括诸如话筒、操纵杆、游戏垫、卫星接收器、扫描仪等等。这些和其它输入装置常常通过与系统总线相耦合的串行端口接口146连接到处理单元121,但是它也可通过其它接口相连,如并行端口、游戏端口或通用串行总线(USB)。监视器147或其它类型的显示装置也通过诸如视频适配器148的接口和系统总线123相连。除了显示器147,个人计算机通常包括其它外围输出装置(未示出),如扬声器和打印机。图1的示例性系统还包括主机适配器155、小型计算机系统接口(SCSI)总线156、以及与SCSI总线156相连的外部存储装置162。
个人计算机120可以在使用与一台或多台远程计算机,诸如远程计算机149的逻辑连接的网络化环境中运行。远程计算机149可以是另一台个人计算机、服务器、路由器、网络PC、对等装置或其它公共网络节点,而且通常包括上述与个人计算机120相关的许多或全部元件,尽管在图1中仅显示了存储器存储装置150。图1中所描绘的逻辑连接包括局域网(LAN)151和广域网(WAN)152。这样的网络化环境在办公室、企业范围计算机网络、企业内联网和因特网上是常见的。
当用于LAN网络环境中时,个人计算机120通过网络接口或适配器153与LAN 151连接。当用于WAN网络环境中时,个人计算机120通常包括调制解调器154或其它用于在诸如因特网的广域网152上建立通信的装置。可以是内置式或外置式的调制解调器154,与系统总线123通过串行端口接口146相连接。在网络化环境中,所述与个人计算机120相关的程序模块或其一部分,可以存储在远程存储器存储装置中。可以理解,所示网络连接是示例性的,也可以使用其它在计算机之间建立通信连接的装置。
数据分析流水线
作为准备并作为术语,可以理解,结合诸如可结合本发明采用的搜索引擎,每个访问该搜索引擎的用户通过输入包括具有一个或多个搜索项的可能具有布尔算子的搜索串的查询来请求搜索。作为响应,搜索引擎基于该搜索串生成一个搜索结果集(假设这些搜索结果实际上可用的),并将这些搜索结果返回给请求用户。所返回的搜索结果可包括被认为是与搜索请求相关的特定内容项或结果,尽管更可能是相反每个特定结果是通过搜索结果中的相应链接来访问的。
特别地,如果所返回的搜索结果是不可接受的,则用户可用新的搜索串或先前输入的搜索串的修改来输入另一查询串,从而基于该另一查询来产生另一个搜索结果集。然后一系列相关查询组成整个搜索对话,并且该对话有望在用户在搜索结果中找到可接受的结果时结束。
在用户输入查询串并查看搜索结果的过程中,搜索引擎或相关实体可以并常常标识并存储与该对话相关的数据。具体地,除标识该对话之外,搜索引擎或相关实体(此后称为“搜索分析器”)可标识并存储该对话的每个查询串、以及对每个查询串返回的搜索结果等。此外,搜索分析器可对搜索结果的每个返回结果的每个链接标识并存储用户是否借此访问了该结果,以及因此用户花了多长时间来查看该结果等等。因而应当理解,搜索分析器或具有这种信息的另一实体可导出关于用户对每个来自对话的返回搜索结果集有多满意或“愉悦”的定性的(即使是非定量的)度量。
注意,执行前述功能的搜索分析器是众所周知的,或应当对相关人群是显而易见的,因此无需作任何详细阐述。因此,可结合本发明采用任何适当的搜索分析器。
作为形成对话的查询串的组合的一个示例,考虑以下查询串:“Cars”(汽车)、“Fords”(福特)、“FordEdsel”(福特埃德塞尔)、“Cheap Vacations”(便宜的旅行)、和“London trip prices”(伦敦旅行价格)。应当理解,每个查询串是用户在搜索时输入的实际文本。此外,每个查询串产生具有对结果的链接的一个搜索结果集,并可通过搜索分析器使相关数据与之相关联,这些相关数据诸如是否选择了每个链接、查看该结果所花的停顿时间、对于该结果采取的滚动和其它动作、以及其它类似用户动作。
基于所有前述信息,应当理解前三个查询串(即“Cars”、“Fords”、“FordEdsel”)是第一个对话部分,而后两个查询串(即“Cheap Vacations”、“London trip prices”)是第二个对话部分,因为用户显得具有两个不同的意图。这样就应当理解,对话是一组由单个用户在时间上连续作出的具有相同意图或目的的查询串及其相应搜索结果(即用户搜索)。
现在参看图2,可看到本发明假定诸如搜索引擎10的系统用于执行来自冷酷的请求者的请求搜索,并用适当的搜索结果来响应。该搜索引擎10当然可以是任何适当的搜索引擎,而不背离本发明的精神和范围。该搜索引擎10的操作通常是众所周知的或应当对相关人群是显而易见的,因此除非另外提出,否则无需作任何详细阐述。更一般地,系统可以是与搜索引擎10不同的系统,这也不背离本发明的精神和范围。
如在图2中所见,假设与系统/搜索引擎10相连,维护有数据仓库12。可以理解,数据仓库12结合搜索引擎10的操作存储数据,可能包括但不限于由搜索分析器生成的前述数据。可由该数据仓库12存储的这种数据当然可以是任何其它适当的数据而不背离本发明的精神和范围,且类似地数据仓库12及其组织可以是任何适当的数据仓库和组织而不背离本发明的精神和范围。
可以理解,数据仓库12内的数据可无限增长或可周期性地过期并删除。因而,在本发明中,流水线14被用来分析该数据,并且如以下详述,可分析数据仓库12内数据的任何部分,包括全部数据或数据的滑动窗口。可以看到,由流水线14执行的这种数据分析可包括若干组件,每个组件从仓库中取得数据的一部分并在其上操作。在本发明一实施例中,流水线14的输出被置于库16中,同时输出数据组织成诸如关系数据库、多维表格等的形式。因而,用适当的控制,web浏览器上的用户可查看这种经组织的数据并可能还对其进行分析。
可以理解,由流水线14执行的处理提供有关如何使用搜索引擎10的统计数据。此外,并在本发明一实施例中,这种执行过程用来标识用户如何使用搜索引擎10的模式,特别是可提供真正有价值信息的如此之多的模式。
注意仓库12中的数据可高度规格化,特别是因为可以理解规格化这种数据使新数据能以有效方式添加。然而,这种规格化数据在分析之前必须进行解规格化,且相应地数据流水线14可包括解规格器18作为其输入。这种解规格器18可以是任何适当的解规格器并可以任何适当方式操作。这种解规格器18的操作是众所周知的或应对相关人群是显而易见的,因此无需在此作任何详细阐述。
在本发明的流水线14中采用的解规格器18解规格仓库12中的数据,并还可创建解规格化的批数据用于后来的处理。批处理可根据任何适当标准来执行。例如,批数据可以是从上个批数据到达之后的所有数据,其中如果解规格器18每天运行一次则批数据可以是一天的数据。类似地,解规格器18可每周运行一次,但被设置成生成该周内每一小时的批数据。
可见,解规格器18的批数据输出被存储在数据存储器20中,用于由流水线14的其它组件作进一步处理。这种数据存储器20和其中批数据的组织可以是任何适当的存储器和组织,而不背离本发明的精神和范围。如图2所示,采用数据存储器20中批数据的组件可包括用户搜索打包器(USB)、相关性处理器(RP)、意图处理器(IP)、数据合成器(DS)等等。
数据流水线14的用户搜索打包器(USB)分析用户搜索,每个用户搜索是用户在搜索引擎10上调用查询的一个实例,并包括有关查询串和返回搜索结果等的信息。两个调用相同查询串的用户产生两个用户搜索,而调用同一查询串两次的一个用户也可导致两个用户搜索。在本发明一实施例中,USB尝试找出“看起来相像”并因此相似的用户搜索,并将这种相似的用户搜索组合成用户搜索包。USB可用任何适当的方式操作而不背离本发明的精神和范围。操作USB的方法是众所周知的或对相关人群是显而易见的,因此无需在此作任何详细描述。
例如,USB可采用分析查询串的“相似”(Look Alike)算法。例如,如果两个用户都调用“Wilkes-Barre,PA”的搜索,则那些查询串看起来相像。更有趣的是,如果一个用户搜索“duck”而另一个搜索“ducks”(一个复数一个单数),则那两个查询串也因为算法采用词干化、案例规格化、以及其它类似查询压缩技术而“相似”。
然而,USB并不限于分析查询串的相似性。相反,在本发明一实施例中,USB还可采用返回搜索结果分析算法。例如,USB可基于所返回的搜索结果分析算法来推断,即使相应的查询串并非都类似,如果每个用户搜索产生一组类似的搜索结果,则两个用户搜索相似。此外或作为替代,USB可根据内容满意分析算法来推断,如果每个用户搜索产生用户确定为满意的特定片段的内容或结果,则两个用户搜索相似。类似地,USB可基于内容不满分析算法来推断,如果每个用户搜索产生用户确定为不满意的特定内容或结果,则两个用户搜索不相似。
USB的输出可存储在作为打包的用户搜索的数据库的库16中。或者,这种输出可存储回数据存储器20中,以对流水线14的其它组件可用。
本发明的相关性处理器(RP)可再划分成因素发生器(FG)、相关性分类器(RC)和度量发生器(MG)。但是注意,RP的这种再分元件还可独立呈现在本发明的流水线14中,而不组合成RP。
因素发生器(FG)考虑有关用户搜索的信息,并产生因素,其中这些因素作为输入应用于相关性分类器(RC)。每个因素与来自搜索结果集的特定结果相关。因素常常但并非总是通过考虑若干事件而产生,其中每个事件通常是与查询用户执行的动作相关的一段信息。例如,选择特定结果可以是一事件,像结果可被显示、关闭、打印、添加到特定列表、重新打开等。事件还可包括显式的用户反馈(如果有的话)。
然后在本发明一实施例中,FG基于事件计算值。例如,FG可计算作为因素的“停顿时间”,它表示用户查看结果的时间长度,并可基于用户开始和结束查看该结果的时间差来计算,每个时间都由相应的时间标记事件来表示。但是注意,在产生停留时间因素时,FG也可考虑其它事件,包括用户在查看结果时是否被打断,如由其它适当时间标记事件所表示。
由FG生成的另一因素可以是用户是否将结果添加到诸如喜爱列表之类的特定列表的因素。在这种情形中,这种“喜爱”因素被设置为真值。可以理解,基于事件的因素类型可以是任何适当因素而不背离本发明的精神和范围。这种因素是众所周知的,或应当对相关人群是显而易见的,因此无需在此作任何详细阐述。
注意,因素也可来自不同于事件的东西。例如,因素可以是制作该结果的用户的标识符。因而,因素可以是结果的属性。其它因素可包括查询串的所属地区(例如美式英语、加拿大英语、巴西葡萄牙语),并可从用户搜索中的信息中导出。更一般地,因素可由FG或另一元件从可用的任何信息片段中导出,而不背离本发明的精神和范围。
由FG或可能其它地方生成的因素可存储在适当数据库内的库16中。或者,这种因素可存储回数据存储器20以对流水线14的其它组件可用,或可直接传送到这些组件中。
相关性处理器(RP)的相关性分类器(RC)接收由FG和可能其它地方生成的因素。RC是机器生成的决策树,它基于作为输入的接收因素进行操作。在由RP起动之后,RC从数据存储器20或其它地方读取结果的因素,并生成对该结果的判断。一般而言,这种判断是在决定访问来自搜索结果集的结果之后对用户如何判断该结果的确定。
判断可根据任何适当的判断系统来表达,而不背离本发明的精神和范围。例如,判断可以是数字或字母分级记分,可以是“接受”(即用户对结果满意)、“浏览”(即用户对结果既不是满意也不是不满意)、以及“拒绝”(即用户对结果不满意)等。此外,对特定结果的判断还可包括表示该判断有多正确的置信度的值,由RC来确定。
RC和可能其它地方生成的判断可存储在适当数据库内的库16中。或者,这种因素可存储回数据存储器20以对流水线14的其它组件可用,或可直接传送到这些组件中。
为了机器生成RC的决策树,可以是如下情形:RP考虑具有显式判断因素的每个结果。显式判断是表示来自用户的有关结果的显式反馈的一类因素。通过取具有显式判断因素的每个结果并分析该结果的其它可用因素,RP或其它地方的相关性分类器训练器(RCT)能够“学习”什么因素暗示哪些判断并基于这个构建RC。学习因素暗示什么并从中构建RC可用任何适当方式完成,而不背离本发明的精神和范围。这样做是众所周知的,或对相关人群显而易见的,因此无需在此作任何详细阐述。
RP的度量发生器(MG)产生度量,其中度量是有关结果、用户搜索、对话等的度量。一般而言,MG基于由FG和可能其它地方生成的因素、RC生成的判断、以及其它可用的相关信息来产生这种度量。生成这种度量可用任何适当方式完成,而不背离本发明的精神和范围。这样做是众所周知的,或对相关人群显而易见的,因此无需在此作任何详细阐述。
MG可生成以下有关结果的度量:
-接受、浏览、拒绝:每一个都从结果的判断中导出并可包括置信度。
-错误排序结果:对结果距离应当所在的位置有多“远”的度量,这是基于结果在搜索结果内如何放置以及判断用户如何已对该结果排序。
-位置:判断用户如何已对结果排序。
-相关性位置:结果如何在各搜索结果内放置。
MG可生成以下有关用户搜索的度量:
-结果集排序记分:类似于对每个结果生成的错误排序结果度量,但与用户搜索的所有结果相关。该值尝试反映结果集距离应当所在位置有多远。
-经归纳的接受、浏览、拒绝:分别归纳用户搜索中每个结果的所有接受、浏览、拒绝度量。
MG可生成以下有关对话的度量:
-内容量:对话是否显示缺乏用户在搜索什么的可用信息。
-意图确定:对话是否显示出不能确定用户在搜索什么。
由MG和可能其它地方生成的度量可存储在适当数据库内的库16中。或者,这种因素可存储回数据存储器20以对流水线14的其它组件可用,或可直接传送到这些组件中。
流水线14的意图处理器(IP)生成意图,其中每个意图是被认为是因为用户在每个实例中查寻相同搜索结果而彼此相关的一个或多个对话的组合。即,意图是一组共享共同目的的对话。
IP通过考虑每个对话、每个对话的每个用户搜索、以及每个用户搜索的每个结果来生成意图。在本发明一实施例中,并记住具有共同结果的对话可能是相关的,只有具有判断“接受”(Judgement of Accept)的结果才进行研究。然而,也可采用具有其它判断的结果,而不背离本发明的精神和范围。
一般而言,通过基于所查看的用户搜索包在对话上定位共同结果和共同查询项,并确定所发现的共性的强度,IP确定对话之间的关系值。这种强度表示通过具有共同的目的,两个对话有多大可能彼此相关。具有在某一确定阈值之上强度的对话对可由IP打包到一个意图中。
由IP和可能其它地方生成的意图可存储在适当数据库内的库16中。或者,这种因素可存储回数据存储器20以对流水线14的其它组件可用,或可直接传送到这些组件中。
最后,用所有迄今为止生成的数据,流水线14包括从数据存储器12、库20、或其它地方中提取这些数据,并将这些数据格式化到要存储在库20中的一个或多个数据库的数据合成器(DS)。特别是如果不同的组件将数据写入不同的表格、数据库等,这种格式化是必需的。例如,USB可将有关每个用户搜索的数据添加到用户搜索打包表格,且MG可能已经将数据添加到度量表格。因而,DS在适当时将这些表格和其它结合到有意义的表格中,从中可对这些数据进行搜索、聚集、呈现等等。
注意DS可编程为只按需格式化数据的一部分。例如,如果一部分存储数据被认为是没有用的,DS可略去这些数据。或者,DS可将相同的数据复制到多个表格或将数据分到多个表格中。更一般地,DS可编程为将来自流水线14的数据格式化成任何适当格式,而不背离本发明的精神和范围。
在本发明一实施例中,DS将数据格式化到诸如SQL数据库等的关系数据库中。这样,数据可表示为“星”形,其中事实表(fact table)在中间而维表(dimensiontable)在四周。可以理解,通过这样做,事实表和维表可建成诸如OLAP立方体等的数据立方体,它使搜索引擎10的管理员能基于不同标准有效地聚集数据。例如,该管理员可请求该立方体找出存在于某日期范围中的每个对话根据意图来聚集对话的意图确定度量的平均值。类似地,报告可根据该立方体来运行,且其结果可被转发给管理员等。当然,该管理员还可根据该立方体布置大多数任何其它适当的查询,或接收根据该立方体运行的任何其它报告。
结论
本发明可实践关于分析来自搜索引擎10的大多数任何适当系统的数据。应理解,使用在此阐述的本发明,可为任何目的分析系统的数据表示,包括调整或“调节”系统以改进响应、维护系统性能、并以其它方式确保系统在令人满意地运行。
实现结合本发明执行的过程所需的编程是相对简单的,且应当对相关编程人员显而易见。因此,这些程序未附于此。任何具体的编程可用来实现本发明而不背其精神和范围。
在前面的描述中,可以看到本发明包括分析大量数据尤其是来自搜索引擎10等的大量数据的新颖和有用的装置。这种装置在以下情形特别有用:搜索引擎10特别大、具有较高通信量等,且可用来分析的这种数据量特别大,因此不易使用并在其它方面难以工作。
应理解,可对上述实施例作改变而不背离其中发明概念。因此,应理解,本发明并不限于所揭示的特定实施例,而旨在涵盖由所附权利要求定义的本发明精神和范围内的更改。

Claims (18)

1.一种用于分析来自搜索引擎的数据的系统,所述搜索引擎基于从请求用户接收的查询串生成一组搜索结果,所述查询串和所述搜索结果共同包括用户搜索,所述搜索结果包括至少一个结果,每个结果指向被认为是与所述查询串相关的特定内容项,从而一系列相关用户搜索包括一对话,所述搜索引擎存储每个用户搜索和相关信息,所述系统包括:
用户搜索打包器(USB),分析用户搜索以找出这些用户搜索中的相似搜索,并将这些相似用户搜索组合成用户搜索包,
意图处理器(IP),基于来自所述USB的用户搜索包生成意图,每个意图是被认为是彼此相关的一个或多个对话的组合,
因素发生器(FG),考虑用户搜索和相关信息来产生因素,每个因素与来自一组搜索结果的特定结果相关,每个因素与一个或多个事件相关,每个事件是与查询用户所执行的动作相关的一段信息,
相关性分类器(RC),接收由所述FG对每个结果生成的因素,并基于所述因素操作以生成对所述结果的判断,所述判断表示对在用户决定访问来自各搜索结果的结果时,用户如何判断该结果的确定,
度量发生器(MG),基于由FG生成的因素和由RC生成的判断来产生度量,每个度量是有关结果、用户搜索或对话的度量,以及
数据合成器(DS),提取由所述USB、IP、FG、RC和MG生成的数据,将所述已提取数据格式化到一个或多个数据库,并将所述数据库存储到库中,从而可查看并聚集数据以提供反馈或生成报告。
2.如权利要求1所述的系统,其特征在于,所述搜索引擎将每个查询串以及相应搜索结果和相关信息以规格化形式存储在数据仓库中,所述系统还包括一解规格器,它从所述数据仓库检索所述规格化数据、规格化所述数据、并将所述已规格化的数据存储在数据存储器中。
3.如权利要求1所述的系统,其特征在于,为了查询串的相似性和搜索结果的相似性的至少之一,所述USB分析所述用户搜索。
4.如权利要求1所述的系统,其特征在于,每个事件包括当用户执行选择和关闭特定结果的至少之一动作时的时间,且其中所述FG计算表示用户查看结果的时间长度的“停顿时间”因素,所述停顿时间因素基于用户选择和关闭所述结果之间的时间差值,每个时间都由相应的时间标记事件来表示。
5.如权利要求1所述的系统,其特征在于,所述RC生成一判断,包括“接受”判断、“浏览”判断、以及“拒绝”判断以及表示该判断正确有多大可能的置信度的相应值。
6.如权利要求1所述的系统,其特征在于,还包括相关性分类器训练器,它接收来自所述FG的显式判断因素并基于这些因素生成所述RC,每个显式判断因素表示来自用户的有关所述相应结果的显式反馈,所述RCT从所述显式判断因素学习什么因素暗示哪些判断并基于这个生成RC。
7.如权利要求1所述的系统,其特征在于,所述MG生成有关结果的以下至少之一:
位置度量,有关判断用户如何已对所述结果排序,
相关性位置度量,有关结果如何在各搜索结果内放置,以及
错误排序结果度量,有关对结果距离应当所在的位置有多“远”的度量,这是基于所述位置度量和相关性位置度量的。
8.如权利要求1所述的系统,其特征在于,通过基于所查看的用户搜索包在各对话上定位共同结果和共同查询项,所述IP确定对话之间的关系值并确定所发现的共性的强度,这种共性的强度表示通过具有共同的目的两个对话有多大可能彼此相关,所述IP将具有在某些确定阈值之上强度的所述对话对打包到一个意图中。
9.如权利要求1所述的系统,其特征在于,所述DS将所述已抽取数据格式化到关系数据库中。
10.一种用于分析来自搜索引擎的数据的方法,所述搜索引擎基于从请求用户接收的查询串生成一组搜索结果,所述查询字符串和所述搜索结果共同包括用户搜索,搜索结果包括至少一个结果,每个结果指向被认为是与所述查询串相关的特定内容项,从而一系列相关用户搜索包括一对话,所述搜索引擎存储每个用户搜索和相关信息,所述方法包括:
分析用户搜索以找出这些用户搜索中的相似搜索,并将这些相似用户搜索组合成用户搜索包,
基于来自所述USB的用户搜索包生成意图,每个意图是被认为是彼此相关的一个或多个对话的组合,
考虑用户搜索和相关信息来产生因素,每个因素与来自一组搜索结果的特定结果相关,每个因素与一个或多个事件相关,每个事件是与查询用户所执行的动作相关的一段信息,
接收由所述FG对每个结果生成的所述因素,并基于所述因素操作以生成对所述结果的判断,所述判断表示对在用户决定访问来自搜索结果的结果时用户如何判断该结果的确定,
基于由FG生成的因素和由RC生成的判断来产生度量,每个度量是有关结果、用户搜索或对话的度量,以及
提取由所述USB、IP、FG、RC和MG生成的数据,将所述已提取数据格式化到一个或多个数据库,并将所述数据库存储到库中,从而可查看并聚集数据以提供反馈或生成报告。
11.如权利要求10所述的方法,其特征在于,包括将每个查询串以及所述相应搜索结果和相关信息以规格化形式存储在数据仓库中,并且还包括从所述数据仓库检索所述规格化数据、规格化所述数据、并将所述已规格化的数据存储在数据存储器中。
12.如权利要求10所述的方法,其特征在于,为了查询串的相似性和搜索结果的相似性的至少之一,分析所述用户搜索。
13.如权利要求10所述的方法,其特征在于,每个事件包括当用户执行选择和关闭特定结果的至少之一动作时的时间、且其中所述FG计算表示用户查看结果的时间长度的“停顿时间”因素,所述停顿时间因素基于用户选择和关闭所述结果之间的时间差值,每个时间都由相应的时间标记事件来表示。
14.如权利要求10所述的方法,其特征在于,包括生成一判断,它包括“接受”判断、“浏览”判断、以及“拒绝”判断以及表示该判断正确有多大可能的置信度的相应值。
15.如权利要求10所述的方法,其特征在于,还包括接收显式判断因素并基于这些因素生成相关性分类器(RC),所述RC接收对每个结果生成的因素并基于这些因素操作以生成对所述结果的判断,每个显式判断因素表示来自用户的有关所述相应结果的显式反馈,从而可基于这些显式判断因素来学习什么因素暗示哪些判断。
16.如权利要求10所述的方法,其特征在于,包括生成有关结果的以下至少之一:
位置度量,有关判断用户如何已对所述结果排序,
相关性位置度量,有关结果如何在各搜索结果内放置,以及
错误排序结果度量,有关对结果距离应当所在的位置有多“远”的度量,这是基于所述位置度量和相关性位置度量的。
17.如权利要求10所述的方法,其特征在于,包括通过基于所查看的用户搜索包在各对话上定位共同结果和共同查询项,确定对话之间的关系值,并确定所发现的共性的强度,这种共性的强度表示通过具有共同的目的两个对话有多大可能彼此相关,具有在某些确定阈值之上强度的所述对话对被打包到一个意图中。
18.如权利要求10所述的方法,其特征在于,包括将所述已抽取数据格式化到关系数据库中。
CNB2005101133124A 2004-10-20 2005-09-20 分析来自搜索系统的操作数据和其它数据的方法和系统 Expired - Fee Related CN100481075C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/969,567 US20060085401A1 (en) 2004-10-20 2004-10-20 Analyzing operational and other data from search system or the like
US10/969,567 2004-10-20

Publications (2)

Publication Number Publication Date
CN1763749A true CN1763749A (zh) 2006-04-26
CN100481075C CN100481075C (zh) 2009-04-22

Family

ID=35610140

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101133124A Expired - Fee Related CN100481075C (zh) 2004-10-20 2005-09-20 分析来自搜索系统的操作数据和其它数据的方法和系统

Country Status (5)

Country Link
US (1) US20060085401A1 (zh)
EP (1) EP1650676A1 (zh)
JP (1) JP2006120129A (zh)
KR (1) KR101150063B1 (zh)
CN (1) CN100481075C (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100446003C (zh) * 2007-01-11 2008-12-24 上海交通大学 意向驱动的博客搜索以及浏览系统
CN101681368B (zh) * 2007-06-29 2013-07-10 国际商业机器公司 聚集查询处理的方法和装置
CN111954000A (zh) * 2020-07-07 2020-11-17 广西交通设计集团有限公司 一种面向高速收费图片集的无损压缩方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8037042B2 (en) 2007-05-10 2011-10-11 Microsoft Corporation Automated analysis of user search behavior
US7752201B2 (en) * 2007-05-10 2010-07-06 Microsoft Corporation Recommendation of related electronic assets based on user search behavior
WO2009127639A1 (en) * 2008-04-16 2009-10-22 International Business Machines Corporation Query processing visualization system and method of visualizing query processing
US8505056B2 (en) * 2008-07-10 2013-08-06 Apple Inc. Updating properties of remote A/V performance nodes
US8452793B2 (en) * 2008-09-30 2013-05-28 Yahoo! Inc. Query refinement based on user selections
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
US8396857B2 (en) * 2009-08-31 2013-03-12 Accenture Global Services Limited System to modify websites for organic search optimization
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
US20110082839A1 (en) * 2009-10-02 2011-04-07 Foundationip, Llc Generating intellectual property intelligence using a patent search engine
US20110119250A1 (en) * 2009-11-16 2011-05-19 Cpa Global Patent Research Limited Forward Progress Search Platform
CN101699440B (zh) * 2009-11-24 2011-12-07 中国电信股份有限公司 按业务检索的方法及系统
US9098363B2 (en) * 2010-04-07 2015-08-04 Apple Inc. Search extensibility to third party applications
CN102214093B (zh) * 2010-04-07 2016-01-13 苹果公司 向第三方应用的搜索扩展能力
US10102236B2 (en) * 2011-11-15 2018-10-16 Pvelocity Inc. Method and system for providing business intelligence data
US8862726B1 (en) * 2012-04-11 2014-10-14 Narus, Inc. Quantifying privacy leakage in mobile networks

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0822502A1 (en) * 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US5954798A (en) * 1997-10-06 1999-09-21 Ncr Corporation Mechanism for dependably managing web synchronization and tracking operations among multiple browsers
JP2000311176A (ja) 1999-04-28 2000-11-07 Casio Comput Co Ltd データ検索管理装置およびそのプログラム記録媒体
US6546388B1 (en) * 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
JP3327890B2 (ja) 2000-01-25 2002-09-24 正道 赤谷 情報検索装置
US20020073079A1 (en) * 2000-04-04 2002-06-13 Merijn Terheggen Method and apparatus for searching a database and providing relevance feedback
US6745178B1 (en) * 2000-04-28 2004-06-01 International Business Machines Corporation Internet based method for facilitating networking among persons with similar interests and for facilitating collaborative searching for information
US6766320B1 (en) * 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
US7062488B1 (en) * 2000-08-30 2006-06-13 Richard Reisman Task/domain segmentation in applying feedback to command control
US6647383B1 (en) * 2000-09-01 2003-11-11 Lucent Technologies Inc. System and method for providing interactive dialogue and iterative search functions to find information
WO2002037229A2 (en) * 2000-11-02 2002-05-10 Netiq Corporation Method for determining web page loading and viewing times
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance
US6920448B2 (en) * 2001-05-09 2005-07-19 Agilent Technologies, Inc. Domain specific knowledge-based metasearch system and methods of using
US7149732B2 (en) * 2001-10-12 2006-12-12 Microsoft Corporation Clustering web queries
WO2003075186A1 (en) * 2002-03-01 2003-09-12 Paul Jeffrey Krupin A method and system for creating improved search queries
JP4363868B2 (ja) 2002-08-23 2009-11-11 株式会社東芝 検索キーワード分析プログラム及びシステム並びに方法
US6829599B2 (en) * 2002-10-02 2004-12-07 Xerox Corporation System and method for improving answer relevance in meta-search engines
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US7401321B2 (en) * 2003-04-14 2008-07-15 International Business Machines Corporation Method and apparatus for processing information on software defects during computer software development
US20050071328A1 (en) * 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7640232B2 (en) * 2003-10-14 2009-12-29 Aol Llc Search enhancement system with information from a selected source
US7158966B2 (en) * 2004-03-09 2007-01-02 Microsoft Corporation User intent discovery
US7587324B2 (en) * 2004-03-30 2009-09-08 Sap Ag Methods and systems for detecting user satisfaction

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100446003C (zh) * 2007-01-11 2008-12-24 上海交通大学 意向驱动的博客搜索以及浏览系统
CN101681368B (zh) * 2007-06-29 2013-07-10 国际商业机器公司 聚集查询处理的方法和装置
CN111954000A (zh) * 2020-07-07 2020-11-17 广西交通设计集团有限公司 一种面向高速收费图片集的无损压缩方法

Also Published As

Publication number Publication date
KR101150063B1 (ko) 2012-06-01
EP1650676A1 (en) 2006-04-26
KR20060050800A (ko) 2006-05-19
JP2006120129A (ja) 2006-05-11
US20060085401A1 (en) 2006-04-20
CN100481075C (zh) 2009-04-22

Similar Documents

Publication Publication Date Title
CN100481075C (zh) 分析来自搜索系统的操作数据和其它数据的方法和系统
US8756245B2 (en) Systems and methods for answering user questions
CN102142017B (zh) 提供查询建议
US7472113B1 (en) Query preprocessing and pipelining
US7107261B2 (en) Search engine providing match and alternative answer
US8335779B2 (en) Method and apparatus for gathering, categorizing and parameterizing data
CN1171199C (zh) 基于语言模型的信息检索和语音识别
CN102567461B (zh) 用于大文档索引的匹配漏斗
US8255386B1 (en) Selection of documents to place in search index
US7657519B2 (en) Forming intent-based clusters and employing same by search
US20070288421A1 (en) Efficient evaluation of object finder queries
US20120323896A1 (en) Representative document selection for a set of duplicate documents
US20090006387A1 (en) System and method for measuring the quality of document sets
CN1758244A (zh) 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统
WO2006121536A2 (en) Performant relevance improvements in search query results
CN1648899A (zh) 用于文档索引的非频繁字索引
WO2009086233A1 (en) Context-based document search
WO2012154992A2 (en) Systems and methods for performing search and retrieval of electronic documents using a big index
CN1849603A (zh) 提供具有搜索查询拓宽的用户接口
JP2008533596A (ja) 検索結果の関連性の再ランク付けおよびその増強
CN111581479B (zh) 一站式数据处理的方法、装置、存储介质及电子设备
WO2013056192A1 (en) Presenting search results based upon subject-versions
US7765204B2 (en) Method of finding candidate sub-queries from longer queries
US7249122B1 (en) Method and system for automatic harvesting and qualification of dynamic database content
KR20130119031A (ko) 축약된 이슈문장 추출 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090422

Termination date: 20140920

EXPY Termination of patent right or utility model