CN101911061A - 确定层分配的质量 - Google Patents

确定层分配的质量 Download PDF

Info

Publication number
CN101911061A
CN101911061A CN2008801232314A CN200880123231A CN101911061A CN 101911061 A CN101911061 A CN 101911061A CN 2008801232314 A CN2008801232314 A CN 2008801232314A CN 200880123231 A CN200880123231 A CN 200880123231A CN 101911061 A CN101911061 A CN 101911061A
Authority
CN
China
Prior art keywords
layer
inquiry
indication
assembly
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2008801232314A
Other languages
English (en)
Other versions
CN101911061B (zh
Inventor
M·比连科
M·A·芒森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101911061A publication Critical patent/CN101911061A/zh
Application granted granted Critical
Publication of CN101911061B publication Critical patent/CN101911061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文描述了一种方法,包括接收用户历史数据和生成用于将可搜索数字项存储在分层存储系统中的层分配的质量的指示,其中该指示至少部分地基于用户历史数据的子集。本文还描述了一种系统,包括接收用户历史数据的接收器组件。该系统还包括确定用来存储可通过查询检索的数字项的层分配的质量的指示的质量指示器组件,其中该质量指示器组件至少部分地基于用户历史数据的子集生成该指示并且该层分配指示数字项要被存储在分层存储系统中的哪里。

Description

确定层分配的质量
背景
搜索引擎使用户能够通过因特网快速访问信息。具体而言,用户可以向搜索引擎提交查询并细察该搜索引擎所返回的排名结果。例如,用户可以向搜索引擎提供查询“Spider(蜘蛛)”,并且被提供了与各种蛛形纲动物相关的网页、与汽车相关的网页、与电影相关的网页、与web爬行器相关的网页、以及其他网页。搜索引擎可被用来向查询的发起者返回图像、学术论文、视频、以及其他信息。
搜索引擎的操作可包括采用web爬行器来定位和存储可在万维网上获得的大量信息(例如,网页)。例如,与其相关的网页或信息可以存储在搜索引擎索引中,该索引在接收到查询时使用(结合一个或多个搜索算法)。
常规上,搜索引擎索引存储在若干层中,其中不同的层提供不同级别的性能。搜索引擎索引的分层与在计算机体系结构中使用的存储器分层结构类似:索引的总体存储容量在不同的级别之间划分,这些级别在大小、速度、等待时间、以及成本方面各异。索引的较高层通常具有较高速度但具有较小容量和较高成本。因此,仔细地索引网页以最大化搜索引擎的效率是合乎需要的。
一种已经使用的用于将网页分层的方式是根据网页的由某一度量(如该网页的静态排名)确定的相对重要性来选择在其中放置该网页的索引的一层。具体而言,到一网页的链接的数量可被用来选择在其中定位该网页的索引的一层。然而,页面的相对重要性不一定指示该页面是否被经常访问,并且因而对于在搜索引擎索引中索引网页而言不是最优的。然而,评估层分配是困难的问题,因为不清楚哪些度量捕捉到了网页到这些层的特定分配的质量。
概述
以下是在本文详细描述的主题的简要概述。本概述不旨在权利要求的范围。
本文描述了关于将数字项(如网页)分层的各种技术。可以监视用户与搜索引擎、数据库管理系统等的交互并且可以收集与这样的用户交互相关的数据。例如,可以监视并保留用户提交的查询、响应于这些查询提供的搜索结果(例如,数字项)、以及用户相对于这些搜索结果的动作。在一特定示例中,可以使用浏览器上的工具栏来收集用户历史数据。至少部分地基于该用户历史数据,可以生成可搜索数字项的层分配的质量的指示,其中层分配指示可搜索数字项被分配给若干层中的哪一层。层的质量的指示可以是符合定义的层分配质量度量的值,该度量在本文详细描述。
在一示例中,质量的指示可以通过查明若干参数来确定。例如,层分配的质量的指示可以至少部分地基于被分配给观察到的查询的权重。在一示例中,这些权重可以指示这些查询的相对重要性,并可至少部分地基于发起这些查询的频率。在另一示例中,对于特定查询和所确定的系统负载(例如,在接收到该查询时系统有多忙碌),层分配的质量的指示可以至少部分地基于数字项的检索将在指定层结束的概率。可为多个层确定该概率。在又一示例中,层分配的质量的指示可以至少部分地基于当检索在特定层中结束时获得的搜索结果质量的量度。可以结合确定分层质量的量度来使用归一化贴现累计收益(NDCG)、平均精确度、Q-测量或用于测量信息检索损失或搜索结果质量的其他合适机制。
另外,可以至少部分地基于层分配的质量的指示和/或用户历史数据来生成经改进的层分配。例如,层分配的质量的指示可以符合定义的层分配质量度量,并且可以相对于该度量来最优化或基本上最优化经改进的层分配。此外,可以至少部分地基于经改进的层分配来更新分层策略。分层策略是用来的将数字项分配给各层的策略,并且可以考虑与数字项相对应的各种特征,如数字项被用户访问的次数、数字项的大小等。例如,分层策略可以通过使用机器学习技术来更新。
在阅读并理解了附图和描述后,可以明白本申请的其他方面。
附图简述
图1是便于确定层分配的质量的指示的示例系统的功能框图。
图2是生成层分配的质量的指示的示例组件的功能框图。
图3是便于生成经改进的层分配的示例系统的功能框图。
图4是便于生成经改进的层分配的示例系统的功能框图。
图5是示出用于生成层分配的质量的指示的示例方法的流程图。
图6是示出用于生成层分配的质量的指示的示例方法的流程图。
图7是示出用于输出相对于层分配质量度量来最优化或基本上最优化的层分配的示例方法的流程图。
图8是示出用于更新分层策略的示例方法的流程图。
图9是示例计算系统。
详细描述
现在将参考附图来描述与确定层分配的质量、生成经改进的层分配、以及自动地更新分层策略有关的各种技术,全部附图中相同的附图标记表示相同的元素。另外,本文出于解释的目的示出并描述了各示例系统的若干功能框图;然而可以理解,被描述为由特定系统组件执行的功能可以由多个组件来执行。类似地,例如,单个组件可被配置成执行被描述为由多个组件执行的功能。
参考图1,示出了便于输出关于分层存储系统(未示出)的层分配的质量的指示的示例系统100。按照一示例,分层存储系统可以是具有多个层的搜索引擎索引,其中第一(最高)层成本较高并且具有相对少量的存储空间,但从第一层检索的数字项的检索时间小于从其他层(较低层)检索的数字项的检索时间。第二层较不昂贵并且比第一层具有更多存储空间,但在与同第一层相对应的检索时间相比时检索时间较大。在另一示例中,分层存储系统可包括结合数据库管理系统使用的各层存储。例如,数据库管理系统中使用的服务器可具有硬盘驱动器、随机存取存储器、以及高速随机存取存储器,它们可以各自作为一层。
系统100包括包含用户历史数据104的数据存储102。用户历史数据104可包括例如用户发起的查询、响应于这些查询提供给用户的搜索结果、用户响应于被提供了各搜索结果而选择的一搜索结果、和/或其他合适的信息。在一示例中,用户历史数据104可以通过监视用户相对于搜索引擎的交互来累积。例如,工具栏插件可以安装在浏览器中,并且输入到浏览器的查询以及响应于这些查询返回的搜索结果、用户对特定搜索结果的选择、以及用户在提交查询后查看的一系列页面都可以由该工具栏插件来收集。
接收器组件106接收用户历史数据104的子集。质量指示器组件108与接收器组件106通信并且从接收器子集106接收用户历史数据104的子集。质量指示器组件108可以生成层分配的质量的指示110,其中该层分配指示数字项要被分配给分层存储系统中的哪一层。例如,质量的指示可符合层分配质量度量,该度量在以下详细描述。另外,以下更详细地描述质量指示器组件108的操作。
现在参考图2,示出了质量指示器组件108的示例。质量指示器组件108包括权重确定器组件202、负载确定器组件204、层确定器组件206、以及效用确定器组件208。权重确定器组件202确定被分配给每一查询的权重,质量指示器组件108使用该权重来生成与分层存储系统相对应的层分配的质量的指示。在一示例中,权重确定器组件202所确定的权重可以至少部分地基于发起该查询的频率(例如,从查询日志查明的)。
负载确定器组件204确定在搜索组件(例如,搜索引擎、数据库系统……)执行特定查询时观察到的系统负载。系统负载可以至少部分地基于在处理特定查询时搜索组件所处理的查询的数量、在执行特定查询时检索搜索结果所专用的处理周期的数量、或搜索组件一般有多“忙碌”。
层确定器组件206可以确定特定层是在负载确定器组件204所确定的系统负载下针对(关于特定查询的)数字项来搜索的最后一层的概率。一般而言,在查询被输入搜索组件(例如,搜索引擎)时,首先在与较低层相比通常较小但具有较快访问和检索时间的较高层执行检索。取决于在较高层获得的结果的数量和质量以及当前系统负载,可以在较低层执行或不执行检索。因此,如上所述,层确定器组件206可以确定特定层是针对(关于特定查询并在所确定的系统负载下)数字项来搜索的最后一层的概率。可为分层存储系统中的每一层确定该概率。
效用确定器组件208确定当检索在特定层结束时搜索结果质量(相对于特定查询)的指示,其中搜索结果质量的指示可以使用任何合适的度量来计算。在一示例中,可以使用归一化贴现累计收益(NDCG)来确定搜索结果质量的指示。在另一示例中,可以使用平均精确度(MAP)来确定搜索结果质量的指示。在又一示例中,可以使用Q-测量来确定搜索结果质量的指示。因此,可以理解,效用确定器组件208可以利用任何合适的机制/度量来确定当检索在特定层结束时相对于特定查询的搜索结果质量的指示。
权重确定器组件202所确定的权重、负载确定器组件204所确定的系统负载、层确定器组件所确定的概率、以及效用确定器组件208所确定的搜索结果质量的指示可由质量指示器组件108用来确定层分配的质量的指示。
根据一示例,以下算法可被用来定义层分配质量的度量,并且可由质量指示器组件108用来确定层分配的质量的指示:
其中D={d1,...,d|D|}是要存储在具有对应的容量|T1|,...,|Tk|的k层T1,...,Tk中的所有数字项(di)的集合;t(di)是数字项集合D中的每一项的层分配,其中t(di)可具有值1,...,k;T(D)={t(di),...,t(di)}是层分配的总体集合;TQ(T(D),L)是针对当前系统负载L的层分配质量的量度;Q是所有可能查询的集合;w(q)是查询q的权重(例如,相对重要性);P(t|q,T(D),L)是在当前系统负载L下第t层是检索期间访问的最低层的概率;以及效用(t,q,T(D))是当检索在第t层结束时获得的搜索结果质量的量度。算法(1)因而计算跨给定层分配的所有可能查询跨每一层中的结束检索的概率分布的总体层分配质量的期望。
然而,可以理解,所有可能查询的数量是无限的。因此,观察到的查询的集合Q′可由质量指示器组件108用作所有可能查询的分布的近似。在一示例中,这些观察到的查询Q′可以从包括多个观察到的查询(例如,用户历史数据104)的数据储存库中随机选择,其中选择任何查询q∈Q′的概率可以作为选择搜索组件(例如,搜索引擎、数据库管理系统……)接收到的随机查询的可能性来计算。在另一示例中,可以选择观察到的查询的集合Q′以使得它们表示所有可能的查询。例如,可以选择查询Q′以使得具有特定长度(以单词、字符等来测量的)的查询的数量不超过阈值。另外,可以选择针对不同主题的查询。在又一示例中,可以基于与这些查询相关联的用户数据的量来选择查询Q′。例如,查询Q′可被限于具有与其相关联的相继用户数据的查询,如用户点击响应于这些查询提供的一个或多个搜索结果和/或广告。可以理解,构想了用于选择观察到的查询的子集的任何合适的方式,并且这些方式旨在落入所附权利要求书的范围内。
对于Q′中的每一所选查询q,质量指示器组件108可以构造包括只有M项的相关结果集R(q)={dq,1,...,dq,M},其中这些项可部分地从最相关到最不相关来排序。在一示例中,结果集可包括用户在向搜索组件提交查询后频繁选择/访问的数字项,其中选择/访问的频率可以与用户查看这些数字项所花费的时间相组合;和/或可包括搜索组件跨分层存储系统的所有层返回的作为查询的相关结果的数字项。
使用查询Q′和对应的结果集,以下算法可被用来定义层分配质量的度量,并且可由质量指示器组件108用来确定层分配的质量的指示:
Figure BPA00001171989600061
其中TQ(T(D),L,Q′)是相对于查询集合Q′在当前系统负载L下层分配质量的量度;并且效用(t,R(q),T(D))是当检索在第t层结束时获得的搜索结果质量的量度。
如上所述,质量指示器组件108可以确定层分配的质量的指示。更具体地,权重确定器组件202可以确定查询集合Q′中的每一查询的权重(w)。负载确定器组件204可以确定查询集合Q′中的每一查询所造成的系统负载L。层确定器组件206可以确定P(t|q,T(D),L),并且效用确定器组件208可以确定效用(t,R(q),T(D))。在一示例中,效用确定器组件208可以使用归一化贴现累计收益(NDCG)来确定效用(t,R(q),T(D))。效用确定器组件208可以采用其他机制来测量效用;各示例包括平均精确度(MAP)以及Q-测量。这些示例不旨在是限制性的,因为可以采用并构想了用于测量效用的其他机制。
在一特定示例中,效用确定器组件208可以利用以下算法来确定当检索在第t层结束时的搜索结果质量的测量,其中该算法是NDCG的修改:
其中N是归一化因子,Rt(q)是存储在1到t层的R(q)中的数字项的排序子集,相关性(d)是数字项d的相关性分数,并且是排名(d)是该数字项在Rt(q)中的排名位置。注意,在更多相关数字项处于较低(较深)层中的情况下,排名(d)依赖于t;在检索不超过t层的情况下,这些未被检索。如上所述,使用NDCG的修改仅是在给定当前层分配的情况下特定查询的搜索结果质量的一个可能量度,并且可以利用其他量度,如接收到的相关结果的比例等。
如可从上文理解的,用户历史数据104(图1)可被用来构造可被用来评估层分配的查询集合Q′和对应的结果集R(q)。假设当前层分配是T(D),则P(t|q,T(D),L)可以针对特定系统来实例化以反映在分层存储系统中用来在观察到的负载L下将查询转发到第t层的分层策略。随后,给定替换层分配(例如,T1(D)和T2(D)),可以通过计算TQ来选择优选分配。另外,质量指示器组件108可以使用TQ在变化的负载下(并且因而调查在不同的负载下层分配的质量)以及对于用于将查询转发到不同层的分层策略的不同实例,来调查搜索结果的预期质量如以下详细描述的。
现在参考图3,示出了便于自动地更新相对于分层存储系统的层分配的示例系统300。系统300包括可包含多个层的分层存储系统302,其中这些层中的每一层都可被用来存储一个或多个数字项,如网页、图像、文档等。搜索组件304至少部分地基于接收到的查询来执行对存储在分层存储系统302中的数字项的搜索。例如,搜索组件304可以是被配置成响应于接收到查询而搜索通过分层搜索索引的搜索引擎。在另一示例中,搜索组件204可以是用于响应于接收到查询而搜索存储的各层(例如,存储器、硬盘驱动器……)的数据管理系统的一部分。在又一示例中,搜索组件304可以是用于搜索计算机上的项的桌面搜索模块。还构想了其他搜索组件。
数据存储102保留可从搜索组件304接收到的用户历史数据104。例如,提供给搜索组件304的查询、被提供了搜索结果后的用户动作、以及响应于该查询而提供给用户的搜索结果集合都可以存储在用户历史数据104中。接收器组件106接收用户历史数据104的子集。如上所述,质量指示器组件108可以生成层分配的质量的指示110。在一示例中,在由质量指示器组件108生成指示110后,指示110可被存储在计算机可读介质中。
更新组件306可以接收指示110并至少部分地基于指示110输出经改进的层分配308。例如,更新组件306可以接收其他可能的层分配和对应的质量指示,并选择与最高质量指示相对应的层分配。例如,更新组件306可以使用试探法来确定最优或基本上最优的层分配(相对于对应的层分配质量度量)。在另一示例中,如以下更详细地描述的,更新组件306可以利用机器学习技术来输出经改进的层分配308。随后可至少部分地基于经改进的分层分配308来将数字项310分配给分层存储系统302。
有了关于更新组件306的更多细节,初始层分配的质量的指示110可以提供用于开发用于标识数字项的经改进的层分配的算法/技术的基础。给定可能的层分配的空间T={T(1)(D),...,T(N)(D)},标识如由等式(2)输出的具有最优或基本上最优的层质量指示的层分配T*(D)可以如下定义:
( 4 ) , T * ( D ) = arg max T ′ ( D ) ∈ T TQ ( T ( i ) ( D ) , L , Q ′ )
可能的层分配T的集合可被定义为由一些变量(如静态排名方案的参数)参数化的替换分配或分配组的集合。随后更新组件306可以使用机器学习技术来搜索替换分配的集合以将这样的分配之一标识为最优或基本上最优。例如,更新组件306可以使用神经网络、回归树、贝叶斯网络、或任何其他机器学习技术来确定最优化或基本上最优化指示110的分层分配。
此外,更新组件306可以确定被用来至少部分地基于经改进的层分配308和/或用户历史数据104的子集将数字项310分配给分层存储系统302中的特定层的分层策略312。分层策略可被用来确定在存储数字项时要使用分层存储系统302的哪些层。例如,分层策略312可以考虑可响应于一个或多个查询来返回的可搜索数字项的各个特征。这些特征可包括从链结构导出的静态排名(例如,数字项的页面排名)、包括该数字项的域的排名、数字项在搜索引擎结果之间的流行性、数字项中单词的数量、数字项中图像的色谱,等等。这些特征中的每一个可由更新组件306来参数化。换言之,可以向这些特征分配权重,分层策略312使用这些权重来将对应的数字项分配给分层存储系统302中的一层。更新组件306可以使用机器学习技术来学习要被分配给这些特征的权重,并且分层策略可以被用来将数字项分配给分层存储系统302的各层。
现在参考图4,示出了便于基于多个可能的层分配来更新层分配的示例系统400。系统400包括可以生成层分配的质量的指示的质量指示器组件108。更具体地,质量指示器组件108可以至少部分地基于用户历史数据104生成第一层分配402到第N层分配404的质量的指示。更新组件306可以接收质量的指示(其可以是与定义的层分配质量度量相对应的值)并且将若干不同的层分配以如下方式组合:所得的经改进的层分配406与任何单独的层分配相比具有更高的质量(由质量指示器组件108确定)。更新组件306可以至少部分地基于与层分配402-404和/或用户历史数据104的子集相对应的质量的指示来组合不同的层分配。
更具体地,组合层分配可以是算法(4)的特定实例,其中可能的分配的集合T可以是各单独的层分配的可能组合的集合。可能组合的集合可以由一些变量(如静态排名方案的参数)来参数化。更新组件306可以使用机器学习技术来确定相对于定义的层分配质量度量最优或基本上最优的各单独的层分配的组合。另外,如上所述,更新组件306可以至少部分地基于经改进的层分配406生成或更新被用来将数字项分配给分层存储系统的各层的分层策略312。
现在参考图5-8,示出并描述了各示例方法。尽管各方法被描述为顺序地执行的一系列动作,但可以理解,这些方法不受该顺序的次序的限制。例如,一些动作能以与本文描述的不同的次序发生。另外,动作可以与另一动作同时发生。此外,在一些情况下,实现本文描述的方法并不需要所有动作。
此外,本文描述的动作可以是可由一个或多个处理器实现的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可包括例程、子例程、程序、执行的线程等。另外,搜索引擎和/或数据库管理系统中的层分配可以至少部分地基于本文描述的方法来确定。另外,这些方法的动作的结果可以存储在计算机可读介质中,显示在显示设备上,等等。
具体参考图5,示出了用于确定层分配的质量的指示的示例方法500。方法500在502开始,并在504接收用户历史数据。例如,用户历史数据可包括由用户发起的查询、响应于查询而提供给用户的搜索结果、用户对搜索结果的选择、以及在发起查询后用户所查看的一系列页面。用户历史数据还可包括标记数据,其中搜索结果对查询的相关性由用户明确定义。
在506,至少部分地基于用户历史数据的子集来生成层分配的质量的指示。方法500在508完成。
现在转向图6,示出了便于确定相对于分层存储系统的层分配的质量的指示的方法600。方法600在602开始,并且在604确定分配给查询的权重。例如,该权重可取决于发起该查询的频率。在另一示例中,一个或多个用户可以明确地向查询分配权重以指示该查询的相对重要性。
在606,确定该查询的系统负载背景。如上所述,系统负载可以与由诸如搜索引擎或数据库管理系统的搜索组件在处理该查询时正在处理的查询的数量相关。
在608,确定特定层是当搜索引擎在该系统负载下时所访问的最低层的概率。例如,可为用来存储可搜索数字项的每一层确定这一概率。
在610,确定层分配的质量的指示,其中使用层分配来在分层存储系统中存储与查询相对应的数字项。质量的指示是至少部分地基于权重、系统负载、以及所确定的概率来确定的。在一示例中,可以将所确定的质量的指示至少临时地存储在计算机可读介质中。方法600在612结束。
现在参考图7,示出了用于确定最优或基本上最优的层分配(例如,针对定义的层分配质量度量来最优化或基本上最优化)的方法700。方法700在702开始,并且在704接收多个不同的层分配。在706,接收用户历史数据。如上所述,用户历史数据可包括查询、响应于查询而提供的搜索结果、和/或用户对响应于查询而提供的搜索结果的选择。
在708,为多个不同的层分配的子集来确定质量的指示。在710,组合层分配以使得所得组合与任何单独的层分配相比具有更高的质量指示。方法700在712结束。
现在参考图8,示出了便于更新分层策略的方法800。在一示例中,使用分层策略来将数字项分配给搜索引擎索引的各层的搜索引擎可以使用方法800的动作来更新分层策略。方法800在802开始,并在804接收用户历史数据。在806,确定层分配的质量的指示。在808,至少部分地基于用户历史数据和/或在806确定的质量的指示来确定经改进的层分配。在810,至少部分地基于用户历史数据和经改进的层分配来更新分层策略。例如,经改进的层分配可以考虑与用户历史数据相关的数字项,并且分层策略可以用来将在经改进的层分配中未考虑的数字项分配给特定层。方法800在812结束。
现在参考图9,示出了可以根据本文公开的系统和方法使用的示例计算设备900的高级图示。例如,计算设备900可以用于搜索引擎系统中。在另一示例中,计算设备900可以用于数据库管理系统中。计算设备900可以是服务器,或可以在诸如个人计算机、个人数字助理等常规上被认为客户机设备的设备中使用。计算设备900包括执行存储在存储器904中的指令的至少一个处理器902。这些指令可以是例如用于实现被描述为由上述一个或多个组件执行的功能的指令或用于实现上述方法中的一个或多个的指令。处理器902可以通过系统总线906访问存储器。除存储可执行指令之外,存储器904还可以存储数字项、层分配的至少一部分、一个或多个层分配的质量的指示等。
计算设备900另外包括可由处理器902通过系统总线906访问的数据存储908。数据存储908可包括可执行指令、一个或多个层分配、层分配的质量的指示、用户历史数据、标记数据等。计算设备900还包括允许外部设备与计算设备900进行通信的输入接口910。例如,输入接口910可被用来通过网络接收来自用户的查询。计算设备900还包括将计算设备900与一个或多个外部设备进行接口的输出接口912。例如,计算设备900可以通过输出接口912显示搜索结果。
另外,尽管被示为单个系统,但可以理解,计算设备900可以是分布式系统环境。因此,例如,若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备900执行的任务。
如此处所使用的,术语“组件”和“系统”旨在涵盖硬件、软件、或硬件和软件的组合。因此,例如,系统或组件可以是进程、在处理器上执行的进程、或处理器。另外,组件或系统可以位于单个设备上或分布在若干设备之间。
注意,出于解释目的提供了若干示例。这些示例不应被解释为限制所附权利要求书。另外,可以认识到,本文提供的示例可被改变而仍然落入权利要求的范围内。

Claims (20)

1.一种方法,包括:
接收用户历史数据;以及
生成用来将可搜索数字项存储在分层存储系统中的层分配的质量的指示,其中所述指示至少部分地基于所述用户历史数据的子集。
2.如权利要求1所述的方法,其特征在于,所述用户历史数据包括:
提供给搜索引擎的查询;
所述搜索引擎相对于所述查询返回的结果;
所述搜索结果中的被一个或多个用户选择的数字项;以及
在用户提交所述查询后被所述用户访问的一系列数字项。
3.如权利要求1所述的方法,其特征在于,所述用户历史数据包括:
输入到数据库管理系统的查询;
响应于所述查询返回的结果;以及
在用户提交所述查询后被该用户访问的一系列项。
4.如权利要求1所述的方法,其特征在于,所述分层存储系统是搜索引擎索引。
5.如权利要求1所述的方法,其特征在于,还包括至少部分地基于所述用户历史数据来生成经改进的层分配。
6.如权利要求5所述的方法,其特征在于,生成所述经改进的层分配包括相对于层分配质量度量来最优化或基本上最优化所述经改进的层分配。
7.如权利要求5所述的方法,其特征在于,还包括至少部分地基于所述经改进的层分配来更新用来将数字项分配给所述分层存储系统的各层的分层策略。
8.如权利要求7所述的方法,其特征在于,还包括使用机器学习技术来参数化所述分层策略。
9.如权利要求1所述的方法,其特征在于,生成所述指示包括:
确定被分配给查询的权重,其中所述权重指示发起所述查询的频率;
为所述查询确定系统负载背景;以及
确定特定层是当用来执行所述查询的搜索引擎处于所述系统负载下时使用所述查询进行搜索时所访问的最低层的概率。
10.如权利要求1所述的方法,其特征在于,生成所述指示包括使用以下算法:
Figure FPA00001171989500021
其中TQ(T(D),L,Q′)是所述层分配的质量的量度,T表示k个可用层的集合,D是存储在所述k个层中的数字项的集合,L是在处理查询集合Q′中的查询q期间观察到的系统负载,w是分配给所述查询q的权重,P(t|q,T(D),L)是在所述系统负载L下所述k个层的第t层是检索期间访问的最低层的概率,效用(t,R(q),T(D))所述查询q的质量量度,并且R(q)是与所述查询q相对应的数字项的结果集。
11.一种系统,包括:
接收器组件(106),所述接收器组件接收用户历史数据(104);以及
质量指示器组件(108),所述质量指示器组件确定用来存储可通过查询检索的数字项的层分配的质量的指示,其中所述质量指示器组件(108)至少部分地基于用户历史数据(104)的子集生成所述指示并且所述层分配指示数字项要被存储在分层存储系统中的哪里。
12.如权利要求11所述的系统,其特征在于,所述指示是搜索引擎索引的层分配的质量的指示。
13.如权利要求11所述的系统,其特征在于,还包括更新组件,所述更新组件至少部分地基于所述用户历史数据来生成经改进的层分配。
14.如权利要求13所述的系统,其特征在于,所述更新组件组合多个层分配以生成所述经改进的层分配。
15.如权利要求13所述的系统,其特征在于,所述更新组件至少部分地基于所述经改进的层分配来更新用来将数字项分配给所述分层存储系统的各层的分层策略。
16.如权利要求15所述的系统,其特征在于,所述更新组件使用机器学习技术来更新所述分层策略。
17.如权利要求13所述的系统,其特征在于,所述更新组件相对于层质量度量来最优化或基本上最优化层分配以生成所述经改进的层分配。
18.如权利要求11所述的系统,其特征在于,所述质量指示器组件包括:
权重确定器组件,所述权重确定器组件确定分配给一个或多个查询的权重,其中所述权重指示发起所述一个或多个查询的频率;
负载确定器组件,所述负载确定器组件确定搜索引擎上的系统负载;以及
层确定器组件,所述层确定器组件确定特定层是当所述搜索引擎处于所述系统负载下时使用所述一个或多个查询时在所述分层存储系统中所访问的最低层的概率。
19.如权利要求11所述的系统,其特征在于,还包括效用确定器组件,所述效用确定器组件确定当搜索检索在特定层结束时搜索质量的测量。
20.一种使用当前分层策略来将数字项分配给搜索引擎索引的各层的搜索引擎,所述当前分层策略通过多个动作创建,所述动作包括:
接收用户历史数据;
输出层分配的质量的指示;
至少部分地基于接收到的用户历史数据和所述层分配的质量的指示来确定经改进的层分配;以及
更新用来将数字项分配给所述搜索引擎索引的各层的分层策略以创建所述当前分层策略,其中所述更新至少部分地基于所述经改进的层分配。
CN2008801232314A 2007-12-27 2008-11-10 确定层分配的质量 Active CN101911061B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/964,729 2007-12-27
US11/964,729 US8024285B2 (en) 2007-12-27 2007-12-27 Determining quality of tier assignments
PCT/US2008/082983 WO2009085410A1 (en) 2007-12-27 2008-11-10 Determining quality of tier assignments

Publications (2)

Publication Number Publication Date
CN101911061A true CN101911061A (zh) 2010-12-08
CN101911061B CN101911061B (zh) 2013-04-10

Family

ID=40799712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801232314A Active CN101911061B (zh) 2007-12-27 2008-11-10 确定层分配的质量

Country Status (5)

Country Link
US (3) US8024285B2 (zh)
EP (1) EP2248055B1 (zh)
JP (1) JP5372955B2 (zh)
CN (1) CN101911061B (zh)
WO (1) WO2009085410A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254523A1 (en) * 2008-04-04 2009-10-08 Yahoo! Inc. Hybrid term and document-based indexing for search query resolution
US8615477B2 (en) * 2010-06-08 2013-12-24 Microsoft Corporation Monitoring relationships between digital items on a computing apparatus
US8463036B1 (en) * 2010-09-30 2013-06-11 A9.Com, Inc. Shape-based search of a collection of content
US8700583B1 (en) * 2012-07-24 2014-04-15 Google Inc. Dynamic tiermaps for large online databases
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US10146872B2 (en) * 2014-07-16 2018-12-04 Excalibur Ip, Llc Method and system for predicting search results quality in vertical ranking
US10140299B2 (en) * 2014-12-31 2018-11-27 Rovi Guides, Inc. Systems and methods for enhancing search results by way of updating search indices
US9613108B1 (en) * 2015-12-09 2017-04-04 Vinyl Development LLC Light data integration
US10409824B2 (en) * 2016-06-29 2019-09-10 International Business Machines Corporation System, method and recording medium for cognitive proximates
JP2018197933A (ja) * 2017-05-23 2018-12-13 富士通株式会社 ストレージ制御装置、情報処理システムおよびプログラム
US11947516B1 (en) * 2018-02-22 2024-04-02 Amazon Technologies, Inc. Multi-tier definition management for distributed data stores
US11494359B2 (en) * 2019-03-18 2022-11-08 Sap Se Index and storage management for multi-tiered databases
CN111026962B (zh) * 2019-12-03 2023-09-22 泰康保险集团股份有限公司 层级关系查询响应时间降低方法、服务器和用户前端

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3662400A (en) * 1970-04-28 1972-05-09 Hinderstein & Silber Subsidiary document identification system
US4195342A (en) * 1977-12-22 1980-03-25 Honeywell Information Systems Inc. Multi-configurable cache store system
JPH0981630A (ja) 1995-09-13 1997-03-28 Toshiba Corp 評価機能付き情報提供システム
US6272507B1 (en) * 1997-04-09 2001-08-07 Xerox Corporation System for ranking search results from a collection of documents using spreading activation techniques
US6138118A (en) * 1998-07-30 2000-10-24 Telcordia Technologies, Inc. Method and system for reconciling concurrent streams of transactions in a database
US6845370B2 (en) * 1998-11-12 2005-01-18 Accenture Llp Advanced information gathering for targeted activities
US7181459B2 (en) * 1999-05-04 2007-02-20 Iconfind, Inc. Method of coding, categorizing, and retrieving network pages and sites
US6175830B1 (en) * 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
US6516337B1 (en) * 1999-10-14 2003-02-04 Arcessa, Inc. Sending to a central indexing site meta data or signatures from objects on a computer network
NO313399B1 (no) * 2000-09-14 2002-09-23 Fast Search & Transfer Asa Fremgangsmate til soking og analyse av informasjon i datanettverk
JP2004517402A (ja) * 2000-12-22 2004-06-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ メタデータカテゴリ及び情報ポータルを構築する方法
KR20020069892A (ko) 2001-02-28 2002-09-05 주식회사 인터넷과 꿈 인터넷 사이트의 평가정보 제공방법
US6763351B1 (en) * 2001-06-18 2004-07-13 Siebel Systems, Inc. Method, apparatus, and system for attaching search results
EP1430399A1 (en) * 2001-08-31 2004-06-23 Arkivio, Inc. Techniques for storing data based upon storage policies
AU2003228366A1 (en) * 2002-03-25 2003-10-13 Michael Z. Morciz Accessing deep web information using a search engine
KR100700376B1 (ko) 2002-09-11 2007-03-27 한국과학기술정보연구원 실시간 서지데이터베이스 평가 방법
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
KR20040098889A (ko) 2003-05-16 2004-11-26 엔에이치엔(주) 웹사이트 검색 서비스 제공 방법 및 그 시스템
US7146353B2 (en) * 2003-07-22 2006-12-05 Hewlett-Packard Development Company, L.P. Resource allocation for multiple applications
US7240064B2 (en) * 2003-11-10 2007-07-03 Overture Services, Inc. Search engine with hierarchically stored indices
JP2005173876A (ja) * 2003-12-10 2005-06-30 Hitachi Ltd キャッシュサーバ
US7734561B2 (en) * 2003-12-15 2010-06-08 International Business Machines Corporation System and method for providing autonomic management of a networked system using an action-centric approach
US20050198007A1 (en) * 2004-03-02 2005-09-08 Tehuti Networks Ltd. Method, system and algorithm for dynamically managing a connection context database
US7779464B2 (en) * 2004-06-14 2010-08-17 Lionic Corporation System security approaches utilizing a hierarchical memory system
US20070214133A1 (en) * 2004-06-23 2007-09-13 Edo Liberty Methods for filtering data and filling in missing data using nonlinear inference
US7379947B2 (en) * 2004-07-30 2008-05-27 Microsoft Corporation Efficiently ranking web pages via matrix index manipulation and improved caching
US20060015498A1 (en) * 2004-08-13 2006-01-19 Edgar Sarmiento Search engine
US20060150094A1 (en) * 2004-12-31 2006-07-06 Zakir Patrawala Web companion
US7603343B2 (en) * 2005-02-04 2009-10-13 Microsoft Corporation Quality of web search results using a game
US20070027700A1 (en) * 2005-07-29 2007-02-01 Sivajini Ahamparam System and method for global informaiton delivery management through a reporting hiearachy
US7610425B2 (en) * 2005-08-22 2009-10-27 Sun Microsystems, Inc. Approach for managing interrupt load distribution
US7873624B2 (en) * 2005-10-21 2011-01-18 Microsoft Corporation Question answering over structured content on the web
US20070244868A1 (en) * 2005-10-31 2007-10-18 Grubb Michael L Internet book marking and search results delivery
US8229897B2 (en) * 2006-02-03 2012-07-24 International Business Machines Corporation Restoring a file to its proper storage tier in an information lifecycle management environment
US20070239747A1 (en) * 2006-03-29 2007-10-11 International Business Machines Corporation Methods, systems, and computer program products for providing read ahead and caching in an information lifecycle management system
US8065292B2 (en) * 2006-04-17 2011-11-22 Cisco Technology, Inc. Generating an index for a network search engine
US7966324B2 (en) * 2006-05-30 2011-06-21 Microsoft Corporation Personalizing a search results page based on search history

Also Published As

Publication number Publication date
CN101911061B (zh) 2013-04-10
WO2009085410A1 (en) 2009-07-09
EP2248055B1 (en) 2022-10-26
US20110302146A1 (en) 2011-12-08
US8024285B2 (en) 2011-09-20
JP2011508340A (ja) 2011-03-10
JP5372955B2 (ja) 2013-12-18
EP2248055A1 (en) 2010-11-10
EP2248055A4 (en) 2012-01-11
US20160026715A1 (en) 2016-01-28
US20090171867A1 (en) 2009-07-02
US9177042B2 (en) 2015-11-03

Similar Documents

Publication Publication Date Title
CN101911061B (zh) 确定层分配的质量
CN105701216B (zh) 一种信息推送方法及装置
CN102521233B (zh) 自适应图像检索数据库
US7617208B2 (en) User query data mining and related techniques
US7809723B2 (en) Distributed hierarchical text classification framework
Capannini et al. Efficient diversification of web search results
US7779001B2 (en) Web page ranking with hierarchical considerations
KR101374651B1 (ko) 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
US20070250500A1 (en) Multi-directional and auto-adaptive relevance and search system and methods thereof
KR20080106190A (ko) 문서 랭킹 컴포넌트 트레이닝 시스템 및 컴퓨터 판독 가능 매체
Abid et al. A survey on search results diversification techniques
US7630945B2 (en) Building support vector machines with reduced classifier complexity
Budikova et al. Evaluation platform for content-based image retrieval systems
Lu et al. Personalized location recommendation by aggregating multiple recommenders in diversity
CA2470899A1 (en) Method and system for similarity search and clustering
KR102249466B1 (ko) 인공지능 추천 모델을 사용하여 추천 정보를 제공하는 데이터 카탈로그 제공 방법 및 시스템
WO2010062445A1 (en) Predictive indexing for fast search
El Handri et al. Parallelization of $ Top_ {k} $ Algorithm Through a New Hybrid Recommendation System for Big Data in Spark Cloud Computing Framework
US9305051B2 (en) Mining broad hidden query aspects from user search sessions
CN104615723B (zh) 查询词权重值的确定方法和装置
US20190243914A1 (en) Parallel query processing in a distributed analytics architecture
Murugudu et al. Efficiently harvesting deep web interfaces based on adaptive learning using two-phase data crawler framework
Ashkan et al. Impact of query intent and search context on clickthrough behavior in sponsored search
Bansal et al. Ad-hoc aggregations of ranked lists in the presence of hierarchies
Sumathi et al. Hybrid recommendation system using particle swarm optimization and user access based ranking

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150429

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150429

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.