CN104620238B - 联合搜索结果上的点进率的在线学习 - Google Patents

联合搜索结果上的点进率的在线学习 Download PDF

Info

Publication number
CN104620238B
CN104620238B CN201380043987.9A CN201380043987A CN104620238B CN 104620238 B CN104620238 B CN 104620238B CN 201380043987 A CN201380043987 A CN 201380043987A CN 104620238 B CN104620238 B CN 104620238B
Authority
CN
China
Prior art keywords
block
combined results
click
probability
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380043987.9A
Other languages
English (en)
Other versions
CN104620238A (zh
Inventor
V·维内
M·J·泰勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN104620238A publication Critical patent/CN104620238A/zh
Application granted granted Critical
Publication of CN104620238B publication Critical patent/CN104620238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

可提供了用于对来自一个或多个联合源的搜索结果块上的点进率进行在线学习。可响应于查询从一个或多个联合源接收搜索结果块的点进反馈。可以基于接收到的点进反馈向搜索结果块中的每一个分派权重。随后可基于所分派的权重对搜索结果块进行排名。最后,搜索结果页可被生成以向用户显示经排名的搜索结果块。

Description

联合搜索结果上的点进率的在线学习
背景
企业所使用的在线搜索系统可被配置成向各种联合源提交内部搜索查询(例如,内联网查询)以及外部查询(例如,web搜索查询)。联合源可包括企业外部的第三方网站。另外,这些联合源可包括用于对来自内部搜索查询的结果进行排名的企业搜索引擎的预先存在的配置未知的网站。例如,包括电子商务网站的企业通常可能需要向多个外部财务源提交查询以寻找与各财务事务相关联的数据。因为企业搜索引擎没有被配置成用于对来自未知联合源的搜索结果进行排名,所以企业无法确定从查询返回的相对于正规结果的最佳结果。结果,用户可能需要手动地细读多个联合搜索结果并对它们进行排名以确定哪一些是最佳结果。本发明的各个实施例正是针对这些考虑事项及其他而做出的。
发明内容
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
提供了用于对来自一个或多个联合源的搜索结果块上的点进率进行在线学习的各实施例。可响应于查询从一个或多个联合源接收搜索结果块的点进反馈。可以基于接收到的点进反馈向搜索结果块中的每一个分派权重。随后可基于所分派的权重对搜索结果块进行排名。最后,搜索结果页可被生成以向用户显示经排名的搜索结果块。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。可以理解,前述一般描述和以下具体实施方式均仅是例示性的,且不限制所要求保护的本发明。
附图说明
图1是根据各实施例的示出用于对来自联合源的联合结果块上的点进率进行在线学习的网络体系结构的框图;
图2是根据一实施例的示出搜索结果页的框图,该搜索结果页示出了来自联合源的经排名的联合结果块;
图3是根据一实施例的示出用于对来自联合源的联合结果块上的点进率进行在线学习的例程的流程图;
图4是可在其中实现各实施例的计算设备的简化框图;
图5A是可在其中实现各实施例的移动计算设备的简化框图;
图5B是可在其中实现各实施例的移动计算设备的简化框图;以及
图6是可在其中实现各实施例的分布式计算系统的简单框图。
详细描述
提供了用于对来自一个或多个联合源的搜索结果块上的点进率进行在线学习的各实施例。可响应于查询从一个或多个联合源接收搜索结果块的点进反馈。可以基于接收到的点进反馈向搜索结果块中的每一个分派权重。随后可基于所分派的权重对搜索结果块进行排名。最后,搜索结果页可被生成以向用户显示经排名的搜索结果块。
在下面的详细描述中,将参考构成本发明的一部分的附图,在附图中,通过例图,示出了特定实施例或示例。可组合这些实施例,可利用其他实施例,并且可作出结构上的改变,而不背离本发明的精神或范围。因此,以下详细描述并不旨在限制,并且本发明的范围由所附权利要求及其等效方案来限定。
现在参考附图(这些附图中相同的标号表示相同的元素),将描述本发明的各方面。图1是根据各实施例的示出用于对来自联合源的联合结果块上的点进率进行在线学习的网络体系结构的框图。该网络体系结构包括通过网络4与联合服务器计算机70、80以及90(“此后称为“联合服务器70、80以及90””)通信的企业服务器计算机2(此后称为“企业服务器2)。网络4可以包括本地网络或广域网(例如因特网)。根据一实施例,企业服务器2可被配置成支持公司企业的服务来生成查询以搜索来自位于企业内的源的电子文档(例如,存储在企业服务器2上的电子文档50)和来自企业外部的源的电子文档(例如,可分别被存储在联合服务器70、80以及90上的电子文档72、82以及92)并在结果页(例如,网页)上呈现“靠前的”查询结果以供用户审阅。应当理解,根据一实施例,联合服务器70、80以及90可包括企业服务器2未知的源。具体而言,在缺少本文描述的各实施例的情况下,联合服务器70、80以及90可包括“先验”未知的源,使得响应于企业服务器2对这些源作出的查询而返回的最佳搜索结果不能被确定以及不能相对于正规搜索结果被排名。除电子文档40之外,企业服务器2还可存储服务器应用20、企业查询日志30以及web查询日志40。如将参考图3在下文更详细地讨论的并且根据一实施例,服务器应用20可被配置成通过利用点击预测算法来促进对来自未知联合源的联合结果块上的点进率的在线学习,使得最佳搜索结果可被确定并随后被排名。根据一实施例,服务器应用20可包括具有集成web应用平台的企业应用软件,该集成web应用平台可被用来提供内联网门户、文档和文件管理、协作、社交网络、外联网、网站、企业搜索、以及业务智能。一个说明性的集成web应用平台是由华盛顿州雷蒙德市的微软公司开发的SHAREPOINT web应用平台。然而,应当理解,还可以使用来自其他制造商的其他web应用平台而不背离本文描述的各实施例的精神和范围。
图2是根据一实施例的示出搜索结果页200的框图,该搜索结果页示出了来自联合源的经排名的联合结果块。可由图1的服务器应用20生成的搜索结果页200可包括分别由槽201、203以及205分开的联合结果块202、204以及206。联合结果块202可包括结果210和220,联合结果块204可包括结果230和240,且联合结果块206可包括结果250和260。如本文所定义的,联合结果块是来自联合源(即,图1的联合服务器70、80以及90)的文档集合。因而,根据一实施例,联合结果块202、204以及206可以分别表示来自图1的联合服务器70、80以及90(即,联合源)的电子文档集合(由结果210-270表示)。根据另一实施例,联合结果块202、204以及206可以来自同一源,使得它与服务器应用20生成的搜索查询的重新解释相对应。例如,包括具有文件扩展名(例如,“.doc”)的电子文档名的搜索查询可被重新解释成请求只返回具有相同文件扩展名的搜索结果。如将参考图3在下文更详细地描述的,联合结果块202、204以及206可被排序,使得它们表示从搜索查询返回的最佳搜索结果的排名。因而,搜索结果页200顶部的槽201中显示的联合结果块202排名高于联合结果块204,联合结果块204排名高于联合结果块206。如将在本文中更详细地讨论的,联合结果块202、204以及206的显示次序可根据与槽201、203以及205中的每一个相对应的阈值权重来确定。根据一实施例,服务器应用20可被配置成确定联合结果块202、204以及206中的每一个的权重,其中权重在0和1之间。可基于服务器应用20计算得到的点击概率(即,联合结果块将被用户在搜索引擎网页上点击的可能性)来确定权重。因而,具有高于某一阈值(即,0.5)的权重的联合结果块将被显示在搜索结果页200顶部的槽201中,而具有低于该阈值的权重的联合结果块将被显示在搜索结果页200中的槽203和205中。应当理解,出现在联合结果块中的结果的数量是用户可配置的。因此,尽管联合结果块202、204以及206被示为每块具有两个搜索结果,但是服务器应用20的用户可以配置联合结果块来显示任何数量的搜索结果。
图3是根据一实施例的示出用于对来自联合源的联合结果块上的点进率进行在线学习的例程的流程图300。当阅读对在此呈现的例程的讨论时,应当理解,本发明的各种实施例的逻辑操作被实现为(1)计算设备或系统上运行的一系列计算机实现的动作或程序模块,和/或(2)计算设备或系统内的互连机器逻辑电路或电路模块。这种实现是取决于实现本发明的计算设备或系统的性能需求的选择问题。因此,图3中所例示的并且构成在此所描述的各实施例的逻辑操作被不同地称为操作、结构性设备、动作或模块。本领域技术人员将认识到,这些操作、结构设备、动作和模块可用软件、固件、专用数字逻辑、及其任意组合实现,而不背离如本文中阐述的权利要求内陈述的本发明精神和范围。
例程300在操作305处开始,在操作305处,在企业服务器2上执行的服务器应用20可以向一个或多个联合源发送查询。例如,服务器应用20的用户可以生成并向多个未知联合源(如联合服务器70、80以及90)发送针对某一类型的财务文档的查询,以供企业服务器2所主存的电子商务网站使用。应当明白,根据另一实施例,该查询可被发送给单个联合源。
例程300从操作305继续至操作310,在操作310,在企业服务器2上执行的服务器应用20可以响应于在操作305向一个或多个联合源作出的查询来从这些联合源接收联合结果块的点进反馈。应当理解,点进反馈可包括从查询返回的联合结果块(其包括搜索结果)上的点进率(例如,联合结果块的流行性)。根据一实施例,在联合源是未知的时候,联合结果块中的每一个的点击概率(例如,联合结果块将被用户在搜索引擎网页上点击的可能性)可由服务器应用20计算得到以预测点进率。具体而言,点击概率可以利用贝叶斯点进率(CTR)预测在线学习算法(即,用于二元输出的预测)来确定。根据一实施例,该算法可以基于将离散或实值输入特征映射到概率的概率单位回归模型。该算法还可维持对该模型的权重的高斯信任,并执行从近似消息传递导出的高斯在线更新。该算法的可扩展性是通过有原则的权重修剪过程以及近似并行实现来确保的。可与本文描述的各实施例一起使用的一种说明性算法如下示出:
对于上式,区间[0,1]可被用来表示可能的CTR(点击概率)的集合,其中xi表示对应离散特征值的二元N选一编码,使得每一向量xi具有等于值1的一个元素且其余元素值为0。上述算法在Graepel,T.、Candela,J.Q.、Borchert,T.、以及Herbrich,R.的“Web-ScaleBayesian Click-Through Rate Prediction for Sponsored Search Advertising inMicrosoft’s Bing Search Engine(用于微软的必应搜索引擎中的赞助搜索广告的web范围贝叶斯点进率预测)”,2010年以色列海法第27届机器学习国际会议会议录,中更详细地描述,其公开通过援引整体纳入于此。
根据一实施例,CTR算法可被用来确定一个或多个未知联合结果块特征(包括但不限于块类型ID、查询ID、块排名以及块大小)的点击概率。说明性块类型可包括“Base(基本)”、“BestBets(最佳措施)”、“PersonalNav(个人导航)”、“Definitions(定义)”、“BestBetQueryTransform(最佳措施查询变换)”、“People(人)”、“AuthoredBy(授权方)”、以及Sites(站点)。服务器应用20可被配置成利用块类型ID和查询ID特征来记住对于可被用于在线自适应的特定查询而言特定块类型表现得如何。块排名特征表示在搜索引擎结果页(“SERP”)上的排名次序位置。块排名可被初始设置为“1”来用于预测。块排名的SERP越低,联合结果块的点击概率将越小。块大小特征表示块中的结果的数量。较大数量的结果将造成较高的点击概率。
应当理解,上文引用的SERP是呈现给发出搜索查询的用户的最终页。因而,给定候选块集合(例如,联合结果块),可如上所述地作出对它们的CTR的预测。SERP随后可被组装以尝试最大化用户将点击结果页上较高处的块的可能性。还应当理解,此时,引入取代预测的CTR以施加对要放置在SERP上的某些位置处的某些联合结果块的要求的业务逻辑也是可能的(例如,“BestBets”总是被置于SERP顶部)。
应当理解,根据另一实施例,对于企业服务器2上频繁使用的查询项,点击概率可被提升。具体而言,服务器应用20可被配置成检查(图1中示出的)企业查询日志30、web查询日志40来确定一个或多个查询项的频率。出现在这两个日志中的频繁使用的查询项可被用来提升联合结果块的点击概率。
例程300从操作310继续至操作315,在操作315,在企业服务器2上执行的服务器应用20可以基于接收到的点进反馈向联合结果块分派权重。具体而言,服务器应用20可以基于如上所述针对每一个块计算得到的点击概率向联合结果块70、80以及90中的每一个分派权重。
例程300从操作315继续至操作320,在操作320,在企业服务器2上执行的服务器应用20可以基于在操作315分派的权重对联合结果块进行排名。具体而言,联合结果块可基于预定阈值权重来排名,使得它们可被显示在搜索结果页上的预定槽中,如以上参考图2描述的。
例程300从操作320继续至操作325,在操作325,在企业服务器2上执行的服务器应用20可以生成搜索结果页以显示在操作320处被排名的联合结果块。具体而言,如以上参考图2所讨论的,经排名的联合块中的每一个可以与未知联合源相对应。或者,经排名的联合结果块可以来自同一源并且与服务器应用20所生成的搜索查询的重新解释相对应。例程300随后从操作325结束。
图4是示出可用来实施本发明的各实施例的计算设备400的示例物理组件的框图。下面描述的计算设备组件可适用于以上参考图1-3引用的企业服务器2。在基本配置中,计算设备400可包括至少一个硬件处理单元402和系统存储器404。取决于计算设备的配置和类型,系统存储器704可以包括,但不限于,易失性存储器(例如,随机存取存储器(RAM))、非易失性存储器(例如,只读存储器(ROM))、闪存或任何组合。系统存储器404可包括操作系统405和应用407。操作系统405例如可适用于控制计算设备400的操作,并且根据一实施例操作系统405可包括来自华盛顿州雷蒙德市的微软公司的WINDOWS操作系统。应用407例如可包括以上参考图1-3描述的服务器应用20的功能。然而,应当理解,在此描述的各实施例也可结合其它操作系统和应用程序来实现,并进一步不被限定为任何特定的应用或系统。
计算设备400可具有附加特征或功能。例如,计算设备400还可包括附加硬件数据存储设备(可移动和/或不可移动),例如磁盘、光盘、固态存储设备(“SSD”)、闪存或磁带。这些附加存储在图4中由可移动存储409和不可移动存储410示出。
一般而言,符合各实施例,可提供程序模块,程序模块包括可执行特定任务或可实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外,各实施例可用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器的系统或可编程消费电子产品、小型机、大型计算机等。各实施例也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备两者中。
此外,各实施例可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实践。例如,可以通过片上系统(“SOC”)来实践各实施例,其中,可以将图4中示出的每个或许多组件集成到单个集成电路上。这样的SOC设备可包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元以及各种应用功能,所有这些都被集成到(或“烧录到”)芯片基板上作为单个集成电路。当通过SOC操作时,在此所述的功能可以通过在单个集成电路(芯片)上集成有计算设备/系统400的其它组件的应用专用逻辑来操作。各实施例还可使用能够执行诸如例如,AND(与)、OR(或)和NOT(非)的逻辑运算的其他技术来实践,包括但不限于,机械、光学、流体和量子技术。另外,各实施例可在通用计算机或任何其他电路或系统中实践。
例如,各实施例可被实现为计算机过程(方法)、计算系统、或诸如计算机程序产品或计算机可读介质之类的制品。计算机程序产品可以是计算机系统可读并编码了用于执行计算机过程的指令的计算机程序的计算机存储介质。
本文所使用的术语计算机可读介质可包括计算机存储介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器404、可移动存储409和不可移动存储410都是计算机存储介质示例(即,存储器存储)。计算机存储介质可以包括,但不限于,RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或可用于存储信息且可以由计算设备400访问的任何其它介质。任何这样的计算机存储介质都可以是计算设备400的一部分。计算设备400还可具有输入设备412,诸如键盘、鼠标、笔、用于接收语音输入的声音输入设备(例如,话筒)、用于接收手势的触摸输入设备等。还可包括输出设备414,诸如显示器、扬声器、打印机等。上述设备是示例且可以使用其他设备。
本文所使用的术语计算机可读介质还可包括通信介质。通信媒介可由诸如载波或其他传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块、或其他数据来体现,并且包括任何信息传递介质。术语“已调制数据信号”可以描述以对该信号中的信息进行编码的方式设定或者改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接等有线介质,以及诸如声学、射频(RF)、红外线和其他无线介质等无线介质。
图5A和5B示出了可用来实施各实施例的合适的移动计算环境,例如移动计算设备550,其可包括但不限于智能电话、平板个人计算机、膝上型计算机等。参考图5A,示出了用于实现各实施例的示例移动计算设备550。在一基本配置中,移动计算设备550是具有输入元件和输出元件两者的手持式计算机。输入元件可包括允许用户将信息输入到移动计算设备550中的触摸屏显示器525和输入按钮510。移动计算设备550还可结合允许进一步的用户输入的可选的侧面输入元件520。可选的侧面输入元件520可以是旋转开关、按钮、或任何其他类型的手动输入元件。在替代实施例中,移动计算设备550可结合更多或更少的输入元件。例如,在某些实施例中,显示器525可以不是触摸屏。在又一替代实施例中,移动计算设备是便携式电话系统,如具有显示器525和输入按钮510的蜂窝电话。移动计算设备550还可包括可选的小键盘505。可选的小键盘505可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。
移动计算设备550结合输出元件,如可显示图形用户界面(GUI)的显示器525。其他输出元件包括扬声器530和LED光526。另外,移动计算设备550可包含振动模块(未示出),该振动模块使得移动计算设备550振动以将事件通知给用户。在又一实施例中,移动计算设备550可结合耳机插孔(未示出),用于提供另一手段来提供输出信号。
尽管此处组合移动计算设备550来描述,但在替代实施例中,还可组合任何数量的计算机系统来被使用,如在台式环境中、膝上型或笔记本计算机系统、多处理器系统、基于微处理器或可编程消费电子产品、网络PC、小型计算机、大型计算机等。各实施例也可在分布式计算环境中实践,其中任务由分布式计算环境中通过通信网络链接的远程处理设备来执行,程序可位于本机和远程存储器存储设备中。总而言之,具有多个环境传感器、向用户提供通知的多个输出元件和多个通知事件类型的任何计算机系统可结合在此描述的各实施例。
图5B是示出在一个实施例中使用的移动计算设备(诸如图5A所示的移动计算设备550)的组件的框图。即,移动计算设备550可结合系统502以实现某些实施例。例如,系统502可被用于实现“智能电话”或平板计算机,该智能电话或平板计算机能运行与桌面或笔记本计算机的应用类似的一个或多个应用。在某些实施例中,系统502被集成为计算设备,诸如集成的个人数字助理(PDA)和无线电话。
应用567可被加载到存储器562中并在操作系统564上或与操作系统564相关联地运行。系统502还包括存储器562内的非易失性存储568。非易失性存储568可被用于存储在系统502断电时不会丢失的持久信息。应用567可使用信息并将其存储在非易失性存储568中。同步应用(未示出)也驻留于系统502上且被编程为与驻留在主机计算机上的对应的同步应用交互,以保持非易失性存储568中存储的信息与主机计算机处存储的相应信息同步。应当理解,其它应用也可被加载到存储器562中并在移动计算设备550上运行。
系统502具有可被实现为一个或多个电池的电源570。电源570还可包括外部功率源,如补充电池或对电池充电的AC适配器或加电对接托架。
系统502还可包括执行发射和接收无线电频率通信的功能的无线电572(即,无线电接口层)。无线电572通过通信运营商或服务供应商方便了系统502与“外部世界”之间的无线连接。去往和来自无线电572的传输是在操作系统564的控制下进行的。换言之,通过无线电572接收的通信可通过操作系统564传播到应用567,反之亦然。
无线电572允许系统502例如通过网络与其他计算设备通信。无线电572是通信介质的一个示例。系统502的实施例被示为具有以下两种类型的通知输出设备:可用于提供视觉通知的LED 580和可用于与扬声器530一起提供音频通知的音频接口574。这些设备可直接耦合到电源570,使得当被激活时,即使为了节省电池功率而可能关闭处理器560和其它组件,它们也保留一段由通知机制指示的保持通电时间。LED 580可被编程为无限地保持通电,直到用户采取动作指示该设备的通电状态。音频接口574用于向用户提供听觉信号并从用户接收听觉信号。例如,除了被耦合到扬声器530之外,音频接口574还可被耦合到话筒(未示出)来接收可听输入,以便方便电话通话。根据各实施例,话筒也可充当音频传感器来便于对通知的控制。系统502可进一步包括允许板载相机540的操作来记录静止图像、视频流等的视频接口576。
实现系统502的移动计算设备可具有附加特征或功能。例如,设备还可包括附加数据存储设备(可移动的/或不可移动的),诸如磁盘、光盘或磁带。此类附加存储在图5B中由存储568示出。
移动计算设备550生成或捕捉的且经系统502存储的数据/信息可如上所述本地存储在移动计算设备550上,或数据可被存储在可由设备通过无线电572或通过移动计算设备550和与移动计算设备550相关联的一分开的计算设备之间的有线连接访问的任何数量的存储介质上,该计算设备如例如因特网之类的分布式计算网络中的服务器计算机。如应理解的,此类数据/信息可经移动计算设备550、经无线电572或经分布式计算网络来被访问。类似地,这些数据/信息可根据已知的数据/信息传送和存储手段来容易地在计算设备之间传送以供存储和使用,这些手段包括电子邮件和协作数据/信息共享系统。
图6是可在其中实现各实施例的分布式计算系统的简单框图。分布式计算系统可包括多个客户机设备,诸如计算设备603、平板计算设备605和移动计算设备610。客户机设备603、605和610可与分布式计算网络615(例如,因特网)进行通信。服务器620是通过网络615与客户机设备603、605和610进行通信的。服务器620可存储应用600,应用600可执行包括例如以上描述的例程300中的操作中的一个或多个的例程。
以上参考方法、系统和计算机程序产品的框图和/或操作说明描述了各实施例。框中所注明的各功能/动作可按不同于任何框图所示的次序出现。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以按相反的次序来执行。
尽管已描述了特定实施例,但也可能存在其他实施例。此外,虽然各实施例被描述为与存储在存储器和其他存储介质中的数据相关联,但是数据还可被存储在其他类型的计算机可读介质上或从其读取,诸如辅助存储设备(像硬盘、软盘、或CD-ROM)、来自因特网的载波、或其他形式的RAM或ROM。此外,所公开的例程的各操作可以任何方式修改,包括通过对各操作重新排序和/或插入或删除操作,而不背离本文描述的实施例。
对本领域的技术人员而言,显然可作出各个修改或变化,而不背离本文描述的实施例的范围或精神。在考虑说明书和实现本文描述的实施例之后,其他实施例对本领域的技术人员而言将是显而易见的。

Claims (11)

1.一种用于对来自一个或多个联合源的联合结果块上的点进率进行在线学习的计算机实现的方法,包括:
由计算机的企业搜索引擎响应于查询接收对从已知的联合源接收的所述联合结果块的点进反馈;
基于多个未知联合块特征来确定针对从未知的联合源接收的联合结果块的点击概率,所述未知的联合源包括对所述企业搜索引擎以前是未知的联合源,所述多个未知联合块特征包括块类型ID以及与未知的联合源关联的查询ID,其中确定点击概率包括对查询日志执行学习算法,其包括所述块类型ID、查询ID以及针对该查询ID的块类型ID的表现评分的映射,该算法基于将离散或实值输入特征映射到概率的概率单位回归模型;
利用所述确定的点击概率,预测从所述未知的联合源接收的所述联合结果块的所述点进率,
向所述联合结果块中的每一个分派权重,其中分配权重包括基于所接收的点进反馈为从所述已知的联合源接收的联合结果块中的每一个分配权重,以及基于所预测的点进率为从所述未知的联合源接收的联合结果块分配权重;
由所述企业搜索引擎基于所分派的权重对所述联合结果块进行排名;以及
由所述企业搜索引擎生成搜索结果页以显示经排名的联合结果块,该经排名的联合结果块基于预定的阈值在多个层级槽之一中显示。
2.如权利要求1所述的方法,其特征在于,所述企业搜索引擎响应于所述查询从所述多个已知联合源接收所述联合结果块的点进反馈包括:在搜索引擎页上响应于所述查询接收多个搜索结果。
3.如权利要求1所述的方法,其特征在于,向多个联合源发送所述查询。
4.如权利要求3所述的方法,其特征在于,进一步包括:
检查企业查询日志和web查询日志以确定至少一个查询项的频率;以及
在所述至少一个查询项具有高频率时提升联合结果块的点击概率。
5.如权利要求1所述的方法,其特征在于,由所述企业搜索引擎生成搜索结果页以显示经排名的联合结果块包括:显示所述联合结果块中的每一个以便其对应多个未知联合源中的一个。
6.如权利要求5所述的方法,其特征在于,由所述企业搜索引擎生成搜索结果页以显示经排名的联合结果块包括:显示所述联合结果块中的每一个以便其对应所述查询的重新解释。
7.一种用于对来自多个未知联合源的联合结果块上的点进率进行在线学习的装置,包括:
用于存储可执行程序代码的存储器;以及
功能上耦合至所述存储器的处理器,所述处理器响应包含在所述程序代码中的计算机可执行指令并用于:
响应于查询从已知联合源接收所述联合结果块的点进反馈;
基于多个未知联合块特征来确定针对从所述多个未知的联合源接收的联合结果块的点击概率,所述未知的联合源包括对企业搜索引擎以前是未知的联合源,所述多个未知联合块特征包括块类型ID以及与所述多个未知的联合源中的每一个关联的查询ID,其中所述点击概率是通过对查询日志执行学习算法而确定的,其包括所述块类型ID、查询ID以及针对该查询ID的块类型ID的表现评分的映射,,
利用所述确定的点击概率,预测从所述未知的联合源接收的所述联合结果块的所述点进率,其中所述算法基于将离散或实值输入特征映射到概率的概率单位回归模型,
向所述联合结果块中的每一个分派权重,其中分配权重包括基于所接收的点进反馈为从所述已知的联合源接收的联合结果块中的每一个分配权重,以及基于所预测的点进率为从所述多个未知的联合源接收的联合结果块分配权重;
基于所分派的权重对所述联合结果块进行排名;以及
向用户显示经排名的联合结果块,该经排名的联合结果块基于预定的阈值在多个层级槽之一中显示。
8.如权利要求7所述的装置,其特征在于,所述处理器在响应于所述查询从所述已知联合源接收所述联合结果块的点进反馈时,在搜索引擎页上响应于所述查询接收多个搜索结果。
9.如权利要求7所述的装置,其特征在于,所述处理器还能用于:
检查企业查询日志和web查询日志以确定至少一个查询项的频率;以及
在所述至少一个查询项具有高频率时提升联合结果块的点击概率。
10.一种包括有计算机可执行指令的计算机可读存储介质,该计算机可执行指令在由计算机执行时使得所述计算机执行用于对来自多个未知联合源的联合结果块上的点进率进行在线学习的方法,所述方法包括:
发送查询;
在企业搜索引擎处响应于所述查询从多个已知联合源接收所述联合结果块的点进反馈,所述点进反馈包括响应于查询在搜索引擎页上返回的多个搜索结果;
基于多个未知联合块特征来确定针对从所述多个未知的联合源接收的联合结果块的点击概率,所述未知的联合源包括对所述企业搜索引擎以前是未知的联合源,所述多个未知联合块特征包括块类型ID以及与所述多个未知的联合源中的每一个关联的查询ID,其中确定点击概率包括对查询日志执行学习算法,其包括所述块类型ID、查询ID以及针对该查询ID的块类型ID的表现评分的映射,该算法基于将离散或实值输入特征映射到概率的概率单位回归模型;
利用所述确定的点击概率,预测从所述未知的联合源接收的所述联合结果块的所述点进率,
向所述联合结果块中的每一个分派权重,其中分配权重包括基于所接收的点进反馈为从所述已知的联合源接收的联合结果块中的每一个分配权重,以及基于所预测的点进率为从所述未知的联合源接收的联合结果块分配权重;
基于所分派的权重对所述联合结果块进行排名;以及
生成搜索结果页以显示经排名的联合结果块,该经排名的联合结果块基于预定的阈值在多个层级槽之一中显示。
11.如权利要求10所述的计算机可读存储介质,其特征在于,基于接收到的点进反馈向所述联合结果块中的每一个分派权重包括:
检查企业查询日志和web查询日志以确定至少一个查询项的频率;
在所述至少一个查询项具有高频率时提升联合结果块的点击概率;以及
基于计算得到的点击概率分配从已知联合源接收的所述联合结果块中的每一个的权重。
CN201380043987.9A 2012-08-24 2013-08-19 联合搜索结果上的点进率的在线学习 Active CN104620238B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/593,759 2012-08-24
US13/593,759 US9922120B2 (en) 2012-08-24 2012-08-24 Online learning of click-through rates on federated search results
PCT/US2013/055631 WO2014031552A2 (en) 2012-08-24 2013-08-19 Online learning of click-through rates on federated search results

Publications (2)

Publication Number Publication Date
CN104620238A CN104620238A (zh) 2015-05-13
CN104620238B true CN104620238B (zh) 2018-05-08

Family

ID=49054915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380043987.9A Active CN104620238B (zh) 2012-08-24 2013-08-19 联合搜索结果上的点进率的在线学习

Country Status (4)

Country Link
US (2) US9922120B2 (zh)
EP (1) EP2888681A4 (zh)
CN (1) CN104620238B (zh)
WO (1) WO2014031552A2 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9922120B2 (en) 2012-08-24 2018-03-20 Microsoft Technology Licensing, Llc Online learning of click-through rates on federated search results
US10922326B2 (en) * 2012-11-27 2021-02-16 Google Llc Triggering knowledge panels
US10540365B2 (en) 2014-05-30 2020-01-21 Apple Inc. Federated search
US10642845B2 (en) 2014-05-30 2020-05-05 Apple Inc. Multi-domain search on a computing device
US9946799B2 (en) * 2015-04-30 2018-04-17 Microsoft Technology Licensing, Llc Federated search page construction based on machine learning
US10755032B2 (en) 2015-06-05 2020-08-25 Apple Inc. Indexing web pages with deep links
US10509834B2 (en) 2015-06-05 2019-12-17 Apple Inc. Federated search results scoring
US10592572B2 (en) 2015-06-05 2020-03-17 Apple Inc. Application view index and search
US10509833B2 (en) 2015-06-05 2019-12-17 Apple Inc. Proximity search scoring
US10621189B2 (en) 2015-06-05 2020-04-14 Apple Inc. In-application history search
US11868341B2 (en) * 2020-10-15 2024-01-09 Microsoft Technology Licensing, Llc Identification of content gaps based on relative user-selection rates between multiple discrete content sources

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1856791A (zh) * 2003-07-23 2006-11-01 爱尔兰都柏林国立大学-都柏林大学 信息检索
CN101770483A (zh) * 2008-12-29 2010-07-07 华为技术有限公司 自适应检索方法、装置及系统
US7783620B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Relevancy scoring using query structure and data structure for federated search

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6792416B2 (en) * 1999-09-21 2004-09-14 International Business Machines Corporation Managing results of federated searches across heterogeneous datastores with a federated result set cursor object
US7386599B1 (en) * 1999-09-30 2008-06-10 Ricoh Co., Ltd. Methods and apparatuses for searching both external public documents and internal private documents in response to single search request
US6728704B2 (en) * 2001-08-27 2004-04-27 Verity, Inc. Method and apparatus for merging result lists from multiple search engines
JP4011906B2 (ja) * 2001-12-13 2007-11-21 富士通株式会社 プロファイル情報の情報検索方法、プログラム、記録媒体及び装置
US7330846B1 (en) * 2002-02-08 2008-02-12 Oracle International Corporation System and method for facilitating a distributed search of local and remote systems
US7567953B2 (en) * 2002-03-01 2009-07-28 Business Objects Americas System and method for retrieving and organizing information from disparate computer network information sources
US20050149496A1 (en) * 2003-12-22 2005-07-07 Verity, Inc. System and method for dynamic context-sensitive federated search of multiple information repositories
US7698331B2 (en) 2005-01-18 2010-04-13 Yahoo! Inc. Matching and ranking of sponsored search listings incorporating web search technology and web content
US7752209B2 (en) * 2005-09-14 2010-07-06 Jumptap, Inc. Presenting sponsored content on a mobile communication facility
US20070192293A1 (en) * 2006-02-13 2007-08-16 Bing Swen Method for presenting search results
US8661029B1 (en) * 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US7930286B2 (en) 2007-02-16 2011-04-19 Yahoo! Inc. Federated searches implemented across multiple search engines
US20090037402A1 (en) * 2007-07-31 2009-02-05 Rosie Jones System and method for predicting clickthrough rates and relevance
US20090199115A1 (en) 2008-01-31 2009-08-06 Vik Singh System and method for utilizing tiles in a search results page
US8538985B2 (en) * 2008-03-11 2013-09-17 International Business Machines Corporation Efficient processing of queries in federated database systems
US9495460B2 (en) 2009-05-27 2016-11-15 Microsoft Technology Licensing, Llc Merging search results
US8150859B2 (en) * 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
US8370337B2 (en) 2010-04-19 2013-02-05 Microsoft Corporation Ranking search results using click-based data
US8359311B2 (en) * 2010-06-01 2013-01-22 Microsoft Corporation Federated implicit search
US8996495B2 (en) * 2011-02-15 2015-03-31 Ebay Inc. Method and system for ranking search results based on category demand normalized using impressions
US8458213B2 (en) * 2011-02-28 2013-06-04 Ebay Inc. Method and system for classifying queries to improve relevance of search results
US9442942B2 (en) * 2011-10-20 2016-09-13 Nokia Technologies Oy Method, apparatus and computer program product for dynamic and visual object search interface
KR101994987B1 (ko) * 2012-02-22 2019-09-30 구글 엘엘씨 관련 엔티티들
US9241009B1 (en) * 2012-06-07 2016-01-19 Proofpoint, Inc. Malicious message detection and processing
US9922120B2 (en) 2012-08-24 2018-03-20 Microsoft Technology Licensing, Llc Online learning of click-through rates on federated search results

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1856791A (zh) * 2003-07-23 2006-11-01 爱尔兰都柏林国立大学-都柏林大学 信息检索
US7783620B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Relevancy scoring using query structure and data structure for federated search
CN101770483A (zh) * 2008-12-29 2010-07-07 华为技术有限公司 自适应检索方法、装置及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Federated Search for Heterogeneous Environments;Jaime Arguello;《http://www.cs.cmu.edu/~callan/Papers/ArguelloDissertation.pdf?origin=publication_detail》;20111231;第1-171页 *
个性化元搜索引擎模型研究;孟星 等;《计算机工程与应用》;20081221;第150-152页 *
元搜索引擎调度策略及结果排序算法的研究;王金栋;《中国优秀硕士学位论文全文数据库信息科技辑》;20100815(第08期);第I138-970页 *

Also Published As

Publication number Publication date
WO2014031552A2 (en) 2014-02-27
CN104620238A (zh) 2015-05-13
EP2888681A4 (en) 2016-04-06
US20140059042A1 (en) 2014-02-27
US20180203929A1 (en) 2018-07-19
WO2014031552A3 (en) 2014-09-12
US9922120B2 (en) 2018-03-20
EP2888681A2 (en) 2015-07-01
US10860663B2 (en) 2020-12-08

Similar Documents

Publication Publication Date Title
CN104620238B (zh) 联合搜索结果上的点进率的在线学习
AU2019257397B2 (en) Secure multi-party computation with no trusted initializer
US10803127B2 (en) Relevant information retrieval in record management systems
US10783361B2 (en) Predictive analysis of target behaviors utilizing RNN-based user embeddings
US10235425B2 (en) Entity fingerprints
AU2016225947B2 (en) System and method for multimedia document summarization
US9020841B2 (en) System and method for custom-fitting services to consumer requirements
CN107533561A (zh) 使用企业搜索和公共搜索的上下文敏感内容推荐
CN102782681A (zh) 用于支持用户内容馈送的机制
CN110140134A (zh) 使用深度学习模型来生成推荐
US11321532B2 (en) Conversational manifests for enabling complex bot communications
CN104995598A (zh) 用于访问控制的自由形式元数据的用途
JP2014532939A (ja) クエリ結果ルーティング
US11657104B2 (en) Scalable ground truth disambiguation
CN110059230A (zh) 用于改进搜索的广义线性混合模型
Wang et al. Configuring products with natural language: a simple yet effective approach based on text embeddings and multilayer perceptron
US8489590B2 (en) Cross-market model adaptation with pairwise preference data
CN106462588B (zh) 来自所提取的内容的内容创建
CN105474208A (zh) 使用层面信息的基于文档的搜索
Mohammedali „Recommendation System Based on Graph Database Techniques “
Kumar Leveraging crowd knowledge to curate documentation for agile software industry using deep learning and expert ranking
Sinha et al. Information technology: theory and practice
Liang et al. A hybrid music recommendation system based on scene-state perception model
Bhardwaj et al. Conversational AI—A State‐of‐the‐Art Review
Sammut-Bonnici The sharing economy, jobs and skills

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20171023

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant