CN105247517B - 混合语料库环境中的排名信号 - Google Patents

混合语料库环境中的排名信号 Download PDF

Info

Publication number
CN105247517B
CN105247517B CN201480031478.9A CN201480031478A CN105247517B CN 105247517 B CN105247517 B CN 105247517B CN 201480031478 A CN201480031478 A CN 201480031478A CN 105247517 B CN105247517 B CN 105247517B
Authority
CN
China
Prior art keywords
corpus
information
search
information corpus
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480031478.9A
Other languages
English (en)
Other versions
CN105247517A (zh
Inventor
安基特·贾殷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN105247517A publication Critical patent/CN105247517A/zh
Application granted granted Critical
Publication of CN105247517B publication Critical patent/CN105247517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于检索信息的方法,可以包括在信息检索系统内接收搜索查询。响应于搜索查询的搜索结果可以从第一信息语料库和第二信息语料库中被识别。响应于搜索查询的搜索结果可以从第三信息语料库中被识别。与第一信息语料库和第二信息语料库相关联的排名信号可以基于来自第三信息语料库的搜索结果被确定。来自第一信息语料库和第二信息语料库的搜索结果可以基于排名信号被排名。

Description

混合语料库环境中的排名信号
背景技术
信息检索系统使用词语和短语来索引、检索、组织和描述文件。这样的信息检索系统可以包含元搜索引擎,该元搜索引擎可以结合多个搜索后端或服务的结果。当用户在搜索引擎中键入搜索查询时,查询中的词语被识别并被用于从多个搜索后端中检索文件。例如,对于给定的搜索词语,搜索引擎可以返回相同类型(例如,仅歌曲)的文件,或者也可以返回可以被分为多个不同逻辑语料库(例如,对于给定标题,元搜索引擎可以返回可能包含带有相同标题的歌曲、书籍、视频、电视节目等等的结果)的文件。返回的结果可以根据搜索中使用的单独逻辑语料库被排名。
然而,由于某些语料库可以刚刚以不均匀的使用模式被集成进来(例如,刚刚集成的音乐搜索引擎),单独语料库的排名可能很难。所以,如果用户执行对于音乐专辑标题的搜索,返回的搜索结果可以包含例如具有相同标题的书籍、具有相同标题的电影、以及(在第三位的)具有相同标题的音乐专辑。就这一点而言,用户最感兴趣的结果将在第三位而不是在第一位显示。就这一点而言,由于缺少适当水平的排名数据,元搜索引擎内的搜索后端中的一个或多个的不均匀的使用模式(例如,使用非常受欢迎的搜索后端或使用刚刚集成的搜索后端)可以提供最终搜索结果的次优排序。
通过将常规的和传统的方案与本公开其余部分参考附图阐述的本方法和装置的某些方面的比较,这样的方案的进一步限制和缺点对于本领域的技术人员将变得明显。
发明内容
提供了一种使用万维网(WWW)数据分类文件以用于在混合语料库环境中对信号排名的系统和/或方法,大体上如在附图的至少一个中示出和/或关于附图的至少一个所述,如在权利要求中完整地阐述。
本公开的这些和其它的优点、方面和特征,以及所说明的它们的实现方式的细节,从下文的说明和附图中将得到更充分的理解。
根据本公开的示例实施例,用于检索信息的方法可以包含在信息检索系统内接收搜索查询。响应于搜索查询的搜索结果可以从第一信息语料库和第二信息语料库中被识别。响应于搜索查询的搜索结果可以从第三信息语料库中被识别。与第一信息语料库和第二信息语料库相关联的排名信号可以基于来自第三信息语料库的搜索结果确定。来自第一信息语料库和第二信息语料库的搜索结果可以基于排名信号被排名。
根据本公开的另一个示例实施例,用于检索信息的方法可以包含在信息语料库内接收搜索查询。来自至少一个信息语料库的搜索查询的搜索结果可以在信息语料库内被识别。响应于至少向第二信息语料库传达搜索查询,与信息语料库内的至少一个信息语料库的每一个相关联的排名信号可以至少从第二信息语料库中被接收。排名信号可以基于使用至少第二信息语料库的搜索查询的搜索之后的搜索结果的分类。信息语料库可以是“小型”语料库,该“小型”语料库可以包含作为基于WWW的(或基于web的)语料库的子集的至少一个语料库,或者与基于web的语料库部分或完全非重叠的至少一个语料库。来自至少一个信息语料库的每一个的搜索结果可以在信息语料库内基于所接收到的排名信号被排名。
信息语料库可以包含至少一个非基于万维网(WWW)的信息语料库(例如,由音乐文件组成的语料库),以及至少一个基于WWW(或基于web)的信息语料库。至少第二信息语料库可以包含至少一个基于WWW的(或基于web的)信息语料库。信息语料库可以包含表示任何种类内容、产品和/或信息的文件。这样的文件的示例可以包含电影(用于电影搜索引擎)、曲目/专辑/艺术家(用于音乐搜索引擎)、书籍(用于书籍搜索引擎)、用于app搜索引擎的应用(或app)、以及其他多媒体文件。
根据本公开的另一个示例实施例,用于检索信息的系统可以包含网络设备(例如,如图1所示的带有CPU 105a和存储器105b的元搜索引擎排名器104)。网络设备可以可操作以在信息语料库内接收搜索查询。来自至少一个信息语料库的搜索查询的搜索结果可以在信息语料库内被识别。响应于向至少第二信息语料库传达搜索查询,与信息语料库内的至少一个信息语料库的每一个相关联的排名信号可以至少从第二信息语料库中被接收。排名信号可以基于使用至少第二信息语料库的搜索查询的搜索之后的搜索结果的分类。信息语料库可以是“小型”语料库,该“小型”语料库可以包含作为基于WWW的(或基于web的)语料库的子集的至少一个语料库,或者与基于web的语料库部分或完全非重叠的至少一个语料库。来自至少一个信息语料库的每一个的搜索结果可以在信息语料库内基于所接收到的排名信号被排名。
根据本公开的再一个示例实施例,可以公开了一种机器可读的存储设备,具有存储于其上的计算机程序,所述计算机程序具有用于检索的信息的至少一个代码段。该至少一个代码段可以被机器执行用于促使机器执行一个方法,该方法包含在信息语料库内接收搜索查询。来自至少一个信息语料库的搜索查询的搜索结果可以在信息语料库内被识别。响应于至少向第二信息语料库传达搜索查询,与信息语料库内的至少一个信息语料库的每一个相关联的排名信号可以至少从第二信息语料库中被接收。排名信号可以基于使用至少第二信息语料库的搜索查询的搜索之后的搜索结果的分类。信息语料库可以是“小型”语料库,该“小型”语料库可以包含作为基于WWW的(或基于web的)语料库的子集的至少一个语料库,或者与基于web的语料库部分或完全非重叠的至少一个语料库。来自至少一个信息语料库的每一个的搜索结果可以在信息语料库内基于所接收到的排名信号被排名。
附图说明
图1是根据本公开的示例实施例的图示元搜索引擎架构的框图。
图2A是根据本公开的示例实施例的元搜索引擎中的单独搜索后端的示例实现方式的框图。
图2B是根据本公开的示例实施例的使用基于web和非基于web的语料库信号的独立于查询的分值模块的示例实现方式的框图。
图3是根据本公开的示例实施例的图示元搜索引擎中的最终语料库顺序和搜索结果的示例呈现的框图。
图4是根据本公开的示例实施例的图示用于在元搜索引擎中检索信息的方法的示例步骤的流程图。
图5是根据本公开的示例实施例的图示用于在元搜索引擎中检索信息的另一个方法的示例步骤的流程图。
具体实施方式
本文使用的词语“电子线路”和“电路”指的是物理电子组件(即,硬件)和可以配置硬件、被硬件执行和或与硬件相关联的任何软件和/或固件(“代码”)。作为示例,“x和/或y”意为三元素集{(x),(y),(x,y)}中的任一元素。作为另一个示例,“x,y,和/或z”意为七元素集{(x),(y),(z),(x,y),(x,z),(y,z),(x,y,z)}中的任一元素。本文使用的词语“例如”介绍一个或多个非限制示例、实例、或例证的清单。
人们每天在web搜索引擎上进行大量查询。基于本文描述的方法和系统,从这样的搜索引擎收集的数据可以被用于改进非web搜索引擎。我们将这样的搜索引擎系统称为web语料库或基于web的信息语料库。本文使用的词语“语料库(corpus)”(复数为“语料库(corpora)”)意为给定类型的文件(或数据项)集合。本文使用的词语“基于WWW的搜索语料库”或“基于WWW的语料库”是旨在包含互联网上可用的所有文件的语料库(即,包含但不限于音乐相关文件、书籍相关文件、电影相关文件和其它媒体相关文件)。词语“非WWW语料库”或“非基于WWW的语料库”意为语料库文件(或数据项)在WWW上不可用的语料库。
词语“小型”语料库可以表示包含作为基于WWW(或基于web)的语料库的子集的至少一个语料库,或者与基于web的语料库部分或完全非重叠的至少一个语料库的语料库。“小型”语料库的示例可以包含与在线媒体搜索引擎相关联的语料库。“小型”语料库可以包含,举例来说,电影语料库(与电影搜索引擎相关联)、音乐语料库(与音乐搜索引擎相关联)等等。此外,音乐和/或电影数据库的部分可以是经由基于WWW的语料库的互联网搜索(即,相应的语料库的这样的部分是基于WWW的语料库的子集)可用的,而“小型”语料库的其它部分可以不是在基于www的语料库上可用的,并且因此,可以是与基于WWW的语料库非重叠的。
词语“非重叠语料库”(例如,第一语料库与第二语料库非重叠),意为可以在一个语料库中找到的文件,在另一个语料库中不可以被找到。
本文使用的词语“元搜索引擎”意为包括带有多个搜索后端的混合语料库环境的搜索引擎。每一个搜索后端可以利用与某些类型的文件相关联的语料库(例如,app、音乐、书籍等等)。
在某些情况下,混合语料库搜索引擎(例如,元搜索引擎)可以使用查询对点击比率确定搜索结果内语料库的顺序。这样的方法可以在具有大量同等地遍及全部语料库的历史数据的系统中良好运行。然而,当语料库中的一个或多个比其它语料库已经存在了明显长得多的时间时,这一方法可能是不完善的。例如,元搜索引擎中的搜索后端之一可能与应用(或app)相关联并可能比音乐搜索后端和书籍搜索后端(或任何其它搜索后端)存在了更长的时间。如果用户执行搜索“Lady Gaga”,元搜索引擎可能在搜索结果页面的顶部显示来自app搜索后端的结果(由于后端存在了更长的时间段,查询对点击比率将比其它后端更高),并且然后才是来自书籍和音乐搜索后端的结果。
之前的研究表明,消费者对搜索结果页面的顶部注意得最多,即使该结果并不是最适当的。因此,在具有比其它搜索后端运行了更长时间的app搜索后端的元搜索引擎中使用基于查询对点击比率的信号用于语料库排序,将导致应用几乎总是位于元搜索引擎搜索结果的首位。这将导致消费者不能发现被提供的其它内容垂直(即,其它搜索后端)并且从而永不能将它们带到搜索结果的顶部。
本公开涉及使用在相关查询受欢迎度以及作为结果的网页结果的性质和信号两者方面在万维网(WWW)上可用数据,用于增强可用于在元搜索引擎中排名单独语料库的信号的方法和系统。换句话说,外部信号(例如,web相关的信号)可以被导入到元搜索引擎,作为将对于给定查询最为合适的内容垂直(即,搜索后端)分类的方法,以补偿来自与元搜索引擎内的一个或多个语料库相关联的不平衡的查询对点击比率信号的潜在偏差。例如,元搜索引擎中一个或多个语料库的排名可以通过计算属于对元搜索引擎可用的语料库/搜索后端的每一个的每个查询的可能性得到。
图1是根据本公开的示例实施例,图示元搜索引擎架构的框图。参考图1,元搜索引擎100可以包括多个搜索后端108、…、112(分别与语料库1、…、语料库N相关联),多语料库排名器104,以及语料库分类引擎106。
搜索后端108、…、112的每一个和它们的关联语料库1、…、语料库N可以是与特定类型的文件相关联的单独搜索引擎。例如,语料库1可以与音乐相关联,语料库2可以与app相关联,语料库N可以与书籍相关联,诸如此类。此外,搜索后端108、…、112的每一个可以包括合适的电路、逻辑和/或代码并可以是可操作以接收来自多语料库排名器104的搜索查询并经由通信路径116、…、120(其可以是有线的和/或无线的)向排名器104返回搜索结果。
语料库分类引擎106可以包括CPU 107a、存储器107b和排名器107c。排名器107c可以包括合适的电路、逻辑和/或代码并可以可操作以基于从多语料库排名器104接收到的用户搜索查询确定语料库分类可能性。更具体地,排名器107c可以使用所接收到的用户搜索查询作为基于web的搜索查询以搜索可以包含与搜索后端108、…、112相关联的类型的文件的一个或多个基于web的语料库。基于web的搜索的结果可以使用依赖于查询和/或独立于查询的评分被分类(搜索结果的独立于查询的评分的示例标准在本文参考图2B被公开)。然后,排名器107c可以分析来自基于web的搜索的被确定的前X数目的结果(例如,前30个结果),以便为关于用户搜索查询的语料库1、…、语料库N确定语料库分类分配。例如,在分析前30个基于web的搜索结果之后,排名器107c可能确定最受欢迎的基于web的搜索结果很可能与语料库2相关联,然后是语料库1,等等。换句话说,排名器107c使用用户搜索查询基于该基于web的搜索的结果为搜索后端108、112生成分类可能性。
多语料库排名器104可以包括CPU 105a和存储器105b,并可以可操作以接收(来自语料库分类引擎106的)搜索后端分类可能性和(来自分别与语料库1、…、语料库N相关联的搜索后端108、…、112的)搜索后端搜索结果。然后,多语料库排名器104可以响应于所接收到的用户查询114,生成最终语料库顺序和结果114。
在操作中,来自用户101的搜索查询102可以被提交给多语料库排名器104。多语料库排名器104可以经由通信路径116、…、120向搜索后端108、…、112的每一个,以及语料库分类引擎106传达搜索查询102。然后,语料库分类引擎106可以为关于用户搜索查询102的语料库1、…、语料库N确定语料库分类可能性122,并可以向多语料库排名器104传送回语料库排名可能性122。此外,搜索后端108、…、112的每一个可以以相关性顺序向多语料库排名器104返回其搜索结果。然后,多语料库排名器104可以基于从每个搜索后端108、…、112接收到的搜索结果(或分值)以及关于用户搜索查询102的语料库1、…、语料库N的语料库分类可能性122,生成最终语料库顺序和结果114。
图2A是根据本公开的示例实施例,元搜索引擎中的单独搜索后端的示例实现方式的框图。参考图2A,示例搜索后端108可以包括搜索引擎202和语料库1数据库204。
语料库1数据库204可以是,举例来说,音乐数据库并可以包括可操作以向搜索引擎202提供原始音乐相关的数据的合适的电路、逻辑和/或代码。例如,数据库204可以提供艺术家数据、音乐专辑数据、和曲目数据。
搜索引擎202可以包括合适的电路、逻辑和/或代码并可以可操作以响应于来自用户101的用户查询102以接收原始音乐相关的数据(例如,文件216、D1、…、Dn),并基于文件最终分值212、…、214对所接收到的文件216排名。搜索引擎202可以包括CPU 203、存储器205、受欢迎度引擎206和搜索引擎排名器208。
受欢迎度引擎206可以包括合适的电路、逻辑和/或代码并可以可操作以为从原始音乐数据库204接收的一个或多个类别的文件计算独立于查询的受欢迎度分值217。
例如,受欢迎度引擎206可以包括合适的电路、逻辑和/或代码并可以可操作以经由通信链路218从数据库204接收音乐曲目相关的数据、专辑相关的数据和/或艺术家相关的数据。然后,受欢迎度引擎122可以分别计算给定的曲目、专辑和/或艺术家的独立于查询的受欢迎度分值。例如,依赖于查询的受欢迎度分值217可以基于搜索后端108内先前所接收到的关于特定音乐曲目、专辑和/或音乐家的搜索查询的数目,以及音乐曲目、专辑和/或艺术家的至少一个网页搜索结果的查询对点击比率信息和点进率(CTR)信息的至少一个。就这一点而言,独立于查询的受欢迎度分值217可以是独立于查询的曲目受欢迎度分值、独立于查询的专辑受欢迎度分值、和/或独立于查询的艺术家受欢迎度分值中的一个或多个。
虽然受欢迎度引擎206被图示为在搜索引擎202内实现,本公开可以不被限制于此。更具体地说,受欢迎度引擎206可以与搜索引擎202分开实现。
搜索引擎排名器208可以包括合适的电路、逻辑和/或代码并可以可操作以响应于用户查询102接收一个或多个文件216(例如,文件D1、…、Dn)。然后,搜索引擎排名器208可以基于最终排名分值212、…、214对所接收到的文件216排名,所述最终排名分值212、…、214是使用从受欢迎度引擎206接收到的一个或多个受欢迎度分值217为每个文件计算得到的。搜索引擎排名器可以基于依赖于查询的分值以及独立于查询的分值,诸如受欢迎度分值217以及从独立于查询的分值模块210和211接收到的其它独立于查询的分值,来为每个文件生成最终排名分值212、…、214。
根据本公开的示例实施例,搜索后端108也可以包括独立于查询的分值模块210和211。独立于查询的分值模块210可以包括合适的电路、逻辑和/或代码并可以被用于传达给定文件的一个或多个独立于查询的分值。独立于查询的分值可以与非基于web的语料库相关的信号相关联,诸如与音乐搜索引擎语料库(例如,音乐数据库204)相关的信号。独立于查询的分值模块211可以包括合适的电路、逻辑和/或代码并可以被用于传达给定文件的一个或多个独立于查询的分值。独立于查询的分值可以使用通用的和非基于web的语料库相关的信号与基于web的语料库相关联。从独立于查询的分值模块210-211接收到的独立于查询的分值可以被搜索引擎排名器208使用以生成文件216D1、…、Dn的最终排名分值212、…、214。
虽然搜索引擎202、数据库204和独立于查询的分值模块210-211都被图示为单独模块,本公开可以不被限制于此。更具体地说,数据库204和独立于查询的分值模块210-211可以是受CPU 203控制的具有全部处理功能的搜索引擎202的一部分,并在其内实现。正如本文所公开的,CPU 203可以可操作以执行与信息的检索相关联的处理功能中的一个或多个。
此外,虽然图2A-2B公开了与音乐数据库(语料库1)相关联的搜索后端108的更具体的实现方式,在图1的元搜索引擎100中同样的实现方式可以被用于其它搜索后端110、…、112。
图2B是根据本公开的示例实施例,使用基于web和非基于web的语料库信号的独立于查询的分值模块的示例实现方式的框图。参考图2B,独立于查询的分值模块211可以包括合适的电路、逻辑和/或代码并可以被用于为给定的文件传达一个或多个独立于查询的分值,其中该分值可以基于用于基于WWW的语料库的搜索结果的WWW信号。独立于查询的分值可以被搜索引擎排名器208使用,以生成文件216D1、…、Dn的最终排名分值212、…、214。更具体地说,独立于查询的分值模块211可以包括查询量模块240、查询频率模块241、查询对点击比率模块242、点进率(CTR)模块243、音乐词语可用性模块244、以及音乐网页可用性模块245。
查询量模块240和查询频率模块241可以包括合适的电路、逻辑和/或代码并可以可操作以提供分值,该分值分别与在基于web的信息语料库内执行的搜索的查询量和查询频率相关联。查询对点击比率模块242和点进率模块243可以包括合适的电路、逻辑和/或代码并可以可操作以提供分值,该分值分别与在基于web的信息语料库内执行的查询的网页搜索结果的查询对点击比率和点进率相关联。
音乐词语可用性模块244可以包括合适的电路、逻辑和/或代码并可以可操作以提供分值,该分值基于在基于web的信息语料库内执行的查询的网页搜索结果中的音乐相关词语的可用性。音乐网页可用性模块245可以包括合适的电路、逻辑和/或代码并可以可操作以提供分值,该分值基于在基于web的信息语料库内执行的查询的单独网页搜索结果是否包含音乐相关的网页。就这一点而言,当这样的搜索结果中的单独页面含有音乐相关的词语或当单独页面是完全音乐相关的时,音乐词语可用性模块244和音乐网页可用性模块245提供的分值可以被用于为基于web的结果提供额外的权重。
虽然关于独立于查询的分值模块211只列出六个独立于查询的分值模块240-245(使用基于web的语料库信号),本公开并不被限制于此,且其它独立于查询的分值也可以被搜索引擎202在生成最终排名分值212、…、214的过程中利用。
参考图2B,独立于查询的分值模块210可以包括合适的电路、逻辑和/或代码并可以被用于为给定文件传达一个或多个独立于查询的分值,其中该分值可以基于在非基于web的语料库中(例如,音乐搜索引擎)的搜索结果的信号。独立于查询的分值可以被搜索引擎排名器208用于生成文件D1、…、Dn的最终排名分值212、…、214。更具体地,独立于查询的分值模块210可以包括用户查询位置模块250、专辑发行数据模块251、销售统计模块252、以及播放统计模块253。
模块250-253的每一个可以包括合适的电路、逻辑和/或代码并可以可操作以向搜索引擎排名器208分别提供用户查询位置信息、专辑发行数据信息、销售统计信息、或播放统计信息,用于增加给定文件的总排名分值。例如,如果用户查询102是关于给定艺术家的特定音乐曲目的,原始音乐数据库可以定位并向搜索引擎202返回带有期望的标题的并且由期望的艺术家创作的两首曲目(例如,该音乐家可能以2种不同语言,对于两个不同的地域市场发行了同一首歌曲)。受欢迎度引擎206返回的受欢迎度分值对于两首曲目可以是相同的(在专辑和艺术家受欢迎度分值为每首曲目混合之后,相同的专辑和相同的艺术家可以导致相同的总受欢迎度分值)。在这样的情况下,用户查询位置模块250可以被用于传达用户查询102的地理位置(例如,该位置可能基于发送搜索查询102的用户101的IP地址而获得)。如果地理位置与歌曲的两个版本预期的两个地域市场中的一个相同,则以与从该处接收到用户查询102的地理位置的语言相同的语言记录的曲目可以被给予额外的分值,并且从而在最终排名分值列表212、…、214中排名更高。
虽然关于独立于查询的分值模块210只列出四个独立于查询的分值模块250-253(使用非基于web的语料库),本公开并不被限制于此,并且其它独立于查询的分值也可以被搜索引擎202在生成最终排名分值212、…、214的过程中利用。
图3是根据本公开的示例实施例,图示元搜索引擎中的最终语料库顺序和搜索结果的示例呈现的框图。参考图1-3,在搜索查询102被多语料库排名器104接收后,它可以被传达给搜索后端108、…、112的每一个,并被传达给语料库分类引擎106。然后,语料库分类引擎106可以为关于用户搜索查询102的语料库1、…、语料库N确定语料库分类可能性122,并可以将语料库分类可能性122传达回多语料库排名器104。
例如,语料库分类引擎可以使用利用用户搜索查询102的基于web的搜索,并可以获得具有前30个搜索结果的最终搜索结果列表。前10个结果可能是app,接下来的10个结果可能是音乐相关的文件,而最后10个结果可能是书籍相关的文件。在这样的情况下,语料库分类可能性122可以指示语料库2(app相关的)顶部分类,接下来是语料库1(音乐相关的)、并且最后是语料库N(书籍相关的)。
此外,搜索后端108、…、112的每一个可以以相关性顺序向多语料库排名器104返回其搜索结果。例如,搜索后端108(与语料库1相关联)可以为在语料库1内搜索的顶部文件(音乐相关的)返回最终排名分值列表212、…、214。同样,搜索后端110(与语料库2相关联)可以为在语料库2内搜索的顶部文件(app相关的)返回最终排名分值列表302、…、304,且搜索后端112(与语料库N相关联)可以为在语料库N内搜索的顶部文件(书籍相关的)返回最终排名分值列表306、…、308。
然后,如图3中所示,基于从每个搜索后端108、…、112接收到的搜索结果(或分值)以及关于用户搜索查询102的语料库1、…、语料库N的语料库分类可能性122,多语料库排名器104可以生成最终语料库顺序和结果114。更具体地说,由于语料库分类可能性122指示了语料库2(app相关的)的顶部分类、接下来是语料库1(音乐相关的)、以及最后的语料库N(书籍相关的),搜索引擎的相似的排列以展现给用户101的最终语料库顺序和结果114反映。
虽然图3指示了基于在前30个基于web的搜索结果的基础上确定的语料库分类可能性并只使用语料库1、语料库2和语料库N的搜索结果的示例排列,本公开可以并不被限制于此。不同数目的基于web的搜索结果可以连同与语料库1、…、语料库N中的一个或多个相关联的语料库分类可能性一起使用。
图4是根据本公开的示例实施例,图示用于在元搜索引擎中检索信息的方法的示例步骤的流程图。参考图1-4,当可以在元搜索引擎100内接收搜索查询102时,示例方法400可以在402开始。在404,可以从信息语料库内的至少一个信息语料库中识别搜索查询的搜索结果(例如,分别从语料库1、语料库2和语料库N中识别出搜索结果212、…、214;302、…、304;以及306、…、308)。在块406,响应于至少向第二信息语料库(例如,基于web的语料库分类模块106)传达搜索查询(102),可以至少从第二信息语料库(106)接收与信息语料库内的至少一个信息语料库的每一个相关联的排名信号(例如,语料库分类可能性122)。排名信号(122)可以基于搜索查询(102)使用至少第二信息语料库(106)的搜索后的搜索结果的分类。“小型”信息语料库可以包含作为基于WWW(或基于web)的语料库的子集的至少一个语料库,或者与基于web的语料库,例如,至少第二信息语料库(106),部分或完全非重叠的至少一个语料库。
在408,多语料库排名器104可以基于所接收到的排名信号(例如,122)对来自信息语料库内的至少一个信息语料库(例如,搜索后端108、…、112)的每一个的搜索结果排名。“小型”信息语料库(语料库1、…、N)可以包含作为基于WWW(或基于web)的语料库的子集的至少一个语料库,或者与基于web的语料库(例如,106)部分或完全非重叠的至少一个语料库。
搜索结果的排名可以包含基于与搜索查询相关联的搜索分值(例如,从信息语料库内的至少一个信息语料库的每一个接收到的搜索分值212、…、214;302、…、304;以及306、…、308)、以及与至少一个信息语料库(语料库1、…、语料库N)的每一个的分类可能性相关联的所接收到的排名信号(122),对搜索结果排序。与至少一个信息语料库的每一个相关联的排名信号可以包含第一分值信号,该第一分值信号基于为搜索查询(102)在至少第二信息语料库(106)内执行的搜索的查询量和查询频率之一或二者。与至少一个信息语料库的每一个相关联的排名信号可以包含第二分值信号,该第二分值信号基于为搜索查询在至少第二信息语料库(106)内执行的搜索的至少一个网页搜索结果的至少一个受欢迎度度量。至少一个受欢迎度度量可以包含至少一个网页搜索结果的查询对点击比率信息和点进率(CTR)信息中的至少一个。
图5是根据本公开的示例实施例,图示用于在元搜索引擎中检索信息的另一个方法的示例步骤的流程图。参考图1-5,当可以在信息检索系统内(例如,元搜索引擎100)接收搜索查询(102)时,示例方法500可以在502开始。在504,多语料库排名器104可以识别响应于搜索查询(102)的搜索结果,该结果可能接收自第一信息语料库(例如,语料库1、…、N之一)和第二信息语料库(例如,语料库1、…、N的另一个)。在506,多语料库排名器104可以识别响应于搜索查询(102)的搜索结果,该结果可能接收自第三信息语料库(例如,与至少一个基于web的语料库相关联的基于web的语料库分类引擎106)。在508,多语料库排名器104可以基于来自第三信息语料库的搜索结果,确定与第一信息语料库和第二信息语料库相关联的排名信号。在510,多语料库排名器104可以基于排名信号对来自第一信息语料库和第二信息语料库的搜索结果排名。
其它实现方式可以提供非暂时性计算机可读介质、存储介质和/或存储设备,和/或非暂时性机器可读介质、存储介质和/或存储设备,具有存储于其上的机器代码和/或计算机程序,该机器代码和/或计算机程序具有可以被机器和/或计算机执行的至少一个代码段,从而促使机器和/或计算机执行用于检索信息的本文所述的步骤。
相应地,本方法和/或系统可以以硬件、软件、或者硬件和软件的组合实现。本方法和/或系统可以以集中的形式在至少一个计算机系统中实现,或者可以以不同元素遍及于若干互相连接的计算机系统的分布式的形式实现。任何种类的计算机系统或适合于执行本文描述的方法的其它系统都是合适的。硬件和软件的典型组合可以是具有计算机程序的通用计算机系统,所述计算机程序当被加载并执行时,控制计算机系统使得其可以执行本文描述的方法。
本方法和/或系统也可以嵌入计算机程序产品中,该计算机程序产品包括使得本文所述方法的能够实现的所有特征,并且该计算机程序产品当在计算机系统中被加载时,能够执行这些方法。当前语境下的计算机程序意为指令集的任何语言、代码或符号形式的任何表达,该指令集试图促使具有信息处理能力的系统直接执行或者在以下的一者或两者后执行特殊功能:a)转换为另一种语言、代码或符号;b)以不同材料形式再现。
尽管本方法和/或装置已参考某些实现方式被描述,本领域技术人员将会理解,可以做出各种改变并且可以替代等同物,而不脱离于本方法和/或装置的范围。此外,可以做出许多修改以使特殊情况或者材料适应于本公开的教导,而不脱离其范围。因此,本方法和/或装置并非意在限于所公开的具体实现方式,而是本方法和/或装置将包含处于附属的权利要求范围之内的所有实现方式。

Claims (17)

1.一种用于检索信息的方法,包括:
在信息检索系统内接收搜索查询;
识别来自第一信息语料库和第二信息语料库的响应于所述搜索查询的搜索结果,其中,所述第一信息语料库和所述第二信息语料库均对应于选自用于搜索音乐曲目、音乐专辑和音乐艺术家中的一个或多个的音乐搜索引擎、用于搜索应用(app)的app搜索引擎、用于搜索电影的电影搜索引擎以及用于搜索书籍的书籍搜索引擎的不同搜索引擎;
识别来自第三信息语料库的响应于所述搜索查询的搜索结果,其中,所述第三信息语料库包括与先前查询有关以及与关于查询主题有关的外部信息;
基于来自所述第三信息语料库的所述搜索结果,确定与所述第一信息语料库和所述第二信息语料库相关联的排名信号;以及
基于所述排名信号,对来自所述第一信息语料库和所述第二信息语料库的所述搜索结果进行排名,其中,如果所述排名信号指示所述第一信息语料库比所述第二信息语料库更与所述查询相关,则来自所述第一信息语料库的所有结果被排名在来自所述第二信息语料库的所有结果之前。
2.根据权利要求1所述的方法,其中:
所述第一信息语料库和所述第二信息语料库中的至少一个包括非基于WWW的信息语料库;
所述第三信息语料库包括基于WWW的信息语料库;以及
所述排名信号基于来自所述第三信息语料库的所述搜索结果的分类。
3.根据权利要求1所述的方法,其中,所述搜索结果的所述排名包括:
基于以下对所述搜索结果排序:
与所述搜索查询相关联的搜索分值,所述搜索分值接收自所述第一信息语料库和所述第二信息语料库;以及
与所述第一信息语料库和所述第二信息语料库相关联的所接收到的排名信号。
4.根据权利要求1所述的方法,其中,与所述第一信息语料库和所述第二信息语料库相关联的所述排名信号包括第一分值信号,所述第一分值信号基于为所述搜索查询在所述第三信息语料库内执行的搜索的查询量和查询频率中的一个或二者。
5.根据权利要求4所述的方法,其中,与所述第一信息语料库和所述第二信息语料库相关联的所述排名信号包括第二分值信号,所述第二分值信号基于为所述搜索查询在所述第三信息语料库内执行的所述搜索的至少一个网页搜索结果的至少一个受欢迎度度量。
6.根据权利要求5所述的方法,其中,所述至少一个受欢迎度度量包括所述至少一个网页搜索结果的查询对点击比率信息和点进率(CTR)信息中的至少一个。
7.一种用于检索信息的系统,包括:
网络设备,所述网络设备包括耦接到存储器的至少一个处理器,所述网络设备可操作以:
在信息检索系统内接收搜索查询;
识别来自第一信息语料库和第二信息语料库的响应于所述搜索查询的搜索结果,其中,所述第一信息语料库和所述第二信息语料库均对应于选自用于搜索音乐曲目、音乐专辑和音乐艺术家中的一个或多个的音乐搜索引擎、用于搜索应用(app)的app搜索引擎、用于搜索电影的电影搜索引擎以及用于搜索书籍的书籍搜索引擎的不同搜索引擎;
识别来自第三信息语料库的响应于所述搜索查询的搜索结果,其中,所述第三信息语料库包括与先前查询有关以及与关于查询主题有关的外部信息;
基于来自所述第三信息语料库的所述搜索结果,确定与所述第一信息语料库和所述第二信息语料库相关联的排名信号;以及
基于所述排名信号,对来自所述第一信息语料库和所述第二信息语料库的所述搜索结果进行排名,其中,如果所述排名信号指示所述第一信息语料库比所述第二信息语料库更与所述查询相关,则来自所述第一信息语料库的所有结果被排名在来自所述第二信息语料库的所有结果之前。
8.根据权利要求7所述的系统,其中:
所述第一信息语料库和所述第二信息语料库中的至少一个包括非基于WWW的信息语料库;
所述第三信息语料库包括基于WWW的信息语料库;以及
所述排名信号基于来自所述第三信息语料库的所述搜索结果的分类。
9.根据权利要求7所述的系统,其中,在所述搜索结果的所述排名期间,所述网络设备可操作以:
基于以下对所述搜索结果排序:
与所述搜索查询相关联的搜索分值,所述搜索分值接收自所述第一信息语料库和所述第二信息语料库;以及
与所述第一信息语料库和所述第二信息语料库相关联的所接收到的排名信号。
10.根据权利要求7所述的系统,其中,与所述第一信息语料库和所述第二信息语料库相关联的所述排名信号包括第一分值信号,所述第一分值信号基于为所述搜索查询在所述第三信息语料库内执行的搜索的查询量和查询频率中的一个或二者。
11.根据权利要求10所述的系统,其中,与所述第一信息语料库和所述第二信息语料库相关联的所述排名信号包括第二分值信号,所述第二分值信号基于为所述搜索查询在所述第三信息语料库内执行的所述搜索的至少一个网页搜索结果的至少一个受欢迎度度量。
12.根据权利要求11所述的系统,其中,所述至少一个受欢迎度度量包括所述至少一个网页搜索结果的查询对点击比率信息和点进率(CTR)信息中的至少一个。
13.一种机器可读的存储设备,具有存储于其上的计算机程序,所述计算机程序具有用于检索信息的至少一个代码段,所述至少一个代码段可由机器执行以用于促使所述机器执行一种方法,包括:
在信息检索系统内接收搜索查询;
识别来自第一信息语料库和第二信息语料库的响应于所述搜索查询的搜索结果,其中,所述第一信息语料库和所述第二信息语料库均对应于选自用于搜索音乐曲目、音乐专辑和音乐艺术家中的一个或多个的音乐搜索引擎、用于搜索应用(app)的app搜索引擎、用于搜索电影的电影搜索引擎以及用于搜索书籍的书籍搜索引擎的不同搜索引擎;
识别来自第三信息语料库的响应于所述搜索查询的搜索结果,其中,所述第三信息语料库包括与先前查询有关以及与关于查询主题有关的外部信息;
基于来自所述第三信息语料库的所述搜索结果,确定与所述第一信息语料库和所述第二信息语料库相关联的排名信号;以及
基于所述排名信号,对来自所述第一信息语料库和所述第二信息语料库的所述搜索结果进行排名,其中,如果所述排名信号指示所述第一信息语料库比所述第二信息语料库更与所述查询相关,则来自所述第一信息语料库的所有结果被排名在来自所述第二信息语料库的所有结果之前。
14.根据权利要求13所述的机器可读的存储设备,其中:
所述第一信息语料库和所述第二信息语料库中的至少一个包括非基于WWW的信息语料库;
所述第三信息语料库包括基于WWW的信息语料库;以及
所述排名信号基于来自所述第三信息语料库的所述搜索结果的分类。
15.根据权利要求13所述的机器可读的存储设备,其中,所述搜索结果的所述排名包括代码以用于:
基于以下对所述搜索结果排序:
与所述搜索查询相关联的搜索分值,所述搜索分值接收自所述第一信息语料库和所述第二信息语料库;以及
与所述第一信息语料库和所述第二信息语料库相关联的所接收到的排名信号。
16.根据权利要求13所述的机器可读的存储设备,其中,与所述第一信息语料库和所述第二信息语料库相关联的所述排名信号包括第一分值信号,所述第一分值信号基于为所述搜索查询在所述第三信息语料库内执行的搜索的查询量和查询频率中的一个或二者。
17.根据权利要求16所述的机器可读的存储设备,其中,与所述第一信息语料库和所述第二信息语料库相关联的所述排名信号包括第二分值信号,所述第二分值信号基于为所搜索查询在所述第三信息语料库内执行的所述搜索的至少一个网页搜索结果的至少一个受欢迎度度量,
其中,所述至少一个受欢迎度度量包括所述至少一个网页搜索结果的查询对点击比率信息和点进率(CTR)信息中的至少一个。
CN201480031478.9A 2013-04-23 2014-04-21 混合语料库环境中的排名信号 Active CN105247517B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/868,333 US9405803B2 (en) 2013-04-23 2013-04-23 Ranking signals in mixed corpora environments
US13/868,333 2013-04-23
PCT/US2014/034796 WO2014176161A1 (en) 2013-04-23 2014-04-21 Ranking signals in mixed corpora environments

Publications (2)

Publication Number Publication Date
CN105247517A CN105247517A (zh) 2016-01-13
CN105247517B true CN105247517B (zh) 2019-05-14

Family

ID=50884491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480031478.9A Active CN105247517B (zh) 2013-04-23 2014-04-21 混合语料库环境中的排名信号

Country Status (4)

Country Link
US (1) US9405803B2 (zh)
EP (1) EP2989565A1 (zh)
CN (1) CN105247517B (zh)
WO (1) WO2014176161A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477713B2 (en) 2014-06-06 2016-10-25 Netflix, Inc. Selecting and ordering groups of titles
US10268732B2 (en) 2015-06-29 2019-04-23 Google Llc Ranking native applications and native application deep links
US9952848B2 (en) * 2015-12-21 2018-04-24 Samsung Electronics Co., Ltd. Dependency-aware transformation of multi-function applications for on-demand execution
US9811327B2 (en) 2015-12-21 2017-11-07 Quixey, Inc. Dependency-aware transformation of multi-function applications for on-demand execution
US20190303375A1 (en) * 2016-05-23 2019-10-03 Microsoft Technology Licensing, Llc Relevant passage retrieval system
CN106503066B (zh) * 2016-09-29 2019-10-15 北京百度网讯科技有限公司 基于人工智能的处理搜索结果方法和装置
US10289526B2 (en) * 2017-02-06 2019-05-14 Microsoft Technology Licensing, Llc Object oriented data tracking on client and remote server
CN106991181B (zh) * 2017-04-07 2020-04-21 广州视源电子科技股份有限公司 口语化语句提取的方法及装置
US11509721B2 (en) 2021-01-31 2022-11-22 Salesforce.Com, Inc. Cookie-based network location of storage nodes in cloud

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1809803A (zh) * 2003-04-25 2006-07-26 奥弗图尔服务公司 将异源的搜索引擎结果混合为一个搜索结果的方法与系统
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN101641694A (zh) * 2007-02-16 2010-02-03 雅虎公司 通过若干搜索引擎实现的联合搜索
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器
US8359309B1 (en) * 2007-05-23 2013-01-22 Google Inc. Modifying search result ranking based on corpus search statistics

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050160107A1 (en) 2003-12-29 2005-07-21 Ping Liang Advanced search, file system, and intelligent assistant agent
US8078607B2 (en) 2006-03-30 2011-12-13 Google Inc. Generating website profiles based on queries from webistes and user activities on the search results
US8583632B2 (en) * 2005-03-09 2013-11-12 Medio Systems, Inc. Method and system for active ranking of browser search engine results
US7657518B2 (en) * 2006-01-31 2010-02-02 Northwestern University Chaining context-sensitive search results
US7818315B2 (en) * 2006-03-13 2010-10-19 Microsoft Corporation Re-ranking search results based on query log
US7536417B2 (en) * 2006-05-24 2009-05-19 Microsoft Corporation Real-time analysis of web browsing behavior
US7805438B2 (en) 2006-07-31 2010-09-28 Microsoft Corporation Learning a document ranking function using fidelity-based error measurements
US7966309B2 (en) 2007-01-17 2011-06-21 Google Inc. Providing relevance-ordered categories of information
US7668823B2 (en) * 2007-04-03 2010-02-23 Google Inc. Identifying inadequate search content
US7853589B2 (en) * 2007-04-30 2010-12-14 Microsoft Corporation Web spam page classification using query-dependent data
US9002869B2 (en) * 2007-06-22 2015-04-07 Google Inc. Machine translation for query expansion
US8713001B2 (en) * 2007-07-10 2014-04-29 Asim Roy Systems and related methods of user-guided searching
US7890493B2 (en) * 2007-07-20 2011-02-15 Google Inc. Translating a search query into multiple languages
US20090063265A1 (en) * 2007-09-04 2009-03-05 Yahoo! Inc. Information network for text ads
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US8615512B2 (en) * 2008-09-30 2013-12-24 Yahoo! Inc. Guiding user moderation by confidence levels
US8060456B2 (en) * 2008-10-01 2011-11-15 Microsoft Corporation Training a search result ranker with automatically-generated samples
BRPI1014397A2 (pt) * 2009-05-27 2016-04-05 Google Inc dados de aplicação por computador em resultados de pesquisa
US8150843B2 (en) * 2009-07-02 2012-04-03 International Business Machines Corporation Generating search results based on user feedback
US8280900B2 (en) * 2010-08-19 2012-10-02 Fuji Xerox Co., Ltd. Speculative query expansion for relevance feedback
CN103020164B (zh) * 2012-11-26 2015-06-10 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1809803A (zh) * 2003-04-25 2006-07-26 奥弗图尔服务公司 将异源的搜索引擎结果混合为一个搜索结果的方法与系统
CN101641694A (zh) * 2007-02-16 2010-02-03 雅虎公司 通过若干搜索引擎实现的联合搜索
US8359309B1 (en) * 2007-05-23 2013-01-22 Google Inc. Modifying search result ranking based on corpus search statistics
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器

Also Published As

Publication number Publication date
CN105247517A (zh) 2016-01-13
WO2014176161A1 (en) 2014-10-30
US9405803B2 (en) 2016-08-02
US20140317073A1 (en) 2014-10-23
EP2989565A1 (en) 2016-03-02

Similar Documents

Publication Publication Date Title
CN105247517B (zh) 混合语料库环境中的排名信号
CN101151607B (zh) 用于提供产品评论的方法和系统
US20170161818A1 (en) Explanations for personalized recommendations
US7447678B2 (en) Interface for a universal search engine
US8190601B2 (en) Identifying task groups for organizing search results
US20140317105A1 (en) Live recommendation generation
US20160179958A1 (en) Related entities
US8484179B2 (en) On-demand search result details
US20180004850A1 (en) Method for inputting and processing feature word of file content
US20130311487A1 (en) Semantic search using a single-source semantic model
US20090019034A1 (en) Media discovery and playlist generation
CN105765573A (zh) 网站通信量优化方面的改进
US9330071B1 (en) Tag merging
WO2011062598A1 (en) System and method for automated filtering of reviews for marketability
TW200937237A (en) System and method for generating expertise based search results
CA2591441A1 (en) Method, system and graphical user interface for providing reviews for a product
Lalmas et al. Evaluating XML retrieval effectiveness at INEX
JP5548900B2 (ja) 複数の属性を利用したWebページ推薦方法
US8140525B2 (en) Information processing apparatus, information processing method and computer readable information recording medium
JP2002539559A (ja) インターネット検索とホットリンクを結びつける、相乗作用を生むインターネットブックマーク
US9779140B2 (en) Ranking signals for sparse corpora
CN105164671B (zh) 在信息检索系统中使用层级评分以进行消歧
CN101017482A (zh) 网页搜寻结果的表列最佳化方法及使用该方法的系统
KR101172487B1 (ko) 검색 결과 내에 첨부된 정보 데이터베이스에 기초한 검색 리스트 및 검색어 순위 제공 방법 및 시스템
Noce et al. A Query and Product Suggestion Method for Price Comparison Search Engines

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant