CN101401062A - 确定相关来源、查询及合并多个内容来源的结果的方法和系统 - Google Patents
确定相关来源、查询及合并多个内容来源的结果的方法和系统 Download PDFInfo
- Publication number
- CN101401062A CN101401062A CNA2007800084486A CN200780008448A CN101401062A CN 101401062 A CN101401062 A CN 101401062A CN A2007800084486 A CNA2007800084486 A CN A2007800084486A CN 200780008448 A CN200780008448 A CN 200780008448A CN 101401062 A CN101401062 A CN 101401062A
- Authority
- CN
- China
- Prior art keywords
- factor
- result
- inquiry
- content sources
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
根据本发明的实施例,用于处理查询的计算机执行方法和系统可以包括:接收来自用户设备的查询;将该查询分类以识别一个或多于一个内容来源;根据该一个或多于一个内容来源的一个或多于一个具体内容来源格式化该查询;将该一个或多于一个内容来源的格式化的查询传输到该一个或多于一个内容来源;至少部分地根据一个或多于一个因素合并结果以响应来自该一个或多于一个内容来源的格式化的查询;以及格式化该结果以传递给该用户设备。
Description
相关申请的交叉引用
【001】本专利申请要求2006年2月16日提交的编号为60/766,892的美国临时申请的优先权,该临时申请的全部内容通过参考合并于此。
技术领域
【002】本发明一般地涉及用于信息检索的计算机技术,更具体地涉及联合搜索和检索技术,该技术包括将查询动态地分类以识别通过网络可以得到的多个内容来源,缓存从多个来源返回的结果并且至少部分地基于来源等级、用户等级、业务考虑和/或其它因素进一步合并来自多个来源的结果。
背景技术
【003】廉价的电脑和网络技术已经使得因特网和移动网络用户可以获得大量的数字内容,这导致信息过载。因此,用户甚至可以通过大规模、集中的公共搜索引擎获得比其一贯可靠地查找得到的更多的信息和娱乐。
【004】同时,文本和数据搜索技术已经提供了重大的实用和商业价值,该技术的目标是在所给的内容集合中为用户识别最有用的信息,该内容集合诸如由大规模公开可用的因特网搜索引擎生成和管理的信息。
【005】信息搜索和检索技术的结果增殖和商品化已经创造了经由内容来源独立地索引和维护的日益增多的专有商业数据、媒体和文本集合。这些内容来源限制了以经济诱因使它们的数字内容被公共搜索引擎的索引完全访问,并且公共搜索引擎通过将这些来源签约作为广告比向它们的用户提供对实际内容的直接访问可以获得更多的经济利益。
【006】大多数当代的搜索引擎被设计为预先索引资源集合(如文件、图像、网站),然后响应查询,检查一台或一组计算机中内容满足查询的集合并且以结果集的形式向用户返回可能匹配的排序列表。显示相关性排名即内容与查询相匹配的接近程度的结果项元数据,可以被明确地返回或可以依照结果集中各项的顺序隐性给出,通常把最相关的项放在列表顶部。排名可以基于数值相似性得分值或先前针对内容计算的许多可能的度量标准中的一种,这些度量标准由内容发行者以全文本或数据库索引或多个索引的形式进行存储。
【007】搜索引擎查询和索引架构至少有三种类型变化:集中索引引擎、元搜索引擎和联合搜索引擎。每种类型可以被用于针对不同类型的内容集合开展搜索。例如,可以使用集中索引以便于搜索完全可访问的同类的内容,诸如可以在单一企业内容管理系统或多个可公开获得的支持因特网的网站中找到的内容。
【008】元搜索引擎可以合并来自几个外部搜索引擎或数据库索引的结果。通俗地说,这意味着横跨同类文本内容集合索引的集合的搜索,这些集合例如多重因特网搜索引擎或文献数据库。
【009】联合搜索也可以合并来自多于一个搜索的结果,其中每个搜索一般在不同的内容集合中进行,诸如与不同类型索引引擎相关的内容集合,合并搜索结果例如混合来自全文本搜索引擎、数据库和不同信息资源的内容,诸如来自不同文件服务器或不同内容类型的内容,或者当搜索包括体育新闻、运动服装和运动队商品的多个体育网站时,需要访问不同的专有集合。
【010】为了使元搜索或联合搜索更准确,应该查找在元集合中得分最高的资源,而不需要查找那些在它们所处的个体集合中得分最高的资源。例如,在两个不同集合的组合—体育新闻和科技新闻—中进行的联合搜索中,如果查询包括名词“计算机”,则不正确的执行将会不适当地偏重在体育集合中出现的计算机相关文件上。这种效果对于使用元集合从每个具有不同特性或关注点的各种集合中精选信息的程度的影响是切实存在的。
【011】除了通过台式机进行传统的内容访问外,使用诸如便携式电脑、个人数字助理(PDA)和移动电话等移动计算机设备对因特网进行访问已经发生了爆炸式增长。当内容发行者重新格式化和改组他们的内容以便于移动访问时,这种增殖显著地改变了内容访问的性质。尽管台式计算机用户可以使用多种尝试和浏览方便地搜索信息,但是移动计算用户一般被小屏幕、输入人机工程学、地点确定性和它们自身的移动性所限制。由于这些限制,移动计算用户不可能期望接收所有可能的相关结果,而更可能期望立即获得特定信息。
【012】内容访问性质的改变在通过恢复使用新的搜索和检索程序提高信息搜索精确度的方法中起到很大作用,新的搜索和检索程序在结果集的最开始的5到10个词条突出最高可能的精确度。因为相同的原因,移动用户还要求获取他们所需内容的最短路径。因此,搜索结果项应该允许用户直接访问感兴趣的内容项而不是提供对内容来源列表的访问。
【013】联合搜索功能还可能存在其它难题。不同的来源可以使用不同算法或针对文本和/或元数据的不同部分使用相同的算法来索引它们的内容集合。因此当合并结果集时,可能不直接比较局部来源计算的排名统计。
【014】不同的来源可以包含重叠资源集合,其可能导致相同的内容项出现在来自两个来源的结果集中。传统的删除复本的算法基于元数据字段值或组字段值删除所有复本。例如,新闻来源可以删除所有具有相同标题、署名和日期值的内容项。
【015】各种来源可以包含相似内容但包括不同的内容深度(集合的扩展性)或可以根据响应特性(延迟、正常运行时间百分比)而改变。这些变化可能通过产生不足的结果或未在系统或用户感知超时前反应,而负面影响用户的体验。横跨多个内容来源的联合搜索可以改善用户在合理时限内得到其查询回应的机会。
【016】此外,在查询与内容集合的相关性方面存在很多变化。并不是所有可获得的内容来源都包含与元集合中的授权(warrant)充分相关的集合。
发明内容
【017】因此,本发明的一个方面是要解决上述问题中的一个或多于一个。根据本发明的示例性实施例,本发明公开了一种用于处理查询的计算机执行方法,该方法包括以下步骤:接收来自用户设备的查询;分类该查询以便识别一个或多于一个相关内容来源;检索之前从所述一个或多于一个内容来源接收的查询结果,并且如果有的话,则存储在当地缓存中;如果没有,则根据所述一个或多于一个内容来源的一个或多于一个具体内容来源查询语言将该查询格式化;将所述一个或多于一个内容来源的格式化的查询传输到所述一个或多于一个内容来源;当这些结果被从所述一个或多于一个内容来源接收时对其进行缓存;将响应格式化的查询的结果合并到一个或多于一个内容来源;至少部分地基于一个或多于一个用户、来源、内容和/或分配渠道排名因素来合并结果,同时根据已知或感知用户或发行者的优先级删除复本项;基于设备或请求者的特征格式化这些结果以便递送给使用者;以及将格式化的结果返回给请求者。
【018】根据本发明这一示例性实施例的其它方面,该方法可以进一步包括:其中请求装置包括支持因特网的输入设备、支持因特网或语音的移动设备、支持语音的输入设备、计算机和信息亭(kiosk)中的一个或多于一个;其中内容来源包括搜索引擎、广告引擎、内容递送系统和与内容来源相关的数据库中的一个或多于一个;其中一个或多于一个用户排名因素包括用户人口统计特征、地点、语言、社交网络和群体以及个性化特征中的至少一个或多于一个;其中一个或多于一个内容排名因素包括页面大小、图形、文本元素和文本中的至少一个或多于一个;其中一个或多于一个来源排名因素包括来源等级、可靠性因子、延迟因子、整体内容相关性和内容扩展性或覆盖性中的至少一个或多于一个;其中一个或多于一个分配渠道排名因素包括业务规则、业务关系、人口统计优先级和销售目标中的至少一个或多于一个;其中查询被分类到一个或多于一个主题或功能分类法或受控词汇的相关类别中;其中查询进一步包括用户优先级、设备细节和格式化限制中的一个或多于一个;所述方法进一步包括在一个或多于一个缓存中存储来自每个内容来源的结果的步骤;其中缓存针对具体查询;其中缓存针对具体来源;所述方法进一步包括访问一个或多于一个缓存来检索现有结果的步骤;其中至少部分地基于一个或多于一个用户、内容、来源和/或分配渠道因素来合并结果;其中一个或多于一个结果排名因素包括来源等级、元数据相关性因素、相似性因素和排名因素中的一个或多于一个。
【019】根据本发明这一示例性实施例的其它方面,所述方法可以进一步包括:其中在每个内容来源查询结果缓存中,为每个结果项动态地计算一个或多于一个局部排名统计,每个结果项与一个或多于一个查询相关术语和查询语境中的元数据相关;所述方法进一步包括计算与结果集中一个或多于一个内容项相关的至少一个全局统计和计算归一化因子的步骤;所述方法进一步包括根据至少一个全局和/或一个局部统计为来自一个或多于一个内容来源的结果项确定一个或多于一个相关性得分的步骤;所述方法进一步包括根据归一化因子使一个或多于一个相关性得分归一化的步骤;所述方法进一步包括基于由归一化因子确定的排序将结果并入单一结果集中的步骤;以及基于一个或多于一个查询语境参数将检索到的现有结果格式化的步骤。
【020】根据本发明的示例性实施例,一种用于处理查询的计算机执行系统,该系统包括:接收模块,其用于接收来自用户设备的查询;查询分类模块,其用于将查询分类以便识别一个或多于一个内容来源;格式化模块,其用于根据一个或多于一个内容来源的具体查询语言将它们的查询格式化;传输模块,其用于将一个或多于一个内容来源的格式化的查询传输到一个或多于一个内容来源,有可能利用这些来源的专有传输模块;缓存模块,其用于存储从一个或多于一个内容来源接收的结果;合并模块,其用于至少部分地根据一个或多于一个排名因素合并结果,以响应来自一个或多于一个内容来源的格式化的查询;和结果模块,其用于将结果格式化以递送给用户设备。
附图说明
【021】为了便于更完全地理解本发明,现在参考附图。这些附图不应该理解为对本发明的限制,而仅仅是示例性的。
【022】图1是根据本发明的实施例用于联合搜索查询多个内容来源的系统的示例图。
【023】图2是根据本发明的实施例图示说明查询执行方法的示例性流程图。
【024】图3是根据本发明的实施例图示说明智能来源选择方法的示例性流程图。
【025】图4是根据本发明的实施例图示说明访问、存储和合并结果列表的方法的示例性流程图。
【026】图5是根据本发明的实施例图示说明合并方法的示例性流程图。
【027】图6是根据本发明的实施例的重排名结果的示例性图示说明。
具体实施方式
【028】本发明的各种实施例致力于以某种方式返回搜索结果,这种方式使得结果相关性最大化,同时使用户感知的延迟和平台资源最小化,其包括消耗的内存、数据处理和网络要求。这些品质随着结果集的大小和来源的数量的增大而变得越来越重要。
【029】下面的定义仅是示例性的且在此被参考以图示说明下述的本发明的各种实施例。本发明的实施例和范围并不受下述定义的限制。
【030】搜索引擎:其可以指的是计算机程序,这些计算机程序被设计为基于来自用户的查询指令对信息进行索引、存储和检索。针对单一集合执行单独搜索的程序叫做搜索引擎。针对多个搜索引擎和/或数据库执行搜索和合并结果的程序被称为联合搜索引擎或元搜索引擎。
【031】对搜索结果进行排名的方法可以包含鉴于查询确定资源(如资源、网站、图像)的相关性得分。可以利用表示属性的特征向量和与结果相关的查询词来计算查询的相似性得分。可以根据相关性得分、相似性得分和/或其它因素和标准来为结果分配排名数值。此外,基于用户的先前行为和文本搜索引擎返回的资源或其它内容来源,搜索结果可以通过自适应排名而得以改进。更特别地,可以评估用户的先前行为以确定等级,在该等级对给定的查询施加适配的修正。
【032】结果列表被合并,其目标是为用户方便而首先放置最相关的词条。为减少相关的计算费用,基于检查每个单一词条,列表可以不被合并。更合适的是,基于检查每个列表的少数词条,列表可以被合并。可以从每个列表中选择词条子集,并且可以根据这些子集来合并这些列表,而不是基于对每个单一列表的每个单一词条的评价来合并这些列表。可以根据从较大组中选出一些项的技术来选择词条子集。例如,可以选择数字n并且可以从每个列表中选择排名前n的资源。根据另一个示例,可以再次选择数字,其中合并算法选择每个结果列表中均匀间隔开的n个资源。根据另一个示例,也可以选择数字并且可以从每个列表中随机选择n个资源。
【033】可以为各个所选子集中的每个词条确定得分值。得分值一般是表示词条与查询匹配接近度的数字,其中某些数字范围表示可能与用户相关的词条。可以确定所有得分数值的代表性得分。代表性得分可以是算术平均值或与一组得分值的平均值成比例的数值。
【034】然后所有列表的所有词条可以至少基于每个列表的代表性得分被合并或排名。一旦每个结果列表具有被分配的代表性得分,其可以相应地与其它列表合并。例如,可以通过选择具有最高代表性数值(如最高平均得分值)的列表来合并词条。然后可以提取还未被选择的列表中的第一词条。然后这一列表的代表性数值可以定额地缩减并且可以重复这一方法直到所有词条均已被提取。如果任何代表性数值在缩减后降低到0以下,则其可以被复位到它的初始值或预定值。
【035】根据另一个示例,可以使用概率统计的方法合并词条,其中可以为每个列表分配一个概率数值,该概率数值与该列表的代表性数值在所有列表的总代表性数值中所占的百分比相等。然后可以根据列表的概率数值对其进行选择,其中具有较高概率数值的列表更可能被选择。当列表被选定时,可以提取还未被选择的列表中的第一词条。可以重复这一方法,其中当列表中的所有词条均被提取时,修正总代表性数值。
【036】内容来源:其可以指的是具有通过网络可获得的数字或非数字内容集合的发行者。
【037】(内容)来源等级可以指的是用于测评针对查询类型的内容来源相对可用性的得分。内容来源等级还可以通过包含诸如扩展性或覆盖范围、分类可靠性、内容品质和/或影响该来源的结果相关性的其它信息等内容因素来计算。等级还可能受业务关系和使用模式的影响。例如,内容来源和发行商之间的业务关系可以提高来源等级,以便或者在来源库(source library)内越过其它来源选择一个来源,或者在合并结果集内越过其它来源结果给出该内容来源结果项的优先级。无结果返回的百分比高的来源比返回查询结果项的百分比高的来源具有更低的等级。
【038】来源等级还可能考虑性能因素,诸如延迟、响应可靠性和/或其它标准。例如,可靠性可以指的是平均一个月的周期(或其它时间周期)中来源正常运行时间的百分比。延迟可以被测定为查询代理系统将查询传输到内容来源的时间加上结果集从来源返回到查询代理系统的返程时间。例如,可以通过将响应查询的来源可靠性与响应延迟的客观测量和内容覆盖范围的主观测量合并在一起来计算来源等级。例如,一天24小时中99%的时间可以获取的来源比一天中仅有93%的时间可以获取的来源具有更高的来源等级。
【039】此外,来源等级可以响应各种因素利用自适应程序进行更新,这些因素例如但不限于查询或查询组、用户的流量模式、来源响应和/或广告/营销活动考虑等,这些自适应程序依赖于对在先请求的响应、用户选择或其它动态事件。
【040】查询:其可以指的是描述或识别用户正在搜索的信息或数据的请求。查询可以包括文本、非文本和/或用户选定类别的各种结合。例如,查询可以包括关键字(如术语、短语、自然语言语句),以及非文本查询(如图片、音频剪辑等多媒体,和/或拍卖价格、购买价格或旅行日期等数字查询),和/或类别(如摇滚、流行或乡村等音乐流派)。
【041】可以应用查询类型和格式的各种结合。例如,就旅游预订来说,查询可以包括日期范围、出发城市和目的地城市对(pair)和/或旅游人数。就音频文件来说,查询可以包括口头短语或音乐短语以及艺术家姓名、歌名等。在更复杂的场景中,查询可以被表征为股票报价、股票价格衍生产品、信号类型或等压线等。
【042】使用者可以通过远程设备诸如电话、PDA和/或其它移动设备来传输查询。此外,使用者可以使用计算机或其它通信设备来传输查询。
【043】查询语境:其可以包括:人口统计信息,诸如用户性别、年龄和婚姻状况;社交网络信息,诸如社区、场所、群组成员;和/或其它也可以被搜索引擎接收的数据。查询语境可以包括其它用户细节,诸如语言优先级、显示优先级、时间/日期数据和/或其它信息。查询语境可以包括设备类型(如移动电话、便携式计算机、PDA、游戏机)、设备设置/限制(如尺寸、图形、音频、视频、内存)、响应显示设置(如字体、颜色)。查询语境可以包括用户的当前位置和/或优选位置,其可以用来为与位置相关的查询优选相关搜索结果。例如,用户可以搜索附近的比萨店。搜索引擎可以自动返回距离用户当前位置最近的比萨店列表。
【044】查询语境可以自动地从设备中获取并且包含在查询中。此外,使用者可以访问网页或其它用户界面以提供和/或更新将要包含在语境中的用户优先级、设置和/或其它数据。
【045】存储的查询:用户可以在不改变根本技术的情况下对频繁的搜索,诸如股票报价、天气、最喜欢的名人的信息更新等进行预先编程。
【046】结果项:最小单位的信息。结果项被搜索引擎返回并且被用于指示具体文件。结果项可以包括信息资源的位置和各种其它元数据数值如说明、标题、价格等。
【047】结果集:响应查询由搜索引擎返回的结果项列表。
【048】分类(categorization):其可以被定义为词条在组中的布局,潜在地类似于分类学(taxonomy)被分层结构化,组中的个体互相之间有些相同之处。分类系统可以包括向资源分配一个或多于一个组标签以表示该资源的知识性、功能性或概念性内容。这些标签通常从使术语标准化的受控词汇中提取,并且通过指定可以用来形成搜索查询的一组经过核准的术语或标签,在信息搜索系统和单个或几个信息搜索系统之间提供通信。
【049】分类学:其可以是分层安排的受控词汇,所述受控词汇用于组织集合中的内容。因特网搜索引擎可以具有一个或多于一个相关分类学以便于浏览搜索内容集合。网络应用开发人员和营销可能已经将资源的组织分成两个分离的表象,以使不同利益相关者的组织用法满意。单一的分类学节点被称为分类单位(taxon)。多个分类单元是分类群(taxa)。
【050】参考分类学:其可以具有细密纹理、单调展开的分类学结构以便对存储在当地集合中的内容项进行人工或机械分类。
【051】显示分类学:其可以是参考分类学的子集,并且用于显示访问搜索引擎的个体。此显示分类学比参考分类学更易变,因为其用于突出个别浏览搜索的类别,并且内容来源成员可以确定更为重要的是本周突出内容的一个区域而下周突出一个不同的区域。即使显示分类学改变,参考分类学仍旧不变以避免对全部的内容集合进行重新分类。
【052】来源分类学:其是联合搜索引擎可以访问的内容来源的显示分类学。在联合搜索系统中,可以有三个层次的组织。例如,除了个体可见的显示分类学和用于组织元集合中可获资源的参考分类学层次,内容来源显示分类学可以间接获得供用户浏览。
【053】本发明具体涉及改进的联合搜索引擎或元搜索引擎的方法和系统,联合搜索引擎或元搜索引擎将查询和查询语境分类以从多个分布不均匀的内容来源组中选出最相关的来源,用以产生组合的搜索结果集、预定的使用来源、用户、发行者等级和/或相对用户具有最小延迟的其它因素。
【054】图1是根据本发明实施例用于联合搜索多个内容来源的系统100的示例图。系统100的组件可以被进一步复制、合并和/或分离以支持本发明实施例的各种应用。额外的元件也可以在此系统中实施以支持各种应用。
【055】系统100被用于从用户设备110向联合搜索引擎122发送搜索查询以请求一组结果项,这些结果项详述满足用户查询的内容资源的位置。用户设备110可以包括计算机输入设备,该输入设备包含允许用户访问因特网的客户端或浏览器程序112。用户设备110可以包括移动设备或其它通信设备,包括诸如信息亭或台式计算机的终端。用户设备110可以通过网络120与联合搜索引擎122通信,其中网络120可以包括因特网或其它网络。联合搜索引擎122可以在客户端服务器、端对端和/或其它配置中进行操作。
【056】搜索引擎122可以包括具有来源选择的查询代理系统130、结果缓存和合并具体来源结果集的相关合并程序。虽然分离地显示,但是搜索引擎122和查询代理系统130可以是单一单元。
【057】查询代理系统130可以使用有线或无线网络连接通过网络120与用户设备(如用户设备110)通信,并且进一步通过网络124与内容来源(如内容来源150a、150b、...150k、...150m)、数据库(如所示的数据库170k)和/或其它来源150m(如“齐备”的内容来源)通信。
【058】查询代理系统130可以包括各种模块以执行与搜索、检索和/或其它处理相关的功能。例如,查询代理系统130可以包括网络连接132、查询处理器134、连接器框架136、合并方法138、结果处理器140、结果缓存142a...142n和/或其它一个或多个模块。系统100的各种组件可以被进一步复制、合并和/或集成以支持各种应用和平台。此外,模块、缓存和其它组件可以横跨多个系统、平台、应用等实施。额外的元件也可以在该系统中实施以支持各种应用。
【059】网络连接模块132可以横跨网络120、网络124和/或其它网络和通信入口管理数据的平衡交换。
【060】查询处理器134可以对查询进行动态分类。本发明的一个实施例用分类学结构提供对用户查询和/或查询状态的动态分类,该分类学结构组织任何内容发行者、位置、内容主题或功能和/或其它相关内容区别。查询处理器134的分类功能可以选择或识别来自来源库的相关内容来源子集。在出现查询时,通过动态计算与用户的信息请求相关的来源组,本发明实施例可以在使非相关内容的检索成本最小化的同时使精度最大化。
【061】查询处理器134可以将查询重新格式化成具体来源查询语言,并且来源连接器框架136可以将重新格式化的查询传输给各个的一个或多个内容来源。通过将查询重新格式化成具体来源查询语言,可以更有效地获得更准确的结果。相应地,可以通过来源连接器框架136从各个内容来源接收结果集。
【062】内容来源150a...150m使用几个模块以便从其内容集合检索信息变得容易。内容来源可以使用有线或无线网络连接通过网络160a...160m与用户设备或其它程序通信。搜索引擎访问模块162a...162m可以使用搜索引擎专有索引算法提供对到来的查询进行分析,以便使查询与内容索引相匹配,并且返回结果集,该结果集包括诸如匹配内容项的说明和位置的元数据。索引164a...164m可以包括存储机构和计算机程序,该计算机程序可以包括元数据、文本和/或包含在来源的内容集合中的资源的其它属性。存储内容集合模块170a...170m可以包括资源、多媒体和/或其它内容,该内容由搜索引擎索引、由元数据引用并且可以通过结果集中列出的位置进行访问。
【063】内容来源的模块和其它组件可以横跨多个系统、平台、应用等实施。额外的元件也可以在该内容来源系统中实施以支持各种应用。
【064】存储内容集合可以包括诸如集合项[170a-a...170a-e]和[170a-a,170a-b,170b-a,170b-b,170b-e]等数据项。例如,内容项可以出现在一个集合中,如在集合项[170a-a...170a-e]中。然而,内容项也可以出现在多于一个集合中,如所描述的集合170a和170b中重叠的内容集[170a-a,170a-b]。在这种情况下,在联合搜索的结果集中可能出现对相同内容的多重参考,其中联合搜索可以调用这两个外部引擎。当内容中间商向其各个的委托人(constituent)发布相同的内容时,有可能存在这种情况,其通过诸如语言、内容排名、组织、演员次序(billing)排列和/或其它考虑等各种因素改变对用户的陈述。联合搜索引擎可以用这种方式进一步保留或删除复制以生成多个集合的合理表象。
【065】根据本发明的实施例,来源连接器框架136可以接收来自个别内容来源(诸如搜索引擎、数据库、其它数据来源等)的结果,并且进一步将结果存储在具体查询/来源结果缓存142a...142n中。结果缓存可以包含从内容来源返回的结果集以响应具体查询,例如关键词、术语集、口头短语或类别。结果缓存还可以具有时间敏感性,其中结果在预定一段时间(诸如指定的分钟数或小时数)后将变得不可用以保持内容新颖。缓存还可以具有相关的独特缓存键,该缓存键可以包括来源识别、查询或类别术语和/或其它因素以方便重复使用。【066】具体查询缓存(例如结果缓存142a...142n)可以存储从内容来源150a...150m返回的结果,并且存储合并的结果集以便在结果处理器140进行后处理。然后结果处理器140可以编辑并且可能缓存组合列表以便使用合并方法138为用户产生单一排名的结果列表。分离的具体来源列表和组合列表可以在可配置时间段内重复使用,以响应相同或其他用户的随后查询。
【067】合并方法138可以基于各种因素按顺序将不同的结果集合并成单一列表(或其它格式),这些因素如:接收大多数或全部结果后;当经过时间阈值时;或满足其它条件。例如,基于来源等级,本发明的实施例在等待来源响应100ms后可以合并结果。此外,结果还可以基于内部内容相关性得分和/或其它结果具体标准来排名。例如,在接收到个体结果后,合并方法138可以根据合并算法或程序合并具体来源结果,其中合并算法或程序可以包括局部排名得分、来源排序数值、具体来源综合得分和/或其它来源因素,以及基于结果的排名(诸如相关性或准确性)和使用因素(诸如人口统计、流量模式、用户个性化和团体价值观等)。合并方法138可以根据用户、设备和/或应用于结果的其它优先级或方法保留或删除复制结果。
【068】图2是根据本发明实施例图示说明查询执行方法的示例性流程图。本发明实施例的方法选择搜索引擎(诸如联合搜索引擎)可获得的可能内容来源的相关子集,向子集中的每个来源发送重新格式化的查询,接收和缓存每个结果集,然后将结果集合并成单一的组合结果集。
【069】如图2所示,在步骤210,可以接收来自用户的查询。在步骤222,可以基于一个或多于一个分类学对查询进行动态分类,这些分类学组织内容来源库、内容主题和功能方面和/或用户和操作者的特性。在步骤224,可以识别来源库中的内容来源子集。在步骤230,可以检查预先存在的结果集的结果缓存。如果在缓存中不存在用于查询和查询语境的结果,则查询代理继续进行步骤242、244和246。在步骤242,可以将查询重新格式化成内容来源子集所特有的具体来源查询语言。在步骤244,可以将重新格式化的查询传输给内容来源,诸如内容提供者、搜索引擎、数据库和/或其它数据来源。在步骤246,可以接收来自内容来源的内容并且将其存储在局部结果缓存中。在步骤250,可以合并并进一步重新格式化来自内容来源的结果。在步骤260,可以返回结果以显示给用户。尽管图2的步骤图示说明以特定顺序执行的某些步骤,但是应该理解可以通过向这些方法添加一个或多于一个步骤、省略方法内的步骤和/或更改执行一个或多于一个步骤的顺序,来实施本发明的实施例。
【070】本发明的实施例基于内容来源的预先分类库提供对用户查询和/或查询状态的动态分类。在步骤222,查询可以在查询处理器220的运行时间内被分类。例如,使用者可以使用关键字“赛车”搜索移动电话游戏。例如,查询处理器220在步骤222可以将查询分类成“移动游戏”查询,并且从而识别一组移动游戏内容来源。此外,查询分类的粒度(granularity)可以被调节以优化搜索结果。例如,查询可以是关于赛车的游戏请求。在这种情况下,查询可以被分类为“移动游戏”和“动作”。因此,可以识别与两种分类的组合最相关的内容来源子集。其它变化也可以应用。
【071】在出现查询时,通过动态计算与用户的信息请求相关的来源组,本发明实施例可以使查询的精度最大化。此外,可以通过其它联合搜索技术使网络传输的数据量最小化,从而提供有效的带宽使用。此外,联合搜索来源选择结构的拓扑容易支持搜索引擎和元搜索引擎的多层等级,从而促进该搜索系统对任何数量的内容集合、搜索引擎和/或其它数据来源的可测量性。
【072】在步骤224,可以识别内容来源子集。查询处理器220的分类功能可以从可能来源的库中选择或识别相关内容来源子集。
【073】在步骤230,可以检查一个或多于一个结果缓存。根据本发明的实施例,可以针对先前返回的结果检查结果缓存。本发明的实施例可以针对来自缓存的查询对结果进行检索,从而允许针对来自其他用户的相同和/或相关查询重复使用该结果。因此,可以最小化网络传输并且可以为用户降低网络延迟效应。因此,如果确定查询结果已经被存储在局部的内置或外置缓存中,则这些结果可以被直接使用或与其它搜索引擎的结果合并,用以在步骤250返回给用户。
【074】在步骤242,如果缓存中没有结果,则可以将查询重新格式化成具体来源查询语言。例如,查询代理系统可以将查询重新格式化成一个或多于一个内容来源的具体来源查询语言。在步骤244,可以将重新格式化的查询传输给内容来源。
【075】在步骤246,可以接收来自各个内容来源的内容。此外,每个内容来源可以依照查询为其各个集合中的内容预先确定得分、排名和/或其它等级。此外,结果项可以通过作为有序结果列表被传输给查询代理系统而显示隐含的排名。查询代理系统240可以接收来自个体内容来源(诸如搜索引擎、数据库、其它数据源等)的结果,并且进一步将这些结果存储在局部的内置或外置结果缓存中。局部结果缓存可以由查询、具体内容来源、来源组、来源类型和/或其它分类指定。
【076】在步骤250,可以合并内容来源的内容并且进一步将其格式化。在接收到个体结果后或当经过时间阈值时,程序可以根据合并算法或程序合并具体来源结果,其中合并算法或程序可以包括局部排名得分、来源排序数值、具体来源综合得分、使用得分、用户或发行者得分和/或其它因素。在步骤250,编辑组合结果列表以便为用户产生单一排名的结果列表。分离的具体来源列表和组合列表还可以在配置的时间段内重复使用,以响应相同或其他用户的随后查询。此外,复制结果可以被保留或删除并且其它优先级可以被应用于该结果。结果可以包括对每个结果项的内容来源参考以指示该内容来源。例如,本发明的实施例可以基于各种因素按顺序合并结果,其中所述因素可以包括来源因素,诸如内容质量和扩展性、内容来源延迟性和可靠性、业务关系、外部确定的质量等级(诸如Zagat等级等)、个体和团体使用模式和/或其它等级和计算。此外,结果还可以基于文本和元数据相关性和/或其它具体结果标准来排名。
【077】例如,可以计算涉及结果集中内容项的至少一个全局统计。这可以包括由结果项排名和来源等级组成的得分归一化因子。此外,根据全局统计,可以确定内容来源的结果项的内容相关性得分。此外,可以根据元集合、外部类似得分和结果元集合项顺序的归一化因子将得分归一化,所述结果元集合项顺序根据来源统计被从内容来源返回。
【078】在步骤260,可以向用户显示结果。当向用户显示结果时,可以考虑用户设备细节和/或用户优先级。例如,由于移动设备可能有屏幕尺寸限制,结果项的说明或标题可以被截短和/或修改以适应用户的设备和/或其它优先级。
【079】图3是根据本发明实施例图示说明智能来源选择方法的示例性流程图。本发明的实施例被用于识别来自搜索引擎的来源库和数据库的相关内容来源子集。分类方法可以分析查询及其属性并且识别内容来源的相关子集。查询处理器可以利用分类方法将查询分配给参考分类学中的相关分类单位或分类群,并且选择唯一地识别内容来源的一组最佳的相关来源分类群。
【080】在步骤310,可以识别一个或多于一个查询语境属性。例如,属性可以包括发行人、垂直搜索通道、语言、国家、艺术家、标题、价格和/或与查询和/或用户相关的其它元数据。
【081】在步骤320,计算机程序可以评估查询语境的属性值。可以选择相关的参考分类学,在步骤322响应垂直搜索选择和其它语境参数值。在步骤330,计算机程序可以确定查询是否是一组术语或一个类别。术语可以指的是一个或多个词、一个或多个短语等。如果是这样,术语可以被分配给相关的参考分类学或多个分类学中的类别,在步骤332使用动态机器分类方法。在步骤340,计算机程序确定查询是否是显示分类学的类别。如果是这样,在步骤342,可以在参考分类学中识别相关的类别。在步骤350,可以使选定的参考分类学类别与来源分类单位或分类群相关,该来源分类单位或分类群与每个选定的内容来源相关。在步骤360,查询和查询语境值可以被转换以匹配来源元数据域和值,其可以包括转化、用户优先级提取等。在步骤370,查询语境属性(诸如语言、国家等)可以与一个或多于一个来源属性相匹配,并且语境属性名称可以被映射到来源属性名称。在步骤380,来源分类群列表、匹配元数据属性名称及数值、以及被转换的查询可以被返回到查询代理系统。
【082】图4是根据本发明实施例图示说明访问、存储和合并结果列表的方法的示例性流程图。如上所述,来源子集可以被识别并且相关分类单位被返回到查询代理系统。在步骤410a...410m和450中,对于每个来源和查询,可以确定结果缓存中是否存在现有结果集。如果存在结果,则在步骤455根据传入的查询语境属性值将它们合并。在此步骤,先前存储的结果可以从一个或多个结果缓存中检索到。
【083】如果不存在结果,则在步骤420a...420m,可以将查询重新格式化成具体来源查询语言,并且传输给各个的内容来源。在步骤430a...430m,查询代理系统可以等待每个来源的结果。可以实施等待超时或其它预定条件来保证效率。在步骤440a...440m,一旦结果被接收到,结果将被存储在结果缓存中。在步骤450,可以确定是否所有来源已经返回结果或超时限制已经期满。在步骤455,基于传入的查询语境属性值,缓存结果集中的所有结果项被合并成单一的组合结果集。然后合并算法可以缓存合并的列表以产生单一排名的结果列表。
【084】如步骤460所示,额外的处理可以包括从组合结果集中提取最靠前的或接下来的m项以生成具体用户结果页。此外,查询代理系统可以检查复本和组的结果列表,根据系统和发行者优先级将它们删除或保留。此步骤可以考虑查询语境属性,诸如但不限于设备细节、用户优先级和/或生成结果页时的发行者限制。在步骤465,可以通过有线或无线通信信道将结果页发送给用户。在步骤470,可以为组合结果列表的剩余结果项(在第m+1个结果项处)设置指针。
【085】合并方法可以为由来源响应查询而返回的每个结果集中的每个结果项计算全局统计。此全局统计是两个或多于两个因素的函数,这些因素如:结果与查询的相关性,其由相似性得分或排名表示,该得分或排名由来源确定并且明确地或隐含地包括在结果项中;以及外部特性,诸如但不限于来源等级、使用参数值、用户优先级得分、或发行者优先级数值。图5是根据本发明实施例图示说明合并方法的示例性流程图,该合并方法使用排名顺序作为结果项得分和来源等级来表现外部特性。
【086】在接收到全部个体结果后,查询代理系统可以根据合并算法合并结果,其中合并算法包括综合得分(如nj)和具体结果相关性得分(如mj)。例如,在步骤520,可以使用存储在查询语境中的分类群标识符检索来源分类群。在步骤530,对于每个来源,可以根据存储在每个来源分类单位的属性值计算来源得分(如ni)。在步骤540a...540m,对于每个来源,可以从相关缓存中检索结果项;在步骤545a...545m,对于每个来源结果项,可以确定项得分(如mj);并且在步骤550a...550m计算重排名得分(如scoreij=f(ni,mj))。如步骤560所示,查询代理可以使用scoreij编辑合并的列表以便为用户产生单一排名的结果列表。
【087】图6是根据本发明实施例对多个来源返回的结果集中的结果项重新排序的示例性图示说明。在此示例中,分别如600a和600b所示,来源A可以具有来源等级nA=80,来源B可以具有来源等级nB=50。如610a和610b所示,各个结果集中每个项的局部统计可以被计算为项顺序mAj和mBj的函数。如640a和640b所示,全局统计即重排名得分scoreij可以被计算为结果项排名mij和来源等级ni的函数,从而使每个结果项的scoreij是每个结果项的逆排名与来源等级的乘积。如650所示,组合结果集包括来源A的项和来源B的项,并且其通过依据结果项的相关全局得分scoreij对各个结果项分类来进行安排。
【088】如上所述,每个内容来源(如搜索引擎、数据库等)可以根据查询为各个集合中的内容确定得分。连接器框架可以接收来自个体搜索引擎的结果,计算每项的局部排名得分,并且将结果存储在具体来源缓存中,这些结果可以包括各个排名和/或其它得分。在接收到全部个体结果、经过时间阈值或满足其它先决条件后,查询代理系统可以根据合并算法合并结果。合并算法可以考虑局部排名得分、具体来源综合得分和/或其它因素和条件。
【089】根据本发明的实施列,可以在任何通用或专用计算设备中实施本发明描述的系统和方法,这些系统和方法可以作为一个独立应用或多个应用,甚至可以跨越几个通用或专用计算设备,这些设备通过网络进行连接并且作为一组以客户端-服务器模式进行操作。根据本发明的另一个实施例,可以提供其中存储了多个计算机可读程序代码的计算机可用且可写的介质,以实践本发明的方法。本发明的方法和系统可以在各种操作系统中实施,诸如操作系统、基于Unix的各种版本的操作系统(诸如基于Unix的惠普(Hewlett Packard)版本操作系统或基于Unix的红帽子(Red Hat)Linux版本操作系统)或基于AS/400的各种版本的操作系统。例如,计算机可用和可写介质可以包括光盘只读存储器(CD ROM)、软盘、硬盘或任何其它计算机可用介质。体现本发明的一个或多个系统的一个或多于一个组件可以包括以功能指令的形式存储在计算机可用介质中的计算机可读程序代码,从而当计算机可用介质被安装在一个或多个系统上时,这些组件使系统执行所述功能。本发明的计算机可读程序代码也可以与其它计算机可读程序软件捆绑在一起。此外,这些组件中只有一些可以在计算机可读代码中提供。
【090】此外,各种实体和实体组合可以使用计算机来实现执行上述功能的组件。根据本发明的实施例,计算机可以是标准化计算机,其包括输入设备、输出设备、处理器设备和数据存储设备。根据本发明的其它实施例,各种组件可以是同一公司或单位中不同部门的计算机。也可以使用其它计算机配置。根据本发明的另一个实施例,各种组件可以是分离的实体,诸如公司或有限责任公司。按照合适法规和条例,也可以使用其它实施例。
【091】根据本发明的一个具体实施例,系统可以包括软件系统的组件。系统可以在网络中操作并且可以被连接到其它系统,这些系统共享共同的数据库和操作额外数据或应用程序服务的共同服务器。还可以提供其它硬件布置。
【092】通过考虑说明书和在此公开的本发明的实践,本发明的其它实施例、用法和优点对本领域技术人员来说是显而易见的。说明书和示例应当被认为仅仅是示例性的。本发明的意图范围仅受此处所附权利要求的限制。
【093】尽管本发明已在权利要求处理的框架内被具体显示和描述,但是应当理解,本领域的普通技术人员可以想到各种变化和修改而不偏离本发明范围。此外,本领域的普通技术人员将认识到此类方法和系统不必要受限于在此处所描述的具体实施例。
Claims (59)
1.一种用于处理查询的计算机执行方法,该方法包括以下步骤:
接收来自用户设备的查询;
将所述查询分类以识别一个或多于一个内容来源;
根据所述一个或多于一个内容来源的一个或多于一个具体内容来源格式化所述查询;
将所述一个或多于一个内容来源的格式化的查询传输给所述一个或多于一个内容来源;
至少部分地根据一个或多于一个因素将结果合并以响应来自所述一个或多于一个内容来源的所述格式化的查询;以及
格式化所述结果以传送给所述用户设备。
2.根据权利要求1所述的方法,其中所述一个或多于一个因素包括一个或多于一个全局因素和/或局部因素。
3.根据权利要求1所述的方法,其中所述用户设备包括支持因特网的输入设备、支持因特网或支持音频的移动设备、支持音频的输入设备、计算机和信息亭中的一个或多于一个。
4.根据权利要求1所述的方法,其中所述一个或多于一个内容来源包括接至搜索引擎、广告引擎和与所述内容来源相关的数据库的一个或多于一个访问接口。
5.根据权利要求1所述的方法,其中所述一个或多于一个因素包括编辑等级、响应可靠性、响应延迟性、内容相关性和内容扩展性或覆盖性中的至少一个或多于一个。
6.根据权利要求1所述的方法,其中所述一个或多于一个因素包括用户优先级、使用统计、查询频率、分类频率、发行者优先级、推荐统计、用户自创等级和/或业务关系中的至少一个或多于一个。
7.根据权利要求1所述的方法,其中所述一个或多于一个因素包括至少一个或多于一个统计,该统计与结果项的文本或非文本分析、数据或文本挖掘分析、数据或文本聚类和/或非文本模式分析相关。
8.根据权利要求1所述的方法,其中所述一个或多于一个因素包括至少一个或多于一个统计,该统计与设备细节和/或格式化规格相关。
9.根据权利要求1所述的方法,其中所述一个或多于一个因素包括用户人口统计特性、位置、语言、社会网络、社会团体和个性化特征中的至少一个或多于一个。
10.根据权利要求1所述的方法,其中所述一个或多于一个因素包括页面尺寸、图形、文本元素和文本中的至少一个或多于一个。
11.根据权利要求1所述的方法,其中所述一个或多于一个因素包括来源等级、可靠性因素和延迟因素中的至少一个或多于一个。
12.根据权利要求1所述的方法,其中所述一个或多于一个因素包括业务规则、业务关系、人口统计优先级和销售目标中的至少一个或多于一个。
13.根据权利要求1所述的方法,其中所述一个或多于一个因素包括局部排名得分、来源排序数值、具体来源综合得分和来源因素中的至少一个或多于一个。
14.根据权利要求1所述的方法,其中所述一个或多于一个因素包括基于结果的排名、相关性、准确性和使用因素中的至少一个或多于一个,其中使用因素包括人口统计、流量模式、用户个性和团体价值中的一个或多于一个。
15.根据权利要求1所述的方法,其中所述查询被划分成一个或多于一个分类单位或受控词汇中的类别。
16.根据权利要求1所述的方法,其中至少部分地根据文本相关性、用户优先级、排序、相关性或相似性得分和/或结果项因素中的一个或多于一个合并所述结果。
17.根据权利要求16所述的方法,其中所述结果项因素包括来源等级、元数据相关性因素、相似性因素、排名因素、发行者优先级、使用模式、位置、设备规格、查询频率和/或分类频率中的一个或多于一个。
18.根据权利要求1所述的方法,进一步包括以下步骤:
在每个内容来源,为每个结果项动态计算一个或多于一个局部排名统计来响应所述查询,该结果项涉及与所述查询相关的一个或多于一个术语,并且涉及所述查询语境的元数据。
19.根据权利要求1所述的方法,进一步包括以下步骤:
计算涉及结果集中一个或多于一个内容项的至少一个全局统计;以及
计算归一化因子。
20.根据权利要求19所述的方法,进一步包括以下步骤:
根据至少一个全局统计和/或一个局部统计,确定来自所述一个或多于一个内容来源的结果项的一个或多于一个相关性得分。
21.根据权利要求19所述的方法,进一步包括以下步骤:
根据所述归一化因子,将所述一个或多于一个相关性得分归一化。
22.根据权利要求19所述的方法,进一步包括以下步骤:
基于由所述归一化因子确定的排序,将所述结果合并成单个结果集。
23.根据权利要求1所述的方法,进一步包括以下步骤:
将来自每个内容来源的结果存储在一个或多于一个缓存中。
24.根据权利要求23所述的方法,进一步包括以下步骤:
访问所述一个或多于一个缓存以检索现有结果;以及
基于一个或多于一个查询语境参数格式化所检索的现有结果。
25.根据权利要求23所述的方法,其中访问所述一个或多于一个缓存的步骤减轻一个或多于一个来源行为。
26.根据权利要求1所述的方法,其中将所述查询分类的步骤在接收到所述查询时动态地发生。
27.根据权利要求1所述的方法,进一步包括以下步骤:
识别一个或多于一个复制结果。
28.根据权利要求27所述的方法,进一步包括以下步骤:
根据用户优先级、设备优先级和发行者优先级中的一个或多于一个,去除所述一个或多于一个复制结果。
29.根据权利要求27所述的方法,进一步包括以下步骤:
根据用户优先级、设备优先级和发行者优先级中的一个或多于一个,保留所述一个或多于一个复制结果。
30.一种计算机可读介质,其包括执行权利要求1所述的方法行为的代码。
31.一种用于处理查询的计算机执行系统,所述系统包括:
接收模块,其用于接收来自用户设备的查询;
分类模块,其用于将所述查询分类以识别一个或多于一个内容来源;
格式化模块,其用于根据所述一个或多于一个内容来源的一个或多于一个具体内容来源格式化所述查询;
传输模块,其用于将所述一个或多于一个内容来源的格式化的查询传输给所述一个或多于一个内容来源;
合并模块,其至少部分地根据一个或多于一个因素将结果合并,以响应来自所述一个或多于一个内容来源的所述格式化的查询;和
结果模块,其用于格式化所述结果以传送给所述用户设备。
32.根据权利要求31所述的系统,其中所述一个或多于一个因素包括一个或多于一个全局因素和/或局部因素。
33.根据权利要求31所述的系统,其中所述用户设备包括支持因特网的输入设备、支持因特网或支持音频的移动设备、支持音频的输入设备、计算机和信息亭中的一个或多于一个。
34.根据权利要求31所述的系统,其中所述一个或多于一个内容来源包括接至搜索引擎、广告引擎和与所述内容来源相关的数据库的一个或多于一个访问接口。
35.根据权利要求31所述的系统,其中所述一个或多于一个因素包括编辑等级、响应可靠性、响应延迟性、内容相关性和内容扩展性或覆盖性中的至少一个或多于一个。
36.根据权利要求31所述的系统,其中所述一个或多于一个因素包括用户优先级、使用统计、查询频率、分类频率、发行者优先级、推荐统计、用户自创等级和/或业务关系中的至少一个或多于一个。
37.根据权利要求31所述的系统,其中所述一个或多于一个因素包括至少一个或多于一个统计,该统计与结果项的文本或非文本分析、数据或文本挖掘分析、数据或文本聚类和/或非文本模式分析相关。
38.根据权利要求31所述的系统,其中所述一个或多于一个因素包括至少一个或多于一个统计,该统计与设备细节和/或格式化规格相关。
39.根据权利要求31所述的系统,其中所述一个或多于一个因素包括用户人口统计特性、位置、语言、社会网络、社会团体和个性化特征中的至少一个或多于一个。
40.根据权利要求31所述的系统,其中所述一个或多于一个因素包括页面尺寸、图形、文本元素和文本中的至少一个或多于一个。
41.根据权利要求31所述的系统,其中所述一个或多于一个因素包括来源等级、可靠性因素和延迟因素中的至少一个或多于一个。
42.根据权利要求31所述的系统,其中所述一个或多于一个因素包括业务规则、业务关系、人口统计优先级和销售目标中的至少一个或多于一个。
43.根据权利要求31所述的系统,其中所述一个或多于一个因素包括局部排名得分、来源排序数值、具体来源综合得分和来源因素中的至少一个或多于一个。
44.根据权利要求31所述的系统,其中所述一个或多于一个因素包括基于结果的排名、相关性、准确性和使用因素中的至少一个或多于一个,其中使用因素包括人口统计、流量模式、用户个性和团体价值中的一个或多于一个。
45.根据权利要求31所述的系统,其中所述查询被划分成一个或多于一个分类单位或受控词汇中的类别。
46.根据权利要求31所述的系统,其中至少部分地根据文本相关性、用户优先级、排序、相关性或相似性得分和/或结果项因素中的一个或多于一个合并所述结果。
47.根据权利要求46所述的系统,其中所述结果项因素包括来源等级、元数据相关性因素、相似性因素、排名因素、发行者优先级、使用模式、位置、设备规格、查询频率和/或分类频率中的一个或多于一个。
48.根据权利要求31所述的系统,其步骤进一步包括:
在每个内容来源,为每个结果项动态计算一个或多于一个局部排名统计来响应所述查询,该结果项涉及与所述查询相关的一个或多于一个术语,并且涉及所述查询语境的元数据。
49.根据权利要求31所述的系统,进一步包括:
一模块,其用于计算涉及结果集中的一个或多于一个内容项的至少一个全局统计,并且计算归一化因子。
50.根据权利要求49所述的系统,其中根据所述至少一个全局统计和/或一个局部统计,为来自所述一个或多于一个内容来源的结果项确定一个或多于一个相关性得分。
51.根据权利要求49所述的系统,其中根据所述归一化因子将所述一个或多于一个相关性得分归一化。
52.根据权利要求49所述的系统,其中基于由所述归一化因子确定的排序将所述结果合并成单个结果集。
53.根据权利要求31所述的系统,进一步包括:
一个或多于一个缓存,其用于存储来自每个内容来源的结果。
54.根据权利要求53所述的系统,其中所述一个或多于一个缓存被访问以检索现有结果;并且其中所检索的现有结果基于一个或多于一个查询语境参数被格式化。
55.根据权利要求53所述的系统,其中访问所述一个或多于一个缓存减轻一个或多于一个来源行为。
56.根据权利要求31所述的系统,其中在接收到所述查询时,将所述查询分类动态地发生。
57.根据权利要求31所述的系统,其中一个或多于一个复制结果被识别。
58.根据权利要求57所述的系统,其中根据用户、设备和发行者优先级中的一个或多于一个,所述一个或多于一个复制结果被去除。
59.根据权利要求57所述的系统,其中根据用户、设备和发行者优先级中的一个或多于一个,所述一个或多于一个复制结果被保留。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US76689206P | 2006-02-16 | 2006-02-16 | |
US60/766,892 | 2006-02-16 | ||
US11/672,306 | 2007-02-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101401062A true CN101401062A (zh) | 2009-04-01 |
Family
ID=38554491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007800084486A Pending CN101401062A (zh) | 2006-02-16 | 2007-02-16 | 确定相关来源、查询及合并多个内容来源的结果的方法和系统 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5377829B2 (zh) |
CN (1) | CN101401062A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129450A (zh) * | 2010-01-20 | 2011-07-20 | 微软公司 | 检测尖峰查询 |
WO2013166903A1 (zh) * | 2012-05-10 | 2013-11-14 | 腾讯科技(深圳)有限公司 | 一种跨社区搜索方法和装置 |
CN103620603A (zh) * | 2011-06-29 | 2014-03-05 | 微软公司 | 用于自动化关系查询的数据驱动自然界面 |
CN104303180A (zh) * | 2012-05-15 | 2015-01-21 | 微软公司 | 对结构数据基于场景的洞察 |
CN105264526A (zh) * | 2013-04-08 | 2016-01-20 | 脸谱公司 | 基于垂直的查询选择化 |
CN107408125A (zh) * | 2015-07-13 | 2017-11-28 | 谷歌公司 | 用于查询答案的图像 |
CN107835132A (zh) * | 2017-10-17 | 2018-03-23 | 链家网(北京)科技有限公司 | 一种流量来源跟踪的方法及装置 |
CN109241195A (zh) * | 2017-07-03 | 2019-01-18 | 北京国双科技有限公司 | 排名的计算方法及装置 |
CN109710637A (zh) * | 2018-12-29 | 2019-05-03 | 深圳市活力天汇科技股份有限公司 | 一种火车票余票查询方法 |
WO2022178931A1 (zh) * | 2021-02-24 | 2022-09-01 | 浪潮通用软件有限公司 | 一种查询动态列的实现方法、装置及设备 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NZ589966A (en) * | 2008-05-16 | 2014-01-31 | Objective Interface Systems Inc | System and method that uses cryptographic certificates to define groups of entities |
US8478820B2 (en) * | 2009-08-26 | 2013-07-02 | Qualcomm Incorporated | Methods and systems for service discovery management in peer-to-peer networks |
US8478776B2 (en) | 2009-10-30 | 2013-07-02 | Qualcomm Incorporated | Methods and systems for peer-to-peer network discovery using multi-user diversity |
US8825818B2 (en) | 2009-11-10 | 2014-09-02 | Qualcomm Incorporated | Host initiated connection to a device |
US8730928B2 (en) | 2010-02-23 | 2014-05-20 | Qualcomm Incorporated | Enhancements for increased spatial reuse in ad-hoc networks |
JP5749626B2 (ja) * | 2011-10-21 | 2015-07-15 | 株式会社アプリ・スマート | ウェブ情報提供システム及びウェブ情報提供プログラム |
US20140280230A1 (en) * | 2013-03-13 | 2014-09-18 | Qualcomm Incorporated | Hierarchical orchestration of data providers for the retrieval of point of interest metadata |
JP5784182B2 (ja) * | 2014-05-01 | 2015-09-24 | 株式会社東芝 | 受信装置、クエリ生成方法、および、プログラム |
JP2018206084A (ja) * | 2017-06-05 | 2018-12-27 | 株式会社東芝 | データベース管理システムおよびデータベース管理方法 |
US20190220537A1 (en) * | 2018-01-15 | 2019-07-18 | Microsoft Technology Licensing, Llc | Context-sensitive methods of surfacing comprehensive knowledge in and between applications |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2751793B2 (ja) * | 1993-08-13 | 1998-05-18 | 日本電気株式会社 | 情報検索システム |
JP3755147B2 (ja) * | 2001-05-25 | 2006-03-15 | 日本電気株式会社 | ポータルサイト作成方法およびポータルサイト作成装置 |
US7346613B2 (en) * | 2004-01-26 | 2008-03-18 | Microsoft Corporation | System and method for a unified and blended search |
-
2007
- 2007-02-16 CN CNA2007800084486A patent/CN101401062A/zh active Pending
- 2007-02-16 JP JP2007036700A patent/JP5377829B2/ja not_active Expired - Fee Related
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129450B (zh) * | 2010-01-20 | 2015-08-19 | 微软技术许可有限责任公司 | 检测尖峰查询 |
CN102129450A (zh) * | 2010-01-20 | 2011-07-20 | 微软公司 | 检测尖峰查询 |
CN103620603A (zh) * | 2011-06-29 | 2014-03-05 | 微软公司 | 用于自动化关系查询的数据驱动自然界面 |
WO2013166903A1 (zh) * | 2012-05-10 | 2013-11-14 | 腾讯科技(深圳)有限公司 | 一种跨社区搜索方法和装置 |
CN104303180A (zh) * | 2012-05-15 | 2015-01-21 | 微软公司 | 对结构数据基于场景的洞察 |
US10853361B2 (en) | 2012-05-15 | 2020-12-01 | Microsoft Technology Licensing, Llc | Scenario based insights into structure data |
US10649992B2 (en) | 2013-04-08 | 2020-05-12 | Facebook, Inc. | Vertical-based query optionalizing |
CN105264526A (zh) * | 2013-04-08 | 2016-01-20 | 脸谱公司 | 基于垂直的查询选择化 |
CN107729525A (zh) * | 2013-04-08 | 2018-02-23 | 脸谱公司 | 基于垂直的查询选择化 |
CN107408125A (zh) * | 2015-07-13 | 2017-11-28 | 谷歌公司 | 用于查询答案的图像 |
CN107408125B (zh) * | 2015-07-13 | 2021-03-26 | 谷歌有限责任公司 | 用于查询答案的图像 |
CN109241195B (zh) * | 2017-07-03 | 2022-03-18 | 北京国双科技有限公司 | 排名的计算方法及装置 |
CN109241195A (zh) * | 2017-07-03 | 2019-01-18 | 北京国双科技有限公司 | 排名的计算方法及装置 |
CN107835132A (zh) * | 2017-10-17 | 2018-03-23 | 链家网(北京)科技有限公司 | 一种流量来源跟踪的方法及装置 |
CN107835132B (zh) * | 2017-10-17 | 2020-07-03 | 贝壳找房(北京)科技有限公司 | 一种流量来源跟踪的方法及装置 |
CN109710637A (zh) * | 2018-12-29 | 2019-05-03 | 深圳市活力天汇科技股份有限公司 | 一种火车票余票查询方法 |
WO2022178931A1 (zh) * | 2021-02-24 | 2022-09-01 | 浪潮通用软件有限公司 | 一种查询动态列的实现方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5377829B2 (ja) | 2013-12-25 |
JP2007234008A (ja) | 2007-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101401062A (zh) | 确定相关来源、查询及合并多个内容来源的结果的方法和系统 | |
US8386469B2 (en) | Method and system for determining relevant sources, querying and merging results from multiple content sources | |
JP5312771B2 (ja) | クエリに応答して、関連性のある広告を決定する技術 | |
US10102307B2 (en) | Method and system for multi-phase ranking for content personalization | |
US8504550B2 (en) | Social network message categorization systems and methods | |
CN101111837B (zh) | 查询自动分类的搜索处理 | |
CN100465954C (zh) | 用于搜索术语建议的多种类型数据的加强群集 | |
US8380694B2 (en) | Method and system for aggregating reviews and searching within reviews for a product | |
US20060143158A1 (en) | Method, system and graphical user interface for providing reviews for a product | |
WO2018040069A1 (zh) | 信息推荐系统及方法 | |
JP2007234008A5 (zh) | ||
US11995090B2 (en) | Techniques for determining relevant electronic content in response to queries | |
KR20070053282A (ko) | 정보에 대한 말단 사용자 요청에 응답하는 방법 및 장치 | |
CN101727454A (zh) | 用于对象自动分类的方法和系统 | |
WO2017184193A1 (en) | Watch-time clustering for video searches | |
CN101751422A (zh) | 一种移动终端智能搜索的方法、移动终端和服务器 | |
JP2000132566A (ja) | 所望情報加工装置、所望情報加工方法および記録媒体 | |
EP3042319A1 (en) | Structured informational link annotations | |
EP1834249A2 (en) | Method, system and graphical user interface for providing reviews for a product | |
US20100161590A1 (en) | Query processing in a dynamic cache | |
US7809745B2 (en) | Method for generating structured query results using lexical clustering | |
EP2384476A1 (en) | Personalization engine for building a user profile | |
WO2014144348A2 (en) | Using entity repository to enhance advertisement display | |
WO2008032037A1 (en) | Method and system for filtering and searching data using word frequencies | |
CN116186097A (zh) | 数据资产的搜索方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090401 |