CN101903878A - 用于分类搜索结果以确定页面元素的方法和系统 - Google Patents

用于分类搜索结果以确定页面元素的方法和系统 Download PDF

Info

Publication number
CN101903878A
CN101903878A CN2008801198741A CN200880119874A CN101903878A CN 101903878 A CN101903878 A CN 101903878A CN 2008801198741 A CN2008801198741 A CN 2008801198741A CN 200880119874 A CN200880119874 A CN 200880119874A CN 101903878 A CN101903878 A CN 101903878A
Authority
CN
China
Prior art keywords
classification
url
label
result
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2008801198741A
Other languages
English (en)
Other versions
CN101903878B (zh
Inventor
塔尼亚·贝得莱克斯-韦斯
拉马纳坦·V·古哈
帕特里克·F·莱利
科琳·安德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101903878A publication Critical patent/CN101903878A/zh
Application granted granted Critical
Publication of CN101903878B publication Critical patent/CN101903878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及响应于搜索确定待显示的页面元素。本发明的一个方法实施例基于搜索结果确定页面元素。该方法包括:(1)基于搜索结果来确定结果分类的集合,其中每一个结果分类包括结果类别和结果分值;以及(2)基于结果分类的集合来确定页面元素。以这种方式,基于搜索结果确定分类并且基于分类生成页面元素。通过使用搜索结果与仅仅使用查询相对,生成与搜索结果内的对用户的查询的主导解释相对应的页面元素。结果,在大部分情况下,页面元素可以准确反映用户的意图。

Description

用于分类搜索结果以确定页面元素的方法和系统
相关申请的交叉引用
本申请要求于2007年10月11日提交的美国申请序列号11/870,759的优先权,在此通过引用合并所述美国申请所公开的内容。
技术领域
本发明涉及响应于搜索确定待显示的页面元素。
背景技术
搜索引擎使用户能够搜索网页。用户可以将查询提交给搜索引擎。在一个示例中,用户可以使用客户端上的浏览器来提交查询。浏览器可以将查询作为超文本传输协议(HTTP)请求发送。可以将包含查询的HTTP请求发送给服务器。服务器进而将该HTTP请求发送到搜索引擎上。搜索引擎将结果的集合返回给服务器。服务器可以生成向用户显示结果的集合的页面。在一个示例中,可以以超文本标记语言(HTML)对页面编码。服务器然后可以将页面作为HTTP 向应发送给客户端。浏览器然后可以呈现页面以供用户查看。
除结果的集合外,服务器可以将页面元素包括在页面上。页面元素可以对应于分类。服务器可以确定分类,并且触发对应于该分类的页面元素。
传统方法基于查询来确定分类。由于查询可能是用户的意图的不明确指示符,所以这种方法会有问题。例如,如果查询为“burns”,则可能在页面中生成与医疗条件有关的页面元素。然而,如果用户用“burns”是指喜剧演员George Burns,则与医疗条件有关的页面元素可能与用户不相关。
需要用来生成更准确地对应于用户的意图的页面元素的方法和系统。
发明内容
本发明涉及响应于搜索确定待显示的页面元素。本发明的一个方法实施例基于搜索结果的集合来确定页面元素。该方法包括:(1)基于搜索结果的集合来确定结果分类的集合,以及(2)基于结果分类的集合来确定页面元素。每一个结果分类包括结果类别和结果分值。
本发明的一个系统实施例基于搜索结果来生成页面。该系统包括基于搜索结果来确定结果分类的集合的至少一个分类器。每一个结果分类包括结果类别和结果分值。页面元素触发管理器基于结果分类的集合来生成页面。在一个实施例中,至少一个分类器可以包括URL分类器、标签分类器、标签直方图分类器、摘录分类器以及标题分类器中的至少一个。
这样,基于搜索结果来确定分类,并且基于分类来生成页面元素。通过使用搜索结果,与仅仅使用查询相对,生成与搜索结果内的对用户的查询的主导(predominant)解释相对应的页面元素。结果,在大部分情况下,页面元素可以准确对应于用户的意图。
在下面将参考附图详细描述本发明的更多实施例、特征和优势,以及本发明的各种实施例的结构和操作。
附图说明
参考附图描述本发明的实施例。在附图中,相同的参考数字可以指示相同的或功能上相似的元素。
图1是根据本发明的实施例的用于通过对搜索结果分类来显示页面的系统的体系结构图。
图2更详细地示出了图1中的系统的组件。
图3示出了图2的组件可以如何互相操作,包括组件可以相互发送的数据。
图4A和4B更详细地示出了图3的数据结构。
图5A包含示出根据本发明的实施例的用于通过对搜索结果分类来显示页面的方法的流程图,所述方法可以在图1中的系统的操作中使用。
图5B图示了用来执行在图5A中示出的用来对搜索结果分类的步骤的各种方法。
图5C图示了用来执行在图5A中示出的用来确定页面元素的步骤的各种替选方法。
图6图示了来自图5B的用于通过确定类别和权重基于来自搜索结果的统一资源定位符(URL)、标题或摘录对搜索结果分类的一种方法。
图7图示了在基于URL对搜索结果分类时,图6中的方法所使用的确定类别和权重的方法。
图8图示了在基于标题或摘录对搜索结果分类时,图6中的方法所使用的确定类别和权重的方法。
图9图示了来自图5B中的方法的用于基于来自搜索结果的标签对搜索结果分类的步骤。
图10更详细地图示了来自图5B中的方法的用于基于标签直方图对搜索结果分类的步骤。
图11更详细地图示了来自图5A中的方法的用于确定显示哪些页面元素的步骤。
图12A和12B图示了来自图11中的方法的用于基于搜索结果的分类来确定显示哪些页面元素的步骤的替选方法。
图13图示了搜索结果的示例集合。
图14A-C图示了类别的示例层级。
图15-17图示了根据图6和图7中的方法来确定URL分类的示例操作。
图18图示了根据图8中的方法来确定标题或摘录的类别和权重的示例操作。
图19图示了根据图9中的方法来确定标签分类的示例。
图20图示了根据图10中的方法来确定标签直方图分类的示例。
图21图示了基于分类器权重来确定分值的示例。
具体实施方式
本发明涉及用于对搜索结果分类以确定待显示的页面元素的系统和方法。本发明的实施例对搜索结果分类并且使用分类来确定在生成供显示的页面中使用哪些页面元素。通过对搜索结果分类,与仅仅使用查询相对,本发明的实施例生成与搜索结果内的对用户的查询的主导解释相对应的页面元素。结果,在大部分情况下,页面元素可以准确对应于用户的意图。
本发明在此的详细描述中,对“一个实施例”、“实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性,但是每个实施例可以不必包括该特定特征、结构或特性。此外,这样的短语不必是指同一实施例。此外,在关于实施例描述特定特征、结构或特性时,所认为的是,关于无论是否明确描述的其它实施例实现这样的特征、结构或特性在本领域技术人员的知识范围内。
实施例的详细描述被分成数个部分。第一部分关于图1-4B描述根据本发明的实施例的系统。第二部分关于图5A-12B描述根据本发明的实施例的方法,其可以在系统的操作中使用。第三部分关于图13-21图示了方法的示例。
系统
本部分关于图1-4B描述了根据本发明的实施例的系统。
图1是根据本发明的实施例的用于通过对搜索结果分类来显示页面的系统的体系结构图。图1示出了系统100。系统100包括由一个或多个网络120连接的客户端110、搜索引擎140以及服务器150。
客户端110、搜索引擎140和服务器150中的每一个可以在计算设备上实现。这样的计算设备可以包括但不限于个人计算机、诸如移动电话的移动设备、工作站、嵌入式系统、游戏控制台、电视或机顶盒。这样的计算设备可以包括但不限于具有用于执行以及存储指令的处理器和存储器的设备。这样的计算设备可以包括软件、固件以及硬件。软件可以包括一个或多个应用和操作系统。硬件可以包括但不限于处理器、存储器和图形用户界面显示。
客户端110、搜索引擎140和服务器150可以在同一或不同位置处的一个或多个计算设备上实现。例如,客户端110、搜索引擎140和服务器150可以在耦接到诸如网络120的网络的不同计算设备上而互相远离。在又一个示例中,服务器150和搜索引擎140可以在共同位置处的一个或多个计算设备上实现并且通过网络120耦接到远程客户端110。可以使用用于布置客户端110、服务器150和搜索引擎140的其它组合和配置,这对本描述的领域的技术人员而言是显而易见的。
网络120可以是携载数据通信的任何网络或网络的组合。这样的网络120可以包括但不限于局域网、中域网和/或诸如因特网的广域网。网络120可以支持包括但不限于万维网协议和/或服务的协议和技术。可以基于特定应用或环境在系统100的组件之间提供中间web服务器、网关或其它服务器。
客户端110包括浏览器112。例如,浏览器112可以是web浏览器或用于浏览内容的其它类型的浏览器。浏览器112可以通过网络120将请求发送给服务器150并且从服务器150接收响应。作为一个示例,而不限制本发明,请求可以是HTTP请求。HTTP请求可以包含用户使用用户界面输入的参数。响应可以是HTTP响应。HTTP响应可以包含web内容,诸如超文本标记语言(HTML)、图像、视频或多媒体内容。
服务器150可以包括web服务器或可以耦接为与在相同或不同位置处的web服务器通信。Web服务器是以HTTP响应对超文本传输协议(HTTP)请求作出响应的软件组件。作为说明性示例,web服务器可以不受限制地为Apache HTTP服务器、Apache Tomcat、微软互联网信息服务器、JBoss应用服务器、WebLogic应用服务器或Sun Java系统Web服务器。Web服务器可以包含响应于HTTP请求而生成内容的web应用。Web服务器可以对所生成的内容进行封装并且以HTTP响应的形式将内容派发给客户端。这样的内容可以包括超文本标记语言(HTML)、可扩展标记语言(XML)、文档、视频、图像、多媒体特征或以上的任何组合。该示例是绝对说明性的并且不限制本发明。
根据实施例,服务器150包括页面生成器160。页面生成器160确定待显示哪些页面元素并且生成包含那些页面元素的页面。在说明性示例中,页面可以包括搜索结果和根据本发明的实施例确定包括在页面中的其它页面元素。在一个示例中,可以以HTML对页面编码以及页面元素可以是包含一些文本的HTML的部分。该示例是说明性的并且并不意在限制本发明。
在实施例中,页面生成器160包括页面元素触发管理器165和搜索分类器163。页面元素触发管理器165触发页面元素。页面元素是包括一些内容的页面的部分。
搜索分类器163基于搜索结果确定至少一个分类。每一个分类可以包括类别和分值。页面元素触发管理器165使用分类来确定在生成页面中使用哪些页面元素。这将在下面详细描述。通过使用搜索结果来确定显示哪些页面元素,页面生成器160生成与如由搜索结果所表示的搜索引擎140对用户的查询的主导解释相对应的页面。结果,在大部分情况下,页面元素可以准确对应于用户的意图。
浏览器112、页面生成器160、搜索分类器163、页面元素触发管理器165以及搜索分类器163中的每一个可以作为软件、硬件、固件或以上的任何组合来实现。
图2示出了系统100的组件。如图2中所示,客户端110可以与服务器150通信,以及服务器150可以与搜索引擎140通信。如前所述,该通信可以在诸如因特网的一个或多个网络120上发生。
服务器150包含查询分类器202。查询分类器202基于查询来确定查询分类。查询分类可以包括类别和分值。在实施例中,页面元素触发管理器165可以协同来自搜索分类器163的分类使用查询分类来确定在生成页面中使用哪些页面元素。通过使用搜索结果来确定显示哪些页面元素,服务器150生成与搜索引擎140对用户的查询的主导解释相对应的页面。结果,在大部分情况下,页面元素可以准确对应于用户的意图。
页面生成器160包括页面元素触发管理器165和搜索分类器163。搜索分类器163可以包括URL(统一资源定位符)分类器220、标签分类器222、标签直方图分类器224、摘录分类器226和/或标题分类器228。那些组件中的每一个可以基于由搜索引擎140生成的搜索结果的部分来生成分类。URL分类器220基于URL来确定分类;标签分类器222基于标签来确定分类;标签直方图分类器224基于标签来确定分类;摘录分类器226基于摘录来确定分类;以及标题分类器228基于标题来确定分类。分类然后由页面元素触发管理器165使用来选择页面元素。在下面将更详细地描述如何生成每一个分类以及如何基于那些分类来选择页面元素。通过使用搜索结果来确定显示哪些页面元素,页面生成器160生成与搜索引擎140对用户的查询的主导解释相对应的页面。结果,在大部分情况下,页面元素可以准确对应于用户的意图。
查询分类器202、URL分类器220、标签分类器222、标签直方图分类器224、摘录分类器226和标题分类器228中的每一个可以作为硬件、软件、固件或以上的任何组合来实现。
图3示出了系统100的组件可以如何互相操作,包括组件可以相互发送的数据。
浏览器112可以将查询302发送给服务器150。一个示例,查询302可以是由浏览器使用HTML表单生成的HTTP参数。在一个示例中,HTML表单可以由用户界面向用户显示。用户使用用户界面将表示查询的数据输入到HTML表单中。用户然后按下在HTML表单上的提交按钮。这触发浏览器生成包括作为HTTP参数的查询302的HTTP请求。该示例仅为说明性的并且并不意在限制本发明。
一旦服务器150接收查询302,查询分类器202可以使用查询302来生成查询分类304。在一个示例中,查询分类304可以包括类别和分值。页面元素触发管理器165可以协同来自搜索分类器163的分类使用查询分类304来确定显示哪些页面元素。
服务器150还将查询302发送到搜索引擎140上。响应于查询302,搜索引擎140生成搜索结果306。搜索引擎140可以使用任何已知的搜索技术来生成搜索结果306。搜索结果306包括来自搜索的命中项和关于命中项的信息。将在下面关于图4A更详细地描述搜索结果306。并不是为查询找到的所有命中项均必须在结果集合中出现。
搜索结果306由服务器150和每一个分类器220至228接收。每一个分类器220至228分析搜索结果的不同部分并且返回分类响应308。每一个分类响应308包括分类。将在下面关于图4B提供关于分类响应308的更多细节。
页面元素触发管理器165使用分类响应308来生成页面310。页面310包括基于分类响应308确定的页面元素。一旦生成页面310,服务器150将页面310发送到客户端110上以由浏览器112显示。
图4A和4B更详细地示出了图3的数据结构。
图4A示出了搜索结果306的结构。搜索结果306包括结果集合410和标签直方图430。结果集合410包括结果430A-N。示出了多个结果,但实际上可能使用一个或多个。每一个结果430A-N表示搜索中的命中项。在web搜索的示例中,命中项表示所找到的与查询302有关的网站。
每一个结果430A至N包含位置412、URL 416、标题414、摘录418以及标签420。位置412为在结果集合中的位置。通常,位置412与相关性有关。例如,更相关的结果在结果集合中较前面,从而具有较低的位置412。URL 416是所找到的网站的统一资源定位符。标题414可以是所找到的网站的标题。摘录418是来自所找到的网站的节选。标签420是描述网站内容的标签。结果可以具有零或多个标签420。
搜索结果306还包含标签直方图402。标签直方图402包括标签的列表和对应的频率。频率可以指示该标签在搜索结果的集合中的实例的数量。
图4B示出了分类响应308。分类响应308包括分类集合440。分类集合440包括分类446A-N。为了清晰,示出了多个分类446A-N,但是实际上可能使用一个或多个。分类集合440中的每一个元素还包含类别442和分值444。为了清晰,来自URL分类器220的分类可以被称为URL分类;来自标签分类器222的分类可以被称为标签分类;来自标签直方图分类器224的分类可以被称为标签直方图分类;来自摘录分类器226的分类可以被称为摘录分类;以及来自标题分类器228的分类可以被称为标题分类。
分类响应308还包括文档的数量450。文档的数量450可以指示分类器用来生成分类的结果的数量。
操作
本部分关于图5A-12B描述了根据本发明的实施例的方法,其可以在系统的操作中使用。
图5A包含示出根据本发明的实施例的用于通过对搜索结果分类来显示页面的方法的流程图,所述方法可以在系统100的操作中使用。
图5A包含方法500。为了清晰,关于系统100来描述方法500,并不意在局限于此。
方法500是用来生成页面的方法的高层次概述。方法500以接收查询(步骤502)开始。例如,查询可以是从浏览器112发送到服务器150的查询302。然后,基于查询确定查询分类。查询分类器202可以确定查询分类。诸如搜索引擎140的搜索引擎接收查询(步骤506)。例如,由服务器150接收搜索引擎生成的搜索结果(步骤504)。基于搜索结果确定分类响应(步骤510)。将在下面进一步详细描述步骤510。基于分类响应和/或查询分类生成页面(步骤512)。将在下面进一步详细描述该步骤。最后,输出页面(步骤514)。例如,可以在步骤514将页面从服务器150输出到浏览器112,并且在步骤516浏览器112显示页面310。
通过使用搜索结果来确定显示哪些页面元素,方法500生成与搜索结果内的对用户的查询的主导解释相对应的页面。结果,在大部分情况下,页面元素可以准确对应于用户的意图。
步骤510可以随所使用的分类器而变化。图5B示出了方法可以在各种分类器之间如何变化。图5B示出了确定URL、标题或摘录分类过程使用方法510A。方法510A取决于正对URL分类还是正对标题或摘录分类。如果正对URL分类,则在610A确定URL权重和类别。如果正在确定标题或摘录类别,则方法510A使用方法610B来确定标题或摘录类别和权重。标签分类器222使用方法510B。标签直方图分类使用方法510C。将在下面更详细地描述方法。
步骤512也可以变化。在图5C中示出了步骤512的两个替选。作为替选,步骤512可以利用负信号或正信号。在方法1106A中说明了负信号,而在1106B中说明了正信号。将在下面更详细地描述方法。
图6示出了用于确定URL、标题或摘录分类的方法510A。方法510A可以例如由URL分类器220、摘录分类器226或标题分类器228使用。方法510A以为搜索结果306中的每一个结果确定类别和对应的权重(步骤602)开始。将在下面更详细地描述步骤602。然后,根据其在搜索结果306中的位置调节每一个权重(步骤604)。合计(aggregate)关于每一个类别的权重以确定该类别的分值(步骤606)。然后,可选的步骤基于子类别来合计权重以确定分类响应308(步骤608)。该方法例如可以由URL分类器220、摘录分类器226和标题分类器228执行。
图7图示了在基于URL对搜索结果分类时,方法510A在步骤602所使用的确定类别和权重的方法。图7示出了方法602A。方法602A以为整个URL确定类别和对应的权重(步骤702)开始。然后,方法602A仅为URL的主机名确定类别和对应的权重(步骤704)。在两个情况下,可以例如使用简单的查找表来确定类别和权重。然后,可以为完整URL和仅主机名的权重确定加权平均值(步骤706)。该方法例如可以由URL分类器220执行。
图8图示了在基于标题或摘录对搜索结果分类时,方法510A在步骤602所使用的确定类别和权重的方法。方法602B示出了关于标题或摘录的步骤602的示例。循环变量n等于1(步骤802)。方法602B为具有长度n的每一个单词序列确定类别(步骤804)。这可以例如使用简单的查找表来确定。每一个类别的权重作为n的函数来确定(步骤806)。例如,一个单词的序列产生比五个单词的序列低的权重。控制随标题或摘录中的单词的数量是否等于n而改变(判定块808)。如果在标题或摘录中的单词的数量等于n,则n递增(步骤810),否则方法602B结束。该方法例如可以由摘录分类器226和标题分类器228执行。
图9图示了由方法500使用的用于基于来自搜索结果的标签对搜索结果分类的方法。
图9图示了用于确定标签分类的方法510B。作为一个示例,标签分类可以由标签分类器222确定。方法510B以检查前n个搜索结果的标签(步骤902)开始。然后,对于每一个标签,方法510B为该标签确定所有的标签类别(步骤904)。这可以例如使用简单的查找表来确定。方法510B通过采用符合特定类别的所有标签与标签的数量的比率,来为该特定类别确定权重(步骤906)。
图10图示了由方法500使用的用于基于标签直方图来对搜索结果分类的方法。
图10图示了用于确定标签直方图分类的方法510C。作为一个示例,标签直方图分类可以由标签直方图分类器224确定。方法510C以检查前n个标签分布(步骤1002)开始。然后,将每一个标签映射到一个类别(步骤1004)。类别可以例如使用简单的查找表来确定。最后,基于分布为每一个类别确定分值(步骤1006)。
图11图示了由方法500使用的用于生成页面的方法。图11包含方法512,其更详细地图示了方法500中的步骤512。在一个示例中,方法512可以由页面元素触发管理器165执行。
方法512以移除具有低于某一阈值的分值的分类(步骤1102)开始。接着,方法512确定结果分类集合。结果分类集合是结果分类的集合。每一个结果分类包含类别和分值。方法512可以基于分类器权重来确定结果分值(步骤1104)。作为一个示例,可以使用加权平均值来确定结果分值。可以使用自适应最优化算法来对权重进行优化。自适应最优化算法的示例包括但不限于爬山法、随机爬山法、A星法或遗传算法。可以使用文档的数量450来对权重进行优化。
在未示出的步骤中可以将结果分类集合与所使用的结果的数量封装在一起。共同地,这形成分类响应。
方法512使用结果分类来确定显示哪些页面元素(步骤1106)。将在下面更详细地论述步骤1106的数个变更。在步骤1106后,方法512结束。
图12A和12B图示了来自方法512的用于基于搜索结果的分类来确定显示哪些页面元素的步骤1106的替选方法。
图12A示出了方法1106A。方法1106A协同结果分类使用查询分类。方法1106A以评估查询分类是否在前N个结果分类中(判定块1202)开始。如果查询分类是前N个结果分类,则方法1106A允许显示与查询分类相关联的页面元素(步骤1204)。否则,方法1106A不允许显示与查询分类相关联的页面元素(步骤1206)。
图12B示出了方法1106B。方法1106B显示与具有最高分值的结果分类相关联的页面元素(步骤1202)。
通过使用搜索结果来确定显示哪些页面元素,页面生成器160生成与搜索结果内的对用户的查询的主导解释相对应的页面。结果,在大部分情况下,页面元素可以准确反映用户的意图。
示例操作
本部分描述本发明的实施例中的方法500的示例。同样,该示例说明了本发明的实施例中的系统100的操作。该示例是说明性的,并且并不意在限制本发明。
示例搜索结果
图13图示了示例搜索结果1300。搜索结果1300可以由诸如搜索引擎140的搜索引擎响应于诸如查询302的查询而生成。
图13示出了示例结果集合1302和示例标签直方图1304。示例结果集合1302包含N个结果。在所述N个结果中,结果1320被示出在位置1,结果1330被示出在位置2以及结果1340被示出在位置3。结果集合1302作为表示出,其中每一行示出了结果以及每一列示出了结果的元素。列1306示出了位置。列1308示出了标题。列1310示出了摘录。列1312示出了URL。列1314示出了一个或多个标签。
在所提供的示例中,结果1320和结果1330与烧伤(burns)医疗条件有关,而结果1340与喜剧演员George Burns有关。简洁起见,许多稍后的示例仅使用这些结果,然而,可以使用任何数量的结果。
标签直方图1304示出了搜索结果中的各种标签以及对应的频率。
一旦每一个分类器接收示例搜索结果1306,每一个分类器确定诸如分类响应308的分类响应。
确定示例分类响应
一旦每一个分类器接收示例搜索结果1306,每一个分类器确定分类响应。如关于图4B所描述的,每一个分类响应包含一个或多个分类。每一个分类包括类别和分值。首先,本部分关于图14A-C描述示例类别。其次,本部分关于图15-19描述每一个分类器如何确定分类响应。
图14A-C示出了在该示例中使用的类别的层级。可以将类别结构化为树。树包含根类别。根类别可以具有孩子类别。孩子类别可以是进一步孩子类别的父母。
图14A示出了与健康(health)有关的类别树。该树的根是根类别“health”。该根类别具有孩子“health/conditions(健康/条件)”和“health/treatment(健康/治疗)”。类别“health/health-conditions(健康/健康-条件)”具有进一步的孩子“health/health-conditions/burns(健康/健康-条件/烧伤)”。
图14B示出了与政府(government)有关的类别树。在该树的根处为根类别“government”。该根类别具有孩子“government/governmentagencies(政府/政府机构)”和“government/federal(政府/联邦)”。
图14C示出了与喜剧(comedy)有关的类别树。该树的根是类别“comedy”。该根类别具有孩子“comedy/TV(喜剧/电视)”和“comedy/radio(喜剧/广播)”。
确定示例URL分类响应
图15-17图示了根据方法510A和方法602B确定URL分类的示例操作。
图15示出了URL分类器的示例操作。为了确定URL分类,URL分类器必须对URL类别和权重分类。这例如如方法602A中所示的那样来完成。
方法602A以在步骤702为整个URL确定类别和对应的权重开始。这在图15中的步骤1502处示出,其中将搜索结果1330的整个URL映射到类别和对应的权重的集合。注意到,该类别的集合来自在图14A-C中示出的树。搜索结果1320和1340,整个URL为主机名,因此在1504和1508分别为结果1320和1340确定整个URL的类别和权重。类别和权重可以例如使用简单的查找表来确定。
在步骤704,仅为URL的主机名部分确定类别和权重。在1506,为搜索结果1330确定URL的主机名版本的类别和权重。在步骤1504和1508,分别为搜索结果1320和1340确定类别和权重。类别和权重可以例如使用简单的查找表来确定。
在计算了完整URL和仅主机名类别和权重后,必须确定URL的类别和权重。这可以如在步骤706通过采用加权平均值来完成。在图16示出了一个示例。如果使用加权平均值,则必须确定对应的仅主机名和完整URL的权重。在所示出的示例中,仅主机名的权重为.3以及完整URL的权重为.7。两个权重必须总计达1。权重可以例如使用自适应最优化算法来确定。由于结果1320和1340对于完整URL和仅主机名具有相同的权重,所以采用加权平均值没有效果。然而,搜索结果1330具有不同的完整URL和主机名,因此必须如在1602所示合计那两个值。图16如所示合计各种类别并示出新的权重。
一旦确定每一个搜索结果的类别和权重,必须为每一个类别评估分值。这在图17中示出。为了计算分值,如在步骤604,必须应用位置偏向。位置偏向调整权重,使得来自具有较低位置的结果的权重计数大于具有较高位置的结果的。由于通常具有较低位置的结果比具有较高位置的结果更相关,所以这使分值更准确。在图17中示出的示例中,位置偏向为函数g(n)=n-0.5。该函数在1702示出。该示例仅为说明性的,可以使用任何递减函数。在表1704,根据位置偏向调节权重。换句话说,为每一个结果的每一个类别评估位置偏向,并且根据对位置偏向的计算调节权重。调节后的权重在结果列中。最后,需要跨所有结果合计权重以确定每一个类别的分值。这在1706示出。
一旦计算了每一个类别的分值,可以将每一个类别和对应的分值封装入URL分类中。所有的URL分类共同形成URL分类集合。可以将URL分类集合与用来生成分类集合的结果的数量封装在一起形成URL分类响应。
确定示例标题或摘录分类响应
图18图解了确定标签或摘录分类的摘录分类器226和标题分类器228的示例操作,其在方法510A中图解。为了确定标签或摘录分类,必须确定类别和摘录的类别和权重。这例如根据方法602B来完成。
简洁起见,图18仅为一个标题-结果1330的标题图解了方法602B的示例。然而,相同的过程被用于每一个结果的每一个标题和摘录。表1802示出了方法602B的示例。结果1330的标题为“NationalInstitute of Health”。
在步骤802,循环变量n被设置为1。在步骤804,为每个一个单词的序列确定类别。行1810、1812和1814每一个包含一个单词的序列。每一个单词映射到至少一个类别。这可以例如使用简单的查找表来完成。接着在步骤806,将权重指定为循环变量n的函数。在所示出的示例中,函数为在该特定短语中的单词的数量与在所评估的所有短语中的所有的单词的数量的总和的数量的比率。该示例仅是说明性的,并且并不限制本发明。在此被评估的跨所有大量的短语的所有单词的总和为10。对于在行1810、1812和1814的序列,单词的数量为1,因此权重为1除以10或.1。
在判定块808,控制随n是否等于标题或摘录中的单词的数量而改变。在此,标题中的单词的数量等于3,以及n等于1。因此,控制行进到步骤810。
在步骤810,将循环变量n递增至2。行1818和1816示出了在步骤804确定的两个单词的序列。在行1818的序列为“Institute of Health”。在示例实施例中,由于“of”为简短介词,所以这可以仅算作两个单词。在每一行1818和1816,确定类别。确定关于行1818和1816的权重。
最后一次递增循环变量n以使其等于3。行1820示出了三个单词的序列。确定类别。最后,为该类别计算权重。
一旦为所有标题和摘录确定了类别和权重,必须为每一个类别确定分值。这可以如在图17中所示的通过向每一个应用位置偏向并且合计每一个类别的偏向后的权重来完成。
一旦计算了每一个类别的分值,可以将每一个类别和对应的分值封装入标题或摘录分类中。所有的标题或摘录分类共同形成标题或摘录分类集合。可以将标题或摘录分类集合与用来生成分类集合的结果的数量封装在一起形成标题或摘录分类响应。
确定示例标签分类响应
图19图示了根据方法510B确定标签分类的示例。
步骤902检查前n个搜索结果。在示例中,前n个搜索结果为结果1320、1330和1340。在步骤904,对于每一个标签,为该标签确定一个或多个类别。这可以利用例如简单的查找表来完成。表1902示出了每一个结果的类别。行1910、1912和1914分别将标签映射到结果1320、1330和1340的类别。
步骤906通过采用与特定类别相关联的标签与标签的数量的比率来为每一个特定类别确定分值。这在表1904中示出。
一旦计算了每一个类别的分值,可以将每一个类别和对应的分值封装入标签分类中。所有的标签分类共同形成标签分类集合。可以将标签分类集合与用来生成分类集合的结果的数量封装在一起形成标签分类响应。
确定示例标签直方图分类响应
图20图示了根据方法510C确定标签直方图分类的示例操作。该方法可以在标签直方图分类器224的操作中使用。
表2002表示来自搜索结果的标签直方图。表2002包含标签的列表。每一个标签映射到频率。
步骤1002检查前n个标签分布。在此,n等于4,因此前4个标签分布被用来确定标签直方图分类。4个标签分布在表2004处。步骤1004将每一个标签映射到至少一个类别。表2004示出了标签如何映射到各个类别。
下一步骤1006为每一个类别确定分值。以表2006来看步骤1006的示例。在该示例中,通过采用该类别的频率与所有频率的总和的比率来确定分值。在该情况下,所有频率的总和为200加上50加上45加上20等于315。对于类别“health/treatment”,唯一的出现在具有频率50的行2014。因此,分值为50除以315,其等于.16。类别“health/health-conditions”在关于标签disease(疾病)的具有频率200的行2012和关于标签treatment的具有频率50的行2014出现。200加上50的总和等于250。250除以315等于.79。类别“government/agencies”在具有频率20的标签government的行2018出现。20除以315等于.06。Comedy在行2016的标签comedy处以频率45出现。45除以315等于.14。
一旦计算每一个类别的分值,可以将每一个类别和对应的分值封装入标签直方图分类中。所有的标签直方图分类共同形成标签直方图分类集合。可以将标签直方图分类集合与用来生成分类集合的结果的数量封装在一起形成直方图分类响应。
确定待显示的示例页面元素
图21图示了基于分类器权重来确定结果分类分值的示例。图21示出了用来确定结果分类分值的步骤1104。表2002示出了来自分类步骤中的每一个的类别和分值。步骤1508基于来自分类器中的每一个的分类的分值确定结果分值。在所示出的示例中,加权平均值被用来确定结果分值。加权平均值使用如在2016示出的权重。可以使用对各种分类器的使用进行优化的自适应最优化算法来调整权重。作为一个示例,还可以使用在每一个分类响应中的结果的数量来确定权重。
表2014示出了类别中的每一个的加权平均值计算。该计算的结果为结果分值。类别和结果分值的组合为结果分类。所有的结果分类共同形成结果分类集合。
在可选的步骤(未示出)中,可以基于子类别对结果分值进行合计。例如,类别“health/health-conditions”的结果分值为类别“health/health-conditions”和子类别“health/health-conditions/burns”的分值的合计。进一步,类别“health”的结果分值为类别“health”和子类别“health/health-conditions”和“health/health-treatment”的分值的合计。
结果分类集合可以由页面元素触发管理器165使用来确定页面310。页面元素触发管理器1605可以如前所述使用负信号或正信号。在图12A中的步骤1106A示出了负信号。在图12B的方法1106B示出了正信号。
通过使用搜索结果来确定显示哪些页面元素,该示例生成与搜索结果内的对用户的查询的主导解释相对应的页面。结果,在大部分情况下,页面元素可以准确反映用户的意图。
结论
将理解的是,意在将具体实施方式部分而非发明内容和摘要部分用来解释权利要求。发明内容和摘要部分可以阐述如发明者预期的本发明的一个或多个而非所有示例实施例,因此,其并不意在以任何方式限制本发明和所附权利要求。
在上面借助于图示指定功能的实施方式和其关系的功能构件块来描述了本发明。为描述简便起见,在此任意定义了这些功能构件块的界线。可以定义替选的界线,只要由此恰当执行指定的功能和其关系。
特定实施例的前述描述将如此全面地揭示本发明的一般本质,使得其他人能够通过应用本领域内的知识,在不必过度实验的情况下,在不背离本发明的一般概念的情况下,来将这样的特定实施例容易地修改和/或更改为用于各种应用。因此,基于在此所呈现的教导和指导,这样的更改和修改旨在所公开的实施例的等价物的含义和范围内。将理解的是,在此的措词或用语是为了描述而非限制的目的,普通技术人员应根据教导和指导解释本说明书的用语或措词。
本发明的宽度和范围不应当由任何上述示例实施例限制,而应当仅根据所附权利要求和其等价物定义。

Claims (32)

1.一种用于基于搜索结果的集合确定页面元素的方法,包括:
(a)基于所述搜索结果的集合来确定结果分类的集合,其中每一个结果分类包括结果类别和结果分值;以及
(b)基于所述结果分类的集合来确定所述页面元素。
2.如权利要求1所述的方法,其中步骤(a)的确定所述结果分类的集合包括:
(i)基于来自所述搜索结果的集合的URL确定URL分类的集合;以及
(ii)基于所述URL分类的集合确定所述结果分类的集合。
3.如权利要求2所述的方法,其中步骤(i)的确定所述URL分类的集合包括:
(1)基于来自所述搜索结果的集合的所述URL来确定完整URL类别和对应的完整URL权重的集合;
(2)基于来自所述搜索结果的所述URL的主机名来确定主机名类别和对应的主机名权重的集合;
(3)基于所述完整URL类别和对应的完整URL权重的集合和所述主机名类别和对应的主机名权重的集合来确定URL类别和对应的URL权重的集合;以及
(4)基于所述URL类别和对应的URL权重的集合来确定所述URL分类的集合。
4.如权利要求3所述的方法,其中步骤(4)的确定所述URL分类的集合包括:
(A)根据在所述搜索结果中的所述URL的位置调整所述URL类别和对应的URL权重的集合中的所述URL权重;以及
(B)基于所述调整后的URL类别和对应的URL权重的集合来确定所述URL分类的集合。
5.如权利要求1所述的方法,进一步包括:
(c)基于查询确定查询分类,所述查询被用于生成所述搜索结果,其中所述查询分类包括查询类别。
6.如权利要求5所述的方法,其中步骤(b)的确定所述页面元素包括:
(i)在所述查询类别在所述结果分类的集合中的所述结果类别之中时,选择与所述查询类别相对应的所述页面元素。
7.如权利要求1所述的方法,其中步骤(b)的确定所述页面元素包括:
(i)选择与具有最高结果分值的结果类别相对应的所述页面元素,其中具有所述最高分值的所述结果类别是为包含所有所述结果分类的所有所述分值的最高分值的所述结果分类的部分的结果类别。
8.如权利要求1所述的方法,其中步骤(a)的确定所述结果分类的集合包括:
(i)基于来自所述搜索结果的标题确定标题分类的集合;以及
(ii)基于所述标题分类的集合确定所述结果分类的集合。
9.如权利要求8所述的方法,其中步骤(a)的确定所述标题分类的集合包括:
(a)确定标题类别的集合,每一个类别对应于在所述搜索结果的集合中的标题中的单词的序列;
(b)确定与所述类别的集合中的每一个标题类别相对应的标题权重,其中每一个标题权重对应于用来确定所述标题类别的所述单词的序列的长度;
(c)根据所述搜索结果中的所述标题的位置调整所述标题类别和对应的标题权重的集合中的所述标题权重;以及
(d)基于所述调整后的标题类别和对应的标题权重的集合确定所述标题分类的集合。
10.如权利要求1所述的方法,其中步骤(a)的确定所述分类包括:
(i)基于来自所述搜索结果的集合的摘录确定摘录分类的集合;以及
(ii)基于所述摘录分类的集合确定所述结果分类的集合。
11.如权利要求10所述的方法,其中步骤(a)的确定所述摘录分类的集合包括:
(1)确定摘录类别的集合,每一个类别对应于来自所述搜索结果的集合的摘录中的单词的序列;
(2)确定与所述类别的集合中的每一个摘录类别相对应的摘录权重,其中每一个摘录权重对应于用来确定所述摘录类别的所述单词的序列的长度;
(3)根据所述搜索结果中的所述摘录的位置调整所述摘录类别和对应的摘录权重的集合中的所述摘录权重;以及
(4)基于所述调整后的摘录类别和对应的摘录权重的集合确定所述摘录分类的集合。
12.如权利要求1所述的方法,其中步骤(a)的确定所述分类包括:
(i)确定来自所述搜索结果的集合的标签的集合;
(ii)基于所述标签的集合确定类别的集合;
(iii)为所述类别的集合中的每一个类别确定分值;以及
(iv)基于所述类别的集合和每一个类别的所述分值确定所述结果分类的集合。
13.如权利要求12所述的方法,其中步骤(iii)的确定所述标签分值进一步包括:
(1)采用与特定分类相关联的标签与所述标签的集合中的标签的数量的比率。
14.如权利要求1所述的方法,其中步骤(a)的确定所述分类包括:
(i)确定来自所述搜索结果的集合中的标签直方图的标签和对应的频率的集合;
(ii)基于所述标签的集合确定标签直方图类别的集合;
(iii)为所述标签直方图类别的集合中的每一个类别确定标签直方图分值,其中所述标签直方图类别和所述标签直方图分值的组合形成标签分类,其中所有的所述组合形成标签分类的集合;以及
(iv)基于所述标签分类的集合确定所述结果分类的集合。
15.如权利要求14所述的方法,其中步骤(iii)的确定所述标签直方图分值进一步包括:
(1)基于与每一个类别相对应的所述标签的所述频率,为所述标签直方图类别的集合中的每一个类别确定所述标签直方图分值。
16.一种用于基于搜索结果生成页面的系统,包括:
至少一个分类器,所述至少一个分类器基于所述搜索结果的集合确定结果分类的集合,其中每一个结果分类包括结果类别和结果分值;以及
页面元素触发管理器,所述页面元素触发管理器基于所述结果分类的集合确定页面元素。
17.如权利要求16所述的系统,其中所述至少一个分类器包括:
URL分类器,所述URL分类器基于所述搜索结果的集合的URL确定URL分类的集合并且基于所述URL分类的集合确定结果分类的集合。
18.如权利要求17所述的系统,其中所述URL分类器基于来自所述搜索结果的集合的所述URL确定完整URL类别和对应的完整URL权重,基于来自所述搜索结果的所述URL的主机名来确定主机名类别和对应的主机名权重,以及基于所述完整URL类别和对应的完整URL权重的集合和所述主机名类别和对应的主机名权重的集合来确定URL类别和对应的URL权重的集合,以及基于所述URL类别和对应的URL权重的集合来确定所述URL分类的集合。
19.如权利要求18所述的系统,其中所述URL分类器根据在所述搜索结果的集合中的所述URL的位置调整所述URL类别和对应的URL权重的集合中的所述URL权重,并且基于所述调整后的URL类别和对应的URL权重的集合来确定所述URL分类的集合。
20.如权利要求19所述的系统,进一步包括查询分类器,所述查询分类器基于查询确定查询分类,所述查询被用于生成所述搜索结果的集合,其中所述查询分类包括查询类别。
21.如权利要求20所述的系统,其中当所述查询类别在所述结果分类的集合中的所述结果类别之中时,所述页面元素触发管理器选择与所述查询类别相对应的页面元素。
22.如权利要求16所述的系统,其中所述页面元素触发管理器选择与具有最高结果分值的结果类别相对应的页面元素,其中具有所述最高分值的所述结果类别是为包含所述结果分类的集合中的所有所述结果分类的所有所述分值的最高分值的所述结果分类的部分的结果类别。
23.如权利要求16所述的系统,其中所述至少一个分类器包括:
标题分类器,所述标题分类器基于来自所述搜索结果的集合的标题确定标题分类的集合,并且基于所述标题分类的集合确定所述结果分类的集合。
24.如权利要求23所述的系统,其中所述标题分类器确定标题类别,所述标题类别对应于所述标题中的单词的序列,确定与所述标题类别相对应的标题权重,其中每一个标题权重对应于用来确定所述标题类别的所述单词的序列的长度,根据所述搜索结果的集合中的所述标题的位置调整所述标题类别和对应的标题权重中的所述标题权重,以及基于所述调整后的标题类别和对应的标题权重确定所述标题分类的集合。
25.如权利要求16所述的系统,其中所述至少一个分类器包括:
摘录分类器,所述摘录分类器基于来自所述搜索结果的集合的摘录确定摘录分类,并且基于所述摘录分类的集合确定所述结果分类的集合。
26.如权利要求25所述的系统,其中所述摘录确定摘录类别,所述摘录类别对应于所述摘录中的单词的序列,确定与所述摘录类别相对应的摘录权重,其中所述摘录权重对应于用来确定所述摘录类别的所述单词的序列的长度,根据所述搜索结果的集合中的所述摘录的位置调整所述摘录权重,以及基于所述调整后的摘录类别和对应的摘录权重的集合确定所述摘录分类的集合。
27.如权利要求16所述的系统,其中所述至少一个分类器包括:
标签分类器,所述标签分类器确定来自所述搜索结果的集合的标签的集合,基于所述标签的集合确定类别的集合,为所述类别的集合中的每一个类别确定分值以形成标签分类的集合,以及基于所述标签分类的集合确定所述结果分类的集合。
28.如权利要求27所述的系统,其中所述标签分类器采用与特定分类相关联的标签与所述标签的集合中的标签的数量的比率。
29.如权利要求16所述的系统,所述至少一个分类器包括:
标签直方图分类器,所述标签直方图分类器确定来自所述搜索结果的集合中的标签直方图的标签和对应的频率的集合,基于所述标签的集合确定标签直方图类别的集合,为所述标签直方图类别的集合中的每一个类别确定标签直方图分值,其中所述标签直方图类别和所述标签直方图分值的组合形成标签直方图分类的集合,以及基于所述标签直方图分类的集合确定所述结果分类的集合。
30.如权利要求29所述的系统,其中所述标签直方图分类器基于与每一个类别相对应的所述标签的所述频率为所述标签直方图类别的集合中的每一个类别确定所述标签直方图分值。
31.一种用于基于搜索结果生成页面的系统,包括:
URL分类器,所述URL分类器基于所述搜索结果的URL确定URL分类;
标题分类器,所述标题分类器基于来自所述搜索结果的标题确定标题分类;
摘录分类器,所述摘录分类器基于来自所述搜索结果的摘录确定摘录分类;
标签分类器,所述标签分类器基于来自所述搜索结果的标签确定标签分类;
标签直方图分类器,所述标签直方图分类器基于来自所述搜索结果的标签直方图确定标签直方图分类;以及
页面元素触发管理器,所述页面元素触发管理器基于所述URL分类、所述标题分类、所述摘录分类、所述标签分类以及所述标签直方图分类来生成页面。
32.一种用于基于搜索结果的集合输出页面的方法,包括:
(a)基于所述搜索结果的集合确定结果分类的集合,其中每一个结果分类包括结果类别和结果分值;
(b)基于所述结果分类的集合确定页面元素;
(c)基于所述页面元素生成页面;以及
(d)输出所述页面。
CN2008801198741A 2007-10-11 2008-10-03 用于分类搜索结果以确定页面元素的方法和系统 Active CN101903878B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/870,759 US8103676B2 (en) 2007-10-11 2007-10-11 Classifying search results to determine page elements
US11/870,759 2007-10-11
PCT/US2008/078818 WO2009048818A2 (en) 2007-10-11 2008-10-03 Methods and systems for classifying search results to determine page elements

Publications (2)

Publication Number Publication Date
CN101903878A true CN101903878A (zh) 2010-12-01
CN101903878B CN101903878B (zh) 2013-04-10

Family

ID=40535200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801198741A Active CN101903878B (zh) 2007-10-11 2008-10-03 用于分类搜索结果以确定页面元素的方法和系统

Country Status (3)

Country Link
US (3) US8103676B2 (zh)
CN (1) CN101903878B (zh)
WO (1) WO2009048818A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346778A (zh) * 2011-10-11 2012-02-08 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN102722511A (zh) * 2010-12-29 2012-10-10 微软公司 对分面搜索的动态面排序
WO2012152157A1 (zh) * 2011-05-11 2012-11-15 北京百度网讯科技有限公司 一种搜索结果的展示方法及装置
CN103049454A (zh) * 2011-10-16 2013-04-17 同济大学 一种基于多标签分类的中英文搜索结果可视化系统
CN103136261A (zh) * 2011-11-30 2013-06-05 阿里巴巴集团控股有限公司 页面元素搜索显示方法及装置
CN111914201A (zh) * 2020-08-07 2020-11-10 腾讯科技(深圳)有限公司 网络页面的处理方法及装置

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584208B2 (en) 2002-11-20 2009-09-01 Radar Networks, Inc. Methods and systems for managing offers and requests in a network
US7640267B2 (en) 2002-11-20 2009-12-29 Radar Networks, Inc. Methods and systems for managing entities in a computing device using semantic objects
US7433876B2 (en) 2004-02-23 2008-10-07 Radar Networks, Inc. Semantic web portal and platform
WO2008021832A2 (en) * 2006-08-09 2008-02-21 Radar Networks, Inc. Harvesting data from page
US20090076887A1 (en) * 2007-09-16 2009-03-19 Nova Spivack System And Method Of Collecting Market-Related Data Via A Web-Based Networking Environment
US8103676B2 (en) 2007-10-11 2012-01-24 Google Inc. Classifying search results to determine page elements
US20090106307A1 (en) * 2007-10-18 2009-04-23 Nova Spivack System of a knowledge management and networking environment and method for providing advanced functions therefor
US20100004975A1 (en) * 2008-07-03 2010-01-07 Scott White System and method for leveraging proximity data in a web-based socially-enabled knowledge networking environment
US8793249B2 (en) * 2008-09-24 2014-07-29 Yahoo! Inc. Optimization filters for user generated content searches
CN101727454A (zh) * 2008-10-30 2010-06-09 日电(中国)有限公司 用于对象自动分类的方法和系统
GB2468899B (en) * 2009-03-25 2013-11-06 Transense Technologies Plc Improved interrogation method for passive wireless sensor interrogation system
US20100257171A1 (en) * 2009-04-03 2010-10-07 Yahoo! Inc. Techniques for categorizing search queries
US8862579B2 (en) * 2009-04-15 2014-10-14 Vcvc Iii Llc Search and search optimization using a pattern of a location identifier
US8200617B2 (en) 2009-04-15 2012-06-12 Evri, Inc. Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
US9037567B2 (en) * 2009-04-15 2015-05-19 Vcvc Iii Llc Generating user-customized search results and building a semantics-enhanced search engine
US10628847B2 (en) * 2009-04-15 2020-04-21 Fiver Llc Search-enhanced semantic advertising
CN102063432A (zh) 2009-11-12 2011-05-18 阿里巴巴集团控股有限公司 一种检索方法和系统
US8965894B2 (en) * 2010-12-21 2015-02-24 Tata Consultancy Services Limited Automated web page classification
US8909619B1 (en) 2011-02-03 2014-12-09 Google Inc. Providing search results tools
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
CA2844065C (en) 2011-08-04 2018-04-03 Google Inc. Providing knowledge panels with search results
US9043350B2 (en) * 2011-09-22 2015-05-26 Microsoft Technology Licensing, Llc Providing topic based search guidance
WO2013075272A1 (en) * 2011-11-21 2013-05-30 Microsoft Corporation Prototype-based re-ranking of search results
US9274683B2 (en) * 2011-12-30 2016-03-01 Google Inc. Interactive answer boxes for user search queries
CN107066509B (zh) 2012-04-26 2020-12-04 阿里巴巴集团控股有限公司 信息提供方法、处理服务器及合并服务器
CN103309735A (zh) * 2013-06-27 2013-09-18 曙光信息产业(北京)有限公司 用于charmm计算程序的处理方法
CN103294481A (zh) * 2013-06-27 2013-09-11 曙光信息产业(北京)有限公司 用于cst计算程序的处理方法
CN103294483A (zh) * 2013-06-27 2013-09-11 曙光信息产业(北京)有限公司 用于gromacs计算程序的处理方法
US9977866B2 (en) * 2013-09-10 2018-05-22 MD Insider, Inc. Search engine systems for matching medical providers and patients
US8885901B1 (en) * 2013-10-22 2014-11-11 Eyenuk, Inc. Systems and methods for automated enhancement of retinal images
CN104123366A (zh) * 2014-07-23 2014-10-29 谢建平 一种搜索方法及搜索服务器
CN104618372B (zh) * 2015-02-02 2017-12-15 同济大学 一种基于web浏览习惯的用户身份认证装置和方法
CN105512296B (zh) * 2015-12-11 2019-01-22 宁波中青华云新媒体科技有限公司 基于网页差异的网页分析方法及系统
CN106951422B (zh) * 2016-01-07 2021-05-28 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN106656754B (zh) * 2016-12-08 2020-09-15 北京安云世纪科技有限公司 一种基于即时通讯软件的信息提取方法及装置
CN106777259A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 自适应抽取HTML Table标签中结构化信息的方法及装置
US10810367B2 (en) * 2018-11-13 2020-10-20 Disney Enterprises, Inc. Content processing automation
CN112434072B (zh) * 2021-01-27 2021-04-30 浙江口碑网络技术有限公司 搜索方法、装置、电子设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6366910B1 (en) * 1998-12-07 2002-04-02 Amazon.Com, Inc. Method and system for generation of hierarchical search results
KR20010104871A (ko) 2000-05-16 2001-11-28 임갑철 검색결과의 자동분류 기능을 갖는 인터넷 사이트 검색서비스 시스템
US20030065650A1 (en) 2001-10-03 2003-04-03 Annand Ritchie I. Method and query application tool for searching hierarchical databases
US7231395B2 (en) 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US7693827B2 (en) * 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
CN1306440C (zh) * 2004-05-27 2007-03-21 威盛电子股份有限公司 关联性文件连结管理系统及方法
US7567962B2 (en) 2004-08-13 2009-07-28 Microsoft Corporation Generating a labeled hierarchy of mutually disjoint categories from a set of query results
US7801899B1 (en) 2004-10-01 2010-09-21 Google Inc. Mixing items, such as ad targeting keyword suggestions, from heterogeneous sources
US7440968B1 (en) * 2004-11-30 2008-10-21 Google Inc. Query boosting based on classification
US20060149625A1 (en) 2004-12-30 2006-07-06 Ross Koningstein Suggesting and/or providing targeting information for advertisements
US7720791B2 (en) * 2005-05-23 2010-05-18 Yahoo! Inc. Intelligent job matching system and method including preference ranking
US20070011020A1 (en) 2005-07-05 2007-01-11 Martin Anthony G Categorization of locations and documents in a computer network
US20080215557A1 (en) * 2005-11-05 2008-09-04 Jorey Ramer Methods and systems of mobile query classification
US7720779B1 (en) * 2006-01-23 2010-05-18 Quantum Leap Research, Inc. Extensible bayesian network editor with inferencing capabilities
US9654495B2 (en) * 2006-12-01 2017-05-16 Websense, Llc System and method of analyzing web addresses
US8103676B2 (en) 2007-10-11 2012-01-24 Google Inc. Classifying search results to determine page elements

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722511A (zh) * 2010-12-29 2012-10-10 微软公司 对分面搜索的动态面排序
US9336314B2 (en) 2010-12-29 2016-05-10 Microsoft Technology Licensing, Llc Dynamic facet ordering for faceted search
WO2012152157A1 (zh) * 2011-05-11 2012-11-15 北京百度网讯科技有限公司 一种搜索结果的展示方法及装置
CN102346778A (zh) * 2011-10-11 2012-02-08 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN102346778B (zh) * 2011-10-11 2013-08-21 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN103049454A (zh) * 2011-10-16 2013-04-17 同济大学 一种基于多标签分类的中英文搜索结果可视化系统
CN103049454B (zh) * 2011-10-16 2016-04-20 同济大学 一种基于多标签分类的中英文搜索结果可视化系统
CN103136261A (zh) * 2011-11-30 2013-06-05 阿里巴巴集团控股有限公司 页面元素搜索显示方法及装置
CN111914201A (zh) * 2020-08-07 2020-11-10 腾讯科技(深圳)有限公司 网络页面的处理方法及装置
CN111914201B (zh) * 2020-08-07 2023-11-07 腾讯科技(深圳)有限公司 网络页面的处理方法及装置

Also Published As

Publication number Publication date
US20090100036A1 (en) 2009-04-16
CN101903878B (zh) 2013-04-10
US9043322B2 (en) 2015-05-26
WO2009048818A3 (en) 2009-05-28
WO2009048818A2 (en) 2009-04-16
US8600987B2 (en) 2013-12-03
US20120317107A1 (en) 2012-12-13
US8103676B2 (en) 2012-01-24
US20140089305A1 (en) 2014-03-27

Similar Documents

Publication Publication Date Title
CN101903878B (zh) 用于分类搜索结果以确定页面元素的方法和系统
US7421429B2 (en) Generate blog context ranking using track-back weight, context weight and, cumulative comment weight
US8374983B1 (en) Distributed object classification
US8346763B2 (en) Ranking method using hyperlinks in blogs
EP1591924B1 (en) Method and system for classifying display pages using summaries
US7949643B2 (en) Method and apparatus for rating user generated content in search results
US7853589B2 (en) Web spam page classification using query-dependent data
CN1716255B (zh) 通过使用页类别信息分散搜索引擎结果
US7849081B1 (en) Document analyzer and metadata generation and use
US7457801B2 (en) Augmenting a training set for document categorization
US20060184638A1 (en) Web server for adapted web content
CN101281521A (zh) 一种基于多分类器融合的敏感网页过滤方法及系统
US20060184639A1 (en) Web content adaption process and system
US8370342B1 (en) Display of relevant results
JP4226261B2 (ja) 構造化文書種別判定システム及び構造化文書種別判定方法
CN102163229A (zh) 一种用于生成搜索结果的摘要的方法与设备
CN103874994A (zh) 用于自动概括电子文档的内容的方法和装置
EP1362298A2 (en) Method and system for personalisation of digital information
US20080262986A1 (en) Method for training a classifier
CN104348642B (zh) 一种垃圾信息过滤方法和装置
CN102456044B (zh) 推送信息的方法与系统
CN113261299B (zh) 多层可伸缩媒体分析
CN104462241A (zh) 基于url中锚文字和周边文本的人口属性分类方法及装置
Singh et al. A rough-fuzzy document grading system for customized text information retrieval
JP4840914B2 (ja) システム、端末、サーバ、及び、動的情報提供方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.