CN101482881A

CN101482881A - 用于确定文档的含义以使文档与内容匹配的方法和系统

Info

Publication number: CN101482881A
Application number: CNA2009100062933A
Authority: CN
Inventors: 阿达姆·J·韦斯曼; 吉拉德·伊斯雷尔·埃勒巴兹
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2003-07-30
Filing date: 2004-07-23
Publication date: 2009-07-15
Anticipated expiration: 2024-07-23
Also published as: JP2007500900A; CN1829990A; JP4829789B2; JP2007500899A; JP4825669B2; CN101482881B; CN100470541C; CN1829989A

Abstract

本发明描述了用于确定文档的含义，以使文档与内容相匹配的系统和方法。在一个方面中，访问源文章；识别源文章中的多个区；确定至少一个与每个区相关联的局部概念；分析每个区的局部概念以识别任何不相关区；删除与任何不相关区相关联的局部概念，以确定相关概念；分析相关概念以确定源文章的源含义；以及使源含义和与来自一组条目的条目相关联的条目含义相匹配。

Description

用于确定文档的含义以使文档与内容匹配的方法和系统

本申请是分案申请，其原案申请的申请号为200480021922.5，申请日为2004年7月23日，发明名称为用于确定文档的含义以使文档与内容匹配的方法和系统。

技术领域

本发明一般地涉及文档。更具体地，本发明涉及用于确定文档的含义以使文档(document)与内容(content)相匹配的系统和方法。

背景技术

例如，文档(例如网页)可以与互联网上的其它内容相匹配。文档包括，例如，诸如HTML、XML、XHTML的各种格式的网页；可移植文档格式(PDF)文件；以及文字处理器和应用程序文档文件。

使文档与内容相匹配的一个实例是在互联网广告中。例如，网站的发行人可以允许在其网页上发布广告以收费。当发行人希望在网页上向用户显示广告时，服务商能够向发行人提供在网页上显示的广告。服务商可以依据诸如关于用户的人口统计信息、网页类别(例如，体育或是娱乐)、或网页内容的多种因素来选择广告。服务商也可以使网页内容与诸如来自关键字列表的关键字的知识条目(knowledge item)相匹配。之后可以在网页上显示与匹配的关键字相关联的广告。用户可以操作鼠标或另外的输入设备并“点击”广告，以观看提供待售商品或服务的广告商网站上的网页。

在互联网广告的另一实例中，在发行人网页上在相关链接或类似部分(section)中显示实际的匹配关键字。与上述实例类似，网页的内容与一个或多个关键字相匹配，之后该关键字被显示在例如相关链接部分中。当用户点击特定的关键字时，可以将用户引导至可能包括广告和常规搜索结果的混合的搜索结果页面。广告商投标关键字，以使他们的广告出现在这样的该关键字搜索结果页面上。用户可以操作鼠标或另外的输入设备并“点击”广告，以观看提供待售商品和服务的广告商网站上的网页。

广告商希望网页的内容与广告密切相关，因为如果该广告与用户在网页上所阅读的内容高度相关，则阅读该网页的用户更有可能点击该广告并购买所提供的商品或服务。网页的发行人也希望广告的内容与网页的内容相匹配，因为如果用户点击了广告，发行人通常会获得报酬；而就敏感内容而言，不匹配是广告商或是发行人都不希望的。

文档(例如网页)可以包括多个区，诸如，就网页而言的框架(frame)。一些区可以与文档的主要内容不相关。因此，不相关区的内容可能用不相关的主题淡化整个文档的内容。因此，为了使文档与内容相匹配，在确定源文档的含义时，需要分析最相关区的源文档。

发明内容

本发明的实施例包括确定文档的含义以使文档与内容相匹配的系统和方法。本发明实施例的一个方面包括：访问源文章(sourcearticle，源物、源文件)；识别源文章中的多个区；确定与每个区相关联的至少一个局部概念(local concept)；分析每个区的局部概念，以识别任何不相关区；删除与不相关区相关联的局部概念，以确定相关概念；分析相关概念，以确定源文章的源含义；以及使源含义和与来自一组条目的条目相关联的条目含义相匹配。该条目可以本身是内容，或可以与内容相关联。在一个实施例中，本发明进一步包括在源文章上显示匹配的条目。在另一实施例中，本发明进一步包括在源文章上显示与该条目相关联的内容。本发明的其它方面是指具有与前述的方面相关的特征的计算机系统和计算机可读介质。

附图说明

参照附图阅读以下具体实施方式，可以更好地理解本发明的这些和其它特征、方面、以及优点，附图中：

图1示出了根据本发明的一个实施例的系统的框图；

图2示出了根据本发明的一个实施例的方法的流程图；以及

图3示出了图2所示的方法的子程序的流程图。

具体实施方式

本发明包括用于确定文档的含义以使文档与内容相匹配的方法和系统。下面将详细参照文中和附图中所示的本发明的典型实施例。将在所有附图和以下说明中使用相同的附图标号表示相同或类似的部分。

可以根据本发明构建各种系统。图1是示出了本发明的典型实施例可以在其中操作的典型系统的示意图。本发明还可以操作其它系统并在其它系统中实现。

图1中示出的系统100包括多客户机装置102a-n，服务器装置104、140和网络106。示出的网络106包括互联网。在其他的实施例中，可以使用其他的网络，例如内联网。而且，根据本发明的方法可在单个计算机上运行。示出的客户机装置102a-n每个均包括计算机可读介质，例如在示出的实施例中被耦合到处理器110的随机存储器(RAM)108。处理器110执行存储在存储器108中的计算机可执行的程序指令集。这种处理器可包括微处理器、ASIC、和状态机。这种处理器包括或可以与介质(例如计算机可读介质)进行通信，该介质存储指令，当指令被计算机执行时，使处理器执行本文所描述的步骤。计算机可读介质的实施例包括，但是不限于此，电子的、光的、磁的、或其他存储器或能够将计算机可读指令提供给处理器(例如与触摸敏感的输入装置联系的处理器)的传输装置。其他合适的介质包括，但是不限于此，软盘，CD-ROM，磁盘，存储器片，ROM，RAM，ASIC，配置的处理器(configured processor)，所有光介质，所有磁带、或其他磁介质，或计算机处理器能从其读取指令的任何其他的介质。并且，各种其他形式的计算机可读介质可传输或运送指令到计算机，包括路由器，专用或公共网络，或其他传输装置或通道，既有有线的又有无线的。这些指令可包括由任何计算机编程语言(例如，包括C、C++、C#、Visual Basic、Java、和Java Script)编写的代码。

客户机装置102a-n也可以包括许多外部或内部装置，例如鼠标、CD-ROM、键盘、显示器、或其他输入或输出装置。客户机装置102a-n的实例是个人计算机、数字助理、个人数字助理、便携式电话、移动电话、智能电话、寻呼机、数字化板、便携式计算机、基于处理器的装置、和类似类型的系统和装置。一般而言，客户机装置102a-n可以是任何类型的连接到网络106的基于处理器的平台，并且其和一个或多个应用程序交互。示出的客户机装置102a-n包括执行浏览器应用程序(例如，微软公司6.0版本的InternetExplorer^TM，网景通讯公司的7.1版本的Netscape Navigator^TM，以及苹果公司1.0版本的Safari^TM)的个人计算机。通过客户机装置102a-n，用户112a-n能够通过网络106彼此通信以及与耦合到网络106的其他系统和装置通信。

如图1所示，服务器装置104、140也被耦合到网络106。示出的文档服务器装置104包括执行文档引擎应用程序的服务器。示出的内容服务器装置140包括执行内容引擎应用程序的服务器。系统100也可以包括多个其他的服务器装置。类似于客户机装置102a-n，每个示出的服务器装置104、140包括耦合到计算机可读存储器118、144的处理器116、142。每个服务器装置104、140被描述为单一的计算机系统，但是其可以被实现为计算机处理器的网络。服务器装置104、140的实例是服务器、大型计算机、网络计算机、基于处理器的装置、和类似类型的系统和装置。客户机处理器110和服务器处理器116、142可以是许多公知的计算机处理器中的任意一种，例如来自Santa Clara，California的Intel公司和Schaumbug，Illinois的Motorola公司的处理器。

文档服务器装置104的存储器118包含文档引擎应用程序，也即通常所说的文档引擎124。文档引擎124确定源文章的含义，并将源文章和条目匹配，例如，另一个文章或知识条目。条目可以是内容本身或可以和内容相关联。可以从连接到网络106的其他的装置检索源文章。文章(article，文件、物)包括文档，例如，各种格式的网页，例如HTML、XML、XHTML、可移植文档格式(PDF)文件，以及文字处理器、数据库、和应用程序文档文件、或网络(例如互联网)、个人电脑、或其他计算或存储装置上可提供的音频、视频、或任意类型的任意其他信息。此处描述的实施例通常与文档有关，但是实施例可以在任意类型的文章上操作。知识条目是能够通过符号表示的任何物理的和非物理的东西，可以是，例如，关键字、节点、目录、人、概念、产品、短语、文档、和其他知识单位。知识条目可采取任何形式，例如，单字、术语、短语、文档、或一些其他结构化的和非结构化的信息。在此描述的实施例通常与关键字有关，但是实施例可以在任何类型的知识条目上操作。

示出的文档引擎124包括预处理器134、含义处理器136、和匹配处理器137。在示出的实施例中，每个均包括驻留在存储器118中的计算机代码。文档引擎124接收放置于源文档上的内容的请求。此请求可以从连接到网络106的装置接收。内容可包括文档，例如网页和广告，以及知识条目，例如关键字。预处理器134接收源文档并分析源文档，以确定文档中包含的概念和文档中的区。概念可以用和其相关的簇，或字集或术语来定义，例如，其中字或术语可以是同义词。概念也可以用各种其他信息来定义，例如，相关概念的关系、相关概念的关系强度、词类、一般用法、使用频率、概念宽度、和其他关于概念在语言中的用法的统计。含义处理器136分析概念和区，以消除与源文档的主概念无关的区。然后含义处理器136从剩下的区中确定源文档的源含义。匹配处理器137将源文档的源含义和来自一组条目的条目的含义相匹配。

内容服务器装置140的存储器144包括内容引擎应用程序，即所说的内容引擎146。在示出的实施例中，内容引擎包括驻留于存储器144中的计算机代码。内容引擎146接收来自文档服务器装置104的匹配条目，并将该条目或与该条目相关的内容放置在源文档中。在一个实施例中，内容引擎146接收来自匹配引擎137的匹配关键字，并使文档(例如广告)和其相关联。然后将广告发送到请求者的网站，并放置在源文档(例如网页上的框架)中。

文档服务器装置104也提供对在此实例中示出的含义数据库120中的其他存储元件(例如含义存储元件)的访问。含义数据库可用于存储与源文档相关的含义。内容服务器装置140也提供对在实施例中示出的内容数据库148中的其他存储元件(例如内容存储元件)的访问。内容数据库可用于存储条目以及与条目相关的内容，例如关键字和相关的广告。数据存储元件可包括任何一种存储数据的方法或多种方法的组合，包括但不限于阵列，哈希表，列表以及对(pair)。其他的类似类型的数据存储装置可被服务器装置104和140访问。

应该指出，本发明可包括具有与图1中示出的结构不同的结构的系统。例如，在根据本发明的一些系统中，预处理器134和含义处理器136可以不是文档引擎124的一部分，并可以脱机执行它们的操作。在一个实施例中，当文档引擎爬行文档(例如网页)时，文档的含义被周期性地确定。在另一个实施例中，当接收到对放置在文档中的内容的请求时，文档的含义被确定。图1中示出的系统100只是典型的，并用于解释在图2-3中示出的典型方法。

在图1示出的典型实施例中，用户112a能访问连接到网络106的装置上的文档，例如网站上的网页。例如，用户112a可在新闻网站上访问包含关于在Washington飞蝇钓(fly fishing)鲑鱼的故事的网页。在此实例中，网页包含四个区：标题部分，包含故事的标题、作者、和故事的一句话概要；主要故事部分，包含故事的正文和图片；涉及卖汽车的横幅广告；以及链接部分，包含到该网站上其他网页(例如国家新闻、天气、和体育)的链接。新闻网站的所有者可能想要出售源网页上的广告空间，从而经由网络106向文档服务器104发送使一个条目(例如广告)显示在网页上的请求。

为了将源网页和条目相匹配，首先确定源网页的含义。文档引擎124访问源网页，并可以接收该网页。网页的源含义可能先前已经被确定了，并且可被存储在含义数据库120中。如果源含义先前已经被确定了，那么文档引擎124检索源含义。

如果网页的源含义还没有被确定，则预处理器134首先识别网页中包含的概念和网页中包含的区。例如，预处理器可以确定网页具有四个区，对应于标题区、故事区、横幅广告区、和链接区，并且网页包含关于鲑鱼、飞蝇钓、Washington、汽车、新闻、天气、和体育的概念。这些区不必对应于网页上的框架。含义引擎然后确定每个区的局部概念，并排列所有局部概念。可应用多种加权系数排列这些概念，例如，区的重要性、概念的重要性、概念的频率、出现该概念的区的数量、以及概念的宽度。

含义引擎136然后识别与大部分概念无关的区，并删除和它们相关的局部概念。在此实例中，横幅区和链接区不包含和故事特别地相关的概念，从而，涉及这些区的概念被删除。然后含义引擎基于余下的概念确定源。含义可以是加权的概念的向量。例如，含义可以是鲑鱼(40％)，飞蝇钓(40％)，以及Washington(20％)。

通过匹配处理器137可以将该含义匹配到条目。条目可包括，文档，例如网页和广告，以及知识条目，例如关键字，并且能够从内容服务器装置140接收到。条目可以存储在内容数据库148中。例如，如果条目是关键字，例如，飞蝇钓、背包、CD、和旅行，则匹配引擎将源含义和与关键字相关的含义进行比较，以确定匹配。可以使用偏离因子(biasing factor)，例如和每个关键字相关的每次点击数据的成本。例如，如果关键字飞蝇钓的含义是一个比关键字旅行的含义更接近的匹配，但是当前已经购买了关键字旅行的广告商具有较高的每次点击率成本，含义引擎可以将源含义和关键字旅行匹配。内容过滤器也能用于过滤出成人内容或敏感内容。

匹配的关键字可以由内容服务器装置140接收。内容引擎146将广告和匹配的关键字关联，并将广告显示在源网页上。例如，如果旅行这个关键字被匹配了，则内容引擎将在包含关于在Washington飞蝇钓鲑鱼故事的源网页上显示和关键字旅行相关的广告。如果用户112a将其输入装置指向广告并点击它，则用户可被引导到与该广告相关的网页。

根据本发明可以执行各种方法。根据本发明一个典型方法包括访问源文章；在源文章中识别多个区；确定和每个区相关的至少一个局部概念；分析每个区的局部概念以识别任何无关区；删除和任何无关区相关的局部概念以确定相关概念；分析相关概念以确定用于该源文章的源含义；以及将源含义和条目含义匹配，该条目含义与来自一组条目的条目相关。可以使用偏离因子以将源含义和条目含义匹配。源含义可以是加权的概念的向量。

在一些实施例中，该方法还包括在源文章上显示匹配的条目。在这些实施例中，源文章可以是网页，并且匹配的条目可以是关键字。可选地，源文章可以是网页，并且匹配的条目可以是广告。

在一些实施例中，该方法还包括在源文章上显示和匹配条目相关的内容。在这些实施例中，源文章可以是网页，匹配的条目可以是关键字，并且相关的内容可以是广告。此外，源文章可以是第一网页，匹配的条目可以是第二网页，以及相关的内容可以是广告。可选地，源文章可以是第一网页，匹配的条目可以是第二网页，以及相关的内容可以是到第二网页的链接。

在一些实施例中，确定至少一个局部概念涉及为每个区中的每个局部概念确定分数。在每个区中具有最高分数的局部概念是最相关的局部概念。此外，识别无关区涉及首先确定每个局部概念的修正分数。接下来，基于修正分数，确定包含所有局部概念的经排列的全局列表。删除合并修正分数对全局列表的贡献小于总分数的预定量的局部概念，以产生结果列表。然后，确定在结果列表中具有最不相关局部概念的无关区。然后从结果列表中删除和无关区相关的局部概念，以生成相关概念的列表。而且，通过归一化用于相关概念的修正分数来确定源含义。

根据本发明另一个典型方法，包括访问源文章；在源文章中识别至少第一内容区和第二内容区；确定与第一内容区相关的至少第一局部概念，以及确定与第二内容区相关的至少第二局部概念；至少部分地基于第一局部概念，将第一内容区和来自一组条目的第一条目匹配；以及至少部分地基于第二局部概念，将第二内容区和来自一组条目的第二条目匹配。

图2到图3详细地示出了根据本发明的典型方法200。因为有多种执行根据本发明的方法的方式，这里以实例的方式提供了典型方法。图2中示出的方法200可以由各种不同的系统执行，或者实现。下面通过实例描述由图1所示的系统100执行的方法200，并在解释图2到图3的实例方法时参考系统100的各元件。示出的方法200提供了源文档含义的确定，以将源文档和条目匹配。

图2和图3中所示的每个块表示在典型方法200中执行的一个或多个步骤。参照图2，在块202中，实例方法200开始。块202之后是块204，在该块中文档被访问。例如文档可以被在网络106或其他源上的装置访问和接收。

块204之后是块206，在该块中确定源文档的含义。在示出的实施例中，通过将文档分区，删除无用的区，和分析文档剩余区中包含的概念，来确定源文档的含义。例如，在示出的实施例中，预处理器134最初确定源文档中包含的概念，并且确定文档中的区。含义处理器136排列概念，并除去与大部分概念无关的区以及相关的概念。从剩余的概念中，含义处理器136确定文档的源含义。

图3示出了用于执行图2中所示的方法200的子程序206。子程序206提供了接收的源文档的含义。子程序的一个实例如下。

子程序在块300处开始。在块300处，源文档被预处理以确定文档中包含的概念。这可以通过自然语言和文本处理以将文档解释成文字，然后将文字和概念对应(align)来实现。在一个实施例中，例如，首先通过自然语言和文本处理确定对应于文字的标记，然后将这些标记和互连含义的语义网络中包含的标记匹配。从匹配的标记，然后从语义网络中确定术语。然后用于确定的术语的概念被指定，并给出与术语相关的可能性。

块300之后是块302，在该块中识别文档的区。例如，基于特定的搜索法(heuristics)，包括格式化信息，可以确定文档的区。例如，对于一个源文档，其是一个包括HTML标签的网页，这些标签可用于帮助识别区。例如，在<title>....</title>标签内的文本能够被标记为标题区的文本。在其中超过70％的文本是在标签<a>....</a>内的段落内的文本可标记为在链接区。文本的结构也能够用于帮助识别区。例如，短段落中的文本或表中的栏，没有句子结构，例如，没有动词、极少的字、或没有标点结束句子，可标记为处于列表区中。具有动词和标点的长句子中的文本，可标记为部分文本区。当区类型改变时，可从标记有新类型的文本开始创建新区。在一个实施例中，如果文本区获得超过20％的文档，则可将其分成较小块。

块302之后是块304，在该框中确定每个区的最相关概念。在示出的实施例中，含义处理器136处理为每个区识别的概念，以为每个区提出较小的一组局部概念。概念间的关系，区内概念出现的频率、和概念的宽度能够用于局部概念的确定。

在一个实施例中，对于每个区，将每个概念放在列表中。通过使用多种因子为每个概念确定分数，来将概念排列在列表中。例如，如果第一概念具有与其他概念的很强的联系，这可以用于提高第一概念及其相关的概念的分数。通过第一概念出现的频率和第一概念的焦点(或宽度)调节这种效果，以减小非常普遍的概念和含义较广的概念。可滤除频率在一定阈值之上的概念。概念的可察觉重要性也可以影响概念的分数。例如通过引起包含概念的字是否被用粗体标记，可以在处理过程中较早地确定概念的重要性。在将每个区的概念排列后，除去最不相关的概念。这可以通过选择一组最高级别的概念或除去级别分数低于一定分数的概念来实现。

块304之后是块306，在该块中，合并和分析每个区的所有局部概念。在示出的实施例中，含义处理器136接收每个区的所有局部概念，并且，通过例如每个局部概念的分数创建所有局部概念的经排列的全局列表。偏离因子(例如每个区的重要性)可用于确定分数。每个区的重要性可以通过区的类型和区的大小来确定。例如，标题区可被认为比链接区更重要，且出现在标题区的概念比出现在链接区的概念能够被给予更多的加权。可以对出现在多于一个区的概念给予额外的加权。例如，概念的副本可合并，并且它们的分数可加在一起。该全局列表然后被分类，例如，可删除贡献少于总分数的20％的末位(trailing)概念，以生成局部概念的结果全局列表。

块306之后是块308，在该框中，其删除主要概念与无关概念无关的区。在示出的实施例中，含义处理器136确定无关区、包含与大部分概念无关的概念的区，并将它们删除。应该理解“相关的”和“无关的”不需要用绝对的标准确定。“相关的”是相对较高的关系度和/或预定的关系度的指示。“无关的”是相对较低的关系度和/或预定的关系度的指示。通过删除无关区，相关的无关概念被删除。例如，如果源文档是由各种框架做成的网页，一些框架涉及广告或到网站上其他网页的链接，从而，将与网页的主要含义无关。

在一个实施例中，例如，块306中确定的结果全局列表可以是文档含义的近似值，并且可以用于去除与文档含义不相关的区。对于每个区，含义处理器136能确定用于该区的最有代表性的局部概念是否没有存在于结果全局列表中。如果用于区的最有代表性的局部概念不在结果全局列表中，则该区可标记为不相关。例如，用于区的最有代表性的局部概念可以是如块304中所确定的该区的具有最高分数的概念。

块308之后是块310，在该块中，确定源文档的含义。在示出的实施例中，含义处理器136重新计算没有删除的区的局部概念的代表性，以创建概念的相关列表。在相关列表中的局部概念可以被精选出固定数量的概念以提供含义列表，然后归一化以提供源含义。例如，可以只使用相关区中包含的概念来创建含义列表，并且从新的列表中除去除了25个最高得分以外的所有概念。最高得分概念的分数可以被归一化以提供源含义。在此实例中，源含义可以是相关概念的加权向量。

再来参照图2，块206之后是块208，在该块中接收一组条目。例如，可以通过匹配处理器137从内容服务器装置140接收条目。条目可以包括知识条目，例如，关键字，和文档，例如，广告和网页。接收的每个条目可以具有一个和其相关的含义。对于关键字含义，例如，可以通过使用和关键字相关的信息来确定，如在相关的美国专利申请序列号为10/690,328(律师卷号No.53051/288072)，标题为“Methods and Systems for Understanding a Meaning of aKnowledge Item Using Information Associated with the KnowledgeItem”中所描述的，其被结合于此以供参考。可以以与如图3所描述的方式相同的方式确定文档的含义。

块208之后是块210，在该块中将源文档和条目匹配。在匹配过程中可以使用偏离因子。例如，在一个实施例中，将源含义和与来自一组关键字的关键字相关联的关键字含义匹配。匹配引擎将源含义和关键字含义相比较，并使用偏离因子，例如和这些关键字相关的每次点击数据成本，以确定匹配。然后可将匹配的关键字发送到内容服务器装置140。内容引擎146可将匹配的关键字与其相关的广告匹配，并在源文档上显示广告。可选地，内容引擎能在源文档上显示关键字本身。在另一个实施例中，将广告的含义和源含义匹配。在该实施例中，内容引擎146可导致匹配的广告显示在源文档上。在另一个实施例中，将网页的含义和源含义匹配。在该实施例中，内容引擎146能引起和网页相关的广告的显示。块210之后是块212，在该块中，该方法结束。

在一个实施例中，在源文档被访问后，预处理器134分析源文档，以确定源文档的内容区。内容区可以是包含大量文本的区，例如，文本区或链接区，或可以是相对重要的区，例如，标题区。可以通过使用如上所述的搜索法确定这些区。如上所述，预处理器134也能识别位于每个内容区的概念。含义处理器136可以使用这些概念，以确定每个内容区的含义。匹配处理器137能够将每个内容区的含义和关键字匹配。内容引擎146能将匹配的关键字和其相关的广告匹配，并在源文档上显示广告。可选地，内容引擎能在源文档上显示关键字本身。在另一个实施例中，将广告的含义和区含义匹配。在该实施例中，内容引擎146可导致匹配的广告显示在源文档上。在另一个实施例中，将网页的含义和区的含义匹配。在该实施例中，内容引擎146能引起和网页相关的广告的显示。在一个实施例中，广告或关键字被显示在和其匹配的内容区中。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种系统，包括：

客户设备；以及

一个或多个服务器计算机，被编程用于与所述客户设备相互作用并执行下列操作：

接收包含条目的源文档；

将所述源文档中的所述条目分配给概念集合中的概念；

确定所述源文档的最典型的全局概念的集合；

基于所述源文档的格式化来识别所述源文档的区；

确定表示在每个所述区中的典型的局部概念；

将表示在所述每个区中的所述典型的局部概念与所述源文档的所述最典型的全局概念相比较，以识别第一区，在所述第一区中，所述典型的局部概念不在所述最典型的全局概念中；以及

确定所述源文档的源含义，其中，从所述的确定中去除所述第一区的典型的局部概念。

2.根据权利要求1所述的系统，其中，确定所述最典型的全局概念包括创建所述概念的全局列表，所述源文档中的条目已经被分配至所述概念的全局列表中。

3.根据权利要求2所述的系统，其中，确定所述源文档的源含义包括：

挑选所述概念的全局列表；以及

将保留在所述概念的全局列表上的概念规格化，以提供源含义。

4.根据权利要求1所述的系统，其中，所述源含义包括相关概念的加权向量。

5.根据权利要求1所述的系统，其中，确定所述源文档的最典型的全局概念包括对不同区的概念进行不同地评分。

6.根据权利要求5所述的系统，其中，为不同区的概念进行不同地评分包括对在文档标题区中表示的第二概念给以更高权重。

7.根据权利要求5所述的系统，其中，为不同区的概念进行不同地评分包括对出现在多于一个区中的第二概念给以更高权重。

8.根据权利要求5所述的系统，其中，为不同区的概念进行不同地评分包括根据表示有所述概念的区的大小来对第二概念进行加权。

9.根据权利要求1所述的系统，其中，识别所述源文档的区包括根据所述源文档的标记语言标签来识别所述区。

10.根据权利要求1所述的系统，其中，识别所述源文档的区包括根据所述区中的文本中标点的个数来识别所述区。

11.根据权利要求1所述的系统，其中，识别所述源文档的区包括根据所述区中的文本中动词的出现来识别所述区。

12.根据权利要求1所述的系统，其中，识别所述源文档的区包括当文本占用了所述源文档的一定百分比时将所述文本分割成较小的部分。

13.一种系统，包括：

客户设备；以及

接收网页；

识别在所述网页中以及包含在所述网页中的区域中表示的局部概念；

将所述局部概念进行排序；

识别第一区，所述第一区表示与所述概念的大多数不相关的局部概念；以及

从所述网页的源含义的确定中去除所述第一区和在所述第一区中表示的概念。

14.根据权利要求13所述的系统，其中，识别所述第一区包括识别所述网页的框架区。

15.根据权利要求13所述的系统，其中，识别所述第一区包括根据所述第一区中的文本中标点的个数来识别所述第一区。

16.根据权利要求13所述的系统，其中，识别所述第一区包括根据所述第一区中的文本中动词的出现来识别所述第一区。

17.根据权利要求13所述的系统，其中，识别所述第一区包括当文本占用了所述网页的一定百分比时将所述文本分割成较小的部分。

18.根据权利要求13所述的系统，其中，将所述局部概念进行排序包括根据表示有第二局部概念的区的重要性来对所述第二局部概念进行加权。

19.根据权利要求13所述的系统，其中，将所述局部概念进行排序包括根据表示有第二局部概念的多个区来对所述第二局部概念进行加权。

20.根据权利要求13所述的系统，其中，将所述局部概念进行排序包括根据所述第二局部概念的宽度来对所述第二局部概念进行加权。

21.根据权利要求13所述的系统，其中，所述操作进一步包括将所述网页的源含义与关键字相匹配。

22.根据权利要求13所述的系统，其中，所述操作进一步包括将所述网页的源含义与广告相匹配。