CN101385025A

CN101385025A - 通过分析内容确定上下文并且基于该上下文提供相关内容

Info

Publication number: CN101385025A
Application number: CNA2006800532238A
Authority: CN
Inventors: 阿杰·斯拉瓦纳普蒂; 迈克尔·布朗·萨特勒; 塞勒·迪旺德; 拉维·卡拉普塔普; 阿沙沃·布莱克威尔
Original assignee: Entrieva Inc
Current assignee: Amobee
Priority date: 2005-12-22
Filing date: 2006-12-22
Publication date: 2009-03-11
Anticipated expiration: 2026-12-22
Also published as: US20070174255A1; CA2833359A1; CN101385025B; CA2634918C; JP2009521750A; CN103870523A; CA2833358A1; EP1971940A4; WO2007076080A3; WO2007076080A2; EP1971940A2; CA2634918A1; CA2833359C

Abstract

根据一个总的方面，本发明涉及一种用于向输入内容补充相关内容的方法，所述方法包括接收所述输入内容以及从所述输入内容中识别出概念。所述方法还包括对与所述概念相关联的分类法进行识别，并且使用该分类法对所述概念进行分析来生成一组经过分类的概念集。所述方法还包括将经过分类的概念发送至一数据库来对所述相关内容进行识别，以及将所述相关内容补充至所述输入内容。

Description

通过分析内容确定上下文并且基于该上下文提供相关内容

相关引用

【0001】本申请要求2005年12月22日提出的美国临时专利申请No.60/752,594的优先权。之前申请的内容通过引用全部引入本申请。

技术领域

【0002】本发明涉及通过分析内容确定上下文以及基于所述上下文来识别广告或者其它相关的或有价值的内容，并且进一步，本发明还涉及一种用于多域知识管理的语义内容路由器。

背景技术

【0003】由于互联网上可用电子内容的增长和用于为互联网上用户提供广告和其它内容的方法的多样性，导致在基于互联网用户搜索的或者在线阅读的信息为用户提供有关或者相关广告和有关或者相关内容时，持续存在根本性的困难。

【0004】分类法可以被用来对互联网的电子内容进行分类或归类来建立上下文的相关性。典型地，用于对多个电子内容归类的分类法通常针对一个单一域。但是，表示多个不同域的电子内容可能需要归类。可以开发出一个包括针对所有域的分类规则的单一分类法。但是，对所有域有效的分类法通常要求大量规则而基于大量规则来对内容进行分类可能会异常缓慢。此外，用于一个域的单一分类法中的分类规则可能会与用于另一个域的单一分类法的分类规则相冲突或者抵触。可选择地，可以开发出多个专用域的分类法来避免分类规则的冲突。但是，使用多个分类法中的每一个分类法来分类内容也可能会异常缓慢。

发明内容

【0005】上下文分析引擎对可能包括在所发布的电子内容中且根据上下文有价值的有关和/或相关内容(以下称为“相关内容”)进行识别。典型地，该相关内容由编辑者手工进行识别，编辑者使用单独的软件系统使用的有意义的标志对基本内容进行标识，或者手工地对嵌入在基本内容中的相关内容进行选择。上下文分析引擎自动对电子基本内容中的关键语义概念进行识别，然后将之与相关的高价值的数据或者其它相关内容进行匹配。当发布者认为适当时则将此数据嵌入到内容中。例如，上下文分析引擎可能会识别语义上相关的内容作为每点击成本(CPC)广告、千人成本(CPM)横幅广告、企业联合内容或其它有价值的内容导航的形式。该内容可能会包括网页、由RSS文件(RSS feed)识别的文章、用于形成搜索查询的关键词、搜索查询的搜索结果，或者任何可以转换为纯文本的其它电子内容。

【0006】词汇语义分析(LSA)可以用于识别包含在一段电子内容中的概念。基于文档的属性，例如包含在文档中的词汇，可以将一大组文档分离为多个集群。可以从集群中每一个文档中提取出概念，在集群中出现最频繁的或者被认为对于所述集群重要的概念可以被识别为该集群的概念。当从文档中提取概念时，所述文档对应的集群被识别。之前所识别的集群概念可以被标识为所述文档的概念。

【0007】执行语义衡量过程的语义内容路由器可以被更有效地用于对文档中提取的所述概念进行归类。所述语义内容路由器(或简称“路由器”)可以从多个可以合适地归类概念的可用分类法中识别出一个子集，并且随后由概念路由到合适的分类法。语义衡量过程分析所述概念以快速确定概念或者一组词汇可能属于的域。从此分析产生的信息可以被多个分类法中的一个或者多个分类法使用，来有效地归类所述概念。使用一组概念训练所述路由器，所述概念是被多个分类法中的那些应该被用来归类所述概念的指示来标记。对多个分类法中的每一个分类法中概念的权重进行识别，使用其识别出的权重超过阀值的分类法对概念进行分类。

【0008】此上下文分析引擎可以被用于在网站上实现有价值的货币化和导航功能。这种类型的导航应用的一个例子是“赞助导航”。此过程的工作方式如下。使用形成上下文分析引擎的各种软件模块来分析发布者的整个网站，对所有页面上的所有概念使用一个或多个分类法来进行提取和索引。对网站的每个页面上的概念和与所述概念相关联的相关内容(基于分类法)做超链接处理。这些“超链接”以能够被广告商赞助的广告单元的形式显示(例如“赞助导航”)。在广告单元内点击这些超链接中的任何一个将能够“触发”多个广告递送选择，例如关于主题的“转换广告”、“直线”文本广告或者图形广告。转换之后，用户可以浏览所述广告或者被链接到显示所述概念附加“内容”的网站部分。

【0009】使用上下文分析引擎实现货币化应用的另一个例子是“网赚”(TM)(ClickSense(TM))应用。此应用可以分析搜索查询、URL(例如，网页)、RSS文件、博客或者任何文本块，并且通过使用语义内容路由器和可用的广告清单，定位与所述搜索查询、URL、RSS文件、博客或者任何文本块高度相关并且具有较高价值的广告，然后将这些广告发布到互联网用户所请求的页面上。

【0010】根据本发明的一个总的方面，一种向输入内容中补充相关内容的方法，包括接收将为其识别相关内容的输入内容，提取与所述输入内容相关的文本，在所提取的文本中识别概念。所述方法还包括识别至少一个和所述概念相关的分类法，以及使用所述至少一个分类法来分析所述概念从而产生和所述至少一个分类法的一个或者多个分类相关的一组已经分类的概念。所述方法还包括向数据库提交所述已分类的概念。所述数据库存储基于其类别进行了索引的数据。所述方法也包括从数据库请求与所述已分类概念关联的相关内容，响应所述请求从数据库接收所述相关内容，补充所述相关内容到输入内容，以及使得用户可以浏览所述相关内容。

【0011】以上本发明的总的方面的实施例可以包括一个或者多个以下特征。例如，所述输入内容可以包括用于获取搜索结果的搜索查询，提取和输入内容相关的文本可以包括提取包含所述搜索查询的关键字。可替换地或者附加地，提取和输入内容相关的文本还可以包括获取所述搜索结果并且从所获取的搜索结果中提取所述文本。

【0012】在本发明的另一个实施例中，接收输入内容可以包括接收统一资源定位符，提取和所述输入内容相关的文本包括获取位于所述统一资源定位符的网页以及提取和所述网页相关的文本。可替换地或者附加地，接收输入内容可以包括接收RSS文件，提取和所述输入内容相关的文本可以包括提取包含在所述RSS文件中的文本。可替换地或者附加地，接收输入内容可以包括接收博客内的入口，提取和输入内容相关的文本可以包括提取所述博客内的所述入口。

【0013】相关内容可以包括广告或赞助链接，所述广告和赞助链接对应于与输入内容相关的一个或多个每点击成本、每次印象费用或者每行动成本。识别所提取文本中的概念可以包括识别包含在所述文本中的一个名词短语或者恰当的名词。接收相关内容还可以包括识别已分类概念的种类，以及将数据库中显示的并且与所识别类别相关的内容标识为相关内容。

【0014】根据本发明的另一个总的方面，一种基于一个用户接口来补充文档的方法，所述用户接口包括与所述文档中出现的一个或者多个概念关联的相关内容，所述方法包括提取存储器中存储的文档中出现的概念，并且识别和所提取的概念关联的分类法。所述方法还包括使用所述分类法分析所提取的概念来产生一组分类概念，并且使用所述分类法或者另一个相关分类法从存储于相同或者不同存储器中的多个其它文档中识别和所述已分类概念关联的相关内容。所述方法还包括对所提取的概念和相关内容进行超链接处理，在用户接口中显示经过超链接处理的概念和相关内容，其中所述用户接口由内容提供商提供赞助。

【0015】上述总的方面的实施例可以包括一个或者多个以下特征。例如，提取概念可以包括提取和所述文档相关联的文本以及提取包含在所述文本中的一个名词短语或恰当的名词。恰当的名词可以包括人名、机构名称、公司名称或者产品名称。可替代地或者附加地，提取概念可以包括提取出现在网站的网页中的概念。

【0016】上述总的方面的实施例还可以包括接收一个选择所显示超链接中的一个超链接的指示，对所述接收到的指示进行响应，显示和所选择的超链接相关联的网页，其中，所述网页包括和所提取概念相关的附加内容。赞助的内容提供商可以和发布者为同一实体。可替代地或者附加地，赞助的内容提供商可以为不同于发布者的实体。

【0017】使用所述分类法或者另一相关分类法可以包括使用分类法在存储在同一或者不同存储器中的多个其它文档中识别和所述已分类概念关联的相关内容，其中，所述相关内容和所述已分类概念属于同一类别。附加地，使用所述分类法或者另一相关分类法也可以包括确定所述分类法是否和另一分类法相关，如果确定所述分类法和另一分类法相关，则使用其它相关分类法在同一或者不同存储器中的多个其它文档中识别和所述已分类概念关联的相关内容。所述相关内容可以属于和所述已分类概念的类别不同但相关的一个类别。

【0018】所述方法还可以包括，通过参照与另一分类法互相链接的分类法的列表，对其它相关分类法进行识别，从而对与所提取概念的分类法相关联的其它相关分类法进行识别。所述相关内容可以与所述已分类概念属于同一类别。可替代地或者附加地，所述相关内容可以属于和所述已分类概念的类别不同但相关的类别。

【0019】根据本发明的另一个总的方面，一种从多个用于分类输入短语的分类法中对分类法进行识别的方法，包括提供多个分类法，该多个分类法的每一个分类法对应于知识的一特定域，接收将由所述多个分类法的至少一个分类法进行分类的输入短语，并且将所接收到的输入短语表征为一个或者多个单词。所述方法还包括：从所述多个分类法中选择第一分类法；对于所选择的第一分类法，识别出所存储的与所述一个或者多个单词中的每一个单词相关联的权重；对于所选择的第一分类法，累计所存储的与所述一个或者多个单词中的每一个单词相关联的权重，从而识别与所述输入短语相关联的第一权重。所述方法还包括从所述多个分类法中选择第二分类法；对于所选择的第二分类法，识别出所存储的与所述一个或者多个单词中的每一个单词相关联的权重；对于所选择的第二分类法，累计所存储的与所述一个或者多个单词中的每一个单词相关联的权重，从而识别与所述输入短语相关联的第二权重。所述方法还包括，将与所述输入短语相关联的第一权重和第二权重与一阈值进行比较，并且基于比较结果，将所述输入短语路由到所述第一分类法或者第二分类法进行分类。

【0020】上述总的方面的实施例可以包括一个或者多个以下特征。例如，接收所述输入短语，可以包括接收包含在电子内容中的概念，所述电子内容的补充的和相关的电子内容将被识别。表征所述输入短语，可以包括将输入短语划分为单个的单词。

【0021】对于所选择的第一分类法和第二分类法，对所存储的与每个所述的一个或者多个单词相关联的权重进行识别，可以包括通过参照包含有与所述一个或者多个单词相关联的权重的列表来识别所存储的权重。所述列表中可以包括对应于字典中的每个单词的行、对应多个分类法中的每一个分类法的列和位于每个行列交叉点处的分值。每个交叉点上的分值可以显示出一种可能性，即包括对应于每个交叉点的单词的输入短语可以通过对应于此交叉点的列的特定分类法进行分类。对输入短语进行路由可以包括将所述输入短语路由至所述第一分类法和第二分类法进行分类。

【0022】所述技术的实现可以包括硬件、方法或者过程、或者存储于计算机可存取介质上的计算机软件。

【0023】结合附图和以下说明提出一个或者多个实施例的详细说明。通过以下说明和附图，以及权利要求书，本发明的其它特征将得到更清晰的说明。

附图说明

图1为示例性网络计算环境的框图；

图2为用于提供与发布的电子内容相关的、根据上下文有价值的相关内容或者广告的过程的流程图；

图3为用于识别和电子内容相关的高价值数据的过程的流程图；

图4为用于识别包括在相关电子文档集群中的概念的过程的流程图；

图5为用于识别包括在电子文档中的概念的过程的流程图；

图6为包括路由器的概念分类器的框图；

图7为表示特定概念对应于特定概念类别的可能性的表格；

图8为用于识别一个短语对应于一个或者多个分类法的可能性的过程的流程图；

图9为用于训练概念分类器的路由器以将概念路由至一个或多个相关分类法进行分类的过程的流程图；

图10为用于路由短语到一个或者多个相关分类法以进行分类的过程的流程图；

图11为赞助导航应用所使用的示例性过程的流程图，所述过程用于分析与发布者的网站相关联的网页以及使用一个或者多个分类法提取和索引出现在其中的概念；

图12为一网页的屏幕截图，该网页已经采用超链接至发布者网站中其它页面上的信息的概念短语进行了补充。

具体实施例

【0024】参见图1，网络计算环境100能够识别包含在发布的电子内容中的高价值数据。网络计算环境包括上下文分析引擎105，所述上下文分析引擎105识别内容提供商110提供的有关和/或相关高价值数据以将其包括在内容发布者115发布的内容中。上下文分析引擎105包括文本提取器120、概念提取器125、概念滤波器130、概念分类器135和相关性识别模块140。上下文分析引擎105、内容提供商110和内容发布者115使用网络(例如，互联网)145通信。

【0025】上下文分析引擎105对将被包括在由内容发布者115提供的内容中的适当高价值数据进行识别。上下文分析引擎105对所述内容进行处理以此识别包括在所述内容中的概念，并且识别将被包括在所述内容中的补充内容，诸如根据上下文有价值的有关和/或相关内容或者提议。上下文分析引擎105可以间接从外部资源请求补充内容，所述外部资源诸如使用包括在电子内容中的概念或概念的类别的内容提供商110。

【0026】内容提供商110提供补充内容以将其包括在内容发布者115提供的内容中。内容提供商110可以直接将内容提供给内容发布者115，或者提供给上下文分析引擎105，上下文分析引擎105将会提供补充内容给内容发布者110。内容提供商110可以对来自上下文分析引擎105的请求做出响应来提供补充内容。例如，所述请求可以包括一个或者多个每点击成本(CPC)、每次印象费用(CPM)或者每行动成本(CPA)条件和/或多段内容。CPM内容可以是文本、图形横幅或者语义上相关的内容。每点击成本条件是一个已经拍卖给企业的条件，其使得与该企业相关的补充内容显示在与每点击成本条件相关的电子内容中。每当浏览所显示的补充内容的最终用户确实点击所显示的补充内容时，企业将向内容提供商110或者内容发布者115支付费用。为响应一个包含每点击成本条件的请求，内容提供商110识别并且返回有价值的或者相关的内容给竞拍得每点击成本条件的企业。在每次印象费用模型中，企业在其补充内容被显示给最终用户每一千次时进行支付。在每行动成本模型中，针对补充内容被显示给最终用户的每一次动作，企业进行支付。上下文分析引擎105的特征可以应用于CPC、CPM或者CPA以外的广告模型。

【0027】内容发布者115为可以包括补充内容的电子内容的发布者。例如，内容发布者115可以为提供包括可以显示根据上下文有价值的有关和/或相关内容的空间的网页的网络服务器。内容发布者115可以出售网页上的显示空间，使得有关和/或相关的根据上下文有价值的内容可以被包括在空间中。内容发布者115可以对将其根据上下文有价值的有关和/或相关内容包括在网页中的企业进行限制。内容发布者115可以接收来自内容提供商110的有关和/或相关的根据上下文有价值的内容，并且可以是电子内容中根据上下文有价值的。

【0028】在一个实施例中，上下文分析引擎105分析文本段(从内容中提取出来的)并且将已感知为高“价值”的内容返回。所述价值可以基于多种计价模型，包括但不限于CPC和CPM。文本提取器120从将要包括补充电子内容的电子内容中提取文本。例如，文本提取器120可以接收一个可以获取电子内容的URL。该URL可以从RSS文件获得。除了获取位于RSS文件中被识别的URL上的所有文本，文本提取器120还可以提取包括在RSS文件中的其它文本，诸如标题或者描述位于URL上的项目的其它文本。

【0029】概念提取器125从由文本提取器120提取的文本中提取概念。在一个实施例中，文本中的概念为出现在文本中的名词短语。在此实施例中，包含在文本中的每一个词可以使用一部分语音进行标记，语音部分可用于识别包含在文本中的名词短语。可替代地或者附加地，包含在文本中的适当名词可以被识别为概念。由适当名词构成的列表可被用于从文本中识别出适当的的名词。适当的名词可以包括人名(例如，名人、政治家、运动员和作家)、地名(例如，城市、州、国家和地区)、企业名称、公司名称和产品名称。用户能够修改适当名词列表从而使其仅包括那些用户所感兴趣的企业对应的适当名词。在另一个实施例中，语汇语义分析(LSA)可被用于对包含在提取文本中的概念进行识别。随后将参照图4和图5对LSA进行更为详细的描述。

【0030】概念提取器125也可以加权从文本提取的概念，例如，使用TF.IDF加权算法或者另一合适的加权算法。概念的权重可以基于文本中概念出现的频率。具有低权重或者在文本中不像其它概念那样频繁出现的概念可以被认为与上下文非相关而被排除。

【0031】概念滤波器130过滤由概念提取器125识别的概念。在一个实施例中，概念滤波器130可以移除不会进一步处理的概念，使得涉及不能采用的或者不期望的主题的概念从这组提取的概念中被移除。例如，概念滤波器130可以过滤涉及成人内容、赌博或者已注册商标的内容的概念。概念滤波器130也可以特别强调感兴趣的或者重要的其它概念。

【0032】概念分类器135对所提取的还没有被概念滤波器130过滤掉的概念进行分类。概念分类器135可以将每一个提取出的概念传送到一个或者多个分类法进行分类。将参照附图6-10对概念分类器135做详细描述。

【0033】相关性识别模块140可以识别一个或多个根据上下文有价值的有关和/或相关内容，以便根据概念提取器125和概念分类器135识别的概念和分类将其包括在内容发布者110的电子内容中。在一个实施例中，通过向内容提供商110提供与所识别的类别相关的每点击成本条件，相关性识别模块140从内容提供商110请求根据上下文有价值的有关和/或相关内容。由相关性识别模块140识别的每点击成本条件可能是能够使得上下文分析引擎105、内容提供商110或者内容发布者115获得最大收益的每点击成本条件。

【0034】参见图2，过程200用于识别一个或多个根据上下文有价值的有关和/或相关内容，以将其包括在将要显示给最终用户的一段发布的电子内容中。过程200可以由上下文分析引擎执行，例如图1中的上下文分析引擎105。当发布内容时执行过程200一次，从而使得根据上下文有价值的有关和/或相关内容能够在发布内容显示之前被包括在发布内容中。可选择地或附加地，过程200可以在每次将发布的电子内容显示给最终用户时执行一次，从而使得显示时根据上下文有价值的有关和/或相关内容能够被包括在内容中。

【0035】上下文分析引擎105接收内容发布者，如图1中的内容发布者115，所发布的内容标识(步骤205)。发布内容的标识可以从内容发布者或者显示发布内容的计算机系统上接收。该标识可以包括能够获得所述内容的URL的标识。在一个实施例中，电子内容可以为从搜索查询获得的搜索结果，电子内容的标识可以是构成搜索查询的关键词。可替代地或附加地，电子内容的标识可以是电子内容自身。该标识还可以包括一个或多个描述可能包括在内容中的有价值内容的参数，例如可能会包括在内容中的内容大小或内容类型(例如，纯文本，图形，flash，视频)。

【0036】上下文分析引擎105对将要包括在内容中的根据上下文有价值的有关和/或相关内容进行识别(步骤210)。在一个实施例中，上下文分析引擎105识别对应于与内容有关和/或相关的一个或多个每点击成本条件的广告或赞助链接。所述上下文分析引擎识别根据上下文有价值的有关和/或相关内容的方式将参照图3进一步进行描述。

【0037】上下文分析引擎105从内容提供商，例如图1中的内容提供商110，请求所识别出的根据上下文有价值的有关和/或相关内容(步骤215)。例如，上下文分析引擎105可以将CPC条件提供给内容提供商110，该内容提供商可以提供与购买CPC条件的企业有关的根据上下文有价值的有关和/或相关内容。上下文分析引擎105从内容提供商110接收所请求的根据上下文有价值的有关和/或相关内容，并且将所请求的根据上下文有价值的有关和/或相关内容提供给发出内容标识的系统(步骤220)。例如，如果内容标识是从内容发布者115接收的，则上下文分析引擎105可以将根据上下文有价值的有关和/或相关内容提供给内容发布者115。可替换地或附加地，内容提供商110可以将根据上下文有价值的有关和/或相关内容直接提供给发出内容标识的系统。

【0038】参照图3，过程300用于识别将要包括在发布的电子内容中的根据上下文有价值的有关和/或相关内容或其它补充内容。过程300可以由上下文分析引擎执行，例如图1中的上下文分析引擎105。过程300可以表示图2中的步骤210的一个实施例。过程300可以在发布内容的同时执行一次，从而使得根据上下文有价值的有关和/或相关内容可以在发布的内容被显示之前被包括在发布内容中。可替换地或附加地，过程300可以在每次显示发布的电子内容时执行从而使得显示时根据上下文有价值的有关和/或相关内容被包括在内容中。

【0039】上下文分析引擎105接收到将要进行处理的内容标识(步骤305)。例如，上下文分析引擎105可以接收一个URL，该URL标识了可能包括一个或多个根据上下文有价值的有关和/或相关内容的电子内容。该URL可以被包括在一个RSS文件中。可替换地或附加地，内容标识可以是为获得搜索结果所使用的搜索查询的标识(例如，实际使用的关键词)。可替换地或附加地，内容标识可以是用户生成网站中的一个入口标识，例如博客。上下文分析引擎105从电子内容提取文本(步骤310)。例如，上下文分析引擎105可以使用文本提取器，例如图1中的文本提取器120，来提取文本。提取文本的步骤可以包括获得URL处的文本以及其它描述所获取文本的其它文本，例如包括在RSS文件中的其它文本。如果内容标识是搜索查询，则文本提取器可以从所述搜索查询产生的搜索结果中提取文本，或者简单地，可以将形成搜索查询的关键词标识为所提取文本。如果内容标识是用户生成网站中的一个入口标识(例如博客)，则文本提取器可以提取博客中的该入口。

【0040】上下文分析引擎105对包括在所提取文本中的概念进行识别(步骤315)。更具体地，上下文分析引擎可以使用概念提取器，例如图1中的概念提取器125，来提取文本。概念提取器125可以将包括在所提取文本中的名词短语和适当名词标识为所提取文本的概念，如前所述。可替换地或附加地，概念提取器可以使用LSA来识别概念，以下将参照图4和图5对此进行更加详细地描述。如果所提取文本是一个或多个构成搜索查询的关键词，则整个搜索查询可以被标识为包括在所提取文本中的单个概念(或基于关键词的多个概念)。

【0041】上下文分析引擎105对识别出的概念进行过滤(步骤320)。更具体地，上下文分析引擎可以使用概念过滤器，如图1中的概念滤波器130，来过滤概念。概念滤波器130可以滤除涉及不能采用的或者不期望的主题的概念，例如，由所述根据上下文有价值的有关和/或相关内容将要插入的电子内容的发布者定义的概念。概念滤波器130还可以特别强调对于内容特别有关和/或相关或非常重要的一些概念。

【0042】上下文分析引擎105对过滤后的概念的类别进行识别(步骤325)。例如，上下文分析引擎可以使用概念分类器，例如图1中的概念分类器135，来对概念进行分类。概念分类器135包括用于将每个概念路由到一个或多个知识域的语义内容路由器，所述一个或多个知识域由包括在概念分类器中用于分类的分类法或其它表示方式表示。概念分类器的路由器中的语义内容路由功能可以在多个知识域中识别出用于分类所述概念的知识域。语义内容路由器还可以简单地确定在分类过程中应当使用的分类法的顺序。语义内容路由器还可以用于快速猜测一具体文本属于哪个域。

【0043】上下文分析引擎105对与所识别类别有关的高价值或高相关性的数据进行识别(步骤330)。更具体地，上下文分析引擎105可以使用相关性识别模块，例如图1中的相关性识别模块140，来对高价值或高相关性数据进行识别。高价值数据可以包括用来请求对应的根据上下文有价值的有关和/或有相关内容或赞助链接的一个或多个CPC条件，所述请求可以来自例如图1的内容提供商110。可替换地或附加地，高价值数据可以包括根据上下文有价值的有关和/或相关内容或赞助链接自身。

【0044】例如，搜索引擎用户可以输入一系列形成互联网搜索查询基础的关键词，并且通过单击“Enter”键将搜索查询发送给搜索引擎。搜索引擎根据关键词完成搜索，并以URL列表或互联网页链接列表的形式返回可能与关键词有关和/或相关的搜索结果网页。搜索引擎还可以将关键词转发给上下文分析引擎105，上下文分析引擎105对关键词进行分析并将其识别为一个或多个概念。上下文分析引擎105随后通过在此描述的一个或多个分类法对概念进行处理，并返回或生成与所述一个或多个分类法相关联的一组分类概念。然后由上下文分析引擎105将分类后的概念提交给数据库。数据库可以位于上下文分析引擎105内或者远离上下文分析引擎105，例如，位于内容提供商110内。在任何一种情况下，数据库存储基于其类别进行了索引的数据。

【0045】上下文分析引擎105从数据库请求与所分类概念相关联的相关内容，并且响应于所述请求，上下文分析引擎105从数据库接收相关内容。具体地，响应于所述请求，搜索模块可以对已分类概念的类别进行识别，并且可以将数据库内与所识别类别相关联的内容识别为相关内容。在一个例子中，所述相关内容包括具有高相关性和/或高价值的数据。

【0046】相关内容可以在搜索结果网页的指定区域显示。具体地，相关内容可以在网页上显示并且可以表示为链接，该链接可链接到一个将要列出一系列与概念短语有关和/或相关的赞助URL或根据上下文有价值的有关和/或相关内容的新的网页。广告商可以支付款项以便拥有他们特定的赞助链接或者其它与所显示的概念短语相关联的适当的广告。

【0047】在一个实施例中，上下文分析引擎105可以识别出多个相关内容。每个相关内容可具有与其相关联的价值。相关内容的价值可以位于数据库或另一个远程存储单元中，并且该价值可以基于内容提供商(例如，广告商)为每个相关内容支付的价格。可替换地或附加地，相关内容的价值可以基于每个相关内容可能产生或在过去已经产生的收益。上下文分析引擎105使用该信息来从多个相关内容中进行选择或者对多个相关内容进行排序。在一个具体例子中，上下文分析引擎105仅显示具有最高价值的相关内容。在另一个例子中，上下文分析引擎105仅显示具有最高价值的两个相关内容块。在又一个例子中，上下文分析引擎105显示所有的多个相关内容，并且根据它们的价值对它们进行排序，从而将具有最高价值的相关内容排在第一位而将最有最低价值的相关内容排在最后。

【0048】参照图4，过程400用于识别通常映射于相关文档集中的概念集。概念集是通过LSA分析大量的电子文档来进行识别的，LSA是一种最小二乘算法，该算法通过降低训练集的维度来分析概念是如何相关的。该维度的降低聚类了在高维度空间中相靠近的具有相近语义的文档。当对与该文档集中的文档相关的一个文档中所包括的概念进行识别时，可以使用识别出的一个相关文档集的概念。当要对文档的概念进行识别时，过程400可以由概念提取器执行，例如图1中的概念提取器125。

【0049】概念提取器125通过所有文档的文档矩阵创建一个词典(步骤405)。可以根据带有标记的新闻稿的一个大的集合，例如路透社21578文本分类测试集，生成该矩阵。当对应于元素行的单词包括在对应于元素列的文档中时，该矩阵包括一个非零元素。在一个实施例中，非零元素可以表示相应单词出现在对应文档中的频率。

【0050】概念提取器125使用奇异值分解(SVD)生成LSA矩阵(步骤410)。SVD在原有矩阵上进行。SVD是可选择的，就识别有关和/或相关程度更高的概念而言，其提高了识别性能。SVD将通过文档矩阵创建的词典表示的空间的维度减少到大约150。概念提取器将通过文档矩阵创建的原词典与LSA矩阵相乘(步骤415)，并且将文档聚类在结果矩阵中(步骤420)。在一个实施例中，可以使用例如K-均值算法的标准聚类算法来聚类文档。

【0051】概念提取器125选择一个结果聚类(步骤425)，并且从该结果聚类中的每个文档中提取出概念(步骤430)。在一个实施例中，从文档中提取出概念可以包括从文档提取名词短语和适当的名词，如前所述。可以对从文档提取出的概念进行过滤从而产生一个简化的提取概念集，如前所述。概念提取器根据所提取出的概念对于聚类的重要性以及其在聚类中出现的频率，对所提取出的概念进行加权，例如，使用TF.IDF加权算法(步骤435)。概念提取器将一个或多个具有最高权重的概念作为聚类的代表加以缓存(步骤440)。

【0052】概念提取器125对是否要对更多的文档聚类提取概念进行判断(步骤445)。如果是，则概念提取器选择一个不同的聚类(步骤425)并且提取(步骤430)、加权(步骤435)以及缓存包括在不同聚类中的文档的概念(步骤440)。在对每个聚类依次提取概念和缓存之后，过程400完成(步骤450)。

【0053】参照图5，过程500用于对包括在电子文档中的概念进行识别。所识别概念是包括在与电子文档相关的文档中的概念。更具体地，LSA用于识别与电子文档最接近的文档聚类。所识别的聚类可能具有可用于更好描述文档的相关联的概念缓存。过程500由概念提取器执行，例如图1中的概念提取器125。过程500的执行需要事先执行图4的过程400。

【0054】概念提取器125为要被提取概念的文档计算出稀疏向量(步骤505)。稀疏向量中的每个元素对应于可能出现在文档中的词典中的一个单词。当文档包括对应于所述元素的单词时，稀疏向量中的一元素为非零。

【0055】概念提取器125将稀疏向量与LSA矩阵相乘，该LSA矩阵为例如在之前执行图4的过程400期间生成的LSA矩阵(步骤515)。结果向量代表位于由LSA矩阵代表的高维度空间中的一个位置。概念提取器识别出最接近于结果向量的聚类(步骤515)，并且对为所识别聚类缓存的概念进行识别(步骤520)。概念提取器针对所识别概念扫描文档(步骤525)并且判断文档是否包括所识别概念(步骤530)。如果是，则概念提取器将包括在文档中的缓存概念识别为文档的概念(步骤535)。否则，概念提取器从文档提取概念，例如，通过从文档识别出名词短语和适当的名词来提取概念(步骤540)。概念提取器还根据所提取概念对聚类的重要性对其进行加权(步骤545)。在一些实施例中，所识别概念可以作为聚类的代表被缓存。在其它的实施例中，可以执行上述两个过程，即识别缓存概念和提取新概念。

【0056】在过程500的一些实施例中，可以进一步分析文档来识别哪些概念使得文档与包括在所识别聚类中的其它文档产生了最大不同。例如，来自没有包括在所识别聚类的文档中的文档的概念，可以使得该文档与所识别聚类中的文档产生最大不同。这样的概念可以被识别为与该文档高度相关的概念。

【0057】参照图6，概念分类器600用于从多个分类法605a-605n中识别出哪个分类法可以用于对短语进行分类。例如，概念分类器600可用于从分类法605a-605n中识别出哪个分类法可以用于分类包含在其附加相关电子内容正在被识别的电子内容中的一个概念。所识别的分类法可以是对应于与将要进行分类的短语相关的域的分类法。概念分类器600包括一个语义内容路由器610，该路由器用于识别出要分类的短语将被路由至分类法605a-605n中的哪一个分类法。概念分类器600可以为图1中的概念分类器135的一个实施例。

【0058】分类法610a-610n中的每一个都用于对提供至分类法的短语进行分类。分类法610a-610n中的每一个都可以对应于一个具体的域，并且分类法可以对输入短语进行分类，将其作为与具体域相关的分类的代表。例如，分类法610a可以对应于一个计算机域，在这种情况下分类法610a可以识别出输入短语是否标识了某种计算机类型、某种计算机部件类型或者某种计算机软件类型。然而，分类法610a可能不能够识别出输入短语是否标识了一家酒店，因为酒店与计算机域没有关联。但是，另一个分类法，例如分类法610b可能与旅游领域相关，从而使得分类法610b可以确定输入短语是否标识了一家酒店。

【0059】分类法610a-610n中的每一个都包括与相应域相关的分类层次。每个分类与一个或多个钩子规则有关。每个钩子规则对代表相应分类的典型短语中包含的一个或多个单词进行识别。当输入短语或其一部分与一个钩子规则相匹配时，该输入短语便被识别为所匹配钩子规则对应的分类代表。当钩子规则的所有单词均包含在输入短语中时，无论单词出现在输入短语中的顺序如何，该短语可能与该钩子规则相匹配。例如，一个对应于个人金融的分类法可能会包括用于信托基金的分类。信托基金分类可以包括用于可以购买的每个信托基金的钩子规则。如果输入短语包含一个信托基金的名称，则输入短语可能被识别为对应于该信托基金分类的短语，这是因为该输入短语与信托基金分类的一个钩子规则(例如，识别信托基金名称的钩子规则)相匹配。

【0060】分类法中分类的分层结构是专用于域的知识表示，也是一个学习数据集。另外，其用于对相关性判定中有帮助的分类进行加权。更特别地，层次结构可以提供更多用于加权分类的信息。例如，如果具有相同亲代分类的几个分类锁定了一个文件，则该亲代分类也应当作为更一般的分类被返回。

【0061】在一些实施例中，一个分类可以包括否定钩子规则。一个否定钩子规则对没有包含在代表相应分类的典型短语中的一个或多个单词进行识别。当输入短语与一个分类的否定钩子规则相匹配时，输入短语不被分类为属于该相应的分类。这样，否定钩子规则也称为排除规则，用于在某些情况下代替钩子规则。例如，对“Barry Bonds”的排除可能会位于“证券和债券”分类中，从而防止棒球运动员被锁定向金融相关的分类。

【0062】在一些实施例中，可以在匹配钩子规则之前对输入短语进行处理。例如，可以纠正输入短语中存在拼写错误的单词。输入短语的单词可以用其基本形式或词干形式代替。例如，名词可以变为其单数形式，动词可以变为其不定式形式。另外，可以根据一个或多个替换规则来替换输入短语的单词。一种替换规则可以识别出一个第一单词和一个第二单词，当第一单词出现在输入短语中时对该第一单词进行替换。所述的第一单词和第二单词可以是同义单词，或者是可以相互替换的。根据替换规则替换输入短语中的单词减少了分类法610a-610n需要的钩子规则的数量。在一个实施例中，在修改输入短语之前可能会需要用户确认。

【0063】语义内容路由器610根据图10所示的过程识别出分类法610a-610n中哪个分类法适合对输入短语进行分类。在一个实施例中，语义内容路由器610是一种简单的线性结合子，其使用图9所示的Widrow-Hoff误差修正算法来学习决定哪个分类法最可能对输入短语进行适当的处理。语义内容路由器610根据图8所示的过程针对分类法610a-610n中的每个分类法给输入短语赋值。如果根据一个具体的分类法，输入短语的分值超过一个阀值，则该具体的分类法被识别为适合用于该输入短语。语义内容路由器610根据分值表给输入短语赋值，所述分值表表明了输入短语的每个单词代表分类法610a-610n中的每个分类法所对应的域的可能性。

【0064】参照图7，表700被概念分类器的语义内容路由器，例如图6的语义内容路由器610，用来给输入短语赋值，从而使得该输入短语能够被路由至适当的分类法进行分类。表700包括用于列出路由器词典中每个单词的行，其中包含了可能出现在输入短语中的单词。例如，表700包括行705a-705d，分别用于单词“fund”、“laptop”、“asthma”和“text”。另外，所述表包括用于列出输入短语为进行分类可能会路由至的每个分类法的列。例如，所述表包括列710a-710d，分别用于对应于计算机、个人金融、健康和旅游领域的分类法。

【0065】在具体的行和列的交点处的分值表示，包含对应于一具体行的单词的输入短语可能通过一相应于一具体列的分类法被分类的可能性。换句话说，该分值表示来自具体列的域的典型内容包括具体行的单词的可能性。高分值可能表示高的可能性，低分值可能表示低的可能性。例如，单词“fund”具有对应于个人金融领域的高可能性，以及对应于计算机、健康或旅游领域的相对低的可能性，如行705a所示。

【0066】参照图8，语义加权过程800用于针对多个分类法中的每个分类法，识别出输入短语作为可能被该分类法分类的短语域的代表的可能性的分值。针对输入短语中的每个单词以及多个分类法中的每个分类法，通过一个表来识别该单词被包含在可以被该分类法正确分类的输入短语中的可能性的分值。例如，过程800可以使用图7的表700来执行。例如，当要对短语的分值进行识别时，当对短语应当被路由至的一个或多个分类法进行识别时，或者当对路由器进行训练从而正确地识别一个或多个分类法时，过程800可以由概念分类器的路由器来执行，例如图6的语义内容路由器610。

【0067】路由器首先接收到一个短语(步骤805)。短语可能是一个将要被分类的短语或者正在用来训练路由器的短语。例如，短语可能是电子内容的概念。路由器将接受到的短语表征为单词(步骤810)。在一个实施例中，路由器可以简单地将接收到的短语表征为单个单词。在另一个实施例中，路由器可以对所接收到的短语进行处理从而识别出是否有任何组成单词构成一个不可分割的短语。例如，如果输入短语为“buy personal computer”，则路由器可以表明输入短语具有三个组成部分(例如，“buy”、“personal”和“computer”)或两个组成部分(例如，“buy”和“personal computer”).

【0068】路由器同时针对每个分类法给输入短语计算单个权重。单个权重的计算基于输入短语中每个单词的权重的加权之和。对于每个分类法(步骤815)和短语中的单词(步骤820)，路由器确定所选择的单词是否包括在路由器的一个词典中(步骤825)。换句话说，路由器确定表中的一个行是否对应于所选择的单词。如果不是，则路由器丢弃所选择的单词(步骤830)，因为对于所选择的分类法，所选择的单词不能对所接收到的短语的分值有所贡献。如果所选择的单词包括在表中，则路由器针对所选择的分类法识别出所选择单词的存储分值(步骤835)。例如，路由器可以在表中根据所选择的单词对应的行和所选择的分类法对应的列识别出一个元素。对于所选择的分类法，路由器将识别出的权权重添加到短语的权重中(步骤840)。

【0069】路由器判断输入短语是否包括更多的单词(步骤845)。如果是，则路由器从短语中选择一个不同的单词(步骤820)并且判断该不同的单词是否在路由器的词典中(步骤825)。如果不是，则丢弃该单词(步骤830)。如果是，则识别出该不同单词的存储权重(步骤835)并且将该存储权重添加到针对所选择分类法的短语权重中(步骤840)。通过这种方式，针对所选择分类法的短语的总权重被识别。在针对每个分类法识别出短语的分值之后，将该分值与所定义的阀值进行比较。然后文档被发送给所有加权分值超过阀值的分类法。如果没有一个分类法的分值超过阀值，则将该文档发送给具有最高加权分值的分类法。这个步骤之后过程800结束(步骤855)。

【0070】举例而言，过程800使用图7的表700来识别出短语“laptoptext”的权重。这个短语包括两个单词(“laptop”和“text”)。对于计算机分类法，单词“laptop”具有权重0.68，单词“text”具有权重-0.03，从而整个短语的权重为0.65。对于个人金融分类法，单词“laptop”具有权重-0.30，单词“text”具有权重-0.17，从而整个短语的权重为-0.47。对于健康分类法，单词“laptop”具有权重-0.32，单词“text”具有权重-0.19，从而整个短语的权重为-0.51。对于旅游分类法，单词“laptop”具有权重-0.07，单词“text”具有权重0.39，从而整个短语的权重为0.32。因此，短语“laptop text”对于计算机分类法具有最高权重，而对于其它分类法具有相对低的权重。

【0071】在过程800的一些实施例中，当针对每个分类法对输入短语的分值进行识别时，语义内容路由器可能不仅要考虑独立出现在输入短语中的单词，而且要考虑这些单词如何分布在输入短语中。为此，语义内容路由器可能在其中神经网络中包括一个非线性的附加层。例如，在对输入短语的单词分别进行分析之后，可以使用S形函数。

【0072】参照图9，过程900用于训练与概念分类器相关联的路由器，例如图6的语义内容路由器610，从而使得路由器可以正确地识别可以对输入短语进行分类的一个或多个分类法。在这个短语学习过程中，路由器被提供了一系列作为对应于分类法的短语代表的经标记的短语。对于每个短语，路由器对对应于每个分类法的域的可能性的分值进行识别。然后路由器修改所述分值以使得这些分值更清楚地表明电子短语与分类法的一个具体域的相关性。当路由器610和概念分类法125被初始配置后，可以执行过程900。可替换地或附加地，可以周期性重现的方式执行过程900，从而对路由器610进行更新。路由器的短语学习通过提供专用于域的附加单词的过程来增强。

【0073】针对每个可能的分类法，路由器610将路由器的词典中的每个单词的权重初始化为零(步骤905)。例如，路由器可以生成一个表，例如图7中的表700，其中所有的分值均为零。如果之前已经执行了过程900，则路由器可以不将权重初始化为零。

【0074】路由器识别出一个将要用来训练路由器的短语集(步骤910)。例如，该短语集可以由正在训练路由器的用户提供。短语集可以列在文件中或者从可以由路由器存取的数据库获取。短语集可以从电子内容段识别，所述电子内容段对于与路由器相应的域是典型的。路由器选择一个短语(步骤915)，并且将短语的稀疏向量与当前的权重矩阵相乘(步骤920)。路由器可以使用图8的过程800针对每个分类法识别出所选择短语的权重。

【0075】路由器针对每个分类法识别出所选择短语的目标权重(步骤925)。目标权重可以识别应当与所选择短语相对应的一个分类法。所选择短语的目标权重可以由所选择短语自身提供。例如，从中选择出短语的文件或数据库可以包括所选择短语的目标权重的标识。在一个实施例中，短语集中的所有短语的目标权重可以是相同的。

【0076】路由器调整当前的权重矩阵，从而使得它能够生成更接近于期望结果的结果(步骤930)。换句话说，根据所存储权重是否正确地表明了所选择短语应当被路由至的由目标权重所表明的分类法，路由器可以从每个存储的权重上增加或减去一个预定的数值。例如，针对目标权重所指示的分类法，路由器可以向包括在所选择短语中的一个或多个单词的所存储的权重上增加一个预定的数值。另外，路由器可以针对其它每个分类法从所选择短语的一个或多个单词的所存储的权重上减去一个预定的数值。路由器可以调整所存储的权重，从而使得所识别的权重更加接近目标权重。

【0077】路由器判断路由器是否将通过所述短语集中的更多的短语进行训练(步骤935)。如果是，则路由器选择一个不同的短语(步骤915)，将短语的稀疏向量与当前的权重矩阵相乘(步骤920)，针对每个分类法识别出不同短语的目标权重(步骤925)，并且调整当前的权重矩阵使得它生成一个更加接近于期望结果的结果(步骤930)。通过这种方式，路由器通过短语集中的每个短语进行训练，直至路由器已经通过短语集中的所有短语进行了训练，这种情况下过程900结束(步骤940)。

【0078】在每次重复步骤915-940的过程中，表的一个或多个元素得到调整，从而使得表的至少一个元素具有非零值。在对足够大量的充分代表了对应于分类法的不同域的短语进行训练之后，表中的权重将能够正确地标识出包括对应单词的电子内容的各个域。

【0079】参照图10，过程1000用于将短语路由至适当的分类法以便进行分类。适当的分类法被识别为对应于可能代表短语的域的分类法。过程1000由概念分类器的路由器执行，例如图6的语义内容路由器610。

【0080】路由器接收到将要进行分类的短语(步骤1005)。短语可以在路由器正在被训练时被接收，或者当与包括短语的电子内容相关的高价值数据正在被识别时被接收，例如当语义加权过程800输出时(例如，从步骤855)。路由器针对多个可用分类法中的每个分类法对短语的权重进行识别(步骤1010)。针对分类法的短语的权重可以使用图8的过程800进行识别。

【0081】路由器将针对分类法的短语的权重与一个阀值进行比较(步骤1015)。阀值可以由用户进行配置。在将权重与阀值进行比较之前，可以将权重标准化。例如，最高的权重可以被设为1.0，而其它权重则进行相应的依比例调整。

【0082】然后路由器可以将针对分类法的短语权重返回到一个外部应用(步骤1020)。外部应用可以使用所返回的权重来识别出哪个分类法应当被用于分类短语，或者用于与分类短语无关的其它目的。在一些实施例中，权重可以被直接返回到外部应用，而不用先进行标准化或与阀值进行比较。

【0083】在另一个实施例中，路由器去除没有超出阀值的短语权重(步骤1030)。因此，对应于被去除的权重的分类法将不被用于分类短语。路由器可以对剩余的权重进行排序，例如，使得最大的权重位于最前面(步骤1035)。然后路由器将对应于剩余权重的分类法标识符列表返回到外部应用(步骤1040)。作为结果，外部应用并未被提供权重的标识，而是被提供了应当用于分类短语的分类法的标识。外部应用可以将短语发送到被标识的分类法进行分类。在权重被排序的实施例中，第一个被标识的分类法可以表示短语具有最高分值的分类法，该分类法可能是具有正确分类所述短语的最大可能性的分类法。

【0084】上下文分析引擎105可用于在网站上实现有价值的货币化和导航应用。在一个例子中，货币化的应用可以包括一个网赚^TM应用。在一个例子中，网赚^TM应用在网页上显示广告，这些广告与网页的内容或者用于获得网页的搜索查询的内容具有很高的相关性。举例来说，网赚^TM应用对搜索查询、URL(例如，网页)、RSS文件、博客或任何文本块进行分析，并且使用语义内容路由器和可用的广告目录，网赚^TM应用定位与搜索查询、URL、RSS文件、博客或文本块有关和/或相关的内容(例如，广告)，并且将这些内容(例如，广告)放到互联网用户所请求的网页上。

【0085】货币化和导航应用的另一个可以使用上下文分析引擎105实现的例子是赞助导航应用。赞助导航应用使用上下文分析引擎105来分析或搜索与发布者网站相关联的文档(例如，网页)，并且使用一个或多个分类法来提取和分类出现在其中的概念。为此，赞助导航应用识别出与所提取出的概念相关联的分类法，并且使用该分类法来分析所提取的概念以及生成一个分类后的概念集。然后该分类后的概念集被用于与所述分类法或另一个相关的分类法联合使用来对与所提取出的概念相关联的相关内容进行识别。在识别所提取概念的相关内容时，赞助导航应用对所提取的概念和相关内容(使用分类法被识别)进行超链接处理，并且在网页中以广告单元的形式显示所述超链接。该广告单元可以由广告商进行赞助，因此其名称为“赞助导航”。点击广告单元中的这些超链接则会将用户链接至具有关于所述概念的附加“内容”的网页。上面描述的过程将在下面参照图11进行更加详细的描述，并且稍后会以图12中所示的例子中进行说明。

【0086】图11描述了一个赞助导航应用使用的示例性的过程1100，该过程能够分析与发布者的网站相关联的网页以及使用一个或多个分类法对出现在其中的概念进行提取和分类。使用上下文分析引擎105中的各个软件模块，过程1100首先在网页中提取与发布者网站相关联的概念(步骤1110)。在一个例子中，提取概念包括提取与网页相关联的文本并且提取出现在文本中的名词短语。可替换地或附加地，提取概念可以包括提取与网页相关联的文本并且提取出现在文本中的适当名词。适当名词的列表可用于从文本中识别出适当的名词。适当名词可以包括人名(例如，名人、政治家、运动员和作家)、地名(例如，城市、州、国家和地区)、企业名称、公司名称以及产品名称。用户可以修改适当名词列表来仅包括那些与用户感兴趣的企业相关的适当名词。在另一个实施例中，LSA可用于识别包括在所提取文本中的概念。这个实施例已经在前面参照图4和图5进行了详细的描述，在此不再进一步描述。

【0087】在从网页提取概念之后，赞助导航应用识别出至少一个分类法来对提取出的概念进行分析并且生成一组分类后的概念集(步骤1120)。分类法可以对应于与所提取出的概念相关的域。在一个实施例中，赞助导航应用可以使用例如过程800、900和1000之类的过程来对与所提取出的概念相关的分类法进行识别，这些过程已经参照图8-10进行了详细地描述，所以在此不再进一步进行描述。

【0088】赞助导航应用使用分类法来生成一组分类后的概念集。在一个例子中，经分类的概念可以包括与一个或多个类别或信道特别地相关联的提取概念，所述类别或信道为例如体育、信托基金和/或计算机类别。生成一组分类后的概念集之后，赞助导航应用使用分类法来识别与所提取出的概念相关联的出现在发布者网站上的其它网页中的其它相关内容和/或有关数据(步骤1130)。可替换地或附加地，赞助导航应用使用分类法来识别出现在其它网站的网页中的相关内容和/或有关数据。

【0089】为了识别相关内容，在一个实施例中，赞助导航应用引用一个数据库。该数据库可以位于上下文分析引擎105中或可以远离上下文分析引擎105，例如，位于内容提供商110中。在任何一种情况下，该数据库存储有基于类别进行索引的数据。该数据可以包括出现在发布者网站或其它网站的网页中并与所提取出的概念相关联的相关内容。该相关内容使用分类法进行分类。

【0090】赞助导航应用访问所述数据库并对与所分类概念具有相同类别的相关内容进行识别。可替换地或附加地，赞助导航应用可以对类别类似或相关于与所分类概念相关联的类别的内容进行识别。在一个例子中，赞助导航应用可以参照一个将一个或多个类别与一个或多个其它类别相联系(例如，将健康类别与体育类别相联系)的表，用于判断属于其它类别的其它内容是否应当被识别为所分类内容的相关内容。如果是，则赞助导航应用在数据库中识别出该内容并且在网页上显示该内容。用一个特定的例子进行说明，当所分类概念属于健康类别时，赞助导航应用访问数据库来识别属于健康类别的相关内容。可替换地或附加地，赞助导航应用可以参照上述表，从而认识到健康类别是与体育类别(或其它不同于健康类别的类别)相关联的。在这种情况下，赞助导航应用在数据库中识别出属于体育类别的相关内容。

【0091】在另一个实施例中，不访问事先存储有与发布者网站或其它网站的网页相关联的相关内容的数据库，取而代之的是，赞助导航应用可以使用分类法来直接搜索发布者网站或其它网站的网页，以识别出与所分类内容具有相同或近似类别的内容。在任一种情况下，赞助导航应用对所提取的概念和相关内容进行超链接处理，并且在发布者网站的网页中以广告单元的形式显示这个信息(步骤1140)。所述广告单元可以由广告商赞助(例如，“赞助导航”)。在一个稍有不同的情况下，赞助导航应用可以在与发布者有合同关系的其它内容提供商的网页中显示广告单元。

【0092】在该广告单元中选择(例如，“点击”)任何超链接将会“触发”多个广告递送选择，例如有关主题的“转换广告”、“直线”文本广告或图形广告。转换之后，用户可以浏览到广告或者被链接到所述概念的附加“内容”被显示的网站的相应部分。

【0093】图12所示为补充有由Hyprave^TM提供赞助的广告单元的网页屏幕截图1200。该广告单元包括超链接至出现在发布者网站的其它网页上的相关内容的概念短语。具体地，发布者的网站被分析，并且使用精确确定的分类法对概念进行提取和分类。例如，如图所示，使用过程1100识别出现在网页1200上的例如“高血压性心脏病”之类的概念以及例如出现在同一网页或发布者网站的其它网页上的诸如“缺血性心脏病”之类的其它相关内容，将他们做超链接处理并在得到赞助的广告单元1210中显示。同样地，网页1200的浏览者可以容易地浏览与“高血压性心脏病”相关联的出现在发布者网站的其它网页中的其它相关内容。

【0094】其它实施例也落入本发明权利要求书的范围中。例如，虽然前面描述的是赞助导航应用分析与发布者网站相关联的网页来提取和索引所有出现在其中的概念，但是赞助导航应用也可以容易地对出现在其它数据库中的其它文档进行相同的操作。

Claims

1、一种用相关内容补充输入内容的方法，所述方法包括:

接收将要为其识别相关内容的输入内容；

提取与所述输入内容相关联的文本；

在所述所提取的文本中识别出概念；

识别至少一个与所述概念相关联的分类法；

使用所述至少一个分类法来分析所述概念，从而生成一组与所述至少一个分类法的一个或多个类别相关联的经过分类的概念集；

将所述经过分类的概念递交给一数据库，其中，所述数据库存储有基于其类别进行索引的数据；

请求所述数据库找出与所述经过分类的概念相关联的所述相关内容；

从所述数据库接收在响应于所述请求后找出的所述相关内容；

将所述相关内容补充给所述输入内容；以及

使用户能够浏览所述相关内容。

2、根据权利要求1所述的方法，其中，所述输入内容包括用于获得搜索结果的搜索查询。

3、根据权利要求2所述的方法，其中，提取与所述输入内容相关联的文本的步骤包括提取构成所述搜索查询的关键词。

4、根据权利要求2所述的方法，其中，提取与所述输入内容相关联的文本的步骤还包括:

获取所述搜索结果；以及

从所述获取的搜索结果中提取出所述文本。

5、根据权利要求1所述的方法，其中:

接收所述输入内容的步骤包括接收URL；以及

提取与所述输入内容相关的文本的步骤包括:

获取一位于所述URL的网页；以及

提取与所述网页相关的文本。

6、根据权利要求1所述的方法，其中:

接收所述输入内容的步骤包括接收RSS文件；以及

提取与所述输入内容相关联的文本的步骤包括提取包括在所述RSS文件中的文本。

7、根据权利要求1所述的方法，其中:

接收所述输入内容的步骤包括接收一博客中的入口；以及

提取与所述输入内容相关联的文本包括提取所述博客中的所述入口。

8、根据权利要求1所述的方法，其中，所述相关内容包括对应于一个或多个与所述输入内容有关或相关的每点击成本、每次印象费用或者每行动成本条件的广告或赞助链接。

9、根据权利要求1所述的方法，其中，在所述提取文本中识别所述概念包括识别包括在所述文本中的一个名词短语或适当名词。

10、根据权利要求1所述的方法，其中，接收所述相关内容还包括:

识别所述经过分类的概念的类别；以及

所述数据库内出现的与所识别类别相关联的内容识别为所述相关内容。

11、一种用于向输入内容补充相关内容的系统，所述系统包括:

一上下文分析处理装置；以及

一存储装置，存储用于使得所述上下文分析处理装置进行以下操作的指令:

接收将为其识别相关内容的输入内容；

提取与所述输入内容相关的文本；

在所述所提取的文本中识别概念；

识别出至少一个与所述概念相关联的分类法；

使用所述至少一个分类法对所述概念进行分析，从而生成一组与所述至少一个分类法的一个或多个类别相关联的经过分类的概念集；

将所述经过分类的概念递交至一数据库，其中所述数据库存储基于其类别进行索引的数据；

请求所述数据库找出与所述经过分类的概念相关联的相关内容；

将所述相关内容补充至所述输入内容；以及

使用户能够浏览所述相关内容。

12、根据权利要求11所述的系统，其中，所述输入内容包括用于获得搜索结果的搜索查询。

13、根据权利要求12所述的系统，其中，为了提取出与所述输入内容相关的文本，所述指令包括用于提取构成所述搜索查询的关键词的指令。

14、根据权利要求12所述的系统，其中，为了提取出与所述输入内容相关联的文本，所述指令还包括用于进行以下操作的指令:

获得所述搜索结果；以及

从所述获得的搜索结果中提取出所述文本。

15、根据权利要求11所述的系统，其中:

为了接收所述输入内容，所述指令包括用于接收URL的指令；以及

为了提取与所述输入内容相关联的文本，所述指令包括用于进行以下操作的指令:

获取位于所述URL上的网页；以及

提取与所述网页相关联的文本。

16、根据权利要求11所述的系统，其中:

为了接收所述输入内容，所述指令包括用于接收RSS文件的指令；以及

为了提取出与所述输入内容相关联的文本，所述指令包括用于提取包括在所述RSS文件中的文本的指令。

17、根据权利要求11所述的系统，其中:

为了接收所述输入内容，所述指令包括用于接收博客中的入口的指令；以及

为了提取出与所述输入内容相关联的文本，所述指令包括用于提取包括在所述博客中的所述入口的指令。

18、根据权利要求11所述的系统，其中，所述相关内容包括对应于一个或多个与所述输入内容有关或相关的每点击成本、每次印象费用、每行动成本条件的一广告或赞助链接。

19、根据权利要求11所述的系统，其中，为了识别出所述所提取文本中的概念，所述指令包括用于识别包括在所述文本中的一个名词短语或适当名词的指令。

20、根据权利要求11所述的系统，其中，为了接收所述相关内容，所述指令还包括用于进行以下操作的指令:

识别出所述经过分类的概念的类别；以及

将所述数据库中并且与所识别出的类别相关联的内容识别为所述相关内容。

21、一种通过一个用户界面补充文档的方法，所述用户界面包括与一个或多个出现在所述文档中的概念相关联的相关内容，所述方法包括:

提取出现在被存储于存储器中的文档中的概念；

识别出与所述提取出的概念相关联的一个分类法；

使用所述分类法分析所述提取出的概念来生成一组经过分类的概念集；

使用所述分类法或另一个相关分类法，在存储在相同或不同存储器中的多个其它文档中，识别出与所述经过分类的概念相关联的相关内容；

对所述提取的概念和相关内容进行超链接处理；以及

在用户界面中显示所述经过超链接处理的概念和相关内容，其中，所述用户界面由内容提供商提供赞助。

22、根据权利要求21所述的方法，其中，所述提取概念包括:

提取与所述文档相关联的文本；以及

提取出包括在所述文本中的一个名词短语或适当名词。

23、根据权利要求22所述的方法，其中，所述适当名词包括人名、企业名称、公司名称或产品名称。

24、根据权利要求21所述的方法，其中，所述提取概念包括提取出现在网站的网页中的概念。

25、根据权利要求21所述的方法，所述方法还包括:

从所显示的超链接中接收超链接选择标识；以及

响应于所述接收到的标识，显示与所选择的超链接相关联的网页，其中，所述网页包括与所述提取的概念相关的附加内容。

26、根据权利要求21所述的方法，其中，赞助的内容提供商与所述发布者为同一实体。

27、根据权利要求21所述的方法，其中，赞助的内容提供商与所述发布者为不同实体。

28、根据权利要求21所述的方法，其中，使用所述分类法或另一个相关分类法包括使用所述分类法在存储于相同或不同存储器中的多个其它文档中识别出与经过分类的概念相关联的相关内容，其中，所述相关内容与所述经过分类的概念属于相同的类别。

29、根据权利要求28所述的方法，其中，使用所述分类法或另一个相关分类法的步骤还包括:

判断所述分类法是否与另一个分类法相关；以及

如果判断结果是所述分类法与另一个分类法相关，则使用其它相关的分类法在相同或不同存储器中的多个其它文档中识别出与所述经过分类的概念相关联的相关内容。

30、根据权利要求29所述的方法，其中，所述相关内容属于与所述经过分类的概念的类别不同但相关的类别。

31、根据权利要求21所述的方法，所述方法还包括通过参照列出了相互关联的分类法的表来识别所述其它相关分类法，从而识别出与所述提取出的概念的分类法相关联的所述其它相关分类法。

32、根据权利要求21所述的方法，其中，所述相关内容与所述经过分类的概念属于相同的类别。

33、根据权利要求21所述的方法，其中，所述相关内容属于与所述经过分类的概念的类别不同但相关的类别。

34、一种用于从多个对一输入短语进行分类的分类法中识别出一个分类法的方法，所述方法包括:

提供多个分类法，其中每个所述分类法对应于一特定的知识域；

接收一输入短语，所述输入短语将由所述多个分类法中的至少一个分类法进行分类；

将所述接收到的输入短语表征为一个或多个单词；

从所述多个分类法中选择出一第一分类法；

对于选择的所述第一分类法，识别出与所述一个或多个单词中的每个单词相关联的存储权重；

对于选择的所述第一分类法，对与所述一个或多个单词中的每个单词相关联的存储权重进行累加，从而识别出与所述输入短语相关联的第一权重；

从所述多个分类法中选择出一第二分类法；

对于选择的所述第二分类法，识别出与所述一个或多个单词中的每个单词相关联的存储权重；

对于选择的所述第二分类法，对与所述一个或多个单词中的每个单词相关联的存储权重进行累加，从而识别出与所述输入短语相关联的第二权重；

将与所述输入短语相关联的所述第一权重和第二权重与一个阀值进行比较；

根据比较的结果，将所述输入短语路由到所述第一分类法或第二分类法进行分类。

35、根据权利要求34所述的方法，其中，接收所述输入短语包括接收概念，所述概念包括在正在为其识别补充的相关电子内容的电子内容中。

36、根据权利要求34所述的方法，其中，表征所述输入短语包括将所述输入短语分割为个别的单词。

37、根据权利要求34所述的方法，其中，对于所述第一分类法和第二分类法，识别出与所述一个或多个单词中的每个单词相关联的存储权重包括通过参照一个表来对所存储的权重进行识别，所述表包括与所述一个或多个单词相关联的权重。

38、根据权利要求37所述的方法，其中，所述表包括:

一用于列出词典中的每个单词的行；

一用于列出所述多个分类法中的每个分类法的列；

位于每个行和列交叉处的分值，其中，每个交叉处的所述分值表示包括对应于每个交叉处的单词的所述输入短语可以由对应于交叉处的列的一特定分类法进行分类的可能性。

39、根据权利要求34所述的方法，其中，对所述输入短语进行路由包括将所述输入短语路由至所述第一分类法和第二分类法进行分类。