本专利申请要求2004年6月2日递交的题为“CONENT-MANAGEMENT SYSTEM FOR USER BEHAVIOR TARGETING”的美国临时专利申请No.60/576,735的优先权,并且是2005年5月16日递交的题为“CONENT-MANAGEMENT SYSTEM FOR USER BEHAVIORTARGETING”的美国专利申请No.11/130,592的部分继续申请,这里通过引用将上述每个申请的全部内容结合于此,以用于所有目的。
具体实施方式
现在将以示例方式而非限制方式来描述本发明的实施例。将会理解,本发明具有广阔的实用性并可被用在很多不同的上下文中。
本发明的实施例经由用户的客户端系统向用户提供基本内容,并且与基本内容一起,还提供与用户相关的附加内容。基本内容一般包括用户请求的内容,并且可以经由用户的客户端系统在用户访问的网页上被提供。基本内容还可能包括公布出所请求的内容的网页。附加内容可能包括广告和/或到放置在被访问的网页上的内容的链接。如果附加内容基本类似于与用户相关联的用户配置文件的属性,则附加内容可被看作与用户相关。所述属性可以包括用户用于查询返回给用户的文档集锦和搜索结果的查询中标识的关键字、单元、类别等等。如果附加内容包括与用户配置文件中包括的相同或类似的关键字、单元、类别等等或与它们相关联,附加内容则可能基本类似于用户配置文件。下面将更详细描述本发明的这些和其他实施例。为了方便,被配置用于关联基本内容和与用户相关的附加内容(有时简称为相关内容)的装置先被描述,随后再描述用于将基本内容和与用户相关的附加内容相关联的方法。
图1是根据本发明实施例包括客户端系统20的信息检索和通信网络10的简化图示。在通信网络10中,客户端系统20通过网络30(例如因特网或内联网(例如LAN或WAN))被耦合到任意多个服务器系统401到40N。如这里所述,客户端系统20根据本发明被配置为与服务器系统401到40N中的任意一个通信,以例如访问、接收、检索和显示网页形式的基本内容和相关联的相关内容。
图1所示系统中的若干元件包括传统的公知元件,这里无需详细说明。例如,客户端系统20可以包括桌上型个人计算机、工作站、膝上型电脑、PDA、蜂窝电话、任意无线应用协议(WAP)使能的设备,或能够直接或间接接口到因特网的任意其他计算设备。客户端系统20通常运行浏览程序,例如Microsoft的Internet ExplorerTM浏览器、NetscapeNavigatorTM浏览器、MozillaTM浏览器、OperaTM浏览器、在蜂窝电话、PDA或其他无线设备情况下的WAP使能浏览器,从而允许客户端系统20的用户访问、处理和查看通过网络30来自服务器系统401到40N的其可用的内容。客户端系统20还可能包括一个或多个用户接口设备22,例如键盘、鼠标、轨迹球、触摸屏、手写笔等等,用于与由服务器系统401到40N或其他服务器提供的页面、表格和其他信息协作来与显示器(例如监视屏幕、LCD显示器等等)上的浏览器提供的图形用户界面(GUI)交互。本发明适合用于因特网(指一种特定全球性互联网络)。但是,应该理解,可以使用其它网络来替代因特网或与因特网一起使用,例如内联网、外联网、虚拟专用网(VPN)、基于非TCP/IP的网络、任意LAN或WAN等等。
根据一个实施例,客户端系统20和系统服务器401到40N以及它们各自的组件是可使用包括使用一个或多个中央处理单元(例如由Intel、AMD等制造的中央处理单元)运行的计算机代码的应用来配置的操作器。用于操作和配置客户端系统20以传输、处理和显示这里所述的基本内容和与基本内容相关的内容的计算机代码优选地被下载并存储在硬盘上,但是整个程序代码或其某些部分也可被存储在任意其他公知的易失性或非易失性存储介质或设备(例如ROM或RAM)上,或被提供在任意能够存储程序代码的介质上,例如压缩盘(CD)介质、数字多功能盘(DVD)介质、软盘等等。另外,整个程序代码或其某些部分可以从软件源发送和下载,例如使用通信介质和协议(例如TCP/IP、HTTP、HTTPS、以太网或其他传统介质和协议)通过网络30从服务器系统401到40N之一发送和下载到客户端系统20。这里所称服务器系统可以包括单个服务器计算机或多个服务器计算机。
应该意识到,用于实现本发明各个方面的计算机代码可以是C、C++、HTML、XML、Java、JavaScript等代码,或任意其他合适的脚本语言(例如VBScript),或任意其他可在客户端系统20和/或服务器401到40N上执行或被编译以在客户端系统20和/或服务器401到40N上执行的合适的编程语言。在某些实施例中,没有代码被下载到客户端系统20,并且所需代码由服务器执行,或执行已经存在于客户端系统20上的代码。
图2是根据本发明实施例的内容管理系统200的简化图示。内容管理系统的各个部分可以驻留于一个或多个服务器(例如服务器401到40N)中和/或一个或多个客户端系统(例如客户端系统20)中。内容管理系统的模块可通过网络(例如网络30)在一个或多个服务器和客户端系统之间传送以用于执行。根据一个实施例,内容管理系统200包括多个web服务器205、解析服务器210、一组附加内容服务器215和用户行为数据库220。这里所称一组包括一个或多个成员。
根据一个实施例,内容管理系统200被配置为生成用户的用户配置文件225,并将用户配置文件和与用户相关的附加内容230相关联,该附加内容230与诸如基本内容235、email、聊天室讨论等之类的一条内容一起被提供给用户。用户配置文件可以基于用户请求的网页、用于识别网页的查询等等来生成。用户配置文件可以包括从这些页面和/或查询中提取出的单元(由一个或多个关键字构成,随后将详细描述)并且可以包括用来对这些单元分类的类别信息。用户配置文件可能基于用户配置文件中包括的单元是否与附加内容中包括的单元相同或相似,或者基于用来分类这些单元的类别是否相同或相似来与一条附加内容相关联。如果用户配置文件中的单元与附加内容基本匹配或处于相同的单元类别中,用户配置文件则可能与附加内容相关联。用户配置文件和附加内容之间的关联可能响应于用户对基本内容的请求或响应于另一触发事件而形成。如果形成关联,附加内容则可能与基本内容一起被提供。
为了方便,下面首先描述用户配置文件的生成,然后再将用户配置文件与附加内容的关联和将附加内容与一条基本内容或其他内容一起提供的方面一道描述。用户配置文件可以基于跟踪和解析用户请求的基本内容来生成。单元可以被从基本内容中提取出并被放置在用户配置文件中以建立配置文件。可以放置在用户配置文件中的单元也可以从用户例如使用OvertureTM执行的搜索查询中提取。单元还可以从与主要内容相关联的“关联”内容中收集。主要内容可以是用户主要感兴趣的一条基本内容,例如音乐、新闻、TV列表、书籍、艺术等等。关联内容可能基于其他用户的动作或基于逻辑关联而与主要内容相关联。例如,在搜索中,用户可能正在搜索一个给定艺术家的音乐。这个给定艺术家可以是主要主题,或者这个给定艺术家的音乐可以是主要主题。或许已知,购买了该给定艺术家的音乐的用户还购买了另一艺术家的几首特定音乐。这另一艺术家的音乐是关联内容的一个示例,因为它与给定艺术家(例如是主要内容)的音乐(例如也是主要内容)的购买相关联。与另一艺术家的音乐相关联的单元(例如名称)和/或这另一艺术家的音乐(例如音乐标题、CD标题等等)可被包括在用户配置文件中。
基本内容235可以包括由一个或多个web服务器205或其他服务器提供给客户端系统20的网页。网页可以根据多种基于web的协议来提供,例如TCP/IP、HTTP、HTTPS或当今使用的其他协议。服务器系统401到40N可被配置为提供网页并且可以包括web服务器205。Web服务器可以包括Yahoo!实体(property)服务器,例如Yahoo!Launch、Yahoo!Finance、Yahoo!Movies、Yahoo!Health、Yahoo!News、Yahoo!Sports、Yahoo!Music、Yahoo!Weather或其他web服务器。web服务器可以驻留于单个服务器计算机上,或者驻留于多个服务器计算机上。基本内容235还可以包括网页上的内容,例如文本、图像、视频、音频、动画、程序代码、数据结构、格式化文本等等。例如,由新闻服务器(例如Yahoo!News)提供的基本内容可能包括新闻故事(文本)和附带的图像。基本内容可以根据超文本标记语言(HTML)、可扩展标记语言(XML)、标准通用标记语言(SGML)或其他当今使用的格式来格式化。
根据一个实施例,由用户请求的基本内容235由web服务器205中的至少一个提供给解析服务器210。可替换地,web服务器可以向解析服务器提供URL;URL的目标可以是被请求的基本内容。解析服务器可被配置为使用URL检索URL指向的基本内容。基本内容可以以HTML页面、XML页面或当今使用的其他格式的形式被提供到解析服务器。web服务器205还可以将一个或多个配置文件240提供到解析服务器。每个配置文件240包括一组规则,网页解析器245使用这组规则来设置基本内容解析的优先级。每个配置文件可以包括唯一的一组解析规则,这组解析规则与提供规则的web服务器相关联。例如,新闻实体(例如Yahoo!News实体)可以提供用于解析新闻文章标题的规则,而音乐实体(例如Yahoo!Music实体)不能提供用于解析新闻文章标题的规则。可替换地,音乐实体可以包括用于解析CD标题的规则,对音乐实体而言,CD标题比新闻文章标题更相关。一组示例性解析规则(例如针对新闻实体)可以包括解析标题、元数据关键字、元数据描述、粗体文本、斜体文本、适当名词、锚文本、主体文本和被表征为重要文本的文本。在解析过程期间,所有HTML标签等和其他不想要的信息可以从一条基本内容和从该基本内容中解析出的在先文本类别中删除。例如,主体文本解析规则可以提供对文章第一段或前两段的解析,并且可以规定随后的段落不被解析。根据另一示例,将从网页中解析出的被表征为重要文本的文本可以依web服务器(例如实体服务器)而定。例如,诸如Yahoo!Sports实体之类的体育实体可以包括将体育队伍的名字看作重要文本的规则,而电影实体可以包括将电影标题看作重要文本的规则。对于没有提供以配置文件的基本内容,例如Yahoo!实体服务器未提供的基本内容,该基本内容可以根据可以本地存储在网页解析器245中的一组或多组默认规则来解析。
根据一个实施例,在解析基本内容之后,提取模块250从解析出的基本内容中提取出单元。单元可以包括一个或多个关键字并且一般代表单个概念,例如对人类思维来说完整的单个概念。就是说,一个单元中的关键字将代表一个概念,而不是这些关键字单独地或在不同的组中可能代表的若干个概念。。例如,三个关键字“New”、“York”和“City”可以构成单元“New York City”,其中该单元没有被视为三个分开的关键字(并且可能是三个或更多个不同的概念),而是被视为例如代表单个概念的单个关键字,或“单元”。单元“New York City”的概念一般比分开考虑的三个关键字的概念更贴近自然的思考过程。例如,分开考虑的关键字York可能与Great Britain的York镇相关联,或者一起考虑的关键字New York可能与New York州而非一定与New York城相关联。
单元可以由提取模块250基于单元字典模块255中的一组单元而从被解析的文本中提取出。单元字典模块255可以包括可能从被解析的文本中提取出的所有单元的列表。单元字典模块中的单元可以包括一个或多个关键字。单元字典模块可以由查询处理引擎260提供。查询处理引擎260可被配置为接收多个关键字并从关键字形成单元。查询处理引擎可被配置为这样认知:单个关键字本身可以是一个单元,而无需与其他关键字组合来形成一个单元。虽然查询处理引擎在图2中被示为未包括在解析服务器210中的模块,但是根据某些实施例,查询处理引擎可以被包括在解析服务器中。为了更详细地理解查询处理引擎260,可以参见2003年11月12日递交的题为“System and Methods for Generating Concept Units fromSearch Queries”的美国专利申请No.10/713,576,该专利申请由本发明的所有人拥有并通过引用被结合于此,以用于所有目的。
例如在单元和/或关键字被出售给广告商和/或赞助人时,单元可被周期性地添加到单元字典模块或从单元字典模块中删除。例如,如果一个或多个特定单元处于一条基本内容中,广告商则可能希望他们的广告与这条基本内容一起显示。或者,如果一个或多个特定单元处于一条基本内容中,赞助商可能希望到他们的网站的链接与这条基本内容一起显示。广告商、赞助商等随后可能“购买”单元,以在网页上将广告或赞助商链接与基本内容放置在一起。此外,广告商、赞助商等可能甚至在该单元每次出现在一条基本内容中并且广告商的广告或赞助商的链接与基本内容一起显示时支付费用。如果用户选择(或“点击”)广告或赞助商链接,则可能还要向广告商或赞助商收取额外费用。
例如,可以由实体服务器(例如Yahoo!实体服务器)向提取模块提供附加的单元提取规则。这些单元提取规则可以规定提取未包括在单元字典模块中的单元,或者可以规定虽然某些给定单元处于单元字典模块中,但是这些给定单元不应该被从解析的文本中提取出。单元提取规则可以包括用于基于与一个单元相关联的收入生成量来提取该单元的规则。例如,如果包括在单元字典模块中的一个单元尚未售出并且不具有相关的收入生成量,单元提取规则则可以规定不从被解析的文本中提取该单元。根据另一示例,收入生成规则可以规定提取具有最高收入生成量的单元。各种实体服务器可能提供单元提取规则的不同集合。应该理解,上述单元提取规则是示例性的而非限制性的。本领域技术人员将意识到,一组单元提取规则中可以包括其他有用的提取规则。
虽然前述实施例规定了从基本内容提取单元,但是也可以基于一组关键字提取规则从基本内容中提取关键字。与单元提取规则类似,关键字提取规则可被提供给一个或多个配置文件240中的解析模块。关键字提取规则可被一致地应用到所有被解析的文本,或者这些规则可以被应用到由一个给定web服务器提供的基本内容,并且可以不被应用到由其他web服务器提供的基本内容。例如,一组关键字提取规则可以被应用到Yahoo!Music实体提供的基本内容,而另一组不同的提取规则可以被应用到Yahoo!News实体提供的基本内容。关键字提取规则可以包括多种规则,例如在上面描述单元提取规则时描述的那些规则或者可以包含其他提取规则。
在从被解析的基本文本中提取出单元265(包括单个关键字单元或多个关键字单元)之后,单元被传送到单元分级模块272,该单元分级模块272被配置用于给单元分级。单元可以基于多个标准来分级,标准例如包括与单元相关联的收入生成量和/或相关性得分。一个单元生成的收入量可能基于订户、广告商、赞助商等希望(例如协定)为他们的与一条基本内容一道呈现给用户的相关内容支付的量。例如,轻型卡车制造商可以购买/许可如下单元:“truck”、“pick-up truck”和“light duty truck”。单元“light-duty truck”可能与制造商生产的卡车的类型高度相关,而单元“pick-up truck”和“truck”可能相关性较低。因此,与为放置在具有单元“pick-up truck”或“truck”的基本内容旁边的广告所支付的费用相比,制造商通常为他们的放在包括单元“light-duty truck”的基本内容旁边的广告(即相关内容)支付更大费用。因此,单元“pick-up truck”和“truck”的收入生成量低于单元“light-duty truck”的收入生成量。
相关性得分指示单元和用户之间的相关程度。如果一个单元在一条被请求的内容中或在用户用来定位内容的查询中出现的次数大于某个给定次数,则可以确定该单元对于用户具有相对较高的相关性。例如,如果用户请求较大量的包括单元“light-duty truck”的新闻文章(例如具有关于新页面的文章的网页),则可以确定单元“light-duty truck”与用户高度相关。可以推断用户对购买轻型卡车有兴趣。因此,该单元的相关性得分对于该用户可能相对较高。
单元的相关性得分也可以基于其他标准,例如一个单元在一条基本内容中的出现次数。如果一个单元在一条基本内容中的出现次数大于等于某个给定次数,则相对较高的相关性得分可以与该单元相关联。此外,如果某个给定单元处于基本内容中的次数大于其他单元处于基本内容中的次数,则该给定单元可以具有比其他单元更高的相关性得分。
此外,相关性得分可以基于一个单元在一条基本内容中的位置,如与配置文件240一起提供的规则或包括在基本内容中的指示符所规定的。例如,如果一个单元处于标题、元数据关键字、元数据描述、锚文本、主体文本中,并根据与配置文件240一起提供的规则或根据包括在基本内容中的指示符,通过格式编排被指定为例如粗体、斜体和/或被表征为重要文本的文本,则该单元可能具有高相关性得分。一个作为适当名词的单元可以被视为重要文本,并且可被分配相对较高的相关性得分。被视为重要单元的单元可能取决于向解析模块提供基本内容和配置文件的特定实体服务器而有所不同。例如,包括体育队名称的单元可能被视为对体育实体而言的重要单元,但是可能不会被视为对电影实体而言的重要单元。
根据一个实施例,与搜索项(例如查询)相关联的单元和搜索结果270被传送到解析服务器210并由单元分级模块272分配相关性得分。如上所述,这些单元可以包括用户在搜索引擎中输入以定位信息的单元。这些单元可能由单元分级模块根据相关性得分、收入生成量和/或总相关性得分(随后将详细描述)中的至少一个来进行分级。与搜索相关联的单元的相关性得分可能基于使用该单元执行搜索的次数,或者可以基于来自用户选择使用(例如查看、监听等等)的网页的网页内容(例如单元处于该内容中的次数)。例如,如果该单元在一次或多次搜索中被使用相对较多的次数,则可以向该单元分配相对较高的相关性得分。
根据另一实施例,来自关联内容280(例如产品相关内容)的单元被传送到解析服务器210。来自关联内容280的单元可以被传送到解析服务器,并被单元分级模块272分配相关性得分。这些单元还可以由上述单元分级模块进行分级。这些单元的相关性得分可以基于内容管理系统200的提供者是否从与关联内容相关联的销售(例如销售与用户购买的其他音乐相关联的音乐)中获利。例如,如果可以产生相对较大利润,这些单元则可被分配相对较高的相关性得分,或者如果将从关联内容中得到相对较少利润或没有利润,则可以分配相对较低的相关性得分。可替换地,这些单元的相关性得分可以基于内容管理系统200的提供者是否从用户点击启动与关联内容相关联的销售站点或用于显示销售站点的链接中获利。这些相关性得分对于赞助商链接可能基于类似标准以及赞助商链接是否被显示、选择和提供或者是否从到赞助商站点的链接产生了销售。可替换地,这些相关性得分可以基于购买了与关联内容相关联的产品的多个其他用户。前述相关性得分确定技术是出于示例性目的而描述的,本领域技术人员将想到其他有用的技术来产生这些单元的相关性得分。
根据一个实施例,相关性得分是作为时间的函数变化的。例如,相关性得分可能随时间降低。具体而言,基于从单元被传送到解析服务器时起已经经过的时间量,单元的相关性得分可能降低。相关性得分可以逐步降低或连续降低,并且可以在给定时间量后被设置为零。相关性得分随时间降低的量对于不同单元可能不同。例如,与汽车相关联的单元的相关性得分可以从解析服务器接收到单元的时间起在大约一个月的时间内线性降低到零,而与假期相关联的单元可以在更长的时间段中(例如2到6个月)以更低速率降低。例如,从市场调查中可以得知,搜索汽车的用户通常在其最初搜索的大约一个月内购买汽车。并且可以得知,用户在购买度假旅行包之前,通常花费更多个月的时间(例如2到6个月)为度假采购。
图3是根据本发明一个实施例的示例性用户配置文件,它可以由单元分级模块272(或其他模块)产生并且可以被存储在用户行为数据库285中。用户配置文件包括与用户相关联的单元并且包括每个单元的相关性得分和包括每个单元的收入生成量。收入生成量可以是美元值或指数值,并且相关性得分可以具有从0到1(包括0和1)的范围(或其他有用的范围)。在图3的特定示例中,单元“light-duty truck”具有相对较高的收入生成量(或美元值)以及相对较高的相关性得分,而单元“pick-uptruck”、“truck”和“car”具有相对较低的收入生成量和相对较低的相关性得分。
图4A是根据本发明另一实施例的示例性用户配置文件,它可以由单元分级模块272(或其他模块)产生并且可以被存储在用户行为数据库285中。该用户配置文件包括与用户相关联的单元、每个单元的相关性得分、每个单元的收入生成量以及每个单元的总相关性得分。总相关性得分是一个单元对用户的相关性的量度,并且可能基于多个因素,例如收入生成量、相关性得分或其他量度。例如,总相关性得分可能基于收入生成量和相关性得分的加权线性组合。用于计算单元的总相关性得分的公式如下所述:
ORS=W*RGA+(1-W)*RS
其中,ORS是总相关性得分,W是加权因子,RGA是收入生成量并且RS是相关性得分。加权因子可以由提供基本内容的web服务器提供。例如,加权因子可在配置文件240中被提供给内容管理系统。每个web服务器可以提供不同的加权因子。例如,新闻实体可能提供这样的加权因子,该加权因子对相关性得分比对收入生成量给予相对更大的强调。这样的强调被给予相关性得分是因为新闻实体的用户可能对获得相关的新闻文章比对查看广告和基于新闻文章的内容进行购买更感兴趣。可替换地,音乐实体或电影实体可能提供这样的加权因子,该加权因子对收入生成量比对相关性得分给予相对更大的强调。例如,音乐实体和电影实体的用户更可能购买与关于音乐或电影的文章相关的音乐或电影。根据一个实施例,单元分级模块272被配置为在例如基于上述ORS公式的用户配置文件中的每个单元生成总相关性得分。
图4B是根据本发明另一实施例的用户配置文件的示例,它可以由单元分级模块272(或其他模块)产生并且可以被存储在用户行为数据库285中。该用户配置文件包括与用户相关联的单元、每个单元和与该单元相关联的那条附加内容的每次点击价格(PPC)、每个单元和与该单元相关联的那条附加内容的点击率(CTR),以及每个单元的相关性得分。具体而言,PPC包括用户选择(或点击)查看的每条附加内容的收入生成量,其中每条附加内容与用户配置文件中的一个单元相关联。此外,点击率包括用户查看一条附加内容(广告、链接等),选择(或点击)这条附加内容以查看与这条附加内容相关联的页面或站点(例如包括在这条附加内容中的链接(例如超链接)指向的页面或站点)的预测比率。用户配置文件还可以包括每个单元的收入生成量(RGA)及其相关联的那条附加内容。RGA可以是CTR和PPC的函数。例如,RGA可以是CRT乘以PPC(即RGA=CRT*PPC)。前述用于计算RGA的方法规定,虽然一个单元及其相关的一条附加内容具有相对较高的PPC,但是如果这条附加内容不具有高点击率,则RGA可能相对较低,从而提供相对较低的ORS=W*RGA+(1-W)*RS。可替换地,如果一个单元及其相关的一条附加内容具有相对较低的PPC,但是具有相对较高的CTR,则RGA可能相对较高,从而提供相对较高的ORS=W*RGA+(1-W)*RS。因此,收入生成量可以被相对优化,同时向用户提供相关的附加内容。CTR和RGA量可以基于对与一条附加内容相关联的页面或站点的统计上大量的页面访问(pageview)(例如1000个页面访问)。图4B所示用户配置文件还可以包括总相关性得分。
根据一个实施例,用户配置文件可以根据用户标识号290在用户行为数据库285中被索引。可以给每个用户分配一个唯一的用户标识号,该用户标识号可以随机地产生。用户标识号290可被存储在客户端浏览器20上的bcookie 295中。根据一个实施例,在每次用户经由客户端浏览器请求一条基本内容(例如网页)时,bcookie被从客户端浏览器20传送(例如在URL中)到一个或多个web服务器205,并被进一步传送到解析服务器。与bcookie一起提供的用户标识号可以被解析模块210或其他模块附加到用户配置文件(参见图3和4),以在用户配置文件被存储在用户行为数据库中时供用户配置文件索引之用。如果在基本内容被请求时,bcookie没有被从客户端浏览器传送到web服务器,则在基本内容被请求时,一个或多个web服务器可以产生客户端浏览器的用户标识号并将该用户标识号放在用户的客户端浏览器上的bcookie中。
根据一个实施例,与用户相关的附加内容230被一个或多个附加内容服务器215所提供。例如,附加内容可以由广告服务器300、赞助商链接服务器305、集成链接服务器310、内部链接服务器315或其他服务器提供。由广告服务器提供的附加内容可以具有广告(例如条幅广告)或指向广告的链接的形式。由赞助商链接服务器、集成链接服务器和内部链接服务器提供的附加内容可以具有到附加内容的链接的形式。链接可以包括URL,其中URL的目标指向要由这些服务器提供的附加内容。
更具体而言,赞助商链接服务器可以提供到赞助商站点和赞助商页面的赞助商链接。链接可以包括具有包括了赞助商的网页的目标的URL。赞助商(和广告商)通常购买这样的单元:在购买的单元处于用户配置文件中时,这些单元触发内容管理系统(例如web服务器)以请求将赞助商链接与web内容(例如基本内容、email等等)一起公布。集成链接服务器可以提供到处于外部服务器的相关内容或者与内容管理系统的提供者相关联的服务器上的相关内容的集成链接。集成链接可以不与收入生成相关联。例如,为了在页面上布置集成链接,触发页面上集成链接的布置的单元可以不被出售或许可。外部服务器可能不隶属于内容管理服务器200的提供者。例如,内容管理系统200的提供者可能是Yahoo!,而外部服务器可能是向Yahoo!提供新闻内容等的独立新闻代理的服务器。外部服务器可以被爬取(crawl)以建立相关内容和它们的单元的索引或数据库。内部链接服务器可以包括到与内容管理系统200的提供者(例如Yahoo!)相关联的web服务器205(例如Yahoo!实体服务器)的内部链接。Web服务器例如可以包括Yahoo!Launch、Yahoo!Finance、Yahoo!Movies、Yahoo!Health、Yahoo!News、Yahoo!Sports、Yahoo!Music、Yahoo!Weather或其他实体服务器。
根据一个实施例,每条附加内容230(从其识别相关内容)与至少一个单元相关联。例如,由广告服务器提供的每个广告、与赞助商链接相关联的每条内容、集成链接和内部链接都与至少一个单元相关联。可以将附加内容与一个或多个单元一起提供到解析传感器210,或者可以从附加内容或与附加内容相关联的信息中提取出单元。例如,广告商可以将单元和他们的广告一起提供以确保可能出现在用户配置文件中的购买的单元与同广告商的广告一起提供的单元匹配。没有同单元一起提供的附加内容可以被爬取以提取出单元。另外,链接的着陆页面可以被爬取以找出单元。而且,广告的着陆页面可以被爬取以找出单元。与广告相关联的归属页面也可以被爬取以找出单元。另外,用于广告和链接的URL可以被解析并且单元被从解析的URL中提取出。单元可以被索引和缓存在与各个附加内容服务器相关联的存储器或其他存储器中。根据一个实施例,解析服务器210或可以与附加内容服务器相关联的另一解析服务器可以被配置为从附加内容中提取出单元。附加内容服务器可以调度与解析服务器之间的指定,以使其附加内容被爬取以找出单元。调度可以是周期性的,或者可以在附加内容服务器生成新内容时被建立。
现在详细描述提供相关内容以及web内容,例如公共内容(例如基本内容)和/或私有内容(例如email、聊天室讨论等等)。图5是根据本发明一个实施例可能公布在客户端系统20的显示器上的示例性网页,并且包括基本内容235和相关内容230。基本内容可以包括新闻文章,例如关于音乐组合的新闻文章。基本内容可以由实体服务器提供,例如Yahoo!News或Yahoo!Music。相关内容可以包括一个或多个广告、赞助商链接、内部链接、集成链接等等。应该理解,图5所示网页仅仅是出于示例性目的而示出的,并且网页可以包括以各种格式(例如视频、音频、图片、文本等等)呈现在网页上的其他相关内容。
根据一个实施例,相关内容与用户相关联,或更具体而言,与用户请求一条基本内容时或之前的用户配置文件相关联。相关内容和用户配置文件之间的关联可以由单元匹配模块320生成。关联将用户配置文件链接到一条相关内容。关联可以是作为指向用户配置文件和相关内容的URL的数据基本链接。如果用户配置文件中的单元匹配与一条相关内容相关联的单元,则可以形成用户配置文件和这条相关内容之间的关联。例如,单元“light-duty truck”可能处于用户配置文件中并且可能与广告和一个或多个链接相关联。因为单元“light-duty truck”对用户配置文件和相关内容是公共的,因此在用户配置文件和相关内容之间建立了关联。根据另一实施例,如果用户配置文件和相关内容的单元处于相关单元的相同集合中,则在用户配置文件和相关内容之间形成关联。例如,一组相关单元可以包括单元“light-duty truck”、“pick-up truck”和“truck”。关联可以形成在包括单元“light-duty truck”的用户配置文件和包括单元“pick-uptruck”的广告之间,因为这些单元处于同一相关单元集合中。关联可被实时使用以提供web内容和相关内容。可替换地,用户配置文件和相关内容之间的关联可被缓存在用户行为数据库或其他存储器中,以用于向用户提供相关内容的快速检索。缓存的关联可被加盖创建日期和/或期满日期戳。上述一种或两种日期可被用作指示应在何时不再使用关联的指示符。
根据一个实施例,用户配置文件中的一个或多个单元被和与相关内容相关联的单元相比较,以确定这些单元是否匹配。例如,具有最高总相关性得分的单元可以和与相关内容相关联的单元相比较。或者,用户配置文件中具有大于等于阈值得分的总相关性得分的多个单元可以和与相关内容相关联的单元相比较,以确定这些单元之间是否存在匹配。提供具有相对较高相关性得分的单元的比较可以使得用户接收具有相对较高用户相关性并且可能生成广告商和/或赞助商的销售的广告。提供这样的比较还可以使得为服务提供商优化利润,因为具有相对较高用户相关性和相对较高收入生成量的广告被提供给用户。例如,收入生成量可以被大大优化,因为具有最高收入生成量或相对较高生成量但是具有相对较低用户相关性的广告不会被提供给用户。就是说,无论与广告相关联的收入生成量如何,具有高收入生成量,但是与用户不相关的广告可能不被选送用户,并且对于系统200(图2)的提供者不会生成收入。
根据一个实施例,针对与基本内容一起提供的相关内容累积点击率,并且基于点击率来改变基本内容和相关内容的网页呈现情况。这里所述点击率是在考虑到一条相关内容被提供给用户的次数的情况下,用户选择使用这条相关内容的次数。如果一条给定相关内容具有比另一条相关内容更高的点击率,则在随后公布的网页上,可以将这条给定的相关内容公布在更明显的位置上。例如,这条给定的相关内容可以在列表中被放在比其他相关内容更高的位置上。可替换地,当网页被公布时,这条给定的相关内容可以替换掉其他相关内容。
图6是根据本发明实施例用于基于用户查看的网页形成用户配置文件的步骤的高级流程图。该高级流程图仅例示包含本发明的实施例,而非限制由权利要求书叙述的本发明的范围。本领域普通技术人员将想到包含所示实施例的精神和范围的变化、修改和替换。在600,例如使用客户端浏览器的用户从web服务器请求一条基本内容。根据该请求,用户标识号被从存储在用户浏览器上的bcookie获取并在例如URL等中被传送到web服务器。如果bcookie不被传送到web服务器,web服务器中的一个或多个则在客户端浏览器上放置bcookie,以使bcookie包括分配给客户端浏览器的唯一的用户标识号。在605,用户请求的基本内容被解析,以生成经解析的基本内容并且从经解析的基本内容中提取出单元。单元可以基于一组单元提取规则和/或可能包括可能从解析的文本中提取出的单元的单元字典模块而被提取出。
在610,从经解析的基本内容中提取出的单元例如根据相关性得分(例如单元与用户相关性的量度)和/或收入生成量被分级。相关性得分可以根据一个或多个公式与收入生成量相比较,以向用户提供与用户相关的附加内容,从而无论附加内容是否与最高可能的收入生成量或相对较高的收入生成量相关联,都可能生成收入。想法是这样的,由于缺乏相关性而未被用户选择的附加内容可能生成很少的收入或不生成收入,无论附加内容是否与最高或相对较高的收入生成量相关联。此外,提供与用户高度相关但具有很小或没有收入生成值的附加内容也可能生成很少或不生成收入。一种大大优化收入的方法包括生成收入生成量与相关性得分的乘积,并且如果乘积在预定的窗口内,则提供附加内容。可被用于大大优化收入生成量的其他公式包括加权求和公式等等(如上所述)。本领域技术人员将知道用于优化收入生成的多种方法并且被考虑在本发明的范围和精神内。
根据某些实施例,单元根据总相关性得分被分级,总相关性得分可以是相关性得分与收入生成量的函数。在615,单元和它们的相关联的相关性得分和收入生成量被存储在用户行为数据库中的用户配置文件中。根据一个实施例,总相关性得分也被存储在用户配置文件中。用户配置文件可以基于从用户的bcookie提供到web服务器的用户标识号在用户行为数据库中被索引。根据一个实施例,除了从基本内容中提取出单元之外(或者可以不从基本内容提取单元),例如可以使用搜索引擎从用户搜索中收集单元,并且可以从与用户请求的主要内容相关联的相关内容中收集单元。
图7是根据本发明另一实施例用于基于用户查看的网页提供与用户相关的web内容和相关内容的步骤的高级流程图。该高级流程图仅示出包含本发明的实施例,而非限制由权利要求书叙述的本发明的范围。本领域普通技术人员将想到包含所示实施例的精神和范围的变化、修改和替换。
在700,例如使用客户端浏览器的用户从一个或多个web服务器请求一条内容。被请求的内容可包括公共内容或私有内容。公共内容可能包括例如无需密码保护、费用支付等而可由公众访问的web内容,例如网页等等。私有内容可包括带有个人性质的web内容(例如网页等等)并且可以通过密码、加密、付费访问来保护,或者可能处于“聊天室”“讨论组”中,这些web内容可能是带有私有性质的VOIP(因特网协议语音)、email发送、存储和/或接收或其他网络(例如因特网)使用。在705,一个或多个web服务器向一个或多个附加内容服务器(例如广告服务器、赞助商服务器、集成服务器、内部服务器等等)发布请求(例如以URL或其他格式),以向web服务器提供附加内容(例如广告、赞助商链接、集成链接、内部链接等等),从而使附加内容可以与请求内容的用户相关。
在710,附加内容服务器中的一个或多个向单元匹配模块发布请求以识别与用户相关的附加内容。在715,单元匹配模块被配置为将用户配置文件中的单元和与附加内容相关联的单元相比较,并且判断是否有任何单元匹配。根据一个实施例,单元匹配模块被配置为比较来自用户配置文件的具有最高总相关性得分的单元,或比较来自用户配置文件的具有大于等于阈值得分的总相关性得分的一个或多个单元。附加内容可以包括广告数据库服务器提供的广告、赞助商服务器提供的赞助商内容、集成服务器提供的集成内容和/或内部服务器提供的内部内容。赞助商服务器提供的赞助商内容、集成服务器提供的集成内容和/或内部服务器提供的内部内容可以被链接(例如URL,其目标是内容)指向。如果用户配置文件中的单元与附加内容中的单元匹配或基本类似(例如分配给一个共同集合),则将附加内容视为与用户相关的相关内容。一个或多个关联(例如数据库链接、URL等等)可被形成在用户配置文件和相关内容之间。形成的关联可以被用来向用户(例如使用客户端浏览器20的人类用户)提供相关内容。
在720,相关内容被与可能包括公共内容和/或私有内容的其他内容一起提供到用户。附加内容服务器可将附加内容提供到被配置为向用户的客户端浏览器提供相关内容的一个或多个web服务器。相关内容可以根据可用于内容管理系统的协议(例如超文本传输协议(HTTP)或现在使用的其他协议)被提供到web服务器和客户端浏览器。在任意给定时刻,web服务器、解析服务器和附加内容服务器可以表现为HTTP客户端或HTTP服务器,并且可以发送统一资源定位符(URL)来以HTTP或其他协议请求内容和接收内容。
先前在图6和图7中描述的步骤可以在用户请求基本内容时被实时执行。就是说,内容管理系统200可以在用户请求基本内容时,在用户配置文件和相关内容之间实时生成关联,并且相关内容和基本内容可以被提供到用户的客户端浏览器。可替换地,步骤可以被异步执行。就是说,内容管理系统200可以在用户内容和相关内容之间生成关联,并在接收用户对基本内容的请求之前缓存关联。缓存的关联随后可在用户请求web内容(例如基本内容、email内容等等)时被用来向用户提供相关内容。缓存的关联可在用户配置文件中被保存在用户行为数据库中或其他数据库中。
根据一个实施例,用户的用户配置文件中的每个单元与包括用于这些单元的类别信息的单元分类系统825(图8)相关联。类别信息(例如类名)标识出单元被分配到的单元分类系统中的类别。单元分类系统中的类别可被组织成“树”结构(图9),其中较高级类别833可以包括一个或多个较低级类别835的集合。单元在单元分类系统中可被分配到多个类别。例如,分配到较低级类别837的单元可被说成是被分配到任意包括该较低级类别的较高级类别833。单元分类系统可以是预定的系统,该预定系统可能是计算机生成的,人类生成的或其组合。单元可以由上述计算机、人或其组合以逻辑方式预先分配到类别。
解析服务器210(例如包含在解析服务器中的单元提取模块250)等被配置为将用户配置文件中的单元与分配给单元分类系统中的类别的单元相比较。如果用户配置文件中的单元与给定类别中的单元匹配或基本类似(例如同义词、派生词等等),则经由用户配置文件将用于该给定类别的类别信息与用户相关联。例如,该类别信息(例如类名)可以被存储在用户配置文件中。具体而言,解析服务器被配置为确定包括用户配置文件中的单元的“最低”级类别。最低级类别是单元分类系统的树结构中包括特定单元的分支上的最低类别。任意其他可能包括在最低级类别中的类别不包括该特定单元。例如,单元“light-duty truck”被分配到类别837(即最低级类别),因此也被分配到类别833,但是未被分配到包括在类别837中的类别839a-839d。
根据一个实施例,从附加内容230中提取出的单元或以其他方式与附加内容230相关联的单元被与单元分类系统中的类别中的单元相比较。如果一个类别包括与一条附加内容(例如广告、赞助商链接、集成链接和/或内部链接)相关联的单元,则该类别与该条附加内容相关联。
根据一个实施例,被用来标识类别的类别信息可以被放在内容元数据中或以其他方式与内容相关联。根据某些实施例,附加内容被预先与一个或多个类别相关联。预先关联可以由计算机系统或人类生成。
根据一个实施例,单元匹配模块320或其他模块被配置为将存储在用户配置文件225中的类别信息与用于多条附加内容的类别信息相比较。如果用户配置文件中的一个或多个类别与附加内容匹配,则附加内容被视为与用户相关,并且可以与用户请求的一条基本内容一起提供。因此,即使用户配置文件中的单元和/或关键字不匹配与附加内容相关联的单元和/或关键字,但是这些单元和/或关键字经由单元分类系统(更具体而言经由类别分配)彼此相关联,则附加内容仍旧可被标识为与用户相关并且可以被提供给用户。
分配给用户配置文件的类别可被分配相关性得分并且从而被分级为与分配给用户配置文件的单元相类似的用户相关性(如上所述)。例如,分配给单元的相关性得分可以被分配给包括单元的类别。可替换地,如果用户配置文件中的类别包括多个单元,用于该类别的相关性得分则可以是这些单元的相关性得分的函数(例如平均值)。如果用户配置文件中的一个或多个类别匹配附加内容的一个或多个类别,则可以使用最高分级(例如最高相关性得分)类别来选择提供给用户的附加内容。
收入生成量可被分配给与附加内容相关联的类别。单元匹配模块可以识别用户配置文件的匹配类别以及其类别具有最高收入量的附加内容。根据替换实施例,单元匹配模块可以使用考虑到用户配置文件中的类别的相关性得分和附加内容的类别的收入生成量两者的公式来向用户提供附加内容,以使收入生成针对与用户具有相对较高相关性的类别被大大优化。就是说,与用户具有相对较低相关性的附加内容不会仅因为该附加内容具有高收入生成量就被提供给用户。最终,如果用户对附加内容不感兴趣,则无论该附加内容是否具有相对较高的收入生成量,用户都可能不点击该附加内容,并且将可能从该附加内容生成很少收入或没有收入。
将会理解,上述示例和实施例仅仅出于示例性目的,并且将向本领域技术人员建议各种修改或变化,这些修改或变化将被包括在本申请的精神和范围内以及所附权利要求书的范围内。例如,虽然这里描述的内容管理系统的实施例被表征为包括查询处理引擎提供的单元字典,但是可以从其它源提供单元。另外,关键字和/或单元可被用于本发明的实施例,例如从基本内容中提取出关键字以生成用户配置文件,并且从相关内容中提取出关键字以用于关键字匹配模块的比较。例如参见图10,其示出内容管理系统200″,与上述被配置为使用单元的实施例相比,该内容管理系统200″包括关键字提取模块、关键字匹配模块、关键字字典模块和关键字匹配模块。
此外,虽然用户在这里被一般地描述为与处理对基本内容的请求的计算机的用户接口交互的人类用户,但是用户也可能是通过编程来生成对基本内容的请求的计算机进程或计算机系统。在后一情况下,发起请求的用户还可能通过编程处理对基本内容的请求结果,但是也可能由计算机进程和/或计算机系统发出对基本内容的请求,而人类用户是内容的最终接收者。因此,以上描述不应被视为限制由权利要求书限定的本发明的范围。