CN101449284A

CN101449284A - 使用互相关的流量参数对至网络站点的流量质量进行的评分

Info

Publication number: CN101449284A
Application number: CNA2007800184516A
Authority: CN
Inventors: 文森特·格兰威尔
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-03-20
Filing date: 2007-03-20
Publication date: 2009-06-03

Abstract

一种软件和/或硬件设备，用于对至可通过因特网或其他网络访问的站点的流量质量进行评分。所述设备可以产生训练集合数据，并使用训练集合数据来标识指示至站点的欺骗性流量的参数，并减小欺骗性流量对广告商和发布者的影响。所述设备可以通过对与流量相关联的各种参数进行评价，并确定指示至站点的流量质量的参数组合，来对至站点的流量质量进行评分。可以基于与一个或更多会话相关联的参数组合来对至站点的流量进行评分。较低的分数表示对发布者、广告商或第三方具有很小价值的流量；较高的分数表示具有较大价值的流量。

Description

使用互相关的流量参数对至网络站点的流量质量进行的评分

相关申请的交叉引用

本申请是PCT专利申请序列号No.US06/061704：2006年12月6日提出的Method and System for Scoring Quality of Traffic to NetworkSites和美国专利申请No.11/567,718：2006年12月6日提出的Methodand System for Scoring Quality of Traffic to Network Sites的部分中的延续，两者都要求2005年12月6日提出的美国临时专利申请No.60,742,860的优先权。本申请要求2006年3月20日提出的美国临时专利申请No.60/783,906和2006年3月21日提出的美国临时专利申请No.60/784,174的优先权，其全文结合在此作为参考。

技术领域

本申请公开的技术涉及对与网络站点相关联的流量的价值进行评估。

背景技术

数量日益增加的公司、代理机构、个人和其他方(总称为“广告商”)使用在线广告来向因特网或其他网络站点或服务的用户做广告。广告商从个人发布者或从向一个或更多发布者发布广告的广告网络购买广告空间。发布者或广告网络可以使用若干方法中的一种向广告商收费，包括每点击费用(cost-per-click)和每印象费用(cost-per-impression)。在每点击费用系统中，基于代理商点击该广告的次数来向广告商收费。当发布者向代理商显示广告时，除非代理商点击该广告，否则不向广告商收费。在每印象费用系统中，基于发布者向代理商显示广告商的广告的次数来向广告商收费。

点击欺骗，或对广告的欺骗性点击是使用每点击费用和其他支付模型的广告商和发布者关心的问题。类似地，印象欺骗，或在广告没有使人类用户形成印象的情况下的广告显示是使用每印象费用和其他支付模型的广告商和发布者关心的问题。点击或印象欺骗可以采取多种形式，包括由竞争者、网络机器人或具有个人或政治目的的用户来点击广告或向其显示广告。此外，在计算机用户不知情的情况下，广告或点击病毒可能自己安装在计算机上并产生对广告的点击或印象。欺骗性点击或印象不会产生广告商的收入或其他价值；然而，广告商必须为这些点击和印象付费。因此，点击或印象欺骗通过增加广告开销来损害广告商的利益，同时通过降低广告商从发布者感知到的流量价值来损害发布者的利益。

在减轻点击或印象欺骗问题的努力中，已经尝试创建用于检测点击或印象欺骗的系统。多数点击或印象欺骗检测系统以二进制的方式，将每次点击或印象分类为或“好”或“差”。发布者可以以多种方式来使用点击或印象欺骗检测系统的结果。在一些情况下，发布者可以从点击或印象总数中减去差的点击或印象，仅对好的点击或印象向广告商收费。然而，二进制点击或印象欺骗检测系统具有若干缺点。点击或印象可能无法很好地落入好或差的类别，或者，可能无法根据表示点击或印象的数据集来确定该点击或印象实际上是好的还是差的。因此，二进制方法不公平地表征了那些落在期间某处的点击或印象。此外，广告商可能对他们愿意接受的类型或流量具有不同的阈值。一个广告商可能将用户简单地查看其网站认为是有价值的事务；另一个广告商可能仅将购买认为是有价值的事务。二进制系统不能允许广告商设置确定其愿意向发布者付费的流量质量的等级。因此，如果拥有更精确的点击或印象欺骗检测系统以更好地评估至发布者站点的流量的价值，广告商和发布者之类可以从中获益。

附图说明

图1是用于对网络流量的质量进行评分的代表设备的框图，以及该设备操作于其中的环境。

图2是计算网络流量的质量的方法的流程图。

图3是计算用于评估流量质量的规则集和期望的代理商动作之间的相关性的方法的流程图。

图4是计算用于评估至网络站点的流量质量的规则集和期望的代理商动作之间的相关性的数据结构的框图。

图5是基于规则集对代理商动作进行评分的方法的流程图。

图6是产生训练集合数据的方法的流程图。

图7是标识与表征网络站点相关联的流量的相关参数的方法的流程图。

图8是用于标识与表征网络站点相关联的流量的相关参数的数据结构的框图，该数据结构是在处理表征流量的数据之前绘制的。

图9是用于标识与表征网络站点相关联的流量的相关参数的数据结构的框图，该数据结构是在处理表征流量的数据之后绘制的。

具体实施方式

以下描述对至可以通过因特网或其他网络访问的站点的流量质量进行评分的软件和/或硬件设备。该设备从由发布者、广告商或第三方获得的一个或更多服务器日志或其他数据源中提取会话数据或表示代理商与服务器的交互的信息。此外，该设备可以从协助解释代理商与服务器的交互的外部数据源获得补充数据。该设备对会话数据应用以规则集的形式的多因素分析。对会话数据的分析标识了发布者、广告商或第三方所期望的代理商动作。发布者、广告商或第三方所期望的代理商动作包括对发布者、广告商或第三方产生价值的任何活动，如点击、转换(例如购买)、提交表、对站点标记书签、转滚事件、印象、或用户的其他活动。对每个代理商动作或总计数量的代理商动作，该设备基于该代理商动作是否是发布者、广告商或第三方所期望的来产生相关的分数。可以使用该分数来评估由网络站点接收的流量的质量。较低的分数表示欺骗、疑似欺骗或否则表示具有很小价值的非生产性流量，而较高的分数表示具有所期望的特性从而具有较高价值的流量。

在一些实施例中，可以向发布者或发布广告的网络提供该设备产生的分数。发布者或广告网络可以使用出于多种目的来使用该分数。例如，发布者或广告网络可以基于广告接收的流量的分数，来选择使用向广告商收取可变量费用的定价方法。发布者或广告网络可以决定不向低于特定阈值的流量收费。例如，期望推销其流量的高价值的特定站点可以选择仅对具有反映较低的欺骗可能性的分数的流量进行收费。此外，实时接收分数的发布者或广告网络可以决定不向具有指示该代理商拥有较高欺骗风险的分数的代理商显示广告。

在一些实施例中，可以手动地确定该设备用于产生分数的规则集。用于确定代理商动作的期望的规则可以包括代理商的物理位置、代理商的浏览习惯、代理商输入的搜索项目、对每个代理商动作向广告商收取的费率、代理商所来自的网络拓扑以及其他特性。该设备也可以基于给定的代理商、广告商、发布者或其他特征的特点之间的相关性以及与所产生的该特定相关联的欺骗性流量的测量，来自动地确定规则。可以产生针对不同的环境而优化的不同规则集。在每个规则集中，可以对每个规则加以不同的权重，以产生构成规则集的规则的最优组合，如果规则在环境中不能很好地工作，则可以选择性地去除规则。

在一些实施例中，该设备产生训练集合数据，用于对至网络站点的流量质量进行评分。该设备设计并执行一个或更多试验广告活动，其中每个都可能吸引欺骗性或非欺骗性的代理商。该设备接收与该广告活动所产生的会话流量相对应的一个或更多服务器或其他数据日志。该设备对服务器日志进行标准化，并将服务器日志数据放入统一的格式中。该设备从落至正常范围之外的标准化服务器日志数据中选择会话。在这些所选会话中，进一步标识出会话群，每个群被表征为表示欺骗性、非欺骗性或未知的流量。对每个群应用误报检测(false-positive detection)算法，消除错误地被标识为指示欺骗性或非欺骗性流量的那些群。该设备将被标识为指示欺骗性或非欺骗性流量的群添加入训练集合。可以如此处所描述的来使用训练集合数据，以标识指示欺骗性流量的流量参数。

在一些实施例中，该设备通过对与至站点的流量相关联的各种参数进行评价，并确定指示至站点的流量质量的流量阐述的组合，从而对值网络站点的流量质量进行评分。该设备接收表示与一个或更多网络站点相关联的会话流量的服务器日志数据或其他数据源。该设备选择已经被标识为对网络站点在统计上有效的n个规则，每个规则测量一个或更多流量参数。该设备对与会话相关联的数据应用每个规则，并产生每个规则的结果。针对特定的会话的所有规则结果的组合被称为结果向量。该设备使用具有多个行的关联表，其中每一行表示规则结果的唯一组合(即唯一的结果向量)。该设备将对每个会话产生的结果向量映射至关联表中的对应行，并记录与该会话相关联的事务是欺骗性的还是非欺骗性的。对每个结果向量计算欺骗几率比，该欺骗几率比表示具有特定结果向量的欺骗性会话与具有不同结果向量的会话的对比情况。当已经处理了足够的会话数据时，该设备解析该关联表来标识具有最高欺骗几率比的那些结果向量。可选地，该设备可以通过对该设备尚未处理的流量应用由结果向量表示的规则来与所标识的结果向量交叉验证。该设备可以仅保留产生一致结果(即指示类似的欺骗性事务的比例)的那些规则组合。当该设备接收到新的流量时，该设备可以将所产生的流量的结果向量与关联表中的对应行和相关联的欺骗几率比进行匹配。因此，该设备可以估计出该新流量是否以及在何种程度上可能表示欺骗性或非欺骗性的事务。

以下描述提供了该技术的各种实施例的整体解释和实现描述的具体细节。本领域技术人员将理解，没有这些细节也可以实现该技术。在一些实例中，不对众所周知的结构和功能进行说明或描述，以避免不必要地是该技术的实施例的描述变得模糊。对于以下所呈现的描述中使用的术语，即使与该技术的特定实施例的具体描述结合使用，也应以其最宽的合理方式来解释。虽然以下可以强调特定的术语，但是，希望以任何限制方式来解释的任何术语将在本具体实施方式部分明显而具体地定义。

I.概述

图1是示意了流量评分设备100的组件和该流量评分设备在其中操作的代表环境的框图。流量评分设备100从发布者、广告商、代理商和/或其他方提取数据，以产生由网络可访问站点(以下称为“发布者站点”)所接收的流量质量的相对分数。所产生的分数至该站点的流量的价值相关，该价值由与该站点相关联的一个或更多方来表征。例如，发布者站点可以是显示在线广告的站点，该站点上的期望代理商可以是从查看广告中获益的人类用户，而不是机器人流量或具有欺骗性意图的人类用户。因此，该设备产生的分数可以与代理商是具有非欺骗性意图的人类用户的可能性相关。

发布者站点包括发布者服务器105和服务器日志125。发布者服务器105为一个或更多页面120服务，该页面包含针对与该站点交互的代理商的内容。代理商是与该站点交互的任何人、软件实体或设备，包括但不限于：人类用户、具有欺骗性意图的人类用户、机器人、广告或点击病毒、或不正确的操作软件。服务器日志125存储与该代理商与发布者服务器105的交互相关联的会话数据。发布者站点105可以是可通过网络访问的任何类型的站点，如搜索引擎站点、目录站点、新闻或其他内容站点、社交网络站点、图片共享或其他服务站点、或任何其他在线器材。

典型地，发布者站点包括或利用广告服务165的服务来填充其使用一个或更多广告来产生的发布者页面120。广告商180可以以各种方式购买发布者站点上的广告布放。例如，广告商可以从广告服务165中购买与广告商提供的产品和/或服务相关的关键字。在所示的环境中，广告服务165产生广告列表122。该列表可以通过将搜索查询或内容页面的关键字与在其广告数据库170中的广告商-关键字配对进行匹配而产生。可以在发布者页面120上显示(通常在发布者站点提供的内容上方或旁边)广告服务165所产生的广告列表122。

当代理商执行与发布者页面120上显示的广告相关联的动作时，该代理商被引导至广告商站点135。一旦来到广告商站点，该代理商可以如通过查看内容、购买产品或服务以及其他活动来与该站点交互。随着代理商与广告商站点交互，标识代理商动作的数据被存储在服务器日志140中。如这里所描述的，可以利用服务器日志中的数据来表征代理商与广告商站点的交互的价值。

当向代理商显示广告时，广告服务165维护该代理商动作的记录，可以针对代理商动作来向广告商收费。例如，如果广告服务依赖于每点击费用模型，则可以针对代理商在广告上的点击来向广告商收费。如果广告服务依赖于印象模型，则可以针对每次向代理商显示广告来向广告商收费。周期性地，计费组件175可以从广告商的帐户上扣除与代理商动作数量乘以该代理商已同意为每次代理商动作所支付的值相等的量。本领域技术人员可以认识到，广告商可以对其广告花费设置各种限制，如设置要为每次代理商动作支付的最大量，或设置要在特定时间段内支付的总计量。

在大多数情况下，通过网络130(如因特网)至发布者服务器105的流量对发布者和在发布者站点上做广告的广告商是有价值的。例如，人类用户145可以与发布者服务器105交互，并执行与其所感兴趣的广告相关联的动作，这导致了广告商的金钱或其他收益的可能性。不幸的是，至发布者服务器105的流量中的一部分可能来自对发布者或广告商没有价值的源。例如，机器人150可以到达发布者站点，并点击广告以搜索电子邮件地址或其他数据。这样的机器人流量增加了发布者站点的负载，同时不能产生对广告商有价值的流量。例如，个人可以点击竞争者(那些具有与其相反的个人或政治目的竞争者)的广告或导致竞争者广告的显示，或使用其他手段，这些意在耗尽广告商的广告预算。欺骗性流量155不产生对广告商有价值的流量，而且，对发布者也仅有很小的价值。

为了减小欺骗性流量对广告商和发布者的影响，流量评分设备100可以由发布者或广告商来操作，或作为服务提供给发布者或广告商。可以向流量评分设备100提交来自服务器日志或其他源的数据。也可以直接从发布者服务器105实时地向流量评分设备100提交数据。如这里特别详细地描述的，流量评分设备对接收到的数据应用数据存储器160中存储的一个或更多规则集来产生分数，该分数基于每个代理商动作或基于总计的代理商动作来表征流量。该分数反映了流量的预测价值，即可能有价值的“好”的流量将收到较高的分数，而可能仅有很小价值的“差”的流量将收到较低的分数。

一旦对单个代理商动作或对一组代理商动作计算了分数，流量评分设备100可以将该分数提供给广告服务的计费组件175。广告服务可以以各种方式利用该分数。例如，广告服务可以选择使用基于其广告所收到的流量分数来向广告商180收取可变量费用的定价方法。对具有较高分数的流量，可以以较高的费率向广告商收费，而对具有较低分数的流量，可以以较低的费率向广告商收费。可选地，发布者可以同意不对不超过特定分数的流量向广告商收费。按照这种方式，广告商能够更好地控制其所做广告的流量质量。此外，广告商可以基于其接收的流量质量来确定是否继续使用广告服务165或特定的发布者。基于其收到的流量的分数，广告商也可以决定对其从广告服务165购买的关键字或对其布放广告的方法做出调整。此外，广告商或发布者可以使用该分数来评估由低质量流量所导致的收入的损害或损失。

如上所述，流量评分设备100利用数据存储器160中存储的一个或更多规则集来对广告接收的流量质量进行评级。在训练阶段，该设备分析一个或更多环境中的流量，并选择可以用于对每个环境中的流量进行评分的最优规则集(“环境规则集”)。在评分阶段，对环境中的流量应用环境规则集来对该环境中的流量评分。以下描述这些阶段中的每个阶段。

II.训练阶段

图2是用于产生和验证可以用于评估各种环境中的流量价值的规则集的过程182的流程图。在框184，产生全局规则集。该全局规则集中的每个规则是接收与代理商会话相关联的一个或更多参数作为输入的表达式。当该设备对输入参数应用规则时，该规则产生的结果反映了与该代理商会话相关联的代理商动作的价值。规则可以测量代理商活动，包括代理商点击广告的速度(即速率)、代理商花费在广告商站点上的时间、或代理商输入的作为搜索项目的关键字的长度或数目。规则也可以测量代理商的其他特性。例如，一个规则可以存储IP地址并维护产生低质量流量的IP地址的“黑名单”。该黑名单可以包含IP地址、源自这些IP地址的流量所产生的分数、以及其他细节。该设备可以通过参考黑名单来对与新代理商相关联的IP地址进行评价。可以对IP地址在黑名单上的代理商进行合适的评分，可以基于代理商IP地址和被列入黑名单的IP地址之间的数字距离的函数来对IP地址与黑名单上的IP地址紧密接近的代理商进行评分。规则也可以测量发布者和广告商的特性，包括发布者位于广告网络层级中的何处，或对与广告相关联的每个代理商动作向广告商收费的费用量。与发布者分发伙伴相关的精密的规则可以测量大于与该发布者相关联的IP地址的特定百分比(例如>80％)是否具有与那些在接收到来自该分发伙伴的点击的日子所测量的IP地址相关联的多个用户代理商。这样的特性通常指示对广告商仅有很小价值或没有价值的流量。

可以以如下方式来表达规则集中的每个规则：即允许以二进制形式来应用规则并表达结果(即满足规则则为“1”，或不满足规则则为“0”)。例如，可以由代理商的物理位置来定义规则，如果该代理商的物理位置在美国，则结果为“1”，如果该代理商的物理位置不再美国，则结果为“0”。可选地，可以以如下方式来表达规则：即使得结果被表达为具有从0至N变化的值(例如，当N等于4时，结果可以取0、1、2、3或4的值)。

可以以各种方式来产生全局规则集。例如，流量评分设备的操作者可以基于所观察到的欺骗性流量的模式来手动地选择全局规则集。该设备也可以自动产生规则，使其标识与欺骗性流量相关的环境特征。全局规则集中的规则总数可以在几十至几百或更多的范围内设置。全局规则集不是静态的，而是可以随时间补充和修改。可以从全局规则集中去除无效的规则，正如可以由于产生或发现新规则有益而加入新的规则。

一旦产生了全局规则集，在框186，该设备选择表示特定环境中的流量的流量数据集。环境可以是具有共享类似特性的流量的任何站点、资源或服务。例如，环境可以是显示广告与搜索结果结合的搜索网站、销售广告商的产品的电子商务网站、或为其他人提供各种服务的内容提供者。流量数据集合可以以服务器日志、日志文件或允许对与该流量相关联的各种参数进行评价的其他数据格式。在实际流量不可用的事件中，可以使用被认为反映了实际数据的训练数据集合。可选地，如果没有其他代理商动作数据可用，则可以使用缺省训练数据集合。

在框188，该设备分析全局规则集，以对全局规则集中的每个规则，估计其预测所选环境中的流量有价值的可能性的能力。这就是说，当对与环境相关联的流量应用规则时，针对每个结果排列，确定发生期望代理商动作的可能性。图3是流量评分设备100实现以确定全局规则集中的每个规则与期望代理商动作之间的相关性的过程200的流程图。作为分析的一部分，该设备可以依赖于广告商或发布者所创建和维护的一个或更多服务器日志或其他数据源，以及第三方提供的可以用于进一步表征或增强服务器日志中的内容的一个或更多外部数据源。在框205，流量评分设备100接收服务器日志，该服务器日志可以是广告商服务器日志140或发布者服务器日志135。在判决框208，该设备在其中确定是否有可以用于分析的其他相关服务器日志。如果存在其他服务器日志，在框210，检索相关服务器日志并将其与第一服务器日志协调。在判决框215，流量评分设备确定是否有可以协助解释服务器日志的补充外部数据。补充外部数据可以包括来自广告商的关于转换(例如购买)或其他期望代理商动作是否发生的信息、来自发布者的如对广告表现的统计信息之类的信息、与IP地址的地理映射相关的信息以及其他类型的信息。如果有补充外部数据，则处理继续至框220，在其中检索外部数据。

一旦检索到服务器日志和任何补充外部数据，该设备继续至框235，在其中使用补充外部数据来增强服务器日志。例如，由于在代理商从发布者站点转移至广告商站点之后发生了转换，则从发布者检索到的服务器日志可能不包含关于转换是否发生的信息。该数据仅可以从广告商得到。为了利用服务器日志数据来确定会话和转换之间是否存在相关性，可以视通从广告商检索到的关于转换是否发生的数据来增强来自服务器日志的数据。作为另一个示例，在与特定代理商相关联的IP地址已知的情况下，IP地址可以与地理数据库相关来确定正在访问站点的代理商所来自的大致地理区域。可以使用许多类型的补充外部数据来增强从服务器日志接收到的数据。

在框245，该设备从由补充外部数据增强的服务器日志数据中选择单个会话。会话可以被定义为服务器日志或指示代理商与网络站点的交互的其他数据源中的一个或更多条目。会话可以不包含点击，包含在代理商与该网络站点交互时所发生的一次点击或多次点击，会话可以跨越一个时间段内(例如一小时内、24小时内)对该网络站点的一个或更多访问。本领域技术人员可以认识到，由于许多原因，标识单个代理商会话是较为困难的，原因包括代理商通常共享IP地址或会话标识符、唯一代理商可能具有改变的IP地址、以及其他原因。因此，为了标识单个代理商会话，该设备可以应用一个或更多算法。在简单的代理商ID算法下，可以使用代理商的IP地址的前3个字节结合服务器日志所标识的用户代理商ID来标识代理商。在高级的代理商ID算法中，可以使用以下的结合来标识代理商：服务器日志所标识的用户代理商ID、与IP地址相关联的域名的最后两个部分(或者，如果找不到域名，则使用IP地址的前两个字节)、以及(在有两个或更多代理商动作的情况下)代理商动作之间过去的时间。通过解析服务器日志来标识服务器日志中所有满足算法的条目，该设备能够产生服务器日志中可能与特定代理商相关联的动作的子集。

一旦选择了代理商的单个会话，在框250，该设备确定该会话是否产生期望的代理商动作。期望的代理商动作是由对广告商产生价值(如金钱或其他收益)的代理商执行的动作。可以由产生流量分数的一方或由将接收流量分数的一方来定义期望的代理商动作。例如，如果期望由代理商执行的动作是购买产品或服务，则可以将期望的代理商动作定义为为产品或服务付费。作为另一个示例，如果期望由代理商执行的动作是查看特定的媒体片断，则可以将期望的代理商动作定义为在会话期间将媒体内容下载至代理商。作为又一个示例，期望的代理商动作可以是点击向代理商显示的广告。可以全局地将期望的代理商动作识别为对一大组各方有利(例如从零售商或人类用户购买产品)，或较窄地识别为对单方有利(例如在制作电影的电影工作室的站点查看新电影的预告片)。

对于全局规则集中的每个规则，在框260，该设备对与单个会话相关联的数据应用规则，并确定结果(例如，在上述二进制示例中的“0”或“1”)。在框265，该设备将结果存储在表中。图4是其中可以存储结果的代表表300的框图。表中的每一行310a，310b，...，310n与全局规则集的一个规则相对应(即从规则₁至规则_n)。表中的前4列用于记录将每个规则应用至会话数据的结果。列315a和315b与产生期望代理商动作的会话相对应。列315a反映了当规则的结果为“0”(即不满足规则)时发生的期望的代理商动作。列315a反映了当规则的结果为“1”(即满足规则)时发生的期望的代理商动作。在每一列中维护了计数，增大该计数来反映结果落入该列中。列320a和320b与不产生期望代理商动作的会话相对应。列320a反映了当规则的结果为“0”(即不满足规则)时未发生期望的代理商动作的会话。列320a反映了当规则的结果为“1”(即满足规则)时未发生期望的代理商动作的会话。每一次分析会话时，增大列中的计数来反映结果。例如，图4示出了针对行310a中存储的10000个代理商会话的规则₁的结果。虽然在表300中仅示出了4列来反映应用规则的结果，但是，本领域技术人员可以认识到，列数可以是反映规则的潜在结果数目的任何数目。例如，具有3个结果(“0”、“1”或“2”)的规则可能需要6列——3列用于产生期望代理商动作的会话，3列用于未产生期望代理商动作的会话。虽然图4绘出的表的内容和组织被设计为使其对读者更容易理解，但是，本领域技术人员可以认识到，该设备用于存储这些信息的实际数据结构可以不同于所示的表。例如，可以以不同的方式来组织该表，该表可以包含比所示的更多或更少的信息，该表可以被压缩和/或加密，并可以以各种方式来进行优化。

返回图3，在框270，该设备进行测试，以确定全局规则集中是否有任何更多规则要应用。如果存在另外的规则，则处理循环返回框255来处理列表中的下一规则。如果不存在另外的规则，则处理继续至判决框275。

在判决框275，该设备确定服务器日志中是否还有另外的会话要处理。如果存在另外的会话，则该设备返回框245来选择日志中的下一会话。从而，框245至270所定义的过程被重复必要的次数，以处理服务器日志或其他数据日志中所反映的所有代理商会话的会话信息。如果在框275没有另外的会话还要处理，则处理继续至框280。

在一些实施例中，仅对服务器日志中与点击或印象相对应的那些条目应用规则集。服务器日志中与点击或印象相对应的条目可以被称为原子会话。在所述的实施例中，仅对每个原子会话应用规则集中的每个规则。这样的规则集应用在对广告的点击或印象进行评分的情况下尤为有利。

一旦处理了所有会话，在框280，该设备计算相关系数，该相关系数表示由规则所测试的会话参数指示期望代理商动作的可能性。为了计算相关系数，对表300中存储的会话结果应用算法。在一些实施例中，必须测量统计上有效数目的代理商动作，以产生满足规则的会话和不满足规则的会话，以便计算相关系数。如果满足规则的代理商动作少于特定数目，或可选地，不满足规则的代理商动作少于特定数据，则将相关系数设为零。换言之，如果规则几乎总是满足或总是不满足，则该规则可能不是所选环境中期望代理商动作的较好预测值。在一些实施例中，对于要计算的相关系数，规则必须参数统计上有效数目的期望代理商动作和非期望代理商动作。如果所有代理商动作都有价值，或可选地，没有代理商动作有价值，则将相关性设为零。换言之，如果期望代理商动作总是发生或总是发生，则该规则可能不是所选环境中期望代理商动作的较好预测值。如果从满足规则和期望代理商动作的观点对代理商动作的有效数目进行测量，则可以对该规则计算相关系数。对于每个规则，可以根据以下等式(1)来计算相关系数：

coefficient ({rule}_{X}) = \frac{val_and_rule_satisfied ({rule}_{x}) - (val ({rule}_{x}) \cdot rule_satisfied ({rule}_{x}))}{\sqrt{val ({rule}_{x}) \cdot rule_satisfied ({rule}_{x}) \cdot_non_val ({rule}_{x}) \cdot rule_not_satisfied ({rule}_{x})}}

其中，val_and_rule_satisfied是代理商动作总数中发生期望代理商动作并满足规则的百分比(即落入列315b中的代理商动作的百分比)；val是代理商动作总数中发生期望代理商动作的百分比(即落入列315a或315b中的代理商动作的百分比)；rule_satisfied是代理商动作总数中满足规则的百分比(即落入列315b或320b中的代理商动作的百分比)；non_val是代理商动作总数中未发生期望代理商动作的百分比(即落入列320a或320b中的代理商动作的百分比)；rule_not_satisfied是代理商动作总数中满足规则的百分比(即落入列315a或320a中的代理商动作的百分比)。当规则的结果是二进制(即“0”或“1”)，且期望用户动作的发生是二进制(即用户动作或发生或不发生)的情况下，可以应用该相关性等式。在其他情况下，可以使用合适的修改或不同的相关性等式。对每个规则的相关系数计算的结果存储在表300的列340中。

虽然公开了用于计算相关系数的特定算法，但是，本领域技术人员可以认识到，可以使用各种不同的算法来确定每个规则可以多好地预测由该规则表征的流量是有益的(例如，将产生期望代理商动作)还是有害的(例如与欺骗性流量相关联)。由于相关系数提供了更健壮的方法，因此可以使用相关系数而不是回归系数(通过对数回归来计算)。这就是说，当因变量高度相关时，对数回归方法是较差的选择。这里描述的相关方法可以被视为一种脊状回归(ridge regression)，其中回归系数受限并必须具有与规则相关性相同的符号。

在计算了相关系数之后，在框285，该设备确定该相关系数是否对所选环境在统计上有效。该设备通过仅选择具有超过特定百分比的相关系数的那些规则来进行该确定。例如，该设备可以仅保留那些具有超过75％相关系数的规则作为与环境相关联的规则集(以下称为“环境规则集”)的一部分。如果对相关系数的分析指示其对所选环境不是统计上有效的，则从该环境规则集中除去该规则。对于每个规则，表300中的最后一列345包含标志，该标志可以被设置为“0”或“1”的值。一旦该设备在框285确定了该相关系数是否统计上有效，就将结果存储在列345中。如果规则具有统计上有效的相关性，则列345中该规则标志值将设为“1”。如果规则不具有统计上有效的相关性，则列345中该规则标志值将设为“0”。只有那些规则标志值为“1”的规则(即那些统计上有效的规则)才用于确定所选环境中的流量的分数。因此，在针对特定环境的规则集中，保持了对该环境执行较好的规则，而丢弃了对该环境执行不好的规则。

返回图2，在框190，该设备存储针对特定环境的环境规则集(包括环境规则集中的每个规则的相关系数)，使得其可以被再次使用，而不必重新执行图3和4所示的过程。在存储了环境规则集之后，该设备继续至框192，以确定是否有应对其产生环境规则集的另外的环境。如果有另外的环境，则处理循环至框186以处理下一个环境。一旦完成了训练阶段，该设备就已产生并存储了对每个所标识的环境的规则集。按照这种方式，可以对每个发布者、广告商或其他特性，或其结合产生唯一的规则集。每个规则集将反映该环境所接收的流量的预测参数。

III.评分阶段

一旦在训练阶段针对环境确定了规则集，就可以在评分阶段中使用该环境规则集来对至该环境的未来的流量进行评分。图5是示意了为与代理商与网络站点的交互相关联的新的代理商动作计算分数的过程500的流程图。在框505，该设备接收流量数据集，该流量数据集反映代理商与特定环境的交互。如上所述，流量数据集可以采取以下形式：服务器日志、日志文件或允许对与流量相关联的各种参数进行评估的其他形式的数据。如训练阶段中一样，所接收的流量数据集可以与任何补充外部数据或与所接收的流量数据集相关的任何其他流量数据集相协调。在框510，该设备标识该流量数据集所关联的环境。基于发布者、广告商、代理商和/或环境的其他特征来标识环境。一旦标识了环境，在框515，该设备选择针对所标识的环境而存储的环境规则集。如果对所标识的环境没有环境规则集可用，或如果该设备不能可靠地标识该环境，则该设备可以使用缺省规则集。

一旦选择了环境规则集或缺省规则集，在框525，该设备对流量数据集中每个会话应用环境规则集，以产生会话分数。为了产生分数，该设备应用一种算法，该算法产生环境规则集中的所有规则的相关系数的函数之和。该算法可以由以下等式(2)来表示：

score = Σ_{j = 1}^{n} f (c_{j}) r_{j}

其中，在环境规则集中有n个规则，f(c_j)是规则集中每个规则的相关系数，r_j是规则的结果。等式(2)所计算的分数产生了与会话价值相关的分数；较高的分数指示较有价值的代理商动作，而较低的分数指示较无价值的代理商动作。以这种方式计算的流量分数导致流量价值的更精细的估计，这对于发布者和广告商有更大的益处。

在等式(2)中，对规则集中的每个规则加以相等的权重。在一些实施例中，如果在预测期望代理商动作是否将发生时，一些规则确实比其他规则更好或更差，则可能希望分别对这些规则加以比其他规则更多或更少的权重。在这种情况下，可以不同地对每个规则进行加权，例如通过在执行求和之前将规则乘以系数。加权算法可以由以下等式(3)来表示：

score = Σ_{j = 1}^{n} K_{j} f (c_{j}) r_{j}

其中在环境规则集中有n个规则，K_j是应用至规则的权值，f(c_j)是每个规则的相关系数，r_j是规则的结果。可以使用从较小的预选值集合中选择的值来对每个规则进行加权，可以针对特定的环境对每个规则进行优化。

一旦对流量数据集中的每个会话产生了会话分数，在框535，该设备可以聚集所有会话分数来产生针对流量数据集的全部或部分的分数。因此，可以对发布者或广告网络接收的所有流量计算总计分数，或可以针对由单个广告商、发布者分支机构或其他组定义的更有限的环境来计算总计分数。按照这种方式，可以针对发布者会广告网络全局地确定流量质量，或可以基于每个发布者分支机构、广告商或其他组来确定流量质量。

一旦该设备计算了分数(针对单个会话、流量数据集的一部分或整个流量数据集)，可选地，可以将该分数归一化，以将其放入广告商和发布者更容易理解和使用的形式中。在框540，该设备可选地对分数进行归一化，使得分数落入标准的范围中。例如，可以对分数进行归一化，使其总是落入300至800的范围中。当以这种方式进行归一化时，由于分数的规模具有更大的意义，因此，可以更容易地对分数中每个增量改变做出反应。例如，在归一化分数中特定点的改变(例如降低50点，如从650降至600)可以与代理商动作中对广告商有价值的部分的特定改变相对应(例如，代理商动作中对广告商有价值的部分减少了50％)。也可以将分数转换为非数字的尺度，如A+、A、B+等尺度，、这样的尺度有利于对分数的更好的理解和简单的使用。通过为流量提供分等级的分数，该设备显著提高了发布者和广告商使用分数来评估流量价值的能力。

IV.训练集合的创建

图6是产生训练集合数据的过程600的框图，该训练集合数据可以用于协助对至网络站点的流量质量进行评分。在框605，该设备设计试验广告活动，每个活动被设计为吸引欺骗性或非欺骗性的代理商。可能吸引欺骗性代理商的试验广告活动可以包括在第三或第四层搜索引擎或分发伙伴站点上购买广告空间。这些站点通常对增加其收入感兴趣，即便牺牲广告商的利益。他们可能参与产生与广告相关联的欺骗性代理商动作(如通过使用自动机器人代理商)。可能吸引非欺骗性代理商的试验广告活动可以是与广告相关联的代理商活动不导致产生收入的活动。由于不进行支付，欺骗的动机较低。试验广告活动可以由人或自动装置来开发。

一旦设计了试验广告活动，在框610，该设备执行该活动。根据广告活动的限制，在网络站点上张贴广告。当代理商执行与网络站点上显示的广告相关联的动作时，将该代理商引导至广告商站点。一旦来到广告商站点，代理商可以与站点交互，如通过查看内容、购买产品或服务以及其他活动。随着代理商与广告商站点交互，将会话数据或标识代理商动作的数据存储在服务器日志中。

一旦广告活动完成，或在该设备确定的另一个间隔，在框615，该设备接收服务器或其他数据日志。在框620，该设备对服务器日志进行标准化，并将服务器日志中包含的数据放入统一的格式中。可以从标准化的服务器日志中提取概括统计特性。例如，可以基于不同的会话特性，如IP地址、代理商、分发伙伴或其他会话特性来概括数据。在框625，该设备从具有落至正常范围之外的概括统计特性的标准化服务器日志数据中选择会话。例如，该设备可以选择低于特定百分比(例如百分之一或百分之五)的会话、高于特定特定百分比(例如百分之99或百分之95)的会话、或两种皆选。所选的会话表示最大或最小欺骗性的代理商动作。

在框630，从框625标识的所选会话中，该设备选择具有类似统计特性的会话群。可以通过构造一个或更多n维图来确定群，其中n是期望的规则数目。如上所述，每个规则是接收与代理商会话相关联的一个或更多参数(如IP地址、一天中的时间和其他参数)作为输入的表达式。当该设备对输入参数应用规则时，其产生的结果反映了与该代理商会话相关联的代理商动作的价值。例如，如果该设备对由规则1和规则2这两个规则定义的群感兴趣，则该设备可以构造2维图，其中规则1被映射在X轴上，规则2被映射在Y轴上。将所选会话映射至该2维图上，选择那些映射点在图中聚集在一起的会话。对规则的一个或更多重新排列执行聚集分析。例如，在上述示例中，可以构造附加的1维图来评价由规则1和规则2中的每一个定义的群。如果需要由3个规则定义的群，则可以构造3维图来评价由规则1、规则2和规则3定义的群。可以构造附加的2维图来评价由规则2和规则3以及由规则1和规则3定义的群。一旦选择了群，在框635，将每个群表征为表示欺骗性流量、非欺骗性流量或未知。对群的分类可以由人进行或可以自动进行。对于未知群指示了欺骗性还是非欺骗性流量的那些群，执行进一步的分析。该分析可以由人进行或可以自动进行。

在块630，该设备可以使用一个或更多算法来检测群。每个算法可以将所检测的群与该群指示欺骗性或非欺骗性流量的概率一起返回。例如，算法可以指定所标识的群以90％的确定度表示欺骗性活动。该设备可以选择由算法标识为具有最高确定度的群。例如，如果算法1检测第一群，并指定该群以90％的确定度指示欺骗性流量，而算法2检测第二群，并指定该群以80％的确定度指示欺骗性流量，则由于第一群具有对其指示欺骗性流量的更高的确信度，因此该设备将选择第一群。

一旦已经将群标识为欺骗、非欺骗或未知，在框640，该设备应用误报检测(false-positive detection)算法。误报检测算法可以可以由人应用或可以自动应用。在一些实施例中，可以首先由自动程序来应用误报检测算法，然后由人对自动程序未解决的那些群应用该算法。误报检测算法的目的是消除错误地被确定为指示欺骗性或非欺骗性流量的那些群。为了检测这样的误报结果，该算法可以再检查会话统计特性、原始服务器日志数据和其他数据源，包括由第三方提供的数据。

在框645，将由误报检测算法证明的群添加入训练集合。其目的是使用该设备对其指示欺骗性或非欺骗性流量具有较高确信度的数据来填充训练集合。虽然将该设备描述为以二进制的方式对数据进行分类(即欺骗性或非欺骗性)，但是，本领域技术人员可以认识到，该设备可以以非二进制的方式来对数据进行分类。例如，可以将数据分为若干类别，如高欺骗性、中欺骗性、中非欺骗性和高非欺骗性。也可以使用数字分数，或根据一个或更多其他分类方案来对数据进行分类。

为了减小欺骗性流量对广告商和发布者的影响，可以向先前描述的流量评分系统提供训练集合数据，以训练该系统来更好地标识欺骗性流量。训练集合数据使得流量评分系统能够评价哪些流量参数是欺骗性流量的更好的指示符。

V.互相关的流量参数

图7是用于标识表征与网络站点相关联的流量质量的参数组合的过程700的流程图。在框705，该设备接收服务器日志数据或表示与一个或更多网络站点相关联的流量的其他数据。该设备也可以从其他源接收指示代理商与网络站点的交互的数据。所接收的服务器日志数据和任何其他数据可以以其原始格式提供给该设备，或可以对其进行标准化，使得从各种源获得的数据以统一的格式来呈现。此外，可以从标准化数据中提取概括统计特性，并将其提供给该设备。例如，可以基于不同的会话特性，如IP地址、代理商、分发伙伴或其他会话特性来概括数据。

在框710，该设备选择要进行评价的n个规则，以标识指示流量质量的规则组合。所选的n个规则可以是如上所述针对特定网络站点被标识为统计上有效的规则中的一个或更多规则。

在框715，如图8所示，该设备产生关联表800。该关联表包含n+4列，其中n是正被评价的规则数。列805a、805b...805n每个与正被评价的规则之一相关联。列815包含对欺骗性事务数目的计数，列820包含对非欺骗性事务数目的计数，列825包含对事务总数的计数，列830包含计算出的欺骗几率比。如果应用每个规则产生了具有x个值之一的结果，则该表将包括xⁿ行810a、810b...810m，其中x是每个规则可以取值的值数目，n是正被评价的规则数。表中的每一行与规则结果的唯一组合相对应。例如，图8绘出的表中，x为2，例如，当应用规则时，每个规则可能具有0或1的结果。第一行810a可以包含值[0，0，...，0，0，0]，下一行810b可以包含值[0，0，...，0，0，1]等等，最后一行810m包含值[1，1，...，1，1，1]。因此，表中表示了规则结果的所有组合。虽然图8绘出的表的内容和组织被设计为使其对读者更容易理解，但是，本领域技术人员可以认识到，该设备用于存储这些信息的实际数据结构可以不同于所示的表。例如，可以以不同的方式来组织该表，该表可以包含比所示的更多或更少的信息，该表可以被压缩和/或加密，并可以以各种方式来进行优化。

返回图7，在框720，如上所述，该设备从服务器日志数据或其他数据中选择表示单个会话的数据。在框725，该设备对会话数据应用n个规则中的每一个，并产生针对每个规则的结果。针对特定的会话的所有规则结果的组合被称为结果向量。结果向量与管理表中的对应行相匹配。例如，如果在对会话数据应用每个规则时的结果为0，则该设备将会话结果向量与表800的行810a相匹配。在框730，该设备记录与该会话相关联的事务是欺骗性的还是非欺骗性的。如果该事务是欺骗性的，或具有是欺骗性的标记，则该设备增大合适行(例如在上述示例中的行810a)的列815中的计数。如果事务是非欺骗性的，或具有是非欺骗性的标记，则该设备增大合适行的列820中的计数。在任一种情况下，该设备也增大合适行的列825中的计数来表示该事务。

在判决框735，该设备确定服务器日志或其他数据源中是否还有另外的会话要处理。该设备可以处理服务器日志中的所有会话，或可以处理服务器日志中少于所有会话的会话。例如，该设备可以保留特定百分比(例如50％)的会话以便此后验证已经处理的会话。如果存在要处理的另外的会话，则该设备返回框720以选择下一个会话。从而，框720至730所定义的过程被重复必要的次数，以处理服务器日志或其他数据源中所反映的所有代理商会话的会话信息。如果在框735没有另外的会话还要处理，则处理继续至框740。图9是在已处理15200个会话之后，该设备可能产生的关联表900的示例。

在框740，对关联表中的每一行(即对每个结果向量)计算欺骗几率比。该欺骗几率比表示具有特定结果向量的欺骗性会话与具有不同结果向量的会话的对比情况的估计。可以由等式(4)来计算该欺骗几率比：

fraud_odds_ratio = \frac{(\frac{fraudulent_result}{non_fraudulent_result})}{(\frac{fraud_total}{non_fraud_total})}

其中，fraudulent_result是针对特定结果向量的欺骗性事务的数目；non_fraudulent_result是针对特定结果向量的非欺骗性事务的数目；fraud_total是针对所有结果向量的欺骗性事务的数目；以及non_fraud_total是针对所有结果向量的非欺骗性事务的数目。表900的列930提供了根据等式(4)计算的欺骗几率比。虽然公开了用于计算欺骗几率比的特定算法，但是，本领域技术人员可以认识到，可以使用各种不同的算法来确定那些结果向量是由最大比例的欺骗性事务来表征的。

本领域技术人员可以认识到，关联表中的每一行可以被视为判决树中的最终节点，其中，该行中表示的每个规则与该判决树中的节点相对应。该关联表提供了一种产生最终判决树节点的方法，而无需产生整个判决树。

在框745，该设备解析该关联表来标识n个规则的群或子集。可以根据优化算法(如模拟退火或马尔科夫链蒙特卡洛(MCMC)方法)来标识大量子集(例如5000)。

该设备可以将处理创建的关联表精简为优化的关联表。该设备可以从处理关联表中去除那些由少于特定数目(例如100)的事务所产生的结果向量。此外，该设备可以去除那些欺骗几率比变化较大的结果向量，较大的变化表示了不一致的结果。为了滤除那些欺骗几率比变化较大的结果向量，针对在框745所标识的每个规则群或子集，该设备可以创建若干(例如3)个初始关联表值。每个表值可以与会话的不同特性(例如日期)相对应，或与训练集合的不同子集相对应。也可以随机选择包括每个表值的会话。该设备可以针对每个表值中的每个结果向量来计算欺骗几率比。可以去除具有在表值之间欺骗几率比变化较大的结果向量的那些行。因此，该设备在优化的关联表中仅维护那些一致的或健壮的结果向量。

过滤步骤也可以被视为从判决树中去除不稳定的或不可靠的最终节点。因此，根据会话特性或规则子集来产生可变结果的节点不是对欺骗性或非欺骗性代理商动作的可靠预测值，该设备将其去除。该设备仅保留那些产生一致结果的节点。

在框750，该设备选择具有最高欺骗几率比的结果向量，进一步细化优化的关联表。这些结果向量表示了由最大比例的欺骗性事务来表征的流量参数的组合。该设备可以选择在关联表中选择具有最高欺骗几率比的结果向量的数目(例如200)。选择性地或附加地，该设备可以选择具有大于特定数值(例如25)的欺骗几率比的所有结果向量。所选的结果向量包括优化的关联表；丢弃所有其他结果向量。

如果在判决框735，该设备处理服务器日志或其他数据源中的少于所有会话的会话，则在框755，该设备可以可选地执行交叉验证。为了执行交叉验证，该设备可以对该设备先前未处理的会话应用在框745所选的规则组合。该设备可以保留产生的结果与先前处理的会话的结果一致(即指示类似比例的欺骗性代理商动作)的规则，而该设备可以丢弃产生的结果与先前处理的会话的结果不一致(即指示变化比例的欺骗性代理商动作)的规则。

当该设备接收到新的流量时，该设备可以将所产生的流量的结果向量与优化的关联表中的对应行进行匹配。按照这种方式，该设备可以估计出该流量是否以及在何种程度上可能产生欺骗性或非欺骗性的代理商动作。如果在优化的关联表中，没有行与新流量的结果匹配，则可以对该流量应用相关性公式(如上述等式(2)或(3))或回归公式，以估计出该流量是否以及在何种程度上产生欺骗性或非欺骗性的代理商动作。简单地将新流量的结果向量与优化关联表中的最接近匹配但不完全匹配的行进行匹配，该结果向量可能不产生对该流量是否以及在何种程度上产生欺骗性或非欺骗性的代理商动作的可靠估计。为了实现更健壮、精确的流量评分设备，对新流量是否以及在何种程度上可能产生欺骗性或非欺骗性的代理商动作的估计应与该流量是否被映射至优化的关联表相一致，或可选地，对该流量应用相关性或回归公式。

根据作为欺骗几率比的函数的等式，可以对会话、会话组或流量数据集作为整体来进行评分。例如，流量数据集的分数可以是对该流量数据集中标识的所有会话的平均分数。所计算的分数与流量的价值相关；较高的分数表示产生较大价值(或较少欺骗)的代理商动作的流量，而较低的分数表示产生较小价值(或较多欺骗)的代理商动作的流量。按照这种凡是来计算流量分数产生了对流量价值的更精细的估计，该更精细的估计对发布者和广告商而言有更大的益处。

一旦该设备针对会话、会话组或流量数据集作为整体计算了分数，如上所述，可以可选地对该分数进行归一化，以将其放入广告商和发布者更容易理解和使用的形式中。

除非在上下文中明确要求，否则，在整个说明书和权利要求书中，“包括”之类的词不应被解释为具有与排他或穷尽意义相对的包括一切的意义；这就是说，其意义是“包括但不限于”。如这里所使用的，“连接”、“耦合”或其任何变型意指两个或更多元件之间的或直接或间接的任何连接或耦合；元件之间的连接的耦合可以是物理的、逻辑的、或其结合。此外，“这里”、“以上”、“以下”这些词和具有类似引入意义的词，当在本申请中使用时，应指本申请作为整体而非本申请的任何特定部分。在上下文允许的情况下，在上述“具体实施方式”中使用单数或复数的词也可以分别包括单数或复数。参照两个或更多项目的列表，“或”一词涵盖该词的所有后续解释：列表中的任何项目、列表中的全部项目、和列表中的项目的任何组合。

本系统的实施例的上述详细描述不应是穷尽的，或不应将本系统限制为上述公开的确切形式。虽然出于示意的目的，以上本系统的具体实施例和示例，但是，本领域技术人员可以认识到，在本系统的范围内，各种等效修改是可能的。例如，虽然以给定的顺序呈现了过程或模块，但是，可选实施例可以执行以不同的顺序来执行具有步骤的过程，或采用具有模块的系统，一些过程和模块可以被删除、移动、添加、再划分、组合和/或修改，以提供选择或自组合。可以以各种不同的方式来实现每个这些过程和模块。同样，虽然经常将过程和模块示为顺序执行，但是，这些过程和模块可以代之以平行执行、或可以在不同时刻执行。

这里提供的方法和系统的教导可应用至其他系统，不必需是上述系统。上述各种实施例的元件和操作可以组合来提供另外的实施例。

虽然以下以特定权利要求的形式呈现了技术的特定方面，但是，发明人能够想到采取任何数目的权利要求形式的技术的各种方面。例如，虽然本发明中仅一个方面被引用为在计算机可读介质中实施，但是，其他方面可以类似地在计算机可读介质中实施。相对应，发明人保留在提交申请之后增加另外的权利要求的权利，以针对技术的其他方面来实现这样的另外的权利要求的形式。

从上述内容可以认识到，出于示意的目的，这里描述了本发明的具体实施例，但是，在不脱离本发明的精神和范围的前提下，可以做出各种修改。相应地，除了所附权利要求之外都不应限制本发明。

Claims

1.一种标识表征网络站点接收的流量质量的参数组合的方法，所述方法包括：

选择多个规则，其中，每个规则评价与代理商与网络站点的交互相关联的一个或更多参数，并基于所述一个或更多参数的值来产生结果；

针对表示代理商与网络站点的交互的每个会话：

对表示代理商的交互的数据应用所述多个规则，以产生多个结果；以及

表征所述代理商的交互是否表示了代理商与网络站点的交互的期望质量；以及

评价所述多个结果和所表征的代理商的交互的质量，以确定哪些参数组合是代理商与网络站点的交互的期望质量的预测值。

2.如权利要求1所述的方法，还包括：在分析表示代理商与网络站点的交互的数据时，利用所确定的参数组合来产生对代理商与网络站点的交互的质量的评估。

3.如权利要求1所述的方法，其中，表示代理商与网络站点的交互的数据是根据一个或更多服务器日志产生的。

4.如权利要求1所述的方法，其中，评价所述多个结果和所表征的代理商的交互的质量，以确定哪些参数组合是代理商与网络站点的交互的期望质量的预测值还包括：

产生表，所述表包含对所述多个规则中的每个规则的每个可能结果的表示；

将从代理商与网络站点的交互产生的多个结果映射至所述表中的对应结果；以及

标识所述表中的特定部分，所述特定部分与所述表中的其他部分相比，反映了对代理商与网络站点的交互的期望质量的更好的预测值。

5.如权利要求4所述的方法，其中，所述表中的特定部分由与所述部分相关联的欺骗几率比来标识。

6.如权利要求1所述的方法，其中，保留表示代理商与网络站点的交互的特定会话，以验证由非保留会话所产生的结果。

7.如权利要求1所述的方法，还包括在向数据应用所述多个规则之前，对与代理商与网络站点的交互相关联的数据进行标准化。

8.如权利要求5所述的方法，其中，如果与所述表中的特定部分相关联的欺骗几率比中存在较大变化，则不标识所述表中的特定部分。

9.如权利要求8所述的方法，其中，所述较大变化由以下步骤来计算：

创建两个或更多表；

在每个表中划分来自表示代理商与网络站点的交互的会话的数据；

针对每个会话计算欺骗几率比；以及

去除表中的在表值之间的欺骗几率比存在较大变化的部分。

10.如权利要求9所述的方法，其中，基于与每个会话相关联的参数来在每个表之间划分数据，所述参数在每个表中具有不同的值。

11.如权利要求9所述的方法，其中，每个表与所述多个规则的不同子集相对应。

12.如权利要求9所述的方法，其中，在每个表之间随机划分流量。

13.一种产生针对网络站点接收的流量质量的分数的方法，所述分数表示所述流量对网络站点有价值的可能性，所述方法包括：

针对表示代理商与网络站点的交互的每个会话：

表征所述代理商的交互是否表示了代理商与网络站点的交互的期望质量；

评价所述多个结果和所表征的代理商的交互的质量，以确定哪些参数组合是代理商与网络站点的交互的期望质量的预测值；以及

针对一个或更多会话，基于与所述一个或更多会话相关联的参数组合，产生非二进制分数。

14.如权利要求13所述的方法，其中，产生非二进制分数还包括将所述非二进制分数归一化以落入标准范围内。

15.一种产生用于评分系统的训练集合数据的方法，所述评分系统产生对网络站点接收的流量质量的分数，所述方法包括：

产生并执行与网络站点相关联的一个或更多广告活动，每个广告活动被设计为产生有价值或无价值的代理商与网络站点的交互；

接收所述广告活动所产生的与代理商与网络站点的会话相对应的数据；

选择具有落至正常范围之外的数据的代理商会话，并表征所选的会话对网络站点是有价值的还是无价值的；以及

将与所选代理商会话相对应的数据加入训练集合。

16.如权利要求15所述的方法，其中，选择具有落至正常范围之外的数据的代理商会话还包括将代理商会话布置入共享类似数据的会话组。

17.如权利要求15所述的方法，其中，选择具有落至正常范围之外的数据的代理商会话还包括对会话应用算法，以确定已经将包括所述会话的代理商的交互表征为有价值或无价值。

18.如权利要求15所述的方法，其中，执行一个或更多广告活动包括在多个网络站点上张贴一个或更多广告。

19.如权利要求15所述的方法，其中，所述广告活动所产生的与代理商与网络站点的会话相对应的数据由一个或更多服务器日志产生。

20.如权利要求15所述的方法，其中，所述网络站点是万维网网站。

21.如权利要求15所述的方法，其中，由自动程序来执行表征所选的会话对网络站点是有价值的还是无价值的。

22.如权利要求15所述的方法，其中，手动执行表征所选的会话对网络站点是有价值的还是无价值的。

23.如权利要求16所述的方法，其中，将代理商会话布置入共享类似数据的会话组还包括：

对会话数据应用一个或更多算法，其中每个算法指示了会话组包括有价值或无价值的会话的确定度；以及

保留由所述算法标识为指示包括有价值或无价值的会话的确定度最高的会话组。

24.如权利要求16所述的方法，其中，将代理商会话布置入共享类似数据的会话组还包括：

构造一个或更多n维图；

将所述会话数据映射至一个或更多图；以及

标识在一个或更多图上形成群的会话组。

25.如权利要求15所述的方法，其中，被设计为产生无价值的代理商与网络站点的交互的一个或更多广告活动之一包括在位于分发网络的第三层或更高层的网络站点上购买广告空间。

26.如权利要求15所述的方法，其中，被设计为产生有价值的代理商与网络站点的交互的一个或更多广告活动之一包括在网络站点上张贴一个或更多广告，其中，所张贴的一个或更多广告产生的代理商的交互不产生网络站点的收入。

27.如权利要求15所述的方法，其中，由自动程序来产生所述广告活动。

28.如权利要求15所述的方法，其中，手动产生所述广告活动。