CN110520886A

CN110520886A - 用于消除媒体混合建模中的偏差的系统和方法

Info

Publication number: CN110520886A
Application number: CN201880025197.0A
Authority: CN
Inventors: D.钱; Y.王; A.陈; J.科勒; Y.金; M.佩里; Y.孙
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-09-19
Filing date: 2018-06-15
Publication date: 2019-11-29
Anticipated expiration: 2038-06-15
Also published as: US20190087497A1; US10445388B2; CN110520886B; JP2020523655A; JP6748312B2; EP3610445A1; WO2019059977A1

Abstract

可以用于生成因果模型并且计算混合媒体中的选择偏差的系统、方法和计算机可读的介质。在一些实施例中，选择偏差计算是在混合媒体建模的上下文中的搜索赞助内容中进行的。在一些实施例中，用于搜索偏差校正的模型基于来自因果推理的后门准则。

Description

用于消除媒体混合建模中的偏差的系统和方法

对相关申请的交叉引用

本申请要求2017年9月19日提交的第15/708,592号美国专利申请的权益和优先权，该美国专利申请的全部内容通过引用并入于此。

背景技术

当存在多个媒体通道并且在多个媒体通道的使用中需要改变以最大化一个或多个性能度量时，评估性能度量是基本的问题。许多实体使用多个媒体通道来最大化其性能度量。媒体混合建模(“MMM”)是下述分析方法(例如，多元回归)：使用观察数据来估计和预测各种媒体混合策略对性能度量的影响。一种性能度量可能是广告支出回报(“ROAS”)。

发明内容

一个实施例涉及一种使用一个或多个处理器来消除媒体混合建模中的偏差的方法。该方法包括：标识与第一度量的增量值改变相关联的第一统一资源定位符(“URL”)；标识与第一URL相关联的多个URL；在第一时间窗口中从目标地理区域接收包括查询的搜索查询数据；将接收到的搜索查询数据划分为多个组，该多个组包括与第一URL相关联的第一组，与多个URL中的一个或多个相关联的第二组以及与业务类别相关联的第三组，每个相应的关联通过等于或超过第二度量的预定阈值来定义；基于多个组生成多个搜索查询子集；基于因果图生成加性回归模型，该因果图包括如与第一度量的增量值改变相关联的因果效应(effect)的标识；以及通过将加性回归模型拟合到多个搜索查询子集来计算第一度量的增量值改变的偏差校正估计。

在一些实施例中，该方法还包括：确定接收到的搜索查询数据的第一搜索词与包括第一URL的搜索结果相关联；确定接收到的搜索查询数据的第二搜索词与包括一个或多个URL中的一个的搜索结果相关联；以及将第一搜索词划分到第一组并且将第二搜索词划分到第二组。在一些实施例中，该方法还包括：确定第一时间窗口；计算第一组中的第一搜索数量、第二组中的第二搜索数量和第三组中的第三搜索数量；计算第一组、第二组和第三组的总搜索量；以及确定第一组中的第一搜索数量、第二组中的第二搜索数量和第三组中的第三搜索数量中的至少一个相比于总搜索量超过第二预定阈值。在一些实施例中，该方法还包括：确定接收到的搜索查询数据中的搜索查询的数量超过预定搜索查询阈值；以及在确定接收到的搜索查询数据中的搜索查询的数量超过预定阈值之后，使用三维全张量积平滑来生成加性回归模型。在一些实施例中，该方法还包括使用限制最大似然(“REML”)算法来重新构造加性回归模型。

一些实施例涉及一种系统，该系统包括：至少一个计算设备，可操作地耦合到至少一个存储器并且被配置为执行与以上方法中的一个或多个相对应的指令。

一些实施例涉及一种在其中体现有计算机可执行指令的非暂时性计算机可读介质，该计算机可执行指令在由计算系统的一个或多个处理器执行时，使得该计算系统执行与上述方法中的一个或多个相对应的处理。

一些实施例涉及一种在其中体现有计算机可执行指令的非暂时性计算机可读的介质，该计算机可执行指令在由计算系统的一个或多个处理器执行时，使得该计算系统执行处理，包括：标识第一内容项；确定媒体混合环境与第一内容项相关联；确定媒体混合环境的第一媒体与媒体混合环境的第二媒体之间的因果关系；标识与第一内容项相关联的第一统一资源定位符(URL)；标识与第一URL相关联的多个URL；在第一时间窗口中从目标地理区域接收包括查询的搜索查询数据；将接收到的搜索查询数据划分为多个组，该多个组包括与第一URL相关联的第一组，与多个URL中的一个或多个相关联的第二组以及与业务类别相关联的第三组，每个相应的关联通过等于或超过第二度量的预定阈值来定义；基于多个组生成多个搜索查询子集；基于因果关系计算媒体混合环境的第一媒体与媒体混合环境的第二媒体之间的偏差因子；使用媒体混合环境的第一媒体与媒体混合环境的第二媒体之间的偏差因子生成加性回归模型；以及通过将加性回归模型拟合到多个搜索查询子集来计算第一度量的增量值改变的偏差校正估计。

在一些实施例中，第一度量包括广告支出回报。在一些实施例中，搜索查询数据包括使用从以下组中选择的标准中的至少一个所选择的所有查询，该组包括地理目标区域、时间窗口和用户人口统计。

附图说明

本说明书中描述的主题的一个或多个实施方式的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书，本主题的其他特征、方面和优点将变得明显。

图1是根据示例实施例的包括因果建模器和相关联的环境的分析系统的框图。

图2是根据示例实施例的因果图的框图。

图3是根据示例实施例的用于生成因果图的处理的流程图。

图4是根据示例实施例的简单因果图的框图。

图5是根据示例实施例的复杂因果图的框图。

图6是根据示例实施例的具有一些简化假定的复杂因果图的框图。

图7是根据示例实施例的消除搜索结果中的偏差的处理的流程图。

图8是示出根据示例实施例的搜索查询分类的一组图表。

图9是示出根据示例实施例的用于第一案例研究的度量与估计的ROAS之间的相关性的散点图和框图。

图10是示出根据示例实施例的用于第二案例研究的度量与估计的ROAS之间的相关性的散点图和框图。

图11是示出根据示例实施例的用于第三案例研究的度量与估计的ROAS之间的相关性的散点图和框图。

图12是示出根据示例实施例的第一案例研究的选择偏差的拟合函数值加上模型残差的散点图。

图13是示出根据示例实施例的第二案例研究的选择偏差的拟合函数值加上模型残差的散点图。

图14是示出根据示例实施例的第三案例研究的选择偏差的拟合函数值加上模型残差的散点图。

图15是根据示意性实施例的计算系统的框图。

具体实施方式

媒体混合建模(media mix modeling，MMM)是一种使用多元回归与观察数据来关于性能度量评估各种媒体混合策略的混合的分析方法。选择偏差是赞助内容目标选择(targeting)中的、对于正确地评估ROAS的一个限制，这是因为目标人群的潜在兴趣可能正在驱动赞助内容的支出和销售。这可能导致ROAS的高估。

在一些实施例中，内容项搜索环境的因果图被用来在媒体混合建模中创建搜索偏差校正。一旦知道因果图，就可以导出偏差校正的方法。在一个实施例中，Pearl(珀尔)的因果理论被用来创建两个变量的因果效应的估计。因果效应的后门准则(back-doorcriterion)可以被用来确定是否可从数据中标识因果效应。当满足某些条件时，变量集可以满足相对于有序变量对的后门准则。如果满足后门准则，则因果效应是可标识的并且通过特定公式给出。

用于评估ROAS的方法的一个实施例包括收集搜索查询数据并且将模型拟合到搜索查询数据。由于相关搜索查询量可能非常大，因此可以对搜索查询进行概括(summarize)以使它们更适合于模型拟合。对搜索查询进行概括可以包括：标识内容提供方的网站及其顶级竞争方的网站，收集给定的时间窗口中目标区域上的所有查询以及根据针对每个查询出现的目的地URL将查询集划分为三个组。目的地URL可以被分类为下述组：诸如，a)属于内容提供方，b)属于顶级竞争方，c)不属于任何一方但属于业务类别，以及d)不属于业务(business)类别。展示(impression)数量可以被用来将URL分类为组，从而产生用于下述的三个查询子集：目标偏爱查询、竞争方偏爱查询以及一般兴趣查询。预定阈值可以被用来建立阈值，以用于到查询子集的分段化过程。从因果图生成的模型被应用于查询子集以生成ROAS。在一些实施例中，通过使用非参数模型拟合过程来检查模型稳定性。

一般地，参考附图，在一些实施例中，提供了可以被用来消除媒体混合建模(MMM)中的偏差的各种示意性系统和方法。认识到MMM的各种限制，例如，数据收集、选择偏差、长期效应、季节性和漏斗效应。在一些实施例中，典型的MMM被描述为回归模型，其中，因变量是关键性能指示符(KPI)，即，性能度量；而自变量包括各种媒体输入(例如，支出水平、印象或GRP)、产品价格、经济因子、竞争方活动等。性能度量可以是以每天、每周或每月为基础在特定区域中测量的。在对一组媒体效应的因果估计中，因果推理被认为十分难以采用观测数据进行。MMM中有效因果推理的主要挑战之一是由于赞助内容目标选择(targeting)引起的选择偏差。赞助内容目标选择常见于许多不同的媒体通道中，但在数字通道中尤其突出。当目标人群的潜在兴趣或需求驱动赞助内容支出和销售两者时，出现来自赞助内容目标选择的选择偏差。

当对于内容项制作方的产品存在更强的需求时，内容项制作方可能支出更多。结果，测量相对于赞助内容支出改变的销售的改变的朴素回归可能导致ROAS的高估。一种启发式的解释是，销售的改变可能是由消费者需求或赞助内容支出或两者的改变导致的，而朴素方法忽略了消费者需求的改变。在一些实施例中，内容项的因果图被用来导出用于MMM中的内容项搜索偏差校正(SBC)的统计原理方法。在一些实施例中，这是基于因果推理的后门准则。

现在参考图1，示出了根据示意性实施例的分析系统120和相关联的环境100的框图。一个或多个用户设备104可以被用户用来执行各种动作和/或访问各种类型的内容，其中的一些可以通过网络102(例如，互联网、LAN、WAN等)来提供。本文中使用的“用户”或“实体”可以指代操作用户设备104的、经由用户设备104与资源或内容项交互的个体等。用户设备104可以被用来访问网站(例如，使用互联网浏览器)、媒体文件和/或任何其他类型的内容。内容管理系统108可以被配置为在资源(例如，网页、应用等)内选择用于向用户显示的内容，并且通过网络102向用户设备104提供内容项以在资源内显示。内容管理系统108从其中选择项的内容可以由一个或多个内容提供方使用一个或多个内容提供方设备106经由网络102来提供。

在一些实施例中，内容管理系统108可以从内容提供方中选择要在用户设备104上显示的内容项。在这样的实施例中，内容管理系统108可以确定要在资源(例如网页、应用等)的一个或多个内容界面中发布的内容。内容管理系统108可以被配置为在第三方内容提供方之间进行内容拍卖，以确定哪个第三方内容将被提供给用户设备104。可以基于出价金额(bid amount)和质量得分(即，用户设备104的用户有多可能点击内容的测量量)来确定拍卖胜方。在一些实施方式中，内容管理系统108允许内容提供方创建内容活动(campaign)。活动可以包含任何数量的参数，诸如，最低和最高出价金额、目标出价金额和/或一个或多个预算金额(例如每日预算、每周预算、总预算等)。

分析系统120可以包括一个或多个处理器(例如，任何通用或专用处理器)，并且可以包括和/或可操作地耦合到一个或多个暂时性和/或非暂时性存储介质和/或存储设备(例如，任何计算机可读存储介质，诸如，磁存储装置、光存储装置、闪速存储装置、RAM等)。在各种实施方式中，分析系统120和内容管理系统108可以被实现为单独的系统或被集成在单个系统内(例如，内容管理系统108可以被配置包含分析系统120的功能/能力中的一些或全部)。

分析系统120可以可通信地并且可操作地耦合到分析数据库128。分析系统120可以被配置为向分析数据库128查询信息并且将信息存储在分析数据库128中。在各种实施方式中，分析数据库128包括各种暂时性和/或非暂时性存储介质。存储介质可以包括但不限于磁存储装置、光存储装置、闪速存储装置、RAM等。数据库128和/或分析系统120可以使用各种API来执行数据库功能(即，管理存储在数据库128中的数据)。API可以是但不限于SQL、ODBC、JDBC等。

分析系统120可以被配置为经由网络102与环境100中所示的任何设备或系统通信。分析系统120可以被配置为从网络102接收信息。信息可以包括浏览历史、cookie日志、电视广告数据、印刷出版物广告数据、广播广告数据和/或在线广告活动数据。分析系统120可以被配置为接收和/或收集用户设备104在网络102上具有的交互。该信息可以被存储为搜索查询数据130。

数据源110可以是数据收集器或内容提供方，其可以向分析系统120提供广告数据。该数据可以是在一个或多个时间点处、针对特定媒体通道(例如，电视、互联网广告、广播、广告牌、印刷出版物)的内容输入(例如，广告支出)和响应(例如，收入)。内容输入可以包括对于电视广告、广告牌广告、互联网广告的支出(例如，搜索内容项支出或显示内容项支出)等。数据源110还可以是收集广告数据的各种数据聚合系统和/或实体。分析系统120可以经由网络102从数据源110接收搜索查询数据130。

分析系统120可以被配置为向内容提供方设备106发送与其确定、生成或拟合的各种度量或模型有关的信息和/或通知。这可以允许内容提供方设备106中的一个的用户对分析系统120确定的各种度量或模型进行审查。此外，分析系统120可以使用各种度量来标识与用户进行联系的合适的时间或者在各种媒体通道(例如，电视广告、互联网广告、广播广告等)上支出的适当金额(例如，最佳混合媒体支出)。分析系统120可以使得消息被发送到内容管理系统108和/或内容提供方设备106，该消息指示内容管理系统108应当在特定时间与特定用户进行联系和/或以特定参数进行内容活动。这可以使得内容管理系统108相应地管理内容拍卖和/或标识各种系统负载。分析系统120可以被配置为分析搜索查询数据以标识偏差，并且更新分配给混合媒体支出的每个的金额以进行补偿。

分析系统120可以包括被配置为执行分析系统120的各种功能的一个或多个模块(即，由处理器可执行的计算机可读指令)和/或电路(即，ASIC、处理器存储器组合、逻辑电路等)。在一些实施方式中，模块可以是或可以包括因果建模器122，其被示出为包括因果模型生成器124和偏差计算器126。

因果建模器122，即因果模型生成器124和偏差计算器126，可以被配置为生成存储在分析数据库128中的各种模型和数据结构。例如，偏差计算器126可以被配置为基于搜索查询数据130生成一个或多个偏差计算。搜索查询数据130可以是指示按各种地理区域的搜索查询的数据结构。在一些实施例中，搜索查询数据130可以是与特定人口统计、特定软件用户、特定操作系统用户、特定互联网服务提供方用户等相关联的数据结构。例如，地理区域可以是州、城市、乡村或任何其他地理区域。可以由偏差计算器126通过将一个或多个更小的地理区域(即，子区域)归组在一起来生成搜索偏差计算器。例如，可以通过将多个州归组为东海岸、西海岸和中西部来生成搜索查询数据130。此外，可以将特定州内的多个城市归组在一起，以形成预定数量的搜索查询数据130。

偏差计算器126可以被配置为针对构成搜索查询数据130的类别、人口统计组、地理子区域等中的每个来接收搜索查询数据130。例如，偏差计算器126可以被配置为接收针对州中的每个城市的搜索查询数据130。偏差计算器126可以被配置为整体地接收针对搜索查询数据130的数据，而不是接收对于特定子类别、人口统计学组、地理子区域等特定的数据。偏差计算器126接收的接收数据可以是分析系统120聚合的数据和/或分析系统120从数据源110接收的数据。

搜索查询数据130可以包括下述数据集：数据集中的每个数据包括响应、内容输入、内容类型、控制变量和/或位置标识符。数据可以是在时间上具有间隔的一个或多个点(例如，一天中每小时的数据、一年中每天的数据、十年中每月的数据等)。内容类型可以指示该数据集的特定媒体通道，例如电视、广播、互联网广告、报纸或杂志广告等。响应可以指示在特定时间的特定收入金额。在一些实施例中，响应是转换次数、销售次数、账户注册次数等。内容输入可以指示在特定时间针对该内容类型支出的广告的特定金额。内容输入还可以指示广告投放(advertisement run)的数量。搜索查询数据130可以是指示随时间、针对各种媒体通道的内容输入、响应的量。

因果模型生成器124可以被配置为基于结合有一个或多个因子的搜索查询数据130来生成因果模型，该一个或多个因子与媒体混合的不同媒体相关联。在一些实施例中，因果模型生成器124被配置为将因果模型拟合到搜索查询数据，并且向偏差计算器126输出一个或多个参数。

参考图2，示出了根据示例实施例的因果图200的框图。因果图200是查询级别的内容的因果图的表示，其中，Q表示查询，A表示拍卖因子，O表示有机搜索(organic search)结果，P指示付费搜索展示以及表销售值。因果图可以是有向无环图(directed acyclicgraph，DAG)，表示因果模型中变量之间的因果关系。其包括一组变量，被表示为图的节点，在模型的范围内定义。从第一节点到第二节点的箭头表示从第一节点到第二节点的因果影响。在所有其他因子相同的情况下，第一节点的改变可能导致第二节点的改变。在一些实施例中，使用因果图的估计方法论基于Pearl因果理论。

在一个示例中，关于搜索内容如何影响销售的简化因果图如下。假定用户向搜索引擎(例如www.google.com)提交搜索查询(例如，鲜花递送)。可能存在两个结果：1)用户将在搜索页面的主体中看到URL加上几行描述的列表(即，由搜索引擎基于其与搜索查询的相关性进行排名的有机结果)；2)如果搜索查询与作为目标的某些特定的关键字匹配，则将通过拍卖选择要在页面上显示的内容项。拍卖考虑各种因子，包括出价、内容项质量和内容提供方主页质量。用户可以点击有机结果中的一些URL或点击内容项，然后登陆(land on)一些鲜花递送网站进行订购。

参考回到图2，在一个示例实施例中，A表示拍卖因子，Q表示由搜索用户控制的搜索查询，P指示存在付费搜索展示，以及O是有机搜索结果。给定查询Q，O由搜索引擎(如果是个性化搜索则加上用户信息)确定，并且P由搜索引擎和拍卖中的其他方确定。令Y为销售值。因果路径如下行进：1)Q具有两个后果P和O；2)P受到Q和A两者影响；3)Y受到O和P两者影响。因此，对P的干预具有对Y的直接影响，而对A的干预不具有对Y的影响，除非其引起P的改变。因果图可以通过图2所示的有向无环图描述。在图2所示的示例实施例中，给定搜索查询Q，有机搜索内容不依赖于付费搜索内容—P和O之间不存在箭头。

在如MMM的观察性研究中，通常仅能够对于因果图中的一些节点进行测量。为了测量内容项支出对于销售的因果关系，重要的是首先了解潜在的因果图，并且然后判断从部分观察的数据中是否可标识因果关系。

Pearl的因果框架

在一些实施例中，Pearl将因果图描述为干预模型对于理解因果可标识性的概念是重要的。因果图中的每个子代(child)Xi表示表示关系

X_i＝f_i(pa_i，∈_i)

其中，f_i是函数，pa_i是X_i的父代(parent)的集合以及i是任意确定的随机扰动，该随机扰动必须独立于模型中的所有其他变量和扰动。

在一些实施例中，给定两个变量X和Y，表示为Pr(y|xˇ)的X对于Y的因果效应是从X到关于Y的概率空间分布的函数。对于X的每个实现x，Pr(y|xˇ)给出概率Y＝y，该概率是通过从图2中表示的模型中删除与X相对应的等式并且在剩余等式中强制X等于x而导致的。xˇ表示法通过将X设置为x来指示干预。

在一些实施例中，如果可以根据与该图兼容的被观察的变量的任何正概率唯一地计算出量Pr(y|xˇ)，则X对于Y的因果关系是可标识的。

在一些实施例中，可标识性是指，给定来自由因果图描述的联合分布的任意大的样本，可以确定因果效应Pr(y|xˇ)。

在一些实施例中，当且仅当满足下述两个条件中的任何一个时，才将因果图上的两个节点之间的路径说成是被变量(节点)Z的子集进行了依赖性分隔(d-分隔，d-separated)或阻挡：1)路径包含链i→m→j或分叉i←m→j使得m∈Z；或2)路径包含反向分叉i→m←j使得m/∈Z并且使得不存在属于Z的m的后代。

在一些实施例中，后门准则可以如下阐述，给定因果图，如果：1)Z中不存在是X的后代的节点；并且2)Z阻挡X和Y之间包含指向X的箭头的每个路径，则变量Z的集合相对于图中的有序变量对(X，Y)满足后门准则。后门准则的定义中的条件1)排除了作为X的后果的协变量，并且条件2)确保Z包含正确的混杂因子(confounding)集合。后门调整定理(即Pearl后门调整定理)记载了：如果变量Z的集合相对于(X，Y)满足后门准则，则X对于Y的因果效应是可标识的，并且X对于Y的因果效应由以下公式给出：

换句话说，在一些实施例中，Z使得能够估计X对于Y的因果效应。

在图2所描述的示例中，由于仅存在一个从P到Y的具有指向P的箭头的路径，即P←Q→O→Y，因此针对节点P关于Y的因果效应，节点Q(搜索查询)满足后门准则。在一些实施例中，这使得能够在给定适当查询级别数据的情况下估计搜索内容项的因果影响。

Pearl的框架与在Neyman-Rubin(内曼-鲁宾)因果模型中定义的反事实框架具有相同的目标并且可以被转译为Neyman-Rubin因果模型中定义的反事实框架，但是它还提供形式语义来帮助可视化因果关系。在一些实施例中，后门准则为我们提供了下述方便工具：用于标识满足所谓的可忽略性假定的适当协变量集合，以便从观测数据中标识因果效应。在一些实施例中，使用针对因果效应的一般标识条件。在一些实施例中，针对搜索内容项的选择偏差校正的方法论基于后门准则。

参考图3，示出了根据示例实施例的用于生成因果图的处理的流程图300。简而言之，该处理包括确定是否存在导出因果图的因子以及确定拍卖因子的任何影响是否可忽略。如果拍卖因子的影响不可忽略，则处理返回到确定是否存在导出因果图的因子。如果拍卖因子的影响可忽略，则处理确定支出预算是否不受约束。如果支出预算不受约束，则处理继续生成第一简单因果图。如果支出预算并非不受约束，则处理包括确定支出是否直接地连接到因果图的因子。如果支出不是直接地连接，则处理继续生成第一复杂因果图。如果支出不是直接地连接，则处理继续生成第二复杂因果图。

在302处，对是否存在导出因果图的因子进行确定。在一些实施例中，阻止通过普通最小二乘(OLS)获得β1的无偏差估计的主要因子是Xt与t之间的相关性。这可能是由于计量经济学中的内生性问题导致的。通过采用γ＝cov(X，∈)/var(X)和η＝∈-γX重写∈＝γX+η，导出下述：

Y＝β₀+(β₁+γ)X+η。

对于销售的又一因子和重要贡献是来自潜在消费者需求的直接影响，表示为₀，这可能会受到经济因子和季节性影响。有机搜索结果可能对销售有直接地贡献，表示为₁。由于内容项目标选择，因此用于确定的因子包括通常导致cov(X，∈₁)＞0的正相关的有机搜索内容和付费搜索内容。可以如模型4.1中那样对主要效应进行建模。

在304处，对拍卖因子的影响是否可忽略进行确定。在一些实施例中，用户提交搜索查询。通常存在两个后果：1)用户将在搜索页面的主体中看到URL加上几行描述的列表，这被称为有机结果，是由搜索引擎基于其与搜索查询的相关性进行排名的；2)如果搜索查询与一组内容提供方作为目标的特定关键字匹配，则将通过拍卖选择要在页面上示出的内容项。拍卖考虑各种因子包括：出价、内容项质量和内容提供方主页质量。用户可以点击有机结果中的一些URL或点击广告，然后登陆一些相关的网站。拍卖考虑各种因子包括：出价、内容项质量和内容提供方主页质量。用户可以点击有机结果中的一些URL或点击广告，然后登陆一些相关内容的特定网站进行订购。

在306处，对支出预算是否不受约束进行确定。在一些实施例中，搜索内容项由两个部分确定：搜索查询可用于匹配内容提供方作为目标的关键字，并且内容提供方具有参与针对搜索内容项的拍卖的预算。可以评估赞助内容提供方的预算，以查看特别地针对搜索内容项是否预算不受约束，或者是否存在相关搜索查询量的条件阈值或预定阈值。较大的或无条件的预算允许可忽略考虑消费者需求对拍卖因子的影响，诸如拍卖中内容项提供方的出价和竞争方的行为。

在310处，对支出是否直接地连接到因果图的因子进行确定。在一些实施例中，有机搜索结果可以对销售有直接地贡献。在一些实施例中，由于内容项目标选择，有机搜索内容和付费搜索内容正相关，导致到因果图的因子的连接。

在308处，生成第一简单因果图。在一些实施例中，当确定支出预算不受约束时，生成简单因果图。在一些实施例中，超过预定阈值量的预算被视为不受约束。在简单情形的示例实施例中，假定搜索广告是仅有的广告通道，并且其他媒体通道对销售的贡献(如果有的话)是可忽略的。在一些实施例中，Xt被设置为在第t个时间窗口针对内容提供方销售的特定产品的搜索内容项支出，并且Yt被设置为在第t个时间窗口期间针对该产品的销售。可以确定在与内容项曝光相同的时段内发生搜索内容项对销售的影响。

在312处，生成第一复杂因果图。如果搜索内容项支出与其他媒体支出不直接地相关，而是主要地通过消费者的相关搜索查询量、由搜索内容项清单的可用性来确定，则该因果关系该图简化为(reduce to)图6。这对于许多内容提供方近似成立，例如，当内容提供方使用出价优化而非特定的预算约束来控制搜索内容项支出时。在一些实施例中，在这种近似下，非搜索贡献者及其潜在的滞后效应不影响β1的可标识性。在一些实施例中，考虑了以下情况：其中，搜索内容提供不是可能显著地影响销售的仅有通道。在一些实施例中，X2表示所有非搜索内容项贡献者，例如，可能直接地影响销售的传统媒体通道和非搜索数字通道。非搜索贡献者也可能触发消费者针对产品在线进行更多搜索(即，漏斗效应)。内容提供方可能想要计划针对搜索内容项和其他媒体通道两者的预算。

在314处，生成第二复杂因果图。在一些实施例中，如果因为支出与其他媒体支出不直接地相关而是主要地通过搜索内容清单的可用性来确定，而可以减少第一复杂因果图，则可以生成第二复杂因果图。如果搜索内容项支出与其他媒体支出不直接地相关，而是主要地通过消费者的相关搜索查询量、根据搜索内容项清单的可用性来确定，则因果关系图可简化为图6。这对于许多内容提供方近似成立，例如，当内容提供方使用出价优化而非特定的预算约束来控制搜索内容项支出时。在这种近似下，非搜索贡献者及其潜在的滞后效应不影响β1的可标识性。

参考图4，示出了根据示例实施例的简单因果图400的框图。参考图5，示出了根据示例实施例的复杂因果图的框图500。参考图6，示出了根据示例实施例的具有一些简化假定的复杂因果图的框图600。

再次参考图4，该因果图表示下述简单情况：其中搜索内容项是内容提供方投资的仅有的媒体通道。在一些实施例中，使用后门准则以用于导出针对相对应的因果图的偏差校正的方法。在一些实施例中，使用简单因果图400，假定搜索广告是仅有的广告通道，并且其他媒体通道对销售的贡献(如果有的话)是可忽略的。如果Xt是在第t个时间窗口针对内容提供方销售的特定产品的搜索内容项支出，并且Yt是在第t个时间窗口期间针对该产品的销售，则可以假定在与内容项曝光相同的时段内发生搜索内容项对销售的影响。

在一些实施例中，使用以下模型：

Y_t＝β₀+β₁X_t+∈_t (4.1)

其中感兴趣参数是β1，其测量在搜索内容项支出Xt发生一个单位的改变但是t不改变的条件下的期望增量值。这里，β1被称为搜索广告的ROAS。也就是说，β1Xt测量搜索内容项对销售的因果影响，而t表示Xt未解释的、对销售的其他影响(均值由截距β0吸收)。

在一些实施例中，阻止通过普通最小二乘(OLS)获得β1的无偏估计的因子是Xt与t之间的相关性。这在计量经济学中称为内生性问题。通过采用γ＝con(X，∈)/var(X)和η＝∈-γX和η＝∈-γX重写∈＝γX+η，创建Y＝β0+(β1+γ)X+η的结果。容易验证cov(X,η)＝0，并且因此通过OLS进行的朴素估计β^1具有期望β1+γ而不是β1。在一些实施例中，为了获得β1的无偏估计，关键的是要了解∈由什么组成。对销售的重要贡献是来自潜在消费者需求的直接影响，表示为∈₀，其可能受到经济因子和季节性的影响。有机搜索结果可能对销售有直接地影响，表示为∈₁。由于内容项目标选择，有机搜索内容和付费搜索内容通常正相关，从而导致cov(X，∈₁)＞0。在一些实施例中，主要效应如图4中那样建模。通常期望cov(X，∈₀)＞0，并且因此如果∈＝∈₀+∈₁则(X，∈)＞0，这解释了朴素回归的高估现象。

在一些实施例中，令V为对于概括对产品的销售具有潜在影响的相关搜索查询量的足够的统计。由于不同的查询可能对销售具有不同的影响，因此将V测量为多维时间序列。当准确地测量V时，基于搜索内容项机制，以下假定是合理的：

∈₁⊥X|V (4.2)

即，在相关搜索查询的条件下，搜索内容项的支出独立于潜在的有机搜索影响。

在一些实施例中，搜索内容项由两个部分确定：搜索查询可用于匹配内容提供方作为目标的关键字，并且内容提供方具有参与针对搜索内容项的拍卖的预算。为了导出有用(working)的示例因果图，如下进行两个简单的并且明确的假定：

(a)内容提供方的搜索内容项预算不受约束

(b)在相关搜索查询量的条件下，消费者需求对拍卖因子(诸如内容提供方的出价和竞争方的行为)的影响是可忽略的

在一些实施例中，在这些假定下，可以如图4中那样描述因果图。该图隐式地假定了两者

∈₁⊥X|V和∈₀⊥X|V.

定理1.在一些实施例中，假定图4中的因果图对于付费搜索成立。如果X和V不是完全相关(perfectly correlated)，则在半参数模型的正则条件下，可以通过拟合以下加性回归模型来一致地估计搜索广告的ROAS，即图4中的β₁：

Y＝β₀+β₁X+f(V)+η (4.3)

其中f(·)是未知函数，并且η是残差、与X和f(V)不相关。例如，如图4中所示，存在从搜索内容项支出X到销售的、包含指向搜索内容项的箭头的四个路径：X←V→∈₁，X←V←消费者需求→∈₀，X←V←消费者需求→∈₀，X←拍卖←V→有机搜索→epsilon_1和X←拍卖←V←消费者需求→epsilon_0。根据定义，V满足相对于搜索内容项和销售的后门准则。根据后门调整定理，X对于Y的因果效应是通过(Y，X，V)可标识的。令f(v)＝E(∈|V＝v)和η＝∈-E(∈|V)。现在根据模型4.1，可以从条件期望中标识平均因果效应：

E(Y|X，V)＝β₀+β₁X+E(∈|X，V)。

由于因果图假定的条件独立性(∈₀，∈₁)⊥X|V，导出以下：

E(∈|X，V)＝E(∈|V)。

然后

E(Y|X,V)＝β₀+β₁X+f(V)。

根据加性索引(index)模型的可标识性定理，f(·)和β₁两者是可标识的。因此，在正则条件下，可以通过下述常规回归方法一致地估计β₁，该方法通过对f的适当的规格化，使得||Y-β₀-β₁X-f(V)||关于参数(β₀,β₁,f)最小化。当已知f是线性函数时，β₁的估计不仅是一致的而且是无偏的。

在一些实施例中，图6中表示的模型落入半参数模型类中，其中，感兴趣参数是β1，并且多余参数包括f(·)和η的残差分布，假定具有均值0和未知的有限方差。在一些实施例中，即使当搜索内容项的因果效应偏离简单线性形式时，图4中模型的公式化仍然可以提供关于平均因果效应的感兴趣的见解。当线性形式β₁X被放宽(relax)到未知函数时，结果可以自然地扩展。

上面的假定(a)和(b)是其中期望图4中的因果图成立的特殊情况。在一些实施例中，可以检查假定(a)。因果图所需的必要假定是，搜索内容项支出仅依赖于相关搜索查询量，并且其他因子可以视为不受消费者需求影响的噪声。

在一些实施例中，定理1中的假定是足够的但不是必须的，例如，如果搜索内容项支出仅依赖于内容项的预算并且完全随机化，以致违反了假定(a)，则模型4.3仍然可以如模型4.1中定义的那样，给出对搜索广告ROAS的一致的估计。

可能存在其中图4中的因果图不成立的情况。例如，如果内容提供方具有与消费者需求相关的相对较小的预算，并且总是通过设置相对较高的出价来用尽预算，则将存在从消费者需求到X直接边(edge)。在这种情况下，搜索广告ROAS不是可标识的。

参考图6，示出了根据示例实施例的具有一些简化假定的复杂因果图的框图600。更加复杂的因果图对以下情况进行建模：其中，搜索广告不是可能显著地影响销售的仅有通道。在一些实施例中，X2表示所有非搜索内容项贡献者，例如，可能直接地影响销售的传统媒体通道和非搜索数字通道。非搜索贡献者还可能触发消费者针对产品在线进行更多搜索(即，漏斗效应)。内容提供方可能想要计划针对搜索内容项和其他媒体通道两者的预算。在一些实施例中，图5示出了针对这种情形的因果图的示例。与上面的情况一样，该图是极大的简化。例如，它没有描述复杂性，诸如历史内容项可能影响当前销售(非搜索贡献者的滞后效应)，并且可能会忽略图中未示出的潜在薄弱联系(link)。

在一些实施例中，如果搜索内容项支出与其他媒体支出不直接地相关，而是主要地通过消费者的相关搜索查询量、根据搜索内容项清单的可用性来确定，则因果图可简化为图6中表示的模型。这对于许多内容提供方近似成立，例如，当内容提供方使用出价优化而非特定的预算约束来控制搜索内容项支出时。在这种近似下，非搜索贡献者及其潜在的滞后效应不影响β1的可标识性。

在一些实施例中，可以如定理2中那样导出用于复杂情形的简化理论。

定理2.(1)假定图5中的因果图对于搜索内容项成立，并且X2具有可忽略的滞后效应。付费搜索对于销售的因果关系是从观察数据(X1，X2，V，Y)中可标识的。如果X1与V和X2不是完全相关，则在正则条件下，可以通过拟合以下加性回归模型来一致地估计模型4.1中定义的搜索广告ROASβ1：

Y＝β0+β1X1+f(V,X2)+η(4.4)

其中，

f(v，x₂)＝E(∈₀|V＝v，X₂＝x₂)+E(∈₁|V＝v)+E(∈₂|X₂＝x₂)，

并且η是残差、与X1和f(V，X2)不相关。

定理2.(2)如果图6中的因果关系成立，则在正则条件下，可以通过拟合以下加性回归模型来一致地估计模型(4.1)中定义的搜索广告ROASβ1：

Y＝β0+β1X1+f(V)+η，(4.5)

其中β1是感兴趣参数，并且f是未知函数。即，估计过程与先前描述的简单情形相同。在一些实施例中，当证明了(1)时，可以根据定义来验证(V，X2)满足对于X1→Y的后门准则，并且因此使得X1对于Y的因果关系是可标识的。接下来，由于∈₁⊥X₁|V，∈₂⊥X₁|X₂并且∈₀⊥X₁|(V，X₂)，从因果图可以示出

E(Y|X₁，X₂，V)＝β₀+β₁X₁+E(∈₁|V)+E(∈₂|X₂)+E(∈₀|V，X₂)。

结果(2)可以类似地证明。

备注4.在一些实施例中，关于搜索内容项支出不存在预算约束。这意味着图6标识的情形可能比图5中的更加复杂的情形更为常见。图5的情形的实际模型可能需要仔细考虑X2中的滞后效应。

备注5.在一些实施例中，(X1，V)不满足对于X2→Y的后门准则，因为路径X2←消费者需求未被阻挡。例如，X2可以表示社交媒体内容项支出。这表明X2对于销售的因果效应不可以仅通过对(Y，X1，X2，V)的观察来一致地估计。

备注6.在一些实施例中，如果可以收集附加变量以满足对于X2→Y的后门准则，则不保证可以从传统MMM中的单个回归同时地估计X1和X2的因果效应。如果分别地满足对于X1→Y和X2→Y的后门准则的两个变量子集不相同，则通过对所有相关变量进行回归，可能获得无法解释的结果，甚至获得Simpson(辛普森)悖论，例如，通过对不必要的协变量进行调节(conditioning)，可能获得对某些媒体的负面影响而真正的影响是正面的。

参考图7，示出了根据示例实施例的消除搜索结果中的偏差的处理的流程图700。简而言之，该处理包括：标识与第一度量的增量值改变相关联的第一URL；标识与第一URL相关联的多个URL；接收包括查询的搜索查询数据；将接收到的搜索查询数据划分为多个组；基于多个组生成多个搜索查询子集；基于因果图生成加性回归模型；以及计算增量值改变的偏差校正估计。该处理还可以包括生成因果图，以用于在基于多个组生成加性回归模型时使用。

在一些实施例中，在702处生成因果图。因果图可以是有向无环图(DAG)，表示因果模型中变量之间的因果关系。其包括一组变量，被表示为图的节点、在模型的范围内定义。从节点i到另一节点j的箭头表示按从i到j的顺序的因果，即，在所有其他因子相同的情况下，i的改变可能导致j的改变。

在704处，标识与第一度量的增量值改变相关联的第一URL。在一些实施例中，V表示对于产品的销售具有潜在影响的相关搜索查询量。相关搜索查询的总数量潜在地很大，所以重要的是以可以方便地用于模型拟合的方式来概括搜索查询。对V的概括可能不是直接的，因为每个查询词的潜在影响可能不同。可以通过标识内容提供方的网站来标识第一个URL。在一些实施例中，还标识了内容提供方的顶级竞争方的网站及其顶级竞争方的网站。

在706处，标识与第一URL相关联的多个URL。在一些实施例中，接收包括查询的搜索查询数据。例如，可以收集与目标区域、时间窗口、人口统计等相关联的所有查询。对于每个查询，对在有机搜索结果中出现的每个URL(例如目的地URL)的次数进行计数。在一些实施例中，如果与查询相关联的一组URL包含内容提供方的网站，则该查询被认为与该内容提供方相关。S中的每个相关查询可以表示针对内容提供方产品的不同级别的需求。

在710处，接收到的搜索查询数据被划分为多个组。在一些实施例中，根据针对每个查询出现的URL的混合，将相关查询集S划分为三个组。出现在有机结果中的目的地URL还可以被分类为四个组：a)属于内容提供方，b)属于顶级竞争方，c)不属于内容提供方或其竞争方，但属于业务类别，以及d)不属于业务类别。

对于任何查询qi，分类到每个组中的URL的展示数量之和可以分别地被表示为wi,a、wi,b、wi,c和wi,d。在一些实施例中，wi,total＝wi,a+wi,b+wi,c+wi,d是qi的总展示，并且wi,category＝wi,a+wi,b+wi,c是qi的类别展示。

在712处，生成基于多个组的多个搜索查询子集。在一些实施例中，如果查询数量中的类别数量的总数小于预定阈值，则查询被忽略，因为其不太可能是相关的。否则：如果目标子集大于预定阈值，则将其分类为目标偏爱；否则如果相关联的竞争方子集大于阈值，则将其分类为竞争方偏爱；否则将其分类为一般兴趣。在一些实施例中，这导致三个查询子集，例如，S1包含所有目标偏爱查询，S2包含所有竞争方偏爱查询，以及S3包含所有一般兴趣查询。给定三个查询集S1、S2和S3，可以在每个时间窗口t中对针对每个查询集的搜索的总数量进行计数，并且相对应地将其标记为V1t(目标偏爱)、V2t(竞争方偏爱)和V3t(一般兴趣)。总和V1t+V2t+V3t可以是在时间窗口t处的指定类别搜索量。在一些实施例中，50％是对于上述分段化过程所需的阈值的合理选择。

在步骤714处，生成基于因果图的加性回归模型。SBC方法的实施方式可以依赖于拟合定理1和定理2标识的加性模型。对于简单情形，在一些实施例中，通过加性函数如在定理1中所定义地来近似函数f(V)，其中，V＝(V1，V2，V3)。

在716处，计算增量值改变的偏差校正估计。可以通过拟合加性回归模型来实施β1的偏差校正估计。在一些实施例中，使用限制最大似然(REML)算法，该算法将加性回归过程重新构造为拟合参数混合效应模型。

在一些实施例中，当搜索查询的数量足够大时，代替通过加性函数来近似f(V)，可以直接地通过3维全张量积平滑来近似f(V)并且通过以下回归来估计β1：

Y～β0+β1X+te(V1,V2,V3) (5.2)

其中te是MGCV中的R函数以用于实施全张量积平滑。

在一些实施例中，可以通过查看利用未知平滑函数s(X)代替β1X的结果来检查模型的稳定性，假定该未知平滑函数s(X)是单调增加的。基于边际ROAS计算的结果如下：

β^1＝\sum_t(s^((1+δ)Xt)-s^(Xt))/(δ\sum_tXt)

这是非参数模型拟合过程。在一些实施例中，通过该过程的边际ROAS点估计与来自模型5.1的估计具有相当的可比性。

为了比较的目的，通过OLS拟合的朴素估计也可以如下计算：

Y～β0+β1X. (5.3)

消费者需求对销售具有很大影响，但是难以直接地测量。建模者有时使用代理变量来控制潜在的消费者需求。在一些实施例中，还包括需求调整后的估计，并且通过以下计算需求调整后的估计：

Y～β0+β1X+s(S) (5.4)

其中S代表消费者需求代理变量。类别搜索量可以用于S。

对于通过图6的因果图描述的、其中搜索内容项支出与其他媒体支出之间不存在直接相关性的复杂情形，其根据定理2简化为简单情形。

参考图8，根据示例实施例示出了一组图表800，其示出搜索查询分类。在搜索查询分类的示例中，每个点用于相关查询。x轴示出target_weight/category_weight(目标权重/类别权重)，而y轴示出category_weight/total_weight(类别权重/总权重)。垂直红线右手侧的查询被分组为目标偏爱。

在一些实施例中，销售、搜索广告支出和搜索查询量的时间序列(目标偏爱维度)可以根据以下的第一情况研究中的真实数据来模拟，其中，每个时间序列根据其中值重新缩放。在每种情况中的每个变量的时间序列遵循明显的季节性模式，例如，星期中的天和季节性趋势。在一些实施例中，数据被保持为私有并且不报告每个变量的规模(scale)以保持数据私有，不报告每个变量的规模，但是报告一些高级概要统计，诸如成对的相关性和拟合的模型参数。另外，在一些实施例中，实验点估计被缩放为等于一，并且所有结果和标准误差被索引到该结果。

参考图9，根据示例实施例示出了散点图和框图900，其示出了用于第一情况研究的度量与估计的ROAS之间的相关性。在这种情况下，内容提供方是中型(具有数千万美元的年收入)电子商务零售商，并且在线上接收消费者的订单之后提供产品的线下递送。搜索广告是仅有的主要营销通道，而在其他媒体通道上没有显著的支出。此示例中可用的数据包括2015年中的65天的销售、内容项支出和搜索查询量的y个度量。图6.2顶行的左面板显示了成对的散点图，其中，上面板上的数字是Pearson(皮尔逊)相关性。例如，广告支出与销售之间的相关性为0.91。关于广告支出的简单线性模型可以很好地拟合并且预测销售。在这种情况下，目标偏爱的搜索查询量与内容项支出之间的强相关性(0.91)表明：1)可能存在很强的内容项目标选择；以及2)内容提供方很少或从未达到其搜索内容项预算的最高额。另一方面，搜索量与销售之间的相关性为0.97。在一些实施例中，如模型(5.1)中所描述地拟合SBC-SP：响应β₀+β₁×广告支出+s(目标)+s(竞争方)+s(一般兴趣)，其中，目标、竞争方和一般兴趣分别表示目标偏爱搜索查询量、竞争方偏爱搜索查询量和一般兴趣搜索查询量。图9、图10和图11包括用于三个情况研究的搜索内容项支出、目标偏爱搜索量和销售(左面板)与估计的ROAS(右面板)之间的散点图和相关性，其中，NE代表朴素估计而SA代表需求调整后的估计；EXP代表来自随机地理实验的参考值。条线示出β^1±标准误差(β^1)(标准误差)的值。根据原始EXP点估计值重新缩放点估计值和标准误差两者，以保护数据隐私。

β1的点估计为3.0，标准误差为1.02。对于目标偏爱的查询量的拟合平滑函数是单调增加的，并且几乎是线性的(参见图12)。调整后的R2值为0.95。期望单调性，但是有趣的是从数据中直接地看到拟合曲线，而没有以任何方式强制单调性。另一方面，对于竞争方偏爱搜索量的拟合函数在统计上不显著，而对于一般兴趣的拟合函数在统计上是显著的。

基于OLS、模型5.3的β1的朴素估计为14.7，标准误差为0.83。如模型5.4中那样，使用类别搜索量来控制季节性需求，拟合值为7.1，标准误差为1.51。这两个模型拟合分别地具有为0.83和0.90的调整后的R2值。

内容提供方在时段的第二个月期间进行了随机地理实验。ROAS的索引实验估计的标准误差为0.66。ROAS的朴素估计几乎是实验结果的15倍。通过简单的基于类别搜索量的需求调整，差距缩小但是估计仍然是七倍大。相比之下，SBC估计更加接近实验结果。参见图9中的对比。

参考图10，根据示例实施例示出了散点图和框图1000，其示出用于第二情况研究的度量与估计的ROAS之间的相关性。内容提供方的业务是例如旅游市场。在大约四个月(135天)的时段上以每天为基础示出搜索内容项支出、KPI、搜索查询量数据。在最后六周中示出了随机实验。

在这种情况下，需求调整未使偏差减少很多，将估计的ROAS从8.4

(标准误差为1.30)带到7.3(标准误差为1.14)。另一方面，SBC估计为1.9，标准误差为0.71，非常接近标准误差为0.14的实验结果。参见图10中的对比。针对目标偏爱搜索量的拟合平滑函数再次单调增加，并且几乎是线性的。与图9相似，竞争方偏爱搜索量在统计上不显著，如图10所示。值得注意的是，目标偏爱搜索量与搜索内容项支出之间的相关性仅为0.47，远低于图9中的相关性，但是销售与搜索量之间的强相关性可能表明，在这种情况下潜在的消费者需求或有机搜索或者两者对销售具有明显地贡献。

参考图11，示出了根据示例实施例的散点图和框图1100，其示出用于第三情况研究的度量与估计的ROAS之间的相关性。内容提供方是例如民族服装零售商，而KPI是对其网站的访问次数。数据涵盖大约三个月(88天)。在最后六周中示出了随机实验。

ROAS的SBC估计为0.8，标准误差为0.28；朴素估计为2.9，标准误差为0.23；而需求调整后的估计为1.4，标准误差为0.33。参见图11中的图形对比。在这种情况下，朴素估计大约是实验结果的三倍大。需求调整后的估计约为朴素估计的一半，非常接近实验结果。如情况1和情况2那样，考虑到标准误差，SBC的估计再次与实验结果具有非常的可比性。如图6.3(c)所示，对于目标偏爱搜索查询量的拟合曲线再次几乎是线性的，除了在左端更加陡峭，而另外两个搜索维度具有可忽略的影响。

参考图12，示出了根据示例实施例的拟合函数值加上模型残差的散点图1200，其示出用于第一情况研究的选择偏差。参考图13，示出了根据示例实施例的拟合函数值加上模型残差的散点图1300，其示出用于第二情况研究的选择偏差。参考图14，示出了根据示例实施例的拟合函数值加上模型残差的散点图1400，其示出用于第三情况研究的选择偏差。在一些实施例中，图12至图14示出了通过图中的目标偏爱搜索查询量、竞争方偏爱搜索查询量和一般兴趣搜索查询量的改变而解释的选择偏差，在这些图中，在如回归模型5.1中描述的加性函数中拟合了对于3-dim(三维)搜索查询量的响应曲线和95％置信带。散点图是拟合的函数值加上模型残差。

参考图15，示出了根据示意性实施例的计算系统1500的框图。图15示出了计算系统1500的图示，其可以用于例如实施示意性用户设备104、示意性内容管理系统108、示意性内容提供方设备106、示意性分析系统150和/或本公开中描述的各种其他示意性系统。计算系统1500包括总线1505或用于传达信息的其他通信组件，以及耦合到总线1505用于处理信息的处理器1510。计算系统1500还包括主存储器1515，例如随机存取存储器(RAM)或其他动态存储设备，其耦合到总线1505以用于存储信息和将由处理器1510执行的指令。主存储器1515也可以用于在处理器1510执行指令期间，存储位置信息、临时变量或其他中间信息。计算系统1500还可以包括只读存储器(ROM)1510，或耦合到总线1505以用于存储用于处理器1510的静态信息和指令的其他静态存储设备。存储设备1525，诸如固态设备、磁盘或光盘，耦合到总线1505以用于持久地存储信息和指令。

计算系统1500可以经由总线1505耦合到显示器1535，诸如液晶显示器或有源矩阵显示器，以用于向用户显示信息。输入设备1530，诸如包括字母数字和其他键的键盘，可以耦合到总线1505以用于向处理器1510传达信息和命令选择。在另一实施方式中，输入设备1530具有触摸屏显示器1535。输入设备1530可以包括光标控制，诸如鼠标、轨迹球或光标方向键，以用于向处理器1510传达方向信息和命令选择并且用于控制显示器1535上的光标移动。

在一些实施方式中，计算系统1500可以包括通信适配器1540，诸如网络适配器。通信适配器1540可以耦合到总线1505，并且可以被配置为使能与计算或通信网络1545和/或其他计算系统的通信。在各种示意性实施方式中，可以使用通信适配器1540来实现任何类型的网络配置，诸如有线(例如，经由以太网)的、无线(例如，经由WiFi、蓝牙等)的、预配置的、自组的、LAN、WAN等。

根据各种实施方式，响应于处理器1510执行包含在主存储器1515中的指令的布置，计算系统1500可以下述处理：该处理实现了本文中描述的示意性实施方式。这样的指令可以从诸如存储设备1525的另一计算机可读介质被读入主存储器1515中。执行包含在主存储器1515中的指令的布置使得计算系统1500执行本文中描述的示意性处理。也可以采用多处理布置中的一个或多个处理器来执行包含在主存储器1515中的指令。在替选实施方式中，可以使用硬连线电路代替软件指令或与软件指令结合来实施示意性实施方式。因此，实施方式不限于硬件电路和软件的任何特定组合。

尽管在图15中描述了示例处理系统，但是可以使用其他类型的数字电子电路，或者以计算机软件、固件或硬件(包括在本说明书中公开的结构及其结构等效物)或它们中的一个或多个的组合来执行本说明书中描述的主题和功能操作的实施方式。

可以使用数字电子电路或以体现在有形介质上的计算机软件、固件或硬件(包括在本说明书中公开的结构及其结构等效物)或它们中的一个或多个的组合来执行本说明书中描述的主题和操作的实施方式。本说明书中描述的主题的实施方式可以实施为一个或多个计算机程序，即，计算机程序指令的一个或多个模块，其被编码在一个或多个计算机存储介质上以通过数据处理装置执行或控制数据处理装置的操作。替选地或附加地，程序指令可以被编码在人工生成的传播信号上，例如，机器生成的电、光或电磁信号，其被生成为对信息进行编码以传输到合适的接收器装置供数据处理装置执行。计算机可读存储介质可以是计算机可读存储设备、计算机可读存储基板、随机或串行访问存储器阵列或设备或者它们中的一个或多个的组合中；或者被包括在上述之中。而且，尽管计算机存储介质不是传播信号，但是计算机存储介质可以是以人工生成的传播信号编码的计算机程序指令的源或目的地。计算机存储介质还可以是一个或多个单独的组件或介质(例如，多个CD、盘或其他存储设备)或者包括在其中。因此，计算机存储介质是有形的和非暂时性的两者。

本说明书中描述的操作可以被实施为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他源接收的数据执行的操作。

术语“数据处理装置”或“计算设备”涵盖用于处理数据的所有种类的装置、设备和机器，例如包括，可编程处理器、计算机、片上系统或者上述中的多个或组合。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或者上述中的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础结构，诸如网络服务、分布式计算和网格计算基础结构。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言(包括编译或解释语言、声明或过程语言)编写，并且可以部署为任何形式，包括独立程序或适合在计算环境中使用的模块、组件、子例程、对象或其他单元。计算机程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)、专用于所讨论程序的单个文件中或多个协调文件中(例如，存储一个或多个模块、子程序或部分代码的文件)。计算机程序可以部署为在一个计算机上或者位于一个站点上或分布在多个站点上并且通过通信网络互连的多个计算机上执行。

本说明书中描述的处理和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行，以通过对输入数据进行操作并且生成输出来执行动作。处理和逻辑流也可以由专用逻辑电路执行，并且装置也可以实施为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合于执行计算机程序的处理器包括，例如，通用和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于根据指令执行动作的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括或可操作地耦合到用于存储数据的一个或多个大容量存储设备(例如，磁、磁光盘或光盘)，以从一个或多个大容量存储设备接收数据或向其传输数据或者两者。但是，计算机不必须具有这样的设备。而且，计算机可以被嵌入到另一设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)，仅举几例。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备，包括例如：半导体存储设备，例如EPROM、EEPROM和闪速存储器设备；磁盘，例如内部硬盘或可移除磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，可以使用下述计算机来执行本说明书中描述的主题的实施方式，该计算机具有：显示设备，例如CRT(阴极射线管)或LCD(液晶显示器)监视器，以用于向用户显示信息；以及键盘和指点设备，例如，鼠标或轨迹球，用户可以通过其向计算机提供输入。其他种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈，听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互；例如，通过响应从网页浏览器收到的请求，将网页发送到用户客户端设备上的网页浏览器。

本说明书中描述的主题的实施方式可以使用下述计算系统执行，该计算系统包括：后端组件，例如，作为数据服务器；或包括中间件组件，例如，应用服务器；或包括前端组件，例如，具有图形用户界面或网页浏览器的客户端计算机，用户可以通过图形用户界面或网页浏览器与本说明书中描述的主题的实施方式进行交互；或一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，网络间(例如互联网)和对等网络(例如自组对等网络)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生的。在一些实施方式中，服务器将数据(例如，HTML页面)发送到客户端设备(例如，出于向与客户端设备交互的用户显示数据和从其接收用户输入的目的)。在服务器处，可以从客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

在一些示意性实施方式中，本文公开的特征可以实施在智能电视模块(或联网(connected)的电视模块、混合电视模块等)上，该智能电视模块可以包括配置为将互联网连接性与(例如，经由线缆、卫星、空中或其他信号接收的)更传统的电视节目源集成的处理电路。智能电视模块可以物理地并入到电视机中，或者可以包括单独的设备，诸如，机顶盒、蓝光或其他数字媒体播放器、游戏机、酒店电视系统以及其他配套设备。智能电视模块可以配置为允许观看者在网络上、在本地有线电视频道上、在卫星电视频道上搜索和查找视频、电影、照片和其他内容，或者搜索和查找存储在本地硬盘驱动器上的视频、电影、照片和其他内容。机顶盒(STB)或机顶单元(STU)可以包括信息家电设备，其可以包含调谐器并且连接到电视机和外部信号源，将信号转换成内容，然后将内容显示在电视屏幕或其他显示设备上。智能电视模块可以被配置为提供主屏幕或顶层屏幕，其包括用于多个不同应用的图标，诸如网络浏览器和多个流媒体服务(例如，Netflix、Vudu、Hulu等)，连接的线缆或卫星媒体源，其他网络“频道”等。智能电视模块可以进一步配置为向用户提供电子节目指南。智能电视模块的伴随应用可以在移动计算设备上操作，以向用户提供关于可用节目的附加信息，以允许用户控制智能电视模块等。在替选实施方式中，可特征可以实施在膝上型计算机或其他个人计算机、智能电话、其他移动电话、手持计算机、平板型PC或其他计算设备上。

虽然本说明书包含许多具体的实施方式细节，但是这些不应被解释为对任何发明或可能要求保护的范围的限制，而是作为特定于特定发明的特定实施方式的特征的描述。在单独实施方式的上下文中在本说明书中描述的特定特征也可以组合或在单个实施方式中执行。相反，在单个实施方式的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施方式中执行。此外，尽管特征可以在以上被描述为以特定组合起作用并且甚至最初如此要求保护，但是在某些情况下可以从组合中排除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变型。附加地，关于特定标题所描述的特征可以关于在其他标题下所描述的示意性实施方式和/或与在其他标题下所描述的示意性实施方式组合地被利用；所提供的标题仅出于可读性的目的而被包括，并且不应当被解释为限制关于这样的标题所提供的任何特征。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应当被理解为：为了实现期望的结果要求以所示的特定顺序或顺序次序执行这样的操作，或者执行所有示出的操作。在特定情况下，多任务处理和并行处理可能是有利的。此外，上述实施方式中的各种系统组件的分离不应当被理解为在所有实施方式中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以在单个软件产品中集成在一起或者被打包到体现在有形介质上的多种软件产品。

因此，已经描述了主题的特定实施方式。其他实施方式在所附权利要求的范围内。在某些情况下，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。另外，附图中描绘的处理不一定需要所示的特定顺序或顺序次序来实现期望的结果。在某些实施方式中，可以使用多任务处理和并行处理。

Claims

1.一种方法，包括：

通过一个或多个处理器，标识与第一度量的增量值改变相关联的第一统一资源定位符(URL)；

通过一个或多个处理器，标识与第一URL相关联的多个URL；

在第一时间窗口中从目标地理区域接收包括查询的搜索查询数据；

通过一个或多个处理器，将接收到的搜索查询数据划分为多个组，所述多个组包括与第一URL相关联的第一组、与多个URL中的一个或多个相关联的第二组以及与业务类别相关联的第三组，每个相应的关联通过等于或超过第二度量的预定阈值来定义；

通过一个或多个处理器，基于多个组生成多个搜索查询子集；

通过一个或多个处理器，基于因果图生成加性回归模型，所述因果图包括与第一度量的增量值改变相关联的因果效应的标识；以及

通过一个或多个处理器，通过将加性回归模型拟合到多个搜索查询子集来计算第一度量的增量值改变的偏差校正估计。

2.根据权利要求1所述的方法，还包括：

确定接收到的搜索查询数据的第一搜索词与包括第一URL的搜索结果相关联；

确定接收到的搜索查询数据的第二搜索词与包括一个或多个URL中的一个的搜索结果相关联；

通过一个或多个处理器，将第一搜索词划分到第一组并且将第二搜索词划分到第二组。

3.根据权利要求1所述的方法，还包括：

确定第一时间窗口；

通过一个或多个处理器，计算第一组中的第一搜索数量、第二组中的第二搜索数量和第三组中的第三搜索数量；

通过一个或多个处理器，计算第一组、第二组和第三组的总搜索量；以及

确定第一组中的第一搜索数量，第二组中的第二搜索数量和第三组中的第三搜索数量中的至少一个相比于总搜索量超过第二预定阈值。

4.根据权利要求1所述的方法，还包括：

确定接收到的搜索查询数据中的搜索查询的数量超过预定搜索查询阈值；以及

在确定接收到的搜索查询数据中的搜索查询的数量超过预定搜索查询阈值之后，使用三维全张量积平滑来生成加性回归模型。

5.根据权利要求1所述的方法，其中，第一度量包括广告支出回报。

6.根据权利要求1所述的方法，还包括使用限制最大似然(REML)算法来重新构造加性回归模型。

7.根据权利要求1所述的方法，其中，搜索查询数据包括使用从包含目标地理区域、时间窗口和用户人口统计的组中选择的标准中的至少一个所选择的所有查询。

8.一种系统，包括：

至少一个计算设备，可操作地耦合到至少一个存储器并且被配置为：

标识与第一度量的增量值改变相关联的第一统一资源定位符(URL)；

标识与第一URL相关联的多个URL；

将接收到的搜索查询数据划分为多个组，所述多个组包括与第一URL相关联的第一组、与多个URL中的一个或多个相关联的第二组以及与业务类别相关联的第三组，每个相应的关联通过等于或超过第二度量的预定阈值来定义；

基于多个组生成多个搜索查询子集；

基于因果图生成加性回归模型，所述因果图包括与第一度量的增量值改变相关联的因果效应的标识；以及

通过将加性回归模型拟合到多个搜索查询子集来计算第一度量的增量值改变的偏差校正估计。

9.根据权利要求8所述的系统，还包括所述至少一个计算设备被配置为：

将第一搜索词划分到第一组并且将第二搜索词划分到第二组。

10.根据权利要求8所述的系统，还包括所述至少一个计算设备被配置为：

确定第一时间窗口；

计算第一组中的第一搜索数量、第二组中的第二搜索数量和第三组中的第三搜索数量；以及

计算第一组、第二组和第三组的总搜索量。

11.根据权利要求8所述的系统，还包括所述至少一个计算设备被配置为：

确定接收到的搜索查询数据中的搜索查询的数量超过预定数量的搜索查询阈值；以及

在确定接收到的搜索查询数据中的搜索查询的数量超过预定数量的搜索查询阈值之后，使用三维全张量积平滑来生成加性回归模型。

12.根据权利要求8所述的系统，其中，第一度量包括广告支出回报。

13.根据权利要求8所述的系统，还包括所述至少一个计算设备被配置为：使用限制最大似然(REML)算法来重新构造加性回归模型。

14.根据权利要求8所述的系统，其中，搜索查询数据包括使用从包含目标地理区域、时间窗口和用户人口统计的组中选择的标准中的至少一个所选择的所有查询。

15.一种在其中体现有计算机可执行指令的非暂时性计算机可读的介质，所述计算机可执行指令在由计算系统的一个或多个处理器执行时，使得计算系统执行处理，包括：

标识第一内容项；

确定媒体混合环境与第一内容项相关联；

确定媒体混合环境的第一媒体与媒体混合环境的第二媒体之间的因果关系；

标识与第一内容项相关联的第一统一资源定位符(URL)；

标识与第一URL相关联的多个URL；

基于多个组生成多个搜索查询子集；

基于因果关系计算媒体混合环境的第一媒体与媒体混合环境的第二媒体之间的偏差因子；

使用媒体混合环境的第一媒体与媒体混合环境的第二媒体之间的偏差因子生成加性回归模型；以及

16.根据权利要求15所述的介质，所述处理还包括：

确定接收到的搜索查询数据的第二搜索词与包括一个或多个URL中的一个的搜索结果相关联；以及

17.根据权利要求15所述的介质，所述处理还包括：

确定第一时间窗口；

计算第一组、第二组和第三组的总搜索量。

18.根据权利要求15所述的介质，所述处理还包括：

19.根据权利要求15所述的介质，所述处理还包括：使用限制最大似然(REML)算法来重新构造加性回归模型。

20.根据权利要求15所述的介质，其中，搜索查询数据包括使用从包含地理目标区域、时间窗口和用户人口统计的组中选择的标准中的至少一个所选择的所有查询。