CN110622196B

CN110622196B - 评估依赖于聚合历史数据的模型

Info

Publication number: CN110622196B
Application number: CN201880031437.8A
Authority: CN
Inventors: S.张; J.瓦弗
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-09-18
Filing date: 2018-03-14
Publication date: 2023-11-28
Anticipated expiration: 2038-03-14
Also published as: CN110622196A; US20190087469A1; WO2019055065A1; US10719521B2; EP3607522A1

Abstract

描述了用于模型验证的系统和方法。用于模型验证的系统和方法包括：针对表示模拟群体的数据集生成细分状态的第一和第二时间序列，该数据集例如是与模拟群体的各个区段对应的成员计数的集合。细分状态的第一和第二时间序列是通过分别经过第一和第二模拟对数据集进行处理而生成，第一和第二模拟中的每一个包括多个事件函数的迭代应用。第一和第二模拟在至少一个容量上不同，例如，一个包括配置有第一参数的第一事件函数，而第二个则没有。可以将第一时间序列和第二时间序列之间的差的分析与使用主题模型对时间序列之一的分析进行比较。然后，将比较用于验证模型或证明准确性、不准确性和/或模型关于性能度量的偏差。

Description

评估依赖于聚合历史数据的模型

相关专利申请的交叉引用

本申请要求2017年9月18日提交的美国专利申请No.15/707,594的权益和优先权，其全部公开内容通过引用合并于此。

背景技术

涉及大量变量的复杂系统可能受到多种不同因素的影响。已经开发出模型来尝试衡量或量化各个因素的影响。但是，这些模型无法控制其他因素的影响。结果，这些模型的有效性或准确性以及由这些模型生成的评估或预测的有效性或准确性会发生变化。这些模型是可以校准和调整的衡量工具。为了校准衡量工具，应将工具应用于已知准确性的标准。但是，对于许多复杂的系统，没有已知的可重复标准。

例如，在用于评估营销策略并识别营销策略的变化如何影响关键绩效指标的模型中可以看到此问题。营销模型(例如媒体混合模型(“MMM”))通常会分析表示无法重建的真实世界的事件的聚合的历史数据(例如，由于外部变量超出了建模者的视野或控制)。需要一种能够建立用于评估依赖于聚合历史数据的营销模型的基础事实(ground truth)的可靠市场模拟。

发明内容

描述了用于模型验证的系统和方法。用于模型验证的系统和方法包括：针对表示模拟群体的数据集生成细分(segmentation)状态的第一和第二时间序列，该数据集例如是与模拟群体的各个区段(segment)对应的成员计数的集合。细分状态的第一和第二时间序列是通过分别经过第一和第二模拟对数据集进行处理而生成，第一和第二模拟中的每一个包括多个事件函数的迭代应用。第一和第二模拟在至少一个容量上不同，例如，一个包括配置有第一参数的第一事件函数，而第二个则没有。可以将第一时间序列和第二时间序列之间的差的分析与使用主题模型对时间序列之一的分析进行比较。然后，将比较用于验证模型或证明准确性、不准确性和/或模型关于性能度量的偏差。

在至少一个方面，描述了一种模型验证的方法，该方法包括：通过包括处理器的数据模拟器生成数据集，该数据集表示模拟群体，该数据集包括根据细分方案与模拟群体的各个区段对应的成员计数的集合。该方法包括通过经过第一模拟对数据集进行处理来生成细分状态的第一时间序列，第一模拟包括第一多个事件函数的迭代应用，该第一多个事件函数包括配置有第一参数的第一事件函数，并且通过经过第二模拟对数据集进行处理来生成细分状态的第二时间序列，第二模拟包括第二多个事件函数的迭代应用，其中，第二多个事件函数不包括配置有第一参数的第一事件函数。该方法包括识别性能度量的第一值，该第一值表示第一时间序列和第二时间序列之间的差。该方法包括对于主题模型识别性能度量的第二值，该第二值由将所述主题模型应用于所述第一时间序列或所述第二第一时间序列中的一个的输出。然后，该方法通过将第一值与第二值进行比较来确定主题模型关于性能度量的有效性得分。

以下是与这些和类似方法、装置和系统有关的各种概念以及其实施方式的各种详细说明。由于所描述的概念不限于任何特定的实施方式，所以可以以多种方式中的任何一种来实现上面介绍的以及下面更详细讨论的各种概念。

附图说明

当结合附图时，通过参考以下详细描述，将更充分地理解本公开的上述和相关目的、特征和优点，其中：

图1A是示出适合在本文所述的各种实施方式中使用的示例计算环境的框图；

图1B是示出适合在本文所述的各种实施方式中使用的示例计算设备的框图；

图2A是在其上模拟器迭代地在区段之间迁移群体的时间线的图示；

图2B示出了在一组活动状态中的每一个中可以执行的动作以及可能发生的活动的示例；

图3A是示例转变函数(transition function)的框图；

图3B是用于对媒体渠道(channel)的影响进行建模的示例转变函数的框图；

图3C是用于对在线营销的影响进行建模的示例转变函数的框图；

图4A是无竞争环境中多个区段的需求曲线的曲线图；

图4B、图4C和图4D是在竞争环境中相对于价格变化绘制的购买概率的曲线图；

图5是用于将转变函数迭代地应用于群体细分数据的方法流程图；

图6是用于模型验证的示例方法的流程图；和

图7A和图7B是来自示例模拟的对于媒体渠道的估计或ROAS和mROAS分布的直方图。

为了清楚起见，并非每个部件都会在每个图中标记。这些图并非意图按比例绘制。在各个附图中，相同的附图标记和标号指示相同的要素。

具体实施方式

涉及大量变量的复杂系统包括，例如，天气预测系统、市场分析系统、交通预测系统、电梯需求预测系统等。通常，这些(和其他)复杂系统可能会受到多种不同因素的影响。例如，天气预测使用基于例如降水水平、湿度、气压、温度、风速和转变锋(transitionfront)的移动的变量的模型。虽然容易知道预测是否准确(例如，在预测下雨时下雨了，或者没有下雨)，但可能难以知道任何一个变量施加了多少影响(例如，因为温度下降而下雨或反之？)。类似地，在广告时，难以知道广告支出驱动多少销售，并且更特别地说，难以知道一种格式(例如，广播媒体)的广告支出与另一种格式(例如，在线广告)的广告支出相比驱动多少销售。广告业使用模型(例如，媒体混合模型，“MMM”)来评估广告策略的功效(例如，关键绩效指标，“KPI”，例如投资回报率，“ROI”)。媒体混合模型有时也称为混合媒体模型或营销混合模型。与天气或交通预测一样，所使用的模型通常是回顾性的，分析聚合历史数据以估计广告策略对实现特定目标(例如转化)的贡献程度。广告主可以使用这些模型为将来的广告费用进行预测。在线广告网络通常是许多这些策略的一部分，并且网络的广告客户正在使用行业模型对网络的广告产品进行分级。但是，这些模型来自外部供应商，并且以各种不同的方式起作用，通常是“黑盒子”，其中一些偏向于供应商偏爱的哲学或方法论。这些偏向可能会在在线广告网络上反映好或坏，因此这在市场上造成了关于实际价值的混乱。

本文描述了用于验证第三方模型的系统和验证第三方模型的方法。这可以类比于核实特定标尺或温度计的准确性，而不是直接测量距离或温度。简而言之，根据一些实施例，模拟器以根据一个或多个分类(例如，市场兴趣、饱和度、兴趣活动、品牌偏好/忠诚度和准入(access))而被分割的初始群体数据集(其可以基于实际的群体状态或随机地生成)启动。模拟器将转变函数迭代地应用于该数据，每个转变函数基于对应的事件或期望来模拟区段上群体分布的增量变化。例如，模拟器可以包括与在特定预算下一周的电视广告对应的转变函数。该模拟建立“基础事实”。可以在函数或用于函数的参数变化的情况下在相同初始群体数据集上重新运行该模拟，并且不同模拟运行之间的比较阐明了变化的累积影响。例如，与将电视广告预算设置为大于零的值的模拟运行相比，将电视广告预算设置为零的模拟运行可以证明电视广告预算的ROI。如果参数和函数足够准确，则着眼于最终数据的回顾模型应为给定KPI赋予相同(或相似)的值。因此，通过将模型应用于通过模拟生成的测试历史，可以使用模拟来验证模型。

本文描述的一个示例模拟被称为聚合营销系统模拟器(“AMSS”)。AMSS是一种模拟工具，其能够生成与营销衡量(例如渠道级营销支出、网站访问、竞争对手支出、定价、销量等)有关的聚合级时间序列数据。它按照马尔可夫模型模拟消费者在离散潜伏状态之间的移动。该模拟能够在广范围的营销/建模情况上生成营销数据，并为营销影响建立“基础事实”。(例如、广告支出的回报、广告支出的边际回报、优化的营销预算分配等)。它是一种在聚合级模拟营销系统的评估工具。模型评估框架分为三个部分：(1)数据模拟模型；(2)在数据模拟的任何设置下报告关键营销度量的基础事实的方法；以及(3)用于对照模拟数据评估营销方法的系统。基于模型准确估计关键营销度量(例如广告支出回报率(“ROAS”))的能力来评估模型。将来自模型(被应用于来自AMSS模拟的数据)的估计与通过模拟建立的“基础事实”进行比较。

参考说明性示例计算环境描述包括AMSS在内的这些模拟以及使用这些模拟来评估模型。但是，这些模拟的应用不限于该示例。所描述的模拟和评估具有不限于营销和广告的应用。

图1A是示出示例计算环境100的框图。计算环境100包括通信网络110，媒体设备120通过该通信网络110接收媒体内容。媒体设备120可以包括被动式媒体接收器设备和/或交互式媒体呈现设备。通信网络110可以包括例如电视和/或无线电广播基础设施、卫星通信基础设施、电缆媒体基础设施、电话网络和/或例如互联网的数据网络。计算环境100包括例如分发器服务器130、模型分析服务器140和模拟服务器150的数据处理系统(“服务器”)。这些服务器可以使用例如分发器数据存储装置136和模拟数据存储装置156的数据存储系统。下面更详细地描述的图1B是示出示例计算设备101的框图，该示例计算设备101适合用作某些类型的媒体设备120或适合于配置为图1A所示的服务器130、140和150中的任何一个。图1B还示出了示例网络110，其使得能够在各种节点之间进行通信，例如，服务器130、140和150之间的通信，和/或服务器130、140和150与媒体设备120之间的通信。

仍参考图1A，并且更详细地，网络110使得能够在各种节点之间(例如在分发器服务器130和媒体设备120之间)进行通信。网络110可以包括例如广播网络、电话网络、电缆网络和例如互联网的数据网络。通常，数据网络使能能够在各种节点(“网络设备”)之间(例如计算设备101(图1B中所示)之间)进行通信。在一些实施方式中，数据作为数据分组流，例如以根据开放系统互连(“OSI”)层的数据分组的形式，通过网络110从源节点流向目的地节点。分组流可以使用例如OSI第4层传输协议，例如用户数据报协议(“UDP”)、传输控制协议(“TCP”)或流控制传输协议(“SCTP”)，经由在例如互联网协议(“IP”)的OSI第3层网络协议(例如，IPv4或IPv6)上分层的网络110而被发送。网络110由链接在一起以形成参与设备之间的一个或多个数据通信路径的各种网络设备(“节点”)组成。每个联网设备包括至少一个用于接收和/或发送数据的网络接口。例如，在某些数据网络中，数据作为一个或多个数据分组被发送。互联网是一个示意性的数据网络；但是，可以使用其他网络。网络110可以包括自治系统(“AS”)，即，在一致的统一路由策略下(或者至少从AS网络外部看起来是这样)操作并且通常由单个管理实体(例如，系统操作员、管理员或管理组)管理的网络。网络110可以由多个连接的子网或AS网络组成，多个连接的子网或AS网络可以在以下一个或多个处交会：中间网络(“传输网络”)、双归属网关节点、呈现点(“POP”)、互联网交换点(“IXP”)和/或附加的其他网络边界。网络110可以是例如公司内部网的局域网(“LAN”)、城域网(“MAN”)、广域网(“WAN”)、例如因特网的互联网络或对等网络，例如自组(Ad Hoc)WiFi对等网络。网络110中的节点之间的数据链路可以是物理链路(例如，光纤、网状、同轴、双绞，例如Cat-5或Cat-6等)和/或无线链路(例如，无线电、卫星、微波等)的任何组合。网络110可以包括用于移动通信设备的运营商网络，例如，实现无线通信协议的网络，无线通信协议例如是全球移动通信系统(“GSM”)、码分多址(“CDMA”)、时分同步码分多址(“TD-SCDMA”)、长期演进(“LTE”)或任何其他此类协议，包括但不限于所谓的“3G”、“4G”和“5G”协议。网络110可以包括无线电、电视、电缆和/或卫星广播网络。网络110可以包括例如经由WiFi、蓝牙、BLE或ZIGBEE的短距离无线链路，有时称为个人区域网(“PAN”)或网状网络。网络可以是公共网络、专用网络或公共和专用网络的组合。网络110可以是任何类型和/或形式的数据网络和/或通信网络。

合适的示例媒体设备120包括例如电视、电视辅助盒(例如，电缆转换器和调谐器，也称为“机顶盒”)、媒体流设备、视频游戏设备(包括多用游戏和媒体流设备)、平板计算机、数据电话(“智能”电话)、无线电接收器、语音识别“助理”设备、可穿戴设备(例如“智能”手表)、公共媒体显示器(例如数字横幅和公告牌)等。在一些情况中，媒体设备120是客户端计算系统或基于处理器的设备，其执行应用、向用户呈现输出并从用户接收输入。客户端计算系统可以是任何种类的计算设备，包括例如台式计算机、膝上型计算机或记事本计算机、例如平板计算机或电子板的移动设备、个人数字助理、智能电话、视频游戏设备、电视或电视辅助盒、信息亭或任何其他能够呈现经由网络110接收的媒体的此类设备。在某些实施方式中，媒体设备120包括用于促进数据输入和/或数据呈现的一个或多个硬件元件，例如，功能键、键盘、可编程“软”键、遥控器、指示灯、显示器、触摸屏、麦克风、扬声器和/或触觉反馈设备。在一些实施方式中，使用专用逻辑电路(例如，专用集成电路(“ASIC”))来实现媒体设备120。在一些实施方式中，使用包括至少一个处理器(或微处理器)核的片上系统(SoC)半导体器件来实现媒体装置120。在一些实施方式中，使用通用计算处理器来实现媒体设备120。下面更详细地描述的图1B示出了在某些配置中适合用作媒体设备120的计算设备101。

在一些实施方式中，媒体设备120运行操作系统，该操作系统管理媒体设备120上的软件应用的执行。在某些情况下，操作系统与媒体设备120一起提供。在一些实施方式中，媒体设备120执行例如浏览器应用(例如Web浏览器)的应用，该应用能够接收根据一组超文本应用协议(例如，超文本传输协议(“HTTP”)和/或由传输层安全性加密的HTTP(“HTTPS”))而被格式化的数据。在一些这样的实施方式中，浏览器经由以一个或多个网页的形式在媒体设备120处呈现的界面来促进与一个或多个服务器的交互。在一些情况下，与媒体设备120一起提供浏览器应用。在一些实施方式中，媒体设备120执行定制应用，例如，媒体流应用、游戏或与服务器(例如分发器服务器130)交互的任何其他应用。定制应用和分发器服务器130之间经由网络110进行的交互可以使用例如HTTP和HTTPS的标准协议，或可以使用特定应用的协议，例如在传输层协议(例如UDP、TCP或SCTP)上方实现的定制应用层协议。在一些实施方式中，与媒体设备120通信的服务器中的一个或多个支持定制指令集，例如，应用编程接口(“API”)，并且在媒体设备120上执行的定制应用实现该API。应用可以使用例如提供给应用开发人员的库或软件开发套件(“SDK”)来实现API。

在一些实施方式中，一些媒体设备120可以在与模型分析服务器140的交互中充当客户端设备，例如，以请求或获得分析数据。在一些实施方式中，一些媒体设备120可以在与模拟服务器150的交互中充当客户端设备，例如，以请求或获得模拟数据。在一些实施方式中，一些媒体设备120可以是可能不适合于这样的交互的媒体接收器。

媒体设备120可以从各种服务器(例如分发器服务器130)接收数据或与之交换数据。在一些实施方式中，使用专用逻辑电路(例如，专用集成电路(“ASIC”))来实现服务器130、140和150中的一个或多个。在一些实施方式中，使用包括至少一个处理器(或微处理器)核的片上系统(“SoC”)半导体器件来实现服务器130、140和150中的一个或多个。在一些实施方式中，使用通用计算处理器来实现服务器130、140和150中的一个或多个。下面更详细地描述的图1B示出了在某些配置中适合用作分发器服务器130、模型分析服务器140和/或模拟服务器150的计算设备101。

在图1A中，分发器服务器130提供媒体分发和/或有关媒体分发的统计信息收集。例如，分发器服务器130可以是媒体流服务器(例如，作为内容传递网络(“CDN”)的一部分)，可以是媒体访问服务器，可以是内容选择服务器，和/或可以是统计信息收集服务器(例如，收集媒体请求、受众范围、优惠券使用率、重定向、页面浏览、印象、点击、转化等统计信息)。分发器服务器130使用分发器数据存储装置136，例如，以获取用于分发的媒体、选择用于分发的内容和/或存储有关媒体分发的统计信息。

模型分析服务器140是例如使用一个或多个分析模型来提供对历史数据的分析的计算系统。例如，在一些实施方式中，模型分析服务器140访问来自分发器数据存储装置136的“真实世界”数据，以使用例如媒体混合模型(“MMM”)的模型来提供对于性能度量的一个或多个值。性能度量可以包括，例如，投资回报率(“ROI”)、广告支出回报率(“ROAS”)，边际广告支出回报率(“mROAS”)等。在一些实施方式中，模型分析服务器140可以被配置为访问从模拟数据存储装置156访问模拟数据以对人工数据运行类似的分析。在一些实施方式中，模型分析服务器140不确定模拟数据存储装置156中的数据是否是人工的。在一些实施方式中，模型分析服务器140被配置为执行附加分析，例如，将模型的分析结果与预期结果(例如，来自模拟)进行比较，并识别边际误差。

模拟服务器150是运行模拟并管理用于模拟的数据的计算系统。模拟服务器150被配置为访问模拟数据存储装置156，以存储模拟数据和获取模拟配置。在一些实施方式中，模拟服务器150为建模者提供界面(例如，网页、定制应用、API等)以用于配置和执行模拟。下面将对模拟进行更详细的说明。

数据存储装置136和156每一个均可使用一个或多个数据存储设备来实现。数据存储设备可以是适合于存储计算机可读数据的任何存储器设备。数据存储设备可以包括具有固定存储的设备或用于读取可移动存储介质的设备。示例包括所有形式的非易失性存储器、介质和存储器设备、半导体存储器设备(例如，EPROM、EEPROM、SDRAM和闪存设备)、磁盘、磁光盘和光盘(例如，CD ROM、DVD-ROM或BLU-RAY盘)。合适的数据存储设备的示例实施方式包括存储区域网络(“SAN”)、网络连接存储(“NAS”)和冗余存储阵列(例如“RAID”阵列)。在一些实施方式中，数据存储装置190例如使用关系数据库管理系统(“RDBMS”)来托管(host)关系数据库。在一些实施方式中，数据存储装置190管理存储为文件(例如，XML文件)的数据。

图1B是示例计算设备101的框图。根据示意性实施方式，示例计算设备101适合用于实现本文所述的计算机化部件。计算设备101可以用于例如实现示意性媒体设备120、分发器服务器130、模型分析服务器140、模拟服务器150和/或本公开中描述的各种其他示意性系统。总的来说，计算设备101包括处理器102，该处理器102用于根据指令(例如，高速缓冲存储器103中保存的指令)执行动作。所示的示例计算设备101包括经由总线105与主存储器106、网络接口控制器107、输入/输出(“I/O”)接口108和非易失性数据存储装置109进行通信的一个或多个处理器102和协处理器104。在某些实施方式中，计算设备101可以包括附加接口或其他部件116。通常，处理器102将来自主存储器106(或来自非易失性数据存储装置109)的指令加载到高速缓冲存储器103中，将来自高速缓冲存储器103的指令加载到板上寄存器中，并执行来自板上寄存器的指令。在一些实施方式中，指令被编码到未示出的只读存储器(“ROM”)或固件存储器芯片(例如，其存储用于基本输入/输出系统(“BIOS”)的指令)中并从其中读取。如图所示，处理器102直接连接到高速缓冲存储器103；然而，在一些实施方式中，高速缓冲存储器103被集成到处理器102中或在与处理器102相同的电路或芯片上实现。一些实施方式包括高速缓冲存储器103的多个层或级，每个层或级进一步从处理器102中移除。一些实施方式包括多个处理器102和/或协处理器104，其通过对附加专用指令的支持来增强处理器102(例如，数学协处理器、浮点协处理器和/或图形协处理器)。如图所示，协处理器104紧密地连接到处理器102；然而，在一些实施方式中，协处理器104被集成到处理器102中或被实现在与处理器102相同的电路或芯片上。在一些实施方式中，协处理器104从处理器102中进一步移除，例如，连接到总线105。网络接口控制器107控制一个或多个网络接口117以连接到网络设备114(例如，用于访问网络110)。I/O接口108使向各种I/O设备118发送和接收数据便利，这些I/O设备包括但不限于键盘、指向设备(鼠标、轨迹球等)、触摸屏、麦克风、运动传感器、视频显示器、扬声器、触觉反馈设备、打印机等。在一些实施方式中，一个或多个I/O设备118被集成到计算设备101中。在一些实施方式中，一个或多个I/O设备118在计算设备101的外部并且可与计算设备101分离。在一些实施方式中，使用专用逻辑电路来实现计算设备101，专用逻辑电路例如专用集成电路(“ASIC”)或包括处理器102和一个或多个附加部件的片上系统(“SoC”)半导体器件，一个或多个附加部件例如高速缓冲存储器103、网络接口控制器107和网络接口117以及一个或多个I/O接口108。

更详细地，处理器102可以是处理指令的任何逻辑电路，指令例如是从高速缓冲存储器103、主存储器106、非易失性数据存储装置109或其他未示出的存储器中取出的指令。处理器102包括多个数据和指令寄存器。在一些实施方式中，在启动(“引导”)后，处理器102将来自BIOS的初始指令(包括用于加载更多指令的指令)加载到寄存器中，并执行来自寄存器的指令。在一些实施方式中，BIOS指令使处理器102加载操作系统(“OS”)，操作系统反过来使处理器102加载并执行一个或多个程序。处理器102可以由一个或多个辅助的协处理器104增强，这些辅助的协处理器是具有用于特定目的的专用指令集的辅助处理单元。在一些实施方式中，面对未识别指令的处理器102将例如经由特殊总线将指令传递给协处理器104，并且仅在协处理器104也不识别该指令时才产生未识别指令故障。处理器102和协处理器104每个可以均是(一个或多个)单核或多核处理器。计算设备101可以包括多个不同的处理器102和/或多个不同的协处理器104。例如，在一些实施方式中，例如多核中央处理单元(“CPU”)的通用处理器102可以用一个或多个专用协处理器104来增强，专用协处理器104例如是数学协处理器、浮点协处理器或图形处理单元(“GPU”)。例如，数学协处理器104可以协助处理器102进行高精度或复杂计算。在一些实施方式中，(一个或多个)处理器102和协处理器104被实现为一个或多个“芯片”上的电路。计算设备101可以基于能够按本文所述方式进行操作的任何处理器102或一组处理器102和/或协处理器104。

高速缓冲存储器103通常是计算机存储器的一种形式，该计算机存储器紧邻处理器102放置以实现快速访问时间。在一些实施方式中，高速缓冲存储器103是作为处理器102的一部分或在与处理器102相同的芯片上的存储器电路。在一些实施方式中，存在多个级的高速缓冲存储器103，例如，L2和L3高速缓冲层。在一些实施方式中，多个处理器102和/或处理器102的多个核共享对同一高速缓冲存储器103的访问。

主存储器106可以是适合于存储计算机可读数据的任何设备。主存储器106是支持直接访问指定地址的设备；即，主存储器106是随机存取存储器(“RAM”)。在一些实施方式中，主存储器106是易失性半导体存储器设备，例如动态随机存取存储器(“DRAM”)、同步动态随机存取存储器(“SDRAM”)、双数据速率SDRAM(“DDR SDRAM”)、静态随机存取存储器(“SRAM”)、T-RAM、Z-RAM等。计算设备101可以具有用作主存储器106的任意数量的设备。

非易失性数据存储装置109可以是适合于在电力循环之间存储计算机可读数据的任何设备。在一些实施方式中，非易失性数据存储装置109是具有固定存储介质(例如磁盘)的设备，例如硬盘驱动器(“HDD”)。在一些实施方式中，非易失性数据存储装置109是具有可移动存储介质的设备，可移动存储介质例如是磁盘(例如，软盘驱动器或可移动HDD)、磁带、磁光盘或光盘(例如，CD ROM、DVD-ROM或BLU-RAY盘)。在一些实施方式中，非易失性数据存储装置109是非易失性半导体存储器设备，例如可擦除可编程只读存储器(“EPROM”)、电可擦除可编程只读存储器(“EPROM”)或闪存。在一些实施方式中，主存储器106是固态驱动器(“SSD”)，例如，其使用基于多级单元(“MLC”)NAND的闪存。计算设备101可以具有用作非易失性数据存储装置109的任何数量的设备。

仍然参考图1B，总线105是提供计算设备101的各种内部部件之间的数据交换的接口，例如，将处理器102连接到主存储器106、网络接口控制器107，I/O接口108和非易失性数据存储装置109。在一些实施方式中，总线105还提供与计算设备101外部的一个或多个部件(例如其他部件116)的数据交换。在一些实施方式中，总线105包括串行和/或并行通信链路。在一些实施方式中，总线105实现数据总线标准，例如集成驱动电子设备(“IDE”)、快速外围部件互连(“PCI”)、小型计算机系统接口(“SCSI”)或通用串行总线(“USB”)。在一些实施方式中，计算设备101具有多个总线105。

计算设备101可以包括接口108或为一个或多个输入或输出(“I/O”)设备118提供接口108。输入设备包括但不限于键盘、指向设备(鼠标、轨迹球等)、触摸屏、触摸板(例如，电磁感应板、静电板、电容板等)、手写笔、麦克风、操纵杆、脚踏板、惯性衡量单元(“IMU”)、加速度计、陀螺仪、倾斜传感器、运动传感器、环境传感器和乐器数字接口(“MIDI”)输入设备，例如MIDI乐器(例如MIDI键盘)。输出设备包括但不限于视频显示器、扬声器、触觉反馈设备、可刷新布莱叶(Braille)终端、灯、伺服器、MIDI输出设备(例如MIDI合成器)以及二维或三维打印机(包括但不限于喷墨打印机、激光打印机、热像打印机、立体光刻打印机、挤压沉积打印机和金属烧结打印机)。

网络110使得能够在例如计算设备101和网络设备114的各种节点之间进行通信。在一些实施方式中，数据作为数据分组流，例如以根据开放系统互连(“OSI”)层的数据分组的形式，通过网络110从源节点流向目的地节点。分组流可以使用例如OSI第4层传输协议，例如用户数据报协议(“UDP”)、传输控制协议(“TCP”)或流控制传输协议(“SCTP”)，经由在例如互联网协议(“IP”)的OSI第3层网络协议(例如，IPv4或IPv6)上分层的网络110而被发送。网络110由链接在一起以形成参与设备之间的一个或多个数据通信路径的各种网络设备(“节点”)组成。每个联网设备包括至少一个用于接收和/或发送数据(通常作为一个或多个数据分组)的网络接口。一个示意性网络110是互联网；但是，可以使用其他网络。网络110可以是自治系统(“AS”)，即，在一致的统一路由策略下(或者至少从AS网络外部看起来是这样)操作并且通常由单个管理实体(例如，系统操作员、管理员或管理组)管理的网络。网络110可以由多个连接的子网或AS网络组成，多个连接的子网或AS网络可以在以下一个或多个处交会：中间网络(“传输网络”)、双归属网关节点、呈现点(“POP”)、互联网交换点(“IXP”)和/或附加的其他网络边界。网络110可以是例如公司内部网的局域网(“LAN”)、城域网(“MAN”)、广域网(“WAN”)、例如因特网的互联网络或对等网络，例如自组(Ad Hoc)WiFi对等网络。网络110中的节点之间的数据链路可以是物理链路(例如，光纤、网状、同轴、双绞，例如Cat-5或Cat-6等)和/或无线链路(例如，无线电、卫星、微波等)的任何组合。网络110可以包括用于移动通信设备的运营商网络，例如，实现无线通信协议的网络，无线通信协议例如是全球移动通信系统(“GSM”)、码分多址(“CDMA”)、时分同步码分多址(“TD-SCDMA”)、长期演进(“LTE”)或任何其他此类协议，包括但不限于所谓的“3G”、“4G”和“5G”协议。网络110可以包括例如经由WiFi、蓝牙、BLE或ZIGBEE的短距离无线链路，有时称为个人区域网(“PAN”)或网状网络。网络可以是公共网络、专用网络或公共和专用网络的组合。网络110可以是任何类型和/或形式的数据网络和/或通信网络。

网络接口控制器107管理经由网络接口117(有时称为网络接口“端口”)与网络110中的设备(例如，网络设备114)的数据交换。网络接口控制器107处理用于网络通信的开放系统互连(“OSI”)模型的物理和数据链路层。在一些实施方式中，一些网络接口控制器的任务由处理器102和/或协处理器104处理。在一些实施方式中，网络接口控制器107例如作为同一芯片上的电路被结合到处理器102中。在一些实施方式中，计算设备101具有由单个控制器107控制的多个网络接口117。在一些实施方式中，计算设备101具有多个网络接口控制器107。在一些实施方式中，每个网络接口117是物理网络链路(例如，Cat-5以太网链路)的连接点。在一些实施方式中，网络接口控制器107支持无线网络连接，并且接口117是无线(例如，无线电)接收器/发送器(例如，对于任何IEEE 802.11WiFi协议、近场通信(“NFC”)、蓝牙、蓝牙低功耗(“BLE”)、ZIGBEE、ANT或任何其他无线协议)。在一些实施方式中，网络接口控制器107实现一个或多个网络协议，例如以太网。通常，计算设备101通过网络接口117经由物理或无线链路与其他计算设备交换数据。网络接口117可以直接链接至另一设备或经由例如将计算设备101连接到网络110的网络设备114的中间设备链接至另一设备，网络设备114例如是集线器、桥、交换机或路由器。

网络设备114可以是集线器、交换机、路由器、调制解调器、网桥、另一计算设备101或任何其他网络节点。在一些实施方式中，网络设备114是网络网关。在一些实施方式中，网络设备114是使用例如专用处理器和/或三态内容可寻址存储器(“TCAM”)的定制化硬件来实现的路由设备。

其他部件116可以包括替代I/O接口、外部串行设备端口以及经由总线105连接的任何其他协处理器104。例如，计算设备101可以包括接口(例如，通用接口串行总线(“USB”)接口)，用于连接外部输入设备、输出设备或附加存储器设备(例如，便携式快闪驱动器或外部介质驱动器)。

所示的计算设备101适合用于实现管理或组织数据的系统。例如，在一些实施方式中，计算设备101托管数据库。数据库(或更具体地说是数据库管理系统(“DBMS”))根据数据库定义(例如，数据库模式)来组织数据。例如，在关系数据库中，DBMS将数据维持在类似表的数据结构中。在关系数据库中，数据被输入到“行”内的“列”中，其中，列表示特定数据类型、类别或分组，而行表示各个列中数据之间的关联；列和行形成表。在某些情况下，条目(或条目的组合)会将来自一个表中的行与另一表中的一个或多个行关联。在某些DBMS实施方式中，称为“视图”的虚拟表表示从一个或多个表中抽出的数据，就好像它也是表一样(也就是说，视图在数据库客户端或用户看来就像是表一样，但是其不一定如此存储)。也可以使用其他类型的数据库管理系统，包括各种类型的关系数据库、面向对象的数据库、面向文档的数据库、可扩展标记语言(“XML”)数据库、NoSQL数据库等。这些数据库类型中的许多以类似于上文参考关系数据库所述的方式使用表或类似表的结构。在一些数据库实施方式中，数据以不同于表的方式被存储或表示，例如，作为数据元组的集合。

数据库的客户端或用户可以使用数据库指令(例如，以例如结构化查询语言(“SQL”)的数据库查询语言的查询)向数据库添加数据、在数据库中修改数据或从数据库检索数据。一个或多个数据库指令可以被分组在一起成为数据库事务。传统上，数据库提供事务原子性、一致性、隔离性和持久性。这些属性被缩写为“ACID”。在某些实施方式中，DBMS提供了所有ACID属性。但是，在某些实施方式中，DBMS不提供所有ACID属性。

本文描述的一个示例模拟被称为聚合营销系统模拟器(“AMSS”)。AMSS被设计为生成聚合时间序列数据，该数据是根据自然的消费者行为以及由于营销干预导致的该行为的变化而产生的。通过基于表征消费者与类别和品牌的关系的特征将示例消费者群体分割为不同的群组，AMSS被设计为生成该聚合时间序列数据。在模拟中，每个区段被表示为适合相应区段的消费者的计数；AMSS模拟不跟踪个人。不同区段中的消费者具有不同的媒体消费模式、对广告的反应、购买行为等。随着时间的流逝，给定消费者与类别和/或品牌的关系可能会响应于不受控力(例如季节性和竞争性活动)以及广告主控制的营销干预而发生变化。通过调整适合各个区段的群体计数以表示消费者向反映其新心态的区段的迁移，这些变化反映在AMSS模拟中。群体细分的变化随后导致群体聚合行为的变化。例如，营销干预通过将消费者移动到与进行在类别中的购买和/或购买被广告的品牌的较高概率对应的区段来增加广告主的销售。

图2A是时间线210的图示200，模拟器在时间线210上迭代地在区隔之间迁移群体。图示200反映了简化的场景，其中，模拟器跟踪被划分成四个区隔的一百个人的群体。图示200包括时间线210，在其上迭代地应用各种事件220。基于每个迭代事件，例如在第一细分状态230_a和之后的细分状态230_b中示出了分割的群体230。驱动消费者行为的各种市场力被概念化为在时间间隔上重复的事件220的有序序列。每个事件220与具有其自身对消费者的处置和行为的影响的特定不可作用或可作用力对应。通过消费者从事件前群体细分到事件后群体细分230的迁移来反映消费者处置的变化。另外，每个事件都生成可观察的数据。特别地，图2A描绘了具有以下四个重复事件的场景：季节性、电视、付费搜索和销售。“季节性”事件反映会随着时间的推移改变市场大小的不可作用力，并针对该类别驱动消费者迁移入和迁移出市场。电视和付费搜索是广告主控制的营销干预。它们驱动通常有利于广告主的迁移，并且它们还生成相关数据，例如媒体体量和支出。图2A中示出的最后事件220是“销售”事件，其生成广告主和竞争对手的销售。它还可能会驱动迁移；例如，作为购买后评估过程的一部分，消费者对广告主品牌的忠诚度或看法可能会发生变化。

每个事件220通过改变群体细分230影响所有后续事件。这种连锁效应支持建模不同影响力之间的交互作用(例如，电视广告可以激励品牌查询，从而增加搜索存货的体量)，并有助于准确表示营销系统中的复杂关系。AMSS在事件集、事件的设计和事件排序方面提供了灵活性。事件规范在下面更详细地描述。建模者可以自由地添加或从模拟中移除特定市场力，并可以更改事件规范和排序以反映不同的消费者行为模型。检查分析方法在广范围的场景上的性能允许建模者找到和设计对广范围的统计问题都具有鲁棒性的方法。

群体细分230表示消费者心态的变化。AMSS关于类别和广告主品牌将消费者观念概念化为离散的隐藏变量；然后，它使用消费者的心态来细分群体。在区隔之间，由于媒体消费和对购买行为的响应，心态差异可能会导致行为差异。群体的聚合行为由每个区隔的大小确定。例如，如果高比例的消费者属于与高品牌忠诚度对应的区隔，则广告主品牌将具有较高的市场份额。AMSS沿六个维度细分群体，每个维度跟踪消费者与类别或品牌的关系的特定方面。前三个维度跟踪消费者与类别的关系，并被称为“类别状态”。后三个维度跟踪消费者与广告主品牌的关系，并被称为“品牌状态”。六元素元组s＝(s1,s2,s3,s4,s5,s6)可以表示一个区隔，元组中的每个值以对应的维度描述消费者心态。下表(表1)列出了六个类别和品牌状态以及对应的状态。有关每个类别和品牌状态的含义和用法的更多详细信息将在下文给出。

表1

市场状态。市场状态规定是否应将群体成员视为针对该类别的潜在消费者池(pool)的一部分。这允许我们即使在最友好的购买条件(例如，高营销压力、低定价)下也可以将群体中的一部分标记为对该类别完全不感兴趣。作为示例，治疗高血压的药物的市场仅由那些被诊断出患有这种疾病的人组成。那些没有高血压的人将永远不会考虑购买，无论采取任何营销干预。

AMSS将群体分为“市场内”个体和“市场外”个体。针对某类别商品的市场内的个体的数量会随着时间而变化。有些变化是季节性的，即，它们以定期模式重复，例如每年一次。例如，旅游类别具有每年的季节性，其响应于学年、国定假日、天气模式等。还可能存在影响“市场内”群体的更一般的趋势。示例包括越来越多的智能手机被采用导致app市场不断增长、经济因素对奢侈品的影响以及汽油价格对SUV销售的影响。AMSS允许建模者在市场参与率中规定季节性模式和更一般的趋势二者。

饱和度状态。饱和状态规定过去的购买是否已满足某人对该类别的需求。在AMSS中，消费者要么“饱和”，要么“不饱和”。不饱和的个体在该类别中进行购买之后可能变得饱和；饱和的个体最终会随着时间的流逝而变得不饱和。跟踪饱和度允许AMSS可以对例如价格上涨之后的销售下滑的影响进行建模。广告主自己的促销和竞争对手的促销都可能在接下来的几周内造成需求下降，因为这是整个类别的影响。在真实世界中，饱和度效应逐渐消失所需的时间取决于类别。在例如易腐食品的需求快速循环的类别中，饱和度迅速消失。在购买间隔较长的类别(例如旅游或耐用品类别)中，饱和度消失较慢。在模拟中，衰减率是模型规范的一部分。

活动状态。活动状态跟踪消费者的沿着购买的路径的位置。AMSS将群体分割为三个活动状态：“不活动”、“探索性”和“购买”。处于不同活动状态的消费者具有不同的媒体消费行为、对营销的不同响应以及不同的购买行为。

图2B示出了消费者在每个活动状态270中可能执行的动作260以及可能发生的营销活动的示例。营销交互和购买活动可以将消费者从不活跃状态272移至探索性状态274，或从探索性阶段274移至转化事件(例如，购买276)。

“不活跃”的个体当前不参与与该类别有关的任何活动。当然，他们不在该类别中进行购买。他们也没有表现出对该类别的任何可观察到的兴趣，例如通过进行与类别相关的搜索查询或在线站点访问。“探索性”的个体正在考虑进行购买，并开展相关活动来帮助他们做出其决定。例如，“探索性”群体可能会进行一般和品牌搜索查询作为决策过程的一部分。他们仍未决定在该类别中进行购买。达到“购买”状态的个体处于进行购买的过程。这可以位于品牌特定的位置(例如品牌网站)，或可以位于非特定的位置(例如百货商店、杂货店、票价信息采集商业组织)。由处于进行购买的过程的个体选择的品牌取决于例如品牌青睐度、品牌忠诚度、品牌可用度和购买时的价格等因素。

跟踪消费者的活动状态允许模拟器就覆盖(reach)和精度来说区分针对不同受众的营销工具。例如电视和无线电广播之类的大众营销媒体格式将覆盖在广范围的活动状态下的消费者，而例如付费搜索之类的其他媒体则倾向于针对在至购买路径上较远的较少数量的消费者。跟踪活动状态还允许模拟器沿着购买的路径跟随自然且受营销影响的进展。对广告主来说为了进行销售，必须使消费者达到“购买”状态。

品牌青睐度状态。品牌青睐度衡量消费者对品牌的看法。通常，高级别的品牌青睐度与购买广告主品牌的高概率对应。在AMSS中，基于品牌青睐度将消费者分割为五个群组：“无意识”、“不青睐”、“中立”、“有些青睐”和“青睐”的消费者。营销工具可以通过增加品牌青睐度来增加品牌销售。请注意，多个品牌的品牌青睐度同时可能都高，因此，高品牌青睐度不自动暗示品牌购买或品牌忠诚度。

品牌忠诚度状态。消费者可能忠于广告主的品牌、忠于竞争对手或具有分化的忠诚度。AMSS通过品牌忠诚度状态跟踪品牌忠诚度；消费者具有“忠诚”、“竞争对手忠诚”或“切换者”状态。区分品牌青睐度和品牌忠诚度很重要。品牌忠诚度是排他性的，而品牌青睐度不是；消费者可以对多个品牌具有高度好评。忠于特定品牌的消费者从竞争对手进行购买的概率很小。既不忠于广告主也不忠于竞争对手的消费者被称为“切换者”；在购买时，这些消费者会基于价格、便利性和其他因素从多个品牌中进行选择。

品牌可用度状态。品牌可用度是指广告主品牌对消费者的物理和心理可用度，即品牌在物理上或心理上的购买容易程度。品牌可用度实际上受品牌分布的影响，即品牌在零售位置的存在。某些营销干预可吸引消费者对品牌的关注或增加其便利性；这些增加了品牌的心理可用度。例如，购买点展示通过在销售点的显眼放置将被广告的品牌引向消费者的关注。在在线空间中，搜索广告使品牌在搜索结果页面上更加显眼，从而增加了品牌的心理可用度。这有助于从不具有强品牌青睐的“切换者”吸引销售。

在AMSS中，对于每个消费者，品牌可用度可以是“低”、“平均”或“高”。例如，考虑对实物(physical)分布对早餐谷物销售的影响进行建模。如果某品牌的谷物只有在70％的杂货店和便利店有，那么对于从带有该品牌的商店购买早餐谷的70％消费者而言，品牌可用度应该为“平均”，而对于其他30％的群体则为“低”。增加分布的努力将某些消费者的品牌可用度从“低”提高到“平均”。店内展示将某些消费者的品牌可用度从“平均”提高到“高”。

在某些情况下，仅使用可能的细分元组的某些子集。在AMSS中，只有同时处于“市场内”和“不饱和”的消费者才能移出“不活跃”活动状态。这强化了以下概念：“市场外”或“饱和”的个体对在该类别中进行购买没有兴趣，并且不会参与与购买相关的活动。结果，如下表2所示，只有六个有效的类别区段(s1,s2,s3)。其次，只有拥有“青睐”的品牌青睐度的消费者才可能忠诚。这在下面反映在表3中。下表说明了所得的198个可能的区段元组(s1,s2,s3,s4,s5,s6)：

市场	饱和度	活动
			“市场外”	“饱和”	“不活跃”
“市场外”	“不饱和”	“不活跃”
			“市场内”	“饱和”	“不活跃”
“市场内”	“不饱和”	“不活跃”
			“市场内”	“不饱和”	“探索性”
“市场内”	“不饱和”	“购买”

表2

青睐度	忠诚度
		“无意识”	“切换者”
“不青睐”	“切换者”
		“中立”	“切换者”
“有些青睐”	“切换者”
		“青睐”	“切换者”
“青睐”	“忠诚”
		“无意识”	“竞争对手忠诚”
“不青睐”	“竞争对手忠诚”
		“中立”	“竞争对手忠诚”
“有些青睐”	“竞争对手忠诚”
		“青睐”	“竞争对手忠诚”

表3

表2中有六行可能的类别元组，并且表3中有十一行可能的品牌对，表示了六十六种总的可能组合。六十六种可能的组合中的每一种都可以与“低”、“平均”或“高”的可用度配对。这表示一百九十八种可能的区段元组元组(s1,s2,s3,s4,s5,s6)。在一些实施方式中，可以使用更少的组合。例如，一些实施方式可以确定消费者不太可能既对品牌具有“青睐”的评价又是“竞争对手忠诚”的。在一些实施方式中，可以使用附加的组合或区段类。例如，一些实施方式可以允许消费者对品牌具有“有些青睐”的评价并且还是“忠诚”的。

如下面将更详细地描述的，可以基于细分元组将群体放入区段中。在一些实施方式中，将模拟群体随机地置于初始区段状态。在一些实施方式中，将模拟群体以均等分布置于初始区段状态。在一些实施方式中，将模拟群体以表示已知“真实世界”状态的分布置于初始区段状态。在一些实施方式中，模拟群体被置于暗示新产品或新市场进入的初始区段状态，例如，没有品牌意识或忠诚度。

模拟基于表示事件(例如，图2A中所示的示例事件220)的转变函数，将群体从一个区段移动到另一个区段。转变函数通过状态转变来迁移群体，例如，如图2B所示。在一些实施方式中，通过转变函数的迭代应用，模拟随着模拟进展生成各种群体状态的时间序列。该时间序列可以表示例如营销活动或策略随时间的影响。然后可以将这些时间序列用于建立用于模型验证的基础事实。

图3A是示例转变函数320的框图300。转变函数320接受初始细分状态310，并生成作为结果的细分状态390。每个转变函数320由参数配置。例如，所示的转变函数320接受范围(reach)参数342和预算/比率(rate)参数346。所示的转变函数320还受到效果限制参数348的限制。这些参数控制转变函数320如何在区段之间迁移群体。例如，受众大小350由覆盖342确定，而影响体量360由预算/比率参数346确定。同样，效果限制参数348限制效果缩放382和作为结果的迁移384。转变函数320应用参数以生成作为结果的细分390。图3B和图3C均示出转变函数320的特定实施方式，并且在下面更详细地描述。

一些实施方式使用不同的转变函数320来模拟每个广告渠道的行为(例如，该渠道的受众导向(targeting)和广告有效性)。然后，模拟服务器150将这些事件排序成定制模拟场景。每个转变函数320将当前群体细分作为输入，并返回更新的群体细分。一些实施方式还具有返回附加的相关输出变量(例如媒体支出和/或媒体体量)的转变函数320。参数化转变函数320以提供用于指定相互关联的媒体变量(例如支出和体量)以及它们对群体细分的影响(例如，预算/比率参数346)的灵活框架。特定媒体渠道的行为通过对适当的转变函数320的参数化指定。例如，对与搜索项关联的在线放置的影响建模的转变函数指定查询体量、印象、点击和搜索支出的生成方式。对每个群体区段指定查询率和点击率的不同的参数化可用于从同一模块创建单独的品牌和一般搜索事件。

模拟服务器150应用转变函数320的有序序列，每个转变函数对对应的事件或事件类型进行建模，以驱动区段之间的迁移。存在许多不同种类的事件，每种事件以其自己特定方式驱动消费者迁移。例如，即使在没有营销干预的情况下，消费者对某个类别和品牌的处置也会随着时间的流逝而发生变化和演变。一些事件反映驱动消费者心态的改变的这些自然力。其他事件反映市场干预(例如媒体广告)的效果。在该类别中进行购买的动作也可以改变消费者的心态。例如，消费者可能变得饱和/或忠诚。转变函数320对这些各种事件和事件类型建模。在一个示例中，图3B示出了模拟媒体营销(例如，电视营销)的影响的转变函数320。在另一个示例中，图3C示出了模拟在线营销的影响的转变函数320。在图3B和图3C中，建模者指定的输入参数用椭圆表示，而内部生成的值用矩形表示；阴影矩形表示“隐藏”值，而无阴影矩形表示“观察”变量。

特定类别的商品或服务的市场大小随时间自然变化。例如，旅游类别例如度假游轮的市场大小受消费者的休闲时间和可支配收入的影响。市场由于年假和假期安排的变化是季节性的。旅游市场还对经济变化做出反应，经济变化影响消费者的可支配收入。群体在“市场内”和“市场外”区段之间的自然迁移既反映了季节性变化，也反映了群体对该类别的兴趣的更一般的趋势。在AMSS中，自然迁移是每个时间间隔内的第一事件。也就是说，对于每个时间间隔(例如，每个模拟周)，自然力都将确定起点，其中营销干预在作为结果的基线上构建。当自然迁移将大量个体带入“市场内”区段时，营销力就有更多机会激励品牌购买；市场参与低的时期相应地限制进行营销的机会。

图3B是媒体影响函数374的框图372，媒体影响函数374是用于对媒体渠道的影响进行建模的转变函数320。媒体影响函数374模拟媒体营销(例如，电视营销或无线电广播营销)的影响。使用媒体影响函数374的建模者可以根据各种模拟需要，指定控制媒体渠道的受众大小和构成、媒体体量和支出以及媒体有效性的参数值。图3B描绘了在AMSS中使用的媒体影响函数374的结构。媒体影响函数374接受受众、支出、体量和效果的参数化。可以观察到媒体影响函数374生成的某些变量(例如，每周支出)，而其他变量则被隐藏。特别地，由媒体引起的群体迁移被计算为媒体影响函数374的“效果”，这在例如MMM研究之类的真实世界分析中通常是不可利用的。

在一些实施方式中，媒体影响函数374如下计算媒体受众。每个媒体渠道都有其自己的受众，即与媒体交互的群体。此受众群体是通过特定媒体渠道中的广告可以达到的最大群体。例如，受众可以是电视节目的观众数量或阅读特定报纸的家庭数量。群体区段的可达性(reachability)可以描述为在给定的时间间隔内，来自区段受众群中的消费者成为媒体渠道受众的一部分的概率。跨群体区段的可达性的异质性反映媒体渠道针对对于该类别和/或品牌具有不同兴趣水平的消费者的能力。例如电视之类的大众营销工具将以非常粗略的导向覆盖的群体的宽区段。更有针对性的媒体以较高的速率覆盖对该类别和/或品牌具有在前兴趣的个体。在AMSS中，建模者指定每个群体区段的可达性。受众大小基于区段的当前大小和可达性计算。

在一些实施方式中，媒体影响函数374如下计算每周支出。每周支出根据媒体渠道的预算和栏栅(flighting)模式计算。在模拟设置中，时间间隔被分为称为预算时期的组，每个预算时期都给予称为预算的目标支出。栏栅模式指定要分配给预算时期内每周的预算比例。分配给预算时期(例如一年)的预算是广告主可以用来控制媒体计划的一种机制。预算基于栏栅模式分为每周支出。例如，假设建模者指定要在4周的预算时期内支出的预算为100美元，栏栅模式为(0.20,0.00,0.65,0.15)；广告主在第一周的支出为20美元，第二周的支出为0美元，第三周的支出为65美元，第四周的支出为15美元。在一些实施方式中，媒体影响函数374使用分配给媒体渠道的预算来确定因变量的值，例如每周支出和媒体体量。该预算是观察到的由广告主控制的变量。它被定义为在特定的时间间隔范围(称为预算时期)内媒体渠道的目标支出。例如，广告主可以在2016年第四季度向报纸渠道分配一百万美元。

在一些实施方式中，媒体影响函数374如下计算媒体体量。该体量是在特定时间间隔期间对于给定区段中的消费者对特定媒体内容的曝光总数。该体量基于成本函数根据每周支出计算。例如，简单的成本函数是每次曝光的单位成本。一些实施方式允许通过均值和方差参数来改变每周单位成本。

在一些实施方式中，媒体影响函数374如下计算覆盖和频率。群体区段的覆盖是指区段中在时间间隔期间被曝光于媒体渠道中广告主的广告至少一次的消费者数量。在某些实施方式中，它基于受众大小和对于区段曝光的总体量来计算。例如，可以基于区段内的受众大小和对于区段的广告曝光总体量来计算覆盖。一些实施方式基于假设对于每个个体的广告曝光都作为独立的泊松(Poisson)过程发生而使用正态近似。平均频率是具有至少一次广告曝光的消费者中的平均广告曝光数。它基于对于某个区段的曝光体量除以该区段内的覆盖来计算。

在一些实施方式中，媒体影响函数374如下更新群体细分。由媒体影响函数374的给定迭代驱动的群体细分中的迁移量取决于覆盖和频率。覆盖确定受影响的群体，即有迁移潜力的群体。频率确定迁移概率。被曝光于广告的消费者有可能迁移到新的群体区段；因此，每个区段中受影响群体都覆盖。迁移概率取决于广告曝光的频率和这些广告的有效性。在高频率下，媒体受众中的消费者将根据转换矩阵Q^(k)在区段之间迁移，该转换矩阵Q^(k)指定区段对之间的最大迁移概率(用于对媒体渠道“k”进行建模)。在一些实施方式中，转换矩阵Q^(k)被定义为在受营销影响的每个维度(例如，与对于类别活动、品牌青睐度、品牌忠诚度和品牌可用度的因素对应的细分维度)中的连续转变的乘积。也就是说，对于媒体渠道“k”和维度“l”，区段“s”的转变可以是例如，电视广告驱动的活动状态的转变由Q^{(tv,activity)}确定。为了指定将“不活跃”消费者转换为“探索性”的活动状态的20％的机会，并指定将“不活跃”消费者转换为“购买”的活动状态的10％的机会，建模者会将Q^{(tv,activity)}的第一行设置为(0.7,0.2,0.1)。

在较低频率下，从一个区段迁移到另一区段的概率较小。因此，根据希尔方程，将最大概率对照曝光频率进行缩放。希尔方程是S型的，使它们便于参数化媒体模型以增加回报(在较低频率下)和减少回报(在较大频率下)。

参数κ是最大有效浓度的一半，即H(f)＝1/2时的频率。泽塔(zeta)参数ζ是曲线H(f)的最大斜率。

希尔变换具有几个理想的特性；在右极限，H(∞)＝1，强制Q^(k)的定义为定义最大迁移概率，并且希尔变换也随着平均频率的增加而产生减少的回报。

此处描述的媒体影响函数374能够对许多传统媒体渠道(例如电视、无线电广播和印刷品)的行为进行建模。使用对媒体影响函数374的不同参数化，建模者可以包括各种媒体渠道，每个渠道都具有自己的覆盖、导向、曝光频率、支出以及驱动销售或其他转化事件(例如，驱动网站访问量、激励参加现场活动或其他广告目标)的有效性。

图3C是在线营销影响函数378的框图376，在线营销影响函数378是用于对在线营销的影响进行建模的转变函数320。一些营销努力的结构与上述媒体渠道模型不同。例如，在线营销具有库存限制(例如，对印象的限制)，并且可以使用基于拍卖的定价系统(例如，基于例如搜索关键字或页面内容之类的上下文因素对放置进行自动拍卖)。

图3C中描绘的在线营销影响函数378在某些方面类似于图3B中描绘的媒体影响函数374。增加的复杂性允许以复杂的方式与其他媒体渠道进行交互，和群体的季节性改变。例如，模拟路径中改变群体状态的先前事件可以影响在线营销影响函数378中的体量及其有效性。例如，活动状态会影响消费者进行相关品牌不可知的搜索的概率，并且活动状态和品牌状态都会影响消费者进行相关品牌搜索的概率。品牌青睐度和品牌忠诚度也会影响消费者的点击率(“CTR”)，即他们点击品牌的在线广告的概率。在线营销影响函数378还考虑其他特征，例如在没有付费广告的情况下的有机搜索活动，这允许建模者识别对有机搜索的增量影响。

图3C中描绘的在线营销影响函数378将其与图3B中描绘的媒体影响函数374的进行区别的复杂性之一是用于控制印象传递的活动预算。建模者可以指定搜索的活动设置将如何响应于预算而改变。与在媒体影响函数374中一样，预算表示在固定预算时期(例如，一年)内的渠道中的目标支出。但是，在在线营销中，广告主可以通过调整每周支出上限、出价或关键字列表来控制搜索支出。这可以反映在在线营销影响函数378中。

在一些实施方式中，建模者指定(对于在线营销影响函数378)将预算映射到每周支出上限的函数。例如，预算可以在预算时期中的几周内平均分配。或者，广告主可能没有上限支出(上限＝∞)，并通过其他控制影响付费搜索支出的体量。例如，建模者可以指定将预算映射到每周出价的函数(每个关键字或简化为对于所有关键字的单个值)。广告主可以例如与年度预算线性地增加出价。或者，广告主可以设置恒定出价，并通过其他控制影响付费搜索支出的体量。作为另一个示例，建模者可以指定将预算映射到关键字列表长度的函数。随着关键字列表增加，由群体进行的匹配查询的模拟体量也将增加。

在在线营销影响函数378的一些实施方式中，如下计算查询体量。每个群体区段的成员可能对提供品(offering)类别和/或品牌具有不同级别的兴趣，并且因此具有进行相关在线查询的不同概率。此考量会影响具有不同导向级别的媒体。查询体量部分地基于受众范围。受众是进行匹配与在线营销活动关联(或所针对)的关键字列表的查询的人数。可以基于每个区段的群体、每个区段的成员具有的进行相关查询的概率以及关键字列表覆盖的那些查询的比例来计算受众。不同区段中的消费者根据其对类别和/或品牌的兴趣级别，具有进行品牌不可知和品牌查询的不同概率。付费搜索通常针对较高级别的类别和/或品牌兴趣。一般搜索广告，例如，针对处于“探索性”或“购买”活动状态的个体。品牌搜索广告针对具有较高级别的品牌青睐度和品牌忠诚度的区段。导向给予广告主被暴露于搜索广告的群体对类别和/或品牌具有较高和较直接级别的兴趣的置信。对具有不同级别的导向的多个渠道建模允许建模者探索与选择偏见相关的挑战。在某些情况下，受众的每个成员根据具有可以由建模者指定的比率(rate)λ^(k)的泊松过程，进行匹配关键字列表的查询。

在在线营销影响函数378的一些实施方式中，类似于媒体影响函数374的效果来计算效果。但是，一个差异在于效果大小的表述方式(formulation)。效果大小可能会因查询体量、印象和交互(“点击”)而异。给定受众和搜索体量，可以计算出以下内容：在关键字列表上进行查询但未被投放广告主的广告的人数；被投放广告但未与之交互的人数(例如，他们可能与竞争对手广告或自然搜索结果交互)；以及与广告主的付费广告进行交互(例如点击)的人数。

在一些实施方式中，转化转变函数用于建模消费者是否将执行转化事件，例如进行购买或接受报价(offer)。在AMSS中，此转化转变函数用作每个迭代时间时期中的最后转变函数。在此事件期间，AMSS对于时间间隔t计算每个区段的广告主销售y_t和每个区段的竞争对手销售z_t。此外，购买后消费者心态的变化可能会导致群体细分的变化，这可以通过转化转变函数来解决。

图4A是无竞争环境中多个区段的需求曲线的曲线图。所绘制的群体区段具有活动状态“购买”、品牌忠诚度“切换者”和品牌可用度“平均”。品牌青睐度为青睐(实线)、有些青睐(短划线)、中立(点线)、无意识(长划线)或负面(点划线)。

图4B、图4C和图4D是在竞争环境中相对于价格变化绘制的购买概率的曲线图。在任何价格p下，浅阴影区域的高度都与竞争对手品牌的购买概率r^(z)对应。深阴影区域的组合高度与广告主品牌的购买概率r^(y)对应。如以下更详细说明的，ω指定品牌和竞争对手的销售为相互替代的程度。图表显示了在ω的不同程度：ω＝1(上)；ω＝1/2(中)；ω＝0(下)下竞争对手对广告主销售的变化。

AMSS中的模拟考虑了定价和竞争对广告主和竞争对手销售的影响。它还考虑了属于不同群体区段的消费者之间购买行为的差异。在没有竞争的情况下，在其消费者购买意愿的每个区段s(即具有区段维度“购买”的群体)中，广告主的产品价格与该区段中任何消费者进行购买的概率之间的关系由线性需求曲线指定。每个区段中的需求曲线通过其y截距和负斜率进行参数化：

α＝(α_s)_s∈S每个α_s∈[0,1]指定在没有竞争的情况下，区段s中的消费者以单价0购买广告主品牌的概率。

β＝(β_s)_s∈S每个β_s∈(-∞,∞)指定在没有竞争的情况下，价格每单位上涨的购买概率降低。它控制该区段中消费者对价格的敏感性。通常，β_s>0，因此销售随着价格上涨而下降。

因此，在无竞争的环境中，并且在时间间隔t内给定产品单价p_t>0的情况下，区段s中的每个消费者都将购买广告主品牌的概率为：

需求曲线反映了区段之间购买行为的差异。通常，具有高的品牌青睐度、品牌忠诚度和/或品牌可用度的区段中的消费者更有可能购买广告主的品牌，而不是其竞争对手的品牌；因此，这些区段应具有较高的α_s值和较小的β_s>0值。在图4A中绘制了一组遵循这些准则的需求曲线示例。先前检查的营销干预(例如媒体广告)通过改变消费者的心态来激励销售，从而导致到具有更青睐的需求曲线的群体区段的迁移。替代地，例如促销折扣之类的定价策略通过使消费者沿着需求曲线移动到具有较高购买概率的较低价格点来激励销售。

在AMSS中，为避免在与广告主活动相同的详细程度下模拟竞争对手活动的复杂性，在销售模块中使用两个时变参数概述了竞争对手的实力。它们指定广告主的竞争对手的当前实力以及竞争对手和广告主销售相互替代的程度：

ζ＝(ζ_t,s)_(1:T)×s每个ζ_t,s∈[0,1]指定当广告主的产品的单价高并且因此广告主不进行任何销售时区段s中的消费者在时间t购买竞争对手品牌的概率。

ω＝(ω_t,s)_(1:T)×s每个ω_t,s∈[0,1]指定品牌和竞争对手的销售相互替代的程度。当ω_t,s＝1时，竞争对手的销售不受广告主定价的影响，并且竞争对手的销售会最大程度地取代广告主的销售。这是消费者“竞争对手忠诚”的区段的默认设置，并如图4B所示。当ω_t,s＝0时，广告主的销售不受竞争对手的存在的影响，并且广告主的销售最大程度地取代竞争对手的销售。这是消费者“忠诚”的区段的默认设置。这在图4D中示出。默认情况下，“切换者”以ω_t,s＝0.5平衡广告主及其竞争对手的品牌之间的权衡，如图4C所示。

给定价格p_t，消费者购买竞争对手的品牌的概率为：

他们购买广告主的品牌的概率为：

每个区段的群体分为未在该类别进行购买商品的人、购买了广告主品牌的人和购买了竞争对手品牌的人。这些群组中每一个的大小分别为和/>这些数量根据以下多项式(Multinomial)分布生成：/>

以λ^(y)表示某个类别中任何购买者购买的平均单位数，在时间间隔t期间，群体区段s的品牌总销售y_t,s为：

收入计算为销售y_t,s和价格p_t的乘积。

在AMSS模拟模型中，通过更新细分维度来反映购买者心态的购买后变化。首先，所有购买者都变得“饱和”。此外，购买体验可能会影响品牌状态；成功购买之后，消费者可能会习惯于某个特定品牌或对某个特定品牌产生强烈的偏好。此迁移类似于市场干预驱动的迁移，只是在销售驱动的迁移中忽略了频率。

图5是用于将转变函数迭代地应用于群体细分数据的方法500的流程图。在方法500的总体概述中，在阶段510，模拟服务器150将第一转变函数应用于群体细分数据。通过在阶段520将下一转变函数应用于群体细分数据、通过阶段530将第n转变函数应用于群体细分数据，模拟服务器150通过一组转变函数进行迭代。在阶段540，模拟服务器150用数据的当前状态更新细分数据的时间序列。重复模拟直到终止事件。在阶段550，模拟服务器150确定是否终止模拟。如果否，则模拟服务器150返回到阶段510。否则，在阶段560，模拟服务器150返回(或提供对其的访问)最终群体细分数据和/或所收集的细分数据的时间序列。

更详细地参考方法500，在阶段510，模拟服务器150将第一转变函数(例如，参考图3A所述的转变函数320)应用于群体细分数据。在一些实施方式中，第一转变函数是在没有外部影响(例如营销影响)的情况下模拟的将要发生的群体迁移的“自然”转变函数。

在阶段520，模拟服务器150将下一转变函数应用于通过第一转变函数的先前应用所修改的群体细分数据。模拟服务器150通过一组转变函数进行迭代，以确定的顺序将每个下一转变函数应用于群体细分数据。在一些实施方式中，该顺序由配置文件或其他输入(例如，从建模者接收到的配置输入)指定。模拟服务器150到阶段530依次应用每个转变函数，其中，模拟服务器150将最后(“第n”)转变函数应用于群体细分数据。

在阶段530，模拟服务器150将第n转变函数应用于群体细分数据。在某些实施方式中，第n转变函数是用于模拟转化(例如，购买)事件的转变函数。也就是说，最后的转变函数可以解释在一个时间范围内先前事件所产生的任何销售或活动。在一些实施方式中，用于模拟转化的转变函数既考虑了由建模的广告活动驱动的转化，也考虑了自然转化和竞争对手转化(例如，竞争对手的销售，其可能是自然发生的，也可能是通过竞争性广告活动发生的)。在一些实施方式中，用于模拟转化的转变函数更新群体细分以反映购买后消费者心态和类别(例如，从不饱和迁移到饱和)的变化。

在阶段540，模拟服务器150用数据的当前状态更新区段数据的时间序列。从阶段510到530的迭代模拟单个时间段(timeframe)，例如一天或一周。在从阶段510到530的迭代结束时，模拟服务器150具有表示所应用的所有转变函数的群体细分数据。在一些实施方式中，在阶段540，模拟服务器150将群体细分数据的该状态记录在细分数据的时间序列中。在一些实施方式中，模拟服务器150通过更新数据库来记录群体细分数据的这种状态。在一些实施方式中，模拟服务器150通过将群体细分数据的状态附加到日志文件来记录群体细分数据的该状态。在一些实施方式中，模拟服务器150通过生成事件以供辅助系统处理来记录群体细分数据的该状态。

在阶段550，模拟服务器150确定是否终止模拟。例如，模拟可以被配置为运行固定数量的迭代，每个迭代表示一段时间。模拟服务器150确定其是否已经达到固定的迭代次数。如果否，则模拟服务器150返回到阶段510，并继续迭代地应用转变函数。如果在阶段550，模拟服务器150确定终止模拟，则模拟服务器前进到阶段560。

在阶段560，模拟服务器150返回最终群体细分数据和/或所收集的细分数据的时间序列。在一些实施方式中，在阶段560，通过将数据写入文件或数据存储系统(例如，模拟数据存储系统156)中的其他数据存储容器中来返回数据。在一些实施方式中，在阶段560，通过返回文件或其他数据存储容器的识别符或句柄来返回数据。例如，在一些实施方式中，在阶段540中将数据写入盘、数据库或其他存储装置；在阶段560，提供对写入数据的访问。

对于任何模拟场景，模拟器服务器150可以被配置为将方法500与场景特定的参数或配置一起使用，以生成针对相应场景的细分数据的时间序列。例如，可以通过消除在线广告转变函数或将其预算设置为零来对不具有在线广告的场景进行建模。作为另一示例，可以通过用一百万美元预算配置媒体转变函数来运行具有一百万美元的电视广告支出的场景，并且通过用两百万美元预算配置媒体转变函数来运行具有两百万美元的电视广告支出的另一场景；然后可以比较这两种场景。该模拟生成基础事实，其也可用于与其他建模结果进行比较。可以生成各种类型的结果。例如，给定营销策略中的指定变化，可以使用模拟来估计作为结果的关键绩效度量(“KPI”)；模拟可用于在一组媒体/营销渠道上赋予KPI；和/或模拟可以用于优化提出的营销策略，例如以最大化KPI，例如投资回报率(“ROI”)。可以在策略和配置不同变化的情况下运行模拟，从而导致不同的反事实的场景。然后可以将来自这些不同的反事实的场景的结果相互比较，或者与来自第三方分析工具和模型的结果进行比较。

图6是用于模型验证的示例方法600的流程图。在方法600的总体概述中，在阶段605，模拟服务器150初始化表示跨越多个区段的模拟群体的数据集。在阶段610，模拟服务器150针对第一测试场景参数化一组转变函数，并且在阶段615，将参数化的转变函数迭代地应用于数据集以生成状态的第一时间序列。在阶段620，模拟服务器150针对第二测试场景参数化一组转变函数，并且在阶段625，将参数化的转变函数迭代地应用于数据集以生成状态的第二时间序列。如将在下面更详细地解释的，阶段610中的参数化和阶段620中的参数化在至少一个方面是不同的，这导致由阶段615产生的状态的第一时间序列与由阶段625产生的状态的第二时间序列之间的差异。这些差异由模拟服务器150进行分析。在阶段630，模拟服务器150通过比较在第一场景下的模拟和在第二场景下的模拟之后的数据集的细分状态(例如，比较由阶段615产生的状态的第一时间序列和由阶段625产生的状态的第二时间序列的细分状态)来确定性能度量的第一值。在阶段640，模拟服务器150通过将主题模型应用于由阶段615产生的状态的第一时间序列或由阶段625产生的状态的第二时间序列中的任一个来确定性能度量的第二值。对于有效的主题模型，在正确的参数化下，阶段640中的性能度量的第二值应与阶段630中的性能度量的第一值相似。在阶段650，模拟服务器150通过比较性能度量的第一值和第二值来验证主题模型。

更详细地参考方法600，在阶段605，模拟服务器150初始化表示跨越多个区段的模拟群体的数据集。每个区段是模拟群体中适合于细分方案的细分标准的子群体。可以根据多种可能的细分方案中的任何一种来分割模拟群体。例如，在一些实施方式中，细分方案使用一组兴趣描述符(例如，在报价市场中、不在报价市场中、对报价具有不饱和的需要、需要得到饱和、不活跃地参与寻求报价、探索提供品、已接受报价)。在一些实施方式中，细分方案使用一组看法描述符(例如，区段如何看待与报价关联的品牌(品牌的无意识，不青睐看待，中立看待，有些青睐看待或品牌的青睐看待)、对品牌的忠诚度(没有忠诚度/容易切换、对品牌的忠诚、对替代品牌/竞争对手忠诚)、报价的获取或可用度(低、中、高)。在一些实施方式中，细分方案使用兴趣描述符和看法描述符的组合。在一些实施方式中，细分方案为一组兴趣或看法类别中的每一个分配得分或值，每个得分与相应的描述符对应。这些得分或值的向量或元组与区段对应。在一些实施方式中，得分的某些组合被排除(例如，排除指示对品牌的忠诚度以及对品牌的不青睐看待的向量，这可能被认为是矛盾的)。一些实施方式使用上文参考AMSS描述的细分方案。

在阶段610，模拟服务器150针对第一测试场景参数化一组转变函数。在一些实施方案中，转变函数为上文(例如，参考图3A)所描述的转变函数。每个转变函数都采用初始细分状态并返回结果细分状态。每个转变函数的参数确定该函数将如何生成作为结果的细分状态以返回。在一些实施方式中，参数包括例如转变函数的范围或覆盖，转变函数的预算或尺度以及对转变函数的影响的限制。在一些实施方式中，所述一组中的一个或多个转变函数是自然进展转变。在一些实施方式中，所述一组中的第一转变函数表示自然进展转变。第一测试场景根据由阶段610的参数化使用该组转变函数。在某些实施方式中，在阶段620和625中使用相同的转变函数(或相同转变函数的子组)，但在不同的参数化下使用。在一些实施方式中，在阶段620和阶段625中使用第二组转变函数。

在阶段615，模拟服务器150将第一组参数化的转变函数迭代地应用于数据集以生成状态的第一时间序列。在一些实施方式中，模拟服务器150使用以上参考图5描述的方法500来迭代地应用参数化的转变函数。

在阶段620，模拟服务器150针对第二测试场景参数化一组转变函数。在一些实施方式中，该组转变函数是在阶段610和阶段615中使用的转变函数的相同组或子组。在一些实施方式中，使用第二组转变函数，其与在阶段610和阶段615中使用的第一组转变函数不同；第二组可以与第一组重叠。模拟服务器150将第二测试场景配置为在至少一个容量上不同于第一测试场景。例如，在一些实施方式中，第二测试场景可以包括比第一方案中分配的更大的预算用于广告渠道。作为另一示例，在一些实施方式中，第二测试场景可以包括在第一测试场景中不存在的广告渠道的转变函数。在这些示例中，第一测试场景导致表示没有增加容量的模拟的状态的第一时间序列，而第二测试场景导致表示具有增加容量的模拟的状态的第二时间序列。因此，状态的第一时间序列与状态的第二时间序列之间的差异可归因于增加的容量。在一些实施方式中，可以使用附加的测试场景，例如第三时间序列、第四时间序列等，每个场景表示转变函数的参数化的其他变化和/或排除或添加转变函数。

在阶段625，模拟服务器150将第二组参数化的转变函数迭代地应用于数据集以生成状态的第二时间序列。在一些实施方式中，模拟服务器150使用以上参考图5描述的方法500来迭代地应用第二组参数化的转变函数。在一些实施方式中，阶段615和阶段625两者都以来自阶段605的相同初始数据集开始并且基于第一组或第二组参数化的转变函数的应用产生明显不同的第一和第二时间序列数据。

在阶段630，模拟服务器150通过比较在第一场景下的模拟和在第二场景下的模拟之后的数据集的细分状态(例如，比较由阶段615产生的状态的第一时间序列和由阶段625产生的状态的第二时间序列的细分状态)来确定性能度量的第一值。如前所述，阶段610中的参数化和阶段中620的参数化在至少一个方面是不同的，这导致由阶段615产生的状态的第一时间序列和由阶段625产生的状态的第二时间序列之间的差异。这些差异由模拟服务器150在阶段630进行分析。在一些实施方式中，模拟服务器150使用这些差异来识别性能度量的值。例如，如果状态的第二时间序列表示额外的预算或广告支出，则已移动到转化或购买状态的群体的增加表示预算或广告支出的回报。也就是说，它表示投资回报率(“ROI”)。可以类似地评估其他关键绩效度量(“KPI”)。

在阶段640，模拟服务器150通过将主题模型应用于从阶段615产生的状态的第一时间序列或从阶段625产生的状态的第二时间序列中的任一个来确定性能度量的第二值。例如，旨在评估投资回报率(“ROI”)的媒体混合模型(“MMM”)可以应用于以特定预算或广告支出生成的状态的时间序列。然后，通过将MMM应用于时间序列而生成的值可以与在阶段630中生成的估值进行比较。例如，MMM可以包括可以应用于所生成的状态的时间序列的时间序列多变量普通最小二乘(“OLS”)回归。对于有效的主题模型，在正确的参数化下，阶段640中性能度量的第二值应与阶段630中性能度量的第一值相似。

在阶段650，模拟服务器150通过比较性能度量的第一值和第二值来验证主题模型。在一些实施方式中，性能度量的第一和第二值必须在预定范围内。在一些实施方式中，性能度量的第一和第二值必须足够相似，如通过应用可接受的误差范围或误差边际所确定。在一些实施方式中，这由得分表示，例如，表示主题模型的质量的数值。

给定完全指定的场景，AMSS模拟器能够产生由该场景的随机实例产生的可观察数据。通过生成数据的多个随机实例，凭经验获得基础真实。基础真实θ可以是例如该场景产生的预期每周销售的量。随着样本大小即生成的数据集数量的增加，AMSS模拟器以更高的准确性报告基础真实。较大的样本有助于在可变性更大的情况下进行准确估计。

在一些实施方式中，这些过程用于报告例如媒体渠道中的广告支出回报的量的基础真实。例如，考虑具有特定营销策略b＝(bm)_1:M的场景，其中，bm是第m媒体渠道的预算。例如，m＝1可以表示电视。为了计算电视的广告支出回报率(“ROAS”)，生成N₁个数据集D_n1(b)；n1＝1；：：；N1。可以使用以下公式根据经验估计ROASθ，其中x_n1(b)是数据集D_n1(b)中的总广告支出，y_n1(b)是收入，并且b'表示与b除了没有预算分配给电视之外在其他方面相同的反事实的场景。(b′₁＝0,而)：

根据大数定律，模拟器报告的基础真实θ接近真实的ROASθ。可以通过根据经验样本中的变化性计算误差边际来估计该近似的准确性。

在示例实施方式中，运行模拟以生成基础真实，以与媒体支出对销售的效果的线性回归模型进行比较。模型公式为：

其中∈_t～N(0,σ²)对于一些σ²≥0

媒体变量是每个媒体渠道的每周支出。这是数据生成模型的简化表示，但产生合理的结果来说明广告支出回报率(“ROAS”)和边际广告支出回报率(“mROAS”)的分析。下表显示了简化模型中媒体(例如电视)和在线(例如付费搜索)的ROAS和mROAS的估计的偏差和均方误差(“MSE”)：

表4

图7A和图7B是直方图，其示出了在示例模拟中针对每个媒体渠道的估计或ROAS和mROAS的分布。可以将ROAS和mROAS的模型估计与模拟生成的基础真实进行比较，其偏差和均方误差(“MSE”)如上表4所示。由于缺乏对于电视的非线性影响的模型匹配，因此对于媒体的ROAS和mROAS的估计存在少量偏差。图7A是ROAS的直方图，而图7B是mROAS的直方图。直方图是使用基本线性回归在1000个数据集上计算的对于媒体和在线广告的ROAS和mROAS的回归估计值。由模拟提供的值绘制为垂直虚线。

因此，本文描述了用于模型验证的系统和方法。在一些实施方式中，根据本说明书，一种方法包括：生成表示模拟群体的数据集，该数据集包括根据细分方案与模拟群体的各个区段对应的成员计数的集合；通过经过第一模拟对数据集进行处理来生成细分状态的第一时间序列，第一模拟包括第一多个事件函数的迭代应用，该第一多个事件函数包括配置有第一参数的第一事件函数；通过经过第二模拟对数据集进行处理来生成细分状态的第二时间序列，第二模拟包括第二多个事件函数的迭代应用，其中，该第二多个事件函数不包括配置有第一参数的第一事件函数；识别性能度量的第一值，该第一值表示第一时间序列和第二时间序列之间的差；以及对于主题模型，识别性能度量的第二值，该第二值表示由将主题模型应用于第一时间序列或第二第一时间序列中的一个的输出。然后，该方法通过将第一值与第二值进行比较来确定主题模型关于性能度量的有效性得分。

在该方法的一些实施方式中，第二多个事件函数包括配置有与第一参数不同的第二参数的第一事件函数。在该方法的一些实施方式中，第二多个事件函数不包括第一事件函数。在该方法的一些实施方式中，第一多个事件函数包括自然迁移事件。在该方法的一些实施方式中，主题模型是媒体混合模型。例如，媒体混合模型可以包括时间序列多变量普通最小二乘(“OLS”)回归。该方法的一些实施方式包括随机生成表示模拟群体的数据集。

一些实施方式包括存储指令的非暂时性计算机可读存储器，该指令在由处理器执行时使处理器执行该方法。在一些实施方式中，系统包括存储这样的指令的存储器和被配置为执行来自存储器的指令的处理器。

本说明书中描述的主题和操作的实施方式可以在数字电子电路中或在有形介质、固件或硬件(包括本说明书中公开的结构及其等同结构)上实现的计算机软件中或它们中的一个或多个的组合中实施。本说明书中描述的主题的实施方式可以实施为在有形介质上实现的一个或多个计算机程序，即，计算机程序指令的一个或多个模块，其编码在一个或多个计算机存储介质上，以供数据处理设备(包括例如处理器102)执行或控制其的操作。计算机存储介质可以是或包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备或它们中的一个或多个的组合中。计算机存储介质还可以是一个或多个单独的部件或介质(例如，多个CD、磁盘或其他存储设备)或包含在其中。该计算机存储介质是有形的。计算机存储介质以非暂时性形式存储数据，例如计算机可执行指令。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言(包括编译语言、解释语言、说明性语言和过程语言)编写，并且计算机程序可以以任何形式部署，包括作为独立程序或作为适合在计算环境中使用的模块、部件、子例程、对象或其他单元。计算机程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)、专用于所讨论程序的单个文件中或多个协调文件(例如，存储一个或多个模块、库、子程序或部分代码的文件)中。可以部署计算机程序以在位于一个站点上或分布在多个站点上并通过通信网络互连的一台计算机或多台计算机上执行。

本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行动作的一个或多个可编程处理器来执行。过程和逻辑流也可以由专用逻辑电路执行，并且装置也可以实现为专用逻辑电路，例如现场可编程门阵列(“FPGA”)或专用集成电路(“ASIC”)。即使这样的专用电路不是通用处理器，也可以将其称为计算机处理器。

尽管本说明书包含许多特定的实施方式细节，但是这些不应被解释为对任何发明或可要求保护的范围的限制，而是对特定发明的特定实施方式所特有的特征的描述。在本说明书中在单独的各个实施方式的上下文中描述的某些特征也可以在单个实施方式中组合实施。相反，在单个实施方式的上下文中描述的各种特征也可以分别在多个实施方式中或以任何合适的子组合来实施。而且，尽管以上可以将特征描述为以某些组合起作用并且甚至最初如此要求，但是在某些情况下可以从组合中移除所要求保护的组合中的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变体。

类似地，尽管在附图中以特定顺序描绘了操作，但是这不应理解为要求以所示的特定顺序或以连续的顺序执行这样的操作，或者执行所有示出的操作以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，在上述实施方式中的各种系统部件的分离不应被理解为在所有实施方式中都需要这种分离，并且应当理解，所描述的程序部件和系统通常可以集成在单个软件产品中或封装成多个软件产品。

对“或”的引述可以被解释为包括性的，使得使用“或”描述的任何词语可以指示单个、一个以上以及所有所描述的术语中的任何一个。标记“第一”、“第二”、“第三”等不一定表示顺序，并且通常仅用于区分相似或相似的项目或元素。

因此，已经描述了本主题的特定实施方式。其他实施方式在所附权利要求的范围内。在某些情况下，可以以不同的顺序执行权利要求中记载的动作，并且仍然实现期望的结果。另外，附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些实施方式中，可以使用多任务或并行处理。

Claims

1.一种用于模型验证的方法，所述方法包括：

生成数据集，所述数据集包括与多个区段对应的成员计数的集合，并且所述数据集表示消费者与类别或品牌的关系；

通过经过第一模拟对所述数据集进行处理来生成包括在多个时间点处的与所述多个区段对应的多个第一成员计数的状态的第一时间序列，所述第一模拟包括表示第一多个事件的第一多个函数的应用，所述第一多个函数包括配置有第一参数的第一函数，其中，经过所述第一模拟处理所述数据集使得所述成员计数的集合在所述多个时间点中的每个时间点处改变为所述多个第一成员计数中的一个；

通过经过第二模拟对所述数据集进行处理来生成包括在所述多个时间点处的与所述多个区段对应的多个第二成员计数的状态的第二时间序列，所述第二模拟包括表示第二多个事件的第二多个函数的应用，其中，所述第二多个函数不包括配置有所述第一参数的所述第一函数，其中，经过所述第二模拟处理所述数据集使得所述成员计数的集合在所述多个时间点中的每个时间点处改变为所述多个第二成员计数中的一个；

通过分析所述多个第一成员计数和所述多个第二成员计数之间的差，识别度量的第一值；

对于主题模型，识别所述度量的第二值，所述第二值表示将所述主题模型应用于所述第一时间序列或所述第二时间序列中的一个的输出；以及

通过将所述第一值与所述第二值进行比较，确定所述主题模型的得分，

其中，所述第一多个事件和所述第二多个事件包括自然迁移事件和营销干预事件中的至少一者。

2.根据权利要求1所述的方法，其中，所述第二多个函数包括配置有不同于所述第一参数的第二参数的所述第一函数。

3.根据权利要求1所述的方法，其中，所述第二多个函数不包括所述第一函数。

4.根据权利要求1所述的方法，其中，所述第一多个事件包括自然迁移事件。

5.根据权利要求1所述的方法，其中，所述主题模型是媒体混合模型。

6.根据权利要求5所述的方法，其中，所述媒体混合模型包括时间序列多变量普通最小二乘法(“OLS”)回归。

7.根据权利要求1所述的方法，包括随机地生成所述数据集。

8.一种用于模型验证的系统，所述系统包括：

存储指令的计算机可读存储器；和

处理器，被配置为执行来自所述存储器的指令以：

通过经过第一模拟对所述数据集进行处理来生成在多个时间点处的与所述多个区段对应的多个第一成员计数的状态的第一时间序列，所述第一模拟包括表示第一多个事件的第一多个函数的应用，所述第一多个函数包括配置有第一参数的第一函数，其中，经过所述第一模拟处理所述数据集使得所述成员计数的集合在所述多个时间点中的每个时间点处改变为所述多个第一成员计数中的一个；

9.根据权利要求8所述的系统，其中，所述第二多个函数包括配置有不同于所述第一参数的第二参数的所述第一函数。

10.根据权利要求8所述的系统，其中，所述第二多个函数不包括所述第一函数。

11.根据权利要求8所述的系统，其中，所述第一多个事件包括自然迁移事件。

12.根据权利要求8所述的系统，其中，所述主题模型是媒体混合模型。

13.根据权利要求12所述的系统，其中，所述媒体混合模型包括时间序列多变量普通最小二乘法(“OLS”)回归。

14.根据权利要求8所述的系统，其中，所述处理器被配置为随机地生成所述数据集。

15.一种存储指令的非暂时性计算机可读存储器，所述非暂时性计算机可读存储器使处理器执行所述指令以：

通过经过表示第一多个事件的具有第一参数的第一模拟对所述数据集进行处理来生成包括在多个时间点处的与所述多个区段对应的多个第一成员计数的状态的第一时间序列，其中，经过所述第一模拟处理所述数据集使得所述成员计数的集合在所述多个时间点中的每个时间点处改变为所述多个第一成员计数中的一个；

通过经过表示第二多个事件的具有第二参数的第二模拟对所述数据集进行处理来生成包括在所述多个时间点处的与所述多个区段对应的多个第二成员计数的状态的第二时间序列，其中，经过所述第二模拟处理所述数据集使得所述成员计数的集合在所述多个时间点中的每个时间点处改变为所述多个第二成员计数中的一个；

16.根据权利要求15所述的非暂时性计算机可读存储器，其中，所述第一模拟包括应用表示第一多个事件的第一多个函数，并且所述第二模拟包括应用表示第二多个事件的第二多个函数，

其中，应用所述第一多个函数包括应用配置有所述第一参数的所述多个函数的第一函数；

其中，所述第二多个函数包括配置有所述第二参数的所述第一多个函数的第一函数，其中所述第二参数不同于所述第一参数。

17.根据权利要求15所述的非暂时性计算机可读存储器，其中，所述第一模拟包括应用表示第一多个事件的第一多个函数，并且所述第二模拟包括应用表示第二多个事件的第二多个函数，

其中，所述第二多个函数不包括所述第一函数。

18.根据权利要求16所述的非暂时性计算机可读存储器，其中，所述第一多个事件包括自然迁移事件。

19.根据权利要求15所述的非暂时性计算机可读存储器，其中，所述主题模型是媒体混合模型。

20.根据权利要求15所述的非暂时性计算机可读存储器，其中，所述处理器被配置为随机地生成所述数据集。