CN102004768B

CN102004768B - 自适应分析多维处理系统

Info

Publication number: CN102004768B
Application number: CN201010540660.0A
Authority: CN
Inventors: J·A·吉尔德; H·菲利普斯
Original assignee: Accenture Global Services GmbH
Current assignee: Accenture Global Services GmbH
Priority date: 2009-08-31
Filing date: 2010-08-11
Publication date: 2016-01-20
Anticipated expiration: 2030-08-11
Also published as: AU2010212251A1; EP2290594A1; KR20110023748A; CA2712569C; US20110054860A1; JP5175903B2; JP2011054156A; CN102004768A; KR101213925B1; CA2712569A1; US8600709B2

Abstract

本发明涉及自适应分析多维处理系统。一种系统包括一种多维数据处理系统，其存储了标识多个变量、每个变量的多个维度(其描述了变量的属性)以及每个维度中的多个级别的元数据。元数据也标识了每个变量的维度和级别的层次。多维数据处理系统被配置用于使用元数据执行多维查询以从数据存储中获取一个或多个变量的数据。该系统还包括变量确定模块，其确定将用于生成模型的多个变量中的至少一个变量，以及模型生成器，其从多维数据处理系统接收数据并使用该数据生成模型。

Description

自适应分析多维处理系统

优先权

本专利申请要求于2009年8月31日提交的，名称为“AdaptiveAnalyticswithMOLAPSystem”的美国临时申请序列号61/238,335的优先权，通过引用将该申请的全文并入于此。

相关申请

本专利申请与于2010年7月6日提交的，名称为“MarketingModelDeterminationSystem”的美国专利申请序列号12/830,608相关，通过引用将该申请的全文并入于此。

背景技术

许多公司每年花费上百万美元在广告和其他营销活动上来提高销售额。然而，很难确定他们的营销活动如何对他们的销售额产生影响。这主要因为实际上许多因素都可以影响销售额，这些因素和该公司进行的营销活动可以有关也可以无关。例如，经济趋势和竞争对手的定价还有相关营销渠道的广告都可以影响销售额。结果，公司非常难以集中他们的营销努力和资源在最可能提高销售额的活动上。

一种确定营销活动如何影响销售额的方法是使用模型。建模可以用来预测或预计表现或结果。模型可以通过回归分析或其他分析历史数据的方法来生成。例如，一些公司可以使用历史销售额数据来生成模型用以预计未来销售额将被如何影响，以及这些公司可以基于该预计做出调整来提高销售额。然而，如上面指示，基于可以影响销售额的所有因素，存在很多可以包括在模型中的变量。此外，某些变量可能比基于不充分的数据、不准确性和其他因素的其他变量更准确。很难选择会生成最准确的预测结果的模型中使用的变量。相应地，目前可用来预测的许多模型可能都不准确。此外，很难管理数据以便可以用这些数据来构建模型，尤其对大量的变量来说。相应地，处理数据集来构建模型可能牵涉极长的处理时间。

发明内容

根据实施例，一种系统包括存储元数据的多维数据处理系统。元数据标识多个变量，描述变量属性的每个变量的多个维度，和每个维度中的多个级别。元数据还标识每个变量的维度和级别的层次。多维数据处理系统被配置用于使用元数据执行多维查询，以从数据存储获取多个变量中的一个或多个的数据。变量确定模块确定将用于生产模型的多个变量中的至少一个。多维数据处理系统从变量确定模块接收至少一个变量的指示，标识至少一个变量的元数据，并且使用元数据从数据存储中获取至少一个变量的多个维度中的至少一个和多个属性中的至少一个的信息。系统还包括由计算机系统执行的模型生成器，该模型生成器从多维数据处理系统接收信息并使用该信息生成模型。

根据实施例，一种用于执行多维查询的方法包括在多维数据处理系统中存储元数据。元数据标识多个变量、描述变量属性的每个变量的多个维度以及每个维度中的多个级别，并且元数据指示每个变量的维度和级别的层次。该方法还包括接收标识变量、多个变量中至少一个变量的维度和级别的查询；搜索存储的元数据来在数据存储中为至少一个变量的维度和级别标识数据；使用元数据从数据存储中获取数据；以及使用元数据生成模型。

根据实施例，非暂时性的计算机可读介质可以存储计算机可读指令，当被计算机系统执行时，该计算机可读指令执行用于执行多维查询的方法，该方法包括在多维数据处理系统中存储元数据。

附图说明

在下面的描述中，本发明的实施例将参考下面的附图详细描述。

图1示出了根据本发明一个实施例的系统；

图2示出了根据本发明一个实施例的建模引擎102的框图；

图3示出了根据本发明一个实施例的、图1中所示系统的技术实现；

图4示出了根据本发明一个实施例的、用于数据抽象层的数据模型的数据结构；

图5示出了根据本发明一个实施例的、用于确定最终模型的方法的流程图；

图6示出了根据本发明一个实施例的、可以用于进入和修改变量和假设的屏幕截图的示例；

图7示出了根据本发明一个实施例的、可以用于显示测试结果的屏幕截图的示例；

图8示出了根据本发明一个实施例的、用于使用元数据来执行多维查询的方法；以及

图9示出了根据本发明一个实施例的、可以用作所述系统和方法的一个或多个组件的计算平台的计算机系统。

具体实施方式

为了简要和说明的目的，主要通过引用实施例的示例来描述所述实施例的原理。在下面的描述中，为了提供对所述实施例的全面的理解，阐述了很多特定的细节。然而对本领域的普通技术人员来说，所述实施例可以被实现而不局限于这些特定细节是显而易见的。在某些实例中，公知的方法和结构没有被详细描述以便不会引起对所述实施例不必要的模糊。

根据实施例，多维数据处理系统存储可以用于构建模型的变量的元数据。该元数据标识变量的层次。变量可以具有以层次组织的维度，该维度也称为属性。该层次可以包括用于每个维度的子属性(即，级别)。例如，用于营销渠道变量的一个维度可以是地理，并且该层次中的子属性或级别可以是国家、地区、城市和邮政区码。多维数据处理系统使用元数据来执行多维查询，以从数据存储获取变量的一个或多个维度和级别的数据。获取的数据可以用于基于一个或多个其他变量的历史数据(例如在各种营销渠道中的营销投资)来模拟和预测预计的变量，例如销售额。

多维数据处理系统还可以包括为数据存储中存储的基本数据集的多个不同版本存储元数据的差异版本控制模块。该元数据标识每个版本的基本数据集和每个版本的差异数据集，并且多维数据处理系统使用该多个不同版本中版本的元数据来从数据存储中获取该版本的基本数据集和差异数据集中的至少一个。

根据实施例，系统被配置用于分析销售额相关的数据并确定标识数据中的变量和营销目的之间关系的模型，该营销目的如提高销售额，提高品牌价值等。变量沿不同维度和级别的数据可以被多维数据处理系统获取并评估和选择以在模型中使用。该模型之后可以用来预测和开发营销计划。系统可以提供一个基于web的，允许方便使用的GUI。

系统的一些特征包括计量经济学建模，基于事实的规划和因果预测。系统可以另外提供数据诊断和可视化，混合模型构建，和“假设分析(what-if)”情景功能。系统可以包括基于web的，可供企业使用的，规模可变的计算机平台，该计算机平台具有主管(“按需”)或现场部署选项。其他小规模计算机系统也可以被使用。计算机平台上运行的软件提供系统的功能。

图1示出了一个依照实施例的系统100。系统100包括建模引擎102、预测引擎103、优化引擎104、用户接口105和连接到数据存储系统101的多维处理系统。数据存储系统101存储用来构建模型的变量的数据。该数据可以与营销目的有关。营销目的的一个例子是提高销售额。存储的数据可以包括历史销售数据，与营销活动、经济趋势有关的数据的变量，和其他类型的数据。变量可以包括影响销售额的不同测量。例如，变量可以包括在比如TV、广播、印刷品和在线等不同营销渠道中活动的成本(比如，花费额)。其他变量可以包括影响销售额的宏观经济因素，比如失业率，国内生产总值等。数据存储系统101也可以存储用户通过用户接口105输入的数据，并且可以存储由系统100生成的模型和其他信息。

建模引擎102使用可以由用户或其他数据源提供的变量的数据，来生成变量和如销售业绩这样的营销目的之间的关系。这些关系形成模型110。在一个例子中，变量和销售额之间的关系可以被表示成曲线或函数。例如，可以生存曲线，由此曲线上每个点指示针对投资额或该变量的花费生成(增量的或累积的)的预计销售额。

建模引擎102使用各种变换和其他机制来开发模型。变换描述了变量如何影响营销目的。变换也可以描述变量如何影响另一个变量。变换可以由函数表示，该函数使用一个或多个输入参数来调整函数变量。变换的例子包括广告存量(ad-stocking)、广告滞后和广告饱和度。广告存量是广告的衰变率机制，其指示随时间的推移广告衰变的效果。广告滞后是广告的时变影响。如果你在一个星期中进行广告，则该广告的影响将会显现在销售额上，但不一定就在那个星期。而是，可能在接下来的八个星期内，并且广告滞后可以指示延迟的广告效果。广告饱和度使用收益递减函数，它是指数函数，该函数指示了随着营销使市场饱和，广告的影响将很可能降低。例如，对于花费在营销活动上的一百万美元来说，最开始投资的5万比最后投资的5万更有可能影响销售额。广告饱和度也可以被称之为广告幂(adpower)。广告幂可以指示每笔花费额的收益递减额。变换的另一个例子可以包括协同效应。协同效应是至少两种类型营销活动的行为何时对同一产品的销售额产生正面的影响。协同效应是同时发生的营销活动的组合的或互补的影响。例如，如果两个不同的营销活动的每个活动的花费都增加了2％，则协同效应致使产品的销售额上升10％而不是4％。

例如，给定一组选定的输入变量(可以包括一个或多个选定的维度和级别)，统计回归(比如，线性回归)方法被用来确定模型系数。这些系数是将变量的数据(比如，营销渠道的成本数据)最佳地映射到相应的历史业绩数据的模型变量的系数。执行最佳拟合过程以确定描述给定输入数据和其相应输出之间的关系的曲线。

建模引擎102可以使用变量、假设和数据，比如历史销售额数据来生成模型110。通过用户接口105，可以选择不同的变量。并且，可以为变量选择维度和级别。也可以接收假设。该假设可以包括变换和变换的参数。假设可以包括对一个或一组变量的估计。该估计可以是对一个或多个变换的估计。比如，估计可以是针对一个变量的滞后、幂或广告存量的量。该估计可以是关于交互变换的假设，比如两个变量之间的协同或内耗的量。

假设可以包括一个或多个规则，也称之为约束。规则可以用来确定变量和销售额的相关性。规则可以用来确定在模型测试期间变量退出还是保持。规则可以基于商业目的，比如针对电视营销，每广告收视率的平均回报是多少。规则可以是条件。条件的一个例子是较高的价格提高销售额。建模引擎102测试该条件，然后，如果条件不满足，可以降低作为变量的价格或指示条件没有满足。另一个例子中，假设可以包括相互排他的两个假设。比如，一个假设包括较高的价格提高销售额的规则。另一个假设包括较低的价格提高销售额的规则。一个假设必定退出。并且，如果基于建模引擎102执行的统计分析发现两个假设都不真实，则两个都可能退出。

假设还可以包括描述营销目的的过滤标准。比如，净资产是过滤标准，对于该假设运行建模引擎102来确定它们是否和品牌净资产有关。过滤标准的另一个例子是销售额，来看该假设如何和销售额有关。

建模引擎102允许用户改变用来生成模型的变量和假设。变量可以通过用户接口105输入。对于每组变化，建模引擎102都生成候选模型。对于不同的变化，建模引擎102可以生成多个候选模型106。候选模型106被评估，例如，通过统计测量值和其他因素来确定它们对于预测的准确度和可行性。一个或多个候选模型106可以被选作最终模型，如模型110所示，其将用于分析、计划和预测。

预测引擎103使用模型110来执行“假设”分析来估计变量对销售额的影响。比如，当前的营销计划可以存储在数据存储系统101中并包括不同营销渠道的花费额。用户通过用户接口105可以改变模型中变量的值，比如不同营销渠道的花费额，并且预测引擎103通过模型110运行这些变化，并且比如输出在给定每个营销渠道的花费额而生产的估计销售额。通过对不同的变化运行预测引擎103，用户可以确定在每个营销渠道中的最佳投资额来最大化销售额。

优化引擎104可以用于营销计划的开发。优化引擎104可以评估预测引擎103的输出以确定如何最佳地优化变量，比如不同营销渠道的花费额，从而最大化销售额并创建新的营销计划。优化引擎104可以使用模型110来确定各种营销渠道应该花费的最大和最小额以最大化销售额。

多维数据处理系统120对于建模、模拟及预测、优化和报告提供数据存储101中数据的实时视图。多维数据处理系统120存储元数据，该元数据用于支持视图生成的多维查询，以及建模、模拟及预测、优化和报告。

例如，多维数据处理系统120在可以包含数据仓库的数据存储101中，为离散的数据元素存储元数据。这些离散的数据元素也被称之为测量。测量可以包括变量的历史数据。比如，变量可以包括销售额，并且测量是历史销售额。其他变量可以包括随时间推移在不同营销渠道上的营销投资，并且测量可以包括随时间推移用于印刷广告、在线广告、TV等的投资额。

元数据标识了变量的层次。变量可以包括通过元数据以层次组织的维度和级别。维度可以相互排斥，并连同级别一起来描述由级别与其成员的层次关系定义的测量集合。层次是一系列父子关系，父成员典型地代表其子成员的合并。因此，在层次中每个测量的元数据标识了该层次中测量所处的级别和维度。层次的视图可应通过用户接口105提供。

多维数据处理系统120将元数据用于多维查询。比如，多维数据处理系统120可以接收对在维度的特定级别中一个或多个变量的数据的查询。多维数据处理系统120使用元数据在数据存储101中标识处于该级别的变量的所有数据，并从数据存储101中获取作为测量的被标识的数据。假设查询是针对预计变量的，诸如销售额变量和独立变量，独立变量诸如在地理维度的级别中的TV营销投资变量。地理维度可以包括由包括国家、区域、城市和邮政编码的级别构成的层次。查询中的级别可以是区域。多维数据处理系统120对根据变量的元数据来标识该变量区域级别中的所有测量，并且从数据存储101获取标识的策略。

多维数据处理系统120可以接收来自建模引擎102、预测引擎103、优化引擎104和/或用户的对变量的查询。建模引擎102可以发送对沿着不同级别和维度的变量的查询，来确定标识不同变量中不同级别之间关系的模型。比如，建模引擎102使用多维数据处理系统120在建模引擎102尝试构建关系的级别处获得从属和独立变量的时间序列数据。预测引擎103使用多维数据处理系统120，来获得历史和前瞻计划数据以对独立变量数据应用建模系数，并且可以用于针对“假设分析”情景和分布应用聚合和分布。优化引擎104获得如“种子”值的数据以用于优化和存储优化后数据。多维数据处理系统120运行查询来从数据存储101中提取数据并提供数据给请求者。

元数据还可以标识建模引擎102用于构建模型的假设。元数据也可以包括层次的聚合规则。聚合规则指定了数据如何为特定的级别或维度而被聚合。比如，如果数据存储中的测量是对于城市级别的，则聚合规则指定了如何组合地理维度中如城市级别和其他中间级别这样的较低级别的测量，从而在如地区级别这样的较高级别上显示数据。聚合规则可以用来生成模型。比如，模型可以包括特定级别的经聚合数据和预计变量(诸如销售额)之间的关系(例如，销售响应曲线)。

元数据也可以包括：能被应用于测量来将其翻译成另一逻辑测量的计算、以及能被应用于每个测量的聚合和分布规则。元数据也可以包括信息和维度之间的关系，该信息关于测量和维度的数据稀疏性。

多维数据处理系统120可以通过对存储在数据存储101中的基本数据集的多个不同版本创建元数据来执行差异版本化。元数据标识每个版本的基本数据集和每个版本的差异数据集。差异数据集可以仅包括基本数据集与基本数据集的新数据之间的差异(即，改变的信息)。比如，如果按照产品针对区域存储最后会计季度的销售额，则可以针对新会计季度创建版本，其包括按照产品针对区域的销售额的差异。多维数据处理系统120使用元数据来标识感兴趣的版本，并从数据存储101中获取在基本数据集和版本的差异数据集中的至少一个。

多维数据处理系统120可以连接到多个数据源。比如，数据存储系统101可以代表多个数据源。多维数据处理系统120可以被连接到关系数据库管理系统(RDBMS)，并提供RDBMS中数据存取的查询解析和执行环境。另外，多维数据处理系统120可能连接到多维在线分析处理(MOLAP)或关系在线分析处理(ROLAP)系统。多维数据处理系统120可以充当这些外部系统的代理，以在异构数据环境中提供单个访问点和标准化访问构造。

多维数据处理系统120可以创建立方体。立方体可以存储于多维数据处理系统120或外部系统中，如MOLAP或ROLAP系统中。立方体包括描述每个维度和它的级别层次的元数据。这些立方体允许沿着维度层次的不同级别来查询和查看数据。并且，立方体允许实时地沿着n维度中的任意维度来查看数据。维度的例子包括时间、地理、产品/品牌、客户细分、分销渠道等。可以为包含在数据存储101中的任意测量配置任意数量的维度和立方体。

多维数据处理系统120可以对源自关系数据库管理系统的数据进行“存储器中”或“盘束缚(disk-bound)”处理。多维数据处理系统120，使用它存储的元数据，可以加载信息到基于映射的数据结构中以促进对数据的快速随机访问。

图2示出了建模引擎102更详细的框图。建模引擎102包括变量确定模块201、假设确定模块202、模型生成器203和模型评估模块204。建模引擎102的模块和其他组件可以包括软件、硬件和软件硬件的组合。

变量确定模块201确定用来生成模型的变量，假设确定模块202确定用来生成模型的假设。在一个实施例中，变量和假设可以通过用户接口105由用户输入并被模块201和202接收。对变量和假设的修改也可以通过用户接口105由用户输入，并被模块201和202接收来生成不同的候选模块。

模型生成器203使用由模块201和202确定的变量和假设来生成模型。建模引擎102通过多个分开的回归分析来运行假设和变量，以确定变量和销售额之间的关系。这些关系形成由建模引擎102生成的候选模型。

确定变量和销售额之间的关系并确定描述关系的响应曲线被进一步描述在于2006年7月7日提交的共同未决美国专利申请序列号11/483,401的、AndrisUmblijs等人的名称为“ModelingMarketingData”是专利申请中，通过引用将该申请的全文并入于此。

例如，给定选择的变量组，统计回归(比如，线性回归)方法被使用来确定模型系数。这些系数是将变量的数据(比如，营销渠道的成本数据)最佳地映射到相应的历史业绩数据的模型变量的系数。使用回归技术执行对候选模型变量的系数的评估以产生多变量函数(比如，曲线)，该函数将给定输入数据的经计算输出最佳地拟合于其相应的输出。在一些实施例中，回归技术对候选模型中的至少某些变量执行非线性回归，以对与此类变量(比如，显示收益减少行为的市场变量)关联的任何非线性行为进行考虑。

模型评估模块204确定每个候选模型中变量的统计测量值和相关性指示。基于每个变量的统计测量值和相关性指示，候选模型可以被选取或不被选取作为最终模型。统计测量值指示了变量对于营销目的的统计显著性。相关性指示指示了变量对营销目的所有具有影响的级别。

例如，模型评估模块204使用函数评估每个变量，来确定指示该变量是否有统计显著性的统计测量值。在一个例子中，变量对模型性能的贡献应该超过预定义的阈值。作为统计测量值的一个例子，变量的贡献使用变换过的历史数据和产生的系数来确定，从而确定对从属变量的相关影响的估计。接下来，在某种情况下，这个相关影响可以通过启发式加权处理而运行来确定用于比较的最终贡献。该模型特性反映了如下事实：模型将不具有对模型性能的贡献可忽略的变量。在某些实施例中，预定义的统计显著性阈值可以是10％。在某些实施例中，阈值可以是5％。更低或更高的统计显著性阈值可以根据对模型的期望复杂度级别而使用。

而且，模型评估模块204确定是否满足对于变量的假设规则。例如，规则可以是条件。条件的一个例子是较高的价格会提高销售额。建模引擎102测试这个条件，然后，如果条件不满足，可以降低作为变量的价格或指示条件不满足。另一个例子中，假设可以包括两个互相排他的假设。例如，一个假设包括较高价格提高销售额的规则。另一个假设包括较低的价格提高销售额的规则。一个假设必定退出。如果基于建模引擎102执行的统计分析发现两个假设都不真实，则两个都可能退出。

模型评估模块204确定每个变量的相关性指示。该相关性指示指示变量对营销目的具有影响的级别。在一个例子中，模型评估模块204指示变量是保持还是退出。变量保持的指示意味着变量和营销目的有关。相关性指示可以基于统计测量值、变量是否满足假设规则和/或其他因素。

图3示出了根据实施例的系统100的技术实现。系统100包括应用服务器301，其主管建模引擎102、预测引擎103和优化引擎104。数据存储系统101可以由服务器和存储系统主管，比如存储区域网络或其他常规的系统，如310所示。数据存储系统101的架构层显示于310。在一个实施例中，数据存储系统101将对上述多维数据模型作如下详细描述的利用。数据存储系统101包括数据抽象层311，它是存储在数据存储系统101中数据的数据结构。数据抽象层311如图3中详细所示并包括元数据层和数据层。

数据存储系统101还包括数据访问层312，它支持对存储在数据存储系统101中的多维数据进行访问。在一个例子中，数据访问层312可以包括分析用的XML(XMLA)，它是访问系统的工业标准。

多维查询层313支持多维分析查询。多维查询层313被配置用于跨维度内层次中的不同级别进行聚合，以作为对多维分析查询的响应。每个所存储测量的元数据指示用于对预测和/或数据分析执行多维查询的聚合规则。

数据映射层314根据如图4所示的数据模型在数据存储系统101中存储数据。例如，数据映射层314可以跨多个维度将合适的元数据与每个变量关联起来。

系统100可以包括主管用户接口105的web服务器302。用户接口105可以提供丰富的用户接口，其允许用户输入假设来使用建模引擎102进行测试，并允许用户运行报告并且对预测和计划生成图形分析。技术架构可以是高度可伸缩的，从而允许为大量用户处理大量数据。

图4示出了用于图3所示的数据抽象层311的数据模型的数据结构400。如图4所示，数据架构400包括元数据层401和数据层402。元数据层401存储通过使用图1所示的建模引擎102确定模型110的处理而生成的关系数据。该关系数据可以包括在模型中的变量和模型输出(可以是估计的销售额)之间的关系的数学表示。关系数据可以包括由图2所示的模型生成器203所确定的系数。元数据层401还包括用于变量的上述元数据。该元数据可以包括描述用来创建模型的假设和变量的信息，例如变换、规则、变量维度和层以及其他关联信息。通过存储用于数据的聚合规则，元数据层401也支持多维查询。聚合规则描述了如何从层次维度中的较低级别聚合到较高级别，以及针对每个级别应用什么变换。例如，元数据层401可以指示如果请求关于销售的状态-级别信息，那么使用具有预定参数的滞后变换将城市级别聚合到针对TV营销渠道变量的状态。这些聚合规则可以被应用于由预测引擎103执行的“假设分析”场景处理。数据层402标识存储在数据存储系统101中与模型相关的实际数据，诸如用于跨不同维度以及在层次的不同级别处的每个营销活动的成本。在一个实施例中，这可以包括在每个维度的最低级别的数据，然后聚合规则可以确定如何聚合到该维度的较高级别。

一个技术效果是通过使用包括元数据的数据结构400，查询处理更加快速。元数据被用来快速和容易地识别与层次中级别相关的数据并保留层次中的关系。从而用于模型生成的处理和预测更加快速。

图5示出了根据本发明一个实施例的、用于确定最终模型的方法500的流程图。最终模型可以被用来预测销售并执行假设分析。该方法500相对于在图1-图3中通过举例而非限定的方式示出和描述的系统100来描述。

在步骤501，历史数据被存储在数据存储系统101中。当数据被从源接收，该步骤可以被连续地或者周期性地执行。数据可以包括实际的销售和成本数据以及可以被测量或确定的其他数据。

在步骤502，确定变量或者变量集合。例如，通过用户接口105选择变量。变量的选择可以包括选择一个或多个变量的维度和/或级别。例如，产品和产品类型可以基于存储的销售数据选择。同样，地理作为维度被选择，并且区域作为地理维度的层次中的级别被选择。选择这些具有它们的维度和级别的变量以便在模型中进行测试。

在步骤503，确定一个或多个假设。这些假设可以通过用户接口105接收。假设可以包括用于变量或者变量集合的估计。估计可以是用于一个或多个变形的估计。例如，估计可以是变量的滞后、幂和广告存量的量。估计可以是一个交互变换的假设，例如在两个变量之间的协同或者内耗的量。

假设可以包括一个或多个规则，也被称为约束。这些规则可以被用来确定变量到销售额的相关性。这些规则可以被用来确定在模型测试期间变量退出还是保持。这些规则可以基于商业目的，比如针对电视营销，每广告收视率的平均回报是多少。规测可以是条件。条件的一个例子是较高的价格提高销售额。建模引擎102测试该条件，然后，可以降低作为变量的价格或指示条件没有满足。另一个例子中，假设可以包括相互排他的两个假设。比如，一个假设包括较高价格提高销售额的规则。另一个假设包括较低价格提高销售额的规则。一个假设必定退出。并且，如果基于建模引擎102执行的统计分析发现两个假设都不真实，则两个都可能退出。

假设还可以包括描述营销目的的过滤标准。比如，净资产是过滤标准，并且对于该假设运行建模引擎102来确定是否它们和品牌净资产有关。过滤标准的另一个例子是销售额，来看该假设如何和销售额有关。

在步骤504中，接收的变量和假设被建模引擎102测试。建模引擎102通过多个分开的回归分析来运行假设以确定变量和销售额之间的关系。这些关系形成由建模引擎102生成的候选模型。建模引擎102通过回归分析还确定描述候选模型中假设准确度的统计测量值。

建模引擎102可以测试针对历史销售额数据的不同数据集的模型。数据集可以随时间帧、维度级别等而变化。针对每个数据集的测试生成被评估的多个候选模型。

在步骤505，建模引擎102指示测试结果。例如，建模引擎102确定模型中每个变量的统计测量值，并确定每个变量的相关性指示。相关性指示可以指示是否保持每个变量，也就是，是否每个假设中的每个变量被考虑留下。针对候选模型指示测试结果。

在步骤506，步骤504和步骤505利用一个或多个假设或变量的修改进行重复。修改可以针对变量，比如对变换参数的改变或增加或删除变换，或对维度或级别的改变或添加新变量。修改可以针对假设，诸如对过滤标准、聚合规则获假设规则的修改。建模引擎102为新的候选模型确定测试结果。

在步骤507，确定是否通过修改假设而生成更多的候选模型。用户可以基于测试结果确定是否继续生成更多的候选模型。决定可以基于统计评估(即，来自于步骤505的测试结果)，该统计评估指示相关的每个变量如何影响销售额或某些其他目的。比如，如果用户确定丢弃40％的变量，则用户可以继续生成附加的候选模型直到至少80％变量被保持。

在步骤508，候选模型被选择作为用来预测的最终模型。预测可以包括模拟各种场景以估计它如何影响销售额。例如，最终模型可以被用来确定对特定渠道增长的营销花费是否会提高销售额。预测引擎103使用最终模型执行预测。

候选模型可以被测试来确定最佳执行候选模型，然后最佳执行候选模型可以被选择作为最终模型。例如，如果给定输入集合，则系统100生成预定历史时间段内的实际销售额的曲线。使用同样的输入集合和候选模型，针对销售量的估计生成曲线。比较曲线。具有曲线间最小误差的候选模型被选作最终模型。

在步骤509，对于最终模型的假设被存储在数据结构400的元数据层中。例如，图4中所示的数据结构400包括元数据层401和数据层402。元数据层401为最终模型存储假设、变量、维度和级别、聚合规则以及关系数据。数据层402标识存贮在数据存储系统101中与最终模型相关的实际数据，比如跨不同维度和层次的不同级别处的每个营销活动的成本。在一个实施例中，这可以包括在每个维度的最低级别处的数据，然后聚合规则可以确定在该维度中如何聚合到更高的级别。

图6示出了一个可以由图1的用户接口105生成的屏幕截图。该屏幕截图示出可以如何向图1的系统100提供变量和假设，并示出可以如何修改变量和假设以便生成多个候选模型(诸如图1所示的候选模型106)的例子。图6还示出了针对每个变量生成的相关性指示的例子，比如基于候选模型中变量的评估来考虑变量是否“保留”。601示出了可以被用户输入以描述正被生成的模型的概况信息。602示出选择可以针对不同变量进行选择的不同维度和级别的例子。在602的过滤下，与品牌净资产相关联的变量被选择。然而，通过“改变变量”和“新变量”按钮，变量可以被修改并且新变量可以被添加。606示出了选择的变量以及选择的维度和级别。

603示出了不同变换和为该变换选择的变换参数的例子。通过变换下面的按钮，变换可以被修改。并且，606示出了使用滑块修改变换的变换参数。

604示出正在被测试的模型生成的两条曲线。一条曲线是估计的销售额，另一条曲线与变换相关联。607示出了特定区域中变量的相关性指示(即，地理维度的级别)。应该指出，607示出了变量是否留下，这指示了变量是否保留在模型中。模型可以包括多个变换并且不是全部变量都可以留下。

图7示出了用于测试候选模型的测试结果的屏幕截图。701示出了候选模型的测试指示在预计的结果和实际结果之间有2.5％的误差。702通过图示示出了该误差。703示出了在候选模型中测试的不同变量的例子，这以度量示出。而且，示出了变换和选择的过滤。而且，示出了针对每个变量生成的假设规则或约束以及建模系数。而且示出了是否考虑“保留”变量，即，相关性指示。在18个变量中，认为其中16个是相关的并且示出为保留。

图8示出了根据一个实施例的、用于使用图1所示的多维数据处理系统120中存储的元数据执行多维查询的方法800。在步骤801，存储系统中数据的元数据在该多维数据处理系统120中创建并存储。该元数据标识包括一个或多个变量的数据集的层次。层次可以包括变量的维度和级别。

在步骤802，在多维数据处理系统120处接收查询。查询标识一个或多个变量并可以标识每个变量的维度和/或级别。

在步骤803，多维数据处理里系统120标识变量的元数据。标识可以包括搜索存储的元数据，以在每个变量的指定维度和级别处标识该变量的元数据。

在步骤804，多维数据处理系统120使用被标识的元数据从数据存储101获取变量的信息。例如，被标识的元数据在数据存储101中标识针对每个变量的指定维度和级别的测量。多维数据处理系统120使用元数据从数据存储101来标识和获取测量。

在步骤805，被获取的信息用于进行处理，诸如构建模型、用于预测或生成视图。

图9示出了可以与此处所描述实施方式一起使用的计算机系统900。计算机系统900代表包括可以处于服务器或其他计算机系统中的组件的通用平台。计算机系统900可以用作用于执行一个或多个方法、功能和其他此处所述步骤的平台。这些步骤可以被实施为存储在一个或多个计算机可读存储设备上的软件。更进一步，图1所示的系统100的组件可以是软件、硬件或软件与硬件的组合。

计算机系统900包括可实现或执行软件指令的处理器902，该软件指令执行这里所述的某些或全部方法、功能和其他步骤。来自处理器902的命令和数据通过通信总线904传送。计算机系统900也包括：主存储器906，比如随机访问存储器(RAM)，用于处理器902的软件和数据可以在运行时期间驻留于其中，以及第二数据存储909，其可以是非易失性的并存储软件和数据。存储器和数据存储是计算机可读介质的例子。

计算机系统900可以包括一个或多个I/O设备910，比如键盘、鼠标、显示器等。计算机系统900可以包括网络接口912以便连接到网络。本领域的技术人员应该理解，可以在计算机系统900中添加或替换其他已知的电子组件。

在此描述的一个或多个步骤和系统的一个或多个组件可以被实现为存储于计算机可读介质上的一个或多个计算机程序中的计算机可读指令。计算机可读介质可以是非暂时性的，比如存储器和/或第二存储。计算机可读指令在计算机系统上例如由处理器、专用集成电路(ASIC)或其他控制器执行。

虽然已经参考例子描述了实施例，但是本领域的技术人员能够在不脱离要求保护的实施例范围的情况下对所述实施例进行各种修改。例如，此处所述的系统和方法通常关于销售数据的建模变量进行描述。然而，建模不限于销售相关的信息并且适用于针对其他数据类型和其他营销目的的建模。

Claims

1.一种用于针对大量用户处理大量数据的高度可伸缩系统，包括：

多维数据处理系统，其存储元数据，所述元数据标识多个变量、描述所述变量属性的每个变量的多个维度以及每个维度中的多个级别和每个变量的维度和级别的层次，并且所述多维数据处理系统被配置用于使用所述元数据来执行多维查询，以从数据存储中获取所述多个变量中一个或多个的数据，其中使用存储的所述元数据的所述多维数据处理系统将信息加载到基于映射的数据结构中以快速随机访问来自所述数据存储的所述数据；

建模引擎，操作用于使用所述多个变量、多个假设和数据来生成至少一个模型，其包括：

变量确定模块，其确定可用于生成模型的所述多个变量中的至少一个变量，

其中所述多维数据处理系统从所述变量确定模块接收至少一个变量的指示，标识所述至少一个变量的元数据，以及使用所述元数据从所述数据存储中获取至少一个变量的所述多个维度中的至少一个和所述多个属性中的至少一个的信息，所述元数据还标识所述建模引擎所使用的假设以构建所述模型，所述元数据包括所述多个变量的聚合规则，并且

其中为了获取所述信息，所述多维数据处理系统接收对于对应于所述多个变量中一个变量的维度的级别的数据和预计的变量的数据的查询，并且所述多维数据处理系统使用包括变量的所述聚合规则的所述元数据，来从所述数据存储获取所述级别的数据并且根据所述聚合规则来聚合所述数据，其中所述信息包括经聚合的数据；以及

模型生成器，其由计算机系统执行，从所述多维数据处理系统获取信息并且使用所述信息和所述多个假设生成包括所述多个变量中的变量的模型；

模型评估模块，用以：

确定所述模型中的变量的统计测量值和相关性指示，以及基于每个变量的统计测量值和相关性指示，所述模型被选取或不被选取作为最终模型，

其中使用函数评估每个变量，来确定指示所述变量是否有统计显著性的统计测量值，其中每个变量对所述模型的性能的贡献超过针对被认为是有统计显著性的变量的预定义的阈值，以及

每个变量的所述相关性指示对是否保持所述变量做出指示；以及

如果所述假设中的任何假设都是互斥的，确定互斥的所述假设中的哪个假设为真，并且丢弃不为真的所述假设，以及

用户接口，用于允许用户选择变量和/或假设，并改变用来生成所述模型和将被用户用来分析、计划和预测的与所述模型的变量相关的候选模型的所述变量和/或假设。

2.如权利要求1所述的系统，其中所述多维数据处理系统存储在所述数据存储中存储的基本数据集的多个不同版本的元数据，其中所述元数据标识每个版本的所述基本数据集和每个版本的差异数据集，并且所述多维数据处理系统被配置用于使用所述多个不同版本中版本的元数据，来从所述数据存储获取所述版本的所述基本数据集和所述差异数据集中的至少一个。

3.如权利要求2所述的系统，其中每个差异数据集仅包括从所述基本数据集变化的信息。

4.如权利要求1所述的系统，进一步包括：

预测引擎，其从所述多维数据处理系统接收与至少一个变量的多个维度和级别相关联的历史数据，以应用于所述多个变量中至少一个的模型中的建模系数，其中使用历史数据随时间递归调整所述建模系数。

5.如权利要求4所述的系统，其中所述预测引擎使用所述模型来针对至少一个变量估计对销售额的影响。

6.如权利要求1所述的系统，其中所述多维数据处理系统存储包括每个变量的层次的立方体，其中层次包括一系列父亲-孩子关系，并且每个父亲表示其孩子的合并。

7.如权利要求6所述的系统，其中所述多维数据处理系统使用所述立方体生成所述多个变量中一个或多个的视图。

8.如权利要求1所述的系统，进一步包括：

其中所述统计测量值和所述相关性指示是用于评估所述模型的度量。

9.如权利要求1所述的系统，进一步包括：

假设确定模块，其确定可用于所述模型的假设，其中所述假设包括至少一个变量的变换，所述变换描述所述至少一个变量如何影响目的、或所述至少一个变量如何影响可在所述模型中使用的另一变量，其中所述模型生成器使用所述假设来生成所述模型。

10.一种用于执行多维查询的用于针对大量用户处理大量数据的高度可伸缩的计算机实现的方法，包括：

在多维数据处理系统中存储元数据，其中所述元数据标识多个变量、描述所述变量属性的每个变量的多个维度，以及每个维度中的多个级别，并且所述元数据指示每个变量的维度和级别的层次；

接收标识变量、所述多个变量中至少一个变量的维度和级别的查询；

搜索存储的所述元数据，以在数据存储中标识所述至少一个变量的所述维度和所述级别的数据；

使用所述元数据从所述数据存储获取所述数据；以及

基于所述多个变量、多个假设和数据，使用所述元数据生成模型，包括：

通过从可变确定模块接收所述至少一个变量的指示来确定所述多个变量中的可操作以用于生成模型的至少一个变量，

标识针对所述至少一个变量的元数据，以及

使用所述元数据获取针对所述多个维度中的至少一个维度的信息以及针对来自所述数据存储的所述至少一个变量的多个属性中的至少一个属性，所述元数据还标识建模引擎所使用的假设以构建所述模型，所述元数据包括所述多个变量的聚合规则，其中对所述信息的所述获取包括接收对于对应于所述多个变量中一个变量的维度的级别的数据和预计的变量的数据的查询，并且使用包括变量的所述聚合规则的所述元数据，来从所述数据存储获取所述级别的数据并且根据所述聚合规则来聚合所述数据，其中所述信息包括经聚合的数据；

如果所述假设中的任何假设都是互斥的，确定互斥的所述假设中的哪个假设为真，并且丢弃不为真的所述假设；以及

提供用户接口，以允许用户选择变量和/或假设，并改变用来生成所述模型和将被用户用来分析、计划和预测的与所述模型的变量相关的候选模型的所述变量和/或假设。

11.如权利要求10所述的方法，进一步包括：

存储基本数据集的多个不同版本的版本元数据，其中所述版本元数据标识每个版本的所述基本数据集和每个版本的差异数据集；以及

使用所述多个不同版本中版本的所述版本元数据，从所述数据存储获取所述版本的所述基本数据集和所述差异数据集中的至少一个。

12.如权利要求11所述的方法，其中每个差异数据集仅包括从所述基本数据集变化的信息。

13.如权利要求10所述的方法，其中所述至少一个变量包括独立变量和预计变量，并且所述方法进一步包括：使用所述模型预测所述预计变量的值。

14.如权利要求10所述的方法，其中所述至少一个变量包括多个变量，并且所述模型标识所述多个变量的维度和级别之间的关系。

15.如权利要求10所述的方法，其中所述统计测量值和相关性指示是用于评估所述模型的度量。

16.如权利要求10所述的方法，其中生成模型包括：

确定用于所述模型的假设，其中所述假设包括所述至少一个变量的变换，所述变换描述所述至少一个变量如何影响目的或所述至少一个变量如何影响可在所述模型中使用的另一变量；以及

计算机系统使用所述假设来生成所述模型。

17.一种用于执行多维查询的用于针对大量用户处理大量数据的高度可伸缩设备，包括：

用于在多维数据处理系统中存储元数据的装置，其中所述元数据标识多个变量、描述所述变量属性的每个变量的多个维度，以及每个维度中的多个级别；

用于接收标识变量、所述多个变量中至少一个变量的维度和级别的查询的装置；

用于搜索存储的所述元数据以在数据存储中标识所述至少一个变量的所述维度和所述级别的数据的装置；

用于使用所述元数据从所述数据存储获取所述数据的装置；以及

用于基于所述多个变量、多个假设和数据，使用所述元数据生成模型的装置，用于：

通过接收所述至少一个变量的指示来确定所述多个变量中的可操作以用于生成模型的至少一个变量，

标识针对所述至少一个变量的元数据，

用于提供用户接口，以允许用户选择变量和/或假设，并改变用来生成所述模型和将被用户用来分析、计划和预测的与所述模型的变量相关的候选模型的所述变量和/或假设的装置。