CN115049327A

CN115049327A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN115049327A
Application number: CN202210984690.3A
Authority: CN
Inventors: 易伟杰; 马超群; 丁文祥
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-09-13
Anticipated expiration: 2042-08-17
Also published as: CN115049327B

Abstract

本申请提供了一种数据处理方法、装置、电子设备及存储介质，涉及大数据技术领域。方法包括：基于实验地域和至少一个待选地域在第一阶段的指标数据，从至少一个待选地域中，确定出与实验地域匹配的对照地域；基于第一阶段指标数据差异和第二阶段指标数据差异，确定与目标服务策略对应的实验结果；其中，第一阶段为未投放目标服务策略的阶段；第二阶段为已向实验地域投放目标服务策略的阶段。本申请技术方案以地域为分流单元，通过预先匹配出实验地域和对照地域，并计算二者之间的天然差异和目标服务策略投放后的观测差异，得到实验地域和对照地域之间的实际差异，以验证目标服务策略是否达到预期目标，进而实现在特定群组之间开展AB实验。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及大数据技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

AB实验通过随机分流构造出条件和特征类似的两个群组，其中一个作为实验组，另一个作为对照组，对实验组投放服务策略，经过一段时间后，对实验组和对照组之间的指标差异进行分析，从而得到投放的服务策略是否符合预期效果的实验结果。当投放的服务策略是实验组和对照组之间唯一的变量时，实验结果便能真实反映指标差异是否可以归因于所投放的服务策略。然而，在一些场景中，群组之间可能存在天然差异，导致分组很难实现随机分流，即分流出的实验组和对照组之间存在着天然差异，这种天然差异也将成为实验组和对照组之间的变量，从而导致实验结果不能够真实反映投放的服务策略的效果。

发明内容

本申请实施例提供一种数据处理方法、装置、电子设备及存储介质，以解决或缓解现有技术中所存在的技术问题。

第一方面，本申请实施例提供了一种数据处理方法，包括：

基于实验地域和至少一个待选地域在第一阶段的指标数据，从所述至少一个待选地域中，确定出与所述实验地域匹配的对照地域；其中，所述第一阶段为未投放目标服务策略的阶段；

获取所述实验地域和所述对照地域在第二阶段的指标数据；其中，所述第二阶段为已向所述实验地域投放所述目标服务策略的阶段；

基于第一阶段指标数据差异和第二阶段指标数据差异，确定与所述目标服务策略对应的实验结果；其中，所述第一阶段指标数据差异为所述实验地域与所述对照地域在所述第一阶段的指标数据的差异，所述第二阶段指标数据差异为所述实验地域和所述对照地域在所述第二阶段的指标数据的差异。

第二方面，本申请实施例提供了一种数据处理方法，包括：

获取第一目标地域和第二目标地域在相同服务策略下的指标数据；

基于获取到的指标数据，确定所述第一目标地域与所述第一目标地域之间的匹配度；

在所述匹配度满足匹配阈值条件的情况下，将所述第一目标地域与所述第一目标地域作为实验-对照地域组。

第三方面，本申请实施例提供了一种数据处理装置，包括：

对照地域确定模块，用于基于实验地域和至少一个待选地域在第一阶段的指标数据，从所述至少一个待选地域中，确定出与所述实验地域匹配的对照地域；其中，所述第一阶段为未投放目标服务策略的阶段；

第二阶段指标数据获取模块，用于获取所述实验地域和所述对照地域在第二阶段的指标数据；其中，所述第二阶段为已投放所述目标服务策略的阶段；

实验结果确定模块，用于基于第一阶段指标数据差异和第二阶段指标数据差异，确定与所述目标服务策略对应的实验结果；其中，所述第一阶段指标数据差异为所述实验地域与所述对照地域在所述第一阶段的指标数据的差异，所述第二阶段指标数据差异为所述实验地域和所述对照地域在所述第二阶段的指标数据的差异。

第四方面，本申请实施例提供了一种数据处理装置，包括：

指标数据获取模块，用于获取第一目标地域和第二目标地域在相同服务策略下的指标数据；

匹配度确定模块，用于基于获取到的指标数据，确定所述第一目标地域和所述第二目标地域之间的匹配度；

实验-对照地域组确定模块，用于在所述匹配度满足匹配阈值条件的情况下，将所述第一目标地域与所述第一目标地域作为实验-对照地域组。

第五方面，本申请实施例提供一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，处理器在执行计算机程序时实现本申请任一实施例提供的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现本申请任一实施例提供的方法。

与现有技术相比，本申请具有如下优点：

本申请的技术方案以地域为分流单元，通过在未投放目标服务策略之前预先匹配出可进行AB实验的实验地域和对照地域，并计算实验地域和对照地域之间的天然差异（第一阶段指标数据差异），在目标服务策略投放后，计算实验地域和对照地域之间所表现出来的观测差异（第二阶段指标数据差异），并以此计算出实验地域和对照地域之间的实际差异，得到目标服务策略的净升值，以验证下发的目标服务策略是否达到预期目标，进而实现以地域为最小单元，在特定群组之间开展AB实验。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为本申请实施例一提供的数据处理方法的流程图；

图2为本申请实施例提供的数据处理方法的系统结构示例图；

图3为本申请实施例一提供的平行性检测法的流程图；

图4A和图4B为本申请实施例一提供的平行性检测结果的示意图；

图5为本申请实施例一提供的双重差分算法原理的示意图；

图6为本申请实施例二提供的数据处理方法的流程图；

图7为本申请实施例三提提供的数据处理方法的流程图；

图8为本申请实施例四提供的数据处理方法的流程图；

图9为本申请实施例四提供的城市预匹配的示例图；

图10为本申请实施例四提供的回归系数计算的应用示例图；

图11为本申请实施例四提供的平行性检测法的应用示例图；

图12为本申请实施例四提供的双重差分模型的应用示意图；

图13为本申请实施例四提供的双重差分算法的应用示例图；

图14为本申请实施例四提供的实验结果展示的示意图；

图15为本申请实施例五提供的数据处理装置的示意图；

图16为本申请实施例五提供的数据处理装置的示意图；

图17为用来实现本申请实施例的电子设备的框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。为便于理解本申请实施例的技术方案，以下对本申请实施例的相关技术进行说明，以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。

在本文中使用以下术语。

AB实验：对样本进行随机分流构造出条件和特征类似的两个群组，其中一个群组作为实验组，另一个群组作为对照组，对实验组投放服务策略，经过一段时间后，对实验组和对照组之间的指标差异进行分析，从而得到投放的服务策略是否符合预期效果的实验结果。当投放的服务策略是实验组和对照组之间唯一的变量时，实验结果便能真实反映指标差异是否可以归因于所投放的服务策略。

服务策略：在某一业务领域中，可以实现某一目标的方案或方针。如向B端用户投放的营销方案、规划的高铁或高速路线、新教育模式等。

指标：在某一业务领域中，衡量某一目标的参数。如商品交易总额（GrossMerchandise Volume，GMV）、日活跃用户数量（Daily Active User，DAU）、月活跃用户数量（Monthly Active User，MAU）、国民生产总值（Gross Domestic Product，GDP）、消费者物价指数（Consumer Price Index，CPI）、升学率等。

随机分流：在AB实验的分组过程中，保证分组的随机性以及各群组样本特征的均匀性。

特定群组：两个群组的样本间存在着天然的地域差异，而这种地域差异会对指标产生影响，这种存在地域差异的两个群组可以叫做特定群组。

B端用户：非消费者群体，如社区团购中的团长。

ODPS：全称为Open Data Processing Service，是阿里巴巴通用计算平台提供的一种快速、完全托管的数据库解决方案，它可以提供完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决海量数据计算问题，并保障数据安全。

由于地域性导致的特定群组之间的天然差异，使得在特定群组中开展AB实验无法随机分流。以在B端用户中做AB实验为例，主要体现在：（1）B端用户并不是完全线上的用户，服务策略的下发经常无法实现随机化；（2）B端大多场景都有较强的网络效应，实验组和对照组的样本之间容易互相污染，以至于最终检测出来的指标差异无法体现服务策略的真实效果；（3）网络效应和策略执行问题，服务策略必须对某一地域的所有B端用户下发，而无法直接抽取部分B端用户做实验。

本申请旨在提供一种数据数据处理方法，以地域为分流单元，通过在未投放目标服务策略之前预先匹配出可进行AB实验的实验地域和对照地域，并计算实验地域和对照地域之间的天然差异（第一阶段指标数据差异），在目标服务策略投放后，计算实验地域和对照地域之间所表现出来的观测差异（第二阶段指标数据差异），并以此计算出实验地域和对照地域之间的实际差异，得到目标服务策略的净升值，以验证下发的目标服务策略是否达到预期目标，进而实现以地域为最小单元，在特定群组之间开展AB实验。

基于此，本申请技术方案可以应用于特定群组的AB实验场景中，以验证目标服务策略是否达到预期目标。例如，验证向B端用户投放的营销策略是否能够达到预期目标的场景、验证高铁路线或高速路线是否能够达到预期目标的场景、验证新教育模式是否可以能够达到预期目标的场景等。进一步地，基于实验结果可以确定目标服务策略的实施区域、实施对象、实施周期等。

实施例一

图1为本申请实施例的数据处理方法的示意图。如图1所示，该数据处理方法包括：

步骤S101：基于实验地域和至少一个待选地域在第一阶段的指标数据，从至少一个待选地域中，确定出与实验地域匹配的对照地域；

步骤S102：获取实验地域和对照地域在第二阶段的指标数据；

步骤S103：基于第一阶段指标数据差异和第二阶段指标数据差异，确定与目标服务策略对应的实验结果。

其中，第一阶段为未投放目标服务策略的阶段，即AA阶段；第二阶段为已向实验地域投放目标服务策略的阶段，即AB阶段；指标数据即为某一指标类型下的具体数据。

本申请实施例对目标服务策略以及指标的类型不作具体限定，可根据实际应用场景进行配置。目标服务策略不同，指标的类型可以有所不同。例如：当目标服务策略为商品营销方案时，指标类型可以包括GMV、DAU、MAU、订单数量、商品交易数量等；又如：当目标服务策略为规划的高铁路线或高速路线时，指标类型可以包括GDP、CPI等；再如：当目标服务策略为新教育模式时，指标类型可以包括升学率等。

在步骤S101中，可以包括：基于实验地域在第一阶段的指标数据以及待选地域在第一阶段的指标数据，确定实验地域与待选地域之间的匹配度；基于各待选地域与实验地域之间的匹配度，从各待选地域中确定出对照地域。

例如：当实验地域与该待选地域之间的匹配度满足匹配度阈值条件时，可以将该待选地域作为与实验地域匹配的对照地域；当实验地域与该待选地域之间的匹配度不满足匹配度阈值条件时，该待选地域不能作为与实验地域匹配的对照地域。

其中，匹配度可以为欧式距离，相应的匹配度阈值条件为欧式距离小于预设的欧式距离阈值；或者，匹配度可以为余弦相似度，相应的匹配度阈值条件为余弦相似度大于预设的余弦相似度阈值；或者，匹配度可以为平行度，相应的匹配度阈值条件可以为平行度小于预设的平行度阈值。匹配度和匹配度阈值条件可以根据实际需要进行配置，本申请实施例对此不作限定。

在确定了实验地域和对照地域以后，可以向实验地域投放（下发）目标服务策略，即进入第二阶段，进一步地，在步骤S102中，获取实验地域在第二阶段的指标数据以及对照地域在第二阶段的指标数据。

在步骤S103中，第一阶段指标数据差异为实验地域与对照地域在第一阶段的指标数据的差异，即实验地域在AA阶段的指标数据与对照地域在AA阶段的指标数据之间的差异；第二阶段指标数据差异为实验地域和对照地域在第二阶段的指标数据的差异，即实验地域在AB阶段的指标数据与对照地域在AB阶段的指标数据之间的差异；与目标服务策略对应的实验结果即为目标服务策略是否达到预期目标。

第一阶段指标数据差异表征了实验地域与对照地域之间的天然差异，第二阶段指标数据差异表征了实验地域与对照地域在AB阶段所表现出来的可观测差异，那么，在第二阶段指标数据差异中排除第一阶段指标数据差异，即可得到因目标服务策略向实验地域投放所导致的实验地域与对照地域之间的实际差异，从而得到目标服务策略是否达到预期目标的实验结果，以实现在特定群组中开展AB实验。

示例性地，本申请实施例的数据处理方法的执行主体可以是服务策略管理方的管理平台。管理平台可以为运行在物理服务器上的服务端。服务端可以部署有专业的数据库服务模块，如ODPS，用于指标数据的获取、相关计算和实验结果的输出等。

在一个应用示例中，目标服务策略的下发可以基于服务策略管理方与各目标地域的用户之间的线下沟通进行下发，指标数据的获取可以通过线下统计的形式，收集各目标地域的指标数据，并汇总于服务端。

在另一个应用示例中，如图2所示，目标服务策略的下发可以基于服务端与用户终端之间的通讯，由服务端向实验地域的用户终端下发，指标数据的获取可以基于服务端与用户终端之间的通讯，由服务端从各目标地域的用户终端中采集指标数据。用户终端可以是固定终端，例如，个人电脑等，用户终端也可以是移动终端，例如，手机、平板电脑等。

本申请实施例中的“用户”应作广义理解，它可以包括服务策略管理方，也可以包括实验执行人，如B端用户，也可以是实验执行代表，如实施高速路线和高铁路线的受委托方、实施教育模式的受委托方等。另外，在不同阶段，“用户”所指代的对象可以不同。例如：在服务策略下发阶段，用户可以是服务策略管理方，在指标数据的获取阶段，用户可以是指标数据的提供者。

需要说明的是，本申请实施例中的各种信息和数据的获取、存储和应用等，均得到了相关授权或符合相关法律法规的规定，且不违背公序良俗。

在一种实施方式中，如图3所示，在步骤S101中，基于实验地域与待选地域在第一阶段的指标数据，确定实验地域与待选地域之间的匹配度，可以包括：

步骤S301：基于实验地域在第一阶段的指标数据，生成第一线性回归直线；

步骤S302：基于待选地域在第一阶段的指标数据，生成第二线性回归直线；

步骤S303：基于第二线性回归直线与第一线性回归直线之间的平行度，确定实验地域与待选地域之间的匹配度。

基于此，匹配度可以为平行度，如直线夹角、线性回归系数之差的绝对值，匹配度阈值条件可以为平行度小于预设的平行度阈值，即可以基于平行性检测法确定与实验地域匹配的对照地域。下面对平行性检测法进行具体介绍。

当第二线性回归直线与第一线性回归直线之间的夹角小于预设的夹角阈值时，或者，当第二线性回归直线与第一线性回归直线之间的回归系数之差的绝对值小于预设的回归系数之差阈值时，该第二线性回归直线与第一线性回归直线满足平行性检测标准，从而该第二线性回归直线对应的待选地域可以作为实验地域的对照地域。

示例性地，如图4A和图4B所示，横轴x表示时间数据，纵轴y表示指标数据。将实验地域A0在AA阶段的指标数据拟合成第一线性回归直线S0，将待选地域B1在AA阶段的指标数据拟合成第二线性回归直线S1，将待选地域B2在AA阶段的指标数据拟合成第二线性回归直线S2；计算得到S0与S1之间的线性回归系数之差的绝对值为0.256，计算得到S0与S2之间的线性回归系数之差的绝对值为0.007；当线性回归系数之差阈值为0.06时，S0与S1之间不满足平行性检验标准，S0与S2之间满足平行性检验标准，进而与实验地域A0匹配的对照地域为B2。

其中，回归系数（regression coefficient）为在线性回归直线方程中表示自变量x对因变量y影响大小的参数。回归系数越大表示x对y影响越大，正回归系数表示y随x增大而增大，负回归系数表示y随x增大而减小。本申请实施例中，回归系数k的计算公式为：

其中，x_i表示目标地域中的第i个样本的时间数据，纵轴y_i表示目标地域中的第i个样本的指标数据。

另外，也可以分别计算S0与S1之间的直线夹角以及S0与S2之间的直线夹角，通过比较直线夹角与直线夹角阈值，从S1和S2中确定出与S0满足平行性检测标准的直线，进而确定对照地域。

回归系数k的计算公式中，实验地域与对照地域的各项参数相互独立。因此，只需要分别计算实验地域样本的回归系数与对照地域样本的回归系数，并进行交叉关联，在匹配时进行回归系数的修正，便可得到二者间的平行检验结果。

具体地，可以利用时间数据中的最值（包括最大值和最小值）和指标数据中的最值，对回归系数k进行归一化修正，然后计算实验地域与对照地域的回归系数之差的绝对值。

对回归系数k进行归一化修正方法可以包括：首先，对时间数据和指标数据进行归一化处理，统一横轴和纵轴的单位量纲；然后，利用归一化后的时间数据和指标数据计算回归系数。其中，服务数据的最值可基于所有目标区域中的样本集合的指标数据进行确定。

示例性地，利用时间数据中的最值对横轴上的时间数据归一化到区间[0,1]中，利用指标数据中的最值对纵轴上的指标数据归一化到区间[0,1]中。本申请实施例中，归一化公式为：

其中，

和

分别表示目标地域中的第i个样本在归一化之前的时间数据和指标数据，即采集到的时间数据和指标数据；

和

分别表示目标地域中的第i个样本在归一化之后的时间数据和指标数据；

和

分别表示所有目标地域的样本集合的时间数据的最大值和最小值；

和

分别表示所有目标地域的样本集合的指标数据的最大值和最小值。

基于本申请实施例提供的平行性检测法，可以为AB实验中的双重差分法提供实验基础，便于双重差分法的实现。

在一种实施方式中，基于各待选地域与实验地域之间的匹配度，从各待选地域中确定出对照地域，包括：从各待选地域中，筛选出匹配度满足匹配度阈值条件的多个初选地域；从各初选地域中，选择与实验地域属于同一服务管理区的初选地域作为对照地域。

基于此，当初选地域为多个时，可以按照同一服务管理优先的匹配规则，从多个初选地域中选择与实验地域属于同一服务管理区的初选地域作为对照地域。由于同一服务管理区下的各目标地域是被同一服务方管控，因此可以更好控制保证实验期间目标服务策略的唯一性，防止其他服务策略同时进行而干扰实验结果。

在另一种实施方式中，当初选地域为多个时，可以按照匹配度优先的匹配规则，从多个所对应的待选地域中选择与实验地域匹配度最高的待选地域作为对照地域。

示例性地，在确定对照地域时，可以共同遵循同一服务管理优先的匹配规则和匹配度优先的匹配规则。例如：先从多个初选地域中，确定出与实验地域属于同一服务管理区的地域；再从确定出的同一服务管理区的地域中，选择与实验地域匹配度最高的初选地域作为对照地域。

示例性地，可以预设匹配度阈值，并基于历史数据更新匹配度阈值，即本实施例还提供了一种匹配度阈值自适应调整算法。其中，历史数据包括多个相匹配的目标地域的匹配度。以匹配度为平行度，匹配度阈值为平行度阈值为例：基于物理概论对平行的定义，预设平行度阈值设置为：夹角阈值为2度~5度，回归系数为0.024~0.06；基于多个相匹配的目标地域之间的平行度，调整平行度阈值为：夹角阈值为5度，回归系数为0.06。

在一种实施方式中，本申请实施例的数据处理方法还可以包括：基于各目标地域在当前周期的指标数据，确定在当前周期下相匹配的第一地域组合；其中，目标地域包括实验地域和待选地域，当前周期处于第一阶段中；基于各目标地域在上一周期的指标数据，确定在上一周期下相匹配的第二地域组合；其中，上一周期处于第一阶段中；从各第一地域组合和各第二地域组合中，确定出相同的地域组合作为第三地域组合；基于第一地域组合的数量以及第三地域组合的数量，确定匹配稳定率。

示例性地，匹配稳定率= SUM(上一周期匹配且当前周期也匹配的地域组合)/SUM(上一周匹配的地域组合)。其中，当前周期匹配的地域组合即为第一地域组合，上一周匹配的地域组合即为第二地域组合，上一周期匹配且当前周期也匹配的地域组合即为第三地域组合。

匹配稳定率可以反映匹配结果的稳定性，每一指标类型可以分别对应一个匹配稳定率。基于本申请实施例的平行性检测法，平日核心指标类型对应的匹配稳定率在80%左右，节日期间的核心指标类型对应的匹配稳定率在75%左右。

在一种实施方式中，实验结果包括实际指标数据差异和显著性结果，在步骤S103中，基于第一阶段指标数据差异和第二阶段指标数据差异，确定与目标服务策略对应的实验结果，包括：从第二阶段指标数据差异中排除第一阶段指标数据差异，得到实际指标数据差异；对实际指标数据差异进行显著性检验，得到显著性结果。

如图5所示，β₂表征了AA阶段实验地域和对照地域之间的差异，即第一阶段指标数据差异，可以看出，AA阶段指标数据差异β₂与目标服务策略是否下发无关，是天然存在的差异。如果将观测到AB阶段的差异β₂+β₃（即第二阶段指标数据差异）作为实验结果，将会高估目标服务策略的实际效果。因此，本申请实施例利用双重差分法（Difference InDifference，DID），从AB阶段的差异β₂+β₃中减去 AA阶段的差异β₂，即可得到目标服务策略带来的实际差异β₃。

示例性地，利用AB实验的实验组标记参数treatment和AB阶段标记参照post构建双重差分回归公式：

其中,

表示第i个样本的指标数据；

表示第i个样本是否来自于实验地域；

表示第i个样本的指标数据是否为第二阶段（AB阶段）的指标数据。示例性地， “1”表示“是”，“0”表示“否”。例如：

表示第i个样本是否来自于实验地域，

表示第i个样本是否来自于对照地域；

表示第i个样本的指标数据为AB 阶段的指标数据，

表示第i个样本的指标数据为AA阶段的指标数据。

进一步地，初始交互项回归系数

表征对照地域在AA阶段的初始指标数据；第一交互项回归系数

表征实验结束时对照地域在AB阶段的指标数据；第二交互项回归系数

表征AA阶段指标数据差异（第一阶段指标数据差异）；第三交互项回归系数

表征目标服务策略带来的实际指标数据差异。

基于双重差分回归公式即可求解出第三交互项回归系数

，即得到目标服务策略带来的实际指标数据差异；对第三交互项回归系数

进行回归系数的显著性检验，即可得到显著性结果。显著性结果包括实际指标数据差异的p值，还可以包括实际指标数据差异的置信度。

本申请实施例的数据处理方法以地域为分流最小单元，基于待选地域与实验地域在AA阶段的指标数据确定二者之间的匹配度，并将匹配度满足匹配度阈值条件的待选地域作为实验地域的对照地域；然后，基于实验地域与待选地域之间的观测差异（AB阶段指标数据差异）和天然差异（AA阶段指标数据），计算目标服务策略所带来的实际差异，得到目标服务策略是否达到预期目标的实验结果，从而实现在特定群组中开展AB实验。

实施例二

图6为本申请实施例的数据处理方法的示意图。如图6所示，该数据处理方法包括：

步骤S601：基于各目标地域在第一阶段的指标数据，确定各目标地域之间的匹配度；

步骤S602：基于各目标地域之间的匹配度，从各目标地域中确定出多组匹配度满足匹配阈值条件的实验-对照地域组，其中，目标地域包括实验地域和待选地域；

步骤S603：从多组实验-对照地域组中，确定与所述实验地域对应的对照地域；

步骤S604：获取实验地域和对照地域在第二阶段的指标数据；

步骤S605：基于第一阶段指标数据差异和第二阶段指标数据差异，确定与目标服务策略对应的实验结果。

与实施例一的区别在于，本实施例基于步骤S601和步骤S602将各目标地域进行预匹配，实现各目标地域之间的遍历匹配，从而在AB实验之前预生成包括多组实验-对照地域组的实验对照地域清单。进而在步骤S603中，从实验对照地域清单查找出与实验地域对应的对照地域，进而开展AB实验。其中，步骤S604可采用与步骤S102相同或相类似的方法执行，步骤S605可采用与步骤S103相同或相类似的方法执行。

匹配度可以为欧式距离，相应的匹配度阈值条件为欧式距离小于预设的欧式距离阈值；或者，匹配度可以为余弦相似度，相应的匹配度阈值条件为余弦相似度大于预设的余弦相似度阈值；或者，匹配度可以为平行度，相应的匹配度阈值条件可以为平行度小于预设的平行度阈值。匹配度和匹配度阈值条件可以根据实际需要进行配置，本申请实施例对此不作限定。

示例性地，指标类型不同，相应的指标数据不同，进而计算得到的匹配度和实验-对照地域组可能不同，可以根据实际关注指标选择对应的实验-对照地域组。

在一种实施方式中，匹配度为平行度，如直线夹角、线性回归系数之差的绝对值，匹配度阈值条件为平行度小于预设的平行度阈值，可以基于平行性检测法确定实验-对照地域组。平行性检测法可参照实施例一中的描述，在此不再赘述。

示例性地，本申请实施例的数据处理方法的执行主体可以是服务策略管理方的管理平台。管理平台可以为运行在物理服务器上的服务端。服务端可以部署有专业的数据仓库服务模块，如ODPS，用于指标数据的获取、相关计算和实验结果的输出等。

实施例三

图7为根据本申请实施例的数据处理方法的流程图。如图7所示，该数据处理方法包括：

步骤S701：获取第一目标地域和第二目标地域在相同服务策略下的指标数据；

步骤S702：基于获取到的指标数据，确定第一目标地域与第一目标地域之间的匹配度；

步骤S703：在匹配度满足匹配阈值条件的情况下，将第一目标地域与第一目标地域作为实验-对照地域组。

其中，指标数据即为某一指标类型下的具体数据。服务策略不同，指标的类型可以有所不同。例如：当服务策略为商品营销方案时，指标类型可以包括GMV、DAU、MAU、订单数量、商品交易数量等；又如：当服务策略为规划的高铁路线或高速路线时，指标类型可以包括GDP、CPI等；再如：当服务策略为新教育模式时，指标类型可以包括升学率等。

基于步骤S701~步骤S703的方法，可以在AB实验之前预生成包括多组实验-对照地域组的实验对照地域清单。进而在确定实验地域之后，从实验对照地域清单查找出与实验地域对应的对照地域，进而开展AB实验。其中，开展AB实验的方法可参照实施例一和实施例二，在此不再赘述。

示例性地，本申请实施例的数据处理方法的执行主体可以是服务策略管理方的管理平台。管理平台可以为运行在物理服务器上的服务端。服务端可以部署有专业的数据仓服务模块，如ODPS，用于指标数据的获取和相关计算。例如：可以将本申请实施例步骤S701~步骤S703的算法还原为ODPS可处理的算法模型，并封装为可调用的参数，基于ODPS分布式处理能力，支持百亿级别的样本计算，实现目标地域之间的匹配度的遍历计算，从而获得适合实验的实验-对照地域组。

实施例四

图8为根据本申请实施例的数据处理方法的流程图。如图8所示，在该应用示例中，数据处理方法包括：（1）确定实验地域；（2）基于地域预匹配模型进行全区域扫描；（3）获得与实验地域匹配的对照地域的样本清单；（4）确定对照地域，向实验地域中的各样本投放目标服务策略开始实验；（5）基于双重差分模型检验目标服务策略；（6）生成实验结果报告。即基于地域预匹配模型和双重差分模型来实现地域组间的匹配以及组间实际差异的检验，完成AB实验的全部流程。

地域预匹配模型：基于各目标地域在AA阶段的指标数据，实现目标地域之间的匹配度的遍历计算，从而生成包括多组适合实验的实验-对照地域组的实验对照地域清单。

例如：可以将实施例一步骤S101中的匹配算法还原为数据库可处理的算法模型，并封装为可调用的参数，得到地域预匹配模型。其中，匹配算法中包括平行性检测法。又如：可以将实施例二步骤S601和步骤S602中的匹配算法还原为数据库可处理的算法模型，并封装为可调用的参数，得到地域预匹配模型。再如：可以将实施例三步骤S701至步骤S703中的匹配算法还原为数据库可处理的算法模型，并封装为可调用的参数，得到地域预匹配模型。其中，匹配算法中包括平行性检测法。

示例性地，地域预匹配模型中还可以封装有上述实施例中的匹配规则算法、匹配稳定率算法以及匹配度阈值自适应调整算法中的至少一项。

示例性地，地域预匹配模型每天基于数据库ODPS调度，计算出各目标地域之间的匹配度，进而生成实验对照地域清单。

下面以在城市B端用户中开展AB实验，并利用平行性检测法进行地域匹配为例。其中，实验地域为实验组城市（也可以叫做实验城市），对照地域为对照组城市（也可以叫做对照城市或对比城市），全区域为全国，样本为社区团长。

如图9、图10和图11所示，城市A为实验城市，城市B为对照城市，城市A中包括样本a和b，城市B中包括样本c和d，指标类型包括指标A和指标B，时间数据包括各统计日期。

首先，对样本数据进行预处理，计算各指标均值、最大值、最小值，并保留明细（即团长数据明细），其中，样本数据即为团长数据（即团长对应的指标数据和时间数据）；然后，进行城市粒度聚合，包括计算实验组城市和对照组城市的回归系数、最大值、最小值，进而得到实验组城市的临时表A（简称A表）以及对照组城市的临时表B（简称B表）；进一步地，如图9和图11所示，基于笛卡尔积算法对A表和B表进行交叉关联，包括A表和B表间回归系数做差，得到匹配结果表；利用归一化因子对回归系数进行归一化，得到平行性检验结果表，其中，归一化因子包括样本最大值和样本最小值；进一步地，基于各城市间的平行性检验结果表，过滤平行较差的城市组合，即过滤平行度不满足平行度阈值条件的城市组合，生成实验对照地域清单；然后根据实验组及关注指标确认对照组，进而按照上述实施例中的方法开展实验。

示例性地，基于地域预匹配模型得到的匹配结果可以可视化展示。图4A示出了城市A0和城市B1的匹配结果，其中，基于城市A0的线性回归直线S0与城市B1的线性回归直线S1，得到回归系数之差绝对值为0.256，而回归系数之差阈值为0.06，因此，城市A0和城市B1被地域预匹配模型判定为不平行的城市组合，即城市A0和城市B1不能作为实验-对照地域组。图4B示出了城市A0和城市B2的匹配结果，其中，基于城市A0的线性回归直线S0与城市B2的线性回归直线S2，得到回归系数之差绝对值为0.007，而回归系数之差阈值为0.06，因此，城市A0和城市B2被地域预匹配模型判定为平行的城市组合，即城市A0和城市B2可以作为实验-对照地域组。

双重差分模型：将实施例一步骤S103中的双重差分算法还原为数据库可处理的算法模型，并封装为可调用的参数，得到双重差分模型。基于数据库分布式处理能力，实现指标数据的自动获取以及实验结果的自动计算和自动输出，从而可以避免数据分析师人为操作无法在群组选择上规范化和规则统一化的问题。

继续以在城市B端用户中开展AB实验为例。如图12和图13所示，基于对照组样本数据和实验组样本数据，调用双重差分模型，可以得到对照组AA阶段指标数据、对照组AB阶段指标数据、实验组AA阶段指标数据和实验组AB阶段指标数据，并基于双重差分模型可以计算出实验结果，即DID检验得到的结果，包括目标服务策略的净升值和显著性结果，进而生成实验结果报告。

例如：利用管理平台的地域预匹配模型每周期（如每天）调用ODPS，利用ODPS的分布式和离线计算的能力，计算出所有城市之间的匹配度，提供给用户实验对照地域清单；用户可根据实际情况选择实验城市和对照城市，并制定实验策略，包括AA阶段实验周期、AB阶段实验周期、投放的目标服务策略等；管理平台基于ODPS自动生产实验结果报告，其中，双重差分模型的调用可提升实验结果准确率，进而提升实验效果。

图14示出了管理平台以在城市B端用户中开展AB实验的实验结果示意图。如图14所示，目标服务策略为商品营销方案，指标类型可以包括团均支付新用户、团均GMV、团均支付用户数、团均会员DAU、费率等，实验结果包括实验组和对照组的实际差异（净升值），还可以包括与实际差异对应的显著性结果包括显著值和置信区间（图中未示出）。其中，每一指标类型均对应有实验结果。需要说明的是，在图14中，对照组和实验组的指标数据进行了模糊处理。

实施例五

与本申请实施例一和实施例二提供的方法相对应地，本申请实施例还提供一种数据处理装置。如图15所示，该数据处理装置可以包括：

对照地域确定模块1501，用于基于实验地域和至少一个待选地域在第一阶段的指标数据，从至少一个待选地域中，确定出与实验地域匹配的对照地域；其中，第一阶段为未投放目标服务策略的阶段；

第二阶段指标数据获取模块1502，用于获取实验地域和对照地域在第二阶段的指标数据；其中，第二阶段为已投放目标服务策略的阶段；

实验结果确定模块1503，用于基于第一阶段指标数据差异和第二阶段指标数据差异，确定与目标服务策略对应的实验结果；其中，第一阶段指标数据差异为实验地域与对照地域在第一阶段的指标数据的差异，第二阶段指标数据差异为实验地域和对照地域在第二阶段的指标数据的差异。

在一种实施方式中，对照地域确定模块1501具体用于：基于实验地域与待选地域在第一阶段的指标数据，确定实验地域与待选地域之间的匹配度；基于各待选地域与实验地域之间的匹配度，从各待选地域中确定出对照地域。

在一种实施方式中，对照地域确定模块1501还用于：基于实验地域在第一阶段的指标数据，生成第一线性回归直线；基于待选地域在第一阶段的指标数据，生成第二线性回归直线；基于第二线性回归直线与第一线性回归直线之间的平行度，确定实验地域与待选地域之间的匹配度。

在一种实施方式中，对照地域确定模块1501还用于：从各待选地域中，筛选出匹配度满足匹配度阈值条件的多个初选地域；从各初选地域中，选择与实验地域属于同一服务管理区的初选地域作为对照地域。

在一种实施方式中，该数据处理装置还包括：

目标地域匹配度确定模块，用于基于各目标地域在第一阶段的指标数据，确定各目标地域之间的匹配度，其中，目标地域包括实验地域和待选地域；

地域组确定模块，用于基于各目标地域之间的匹配度，从各目标地域中确定出多组匹配度满足匹配阈值条件的实验-对照地域组，其中，实验-对照地域组用于确定与实验地域对应的对照地域。

在一种实施方式中，对照地域确定模块1501还用于：从多组实验-对照地域组中，确定与实验地域对应的对照地域。

在一种实施方式中，该数据处理装置还包括：

第一地域组合确定模块，用于基于各目标地域在当前周期的指标数据，确定在当前周期相匹配的第一地域组合；其中，当前周期处于第一阶段中；

第二地域组合确定模块，用于基于各目标地域在上一周期的指标数据，确定在上一周期相匹配的第二地域组合；其中，上一周期处于第一阶段中；

第三地域组合确定模块，用于从各第一地域组合和各第二地域组合中，确定出相同的地域组合作为第三地域组合；

匹配稳定率确定模块，用于基于第二地域组合的数量以及第三地域组合的数量，确定匹配稳定率。

在一种实施方式中，实验结果确定模块1503具体用于：从第二阶段指标数据差异中排除第一阶段指标数据差异，得到实际指标数据差异；对实际指标数据差异进行显著性检验，得到显著性结果。

与本申请实施例三提供的方法相对应地，本申请实施例还提供一种数据处理装置。如图16所示，该数据处理装置可以包括：

指标数据获取模块1601，用于获取第一目标地域和第二目标地域在相同服务策略下的指标数据；

匹配度确定模块1602，用于基于获取到的指标数据，确定第一目标地域和第二目标地域之间的匹配度；

实验-对照地域组确定模块1603，用于在匹配度满足匹配阈值条件的情况下，将第一目标地域与第一目标地域作为实验-对照地域组。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，并具备相应的有益效果，在此不再赘述。

图17为用来实现本申请实施例的电子设备的框图。如图17所示，该电子设备包括：存储器1701和处理器1702，存储器1701内存储有可在处理器1702上运行的计算机程序。处理器1702执行该计算机程序时实现上述实施例中的方法。存储器1701和处理器1702的数量可以为一个或多个。

该电子设备还包括：

通信接口1703，用于与外界设备进行通信，进行数据交互传输。

如果存储器1701、处理器1702和通信接口1703独立实现，则存储器1701、处理器1702和通信接口1703可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponent Interconnect ，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture ，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图17中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1701、处理器1702及通信接口1703集成在一块芯片上，则存储器1701、处理器1702及通信接口1703可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(Advanced RISC Machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic Random Access Memory ，DRAM) 、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据处理方法，包括：

2.根据权利要求1所述的数据处理方法，其中，基于实验地域和至少一个待选地域在第一阶段的指标数据，从所述至少一个待选地域中，确定出与所述实验地域匹配的对照地域，包括：

基于所述实验地域与所述待选地域在所述第一阶段的指标数据，确定所述实验地域与所述待选地域之间的匹配度；

基于各所述待选地域与所述实验地域之间的匹配度，从各所述待选地域中确定出所述对照地域。

3.根据权利要求2所述的数据处理方法，其中，基于所述实验地域与所述待选地域在所述第一阶段的指标数据，确定所述实验地域与所述待选地域之间的匹配度，包括：

基于所述实验地域在所述第一阶段的指标数据，生成第一线性回归直线；

基于所述待选地域在所述第一阶段的指标数据，生成第二线性回归直线；

基于所述第二线性回归直线与所述第一线性回归直线之间的平行度，确定所述实验地域与所述待选地域之间的匹配度。

4.根据权利要求2所述的数据处理方法，其中，基于各所述待选地域与所述实验地域之间的匹配度，从各所述待选地域中确定出所述对照地域，包括：

从各所述待选地域中，筛选出匹配度满足匹配度阈值条件的多个初选地域；

从各所述初选地域中，选择与所述实验地域属于同一服务管理区的初选地域作为所述对照地域。

5.根据权利要求1所述的数据处理方法，所述方法还包括：

基于各目标地域在所述第一阶段的指标数据，确定各所述目标地域之间的匹配度，其中，所述目标地域包括所述实验地域和所述待选地域；

基于各所述目标地域之间的匹配度，从各所述目标地域中确定出多组匹配度满足匹配阈值条件的实验-对照地域组，其中，所述实验-对照地域组用于确定与所述实验地域对应的对照地域。

6.根据权利要求5所述的数据处理方法，基于实验地域和至少一个待选地域在第一阶段的指标数据，从所述至少一个待选地域中，确定出与所述实验地域匹配的对照地域，包括：

从多组实验-对照地域组中，确定与所述实验地域对应的对照地域。

7.根据权利要求1至6任一项所述的数据处理方法，所述方法还包括：

基于各目标地域在当前周期的指标数据，确定在所述当前周期相匹配的第一地域组合；其中，所述当前周期处于所述第一阶段中；

基于各所述目标地域在上一周期的指标数据，确定在所述上一周期相匹配的第二地域组合；其中，所述上一周期处于所述第一阶段中；

从各所述第一地域组合和各所述第二地域组合中，确定出相同的地域组合作为第三地域组合；

基于所述第二地域组合的数量以及所述第三地域组合的数量，确定匹配稳定率。

8.根据权利要求1至6任一项所述的数据处理方法，其中，所述实验结果包括实际指标数据差异和显著性结果，基于第一阶段指标数据差异和第二阶段指标数据差异，确定与所述目标服务策略对应的实验结果，包括：

从所述第二阶段指标数据差异中排除所述第一阶段指标数据差异，得到所述实际指标数据差异；

对所述实际指标数据差异进行显著性检验，得到所述显著性结果。

9.一种数据处理方法，包括：

10.一种数据处理装置，包括：

11.一种数据处理装置，包括：

12.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现权利要求1-9中任一项所述的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。