CN116244165A

CN116244165A - 测试处理方法、装置、电子设备及存储介质

Info

Publication number: CN116244165A
Application number: CN202111492120.4A
Authority: CN
Inventors: 马奕潇; 柴剑彬; 金雅然
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2023-06-09

Abstract

本公开关于一种测试处理方法、装置、电子设备及存储介质，测试处理方法包括：获取测试的实验组和对照组中的每一个用户账户的账户信息；根据账户信息中的测试数据和历史数据，获得每一个用户账户的差值数据；根据每一个用户账户的差值数据，获得实验组的第一聚合数据和对照组的第二聚合数据；根据第一聚合数据和第二聚合数据，获得测试的测试结果。本公开既能排除实验组和对照组的固有差异，辅助测试人员更加准确地估计实验效果，又能降低样本方差，缩窄置信区间，提升统计功效，可直接基于SQL离线对大批量的实验测试账户信息进行处理，并直接接入AB测试平台，无需额外耗费人力进行相关开发，并且节省了数据处理的资源消耗。

Description

测试处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种测试处理方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的不断发展，AB测试被应用到很多场景，在程序的新功能上线前需要通过AB测试以预估新功能正式上线后的效果。为了使AB测试更加准确和高效，需要降低第一类错误率，并且在控制第一类错误率的同时降低第二类错误率，即提升统计功效。

然而，随着程序产品的不断迭代，大量的AB测试会不断地在线执行，因此需要提高实验效率。为确保较高的统计功效，需要尽可能地降低样本方差，而降低样本方差的过程也需要消耗大量的测试系统资源。因此，如何在降低样本方差以确保较高的统计功效的同时降低测试系统的资源消耗，便成为亟待解决的问题。

发明内容

本公开提供一种测试处理方法、装置、电子设备及存储介质，以至少解决相关技术中降低样本方差以确保较高的统计功效并降低测试的资源消耗的技术问题。

根据本公开实施例的一方面，提供一种测试处理方法，包括：

获取测试的实验组和对照组中的每一个用户账户的账户信息；

根据所述账户信息中的测试数据和历史数据，获得所述每一个用户账户的差值数据；

根据所述每一个用户账户的差值数据，获得所述实验组的第一聚合数据和所述对照组的第二聚合数据；

根据所述第一聚合数据和所述第二聚合数据，获得所述测试的测试结果。

在一种可能实施方式中，所述根据所述账户信息中的测试数据和历史数据，获得所述每一个用户账户的差值数据，包括：

获取所述账户信息中的设定时间范围内的历史数据；

根据所述设定时间范围内的历史数据，获得历史平均数据；

根据所述测试数据和所述历史平均数据，获得所述差值数据。

在一种可能实施方式中，所述根据所述设定时间范围内的历史数据，获得历史平均数据，包括：

在所述设定时间范围内的历史数据中，获得所述历史数据的产生时间；

根据所述历史数据和所述产生时间，获得所述历史平均数据。

若所述设定时间范围内的没有所述历史数据，则将所述历史平均数据设置为0。

在一种可能实施方式中，所述根据所述测试数据和所述历史平均数据，获得所述差值数据，包括：

将所述测试数据与所述历史平均数据相减所获得的差值，作为所述差值数据。

在一种可能实施方式中，所述根据所述每一个用户账户的差值数据，获得所述实验组的第一聚合数据和所述对照组的第二聚合数据，包括：

将所述实验组中的所有用户账户的差值数据进行聚合，获得所述第一聚合数据；

将所述对照组中的所有用户账户的差值数据进行聚合，获得所述第二聚合数据。

在一种可能实施方式中，所述将所述实验组中的所有用户账户的差值数据进行聚合，获得所述第一聚合数据，包括：

根据所述实验组中的所有用户账户的差值数据的总和、所述实验组中的所有用户账户的差值数据的平均值中的至少之一，获得所述第一聚合数据。

在一种可能实施方式中，所述将所述对照组中的所有用户账户的差值数据进行聚合，获得所述第二聚合数据，包括：

根据所述对照组中的所有用户账户的差值数据的总和、所述对照组中的所有用户账户的差值数据的平均值中的至少之一，获得所述第二聚合数据。

在一种可能实施方式中，所述根据所述第一聚合数据和所述第二聚合数据，获得所述测试的测试结果，包括：

根据所述第一聚合数据和所述第二聚合数据的差值，获得所述测试的效果提升绝对值数据。

在一种可能实施方式中，所述测试处理方法还包括：

根据所述对照组的每一个用户账户的测试数据，获得所述对照组的第三聚合数据；

根据所述第一聚合数据、所述第二聚合数据和所述第三聚合数据，获得所述测试的测试结果。

在一种可能实施方式中，所述根据所述第一聚合数据、所述第二聚合数据和所述第三聚合数据，获得所述测试的测试结果，包括：

根据所述第一聚合数据和所述第二聚合数据的差值，获得所述测试的效果提升绝对值数据；

根据所述效果提升绝对值数据与所述第三聚合数据的比值，获得所述测试的效果提升比率。

在一种可能实施方式中，所述账户信息和所述测试结果关联于所述测试的测试参数；

所述测试参数至少包括：应用使用时长、视频播放次数、视频播放时长、评论数、点赞数的其中之一。

根据本公开实施例的另一方面，提供一种测试处理装置，包括：

数据获取模块，被配置为执行获取测试的实验组和对照组中的每一个用户账户的账户信息；

差值获取模块，被配置为执行根据所述账户信息中的测试数据和历史数据，获得所述每一个用户账户的差值数据；

聚合获取模块，被配置为执行根据所述每一个用户账户的差值数据，获得所述实验组的第一聚合数据和所述对照组的第二聚合数据；

结果获取模块，被配置为执行根据所述第一聚合数据和所述第二聚合数据，获得所述测试的测试结果。

在一种可能实施方式中，所述差值获取模块，包括：

历史数据获取子模块，被配置为执行获取所述账户信息中的设定时间范围内的历史数据；

平均数据获取子模块，被配置为执行根据所述设定时间范围内的历史数据，获得历史平均数据；

差值获取子模块，被配置为执行根据所述测试数据和所述历史平均数据，获得所述差值数据。

在一种可能实施方式中，所述平均数据获取子模块被配置为执行：

在一种可能实施方式中，差值获取子模块被配置为执行：

在一种可能实施方式中，所述聚合获取模块被配置为执行：

在一种可能实施方式中，所述结果获取模块被配置为执行：

在一种可能实施方式中，所述聚合获取模块，被配置为执行根据所述对照组的每一个用户账户的测试数据，获得所述对照组的第三聚合数据；

所述结果获取模块，被配置为执行根据所述第一聚合数据、所述第二聚合数据和所述第三聚合数据，获得所述测试的测试结果。

在一种可能实施方式中，所述结果获取模块包括：

效果绝对值数据获取子模块，被配置为执行根据所述第一聚合数据和所述第二聚合数据的差值，获得所述测试的效果提升绝对值数据；

效果比率获取子模块，被配置为执行根据所述效果提升绝对值数据与所述第三聚合数据的比值，获得所述测试的效果提升比率。

根据本公开实施例的另一方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如上述任一实施方式所述的测试处理方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时，使得所述电子设备能够实现如上述任一实施方式所述的测试处理方法。

根据本公开实施例的另一方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的测试处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

从用户账户个体角度出发，对实验组和对照组中的各个用户账户的数据进行差分操作，将得到的差值数据作为新的参数进行统计推断，既能够排除测试中分流不均、前序实验影响等情况造成的实验组和对照组的固有差异，以辅助测试人员更加准确地估计实验效果；又能够降低样本方差，缩窄置信区间，提升统计功效。本公开实施例提供的测试处理方法，减少样本方差的效果远好于DiD方法，与CUPED方法效果相当，并且没有诸如回归系数等中间过程参数的计算，测试系统的资源消耗更小。另外，本公开实施例提供的测试处理方法，可以直接基于SQL语言离线对大批量的实验测试账户信息进行处理，并直接接入AB测试平台，无需额外耗费人力进行相关开发，并且节省了数据处理的资源消耗。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示意性实施例示出的一种测试处理方法的流程图；

图2是根据一示例性实施例示出的一种测试处理方法的应用场景流程图；

图3是根据一示意性实施例示出的一种测试处理装置的逻辑结构框图；

图4是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户账户信息可以为经用户账户授权或者经过各方充分授权的信息。

AB测试是为应用制作两个(A、B)或多个(A、B、n)版本，在同一时间维度，分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本，收集各群组的用户账户体验数据和业务数据，最后分析、评估出最好版本，正式采用。

当前，AB测试中常用的提升统计功效的方法很多，最为常见的是DiD(Differences-in-Differences，双重差分)和CUPED(Controlled-experiment Using Pre-Experiment Data)。

DiD(Differences-in-Differences)方法是将实验组和对照组在AB测试期间的参数观测值分别减去两组实验前的参数值，再做差估计实验效果。DiD方法能够修正AB测试前的实验组和对照组的差异，即修正AA阶段的差异(AA-diff)，但对于降低样本方差的效果有限。

CUPED方法主要利用实验前的数据，对实验核心参数进行修正，使得新的样本方差更低。在CUPED方法中，对于AB测试所关注的测试参数，定义如下新的变量：

Y₁＝Y-θY₀

其中，Y为测试阶段的测试账户信息，Y₀为测试前的测试账户信息，θ为Y对于Y₀的回归系数，CUPED方法上式得到的Y₁进行统计推断。其中，回归系数θ并非常数，而需要通过回归方程Y＝α+θY₀得到(α为截距项系数)，在将CUPED方法应用于AB测试中时，对回归系数θ的计算需要消耗测试系统的大量资源。

有鉴于此，本公开实施例提供一种测试处理方法，从用户账户个体角度出发，对实验组和对照组中的各个用户账户的数据进行差分操作，将得到的差值数据作为新的参数进行统计推断。本公开实施例提供的测试处理方法，既能够排除AB测试中分流不均、前序实验影响等情况造成的实验组和对照组的固有差异，以辅助测试人员更加准确地估计实验效果；又能够降低样本方差，缩窄置信区间，提升统计功效。本公开实施例提供的测试处理方法，减少样本方差的效果远好于DiD方法，与CUPED方法效果相当，并且无需如CUPED方法那样进行回归系数θ的计算，测试系统的资源消耗更小。另外，本公开实施例提供的测试处理方法，可以直接在hive(一种数据仓库工具)等数据库中使用SQL(Structured QueryLanguage，结构化查询语言)离线对大批量的实验测试账户信息进行处理，并直接接入AB测试平台，无需额外耗费人力进行相关开发，并且节省了数据处理的资源消耗。

图1是根据一示意性实施例示出的一种测试处理方法的流程图，参见图1所示，该测试处理方法应用于计算机设备，下面以计算机设备为服务器为例进行说明。

在步骤101中，获取测试的实验组和对照组中的每一个用户账户的账户信息。

在一些实例中，账户信息表示测试所针对的测试对象。

在一些实例中，出于对账户信息的波动性和相关性的考量，需要选择出测试前的恰当范围内的历史数据，如果选择的历史数据的时间过短，则数据的波动性大，如果选择的历史数据的时间过长，则历史数据与实验中的测试数据之间的相关性会减弱。在这种情况下，步骤101可以包括：

获取账户信息中的设定时间范围内的历史数据；

根据设定时间范围内的历史数据，获得历史平均数据；

根据测试数据和历史平均数据，获得差值数据。

在一些实例中，用户账户往往在某些时候不产生历史数据，例如，针对APP(应用软件)使用时长的历史数据中，用户账户可能会在某些时间(如某些天)不使用APP，在这种情况下，需要将设定时间范围的用户账户未产生历史数据的阶段去除后所得到的历史平均数据才能够反映出测试参数的真实历史统计值，真实历史统计值不会被未产生历史数据的时间所稀释，例如针对APP使用时长的用户账户历史数据中，将用户账户未使用APP的日期从设定时间范围内去除，将用户账户使用APP时的天数对用户账户使用APP的总时长进行平均所得到的真实的每日APP使用时长平均值不会被未使用APP的日子所平均。

在这种情况下，上述说明中的根据设定时间范围内的历史数据，获得历史平均数据，包括：

在设定时间范围内的历史数据中，获得历史数据的产生时间；

根据历史数据和产生时间，获得历史平均数据。

对于测试中抽样出的用户账户，会存在未产生历史数据的情况，例如针对APP使用时长的用户账户历史数据中，可能所抽样的用户账户在设定时间范围内完全没有使用APP。在这种情况下，上述根据设定时间范围内的历史数据，获得历史平均数据，包括：

若设定时间范围内的没有历史数据，则将历史平均数据设置为0。

在步骤102中，根据账户信息中的测试数据和历史数据，获得每一个用户账户的差值数据。

在一些实例中，步骤102具体包括：

将测试数据与历史平均数据相减所获得的差值，作为差值数据。

在步骤103中，根据每一个用户账户的差值数据，获得实验组的第一聚合数据和对照组的第二聚合数据。

在一些实例中，步骤103具体包括：

将实验组中的所有用户账户的差值数据进行聚合，获得第一聚合数据；

将对照组中的所有用户账户的差值数据进行聚合，获得第二聚合数据。

在一些情况下，测试结果需要反映出效果提升的绝对幅度，例如对于APP的改进，测试结果需要反映出用户账户每天使用APP的时长的实际增减时长，在另一些情况下，测试结果需要反映出效果提升的相对幅度，例如对于APP的改进，测试结果需要反映出用户账户每天使用APP的时长增减幅度(如百分比)。在这种情况下，上述将实验组中的所有用户账户的差值数据进行聚合，获得第一聚合数据，包括：

根据实验组中的所有用户账户的差值数据的总和、实验组中的所有用户账户的差值数据的平均值中的至少之一，获得第一聚合数据。

上述将对照组中的所有用户账户的差值数据进行聚合，获得第二聚合数据，包括：

根据对照组中的所有用户账户的差值数据的总和、对照组中的所有用户账户的差值数据的平均值中的至少之一，获得第二聚合数据。

在步骤104中，根据第一聚合数据和第二聚合数据，获得测试的测试结果。

对于测试结果需要反映出效果提升的绝对幅度的情况，在一些实施例中，步骤104包括：

根据第一聚合数据和第二聚合数据的差值，获得测试的效果提升绝对值数据。

对于测试结果需要反映出效果提升的绝对幅度和相对幅度的情况，本公开实施例的数据处理方法还可进一步包括：

根据对照组的每一个用户账户的测试数据，获得对照组的第三聚合数据；

根据第一聚合数据、第二聚合数据和第三聚合数据，获得测试的测试结果。

其中，上述根据第一聚合数据、第二聚合数据和第三聚合数据，获得测试的测试结果，包括：

根据第一聚合数据和第二聚合数据的差值，获得测试的效果提升绝对值数据；

根据效果提升绝对值数据与第三聚合数据的比值，获得测试的效果提升比率。

在一些实施例中，账户信息和测试结果关联于测试的测试参数。测试参数至少包括：应用使用时长、视频播放次数、视频播放时长、评论数、点赞数的其中之一。在一些实施例中，测试参数还可以包括应用使用时长、视频播放次数、视频播放时长、评论数、点赞数这些测试参数以外的其它测试参数。

本公开实施例提供的测试处理方法，从用户账户个体角度出发，对实验组和对照组中的各个用户账户的数据进行差分操作，将得到的差值数据作为新的参数进行统计推断，即能够排除测试中分流不均、前序实验影响等情况造成的实验组和对照组的差异，以辅助测试人员更加准确地估计实验效果；又能够降低样本方差，缩窄置信区间，提升统计功效。本公开实施例提供的测试处理方法，减少样本方差的效果远好于DiD方法，与CUPED方法效果相当，并且没有诸如回归系数等中间过程参数的计算，测试系统的资源消耗更小。另外，本公开实施例提供的测试处理方法，可以直接基于SQL语言离线对大批量的实验测试账户信息进行处理，并直接接入AB测试平台，无需额外耗费人力进行相关开发，并且节省了数据处理的资源消耗。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是根据一示例性实施例示出的一种测试处理方法的应用场景流程图，如图2所示，该测试处理方法应用于计算机设备，以计算机设备为服务器为例进行说明，该实施例包括以下步骤。

在步骤201中，获取AB测试的实验组和对照组中的每一个用户账户的账户信息。

在一些实施例中，账户信息和根据账户信息得到的测试结果关联于AB测试的测试参数。其中，测试参数可以是APP(应用)使用时长、视频播放次数、视频播放时长、评论数、点赞数等参数之一。在一些实施例中，测试参数还可以包括APP使用时长、视频播放次数、视频播放时长、评论数、点赞数这些测试参数以外的其它测试参数。

在一些实施例中，对于任一账户而言，账户信息包括该账户实验前的历史数据和实验过程中得到的测试数据记录于数据库中，通过SQL语言进行历史数据和测试数据的获取和处理，例如可在hive中使用SQL语言完成数据的获取和处理。

在步骤202中，获取账户信息中的设定时间范围内的历史数据。

在一些实施例中，设定时间范围可根据需要进行确定。

在一些实施例中，设定时间范围需要综合考虑数据的波动和相关性而确定。如果设定时间范围过短，其波动较大而影响AB测试的可靠性，如果设定时间范围过长，则测试数据和历史数据的相关性会减弱，也会影响到AB测试的可靠性。

在一些实施例中，设定时间范围为AB测试前的n天。设定时间范围选择AB测试前的具体天数需要综合考虑数据的波动和相关性。具体来说，如果选择历史数据的天数过少，则波动会较大，如果选择历史数据的天数过多，则相关性会减弱。例如，针对测试参数为APP(应用)使用时长的AB测试，通过设定时间范围的选择比较能够得到：使用实验前7天的历史数据与使用实验前14天的历史数据的方案相比较，综合样本方差、第一类错误率、第二类错误率来看，使用实验前14天的历史数据的效果最好；其中，以人均APP使用时长参数为例，使用实验前7天的历史数据的第一类错误率为2％，第二类错误率为70％，样本方差平均降低58％左右，使用实验前14天的历史数据的第一类错误率为0％，第二类错误率为60％，样本方差平均降低63％左右。

在步骤203中，在设定时间范围内的历史数据中，获得历史数据的产生时间。

在一些实施例中，针对APP使用时长的测试参数的AB测试中，在本步骤中，获得AB测试前n天内的，APP使用时长产生的天数。

在一些实施例中，在设定时间范围内的历史数据中将用户账户未使用APP的天数刨除，这样能够避免未使用APP的天数对历史数据的平均导致的AB测试可靠性降低的问题。

在步骤204中，根据历史数据和产生时间，获得历史平均数据。

在一些实施例中，采用算术平均值的方法获得历史平均数据。首先获得历史数据总和，之后将历史数据总和与历史数据的产生时间相除得到历史平均数据。

在一些实施例中，若设定时间范围内的没有历史数据，则将历史平均数据设置为0。这是考虑到AB测试的样本中可能存在在设定时间范围没有相关记录的情况，例如针对APP使用时长的测试参数的AB测试中，实验前n天的历史数据中，若用户账户在实验前n天均未使用该APP，则此种情况下，该用户账户的历史平均数据设置为0。

在步骤205中，根据测试数据和历史平均数据，获得差值数据。

在一些实施例中，将测试数据与历史平均数据相减所获得的差值，作为差值数据。

在一些实施例中，在测试阶段，用户账户可能存在未使用APP的情况，此时，不计算差值数据。将用户账户在测试阶段未使用APP的天数刨除，能够避免未使用APP的天数对测试数据的平均导致的AB测试可靠性降低的问题。

至此，便完成用户账户层面的数据处理。按照上述过程，对实验组和对照组中的每一个用户账户的账户信息进行相应的处理，获得所有用户账户的差值数据。

在步骤206中，将实验组中的所有用户账户的差值数据进行聚合，获得第一聚合数据。

在一些实施例中，将实验组中的所有用户账户的差值数据相加，获得第一聚合数据。

在一些实施例中，根据AB实验的目的，在得到测试阶段的所有差值数据后，将实验组中的所有用户账户的所有差值数据的相加的总和作为第一聚合数据。例如，将实验组中每一个用户账户在AB实验中的所有差值数据相加的总和作为该用户账户的账户个体维度聚合数据，将实验组中所有用户账户的账户个体维度聚合数据相加的总和作为实验组的第一聚合数据，此时第一聚合数据是实验组中所有用户账户在测试阶段APP使用的总差值时长。

在一些实施例中，将实验组中的所有用户账户的差值数据进行平均，获得第一聚合数据。

在一些实施例中，根据AB实验的目的，在得到测试阶段的所有差值数据后，将实验组中的所有用户账户的所有差值数据的平均值作为第一聚合数据。例如，将实验组中所有用户账户在AB实验中的所有差值数据相加的总和与差值数据的数量相除，得到的结果作为实验组的第一聚合数据，此时第一聚合数据是实验组中所有用户账户在测试阶段的每一天APP平均使用差值时长(不包括未使用APP的天数)。

在步骤207中，将对照组中的所有用户账户的差值数据进行聚合，获得第二聚合数据。

在一些实施例中，将对照组中的所有用户账户的差值数据相加，获得第二聚合数据。

在一些实施例中，根据AB实验的目的，在得到测试阶段的所有差值数据后，将对照组中的所有用户账户的所有差值数据的相加的总和作为第二聚合数据。例如，将对照组中每一个用户账户在AB实验中的所有差值数据相加的总和作为该用户账户的账户个体维度聚合数据，将对照组中所有用户账户的账户个体维度聚合数据相加的总和作为对照组的第二聚合数据，此时第二聚合数据是对照组中所有用户账户在测试阶段APP使用的总差值时长。

在一些实施例中，将对照组中的所有用户账户的差值数据进行平均，获得第二聚合数据。

在一些实施例中，根据AB实验的目的，在得到测试阶段的所有差值数据后，将对照组中的所有用户账户的所有差值数据的平均值作为第二聚合数据。例如，将对照组中所有用户账户在AB实验中的所有差值数据相加的总和与差值数据的数量相除，得到的结果作为对照组的第二聚合数据，此时第二聚合数据是对照组中所有用户账户在测试阶段的每一天APP平均使用差值时长(不包括未使用APP的天数)。

在步骤208中，根据第一聚合数据和第二聚合数据，获得AB测试的测试结果。

在一些实施例中，根据第一聚合数据和第二聚合数据的差值，获得AB测试的效果提升绝对值数据。

在一些实施例中，AB测试的测试结果包括AB测试的效果提升绝对值数据。

在一些实施例中，将第一聚合数据和第二聚合数据的差值作为AB测试的效果提升绝对值数据。例如，若将第一聚合数据表示为Y_1,exp，将第二聚合数据表示为Y_1,base，则效果提升绝对值数据为Y_1,exp-Y_1,base。此时，将效果提升绝对值数据作为AB测试的测试结果。

效果提升绝对值数据反映了实验组相对于对照组的效果提升的量化结果。例如，若第一聚合数据为实验组中所有用户账户在测试阶段的每一天APP平均使用差值时长，第二聚合数据为对照组中所有用户账户在测试阶段的每一天APP平均使用差值时长，由于Y_1,exp和Y_1,base都采用的是差值时长，所以二者相减得到的效果提升绝对值数据直接反映了实验组相对于对照组的每个用户账户每天APP平均使用时长提升的绝对效果，如果该值为正，则表明AB测试结果为APP的改进延长了用户账户日均APP的使用时长，APP的改进产生了正面效果，如果该值为负，则表明AB测试结果为APP的改进缩短了用户账户日均APP的使用时长，APP的改进产生了负面效果。

在步骤209中，根据对照组的每一个用户账户的测试数据，获得对照组的第三聚合数据。

在一些实施例中，根据AB实验的目的，在得到测试阶段的所有测试数据后，将对照组中的所有用户账户的所有测试数据相加的总和作为第三聚合数据。例如，将对照组中每一个用户账户在AB实验中的每一天APP使用时长数据相加的总和作为该用户账户的账户个体维度APP使用时长聚合数据，将对照组中所有用户账户的账户个体维度APP使用时长聚合数据相加的总和作为对照组的第三聚合数据，此时第三聚合数据是对照组中所有用户账户在测试阶段APP使用的总时长。

在一些实施例中，根据AB实验的目的，在得到测试阶段的所有测试数据后，将对照组中的所有用户账户的所有测试数据的平均值作为第三聚合数据。例如，将对照组中所有用户账户在AB实验中的每一天APP使用时长数据相加的总和与APP使用时长数据的数量相除，得到的结果作为对照组的第三聚合数据，此时第三聚合数据是对照组中所有用户账户在测试阶段的每一天APP平均使用时长(不包括未使用APP的天数)。

在步骤210中，根据第一聚合数据和第二聚合数据的差值，获得AB测试的效果提升绝对值数据。

此步骤可参见上述步骤208中的说明，此处不再赘述。

在步骤211中，根据效果提升绝对值数据与第三聚合数据的比值，获得AB测试的效果提升比率。

在一些实施例中，AB测试的测试结果进一步包括AB测试的效果提升比率。

在一些实施例中，将效果提升绝对值数据与第三聚合数据的比值作为AB测试的效果提升比率。例如，若将第一聚合数据表示为Y_1,exp，将第二聚合数据表示为Y_1,base，将第三聚合数据表示为Y_base，则效果提升绝对值数据为Y_1,exp-Y_1,base，效果提升比率为(Y_1,exp-Y_1,base)/Y_base。

此时，将效果提升绝对值数据和效果提升比率至少其中之一作为AB测试的测试结果。

效果提升比率反映了实验组相对于对照组的效果提升的比例(百分比表示)，效果提升比率反映了效果提升的相对强度。

本公开实施例提供的测试处理方法，从效果上，能够排除AB测试中分流不均、前序实验影响等情况造成的AA阶段的差异，能够更加准确地估计实验效果，能够降低样本方差，缩窄置信区间，提升统计功效。减少样本方差效果远好于DiD方法，与CUPED方法相当。

从成本上，本公开实施例提供的测试处理方法在工程上易于实现，比CUPED方法更节省资源。在同时在线的AB测试数量在数千个并且测试参数为数十个的情况下，针对每个AB测试的每个参数都按照CUPED方法进行一次回归再计算新参数，则需要耗费大量资源。发明人经过研究注意到，用户账户使用时长、启动次数、观看时长等测试参数，在过去一段时间均值与当期的值相关性较强(CUPED方法中的回归系数θ接近1)且比较稳定，因此本公开实施例提供的测试处理方法减小样本方差的效果与CUPED方法的效果接近。而且本公开的技术方案可以直接在数据库中使用SQL离线对大批实验和参数进行处理，并以参数的形式接入相关的AB测试平台，无需额外耗费人力进行相关开发，且节省计算资源。

现有的AB实验中的所采用的DiD方法都是在实验组层面进行的，而本公开技术方案是在用户账户层面执行。CUPED方法需要进行回归得到计算新参数的公式，相比于CUPED方法，本公开技术方案简单地将差分时的回归系数θ固定为1，无需额外进行过多的程序开发时间，并且节省了计算资源，达到了效果和成本之间的平衡。

采用本公开实施例提供的测试处理方法，在提供无偏估计前提下，第一类错误率、第二类错误率低于传统AB测试的组间对比，相比于现有的DiD方法，平均缩小样本方差达到60％，实现了用更少的样本量得到显著结果的效果。

本公开技术方案使用场景广泛，对于除了人数以外的多种参数都可以使用，例如APP使用时长、视频/直播播放次数、播放时长、评论数、点赞数等参数。根据实验数据，以人均APP使用时长参数为例，本公开技术方案实现了0％的第一类错误率，相对于DiD方法，本公开的技术方案二类错误率低30pp(百分点)，平均降低样本方差60％左右。

图3是根据一示意性实施例示出的一种测试处理装置的逻辑结构框图，参见图3所示，该装置包括数据获取模块301、差值获取模块302、聚合获取模块303和结果获取模块304。

数据获取模块301，被配置为执行获取测试的实验组和对照组中的每一个用户账户的账户信息；

差值获取模块302，被配置为执行根据账户信息中的测试数据和历史数据，获得每一个用户账户的差值数据；

聚合获取模块303，根据每一个用户账户的差值数据，获得实验组的第一聚合数据和对照组的第二聚合数据；

结果获取模块304，根据第一聚合数据和第二聚合数据，获得测试的测试结果。

本公开实施例提供的测试处理装置，从用户账户个体角度出发，对实验组和对照组中的各个用户账户的数据进行差分操作，将得到的差值数据作为新的参数进行统计推断，既能够排除测试中分流不均、前序实验影响等情况造成的实验组和对照组的差异，以辅助测试人员更加准确地估计实验效果；又能够降低样本方差，缩窄置信区间，提升统计功效。本公开实施例减少样本方差的效果远好于DiD方法，与CUPED方法效果相当，并且没有诸如回归系数等中间过程参数的计算，测试系统的资源消耗更小。另外，本公开实施例可以直接基于SQL语言离线对大批量的实验测试账户信息进行处理，并直接接入AB测试平台，无需额外耗费人力进行相关开发，并且节省了数据处理的资源消耗。

在一种可能实施方式中，基于图3的装置组成，该差值获取模块302包括：

历史数据获取子模块，被配置为执行获取账户信息中的设定时间范围内的历史数据；

平均数据获取子模块，被配置为执行根据设定时间范围内的历史数据，获得历史平均数据；

差值获取子模块，被配置为执行根据测试数据和历史平均数据，获得差值数据。

在一种可能实施方式中，该平均数据获取子模块被配置为执行：

根据历史数据和产生时间，获得历史平均数据。

在一种可能实施方式中，该差值获取子模块被配置为执行：

在一种可能实施方式中，该聚合获取模块303被配置为执行：

在一种可能实施方式中，该结果获取模块304被配置为执行：

在一种可能实施方式中，该聚合获取模块303，被配置为执行根据对照组的每一个用户账户的测试数据，获得对照组的第三聚合数据；

该结果获取模块304，被配置为执行根据第一聚合数据、第二聚合数据和第三聚合数据，获得测试的测试结果。

在一种可能实施方式中，该结果获取模块304包括：

效果绝对值数据获取子模块，被配置为执行根据第一聚合数据和第二聚合数据的差值，获得测试的效果提升绝对值数据；

效果比率获取子模块，被配置为执行根据效果提升绝对值数据与第三聚合数据的比值，获得测试的效果提升比率。

在一种可能实施方式中，账户信息和测试结果关联于测试的测试参数；

测试参数至少包括：应用使用时长、视频播放次数、视频播放时长、评论数、点赞数的其中之一。在一些实施例中，测试参数还可以包括应用使用时长、视频播放次数、视频播放时长、评论数、点赞数这些测试参数以外的其它测试参数。

关于上述实施例中的测试处理装置，其中各个单元执行操作的具体方式已经在有关该测试处理方法的实施例中进行了详细描述，此处将不作详细阐述说明。

需要说明的是：上述实施例仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

图4是本公开实施例提供的一种电子设备的结构示意图。在一些实施例中，该电子设备为服务器。该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)401和一个或一个以上的存储器402，其中，该存储器402中存储有至少一条程序代码，该至少一条程序代码由该处理器401加载并执行以实现上述各个实施例提供的测试处理方法。当然，该电子设备400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备400还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括至少一条指令的计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由计算机设备中的处理器执行以完成上述实施例中的测试处理方法。

可选地，上述计算机可读存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由计算机设备的处理器执行，以完成上述各个实施例提供的测试处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种测试处理方法，其特征在于，包括：

2.根据权利要求1所述的测试处理方法，其特征在于，所述根据所述账户信息中的测试数据和历史数据，获得所述每一个用户账户的差值数据，包括：

获取所述账户信息中的设定时间范围内的历史数据；

根据所述设定时间范围内的历史数据，获得历史平均数据；

3.根据权利要求1所述的测试处理方法，其特征在于，所述根据所述每一个用户账户的差值数据，获得所述实验组的第一聚合数据和所述对照组的第二聚合数据，包括：

4.根据权利要求1所述的测试处理方法，其特征在于，所述根据所述第一聚合数据和所述第二聚合数据，获得所述测试的测试结果，包括：

5.根据权利要求1所述的测试处理方法，其特征在于，所述测试处理方法还包括：

6.根据权利要求5所述的测试处理方法，其特征在于，所述根据所述第一聚合数据、所述第二聚合数据和所述第三聚合数据，获得所述测试的测试结果，包括：

7.一种测试处理装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1至6任一项所述的测试处理方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时，使得所述电子设备能够实现如权利要求1至6任一项所述的测试处理方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的测试处理方法。