CN112711739A - 一种数据处理方法、装置及服务器、存储介质 - Google Patents

一种数据处理方法、装置及服务器、存储介质 Download PDF

Info

Publication number
CN112711739A
CN112711739A CN201911022150.1A CN201911022150A CN112711739A CN 112711739 A CN112711739 A CN 112711739A CN 201911022150 A CN201911022150 A CN 201911022150A CN 112711739 A CN112711739 A CN 112711739A
Authority
CN
China
Prior art keywords
target
experimental
stage
data
control group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911022150.1A
Other languages
English (en)
Other versions
CN112711739B (zh
Inventor
苏桐
王勇
熊涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911022150.1A priority Critical patent/CN112711739B/zh
Publication of CN112711739A publication Critical patent/CN112711739A/zh
Application granted granted Critical
Publication of CN112711739B publication Critical patent/CN112711739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置及服务器、存储介质,该方法包括:获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,该测试数据包括实验前阶段和实验后阶段对照组的数据量和目标指标、实验前阶段和实验后阶段实验组的数据量和目标指标。进一步地,根据测试数据确定实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、以及目标指标的和,并基于该数据总量、目标指标的和确定目标指标的回归参数。可以通过普通的求和、计数方式确定出目标指标的回归参数,避免了超大矩阵乘法,有利于降低计算开销。

Description

一种数据处理方法、装置及服务器、存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置及服务器、存储介质。
背景技术
在实验系统实际使用时,一些实验会被划分为AA阶段和AB阶段。其中,AA阶段前为实验开始前,尚未应用策略的时间段(以下简称实验前阶段),AB阶段为实验开始后,已经开始应用策略的时间段(以下简称实验后阶段)。在实验系统的实际测试应用中,用户往往会发现,实验的AA阶段实验组和对照组之间稳定存在差异。这种情况主要是因为两个实验的流量分配不均匀,这种分配不均通常会在整个实验期间存在,即AB阶段的流量也可能存在不均匀的情况。如果出现了这种分配不均,那么实验的最终结论往往就是不可靠的。
对于解决上述问题,通常可以采用双重差分法(Difference-In-Differences,DID),根据AA阶段对照组和实验组指标的差异,利用统计学中的回归计算框架,修正AB阶段的实验结论,进而得到更加可靠和以及具备统计学意义的结果。对于DID而言,每一个实验的每一个实验组其中的每一个指标,DID都需要在数十天的数据上进行一次回归计算,以便排除流量分配不均造成的干扰,获取真实的结论。由于回归计算会涉及超大矩阵的运算,使得DID所使用的回归计算开销太大。
发明内容
本申请实施例提供了一种数据处理方法、装置及服务器、存储介质,可以通过求和、计数方式确定出目标指标的回归参数,避免了超大矩阵乘法,进而降低了计算开销。
一方面,本申请实施例提供了一种数据处理方法,包括:
获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,所述测试数据包括实验前阶段和实验后阶段所述对照组的数据量和目标指标、实验前阶段和实验后阶段所述实验组的数据量和目标指标,所述目标指标为待观察指标中的任一个指标;
根据所述测试数据确定实验前阶段和实验后阶段所述对照组和所述实验组各自对应的数据总量、所述目标指标的和;
基于所述数据总量、所述目标指标的和确定所述目标指标的回归参数,所述回归参数表征了实验后阶段中所述对照组和所述实验组在所述目标指标下的差异。
另一方面,本申请实施例提供了一种数据处理装置,包括:
获取模块,用于获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,所述测试数据包括实验前阶段和实验后阶段所述对照组的数据量和目标指标、实验前阶段和实验后阶段所述实验组的数据量和目标指标,所述目标指标为待观察指标中的任一个指标;
处理模块,用于根据所述测试数据确定实验前阶段和实验后阶段所述对照组和所述实验组各自对应的数据总量、所述目标指标的和;
所述处理模块,还用于基于所述数据总量、所述目标指标的和确定所述目标指标的回归参数,所述回归参数表征了实验后阶段中所述对照组和所述实验组在所述目标指标下的差异。
相应地,本申请实施例还提供了一种服务器,包括:处理器和存储装置;所述存储装置,用于存储程序指令;所述处理器,调用所述程序指令,用于执行:获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,所述测试数据包括实验前阶段和实验后阶段所述对照组的数据量和目标指标、实验前阶段和实验后阶段所述实验组的数据量和目标指标,所述目标指标为待观察指标中的任一个指标;根据所述测试数据确定实验前阶段和实验后阶段所述对照组和所述实验组各自对应的数据总量、所述目标指标的和;基于所述数据总量、所述目标指标的和确定所述目标指标的回归参数,所述回归参数表征了实验后阶段中所述对照组和所述实验组在所述目标指标下的差异。
相应地,本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现上述的各方法。
本申请实施例中,服务器可以获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,该测试数据包括实验前阶段和实验后阶段对照组的数据量和目标指标、实验前阶段和实验后阶段实验组的数据量和目标指标。进一步地,根据测试数据确定实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、以及目标指标的和,并基于该数据总量、目标指标的和确定目标指标的回归参数。采用这样的方式,可以通过普通的求和、计数方式确定出目标指标的回归参数,避免了超大矩阵乘法,进而降低了计算开销。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例的一种数据处理方法的流程示意图;
图2是本申请实施例的另一种数据处理方法的流程示意图;
图3是本申请实施例的一种数据处理装置的结构示意图;
图4是本申请实施例的一种服务器的结构示意图。
具体实施方式
在实验系统中,为了确定采用何种策略对应用程序的目标功能进行调整,通常可以对应用程序的目标功能进行AB测试,该AB测试是指用户通过随机采样分为A、B两组,并且应用不同的策略,通过统计学方法给出A、B两组用户行为是否有显著不同,从而得出结论,确定何种策略更优秀,进而采用更优的策略对目标功能进行调整。其中,该目标功能为开发人员根据实际的测试需求预先设置的。示例性地,对于阅读类应用,该目标功能可以为查阅功能;对于社交应用,该目标功能可以为未读消息的提示功能等等,本申请实施例对此不作具体限定。
其中,在AB测试中,可以将尚未使用策略的时间段称为AA阶段,将已经使用策略的时间段称为AB阶段,将使用实验策略的组称为实验组,将不使用任何实验策略的组称为对照组,作为实验组的对比而存在。其中,该实验组或者对照组均可以为一个或者多个。
在AB测试过程中,理论上AA阶段时,由于实验尚未开始,A1组和A2组在实验指标上不应该有显著差异。然而实际应用中,往往会发现实验的AA阶段的对照组和实验组的指标之间会存在一个稳定差异,如果出现了这种分配不均,那么实验的最终结论往往就是不可靠的。对于这种问题,理论上实验平台可以使用DID,根据AA阶段对照组和实验组指标的差异,利用统计学中的回归计算框架,修正AB阶段的实验结论,进而得到更加可靠和以及具备统计学意义的结果。
传统的DID方法主要使用了统计学上的回归方法对问题进行了建模,进而在回归计算的框架下获得具有统计学意义的结论。其模型通常可以被表示为:
y=β0·1+β1·D+β2·T+β3·(D·T)+∈
E(Y)=β0·1+β1·D+β2·T+β3·(D·T)
其中D∈{0,1},表示数据来自哪一组:0表示来自对照组,1表示来自实验组;T∈{0,1}表示数据来自哪一阶段:0表示数据来自AA阶段,1表示数据来自AB阶段。最后的∈~N(0,δ2)是数据的噪声。
因为DID方法是针对单个实验组内的某一个指标进行计算的,因此有了这个模型后,DID方法将需要将每条指标数据表示成一个4维向量:
χi=(χi,0,χi,1,χi,2,χi,3)
其中:
χi,0=1:它对应回归参数β0,表示对照组在AA阶段的目标值(即目标指标的值)均值;
χi,1=D∈0,1:它对应回归参数β1,表示对照组和实验组在实验阶段前后共有的目标值变化;
χi,2=T∈0,1:它对应回归参数β2,表示AA阶段实验组和对照组的差异。
χi,3=D·T:它对应回归参数β3,表示去掉AA阶段实验组和对照组差异的影响后,AB阶段中实验组和对照组的真实差异,也就是用户(例如实验负责人)所期望得到的结论。
其中,i为数据的编号。综上,在配合回归方法使用DID时,需要获取四份数据:AA阶段的对照组数据、AA阶段的实验组数据、AB阶段的对照组数据和AB阶段的实验组数据,并将这些数据分别表示为上述的4维向量。例如,假设需要计算的目标指标为阅读时长,某条来自AB阶段A组的数据为100秒,该A组为实验开始后的对照组,那么它会被表示为:
xi=(1,0,1,0),yi=100
通常来说,上述四份数据会被表示成一个大的矩阵以及一个向量,回归参数β也会被表示为一个向量:
Figure BDA0002247563020000051
Figure BDA0002247563020000052
β=(β0,β1,β2,β3)
其中,Y为全部的观测到的目标值,例如阅读时长、翻页次数等等,那么上述模型可以表示为:
E(Y)=XβT
进一步地,通过最小二乘法OLS回归框架,可以得到回归参数
Figure BDA0002247563020000057
S=||Y-E(Y)||2
Figure BDA0002247563020000053
Figure BDA0002247563020000054
Figure BDA0002247563020000055
Figure BDA0002247563020000056
其中,n为AA阶段实验组、AA阶段对照组、AB阶段实验组和AB阶段实验组的数据量总和,或者也可以称为样本量总和。示例性地,假设AA阶段实验组包括100万用户、AA阶段对照组包括100万用户、AB阶段实验组包括100万用户,AB阶段对照组包括100万用户,这种情况下,n为400万。
在获取到数据X和Y的情况下,DID可以基于公式1求解回归参数
Figure BDA0002247563020000058
,进而得到β3的值,该β3表示是去掉AA阶段实验组和对照组差异的影响后,AB阶段中实验组和对照组的真实差异,也即是实验人员最终期望得到的结论。
根据上述公式1,可以显然地看出回归计算框架需要进行超大矩阵(XTX)的乘法,计算开销十分巨大。在规模较大的系统中,每天命中某个实验组的数据量可高达百万甚至千万级别,并且这样的实验组可能存在上千个,由于回归计算会涉及超大矩阵的运算,进而使得DID所使用的回归计算开销太大。
此外,实际应用中的大部分实验会包含多个组(每一个组对应一个时间点),为了更好分析用户在不同时间下(例如:第1-2天,第1-10天、第5-10天等等)的用户行为,实验人员需要将其中多个组的数据组合起来观察实验。然而传统的DID方法中,每次组合都需要进行一次回归计算,大大降低了自由组合各组数据的灵活性。
为了解决上述问题,本申请实施例提出了一种数据处理方法,可以获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,该测试数据包括实验前阶段和实验后阶段对照组的数据量和目标指标、实验前阶段和实验后阶段实验组的数据量和目标指标。进一步地,根据测试数据确定实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、以及目标指标的和,并基于该数据总量、目标指标的和确定目标指标的回归参数β3。采用这样的方式,可以通过普通的求和、计数方式确定出目标指标的回归参数β3,避免了超大矩阵乘法,进而降低了计算开销。
此外,当需要对多个组的数据进行组合观察时,采用本申请实施例提出的数据处理方法,仅仅是简单对各个组的数据进行计数和求和,计算开销较小,可以大大提高自由组合各组数据的灵活性。
请参见图1是本申请实施例的一种数据处理的流程示意图,本申请实施例的所述方法可以由服务器来执行。本申请实施例的所述方法包括如下步骤。
S101:获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,该测试数据包括实验前阶段和实验后阶段对照组的数据量和目标指标、实验前阶段和实验后阶段实验组的数据量和目标指标。该目标指标为待观察指标中的任一个指标,可以由用户(例如实验人员)预先从多个待观察指标中选取。
其中,该待观测指标为实验人员基于实验测算数据预先设置的,示例性地,对于兴趣阅读类产品,其对应的待观测指标可以包括用户的平均阅读时长、用户的点击率等。每个实验的实验人员可以在实验中添加多个待观察指标,那么这个实验的每一个组都会包含该多个待观察指标。
在一个实施例中,服务器利用对照组和实验组针对应用程序的目标功能进行测试的过程中,可以记录实验前后阶段对照组和实验组各自对应的数据量和目标指标,并将记录的上述各个数据量和各个目标指标存储至数据库中。这种情况下,测试完成后,用户(例如实验人员)想要获取目标指标的回归参数,可以向服务器发送针对目标指标的回归参数的获取请求,服务器接收到该获取请求后,可以从数据库中获取预先存储的上述实验前后阶段对照组和实验组各自对应的数据量和目标指标(即测试数据),进而执行步骤S102~S103,确定出目标指标的回归参数,并将该目标指标的回归参数返回给上述用户,用户可以基于该回归参数确定去掉AA阶段实验组和对照组差异的影响后,AB阶段中实验组和对照组的真实差异。
示例性地,假设应用程序为社交应用1,目标功能为好友动态更新的提示功能;该目标功能的具体实现方式为:通过在社交应用1的会话列表页面展示预设标识(例如一个红点),用于提示社交用户存在好友动态更新,社交用户可以通过点击该预设标识,查看好用动态更新的相关信息;目标指标为:针对该预设标识的点击率;本次测试针对实验组设置的实验策略为调大该预设标识,对照组100万社交用户,实验组100万用户。测试开始后,第一阶段不应用实验策略不调整该预设标识(即实验前阶段),记录第一阶段对照组和实验组各自对应的数据量和目标指标,进一步地,第二阶段应用上述实验策略调大该预设标识(即实验后阶段),并记录第二阶段对照组和实验组各自对应的数据量和目标指标。在本次测试完成后,服务器可以执行步骤S101~S103确定出目标指标的回归参数,该回归参数表征了实验后阶段中对照组和实验组在目标指标下的差异。进一步地,可以基于该目标指标的回归参数判断上述调大该预设标识的实验策略是否比不调整该预设标识的策略更加优秀(也即,社交用户针对该预设标识的点击率更高),若是,则调大该预设标识,若否,则不调整该预设标识的大小。
S102:根据测试数据确定实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、目标指标的和。
S103:基于数据总量、目标指标的和确定目标指标的回归参数,该回归参数表征了实验后阶段中该对照组和实验组在目标指标下的差异。
其中,步骤S103中目标指标的回归参数可以指上述提到的β3,通过上述针对
Figure BDA0002247563020000071
相关描述可知,
Figure BDA0002247563020000072
根据上述公式1可知:
Figure BDA0002247563020000073
Figure BDA0002247563020000081
根据上述提到的数据向量χi,0=1、χi,1=D∈0,1、χi,2=T∈0,1和χi,3=D·T的特点,可以将参数
Figure BDA0002247563020000082
表示为:
Figure BDA0002247563020000083
进一步地,可以得到:
Figure BDA0002247563020000084
其中,naa,ct表示AA阶段对照组的数据总量,nab,ct表示AB阶段对照组的数据总量,naa,tr表示AA阶段实验组的数据总量,nab,tr表示AB阶段实验组的数据总量,saa,ct表示AA阶段对照组的指标和,sab,ct表示AB阶段对照组的指标和,saa,tr表示AA阶段实验组的指标和,sab,tr表示AB阶段实验组的指标和。
可以看出,上述计算β3的方式,可以通过普通的求和(例如对指标的求和)、计数方式(例如对数据总量的统计)确定出指标的回归参数β3,避免了超大矩阵乘法,进而降低了计算开销。
在一个实施例中,服务器可以根据测试数据确定实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、目标指标的和,并将实验前阶段和实验后阶段对照组和实验组各自对应的数据总量以及目标指标的和导入公式:
Figure BDA0002247563020000091
进而得到目标指标的回归参数β3
在一个实施例中,服务器可以基于数据总量和目标指标的和对计算回归参数的表达式进行等价替换,该计算回归参数的表达式中包括预设矩阵乘法,进一步地,对等价替换后的计算回归参数的表达式进行运算,并根据运算结果确定出目标指标的回归参数β3。其中,该预设矩阵乘法为超大矩阵乘法,例如XTX。
示例性地,假设计算回归参数的表达式为:
Figure BDA0002247563020000092
该表达式中包括预设矩阵乘法XTX,目标指标为阅读时长,针对该阅读时长的测试完成后,获取到的实验前阶段对照组的数据总量记为naa,ct,实验后阶段对照组的数据总量记为nab,ct,实验前阶段实验组的数据总量记为naa,tr,实验后阶段实验组的数据总量记为nab,tr;获取得到的实验前阶段对照组的目标指标的和记为saa,ct,实验后阶段对照组的目标指标的和记为sab,ct,实验前阶段实验组的目标指标的和记为saa,tr,实验后阶段实验组的目标指标的和记为sab,tr。这种情况下,这服务器获取到实验前阶段和实验后阶段对照组和实验组各自对应的数据总量,以及目标指标的和之后,可以各自对应的数据总量和目标指标的和对计算回归参数的表达式
Figure BDA0002247563020000093
进行等价替换,等价替换后的计算回归参数的表达式如上述公式2-1所示。
进一步地,对等价替换后的计算回归参数的表达式进行运算,得到的运算结果如下所示:
Figure BDA0002247563020000094
进而从该运算结果中,将矩阵中最后一列的数值确定为针对目标指标的回归参数β3
本申请实施例中,服务器可以获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,该测试数据包括实验前阶段和实验后阶段对照组的数据量和目标指标、实验前阶段和实验后阶段实验组的数据量和目标指标。进一步地,根据测试数据确定实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、以及目标指标的和,并基于该数据总量、目标指标的和确定目标指标的回归参数β3。采用这样的方式,可以通过普通的求和、计数方式确定出目标指标的回归参数β3,避免了超大矩阵乘法,进而降低了计算开销。
再请参见图2是本申请实施例的另一种数据处理方法的流程示意图,本申请实施例的所述方法可以由服务器来执行。本申请实施例的所述方法包括如下步骤。
S201:获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,该测试数据包括实验前阶段和实验后阶段对照组的数据量和目标指标、实验前阶段和实验后阶段实验组的数据量和目标指标。
S202:根据测试数据确定实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、目标指标的和。
S203:基于数据总量、目标指标的和确定目标指标的回归参数,该回归参数表征了实验后阶段中该对照组和实验组在目标指标下的差异。其中,步骤S201~步骤S203的具体实施方式,可以参见上述实施例中步骤S101~步骤S103的相关描述,此处不再赘述。
S204:针对该目标指标的回归参数执行假设检验流程,以确定出回归参数的显著水平。
S205:对比回归参数的显著水平和预设显著水平阈值,并输出对比结果。
作为一种可行的实施方式,服务器可以根据方差表达式确定目标指标的回归参数的方差,并基于该方差计算回归参数的标准差,进而根据回归参数的标准差和回归参数,执行针对目标指标的回归参数的假设检验流程,以确定出该回归参数的显著水平。
示例性地,方差表达式可以为
Figure BDA0002247563020000101
服务器可以根据该方差表达式计算目标指标的回归参数β3的方差Var(β3),进而基于该方差Var(β3)得到回归参数β3的标准差
Figure BDA0002247563020000102
进而根据回归参数的标准差
Figure BDA0002247563020000103
和回归参数β3,执行针对目标指标的回归参数的假设检验流程,以确定出该回归参数的显著水平。
其中,服务器根据回归参数的标准差
Figure BDA0002247563020000104
和回归参数β3,执行针对目标指标的回归参数的假设检验流程,以确定出该回归参数的显著水平的具体实施方式可以为:将回归参数的标准差
Figure BDA0002247563020000111
和回归参数β3导入显著水平的表达公式中,计算出P值(即显著水平)。
其中,该显著水平的表达公式为:
Figure BDA0002247563020000112
其中,因为OLS模型的回归参数服从t-分布,因此对于数据总量n,
Figure BDA0002247563020000113
进一步地,在服务器计算出回归参数β3的P值后,可以将该P值和预设显著水平阈值α进行对比,并输出对比结果,该对比结果指示了P值大于预设显著水平阈值α,或者,指示了该P值小于或者等于预设显著水平阈值α。进一步地,其中,该预设显著水平阈值为根据实验数据预先设置的,后续可以根据实际需求进行调整,本申请对此不作具体限定。
在一个实施例中,若对比结果指示回归参数β3的显著水平大于预设显著水平阈值,则利用针对实验组设置的实验策略对应用程序的目标功能进行调整。或者,在另一个实施例中,若对比结果指示回归参数β3的显著水平小于或者等于预设显著水平阈值,则可以输出提示信息,用于提示去掉AA阶段实验组和对照组差异的影响后,AB阶段中实验组和对照组的真实差异不显著。
示例性地,假设预设显著水平阈值α为0.05,服务器计算出的回归参数β3的P值为0.1。这种情况下,服务器检测到对比结果指示回归参数β3的显著水平0.1大于预设显著水平阈值0.05,可以确定本次利用对照组和实验组针对应用程序的目标功能的测试中,去掉AA阶段实验组和对照组差异的影响后,AB阶段中实验组和对照组的真实差异显著,进而可以利用针对实验组设置的实验策略对应用程序的目标功能进行调整。
例如,应用程序为社交应用1,目标功能为好友动态更新的提示功能;该目标功能的具体实现方式为:通过在社交应用1的会话列表页面展示预设标识(例如一个红点),用于提示社交用户存在好友动态更新,社交用户可以通过点击该预设标识,查看好用动态更新的相关信息;目标指标为:针对该预设标识的点击率;本次测试针对实验组设置的实验策略为调大该预设标识。这种情况下,在本次测试完成后,若服务器检测到上述对比结果指示了回归参数β3的显著水平大于预设显著水平阈值,则可以利用针对实验组设置的实验策略调大该预设标识。
或者,若服务器检测到上述对比结果指示了回归参数β3的显著水平小于或者等于预设显著水平阈值,则可以保持该预设标识的初始大小,无需利用针对实验组设置的实验策略调大该预设标识。
在一个实施例中,服务器可以基于确定出的实验前阶段和实验后阶段对照组和实验组各自对应的数据总量,对上述方差表达式进行等价替换,该方差表达式中包括预设矩阵乘法。进一步地,可以对等价替换后的方差表达式进行运算,得到目标指标的回归参数的方差。
示例性地,上述方差表达式为Var(β3)=(XTX)-1,该表达式中包括预设矩阵乘法XTX。利用对照组和实验组针对应用程序的目标功能进行测试的测试完成后,服务器获取到的实验前阶段对照组的数据总量记为naa,ct,实验后阶段对照组的数据总量记为nab,ct,实验前阶段实验组的数据总量记为naa,tr,实验后阶段实验组的数据总量记为nab,tr。这种情况下,这服务器获取到实验前阶段和实验后阶段对照组和实验组各自对应的数据总量之后,可以将各自对应的数据总量对上述方差表达式为Var(β3)=(XTX)-1进行等价替换,等价替换后的方差表达式如下所示:
Figure BDA0002247563020000121
进而对等价替换后的方差表达式进行运算,得到目标指标的回归参数β3的方差。可以看出,上述计算回归参数的方差,可以通过普通的求和(例如对指标的求和))确定出指标的回归参数β3,避免了超大矩阵乘法,降低了针对回归参数β3的方差的计算开销。
在一个实施例中,服务器可以获取用户提交的统计请求(该统计请求中包括统计的目标时间),进而获取利用对照组和实验组针对应用程序的目标功能进行测试得到的该目标时间内的测试数据。进一步地,服务器可以根据该目标时间段内的测试数据确定,目标时间段内实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、目标指标的和,进而基于该目标时间内的上述数据总量、目标指标的和确定目标指标的回归参数。由于本申请实施例计算目标指标的回归参数的方式,仅仅是简单对各个组(一个时间点对应一个组,例如第一天对应第一组,第二天对应二组等等)的数据进行计数和求和,计算开销较小,因此,采用这样的方式,当实验人员需要对多个组的数据进行组合观察时,可以大大提高自由组合各组数据的灵活性。
在一个实施例中,服务器利用对照组和实验组针对应用程序的目标功能进行测试的过程中,可以记录实验前后阶段对照组和实验组各自对应的数据量和当前系统时间,记录实验前后阶段对照组和实验组各自对应的目标指标和当前系统时间,并将实验前后阶段对照组和实验组各自对应的数据量和当前系统时间关联存储至数据库中,将实验前后阶段对照组和实验组各自对应的目标指标和当前系统时间关联存储至数据库中。这种情况下,当服务器接收到用户提交的上述统计请求(该统计请求中包括统计的目标时间)后,可以从数据库中获取利用对照组和实验组针对应用程序的目标功能进行测试得到的,该目标时间内的实验前后阶段对照组和实验组各自对应的数据量和目标指标,进而执行后续计算目标指标的回归参数β3的步骤。
本申请实施例中,服务器可以获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,该测试数据包括实验前阶段和实验后阶段对照组的数据量和目标指标、实验前阶段和实验后阶段实验组的数据量和目标指标。进一步地,根据测试数据确定实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、以及目标指标的和,并基于该数据总量、目标指标的和确定目标指标的回归参数。进一步地,针对该目标指标的回归参数执行假设检验流程,以确定出回归参数的显著水平,并对比回归参数的显著水平和预设显著水平阈值,输出对比结果。可以对目标指标的回归参数执行假设检验流程,有利于保证所确定出的去掉AA阶段实验组和对照组差异的影响后,AB阶段中实验组和对照组的真实差异的真实性。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现上述实施例中描述的相应方法。
再请参见图3,是本申请实施例的一种数据处理装置的结构示意图,本申请实施例的所述数据处理装置可以设置在服务器中,或者也可以设置一些软硬件资源较为丰富的智能终端中,例如一些个人电脑中。
本申请实施例的所述装置的一个实现方式中,所述装置包括如下结构。
获取模块30,用于获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,所述测试数据包括实验前阶段和实验后阶段所述对照组的数据量和目标指标、实验前阶段和实验后阶段所述实验组的数据量和目标指标,所述目标指标为待观察指标中的任一个指标;
处理模块31,用于根据所述测试数据确定实验前阶段和实验后阶段所述对照组和所述实验组各自对应的数据总量、所述目标指标的和;
所述处理模块31,还用于基于所述数据总量、所述目标指标的和确定所述目标指标的回归参数,所述回归参数表征了实验后阶段中所述对照组和所述实验组在所述目标指标下的差异。
在一个实施例中,处理模块31,具体用于基于所述数据总量、所述目标指标的和对计算回归参数的表达式进行等价替换,所述计算回归参数的表达式中包括预设矩阵乘法;对等价替换后的计算回归参数的表达式进行运算,并根据运算结果确定出所述目标指标的回归参数。
在一个实施例中,处理模块31,还用于针对所述目标指标的回归参数执行假设检验流程,以确定出所述回归参数的显著水平;对比所述回归参数的显著水平和预设显著水平阈值,并输出对比结果。
在一个实施例中,处理模块31,还用于若对比结果指示所述回归参数的显著水平大于所述预设显著水平阈值,则利用针对所述实验组设置的实验策略对所述应用程序的目标功能进行调整。
在一个实施例中,处理模块31,还具体用于根据方差表达式确定所述目标指标的回归参数的方差;基于所述方差计算所述回归参数的标准差;根据所述回归参数的标准差和所述回归参数,执行针对所述目标指标的回归参数的假设检验流程,以确定出所述回归参数的显著水平。
在一个实施例中,处理模块31,具体用于基于确定出的所述实验前阶段和实验后阶段所述对照组和所述实验组各自对应的数据总量,对所述方差表达式进行等价替换,所述方差表达式中包括预设矩阵乘法;对等价替换后的方差表达式进行运算,得到所述目标指标的回归参数的方差。
在一个实施例中,获取模块30,具体用于获取用户提交的统计请求,所述统计请求中包括统计的目标时间,获取利用对照组和实验组针对应用程序的目标功能进行测试得到的所述目标时间内的测试数据。
在本申请实施例中,上述各个模块的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。
本申请实施例中,获取模块30获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,该测试数据包括实验前阶段和实验后阶段对照组的数据量和目标指标、实验前阶段和实验后阶段实验组的数据量和目标指标。进一步地,处理模块31根据测试数据确定实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、以及目标指标的和,并基于该数据总量、目标指标的和确定目标指标的回归参数。采用这样的方式,可以通过普通的求和、计数方式确定出目标指标的回归参数,避免了超大矩阵乘法,进而降低了计算开销。
再请参见图4,是本申请实施例的一种服务器的结构示意图,本申请实施例的所述服务器包括供电模块等结构,并包括处理器401、存储装置402以及网络接口403。所述处理器401、存储装置402以及网络接口403之间可以交互数据,由处理器401实现相应的数据处理功能。
所述存储装置402可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储装置402也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;所述存储装置402还可以包括上述种类的存储器的组合。
所述处理器401可以是中央处理器401(central processing unit,CPU)。在一个实施例中,所述处理器401还可以是图形处理器401(Graphics Processing Unit,GPU)。所述处理器401也可以是由CPU和GPU的组合。在所述服务器中,可以根据需要包括多个CPU和GPU进行相应的数据处理。在一个实施例中,所述存储装置402用于存储程序指令。所述处理器401可以调用所述程序指令,实现如本申请实施例中上述涉及的各种方法。
在第一个可能的实施方式中,所述服务器的所述处理器401,调用所述存储装置402中存储的程序指令,用于获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,所述测试数据包括实验前阶段和实验后阶段所述对照组的数据量和目标指标、实验前阶段和实验后阶段所述实验组的数据量和目标指标,所述目标指标为待观察指标中的任一个指标;根据所述测试数据确定实验前阶段和实验后阶段所述对照组和所述实验组各自对应的数据总量、所述目标指标的和;基于所述数据总量、所述目标指标的和确定所述目标指标的回归参数,所述回归参数表征了实验后阶段中所述对照组和所述实验组在所述目标指标下的差异。
在一个实施例中,处理器401,具体用于基于所述数据总量、所述目标指标的和对计算回归参数的表达式进行等价替换,所述计算回归参数的表达式中包括预设矩阵乘法;对等价替换后的计算回归参数的表达式进行运算,并根据运算结果确定出所述目标指标的回归参数。
在一个实施例中,处理器401,还用于针对所述目标指标的回归参数执行假设检验流程,以确定出所述回归参数的显著水平;对比所述回归参数的显著水平和预设显著水平阈值,并输出对比结果。
在一个实施例中,处理器401,还用于若对比结果指示所述回归参数的显著水平大于所述预设显著水平阈值,则利用针对所述实验组设置的实验策略对所述应用程序的目标功能进行调整。
在一个实施例中,处理器401,还具体用于根据方差表达式确定所述目标指标的回归参数的方差;基于所述方差计算所述回归参数的标准差;根据所述回归参数的标准差和所述回归参数,执行针对所述目标指标的回归参数的假设检验流程,以确定出所述回归参数的显著水平。
在一个实施例中,处理器401,具体用于基于确定出的所述实验前阶段和实验后阶段所述对照组和所述实验组各自对应的数据总量,对所述方差表达式进行等价替换,所述方差表达式中包括预设矩阵乘法;对等价替换后的方差表达式进行运算,得到所述目标指标的回归参数的方差。
在一个实施例中,处理器401,还具体用于通过网络接口403获取用户提交的统计请求,所述统计请求中包括统计的目标时间,并获取利用对照组和实验组针对应用程序的目标功能进行测试得到的所述目标时间内的测试数据。
在本申请实施例中,所述处理器401的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。
本申请实施例中,处理器401获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,该测试数据包括实验前阶段和实验后阶段对照组的数据量和目标指标、实验前阶段和实验后阶段实验组的数据量和目标指标。进一步地,处理器401根据测试数据确定实验前阶段和实验后阶段对照组和实验组各自对应的数据总量、以及目标指标的和,并基于该数据总量、目标指标的和确定目标指标的回归参数。采用这样的方式,可以通过普通的求和、计数方式确定出目标指标的回归参数,避免了超大矩阵乘法,进而降低了计算开销。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,所述测试数据包括实验前阶段和实验后阶段所述对照组的数据量和目标指标、实验前阶段和实验后阶段所述实验组的数据量和目标指标,所述目标指标为待观察指标中的任一个指标;
根据所述测试数据确定实验前阶段和实验后阶段所述对照组和所述实验组各自对应的数据总量、所述目标指标的和;
基于所述数据总量、所述目标指标的和确定所述目标指标的回归参数,所述回归参数表征了实验后阶段中所述对照组和所述实验组在所述目标指标下的差异。
2.根据权利要求1所述的方法,其特征在于,所述基于所述数据总量、所述目标指标的和确定所述目标指标的回归参数,包括:
基于所述数据总量、所述目标指标的和对计算回归参数的表达式进行等价替换,所述计算回归参数的表达式中包括预设矩阵乘法;
对等价替换后的计算回归参数的表达式进行运算,并根据运算结果确定出所述目标指标的回归参数。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
针对所述目标指标的回归参数执行假设检验流程,以确定出所述回归参数的显著水平;
对比所述回归参数的显著水平和预设显著水平阈值,并输出对比结果。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若对比结果指示所述回归参数的显著水平大于所述预设显著水平阈值,则利用针对所述实验组设置的实验策略对所述应用程序的目标功能进行调整。
5.根据权利要求3所述的方法,其特征在于,所述针对所述目标指标的回归参数执行假设检验流程,以确定出所述回归参数的显著水平,包括:
根据方差表达式确定所述目标指标的回归参数的方差;
基于所述方差计算所述回归参数的标准差;
根据所述回归参数的标准差和所述回归参数,执行针对所述目标指标的回归参数的假设检验流程,以确定出所述回归参数的显著水平。
6.根据权利要求5所述的方法,其特征在于,所述根据方差表达式确定所述目标指标的回归参数的方差,包括:
基于确定出的所述实验前阶段和实验后阶段所述对照组和所述实验组各自对应的数据总量,对所述方差表达式进行等价替换,所述方差表达式中包括预设矩阵乘法;
对等价替换后的方差表达式进行运算,得到所述目标指标的回归参数的方差。
7.根据权利要求1所述的方法,其特征在于,所述获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,包括:
获取用户提交的统计请求,所述统计请求中包括统计的目标时间;
获取利用对照组和实验组针对应用程序的目标功能进行测试得到的所述目标时间内的测试数据。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取利用对照组和实验组针对应用程序的目标功能进行测试得到的测试数据,所述测试数据包括实验前阶段和实验后阶段所述对照组的数据量和目标指标、实验前阶段和实验后阶段所述实验组的数据量和目标指标,所述目标指标为待观察指标中的任一个指标;
处理模块,用于根据所述测试数据确定实验前阶段和实验后阶段所述对照组和所述实验组各自对应的数据总量、所述目标指标的和;
所述处理模块,还用于基于所述数据总量、所述目标指标的和确定所述目标指标的回归参数,所述回归参数表征了实验后阶段中所述对照组和所述实验组在所述目标指标下的差异。
9.一种服务器,其特征在于,包括处理器和存储装置,所述处理器和存储装置相互连接,其中,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机存储介质,其特征在于,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现如权利要求1-7任一项所述的方法。
CN201911022150.1A 2019-10-25 2019-10-25 一种数据处理方法、装置及服务器、存储介质 Active CN112711739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911022150.1A CN112711739B (zh) 2019-10-25 2019-10-25 一种数据处理方法、装置及服务器、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911022150.1A CN112711739B (zh) 2019-10-25 2019-10-25 一种数据处理方法、装置及服务器、存储介质

Publications (2)

Publication Number Publication Date
CN112711739A true CN112711739A (zh) 2021-04-27
CN112711739B CN112711739B (zh) 2024-05-28

Family

ID=75541423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911022150.1A Active CN112711739B (zh) 2019-10-25 2019-10-25 一种数据处理方法、装置及服务器、存储介质

Country Status (1)

Country Link
CN (1) CN112711739B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553256A (zh) * 2021-06-18 2021-10-26 北京百度网讯科技有限公司 一种ab测试方法、装置及电子设备
CN115049327A (zh) * 2022-08-17 2022-09-13 阿里巴巴(中国)有限公司 数据处理方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101379495A (zh) * 2005-12-29 2009-03-04 3M创新有限公司 用于设计实验的专家系统
CN101464980A (zh) * 2009-01-15 2009-06-24 浙江大学 公共品投资实验仿真系统及实现方法
US20130191107A1 (en) * 2010-12-24 2013-07-25 Nec Corporation Monitoring data analyzing apparatus, monitoring data analyzing method, and monitoring data analyzing program
CN105387919A (zh) * 2015-11-11 2016-03-09 河南工业大学 一种基于Janssen模型的支持向量回归粮仓重量检测方法及装置
CN106770857A (zh) * 2016-12-13 2017-05-31 南京医科大学 一种基于代谢组学的动物模型抑郁程度评价的实验方法
CN109523125A (zh) * 2018-10-15 2019-03-26 广州地理研究所 一种基于dmsp/ols夜间灯光数据的贫困测度方法
CN109635344A (zh) * 2018-11-14 2019-04-16 中国航空工业集团公司沈阳飞机设计研究所 基于仿真试验的效能评估模型获得方法及装置
CN110189159A (zh) * 2019-04-19 2019-08-30 上海拉扎斯信息科技有限公司 数据评估方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101379495A (zh) * 2005-12-29 2009-03-04 3M创新有限公司 用于设计实验的专家系统
CN101464980A (zh) * 2009-01-15 2009-06-24 浙江大学 公共品投资实验仿真系统及实现方法
US20130191107A1 (en) * 2010-12-24 2013-07-25 Nec Corporation Monitoring data analyzing apparatus, monitoring data analyzing method, and monitoring data analyzing program
CN105387919A (zh) * 2015-11-11 2016-03-09 河南工业大学 一种基于Janssen模型的支持向量回归粮仓重量检测方法及装置
CN106770857A (zh) * 2016-12-13 2017-05-31 南京医科大学 一种基于代谢组学的动物模型抑郁程度评价的实验方法
CN109523125A (zh) * 2018-10-15 2019-03-26 广州地理研究所 一种基于dmsp/ols夜间灯光数据的贫困测度方法
CN109635344A (zh) * 2018-11-14 2019-04-16 中国航空工业集团公司沈阳飞机设计研究所 基于仿真试验的效能评估模型获得方法及装置
CN110189159A (zh) * 2019-04-19 2019-08-30 上海拉扎斯信息科技有限公司 数据评估方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾玉娣等: "具有线性回归特征的多组实验结果对比分析方法的研究", 《南京航空航天大学学报》, no. 05, 30 November 2003 (2003-11-30), pages 73 - 77 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553256A (zh) * 2021-06-18 2021-10-26 北京百度网讯科技有限公司 一种ab测试方法、装置及电子设备
CN113553256B (zh) * 2021-06-18 2023-07-14 北京百度网讯科技有限公司 一种ab测试方法、装置及电子设备
CN115049327A (zh) * 2022-08-17 2022-09-13 阿里巴巴(中国)有限公司 数据处理方法、装置、电子设备及存储介质
CN115049327B (zh) * 2022-08-17 2022-11-15 阿里巴巴(中国)有限公司 数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112711739B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN109062802B (zh) 一种软件测试方法、计算机可读存储介质及终端设备
US11514027B2 (en) Paged hybrid LOBs
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
CN109583594B (zh) 深度学习训练方法、装置、设备及可读存储介质
CN112711739A (zh) 一种数据处理方法、装置及服务器、存储介质
CN114816711A (zh) 批量任务处理方法、装置、计算机设备和存储介质
CN113342631B (zh) 分发管理优化方法、装置和电子设备
CN113947668A (zh) 一种模型简化方法及其相关设备
TWI758223B (zh) 具有動態最小批次尺寸之運算方法,以及用於執行該方法之運算系統及電腦可讀儲存媒體
CN114691630B (zh) 一种智慧供应链大数据共享方法及系统
CN116800671A (zh) 数据传输方法、装置、计算机设备、存储介质和程序产品
CN112488528A (zh) 数据集的处理方法、装置、设备和存储介质
CN116755866B (zh) 一种资源调度方法、装置、电子设备及可读存储介质
CN118092997A (zh) 源代码调整方法、装置、计算机设备和存储介质
CN114490041A (zh) 数组计算方法、装置、设备、介质和计算机程序产品
CN114647617A (zh) 文件读取方法、装置、计算机设备、存储介质和程序产品
CN117453561A (zh) 测试脚本调用方法、装置、计算机设备和存储介质
CN114201271A (zh) 节点确定方法、装置、计算机设备、存储介质
CN115421771A (zh) 微前端系统灰度发布方法、装置、计算机设备和介质
CN117455501A (zh) 请求处理方法、装置、计算机设备和存储介质
CN117033591A (zh) 问题解答方法、装置、计算机设备和存储介质
CN114490537A (zh) 多服务器数据处理方法、装置、计算机设备、存储介质
CN115081235A (zh) 特征处理方法、装置、存储介质以及电子设备
CN117880100A (zh) 资源确定方法、装置、计算机设备、介质及产品
CN115150346A (zh) 信息推送方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant