CN115221663A - 数据处理方法、装置、设备及计算机可读存储介质 - Google Patents
数据处理方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN115221663A CN115221663A CN202110413045.1A CN202110413045A CN115221663A CN 115221663 A CN115221663 A CN 115221663A CN 202110413045 A CN202110413045 A CN 202110413045A CN 115221663 A CN115221663 A CN 115221663A
- Authority
- CN
- China
- Prior art keywords
- current
- group
- preset
- distribution
- posterior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Complex Calculations (AREA)
Abstract
本申请提供了一种数据处理方法、装置、设备及计算机可读存储介质;方法包括:在分组对照实验中,获取每个分组从开始时刻至当前时刻累计产生的当前样本数据集,并以采样单元对当前样本数据集进行聚合,得到每个分组对应的当前指标样本集合;对当前指标样本集合进行观测统计处理,得到预设指标变量的当前分布,并根据预设指标变量的预设先验分布与当前分布,得到预设指标变量的后验分布;基于实验组与对照组各自对应的后验分布,确定分组对照实验的连续观测结果;连续观测结果用于对多个分组对应的多个预设实验方案进行业务决策。通过本申请,能够通过连续观测提高分组对照实验的效率。
Description
技术领域
本申请涉及互联网领域技术,尤其涉及一种数据处理方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网产品的大面积使用,越来越多的产品运营开始关注数据驱动的精细化运营方法,AB实验就是一种有效的精细化运营手段。AB实验是为同一个目标,设计两种方案,将两种方案随机投放市场中,将组成成分相同或相似的测试对象随机体验两种方案之一,然后通过分析比较两组的实验数据,确定哪个方案效果更好的一种实验方法。然而,AB实验通常需要在上线前估算好实验所需的固定样本量,在完成对样本数据全集的收集之后,再对样本数据全集进行分析得到实验结果,进而将实验结果用于指导决策分析,因而降低了分组对照实验的效率。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及计算机可读存储介质,能够通过连续观测提高分组对照实验的效率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种数据处理方法,包括:
在分组对照实验中,对于多个分组中的每个分组,获取所述每个分组从开始时刻至当前时刻累计产生的当前样本数据集,并以采样单元对所述当前样本数据集进行聚合,得到所述每个分组对应的当前指标样本集合;
对所述当前指标样本集合进行观测统计处理,得到预设指标变量的当前分布,并根据所述预设指标变量的预设先验分布与所述当前分布,得到所述预设指标变量的后验分布,所述预设先验分布与所述后验分布同分布;
对于所述多个分组中的实验组,基于所述实验组与对照组各自对应的后验分布,确定所述分组对照实验的连续观测结果;所述连续观测结果用于对所述多个分组对应的多个预设实验方案进行业务决策。
本申请实施例提供一种数据处理装置,包括:
获取模块,用于在分组对照实验中,对于多个分组中的每个分组,获取所述每个分组从开始时刻至当前时刻累计产生的当前样本数据集,并以采样单元对所述当前样本数据集进行聚合,得到所述每个分组对应的当前指标样本集合;
统计模块,用于对所述当前指标样本集合进行观测统计处理,得到预设指标变量的当前分布,并根据所述预设指标变量的预设先验分布与所述当前分布,得到所述预设指标变量的后验分布,所述预设先验分布与所述后验分布同分布;
确定模块,用于对于所述多个分组中的实验组,基于所述实验组与对照组各自对应的后验分布,确定所述分组对照实验的连续观测结果;所述连续观测结果用于对所述多个分组对应的多个预设实验方案进行业务决策。
上述装置中,所述预设先验分布、所述当前分布与所述后验分布均服从正态分布,所述预设先验分布包含预设初始均值与预设初始方差;所述当前分布包含当前均值与当前方差;所述统计模块,还用于分别对所述预设初始方差与所述当前分布中的当前方差取倒数,得到先验方差倒数与当前方差倒数,对所述先验方差倒数与所述当前方差倒数进行求和,得到第一求和结果,并对所述第一求和结果取倒数,得到后验方差;对所述先验方差倒数与先验均值的第一乘积,以及所述当前方差倒数与所述当前均值的第二乘积进行求和,得到第二求和结果,将所述第二求和结果与所述后验方差的乘积,作为后验均值;根据所述后验均值与所述后验方差,确定所述后验分布。
上述装置中,所述确定模块,还用于基于所述实验组与对照组各自对应的后验分布,计算得到所述实验组优于所述对照组的当前获胜概率,以及计算得到所述实验组相对于所述对照组的当前期望损失;确定所述实验组对应的损失阈值;当所述当前获胜概率大于预设概率阈值,且所述当前期望损失小于所述损失阈值时,确定达到实验停止条件,并确定所述连续观测结果为所述实验组的指标均值变量优于所述对照组。
上述装置中,所述确定模块,还用于根据所述分组对照实验的预设显著性水平,以及所述实验组与所述对照组各自对应的后验分布中的后验方差,确定所述实验组对应的拒绝域区间的至少一个边界值;基于所述至少一个边界值中的第一边界值,计算所述拒绝域区间的单边面积,作为所述损失阈值。
上述装置中,所述计算模块,还用于从所述实验组与所述对照组各自对应的后验分布中,分别获取第一预设数量个指标变量均值,将所述实验组与所述对照组的第一预设数量个指标变量均值进行对比;统计所述实验组中指标变量均值大于所述每个对照组中指标变量均值的第一样本个数,将所述第一样本个数与所述第一预设数量的比值,作为所述当前获胜概率。
上述装置中,所述确定模块,还用于根据所述第一边界值,确定所述拒绝域区间中的单边区间;根据所述实验组与所述对照组各自对应的后验分布的后验方差,得到所述单边区间对应的概率密度函数;在所述单边区间对应的参数空间内,计算所述单边区间内的每个点到所述第一边界值的距离与所述单边区间的概率密度函数的积分,得到所述单边面积;将所述单边面积作为所述损失阈值。
上述装置中,所述确定模块,还用于从所述实验组与所述对照组各自对应的后验分布中,分别获取第二预设数量个指标变量均值,将所述实验组与所述对照组各自的第二预设数量个指标变量均值进行对比;统计每次对比中,所述对照组中的指标变量均值大于所述实验组中的指标变量均值时对应的差值的总和;统计所述对照组中大于所述实验组的指标变量均值的第二样本个数;将所述差值的总和与所述第二样本个数的比值作为所述当前期望损失。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的方法。
本申请实施例具有以下有益效果:
通过对每个分组的当前样本数据集进行聚合处理,使得每个分组中的多个采样单元对应的预设指标变量的当前取值满足独立同分布,从而可以对聚合得到的当前指标样本集合进行观测,得到预设指标变量的当前分布;通过对每个分组的预设指标变量的先验分布进行初始化,使得可以基于贝叶斯定理,根据预设指标变量的先验分布与当前分布,得到预设指标变量的后验分布,进而可以基于各个分组的预设指标变量的后验分布,确定分组对照实验的连续观测结果,从而在分组对照实验如AB实验中实现了连续观测的能力。这样,可以在实验过程中,随时根据各个分组的预设指标变量的后验分布来对各个分组的实验情况进行评估,确定是否满足实验停止条件,使得分组对照实验可以在满足实验停止条件时被及时结束,并得到连续观测结果来指导业务决策,减少了对固定样本量进行收集与分析处理所耗费的运行成本,提高了分组对照实验的效率。
附图说明
图1是本申请实施例提供的分组对照实验系统的一个可选的架构示意图;
图2是本申请实施例提供的分组对照实验系统应用于区块链的一个可选的架构示意图;
图3是本申请实施例提供的数据处理装置的一个可选的结构示意图;
图4是本申请实施例提供的数据处理方法的一个可选的流程示意图;
图5是本申请实施例提供的双边检验方式对应的置信空间中的拒绝域的一个可选示意图;
图6是本申请实施例提供的数据处理方法的一个可选的流程示意图;
图7是本申请实施例提供的数据处理方法的一个可选的流程示意图;
图8是本申请实施例提供的数据处理方法的一个可选的应用流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
如果申请文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)假设检验(hypothesis test):假设检验是利用样本信息去推断总体参数(或分布)的一种数据分析方法。在总体的分布函数只知其形式,但不知其参数的情况下,或者对总体分布完全未知的情况下,为了推断总体的某些未知特征,先提出某些关于总体的假设,然后要根据样本,采用适当的方法对所提出的假设做出接受或者拒绝的决策。假设检验通常先提出两种假设,一种叫原假设,也叫零假设,用H0表示。原假设一般是统计者想要拒绝的假设。另外一种叫备择假设,用H1表示。备则假设是统计者想要接受的假设。假设检验采用适当的统计方法,利用小概率原理,反证上述假设是否成立。即为了检验一个假设H0是否正确,首先假定该假设H0正确,然后根据样本对假设H0做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生,就应拒绝假设H0,否则应接受假设H0。
2)小概率原理:小概率原理是指小概率事件在一次实验中基本上不会发生。
3)显著性水平:显著性水平是指当原假设为正确时,人们却把它拒绝了的概率或风险,用α表示。显著性水平是公认的小概率事件的概率值,必须在每一次统计检验之前确定,代表的意义是在一次实验中小概率事件发生的可能性大小。
4)拒绝域:拒绝域是由显著性水平围成的区域。拒绝域的功能主要用来判断假设检验是否拒绝原假设的。如果样本观测计算出来的检验统计量的具体数值落在拒绝域内,就拒绝原假设,否则不拒绝原假设。
5)假设检验中的两类错误:第一类错误为弃真错误,原假设H0为真却落在拒绝域内,一般用α来表示第一类错误出现的概率。第二类错误为取伪错误,原假设H0为真却没有被拒绝,一般用β来表示第二类错误出现的概率。
6)统计功效:假设检验是用样本的估计值来代表整体的方法,但是由于假设检验可能存在着上述两类错误,如何去估计样本是否能代表真实,统计学中使用统计功效来衡量。统计功效表示在假设检验中,拒绝原假设后接受备择假设的概率,也即(1-β)的概率。统计功效的值越大越好。
7)序贯概率比检测(Mixture Sequential Probability Ratio Testing,MSPRT):一种频率框架下的连续观测方法,使用的是频率中的假设检验方法,相比于Student's t检验(Student's t test,t-test),MSPRT可以保证在连续观测的情况下,第一类错误率的上界仍然能够被控制在设定的阈值α以内。
8)贝叶斯因子(Bayes Factor):被用来描述一个理论或模型优于另一个理论或模型的相对确证性,贝叶斯因子可以通过来表示。其中,x为观测到的数据,H0和H1分别为两种理论或模型,p(x|Hi),i∈[0,1]表示Hi成立时,观测到x的概率,即x数据底层模型满足Hi的概率,也即似然概率。因而,贝叶斯因子也可以看作是两个模型似然概率比值,即似然比。贝叶斯因子常用于在满足样本独立性假设以及先验选择正确的情况下进行连续观测。
9)AA实验:和对照组一模一样的实验。通过测试埋点、分流、实验统计的正确性,增加AB实验的实验结论可信度;并观察观测指标在不做任何改动时的波动范围,如果波动范围比较大,那实验结果也很可能不置信。
10)贝叶斯定理:也称贝叶斯推理,是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中条件概率P(A|B)表示事件B已经发生的情况下,事件A发生的概率,其基本求解公式为其中,P(B)是直接判断某个样本属于B的概率,称为先验概率。
12)蒙特卡洛方法:也称统计模拟方法,是指使用随机数或更常见的伪随机数来解决很多计算问题的方法。与它对应的是确定性算法。用蒙特卡洛方法模拟某一过程时,需要产生某一概率分布的随机变量,再用统计方法把模型的数字特征估计出来,从而得到实际问题的数值解。蒙特卡洛方法在金融工程学,宏观经济学,计算物理学等领域应用广泛。
13)先验分布(prior distribution):也成为“验前分布”“事前分布”,是概率分布的一种,与“后验分布”相对。先验分布与实验结果无关,也与随机抽样无关,反映在进行统计实验之前根据其他有关参数的知识而得到的分布。
14)中心极限定理:当随机取样n多次的时候,这些样本的均值会围绕整体均值呈正态分布。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理从数学上证明了这一现象。
15)独立同分布(Independently Identically Distribution,IID)在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。
16)区块链(Block Chain):是由区块(Block)形成的加密的、链式的交易的存储结构。
17)区块链网络(Block Chain Network):通过共识的方式将新区块纳入区块链的一系列的节点的集合。
目前,AB实验作为一种基于假设检验的实验方法,已经广泛地应用于用户体验优化、广告优化、推荐及算法优化等数据驱动运营场景。例如,对于电商销售平台上商品展示页面的设计,通常影响销售转化率的因素有产品标题、描述、图片、表单、定价等,为了验证销售转化率和用户体验更好的产品,可以针对上述因素进行AB两个版本的设计,并设置对照实验组进行AB测试和数据收集,最终选定数据结果更好的版本正式推广给全平台用户,以提高销售转化率与长期用户体验。然而,AB实验通常需要等到实验结束后才能根据实验结果来进行决策,实验效率较低。目前的一些连续观测方法,如MSPRT与B ayes Factor需要在一定的条件下才能使用,示例性地,MSPRT与Bayes Factor方法需要收集的原始样本在时间序列上是独立同分布的,且不能通过聚合的方式对原始数据进行处理。现实的AB实验应用场景无法满足上述条件。示例性地,对于同一个用户,不同日期的曝光点击数据具有很强的相关性,比如用户A本身就是高点击率用户,用户A周四和周五的点击率分别为0.8和0.9;用户B是低点击率用户,用户B周四和周五的点击率分别是0.1和0.2;那么汇总用户A和用户B的周四和周五的点击率所得到的数据集是不满足独立同分布的。因此,目前只能通过只使用采样单元(即用户)的第一个样本,抛弃采样单元的后续样本来满足此条件。此方法一方面会受到新奇效应的影响;即一个新功能上线,用户会因为好奇去体验,会导致新功能上线当天,一些指标(比如时长,点击率等)表现很好,但是如果这个新功能的用户体验很差,过两天,指标又会下降,因此只使用采样单元的第一个样本,丢弃了采样单元的其他样本的话,会导致指标一直都很高,并不符合用户实际的行为数据。并且,Bayes Factor还有一个要求是先验必须能够正确的设定,而现实的AB实验场景无法知道正确的先验是什么。可以看出,目前的连续观测方法都不适用于A B实验场景,从而无法为AB实验提供连续观测的能力,也不能提高AB实验的效率。
本申请实施例提供一种数据处理方法、装置、设备和计算机可读存储介质,能够通过连续观测提高分组对照实验的效率。下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为服务器时示例性应用。
参见图1,图1是本申请实施例提供的分组对照实验系统100的一个可选的架构示意图,为实现通过分组对照实验,如AB实验,来验证哪种商品推荐页面能够提高人均浏览时长,服务器200上运行有不同页面设计方案的商品推荐页面A与商品推荐页面B。终端600归属于分组对照实验的管理者,管理者可以通过页面610上的预设控件,启动或停止分组对照实验,以及对分组对照实验的各项配置,如分组配置,指标配置进行更新。终端600与服务器200互相连接,用于通过页面610方案服务器200上实时生成的各个分组的当前获胜概率、当前期望损失与损失阈值,以及服务器200根据各个分组的当前获胜概率、当前期望损失与损失阈值以及预设停止条件提供的是否停止实验的提示。
终端400(示例性示出了终端400-1至终端400-n)归属于分组A,终端500(示例性示出了终端500-1至终端500-m)归属于分组B,终端400与终端500通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于通过图形界面410(示例性示出了图形界面410-1和图形界面410-n)显示商品推荐页面A,并持续统计分组A中的每个终端对商品推荐页面A的浏览时长,终端500用于通过图形界面510(示例性示出了图形界面510-1和图形界面510-m)显示商品推荐页面B,并持续统计分组B中的每个终端对商品推荐页面B的浏览时长。
服务器200用于在分组对照实验中,对于多个分组中的每个分组,获取每个分组从开始时刻至当前时刻累计产生的当前样本数据集,并以采样单元对当前样本数据集进行聚合,得到每个分组对应的当前指标样本集合;当前指标样本集合包含每个分组中的多个采样单元各自对应的预设指标变量的当前取值;预设指标变量为预设实验指标对应的随机变量;对当前指标样本集合进行观测统计处理,得到预设指标变量的当前分布,并根据预设指标变量的预设先验分布与当前分布的乘积,得到预设指标变量的后验分布,预设先验分布为预设指标变量的先验分布;对于多个分组中的实验组,基于实验组与对照组各自对应的后验分布,计算实验组的指标变量均值优于对照组的当前获胜概率;对照组为多个分组中预先指定的分组;指标变量均值为预设指标变量的后验分布中的均值;进一步地,服务器200还可以根据实验组与对照组各自对应的后验分布中的指标变量均值,计算实验组相对于对照组的当前期望损失;以及根据实验组与对照组各自对应的预设指标变量的后验分布,动态设置分组对照实验的损失阈值。服务器200可以根据当前获胜概率、当前期望损失、与损失阈值确定分组对照实验的连续观测结果;将连续观测结果与当前获胜概率、当前期望损失、与损失阈值推送至终端600向AB实验的管理者进行实时展示,以使AB实验的管理者可以根据实验结果了解商品推荐页面A与商品推荐页面B分别对人均浏览时长的提升效果,进而可以根据实验结果进行业务决策。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
本申请实施例还可以通过区块链技术来实现,参见图2,图2是本申请实施例提供的分组对照实验系统100应用于区块链的一个可选的架构示意图。图2中,可以通过多个服务器200(图2中示例性示出了服务器200-1和200-2)对终端400与终端500进行分组对照实验。
在一些实施例中,服务器200-1和200-2可以加入区块链网络500而成为其中的一个节点。区块链网络500的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备,都可以在不需要授权的情况下接入区块链网络500,以作为区块链网络500的共识节点,例如服务器200-1映射为区块链网络500中的共识节点500-1,服务器200-2映射为区块链网络500中的共识节点500-2。
以区块链网络500为联盟链为例,服务器200-1和服务器200-2在获得授权后可以接入区块链网络500而成为节点。服务器200-1和服务器200-2获取到终端400对应的分组A与终端500对应的分组B从开始时刻至当前时刻累计产生的当前样本数据集后,可以通过执行智能合约的方式对当前样本数据集进行数据处理,确定分组对照实验的连续观测结果,并分别将连续观测结果发送至区块链网络500中进行共识。当共识通过时,且连续观测结果表征每个分组,如A分组与B分组的实验指标优劣对比结果时,确定连续观测结果可以用于对多个分组对应的多个预设实验方案进行业务决策。可见,通过区块链网络中的多个节点对连续观测结果进行共识确认,可以利用共识机制避免受到个别服务器错误识别的影响,提高了分组对照实验的可靠性和准确性。
参见图3,图3是本申请实施例提供的服务器200的结构示意图,图3所示的服务器200包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。服务器200中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的数据处理装置可以采用软件方式实现,图3示出了存储在存储器450中的数据处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4551、统计模块4552和确定模块4553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的数据处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specif ic Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic De vice)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的数据处理方法。
参见图4,图4是本申请实施例提供的数据处理方法的一个可选的流程示意图,将结合图4示出的步骤进行说明。
S101、在分组对照实验中,对于多个分组中的每个分组,获取每个分组从开始时刻至当前时刻累计产生的当前样本数据集,并以采样单元对当前样本数据集进行聚合,得到每个分组对应的当前指标样本集合。
本申请实施例中,分组对照实验是将根据参与实验的多种实验方案,预设多个分组,每个分组对应一种实验方案,并在多个分组中分别预先指定出对照组与实验组。在实验过程中,数据处理装置向不同分组中的采样单元呈现不同的实验方案,并通过对每个分组中采样单元的样本数据的收集,以及实验组与对照组各自的预设实验指标的表现优劣的分析评估得到实验结果,进而将实验结果应用于对实验方案的业务决策中的实验方法。在一些实施例中,分组对照实验可以是AB实验。
本申请实施例中,每个分组包含多个采样单元,示例性地,采样单元可以是用户设备。在分组对照实验的进行过程中,多个采样单元可以通过执行该分组对应的实验方案的相关操作,产生对应的样本数据,如点击次数,使用时长等等。对于每个分组,数据处理装置获取该分组从实验启动的开始时刻到当前时刻产生的所有样本数据,作为当前样本数据集。
本申请实施例中,预设实验指标为用于衡量预设实验目标的指标参量,在一些实施例中,预设实验指标可以是零一分布的率相关的指标,如点击率、注册率,登录率等,也可以是连续分布的均值类指标,如人均点击量、人均播放量等等,具体的根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,在实验过程中,预设实验指标的具体取值会随着当前样本数据集的变化而随机变化,因此,数据处理装置可以将预设实验指标对应的随机变量作为预设指标变量,通过预设指标变量对每个分组的当前实验情况进行实时地衡量与评估。对于每个分组来说,整个分组总体的预设指标变量,对于不同的采样单元个体有着不同的具体的取值。也就是说,每个分组对应的当前指标样本集合中包含该分组中多个采样单元的个体各自对应的预设指标变量的当前取值。示例性地,预设实验指标为人均播放时长时,可以通过采集每个采样单元在时间序列上多次播放时长的样本数据并进行聚合处理,得到该采样单元对应的指标样本。数据处理装置对每个分组中的多个采样单元进行相同的聚合处理,得到多个采样单元对应的指标样本集合。
本申请实施例中,聚合方法可以是取最大值或最小值处理,也可以是平均处理等任意一种数据聚合方式,具体的根据实际应用的需要进行选择,本申请实施例不作限定。
在一些实施例中,多个分组的分组A中包含用户设备1、用户设备2与用户设备3,预设实验指标为人均播放时长,用户设备1在实验开始的第一天播放1小时,第二天播放2小时,第三天播放3小时;用户设备2在第一天播放2小时,第二天播放4小时,第三天播放5小时;用户设备3在第一天播放3小时,第二天播放4小时,第三天播放5小时;则数据处理装置可以获取分组A对应的当前样本数据集为{用户设备1(1,2,3),用户设备2(6,4,5),用户设备3(3,4,5)}。数据处理装置以均值处理作为聚合方式,对用户设备1对应的样本数据进行聚合,得到用户设备1对应的预设指标变量的当前取值为2;对用户设备2对应的样本数据进行聚合,得到用户设备2对应的预设指标变量的当前取值为5;对用户设备3对应的样本数据进行聚合,得到用户设备3对应的预设指标变量的当前取值为4,数据处理装置将{2,5,4}作为分组A对应的指标样本集合。
在一些实施例中,当分组对照实验为AB实验时,基于AB实验满足的中心极限定理,对每个分组的当前样本数据集进行聚合所得到的指标样本集合中,多个采样单元各自对应的预设指标变量的当前取值可以构成独立同分布的正态分布。
S102、对当前指标样本集合进行观测统计处理,得到预设指标变量的当前分布,并根据预设指标变量的预设先验分布与当前分布,得到预设指标变量的后验分布,预设先验分布与后验分布同分布。
本申请实施例中,当前指标样本集合中包含了预设指标变量当前对应的多个给定的取值数值,数据处理装置可以对当前指标样本集合进行观测统计处理,得到预设指标变量的当前分布。
在一些实施例中,数据处理装置可以根据当前指标样本集合得到预设指标变量的似然函数表达,作为预设指标变量的当前分布。
本申请实施例中,在分组对照实验开始时,数据处理装置可以对每个分组对应的预设指标变量的先验分布进行初始化,得到预设先验分布,其中,预设先验分布为预设指标变量先验分布,预设先验分布与预设指标变量的后验分布为共轭分布,也即将预设指标变量的先验分布初始化为与其后验分布相同的概率分布族。预设先验分布的具体分布以及参数形式可以根据不同种类的分组对照实验相关的先验知识确定。
根据贝叶斯(Bayes)定理,如果后验分布(posterior distributions)与先验概率分布属于共轭分布,可以通过公式(1),计算先验分布与后验分布的乘积,并对乘积进行标准化处理,得到后验分布,如下:
其中,θ为预设指标变量,x为给定预设指标变量的当前取值,p(θ|x)为后验分布,p(θ)为先验分布,p(x)为预设指标变量的当前取值为x的概率。
因此,本申请实施例中,数据处理装置将预设指标变量的先验分布初始化为后验分布相同的概率分布族,得到预设先验分布,并通过对当前指标样本集合进行观测统计处理,得到当前分布时,可以根据预设先验分布与当前分布的乘积,基于贝叶斯定理,得到预设指标变量的后验分布。
在一些实施例中,分组对照实验被配置完成并上线时,对于预先设置的A、B和C三个分组,数据处理装置可以将每个分组的预设指标变量的先验分布初始化为正态分布其中,为每个分组的预设指标变量的初始标准差,用于表征每个分组对应的预设指标变量当前取值的初始离散程度;μ0为每个分组的预设指标变量的初始值。在一些实施例中,μ0可以初始化为0,σ0可以初始化为10000。
需要说明的是,本申请实施例中,当分组对照实验为AB实验时,根据中心极限定理,预设指标变量的当前分布是渐进正态的,正态分布的当前分布可以表示为其中,为当前分布中预设指标变量的均值,也即多个采样单元各自对应的预设指标变量的当前取值的均值。为预设指标变量当前分布的方差。数据处理装置可以将预设指标变量的先验分布初始化为正态分布,进而可以根据正态分布的先验分布计算出同为正态分布的后验分布的解析解。这里,数据处理装置也可以将指标均值的先验分布初始化为其他形式的数学分布,如零一分布等,再通过模拟求解的方式来计算预设指标变量的后验分布。
在一些实施例中,预设先验分布、当前分布与后验分布均服从正态分布,预设先验分布包含预设初始均值与预设初始方差;当前分布包含当前均值与当前方差,S102中根据预设指标变量的预设先验分布与当前分布的乘积,得到预设指标变量的后验分布的过程可以通过执行S1021-S1023来实现,如下:
S1021、分别对预设初始方差与当前分布中的当前方差取倒数,得到先验方差倒数与当前方差倒数,对先验方差倒数与当前方差倒数进行求和,得到第一求和结果,并对第一求和结果取倒数,得到后验方差。
S1022、对先验方差倒数与先验均值的第一乘积,以及当前方差倒数与当前均值的第二乘积进行求和,得到第二求和结果,将第二求和结果与后验方差的乘积,作为后验均值;
本申请实施例中,均值和方差的不同取值可以唯一地确定一个正态分布,在一些实施例中,数据处理装置在根据正态分布的预设先验分布与当前分布计算同为正态分布形式的后验分布时,可以通过公式(2)计算后验分布的后验方差,并通过公式(3)计算后验分布的后验均值,如下:
S1023、根据后验均值与后验方差,确定后验分布。
S103、对于多个分组中的实验组,基于实验组与对照组各自对应的后验分布,确定分组对照实验的连续观测结果;连续观测结果用于对多个分组对应的多个预设实验方案进行业务决策。
本申请实施例中,多个分组中包含有实验组与对照组,对照组与实验组对应不同的预设实验方案。在一些实施例中,多个分组中可以包含一个对照组与至少一个实验组,对照组与实验组对应的采样单元可以是随机选择的不同采样单元。
本申请实施例中,实验组对应的后验分布中包含了预设指标变量对应的第一指标变量均值与第一指标变量方差;对照组对应的后验分布中包含了预设指标变量对应的第二指标变量均值与第二指标变量方差。数据处理装置可以根据预设指标变量分别在实验组与对照组中对应的均值与方差,对实验组和对照组的指标优劣进行评估,并判断是否达到实验停止条件,在达到实验停止条件时,确定分组对照试验的连续观测结果。
本申请实施例中,数据处理装置可以根据预设指标变量分别在实验组与对照组中对应的均值与方差,确定实验组的指标均值变量优于对照组的当前获胜概率。数据处理装置可以对当前获胜概率进行置信度评估,从而确定分组对照实验的连续观测结果。
在本申请的一些实施例中,数据处理装置可以根据预设显著性水平α,得到预设显著性水平α对应的置信度区间,置信度区间包括接受域与拒绝域。图5示出了零一分布下,双边检验方式对应的置信度区间。在一些实施例中,也可以采用单边检验方式,如左侧检验方式或右侧检验方式等,具体的根据实际情况进行选择,本申请实施例不作限定。数据处理装置可以将当前获胜概率与置信度区间中的接受域与拒绝域所对应的区间范围进行比较。当当前获胜概率落入接受域时,数据处理装置确定该实验组的指标变量均值优于对照组A为真,也即将连续观测结果确定为该实验组的指标变量均值优于对照组A。当当前获胜概率落入拒绝域时,数据处理装置确定该实验组的指标变量均值优于对照组A为假,不接受将该实验组的指标变量均值优于对照组A作为连续观测结果。
本申请实施例中,连续观测结果用于对多个分组对应的多个预设实验方案进行业务决策。
本申请实施例中,当数据处理装置确定连续观测结果时,如确定连续观测结果为实验组的指标变量均值优于对照组时,可以根据连续观测结果进行不同预设实验方案的替代决策。示例性地,数据处理装置在对新旧两个UI用户界面版本进行AB实验时,新版本与旧版本的点击率之差的95%的置信区间为[1%,3%],则可以认为新版本的点击率比旧版本的点击率高1%-3%的概率为95%,新版本的点击率显著高于旧版本,可以进行用户界面版本的替换。
在一些实施例中,连续观测结果可以应用于用户体验优化,用户体验永远是应用业务最关心的事情之一,但已经完善的落地页随意的改动是一件很冒险的事情,因此可以通过AB实验进行决策,最终根据连续观测结果选定用户体验更好的版本。
在一些实施例中,连续观测结果可以应用于广告优化,营销人员可以通过AB实验的连续观测结果,了解到哪个版本的广告更受用户的青睐,以及最能吸引用户的推广方式。
在一些实施例中,连续观测结果可以应用于算法推荐及算法优化。当有需要进行验证的算法时,如外卖或打车平台的派单算法,可以通过AB实验的连续观测结果来进行验证与决策,更精准地进行版本上线的风险控制。
可以理解的是,本申请实施例中,通过对每个分组的当前样本数据集进行聚合处理,使得每个分组中的多个采样单元对应的预设指标变量的当前取值满足独立同分布,从而可以对聚合得到的当前指标样本集合进行观测,得到预设指标变量的当前分布;通过对每个分组的预设指标变量的先验分布进行初始化,使得可以基于贝叶斯定理,根据预设指标变量的先验分布与当前分布,得到预设指标变量的后验分布,进而可以基于各个分组的预设指标变量的后验分布,确定分组对照实验的连续观测结果,从而在分组对照实验如AB实验中实现了连续观测的能力。这样,可以在实验过程中,随时根据各个分组的预设指标变量的后验分布来对各个分组的实验情况进行评估,确定是否满足实验停止条件,使得分组对照实验可以在满足实验停止条件时被及时结束,并得到连续观测结果来指导业务决策,减少了对固定样本量进行收集与分析处理所耗费的运行成本,提高了分组对照实验的效率。
在一些实施例中,参见图6,图6是本申请实施例提供的数据处理方法的一个可选的流程示意图。图4中示出的S103可以通过执行S1031-S1033的过程来实现,将结合各步骤进行说明。
S1031、基于实验组与对照组各自对应的后验分布,计算得到实验组优于对照组的当前获胜概率,以及计算得到实验组相对于对照组的当前期望损失。
本申请实施例中,每个分组对应的预设指标变量的后验分布N(μ1,σ1 2)中,μ1代表了预设指标变量的均值,即指标变量均值,数据处理装置可以根据后验分布中的指标变量均值,计算得到多个分组中实验组优于对照组的当前获胜概率。
在一些实施例中,当多个分组包含对照组A,实验组B和实验组C以及更多实验组时,数据处理装置可以根据公式(4),计算实验组B优于对照组A的当前获胜概率,如下:
其中,μA为对照组A的后验分布中对应的指标变量均值,μB为实验组B对应的指标变量均值,μB为实验组C对应的指标变量均值,p(μA,μB,μC,…)为μA、μB、μB以及更多实验组对应的指标变量均值的联合分布概率。数据处理装置可以根据公式(4),在实验组B的指标变量均值μB大于实验组A的指标变量均值μA的参数空间下,对每个实验组μA,μB,μC,…的联合分布进行积分处理,得到实验组B由于对照组A的当前获胜概率p(μB>μA)。
这里,实验组C或更多实验组优于对照组A的计算方式与公式(4)类似,此处不再赘述。
在一些实施例中,数据处理装置可以使用蒙特卡洛的方法,将公式(4)的连续求解问题转换为离散处理,数据处理装置可以从实验组与对照组各自对应的后验分布中,分别获取第一预设数量个指标变量均值,将实验组与对照组的第一预设数量个指标变量均值进行对比;统计实验组中指标变量均值大于每个对照组中指标变量均值的第一样本个数,将第一样本个数与第一预设数量的比值,作为当前获胜概率。
在一些实施例中,数据处理装置可以通过AB实验验证不同视频推荐页面对人均播放量的提高效果。数据处理装置可以分别对实验组B和对照组A的用户展示不同的视频推荐页面,数据处理装置从对照组A、实验组B各自的后验分布中分别采样10000个指标变量均值,作为各个分组对应的第一预设数量个指标变量均值;数据处理装置将对照组A与实验组B的10000个指标变量均值一一比较,得到实验组B中大于对照组A中的指标变量均值的个数为n;数据处理装置将(n/10000)*100%作为实验组B优于对照组A的当前获胜概率p(μB>μA)。
需要说明的是,在一些实施例中,数据处理装置也可以根据预设指标变量的后验分布计算实验组的预设指标变量劣于对照组的当前概率,具体的根据实际实验应用的需要进行选择,方法与计算优于对照组的当前获胜概率的方法类似,本申请实施例不作限定。
本申请实施例中,数据处理装置可以通过公式(5)与公式(6)计算实验组B相对于对照组A的当前期望损失,如下:
L(μA,μB,μC,…,B)=max(μA-μB,μC-μB,…,0) (5)
公式(5)中,L(μA,μB,μC,…,B)为在对照组A、实验组C以及其他实验组的指标变量均值μA,μB,μC,…的上下文中,确定每个分组与实验组B的指标变量均值的差值以及零值之中的最大值,作为实验组B的当前损失。E[L](B)为对实验组B的当前损失进行积分处理得到的实验组B对应的当前期望损失。
在一些实施例中,数据处理装置可以利用蒙特卡洛方法对公式(6)进行求解。数据处理装置从实验组与对照组各自对应的后验分布中,分别获取第二预设数量个指标变量均值,将实验组与对照组各自的第二预设数量个指标变量均值进行对比;统计每次对比中,对照组中的指标变量均值大于实验组中的指标变量均值时对应的差值的总和;统计对照组中大于实验组的指标变量均值的第二样本个数;将差值的总和与第二样本个数的比值作为当前期望损失。其中,第二预设数量与第一预设数量可以相同,也可以不同。
在一些实施例中,数据处理装置可以从对照组A和实验组B中各采样10000个指标变量均值,将对照组A和实验组B的10000个指标变量均值一一比较,当对照组A的10000个指标变量均值中大于实验组B的10000个指标变量均值个数为n,且第i次A大于B时,A-B=λi,则实验组B的当前期望损失为
S1032、确定实验组对应的损失阈值。
本申请实施例中,数据处理装置可以获取人工根据经验设定的损失阈值,也可以根据实验组与对照组各自的后验分布中的方差值,动态设定实验组对应的损失阈值,动态设定损失阈值的过程在S201-S202中进行描述。
S1033、当当前获胜概率大于预设概率阈值,且当前期望损失小于损失阈值时,确定达到实验停止条件,并确定连续观测结果为实验组的指标均值变量优于对照组。
本申请实施例中,当多个分组中出现任意一个实验组满足两个条件:一、该实验组的当前获胜概率大于预设概率阈值,且该实验组的当前期望损失小于该实验组的损失阈值时,数据处理装置确定达到实验停止条件,停止分组对照实验,并确定连续观测结果为实验组的指标均值变量优于对照组。
在一些实施例中,预设概率阈值可以是95%。
在一些实施例中,参见图7,图7是本申请实施例提供的数据处理方法的一个可选的流程示意图。图6中示出的S1032可以通过执行S201-S202的过程来实现,将结合各步骤进行说明。
S201、根据分组对照实验的预设显著性水平,以及实验组与对照组各自对应的后验分布中的后验方差,确定实验组对应的拒绝域区间的至少一个边界值。
本申请实施例中,零一分布的双边检验方式对应的拒绝域区间可以如图5所示,当实验组与对照组各自对应的后验分布中,指标变量均值的差值服从正态分布时,即时,数据处理装置可以将图5中两个临界值与与实验组与对照组各自对应的后验分布中的后验方差之和的方根相乘,得到拒绝域区间的至少一个边界值与以及拒绝域的区间范围其中,为实验组的指标变量均值,为对照组的指标变量均值,m为实验组的采样单元个数,n为实验组的采样单元个数,α为预设显著性水平。
在一些实施例中,m和n可以相同也可以不同。
S202、基于至少一个边界值中的第一边界值,计算拒绝域区间的单边面积,作为损失阈值。
其中,为均值为0,方差为的正态分布的概率密度函数。数据处理装置可以基于公式(7),根据第一边界值确定拒绝域区间中的单边区间根据实验组与对照组各自对应的后验分布的后验方差,得到单边区间对应的概率密度函数;在单边区间对应的参数空间内,计算单边区间内的每个点到第一边界值的距离与单边区间的概率密度函数的积分,得到单边面积;将单边面积作为损失阈值。
可以理解的是,本申请实施例中,通过上述方法设定的损失阈值ε0,可以使得在进行AA测试时,当样本量达到n时,第一类错误控制在设定的显著性水平α内。如果继续设定n为频率方法中在相对差异为δ的情况下达到1-β的检验功效时的样本量,则贝叶斯推断的方法在AB实验时的这个样本量下也能够达到1-β的检验功效,从而提高了分组对照实验的准确性。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
各个产品团队中,经常会面临不同的产品设计方案的选择或者多个算法方案的决策,比如顶部导航栏的排序方案一二三,派单算法一二三等等,以上场景可以通过对不同方案进行AB实验,根据连续观测结果来进行决策。在一些实施例中,AB实验的流程图可以如图8所示,将结合各步骤进行说明。
S701、配置并上线实验。
S701中,数据处理装置读取AB实验的实验配置,并根据实验配置,上线AB实验对应的多个预设实验方案。
S702、定义各组预设指标变量的先验分布。
S702中,数据处理装置在AB实验启动前,预先将每个分组对应的预设指标变量的先验分布定义为正态分布。先验分布的均值与方差可以根据历史数据确定。
S703、获取实验数据。
S703中,数据处理装置启动AB实验,对于每个分组,获取该分组从实验启动时刻到当前时刻的全部实验数据,作为当前样本数据集。
S704、更新后验分布。
S704中,数据处理装置以每个分组内的采样单元为单位,对每个分组对应的当前样本数据集进行聚合处理,得到每个分组对应的当前指标样本集合。数据处理装置对当前指标样本集合进行观测统计处理,得到预设指标变量的当前分布。
数据处理装置基于贝叶斯定理,根据预设指标变量的先验分布与当前分布,更新预设指标变量的后验分布。
S705、计算各组当前获胜概率。
S705中,数据处理装置基于实验组与对照组各自对应的后验分布,计算实验组的指标变量均值优于对照组的当前获胜概率。
S705中计算各组当前获胜概率的过程与S1031中计算实验组优于对照组的当前获胜概率的过程类似,此处不再赘述。
S706、计算各组当前期望损失。
S706中,数据处理装置根据每个分组的后验分布,计算各组当前期望损失的过程与S1031中计算实验组相对于对照组的当前期望损失的过程类似,此处不再赘述。
S707、计算各组损失阈值。
S707中,数据处理装置计算各组损失阈值的方法与S201-S202中的方法类似,此处不再赘述。
S708、判断是否满足停止条件。
S708中,数据处理装置根据各组当前获胜概率、期望损失与损失阈值,判断是否满足AB实验的停止条件。当出现某个实验组的当前获胜概率大于95%,当前期望损失小于该组对应的损失阈值时,确定达到停止条件,执行S709。当不满足停止条件时,跳转至S703继续进行实验。
S709、做出决策并结束实验。
S709中,数据处理装置将满足停止条件的实验组确定为优胜组,进而根据优胜组对应的预设实验方案进行业务决策。
可以理解的是,本申请实施例中,数据处理装置通过贝叶斯推断的方法,为AB实验提供连续观测的能力,从而使得用户可以连续观测实验并随时做出决策,而不会影响结果的准确性,从而提高了AB实验的效率。在一些实施例中,根据真实场景的实验数据,本申请实施例中的方法可以将现有AB实验提前估算的固定样本量降低至30%到50%。并且,数据处理装置能够依据显著性水平与检验功效来动态设置各组损失阈值,避免用户主观性设置,从而提高了AB实验的准确性。
下面继续说明本申请实施例提供的数据处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器450的数据处理装置455中的软件模块可以包括:
获取模块4551,用于在分组对照实验中,对于多个分组中的每个分组,获取所述每个分组从开始时刻至当前时刻累计产生的当前样本数据集,并以采样单元对所述当前样本数据集进行聚合,得到所述每个分组对应的当前指标样本集合;
统计模块4552,用于对所述当前指标样本集合进行观测统计处理,得到预设指标变量的当前分布,并根据所述预设指标变量的预设先验分布与所述当前分布,得到所述预设指标变量的后验分布,所述预设先验分布与所述后验分布同分布;
确定模块4553,用于对于所述多个分组中的实验组,基于所述实验组与对照组各自对应的后验分布,确定所述分组对照实验的连续观测结果;所述连续观测结果用于对所述多个分组对应的多个预设实验方案进行业务决策。
在一些实施例中,预设先验分布、所述当前分布与所述后验分布均服从正态分布,所述预设先验分布包含预设初始均值与预设初始方差;所述当前分布包含当前均值与当前方差;所述统计模块,还用于分别对所述预设初始方差与所述当前分布中的当前方差取倒数,得到先验方差倒数与当前方差倒数,对所述先验方差倒数与所述当前方差倒数进行求和,得到第一求和结果,并对所述第一求和结果取倒数,得到后验方差;对所述先验方差倒数与先验均值的第一乘积,以及所述当前方差倒数与所述当前均值的第二乘积进行求和,得到第二求和结果,将所述第二求和结果与所述后验方差的乘积,作为后验均值;根据所述后验均值与所述后验方差,确定所述后验分布。
在一些实施例中,所述确定模块4553,还用于基于所述实验组与对照组各自对应的后验分布,计算得到所述实验组优于所述对照组的当前获胜概率,以及计算得到所述实验组相对于所述对照组的当前期望损失;确定所述实验组对应的损失阈值;当所述当前获胜概率大于预设概率阈值,且所述当前期望损失小于所述损失阈值时,确定达到实验停止条件,并确定所述连续观测结果为所述实验组的指标均值变量优于所述对照组。
在一些实施例中,所述确定模块4553,还用于根据所述分组对照实验的预设显著性水平,以及所述实验组与所述对照组各自对应的后验分布中的后验方差,确定所述实验组对应的拒绝域区间的至少一个边界值;基于所述至少一个边界值中的第一边界值,计算所述拒绝域区间的单边面积,作为所述损失阈值。
在一些实施例中,所述确定模块4553,还用于从所述实验组与所述对照组各自对应的后验分布中,分别获取第一预设数量个指标变量均值,将所述实验组与所述对照组的第一预设数量个指标变量均值进行对比;统计所述实验组中指标变量均值大于所述每个对照组中指标变量均值的第一样本个数,将所述第一样本个数与所述第一预设数量的比值,作为所述当前获胜概率。
在一些实施例中,所述确定模块4553,还用于根据所述第一边界值,确定所述拒绝域区间中的单边区间;根据所述实验组与所述对照组各自对应的后验分布的后验方差,得到所述单边区间对应的概率密度函数;在所述单边区间对应的参数空间内,计算所述单边区间内的每个点到所述第一边界值的距离与所述单边区间的概率密度函数的积分,得到所述单边面积;将所述单边面积作为所述损失阈值。
在一些实施例中,所述确定模块4553,还用于从所述实验组与所述对照组各自对应的后验分布中,分别获取第二预设数量个指标变量均值,将所述实验组与所述对照组各自的第二预设数量个指标变量均值进行对比;统计每次对比中,所述对照组中的指标变量均值大于所述实验组中的指标变量均值时对应的差值的总和;统计所述对照组中大于所述实验组的指标变量均值的第二样本个数;将所述差值的总和与所述第二样本个数的比值作为所述当前期望损失。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的数据处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图4、6、7、8示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,本申请实施例通过对每个分组的当前样本数据集进行聚合处理,使得每个分组中的多个采样单元对应的预设指标变量的当前取值满足独立同分布,从而可以对聚合得到的当前指标样本集合进行观测,得到预设指标变量的当前分布;通过对每个分组的预设指标变量的先验分布进行初始化,使得可以基于贝叶斯定理,根据预设指标变量的先验分布与当前分布,得到预设指标变量的后验分布,进而可以基于各个分组的预设指标变量的后验分布,确定分组对照实验的连续观测结果,从而在分组对照实验如AB实验中实现了连续观测的能力。这样,可以在实验过程中,随时根据各个分组的预设指标变量的后验分布来对各个分组的实验情况进行评估,确定是否满足实验停止条件,使得分组对照实验可以在满足实验停止条件时被及时结束,并得到连续观测结果来指导业务决策,减少了对固定样本量进行收集与分析处理所耗费的运行成本,提高了分组对照实验的效率。并且,通过本申请实施例中的方法设定的损失阈值ε0,可以使得在进行AA测试时,当样本量达到n时,第一类错误控制在设定的显著性水平α内。如果继续设定n为频率方法中在相对差异为δ的情况下达到1-β的检验功效时的样本量,则贝叶斯推断的方法在AB实验时的这个样本量下也能够达到1-β的检验功效,从而提高了分组对照实验的准确性
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
在分组对照实验中,对于多个分组中的每个分组,获取所述每个分组从开始时刻至当前时刻累计产生的当前样本数据集,并以采样单元对所述当前样本数据集进行聚合,得到所述每个分组对应的当前指标样本集合;
对所述当前指标样本集合进行观测统计处理,得到预设指标变量的当前分布,并根据所述预设指标变量的预设先验分布与所述当前分布,得到所述预设指标变量的后验分布,所述预设先验分布与所述后验分布同分布;
对于所述多个分组中的实验组,基于所述实验组与对照组各自对应的后验分布,确定所述分组对照实验的连续观测结果;所述连续观测结果用于对所述多个分组对应的多个预设实验方案进行业务决策。
2.根据权利要求1所述的方法,其特征在于,预设先验分布、所述当前分布与所述后验分布均服从正态分布,所述预设先验分布包含预设初始均值与预设初始方差;所述当前分布包含当前均值与当前方差;所述根据所述预设指标变量的预设先验分布与所述当前分布,得到所述预设指标变量的后验分布,包括:
分别对所述预设初始方差与所述当前分布中的当前方差取倒数,得到先验方差倒数与当前方差倒数,对所述先验方差倒数与所述当前方差倒数进行求和,得到第一求和结果,并对所述第一求和结果取倒数,得到后验方差;
对所述先验方差倒数与先验均值的第一乘积,以及所述当前方差倒数与所述当前均值的第二乘积进行求和,得到第二求和结果,将所述第二求和结果与所述后验方差的乘积,作为后验均值;
根据所述后验均值与所述后验方差,确定所述后验分布。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述实验组与对照组各自对应的后验分布,确定所述分组对照实验的连续观测结果,包括:
基于所述实验组与对照组各自对应的后验分布,计算得到所述实验组优于所述对照组的当前获胜概率,以及计算得到所述实验组相对于所述对照组的当前期望损失;
确定所述实验组对应的损失阈值;
当所述当前获胜概率大于预设概率阈值,且所述当前期望损失小于所述损失阈值时,确定达到实验停止条件,并确定所述连续观测结果为所述实验组的指标均值变量优于所述对照组。
4.根据权利要求3所述的方法,其特征在于,所述确定所述实验组对应的损失阈值,包括:
根据所述分组对照实验的预设显著性水平,以及所述实验组与所述对照组各自对应的后验分布中的后验方差,确定所述实验组对应的拒绝域区间的至少一个边界值;
基于所述至少一个边界值中的第一边界值,计算所述拒绝域区间的单边面积,作为所述损失阈值。
5.根据权利要求3所述的方法,其特征在于,所述基于所述实验组与对照组各自对应的后验分布,计算得到所述实验组优于所述对照组的当前获胜概率,包括:
从所述实验组与所述对照组各自对应的后验分布中,分别获取第一预设数量个指标变量均值,将所述实验组与所述对照组的第一预设数量个指标变量均值进行对比;
统计所述实验组中指标变量均值大于所述每个对照组中指标变量均值的第一样本个数,将所述第一样本个数与所述第一预设数量的比值,作为所述当前获胜概率。
6.根据权利要求4所述的方法,其特征在于,所述基于所述至少一个边界值中的第一边界值,计算所述拒绝域区间的单边面积,作为所述损失阈值,包括:
根据所述第一边界值,确定所述拒绝域区间中的单边区间;
根据所述实验组与所述对照组各自对应的后验分布的后验方差,得到所述单边区间对应的概率密度函数;
在所述单边区间对应的参数空间内,计算所述单边区间内的每个点到所述第一边界值的距离与所述单边区间的概率密度函数的积分,得到所述单边面积;
将所述单边面积作为所述损失阈值。
7.根据权利要求3所述的方法,其特征在于,所述计算得到所述实验组相对于所述对照组的当前期望损失,包括:
从所述实验组与所述对照组各自对应的后验分布中,分别获取第二预设数量个指标变量均值,将所述实验组与所述对照组各自的第二预设数量个指标变量均值进行对比;
统计每次对比中,所述对照组中的指标变量均值大于所述实验组中的指标变量均值时对应的差值的总和;
统计所述对照组中大于所述实验组的指标变量均值的第二样本个数;
将所述差值的总和与所述第二样本个数的比值作为所述当前期望损失。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于在分组对照实验中,对于多个分组中的每个分组,获取所述每个分组从开始时刻至当前时刻累计产生的当前样本数据集,并以采样单元对所述当前样本数据集进行聚合,得到所述每个分组对应的当前指标样本集合;
统计模块,用于对所述当前指标样本集合进行观测统计处理,得到预设指标变量的当前分布,并根据所述预设指标变量的预设先验分布与所述当前分布,得到所述预设指标变量的后验分布,所述预设先验分布与所述后验分布同分布;
确定模块,用于对于所述多个分组中的实验组,基于所述实验组与对照组各自对应的后验分布,计算得到所述分组对照实验的连续观测结果;所述连续观测结果用于对所述多个分组对应的多个预设实验方案进行业务决策。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110413045.1A CN115221663A (zh) | 2021-04-16 | 2021-04-16 | 数据处理方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110413045.1A CN115221663A (zh) | 2021-04-16 | 2021-04-16 | 数据处理方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115221663A true CN115221663A (zh) | 2022-10-21 |
Family
ID=83604976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110413045.1A Pending CN115221663A (zh) | 2021-04-16 | 2021-04-16 | 数据处理方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115221663A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117172627A (zh) * | 2023-11-03 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 一种业务执行方法、装置、设备及存储介质 |
-
2021
- 2021-04-16 CN CN202110413045.1A patent/CN115221663A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117172627A (zh) * | 2023-11-03 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 一种业务执行方法、装置、设备及存储介质 |
CN117172627B (zh) * | 2023-11-03 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 一种业务执行方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dumitrescu et al. | Machine learning for credit scoring: Improving logistic regression with non-linear decision-tree effects | |
US11436430B2 (en) | Feature information extraction method, apparatus, server cluster, and storage medium | |
Li et al. | Project success prediction in crowdfunding environments | |
Chouchen et al. | WhoReview: A multi-objective search-based approach for code reviewers recommendation in modern code review | |
CN107040397B (zh) | 一种业务参数获取方法及装置 | |
WO2021174944A1 (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
US20150310358A1 (en) | Modeling consumer activity | |
KR102192949B1 (ko) | 인공신경망을 이용한 창업 기업의 분석 방법 및 장치 | |
US11804302B2 (en) | Supervised machine learning-based modeling of sensitivities to potential disruptions | |
Rosenbaum | A new microstructure noise index | |
US10832262B2 (en) | Modeling consumer activity | |
CN111709756A (zh) | 一种可疑社团的识别方法、装置、存储介质和计算机设备 | |
WO2016132588A1 (ja) | データ分析装置、データ分析方法、およびデータ分析プログラム | |
CN109242250A (zh) | 一种基于模糊熵权法与云模型的用户行为可信度检测方法 | |
CN109190028A (zh) | 基于大数据的活动推荐方法、装置、电子设备及存储介质 | |
CN110675069B (zh) | 地产行业客户签约风险预警方法、服务器及存储介质 | |
Schecter et al. | The power, accuracy, and precision of the relational event model | |
WO2022246843A1 (zh) | 软件项目的风险评估方法、装置、计算机设备、存储介质 | |
CN115221663A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN109308660B (zh) | 一种征信评分模型评估方法、装置、设备及存储介质 | |
CN110197316B (zh) | 运营数据的处理方法、装置、计算机可读介质及电子设备 | |
CN111340540A (zh) | 广告推荐模型的监控方法、推荐方法及装置 | |
CN113656692B (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
Isken et al. | Queueing inspired feature engineering to improve and simplify patient flow simulation metamodels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |