CN113297277A - 检验统计量确定方法、装置、可读介质及电子设备 - Google Patents
检验统计量确定方法、装置、可读介质及电子设备 Download PDFInfo
- Publication number
- CN113297277A CN113297277A CN202110679119.6A CN202110679119A CN113297277A CN 113297277 A CN113297277 A CN 113297277A CN 202110679119 A CN202110679119 A CN 202110679119A CN 113297277 A CN113297277 A CN 113297277A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- bucket
- sample
- sum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
Abstract
本公开涉及一种检验统计量确定方法、装置、可读介质及电子设备,以提升检验统计量的查询灵活性,并提升计算性能。所述方法包括:接收针对目标AB测试的查询指令,所述查询指令携带有用于指示目标统计维度的统计维度信息;响应于接收到查询指令,根据统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据;确定所述第一目标分桶数据中每一分桶的第一样本和以及所述第二目标分桶数据中每一分桶的第二样本和;根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量。
Description
技术领域
本公开涉及计算机技术领域,具体地,涉及一种检验统计量确定方法、装置、可读介质及电子设备。
背景技术
AB测试作为一种在真实流量上分组实验的科学方法,其科学性体现在假设检验(例如,均值t检验)的理论基础和对海量数据的统计分析之上。通常情况下,AB测试需要基于收集的分组数据计算检验统计量进而做出统计决策。以均值t检验为例,在计算实验的检验统计量(置信度)时,需要计算分组样本方差,而方差的不可累加性、计算复杂度极大限制了任务的计算性能,导致AB测试中置信度的查询受到约束,如无法提供维度筛选等。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种检验统计量确定方法,所述方法包括:
接收针对目标AB测试的查询指令,所述查询指令携带有用于指示目标统计维度的统计维度信息,所述目标AB测试包括第一实验组和第二实验组;
响应于接收到所述查询指令,根据所述统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据;
确定所述第一目标分桶数据中每一分桶的第一样本和以及所述第二目标分桶数据中每一分桶的第二样本和;
根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量。
第二方面,本公开提供一种检验统计量确定装置,所述装置包括:
接收模块,用于接收针对目标AB测试的查询指令,所述查询指令携带有用于指示目标统计维度的统计维度信息,所述目标AB测试包括第一实验组和第二实验组;
获取模块,用于响应于接收到所述查询指令,根据所述统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据;
第一确定模块,用于确定所述第一目标分桶数据中每一分桶的第一样本和以及所述第二目标分桶数据中每一分桶的第二样本和;
第二确定模块,用于根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
通过上述技术方案,接收针对目标AB测试的查询指令,查询指令携带有用于指示目标统计维度的统计维度信息,之后,响应于接收到该查询指令,根据统计维度信息,从第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从第二实验组对应于指定维度的第二分桶数据中获取第二目标分桶数据,之后,确定第一目标分桶数据中每一分桶的第一样本和以及第二目标分桶数据中每一分桶的第二样本和,并根据第一样本和以及第二样本和,确定目标AB测试对应于目标统计维度的检验统计量。由于在每种指定维度下,已收集到的数据被划分到该维度下不同的分桶中,因此,在接收到查询指令后,能够根据查询指令所指示的目标统计维度,筛选出维度相符合的分桶数据,并用于检验统计量的计算,提升了检验统计量的查询灵活性。同时,基于对数据的分桶操作,数据的导入、计算均以分桶为单位,相比于用户粒度的导入、计算,所处理的数据量级有所降低,有利于提升计算性能。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据本公开的一种实施方式提供的检验统计量确定方法的流程图;
图2是根据本公开提供的检验统计量确定方法中,确定目标AB测试对应于目标统计维度的检验统计量的步骤的一种示例性的流程图;
图3是根据本公开的一种实施方式提供的检验统计量确定装置的框图;
图4示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
如背景技术所述,由于方差的计算复杂度,导致对检验统计量的查询限制。相关技术中,一般通过两种方式解决上述问题。在第一种方式中,在离线侧计算出所有可能出现的维度组合对应的方差、均值,并导入查询引擎以供计算。在第二种方式中,将AB测试中收集到的所有明细数据直接导入查询引擎,查询时根据需要的维度组合实时聚合并产生计算结果。在第一种方式中,将计算压力转移到离线侧,离线计算的开销和维度组合的数量成正比,计算量大且灵活性较差。在第二种方式中,计算压力落在查询引擎一侧,虽然可以支持灵活的维度组合、维度筛选,但需要离线将数据细化拆分到具体的测试和用户再导入引擎,在数据量大的场景下易导致引擎压力过大。
为了解决上述技术问题,本公开提供一种检验统计量确定方法、装置、可读介质及电子设备,以提升检验统计量的查询灵活性,并提升计算性能。
图1是根据本公开的一种实施方式提供的检验统计量确定方法的流程图。示例地,本公开提供的方法可以应用于查询引擎中,如OLAP引擎。如图1所示,本公开提供的方法可以包括以下步骤11~步骤14。
在步骤11中,接收针对目标AB测试的查询指令。
目标AB测试包括第一实验组和第二实验组。基于AB测试本身的需求,第一实验组中的实验对象数量(例如,用户数量)与第二实验组中实验对象的数量相同,从而,两个实验组在实验过程中所产生的样本数量也是相同的。一般来说,在目标AB测试中,对第一实验组内的成员使用一种方案,对第二实验组内的成员使用另一种方案,并收集各实验组的用户体验数据、业务数据等,再利用显著性检验分析、评估出两种方案中较好的一者。
查询指令可以携带有用于指示目标统计维度的统计维度信息。目标统计维度可以是一种维度,也可以是多种维度的组合。其中,根据AB测试的实验目标,可以根据实际需求构建维度。示例地,上述维度可以包括但不限于时间、地域、查询对象属性中的至少一者。
举例来说,若目标AB测试用于对内容投放策略进行比较,则目标统计维度可以包括时间、用户属性、交互行为、投放位置、行业中的至少一者。其中,交互行为可以例如包括拨打电话、提交表单、地图搜索、完成下载、浏览指定页面、触发指定按钮等。行业可以例如包括一级行业、二级行业等。
在供用户操作的查询页面上可以显示关于各维度的选项,用户可以选择这些维度中的一者或几者,当用户确认选择,生成查询指令,且查询指令携带用于指示目标统计维度(即,用户所选择的维度)的统计维度信息,之后,查询指令被传输至查询引擎,相应地,查询引擎接收到该查询指令。
在步骤12中,响应于接收到查询指令,根据统计维度信息,从第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从第二实验组对应于指定维度的第二分桶数据中获取第二目标分桶数据。
在接收到查询指令之后,响应于该查询指令,将获取第一目标分桶数据和第二目标分桶数据。
其中,为了后续检验统计量的计算,对应于同一指定维度的第一分桶数据的分桶数量与第二分桶数据的分桶数量相同,且第一分桶数据中对应于每个分桶的样本量与第二分桶数据中对应于每个分桶的样本量相同。
示例地,第一分桶数据可以通过如下方式获得:
获取第一实验组对应的第一样本数据;
针对每一指定维度,将第一样本数据均匀划分到指定数量的分桶中,以生成第一分桶数据。
第一样本数据是实验过程中针对第一实验组中每一实验对象(例如,用户)收集到的数据,也就是对应到各个实验对象的明细数据,其中,可以通过实验对象ID区分不同的实验对象。
为了后续计算复杂度的降低,基于收集到的第一样本数据,需要对第一样本数据进行分桶处理,也就是将第一样本数据均匀地分到多个分桶中,并且,需要针对每一种指定维度分别进行分桶处理。同时,每一种指定维度设置有该维度下的分桶数量,即指定数量,基于此,针对每一指定维度,可以执行如下操作:
将第一样本数据均匀划分到指定数量的分桶中,以生成该指定维度对应的第一分桶数据。
示例地,若设置了两种维度,分别为维度A和维度B,且各维度对应的分桶数量均为100,且第一样本数据共有5000个用户的数据,假设此时针对每个用户收集到了1条数据,分桶处理过程中:
针对A维度,将这5000个用户均匀划分到维度A对应的100个分桶中,相当于将5000条数据均匀划分到对应于A维度的100个分桶中,最终A维度的每个分桶中包含50个用户的数据,即50条数据;
针对B维度,将这5000个用户均匀划分到维度B对应的100个分桶中,相当于将5000条数据均匀划分到对应于B维度的100个分桶中,最终B维度的每个分桶中包含50个用户的数据,即50条数据。
示例地,第二分桶数据可以通过如下方式获得:
获取第二实验组对应的第二样本数据;
针对每一指定维度,将第二样本数据均匀划分到指定数量的分桶中,以生成第二分桶数据。
第二样本数据是实验过程中针对第二实验组中每一实验对象(例如,用户)收集到的数据,也就是对应到各个实验对象的明细数据,其中,可以通过实验对象ID区分不同的实验对象。
为了后续计算复杂度的降低,基于收集到的第二样本数据,需要对第二样本数据进行分桶处理,也就是将第二样本数据均匀地分到多个分桶中,并且,需要针对每一种指定维度分别进行分桶处理。同时,每一种指定维度设置有该维度下的分桶数量,即指定数量,基于此,针对每一指定维度,可以执行如下操作:
将第二样本数据均匀划分到指定数量的分桶中,以生成该指定维度对应的第二分桶数据。
示例地,若设置了两种维度,分别为维度C和维度D,且各维度对应的分桶数量均为100,且第一样本数据共有5000个用户的数据,假设此时针对每个用户收集到了1条数据,分桶处理过程中:
针对C维度,将这5000个用户均匀划分到维度C对应的100个分桶中,相当于将5000条数据均匀划分到对应于C维度的100个分桶中,最终C维度的每个分桶中包含50个用户的数据,即50条数据;
针对D维度,将这5000个用户均匀划分到维度D对应的100个分桶中,相当于将5000条数据均匀划分到对应于D维度的100个分桶中,最终D维度的每个分桶中包含50个用户的数据,即50条数据。
需要说明的是,为了保证后续的计算性能,需要均匀分流和均匀分桶,例如,共有10000个用户,均匀分流是为了保证第一实验组和第二实验组中各有5000个实验对象,均匀分桶是为了保证每个分桶里均匀分到了50个实验对象(假设桶数为100)。示例地,可以通过哈希散列算法(例如,murmur3)实现均匀划分。并且,上述分桶处理可以在离线侧(或,用户侧)完成,并由离线侧定期导入查询引擎(例如,每小时导入),这样,查询引擎无需进行分桶处理,能够有效减轻查询引擎的数据处理压力,同时,由于离线侧向查询引擎导入的是分桶数据,相比于逐个实验对象的数据导入,数据量降低,有利于提升查询引擎的查询性能。
在一种可能的实施方式中,步骤12可以包括以下步骤:
从第一分桶数据中筛选出符合目标统计维度的分桶数据,作为第一目标分桶数据;
从第二分桶数据中筛选出符合目标统计维度的分桶数据,作为第二目标分桶数据。
由于第一分桶数据对应有维度,因此,基于目标同一维度,能够快速从第一分桶数据和第二分桶数据中筛选出符合条件的第一目标分桶数据和第二目标分桶数据。
在步骤13中,确定第一目标分桶数据中每一分桶的第一样本和以及第二目标分桶数据中每一分桶的第二样本和。
对第一目标分桶数据求和,可以获得第一样本和。对第二目标分桶数据求和,可以获得第二样本和。
在步骤14中,根据第一样本和以及第二样本和,确定目标AB测试对应于目标统计维度的检验统计量。
下面首先对检验统计量的计算进行简单说明。
在均值t检验中,一般通过如下公式计算检验统计量:
AB测试的样本基于分流服务来划分出样本量相同的两个(或多个)实验组,例如,若产品的日活跃用户数量为10000,则开AB组实验后,分流后每组会获得5000个用户用于实验。以应用程序界面的广告投放为例,分流服务在用户侧进行,广告是在分流之后投放的,用户打开应用程序的瞬间便会由分流服务确定进哪一实验组。同时,均值t检验需要用到用户侧分流时对应的样本量即用户数量计算均值,但用户数通常无法直接获取,并且在一些实验场景中还设置有一些不进行广告投放的策略,使得即便能够获得用户数也无法保证其准确性。因此,基于AB测试两组样本分流时可以确保相等这一特性,在n1、n2无法直接获取、但有n1=n2=n的前提条件下,将n约掉,把均值t检验变换为用求和推导的形式。基于上述思路,对检验统计量的计算公式进行变换,过程如下:
基于上述思路,步骤14可以包括以下步骤,如图2所示。
在步骤21中,根据第一目标分桶数据中各分桶的第一样本和,确定第一目标分桶数据的第一数据偏差值。
在步骤22中,根据第二目标分桶数据中各分桶的第二样本和,确定第二目标分桶数据的第二数据偏差值。
在分桶和分流均匀的前提下,可以将总体方差的计算转换为分桶方差,这样,若需求解样本和的数据偏差,可以视为将总体数据打散到m个分桶里,这样,对这m个桶各自的样本和计算样本方差,再乘以分桶数量m即可。基于这一思路,容易获得第一数据偏差值和第二数据偏差值。
示例地,步骤21可以包括以下步骤:
计算第一样本和的样本方差;
将第一样本和的样本方差与第一目标分桶数据中分桶数量的乘积作为第一数据偏差值。
举例来说,若共有5个分桶,且这5个分桶对应的第一样本和分别为k1、k2、k3、k4、k5,那么,可以根据k1~k5求出这5个数据的样本方差,并将求得的样本方差与分桶数量5相乘,即可获得第一数据偏差值。
示例地,步骤22可以包括以下步骤:
计算第二样本和的样本方差;
将第二样本和的样本方差与第二目标分桶数据中分桶数量的乘积作为第二数据偏差值。
举例来说,若共有5个分桶,且这5个分桶对应的第二样本和分别为z1、z2、z3、z4、z5,那么,可以根据z1~z5求出这5个数据的样本方差,并将求得的样本方差与分桶数量5相乘,即可获得第二数据偏差值。
在步骤23中,根据第一样本和、第二样本和、第一数据偏差值以及第二数据偏差值,确定检验统计量。
示例地,可以按照如下公式确定检验统计量t’:
其中,sum(x1)为第一样本和的总和,sum(x2)为第二样本和的总和,Var(sum(x1))为第一数据偏差值,Var(sum(x2))为第二数据偏差值。
通过上述技术方案,接收针对目标AB测试的查询指令,查询指令携带有用于指示目标统计维度的统计维度信息,之后,响应于接收到该查询指令,根据统计维度信息,从第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从第二实验组对应于指定维度的第二分桶数据中获取第二目标分桶数据,之后,确定第一目标分桶数据中每一分桶的第一样本和以及第二目标分桶数据中每一分桶的第二样本和,并根据第一样本和以及第二样本和,确定目标AB测试对应于目标统计维度的检验统计量。由于在每种指定维度下,已收集到的数据被划分到该维度下不同的分桶中,因此,在接收到查询指令后,能够根据查询指令所指示的目标统计维度,筛选出维度相符合的分桶数据,并用于检验统计量的计算,提升了检验统计量的查询灵活性。同时,基于对数据的分桶操作,数据的导入、计算均以分桶为单位,相比于用户粒度的导入、计算,所处理的数据量级有所降低,有利于提升计算性能。
图3是根据本公开的一种实施方式提供的检验统计量确定装置的框图。如图3所示,该装置30包括:
接收模块31,用于接收针对目标AB测试的查询指令,所述查询指令携带有用于指示目标统计维度的统计维度信息,所述目标AB测试包括第一实验组和第二实验组;
获取模块32,用于响应于接收到所述查询指令,根据所述统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据;
第一确定模块33,用于确定所述第一目标分桶数据中每一分桶的第一样本和以及所述第二目标分桶数据中每一分桶的第二样本和;
第二确定模块34,用于根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量。
可选地,所述获取模块32,包括:
第一筛选子模块,用于从所述第一分桶数据中筛选出符合所述目标统计维度的分桶数据,作为所述第一目标分桶数据;
第二筛选子模块,用于从所述第二分桶数据中筛选出符合所述目标统计维度的分桶数据,作为所述第二目标分桶数据。
可选地,通过如下模块获得所述第一分桶数据:
第一获取子模块,用于获取所述第一实验组对应的第一样本数据;
第一生成子模块,用于针对每一所述指定维度,将所述第一样本数据均匀划分到指定数量的分桶中,以生成所述第一分桶数据;
通过如下模块获得所述第二分桶数据:
第二获取子模块,用于获取所述第二实验组对应的第二样本数据;
第二生成子模块,用于针对每一所述指定维度,将所述第二样本数据均匀划分到指定数量的分桶中,以生成所述第二分桶数据。
可选地,所述第二确定模块34,包括:
第一确定子模块,用于根据所述第一目标分桶数据中各分桶的第一样本和,确定所述第一目标分桶数据的第一数据偏差值;
第二确定子模块,用于根据所述第二目标分桶数据中各分桶的第二样本和,确定所述第二目标分桶数据的第二数据偏差值;
第三确定子模块,用于根据所述第一样本和、所述第二样本和、所述第一数据偏差值以及所述第二数据偏差值,确定所述检验统计量。
可选地,所述第一确定子模块,包括:
第一计算子模块,用于计算所述第一样本和的样本方差;
所述第一确定子模块用于将所述第一样本和的样本方差与所述第一目标分桶数据中分桶数量的乘积作为所述第一数据偏差值;
所述第二确定子模块,包括:
第二计算子模块,用于计算所述第二样本和的样本方差;
所述第二确定子模块用于将所述第二样本和的样本方差与所述第二目标分桶数据中分桶数量的乘积作为所述第二数据偏差值。
可选地,所述第三确定子模块用于按照如下公式确定所述检验统计量t’:
其中,sum(x1)为所述第一样本和的总和,sum(x2)为所述第二样本和的总和,Var(sum(x1))为所述第一数据偏差值,Var(sum(x2))为所述第二数据偏差值。
可选地,所述目标AB测试用于对内容投放策略进行比较,并且,所述目标统计维度包括时间、用户属性、交互行为、投放位置、行业中的至少一者。
可选地,对应于同一指定维度的第一分桶数据的分桶数量与第二分桶数据的分桶数量相同,且第一分桶数据中对应于每个分桶的样本量与第二分桶数据中对应于每个分桶的样本量相同。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
下面参考图4,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收针对目标AB测试的查询指令,所述查询指令携带有用于指示目标统计维度的统计维度信息,所述目标AB测试包括第一实验组和第二实验组;响应于接收到所述查询指令,根据所述统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据;确定所述第一目标分桶数据中每一分桶的第一样本和以及所述第二目标分桶数据中每一分桶的第二样本和;根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,接收模块还可以被描述为“接收针对目标AB测试的查询指令的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,提供了一种检验统计量确定方法,所述方法包括:
接收针对目标AB测试的查询指令,所述查询指令携带有用于指示目标统计维度的统计维度信息,所述目标AB测试包括第一实验组和第二实验组;
响应于接收到所述查询指令,根据所述统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据;
确定所述第一目标分桶数据中每一分桶的第一样本和以及所述第二目标分桶数据中每一分桶的第二样本和;
根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量。
根据本公开的一个或多个实施例,提供了一种检验统计量确定方法,所述根据所述统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据,包括:
从所述第一分桶数据中筛选出符合所述目标统计维度的分桶数据,作为所述第一目标分桶数据;
从所述第二分桶数据中筛选出符合所述目标统计维度的分桶数据,作为所述第二目标分桶数据。
根据本公开的一个或多个实施例,提供了一种检验统计量确定方法,所述第一分桶数据通过如下方式获得:
获取所述第一实验组对应的第一样本数据;
针对每一所述指定维度,将所述第一样本数据均匀划分到指定数量的分桶中,以生成所述第一分桶数据;
所述第二分桶数据通过如下方式获得:
获取所述第二实验组对应的第二样本数据;
针对每一所述指定维度,将所述第二样本数据均匀划分到指定数量的分桶中,以生成所述第二分桶数据。
根据本公开的一个或多个实施例,提供了一种检验统计量确定方法,所述根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量,包括:
根据所述第一目标分桶数据中各分桶的第一样本和,确定所述第一目标分桶数据的第一数据偏差值;
根据所述第二目标分桶数据中各分桶的第二样本和,确定所述第二目标分桶数据的第二数据偏差值;
根据所述第一样本和、所述第二样本和、所述第一数据偏差值以及所述第二数据偏差值,确定所述检验统计量。
根据本公开的一个或多个实施例,提供了一种检验统计量确定方法,所述根据所述第一目标分桶数据中各分桶的第一样本和,确定所述第一目标分桶数据的第一数据偏差值,包括:
计算所述第一样本和的样本方差;
将所述第一样本和的样本方差与所述第一目标分桶数据中分桶数量的乘积作为所述第一数据偏差值;
所述根据所述第二目标分桶数据中各分桶的第二样本和,确定所述第二目标分桶数据的第二数据偏差值,包括:
计算所述第二样本和的样本方差;
将所述第二样本和的样本方差与所述第二目标分桶数据中分桶数量的乘积作为所述第二数据偏差值。
根据本公开的一个或多个实施例,提供了一种检验统计量确定方法,所述根据所述第一样本和、所述第二样本和、所述第一数据偏差值以及所述第二数据偏差值,确定所述检验统计量,包括:
按照如下公式确定所述检验统计量t’:
其中,sum(x1)为所述第一样本和的总和,sum(x2)为所述第二样本和的总和,Var(sum(x1))为所述第一数据偏差值,Var(sum(x2))为所述第二数据偏差值。
根据本公开的一个或多个实施例,提供了一种检验统计量确定方法,所述目标AB测试用于对内容投放策略进行比较,并且,所述目标统计维度包括时间、用户属性、交互行为、投放位置、行业中的至少一者。
根据本公开的一个或多个实施例,提供了一种检验统计量确定方法,对应于同一指定维度的第一分桶数据的分桶数量与第二分桶数据的分桶数量相同,且第一分桶数据中对应于每个分桶的样本量与第二分桶数据中对应于每个分桶的样本量相同。
根据本公开的一个或多个实施例,提供了一种检验统计量确定装置,所述装置包括:
接收模块,用于接收针对目标AB测试的查询指令,所述查询指令携带有用于指示目标统计维度的统计维度信息,所述目标AB测试包括第一实验组和第二实验组;
获取模块,用于响应于接收到所述查询指令,根据所述统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据;
第一确定模块,用于确定所述第一目标分桶数据中每一分桶的第一样本和以及所述第二目标分桶数据中每一分桶的第二样本和;
第二确定模块,用于根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量。
根据本公开的一个或多个实施例,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开任意实施例所述的检验统计量确定方法的步骤。
根据本公开的一个或多个实施例,提供了一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开任意实施例所述的检验统计量确定方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
Claims (11)
1.一种检验统计量确定方法,其特征在于,所述方法包括:
接收针对目标AB测试的查询指令,所述查询指令携带有用于指示目标统计维度的统计维度信息,所述目标AB测试包括第一实验组和第二实验组;
响应于接收到所述查询指令,根据所述统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据;
确定所述第一目标分桶数据中每一分桶的第一样本和以及所述第二目标分桶数据中每一分桶的第二样本和;
根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据,包括:
从所述第一分桶数据中筛选出符合所述目标统计维度的分桶数据,作为所述第一目标分桶数据;
从所述第二分桶数据中筛选出符合所述目标统计维度的分桶数据,作为所述第二目标分桶数据。
3.根据权利要求1所述的方法,其特征在于,
所述第一分桶数据通过如下方式获得:
获取所述第一实验组对应的第一样本数据;
针对每一所述指定维度,将所述第一样本数据均匀划分到指定数量的分桶中,以生成所述第一分桶数据;
所述第二分桶数据通过如下方式获得:
获取所述第二实验组对应的第二样本数据;
针对每一所述指定维度,将所述第二样本数据均匀划分到指定数量的分桶中,以生成所述第二分桶数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量,包括:
根据所述第一目标分桶数据中各分桶的第一样本和,确定所述第一目标分桶数据的第一数据偏差值;
根据所述第二目标分桶数据中各分桶的第二样本和,确定所述第二目标分桶数据的第二数据偏差值;
根据所述第一样本和、所述第二样本和、所述第一数据偏差值以及所述第二数据偏差值,确定所述检验统计量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一目标分桶数据中各分桶的第一样本和,确定所述第一目标分桶数据的第一数据偏差值,包括:
计算所述第一样本和的样本方差;
将所述第一样本和的样本方差与所述第一目标分桶数据中分桶数量的乘积作为所述第一数据偏差值;
所述根据所述第二目标分桶数据中各分桶的第二样本和,确定所述第二目标分桶数据的第二数据偏差值,包括:
计算所述第二样本和的样本方差;
将所述第二样本和的样本方差与所述第二目标分桶数据中分桶数量的乘积作为所述第二数据偏差值。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述目标AB测试用于对内容投放策略进行比较,并且,所述目标统计维度包括时间、用户属性、交互行为、投放位置、行业中的至少一者。
8.根据权利要求1-6中任一项所述的方法,其特征在于,对应于同一指定维度的第一分桶数据的分桶数量与第二分桶数据的分桶数量相同,且第一分桶数据中对应于每个分桶的样本量与第二分桶数据中对应于每个分桶的样本量相同。
9.一种检验统计量确定装置,其特征在于,所述装置包括:
接收模块,用于接收针对目标AB测试的查询指令,所述查询指令携带有用于指示目标统计维度的统计维度信息,所述目标AB测试包括第一实验组和第二实验组;
获取模块,用于响应于接收到所述查询指令,根据所述统计维度信息,从所述第一实验组对应于至少一个指定维度的第一分桶数据中获取第一目标分桶数据,并从所述第二实验组对应于所述指定维度的第二分桶数据中获取第二目标分桶数据;
第一确定模块,用于确定所述第一目标分桶数据中每一分桶的第一样本和以及所述第二目标分桶数据中每一分桶的第二样本和;
第二确定模块,用于根据所述第一样本和以及所述第二样本和,确定所述目标AB测试对应于所述目标统计维度的检验统计量。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110679119.6A CN113297277A (zh) | 2021-06-18 | 2021-06-18 | 检验统计量确定方法、装置、可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110679119.6A CN113297277A (zh) | 2021-06-18 | 2021-06-18 | 检验统计量确定方法、装置、可读介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113297277A true CN113297277A (zh) | 2021-08-24 |
Family
ID=77328759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110679119.6A Pending CN113297277A (zh) | 2021-06-18 | 2021-06-18 | 检验统计量确定方法、装置、可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297277A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116627789A (zh) * | 2023-07-19 | 2023-08-22 | 支付宝(杭州)信息技术有限公司 | 模型检测方法及装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415845A (zh) * | 2018-03-28 | 2018-08-17 | 北京达佳互联信息技术有限公司 | Ab测试系统指标置信区间的计算方法、装置和服务器 |
CN110750436A (zh) * | 2018-07-23 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 分层测试方法、装置、计算机可读介质及电子设备 |
CN111597237A (zh) * | 2020-05-22 | 2020-08-28 | 北京学之途网络科技有限公司 | 数据查询结果的生成方法及装置、电子设备、存储介质 |
CN111966677A (zh) * | 2020-06-28 | 2020-11-20 | 北京百度网讯科技有限公司 | 数据报表的处理方法、装置、电子设备及存储介质 |
CN112256719A (zh) * | 2020-10-20 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 实体查询方法、装置、可读介质与电子设备 |
CN112749202A (zh) * | 2019-10-30 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种信息操作策略确定方法、装置、设备及存储介质 |
-
2021
- 2021-06-18 CN CN202110679119.6A patent/CN113297277A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415845A (zh) * | 2018-03-28 | 2018-08-17 | 北京达佳互联信息技术有限公司 | Ab测试系统指标置信区间的计算方法、装置和服务器 |
CN110750436A (zh) * | 2018-07-23 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 分层测试方法、装置、计算机可读介质及电子设备 |
CN112749202A (zh) * | 2019-10-30 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种信息操作策略确定方法、装置、设备及存储介质 |
CN111597237A (zh) * | 2020-05-22 | 2020-08-28 | 北京学之途网络科技有限公司 | 数据查询结果的生成方法及装置、电子设备、存储介质 |
CN111966677A (zh) * | 2020-06-28 | 2020-11-20 | 北京百度网讯科技有限公司 | 数据报表的处理方法、装置、电子设备及存储介质 |
CN112256719A (zh) * | 2020-10-20 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 实体查询方法、装置、可读介质与电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116627789A (zh) * | 2023-07-19 | 2023-08-22 | 支付宝(杭州)信息技术有限公司 | 模型检测方法及装置、电子设备及存储介质 |
CN116627789B (zh) * | 2023-07-19 | 2023-11-03 | 支付宝(杭州)信息技术有限公司 | 模型检测方法及装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634047B (zh) | 一种推荐房源的方法、装置、电子设备及存储介质 | |
CN110516159B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN111163324B (zh) | 信息处理方法、装置和电子设备 | |
CN112379982B (zh) | 任务处理方法、装置、电子设备及计算机可读存储介质 | |
CN112650790A (zh) | 目标点云平面确定方法,装置,电子设备及存储介质 | |
CN111596991A (zh) | 交互操作执行方法、装置和电子设备 | |
CN113297277A (zh) | 检验统计量确定方法、装置、可读介质及电子设备 | |
CN111596992B (zh) | 导航栏展示方法、装置和电子设备 | |
CN113298573A (zh) | 内容投放策略比较方法、装置、可读介质及电子设备 | |
CN111262907B (zh) | 服务实例访问方法、装置和电子设备 | |
CN111798251A (zh) | 房源数据的验证方法、装置和电子设备 | |
CN110633411A (zh) | 一种筛选房源的方法、装置、电子设备及存储介质 | |
CN112100211B (zh) | 数据存储方法、装置、电子设备和计算机可读介质 | |
CN115272760A (zh) | 适用于森林火灾烟雾检测的小样本烟雾图像细分类方法 | |
CN110457106B (zh) | 一种信息展示方法、装置、设备及存储介质 | |
CN109522133B (zh) | 一种数据拼接方法、装置、电子设备及存储介质 | |
CN112100159A (zh) | 数据处理方法、装置、电子设备和计算机可读介质 | |
CN113518183A (zh) | 摄像头调用方法、装置和电子设备 | |
CN113240108A (zh) | 模型训练方法、装置和电子设备 | |
CN111538717A (zh) | 数据处理的方法、装置、电子设备及计算机可读介质 | |
CN113760178A (zh) | 缓存数据处理方法、装置、电子设备和计算机可读介质 | |
CN112115154A (zh) | 数据处理和数据查询方法、装置、设备和计算机可读介质 | |
CN110633115A (zh) | 一种任务分发方法、装置、电子设备及存储介质 | |
CN111507734B (zh) | 作弊请求识别方法、装置、电子设备及计算机存储介质 | |
CN111625707B (zh) | 推荐应答方法、装置、介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |