CN117370215B

CN117370215B - 寻优抽样方法、装置、电子设备及存储介质

Info

Publication number: CN117370215B
Application number: CN202311649300.8A
Authority: CN
Inventors: 孙玉坤; 李大海
Original assignee: Zhizhe Sihai Beijing Technology Co Ltd
Current assignee: Zhizhe Sihai Beijing Technology Co Ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-02-09
Anticipated expiration: 2043-12-05
Also published as: CN117370215A

Abstract

本申请实施例提出一种寻优抽样方法、装置、电子设备及存储介质，属于数据处理领域，方法中，通过对样本集合进行随机抽样，并进行指标波动分析，得到各指标的波动逆权重。结合重要性系数和各指标的波动逆权重，评估样本集合中各级指标组的指标波动情况，确定最优的重要性系数作为重要性权重，实现权重寻优，并依据权重寻优结果，从样本集合中获取最优的试验样本组合对。如此，实现AB试验组的波动逆权重和重要性系数的寻优，进而以权重寻优结果作为评估参数获取最优的试验样本组合对，能够使AB试验组间的多个指标的差异尽可能小。同时，考虑了AB试验组的各指标在目标业务中的重要程度差异，极大地提高了AB试验组的均匀性。

Description

寻优抽样方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理领域，具体而言，涉及一种寻优抽样方法、装置、电子设备及存储介质。

背景技术

AB测试（A/B Testing），又称为AB实验和对照试验，广泛应用于互联网产品、设计、搜索、推荐系统、广告系统、数据分析、数字化运营和智能营销等领域，也广泛应用于自然科学、心理学、经济学和生物医药等领域，是数据驱动和开展科学研究的重要手段。在AB实验中，会抽取两组流量A和B，流量组A保持线上效果不变，流量组B上新策略，对AB两组流量观察指标，得到新策略的影响效果。

在流量抽样得到AB两组流量时，通常要求两组流量均匀平等，多个指标差异值尽量少，以保证后续试验结果的精确性。目前，通常采用分层抽样和平衡抽样的方式来获取AB试验的流量组。然而，在需要考虑多个指标时，这两种方法抽取的流量组的均匀性和综合考量性较差。

发明内容

有鉴于此，本申请的目的在于提供一种寻优抽样方法、装置、电子设备及存储介质，其能够使AB试验组间的多个指标的差异尽可能小，同时考虑AB试验组的各指标在目标业务中的重要程度差异，极大地提高AB试验组的均匀性。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种寻优抽样方法，所述方法包括：

对样本集合进行第一预设次数的随机抽样，得到第一预设数量的第一样本组合对；其中，每个所述第一样本组合对包括两个样本组，且所述两个样本组在所述样本集合中的占比相等；

计算每个所述第一样本组合对中两个样本组间的各指标的相对差值，并根据所有所述第一样本组合对的所述相对差值，进行指标波动分析，得到各指标的波动逆权重；

针对预设的每个重要性系数，结合所述重要性系数和各指标的所述波动逆权重，评估所述样本集合中各级指标组的指标波动情况，得到各级所述指标组的波动得分；其中，所述指标组的级别与目标业务的关注程度相关；

综合各所述重要性系数对应的各级指标组的波动得分，进行最优分析，得到最优的重要性系数作为重要性权重；

以所述重要性权重和各指标的所述波动逆权重作为评估参数，从所述样本集合中获取最优的试验样本组合对。

在一种可能的实施方式中，所述结合所述重要性系数和各指标的所述波动逆权重，评估所述样本集合中各级所述指标组的指标波动情况，得到各级所述指标组的波动得分的步骤，包括：

对所述样本集合进行第二预设次数的随机抽样，得到第二预设数量的第二样本组合对，并基于所述重要性系数和各指标的所述波动逆权重，计算出每个所述第二样本组合对的指标均匀值；

从所有所述第二样本组合对中，选取所述指标均匀值最小的第二样本组合对，作为一个候选样本组合对；

基于各指标的所述波动逆权重，对所述候选样本组合对的各级所述指标组的指标波动性进行分析，得到各级所述指标组的波动得分；

判断当前的候选样本组合对的数量是否达到目标值，若否，则返回执行所述对所述样本集合进行第二预设次数的随机抽样，得到第二预设数量的第二样本组合对的步骤，直至当前的候选样本组合对的数量达到目标值。

在一种可能的实施方式中，所述基于所述重要性系数和各指标的所述波动逆权重，计算出每个所述第二样本组合对的指标均匀值的步骤，包括：

针对每个所述第二样本组合对，确定所述第二样本组合对中两个样本组的指标值，并根据所述指标值，计算所述两个样本组的每个指标的相对差值；

根据各指标的所述相对差值、所述波动逆权重和重要性系数，计算出第二样本组合对的指标均匀值。

在一种可能的实施方式中，所述根据各指标的所述相对差值、所述波动逆权重和重要性系数，计算出第二样本组合对的指标均匀值的步骤，包括：

采用均匀性评估模型，对第二样本组合对的各指标的所述相对差值、所述波动逆权重和重要性系数，进行评估计算，得到指标均匀值；

所述均匀性评估模型包括：

其中，表征指标均匀值，/>表征指标的数量，/>表征第n个指标的波动逆权重，/>表征重要性系数，/>表征两个样本组的第n个指标的相对差值。

在一种可能的实施方式中，所述基于各指标的所述波动逆权重，对所述候选样本组合对的各级所述指标组的指标波动性进行分析，得到各级所述指标组的波动得分的步骤，包括：

针对每个指标，计算所述候选样本组合对的两个样本组的所述指标的相对差值；

针对每级所述指标组，采用波动性评估模型，依据所述指标组中每个指标的相对差值和所述波动逆权重，进行评估计算，得到所述指标组的波动得分；

所述波动性评估模型包括：

其中，表征波动得分，/>表征指标组中指标的数量，/>表征指标组中第n个指标的波动逆权重，/>表征指标组中第n个指标的相对差值。

在一种可能的实施方式中，所述根据所有所述第一样本组合对的所述相对差值，进行指标波动分析，得到各指标的波动逆权重的步骤，包括：

针对每个所述指标，对所有所述第一样本组合对的所述指标的相对差值进行曲线拟合，得到所述指标的波动曲线；

针对每个所述指标，从所述指标的波动曲线中，统计出相对差值的波动范围值，将所述波动范围值的倒数作为所述指标的波动逆权重。

在一种可能的实施方式中，所述综合各所述重要性系数对应的各级指标组的波动得分，进行最优分析，得到最优的重要性系数作为重要性权重的步骤，包括：

针对每个所述重要性系数，计算所述重要性系数对应的每级所述指标组的波动得分的波动均值，并对各级所述指标组的波动均值加权求和，得到所述重要性系数的综合波动分；

从所有所述重要性系数中，选择所述综合波动分最小的重要性系数，得到重要性权重。

在一种可能的实施方式中，所述以所述重要性权重和各指标的所述波动逆权重作为评估参数，从所述样本集合中获取最优的试验样本组合对的步骤，包括：

对所述样本集合进行第三预设次数的随机抽样，得到第三预设数量的第三样本组合对；其中，所述第三样本组合对包括两个样本组，且所述两个样本组在所述样本集合中的占比相等；

基于所述重要性系数和各指标的所述波动逆权重，对每个所述第三样本组合对进行均匀性分析，选取均匀性最优的第三样本组合对作为试验样本组合对。

在一种可能的实施方式中，所述基于所述重要性系数和各指标的所述波动逆权重，对每个所述第三样本组合对进行均匀性分析，选取均匀性最优的第三样本组合对作为试验样本组合对的步骤，包括：

针对每个所述第三样本组合对，计算所述第三样本组合对中两个样本组的各指标的相对差值；

采用均匀性评估模型，结合所述重要性权重和各指标的所述相对差值和所述波动逆权重，对所述第三样本组合对进行均匀性分析，得到指标均匀值；

从所有所述第三样本组合对中，选择所述指标均匀值最小的第三样本组合对，作为试验样本组合对。

在一种可能的实施方式中，在所述对样本集合进行第一预设次数的随机抽样，得到第一预设数量的第一样本组合对的步骤之前，所述方法还包括：

确定样本集合与目标业务相关的所有指标，并依据所述目标业务的关注程度，将所述所有指标划分为多级指标组。

第二方面，本申请实施例提供一种寻优抽样装置，包括抽样模块、波动分析模块、波动评估模块、权重寻优模块和试验寻优模块；

所述抽样模块，用于对样本集合进行第一预设次数的随机抽样，得到第一预设数量的第一样本组合对；其中，每个所述第一样本组合对包括两个样本组，且所述两个样本组在所述样本集合中的占比相等；

所述波动分析模块，用于计算每个所述第一样本组合对中两个样本组间的各指标的相对差值，并根据所有所述第一样本组合对的所述相对差值，进行指标波动分析，得到各指标的波动逆权重；

所述波动评估模块，用于针对预设的每个重要性系数，结合所述重要性系数和各指标的所述波动逆权重，评估所述样本集合中各级指标组的指标波动情况，得到各级所述指标组的波动得分；其中，所述指标组的级别与目标业务的关注程度相关；

所述权重寻优模块，用于综合各所述重要性系数对应的各级指标组的波动得分，进行最优分析，得到最优的重要性系数作为重要性权重；

所述试验寻优模块，用于以所述重要性权重和各指标的所述波动逆权重作为评估参数，从所述样本集合中获取最优的试验样本组合对。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现如第一方面中任一种可能的实施方式所述的寻优抽样方法。

第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一种可能的实施方式所述的寻优抽样方法。

本申请实施例提供的寻优抽样方法、装置、电子设备及存储介质，方法中，通过对样本集合进行随机抽样得到第一预设数量的第一样本组合对，计算每个第一样本组合对中两个样本组的各指标的相对差值，根据该相对差值进行指标波动分析，得到各指标的波动逆权重。对预设的每个重要性系数，结合该重要性系数和各指标的波动逆权重，评估样本集合中各级指标组的指标波动情况，得到各级指标组的波动得分，其中，指标组的级别与目标业务的关注程度相关。进而，综合各重要性系数对应的各级指标组的波动得分，确定最优的重要性系数作为重要性权重，并依据重要性权重和各指标的波动逆权重，从样本集合中获取最优的试验样本组合对。如此，实现AB试验组的波动逆权重和重要性系数的寻优，进而以权重寻优结果作为评估参数获取最优的试验样本组合对，能够使AB试验组间的多个指标的差异尽可能小，同时，考虑了AB试验组的各指标在目标业务中的重要程度差异，极大地提高了AB试验组的均匀性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的寻优抽样系统的结构示意图。

图2示出了本申请实施例提供的寻优抽样方法的流程示意图。

图3示出了图2中步骤S13的部分子步骤的流程示意图。

图4示出了本申请实施例提供的波动曲线的结构示意图。

图5示出了图2中步骤S15的部分子步骤的流程示意图。

图6示出了图2中步骤S17的部分子步骤的流程示意图。

图7示出了图2中步骤S19的部分子步骤的流程示意图。

图8示出了本申请实施例提供的寻优抽样装置的结构示意图。

图9示出了本申请实施例提供的电子设备的结构示意图。

附图标记说明：1000-寻优抽样系统；10-抽样设备；20-客户端；30-寻优抽样装置；301-抽样模块；302-波动分析模块；303-波动评估模块；304-权重寻优模块；305-试验寻优模块；40-电子设备。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

分层抽样（stratified randomization）是按照某些特征将用户分层，在抽样过程中，使不同用户层在AB两组保持相同的比例，以保证AB两组流量在某些特征下保持均匀。然而，这种方式仅能保证单个指标的均匀性，多个指标时需要进行取舍，难以找到平衡性，导致AB组的均匀性较差。

平衡抽样是对流量多次抽样，找出指标差异最小的一组作为最终的效果。但是，这种方式没有考虑业务对多个指标的关注程度的差异，导致抽样的综合考量性较差。

基于上述考虑，本申请实施例提供一种寻优抽样方法，其能够使AB试验组间的多个指标的差异尽可能小，同时考虑AB试验组的各指标在目标业务中的重要程度差异，极大地提高了AB试验组的均匀性，进而有助于提高AB试验的准确性。

本申请实施例提供的寻优抽样方法，可以应用于图1所示的寻优抽样系统1000中，寻优抽样系统1000可以包括抽样设备10和客户端20，抽样设备10可以与客户端20通信连接。

客户端20，用于向抽样设备10发送流量样本数据，以及还用于向抽样设备10发起抽样指令。

抽样设备10，用于接收各客户端20发送的流量样本数据，并整合为样本集合，还用于实现本申请实施例提供的寻优抽样方法。

需要说明的是，客户端20可以是但不限于是：个人计算机、笔记本电脑、平板电脑、智能终端、移动终端和可穿戴式便携设备等。抽样设备10包括但不限于是：服务器集群、独立服务器和个人计算机等。

在一种可能的实施方式中，提供了一种寻优抽样方法，参照图2，包括以下步骤。在本实施方式中，以寻优抽样方法应用于图1中的抽样设备10来举例说明。

S11，对样本集合进行第一预设次数的随机抽样，得到第一预设数量的第一样本组合对。

需要说明的是，在S11中可以是每次随机抽样，得到一个第一样本组合对，并且第一样本组合对包括两个样本组，且两个样本组在样本集合中的占比相等。

S13，计算每个第一样本组合对中两个样本组间的各指标的相对差值，并根据所有第一样本组合对的相对差值，进行指标波动分析，得到各指标的波动逆权重。

S15，针对预设的每个重要性系数，结合重要性系数和各指标的波动逆权重，评估样本集合中各级指标组的指标波动情况，得到各级指标组的波动得分。

在本实施方式中，各级指标组至少包括一个指标，指标组的级别与目标业务的关注程度相关，即根据与目标业务的关注程度，将样本集合相关的指标划分为多个不同级别的指标组。

S17，综合各重要性系数对应的各级指标组的波动得分，进行最优分析，得到最优的重要性系数作为重要性权重。

S19，以重要性权重和各指标的波动逆权重作为评估参数，从样本集合中获取最优的试验样本组合对。

应当理解的是，试验样本组合对包括实验组和对照组。

可以理解为，在需要进行与某个目标业务相关的AB试验时，试验人员可以搜集流量样本，将流量样本数据通过客户端20发送至抽样设备10。抽样设备10接收各客户端20发送的流量样本数据，对所有流量样本数据进行整合，形成样本集合。试验人员可以确定出该样本集合需要考虑的所有指标，也可以理解为样本集合与目标业务相关的所有指标，并根据目标业务对各指标的关注程度，将所有指标划分为多级指标组。

例如，可以换分为P0级指标组和P1级指标组，目标业务对P0级指标组中的指标的关注程度大于目标业务对P1级指标组中的指标的关注程度。

在确定好样本集合和各级指标组后，抽样设备10对样本集合进行第一预设次数的随机抽样，每次随机抽样可以得到一个第一样本组合对，每个第一样本组合对包括两个样本组，且两个样本组在样本集合中的占比相等。在这种抽样方式中，一次抽样中可以按先后顺序进行抽取两个样本组，即对样本集合抽取到第一个样本组后，将第一样本组放回再进行抽样得到第二样本组，第一预设次数的值与第一预设数量的值相等。

抽样设备10也可以对样本集合进行第一预设次数的随机抽样，且每相邻两次抽样时抽取的样本数在样本集合中的占比相等，且每相邻两次随机抽样的结果可以组成一个第一样本组合对。在这种抽样方式中，第一预设次数的值为第一预设数据的值的两倍。

每抽取一个第一样本组合对，可以计算该第一样本组合对中的两个样本组间的各指标的相对差值，也可以抽取完所有的第一样本组合对后，再计算每个第一样本组合对中的两个样本组间的各指标的相对差值。

例如，假设有4个指标，分别为指标a、指标b、指标c和指标d，第一样本组合对包括样本组A和样本组B，分别计算出样本组A和样本组B的指标a、指标b、指标c和指标d的值，进而求出样本组A和样本组B的指标a的相对差值、指标b的相对差值、指标c的相对差值和指标d的相对差值。

在得到所有指标的相对差值后，根据所有第一样本组合对的相对差值，进行指标波动分析，得到各指标的波动逆权重。针对预设的每个重要性系数，结合重要性系数和各指标的波动逆权重，评估样本集合中各级指标组的指标波动情况，得到各级指标组的波动得分。例如，所有4个重要性系数，则每级指标组有4个波动得分。综合各重要性系数对应的各级指标组的波动得分，进行最优分析，即可得到最优的重要性系数作为重要性权重。

在确定出重要性权重和各指标的波动逆权重之后，对样本集合进行AB抽样时，可以进行多次随机抽取，并以该重要性权重和各指标的波动逆权重为评估参数，从随机抽取的结果中获取最优的试验样本组合对，得到AB试验的实验组和对照组。

与传统的AB试验的抽样方法相比，本申请实施例提供的寻优抽样方法，先进行AB试验组的波动逆权重和重要性权重的寻优，再以权重寻优结果作为评估参数获取最优的试验样本组合对，能够使AB试验组间的多个指标的差异尽可能小。同时，考虑了AB试验组的各指标在目标业务中的重要程度差异，极大地提高了AB试验组的均匀性。

在一种可能的实施方式中，S13中，计算每个第一样本组合对中两个样本组间的各指标的相对差值的方式可以灵活设置。例如，可以是直接计算两个样本组间的指标的差值，也可以是按预设规则计算，在本实施方式中，不作具体详细。

在一种可能的实施方式中，指标的相对差值的计算公式可以为：，其中，/>表征指标a的相对差值，/>表征样本组A的指标/>的指标值，/>表征样本组B的指标/>的指标值，样本组A和样本组B属于同一个第一样本组合对。

可选的，参照图3，步骤S13中根据所有第一样本组合对的相对差值，进行指标波动分析，得到各指标的波动逆权重的过程可以实施为以下步骤。

S131，针对每个指标，对所有第一样本组合对的指标的相对差值进行曲线拟合，得到指标的波动曲线。

S132，针对每个指标，从指标的波动曲线中，统计出相对差值的波动范围值，将波动范围值的倒数作为指标的波动逆权重。

在本实施方式中，指标的波动曲线的横坐标可以表征相对差值，纵坐标表征第一样本组合对的数量，例如，若波动曲线的一个坐标为（0.01，30），则表征指标的相对差值为0.01的第一样本组合对有30个。在其他实施方式中，波动曲线的横坐标和纵坐标的表征也可以与本实施方式的相反。

对于步骤S131，进行曲线拟合的方式可以灵活选择，例如，可以是最小二乘法，也可以是多项式拟合法，在本实施方式中不作具体限定。

对于步骤S132，波动范围值的取值也可以灵活设置，例如，可以是波动曲线对应的整个波动范围的值，也可以是部分密集度较高的区域的值，在本实施方式中，不做具体限定。

在一种可能的实施方式中，若波动曲线的横坐标表征相对差值，纵坐标表征第一样本组合对的数量，则可以以波动曲线的峰值对应的横坐标作为波动范围值的中值，将波动曲线的波动范围（波动曲线的横坐标区域）的95%对应的值作为波动范围值。

例如，如图4所示，指标a的波动曲线峰值对应的横坐标为中值且95%区域所对应的波动范围值为0.026，则指标a的波动逆权重为1/0.026。指标b波动曲线的峰值对应的横坐标为中值且95%区域所对应的波动范围值为0.058，则指标b的波动逆权重为1/0.058。

上述步骤S131至S132中，通过多次随机抽样的所有第一样本组合对的指标的相对差值，求出指标的天然波动曲线和波动范围，进而取出合适的波动范围值来求出波动逆权重。如此，使得每个指标的波动逆权重能够更为准确地表示出样本集合关于该指标的波动情况，从而有助于提升试验样本组合对的均匀性。

在一种可能的实施方式中，参照图5，步骤S15中评估样本集合中各级指标组的指标波动情况，得到各级指标组的波动得分的过程可以进一步实施为以下步骤。

S151，对样本集合进行第二预设次数的随机抽样，得到第二预设数量的第二样本组合对，并基于重要性系数和各指标的波动逆权重，计算出每个第二样本组合对的指标均匀值。

S152，从所有第二样本组合对中，选取指标均匀值最小的第二样本组合对，作为一个候选样本组合对。

S153，基于各指标的波动逆权重，对候选样本组合对的各级指标组的指标波动性进行分析，得到各级指标组的波动得分。

S154，判断当前的候选样本组合对的数量是否达到目标值。若否，则返回执行步骤S151，若是，则抽样结束。

可以理解为，若有4个重要性权重，分别为1、2、3和4，当重要性权重为分别为1、2、3和4时，对样本集合进行第二预设次数的随机抽样，得到第二预设数量的第二样本组合对，计算所有第二样本组合对的指标均匀值，选择指标均匀值最小的第二样本组合对作为一个候选样本组合对。按相同的逻辑，继续重复随机抽样，直到候选样本组合对的数量达到目标值。进而，对所有候选样本对的各级指标组的指标波动性进行分析，得到各级指标组的波动得分。

对于步骤S151，第二预设次数的值可以任意设定，例如，可以是1000，也可以是500，在本实施方式中，不作具体限定。并且，基于重要性系数和各指标的波动逆权重，计算出每个第二样本组合对的指标均匀值的过程可以实施为以下步骤。

S1511，针对每个第二样本组合对，确定第二样本组合对中两个样本组的指标值，并根据指标值，计算两个样本组的每个指标的相对差值。

S1512，根据各指标的相对差值、波动逆权重和重要性系数，计算出第二样本组合对的指标均匀值。

步骤S1511中计算两个样本组的每个指标的相对差异的方式，可以参见上文S13中关于指标的相对差值的计算方式，在此不再赘述。

可选的，步骤S1512中可以采用均匀性评估模型，对第二样本组合对的各指标的相对差值、波动逆权重和重要性系数，进行评估计算，得到指标均匀值。

均匀性评估模型可以为：

该均匀性评估模型既考虑了多个指标的天然离散程度（即波动逆权重），也考虑了指标在目标业务中的重要程度（即重要性系数），还考虑了样本组间的指标相对差值，能够更好地评估AB试验组在多个指标下的均匀性和平衡性。

对于步骤S152，可以理解为从多个第二样本组合对中，选取的得分最小的第二样本组合对作为候选样本组合对。

对于步骤S153，可选的，对候选样本组合对的各级指标组的指标波动性进行分析，得到各级指标组的波动得分的过程可以实施为以下步骤。

S1531，针对每个指标，计算候选样本组合对的两个样本组的指标的相对差值。

S1532，针对每级指标组，采用波动性评估模型，依据指标组中每个指标的相对差值和所述波动逆权重，进行评估计算，得到指标组的波动得分。

波动性评估模型可以为：

该波动性评估模型在考虑每个指标的波动逆权重和样本组间指标的相对差值的情况下，对各指标进行归一化，能够极大地提升各级指标组波动情况的评估准确性。

对于步骤S1531，可以参见上文S13中关于指标的相对差值的计算方式，本实施方式中不再赘述。

对于步骤S1532，可以理解为，每个候选样本组合对，会采用波动性评估模型，计算出该候选样本组合对的各级指标组的波动得分。

例如，假设包括P0级指标组和P1级指标组，P0级指标组的等级高于P1级指标组的等级，即P0级指标组中各指标对目标业务的重要程度高于P1级指标组中各指标对目标业务的重要程度。每个候选样本组合对，都有一个P0级指标组的波动得分和一个P1级指标组的波动得分。

对于步骤S154，目标值的个数可以任意设定，例如，可以是1000，也可以是800，在本实施方式中不作具体限定。当目标值为1000时，当候选样本组合对的数量为1000时，则可以结束抽样。

应当理解的是，对于每个重要性系数，都要执行一次步骤S151至S154，即若有4个重要性系数，且目标值为1000时，则每个重要性系数都要执行步骤S151至S154，来得到对应的1000个候选样本组合对。

上述步骤S151至步骤S154，通过引入均匀性波动模型和波动性评估模型进行综合考量，以尽可能在随机抽样结果中筛选出两个样本组间的指标均匀性最优的第二样本组合对，来作为后续进行重要性权重选择的考量样本组合对。如此，能够使最后确定的重要性权重能够保证样本组合对间的均匀性尽可能最优，进而有助于提高AB试验抽样的优质性。

步骤S17中，选择重要性权重的方式可以灵活选择，例如，可以综合各候选样本组合对的各级指标组的波动得分进行曲线拟合后再分析曲线选择最优的重要性权重，也可以使用机器学习模型选择出最优的重要性权重，在本实施方式中，不作具体限定。

在一种可能的实施方式中，参照图6，步骤S17中进行最优分析，得到最优的重要性系数作为重要性权重的过程可以实施为以下步骤。

S171，针对每个重要性系数，计算重要性系数对应的每级指标组的波动得分的波动均值，并对各级指标组的波动均值加权求和，得到重要性系数的综合波动分。

S172，从所有重要性系数中，选择综合波动分最小的重要性系数，得到重要性权重。

以有4个重要性系数，每个重要性系数有1000个对应的候选样本组合对，且有P0级指标组和P1级指标组为例。对于每个重要性系数，对该1000个候选样本组合对的P0级指标组和P1级指标组的波动得分分别求平均得分，得到P0级指标组的波动均值和P1级指标组的波动均值，并将P0级指标组的波动均值和P1级指标组的波动均值加权求和，得到该重要性系数的综合波动分。

其中，P0级指标组的波动均值的权重系数大于P1级指标组的波动均值的权重系数，且权重系数与对目标业务的重要程度正相关。另外，权重系数的具体数值可以根据需求而进行调整。

在其他可能的实施方式中，也可以对P0级指标组的波动均值和P1级指标组的波动均值直接求和，得到重要性系数的综合波动分。

在求出所有重要性系数的综合波动分后，选择综合波动分最小（表征波动性最小）的重要性系数，作为重要性权重。

通过上述步骤S171至S172，能够在考虑各级指标组对目标业务的重要程度的情况下，选择能够使两个样本组间的波动性最小的重要性权重，能够极大地提升AB试验组的优质性。

在一种可能的实施方式中，参照图7，步骤S19可以包括以下实施方式。

S191，对样本集合进行第三预设次数的随机抽样，得到第三预设数量的第三样本组合对。

在本实施方式中，第三样本组合对包括两个样本组，且两个样本组在所述样本集合中的占比相等。

S192，基于重要性系数和各指标的波动逆权重，对每个第三样本组合对进行均匀性分析，选取均匀性最优的第三样本组合对作为试验样本组合对。

对于步骤S191，抽样可以参见上文中关于S11中抽样方式，在此不再赘述。

对于步骤S192，可以进一步实施为以下步骤。

S1921，针对每个第三样本组合对，可以计算第三样本组合对中两个样本组的各指标的相对差值。

S1922，采用均匀性评估模型，结合重要性权重和各指标的相对差值和波动逆权重，对第三样本组合对进行均匀性分析，得到指标均匀值。

S1923，从所有第三样本组合对中，选择指标均匀值最小的第三样本组合对，作为试验样本组合对。

步骤S1921中计算相对差值的方式可以参见上文S13中关于相对差值计算的描述，在此也不再赘述。

步骤S1922中的均匀性评估模型，即：

其中，表征指标均匀值，/>表征指标的数量，/>表征第n个指标的波动逆权重，/>表征重要性权重，/>表征两个样本组的第n个指标的相对差值。

将第三样本组合对的各指标的相对差值、各指标的波动逆权重和重要性权重代入均匀性评估模型，即可计算出第三样本组合对的指标均匀值。进而，从所有的第三样本组合对中确定出指标均匀值最小的第三样本组合对，即可得到试验样本组合对。

在实际应用中，可以设置初始的最小均匀值为无穷大，进而采用随机抽样的方式，从样本集合中抽取一个第三样本组合对，计算该第三样本组合对的指标均匀值，并判断该指标均匀值是否大于当前的最小均匀值。若是，则将该指标均匀值作为最小均匀值，并在当前随机抽样次数未超过设定的抽样阈值时，返回从样本集合中抽取一个第三样本组合对的步骤。若否，则在当前随机抽样次数未超过设定的抽样阈值时，也返回从样本集合中抽取一个第三样本组合对的步骤。在当前随机抽样次数超过设定的抽样阈值时，以当前的最小均匀值对应的第三样本组合对作为试验样板组合对，即AB试验组。

需要说明的是，对于同一个样本集合的同一个目标业务，在首次确定出各指标的波动逆权重和重要性权重后，后续实验时，可以仅执行步骤S19来抽取对应的AB试验组，无需再执行步骤S11至S17。当在样本集合和目标业务中任一个发生变化，或两者都变化时，则需要重新执行步骤S11至S17，来确定出各指标的波动逆权重和重要性权重。

本申请实施例提供的寻优抽样方法中，通过先进行AB试验组的波动逆权重和重要性权重的寻优，再以权重寻优结果作为评估参数获取最优的试验样本组合对的方式，能保证多个指标自身的波动范围下差异尽可能小，并综合考虑了指标在目标业务上的重要程度，从而在后续实验分析中能对策略进行更为准确的评估。

基于上述寻优抽样方法相同的发明构思，在一种可能的实施方式中，提供了一种寻优抽样装置30。参照图8，寻优抽样装置30可以包括抽样模块301、波动分析模块302、波动评估模块303、权重寻优模块304和试验寻优模块305。

抽样模块301，用于对样本集合进行第一预设次数的随机抽样，得到第一预设数量的第一样本组合对。其中，每个第一样本组合对包括两个样本组，且两个样本组在样本集合中的占比相等。

波动分析模块302，用于计算每个第一样本组合对中两个样本组间的各指标的相对差值，并根据所有第一样本组合对的相对差值，进行指标波动分析，得到各指标的波动逆权重。

波动评估模块303，用于针对预设的每个重要性系数，结合重要性系数和各指标的波动逆权重，评估样本集合中各级指标组的指标波动情况，得到各级指标组的波动得分。其中，指标组的级别与目标业务的关注程度相关。

权重寻优模块304，用于综合各重要性系数对应的各级指标组的波动得分，进行最优分析，得到最优的重要性系数作为重要性权重。

试验寻优模块305，用于以重要性权重和各指标的波动逆权重作为评估参数，从样本集合中获取最优的试验样本组合对。其中，试验样本组合对包括实验组和对照组。

上述寻优抽样装置30中，通过抽样模块301、波动分析模块302、波动评估模块303、权重寻优模块304和试验寻优模块305的协同作用，实现AB试验组的波动逆权重和重要性系数的寻优，进而以权重寻优结果作为评估参数获取最优的试验样本组合对，能够使AB试验组间的多个指标的差异尽可能小。同时，考虑了AB试验组的各指标在目标业务中的重要程度差异，极大地提高了AB试验组的均匀性。

关于寻优抽样装置30的具体限定可以参见上文中对于寻优抽样方法的限定，在此不再赘述。上述寻优抽样装置30中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备40中的处理器中，也可以以软件形式存储于电子设备40的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一种实施方式中，提供了一种电子设备40，其内部结构图可以如图9所示。该电子设备40包括通过系统总线连接的处理器、存储器、通信接口和输入装置。其中，该电子设备40的处理器用于提供计算和控制能力。该电子设备40的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备40的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该计算机程序被处理器执行时实现如上述实施方式提供的寻优抽样方法。

图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的电子设备40的限定，具体的电子设备40可以包括比图9中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一种实施方式中，本发明提供的应用于被部署设备的寻优抽样装置30可以实现为一种计算机程序的形式，计算机程序可在如图9所示的电子设备40上运行。电子设备40的存储器中可存储组成该寻优抽样装置30的各个程序模块，比如，图8所示的抽样模块301、波动分析模块302、波动评估模块303、权重寻优模块304和试验寻优模块305。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的寻优抽样方法中的步骤。

例如，图9所示的电子设备40可以通过如图8所示的寻优抽样装置30中的抽样模块301执行步骤S11。电子设备40可以通过波动分析模块302执行步骤S13。电子设备40可以通过波动评估模块303执行步骤S15。电子设备40可以通过权重寻优模块304执行步骤S17。电子设备40可以通过试验寻优模块305执行步骤S17。

在一种实施方式中，提供了一种电子设备40，包括：处理器和存储器，该存储器用于存储一个或多个程序；当一个或多个程序被处理器执行时，实现以下步骤：对样本集合进行第一预设次数的随机抽样，得到第一预设数量的第一样本组合对；计算每个第一样本组合对中两个样本组间的各指标的相对差值，并根据所有第一样本组合对的相对差值，进行指标波动分析，得到各指标的波动逆权重；针对预设的每个重要性系数，结合重要性系数和各指标的波动逆权重，评估样本集合中各级指标组的指标波动情况，得到各级指标组的波动得分；综合各重要性系数对应的各级指标组的波动得分，进行最优分析，得到最优的重要性系数作为重要性权重；以重要性权重和各指标的波动逆权重作为评估参数，从样本集合中获取最优的试验样本组合对。

在一种实施方式中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如下步骤：对样本集合进行第一预设次数的随机抽样，得到第一预设数量的第一样本组合对；计算每个第一样本组合对中两个样本组间的各指标的相对差值，并根据所有第一样本组合对的相对差值，进行指标波动分析，得到各指标的波动逆权重；针对预设的每个重要性系数，结合重要性系数和各指标的波动逆权重，评估样本集合中各级指标组的指标波动情况，得到各级指标组的波动得分；综合各重要性系数对应的各级指标组的波动得分，进行最优分析，得到最优的重要性系数作为重要性权重；以重要性权重和各指标的波动逆权重作为评估参数，从样本集合中获取最优的试验样本组合对。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种寻优抽样方法，其特征在于，所述方法包括：

2.根据权利要求1所述的寻优抽样方法，其特征在于，所述结合所述重要性系数和各指标的所述波动逆权重，评估所述样本集合中各级指标组的指标波动情况，得到各级所述指标组的波动得分的步骤，包括：

3.根据权利要求2所述的寻优抽样方法，其特征在于，所述基于所述重要性系数和各指标的所述波动逆权重，计算出每个所述第二样本组合对的指标均匀值的步骤，包括：

4.根据权利要求3所述的寻优抽样方法，其特征在于，所述根据各指标的所述相对差值、所述波动逆权重和重要性系数，计算出第二样本组合对的指标均匀值的步骤，包括：

所述均匀性评估模型包括：

其中，表征指标均匀值，/>表征指标的数量，/>表征第n个指标的波动逆权重，表征重要性系数，/>表征两个样本组的第n个指标的相对差值。

5.根据权利要求2所述的寻优抽样方法，其特征在于，所述基于各指标的所述波动逆权重，对所述候选样本组合对的各级所述指标组的指标波动性进行分析，得到各级所述指标组的波动得分的步骤，包括：

所述波动性评估模型包括：

6.根据权利要求1至5中任一项所述的寻优抽样方法，其特征在于，所述根据所有所述第一样本组合对的所述相对差值，进行指标波动分析，得到各指标的波动逆权重的步骤，包括：

7.根据权利要求6所述的寻优抽样方法，其特征在于，所述综合各所述重要性系数对应的各级指标组的波动得分，进行最优分析，得到最优的重要性系数作为重要性权重的步骤，包括：

8.根据权利要求6所述的寻优抽样方法，其特征在于，所述以所述重要性权重和各指标的所述波动逆权重作为评估参数，从所述样本集合中获取最优的试验样本组合对的步骤，包括：

9.根据权利要求8所述的寻优抽样方法，其特征在于，所述基于所述重要性系数和各指标的所述波动逆权重，对每个所述第三样本组合对进行均匀性分析，选取均匀性最优的第三样本组合对作为试验样本组合对的步骤，包括：

10.根据权利要求6所述的寻优抽样方法，其特征在于，在所述对样本集合进行第一预设次数的随机抽样，得到第一预设数量的第一样本组合对的步骤之前，所述方法还包括：

11.一种寻优抽样装置，其特征在于，包括抽样模块、波动分析模块、波动评估模块、权重寻优模块和试验寻优模块；

12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现如权利要求1至10中任一项所述的寻优抽样方法。

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的寻优抽样方法。