CN114064445A

CN114064445A - 一种测试方法、装置、设备及计算机可读存储介质

Info

Publication number: CN114064445A
Application number: CN202010776573.9A
Authority: CN
Inventors: 门聪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2022-02-18

Abstract

本申请实施例提供了一种测试方法、装置、设备及计算机可读存储介质，其中，该方法包括：测试设备根据获取到的第一策略下对照组和第二策略下实验组的目标指标的信息、实验组和对照组的历史行为特征属性进行分组，得到N个对照组的N个第一指标数据和N个实验组的N个第二指标数据，最后基于N个第一指标数据和N个第二指标数据对第二策略进行测试，以达到对第二策略的评估。通过该实施例，基于用户的历史行为特征属性以及小时单位下的目标指标的信息的测量，有助于提升测试效率，减短测试周期。

Description

一种测试方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种测试方法、装置、设备及计算机可读存储介质。

背景技术

随着信息技术的快速发展，各大互联网公司都会在热潮中不断地开发新产品或新算法等等。在新产品或新算法正式发布之前，可以对其进行测试，以确保新产品或新算法的性能，确保用户体验等等。因此，如何高效地实现对新产品或新算法的测试成为亟待解决的问题。

发明内容

本申请实施例提供了测试方法、装置、设备及计算机可读存储介质，有助于提升测试效率，减短测试周期。

第一方面，本申请实施公开了一种测试方法，该方法包括：

获取对照组用户在第一策略下小时单位的目标指标的信息，以及获取实验组用户在第二策略下小时单位的目标指标的信息；

获取所述对照组用户和所述实验组用户的历史行为特征属性；

根据所述历史行为特征属性和所述小时单位的目标指标的信息进行分组处理，得到N个对照组对应的N个第一指标数据和N个实验组对应的N个第二指标数据；

根据所述N个第一指标数据和所述N个第二指标数据，对所述第二策略进行测试。

第二方面，本申请实施提供了一种测试装置，该装置包括：

获取模块，用于获取对照组用户在第一策略下小时单位的目标指标的信息，以及获取实验组用户在第二策略下小时单位的目标指标的信息；

所述获取模块，还用于获取所述对照组用户和所述实验组用户的历史行为特征属性；

处理模块，用于根据所述历史行为特征属性和所述小时单位的目标指标的信息进行分组处理，得到N个对照组对应的N个第一指标数据和N个实验组对应的N个第二指标数据；

测试模块，用于根据所述N个第一指标数据和所述N个第二指标数据，对所述第二策略进行测试。

第三方面，本申请实施例提供了一种测试设备，该设备包括：处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面所述的测试方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面所述的测试方法。

本申请实施例中，测试设备能够根据获取到的第一策略下对照组和第二策略下实验组的小时单位下的目标指标信息、实验组和对照组的历史行为特征属性进行分组，得到N个对照组的N个第一指标数据和N个实验组的N个第二指标数据，并基于N个第一指标数据和N个第二指标数据对第二策略进行测试，以实现对第二策略的评估。通过该实施例，基于用户的历史行为特征属性以及小时单位下的目标指标的信息的测量，有助于提升测试效率，减短测试周期。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种测试方法的系统架构示意图；

图2a是本申请实施例提供的一种场景示意图；

图2b是本申请实施例提供的另一种场景示意图；

图3a为本申请实施提供的又一种场景示意图；

图3b为本申请实施提供的又一种场景示意图；

图4为本申请实施例提供的一种测试结果的显示界面示意图；

图5为本申请实施例提供的一种测试方法的流程示意图；

图6为本申请实施例提供的另一种测试方法的流程示意图；

图7为本申请实施例提供的一种测试装置的结构示意图；

图8为本申请实施例提供的一种测试设备的结构示意图。

具体实施方式

本申请的技术方案可应用于测试设备(测试装置)中，用于实现对不同策略的测试。可选的，该测试设备可以是终端，也可以是服务器，还可以为数据平台或其他测试设备。该终端可包括手机、平板电脑、计算机等等，本申请不做限定。可以理解，在其他实施例中，该终端还可叫做其余名称，比如叫做智能终端、用户设备、用户终端等等，此处不一一列举。

目前，发明人研究发现，对新产品或新算法等策略的测试大多是通过小流量AB实验，通过随机抽取线上两批用户作为实验组和对照组，通过积累每天的用户行为数据，计算出各个指标，然后通过对多天数据进行T检验或其他类似的假设检验的方法对新产品或新算法进行测试。但该方式下数据积累时间较长，如平均需要积累7天的数据，如果数据量较小或指标波动过大，还需要增加空转的时间，导致更长的数据积累时间。而且，由于该测试方式依赖于天级数据，而天级数据的产出延迟较大，比如通常第二天中午才能计算完前一天的数据计算，导致测试效率较低，且业务方无法实时跟进测试效果，如果测试出现问题则无法被及时发现；此外，如果实验仅对半天数据有影响，则会造成该天数据失效，无法实现准确测试。可见，基于天级数据的T检验测试方式存在测试效率低的问题，导致测试周期较长，并可能存在测试不准确的问题，可能会影响用户体验，甚至影响商业效益。而本申请中，测试设备可结合小时级的指标数据以及用户的历史行为特征属性来实现对新产品或新算法等策略进行测试，相比于基于天级数据的T检验测试方式，可以利用小时级数据高时效性的特点，降低测试过程中的数据产出和计算延时，从而有助于提升测试效率，缩短测试周期，且基于小时级数据和用户历史行为特征属性得出实验数据的显著性，有助于提升测试可靠性。

请参见图1，图1为本申请实施例的一种测试方法的系统架构示意图。如图1所示，该系统架构图100可包括测试设备101、服务器102以及多个用户终端103，其中，测试设备101可用于实现对策略进行测试。可选的，该测试设备101还可用于在测试设备界面上接收测试人员的测试指令，还可用于接收服务器102从多个用户终端103处获取的数据信息等等。服务器102可用于对数据信息的获取与转发。

在一种可能的实现方式中，测试设备101获取对照组在第一策略下小时单位的目标指标的信息以及实验组在第二策略下的目标指标的信息，服务器102从用户终端103获取用户的实时数据，并生成日志存储于服务器102，测试设备101从服务器102中获取实验组和对照组的历史行为特征属性，测试设备101根据目标指标的信息和历史行为特征属性进行分组，得到N个对照组的N个第一指标数据和N个实验组的N个第二指标数据，进而可基于N个第一指标数据和N个第二指标数据对第二策略进行测试，以达到对第二策略的评估，通过该实施例，基于用户的历史行为特征属性以及小时单位下的目标指标的信息的测量，能解决指标空转波动大的问题，可以提升测试效率，减短测试周期。可选的，本申请提供的技术方案还可以以内部平台的方式供业务方使用，如果核心指标显著正向则转全量，否则可中止或迭代，保证产品朝着正向发展。

例如，具体的一个测试场景如图2a和图2b所示，图2a是本申请实施例提供的一种将热点卡片放在第四号位的场景示意图，图2b是本申请实施例提供的一种将热点卡片放在第三号位的场景示意图。其中，第三号位和第四号位放置的内容属于热点内容。在本申请实施例中，可以将图2a的热点卡片放置位置作为第一策略，将图2b的热点卡片放置位置作为第二策略，也可以将图2a的热点卡片放置位置作为第二策略，将图2b的热点卡片放置位置作为第一策略。假设以图2a的热点卡片放置位置作为第一策略，将图2b的热点卡片放置位置作为第二策略，测试设备101可获取图2a策略下的对照组小时单位的目标指标的信息，以及获取图2b策略下的实验组小时单位的目标指标的信息，再根据获取到的对照组和实验组对应的历史行为特征属性以及目标指标的信息进行分组，得到N个对照组的N个第一指标数据和N个实验组的N个第二指标数据，基于得到的N个第一指标数据和N个第二指标数据对图2b的策略进行测试，评估在第三号位的指标表现是否明显高于第四号位，若是在第三号位收益高，则可采用该三号位策略上线新产品，即可将热点卡片放置在该三号位。本申请提供的测试方法可以缩短这个判断周期，提升测试效率。

又如，另一个具体的测试场景如图3a所示，图3a为本申请实施提供的一种插入相关视频播放的场景示意图，该示意图指在是视频播放到80％时插入一条相关视频；另一种是视频播放过程中不插入相关视频，如图3b所示，为本申请实施提供的一种不插入相关视频播放的场景示意图。在测试中，可以把图3a插入相关视频的策略(第一策略)作为对照组，把不插入视频的策略(或者称为去掉该80％插入相关视频的策略，也即第二策略)作为实验组，来测试哪种情况更受欢迎。由此测试设备101可获取图3a策略下对照组小时单位的目标指标的信息，以及获取在不插入相关视频的情况下即图3b策略下实验组小时单位的目标指标的信息，再根据获取到的对照组和实验组对应的历史行为特征属性以及目标指标的信息，得到N个对照组的N个第一指标数据和N个实验组的N个第二指标数据，进而基于得到的N个第一指标数据和N个第二指标数据对两个场景(策略)进行测试，评估插入视频与不插入视频哪种情况指标更优，并可采用指标更优的策略。比如线上视频底层页场景从非首条视频开始，播放进度至80％的时候实时插入一条相关视频，对照组有该策略，实验组为去掉该策略；如果实验组指标优于对照组，结论为去掉该策略。

可以理解，上述测试场景都是示例性的，并不用于对本申请的测试场景或策略进行限制。在对测试场景下的策略进行测试后，可以得到测试结果。可选的，可在测试设备101的可视化界面上显示测试结果，或者可将该测试结果发送给指定设备；进而可由测试人员则根据测试结果对不同的策略以及产品进行评估，或者由预置算法对该测试结果数据进行自动评估。如图4所示，为本申请实施例提供的一种测试结果的显示界面示意图。具体的，图4中示出了其中一种测试结果，包括对照组和实验组在各指标下的数据，如对照组的指标数据(如图4中的对比1)和实验组对应的指标数据(如图4中的对比2)、每组实验组和对照组的指标数据之间的绝对差值和相对差值、置信区间以及显著性结果等等。该界面只是示例性的，可以根据不同的需求对该界面进行调整，显示不同的内容。

在本申请中，涉及的指标可以是点击率、曝光度、视频时长等等，如人均总点击量、人均真实曝光度、人均小视频曝光度、人均小视频时长、人均视频点击量及其他相应指标，本申请不做限定。

在本申请中，小时单位可以为每小时、每两个小时、每半小时等等，该小时单位的粒度小于天级单位(以天为单位)的粒度。本申请以小时单位为每小时为例进行说明。例如，获取小时单位的目标指标的信息可以是指，获取每小时的目标指标的信息。

在本申请中，本申请涉及的历史行为特征属性可以是指平均使用时长、平均点击量等等，具体可以是针对该第一策略和第二策略应用的产品(或同类产品，或该产品中该第一策略和第二策略对应的功能，等等)的历史行为特征属性，如针对该产品的平均每天使用时长、平均每天点击量等等。例如，对于平均每天使用时长可以定义为用户在历史时期平均每天浏览某视频或者某页面的时长，如，每天时长小于60秒，60秒-300秒等，具体的情况可以根据具体的用户的历史行为特征属性来进行确定。又如，对于平均每天的点击量可以定义为用户在历史时期平均每天点击某视频或者某页面的次数，如，每天点击次数20次以下，20次-60次等。其点击量和时长的划分标准可以根据测试时进行具体的划分，以上仅为示例。

可以理解，本申请实施例描述的基于系统架构或测试场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

请参见图5，图5为本申请实施例提供的一种测试方法的流程示意图，具体的流程可以包括以下步骤：

S501、测试设备获取对照组用户在第一策略下小时单位的目标指标的信息，以及获取实验组用户在第二策略下小时单位的目标指标的信息。

其中，该目标指标可以为一个或多个，如果为多个，可以分别基于各目标指标的信息对第二策略进行测试。可选的，该目标指标可以是点击率、曝光度或视频时长等等，此处不赘述。

在一种可能的实现方式中，测试设备获取对照组用户在第一策略下小时单位的目标指标的信息，以及获取实验组用户在第二策略下小时单位的目标指标的信息之前，测试设备可以对用户进行抽样，把抽样的用户分成实验组用户和对照组用户，或者从抽样的用户中选取部分用户，将选取的部分用户分为实现组用户和对照组用户。可选的，可以按照不同抽样人数进行抽样以进行多次测试，比如抽样人数可以分别为5万、10万、30万、50万、100万、500万等等，在各抽样人数下分别进行测试，以提升测试可靠性。可选的，该目标指标的信息可以是获取的第一周期内的目标指标的信息，如第一周期可以是指对第二策略进行测试的实验期。

可选的，在抽样用户的过程中，可以根据目标指标进行相应地抽样，并对抽样的用户进行进一步筛选，比如去除掉目标指标对应的指标数据大于指标阈值或排在前M(M可以为大于0的自然数，或者可以为大于0的百分比，等等)的数据。比如说，把点击量作为目标指标时，在抽样时可能看到少量用户终端贡献了数万甚至数十万的点击。这些用户终端很有可能是处于异常状态(如存在bug)，也可能是在运行自动化测试，或者是某些恶意插件使用户终端非正常运行，可能并不是正常的业务数据。如果将这些用户终端的用户数据计入统计结果，将会对测试结果的准确性产生较大的影响，由此可以过滤掉极端用户的数据，比如去掉点击量最大的5％的用户等等。

在确定出对照组用户与实验组用户之后，测试设备可以获取对照组用户在第一策略下小时单位的目标指标的信息，并获取实验组用户在第二策略下小时单位的目标指标的信息。其中，该第一策略和第二策略不同。可选的，测试设备可以从本地获取目标指标的信息，也可以从服务器中获取目标指标的信息，等等，对于目标指标的信息的获取方式，本申请不做限定。

S502、测试设备获取对照组用户和实验组用户的历史行为特征属性。

在一种可能的实现方式中，测试设备可以获取多个用户在第二周期的数据信息，对数据进行进一步解析，得到各个用户对应的历史行为特征属性。这里的多个用户可以包括上述的对照组和实验组的用户，也可以与对照组和实验组的用户等同，也即，可以在预先抽样得到的用户中，根据历史行为特征属性，继续选取部分用户作为对照组用户和实验组用户(对照组用户和实验组用户不同)，也可以将抽样得到的全部用户直接划分为对照组用户和实验组用户。可选的，该第二周期与上述的第一周期不同，如第二周期早于第一周期。进一步可选的，该第二周期可以与系统时间或第一周期的时间间隔大于或等于预设时间阈值。例如，第二周期的结束时间是早于第一周期的开始时间的，且第二周期的结束时间与系统时间(或第一周期的开始时间)存在一个时间间隔，该间隔大于或等于预设时间阈值。从而可以避免小流量实验期(即第一周期)的变化对用户历史行为属性特征的统计产生偏差，有助于提升实现期设置的灵活性，减小测试误差，提升测试效果。比如说，第一周期可以是第n天，那么第二周期可以选取n-28到n-14天，中间有14天的间隔。可选的，对于第一周期(实验期)的选取可以是在平稳时期(如从第二策略上线时间超过某一时间阈值如1天之后再以第一周期采集第一策略和第二策略下目标指标的信息)进行，以减少外部因素的干扰。

其中，测量对照组第一策略下小时单位目标指标的信息和实验组第二策略下小时单位的目标指标的信息与获取对照组用户和实验组用户的历史行为特征属性没有固定顺序，即对两者的先后顺序不做限定。例如，也可以先执行S502，再执行S501，或者S501和S502可同时执行，本申请不做限定。

S503、测试设备根据历史行为特征属性和小时单位的目标指标的信息进行分组处理，得到N个对照组对应的N个第一指标数据和N个实验组对应的N个第二指标数据。

可选的，每个对照组内(中)的各用户的历史行为特征属性可以相同，每个实验组内(中)的各用户的历史行为特征属性可以相同。例如，有N个对照组，有第1、2…N个对照组，第1个对照组内的所有用户的历史行为特征属性相同，第N个对照组内的所有用户的历史行为特征属性相同。进一步可选的，第i个对照组组和第i个实验组对应的历史行为特征属性可以相同，0<i≤N。

其中，本申请涉及的指标数据可以与指标的信息相同，该指标数据也可以由指标的信息确定出，如第一指标数据可以与第一策略下小时单位的目标指标的信息相同或者由第一策略下小时单位的目标指标的信息确定出，第二指标数据可以与第二策略下小时单位的目标指标的信息相同或者由第二策略下小时单位的目标指标的信息确定出。例如，该指标的信息可以为指标标识，该指标数据可以为具体的指标数据(如具体的点击量)，测试设备可以基于指标标识和指标数据的对应关系确定出具体的指标数据，该对应关系可以存储于测试设备、服务器或与该测试设备关联的其他存储设备中。又如，该指标数据可以根据指标的信息计算出，等等，本申请不做限定。

可选的，对照组对应的第一指标数据和/或实验组对应的第二指标数据可以是衡量该组用户的总体指标情况的数据。例如，对照组对应的第一指标数据可以是该对照组中的用户对应的目标指标的信息下的平均值，实验组对应的第二指标数据可以是该实验组中的用户对应的目标指标的信息下的平均值，如平均点击率、平均曝光度或平均视频时长等等，本申请不做限定。

可选的，用户的历史行为特征属性相同可以是指用户的历史行为特征属性处于同一区间或者同一范围内，或者，可以是指用户的历史行为特征属性处于相同的等级，等等，本申请不做限定。例如，以某一组的用户的历史行为特征属性为时长为例，若是实验组的第i组对应的历史行为特征属性是平均每天使用时长为300秒-1000秒，即可表明第i组实验组中所有用户的平均每天使用时长都在300秒-1000秒；对照组的第i组对应的历史行为特征属性的时长也是300秒-1000秒，即可表明第i组对照组中所有用户的使用时长都在300秒-1000秒。

进一步可选的，分组的顺序可以是先根据历史行为特征属性进行分组后再进行小时单位的分组，也可是先根据小时单位进行分组后再根据用户的历史行为特征属性进行分组。

在一种可能的实现方式中，测试设备获取到对照组用户和实验组用户小时单位的目标指标的信息，按照小时单位进行分组后，再根据获取到的用户的历史行为特征属性，进一步进行分组，得到N个对照组对应的N个第一指标数据和N个实验组对应的N个第二指标数据，第一指标数据和第二指标数据是同一个目标指标下的数据。

在一种可能的实现方式中，测试设备根据获取到的用户的历史行为特征属性对对照组用户和实验组用户进行分组后，再根据获取到的小时单位的目标指标的信息，进一步进行分组，得到N个对照组对应的N个第一指标数据和N个实验组对应的N个第二指标数据，第一指标数据和第二指标数据是同一个目标指标下的数据。

例如，针对用户历史行为特征属性为平均每天使用时长为例，则根据使用时长可以分别对实验组用户和对照组用户进行分组，假设平均每天使用时长为0秒的为第1组，平均每天使用时长0秒-60秒为第2组，平均每天使用时长60秒-300秒为第3组，平均每天使用时长300秒-1000秒为第4组，平均每天使用时长1000秒-3000秒为第5组，平均每天使用时长3000秒以上为第6组，即对照组用户和实验组用户可根据用户历史行为特征属性划分为6组。进一步的，在这个分组的基础上，还可根据小时单位再对其进行分组，以每小时为例，分别得到实验组和对照组对应的24组，则一共得到144组对照组和144组实验组，获取到该144组对照组下每个组的第一指标数据和该144组实验组下每个组的第二指标数据，即N为144。

S504、测试设备根据N个第一指标数据和N个第二指标数据，对第二策略进行测试。

可以理解，如果目标指标为多个，可以基于该多个目标指标的信息进行测试，该多个目标指标可以是同时获取的，也可以是分别获取的；基于多个目标指标的信息的测试也可以是同时进行的，也可以是分别进行的，本申请不做限定。进而可基于该多个目标指标的信息对第二策略的测试信息，得到对第二策略的测试结果。

可选的，如果目标指标为多个，可以同时获取该多个目标指标的信息，或者说先获取所有目标指标的信息，再分别基于各目标指标对第二策略进行测试；例如，该多个目标指标包括指标1和指标2，则可获取指标1的信息和指标2的信息，基于指标1的信息对第二策略进行测试，以及基于指标2的信息对第二策略进行测试。或者，可选的，可分别获取多个目标指标的信息，并基于分别获取的目标指标的信息对第二策略进行测试；比如获取指标1的信息，基于指标1的信息对第二策略进行测试，再获取指标2的信息，基于指标2的信息对第二策略进行测试，等等。最后可基于该多个目标指标的信息对第二策略的测试信息，得到对第二策略的测试结果。

在一种可能的实现方式中，测试设备可根据N个第一指标数据和N个第二指标数据，得到N个对照组和N个实验组之间的指标差值和方差，进而根据N个对照组和N个实验组之间的指标差值和方差，对第二策略进行测试。

在一种可能的实现方式中，在测试设备对第二策略进行测试之前，还可分别获取N个对照组与N个实验组每组对应的权重，即每个实验组的权重以及每个对照组的权重。进而测试设备可根据N个对照组和N个实验组对应的权重、N个第一指标数据和N个第二指标数据，对第二策略进行测试。在本方案中，用户历史行为特征属性相同的对照组和实验组对应的权重可以相同，也可以不相同，如第i组实验组和第i组对照组对应的权重可以相同也可以不同。比如，在本申请中，可以将第i组实验组和第i组对照组对应的权重设置为相同，即将用户历史行为特征属性相同且处于同一小时单位的实验组和对照组对应的权重设置为相同，由此可消减因抽样局部不均匀带来的额外偏差。

可选的，该权重可以基于用户占比确定出，或者可以基于用户占比和用户权重确定出，或者可以通过其他方式预先设置得到。例如获取对照组和实验组对应的权重的方式可以为：确定每个对照组中的用户在N个对照组中的用户占比，和/或，确定每个实验组中的用户在N个实验组中的用户占比；根据每个对照组中的用户对应的用户占比确定N个对照组和/或N个实验组每组对应的权重，或者根据每个实验组中的用户对应的用户占比确定N个对照组和/或N个实验组每组对应的权重。又如，基于用户占比和用户权重的乘积确定权重，等等，此处不一一列举。

例如，假设抽样得到10w用户，获取得到该10w用户的历史行为特征属性，并基于历史行为特征属性进行分组，假设分组得到6组，各组的用户的历史行为特征属性相同。进一步的，可以从10w用户中选取3w作为对照组用户，3w作为实验组用户，选取的对照组用户和实验组用户按照历史行为特征属性和小时级指标信息分别划分为6*24＝144组，为了降低因抽样局部不均匀带来的额外偏差，选取的历史行为特征属性相同的实验组和对照组的用户数可以相同(或相差用户数低于预设数目阈值)，进而可以基于每个实验组(或对照组)的用户占比确定该组实验组对应的权重，该组实验组对应的对照组的权重可以与该组实验组对应的权重相同。

又如，假设抽样得到8w用户，获取得到该8w用户的历史行为特征属性，并基于历史行为特征属性进行分组，假设分组得到6组，各组的用户的历史行为特征属性相同。进一步的，可以从8w用户中选取4w作为对照组用户，4w作为实验组用户，选取的对照组用户和实验组用户按照历史行为特征属性和小时级指标信息分别划分为6*24＝144组，进而可以基于每个实验组(或对照组)的用户占比确定该组实验组及其对应的对照组的权重，此处不赘述。

在一种可能的实现方式中，获取到权重后，测试设备可根据N个对照组和N个实验组对应的权重、N个第一指标数据和N个第二指标数据，得到N个对照组和N个实验组之间的指标差值和方差，进而根据N个对照组和N个实验组之间的指标差值和方差，对第二策略进行测试。比如根据权重、N个第一指标数据和N个第二指标数据得到相应的指标差值、方差以及标准差，再基于指标差值、方差以及标准差这些数值对第二策略进行评估。比如通过置信度来评估第二策略是否达到显著性阈值，再根据标准差的正负以及显著性特征来确定是否对第二策略测试通过，如评估第二策略是否达到正收益，若是第二策略显著指标且达到正收益，则可根据该策略上线新产品或者正式上线该第二策略。其中，该测试可以进行多次，以避免实验的偶然性带来的误差。

本申请实施例，测试设备根据获取到的第一策略下对照组和第二策略下实验组的目标指标的信息、实验组和对照组的历史行为特征属性进行分组，得到N个对照组的N个第一指标数据和N个实验组的N个第二指标数据，最后基于N个第一指标数据和N个第二指标数据对第二策略进行测试，以达到对第二策略的评估。通过该实施例，基于用户的历史行为特征属性以及小时单位下的目标指标的信息的测量，有助于解决指标空转波动大的问题，可以提升测试效率，减短测试周期，并有助于避免抽样算法在某些人群中存在局部的偏差，造成整体效果有偏差的问题，提升了测试可靠性。

请参见图6，图6为本申请实施例提供的另一种测试方法的流程示意图，具体的流程可以包括以下步骤：

S601、测试设备获取对照组用户在第一策略下小时单位的目标指标的信息，以及获取实验组用户在第二策略下小时单位的目标指标的信息。

在一种可能的实现方式中，该第一策略下小时单位的目标指标的信息可以是获取的第一周期的信息，第二策略下小时单位的目标指标的信息也可以是该第一周期的信息。第一周期可以是指对第二策略进行测试的实验期。

S602、测试设备获取对照组用户和实验组用户的历史行为特征属性。

在一种可能的实现方式中，该历史行为特征属性可以是在第二周期获取的。可选的，该第一周期和第二周期的描述可参照上述实施例的相关描述，此处不赘述。

S603、测试设备根据历史行为特征属性和小时单位的目标指标的信息进行分组处理，得到N个对照组对应的N个第一指标数据和N个实验组对应的N个第二指标数据。

可选的，每个对照组内的各用户的历史行为特征属性可以相同，每个实验组内的各用户的历史行为特征属性可以相同，此处不赘述。

其中，步骤S601～步骤S603已经在步骤S501～步骤S503中进行阐述，这里便不在一一赘述。示例性地，在此将分组以步骤S503中的N为144为例，则相应地，有144个对照组对应的144个第一指标数据和144个实验组对应的144个第二指标数据。

S604、测试设备根据用户占比确定N个对照组和N个实验组每组对应的权重。

可选的，测试设备可通过确定每个对照组中的用户在N个对照组中的用户占比，和/或，确定每个实验组中的用户在N个实验组中的用户占比；进而根据每个对照组对应的用户占比确定N个对照组与N个实验组每组对应的权重，和/或，根据每个实验组对应的用户占比确定N个对照组与N个实验组每组对应的权重。例如，可以根据第i个实验组中的用户在N个实验组中的用户占比，确定第i个对照组与第i个实验组的权重，其中，第i个对照组与i个实验组的用户历史特征属性相同且权重相同。又如，可以根据第i个实验组中的用户在N个实验组中的用户占比，确定第i个实验组的权重，根据第i个对照组中的用户在N个对照组中的用户占比，确定第i个对照组的权重，第i个对照组与i个实验组的用户历史特征属性相同。

其中，每个对照组中的用户在N个对照组中的用户占比具体指的是，假如144个实验组总人数为y，第i组的实验组的用户为x，那么第i组的占比就是x/y，对照组的占比也是这样计算的。权重即可根据这个占比数据进行分配，第i组的权重记为w_i。

S605、测试设备根据N个对照组和N个实验组每组对应的权重、N个第一指标数据和N个第二指标数据，得到N个对照组和N个实验组之间的指标差值和方差。

例如，测试设备根据N个第一指标数据和N个第二指标数据得到每组第一指标数据和第二指标数据之间的相对差值；根据每组第一指标数据和第二指标数据之间的相对差值以及权重得到每组对照组和实验组之间的指标差值；进而根据每组实验组和对照组之间的指标差值得到各个组之间的方差，并根据每组的指标差值得到对照组和实验之间所有组对应的指标差值。

假设每个对照组的第一指标数据与实验组的第二指标数据之间相对差值用d_i表示，则第i组实验组与第i组对照组指标的相对差值：

d_i＝(第i组实验组的第二指标数据-第i组对照组的第一指标数据)

其中，i指的是所有对照组和实验组中的任意一组，0<i≤N。

进一步的，每组对照组和实验组之间的指标差值计算，如以第i组对照组和实验组之间的指标差值为例，则第i组对照组和实验组之间的指标差值＝d_i*w_i。

其中，每组实验组和对照组之间的方差是可以根据离线抽样函数各个分组以及各流量下的指标差值的分布情况后计算得到的。对照组和实验之间所有组对应的指标差值是根据每组对照组和实验之间指标差值求和得到的，即，

进一步的，还可确定出对照组和实验组之间所有组对应的方差。例如，这里的对照组和实验组之间所有组对应的方差可以是根据统计学中方差的可加性原理得到的：

若是有144个实验组和144个对照组，则N为144。

S606、测试设备根据N个对照组和N个实验组之间的指标差值和方差，对第二策略进行测试。

例如，测试设备可根据上述所有组对应的指标差值和方差的差值，以及指标差值的正负对第二策略进行测试。

在一种可能的实现方式中，测试设备根据指标差值(对照组和实验之间所有组对应的指标差值)以及方差(对照组和实验组之间所有组对应的方差)对第二策略进行测试可以包括：根据该所有组对应的方差得到标准差，判断该所有组对应的指标差值与方差之间的差值是否大于两倍标准差。通过该方式以判断第二策略是否达到显著性阈值，其中，两倍标准差可对应95％的置信度。这里也可以判断该所有组对应的指标差值与方差之间的差值是否大于2.5标准差等等，两倍标准差作为一种示例进行说明，本申请不对其进行限定。

可选的，在实际测试中，置信度对应的置信区间可以是一个随机变量，统计显著性达到95％或以上并且维持一段时间(如大于一时间阈值)，测试可以结束；如果在95％以下，则可以延长测试时间，如果很长时间统计显著性不能达到95％甚至90％，则可以中止测试。同时，还可进一步判断指标差值的正负。若是指标差值为正且超过显著性阈值，则测试结果为正收益，可确定该目标指标下第二策略优于第一策略，如果指标差值为负且超过显著性阈值，则可表明实验收益为负，那么说明第二策略的优化没有多大改变，即表明目标指标下第一策略较优。根据测试结果，可以决定是否对第二策略进行上线，即发布该测试产品，或者是否需要对第二策略进行优化等。

本申请实例中，测试设备能够根据分组的用户占比确定分组的权重，进而根据权重、N个第一指标数据和N个第二指标数据得到指标差值以及方差，进而通过这些数据信息对第二策略进行测试，得到测试结果，从而根据测试结果对第二策略进行评估，由此可以提升测试效率，减短测试周期，并有助于提升测试可靠性。

下面将结合附图7对本申请实施例提供的测试装置进行详细介绍。需要说明的是，附图7所示的测试装置，用于执行本发明图5-图6所示的实施例的方法。

请参见图7，图7为本发明申请实施例提供的一种测试装置的结构示意图，该装置70包括：获取模块701、处理模块702、测试模块703，用于：

获取模块701，用于获取对照组用户在第一策略下小时单位的目标指标的信息，以及获取实验组用户在第二策略下小时单位的目标指标的信息；

所述获取模块701，还用于获取所述对照组用户和所述实验组用户的历史行为特征属性；

处理模块702，用于根据所述历史行为特征属性和所述小时单位的目标指标的信息进行分组处理，得到N个对照组对应的N个第一指标数据和N个实验组对应的N个第二指标数据；

测试模块703，用于根据所述N个第一指标数据和所述N个第二指标数据，对所述第二策略进行测试。

在一种可能的实现方式中，所述获取模块701，还用于分别获取所述N个对照组与所述N个实验组每组对应的权重；

所述测试模块703根据所述N个第一指标数据和所述N个第二指标数据，对所述第二策略进行测试，包括：

根据所述权重、所述N个第一指标数据和所述N个第二指标数据，对所述第二策略进行测试。

在一种可能的实现方式中，所述获取模块701获取所述N个对照组与所述N个实验组每组对应的权重，包括(具体用于)：

确定每个对照组中的用户在所述N个对照组中的用户占比，和/或，确定每个实验组中的用户在所述N个实验组中的用户占比；

根据每个对照组对应的用户占比确定所述N个对照组与所述N个实验组每组对应的权重，和/或，根据每个实验组对应的用户占比确定所述N个对照组与所述N个实验组每组对应的权重。

在一种可能的实现方式中，所述目标指标的信息是第一周期的信息；所述获取模块701获取所述对照组用户和所述实验组用户的历史行为特征属性，包括：

获取多个用户在第二周期的历史行为特征属性，所述多个用户包括所述对照组用户与所述实验组用户；

其中，所述第二周期早于所述第一周期，且所述第二周期与系统时间或第一周期的时间间隔大于或等于预设时间阈值。

在一种可能的实现方式中，所述测试模块703根据所述N个第一指标数据和所述N个第二指标数据，对所述第二策略进行测试，包括：

根据所述N个第一指标数据和所述N个第二指标数据，得到所述N个对照组和所述N个实验组之间的指标差值和方差；

根据所述N个对照组和所述N个实验组之间的指标差值和方差，对所述第二策略进行测试。

在一种可能的实现方式中，所述测试模块703根据所述N个对照组和所述N个实验组之间的指标差值和方差，对所述第二策略进行测试，包括：

确定所述指标差值与所述方差的差值；

根据所述差值与两倍标准差对所述第二策略进行测试，所述标准差为所述N个对照组和所述N个实验组之间的方差的标准差。

在一种可能的实现方式中，所述历史行为特征属性包括平均使用时长、平均点击量中的一种或者多种。

本申请实例中，利用处理模块702，根据获取模块701获取到的第一策略下对照组和第二策略下实验组的目标指标的信息、实验组和对照组的历史行为特征属性进行分组，得到N个对照组的N个第一指标数据和N个实验组的N个第二指标数据，最后测试模块703基于N个第一指标数据和N个第二指标数据对第二策略进行测试，以达到对第二策略的评估。通过该实施例，基于用户的历史行为特征属性以及小时单位下的目标指标的信息的测量，有助于解决指标空转波动大的问题，可以提升测试效率，减短测试周期，并有助于避免抽样算法在某些人群中存在局部的偏差，造成整体效果有偏差的问题，提升了测试可靠性。

请参见图8，为本申请实施例提供了一种测试设备的结构示意图。图8所示，该测试设备可以包括：至少一个处理器801，存储器805。可选的，该测试设备还可以包括输入设备803，和/或，输出设备804，和/或，至少一个通信总线802。其中，通信总线802用于实现这些组件之间的连接通信。其中，输入设备803可以是控制面板、麦克风、接收器等，输出设备804可以是显示屏、发送器等。其中，存储器805可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器805可选的还可以是至少一个位于远离前述处理器801的存储装置。其中处理器801可以结合图7所描述的装置，存储器805中存储一组程序代码，且处理器801，输入设备803，输出设备804调用存储器805中存储的程序代码，用于执行以下操作：

在一种可能的实现方式中，所述处理器801，还用于分别获取所述N个对照组与所述N个实验组每组对应的权重；

所述处理器801根据所述N个第一指标数据和所述N个第二指标数据，对所述第二策略进行测试，具体用于：

在一种可能的实现方式中，所述处理器801获取所述N个对照组与所述N个实验组每组对应的权重，具体包括：

在一种可能的实现方式中，所述目标指标的信息是第一周期的信息；所述处理器801获取所述对照组用户和所述实验组用户的历史行为特征属性，具体包括：

在一种可能的实现方式中，所述处理器801根据所述N个第一指标数据和所述N个第二指标数据，对所述第二策略进行测试，具体包括：

在一种可能的实现方式中，所述处理器801根据所述N个对照组和所述N个实验组之间的指标差值和方差，对所述第二策略进行测试，具体包括：

确定所述指标差值与所述方差的差值；

本申请实例中，处理器801根据获取到的第一策略下对照组和第二策略下实验组的目标指标的信息、实验组和对照组的历史行为特征属性进行分组，得到N个对照组的N个第一指标数据和N个实验组的N个第二指标数据，最后基于N个第一指标数据和N个第二指标数据对第二策略进行测试，以达到对第二策略的评估。通过该实施例，基于用户的历史行为特征属性以及小时单位下的目标指标的信息的测量，有助于解决指标空转波动大的问题，可以提升测试效率，减短测试周期，并有助于避免抽样算法在某些人群中存在局部的偏差，造成整体效果有偏差的问题，提升了测试可靠性。

本发明实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述实施例中所执行的步骤。可选的，该计算机可读存储介质可以是易失性的，也可以是非易失性的。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述数据分析实施例中所执行的步骤。

应当理解，在本申请实施例中，所称处理器801可以是中央处理模块(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种测试方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

分别获取所述N个对照组与所述N个实验组每组对应的权重；

所述根据所述N个第一指标数据和所述N个第二指标数据，对所述第二策略进行测试，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述N个对照组与所述N个实验组每组对应的权重，包括：

4.根据权利要求1所述的方法，其特征在于，所述目标指标的信息是第一周期的信息；所述获取所述对照组用户和所述实验组用户的历史行为特征属性，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述N个第一指标数据和所述N个第二指标数据，对所述第二策略进行测试，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述N个对照组和所述N个实验组之间的指标差值和方差，对所述第二策略进行测试，包括：

确定所述指标差值与所述方差的差值；

7.根据权利要求1所述的方法，其特征在于，所述历史行为特征属性包括平均使用时长、平均点击量中的一种或者多种。

8.一种测试装置，其特征在于，所述装置包括：

9.一种测试设备，其特征在于，所述设备包括：处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。