CN112395552A - 数据处理方法以及装置 - Google Patents

数据处理方法以及装置 Download PDF

Info

Publication number
CN112395552A
CN112395552A CN201910754937.0A CN201910754937A CN112395552A CN 112395552 A CN112395552 A CN 112395552A CN 201910754937 A CN201910754937 A CN 201910754937A CN 112395552 A CN112395552 A CN 112395552A
Authority
CN
China
Prior art keywords
product
data
user
strategy
experimental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910754937.0A
Other languages
English (en)
Inventor
钱橙
王汪
吴铭津
冯梦琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910754937.0A priority Critical patent/CN112395552A/zh
Publication of CN112395552A publication Critical patent/CN112395552A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Pure & Applied Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据处理方法以及装置,获取多个第一数据;确定多个第一数据符合的概率密度函数;获取至少一个第二数据;确定表征至少一个第二数据符合概率密度函数的概率值;至少基于概率值,获得表征针对目标产品采用产品策略对用户是否有效的实验结论。本申请考虑了在未针对目标产品采用产品策略的情况下实验组和对照组差异性,即多个第一数据,以及,在针对目标产品采用产品策略的情况下实验组和在未针对目标产品采用产品策略的情况下对照组的差异性,即多个第二数据,之间是否符合同一概率密度函数的概率值,获得实验结论,所以该实验结论较准确。

Description

数据处理方法以及装置
技术领域
本申请涉及数据处理技术领域,更具体的说,是涉及一种数据处理方法以及装置。
背景技术
产品策略是企业为了在激烈的市场竞争中获得优势,在生产、销售产品时所运用的一系列措施和手段,例如,产品的优惠促销活动,网页的外观设计等等。为了检验产品策略对用户而言是否有效,一般都需要进行A/B测试(即AB test)。下面以产品策略为网页的外观设计为例,对A/B测试进行说明。
A/B测试是一种分离式组间实验,首先划分两个用户群组,一个用户群组为实验组,一个用户群组为对照组,针对实验组中的用户采用产品策略,针对对照组中的用户不采用产品策略;假设测试页面(采用产品策略的B页面)在标题字体、背景颜色、布局设置或措辞等方面与原有页面(未采用产品策略的A页面)不同,将B页面推送给实验组,将A页面推送给对照组;假设实验组中通过B页面达到网站内页的用户占比为20%,对照组中通过A页面达到网站的用户占比为6%,说明测试页面是得到用户喜欢的,即产品策略对用户而言是有效的。可见,A/B测试其实是一种“先验”的实验体系,属于预测型结论,与“后验”的归纳性结论差别巨大。A/B测试的目的在于通过科学的实验设计、采样样本代表性、流量分割与小流量测试等方式来获得具有代表性的实验结论,并确信该结论在推广到全部流量可信。
目前,A/B测试基于实验组与对照组的差异性,确定产品策略对用户而言是否有效不准确。
发明内容
有鉴于此,本申请提供了一种数据处理方法以及装置,以提高实验结论的准确性。
为实现上述目的,本申请提供如下技术方案:
第一方面,一种数据处理方法,包括:
获取在未针对目标产品采用产品策略的情况下的多个第一数据,一个所述第一数据表征同一时间段在未针对所述目标产品采用所述产品策略的情况下,实验组的用户结果数据与对照组的用户结果数据的差值;所述实验组包括多个第一用户;所述对照组包括多个第二用户;
确定多个所述第一数据符合的概率密度函数;
获取至少一个第二数据,一个所述第二数据表征同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下所述对照组的用户结果数据的差值;
确定表征所述至少一个第二数据符合所述概率密度函数的概率值;
至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
第二方面,一种数据处理装置,包括:
第一获取模块,用于获取在未针对目标产品采用产品策略的情况下的多个第一数据,一个所述第一数据表征同一时间段在未针对所述目标产品采用所述产品策略的情况下,实验组的用户结果数据与对照组的用户结果数据的差值;所述实验组包括多个第一用户;所述对照组包括多个第二用户;
第一确定模块,用于确定多个所述第一数据符合的概率密度函数;
第一确定模块,用于获取至少一个第二数据,一个所述第二数据表征同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下所述对照组的用户结果数据的差值;
第二确定模块,用于确定表征所述至少一个第二数据符合所述概率密度函数的概率值;
第二获取模块,用于至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
可以理解的是,实验组与对照组在采用产品策略之前用户结果数据可能就存在差异,若不考虑该差异,仅基于在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差异性,确定产品策略对用户而言是否有效,是不准确的,因为这个差异性可能在实验组和对照组均未采用产品策略之前就已经存在了。
为了解决这个问题,本申请提供了一种数据处理方法,本申请考虑了在未针对所述目标产品采用所述产品策略的情况下的实验组和对照组差异性,即多个第一数据,以及,在针对所述目标产品采用所述产品策略的情况下实验组和在未针对所述目标产品采用所述产品策略的情况下对照组的差异性,即多个第二数据,之间是否符合同一概率密度函数的概率值,获得实验结论。所以该实验结论比较准确。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为目前获得在针对目标产品采用产品策略的情况下实验组和在未针对目标产品采用产品策略的情况下对照组的用户占比示意图;
图2为本申请实施例提供的一种数据处理方法流程图;
图3为获得同一时间段实验组和对照组的用户结果数据示意图;
图4示例了多个第一数据符合的概率密度函数示意图;
图5为多个第一数据和多个第二数据的示意图;
图6a-6b为第二数据的平均值与图4中的概率密度函数组成的面积示意图;
图7a至图7b为各实验时间对应的电池包含的电池格的数目示意图;
图8为本申请实施例提供的一种数据处理装置结构示意图;
图9为本申请实施例提供的一种数据处理设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,在一个产品策略生成后,可能不会直接上线应用,而是需要对该产品策略进行测试,以检验该产品策略对用户而言是否有效;若无效,及时调整产品策略,以使产品策略对用户而言有效后上线应用。
目前,可以通过A/B测试来检验产品策略对用户而言是否有效,以产品策略为网页的外观设计为例。具体可以参见背景技术中介绍,为实验组推送采用产品策略的B页面,并为对照组推送未采用产品策略的A页面,那么可以基于实验组中通过B页面访问网站内页的用户占比,与,对照组中通过A页面访问网站的用户占比的大小关系,确定产品策略对用户而言是否有效;若有效,则上线应用,即推广到全部用户,以使得全部用户可以通过B页面访问网站内页。
在上述方法中,基于采用产品策略的实验组,与,未采用产品策略的对照组的用户结果数据的差异性,来检验产品策略对用户而言是否有效,可以得到具有代表性的实验结论。但是,上述方法存在以下缺点:该方法是在假设实验组中通过A页面访问网站内页的用户占比,与,对照组中通过A页面访问网站的用户占比相等的基础上进行的测试,即上述方法存在一个假设,即假设未采用产品策略的实验组和未采用产品策略的对照组对应的用户占比相等,但是由于A/B测试业务环境复杂,例如,实验组中的用户数目和对照组中的用户数目可能分配不均,在实验组和对照组都未采用产品策略之前,实验组对应的用户占比与对照组对应的用户占比可能就存在差异,例如实验组中通过A页面访问网站内页的用户占比大于对照组中通过A页面访问网站的用户占比;那么即使最终测试结果为:实验组中通过B页面访问网站内页的用户占比大于对照组中通过A页面访问网站的用户占比,也不能说明用户喜欢B页面,即目前的方法得到的产品策略对用户而言是否有效的实验结论是不准确的;那么若上线应用,可能出现全部用户通过B页面访问网站内页的用户占比小于或等于全部用户通过A页面访问网站内页的用户占比,即产品策略对用户而言无效。
参见图1所示,实验统计了2月21日至3月9日实验组以及对照组分别通过A网页访问网站内页的用户占比,其中实线折线表示实验组中通过A页面访问网站内页的用户占比,虚线折线表示对照组中通过A页面访问网站内页的用户占比。由图1可知,以天为单位,那么实验组中通过A页面访问网站内页的平均用户占比本身就大于对照组中通过A页面访问网站内页的平均用户占比,那么即使实验组中通过B页面访问网站内页的平均用户占比大于对照组中通过A页面访问网站内页的平均用户占比,那么也不能说明产品策略对用户而言有效,即得到的产品策略对用户而言是否有效的实验结论是不准确的。
针对于此,本申请提供了一种数据处理方法以及装置。
上述装置可包括运行于终端中的数据处理装置和运行于后台服务器/平台中的数据处理装置。
上述终端可以是诸如台式机、移动终端(例如智能手机)、ipad等电子设备。在一个示例中,运行于终端中的数据处理装置可为运行在终端中的客户端,该客户端可以是应用程序客户端,也可以是网页客户端。
运行于后台服务器/平台中的数据处理装置可为服务器/平台的一个硬件组成部分,也可为功能模块或组件。
上述后台服务器或平台可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
下面对本申请提供的数据处理方法进行说明,请参阅图2,为本申请实施例提供的数据处理方法流程图,该方法包括:
步骤S100、获取在未针对目标产品采用产品策略的情况下的多个第一数据。
其中,一个所述第一数据表征同一时间段在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据,与,未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值;所述实验组包括多个第一用户;所述对照组包括多个第二用户;所述实验组包括多个第一用户;所述对照组包括多个第二用户。
在一可选实施例中,产品策略是对目标产品的外观设计、实验方案及产品概念等的统称。例如产品策略可以为:目标产品的优惠促销活动、目标产品的外观设计等,本申请不以此为限。
可选的,每一用户都有唯一的用户标识,例如用户ID(Identity Document,身份标识号),可选的,用户ID可以为用户手机号或用户账号等等。在一可选实施例中,可以基于用户标识,将上述多个用户划分为两个用户群组,一个用户群组为实验组,一个用户群组为对照组,例如,将用户标识包含的数字之和小于或等于阈值A的用户划分为实验组;将用户标识包含的数字之和大于阈值A的用户划分为对照组;其中,将实验组包含的用户定义为第一用户,将对照组包含的用户定义为第二用户。这里,第一用户和第二用户的数量可以相同,也可以不同。
阈值A的具体数值可以依据实际情况而定,例如,阈值A的具体数值可以为50、60、70等任意整数值。
在一可选实施例中,目标产品可以为APP(Application,应用程序),或,网页客户端,或,食物,或,穿戴产品,或,电子产品等等。本申请对此不进行限制。
下面以产品策略对应的目标产品为网页客户端为例,对实验组和对照组的划分过程进行说明,假设测试页面(在针对所述目标产品采用所述产品策略的情况下B页面)为打折促销页面,原有页面(在未针对所述目标产品采用所述产品策略的情况下A页面)为未进行打折促销的页面。那么若用户想要通过A页面或B页面购买商品,需要先进行登陆,例如通过手机号码以及登陆密码进行登陆,那么可以基于用户的手机号码,将登陆网页客户端的所有用户划分为对照组和实验组,例如将手机号码尾号大于或等于5的用户划分为对照组,将手机号码尾号小于5的用户划分为实验组。可以理解的是,用户手机尾号为随机分配的,那么对照组和实验组分别包含的用户数量可能相同,也可能不同。
考虑到未采用产品策略时,对照组和实验组的用户结果数据可能不同,即实验组与对照组在采用产品策略之前用户结果数据可能就存在差异,若不考虑该差异,仅基于在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差异性,得到产品策略对用户而言是否有效的实验结论,是不准确的,因为这个差异性可能在实验组和对照组均未采用产品策略之前就已经存在了。
那么本申请可以获取同一时间段,在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值,以获取多个第一数据,以使得确定实验结论时可以充分考虑该第一数据,即确定产品策略对用户而言是否有效时,可以充分考虑未采用产品策略时,对照组和实验组的用户结果数据的差异。
需要说明的是,每一第一数据都是基于同一时间段,在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值得到的。
在一可选实施例中,一个第一数据就是同一时间段,在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据a与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据b的差值;或者,一个第一数据就是同一时间段,在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据b与在未针对所述目标产品采用所述产品策略的情况下实验组组的用户结果数据a的差值。
当然,上述第一数据为差值仅为示例,除此之外,第一数据还可以是其他,例如,第一数据为(a-b)/b,或者,第一数据为(b-a)/b,或者,第一数据为(a-b)/a,或者,第一数据为(b-a)/a,具体可以根据实际需要确定。
在一可选实施例中,一个时间段可以为一个小时、一天、一周、一个月中任一种,当然,上述时间段还可以是其他,具体可以根据产品策略的不同而有所调整。
若时间段为一天,上述同一时间段即为同一天,一个第一数据表征同一天在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据,与,在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值。
例如将在未针对所述目标产品采用所述产品策略的情况下A页面同时推送至实验组的第一用户和对照组的第二用户,使其能够看到A页面,那么可以得到第一用户和第二用户在3月4日至3月14日期间的用户结果数据,具体可以参见图3黑色加粗直线左侧所示。其中实线折线为在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据,虚线折线为在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据。那么可以基于图3黑色加粗直线左侧所示用户结果数据,得到在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值,以得到多个第一数据,其中,图3是以时间段为一天为例进行说明的,由于在未针对所述目标产品采用所述产品策略的情况下的时间为3月4日至3月14日,总共11天,因此,有11个第一数据。其中,3月4日至3月14日分别对应一个第一数据。
上述实验组的用户结果数据是指实验组中多个第一用户针对在未针对所述目标产品采用所述产品策略的情况下产品的响应结果;对照组的用户结果数据是指对照组中一个或多个第二用户针对在未针对所述目标产品采用所述产品策略的情况下产品的响应结果。
在一可选实施例中,用户结果数据的表现形式可以为数值形式,也可以是基于该具体数值得到的比值,即百分比形式。产品不同,用户结果数据的表现形式可能不同。本申请实施例中,用户结果数据并不局限于具体数值或比值,还可以根据需要设置为其他。
以产品策略对应的产品为QQ看点应用程序为例,那么用户结果数据可以是用户的上线数量或者用户使用QQ看点的流量,或者,用户的上线比例等。
步骤S110、确定多个所述第一数据符合的概率密度函数。
在一可选实施例中,确定的多个第一数据符合的概率密度函数可以包括但不限于以下几种:均匀分布的概率密度函数、正态分布的概率密度函数、指数分布的概率密度函数、伽马分布的概率密度函数、泊松分布的概率密度函数、T分布的概率密度函数、F分布的概率密度函数、Z分布的概率密度函数。
例如基于图3黑色加粗直线左侧所示用户结果数据,可以得到图4所示多个第一数据符合的概率密度函数。
步骤S120、获取至少一个第二数据。
其中,一个所述第二数据表征同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下所述对照组的用户结果数据的差值。
在一产品策略生成后,通常需要通过多个用户(即上述多个第一用户以及多个第二用户)对产品策略进行测试,本申请可以获取对产品策略的测试结果,即可以获取同一时间段,在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据与在针对所述目标产品采用所述产品策略的情况下所述实验组的用户结果数据;本申请还可以确定上述两个用户结果数据的差值,以确定多个第二数据,以至少基于多个第一数据和第二数据,得到实验结论。
需要说明的是,每一第二数据都是基于同一时间段,在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据c与在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据d的差值得到的。
在一可选实施例中,一个第二数据就是同一时间段,在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据与在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据的差值;或者,同一时间段,在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值。
当然,上述第二数据为差值仅为示例,除此之外,第二数据还可以是其他,例如,第二数据为(d-c)/c,或者,第二数据为(c-d)/c,或者,第二数据为(d-c)/d,或者,第二数据为(c-d)/d,具体可以根据实际需要确定。
上述时间段以及用户结果数据可以参见步骤S100介绍,这里不再详细赘述。
假设,时间段为一天,仍以图3为例,假设,在3月15号将采用产品策略(例如打折促销活动)的B页面推送至实验组的第一用户,将未采用产品策略的原始页面A页面推送至对照组的第二用户。那么可以得到第一用户和第二用户在3月15日至3月21日期间的用户结果数据,具体可以参见图3黑色加粗直线右侧所示。其中实线折线为采用产品策略的实验组的用户结果数据,虚线折线仍为未采用产品策略的对照组的用户结果数据。那么可以基于图3黑色加粗直线右侧所示用户结果数据,得到采用产品策略的实验组的用户结果数据与未采用产品策略的对照组的用户结果数据的差值,以得到一个或多个第二数据。由于采用产品策略的时间为3月15日至3月21日,总共7天,那么可以得到7个第二数据,其中,3月15日至3月21日分别对应一个第二数据。
步骤S130、确定表征所述至少一个第二数据符合所述概率密度函数的概率值。
本申请可以基于第一数据符合的概率密度函数以及第二数据符合的概率密度函数为同一概率密度函数的概率,来确定实验结论。
上述概率值可以表征第一数据与第二数据属于同一个概率密度函数的可能性。
在一可选实施例中,步骤S130可以有多种实现方式,本申请提供但不限于以下两种:
第一种,获取所述至少一个第二数据的平均值;基于所述至少一个第二数据的平均值,以及多个第一数据符合的概率密度函数,确定概率值。
第二种,获取所述至少一个第二数据符合的概率密度函数;基于多个第一数据符合的概率密度函数,以及,所述至少一个第二数据符合的概率密度函数,来确定概率值。
步骤S140、至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
可以理解的是,上述概率值越大,即第一数据与第二数据属于同一个概率密度函数的概率越大,那么表征在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值,与,在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值大致相同,即产品策略对用户而言可能无效;反之,概率值越小,即第一数据与第二数据属于同一个概率密度函数的概率越小,那么表征在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值,与,在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值的差别较大,即产品策略对用户而言可能越有效。
本申请提供了一种数据处理方法,考虑了在未针对所述目标产品采用所述产品策略的情况下实验组和对照组的差异性,即多个第一数据,以及,在针对所述目标产品采用所述产品策略的情况下实验组和在未针对所述目标产品采用所述产品策略的情况下对照组的差异性,即多个第二数据,之间是否符合同一概率密度函数的概率值,获得实验结论。所以该实验结论比较准确。
在一可选实施例中,上述步骤S100获取的多个第一数据,以及步骤S120获取的至少一个第二数据可以有多种计算方法,本申请提供但不限于以下三种。
第一种:一个第一数据为同一时间段在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值;那么一个第二数据为同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值。
例如,假设同一时间段,在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据为a,在未针对所述目标产品采用所述产品策略的情况下的对照组的用户结果数据为b;那么第一数据为:a-b。
假设同一时间段,在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据为a',在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据为b',第二数据为a'-b'。
第二种:一个第一数据为同一时间段在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据的差值;那么一个第二数据为同一时间段在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据与在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据的差值。
例如,假设同一时间段,在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据为a,在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据为b;那么第一数据为:b-a。
假设同一时间段,在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据为a',在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据为b',第二数据为b'-a'。
第三种:一个所述第一数据为,同一时间段第一差值与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的比值,这里第一差值是指同一时间段在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值;一个所述第二数据为,同一时间段第二差值与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的比值,这里第二差值是指同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值。
例如,假设同一时间段,在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据为a,在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据为b;那么第一数据为:(a-b)/b。
假设同一时间段,在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据为a',在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据为b',第二数据为(a'-b')/b'。
可选的,第一数据可以为:(b-a)/b;第二数据为(b'-a')/b'。
可选的,第一数据可以为:(b-a)/a;第二数据为(b'-a')/a'。
可选的,第一数据可以为:(a-b)/a;第二数据为(a'-b')/a'。
前述实施例已经说明了,在步骤S130提供了两种确定表征所述至少一个第二数据符合步骤S110得到的概率密度函数的概率值的方法。本实施例可以对其中第一种实现方式的具体过程进行说明,即上述步骤S130,确定表征所述至少一个第二数据符合所述概率密度函数的概率值的过程具体可以包括:
A1、获取所述至少一个第二数据的平均值。
假设,第一数据为:(a-b)/b,第二数据为(a'-b')/b',仍以图3为例进行说明。那么,图3对应的多个第一数据和多个第二数据可以参见图5所示。
如图5所示,3月4号至3月14号对应的11个第一数据分别为:-0.26%、-0.2%、-0.11%、-0.07%、-0.08%、0.02%、-0.04%、0.06%、-0.23%、-0.09%、0.08%。
假设11个第一数据符合的概率密度函数如图4所示。图4的横坐标是以第一数据作为变量。
如图5所示,3月15至3月21对应的7个第二数据分别为:-0.5%、-0.5%、-0.7%、-0.78%、-0.87%、-0.93%、-0.98%。
7个第二数据的平均值为:
((-0.5%)+(-0.5%)+(-0.7%)+(-0.78%)+(-0.87%)+(-0.93%)+(-0.98%))/7=-0.751429%。
A2、基于所述平均值与所述概率密度函数,确定所述概率值。
基于所述平均值与所述概率密度函数,确定概率值的方法有多种实现方式,本申请提供但不限于以下两种。
第一种,若至少一个第二数据的平均值μ2大于或等于上述概率密度函数对应的均值μ1,则可以确定平均值μ2位于上述概率密度函数对应的均值μ1的右侧,如图6a所示;那么可以基于上述概率密度函数位于平均值μ2右侧的面积,即图6a所示的面积S1(用“网状填充的”区域),得到上述概率值。即将面积S1作为概率值。
若至少一个第二数据的平均值μ2小于上述概率密度函数对应的均值μ1,则可以确定平均值μ2位于上述概率密度函数对应的均值μ1的左侧,则可以确定可以基于上述概率密度函数位于平均值μ2左侧的面积,即图6b所示的面积S2(用“网状填充的”区域),得到上述概率值。即将面积S2作为概率值。
例如,假设至少一个第二数据的平均值μ2为-0.751429%,多个第一数据对应的概率密度函数对应的均值μ1=-0.085%;由于μ2小于μ1,那么图6b所示位于该平均值μ2左侧的面积S2可以表示概率值。假设基于多个第一数据确定的概率密度函数为fX(x),那么得到的概率值可以为:
Figure BDA0002168439820000141
再例如,假设至少一个第二数据的平均值μ2为0.02%,多个第一数据对应的概率密度函数对应的均值μ1=-0.085%,由于μ2大于μ1,那么图6a所示平均值μ2左侧的面积S1可以表示概率值。假设基于多个第一数据确定的概率密度函数为fX(x),那么得到的概率值可以为:
Figure BDA0002168439820000142
应当理解,由于上述面积最大为概率密度函数与横坐标组成的面积的一半,那么基于上述方法得到的概率值的最大值为0.5。
在一可选实施例中,可以设定至少一个显著性阈值,进而基于该概率值与显著性阈值的大小关系,确定实验结论。
在一可选实施例中,实验结论可以包括显著性水平。
在一可选实施例中,显著性水平可以包括:显著和不显著。其中,显著性水平为显著下,对应的实验结论为产品策略对用户而言有效;显著性水平为不显著下,对应的实验结论为产品策略对用户而言无效;显著性水平处于显著和不显著之间,对应的实验结论为需要继续观察产品策略对用户的影响。
在一可选实施例中,显著性水平还可以用具体数值或百分比形式表示。
当然,本申请实施例中实验结论并不局限于上述介绍。
在一可选实施例中,显著性阈值包括:第一阈值(例如,0.001)和第三阈值(例如,0.05),那么概率值与实验结论的对应关系可以参见下述表1所示。
表1概率值与实验结论的对应关系
Figure BDA0002168439820000151
第二种,预先设置概率值与上述面积的映射关系,进而基于该映射关系以及面积,得到概率值。
例如映射关系为:概率值=面积*2。
目前,在检验产品策略对用户而言是否有效时,通常以用户结果数据符合特定分布,例如正态分布为假设前提进行实验。但是由于实际情况下得到的用户结果数据通常具有周期性,例如在图1所示A/B测试实验中,由于周中周末效应、节假日效应等情况,使得用户结果数据不符合特定分布,那么若仍假设用户结果数据符合特定分布来进行实验,那么最终得到的实验结论可能有误,即确定的产品策略对用户而言是否有效的实验结论是不准确的。
例如,图1中各数据可以看到明显的周期性波动,例如周末(例如,2月23-24日,3月2-3日等)时各用户结果数据相比周一至周五(2月25日至3月1日)会上涨15%-20%,因此不符合正态分布。但是目前的方法仍假设其服从正态分布,那么基于正态分布计算得到的实验结论不准确。
在一可选实施例中,为了解决上述问题,本申请引入核密度估计方法来确定多个第一数据符合的概率密度函数,即上述步骤S110,确定多个所述第一数据符合的概率密度函数的过程具体可以包括:
基于核密度估计方法,确定多个所述第一数据符合的概率密度函数。
下面对核密度估计方法进行说明。
核密度估计(kernel density estimation)方法是用来估计未知的密度函数,属于非参数检验方法之一。和参数估计不同,非参数估计并不加入任何先验知识,而是根据数据本身的特点以及性质来拟合分布,即采用平滑的峰值函数(“核”)来拟合观察到的数据点,对真实的概率分布曲线进行模拟。
相比于目前的方法,本申请基于核密度估计算法,得到的多个第一数据符合的概率密度函数更真实可信,并且核密度估计方法对数据的真实分布没有特别要求,因此可以规避周中周末效应、节假日效应等带来的影响,适用性更广泛。
可以理解的是,随着实验时间(实验时间是指在针对所述目标产品采用所述产品策略的情况下的时间)的累加,获得的第二数据在不断增多,那么基于更多的第二数据可以得到更准确的概率值,从而可以得到更准确的实验结论。即不同实验时间下得到的实验结论可能不同;并且实验时间越长,实验结论可能越准确。
在一可选实施例中,在持续实验过程(即在针对所述目标产品采用所述产品策略的情况下实验组持续的过程)中,可以不断给出实验结论。例如,时间段为一天为例,那么,实验持续一天,可以获得一个第二数据;实验持续两天可以获得两个第二数据,实验持续三天可以获得三个第二数据,依次类推。可选的,可以分别获得实验持续一天时对应的实验结论,实验持续两天时对应的实验结论,实验持续三天时对应的实验结论,依次类推。
在一可选实施例中,上述步骤S120,获取至少一个第二数据的过程可以包括:
获取在产品策略累计采用时长对应的时间区间的至少一个第二数据;所述产品策略累计采用时长是指在所述实验组开始采用所述产品策略并持续采用所述产品策略到当前时间的总时长。即,时间区间为[实验组开始采用所述产品策略的时间,当前时间]。
应当理解,产品策略累计采用时长越长,那么得到第二数据的数目就越多,第二数据的数目越多,得到的概率值的准确度就越高,相应的,得到的实验结论的准确度就越高。
随着实验的持续,当前时间在不断发生变化,产品策略累计采用时长不断增加,累计得到的第二数据的数目越多;不同当前时间对应的概率值可能不同,即不同当前时间对应的实验结论可能不同。那么在一可选实施例中,上述步骤S140,至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论的过程具体可以包括:
至少基于所述概率值,获得在当前时间下的表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
本申请实施例中,由于上述概率值可以表征第一数据与第二数据属于同一个概率密度函数的可能性大小,产品策略累计采用时长对应的时间区间越大,得到的第二数据的数目越多,那么基于在产品策略累计采用时长对应的时间区间的多个第二数据,可以得到更准确可信的概率值,那么至少基于该概率值,得到的当前时间下的表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论更准确。
若产品策略累计采用时长对应的时间区间越小,那么得到的第二数据的数目较少,那么基于较少的第二数据得到的概率值可能不准确,进而获得的在当前时间下的表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论可能不准确。例如若实验时间很短,那么即使产品策略对用户有效,也可能获得表征产品策略对用户无效的实验结论,即可能该无效并不是由于产品策略导致,而是由于第二数据的数量太少导致的实验结论不可信。
在一可选实施例中,为了得到更准确的实验结论,上述步骤S140,至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论的过程具体可以包括:
基于所述概率值以及产品策略累计采用时长,获取所述实验结论;所述产品策略累计采用时长是指在所述实验组开始采用所述产品策略并持续采用所述产品策略到当前时间的总时长。
在一可选实施例中,可以预设概率值的阈值,以及产品策略累计采用时长的阈值,以基于该至少两个阈值,确定最终的实验结论。那么,本步骤获得的实验结论有多种情况,接下来本申请分别介绍。
第一种:
若所述概率值小于或等于第一阈值,且,所述产品策略累计采用时长大于或等于第二阈值,获取在所述当前时间下表征所述产品策略对用户有效的实验结论。
前述已经说明了,概率值越小,那么产品策略对用户而言可能越有效,即可以获得表征产品策略对用户有效的实验结论;而产品策略采用累积时长越长,得到的第二数据的数量就越多,得到的概率值就越准确,那么获取的在当前时间下表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论越准确。
在一可选实施例中,第二阈值是指可以获取准确的实验结论的实验时间。
需要说明的是,上述第一阈值以及第二阈值可以根据实际需要确定,本申请对此不作具体限定。例如,第一阈值可以为0.001,第二阈值可以为5天。
第二种:
若所述概率值大于或等于第三阈值,且,所述产品策略累计采用时长大于或等于所述第二阈值,获取在所述当前时间下表征所述产品策略对用户无效的实验结论。
前述已经说明了,概率值越大,那么产品策略对用户而言可能越无效,即可以获得表征产品策略对用户无效的实验结论;而产品策略采用累积时长越长,得到的第二数据的数量就越多,得到的概率值就越准确,那么获取的在当前时间下表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论越准确。
需要说明的是,上述第三阈值以及第二阈值可以根据实际需要确定,本申请对此不作具体限定。例如,第三阈值可以为0.005。
第三种:
若所述概率值大于所述第一阈值,且,小于所述第三阈值,且,所述产品策略累计采用时长小于第二阈值,确定延长所述产品策略累计采用时长,并获取在所述当前时间下表征需要继续观察所述产品策略对用户影响的实验结论。
前述已经说明了,产品策略采用累积时长越短,得到的第二数据的数量就越少,得到的概率值就越不准确,那么获取的在当前时间下表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论可能不准确。
在一可选实施例中,若产品策略累计采用时长小于第二阈值,表征在当前时间下,获取的实验结论可能不准确,那么可以延长产品策略累计采用时长,以使得实验时间足够长,即达到可以获取准确的实验结论的实验时间。
在一可选实施例中,在该产品策略累计采用时长小于第二阈值的情况下,若概率值大于第一阈值并且小于第三阈值,那么可以获取在当前时间下表征需要继续观察产品策略对用户影响的实验结论,即可能同一时间段在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值,以及,同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下所述对照组的用户结果数据的差值,的差距不明显,那么需要继续延长产品策略累计采用时长,以继续观察产品策略对用户的影响。
综上,本申请将产品策略累计采用时长与概率结合起来,确定实验结论,使得实验结论更准确。
在一可选实施例中,步骤S140获取的表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论可以显示出来,以使得实验人员可以看到该实验结论,并基于实验结论确定是否需要调整产品策略。
在一可选实施例中,实验结论可以用电池包含的电池格的数目表征,本申请实施例提供但不限于以下表征方式。
第一种表征方式,所述电池包含的电池格大于或等于第四阈值,对应在所述当前时间下表征所述产品策略对用户有效的实验结论。
假设时间段为一天,第四阈值为4个电池格。
如图7a(与图3对应)所示,3月19日至3月21日对应的电池包含的电池格数目均为4个电池格,因此,包含大于或等于四个电池格的电池表征当前时间(即3月19日至3月21日中的任一日期)的实验结论为产品策略对用户有效的实验结论。
在一可选实施例中,电池包含的电池格的数目还可以表征产品策略累计采用时长,即若电池包含的电池格大于或等于第四阈值,还表征产品策略累计采用时长大于或等于第二阈值,即产品策略累计采用时长对应的时间区间中的第二数据的数目已经达到可以获取准确的实验结论的数量。
假设时间段为一天,第四阈值为4个电池格,第二阈值为5天。
仍以上述图7a为例,结合图3可知,3月15日为实验持续的第一天,3月19日至3月21日实验持续时间大于或等于5天,即产品策略累计采用时长大于或等于5天;包含大于或等于四个电池格的电池表征当前时间(即3月19日至3月21日中的任一日期)的实验结论为产品策略对用户有效的实验结论,且,产品策略累计采用时长大于或等于5天。
第二种表征方式,所述电池包含的电池格小于或等于第五阈值,对应在所述当前时间下表征所述产品策略对用户无效的实验结论。
假设,第四阈值为4个电池格,第五阈值为0个电池格。
如图7b(与图3对应)所示,3月19日至3月21日对应的电池包含的电池格的数目等于0个电池格,因此,包含小于或等于第五阈值的电池格的电池表征当前时间(即3月19日至3月21日中的任一日期)的实验结论为表征产品策略对用户无效的实验结论。
在一可选实施例中,电池包含的电池格的数目还可以表征产品策略累计采用时长。即若电池包含的电池格小于或等于第五阈值,还表征产品策略累计采用时长大于或等于第二阈值,即产品策略累计采用时长对应的时间区间中的第二数据的数目已经达到可以获取准确的实验结论的数量。
假设,第四阈值为4个电池格,第五阈值为0个电池格,第二阈值为5天。
仍以上述图7b为例进行说明,结合图3可知,3月15日为实验持续的第一天,3月19日至3月21日实验持续时间大于或等于5天,即产品策略累计采用时长大于或等于5天;包含小于或等于第五阈值的电池格的电池表征当前时间(即3月19日至3月21日中的任一日期)的实验结论为表征产品策略对用户无效的实验结论,且,产品策略累计采用时长大于或等于5天。
第三种表征方式,所述电池包含的电池格大于所述第五阈值,且,小于所述第四阈值,对应在所述当前时间下表征需要继续观察所述产品策略对用户影响,且,需要延长所述产品策略累计采用时长的实验结论;或者,对应在所述当前时间下表征所述产品策略对用户有效,且,需要延长所述产品策略累计采用时长的实验结论;或者,对应在当前时间下表征产品策略对用户无效,且需要延长所述产品策略累计采用时长的实验结论。
在一可选实施例中,若电池包含的电池格大于第五阈值,且小于第四阈值,表征产品策略累计采用时长小于第二阈值,即产品策略累计采用时长对应的时间区间中的第二数据的数目还未达到可以获取准确的实验结论的数量,需要增加产品策略累计采用时长,以得到更多的第二数据,以使得实验结论更加准确。
可选的,在电池包含的电池格数大于第五阈值且小于第四阈值的前提下,电池包含的电池格数目越多,说明产品策略对用户而言越有效。仍以图7a和图7b为例进行说明。
如图7a所示,3月15日为实验持续的第一天,即产品策略累计采用时长为1天(很小),所以包含一个电池格的电池表征在当前时间(即3月15日)下表征需要延长所述产品策略累计采用时长,以继续观察所述产品策略对用户影响的实验结论。由于产品策略累计采用时长为1天,仅有一个第二数据,所以可能无法得出产品策略是否对用户有效或无效的实验结论。
3月16日为实验持续的第二天,即产品策略累计采用时长为2天,所以得到的实验结论比3月15号得到的实验结论准确一些,包含两个电池格(比3月15日多一个电池格)的电池表征在当前时间(即3月16日)下表征产品策略对用户有效,且,需要延长所述产品策略累计采用时长,以继续观察产品策略对用户的影响的实验结论。3月17日(或3月18日)为实验持续的第三天(或第四天),即产品策略累计采用时长为3(或4)天,所以得到的实验结论比3月16号得到的实验结论准确一些,包含三个电池格(比3月16日多一个电池格,即电池包含的电池格的数目越来越多,表明实验结论的趋势倾向于产品策略对用户而言有效的实验结论)的电池表征在当前时间(3月17日或3月18日)下表征产品策略对用户有效,且,需要延长所述产品策略累计采用时长,以继续观察产品策略对用户的影响的实验结论。3月19日至3月21日实验持续时间大于5天,即产品策略累计采用时长大于或等于5天,所以得到的实验结论比较准确,包含四个电池格的电池表征产品策略对用户有效的实验结论。
如图7b所示,3月15日为实验持续的第一天,即产品策略累计采用时长为1天(很小),所以包含三个电池格(由于电池包含的电池格数目较多)的电池表征在当前时间(即3月15日)下表征产品策略对用户有效,且需要延长所述产品策略累计采用时长,以继续观察所述产品策略对用户影响的实验结论。3月16日为实验持续的第二天,即产品策略累计采用时长为2天,所以得到的实验结论比3月15号得到的实验结论准确一些,包含两个电池格的电池表征在当前时间(即3月16日)下表征产品策略对用户有效,且,需要延长所述产品策略累计采用时长,以继续观察产品策略对用户的影响的实验结论。3月17日为实验持续的第三天,即产品策略累计采用时长为3天,所以得到的实验结论比3月16号得到的实验结论准确一些,包含一个电池格的电池表征在当前时间(即3月17日)下表征产品策略对用户无效,且,需要延长所述产品策略累计采用时长,以继续观察产品策略对用户的影响的实验结论。3月18日为实验持续的第四天,即产品策略累计采用时长为4天,所以得到的实验结论比3月17号得到的实验结论准确一些,包含一个电池格的电池表征在当前时间(即3月18日)下产品策略对用户无效,且需要继续观察所述产品策略对用户影响的实验结论。
结合图7b可以看出,随着产品策略累计采用时长的增加,电池包含的电池格的数目越来越少,因此,实验结论的趋势倾向于产品策略对用户而言无效的实验结论。
3月19日至3月21日为实验持续时间大于或等于5天,所以得到的实验结论比较准确;包含零个电池格的电池表征产品策略对用户无效的实验结论。
通过图7a和图7b还可以看出,产品策略累计采用时长越短,得到的实验结论可能越不准确;随着产品策略累计采用时长的增加,第二数据的个数不断增多,得到的实验结论越来越准确。
在一可选实施例中,若电池包含的电池格大于或等于第四阈值,表征显著性水平为显著,那么实验结论为当前时间下产品策略对用户有效;若电池包含的电池格小于或等于第五阈值,表征显著性水平为不显著,那么实验结论为当前时间下产品策略对用户无效;若电池包含的电池格大于第五阈值,并且小于第四阈值,表征显著性水平介于显著和不显著之间,那么,实验结论为需要延长产品策略累计采用时长以继续观察产品策略对用户的影响;或者,实验结论为产品策略对用户有效,需要延长产品策略累计采用时长以继续观察产品策略对用户的影响;或者,实验结论为产品策略对用户无效,需要延长产品策略累计采用时长以继续观察产品策略对用户的影响。
结合图7a和图7b,一种电池包含的电池格的数目与实验结论的对应关系可以参见下述表2所示。假设电池包含的电池格总数目为第四阈值,第四阈值为4。假设时间段为天,且第二阈值为5天,第五阈值为0。
表2电池包含的电池格的数目与实验结论的对应关系
Figure BDA0002168439820000231
需要说明的是,上述表2仅为示例,并且上述实验结论中产品策略累计采用时长也为示例,除此之外还可以根据需要设置为其他。
还需要说明的是,本申请实施例中,第四阈值和第五阈值可以基于实际需要确定,本申请对此不作限定。
当然实验结论的显示形式还可以为其他,例如可以将实验结论用百分比的大小来表征,再例如,还可以将实验结论用具体数值的大小来表征。
综上,本申请可以以电池格的形式直观展示实验结论,使得用户迅速了解实验进度与效果。
在一可选实施例中,本申请还可以获取至少一个第二数据以及多个第一数据中的最大值。应当理解,若该最大值很小,即多个同一时间段,在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值,以及,多个同一时间段,在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下所述对照组的用户结果数据的差值中,最大的一个差值都很小,那么,表征在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据、在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据以及在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据之间差距都很小,即即使为实验组的第一用户推送在针对所述目标产品采用所述产品策略的情况下B页面,那么也不会因此产生多大影响,也即产品策略对用户而言无效。
基于此,在一可选实施例中,可以预先设置第六阈值,进而若上述获取的最大值大于或等于第六阈值,则可以执行上述步骤S140,至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论的过程;若最大值小于第六阈值,那么可以执行上述步骤S140,也可以不执行上述步骤S140。
综上,本申请将多个第二数据以及多个第一数据中的最大值与概率值结合起来确定实验结论,在最大值小于第六阈值时,可以不执行上述步骤S140,从而可以节省实验时间,提高实验效率。
上述本申请公开的实施例中详细描述了方法,对于本申请的方法可采用多种形式的装置实现,因此本申请还公开了一种装置,下面给出具体的实施例进行详细说明。
参见附图8,图8为本申请实施例公开的一种数据处理装置的结构示意图。
如图8所示,该装置可以包括:
第一获取模块81,用于获取在未针对目标产品采用产品策略的情况下的多个第一数据,一个所述第一数据表征同一时间段在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值;所述实验组包括多个第一用户;所述对照组包括多个第二用户;
第一确定模块82,用于确定多个所述第一数据符合的概率密度函数;
第二获取模块83,用于获取至少一个第二数据,一个所述第二数据表征同一时间段在针对所述目标产品采用所述产品策略的实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下所述对照组的用户结果数据的差值;
第二确定模块84,用于确定表征所述至少一个第二数据符合所述概率密度函数的概率值;
第三获取模块85,用于至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
可选的,上述第二确定模块可以包括:
第一获取单元,用于获取所述至少一个第二数据的平均值;
第一确定单元,用于基于所述平均值与所述概率密度函数,确定所述概率值。
可选的,上述第一确定模块可以包括:
第二确定单元,用于基于核密度估计方法,确定多个所述第一数据符合的概率密度函数。
可选的,上述第二获取模块可以包括:
第二获取单元,用于获取在产品策略累计采用时长对应的时间区间的至少一个第二数据;所述产品策略累计采用时长是指在所述实验组开始采用所述产品策略并持续采用所述产品策略到当前时间的总时长;
所述第三获取模块可以包括:
第三获取单元,用于至少基于所述概率值,获得在所述当前时间下的表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
可选的,上述第三获取模块可以包括:
实验结论获取单元,用于基于所述概率值以及产品策略累计采用时长,获取所述实验结论;所述产品策略累计采用时长是指在所述实验组开始采用所述产品策略并持续采用所述产品策略到当前时间的总时长。
可选的,上述实验结论获取单元可以包括以下至少一个:
第一实验结论获取子单元,用于若所述概率值小于或等于第一阈值,且,所述产品策略累计采用时长大于或等于第二阈值,获取在所述当前时间下表征所述产品策略对用户有效的实验结论;
第二实验结论获取子单元,用于若所述概率值大于或等于第三阈值,且,所述产品策略累计采用时长大于或等于所述第二阈值,获取在所述当前时间下表征所述产品策略对用户无效的实验结论;
第三实验结论获取子单元,用于若所述概率值大于所述第一阈值小于所述第三阈值,且,所述产品策略累计采用时长小于或等于第二阈值,确定延长所述产品策略累计采用时长,并获取在所述当前时间下表征需要继续观察所述产品策略对用户影响的实验结论。
可选的,所述实验结论获取单元中实验结论用电池包含的电池格的数目表征;
所述电池包含的电池格大于或等于第四阈值,对应在所述当前时间下表征所述产品策略对用户有效的实验结论;
所述电池包含的电池格小于或等于第五阈值,对应在所述当前时间下表征所述产品策略对用户无效的实验结论;
所述电池包含的电池格大于所述第五阈值,且,小于所述第四阈值,对应在所述当前时间下表征需要继续观察所述产品策略对用户影响,且,需要延长所述产品策略累计采用时长的实验结论;或者,对应在所述当前时间下表征所述产品策略对用户有效,且,需要延长所述产品策略累计采用时长的实验结论。
可选的,本申请实施例提供的数据处理装置还可以包括:
第四获取模块,用于获取所述至少一个第二数据以及多个所述第一数据中的最大值;
执行模块,用于若所述最大值大于或等于第六阈值,执行所述第三获取模块。
可选的,一个所述第一数据为,同一时间段第一差值与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的比值,所述第一差值是指同一时间段在未针对所述目标产品采用所述产品策略的情况下,实验组的用户结果数据与对照组的用户结果数据的差值;
一个所述第二数据为,同一时间段第二差值与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的比值,所述第二差值是指同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值。
本申请实施例提供的数据处理装置可应用于数据处理设备,如PC终端、云平台、服务器及服务器集群等。可选的,图9示出了数据处理设备的硬件结构框图,参照图9,数据处理设备的硬件结构可以包括:至少一个处理器91,至少一个通信接口92,至少一个存储器93和至少一个通信总线94;
在本申请实施例中,处理器91、通信接口92、存储器93、通信总线94的数量为至少一个,且处理器91、通信接口92、存储器93通过通信总线94完成相互间的通信;
处理器91可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器93可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器93存储有程序,处理器91可调用存储器93存储的程序,所述程序用于:
获取在未针对目标产品采用产品策略的情况下的多个第一数据,一个所述第一数据表征同一时间段在未针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与对照组的用户结果数据的差值;所述实验组包括多个第一用户;所述对照组包括多个第二用户;
确定多个所述第一数据符合的概率密度函数;
获取至少一个第二数据,一个所述第二数据表征同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下所述对照组的用户结果数据的差值;
确定表征所述至少一个第二数据符合所述概率密度函数的概率值;
至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述数据处理方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取在未针对目标产品采用产品策略的情况下的多个第一数据,一个所述第一数据表征同一时间段在未针对所述目标产品采用所述产品策略的情况下,实验组的用户结果数据与对照组的用户结果数据的差值;所述实验组包括多个第一用户;所述对照组包括多个第二用户;
确定多个所述第一数据符合的概率密度函数;
获取至少一个第二数据,一个所述第二数据表征同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下所述对照组的用户结果数据的差值;
确定表征所述至少一个第二数据符合所述概率密度函数的概率值;
至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
2.根据权利要求1所述数据处理方法,其特征在于,所述确定表征所述至少一个第二数据符合所述概率密度函数的概率值包括:
获取所述至少一个第二数据的平均值;
基于所述平均值与所述概率密度函数,确定所述概率值。
3.根据权利要求1所述数据处理方法,其特征在于,所述确定多个所述第一数据符合的概率密度函数包括:
基于核密度估计方法,确定多个所述第一数据符合的概率密度函数。
4.根据权利要求1所述数据处理方法,其特征在于,所述获取所述至少一个第二数据包括:
获取在产品策略累计采用时长对应的时间区间的至少一个第二数据;所述产品策略累计采用时长是指在所述实验组开始采用所述产品策略并持续采用所述产品策略到当前时间的总时长;
所述至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论包括:
至少基于所述概率值,获得在所述当前时间下的表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
5.根据权利要求1至4任一所述数据处理方法,其特征在于,所述至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论,包括:
基于所述概率值以及产品策略累计采用时长,获取所述实验结论;所述产品策略累计采用时长是指在所述实验组开始采用所述产品策略并持续采用所述产品策略到当前时间的总时长。
6.根据权利要求5所述数据处理方法,其特征在于,所述基于所述概率值以及所述产品策略累计采用时长,获取所述实验结论包括以下至少一个:
若所述概率值小于或等于第一阈值,且,所述产品策略累计采用时长大于或等于第二阈值,获取在所述当前时间下表征所述产品策略对用户有效的实验结论;
若所述概率值大于或等于第三阈值,且,所述产品策略累计采用时长大于或等于所述第二阈值,获取在所述当前时间下表征所述产品策略对用户无效的实验结论;
若所述概率值大于所述第一阈值,且,小于所述第三阈值,且,所述产品策略累计采用时长小于第二阈值,确定延长所述产品策略累计采用时长,并获取在所述当前时间下表征需要继续观察所述产品策略对用户影响的实验结论。
7.根据权利要求6所述数据处理方法,其特征在于,所述实验结论用电池包含的电池格的数目表征;
所述电池包含的电池格大于或等于第四阈值,对应在所述当前时间下表征所述产品策略对用户有效的实验结论;
所述电池包含的电池格小于或等于第五阈值,对应在所述当前时间下表征所述产品策略对用户无效的实验结论;
所述电池包含的电池格大于所述第五阈值,且,小于所述第四阈值,对应在所述当前时间下表征需要继续观察所述产品策略对用户影响,且,需要延长所述产品策略累计采用时长的实验结论;或者,对应在所述当前时间下表征所述产品策略对用户有效,且,需要延长所述产品策略累计采用时长的实验结论。
8.根据权利要求1所述数据处理方法,其特征在于,还包括:
获取所述至少一个第二数据以及多个所述第一数据中的最大值;
若所述最大值大于或等于第六阈值,执行步骤至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
9.根据权利要求1所述数据处理方法,其特征在于,一个所述第一数据为,同一时间段第一差值与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的比值,所述第一差值是指同一时间段在未针对所述目标产品采用所述产品策略的情况下,实验组的用户结果数据与对照组的用户结果数据的差值;
一个所述第二数据为,同一时间段第二差值与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的比值,所述第二差值是指同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下对照组的用户结果数据的差值。
10.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取在未针对目标产品采用产品策略的情况下的多个第一数据,一个所述第一数据表征同一时间段在未针对所述目标产品采用所述产品策略的情况下,实验组的用户结果数据与对照组的用户结果数据的差值;所述实验组包括多个第一用户;所述对照组包括多个第二用户;
第一确定模块,用于确定多个所述第一数据符合的概率密度函数;
第二获取模块,用于获取至少一个第二数据,一个所述第二数据表征同一时间段在针对所述目标产品采用所述产品策略的情况下实验组的用户结果数据与在未针对所述目标产品采用所述产品策略的情况下所述对照组的用户结果数据的差值;
第二确定模块,用于确定表征所述至少一个第二数据符合所述概率密度函数的概率值;
第三获取模块,用于至少基于所述概率值,获得表征针对所述目标产品采用所述产品策略对用户是否有效的实验结论。
CN201910754937.0A 2019-08-15 2019-08-15 数据处理方法以及装置 Pending CN112395552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910754937.0A CN112395552A (zh) 2019-08-15 2019-08-15 数据处理方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910754937.0A CN112395552A (zh) 2019-08-15 2019-08-15 数据处理方法以及装置

Publications (1)

Publication Number Publication Date
CN112395552A true CN112395552A (zh) 2021-02-23

Family

ID=74601676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910754937.0A Pending CN112395552A (zh) 2019-08-15 2019-08-15 数据处理方法以及装置

Country Status (1)

Country Link
CN (1) CN112395552A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254882A (zh) * 2021-06-07 2021-08-13 广州市百果园网络科技有限公司 实验结果的确定方法、装置、设备及存储介质
CN115048309A (zh) * 2022-06-27 2022-09-13 广州掌动智能科技有限公司 无侵入app软件性能测试方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254882A (zh) * 2021-06-07 2021-08-13 广州市百果园网络科技有限公司 实验结果的确定方法、装置、设备及存储介质
CN115048309A (zh) * 2022-06-27 2022-09-13 广州掌动智能科技有限公司 无侵入app软件性能测试方法和系统

Similar Documents

Publication Publication Date Title
CN106776660A (zh) 一种信息推荐方法及装置
CN105677881A (zh) 一种信息推荐方法、装置及服务器
CN105869022B (zh) 一种应用流行度预测方法和装置
CN110889094A (zh) 登录认证方法及装置
CN111582947A (zh) 一种优惠券处理的方法及相关装置
WO2018010409A1 (zh) 耗电提醒方法及装置
CN112395552A (zh) 数据处理方法以及装置
CN108763251B (zh) 核身产品的个性化推荐方法及装置和电子设备
CN112035519B (zh) 用户画像方法、装置、计算机可读存储介质及终端设备
US20200366748A1 (en) Mining method and device based on blockchain, and computer readable storage medium
CN111881365A (zh) 内容推荐方法及装置
CN106933905B (zh) 网页访问数据的监测方法和装置
CN109582829B (zh) 一种处理方法、装置、设备及可读存储介质
CN112132609A (zh) 一种推广效果的校验方法、装置及存储介质
CN112001563A (zh) 一种话单量的管理方法、装置、电子设备及存储介质
CN113038242B (zh) 直播卡片展示位置的确定方法、装置、设备及存储介质
CN112650940A (zh) 应用程序的推荐方法、装置、计算机设备及存储介质
CN112669091B (zh) 数据处理方法、装置及存储介质
CN109919642B (zh) 推广信息的处理方法、装置、计算机可读介质及电子设备
CN111666486A (zh) 热度值获取方法及装置
CN110674412A (zh) 资源的推荐信息推送方法及装置、电子设备
CN110675197A (zh) 评估数据的方法、装置、设备及存储介质
CN114040013B (zh) 书籍流量的分发方法、计算设备及计算机存储介质
CN108537358B (zh) 社区数据的处理方法、装置、存储介质和电子装置
CN109345283A (zh) 礼品分配方法及系统、终端和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination