CN110019072B - 基于实时数据的ab实验方法及系统 - Google Patents

基于实时数据的ab实验方法及系统 Download PDF

Info

Publication number
CN110019072B
CN110019072B CN201711167192.5A CN201711167192A CN110019072B CN 110019072 B CN110019072 B CN 110019072B CN 201711167192 A CN201711167192 A CN 201711167192A CN 110019072 B CN110019072 B CN 110019072B
Authority
CN
China
Prior art keywords
experiment
time
data
unit
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711167192.5A
Other languages
English (en)
Other versions
CN110019072A (zh
Inventor
陈辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711167192.5A priority Critical patent/CN110019072B/zh
Publication of CN110019072A publication Critical patent/CN110019072A/zh
Application granted granted Critical
Publication of CN110019072B publication Critical patent/CN110019072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于实时数据的AB实验方法及系统。其中,基于实时数据的AB实验方法包括:S1、创建AB实验;S2、实时收集实验日志;S3、按照预先设定的规则对所述实验日志进行实时处理,获得聚合数据;S4、实时展示所述聚合数据。本发明的基于实时数据的AB实验方法及系统,不仅能够实时展示实验数据,还可以对实验过程中版本的分流占比等参数进行自适应调整,此外还能够在实验过程中数据发生异常或者波动时,自动熔断实验或者通过报警告知实验人员手动停止实验,既为实验人员提供了实时而充足的实验数据与,又能够降低在实验异常时由于处理不及时而可能造成的损失。

Description

基于实时数据的AB实验方法及系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于实时数据的AB实验方法及系统。
背景技术
AB实验是为应用或系统搭建两个及以上版本,在相同时间维度,分别让结构相同或者相似的的访客群组随机或按规则的访问不同版本,之后使用数据收集工具收集多组用户数据和业务数据,最终结合业务指标评估出最好版本正式采用。AB实验作为产品优化改进解决方案,已为众多知名互联网公司所采用,由于其场景特殊性和功能重要性,类似亿级流量的首页改版需求往往必须经过AB实验才能上线。
当前的AB实验流程具体为:实验配置人员在实验平台新建实验并生成一套用于日志采集的脚本,业务系统将脚本加入实验页面并开始实验,用户访问系统页面后业务系统根据用户cookies(存储在用户本地终端上的数据)和业务规则返回不同实验版本,用户浏览器将版本日志发送至日志收集器,数据中心将接收到的日志经过ETL(extract-transform-load,即抽取-转换-加载)转换并同步至数据集市,版本汇总数据按天同步至实验平台供数据分析人员查看。
整个实验数据都是通过记日志的方式,因为日志信息是经过数据中心收集和分析的,数据中心数据量巨大,对于日均TB(太字节)级别的数据实验需要隔天才能看到效果,周转周期缓慢,测试验证过程繁琐,无法以小时和分钟为粒度实时看到实验对比效果,这对于一些类似促销活动的AB场景无法有效覆盖。进而,当实验过程中当数据异常或出现波动时,实验人员可能没法及时发现,即使发现也可能无法判断具体原因,这时需要手动停止实验降级,如处理不及时造成的损失将无法挽回。
发明内容
本发明要解决的技术问题是为了克服现有技术中AB实验无法实时看到实验对比效果的缺陷,提供一种基于实时数据的AB实验方法及系统。
本发明是通过下述技术方案来解决上述技术问题:
一种基于实时数据的AB实验方法,其特点在于,包括:
S1、创建AB实验;
S2、实时收集实验日志;
S3、按照预先设定的规则对所述实验日志进行实时处理,获得聚合数据;
S4、实时展示所述聚合数据。
较佳地,步骤S1中所述AB实验的主题包括浏览、点击和订单中的至少一种,步骤S3中所述聚合数据包括总体指标数据:
若所述AB实验的主题包括浏览,则所述总体指标数据包括页面浏览量、独立访客数和访问次数中的至少一个;
若所述AB实验的主题包括点击,则所述总体指标数据包括点击次数和点击率中的至少一个;
若所述AB实验的主题包括订单,则所述总体指标数据包括订单引入量和订单转化率中的至少一个。
较佳地,在步骤S3之后,所述AB实验方法还包括:保存所述聚合数据,以便于后续对所述聚合数据的处理。
较佳地,步骤S1中所述AB实验包括多个实验版本,在步骤S1中分别为每个所述实验版本预设初始分流比例和期望分流比例,所述AB实验方法还包括:
S5、根据所述总体指标数据计算每个所述实验版本的实时分流比例;
若所述实时分流比例在一时间阈值内均小于所述期望分流比例,则提高所述实验版本的初始分流比例;
若所述实时分流比例在一时间阈值内均大于所述期望分流比例,则降低所述实验版本的初始分流比例。
在此情形下,可以根据AB实验的实际进展调整不同版本的分流比例,以提升AB实验效果,从而为实验人员提供可信度更高的实验数据。
较佳地,所述期望分流比例包括最小期望分流比例和最大期望分流比例;
步骤S5中若所述实时分流比例在一时间阈值内均小于所述最小期望分流比例,则提高所述实验版本的初始分流比例;若所述实时分流比例在一时间阈值内均大于所述最大期望分流比例,则降低所述实验版本的初始分流比例。在此情形下,所述期望分流比例是一比例范围。
较佳地,步骤S3中所述聚合数据包括单位时间的指标数据,所述AB实验方法包括:
S6、根据一段时间内的连续若干个单位时间的历史指标数据预测下一单位时间的预估指标数据;
S7、获取所述下一单位时间的真实指标数据;
S8、判断所述下一单位时间的真实指标数据与所述下一单位时间的预估指标数据的比例是否在预设比例范围外;
若是,则将计数值加1,所述计数值的初始值为0;
若否,则返回步骤S6;
S9、判断所述计数值是否达到计数阈值;
若是,则自动熔断所述AB实验;
若否,则返回步骤S6。
在此情形下,当所述AB实验获得的指标数据发生异常时,自动熔断所述AB实验,以避免可能的损失。
较佳地,步骤S9中在判断为是时,还判断针对所述AB实验是否预设有系统熔断选项,若是,则自动熔断所述AB实验;若否,则发出报警信息。
在此情形下,当需要熔断所述AB实验时,如果所述AB实验预设有系统熔断选项,则所述AB实验自动熔断;如果所述AB实验没有预设有系统熔断选项,则发出报警信息以告知实验人员。
较佳地,步骤S6中通过以下公式计算所述下一单位时间的预估指标数据:
Figure BDA0001476457660000041
其中,ω表示所述下一单位时间的预估指标数据,αi表示所述一段时间内的第i个单位时间的历史指标数据,e-icosi表示时间衰减函数,β表示活动权重因子,其中i和n均为正整数。
一种基于实时数据的AB实验系统,其特点在于,包括:
实验配置单元,用于配置AB实验;
数据采集单元,用于实时收集实验日志;
数据处理单元,用于按照预先设定的规则对所述实验日志进行实时处理,获得聚合数据;
数据展示单元,用于实时展示所述聚合数据。
较佳地,所述AB实验的主题包括浏览、点击和订单中的至少一种,步骤S3中所述聚合数据包括总体指标数据:
若所述AB实验的主题包括浏览,则所述总体指标数据包括页面浏览量、独立访客数和访问次数中的至少一个;
若所述AB实验的主题包括点击,则所述总体指标数据包括点击次数和点击率中的至少一个;
若所述AB实验的主题包括订单,则所述总体指标数据包括订单引入量和订单转化率中的至少一个。
较佳地,所述AB实验系统还包括数据存储单元,用于保存所述聚合数据,以便于后续对所述聚合数据的处理。
较佳地,所述AB实验包括多个实验版本,所述实验配置单元分别为每个所述实验版本预设初始分流比例和期望分流比例,所述数据处理单元根据所述总体指标数据计算每个所述实验版本的实时分流比例;
所述实验配置单元还用于在所述实时分流比例在一时间阈值内均小于所述期望分流比例时,提高所述实验版本的初始分流比例;在所述实时分流比例在一时间阈值内均大于所述期望分流比例时,降低所述实验版本的初始分流比例。
在此情形下,可以根据AB实验的实际进展调整不同版本的分流比例,以提升AB实验效果,从而为实验人员提供可信度更高的实验数据。
较佳地,所述期望分流比例包括最小期望分流比例和最大期望分流比例;
所述实验配置单元用于在所述实时分流比例在一时间阈值内均小于所述最小期望分流比例时,提高所述实验版本的初始分流比例;在所述实时分流比例在一时间阈值内均大于所述最大期望分流比例时,降低所述实验版本的初始分流比例。在此情形下,所述期望分流比例是一比例范围。
较佳地,所述AB实验系统包括数据预测单元、数据获取单元、计数单元、第一判断单元、第二判断单元和熔断单元,所述聚合数据包括单位时间的指标数据;
所述数据预测单元根据一段时间内的连续若干个单位时间的历史指标数据预测下一单位时间的预估指标数据;
所述数据获取单元获取所述下一单位时间的真实指标数据;
所述第一判断单元判断所述下一单位时间的真实指标数据与所述下一单位时间的预估指标数据的比例是否在预设比例范围外;
若是,则所述计数单元将计数值加1,所述计数值的初始值为0;
若否,则调用所述数据预测单元;
所述第二判断单元判断所述计数值是否达到计数阈值;
若是,则所述熔断单元自动熔断所述AB实验;
若否,则调用所述数据预测单元。
在此情形下,当所述AB实验获得的指标数据发生异常时,自动熔断所述AB实验,以避免可能的损失。
较佳地,所述AB实验系统包括第三判断单元和报警单元,所述第二判断单元在判断为是时,调用所述第三判断单元判断针对所述AB实验是否预设有系统熔断选项;
若是,则所述熔断单元自动熔断所述AB实验;
若否,则所述报警单元发出报警信息。
在此情形下,当需要熔断所述AB实验时,如果所述AB实验预设有系统熔断选项,则所述AB实验自动熔断;如果所述AB实验没有预设有系统熔断选项,则发出报警信息以告知实验人员。
较佳地,所述数据预测单元通过以下公式计算所述下一单位时间的预估指标数据:
Figure BDA0001476457660000061
其中,ω表示所述下一单位时间的预估指标数据,αi表示所述一段时间内的第i个单位时间的历史指标数据,e-icosi表示时间衰减函数,β表示活动权重因子,其中i和n均为正整数。
本发明的积极进步效果在于:本发明不仅可以适用于分析模块注入实验、模块替换实验、页面跳转实验类型的流量和订单指标数据,由于本发明基于实时数据,能够对流量和订单指标进行实时展示与分析,本发明还可以适用于支持活动、促销等其他需要实时监测分析数据的场景,并且本发明还可以根据获得的实时数据以及预先设定的规则对各实验版本的分流比例进行自适应的调整,即使实验人员未能及时发现实验过程中发生的数据异常或者波动,本发明的熔断功能也能够自动熔断实验或者发出报警信息以告知实验人员。
附图说明
图1为实施例1的基于实时数据的AB实验方法的流程图。
图2为实施例2的基于实时数据的AB实验方法的流程图。
图3为实施例3的基于实时数据的AB实验方法的步骤306判断为是时的流程图。
图4为实施例3的基于实时数据的AB实验方法的步骤306判断为否时的流程图。
图5为实施例4的基于实时数据的AB实验系统的结构示意图。
图6为实施例5的基于实时数据的AB实验系统的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
参照图1,本实施例的基于实时数据的AB实验方法,包括以下步骤:
S101、创建AB实验;
S102、实时收集实验日志;
S103、按照预先设定的规则对实验日志进行实时处理,获得聚合数据;
S104、实时展示聚合数据。
具体地,首先创建AB实验,该AB实验的标识为dytest1,实验主题包括浏览(主题设为abtest.100001)和点击(主题设为abtest.100002),并且该AB实验包括base1、version1和version2三个版本(base1为默认版本,version1和version2为两个不同的对比版本)。
其次,实时收集该AB实验的日志,例如该日志为:
1491011922142abtest.100001221.237.152.811490953735142211185954414909537351422111859544|2UA-J2011-1http%3a%2f%2fxxx.jd.com%2fdytest1|||base1$cdt=-17e5bb808ca8f5303faa14057091d462b,以空格拆分后为:
1491011922142 abtest.100001 221.237.152.81 1490953735142211185954414909537351422111859544|2 UA-J2011-1 http%3a%2f%2fxxx.jd.com%2f dytest11|||base1$cdt=-1 7e5bb808ca8f5303faa14057091d462b,其中:
1491011922142为以Unix时间戳的形式表示的服务器时间,转换成北京时间为2017年4月1日9点58分42秒;
abtest.100001为实验的主题名称,表示该日志的实验主题是浏览;
221.237.152.81为用户的IP地址;
14909537351422111859544为用户浏览器标识(browserID);
14909537351422111859544|2为用户会话唯一标识(sessionID);
UA-J2011-1为站点编号;
http%3a%2f%2fxxx.jd.com%2f为当前页面;
dytest1|||base1$cdt=-1为实验的关键信息,其中,dytest1表示该AB实验,base1表示产生该日志的版本,cdt表示对用户pin的校验。
再次,例如为获得该浏览主题的流量指标,需通过预先设定的规则对上述日志进行解析和处理以获得计算所需的缓存键,其中该流量指标包括页面浏览量(pv)、独立访客数(uv)和访问次数,缓存键可以为pv_p_dytest1_base1_2017_4_1_9,用于计算2017年4月1日9点至10点期间对该AB实验base1版本的页面浏览量。预设该页面浏览量的初始值为0,在上述期间内,每有一日志信息经解析和处理后的服务器时间落入该期间范围,该缓存键表示的页面浏览量的值加1。
进一步地,为了获得2017年4月1日9点55分至10点期间对该AB实验base1版本的页面浏览量,将9点至10点这一时间区间以五分钟为单位分成0-11共12个区间,在此情形下,缓存键可以为pv_p_dytest1_base1_2017_4_1_9_11。每有一日志信息经解析和处理后的服务器时间落入9点55分至10点的范围,该缓存键表示的页面浏览量的值加1。
上述缓存键可以用于计算以小时或者分钟为单位的时间内的页面浏览量,独立访客数和访问次数的计算方法与上述页面浏览量的计算方法类似,仍需先获得计算所需的缓存键,再根据该唯一的缓存键结合相应的算法(例如(去重)进行计算。同样地,对于点击主题有关的点击次数、点击率等指标数据的计算也是如此。
AB实验的主题还可以包括订单,订单指标包括订单转入量和订单转化率,为了获得2017年4月1日9点55分至10点期间base1版本的订单指标,首先也需要对订单日志进行解析和处理,该订单日志包括用户下订单的时间、下订单时的用户会话唯一标识、订单金额、订单数量等信息。例如,为了获得该期间内base1版本的订单引入量,需判断下订单时的用户会话唯一标识是否在该期间内浏览过base1版本,如果判断为是,则计入base1版本的订单引入量;如果判断为否,则该订单为其他版本引入的,忽略该订单日志。
version1版本和version2版本的流量、点击和订单等主题的指标数据的计算方法与base1版本的计算方法一致。
最后,分别实时展示上述实时获得的多个版本的页面浏览量等浏览指标、点击次数等点击指标以及订单引入率等订单指标,该指标数据可以分钟、小时、天等为单位实时展示出来,既展示该AB实验一段时间内的总体指标数据,也展示该AB实验单位时间内的指标数据,供实验人员参考。
实施例2
本实施例的基于实时数据的AB实验方法是对实施例1的进一步改进,参照图2,其具体包括以下步骤:
S201、创建AB实验,分别为每个实验版本预设初始分流比例和期望分流比例;
S202、实时收集实验日志;
S203、按照预先设定的规则对实验日志进行实时处理,获得聚合数据;
S204、保存聚合数据;
S205、实时展示聚合数据;
S206、根据聚合数据计算每个实验版本的实时分流比例;
S207、检测实时分流比例;
若所述实时分流比例在一时间阈值内均小于所述期望分流比例,则转至步骤S208;
若所述实时分流比例在一时间阈值内均大于所述期望分流比例,则转至步骤S209;
S208、提高实验版本的初始分流比例,并返回步骤S202;
S209、降低实验版本的初始分流比例,并返回步骤S202。
具体地,S201中,AB实验包括A版本、B版本和C版本,其中A版本的初始分流比例为30%,期望分流比例为20%-50%,步骤S206中根据一段时间内的页面浏览量、独立访客数或者访问次数等总体指标数据来计算每个实验版本的实时分流比例。若A版本的实时分流比例持续小于20%,则阶段性地提高A版本的初始分流比例;若A版本的实时分流比例持续大于50%,则阶段性地降低A版本的初始分流比例。从而本实施例的AB试验方法可以自适应地调整初始分流比例,为实验人员提供更多的实验数据。进一步地,也可以实时展示本实施例中的实施分流比例,以供实验人员参考。
实施例3
本实施例的基于实时数据的AB实验方法是对实施例2的进一步改进,结合图3和图4,其具体包括以下步骤:
S301、创建AB实验,分别为每个实验版本预设初始分流比例和期望分流比例;
S302、实时收集实验日志;
S303、按照预先设定的规则对该实验日志进行实时处理,获得聚合数据;
S304、保存聚合数据;
S305、实时展示聚合数据。
S306、判断AB实验是否预设有自适应调参选项;
若判断为是,则转至步骤S307;
若判断为否,则转至步骤S311;
S307、根据聚合数据计算每个实验版本的实时分流比例;
S308、检测实时分流比例;
若所述实时分流比例在一时间阈值内均小于所述期望分流比例,则转至步骤S309;
若所述实时分流比例在一时间阈值内均大于所述期望分流比例,则转至步骤S310;
S309、提高实验版本的初始分流比例,并返回步骤S302;
S310、降低实验版本的初始分流比例,并返回步骤S302;
S311、根据一段时间内的连续若干个单位时间的历史指标数据预测下一单位时间的预估指标数据;
S312、获取下一单位时间的真实指标数据;
S313、判断下一单位时间的真实指标数据与下一单位时间的预估指标数据的比例是否在预设比例范围外;
若判断为是,则转至步骤S314;若判断为否,则返回步骤S311;
S314、计数值加1,计数值的初始值为0;
S315、判断计数值是否达到计数阈值;
若判断为是,转至步骤S316;若判断为否,则转至步骤S311;
S316、判断AB实验是否预设有自动熔断选项;
若是,则转至步骤S317;若否,则转至步骤S318;
S317、自动熔断AB实验;
S318、发出报警信息。
具体地,该聚合数据包括总体指标数据和单位时间的指标数据,步骤S311中通过以下公式计算所述下一单位时间的预估指标数据:
Figure BDA0001476457660000111
其中,ω表示所述下一单位时间的预估指标数据,αi表示所述一段时间内的第i个单位时间的历史指标数据,e-icosi表示时间衰减函数,β表示活动权重因子,其中i和n均为正整数。
本实施例的AB实验方法,既能将实验数据实时展示出来,又能够自适应的调整预设的初始分流比例,为实验人员提供充足的实验参考数据,还能够在实验过程中实验数据发生异常或者波动时,自动熔断实验或者通过报警告知实验人员,以降低由于对该情形下实验的处理不及时可能造成的损失。
实施例4
参照图5,本实施例的基于实时数据的AB实验系统包括实验配置单元1、数据采集单元2、数据处理单元3、数据存储单元4和数据展示单元5,其中,实验配置单元1用于配置AB实验;数据采集单元2用于实时收集实验日志;数据处理单元3用于按照预先设定的规则对该实验日志进行实时处理,获得聚合数据;数据存储单元4用于保存该聚合数据;数据展示单元5用于实时展示该聚合数据。
具体地,实验配置单元1配置AB实验,该AB实验的标识为dytest1,实验主题包括浏览(主题设为abtest.100001)和点击(主题设为abtest.100002),并且该AB实验包括base1、version1和version2三个版本(base1为默认版本,version1和version2为两个不同的对比版本),其中实验配置单元1分别为每个实验版本预设初始分流比例和期望分流比例。
数据采集单元2实时收集该AB实验的日志,例如该日志为:
1491011922142abtest.100001221.237.152.811490953735142211185954414909537351422111859544|2UA-J2011-1http%3a%2f%2fxxx.jd.com%2fdytest1|||base1$cdt=-17e5bb808ca8f5303faa14057091d462b,以空格拆分后为:
1491011922142 abtest.100001 221.237.152.81 1490953735142211185954414909537351422111859544|2 UA-J2011-1 http%3a%2f%2fxxx.jd.com%2f dytest11|||base1$cdt=-1 7e5bb808ca8f5303faa14057091d462b,其中:
1491011922142为以Unix时间戳的形式表示的服务器时间,转换成北京时间为2017年4月1日9点58分42秒;
abtest.100001为实验的主题名称,表示该日志的实验主题是浏览;
221.237.152.81为用户的IP地址;
14909537351422111859544为用户浏览器标识(browserID);
14909537351422111859544|2为用户会话唯一标识(sessionID);
UA-J2011-1为站点编号;
http%3a%2f%2fxxx.jd.com%2f为当前页面;
dytest1|||base1$cdt=-1为实验的关键信息,其中,dytest1表示该AB实验,base1表示产生该日志的版本,cdt表示对用户pin的校验。
数据处理单元3按照预先设定的规则对该实验日志进行实时处理,例如,为获得浏览主题的流量指标,需通过预先设定的规则对上述日志进行解析和处理以获得计算所需的缓存键,其中该流量指标包括页面浏览量(pv)、独立访客数(uv)和访问次数,缓存键可以为pv_p_dytest1_base1_2017_4_1_9,用于计算2017年4月1日9点至10点期间对该AB实验base1版本的页面浏览量。预设该页面浏览量的初始值为0,在上述期间内,每有一日志信息经解析和处理后的服务器时间落入该期间范围,该缓存键表示的页面浏览量的值加1。
进一步地,为了获得2017年4月1日9点55分至10点期间对该AB实验base1版本的页面浏览量,将9点至10点这一时间区间以五分钟为单位分成0-11共12个区间,在此情形下,缓存键可以为pv_p_dytest1_base1_2017_4_1_9_11。每有一日志信息经解析和处理后的服务器时间落入9点55分至10点的范围,该缓存键表示的页面浏览量的值加1。
上述缓存键可以用于计算以小时或者分钟为单位的时间内的页面浏览量,独立访客数和访问次数的计算方法与上述页面浏览量的计算方法类似,仍需先获得计算所需的缓存键,再根据该唯一的缓存键结合相应的算法(例如(去重)进行计算。同样地,对于点击主题有关的点击次数、点击率等指标数据的计算也是如此。
AB实验的主题还可以包括订单,订单指标包括订单转入量和订单转化率,为了获得2017年4月1日9点55分至10点期间base1版本的订单指标,首先也需要对订单日志进行解析和处理,该订单日志包括用户下订单的时间、下订单时的用户会话唯一标识、订单金额、订单数量等信息。例如,为了获得该期间内base1版本的订单引入量,需判断下订单时的用户会话唯一标识是否在该期间内浏览过base1版本,如果判断为是,则计入base1版本的订单引入量;如果判断为否,则该订单为其他版本引入的,忽略该订单日志。
version1版本和version2版本的流量、点击和订单等主题的指标数据的计算方法与base1版本的计算方法一致。
数据存储单元4保存该聚合数据,以便于后续对该聚合数据的调用,具体地,该聚合数据包括一段时间内的总体指标数据以及单位时间内的指标数据。
数据展示单元5实时展示该聚合数据,具体地,分别实时展示上述实时获得的多个版本的页面浏览量等浏览指标、点击次数等点击指标以及订单引入率等订单指标,该指标数据可以分钟、小时、天等为单位实时展示出来,既展示该AB实验一段时间内的总体指标数据,也展示该AB实验单位时间内的指标数据,供实验人员参考。
此外,数据处理单元3还可以根据存储在数据存储单元4中的总体指标数据(例如一段时间内的页面浏览量、独立访客数或者访问次数等总体指标数据)计算每个实验版本的实时分流比例,如果计算得出的实时分流比例在一时间阈值内均小于该实验版本预设的期望分流比例时,实验配置单元1则还用于阶段性地提高该实验版本的初始分流比例;如果计算得出的实时分流比例在一时间阈值内均大于该实验版本预设的期望分流比例时,实验配置单元1则还用于阶段性地降低该实验版本的初始分流比例。
具体地,实验配置单元1为base1版本预设的初始分流比例为30%,期望分流比例为20%-50%,如果计算得出base1版本的实时分流比例在一时间阈值内均小于20%时,实验配置单元1则用于阶段性地提高base1版本的初始分流比例;如果计算得出base1版本的实时分流比例在一时间阈值内均大于50%时,实验配置单元1则用于阶段性地降低base1版本的初始分流比例。从而本实施例的AB试验方法可以自适应地调整初始分流比例,为实验人员提供更多的实验数据。进一步地,数据存储单元4可以保存,数据展示单元5也可以实时展示本实施例中的实施分流比例,以供实验人员参考。
在本实施例中,数据采集单元2可以是实时数据总线,数据处理单元3可以是实时计算平台,数据存储单元4可以是数据库和搜索服务器。具体地,数据处理单元3获得的聚合数据、实时分流比例等数据可以保存在redis(一个使用ANSI C语言编写的开源、支持网络、可基于内存亦可持久化的日志型、key-value数据库)中,并可以从redis中拉取保存在elasticsearch(一个基于lucene的搜索服务器)中进行数据托底。
实施例5
本实施例的基于实时数据的AB实验系统是对实施例4的进一步改进,参照图6,其具体包括:实验配置单元1、数据采集单元2、数据处理单元3、数据存储单元4、数据展示单元5、数据预测单元6、数据获取单元7、计数单元8、第一判断单元9、第二判断单元10、第三判断单元11、熔断单元12和报警单元13。其中,本实施例中的实验配置单元1、数据采集单元2、数据处理单元3、数据存储单元4和数据展示单元5的作用与其在实施例4中的作用相同。
具体地,数据存储单元4保存的聚合数据包括一段时间内的总体指标数据以及单位时间内的指标数据,数据预测单元6根据一段时间内的连续若干个单位时间的历史指标数据预测下一单位时间的预估指标数据,数据获取单元7获取所述下一单位时间的真实指标数据。第一判断单元9判断该下一单位时间的真实指标数据与该下一单位时间的预估指标数据的比例是否在预设比例范围外,如果判断为是,则计数单元8将计数值(计数值的初始值为0)加1;如果判断为否,则再次调用数据预测单元6。第二判断单元10判断计数单元8的计数值是否达到计数阈值,如果第二判断单元10判断为是,则调用第三判断单元11判断针对该AB实验是否预设有系统熔断选项,如果第三判断单元11判断为是,则熔断单元12自动熔断该AB实验,如果第三判断单元11判断为否,则报警单元13发出报警信息;如果第二判断单元10判断为否,则再次调用数据预测单元6。
具体地,该聚合数据包括总体指标数据和单位时间的指标数据,数据预测单元6通过以下公式计算所述下一单位时间的预估指标数据:
Figure BDA0001476457660000151
其中,ω表示所述下一单位时间的预估指标数据,αi表示所述一段时间内的第i个单位时间的历史指标数据,e-icosi表示时间衰减函数,β表示活动权重因子,其中i和n均为正整数。
例如,αi表示一小时内每分钟的历史指标数据(即,单位时间取值一分钟,一段时间取值一小时),ω表示所述下一分钟的预估指标数据,ψ表示下一分钟的真实指标数据,如果ω与ψ满足ψ/ω>C1或者ψ/ω<C2,其中C1和C2均为常数,并且在15分钟内(即,计数单元8的计数阈值取值15)连续满足该条件,则熔断单元12自动熔断AB实验。
本实施例的AB实验系统,能够将实验数据实时展示出来,又能够自适应的调整预设的初始分流比例,为实验人员提供充足的实验参考数据,还能够在实验过程中当实验数据发生异常或者波动时,自动熔断实验或者通过报警告知实验人员,以降低由于对该情形下实验的处理不及时可能造成的损失。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (14)

1.一种基于实时数据的AB实验方法,其特征在于,包括:
S1、创建AB实验;
S2、实时收集实验日志;
S3、按照预先设定的规则对所述实验日志进行实时处理,获得聚合数据;
S4、实时展示所述聚合数据;
步骤S3中所述聚合数据包括单位时间的指标数据,所述AB实验方法包括:
S6、根据一段时间内的连续若干个单位时间的历史指标数据预测下一单位时间的预估指标数据;
S7、获取所述下一单位时间的真实指标数据;
S8、判断所述下一单位时间的真实指标数据与所述下一单位时间的预估指标数据的比例是否在预设比例范围外;
若是,则将计数值加1,所述计数值的初始值为0;
若否,则返回步骤S6;
S9、判断所述计数值是否达到计数阈值;
若是,则自动熔断所述AB实验;
若否,则返回步骤S6。
2.如权利要求1所述的AB实验方法,其特征在于,步骤S1中所述AB实验的主题包括浏览、点击和订单中的至少一种,步骤S3中所述聚合数据包括总体指标数据:
若所述AB实验的主题包括浏览,则所述总体指标数据包括页面浏览量、独立访客数和访问次数中的至少一个;
若所述AB实验的主题包括点击,则所述总体指标数据包括点击次数和点击率中的至少一个;
若所述AB实验的主题包括订单,则所述总体指标数据包括订单引入量和订单转化率中的至少一个。
3.如权利要求2所述的AB实验方法,其特征在于,在步骤S3之后,所述AB实验方法还包括:保存所述聚合数据。
4.如权利要求3所述的AB实验方法,其特征在于,步骤S1中所述AB实验包括多个实验版本,在步骤S1中分别为每个所述实验版本预设初始分流比例和期望分流比例,所述AB实验方法还包括:
S5、根据所述总体指标数据计算每个所述实验版本的实时分流比例;
若所述实时分流比例在一时间阈值内均小于所述期望分流比例,则提高所述实验版本的初始分流比例;
若所述实时分流比例在一时间阈值内均大于所述期望分流比例,则降低所述实验版本的初始分流比例。
5.如权利要求4所述的AB实验方法,其特征在于,所述期望分流比例包括最小期望分流比例和最大期望分流比例;
步骤S5中若所述实时分流比例在一时间阈值内均小于所述最小期望分流比例,则提高所述实验版本的初始分流比例;若所述实时分流比例在一时间阈值内均大于所述最大期望分流比例,则降低所述实验版本的初始分流比例。
6.如权利要求1所述的AB实验方法,其特征在于,步骤S9中在判断为是时,还判断针对所述AB实验是否预设有系统熔断选项,若是,则自动熔断所述AB实验;若否,则发出报警信息。
7.如权利要求6所述的AB实验方法,其特征在于,步骤S6中通过以下公式计算所述下一单位时间的预估指标数据:
Figure FDA0002918059270000021
其中,ω表示所述下一单位时间的预估指标数据,αi表示所述一段时间内的第i个单位时间的历史指标数据,e-icosi表示时间衰减函数,β表示活动权重因子,其中i和n均为正整数。
8.一种基于实时数据的AB实验系统,其特征在于,包括:
实验配置单元,用于配置AB实验;
数据采集单元,用于实时收集实验日志;
数据处理单元,用于按照预先设定的规则对所述实验日志进行实时处理,获得聚合数据;
数据展示单元,用于实时展示所述聚合数据;
所述AB实验系统还包括数据预测单元、数据获取单元、计数单元、第一判断单元、第二判断单元和熔断单元,所述聚合数据包括单位时间的指标数据;
所述数据预测单元根据一段时间内的连续若干个单位时间的历史指标数据预测下一单位时间的预估指标数据;
所述数据获取单元获取所述下一单位时间的真实指标数据;
所述第一判断单元判断所述下一单位时间的真实指标数据与所述下一单位时间的预估指标数据的比例是否在预设比例范围外;
若是,则所述计数单元将计数值加1,所述计数值的初始值为0;
若否,则调用所述数据预测单元;
所述第二判断单元判断所述计数值是否达到计数阈值;
若是,则所述熔断单元自动熔断所述AB实验;
若否,则调用所述数据预测单元。
9.如权利要求8所述的AB实验系统,其特征在于,所述AB实验的主题包括浏览、点击和订单中的至少一种,步骤S3中所述聚合数据包括总体指标数据:
若所述AB实验的主题包括浏览,则所述总体指标数据包括页面浏览量、独立访客数和访问次数中的至少一个;
若所述AB实验的主题包括点击,则所述总体指标数据包括点击次数和点击率中的至少一个;
若所述AB实验的主题包括订单,则所述总体指标数据包括订单引入量和订单转化率中的至少一个。
10.如权利要求9所述的AB实验系统,其特征在于,所述AB实验系统还包括数据存储单元,用于保存所述聚合数据。
11.如权利要求10所述的AB实验系统,其特征在于,所述AB实验包括多个实验版本,所述实验配置单元分别为每个所述实验版本预设初始分流比例和期望分流比例,所述数据处理单元根据所述总体指标数据计算每个所述实验版本的实时分流比例;
所述实验配置单元还用于在所述实时分流比例在一时间阈值内均小于所述期望分流比例时,提高所述实验版本的初始分流比例;在所述实时分流比例在一时间阈值内均大于所述期望分流比例时,降低所述实验版本的初始分流比例。
12.如权利要求11所述的AB实验系统,其特征在于,所述期望分流比例包括最小期望分流比例和最大期望分流比例;
所述实验配置单元用于在所述实时分流比例在一时间阈值内均小于所述最小期望分流比例时,提高所述实验版本的初始分流比例;在所述实时分流比例在一时间阈值内均大于所述最大期望分流比例时,降低所述实验版本的初始分流比例。
13.如权利要求8所述的AB实验系统,其特征在于,所述AB实验系统包括第三判断单元和报警单元,所述第二判断单元在判断为是时,调用所述第三判断单元判断针对所述AB实验是否预设有系统熔断选项;
若是,则所述熔断单元自动熔断所述AB实验;
若否,则所述报警单元发出报警信息。
14.如权利要求8所述的AB实验系统,其特征在于,所述数据预测单元通过以下公式计算所述下一单位时间的预估指标数据:
Figure FDA0002918059270000041
其中,ω表示所述下一单位时间的预估指标数据,αi表示所述一段时间内的第i个单位时间的历史指标数据,e-icosi表示时间衰减函数,β表示活动权重因子,其中i和n均为正整数。
CN201711167192.5A 2017-11-21 2017-11-21 基于实时数据的ab实验方法及系统 Active CN110019072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711167192.5A CN110019072B (zh) 2017-11-21 2017-11-21 基于实时数据的ab实验方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711167192.5A CN110019072B (zh) 2017-11-21 2017-11-21 基于实时数据的ab实验方法及系统

Publications (2)

Publication Number Publication Date
CN110019072A CN110019072A (zh) 2019-07-16
CN110019072B true CN110019072B (zh) 2021-05-25

Family

ID=67186613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711167192.5A Active CN110019072B (zh) 2017-11-21 2017-11-21 基于实时数据的ab实验方法及系统

Country Status (1)

Country Link
CN (1) CN110019072B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112311689B (zh) * 2019-07-31 2024-03-05 上海幻电信息科技有限公司 突发流量的分流方法、计算机设备及可读存储介质
CN115023689A (zh) * 2020-04-26 2022-09-06 深圳市欢太科技有限公司 分流方法、装置、服务器以及存储介质
CN111708689B (zh) * 2020-05-19 2024-06-25 北京奇艺世纪科技有限公司 一种修改ab实验的方法、装置及电子设备
CN114064445B (zh) * 2020-08-04 2024-07-19 腾讯科技(深圳)有限公司 一种测试方法、装置、设备及计算机可读存储介质
CN112162918B (zh) * 2020-09-07 2024-09-06 北京达佳互联信息技术有限公司 应用程序的测试方法、装置及电子设备
CN112907128B (zh) * 2021-03-23 2024-09-06 百度在线网络技术(北京)有限公司 基于ab测试结果的数据分析方法、装置、设备及介质
CN116389108B (zh) * 2023-04-03 2023-10-10 杭州诺禾网络科技有限公司 Ab实验方法、系统与存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105610654A (zh) * 2016-03-02 2016-05-25 合一网络技术(北京)有限公司 一种服务器、策略在线测试的方法及系统
CN105913145A (zh) * 2016-04-08 2016-08-31 北京吆喝科技有限公司 一种基于数据驱动的ab测试方法
CN106294559A (zh) * 2016-07-26 2017-01-04 北京三快在线科技有限公司 一种应用流量分析方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160253697A1 (en) * 2015-02-27 2016-09-01 Linkedln Corporation Site-wide impact

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105610654A (zh) * 2016-03-02 2016-05-25 合一网络技术(北京)有限公司 一种服务器、策略在线测试的方法及系统
CN105913145A (zh) * 2016-04-08 2016-08-31 北京吆喝科技有限公司 一种基于数据驱动的ab测试方法
CN106294559A (zh) * 2016-07-26 2017-01-04 北京三快在线科技有限公司 一种应用流量分析方法及装置

Also Published As

Publication number Publication date
CN110019072A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019072B (zh) 基于实时数据的ab实验方法及系统
US10248528B2 (en) System monitoring method and apparatus
US8655819B1 (en) Predicting user navigation events based on chronological history data
US9794158B2 (en) System event analyzer and outlier visualization
JP5815563B2 (ja) eコマーストランザクションデータ会計のための方法およびシステム
CN105468492A (zh) 一种基于搜索引擎的数据监控方法和系统
US8667135B1 (en) Detecting and reporting on consumption rate changes
US10025807B2 (en) Dynamic data acquisition method and system
EP1916824A2 (en) Real time web usage reporter using ram
CN106940677A (zh) 一种应用日志数据告警方法及装置
US9009850B2 (en) Database management by analyzing usage of database fields
CN110213203B (zh) 网络调度方法、装置及计算机存储介质
CN109471783B (zh) 预测任务运行参数的方法和装置
US20180204248A1 (en) Web page viewership prediction
CN111740868A (zh) 告警数据的处理方法和装置及存储介质
CN111966887A (zh) 动态缓存方法及装置、电子设备、存储介质
CN111080326A (zh) 设备售后数据监控方法、装置、系统和空调售后监控系统
CN111400126A (zh) 网络服务异常数据检测方法、装置、设备和介质
CN110677271B (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN110266555B (zh) 用于分析网站服务请求的方法
CN107729206A (zh) 告警日志的实时分析方法、系统和计算机处理设备
CN116795631A (zh) 业务系统监控告警方法、装置、设备和介质
US8032302B1 (en) Method and system of modifying weather content
US20160103924A1 (en) Method and apparatus for acquiring information digest
CN112667149B (zh) 一种数据热度感知方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant