CN115496309A - 实验指标的构建方法、构建装置和可读存储介质 - Google Patents

实验指标的构建方法、构建装置和可读存储介质 Download PDF

Info

Publication number
CN115496309A
CN115496309A CN202110670644.1A CN202110670644A CN115496309A CN 115496309 A CN115496309 A CN 115496309A CN 202110670644 A CN202110670644 A CN 202110670644A CN 115496309 A CN115496309 A CN 115496309A
Authority
CN
China
Prior art keywords
experiment
index
experimental
configuration
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110670644.1A
Other languages
English (en)
Inventor
寇冲
王兴鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202110670644.1A priority Critical patent/CN115496309A/zh
Publication of CN115496309A publication Critical patent/CN115496309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种实验指标的构建方法、构建装置和可读存储介质。实验指标的构建方法包括:采用动态埋点协议,对分层进行数据埋点;基于实验平台和业务系统,根据实验流量配置和数据埋点信息,构建指标体系,指标体系包括实验的流量指标、实验的用户特征和实验的业务指标;设置通用的数据接口,实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,形成统一的指标体系。本发明的技术方案中,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,形成统一的指标体系,避免各个业务方重复开发类似的指标,能够节约资源。

Description

实验指标的构建方法、构建装置和可读存储介质
技术领域
本发明涉及测试技术领域,具体而言,涉及一种实验指标的构建方法、构建装置和可读存储介质。
背景技术
相关技术中,AB实验平台只具备单一的分流实验能力,只能保证用户归属于同一组别,实验信息没有和流量数据及业务数据进行联动,形成了各自的数据孤岛,导致AB实验平台只能作为实验配置平台,实验的流量指标和业务指标需要分别单独进行手动开发,耗时耗力,而且指标维度分布在不同的平台,一致性维度很难得到保障,也容易出现统计粒度不一致的问题,各个平台要想横向分析比较数据还需要进行粒度转换,效率低下。
发明内容
本发明旨在解决上述技术问题的至少之一。
为此,本发明的第一目的在于提供一种实验指标的构建方法。
本发明的第二目的在于提供一种实验指标的构建装置。
本发明的第三目的在于提供一种可读存储介质。
为实现本发明的第一目的,本发明的技术方案提供了一种实验指标的构建方法,用于实验平台,实验平台内能够设置应用、业务场景和实验,应用设有至少一个业务场景,业务场景包括至少一个分层,分层设有至少一个实验,构建方法包括:采用动态埋点协议,对分层进行数据埋点;基于实验平台和业务系统,根据实验流量配置和数据埋点信息,构建指标体系,指标体系包括实验的流量指标、实验的用户特征和实验的业务指标;设置通用的数据接口,实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,形成统一的指标体系。
本技术方案中,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,形成统一的指标体系,避免各个业务方重复开发类似的指标,能够节约资源。
另外,本发明提供的技术方案还可以具有如下附加技术特征:
上述技术方案中,动态埋点协议支持任意层数的分层,计算引擎能够自适应埋点中各个分区的具体含义并进行动态解析。
本技术方案中,动态埋点协议可以支持随意层数的试验,适用范围广泛。
上述任一技术方案中,同一应用在不同的业务场景之间,实验流量能够复用,同一分层下的实验之间互斥。
本技术方案中,通过上述设置,可以使得实验平台更好的构建指标体系。
上述任一技术方案中,基于实验平台和业务系统,根据实验流量配置和数据埋点信息,构建指标体系,具体包括:在实验平台进行元数据配置,得到实验配置和指标配置元数据,将实验配置推送至业务系统;业务系统根据业务场景的实验流量配置,进行实验配置的动态分发,生成业务事件信息,业务系统还将实验信息推送至前端;前端根据实验信息,上报实验的数据埋点信息;基于实验埋点信息和业务事件信息,将实验流量、用户特征和业务事件进行关联,通过调度系统,得到实验的流量指标、实验的用户特征和实验的业务指标。
本技术方案,只需配置即可自动化生成所需的指标,无需人工开发,节省资源。
上述任一技术方案中,在实验平台进行元数据配置,得到实验配置和指标配置元数据,将实验配置推送至业务系统,具体包括:通过实验平台的实验管理,进行应用、场景与实验的创建、编辑、删除以及配置发布,得到实验配置,将实验配置推送至业务系统;通过实验平台的实验指标管理,确定实验评价的核心度量指标、通用数据度量指标、和/或自定义度量指标,对需要计算的实验指标进行配置,得到指标配置元数据。
本技术方案,通过实验平台的实验管理和实验指标管理,进行指标配置,操作简单,可以提高效率。
上述任一技术方案中,基于实验埋点信息和业务事件信息,将实验流量、用户特征和业务事件进行关联,通过调度系统,得到实验的流量指标、实验的用户特征和实验的业务指标,具体包括:通过消息队列接收实验埋点信息和业务事件信息,采用实时计算引擎,按照预设的时间窗口,基于数据仓库和指标配置元数据,将实验流量、用户特征和业务事件进行关联,聚合生成面向主题的消息队列,并进入存储引擎;将不需要进行再次关联的主题,通过消息队列落入存储引擎,调度系统根据预设执行时间和执行脚本,对存储引擎进行计算,生成实验的流量指标、实验的用户特征和实验的业务指标。
本技术方案中,系统层面通过预先的指标体系配置,无需人工开发,即可自动生成AB实验指标报表。
上述任一技术方案中,在指标管理阶段,设置通用的数据接口,实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,具体包括:在常规指标中,通过拖拽的图形化界面,选择维度信息和度量指标;将配置的维度信息和度量指标输入解析器,生成数据主题域的时间周期内的原子指标和派生指标的结构化查询语言模板;针对自定义指标,配置保存后,解析器对配置进行校验。
本技术方案实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,实现通过预先的指标体系配置,无需人工开发,即可自动生成指标体系。
上述任一技术方案中,在通用数据查询阶段,设置通用的数据接口,实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,具体包括:实验配置设有用户名,将用户名与过滤条件组成修饰词,数据服务接口根据修饰词,对结构化查询语言模板进行填充和拼装,根据不同的配置动态切换数据源检索数据。
本技术方案实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,实现通过预先的指标体系配置,无需人工开发,即可自动生成指标体系。
为实现本发明的第二目的,本发明的技术方案提供了一种实验指标的构建装置,包括:存储器和处理器,存储器存储有程序或指令,处理器执行程序或指令;其中,处理器在执行程序或指令时,实现如本发明任一技术方案的实验指标的构建方法的步骤。
本技术方案提供的实验指标的构建装置实现如本发明任一技术方案的实验指标的构建方法的步骤,因而其具有如本发明任一技术方案的实验指标的构建方法的全部有益效果,在此不再赘述。
为实现本发明的第四目的,本发明的技术方案提供了一种可读存储介质,可读存储介质存储有程序或指令,程序或指令被执行时,实现上述任一技术方案的实验指标的构建方法的步骤。
本技术方案提供的可读存储介质实现如本发明任一技术方案的实验指标的构建方法的步骤,因而其具有如本发明任一技术方案的实验指标的构建方法的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的实验指标的构建方法流程示意图之一;
图2为本发明一个实施例的实验指标的构建方法流程示意图之二;
图3为本发明一个实施例的实验指标的构建方法流程示意图之三;
图4为本发明一个实施例的实验指标的构建方法流程示意图之四;
图5为本发明一个实施例的实验指标的构建方法流程示意图之五;
图6为本发明一个实施例的实验指标的构建方法流程示意图之六;
图7为本发明一个实施例的实验指标的构建装置组成示意图;
图8为本发明一个实施例的实验多层分流主要流程示意图;
图9为本发明一个实施例的指标体系自动构建主要流程示意图;
图10为本发明一个实施例的指标体系数据服务主体结构示意图。
其中,图7至图10中附图标记与部件名称之间的对应关系为:100:应用,102:场景,104:场景A,106:场景B,108:分层,110:实验,112:分层A,114:分层B,116:分层C,118:实验A,120:实验B,122:实验C,124:实验D,126:实验E,128:实验F,130:实验G,132:ABTest平台,134:数据报表,136:实验管理,138:实验指标管理,140:业务系统,142:ABTest SDK,144:业务模块,146:前端,148:埋点SDK,150:实验埋点上报MQ,152:业务事件MQ,154:数据仓库,156:流批一体计算引擎,158:指标配置元数据,160:订单主题MQ,162:流量主题MQ,164:商品主题MQ,166:分布式存储引擎,168:调度系统,170:实验流量指标DB,172:核心业务指标DB,174:自定义指标DB,176:实时指标MPP,178:通用数据查询API,180:解析出维度和度量指标,182:SQL优化并执行计划,184:查询引擎,186:数据报表,188:数据可视化,200:实验指标的构建装置,210:存储器,220:处理器。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图10描述本发明一些实施例的实验指标的构建方法、构建装置和可读存储介质。
相关技术中,现有的AB实验平台一般只做流量的分发,具体的业务指标需要业务方进行统计,各个业务方对于埋点协议不够熟悉,指标构建也缺乏经验,而且各个业务方重复开发类似的指标也是资源的极大浪费,存在开发周期较长,数据ELT(Extract-Load-Transform,数据仓库技术)过程数据不一致的情况,从而无法及时校验AB实验分流的科学性以及快速直观感知实验的指标情况。
综上所述,本实施例的目的在于解决以上问题的至少之一,针对相关技术AB实验的指标构建问题,提出一种自动构建AB实验指标体系的方法,包括在对预先设定的指标体系,不需人工开发,通过流批一体的计算引擎进行多维度聚合,最终自动将实验的流量指标、实验的用户特征、以及实验的业务指标横向打通形成统一的指标体系。
实施例1:
如图1所示,本实施例提供了一种实验指标的实验指标的构建方法,用于实验平台,实验平台内能够设置应用、业务场景和实验,应用设有至少一个业务场景,业务场景包括至少一个分层,分层设有至少一个实验,构建方法包括以下步骤:
步骤S102,采用动态埋点协议,对分层进行数据埋点;
步骤S104,基于实验平台和业务系统,根据实验流量配置和数据埋点信息,构建指标体系,指标体系包括实验的流量指标、实验的用户特征和实验的业务指标;
步骤S106,设置通用的数据接口,实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,形成统一的指标体系。
本实施例中,实验信息与流量数据及业务数据进行联动,避免实验的流量指标和业务指标需要分别单独进行手动开发,节省研发时间与经费,本实施例中,根据实验流量配置和数据埋点信息,构建指标体系,能够保证指标维度的一致性,避免出现统计粒度不一致的问题,提高效率。
本实施例中,采用动态埋点协议,对分层进行数据埋点,避免业务方对于埋点协议不熟悉,需要另外进行开发,造成开发周期长,资源浪费等问题。
本实施例中,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,形成统一的指标体系,避免各个业务方重复开发类似的指标,能够节约资源,避免业务方开发指标周期长,数据ELT过程数据不一致的问题,更好的及时校验AB实验分流的科学性以及快速直观感知实验指标。
实施例2:
本实施例提供了一种实验指标的构建方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
动态埋点协议支持任意层数的分层,计算引擎能够自适应埋点中各个分区的具体含义并进行动态解析。
本实施例中,分层是业务系统内部一次实验分流使用到的整个流程模块,每一层的模型或者策略都可能影响最终的效果,应用有可能只有一层或者更多层,基于此本实施例设计了动态弹性的埋点协议,可以支持随意层数的试验,适用范围更加广泛,计算引擎会自适应埋点中各个分区的具体含义并动态解析,例如,一次点击上报有四层试验,计算引擎会对每一层试验的点击次数都做有状态的记录。
实施例3:
本实施例提供了一种实验指标的构建方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
同一应用在不同的业务场景之间,实验流量能够复用,同一分层下的实验之间互斥。
应用是对流量和系统的划分,业务场景是指需要对比不同策略的业务场景,业务场景是进行A/B测试的业务单元,一个业务场景下可以包含1个或1个以上的实验,实验流量在同一应用下的不同场景之间可以被复用,同一分层下的实验之间互斥。通过上述设置,可以使得实验平台更好的构建指标体系。
实施例4:
如图2所示,本实施例提供了一种实验指标的构建方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
基于实验平台和业务系统,根据实验流量配置和数据埋点信息,构建指标体系,具体包括以下步骤:
步骤S202,在实验平台进行元数据配置,得到实验配置和指标配置元数据,将实验配置推送至业务系统;
步骤S204,业务系统根据业务场景的实验流量配置,进行实验配置的动态分发,生成业务事件信息,业务系统还将实验信息推送至前端;
步骤S206,前端根据实验信息,上报实验的数据埋点信息;
步骤S208,基于实验埋点信息和业务事件信息,将实验流量、用户特征和业务事件进行关联,通过调度系统,得到实验的流量指标、实验的用户特征和实验的业务指标。
本实施例中,在实验平台进行元数据配置,业务系统根据业务场景的实验流量配置,进行实验配置的动态分发,生成业务事件信息,将实验流量、用户特征和业务事件进行关联,最终,得到实验的流量指标、实验的用户特征和实验的业务指标,其中,计算阶段将不同应用,不同场景,不同分层的实验流量分开并行计算,并和用户特征数据及业务数据进行关联,按照预先设定的指标体系分层次计算,最终聚合成结果指标,本实施例,只需配置即可自动化生成所需的指标,无需人工开发,节省资源。
实施例5:
如图3所示,本实施例提供了一种实验指标的构建方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
在实验平台进行元数据配置,得到实验配置和指标配置元数据,将实验配置推送至业务系统,具体包括以下步骤:
步骤S302,通过实验平台的实验管理,进行应用、业务场景与实验的创建、编辑、删除以及配置发布,得到实验配置,将实验配置推送至业务系统;
步骤S304,通过实验平台的实验指标管理,确定实验评价的核心度量指标、通用数据度量指标、和/或自定义度量指标,对需要计算的实验指标进行配置,得到指标配置元数据。
本实施例中,管理员可以在实验平台(ABTest,AB实验平台)上完成完备的元数据管理操作,包括应用、业务场景与实验的创建、编辑和删除以及配置的发布等。确定实验评价的核心度量指标,通用数据度量指标,或者自定义度量指标等,将需要计算的指标预先配置系统中。本实施例,通过实验平台的实验管理和实验指标管理,进行指标配置,操作简单,可以提高效率。
实施例6:
如图4所示,本实施例提供了一种实验指标的构建方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
基于实验埋点信息和业务事件信息,将实验流量、用户特征和业务事件进行关联,通过调度系统,得到实验的流量指标、实验的用户特征和实验的业务指标,具体包括以下步骤:
步骤S402,通过消息队列接收实验埋点信息和业务事件信息,采用实时计算引擎,按照预设的时间窗口,基于数据仓库和指标配置元数据,将实验流量、用户特征和业务事件进行关联,聚合生成面向主题的消息队列,并进入存储引擎;
步骤S404,将不需要进行再次关联的主题,通过消息队列落入存储引擎,调度系统根据预设执行时间和执行脚本,对存储引擎进行计算,生成实验的流量指标、实验的用户特征和实验的业务指标。
本实施例中,业务系统根据ABTest平台推送的实验配置,ABTest SDK(AB平台客户端(client端SDK)的软件开发工具包)实现针对应用标识、场景标识、分层标识、实验标识和用户分流标识的一致性哈希算法,根据场景的实验流量配置,进行实验配置的动态分发。本实施例中,系统层面通过预先的指标体系配置,无需人工开发,即可自动生成AB实验指标报表。
实施例7:
如图5所示,本实施例提供了一种实验指标的构建方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
在指标管理阶段,设置通用的数据接口,实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,具体包括以下步骤:
步骤S502,在常规指标中,通过拖拽的图形化界面,选择维度信息和度量指标;
步骤S504,将配置的维度信息和度量指标输入解析器,生成数据主题域的时间周期内的原子指标和派生指标的结构化查询语言模板;
步骤S506,针对自定义指标,配置保存后,解析器对配置进行校验。
本实施例中,在常规指标中,采用图形化界面,提升了操作效率,也使得指标更加直观。本实施例实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,实现通过预先的指标体系配置,无需人工开发,即可自动生成指标体系。
实施例8:
如图6所示,本实施例提供了一种实验指标的构建方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
在通用数据查询阶段,设置通用的数据接口,实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,具体包括以下步骤:
步骤S602,实验配置设有用户名,将用户名与过滤条件组成修饰词,数据服务接口根据修饰词,对结构化查询语言模板进行填充和拼装,根据不同的配置动态切换数据源检索数据。
本实施例中,数据服务接口根据修饰词,对结构化查询语言模板进行填充和拼装,可以有效的将实验的流量指标、实验的用户特征和实验的业务指标横向打通,实现通过预先的指标体系配置,无需人工开发,即可自动生成指标体系。
实施例9:
如图7所示,本实施例提供了一种实验指标的构建装置200,包括:存储器210和处理器220,存储器210存储有程序或指令,处理器220执行程序或指令;其中,处理器220在执行程序或指令时,实现如本发明任一实施例的实验指标的构建方法的步骤。
实施例10:
本实施例提供了一种可读存储介质,可读存储介质存储有程序或指令,程序或指令被处理器220执行时,实现上述任一实施例的实验指标的构建方法的步骤。
具体实施例:
如图8所示,本实施例提供了一种实验指标的构建方法,包括自适应弹性分层实验埋点、指标体系自动构建和数据服务三个部分。
(1)自适应弹性分层实验层埋点
实验多层分流主要流程如图8所示,其中:
应用100是对流量和系统的划分,例如,在线广告可以是一个应用,推荐系统也可以是一个应用。
场景102是指需要对比不同策略的业务场景,场景是进行A/B测试的业务单元,一个场景102下可以包含1个或1个以上的实验。流量在同一应用100下的不同场景102之间可以被复用。
分层108是业务系统内部一次实验分流使用到的整个流程模块,例如,在推荐系统中通常采用三层的架构recall层(召回层),rank层(排序层)和rerank层(混排层),每一层的模型或者策略都可能影响最终的效果。其他应用有可能只有一层或者更多层,基于此本实施例设计了动态弹性的埋点协议,可以支持随意层数的试验,计算引擎会自适应埋点中各个分区的具体含义并动态解析,例如,一次点击上报有四层试验,计算引擎会对每一层试验的点击次数都做有状态的记录。
实验110代表分层下的策略,通过实验配置进行描述,即一份实验配置对应一个算法模型或者业务策略。同一分层108下的实验110相互之间是互斥的。
如图8所示,应用100包括两个场景102,分别为场景A104和场景B106,两个场景102包括的分层108和实验110相同,分层108包括分层A112、分层B114和分层C116,分层A112设有实验A118、实验B120和实验C122,分层B114设有实验D124和实验E126,实验F128和实验G130。
(2)指标体系自动构建流程
指标体系自动构建的流程如图9所示,其中:
ABTest平台132设有数据报表134、实验管理136和实验指标管理138,管理员可以在ABTest平台132上完成完备的元数据管理操作,包括应用、场景与实验的创建、编辑和删除以及配置的发布等。确定实验评价的核心度量指标,通用数据度量指标,或者自定义度量指标等,将需要计算的指标预先配置系统中。
业务系统140设有ABTest SDK142(AB平台客户端(client端SDK)的软件开发工具包)和业务模块144,业务系统140根据ABTest平台132推送的实验配置,ABTest SDK142实现了针对应用标识、场景标识、分层标识、实验标识和用户分流标识的一致性哈希算法,根据场景的实验流量配置,进行实验配置的动态分发。
前端146根据业务系140的返回的实验信息,上报埋点日志到日志服务,前端146设有埋点SDK148(埋点软件开发工具包)。
在流批一体计算阶段将不同应用,不同场景,不同分层的实验流量分开并行计算,并和用户特征数据及业务数据进行关联,按照预先设定的指标体系分层次计算,最终聚合成结果指标,只需配置即可自动化生成所需的指标。其中:
第一,在实时计算阶段,其主要流程为:
1)通过实验埋点上报MQ(Message Queue,消息队列)150和业务事件MQ152接收前端146上报的实验埋点信息和业务系统发送的各业务事件信息。
2)使用流批一体计算引擎156,基于数据仓库154和指标配置元数据158,按照设定的时间窗口将实验流量流和各业务系统事件流进行关联,轻度聚合生成面向主题的通用指标体系,举例而言,通用指标体系可以包括订单主题MQ160、流量主题MQ162和商品主题MQ164,每一个主题都生成了该主题的指标体系,该层的指标体系并非面向应用层设计的,而是将该主题所有现存的核心指标以及可预见的指标进行冗余存储,以空间来换取时间,方便后续应用层分析。
3)将MQ作为事实数仓的中间数据载体,下游可根据不同的维度使用相关的topic(主题),减少网络IO(输入/输出(Input/Output))开销,每个topic都可以重复被消费,而且各个消费者都消费同一份数据,保证了数据的一致性。
第二,任务调度,其主要流程为:
1)有一些主题指标不需要再次关联可直接通过MQ落入分布式存储引擎166。
2)该层是面向应用设计的,大多数指标是需要跨主题进行关联,也可能需要再次进行聚合,以减少分布式存储引擎166的数据压力。
3)调度系统168会根据预先设定的执行时间及执行脚本,通过分布式存储引擎166,最终生成配置好的维度的指标,包括实验流量指标DB170(DoggaByte,刀字节,计算机中的储存单位)、核心业务指标DB172、自定义指标DB174和实时指标MPP176,并写入结果表,其中,MPP数据库为:大规模并行分析(MPP)数据库(Analytical Massively ParallelProcessing(MPP)Databases)是针对分析工作负载进行了优化的数据库:聚合和处理大型数据集。
(3)指标体系数据服务
数据服务整体的流程如图10所示,在数据接口层面,形成通用的数据接口,内部可以切换不同的数据源,可根据预先配置的维度及指标,将实验的流量指标、实验的用户特征、以及实验的业务指标横向打通形成统一的指标体系,即配即用,极大提升了数据报表的产出效率,本实施例自动构建了指标体系,使用方便灵活,间接提升数据报表的产出效率。其中:
第一,在指标管理阶段,其主要流程为:
1)通过可拖拽的图形化界面便捷的从常规指标中选择适合的维度及度量指标。
2)将配置的维度信息和度量指标通过解析器生成精确到数据主题域的时间周期内的原子指标和派生指标的SQL(结构化查询语言)模板。
3)对于一些常规指标不能满足的自定义指标,配置保存后,解析器会校验配置的正确性。
第二,通用数据查询阶段,其主要流程为:
数据服务接口通过传入的配置唯一id和过滤条件组成的修饰词来对之前生成的SQL模板进行填充和拼装。由于存在不同的场景,会根据不同的配置动态切换数据源检索数据。
例如:由于场景的不同一组指标是查询流量指标数据库,而另一组指标是查询自定义指标数据库。
还有会有同一次查询要横跨多个数据源的情况。
例如:实验的用户特征数据或实时数据都在MPP数据库,实验的流量指标在流量指标DB中,实验的业务指标在业务指标DB中,则要分析该次实验的曝光量,曝光人数(流量指标),下钻分析该实验组和对照组用户的年龄,性别,受教育程度等(用户特征),还有实验组的ctr(点击率),gmv(电商领域商品交易总额),arpu(每用户平均收入)等(业务指标)就需要横跨多个数据源进行查询。
对于实验组是否优于对照组的问题,默认提供了使用T检验和卡方检验来针对绝对值数据和比率数据进行显著性指标检验。
如图10所示,通用数据查询API 178(Application Programming Interface,应用程序接口)通过指标配置元数据158,解析出维度和度量指标180,进行SQL优化并执行计划182,查询引擎184基于实验流量指标DB170、核心业务指标DB172、自定义指标DB174和实时指标MPP176,得到数据报表186,并且,对数据进行数据可视化188。
本实施例中,系统层面通过预先的指标体系配置,无需人工开发,即可自动生成AB实验指标报表。
本实施例中,实验分流层面,使用弹性埋点协议,自适应动态解析多层实验流量数据。
本实施例中,还可以将部分指标走离线系统,T+1生成指标体系。
综上,本发明实施例的有益效果为:
1.本实施例中,实验信息与流量数据及业务数据进行联动,避免实验的流量指标和业务指标需要分别单独进行手动开发,节省研发时间与经费,本实施例中,根据实验流量配置和数据埋点信息,构建指标体系,能够保证指标维度的一致性,避免出现统计粒度不一致的问题,提高效率。
2.本实施例中,采用动态埋点协议,对分层进行数据埋点,避免业务方对于埋点协议不熟悉,需要另外进行开发,造成开发周期长,资源浪费等问题。
3.本实施例中,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,形成统一的指标体系,避免各个业务方重复开发类似的指标,能够节约资源,避免业务方开发指标周期长,数据ELT过程数据不一致的问题,更好的及时校验AB实验分流的科学性以及快速直观感知实验指标。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明的限制。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种实验指标的构建方法,用于实验平台,其特征在于,所述实验平台内能够设置应用、业务场景和实验,所述应用设有至少一个所述业务场景,所述业务场景包括至少一个分层,所述分层设有至少一个所述实验,所述构建方法包括:
采用动态埋点协议,对所述分层进行数据埋点;
基于所述实验平台和业务系统,根据实验流量配置和数据埋点信息,构建指标体系,所述指标体系包括实验的流量指标、实验的用户特征和实验的业务指标;
设置通用的数据接口,实现内部数据源切换,将所述实验的流量指标、所述实验的用户特征和所述实验的业务指标横向打通,形成统一的所述指标体系。
2.根据权利要求1所述的实验指标的构建方法,其特征在于,所述动态埋点协议支持任意层数的所述分层,计算引擎能够自适应埋点中各个分区的具体含义并进行动态解析。
3.根据权利要求1所述的实验指标的构建方法,其特征在于,同一所述应用在不同的所述业务场景之间,实验流量能够复用,同一所述分层下的所述实验之间互斥。
4.根据权利要求1所述的实验指标的构建方法,其特征在于,所述基于所述实验平台和业务系统,根据实验流量配置和数据埋点信息,构建指标体系,具体包括:
在所述实验平台进行元数据配置,得到实验配置和指标配置元数据,将所述实验配置推送至所述业务系统;
所述业务系统根据所述业务场景的所述实验流量配置,进行所述实验配置的动态分发,生成业务事件信息,所述业务系统还将实验信息推送至前端;
所述前端根据所述实验信息,上报实验的所述数据埋点信息;
基于所述实验埋点信息和所述业务事件信息,将实验流量、用户特征和业务事件进行关联,通过调度系统,得到所述实验的流量指标、所述实验的用户特征和所述实验的业务指标。
5.根据权利要求4所述的实验指标的构建方法,其特征在于,所述在所述实验平台进行元数据配置,得到实验配置和指标配置元数据,将所述实验配置推送至所述业务系统,具体包括:
通过所述实验平台的实验管理,进行所述应用、所述场景与所述实验的创建、编辑、删除以及配置发布,得到所述实验配置,将所述实验配置推送至所述业务系统;
通过所述实验平台的实验指标管理,确定实验评价的核心度量指标、通用数据度量指标、和/或自定义度量指标,对需要计算的实验指标进行配置,得到所述指标配置元数据。
6.根据权利要求4所述的实验指标的构建方法,其特征在于,所述基于所述实验埋点信息和所述业务事件信息,将实验流量、用户特征和业务事件进行关联,通过调度系统,得到实验的流量指标、实验的用户特征和实验的业务指标,具体包括:
通过消息队列接收所述实验埋点信息和所述业务事件信息,采用实时计算引擎,按照预设的时间窗口,基于数据仓库和所述指标配置元数据,将所述实验流量流和所述业务事件流进行关联,聚合生成面向主题的消息队列,并进入存储引擎;
将不需要进行再次关联的主题,通过消息队列落入所述存储引擎,所述调度系统根据预设执行时间和执行脚本,对所述存储引擎进行计算,生成所述实验的流量指标、所述实验的用户特征和所述实验的业务指标。
7.根据权利要求1所述的实验指标的构建方法,其特征在于,在指标管理阶段,所述设置通用的数据接口,实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,具体包括:
在常规指标中,通过拖拽的图形化界面,选择维度信息和度量指标;
将配置的所述维度信息和所述度量指标输入解析器,生成数据主题域的时间周期内的原子指标和派生指标的结构化查询语言模板;
针对自定义指标,配置保存后,所述解析器对配置进行校验。
8.根据权利要求7所述的实验指标的构建方法,其特征在于,在通用数据查询阶段,所述设置通用的数据接口,实现内部数据源切换,将实验的流量指标、实验的用户特征和实验的业务指标横向打通,具体包括:
实验配置设有用户名,将用户名与过滤条件组成修饰词,数据服务接口根据所述修饰词,对所述结构化查询语言模板进行填充和拼装,根据不同的配置动态切换数据源检索数据。
9.一种实验指标的构建装置(200),其特征在于,包括:
存储器(210),存储有程序或指令;
处理器(220),执行所述程序或指令;
其中,所述处理器(220)在执行所述程序或指令时,实现如权利要求1至8中任一项所述的实验指标的构建方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时,实现如权利要求1至8中任一项所述的实验指标的构建方法的步骤。
CN202110670644.1A 2021-06-17 2021-06-17 实验指标的构建方法、构建装置和可读存储介质 Pending CN115496309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110670644.1A CN115496309A (zh) 2021-06-17 2021-06-17 实验指标的构建方法、构建装置和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110670644.1A CN115496309A (zh) 2021-06-17 2021-06-17 实验指标的构建方法、构建装置和可读存储介质

Publications (1)

Publication Number Publication Date
CN115496309A true CN115496309A (zh) 2022-12-20

Family

ID=84464278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110670644.1A Pending CN115496309A (zh) 2021-06-17 2021-06-17 实验指标的构建方法、构建装置和可读存储介质

Country Status (1)

Country Link
CN (1) CN115496309A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975041A (zh) * 2023-08-29 2023-10-31 上海乐响网络科技发展有限公司 Ab实验分流及分析系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975041A (zh) * 2023-08-29 2023-10-31 上海乐响网络科技发展有限公司 Ab实验分流及分析系统
CN116975041B (zh) * 2023-08-29 2024-05-14 上海乐响网络科技发展有限公司 Ab实验分流及分析系统

Similar Documents

Publication Publication Date Title
CA2896855C (en) System and method for distributed database query engines
US9639575B2 (en) Method and system for processing data queries
US8635628B2 (en) Systems and methods providing intelligent routing of data between software system
US10116534B2 (en) Systems and methods for WebSphere MQ performance metrics analysis
CN108733532B (zh) 大数据平台的健康度管控方法、装置、介质及电子设备
CN107103064B (zh) 数据统计方法及装置
CN111966943A (zh) 流式数据分发方法和系统
WO2024012221A1 (zh) 基于版式数据流文件底板创建虚拟服务共享池的方法
CN112685499A (zh) 一种工作业务流的流程数据同步方法、装置及设备
US9037705B2 (en) Routing of performance data to dependent calculators
CN115496309A (zh) 实验指标的构建方法、构建装置和可读存储介质
CN116560626A (zh) 基于自定义规则的数据处理方法、系统、设备和存储介质
CN113515363B (zh) 面向异型任务高并发的多层次数据处理系统动态调度平台
US9330123B2 (en) Method and system for improving information system performance based on usage patterns
US20140359742A1 (en) Apparatus and Method for Agent Based Ingestion of Data
EP2770447B1 (en) Data processing method, computational node and system
US9305066B2 (en) System and method for remote data harmonization
CN112363774B (zh) Storm实时任务的配置方法及装置
CN105991366B (zh) 一种业务监控方法及系统
Henning Prototype of a scalable monitoring infrastructure for Industrial DevOps
CN110928938B (zh) 一种接口中间件系统
CN112988705A (zh) 一种可用于企业级生产的数据中台构建方法
Steinkamp et al. HyDash: A dashboard for real-time business intelligence based on the hyPer Main memory database system
CN111352795A (zh) 一种移动业务的监控方法及装置
CN113760836B (zh) 一种宽表计算方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination