CN112132362A - 一种指标数据处理方法、装置、电子设备及存储介质 - Google Patents

一种指标数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112132362A
CN112132362A CN202011062840.2A CN202011062840A CN112132362A CN 112132362 A CN112132362 A CN 112132362A CN 202011062840 A CN202011062840 A CN 202011062840A CN 112132362 A CN112132362 A CN 112132362A
Authority
CN
China
Prior art keywords
dimension
mutually exclusive
dimensions
consistency
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011062840.2A
Other languages
English (en)
Inventor
段效晨
康林
赵艳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongyuan Network Co ltd
Original Assignee
Shanghai Zhongyuan Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongyuan Network Co ltd filed Critical Shanghai Zhongyuan Network Co ltd
Priority to CN202011062840.2A priority Critical patent/CN112132362A/zh
Publication of CN112132362A publication Critical patent/CN112132362A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种指标数据处理方法、装置、电子设备及存储介质,所述方法包括:获取目标指标的指标数据,所述目标指标对应多个维度,每个维度对应多个元素,所述指标数据包括各维度对应的多个元素的时间序列;若多个维度至少包含非互斥维度,根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度;基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合。本发明实施例实现智能的指标波动分析,快速定位产生数据波动可能性最大的根本原因,从而节省了大量人力资源。

Description

一种指标数据处理方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种指标数据处理方法、装置、电子设备及存储介质。
背景技术
当前,随着互联网的快速发展,互联网用户每天都会产生大量数据(行为数据、消费数据等等)。对于数据的统计与分析,是目前绝大多数公司的重点,从数据中能够掌握业务的现状、问题与优势。
数据分析中经常会面临的一个问题是,某个业务指标出现波动(突增或突降)的原因是什么。数据分析师每当遇到这个问题时,都需要人工去从每一个可能的维度进行统计,找到数据波动的根本原因。例如,一个自媒体平台日活作者数量在某日出现了大幅增长,那么是普通作者的日活增长导致了总体用户日活增长,还是优质作者的日活增长导致了总体用户日活的增长呢,数据分析师每当遇到这类问题时,都需要人工去从每一个可能的数据维度进行统计,找到数据波动的根本原因。
然而,人工去发现数据波动的根本原因耗时较长,如果经常需要人工分析数据波动原因,将会消耗大量人力资源;而且,当数据维度较多,或维度中元素较多时,人工分析不一定能够定位到最为准确的结果,且分析时间也会大幅增加。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种指标数据处理方法、装置、电子设备及存储介质。
第一方面,本申请提供了一种指标数据处理方法,包括:
获取目标指标的指标数据,所述目标指标对应多个维度,每个维度对应多个元素,所述指标数据包括各维度对应的多个元素的时间序列;
若多个维度至少包含非互斥维度,根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度;
基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合。
可选地,所述根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值,包括:
基于所述非互斥维度对应的多个元素的时间序列计算每个元素的实际值;
将多个元素的实际值的和确定为所述目标指标的实际值。
可选地,若多个维度均为非互斥维度;所述基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度,包括:
针对所述目标指标对应的每个非互斥维度,基于所述非互斥维度对应的多个元素的时间序列计算所述非互斥维度对应的每个元素的预测值,获取所述非互斥维度对应的每个元素的实际值;
基于多个非互斥维度对应的每个元素的预测值计算所述目标指标的预测值;
基于所述非互斥维度对应的每个元素的实际值与预测值、所述目标指标的实际值与预测值计算每个所述元素的元素贡献度及元素一致度。
可选地,所述基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,包括:
针对所述目标指标对应的每个非互斥维度,对多个所述元素的元素一致度进行排序,按照多个元素的元素一致度的排序顺序对多个所述元素及多个所述元素的贡献度进行排序;在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个非互斥维度对应的候选元素集合;
计算每个非互斥维度对应的候选元素集合的集合一致度;
对多个候选元素集合的集合一致度进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序;
在排序后的各个非互斥维度对应的候选元素集合中选择若干个元素集合作为影响所述目标指标波动的目标元素集合。
可选地,若多个维度包含非互斥维度和互斥维度,所述根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值,包括;
根据所述非互斥维度对应的多个元素的时间序列及互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
所述方法还包括:
基于所述目标指标的实际值计算所述互斥维度对应的每个元素的元素贡献度及元素一致度;
所述基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,包括:
基于所述互斥维度对应的每个元素的贡献度及一致度、以及、所述非互斥维度对应的每个元素的贡献度及一致度确定影响所述目标指标波动的目标元素集合。
可选地,所述基于所述互斥维度对应的每个元素的贡献度及一致度、以及、所述非互斥维度对应的每个元素的贡献度及一致度确定影响所述目标指标波动的目标元素集合,包括:
针对所述目标指标对应的每个互斥维度和每个非互斥维度,对互斥维度或者非互斥维度对应的多个所述元素的元素一致度进行排序,按照多个元素的元素一致度的排序顺序对多个所述元素及多个所述元素的贡献度进行排序;在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个互斥维度及每个非互斥维度对应的候选元素集合;
计算每个互斥维度对应的候选元素集合的集合一致度及非互斥维度对应的候选元素集合的集合一致度;
对各个互斥维度对应的多个候选元素集合及各个非互斥维度对应的多个候选元素集合的集合一致度进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序;
在排序后的各个互斥维度对应的候选元素集合及各个非互斥维度对应的候选元素集合中选择若干个候选元素集合作为影响所述目标指标波动的目标元素集合。
可选地,所述方法还包括:
获取每个维度的基数;
将所述维度的基数的倒数,确定为与所述维度对应的每个元素的元素贡献度阈值。
第二方面,本申请提供了一种指标数据处理装置,包括:
第一获取模块,用于获取目标指标的指标数据,所述目标指标对应多个维度,每个维度对应多个元素,所述指标数据包括各维度对应的多个元素的时间序列;
第一计算模块,用于若多个维度至少包含非互斥维度,根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
第二计算模块,用于基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度;
确定模块,用于基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合。
可选的,所述第一计算模块,包括:
第一计算单元,用于基于所述非互斥维度对应的多个元素的时间序列计算每个元素的实际值;
第一确定单元,用于将多个元素的实际值的和确定为所述目标指标的实际值。
可选的,若多个维度均为非互斥维度;所述第二计算模块,包括:
第二计算单元,用于针对所述目标指标对应的每个非互斥维度,基于所述非互斥维度对应的多个元素的时间序列计算所述非互斥维度对应的每个元素的预测值,获取所述非互斥维度对应的每个元素的实际值;
第三计算单元,用于基于多个非互斥维度对应的每个元素的预测值计算所述目标指标的预测值;
第四计算单元,用于基于所述非互斥维度对应的每个元素的实际值与预测值、所述目标指标的实际值与预测值计算每个所述元素的元素贡献度及元素一致度。
可选的,所述确定模块,包括:
候选元素集合确定单元,用于针对所述目标指标对应的每个非互斥维度,对多个所述元素的元素一致度进行排序,按照多个元素的元素一致度的排序顺序对多个所述元素及多个所述元素的贡献度进行排序;在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个非互斥维度对应的候选元素集合;
第五计算单元,用于计算每个非互斥维度对应的候选元素集合的集合一致度;
第一排序单元,用于对多个候选元素集合的集合一致度进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序;
第一选择单元,用于在排序后的各个非互斥维度对应的候选元素集合中选择若干个元素集合作为影响所述目标指标波动的目标元素集合。
可选的,若多个维度包含非互斥维度和互斥维度,所述第一计算模块,包括:
第二确定单元,用于根据所述非互斥维度对应的多个元素的时间序列及互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
所述装置还包括:
第六计算单元,用于基于所述目标指标的实际值计算所述互斥维度对应的每个元素的元素贡献度及元素一致度;
所述确定模块,包括:
第三确定单元,用于基于所述互斥维度对应的每个元素的贡献度及一致度、以及、所述非互斥维度对应的每个元素的贡献度及一致度确定影响所述目标指标波动的目标元素集合。
可选的,所述第三确定单元,还用于:
针对所述目标指标对应的每个互斥维度和每个非互斥维度,对互斥维度或者非互斥维度对应的多个所述元素的元素一致度进行排序,按照多个元素的元素一致度的排序顺序对多个所述元素及多个所述元素的贡献度进行排序;在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个互斥维度及每个非互斥维度对应的候选元素集合;
计算每个互斥维度对应的候选元素集合的集合一致度及非互斥维度对应的候选元素集合的集合一致度;
对各个互斥维度对应的多个候选元素集合及各个非互斥维度对应的多个候选元素集合的集合一致度进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序;
在排序后的各个互斥维度对应的候选元素集合及各个非互斥维度对应的候选元素集合中选择若干个候选元素集合作为影响所述目标指标波动的目标元素集合。
可选的,所述装置还包括:
第二获取模块,用于获取每个维度的基数;
确定模块,用于将所述维度的基数的倒数,确定为与所述维度对应的每个元素的元素贡献度阈值。
第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的指标数据处理方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指标数据处理方法的程序,所述指标数据处理方法的程序被处理器执行时实现第一方面任一所述的指标数据处理方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,通过获取目标指标的指标数据,所述目标指标对应多个维度,每个维度对应多个元素,所述指标数据包括各维度对应的多个元素的时间序列;若多个维度至少包含非互斥维度,根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度;最后可以基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合。
本发明实施例能够在目标指标对应的多个维度中包含非互斥维度时,根据非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值,计算非互斥维度对应的每个元素的元素贡献度及元素一致度,再基于非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,实现智能的指标波动分析,快速定位产生数据波动可能性最大的根本原因,从而节省了大量人力资源。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种指标数据处理方法的一种流程图;
图2为本申请实施例提供的预设根因分析算法的流程图;
图3为图1中步骤S103的流程图;
图4为图1中步骤S104的流程图;
图5为本申请实施例提供的一种指标数据处理方法的另一种流程图;
图6为本申请实施例提供的一种指标数据处理装置的结构图;
图7为本申请实施例提供的一种电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于人工去发现数据波动的根本原因耗时较长,如果经常需要人工分析数据波动原因,将会消耗大量人力资源;而且,当数据维度较多,或维度中元素较多时,人工分析不一定能够定位到最为准确的结果,且分析时间也会大幅增加。为此,本发明实施例提供了一种指标数据处理方法、装置、电子设备及存储介质,如图1所示,所述指标数据处理方法可以包括以下步骤:
步骤S101,获取目标指标的指标数据。
在本发明实施例中,所述目标指标对应多个维度,每个维度对应多个元素,所述指标数据包括各维度对应的多个元素的时间序列;
示例性的,目标指标为用户上传活跃指标,维度可以指上传入口等,上传入口对应的元素可以包括:上传入口为主站普通上传、用户类型为内部运营和用户来源类型为外部用户等。指标数据可以包括:上传入口为主站普通上传的上传活跃量、用户类型为内部运营的上传活跃量和用户来源类型为外部用户的上传活跃量。
为了尽可能准确的获取目标指标的周期性特征,在本发明实施例中,应选取较长一段时间的指标数据,示例性的,可以选取最近2个月的指标数据。
步骤S102,若多个维度至少包含非互斥维度,根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
在本发明实施例中,多个维度中可以至少包含非互斥维度,具体的,多个维度中可以仅包含非互斥维度,也可以同时包含非互斥维度和互斥维度。
非互斥维度是指可以同时对应同一个元素的维度,非互斥维度之间是非互斥关系,也就是一个元素可以对应一个非互斥维度,也可以同时对应其它非互斥维度,如:元素用户类型为内部运营这个元素既对应上传入口这个维度,也同时对应用户类型这个维度,上传入口和用户类型即为非互斥维度。
由于多个非互斥维度可以同时对应同一个元素,在基于多个非互斥维度计算目标指标的指标数据时,无法避免某一个同时对应两个非互斥维度的元素的数据被重复计算,所以计算得到的目标指标的指标数据会大于实际数据。
互斥维度是指不能同时对应同一个元素的维度,互斥维度之间是互斥关系,也就是一个元素仅可以对应一个互斥维度,不可以同时对应其它的互斥维度,如:用户类型为内部运营这个元素对应用户类型这个维度,用户来源类型为外部用户对应用户来源类型这个维度,用户类型为内部运营这个元素不可能对应用户来源类型这个维度,用户来源类型为外部用户不可能对应用户类型这个维度,用户类型和用户来源类型为互斥维度。
由于不存在同时对应同一个元素的互斥维度,也就不会存在某个元素的数据被重复计算的情况,所以基于多个互斥维度计算的目标指标的指标数据会等于实际数据。
目前,预设根因分析算法(如:Adtributor算法,Adtributor算法主要是根据指标的预测值和实际值的分布情况,计算JS散度,从中找出影响指标波动最大的维度以及相应维度值对应的元素集合)是针对互斥维度的指标波动分析,对于非互斥维度,并未证据表明可以使用预设根因分析算法做指标波动分析,因此,在本发明实施例中,首先对非互斥维度是否适用该预设根因分析算法进行验证:
本发明实施例给出如下符号表示及含义说明:
表1非互斥维度符号说明表
Figure BDA0002712866730000091
Figure BDA0002712866730000101
由于互斥维度不影响算法的适用性,因此假定各个互斥维度取一个固定的元素组合E,某一非互斥维度i的元素集合为naEi={naEi1,naEi2,…,naEin}
根据非互斥维度的含义,则有:
Figure BDA0002712866730000102
将指标值分解为矩阵:
Figure BDA0002712866730000103
其中,当i≠j时,amij(i,j∈[1,n])表示元素i与j重复计入的指标值,当i=j时,amij(i,j∈[1,n])表示元素i(j)的指标值。
显然,矩阵A为对称矩阵,并有如下等式关系:
Figure BDA0002712866730000111
Figure BDA0002712866730000112
Figure BDA0002712866730000113
Figure BDA0002712866730000114
同理,指标的比较基准值矩阵:
Figure BDA0002712866730000115
其中,当i≠j时,bmij(i,j∈[1,n])表示元素i与j重复计入的比较基准值(相当于本发明实施例中元素的预测值),当i=j时,bmij(i,j∈[1,n])表示元素i(j)的比较基准值。
若根据原算法的定义,得到非互斥维度i的元素j的贡献度值为:
Figure BDA0002712866730000116
因此非互斥维度i的贡献度值为:
Figure BDA0002712866730000117
显然,随着
Figure BDA0002712866730000118
正负取值不同,不能保证该维度的总贡献值为1,且比较前后各个元素的先验概率之和与后验概率之和均不能保证为1,这将影响从JS散度衍生出的一致度(Surprise)值的计算。因此,对于非互斥维度,需要在聚合结果的基础上进行计算,即用
Figure BDA0002712866730000121
代替AMe=(E,*)(比较的基准值同理),这样可保证贡献度和一致度两个关键指标的计算满足预设根因分析算法的条件。
基于以上验证过程可知,对于非互斥维度,只要利用
Figure BDA0002712866730000122
代替AMe=(E,*)(比较的基准值同理),也可以适用于该预设根因分析算法。
在该步骤中,可以基于所述非互斥维度对应的多个元素的时间序列计算每个元素的实际值;将多个元素的实际值的和确定为所述目标指标的实际值。
若多个维度中可以仅包含非互斥维度,则可以根据各非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;也就是说,可以针对每个元素,将所述元素的时间序列中当前波动周期内与当前时刻对应的数值确定为所述元素的实际值,将多个元素的实际值的和确定为目标指标的实际值;
若多个维度中同时包含非互斥维度和互斥维度,则可以根据各非互斥维度对应的多个元素的时间序列以及各互斥维度对应的多个元素的时间序列计算所述目标指标的实际值。也就是说,可以针对各非互斥维度对应的每个元素以及各互斥维度对应的每个元素,将所述元素的时间序列中当前波动周期内与当前时刻对应的数值确定为所述元素的实际值,将各非互斥维度及各互斥维度对应的多个元素的实际值的和确定为目标指标的实际值。
步骤S103,基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度;
在本发明实施例中,元素贡献度可以按照预设根因分析算法中的贡献度的计算公式计算得到,元素一致度可以按照预设根因分析算法中一致度的计算公式计算得到。
由于前述步骤计算得到目标指标的实际值,所以可以将目标指标的实际值带入元素贡献度的计算公式中,计算得到元素贡献度,将目标指标的实际值带入元素一致度的计算公式中,计算得到元素一致度。
在本发明实施例中,预设根因分析算法的计算流程如图2所示,本发明实施例中维度(Dimension)记作:D={D1,D2,…,Dn},元素(Element)记作:
Figure BDA0002712866730000131
在本发明实施例中,可以通过以下方式计算每个元素的元素贡献度:
某维度下元素Eij的波动变化占指标总体波动变化的比率称为贡献度(Explanatory Power)记作:EP。计算公式如下:
Figure BDA0002712866730000132
其中,m为目标指标,Aij(m)为目标指标的元素Eij的实际值,Fij(m)为目标指标的元素Eij的预测值,A(m)为目标指标的整体实际值,F(m)为目标指标的整体预测值。
一般情况下,一个元素的贡献度取值范围介于0%-100%之间。当然也有可能取值超过100%或者小于0%,这种情况下说明当前元素的波动变化与总体的波动变化呈相反的趋势。总而言之,任意维度下的所有元素贡献度之和等于100%。
在本发明实施例中,可以通过以下方式计算每个元素的元素一致度:
一致度指某维度下元素Eij的真实值和预测值占指标总体的差异性,对于每个元素Eij,用pij表示预测占比或者叫做先验概率。计算公式如下:
Figure BDA0002712866730000133
用qij表示实际占比或者叫做后验概率。计算公式如下:
Figure BDA0002712866730000134
获得先验概率和后验概率后,如果后验概率分布与先验概率分布有着显著的差异,那么这两种概率分布之间的差异一般可以通过使用相对熵或者K-L散度来衡量。但是由于K-L散度存在非对称性而且可能无界,所以这里使用JS散度来衡量先验概率P和后验概率Q之间的这种差异:
Figure BDA0002712866730000135
其中,pi代表先验概率,qi代表后验概率,可以看出Djs(P,Q)是具有对称性的,并且是有界的:0≤Djs(P,Q)≤1。因此,对于每个元素Eij的一致度Sij可以通过以下公式进行计算:
Figure BDA0002712866730000141
其中,p=pij(m),q=qij(m)。
步骤S104,基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合。
在本发明实施例中,可以将前述步骤得到的每个元素的元素贡献度、元素一致度带入预设根因分析算法中,进而利用预设根因分析算法计算得到影响所述目标指标波动的目标元素集合。
本申请实施例提供的该方法,通过获取目标指标的指标数据,所述目标指标对应多个维度,每个维度对应多个元素,所述指标数据包括各维度对应的多个元素的时间序列;若多个维度至少包含非互斥维度,根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度;最后可以基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合。
本发明实施例能够在目标指标对应的多个维度中至少包含非互斥维度时,根据非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值,计算非互斥维度对应的每个元素的元素贡献度及元素一致度,再基于非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,实现智能的指标波动分析,快速定位产生数据波动可能性最大的根本原因,从而节省了大量人力资源。
在本发明的又一实施例中,若多个维度均为非互斥维度;如图3所示,所述步骤S103,包括:
步骤S201,针对所述目标指标对应的每个非互斥维度,基于所述非互斥维度对应的多个元素的时间序列计算所述非互斥维度对应的每个元素的预测值,获取所述非互斥维度对应的每个元素的实际值;
在该步骤中,由于多个维度均为非互斥维度,所以可以对于目标指标对应的每个非互斥维度,基于该非互斥维度对应的多个元素的时间序列预测该非互斥维度对应的每个元素的预测值。
基于该非互斥维度对应的多个元素的时间序列预测该非互斥维度对应的每个元素的预测值,可以通过以下方式:
在本发明的一种实施例中,可以首先基于指标数据中所有元素的波动情况计算目标指标的波动周期,然后针对非互斥维度对应的每个元素,在所述元素的时间序列中确定当前波动周期之前的上一历史波动周期,在所述上一历史波动周期内确定与当前时刻对应的历史时刻,将所述元素的时间序列中所述上一历史波动周期内与所述历史时刻对应的数值确定为所述元素的预测值。
在本发明的又一实施例中,可以采用时间序列预测法等预测每个元素的预测值。
由于非互斥维度对应的每个元素的实际值在计算目标指标的实际值时已经计算,所以此处仅获取S102时计算得到的非互斥维度对应的每个元素的实际值即可。
步骤S202,基于多个非互斥维度对应的每个元素的预测值计算所述目标指标的预测值;
在该步骤中,可以将多个非互斥维度对应的多个元素的预测值的和确定为目标指标的预测值。
步骤S203,基于所述非互斥维度对应的每个元素的实际值与预测值、所述目标指标的实际值与预测值计算每个所述元素的元素贡献度及元素一致度。
在本发明实施例中,可以将多个非互斥维度对应的多个元素的实际值的和确定为目标指标的实际值。
在该步骤中,在计算得到各非互斥维度对应的每个元素的实际值与预测值、所述目标指标的实际值与预测值后,可以将各非互斥维度对应的每个元素的实际值与预测值、所述目标指标的实际值与预测值带入前述实施例中的元素贡献度计算公式及元素一致度计算公式,按照前述实施例中的公式计算每个元素的元素贡献度及元素一致度。
本发明实施例能够基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度,进而便于基于非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,实现智能的指标波动分析,快速定位产生数据波动可能性最大的根本原因,从而节省了大量人力资源。
在本发明的又一实施例中,如图4所示,所述步骤S104,包括:
步骤S301,针对所述目标指标对应的每个非互斥维度,对所述非互斥维度对应的多个所述元素的元素一致度进行排序,按照多个元素的元素一致度的排序顺序对多个所述元素及多个所述元素的贡献度进行排序;在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个非互斥维度对应的候选元素集合;
由于已经针对每个非互斥维度,计算了非互斥维度对应的每个元素的元素一致度及元素贡献度,因此可以认为元素、元素一致度和元素贡献度三者之间存在对应关系,进而可以针对每个非互斥维度,首先将多个元素的元素一致度进行排序,相应的,可以按照多个元素的元素一致度的排序顺序得到元素一致度对应的元素的排序及元素贡献度排序。
然后,可以遍历每个非互斥维度对应的元素的元素贡献度,在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个非互斥维度对应的候选元素集合(元素集合中每个元素的元素贡献度
Figure BDA0002712866730000161
TEEP是元素的贡献度阈值)。
另外,在本发明实施例中,每个非互斥维度对应的候选元素集合中的多个元素的元素贡献度之和还应当大于或者等于预设的总体贡献度阈值Tep。
基于以上,步骤S301可以针对每个非互斥维度,在非互斥维度对应的元素中选择符合条件的元素(大于预设的元素贡献度阈值的元素贡献度),将选择出来的元素构建候选元素集合。
例如:基于前述实施例,对于上传入口这个非互斥维度,若元素-上传入口为主站普通上传和元素-用户类型为内部运营的元素贡献度大于预设的元素贡献度阈值,则可以将元素-上传入口为主站普通上传和元素-用户类型为内部运营进行组合,得到非互斥维度-上传入口对应的候选元素集合。
步骤S302,计算每个非互斥维度对应的元素集合的集合一致度;
在该步骤中,可以针对每个非互斥维度,将该非互斥维度对应元素集合内的元素的一致度的和确定为集合一致度。
步骤S303,对多个候选元素集合的集合一致度进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序;
在该步骤中,由于S302计算得到每个非互斥维度对应的候选元素集合的集合一致度,所以可以将各非互斥维度对应的候选元素集合的集合一致度进行排序,进而根据集合一致度的排序顺序对多个非互斥维度所对应的候选元素集合进行排序。
步骤S304,在排序后的各个非互斥维度对应的元素集合中选择若干个元素集合作为影响所述目标指标波动的目标元素集合。
在该步骤中,可以按照集合一致度从大到小的顺序,将各个非互斥维度对应的候选元素集合进行排序,然后选择排序序列前若干个候选元素集合作为影响所述目标指标波动的目标元素集合。
示例性的,假设从大到小排序后的各个非互斥维度对应的候选元素集合依次为:非互斥维度-上传入口对应的候选元素集合、非互斥维度-用户类型对应的候选元素集合、非互斥维度-用户来源类型对应的候选元素集合和非互斥维度-用户使用终端类型对应的候选元素集合,则可以选择TOP3的候选元素集合(即:维度-上传入口对应的候选元素集合、维度-用户类型对应的候选元素集合、维度-用户来源类型对应的候选元素集合)作为影响所述目标指标波动的目标元素集合。
本发明实施例能够基于非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,实现智能的指标波动分析,快速定位产生数据波动可能性最大的根本原因,从而节省了大量人力资源。
在本发明的又一实施例中,若多个维度包含非互斥维度和互斥维度,所述步骤S102,包括:
根据所述非互斥维度对应的多个元素的时间序列及互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
在该步骤中,在目标指标对应的多个维度中不仅包含非互斥维度,还包含互斥维度时,可以根据所述非互斥维度对应的多个元素的时间序列及互斥维度对应的多个元素的时间序列计算所述目标指标的实际值。也就是说,可以针对各非互斥维度对应的每个元素以及各互斥维度对应的每个元素,将所述元素的时间序列中当前波动周期内与当前时刻对应的数值确定为所述元素的实际值,将各非互斥维度及各互斥维度对应的多个元素的实际值的和确定为目标指标的实际值。
所述方法还包括:
基于所述目标指标的实际值计算所述互斥维度对应的每个元素的元素贡献度及元素一致度;
在该步骤中,计算每个元素的元素贡献度及元素一致度时使用的目标指标的预测值、元素的预测值及元素的实际值可以参照前述实施例的计算方式。
所述步骤S104,包括:
基于所述互斥维度对应的每个元素的贡献度及一致度、以及、所述非互斥维度对应的每个元素的贡献度及一致度确定影响所述目标指标波动的目标元素集合。
本发明实施例能够基于非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,实现智能的指标波动分析,快速定位产生数据波动可能性最大的根本原因,从而节省了大量人力资源。
在本发明的又一实施例中,所述基于所述互斥维度对应的每个元素的贡献度及一致度、以及、所述非互斥维度对应的每个元素的贡献度及一致度确定影响所述目标指标波动的目标元素集合,包括:
针对所述目标指标对应的每个互斥维度和每个非互斥维度,对互斥维度或者非互斥维度对应的多个所述元素的元素一致度进行排序,按照多个元素的元素一致度的排序顺序对多个所述元素及多个所述元素的贡献度进行排序;在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个互斥维度及每个非互斥维度对应的候选元素集合;
由于已经针对每个非互斥维度,计算了非互斥维度对应的每个元素的元素一致度及元素贡献度,因此可以认为元素、元素一致度和元素贡献度三者之间存在对应关系;而且,已经针对每个互斥维度,计算了互斥维度对应的每个元素的元素一致度及元素贡献度,因此可以认为元素、元素一致度和元素贡献度三者之间存在对应关系;进而可以针对所有的非互斥维度及互斥维度,首先将非互斥维度及互斥维度对应的多个元素的元素一致度一同进行排序,相应的,可以按照多个元素的元素一致度的排序顺序得到元素一致度对应的元素的排序及元素贡献度排序。
然后,可以遍历每个非互斥维度及互斥维度对应的元素的元素贡献度,在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个非互斥维度或者互斥维度对应的候选元素集合(元素集合中每个元素的元素贡献度
Figure BDA0002712866730000191
TEEP是元素的贡献度阈值)。
另外,在本发明实施例中,每个非互斥维度或互斥维度对应的候选元素集合中的多个元素的元素贡献度之和还应当大于或者等于预设的总体贡献度阈值Tep。
基于以上,该步骤可以针对每个非互斥维度及互斥维度,在非互斥维度或者互斥维度对应的元素中选择符合条件的元素(大于预设的元素贡献度阈值的元素贡献度),将选择出来的元素构建候选元素集合。
计算每个互斥维度对应的候选元素集合的集合一致度及非互斥维度对应的候选元素集合的集合一致度;
在该步骤中,可以针对每个互斥维度或非互斥维度,将该互斥维度或非互斥维度对应元素集合内的元素的一致度的和确定为集合一致度。
对各个互斥维度对应的多个候选元素集合及各个非互斥维度对应的多个候选元素集合的集合一致度进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序;
在该步骤中,可以将各互斥维度和非互斥维度对应的候选元素集合的集合一致度一块进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序。
在排序后的各个互斥维度对应的候选元素集合及各个非互斥维度对应的候选元素集合中选择若干个候选元素集合作为影响所述目标指标波动的目标元素集合。
在该步骤中,可以按照集合一致度从大到小的顺序,将各个非互斥维度对应的候选元素集合和各个互斥维度对应的候选元素集合一块进行排序,然后选择排序序列前若干个候选元素集合作为影响所述目标指标波动的目标元素集合。
本发明实施例能够基于非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,实现智能的指标波动分析,快速定位产生数据波动可能性最大的根本原因,从而节省了大量人力资源。
在本发明的又一实施例中,在本发明的又一实施例中,如图5所示,所述方法还包括:
步骤S401,获取每个维度的基数;
步骤S402,将所述维度的基数的倒数,确定为与所述维度对应的每个元素的元素贡献度阈值。
本发明实施例主要对元素贡献度阈值TEEP的选取进行了优化。由于不同维度的基数值各不相同,无法根据经验值设定一个统一的标准来适用于所有的维度。因此,本文基于各维度的基数值来确定元素贡献度阈值TEEP。计算方法如下:
Figure BDA0002712866730000201
其中Ci为维度Di对应的基数值。
本发明实施例对Adtributor算法人工设定阈值的部分进行优化,避免因人工设置不准确而导致的算法准确率问题。
在本发明的又一实施例中,还提供一种指标数据处理装置,如图6所示,包括:
第一获取模块11,用于获取目标指标的指标数据,所述目标指标对应多个维度,每个维度对应多个元素,所述指标数据包括各维度对应的多个元素的时间序列;
第一计算模块12,用于若多个维度至少包含非互斥维度,根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
第二计算模块13,用于基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度;
确定模块14,用于基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合。
可选的,所述第一计算模块,包括:
第一计算单元,用于基于所述非互斥维度对应的多个元素的时间序列计算每个元素的实际值;
第一确定单元,用于将多个元素的实际值的和确定为所述目标指标的实际值。
可选的,若多个维度均为非互斥维度;所述第二计算模块,包括:
第二计算单元,用于针对所述目标指标对应的每个非互斥维度,基于所述非互斥维度对应的多个元素的时间序列计算所述非互斥维度对应的每个元素的预测值,获取所述非互斥维度对应的每个元素的实际值;
第三计算单元,用于基于多个非互斥维度对应的每个元素的预测值计算所述目标指标的预测值;
第四计算单元,用于基于所述非互斥维度对应的每个元素的实际值与预测值、所述目标指标的实际值与预测值计算每个所述元素的元素贡献度及元素一致度。
可选的,所述确定模块,包括:
候选元素集合确定单元,用于针对所述目标指标对应的每个非互斥维度,对多个所述元素的元素一致度进行排序,按照多个元素的元素一致度的排序顺序对多个所述元素及多个所述元素的贡献度进行排序;在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个非互斥维度对应的候选元素集合;
第五计算单元,用于计算每个非互斥维度对应的候选元素集合的集合一致度;
第一排序单元,用于对多个候选元素集合的集合一致度进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序;
第一选择单元,用于在排序后的各个非互斥维度对应的候选元素集合中选择若干个元素集合作为影响所述目标指标波动的目标元素集合。
可选的,若多个维度包含非互斥维度和互斥维度,所述第一计算模块,包括:
第二确定单元,用于根据所述非互斥维度对应的多个元素的时间序列及互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
所述装置还包括:
第六计算单元,用于基于所述目标指标的实际值计算所述互斥维度对应的每个元素的元素贡献度及元素一致度;
所述确定模块,包括:
第三确定单元,用于基于所述互斥维度对应的每个元素的贡献度及一致度、以及、所述非互斥维度对应的每个元素的贡献度及一致度确定影响所述目标指标波动的目标元素集合。
可选的,所述第三确定单元,还用于:
针对所述目标指标对应的每个互斥维度和每个非互斥维度,对互斥维度或者非互斥维度对应的多个所述元素的元素一致度进行排序,按照多个元素的元素一致度的排序顺序对多个所述元素及多个所述元素的贡献度进行排序;在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个互斥维度及每个非互斥维度对应的候选元素集合;
计算每个互斥维度对应的候选元素集合的集合一致度及非互斥维度对应的候选元素集合的集合一致度;
对各个互斥维度对应的多个候选元素集合及各个非互斥维度对应的多个候选元素集合的集合一致度进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序;
在排序后的各个互斥维度对应的候选元素集合及各个非互斥维度对应的候选元素集合中选择若干个候选元素集合作为影响所述目标指标波动的目标元素集合。
可选的,所述装置还包括:
第二获取模块,用于获取每个维度的基数;
确定模块,用于将所述维度的基数的倒数,确定为与所述维度对应的每个元素的元素贡献度阈值。
在本发明的又一实施例中,还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的指标数据处理方法。
本发明实施例提供的电子设备,处理器通过执行存储器上所存放的程序实现了本申请实施例提供的该方法,通过获取目标指标的指标数据,所述目标指标对应多个维度,每个维度对应多个元素,所述指标数据包括各维度对应的多个元素的时间序列;若多个维度至少包含非互斥维度,根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度;最后可以可以基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合。本发明实施例能够在目标指标对应的多个维度中包含非互斥维度时,根据非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值,计算非互斥维度对应的每个元素的元素贡献度及元素一致度,再基于非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,实现智能的指标波动分析,快速定位产生数据波动可能性最大的根本原因,从而节省了大量人力资源。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明的又一实施例中,还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指标数据处理方法的程序,所述指标数据处理方法的程序被处理器执行时实现第一方面任一所述的指标数据处理方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种指标数据处理方法,其特征在于,包括:
获取目标指标的指标数据,所述目标指标对应多个维度,每个维度对应多个元素,所述指标数据包括各维度对应的多个元素的时间序列;
若多个维度至少包含非互斥维度,根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度;
基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合。
2.根据权利要求1所述的指标数据处理方法,其特征在于,所述根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值,包括:
基于所述非互斥维度对应的多个元素的时间序列计算每个元素的实际值;
将多个元素的实际值的和确定为所述目标指标的实际值。
3.根据权利要求1所述的指标数据处理方法,其特征在于,若多个维度均为非互斥维度;所述基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度,包括:
针对所述目标指标对应的每个非互斥维度,基于所述非互斥维度对应的多个元素的时间序列计算所述非互斥维度对应的每个元素的预测值,获取所述非互斥维度对应的每个元素的实际值;
基于多个非互斥维度对应的每个元素的预测值计算所述目标指标的预测值;
基于所述非互斥维度对应的每个元素的实际值与预测值、所述目标指标的实际值与预测值计算每个所述元素的元素贡献度及元素一致度。
4.根据权利要求3所述的指标数据处理方法,其特征在于,所述基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,包括:
针对所述目标指标对应的每个非互斥维度,对多个所述元素的元素一致度进行排序,按照多个元素的元素一致度的排序顺序对多个所述元素及多个所述元素的贡献度进行排序;在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个非互斥维度对应的候选元素集合;
计算每个非互斥维度对应的候选元素集合的集合一致度;
对多个候选元素集合的集合一致度进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序;
在排序后的各个非互斥维度对应的候选元素集合中选择若干个元素集合作为影响所述目标指标波动的目标元素集合。
5.根据权利要求1所述的指标数据处理方法,其特征在于,若多个维度包含非互斥维度和互斥维度,所述根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值,包括:
根据所述非互斥维度对应的多个元素的时间序列及互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
所述方法还包括:
基于所述目标指标的实际值计算所述互斥维度对应的每个元素的元素贡献度及元素一致度;
所述基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合,包括:
基于所述互斥维度对应的每个元素的贡献度及一致度、以及、所述非互斥维度对应的每个元素的贡献度及一致度确定影响所述目标指标波动的目标元素集合。
6.根据权利要求5所述的指标数据处理方法,其特征在于,所述基于所述互斥维度对应的每个元素的贡献度及一致度、以及、所述非互斥维度对应的每个元素的贡献度及一致度确定影响所述目标指标波动的目标元素集合,包括:
针对所述目标指标对应的每个互斥维度和每个非互斥维度,对互斥维度或者非互斥维度对应的多个所述元素的元素一致度进行排序,按照多个元素的元素一致度的排序顺序对多个所述元素及多个所述元素的贡献度进行排序;在多个元素的元素贡献度中选择大于预设的元素贡献度阈值的元素贡献度,将大于预设的元素贡献度阈值对应的元素进行组合,得到每个互斥维度及每个非互斥维度对应的候选元素集合;
计算每个互斥维度对应的候选元素集合的集合一致度及非互斥维度对应的候选元素集合的集合一致度;
对各个互斥维度对应的多个候选元素集合及各个非互斥维度对应的多个候选元素集合的集合一致度进行排序,按照集合一致度的排序顺序对多个候选元素集合进行排序;
在排序后的各个互斥维度对应的候选元素集合及各个非互斥维度对应的候选元素集合中选择若干个候选元素集合作为影响所述目标指标波动的目标元素集合。
7.根据权利要求6所述的指标数据处理方法,其特征在于,所述方法还包括:
获取每个维度的基数;
将所述维度的基数的倒数,确定为与所述维度对应的每个元素的元素贡献度阈值。
8.一种指标数据处理装置,其特征在于,包括:
获取模块,用于获取目标指标的指标数据,所述目标指标对应多个维度,每个维度对应多个元素,所述指标数据包括各维度对应的多个元素的时间序列;
第一计算模块,用于若多个维度至少包含非互斥维度,根据所述非互斥维度对应的多个元素的时间序列计算所述目标指标的实际值;
第二计算模块,用于基于所述目标指标的实际值计算所述非互斥维度对应的每个元素的元素贡献度及元素一致度;
确定模块,用于基于所述非互斥维度对应的每个元素的元素贡献度、元素一致度以及预设根因分析算法确定影响所述目标指标波动的目标元素集合。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1~7任一所述的指标数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指标数据处理方法的程序,所述指标数据处理方法的程序被处理器执行时实现权利要求1-7任一所述的指标数据处理方法的步骤。
CN202011062840.2A 2020-09-30 2020-09-30 一种指标数据处理方法、装置、电子设备及存储介质 Pending CN112132362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011062840.2A CN112132362A (zh) 2020-09-30 2020-09-30 一种指标数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011062840.2A CN112132362A (zh) 2020-09-30 2020-09-30 一种指标数据处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112132362A true CN112132362A (zh) 2020-12-25

Family

ID=73843596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011062840.2A Pending CN112132362A (zh) 2020-09-30 2020-09-30 一种指标数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112132362A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609456A (zh) * 2009-07-09 2009-12-23 河北全通通信有限公司 Olap系统维度异常聚合法
US20100211433A1 (en) * 2009-02-13 2010-08-19 Mckean Michael System and method for scoring groups
US20150363699A1 (en) * 2014-06-16 2015-12-17 Mitsubishi Electric Research Laboratories, Inc. Method for Anomaly Detection in Time Series Data Based on Spectral Partitioning
CN108346011A (zh) * 2018-05-15 2018-07-31 阿里巴巴集团控股有限公司 指标波动分析方法及装置
CN108647235A (zh) * 2018-03-30 2018-10-12 上海连尚网络科技有限公司 一种基于数据仓库的数据分析方法、设备以及介质
CN108829638A (zh) * 2018-06-01 2018-11-16 阿里巴巴集团控股有限公司 一种业务数据波动处理方法及装置
CN109274842A (zh) * 2018-09-18 2019-01-25 阿里巴巴集团控股有限公司 客服水平波动的关键因素定位方法、装置及设备
CN109992479A (zh) * 2019-03-31 2019-07-09 西安电子科技大学 一种多维度kpi数据异常定位方法、装置及计算机设备
CN110147945A (zh) * 2019-04-30 2019-08-20 阿里巴巴集团控股有限公司 一种数据波动的处理方法、装置及设备
CN111538951A (zh) * 2020-03-31 2020-08-14 北京华三通信技术有限公司 一种异常定位方法及装置
AU2020101842A4 (en) * 2020-08-15 2020-09-24 (Founder GEH Research LLP & Project Director TCS-G, Biplab Kumar Sarkar DR DAI- Dataset Discovery: DATASET DISCOVERY IN DATA ANALYTICS USING AI- BASED PROGRAMMING.

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100211433A1 (en) * 2009-02-13 2010-08-19 Mckean Michael System and method for scoring groups
CN101609456A (zh) * 2009-07-09 2009-12-23 河北全通通信有限公司 Olap系统维度异常聚合法
US20150363699A1 (en) * 2014-06-16 2015-12-17 Mitsubishi Electric Research Laboratories, Inc. Method for Anomaly Detection in Time Series Data Based on Spectral Partitioning
CN108647235A (zh) * 2018-03-30 2018-10-12 上海连尚网络科技有限公司 一种基于数据仓库的数据分析方法、设备以及介质
CN108346011A (zh) * 2018-05-15 2018-07-31 阿里巴巴集团控股有限公司 指标波动分析方法及装置
CN108829638A (zh) * 2018-06-01 2018-11-16 阿里巴巴集团控股有限公司 一种业务数据波动处理方法及装置
CN109274842A (zh) * 2018-09-18 2019-01-25 阿里巴巴集团控股有限公司 客服水平波动的关键因素定位方法、装置及设备
CN109992479A (zh) * 2019-03-31 2019-07-09 西安电子科技大学 一种多维度kpi数据异常定位方法、装置及计算机设备
CN110147945A (zh) * 2019-04-30 2019-08-20 阿里巴巴集团控股有限公司 一种数据波动的处理方法、装置及设备
CN111538951A (zh) * 2020-03-31 2020-08-14 北京华三通信技术有限公司 一种异常定位方法及装置
AU2020101842A4 (en) * 2020-08-15 2020-09-24 (Founder GEH Research LLP & Project Director TCS-G, Biplab Kumar Sarkar DR DAI- Dataset Discovery: DATASET DISCOVERY IN DATA ANALYTICS USING AI- BASED PROGRAMMING.

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RANJITA BHAGWAN等: "Adtributor: Revenue Debugging in Advertising Systems", 11TH USENIX SYMPOSIUM ON NETWORKED SYSTEMS DESIGN AND IMPLEMENTATION, pages 43 - 55 *

Similar Documents

Publication Publication Date Title
Masten et al. Inference on breakdown frontiers
CN112132485A (zh) 一种指标数据处理方法、装置、电子设备及存储介质
US10325008B2 (en) Techniques for estimating compound probability distribution by simulating large empirical samples with scalable parallel and distributed processing
WO2021208079A1 (zh) 获取动力电池寿命数据的方法、装置、计算机设备及介质
Alquier et al. Prediction of time series by statistical learning: general losses and fast rates
JP7294369B2 (ja) 情報処理に用いられる方法、装置、電子機器及びプログラム
CN110750658A (zh) 一种媒体资源的推荐方法、服务器及计算机可读存储介质
CN112396211A (zh) 一种数据预测方法及装置、设备和计算机存储介质
CN111797320A (zh) 数据处理方法、装置、设备及存储介质
CN109213965B (zh) 一种系统容量预测方法、计算机可读存储介质及终端设备
CN114461618A (zh) 一种计量缺失数据补全方法、装置及终端设备
CN111160614B (zh) 资源转移预测模型的训练方法、装置及计算设备
CN112257958A (zh) 一种电力饱和负荷预测方法及装置
CN106934009A (zh) 一种应用排名方法、装置及计算设备
CN111783883A (zh) 一种异常数据的检测方法及装置
CN112132362A (zh) 一种指标数据处理方法、装置、电子设备及存储介质
CN115203556A (zh) 一种评分预测模型训练方法、装置、电子设备及存储介质
Markovich et al. Nonparametric estimation of the renewal function by empirical data
CN111164633B (zh) 一种评分卡模型的调整方法、装置、服务器及存储介质
CN109347691B (zh) 一种用于Web服务的数据采样方法、装置及设备
CN109344047B (zh) 系统回归测试方法、计算机可读存储介质和终端设备
CN112348055A (zh) 一种聚类评估度量方法、系统、装置和存储介质
CN111400678A (zh) 一种用户检测方法及装置
CN111126465B (zh) 节点分类方法、装置、终端设备及计算机可读存储介质
CN112989183B (zh) 一种基于生命周期的产品信息推荐方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination