CN110825769A - 一种数据指标异常的查询方法和系统 - Google Patents

一种数据指标异常的查询方法和系统 Download PDF

Info

Publication number
CN110825769A
CN110825769A CN201910962996.7A CN201910962996A CN110825769A CN 110825769 A CN110825769 A CN 110825769A CN 201910962996 A CN201910962996 A CN 201910962996A CN 110825769 A CN110825769 A CN 110825769A
Authority
CN
China
Prior art keywords
data
kpi
algorithm
search
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910962996.7A
Other languages
English (en)
Inventor
李双辰
肖军
王佩强
孙捷
包玉雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Financial Technology Nanjing Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN201910962996.7A priority Critical patent/CN110825769A/zh
Publication of CN110825769A publication Critical patent/CN110825769A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据指标异常的查询方法和系统,所述方法包括以下步骤:将数据库中的按照数据的维度进行聚合,组成结构化的KPI数据,再按时间顺序转化为KPI时序数据;对KPI时序数据进行异常检测,确定异常数据形成的时间节点,统计时间节点前的KPI预测数据包,将包含异常数据的KPI时序数据组成KPI真实数据包;利用KPI预测数据包和KPI真实数据包按照不同的层级构造数据搜索立方体,对数据搜索立方体的每层根因组合按照类蒙特卡罗算法进行搜索并打分,利用奥卡姆剃刀算法对每层最高分的根因组合进行筛选,将最终的最高得分的根因组合作为异常数据输出,通过输出的根因组合映射异常原因。本发明能够快速精确的查询出异常数据,从而映射出数据异常的原因。

Description

一种数据指标异常的查询方法和系统
技术领域
本发明涉及大数据领域,具体涉及一种数据指标异常的查询方法和系统。
背景技术
随着大数据使用地越来越广泛,目前,很多营业公司都会利用营业的大量数据分析关键绩效指标,从而提高营业的效率和利润,但是各个维度的数据在聚合在一起的时候经常出现数据紊乱的情况,进而导致数据异常,目前对于大数据中的数据异常原因的分析,通常是应用数据的专业人员凭借过往经验去定位,但是这种方法对于数据要求高的企业来说存在下面几个主要的问题:一是异常数据定位需要的时间不可控,一般比较滞后,从而影响后续数据使用的连贯性,二是异常数据定位原因的准确性不高,可能是真正根因的一部分,此外,即使查询出了异常数据,也很难通过人工对异常数据的原因进行进一步的分析。
针对上述问题,也有部分数据使用者利用蒙特卡罗树搜索算法进行异常数据的搜索,但是由于蒙特卡罗树搜索算法应用的局限性,很难对于特定数据做出针对性的调整,导致不同的维度的数据搜索的精确度不高,如何提高数据异常时查询的精确度,需要更进一步的技术方案来支撑。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种数据指标异常的查询方法和系统,能够快速精确的查询出异常数据,从而映射出数据异常的原因。
为解决上述技术问题,本发明采用的技术方案是:
第一方面,本发明实施例公开了一种数据指标异常的查询方法,包括以下步骤:
将数据库中的待分析数据按照数据的维度进行聚合,组成结构化的KPI数据并存入到结构化存储系统中,对所述KPI数据进行流计算,实时统计所述KPI数据并按时间顺序转化为KPI时序数据;
对所述KPI时序数据进行异常检测,确定异常数据形成的时间节点,统计所述时间节点前正常KPI时序数据并组成KPI预测数据包,将包含所述异常数据的KPI时序数据组成KPI真实数据包;
利用所述KPI预测数据包和所述KPI真实数据包按照不同的层级构造数据搜索立方体,对所述数据搜索立方体的每层根因组合按照类蒙特卡罗算法进行搜索并打分,统计每层所述根因组合的最高分;
利用奥卡姆剃刀算法对每层最高分的根因组合进行筛选,将最终的最高得分对应的所述根因组合作为异常数据输出,通过输出的所述根因组合映射异常原因。
进一步地,所述KPI预测数据包通过预测值算法进行统计,所述预测值算法中至少包括滑动平均算法、ARIMA模型算法、EWMA模型算法。
进一步地,所述类蒙特卡罗算法为:
Figure BDA0002229561900000021
其中,PS表示所述类蒙特卡罗算法的得分,
Figure BDA0002229561900000022
表示KPI真实数据向量和KPI预测数据向量之间的距离,
Figure BDA0002229561900000023
表示KPI真实数据向量和KPI推导数据向量之间的距离,
Figure BDA0002229561900000024
表示KPI推导数据向量和KPI真实数据向量之间的距离;abs表示求绝对值,max表示求最大值;所述KPI真实数据向量由所述KPI真实数据包在所述数据搜索立方体形成,所述KPI预测数据包有所述KPI预测数据包在所述数据搜索立方体形成,所述KPI推导数据向量根据所述数据搜索立方体的层级推导形成。
进一步地,所述奥卡姆剃刀算法为:CS=Sc*Gy*Cs*Lj,其中,CS表示最终得分,Sc所处层数的最高分,Gy表示所处层数中所述根因组合的数量,Cs表示所处层数的衰减参数,Lj表示所处的层数等级。
进一步地,所述类蒙特卡罗算法的搜索还包括对所述数据搜索立方体中元素向量中至少5个节点的扩展,并通过建立平衡树对所述元素向量进行无效元素的剔除。
进一步地,所述类蒙特卡罗算法的搜索中每层设置有最高分阈值,当所述类蒙特卡罗算法的得分超过该层的最高分阈值,则终止该层的搜索。
进一步地,所述KPI真实数据向量、KPI推导数据向量、KPI推导数据向量之间距离的计算包括对若干种距离算法的加权平均,所述距离算法至少包括余弦相似度算法、Pearson相关系数算法、KL散度算法和JS散度算法。
另一方面,本发明实施例还公开了一种数据指标异常的查询系统,包括:
前端聚合模块,用于数据库中的待分析数据按照数据的维度进行聚合,组成结构化的KPI数据并存入到结构化存储系统中,对所述KPI数据进行流计算,实时统计所述KPI数据并按时间顺序转化为KPI时序数据;
异常检测模块,用于对所述KPI时序数据进行异常检测,确定异常数据形成的时间节点,统计所述时间节点前正常KPI时序数据并组成KPI预测数据包,将包含所述异常数据的KPI时序数据组成KPI真实数据包;
异常搜索模块,用于通过将所述KPI预测数据包和所述KPI真实数据包按照不同的层级构造数据搜索立方体,对所述数据搜索立方体的每层根因组合按照类蒙特卡罗算法进行搜索并打分,统计每层所述根因组合的最高分;
异常分析模块,用于通过奥卡姆剃刀算法对每层最高分的根因组合进行筛选,将最终的最高得分对应的所述根因组合作为异常数据输出,通过输出的所述根因组合映射异常原因。
进一步地,所述异常搜索模块包括有类蒙特卡罗查询单元,用于通过类蒙特卡罗算法对所述数据搜索立方体中元素向量的搜索和优化;
所述类蒙特卡罗算法为:
Figure BDA0002229561900000041
PS表示所述类蒙特卡罗算法的得分,
Figure BDA0002229561900000042
表示KPI真实数据向量和KPI预测数据向量之间的距离,
Figure BDA0002229561900000043
表示KPI真实数据向量和KPI推导数据向量之间的距离,表示KPI推导数据向量和KPI真实数据向量之间的距离;abs表示求绝对值,max表示求最大值;所述KPI真实数据向量由所述KPI真实数据包在所述数据搜索立方体形成,所述KPI预测数据包有所述KPI预测数据包在所述数据搜索立方体形成,所述KPI推导数据向量根据所述数据搜索立方体的层级推导形成。
进一步地,所述异常分析模块包括有奥卡姆剃刀单元,用于通过奥卡姆剃刀算法对所述数据搜索立方体中的最高分进行筛选,所述奥卡姆剃刀算法为:CS=Sc*Gy*Cs*Lj,其中,CS表示最终得分,Sc所处层数的最高分,Gy表示所处层数中所述根因组合的数量,Cs表示所处层数的衰减参数,Lj表示所处的层数等级。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例公开了一种数据指标异常的查询方法和系统,其中,所述数据指标异常的查询方法能够在任意维度下快速定位导致数据异常的根本原因。所述数据指标异常的查询方法包括有数据异常检测和异常搜索算法,通过数据异常检测和异常搜索算法可能够快速精确的查询出异常数据,将本发明公开的数据指标异常的查询方法和系统应用在互联网企业的业务运维场景,可以快速定位出生产环境中KPI数据变化的原因,为运营人员决策提供有力支持。此外,将本发明公开的数据指标异常的查询方法和系统应用于公司金融业务分析场景,能够对支付订单进行日统计分析,给出每日订单总数、订单成功总数发生异常变化的原因,定位耗时短,为支付业务运营等大数据应用提供有力的支持。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的数据指标异常的查询方法的步骤示意图;
图2是本发明实施例公开的数据指标异常的查询方法的流程示意图;
图3是本发明实施例公开的数据指标异常的查询方法中数据搜索立方体的结构示意图;
图4是本发明实施例公开的数据指标异常的查询系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1~图2所示,本实施例公开了一种数据指标异常的查询方法,包括以下步骤:
S1:将数据库中的待分析数据按照数据的维度进行聚合,组成结构化的KPI数据并存入到结构化存储系统中,对所述KPI数据进行流计算,实时统计所述KPI数据并按时间顺序转化为KPI时序数据;
S2:对所述KPI时序数据进行异常检测,确定异常数据形成的时间节点,统计所述时间节点前正常KPI时序数据并组成KPI预测数据包,将包含所述异常数据的KPI时序数据组成KPI真实数据包;
S3:利用所述KPI预测数据包和所述KPI真实数据包按照不同的层级构造数据搜索立方体,对所述数据搜索立方体的每层根因组合按照类蒙特卡罗算法进行搜索并打分,统计每层所述根因组合的最高分;
S4:利用奥卡姆剃刀算法对每层最高分的根因组合进行筛选,将最终的最高得分对应的所述根因组合作为异常数据输出,通过输出的所述根因组合映射异常原因。
其中,KPI表示关键绩效指标,通过分析关键绩效指标的异常原因,是营业的公司中大数据应用的重要领域,所述数据指标异常的查询方法能够在任意维度下快速定位导致数据异常的根本原因。所述数据指标异常的查询方法包括有数据异常检测和异常搜索算法,通过数据异常检测和异常搜索算法可能够快速精确的查询出异常数据,将本发明公开的数据指标异常的查询方法应用在互联网企业的业务运维场景,可以快速定位出生产环境中KPI数据变化的原因,为运营人员决策提供有力支持。此外,将本发明公开的数据指标异常的查询方法应用于公司金融业务分析场景,能够对支付订单进行日统计分析,给出每日订单总数、订单成功总数发生异常变化的原因,定位耗时短,为支付业务运营等大数据应用提供有力的支持。
优选地,所述KPI预测数据包通过预测值算法进行统计,所述预测值算法中至少包括滑动平均算法、ARIMA模型算法、EWMA模型算法。由于按照类蒙特卡罗算法进行搜索是基于未标记数据进行探索,算法中依赖历史数据,对异常时间点进行预测,然后通过预测值和实际值的对比进行搜索。单个预测算法很难应对每条KPI曲线,本技术方案中采用多种算法求平均值的方法,将滑动平均算法、ARIMA模型算法、EWMA模型算法等算法一起应用,最后利用加权平均数,最终得出KPI预测数据包,从而提高了本实施例中对于异常数据搜索的精确度。
优选地,所述类蒙特卡罗算法为:
Figure BDA0002229561900000061
其中,PS表示所述类蒙特卡罗算法的得分,
Figure BDA0002229561900000062
表示KPI真实数据向量和KPI预测数据向量之间的距离,
Figure BDA0002229561900000071
表示KPI真实数据向量和KPI推导数据向量之间的距离,
Figure BDA0002229561900000072
表示KPI推导数据向量和KPI真实数据向量之间的距离;abs表示求绝对值,max表示求最大值;所述KPI真实数据向量由所述KPI真实数据包在所述数据搜索立方体形成,所述KPI预测数据包有所述KPI预测数据包在所述数据搜索立方体形成,所述KPI推导数据向量根据所述数据搜索立方体的层级推导形成。通过该类蒙特卡罗算法可评判出一组根因组合结果是异常数据的可能性,得分越高,是异常数据的可能性越高,得分介于0到1。其中,该类蒙特卡罗算法之所以包括对最大值的选择,实际是为了提高搜索的精确度,因此,在搜索过一次之后,如果根因组合得分不是很理想,将KPI预测数据包和KPI真实值数据包对调,再搜索一次,取两次得分最高的结果,也即是本类蒙特卡罗算法中max的由来。进一步地,所述KPI推导数据向量是根据根因组合在所述数据搜索立方体中的层级结合KPI真实数据向量和KPI预测数据向量进行推导得出的,其具体推导原理是来源于蒙特卡罗搜索原理,在此不再详述。
优选地,所述奥卡姆剃刀算法为:CS=Sc*Gy*Cs*Lj,其中,CS表示最终得分,Sc所处层数的最高分,Gy表示所处层数中所述根因组合的数量,Cs表示所处层数的衰减参数,Lj表示所处的层数等级。如图3所示的数据搜索立方体的结构示意图,按分层架构,构建每层的立方体数据结构,并计算立方体中每个元素的可能性得分,图中的每个小圆圈就表示每个根因组合,图中为按层级构建数据的立方体,如第一层的立方体是由单一维度聚合数据组成的,第二层的立方体是由任意两个维度聚合数据组成,以此类推。立方体由元素组成,元素中的属性包含其代表的维度及取值,包含该元素对应的KPI真实值和预测值,所述根因组合即为元素之间的合理组合。由于算法结构的原因,可能会输出可能性得分相近的多个答案,需要一种决策机制来选择最终答案,通过奥卡姆剃刀算法进行进一步的筛选,当多个根因组合得分相近时,选择更简约的根因,将层数和根因组合数加入奥卡姆剃刀算法,层数越深或者根因组合越多,最终得分则越低。
优选地,所述类蒙特卡罗算法的搜索还包括对所述数据搜索立方体中元素向量中至少5个节点的扩展,并通过建立平衡树对所述元素向量进行无效元素的剔除。如图3中还涉及到分层剪枝,为了减少搜索的范围,对于所述数据搜索立方体中数据的元素存在父子关系,并且一个多维立方体的父立方体还不止一个,比如cuboid(a,b)的父立方体有两个,分别为cuboid(a)和cuboid(b);如果部分维度取值在父立方体中可能性得分很低,则其在子立方体中也不可能是根本原因的维度取值,所以在搜索子立方体之前,可以通过剪枝的方式,剔除绝大部分无效元素。根据KPI数据的变化趋势,如果部分元素呈现反趋势变化,则剔除这部分元素。如同分层剪枝类似,考虑到本实施例的应用场景,每个节点的竞争优势对其子节点有深度影响,本实施例修改为一次扩展多个节点(默认5个),并采用均衡思想,尽可能构造出平衡树,不使树的深度过大,减小搜索深度。
优选地,考虑到数据搜索立方体中元素的个数在几万甚至更多,假设个数为n,那么组合数为2^n-1个,需要搜索的空间巨大,考虑到时效性,无法在短时间内遍历所有的根因组合,所以采用MCTS搜索算法,搜索出可能性得分最高的元素组合。基于该场景下,我们是需要搜索可能性得分最高的根因组合,但由于搜索空间巨大,所以我们在限制了搜索次数的情况下,尽可能搜索出更高的PS。因此,在所述类蒙特卡罗算法的搜索中每层设置有最高分阈值,当所述类蒙特卡罗算法的得分超过该层的最高分阈值,则终止该层的搜索,从而假设该得分就是该层的最高分。
优选地,所述KPI真实数据向量、KPI推导数据向量、KPI推导数据向量之间距离的计算包括对若干种距离算法的加权平均,所述距离算法至少包括余弦相似度算法、Pearson相关系数算法、KL散度算法和JS散度算法。通过将多种距离算法之间的加权平均数,可以提高最终类蒙特卡罗算法搜索的精度,提高最终异常分析的可靠性。
实施例二:
如图4所示,本发明实施例还公开了一种数据指标异常的查询系统,包括:
前端聚合模块,用于数据库中的待分析数据按照数据的维度进行聚合,组成结构化的KPI数据并存入到结构化存储系统中,对所述KPI数据进行流计算,实时统计所述KPI数据并按时间顺序转化为KPI时序数据;
异常检测模块,用于对所述KPI时序数据进行异常检测,确定异常数据形成的时间节点,统计所述时间节点前正常KPI时序数据并组成KPI预测数据包,将包含所述异常数据的KPI时序数据组成KPI真实数据包;
异常搜索模块,用于将所述KPI预测数据包和所述KPI真实数据包按照不同的层级构造数据搜索立方体,对所述数据搜索立方体的每层根因组合按照类蒙特卡罗算法进行搜索并打分,统计每层所述根因组合的最高分;
异常分析模块,用于通过奥卡姆剃刀算法对每层最高分的根因组合进行筛选,将最终的最高得分对应的所述根因组合作为异常数据输出,通过输出的所述根因组合映射异常原因。
优选地,所述KPI预测数据包通过预测值算法进行统计,所述预测值算法中至少包括滑动平均算法、ARIMA模型算法、EWMA模型算法。由于按照类蒙特卡罗算法进行搜索是基于未标记数据进行探索,算法中依赖历史数据,对异常时间点进行预测,然后通过预测值和实际值的对比进行搜索。单个预测算法很难应对每条KPI曲线,本技术方案中采用多种算法求平均值的方法,将滑动平均算法、ARIMA模型算法、EWMA模型算法等算法一起应用,最后利用加权平均数,最终得出KPI预测数据包,从而提高了本实施例中对于异常数据搜索的精确度。
优选地,所述异常搜索模块包括有类蒙特卡罗查询单元,用于通过类蒙特卡罗算法对所述数据搜索立方体中元素向量的搜索和优化;
所述类蒙特卡罗算法为:
Figure BDA0002229561900000101
其中,PS表示所述类蒙特卡罗算法的得分,
Figure BDA0002229561900000102
表示KPI真实数据向量和KPI预测数据向量之间的距离,
Figure BDA0002229561900000103
表示KPI真实数据向量和KPI推导数据向量之间的距离,
Figure BDA0002229561900000104
表示KPI推导数据向量和KPI真实数据向量之间的距离;abs表示求绝对值,max表示求最大值;所述KPI真实数据向量由所述KPI真实数据包在所述数据搜索立方体形成,所述KPI预测数据包有所述KPI预测数据包在所述数据搜索立方体形成,所述KPI推导数据向量根据所述数据搜索立方体的层级推导形成。
优选地,所述异常分析模块包括有奥卡姆剃刀单元,用于通过奥卡姆剃刀算法对所述数据搜索立方体中的最高分进行筛选,所述奥卡姆剃刀算法为:CS=Sc*Gy*Cs*Lj,其中,CS表示最终得分,Sc所处层数的最高分,Gy表示所处层数中所述根因组合的数量,Cs表示所处层数的衰减参数,Lj表示所处的层数等级。
优选地,所述类蒙特卡罗算法的搜索还包括对所述数据搜索立方体中元素向量中至少5个节点的扩展,并通过建立平衡树对所述元素向量进行无效元素的剔除。如图3中还涉及到分层剪枝,为了减少搜索的范围,对于所述数据搜索立方体中数据的元素存在父子关系,并且一个多维立方体的父立方体还不止一个,比如cuboid(a,b)的父立方体有两个,分别为cuboid(a)和cuboid(b);如果部分维度取值在父立方体中可能性得分很低,则其在子立方体中也不可能是根本原因的维度取值,所以在搜索子立方体之前,可以通过剪枝的方式,剔除绝大部分无效元素。根据KPI数据的变化趋势,如果部分元素呈现反趋势变化,则剔除这部分元素。如同分层剪枝类似,考虑到本实施例的应用场景,每个节点的竞争优势对其子节点有深度影响,本实施例修改为一次扩展多个节点(默认5个),并采用均衡思想,尽可能构造出平衡树,不使树的深度过大,减小搜索深度。
优选地,考虑到数据搜索立方体中元素的个数在几万甚至更多,假设个数为n,那么组合数为2^n-1个,需要搜索的空间巨大,考虑到时效性,无法在短时间内遍历所有的根因组合,所以采用MCTS搜索算法,搜索出可能性得分最高的元素组合。基于该场景下,我们是需要搜索可能性得分最高的根因组合,但由于搜索空间巨大,所以我们在限制了搜索次数的情况下,尽可能搜索出更高的PS。因此,在所述类蒙特卡罗算法的搜索中每层设置有最高分阈值,当所述类蒙特卡罗算法的得分超过该层的最高分阈值,则终止该层的搜索,从而假设该得分就是该层的最高分。
优选地,所述KPI真实数据向量、KPI推导数据向量、KPI推导数据向量之间距离的计算包括对若干种距离算法的加权平均,所述距离算法至少包括余弦相似度算法、Pearson相关系数算法、KL散度算法和JS散度算法。通过将多种距离算法之间的加权平均数,可以提高最终类蒙特卡罗算法搜索的精度,提高最终异常分析的可靠性。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的数据指标异常的查询系统在对数据指标进行异常查询时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将数据指标异常的查询系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据指标异常的查询系统与数据指标异常的查询方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据指标异常的查询方法,其特征在于,包括以下步骤:
将数据库中的待分析数据按照数据的维度进行聚合,组成结构化的KPI数据并存入到结构化存储系统中,对所述KPI数据进行流计算,实时统计所述KPI数据并按时间顺序转化为KPI时序数据;
对所述KPI时序数据进行异常检测,确定异常数据形成的时间节点,统计所述时间节点前正常KPI时序数据并组成KPI预测数据包,将包含所述异常数据的KPI时序数据组成KPI真实数据包;
利用所述KPI预测数据包和所述KPI真实数据包按照不同的层级构造数据搜索立方体,对所述数据搜索立方体的每层根因组合按照类蒙特卡罗算法进行搜索并打分,统计每层所述根因组合的最高分;
利用奥卡姆剃刀算法对每层最高分的根因组合进行筛选,将最终的最高得分对应的所述根因组合作为异常数据输出,通过输出的所述根因组合映射异常原因。
2.根据权利要求1所述的数据指标异常的查询方法,其特征在于,所述KPI预测数据包通过预测值算法进行统计,所述预测值算法中至少包括滑动平均算法、ARIMA模型算法、EWMA模型算法。
3.根据权利要求1所述的数据指标异常的查询方法,其特征在于,所述类蒙特卡罗算法为:
其中,PS表示所述类蒙特卡罗算法的得分,
Figure FDA0002229561890000012
表示KPI真实数据向量和KPI预测数据向量之间的距离,
Figure FDA0002229561890000013
表示KPI真实数据向量和KPI推导数据向量之间的距离,
Figure FDA0002229561890000014
表示KPI推导数据向量和KPI真实数据向量之间的距离;abs表示求绝对值,max表示求最大值;所述KPI真实数据向量由所述KPI真实数据包在所述数据搜索立方体形成,所述KPI预测数据包有所述KPI预测数据包在所述数据搜索立方体形成,所述KPI推导数据向量根据所述数据搜索立方体的层级推导形成。
4.根据权利要求1所述的数据指标异常的查询方法,其特征在于,所述奥卡姆剃刀算法为:CS=Sc*Gy*Cs*Lj,其中,CS表示最终得分,Sc所处层数的最高分,Gy表示所处层数中所述根因组合的数量,Cs表示所处层数的衰减参数,Lj表示所处的层数等级。
5.根据权利要求3所述的数据指标异常的查询方法,其特征在于,所述类蒙特卡罗算法的搜索还包括对所述数据搜索立方体中元素向量中至少5个节点的扩展,并通过建立平衡树对所述元素向量进行无效元素的剔除。
6.根据权利要求3所述的数据指标异常的查询方法,其特征在于,所述类蒙特卡罗算法的搜索中每层设置有最高分阈值,当所述类蒙特卡罗算法的得分超过该层的最高分阈值,则终止该层的搜索。
7.根据权利要求3所述的数据指标异常的查询方法,其特征在于,所述KPI真实数据向量、KPI推导数据向量、KPI推导数据向量之间距离的计算包括对若干种距离算法的加权平均,所述距离算法至少包括余弦相似度算法、Pearson相关系数算法、KL散度算法和JS散度算法。
8.一种数据指标异常的查询系统,其特征在于,包括:
前端聚合模块,用于数据库中的待分析数据按照数据的维度进行聚合,组成结构化的KPI数据并存入到结构化存储系统中,对所述KPI数据进行流计算,实时统计所述KPI数据并按时间顺序转化为KPI时序数据;
异常检测模块,用于对所述KPI时序数据进行异常检测,确定异常数据形成的时间节点,统计所述时间节点前正常KPI时序数据并组成KPI预测数据包,将包含所述异常数据的KPI时序数据组成KPI真实数据包;
异常搜索模块,用于将所述KPI预测数据包和所述KPI真实数据包按照不同的层级构造数据搜索立方体,对所述数据搜索立方体的每层根因组合按照类蒙特卡罗算法进行搜索并打分,统计每层所述根因组合的最高分;
异常分析模块,用于通过奥卡姆剃刀算法对每层最高分的根因组合进行筛选,将最终的最高得分对应的所述根因组合作为异常数据输出,通过输出的所述根因组合映射异常原因。
9.根据权利要求8所述的数据指标异常的查询系统,其特征在于,所述异常搜索模块包括有类蒙特卡罗查询单元,用于通过类蒙特卡罗算法对所述数据搜索立方体中元素向量的搜索和优化;
所述类蒙特卡罗算法为:
其中,PS表示所述类蒙特卡罗算法的得分,
Figure FDA0002229561890000032
表示KPI真实数据向量和KPI预测数据向量之间的距离,
Figure FDA0002229561890000033
表示KPI真实数据向量和KPI推导数据向量之间的距离,
Figure FDA0002229561890000034
表示KPI推导数据向量和KPI真实数据向量之间的距离;abs表示求绝对值,max表示求最大值;所述KPI真实数据向量由所述KPI真实数据包在所述数据搜索立方体形成,所述KPI预测数据包有所述KPI预测数据包在所述数据搜索立方体形成,所述KPI推导数据向量根据所述数据搜索立方体的层级推导形成。
10.根据权利要求8所述的数据指标异常的查询系统,其特征在于,所述异常分析模块包括有奥卡姆剃刀单元,用于通过奥卡姆剃刀算法对所述数据搜索立方体中的最高分进行筛选,所述奥卡姆剃刀算法为:CS=Sc*Gy*Cs*Lj,其中,CS表示最终得分,Sc所处层数的最高分,Gy表示所处层数中所述根因组合的数量,Cs表示所处层数的衰减参数,Lj表示所处的层数等级。
CN201910962996.7A 2019-10-11 2019-10-11 一种数据指标异常的查询方法和系统 Pending CN110825769A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910962996.7A CN110825769A (zh) 2019-10-11 2019-10-11 一种数据指标异常的查询方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910962996.7A CN110825769A (zh) 2019-10-11 2019-10-11 一种数据指标异常的查询方法和系统

Publications (1)

Publication Number Publication Date
CN110825769A true CN110825769A (zh) 2020-02-21

Family

ID=69549211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910962996.7A Pending CN110825769A (zh) 2019-10-11 2019-10-11 一种数据指标异常的查询方法和系统

Country Status (1)

Country Link
CN (1) CN110825769A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460005A (zh) * 2020-04-22 2020-07-28 北京工业大学 一种基于jsd的时序数据的离群点检测方法
CN111555932A (zh) * 2020-04-24 2020-08-18 长沙理工大学 一种大规模不规则kpi时间序列异常检测方法
CN111815238A (zh) * 2020-07-14 2020-10-23 上海燕汐软件信息科技有限公司 一种物流利润监管方法、装置及系统
CN112446647A (zh) * 2020-12-14 2021-03-05 上海众源网络有限公司 异常元素的定位方法、装置、电子设备及存储介质
CN112700005A (zh) * 2020-12-28 2021-04-23 北京环境特性研究所 一种基于蒙特卡洛树搜索的异常事件处理方法和装置
CN112801316A (zh) * 2021-01-28 2021-05-14 中国人寿保险股份有限公司上海数据中心 基于多指标数据的故障定位方法、系统设备及存储介质
CN112949983A (zh) * 2021-01-29 2021-06-11 北京达佳互联信息技术有限公司 一种根因确定方法及装置
CN113032238A (zh) * 2021-05-25 2021-06-25 南昌惠联网络技术有限公司 基于应用知识图谱的实时根因分析方法
CN113111098A (zh) * 2021-06-11 2021-07-13 阿里云计算有限公司 检测时序数据的查询的方法、装置及时序数据库系统
CN113179179A (zh) * 2021-04-22 2021-07-27 南京大学 一种用于定位服务调用成功率指标异常线索的算法
CN113765698A (zh) * 2021-07-14 2021-12-07 江西鑫铂瑞科技有限公司 一种面向工业互联网的网络故障定位和根因检测方法及系统
CN113806615A (zh) * 2021-11-18 2021-12-17 成都索贝数码科技股份有限公司 一种智能it运维系统的kpi异常预警方法
WO2023241484A1 (zh) * 2022-06-16 2023-12-21 中兴通讯股份有限公司 异常事件处理方法、电子设备及存储介质
CN112949983B (zh) * 2021-01-29 2024-06-04 北京达佳互联信息技术有限公司 一种根因确定方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761426A (zh) * 2014-01-02 2014-04-30 中国科学院数学与系统科学研究院 一种在高维数据中快速识别特征组合的方法及系统
US20170361157A1 (en) * 2016-06-16 2017-12-21 International Business Machines Corporation Determining Player Performance Statistics Using Gaze Data
CN108763282A (zh) * 2018-04-12 2018-11-06 深圳市拓保软件有限公司 基于数据立方体的bi筛选改进算法
CN108848515A (zh) * 2018-05-31 2018-11-20 武汉虹信技术服务有限责任公司 一种基于大数据的物联网业务质量监测平台及方法
CN109992479A (zh) * 2019-03-31 2019-07-09 西安电子科技大学 一种多维度kpi数据异常定位方法、装置及计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761426A (zh) * 2014-01-02 2014-04-30 中国科学院数学与系统科学研究院 一种在高维数据中快速识别特征组合的方法及系统
US20170361157A1 (en) * 2016-06-16 2017-12-21 International Business Machines Corporation Determining Player Performance Statistics Using Gaze Data
CN108763282A (zh) * 2018-04-12 2018-11-06 深圳市拓保软件有限公司 基于数据立方体的bi筛选改进算法
CN108848515A (zh) * 2018-05-31 2018-11-20 武汉虹信技术服务有限责任公司 一种基于大数据的物联网业务质量监测平台及方法
CN109992479A (zh) * 2019-03-31 2019-07-09 西安电子科技大学 一种多维度kpi数据异常定位方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YONGQIAN SUN等: "HotSpot: Anomaly Localization for Additive KPIs With Multi-Dimensional Attributes", 《IEEE ACCESS》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460005B (zh) * 2020-04-22 2021-08-13 北京工业大学 一种基于jsd的时序数据的离群点检测方法
CN111460005A (zh) * 2020-04-22 2020-07-28 北京工业大学 一种基于jsd的时序数据的离群点检测方法
CN111555932A (zh) * 2020-04-24 2020-08-18 长沙理工大学 一种大规模不规则kpi时间序列异常检测方法
CN111555932B (zh) * 2020-04-24 2022-07-26 长沙理工大学 一种大规模不规则kpi时间序列异常检测方法
CN111815238A (zh) * 2020-07-14 2020-10-23 上海燕汐软件信息科技有限公司 一种物流利润监管方法、装置及系统
CN111815238B (zh) * 2020-07-14 2023-08-08 上海燕汐软件信息科技有限公司 一种物流利润监管方法、装置及系统
CN112446647A (zh) * 2020-12-14 2021-03-05 上海众源网络有限公司 异常元素的定位方法、装置、电子设备及存储介质
CN112700005A (zh) * 2020-12-28 2021-04-23 北京环境特性研究所 一种基于蒙特卡洛树搜索的异常事件处理方法和装置
CN112700005B (zh) * 2020-12-28 2024-02-23 北京环境特性研究所 一种基于蒙特卡洛树搜索的异常事件处理方法和装置
CN112801316A (zh) * 2021-01-28 2021-05-14 中国人寿保险股份有限公司上海数据中心 基于多指标数据的故障定位方法、系统设备及存储介质
WO2022160675A1 (zh) * 2021-01-29 2022-08-04 北京达佳互联信息技术有限公司 根因确定方法及装置
CN112949983A (zh) * 2021-01-29 2021-06-11 北京达佳互联信息技术有限公司 一种根因确定方法及装置
CN112949983B (zh) * 2021-01-29 2024-06-04 北京达佳互联信息技术有限公司 一种根因确定方法及装置
CN113179179A (zh) * 2021-04-22 2021-07-27 南京大学 一种用于定位服务调用成功率指标异常线索的算法
CN113179179B (zh) * 2021-04-22 2023-01-06 南京大学 一种用于定位服务调用成功率指标异常线索的方法
CN113032238A (zh) * 2021-05-25 2021-06-25 南昌惠联网络技术有限公司 基于应用知识图谱的实时根因分析方法
CN113111098A (zh) * 2021-06-11 2021-07-13 阿里云计算有限公司 检测时序数据的查询的方法、装置及时序数据库系统
CN113765698A (zh) * 2021-07-14 2021-12-07 江西鑫铂瑞科技有限公司 一种面向工业互联网的网络故障定位和根因检测方法及系统
CN113765698B (zh) * 2021-07-14 2023-08-01 江西鑫铂瑞科技有限公司 一种面向工业互联网的网络故障定位和根因检测方法及系统
CN113806615A (zh) * 2021-11-18 2021-12-17 成都索贝数码科技股份有限公司 一种智能it运维系统的kpi异常预警方法
CN113806615B (zh) * 2021-11-18 2022-03-04 成都索贝数码科技股份有限公司 一种智能it运维系统的kpi异常预警方法
WO2023241484A1 (zh) * 2022-06-16 2023-12-21 中兴通讯股份有限公司 异常事件处理方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110825769A (zh) 一种数据指标异常的查询方法和系统
CN111885040A (zh) 分布式网络态势感知方法、系统、服务器及节点设备
WO2014099127A1 (en) Dynamic model data facility and automated operational model building and usage
CN103336790A (zh) 基于Hadoop的邻域粗糙集快速属性约简方法
CN108230016B (zh) 一种农产品市场价格传递分析方法及分析装置
US9135630B2 (en) Systems and methods for large-scale link analysis
CN111522846B (zh) 一种基于时序中间态数据结构的数据聚合方法
CN109902859B (zh) 基于大数据和机器学习算法的排队高峰时段预估方法
Drakopoulos et al. Higher order graph centrality measures for Neo4j
Xu et al. Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
KR102438923B1 (ko) 시계열 분포 특징을 고려한 딥러닝 기반 비트코인 블록 데이터 예측 시스템
CN109299089A (zh) 一种画像标签数据的计算及存储方法和计算及存储系统
CN112597399A (zh) 图数据处理方法、装置、计算机设备和存储介质
CN117221087A (zh) 告警根因定位方法、装置及介质
CN107133321A (zh) 页面的搜索特性的分析方法和分析装置
CN111522918A (zh) 数据汇聚方法、装置、电子设备及计算机可读存储介质
CN114757448B (zh) 一种基于数据空间模型的制造环节间最优价值链构建方法
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
US20150356143A1 (en) Generating a hint for a query
Ghiringhelli et al. Recursive estimation of the spatial error model
Imawan et al. Road traffic analytic query processing based on a timeline modeling
CN114510708A (zh) 实时数据仓库构建、异常检测方法、装置、设备及产品
Faroughi et al. Achieving horizontal scalability in density-based clustering for urls
Hewa Nadungodage et al. Online multi-dimensional regression analysis on concept-drifting data streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200221

RJ01 Rejection of invention patent application after publication