CN112231194B - 一种指标异常根源分析方法、装置及计算机可读存储介质 - Google Patents

一种指标异常根源分析方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112231194B
CN112231194B CN202011435470.2A CN202011435470A CN112231194B CN 112231194 B CN112231194 B CN 112231194B CN 202011435470 A CN202011435470 A CN 202011435470A CN 112231194 B CN112231194 B CN 112231194B
Authority
CN
China
Prior art keywords
dimension
transaction data
index
value
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011435470.2A
Other languages
English (en)
Other versions
CN112231194A (zh
Inventor
李文文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Keynote Network Inc
Original Assignee
Beijing Keynote Network Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Keynote Network Inc filed Critical Beijing Keynote Network Inc
Priority to CN202011435470.2A priority Critical patent/CN112231194B/zh
Publication of CN112231194A publication Critical patent/CN112231194A/zh
Application granted granted Critical
Publication of CN112231194B publication Critical patent/CN112231194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种指标异常根源分析方法、装置及计算机可读存储介质,其中该方法包括:获取异常时段内的第一事务数据集,获取包含异常时间段的第二事务数据集,第二事务数据集的数据量大于第一事务数据集,第二事务数据集包含正常样本和异常样本,基于异常时间段内的维度属性值在异常时间段内的分布情况,以及维度属性值在正常样本和异常样本总体上的分布情况,确定维度属性值的显著度,将显著度高的维度属性值作为异常的根源,更为准确地分析得到指标的异常根源。

Description

一种指标异常根源分析方法、装置及计算机可读存储介质
技术领域
本申请涉及计算机领域,尤其涉及一种指标异常根源分析方法、装置及计算机可读存储介质。
背景技术
在系统性能检测中,事务包括用户在浏览器、APP上执行一次操作,或者服务器执行一次用户请求等。每一次事务执行,产生事务数据。事务数据包括:维度数据、性能数据和结果数据。维度数据包括一个或多个维度属性值。性能数据用于表征系统的性能状态,包括一项或多项性能指标。结果数据用于表征系统的可用性状态,包括错误代码和错误类型。例如,对于网络监测而言,维度数据中的维度属性值可包括地域、运营商、节点、连接方式、目的主机、目的地域、目的运营商等。性能数据中性能指标可包括总下载时间、DNS解析时间、建链时间等。
通过以性能数据或结果数据作为分析目标,分析某段时间内性能或可用性下降时最相关维度属性值是哪些,即,通过对一段时间内的事务数据集进行性能或可用性分析,从中得到性能下降或可用性下降的根源(哪些维度)是什么。
相关技术中,一种实现方式为决策树,基于异常时段内所有事务数据集,但对于某一维度值都相同的情况,决策树会忽略此维度的作用(信息增益IG)。另一种方式为有监督机器学习2分类模型,基于异常时段内所有事务数据集,计算异常时段异常样本在各维度的分布,根据分布是否大致符合长尾分布,利用分布数据计算响应的标准差(STD)和中位数绝对偏差(MAD)等指标,这些指标可以表征一组数据的离散程度如何。利用这些指标数据作为特征,加上人工的分析经验,可以由此训练一个2分类器,之后通过此2分类器来判断某一维度是否与异常的发生有相关性。但是由于异常时段多为异常样本,因此分析结果准确度不高。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种指标异常根源分析方法、装置及计算机可读存储介质。
第一方面,本申请提供了一种指标异常根源分析方法,包括:确定发生异常的指标及异常时间段,其中,该指标表征系统的性能表现或用户体验;获取异常时间段内该指标相关的事务数据,得到第一事务数据集,其中,第一事务数据集的数据量表示为N;获取非异常时间段内该指标相关的事务数据,形成由非异常时间段和异常时间段的事务数据构成的第二事务数据集,其中,第二事务数据集的数据量表示为M,且M大于N;确定第一事务数据集包含的维度属性值,得到属性维度值集合;确定属性维度值集合中各个维度属性值在第一事务数据集中出现的第一频率,第一频率为q/N,其中,q表示维度属性在第一事务数据集中出现的频次;确定属性维度值集合中各个维度属性值在第二事务数据集中出现的第二频率,第二频率为b/M,其中,b表示维度属性在第二事务数据集中出现的频次;根据第一频率和第二频率确定属性维度值集合中各个维度属性值的显著度,其中,维度属性值的显著度为|q/N-b/M|/((q/N)/(b/M));对属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值;确定属性维度值集合中归一化分数值排在前T名的维度属性值为指标的异常根源,其中,T为预设值。
在某些实施例中,确定发生异常的指标及异常时间段,包括:检测指标是否发生异常;在检测到指标发生异常的情况下,确定指标的异常时间段。
在某些实施例中,确定发生异常的指标及异常时间段,包括:显示指标的曲线图;接收用户在曲线图上选择的异常开始时间和异常结束时间,得到指标的异常时间段。
在某些实施例中,确定第一事务数据集包含的维度属性值,得到属性维度值集合,包括:确定第一事务数据集包含的维度属性值;根据预设配置从第一事务数据集包含的维度属性值中排除预设的维度属性值,得到属性维度值集合。
在某些实施例中,指标包括系统的性能指标或可用性指标。
在某些实施例中,非异常时间段内上述指标相关的事务数据包括异常的起始时间之前的预定时间段内上述指标相关的事务数据。
在某些实施例中,按照以下方式对所述属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值:
Figure 461096DEST_PATH_IMAGE001
,其中,x表示维度属性值的显著度,a和k为预设参数。
第二方面,本申请提供了一种指标异常根源分析装置,包括:第一确定模块,用于确定发生异常的指标及异常时间段,其中,该指标表征系统的性能表现或用户体验;第一获取模块,用于获取异常时间段内该指标相关的事务数据,得到第一事务数据集,其中,第一事务数据集的数据量表示为N;第二获取模块,用于获取非异常时间段内该指标相关的事务数据,形成由非异常时间段和异常时间段的事务数据构成的第二事务数据集,其中,第二事务数据集的数据量表示为M,且M大于N;第二确定模块,用于确定第一事务数据集包含的维度属性值,得到属性维度值集合;第三确定模块,用于确定属性维度值集合中各个维度属性值在第一事务数据集中出现的第一频率,第一频率为q/N,其中,q表示维度属性在第一事务数据集中出现的频次;第四确定模块,用于确定属性维度值集合中各个维度属性值在第二事务数据集中出现的第二频率,第二频率为b/M,其中,b表示维度属性在第二事务数据集中出现的频次;第五确定模块,用于根据第一频率和第二频率确定属性维度值集合中各个维度属性值的显著度,其中,维度属性值的显著度为|q/N-b/M|/((q/N)/(b/M));归一化模块,用于对属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值;第六确定模块,用于确定属性维度值集合中归一化分数值排在前T名的维度属性值为指标的异常根源,其中,T为预设值。
第三方面,本申请提供了一种计算机设备,该计算机设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;计算机程序被处理器执行时实现如上述指标异常根源分析方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质上存储有指标异常根源分析程序,指标异常根源分析程序被处理器执行时实现上述指标异常根源分析方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该技术方案,获取异常时段内的第一事务数据集,获取包含异常时间段的第二事务数据集,第二事务数据集的数据量大于第一事务数据集,第二事务数据集包含正常样本和异常样本,基于异常时间段内的维度属性值在异常时间段内的分布情况,以及维度属性值在正常样本和异常样本总体上的分布情况,确定维度属性值的显著度,将显著度高的维度属性值作为异常的根源,更为准确地分析得到指标的异常根源。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的指标异常根源分析方法一种实施方式的流程图;
图2为本申请实施例提供的指标异常根源分析装置一种实施方式的结构框图;
图3为本申请实施例提供的指标异常根源分析方法另一种实施方式的流程图;
图4为本申请实施例提供的指标异常根源分析方法又一种实施方式的流程图;
图5为本申请实施例提供的计算机设备一种实施方式的硬件示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本申请实施例中,指标表征系统的性能表现或用户体验。本申请实施例中的系统,可包括各种软件、硬件及其结合的服务系统,作为示例性说明,本申请实施例中的系统可包括通信网络(例如,移动蜂窝网络、IPv6网络)、应用程序(例如,微软公司的Windows、苹果公司iOS及MacOS、谷歌公司Android等操作系统上运行的应用程序,但不限于此)、分布式架构应用、微服务结构应用等。通过系统运行的指标进行监测,获取系统运行中各种表征系统性能表现或用户体验的指标。通过对指标的分析确定系统是否存在异常、系统的可用性等,便于系统运维人员维护系统。
本申请实施例提供了一种指标异常根源分析方法,如图1所示,该方法包括步骤S102至步骤S118。
步骤S102,确定发生异常的指标及异常时间段,其中,该指标表征系统的性能表现或用户体验。
在本申请实施例中,指标可包括性能指标、可用性指标。
步骤S104,获取异常时间段内该指标相关的事务数据,得到第一事务数据集,其中,第一事务数据集的数据量表示为N。
步骤S106,获取非异常时间段内该指标相关的事务数据,形成由非异常时间段和异常时间段的事务数据构成的第二事务数据集,其中,第二事务数据集的数据量表示为M,且M大于N。
步骤S108,确定第一事务数据集包含的维度属性值,得到属性维度值集合。
步骤S110,确定属性维度值集合中各个维度属性值在第一事务数据集中出现的第一频率,第一频率为q/N,其中,q表示维度属性在第一事务数据集中出现的频次。
步骤S112,确定属性维度值集合中各个维度属性值在第二事务数据集中出现的第二频率,第二频率为b/M,其中,b表示维度属性在第二事务数据集中出现的频次。
在本申请实施例中,上述第一频率表征维度属性值在异常时间段内的第一事务数据集(即异常样本)中的分布情况,上述第二频率表征维度属性值在第二事务数据集(即正常样本和异常样本总体)中的分布情况。
步骤S114,根据第一频率和第二频率确定属性维度值集合中各个维度属性值的显著度,其中,维度属性值的显著度为|q/N-b/M|/((q/N)/(b/M))。
步骤S116,对属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值。
步骤S118,确定属性维度值集合中归一化分数值排在前T名的维度属性值为指标的异常根源,其中,T为预设值。
在一些实施例中,T可设置为具体数值,例如T=5,即归一化分数值排在前5名的维度属性值为指标的异常根源。在另一些实施例中,T可设置为百分数,例如20%,即归一化分数值排在前20%的维度属性值为指标的异常根源。在本申请实施例中,不同的指标可设置不同的T的取值,例如,可根据属性维度值的数量来确定T的取值。
在本申请实施例中,事务数据集包括多个事务的维度数据、性能数据和结果数据。多个事务的执行是相互独立的,两次执行事务互不影响。维度数据包括一个或多个维度,每个维度具有一个或多个维度属性值。性能数据包括一个或多个性能指标,每个性能指标包括一个或多个指标值,用于表征系统的性能状态。结果数据可包括错误代码错误类型,用于表征系统的可用性状态。
以页面监控为例,维度数据中维度可包括:省(维度属性值为省名称)、城市(维度属性值为城市名称)、运营商(维度属性值为运营商名称)、监测点IP(维度属性值为IP地址)、DNS服务器(维度属性值为DNS服务器的IP地址)、接收方式(维度属性值为接入线路等,例如Wi-Fi、4G、5G 等)、操作系统(维度属性值为操作系统的版本号)、浏览器(维度属性值为浏览器名称及版本号)、Flash版本、HTTP 服务器(Server)(维度属性值为HTTP server的名称或类型或版本等)、目标IP、目标城市、目标运营商;性能数据中性能指标可包括:总下载时间、总下载字节数、下载速度、基础页面下载字节数、首屏对象树、首屏下载字节数、DNS解析次数、DNS解析总时间、建立连接次数、建立连接总时间等。
在本申请实施例中,指标包括与性能状态正相关的指标,例如下载速度,下载速度越快标志着系统性能越好。指标也包括与性能状态负相关的指标,例如,DNS解析总时间越小标志着系统性能越好。应当理解,本申请实施例并不限于此。
在某些实施例中,按照以下方式对属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值:
Figure 56025DEST_PATH_IMAGE001
,其中,x表示维度属性值的显著度,a和k为预设参数。a和k用于调整归一化曲线的变化程度。优选地,a=3,k=1.5。
在本申请实施例中,第一事务数据集为异常样本,第二事务数据集包括第一事务数据集的异常样本,并包含正常样本。在某些实施例中,将异常起始时间之前预定时间段内的事务数据作为正常样本,该实施例尤其适用于异常根源实时分析,但本申请实施例并不限于此。在某些实施例中,第二事务数据集中的正常样本也可以包括异常发生后预定时间段内的事务数据。本申请实施例对此不做限定。第二事务数据集的数据量相较于第一事务数据集的数据量越大,则正常样本越多,越能够反映出异常根源。
在本申请实施例中,上述步骤S114中,维度属性值的显著度确定为|q/N-b/M|/((q/N)/(b/M)),充分平衡维度属性值在第一事务数据集和第二事务数据集中出现的频率,准确地衡量维度属性值的显著度,排除正常情况下高频出现的维度属性值被认为是异常根源。
在某些实施例中,预先配置异常根源分析不使用的维度属性值,在上述步骤S108中,确定第一事务数据集包含的维度属性值后,根据预设配置从确定得出的维度属性值中排除预设的维度属性值,得到上述属性维度值集合。由此,可排除在正常和异常时都高频出现的维度属性值对分析结果的影响。
在本申请实施例中,上述指标可为一项指标,例如下载时间等。在另一些实施例中,上述指标可为多项指标经处理后的综合指标。本申请实施例对此不做限定。指标异常检测可参考公知的异常检测方法,但本申请实施例对此不做限定。
本申请实施例还提供了一种指标异常根源分析装置,如图2所示,指标异常根源分析装置200,包括:第一确定模块210,用于确定发生异常的指标及异常时间段;第一获取模块220,与第一确定模块210相连,用于获取异常时间段内该指标相关的事务数据,得到第一事务数据集,其中,第一事务数据集的数据量表示为N;第二获取模块230,与第一获取模块220和第一确定模块210相连,用于获取非异常时间段内该指标相关的事务数据,形成由非异常时间段和异常时间段的事务数据构成的第二事务数据集,其中,第二事务数据集的数据量表示为M,且M大于N;第二确定模块240,与第一获取模块220相连,用于确定第一事务数据集包含的维度属性值,得到属性维度值集合;第三确定模块250,与第二确定模块240和第一获取模块230相连,用于确定属性维度值集合中各个维度属性值在第一事务数据集中出现的第一频率,第一频率为q/N,其中,q表示维度属性在第一事务数据集中出现的频次;第四确定模块260,与第二确定模块240和第二获取模块230相连,用于确定属性维度值集合中各个维度属性值在第二事务数据集中出现的第二频率,第二频率为b/M,其中,b表示维度属性在第二事务数据集中出现的频次;第五确定模块270,与第三确定模块250和第四确定模块260相连,用于根据第一频率和第二频率确定属性维度值集合中各个维度属性值的显著度,其中,维度属性值的显著度为|q/N-b/M|/((q/N)/(b/M));归一化模块280,与第五确定模块270相连,用于对属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值;第六确定模块290,用于确定属性维度值集合中归一化分数值排在前T名的维度属性值为指标的异常根源,其中,T为预设值。
在某些实施例中,第一确定模块210,用于检测指标是否发生异常;在检测到指标发生异常的情况下,确定指标的异常时间段。在一些实施例中,第一确定模块210用于在线实时检测指标是否发生异常以及发生异常时异常的持续时间段,由此在线实时进行异常根源分析。在另一些实施例中,第一确定模块210用于离线分析历史事务数据,检测指标是否发生异常以及发生异常时异常的持续时间段。
在某些实施例中,第一确定模块210,用于显示指标的曲线图,并接收用户在曲线图上选择的异常开始时间和异常结束时间,得到指标的异常时间段。由此,实现了用户选择要进行异常根源分析的指标,以及指标的异常时间段的确定。
在某些实施例中,第二确定模块240用于确定第一事务数据集包含的维度属性值,并根据预设配置从第一事务数据集包含的维度属性值中排除预设的维度属性值,得到属性维度值集合。
在某些实施例中,第二获取模块230,用于获取异常的起始时间之前的预定时间段该指标相关的事务数据,作为非异常时间段的事务数据,但本申请实施例并不限于此。
在某些实施例中,归一化模块280,用于按照以下方式对属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值:
Figure 317242DEST_PATH_IMAGE001
,其中,x表示维度属性值的显著度,a和k为预设参数。a和k用于调整归一化曲线的变化程度。优选地,a=3,k=1.5。
在本申请实施例中,第五确定模块270确定维度属性值的显著度为|q/N-b/M|/((q/N)/(b/M)),充分平衡维度属性值在第一事务数据集和第二事务数据集中出现的频率,准确地衡量维度属性值的显著度,排除正常情况下高频出现的维度属性值被认为是异常根源。
图3为本申请实施例提供的指标异常根源分析方法另一种实施方式的流程图,在该实施方式中,通过异常检测算法确定发生异常的指标和异常时间段,并对指标异常根源进行分析,如图3所示,该方法包括步骤S302至步骤S320。
步骤S302,检测指标是否发生异常。
步骤S304,在检测到指标发生异常的情况下,确定指标的异常时间段。
在一些实施例中,步骤S302和S304中,在线实时接收事务执行过程中的数据,使用异常检测算法确定事务是否发生异常。在另一些实施例中,步骤S302和S304中,对历史事务数据进行离线分析,检测指标是否发生异常。异常检测方法可参见公知的方法,本申请实施例对此不做赘述。
作为一个示例性说明,应用指标异常检测发现性能或可用性指标是否出现波峰或波谷,基于此确定是否发生了异常,如果发现异常,则进行异常根源分析,或发通知给用户,让用户手动一键分析。
步骤S306,获取异常时间段内该指标相关的事务数据,得到第一事务数据集,其中,第一事务数据集的数据量表示为N。
步骤S308,获取非异常时间段内该指标相关的事务数据,形成由非异常时间段和异常时间段的事务数据构成的第二事务数据集,其中,第二事务数据集的数据量表示为M,且M大于N。
步骤S310,确定第一事务数据集包含的维度属性值,得到属性维度值集合。
步骤S312,确定属性维度值集合中各个维度属性值在第一事务数据集中出现的第一频率,第一频率为q/N,其中,q表示维度属性在第一事务数据集中出现的频次。
步骤S314,确定属性维度值集合中各个维度属性值在第二事务数据集中出现的第二频率,第二频率为b/M,其中,b表示维度属性在第二事务数据集中出现的频次。
步骤S316,根据第一频率和第二频率确定属性维度值集合中各个维度属性值的显著度,其中,维度属性值的显著度为|q/N-b/M|/((q/N)/(b/M))。
步骤S318,对属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值。
步骤S320,确定属性维度值集合中归一化分数值排在前T名的维度属性值为指标的异常根源,其中,T为预设值。
图4为本申请实施例提供的指标异常根源分析方法又一种实施方式的流程图,在该实施方式中,通过用户在指标的曲线图上选择异常起止时间,根据用户的选择分析指标的异常根源,如图4所示,该方法包括步骤S402至步骤S420。
步骤S402,显示指标的曲线图。
在一些实施例中,步骤S402中可根据历史事务数据离线绘制指标的曲线图。在另一些实施例中,步骤S402中可在线实时绘制指标的曲线图。
步骤S404,接收用户在曲线图上选择的异常开始时间和异常结束时间,得到指标的异常时间段。
在本申请实施例中,曲线图上可显示一个或多个指标的曲线,作为示例性说明,曲线图的横坐标为时间,曲线图的纵坐标为指标的实际值或者经处理后的值。在一些实施例中,用户从多个指标中选择要分析的指标,例如,从下拉框中选择,或者点击指标曲线,将点击的指标曲线作为要分析的指标,本申请实施例对此不做限定。
在某些实施例中,用户在指标曲线图上点击一个点作为异常的起始时间点,点击另一个时间点作为异常的结束时间点,但本申请实施例并不限于此,其他的人机交互方式也是可行的,本申请实施例对此不做赘述。
作为一个示例性说明,用户在报表提供的曲线图上发现:性能或可用性指标出现了明显的波峰或波谷,框选波峰或波谷时间段,点击一键分析按钮,进行异常根源分析。
在某些实施例中,参考图3所示,通过异常检测算法检测指标是否发生异常以及异常时间段,并发送发生异常的指标和异常时间段。在步骤S402中,发生异常的指标和异常时间段被显示在指标的曲线图像,用户选择进行异常根源分析,以检测到的异常时间段进行异常根源分析;或者,用户调整异常时间段,以用户调整后的异常事件段进行异常根源分析。
步骤S406,获取异常时间段内该指标相关的事务数据,得到第一事务数据集,其中,第一事务数据集的数据量表示为N。
步骤S408,获取非异常时间段内该指标相关的事务数据,形成由非异常时间段和异常时间段的事务数据构成的第二事务数据集,其中,第二事务数据集的数据量表示为M,且M大于N。
步骤S410,确定第一事务数据集包含的维度属性值,得到属性维度值集合。
在某些实施例中,上述步骤S410之前,还包括用户选择不用作异常根源分析的维度属性值。在步骤S410中,将用户选择的维度属性值排从第一事务数据集包含的维度属性值中排除,得到用作异常根源分析的属性维度值集合。
在另一些实施例中,在步骤S410中,读取预设配置,该预设配置中包含不用作异常根源分析的维度属性值,根据该预设配置,从第一事务数据集包含的维度属性值中排除对应的维度属性值,得到用作异常根源分析的属性维度值集合。
步骤S412,确定属性维度值集合中各个维度属性值在第一事务数据集中出现的第一频率,第一频率为q/N,其中,q表示维度属性在第一事务数据集中出现的频次。
步骤S414,确定属性维度值集合中各个维度属性值在第二事务数据集中出现的第二频率,第二频率为b/M,其中,b表示维度属性在第二事务数据集中出现的频次。
步骤S416,根据第一频率和第二频率确定属性维度值集合中各个维度属性值的显著度,其中,维度属性值的显著度为|q/N-b/M|/((q/N)/(b/M))。
步骤S418,对属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值。
步骤S420,确定属性维度值集合中归一化分数值排在前T名的维度属性值为指标的异常根源,其中,T为预设值。
作为一个示例性说明,本申请实施例中的维度数据包括:Server IP、App版本、探针版本、操作系统、设备型号、国家、地域、运营商、接入方式、IP、User ID、请求URL。对应的性能数据包括:总响应时间、客户端耗时、DNS解析时间、TCP建连时间、SSL握手时间首包时间、剩余包时间、上传字节数、下载字节数。通过选择一个或多个性能指标进行异常根源分析,确定得出哪些维度导致了异常的发生,例如,确定得到某些操作系统版本、某些设备型号、某些APP版本等导致异常的发生。
本实施例还提供一种计算设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图5所示,本实施例的计算设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21和处理器22。需要指出的是,图5仅示出了具有组件21-22的计算设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算设备20的操作系统和各类应用软件,例如本申请实施例的指标异常根源分析方法、指标异常根源分析装置的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如指标异常根源分析方法、指标异常根源分析装置的程序代码,以实现指标异常根源分析方法。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储指标异常根源分析方法、指标异常根源分析装置的程序代码,被处理器执行时实现指标异常根源分析方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该技术方案,获取异常时段内的第一事务数据集,获取包含异常时间段的第二事务数据集,第二事务数据集的数据量大于第一事务数据集,第二事务数据集包含正常样本和异常样本,基于异常时间段内的维度属性值在异常时间段内的分布情况,以及维度属性值在总体上的分布情况,确定维度属性值的显著度,将显著度高的维度属性值作为异常的根源,更为准确地分析得到指标的异常根源。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本申请的保护之内。

Claims (10)

1.一种指标异常根源分析方法,其特征在于,包括:
确定发生异常的指标及异常时间段,其中,所述指标用于表征系统的性能表现或用户体验;
获取所述异常时间段内所述指标相关的事务数据,得到第一事务数据集,其中,所述第一事务数据集的数据量表示为N;
获取非异常时间段内所述指标相关的事务数据,形成由所述非异常时间段和所述异常时间段的事务数据构成的第二事务数据集,其中,所述第二事务数据集的数据量表示为M,且M大于N;
确定所述第一事务数据集包含的维度属性值,得到属性维度值集合;
确定所述属性维度值集合中各个维度属性值在所述第一事务数据集中出现的第一频率,所述第一频率为q/N,其中,q表示维度属性在所述第一事务数据集中出现的频次;
确定所述属性维度值集合中各个维度属性值在所述第二事务数据集中出现的第二频率,所述第二频率为b/M,其中,b表示维度属性在所述第二事务数据集中出现的频次;
根据所述第一频率和所述第二频率确定所述属性维度值集合中各个维度属性值的显著度,其中,维度属性值的显著度为|q/N-b/M|/((q/N)/(b/M));
对所述属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值;
确定所述属性维度值集合中归一化分数值排在前T名的维度属性值为所述指标的异常根源,其中,T为预设值。
2.根据权利要求1所述的指标异常根源分析方法,其特征在于,确定发生异常的指标及异常时间段,包括:
检测指标是否发生异常;
在检测到所述指标发生异常的情况下,确定所述指标的异常时间段。
3.根据权利要求1所述的指标异常根源分析方法,其特征在于,确定发生异常的指标及异常时间段,包括:
显示指标的曲线图;
接收用户在所述曲线图上选择的异常开始时间和异常结束时间,得到指标的异常时间段。
4.根据权利要求1至3中任一项所述的指标异常根源分析方法,其特征在于,确定所述第一事务数据集包含的维度属性值,得到属性维度值集合,包括:
确定所述第一事务数据集包含的维度属性值;
根据预设配置从所述第一事务数据集包含的维度属性值中排除预设的维度属性值,得到属性维度值集合。
5.根据权利要求1至3中任一项所述的指标异常根源分析方法,其特征在于,所述指标包括系统的性能指标或可用性指标。
6.根据权利要求1至3中任一项所述的指标异常根源分析方法,其特征在于,非异常时间段内所述指标相关的事务数据包括所述异常的起始时间之前的预定时间段内所述指标相关的事务数据。
7.根据权利要求1至3中任一项所述的指标异常根源分析方法,其特征在于,按照以下方式对所述属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值:
Figure 415051DEST_PATH_IMAGE001
,其中,x表示维度属性值的显著度,a和k为预设参数。
8.一种指标异常根源分析装置,其特征在于,包括:
第一确定模块,用于确定发生异常的指标及异常时间段,其中,所述指标用于表征系统的性能表现或用户体验;
第一获取模块,用于获取所述异常时间段内所述指标相关的事务数据,得到第一事务数据集,其中,所述第一事务数据集的数据量表示为N;
第二获取模块,用于获取非异常时间段内所述指标相关的事务数据,形成由所述非异常时间段和所述异常时间段的事务数据构成的第二事务数据集,其中,所述第二事务数据集的数据量表示为M,且M大于N;
第二确定模块,用于确定所述第一事务数据集包含的维度属性值,得到属性维度值集合;
第三确定模块,用于确定所述属性维度值集合中各个维度属性值在所述第一事务数据集中出现的第一频率,所述第一频率为q/N,其中,q表示维度属性在所述第一事务数据集中出现的频次;
第四确定模块,用于确定所述属性维度值集合中各个维度属性值在所述第二事务数据集中出现的第二频率,所述第二频率为b/M,其中,b表示维度属性在所述第二事务数据集中出现的频次;
第五确定模块,用于根据所述第一频率和所述第二频率确定所述属性维度值集合中各个维度属性值的显著度,其中,维度属性值的显著度为|q/N-b/M|/((q/N)/(b/M));
归一化模块,用于对所述属性维度值集合中各个维度属性值的显著度进行归一化,得到各个维度属性值对应的归一化分数值;
第六确定模块,用于确定所述属性维度值集合中归一化分数值排在前T名的维度属性值为所述指标的异常根源,其中,T为预设值。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;
所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的指标异常根源分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指标异常根源分析程序,所述指标异常根源分析程序被处理器执行时实现如权利要求1至7中任一项所述的指标异常根源分析方法的步骤。
CN202011435470.2A 2020-12-11 2020-12-11 一种指标异常根源分析方法、装置及计算机可读存储介质 Active CN112231194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011435470.2A CN112231194B (zh) 2020-12-11 2020-12-11 一种指标异常根源分析方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011435470.2A CN112231194B (zh) 2020-12-11 2020-12-11 一种指标异常根源分析方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112231194A CN112231194A (zh) 2021-01-15
CN112231194B true CN112231194B (zh) 2021-03-19

Family

ID=74124467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011435470.2A Active CN112231194B (zh) 2020-12-11 2020-12-11 一种指标异常根源分析方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112231194B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757468B (zh) * 2022-02-18 2023-09-29 北京凡得科技有限公司 一种面向流程挖掘中流程执行异常的根源分析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848515B (zh) * 2018-05-31 2021-06-08 武汉虹信技术服务有限责任公司 一种基于大数据的物联网业务质量监测平台及方法
US10616044B1 (en) * 2018-09-28 2020-04-07 Ca, Inc. Event based service discovery and root cause analysis
PL3660716T3 (pl) * 2018-11-30 2021-05-31 Ovh Infrastruktura usługowa i sposoby przewidywania i wykrywania potencjalnych anomalii w infrastrukturze usługowej
CN110147945A (zh) * 2019-04-30 2019-08-20 阿里巴巴集团控股有限公司 一种数据波动的处理方法、装置及设备
CN111669375B (zh) * 2020-05-26 2021-03-16 武汉大学 一种电力工控终端在线安全态势评估方法及系统

Also Published As

Publication number Publication date
CN112231194A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN111178760B (zh) 风险监测方法、装置、终端设备及计算机可读存储介质
CN110727572A (zh) 埋点数据处理方法、装置、设备及存储介质
CN107395650B (zh) 基于沙箱检测文件识别木马回连方法及装置
CN109271315B (zh) 脚本代码检测方法、装置、计算机设备及存储介质
US9965841B2 (en) Monitoring system based on image analysis of photos
CN111882399B (zh) 服务信息推荐方法、装置、计算机系统及可读存储介质
US20190303231A1 (en) Log analysis method, system, and program
CN112866260A (zh) 结合云计算和用户行为分析的流量检测方法及大数据中心
CN106600303A (zh) 评估广告投放合理性的方法和装置
CN111404949A (zh) 一种流量检测方法、装置、设备及存储介质
CN112231194B (zh) 一种指标异常根源分析方法、装置及计算机可读存储介质
CN110888816A (zh) 程序测试方法、程序测试装置及存储介质
CN114095581A (zh) 数据处理方法、系统及计算机可读存储介质
CN111061588A (zh) 一种定位数据库异常来源的方法及装置
CN112232719A (zh) 一种指标定量评分方法、计算机设备及存储介质
CN109614382B (zh) 一种应用的日志分割方法及装置
CN109858632B (zh) 一种确定阈值的方法及装置
CN112416385A (zh) 采集组件管理方法和系统
CN111555899A (zh) 告警规则配置方法、设备状态监测方法、装置和存储介质
CN116560960A (zh) 异常检测方法、装置、电子设备及存储介质
CN109547276B (zh) 一种问题定位方法、终端及存储介质
CN115293735A (zh) 一种无人工厂工业互联网平台监测管理方法及系统
CN112966988A (zh) 基于XGBoost模型的数据评估方法、装置、设备及存储介质
JP5435351B2 (ja) 画面シーケンス確認装置、画面シーケンス確認方法および画面シーケンス確認プログラム
CN115913896B (zh) 设备检测方法、服务器及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant