CN110795324B - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN110795324B
CN110795324B CN201911044396.9A CN201911044396A CN110795324B CN 110795324 B CN110795324 B CN 110795324B CN 201911044396 A CN201911044396 A CN 201911044396A CN 110795324 B CN110795324 B CN 110795324B
Authority
CN
China
Prior art keywords
residual
quantile
target
values
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911044396.9A
Other languages
English (en)
Other versions
CN110795324A (zh
Inventor
何东杰
蒋丹妮
张高磊
王琪
孙寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201911044396.9A priority Critical patent/CN110795324B/zh
Publication of CN110795324A publication Critical patent/CN110795324A/zh
Application granted granted Critical
Publication of CN110795324B publication Critical patent/CN110795324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例公开了一种数据处理方法及装置,通过使用监控指标在第一时段的各个时刻的残差值训练得到目标分位数对应的第二模型,并使用目标分位数对应的第二模型确定残差阈值范围,可以使用该残差阈值范围对第一时段之后的任意时刻(比如第一时刻)或任意时段的观测值进行异常检测,如此,异常检测的结果较为准确,且基于异常检测的结果所生成的告警信息也较为准确。本发明实施例中,通过基于综合历史时段的各个时刻的残差值信息得到残差阈值范围,相对于采用分位数取样估计执行异常检测的方式来说,可以避免极端数据所造成的影响,提高异常检测的准确性。

Description

一种数据处理方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种数据处理方法及装置。
背景技术
现阶段,基于分位数的阈值检测方法是运维领域的一种常用检测方法,以机房运维监控场景为例,在获取某一时刻的观测值后,可以确定该观测值是否满足基于目标分位数确定的观测值阈值范围,若不满足,则确定在该时刻的观测值为异常值,若满足。则确定该时刻的观测值为正常值。由此可知,目标分位数确定的阈值的好坏直接影响对观测值进行异常检测的效果,准确地基于目标分位数确定阈值,可以提高检测异常值的准确性。
分位数取样估计是一种较为常用的阈值确定方式,具体实施中,获取设定时段内多个时刻的观测值后,可以基于每个时刻的观测值与每个时刻的标准值确定出每个时刻对应的残差值,进而可以将各个时刻对应的残差值按照由小到大的顺序进行排序,然后从序列中选取位于目标分位数处的残差值,基于目标分位数处的残差值确定残差阈值范围,并使用残差阈值范围对设定时段之后的每个时刻的观测值进行异常检测。显然地,该种方式实际上是基于历史观测值直接确定残差阈值范围,因此,阈值的好坏直接依赖于历史观测值的好坏,若历史观测值中存在较为极端的观测值,则分位数处的残差阈值也会较为极端,从而导致基于该分位数的阈值执行异常检测的检测效果较差。
综上,目前亟需一种数据处理方法,用以解决现有技术采用分位数取样估计确定的分位数对应的阈值执行异常检测所导致的检测效果不准确的技术问题。
发明内容
本发明实施例提供一种数据处理方法及装置,用以解决现有技术采用分位数取样估计确定的分位数对应的阈值执行异常检测所导致的检测效果不准确的技术问题。
第一方面,本发明实施例提供的一种数据处理方法,包括:
获取监控指标在第一时刻的观测值后,使用第一模型预测得到所述监控指标在所述第一时刻的预测值,所述第一模型为使用所述监控指标在第一时段的各个时刻的观测值训练得到的,所述第一时段的任一时刻早于所述第一时刻;进一步地,基于所述监控指标在所述第一时刻的预测值和观测值,确定所述监控指标在所述第一时刻的残差值;如此,若所述监控指标在所述第一时刻的残差值不满足残差阈值范围,则确定所述监控指标在所述第一时刻处于异常状态,并根据所述监控指标在所述第一时刻的异常状态,生成所述监控指标对应的告警信息,并将所述告警信息发送给运维服务器;所述残差阈值范围基于目标分位数对应的第二模型确定,所述目标分位数用于标识所述第一时段的各个时刻的残差值中的异常残差值,所述目标分位数对应的第二模型使用所述监控指标在所述第一时段的各个时刻的异常残差值训练得到。
在上述设计中,通过使用监控指标在第一时段的各个时刻的残差值训练得到目标分位数对应的第二模型,并使用目标分位数对应的第二模型确定残差阈值范围,相当于综合历史时段的各个时刻的残差值信息得到了残差阈值范围,如此,相对于采用分位数取样估计执行异常检测的方式来说,可以避免极端数据所造成的影响,提高异常检测的准确性。
在一种可能的设计中,所述第二模型包括多个特征项,任意两个特征项用于表征基准分位数在不同函数变换中的函数值,所述基准分位数为与所述目标分位数对应设置的任一基准分位数。
在上述设计中,通过使用表征基准分位数在不同函数变换中的函数值的多个特征项来构建第二模型,可以使得第二模型综合各种数据分布的特征,从而能够根据基准分位数与残差值的对应关系准确拟合到符合的数据分布形式,如此,第二模型的效果较好。
在一种可能的设计中,所述目标分位数对应的第二模型使用所述监控指标在所述第一时段的各个时刻的异常残差值训练得到,包括:使用所述第一模型预测得到所述监控指标在所述第一时段的各个时刻的预测值,并基于所述监控指标在所述第一时段的各个时刻的预测值和观测值,确定所述监控指标在所述第一时段的各个时刻的残差值;进一步地,对所述监控指标在所述第一时段的各个时刻的残差值进行排序,得到所述第一时段对应的残差序列,从所述第一时段对应的残差序列中确定出所述监控指标在所述第一时段对应的残差序列的各个基准分位数处的残差值;如此,使用每个基准分位数在多个特征项中的值构建所述每个基准分位数对应的特征向量,并基于所述各个基准分位数对应的特征向量和所述监控指标在所述各个基准分位数处的残差值拟合得到所述目标分位数对应的第二模型。
在上述设计中,通过使用各个基准分位数在多个特征项处的值构建各个基准分位数对应的特征向量,并基于各个基准分位数对应的特征向量和其残差值拟合得到第二模型,可以基于历史时段中基准分位数与残差值的对应关系预测残差阈值范围,如此,用于执行异常检测的残差阈值范围能够综合各个历史时段的残差值信息,从而可以避免极端数据造成的影响,提高异常检测的效果。
在一种可能的实现方式中,所述多个特征项包括以下任意多项:多项式特征项、对数特征项、指数特征项、幂指数特征项、线性特征项、常数特征项。
在上述设计中,通过设置多个特征项包括多项式特征项、对数特征项、指数特征项、幂指数特征项等非线性特征项,以及包括线性特征项和常数特征项,可以基于不同分布的函数的特征信息训练得到第二模型,从而使得第二模型能够从各个基准分位数处的残差值中提取得到各种数据分布的特征,如此,第二模型的拟合效果和预测效果均较好。
在一种可能的设计中,所述残差阈值范围基于目标分位数对应的第二模型确定,包括:使用所述目标分位数对应的第二模型确定初始残差阈值后,根据所述监控指标在所述第一时段对应的残差序列的每个基准分位数处的残差值与所述初始残差阈值,得到所述每个基准分位数对应的基准差;进一步地,确定所述监控指标在第二时段对应的残差序列的各个基准分位数处的残差值,并根据所述各个基准分位数对应的基准差和所述监控指标在所述第二时段对应的残差序列的各个基准分位数处的残差值得到所述各个基准分位数对应的基准残差阈值;所述第二时段位于所述第一时段之后;根据所述各个基准分位数对应的基准残差阈值确定所述残差阈值范围。
在上述示例中,通过使用第一时段中各个基准分位数处的残差值与初始残差阈值的差值作为基准差,并基于基准差和第二时段中各个基准分位数处的残差值确定残差阈值范围,使得残差阈值范围能够避免第一时段的残差数据分布与第二时段的残差数据分布不同所导致的噪声影响,从而提高使用残差阈值范围对第一时刻的残差值进行检测的准确性。
第二方面,本发明实施例提供的一种数据处理装置,所述装置包括:
获取模块,用于获取监控指标在第一时刻的观测值;
预测模块,用于使用第一模型预测得到所述监控指标在所述第一时刻的预测值;所述第一模型为使用所述监控指标在第一时段的各个时刻的观测值训练得到的,所述第一时段的任一时刻早于所述第一时刻;
确定模块,用于基于所述监控指标在所述第一时刻的预测值和观测值,确定所述监控指标在所述第一时刻的残差值;
检测模块,用于若所述监控指标在所述第一时刻的残差值不满足残差阈值范围,则确定所述监控指标在所述第一时刻处于异常状态;所述残差阈值范围基于目标分位数对应的第二模型确定,所述目标分位数用于标识所述第一时段的各个时刻的残差值中的异常残差值,所述目标分位数对应的第二模型使用所述监控指标在所述第一时段的各个时刻的异常残差值训练得到;
告警模块,用于根据所述监控指标在所述第一时刻的异常状态,生成所述监控指标对应的告警信息,并将所述告警信息发送给运维服务器。
在一种可能的设计中,所述第二模型包括多个特征项,任意两个特征项用于表征基准分位数在不同函数变换中的函数值,所述基准分位数为与所述目标分位数对应设置的任一基准分位数。
在一种可能的设计中,所述装置还包括训练模块,所述训练模块具体用于:使用所述第一模型预测得到所述监控指标在所述第一时段的各个时刻的预测值,并基于所述监控指标在所述第一时段的各个时刻的预测值和观测值,确定所述监控指标在所述第一时段的各个时刻的残差值;进一步地,对所述监控指标在所述第一时段的各个时刻的残差值进行排序,得到所述第一时段对应的残差序列,从所述第一时段对应的残差序列中确定出所述监控指标在所述第一时段对应的残差序列的各个基准分位数处的残差值;如此,使用每个基准分位数在多个特征项中的值构建所述每个基准分位数对应的特征向量,并基于所述各个基准分位数对应的特征向量和所述监控指标在所述各个基准分位数处的残差值拟合得到所述目标分位数对应的第二模型。
在一种可能的设计中,所述多个特征项包括以下任意多项:多项式特征项、对数特征项、指数特征项、幂指数特征项、线性特征项、常数特征项。
在一种可能的设计中,所述确定模块还用于:使用所述目标分位数对应的第二模型确定初始残差阈值后,根据所述监控指标在所述第一时段对应的残差序列的每个基准分位数处的残差值与所述初始残差阈值,得到所述每个基准分位数对应的基准差;进一步地,确定所述监控指标在第二时段对应的残差序列的各个基准分位数处的残差值,并根据所述各个基准分位数对应的基准差和所述监控指标在所述第二时段对应的残差序列的各个基准分位数处的残差值得到所述各个基准分位数对应的基准残差阈值;所述第二时段位于所述第一时段之后;如此,根据所述各个基准分位数对应的基准残差阈值确定所述残差阈值范围。
第三方面,本发明实施例提供的一种计算设备,包括至少一个处理单元以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行上述第一方面任意所述的方法。
第四方面,本发明实施例提供的一种计算机可读存储介质,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行上述第一方面任意所述的方法。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种机房运维系统的架构示意图;
图2为本发明实施例提供的一种数据处理方法对应的流程示意图;
图3为本发明实施例提供的一种数据处理装置的结构示意图;
图4为本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种机房运维系统的架构示意图,如图1所示,该系统架构中可以包括运维服务器110和至少一个机房设备,比如机房设备121、机房设备122和机房设备123;机房设备121、机房设备122和机房设备123可以为相同类型的机房设备,也可以为不同类型的机房设备,具体不作限定。其中,运维服务器110可以与每个机房设备连接,比如可以通过有线方式连接,或者也可以通过无线方式连接,具体不作限定。
具体实施中,运维服务器110可以监控每个机房设备的运行情况,并可以获取每个机房设备对应的运行数据。其中,运行数据可以包括各个监控指标在运行时段的各个时刻的观测值,监控指标可以为硬件指标、操作系统指标、中间件指标和负载指标中的任意一项或任意多项,硬件指标包括信号灯闪烁指标、中央处理器(central processing unit,CPU)的响应指标、存储器功能的可用性指标等,操作系统指标包括可靠性度量指标、可维修性指标、可用性指标、资源利用率指标、可移植性指标等,中间件指标包括中间件对服务的支持性指标、中间件对请求优先权的支持性指标、中间件对交易通讯模式的支持性指标等,负载指标包括内存使用率、内存使用总量、CPU使用率等。
需要说明的是,上述仅是一种示例性的简单说明,其所列举的监控指标仅是为了便于说明方案,并不构成对方案的限定;在具体实施中,监控指标可以由本领域技术人员根据经验进行设置,比如,监控指标的数量可以为200个,或200个以上。
本发明实施例中的方案不仅可以应用于机房运维监控系统,也可以应用于请求数、拒绝数、响应时间、流水和订单等类型的业务系统中。
基于图1所示意的系统架构,图2为本发明实施例提供的一种数据处理方法对应的流程示意图,该方法适用于运维服务器110,该方法包括:
步骤201,获取监控指标在第一时刻的观测值。
步骤202,使用第一模型预测得到所述监控指标在所述第一时刻的预测值。
其中,第一模型为使用监控指标在第一时段的各个时刻的观测值训练得到的,第一时段可以为早于第一时刻的任一时段,比如可以为与第一时刻最为接近的历史时段,第一时段的任一时刻早于第一时刻。
在一种可能的实现方式中,在机房设备的运行过程中,运维服务器110可以周期性地获取每个机房设备对应的运行数据,比如若周期为1天,则运维服务器110可以每天向机房设备发送一次获取指令,以使每个机房设备在接收到获取指令后自动上报每天的运行数据,或者也可以由运维人员预先在机房设备中设置调度信息,以使机房设备在每天的设定时刻触发调度信息,并自动向运维服务器110上报该天的运行数据,具体不作限定。
进一步地,运维服务器110在每个周期获取到机房设备对应的运行数据后,均可以将机房设备在该周期内的运行数据存储在数据库中,从而数据库中可以存储有机房设备在多个周期的运行数据。本发明实施例中,由于运行数据包括多个监控指标对应的运行数据,因此,数据库可以设置为指标分类形式的数据库,即数据库中包括多个监控指标分别对应的数据表,每个监控指标对应的数据表用于存储该监控指标在多个周期中的运行数据;其中,每个监控指标在多个周期的运行数据具体是指该监控指标在多个周期中的每个时刻的观测值,比如若监控指标为内存使用率指标,则该监控指标对应的数据表中可以存储有机房设备在每个周期中的每个时刻的内存使用率。
本发明实施例中,每个周期中的各个时刻可以是指离散的时刻,比如可以由本领域技术人员设置每个监控指标对应的采集时差,以使机房设备基于每个监控指标对应的采集时差在每个周期的各个时刻采集每个监控指标的观测值,不同监控指标对应的采集时差可以相同,也可以不同,不作限定。举例来说,若某一监控指标的采集时差设置为15min,则机房设备可以为每15min采集一次该监控指标的观测值,如此,当周期为1天时,该监控指标在1天中的各个时刻的观测值可以包括第1至第96观测值,第1观测值为采集到的该监控指标在0:00时的观测值,第2观测值为采集到的该监控指标在0:15时的观测值,第3观测值为采集到的该监控指标在0:30时的观测值,……,第96观测值为采集到的该监控指标在23:45时的观测值。
其中,min为时间单位,具体是指分钟。
具体实施中,针对于任一监控指标,运维服务器110可以先从该监控指标对应的数据表中获取该监控指标在第一时段的每个时刻的观测值,再基于该监控指标在第一时段的各个时刻的观测值拟合得到第一模型,如此,第一模型可以用于预测监控指标在每个时刻的预测值。其中,第一时段可以为位于第一时刻之前且距离第一时刻最近的一个或多个周期;如此,通过设置第一时段为距离第一时刻最近的历史时段,可以使得确定出的第一模型更符合实际情况,模型检测的效果也更好;相应地,若设置第一时段包括多个周期,则运维服务器110可以基于监控指标在多个周期的观测值拟合得到第一模型,从而相对于基于一个周期的观测值拟合得到第一模型的方式来说,可以使得第一模型的预测效果更好。
在一个示例中,运维服务器110获取到监控指标在第一时段的各个时刻的观测值之后,使用各个观测值拟合得到第一模型之前,还可以对多个观测值进行清洗,清洗的方式包括但不限于删除明显异常的观测值、补全缺失的观测值。如此,通过对缺失的观测值进行补全,或者对明显异常的观测值进行删除,可以保证参与模型训练的观测值为正常的观测值,从而提高模型训练的效果。
本发明实施例中,在拟合得到第一模型时,针对于第一时段中的每个时刻,运维服务器110可以先根据该时刻和监控指标在该时刻的观测值构建该时刻对应的样本对,然后基于各个时刻对应的样本对训练得到第一模型。举例来说,若第一时段为2019年10月17日至2019年10月23日,监控指标对应的采集时差为15min,则运维服务器110可以生成第1至第672样本对,第1样本对可以为(201910170000,监控指标在2019年10月17日的0:00时的观测值),第2样本对可以为(201910170015,监控指标在2019年10月17日的0:15时的观测值),第3样本对可以为(201910170030,监控指标在2019年10月17日的0:30时的观测值),……,第672样本对可以为(201910232345,监控指标在2019年10月23日的23:45时的观测值)。
作为一种示例,运维服务器110可以使用预设回归算法拟合得到第一模型;其中,预设回归算法可以由本领域技术人员根据经验进行设置,比如可以为Lasso回归算法,具体不作限定。在该示例中,由于Lasso回归算法对于时长分布线性的对象拟合会有比较好的适应性,因此使用Lasso回归算法拟合得到的回归模型能够快速地发现时长突然增大的异常对象;且,Lasso回归算法引入了L1范数惩罚项,从而能够减小拟合得到的模型参数,甚至还可以使一些绝对值较小的模型参数降为0,因此使用Lasso回归算法可以减小模型参数,降低计算的数据量,提高计算效率。
如此,在基于第一时段的各个时刻的观测值拟合得到第一模型后,运维服务器110可以使用第一模型预测得到位于第一时段之后的任一时刻的预测值,比如第一时刻。
步骤203,基于所述监控指标在所述第一时刻的预测值和观测值,确定所述监控指标在所述第一时刻的残差值。
步骤204,若所述监控指标在所述第一时刻的残差值不满足残差阈值范围,则确定所述监控指标在所述第一时刻处于异常状态。
其中,残差阈值范围为基于目标分位数对应的第二模型确定的,目标分位数用于标识第一时段的各个时刻的残差值中的异常残差值,目标分位数对应的第二模型可以为使用监控指标在第一时段的各个时刻的异常残差值训练得到。
步骤205,根据所述监控指标在所述第一时刻的异常状态,生成所述监控指标对应的告警信息,并将所述告警信息发送给运维服务器。
具体实施中,运维服务器110可以在确定监控指标在第一时刻处于异常状态之后,直接生成监控指标对应的告警信息,也可以先统计监控指标在包括第一时刻的一个时段内处于异常状态的次数,若该次数超过预设数量,则可以生成监控指标对应的告警信息,若该数量未超过预设数量,则可以不生成监控指标对应的告警信息,具体不做限定。
本发明实施例中,残差阈值范围可以用于确定某一时刻的残差值是否异常,还可以用于确定监控指标在某一时段对应的残差序列的目标分位数处的残差值是否异常,下面主要描述三种可能的示例:
示例一,运维服务器110可以先基于残差阈值范围的上限残差阈值和下限残差阈值确定监控指标在第一时刻的观测上限值和观测下限值,再基于监控指标在第一时刻的观测上限值和观测下限值确定监控指标在第一时刻的观测值是否为异常观测值。具体实施中,运维服务器110在使用第一模型预测得到监控指标在第一时刻的预测值后,还可以对监控指标在第一时刻的预测值和残差阈值范围的下限残差阈值作差,从而得到监控指标在第一时刻的观测下限值,并可以对监控指标在第一时刻的预测值和残差阈值范围的上限残差阈值作和,得到监控指标在第一时刻的观测上限值。如此,运维服务器110若确定监控指标在第一时刻的观测值大于监控指标在第一时刻的观测上限值,或小于监控指标在第一时刻的观测下限值,则确定监控指标在第一时刻的观测值为异常观测值;相应地,若确定监控指标在该第一时刻的观测值小于或等于监控指标在第一时刻的观测上限值,且大于或等于监控指标在第一时刻的观测下限值,则确定监控指标在第一时刻的观测值为正常观测值。
示例二,运维服务器110可以直接根据残差阈值范围确定监控指标在第一时段之后的任一时段对应的残差序列的目标分位数处的残差值是否为异常残差值。具体实施中,针对于第一时段之后的任一时段,若监控指标在该时段对应的残差序列的该目标分位数处的残差值在残差阈值范围之外,则运维服务器110可以确定监控指标在该时段对应的残差序列的该目标分位数处的残差值为异常残差值,若监控指标在该时段对应的残差序列的该目标分位数处的残差值在残差阈值范围之内,则运维服务器110可以确定监控指标在该时段对应的残差序列的该目标分位数处的残差值为正常残差值。
示例三,运维服务器110可以以第一时刻为基准获取早于第一时刻的N-1个时刻,且N满足如下条件:包括第一时刻在内的N个时刻的残差值构成的残差序列中,监控指标在第一时刻的残差值位于该残差序列的目标分位数处。如此,按照示例二,运维服务器110若确定监控指标在第一时刻的残差值为异常残差值,则确定监控指标在第一时刻的观测值为异常观测值,若确定监控指标在第一时刻的残差值为正常残差值,则确定监控指标在第一时刻的观测值为正常观测值。
本发明实施例中,通过使用监控指标在第一时段的各个时刻的残差值训练得到目标分位数对应的第二模型,并使用目标分位数对应的第二模型确定残差阈值范围,可以基于综合历史时段的各个时刻的残差值信息得到用于对后续时刻的观测值进行异常检测的残差阈值范围,如此,相对于采用分位数取样估计执行异常检测的方式来说,可以避免极端数据所造成的影响,提高异常检测的准确性。
需要说明的是,本发明实施例中的数据处理方法包括训练阶段(第一模型的训练阶段和第二模型的训练阶段)和检测阶段(使用第一模型和第二模型检测某一时刻的观测值是否异常的检测阶段);上述过程描述了第一模型的训练阶段、使用第一模型和第二模型检测某一时刻的观测值是否异常的检测阶段,下面描述第二模型的训练阶段。
第二模型的训练阶段主要包括如下步骤a至步骤c:
步骤a,使用第一模型确定监控指标在第一时段的各个时刻的预测值。
具体实施中,在拟合得到第一模型后,运维服务器110还可以使用第一模型对第一时段的每个时刻进行预测,得到监控指标在第一时段的每个时刻的预测值。举例来说,若第一时段为2019年10月23日的0:00-24:00,监控指标对应的采集时差为15min,则运维服务器110可以预测得到96个预测值,这96个预测值分别为:监控指标在2019年10月23日的0:00时的预测值、监控指标在2019年10月23日的0:15时的预测值、监控指标在2019年10月23日的0:30时的预测值、监控指标在2019年10月23日的0:45时的预测值、……、监控指标在2019年10月23日的23:45时的预测值。
步骤b,基于所述监控指标在所述第一时段的各个时刻的预测值和观测值,确定所述监控指标在所述第一时段的各个时刻的残差值。
具体实施中,运维服务器110可以基于监控指标在第一时段的每个时刻的预测值和观测值,得到监控指标在第一时段的每个时刻的残差值。比如,若第一时段为2019年10月23日,监控指标对应的采集时差为15min,则运维服务器110通过计算监控指标在2019年10月23日的第1至第96预测值和第1至第96观测值的差值,可以得到监控指标在2019年10月23日的第1至第96残差值,第1残差值为监控指标在2019年10月23日的0:00时的预测值与观测值的差值,第2残差值为监控指标在2019年10月23日的0:15时的预测值与观测值的差值,第3残差值为监控指标在2019年10月23日的0:30时的预测值与观测值的差值,……,第96残差值为监控指标在2019年10月23日的23:45时的预测值与观测值的差值。
步骤c,对所述监控指标在所述第一时段的各个时刻的残差值进行排序,得到所述第一时段对应的残差序列,确定所述监控指标在目标分位数对应的各个基准分位数处的残差值,并基于目标分位数对应的各个基准分位数处的残差值拟合得到目标分位数对应的第二模型。
本发明实施例中,目标分位数可以由本领域技术人员根据经验进行设置,或者也可以根据实际需要进行设置,比如可以设置为一个,或者也可以设置为多个,具体不作限定。
在一种可能的实现方式中,可以设置第一目标分位数和第二目标分位数,第一目标分位数用于标识异常残差值上限,即位于残差序列中第一目标分位数以上的分位数处的残差值均为异常残差值,第二目标分位数用于标识异常残差值下限,即位于残差序列中第二目标分位数以下的分位数处的残差值均为异常残差值。其中,第一目标分位数与第二目标分位数可以对应设置,即第一目标分位数与第二目标分位数的和值可以为1,比如第一目标分位数为99.99%,第二目标分位数为0.01%。举例来说,若第一时段对应的残差序列包括由小到大设置的1000个残差值,第一目标分位数为99.99%,第二目标分位数为0.01%,则认为第一时段对应的残差序列中位于第999.9个残差值之后的残差值为异常残差值,且第一时段对应的残差序列中位于第0.1个残差值之前的残差值为异常残差值。
本发明的下列实施例以第一目标分位数为99.99%、第二目标分位数为0.01%为例描述确定残差阈值范围的具体实现过程。
具体实施中,运维服务器110可以按照残差值由小到大(或由大到小,不作限定)的顺序对监控指标在第一时段的各个时刻的残差值进行排序,得到第一时段对应的残差序列。其中,残差序列中位于分位数处的残差值是指残差序列中位于该目标分位数所在的比例处的值,比如,当残差序列包括由小到大排列的1000个残差值时,若分位数为99.9%,则残差序列的99.9%处的值为残差序列的第999个残差值,若目标分位数为99.99%,则残差序列的99.99%处的值为基于残差序列的第999个残差值和第1000个残差值按照1:99的比例进行计算得到的残差值。
进一步地,运维服务器110可以从第一时段对应的残差序列中选取出位于第一目标分位数对应的各个基准分位数处的残差值和位于第二目标分位数对应的各个基准分位数处的残差值;其中,各个基准分位数可以设置为与目标分位数临近的分位数,比如第一目标分位数为99.99%分位数,则可以设置第一目标分位数对应的各个基准分位数为90%分位数、91%分位数、92%分位数、93%分位数、94%分位数、95%分位数、96%分位数、97%分位数、98%分位数、99%分位数,如此,基于[90%分位数,91%分位数,……,99%分位数]中各个基准分位数的残差值拟合得到的第二模型的曲线段对应的自变量区间范围可以为(0.9,1];或者,第二目标分位数为0.01%分位数,则可以设置第二目标分恩位数对应的各个基准分位数为1%分位数、2%分位数、3%分位数、4%分位数、5%分位数、6%分位数、7%分位数、8%分位数、9%分位数、10%分位数,如此,基于[1%分位数,2%分位数,……,10%分位数]中各个基准分位数的拟合得到的第二模型的曲线段对应的自变量区间范围为[0,0.1)。
需要说明的是,本发明实施例也可以支持用户设置目标分位数和目标分位数对应的各个基准分位数,举例来说,用户可以在客户端的浏览器上输入预设链接,从而获取到运维服务器110提供的服务界面,如此,当用户在服务界面上输入目标分位数和目标分位数对应的各个基准分位数后,运维服务器110可以存储用户输入的目标分位数和目标分位数对应的各个基准分位数。
本发明实施例中,由于目标分位数包括第一目标分位数和第二目标分位数,第一目标分位数设置为99.99%,第二目标分位数设置为0.01%;因此,第一目标分位数对应的各个基准分位数可以包括90%分位数,91%分位数,……,99%分位数,第二目标分位数对应的各个基准分位数可以为1%分位数,2%分位数,……,10%分位数。如此,运维服务器110可以使用第一目标分位数对应的各个基准分位数的残差值拟合得到第一目标分位数对应的第二模型,并可以使用第二目标分位数对应的各个基准分位数的残差值拟合得到第二目标分位数对应的第二模型;其中,第一目标分位数对应的第二模型对应为(0.9,1]的自变量区间范围内的曲线段,第二目标分位数对应的第二模型对应为[0,0.1)的自变量区间范围内的曲线段。
下面以第一目标分位数为例描述拟合得到第一目标分位数对应的第二模型的具体实现过程;为了便于描述,以下所述的基准分位数均指第一目标分位数对应的基准分位数。
具体实施中,由于基准分位数包括90%分位数,91%分位数,……,99%分位数,因此,运维服务器110可以从第一时段对应的残差序列中获取监控指标在第一时段对应的残差序列的90%分位数处的残差值、监控指标在第一时段对应的残差序列的91%分位数处的残差值、监控指标在第一时段对应的残差序列的92%分位数处的残差值、监控指标在第一时段对应的残差序列的93%分位数处的残差值、监控指标在第一时段对应的残差序列的94%分位数处的残差值、监控指标在第一时段对应的残差序列的95%分位数处的残差值、监控指标在第一时段对应的残差序列的96%分位数处的残差值、监控指标在第一时段对应的残差序列的97%分位数处的残差值、监控指标在第一时段对应的残差序列的98%分位数处的残差值和监控指标在第一时段对应的残差序列的99%分位数处的残差值。
进一步地,针对于每个基准分位数,运维服务器110可以先确定该基准分位数在每个特征项中的值,再基于该基准分位数在多个特征项中的值构建得到该基准分位数对应的特征向量;如此,运维服务器110可以基于各个基准分位数对应的特征向量拼接得到第一特征向量,并可以基于监控指标在各个基准分位数处的残差值拼接得到第二特征向量,如此,运维服务器110可以使用第一特征向量和第二特征向量拟合得到第一目标分位数对应的第二模型。
本发明实施例中,由于基准分位数与监控指标在第一时段对应的残差序列的基准分位数处的残差值为非线性对应关系,因此可以先对基准分位数进行非线性变换,以将基准分位数转化为部分非线性的函数变换值;其中,非线性变换对应非线性特征项,比如多项式特征项、对数特征项、指数特征项、幂指数特征项。此外,为了提高函数变换的准确性,还可以对基准分位数进行线性变换,以将基准分位数转化为部分线性的函数变换值;其中,线性变换对应线性特征项或常数项特征项。
举例来说,若基准分位数以x表示,多个特征项包括多项式特征项x2、对数特征项logx、指数特征项ex、幂指数特征项e2x、线性特征项x和常数项特征项1,则90%分位数对应的特征向量可以为:
[(90%)2,log(90%),e90%,e290%,90%,1]
相应地,当基准分位数包括90%分位数,91%分位数,……,99%分位数时,各个基准分位数拼接构成的第一特征向量可以为:
Figure BDA0002253738690000161
由此可知,各个基准分位数拼接构成的第一特征向量可以为多行多列的二维向量,二维向量的第i行数据为第一目标分位数的第i个基准分位数对应的特征向量,二维向量的第i行在第j列处的值为第一目标分位数的第i个基准分位数在第j个特征项处的值。
进一步地,运维服务器110还可以拼接监控指标在第一时段对应的残差序列的90%分位数处的残差值,监控指标在第一时段对应的残差序列的91%分位数,……,监控指标在第一时段对应的残差序列的99%分位数处的残差值,得到第二特征向量,如下所示:
Figure BDA0002253738690000171
由此可知,监控指标在各个基准分位数处的残差值拼接构成的第二特征向量可以为多行一列的二维向量,二维向量的第i行数据为第i个基准分位数处的值。
综上所述,若特征项设置为6项、第一时段设置为7天,周期为1天,监控指标对应的采集时差为15min,则10个基准分位数拼接构成的第一特征向量为70行6列的二维向量,监控指标在10个基准分位数处的残差值拼接构成的第二特征向量可以为70行1列的二维向量。
本发明实施例中,当构建得到第一特征向量和第二特征向量后,可以直接将第一特征向量和第二特征向量输入神经网络模型,以通过监督式的机器学习算法拟合得到第一目标分位数对应的第二模型,或者也可以以第一特征向量和第二特征向量为训练数据,训练基于支持向量机的机器模型,以拟合得到第一目标分位数对应的第二模型,或者还可以使用第一特征向量和第二特征向量计算多项式系数,以拟合得到第一目标分位数对应的第二模型,等等,具体不作限定。
作为一个示例,本发明实施例可以基于非线性拟合与线性拟合相结合的方法拟合得到第一目标分位数对应的第二模型,比如可以设置[K1,K2,K3,……,K9]T为线性拟合系数,并通过如下公式计算得到线性拟合系数[K1,K2,K3,……,K9]T
Figure BDA0002253738690000181
如此,通过该示例拟合得到的第一目标分位数对应的第二模型可以为:
K1*x2+K2*logx+K3*ex+K4*e2x+K5*x+K6=y
其中,x为分位数,y为第一目标分位数对应的第二模型预测的分位数x处的残差值。
在一个示例中,当拟合得到第一目标分位数对应的第二模型后,可以将第一目标分位数(即99.99%分位数)作为x值代入第二模型,以得到第一目标分位数对应的初始残差阈值,如此,可以直接将第一目标分位数对应的初始残差阈值作为第一目标分位数对应的残差阈值;相应地,当拟合得到第二目标分位数对应的第二模型后,可以将第二目标分位数(即0.01%分位数)作为x值代入第二模型,以得到第二目标分位数对应的初始残差阈值,如此,可以直接将第二目标分位数对应的初始残差阈值作为第二目标分位数对应的残差阈值。如此,可以将第一目标分位数对应的残差阈值作为上限残差阈值,第二目标分位数对应的残差阈值作为下限残差阈值,从而基于上限残差阈值和下限残差阈值即可得到残差阈值范围。
在另一个示例中,当得到第一目标分位数对应的初始残差阈值后,运维服务器110还可以对监控指标在第一时段对应的残差序列的每个基准分位数处的残差值与第一目标分位数对应的初始残差阈值作差,得到每个基准分位数对应的基准差;进一步地,当得到监控指标在第二时段(晚于第一时段,且包含第一时刻)对应的残差序列后,运维服务器110还可以从该残差序列中获取监控指标在第二时段对应的残差序列的各个基准分位数处的残差值,并可以根据每个基准分位数对应的基准差和监控指标在第二时段对应的残差序列的每个基准分位数处的残差值得到每个基准分位数对应的基准残差阈值。如此,运维服务器110可以根据各个基准分位数对应的基准残差阈值确定第一目标分位数对应的残差阈值,比如可以将各个基准分位数对应的平均基准残差阈值作为第一目标分位数对应的残差阈值,或者也可以将各个基准分位数对应的基准残差阈值中的中位数作为第一目标分位数对应的残差阈值,或者还可以各个基准分位数对应的加权平均基准残差阈值作为第一目标分位数对应的残差阈值,等等,具体不作限定。相应地,当采用相同的方法求出第二目标分位数对应的残差阈值后,可以将第一目标分位数对应的残差阈值作为上限残差阈值,第二目标分位数对应的残差阈值作为下限残差阈值,从而基于上限残差阈值和下限残差阈值即可得到残差阈值范围。
在上述示例中,通过使用第一时段中各个基准分位数处的残差值与初始残差阈值的差值作为基准差,并基于基准差和第二时段中各个基准分位数处的残差值确定第一目标分位数对应的残差阈值,可以使得第一目标分位数对应的残差阈值避免第一时段的残差数据分布与第二时段的残差数据分布不同所导致的噪声影响,从而提高使用第一目标分位数对应的残差阈值对位于第一时段之后的任意时刻的残差值进行检测的准确性。
本发明的上述实施例中,获取监控指标在第一时刻的观测值后,使用第一模型预测得到所述监控指标在所述第一时刻的预测值,并基于所述监控指标在所述第一时刻的预测值和观测值,确定所述监控指标在所述第一时刻的残差值,所述第一模型为使用所述监控指标在第一时段的各个时刻的观测值训练得到的,所述第一时段的任一时刻早于所述第一时刻;进一步地,若所述监控指标在所述第一时刻的残差值不满足残差阈值范围,则确定所述监控指标在所述第一时刻处于异常状态,并根据所述监控指标在所述第一时刻的异常状态,生成所述监控指标对应的告警信息,并将所述告警信息发送给运维服务器;所述残差阈值范围基于目标分位数对应的第二模型确定,所述目标分位数用于标识所述第一时段的各个时刻的残差值中的异常残差值,所述目标分位数对应的第二模型使用所述监控指标在所述第一时段的各个时刻的异常残差值训练得到。本发明实施例中,通过使用监控指标在第一时段的各个时刻的残差值训练得到目标分位数对应的第二模型,并使用目标分位数对应的第二模型确定残差阈值范围,可以基于综合历史时段的各个时刻的残差值信息得到用于对后续时刻的观测值进行异常检测的残差阈值范围,如此,相对于采用分位数取样估计执行异常检测的方式来说,可以避免极端数据所造成的影响,提高异常检测的准确性。
针对上述方法流程,本发明实施例还提供一种数据处理装置,该装置的具体内容可以参照上述方法实施。
图3为本发明实施例提供的一种数据处理装置的结构示意图,包括:
获取模块301,用于获取监控指标在第一时刻的观测值;
预测模块302,用于使用第一模型预测得到所述监控指标在所述第一时刻的预测值;所述第一模型为使用所述监控指标在第一时段的各个时刻的观测值训练得到的,所述第一时段的任一时刻早于所述第一时刻;
确定模块303,用于基于所述监控指标在所述第一时刻的预测值和观测值,确定所述监控指标在所述第一时刻的残差值;
检测模块304,用于若所述监控指标在所述第一时刻的残差值不满足残差阈值范围,则确定所述监控指标在所述第一时刻处于异常状态;所述残差阈值范围基于目标分位数对应的第二模型确定,所述目标分位数用于标识所述第一时段的各个时刻的残差值中的异常残差值,所述目标分位数对应的第二模型使用所述监控指标在所述第一时段的各个时刻的异常残差值训练得到;
告警模块305,用于根据所述监控指标在所述第一时刻的异常状态,生成所述监控指标对应的告警信息,并将所述告警信息发送给运维服务器。
在一种可能的设计中,所述第二模型包括多个特征项,任意两个特征项用于表征基准分位数在不同函数变换中的函数值,所述基准分位数为与所述目标分位数对应设置的任一基准分位数。
在一种可能的设计中,所述装置还包括训练模块306,所述训练模块306具体用于:
使用所述第一模型预测得到所述监控指标在所述第一时段的各个时刻的预测值,并基于所述监控指标在所述第一时段的各个时刻的预测值和观测值,确定所述监控指标在所述第一时段的各个时刻的残差值;
对所述监控指标在所述第一时段的各个时刻的残差值进行排序,得到所述第一时段对应的残差序列,从所述第一时段对应的残差序列中确定出所述监控指标在所述第一时段对应的残差序列的各个基准分位数处的残差值;
使用每个基准分位数在多个特征项中的值构建所述每个基准分位数对应的特征向量,并基于所述各个基准分位数对应的特征向量和所述监控指标在所述各个基准分位数处的残差值拟合得到所述目标分位数对应的第二模型。
在一种可能的设计中,所述多个特征项包括以下任意多项:多项式特征项、对数特征项、指数特征项、幂指数特征项、线性特征项、常数特征项。
在一种可能的设计中,所述确定模块303还用于:使用所述目标分位数对应的第二模型确定初始残差阈值;
根据所述监控指标在所述第一时段对应的残差序列的每个基准分位数处的残差值与所述初始残差阈值,得到所述每个基准分位数对应的基准差;
确定所述监控指标在第二时段对应的残差序列的各个基准分位数处的残差值,并根据所述各个基准分位数对应的基准差和所述监控指标在所述第二时段对应的残差序列的各个基准分位数处的残差值得到所述各个基准分位数对应的基准残差阈值;所述第二时段位于所述第一时段之后;
根据所述各个基准分位数对应的基准残差阈值确定所述残差阈值范围。
从上述内容可以看出:本发明的上述实施例中,获取监控指标在第一时刻的观测值后,使用第一模型预测得到所述监控指标在所述第一时刻的预测值,并基于所述监控指标在所述第一时刻的预测值和观测值,确定所述监控指标在所述第一时刻的残差值,所述第一模型为使用所述监控指标在第一时段的各个时刻的观测值训练得到的,所述第一时段的任一时刻早于所述第一时刻;进一步地,若所述监控指标在所述第一时刻的残差值不满足残差阈值范围,则确定所述监控指标在所述第一时刻处于异常状态,并根据所述监控指标在所述第一时刻的异常状态,生成所述监控指标对应的告警信息,并将所述告警信息发送给运维服务器;所述残差阈值范围基于目标分位数对应的第二模型确定,所述目标分位数用于标识所述第一时段的各个时刻的残差值中的异常残差值,所述目标分位数对应的第二模型使用所述监控指标在所述第一时段的各个时刻的异常残差值训练得到。本发明实施例中,通过使用监控指标在第一时段的各个时刻的残差值训练得到目标分位数对应的第二模型,并使用目标分位数对应的第二模型确定残差阈值范围,可以基于综合历史时段的各个时刻的残差值信息得到用于对后续时刻的观测值进行异常检测的残差阈值范围,如此,相对于采用分位数取样估计执行异常检测的方式来说,可以避免极端数据所造成的影响,提高异常检测的准确性。
基于同一发明构思,本发明实施例提供了一种计算设备,如图4所示,包括至少一个处理器401,以及与至少一个处理器连接的存储器402,本发明实施例中不限定处理器401与存储器402之间的具体连接介质,图4中处理器401和存储器402之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本发明实施例中,存储器402存储有可被至少一个处理器401执行的指令,至少一个处理器401通过执行存储器402存储的指令,可以执行前述的数据处理方法中所包括的步骤。
其中,处理器401是计算设备的控制中心,可以利用各种接口和线路连接计算设备的各个部分,通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据,从而实现数据处理。可选的,处理器401可包括一个或多个处理单元,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理下发指令。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。在一些实施例中,处理器401和存储器402可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器401可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合数据处理实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行图2任意所述的数据处理方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种数据处理方法,其特征在于,所述方法包括:
获取监控指标在第一时刻的观测值;
使用第一模型预测得到所述监控指标在所述第一时刻的预测值;所述第一模型为使用所述监控指标在第一时段的各个时刻的观测值训练得到的,所述第一时段的任一时刻早于所述第一时刻;
基于所述监控指标在所述第一时刻的预测值和观测值,确定所述监控指标在所述第一时刻的残差值;
若所述监控指标在所述第一时刻的残差值不满足残差阈值范围,则确定所述监控指标在所述第一时刻处于异常状态;所述残差阈值范围基于目标分位数对应的第二模型确定,所述目标分位数用于标识所述第一时段的各个时刻的残差值中的异常残差值,所述目标分位数对应的第二模型使用所述监控指标在所述第一时段的各个时刻的异常残差值训练得到;
根据所述监控指标在所述第一时刻的异常状态,生成所述监控指标对应的告警信息,并将所述告警信息发送给运维服务器;
其中,所述目标分位数对应的第二模型通过如下方式训练得到:
使用所述第一模型预测得到所述监控指标在所述第一时段的各个时刻的预测值,并基于所述监控指标在所述第一时段的各个时刻的预测值和观测值,确定所述监控指标在所述第一时段的各个时刻的残差值;
对所述监控指标在所述第一时段的各个时刻的残差值进行排序,得到所述第一时段对应的残差序列,确定所述监控指标在所述目标分位数对应的各个基准分位数处的残差值,并基于所述目标分位数对应的各个基准分位数处的残差值拟合得到所述目标分位数对应的第二模型;
其中,所述目标分位数包括第一目标分位数和第二目标分位数,所述第一目标分位数用于标识异常残差值上限,所述第二目标分位数用于标识异常残差值下限,所述残差阈值范围基于目标分位数对应的第二模型确定,包括:
将所述第一目标分位数代入所述第二模型,得到所述第一目标分位数对应的初始残差阈值,并根据所述第一目标分位数对应的初始残差阈值确定上限残差阈值;
将所述第二目标分位数代入所述第二模型,得到所述第二目标分位数对应的初始残差阈值,并根据所述第二目标分位数对应的初始残差阈值确定下限残差阈值;
将所述上限残差阈值和所述下限残差阈值之间的范围作为所述残差阈值范围。
2.根据权利要求1所述的方法,其特征在于,所述第二模型包括多个特征项,任意两个特征项用于表征基准分位数在不同函数变换中的函数值,所述基准分位数为与所述目标分位数对应设置的任一基准分位数。
3.根据权利要求2所述的方法,其特征在于,所述确定所述监控指标在目标分位数对应的各个基准分位数处的残差值,并基于目标分位数对应的各个基准分位数处的残差值拟合得到目标分位数对应的第二模型,包括:
从所述第一时段对应的残差序列中确定出所述监控指标在所述第一时段对应的残差序列的各个基准分位数处的残差值;
使用每个基准分位数在多个特征项中的值构建所述每个基准分位数对应的特征向量,并基于所述各个基准分位数对应的特征向量和所述监控指标在所述各个基准分位数处的残差值拟合得到所述目标分位数对应的第二模型。
4.根据权利要求2所述的方法,其特征在于,所述多个特征项包括以下任意多项:
多项式特征项、对数特征项、指数特征项、幂指数特征项、线性特征项、常数特征项。
5.根据权利要求1至4中任一项所述的方法,其特征在于,针对于所述第一目标分位数或所述第二目标分位数中的任一目标分位数:
根据所述目标分位数对应的初始残差阈值确定所述目标分位数对应的上限或下限残差阈值,包括:
根据所述监控指标在所述第一时段对应的残差序列的每个基准分位数处的残差值与所述目标分位数对应的初始残差阈值,得到所述每个基准分位数对应的基准差;
确定所述监控指标在第二时段对应的残差序列的各个基准分位数处的残差值,并根据所述各个基准分位数对应的基准差和所述监控指标在所述第二时段对应的残差序列的各个基准分位数处的残差值得到所述各个基准分位数对应的基准残差阈值;所述第二时段位于所述第一时段之后;
根据所述各个基准分位数对应的基准残差阈值确定所述目标分位数对应的上限或下限残差阈值范围。
6.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取监控指标在第一时刻的观测值;
预测模块,用于使用第一模型预测得到所述监控指标在所述第一时刻的预测值;所述第一模型为使用所述监控指标在第一时段的各个时刻的观测值训练得到的,所述第一时段的任一时刻早于所述第一时刻;
确定模块,用于基于所述监控指标在所述第一时刻的预测值和观测值,确定所述监控指标在所述第一时刻的残差值;
检测模块,用于若所述监控指标在所述第一时刻的残差值不满足残差阈值范围,则确定所述监控指标在所述第一时刻处于异常状态;所述残差阈值范围基于目标分位数对应的第二模型确定,所述目标分位数用于标识所述第一时段的各个时刻的残差值中的异常残差值,所述目标分位数对应的第二模型使用所述监控指标在所述第一时段的各个时刻的异常残差值训练得到;
告警模块,用于根据所述监控指标在所述第一时刻的异常状态,生成所述监控指标对应的告警信息,并将所述告警信息发送给运维服务器;
其中,所述装置还包括训练模块,所述训练模块用于:
使用所述第一模型预测得到所述监控指标在所述第一时段的各个时刻的预测值,并基于所述监控指标在所述第一时段的各个时刻的预测值和观测值,确定所述监控指标在所述第一时段的各个时刻的残差值;
对所述监控指标在所述第一时段的各个时刻的残差值进行排序,得到所述第一时段对应的残差序列,确定所述监控指标在所述目标分位数对应的各个基准分位数处的残差值,并基于所述目标分位数对应的各个基准分位数处的残差值拟合得到所述目标分位数对应的第二模型;
其中,所述目标分位数包括第一目标分位数和第二目标分位数,所述第一目标分位数用于标识异常残差值上限,所述第二目标分位数用于标识异常残差值下限,所述确定模块还用于:
将所述第一目标分位数代入所述第二模型,得到所述第一目标分位数对应的初始残差阈值,并根据所述第一目标分位数对应的初始残差阈值确定上限残差阈值;
将所述第二目标分位数代入所述第二模型,得到所述第二目标分位数对应的初始残差阈值,并根据所述第二目标分位数对应的初始残差阈值确定下限残差阈值;
将所述上限残差阈值和所述下限残差阈值之间的范围作为所述残差阈值范围。
7.根据权利要求6所述的装置,其特征在于,所述第二模型包括多个特征项,任意两个特征项用于表征基准分位数在不同函数变换中的函数值,所述基准分位数为与所述目标分位数对应设置的任一基准分位数。
8.根据权利要求7所述的装置,其特征在于,所述训练模块具体用于:
从所述第一时段对应的残差序列中确定出所述监控指标在所述第一时段对应的残差序列的各个基准分位数处的残差值;
使用每个基准分位数在多个特征项中的值构建所述每个基准分位数对应的特征向量,并基于所述各个基准分位数对应的特征向量和所述监控指标在所述各个基准分位数处的残差值拟合得到所述目标分位数对应的第二模型。
9.根据权利要求7所述的装置,其特征在于,所述多个特征项包括以下任意多项:
多项式特征项、对数特征项、指数特征项、幂指数特征项、线性特征项、常数特征项。
10.根据权利要求6至9中任一项所述的装置,其特征在于,针对于所述第一目标分位数或所述第二目标分位数中的任一目标分位数,所述确定模块具体用于:
根据所述监控指标在所述第一时段对应的残差序列的每个基准分位数处的残差值与所述目标分位数对应的初始残差阈值,得到所述每个基准分位数对应的基准差;
确定所述监控指标在第二时段对应的残差序列的各个基准分位数处的残差值,并根据所述各个基准分位数对应的基准差和所述监控指标在所述第二时段对应的残差序列的各个基准分位数处的残差值得到所述各个基准分位数对应的基准残差阈值;所述第二时段位于所述第一时段之后;
根据所述各个基准分位数对应的基准残差阈值确定所述目标分位数对应的上限或下限残差阈值范围。
11.一种计算设备,其特征在于,包括至少一个处理单元以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1~5任一权利要求所述的方法。
12.一种计算机可读存储介质,其特征在于,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行权利要求1~5任一权利要求所述的方法。
CN201911044396.9A 2019-10-30 2019-10-30 一种数据处理方法及装置 Active CN110795324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911044396.9A CN110795324B (zh) 2019-10-30 2019-10-30 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911044396.9A CN110795324B (zh) 2019-10-30 2019-10-30 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN110795324A CN110795324A (zh) 2020-02-14
CN110795324B true CN110795324B (zh) 2023-06-20

Family

ID=69442247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911044396.9A Active CN110795324B (zh) 2019-10-30 2019-10-30 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN110795324B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148768A (zh) * 2020-09-14 2020-12-29 北京基调网络股份有限公司 一种指标时间序列异常检测方法、系统及存储介质
CN115168159A (zh) * 2022-09-06 2022-10-11 北京达佳互联信息技术有限公司 异常检测方法、装置、电子设备及存储介质
CN116992390B (zh) * 2023-09-26 2023-12-05 北京联创高科信息技术有限公司 一种异常数据的配置及展示方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126391A (zh) * 2016-06-28 2016-11-16 北京百度网讯科技有限公司 系统监控方法和装置
CN106844138A (zh) * 2016-12-14 2017-06-13 北京奇艺世纪科技有限公司 运维报警系统及方法
CN107610021A (zh) * 2017-07-21 2018-01-19 华中农业大学 环境变量时空分布的综合分析方法
CN110008079A (zh) * 2018-12-25 2019-07-12 阿里巴巴集团控股有限公司 监控指标异常检测方法、模型训练方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496927B2 (en) * 2014-05-23 2019-12-03 DataRobot, Inc. Systems for time-series predictive data analytics, and related methods and apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126391A (zh) * 2016-06-28 2016-11-16 北京百度网讯科技有限公司 系统监控方法和装置
CN106844138A (zh) * 2016-12-14 2017-06-13 北京奇艺世纪科技有限公司 运维报警系统及方法
CN107610021A (zh) * 2017-07-21 2018-01-19 华中农业大学 环境变量时空分布的综合分析方法
CN110008079A (zh) * 2018-12-25 2019-07-12 阿里巴巴集团控股有限公司 监控指标异常检测方法、模型训练方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于预测和动态阈值的流量异常检测机制研究;尹波;夏靖波;倪娟;余辉;;电视技术(第01期);第111-114页 *

Also Published As

Publication number Publication date
CN110795324A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN107086944B (zh) 一种异常检测方法和装置
CN111459778B (zh) 运维系统异常指标检测模型优化方法、装置及存储介质
CN110795324B (zh) 一种数据处理方法及装置
CN112712113B (zh) 一种基于指标的告警方法、装置及计算机系统
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
CN110569166A (zh) 异常检测方法、装置、电子设备及介质
CN111221706B (zh) 一种cpu使用率预测方法、系统、介质及设备
CN110686633A (zh) 一种滑坡位移预测方法、装置及电子设备
JP2009086896A (ja) コンピュータの障害予測システムおよび障害予測方法
CN116882804A (zh) 一种智能电力监控方法及系统
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
CN110413482B (zh) 检测方法和装置
CN115701890B (zh) 调整告警规则的方法及相关设备
CN111783883A (zh) 一种异常数据的检测方法及装置
CN113835947A (zh) 一种基于异常识别结果确定异常原因的方法和系统
CN116703222A (zh) 物料检测的方法、装置、电子设备和计算机可读介质
CN116384680A (zh) 研发质量的可视化监测方法、装置、设备及可读存储介质
CN110910061A (zh) 一种物料管理方法、系统、存储介质以及电子设备
CN115168159A (zh) 异常检测方法、装置、电子设备及存储介质
US11762562B2 (en) Performance analysis apparatus and performance analysis method
JP2019113970A (ja) プロセスの状態診断方法及び状態診断装置
CN114416467A (zh) 一种异常检测方法及装置
CN111651503A (zh) 一种配电网数据异常识别方法、系统及终端设备
CN111176931A (zh) 一种运营监控方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant