CN110377491A - 一种数据异常检测方法及装置 - Google Patents
一种数据异常检测方法及装置 Download PDFInfo
- Publication number
- CN110377491A CN110377491A CN201910621037.9A CN201910621037A CN110377491A CN 110377491 A CN110377491 A CN 110377491A CN 201910621037 A CN201910621037 A CN 201910621037A CN 110377491 A CN110377491 A CN 110377491A
- Authority
- CN
- China
- Prior art keywords
- measured value
- actual measured
- time section
- detection time
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3495—Performance evaluation by tracing or monitoring for systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例涉及数据处理技术领域,尤其涉及一种数据异常检测方法及装置,用以解决告警阈值准确性较低,且需要经常调整的问题。本发明实施例包括:将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;获取所述检测时间段内的实际测量值;根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据异常检测方法及装置。
背景技术
传统的系统运维监控平台,主要是根据需求或者经验来配置相关的告警策略。运维/开发人员梳理出监控对象的监控指标,对其制定相关的告警策略条件,主要为设置告警阈值,并把对应的监控告警策略配置在监控平台中。检测异常的方式为运维监控平台针对监控指标进行数据采集,利用告警阈值对采集到的数据进行监控,一旦数据波动超过告警阈值则判断出现异常,进行异常告警。
现有技术中的告警阈值为运维/开发人员按照历史的经验进行配置,准确性较低。有时系统数据出现异常波动,但由于未超过告警阈值,因此无法感知检测出。有时系统数据会出现正常的波动情况,但由于超过了告警阈值,因此仍会执行告警。此外,随着硬件的升级、业务的增长,告警阈值还需经常调整,浪费人力的同时,效率较低。
发明内容
本申请提供一种数据异常检测方法及装置,用以解决告警阈值准确性较低,且需要经常调整的问题。
本发明实施例提供的一种数据异常检测方法,包括:
将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;
获取所述检测时间段内的实际测量值;
根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;
当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。
一种可选的实施例中,所述机器学习模型为线性回归模型;
所述将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段内的预测平均值,包括:
将所述历史样本数据输入线性回归模型中,通过最小二乘法计算出所述历史时间段的线性回归方程;
根据所述线性回归方程预测所述检测时间段内的预测平均值。
一种可选的实施例中,所述显著性检验模型为T检验模型;
所述根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测,包括:
将所述实际测量值输入T检验模型中,计算所述实际测量值的实际平均值以及标准差;
根据所述预测平均值、所述实际平均值以及标准差确定所述检测时间段的T统计量;
根据所述实际测量值的数量确定置信区间,利用所述置信区间检测所述检测时间段的T统计量;
当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常,包括:
当确定所述检测时间段的T统计量在所述置信区间内,则确定所述检测时间段内的实际测量值出现异常。
一种可选的实施例中,所述T统计量利用以下公式进行计算:
其中,t为T统计量;为所述检测时间段内的实际测量值的平均值;μ0为所述预测平均值;S为实际测量值的标准差;n为实际测量值的数量。
一种可选的实施例中,所述将历史时间段内的历史样本数据输入机器学习模型中之前,还包括:
确定所述历史样本数据中的异常样本数据;
将所述异常样本数据从所述历史样本数据中剔除。
一种数据异常检测装置,包括:
预测单元,用于将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;
获取单元,用于获取所述检测时间段内的实际测量值;
检验单元,用于根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;
判断单元,用于当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。
一种可选的实施例中,所述机器学习模型为线性回归模型;
所述预测单元,具体用于:
将所述历史样本数据输入线性回归模型中,通过最小二乘法计算出所述历史时间段的线性回归方程;
根据所述线性回归方程预测所述检测时间段内的预测平均值。
一种可选的实施例中,所述显著性检验模型为T检验模型;
所述检验单元,具体用于:
将所述实际测量值输入T检验模型中,计算所述实际测量值的实际平均值以及标准差;
根据所述预测平均值、所述实际平均值以及标准差确定所述检测时间段的T统计量;
根据所述实际测量值的数量确定置信区间,利用所述置信区间检测所述检测时间段的T统计量;
所述判断单元,具体用于:
当确定所述检测时间段的T统计量在所述置信区间内,则确定所述检测时间段内的实际测量值出现异常。
一种可选的实施例中,所述检验单元,具体用于利用以下公式计算所述T统计量:
其中,t为T统计量;为所述检测时间段内的实际测量值的平均值;μ0为所述预测平均值;S为实际测量值的标准差;n为实际测量值的数量。
一种可选的实施例中,所述获取单元,还用于:
确定所述历史样本数据中的异常样本数据;
将所述异常样本数据从所述历史样本数据中剔除。
本发明实施例还提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上所述的方法。
本发明实施例中,针对被监控的系统,系统指标的检测数据为时间序列数据,且呈正态分布,获取历史时间段内系统指标的时间序列,作为历史样本数据。将历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值。获取检测时间段内对系统进行测量得到的实际测量值,将预测平均值以及实际测量值输入显著性检验模型中,计算实际测量值的平均数,并将预测平均值与实际测量值的平均数相对比,从而对实际测量值进行检验。若实际测量值的平均数与预测平均值之间的差异呈现显著性水平,也就是与预测平均值相比,检测时间段内的实际测量值差异发生的概率较大,可以认为检测时间段内的实际测量值出现异常,需要进行告警。相反的,若实际测量值的平均数与预测平均值之间的差异未呈现显著性水平,则认为检测时间段内的实际测量值未出现异常。本发明实施例中,基于机器学习和T检验对系统进行异常检验,由于以历史时间段内的样本数据为依据,对检测时间段的实际测量值进行检验,可以准确捕获系统数据的异常变化,无需设定告警阈值,准确度较高,且节省了人力成本,提高了监控效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据异常检测方法的流程示意图;
图2为本发明实施例提供的系统CPU使用量的统计示意图;
图3为本发明实施例提供的系统CPU使用量的概率分布示意图;
图4为本发明实施例提供的一种数据异常检测装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了便于理解,下面对本发明实施例中可能涉及的名词进行定义和解释。
用户:本发明实施例中的用户包括业务系统开发人员、业务运维人员及所有使用监控平台进行数据检测的相关人员。
线性回归:是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,其表达形式为y=w'x+e,e为误差服从均值为0的正态分布。
显著性检验:事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。或者说,显著性检验要判断样本与对总体所做的假设之间的差异是纯属机会变异,还是由所做的假设与总体真实情况之间不一致所引起的。显著性检验是针对所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设。
原假设:亦称待验假设、虚无假设、解消假设,一般记为Ho。假设检验的基本思想是概率性质的反证法。根据所考察问题的要求提出原假设和备择假设,为了检验原假设是否正确,先假定原假设是正确的情况下,构造一个小概率事件,然后根据抽取的样本去检验这个小概率事件是否发生。如果在一次试验中小概率事件竟然发生了,就怀疑原假设的正确性,从而拒绝原假设如果在一次试验中小概率事件没有发生,则没有理由怀疑原假设的正确性,因此接受原假设。
备择假设:是统计学的基本概念之一,其包含关于总体分布的一切使原假设不成立的命题。备择假设亦称对立假设、备选假设。
T检验:亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30)、总体标准差σ未知的正态分布。T检验是用T分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
时间序列:是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。经济数据中大多数以时间序列的形式给出。根据观察时间的不同,时间序列中的时间可以是年份、季度、月份或其他任何时间形式。
为了监控系统数据,并提高异常检测的准确性,本发明实施例提供了一种数据异常检测方法,如图1所示,本发明实施例提供的数据异常检测方法包括以下步骤:
步骤101、将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值。
其中,历史样本数据为时间序列数据,且任意两个历史样本数据之间独立分布,所有历史样本数据的排列符合正态分布。例如,历史样本数据可以为系统CPU(中央处理器,Central Processing Unit)使用量、内存使用量、网络流量、交易TPS(每秒事务处理量,Transaction Per,Second)等数据。
历史时间段为检测时间段之前的时间段,且为了增加检测的准确性,历史时间段为与检测时间段相邻的时间段,例如,历史时间段为2019年6月3日上午9点至10点,检测时间段为2019年6月3日上午10点至2019年6月3日上午10点10分。具体实施过程中,历史时间段和检测时间段的时间长度可以根据需要和精确度进行选择,其中,历史时间段的时长越长,检测时间段的时长越短,则检测准确度越高,但所需计算量越大;历史时间段的时长越段短,检测时间段的时长越长,则检测所需计算量越小,但准确性较低。
步骤102、获取所述检测时间段内的实际测量值。
实际测量值与历史样本数据对应于同一个系统检测指标,即如果历史样本数据为交易TPS,则实际测量值也为交易TPS。与历史样本数据类似,实际测量值也为时间序列数据,且任意两个历史样本数据之间独立分布,所有实际测量值的排列符合正态分布。
步骤103、根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测。
具体实施过程中,可以将实际测量值输入显著性检验模型中,计算实际测量值的平均值以及标准差,再利用平均值和标准差进行后续计算。
步骤104、当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。
若确定实际测量值出现异常,可以通过邮件、公司内部流程单据等方式通知到对应人员进行系统健康检查。另一方面,若实际测量值的平均数与预测平均值之间的差异未呈现显著性水平,则确定检测时间段内的实际测量值正常,可以针对当前检测时间段之后的检测时间段继续进行系统监控,这种情况下,当前检测时间段则作为历史时间段。
本发明实施例中,针对被监控的系统,系统指标的检测数据为时间序列数据,且呈正态分布,获取历史时间段内系统指标的时间序列,作为历史样本数据。将历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值。获取检测时间段内对系统进行测量得到的实际测量值,将预测平均值以及实际测量值输入显著性检验模型中,计算实际测量值的平均数,并将预测平均值与实际测量值的平均数相对比,从而对实际测量值进行检验。若实际测量值的平均数与预测平均值之间的差异呈现显著性水平,也就是与预测平均值相比,检测时间段内的实际测量值差异发生的概率较大,可以认为检测时间段内的实际测量值出现异常,需要进行告警。相反的,若实际测量值的平均数与预测平均值之间的差异未呈现显著性水平,则认为检测时间段内的实际测量值未出现异常。本发明实施例中,基于机器学习和T检验对系统进行异常检验,由于以历史时间段内的样本数据为依据,对检测时间段的实际测量值进行检验,可以准确捕获系统数据的异常变化,无需设定告警阈值,准确度较高,且节省了人力成本,提高了监控效率。
由于系统的历史样本数据与时间相关,组成时间序列数据,因此,可以根据历史样本数据对历史时间段之后的时间段内的检测结果进行预测,并将预测的结果与实际检测的结果进行对比,从而判断实际检测过程中是否出现异常。本发明实施例中的机器学习模型可以为时间序列预测等模型,较佳地,机器学习模型为线性回归模型。
所述将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段内的预测平均值,包括:
将所述历史样本数据输入线性回归模型中,通过最小二乘法计算出所述历史时间段的线性回归方程;
根据所述线性回归方程预测所述检测时间段内的预测平均值。
具体的,检测获取的系统数据可以如图2所示,以系统CPU使用量为例,图2示出了10分钟内的系统CPU使用量。对系统CPU使用量的概率分布进行计算后,可以得到图3的概率分布图。如图2和图3所示,系统CPU使用量为时序数据,且符合均值为μ,标准差为σ的正态分布。
因此,对于系统CPU使用量的检测,可以将历史时间段(例如10分钟)内的系统CPU使用量输入线性回归模型中,通过最小二乘法计算出线性回归方程系数,从而得到线性回归方程y=βx+ε。再基于线性回归方程预测检测时间段(例如1分钟)内系统CPU使用量的预测平均值。
进一步地,显著性检验模型为T检验模型。所述将所述预测平均值与所述实际测量值输入显著性检验模型中,对所述实际测量值进行检测,包括:
将所述实际测量值输入T检验模型中,计算所述实际测量值的实际平均值以及标准差;
根据所述预测平均值、所述实际平均值以及标准差确定所述检测时间段的T统计量;
根据所述实际测量值的数量确定置信区间,利用所述置信区间检测所述检测时间段的T统计量;
当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常,包括:
当确定所述检测时间段的T统计量在所述置信区间内,则确定所述检测时间段内的实际测量值出现异常。
一般来说,T检验模型主要用于样本含量较小,总体标准差σ未知的正态分布。本发明具体实施过程中,利用T统计量以及假设检验的统计学方式判断当前数据差异的显著性水平,来推断数据是否发生异常。
具体地,首先建立原假设和备择假设,分别为:
H0:μ≠μ0(原假设)
H1:μ=μ0(备择假设)
其中,μ为实际测量值的平均数,μ0为预测平均值,即根据历史样本数据预测出的平均值。原假设构造了一个小概率事件,在本发明实施例中为实际测量值的平均数与预测平均值之间的差异呈现显著性水平,然后根据实际测量值去检验这个小概率事件是否发生。如果在一次试验中小概率事件竟然发生了,则认为原假设的不正确,从而拒绝原假设。如果在一次试验中小概率事件没有发生,则接受原假设。
具体实施过程中,将实际测量值输入T检验模型中,计算出实际测量值的实际平均值以及标准差,再根据预测平均值和实际平均值计算出检测时间段的T统计量,用来衡量实际测量值的平均数与预测平均值之间的差异。
之后,根据实际测量值的样本容量,确定实际测量值的自由度。由于T检验中的T分布曲线是一簇曲线,故T分布曲线下同一个显著性水平对应的界值不是一个常量,而是随着自由度的大小而变化。为了便于应用,编制了如表1所示的T界值表供查找。
表1
其中,T界值表与T分布曲线相对应。将显著性水平设置为α=0.05,即认为发生概率为5%的事件为小概率事件,从表1中可以根据自由度查找对应的界值,从而确定置信区间,例如,当自由度为4,显著性水平为0.05时,界值为2.776,从而确定置信区间为-2.776至2.776。将置信区间与检测时间段的T统计量相对比,确定原假设是否成立,即实际测量值的平均数与预测平均值之间的差异是否呈现显著性水平。当T统计量位于置信区间内,则表明T统计量对应的事件发生概率大于5%,即T检验的p值达到显著性水平,也就是原假设成立,实际测量值的平均数与预测平均值之间的差异呈现显著性水平,从而确定实际测量值出现异常。相反的,当T统计量位于置信区间之外,则表明T统计量对应的事件发生概率小于5%,即T检验的p值达到未显著性水平,也就是原假设为小概率事件,原假设不成立,实际测量值的平均数与预测平均值之间的差异未呈现显著性水平,从而确定实际测量值未出现异常。
下面以检验系统CPU用量为例详细介绍。获取系统CPU的每秒使用量,将历史时间段设为10分钟,检测时间段为半分钟,从而可以得到600个历史样本数据以及30个实际测量值。将600个历史样本数据输入线性回归模型中,计算出预测平均值μ0。
建立原假设和备择假设,分别为:
H0:μ≠μ0(原假设)
H1:μ=μ0(备择假设)
其中,μ为实际测量值的平均数,μ0为预测平均值。
将30个实际测量值以及预测平均值μ0输入T检验模型中,计算T统计量。其中,T统计量利用以下公式进行计算:
其中,t为T统计量;为所述检测时间段内的实际测量值的平均值;μ0为所述预测平均值;S为实际测量值的标准差;n为实际测量值的数量。波浪号之后为解释说明,表明方程符合自由度为n-1的T分布。
根据公式1计算出检测时间段对应的T统计量,记为t1。由于自由度为n-1等于29,又显著性水平为0.05,从而通过查表得出界值为2.045,从而置信区间为[-2.045,2.045]。将t1与置信区间相对比,若-2.045<t1<2.045,即t1位于置信区间内,则T统计量对应的事件发生概率大于5%,可以认为原假设成立,实际测量值的平均数与预测平均值之间的差异达到显著性水平,代表了这半分钟内的实际测量值与预测平均值之间有偏差,且偏差出现的概率较大,从而说明这半分钟内系统CPU的每秒使用量出现异常。反之,若t1<-2.045或t1>2.045,则说明未出现异常。
进一步地,由于出现异常的数据不能作为预测的依据,因此,所述将历史时间段内的历史样本数据输入机器学习模型中之前,还包括:
确定所述历史样本数据中的异常样本数据;
将所述异常样本数据从所述历史样本数据中剔除。
具体实施过程中,可以实时地设置检测时间段,并对检测时间段内的实际测量值进行异常检测。当确定当前检测时间段内无异常时,可以将当前检测时间段加入下一检测时间段的历史时间段,作为计算预测平均值的依据。举例来说,第一个历史时间段为2019年6月3日上午10点至10点10分,第一个检测时间段为2019年6月3日上午10点10分至10点11分。当确定第一个检测时间段内无异常后,检测2019年6月3日上午10点11分至10点12分的数据,则将第一个检测时间段10点10分至10点11分作为历史时间段的一部分,即相对于第二个检测时间段2019年6月3日上午10点11分至10点12分,第二个历史时间段为2019年6月3日上午10点1分至10点11分。若检测时间段出现异常,则该检测时间段内的异常样本数据不能作为下一检测时间段的预测依据,需要将其剔除。
为了更清楚地理解本发明,以具体实施例对上述流程进行详细描述,具体实施例的步骤如下所示,包括:
步骤S401:定时采集系统监控数据,例如CPU、内存、交易TPS等信息数据,并按照时序顺序存储在数据库中。
步骤S402:针对当前的1分钟,将当前1分钟之前的10分钟内的TPS作为历史样本数据,输入线性回归模型中,通过最小二乘法计算出10分钟的监控数据对应的线性回归方程。
步骤S403:根据线性回归方程,预测当前1分钟内TPS的预测平均值μ0。
步骤S404:获取当前1分钟的TPS的实际测量值,记为x1、x2……x60。
步骤S405:将TPS的实际测量输入T检验模型中,计算实际测量值的实际平均值以及标准差S。
步骤S406:根据预测平均值、实际平均值以及标准差确定当前1分钟的T统计量。
步骤S407:确定显著性水平为0.05,根据当前1分钟内TPS的自由度,确定置信区间。
步骤S408:将当前1分钟的T统计量与置信区间相对照,若T统计量在置信区间内,则认为当前1分钟的TPS出现异常。
步骤S409:通过邮件向相关运维人员发出告警通知。
本发明实施例还提供了一种数据异常检测装置,如图4所示,包括:
预测单元41,用于将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;
获取单元42,用于获取所述检测时间段内的实际测量值;
检验单元43,用于根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;
判断单元44,用于当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。
可选的,所述机器学习模型为线性回归模型;
所述预测单元41,具体用于:
将所述历史样本数据输入线性回归模型中,通过最小二乘法计算出所述历史时间段的线性回归方程;
根据所述线性回归方程预测所述检测时间段内的预测平均值。
可选的,所述显著性检验模型为T检验模型;
所述检验单元43,具体用于:
将所述实际测量值输入T检验模型中,计算所述实际测量值的实际平均值以及标准差;
根据所述预测平均值、所述实际平均值以及标准差确定所述检测时间段的T统计量;
根据所述实际测量值的数量确定置信区间,利用所述置信区间检测所述检测时间段的T统计量;
所述判断单元44,具体用于:
当确定所述检测时间段的T统计量在所述置信区间内,则确定所述检测时间段内的实际测量值出现异常。
可选的,所述检验单元43,具体用于利用以下公式计算所述T统计量:
其中,t为T统计量;为所述检测时间段内的实际测量值的平均值;μ0为所述预测平均值;S为实际测量值的标准差;n为实际测量值的数量。
可选的,所述获取单元42,还用于:
确定所述历史样本数据中的异常样本数据;
将所述异常样本数据从所述历史样本数据中剔除。
基于相同的原理,本发明还提供一种电子设备,如图5所示,包括:
包括处理器501、存储器502、收发机503、总线接口504,其中处理器501、存储器502与收发机503之间通过总线接口504连接;
所述处理器501,用于读取所述存储器502中的程序,执行下列方法:
将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;
获取所述检测时间段内的实际测量值;
根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;
当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (12)
1.一种数据异常检测方法,其特征在于,包括:
将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;
获取所述检测时间段内的实际测量值;
根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;
当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。
2.如权利要求1所述的方法,其特征在于,所述机器学习模型为线性回归模型;
所述将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段内的预测平均值,包括:
将所述历史样本数据输入线性回归模型中,通过最小二乘法计算出所述历史时间段的线性回归方程;
根据所述线性回归方程预测所述检测时间段内的预测平均值。
3.如权利要求1所述的方法,其特征在于,所述显著性检验模型为T检验模型;
所述根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测,包括:
将所述实际测量值输入T检验模型中,计算所述实际测量值的实际平均值以及标准差;
根据所述预测平均值、所述实际平均值以及标准差确定所述检测时间段的T统计量;
根据所述实际测量值的数量确定置信区间,利用所述置信区间检测所述检测时间段的T统计量;
当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常,包括:
当确定所述检测时间段的T统计量在所述置信区间内,则确定所述检测时间段内的实际测量值出现异常。
4.如权利要求3所述的方法,其特征在于,所述T统计量利用以下公式进行计算:
其中,t为T统计量;为所述检测时间段内的实际测量值的平均值;μ0为所述预测平均值;S为实际测量值的标准差;n为实际测量值的数量。
5.如权利要求1所述的方法,其特征在于,所述将历史时间段内的历史样本数据输入机器学习模型中之前,还包括:
确定所述历史样本数据中的异常样本数据;
将所述异常样本数据从所述历史样本数据中剔除。
6.一种数据异常检测装置,其特征在于,包括:
预测单元,用于将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;
获取单元,用于获取所述检测时间段内的实际测量值;
检验单元,用于根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;
判断单元,用于当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。
7.如权利要求6所述的装置,其特征在于,所述机器学习模型为线性回归模型;
所述预测单元,具体用于:
将所述历史样本数据输入线性回归模型中,通过最小二乘法计算出所述历史时间段的线性回归方程;
根据所述线性回归方程预测所述检测时间段内的预测平均值。
8.如权利要求6所述的装置,其特征在于,所述显著性检验模型为T检验模型;
所述检验单元,具体用于:
将所述实际测量值输入T检验模型中,计算所述实际测量值的实际平均值以及标准差;
根据所述预测平均值、所述实际平均值以及标准差确定所述检测时间段的T统计量;
根据所述实际测量值的数量确定置信区间,利用所述置信区间检测所述检测时间段的T统计量;
所述判断单元,具体用于:
当确定所述检测时间段的T统计量在所述置信区间内,则确定所述检测时间段内的实际测量值出现异常。
9.如权利要求8所述的装置,其特征在于,所述检验单元,具体用于利用以下公式计算所述T统计量:
其中,t为T统计量;为所述检测时间段内的实际测量值的平均值;μ0为所述预测平均值;S为实际测量值的标准差;n为实际测量值的数量。
10.如权利要求6所述的装置,其特征在于,所述获取单元,还用于:
确定所述历史样本数据中的异常样本数据;
将所述异常样本数据从所述历史样本数据中剔除。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5任一所述的方法。
12.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1~5任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621037.9A CN110377491A (zh) | 2019-07-10 | 2019-07-10 | 一种数据异常检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621037.9A CN110377491A (zh) | 2019-07-10 | 2019-07-10 | 一种数据异常检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110377491A true CN110377491A (zh) | 2019-10-25 |
Family
ID=68252640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910621037.9A Pending CN110377491A (zh) | 2019-07-10 | 2019-07-10 | 一种数据异常检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377491A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400141A (zh) * | 2020-03-19 | 2020-07-10 | 深圳前海微众银行股份有限公司 | 一种异常检测的方法及装置 |
CN111637924A (zh) * | 2020-05-27 | 2020-09-08 | 上海华兴数字科技有限公司 | 一种挖掘机异常的检测方法、检测装置及可读存储介质 |
CN111652450A (zh) * | 2020-08-05 | 2020-09-11 | 浙江力嘉电子科技有限公司 | 排污行为的异常检测系统及方法、电子设备、存储介质 |
CN111880986A (zh) * | 2020-07-03 | 2020-11-03 | 亚信科技(成都)有限公司 | 一种数据检测方法及装置 |
CN112102087A (zh) * | 2020-09-21 | 2020-12-18 | 中国工商银行股份有限公司 | 一种交易异常检测方法及装置 |
CN112597144A (zh) * | 2020-12-29 | 2021-04-02 | 农业农村部环境保护科研监测所 | 一种产地环境监测数据的自动化清洗方法 |
CN112768061A (zh) * | 2021-01-26 | 2021-05-07 | 武汉大学 | 提高医疗等级型数据矫正效率的方法、系统及存储介质 |
CN112948770A (zh) * | 2021-03-16 | 2021-06-11 | 哈尔滨工业大学(深圳) | 信号平稳性检验方法、装置、终端设备和系统 |
CN112989332A (zh) * | 2021-04-08 | 2021-06-18 | 北京安天网络安全技术有限公司 | 一种异常用户行为检测方法和装置 |
CN112995195A (zh) * | 2021-03-17 | 2021-06-18 | 北京安天网络安全技术有限公司 | 一种异常行为预测方法和装置 |
CN113556241A (zh) * | 2020-04-24 | 2021-10-26 | 北京淇瑀信息科技有限公司 | 一种上游流量的监测方法、装置和电子设备 |
CN113556240A (zh) * | 2020-04-24 | 2021-10-26 | 北京淇瑀信息科技有限公司 | 一种上游流量的监测方法、装置和电子设备 |
CN113890746A (zh) * | 2021-08-16 | 2022-01-04 | 曙光信息产业(北京)有限公司 | 攻击流量识别方法、装置、设备以及存储介质 |
CN114002574A (zh) * | 2021-10-29 | 2022-02-01 | 上海华力微电子有限公司 | 半导体结构的测试方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160350198A1 (en) * | 2015-05-26 | 2016-12-01 | Microsoft Technology Licensing, Llc | Detection of abnormal resource usage in a data center |
CN108334417A (zh) * | 2018-01-26 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 确定数据异常的方法和装置 |
CN109766244A (zh) * | 2019-01-04 | 2019-05-17 | 中国银行股份有限公司 | 一种分布式系统cpu异常检测方法、装置和存储介质 |
-
2019
- 2019-07-10 CN CN201910621037.9A patent/CN110377491A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160350198A1 (en) * | 2015-05-26 | 2016-12-01 | Microsoft Technology Licensing, Llc | Detection of abnormal resource usage in a data center |
CN108334417A (zh) * | 2018-01-26 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 确定数据异常的方法和装置 |
CN109766244A (zh) * | 2019-01-04 | 2019-05-17 | 中国银行股份有限公司 | 一种分布式系统cpu异常检测方法、装置和存储介质 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400141A (zh) * | 2020-03-19 | 2020-07-10 | 深圳前海微众银行股份有限公司 | 一种异常检测的方法及装置 |
CN113556241A (zh) * | 2020-04-24 | 2021-10-26 | 北京淇瑀信息科技有限公司 | 一种上游流量的监测方法、装置和电子设备 |
CN113556240A (zh) * | 2020-04-24 | 2021-10-26 | 北京淇瑀信息科技有限公司 | 一种上游流量的监测方法、装置和电子设备 |
CN111637924A (zh) * | 2020-05-27 | 2020-09-08 | 上海华兴数字科技有限公司 | 一种挖掘机异常的检测方法、检测装置及可读存储介质 |
CN111880986A (zh) * | 2020-07-03 | 2020-11-03 | 亚信科技(成都)有限公司 | 一种数据检测方法及装置 |
CN111652450A (zh) * | 2020-08-05 | 2020-09-11 | 浙江力嘉电子科技有限公司 | 排污行为的异常检测系统及方法、电子设备、存储介质 |
CN112102087A (zh) * | 2020-09-21 | 2020-12-18 | 中国工商银行股份有限公司 | 一种交易异常检测方法及装置 |
CN112597144A (zh) * | 2020-12-29 | 2021-04-02 | 农业农村部环境保护科研监测所 | 一种产地环境监测数据的自动化清洗方法 |
CN112597144B (zh) * | 2020-12-29 | 2022-11-08 | 农业农村部环境保护科研监测所 | 一种产地环境监测数据的自动化清洗方法 |
CN112768061A (zh) * | 2021-01-26 | 2021-05-07 | 武汉大学 | 提高医疗等级型数据矫正效率的方法、系统及存储介质 |
CN112948770A (zh) * | 2021-03-16 | 2021-06-11 | 哈尔滨工业大学(深圳) | 信号平稳性检验方法、装置、终端设备和系统 |
CN112948770B (zh) * | 2021-03-16 | 2024-05-14 | 哈尔滨工业大学(深圳) | 海上风机的信号平稳性检验方法、装置、终端设备和系统 |
CN112995195A (zh) * | 2021-03-17 | 2021-06-18 | 北京安天网络安全技术有限公司 | 一种异常行为预测方法和装置 |
CN112995195B (zh) * | 2021-03-17 | 2023-01-31 | 北京安天网络安全技术有限公司 | 一种异常行为预测方法和装置 |
CN112989332A (zh) * | 2021-04-08 | 2021-06-18 | 北京安天网络安全技术有限公司 | 一种异常用户行为检测方法和装置 |
CN112989332B (zh) * | 2021-04-08 | 2024-06-11 | 北京安天网络安全技术有限公司 | 一种异常用户行为检测方法和装置 |
CN113890746B (zh) * | 2021-08-16 | 2024-05-07 | 曙光信息产业(北京)有限公司 | 攻击流量识别方法、装置、设备以及存储介质 |
CN113890746A (zh) * | 2021-08-16 | 2022-01-04 | 曙光信息产业(北京)有限公司 | 攻击流量识别方法、装置、设备以及存储介质 |
CN114002574A (zh) * | 2021-10-29 | 2022-02-01 | 上海华力微电子有限公司 | 半导体结构的测试方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377491A (zh) | 一种数据异常检测方法及装置 | |
CN111508216B (zh) | 一种大坝安全监测数据智能预警方法 | |
EP2529186B1 (en) | Robust automated determination of the hierarchical structure of utility monitoring systems | |
Morales et al. | A financial stability index for Colombia | |
CN107086944A (zh) | 一种异常检测方法和装置 | |
CN109271319A (zh) | 一种基于面板数据分析的软件故障的预测方法 | |
CN104156615A (zh) | 基于ls-svm的传感器检测数据点异常检测方法 | |
CN109389145A (zh) | 基于计量大数据聚类模型的电能表生产厂商评价方法 | |
Humplick | Highway pavement distress evaluation: Modeling measurement error | |
CN111612371A (zh) | 一种基于层次分析法的智能电表质量评估方法 | |
Tang et al. | Enhancement of distribution load modeling using statistical hybrid regression | |
Chen et al. | A combination model for evaluating deformation regional characteristics of arch dams using time series clustering and residual correction | |
You et al. | A GIS‐based traffic analysis zone design: implementation and evaluation | |
CN114338348A (zh) | 一种智能告警方法、装置、设备及可读存储介质 | |
Haider et al. | Effect of frequency of pavement condition data collection on performance prediction | |
CN111639813A (zh) | 基于深度学习的弃渣场危险性预警方法及系统 | |
CN116086550A (zh) | 一种数字化水平衡测试系统及水平衡测试方法 | |
Jang et al. | A proactive alarm reduction method and its human factors validation test for a main control room for SMART | |
CN109728563B (zh) | 用于定值在线校核的多套原则校核方法及装置 | |
CN107239256A (zh) | 基于综合评价的彩票行业随机序列的随机性检测方法 | |
Davis et al. | Accounting for uncertainty in estimates of total traffic volume: an empirical Bayes approach | |
Shepherd | The cost of checking proportional hazards | |
Konstantinov et al. | Approaches to creating environment safety automation control system of the industrial complex | |
Grdinić-Rakonjac et al. | The influence of different weighting schemes on the construction of the composite behaviour index | |
CN118067204B (zh) | 一种基于数字计量技术的安全生产数据采集系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |