CN109711440A - 一种数据异常检测方法和装置 - Google Patents

一种数据异常检测方法和装置 Download PDF

Info

Publication number
CN109711440A
CN109711440A CN201811521637.XA CN201811521637A CN109711440A CN 109711440 A CN109711440 A CN 109711440A CN 201811521637 A CN201811521637 A CN 201811521637A CN 109711440 A CN109711440 A CN 109711440A
Authority
CN
China
Prior art keywords
combustion gas
data
achievement data
fitting
gas achievement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811521637.XA
Other languages
English (en)
Other versions
CN109711440B (zh
Inventor
李合敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinao Shuneng Technology Co Ltd
Original Assignee
Xinao Shuneng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinao Shuneng Technology Co Ltd filed Critical Xinao Shuneng Technology Co Ltd
Priority to CN201811521637.XA priority Critical patent/CN109711440B/zh
Publication of CN109711440A publication Critical patent/CN109711440A/zh
Application granted granted Critical
Publication of CN109711440B publication Critical patent/CN109711440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种数据异常检测方法和装置,该方法包括:S1:获取燃气指标数据,其中,所述燃气指标数据包括购气量、销气量和购销气差率;S2:判断所述燃气指标数据是否服从正态分布,若是,则通过拉依达准则进行计算,以检测所述燃气指标数据是否异常,否则,执行步骤S3;S3:判断所述燃气指标数据是否能够通过多项式拟合判定,若是,则通过多项式拟合法进行计算,以检测所述燃气指标数据是否异常,否则,执行步骤S4;S4:对所述燃气指标数据进行趋势性和周期性判定后,通过自回归积分滑动平均模型进行计算。本发明能够根据常用异常检测和预测算法的适用场景,给出算法的自主选择策略和算法参数自动配置方案,有效的提高了效率。

Description

一种数据异常检测方法和装置
技术领域
本发明涉及数据分析技术领域,特别涉及一种数据异常检测方法和装置。
背景技术
数据是进行各种统计、计算、科学研究或技术设计等所依据。如,燃气公司每天会产生大量的指标数据,异常数据的存在会对能源领域中的业务管理工作带来一定的危害与损失,进而导致不必要的经济损失。同时依据对数据规律的挖掘,不仅仅发现异常数据,而且可以预测未来一定周期的数据预测值,辅助商业生产行为管理。
大规模多维度数据异常检测和预测场景,数据不但数量众多,而且不同业务指标的曲线也有不同的特征,参数配置和算法选择成本高,人工完成效率低下。
发明内容
本发明实施例提供了一种数据异常检测方法和装置,能够根据常用异常检测和预测算法的适用场景,给出算法的自主选择策略和算法参数自动配置方案,有效的提高了效率。
第一方面,本发明实施例提供了一种数据异常检测方法,该方法包括:
S1:获取燃气指标数据,其中,所述燃气指标数据包括购气量、销气量和购销气差率;
S2:判断所述燃气指标数据是否服从正态分布,若是,则通过拉依达准则进行计算,以检测所述燃气指标数据是否异常,否则,执行步骤S3;
S3:判断所述燃气指标数据是否能够通过多项式拟合判定,若是,则通过多项式拟合法进行计算,以检测所述燃气指标数据是否异常,否则,执行步骤S4;
S4:对所述燃气指标数据进行趋势性和周期性判定后,通过自回归积分滑动平均模型进行计算,以检测所述燃气指标数据是否异常。
优选地,步骤S1的具体过程包括:
输入的燃气指标数据通过安德森—达林Anderson-Darling检验出错的概率是否大于预设置信水平,若是,则通过拉依达准则进行计算,以检测所述燃气指标数据是否异常。
优选地,步骤S3的具体过程包括:
S31:运用判定系数和回归标准差对所述燃气指标数据进行多项式拟合;
S32:判断拟合程度是否达到预设期望阈值且拟合多项式阶数达到预设阶数要求,若是,则通过多项式拟合法进行计算,以检测所述燃气指标数据是否异常。
优选地,所述多项式拟合用到的表达式为:
y=antn+an-1tn-1+...+a1t+a0
其中,t为时间;ai为拟合系数,i=0,1,2,3,…,n;y为t时刻对应的燃气指标数据;ε为残差,ε~N(0,σ2)。
优选地,在步骤S4之后,该方法还包括:
S5:各个算法对异常数据检测过程中,进行参数训练,动态调整各个算法的参数。
第二方面,本发明实施例提供了一种数据异常检测装置,该装置包括:数据获取模块、第一判断模块、第二判断模块和第三计算模块,其中,
所述数据获取模块,用于获取燃气指标数据,其中,所述燃气指标数据包括购气量、销气量和购销气差率;
所述第一判断模块,用于判断所述燃气指标数据是否服从正态分布,若是,则通过拉依达准则进行计算,以检测所述燃气指标数据是否异常,否则,触发所述第二判断模块;
所述第二判断模块,用于判断所述燃气指标数据是否能够通过多项式拟合判定,若是,则通过多项式拟合法进行计算,以检测所述燃气指标数据是否异常,否则,触发所述第三计算模块;
所述第三计算模块,用于对所述燃气指标数据进行趋势性和周期性判定后,通过自回归积分滑动平均模型进行计算,以检测所述燃气指标数据是否异常。
优选地,所述第一判断模块,具体用于判断所述燃气指标数据通过安德森—达林Anderson-Darling检验出错的概率是否大于预设置信水平,若是,则通过拉依达准则进行计算,否则,触发所述第二判断模块。
优选地,所述第二判断模块包括:拟合单元和判断单元,其中,
所述拟合单元,用于运用判定系数和回归标准差对所述燃气指标数据进行多项式拟合;
所述判断单元,用于判断拟合程度是否达到预设期望阈值且拟合多项式阶数达到预设阶数要求,若是,则通过多项式拟合法进行计算,否则,触发所述第三计算模块。
优选地,所述多项式拟合用到的表达式为:
y=antn+an-1tn-1+...+a1t+a0
其中,t为时间;ai为拟合系数,i=0,1,2,3,…,n;y为t时刻对应的燃气指标数据;ε为残差,ε~N(0,σ2)。
优选地,该装置还包括:动态调整模块;
所述动态调整模块,用于各个算法对异常数据检测过程中,进行参数训练,动态调整各个算法的参数。
与现有技术相比,本发明至少具有以下有益效果:
根据常用异常检测和预测算法的适用场景,给出算法的自主选择策略和算法参数自动配置方案,进行自动异常值判定,能够及时发现复杂业务指标的异常波动,保证业务管理的稳定性。主动判定异常的指标数据,指导业务工作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种检测燃气指标数据中异常数据时自主选择算法的方法流程图;
图2是本发明一个实施例提供的另一种检测燃气指标数据中异常数据时自主选择算法的方法流程示意图;
图3是本发明一个实施例提供的一种检测燃气指标数据中异常数据时自主选择算法的装置的结构框图;
图4是本发明一个实施例提供的另一种检测燃气指标数据中异常数据时自主选择算法的装置的结构框图;
图5是本发明一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据异常检测方法(也可以称为检测燃气指标数据中异常数据时自主选择算法的方法),该方法可以包括以下步骤:
S1:获取燃气指标数据,其中,所述燃气指标数据包括购气量、销气量和购销气差率;
S2:判断所述燃气指标数据是否服从正态分布,若是,则通过拉依达准则进行计算,以检测所述燃气指标数据是否异常,否则,执行步骤S3;
S3:判断所述燃气指标数据是否能够通过多项式拟合判定,若是,则通过多项式拟合法进行计算,以检测所述燃气指标数据是否异常,否则,执行步骤S4;
S4:对所述燃气指标数据进行趋势性和周期性判定后,通过自回归积分滑动平均模型进行计算,以检测所述燃气指标数据是否异常。
值得说明的是,燃气指标数据不仅包括购气量、销气量和购销气差率,还可以是其他指标。对于拉依达准则方法来说,该实施例中可以为统计3σ方法。统计学方法的理论基础是假设样本点满足正态分布(也叫高斯分布)。根据正态分布的特性,95.45%的样本点在平均数左右两个标准差的范围之内,而且99.73%的样本点在平均数左右三个标准差的范围,这被称为拉依达准则,也叫3sigma准则。所以如果取下界为平均数减去三个标准差和上界为平均数加上三个标准差,那么样本点落入由这个上界和下界组成区间[μ-3σ,μ+3σ]的概率就是0.9973,其中μ是均值,σ是标准差。换句话说,如果样本点不在这个区间内,那么它是异常点的概率就是0.9973,有99.73%的置信度这个点是异常的。这种统计方法的优点在于适用性强,算法简单。缺点就是样本点需要满足正态分布这个前提。
对于多项式拟合法来说,多项式拟合法主要是假设因变量y是随时间t的变化而变化的,表达式如下所示:
y=antn+an-1tn-1+...+a1t+a0
其中ε~N(0,σ2),ai为拟合系数,i=0,1,2,3,…,n,ε代表残差。
1.通过数据流,曲线拟合算出拟合参数ai
2.计算残差ε=y-yt,其中,yt=antn+an-1tn-1+...+a1t+a0
3.计算残差序列{ej}的标准差σ,从而预测上界为yt+3σ,预测下界为yt-3σ;
4.输入值如果超过上下界的区域,则为异常值。在预测的场景下,可以把yt+μ作为预测值,其中μ为ε的均值。
对于自回归积分滑动平均模型来说,该实施例可以为基于季节性arima的时间序列方法。时间序列的样本点数据通常隐含一定的信息,比如相关性、周期性、趋势性以及随机性等。季节性arima模型可以通过训练提取时间序列的趋势性和周期性信息。使用arima模型的步骤如下:
1.对序列进行平稳性识别,利用ADF单位根检验,如果序列平稳则不存在单位根,否则会存在单位根;
2.如果序列不平稳,则需要用到arima模型中的差分功能对其进行平稳化处理,依次进行1阶、2阶、……、n阶差分,直到序列不存在ADF单位根;
3.利用自相关函数和偏相关函数对时间序列模型进行识别,判定自相关函数和偏相关函数是拖尾的还是截尾的,进行arima模型的选择。如果平稳序列的偏相关函数是截尾的,同时自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,同时自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型;
4.进行参数迭代选择最优的模型参数,并检验参数的合理性;
5.检验诊断残差序列是否为白噪声;
6.利用模型进行预测和异常值判定。
在本发明一个实施例中,步骤S1的具体过程包括:
所述燃气指标数据通过安德森—达林Anderson-Darling检验出错的概率是否大于预设置信水平,若是,则通过拉依达准则进行计算,否则,执行步骤S2。
在该实施例中,对输入数据进行正态分布的判定,如果Anderson-Darling正态性检验的P值(也就是接受原假设时出错的概率)大于α水平(也就是置信水平)0.05下的临界值,则服从正态分布,否则不服从正态分布。如果输入数据不服从正态分布,则进入多项式拟合优度判定。
在本发明一个实施例中,步骤S3的具体过程包括:
S31:运用判定系数和回归标准差对所述燃气指标数据进行多项式拟合;
S32:判断拟合程度是否达到预设期望阈值且拟合多项式阶数达到预设阶数要求,若是,则通过多项式拟合法进行计算,否则,执行步骤S3。
在该实施例中,运用判定系数和回归标准差,检验模型对样本观测值的拟合程度,如果拟合优度满足期望阈值,同时拟合多项式阶数又满足要求阶数,则多项式拟合判定通过,否则不通过。
如图2所示,在本发明一个实施例中,在步骤S4之后,该方法还可以包括:
S5:各个算法对异常数据检测过程中,进行参数训练,动态调整各个算法的参数。
值得说明的是,在对算法选择完成之后,每种算法在对数据异常点检测和数据预测的过程中,可以动态调整算法的参数,本方案提出一种参数动态调整策略:输入数据T步迭代法。
1.统计3σ方法、多项式拟合法和基于季节性arima模型时间序列方法三种算法在任务执行的过程中,均是以过去m个时间点的数据作为一个整体输入,进行模型参数的训练。利用训练后的模型,对后续k个时间点的数据进行异常判定或者预测分析,k值的大小可以根据实际的业务需求进行设定,m值的大小可以依据算法训练的经验值确定。
2.如果对于下一个进入的数据点,记为点1,模型算法判定点1为异常值,则继续利用现模型参数继续判断点2,如果模型算法判定点1为正常值,则把点1数据加入数据序列待T个数据之后重新训练参数,依次类推,直到k个数据点判定完成,获得新的参数T,从而作为模型参数更新的阈值,通过模型训练确定。
本方案进一步提出了一种激励算法选择的误差反馈评价方法。统计3σ方法、多项式拟合法和基于季节性arima模型时间序列方法三种算法模型运行的过程中,随着时间的推移,新输入数据的特性会变化,可能其他的算法会取得更好预测或者判定的效果,所以随着时间的推移可能需要在不同模型算法间进行切换。下式F表示算法选择的误差评价函数,当F大于某个阈值的时候,重新选择算法模型。
其中,P表示过去的连续P个时间点的数据,γ表示P个时间点的数据中预测或者判定错误的点个数。算法模型执行的过程中,可以利用并行任务的方法,同时用其他算法模型对当前数据进行预测或者异常判定,如果其他模型的预测或者判定效果比当前算法更好,则β+1,β的初始值为0;Q表示其他算法模型执行的连续时间间隔,也即连续Q个时间点;θ表示评价函数中其他算法模型取得更好效果比例的系数,定义最终F的值更倾向于本算法预测或者异常判定出错的概率,还是更倾向于其他算法模型取得更好效果的概率。
如图3所示,本发明实施例提供了一种数据异常检测装置(也可以称为检测燃气指标数据中异常数据时自主选择算法的装置),该装置包括::数据获取模块、第一判断模块、第二判断模块和第三计算模块,其中,
所述数据获取模块,用于获取燃气指标数据,其中,所述燃气指标数据包括购气量、销气量和购销气差率;
所述第一判断模块,用于判断所述燃气指标数据是否服从正态分布,若是,则通过拉依达准则进行计算,否则,触发所述第二判断模块;
所述第二判断模块,用于判断所述燃气指标数据是否能够通过多项式拟合判定,若是,则通过多项式拟合法进行计算,否则,触发所述第三计算模块;
所述第三计算模块,用于对所述燃气指标数据进行趋势性和周期性判定后,通过自回归积分滑动平均模型进行计算。
在本发明一个实施例中,所述第一判断模块,具体用于判断所述燃气指标数据通过安德森—达林Anderson-Darling检验接受原假设时出错的概率是否大于预设置信水平,若是,则通过拉依达准则进行计算,否则,触发所述第二判断模块。
在本发明一个实施例中,所述第二判断模块包括:拟合单元和判断单元,其中,
所述拟合单元,用于运用判定系数和回归标准差对所述燃气指标数据进行多项式拟合;
所述判断单元,用于判断拟合程度是否达到预设期望阈值且拟合多项式阶数达到预设阶数要求,若是,则通过多项式拟合法进行计算,否则,触发所述第三计算模块。
在本发明一个实施例中,所述多项式拟合用到的表达式为:
y=antn+an-1tn-1+...+a1t+a0
其中,t为时间;ai为拟合系数,i=0,1,2,3,…,n;ε为残差,ε~N(0,σ2)。
如图4所示,在本发明一个实施例中该装置还包括:动态调整模块;
所述动态调整模块,用于各个算法对异常数据检测过程中,进行参数训练,动态调整各个算法的参数。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
如图5所示,本发明的一个实施例提供了一种电子设备。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponentInterconnect,外设部件互连标准)总线或EISA(Extended IndustryStandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。在一种可能实现的方式中,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,也可从其它设备上获取相应的计算机程序,以在逻辑层面上形成数据异常检测装置。处理器,执行存储器所存放的程序,以通过执行的程序实现本发明任一实施例中提供的检测燃气指标数据中异常数据时自主选择算法的方法。
上述如本发明图3或4所示实施例提供的检测异常数据时自主选择算法的装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行本发明任一实施例中提供的检测异常数据时自主选择算法的方法。
上述实施例阐明的装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元或模块分别描述。当然,在实施本发明时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种数据异常检测方法,其特征在于,该方法包括:
S1:获取燃气指标数据,其中,所述燃气指标数据包括购气量、销气量和购销气差率:
S2:判断所述燃气指标数据是否服从正态分布,若是,则通过拉依达准则进行计算,以检测所述燃气指标数据是否异常,否则,执行步骤S3;
S3:判断所述燃气指标数据是否能够通过多项式拟合判定,若是,则通过多项式拟合法进行计算,以检测所述燃气指标数据是否异常,否则,执行步骤S4;
S4:对所述燃气指标数据进行趋势性和周期性判定后,通过自回归积分滑动平均模型进行计算,以检测所述燃气指标数据是否异常。
2.根据权利要求1所述数据异常检测方法,其特征在于,
步骤S2的具体过程包括:
判断所述燃气指标数据通过安德森-达林Anderson-Darling检验出错的概率是否大于预设置信水平,若是,则通过拉依达准则进行计算,以检测所述燃气指标数据是否异常。
3.根据权利要求1所述数据异常检测方法,其特征在于,
步骤S3的具体过程包括:
S31:运用判定系数和回归标准差对所述燃气指标数据进行多项式拟合;
S32:判断拟合程度是否达到预设期望阈值且拟合多项式阶数达到预设阶数要求,若是,则通过多项式拟合法进行计算,以检测所述燃气指标数据是否异常。
4.根据权利要求3所述数据异常检测方法,其特征在于,
所述多项式拟合用到的表达式为:
y=antn+an-1tn-1+...+a1t+a0
其中,t为时间;ai为拟合系数,i=0.1,2,3,…,n;y为t时刻对应的燃气指标数据;ε为残差,ε~N(0,σ2)。
5.根据权利要求1所述数据异常检测方法,其特征在于,
在步骤S4之后,该方法还包括:
S5:各个算法对异常数据检测过程中,进行参数训练,动态调整各个算法的参数。
6.一种数据异常检测装置,其特征在于,该装置包括:数据获取模块、第一判断模块、第二判断模块和第三计算模块,其中,
所述数据获取模块,用于获取燃气指标数据,其中,所述燃气指标数据包括购气量、销气量和购销气差率;
所述第一判断模块,用于判断所述燃气指标数据是否服从正态分布,若是,则通过拉依达准则进行计算,以检测所述燃气指标数据是否异常,否则,触发所述第二判断模块;
所述第二判断模块,用于判断所述燃气指标数据是否能够通过多项式拟合判定,若是,则通过多项式拟合法进行计算,以检测所述燃气指标数据是否异常,否则,触发所述第三计算模块;
所述第三计算模块,用于对所述燃气指标数据进行趋势性和周期性判定后,通过自回归积分滑动平均模型进行计算,以检测所述燃气指标数据是否异常。
7.根据权利要求6所述数据异常检测装置,其特征在于,所述第一判断模块,具体用于判断所述燃气指标数据通过安德森一达林Anderson-Darling检验出错的概率是否大于预设置信水平,若是,则通过拉依达准则进行计算,否则,触发所述第二判断模块。
8.根据权利要求6所述数据异常检测装置,其特征在于,所述第二判断模块包括:拟合单元和判断单元,其中,
所述拟合单元,用于运用判定系数和回归标准差对所述燃气指标数据进行多项式拟合;
所述判断单元,用于判断拟合程度是否达到预设期望阈值且拟合多项式阶数达到预设阶数要求,若是,则通过多项式拟合法进行计算,否则,触发所述第三计算模块。
9.根据权利要求8所述数据异常检测装置,其特征在于,
所述多项式拟合用到的表达式为:
y=antn+an-1tn-1+...+a1t+a0
其中,t为时间;ai为拟合系数,i=0,1,2,3,…,n;y为t时刻对应的燃气指标数据;ε为残差,ε~N(0,σ2)。
10.根据权利要求6所述数据异常检测装置,其特征在于,该装置还包括:动态调整模块;
所述动态调整模块,用于各个算法对异常数据检测过程中,进行参数训练,动态调整各个算法的参数。
CN201811521637.XA 2018-12-13 2018-12-13 一种数据异常检测方法和装置 Active CN109711440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811521637.XA CN109711440B (zh) 2018-12-13 2018-12-13 一种数据异常检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811521637.XA CN109711440B (zh) 2018-12-13 2018-12-13 一种数据异常检测方法和装置

Publications (2)

Publication Number Publication Date
CN109711440A true CN109711440A (zh) 2019-05-03
CN109711440B CN109711440B (zh) 2022-02-08

Family

ID=66255742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811521637.XA Active CN109711440B (zh) 2018-12-13 2018-12-13 一种数据异常检测方法和装置

Country Status (1)

Country Link
CN (1) CN109711440B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110460663A (zh) * 2019-08-12 2019-11-15 深圳市网心科技有限公司 分布式节点间的数据分配方法、装置、服务器及存储介质
CN110738326A (zh) * 2019-09-24 2020-01-31 深圳创新奇智科技有限公司 一种人工智能服务系统模型的选择方法和结构
CN111143777A (zh) * 2019-12-27 2020-05-12 新奥数能科技有限公司 一种数据处理方法、装置、智能终端及存储介质
CN111190045A (zh) * 2019-12-27 2020-05-22 国网北京市电力公司 电压异常预测方法及装置、电子设备
CN113033973A (zh) * 2021-03-05 2021-06-25 广州燃气集团有限公司 一种燃气供输差优化管理的方法
CN113449008A (zh) * 2020-03-27 2021-09-28 华为技术有限公司 一种建模方法及装置
CN113722176A (zh) * 2021-07-30 2021-11-30 银清科技有限公司 一种自适应的异常性能指标确定方法及装置
CN113742118A (zh) * 2020-05-29 2021-12-03 Ovh公司 对数据管道中的异常进行检测的方法和系统
CN114757270A (zh) * 2022-03-30 2022-07-15 重庆合众慧燃科技股份有限公司 基于NB-IoT燃气智能设备的异常分析方法系统及存储介质
CN115098740A (zh) * 2022-07-25 2022-09-23 广州市海捷计算机科技有限公司 一种基于多源异构数据源的数据质量检测方法及装置
CN117705448A (zh) * 2024-02-05 2024-03-15 南京凯奥思数据技术有限公司 基于滑动平均与3σ准则相融合的轴承故障劣化趋势阈值预警方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673463A (zh) * 2009-09-17 2010-03-17 北京世纪高通科技有限公司 一种基于时间序列的交通信息预测方法及装置
CN103278771A (zh) * 2013-05-22 2013-09-04 广西电网公司电力科学研究院 工业现场三相异步电机异常状态的辨识方法
CN103500362A (zh) * 2013-08-30 2014-01-08 杭州师范大学 一种基于谱分析的城市道路速度预测方法
CN104090302A (zh) * 2014-07-02 2014-10-08 中国海洋石油总公司 工区地下介质频率域异常分析的方法
CN104181883A (zh) * 2014-08-08 2014-12-03 青岛高校信息产业有限公司 实时数据采集系统的异常数据实时处理方法
US20140358833A1 (en) * 2013-05-29 2014-12-04 International Business Machines Corporation Determining an anomalous state of a system at a future point in time
CN106296435A (zh) * 2016-08-18 2017-01-04 西安科技大学 一种矿井瓦斯监测异常数据识别方法
CN106448080A (zh) * 2016-09-20 2017-02-22 北京工业大学 一种基于传感网嗅探的小型空间挥发性易燃液体检测系统
CN107273234A (zh) * 2017-05-26 2017-10-20 中国航天系统科学与工程研究院 一种基于eemd的时间序列数据异常值检测和校正方法
CN107944657A (zh) * 2017-10-20 2018-04-20 国网山东省电力公司 一种电力多源信息故障定位及预判方法
CN108089962A (zh) * 2017-11-13 2018-05-29 北京奇艺世纪科技有限公司 一种异常检测方法、装置及电子设备
CN108806218A (zh) * 2018-06-13 2018-11-13 合肥泽众城市智能科技有限公司 一种可燃气体监测数据异常原因的判断方法及装置
CN108960303A (zh) * 2018-06-20 2018-12-07 哈尔滨工业大学 一种基于lstm的无人机飞行数据异常检测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673463A (zh) * 2009-09-17 2010-03-17 北京世纪高通科技有限公司 一种基于时间序列的交通信息预测方法及装置
CN103278771A (zh) * 2013-05-22 2013-09-04 广西电网公司电力科学研究院 工业现场三相异步电机异常状态的辨识方法
US20140358833A1 (en) * 2013-05-29 2014-12-04 International Business Machines Corporation Determining an anomalous state of a system at a future point in time
CN103500362A (zh) * 2013-08-30 2014-01-08 杭州师范大学 一种基于谱分析的城市道路速度预测方法
CN104090302A (zh) * 2014-07-02 2014-10-08 中国海洋石油总公司 工区地下介质频率域异常分析的方法
CN104181883A (zh) * 2014-08-08 2014-12-03 青岛高校信息产业有限公司 实时数据采集系统的异常数据实时处理方法
CN106296435A (zh) * 2016-08-18 2017-01-04 西安科技大学 一种矿井瓦斯监测异常数据识别方法
CN106448080A (zh) * 2016-09-20 2017-02-22 北京工业大学 一种基于传感网嗅探的小型空间挥发性易燃液体检测系统
CN107273234A (zh) * 2017-05-26 2017-10-20 中国航天系统科学与工程研究院 一种基于eemd的时间序列数据异常值检测和校正方法
CN107944657A (zh) * 2017-10-20 2018-04-20 国网山东省电力公司 一种电力多源信息故障定位及预判方法
CN108089962A (zh) * 2017-11-13 2018-05-29 北京奇艺世纪科技有限公司 一种异常检测方法、装置及电子设备
CN108806218A (zh) * 2018-06-13 2018-11-13 合肥泽众城市智能科技有限公司 一种可燃气体监测数据异常原因的判断方法及装置
CN108960303A (zh) * 2018-06-20 2018-12-07 哈尔滨工业大学 一种基于lstm的无人机飞行数据异常检测方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110460663A (zh) * 2019-08-12 2019-11-15 深圳市网心科技有限公司 分布式节点间的数据分配方法、装置、服务器及存储介质
CN110738326A (zh) * 2019-09-24 2020-01-31 深圳创新奇智科技有限公司 一种人工智能服务系统模型的选择方法和结构
CN111143777A (zh) * 2019-12-27 2020-05-12 新奥数能科技有限公司 一种数据处理方法、装置、智能终端及存储介质
CN111190045A (zh) * 2019-12-27 2020-05-22 国网北京市电力公司 电压异常预测方法及装置、电子设备
CN113449008B (zh) * 2020-03-27 2023-06-06 华为技术有限公司 一种建模方法及装置
CN113449008A (zh) * 2020-03-27 2021-09-28 华为技术有限公司 一种建模方法及装置
CN113742118A (zh) * 2020-05-29 2021-12-03 Ovh公司 对数据管道中的异常进行检测的方法和系统
CN113742118B (zh) * 2020-05-29 2024-04-26 Ovh公司 对数据管道中的异常进行检测的方法和系统
CN113033973A (zh) * 2021-03-05 2021-06-25 广州燃气集团有限公司 一种燃气供输差优化管理的方法
CN113722176A (zh) * 2021-07-30 2021-11-30 银清科技有限公司 一种自适应的异常性能指标确定方法及装置
CN114757270A (zh) * 2022-03-30 2022-07-15 重庆合众慧燃科技股份有限公司 基于NB-IoT燃气智能设备的异常分析方法系统及存储介质
CN115098740A (zh) * 2022-07-25 2022-09-23 广州市海捷计算机科技有限公司 一种基于多源异构数据源的数据质量检测方法及装置
CN117705448A (zh) * 2024-02-05 2024-03-15 南京凯奥思数据技术有限公司 基于滑动平均与3σ准则相融合的轴承故障劣化趋势阈值预警方法及系统
CN117705448B (zh) * 2024-02-05 2024-05-07 南京凯奥思数据技术有限公司 基于滑动平均与3σ准则相融合的轴承故障劣化趋势阈值预警方法及系统

Also Published As

Publication number Publication date
CN109711440B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN109711440A (zh) 一种数据异常检测方法和装置
CN109544166B (zh) 一种风险识别方法和装置
US11488055B2 (en) Training corpus refinement and incremental updating
TWI769190B (zh) 風險管控方法及裝置
WO2019157946A1 (zh) 一种反洗钱方法、装置及设备
WO2019192261A1 (zh) 一种支付方式推荐方法、装置及设备
CN108763952B (zh) 一种数据分类方法、装置及电子设备
CN109543190A (zh) 一种意图识别方法、装置、设备及存储介质
CN108596410B (zh) 一种风控事件自动处理方法及装置
CN109063886A (zh) 一种异常检测方法、装置以及设备
CN108460523A (zh) 一种风控规则生成方法和装置
CN110728458B (zh) 一种目标对象的风险监测方法、装置及电子设备
CN110019668A (zh) 一种文本检索方法及装置
CN111353850B (zh) 一种风险识别策略的更新、风险商户的识别方法和装置
CN110390198A (zh) 一种对小程序的风险巡检方法、装置及电子设备
CN110633989A (zh) 一种风险行为生成模型的确定方法及装置
CN107622413A (zh) 一种价格敏感度计算方法、装置及其设备
CN109961107A (zh) 目标检测模型的训练方法、装置、电子设备及存储介质
CN109784599A (zh) 一种模型训练、风险识别的方法、装置及设备
CN109857984A (zh) 一种锅炉负荷率-效能曲线的回归方法和装置
CN110428139A (zh) 基于标签传播的信息预测方法及装置
CN109299276B (zh) 一种将文本转化为词嵌入、文本分类方法和装置
CN111104438A (zh) 时间序列的周期性确定方法、装置及电子设备
CN110008986B (zh) 批量风险案件识别方法、装置及电子设备
CN110516713A (zh) 一种目标群体识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant