CN114020971A - 一种异常数据检测方法及装置 - Google Patents
一种异常数据检测方法及装置 Download PDFInfo
- Publication number
- CN114020971A CN114020971A CN202111307471.3A CN202111307471A CN114020971A CN 114020971 A CN114020971 A CN 114020971A CN 202111307471 A CN202111307471 A CN 202111307471A CN 114020971 A CN114020971 A CN 114020971A
- Authority
- CN
- China
- Prior art keywords
- determining
- robust
- data
- abnormal
- comparison result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 105
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 238000012417 linear regression Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000003745 diagnosis Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 24
- 230000001419 dependent effect Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000013488 ordinary least square regression Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
Abstract
本发明提供了一种异常数据检测方法及装置,其中,该方法包括:获取待测业务数据的特征数据;根据该特征数据输入预先拟合的多元线性回归模型中,得到该多元线性回归模型输出的该特征数据的目标标签;根据该特征数据的目标标签与该特征数据的实际标签确定该特征数据的稳健标准化残差,并确定该特征数据的稳健马氏距离;根据该稳健标准化残差与该稳健马氏距离确定该待测业务数据的异常检测结果,可以解决相关技术中基于OLS的异常值诊断方法,当数据集中存在多个异常值未能识别出真正的异常值,且可能将正常数据误判为异常值的问题,拟合的残差能够更好地识别异常值,有效避免多个异常值的掩盖现象。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种异常数据检测方法及装置。
背景技术
在金融数据采集加工过程中,过失误差经常出现,Hampel指出实际数据中含有10%左右的异常值是很正常的。异常值严重影响数据分析建模的效果,如何有效识别和处理异常值在金融领域尤为重要。
相关技中提出基于普通最小二乘法(Ordinary Least Squares,简称为OLS)的异常值诊断方法:在确定自变量和因变量Y后,可拟合最小二乘回归,然后使用回归诊断方法来判断异常值与强影响点。基于OLS的异常值诊断方法,OLS损失函数使用平方损失并不稳健,容易受到数据集中异常值的影响,导致多变量参数估计得不到准确的结果。此外根据拟合结果得到的残差不能检测出所有的异常值。基于OLS的异常值诊断方法对单个异常值相当有效,当数据集中存在多个异常值,使用该方案可能导致两种不良后果:一种为未能识别出真正的异常值,即掩盖现象;一种为将正常数据误判为异常值,即淹没现象。
针对相关技术中基于OLS的异常值诊断方法,当数据集中存在多个异常值未能识别出真正的异常值,且可能将正常数据误判为异常值的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种异常数据检测方法及装置,以至少解决相关技术中基于OLS的异常值诊断方法,当数据集中存在多个异常值未能识别出真正的异常值,且可能将正常数据误判为异常值的问题。
根据本发明的一个实施例,提供了一种异常数据检测方法,包括:
获取待测业务数据的特征数据;
根据所述特征数据输入预先拟合的多元线性回归模型中,得到所述多元线性回归模型输出的所述特征数据的目标标签;
根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差,并确定所述特征数据的稳健马氏距离;
根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果。
可选地,根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果包括:
将所述稳健马氏距离与预先确定的横轴临界值进行对比,得到第一对比结果;
将所述稳健标准化残差与预先确定的纵轴临界值进行对比,得到第二对比结果;
根据所述第一对比结果与所述第二对比结果确定所述异常检测结果。
可选地,根据所述第一对比结果与所述第二对比结果确定所述异常检测结果包括:
若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为正常;
若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为回归异常值;
若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为坏的杠杆点;
若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为好的杠杆点。
可选地,根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差包括:
采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差;
根据所述MM估计与所述回归标准误差确定所述特征数据的稳健标准化残差。
可选地,所述方法还包括:
通过以下方式采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差:
可选地,所述方法还包括:
确定预定数量的业务数据的自变量与因变量;
对所述自变量进行变量筛选,得到筛选后的自变量;
根据所述筛选后的自变量与对应的因变量拟合所述多元线性回归模型。
可选地,根据所述筛选后的自变量与对应的因变量拟合所述多元线性回归模型包括:
通过以下方式根据所述筛选后的自变量拟合所述多元线性回归模型:
Yi=β1Xi1+…+βpXip+ei,i=1,2,…,n;
其中,Yi为自变量Xi对应的因变量,x=(Xi,X2,…,Xp)T为所述筛选后的自变量,ei是独立同分布的随机误差项,β=(β1,β2,…,βp)T是所述多元线性回归模型的参数向量。
可选地,所述方法还包括:
获取所述多元线性回归模型输出的所述筛选后的自变量的目标标签;
根据所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签确定所述筛选后的自变量的稳健标准化残差,并确定所述筛选后的自变量的稳健马氏距离;
以所述稳健马氏距离为横轴,以所述稳健标准化残差为纵轴,制作RR-RD诊断图。
可选地,根据所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签确定所述筛选后的自变量的稳健标准化残差包括:
将所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签的差值确定为观测值的残差;
采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差;
根据所述MM估计与所述回归标准误差确定所述筛选后的自变量的稳健标准化残差。
根据本发明的另一个实施例,还提供了一种异常数据检测装置,包括:
第一获取模块,用于获取待测业务数据的特征数据;
输入模块,用于根据所述特征数据输入预先拟合的多元线性回归模型中,得到所述多元线性回归模型输出的所述特征数据的目标标签;
第一确定模块,用于根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差,并确定所述特征数据的稳健马氏距离;
第二确定模块,用于根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果。
可选地,所述第二确定模块包括:
第一对比子模块,用于将所述稳健马氏距离与预先确定的横轴临界值进行对比,得到第一对比结果;
第二对比子模块,用于将所述稳健标准化残差与预先确定的纵轴临界值进行对比,得到第二对比结果;
第一确定子模块,用于根据所述第一对比结果与所述第二对比结果确定所述异常检测结果。
可选地,所述第一确定子模块,还用于:
若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为正常;
若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为回归异常值;
若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为坏的杠杆点;
若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为好的杠杆点。
可选地,所述第一确定模块包括:
第二确定子模块,用于采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差;
第三确定子模块,用于根据所述MM估计与所述回归标准误差确定所述特征数据的稳健标准化残差。
可选地,所述装置还包括:
第三确定模块,用于确定预定数量的业务数据的自变量与因变量;
筛选模块,用于对所述自变量进行变量筛选,得到筛选后的自变量;
拟合模块,用于根据所述筛选后的自变量与对应的因变量拟合所述多元线性回归模型。
可选地,所述拟合模块,还用于
通过以下方式根据所述筛选后的自变量拟合所述多元线性回归模型:
Yi=β1Xi1+…+βpXip+ei,i=1,2,…,n;
其中,Yi为自变量Xi对应的因变量,x=(Xi,X2,…,Xp)T为所述筛选后的自变量,ei是独立同分布的随机误差项,β=(β1,β2,…,βp)T是所述多元线性回归模型的参数向量。
可选地,所述装置还包括:
第二获取模块,用于获取所述多元线性回归模型输出的所述筛选后的自变量的目标标签;
第四确定模块,用于根据所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签确定所述筛选后的自变量的稳健标准化残差,并确定所述筛选后的自变量的稳健马氏距离;
制作模块,用于以所述稳健马氏距离为横轴,以所述稳健标准化残差为纵轴,制作RR-RD诊断图。
可选地,所述第四确定模块,还用于:
将所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签的差值确定为观测值的残差;
采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差;
根据所述MM估计与所述回归标准误差确定所述筛选后的自变量的稳健标准化残差。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取待测业务数据的特征数据;根据所述特征数据输入预先拟合的多元线性回归模型中,得到所述多元线性回归模型输出的所述特征数据的目标标签;根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差,并确定所述特征数据的稳健马氏距离;根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果,可以解决相关技术中基于OLS的异常值诊断方法,当数据集中存在多个异常值未能识别出真正的异常值,且可能将正常数据误判为异常值的问题,拟合的残差能够更好地识别异常值,有效避免多个异常值的掩盖现象。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的异常数据检测方法的移动终端的硬件结构框图;
图2是根据本发明实施例的异常数据检测方法的流程图;
图3是根据本发明优选实施例的异常数据检测方法的流程图;
图4是根据本发明实施例的异常数据检测装置的框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的异常数据检测方法的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的异常数据检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端或网络架构的异常数据检测方法,图2是根据本发明实施例的异常数据检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取待测业务数据的特征数据;
步骤S204,根据所述特征数据输入预先拟合的多元线性回归模型中,得到所述多元线性回归模型输出的所述特征数据的目标标签;
步骤S206,根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差,并确定所述特征数据的稳健马氏距离;
步骤S208,根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果。
通过上述步骤S202至S208,可以解决相关技术中基于OLS的异常值诊断方法,当数据集中存在多个异常值未能识别出真正的异常值,且可能将正常数据误判为异常值的问题,拟合的残差能够更好地识别异常值,有效避免多个异常值的掩盖现象。
本实施例中,上述步骤S208具体可以包括:
S11,将所述稳健马氏距离与预先确定的横轴临界值进行对比,得到第一对比结果;
S12,将所述稳健标准化残差与预先确定的纵轴临界值进行对比,得到第二对比结果;
S13,根据所述第一对比结果与所述第二对比结果确定所述异常检测结果,具体的,若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为正常;若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为回归异常值;若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为坏的杠杆点;若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为好的杠杆点。
本实施例中,上述步骤S206具体可以包括:
S21,采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差;
进一步的,上述S21具体通过以下方式采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差:
S22,根据所述MM估计与所述回归标准误差确定所述特征数据的稳健标准化残差。
在一可选的实施例中,所述方法还包括:确定预定数量的业务数据的自变量与因变量;对所述自变量进行变量筛选,得到筛选后的自变量;根据所述筛选后的自变量与对应的因变量拟合所述多元线性回归模型,进一步的,通过以下方式根据所述筛选后的自变量拟合所述多元线性回归模型:
Yi=β1Xi1+…+βpXip+ei,i=1,2,…,n;
其中,Yi为自变量Xi对应的因变量,x=(Xi,X2,…,Xp)T为所述筛选后的自变量,ei是独立同分布的随机误差项,β=(β1,β2,…,βp)T是所述多元线性回归模型的参数向量。
在一实施例中,所述方法还包括:获取所述多元线性回归模型输出的所述筛选后的自变量的目标标签;根据所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签确定所述筛选后的自变量的稳健标准化残差,进一步的,将所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签的差值确定为观测值的残差;采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差,根据所述MM估计与所述回归标准误差确定所述筛选后的自变量的稳健标准化残差,其中,所述筛选后的自变量的稳健标准化残差确定的具体方式与上述S23类似,在此不再赘述,并确定所述筛选后的自变量的稳健马氏距离,其中,所述筛选后的自变量的稳健马氏距离的确定方式与上述确定所述特征数据的稳健马氏距离的方式类似,在此不再赘述;以所述稳健马氏距离为横轴,以所述稳健标准化残差为纵轴,制作RR-RD诊断图。
本发明实施例在基于模型诊断的方法检测异常值过程中,在其参数估计阶段选用稳健的损失函数,可以得到受异常值影响较小的参数估计结果,而且拟合的残差能够更好地给出异常值的信息,有效避免多个异常值的掩盖现象。本发明实施例中拟合的模型是没有截距项的,是因为数据做了标准化处理。在拟合多元线性回归模型过程中,采用稳健的方法进行参数估计(参数估计可以理解为模型训练)。
下面以金融数据为例,对本发明实施例进行详细说明。图3是根据本发明优选实施例的异常数据检测方法的流程图,如图3所示,包括:
步骤S301,收集金融数据,确定自变量和因变量。对金融数据,根据业务知识和经验收集线性相关的金融标签和特征数据,确定自变量X和因变量Y。需要诊断异常值的金融领域数据最好是被解释变量Y,或者是关键的自变量X(最终能纳入模型进行异常值诊断)。
步骤S302,剔除明显异常值,将数据处理为标准化数据。对收集的金融数据首先根据专业知识或个人经验,判断是否有超过理论范围值或明显不符合实际情况的错误,做好标记并剔除这部分数据。之后对数据统一进行标准化处理。
步骤S303,剔除标准化处理后绝对数值大于预设值的观测值,逐步回归筛选变量。为了减轻异常值对变量筛选过程的影响,对于步骤S302中的数据,进一步删除绝对数值大于预设值(例如3)的观测值。然后使用逐步回归筛选自变量,得到对因变量Y有显著影响的自变量子集x=(Xi,X2,…,Xp)T。
步骤S304,建立稳健的回归模型,得到参数估计值。接着使用步骤S302中的数据,采用稳健的估计方法对步骤S303中筛选出的自变量拟合多元线性回归模型:Yi=β1Xi1+…+βpXip+ei,i=1,2,…,n(数据经过标准化处理,模型没有截距项),ei是独立同分布的随机误差项,β=(β1,β2,…,βp)T是回归系数向量,第i个观测值的残差定义为回归系数向量的稳健MM估计定义如下:
为了抵御异常值对参数估计的影响,ρ(x)不再取平方损失函数,可取双权型函数:k取4.685可保证得到的回归系数向量估计值具有95%的效率(相对于OLS估计)。回归系数向量的稳健MM估计可以采用Salibian-Barrera和Yohai提出的重复加权迭代最小二乘算法求解,求解过程中的初始值和可由S估计给出。S估计是基于最小化尺度求解得到的,的定义为: 作为稳健的尺度估计,其定义为:Z~N(0,1)。对于S估计,损失函数可取双权型函数,k取1.547,可使崩溃点达到50%。S估计也可以由Salibian-Barrera和Yohai提出的算法进行求解。
步骤S305,利用回归模型拟合值计算相关指标,根据临界值划分异常值类型。利用步骤S304得出的和计算稳健标准化残差该指标能够衡量观测值偏离拟合曲线的程度,可以用来识别回归异常值。接着,计算自变量x=(Xi,X2,…,Xp)T的稳健马氏距离RDi,其计算公式为:
其中均值向量μMCD和协方差矩阵ΣMCD是由MCD估计得到的可以抵御异常值影响的稳健估计量,可由Rousseeuw和VanDriessen的快速MCD算法求出。RDi可用来诊断来自自变量方向的异常值。以RDi作为横轴,以RRi作为纵轴,制作RR-RD图。对于横轴,由于稳健马氏距离的平方在一定条件下服从χ2(p),可以以作为临界值,超过这一临界值可以认为是x方向上的异常值。对于纵轴,稳健标准化残差以作为临界值,在残差服从正态分布的前提下,超出这一临界值的概率为2.5%,因此超过这一临界值的点可看作回归异常值。根据RR―RD诊断图将观察值分为四类:正常的观察值(|RRi|和RDi数值上都小)、回归异常值(|RRi|数值上大,RDi数值上小)、坏的杠杆点(|RRi|和RDi数值上都大)、好的杠杆点(|RRi|数值上小,RDi数值上大)。
实施例2
根据本发明的另一个实施例,还提供了一种异常数据检测装置,图4是根据本发明实施例的异常数据检测装置的框图,如图4所示,包括:
第一获取模块42,用于获取待测业务数据的特征数据;
输入模块44,用于根据所述特征数据输入预先拟合的多元线性回归模型中,得到所述多元线性回归模型输出的所述特征数据的目标标签;
第一确定模块46,用于根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差,并确定所述特征数据的稳健马氏距离;
第二确定模块48,用于根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果。
可选地,所述第二确定模块48包括:
第一对比子模块,用于将所述稳健马氏距离与预先确定的横轴临界值进行对比,得到第一对比结果;
第二对比子模块,用于将所述稳健标准化残差与预先确定的纵轴临界值进行对比,得到第二对比结果;
第一确定子模块,用于根据所述第一对比结果与所述第二对比结果确定所述异常检测结果。
可选地,所述第一确定子模块46,还用于:
若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为正常;
若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为回归异常值;
若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为坏的杠杆点;
若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为好的杠杆点。
可选地,所述第一确定模块46包括:
第二确定子模块,用于采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差;
第三确定子模块,用于根据所述MM估计与所述回归标准误差确定所述特征数据的稳健标准化残差。
可选地,所述装置还包括:
第三确定模块,用于确定预定数量的业务数据的自变量与因变量;
筛选模块,用于对所述自变量进行变量筛选,得到筛选后的自变量;
拟合模块,用于根据所述筛选后的自变量与对应的因变量拟合所述多元线性回归模型。
可选地,所述拟合模块,还用于
通过以下方式根据所述筛选后的自变量拟合所述多元线性回归模型:
Yi=β1Xi1+…+βpXip+ei,i=1,2,…,n;
其中,Yi为自变量Xi对应的因变量,x=(Xi,X2,…,Xp)T为所述筛选后的自变量,ei是独立同分布的随机误差项,β=(β1,β2,…,βp)T是所述多元线性回归模型的参数向量。
可选地,所述装置还包括:
第二获取模块,用于获取所述多元线性回归模型输出的所述筛选后的自变量的目标标签;
第四确定模块,用于根据所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签确定所述筛选后的自变量的稳健标准化残差,并确定所述筛选后的自变量的稳健马氏距离;
制作模块,用于以所述稳健马氏距离为横轴,以所述稳健标准化残差为纵轴,制作RR-RD诊断图。
可选地,所述第四确定模块,还用于:
将所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签的差值确定为观测值的残差;
采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差;
根据所述MM估计与所述回归标准误差确定所述筛选后的自变量的稳健标准化残差。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待测业务数据的特征数据;
S2,根据所述特征数据输入预先拟合的多元线性回归模型中,得到所述多元线性回归模型输出的所述特征数据的目标标签;
S3,根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差,并确定所述特征数据的稳健马氏距离;
S4,根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待测业务数据的特征数据;
S2,根据所述特征数据输入预先拟合的多元线性回归模型中,得到所述多元线性回归模型输出的所述特征数据的目标标签;
S3,根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差,并确定所述特征数据的稳健马氏距离;
S4,根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种异常数据检测方法,其特征在于,包括:
获取待测业务数据的特征数据;
根据所述特征数据输入预先拟合的多元线性回归模型中,得到所述多元线性回归模型输出的所述特征数据的目标标签;
根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差,并确定所述特征数据的稳健马氏距离;
根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果。
2.根据权利要求1所述的方法,其特征在于,根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果包括:
将所述稳健马氏距离与预先确定的横轴临界值进行对比,得到第一对比结果;
将所述稳健标准化残差与预先确定的纵轴临界值进行对比,得到第二对比结果;
根据所述第一对比结果与所述第二对比结果确定所述异常检测结果。
3.根据权利要求2所述的方法,其特征在于,根据所述第一对比结果与所述第二对比结果确定所述异常检测结果包括:
若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为正常;
若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为回归异常值;
若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为坏的杠杆点;
若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为好的杠杆点。
4.根据权利要求1所述的方法,其特征在于,根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差包括:
采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差;
根据所述MM估计与所述回归标准误差确定所述特征数据的稳健标准化残差。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
确定预定数量的业务数据的自变量与因变量;
对所述自变量进行变量筛选,得到筛选后的自变量;
根据所述筛选后的自变量与对应的因变量拟合所述多元线性回归模型。
6.根据权利要求5所述的方法,其特征在于,根据所述筛选后的自变量与对应的因变量拟合所述多元线性回归模型包括:
通过以下方式根据所述筛选后的自变量拟合所述多元线性回归模型:
Yi=β1Xi1+…+βpXip+ei,i=1,2,…,n;
其中,Yi为自变量Xi对应的因变量,x=(Xi,X2,…,Xp)T为所述筛选后的自变量,ei是独立同分布的随机误差项,β=(β1,β2,…,βp)T是所述多元线性回归模型的参数向量。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取所述多元线性回归模型输出的所述筛选后的自变量的目标标签;
根据所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签确定所述筛选后的自变量的稳健标准化残差,并确定所述筛选后的自变量的稳健马氏距离;
以所述稳健马氏距离为横轴,以所述稳健标准化残差为纵轴,制作RR-RD诊断图。
8.根据权利要求7所述的方法,其特征在于,根据所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签确定所述筛选后的自变量的稳健标准化残差包括:
将所述筛选后的自变量的目标标签与所述筛选后的自变量的实际标签的差值确定为观测值的残差;
采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差;
根据所述MM估计与所述回归标准误差确定所述筛选后的自变量的稳健标准化残差。
9.一种异常数据检测装置,其特征在于,包括:
第一获取模块,用于获取待测业务数据的特征数据;
输入模块,用于根据所述特征数据输入预先拟合的多元线性回归模型中,得到所述多元线性回归模型输出的所述特征数据的目标标签;
第一确定模块,用于根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差,并确定所述特征数据的稳健马氏距离;
第二确定模块,用于根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111307471.3A CN114020971A (zh) | 2021-11-05 | 2021-11-05 | 一种异常数据检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111307471.3A CN114020971A (zh) | 2021-11-05 | 2021-11-05 | 一种异常数据检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114020971A true CN114020971A (zh) | 2022-02-08 |
Family
ID=80061768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111307471.3A Pending CN114020971A (zh) | 2021-11-05 | 2021-11-05 | 一种异常数据检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114020971A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115097244A (zh) * | 2022-06-22 | 2022-09-23 | 江苏林洋能源股份有限公司 | 一种精准定位电力系统中用电异常或窃电用户的方法 |
CN115774185A (zh) * | 2023-02-13 | 2023-03-10 | 江苏泰治科技股份有限公司 | 一种车规级芯片dpat检测方法及装置 |
CN118035660A (zh) * | 2024-01-31 | 2024-05-14 | 浙江清芯微电子有限公司 | 基于自带mcu载波芯片的计量参数智能清洗方法与系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016012263A (ja) * | 2014-06-30 | 2016-01-21 | 株式会社Ihi | 異常診断装置 |
WO2019012726A1 (en) * | 2017-07-14 | 2019-01-17 | Kabushiki Kaisha Toshiba | ANOMALY DETECTION DEVICE, ANOMALY DETECTION METHOD, AND NON-TRANSIENT COMPUTER READABLE MEDIUM |
CN110858262A (zh) * | 2018-08-16 | 2020-03-03 | 三菱重工业株式会社 | 异常检测装置、异常检测方法及非暂时性计算机可读介质 |
CN112362987A (zh) * | 2020-10-28 | 2021-02-12 | 广东电网有限责任公司佛山供电局 | 一种基于稳健估计的避雷器故障诊断方法 |
-
2021
- 2021-11-05 CN CN202111307471.3A patent/CN114020971A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016012263A (ja) * | 2014-06-30 | 2016-01-21 | 株式会社Ihi | 異常診断装置 |
WO2019012726A1 (en) * | 2017-07-14 | 2019-01-17 | Kabushiki Kaisha Toshiba | ANOMALY DETECTION DEVICE, ANOMALY DETECTION METHOD, AND NON-TRANSIENT COMPUTER READABLE MEDIUM |
CN110858262A (zh) * | 2018-08-16 | 2020-03-03 | 三菱重工业株式会社 | 异常检测装置、异常检测方法及非暂时性计算机可读介质 |
CN112362987A (zh) * | 2020-10-28 | 2021-02-12 | 广东电网有限责任公司佛山供电局 | 一种基于稳健估计的避雷器故障诊断方法 |
Non-Patent Citations (5)
Title |
---|
卢二坡等: "基于稳健MM估计的统计数据质量评估方法", 统计研究, pages 16 - 22 * |
宫庆硕;冯爱芬;蔡雪瑞;: "基于多元统计回归的国内旅游收入预测研究", 农村经济与科技, no. 09, pages 110 - 111 * |
张福旺;苑会娟;: "基于多元线性回归的空腹血糖影响因素分析方法", 计算机科学, no. 2, pages 555 - 557 * |
王海娜: "线性回归模型的若干稳健估计方法及应用实例", 中国优秀硕士学位论文全文数据库基础科学辑, pages 002 - 184 * |
黄远敏;吴量;: "消费品物价及相关因素线性统计分析", 知识经济, no. 10, pages 17 - 18 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115097244A (zh) * | 2022-06-22 | 2022-09-23 | 江苏林洋能源股份有限公司 | 一种精准定位电力系统中用电异常或窃电用户的方法 |
CN115774185A (zh) * | 2023-02-13 | 2023-03-10 | 江苏泰治科技股份有限公司 | 一种车规级芯片dpat检测方法及装置 |
CN118035660A (zh) * | 2024-01-31 | 2024-05-14 | 浙江清芯微电子有限公司 | 基于自带mcu载波芯片的计量参数智能清洗方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106959400B (zh) | 一种基于异常点监测和大数据分析的二次设备隐患故障诊断方法 | |
WO2018103453A1 (zh) | 检测网络的方法和装置 | |
CN110830450A (zh) | 基于统计的异常流量监测方法、装置、设备及存储介质 | |
CN111475680A (zh) | 检测异常高密子图的方法、装置、设备及存储介质 | |
CN114020971A (zh) | 一种异常数据检测方法及装置 | |
CN108919059A (zh) | 一种电网故障诊断方法、装置、设备及可读存储介质 | |
CN113837596B (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
CN108206813B (zh) | 基于k均值聚类算法的安全审计方法、装置及服务器 | |
CN110570544A (zh) | 飞机燃油系统故障识别方法、装置、设备和存储介质 | |
CN109714201B (zh) | 网络系统可靠性评估方法、装置、计算机设备和存储介质 | |
CN109040084B (zh) | 一种网络流量异常检测方法、装置、设备及存储介质 | |
CN116126947B (zh) | 应用于企业管理系统的大数据分析方法及系统 | |
CN111984442A (zh) | 计算机集群系统的异常检测方法及装置、存储介质 | |
CN111796233A (zh) | 双母线接线形式下多台电压互感器继发性误差的评估方法 | |
CN115964211A (zh) | 一种根因定位方法、装置、设备和可读介质 | |
CN112379325A (zh) | 一种用于智能电表的故障诊断方法及系统 | |
CN110348717B (zh) | 基于栅格粒度的基站价值评分方法和装置 | |
CN114936614B (zh) | 一种基于神经网络的作业风险识别方法及系统 | |
CN109993556B (zh) | 用户行为分析方法、装置、计算设备及存储介质 | |
US20220230028A1 (en) | Determination method, non-transitory computer-readable storage medium, and information processing device | |
CN114398964A (zh) | 故障诊断方法、装置、电子设备和存储介质 | |
CN113869373A (zh) | 设备异常检测方法、装置、计算机设备和存储介质 | |
US9054995B2 (en) | Method of detecting measurements in service level agreement based systems | |
CN113641848B (zh) | 一种电子产品的在线组装连接指导方法及系统 | |
CN116996403B (zh) | 应用ai模型的网络流量诊断方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220208 |
|
RJ01 | Rejection of invention patent application after publication |