CN109521725A - 检测异常数据的方法、装置和设备以及机器可读介质 - Google Patents
检测异常数据的方法、装置和设备以及机器可读介质 Download PDFInfo
- Publication number
- CN109521725A CN109521725A CN201710851825.8A CN201710851825A CN109521725A CN 109521725 A CN109521725 A CN 109521725A CN 201710851825 A CN201710851825 A CN 201710851825A CN 109521725 A CN109521725 A CN 109521725A
- Authority
- CN
- China
- Prior art keywords
- data
- collection
- detection
- dimension array
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/05—Programmable logic controllers, e.g. simulating logic interconnections of signals according to ladder diagrams or function charts
- G05B19/058—Safety, monitoring
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0221—Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0224—Process history based detection method, e.g. whereby history implies the availability of large amounts of data
- G05B23/0227—Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions
- G05B23/0235—Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions based on a comparison with predetermined threshold or range, e.g. "classical methods", carried out during normal operation; threshold adaptation or choice; when or how to compare with the threshold
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0243—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model
- G05B23/0254—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model based on a quantitative model, e.g. mathematical relationships between inputs and outputs; functions: observer, Kalman filter, residual calculation, Neural Networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
- G06N5/047—Pattern matching networks; Rete networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/10—Plc systems
- G05B2219/14—Plc safety
- G05B2219/14006—Safety, monitoring in general
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Detection And Correction Of Errors (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及用于检测异常数据的方法、装置和设备,该方法包括:利用顺序采集的相互关联的至少两个数据来创建至少两个检测数据集,其中,每一个检测数据集包含至少两个数据中的第一数目的顺序采集的数据;利用一个自编码器来处理至少两个检测数据集,以输出与至少两个检测数据集各自对应的结果数据集,其中,所述第一数目等于所述自编码器的输入层的神经元数目,所述自编码器是利用与所述至少两个数据具有一致的变化规律的训练数据训练的;以及,基于所述至少两个检测数据集及其对应的所述结果数据集,确定所述至少两个数据中不具有所述变化规律的数据作为异常数据。该方法、装置和设备能够检测所有类型的顺序采集的相互关联的数据中的异常数据。
Description
技术领域
本发明涉及用于检测异常数据的方法、装置和设备以及机器可读介质。
背景技术
通常,需要从例如生产线、机床等各种受监测的对象中顺序采集许多数据以检测该对象的工作情况,这些被采集的数据是相互关联的。所采集的数据的质量通常受许多原因的影响,例如传感器失效、通信链路拥挤和服务器存储故障等。异常数据是严重数据质量问题的其中一种。异常数据可能是太小,太大,或者,非常不同于由某种标准判定的其它数据。
目前已经出现许多用于检测异常数据的方法,例如,基于3δ原则的检测方法、小波平滑法和速度约束平滑法等。但是,这些方法并不是顺序采集的相互关联的数据的通用解决方案,即其不能检测有些类型的顺序采集的相互关联的数据中的异常数据。例如,基于3δ原则的检测方法不能检测未满足正态分布的数据中的异常数据,小波平滑法不能检测剧烈振动信号中的异常数据,速度约束平滑法不能检测方波数据中的异常数据等。
发明内容
考虑到现有技术的上述问题,本发明的实施例提供用于检测异常数据的方法、装置和设备以及机器可读介质,其能够检测所有类型的顺序采集的相互关联的数据中的异常数据。
按照本发明的实施例的一种用于检测异常数据的方法,该方法包括:利用顺序采集的相互关联的至少两个数据来创建至少两个检测数据集,其中,每一个检测数据集包含所述至少两个数据中的第一数目的顺序采集的数据;利用一个自编码器来处理所述至少两个检测数据集,以输出与所述至少两个检测数据集各自对应的结果数据集,其中,所述第一数目等于所述自编码器的输入层的神经元数目,所述自编码器是利用与所述至少两个数据具有一致的变化规律的训练数据训练的;以及,基于所述至少两个检测数据集及其对应的所述结果数据集,确定所述至少两个数据中不具有所述变化规律的数据作为异常数据。这里,由于根据已利用具有一定变化规律的顺序采集的相互关联的样本数据训练后的自编码器的输入数据和输出数据之间的差异,能够找出具有该变化规律的顺序采集的相互关联的被检测数据中不具有该变化规律的异常数据,以及,所有类型的顺序采集的相互关联的数据都具有各自的变化规律,因此,本实施例的利用自编码器来检测异常数据的方法能够检测所有类型的顺序采集的相互关联的数据中的异常数据。
在一个方面,所述确定所述至少两个数据中不具有所述变化规律的数据作为异常数据包括:利用包含所述至少两个数据中的任一数据的检测数据集及其对应的结果数据集,计算所述任一数据的残差,以得到所述至少两个数据各自的残差;找出所述至少两个数据中其残差大于一个第一阈值的数据,作为所述异常数据。这里,利用被检测数据的残差来找出被检测数据中的异常数据,可以方便快捷地找到被检测数据中的异常数据。
在另一个方面,所述确定所述至少两个数据中不具有所述变化规律的数据作为异常数据还包括:基于所述至少两个数据各自的残差,来确定所述第一阈值。这里,基于被检测数据的残差来确定用于判定异常数据的阈值,可以容易地确定用于判定异常数据的阈值。
在又一个方面,所述创建多个检测数据集包括:将所述多个数据转换成一维数组,其中,在所述一维数组中所述多个数据按照生成的次序从所述一维数组的头部到尾部依次排列;以一次滑过一个数据的方式,将一个长度为所述指定数目的滑动窗口从所述一维数组的头部滑动到所述一维数组的尾部;以及,利用每次滑动后所述滑动窗口所覆盖的数据来形成一个检测数据集,以得到所述多个检测数据集。这里,将数据转换成一维数组可以便于存储和后续处理,以及,通过滑动窗口创建检测数据集可以容易创建检测数据集。
按照本发明的实施例的一种用于检测异常数据的装置,该装置包括:一个创建模块,用于利用顺序采集的相互关联的至少两个数据来创建至少两个检测数据集,其中,每一个检测数据集包含所述至少两个数据中的第一数目的顺序采集的数据;一个处理模块,用于利用一个自编码器来处理所述至少两个检测数据集,以输出与所述至少两个检测数据集各自对应的结果数据集,其中,所述第一数目等于所述自编码器的输入层的神经元数目,所述自编码器是利用与所述至少两个数据具有一致的变化规律的训练数据训练的;以及,一个确定模块,用于基于所述至少两个检测数据集及其对应的所述结果数据集,确定所述至少两个数据中不具有所述变化规律的数据作为异常数据。这里,由于根据已利用具有一定变化规律的顺序采集的相互关联的样本数据训练后的自编码器的输入数据和输出数据之间的差异,能够找出具有该变化规律的顺序采集的相互关联的被检测数据中不具有该变化规律的异常数据,以及,所有类型的顺序采集的相互关联的数据都具有各自的变化规律,因此,本实施例的利用自编码器来检测异常数据的方法能够检测所有类型的顺序采集的相互关联的数据中的异常数据
在一个方面,所述确定模块包括:一个计算模块,用于利用包含所述至少两个数据中的任一数据的检测数据集及其对应的结果数据集,计算所述任一数据的残差,以得到所述至少两个数据各自的残差;以及,一个寻找模块,用于找出所述至少两个数据中其残差大于一个第一阈值的数据,作为所述异常数据。这里,利用被检测数据的残差来找出被检测数据中的异常数据,可以方便快捷地找到被检测数据中的异常数据。
在另一个方面,所述确定模块还包括:一个用于基于所述至少两个数据各自的残差,来确定所述第一阈值的模块。这里,基于被检测数据的残差来确定用于判定异常数据的阈值,可以容易地确定用于判定异常数据的阈值。
在又一个方面,所述创建模块包括:一个转换模块,用于将所述多个数据转换成一维数组,其中,在所述一维数组中所述多个数据按照生成的次序从所述一维数组的头部到尾部依次排列;一个滑动模块,用于以一次滑过一个数据的方式,将一个长度为所述指定数目的滑动窗口从所述一维数组的头部滑动到所述一维数组的尾部;以及,一个形成模块,用于利用每次滑动后所述滑动窗口所覆盖的数据来形成一个检测数据集,以得到所述多个检测数据集。这里,将数据转换成一维数组可以便于存储和后续处理,以及,通过滑动窗口创建检测数据集可以容易创建检测数据集。
按照本发明的实施例的一种用于检测异常数据的设备,该设备包括:至少一个处理器;以及,至少一个存储器,用于存储可执行指令,当所述可执行指令被执行时,使得所述至少一个处理器执行前述的方法。
按照本发明的实施例的一种机器可读介质,其上存储有可执行指令,所述可执行指令当被执行时使得处理器执行前述的方法。
附图说明
本发明的其它特征、特点、优点和益处通过以下结合附图的详细描述将变得更加显而易见。
图1示出了按照本发明的一个实施例的用于训练自编码器的方法的流程图。
图2示出了按照本发明的一个实施例的用于检测异常数据的方法的总体流程图。
图3示出了按照本发明的一个实施例的用于检测异常数据的方法的流程图。
图4示出了按照本发明的一个实施例的用于检测异常数据的装置的示意图。
图5示出了按照本发明的一个实施例的用于检测异常数据的设备的示意图。
100:用于训练自编码器的方法 102:将样本数据转换成一维数组
104:对一维数组进行归一化处理 106:创建多个训练数据集
108:训练自编码器 200:用于检测异常数据的方法
202:将数据转换成一维数组 204:对一维数组进行归一化处理
206:创建多个检测数据集 208:获取检测数据集对应的结果数据集
210:计算数据各自的残差 212:计算残差的均方差
214:计算判定异常数据的阈值 216:确定数据中的异常数据
300:用于检测异常数据的方法 302:创建检测数据集
304:获得结果数据集 306:确定异常数据
400:用于检测异常数据的装置 402:创建模块
404:处理模块 406:确定模块
500:用于检测异常数据的设备 502:处理器
504:存储器
具体实施方式
自编码器是一种具有一个输入层、一个或多个隐藏层和一个输出层的神经网络,其中,自编码器的输入层和输出层具有相同数目的神经元。
由于自编码器的输入层和输出层具有相同数目的神经元,因此,自编码器实际上模拟使自编码器的输出数据等于自编码器的输入数据的恒等函数。
由于自编码器模拟使自编码器的输出数据等于自编码器的输入数据的恒等函数的特性,因此,在利用某种类型的具有某种变化规律的顺序采集的相互关联的数据对自编码器训练之后,如果属于该某种类型的数据In是具有该变化规律的正常数据,那么自编码器对数据In处理后输出的数据On非常接近数据In,相应地数据On和数据In之间的差异相对较小,相反,如果属于该某种类型的数据Ia是不具有该变化规律的异常数据,那么自编码器对数据Ia处理后输出的数据Oa不接近数据Ia,相应地数据Oa和数据Ia之间的差异相对较大。换言之,可以根据自编码器的输入数据和输出数据之间的差异,来找出异常数据。
由于所有类型的顺序采集的相互关联的数据都具有各自的变化规律,因此,对于每一种类型的具有某种变化规律的顺序采集的相互关联的数据而言,可以根据已利用该种类型的数据训练之后的自编码器的输入数据和输出数据之间的差异,来找出该种类型的数据中不具有该变化规律的异常数据。
本发明的各个实施例的方案利用自编码器的上述特性来检测数据中的异常数据集,因此,本发明的各个实施例的方案能够检测所有类型的顺序采集的相互关联的数据中的异常数据。
下面,将参照附图详细描述本发明的各个实施例。
现在参见图1,其示出了按照本发明的一个实施例的用于训练自编码器的方法的流程图。图1所示的方法100使用类型T的具有变化规律R的顺序采集的相互关联的多个样本数据SM作为训练数据,来训练自编码器AE,其中,该多个样本数据SM具有正常数据和异常数据,并且该多个样本数据SM中的哪些数据是正常数据和哪些数据是异常数据是已知的。优选地,自编码器AE的隐藏层的神经元的数目不小于三。图1所示的方法100可以由诸如服务器、笔记本电脑、台式计算机等具有计算能力的设备执行。
如图1所示,在方框102,将该多个样本数据SM转换成一维数组AR。其中,在一维数组AR中该多个样本数据SM按照被采集的次序从一维数组AR的头部排列到一维数组AR的尾部。
在方框104,对一维数组AR进行归一化处理,以使得一维数组AR中的各个数据都处于[0,1]的范围内。例如,归一化处理可以是:首先,找出一维数组AR中的最大数据;然后,使得一维数组AR中的各个数据分别除以该最大数据。又例如,归一化处理可以是:首先,找出一维数组AR中的最大数据和最小数据;然后,计算最大数据与最小数据的差值Diff;接着,使得一维数组AR中的各个数据分别减去最小数据,得到初步处理的一维数组;最后,将该初步处理的一维数组中的各个数据分别除以该差值Diff。
在方框106,创建多个训练数据集TRS。具体地,将一个长度为p1的滑动窗口SLIW,以一次滑过一个数据的方式,从归一化处理后的一维数组AR的头部逐步滑动到归一化处理后的一维数组AR的尾部,把每次滑动后滑动窗口SLIW所覆盖的p1个数据创建一个训练数据集,从而创建得到该多个训练数据集TRS,其中,p1等于自编码器AE的输入层(或输出层)的神经元的数目。显然,该多个样本数据SM中的每一个数据至少被包括在一个训练数据集中且最多被包括在p1个训练数据集中。
在方框108,训练自编码器AE。具体地,将该多个训练数据集TRS以一次输入一个训练数据集的方式输入给编码器AE,以训练自编码器AE。在将该多个训练数据集TRS都输入给自编码器AE完成训练之后,编码器AE的输入层、隐藏层和输出层中的各个参数都已确定,从而得到已训练的自编码器AE。
现在参见图2,其示出了按照本发明的一个实施例的用于检测异常数据的方法的总体流程图。图2所示的方法200利用已通过图1的方法训练的自编码器AE,检测类型T的顺序采集的相互关联的多个数据TT中的异常数据,其中,该多个数据TT与用于训练自编码器AE的该多个样本数据SM具有一致的变化规律R。图2所示的方法200可以由诸如服务器、笔记本电脑、台式计算机等具有计算能力的设备执行。
如图2所示,在方框202,将该多个数据TT转换成一维数组RY。其中,在一维数组RY中该多个数据TT按照被采集的次序从一维数组RY的头部排列到一维数组RY的尾部。这里,将数据TT转换成一维数组,可以便于存储和后续处理。
在方框204,对一维数组RY进行归一化处理,以使得一维数组RY中的各个数据都处于[0,1]的范围内。这里,对一维数组RY进行归一化处理,可以便于后续处理。
在方框206,创建多个检测数据集DES。具体地,将前面提到的长度为p1的滑动窗口SLIW,以一次滑过一个数据的方式,从归一化处理后的一维数组RY的头部逐步滑动到归一化处理后的一维数组RY的尾部,把每次滑动后滑动窗口SLIW所覆盖的p1个数据创建一个检测数据集,从而创建得到该多个检测数据集DES。如上面所提到,p1等于自编码器AE的输入层(或输出层)的神经元的数目。显然,该多个数据TT中的每一个数据至少被包括在一个训练数据集中且最多被包括在p1个训练数据集中。这里,通过滑动窗口来创建检测数据集,能够容易地创建检测数据集。
在方框208,获取检测数据集DES对应的结果数据集。具体地,使用已训练的自编码器AE对该多个检测数据集DES逐一进行处理,以得到自编码器AE输出的该多个检测数据集DES各自对应的结果数据集。由于自编码器AE的输入层和输出层的神经元的数目相同的特性,因此,每一个检测数据集及其对应的结果数据集具有相同数目p1的数据。
在方框210,计算该多个数据TT各自的残差。具体地,对于该多个数据TT中的任一数据TT(i),从该多个检测数据集DES中找出包含数据TT(i)的检测数据集(其数量为一个或多个),计算所找出的检测数据集与其对应的结果数据集的均方差,作为数据TT(i)的残差,从而得到该多个数据TT各自的残差。例如,假设包含数据TT(i)的检测数据集是DESj、DESn和DESp,以及检测数据集DESj、DESn和DESp各自对应的结果数据集分别是RESLj、RESLn和RESLp,那么数据TT(i)的残差等于:
在方框212,计算残差的均方差,即计算该多个数据TT的残差的均方差A。
在方框214,计算用于判定异常数据的阈值TH。具体的,计算均方差A的三倍作为阈值TH。
在方框216,确定该多个数据TT中的异常数据。具体地,将该多个数据TT各自的残差分别与阈值TH进行比较。如果比较发现该多个数据TT中的一个或多个数据的残差大于阈值TH,则确定该一个或多个数据是异常数据。所确定的异常数据是该多个数据TT中不具有变化规律R的数据。
其它变型
本领域技术人员应当理解,虽然在上面的实施例中,数据TT被转换成一维数组以便于存储和后续处理,然而,本发明并不局限于此。在本发明的其它一些实施例中,数据TT也可以不转换成一维数组。
本领域技术人员应当理解,虽然在上面的实施例中,一维数组RY被进行归一化处理,然而,本发明并不局限于此。在本发明的其它一些实施例中,也可以不对一维数组RY进行归一化处理。
本领域技术人员应当理解,虽然在上面的实施例中,利用滑动窗口来创建检测数据集,然而,本发明并不局限于此。在本发明的其它一些实施例中,也可以通过其它的方式来从待检测的数据中创建检测数据集。
本领域技术人员应当理解,虽然在上面的实施例中,将被检测数据的残差的均方差的三倍作为用于判定异常数据的阈值,然而,本发明并不局限于此。在本发明的其它一些实施例中,用于判定异常数据的阈值也可以是基于被检测数据的残差以其它的方式而确定的。这里,基于被检测数据的残差来确定用于判定异常数据的阈值,可以容易地确定用于判定异常数据的阈值。
现在参见图3,其示出了按照本发明的一个实施例的用于检测异常数据的方法的流程图。图3所示的方法300可以由诸如服务器、笔记本电脑、台式计算机等具有计算能力的设备执行。
如图3所示,方法300可以包括,在方框302,创建检测数据集,即利用顺序采集的相互关联的至少两个数据来创建至少两个检测数据集,其中,每一个检测数据集包含所述至少两个数据中的第一数目的顺序采集的数据。例如但不局限于,可以如方法200的方框206所示的,利用滑动窗口来创建检测数据集。
方法300还可以包括,在方框304,获得结果数据集,即利用一个自编码器来处理所述至少两个检测数据集,以输出与所述至少两个检测数据集各自对应的结果数据集,其中,所述第一数目等于所述自编码器的输入层的神经元数目,所述自编码器是利用与所述至少两个数据具有一致的变化规律的训练数据训练的。
方法300还可以包括,在方框306,确定异常数据,即基于所述至少两个检测数据集及其对应的所述结果数据集,确定所述至少两个数据中不具有所述变化规律的数据作为异常数据。。
这里,由于根据已利用具有一定变化规律的顺序采集的相互关联的样本数据训练后的自编码器的输入数据和输出数据之间的差异,能够找出具有该变化规律的顺序采集的相互关联的被检测数据中不具有该变化规律的异常数据,以及,所有类型的顺序采集的相互关联的数据都具有各自的变化规律,因此,本实施例的利用自编码器来检测异常数据的方法能够检测所有类型的顺序采集的相互关联的数据中的异常数据。
在一个方面,方框306包括:利用包含所述至少两个数据中的任一数据的检测数据集及其对应的结果数据集,计算所述任一数据的残差,以得到所述至少两个数据各自的残差;以及,找出所述至少两个数据中其残差大于一个第一阈值的数据,作为所述异常数据。这里,利用被检测数据的残差来找出被检测数据中的异常数据,可以方便快捷地找到被检测数据中的异常数据。
在另一个方面,方框306还包括:基于所述至少两个数据各自的残差,来确定所述第一阈值。这里,基于被检测数据的残差来确定用于判定异常数据的阈值,可以容易地确定用于判定异常数据的阈值。
在又一个方面,方框302包括:将所述多个数据转换成一维数组,其中,在所述一维数组中所述多个数据按照生成的次序从所述一维数组的头部到尾部依次排列;以一次滑过一个数据的方式,将一个长度为所述指定数目的滑动窗口从所述一维数组的头部滑动到所述一维数组的尾部;以及,利用每次滑动后所述滑动窗口所覆盖的数据来形成一个检测数据集,以得到所述多个检测数据集。这里,将数据转换成一维数组可以便于存储和后续处理,以及,通过滑动窗口创建检测数据集可以容易创建检测数据集。
现在参见图4,其示出了按照本发明的一个实施例的用于检测异常数据的装置的示意图。图4所示的装置400可以利用软件、硬件或软硬件结合的方式来实现。
如图4所示,装置400可以包括一个创建模块402、一个处理模块404和一个确定模块406。创建模块402用于利用顺序采集的相互关联的至少两个数据来创建至少两个检测数据集,其中,每一个检测数据集包含所述至少两个数据中的第一数目的顺序采集的数据。例如但不局限于,可以利用滑动窗口来创建检测数据集。处理模块404用于利用一个自编码器来处理所述至少两个检测数据集,以输出与所述至少两个检测数据集各自对应的结果数据集,其中,所述第一数目等于所述自编码器的输入层的神经元数目,所述自编码器是利用与所述至少两个数据具有一致的变化规律的训练数据训练的。确定模块406用于基于所述至少两个检测数据集及其对应的所述结果数据集,确定所述至少两个数据中不具有所述变化规律的数据作为异常数据。这里,由于根据已利用具有一定变化规律的顺序采集的相互关联的样本数据训练后的自编码器的输入数据和输出数据之间的差异,能够找出具有该变化规律的顺序采集的相互关联的被检测数据中不具有该变化规律的异常数据,以及,所有类型的顺序采集的相互关联的数据都具有各自的变化规律,因此,本实施例的利用自编码器来检测异常数据的方法能够检测所有类型的顺序采集的相互关联的数据中的异常数据。
在一个方面,确定模块406包括:一个计算模块,用于利用包含所述至少两个数据中的任一数据的检测数据集及其对应的结果数据集,计算所述任一数据的残差,以得到所述至少两个数据各自的残差;以及,一个寻找模块,用于找出所述至少两个数据中其残差大于一个第一阈值的数据,作为所述异常数据。这里,利用被检测数据的残差来找出被检测数据中的异常数据,可以方便快捷地找到被检测数据中的异常数据。
在另一个方面,确定模块406还包括:一个用于基于所述至少两个数据各自的残差,来确定所述第一阈值的模块。这里,基于被检测数据的残差来确定用于判定异常数据的阈值,可以容易地确定用于判定异常数据的阈值。
在又一个方面,创建模块402可以包括:一个转换模块,用于将所述多个数据转换成一维数组,其中,在所述一维数组中所述多个数据按照生成的次序从所述一维数组的头部到尾部依次排列;一个滑动模块,用于以一次滑过一个数据的方式,将一个长度为所述指定数目的滑动窗口从所述一维数组的头部滑动到所述一维数组的尾部;以及,一个形成模块,用于利用每次滑动后所述滑动窗口所覆盖的数据来形成一个检测数据集,以得到所述多个检测数据集。这里,将数据转换成一维数组可以便于存储和后续处理,以及,通过滑动窗口创建检测数据集可以容易创建检测数据集。
现在参见图5,其示出了按照本发明的一个实施例的用于检测异常数据的设备的示意图。如图5所示,设备500可以包括至少一个处理器502和至少一个存储器504。该至少一个存储器504用于存储可执行指令,当该可执行指令被执行时使得该至少一个处理器502执行方法100、200或300所包括的操作。
本发明的实施例还提供一种机器可读介质,其上存储有可执行指令,该可读指令在被处理器执行时,使处理器执行前述的任一种方法。具体地,可以提供配有机器可读介质的系统或者装置,在该机器可读介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该机器可读介质中的机器可读指令。
在这种情况下,从机器可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的机器可读介质构成了本发明的一部分。
机器可读介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元可以通过机械方式或电气方式实现。例如,一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.一种用于检测异常数据的方法,包括:
利用顺序采集的相互关联的至少两个数据来创建至少两个检测数据集,其中,每一个检测数据集包含所述至少两个数据中的第一数目的顺序采集的数据;
利用一个自编码器来处理所述至少两个检测数据集,以输出与所述至少两个检测数据集各自对应的结果数据集,其中,所述第一数目等于所述自编码器的输入层的神经元数目,所述自编码器是利用与所述至少两个数据具有一致的变化规律的训练数据训练的;以及
基于所述至少两个检测数据集及其对应的所述结果数据集,确定所述至少两个数据中不具有所述变化规律的数据作为异常数据。
2.如权利要求1所述的方法,其中,所述确定所述至少两个数据中不具有所述变化规律的数据作为异常数据,包括:
利用包含所述至少两个数据中的任一数据的检测数据集及其对应的结果数据集,计算所述任一数据的残差,以得到所述至少两个数据各自的残差;
找出所述至少两个数据中其残差大于一个第一阈值的数据,作为所述异常数据。
3.如权利要求2所述的方法,其中,所述确定所述至少两个数据中不具有所述变化规律的数据作为异常数据还包括:
基于所述至少两个数据各自的残差,确定所述第一阈值。
4.如权利要求1~3任一项所述的方法,其中,所述创建多个检测数据集包括:
将所述多个数据转换成一维数组,其中,在所述一维数组中所述多个数据按照生成的次序从所述一维数组的头部到尾部依次排列;
以一次滑过一个数据的方式,将一个长度为所述第一数目的滑动窗口从所述一维数组的头部滑动到所述一维数组的尾部;以及
利用每次滑动后所述滑动窗口所覆盖的数据来形成一个检测数据集,以得到所述多个检测数据集。
5.一种用于检测异常数据的装置(400),包括:
一个创建模块(402),用于利用顺序采集的相互关联的至少两个数据来创建至少两个检测数据集,其中,每一个检测数据集包含所述至少两个数据中的第一数目的顺序采集的数据;
一个处理模块(404),用于利用一个自编码器来处理所述至少两个检测数据集,以输出与所述至少两个检测数据集各自对应的结果数据集,其中,所述第一数目等于所述自编码器的输入层的神经元数目,所述自编码器是利用与所述至少两个数据具有一致的变化规律的训练数据训练的;以及
一个确定模块(406),用于基于所述至少两个检测数据集及其对应的所述结果数据集,确定所述至少两个数据中不具有所述变化规律的数据作为异常数据。
6.如权利要求5所述的装置(400),其中,所述确定模块(406)包括:
一个计算模块,用于利用包含所述至少两个数据中的任一数据的检测数据集及其对应的结果数据集,计算所述任一数据的残差,以得到所述至少两个数据各自的残差;
一个寻找模块,用于找出所述至少两个数据中其残差大于一个第一阈值的数据,作为所述异常数据。
7.如权利要求6所述的装置(400),其中,所述确定模块(406)还包括:
一个用于基于所述至少两个数据各自的残差,来确定所述第一阈值的模块。
8.如权利要求5~7任一项所述的装置(400),其中,所述创建模块(402)包括:
一个转换模块,用于将所述多个数据转换成一维数组,其中,在所述一维数组中所述多个数据按照生成的次序从所述一维数组的头部到尾部依次排列;
一个滑动模块,用于以一次滑过一个数据的方式,将一个长度为所述第一数目的滑动窗口从所述一维数组的头部滑动到所述一维数组的尾部;以及一个形成模块,用于利用每次滑动后所述滑动窗口所覆盖的数据来形成一个检测数据集,以得到所述多个检测数据集。
9.一种用于检测异常数据的设备(500),包括:
至少一个处理器(502);以及
至少一个存储器(504),用于存储可执行指令,当所述可执行指令被执行时,使得所述至少一个处理器(502)执行权利要求1-4中的任意一个所述的方法。
10.一种机器可读介质,其上存储有可执行指令,所述可执行指令当被执行时使得处理器执行权利要求1-4中的任意一个所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710851825.8A CN109521725A (zh) | 2017-09-20 | 2017-09-20 | 检测异常数据的方法、装置和设备以及机器可读介质 |
EP18195219.3A EP3460612A1 (en) | 2017-09-20 | 2018-09-18 | Method, apparatus and device for detecting abnormal data, and machine-readable medium |
US16/135,043 US11379745B2 (en) | 2017-09-20 | 2018-09-19 | Method, apparatus, device and machine-readable medium for detecting abnormal data using an autoencoder |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710851825.8A CN109521725A (zh) | 2017-09-20 | 2017-09-20 | 检测异常数据的方法、装置和设备以及机器可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109521725A true CN109521725A (zh) | 2019-03-26 |
Family
ID=63798749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710851825.8A Pending CN109521725A (zh) | 2017-09-20 | 2017-09-20 | 检测异常数据的方法、装置和设备以及机器可读介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11379745B2 (zh) |
EP (1) | EP3460612A1 (zh) |
CN (1) | CN109521725A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826607A (zh) * | 2019-10-24 | 2020-02-21 | 北京建筑大学 | 一种滚动轴承的故障检测方法及装置 |
CN110940875A (zh) * | 2019-11-20 | 2020-03-31 | 深圳市华星光电半导体显示技术有限公司 | 设备异常检测方法、装置、存储介质及电子设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767938B (zh) * | 2020-05-09 | 2023-12-19 | 北京奇艺世纪科技有限公司 | 一种异常数据检测方法、装置及电子设备 |
CN111752936B (zh) * | 2020-06-30 | 2024-04-26 | 中国科学院西北生态环境资源研究院 | 数据检测管理方法、装置、服务器及可读存储介质 |
CN113989489A (zh) * | 2021-10-22 | 2022-01-28 | 珠海格力电器股份有限公司 | 非平滑边缘的距离检测方法和系统 |
CN114328203A (zh) * | 2021-12-22 | 2022-04-12 | 支付宝(杭州)信息技术有限公司 | 小程序检测方法及装置 |
CN115184556B (zh) * | 2022-07-13 | 2023-04-21 | 蔡文斯 | 空气质量数据的异常值监测方法、系统及报警终端设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101027617A (zh) * | 2004-08-13 | 2007-08-29 | 新卡特彼勒三菱株式会社 | 数据处理方法,数据处理设备,诊断方法和诊断设备 |
CN106485353A (zh) * | 2016-09-30 | 2017-03-08 | 中国科学院遥感与数字地球研究所 | 空气污染物浓度预报方法及系统 |
CN106682685A (zh) * | 2016-12-06 | 2017-05-17 | 重庆大学 | 基于微波加热温度场分布特征深度学习的局部温度变化异常检测方法 |
CN106707099A (zh) * | 2016-11-30 | 2017-05-24 | 国网上海市电力公司 | 基于异常用电检测模型的监测定位方法 |
WO2017094267A1 (ja) * | 2015-12-01 | 2017-06-08 | 株式会社Preferred Networks | 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法 |
CN107007279A (zh) * | 2017-03-17 | 2017-08-04 | 浙江大学 | 一种基于堆栈式自编码器的无创心内异常激动点定位方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6547275B2 (ja) | 2014-10-29 | 2019-07-24 | 株式会社リコー | 情報処理システム、情報処理装置、情報処理方法、及びプログラム |
US10460251B2 (en) * | 2015-06-19 | 2019-10-29 | Preferred Networks Inc. | Cross-domain time series data conversion apparatus, methods, and systems |
US10152879B2 (en) * | 2015-11-10 | 2018-12-11 | Industrial Technology Research Institute | Method, apparatus, and system for monitoring manufacturing equipment |
US10410113B2 (en) * | 2016-01-14 | 2019-09-10 | Preferred Networks, Inc. | Time series data adaptation and sensor fusion systems, methods, and apparatus |
US20180284735A1 (en) * | 2016-05-09 | 2018-10-04 | StrongForce IoT Portfolio 2016, LLC | Methods and systems for industrial internet of things data collection in a network sensitive upstream oil and gas environment |
US11442445B2 (en) * | 2017-08-02 | 2022-09-13 | Strong Force Iot Portfolio 2016, Llc | Data collection systems and methods with alternate routing of input channels |
-
2017
- 2017-09-20 CN CN201710851825.8A patent/CN109521725A/zh active Pending
-
2018
- 2018-09-18 EP EP18195219.3A patent/EP3460612A1/en not_active Withdrawn
- 2018-09-19 US US16/135,043 patent/US11379745B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101027617A (zh) * | 2004-08-13 | 2007-08-29 | 新卡特彼勒三菱株式会社 | 数据处理方法,数据处理设备,诊断方法和诊断设备 |
WO2017094267A1 (ja) * | 2015-12-01 | 2017-06-08 | 株式会社Preferred Networks | 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法 |
CN106485353A (zh) * | 2016-09-30 | 2017-03-08 | 中国科学院遥感与数字地球研究所 | 空气污染物浓度预报方法及系统 |
CN106707099A (zh) * | 2016-11-30 | 2017-05-24 | 国网上海市电力公司 | 基于异常用电检测模型的监测定位方法 |
CN106682685A (zh) * | 2016-12-06 | 2017-05-17 | 重庆大学 | 基于微波加热温度场分布特征深度学习的局部温度变化异常检测方法 |
CN107007279A (zh) * | 2017-03-17 | 2017-08-04 | 浙江大学 | 一种基于堆栈式自编码器的无创心内异常激动点定位方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826607A (zh) * | 2019-10-24 | 2020-02-21 | 北京建筑大学 | 一种滚动轴承的故障检测方法及装置 |
CN110940875A (zh) * | 2019-11-20 | 2020-03-31 | 深圳市华星光电半导体显示技术有限公司 | 设备异常检测方法、装置、存储介质及电子设备 |
CN110940875B (zh) * | 2019-11-20 | 2022-02-01 | 深圳市华星光电半导体显示技术有限公司 | 设备异常检测方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20190087738A1 (en) | 2019-03-21 |
EP3460612A1 (en) | 2019-03-27 |
US11379745B2 (en) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109521725A (zh) | 检测异常数据的方法、装置和设备以及机器可读介质 | |
CN102265227B (zh) | 用于在机器状况监视中创建状态估计模型的方法和设备 | |
EP3821359A1 (en) | Open source vulnerability prediction with machine learning ensemble | |
WO2014132612A1 (ja) | システム分析装置、及び、システム分析方法 | |
US11550823B2 (en) | Preprocessing for a classification algorithm | |
CN110956613B (zh) | 基于图像质量的目标检测算法性能归一化评价方法及系统 | |
CN115484112B (zh) | 支付大数据安全防护方法、系统及云平台 | |
CN114219306B (zh) | 用于建立焊接质量检测模型的方法、设备、介质 | |
WO2014132611A1 (ja) | システム分析装置、及び、システム分析方法 | |
CN108564569B (zh) | 一种基于多核分类学习的混凝土裂缝检测方法及装置 | |
CA2893812A1 (en) | System, method and program product for automatically matching new members of a population with analogous members | |
CN113646714A (zh) | 生产设备的加工参数设置方法、装置和计算机可读介质 | |
CN115343676A (zh) | 密封电子设备内部多余物定位技术的特征优化方法 | |
CN105224941B (zh) | 对象辨识与定位方法 | |
Awawdeh et al. | Application of outlier detection using re-weighted least squares and R-squared for IoT extracted data | |
US20190331721A1 (en) | Noise spectrum analysis for electronic device | |
CN115932144B (zh) | 色谱仪性能检测方法、装置、设备和计算机介质 | |
CN107067034B (zh) | 一种快速识别红外光谱数据分类的方法及系统 | |
CN110363223A (zh) | 工业流量数据处理方法、检测方法、系统、装置和介质 | |
Bui-Ngoc et al. | Structural health monitoring using handcrafted features and convolution neural network | |
CN116070134A (zh) | 一种基于原型学习的智能设备故障诊断方法及系统 | |
US9473368B1 (en) | Network graph representation of physically connected network | |
CN111047185B (zh) | 贮存环境因素对弹药贮存可靠性影响的确定方法及装置 | |
CN114513374A (zh) | 一种基于人工智能的网络安全威胁识别方法及系统 | |
CN113656354A (zh) | 日志分类方法、系统、计算机设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190326 |