CN112287971A - 一种测试数据自适应动态阈值确定方法 - Google Patents

一种测试数据自适应动态阈值确定方法 Download PDF

Info

Publication number
CN112287971A
CN112287971A CN202011032946.8A CN202011032946A CN112287971A CN 112287971 A CN112287971 A CN 112287971A CN 202011032946 A CN202011032946 A CN 202011032946A CN 112287971 A CN112287971 A CN 112287971A
Authority
CN
China
Prior art keywords
data
theta
threshold value
training set
epsilon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011032946.8A
Other languages
English (en)
Inventor
向刚
田琨
韩峰
陶然
屈辰
徐嫣
许琦
叶绍凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aerospace Automatic Control Research Institute
Original Assignee
Beijing Aerospace Automatic Control Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aerospace Automatic Control Research Institute filed Critical Beijing Aerospace Automatic Control Research Institute
Priority to CN202011032946.8A priority Critical patent/CN112287971A/zh
Publication of CN112287971A publication Critical patent/CN112287971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

一种测试数据自适应动态阈值确定方法,步骤包括:步骤一,对于某个测试数据,选取之前一段时间的数据序列作为训练集;步骤二,为训练集确定初始化门限值θ,计算训练集中超过初始门限θ的概率;步骤三,估计步骤二中概率的参数值;步骤四,计算得到新的门限值ε;步骤五,利用新的门限值ε对实时采集的测量数据进行监测,当某时刻测量数据大于等于ε时,该测量数据记为异常数据;当某时刻测量数据小于ε大于θ时,该测量数据记为正常数据,同时更新门限值ε;当某时刻测量数据小于等于θ时,该测量数据记为正常数据。本发明能够实现对工业设备故障的实时在线检测,不依赖于专家经验和领域先验知识、自动设置阈值、具有良好的可扩展性。

Description

一种测试数据自适应动态阈值确定方法
技术领域
本发明属于工业设备故障检测领域,涉及一种测试数据自适应动态阈值确定方法。
背景技术
对设备的运行状态进行在线监测,对于及时的发现故障,避免设备发生致命性故障有着重要作用。随着电子技术以及传感技术的发展,使得对于设备运行过程中的机、电、热信号进行实时监测成为可能。随着设备复杂程度的增加,监测的参数和数据量也急剧增加。因此在大数据条件下,如何对设备的参数进行监测已成为研究的热点。
对于复杂设备特别是航天器的在线监测,使用最多、最广泛的是基于阈值的专家系统方法。即根据领域知识和专家经验,为每个参数设置一个阈值,当参数的测试数据超过规定的阈值时,则对应的数据被认为是异常点。为了提高设置阈值的准确性,提出了一种成功数据包络分析方法。日本宇宙航空研究开发机构JAXA开发出智能卫星控制软件(ISACS-DOC),被成功地用于Geotail、Nozomi、Hayabusa等任务中。
近年来,随着设备集成化程度的提高,以及长期在轨运行等使用要求的提出,设备在全寿命周期内会产生大量的测试数据。除了产生大规模的测试数据,设备的各监测参数间也存在着极强的耦合关系,独立的监测每个参数,不能反映数据真实的关系。另外,为了能够尽早的发现异常数据,还需要对数据进行实时的监测。
阈值方法操作简便,直观明了,是实际工业设备运行监督工作中使用的主要方法。工况多变的复杂运行环境使得监测变量的正常值并不固定于一点,而是在较大的区域范围内变动。静态阈值判据通常设定较宽的阈值,以防止虚警的发生。但同时也牺牲了诊断的精度和时间,不能起到对异常状态的早期识别和预警作用。对不同运行工况下监测量的正常值获取及相应阈值的准确估计,是合理运用阈值诊断法的关键所在。基于专家系统阈值的方法原理简单,便于实施,但其需要丰富的专家经验和领域先验知识、需要设置的阈值多、可扩展性差,导致其不太适应功能越来越复杂的航天器。基于阈值的专家系统方法的异常监测算法已不能满足使用要求。
另一种常用的方法是对监测的数据进行统计分析,然后计算分位数阈值。分位数阈值可以依据专家经验计算,也可以先假设监测的测试数据服从一定的概率分布(如正态分布、标准分布、指数分布等)然后计算阈值。但是通常监测的数据并不满足这些分布形式,从而导致建模过程非常困难。极值理论可以很好的对监测数据的极值进行分析。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提出一种测试数据自适应动态阈值学习方法。
本发明解决技术的方案是:
一种测试数据自适应动态阈值确定方法,该方法的步骤包括:
步骤一,对于某个测试数据,选取之前一段时间的数据序列作为训练集,训练集X=[x1,x2,…,xn];
步骤二,为训练集确定初始化门限值θ,计算训练集中超过初始门限θ的概率;
超过初始门限θ的概率
Figure BDA0002704270020000021
满足如下公式:
Figure BDA0002704270020000022
步骤三,根据步骤二计算γ、σ(θ)的估计值
Figure BDA0002704270020000023
Figure BDA0002704270020000024
步骤四,按照如下公式计算得到新的门限值ε;
Figure BDA0002704270020000031
其中q为给定的概率,n为训练集的样本数量,Nθ为超过θ的样本数量;
步骤五,利用新的门限值ε对实时采集的测量数据进行监测,当某时刻测量数据大于等于ε时,该测量数据记为异常数据;当某时刻测量数据小于ε大于θ时,该测量数据记为正常数据,同时更新门限值ε;当某时刻测量数据小于等于θ时,该测量数据记为正常数据。
当某时刻测量数据小于ε大于θ时,
Figure BDA0002704270020000032
随之变化,据此更新γ、σ(θ)的估计值
Figure BDA0002704270020000033
Figure BDA0002704270020000034
进而更新门限值ε。
q的取值范围为[10-5,10-3]。
θ的取值为训练集的分位数95%-98%。
训练集的样本数量n应大于1000。
所述步骤一中,首先对测试数据进行平滑预处理,以消除数据中的毛刺,预处后的测试数据作为训练集。
所述步骤五中,对实时采集的测量数据进行监测时,首先对测量数据进行平滑预处理。
按照如下公式对数据进行平滑预处理:
x′n=βx′n-1+(1-β)xn
x′n为测试数据xn平滑预处理后的结果,由x′n组成平滑后的测试数据X′=[x′1,x′2,…,x′n],β表示对于历史测试数据的权重系数。
β取值在0和1之间。
本发明提出的基于极值理论的自适应动态阈值确定方法,能够实现对工业设备故障的实时在线检测。该方法与现有技术相比的有益效果是:
1)本发明能够实现对数据的在线实时监测,并根据不同的运行环境设置自适应动态的阈值参数。
2)本发明采用指数加权移动平均算法对数据进行预处理,能够剔除数据中的野值和毛刺,提高算法的适应性。
3)本发明不依赖于专家经验和领域先验知识、自动设置阈值、具有良好的可扩展性。
附图说明
图1为本发明状态监测过程;
图2为阈值门限示意图。
具体实施方式
下面对本发明作进一步阐述。
根据监测的测试数据当前和前序信息对从未发生过的故障或者异常事件在未来发生的可能性进行预测是本发明要解决的问题。极值理论是处理与概率分布中的中值相离极大的情况的理论,常用来分析概率罕见的情况,如高可靠设备的故障预计等。
1)极值理论
设Xi为随机变量,其累积分布函数为F(x),而X1,X2,…,Xn为独立同分布的随机变量Xi组成的序列,Mn=max{X1,X2,…,Xn},Mn为序列的极大值。如果存在常数序列an>0和bn,满足
Figure BDA0002704270020000041
其中H(x)是非退化的分布函数,那么H(x)必属于下列三种类型之一:
1)I型分布:
H1(x)=exp{-e-x},-∞<x<+∞ (2)
2)II型分布:
Figure BDA0002704270020000042
3)III型分布:
Figure BDA0002704270020000043
其中I型分布称为Gumbel分布,II型分布称为Frechet分布,III型分布称为Weibull分布。这三种分布有统一的表示形式:
H(x)=exp[-(1+γx)-1/γ] (5)
式(4)中1+γx>0。
说明极大值Mn经过线性变换后,依分布收敛于某一非退化分布,那么不管原随机变量的分布为何种形式,这个极限分布H(x)必定属于式(5)。如果可以通过某种估计法得到式(5)中参数的估计值,对于给定的概率q,则可以计算门限值ε,使得P(X>ε)<q。但是,通常很难通过公式(5)来得到参数的估计值的。
本发明创新性地采用如下方式计算:
对于随机变量X,其累积分布函数为F(x)=P(X≤x),定义
Figure BDA0002704270020000051
为尾部分布:
Figure BDA0002704270020000052
当且仅当存在函数σ(θ),对于所有的x∈R且1+γx>0,则有
Figure BDA0002704270020000053
θ为初始化门限值,γ、σ(θ)为
Figure BDA0002704270020000054
的参数。参数γ和σ(θ)可以通过矩量法、概率权重矩法以及最大似然估计等方法进行估计。得到参数γ和σ(θ)的估计值
Figure BDA0002704270020000055
Figure BDA0002704270020000056
后,可以按照公式(7)计算得到新的门限值ε。
Figure BDA0002704270020000057
公式(7)中q为给定的概率,n为样本数量,Nθ为超过初始门限θ的样本数量。2)本发明的实施过程如下:
步骤一,对于某个测试数据,选取之前一段时间的数据序列,对其进行预处理后,作为训练集,训练集X=[x1,x2,…,xx];
步骤二,为训练集确定初始化门限值θ,计算训练集中超过初始门限θ的概率;
超过初始门限θ的概率
Figure BDA0002704270020000058
满足如下公式:
Figure BDA0002704270020000059
步骤三,根据步骤二计算γ、σ(θ)的估计值
Figure BDA00027042700200000510
Figure BDA00027042700200000511
步骤四,按照如下公式计算得到新的门限值ε;
Figure BDA0002704270020000061
其中q为给定的概率,n为训练集的样本数量,Nθ为超过θ的样本数量;概率q的取值范围为[10-5,10-3],θ的取值通常为分位数95%-98%,训练集n通常应大于1000。
步骤五,利用新的门限值ε对实时采集的测量数据进行监测,监测时首先对测量数据进行预处理,当某时刻测量数据大于等于ε时,该测量数据记为异常数据;当某时刻测量数据小于ε大于θ时,该测量数据记为正常数据,同时更新门限值ε;当某时刻测量数据小于等于θ时,该测量数据记为正常数据。
图1为本发明的状态监测过程示意图,图2为采用实际的测试数据进行实时监测的数据,实线为平滑后的数据,虚线为设置的自适应动态门限。
本发明预处理的过程如下:按照如下公式对数据进行平滑预处理:
x′n=βx′n-1+(1-β)xn
x′n为测试数据xn平滑预处理后的误差,由x′n组成平滑后的测试数据X′=[x′1,x′2,…,x′n]。β表示对于历史测试数据的权重系数,取值在0和1之间。
针对现代工业设备需要监测的设备多,设备运行环境复杂,导致设备的监测数据量大,监测值变化范围大的问题,本发明提出一种基于极值理论的自适应动态阈值确定方法,实现对设备故障现象的检测,从而提前发出预警信息,避免灾难性故障的发生。不依赖于专家经验和领域先验知识、自动设置阈值、具有良好的可扩展性。
本发明未详细说明部分属本领域技术人员公知常识。

Claims (9)

1.一种测试数据自适应动态阈值确定方法,其特征在于该方法的步骤包括:
步骤一,对于某个测试数据,选取之前一段时间的数据序列作为训练集,训练集X=[x1,x2,…,xn];
步骤二,为训练集确定初始化门限值θ,计算训练集中超过初始门限θ的概率;
超过初始门限θ的概率
Figure FDA0002704270010000011
满足如下公式:
Figure FDA0002704270010000012
步骤三,根据步骤二计算γ、σ(θ)的估计值
Figure FDA0002704270010000013
Figure FDA0002704270010000014
步骤四,按照如下公式计算得到新的门限值ε;
Figure FDA0002704270010000015
其中q为给定的概率,n为训练集的样本数量,Nθ为超过θ的样本数量;
步骤五,利用新的门限值ε对实时采集的测量数据进行监测,当某时刻测量数据大于等于ε时,该测量数据记为异常数据;当某时刻测量数据小于ε大于θ时,该测量数据记为正常数据,同时更新门限值ε;当某时刻测量数据小于等于θ时,该测量数据记为正常数据。
2.根据权利要求1所述的一种测试数据自适应动态阈值确定方法,其特征在于,当某时刻测量数据小于ε大于θ时,
Figure FDA0002704270010000016
随之变化,据此更新γ、σ(θ)的估计值
Figure FDA0002704270010000017
Figure FDA0002704270010000018
进而更新门限值ε。
3.根据权利要求1所述的一种测试数据自适应动态阈值确定方法,其特征在于,的取值范围为[10-5,10-3]。
4.根据权利要求1所述的一种测试数据自适应动态阈值确定方法,其特征在于,θ的取值为训练集的分位数95%-98%。
5.根据权利要求1所述的一种测试数据自适应动态阈值确定方法,其特征在于,训练集的样本数量n应大于1000。
6.根据权利要求1所述的一种测试数据自适应动态阈值确定方法,其特征在于,所述步骤一中,首先对测试数据进行平滑预处理,以消除数据中的毛刺,预处后的测试数据作为训练集。
7.根据权利要求1所述的一种测试数据自适应动态阈值确定方法,其特征在于,所述步骤五中,对实时采集的测量数据进行监测时,首先对测量数据进行平滑预处理。
8.根据权利要求6或7所述的一种测试数据自适应动态阈值确定方法,其特征在于,按照如下公式对数据进行平滑预处理:
x′m=βx′n-1+(1-β)xn
x′n为测试数据xn平滑预处理后的结果,由x′n组成平滑后的测试数据X′=[x′1,x′2,…,x′n],β表示对于历史测试数据的权重系数。
9.根据权利要求8所述的一种测试数据自适应动态阈值确定方法,其特征在于,β取值在0和1之间。
CN202011032946.8A 2020-09-27 2020-09-27 一种测试数据自适应动态阈值确定方法 Pending CN112287971A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011032946.8A CN112287971A (zh) 2020-09-27 2020-09-27 一种测试数据自适应动态阈值确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011032946.8A CN112287971A (zh) 2020-09-27 2020-09-27 一种测试数据自适应动态阈值确定方法

Publications (1)

Publication Number Publication Date
CN112287971A true CN112287971A (zh) 2021-01-29

Family

ID=74422510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011032946.8A Pending CN112287971A (zh) 2020-09-27 2020-09-27 一种测试数据自适应动态阈值确定方法

Country Status (1)

Country Link
CN (1) CN112287971A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578438A (zh) * 2003-07-15 2005-02-09 三星电子株式会社 用于图像加强的装置及使用其的方法
US20110270792A1 (en) * 2009-10-30 2011-11-03 Massachusetts Institute Of Technology Method and apparatus for hypothesis testing
CN106788817A (zh) * 2016-12-21 2017-05-31 宁波大学 一种基于贝叶斯准则和能量检测法的频谱感知方法
CN107159894A (zh) * 2017-07-05 2017-09-15 嘉兴学院 一种多模式的电流体动力学喷射成形设备及控制方法
US20190354299A1 (en) * 2018-05-16 2019-11-21 Micron Technology, Inc. Memory system quality threshold intersection analysis and configuration
CN111611549A (zh) * 2020-05-25 2020-09-01 中国海洋大学 基于海洋环境参数确定台风影响海域设计波高的方法
CN111643092A (zh) * 2020-06-02 2020-09-11 四川大学华西医院 一种癫痫报警装置及癫痫检测方法
CN111652461A (zh) * 2020-04-13 2020-09-11 北京航空航天大学 基于sae-hmm的航空发动机连续健康状态评估方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578438A (zh) * 2003-07-15 2005-02-09 三星电子株式会社 用于图像加强的装置及使用其的方法
US20110270792A1 (en) * 2009-10-30 2011-11-03 Massachusetts Institute Of Technology Method and apparatus for hypothesis testing
CN106788817A (zh) * 2016-12-21 2017-05-31 宁波大学 一种基于贝叶斯准则和能量检测法的频谱感知方法
CN107159894A (zh) * 2017-07-05 2017-09-15 嘉兴学院 一种多模式的电流体动力学喷射成形设备及控制方法
US20190354299A1 (en) * 2018-05-16 2019-11-21 Micron Technology, Inc. Memory system quality threshold intersection analysis and configuration
CN111652461A (zh) * 2020-04-13 2020-09-11 北京航空航天大学 基于sae-hmm的航空发动机连续健康状态评估方法
CN111611549A (zh) * 2020-05-25 2020-09-01 中国海洋大学 基于海洋环境参数确定台风影响海域设计波高的方法
CN111643092A (zh) * 2020-06-02 2020-09-11 四川大学华西医院 一种癫痫报警装置及癫痫检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALBAN SIFFER 等: "Anomaly Detection in Streams with Extreme Value Theory", 《PROCEEDINGS OF THE 23RD ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》, pages 3 - 5 *

Similar Documents

Publication Publication Date Title
CN112284440B (zh) 一种传感器数据偏差自适应修正方法
CN112348237B (zh) 一种动态钻井数据异常趋势检测方法
CN112083244B (zh) 综合化航空电子设备故障智能诊断系统
CN108038044A (zh) 一种面向连续被监测对象的异常检测方法
CN109522948A (zh) 一种基于正交局部保持投影的故障检测方法
CN111796233B (zh) 双母线接线形式下多台电压互感器继发性误差的评估方法
CN110488188B (zh) 基于动态阈值的机组三维健康量化评价方法
Liu et al. Grey-based approach for estimating software reliability under nonhomogeneous Poisson process
CN111542010A (zh) 基于分类自适应估计加权融合算法的wsn数据融合方法
CN105718733B (zh) 基于模糊贴近度和粒子滤波的故障预报方法
CN109324591B (zh) 基于鲁棒估计器的随机混杂系统的故障诊断装置及方法
CN112016208B (zh) 一种考虑扰动的隐含故障诊断方法及系统
CN113158448A (zh) 一种船舶系统设备阈值的自适应计算方法
CN112287971A (zh) 一种测试数据自适应动态阈值确定方法
CN108282360B (zh) 一种长短期预测融合的故障检测方法
CN112214911A (zh) 一种电源的健康状态预测方法
CN111913463B (zh) 一种核电厂化学容积控制系统状态监测方法
CN110889646A (zh) 一种适应工况变化的发电机组运行参数正确性检验的方法
CN112766657B (zh) 基于故障概率和设备状态的单台设备质量评价方法
CN112651444B (zh) 一种基于自学习的非平稳过程异常检测方法
CN113654651A (zh) 一种强鲁棒的信号早期退化特征提取及设备运行状态监测方法
US20200112577A1 (en) Graph-based sensor ranking
CN111123890B (zh) 一种特种设备故障监测系统
Toothman et al. An Adaptive, State-Based Framework for Fault Prediction in Rotating Equipment
CN111780149B (zh) 火力发电厂制粉系统设备状态远程诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination