CN108459920B - 一种试验数据野值的辨识与修正方法 - Google Patents

一种试验数据野值的辨识与修正方法 Download PDF

Info

Publication number
CN108459920B
CN108459920B CN201810072773.9A CN201810072773A CN108459920B CN 108459920 B CN108459920 B CN 108459920B CN 201810072773 A CN201810072773 A CN 201810072773A CN 108459920 B CN108459920 B CN 108459920B
Authority
CN
China
Prior art keywords
data
value
mod
test data
correcting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810072773.9A
Other languages
English (en)
Other versions
CN108459920A (zh
Inventor
董建超
李建冬
张烨
梁迎彬
崔广志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Machinery Equipment Research Institute
Original Assignee
Beijing Machinery Equipment Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Machinery Equipment Research Institute filed Critical Beijing Machinery Equipment Research Institute
Priority to CN201810072773.9A priority Critical patent/CN108459920B/zh
Publication of CN108459920A publication Critical patent/CN108459920A/zh
Application granted granted Critical
Publication of CN108459920B publication Critical patent/CN108459920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/006Identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种试验数据野值的辨识与修正方法,包括如下步骤:采集试验数据序列;将数据序列去除初始均值;逐点野值识别;修正野值;恢复初始值。利用上述步骤,完成试验数据野值的辨识与修正,能够解决斑点型野值的人工处理会带来判读效率低、判读精度差、数据缺失等问题,有效地辨识和修复试验数据野值。

Description

一种试验数据野值的辨识与修正方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种试验数据野值的辨识与修正方法。
背景技术
试验数据是研究和分析设备工作性能指标的原始依据,试验数据数据质量的优劣直接影响数据处理分析结果、设备工作性能客观评估等。然而,数据从采集、编码、传输直至接收的过程要经历非常复杂的外部环境,譬如:记录器系统误差、电磁干扰和随机干扰等因素,数据不可避免地存在野值点或发生数据缺失的现象。在进行试验数据分析时,必须对数据进行预处理,准确辨识野值并进行修正,才能确保数据分析的有效性。
试验数据的野值一般包括孤立型野值和斑点型野值,孤立型野值以孤立点的形式出现,而斑点型野值往往以斑点状形式出现,连续多个采样点的数据异常。现有的野值识别方法大多利用时间序列中信号的时间相关性、数据统计特性对野值进行辨识,通过多项式外推拟合、最小二乘估计等方法进行修正。
这些方法对孤立型野值是很有效的,但对具有时间相关特性的斑点型野值却无法有效地识别。在实际处理过程中,斑点型野值的处理往往需要结合数据平滑性、递归趋势等数据先验信息进行主观性判读,然后直接剔除。斑点型野值的人工处理会带来判读效率低、判读精度差、数据缺失等问题,导致数据分析失效。因此,有效地辨识和修复试验数据野值,是数据处理领域亟待解决的难点。
发明内容
鉴于上述的分析,本发明旨在提供一种试验数据野值的辨识与修正方法,用以解决现有技术利用人工处理斑点型野值会带来判读效率低、判读精度差、数据缺失的问题。
本发明的目的主要是通过以下技术方案实现的:
一种试验数据野值的辨识与修正方法,其特征在于,包括以下步骤:
采集试验数据序列和时间序列;
将采集到的试验数据序列除去初始均值,得到修正数据xMOD:xMOD=x-Mx;
对去除初始均值的数据序列,顺序逐点判断野值;
将判断为野值的数据进行修正。
本发明有益效果如下:采用本方法检验判断野值,不但能检验出孤立型野值,也能解决现有技术对检验斑点型野值不敏感的缺陷,与人工检验相比大大提高了野值判断的效率,实现了试验数据野值的自动判断与修正。
在上述方案的基础上,本发明还做了如下改进:
进一步,所述试验数据序列表示为x=[x1,…,xk,…,xm],时间序列表示为t=[t1,…,tk,…,tm],其中1≤k≤m,时间序列t和数据序列x均包含m个数值,tk和xk分别为第k个时间点与第k个试验数据值。
采用上述进一步方案的有益效果是:将采集到的实验数据序列与时间序列一一对应,可以在确定野值的同时对应相应的时间点。有效提高检验效率,避免数据混乱。
进一步,所述顺序逐点判断野值包括:
计算第k点数据的估计值;
计算修正数据xMOD的标准差,根据标准差与估计值判断该点数据是否为野值。
采用上述进一步方案的有益效果是:逐点判断野值不但能检测出孤立型野值,还可以避免现有技术利用平滑性、递归性无法检验斑点型野值的缺陷。
进一步,所述第k点数据的估计值的计算公式为:
Figure BDA0001557204580000031
采用上述进一步方案的有益效果是:计算k点的估计值与实际值的做差,可以根据得到的差值的大小判断是否超出正常变动范围。
进一步,所述修正数据的标准差为std(xMOD),并引入判定系数λ,判断xk是否为野值;
如果
Figure BDA0001557204580000032
时,判定其为野值;如果
Figure BDA0001557204580000033
时,判定xk为正常值。
采用上述进一步方案的有益效果是:如果k的估计值与实际值的差值的大小在允许的差值范围内,则判断该数据是正常的,若超出允许的范围内,则判断为野值。
进一步,所述野值数据修正包括:
三次样条插值法得到更新的修正值;
将更新的修正值去除均值。
采用上述进一步方案的有益效果是:利用三次样条插值法的得到的值平滑的曲线,更符合数据序列的趋势。将得到的值去除均值可以安置在去均序列中。及时更新数据使得后续判断野值基于平滑的数据曲线,能更好的减小误差。
进一步,所述三次样条插值法的具体实施过程为:调用Matlab函数spline,利用xk之前的k-1个数据,对第k点数据xk进行修正,得到更新的修正值
Figure BDA0001557204580000041
采用上述进一步方案的有益效果是:用MATLAB直接调用Spline函数(此函数采用三次样条插值法)可以得到一条平滑的曲线,使得估计值更适合原数据趋势的变化。
进一步,所述更新的修正值去除均值是将每次得到更新的修正数据xMOD′,需要按照下式进行去均值处理:
xMOD″=xMOD′-mean(xMOD′),xMOD″为去均值后的数据。
采用上述进一步方案的有益效果是:将每次更新的数据去均处理,即可以适应对应点的值。方便后续统一恢复数据序列。
进一步,还包括重复判断数据序列中野值与修正野值数据,直到最后一个数据。
采用上述进一步方案的有益效果是:逐点判断数据序列中的野值,避免丢失遗漏数据的情况。
进一步,还包括对去均值后的数据恢复初始均值Mx,得到最终数据xMOD 最终:xMOD 最终=xMOD″+Mx。
采用上述进一步方案的有益效果是:将数据序列恢复原序列的大小,完成实验数据序列的修正。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明提供的一种试验数据野值的辨识与修正方法的基本流程示意图;
图2为一个具体实施例的试验数据示意图;
图3为一个具体实施例的修正试验数据示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例一:
本发明的一个具体实施例,公开了一种试验数据野值的辨识与修正方法。
本发明对试验数据野值的辨识与修正方法主要包括以下步骤:
步骤1、将试验数据的时间序列表示为t=[t1,…,tk,…,tm],数据序列表示为x=[x1,…,xk,…,xm]导入MATLAB工作区,其中:1≤k≤m,时间序列t和数据序列x均包含m个数值,tk和xk分别为第k个时间点与第k个试验数据值;
步骤2、计算数据序列的初始均值Mx,在野值辨识之前进行去均值处理,得到修正数据xMOD:xMOD=x-Mx;
步骤3、对xMOD顺序逐点进行野值辨识。从数据序列的第五个数据开始,对数据序列进行逐点顺序拟合;第k点数据的估计值记为
Figure BDA0001557204580000061
计算估计值
Figure BDA0001557204580000062
与原始数据xk的差值绝对值,判断xk是否为野值,如果为野值,实施步骤4操作;如果不是野值,跳至步骤5,继续处理下一个数据xk+1
优选地,所述步骤3包括如下步骤:
步骤301、按照下式计算第k点数据的估计值:
Figure BDA0001557204580000063
步骤302、计算xMOD的标准差std(xMOD)作为判据,并引入判定系数λ(λ的选用范围为1~5之间),判断xk是否为野值;如果
Figure BDA0001557204580000064
时,判定其为野值;如果
Figure BDA0001557204580000065
时,判定xk为正常值,继续处理下一个数据xk+1
步骤4、采用三次样条插值法修正野值xk,得到第k点的修正值
Figure BDA0001557204580000066
Figure BDA0001557204580000067
替换掉xk,得到更新的修正数据
Figure BDA0001557204580000068
并去除均值;
具体地,所述步骤4包括如下步骤:
步骤401、三次样条插值法的具体实施过程为:调用Matlab函数spline,利用xk之前的k-1个数据,对第k点数据xk进行修正,得到修正值
Figure BDA0001557204580000071
步骤402、每次得到更新的修正数据
Figure BDA0001557204580000072
需要按照下式进行去均值处理:
xMOD″=xMOD′-mean(xMOD′),xMOD″为去均值后的数据。
步骤5、重复步骤3~步骤4操作,直至完成最后一个数据xm的野值辨识与修正;
步骤6、恢复数据的初始均值Mx,得到最终数据xMOD 最终:xMOD 最终=xMOD″+Mx。从而实现了试验数据野值的辨识与修正,修正的试验数据为xMOD
实施例二:
本实施例对采用实施例一所述试验数据野值的辨识与修正方法进行详细说明。
步骤1、模拟试验数据,并将模拟的数据导入到MATLAB工作区。按照如下方式构造数值信号时间序列t和数据序列x,模拟包含孤立型野值与斑点型野值的试验数据。
数值信号的具体形式如下:
t=0.001:0.001:2s;
x=e-2tsin(2π4t);
x(100:200:1900)=2,人为地将0.1s,0.3s,...,1.9s的数据值定义为2,模拟孤立型野值;
Figure BDA0001557204580000073
人为地将0.5s~0.55s、1s~1.05s的数据定义为均匀噪声,模拟斑点型野值;试验数据示意图如图2所示,可见数据包含多个孤立型野值与两处斑点型野值,需要进行野值辨识修正。
步骤2、计算数据序列的取初始均值Mx,在野值辨识之前进行去均值处理,得到修正数据xMOD:xMOD=x-Mx。
步骤3、对xMOD顺序逐点进行野值辨识。从数据序列的第五个数据开始,对数据序列进行逐点顺序拟合;第k点数据的估计值记为
Figure BDA0001557204580000081
计算估计值
Figure BDA0001557204580000082
与原始数据xk的差值绝对值,判断xk是否为野值,
优选地,所述步骤3包括如下步骤:
步骤301、按照下式计算第k点数据的估计值:
Figure BDA0001557204580000083
步骤302、计算xMOD的标准差std(xMOD)作为判据,并引入判定系数λ(λ的选用范围为1~5之间),判断xk是否为野值;如果
Figure BDA0001557204580000084
时,判定其为野值;如果
Figure BDA0001557204580000085
时,判定xk为正常值,继续处理下一个数据xk+1
优选地,λ的取值为3。
如果为野值,实施步骤4操作;如果不是野值,跳至步骤5,继续处理下一个数据xk+1
步骤4、调用Matlab函数spline,利用xk之前的k-1个数据,对第k点数据xk进行修正,得到修正值
Figure BDA0001557204580000086
每次得到更新的修正数据
Figure BDA0001557204580000087
需要按照下式进行去均值处理:
xMOD″=xMOD′-mean(xMOD′),xMOD″为去均值后的数据。
步骤5、重复步骤3~步骤4操作,直至完成最后一个数据xm的野值辨识与修正。
步骤6、恢复数据的初始均值Mx:得到最终数据xMOD 最终:xMOD 最终=xMOD″+Mx。
从而实现了试验数据野值的辨识与修正,修正的试验数据为xMOD 最终
如图3所示,在上述1-6步的处理后其孤立型野值和斑点野值消失,并且不影响原正常数据的大小。
综上所述,本发明实施例提供了一种试验数据野值的辨识与修正方法,解决了斑点型野值的人工处理会带来判读效率低、判读精度差、数据缺失等问题,有效地辨识和修复试验数据野值。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种试验数据野值的辨识与修正方法,其特征在于,包括以下步骤:
采集试验数据序列和时间序列,所述试验数据序列表示为x=[x1,…,xk,…,xm],时间序列表示为t=[t1,…,tk,…,tm],其中1≤k≤m,时间序列t和数据序列x均包含m个数值,tk和xk分别为第k个时间点与第k个试验数据值;
将采集到的试验数据序列除去初始均值,得到修正数据xMOD:xMOD=x-Mx;
对去除初始均值的数据序列,顺序逐点判断野值包括:
计算第k点数据的估计值,其中,所述第k点数据的估计值的计算公式为:
Figure FDA0002981881640000011
计算修正数据xMOD的标准差,根据标准差与估计值判断该点数据是否为野值,其中,所述修正数据的标准差为std(xMOD),并引入判定系数λ,判断xk是否为野值;
如果
Figure FDA0002981881640000012
时,判定其为野值;如果
Figure FDA0002981881640000013
时,判定xk为正常值;
将判断为野值的数据进行修正。
2.根据权利要求1所述的试验数据野值的辨识与修正方法,其特征在于,所述野值数据修正包括:
三次样条插值法得到更新的修正值;
将更新的修正值去除均值。
3.根据权利要求2所述的试验数据野值的辨识与修正方法,其特征在于,所述三次样条插值法的具体实施过程为:调用Matlab函数spline,利用xk之前的k-1个数据,对第k点数据xk进行修正,得到更新的修正值
Figure FDA0002981881640000021
4.根据权利要求2所述的试验数据野值的辨识与修正方法,其特征在于,所述更新的修正值去除均值是将每次得到更新的修正数据xMOD′,需要按照下式进行去均值处理:
xMOD″=xMOD′-mean(xMOD′),xMOD″为去均值后的数据。
5.根据权利要求1所述的试验数据野值的辨识与修正方法,其特征在于,还包括重复判断数据序列中野值与修正野值数据,直到最后一个数据。
6.根据权利要求4所述的试验数据野值的辨识与修正方法,其特征在于,还包括对去均值后的数据恢复初始均值Mx,得到最终数据xMOD 最终:xMOD 最终=xMOD″+Mx。
CN201810072773.9A 2018-01-24 2018-01-24 一种试验数据野值的辨识与修正方法 Active CN108459920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810072773.9A CN108459920B (zh) 2018-01-24 2018-01-24 一种试验数据野值的辨识与修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810072773.9A CN108459920B (zh) 2018-01-24 2018-01-24 一种试验数据野值的辨识与修正方法

Publications (2)

Publication Number Publication Date
CN108459920A CN108459920A (zh) 2018-08-28
CN108459920B true CN108459920B (zh) 2021-06-22

Family

ID=63239014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810072773.9A Active CN108459920B (zh) 2018-01-24 2018-01-24 一种试验数据野值的辨识与修正方法

Country Status (1)

Country Link
CN (1) CN108459920B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188810A (zh) * 2019-05-23 2019-08-30 西北工业大学 一种基于密度聚类的在线野值检测、识别与修正方法
CN111736626B (zh) * 2020-06-22 2022-05-17 中国人民解放军国防科技大学 一种平稳弹道数据处理方法
CN113127968B (zh) * 2021-03-12 2022-05-31 上海宇航系统工程研究所 基于运载火箭的评价方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200113A (zh) * 2014-09-10 2014-12-10 山东农业大学 基于高斯过程的物联网数据不确定性度量、预测与野值剔除方法
CN106524993A (zh) * 2016-10-11 2017-03-22 北京农业智能装备技术研究中心 一种动态野值点检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200113A (zh) * 2014-09-10 2014-12-10 山东农业大学 基于高斯过程的物联网数据不确定性度量、预测与野值剔除方法
CN106524993A (zh) * 2016-10-11 2017-03-22 北京农业智能装备技术研究中心 一种动态野值点检测方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GNSS导航定位结果野值检测与修正;张文超等;《信息工程大学学报》;20150831;第16卷(第04期);第1-6页 *
导引头在线野值剔除与平滑方法研究;藏月进等;《兵器装备工程学报》;20170930;第38卷(第09期);第1-4页 *
张文超等.GNSS导航定位结果野值检测与修正.《信息工程大学学报》.2015,第16卷(第04期),第1-6页. *
靶场外弹道数据处理中的实时野值剔除算法;徐利娜;《应用光学》;20120131;第33卷(第01期);第1-6页 *

Also Published As

Publication number Publication date
CN108459920A (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN108459920B (zh) 一种试验数据野值的辨识与修正方法
CA2931624A1 (en) Systems and methods for event detection and diagnosis
CN116111727B (zh) 基于动态温度阈值的综合配电箱异常监测方法
CN109212018B (zh) 一种基于压缩感知的管道漏磁数据分级压缩方法
US20030112874A1 (en) Apparatus and method for detection of scene changes in motion video
US7557572B1 (en) Method of detecting and compensating for faults in an MRI process
US20230367793A1 (en) Method and device for extracting feature value of time series data
CN108009122B (zh) 一种改进的hht方法
CN111667470B (zh) 一种基于数字图像的工业管道探伤内壁检测方法
CN111695620A (zh) 一种电力系统时间序列异常数据检测与修正方法及系统
CN110766711A (zh) 一种视频镜头分割方法、系统、装置和存储介质
CN112861947A (zh) 传感器数据处理方法、装置及计算设备
CN113343402B (zh) 基于多层卷积稀疏编码的管道腐蚀等级评估方法
CN111881929B (zh) 基于混沌图像像素识别的Duffing系统大周期状态检测方法及装置
CN102204820A (zh) 记录设备及其记录方法
CN111784645B (zh) 一种充填管道裂纹检测方法
CN109163894B (zh) 一种基于摩擦温度信号的磨合状态识别方法
CN110702786A (zh) 基于多尺度奇异吸引子预测误差的梁结构损伤识别方法
CN111065106A (zh) 移动通信网络中基于异常检测和核密度估计(kde)的指标突变小区检测方法
CN112700039B (zh) 一种火电厂负荷运行数据的稳态检测与提取方法
CN112184645A (zh) 风机叶片检测方法、系统及其计算机可存储介质
CN112102837B (zh) 家电设备及家电设备的拾音检测方法、装置
JP6365146B2 (ja) 時系列データの解析方法及び時系列データの異常監視装置
CN117408974B (zh) 一种板式集成家具封边自动检测方法、装置及存储介质
CN111399038A (zh) 斜率参数提取方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant