CN115238753A - 一种基于局部离群因子的自适应shm数据清洗方法 - Google Patents
一种基于局部离群因子的自适应shm数据清洗方法 Download PDFInfo
- Publication number
- CN115238753A CN115238753A CN202211147791.1A CN202211147791A CN115238753A CN 115238753 A CN115238753 A CN 115238753A CN 202211147791 A CN202211147791 A CN 202211147791A CN 115238753 A CN115238753 A CN 115238753A
- Authority
- CN
- China
- Prior art keywords
- data
- shm
- factor
- wmlof
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004140 cleaning Methods 0.000 title claims abstract description 7
- 230000003044 adaptive effect Effects 0.000 claims abstract description 14
- 238000011160 research Methods 0.000 claims abstract description 7
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 238000007670 refining Methods 0.000 claims abstract description 4
- 230000002159 abnormal effect Effects 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000000265 homogenisation Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000005406 washing Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 3
- 238000005562 fading Methods 0.000 claims description 2
- 102100029493 EKC/KEOPS complex subunit TP53RK Human genes 0.000 claims 1
- 101001125560 Homo sapiens EKC/KEOPS complex subunit TP53RK Proteins 0.000 claims 1
- 230000036541 health Effects 0.000 abstract description 6
- 238000012544 monitoring process Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 238000005096 rolling process Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000000275 quality assurance Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
Abstract
本发明涉及机械结构健康监测技术领域,涉及一种基于局部离群因子的自适应SHM数据清洗方法,包括以下步骤:一、使用自适应滑动窗ASW技术将待分析机械结构健康监测SHM数据划分为一系列片段;二、提取每个数据片段的时、频域统计因子,用于提炼数据信息并形成相应的研究对象;三、基于特征因子,利用加权多尺度局部离群因子WMLOF计算每个对象的离群程度;四、通过比较WMLOF特征值和预设阈值来检测SHM数据中的异常值。本发明能较佳地提高数据质量。
Description
技术领域
本发明涉及机械结构健康监测技术领域,涉及一种基于局部离群因子的自适应SHM数据清洗方法,具体地说,涉及一种基于自适应滑动窗(ASW)与加权多尺度局部离群因子(WMLOF)的异常数据清洗方法。
背景技术
近二十年来,从机械装备大系统中获取和存储的数据量不断增加,海量数据的获取推动机械装备结构健康监测(SHM)进入大数据时代。机械装备监测大数据蕴含了丰富的健康状态信息,为机械装备健康监测带来了新机遇。与此同时,由于数据采集、传输和存储过程中受到的多因素耦合干扰,现代SHM数据呈现出以下五个特点:速度快、大规模、低质量、类型杂和低密度,使得机械装备的健康状态信息提取难度显著增大。一方面,传统的信号处理技术已越来越不适用于面对如此庞杂的数据集,在进行数据驱动的机械故障诊断研究时甚至无能为力。而另一方面,基于机器学习技术的智能诊断方法近年来逐渐成为热门研究,众多学者们相继提出了各种基于机器学习的算法模型,并在滚动轴承、风力涡轮机、齿轮箱、电机等故障诊断方面取得了一系列的成就。
在大数据的驱动下,虽然基于机器学习的方法在机械系统SHM方面具有不可比拟的优势,但仍有许多问题需要解决,数据质量便是其关键。基于机器学习与深度学习的算法无法评估数据质量,并呈现出“垃圾进,垃圾出”的缺点。基于此类质量低下SHM数据获得的结果可能不正确甚至具有误导性。因此,开展数据质量保证方法研究以实现高效准确的机械SHM很有必要。要全面系统地研究数据质量问题,则应首先分析数据的特征。一般来说,数据质量特征可以概括为数据的准确性、时效性、一致性和完整性。在工程实践中,机械装备的服役环境通常十分恶劣,因此,机械设备容易受到诸多随机干扰因素的影响,从而导致SHM数据异常并降低数据准确性;时效性是指数据的更新状态是否为最新,网络中断或传输故障会降低SHM数据的时效性;一致性则是衡量数据格式与结构的一致性,若来自多个物理源的数据未经任何分类或预处理便直接堆叠进行存储,则会大大降低数据的一致性水平;完整性表示数据的连续性,由于数据采集设备的故障,例如传感器和数采系统CPU故障,可能会产生缺失数据,从而降低数据的完整性。从数据质量的定义来看,缺失数据和飘移数据是数据不完整和不准确的典型代表。毫无疑问,SHM数据的异常将直接影响故障诊断的结果。检测和剔除这些异常数据可以大幅提高数据质量并产生更可靠的SHM结果。虽然关于SHM的模型与算法研究层出不穷,但作为数据驱动故障诊断基础的SHM数据质量保证方法研究却很少。因此,需要重点关注与数据质量保证方法有关的研究。
发明内容
本发明的内容是提供一种基于局部离群因子的自适应SHM数据清洗方法,其能够克服现有技术的某种或某些缺陷。
根据本发明的一种基于局部离群因子的自适应SHM数据清洗方法,其包括以下步骤:
一、使用自适应滑动窗ASW技术将待分析机械结构健康监测SHM数据最佳地划分为一系列片段;
二、提取每个数据片段的时域统计因子、频域统计因子,用于提炼数据信息并形成相应的研究对象;
三、基于特征因子,利用加权多尺度局部离群因子WMLOF计算每个对象的离群程度;
四、通过比较WMLOF特征值和预设阈值来检测SHM数据中的异常值。
作为优选,步骤一中,具体步骤如下:
1)采用一个长度为W的小滑动窗将待分析的原始SHM数据进行分割,W的取值与待分析信号的长度有关;
2)计算由长度为W小滑动窗切割后的一系列数据片段的方差;
3)将上述方差的平均值V作为参考阈值,其中V =mean (Var1, Var2, ...,Varn),其中mean指平均运算,n是切割后的数据片段数量;
4)将每个切割后数据片段的方差值与阈值比较,与阈值相邻的方差值特征,对应于异常数据发展区R in和衰退区R out,作为ASW的锚点;
5)将得到的锚点两两前后组合用于生成不同尺度的特定ASW,R in和R out之外的数据视为具有相同属性的正常数据。
作为优选,步骤二中,特征因子包括绝对均值、方差、标准差、峰度、偏度、均方根、形状因子、峰值因子、脉冲因子、边缘因子、峰度因子、间隙因子和平均频率,将这些特征重新组合并形成新的低纬度样本对象。
作为优选,步骤三中,WMLOF是为不同最近邻域k参数下的LOF值确定适当的权重,利用熵权法EWM进行加权,EWM中计算客观权重的步骤如下:
第1步:确定评价对象,下式展示了评价对象矩阵;矩阵的每一行和每一列分别表示一个研究样本对象及其对应的LOF原始特征;评价对象矩阵DT,其中[p = 1, 2, …, n,k = kmin, kmin+1, ..., kmax-1, kmax];其中,n代表样本的数量;K ∈ [kmin, kmax],kmin和kmax分别设为5和20;
第2步:指标的归一化处理,用于异质指标同质化;即把指标的绝对值转化为相对值,从而解决各项不同质指标值的同质化问题;利用线性归一化技术使DT数据集无量纲化,操作如下式所示:
第3步:利用下式计算响应Pr pk 的发生概率并计算该指标的熵值:
第4步:利用下式计算各响应的信息熵冗余度Div k 及其熵权值Ew k :
每个样本在不同最近邻域k下的LOF结果被视为不同样本的响应,对象p的WMLOF值由下式获得:
其中EWk是对应最近邻域k的样本权值。
本发明的有益效果如下:
1)本发明提出了一种新颖的适用于SHM数据的ASW方法。ASW方法巧妙地解决了传统固定长度滑动窗技术引起的数据泄漏和数据冗余问题。ASW可以将整个待分析SHM数据最佳地划分为一系列数据片段。
2)针对LOF方法的不足,提出了一种基于熵权理论的WMLOF方法。将不同尺度下的最近邻域“k”的结果进行智能加权与融合,WMLOF方法可以自适应地提取不同尺度上的LOF特征。
3)建立了基于ASW和WMLOF策略的SHM异常数据检测方法,拓展了离群检测在SHM数据中的实际应用。
附图说明
图1为实施例中一种基于局部离群因子的自适应SHM数据清洗方法的流程图;
图2为实施例中数据泄露与数据冗余的示意图;
图3为实施例中对故障滚动轴承产生的缺失振动数据的仿真模拟示意图;
图4为实施例中基于ASW和WMLOF的异常数据检测示意图;
图5为实施例中基于小尺度滑动窗的WMLOF的异常数据检测示意图;
图6为实施例中基于大尺度滑动窗的WMLOF的异常数据检测示意图;
图7为实施例中基于ASW和WMLOF的异常漂移数据检测示意图;
图8为实施例中基于ASW和WMLOF的异常数据检测示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例
如图1所示,本实施例提供了一种基于局部离群因子的自适应SHM数据清洗方法,其包括以下步骤:
一、使用自适应滑动窗ASW技术将待分析机械结构健康监测SHM数据最佳地划分为一系列片段;
二、提取每个数据片段的时域统计因子、频域统计因子,用于提炼数据信息并形成相应的研究对象;
三、基于特征因子,利用加权多尺度局部离群因子WMLOF计算每个对象的离群程度;
四、通过比较WMLOF特征值和预设阈值来检测SHM数据中的异常值。
SHM数据的自适应滑动切割
现代机械装备的SHM数据通常规模很大,很难通过直接分析获得有价值的特征。因此,在本实施例中使用了滑动窗口技术。首先,通过滑动窗口将整个数据集划分为一系列数据片段,这有助于针对性分析,并提高计算效率。通常,数据集由固定长度的滑动窗来划分。然而,固定长度的滑动窗技术往往会导致两个不可忽视的问题,即数据泄漏和数据冗余,如图2所示。长度为L 1的滑动窗口可以有效地识别区域A,但却不能完全涵盖区域B。区域B中具有相同属性的部分数据未包含在滑动窗口L 1中,这意味着数据泄漏。相反,长度为L 2的滑动窗口可以准确地识别区域B。然而,在区域A中却发生了过度包含。不属于区域A的一些特征被滑动窗口L 2汇总在一起,这意味着数据冗余。因此,数据泄漏和冗余是需要解决的首要问题。为解决上述矛盾,可以考虑具有自适应长度的滑动窗来消除固定长度的滑动窗技术带来的固有缺陷。
ASW旨在为不同属性的数据生成对应不同尺度的滑动窗口。在本实施例中,利用数据的属性变化,提出了一种ASW策略来确定滑动窗的尺度大小。在SHM数据中,当数据属性发生变化时,可观察到两个重要现象。第一,如图2所示,包含一段异常数据的SHM数据势必含有两个拐点区域,即正常数据和异常数据连接拐点以及异常数据和正常数据的连接拐点,分别定义为异常数据发展区(R in)和衰退区(R out)。第二,由于异常数据的产生机制不同于正常数据。因此,正常数据和异常数据中的随机变量与其对应数学期望的偏差程度(即方差)是不同的,特别是在R in和R out区域内。基于以上观察和分析,提出了ASW策略,其具体步骤如下:
1)首先采用一个长度为W的小滑动窗将待分析的原始SHM数据进行分割,W的取值与待分析信号的长度(采样频率×采样时间)有关。为保证高效的计算性能,建议W与原始SHM数据长度的比例为1/200~1/100。
2)计算由长度为W小滑动窗切割后的一系列数据片段的方差。
3)将上述方差的平均值V作为参考阈值,其中V =mean (Var1, Var2, ...,Varn),其中mean指平均运算,n是切割后的数据片段数量,Var为方差。
4)将每个切割后数据片段的方差值与阈值比较,与阈值相邻的方差值特征,对应于R in和R out,作为ASW的锚点。
5)将得到的锚点两两前后组合用于生成不同尺度的特定ASW,R in和R out之外的数据可视为具有相同属性的正常数据。
切割后片段的特征因子提取
提取切割后每个数据片段的时、频域统计因子,有利于提炼数据信息,降低数据维度。上述特征因子包括绝对均值、方差、标准差、峰度、偏度、均方根、形状因子、峰值因子、脉冲因子、边缘因子、峰度因子、间隙因子和平均频率,将这些特征重新组合并形成新的低纬度样本对象。之所以选择这些统计特征,是因为它们在SHM研究中被广泛使用,能够从不同层面有效地描述SHM数据特征。值得注意的是,这些特征因子并不是选的越多越好。更重要的是选择能够最大限度表示SHM数据信息的特征。否则,计算负担将会增加,这可能会造成其他不利影响。
基于WMLOF的离群值计算
基于局部离群因子(LOF)理论,可以计算出每个研究对象的离群程度。
WMLOF方法的核心思想是为不同最近邻域“k”参数下的LOF值确定适当的权重。与其他加权方法相比,熵权法(EWM)计算简单,不需要考虑主观经验,它只需要客观数据来计算权重。此外,EWM是一种典型的基于多样性的加权方法,它根据待分析数据的多样性属性来计算权重。EWM中计算客观权重的步骤如下:
第1步:确定评价对象,下式展示了评价对象矩阵。矩阵的每一行和每一列分别表示一个研究样本对象及其对应的LOF原始特征。评价对象矩阵DT,其中[p = 1, 2, …, n,k = kmin, kmin+1, ..., kmax-1, kmax]。其中,n代表样本的数量。K ∈ [kmin, kmax],kmin和kmax在这里分别设为5和20。
q代表对象矩阵中的每一个研究样本,众多样本元素组成矩阵DT。
第2步:指标的归一化处理,用于异质指标同质化。由于各项指标的计量单位并不统一,因此在用它们计算综合指标前,先要进行标准化处理,即把指标的绝对值转化为相对值,从而解决各项不同质指标值的同质化问题。利用线性归一化技术使DT数据集无量纲化。这可以有效地减少在分析来自不同样本的不同响应时由维度或幅度引起的误差。该操作如下式所示:
NDM pk 表示将DT矩阵归一化之后的新矩阵,q k 表示NDM矩阵中第k列数据。
第3步:利用下式计算响应Pr pk 的发生概率并计算该指标的熵值:
En表示熵值,e表示自然对数;
第4步:利用下式计算各响应的信息熵冗余度Div k 及其熵权值Ew k 。
用于权重计算的EWM削弱了一些非典型属性的微弱影响,并产生了较为精确和合理的评估。因此,每个样本在不同最近邻域“k”下的LOF结果被视为不同样本的响应,而对象p的WMLOF值可由下式获得:
其中EWk是对应最近邻域“k”的样本权值,将其乘以100的目的是为了更直观地观察并理解WMLOF特性。
仿真验证
为了验证ASW策略的有效性,对故障滚动轴承产生的缺失振动数据进行了仿真模拟。故障滚动轴承的一个显著特征是周期性脉冲,其表示为
其中y 0是故障脉冲的幅值(y 0=3),ξ是阻尼系数(ξ=0.1),ω n是滚动轴承的固有频率,以及相应的共振频率(f re =3,000 Hz)。另外,故障特征频率f o 设置为100 Hz,采样频率f s 为20000 Hz,采样点数为20000。图3中的(a)描述了模拟的脉冲信号部分示意。图3中的(b)中所示的数据是通过添加高斯白噪声获得的,并且合成信号的信噪比为零。图3中的(c)显示了两个缺失的数据段,它们是通过用高斯白噪声替换0.322 s~0.372 s和0.689 s~0.789s的原始数据而创建的。对此,将提出的基于ASW和WMLOF策略的异常数据检测方法应用于异常检测。结果如图3中的(d)和图4所示。基于ASW方法的准则,W被设置为100以获得锚点。获取的锚点1&2、3&4、5&6、7&8以及9&10分别生成了5个不同的滑动窗口。事实上,根据锚点5&6和9&10确定ASW就足够了。锚点1&2、3&4和7&8产生的滑动窗口是ASW的副产品。实际上,由于基于锚点1&2、3&4以及7&8的滑动窗口数据属性与正常数据的属性一致,因此多出来的这3个ASW对后续的计算基本没有影响。
如图4中的(a)所示,由锚点5&6和9&10(在图3中的(d)中)生成的ASW的WMLOF值较大。相比之下,正常数据的WMLOF值较小,其变化也较小。这表明WMLOF值可有效区分正常对象和异常对象。相应的检测到的缺失数据用虚线矩形表示,如图4中(b)所示。很明显,基于所提出的ASW和WMLOF策略成功地检测到了两个具有不同尺度大小缺失数据的片段。此外,对比分析了几个固定长度滑动窗口下的WMLOF值,以说明传统滑动窗口的缺点和ASW策略的优点。如图5中的(a)、(b)所示,固定长度的滑动窗大小设置为100。除异常缺失段两端的数据外,未检测到主要缺失数据,这表明窗口长度较小会导致数据泄漏,因此无法完全检测到异常数据。因此,只有缺失段数据两端的WMLOF值高于阈值,而大部分缺失数据的WMLOF值均低于阈值,导致缺失数据的检测不正确。
除了小尺度的固定长度滑动窗不能正常检测到异常数据,大尺度的滑动窗同样也不能取得令人满意的效果。图6中的(a)、(b)、(c)分别展示了长度分别为250、500和1000的滑动窗口下每个研究对象的WMLOF值。这三种情况下均无法正确检测到缺失数据,因为该滑动窗的尺度无法根据数据属性而进行自适应变化。滑动窗的尺度不变,就无法针对性分析不同尺度下的异常数据。一个小尺度的滑动窗不能完全包含异常数据,而只能检测到异常数据的两端。相反,较大尺度的滑动窗将异常与正常数据混合在一起,这也不利于有效区分正常和异常SHM数据的属性差异。通过比较图4、图5和图6可以直观地看出,所提出的ASW策略比传统的固定长度滑动窗技术具有更强大的自适应分析能力。ASW在处理多个不同尺度的异常数据时仍能够保持其有效性,这对于高效处理复杂的SHM数据非常重要。
工程应用
基于地铁车辆齿轮箱数据的异常检测
对地铁车辆齿轮箱的实测数据进行了研究,以说明本实施例技术的有效性和普适性。齿轮箱上安装了加速度计,采样频率设为10 000Hz。当铁路车辆在线路上实际运行时,会受到诸多轮轨不平顺的激励,从而导致车辆部件的剧烈振动响应。图7中(a)显示了由于传感器故障或连接头损坏而导致数据漂移情况。这种异常现象经常出现在实测SHM数据中。为提高数据质量,必须对该异常数据进行检测并剔除,以便准确提取SHM数据中的物理信息。将本发明提出的异常数据检测方法用于齿轮箱振动数据处理。其中,W设置为1 000。基于ASW策略获得关于齿轮箱振动数据的锚点如图7中的(b)所示。图7中的(c)描绘了基于WMLOF方法的每个对象的异常程度。其中一个ASW的WMLOF值明显大于阈值,这对应于如图7中 (a)的矩形框所示,证明本方法准确地检测到异常漂移段。上述进一步说明本实施例提出的ASW策略和WMLOF方法不仅适用于SHM数据中的异常缺失现象,而且能够有效地检测漂移数据。
基于台架试验数据的异常检测
使用台架试验数据进一步验证了所提方法的有效性。使用激光位移传感器测量构件的位移数据。采样频率为5000 Hz。图8中的(a)描绘了激光位移的原始测量信号波形。在实验过程中,通过在7~12 s内两次触摸传感器来引入相关干扰,以产生异常数据,可以看出在原始信号中很难直接分辨出该干扰。应用ASW和WMLOF对异常数据进行检测。ASW的W被设置为500,所获得的系列锚点在图8中的(b)中得以展示。图8中的(c)表示基于WMLOF值检测到的异常片段。如图8中的(a)所示,异常数据检测结果由矩形指示。可知7.8 s至8.8 s和10.2 s至11.1 s期间的激光位移监测数据为异常数据,这与预期一致。结果表明,所提出的方法可以在检测异常SHM数据方面获得良好的性能,即使这些异常数据非常轻微或者甚至肉眼不可见。
结论
为提高数据质量,本实施例提出了一种新颖的SHM数据异常检测方法,包括ASW和WMLOF。首先提出一种ASW方法来避免由固定长度的滑动窗引起的数据泄漏和冗余,并获得一系列最优切割后的数据片段。然后,得益于WMLOF在评估和融合多尺度LOF特征方面的优势,WMLOF用于提取基于ASW切割后的片段的异常特征并评估异常程度。利用故障滚动轴承的仿真数据和从铁路车辆齿轮箱和台架试验中收集的实测数据来评估所提方法的有效性。实验结果表明,提出的基于ASW和WMLOF策略的异常数据检测方法,即使异常数据十分轻微,也能很好地检测出典型的数据缺失和漂移异常。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (4)
1.一种基于局部离群因子的自适应SHM数据清洗方法,其特征在于:包括以下步骤:
一、使用自适应滑动窗ASW技术将待分析机械结构健康监测SHM数据划分为一系列片段;
二、提取每个数据片段的时域统计因子、频域统计因子,用于提炼数据信息并形成相应的研究对象;
三、基于特征因子,利用加权多尺度局部离群因子WMLOF计算每个对象的离群程度;
四、通过比较WMLOF特征值和预设阈值来检测SHM数据中的异常值。
2.根据权利要求1所述的一种基于局部离群因子的自适应SHM数据清洗方法,其特征在于:步骤一中,具体步骤如下:
1)采用一个长度为W的小滑动窗将待分析的原始SHM数据进行分割,W的取值与待分析信号的长度有关;
2)计算由长度为W小滑动窗切割后的一系列数据片段的方差;
3)将上述方差的平均值V作为参考阈值,其中V =mean (Var1, Var2, ..., Varn),其中mean指平均运算,n是切割后的数据片段数量,Var表示方差;
4)将每个切割后数据片段的方差值与阈值比较,与阈值相邻的方差值特征,对应于异常数据发展区R in和衰退区R out,作为ASW的锚点;
5)将得到的锚点两两前后组合用于生成不同尺度的特定ASW,R in和R out之外的数据视为具有相同属性的正常数据。
3.根据权利要求1所述的一种基于局部离群因子的自适应SHM数据清洗方法,其特征在于:步骤二中,特征因子包括绝对均值、方差、标准差、峰度、偏度、均方根、形状因子、峰值因子、脉冲因子、边缘因子、峰度因子、间隙因子和平均频率,将这些特征重新组合并形成新的低纬度样本对象。
4.根据权利要求1所述的一种基于局部离群因子的自适应SHM数据清洗方法,其特征在于:步骤三中,WMLOF是为不同最近邻域k参数下的LOF值确定适当的权重,利用熵权法EWM进行加权,EWM中计算客观权重的步骤如下:
第1步:确定评价对象,下式展示了评价对象矩阵;矩阵的每一行和每一列分别表示一个研究样本对象及其对应的LOF原始特征;评价对象矩阵DT,其中[p = 1, 2, …, n, k =kmin, kmin+1, ..., kmax-1, kmax];其中,n代表样本的数量;K ∈ [kmin, kmax],kmin和kmax分别设为5和20;
q表示对象矩阵中的每一个研究样本,p表示行数,k表示列数;
第2步:指标的归一化处理,用于异质指标同质化;即把指标的绝对值转化为相对值,从而解决各项不同质指标值的同质化问题;利用线性归一化技术使DT数据集无量纲化,得到新矩阵NDMpk,操作如下式所示:
qpk表示NDM矩阵中第p行、第k列数据,qk表示NDM矩阵中第k列数据;
第3步:利用下式计算响应Prpk的发生概率并计算该指标的熵值:
Enk表示熵值,e为自然对数;
第4步:利用下式计算各响应的信息熵冗余度Divk及其熵权值Ewk:
每个样本在不同最近邻域k下的LOF结果被视为不同样本的响应,对象p的WMLOF值由下式获得:
其中EWk是对应最近邻域k的样本权值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211147791.1A CN115238753B (zh) | 2022-09-21 | 2022-09-21 | 一种基于局部离群因子的自适应shm数据清洗方法 |
US18/123,234 US11809517B1 (en) | 2022-09-21 | 2023-03-17 | Adaptive method of cleaning structural health monitoring data based on local outlier factor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211147791.1A CN115238753B (zh) | 2022-09-21 | 2022-09-21 | 一种基于局部离群因子的自适应shm数据清洗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115238753A true CN115238753A (zh) | 2022-10-25 |
CN115238753B CN115238753B (zh) | 2022-12-06 |
Family
ID=83681066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211147791.1A Active CN115238753B (zh) | 2022-09-21 | 2022-09-21 | 一种基于局部离群因子的自适应shm数据清洗方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11809517B1 (zh) |
CN (1) | CN115238753B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117889945A (zh) * | 2024-03-14 | 2024-04-16 | 河南鹏飞建设工程有限公司 | 一种公路桥梁施工振动测试方法 |
CN117889945B (zh) * | 2024-03-14 | 2024-05-31 | 河南鹏飞建设工程有限公司 | 一种公路桥梁施工振动测试方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349781B (zh) * | 2023-12-06 | 2024-03-22 | 东莞市郡嘉电子科技有限公司 | 一种变压器故障智能诊断方法及系统 |
CN117783745A (zh) * | 2023-12-28 | 2024-03-29 | 浙江智格科技有限公司 | 用于换电柜的数据在线监测方法及系统 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120117093A1 (en) * | 2010-11-08 | 2012-05-10 | Shilovitsky Oleg | Method and system for fusing data |
CN106645934A (zh) * | 2016-12-12 | 2017-05-10 | 国网北京市电力公司 | 基于动态网格离群点的用电行为反窃电诊断方法和装置 |
CN109117802A (zh) * | 2018-08-21 | 2019-01-01 | 东北大学 | 面向大场景高分遥感影像的舰船检测方法 |
CN109214355A (zh) * | 2018-09-29 | 2019-01-15 | 西安交通大学 | 一种基于核估计lof的机械监测数据异常段检测方法 |
CN110865260A (zh) * | 2019-11-29 | 2020-03-06 | 南京信息工程大学 | 一种基于离群检测对mov实际状态监测评估的方法 |
CN111191742A (zh) * | 2020-02-11 | 2020-05-22 | 天津师范大学 | 一种用于多源异构数据流的滑动窗口长度自适应调整方法 |
CN111681262A (zh) * | 2020-05-08 | 2020-09-18 | 南京莱斯电子设备有限公司 | 一种基于邻域梯度的复杂背景下红外弱小目标检测方法 |
CN111772669A (zh) * | 2020-08-18 | 2020-10-16 | 中国科学院合肥物质科学研究院 | 基于自适应长短时记忆网络的肘关节收缩肌力估计方法 |
CN111798333A (zh) * | 2020-06-12 | 2020-10-20 | 国网山东省电力公司电力科学研究院 | 一种用能评估与用电安全分析方法和系统 |
CN112101174A (zh) * | 2020-09-09 | 2020-12-18 | 洛阳师范学院 | 一种基于LOF-Kurtogram的机械故障诊断方法 |
CN112783468A (zh) * | 2019-11-06 | 2021-05-11 | 北京沃东天骏信息技术有限公司 | 目标对象的排序方法和排序装置 |
CN113326744A (zh) * | 2021-05-12 | 2021-08-31 | 哈尔滨工业大学 | 一种航天器在轨状态异常检测方法及系统 |
CN113537728A (zh) * | 2021-06-24 | 2021-10-22 | 上海阿法析地数据科技有限公司 | 一种基于产业园区招商智能推荐系统及推荐方法 |
US20210334673A1 (en) * | 2020-04-23 | 2021-10-28 | Actimize Ltd. | Online unsupervised anomaly detection |
CN113640675A (zh) * | 2021-07-29 | 2021-11-12 | 南京航空航天大学 | 基于Snippets特征提取的航空锂电池异常检测方法 |
CN113792988A (zh) * | 2021-08-24 | 2021-12-14 | 河北先河环保科技股份有限公司 | 一种企业在线监测数据异常识别方法 |
CN114139677A (zh) * | 2021-08-02 | 2022-03-04 | 南京邮电大学 | 一种基于改进gru神经网络的非等间隔时序数据预测方法 |
CN114490603A (zh) * | 2022-01-11 | 2022-05-13 | 燕山大学 | 一种基于增量局部异常因子的机械流式数据清洗方法 |
CN114661795A (zh) * | 2022-03-30 | 2022-06-24 | 华北水利水电大学 | 基于folof算法的运动员离群点解释方法及装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7818131B2 (en) * | 2005-06-17 | 2010-10-19 | Venture Gain, L.L.C. | Non-parametric modeling apparatus and method for classification, especially of activity state |
JP5541863B2 (ja) * | 2005-08-12 | 2014-07-09 | ザ ガバメント オブ ザ ユナイテッド ステイツ オブ アメリカ, アズ リプレゼンテッド バイ ザ セクレタリー, デパートメント オブ ヘルス アンド ヒューマン サービシーズ | 神経雪崩アッセイ |
US8838215B2 (en) * | 2006-03-01 | 2014-09-16 | Angel Medical Systems, Inc. | Systems and methods of medical monitoring according to patient state |
US9514436B2 (en) * | 2006-09-05 | 2016-12-06 | The Nielsen Company (Us), Llc | Method and system for predicting audience viewing behavior |
US8042397B2 (en) * | 2007-05-16 | 2011-10-25 | The Boeing Company | Damage volume and depth estimation |
DE102008022459A1 (de) * | 2008-05-08 | 2009-11-12 | Mtu Aero Engines Gmbh | Vorrichtung und Verfahren zur Überwachung einer Gasturbine |
WO2012140601A1 (en) * | 2011-04-13 | 2012-10-18 | Bar-Ilan University | Anomaly detection methods, devices and systems |
US10914608B2 (en) * | 2012-10-12 | 2021-02-09 | Nec Corporation | Data analytic engine towards the self-management of complex physical systems |
US9728014B2 (en) * | 2013-04-23 | 2017-08-08 | B. G. Negev Technologies And Applications Ltd. | Sensor fault detection and diagnosis for autonomous systems |
US10317467B2 (en) * | 2014-05-19 | 2019-06-11 | Schweitzer Engineering Laboratories, Inc. | Synchronous machine monitoring and determination of a loss-of-field event using time stamped electrical and mechanical data |
US10333958B2 (en) * | 2016-07-19 | 2019-06-25 | Cisco Technology, Inc. | Multi-dimensional system anomaly detection |
US10701092B2 (en) * | 2016-11-30 | 2020-06-30 | Cisco Technology, Inc. | Estimating feature confidence for online anomaly detection |
JP6795093B2 (ja) * | 2017-06-02 | 2020-12-02 | 富士通株式会社 | 判定装置、判定方法及び判定プログラム |
US10826932B2 (en) * | 2018-08-22 | 2020-11-03 | General Electric Company | Situation awareness and dynamic ensemble forecasting of abnormal behavior in cyber-physical system |
CN109376330B (zh) * | 2018-08-27 | 2021-05-07 | 大连理工大学 | 一种基于扩展稀疏分量分析的非比例阻尼结构模态识别方法 |
US11475981B2 (en) * | 2020-02-18 | 2022-10-18 | Tempus Labs, Inc. | Methods and systems for dynamic variant thresholding in a liquid biopsy assay |
CA3171017A1 (en) * | 2020-03-20 | 2021-09-23 | Shiping Liu | Systems and methods for analyzing, interpreting, and acting on continuous glucose monitoring data |
CN111813766A (zh) * | 2020-06-27 | 2020-10-23 | 上海电力大学 | 一种燃气气量异常数据的检测及处理方法 |
CN113157674A (zh) * | 2021-02-27 | 2021-07-23 | 北京工业大学 | 一种基于动态插值的城市污水处理过程数据清洗方法 |
CN113297195B (zh) * | 2021-07-28 | 2022-03-15 | 云智慧(北京)科技有限公司 | 一种时间序列异常检测方法、装置及设备 |
-
2022
- 2022-09-21 CN CN202211147791.1A patent/CN115238753B/zh active Active
-
2023
- 2023-03-17 US US18/123,234 patent/US11809517B1/en active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120117093A1 (en) * | 2010-11-08 | 2012-05-10 | Shilovitsky Oleg | Method and system for fusing data |
CN106645934A (zh) * | 2016-12-12 | 2017-05-10 | 国网北京市电力公司 | 基于动态网格离群点的用电行为反窃电诊断方法和装置 |
CN109117802A (zh) * | 2018-08-21 | 2019-01-01 | 东北大学 | 面向大场景高分遥感影像的舰船检测方法 |
CN109214355A (zh) * | 2018-09-29 | 2019-01-15 | 西安交通大学 | 一种基于核估计lof的机械监测数据异常段检测方法 |
CN112783468A (zh) * | 2019-11-06 | 2021-05-11 | 北京沃东天骏信息技术有限公司 | 目标对象的排序方法和排序装置 |
CN110865260A (zh) * | 2019-11-29 | 2020-03-06 | 南京信息工程大学 | 一种基于离群检测对mov实际状态监测评估的方法 |
CN111191742A (zh) * | 2020-02-11 | 2020-05-22 | 天津师范大学 | 一种用于多源异构数据流的滑动窗口长度自适应调整方法 |
US20210334673A1 (en) * | 2020-04-23 | 2021-10-28 | Actimize Ltd. | Online unsupervised anomaly detection |
CN111681262A (zh) * | 2020-05-08 | 2020-09-18 | 南京莱斯电子设备有限公司 | 一种基于邻域梯度的复杂背景下红外弱小目标检测方法 |
CN111798333A (zh) * | 2020-06-12 | 2020-10-20 | 国网山东省电力公司电力科学研究院 | 一种用能评估与用电安全分析方法和系统 |
CN111772669A (zh) * | 2020-08-18 | 2020-10-16 | 中国科学院合肥物质科学研究院 | 基于自适应长短时记忆网络的肘关节收缩肌力估计方法 |
CN112101174A (zh) * | 2020-09-09 | 2020-12-18 | 洛阳师范学院 | 一种基于LOF-Kurtogram的机械故障诊断方法 |
CN113326744A (zh) * | 2021-05-12 | 2021-08-31 | 哈尔滨工业大学 | 一种航天器在轨状态异常检测方法及系统 |
CN113537728A (zh) * | 2021-06-24 | 2021-10-22 | 上海阿法析地数据科技有限公司 | 一种基于产业园区招商智能推荐系统及推荐方法 |
CN113640675A (zh) * | 2021-07-29 | 2021-11-12 | 南京航空航天大学 | 基于Snippets特征提取的航空锂电池异常检测方法 |
CN114139677A (zh) * | 2021-08-02 | 2022-03-04 | 南京邮电大学 | 一种基于改进gru神经网络的非等间隔时序数据预测方法 |
CN113792988A (zh) * | 2021-08-24 | 2021-12-14 | 河北先河环保科技股份有限公司 | 一种企业在线监测数据异常识别方法 |
CN114490603A (zh) * | 2022-01-11 | 2022-05-13 | 燕山大学 | 一种基于增量局部异常因子的机械流式数据清洗方法 |
CN114661795A (zh) * | 2022-03-30 | 2022-06-24 | 华北水利水电大学 | 基于folof算法的运动员离群点解释方法及装置 |
Non-Patent Citations (5)
Title |
---|
JINMEI ZHONG等: "A Preliminary Method of Abnormal Pattern Recognition (APR) Based on Adaptive Slide Window (ASW) and Template Matching(TM)", 《2021 17TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY (CIS)》 * |
徐思佳: "工业物联网数据质量治理系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
朱楚伟: "基于机器学习的高压电远端检测模块状态变化分析及老化预测", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 * |
李昌辉: "雷达信号数字侦收中信号检测算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈子旭: "基于局部均值分解的图谱域滚动轴承故障诊断技术的研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117889945A (zh) * | 2024-03-14 | 2024-04-16 | 河南鹏飞建设工程有限公司 | 一种公路桥梁施工振动测试方法 |
CN117889945B (zh) * | 2024-03-14 | 2024-05-31 | 河南鹏飞建设工程有限公司 | 一种公路桥梁施工振动测试方法 |
Also Published As
Publication number | Publication date |
---|---|
US11809517B1 (en) | 2023-11-07 |
CN115238753B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115238753B (zh) | 一种基于局部离群因子的自适应shm数据清洗方法 | |
JP6467186B2 (ja) | データストリームにおける不良データを検出、訂正、および検査するためのシステムおよび方法 | |
CN110362048A (zh) | 风机关键部件状态监测方法及装置、存储介质和终端 | |
CN112465124B (zh) | 孪生深度时空神经网络模型获取/故障诊断方法、装置 | |
CN112101554A (zh) | 异常检测方法及装置、设备、计算机可读存储介质 | |
CN113947017A (zh) | 一种滚动轴承剩余使用寿命预测方法 | |
CN111337244A (zh) | 一种风机齿轮箱输入轴故障监测和诊断的方法及装置 | |
CN111504647A (zh) | 基于ar-mset的滚动轴承的性能退化评估方法 | |
CN115127806A (zh) | 一种基于多传感器振动信号的齿轮箱故障诊断方法及装置 | |
CN115982663A (zh) | 一种新能源风机设备的故障预警系统 | |
Vazirizade et al. | Online nonlinear structural damage detection using Hilbert Huang transform and artificial neural networks | |
Saidi et al. | Particle filter-based prognostic approach for high-speed shaft bearing wind turbine progressive degradations | |
CN114896559A (zh) | 一种基于排列熵的自适应噪声完备集合经验模式分解方法 | |
CN116611018A (zh) | 基于多源数据融合的装备系统健康管理及故障诊断方法 | |
CN116168720A (zh) | 一种电机声音异常故障诊断方法、系统、及可存储介质 | |
CN114462820A (zh) | 一种轴承状态监测与健康管理系统性能测试及优化方法和系统 | |
CN110956112B (zh) | 一种新的高可靠性回转支承寿命评估方法 | |
Boukra | Identifying new prognostic features for remaining useful life prediction using particle filtering and neuro-fuzzy system predictor | |
CN111191950B (zh) | 风电机组齿轮箱油温异常分析方法及装置 | |
Yuhang et al. | Prediction of bearing degradation trend based on LSTM | |
CN116383750A (zh) | 一种基于加窗差分健康指标的滚动轴承早期异常检测方法 | |
CN116578833A (zh) | 基于优化随机森林模型的igbt模块老化故障诊断系统 | |
CN116611184A (zh) | 一种齿轮箱的故障检测方法、装置及介质 | |
US11339763B2 (en) | Method for windmill farm monitoring | |
WO2023029382A1 (zh) | 一种强鲁棒的信号早期退化特征提取及设备运行状态监测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |