CN113159566B - 设备健康阶段检测的自适应收集方法、系统、装置和介质 - Google Patents

设备健康阶段检测的自适应收集方法、系统、装置和介质 Download PDF

Info

Publication number
CN113159566B
CN113159566B CN202110416990.7A CN202110416990A CN113159566B CN 113159566 B CN113159566 B CN 113159566B CN 202110416990 A CN202110416990 A CN 202110416990A CN 113159566 B CN113159566 B CN 113159566B
Authority
CN
China
Prior art keywords
data
health
stage
short
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110416990.7A
Other languages
English (en)
Other versions
CN113159566A (zh
Inventor
张平
蓝曦
李方
郭炜森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110416990.7A priority Critical patent/CN113159566B/zh
Publication of CN113159566A publication Critical patent/CN113159566A/zh
Application granted granted Critical
Publication of CN113159566B publication Critical patent/CN113159566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本发明公开了一种设备健康阶段检测的自适应收集方法、系统、装置和介质,其中方法包括以下步骤:获取设备的数据流,采用基于滑动窗口及蓄水池采样对数据流进行状态提取,获得概念表示;根据概念表示对数据流进行自适应健康阶段检测,获得健康阶段数据;对健康阶段数据进行融合处理,以增大各健康阶段的训练数据。本发明基于滑动窗口及蓄水池采样的状态提取,基于概念漂移检测的自适应健康阶段检测,实现健康阶段划分,多数据流的阶段融合处理,当存在多组健康数据流时,如多台设备分别采集而来的数据,分别进行阶段划分后,将多组阶段数据融合为单组阶段数据,增大各个健康阶段的数据量,提高训练效果,可广泛应用于智能制造以及数据挖掘领域。

Description

设备健康阶段检测的自适应收集方法、系统、装置和介质
技术领域
本发明涉及智能制造以及数据挖掘领域,尤其涉及一种设备健康阶段检测的自适应收集方法、系统、装置和介质。
背景技术
在智能制造背景下,大量设备数据时刻由传感器收集,以数据流的形式呈现,数据流形式的健康数据具有速度快、容量大、特征分析困难、时序相关性高、分布变化点模糊等特点,在使用传统机器学习框架时,无法处理数据流中存在的概念漂移现象,即数据的分布并非稳定不变的,而是随着时间发生变化。概念漂移发生时,数据分布发生变化,使得模型性能下降,在设备健康预测任务上,存在明显的概念漂移现象,因此利用概念漂移理论对设备进行健康阶段检测是可行的,可通过概念漂移检测技术对健康数据流进行健康阶段检测及划分。其中,健康阶段指,对一个设备而言存在磨合期、平稳运行期、快速损坏期等阶段分期,在不同的阶段设备的损耗值有所不同,设备健康变化的规律也有随不同,因此根据阶段的不同,算法的参数也要做相应的调整,这便是检测的目的。
当前的设备健康检测手段,没有考虑对健康数据进行阶段划分,而是直接处理整个数据集,尽管采取了增量学习、剪枝等手段,但仍存在训练压力大、模型精度不高、预测速度慢等局限性,未充分考虑设备随着运行时间增大及工作环境的不同,其设备健康呈现阶段性,不同设备健康阶段存在差异性的特点。当前的方法使用整个数据集而不加以划分地进行训练,存在特征提取困难、可解释不佳的问题。
主动检测并适应是较为流行的概念漂移处理方法,其中以监控模型性能的方法具有模型无关性,有着更好的泛用能力,其中的典型方法包括DDM、EDDM、ADWIN、HDDM、McDDM等算法,但上述算法仅考虑了漂移检测的灵敏性,并未充分考虑漂移检测对漂移适应的指导作用,在告警机制中仅是简单地调整检测机制的系数,无法平衡延迟与再训练集大小以取得较好的性能,从而使得对健康阶段的划分造成偏移,导致划分的阶段过多,模型训练压力增大等问题。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种设备健康阶段检测的自适应收集方法、系统、装置和介质。
本发明所采用的技术方案是:
一种设备健康阶段检测的自适应收集方法,包括以下步骤:
获取设备的数据流,采用基于滑动窗口及蓄水池采样对数据流进行状态提取,获得概念表示;
根据概念表示对数据流进行自适应健康阶段检测,获得健康阶段数据;
对健康阶段数据进行融合处理,以增大各健康阶段的训练数据。
进一步,所述采用基于滑动窗口及蓄水池采样对数据流进行状态提取,包括:
采用预设模型对数据流进行长期状态Et与短期状态SGVt提取;
根据短期状态SGVt,使用滑动窗口获得短期波动σc,t,使用蓄水池采样获得长期波动σr,t
进一步,所述采用预设模型对数据流进行长期状态Et与短期状态SGVt提取,包括:
使用新样本权值衰减的统计量表示长期状态,即统计自模型训练以来的累计平均误差率:
Figure BDA0003026324840000021
其中,εt为当前健康阶段第t次推理的误差,若为分类模型则为0或1,若为回归模型则为实数值,t指当前健康阶段中处理的样本/实例计数器;
设定旧样本权值衰减模式,采用Savitzky-Golay滤波作为短期状态估计器;
确定拟合多项式的阶数order和拟合区间宽度width,计算出衰减系数cm,m=-(width-1)/2,-(width-1)/2+1,…,0,1,…,(width-1)/2;
对最新的width个样本使用衰减系数加权求和获得短期状态SGVt。
进一步,所述根据短期状态SGVt,使用滑动窗口获得短期波动σc,t,使用蓄水池采样获得长期波动σr,t,包括:
为了评估短期状态SGVt的长期波动σr,t,使用蓄水池采样对短期状态SGVt采样,计算采样池内的方差,为了快速计算蓄水池方差,如果当前值SGVnew被蓄水池采样算法选中,可通过下式更新:
Figure BDA0003026324840000022
其中,Nr是蓄水池大小,Sumt是蓄水池中SGV之和,SGVrm是被替换的值,Sumrm是替换前的和,Sumnew是替换后的值;
为了评估短期状态SGVt的短期波动σc,t,使用滑动窗口计算近期方差,更新的方式如下:
Figure BDA0003026324840000031
其中,Nc是滑动窗口的大小。
进一步,所述根据概念表示对数据流进行自适应健康阶段检测,获得健康阶段数据,包括:
通过检测长期状态Et与短期状态SGVt的差异,判断是否发生概念漂移,若差异大于阈值则判定发生概念漂移:
SGVt-Et>kd·σr,t
其中,σr,t是蓄水池内的方差,kd是设定的敏感度;
检测到概念漂移发生时,认为数据流转移到了新的阶段,使用Bretrain的数据重新训练模型,并新建一个阶段缓冲区Bi+1,将保存训练数据的缓冲区Bretrain保存至对应的阶段数据缓冲区Bi+1,随后清空Bretrain
重复上述检测,直至整个数据流处理完毕,得到n个阶段的数据S={B1,B2,…,Bn}。
进一步,当短期波动σc,t呈现先增大再减小的趋势时,表明存在一个潜在的概念转移区间;
故当短期波动σc,t的局部最小值时,将保存训练数据的缓冲区Bretrain保存至对应的阶段数据缓冲区Bi,随后清空Bretrain,重新收集数据:
σc,t-2c,t-1c,t
其中,σc,t为由滑动窗口提取的最新的短期波动水平,即处理第t个样本后提取的短期波动水平,σc,t-1则为处理第t-1个样本后提取的短期波动水平,σc,t-2则为处理第t-2个样本后提取的短期波动水平。
进一步,所述对健康阶段数据进行融合处理,以增大各健康阶段的训练数据,包括:
对于M批设备的数据流,获得M个对应的健康阶段数据,组成待融合集合Strain={S1,S2,…,Sm};
对不同批次的数据进行相似阶段融合,具体如下:
从待融合集合中选取两个批次的数据Si、Sj,计算数据中各健康阶段
Figure BDA0003026324840000032
Figure BDA0003026324840000033
的均值的W%置信区间、方差的W%置信区间;
依次对区间
Figure BDA0003026324840000034
Figure BDA0003026324840000035
进行区间融合:
若两区间的执行区间杰卡德距离大于或等于P,则将两区间样本合并;
若两区间的执行区间杰卡德距离小于P,分别计算
Figure BDA0003026324840000041
Figure BDA0003026324840000042
Figure BDA0003026324840000043
之间的杰卡德距离,若
Figure BDA0003026324840000044
Figure BDA0003026324840000045
之间的杰卡德距离大于或等于P,且大于
Figure BDA0003026324840000046
Figure BDA0003026324840000047
之间的杰卡德距离,则将
Figure BDA0003026324840000048
Figure BDA0003026324840000049
合并;若
Figure BDA00030263248400000410
Figure BDA00030263248400000411
之间的杰卡德距离大于或等于P,且大于
Figure BDA00030263248400000412
Figure BDA00030263248400000413
之间的杰卡德距离,则将
Figure BDA00030263248400000414
Figure BDA00030263248400000415
合并;
若无区间对的杰卡德距离大于P,则不进行两区间样本合并;
重复区间融合操作,直至两集合Si、Sj中所有阶段被处理完毕,完成对两批次相似健康阶段的合并;
将融合后的健康阶段集合Si,j加入待融合集合中,重复上述步骤,直至待融合集合中仅有一个健康阶段集合。
本发明所采用的另一技术方案是:
一种设备健康阶段检测的自适应收集系统,包括:
特征提取模块,用于获取设备的数据流,采用基于滑动窗口及蓄水池采样对数据流进行状态提取,获得概念表示;
阶段检测模块,用于根据概念表示对数据流进行自适应健康阶段检测,获得健康阶段数据;
数据融合模块,用于对健康阶段数据进行融合处理,以增大各健康阶段的训练数据。
本发明所采用的另一技术方案是:
一种设备健康阶段检测的自适应收集装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明基于滑动窗口及蓄水池采样的状态提取,基于概念漂移检测的自适应健康阶段检测,实现健康阶段划分,多数据流的阶段融合处理,当存在多组健康数据流时,如多台设备分别采集而来的数据,分别进行阶段划分后,将多组阶段数据融合为单组阶段数据,增大各个健康阶段的数据量,提高训练效果。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种设备健康阶段检测的自适应收集方法的示意图;
图2是本发明实施例中一种设备健康阶段检测的自适应收集方法的流程图;
图3是本发明实施例中状态提取示意图;
图4是本发明实施例中健康阶段示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图1和图2所示,本实施例提供一种设备健康阶段检测的自适应收集方法,包括以下步骤:
S1、获取设备的数据流,采用基于滑动窗口及蓄水池采样对数据流进行状态提取,获得概念表示。
参见图3,其中,步骤S1包括步骤S11-S12:
S11、采用预设模型对数据流进行长期状态Et与短期状态SGVt提取。
设定初始启动数据块的大小,从数据流中获取满足大小要求的数据量,使用该初始启动数据训练初始模型,对数据流中新到达的数据进行推理,检查并统计推理结果与标签的差异,提取出数据流的概念表示,具体如下:
本实施例是基于数据实例的挖掘方法,也很容易拓展为按数据块进行处理,此处以数据实例的形式说明,初始化阶段,首先从数据流中获取用于预训练模型的数据,收集至设定大小Npretrain,训练初始模型M0。利用模型对后续数据实例进行推理,得到其预测结果
Figure BDA0003026324840000061
通过监督信息获取其误差εt,其计算方法为预测结果
Figure BDA0003026324840000062
与标签y差值的绝对值。
使用新样本权值衰减的统计量表示长期状态,即统计自模型训练以来的累计平均误差率:
Figure BDA0003026324840000063
其中,新样本权值衰减,由于当前健康阶段的样例不断累积,t不断增大,因此\frac{1}{t}的值会不断减小,从而使得新样本εt在Et的更新公式中的权值越来越小。新样本对Et的影响随着t的增大而衰减。
设定旧样本权值衰减模式,采用Savitzky-Golay滤波作为短期状态估计器。Savitzky-Golay滤波是一种平滑滤波方法,确定拟合多项式的阶数order和拟合区间宽度width,便可计算出系数cm,m=-(width-1)/2,-(width-1)/2+1,…,0,1,…,(width-1)/2,对最新的width个样本使用上述衰减系数加权求和获得短期状态SGVt。其中,旧样本权值衰减模式为:Savitzky-Golay滤波值(SGVt)是与最新的width个样本相关的,若即当前样本为第t个样本,则t–width及其以前的样本则不参与到Savitzky-Golay滤波值(SGVt)的计算中,因此是旧样本权值衰减的,旧样本对SGVt的影响随着t的增大而衰减。
获取数据流中的概念表示,利用了上述两个统计量作为估计器,分别提取数据流的长期状态与短期状态。
S12、根据短期状态SGVt,使用滑动窗口获得短期波动σc,t,使用蓄水池采样获得长期波动σr,t
使用蓄水池采样获取当前状态估计器的长期波动水平,使用滑动窗口获取其近期波动水平。
将统计量Et作为数据流的历史状态估计器,历史统计量变化迟缓,且表示自模型训练以来的长期状态。随着数据处理量的增大趋于收敛,反映模型在当前任务下的稳态性能。Savitzky-Golay滤波的平滑效果,处于稳定状态的数据流,SGVt围绕Et上下波动。蓄水池方差
Figure BDA0003026324840000071
和滑动窗口方差
Figure BDA0003026324840000072
分别用来表示数据流内部的稳定情况,当样本充足时,两者能正确反映数据流的波动一致,计算方法具体如下:
为了评估SGVt的长期波动水平,使用蓄水池采样对SGVt采样,计算采样池内的方差,为了快速计算蓄水池方差,如果当前值SGVnew被蓄水池采样算法选中,可通过下式更更新:
Figure BDA0003026324840000073
其中Nr是蓄水池大小,Sumt是蓄水池中SGV之和,SGVrm是被替换的值,Sumrm是替换前的和,Sumnew是替换后的值。为了评估SGVt的短期波动水平,使用滑动窗口计算近期方差,使用类似与公式(2)的更新方法:
Figure BDA0003026324840000074
其中Nc是滑动窗口的大小,与蓄水池的方差不同的是,滑动窗口中被移除元素
Figure BDA0003026324840000075
总在窗口尾部,而非随机选择的,且每处理一个数据实例,必定触发
Figure BDA0003026324840000076
的更新。在设置蓄水池大小与滑动窗口大小时,应当满足Nt>Nc
S2、根据概念表示对数据流进行自适应健康阶段检测,获得健康阶段数据。
设备的健康变化过程的分布并非稳定的,新设备、经过磨合期的设备、旧设备的健康变化分布是不同的,本方法通过对设备健康阶段进行检测分离,作为一种预处理手段,能有效地提高剩余寿命预测的准确率。设备的全生命周期状态数据,是一种以时序形式呈现的数据流,健康阶段的变化是其潜在分布函数的变化,即数据流概念的变化,因此可利用概念漂移检测处理健康阶段检测。其中,健康变化过程,指设备的生命周期,设备健康状况是不断衰减、劣化的,设备生命周期不同时刻的健康状况是不同的、变化的。设备的生命周期又分为几个大阶段,磨合期、平稳运行期、快速损坏期,不同阶段的分布是不一样的。
在处理存在多个健康阶段的数据流时,不仅要报告何时发生阶段变化(概念漂移),而且要为后续的健康预测模型更新提供训练集。当数据流处于稳态时,由于难推理样本与易推理样本交替出现,当前健康预测模型的性能围绕长期状态上下波动。通过检查短期状态Et与长期状态SGVt的差异,判断是否发生概念漂移,若差异过大则认为发生了概念漂移:
SGVt-Et>kd·σr,t (4)
σr,t是蓄水池内的方差,反映了当前状态估计器的长期波动水平,kd是设定的敏感度,越小则越敏感,越大则约保守,若kd过小则会导致误报,即没有概念漂移时发出概念漂移报告,kd过大时则容易造成检测迟缓。
正确地提供告警信息,能保证模型再训练后的性能,因此告警应当在漂移点后出现从而避免在训练集中引入旧概念实例,同时告警应当尽可能地接近真实的漂移点,从而尽早地开始收集新概念的实例。滑动窗口的方差σc,t反映了当前状态是否稳定,若方差大则不稳定,方差值较大出现在方差窗口内存在两簇数值差别较大的值,即滑动窗口前半部分的SGVt值较小,而后半部分的SGVt值较大,或者反之。
注意方差小不仅可能出现在SGVt值小(推理大多正确)时,也会出现在SGVt值大(推理大多错误)的情况,因此当σc,t呈现先增大再减小的趋势时,即表明存在一个潜在的概念转移区间。当σc,t时局部最小值时,我们将保存训练数据的缓冲区Bretrain保存至对应的阶段数据缓冲区Bi,随后清空Bretrain,重新收集数据:
σc,t-2c,t-1c,t (5)
当通过公式(4)检测到漂移时,本方法不立刻报告漂移,而是持续收集样例至σc,t的下一个局部最小值,σc,t到达最小值时说明概念转移完毕,从而达到自适应收集的目的。检测到概念漂移发生时,则认为数据流转移到了新的阶段,使用Bretrain的数据重新训练模型,并新建一个阶段缓冲区Bi+1,将保存训练数据的缓冲区Bretrain保存至对应的阶段数据缓冲区Bi+1,随后清空Bretrain
重复上述检测,直至整个数据流处理完毕,至此对一个数据流的分段处理完毕,得到n个阶段的数据S={B1,B2,…,Bn},如图4所示。
S3、对健康阶段数据进行融合处理,以增大各健康阶段的训练数据。
若存在多批设备健康数据,则对每批数据重复步骤S1、S2,得到其健康阶段数据,
Figure BDA0003026324840000081
Figure BDA0003026324840000082
对于M批设备健康数据,可获得M个上述的健康阶段数据集合Strain={S1,S2,…,Sm},本步骤对不同批次的数据进行相似阶段融合,具体如下:
从待融合集合中,选取两个批次的数据Si、Sj,分别计算其各阶段
Figure BDA0003026324840000083
Figure BDA0003026324840000084
的均值的95%置信区间,方差的95%置信区间。对区间
Figure BDA0003026324840000085
Figure BDA0003026324840000086
进行区间融合,若两区间的执行区间杰卡德距离大于0.85则将两区间样本合并,随后对
Figure BDA0003026324840000087
Figure BDA0003026324840000088
进行区间融合。。若小于0.85,则分别计算
Figure BDA0003026324840000089
Figure BDA00030263248400000810
Figure BDA00030263248400000811
之间的杰卡德距离,若
Figure BDA00030263248400000812
Figure BDA00030263248400000813
间的杰卡德距离大于0.85,则将其合并,随后则计算
Figure BDA00030263248400000814
Figure BDA00030263248400000815
若无区间对的杰卡德距离大于0.85,则不将两区间样本合并,继续对
Figure BDA0003026324840000091
Figure BDA0003026324840000092
进行区间融合。如此重复,直至所有两集合中所有阶段被处理完毕,完成了对两批次相似健康阶段的合并。将融合后的健康阶段集合Si,j加入待融合集中,重复上述步骤,直至待融合集中仅有一个健康阶段集合。
通过上述处理,有效地融合了各批次的健康阶段,增大了各健康阶段的训练集的大小,能有效提高模型的训练效果。
综上所述,本实施例方法包括以下三个步骤:(1)基于滑动窗口及蓄水池采样的状态提取,通过模型和统计量提取长期状态与短期状态提取,针对健康数据流中存在的时序相关性,通过滑动窗口及蓄水池采样提取数据流的波动水平;(2)基于概念漂移检测的自适应健康阶段检测,根据状态与波动水平指导数据收集并进行主动检测漂移,实现健康阶段划分;(3)多数据流的阶段融合处理,当存在多组健康数据流时,如多台设备分别采集而来的数据,分别进行阶段划分后,将多组阶段数据融合为单组阶段数据,增大各个健康阶段的数据量,提高训练效果。本实施例方法实现告警报告与漂移报告分离控制,检测灵敏度高,具有自适应收集机制,能有效地降低检测延迟的同时,通过阶段融合保证数据集的大小(能够将不同设备的相似阶段融合在一起,从而获取一个更大的数据集),从而提高设备健康状态预测的精度。
其中,对于“实现告警与漂移报告分离控制”,从检测概念漂移的公式(4)中可见一个系数kd,这一系数用于控制偏移检测的灵敏度。现有的概念漂移检测算法,在处理概念漂移检测和告警检测时,对告警检测仅仅为按比例调整公式(4)中的系数kd,例如调整为0.5*kd。而本专利中,则是使用公式(5)的方式进行告警检测,即通过检测方差的最小值点。
对于“降低检测延迟”,本实施例方法由于采用了短期状态SGV作为统计量,相比其他的检测方法如DDM,EDDM等,统计量的变化更加迅速,从而能更快地检测出健康状态的变化。
对于“提高设备健康状态预测的精度”,一般的健康状态预测方法,其是对全生命周期的数据不加划分地进行建模。而经过本实施例的方法划分出各个健康阶段的数据,面对具有不同分布的阶段,分别进行建模,从而提高了健康设备状态预测的精度。
本实施例还提供一种设备健康阶段检测的自适应收集系统,包括:
特征提取模块,用于获取设备的数据流,采用基于滑动窗口及蓄水池采样对数据流进行状态提取,获得概念表示;
阶段检测模块,用于根据概念表示对数据流进行自适应健康阶段检测,获得健康阶段数据;
数据融合模块,用于对健康阶段数据进行融合处理,以增大各健康阶段的训练数据。
本实施例的一种设备健康阶段检测的自适应收集系统,可执行本发明方法实施例所提供的一种设备健康阶段检测的自适应收集方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供一种设备健康阶段检测的自适应收集装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图2所示的方法。
本实施例的一种设备健康阶段检测的自适应收集装置,可执行本发明方法实施例所提供的一种设备健康阶段检测的自适应收集方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图2所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种设备健康阶段检测的自适应收集方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (7)

1.一种设备健康阶段检测的自适应收集方法,其特征在于,包括以下步骤:
获取设备的数据流,采用基于滑动窗口及蓄水池采样对数据流进行状态提取,获得概念表示;
根据概念表示对数据流进行自适应健康阶段检测,获得健康阶段数据;
对健康阶段数据进行融合处理,以增大各健康阶段的训练数据;
所述采用基于滑动窗口及蓄水池采样对数据流进行状态提取,包括:
采用预设模型对数据流进行长期状态Et与短期状态SGVt提取;
根据短期状态SGVt,使用滑动窗口获得短期波动σc,t,使用蓄水池采样获得长期波动σr,t
所述采用预设模型对数据流进行长期状态Et与短期状态SGVt提取,包括:
使用新样本权值衰减的统计量表示长期状态,即统计自模型训练以来的累计平均误差率:
Figure FDA0003795143350000011
其中,εt为当前健康阶段第t次推理的误差,t指当前健康阶段中处理的样本或实例计数器;
设定旧样本权值衰减模式,采用Savitzky-Golay滤波作为短期状态估计器;确定拟合多项式的阶数order和拟合区间宽度width,计算出衰减系数cm,m=-(width-1)/2,-(width-1)/2+1,...,0,1,...,(width-1)/2;
对最新的width个样本使用衰减系数加权求和获得短期状态SGVt
所述对健康阶段数据进行融合处理,以增大各健康阶段的训练数据,包括:
对于M批设备的数据流,获得M个对应的健康阶段数据,组成待融合集合Strain={S1,S2,…,SM };
对不同批次的数据进行相似阶段融合,具体如下:
从待融合集合中选取两个批次的数据Si、Sj,计算数据中各健康阶段
Figure FDA0003795143350000012
Figure FDA0003795143350000013
的均值的W%置信区间、方差的W%置信区间;
依次对区间
Figure FDA0003795143350000014
Figure FDA0003795143350000015
进行区间融合:
若两区间的执行区间杰卡德距离大于或等于P,则将两区间样本合并;
若两区间的执行区间杰卡德距离小于P,分别计算
Figure FDA0003795143350000021
Figure FDA0003795143350000022
Figure FDA0003795143350000023
Figure FDA0003795143350000024
之间的杰卡德距离,若
Figure FDA0003795143350000025
Figure FDA0003795143350000026
之间的杰卡德距离大于或等于P,且大于
Figure FDA0003795143350000027
Figure FDA0003795143350000028
之间的杰卡德距离,则将
Figure FDA0003795143350000029
Figure FDA00037951433500000210
合并;若
Figure FDA00037951433500000211
Figure FDA00037951433500000212
之间的杰卡德距离大于或等于P,且大于
Figure FDA00037951433500000213
Figure FDA00037951433500000214
之间的杰卡德距离,则将
Figure FDA00037951433500000215
Figure FDA00037951433500000216
合并;
若无区间对的杰卡德距离大于P,则不进行两区间样本合并;
重复区间融合操作,直至两集合Si、Sj中所有阶段被处理完毕,完成对两批次相似健康阶段的合并;
将融合后的健康阶段集合Si,j加入待融合集合中,重复上述步骤,直至待融合集合中仅有一个健康阶段集合。
2.根据权利要求1所述的一种设备健康阶段检测的自适应收集方法,其特征在于,所述根据短期状态SGVt,使用滑动窗口获得短期波动σc,t,使用蓄水池采样获得长期波动σr,t,包括:
为了评估短期状态SGVt的长期波动σr,t,使用蓄水池采样对短期状态SGVt采样,计算采样池内的方差,为了快速计算蓄水池方差,如果当前值SGVnew被蓄水池采样算法选中,通过下式更新:
Figure FDA00037951433500000217
其中,Nr是蓄水池大小,Sumt是蓄水池中SGV之和,SGVrm是被替换的值,Sumrm是替换前的和,Sumnew是替换后的值;
为了评估短期状态SGVt的短期波动σc,t,使用滑动窗口计算近期方差,更新的方式如下:
Figure FDA00037951433500000218
其中,Nc 是滑动窗口的大小。
3.根据权利要求1所述的一种设备健康阶段检测的自适应收集方法,其特征在于,所述根据概念表示对数据流进行自适应健康阶段检测,获得健康阶段数据,包括:
通过检测长期状态Et与短期状态SGVt的差异,判断是否发生概念漂移,若差异大于阈值则判定发生概念漂移:
SGVt-Et>kd·σr,t
其中,σr,t是蓄水池内的方差,kd是设定的敏感度;
检测到概念漂移发生时,认为数据流转移到了新的阶段,使用Bretrain的数据重新训练模型,并新建一个阶段缓冲区Bi+1,将保存训练数据的缓冲区Bretrain保存至对应的阶段数据缓冲区Bi+1,随后清空Bretrain
重复上述检测,直至整个数据流处理完毕,得到n个阶段的数据S={B1,B2,...,Bn}。
4.根据权利要求3所述的一种设备健康阶段检测的自适应收集方法,其特征在于,当短期波动σc,t呈现先增大再减小的趋势时,表明存在一个潜在的概念转移区间;
故当短期波动σc,t的局部最小值时,将保存训练数据的缓冲区Bretrain保存至对应的阶段数据缓冲区Bi,随后清空Bretrain,重新收集数据:
σc,t-2>σc,t-1<σc,t
其中,σc,t为由滑动窗口提取的最新的短期波动水平,即处理第t个样本后提取的短期波动水平,σc,t-1则为处理第t-1个样本后提取的短期波动水平,σc,t-2则为处理第t-2个样本后提取的短期波动水平。
5.一种设备健康阶段检测的自适应收集系统,其特征在于,包括:
特征提取模块,用于获取设备的数据流,采用基于滑动窗口及蓄水池采样对数据流进行状态提取,获得概念表示;
阶段检测模块,用于根据概念表示对数据流进行自适应健康阶段检测,获得健康阶段数据;
数据融合模块,用于对健康阶段数据进行融合处理,以增大各健康阶段的训练数据;
所述采用基于滑动窗口及蓄水池采样对数据流进行状态提取,包括:
采用预设模型对数据流进行长期状态Et与短期状态SGVt提取;
根据短期状态SGVt,使用滑动窗口获得短期波动σc,t,使用蓄水池采样获得长期波动σr,t
所述采用预设模型对数据流进行长期状态Et与短期状态SGVt提取,包括:
使用新样本权值衰减的统计量表示长期状态,即统计自模型训练以来的累计平均误差率:
Figure FDA0003795143350000041
其中,εt为当前健康阶段第t次推理的误差,t指当前健康阶段中处理的样本或实例计数器;
设定旧样本权值衰减模式,采用Savitzky-Golay滤波作为短期状态估计器;
确定拟合多项式的阶数order和拟合区间宽度width,计算出衰减系数cm,m=-(width-1)/2,-(width-1)/2+1,…,0,1,…,(width-1)/2;
对最新的width个样本使用衰减系数加权求和获得短期状态SGVt
所述对健康阶段数据进行融合处理,以增大各健康阶段的训练数据,包括:对于M批设备的数据流,获得M个对应的健康阶段数据,组成待融合集合Strain={S1,S2,…,SM };
对不同批次的数据进行相似阶段融合,具体如下:
从待融合集合中选取两个批次的数据Si、Sj,计算数据中各健康阶段
Figure FDA0003795143350000042
Figure FDA0003795143350000043
的均值的W%置信区间、方差的W%置信区间;
依次对区间
Figure FDA0003795143350000044
Figure FDA0003795143350000045
进行区间融合:
若两区间的执行区间杰卡德距离大于或等于P,则将两区间样本合并;
若两区间的执行区间杰卡德距离小于P,分别计算
Figure FDA0003795143350000046
Figure FDA0003795143350000047
Figure FDA0003795143350000048
Figure FDA0003795143350000049
之间的杰卡德距离,若
Figure FDA00037951433500000410
Figure FDA00037951433500000411
之间的杰卡德距离大于或等于P,且大于
Figure FDA00037951433500000412
Figure FDA00037951433500000413
之间的杰卡德距离,则将
Figure FDA00037951433500000414
Figure FDA00037951433500000415
合并;若
Figure FDA00037951433500000416
Figure FDA00037951433500000417
之间的杰卡德距离大于或等于P,且大于
Figure FDA00037951433500000418
Figure FDA00037951433500000419
之间的杰卡德距离,则将
Figure FDA00037951433500000420
Figure FDA00037951433500000421
合并;
若无区间对的杰卡德距离大于P,则不进行两区间样本合并;
重复区间融合操作,直至两集合Si、Sj中所有阶段被处理完毕,完成对两批次相似健康阶段的合并;
将融合后的健康阶段集合Si,j加入待融合集合中,重复上述步骤,直至待融合集合中仅有一个健康阶段集合。
6.一种设备健康阶段检测的自适应收集装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-4任一项所述方法。
7.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-4任一项所述方法。
CN202110416990.7A 2021-04-19 2021-04-19 设备健康阶段检测的自适应收集方法、系统、装置和介质 Active CN113159566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110416990.7A CN113159566B (zh) 2021-04-19 2021-04-19 设备健康阶段检测的自适应收集方法、系统、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110416990.7A CN113159566B (zh) 2021-04-19 2021-04-19 设备健康阶段检测的自适应收集方法、系统、装置和介质

Publications (2)

Publication Number Publication Date
CN113159566A CN113159566A (zh) 2021-07-23
CN113159566B true CN113159566B (zh) 2022-10-25

Family

ID=76868365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110416990.7A Active CN113159566B (zh) 2021-04-19 2021-04-19 设备健康阶段检测的自适应收集方法、系统、装置和介质

Country Status (1)

Country Link
CN (1) CN113159566B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797122A (zh) * 2020-05-28 2020-10-20 浙江大学 高维重现概念漂移流数据的变化趋势预测方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132383A1 (en) * 2015-11-10 2017-05-11 Sentrian, Inc. Systems and methods for automated rule generation and discovery for detection of health state changes
CN109886430B (zh) * 2019-01-24 2023-07-07 同济大学 一种基于工业大数据的设备健康状态评估与预测方法
JP2022523563A (ja) * 2019-03-04 2022-04-25 アイオーカレンツ, インコーポレイテッド 機械学習および人工知能を使用する、機械異常の近リアルタイム検出ならびに分類
CN111222290B (zh) * 2020-01-13 2024-04-09 浙江工业大学 一种基于多参数特征融合的大型设备剩余使用寿命预测方法
CN111325095B (zh) * 2020-01-19 2024-01-30 西安科技大学 基于声波信号的设备健康状态智能检测方法和系统
CN111898644B (zh) * 2020-07-02 2022-10-25 西安交通大学 一种无故障样本下航天液体发动机健康状态智能识别方法
CN112328703B (zh) * 2020-10-31 2022-09-16 同济大学 一种基于增量学习的数控设备健康状态诊断装置及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797122A (zh) * 2020-05-28 2020-10-20 浙江大学 高维重现概念漂移流数据的变化趋势预测方法及装置

Also Published As

Publication number Publication date
CN113159566A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN111694879B (zh) 一种多元时间序列异常模式预测方法及数据采集监控装置
CN106886915B (zh) 一种基于时间衰减采样的广告点击预估方法
CN105160181B (zh) 一种数控系统指令域序列异常数据检测方法
CN105279365B (zh) 用于学习异常检测的样本的方法
US7424409B2 (en) Stochastic modeling of time distributed sequences
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
Ben-Gal et al. Context-based statistical process control: A monitoring procedure for state-dependent processes
CN117349797B (zh) 基于人工智能的飞机故障检测方法及系统
CN110738255A (zh) 一种基于聚类算法的设备状态监测方法
CN109542952A (zh) 一种时间序列异常点的检测方法
CN111538311A (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
CN117113236B (zh) 一种智慧城市监控系统及数据处理方法
CN110851176A (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN115801463A (zh) 工业互联网平台入侵检测的方法、装置和电子设备
CN113159566B (zh) 设备健康阶段检测的自适应收集方法、系统、装置和介质
CN115719294A (zh) 一种室内行人流疏散控制方法、系统、电子设备及介质
CN113869526A (zh) 数据处理模型性能提高方法及装置、存储介质和电子设备
CN114048546A (zh) 一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法
CN113486569A (zh) 一种离心泵剩余寿命预测方法
CN117171157A (zh) 基于数据分析的清算数据采集清洗方法
CN117171700A (zh) 一种基于深度学习的钻井溢流预测组合模型及模型适时静默更新与迁移学习方法
CN116561927A (zh) 数字孪生驱动的小样本旋转机械剩余寿命预测方法及系统
CN115459982A (zh) 一种电力网络虚假数据注入攻击检测方法
CN115643104A (zh) 一种基于深度监督离散哈希的网络入侵检测方法
CN115278757A (zh) 一种检测异常数据的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant