CN112328588B - 一种工业故障诊断非平衡时序数据扩充方法 - Google Patents

一种工业故障诊断非平衡时序数据扩充方法 Download PDF

Info

Publication number
CN112328588B
CN112328588B CN202011352099.3A CN202011352099A CN112328588B CN 112328588 B CN112328588 B CN 112328588B CN 202011352099 A CN202011352099 A CN 202011352099A CN 112328588 B CN112328588 B CN 112328588B
Authority
CN
China
Prior art keywords
data
model
generator
training
gru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011352099.3A
Other languages
English (en)
Other versions
CN112328588A (zh
Inventor
沈继红
谭思超
雋兆波
戴运桃
王淑娟
梁源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202011352099.3A priority Critical patent/CN112328588B/zh
Publication of CN112328588A publication Critical patent/CN112328588A/zh
Application granted granted Critical
Publication of CN112328588B publication Critical patent/CN112328588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种工业故障诊断非平衡时序数据扩充方法,步骤一:准备训练数据集;步骤二:构建GRU‑BEGAN的网络结构;步骤三:训练构建的GRU‑BEGAN网络模型;步骤四:根据训练好的GRU‑BEGAN生成对抗网络模型去生成小样本类型的人工数据,训练完成后的模型输入简单随机变量z|t,生成符合时间t的时序数据,将生成的数据集扩充至原始数据的小样本类型中,根据扩充后的数据集建立1D/2D‑CNN故障诊断模型。本发明在模型结构和损失函数上的改进使得模型收敛更快、数据质量更高,利用端到端的GRU‑BEGAN模型去训练故障数据中小样本时序数据集,得到生成的人工数据去增强原始数据集,提高故障诊断模型精确度。

Description

一种工业故障诊断非平衡时序数据扩充方法
技术领域
本发明涉及一种工业故障诊断非平衡时序数据扩充方法,特别是一种基于生成对抗网络的工业故障诊断非平衡时序数据扩充方法,尤其针对故障诊断中某些故障类别的时序数据不均衡问题,属于工业故障诊断和分类领域。
背景技术
工业故障的诊断通常需要监测各类仪表器械来判断各类故障类型,但是由于故障工况的复杂以及监测参数众多,导致不能得到及时有效的处理,所以通过人为监测各类仪表参数来诊断故障是一个非常困难的工作,因此建立一种及时有效的故障诊断模型,可以方便有效的监测各种工业故障问题,保证工业系统的正常运行。但由于工业系统的历史故障数据难以收集,导致故障类别数据分布并不平衡,当数据不平衡时训练的模型更加偏向样本数量多的一类,导致模型的鲁棒性较差,所以如何解决数据类别不均衡情况下的故障诊断是一个急需解决的问题。
目前解决数据不均衡问题主要从数据层面和算法层面考虑,从数据层面去扩充训练集,是一种直接有效的方法,而利用生成对抗网络去生成数据是目前主流的方法之一。生成对抗网络主要由生成器和判别器组成,通过学习真实数据的分布,从而生成类似于真实数据的人工数据,以达到扩充训练数据的目的。在工业故障中,多数的故障数据是时序数据,而现有的生成对抗网络主要是生成静态数据,例如图片数据,网络模型中缺乏对时序信息的考虑,如果直接应用现有的生成对抗网络模型去生成时序数据,会导致生成的时序数据连续性表现较差,数据质量低,网络训练不稳定、难以收敛。因此,如何解决类别非平衡下多元时序数据的故障诊断具有很高的应用价值。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种针对非平衡多元时序数据的工业故障诊断非平衡时序数据扩充方法,针对其中小样本类别的时序故障数据,通过改进的生成对抗网络模型训练,得到可以生成原小样本数据分布的生成模型,并生成需要数量的人工样本,以用来提高故障分类的精度。
为解决上述技术问题,本发明的一种工业故障诊断非平衡时序数据扩充方法,包括以下步骤:
步骤1:准备训练数据集:将工业系统历史运行过程中的离线数据作为故障诊断的原始数据X,X中包含有n种类型的故障数据,其中存在m种大样本数据集分别为α12…αm,n-m种小样本数数据集β12…βn-m,并且小样本数据集和大样本数据中最大数量的不平衡比例IR小于给定值,然后以小样本类型故障数据集作为训练集,对数据进行归一化以及标准化预处理,得到所需训练数据集;
步骤2:构建改进的边界平衡生成对抗网络模型GRU-BEGAN,包括判别器D和生成器G,生成器G由门控循环神经网络GRU模型构成,判别器D是一个自编码器模型,门控循环神经网络通过使用自带反馈的神经元使得模型的输出和当前时刻相关同时也和上一时刻的输出相关,门控循环神经网络单元包含更新门和重置门,其中zt代表更新门、rt代表重置门,更新门控制历史隐含状态ht-1在当前隐含状态ht和当前候选状态
Figure BDA0002801599280000021
之间的分配,重置门决定当前候选状态
Figure BDA0002801599280000022
对历史隐含状态ht-1的依赖程度,门控循环神经网络的单元更新公式具体为:
rt=σ(Wxrxt+Whrht-1+br)
zt=σ(Wxzxt+Whzht-1+bz)
Figure BDA0002801599280000023
Figure BDA0002801599280000024
其中,xt为当前时刻的输入,Wxr,Whr,br为更新重置门的权重参数和偏置参数,Wxz,Whz,bz为更新更新门的权重参数和偏置参数,Wxh,Whh,bh为更新当前候选状态的权重参数和偏置参数,σ为sigmoid函数,zt为更新门、rt为重置门,ht为当前隐含状态,
Figure BDA0002801599280000025
为当前候选状态;
步骤3:训练构建的GRU-BEGAN网络模型,具体包括:
步骤3.1:初始化参数:输入训练数据的批次batchsize、训练迭代次数epoch、超参数α,θ,λk,kt,分别是学习率、KL损失权值系数、kt更新的学习率、生成数据重构损失权值系数;
步骤3.2:训练判别器:将带有条件约束t的随机变量
Figure BDA0002801599280000026
作为生成器的输入,生成器得到生成数据G(z|t),再将带有条件约束t的真实数据
Figure BDA0002801599280000027
以及生成数据G(z|t)作为判别器的输入,计算判别器损失函数LD=L(x|t)-ktL(G(z|t)),根据Adam优化算法去更新判别器的权重参数:
Figure BDA0002801599280000028
w←w-α*Adam(w,dw)
kt+1←ktk(rL(x|t)-L(G(z|t)))
kt=min(max(k,0),1)
其中,kt表示生成数据重构损失的权重系数,λk为kt更新的学习率;
Figure BDA0002801599280000031
表示属于t时间段内的原始数据,
Figure BDA0002801599280000032
表示属于t时间段内的生成数据;L(x|t)和L(G(z|t))分别表示真实数据和生成数据的重构损失;
步骤3.3:训练生成器:将带有条件约束t的随机变量
Figure BDA0002801599280000033
作为生成器的输入,生成器得到生成数据G(z|t),再将带有条件约束t的真实数据
Figure BDA0002801599280000034
以及生成数据G(z|t)作为判别器的输入,计算生成器损失函数LG=L(G(z|t))+θLossfeature,根据Adam优化算法去更新生成器的权重参数:
Figure BDA0002801599280000035
w←w-α*Adam(w,gw)
其中,Lossfeature表示真实数据和生成数据潜在特征分布之间的KL散度,其数学表达式为:
Lossfeature=DKL(Encoder(x)||Encoder(G(x)))
步骤3.4:根据步骤3.2和步骤3.3交替训练判别器以及生成器,直到Mgloable损失函数值不再下降,网络模型收敛则训练完成,Mgloable损失函数具体为:
Mgloable=L(x|t)+||rL(x|t)-L(G(z|t))||1
其中,r用来表示多样性比率,用来调节生成器和判别器之间的平衡,计算公式为:
Figure BDA0002801599280000036
如果判别器和生成器达到平衡,则E(L(x|t))=E(L(G(z|t)))。
步骤4:根据训练好的GRU-BEGAN生成对抗网络模型生成小样本类型的人工数据:
训练完成后的模型输入简单随机变量z|t,生成符合时间t的时序数据,再将生成的数据集扩充至原始数据的小样本类型中,根据扩充后的数据集建立1D/2D-CNN故障诊断模型。
本发明的有益效果:本发明针对故障诊断中多元时序数据集类别不平衡的情况,利用改进的GRU-BEGAN生成对抗网络模型去生成少数类样本去扩充原始数据集,使其训练集数据类别达到类别平衡。此方法的优势在于:(1)生成对抗网络训练阶段难以收敛,结合判别器自编码器模型可以进行特征提取的特点,将提取的真实数据特征作为隐含变量加入到生成器中,从而指导随机变量z逼近真实数据分布,同时根据提取的特征将潜在特征分布之间的KL散度作为生成器损失的一部分,提高了模型的收敛速率以及稳定性,生成了更高质量的人工数据;(2)对于时序数据的生成,门控循环神经网络(Gated Recurrent Units,GRU)可以有效的处理时序数据,很好的刻画时间序列当前输出和上一时刻信息之间的关系,故引入门控循环神经网络GRU模型作为生成对抗网络的生成器,同时引入额外的条件变量时间t去约束随机噪声z,从而生成指定时间段的时序数据,并且该模型是一种端到端的模型结构,可以更加方便快捷的进行数据生成。(3)充分利用了时间序列的时序信息,在多元时间序列的人工数据生成上有较好的连续性。
附图说明
图1为本发明非平衡时序数据故障诊断模型结构图;
图2为本发明GRU-BEGAN生成对抗网络框架示意图;
图3(a)至图3(e)均为本发明模型改进前后生成数据和真实数据的时序图对比;
图4为本发明数据扩充前后模型收敛结果对比;
图5为本发明数据扩充前后测试集分类结果对比。
具体实施方式
下面结合附图对本发明具体实施方式做进一步说明。
本发明基于边界平衡生成对抗网络算法,在充分考虑时间序列数据的时序信息上,提出了一种改进的基于条件的边界平衡生成对抗网络算法GRU-BEGAN。在模型结构上,门控循环神经网络(Gated Recurrent Units,GRU)在处理任意时间段的时序数据时具有短期记忆功能,故引入门控循环神经网络GRU作为边界平衡生成对抗网络的生成器,同时在生成器的输入上引入额外的时序信息t,从而生成任意时间段内的时序数据,同时基于判别器自编码器可进行数据特征提取的特点,将编码器输出的真实数据特征作为隐含变量引入到到生成器中,从而指导生成数据朝着真实数据分布流行附近靠近;在损失函数上,将判别器自编码器中编码器输出的真实数据和生成数据潜在特征分布之间的KL散度作为生成器损失的一部分,使其训练得到更多真实数据的细节信息。以上在模型结构以及损失函数上的改进可以使得模型收敛更快,数据质量更高,最后利用端到端的GRU-BEGAN模型去训练故障数据中的小样本时序数据集,得到生成的人工数据去增强原始数据集,提高故障诊断模型的精确度。
实施例1
本发明提出的一种基于改进的生成对抗网络工业故障诊断非平衡时序数据扩充方法,包括以下步骤:
步骤一:通过工业系统历史运行过程中的离线数据作为故障诊断的原始数据X,X中包含有n种类型的故障数据,其中存在m种大样本数据集分别为α12…αm,n-m种小样本数数据集β12…βn-m,并且小样本数据集和大样本数据中最大数量的不平衡比例IR小于1:2,然后我们以小样本类型故障数据集作为训练集,对数据进行归一化以及标准化预处理,得到所需训练数据集。
步骤二:我们以边界平衡生成对抗网络BEGAN模型为基础,构建改进的边界平衡生成对抗网络模型GRU-BEGAN,其主要由判别器和生成器组成。为了使生成的数据具有时序性,生成器G由门控循环神经网络GRU模型构成,而判别器D是一个自编码器模型。门控循环神经网络通过使用自带反馈的神经元,使得模型的输出不仅和当前时刻相关,也和上一时刻的输出相关,从而在处理任意时间段的数据具有短期记忆的功能,生成更加符合真实数据的时序数据。门控循环神经网络单元主要包含两个门分别是更新门以及重置门,其中zt代表更新门、rt代表重置门,更新门主要控制历史隐含状态ht-1保留多少给当前隐含状态ht以及多少给当前候选状态
Figure BDA0002801599280000051
重置门主要决定当前候选状态
Figure BDA0002801599280000052
对历史隐含状态ht-1的依赖程度,门控循环神经网络的单元更新公式如下:
rt=σ(Wxrxt+Whrht-1+br)
zt=σ(Wxzxt+Whzht-1+bz)
Figure BDA0002801599280000053
Figure BDA0002801599280000054
上述公式中,xt为当前时刻的输入,Wxr,Whr,br为更新重置门的权重参数和偏置参数,Wxz,Whz,bz为更新更新门的权重参数和偏置参数,Wxh,Whh,bh为更新当前候选状态的权重参数和偏置参数,σ为sigmoid函数,zt为更新门、rt为重置门,ht为当前隐含状态,
Figure BDA0002801599280000055
为当前候选状态。
步骤三:计算损失函数,主要包括生成器损失以及判别器损失;
Figure BDA0002801599280000056
上式中,kt表示生成数据重构损失的权重系数,λk为kt更新的学习率;
Figure BDA0002801599280000057
表示属于t时间段内的原始数据,
Figure BDA0002801599280000058
表示属于t时间段内的生成数据;L(x|t)和L(G(z|t))分别表示真实数据和生成数据的重构损失,LD=L(x|t)-ktL(G(z|t))表示判别器损失,LG=L(G(z|t))+θLossfeature表示生成器损失;原始损失函数中缺乏对真实数据和生成数据潜在分布之间的度量,使得训练并未完全得到真实数据的细节特征,为了使其训练获得更多真实数据的细节信息,在生成器损失函数中增加了潜在特征分布之间的KL散度,其中Lossfeature表示真实数据和生成数据特征分布之间的KL散度,其数学表达式为:
Lossfeature=DKL(Encoder(x)||Encoder(G(x)))
r用来表示多样性比率,计算公式为:
Figure BDA0002801599280000061
如果判别器和生成器达到平衡,则E(L(x|t))=E(L(G(z|t))),故r可以用来调节生成器和判别器之间的平衡;对于模型的收敛程度从两方面考虑,一方面包括真实数据的重构损失,另一方面包括真实数据和生成数据的重构损失之间的距离,故度量模型全局收敛的计算公式为:
Mgloable=L(x|t)+||rL(x|t)-L(G(z|t))||1
在训练过程中可根据Mgloable的变化去判断模型是否收敛。
步骤四:训练GRU-BEGAN生成对抗网络模型,如图2所示,首先将带有时间t约束的简单随机变量z|t作为生成器的输入去生成人工样本,再将生成的人工样本G(z|t)和真实数据x|t输入到判别器中,判别器去判断真实样本和人工样本,然后去计算判别器损失函数,根据梯度下降算法更新判别器权值参数,更新完判别器权值参数再由随机变量z|t生成新的人工样本输入到判别器中去计算生成器损失以及优化生成器的权值参数。按照上述方式循环交替迭代训练网络参数,直到Mgloable损失函数值不再下降或保持稳定,网络模型收敛则训练完成,训练完成后输入简单随机变量z|t,便可生成符合时间t的时序数据。
步骤五:根据训练好的GRU-BEGAN生成对抗网络模型去生成非平衡数据中的少类样本,根据真实数据的类别去计算类别不平衡比率IR,由不平衡比率IR从生成的数据中挑取部分人工数据填充到少类样本集中,从而得到扩充完整的类别平衡训练数据集去构建故障诊断模型。
实施例2:
本发明基于工业故障诊断中的非平衡工况多元时序数据集,利用改进的GRU-BEGAN生成对抗网络对其中小样本类型的多元时序数据进行数据生成,将生成数据集扩充至小样本类型的原始数据中,再去建立故障诊断模型,完整模型结构图如图1所示。其步骤如下:
步骤一:准备训练数据集;
通过工业系统历史运行过程中的离线数据作为故障诊断的原始数据X,X中包含有n种类型的故障数据,其中存在m种大样本数据集分别为α12…αm,n-m种小样本数数据集β12…βn-m,并且小样本数据集和大样本数据中最大数量的不平衡比例IR小于1:2,然后我们以小样本故障数据集作为训练集,对数据进行归一化以及标准化预处理,得到所需训练数据集。
步骤二:构建GRU-BEGAN的网络结构;
如图2所示,GRU-BEGAN模型主要由生成器G和判别器D组成,其中判别器是一个自编码器网络,主要由编码器和解码器组成。为了使生成的数据具有时序性,生成器由门控循环神经网络GRU组成,门控循环神经网络通过使用自带反馈的神经元,使得模型的输出不仅和当前时刻相关,也和上一时刻的输出相关,从而在处理任意时间段的数据具有短期记忆的功能,可以很好的刻画时间序列当前输出和上一时刻信息之间的关系。在网络训练中,通过判别器自编码器网络可提取真实数据和生成数据的特征信息,一方面,可将提取的真实数据特征作为隐含变量引入到生成器中,从而指导随机变量z逼近真实数据的分布。另一方面,可将提取的真实数据以及生成数据特征分布之间的KL散度作为生成器损失的一部分,使其训练得到更多真实数据的细节信息,从而生成更加符合真实数据的人工样本。
步骤三:训练构建的GRU-BEGAN网络模型;
基于条件的GRU-BEGAN生成对抗网络,首先将带有时间t约束的简单随机变量z|t作为生成器的输入去生成人工样本,再将生成的人工样本G(z|t)和真实数据x|t输入到判别器中,判别器去判断真实样本和人工样本,然后去计算判别器损失函数,根据梯度下降算法更新判别器权重参数,再由随机变量z|t生成新的人工样本输入到判别器中去计算生成器损失以及优化生成器的权重参数,按照上述方式循环交替迭代训练网络参数。基于条件的GRU-BEGAN生成对抗网络的优化函数为:
Figure BDA0002801599280000071
其中
Figure BDA0002801599280000072
表示属于t时间段内的原始数据,
Figure BDA0002801599280000073
表示属于t时间段内的生成数据。L(x|t)和分L(G(z|t))别表示真实数据和生成数据的重构损失,LD=L(x|t)-ktL(G(z|t))表示判别器损失。LG=L(G(z|t))+θLossfeature表示生成器损失。Lossfeature表示真实数据和生成数据特征分布之间的KL散度,具体训练包括以下步骤:
(1)初始化参数:输入训练数据的批次batchsize;训练迭代此时epoch;超参数:α,θ,λk,kt,分别是学习率、感知损失权值系数、kt更新的学习率、生成数据重构损失权值系数。
(2)训练判别器:将带有条件约束t的随机变量
Figure BDA0002801599280000081
作为生成器的输入,生成器得到生成数据G(z|t),再将带有条件约束t的真实数据
Figure BDA0002801599280000082
以及生成数据G(z|t)作为判别器的输入,计算判别器损失函数LD=L(x|t)-ktL(G(z|t)),根据Adam优化算法去更新判别器的权重参数。
Figure BDA0002801599280000083
w←w-α*Adam(w,dw)
kt+1←ktk(rL(x|t)-L(G(z|t)))
kt=min(max(k,0),1)
(3)训练生成器:将带有条件约束t的随机变量
Figure BDA0002801599280000084
作为生成器的输入,生成器得到生成数据G(z|t),再将带有条件约束t的真实数据
Figure BDA0002801599280000085
以及生成数据G(z|t)作为判别器的输入,计算生成器损失函数LG=L(G(z|t))+θLossfeature,根据Adam优化算法去更新生成器的权重参数。
Figure BDA0002801599280000086
w←w-α*Adam(w,gw)
(4)根据上述方式交替训练判别器以及生成器,直到Mgloable损失函数值不再下降,网络模型收敛则训练完成。
步骤四:根据训练好的GRU-BEGAN生成对抗网络模型去生成小样本类型的人工数据,训练完成后的模型输入简单随机变量z|t,便可生成符合时间t的时序数据。再将生成的数据集扩充至原始数据的小样本类型中,根据扩充后的数据集建立1D/2D-CNN故障诊断模型。
结合具体参数实施例,本施例数据来自核电站热工水利系统故障诊断的仿真数据集,如表1所示,包含6种故障类型的时序工况数据集,其中fault3主回路小破口失水事故类型的样本量最少,与其中样本量最大的不平衡比率IR为1:2.5,我们将它作为网络模型训练的训练集,训练前对数据进行归一化以及标准化处理。
核电站热工水利系统故障诊断实验结果分析:
本实验数据集包含6种故障类型的时序工况数据集,我们以其中样本量最少的fault3主回路小破口失水事故为训练集,根据构建的GRU-BEGAN网络模型以及训练方式进行训练,表2是相同判别器以及训练参数下,模型改进前后生成数据和真实数据统计指标对比,其分别是余弦相似度、KL散度、皮尔逊相关系数、均值、方差为衡量生成数据质量的5个指标,余弦相似度越接近于1说明数据相似度越高,KL散度越小说明数据分布越相似,皮尔逊相关系数越接近于1说明数据分布的相关性越强,均值与方差越接近原始数据的均值方差说明数据分布越相近,故从5个指标分析GRU-BEGAN在相似度和相关性上均优于BEGAN生成的数据;图3是模型改进前后生成数据和真实数据的时序图,其中实线是原始数据的时序数据曲线,线划线是GRU-BEGAN模型生成的时序数据曲线,点划线是BEGAN模型生成的时序数据曲线,显然GRU-BEGAN模型生成的时序数据曲线更符合原始数据的分布;图4相同参数设置下两种方法收敛值随迭代次数变化的曲线图,其中实线为BEGAN模型的收敛值曲线,线划线为GRU-BEGAN模型的收敛值曲线,从中可以看到随着迭代次数的增加,线划线曲线收敛的更快并且更加平稳,并在一定迭代次数后持续低于实线,这表明改进的GRU-BEGAN模型在收敛性以及稳定性上有显著的提升;综上可知,改进的GRU-BEGAN模型对时序数据的生成无论是从数据质量、模型的收敛性以及稳定性上都有了显著的提升。
基于改进的边界生成对抗网络模型GRU-BEGAN模型,以其中样本量最小的主回路小破口失水事故故障数据为训练集,将训练得到生成数据扩充1倍至原始的主回路小破口失水事故故障训练集中,扩充前训练集为2041个,扩充后的训练集为4082个,我们将扩充完整的数据基于相同参数设置的1D-CNN下进行训练并测试。图5是数据扩充前后1D-CNN模型迭代1000次测试集准确率曲线,其中点划线代表数据扩充后训练时测试集的准确率,实线代表原始数据训练时测试集的准确率,由曲线变化可知数据扩充后训练时测试集的准确率高于原始数据训练时的准确率,具体扩充前后故障模型诊断结果如表3所示,其中数据扩充后的主回路小破口失水事故的准确率由89.61%提升至95.19%,总的模型故障诊断准确率由96.39%提升至97.43%。综上可知,改进的边界平衡生成对抗网络GRU-BEGAN模型可以生成符合真实数据的人工样本,从而去增强非平衡的时序数据集,进而提高故障诊断模型的准确率,增强故障诊断模型的鲁棒性。
表1本发明具体施例的故障诊断类型列表
Figure BDA0002801599280000091
表2本发明模型改进前后生成数据和真实数据统计指标对比
Figure BDA0002801599280000101
表3本发明数据扩充前后故障诊断结果
Figure BDA0002801599280000102

Claims (1)

1.一种工业故障诊断非平衡时序数据扩充方法,其特征在于,包括以下步骤:
步骤1:准备训练数据集:将工业系统历史运行过程中的离线数据作为故障诊断的原始数据X,X中包含有n种类型的故障数据,其中存在m种大样本数据集分别为α12… αm,n-m种小样本数数据集β12… βn-m,并且小样本数据集和大样本数据中最大数量的不平衡比例IR小于给定值,然后以小样本类型故障数据集作为训练集,对数据进行归一化以及标准化预处理,得到所需训练数据集;
步骤2:构建改进的边界平衡生成对抗网络模型GRU-BEGAN,包括判别器D和生成器G,生成器G由门控循环神经网络GRU模型构成,判别器D是一个自编码器模型,门控循环神经网络通过使用自带反馈的神经元使得模型的输出和当前时刻相关同时也和上一时刻的输出相关,门控循环神经网络单元包含更新门和重置门,其中zt代表更新门、rt代表重置门,更新门控制历史隐含状态ht-1在当前隐含状态ht和当前候选状态
Figure FDA0003626198290000011
之间的分配,重置门决定当前候选状态
Figure FDA0003626198290000012
对历史隐含状态ht-1的依赖程度,门控循环神经网络的单元更新公式具体为:
rt=σ(Wxrxt+Whrht-1+br)
zt=σ(Wxzxt+Whzht-1+bz)
Figure FDA0003626198290000013
Figure FDA0003626198290000014
其中,xt为当前时刻的输入,Wxr,Whr,br为更新重置门的权重参数和偏置参数,Wxz,Whz,bz为更新更新门的权重参数和偏置参数,Wxh,Whh,bh为更新当前候选状态的权重参数和偏置参数,σ为sigmoid函数,zt为更新门、rt为重置门,ht为当前隐含状态,
Figure FDA0003626198290000015
为当前候选状态;
步骤3:训练构建的GRU-BEGAN网络模型,具体包括:
步骤3.1:初始化参数:输入训练数据的批次batchsize、训练迭代次数epoch、超参数α,θ,λk,kt,分别是学习率、KL损失权值系数、kt更新的学习率、生成数据重构损失权值系数;
步骤3.2:训练判别器:将带有条件约束t的随机变量
Figure FDA0003626198290000016
作为生成器的输入,生成器得到生成数据G(z|t),再将带有条件约束t的真实数据
Figure FDA0003626198290000017
以及生成数据G(z|t)作为判别器的输入,计算判别器损失函数LD=L(x|t)-ktL(G(z|t)),根据Adam优化算法去更新判别器的权重参数:
Figure FDA0003626198290000021
w←w-α*Adam(w,dw)
kt+1←ktk(rL(x|t)-L(G(z|t)))
kt=min(max(k,0),1)
其中,kt表示生成数据重构损失的权重系数,λk为kt更新的学习率;
Figure FDA0003626198290000022
表示属于t时间段内的原始数据,
Figure FDA0003626198290000023
表示属于t时间段内的生成数据;L(x|t)和L(G(z|t))分别表示真实数据和生成数据的重构损失;
步骤3.3:训练生成器:将带有条件约束t的随机变量
Figure FDA0003626198290000024
作为生成器的输入,生成器得到生成数据G(z|t),再将带有条件约束t的真实数据
Figure FDA0003626198290000025
以及生成数据G(z|t)作为判别器的输入,计算生成器损失函数LG=L(G(z|t))+θLossfeature,根据Adam优化算法去更新生成器的权重参数:
Figure FDA0003626198290000026
w←w-α*Adam(w,gw)
其中,Lossfeature表示真实数据和生成数据潜在特征分布之间的KL散度,其数学表达式为:
Lossfeature=DKL(Encoder(x)||Encoder(G(x)))
步骤3.4:根据步骤3.2和步骤3.3交替训练判别器以及生成器,直到Mgloable损失函数值不再下降,网络模型收敛则训练完成,Mgloable损失函数具体为:
Mgloable=L(x|t)+||rL(x|t)-L(G(z|t))||1
其中,r用来表示多样性比率,用来调节生成器和判别器之间的平衡,计算公式为:
Figure FDA0003626198290000027
如果判别器和生成器达到平衡,则E(L(x|t))=E(L(G(z|t))),E(L(x|t))表示真实数据重构损失的期望,E(L(G(z|t)))表示生成数据重构损失的期望;
步骤4:根据训练好的GRU-BEGAN生成对抗网络模型生成小样本类型的人工数据:训练完成后的模型输入简单随机变量z|t,生成符合时间t的时序数据,再将生成的数据集扩充至原始数据的小样本类型中,根据扩充后的数据集建立1D/2D-CNN故障诊断模型。
CN202011352099.3A 2020-11-27 2020-11-27 一种工业故障诊断非平衡时序数据扩充方法 Active CN112328588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011352099.3A CN112328588B (zh) 2020-11-27 2020-11-27 一种工业故障诊断非平衡时序数据扩充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011352099.3A CN112328588B (zh) 2020-11-27 2020-11-27 一种工业故障诊断非平衡时序数据扩充方法

Publications (2)

Publication Number Publication Date
CN112328588A CN112328588A (zh) 2021-02-05
CN112328588B true CN112328588B (zh) 2022-07-15

Family

ID=74309153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011352099.3A Active CN112328588B (zh) 2020-11-27 2020-11-27 一种工业故障诊断非平衡时序数据扩充方法

Country Status (1)

Country Link
CN (1) CN112328588B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032917A (zh) * 2021-03-03 2021-06-25 安徽大学 一种基于生成对抗及卷积循环神经网络的机电轴承故障检测方法及应用系统
CN113204280B (zh) * 2021-05-08 2023-09-26 山东英信计算机技术有限公司 一种诊断电源故障的方法、系统、设备及介质
CN112990445B (zh) * 2021-05-13 2021-07-16 国网浙江省电力有限公司金华供电公司 一种配电网监控信息智能分析机器学习方法
CN113591954B (zh) * 2021-07-20 2023-10-27 哈尔滨工程大学 一种工业系统中缺失的时序数据的填充方法
WO2024065777A1 (en) * 2022-09-30 2024-04-04 Siemens Aktiengesellschaft Method, apparatus, electronic device, and storage medium for diagnosing industrial fault
CN115906949B (zh) * 2022-11-22 2023-06-20 东北石油大学三亚海洋油气研究院 一种石油管道故障诊断方法及系统、存储介质和石油管道故障诊断设备
CN116168789B (zh) * 2023-04-26 2023-07-18 之江实验室 一种多中心医疗数据生成系统和方法
CN116821697B (zh) * 2023-08-30 2024-05-28 聊城莱柯智能机器人有限公司 一种基于小样本学习的机械设备故障诊断方法
CN117171681B (zh) * 2023-11-03 2024-01-30 贵州大学 非平衡小样本下的无人机舵面智能故障诊断方法及装置
CN117523345B (zh) * 2024-01-08 2024-04-23 武汉理工大学 一种目标检测数据平衡方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN111353482A (zh) * 2020-05-25 2020-06-30 天津开发区精诺瀚海数据科技有限公司 一种基于lstm的疲劳因子隐性异常检测及故障诊断方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470187A (zh) * 2018-02-26 2018-08-31 华南理工大学 一种基于扩充训练数据集的类别不平衡问题分类方法
US11105942B2 (en) * 2018-03-27 2021-08-31 Schlumberger Technology Corporation Generative adversarial network seismic data processor
CN109598671A (zh) * 2018-11-29 2019-04-09 北京市商汤科技开发有限公司 图像生成方法、装置、设备及介质
CN109918999A (zh) * 2019-01-22 2019-06-21 西安交通大学 一种小样本数据下基于生成模型的机械设备故障智能诊断方法
CN111037365B (zh) * 2019-12-26 2021-08-20 大连理工大学 基于生成式对抗网络的刀具状态监测数据集增强方法
CN111240279B (zh) * 2019-12-26 2021-04-06 浙江大学 一种面向工业不平衡数据的对抗增强故障分类方法
CN111238815B (zh) * 2020-02-26 2022-05-06 中国民航大学 一种样本不平衡下基于数据增强的轴承故障识别方法
CN111898634B (zh) * 2020-06-22 2022-08-16 西安交通大学 一种基于深度对抗域自适应的智能故障诊断方法
CN111832428B (zh) * 2020-06-23 2024-02-23 北京科技大学 一种应用于冷轧轧机断带故障诊断的数据增强方法
CN111898686A (zh) * 2020-08-04 2020-11-06 重庆大学 基于门控循环单元网络的轴承故障识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN111353482A (zh) * 2020-05-25 2020-06-30 天津开发区精诺瀚海数据科技有限公司 一种基于lstm的疲劳因子隐性异常检测及故障诊断方法

Also Published As

Publication number Publication date
CN112328588A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112328588B (zh) 一种工业故障诊断非平衡时序数据扩充方法
CN106951695B (zh) 多工况下的机械设备剩余使用寿命计算方法及系统
CN109214708B (zh) 基于交叉熵理论优化支持向量机的电力系统风险评估方法
CN116757534B (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
CN109101584B (zh) 一种将深度学习与数学分析相结合的句子分类改进方法
US20210334658A1 (en) Method for performing clustering on power system operation modes based on sparse autoencoder
CN112528564A (zh) 一种基于稀疏贝叶斯学习的桥梁结构损伤识别方法
CN114707754A (zh) 一种基于BiLSTM-CNN模型的智能电表故障预测方法及系统
CN114707712A (zh) 一种发电机组备件需求的预测方法
CN115982141A (zh) 一种针对时序数据预测的特征优化方法
CN117521512A (zh) 一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法
CN115345222A (zh) 一种基于TimeGAN模型的故障分类方法
CN115561005A (zh) 基于eemd分解和轻量化神经网络的化工过程故障诊断方法
CN117056678B (zh) 一种基于小样本的机泵设备运行故障诊断方法及装置
CN116933025A (zh) 基于vmd与dbo-lstm-at的变压器顶层油温预测方法
CN115292820A (zh) 一种城轨列车轴承剩余使用寿命的预测方法
CN115204362A (zh) 一种机械设备剩余寿命区间预测方法
CN114638421A (zh) 一种发电机组备件需求的预测方法
CN114298413A (zh) 一种水电机组振摆趋势预测方法
CN113420492A (zh) 一种基于gan与gru神经网络的风光火耦合系统频率响应模型建模方法
CN117494573B (zh) 一种风速预测方法、系统及电子设备
CN112380041B (zh) 一种基于xgboost的指控通信装备故障预测方法
Lee et al. Signal Validation Algorithm using Deep Learning Methods
CN118014445B (zh) 水网系统空间均衡状态评价技术方法及系统
Liu et al. Data-Driven Fault Detection of Three-Tank System Applying MWAT-ICA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant