CN116451150A - 一种基于半监督小样本的设备故障诊断方法 - Google Patents

一种基于半监督小样本的设备故障诊断方法 Download PDF

Info

Publication number
CN116451150A
CN116451150A CN202310358496.9A CN202310358496A CN116451150A CN 116451150 A CN116451150 A CN 116451150A CN 202310358496 A CN202310358496 A CN 202310358496A CN 116451150 A CN116451150 A CN 116451150A
Authority
CN
China
Prior art keywords
data
model
learning
training
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310358496.9A
Other languages
English (en)
Inventor
季海鹏
王晓茜
刘晶
赵佳
张健楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202310358496.9A priority Critical patent/CN116451150A/zh
Publication of CN116451150A publication Critical patent/CN116451150A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M13/00Testing of machine parts
    • G01M13/04Bearings
    • G01M13/045Acoustic or vibration analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
    • Y04S10/52Outage or fault management, e.g. fault detection or location

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Acoustics & Sound (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于半监督小样本的设备故障诊断方法,属于设备故障诊断的技术领域,包括下述步骤:将标记数据与无标记数据进行数据处理,利用信号分解算法分解为多个信号分量;利用梳理后的数据构建元学习任务;构建半监督故障诊断模型,利用伪标签与一致性正则方式进行半监督训练,通过多通道卷积模型进行故障特征提取与分类;进行元学习训练与测试,利用元学习算法对模型初始参数进行优化,完成小样本下的设备故障诊断。

Description

一种基于半监督小样本的设备故障诊断方法
技术领域
本发明涉及设备故障诊断技术领域,尤其是涉及一种基于半监督小样本的设备故障诊断方法。
背景技术
机械设备是推动工业物联网高质量发展的关键因素,具有高精密化与复杂化的特点,其故障诊断对实际工业生产至关重要。随着人工智能技术的快速发展,深度学习方法在故障诊断领域中得到广泛研究,并具有良好的诊断效果,但其训练通常需要大量标注数据支持。而实际工业生产中,由于设备运行工况复杂,数据难以精确标注,使样本中存在大量标签缺失数据,导致模型诊断准确率降低;同时,故障数据收集耗时且困难,导致样本数据量过少,难以涵盖不同工况的故障类型,影响故障诊断在多工况情况下的泛化性。
深度学习方法具有强大的学习能力和自动特征提取能力,能够有效处理高维复杂数据,是当前设备故障诊断领域的主要研究内容。例如文章[李恒等.基于短时傅里叶变换和卷积神经网络的轴承故障诊断方法[J].振动与冲击,2018,37(19):124-131]针对非平稳性滚动轴承振动信号,提出基于短时傅里叶变换和卷积神经网络的故障诊断方法,实现端到端的故障模式识别,具有良好的诊断准确率和鲁棒性;例如文章[Liu等.OneDimensional Convolutional Neural Networks Using Sparse Wavelet Decompositionfor Bearing Fault Diagnosis[J/OL].IEEE Access,2022,10:86998-87007]提出一种使用稀疏小波分解进行特征提取并结合多尺度一维卷积神经网络进行轴承故障诊断的新算法,显著降低数据维数,进一步提升诊断性能。然而,基于深度学习故障诊断方法的优越性能依赖于大量样本数据的训练,同时,在跨工况场景中,训练数据与测试数据的类别分布不同,导致深度学习方法的诊断准确率降低。近年来,针对小样本数据的设备故障诊断方法受到广泛关注和研究,包括数据增强和迁移学习等方法。例如文章[Hu等.Data Simulationby Resampling-A Practical Data Augmentation Algorithm for Periodical SignalAnalysis-Based Fault Diagnosis[J/OL].IEEE Access,2019,7:125133-125145]提出了一种重采样数据模拟(DSR)算法用于数据扩充,缓解故障诊断中样本不足问题,增加样本多样性和训练集数量,具有较高的故障诊断准确率和泛化性;例如文章[胡若晖等.基于DCGAN和DANN网络的滚动轴承跨域故障诊断[J].振动与冲击,2022,41(06):21-29]提出一种利用少量样本数据实现领域自适应的迁移学习模型,保留真实信号完整特征,实现多领域特征提取与适配,在样本较少时能准确有效实现滚动轴承的跨域故障诊断;例如文章[Tong等.Bearing Fault Diagnosis Under Variable Working Conditions Based on DomainAdaptation Using Feature Transfer Learning[J/OL].IEEE Access,2018,6:76187-76197]提出了一种基于特征转移学习(DAFTL)的域自适应变工况故障诊断方法,通过域不变聚类增强识别信息并减少域差异,获得训练和测试数据的可迁移特征,在变工况条件下具有良好的故障诊断准确率。然而,迁移学习适合于源域数据量充足并且目标域特征差异较小场景,而不同工况及设备的数据特征存在较大差异,所以迁移学习在小样本跨工况设备情况下诊断性能可能受到局限。
元学习通过学习少量样本元知识实现对未知特定任务的快速学习,在故障诊断中得到越来越多的关注,能够有效解决跨域故障诊断中的泛化性和小样本问题。例如文章[FINN等.Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks[C/OL]//PRECUP D,TEH Y W.Proceedings of the 34th International Conference onMachine Learning,ICML 2017,Sydney,NSW,Australia,6-11 August 2017:卷70.PMLR,2017:1126-1135]提出模型无关元学习方法MAML,能够快速适应新任务学习,在小样本任务中具有良好的泛化性。针对设备跨工况诊断问题,例如文章[su等.A novel method basedon meta-learning for bearing fault diagnosis with small sample learning underdifferent working conditions[J/OL].Mechanical Systems and Signal Processing,2022,169:108765]提出了一种数据重建分层递归元学习方法DRHRML,通过改进的稀疏降噪自动编码器(ISDAE)和循环元学习算法(RML)提升变工况条件下小样本故障诊断的分类准确率。针对设备跨部件诊断问题,例如文章[颜丙生等.小样本下基于元学习的跨机械部件故障诊断[J].组合机床与自动化加工技术,2022(10):136-140]提出一种基于元学习的多通道一维卷积神经网络(MC-1DCNNML)的故障诊断方法,充分提取故障特征保留信号的真实性,通过元学习算法使模型快速适应新的故障类别,实现跨机械部件的故障诊断。上述方法均在小样本故障诊断场景中取得了较好的效果,然而,在实际工业生产不仅存在样本数据量少问题,同时样本数据标签缺失问题严重,影响小样本下跨域诊断的准确率与泛化性。
发明内容
本发明的目的在于提供一种基于半监督小样本的设备故障诊断方法,解决了现有技术中存在的设备故障诊断准确率低的技术问题。
本发明提供的一种基于半监督小样本的设备故障诊断方法,包括:
数据处理、元学习任务构建、建立半监督故障诊断模型、利用元学习对模型初始参数进行优化,
所述数据处理:利用变分模态分解方法对原始信号进行分解重构,得到信号分量信号相似度达到预设值的3个信号分量,作为重构数据;
所述元学习任务构建:利用重构数据进行元学习数据集的构建;
所述建立半监督故障诊断模型:建立若干通道卷积神经网络模型,训练有标签数据和无标签数据,利用伪标签和一致性正则方式对数据进行半监督学习,完成对标签缺失数据的特征提取;
所述利用元学习对模型初始参数进行优化:元学习划分训练任务与测试任务,两个任务分别包括查询集和支持集,在训练任务阶段利用初始参数进行模型训练,更新初始参数,在测试任务阶段对更新后的参数进行微调,并利用查询集输入最终参数的模型中进行故障诊断与分类。
进一步的,所述元学习任务构建:利用重构数据进行元学习数据集的构建的步骤,包括:将重构数据划分为有标签数据集和无标签数据集,划分元学习训练任务和测试任务。
进一步的,所述数据处理:利用变分模态分解方法对原始信号进行分解重构,得到信号分量信号相似度达到预设值的3个信号分量,作为重构数据的步骤,包括:
利用VMD变分模态分解方法对原始信号进行分解重构,得到k个IMF分量{imf1,...,imfk};
通过欧氏距离选择与原始信号相似度高的3个分量,作为重构数据x输入多通道模型中。
进一步的,所述元学习任务构建:利用重构数据进行元学习数据集的构建的步骤,包括:
重构数据划分为有标签数据集与无标签数据集/>
其中,表示有标签数据样本,/>表示其对应标签,nl表示有标签数据样本总量,i表示其中一个数据下标;/>表示无标签数据样本,nu表示无标签数据样本总量,j表示其中一个数据集下标;
对有标签数据集和无标签数据集进一步划分元学习训练任务与测试任务各任务分为支持集与查询集。
进一步的,所述建立半监督故障诊断模型:建立若干通道卷积神经网络模型,训练有标签数据和无标签数据,利用伪标签和一致性正则方式对数据进行半监督学习,完成对标签缺失数据的特征提取的步骤中,包括:
将已标记数据样本输入模型进行有监督训练得到预测分布,利用交叉熵作为已标记数据损失函数,表示为:
其中,Nl表示一次批训练中有标签数据数量,pi表示数据真实类别分布,表示模型对输入数据/>的预测类别分布,/>表示交叉熵函数,y表示输入数据/>的预测类别,/>表示已标记数据,/>表示已标记数据对应的标签,i表示其中一条数据的下标;
对无标签数据分别进行b种不同程度的加噪增强,得到加噪增强新数据并输入模型,得到b个增强数据的平均预测分布,表示为:
其中,为无标签数据/>增强后的平均预测分布,/>表示数据/>输入模型的预测分布概率;
令预测分布概率的熵最小化,对平均概率分布进行锐化处理:
其中,p表示预测概率,在此为平均预测概率表示预测分布中类别为h的输出概率,L代表总类别数,T是超参数,当T趋于0时锐化函数输出接近于one-hot编码,表示无标签数据/>最终伪标签;
对无标签原数据输入模型得到其预测分布/>计算其与增强数据伪标签的交叉熵损失,并加入一致性正则方式计算无标签原数据与平均增强数据预测分布的KL散度正则,KL散度正则表示为:
其中,pu,t为无标签原数据预测分布,/>为无标签数据增强后的平均预测分布,损失函数表示为:
其中,pu,t表示无标签原数据预测分布,qu,t表示无标签数据/>的伪标签,H(pu,i,qu,i)表示无标签原数据预测分布与伪标签的交叉熵损失函数。
进一步的,所述有标签数据损失函数与所述无标签数据损失函数相加得到模型总损失函数:
lossm=lossl+λlossu
其中,λ代表无标签损失函数所占比例,定义为1;
构建多通道卷积模型,包括输入层,特征提取层与输出层;其中,特征提取层由两个卷积块和全连接层构成,卷积块包括一维卷积层、最大池化层、批归一化层和Relu激活函数层构成。
进一步的,所述利用元学习对模型初始参数进行优化:元学习划分训练任务与测试任务,两个任务分别包括查询集和支持集,在训练任务阶段利用初始参数进行模型训练,更新初始参数,在测试任务阶段对更新后的参数进行微调,并利用查询集输入最终参数的模型中进行故障诊断与分类的步骤,包括:
元学习训练任务阶段,第i个训练任务Ti中支持集执行内层优化,以θ为初始参数进行模型训练,执行第一次梯度下降更新,每个任务的梯度更新计算公式为:
其中,为训练任务Ti在梯度下降后的自适应期望参数,α为内循环训练学习率,是支持集/>的交叉熵损失函数,/>代表此次更新梯度;
利用训练任务Ti中的查询集执行外层优化,基于第一次更新参数/>进行跨任务的梯度下降,计算所有训练任务的损失值并进行求和,得到新的模型参数θ′,更新计算公式为:
其中,θ为初始参数,β为外循环训练学习率,是查询集/>的交叉熵损失函数,/>训练任务Ti在/>参数下的更新梯度;
进入元学习测试任务阶段,利用测试任务的支持集对模型参数θ进行微调生成最终模型参数θ,利用查询集数据输入以θ为初始参数的模型中进行故障诊断,输出分类结果。
本发明提供的一种基于半监督小样本的设备故障诊断方法,针对工业设备故障诊断不仅样本数据量少,同时样本数据标签缺失问题严重,影响小样本下跨域诊断的准确率与泛化性的问题,本发明基于本地个性更新选择方式进行本地更新,并通过局部聚合与动态迭代控制联合故障诊断迭代过程,通过这两个方面进行改进。本发明针对设备数据标签缺失,故障特征难以提取的问题,提出半监督多通道模型,基于一维数据增强与伪标签方式对无标签数据进行半监督学习,加入一致性正则与锐化方法减少预测偏移,提升未标注数据故障诊断的准确率与鲁棒性;本发明通过元学习算法对模型初始参数进行学习,使模型可以快速适应新的故障类型,增强在小样本跨域场景下模型诊断的泛化性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于半监督小样本的设备故障诊断方法架构图;
图2为本发明实施例提供的半监督多通道故障诊断模型图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明以工业设备故障诊断及元学习架构为载体,以数据处理、半监督多通道故障诊断模块和元学习模型初始参数优化模块作为主要的方法法框架,其框架如图1所示,包括下述步骤:
步骤S1:数据处理:利用变分模态分解方法对原始信号进行分解重构,得到信号分量信号相似度达到预设值的3个信号分量,作为重构数据;包括以下步骤:
步骤S1-1:利用VMD变分模态分解方法对原始信号进行分解重构,得到k个IMF分量{imf1,...,imfk}。
步骤S1-2:通过欧氏距离选择与原始信号相似度高的3个分量,作为重构数据x输入多通道模型中。
步骤S2:元学习任务构建:利用重构数据进行元学习数据集的构建,包括以下步骤:
步骤S2-1:将重构数据划分为有标签数据集与无标签数据集
其中,表示有标签数据样本,/>表示其对应标签,nl表示有标签数据样本总量,i表示其中一个数据下标,/>表示无标签数据样本,nu表示无标签数据样本总量,j表示其中一个数据集下标。
步骤S2-2:对有标签数据集和无标签数据集进一步划分元学习训练任务与测试任务,各任务分为支持集与查询集。
步骤S3:建立半监督故障诊断模型:建立若干通道卷积神经网络模型,训练有标签数据和无标签数据,利用伪标签和一致性正则方式对数据进行半监督学习,完成对标签缺失数据的特征提取,包括以下步骤:
步骤S3-1:将已标记数据样本输入模型进行有监督训练得到预测分布,利用交叉熵作为已标记数据损失函数,表示为:
其中,Nl表示一次批训练中带标签数据数量,pi表示数据真实类别分布,表示模型对输入数据/>的预测类别分布,/>表示交叉熵函数,y表示输入数据/>的预测类别,/>表示已标记数据,/>表示已标记数据对应的标签,i表示其中一条数据的下标。
步骤S3-2:对无标签数据分别进行α种不同程度的加噪增强,提升伪标签的鲁棒性与置信度,得到加噪增强新数据/>并输入模型,得到α个增强数据的平均预测分布,表示为:
其中,为无标签数据/>增强后的平均预测分布,/>表示数据输入模型的预测分布概率。
步骤S3-3:了令预测分布概率的熵最小化,进一步提升伪标签预测准确度,对平均概率分布进行锐化处理:
其中,p表示预测概率,在此为平均预测概率表示预测分布中类别为h的输出概率,L代表总类别数,T是超参数,当T趋于0时锐化函数输出接近于one-hot编码,从而使模型预测的伪标签熵较低,通过锐化处理后的分布计算伪标签,促使伪标签的准确率随模型训练逐渐提高/>表示无标签数据/>最终伪标签。
步骤S3-4:对无标签原数据输入模型得到其预测分布/>计算其与增强数据伪标签的交叉熵损失,并加入一致性正则方式计算无标签原数据与平均增强数据预测分布的KL散度正则,减小伪标签预测偏差,提高模型对无标签数据预测置信度,KL散度正则表示为:
其中,pu,i为无标签原数据预测分布,/>为无标签数据增强后的平均预测分布,损失函数表示为:
其中,pu,i表示无标签原数据预测分布,qα,i表示无标签数据/>的伪标签,H(pu,i,qu,i)表示无标签原数据预测分布与伪标签的交叉熵损失函数。
步骤S4:利用元学习对模型初始参数进行优化:元学习划分训练任务与测试任务,两个任务分别包括查询集和支持集,在训练任务阶段利用初始参数进行模型训练,更新初始参数,在测试任务阶段对更新后的参数进行微调,并利用查询集输入最终参数的模型中进行故障诊断与分类,包括以下步骤:
步骤S4-1:元学习训练任务阶段,第i个训练任务Ti中支持集执行内层优化,以θ为初始参数进行模型训练,执行第一次梯度下降更新,每个任务的梯度更新计算公式为:
其中,为训练任务Ti在梯度下降后的自适应期望参数,α为内循环训练学习率,是支持集/>的交叉熵损失函数,/>代表此次更新梯度;
步骤S4-2:利用训练任务Ti中的查询集执行外层优化,基于第一次更新参数/>进行跨任务的梯度下降,计算所有训练任务的损失值并进行求和,得到新的模型参数θ′,更新计算公式为:
其中,θ为初始参数,β为外循环训练学习率,是查询集/>的交叉熵损失函数,/>训练任务Ti在/>参数下的更新梯度;
步骤S4-3:进入元学习测试任务阶段,利用测试任务的支持集对模型参数进行微调生成最终模型参数,利用查询集数据输入以为初始参数的模型中进行故障诊断,输出分类结果。
基于上述步骤,本发明有效解决样本数据量小以及标签缺失影响故障诊断性能的问题,提出一种基于半监督小样本的设备故障诊断方法。首先,建立半监督多通道模型SS-1MCNN,基于一致性正则与伪标签方式对无标签数据进行半监督学习,提升未标注数据故障诊断的准确率与鲁棒性。其次,通过元学习算法对SS-1MCNN模型初始参数进行优化学习,使模型可以快速适应跨工况与设备的故障类型,增强单工厂小样本模式中模型诊断的泛化性。通过两种数据集对比试验验证,本发明在标签缺失以及样本数量小的情况下仍具有良好的诊断准确率,并在跨工况情况下具有较好的诊断性能与泛化性。
实施例1,
基于联邦分层优化学习的设备故障诊断方法方法的试验验证:
1、试验环境
本发明搭建的试验平台主要在MacOS操作系统上进行,设备的配置信息:CPU1.4GHZ,运行内存16.0GB,使用编程语言Python3.6,采用TensorFlow、Keras框架进行试验。
2、试验验证
在凯斯西储大学轴承数据集上的实验结果与分析
(1)数据集描述
第一组实验数据来源于美国凯斯西储大学(CWRU)电气工程实验室的轴承故障诊断数据集:
轴承通过电火花加工技术在轴承上对内圈、外圈和滚动体布置了3种故障等级的单点故障,故障直径分别为0.007、0.014、0.021英寸。
CWRU实验数据集如表1所示,本实验选取采样频率为12kHZ和48kHZ状态下,驱动端在负载为0HP,1HP,2HP,3HP时的数据进行仿真实验,划分为10类故障类型,每种类型包含20000条数据,每条数据采样长度为1024个数据点。
表1-CWRU实验数据集描述
第二组实验数据来源于德国帕德博恩大学(PU)电气工程实验室的轴承故障数据集:
数据集包含4种工况,每种工况含有20条数据,每个数据采集时间均为4秒。PU实验数据集如表2所示,本实验选取采样频率为64kHZ状态下,电机转速900rpm,扭矩0.7Nm,径向力1000N的数据进行仿真实验,划分为7类故障类型,每种类型包含5000个样本,每个样本长度为1048个数据点。
表2-PU实验数据集描述
(2)对比实验结果分析
为验证SSML-1MCNN算法在小样本下的诊断性能,为满足元学习数据集的需求,从CWRU数据集中选取2种频率、4种负载、10种故障类别下的振动数据,即80种故障类别,每种故障类别100个样本来建立小样本训练的数据集,设置支持集的无标签数据比例为20%。按照N-way K-shot形式进行实验,分别对比5-way 1-shot、5-way 5-shot、5-way 10-shot三种模式的小样本实验,为随机选择5个类别作为任务,每个任务包括1条、5条、10条数据,试验结果如表3所示。通过以下6种方法进行对比试验:
(1)CNN:该模型为卷积神经网络模型,模型由1*3的卷积层、最大池化层、relu激活函数、全连接层、输出层组成,利用原始信号输入模型,输出层利用Softmax分类函数进行分类输出。
(2)1MCNN:该模型为本发明中的一维多通道卷积神经网络模型,首先通过VMD算法进行数据处理,选择有效性最好的3个IMF分量作为重构数据输入多通道模型。
(3)SS-1MCNN:本发明中半监督故障诊断模型,结构如图2所示。
(4)MAML-CNN:将MAML元学习算法与普通卷积神经网络模型CNN结合。
(5)MAML-1MCNN:将MAML元学习算法与普通多通道卷积神经网络模型1MCNN结合。
(6)SSML-1MCNN:本发明半监督小样本故障诊断方法。
表3-不同方法小样本下准确率对比
通过表3可知,5-way 10-shot准确率均优于5shot与1shot数据集,主要是因为5种类别所含样本数量增加,所含故障信息更加全面,能够支持模型提取更多故障特征,提升模型准确率。SS-1MCNN方法在小样本中诊断准确率明显优于CNN与1MCNN模型的准确率,最高可以达到80.43%的诊断准确率,说明半监督诊断方法SS-1MCNN不仅能够对无标签数据进行准确分类诊断,还能够提升对小样本数据的诊断准确率,主要因为半监督方法中加入数据增强方式,提高小样本标签缺失情况下的数据质量。同时,加入元学习优化的三种算法MAML-CNN、MAML-1MCNN、SSML-1MCNN均比其他三种方法的诊断准确率有明显提升,说明元学习算法对小样本下的故障诊断效果进一步提升,这是因为元学习具有通过少量样本训练就能快速识别新样本的学习能力,能够增强模型的泛化性。本文方法SSML-1MCNN在不同数据集中的准确率均为最高,可以达到99.35%,主要因为SSML-1MCNN方法通过半监督多通道模型与元学习结合,在提升无标签数据诊断效果的同时提升对小样本数据的学习能力,能够使模型在小样本且标签缺失情况下仍保持良好的诊断准确率。
为进一步验证本发明方法SSML-1MCNN的泛化性,模拟小样本跨工况环境进行实验。基于不同工况参数对CWRU与PU两种数据集划分形成相应的变工况数据集,CWRU不同工况数据集划分如表4所示,通过划分不同转速、负载与频率下设置5种数据集C1-C5,每种数据集样本数量为100,故障类型为10类;PU不同工况数据集划分如表5所示,通过划分不同转速、扭矩与径向力设置四种数据集P1-P4,每种故障类型样本数量为100,故障类型为7类。
表4-CWRU变工况数据集
表5-PU变工况数据集
在两种变工况数据集中进行跨工况实验,实验设置任务类型为5way5shot,即每个任务选取5个不同类别的故障类型,每种类别包含5条样本,故每个任务中包含25条训练样本与75条测试样本。在跨工况数据集中利用源数据集进行训练,目标数据集进行测试,在源数据集中设置80%含标签数据与20%无标签数据模拟标签缺失环境,分别选取1MCNN、SS-1MCNN、MAML-1MCNN与本文方法SSML-1MCNN进行对比实验,以诊断准确率为参照进行分析。针对CWRU变工况数据集,选取C1、C2、C3作为源数据集,C4、C5作为目标数据集,实验结果如表6所示:
表6-CWRU数据集跨工况实验结果
根据CWRU数据集跨工况实验可以看出,不同诊断方法中,C3→C5任务在所有跨工况任务中具有最高的诊断准确率,这是因为C3与C5的工况相比于其他跨工况任务更为相似,两种数据集的负载相同均为2HP。在不同跨工况任务中,经过元学习算法优化的诊断方法MAML-1MCNN和SSML-1MCNN相比其他两种方法准确率得到了明显提升,本试验方法SSML-1MCNN在所有任务中均保持最高的准确率,在C3C5跨工况任务中可以达到96.58%的准确率,说明本方法可以依靠少量的标记数据训练出诊断性能较好的模型,并能够有效学习深层故障信息,进而提升诊断新工况故障类型的准确率。
针对PU变工况数据集,选取P1、P2、P3作为源数据集进行训练,选取P4作为目标数据集进行测试,实验结果如表7所示:
表7-PU数据集跨工况实验结果
根据PU数据集跨工况实验可以看出,在所有跨工况任务中,P1P4的诊断准确率在不同诊断方法中均保持最高,主要因为P1与P4数据集的转速与扭矩相同,故工况更为相似。本文方法SSML-1MCNN的诊断准确率在不同跨工况任务中均具有最高的诊断准确率,能够达到94.52%,与CWRU跨工况数据集实验分析一致,说明本方法在不同工况下具有良好的的泛化性。
针对样本数据量小以及标签缺失问题,提出半监督小样本的设备故障诊断方法SSML-1MCNN。首先,建立半监督多通道模型SS-1MCNN,基于一致性正则与伪标签方式对无标签数据进行半监督学习,提升未标注数据故障诊断的准确率与鲁棒性。其次,通过元学习算法对SS-1MCNN模型初始参数进行优化学习,使模型可以快速适应跨工况与设备的故障类型,增强单工厂小样本模式中模型诊断的泛化性。通过两种数据集对比实验验证,本方法在标签缺失以及样本数量小的情况下仍具有良好的诊断准确率,并在跨工况情况下具有较好的诊断性能与泛化性。
本发明在不同标签缺失比例场景中,与传统的故障诊断方法学习与伪标签训练方法相比:
(1)本发明通过伪标签与一致性正则的方式改进的半监督诊断方法,能够充分挖掘无标签数据的特征,且准确率受数据标签比例影响波动不大,具有良好的鲁棒性;
(2)传统诊断方法对未标记数据处理方式需要进一部优化,本发明对无标签数据进行准确分类诊断,还能够提升对小样本数据的诊断准确率,主要因为半监督方法中加入数据增强方式,提高小样本标签缺失情况下的数据质量;
(3)传统的元学习方法与故障诊断结合可以提升小样本下的诊断性能,但是故障数据通常质量不佳,存在大量未标记数据影响诊断结果,本发明通过半监督多通道模型与元学习结合,在提升无标签数据诊断效果的同时提升对小样本数据的学习能力,能够使模型在小样本且标签缺失情况下仍保持良好的诊断准确率。
将本发明提出的方法应用于美国西储大学与德国帕德博恩大学故障轴承数据集,通过试验分析,验证了提出的基于基于半监督小样本的设备故障诊断方法具有较高的准确率、鲁棒性与泛化性。通过对比模拟不同数据标签缺失比例中半监督模型与传统故障诊断模型的性能,对比不同小样本分布任务中本方法与其他元学习结合方法的诊断准确率,对比不同工况下本算法与其他算法的跨域诊断性能,证明本发明所提出方法的故障诊断准确率比其他方法均有明显的提升,除此之外,本发明能够在跨工况的小样本场景中仍保持较高的准确率,进一步验证了本发明提出的方法具有良好的诊断性能,并在跨工况情况下仍能进行高效的故障诊断,具有良好的泛化性。
本发明实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种基于半监督小样本的设备故障诊断方法,其特征在于,包括:数据处理、元学习任务构建、建立半监督故障诊断模型、利用元学习对模型初始参数进行优化,
所述数据处理:利用变分模态分解方法对原始信号进行分解重构,得到信号分量信号相似度达到预设值的3个信号分量,作为重构数据;
所述元学习任务构建:利用重构数据进行元学习数据集的构建;
所述建立半监督故障诊断模型:建立若干通道卷积神经网络模型,训练有标签数据和无标签数据,利用伪标签和一致性正则方式对数据进行半监督学习,完成对标签缺失数据的特征提取;
所述利用元学习对模型初始参数进行优化:元学习划分训练任务与测试任务,两个任务分别包括查询集和支持集,在训练任务阶段利用初始参数进行模型训练,更新初始参数,在测试任务阶段对更新后的参数进行微调,并利用查询集输入最终参数的模型中进行故障诊断与分类。
2.根据权利要求1所述的方法,其特征在于,所述元学习任务构建:利用重构数据进行元学习数据集的构建的步骤,包括:将重构数据划分为有标签数据集和无标签数据集,划分元学习训练任务和测试任务。
3.根据权利要求2所述的方法,其特征在于,所述数据处理:利用变分模态分解方法对原始信号进行分解重构,得到信号分量信号相似度达到预设值的3个信号分量,作为重构数据的步骤,包括:
利用VMD变分模态分解方法对原始信号进行分解重构,得到k个IMF分量{imf1,...,imfk};
通过欧氏距离选择与原始信号相似度高的3个分量,作为重构数据x输入多通道模型中。
4.根据权利要求3所述的方法,其特征在于,所述元学习任务构建:利用重构数据进行元学习数据集的构建的步骤,包括:
重构数据划分为有标签数据集与无标签数据集/>
其中,表示有标签数据样本,/>表示其对应标签,nl表示有标签数据样本总量,i表示其中一个数据下标;/>表示无标签数据样本,nu表示无标签数据样本总量,j表示其中一个数据集下标;
对有标签数据集和无标签数据集进一步划分元学习训练任务与测试任务各任务分为支持集与查询集。
5.根据权利要求4所述的方法,其特征在于,所述建立半监督故障诊断模型:建立若干通道卷积神经网络模型,训练有标签数据和无标签数据,利用伪标签和一致性正则方式对数据进行半监督学习,完成对标签缺失数据的特征提取的步骤中,包括:
将已标记数据样本输入模型进行有监督训练得到预测分布,利用交叉熵作为已标记数据损失函数,表示为:
其中,Nl表示一次批训练中有标签数据数量,pi表示数据真实类别分布,/>表示模型对输入数据/>的预测类别分布,/>表示交叉熵函数,y表示输入数据/>的预测类别,/>表示已标记数据,/>表示已标记数据对应的标签,i表示其中一条数据的下标;
对无标签数据分别进行b种不同程度的加噪增强,得到加噪增强新数据并输入模型,得到b个增强数据的平均预测分布,表示为:
其中,为无标签数据/>增强后的平均预测分布,/>表示数据输入模型的预测分布概率;
令预测分布概率的熵最小化,对平均概率分布进行锐化处理:
其中,p表示预测概率,在此为平均预测概率ph表示预测分布中类别为h的输出概率,L代表总类别数,T是超参数,当T趋于0时锐化函数输出接近于one-hot编码,表示无标签数据/>最终伪标签;
对无标签原数据输入模型得到其预测分布/>计算其与增强数据伪标签的交叉熵损失,并加入一致性正则方式计算无标签原数据与平均增强数据预测分布的KL散度正则,KL散度正则表示为:
其中,pu,i为无标签原数据预测分布,/>为无标签数据增强后的平均预测分布,损失函数表示为:
其中,pu,i表示无标签原数据预测分布,qu,i表示无标签数据/>的伪标签,H(pu,i,qu,i)表示无标签原数据预测分布与伪标签的交叉熵损失函数。
6.根据权利要求5所述的方法,其特征在于,所述有标签数据损失函数与所述无标签数据损失函数相加得到模型总损失函数:
lossm=lossl+λlossu
其中,λ代表无标签损失函数所占比例,定义为1;
构建多通道卷积模型,包括输入层,特征提取层与输出层;其中,特征提取层由两个卷积块和全连接层构成,卷积块包括一维卷积层、最大池化层、批归一化层和Relu激活函数层构成。
7.根据权利要求6所述的方法,其特征在于,所述利用元学习对模型初始参数进行优化:元学习划分训练任务与测试任务,两个任务分别包括查询集和支持集,在训练任务阶段利用初始参数进行模型训练,更新初始参数,在测试任务阶段对更新后的参数进行微调,并利用查询集输入最终参数的模型中进行故障诊断与分类的步骤,包括:
元学习训练任务阶段,第i个训练任务Ti中支持集执行内层优化,以θ为初始参数进行模型训练,执行第一次梯度下降更新,每个任务的梯度更新计算公式为:
其中,为训练任务Ti在梯度下降后的自适应期望参数,α为内循环训练学习率,是支持集/>的交叉熵损失函数,/>代表此次更新梯度;
利用训练任务Ti中的查询集执行外层优化,基于第一次更新参数/>进行跨任务的梯度下降,计算所有训练任务的损失值并进行求和,得到新的模型参数θ′,更新计算公式为:
其中,θ为初始参数,β为外循环训练学习率,是查询集/>的交叉熵损失函数,/>训练任务Ti在/>参数下的更新梯度;
进入元学习测试任务阶段,利用测试任务的支持集对模型参数θ′进行微调生成最终模型参数θ*,利用查询集数据输入以θ*为初始参数的模型中进行故障诊断,输出分类结果。
CN202310358496.9A 2023-04-04 2023-04-04 一种基于半监督小样本的设备故障诊断方法 Pending CN116451150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310358496.9A CN116451150A (zh) 2023-04-04 2023-04-04 一种基于半监督小样本的设备故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310358496.9A CN116451150A (zh) 2023-04-04 2023-04-04 一种基于半监督小样本的设备故障诊断方法

Publications (1)

Publication Number Publication Date
CN116451150A true CN116451150A (zh) 2023-07-18

Family

ID=87126581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310358496.9A Pending CN116451150A (zh) 2023-04-04 2023-04-04 一种基于半监督小样本的设备故障诊断方法

Country Status (1)

Country Link
CN (1) CN116451150A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150377A (zh) * 2023-11-01 2023-12-01 北京交通大学 基于全自主动机偏移的电机故障诊断阶梯式学习方法
CN117332342A (zh) * 2023-11-29 2024-01-02 北京宝隆泓瑞科技有限公司 一种基于半监督学习的机泵设备运行故障分类方法及装置
CN117404765A (zh) * 2023-12-14 2024-01-16 山东省人工智能研究院 弱监督条件下空调系统风机故障诊断方法、系统及空调
CN117574258A (zh) * 2024-01-15 2024-02-20 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于文本噪声标签和协同训练策略的文本分类方法
CN117763436A (zh) * 2023-11-14 2024-03-26 中国石油大学(北京) 基于小样本的故障诊断模型的训练方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150377A (zh) * 2023-11-01 2023-12-01 北京交通大学 基于全自主动机偏移的电机故障诊断阶梯式学习方法
CN117150377B (zh) * 2023-11-01 2024-02-02 北京交通大学 基于全自主动机偏移的电机故障诊断阶梯式学习方法
CN117763436A (zh) * 2023-11-14 2024-03-26 中国石油大学(北京) 基于小样本的故障诊断模型的训练方法及装置
CN117332342A (zh) * 2023-11-29 2024-01-02 北京宝隆泓瑞科技有限公司 一种基于半监督学习的机泵设备运行故障分类方法及装置
CN117332342B (zh) * 2023-11-29 2024-02-27 北京宝隆泓瑞科技有限公司 一种基于半监督学习的机泵设备运行故障分类方法及装置
CN117404765A (zh) * 2023-12-14 2024-01-16 山东省人工智能研究院 弱监督条件下空调系统风机故障诊断方法、系统及空调
CN117404765B (zh) * 2023-12-14 2024-03-22 山东省人工智能研究院 弱监督条件下空调系统风机故障诊断方法、系统及空调
CN117574258A (zh) * 2024-01-15 2024-02-20 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于文本噪声标签和协同训练策略的文本分类方法
CN117574258B (zh) * 2024-01-15 2024-04-26 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于文本噪声标签和协同训练策略的文本分类方法

Similar Documents

Publication Publication Date Title
CN116451150A (zh) 一种基于半监督小样本的设备故障诊断方法
CN109102005B (zh) 基于浅层模型知识迁移的小样本深度学习方法
CN110361176B (zh) 一种基于多任务特征共享神经网络的智能故障诊断方法
CN111898634B (zh) 一种基于深度对抗域自适应的智能故障诊断方法
Li et al. Fault diagnosis of rotating machinery based on combination of deep belief network and one-dimensional convolutional neural network
Wan et al. An efficient rolling bearing fault diagnosis method based on spark and improved random forest algorithm
Jiang et al. A multi-step progressive fault diagnosis method for rolling element bearing based on energy entropy theory and hybrid ensemble auto-encoder
CN112149316A (zh) 基于改进的cnn模型的航空发动机剩余寿命预测方法
Yin et al. Wasserstein generative adversarial network and convolutional neural network (WG-CNN) for bearing fault diagnosis
CN108344574A (zh) 一种基于深度联合适配网络的风电机组轴承故障诊断方法
CN112101085B (zh) 一种基于重要性加权域对抗自适应的智能故障诊断方法
CN113281048B (zh) 一种基于关系型知识蒸馏的滚动轴承故障诊断方法和系统
Li et al. Multiscale dynamic fusion prototypical cluster network for fault diagnosis of planetary gearbox under few labeled samples
Wang et al. Intelligent fault diagnosis for planetary gearbox using transferable deep q network under variable conditions with small training data
CN110647830A (zh) 基于卷积神经网络和高斯混合模型的轴承故障诊断方法
CN110657984A (zh) 一种基于强化胶囊网络的行星齿轮箱故障诊断方法
Ji et al. A neural network compression method based on knowledge-distillation and parameter quantization for the bearing fault diagnosis
Xie et al. Attention mechanism-based CNN-LSTM model for wind turbine fault prediction using SSN ontology annotation
Lv et al. Deep transfer network with multi-kernel dynamic distribution adaptation for cross-machine fault diagnosis
CN113947114A (zh) 基于Transformer神经网络和轴心轨迹的燃气轮机转子故障诊断方法
CN113076920B (zh) 一种基于非对称域对抗自适应模型的智能故障诊断方法
CN117390411B (zh) 基于元迁移学习的变工况轴承故障诊断方法
Zhao et al. A capsnet-based fault diagnosis method for a digital twin of a wind turbine gearbox
Shang et al. A Domain Adversarial Transfer Model with Inception and Attention Network for Rolling Bearing Fault Diagnosis Under Variable Operating Conditions
CN116754230A (zh) 基于深度卷积生成对抗网络的轴承异常检测和故障诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination