CN114418117B - 用于少样本故障诊断的具有自适应学习率的元学习方法 - Google Patents

用于少样本故障诊断的具有自适应学习率的元学习方法 Download PDF

Info

Publication number
CN114418117B
CN114418117B CN202210067075.6A CN202210067075A CN114418117B CN 114418117 B CN114418117 B CN 114418117B CN 202210067075 A CN202210067075 A CN 202210067075A CN 114418117 B CN114418117 B CN 114418117B
Authority
CN
China
Prior art keywords
model
learning
fine tuning
meta
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210067075.6A
Other languages
English (en)
Other versions
CN114418117A (zh
Inventor
林焱辉
常亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210067075.6A priority Critical patent/CN114418117B/zh
Publication of CN114418117A publication Critical patent/CN114418117A/zh
Application granted granted Critical
Publication of CN114418117B publication Critical patent/CN114418117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供一种用于少样本故障诊断的具有自适应学习率的元学习方法,其包括以下步骤:确定相关超参数;对模型参数随机初始化;进行元训练包括:外循环迭代次数中嵌套内循环,在内循环迭代中,采样形成子任务,根据内循环中子任务的参数更新次数Γ计算得到参数计算样本的交叉熵损失,内循环结束后计算特征间多核最大均值差异并更新模型参数;进行精调循环包括:计算自适应的精调学习率,计算精调损失函数,最后得到用于目标任务故障诊断的模型并结束。本发明提出了用于元训练和精调的两种自适应学习率,并改进了元训练和精调的损失函数,解决了少样本学习中的过拟合和欠拟合问题,并且使模型具有更强的泛化能力。

Description

用于少样本故障诊断的具有自适应学习率的元学习方法
技术领域
本发明涉及人工智能领域,尤其涉及一种用于少样本故障诊断的具有自适应学习率的元学习方法。
背景技术
机器设备的故障诊断对机器设备的安全运行和高效工作起着重要作用。随着深度学习技术的迅速发展,近年来基于深度学习的故障诊断方法得到了长足的发展。这些方法能够方便、快捷地实现准确的故障诊断,而不用依赖专家经验和耗时的人工特征提取操作。但是这些方法的成功依赖于大量的训练数据。否则,这些方法的效果将显著降低。然而,在实际情况中,收集足够的数据来训练故障诊断模型通常是昂贵甚至不切实际的。其中一个主要原因是,一旦机器设备出现故障,将被立即关闭以确保安全,这就导致仅能收集到少量故障数据。此外,与实验室中的机器设备不同,不能人为地在真实运行的机器设备中引入故障以获取故障数据。
为了应对用于训练故障诊断模型的数据不足的问题,当前主流方法包括三类:基于数据增强的方法、基于迁移学习的方法和少样本学习方法。基于数据增强的方法可以基于原始数据集生成新的数据从而增加数据量和多样性。然而,这类方法很难确保生成的数据的正确性和质量,特别是当真实原始数据极其有限时。因此,生成的样本无法提供足够有效的辅助信息。获取有效辅助信息的另一个方法是从其他不同但相关的任务(即辅助任务)中学习先验知识。为此,基于迁移学习的方法从相关但分布不同的辅助任务中学习知识,并迁移到目标任务中从而完成分类。然而,这类方法主要侧重于使模型能够适应于一个特定的目标任务。这类方法仍有进一步提高模型的泛化能力的空间,尤其是在数据量很有限的情况下。
比适应一个特定的目标任务更进一步,少样本学习方法从多个辅助任务中学习相关知识,以提高模型的泛化能力,从而能够适应于多个少样本目标任务,这就是元学习方法的思想。在故障诊断领域,机器设备经常在不同的工况下工作。虽然在每个工况下收集足够数量的数据是昂贵且不切实际的,但可以使用在不同工况下收集的数据来构成多个辅助任务。因此,将元学习方法应用于少样本故障诊断是合理且可行的。在基于度量的元学习方法中,由于辅助任务的分布之间存在的差异和数据的不足,很难提取到具有普遍性和区分度的特征,而且距离度量函数的选择也不便捷。与基于度量的元学习方法不同,模型无关元学习(MAML,Model-agnostic meta-learning)作为元学习方法的另一个类别,旨在通过元训练使模型具有更强的泛化能力,从而可以在使用来自目标任务的少量数据进行精调后,在目标任务上实现准确的分类。但是,如果目标任务的数据不足(尤其是每个类别只有一个样本可用时),则无法获得验证集。因此,在元训练和精调过程中,模型很容易过拟合或欠拟合。虽然可以通过退火元训练的学习率以缓解过拟合,但它只能单调地降低学习率,而不能动态调整学习率,这限制了它的有效性。因此学习率应根据模型性能进行动态调整,以解决过拟合和欠拟合问题。
发明内容
为了克服现有技术的缺陷,本发明提供一种用于少样本故障诊断的具有自适应学习率的元学习方法(MLALR,Meta-Learning with Adaptive Learning Rate),所述方法分为元训练和精调两个阶段,基于MAML框架对用于元训练和精调的两种学习率采用自适应学习率,并且改进了元训练和精调的损失函数,具体包括以下步骤:
S1,确定辅助任务目标任务/>外循环迭代次数J、内循环迭代次数P、内循环中子任务的参数更新次数Γ、以及精调的更新次数E;
S2,将模型参数随机初始化为θ0,设定第一循环变量j=1;设定第二循环变量e=1;
S3,设定第三循环变量μ=1;
S4,从辅助任务Tμ中随机采样和/>和/>形成一个子任务,对此子任务计算得到经过Γ次参数更新后的参数/>
S5,根据计算/>中样本的交叉熵损失/>
S6,μ=μ+1,判断μ是否大于P,是则执行步骤S7,否则返回步骤S4;
S7,计算特征间多核最大均值差异用来衡量模型/>的泛化能力;
S8,更新模型参数,将模型参数由θj-1更新为θj,具体包括以下步骤:
S8.1计算自适应外循环学习率βj,公式如下:
其中,a1,b1,g1,a2,b2和g2是超参数,δj是模型泛化能力的变化率;超参数a1,b1,g1,a2,b2和g2根据传统MAML的预实验确定;
模型泛化能力的变化率δj计算公式如下:
其中,δj是模型泛化能力的变化率,i为正整数,是模型/>的特征间多核最大均值差异;/>是模型/>的特征间多核最大均值差异;
S8.2,计算用于外循环优化的损失函数其计算公式如下:
其中,N是健康状态的数量,c为正整数,表示第c种健康状态;
S8.3,将模型参数由θj-1更新为θj
其中,θj和θj-1分别为第j次和第j-1次外循环的模型参数,βj为自适应外循环学习率,表示/>对θj-1的梯度;
S9,j=j+1,判断j是否大于J;是则执行步骤S10;否则返回步骤S3继续进行外循环;
S10,计算指标LDe-1来衡量模型的性能,/>
S11,计算自适应的精调学习率ηe
首先将ηe初始化为学习率的最大值,然后根据ΔLDe来调整ηe,ΔLDe是LDe的相对变化率,自适应的精调学习率ηe计算如下:
其中,l是一个超参数,其取值根据在学习率为固定值的预实验中ΔLDe的取值情况来决定,使ηe在常用值范围内变化,ΔLDe是LDe的相对变化率,用于调整精调的学习率,计算公式如下:
S12,计算精调损失函数
其中,θ′是全连接层的权重参数,ω是正则化项的权重,其取值根据在损失函数中没有正则化项的预实验中∑θ′|θ′|的取值决定,其中损失函数为:
其中,表示经过e-1次精调的模型参数,Ttg表示目标任务,xi是Ttg中第i个样本的输入数据,yi是相应的标签;/>表示xi输入模型/>后获得的输出;
S13,用现有Adam算法更新到/>包括:
计算对/>的梯度,然后计算梯度的一阶矩估计和二阶矩估计,并根据矩估计计算适应性学习步长,/>减去梯度和适应性学习步长以及ηe的乘积,从而得到/>
S14,e=e+1,判断e是否大于E,是则得到用于目标任务故障诊断的模型并结束,否则返回步骤S10;
在总共E次精调更新后,便获得用于目标任务故障诊断的模型
优选的,所述步骤S4具体为:
首先,从辅助任务Tμ中随机采样和/>和/>形成一个子任务,nS表示/>中包含的样本数量,nQ表示/>中包含的样本数量;
然后,对子任务计算得到经过γ次参数更新后的模型参数计算公式为:
其中,为第j-1次外循环第μ次内循环中经过γ次参数更新后的模型参数,θj-1为第j-1次外循环得到的模型参数,/>α是内循环学习率,γ为第四循环变量,γ=0,1,2,…,Γ;/>表示/>对/>的梯度;
损失函数采用交叉熵损失来评估模型的分类准确度,其计算公式如下:
其中,表示损失函数,/>表示将变量/>和,/>代入损失函数中,/>表示将/>输入到参数为/>的模型得到的输出,/>是/>的实际标签;
对于子任务通过第四循环变量γ对式(1)和(2)进行循环迭代运算,迭代次数达到Γ时,得到经过Γ次参数更新后的参数
优选的,所述步骤S5具体为:
其中,表示损失函数,/>表示将变量/>和/>代入损失函数中。
优选的,所述步骤S7具体包括以下步骤:
的计算公式如下:
其中,表示模型/>总体的特征间多核最大均值差异,/>表示第c种健康状态的特征间多核最大均值差异,/>表示/>中第c种健康状态的输入数据,μ1和μ2为正整数,/>表示由/>提取出的/>的特征,/>表示特征之间的多核最大均值差异(Multi-Kernel Maximum Mean Discrepancy,MK-MMD),其计算公式如下:
其中,m是或/>中的样本个数,/>和/>中的样本个数相同,/> k(·,·)是核函数;/>和/>分别表示由/>和/>的第i个样本提取出的特征。
优选的,所述步骤S10具体为:
采用根据提取特征的分布的自适应精调学习率ηe来进行第e步精调,根据从不同健康状态的样本中提取的特征之间的距离来调整ηe,通过指标LDe-1来衡量这些特征之间的距离,该指标计算如下:
其中,和/>分别是目标任务中第c1种健康状态的第u个样本和第c2种健康状态的第v个样本的输入数据,/>表示第c1种健康状态的样本数,/>表示第c2种健康状态的样本数,/>是由模型/>提取的相应的特征;l1(·)计算了两个输入之间的元素差异的绝对值的平均值,即它们之间的L1距离。
优选的,所述步骤S1具体为:
确定P个辅助任务,用表示;对于每个辅助任务,/>其中Tμ表示第μ个辅助任务;/>是第μ个辅助任务中第i个样本的输入数据,D为数据长度;是/>的健康状态,即/>的标签。Mμ表示Tμ中包含的样本数量;N表示健康状态的数量,/>表示Tμ中第n种健康状态的样本数,/>
确定一个目标任务,目标任务用表示,Mtg是Ttg中包含的样本数量,/>是第i个样本的输入数据,/>是相应的标签;Kn表示第n种健康状态的样本数,则,/>
设定外循环迭代次数为J;内循环迭代次数需要与辅助任务数量相同,因此内循环迭代次数为P;内循环中子任务的参数更新次数为Γ,设定参数的精调更新次数为E。
与现有技术相比,本发明具有以下有益效果:
1)为了避免过拟合和欠拟合,提出了用于元训练和精调的两种自适应学习率。自适应学习率根据提取到的特征的分布计算得到,而不是单调地降低学习率。在少样本学习任务中,由于数据不足,缺少验证集,很难合理确定学习率和参数更新次数。因此,使用自适应学习率对于解决少样本学习中的过拟合和欠拟合问题是必要和有益的;
2)改进了元训练和精调的损失函数,使模型具有更强的泛化能力。基于分布差异的损失函数用于元训练,不仅有助于模型从辅助任务中学习普遍性知识,而且保证了所提出的自适应学习率的稳定性。在精调损失函数中加入正则化项,进一步提高了模型的泛化能力;
3)本文使用两个轴承故障数据集对所提出的方法进行了验证。辅助任务由人为引入损坏的故障数据构成,多个目标任务由实际工作中损坏的故障数据构成。实验结果表明,MLALR训练的模型具有很强的泛化能力,能够利用人为引入损伤的轴承的数据预测不同工况下的实际轴承故障,具有重要的现实意义。通过与基准方法和三种最新方法的比较,验证了所提出方法的有效性和优越性。
附图说明
图1是用于少样本故障诊断的具有自适应学习率的元学习方法的流程示意图;
图2是和βj在本发明方法和MAML方法外循环过程中的取值;
图3是LDe和ηe在本发明方法和MAML方法精调过程中的取值;
图4是不同外循环迭代次数J在本发明方法和MAML方法得到的诊断准确度;
图5是不同精调更新次数E在本发明方法和MAML方法得到的诊断准确度;
图6是使用本发明方法在各目标任务的诊断准确度。
具体实施方式
为更好的理解本发明的技术方案,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明是一种用于少样本故障诊断的具有自适应学习率的元学习方法,针对少样本故障诊断问题,本发明提出了基于MAML框架的MLALR方法。如图1所示。该方法分为元训练和精调两个阶段,元训练为第一阶段,精调为第二阶段。在第一阶段,不同于孤立学习方法,元学习方法从多个辅助任务中学习先验知识来解决少样本问题,基于多个辅助任务进行元训练,得到具有强泛化能力的模型,包括:输入辅助任务,子任务采样和模型参数更新;在第二阶段,使用目标任务的少量样本对元训练后的模型进行精调,以适应目标任务,包括:输入目标任务,对模型参数进行精调,最后得到用于目标任务故障诊断的模型。和现有的MAML方法相比,本发明提出的MLALR方法对用于元训练和精调的两种学习率采用自适应学习率,并且改进了元训练和精调的损失函数。模型的结构如图1中模型结构部分所示,用fθ表示参数为θ的模型,其中包括权重参数和偏置参数,用f′θ表示fθ的特征抽取器,由卷积层、线性整流函数(Rectified Linear Unit,ReLU)非线性层、批量归一化层和最大池化层组成,为了更清晰明了的展示,图1中未给出非线性层和批量归一化层。
下面给出本发明一种用于少样本故障诊断的具有自适应学习率的元学习方法的详细步骤:
S1,确定辅助任务目标任务/>外循环迭代次数J、内循环迭代次数P、内循环中子任务的参数更新次数Γ、以及精调的更新次数E。
确定P个辅助任务,用表示。对于每个辅助任务,/>其中Tμ表示第μ个辅助任务;/>是第μ个辅助任务中第i个样本的输入数据,D为数据维度,在轴承故障诊断领域,通常采用一维振动信号作为输入数据,使用滑动窗口对振动信号进行分割以生成样本,此时D就是滑动窗口的长度;/>是/>的健康状态,即/>的标签。Mμ表示Tμ中包含的样本数量。用N表示健康状态的数量,/>表示Tμ中第n种健康状态的样本数,
确定一个目标任务,目标任务用表示,其中只有少数样本可用于训练。因此,Ttg中包含的样本数量Mtg是一个非常小的值,/>是第i个样本的输入数据,/>是相应的标签。用Kn表示第n种健康状态的样本数,则,/>在少样本故障诊断中,Kn一般不会超过5。
设定外循环迭代次数为J,J为大于10的整数;内循环迭代次数需要与辅助任务数量相同,因此内循环迭代次数为P;内循环中子任务的参数更新次数为Γ,设定参数的精调更新次数为E。外循环迭代次数J、内循环中子任务的参数更新次数Γ和精调更新次数E,理论上越大越好,但考虑到运算量,它们的数值根据实际需求进行设定。
S2,将模型参数随机初始化为θ0,设定第一循环变量j=1;设定第二循环变量e=1;
第一循环变量j用来对外循环进行计数,在外循环的第j次(j=1,2,…,J)迭代中,模型参数会由θj-1更新为θj,外循环就是第一阶段的元训练过程。
第二循环变量e用来对精调进行计数,在精调过程的第e次(e=1,2,…,E)迭代中,模型参数会由更新为/>其中/>精调的循环就是第二阶段的精调过程。
S3,设定第三循环变量μ=1;
第三循环变量μ(μ=1,2,…,P)用来对内循环进行计数,在每次内循环的迭代中,都需要对辅助任务Tμ进行模型参数的更新和损失函数的计算。
S4,从辅助任务Tμ中随机采样和/>和/>形成一个子任务,对此子任务计算得到经过Γ次参数更新后的参数/>
首先,从辅助任务Tμ中随机采样和/>和/>形成一个子任务,nS表示/>中包含的样本数量,nQ表示/>中包含的样本数量。此处需要说明,每次外循环迭代都会在内循环中形成P个子任务,由于随机采样,外循环一次迭代中的中的样本和外循环另一次迭代中的/>中的样本可能有重叠。但它不会影响模型的泛化能力,因为元训练是一个从大量子任务中学习的过程。只需要在外循环的不同迭代中,子任务之间存在差异,而不需要每个子任务完全独立。
然后,对子任务计算得到经过γ次参数更新后的模型参数γ=0,1,2,…,Γ,计算公式为:
其中,为第j-1次外循环第μ次内循环中经过γ次参数更新后的模型参数,θj-1为第j-1次外循环得到的模型参数,/>α是内循环学习率,本实施例中取值为0.03,γ为第四循环变量,γ=0,1,2,…,Γ;/>表示/>对/>的梯度。
损失函数采用交叉熵损失来评估模型的分类准确度,其计算公式如下:
其中,表示损失函数,/>表示将变量/>和,/>代入损失函数中,/>表示将/>输入到参数为/>的模型得到的输出,/>是/>的实际标签。
可以看出,对于子任务通过第四循环变量γ对式(1)和(2)进行循环迭代运算,迭代次数达到Γ时,得到经过Γ次参数更新后的参数
S5,根据计算/>中样本的交叉熵损失/>
其中,表示损失函数,/>表示将变量/>和/>代入损失函数中。
S6,μ=μ+1,判断μ是否大于P,是则执行步骤S7,否则返回步骤S4;
在内循环优化结束时,可以得到每个的交叉熵损失/>
S7,计算特征间多核最大均值差异用来衡量模型/>的泛化能力,
外循环优化的目的是优化模型参数,从多个子任务中学习普遍性知识。受领域自适应技术的启发,我们提出利用从不同任务中提取的特征之间的分布差异距离来调整外循环学习率,帮助模型提取普遍性特征。在本实施例中,利用广泛用于领域自适应的多核最大均值差异(Multi-Kernel Maximum Mean Discrepancy,MK-MMD)来衡量分布的差异距离。从相同健康状态但不同任务的样本中提取的普遍性特征应该有相似的分布。因此,在本方法中通过MDθ衡量模型fθ的泛化能力,越小的MDθ表示模型fθ的泛化能力越强;的计算公式如下:
其中,表示模型/>总体的特征间多核最大均值差异,/>表示第c种健康状态的特征间多核最大均值差异,/>表示/>中第c种健康状态的输入数据,μ1和μ2为正整数,/>表示由/>提取出的/>的特征,/>表示特征之间的多核最大均值差异(Multi-Kernel Maximum Mean Discrepancy,MK-MMD),其计算公式如下:
其中,m是或/>中的样本个数,/>和/>中的样本个数相同,/> k(·,·)是核函数。/>和/>分别表示由/>和/>的第i个样本提取出的特征。
S8,更新模型参数θ,具体包括以下步骤:
S8.1计算自适应外循环学习率βj,公式如下:
其中,a1,b1,g1,a2,b2和g2是超参数,δj是模型泛化能力的变化率。超参数a1,b1,g1,a2,b2和g2可根据传统MAML的预实验确定,传统MAML的预实验中学习率为固定值。具体地,这些超参数根据预实验期间的的值确定,以确保βj的值可以分布在区间[0.0001,0.005]内。在优化开始时,/>较大,表明模型/>的泛化能力较弱,此时βj应该取较大值用以大幅更新模型参数;较大的δj表明模型正朝着更强的泛化能力进行优化;
模型泛化能力的变化率δj计算公式如下:
S8.2,计算用于外循环优化的损失函数其计算公式如下:
其中,N是健康状态的数量,c为正整数,表示第c种健康状态,公式(9)中的衡量了模型在辅助任务上的分类准确度,/>广泛应用于领域自适应,以提高模型的泛化能力。因此,通过在外循环最小化/>模型可以被优化以提取对分类具有区分性且对不同任务具有普遍性的特征。
S8.3,将模型参数由θj-1更新为θj
其中,θj和θj-1分别为第j次和第j-1次外循环的模型参数,βj为自适应外循环学习率,表示/>对θj-1的梯度。
S9,j=j+1,判断j是否大于J;是则执行步骤S10;否则返回步骤S3继续进行外循环;
在此步骤中,若j大于J,说明元训练结束,此时式(10)中的θj为θJ,表示经过J次外循环迭代后得到模型
接下来将使用目标任务的训练样本对模型进行精调。
S10,计算指标LDe-1来衡量模型的性能,/>
本发明中使用Adam算法作为精调的优化器。考虑到只有少量样本可用于精调,本发明中采用根据提取特征的分布的自适应精调学习率ηe来进行第e步精调,以减轻过拟合和欠拟合。具体地,根据从不同健康状态的样本中提取的特征之间的距离来调整ηe,因此,通过指标LDe-1来衡量这些特征之间的距离,该指标计算如下:
其中,和/>分别是目标任务中第c1种健康状态的第u个样本和第c2种健康状态的第v个样本的输入数据,/>表示第c1种健康状态的样本数,/>表示第c2种健康状态的样本数,/>是由模型/>提取的相应的特征。l1(·)计算了两个输入之间的元素差异的绝对值的平均值,即它们之间的L1距离,L1距离的计算为现有技术。LDe的值通常会随着e的增加而增加
S11,计算自适应的精调学习率ηe
首先将ηe初始化为学习率的最大值,然后根据ΔLDe来调整ηe,ΔLDe是LDe的相对变化率。考虑该学习率的常用值范围为0.00001至0.01,本方法所提出的自适应的精调学习率ηe计算如下:
其中,l是一个超参数,其取值可以根据在学习率为固定值的预实验中ΔLDe的取值情况来决定,使ηe在常用值范围内变化,ΔLDe是LDe的相对变化率,用于调整精调的学习率,计算公式如下:
较大的ΔLDe表示模型正朝着目标进行优化,因此应使用较大的学习率进行参数更新。
S12,计算精调损失函数
其中,公式(14)中等号右边的第一项是模型在目标任务的训练样本上的交叉熵损失;等号右边第二项是正则化项,θ′是全连接层的权重参数,本发明所用模型中只有一个全连接层,θ′就表示这个全连接层的全部权重参数。ω是正则化项的权重,其取值根据在损失函数中没有正则化项的预实验中∑θ′|θ′|的取值决定,以确保公式(14)中等号右边的两项的值属于相同的数量级。其中损失函数/>为:
其中,表示经过e-1次精调的模型参数,Ttg表示目标任务,xi是Ttg中第i个样本的输入数据,yi是相应的标签;/>表示xi输入模型/>后获得的输出。
S13,用现有Adam算法更新到/>包括:
计算对/>的梯度,然后计算梯度的一阶矩估计和二阶矩估计,并根据矩估计计算适应性学习步长,/>减去梯度和适应性学习步长以及ηe的乘积,从而得到/>
S14,e=e+1,判断e是否大于E,是则得到用于目标任务故障诊断的模型并结束,否则返回步骤S10。
在总共E次精调更新后,便获得用于目标任务故障诊断的模型由于采用了自适应学习率,因此该模型可以用较大的E值进行精调,而不发生过拟合,有效解决了过拟合和欠拟合的问题。
下面将本发明提出的MLALR方法与现有的MAML方法进行详细比较,来验证本发明所提出方法的有效性。
使用两个公开的轴承数据集进行实验案例分析,即由Paderborn大学提供的PU数据集和智能维修系统中心收集的IMS数据集。PU数据集包含多个轴承的振动数据,这些轴承有些是人为引入的损坏,有些是在实际工作中发生损坏,还有些处于正常的健康状态。每个轴承都在4种不同的工况下收集数据。工况参数如表1所示。
表1.PU数据集中的4种工况参数
IMS数据集包含多个轴承的监测数据。这些轴承均以2000转每分钟的恒定转速在6000磅的径向负载下工作,这是一种与PU数据集中的工况不同的工况。IMS数据集中的所有故障数据都是实际工作中发生的损坏。两个数据集都包含三种健康状态:正常状态、内圈故障(IR)和外圈故障(OR)。因此,在本实施例中,N=3,N表示健康状态的数量。轴承的一维振动信号被用作输入数据。在时间方向上滑动窗口用于分割振动信号并生成样本。每个样本包含4096个振动信号数据点作为输入数据,即D=4096,即滑动窗口的长度。
由于在不同工况下采集的数据具有不同的分布,因此可以将不同工况下的故障诊断视为不同的任务。由PU数据集中5个处于正常状态的轴承和4个人为引入损坏的故障轴承收集的振动数据构建辅助任务。表2(编号1-9)总结了这9个轴承的信息。振动数据在4种不同的工况下收集,因此P=4,即辅助任务的数量。
同样地,由PU数据集中另一个处于正常状态的轴承和2个实际工作中发生损坏的故障轴承收集的振动数据被用于构建目标任务。表2(编号10-12)总结了这3个轴承的信息。由不同的工况共构建了4个目标任务,并用Ttg1、Ttg2、Ttg3和Ttg4表示。在这4个目标任务中,每种健康状态总共有60个样本。另一个目标任务由IMS数据集构成,用Ttg5表示。该数据集中每种健康状态下共有185个样本。在每个目标任务中,随机选择每种健康状态的K个样本对模型进行精调,剩余的样本用于评估模型的诊断准确度。在本案例中,取K1=K2=K3=K。,即第1、2、3种健康状态的样本数都为K。
表2.PU数据集中所用轴承的信息
首先,用传统MAML方法进行预实验。图2中的横虚线展示了在外循环优化过程中的值,根据其取值范围,元训练阶段的超参数取值如表3所示。
表3.元训练阶段的超参数取值
元训练后,使用K=1的Ttg1对模型进行精调,其中精调学习率为固定值,损失函数为交叉熵损失。图3中的横虚线展示了精调过程中LDe的值,根据其取值范围,精调阶段的超参数取值被确定为l=0.001、ω=0.001和E=100。
通过传统的MAML方法进行预实验获得了元训练阶段的超参数取值和精调阶段的超参数取值。再使用本发明的MLALR方法进行试验,MLALR方法中所获得的和自适应外循环学习率βj的取值展示于图2中,所获得的LDe和自适应精调学习率ηe的取值展示于图3中,总体而言,自适应外循环学习率和自适应精调学习率分别随着外循环迭代和精调更新次数的增加而降低,并在训练后端收敛到较小的值。
为了说明本发明提出的MLALR方法解决了传统MAML的过拟合和欠拟合问题,分别使用图4和图5进行展示。图4和图5分别展示了目标任务的准确度随着外循环迭代次数J和精调更新次数E的增加而变化的情况。在图4中,对使用不同J进行元训练的模型精调,以适应目标任务,并展示了相应的诊断准确度。在图5中,对使用优选值J进行元训练的模型进行不同E的精调,以适应目标任务,并展示了相应的诊断准确度。从图4和图5可以看出,在MAML方法中,经过一定的J或E后,准确度达到饱和,然后下降。由于在少样本场景中没有验证集,因此很难甚至不可能选择出J和E的最佳值。当J或E太小时,模型将欠拟合,而当J或E太大时,模型将过拟合。然而,所提出的MLALR方法可以有效地解决过拟合和欠拟合问题。如图4和图5所示,MLALR方法获得的准确度收敛到一定值,然后随着J或E的增加基本保持不变。这是因为学习率可以根据模型性能进行调整,并收敛到一个较小的值。因此,可以通过将J和E设置为更大的值来解决过拟合和欠拟合问题,从而获得更高的故障诊断准确度。
每个目标任务的故障诊断准确度如图6所示。实验结果表明,用MLALR方法训练的模型具有较强的泛化能力,能够从人为引入损伤的故障数据中学习一般知识,对实际工作损伤的故障数据具有较高的诊断准确度。与K=5任务相比,K=1任务的准确率仅略有下降。验证了该方法在少样本场景下的有效性。与其他4个目标任务相比,Ttg5的工况在元训练阶段是未出现的。因此,Ttg5的故障诊断更加困难。尽管如此,该任务的准确度仍然超过了94%,这验证了所提出的方法也可以用于预测新工况下的实际工作故障,且只需使用少量的训练数据。
下面再使用本发明方法与一些基准方法的比较,以进一步验证本发明所提出的MLALR方法的有效性。表4中提供了基准方法的说明。
表4.基准方法的说明
方法1是基于卷积神经网络的简单分类模型。模型结构与图1中下部所示相同。仅使用目标任务中每个健康状态的K个样本对其进行训练。方法2基于传统的MAML,其中学习率设置为固定值,交叉熵损失用作损失函数。方法3与方法2相比区别在于,将本发明提出的外循环优化的损失函数式(9)和精调损失函数式(14)分别用于方法3的外循环优化和精调。方法4与方法2相比区别在于,将本发明提出的自适应学习率用于方法4。
为了进一步验证所提出的MLALR方法的优越性,还将该方法与两种最近提出的用于少样本故障诊断的元学习方法和一种迁移学习方法进行比较。方法5基于匹配网络。该模型的训练结合了一般监督学习和基于度量的元学习的优点。方法6基于传统MAML方法,对元训练的学习率进行退火。方法7基于广泛使用的迁移学习技术,其中基于MMD的损失函数用于领域自适应,所有辅助任务都用作源域,目标任务作为目标域。上述所有方法均使用基于CNN的相同模型结构。
将使用上述7种方法以及本发明提出的MLALR的诊断结果汇总在表5中。
表5.不同方法的故障诊断准确度
方法1在孤立学习的框架下,仅使用目标任务的少量数据进行训练,因此平均准确度仅为61.53%。由于过拟合和欠拟合问题,方法2的准确度也不够好。在方法3中,所提出的损失函数可以略微提高模型泛化能力,但仍然存在过拟合和欠拟合问题。因此,其分类准确度与方法2的相近。方法4采用了所提出的自适应学习率,从而缓解了过拟合和欠拟合问题。但学习过程不够稳定,泛化能力还有待进一步提高。方法5的表现取决于提取特征的分布和距离测量函数。由于辅助任务分布的差异性以及数据的不足,一般监督学习难以提取普遍性且对诊断有判别性的特征。因此,方法5的诊断准确度不高。在方法6中,通过对元学习的学习率进行退火,可以一定程度上缓解过拟合和欠拟合问题。但是学习率不能根据模型的表现进行适当的动态调整。此外,用于精调的学习率是固定的。因此,方法6的诊断准确度低于所提出方法的诊断准确度。在方法7中,由于数据不足,目标任务的数据分布很难被准确评估。因此,方法7在少样本任务中获得的平均准确度最低。本发明所提出的MLALR方法获得了最高且最稳定的诊断准确度。综上所述,通过对比实验,所本发明所提出方法的优越性得到了验证。
本发明提出了用于少样本故障诊断的MLALR方法,通过从多个辅助任务中学习普遍性知识来获得较高的诊断准确度。在MLALR方法中,采用两种自适应学习率分别用于模型的元训练和精调。学习率的值可以根据提取到的特征的分布进行调整。因此,可以有效地解决过拟合和欠拟合问题。此外,采用改进的损失函数可以提高模型的泛化能力和训练稳定性。使用两个公开的轴承数据集验证了该方法的有效性和优越性。实验结果表明,在少样本故障诊断任务中,所提出的方法能够获得比基准方法和其他先进方法更高、更稳定的准确度。此外,用两个轴承数据集构建目标任务,验证了所提出的方法具有较强的泛化适应性,可以完成在不同工况下,从人为引入损伤故障数据向实际工作损伤故障数据的知识转移,具有重要的现实意义。
最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (3)

1.一种用于少样本故障诊断的具有自适应学习率的元学习方法,其特征在于:所述方法分为元训练和精调两个阶段,基于MAML框架对用于元训练和精调的两种学习率采用自适应学习率,并且改进了元训练和精调的损失函数,具体包括以下步骤:
S1,确定辅助任务目标任务/>外循环迭代次数J、内循环迭代次数P、内循环中子任务的参数更新次数Γ、以及精调的更新次数E;
具体为:
确定P个辅助任务,用表示;对于每个辅助任务,/>其中Tμ表示第μ个辅助任务;/>是第μ个辅助任务中第i个样本的输入数据,D为数据长度;/>的健康状态,即/>的标签;Mμ表示Tμ中包含的样本数量;N表示健康状态的数量,/>表示Tμ中第n种健康状态的样本数,/>
确定一个目标任务,目标任务用表示,Mtg是Ttg中包含的样本数量,是第i个样本的输入数据,/>是相应的标签;Kn表示第n种健康状态的样本数,则,/>
设定外循环迭代次数为J;内循环迭代次数需要与辅助任务数量相同,因此内循环迭代次数为P;内循环中子任务的参数更新次数为Γ,设定参数的精调更新次数为E;
S2,将模型参数随机初始化为θ0,设定第一循环变量j=1;设定第二循环变量e=1;
S3,设定第三循环变量μ=1;
S4,从辅助任务Tμ中随机采样和/> 和/>形成一个子任务,对此子任务计算得到经过Γ次参数更新后的参数/>
S5,根据计算/>中样本的交叉熵损失/>
S6,μ=μ+1,判断μ是否大于P,是则执行步骤S7,否则返回步骤S4;
S7,计算特征间多核最大均值差异用来衡量模型/>的泛化能力;
具体包括以下步骤:
的计算公式如下:
其中,表示模型/>总体的特征间多核最大均值差异,/>表示第c种健康状态的特征间多核最大均值差异,/>表示/>中第c种健康状态的输入数据,μ1和μ2为正整数,/>表示由/>提取出的/>的特征,/>表示特征之间的多核最大均值差异,其计算公式如下:
其中,m是或/>中的样本个数,/>和/>中的样本个数相同,/> k(·,·)是核函数;/>和/>分别表示由/>的第i个样本提取出的特征;
S8,更新模型参数,将模型参数由θj-1更新为θj,具体包括以下步骤:
S8.1计算自适应外循环学习率βj,公式如下:
其中,a1,b1,g1,a2,b2和g2是超参数,δj是模型泛化能力的变化率;超参数a1,b1,g1,a2,b2和g2根据传统MAML的预实验确定;
模型泛化能力的变化率δj计算公式如下:
其中,δj是模型泛化能力的变化率,i为正整数,是模型/>的特征间多核最大均值差异;/>是模型/>的特征间多核最大均值差异;
S8.2,计算用于外循环优化的损失函数其计算公式如下:
其中,N是健康状态的数量,c为正整数,表示第c种健康状态;
S8.3,将模型参数由θj-1更新为θj
其中,θj和θj-1分别为第j次和第j-1次外循环的模型参数,βj为自适应外循环学习率,表示/>对θj-1的梯度;
S9,j=j+1,判断j是否大于J;是则执行步骤S10;否则返回步骤S3继续进行外循环;
S10,计算指标LDe-1来衡量模型的性能,/>
具体为:
采用根据提取特征的分布的自适应精调学习率ηe来进行第e步精调,根据从不同健康状态的样本中提取的特征之间的距离来调整ηe,通过指标LDe-1来衡量这些特征之间的距离,该指标计算如下:
其中,和/>分别是目标任务中第c1种健康状态的第u个样本和第c2种健康状态的第v个样本的输入数据,/>表示第c1种健康状态的样本数,/>表示第c2种健康状态的样本数,/>是由模型/>提取的相应的特征;l1(·)计算了两个输入之间的元素差异的绝对值的平均值,即它们之间的L1距离;
S11,计算自适应的精调学习率ηe
首先将ηe初始化为学习率的最大值,然后根据ΔLDe来调整ηe,ΔLDe是LDe的相对变化率,自适应的精调学习率ηe计算如下:
其中,l是一个超参数,其取值根据在学习率为固定值的预实验中ΔLDe的取值情况来决定,使ηe在常用值范围内变化,ΔLDe是LDe的相对变化率,用于调整精调的学习率,计算公式如下:
S12,计算精调损失函数
其中,θ′是全连接层的权重参数,ω是正则化项的权重,其取值根据在损失函数中没有正则化项的预实验中∑θ′|θ′|的取值决定,其中损失函数为:
其中,表示经过e-1次精调的模型参数,Ttg表示目标任务,xi是Ttg中第i个样本的输入数据,yi是相应的标签;/>表示xi输入模型/>后获得的输出;
S13,用现有Adam算法更新到/>包括:
计算对/>的梯度,然后计算梯度的一阶矩估计和二阶矩估计,并根据矩估计计算适应性学习步长,/>减去梯度和适应性学习步长以及ηe的乘积,从而得到/>
S14,e=e+1,判断e是否大于E,是则得到用于目标任务故障诊断的模型并结束,否则返回步骤S10;
在总共E次精调更新后,便获得用于目标任务故障诊断的模型
2.根据权利要求1所述的用于少样本故障诊断的具有自适应学习率的元学习方法,其特征在于:所述S4,从辅助任务Tμ中随机采样和/> 形成一个子任务,对此子任务计算得到经过Γ次参数更新后的参数/>具体为:
首先,从辅助任务Tμ中随机采样和/> 和/>形成一个子任务,nS表示/>中包含的样本数量,nQ表示/>中包含的样本数量;
然后,对子任务计算得到经过γ次参数更新后的模型参数γ=0,1,2,…,Γ,计算公式为:
其中,为第j-1次外循环第μ次内循环中经过γ次参数更新后的模型参数,θj-1为第j-1次外循环得到的模型参数,/>α是内循环学习率,γ为第四循环变量,γ=0,1,2,…,Γ;/>表示/>对/>的梯度;
损失函数采用交叉熵损失来评估模型的分类准确度,其计算公式如下:
其中,表示损失函数,/>表示将变量/>和/>代入损失函数/>中,表示将/>输入到参数为/>的模型得到的输出,/>是/>的实际标签;
对于子任务通过第四循环变量γ对式(1)和(2)进行循环迭代运算,迭代次数达到Γ时,得到经过Γ次参数更新后的参数
3.根据权利要求1所述的用于少样本故障诊断的具有自适应学习率的元学习方法,其特征在于:所述步骤S5,根据计算/>中样本的交叉熵损失/>具体模型为:
其中,表示损失函数,/>表示将变量/>和/>代入损失函数/>中。
CN202210067075.6A 2022-01-20 2022-01-20 用于少样本故障诊断的具有自适应学习率的元学习方法 Active CN114418117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210067075.6A CN114418117B (zh) 2022-01-20 2022-01-20 用于少样本故障诊断的具有自适应学习率的元学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210067075.6A CN114418117B (zh) 2022-01-20 2022-01-20 用于少样本故障诊断的具有自适应学习率的元学习方法

Publications (2)

Publication Number Publication Date
CN114418117A CN114418117A (zh) 2022-04-29
CN114418117B true CN114418117B (zh) 2024-05-28

Family

ID=81274479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210067075.6A Active CN114418117B (zh) 2022-01-20 2022-01-20 用于少样本故障诊断的具有自适应学习率的元学习方法

Country Status (1)

Country Link
CN (1) CN114418117B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859990B (zh) * 2023-02-17 2023-05-09 智慧眼科技股份有限公司 基于元学习的信息抽取方法、装置、设备及介质
CN117251274B (zh) * 2023-11-14 2024-02-20 苏州元脑智能科技有限公司 作业调度方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017128455A1 (zh) * 2016-01-25 2017-08-03 合肥工业大学 一种基于广义多核支持向量机的模拟电路故障诊断方法
CN108106844A (zh) * 2017-11-22 2018-06-01 辽宁大学 一种自适应参数调节的自动编码机的轴承故障诊断方法
CN112364706A (zh) * 2020-10-19 2021-02-12 燕山大学 一种基于类不平衡的小样本轴承故障诊断方法
CN112418013A (zh) * 2020-11-09 2021-02-26 贵州大学 一种小样本下基于元学习的复杂工况轴承故障诊断方法
CN113723489A (zh) * 2021-08-24 2021-11-30 哈尔滨理工大学 一种改进关系网络的滚动轴承故障识别方法
CN113837000A (zh) * 2021-08-16 2021-12-24 天津大学 一种基于任务排序元学习的小样本故障诊断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017128455A1 (zh) * 2016-01-25 2017-08-03 合肥工业大学 一种基于广义多核支持向量机的模拟电路故障诊断方法
CN108106844A (zh) * 2017-11-22 2018-06-01 辽宁大学 一种自适应参数调节的自动编码机的轴承故障诊断方法
CN112364706A (zh) * 2020-10-19 2021-02-12 燕山大学 一种基于类不平衡的小样本轴承故障诊断方法
CN112418013A (zh) * 2020-11-09 2021-02-26 贵州大学 一种小样本下基于元学习的复杂工况轴承故障诊断方法
CN113837000A (zh) * 2021-08-16 2021-12-24 天津大学 一种基于任务排序元学习的小样本故障诊断方法
CN113723489A (zh) * 2021-08-24 2021-11-30 哈尔滨理工大学 一种改进关系网络的滚动轴承故障识别方法

Also Published As

Publication number Publication date
CN114418117A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN114418117B (zh) 用于少样本故障诊断的具有自适应学习率的元学习方法
JP4914457B2 (ja) 自動バーチャル測定のシステムおよびその方法
CN110378435B (zh) 一种基于卷积神经网络的苹果叶片病害识别的方法
CN110413494A (zh) 一种改进贝叶斯优化的LightGBM故障诊断方法
CN112924177B (zh) 一种改进深度q网络的滚动轴承故障诊断方法
CN112557034B (zh) 一种基于pca_cnns的轴承故障诊断方法
CN113837000A (zh) 一种基于任务排序元学习的小样本故障诊断方法
CN108399434B (zh) 基于特征提取的高维时间序列数据的分析预测方法
CN110289081A (zh) 深度网络堆栈模型自适应加权特征融合的癫痫检测方法
CN112001115B (zh) 一种半监督动态软测量网络的软测量建模方法
CN114091349A (zh) 一种基于多源领域自适应的滚动轴承寿命预测方法
CN114298134A (zh) 风电功率预测方法及装置、电子设备
CN116796765A (zh) 一种用于机器翻译的从大语言模型学习的评估方法
Tripathi et al. Optimal pneumonia detection using convolutional neural networks from x-ray images
CN114363195A (zh) 面向时间和频谱残差卷积网络的网络流量预测预警方法
CN116561517A (zh) 基于奖励优化深度强化学习不平衡智能故障定量诊断方法
CN113705092B (zh) 基于机器学习的疾病预测方法及装置
CN117649563A (zh) 图像类别的量子识别方法、系统、电子设备及存储介质
Basterrech et al. Evolutionary Echo State Network: A neuroevolutionary framework for time series prediction
Ou et al. Identification algorithm of diseased leaves based on MobileNet model
CN110298399B (zh) 基于Freeman链码和矩特征融合的抽油井故障诊断方法
CN116821697A (zh) 一种基于小样本学习的机械设备故障诊断方法
CN113296947B (zh) 基于改进XGBoost模型的资源需求预测方法
CN116486150A (zh) 一种基于不确定性感知的图像分类模型回归误差消减方法
CN116502696A (zh) 基于联邦学习和模型剪枝的滚动轴承剩余寿命预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant