CN114418117B

CN114418117B - 用于少样本故障诊断的具有自适应学习率的元学习方法

Info

Publication number: CN114418117B
Application number: CN202210067075.6A
Authority: CN
Inventors: 林焱辉; 常亮
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2024-05-28
Anticipated expiration: 2042-01-20
Also published as: CN114418117A

Abstract

本发明提供一种用于少样本故障诊断的具有自适应学习率的元学习方法，其包括以下步骤：确定相关超参数；对模型参数随机初始化；进行元训练包括：外循环迭代次数中嵌套内循环，在内循环迭代中，采样形成子任务，根据内循环中子任务的参数更新次数Γ计算得到参数计算样本的交叉熵损失，内循环结束后计算特征间多核最大均值差异并更新模型参数；进行精调循环包括：计算自适应的精调学习率，计算精调损失函数，最后得到用于目标任务故障诊断的模型并结束。本发明提出了用于元训练和精调的两种自适应学习率，并改进了元训练和精调的损失函数，解决了少样本学习中的过拟合和欠拟合问题，并且使模型具有更强的泛化能力。

Description

用于少样本故障诊断的具有自适应学习率的元学习方法

技术领域

本发明涉及人工智能领域，尤其涉及一种用于少样本故障诊断的具有自适应学习率的元学习方法。

背景技术

机器设备的故障诊断对机器设备的安全运行和高效工作起着重要作用。随着深度学习技术的迅速发展，近年来基于深度学习的故障诊断方法得到了长足的发展。这些方法能够方便、快捷地实现准确的故障诊断，而不用依赖专家经验和耗时的人工特征提取操作。但是这些方法的成功依赖于大量的训练数据。否则，这些方法的效果将显著降低。然而，在实际情况中，收集足够的数据来训练故障诊断模型通常是昂贵甚至不切实际的。其中一个主要原因是，一旦机器设备出现故障，将被立即关闭以确保安全，这就导致仅能收集到少量故障数据。此外，与实验室中的机器设备不同，不能人为地在真实运行的机器设备中引入故障以获取故障数据。

为了应对用于训练故障诊断模型的数据不足的问题，当前主流方法包括三类：基于数据增强的方法、基于迁移学习的方法和少样本学习方法。基于数据增强的方法可以基于原始数据集生成新的数据从而增加数据量和多样性。然而，这类方法很难确保生成的数据的正确性和质量，特别是当真实原始数据极其有限时。因此，生成的样本无法提供足够有效的辅助信息。获取有效辅助信息的另一个方法是从其他不同但相关的任务(即辅助任务)中学习先验知识。为此，基于迁移学习的方法从相关但分布不同的辅助任务中学习知识，并迁移到目标任务中从而完成分类。然而，这类方法主要侧重于使模型能够适应于一个特定的目标任务。这类方法仍有进一步提高模型的泛化能力的空间，尤其是在数据量很有限的情况下。

比适应一个特定的目标任务更进一步，少样本学习方法从多个辅助任务中学习相关知识，以提高模型的泛化能力，从而能够适应于多个少样本目标任务，这就是元学习方法的思想。在故障诊断领域，机器设备经常在不同的工况下工作。虽然在每个工况下收集足够数量的数据是昂贵且不切实际的，但可以使用在不同工况下收集的数据来构成多个辅助任务。因此，将元学习方法应用于少样本故障诊断是合理且可行的。在基于度量的元学习方法中，由于辅助任务的分布之间存在的差异和数据的不足，很难提取到具有普遍性和区分度的特征，而且距离度量函数的选择也不便捷。与基于度量的元学习方法不同，模型无关元学习(MAML，Model-agnostic meta-learning)作为元学习方法的另一个类别，旨在通过元训练使模型具有更强的泛化能力，从而可以在使用来自目标任务的少量数据进行精调后，在目标任务上实现准确的分类。但是，如果目标任务的数据不足(尤其是每个类别只有一个样本可用时)，则无法获得验证集。因此，在元训练和精调过程中，模型很容易过拟合或欠拟合。虽然可以通过退火元训练的学习率以缓解过拟合，但它只能单调地降低学习率，而不能动态调整学习率，这限制了它的有效性。因此学习率应根据模型性能进行动态调整，以解决过拟合和欠拟合问题。

发明内容

为了克服现有技术的缺陷，本发明提供一种用于少样本故障诊断的具有自适应学习率的元学习方法(MLALR，Meta-Learning with Adaptive Learning Rate)，所述方法分为元训练和精调两个阶段，基于MAML框架对用于元训练和精调的两种学习率采用自适应学习率，并且改进了元训练和精调的损失函数，具体包括以下步骤：

S1，确定辅助任务目标任务/>外循环迭代次数J、内循环迭代次数P、内循环中子任务的参数更新次数Γ、以及精调的更新次数E；

S2，将模型参数随机初始化为θ₀，设定第一循环变量j＝1；设定第二循环变量e＝1；

S3，设定第三循环变量μ＝1；

S4，从辅助任务T^μ中随机采样和/>和/>形成一个子任务，对此子任务计算得到经过Γ次参数更新后的参数/>

S5，根据计算/>中样本的交叉熵损失/>

S6，μ＝μ+1，判断μ是否大于P，是则执行步骤S7，否则返回步骤S4；

S7，计算特征间多核最大均值差异用来衡量模型/>的泛化能力；

S8，更新模型参数，将模型参数由θ_j-1更新为θ_j，具体包括以下步骤：

S8.1计算自适应外循环学习率β_j，公式如下：

其中，a₁,b₁,g₁,a₂,b₂和g₂是超参数，δ_j是模型泛化能力的变化率；超参数a₁,b₁,g₁,a₂,b₂和g₂根据传统MAML的预实验确定；

模型泛化能力的变化率δ_j计算公式如下：

其中，δ_j是模型泛化能力的变化率，i为正整数，是模型/>的特征间多核最大均值差异；/>是模型/>的特征间多核最大均值差异；

S8.2，计算用于外循环优化的损失函数其计算公式如下：

其中，N是健康状态的数量，c为正整数，表示第c种健康状态；

S8.3，将模型参数由θ_j-1更新为θ_j：

其中，θ_j和θ_j-1分别为第j次和第j-1次外循环的模型参数，β_j为自适应外循环学习率,表示/>对θ_j-1的梯度；

S9，j＝j+1，判断j是否大于J；是则执行步骤S10；否则返回步骤S3继续进行外循环；

S10，计算指标LD_e-1来衡量模型的性能，/>

S11，计算自适应的精调学习率η_e；

首先将η_e初始化为学习率的最大值，然后根据ΔLD_e来调整η_e，ΔLD_e是LD_e的相对变化率，自适应的精调学习率η_e计算如下：

其中，l是一个超参数，其取值根据在学习率为固定值的预实验中ΔLD_e的取值情况来决定，使η_e在常用值范围内变化，ΔLD_e是LD_e的相对变化率，用于调整精调的学习率，计算公式如下：

S12，计算精调损失函数

其中，θ′是全连接层的权重参数，ω是正则化项的权重，其取值根据在损失函数中没有正则化项的预实验中∑_θ′|θ′|的取值决定，其中损失函数为：

其中，表示经过e-1次精调的模型参数，T^tg表示目标任务，x_i是T^tg中第i个样本的输入数据，y_i是相应的标签；/>表示x_i输入模型/>后获得的输出；

S13，用现有Adam算法更新到/>包括：

计算对/>的梯度，然后计算梯度的一阶矩估计和二阶矩估计，并根据矩估计计算适应性学习步长，/>减去梯度和适应性学习步长以及η_e的乘积，从而得到/>

S14，e＝e+1，判断e是否大于E，是则得到用于目标任务故障诊断的模型并结束，否则返回步骤S10；

在总共E次精调更新后，便获得用于目标任务故障诊断的模型

优选的，所述步骤S4具体为：

首先，从辅助任务T^μ中随机采样和/>和/>形成一个子任务，n_S表示/>中包含的样本数量，n_Q表示/>中包含的样本数量；

然后，对子任务计算得到经过γ次参数更新后的模型参数计算公式为：

其中，为第j-1次外循环第μ次内循环中经过γ次参数更新后的模型参数，θ_j-1为第j-1次外循环得到的模型参数，/>α是内循环学习率，γ为第四循环变量，γ＝0,1,2,…,Γ；/>表示/>对/>的梯度；

损失函数采用交叉熵损失来评估模型的分类准确度，其计算公式如下：

其中，表示损失函数，/>表示将变量/>和,/>代入损失函数中，/>表示将/>输入到参数为/>的模型得到的输出，/>是/>的实际标签；

对于子任务通过第四循环变量γ对式(1)和(2)进行循环迭代运算，迭代次数达到Γ时，得到经过Γ次参数更新后的参数

优选的，所述步骤S5具体为：

其中，表示损失函数，/>表示将变量/>和/>代入损失函数中。

优选的，所述步骤S7具体包括以下步骤：

的计算公式如下：

其中，表示模型/>总体的特征间多核最大均值差异，/>表示第c种健康状态的特征间多核最大均值差异，/>表示/>中第c种健康状态的输入数据，μ₁和μ₂为正整数，/>表示由/>提取出的/>的特征，/>表示特征之间的多核最大均值差异(Multi-Kernel Maximum Mean Discrepancy，MK-MMD)，其计算公式如下：

其中，m是或/>中的样本个数，/>和/>中的样本个数相同，/> k(·,·)是核函数；/>和/>分别表示由/>和/>的第i个样本提取出的特征。

优选的，所述步骤S10具体为：

采用根据提取特征的分布的自适应精调学习率η_e来进行第e步精调，根据从不同健康状态的样本中提取的特征之间的距离来调整η_e，通过指标LD_e-1来衡量这些特征之间的距离，该指标计算如下：

其中，和/>分别是目标任务中第c₁种健康状态的第u个样本和第c₂种健康状态的第v个样本的输入数据，/>表示第c₁种健康状态的样本数，/>表示第c₂种健康状态的样本数，/>是由模型/>提取的相应的特征；l1(·)计算了两个输入之间的元素差异的绝对值的平均值，即它们之间的L1距离。

优选的，所述步骤S1具体为：

确定P个辅助任务，用表示；对于每个辅助任务，/>其中T^μ表示第μ个辅助任务；/>是第μ个辅助任务中第i个样本的输入数据，D为数据长度；是/>的健康状态，即/>的标签。M^μ表示T^μ中包含的样本数量；N表示健康状态的数量，/>表示T^μ中第n种健康状态的样本数，/>

确定一个目标任务，目标任务用表示，M^tg是T^tg中包含的样本数量，/>是第i个样本的输入数据，/>是相应的标签；K_n表示第n种健康状态的样本数，则，/>

设定外循环迭代次数为J；内循环迭代次数需要与辅助任务数量相同，因此内循环迭代次数为P；内循环中子任务的参数更新次数为Γ，设定参数的精调更新次数为E。

与现有技术相比，本发明具有以下有益效果：

1)为了避免过拟合和欠拟合，提出了用于元训练和精调的两种自适应学习率。自适应学习率根据提取到的特征的分布计算得到，而不是单调地降低学习率。在少样本学习任务中，由于数据不足，缺少验证集，很难合理确定学习率和参数更新次数。因此，使用自适应学习率对于解决少样本学习中的过拟合和欠拟合问题是必要和有益的；

2)改进了元训练和精调的损失函数，使模型具有更强的泛化能力。基于分布差异的损失函数用于元训练，不仅有助于模型从辅助任务中学习普遍性知识，而且保证了所提出的自适应学习率的稳定性。在精调损失函数中加入正则化项，进一步提高了模型的泛化能力；

3)本文使用两个轴承故障数据集对所提出的方法进行了验证。辅助任务由人为引入损坏的故障数据构成，多个目标任务由实际工作中损坏的故障数据构成。实验结果表明，MLALR训练的模型具有很强的泛化能力，能够利用人为引入损伤的轴承的数据预测不同工况下的实际轴承故障，具有重要的现实意义。通过与基准方法和三种最新方法的比较，验证了所提出方法的有效性和优越性。

附图说明

图1是用于少样本故障诊断的具有自适应学习率的元学习方法的流程示意图；

图2是和β_j在本发明方法和MAML方法外循环过程中的取值；

图3是LD_e和η_e在本发明方法和MAML方法精调过程中的取值；

图4是不同外循环迭代次数J在本发明方法和MAML方法得到的诊断准确度；

图5是不同精调更新次数E在本发明方法和MAML方法得到的诊断准确度；

图6是使用本发明方法在各目标任务的诊断准确度。

具体实施方式

为更好的理解本发明的技术方案，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

本发明是一种用于少样本故障诊断的具有自适应学习率的元学习方法，针对少样本故障诊断问题，本发明提出了基于MAML框架的MLALR方法。如图1所示。该方法分为元训练和精调两个阶段，元训练为第一阶段，精调为第二阶段。在第一阶段，不同于孤立学习方法，元学习方法从多个辅助任务中学习先验知识来解决少样本问题，基于多个辅助任务进行元训练，得到具有强泛化能力的模型,包括：输入辅助任务，子任务采样和模型参数更新；在第二阶段，使用目标任务的少量样本对元训练后的模型进行精调，以适应目标任务，包括：输入目标任务，对模型参数进行精调，最后得到用于目标任务故障诊断的模型。和现有的MAML方法相比，本发明提出的MLALR方法对用于元训练和精调的两种学习率采用自适应学习率，并且改进了元训练和精调的损失函数。模型的结构如图1中模型结构部分所示，用f_θ表示参数为θ的模型，其中包括权重参数和偏置参数，用f′_θ表示f_θ的特征抽取器，由卷积层、线性整流函数(Rectified Linear Unit,ReLU)非线性层、批量归一化层和最大池化层组成，为了更清晰明了的展示，图1中未给出非线性层和批量归一化层。

下面给出本发明一种用于少样本故障诊断的具有自适应学习率的元学习方法的详细步骤：

S1，确定辅助任务目标任务/>外循环迭代次数J、内循环迭代次数P、内循环中子任务的参数更新次数Γ、以及精调的更新次数E。

确定P个辅助任务，用表示。对于每个辅助任务，/>其中T^μ表示第μ个辅助任务；/>是第μ个辅助任务中第i个样本的输入数据，D为数据维度，在轴承故障诊断领域，通常采用一维振动信号作为输入数据，使用滑动窗口对振动信号进行分割以生成样本，此时D就是滑动窗口的长度；/>是/>的健康状态，即/>的标签。M^μ表示T^μ中包含的样本数量。用N表示健康状态的数量，/>表示T^μ中第n种健康状态的样本数，

确定一个目标任务，目标任务用表示，其中只有少数样本可用于训练。因此，T^tg中包含的样本数量M^tg是一个非常小的值，/>是第i个样本的输入数据，/>是相应的标签。用K_n表示第n种健康状态的样本数，则，/>在少样本故障诊断中，K_n一般不会超过5。

设定外循环迭代次数为J，J为大于10的整数；内循环迭代次数需要与辅助任务数量相同，因此内循环迭代次数为P；内循环中子任务的参数更新次数为Γ，设定参数的精调更新次数为E。外循环迭代次数J、内循环中子任务的参数更新次数Γ和精调更新次数E，理论上越大越好，但考虑到运算量，它们的数值根据实际需求进行设定。

第一循环变量j用来对外循环进行计数，在外循环的第j次(j＝1,2,…,J)迭代中，模型参数会由θ_j-1更新为θ_j，外循环就是第一阶段的元训练过程。

第二循环变量e用来对精调进行计数，在精调过程的第e次(e＝1,2,…,E)迭代中，模型参数会由更新为/>其中/>精调的循环就是第二阶段的精调过程。

S3，设定第三循环变量μ＝1；

第三循环变量μ(μ＝1,2,…,P)用来对内循环进行计数，在每次内循环的迭代中，都需要对辅助任务T^μ进行模型参数的更新和损失函数的计算。

首先，从辅助任务T^μ中随机采样和/>和/>形成一个子任务，n_S表示/>中包含的样本数量，n_Q表示/>中包含的样本数量。此处需要说明，每次外循环迭代都会在内循环中形成P个子任务，由于随机采样，外循环一次迭代中的中的样本和外循环另一次迭代中的/>中的样本可能有重叠。但它不会影响模型的泛化能力，因为元训练是一个从大量子任务中学习的过程。只需要在外循环的不同迭代中，子任务之间存在差异，而不需要每个子任务完全独立。

然后，对子任务计算得到经过γ次参数更新后的模型参数γ＝0,1,2,…,Γ，计算公式为：

其中，为第j-1次外循环第μ次内循环中经过γ次参数更新后的模型参数，θ_j-1为第j-1次外循环得到的模型参数，/>α是内循环学习率，本实施例中取值为0.03，γ为第四循环变量，γ＝0,1,2,…,Γ；/>表示/>对/>的梯度。

其中，表示损失函数，/>表示将变量/>和,/>代入损失函数中，/>表示将/>输入到参数为/>的模型得到的输出，/>是/>的实际标签。

可以看出，对于子任务通过第四循环变量γ对式(1)和(2)进行循环迭代运算，迭代次数达到Γ时，得到经过Γ次参数更新后的参数

S5，根据计算/>中样本的交叉熵损失/>

其中，表示损失函数，/>表示将变量/>和/>代入损失函数中。

在内循环优化结束时，可以得到每个的交叉熵损失/>

S7，计算特征间多核最大均值差异用来衡量模型/>的泛化能力，

外循环优化的目的是优化模型参数，从多个子任务中学习普遍性知识。受领域自适应技术的启发，我们提出利用从不同任务中提取的特征之间的分布差异距离来调整外循环学习率，帮助模型提取普遍性特征。在本实施例中，利用广泛用于领域自适应的多核最大均值差异(Multi-Kernel Maximum Mean Discrepancy，MK-MMD)来衡量分布的差异距离。从相同健康状态但不同任务的样本中提取的普遍性特征应该有相似的分布。因此，在本方法中通过MD_θ衡量模型f_θ的泛化能力，越小的MD_θ表示模型f_θ的泛化能力越强；的计算公式如下：

其中，m是或/>中的样本个数，/>和/>中的样本个数相同，/> k(·,·)是核函数。/>和/>分别表示由/>和/>的第i个样本提取出的特征。

S8，更新模型参数θ，具体包括以下步骤：

S8.1计算自适应外循环学习率β_j，公式如下：

其中，a₁,b₁,g₁,a₂,b₂和g₂是超参数，δ_j是模型泛化能力的变化率。超参数a₁,b₁,g₁,a₂,b₂和g₂可根据传统MAML的预实验确定，传统MAML的预实验中学习率为固定值。具体地，这些超参数根据预实验期间的的值确定，以确保β_j的值可以分布在区间[0.0001，0.005]内。在优化开始时，/>较大，表明模型/>的泛化能力较弱，此时β_j应该取较大值用以大幅更新模型参数；较大的δ_j表明模型正朝着更强的泛化能力进行优化；

模型泛化能力的变化率δ_j计算公式如下：

S8.2，计算用于外循环优化的损失函数其计算公式如下：

其中，N是健康状态的数量，c为正整数，表示第c种健康状态，公式(9)中的衡量了模型在辅助任务上的分类准确度，/>广泛应用于领域自适应，以提高模型的泛化能力。因此，通过在外循环最小化/>模型可以被优化以提取对分类具有区分性且对不同任务具有普遍性的特征。

S8.3，将模型参数由θ_j-1更新为θ_j：

其中，θ_j和θ_j-1分别为第j次和第j-1次外循环的模型参数，β_j为自适应外循环学习率,表示/>对θ_j-1的梯度。

在此步骤中，若j大于J，说明元训练结束，此时式(10)中的θ_j为θ_J，表示经过J次外循环迭代后得到模型

接下来将使用目标任务的训练样本对模型进行精调。

S10，计算指标LD_e-1来衡量模型的性能，/>

本发明中使用Adam算法作为精调的优化器。考虑到只有少量样本可用于精调，本发明中采用根据提取特征的分布的自适应精调学习率η_e来进行第e步精调，以减轻过拟合和欠拟合。具体地，根据从不同健康状态的样本中提取的特征之间的距离来调整η_e，因此，通过指标LD_e-1来衡量这些特征之间的距离，该指标计算如下：

其中，和/>分别是目标任务中第c₁种健康状态的第u个样本和第c₂种健康状态的第v个样本的输入数据，/>表示第c₁种健康状态的样本数，/>表示第c₂种健康状态的样本数，/>是由模型/>提取的相应的特征。l1(·)计算了两个输入之间的元素差异的绝对值的平均值，即它们之间的L1距离，L1距离的计算为现有技术。LD_e的值通常会随着e的增加而增加

S11，计算自适应的精调学习率η_e；

首先将η_e初始化为学习率的最大值，然后根据ΔLD_e来调整η_e，ΔLD_e是LD_e的相对变化率。考虑该学习率的常用值范围为0.00001至0.01，本方法所提出的自适应的精调学习率η_e计算如下：

其中，l是一个超参数，其取值可以根据在学习率为固定值的预实验中ΔLD_e的取值情况来决定，使η_e在常用值范围内变化，ΔLD_e是LD_e的相对变化率，用于调整精调的学习率，计算公式如下：

较大的ΔLD_e表示模型正朝着目标进行优化，因此应使用较大的学习率进行参数更新。

S12，计算精调损失函数

其中，公式(14)中等号右边的第一项是模型在目标任务的训练样本上的交叉熵损失；等号右边第二项是正则化项，θ′是全连接层的权重参数，本发明所用模型中只有一个全连接层，θ′就表示这个全连接层的全部权重参数。ω是正则化项的权重，其取值根据在损失函数中没有正则化项的预实验中∑_θ′|θ′|的取值决定，以确保公式(14)中等号右边的两项的值属于相同的数量级。其中损失函数/>为：

其中，表示经过e-1次精调的模型参数，T^tg表示目标任务，x_i是T^tg中第i个样本的输入数据，y_i是相应的标签；/>表示x_i输入模型/>后获得的输出。

S13，用现有Adam算法更新到/>包括：

S14，e＝e+1，判断e是否大于E，是则得到用于目标任务故障诊断的模型并结束，否则返回步骤S10。

在总共E次精调更新后，便获得用于目标任务故障诊断的模型由于采用了自适应学习率，因此该模型可以用较大的E值进行精调，而不发生过拟合，有效解决了过拟合和欠拟合的问题。

下面将本发明提出的MLALR方法与现有的MAML方法进行详细比较，来验证本发明所提出方法的有效性。

使用两个公开的轴承数据集进行实验案例分析，即由Paderborn大学提供的PU数据集和智能维修系统中心收集的IMS数据集。PU数据集包含多个轴承的振动数据，这些轴承有些是人为引入的损坏，有些是在实际工作中发生损坏，还有些处于正常的健康状态。每个轴承都在4种不同的工况下收集数据。工况参数如表1所示。

表1.PU数据集中的4种工况参数

IMS数据集包含多个轴承的监测数据。这些轴承均以2000转每分钟的恒定转速在6000磅的径向负载下工作，这是一种与PU数据集中的工况不同的工况。IMS数据集中的所有故障数据都是实际工作中发生的损坏。两个数据集都包含三种健康状态：正常状态、内圈故障(IR)和外圈故障(OR)。因此，在本实施例中，N＝3，N表示健康状态的数量。轴承的一维振动信号被用作输入数据。在时间方向上滑动窗口用于分割振动信号并生成样本。每个样本包含4096个振动信号数据点作为输入数据，即D＝4096，即滑动窗口的长度。

由于在不同工况下采集的数据具有不同的分布，因此可以将不同工况下的故障诊断视为不同的任务。由PU数据集中5个处于正常状态的轴承和4个人为引入损坏的故障轴承收集的振动数据构建辅助任务。表2(编号1-9)总结了这9个轴承的信息。振动数据在4种不同的工况下收集，因此P＝4，即辅助任务的数量。

同样地，由PU数据集中另一个处于正常状态的轴承和2个实际工作中发生损坏的故障轴承收集的振动数据被用于构建目标任务。表2(编号10-12)总结了这3个轴承的信息。由不同的工况共构建了4个目标任务，并用T^tg1、T^tg2、T^tg3和T^tg4表示。在这4个目标任务中，每种健康状态总共有60个样本。另一个目标任务由IMS数据集构成，用T^tg5表示。该数据集中每种健康状态下共有185个样本。在每个目标任务中，随机选择每种健康状态的K个样本对模型进行精调，剩余的样本用于评估模型的诊断准确度。在本案例中，取K₁＝K₂＝K₃＝K。，即第1、2、3种健康状态的样本数都为K。

表2.PU数据集中所用轴承的信息

首先，用传统MAML方法进行预实验。图2中的横虚线展示了在外循环优化过程中的值，根据其取值范围，元训练阶段的超参数取值如表3所示。

表3.元训练阶段的超参数取值

元训练后，使用K＝1的T^tg1对模型进行精调，其中精调学习率为固定值，损失函数为交叉熵损失。图3中的横虚线展示了精调过程中LD_e的值，根据其取值范围，精调阶段的超参数取值被确定为l＝0.001、ω＝0.001和E＝100。

通过传统的MAML方法进行预实验获得了元训练阶段的超参数取值和精调阶段的超参数取值。再使用本发明的MLALR方法进行试验，MLALR方法中所获得的和自适应外循环学习率β_j的取值展示于图2中，所获得的LD_e和自适应精调学习率η_e的取值展示于图3中，总体而言，自适应外循环学习率和自适应精调学习率分别随着外循环迭代和精调更新次数的增加而降低，并在训练后端收敛到较小的值。

为了说明本发明提出的MLALR方法解决了传统MAML的过拟合和欠拟合问题，分别使用图4和图5进行展示。图4和图5分别展示了目标任务的准确度随着外循环迭代次数J和精调更新次数E的增加而变化的情况。在图4中，对使用不同J进行元训练的模型精调，以适应目标任务，并展示了相应的诊断准确度。在图5中，对使用优选值J进行元训练的模型进行不同E的精调，以适应目标任务，并展示了相应的诊断准确度。从图4和图5可以看出，在MAML方法中，经过一定的J或E后，准确度达到饱和，然后下降。由于在少样本场景中没有验证集，因此很难甚至不可能选择出J和E的最佳值。当J或E太小时，模型将欠拟合，而当J或E太大时，模型将过拟合。然而，所提出的MLALR方法可以有效地解决过拟合和欠拟合问题。如图4和图5所示，MLALR方法获得的准确度收敛到一定值，然后随着J或E的增加基本保持不变。这是因为学习率可以根据模型性能进行调整，并收敛到一个较小的值。因此，可以通过将J和E设置为更大的值来解决过拟合和欠拟合问题，从而获得更高的故障诊断准确度。

每个目标任务的故障诊断准确度如图6所示。实验结果表明，用MLALR方法训练的模型具有较强的泛化能力，能够从人为引入损伤的故障数据中学习一般知识，对实际工作损伤的故障数据具有较高的诊断准确度。与K＝5任务相比，K＝1任务的准确率仅略有下降。验证了该方法在少样本场景下的有效性。与其他4个目标任务相比，T^tg5的工况在元训练阶段是未出现的。因此，T^tg5的故障诊断更加困难。尽管如此，该任务的准确度仍然超过了94％，这验证了所提出的方法也可以用于预测新工况下的实际工作故障，且只需使用少量的训练数据。

下面再使用本发明方法与一些基准方法的比较，以进一步验证本发明所提出的MLALR方法的有效性。表4中提供了基准方法的说明。

表4.基准方法的说明

方法1是基于卷积神经网络的简单分类模型。模型结构与图1中下部所示相同。仅使用目标任务中每个健康状态的K个样本对其进行训练。方法2基于传统的MAML，其中学习率设置为固定值，交叉熵损失用作损失函数。方法3与方法2相比区别在于，将本发明提出的外循环优化的损失函数式(9)和精调损失函数式(14)分别用于方法3的外循环优化和精调。方法4与方法2相比区别在于，将本发明提出的自适应学习率用于方法4。

为了进一步验证所提出的MLALR方法的优越性，还将该方法与两种最近提出的用于少样本故障诊断的元学习方法和一种迁移学习方法进行比较。方法5基于匹配网络。该模型的训练结合了一般监督学习和基于度量的元学习的优点。方法6基于传统MAML方法，对元训练的学习率进行退火。方法7基于广泛使用的迁移学习技术，其中基于MMD的损失函数用于领域自适应，所有辅助任务都用作源域，目标任务作为目标域。上述所有方法均使用基于CNN的相同模型结构。

将使用上述7种方法以及本发明提出的MLALR的诊断结果汇总在表5中。

表5.不同方法的故障诊断准确度

方法1在孤立学习的框架下，仅使用目标任务的少量数据进行训练，因此平均准确度仅为61.53％。由于过拟合和欠拟合问题，方法2的准确度也不够好。在方法3中，所提出的损失函数可以略微提高模型泛化能力，但仍然存在过拟合和欠拟合问题。因此，其分类准确度与方法2的相近。方法4采用了所提出的自适应学习率，从而缓解了过拟合和欠拟合问题。但学习过程不够稳定，泛化能力还有待进一步提高。方法5的表现取决于提取特征的分布和距离测量函数。由于辅助任务分布的差异性以及数据的不足，一般监督学习难以提取普遍性且对诊断有判别性的特征。因此，方法5的诊断准确度不高。在方法6中，通过对元学习的学习率进行退火，可以一定程度上缓解过拟合和欠拟合问题。但是学习率不能根据模型的表现进行适当的动态调整。此外，用于精调的学习率是固定的。因此，方法6的诊断准确度低于所提出方法的诊断准确度。在方法7中，由于数据不足，目标任务的数据分布很难被准确评估。因此，方法7在少样本任务中获得的平均准确度最低。本发明所提出的MLALR方法获得了最高且最稳定的诊断准确度。综上所述，通过对比实验，所本发明所提出方法的优越性得到了验证。

本发明提出了用于少样本故障诊断的MLALR方法，通过从多个辅助任务中学习普遍性知识来获得较高的诊断准确度。在MLALR方法中，采用两种自适应学习率分别用于模型的元训练和精调。学习率的值可以根据提取到的特征的分布进行调整。因此，可以有效地解决过拟合和欠拟合问题。此外，采用改进的损失函数可以提高模型的泛化能力和训练稳定性。使用两个公开的轴承数据集验证了该方法的有效性和优越性。实验结果表明，在少样本故障诊断任务中，所提出的方法能够获得比基准方法和其他先进方法更高、更稳定的准确度。此外，用两个轴承数据集构建目标任务，验证了所提出的方法具有较强的泛化适应性，可以完成在不同工况下，从人为引入损伤故障数据向实际工作损伤故障数据的知识转移，具有重要的现实意义。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用于少样本故障诊断的具有自适应学习率的元学习方法，其特征在于：所述方法分为元训练和精调两个阶段，基于MAML框架对用于元训练和精调的两种学习率采用自适应学习率，并且改进了元训练和精调的损失函数，具体包括以下步骤：

具体为：

确定P个辅助任务，用表示；对于每个辅助任务，/>其中T^μ表示第μ个辅助任务；/>是第μ个辅助任务中第i个样本的输入数据，D为数据长度；/>是的健康状态，即/>的标签；M^μ表示T^μ中包含的样本数量；N表示健康状态的数量，/>表示T^μ中第n种健康状态的样本数，/>

确定一个目标任务，目标任务用表示，M^tg是T^tg中包含的样本数量，是第i个样本的输入数据，/>是相应的标签；K_n表示第n种健康状态的样本数，则，/>

设定外循环迭代次数为J；内循环迭代次数需要与辅助任务数量相同，因此内循环迭代次数为P；内循环中子任务的参数更新次数为Γ，设定参数的精调更新次数为E；

S3，设定第三循环变量μ＝1；

S4，从辅助任务T^μ中随机采样和/> 和/>形成一个子任务，对此子任务计算得到经过Γ次参数更新后的参数/>

S5，根据计算/>中样本的交叉熵损失/>

具体包括以下步骤：

的计算公式如下：

其中，表示模型/>总体的特征间多核最大均值差异，/>表示第c种健康状态的特征间多核最大均值差异，/>表示/>中第c种健康状态的输入数据，μ₁和μ₂为正整数，/>表示由/>提取出的/>的特征，/>表示特征之间的多核最大均值差异，其计算公式如下：

其中，m是或/>中的样本个数，/>和/>中的样本个数相同，/> k(·,·)是核函数；/>和/>分别表示由/>和的第i个样本提取出的特征；

S8.1计算自适应外循环学习率β_j，公式如下：

模型泛化能力的变化率δ_j计算公式如下：

S8.2，计算用于外循环优化的损失函数其计算公式如下：

S8.3，将模型参数由θ_j-1更新为θ_j：

S10，计算指标LD_e-1来衡量模型的性能，/>

具体为：

其中，和/>分别是目标任务中第c₁种健康状态的第u个样本和第c₂种健康状态的第v个样本的输入数据，/>表示第c₁种健康状态的样本数，/>表示第c₂种健康状态的样本数，/>是由模型/>提取的相应的特征；l1(·)计算了两个输入之间的元素差异的绝对值的平均值，即它们之间的L1距离；

S11，计算自适应的精调学习率η_e；

S12，计算精调损失函数

S13，用现有Adam算法更新到/>包括：

在总共E次精调更新后，便获得用于目标任务故障诊断的模型

2.根据权利要求1所述的用于少样本故障诊断的具有自适应学习率的元学习方法，其特征在于：所述S4，从辅助任务T^μ中随机采样和/> 和形成一个子任务，对此子任务计算得到经过Γ次参数更新后的参数/>具体为：

首先，从辅助任务T^μ中随机采样和/> 和/>形成一个子任务，n_S表示/>中包含的样本数量，n_Q表示/>中包含的样本数量；

其中，表示损失函数，/>表示将变量/>和/>代入损失函数/>中，表示将/>输入到参数为/>的模型得到的输出，/>是/>的实际标签；

3.根据权利要求1所述的用于少样本故障诊断的具有自适应学习率的元学习方法，其特征在于：所述步骤S5，根据计算/>中样本的交叉熵损失/>具体模型为：

其中，表示损失函数，/>表示将变量/>和/>代入损失函数/>中。