CN115452957B

CN115452957B - 基于注意力原型网络的小样本金属损伤识别方法

Info

Publication number: CN115452957B
Application number: CN202211071504.3A
Authority: CN
Inventors: 华佳东; 张晗; 林京; 高飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2024-04-12
Anticipated expiration: 2042-09-01
Also published as: CN115452957A

Abstract

本发明提供一种基于注意力原型网络的小样本金属损伤识别方法，其包括以下步骤：S1：将电磁超声传感器置于金属铝板表面采集超声导波信号，形成超声导波小样本数据集；S2：构建基于注意力机制的原型网络模型，其中特征提取部分采用包含dropout层的通道注意力模块；对基于注意力机制的原型网络模型进行训练；S3：使用基于注意力机制的原型网络模型对金属铝板损伤的分类结果；S4：得到对应的准确率，确定基于注意力机制的原型网络模型可用。本发明采用基于注意力机制的原型网络，对超声导波信号中的微弱损伤特征实现高效提取，有效避免过拟合问题，并在小样本条件下实现金属结构损伤识别。

Description

基于注意力原型网络的小样本金属损伤识别方法

技术领域

本发明涉及无损检测技术领域，特别涉及一种基于注意力原型网络的小样本金属损伤识别方法。

背景技术

随着航空航天、石油化工、轨道交通等领域装备技术的发展，重大装备结构的运维保障需求不断提高，结构健康监测(SHM,Structural health monitoring)技术受到愈加广泛的关注。SHM采用测试设备获取结构响应信息，通过监测数据的提取与分析，量化结构现有性能状态并评估结构未来健康状态，在保障结构安全性方面发挥着重要作用。在各类SHM技术中，基于超声导波的检测方法已被证明是一种可靠且高效的检测手段，由于其对结构内外部损伤敏感、检测范围广等优点，可用于多种类型的损伤识别。超声导波检测系统包括空间分布的传感器阵列并连接到被测结构，用于激励和采集导波信号。结构损伤与传播的导波相互作用，不同的损伤模式会引起不同的信号差异，从而实现损伤识别和定位。然而，超声导波往往具有多模态和频散特性，复杂的信号给损伤特征提取等数据分析方法带来了不利影响。因此，对采集的超声导波信号进行有效分析，提取损伤特征信息是超声导波损伤识别方法中十分关键的部分。

近年来，深度学习由于强大的非线性特征提取与表征能力而发展成为一种提取损伤敏感特征的新方法。然而，大部分深度学习方法需要大量的数据才能有效地训练模型并获得较高精度，这严重限制了它们的适用性。在实际工程中，损伤往往以各种形式发生，这使得收集大量精准具有特定损伤的样本十分困难且效率低下。因此，传统的神经网络训练需要大量的数据，要获得足够的有效样本是难以实现的，在小样本情况下模型容易出现过拟合的问题。此外，传统的深度学习模型由于训练数据中通常含有冗余的噪声信息，最终导致识别精度显著降低。传统深度学习模型具有黑盒特性，缺乏可解释性，这使得深度学习方法在实际工程应用中存在风险。因此，开发用于小样本情况的可解释深度学习模型对超声导波损伤识别是至关重要的。

发明内容

为了克服上述传统方法的缺点，本发明的目的在于提供一种基于注意力原型网络的小样本金属损伤识别方法，既克服了传统神经网络方法需要大量有效样本的局限性，还提高了分类精度，增强了可解释性，能够实现小样本情况下金属板损伤识别与分类。

为了实现上述目的，本发明提供一种基于注意力原型网络的小样本金属损伤识别方法，包括以下步骤：

S1：将两个电磁超声传感器置于金属铝板表面分别用于激励和采集超声导波信号，在铝板试件上设置K类不同规格的损伤，采集超声导波信号，对超声导波信号进行预处理，形成超声导波小样本数据集，将数据集分为测试集和训练集两部分，测试集和训练集没有交集；

S2：构建基于注意力机制的原型网络模型，包括：基于注意力机制的原型网络模型中注意力原型特征提取部分采用包含dropout层的通道注意力模块；使用训练集对基于注意力机制的原型网络模型进行训练，将训练集分为支撑集和查询集，支撑集用于生成类的原型，查询集用于训练原型的最近邻分类器；

构建基于注意力机制的原型网络模型的具体步骤如下：

S21：基于注意力机制的原型网络模型的特征提取通过将N个注意力原型特征提取串联后得到；注意力原型特征提取通过将注意力机制融入原型网络的特征提取得到，注意力原型特征提取包括卷积层、批处理归一化层和通道注意力模块；通道注意力模块包括全局平均池化层、全连接层和dropout层；

S22：通过基于注意力机制的原型网络模型的特征提取将支撑集样本数据转换为嵌入空间，提取类特征的均值生成类的原型；

S23：使用查询集对基于注意力机制的原型网络模型进行训练；

S3：将步骤S1中的测试集输入到步骤S2中构建的基于注意力机制的原型网络模型中，得到使用基于注意力机制的原型网络模型对金属铝板损伤的分类结果；

S4：根据步骤S3得到的金属铝板损伤识别结果，分别对所得测试集进行评估，并得到对应的准确率；当准确率高于指定阈值时，就认为基于注意力机制的原型网络模型能有效的对金属铝板损伤进行识别。

优选的，所述步骤S21中的注意力原型特征提取通过卷积层和BN层得到特征平面u，再通过通道注意力模块将特征平面u输入到全局平均池化层，将全局平均池化层的输出作为全连接层的输入，全连接层的激活函数为sigmoid函数，全连接层的输出作为dropout层的输入，dropout层的输出与特征平面u相乘后得到新特征平面其中通道注意力模块具体实现步骤为：

(1)特征平面作为全局平均池化层的输入，其中，R表示实数集，C表示通道数，W表示长度即特征平面u的列数，通过全局平均池化层将空间信息压缩到通道表示，其过程表示为:

其中，z_c表示通道c的特征表示，c＝1,2,…,C；u_c表示通道c的特征平面，即特征平面u的第c行，u_c(j)表示特征平面u的第c行第j个元素，W表示长度，表示对u_c进行全局平均池化操作；

(2)只设置一个全连接层，全局平均池化层的输出作为全连接层的输入，全连接层表示为：

s＝σ(W₃z) (2)

其中，s表示中间变量,W₃表示全连接层的权重，W₃为C×C的矩阵，s＝(s₁,s₂,...s_c...,s_C)，s_c表示通道c的中间变量，z为通过全局平均池化的特征表示，z＝(z₁,z₂,...z_c...,z_C)，z_c表示通道c的特征表示，由式(1)得到；

(3)在全连接层之后加入dropout层，s_c通过dropout层后变为s_d,c，s_d,c被称为通道c的dropout后的中间变量；

(4)将dropout层的输出与特征平面u_c相乘后得到新特征平面通道注意力模块的第c个通道输出计算可以表示为：

其中，为第c通道的新特征平面，s_d,c为通道c的dropout后的中间变量，u_c表示通道c的特征平面；

通道注意力模块输出新特征平面

(5)基于注意力机制的原型网络模型的特征提取部分为将N个注意力原型特征提取进行串联，N为正整数。

优选的，所述基于注意力机制的原型网络模型的特征提取部分为将N个注意力原型特征提取进行串联中的N设置为5，通道注意力模块中dropout rate都设置为0.05，5个卷积层的核大小分别为1×64、1×16、1×3、1×3、1×3，数量分别为16、32、64、128、128。

优选的，所述步骤S3中得到使用基于注意力机制的原型网络模型对金属铝板损伤的分类结果采用概率分布的方式得到，具体为：

基于softmax函数生成测试集在嵌入空间中与原型距离的概率分布；测试集在嵌入空间中与原型距离的概率分布采用下式得到：

其中，m_k’表示类k’的原型，d(·)表示欧氏距离函数，d(f_φ(x_i),m_k')表示导波信号x_i通过特征提取得到的特征向量与类k’的原型的欧氏距离，d(f_φ(x_i),m_k)表示导波信号x_i通过特征提取得到的特征向量与类k的原型的欧式距离，p_φ(y_i＝k'|x_i)表示给定导波信号x_i属于第k’类的概率。

优选的，还包括步骤S5，

S5：将LIME用于分析本发明模型的可解释性，找出影响损伤分类的关键特征；

LIME产生的样本x的解释ξ(x)表示为：

其中，模型g是潜在的可解释线性模型，f是训练的模型，用于提供输入样本的预测，而π_x为其他样本和样本x之间的接近度度量；Ω(g)是解释的模型复杂性度量，此处为关键特征的数量，LIME通过使用一个可解释的模型在局部近似网络来解释分类结果。

本发明相比于现有技术，具有以下有益效果：

(1)本发明能够有效提取超声导波信号中的微弱损伤特征；

(2)本发明采用基于注意力机制的原型网络，可以实现损伤特征的高效提取，完成自动化结构损伤识别与分类；

(3)本发明在通道注意力模块中融入dropout策略，有效避免过拟合问题；

(4)本发明可在小样本条件下实现具有较高准确率的金属结构损伤识别；

(5)本发明采用可解释性分析方法，有效提高了网络模型的可解释性。

附图说明

图1为本发明基于注意力原型网络的可解释小样本金属损伤识别方法流程图；

图2为本发明实施例损伤设置的示意图；

图3为本发明实施例原型网络的示意图；

图4为本发明实施例应用的通道注意力机制示意图；

图5为本发明实施例结果的混淆矩阵图；

图6为本发明四个测试样本信号示例；

图7为本发明可解释分析结果。

具体实施方式

为更好的理解本发明的技术方案，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

如图1所示，一种基于注意力原型网络的可解释小样本金属损伤识别方法，包括以下步骤：

S1：将两个电磁超声传感器置于金属铝板表面分别激励和采集超声导波信号，在铝板试件上设置K类不同规格的损伤(含无损)，采集超声导波信号，对超声导波信号进行预处理，形成超声导波小样本数据集，将数据集分为测试集和训练集两部分，测试集和训练集没有交集。

数据集由K类的信号标签样本(x_i,y_i)组成，信号标签样本是指根据导波信号已进行分类的样本，其中x_i表示第i个样本的导波信号，y_i表示第i个样本的对应标签，即在K类中的具体分类，i为正整数。

本实施例中，K类损伤包括孔洞、裂纹、腐蚀与无损共四个类别，使用了厚度为1.2mm的铝板作为试件，损伤厚度设置为板厚的10％-50％。孔洞损伤的半径范围为0.5mm-3mm，裂纹损伤的尺寸范围为1×5mm²-2×10mm²，腐蚀损伤的尺寸范围为5×5mm²-10×10mm²。图2为损伤设置示意图。将同一类不同规格的损伤的超声导波信号分为一组，每个类别分别设置了120个样本，其中60个样本用于组成测试集，每个信号长度为8000个采样点。因此，数据集包括由240个样本组成的训练集，以及240个样本组成的测试集。

S2：构建基于注意力机制的原型网络模型，具体为：基于注意力机制的原型网络模型中注意力原型特征提取部分采用了包含dropout层的通道注意力模块，使基于注意力机制的原型网络模型在提取有效特征的同时避免了过拟合问题；使用步骤S1中的超声导波小样本数据集中的训练集对基于注意力机制的原型网络模型进行训练，将训练集分为支撑集和查询集，支撑集用于生成类的原型，查询集用于训练原型的最近邻分类器；

构建基于注意力机制的原型网络模型的具体步骤如下：

S21：对原型网络的特征提取进行改进，将注意力机制融入原型网络的特征提取，得到注意力原型特征提取，用于充分提取损伤信息；注意力原型特征提取包括卷积层、批处理归一化(BN)层、通道注意力模块。

为充分提取损伤信息，将注意力机制融入原型网络特征提取，与现有原型网络模型中的特征提取相比，本申请中的特征提取增加了通道注意力模块。通道注意力模块包括全局平均池化层、全连接层和dropout层。

注意力原型特征提取通过卷积层和BN层得到特征平面u，即特征平面u为C×W的矩阵，C表示行数，W表示列数；通道注意力模块中的通道数与特征平面u的行数相同，将特征平面u的每一行输入到一个通道。在具体实现时，可以先确定注意力机制的通道数，然后再通过注意力原型特征提取的卷积层和BN层得到指定行数的特征平面u。

通道注意力模块如图4所示，包括将特征平面u输入到全局平均池化层，然后再将全局平均池化层的输出作为全连接层的输入，全连接层的激活函数为sigmoid函数，全连接层的输出作为dropout层的输入，dropout层的输出与特征平面u相乘后得到新特征平面通道注意力模块具体实现步骤为：

(1)特征平面作为全局平均池化层的输入，其中C表示通道数，W表示长度即特征平面u的列数，通过全局平均池化层将空间信息压缩到通道表示，其过程表示为:

其中，z_c表示通道c的特征表示，c＝1,2,…,C；u_c表示通道c的特征平面，即特征平面u的第c行，u_c(j)表示特征平面u的第c行第j个元素，W表示长度，表示对u_c进行全局平均池化操作。

(2)本发明的通道注意力模块中只设置一个全连接层以提供更好的性能，同时保留通道信息。传统的通道注意力机制使用带有sigmoid函数的两个全连接层来根据输入参数计算权值，这两个全连接层的设计是为了捕捉包含降维的非线性跨通道交互，以控制模型的复杂性。然而这种通道的降维可能导致通道信息的丢失，从而降低了在小样本学习问题中特征提取的效果。因此，在本发明的通道注意力模块中只设置一个全连接层以提供更好的性能，同时保留通道信息，该过程可以表示为：

s＝σ(W₃z) (2)

其中，s表示中间变量,W₃表示全连接层的权重，W₃为C×C的矩阵，s＝(s₁,s₂,...s_c...,s_C)，s_c表示通道c的中间变量，z为通过全局平均池化的特征表示，z＝(z₁,z₂,...z_c...,z_C)，z_c表示通道c的特征表示，由式(1)得到。

(3)本发明在全连接层之后加入dropout层。过拟合是深度设计神经网络训练中的一个典型问题，dropout是一种解决过拟合问题的有效方法，它使网络中的一部分神经元失活，从而破坏它们的相互连接和共适应行为。随机重新选取非激活神经元作为样本的更新，提高了网络的鲁棒性和泛化能力。因此，本发明在全连接层之后加入dropout层，s_c通过dropout层后变为s_d,c，s_d,c被称为通道c的dropout后的中间变量。通过增加dropout层减少了小样本数据集上过拟合的问题。

其中，为第c通道的新特征平面，s_d,c为通道c的dropout后的中间变量，u_c表示通道c的特征平面。

通道注意力模块输出新特征平面

(5)本发明基于注意力机制的原型网络模型的特征提取部分为将N个注意力原型特征提取进行串联，N为正整数，每个基于注意力机制的原型网络模型的特征提取都由卷积层、批处理归一化(BN)层和通道注意力模块组成。

本实施例中，N设置为5，ReLU函数作为BN层和通道注意力模块之间的激活函数，通道注意力模块中dropout rate都设置为0.05，5个卷积层的核大小分别为1×64、1×16、1×3、1×3、1×3，数量分别为16、32、64、128、128。基于注意力机制的原型网络模型的特征提取部分进行特征提取后重构张量，重构后的张量就是特征提取得到的特征向量。

S22：通过基于注意力机制的原型网络模型的特征提取将支撑集样本数据转换为嵌入空间，提取类特征的均值以生成类的原型，图3表示了基于注意力机制的原型网络模型示意图。

为避免小样本数据带来的泛化能力不足的问题，构建基于注意力机制的原型网络模型框架，基于注意力机制的原型网络模型采用的是典型的基于度量的元学习方法。

将步骤S1中的训练集分为支撑集S、查询集Q，支撑集和查询集作为训练集同时输入网络以提高鲁棒性和泛化性，步骤S1中的测试集则用于验证。因此，支撑集由每个类的S_k个随机样本组成，k表示第k类支撑集，而查询集由训练集每个类的其余样本组成。本实施例中将步骤S1中的训练集分为支撑集和查询集，支撑集为从训练集中每种类型选择50个样本作为支撑集，即每个类的S_k都为50，因此支撑集由200个样本组成，训练集中剩余的样本组成查询集，本实施例中就是由40个样本组成查询集。

基于注意力机制的原型网络模型通过计算原型来表示每个类的数据分布中心，具体步骤如下：通过基于注意力机制的原型网络模型的特征提取将导波信号x_i映射为D维特征向量，用公式表示为本实施例中D的数值为D＝1×C×W，本实施例中特征提取采用N次卷积层、批处理归一化(BN)层和通道注意力模块串联之后重构张量，得到的特征向量来实现。根据求解支撑集数据的均值向量定义第k类的原型为：

其中，m_k表示第k类的原型，|S_k|表示第k类支撑集中的样本个数，表示导波信号x_i通过特征提取得到的特征向量。

S23：使用S22中的查询集对基于注意力机制的原型网络模型进行训练。

原型网络的基本概念是学习如何有效地度量查询样本和支撑样本之间的相似性，因此采用欧氏距离作为距离度量函数，对原型网络进行训练，使查询集数据与同类原型最接近，与其他类原型距离最远。对基于注意力原型网络的训练采用与原型网络相同的方式，此为现有技术。

S3：将步骤S1中的测试集输入到步骤S2中构建的基于注意力机制的原型网络模型中，得到使用基于注意力机制的原型网络模型对金属铝板损伤的分类结果。

基于softmax函数生成测试集在嵌入空间中与原型距离的概率分布。测试集在嵌入空间中与原型距离的概率分布采用下式得到：

S4：根据步骤S3得到的金属铝板损伤识别结果，分别对所得测试集进行评估，并得到对应的准确率。

本实施例中，测试过程是对测试集中的四种损伤情况进行分类，最终结果的混淆矩阵如图5所示，即分别对所得测试集进行评估，并得到对应的准确率。当准确率高于指定阈值时，就认为基于注意力机制的原型网络模型能有效的对金属铝板损伤进行识别。采用步骤S1中将两个电磁超声传感器置于新的金属铝板表面分别激励和采集超声导波信号，对新采集的超声导波信号通过基于注意力机制的原型网络模型进行金属铝板损伤进行识别，就可以得到新的金属铝板损伤的分类。

S5：将LIME用于分析本发明模型的可解释性，找出影响损伤分类的关键特征

局部可解释(Local Interpretable Model-agnostic Explanation，LIME)方法是一种模型可解释方法。LIME可以为任何给定的样本预测提供解释，通过生成大量的扰动样本，模拟给定输入样本附近的随机抽样数据，然后利用预训练的模型对这些样本打标签，形成一个新的数据集。最后采用一个可解释的模型，例如决策树，在这个新构建的扰动数据集上进行训练，其中这个替代局部模型的系数表明了输入特征的贡献。从数学上讲，由LIME产生的样本x的解释ξ(x)可以表示为

其中，模型g是潜在的可解释线性模型，f是训练的模型，用于提供输入样本的预测，而π_x为其他样本和样本x之间的接近度度量。Ω(g)是解释的模型复杂性度量，在这里为关键特征的数量，LIME可以通过使用一个可解释的模型在局部近似网络来解释分类结果。

图6为测试集中代表四类样本的信号实例，图7为经过LIME进行可解释分析得到的影响模型分类决策的前十个关键特征，可以发现特征与信号中存在差异的特征位置能够对应起来，也就是说，本发明所公开的基于注意力机制的原型网络模型依据不同类别的信号差异区域有效识别了损伤类型，有效提高了方法的可解释性。

可以发现，该技术方案的准确率达到了97.92％，240个测试样本中的235个被准确地分类到各自的类别中，进而实现了基于超声导波的损伤识别。结果表明，该网络在小样本条件下仍具有较高的损伤识别能力且具有较强的可解释性。本发明智能化程度高，在工程实际中更加适用。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于注意力原型网络的小样本金属损伤识别方法，其特征在于：其包括以下步骤：

构建基于注意力机制的原型网络模型的具体步骤如下：

2.根据权利要求1所述的基于注意力原型网络的小样本金属损伤识别方法，其特征在于：所述步骤S21中的注意力原型特征提取通过卷积层和BN层得到特征平面u，再通过通道注意力模块将特征平面u输入到全局平均池化层，将全局平均池化层的输出作为全连接层的输入，全连接层的激活函数为sigmoid函数，全连接层的输出作为dropout层的输入，dropout层的输出与特征平面u相乘后得到新特征平面其中通道注意力模块具体实现步骤为：

s＝σ(W₃z) (2)

(4)将dropout层的输出与特征平面u_c相乘后得到新特征平面通道注意力模块的第c个通道输出计算表示为：

通道注意力模块输出新特征平面

3.根据权利要求2所述的基于注意力原型网络的小样本金属损伤识别方法，其特征在于：所述基于注意力机制的原型网络模型的特征提取部分为将N个注意力原型特征提取进行串联中的N设置为5，通道注意力模块中dropout rate都设置为0.05，5个卷积层的核大小分别为1×64、1×16、1×3、1×3、1×3，数量分别为16、32、64、128、128。

4.根据权利要求1所述的基于注意力原型网络的小样本金属损伤识别方法，其特征在于：所述步骤S3中得到使用基于注意力机制的原型网络模型对金属铝板损伤的分类结果采用概率分布的方式得到，具体为：

5.根据权利要求1所述的基于注意力原型网络的小样本金属损伤识别方法，其特征在于：还包括步骤S5，

LIME产生的样本x的解释ξ(x)表示为：