CN117173449A - 基于多尺度detr的航空发动机叶片缺陷检测方法 - Google Patents
基于多尺度detr的航空发动机叶片缺陷检测方法 Download PDFInfo
- Publication number
- CN117173449A CN117173449A CN202310879506.3A CN202310879506A CN117173449A CN 117173449 A CN117173449 A CN 117173449A CN 202310879506 A CN202310879506 A CN 202310879506A CN 117173449 A CN117173449 A CN 117173449A
- Authority
- CN
- China
- Prior art keywords
- feature
- feature map
- detr
- loss
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 230000007547 defect Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 49
- 230000007246 mechanism Effects 0.000 claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 230000002950 deficient Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005266 casting Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 2
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 208000003464 asthenopia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000006247 magnetic powder Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于多尺度DETR的航空发动机叶片缺陷检测方法,先采集有缺陷叶片的X射线图像数据集,并对不平衡数据集进行数据增强;然后将特征提取网络中提取到的特征图输入多尺度融合注意力机制模块,得到加权特征图;之后将加权特征图输入多尺度特征融合模块,经过跨尺度特征融合后输出最终特征图;将添加了位置编码的特征图和目标查询序列与Transformer进行交互,并利用R‑Focal loss计算损失并进行反向传播优化模型;最后将实际工业场景中获得的缺陷图片输入网络进行检测,得到最终的检测结果,该方法通过模型训练和工业应用检验,可以提高叶片缺陷检测精度,提高检测速度,具有较高的实用价值。
Description
技术领域
本发明涉及利用计算机视觉知识进行缺陷检测领域,特别涉及基于多尺度DETR的航空发动机叶片缺陷检测方法。
背景技术
航空发动机的正常工作对飞机的安全起飞和运营至关重要。作为发动机的核心部件,涡轮叶片需要在极端的高温、高压和复杂的载荷条件下运行,这要求其在出厂前必须进行严格的质量检测,确保没有铸造缺陷或其他损伤,保证发动机和飞机的安全。叶片的缺陷检测是发动机生产质量控制的关键步骤。在叶片铸造过程中,容易产生气孔、夹砂等缺陷,这可能会严重威胁发动机的结构稳定性,甚至关乎机组人员的生命安全。目前主要的检测方法包括X射线检测、液体渗透检测、涡流检测和磁粉检测等,但这些传统技术效率较低,并且在很大程度上依赖检测员的经验,长时间工作会使工作人员产生视觉疲劳,从而导致误检或漏检。
因此,开发一种智能高效的叶片缺陷检测方法具有重要意义。近年来,随着数据量的增加和以卷积神经网络为代表的深度学习模型在计算机视觉领域的成功应用,基于深度学习的图像识别方法在人脸识别、故障检测和探伤检测等场景得到广泛应用。主流的图像识别网络包括DETR、SSD、YOLOv2/v3/v4等。将图像识别技术应用于叶片缺陷检测可以有效解决依赖人工检查、检测精度低和响应速度慢等问题。目前,利用图像识别技术进行叶片缺陷检测的研究还比较少,这严重制约了检测技术的自动化发展。因此,针对基于图像识别网络的叶片缺陷和损伤检测研究具有重要意义。它可以突破传统检测技术的限制,实现自动化和智能化,有效提高检测效率和精度,为航空发动机的安全提供技术保障。
发明内容
发明目的:本发明的目的是提供基于多尺度DETR的航空发动机叶片缺陷检测方法,能够改善航空发动机叶片缺陷检测过程中位置识别不准确、分类效果差、小目标检测效果差以及检测速度慢这些问题,实现准确、高效的航空发动机叶片缺陷的实时检测。
技术方案:本发明所述的基于多尺度DETR的航空发动机叶片缺陷检测方法,具体包括以下步骤:
S1:采集有缺陷叶片的X射线图像数据集,并对不平衡数据集进行数据增强;
S2:将S1中经过数据增强后的图像数据输入特征提取网络Resnet50中,分别取出Resnet50中block2、block3、block4和block5的四层特征图,所述其中block2和block3提取低维特征,表征目标的轮廓和纹理这些几何结构信息;所述block4和block5提取高维特征,表达图像的语义信息;
S3:将S2中提取到的特征图输入基于卷积通道注意力机制改进的多尺度融合注意力机制模块中,采用多尺度自注意力机制对特征图进行加权融合,得到加权特征图;
S4:将S3中的加权特征图输入多尺度特征融合模块,经过跨尺度特征融合后输出最终特征图;
S5:将S4输出的最终特征图添加位置编码,与目标查询序列一起输入Transformer编码器;
S6:将S5得到的添加了位置编码的特征图和目标查询序列与Transformer进行交互,并利用R-Focal loss计算损失并进行反向传播优化模型,完成整个目标检测过程,目标检测过程通过完整的DETR实现,DETR包括S1-S4中的特征提取网络和S5-S6中的Transformer,采用Transformer的架构来代替CNN使得目标检测网络更好的获取全局信息;
S7:将实际工业场景中获得的缺陷图片输入网络进行检测,得到最终的检测结果。
作为优选,所述S1中X射线图像数据集是通过对叶片进行专用的X摄像机摄像并经过电脑处理过后得到的数据集,所述数据增强的方法分别是Mixup、Mosaic和Mix-Mos方法,缓解数据不平衡以及防止数据过拟合,具体的:
所述Mixup方法通过线性插值或拼接不同图像,生成具有新结构和新概率分布的图像,增加数据集的多样性,假设两张训练图像{x1,x2}和对应的标签{y1,y2},通过Mixup生成的新图像xm和标签ym的计算如下:
xm=λx1+(1-λ)x2 (1)
ym=λy1+(1-λ)y2 (2)
λ是一个在[0,1]之间的随机值,控制两张原图像的混合比例,在λ接近0.5时,新样本包含更丰富的原样本信息,最大限度地增强数据的多样性,提高模型的泛化能力;
所述Mosaic方法通过图像拼接构建全新的训练图像,并维持原图像的完整标签信息,最大限度地增强数据的多样性,为模型提供更丰富的语义信息,提高检测与识别性能;
所述Mix-Mos方法首先采用Mixup方法进行数据增强,随后应用Mosaic方法,通过Mixup获得图像内容的连续性,通过Mosaic获得图像信息的丰富度。
作为优选,所述S3中多尺度融合注意力机制是基于卷积通道注意力机制进行了改进,具体包括以下步骤:
S3.1:通过1×1卷积和上采样将特征图维度扩展到与block3特征图的相同维度(C3,H3,W3),并并沿着通道方向将四个特征图进行拼接,得到的特征图X0,维度记为(C,H,W);
S3.2:将特征图X0经过两层3×3的卷积层,分别记为C1和C2,padding设置为1,得到特征图X1(C,H,W)和X2(C,H,W);
S3.3:按照公式(1)和公式(2)得到融合特征层Y1和Y2:
Y1=C1(X0)+X1(3)
Y2=C2(X1)+Y1(4)
S3.4:对Y1和Y2通过均值池化进行降维,得到的权重W1和W2的维度为(C,1,1);
S3.5:将W1和W2输入FC层,FC层包括两层全连接和最后一层sigmoid激活函数,得到最终的融合权重WF(C,1,1);
S3.6:将融合权重WF与原始特征图X0相乘得到经过多尺度融合注意力机制加权特征图X(C,H,W)。
作为优选,所述S4中多尺度特征提取模块是基于多种池化方式和改进后的空间注意力机制,具体包括以下计算步骤:
S4.1:将S3中得到的加权特征图X(C,H,W)分别进行全局均值池化和全局最大池化得到两个降维之后相同维度P1(2,H,W)的特征图,并将其他通道维度进行凭借,得到特征图P2(2,H,W);
S4.2:将得到的特征图进行反卷积得到维度为P3(2,2H,2W)的特征图,卷积核大小为7×7,滑动步长为2,padding=3;
S4.3:对特征图进行两次卷积得到维度为(1,H,W)的特征图P4和P5,卷积核的大小均为7×7,padding=3,两次卷积的滑动步长分别为1和2,输出通道数为2和1;
S4.4:将融合后的特征图P5通过Sigmoid函数进行线性激活后与X(C,H,W)相乘,得到最终的融合特征X′(C,H,W)。
作为优选,所述S5中位置编码通过正余弦函数进行添加,让数据携带准确的位置信息,公式如下:
其中pos表示特征点在特征图中的序号,dmodel是模型维度,i表示位置编码的维度索引。
作为优选,所述S5中目标查询序列为输入到Transformer解码器中的一组向量,所述目标查询向量为每个预测框提供一个唯一的查询向量,使解码器基于每个查询向量来预测对应框的类别和回归结果,实现框与预测结果的对应匹配,所述查询向量的维度等于编码器输出的特征维度,使查询向量与编码器的全局特征进行交互和匹配,为每个预测框生成对应类别和坐标的预测输出。
作为优选,所述DETR中的Transformer部分由编码器、解码器和预测头组成;
所述编码器由堆叠的多个编码器层组成,其中每个编码器层依次与两个子层连接,一个是多头注意力机制MHA,另一个是位置前馈网络PWFFN,各子层采用残差跳接,并采用层归一化,使子层参数得到充分训练,加快收敛速度,所述MHA解决了自注意机制在编码当前位置信息时会过度关注自身位置的缺陷,通过使用h组不同的注意头对数据进行不同的线性投影,学习不同的查询Q、键K和值V,将不同的Q、K和V的h组并行合并,最后将h组的池输出连接在一起,并通过另一个可学习的线性投影进行变化,产生最终的输出,计算公式如下所示:
MH(Q,K,V)=Concat(head1,head2...headh)WO
whereheadi=Attention(QWi Q,KWi K,VWi V)
其中可学习参数包括和/>
所述解码器由堆叠的N个解码器层组成,每个编码器有三个按顺序连接的子层:掩码多头注意力层masked MHA、MHA和PWFFN,所述掩码多头注意力层除了增加掩码外与编码器块中的MHA相同,掩码表示某些值被屏蔽,以便在参数更新时它们不生效;
所述预测头由两层全连接层组成,用于生成检测输出,第一层全连接层用于框的类别预测,输出框的类别;第二层用于框的坐标回归预测,输出框的中心横坐标、纵坐标、高和宽四个值,解码器的每层注意力机制模块输出一个特征向量,用于表示对应查询向量的相关图像区域,向量与对应的查询向量拼接,并输入到两层全连接,得到对应的类别和坐标,并使用R-Focal loss和SmoothL1Loss进行损失计算;
所述R-Focal loss是基于Focal loss进行改进而提出的,R-Focal loss中控制正负样本权重的部分为:
其中α的取值范围为0-1,通过控制α的值来控制正负样本对于交叉熵损的贡献;
所述R-Focal loss中控制难易分类样本权重的部分为:
其中γ的取值范围大于0;
完整的R-Focal loss计算公式如下:
所述R-Focal loss采用了随机搜索的方式来选择Focal loss的超参数设置,具有更好的泛化性。
作为优选,所述R-Focal loss采用了随机搜索的方式来选择Focal loss的超参数设置,用于解决α和γ的选择困难,具体包括以下步骤:
S6.1:设点α和γ进行随机搜索的范围分别是α=[0.1,0.2,0.3,0.4,0.5]和γ=[1,2,3,4,5];
S6.2:在每个批次训练时随机选取一组α和γ进行loss计算,并记录每组超参数所导致loss减小的比例,比例越大证明此组超参数对loss的贡献更大;
S6.3:每20-30个epoch对表现最差的超参数进行剔除,保留优质的超参数组合;
S6.4:重复S6.3直到筛选出最优的超参数组合进行训练。
作为优选,当数据经过两层全连接得到预测框的种类和坐标后,所述DETR采用匈牙利算法寻找预测框与真实框之间最佳的全局匹配,具体的:
A:将预测框看做二分图的一个节点集合,真实框看做另一个节点集合;
B:计算每个预测框与所有真实框的IoU,作为其匹配度;
C:对每个预测框选择IoU最大的真实框索引;对每个真实框选择IoU最大的预测框索引,根据此生成索引匹配关系并构成二分图的最大匹配;
D:仅计算最大匹配中的预测框与真实框之间的损失,包括类别损失和回归损失;
E:求和所有匹配框之间的损失;
F:重复D和E,进行DETR模型的更新。
作为优选,所述S7中的测试图片不再经过数据增强,仅是将原图输入网络进行测试。
有益效果:
(1)、本申请出了一种新型的数据增强方法,通过结合Mixup和Mosaic方法,提出了Mix-Mos方法可以有效解决工业数据集中样本分布不均衡的问题,使得模型优化过程更加平滑,实验验证提升了1.1%的检测精度;
(2)、本申请提出了一种基于卷积通道注意力机制的多尺度融合注意力模块,可以自适应的学习数据的统计特征并对多个尺度的特征图进行注意力加权,使网络具有更强的泛化能力,提升检测精度约2.3%;
(3)、本申请提出了一种多尺度特征提取模块,实现了高维语义特征和低维表征特征的融合,更好的捕获了多层特征图的结构信息,提升了多尺度目标的检测精度约3.2%;
(4)、本申请提出了一种改进的R-Focal loss,主要是利用随机搜索的方法,对Focal loss的超参数进行优化,进一步加快模型收敛,提升了训练速度10%左右,检测速度40%左右。
附图说明
图1是本申请的总体流程图;
图2是本申请中多尺度融合注意力机制模块计算流程图;
图3是本申请中多尺度特征融合模块计算流程图;
图4是不同模型预测精度对比图;
图5是注意力机制可视化图;
图6是不同模块对预测精度贡献对比图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征以及优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,本发明可以以各种形式实现而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,为本申请的总体流程图,具体包括以下步骤:
S1:采集有缺陷叶片的X射线图像数据集,并对不平衡数据集进行数据增强;
采集存在缺陷的发动机叶片,并通过X摄像机对叶片内部和表面的缺陷进行拍摄,得到不同缺陷的轮廓和特征。由于工业环境中存在铸造缺陷的叶片是少数,因此往往无法收集到足够数量的叶片数据进行训练,这会大大影响数据驱动的神经网络训练效果。因此,我们使用了一些常用的数据增强方法,例如随机裁剪、缩放、亮度增强和对比度调整等。除此之外,本申请对原始图片数据集使用了Mixup和Mosaic数据增强方法,以及融合方法Mix-Mos,这三种方法可以通过简单的操作生成新样本,有效扩充了图像数据集,增加了模型的泛化能力和鲁棒性,具体的:
Mixup方法通过线性插值或拼接不同图像,生成具有新结构和新概率分布的图像,增加数据集的多样性,假设两张训练图像{x1,x2}和对应的标签{y1,y2},通过Mixup生成的新图像xm和标签ym的计算如下:
xm=λx1+(1-λ)x2 (1)
ym=λy1+(1-λ)y2 (2)
λ是一个在[0,1]之间的随机值,控制两张原图像的混合比例,在λ接近0.5时,新样本包含更丰富的原样本信息,最大限度地增强数据的多样性,提高模型的泛化能力;
Mosaic方法通过图像拼接构建全新的训练图像,并维持原图像的完整标签信息,最大限度地增强数据的多样性,为模型提供更丰富的语义信息,提高检测与识别性能;
Mix-Mos方法首先采用Mixup方法进行数据增强,随后应用Mosaic方法,通过Mixup获得图像内容的连续性,通过Mosaic获得图像信息的丰富度。
S2:将S1中经过数据增强后的图像数据输入特征提取网络Resnet50中,Resnet50网络通过引入残差连接有效缓解了深度网络训练困难的问题,使得梯度可以更容易地向后传播,从而实现超神网络的有效训练,Resnet50网络深度共有50层,巨大的参数量使得其具有更强大的特征学习和抽取能力,在目标检测任务中是一种被广泛使用的特征提取网络,在本申请中分别取出Resnet50中block2、block3、block4和block5的四层特征图,其中block2和block3提取低维特征,表征目标的轮廓和纹理这些几何结构信息;block4和block5提取高维特征,表达图像的语义信息;
S3:将S2中提取到的特征图输入基于卷积通道注意力机制改进的多尺度融合注意力机制模块中,采用多尺度自注意力机制对特征图进行加权融合,得到加权特征图;
注意力机制是深度学习的一种有力工具,他可以通过学习对不同位置或不同特征的权重分配,实现对输入信息的动态选择和集中,具体包括以下步骤:
S3.1:通过1×1卷积和上采样将特征图维度扩展到与block3特征图的相同维度(C3,H3,W3),并并沿着通道方向将四个特征图进行拼接,得到的特征图X0,维度记为(C,H,W);
S3.2:将特征图X0经过两层3×3的卷积层,分别记为C1和C2,padding设置为1,得到特征图X1(C,H,W)和X2(C,H,W);
S3.3:按照公式(1)和公式(2)得到融合特征层Y1和Y2:
Y1=C1(X0)+X1(3)
Y2=C2(X1)+Y1(4)
S3.4:对Y1和Y2通过均值池化进行降维,得到的权重W1和W2的维度为(C,1,1);
S3.5:将W1和W2输入FC层,FC层包括两层全连接和最后一层sigmoid激活函数,得到最终的融合权重WF(C,1,1);
S3.6:将融合权重WF与原始特征图X0相乘得到经过多尺度融合注意力机制加权特征图X(C,H,W),融合权重WF通过神经网络学习得到的注意力分配权重,它们可以自适应地调整注意力的分布,实现对输入信息的动态选择,可以更好的对多级特征图的通道进行加权,保留重要的特征,剔除冗余特征。
S4:将S3中的加权特征图输入多尺度特征融合模块,经过跨尺度特征融合后输出最终特征图,由于本申请所使用的特征提取网络Resnet50属于传统CNN结构,因此它在结合低维和高维特征方面存在一定的劣势,为了使得提取到的特征图结合不同空间尺度的特征,让模型具有不同视角的感知能力来更好的进行多目标检测,本申请提出的特征提取模块,它可以融合不同语义级别的特征,实现了从浅入深的特征表示,所提出的特征提取模块网络结构如图3所示,其计算步骤如下:
S4.1:将S3中得到的加权特征图X(C,H,W)分别进行全局均值池化和全局最大池化得到两个降维之后相同维度P1(2,H,W)的特征图,并将其他通道维度进行凭借,得到特征图P2(2,H,W);
S4.2:将得到的特征图进行反卷积得到维度为P3(2,2H,2W)的特征图,卷积核大小为7×7,滑动步长为2,padding=3;
S4.3:对特征图进行两次卷积得到维度为(1,H,W)的特征图P4和P5,卷积核的大小均为7×7,padding=3,两次卷积的滑动步长分别为1和2,输出通道数为2和1;
S4.4:将融合后的特征图P5通过Sigmoid函数进行线性激活后与X(C,H,W)相乘,得到最终的融合特征X′(C,H,W)。
S5:将S4输出的最终特征图添加位置编码,与目标查询序列一起输入Transformer编码器,位置编码通过正余弦函数进行添加,让数据携带准确的位置信息,公式如下:
其中pos表示特征点在特征图中的序号,dmodel是模型维度,i表示位置编码的维度索引;
目标查询序列为输入到Transformer解码器中的一组向量,长度通常设置为100,这代表每张图片的最大检测目标数量,目标查询向量为每个预测框提供一个唯一的查询向量,使解码器基于每个查询向量来预测对应框的类别和回归结果,实现框与预测结果的对应匹配,所述查询向量的维度等于编码器输出的特征维度,使查询向量与编码器的全局特征进行交互和匹配,为每个预测框生成对应类别和坐标的预测输出。
S6:将S5得到的添加了位置编码的特征图和目标查询序列与Transformer进行交互,并利用R-Focal loss计算损失并进行反向传播优化模型,完成整个目标检测过程,目标检测过程通过完整的DETR实现,DETR包括S1-S4中的特征提取网络和S5-S6中的Transformer,采用Transformer的架构来代替CNN使得目标检测网络更好的获取全局信息。
本申请中目标检测网络部分基于DETR网络进行改进,用R-Facol loss替换了传统的交叉熵损失,DETR是近年来提出的一种基于Transformer的目标检测模型,主要由特征提取网络和Transformer组成,本申请所使用的特征提取网络即为Resnet50,DETR的主要创新是将目标检测看做是一个集合预测问题,具体来说:①DETR将图片中所有目标框作为一个整体进行预测,而不是像现有方法生成多个锚框进行逐一预测。这使其可以利用预测框之间的依赖关系进行联合优化,实现更高的精度。②DETR使用目标查询序列作为解码器的输入,每个序列对应一个预测框,并使用匈牙利算法计算二分图匹配损失,最终图像中的每个目标只会得到一个预测框,使得模型可以专注于正确的预测和匹配,从而提高模型训练的效率,总体来说,DETR的Transformer部分由编码器、解码器和预测头组成,具体如下;
编码器由堆叠的多个编码器层组成,其中每个编码器层依次与两个子层连接,一个是多头注意力机制MHA,另一个是位置前馈网络PWFFN,各子层采用残差跳接,并采用层归一化,使子层参数得到充分训练,加快收敛速度,所述MHA解决了自注意机制在编码当前位置信息时会过度关注自身位置的缺陷,通过使用h组不同的注意头对数据进行不同的线性投影,学习不同的查询Q、键K和值V,将不同的Q、K和V的h组并行合并,最后将h组的池输出连接在一起,并通过另一个可学习的线性投影进行变化,产生最终的输出,计算公式如下所示:
MH(Q,K,V)=Concat(head1,head2...headh)WO
whereheadi=Attention(QWi Q,KWi K,VWi V)
其中可学习参数包括和/>
解码器由堆叠的多个解码器层组成,每个解码器有三个按顺序连接的子层:掩码多头注意力层masked MHA、MHA和PWFFN,所述掩码多头注意力层除了增加掩码外与编码器块中的MHA相同,掩码表示某些值被屏蔽,以便在参数更新时它们不生效。在时间序列预测中,对于时间步长t,解码器的输出只需要依赖于时间t之前的输出,因此对解码器的输入采用掩码MHA,得到之前预测的输出信息,相当于记录当前时刻输入之间的信息。
需要指出的是,与传统Transformer不同,DETR的Transformer解码器输入的查询序列是目标查询序列,其用途是为每个预测框提供一个唯一的查询向量,这使得Decoder可以基于每个查询向量生成对应框的预测输出,实现框与输出结果之间的对应匹配。
预测头由两层全连接层组成,用于生成检测输出,第一层全连接层用于框的类别预测,输出框的类别;第二层用于框的坐标回归预测,输出框的中心横坐标、纵坐标、高和宽四个值,解码器的每层注意力机制模块输出一个特征向量,用于表示对应查询向量的相关图像区域,向量与对应的查询向量拼接,并输入到两层全连接,得到对应的类别和坐标,并使用R-Focal loss和SmoothL1Loss进行损失计算。
R-Focal loss是基于Focal loss进行改进而提出的,它可以有效解决工业数据集类别不平衡以及少量类别样本数量过少的问题,其主要思想体现在两个方面:①控制正负样本的权重;②控制容易分类和难分类样本的权重。
R-Focal loss中控制正负样本权重的部分为:
其中α的取值范围为0-1,通过控制α的值来控制正负样本对于交叉熵损的贡献;α一般设置在0.5以下,以平衡正负样本在计算loss时的值,避免负样本数量较多时其损失权重过大,影响正样本识别。
R-Focal loss中控制难易分类样本权重的部分为:
其中γ的取值范围大于0,当γ为0时,R-Focal loss就是传统的交叉熵损失,γ值越大,模型就会更加关注于难分类的样本,但过大也会导致模型忽略易分类样本,从而降低recall值,因此如何选取合适的γ值十分重要。
完整的R-Focal loss计算公式如下:
为了解决传统Focal loss中α和γ选择困难的问题,R-Focal loss采用了随机搜索的方式来选择Focal loss的超参数设置,具有更好的泛化性,具体包括以下步骤:
S6.1:设点α和γ进行随机搜索的范围分别是α=[0.1,0.2,0.3,0.4,0.5]和γ=[1,2,3,4,5];
S6.2:在每个批次训练时随机选取一组α和γ进行loss计算,并记录每组超参数所导致loss减小的比例,比例越大证明此组超参数对loss的贡献更大;
S6.3:每20-30个epoch对表现最差的超参数进行剔除,保留优质的超参数组合;
S6.4:重复S6.3直到筛选出最优的超参数组合进行训练。
当数据经过两层全连接得到预测框的种类和坐标后,所述DETR采用匈牙利算法寻找预测框与真实框之间最佳的全局匹配,不再个预测框匹配真实框,然后进行后处理提出多余框;而是仅考虑真实框与匹配到的预测框之间的损失,其具体做法是:
A:将预测框看做二分图的一个节点集合,真实框看做另一个节点集合;
B:计算每个预测框与所有真实框的IoU,作为其匹配度;
C:对每个预测框选择IoU最大的真实框索引;对每个真实框选择IoU最大的预测框索引,根据此生成索引匹配关系并构成二分图的最大匹配;
D:仅计算最大匹配中的预测框与真实框之间的损失,包括类别损失和回归损失;
E:求和所有匹配框之间的损失;
F:重复D和E,进行DETR模型的更新。
S7:将实际工业场景中获得的缺陷图片输入网络进行检测,得到最终的检测结果。
为了验证本申请,在航空发动机X射线图像数据集上进行了大量的实验,以进行发动机叶片多种缺陷的检测。
本申请与大量现有的模型进行了检测精度(AP50)的对比,如图4所示,可以看出,在所有模型对比中本发明的AP50最高(94.2),超越了第二名YOLOX(87.3)6.9个点,证明了本发明的优越性。
图5中采用可视化注意力机制的方法,展示了模型在识别图像时注意力机制所关注的图像位置,体现了DETR模型对复杂场景的适应性以及利用Transformer全局建模能力在目标检测方面的优势。
图6展示了本发明所提出的数据增强方法、多尺度融合注意力机制模块、特征提取模块和R-Focal loss对于模型精度和Recall值的提升,可以看出对于模型精度来说,特征提取模块将模型的AP50提高了3.7,有效的提升了模型的检测精度;对于Recall值来说,R-Focal loss对于模型的提升更为明显,主要是由于R-Focal loss可以更好的匹配超参数,从而更有针对性的对正负样本和难易分类样本进行有效调优。综上,本发明可以有效提升航空发动机叶片缺陷检测领域的检测精度和效率,并实现了端到端检测,更适用于工业部署。
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。
Claims (10)
1.基于多尺度DETR的航空发动机叶片缺陷检测方法,其特征在于:具体包括以下步骤:
S1:采集有缺陷叶片的X射线图像数据集,并对不平衡数据集进行数据增强;
S2:将S1中经过数据增强后的图像数据输入特征提取网络Resnet50中,分别取出Resnet50中block2、block3、block4和block5的四层特征图,所述其中block2和block3提取低维特征,表征目标的轮廓和纹理这些几何结构信息;所述block4和block5提取高维特征,表达图像的语义信息;
S3:将S2中提取到的特征图输入基于卷积通道注意力机制改进的多尺度融合注意力机制模块中,采用多尺度自注意力机制对特征图进行加权融合,得到加权特征图;
S4:将S3中的加权特征图输入多尺度特征融合模块,经过跨尺度特征融合后输出最终特征图;
S5:将S4输出的最终特征图添加位置编码,与目标查询序列一起输入Transformer编码器;
S6:将S5得到的添加了位置编码的特征图和目标查询序列与Transformer进行交互,并利用R-Focal loss计算损失并进行反向传播优化模型,完成整个目标检测过程,目标检测过程通过完整的DETR实现,DETR包括S1-S4中的特征提取网络和S5-S6中的Transformer,采用Transformer的架构来代替CNN使得目标检测网络更好的获取全局信息;
S7:将实际工业场景中获得的缺陷图片输入网络进行检测,得到最终的检测结果。
2.根据权利要求1所述的基于多尺度DETR的航空发动机叶片缺陷检测方法,其特征在于:所述S1中X射线图像数据集是通过对叶片进行专用的X摄像机摄像并经过电脑处理过后得到的数据集,所述数据增强的方法分别是Mixup、Mosaic和Mix-Mos方法,缓解数据不平衡以及防止数据过拟合,具体的:
所述Mixup方法通过线性插值或拼接不同图像,生成具有新结构和新概率分布的图像,增加数据集的多样性,假设两张训练图像{x1,x2}和对应的标签{y1,y2},通过Mixup生成的新图像xm和标签ym的计算如下:
xm=λx1+(1-λ)x2 (1)
ym=λy1+(1-λ)y2 (2)
λ是一个在[0,1]之间的随机值,控制两张原图像的混合比例,在λ接近0.5时,新样本包含更丰富的原样本信息,最大限度地增强数据的多样性,提高模型的泛化能力;
所述Mosaic方法通过图像拼接构建全新的训练图像,并维持原图像的完整标签信息,最大限度地增强数据的多样性,为模型提供更丰富的语义信息,提高检测与识别性能;
所述Mix-Mos方法首先采用Mixup方法进行数据增强,随后应用Mosaic方法,通过Mixup获得图像内容的连续性,通过Mosaic获得图像信息的丰富度。
3.根据权利要求2所述的基于多尺度DETR的航空发动机叶片缺陷检测方法,其特征在于:所述S3中多尺度融合注意力机制是基于卷积通道注意力机制进行了改进,具体包括以下步骤:
S3.1:通过1×1卷积和上采样将特征图维度扩展到与block3特征图的相同维度(C3,H3,W3),并并沿着通道方向将四个特征图进行拼接,得到的特征图X0,维度记为(C,H,W);
S3.2:将特征图X0经过两层3×3的卷积层,分别记为C1和C2,padding设置为1,得到特征图X1(C,H,W)和X2(C,H,W);
S3.3:按照公式(1)和公式(2)得到融合特征层Y1和Y2:
Y1=C1(X0)+X1(3)
Y2=C2(X1)+Y1(4)
S3.4:对Y1和Y2通过均值池化进行降维,得到的权重W1和W2的维度为(C,1,1);
S3.5:将W1和W2输入FC层,FC层包括两层全连接和最后一层sigmoid激活函数,得到最终的融合权重WF(C,1,1);
S3.6:将融合权重WF与原始特征图X0相乘得到经过多尺度融合注意力机制加权特征图X(C,H,W)。
4.根据权利要求1所述的基于多尺度DETR的航空发动机叶片缺陷检测方法,其特征在于:所述S4中多尺度特征提取模块是基于多种池化方式和改进后的空间注意力机制,具体包括以下计算步骤:
S4.1:将S3中得到的加权特征图X(C,H,W)分别进行全局均值池化和全局最大池化得到两个降维之后相同维度P1(2,H,W)的特征图,并将其他通道维度进行凭借,得到特征图P2(2,H,W);
S4.2:将得到的特征图进行反卷积得到维度为P3(2,2H,2W)的特征图,卷积核大小为7×7,滑动步长为2,padding=3;
S4.3:对特征图进行两次卷积得到维度为(1,H,W)的特征图P4和P5,卷积核的大小均为7×7,padding=3,两次卷积的滑动步长分别为1和2,输出通道数为2和1;
S4.4:将融合后的特征图P5通过Sigmoid函数进行线性激活后与X(C,H,W)相乘,得到最终的融合特征X′(C,H,W)。
5.根据权利要求1所述的基于多尺度DETR的航空发动机叶片缺陷检测方法,其特征在于:所述S5中位置编码通过正余弦函数进行添加,让数据携带准确的位置信息,公式如下:
其中pos表示特征点在特征图中的序号,dmodel是模型维度,i表示位置编码的维度索引。
6.根据权利要求1所述的基于多尺度DETR的航空发动机叶片缺陷检测方法,其特征在于:所述S5中目标查询序列为输入到Transformer解码器中的一组向量,所述目标查询向量为每个预测框提供一个唯一的查询向量,使解码器基于每个查询向量来预测对应框的类别和回归结果,实现框与预测结果的对应匹配,所述查询向量的维度等于编码器输出的特征维度,使查询向量与编码器的全局特征进行交互和匹配,为每个预测框生成对应类别和坐标的预测输出。
7.根据权利要求1所述的基于多尺度DETR的航空发动机叶片缺陷检测方法,其特征在于:所述DETR中的Transformer部分由编码器、解码器和预测头组成;
所述编码器由堆叠的多个编码器层组成,其中每个编码器层依次与两个子层连接,一个是多头注意力机制MHA,另一个是位置前馈网络PWFFN,各子层采用残差跳接,并采用层归一化,使子层参数得到充分训练,加快收敛速度,所述MHA解决了自注意机制在编码当前位置信息时会过度关注自身位置的缺陷,通过使用h组不同的注意头对数据进行不同的线性投影,学习不同的查询Q、键K和值V,将不同的Q、K和V的h组并行合并,最后将h组的池输出连接在一起,并通过另一个可学习的线性投影WO进行变化,其维度为O,产生最终的输出,计算公式如下所示:
MH(Q,K,V)=Concat(head1,head2...headh)WO
whereheadi=Attention(QWi Q,KWi K,VWi V)
其中可学习参数包括和/>
所述解码器由堆叠的多个解码器层组成,每个解码器有三个按顺序连接的子层:掩码多头注意力层masked MHA、MHA和PWFFN,所述掩码多头注意力层除了增加掩码外与编码器块中的MHA相同,掩码表示某些值被屏蔽,以便在参数更新时它们不生效;
所述预测头由两层全连接层组成,用于生成检测输出,第一层全连接层用于框的类别预测,输出框的类别;第二层用于框的坐标回归预测,输出框的中心横坐标、纵坐标、高和宽四个值,解码器的每层注意力机制模块输出一个特征向量,用于表示对应查询向量的相关图像区域,向量与对应的查询向量拼接,并输入到两层全连接,得到对应的类别和坐标,并使用R-Focal loss和SmoothL1Loss进行损失计算;
所述R-Focal loss是基于Focal loss进行改进而提出的,R-Focal loss中控制正负样本权重的部分为:
其中α的取值范围为0-1,通过控制α的值来控制正负样本对于交叉熵损的贡献;
所述R-Focal loss中控制难易分类样本权重的部分为:
其中γ的取值范围大于0;
完整的R-Focal loss计算公式如下:
所述R-Focal loss采用了随机搜索的方式来选择Focal loss的超参数设置,具有更好的泛化性。
8.根据权利要求7所述的基于多尺度DETR的航空发动机叶片缺陷检测方法,其特征在于:所述R-Focal loss采用了随机搜索的方式来选择Focal loss的超参数设置,用于解决α和γ的选择困难,具体包括以下步骤:
S6.1:设点α和γ进行随机搜索的范围分别是α=[0.1,0.2,0.3,0.4,0.5]和γ=[1,2,3,4,5];
S6.2:在每个批次训练时随机选取一组α和γ进行loss计算,并记录每组超参数所导致loss减小的比例,比例越大证明此组超参数对loss的贡献更大;
S6.3:每20-30个epoch对表现最差的超参数进行剔除,保留优质的超参数组合;
S6.4:重复S6.3直到筛选出最优的超参数组合进行训练。
9.根据权利要求7所述的基于多尺度DETR的航空发动机叶片缺陷检测方法,其特征在于:当数据经过两层全连接得到预测框的种类和坐标后,所述DETR采用匈牙利算法寻找预测框与真实框之间最佳的全局匹配,具体的:
A:将预测框看做二分图的一个节点集合,真实框看做另一个节点集合;
B:计算每个预测框与所有真实框的IoU,作为其匹配度;
C:对每个预测框选择IoU最大的真实框索引;对每个真实框选择IoU最大的预测框索引,根据此生成索引匹配关系并构成二分图的最大匹配;
D:仅计算最大匹配中的预测框与真实框之间的损失,包括类别损失和回归损失;
E:求和所有匹配框之间的损失;
F:重复D和E,进行DETR模型的更新。
10.根据权利要求1所述的基于多尺度DETR的航空发动机叶片缺陷检测方法,其特征在于:所述S7中的测试图片不再经过数据增强,仅是将原图输入网络进行测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310879506.3A CN117173449A (zh) | 2023-07-17 | 2023-07-17 | 基于多尺度detr的航空发动机叶片缺陷检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310879506.3A CN117173449A (zh) | 2023-07-17 | 2023-07-17 | 基于多尺度detr的航空发动机叶片缺陷检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117173449A true CN117173449A (zh) | 2023-12-05 |
Family
ID=88930659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310879506.3A Pending CN117173449A (zh) | 2023-07-17 | 2023-07-17 | 基于多尺度detr的航空发动机叶片缺陷检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117173449A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975176A (zh) * | 2024-04-02 | 2024-05-03 | 山东省计算中心(国家超级计算济南中心) | 一种基于工业动态视觉自我提示的钢铁缺陷检测方法 |
-
2023
- 2023-07-17 CN CN202310879506.3A patent/CN117173449A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975176A (zh) * | 2024-04-02 | 2024-05-03 | 山东省计算中心(国家超级计算济南中心) | 一种基于工业动态视觉自我提示的钢铁缺陷检测方法 |
CN117975176B (zh) * | 2024-04-02 | 2024-06-04 | 山东省计算中心(国家超级计算济南中心) | 一种基于工业动态视觉自我提示的钢铁缺陷检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN112348036A (zh) | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 | |
CN112101430A (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN108805151B (zh) | 一种基于深度相似性网络的图像分类方法 | |
CN109376787A (zh) | 流形学习网络及基于其的计算机视觉图像集分类方法 | |
CN117173449A (zh) | 基于多尺度detr的航空发动机叶片缺陷检测方法 | |
CN115439694A (zh) | 一种基于深度学习的高精度点云补全方法及装置 | |
CN114882234A (zh) | 多尺度轻量级密集连目标检测网络的构建方法 | |
CN112733756A (zh) | 一种基于w散度对抗网络的遥感图像语义分割方法 | |
CN114972794A (zh) | 基于多视图Pooling Transformer的三维对象识别方法 | |
Sun et al. | YOLO based bridge surface defect detection using decoupled prediction | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN116844004A (zh) | 一种面向数字孪生场景的点云自动语义化建模方法 | |
CN116453108A (zh) | 基于非对称并行Transformer网络的三维点云理解处理方法 | |
CN116363552A (zh) | 一种应用于边缘设备的实时目标检测方法 | |
Ruan et al. | Research on Face Recognition Based on Improved Dropout Algorithm | |
CN115082726A (zh) | 一种基于PointNet优化的座便器陶瓷素坯产品分类方法 | |
ZiWen et al. | Multi-objective Neural Architecture Search for Efficient and Fast Semantic Segmentation on Edge | |
Li et al. | Building Manufacturing Deep Learning Models with Minimal and Imbalanced Training Data Using Domain Adaptation and Data Augmentation | |
Liu et al. | Remote sensing image object detection based on improved SSD | |
CN112364892B (zh) | 一种基于动态模型的图像识别方法及装置 | |
Nguyen et al. | Improve object detection performance with efficient task-alignment module | |
Khot | Image analysis using convolutional neural network to detect bird species | |
Xiong et al. | Aircraft detection based on improved Vision Transformer | |
Zhong et al. | Research on Rapid Gas Classification and Incremental Learning Based on Sensor Array |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |