CN117191821B

CN117191821B - 一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法

Info

Publication number: CN117191821B
Application number: CN202311453576.9A
Authority: CN
Inventors: 李广良; 庞少鹏; 钟成卫; 李正平
Original assignee: Shandong Yuying Optical Instrument Co ltd
Current assignee: Shandong Yuying Optical Instrument Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-02-06
Anticipated expiration: 2043-11-03
Also published as: CN117191821A

Abstract

本发明涉及数字图像处理技术领域，具体公开了一种基于Deformable‑DAB‑DETR的高透光菲涅尔透镜实时检测方法，包括：采用ResNet50‑v2作为主干网络对预处理后的图像进行特征提取，选取不同尺度特征序列将其输入至网络的编码器中；编码器在2‑stage模式下对特征序列做增强处理，通过正余弦位置编码并利用权重矩阵生成增强后的特征序列，将输出结果输入到解码器中；通过可变形的自注意力机制与交叉注意力机制在每层输出四维预测框的偏移量并矫正其位置与大小；采用匈牙利匹配算法进行二分匹配得到高透光菲涅尔透镜训练模型，根据获得的训练模型对待检测的高透光菲涅尔透镜进行测试。本发明将Transformer架构应用于目标检测领域并结合多头交叉注意力机制实现对高透光菲涅尔透镜实时检测。

Description

一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法

技术领域

本发明涉及深度学习和数字图像处理技术领域，具体涉及一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法。

背景技术

本发明背景技术中公开的信息仅仅旨在增加对本发明的总体背景的理解，而不必然被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。

高透光菲涅尔透镜在太阳能发电、投影仪、显示器和安防等领域广泛应用。目前在菲涅尔透镜自动化生产过程中，对菲涅尔透镜进行实时检测就显得尤为重要，即能够快速精准地在高透光菲涅尔透镜图像中框选出缺陷的具体位置（如黑点、毛絮、划痕等）并对其进行分类。然而目前对高透光菲涅尔透镜缺陷小目标的检测效率低，不够精准，影响了菲涅尔透镜的产能。

由于菲涅尔透镜是由注塑机生产并通过激光切割机将其从亚克力板中切割形成的一面光滑一面粗糙的刻有同心螺纹的一种透镜，本身具有反光的特性，且形状不规则，因此不易拍摄出高质量的菲涅尔透镜图像，这对菲涅尔透镜数据集的制作造成了不小的麻烦；并且透镜表面的缺陷均为小目标，因此需要稳定且强大的目标检测算法，使用传统的图像处理算法并人工提取图像特征已无法满足对高透光菲涅尔透镜实时检测的要求。

随着深度学习技术的发展以及大网络模型的应用，目标检测技术诞生了一系列的方法，代表性的包括基于单阶段的目标检测技术：YOLO、SSD、RetinaNet；基于双阶段的目标检测技术：RCNN、Fast RCNN、Faster RCNN、Cascade RCNN等。然而无论是单阶段还是双阶段，这些目标检测技术都需要人工制定anchor先验框和NMS（非极大值抑制技术）对预测框进行筛选，因此不能算作是端到端的目标检测算法。

近期随着DETR算法的提出，将Transformer架构应用于视觉领域成为一种新的尝试，该方法不需要NMS等后处理技术，依靠Transformer中的编码器和解码器对特征提取后的图像进行特征增强与学习，训练出较好的网络模型用于实际检测中。然而目前的DETR算法还不够成熟，计算复杂度高，收敛速度缓慢，依旧无法部署在实时的目标检测应用中。

发明内容

针对以上提出的问题，本发明结合DAB-DETR（Dynamic Anchor Boxes）与可变形的多头注意力机制提出了基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法，用于检测覆盖在高透光菲涅尔透镜表面的各种缺陷，实现实时的菲涅尔透镜的目标检测。

为了达到以上目的，本发明采取以下技术方案：

一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法，包括以下步骤：

S1：制作高透光菲涅尔透镜数据集，选用适配的工业相机在背光环境下进行拍摄，并对拍摄的图像进行图像增强处理；

S2：图像特征提取：采用ResNet50-v2作为主干网络对预处理后的图像进行多尺度特征提取，选取不同尺度特征序列输入至网络的编码器中；

S3：图像特征增强：编码器在2-stage模式下对特征序列做特征增强处理，通过正余弦位置编码并利用权重矩阵生成增强后的特征序列，将输出结果输入到解码器中；

S4：图像特征学习：通过可变形的自注意力机制与交叉注意力机制，在每层输出包括将宽和高加入到位置先验中的四维预测框的偏移量，并矫正其位置与大小；

S5：图像特征匹配：采用匈牙利匹配算法进行二分匹配得到高透光菲涅尔透镜训练模型，根据获得的训练模型对待检测的高透光菲涅尔透镜进行测试。

进一步的，在步骤S1中，使用包括翻转、裁切、抖动的几何变换和包括高斯噪声、直方图均衡化的像素变换方式对拍摄的图像进行图像增强处理。

进一步的，在步骤S2中，图像数据的所述预处理具体包括以下步骤：

采用包括缩放、平移、旋转额几何变换方法以及加入包括高斯噪声、直方图均衡化的像素变换方法对小样本进行扩充操作；

引用YOLO v5中的Mosaic数据增强对高透光菲涅尔透镜数据集做进一步增强，提高模型的泛化能力。

进一步的，在步骤S2中，所述多尺度特征图提取包括以下步骤：

由主干网络ResNet50-v2选取适用于高分辨率图像的第C3、C4和C5层的特征图；

将S23中选取的特征图输入至Transformer模型的编码器中；其中，所述Transformer模型的编码器包括若干个层，每一层均由多头自注意力模块和前馈网络模块组成，每层均会进行残差连接和归一化。

进一步的，在步骤S3中，所述特征增强处理的具体步骤包括：

将输入的特征图使用/>的卷积将其压缩至 /> ，得到新的特征图，然后将压缩后的特征图/>展平得到特征序列/>；

对位置信息进行正余弦位置编码，公式如下所示：

；

其中为温度参数，设定值为20（NLP中一般设为1000，CV中设定为20效果更好），下标/> 和/>表示编码向量中的指标；

将与PE相加，获得特征序列/>，再通过三个权重矩阵/>、/>和/>分别转化为Query向量、Key向量和Value向量，点积Query向量和Key向量得到权重矩阵，权重矩阵乘以Value向量得到多头注意力输出向量，特征序列表示为：

；

其中，为注意力头的长度，/>为归一化指数函数；

所述前馈网络模块包含两个线性层、一个非线性激活函数和一个解决过拟合的dropout，其中dropout在每个训练批次中，通过忽略一半隐层节点从而减少网络参数，具体计算过程为：

；

其中，和/>是两个线性层的参数矩阵，/>和/>为线性层的偏置参数，偏置参数的设定按照正态分布进行随机初始化；

上述计算的输出结果经过残差连接和归一化输出具有长距离依赖的特征序列x。

进一步的，在步骤S4中，所述特征学习的具体步骤包括：

将宽和高加入到位置先验中与anchor box的中心点x，y组成可学习的四维位置编码，并与内容编码组成对象查询；

将特征序列与可学习的对象查询编码输入到Transformer模型的解码器中获得每个对象查询的特征向量y，其中，解码器包括若干层，每一层包含多头自注意力模块、可变形多头交叉注意力模块、前馈神经网络模块、残差连接模块和归一化模块，每层均会进行残差连接和归一化；

其中，所述可变形多头注意力模块包括多头自注意力模块和多头交叉注意力模块，对输入的特征向量矩阵进行线性变换生成Q、K、V三个矩阵，对于每个Q，仅在全局位置中采样部分位置的Key，并且Value也是基于这些位置进行采样插值得到的，最后将该部分局部&稀疏的注意力权重施加在对应的Value上，得到多头注意力输出向量O；

将特征序列O经过残差连接和归一化后输入前馈神经网络，最终解码器得到每个对象查询对应的特征向量y；

上述步骤所述的残差连接以及归一化的计算方法与编码器中计算方法相同；

解码器中可变形多头注意力机制公式如下：

；

其中，表示由向量/>线性变换得到的目标查询，/>代表多尺度特征，/>代表第L层的特征，/>是对应查询的索引，/>是键的索引，/>表示有几个注意力头部，/>是对注意力施加在值后的结果进行线性变换从而得到不同头部的输出结果，/>用于将/>变换为值，/>代表归一化后/>的位置，后者代表采样集合点相对于参考点的位置偏移。

进一步的，在步骤S5中，所述特征匹配包括：

所述特征向量输入到MLP预测头得到预测的高透光菲涅尔透镜ROI（感兴趣）区域，MLP预测头中共有两个前馈神经网络，其中一个前馈神经网络使用匈牙利算法预测最终的输出标签，另一个前馈神经网络输出N个预测框，其中N为之前解码器输入的可学习对象查询编码的个数，其数量通常比高透光菲涅尔透镜中实际缺陷的数量大很多，因此构造了一个新类φ，表示没有目标物体的背景类，便得到两个等容量的集合。

进一步的，在步骤S5中，包括对训练模型进行检测，其检测的具体步骤包括：首先，在背光环境下，通过机械臂加持待检测的高透光菲涅尔透镜进行翻转平移，然后，模拟人工在强光下多角度对高透光菲涅尔透镜检测的状态，采用视频拍摄的方式进行实时检测，其检测结果以截取图片的方式进行展示。

进一步的，还包括：

S6：对训练模型进行检测；其具体检测步骤为：在背光环境下，通过机械臂加持待检测的高透光菲涅尔透镜进行翻转平移；

模拟人工在强光下多角度对高透光菲涅尔透镜检测的状态，采用视频拍摄的方式进行实时检测，其检测结果以截取图片的方式进行展示。

本发明的有益效果：本发明采用ResNet50-v2通过提取特征图上每个点的位置编码输入到Transformer编码器进行特征增强得到特征序列；将所述特征序列与可学习的对象查询编码输入到Transformer解码器获得每个对象查询的特征向量；将所述特征向量输入到MLP预测头对高透光菲涅尔透镜小目标缺陷位置与种类进行预测。实现基于深度学习框架Transformer的Deformable-DAB-DETR对高透光的菲涅尔透镜进行实时监测，能够解决已有的基于YOLO等检测方法具有NMS后处理手动调参的麻烦，简化模型的结构；能够有效解决DETR目标检测计算复杂度高的问题，模型易于达到收敛状态。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例提供的一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法的基本流程示意图；

图2为本发明一个实施例提供的一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法的数据集示意图；

图3为本发明一个实施例提供的一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法的网络结构图；

图4为本发明一个实施例提供的一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法的ResNet50-v2的网络结构图，其中为输入特征向量，/>为输出特征向量；

图5为本发明一个实施例提供的一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法的Transformer编码器的结构示意图；

图6为本发明一个实施例提供的一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法的Transformer解码器的结构示意图；

图7为本发明一个实施例提供的一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法的输出结果示意图。

关于附图，有以下几个问题：

具体实施方式

下面结合具体实施例和附图对本发明作进一步说明。

参照图1，为本发明流程，提供了一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法，包括以下步骤：

S1，制作高透光菲涅尔透镜数据集，数据集参照图2，选用适配的工业相机在背光环境下进行拍摄，并对拍摄的图像进行图像增强处理；

更进一步的，使用包括翻转、裁切、抖动的几何变换和包括高斯噪声、直方图均衡化的像素变换方式对拍摄的图像进行图像增强处理。

S2：通过ResNet50-v2提取高透光菲涅尔透镜特征图转换为特征序列；

更进一步的，目标检测模型的整体结构如图3所示，首先使用ResNet50-v2替换原本DETR中的CNN模块来提取输入图像的特征，ResNet50-v2的网络结构如图4所示，ResNet50-v2的输入是高透光菲涅尔透镜RGB彩色图像X＝[H,W,3]，其中H为图像的高度信息，W为图像的宽度信息，3为图像的通道数，ResNet50-v2与原始CNN的不同在于该结构先执行层归一化（BN）和激活函数（RELU）计算后再执行卷积操作，将原始注意力后的RELU计算放入了残差结构的内部。最后得到特征图，其中C的典型值为96。

S3：通过Transformer中的Encoder对特征序列位置编码进行特征增强；

更进一步的，其中Transformer中的Encoder有3层，每一层都由可变形多头自注意力模块和前馈网络模块组成，每层均会进行残差连接和归一化；

更进一步的，如图5中的Encoder部分所示，Transformer编码器操作过程为：

S31：输入的特征图使用/>的卷积将其压缩至/>，得到新的特征图/>，然后将压缩后的特征图/>展平得到特征序列/>；

S32：对位置信息进行正余弦位置编码，公式如下所示：

；

其中为温度参数，设定值为20（NLP中一般设为1000，CV中设定为20效果更好），下标/>和/>表示编码向量中的指标，D表示特征图的维度；

S33：将与PE相加，获得特征序列/>，再通过三个权重矩阵/>、/>和/>分别转化为Query向量、Key向量和Value向量，点积Query向量和Key向量得到权重矩阵，权重矩阵乘以Value向量得到多头注意力输出向量，特征序列表示为：

；

其中，为Attention头的长度，/>为归一化指数函数；

前馈网络模块包含两个线性层、一个非线性激活函数和一个dropout（解决过拟合），具体计算过程为：

；

经过残差连接和归一化输出具有长距离依赖的特征序列x。

S4：通过Transformer中的解码器对特征序列目标查询进行特征学习；

更进一步的，其中Transformer解码器有3层，其中每一层包含多头自注意力模块、可变形多头交叉注意力模块、前馈神经网络模块、残差连接模块和归一化模块，每层均会进行残差连接和归一化。

更进一步的，如图6为Transformer解码器的结构示意图，解码器操作过程为：

S41：对输入的特征向量矩阵进行线性变换生成Query、Key、Value三个矩阵，对于每个Query，仅在全局位置中采样部分位置的Key，并且Value也是基于这些位置进行采样插值得到的，最后将这个局部&稀疏的注意力权重施加在对应的Value上，得到多头注意力输出向量O；

S42：将特征序列O经过残差连接和归一化后输入前馈神经网络，最终解码器得到每个对象查询对应的特征向量y；

S43：上述步骤所述的残差连接以及归一化的计算方法与编码器中计算方法相同；

更进一步的，Decoder中可变形多头注意力机制公式如下：

；

S5：通过匈牙利匹配算法进行二分匹配得到高透光菲涅尔透镜训练模型；

更进一步的，采用匈牙利算法对 N个预测框以及数据集标注的真实框进行最优二部图匹配，即对预测集合和真实集合的元素进行一一对应，使得匹配损失最小，最后根据匹配的结果计算损失来对模型进行优化。优化方法如下：

S51：将预测结果看作是一个长度为N的集合：

；

同时将数据集标注的真实框也视作一个序列：

；

其中表示该目标所属的真实类别，/>是四维向量，包含了标注预测框的中心点坐标和宽高，接下来采用匈牙利算法作为求解算法，其中最小匹配策略定义为：

；

其中表示计算数据集标注的真实框和索引为/>的预测框之间匹配的损失，包含分类损失以及预测框和真实框之间的损失。对于索引为/>的预测，定义表示其属于/>的概率，定义/>为预测框，/>表示没有目标物体的背景类，于是：

；

S52：损失函数计算为公式为：

；

S53：使用进行反向传播即可优化神经网络模型。

更进一步的，修改模型训练的参数，包括训练，验证样本数据文件路径、epoch训练迭代此数、学习率以及优化器类别等。可学习位置编码数量N设置为4，包含三种缺陷和背景类，epoch设置为300轮，优化器使用SGD，动量设置为0.9，学习率设置为，其中初始学习率设置为/>，权重衰减设置为0.0005。参数设置完成后进行训练，直至收敛。训练收敛的模型即可用于高透光菲涅尔透镜实时检测。

S6：用训练好的模型对高透光菲涅尔透镜实时检测；

更进一步的，在背光环境下，通过机械臂加持待检测的高透光菲涅尔透镜进行翻转平移，模拟人工在强光下多角度对高透光菲涅尔透镜检测的状态，采用视频拍摄的方式进行实时检测，图7为抽帧截取高透光菲涅尔透镜检测结果示意图。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同、相似部分互相参见即可。

本发明的说明书和权利要求书及上述附图中的术语“上”、“下”、“外侧”“内侧”等如果存在是用于区别位置上的相对关系，而不必给予定性。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法，其特征在于：包括以下步骤：

S5：图像特征匹配：采用匈牙利匹配算法进行二分匹配得到高透光菲涅尔透镜训练模型，根据获得的训练模型对待检测的高透光菲涅尔透镜进行测试；

在步骤S2中，图像数据的所述预处理具体包括以下步骤：

采用包括缩放、平移、旋转的几何变换方法以及加入包括高斯噪声、直方图均衡化的像素变换方法对小样本进行扩充操作；

引用YOLO v5中的Mosaic数据增强对高透光菲涅尔透镜数据集做进一步增强，提高模型的泛化能力；

在步骤S2中，所述多尺度特征图提取包括以下步骤：

将S23中选取的特征图输入至Transformer模型的编码器中；其中，所述Transformer模型的编码器包括若干个层，每一层均由多头自注意力模块和前馈网络模块组成，每层均会进行残差连接和归一化；

在步骤S3中，所述特征增强处理的具体步骤包括：将输入的特征图使用/>的卷积将其压缩至/>，得到新的特征图/>，然后将压缩后的特征图/>展平得到特征序列/>；对位置信息进行正余弦位置编码，公式如下所示：；其中/>为温度参数，下标/>和/>表示编码向量中的指标；D表示特征图的维度；将/>与PE相加，获得特征序列/>，再通过三个权重矩阵/>、/>和/>分别转化为Query向量、Key向量和Value向量，点积Query向量和Key向量得到权重矩阵，权重矩阵乘以Value向量得到多头注意力输出向量，特征序列表示为：/>；其中，/>为注意力头的长度，/>为归一化指数函数；所述前馈网络模块包含两个线性层、一个非线性激活函数和一个解决过拟合的dropout，其中dropout在每个训练批次中，通过忽略一半隐层节点从而减少网络参数，具体计算过程为：/>；其中，/>和/>是两个线性层的参数矩阵，/>和/>为线性层的偏置参数；上述计算的输出结果经过残差连接和归一化输出具有长距离依赖的特征序列/>；在步骤S4中，所述特征学习的具体步骤包括：

其中，所述可变形多头注意力模块包括多头自注意力模块和多头交叉注意力模块，对输入的特征向量矩阵进行线性变换生成Query、Key、Value三个矩阵，对于每个Query，仅在全局位置中采样部分位置的Key，并且Value也是基于这些位置进行采样插值得到的，最后将该部分位置&稀疏的注意力权重施加在对应的Value上，得到多头注意力输出向量O；

解码器中可变形多头注意力机制公式如下：；其中，/>表示由向量/>线性变换得到的目标查询，/>代表多尺度特征，/>代表第L层的特征，/>是对应查询的索引，/>是键的索引，/>表示有几个注意力头部，/>是对注意力施加在值后的结果进行线性变换从而得到不同头部的输出结果，/>用于将/>变换为值，/>代表归一化后/>的位置，后者代表采样集合点相对于参考点的位置偏移；在步骤S5中，所述特征匹配包括：

所述特征向量输入到MLP预测头得到预测的高透光菲涅尔透镜ROI区域，MLP预测头中共有两个前馈神经网络，其中一个前馈神经网络使用匈牙利算法预测最终的输出标签，另一个前馈神经网络输出N个预测框，其中N为之前解码器输入的可学习对象查询编码的个数，构造了一个新类，表示没有目标物体的背景类，便得到两个等容量的集合；具体是通过以下方法实现的：采用匈牙利算法对 N个预测框以及数据集标注的真实框进行最优二部图匹配，即对预测集合和真实集合的元素进行一一对应，使得匹配损失最小，最后根据匹配的结果计算损失来对模型进行优化，优化方法如下：S51：将预测结果看作是一个长度为N的集合，/>；同时将数据集标注的真实框也视作一个序列/>，；其中/>表示该目标所属的真实类别，/>是四维向量，包含了标注预测框的中心点坐标和宽高，接下来采用匈牙利算法作为求解算法，其中最小匹配策略定义为：；其中/>表示计算数据集标注的真实框和索引为/>的预测框之间匹配的损失，包含分类损失以及预测框和真实框之间的损失；对于索引为/>的预测，定义/>表示其属于/>的概率，定义/>为预测框，/>表示没有目标物体的背景类，于是/>：；S52：损失函数计算为公式为：/>；S53：使用/>进行反向传播即可优化神经网络模型。

2.根据权利要求1所述基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法，其特征在于：

在步骤S1中，使用几何变换与像素变换方式对拍摄的图像进行图像增强处理。

3.根据权利要求1所述基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法，其特征在于：

还包括以下步骤：

S6：对训练模型进行检测，其检测的具体步骤包括：

在背光环境下，通过机械臂加持待检测的高透光菲涅尔透镜进行翻转平移；

模拟人工在强光下多角度对高透光菲涅尔透镜检测的状态，采用视频拍摄方式进行实时检测，其检测结果以截取图片的方式进行展示。