CN116343144A

CN116343144A - 一种融合视觉感知自适应去雾的实时目标检测方法

Info

Publication number: CN116343144A
Application number: CN202310590286.2A
Authority: CN
Inventors: 袁理; 杨晟杰; 吴心如; 沈佳忱
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-06-27
Anticipated expiration: 2043-05-24
Also published as: CN116343144B

Abstract

本发明提出了一种融合视觉感知自适应去雾的实时目标检测方法，属于计算机技术人工智能领域。本发明结合图像去雾与目标检测两个任务，首先输入图像对以及对应标签对去雾模块进行训练；冻结训练好的去雾模块，在COCO2017数据集上对检测模块进行预训练并在RTTS数据集上结合去雾模块对检测模块进行微调。最终实现不同天气场景下的自适应去雾车辆行人实时检测，输出图片中的人与车辆检测框以及置信度。

Description

一种融合视觉感知自适应去雾的实时目标检测方法

技术领域

本发明属于计算机技术人工智能领域，具体涉及一种融合视觉感知自适应去雾的实时目标检测方法。

背景技术

为适应交通结构变化减轻人工压力，越来越多的道路中使用人工智能技术取代传统人工。但由于现实环境存在雾霾等极端天气导致相机拍摄的图像信息被严重干扰，目标车辆与行人的外观与图像整体的对比度显著下降，严重影响了目标检测算法的准确性。

基于物理成雾模型提出的一系列传统先验去雾方法如暗通道去雾方法，虽然算法去雾速度较快，但去雾后图像的质量不佳，整体色调偏暗且过于依赖局部先验导致算法泛化能力差，无法适应复杂场景；近年来提出许多基于深度学习的去雾检测方法，但由于现有去雾算法未考虑输入图像的多样性，无法对不同的输入图片选择不同处理分支，浪费计算资源的同时无法保证去雾后的图像质量。实际使用时不可能人工根据气候变化去调整已部署好的模型，所以目前的方法很难直接落地于实际生活场景；现有去雾技术也仅仅从数值上得到定量损失评价重建图像的好坏，与实际人类视觉感知还是存在偏差；复杂的两阶段去雾与检测模型先利用去雾模型对图像进行去雾处理，然后将处理后图片送入检测模型中检测，比起端到端模型额外消耗了内存等计算资源的同时增加了模型的推理时间与部署的复杂性，无法满足工程实时性等要求。

综上所述，针对现实场景下现有去雾检测方法无法自适应对不同天气图像进行处理，多阶段模型在边缘计算模块中部署难度大，模型推理速度慢等问题，需要更高效准确的去雾检测方法。

发明内容

对于上述现状与问题，本发明提出了一种融合视觉感知自适应去雾的实时目标检测方法，可用于晴天雾天等多场景下，对视频图片等输入进行高质量去雾得到更符合人类视觉感知的重建图片；同时对其中的行人车辆进行高准确率实时性检测，且模型易于边缘计算模块中部署。

为实现上述目的，本发明所提出模型将图像去雾与检测任务分为两个模块。对于图像去雾模块，利用紧密简单的类编码器结构降低模型整体的参数量；在去雾重建双分支结构前加入分类层对输入图片进行是否需要去雾进行判断，由判断结果选择去雾分支或重建分支，以适应不同天气条件下的输入。为进一步提高图像去雾质量，引入对比学习以及人类主观评价指标作为训练损失，并且在上采样过程中将下采样层与重建层经过自适应特征融合模块进行自适应特征融合，弥补下采样过程丢失的细节特征提高重建图片质量。

检测模块基于Anchor-Free思想对于目标中心点以及检测框距中心点距离来检测目标，简化模型后处理操作易于部署；为保证检测准确率同时降低模型参数量，将模型中主干网络ELAN-Darknet中部分普通卷积由可重参数化卷积代替；为进一步提高模型的检测精度且不带来太大的额外开销，本发明在YOLOX的原始解耦头基础上进行改进提出一种轻量化解耦检测头，具体结构如图3所示。融合可重参数化卷积与隐式学习模块，将目标分类任务与定位回归任务完美分离。同时在检测阶段，可以将多分支的回归检测分支融合为简单的串行分支，大大减少模型的参数量，加快了推理阶段的模型推理速度。最终，将去雾模块的输出传递给检测模块进行检测。这些操作全部集中在模型内部完成，减少了多模型之间存储传递图片的消耗，实现实时性检测。具体过程为：

（1）从网络获取公开去雾数据集以及检测数据集；

（2）将步骤（1）中获得的去雾数据集中对应的带雾与清晰成对图片进行编码，将带雾图片标注类别为0，清晰图片标注类别为1；

（3）利用现有SOTA去雾方法对上述去雾数据集中的带雾图片进行重建，得到的重建图片数据集作为视觉感知评价的测试图片；

（4）将步骤（3）中的重建图片以及对应的带雾图片，清晰图片编组作为眼动刺激性材料，进行眼动追踪实验得到相应的视觉感知数据；

（5）将步骤（4）中的视觉感知数据进行处理，得到对应测试图片的评分；

（6）基于ConvNeXT模型训练得到视觉感知评分模型；

（7）构建去雾模块，所述去雾模块由下采样层，分类层以及重建、去雾双分支结构构成，仅训练去雾模块中的下采样层和分类层，将步骤（2）的成对图片以及对应类别作为输入进行训练，得到自适应分类层；

（8）基于ResNet50模型构建对比学习模型，经过ResNet50预训练模型提取带雾图片，去雾重建图片以及清晰图片不同分辨率下的输出特征，以L1损失作为每层特征距离度量加权融合作为对比学习损失，其中去雾重建图片为去雾模块的输出；

（9）训练整体去雾模块，输出去雾重建图片，并将去雾重建图片作为输入送入步骤（6）的视觉感知评分模型与步骤（8）的对比学习模型得到视觉感知损失与对比损失，二者与分类损失，图片重建的L1损失加权融合作为去雾模块的整体损失；

（10）冻结去雾模块，在检测数据集上对检测模块进行预训练；

（11）对步骤（10）中得到的检测模块进行微调，得到清晰图片以及图片中车辆与行人的回归框和置信度。

进一步的，步骤（3）中的SOTA去雾方法包括暗通道先验，FFA-Net，MSBDN，重建图片即为经过上述方法去雾后的图片。

进一步的，步骤（4）所述视觉感知数据为测试者观察每组图片得到的眼动注视指标，包括平均注视时间，平均注视点个数以及瞳孔直径三个指标，步骤（5）中是将三个指标进行最大最小值归一化处理，并通过加权融合得到最终主观评价得分，具体计算公式如下：

式一

其中A代表评价指标，A_min、A_max代表指标中的最小值与最大值；

式二

其中W代表最终主观评价得分，分数在0-10之间，

为权重系数，h、j、s代表每组测试得到的平均注视时间，平均注视点个数以及瞳孔直径。

进一步的，去雾模块的具体结构如下；

下采样层首先经过ReflectionPad2d()函数对输入图片四周进行填充，接着是三层下采样卷积层，卷积核大小分别是7*7,3*3,3*3，每个卷积层之后跟着一次ReLU激活函数，最终得到输入图片的下采样特征；分类层由3*3卷积，展平以及全连接层组成，最终经过Sigmoid激活函数，输出通道数为分类数2；去雾、重建分支为双分支结构，根据分类层得到的输出类别对图片进行不同的重建操作；

当分类层输出类别为1时代表输入为清晰图片，则选择重建分支进行图片重建，其中重建分支采用转置卷积对下采样后的特征进行上采样重建，得到重建后的清晰图片，其中转置卷积卷积核大小分别为3*3，3*3，7*7；然后利用自适应特征融合模块将下采样浅层特征与重建上采样特征动态融合，从而实现更好的重建效果；在这里，使用BReLU算子作为融合因子的激活函数，具体的融合公式如下：

式三

其中

表示第i个下采样特征，/>

为可学习因子；

当分类层输出类别为0时代表输入为带雾图片，则选择去雾分支进行图片重建；相比于重建分支，去雾分支在重建之前通过加入若干个串联的融合通道注意力层与像素注意力层的残差去雾块，对带雾图片进行有效去雾处理，然后再经过与重建分支中相同的上采样处理和自适应特征融合处理得到去雾后的重建图片。

进一步的，残差去雾块中，首先经过3*3卷积以及ReLU激活，然后将输出与原始输入相加得到融合后特征；然后再经过3*3卷积以及通道注意力层与像素注意力层对融合特征进行有效去雾处理，并于原始输入相加，得到最终去雾处理后输出特征；其中通道注意力层经过全局自适应池化、卷积操作提取图片全局特征，经过Sigmoid函数映射得到特征权重，与原始特征加权相乘得到通道注意力；像素注意力层则不需要经过全局池化，直接进行卷积映射得到权重。

进一步的，步骤（8）中对比损失具体计算步骤如下：

（81），经过ResNet50预训练模型，将带雾图片、清晰图片以及去雾重建图片作为输入，得到对应不同分辨率下的特征；

（82），计算去雾重建图片分别与带雾图片，清晰图片在不同分辨率下特征的L1距离损失，加权融合各层分辨率损失得到最终的对比学习损失，具体公式如下：

式四

其中，

表示从ResNet50第i个下采样层输出的特征，D(x,y)表示变量x,y之间的L1距离，I、J分别代表输入的图片与标签清晰图片，O为去雾后的重建图片，/>

表示权重系数。

进一步的，权重系数

为下采样倍数的倒数逆序，即依次为1/32、1/16、1/8、1/4、1。

进一步的，步骤（9）中将清晰图片作为标签，去雾模块输出的重建后图片与之对比，计算L1损失作为去雾模块的重建损失；将分类层输出与标注标签计算二元交叉熵损失作为分类损失；将去雾模块输出的重建图片以及对应带雾图像，清晰图像作为输入，计算步骤（6）与步骤（8）中的视觉感知损失与对比学习损失；将上述损失加权融合，得到最终整体去雾模块的损失；

具体公式表示如下：

式五

式六

式七

式八

其中，Reconstruction Loss、Contrastive Loss、Classification Loss、VisionLoss分别代表重建损失、对比学习损失、分类损失、视觉感知损失，I、J分别为输入图片与对应的标签清晰图片，Dehaze代表去雾模块；式六中，

表示权重系数；式七中y代表真实标签值，x代表模型预测类别概率，n为样本大小；式八中Score代表步骤（6）中得到的视觉感知评分模型，由于目标为最小化视觉感知损失，故使用与满分的差值作为视觉感知损失函数；

去雾模块总损失为：

式九

其中，

为各损失函数的系数。

进一步的，步骤（10）中检测模块包含主干特征提取网络，颈部特征融合与解耦检测头三个部分，输入为去雾模块输出的去雾后重建图片，主干特征提取网络使用ELAN-Darknet，并将部分卷积层用可重参数化卷积RepConv代替，得到不同分辨率的下采样特征；颈部特征融合用于对主干特征提取网络提取的不同分辨率下的下采样特征进行融合，得到不同尺度的具有高级语义的特征图，然后通过解耦检测头进行目标的检测；

解耦检测头采用分类与回归双分支检测结构，在分类检测分支首先经过可重参数化卷积，然后将特征输入隐式学习块ImplicitA与ImplicitM，ImplicitA对输入与全0的隐式可学习向量相加，ImplicitM对输入与全1的隐式可学习向量相乘；最终通过卷积得到分类输出大小H*W*C，H、W为输入特征的高度与宽度，不同下采样层输入大小不同，C代表检测目标类别数目；同样，回归检测分支的结构与分类检测分支结构相同，最终得到回归框特征与类别置信度特征，通道数分别为4和1。

与现有技术相比，本发明将去雾模型与检测模型融在一个网络结构之中，易于边缘计算模块部署，减少了多阶段推理的数据传输耗时。其中，去雾模块加入分类层与特征融合模块，加强去雾效果同时能自适应对输入图片自动选择处理分支，减小了不必要的计算量。下采样层中利用可重参数化卷积代替普通卷积，提高模型特征表达能力的同时在推理阶段可以转换为普通卷积，并不影响推理速度。为得到更好的去雾重建效果，模型针对去雾分支构建融合注意力机制的残差去雾块对下采样特征进行去雾处理，并且在训练时引入对比学习损失与人类视觉感知评分使得去雾模块能更好的学习输入图片中的细节特征，输出在定性与定量上均效果良好的去雾图片。在公开去雾数据集上测试结果PSNR，SSIM评价指标与SOTA方法相当，视觉感知评分也优于步骤（5）中现有去雾方法平均评分结果。

对于检测模块，主干网络为ELAN-Darknet并将其中部分3x3卷积层替换为可重参数化卷积RepConv。轻量解耦头中利用重参数化与隐式表示模块，在推理阶段提高模型精度的同时，推理速度基本接近于普通耦合检测头。最终在RTTS数据集上微调100Epochs检测结果对比同参数量级YOLOX-s模型微调训练结果，本发明检测精度由53.42%提高到66.31%。在RTX3090上，推理速度由102.04FPS增加到142.86FPS，在边缘计算模块上推理速度约27.43FPS满足实时性要求。

附图说明

图1为本发明的整体训练流程图。

图2为本发明的去雾模块网络结构图。

图3为本发明所述可重参数化卷积模块与轻量化解耦检测头结构图。

图 4为本发明所述BReLU算子。

具体实施方式

本发明技术方案具体实施时可由本领域技术人员采用相关数据和计算机软件技术运行，结合附图，提供本发明实施例具体描述如下。

如图1所示，本发明实施例提供的一种融合视觉感知自适应去雾的实时目标检测方法，包括如下步骤：

（1）从网络获取公开去雾数据集以及检测数据集；

（3）利用现有SOTA去雾技术将上述去雾数据集中的带雾图片进行重建，得到的重建图片数据集作为视觉感知评价的测试图片；

（4）将步骤（3）中的重建图片以及对应的带雾图片，清晰图片编组作为眼动刺激性材料，进行眼动追踪实验得到相应的人类视觉感知数据；

（5）将步骤（4）中的人类视觉感知数据进行处理，得到对应测试图片的评分；

（6）基于ConvNeXT模型训练得到视觉感知评分模型；

（7）构建去雾模块，所述去雾模块由下采样层，分类层以及重建、去雾双分支结构构成，仅训练去雾模块中的分类层，仅训练去雾模块中的下采样层和分类层，将步骤（2）的成对图片以及对应类别作为输入进行训练，得到自适应分类层；

（8）基于ResNet50模型构建对比学习模型，经过ResNet50预训练模型提取带雾图片，重建图片以及清晰图片不同分辨率下的输出特征，以L1损失作为每层特征距离度量加权融合作为对比学习损失；

（9）训练整体去雾模块，输出重建图片。并将重建图片作为输入送入步骤（6）的视觉感知评分模型与步骤（8）的对比学习模型得到视觉感知损失与对比损失，二者与分类损失，图片重建的L1损失加权融合作为去雾模块的整体损失；

对比学习损失与视觉感知损失作用都是为了提升去雾模型的去雾重建效果，相当于对模型增加“正则化”项。这种使用预训练模型的损失在去雾模块训练时仅仅使用前向推理，并不涉及对预训练模型的反向传播训练。此外，由于本发明从实时性出发角度，设计的模型结构往往是小参数量的，为了实现去雾重建效果优化，这些损失属于一些辅助训练策略。在去雾模块真正使用的时候，并不涉及到这些预训练模型以及损失的计算，以最少的参数达到最佳效果，这是利用这两种损失辅助训练的好处。

（10）冻结去雾模块，在coco2017，VOC2007,VOC2012等检测数据集上对检测模块进行预训练；

（11）在RTTS等带雾图片检测数据集上对步骤（10）中得到的检测模块进行微调，得到清晰图片以及图片中车辆与行人的回归框，置信度。

需要说明的是，步骤（1）中去雾数据集为RESIDE数据集，其中包含多种子类。由于本发明针对室外场景，故仅选取OTS(outdoor Training Set)数据集作为去雾模块训练数据，RTTS(Real-world Task-Driven Testing Set)作为检测模块微调训练数据。coco2017作为检测模块预训练数据。其中OTS数据集训练集，验证集与测试集划分比例为8：1：1，RTTS数据集整体作为微调训练数据，coco2017按数据集原始比例划分。

需要说明的是，步骤（2）中所述的成对图片表示去雾数据集的带雾图片与对应的真实清晰图片。

需要说明的是，步骤（3）中SOTA方法为暗通道先验，FFA-Net，MSBDN，重建图片即为经过上述方法去雾后的图片。

需要说明的是，步骤（4）中的眼动刺激性材料即带雾图片，清晰图片以及上述方法得到的去雾后图片，每组三张图片同时进行展示供后续眼动实验。邀请若干名无色盲色弱等影响视觉生理感知的被试人员使用Tobii X2-30眼动仪进行眼动实验得到人类视觉感知数据。每组实验不设置时长，被试者比较每组重建图片质量，最终通过Tobii Pro Lab得到每组图片的眼动注视指标。

需要说明的是，步骤（5）中将步骤（4）得到的眼动注视指标筛选，选取平均注视时间，平均注视点个数以及瞳孔直径三个指标作为重建图片主观评价。三者均与图片重建质量呈正相关。将三者进行最大最小值归一化处理，并通过加权融合得到最终主观评价得分。具体计算公式如下：

式一

其中A代表上述评价指标，A_min、A_max代表指标中的最小值与最大值。

式二

其中W代表最终主观评价得分，分数在0-10之间。

为权重系数，这里均取1/3。h、j、s代表上述每组测试得到的平均注视时间，平均注视点个数以及瞳孔直径。

需要说明的是，步骤（6）中视觉感知评分模型以上述步骤（3）中的去雾重建图片作为输入，经过ConvNeXT模型提取去雾图片特征，通过全局平均池化与全连接层进行评分预测，以对应主观评价得分作为标签进行训练。最终得到视觉感知评分模型对输入的图片进行主观评价打分，分数越高则表示重建图片更符合人类视觉感知。

需要说明的是，本发明去雾模块具体结构如附图图2所示，由下采样层，分类层以及重建、去雾双分支结构构成。其中，下采样层首先经过ReflectionPad2d()函数对输入图片四周进行填充；接着就是三层下采样卷积层，卷积核大小分别是7*7,3*3,3*3，每个卷积层之后跟着一次ReLU激活函数，最终得到输入图片的下采样特征；分类层由3*3卷积，展平以及全连接层组成，最终经过Sigmoid激活函数，输出通道数为分类数2。去雾、重建分支为双分支结构，根据分类层得到的输出类别对图片进行不同的重建操作。

当分类层输出类别为1时代表输入为清晰图片，则选择重建分支进行图片重建。其中重建分支采用转置卷积对下采样后的特征进行上采样重建，得到重建后的清晰图片。其中转置卷积卷积核大小分别为3*3，3*3，7*7。为得到更好的图片重建质量，利用自适应特征融合模块将下采样浅层特征与重建上采样特征动态融合，更好的保留原始图像中的细节特征，从而实现更好的重建效果。在这里，我们使用BReLU算子作为融合因子的激活函数，能很好的将输出值规范为0-1之间且呈线性变化，易于找到二者之间最好的融合比例，具体的融合公式如下：

式三

其中

表示第i个下采样特征。BReLU算子的表示如图4所示，/>

为可学习因子，根据优化器反向传播梯度来更新最终找到最佳的融合比例。

当分类层输出类别为0时代表输入为带雾图片，则选择去雾分支进行图片重建。相比于重建分支，去雾分支在重建之前通过加入几个串联的融合通道注意力层与像素注意力层的残差去雾块，对带雾图片进行有效去雾处理，然后再经过上述重建分支中的上采样及自适应特征融合过程得到去雾后的重建图片。其中通道注意力经过全局自适应池化、卷积等操作提取图片全局特征，经过Sigmoid函数映射得到特征权重，与原始特征加权相乘得到通道注意力；像素注意力则不需要经过全局池化，直接进行卷积映射得到权重。由通道注意力和像素注意力组成的残差去雾块，首先经过3*3卷积以及ReLU激活，然后将输出与原始输入相加得到融合后特征；然后再经过3*3卷积以及通道注意力层与像素注意力层对融合特征进行有效去雾处理，并与原始输入相加，得到最终去雾处理后输出特征。之后将去雾后特征经过与上述重建分支相同的上采样及自适应特征融合过程，得到最终去雾后的图片。

需要说明的是，步骤（7）中输入为带雾图片与清晰图片混合而成的图片数据集，以步骤（2）中的类别标注作为图片标签，使用二元交叉熵损失对去雾模块的下采样特征提取以及分类层部分进行训练，此时去雾模块损失为二元交叉熵分类损失。其中，去雾模块下采样部分使用三层串联的卷积进行特征提取，在分类层中经过卷积，展平以及全连接层，Sigmoid激活函数将下采样得到的特征最终输出为输入图片对应的类别概率。

需要说明的是，步骤（8）中对比损失具体计算步骤如下：

1.经过ResNet50预训练模型，将带雾图片、清晰图片以及去雾模块输出的去雾重建图片作为输入，得到对应不同分辨率下的特征。

2.计算去雾重建图片分别与带雾图片，清晰图片在不同分辨率下特征的L1距离损失，加权融合各层分辨率损失得到最终的对比学习损失，具体公式如下：

式四

其中，

表示从ResNet50第i个下采样层输出的特征，D(x,y)表示变量x,y之间的L1距离，I、J分别代表输入的图片与标签清晰图片，O为去雾后的重建图片。/>

表示权重系数，这里权重为下采样倍数的倒数逆序，即依次为1/32、1/16、1/8、1/4、1。

需要说明的是，步骤（8）中输入为带雾图片与清晰图片混合而成的图片数据集，以步骤（2）中的类别标注作为图片标签，使用二元交叉熵损失对去雾模块的下采样特征提取以及分类层部分进行训练，此时去雾模块损失为二元交叉熵分类损失。其中，去雾模块下采样部分使用三层串联的卷积进行特征提取，在分类层中经过卷积，展平以及全连接层，Sigmoid激活函数将下采样得到的特征最终输出为输入图片对应的类别概率。

需要说明的是，步骤（9）中去雾模块处理分支为去雾，重建双分支结构，根据步骤（8）中分类层输出结果选择合适的处理分支。对去雾模块进行整体训练时，输入为清晰图片或带雾图片，经过步骤（8）中预训练的分类层，得到预测标签0或者1。如果分类层输出为0即判断输入为带雾图片，选择去雾分支进行重建；反之判断输入为清晰图片，则选择重建分支进行重建，最终去雾模块输出为重建后图片。

将清晰图片作为标签，去雾模块输出的重建后图片与之对比，计算L1损失作为去雾模块的重建损失；将分类层输出与标注标签计算二元交叉熵损失作为分类损失；将去雾模块输出的重建图片以及对应带雾图像，清晰图像作为输入，计算步骤（6）与步骤（8）中的视觉感知损失与对比学习损失。将上述损失加权融合，得到最终整体去雾模块的损失。具体公式表示如下：

式五

式六

式七

式八

其中，Reconstruction Loss、Contrastive Loss、Classification Loss、VisionLoss分别代表上述重建损失、对比学习损失、分类损失、视觉感知损失，I、J分别为输入图片与对应的标签清晰图片，Dehaze代表去雾模块；式六含义与式三相同，式七中y代表真实标签值，x代表模型预测类别概率，n为样本大小；式八中Score代表步骤（6）中得到的视觉感知评分模型，由于目标为最小化视觉感知损失，故使用与满分的差值作为视觉感知损失函数。

去雾模块总损失为：

式九

其中，

。

需要说明的是，步骤（10）中检测模块中检测头部分使用本发明提出的轻量化解耦检测头。检测模块包含主干特征提取网络，颈部特征融合与解耦检测头三个部分构成。其中输入为去雾模块得到的去雾后图像，主干特征提取网络使用ELAN-Darknet，为降低模型推理时参数量将模型中部分卷积层用可重参数化卷积RepConv代替，得到不同分辨率的下采样特征。将提取的不同分辨率下的下采样特征输入颈部SPPCSPC结构进行特征融合，得到不同尺度的具有高级语义的特征图。最下层分辨率特征经过空间金字塔池化，通过最大池化来获得不同感受野，增大感受野使得模型适应不同的分辨率图像。将不同分辨率下融合后的高级语义特征输入检测头进行对目标的检测，这里的检测头部使用本发明设计的轻量化解耦检测头，相比起耦合头设计解耦检测头能更好的区分开目标类别的分类任务与检测框预测的回归任务两种关注点不同的下游任务，使检测模型得到更好的效果。为降低解耦头多分支带来的额外计算开销，使用隐式学习块以及可重参数化卷积构建，保证训练时模型快速收敛以及预测时多分支结构能够等效转换为简单的卷积结构，不影响检测精度的同时实现快速推理。以通道数为256的输入特征为例，具体检测头结构如附图图3所示。解耦检测头采用分类与回归双分支检测结构，在分类检测分支首先经过可重参数化卷积，然后将特征输入隐式学习块ImplicitA与ImplicitM。ImplicitA对输入与全0的隐式可学习向量相加，ImplicitM对输入与全1的隐式可学习向量相乘。在训练阶段，隐式学习块专注于某些有用的通道特征而改变通道权值，对输入的特征在通道上进行偏移与缩放得到隐式学习后的特征，从而更加关注检测所需的关键信息。最终通过卷积得到分类输出大小H*W*C，H、W为输入特征的高度与宽度，不同下采样层输入大小不同，C代表检测目标类别数目。同样，在回归检测双分支结构中每个分支结构也是如此，最终得到回归框特征与类别置信度特征，通道数分别为4和1。在模型推理阶段，可以将可重参数化卷积与隐式学习块全部等效为简单卷积并进行算子融合，同时由于结构的相似性在推理时可以将检测框与目标置信度分支融合，最大程度简化模型结构提高模型推理检测速度，同时保证模型检测精度。

在此步骤中，输入为COCO2017数据集图片并将输入图片大小统一为640*640，冻结去雾模块对上述检测模块进行训练，检测模块输出为目标类别，置信度以及回归框。检测模块的整体损失为分类损失，回归损失以及置信度损失的加权融合，其中分类损失为FocalLoss，回归损失为CIOU Loss，置信度损失为BCE Loss。利用余弦学习率衰减，训练迭代次数为300 Epochs。

需要说明的是，步骤（11）中输入为RTTS数据集图片，冻结去雾模块以及步骤（10）中得到的检测预训练模块，将RTTS数据集图片统一大小为640*640输入经过去雾模块得到去雾后图像特征输入检测模块进行检测，得到图片中目标的类别，回归框以及目标置信度。在此步骤中，在RTTS数据集上对步骤（10）中预训练模型进行微调，损失函数与步骤（10）中相同，微调训练次数为100Epochs。

下面以一个具体的例子进行说明，本实例结合图像去雾与目标检测两个任务，首先输入图像对以及对应标签对去雾模块进行训练；冻结训练好的去雾模块，在COCO2017数据集上对检测模块进行预训练并在RTTS数据集上结合去雾模块对检测模块进行微调。最终实现不同天气场景下的自适应去雾车辆行人实时检测，输出图片中的人与车辆检测框以及置信度。实施例主要包括以下步骤：

1)构建数据集

从网络上下载公开数据集，其中包括去雾数据集RESIDE(OTS 与RTTS)、NH-HAZE、COCO 2017。将OTS数据集72135张不同深度合成的带雾图片以及对应2061张对应的真实图片与NH-HAZE数据集中去雾/真实图片各50张进行混合并且将上述数据集中带雾图片标注为0清晰图片标注为1，将融合后数据集划分为训练集，验证集与测试集对去雾模块进行训练测试，其中划分比例为8：1：1。对于COCO 2017使用原本的划分结构，对于RTTS数据集共4322张图片微调时分为训练集与测试集，划分比例为8：2。

2)构建视觉感知评分模型

将步骤1)中的带雾图片使用现有的去雾方法进行去雾处理，得到去雾后的结果图片，其中去雾方法包括但不限于暗通道先验、FFA-Net、MSBDN。将得到的去雾后图片与对应的原始带雾图片，清晰图片三张图片为一组，作为眼动实验的眼动刺激材料。邀请若干名无色盲色弱等影响视觉生理感知的被试人员，使用Tobii X2-30眼动仪对上述眼动刺激材料进行眼动追踪实验得到人类视觉感知数据。为保证不失一般性，邀请的测试人员不少于20人，且每人测试时均在单独空间内以排除外界干扰。每人单次测试时间不超过十分钟，但对于每组刺激材料测试时间不作限制，且眼动刺激材料以不重复随机抽样方式提供，保证最终视觉感知数据的可靠性。被试者通过比较每组眼动刺激材料中去雾后图片与原始带雾图片，清晰图片之间的视觉差异性，作出不同眼动生理反应。待整体眼动实验结束后，通过Tobii Pro Lab得到全部实验的眼动注视指标。

将上述眼动注视指标进行筛选，选取平均注视时间，平均注视点个数以及瞳孔直径三个指标作为主观评价指标。以上所述三种主观评价指标与重建图片质量成正相关，即去雾重建后图片质量越高则平均注视时间越长，平均注视点个数越多，瞳孔直径越大。将三者进行最大最小值归一化，将主观评价指标的值限制在0-1之间。然后对三种指标进行加权融合，并且最终分数映射到0-10分之间，具体计算公式如下如式一和式二。

将上述去雾后的图片作为输入，利用ConvNext预训练模型进行特征提取，以上述最终主观评价得分作为标签，对模型进行训练得到视觉感知评分模型。视觉感知评分模型能对输入的去雾后图片进行评分，输出分数在0-10之间，输出的分数越高则表示输入的去雾重建后图片更符合人类的视觉感知。

3)对本发明的去雾模块进行训练

读取步骤1）中划分好的训练集与验证集数据，读取RGB图片并将像素由无符号整型转为浮点型计算。去雾模块整体结构如图2所示，训练时前50Epochs冻结去雾/重建处理双分支，以输入混合图像数据集以及对应的标签训练模型分类层，此时去雾模块损失仅仅为二元交叉熵的分类损失权重为1，其余损失权重均为0。

分类层训练迭代结束后，解冻去雾模块所有分支，以混合图像数据集作为输入，对应的清晰图像作为标签对整体去雾模块进行训练，利用L1 Loss作为重建损失使得去雾模块输出的重建图像更贴近于清晰图像。除此之外，为加强去雾重建效果，引入对比学习损失以及步骤2)中得到的主观评价损失。

将训练过程中去雾模块得到的每张去雾重建图片作为对比学习模型以及主观评价模型输入。对比学习模型同时将去雾模型中原始输入图片，对应清晰图片作为输入，用ResNet50预训练模型提取各种图片不同分辨率下的特征，以L1 Loss计算(清晰图片，重建图片)与(原始输入图片，重建图片)之间的差异，使得重建图片更贴近于清晰图片而远离原始输入。而主观评价模型以去雾重建后图片作为输入，输出每张去雾重建图片的视觉感知得分。为使视觉感知得分尽量高代表重建图片质量越好，此时主观评价损失为10-Score，此时Score为主观评价模型输出分数。

综上，去雾模块的整体训练损失函数如式五-式九。

4)对本发明的检测模块进行预训练

在COCO 2017数据集上对模型中的检测模块进行预训练，其中输入图片的大小统一resize为640*640。同时对于输入图片，经过一系列数据增强方法以提高模型的鲁棒性与泛化能力防止模型过拟合。其中本发明使用的数据增强方式除常见的几何增强(随机裁剪，旋转镜像，缩放等)外，还加入了光照增强，将图像转为HSV空间接着对图像亮度进行调整并转回RGB空间作为输入以适应带雾图像中光照变化。除此之外，还使用了Mosaic，Mixup等主流数据增强技术进一步丰富图像信息，降低过拟合概率。

检测模块主干网络使用ELAN-Darknet，并且为了提高模型的特征提取能力，降低推理耗时，使用可重参数化卷积RepConv代替原始的普通卷积。为进一步提高模型的检测精度且不带来太大的额外开销，本发明在YOLOX的原始解耦头基础上进行改进，具体结构如图3所示。融合可重参数化卷积与隐式学习模块，将目标分类任务与定位回归任务完美分离。同时在检测阶段，可以将多分支的回归检测分支融合为简单的串行分支，大大减少模型的参数量，加快了推理阶段的模型推理速度。最终，分类任务头输出目标类别为行人或是车辆，回归任务头输出目标中心点坐标以及目标框的长宽以及目标的置信度大小，实现目标精准定位。

最终，在COCO 2017数据集上进行300个Epochs的预训练，将FocalLoss作为分类损失，BCELoss作为置信度损失，CIOU作为IOU回归损失，batch size大小为12，保存效果最好的预训练检测模块。

5)结合去雾检测模块，整体进行微调训练

经过步骤3)我们在室外去雾数据集上训练，得到了去雾效果良好的去雾模块。在步骤4)中我们在目标检测的常用数据集进行300Epochs的预训练得到一个检测效果良好的检测模块。最后，在RTTS数据集上结合两个模块进行微调训练。首先，冻结去雾模块与检测模块的主干部分，仅仅微调检测模块的检测头部分，微调训练次数为100。将RTTS数据集图片进行输入，经过去雾模块的自适应去雾，将带雾图片进行去雾处理，少雾或无雾图片则直接重建，得到与输入图片大小一致的清晰重建结果张量。将去雾模块的输出结果直接送入检测模块。经过主干网络的特征提取，对去雾后清晰的输入进行检测。去雾处理增强了目标与背景的对比度，从而相较于直接用RTTS数据集训练检测模型提高了模型的检测准确率。最后在解耦检测头完成对目标的分类与定位回归，实现车辆行人的准确检测并保存验证集上效果最好的模型参数。

值得注意的是，微调时检测模块的训练参数除迭代次数外设置均与步骤4)中一致，仅仅冻结了主干部分。此外，微调时除冻结去雾模块之外将去雾模块设为推理模式，即利用可重参数化将训练时的多分支结构在推理阶段等效为单分支结构，加快去雾模块的推理速度，从而提高整体模型微调的训练速度。

6)测试网络，输出检测结果

加载步骤5)中在RTTS数据集上微调训练的模型，并且将模型去雾，检测模块均设置为推理模式。此时，去雾模块与检测模块主干中的可重参数化卷积均等效转换为普通卷积，同时本发明提出的检测模块中轻量化解耦检测头也变为简单的双分支卷积串行结构，如图3所示。

在步骤1)中划分得到的RTTS测试集上进行测试，将测试集图片输入模型，经过去雾模块得到相同尺寸的输出并作为检测模块的输入。检测模块推理得到图像中目标的类别与定位框，设置置信度阈值对低置信度目标进行过滤。

值得注意的是，本发明检测模块利用Anchor-Free设计，理论上不需要复杂的后处理操作。为了更加精确的检测，也可以选择NMS作为后处理操作以删除冗余的检测框，得到更加精准的目标检测框。

最终，对本发明的去雾模块输出以及最终检测结果进行展示，在RTTS测试集中mAP为66.31%，在边缘计算模块测试FPS达到27.43，实现了高精度实时检测。

Claims

1.一种融合视觉感知自适应去雾的实时目标检测方法，其特征在于：结合图像去雾模块与检测模块实现不同天气场景下的自适应去雾车辆行人实时检测，输出图片中的人与车辆检测框以及置信度，具体包括如下步骤：

（1）从网络获取公开去雾数据集以及检测数据集；

（6）基于ConvNeXT模型训练得到视觉感知评分模型；

2.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法，其特征在于：步骤（3）中的SOTA去雾方法包括暗通道先验，FFA-Net，MSBDN，重建图片即为经过SOTA去雾方法去雾后的图片。

3.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法，其特征在于：步骤（4）所述视觉感知数据为测试者观察每组图片得到的眼动注视指标，包括平均注视时间，平均注视点个数以及瞳孔直径三个指标，步骤（5）中是将三个指标进行最大最小值归一化处理，并通过加权融合得到最终主观评价得分，具体计算公式如下：

式一

式二

其中W代表最终主观评价得分，分数在0-10之间，

4.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法，其特征在于：去雾模块的具体结构如下；

式三

其中

表示第i个下采样特征，/>

为可学习因子；

5.如权利要求4所述的一种融合视觉感知自适应去雾的实时目标检测方法，其特征在于：残差去雾块中，首先经过3*3卷积以及ReLU激活，然后将输出与原始输入相加得到融合后特征；然后再经过3*3卷积以及通道注意力层与像素注意力层对融合特征进行有效去雾处理，并于原始输入相加，得到最终去雾处理后输出特征；其中通道注意力层经过全局自适应池化、卷积操作提取图片全局特征，经过Sigmoid函数映射得到特征权重，与原始特征加权相乘得到通道注意力；像素注意力层则不需要经过全局池化，直接进行卷积映射得到权重。

6.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法，其特征在于：步骤（8）中对比损失具体计算步骤如下：

式四

其中，

表示权重系数。

7.如权利要求6所述的一种融合视觉感知自适应去雾的实时目标检测方法，其特征在于：权重系数

为下采样倍数的倒数逆序，即依次为1/32、1/16、1/8、1/4、1。

8.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法，其特征在于：步骤（9）中将清晰图片作为标签，去雾模块输出的重建后图片与之对比，计算L1损失作为去雾模块的重建损失；将分类层输出与标注标签计算二元交叉熵损失作为分类损失；将去雾模块输出的重建图片以及对应带雾图像，清晰图像作为输入，计算步骤（6）与步骤（8）中的视觉感知损失与对比学习损失；将上述损失加权融合，得到最终整体去雾模块的损失；

具体公式表示如下：

式五

式六

式七

式八

其中，Reconstruction Loss、Contrastive Loss、Classification Loss、Vision Loss分别代表重建损失、对比学习损失、分类损失、视觉感知损失，I、J分别为输入图片与对应的标签清晰图片，Dehaze代表去雾模块；式六中，

去雾模块总损失为：

式九

其中，

为各损失函数的系数。

9.如权利要求1所述的一种融合视觉感知自适应去雾的实时目标检测方法，其特征在于：步骤（10）中检测模块包含主干特征提取网络，颈部特征融合与解耦检测头三个部分，输入为去雾模块输出的去雾后重建图片，主干特征提取网络使用ELAN-Darknet，并将部分卷积层用可重参数化卷积RepConv代替，得到不同分辨率的下采样特征；颈部特征融合用于对主干特征提取网络提取的不同分辨率下的下采样特征进行融合，得到不同尺度的具有高级语义的特征图，然后通过解耦检测头进行目标的检测；