CN113537397A

CN113537397A - 基于多尺度特征融合的目标检测与图像清晰联合学习方法

Info

Publication number: CN113537397A
Application number: CN202110919030.2A
Authority: CN
Inventors: 屈雯; 崔健; 国露露
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-10-22
Anticipated expiration: 2041-08-11
Also published as: CN113537397B

Abstract

本发明提供一种基于多尺度特征融合的目标检测与图像清晰联合学习方法，涉及计算机视觉人工智能技术领域，包括获取合成雾天数据集和真实雾天数据集，将合成雾天数据集作为训练数据集，将真实雾天数据集作为测试数据集；规定雾天或水下的图像，将图像作为系统的输入；将特征图输入到清晰化模块时，特征图与清晰化模块进行多尺度特征融合；在清晰化模块加入密集可形变注意力策略，得到清晰去雾图像；输出清晰去雾图像与目标检测图像。本发明可以同时完成图像清晰化、目标检测两个任务，通过将图像清晰化以增强后的图片特征与原图的目标识别特征进行多尺度的融合，能够提高对浓雾区域中小目标的识别准确率。

Description

基于多尺度特征融合的目标检测与图像清晰联合学习方法

技术领域

本发明涉及计算机视觉人工智能技术领域，尤其涉及一种基于多尺度特征融合的目标检测与图像清晰联合学习方法。

背景技术

目前常用的雾天检测方法可以归纳为两类：基于物理硬件融合的方法和基于深度模型的方法。基于物理硬件融合的方法得益于借助激光雷达、距离传感器、红外传感器等一些硬件设备。Sarthak Katyal等人在2018年提出使用立体照相机来计算深度图然后和雾天图像进行融合检测。考虑到脉冲激光雷达扫描仪成本高、功耗大、外形尺寸大、并且在强反向散射的情况下会出现故障，Tobias Gruber等人在2019年提出了通过将门控相机的三幅图像转化为深度精度与脉冲激光雷达测量相当的高分辨率深度图。为了解决在恶劣天气条件下，传感流会不对称的扭曲问题。Mario Bijelic等人在2020年提出了一个多模态融合网络，将激光雷达、RGB相机、门控相机和雷达信息进行深度特征交换融合来进行目标检测。Yajing Han在2020年等人提出使用多光谱融合的方法进行恶劣天气交通目标的检测方法，将雾天图像和热成像图像分别使用骨干网络进行特征提取，然后进行特征融合进行检测分类。

考虑到传感设备的价格以及使用问题。研究人员进一步提出了基于深度模型的方法。大部分技术采用的是先对雾天图像使用去雾算法进行预处理，然后对预处理后的图像进行检测。刘志涛等人在2019年提出了先使用单尺度Retinex算法对雾天图像进行预处理，然后使用YOLOV3算法进行目标识别检测。苑志浩等人在2020年提出采用双边滤波器的Retinex去雾算法对图像进行增强处理，然后使用YOLOV3再进行目标识别。Mazin Hnewa等人在2020年在论文中做了各种消融实验，结果表明，对雾天图像使用去雾算法进行预处理虽然在一定程度上可以让模糊的图像变清晰，但是物体检测精度并没有提高，甚至还有所下降。此外，先对雾天图像进行预处理再进行目标检测比较耗时且不能满足实时的需求。Huang等人在2019年提出了一种基于多任务学习的新型双子网网络(DSNet)来解决恶劣天气条件下的目标检测问题，但是该方法没有充分考虑到图像清晰化任务与目标检测任务之间丰富的关联信息，只将子任务作为对主任务的一个约束。综上所述，有待发明一种可以实现端到端检测的，清晰化程度较高的，对于远处小目标不会存在误检和漏检的低质量图像目标检测方法。

发明内容

本发明提供一种基于多尺度特征融合的目标检测与图像清晰联合学习方法，解决了现有低质量图像目标检测方法清晰化程度较差的问题。

为达到以上目的，本发明采取的技术方案是：

一种基于多尺度特征融合的目标检测与图像清晰联合学习方法，包括：

获取合成雾天数据集和真实雾天数据集，将合成雾天数据集作为训练数据集，将真实雾天数据集作为测试数据集；

规定雾天或水下的图像，将图像作为系统的输入；

将图像输入至共享模块，进行特征提取，得到特征图；

将特征图同时输入至清晰化模块和目标检测模块；

将特征图输入到清晰化模块时，特征图与清晰化模块进行多尺度特征融合；

在清晰化模块加入密集可形变注意力策略，得到清晰去雾图像；

将清晰化模块中提取到的特征图输入至检测模块进行多尺度特征融合，得到融合后的特征；

将融合后的特征进行目标检测，通过NMS得到目标检测图像；

输出清晰去雾图像与目标检测图像。

优选地，所述联合学习方法的整个网格损失包括目标检测损失和图像增强损失，目标检测损失包括定位损失和置信度损失，所述目标检测损失的函数如下

其中，α、β和γ为平衡超参数，N为匹配的默认边界框的数量，L_conf为置信度损失，L_loc为定位损失，L_L1为L₁损失，L_perceptural为感知损失，L_ssim为SSIM损失。

优选地，所述定位损失的函数公式如下

其中，Smooth_L1为预测框(l)与真实框(g)参数之间的定位损失，N为预测框的数量，m为预测框和真实框的匹配对，k为相应的预测框，i为搜索框序号，j为真实框序号，(cx，xy)为补偿后的默认框的中心点，(w,h)为默认框的宽和高。

优选地，所述置信度损失的函数公式如下

其中，N为预测框的数量，i为搜索框序号，j为真实框序号，

为第i个锚框匹配到第j个真实框，p为真实框的类别，p为类别序号，

为第i个搜索框对应类别p的预测概率。

本发明的有益效果在于：

本发明可以同时完成图像清晰化、目标检测两个任务，通过将图像清晰化以增强后的图片特征与原图的目标识别特征进行多尺度的融合，能够提高对浓雾区域中小目标的识别准确率；

本发明可以实现端到端的训练过程，处理时间可满足实时检测的需求，与以往发明不同的是，首先本发明可以同时输出清晰图像和检测目标，而以往的发明仅仅输出检测目标，无法通过查看清晰化图像确定检测结果是否正确；其次本发明无需先对图像进行去雾、增强处理，避免了因图像增强任务导致图像细节信息丢失及识别准确度降低的问题。本发明具有检测精度高、清晰化效果好、处理速度快的优点。

附图说明

为了更清楚的说明本发明的实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明步骤流程图。

图2为本发明深度神经网络结构图。

图3为本发明目标检测结果与其他方法的比较图。

图4为本发明清晰化结果与其他方法的比较图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当清楚，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制：方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

本发明提供一种技术方案：一种基于多尺度特征融合的目标检测与图像清晰联合学习方法，其步骤如图1所示，具体步骤如下

1、准备训练数据；

使用基于cityspace合成的雾天数据集和真实雾天数据集。合成数据集共有三种衰减系数的雾天图像(0.005、0.01、0.02)。真实雾天数据集共有101张图片。数据集有“人”和“车辆”两个物体类别。

选取合成cityspace数据集中6521张图片作为本发明训练数据集。其中4172张图片用于训练，1044张图片用于验证，1305张图片用于测试。真实数据集全部用来测试。

2、实际工作过程：

(1)给定雾天或水下的图像I，作为系统的输入，具体工作工程如图2所示；

(2)将图像I输入到特征共享模块，该模块使用Resnet-50的结构，并将共享模块cov1、cov2提取出的特征通过cov11、cov12重新计算提取，计算后的特征图大小分别为：300×300×64、150×150×128。cov11、cov12结构相同，采用两组Conv、BN、LeakyRelu、通道注意力、空间注意力组成的模块。将共享模块的输出cov4作为清晰化模块的输入特征，特征大小为38×38×1024。

(3)清晰化模块采用编码器-解码器结构，编码器部分由共享模块中cov3、cov11、cov12组成。解码器由cov14、cov15、cov16组成，解码器结构相同，先进行了上采样扩大特征尺寸操作，然后进入两组由Conv、BN、LeakyRelu组成的模块，最后与编码器对应大小特征图进行concat融合操作，为了让模型关注到退化严重处的小目标。本发明提出了密集可形变注意力模块cov13。cov13由五组相同的模块和一组可形变卷积组成，每组模块由Conv、BN、LeakyRelu、通道注意力、空间注意力组成，最后将其特征图进行可形变卷积操作。清晰化后的图像如图3所示。

(4)将清晰化后的图像进行cov18、cov19卷积操作，与目标检测模块的cov4、cov5进行多尺度特征融合。cov18由两组Maxpool、Conv、LeakyRelu组成，cov19由一组Maxpool、Conv、LeakyRelu组成。

(5)最后，将cov4、cov5、cov6、cov7、cov8、cov9、cov10卷积后获取到的特征图进行目标检测，最后通过NMS(非极大值抑制)获取到最终的检测结果，结果如图4所示。该模型最终输出清晰化图像与目标检测图像。

3、损失函数：

整个网格的损失函数由两大部分组成：目标检测损失函数和图像增强损失函数。目标检测损失由定位损失和置信度损失组成。图像增强损失由L1损失、感知损失、SSIM损失组成。损失函数定义如下：

(1)式中α、β，γ为平衡超参数，分别取值1.2，10，1。N是匹配的默认边界框的数量，L_conf代表置信度损失，L_loc代表定位损失，L_L1代表L₁损失，L_perceptural代表感知损失，L_ssim代表SSIM损失。

定位损失函数采用的是SmoothL1损失，使用SmoothL1损失可以防止在训练早期出现梯度爆炸。因为在训练早期的时候，锚框和真实标签之间的偏差还是很大的，这时候使用L2损失会造成训练的不稳定。其中，N表示预测框的数量，m表示预测框和真实框的匹配对，k表示相应的预测框，i表示搜索框序号，j表示真实框序号，(cx，xy)为补偿后的默认框的中心点，(w,h)为默认框的宽和高。计算公式如下：

置信度损失是多类别置信度上的softmax损失。N代表预测框的数量，i代表搜索框序号，j代表真实框序号，

中取i表示第i个锚框匹配到第j个真实框，而这个真实框的类别为p，p代表类别序号，当p＝0时，代表背景，

为第i个搜索框对应类别p的预测概率。公式前半部分是正样本(Positive)的损失，即分类为某个类别的损失(不包括背景)，后半部分是负样本(Negative)的损失，也就是类别为背景的损失。计算公式如下：

在图像恢复任务中，采用了L₁损失函数即平均绝对误差作为增强任务的重建损失。L_Perceptual代表感知损失，使得恢复后的图像与真实图像在纹理、细节上更加相似。使用了基于ImageNet预训练模型的Vgg16网络来提取特征。在实验中，采用了第五层的特征进行内容损失(感知损失)计算：

C_jH_jW_j代表Vgg16提取特征的(通道)数量、高度和宽度信息，E表示恢复后图像像素点，G表示真实图像像素点，φ_j是第j层输出特征层。

L_ssim表示恢复后的图像与真实标签图像特征之间的SSIM损失。SSIM公式基于原图与增强后的图像在亮度、对比度、和结构上进行了比较衡量。其中，μ_E和μ_G分别表示恢复后图像和真实标签图像的平均亮度，C₁和C₂是由一个常数和图片的动态灰度范围相乘所得的，以防止分母为0，σ代表对比度相似性。SSIM计算公式如下：

L_ssim(E,G)＝1-SSIM(E,G)

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。