CN112633149B

CN112633149B - 一种域自适应雾天图像目标检测方法和装置

Info

Publication number: CN112633149B
Application number: CN202011527409.0A
Authority: CN
Inventors: 邵文泽; 贾再兴
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-08-16
Anticipated expiration: 2040-12-22
Also published as: CN112633149A

Abstract

本发明公开了一种域自适应雾天图像目标检测方法和装置，属于目标检测技术领域，方法包括如下步骤：对获取的目标检测数据集进行预处理；对骨干网络进行模型多尺度性能改造重建；利用预处理后的目标检测数据集训练改造后的骨干网络获得目标检测模型；对所述目标检测模型搭建域分类器；采用雾天图像和预处理后的目标检测数据集，训练搭建域分类器的所述目标检测模型获得域自适应检测模型；利用所述域自适应检测模型对待检测雾天图像进行目标检测。本发明的方法和装置具有检测精度高、实时性和应用性较强、漏检率低等优点，提升了检测模型在雾天场景中的表现。

Description

一种域自适应雾天图像目标检测方法和装置

技术领域

本发明涉及深度学习与计算机视觉中的目标检测技术领域，尤其涉及一种域自适应雾天图像目标检测方法和装置。

背景技术

随着基于人工智能的自动驾驶技术发展，安全性成为了智能交通的亟待解决的重要问题，在近年来由于工业发展的加速造成了越来越严重的环境污染，多数地区频繁遭遇雾、霾等恶劣天气的来袭。由于雾霾覆盖面积广，造成道路能见度低，严重干扰了自动驾驶场景下通过摄像头对交通要素的检测。对于图像的目标检测本身就是深度学习与计算机视觉领域的研究热点，但是在雾天，成像设备采集到的图像不仅清晰度下降，对比度降低，特征信息难以提取，而且还出现了十分严重的色彩失真和颜色偏移，对后续的图像目标检测造成负面影响，也给自动驾驶系统在雾天的安全性带来很大挑战。与图像恢复任务不同，雾天场景下的目标检测不是面向提升视觉感知的，其主要目的是提高雾天图像的检测精度，减小漏检率，增强目标检测模型在雾天场景的可靠性，从而更好地辅助自动驾驶系统在雾天场景选择更为安全的驾驶行为。因此，雾天图像的目标检测是应用性很强，且非常有价值的研究课题。

总体而言，现有的基于深度学习的雾天图像检测方法可以分为以下三种：基于雾天图像训练的方法、基于去雾算法处理后检测的方法以及基于域自适应的方法，各种方法的不足之处如下所述：

基于雾天图像训练的方法操作简单，无需设计其他网络模型，但是用于训练的雾天图像检测标签的获取代价过高，且对于不同的雾天数据集，雾在图像上的表现、分布也不同，无法应对雾天场景的多样性；

基于去雾算法处理后检测的算法无需雾图的检测标签，但是现有研究已经证明去雾算法虽然可以提高视觉感知效果，但是普遍无法对目标检测有正面推动作用，一些去雾算法对检测甚至有负面作用，此外，去雾算法所消耗的时间成本也决定了这种方法无法应用到实时性强的自动驾驶系统中；

基于域自适应的方法将雾天图像看做一种“域”代表雾天图像的整体特征分布，通过在目标检测模型基础上设计域分类器结构来鉴别通用场景和雾天场景两个域，再将域分类器训练过程中的负梯度参数以一定比例向检测模型回传，使得检测模型的参数向目标雾天图像域迁移，能在雾天图像上取得较好效果。但是，目前用于域自适应的检测模型提取的特征图不够精细，域分类器的多尺度设计也不够全面，导致基于域自适应的方法提升有限，漏检率也较高。

综上可知，现有的雾天图像检测方法存在检测精度差、实时性和应用性不强、漏检率高等缺陷。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种域自适应雾天图像目标检测方法和装置，具有检测精度高、实时性和应用性较强、漏检率低等优点，提升了检测模型在雾天场景中的表现。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种域自适应雾天图像目标检测方法，包括如下步骤：

对获取的目标检测数据集进行预处理；

对骨干网络进行模型多尺度性能改造重建；

利用预处理后的目标检测数据集训练改造后的骨干网络获得目标检测模型；

对所述目标检测模型搭建域分类器；

采用雾天图像和预处理后的目标检测数据集，训练搭建域分类器的所述目标检测模型获得域自适应检测模型；

利用所述域自适应检测模型对待检测雾天图像进行目标检测。

进一步的，Mask-RCNN网络的所述骨干网络为残差网络，所述残差网络中具有若干特征维度如瓶颈结构的1×1、3×3、1×1三层卷积组合；

对所述骨干网络进行模型多尺度性能改造重建的方法包括如下步骤：

获取残差网络中所有瓶颈结构，将瓶颈结构中首个1×1卷积层的输出按通道平均分为若干组；

在特征分组后，进行所述特征分组进行分组融合，具体方法如下：

第一组特征保留，第二组特征需要通过3×3的卷积送入第三组的输入处，同样，第三组特征也通过3×3的卷积后送入第四组的输入处，以此类推；

取所有组的输出进行拼接，获得具有多尺度感受野的特征，其中，第一组具有1×1的卷积感受野，第二组具有3×3的卷积感受野，第三组相当于具有两次3×3卷积的5×5卷积感受野，依次类推；

获得分组卷积再融合的特征图后，将融合特征再次进行1×1卷积，得到重建后瓶颈结构的输出。

进一步的，所述分组融合操作用公式表示如下：

其中，y_i为第i组的输出，x_i为第i组的输入，C_i代表第i组3×3卷积操作，m为按照通道数均分的组的数量。

进一步的，利用预处理后的目标检测数据集训练改造后的骨干网络获得目标检测模型的方法包括如下步骤：

设定经改造骨干网络的Mask-RCNN网络的总训练轮次，并随机初始化网络模型参数，设定每训练若干轮次之后进行一次检测精度测试，若此次测试精度高于此前训练中的最佳模型，则将之前训练的模型替换为本次训练的模型作为为佳模型；将预处理的所述目标检测数据集输入到改造后的所述骨干网络目标检测模型进行训练：

若损失收敛至预设阈值，则停止训练，获得所述目标检测数据集的模型权重；

若损失没有收敛至预设阈值，则训练达到预设的总训练轮次之后自动终止，取训练过程中精度最高的模型权重。

进一步的，对所述目标检测模型搭建域分类器的方法包括如下步骤：

将所述残差网络的各层特征按照尺度分组，可分为四组特征，依次由低层到高层获取所述残差网络每组卷积的特征输出；

拼接所有四组输出特征，并进行全连接操作，得到域分类器的最终输出特征；

将所述域分类器的损失设计为均方误差损失，如下式所示；

其中，D_p为预测域标签值，D_t为第t个实际域标签值，t取值范围为[1，n]，n为样本数量；

在域自适应训练过程中的反向传播期间，在反向传播到达骨干网络之前，将域分类器处的梯度的符号反转，再以一定的比例反向传播至所述骨干网络。

进一步的，获取所述残差网络每组卷积的特征输出的过程中对所有四组特征进行卷积操作，具体操作方法为：

将第四组特征进行全局平均池化及1×1卷积操作，与第三组特征进行向量点乘，得到第三组的输出特征；将第三组特征进行全局平均池化以及1×1卷积操作，与第二组特征进行向量点乘，以此类推；

所述卷积操作表达式如下：

其中，i代表特征分组后的组别，K_i代表第i组的输出特征，F_i代表第i组的输入特征，G(K)代表对特征K进行的一次全局池化以及1×1卷积操作。

进一步的，采用雾天图像和预处理后的目标检测数据集，训练搭建域分类器的所述目标检测模型获得域自适应检测模型的方法包括如下步骤：

将预处理后的目标检测数据集作为源域，雾天图像数据集作为目标域；

训练期间将源域数据集域标签设定为0，将目标域雾图数据集域标签设定为1；

设定总训练轮次，加载源域数据集训练权重，开始域自适应模型训练，每进行一轮训练，就判断当前轮次的训练模型是否是最优模型，若是则替换本轮模型为最佳模型；

每进行一轮训练保存并测试一次模型精度，当达到所述总训练轮次之后，自动保留精度最高的模型。

进一步的，所述域自适应训练过程的总体损失函数表示如下：

L＝L_cls+L_box+L_domain

其中，L为域自适应训练的总体损失，L_box为对图像目标物体的包围框回归损失，L_cls为对图像目标物体的分类损失，L_domain为域分类器损失。

进一步的，所述对图像目标物体的分类损失公式表示如下：

其中：p_i为RPN网络预测待选框为目标的概率，

为真实标签；所述真实标签表示如下：

所述对图像目标物体的包围框回归损失公式表示如下：

其中：x为目标预测包围框坐标值与真实包围框坐标的差值。

第二方面，本发明提供了一种域自适应雾天图像目标检测装置，包括如下模块：

预处理模块，用于对获取的目标检测数据集进行预处理，对骨干网络进行模型多尺度性能改造重建；

第一训练模块，用于利用预处理后的目标检测数据集训练改造后的骨干网络获得目标检测模型；

构建模块，用于对所述目标检测模型搭建域分类器；

第二训练模块，用于采用雾天图像和预处理后的目标检测数据集，训练搭建域分类器的所述目标检测模型获得域自适应检测模型；

检测模块，用于利用所述域自适应检测模型对待检测雾天图像进行目标检测。

与现有技术相比，本发明所达到的有益效果：

本发明在搭建骨干网络提取特征图时采用了多尺度融合的机制，在通道维度上的对原始特征进行分离融合，并通过残差模块融合顶层特征的语义信息和底层特征的细节信息，在骨干网络的每一个新的瓶颈模块都可以输出不同尺度融合的特征图；有效克服了低层特征虽然分辨率大，但是噪声较多的问题，以及高层特征虽然具有更强的语义信息，但是分辨率小、对细节感知能力较差的问题；

本发明在域分类器模块应用了基于全局平均池化的注意力机制，使得域分类器的低层特征能够通过高层特征全局池化提供的全局信息作为指引，从而指导低层特征选择更为精准的分辨率信息，使得域分类器得到的最终特征具有更加丰富的语义，加强域分类器的域鉴别能力；

本发明摒弃了主流雾图目标检测解决方案中的先去雾，再检测的级联检测方法，使用端到端的模型进行雾图的目标检测，节省了去雾过程所需的成本，并且也在检测框精度和漏检率上得到改善。

附图说明

图1是本发明实施例提供的一种域自适应雾天图像目标检测方法的流程示意图；

图2是本发明实施例提供的一种域自适应目标检测模型整体示意图；

图3是本发明实施例提供的一种残差网络中重建后的瓶颈模块；

图4是本发明实施例提供的一种域分类器示意图；

图5是本发明实施例提供的一种域自适应雾天图像目标检测方法与仅进行域自适应训练传统模型的检测效果对比的图片细节；

图6是本发明实施例提供的一种域自适应雾天图像目标检测装置的框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

实施例1

如图1所示，本发明实施例公开一种域自适应雾天图像目标检测方法，该方法引入注意力能够应用于雾天图像的目标检测，能够改善雾天图像检测的精度和漏检率。该方法包括如下步骤：

选定通用目标检测数据集作为源域并作预处理，改造骨干网络提升模型多尺度性能，接着训练目标检测模型；

训练完毕后基于目标检测模型搭建域分类器，并且在每一层融合全局平均池化的高层注意力，至此整个迁移学习模型搭建完成；

输入雾天图像作为目标域开始训练，得到表现较好的适应雾天场景的检测模型。

在本实施例中，本发明实施例公开一种域自适应雾天图像目标检测方法的具体操作步骤详述如下：

步骤1：收集并预处理通用目标检测数据集图像及标签，并将其定义为模型源域；其中，预处理操作主要包括：翻转，裁剪。

在本步骤中，选择目标类别多，数据量大的MS COCO数据集。在本实施例中，对图像的操作需对应标签的相同操作以保证标签的正确性，且图像在模型输入处均被缩放至256×256的大小。

步骤2：改造骨干网络提升其多尺度性能，将残差网络中的瓶颈结构重建，将瓶颈结构的第一层1×1卷积输出按照通道数均分为若干组，第一组特征不进行额外操作，剩余组的1×1卷积输出处都对应一次卷积操作C_i，也就是除第一组，在本组的卷积操作C_i之前，先将上一组卷积C_i-1的输出残差连接，最后得到本组输出y_i。由第二组开始，直到最后一组特征。其中，卷积操作可以用公式表示如下。

其中，y_i为第i组输出，x_i为第i组输入，C_i代表第i组卷积操作。m为按照通道数均分的数量。

本实施例中，如图3所示，将第一层输出按照通道分为4组。

步骤3：使用步骤1中预处理后的数据集训练目标检测模型；其方法步骤主要包括：设定总训练轮次及终止训练的损失阈值，每进行若干轮次训练就测试一次模型精度，若此精度高于此前保存的模型结果，则保存此轮训练的模型权重，最后得到总训练过程中精度最高的权重结果。

在本实施例中，目标检测模型选用Mask-RCNN。训练分为多次，每次训练的总轮次设定为10轮，每进行2轮训练根据精度是否最高保存一次模型权重，训练过程中损失值低于0.2时终止训练，当训练结束后，只保留训练过程中精度最高的模型权重文件。

步骤4：搭建域分类器模型用于域自适应训练，具体包括如下内容：

(4.1)残差网络每经过一次池化操作会将特征缩小一半，按照特征的尺度进行分组，依次由低层到高层得到残差网络每一组的特征输出。如图4所示，左侧F1-F4代表残差网络4个组产生的输出特征，F1组的特征尺度为256×256，进行四次2×2卷积后尺度变为16×16，而F2组的特征进行了3次卷积，尺度同样为16×16，以此类推。

(4.2)如图4所示，在上述操作完成后，在F1-F4的每一组特征都会与另一特征向量进行点乘操作，这一特征向量是较高层特征所在组的全局池化产生的。在各组的点乘操作完成后，最终产生的域分类器特征为各组输出特征的拼接。

(4.3)将域分类器的损失设计为MSE损失，如下所示：

其中，D_p为预测域标签值，D_t为第t个实际域标签值，t取值范围为[1，n]，n为样本数量。

(4.4)在域自适应训练过程中的反向传播期间，在反向传播到达骨干网络之前，将域分类器处的梯度的符号反转，再以一定的比例反向传播至所述骨干网络。

在本实施例中，域分类器处采用10％的比例进行反向传播，从而将原本骨干网络的梯度部分反转，目的在于提升骨干网络在目标域雾图上的表现。

在本实施例中，通过梯度反向计算实现负梯度的回传。

步骤5：将雾天图像作为目标域，输入到具有域分类器的检测模型中进行训练，训练过程中需要源域和目标域的域标签以及在源域上的预训练权重参数，进而得到域自适应迁移后的训练模型，具体操作包含如下步骤：

(5.1)获取目标检测数据集作为源域，雾天图像作为目标域。

(5.2)训练期间将源域数据集域标签设定为0，将目标域雾图数据集标签设定为1。

(5.3)设定训练轮次，加载源域数据集训练权重，开始域自适应模型训练。在本实施例中，训练轮次具体为10次。

(5.4)每进行若干轮训练保存并测试一次模型精度，当达到10轮之后，自动保留精度最高的模型。

在本实施例中，每进行一轮域自适应训练，就判断当前轮次的训练模型是否是最优模型，若是则替换本轮模型为最佳模型。

其中，步骤(5.3)中的域自适应训练过程的总体损失函数表示为：

L＝L_cls+L_box+L_domain

在本实施例中，Mask-RCNN网络具有RPN(区域生成网络)结构，可以为图像生成粗略的目标包围框，对生成的所有区域进行前景与背景的分类，分类损失如下：

其中：p_i为RPN网络预测待选框为目标的概率，

为真实标签。其中：

对于已经确定为前景的目标进行分类，同样使用上述的分类损失，区别在于目标类别分类为多分类而非二分类；

对于检测框回归损失，使用Smooth L1 Loss，只有判断为前景时才进行计算检测框损失：

其中，x为目标预测包围框坐标值与真实包围框坐标的差值。

而L_domain为域分类器误差，即步骤(4.3)中的域分类器损失。

步骤6：将待检测雾天图像输入到步骤5中训练好的自适应模型进行目标检测。

检测时无需应用域分类器模型，采用基础检测模型即可。在本实施例中，采用的雾天图像为RESIDE数据集中的真实雾天场景RTTS(Real-world Task-Driven Testing Set)子数据集。

实施例2

如图6所示，本发明实施例提供了一种域自适应雾天图像目标检测装置，包括如下模块：

构建模块，用于对所述目标检测模型搭建域分类器；

在本实施例中，对实施例1和实施例2中的方法和装置进行目标检测实验，其实验结果如下：

各种方法在RTTS数据集进行精度测试结果数值对比见下表1：精确度的单位为：在预测类别正确时，预测框与实际标签方框的交集面积与二者的并集面积的比例，比例值越大，精度越高，1为最大值。最终精确度在所有测试集中取平均值。实验证明了本发明中骨干网络的重建以及域分类器中融合高层注意力均达到了较好效果。其中：表格中方法2与方法4实际检测效果对比见图5。

表1：

方法	精确度
		1.直接应用目标检测模型(Mask-RCNN)	0.6101
2.未融合注意力的本发明中的方法	0.6121
		3.未进行域自适应的本发明中的方法	0.6134
4.本发明中提供的方法	0.6287
		5.先去雾再检测的级联方式(MSCNN+Mask-RCNN)	0.6272

综上所述，本发明实施例提供检测方法和装置应用迁移学习的方式，通过重建骨干网络基础架构增强了目标检测模型的网络多尺度性能，设计融合高层特征注意力的域分类器，通过设计损失函数将源域和目标域的域差体现为回归问题而非分类问题进行域分类器的训练。增强域分类器的鉴别灵活性，实现了端到端的雾天图像检测，显著提高了精度，改善漏检率。相比先去雾再检测的级联系统，本发明不仅无需去雾，并且保证了检测精度，能够更好地应用到自动驾驶场景中。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。