CN112434723B

CN112434723B - 一种基于注意力网络的日/夜间图像分类及物体检测方法

Info

Publication number: CN112434723B
Application number: CN202011163778.6A
Authority: CN
Inventors: 章依依; 王军; 何鹏飞; 徐晓刚; 朱亚光; 曹卫强
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-07-23
Filing date: 2020-10-27
Publication date: 2021-06-01
Anticipated expiration: 2040-10-27
Also published as: CN112434723A

Abstract

本发明公开了一种基于注意力网络的日/夜间图像分类及物体检测方法，该方法首先采集街道摄像头监控视频处理成图像进行标注，结合开源的街道数据集共同构建图像数据集；通过基于特征金字塔的深度卷积神经网络提取图像的表观特征；在所提取特征上预测图像的日/夜属性，并捕获表征日/夜间物体的注意图；基于注意力图对提取的特征图进行加权；最后根据预测的日/夜属性将加权后的特征图输入对应日/夜间的检测头做位置回归与物体分类。本发明旨在通过注意力机制使网络关注到日/夜间的不同特征，并通过两个分支分别完成日/夜间物体的检测，能够提升日/夜间物体检测的性能，可用于街道智能监控系统。

Description

一种基于注意力网络的日/夜间图像分类及物体检测方法

技术领域

本发明属于计算机视觉识别技术领域，尤其涉及一种基于注意力网络的日/夜间图像分类及物体检测方法。

背景技术

目标检测是许多其他经典视觉问题的基础，且具有巨大的实用价值和应用前景，是智能视频监控、自动驾驶、人脸识别、机器人导航等应用领域必不可少的技术要点。随着卷积神经网络CNN的成功，深度学习已被证明是一个有效的解决方案。

目标检测需要完成以下三个任务：

1.区分出前景物体框与背景，并为它们分配适当的类别标签；

2.回归一组系数，最大化检测框和目标框之间的交并比（IoU）或其它指标；

3.通过NMS移除冗余的边界框，减少对同一目标的重复检测。

近年来，目标检测两个最主要的研究点为：更好的基础网络backbone、融合不同卷积层的特征融合feature fusion。目前目标检测主流的框架分为两类：以Faster RCNN为代表的双阶目标检测器和以Yolo为代表的单阶目标检测器。单阶目标检测器（SSD,RetinaNet,YoloV3)以速度快著称，在训练和推理过程中同时进行分类和预测框的回归。双阶目标检测器先经过RPN提取出背景框和物体框，再通过ROI Pooling将其输入检测器进行分类和框位置的回归。经过了两次的回归处理，其精度会比单阶检测器略有提升，但速度有所下降。因此在对检测速度要求较高的工业界，通常会采用单阶目标检测器作为基础模型。

在自然场景下，目标检测过程中会产生许多不确定因素，如图像中物体大小差异大，同类物体在不同场景下具有不同的外观姿态等，加之光照、遮挡等因素的干扰，导致检测算法具有一定的难度。研究结果表明，目标检测模型在夜间极端环境下的检测性能大大不如光照充足环境下的性能。其原因主要在于夜间图像像素低、信息量少、特征难以提取等。

针对该问题，现有技术主要是通过图像增强技术恢复夜间图像的亮度，使其看上去与日间图像更为接近。然而该技术产生的增强图像往往加入了许多噪声，与真实图像的特征分布产生了偏差，并不有利于目标检测的检测性能。在应用过程中，夜间图像需要先经过增强网络，再经过检测网络，时间复杂度高，检测速度慢，并不适用于工业应用场景，例如需要接近实时的智能视频监控系统。另外模型训练比较复杂，无法实现端到端的训练。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于注意力网络的日/夜间图像分类及物体检测方法。鉴于夜间图像与日间图像特征分布不同，检测器需要关注的特征也不同，本发明提出采用多分支的方法，将该问题解耦为多任务问题，实现端到端的训练。夜间图像检测任务与日间图像检测任务共享特征提取的基础网络，分不同的检测头关注不同的特征区域，从而提升各个任务的性能，且推理速度不受影响。

本发明的目的是通过以下技术方案来实现的：一种基于注意力网络的日/夜间图像分类及物体检测方法，包括以下步骤：

（1）采集图像集，包括日间图像和夜间图像，每个图像标记物体所在区域的左上角位置坐标和宽高以及物体类别；

（2）采用残差网络的Conv3_x，Conv4_x，Conv5_x对步骤（1）采集的图像进行特征提取，并使用特征金字塔网络进行多尺度特征提取，分别获得三层特征图，记为{P3、P4、P5}；

（3）构建二分类头，包括以下子步骤：

（3.1）对步骤（2）得到的P3特征图下采样得到P3_down，对P5特征图上采样得到P5_up；通过下式将特征图{P3_down、P4、P5_up}进行特征融合，得到特征图P：

其中，

代表特征图中的每一个特征点；

（3.2）将步骤（3.1）得到的特征图P经过卷积神经网络后得到注意力图A；

（3.3）将步骤（3.2）得到的注意力图A经过全局平均池化得到

的特征向量，并经过一个全连接层和softmax层后输出图像为日间图像和夜间图像的概率，概率较大的一类为二分类结果；

（4）将步骤（3.2）得到的注意力图A上采样得到A_up，下采样得到A_down；将{A、A_down、A_up}分别与步骤（2）得到的特征图{P4、P3、P5}进行加权融合得到特征图{A3、A4、A5}：

（5）构建日间检测头与夜间检测头，两者网络结构相同，均由多分类头网络和回归头网络组成，具体为：

（5.1）构建多分类头网络：将步骤（4）得到的特征图{

}分别经过4层卷积后，再经过一层输出通道为C的卷积生成

的分类结果；其中，

表示特征图的高，

表示特征图的宽，

的分类结果是对特征图中

个特征点分别做

个类别的概率预测，并选择概率最高的类别作为该点的分类预测结果，并将此概率值作为该点属于该类别的置信度；其中三层特征图共享多分类头网络，减少网络参数以提高训练效率；

（5.2）构建回归头网络：将步骤（4）得到的特征图{

}分别经过4层卷积后，再经过一层输出通道为4的卷积生成

的回归结果；其中，4个通道分别为

，代表对每个特征点预测得到的目标物体的

坐标值及所在区域框的宽高

，得到每个特征点对应的目标物体检测框；其中三层特征图共享回归头网络，减少网络参数以提高训练效率；

（5.3）将三层特征图{A3、A4、A5}经过步骤（5.1）得到的分类结果和经过步骤（5.2）得到的回归结果，进行合并得到检测结果；

（6）对步骤（3）构建的二分类头、步骤（5.1）构建的多分类头网络和步骤（5.2）构建的回归网络的损失进行加权求和得到总损失；其中，日间检测头由日间图像训练得到；夜间检测头由夜间图像训练得到；

（7）将待测图像经过步骤（2）处理后得到的{P3、P4、P5}三层特征图，输入二分类头预测为日间图像或夜间图像，再将二分类头中得到的注意力图经过步骤（4）处理得到特征图{A3、A4、A5}，根据二分类头预测结果将特征图{A3、A4、A5}输入对应的日间检测头或夜间检测头，得到的检测结果为待测图像中每个特征点的目标物体检测框和所属类别；保留检测结果中目标物体检测框置信度前300的检测框，对所述300个检测框做非极大值抑制，剔除交并比大于阈值的目标物体检测框，剩余的目标物体检测框及所属类别为最终的预测结果。

进一步地，所述步骤（1）采集的图像集中日间图像和夜间图像数量相同。

进一步地，所述步骤（1）中物体类别包括行人、骑行者、轿车、公交车、货车、自行车、摩托车、交通灯、交通指示牌和火车。

进一步地，所述步骤（2）中的残差网络为ImageNet数据集预训练过的ResNet101深度残差网络。

进一步地，所述步骤（3.2）为将步骤（3.1）得到的特征图P经过四层卷积神经网络后得到注意力图A。

进一步地，所述步骤（7）中交并比的阈值为0.5。

本发明的有益效果是：

1、将街道物体检测解耦为夜间检测与日间检测两个任务进行多任务学习，使夜间检测头与日间检测头具有更明确的任务目标。本发明在BDD验证数据集下能达到32.8%的平均准确率（Mean Average Precision），其中日间图像达到34.2%，夜间图像达到31.1%，有效地提升了日夜间物体检测性能；

2、针对物体在夜间与日间环境下模型应关注的特征相差较大的特点，例如在夜间图像中，主要通过车灯及车灯附近特征来确定是否存在车辆，而日间环境下则是通过车辆轮廓来区分；利用注意力网络使分支关注到不同的特征区域，从而加强分支对各自任务的针对性；

3、夜间图像像素低、信息量少、特征难以提取，通常提取夜间图像特征需要模型输入大量的夜间图像进行训练；本发明使用日间图像与夜间图像共同训练骨干网络，有利于解决夜间图像特征难以提取的问题；

4、本发明能同时应对日间、夜间的图像检测任务，在光照变化大的场景具有突出的应用意义，例如24小时全天候智能监控系统。

附图说明

图1是基于特征融合的注意力网络结构图；

图2是基于注意力网络的日/夜间检测头网络结构图；

图3是本发明的算法流程图。

具体实施方式

下面根据附图详细说明本发明。

如图1~3所述，本发明基于注意力网络的日/夜间图像分类及物体检测方法，包括以下步骤：

步骤一：利用带有黑夜白天街道目标的伯克利大学开源街道数据集BerkeleyDeepDrive(BBD)及本地独立采集标注的图像数据共同构造数据集，并按照4：1分为训练集和测试集；其中，每个图像样本标记为日间图像或夜间图像，每个图像样本标记目标物体所在区域的目标框及目标物体的类别，包括行人、骑行者、轿车、公交车、货车、自行车、摩托车、交通灯、交通指示牌、火车共10个类别，对目标检测训练数据集进行预处理，使得训练集中日间和夜间图像比例达到基本平衡。构造数据读取器，分批次读取日间与夜间图像，并对数据进行shuffle打乱以确保数据读取的随机性。重写数据读取器Dataloader和数据采样器Sampler，使一次迭代过程中读取等数量的日间与夜间图像，从而确保两个任务在训练过程中参数更新进度平衡。

如图1所示，为步骤二~步骤三；图像经过骨干网络ResNet101的Conv3_x、Conv4_x、Conv5_x提取特征并融合后得到P3、P4、P5三层特征图，并进行特征融合得到特征P，再经过四层卷积后得到注意力图A后，经过全局平均池化输出256维度的向量，最后经过一个全连接层后进入二分类头，得到日间/夜间图像分类结果。

步骤二：通过深度卷积神经网络进行图像特征提取，并使用特征金字塔网络FPN进行多尺度特征提取：

（2.1）基础网络预训练

选择ResNet101深度残差网络作为骨干网络，并在ImageNet数据集上进行预训练，使网络具备先验知识，避免训练初始阶段损失过大，模型难以收敛的情况。其中，骨干网络ResNet101中Conv1和Conv2_x不参与参数更新。

（2.2）特征金字塔网络完成多尺度特征提取

训练集图像经过骨干网络ResNet101的Conv3_x，Conv4_x，Conv5_x提取特征，分别经过一层

卷积网络输出得到{P3_mid、P4_mid、P5}；P5经过上采样与P4_mid融合得到 P4，P4经过上采样与P3_mid融合得到P3。不同感受野的{P3、P4、P5}三层特征图分别负责小、中、大不同尺度的物体；P3细节信息丰富，感受野最小，用以检测小物体；P5语义信息丰富，感受野最大，用以检测大物体。

步骤三：将步骤二提取的三层多尺度特征层做特征融合，并添加四层卷积网络获取注意力图，将注意力图经过平均全局池化后通过一个全连接层和一层softmax层，最终得到日间夜间的二分类头，用以捕获日/夜间属性：

（3.1）对P3特征图进行S倍下采样downsampled得到P3_down，每个特征值变为原特征图

窗口内所有特征点的均值，本实施例S=2：

其中，

表示下采样后特征图的每个特征点，

表示k在原特征图上对应的S ×S窗口；

表示原特征图中一个窗口

内的特征点，本实施例为4个；P3_i为原特征图P3 中特征点

的特征值。

（3.2）对P5特征图进行S倍上采样upsampling得到P5_up。

（3.3）将{P3_down、P5_up、P4}进行特征融合得到特征P，公式为：

其中，

、P3_down _i 、P5_up _i、P4_i表示P、P3_down、P5_up、P4中第

个特征点的特征值。

（3.4）特征P经过4层卷积网络，输出

的注意力图A；其中，

表示注意力图的高，

表示注意力图的宽；将该注意力图经过全局平均池化Global Average Pooling输出256维度的向量，再经过全连接层输出2维向量；经过softmax层后该向量的2个维度分别表示输入图像为日间图像的概率和夜间图像的概率，如属于日间图像的概率较大则预测分类结果为日间图像，属于夜间图像的概率较大则预测分类结果为夜间图像，最终得到日间夜间二分类头。

如图2所示，为步骤四~五的流程图；特征图P3、P4、P5输入日间/夜间检测头后，先与注意力图A进行特征融合；以特征图P4对应的夜间检测头为例，融合后的特征图A4分别进入分类头和回归头，分类头为先经过四层卷积后经过一层输出通道为C的卷积生成

的分类结果，回归头为先经过四层卷积后经过一层输出通道为4的卷积生成

的回归结果；不同特征层P3、P4、P5共享日间/夜间检测头。

步骤四：将步骤三中的注意力图与步骤二提取的三层特征图逐层进行加权融合，具体为：步骤（3.4）得到的注意力图A的大小与P4特征图大小一致，故与P3、P5融合时需要先经过S倍的上、下采样得到A_up和A_down；将注意力图{A、A_down、A_up}分别与步骤（2.2）得到的特征图{P4、P3、P5}进行加权融合得到特征图{A4、

、

}，公式为：

其中，i表示特征图中每个特征点位置。

步骤五：将步骤四得到的特征图{A3、A4、A5}根据真实的日间/夜间标签分别输入日间检测头和夜间检测头做位置回归与目标物体分类；其中，日间检测头与夜间检测头网络结构相同，均由多分类头网络和回归网络组成：

（5.1）构建多分类头网络：步骤四得到的融合特征图{

}分别经过4层卷积后，经过一层输出通道为C的卷积生成

的分类结果；其中，

表示融合特征图的高，

表示融合特征图的宽，对融合特征图的

个特征点分别做

个类别的概率预测；本实施例中C=10，表示10个目标物体的类别；选择最高概率对应的类别作为该特征点的类别预测结果，并将此概率值作为该点属于该类别的置信度。其中三层特征图共享多分类头网络，减少网络参数以提高训练效率。

（5.2）构建回归网络：步骤四得到的融合特征图{

}分别经过4层卷积后，经过一层输出通道为4的卷积生成

的回归结果，4个通道

分别代表每个特征点预测得到的目标物体的

坐标值及检测框宽高

。其中三层特征图共享回归头网络，减少网络参数以提高训练效率。

（5.5）网络包括三个损失：多分类损失

oss、回归损失

和二分类损失

；

根据步骤（3.4）构建的二分类头的预测分类结果与图像真实分类的计算二分类交叉熵损失

，公式为：

其中，

表示真实标签，

表示预测标签，N表示训练集一个批量的样本个数，即 batch_size，本实施例为8。

步骤（5.1）构建的多分类头网络采用Focal loss解决了正负样本不平衡以及难易样本的问题，多分类损失Focal loss的计算公式为：

其中，

表示在

坐标处通过分类得到的置信度，

表示该位置上目标所属的真实类别标签，1表示正样本，0表示负样本；

是大于0的值，

是[0，1]间的小数，

和

都是固定值，不参与训练。其中

取0.25，

取2时效果最佳。

步骤（5.2）构建的回归网络采用IOU交并比损失IoU loss，公式为：

其中，

与

分别表示预测及真值的目标框坐标，

表示该目标框的面积。

对每个损失进行加权求和，并使用超参数

调节各损失函数的权重得到总损失，根据步骤（5.3）得到的三层特征图对应的检测结果和真值训练整个网络的总损失；

的计算公式为：

其中，

为权重，本实施例中

。

表示一个批量的图像中正样本的个数，

是一个指示函数，当

时为1，反之则为0。基于损失函数

对网络进行反向传播，并通过批量梯度下降法不断更新网络参数，在90000次批量训练后模型达到收敛。

步骤六：推理阶段将待测图像经过步骤二处理后输入步骤三构建的二分类头预测为日间图像或夜间图像，将步骤（3.4）得到的注意力图经过步骤四处理后，根据二分类头预测结果分别输入对应的步骤五构建的日间检测头或夜间检测头检测，得到的检测结果为待测图像中每个特征点的目标物体检测框和对应的类别。保留检测结果中目标物体检测框置信度前300的检测框，对所述300个检测框做非极大值抑制，根据交并比剔除冗余的检测框，非极大值抑制的交并比阈值为

。

如图3所示，为步骤一~步骤六的整个算法流程；通过筛选BDD数据集或标注独立采集获得的数据得到训练集和测试集；训练集经过骨干网络和注意力网络后日间图像用于训练日间检测头，夜间图像用于训练夜间检测头，最后根据网络预测的结果和真值训练整个网络；预测集输入训练好的骨干网络再进入注意力网络，根据日间/夜间图像的分类结果输入对应的日间/夜间检测头，最终输出分类结果与检测框的回归结果。

Claims

1.一种基于注意力网络的日/夜间图像分类及物体检测方法，其特征在于，包括以下步骤：

(1)采集图像集，包括日间图像和夜间图像等，每个图像标记物体所在区域的左上角位置坐标和宽高以及物体类别等；

(2)采用残差网络的Conv3_x，Conv4_x，Conv5_x对步骤(1)采集的图像进行表观特征提取，并使用特征金字塔网络进行多尺度特征提取，分别获得三层特征图，记为{P3、P4、P5}；

(3)构建二分类头：将步骤(2)提取的{P3、P4、P5}三层特征图做特征融合得到一层特征图记为P，P经过卷积网络后得到注意力图A，将注意力图A经过平均全局池化后通过一个全连接层和softmax层；

(4)将步骤(3)得到的注意力图A上采样得到A_up，下采样得到A_down；将{A、A_down、A_up}分别与步骤(2)得到的特征图{P4、P3、P5}进行加权融合得到特征图{A3、A4、A5}，具体为：将A与P4融合得到A3，将A_down与P3融合得到A4，将A_up与P5融合得到A5；

(5)构建日间检测头与夜间检测头，两者网络结构相同，均由多分类头网络和回归头网络组成；其中不同特征层之间共享日间检测头及夜间检测头网络参数，日间检测头与夜间检测头之间参数不共享；所述多分类头网络将步骤(4)得到的特征图{A3、A4、A5}分别经过四层卷积后经过输出通道为C的卷积生成分类结果，C为物体类别个数；所述回归头网络将步骤(4)得到的特征图{A3、A4、A5}分别经过四层卷积后经过输出通道为4的卷积生成回归结果；将三层特征图的分类结果和回归结果合并得到检测结果；

(6)对步骤(3)构建的二分类头、步骤(5)构建的多分类头网络和回归网络的损失进行加权求和得到总损失；其中，日间检测头由日间图像训练得到；夜间检测头由夜间图像训练得到；

(7)将待测图像经过步骤(2)处理后得到的{P3、P4、P5}三层特征图，输入二分类头预测为日间图像或夜间图像，再将二分类头中得到的注意力图经过步骤(4)处理得到特征图{A3、A4、A5}，根据二分类头预测结果将特征图{A3、A4、A5}输入对应的日间检测头或夜间检测头，得到的检测结果为待测图像中每个特征点的目标物体检测框和所属类别；保留检测结果中目标物体检测框置信度前300的检测框，对300个检测框做非极大值抑制，剔除交并比大于阈值的目标物体检测框，剩余的目标物体检测框及所属类别为最终的预测结果。

2.根据权利要求1所述基于注意力网络的日/夜间图像分类及物体检测方法，其特征在于，所述步骤(3)包括以下子步骤：

(3.1)对步骤(2)得到的P3特征图下采样得到P3_down，对P5特征图上采样得到P5_up；

通过下式将特征图{P3_down、P4、P5_up}进行特征融合，得到特征图P：

其中，i代表特征图中的每一个特征点；

(3.2)将步骤(3.1)得到的特征图P经过卷积神经网络后得到注意力图A；

(3.3)将步骤(3.2)得到的注意力图A经过全局平均池化得到1×1×256的特征向量，并经过一个全连接层和softmax层后输出图像为日间图像和夜间图像的概率，概率较大的一类为二分类结果。

3.根据权利要求2所述基于注意力网络的日/夜间图像分类及物体检测方法，其特征在于，所述步骤(3.2)为将步骤(3.1)得到的特征图P经过四层卷积神经网络后得到注意力图A。

4.根据权利要求2所述基于注意力网络的日/夜间图像分类及物体检测方法，其特征在于，所述步骤(4)中将{A、A_down、A_up}分别与步骤(2)得到的特征图{P4、P3、P5}进行加权融合得到特征图{A3、A4、A5}，具体为：

其中，i代表特征图中的每一个特征点。

5.根据权利要求3所述基于注意力网络的日/夜间图像分类及物体检测方法，其特征在于，所述步骤(5)包括以下子步骤：

(5.1)构建多分类头网络：将步骤(4)得到的特征图{A3、A4、A5}分别经过4层卷积后，再经过一层输出通道为C的卷积生成H×W×C的分类结果；其中，H表示特征图的高，W表示特征图的宽，H×W×C的分类结果是对特征图中H×W个特征点分别做C个类别的概率预测，并选择概率最高的类别作为该点的分类预测结果，并将此概率值作为该点属于该类别的置信度；其中三层特征图共享多分类头网络，减少网络参数以提高训练效率；

(5.2)构建回归头网络：将步骤(4)得到的特征图{A3、A4、A5}分别经过4层卷积后，再经过一层输出通道为4的卷积生成H×W×4的回归结果；其中，4个通道分别为x，y，w，h，代表对每个特征点预测得到的目标物体的x，y坐标值及所在区域框的宽高w，h，得到每个特征点对应的目标物体检测框；其中三层特征图共享回归头网络，减少网络参数以提高训练效率；

(5.3)将三层特征图{A3、A4、A5}经过步骤(5.1)得到的分类结果和经过步骤(5.2)得到的回归结果，进行合并得到检测结果。

6.根据权利要求1所述基于注意力网络的日/夜间图像分类及物体检测方法，其特征在于，所述步骤(1)采集的图像集中日间图像和夜间图像数量相同。

7.根据权利要求1所述基于注意力网络的日/夜间图像分类及物体检测方法，其特征在于，所述步骤(1)中物体类别包括行人、骑行者、轿车、公交车、货车、自行车、摩托车、交通灯、交通指示牌和火车。

8.根据权利要求1所述基于注意力网络的日/夜间图像分类及物体检测方法，其特征在于，所述步骤(2)中的残差网络为ImageNet数据集预训练过的ResNet101深度残差网络。

9.根据权利要求1所述基于注意力网络的日/夜间图像分类及物体检测方法，其特征在于，所述步骤(7)中交并比的阈值为0.5。