CN114972976A

CN114972976A - 基于频域自注意力机制的夜间目标检测、训练方法及装置

Info

Publication number: CN114972976A
Application number: CN202210902801.1A
Authority: CN
Inventors: 章依依; 虞舒敏; 应志文; 郑影; 徐晓刚; 王军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-08-30
Anticipated expiration: 2042-07-29
Also published as: JP7357176B1; CN114972976B; JP2024018938A

Abstract

本发明公开了基于频域自注意力机制的夜间目标检测、训练方法及装置，采用具有夜间图像检测标签的开源数据集训练检测网络，首先将输入图像进行预处理，使其从RGB转化为YUV通道，分别将三个通道的图像划分成多个区块；对于三个通道的各个区块，分别进行DCT离散余弦变换；将各个区块中属于同一频域的信息依据其原本的空间关系存入同一通道中，生成数个代表不同频域的通道；将所有频域通道输入自注意力网络模块，该模块通过计算各通道之间的可缩放点积自注意力，输出每个通道动态加权后的数值，再将其分别输入相同的多层感知器MLP；将输出结果输入检测网络中，最终获得图像的检测结果。

Description

基于频域自注意力机制的夜间目标检测、训练方法及装置

技术领域

本发明涉及计算机视觉识别技术领域，尤其是涉及基于频域自注意力机制的夜间目标检测、训练方法及装置。

背景技术

目标检测是许多其他经典视觉问题的基础，且具有巨大的实用价值和应用前景。检测RGB摄像机拍摄的夜间场景图片中的物体，是一个非常重要但是未被充分重视的问题，当前最新的视觉检测算法往往在夜间场景下无法达到预期的性能。

夜间目标检测是许多系统（如安全可靠的自动驾驶汽车）的关键组成部分。以行人检测为例，官方算法在Caltech（著名行人检测数据集）上的错误率（越小越好）可以达到7.36%，但在夜间行人数据集上却只能达到63.99%。

夜间目标检测性能低下，主要原因在于目前深度学习网络对于光照信息以及低频信息比较敏感。众所周知，夜间拍摄的图像，存在噪声大、轮廓不清、纹理模糊的问题。这也直接导致了通用的特征提取网络无法提取到充分的特征信息进行学习和分辨。

已有研究表明，人眼对色度的敏感程度要低于对亮度的敏感度。因此YUV图像（Y通道代表图像的亮度信息）表示更符合人眼的视觉特性。此外，研究人员发现神经网络对图像不同频域的敏感度不同。基于白天图像训练的模型中，低频信息被证明是更有效的，而高频信息往往被忽略。然而夜间图像与白天图像分布及其不同，夜间图像本身具有的低频信息十分有限。因此，在频域层面对图像进行动态加权，使模型选择到最有利于提升性能的频域特征，对于夜间场景具有很大的应用前景。

发明内容

为解决现有技术的不足，实现提高夜间图像检测准确率的目的，本发明采用如下的技术方案：

一种基于频域自注意力机制的夜间目标检测训练方法，包括如下步骤：

步骤S1：对训练集图像进行数据预处理，将训练集图像转化为YUV三个通道，并分别对三个通道的图像进行区块的划分，Y表示明亮度，U和V表示色度；

步骤S2：提取三个通道中各区块的高低频信息，同一通道中每个区块相对位置相同的信息代表同一频域的信息；

步骤S3：将各个区块中属于同一频域的信息，依据各区块间的空间关系存入同一频域通道中，得到多个不同频域的通道；

步骤S4：将所有频域通道输入频域自注意力网络，通过计算各通道之间的可缩放点积自注意力，输出每个频域通道经自注意力加权后的频域特征；

步骤S5：输出预测的目标框位置与预测类别，基于特征图中各个特征点对应的真实类别与真值目标框位置，根据损失函数进行夜间目标监督训练。

进一步地，所述步骤S1的数据预处理，包括如下步骤：

步骤S1.1：对训练集图像依次进行随机水平翻转、随机裁剪、图像填充、图像缩放；在图像填充过程中，将图像的宽长用0填充为

的整数倍；在图像缩放过程中，将图像缩放到宽：

，长：

；得到预处理后的图像维度为

，其中3为RGB通道；

步骤S1.2：将训练集图像从RGB转化为YUV通道，分别将三个通道的图像划分成像素宽长为

的

个区块。

进一步地，所述步骤S2中，对于三个通道的各个区块，分别进行DCT离散余弦变换，进而提取每个区块的高低频信息。

进一步地，所述步骤S4包括以下步骤：

步骤S4.1：将各个频域通道从二维向量重塑为一维向量，将各向量串联成矩阵

；

步骤S4.2：将矩阵进行可缩放点积自注意力计算，得到多个频域之间的动态加权后的向量；

所述步骤S4.2的自注意力计算公式为：

其中，将各向量串联成矩阵

作为自注意力计算中的键值key，

，Q表示查询query，V表示值项value，

表示点积操作，用于获取所有向量之间的相似度，

表示缩放尺度，N表示以为向量的长度，该公式可以实现多个频域之间的动态加权，并确保自身频域占据最大权重。

步骤S4.3：将动态加权后的向量，输入相同的多层感知器MLP层，该MLP层由两个全连接层组成，第一层由

个神经元组成，第二层由N个神经元组成；因此输出向量与输入向量维度保持不变；

步骤S4.4：将多层感知器MLP层的输出向量进行串联，并重塑维度，得到经自注意力加权后的频域特征。

进一步地，所述步骤S5包括以下步骤：

步骤S5.1：将所述频域特征输入到检测网络中，输出特征图中各个特征点对应的预测类别、预测目标框；检测网络是将ResNet深度残差网络作为骨干网络，采用经过微调的RetinaNet检测网络，具体删除其骨干网络ResNet中的卷积层conv1和卷积层conv2中的最大池化层，其余层保持不变；

步骤S5.2：基于预测类别和真实类别，通过分类损失进行监督训练，同时，基于预测目标框和真值目标框，通过回归损失共同进行监督训练。

进一步地，所述步骤S5.2中的分类损失采用Focal Loss分类损失，计算公式为：

其中，x表示特征图第x行，y表示第y列的位置，

表示在

坐标处通过预测类别得到的分类置信度，

表示在

坐标处目标所属的真实类别的分类置信度，1表示正样本，0表示负样本；

是大于0的值，

是[0，1]间的小数，

和

都是固定值，不参与训练。

进一步地，所述步骤S5.2中的回归损失采用IOU交并比损失，计算公式为：

其中，x表示特征图第x行，y表示第y列的位置，

表示

坐标处对应的预测目标框坐标，

表示

坐标处对应的真值的目标框坐标，

表示该目标框的面积。

一种基于频域自注意力机制的夜间目标检测训练装置，包括预训练模块、高低频信息提取模块、同频域信息存储模块、自注意力网络模块和检测网络模型；

所述预训练模块，对训练集图像进行数据预处理，将训练集图像转化为YUV三个通道，并分别对三个通道的图像进行区块的划分，Y表示明亮度，U和V表示色度；

所述高低频信息提取模块，提取三个通道中各区块的高低频信息，同一通道中每个区块相对位置相同的信息代表同一频域的信息；

所述同频域信息存储模块，将各个区块中属于同一频域的信息，依据各区块间的空间关系存入同一频域通道中，得到多个不同频域的通道；

所述自注意力网络模块，将所有频域通道输入频域自注意力网络，通过计算各通道之间的可缩放点积自注意力，输出每个频域通道经自注意力加权后的频域特征；

所述检测网络模型，将频域特征输入到检测网络中，输出预测的目标框位置与预测类别，基于特征图中各个特征点对应的真实类别与真值目标框位置，根据损失函数进行夜间目标监督训练。

一种基于频域自注意力机制的夜间目标检测方法，将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练方法，进行预处理、高低频信息提取和存入同一频域通道后，输入完成训练的自注意力网络和检测网络中，得到检测结果。

一种基于频域自注意力机制的夜间目标检测装置，包括：

所述的基于频域自注意力机制的夜间目标检测训练装置；和

输入模块，用于将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练装置中，经预训练模块、高低频信息提取模块、同频域信息存储模块后，依次输入完成训练的自注意力网络模块和检测网络模型，得到检测结果。

本发明的优势和有益效果在于：

1、将输入图像从RGB转为YUV通道，更符合人眼视觉特性，通过将亮度Y通道分离出来，可以捕捉到亮度通道中不同频域的视觉信息，从而提升夜间目标检测性能；

2、通过频域自注意力网络模块中的可缩放自注意力计算，动态提高有用频域的权重，降低冗余频域的权重，从而提高频域信息的利用率；

3、该方法可以即插即用到任何以ResNet深度残差网络为骨干网络的检测网络中（不限于RetinaNet），并相对于RetinaNet-ResNet50和RetinaNet-ResNet101 两个baseline分别提升了MAP3.70%和2.88%准确率。

附图说明

图1是本发明实施例中方法的整体架构图。

图2是本发明实施例中方法的流程图。

图3是本发明实施例的方法中频域自注意力网络模块的执行流程图。

图4是本发明实施例中装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1、图2所示，基于频域自注意力机制的夜间目标检测训练方法，包括以下步骤：

在数据预处理前，可以进行数据集的构建：下载开源夜间目标检测数据集Exclusively Dark（ExDark），该数据集包含12个类别：自行车、船、瓶子、杯子、公交车、轿车、猫、椅子、狗、摩托车、人和桌子，按照4:1:1的比例创建训练集、验证集和测试集；

对上述训练集图像进行数据预处理，具体包括以下步骤：

的整数倍；在图像缩放过程中，将图像缩放到宽：

，长：

；得到预处理后的图像维度为

，其中3为RGB通道；

图1为简化图，图像大小为，

，s=n=2，同一数字代表同一频域；而本发明的实施例中s=8，n=64，因此预处理后的图像维度为

，其中3为RGB通道；

的

个区块；

本发明实施例中成像宽长为

的区块，因此三个通道各划分成

个区块；Y表示明亮度（单取此通道即可得灰度图），U和V表示色度，描述图像的色彩饱和度，用于指定像素的颜色。

对于三个通道的各个区块，分别进行DCT离散余弦变换，进而提取每个区块的高低频信息。

本发明实施例中，提取每个区块的高低频信息，此时图像维度仍然是

，但代表的信息变成了各个区块的频域信息，其中，同一通道里每个区块相对位置相同的信息代表同一频域的信息。

步骤S3：将各个区块中属于同一频域的信息，依据各区块间的空间关系存入同一频域通道中，得到多个不同频域的通道；则共生成

个代表不同频域的通道，每个通道大小为

；

本例中每个原通道有

个区块，因此原

图像被分解成

的频域通道，代表图像的192种频域；

步骤S4：将所有频域通道输入频域自注意力网络，通过计算各通道之间的可缩放点积自注意力，输出每个频域通道经自注意力加权后的频域特征，如图3所示，包括如下步骤：

步骤S4.1：将各个频域通道从二维向量

重塑为一维向量

，则共产生

(记为

)个长度为

(记为

)的1维向量，将各向量串联而矩阵

，

；

本发明实施例中，共产生S:192个长度为N:4096的一维向量，将各向量串联而成的矩阵记为

，

；

步骤S4.2：将矩阵进行可缩放点积自注意力计算，得到多个频域之间的动态加权后的向量，其计算公式为：

其中，将各向量串联成矩阵

作为自注意力计算中的键值key，

，Q表示查询query，V表示值项value，

代表点积操作，用于获取所有向量之间的相似度，

表示缩放尺度，N表示以为向量的长度，该公式可以实现多个频域之间的动态加权，并确保自身频域占据最大权重；

本发明实施例中N=4096，输出维度为

的向量；Q表示查询query，K表示键值key，V表示值项value。

个神经元组成，第二层由N个神经元组成；

本发明实施例中，步骤S4.2计算输出的向量按照192个维度为

的向量，分别输入相同的MLP（Multilayer Perceptron，多层感知器）层，该MLP层由两个全连接层组成，第一层由

个神经元组成，第二层由4096个神经元组成。因此输出向量与输入向量维度保持不变；

步骤S4.4：将多层感知器MLP层的输出向量进行串联，并重塑维度，得到经自注意力加权后的频域特征；具体地，将上述S个输出向量进行串联，得到

的向量，并将其重塑reshape为维度

的向量，该向量为经过自注意力加权之后的频域特征；

本发明实施例中，将上述192个输出向量进行串联，得到

的向量，并将其重塑reshape为维度

的向量，该向量为经过自注意力加权之后的频域特征；

步骤S5：将频域特征输入到检测网络中，基于预测值与真值，根据损失函数进行夜间目标监督训练，包括如下步骤：

步骤S5.1：将所述频域特征输入到检测网络中；具体地，将频域特征输入到以ResNet深度残差网络为骨干网络的检测网络中，该检测网络采用经过微调的RetinaNet检测网络，具体删除其骨干网络（ResNet）中的conv1层和conv2层里的最大池化层，其余层保持不变；

步骤S5.2：采用通过分类损失和回归损失共同监督训练；具体地，将步骤S4.4输出的频域特征输入到上述检测网络中进行训练，分类损失采用Focal Loss，回归损失采用IOU交并比损失；

分类损失采用Focal Loss分类损失，计算公式为：

其中，x表示特征图第x行，y表示第y列的位置，

表示在

坐标处通过预测类别得到的分类置信度，

表示在

是大于0的值，

是[0，1]间的小数，

和

都是固定值，不参与训练。

回归损失采用IOU交并比损失，计算公式为：

其中，x表示特征图第x行，y表示第y列的位置，

表示

坐标处对应的预测目标框坐标，

表示

坐标处对应的真值的目标框坐标，

表示该目标框的面积。

步骤S5.3：使用同步SGD（stochastic gradient descent，随机梯度下降）作为优化器，在8个GPU上进行训练，batch size为16，训练步数为90k，初始学习率为0.01，之后在60k步和80k步时缩小10倍；

本发明实施例中，推理时，输入图像经过步骤S1的预处理到步骤S3后，依次输入到完成训练的自注意力网络模块和检测网络中，得到图像中的目标类别与定位。

一种基于频域自注意力机制的夜间目标检测装置，包括：

所述的基于频域自注意力机制的夜间目标检测训练装置；和

与前述基于频域自注意力机制的夜间目标检测方法的实施例相对应，本发明还提供了基于频域自注意力机制的夜间目标检测设备的实施例。

参见图4，本发明实施例提供的基于频域自注意力机制的夜间目标检测设备，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于频域自注意力机制的夜间目标检测方法。

本发明基于频域自注意力机制的夜间目标检测设备的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明基于频域自注意力机制的夜间目标检测设备所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于频域自注意力机制的夜间目标检测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。