CN115115907A

CN115115907A - 一种基于cqd蒸馏的低照度目标检测方法

Info

Publication number: CN115115907A
Application number: CN202210751972.9A
Authority: CN
Inventors: 江泽涛; 黄钦阳
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-27
Anticipated expiration: 2042-06-29
Also published as: CN115115907B

Abstract

本发明公开了一种基于CQD蒸馏的低照度目标检测方法，包括以下步骤：1）获取低照度图像数据集ExDark，并进行处理和划分得到训练集ExDark‑Train和测试集ExDark‑Test；2）将ExDark‑Train数据输入到CQD‑Net中进行蒸馏学习；3）采用CQD蒸馏方法，利用训练好的教师网络对学生网络进行低照度知识蒸馏优化学生网络；4）目标检测。这种方法能够将低光照环境下的教师网络的知识蒸馏到学生网络中，压缩了学生网络大小的同时，使得学生网络也能具备有效的低照度图像目标检测能力，提升了其在低照度环境下的目标检测准确度。本发明能够有效选取待蒸馏区域，提升蒸馏效率，且在不改变学生网络结构，不增加计算消耗的前提下提升最终的轻量化目标检测网络的检测精度。

Description

一种基于CQD蒸馏的低照度目标检测方法

技术领域

本发明涉及深度学习、低照度图像增强、目标检测技术以及知识蒸馏技术，具体一种基于连续和量化距离CQD(Continuous and Quantified Distances，简称CQD)蒸馏的低照度目标检测方法。

背景技术

目标检测任务是计算机视觉领域里最经典也是最基础的任务之一，在深度学习中，可以利用深度学习自学习的特点，大大降低手动特征提取的复杂度，基于深度学习的目标检测已经被应用在很多真实世界的场景中，例如行人识别任务，自动驾驶技术、图像分割任务等。目前，低照度图像的目标检测已经取得了一定的成果，但是相应的模型不是过于庞大就是过于复杂，导致难以将低照度目标检测技术应用在计算能力相对较差的轻量级的设备上，这是基于深度学习的方法普遍的一个难点和痛点。

为了能够在资源受限的边缘设备上部署深度学习网络，需要研发高效并且预测精度也有保证的小规模网络。知识蒸馏是搞笑获取小规模网络的一种新型方法，其思想是将学习能力强的但是规模相对较大的教师网络中的知识蒸馏到相对简单的规模较小的学生网络中。目前，知识蒸馏已成为深度学习领域的一个研究热点和重点。

现有的基于目标检测的知识蒸馏方法没办法在低照度的图像上有效蒸馏，而低照度的目标检测模型往往规模较大且复杂。为了有效压缩低照度目标检测模型，并使其能够在轻量级的端侧设备上运行，急需一种有效的低照度目标检测知识蒸馏方法。

发明内容

本发明针对低照度图像目标检测的知识蒸馏方法的缺失，提供一种基于CQD蒸馏的低照度目标检测方法。这种方法能够将低光照环境下的相对复杂的教师网络学习到的知识蒸馏到学生网络中，使得更为简单的学生网络也能具备有效的低照度图像目标检测能力。

实现本发明目的的技术方案是：

一种基于CQD蒸馏的低照度目标检测方法，包括如下步骤：

1)对低照度图像数据集ExDark进行处理和划分：将ExDark数据集按8:2的比例划分，其中80％为训练集ExDark-Train、共5891张图片，20％为测试集ExDark-Test，共1472张图片；

2)将所有低照度训练集ExDark-Train图片送入到CQD-Net中，即训练集图片分别通过学生网络和训练好的教师网络各自的BackBone之后，在FPN层进行多尺度的特征提取，将学生网络和训练好的教师网络FPN层提取的特征使用CQD蒸馏，将训练好的教师网络掌握的低照度目标检测知识蒸馏到学生网络中，使得学生网络也具备低照度图像的目标检测能力，具体为：

2-1)将训练好的教师网络以及需要蒸馏的学生网络各自的FPN层提取出的特征，记为F1和F2，进行低照度图像信息的蒸馏；

2-2)将步骤2-1)中提取出的图像特征F1和F2分别送入Adaptive Layer和拆分向量量化层LiVQ-Layer，进行拆分向量量化蒸馏Split Vector-Quantified Distillation，其中Adaptive Layer将输入特征F1送入一个核大小为1×1的卷积层将通道数降为3、此时的结果记为A1，然后在通道维度上做softmax得到的结果与A1做对应位置的相乘作为中间结果，中间结果经过一个1×1的卷积，将通道数还原为与F1一致得到输出Z^T，拆分向量量化层LiVQ-Layer先经过核大小为1×1的卷积层把输入特征F2的通道数降为3，模拟RGB中的三个颜色分量，然后划分通道，每一个通道对应一个分支，接着通过三个独立的VQ-Block对每一个分支输入的特征进行量化，图像量化结果的值经过softmax之后与未经过VQ-Block量化的特征进行对应位置的相乘作为该分支的结果，再把3个分支的输出在通道维度进行拼接，最后经过一个核大小1×1的卷积将通道数提升到与F2的通道数一致得到拆分向量量化层LiVQ-Layer的输出Z^S，对Z^T和Z^S采用逐像素的MSE Loss计算学习到的知识的差异，拆分向量量化层LiVQ-Layer模拟了三个不同的颜色分量，将每一种颜色分量特征进行量化抽取出低照度下的图像关键信息，保证了低照度目标检测知识的有效传递和蒸馏，提高了低照度目标检测的准确率和性能，LiVQ-Layer层量化的过程压缩了低照度图像信息，减少了无关信息带来的噪声，突出了少部分对于低照度目标检测带来更多有效信息的低照度图像特征，使得低照度的关键信息能够更容易的从教师网络蒸馏到学生网络中；

2-3)将步骤2-1)中教师网络和学生网络提取出的图像特征分别送入两个独立的MSLS-Layer，进行多视图注意力蒸馏Multi-View Attention Distillation，MSLS-Layer首先将输入特征F通过1×1的卷积层压缩通道数为1，再对H×W大小的特征图进行softmax，得到的结果与F做对应位置的乘积作为下一个阶段的输入，记为M1，将M1分别通过三个1×1的卷积层，分别得到H×W，H/2×W/2和H/4×W/4大小的特征图，再分别通过三个独立的DIF-Block，提取得到三个H×W，H/2×W/2和H/4×W/4大小的低照度视图，将教师网络和学生网络通过MSLS-Layer各自得到的三个不同大小的低照度视图、同尺寸的视图采用逐像素的MSE Loss计算，最后三个不同大小的视图求得MSE Loss所相加的和作为蒸馏的损失；

2-4)基于CQD蒸馏的低照度目标检测训练过程中总的损失函数如公式(1)所示：

公式(1)中的损失函数由3部分组成，第一部分进行多视图注意力蒸馏Multi-ViewAttention Distillation，即教师网络和学生网络经过MSLS-Layer之后得到的3个不同尺寸的低照度视图、相同尺寸的低照度视图求MSE Loss然后相加得到多视图注意力蒸馏损失；第二部分为学生网络通过LiVQ-Layer中的三个独立的VQ-Block进行量化时所需的Commitment Loss的和，即将VQ-Block的输入和量化得到的结果逐像素的求差之后取2范数的平方，Commitment Loss是为了让学生网络能够在梯度更新的同时，更新VQ-Block内部ES空间中的向量，让VQ-Block能够提取出低照度图片的关键信息，公式(1)中sg指的是取消该项的反向传播带来的梯度；第三部分进行拆分向量量化蒸馏Split Vector-QuantifiedDistillation，即将教师网络通过Adaptive Layer得到的Z^T和学生网络通过LiVQ-Layer得到Z^S之间的做逐像素的MSE作为拆分量化蒸馏损失，α，β，γ四个超参数分别控制三个不同部分在总的损失L中的比例，分别取α＝0.005，β＝0.0001，γ＝0.005；

3)将所有低照度测试集ExDark-Test图片送入到训练好的低照度目标检测学生网络，输出检测结果。

步骤2-2)中所述的量化层VQ-Block具体为：

2-2-1)学生网络FPN层的特征经过步骤2-2)所述的拆分向量量化层LiVQ-Layer将通道拆分之后，得到3个代表RGB三色的特征图，作为输入分别送到三个独立的VQ-Block中；

2-2-2)VQ-Block将输入的特征图展平，得到多个与ES空间中向量e长度相同的特征向量Z_e，然后求Z_e中任一特征向量与ES空间中所匹配的向量e_i作为该特征向量量化的结果Z_q，这里的匹配是指Z_e内的特征向量与e_i有最小的L2距离；

2-2-3)ES空间需要一个Commitment Loss对输入Z_e与输出Z_q进行约束，使得Z_e经过ES空间的量化之后，得到的输出Z_q尽可能的与Z_e相接近，即量化的结果尽可能得反映输入特征空间，由于ES空间大小是有限的并且通常小于Z_e大小，量化的结果能够聚焦于低照度图像中的关键信息，利于知识蒸馏，反向传播时Commitment Loss对ES空间内的向量计算梯度并进行更新；

2-2-4)将量化得到的结果Z_q作为输出传送到下一模块。

步骤2-3)中所述的MSLS-Layer具体为：

2-3-1)教师网络和学生网络FPN层分别提取的C×H×W大小特征F1、F2作为输入，将F1、F2记为F，以下步骤对教师网络和学生网络进行同样的操作；

2-3-2)将F输入到MSLS-Layer中进行多视图的低照度信息提取，输入特征F通过一个核大小为1×1的卷积核把通道数降为1，然后在H×W大小的特征图上采用softmax提取得到低照度图像的空间显著性信息、记为S1，S1与F进行对应位置的相乘得到大小为C×H×W的带有空间信息的输出特征图，送入下一步骤；

2-3-3)设置三个独立的分支，将步骤2-3-2)的特征通过1×1的卷积层变换为不同尺寸的视图、变换为三个分别为H×W、H/2×W/2和H/4×W/4大小的视图、分别用来表示不同尺寸的低照度图像信息，然后三个分支分别通过独立的DIF-Block提取不同尺寸的低照度视图信息，最后三个分支分别得到三个H×W、H/2×W/2和H/4×W/4大小的视图V1，V2，V3作为输出。

步骤2-3)中所述的DIF-Block为：

2-3-4)输入特征大小为C×H×W、记为F_dif，输入特征经过一个核大小为3×3的卷积在不改变特征图大小的同时，将输入特征通道数减半变为C/2×H×W，然后送入BatchNorm，再采用Relu函数进行激活，接着采用一个核大小为3×3的卷积将C/2的通道数还原为C，得到的结果与F_dif做对应位置的相加得到大小为C×H×W的特征图F_dif'，F_dif'作为输出送入下一步骤；

2-3-5)F_dif'在通道维度对C个H×W的特征图求均值，得到C个1×1大小的特征图，即得到C×1×1大小的特征图，然后在通道维度上做softmax得到F_dif'在不同通道上的低照度显著性信息、记为C1，C1与F_dif'做通道维度的相乘，得到带有通道信息的特征图作为输出。

本技术方案针对低照度目标检测蒸馏问题，提出了两种蒸馏方式，分别是拆分向量量化蒸馏Split Vector-Quantified Distillation和多视图注意力蒸馏Multi-ViewAttention Distillation，在拆分向量量化蒸馏中，将学生网络FPN层提取出来的特征通过拆分向量量化层LiVQ-Layer，拆分为3个不同通道的分支，每个分支中的VQ-Block将低照度图像特征压缩到与ES空间相同的大小，由于ES空间大小有限，而输入图像特征通常大于ES空间，故VQ-Block能抽取到低照度图像中的关键信息，学生网络通过LiVQ-Layer提取到的低照度信息与教师网络通过Adaptive Layer的输出做逐像素的MSE Loss作为量化蒸馏损失，多视图注意力蒸馏中，学生网络和教师网络将特征变换为不同大小的视图，用来捕捉不同尺寸的视图中空间信号分量和通道信号分量的大小差异信息，通过使得像素值大的像素更大，小的像素值的像素更小，让教师网络更容易把低照度图像信息蒸馏到学生网络中。

这种方法能够将低光照环境下的相对复杂的教师网络学习到的知识蒸馏到学生网络中，使得更为简单的学生网络也能具备有效的低照度图像目标检测能力。

附图说明

图1为实施例中CQD-Net网络结构示意图；

图2为实施例中CQD网络结构示意图；

图3为实施例中Adaptive Layer结构示意图；

图4为实施例中LiVQ-Layer结构示意图；

图5为实施例中VQ-Block结构示意图；

图6为实施例中MSLS-Layer结构示意图；

图7为实施例中DIF-Block结构示意图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

一种基于CQD蒸馏的低照度目标检测方法，包括如下步骤：

2)参照图1，参照图2，将所有低照度训练集ExDark-Train图片送入到CQD-Net中，训练集图片分别通过学生网络和训练好的教师网络各自的BackBone之后，在FPN层进行多尺度的特征提取，将学生网络和训练好的教师网络FPN层提取的特征使用CQD蒸馏，将训练好的教师网络掌握的低照度目标检测知识蒸馏到学生网络中，使得学生网络也具备低照度图像的目标检测能力，具体为：

2-2)将步骤2-1)中提取出的图像特征F1和F2分别送入Adaptive Layer，AdaptiveLayer如图3所示，和拆分向量量化层LiVQ-Layer，LiVQ-Layer如图4所示，进行拆分向量量化蒸馏Split Vector-Quantified Distillation，其中Adaptive Layer将输入特征F1送入一个核大小为1×1的卷积层将通道数降为3、此时的结果记为A1，然后在通道维度上做softmax得到的结果与A1做对应位置的相乘作为中间结果，中间结果经过一个1×1的卷积，将通道数还原为与F1一致得到输出Z^T，拆分向量量化层LiVQ-Layer先经过核大小为1×1的卷积层把输入特征F2的通道数降为3，模拟RGB中的三个颜色分量，然后划分通道，每一个通道对应一个分支，接着通过三个独立的VQ-Block对每一个分支输入的特征进行量化，VQ-Block如图5所示，图像量化结果的值经过softmax之后与未经过VQ-Block量化的特征进行对应位置的相乘作为该分支的结果，再把3个分支的输出在通道维度进行拼接，最后经过一个核大小1×1的卷积将通道数提升到与F2的通道数一致得到拆分向量量化层LiVQ-Layer的输出Z^S，对Z^T和Z^S采用逐像素的MSE Loss计算学习到的知识的差异，拆分向量量化层LiVQ-Layer模拟了三个不同的颜色分量，将每一种颜色分量特征进行量化抽取出低照度下的图像关键信息，保证了低照度目标检测知识的有效传递和蒸馏，提高了低照度目标检测的准确率和性能，LiVQ-Layer层量化的过程压缩了低照度图像信息，减少了无关信息带来的噪声，突出了少部分对于低照度目标检测带来更多有效信息的低照度图像特征，使得低照度的关键信息能够更容易的从教师网络蒸馏到学生网络中；

2-3)将步骤2-1)中教师网络和学生网络提取出的图像特征分别送入两个独立的MSLS-Layer，MSLS-Layer如图6所示，进行多视图注意力蒸馏Multi-View AttentionDistillation，MSLS-Layer首先将输入特征F通过1×1的卷积层压缩通道数为1，再对H×W大小的特征图进行softmax，得到的结果与F做对应位置的乘积作为下一个阶段的输入，记为M1，将M1分别通过三个1×1的卷积层，分别得到H×W，H/2×W/2和H/4×W/4大小的特征图，再分别通过三个独立的DIF-Block，DIF-Block如图7所示，提取得到三个H×W，H/2×W/2和H/4×W/4大小的低照度视图，将教师网络和学生网络通过MSLS-Layer各自得到的三个不同大小的低照度视图、同尺寸的视图采用逐像素的MSE Loss计算，最后三个不同大小的视图求得MSE Loss所相加的和作为蒸馏的损失；

公式(1)中的损失函数由3部分组成，第一部分进行多视图注意力蒸馏Multi-ViewAttention Distillation，即教师网络和学生网络经过MSLS-Layer之后得到的3个不同尺寸的低照度视图、相同尺寸的低照度视图求MSE Loss然后相加得到多视图注意力蒸馏损失；第二部分为学生网络通过LiVQ-Layer中的三个独立的VQ-Block进行量化时所需的Commitment Loss的和，即将VQ-Block的输入和量化得到的结果逐像素的求差之后取2范数的平方，Commitment Loss是为了让学生网络能够在梯度更新的同时，更新VQ-Block内部ES空间中的向量，让VQ-Block能够提取出低照度图片的关键信息，公式(1)中sg指的是取消该项的反向传播带来的梯度；第三部分进行拆分向量量化蒸馏Split Vector-QuantifiedDistillation，即将教师网络通过Adaptive Layer得到的Z^T和学生网络通过LiVQ-Layer得到Z^S之间的做逐像素的MSE作为拆分量化蒸馏损失，α，β，γ四个超参数分别控制三个不同部分在总的损失L中的比例，本例中分别取α＝0.005，β＝0.0001，γ＝0.005；

步骤2-2)中所述的量化层VQ-Block具体为：

2-2-4)将量化得到的结果Z_q作为输出传送到下一模块。

步骤2-3)中所述的MSLS-Layer具体为：

步骤2-3)中所述的DIF-Block为：

Claims

1.一种基于CQD蒸馏的低照度目标检测方法，其特征在于，包括如下步骤：

2-2)将步骤2-1)中提取出的图像特征F1和F2分别送入Adaptive Layer和拆分向量量化层LiVQ-Layer，进行拆分向量量化蒸馏Split Vector-Quantified Distillation，其中Adaptive Layer将输入特征F1送入一个核大小为1×1的卷积层将通道数降为3、此时的结果记为A1，然后在通道维度上做softmax得到的结果与A1做对应位置的相乘作为中间结果，中间结果经过一个1×1的卷积，将通道数还原为与F1一致得到输出Z^T，拆分向量量化层LiVQ-Layer先经过核大小为1×1的卷积层把输入特征F2的通道数降为3，模拟RGB中的三个颜色分量，然后划分通道，每一个通道对应一个分支，接着通过三个独立的VQ-Block对每一个分支输入的特征进行量化，图像量化结果的值经过softmax之后与未经过VQ-Block量化的特征进行对应位置的相乘作为该分支的结果，再把3个分支的输出在通道维度进行拼接，最后经过一个核大小1×1的卷积将通道数提升到与F2的通道数一致得到拆分向量量化层LiVQ-Layer的输出Z^S，对Z^T和Z^S采用逐像素的MSE Loss计算学习到的知识的差异；

公式(1)中的损失函数由3部分组成，第一部分进行多视图注意力蒸馏Multi-ViewAttention Distillation，即教师网络和学生网络经过MSLS-Layer之后得到的3个不同尺寸的低照度视图、相同尺寸的低照度视图求MSE Loss然后相加得到多视图注意力蒸馏损失；第二部分为学生网络通过LiVQ-Layer中的三个独立的VQ-Block进行量化时所需的Commitment Loss的和，即将VQ-Block的输入和量化得到的结果逐像素的求差之后取2范数的平方，公式(1)中sg指的是取消该项的反向传播带来的梯度；第三部分进行拆分向量量化蒸馏Split Vector-Quantified Distillation，即将教师网络通过Adaptive Layer得到的Z^T和学生网络通过LiVQ-Layer得到Z^S之间的做逐像素的MSE作为拆分量化蒸馏损失，α，β，γ四个超参数分别控制三个不同部分在总的损失L中的比例，分别取α＝0.005，β＝0.0001，γ＝0.005；

2.根据权利要求1所述的基于CQD蒸馏的低照度目标检测方法，其特征在于，步骤2-2)中所述的量化层VQ-Block具体为：

2-2-3)ES空间需要一个Commitment Loss对输入Z_e与输出Z_q进行约束，使得Z_e经过ES空间的量化之后，得到的输出Z_q尽可能的与Z_e相接近，即量化的结果尽可能得反映输入特征空间，由于ES空间大小是有限的并且通常小于Z_e大小，量化的结果能够聚焦于低照度图像中的关键信息，反向传播时Commitment Loss对ES空间内的向量计算梯度并进行更新；

2-2-4)将量化得到的结果Z_q作为输出传送到下一模块。

3.根据权利要求1所述的基于CQD蒸馏的低照度目标检测方法，其特征在于，步骤2-3)中所述的MSLS-Layer具体为：

4.根据权利要求1所述的基于CQD蒸馏的低照度目标检测方法，其特征在于，步骤2-3)中所述的DIF-Block为：