CN115115907A - 一种基于cqd蒸馏的低照度目标检测方法 - Google Patents

一种基于cqd蒸馏的低照度目标检测方法 Download PDF

Info

Publication number
CN115115907A
CN115115907A CN202210751972.9A CN202210751972A CN115115907A CN 115115907 A CN115115907 A CN 115115907A CN 202210751972 A CN202210751972 A CN 202210751972A CN 115115907 A CN115115907 A CN 115115907A
Authority
CN
China
Prior art keywords
low
layer
illumination
distillation
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210751972.9A
Other languages
English (en)
Other versions
CN115115907B (zh
Inventor
江泽涛
黄钦阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202210751972.9A priority Critical patent/CN115115907B/zh
Publication of CN115115907A publication Critical patent/CN115115907A/zh
Application granted granted Critical
Publication of CN115115907B publication Critical patent/CN115115907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于CQD蒸馏的低照度目标检测方法,包括以下步骤:1)获取低照度图像数据集ExDark,并进行处理和划分得到训练集ExDark‑Train和测试集ExDark‑Test;2)将ExDark‑Train数据输入到CQD‑Net中进行蒸馏学习;3)采用CQD蒸馏方法,利用训练好的教师网络对学生网络进行低照度知识蒸馏优化学生网络;4)目标检测。这种方法能够将低光照环境下的教师网络的知识蒸馏到学生网络中,压缩了学生网络大小的同时,使得学生网络也能具备有效的低照度图像目标检测能力,提升了其在低照度环境下的目标检测准确度。本发明能够有效选取待蒸馏区域,提升蒸馏效率,且在不改变学生网络结构,不增加计算消耗的前提下提升最终的轻量化目标检测网络的检测精度。

Description

一种基于CQD蒸馏的低照度目标检测方法
技术领域
本发明涉及深度学习、低照度图像增强、目标检测技术以及知识蒸馏技术,具体一种基于连续和量化距离CQD(Continuous and Quantified Distances,简称CQD)蒸馏的低照度目标检测方法。
背景技术
目标检测任务是计算机视觉领域里最经典也是最基础的任务之一,在深度学习中,可以利用深度学习自学习的特点,大大降低手动特征提取的复杂度,基于深度学习的目标检测已经被应用在很多真实世界的场景中,例如行人识别任务,自动驾驶技术、图像分割任务等。目前,低照度图像的目标检测已经取得了一定的成果,但是相应的模型不是过于庞大就是过于复杂,导致难以将低照度目标检测技术应用在计算能力相对较差的轻量级的设备上,这是基于深度学习的方法普遍的一个难点和痛点。
为了能够在资源受限的边缘设备上部署深度学习网络,需要研发高效并且预测精度也有保证的小规模网络。知识蒸馏是搞笑获取小规模网络的一种新型方法,其思想是将学习能力强的但是规模相对较大的教师网络中的知识蒸馏到相对简单的规模较小的学生网络中。目前,知识蒸馏已成为深度学习领域的一个研究热点和重点。
现有的基于目标检测的知识蒸馏方法没办法在低照度的图像上有效蒸馏,而低照度的目标检测模型往往规模较大且复杂。为了有效压缩低照度目标检测模型,并使其能够在轻量级的端侧设备上运行,急需一种有效的低照度目标检测知识蒸馏方法。
发明内容
本发明针对低照度图像目标检测的知识蒸馏方法的缺失,提供一种基于CQD蒸馏的低照度目标检测方法。这种方法能够将低光照环境下的相对复杂的教师网络学习到的知识蒸馏到学生网络中,使得更为简单的学生网络也能具备有效的低照度图像目标检测能力。
实现本发明目的的技术方案是:
一种基于CQD蒸馏的低照度目标检测方法,包括如下步骤:
1)对低照度图像数据集ExDark进行处理和划分:将ExDark数据集按8:2的比例划分,其中80%为训练集ExDark-Train、共5891张图片,20%为测试集ExDark-Test,共1472张图片;
2)将所有低照度训练集ExDark-Train图片送入到CQD-Net中,即训练集图片分别通过学生网络和训练好的教师网络各自的BackBone之后,在FPN层进行多尺度的特征提取,将学生网络和训练好的教师网络FPN层提取的特征使用CQD蒸馏,将训练好的教师网络掌握的低照度目标检测知识蒸馏到学生网络中,使得学生网络也具备低照度图像的目标检测能力,具体为:
2-1)将训练好的教师网络以及需要蒸馏的学生网络各自的FPN层提取出的特征,记为F1和F2,进行低照度图像信息的蒸馏;
2-2)将步骤2-1)中提取出的图像特征F1和F2分别送入Adaptive Layer和拆分向量量化层LiVQ-Layer,进行拆分向量量化蒸馏Split Vector-Quantified Distillation,其中Adaptive Layer将输入特征F1送入一个核大小为1×1的卷积层将通道数降为3、此时的结果记为A1,然后在通道维度上做softmax得到的结果与A1做对应位置的相乘作为中间结果,中间结果经过一个1×1的卷积,将通道数还原为与F1一致得到输出ZT,拆分向量量化层LiVQ-Layer先经过核大小为1×1的卷积层把输入特征F2的通道数降为3,模拟RGB中的三个颜色分量,然后划分通道,每一个通道对应一个分支,接着通过三个独立的VQ-Block对每一个分支输入的特征进行量化,图像量化结果的值经过softmax之后与未经过VQ-Block量化的特征进行对应位置的相乘作为该分支的结果,再把3个分支的输出在通道维度进行拼接,最后经过一个核大小1×1的卷积将通道数提升到与F2的通道数一致得到拆分向量量化层LiVQ-Layer的输出ZS,对ZT和ZS采用逐像素的MSE Loss计算学习到的知识的差异,拆分向量量化层LiVQ-Layer模拟了三个不同的颜色分量,将每一种颜色分量特征进行量化抽取出低照度下的图像关键信息,保证了低照度目标检测知识的有效传递和蒸馏,提高了低照度目标检测的准确率和性能,LiVQ-Layer层量化的过程压缩了低照度图像信息,减少了无关信息带来的噪声,突出了少部分对于低照度目标检测带来更多有效信息的低照度图像特征,使得低照度的关键信息能够更容易的从教师网络蒸馏到学生网络中;
2-3)将步骤2-1)中教师网络和学生网络提取出的图像特征分别送入两个独立的MSLS-Layer,进行多视图注意力蒸馏Multi-View Attention Distillation,MSLS-Layer首先将输入特征F通过1×1的卷积层压缩通道数为1,再对H×W大小的特征图进行softmax,得到的结果与F做对应位置的乘积作为下一个阶段的输入,记为M1,将M1分别通过三个1×1的卷积层,分别得到H×W,H/2×W/2和H/4×W/4大小的特征图,再分别通过三个独立的DIF-Block,提取得到三个H×W,H/2×W/2和H/4×W/4大小的低照度视图,将教师网络和学生网络通过MSLS-Layer各自得到的三个不同大小的低照度视图、同尺寸的视图采用逐像素的MSE Loss计算,最后三个不同大小的视图求得MSE Loss所相加的和作为蒸馏的损失;
2-4)基于CQD蒸馏的低照度目标检测训练过程中总的损失函数如公式(1)所示:
Figure BDA0003721318250000021
公式(1)中的损失函数由3部分组成,第一部分进行多视图注意力蒸馏Multi-ViewAttention Distillation,即教师网络和学生网络经过MSLS-Layer之后得到的3个不同尺寸的低照度视图、相同尺寸的低照度视图求MSE Loss然后相加得到多视图注意力蒸馏损失;第二部分为学生网络通过LiVQ-Layer中的三个独立的VQ-Block进行量化时所需的Commitment Loss的和,即将VQ-Block的输入和量化得到的结果逐像素的求差之后取2范数的平方,Commitment Loss是为了让学生网络能够在梯度更新的同时,更新VQ-Block内部ES空间中的向量,让VQ-Block能够提取出低照度图片的关键信息,公式(1)中sg指的是取消该项的反向传播带来的梯度;第三部分进行拆分向量量化蒸馏Split Vector-QuantifiedDistillation,即将教师网络通过Adaptive Layer得到的ZT和学生网络通过LiVQ-Layer得到ZS之间的做逐像素的MSE作为拆分量化蒸馏损失,α,β,γ四个超参数分别控制三个不同部分在总的损失L中的比例,分别取α=0.005,β=0.0001,γ=0.005;
3)将所有低照度测试集ExDark-Test图片送入到训练好的低照度目标检测学生网络,输出检测结果。
步骤2-2)中所述的量化层VQ-Block具体为:
2-2-1)学生网络FPN层的特征经过步骤2-2)所述的拆分向量量化层LiVQ-Layer将通道拆分之后,得到3个代表RGB三色的特征图,作为输入分别送到三个独立的VQ-Block中;
2-2-2)VQ-Block将输入的特征图展平,得到多个与ES空间中向量e长度相同的特征向量Ze,然后求Ze中任一特征向量与ES空间中所匹配的向量ei作为该特征向量量化的结果Zq,这里的匹配是指Ze内的特征向量与ei有最小的L2距离;
2-2-3)ES空间需要一个Commitment Loss对输入Ze与输出Zq进行约束,使得Ze经过ES空间的量化之后,得到的输出Zq尽可能的与Ze相接近,即量化的结果尽可能得反映输入特征空间,由于ES空间大小是有限的并且通常小于Ze大小,量化的结果能够聚焦于低照度图像中的关键信息,利于知识蒸馏,反向传播时Commitment Loss对ES空间内的向量计算梯度并进行更新;
2-2-4)将量化得到的结果Zq作为输出传送到下一模块。
步骤2-3)中所述的MSLS-Layer具体为:
2-3-1)教师网络和学生网络FPN层分别提取的C×H×W大小特征F1、F2作为输入,将F1、F2记为F,以下步骤对教师网络和学生网络进行同样的操作;
2-3-2)将F输入到MSLS-Layer中进行多视图的低照度信息提取,输入特征F通过一个核大小为1×1的卷积核把通道数降为1,然后在H×W大小的特征图上采用softmax提取得到低照度图像的空间显著性信息、记为S1,S1与F进行对应位置的相乘得到大小为C×H×W的带有空间信息的输出特征图,送入下一步骤;
2-3-3)设置三个独立的分支,将步骤2-3-2)的特征通过1×1的卷积层变换为不同尺寸的视图、变换为三个分别为H×W、H/2×W/2和H/4×W/4大小的视图、分别用来表示不同尺寸的低照度图像信息,然后三个分支分别通过独立的DIF-Block提取不同尺寸的低照度视图信息,最后三个分支分别得到三个H×W、H/2×W/2和H/4×W/4大小的视图V1,V2,V3作为输出。
步骤2-3)中所述的DIF-Block为:
2-3-4)输入特征大小为C×H×W、记为Fdif,输入特征经过一个核大小为3×3的卷积在不改变特征图大小的同时,将输入特征通道数减半变为C/2×H×W,然后送入BatchNorm,再采用Relu函数进行激活,接着采用一个核大小为3×3的卷积将C/2的通道数还原为C,得到的结果与Fdif做对应位置的相加得到大小为C×H×W的特征图Fdif',Fdif'作为输出送入下一步骤;
2-3-5)Fdif'在通道维度对C个H×W的特征图求均值,得到C个1×1大小的特征图,即得到C×1×1大小的特征图,然后在通道维度上做softmax得到Fdif'在不同通道上的低照度显著性信息、记为C1,C1与Fdif'做通道维度的相乘,得到带有通道信息的特征图作为输出。
本技术方案针对低照度目标检测蒸馏问题,提出了两种蒸馏方式,分别是拆分向量量化蒸馏Split Vector-Quantified Distillation和多视图注意力蒸馏Multi-ViewAttention Distillation,在拆分向量量化蒸馏中,将学生网络FPN层提取出来的特征通过拆分向量量化层LiVQ-Layer,拆分为3个不同通道的分支,每个分支中的VQ-Block将低照度图像特征压缩到与ES空间相同的大小,由于ES空间大小有限,而输入图像特征通常大于ES空间,故VQ-Block能抽取到低照度图像中的关键信息,学生网络通过LiVQ-Layer提取到的低照度信息与教师网络通过Adaptive Layer的输出做逐像素的MSE Loss作为量化蒸馏损失,多视图注意力蒸馏中,学生网络和教师网络将特征变换为不同大小的视图,用来捕捉不同尺寸的视图中空间信号分量和通道信号分量的大小差异信息,通过使得像素值大的像素更大,小的像素值的像素更小,让教师网络更容易把低照度图像信息蒸馏到学生网络中。
这种方法能够将低光照环境下的相对复杂的教师网络学习到的知识蒸馏到学生网络中,使得更为简单的学生网络也能具备有效的低照度图像目标检测能力。
附图说明
图1为实施例中CQD-Net网络结构示意图;
图2为实施例中CQD网络结构示意图;
图3为实施例中Adaptive Layer结构示意图;
图4为实施例中LiVQ-Layer结构示意图;
图5为实施例中VQ-Block结构示意图;
图6为实施例中MSLS-Layer结构示意图;
图7为实施例中DIF-Block结构示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
一种基于CQD蒸馏的低照度目标检测方法,包括如下步骤:
1)对低照度图像数据集ExDark进行处理和划分:将ExDark数据集按8:2的比例划分,其中80%为训练集ExDark-Train、共5891张图片,20%为测试集ExDark-Test,共1472张图片;
2)参照图1,参照图2,将所有低照度训练集ExDark-Train图片送入到CQD-Net中,训练集图片分别通过学生网络和训练好的教师网络各自的BackBone之后,在FPN层进行多尺度的特征提取,将学生网络和训练好的教师网络FPN层提取的特征使用CQD蒸馏,将训练好的教师网络掌握的低照度目标检测知识蒸馏到学生网络中,使得学生网络也具备低照度图像的目标检测能力,具体为:
2-1)将训练好的教师网络以及需要蒸馏的学生网络各自的FPN层提取出的特征,记为F1和F2,进行低照度图像信息的蒸馏;
2-2)将步骤2-1)中提取出的图像特征F1和F2分别送入Adaptive Layer,AdaptiveLayer如图3所示,和拆分向量量化层LiVQ-Layer,LiVQ-Layer如图4所示,进行拆分向量量化蒸馏Split Vector-Quantified Distillation,其中Adaptive Layer将输入特征F1送入一个核大小为1×1的卷积层将通道数降为3、此时的结果记为A1,然后在通道维度上做softmax得到的结果与A1做对应位置的相乘作为中间结果,中间结果经过一个1×1的卷积,将通道数还原为与F1一致得到输出ZT,拆分向量量化层LiVQ-Layer先经过核大小为1×1的卷积层把输入特征F2的通道数降为3,模拟RGB中的三个颜色分量,然后划分通道,每一个通道对应一个分支,接着通过三个独立的VQ-Block对每一个分支输入的特征进行量化,VQ-Block如图5所示,图像量化结果的值经过softmax之后与未经过VQ-Block量化的特征进行对应位置的相乘作为该分支的结果,再把3个分支的输出在通道维度进行拼接,最后经过一个核大小1×1的卷积将通道数提升到与F2的通道数一致得到拆分向量量化层LiVQ-Layer的输出ZS,对ZT和ZS采用逐像素的MSE Loss计算学习到的知识的差异,拆分向量量化层LiVQ-Layer模拟了三个不同的颜色分量,将每一种颜色分量特征进行量化抽取出低照度下的图像关键信息,保证了低照度目标检测知识的有效传递和蒸馏,提高了低照度目标检测的准确率和性能,LiVQ-Layer层量化的过程压缩了低照度图像信息,减少了无关信息带来的噪声,突出了少部分对于低照度目标检测带来更多有效信息的低照度图像特征,使得低照度的关键信息能够更容易的从教师网络蒸馏到学生网络中;
2-3)将步骤2-1)中教师网络和学生网络提取出的图像特征分别送入两个独立的MSLS-Layer,MSLS-Layer如图6所示,进行多视图注意力蒸馏Multi-View AttentionDistillation,MSLS-Layer首先将输入特征F通过1×1的卷积层压缩通道数为1,再对H×W大小的特征图进行softmax,得到的结果与F做对应位置的乘积作为下一个阶段的输入,记为M1,将M1分别通过三个1×1的卷积层,分别得到H×W,H/2×W/2和H/4×W/4大小的特征图,再分别通过三个独立的DIF-Block,DIF-Block如图7所示,提取得到三个H×W,H/2×W/2和H/4×W/4大小的低照度视图,将教师网络和学生网络通过MSLS-Layer各自得到的三个不同大小的低照度视图、同尺寸的视图采用逐像素的MSE Loss计算,最后三个不同大小的视图求得MSE Loss所相加的和作为蒸馏的损失;
2-4)基于CQD蒸馏的低照度目标检测训练过程中总的损失函数如公式(1)所示:
Figure BDA0003721318250000061
公式(1)中的损失函数由3部分组成,第一部分进行多视图注意力蒸馏Multi-ViewAttention Distillation,即教师网络和学生网络经过MSLS-Layer之后得到的3个不同尺寸的低照度视图、相同尺寸的低照度视图求MSE Loss然后相加得到多视图注意力蒸馏损失;第二部分为学生网络通过LiVQ-Layer中的三个独立的VQ-Block进行量化时所需的Commitment Loss的和,即将VQ-Block的输入和量化得到的结果逐像素的求差之后取2范数的平方,Commitment Loss是为了让学生网络能够在梯度更新的同时,更新VQ-Block内部ES空间中的向量,让VQ-Block能够提取出低照度图片的关键信息,公式(1)中sg指的是取消该项的反向传播带来的梯度;第三部分进行拆分向量量化蒸馏Split Vector-QuantifiedDistillation,即将教师网络通过Adaptive Layer得到的ZT和学生网络通过LiVQ-Layer得到ZS之间的做逐像素的MSE作为拆分量化蒸馏损失,α,β,γ四个超参数分别控制三个不同部分在总的损失L中的比例,本例中分别取α=0.005,β=0.0001,γ=0.005;
3)将所有低照度测试集ExDark-Test图片送入到训练好的低照度目标检测学生网络,输出检测结果。
步骤2-2)中所述的量化层VQ-Block具体为:
2-2-1)学生网络FPN层的特征经过步骤2-2)所述的拆分向量量化层LiVQ-Layer将通道拆分之后,得到3个代表RGB三色的特征图,作为输入分别送到三个独立的VQ-Block中;
2-2-2)VQ-Block将输入的特征图展平,得到多个与ES空间中向量e长度相同的特征向量Ze,然后求Ze中任一特征向量与ES空间中所匹配的向量ei作为该特征向量量化的结果Zq,这里的匹配是指Ze内的特征向量与ei有最小的L2距离;
2-2-3)ES空间需要一个Commitment Loss对输入Ze与输出Zq进行约束,使得Ze经过ES空间的量化之后,得到的输出Zq尽可能的与Ze相接近,即量化的结果尽可能得反映输入特征空间,由于ES空间大小是有限的并且通常小于Ze大小,量化的结果能够聚焦于低照度图像中的关键信息,利于知识蒸馏,反向传播时Commitment Loss对ES空间内的向量计算梯度并进行更新;
2-2-4)将量化得到的结果Zq作为输出传送到下一模块。
步骤2-3)中所述的MSLS-Layer具体为:
2-3-1)教师网络和学生网络FPN层分别提取的C×H×W大小特征F1、F2作为输入,将F1、F2记为F,以下步骤对教师网络和学生网络进行同样的操作;
2-3-2)将F输入到MSLS-Layer中进行多视图的低照度信息提取,输入特征F通过一个核大小为1×1的卷积核把通道数降为1,然后在H×W大小的特征图上采用softmax提取得到低照度图像的空间显著性信息、记为S1,S1与F进行对应位置的相乘得到大小为C×H×W的带有空间信息的输出特征图,送入下一步骤;
2-3-3)设置三个独立的分支,将步骤2-3-2)的特征通过1×1的卷积层变换为不同尺寸的视图、变换为三个分别为H×W、H/2×W/2和H/4×W/4大小的视图、分别用来表示不同尺寸的低照度图像信息,然后三个分支分别通过独立的DIF-Block提取不同尺寸的低照度视图信息,最后三个分支分别得到三个H×W、H/2×W/2和H/4×W/4大小的视图V1,V2,V3作为输出。
步骤2-3)中所述的DIF-Block为:
2-3-4)输入特征大小为C×H×W、记为Fdif,输入特征经过一个核大小为3×3的卷积在不改变特征图大小的同时,将输入特征通道数减半变为C/2×H×W,然后送入BatchNorm,再采用Relu函数进行激活,接着采用一个核大小为3×3的卷积将C/2的通道数还原为C,得到的结果与Fdif做对应位置的相加得到大小为C×H×W的特征图Fdif',Fdif'作为输出送入下一步骤;
2-3-5)Fdif'在通道维度对C个H×W的特征图求均值,得到C个1×1大小的特征图,即得到C×1×1大小的特征图,然后在通道维度上做softmax得到Fdif'在不同通道上的低照度显著性信息、记为C1,C1与Fdif'做通道维度的相乘,得到带有通道信息的特征图作为输出。

Claims (4)

1.一种基于CQD蒸馏的低照度目标检测方法,其特征在于,包括如下步骤:
1)对低照度图像数据集ExDark进行处理和划分:将ExDark数据集按8:2的比例划分,其中80%为训练集ExDark-Train、共5891张图片,20%为测试集ExDark-Test,共1472张图片;
2)将所有低照度训练集ExDark-Train图片送入到CQD-Net中,即训练集图片分别通过学生网络和训练好的教师网络各自的BackBone之后,在FPN层进行多尺度的特征提取,将学生网络和训练好的教师网络FPN层提取的特征使用CQD蒸馏,将训练好的教师网络掌握的低照度目标检测知识蒸馏到学生网络中,使得学生网络也具备低照度图像的目标检测能力,具体为:
2-1)将训练好的教师网络以及需要蒸馏的学生网络各自的FPN层提取出的特征,记为F1和F2,进行低照度图像信息的蒸馏;
2-2)将步骤2-1)中提取出的图像特征F1和F2分别送入Adaptive Layer和拆分向量量化层LiVQ-Layer,进行拆分向量量化蒸馏Split Vector-Quantified Distillation,其中Adaptive Layer将输入特征F1送入一个核大小为1×1的卷积层将通道数降为3、此时的结果记为A1,然后在通道维度上做softmax得到的结果与A1做对应位置的相乘作为中间结果,中间结果经过一个1×1的卷积,将通道数还原为与F1一致得到输出ZT,拆分向量量化层LiVQ-Layer先经过核大小为1×1的卷积层把输入特征F2的通道数降为3,模拟RGB中的三个颜色分量,然后划分通道,每一个通道对应一个分支,接着通过三个独立的VQ-Block对每一个分支输入的特征进行量化,图像量化结果的值经过softmax之后与未经过VQ-Block量化的特征进行对应位置的相乘作为该分支的结果,再把3个分支的输出在通道维度进行拼接,最后经过一个核大小1×1的卷积将通道数提升到与F2的通道数一致得到拆分向量量化层LiVQ-Layer的输出ZS,对ZT和ZS采用逐像素的MSE Loss计算学习到的知识的差异;
2-3)将步骤2-1)中教师网络和学生网络提取出的图像特征分别送入两个独立的MSLS-Layer,进行多视图注意力蒸馏Multi-View Attention Distillation,MSLS-Layer首先将输入特征F通过1×1的卷积层压缩通道数为1,再对H×W大小的特征图进行softmax,得到的结果与F做对应位置的乘积作为下一个阶段的输入,记为M1,将M1分别通过三个1×1的卷积层,分别得到H×W,H/2×W/2和H/4×W/4大小的特征图,再分别通过三个独立的DIF-Block,提取得到三个H×W,H/2×W/2和H/4×W/4大小的低照度视图,将教师网络和学生网络通过MSLS-Layer各自得到的三个不同大小的低照度视图、同尺寸的视图采用逐像素的MSE Loss计算,最后三个不同大小的视图求得MSE Loss所相加的和作为蒸馏的损失;
2-4)基于CQD蒸馏的低照度目标检测训练过程中总的损失函数如公式(1)所示:
Figure FDA0003721318240000021
公式(1)中的损失函数由3部分组成,第一部分进行多视图注意力蒸馏Multi-ViewAttention Distillation,即教师网络和学生网络经过MSLS-Layer之后得到的3个不同尺寸的低照度视图、相同尺寸的低照度视图求MSE Loss然后相加得到多视图注意力蒸馏损失;第二部分为学生网络通过LiVQ-Layer中的三个独立的VQ-Block进行量化时所需的Commitment Loss的和,即将VQ-Block的输入和量化得到的结果逐像素的求差之后取2范数的平方,公式(1)中sg指的是取消该项的反向传播带来的梯度;第三部分进行拆分向量量化蒸馏Split Vector-Quantified Distillation,即将教师网络通过Adaptive Layer得到的ZT和学生网络通过LiVQ-Layer得到ZS之间的做逐像素的MSE作为拆分量化蒸馏损失,α,β,γ四个超参数分别控制三个不同部分在总的损失L中的比例,分别取α=0.005,β=0.0001,γ=0.005;
3)将所有低照度测试集ExDark-Test图片送入到训练好的低照度目标检测学生网络,输出检测结果。
2.根据权利要求1所述的基于CQD蒸馏的低照度目标检测方法,其特征在于,步骤2-2)中所述的量化层VQ-Block具体为:
2-2-1)学生网络FPN层的特征经过步骤2-2)所述的拆分向量量化层LiVQ-Layer将通道拆分之后,得到3个代表RGB三色的特征图,作为输入分别送到三个独立的VQ-Block中;
2-2-2)VQ-Block将输入的特征图展平,得到多个与ES空间中向量e长度相同的特征向量Ze,然后求Ze中任一特征向量与ES空间中所匹配的向量ei作为该特征向量量化的结果Zq,这里的匹配是指Ze内的特征向量与ei有最小的L2距离;
2-2-3)ES空间需要一个Commitment Loss对输入Ze与输出Zq进行约束,使得Ze经过ES空间的量化之后,得到的输出Zq尽可能的与Ze相接近,即量化的结果尽可能得反映输入特征空间,由于ES空间大小是有限的并且通常小于Ze大小,量化的结果能够聚焦于低照度图像中的关键信息,反向传播时Commitment Loss对ES空间内的向量计算梯度并进行更新;
2-2-4)将量化得到的结果Zq作为输出传送到下一模块。
3.根据权利要求1所述的基于CQD蒸馏的低照度目标检测方法,其特征在于,步骤2-3)中所述的MSLS-Layer具体为:
2-3-1)教师网络和学生网络FPN层分别提取的C×H×W大小特征F1、F2作为输入,将F1、F2记为F,以下步骤对教师网络和学生网络进行同样的操作;
2-3-2)将F输入到MSLS-Layer中进行多视图的低照度信息提取,输入特征F通过一个核大小为1×1的卷积核把通道数降为1,然后在H×W大小的特征图上采用softmax提取得到低照度图像的空间显著性信息、记为S1,S1与F进行对应位置的相乘得到大小为C×H×W的带有空间信息的输出特征图,送入下一步骤;
2-3-3)设置三个独立的分支,将步骤2-3-2)的特征通过1×1的卷积层变换为不同尺寸的视图、变换为三个分别为H×W、H/2×W/2和H/4×W/4大小的视图、分别用来表示不同尺寸的低照度图像信息,然后三个分支分别通过独立的DIF-Block提取不同尺寸的低照度视图信息,最后三个分支分别得到三个H×W、H/2×W/2和H/4×W/4大小的视图V1,V2,V3作为输出。
4.根据权利要求1所述的基于CQD蒸馏的低照度目标检测方法,其特征在于,步骤2-3)中所述的DIF-Block为:
2-3-4)输入特征大小为C×H×W、记为Fdif,输入特征经过一个核大小为3×3的卷积在不改变特征图大小的同时,将输入特征通道数减半变为C/2×H×W,然后送入BatchNorm,再采用Relu函数进行激活,接着采用一个核大小为3×3的卷积将C/2的通道数还原为C,得到的结果与Fdif做对应位置的相加得到大小为C×H×W的特征图Fdif',Fdif'作为输出送入下一步骤;
2-3-5)Fdif'在通道维度对C个H×W的特征图求均值,得到C个1×1大小的特征图,即得到C×1×1大小的特征图,然后在通道维度上做softmax得到Fdif'在不同通道上的低照度显著性信息、记为C1,C1与Fdif'做通道维度的相乘,得到带有通道信息的特征图作为输出。
CN202210751972.9A 2022-06-29 2022-06-29 一种基于cqd蒸馏的低照度目标检测方法 Active CN115115907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210751972.9A CN115115907B (zh) 2022-06-29 2022-06-29 一种基于cqd蒸馏的低照度目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210751972.9A CN115115907B (zh) 2022-06-29 2022-06-29 一种基于cqd蒸馏的低照度目标检测方法

Publications (2)

Publication Number Publication Date
CN115115907A true CN115115907A (zh) 2022-09-27
CN115115907B CN115115907B (zh) 2024-03-29

Family

ID=83330664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210751972.9A Active CN115115907B (zh) 2022-06-29 2022-06-29 一种基于cqd蒸馏的低照度目标检测方法

Country Status (1)

Country Link
CN (1) CN115115907B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017047494A1 (ja) * 2015-09-18 2017-03-23 株式会社日立国際電気 画像処理装置
CN112766087A (zh) * 2021-01-04 2021-05-07 武汉大学 一种基于知识蒸馏的光学遥感图像舰船检测方法
CN112801918A (zh) * 2021-03-11 2021-05-14 苏州科达科技股份有限公司 图像增强模型的训练方法、图像增强方法及电子设备
US20220138454A1 (en) * 2020-11-05 2022-05-05 Canon Kabushiki Kaisha Training method and training apparatus for a neural network for object recognition
CN114463223A (zh) * 2022-04-08 2022-05-10 深圳市瓴鹰智能科技有限公司 一种图像增强的处理方法、装置、计算机设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017047494A1 (ja) * 2015-09-18 2017-03-23 株式会社日立国際電気 画像処理装置
US20220138454A1 (en) * 2020-11-05 2022-05-05 Canon Kabushiki Kaisha Training method and training apparatus for a neural network for object recognition
CN112766087A (zh) * 2021-01-04 2021-05-07 武汉大学 一种基于知识蒸馏的光学遥感图像舰船检测方法
CN112801918A (zh) * 2021-03-11 2021-05-14 苏州科达科技股份有限公司 图像增强模型的训练方法、图像增强方法及电子设备
CN114463223A (zh) * 2022-04-08 2022-05-10 深圳市瓴鹰智能科技有限公司 一种图像增强的处理方法、装置、计算机设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
葛仕明;赵胜伟;刘文瑜;李晨钰;: "基于深度特征蒸馏的人脸识别", 北京交通大学学报, no. 06, 15 December 2017 (2017-12-15) *
高璇;饶鹏;刘高睿;: "基于特征蒸馏的实时人体动作识别", 工业控制计算机, no. 08, 25 August 2020 (2020-08-25) *

Also Published As

Publication number Publication date
CN115115907B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
Al Sobbahi et al. Low-light homomorphic filtering network for integrating image enhancement and classification
CN113658057B (zh) 一种Swin Transformer微光图像增强方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN114746895A (zh) 用于图像去噪的噪声重构
CN112465727A (zh) 基于HSV色彩空间和Retinex理论的无正常光照参考的低照度图像增强方法
CN113205507B (zh) 一种视觉问答方法、系统及服务器
CN111047543A (zh) 图像增强方法、装置和存储介质
CN116580192A (zh) 基于自适应上下文感知网络的rgb-d语义分割方法及系统
CN111445496B (zh) 一种水下图像识别跟踪系统及方法
CN116681636A (zh) 基于卷积神经网络的轻量化红外与可见光图像融合方法
CN111898614B (zh) 神经网络系统以及图像信号、数据处理的方法
Al Sobbahi et al. Low-light image enhancement using image-to-frequency filter learning
CN117542045B (zh) 一种基于空间引导自注意力的食品识别方法及系统
Fu et al. Low-light image enhancement base on brightness attention mechanism generative adversarial networks
CN115311149A (zh) 图像去噪方法、模型、计算机可读存储介质及终端设备
CN116342675B (zh) 一种实时单目深度估计方法、系统、电子设备及存储介质
CN116704187A (zh) 一种语义对齐的实时语义分割方法、系统及存储介质
CN116597144A (zh) 一种基于事件相机的图像语义分割方法
CN115115907B (zh) 一种基于cqd蒸馏的低照度目标检测方法
Nie et al. Image restoration from patch-based compressed sensing measurement
CN117557857B (zh) 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法
Yang et al. ULSR-UV: an ultra-lightweight super-resolution networks for UAV video
Cui et al. Multi-scale densely connected dehazing network
Yang et al. An End-to-End Pyramid Convolutional Neural Network for Dehazing
CN116912106A (zh) 低光照图像的增强方法、系统及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant