CN111626330B - 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统 - Google Patents
基于多尺度特征图重构和知识蒸馏的目标检测方法与系统 Download PDFInfo
- Publication number
- CN111626330B CN111626330B CN202010324557.6A CN202010324557A CN111626330B CN 111626330 B CN111626330 B CN 111626330B CN 202010324557 A CN202010324557 A CN 202010324557A CN 111626330 B CN111626330 B CN 111626330B
- Authority
- CN
- China
- Prior art keywords
- feature
- model
- channel
- pruning
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度特征图重构和知识蒸馏的目标检测方法与系统,该方法首先利用骨干网络Darknet‑53提取特征,深层特征通过上采样和浅层特征张量拼接生成多尺度特征图;然后采用特征重标定策略来自动获取特征图中每个通道的权重,依照权重提升有用的特征并抑制无用特征,再用残差模块融合顶层特征的语义信息和底层特征的细节信息;再将骨干网络中批量归一化层的γ系数引入到剪枝目标函数中进行训练,根据修剪阈值将低于阈值的γ系数所在通道从模型中去除;最后将训练好的YOLOv3基准模型作为教师网络,剪枝后的模型作为学生网络进行知识蒸馏。本发明改善了在大范围内不同大小物体检测的精度问题,同时降低了模型的计算量,提高了模型检测速度。
Description
技术领域
本发明提供一种基于多尺度特征图重构和知识蒸馏的目标检测方法与系统,属于计算机视觉的目标检测技术领域。
背景技术
图像目标识别是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题,随着硬件技术的快速发展,基于深度学习平台的嵌入式智能设备日渐成熟,越来越多的检测算法嵌入到智能设备上,但是传统的检测方法对于一定范围内不同大小的目标检测精度相差较大,不能精准地识别目标,达不到日常需求,并且传统检测算法模型参数过多,所需算力较大,不能很好地在嵌入式设备上运行,所以要提出一种既能够使得检测算法满足多尺度目标检测精度,且能够在保证精度的情况下更快地运行在嵌入式设备上的技术,是一个很有挑战性的工作。
传统的目标识别算法大多使用特征金字塔来学习多尺度特征,以获得更好的检测精度,然而,目前的特征金字塔设计仍然不足以将语义信息整合到不同的尺度上,骨干网络将提取的特征分为高级特征和低级特征,高层特征具有更强的语义信息,但是分辨率小,对细节的感知能力较差。对于小目标的检测效果较差,低层特征分辨率更大,包含更多位置、细节信息,但是由于经过的卷积层少,其语义信息少,噪声更多,选择更好的融合方法,可以提高多尺度目标的检测精度。而选择好的压缩算法,可以使检测模型的参数量大幅度减小,提高检测速度。
针对多尺度目标检测的分析中,文献[Wei Liu,Dragomir Anguelov,DumitruErhan,Christian Szegedy,Scott Reed,Cheng-Yang Fu,and Alexander C Berg.Ssd:Single shot multibox detector.In ECCV,2016]提出的SSD,是生成卷积金字塔特征表示以进行对象检测的首次尝试之一。它可以生成多尺度的特征图以预测各种大小的对象。但是,由于浅层特征图包含的语义信息不足,这种自下而上的途径在小实例上的准确性较低。为了解决卷积金字 塔的问题[Tsung-Yi Lin,Piotr Doll′ar, Ross Girshick,KaimingHe,Bharath Hariharan,and Serge Belongie.Feature pyramid networks for objectdetection.In CVPR,2017]提出了著名的特征金字塔,依次在骨干模型的特征层次结构中将两个相邻的层与自顶向下的路径和横向连接相结合。低分辨率,语义上强的特征被上采样,并与高分辨率,语义上弱的特征相结合,以构建在所有层次上共享丰富语义的特征金字塔,但是它仍有很大的改进空间,例如,[Shu Liu,Lu Qi,Haifang Qin,Jianping Shi,andJiaya Jia.Path aggregation network for instance segmentation.In CVPR,2018]通过手动设计融合结构,加强特征融合使得检测准确度提高了很多,但是这些算法没有结合YOLOv3和实际场景进行优化,并且在特征图重构上还有很多进步空间。
针对目标检测的模型压缩方法,前人已经提出许多工作来压缩大型CNN或直接学习更有效的CNN模型以进行快速推理,如文献[E.L.Denton,W.Zaremba, J.Bruna,Y.LeCun,and R.Fergus.Exploiting linear structure within convolutional networks forefficient evaluation.In NIPS,2014.]所应用的低秩近似,文献[S.Han,J. Pool,J.Tran,and W.Dally.Learning both weights and connections for efficient neuralnetwork.In NIPS,pages 1135–1143,2015.]所运用的权重修剪等,但是这些技术大部分都需要专门设计的软件/硬件加速器来加速执行,针对嵌入式设备上的目标检测的模型压缩的方法比较少,目前的压缩算法对YOLOv3进行压缩的时间复杂度较高,不能很好地完成嵌入式设备应用场景(如智能交通中行人、车辆目标检测)中的目标检测任务。
发明内容
发明目的:针对现有技术存在的问题,本发明目的在于提出一种基于多尺度特征图重构和知识蒸馏的目标检测方法与系统,在利用多尺度特征重构提高不同大小目标检测精度的同时,应用知识蒸馏算法降低模型运行速度,使得检测算法能够更好地运用在嵌入式设备应用场景目标检测的任务中。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
一种基于多尺度特征图重构和知识蒸馏的目标检测方法,包括如下步骤:
(1)基于训练图像数据集训练YOLOv3模型生成基准模型,利用YOLOv3 的骨干网络Darknet-53提取图像的特征,深层特征通过上采样和浅层特征张量拼接生成多尺度特征图;
(2)对步骤(1)中的特征图沿着空间维度进行特征压缩,将每个二维的特征通道压缩成一个具有全局感受野的实数,其输出的维度和输入的特征通道数相匹配,通过循环神经网络的门控机制为每个特征通道生成权重,再将权重加权到先前的特征上,完成在通道维度上的对原始特征的重标定;
(3)通过残差模块融合顶层特征的语义信息和底层特征的细节信息,并最终输出不同尺度的特征图用于检测;
(4)将骨干网络中BN层的γ系数引入剪枝目标函数中进行联合训练,对训练后γ系数进行归一化并排序,根据修剪阈值,将低于阈值的γ系数所在通道从模型中去除,对YOLOv3模型进行剪枝;
(5)将步骤(4)中经过剪枝的模型作为学生模型,将基准模型作为教师网络进行知识蒸馏,利用教师模型生成的软标签指导学生模型进行训练,并使用指示学习加快蒸馏速度;
(6)将待检测的图像输入到步骤(5)中训练好的学生模型进行目标检测。
作为优选,所述步骤(2)中包括:
(2.1)将步骤(1)生成的多尺度特征图进行自适应采样,扩展为W*H的特征图;
(2.2)沿着空间维度进行特征压缩,将每个二维的特征通道压缩成一个具有全局感受野的实数,其输出的维度和输入的特征通道数相匹配,具体操作如下:
其中,W和H分别为特征图宽度和高度,xc(i,j)表示第c层通道中坐标为(i,j) 的指定元素,zc表示第c层通道被压缩后的输出,是个标量;
(2.3)通过循环神经网络的门控机制为每个特征通道生成权重:
s=σ(W2δ(W1z))
其中,z为步骤(2.2)的输出,是大小为1×1×C的张量,C为特征图的通道数,W1和W2分别为两个全连接层中的权重,δ为ReLU函数,σ为sigmod激活函数,s为经过加权后大小为1×1×C的张量,其数值表示每层通道的重要度;
(2.4)将步骤(2.3)中的输出和原始特征图进行相乘:
作为优选,所述步骤(3)中包括:
(3.1)定义步骤(2.4)中输出的不同维度的特征图中的一个特征图表示为:
Xnet={x1,x2,…xl…,xC}
其中,xl表示第l层通道的特征值,Xnet表示整个特征图;
(3.2)引入残差模块,将步骤(2.4)中的不同维度的特征图之间进行跨通道连接,如下所示:
x′l=R(xl)+Wlxl
其中,Wl是第l层的权重,R(·)表示残差映射,x′l表示经过桥连后的特征值,最终用于检测的其中一个特征图表示为:
X′net={x′1,x′2,…x′l…,x′C}
上述操作是将不同尺度的特征图经过残差处理,融合了不同维度特征图所表示的高层语义信息和底层细节信息,提高不同维度目标检测的准确性。
作为优选,所述步骤(4)中包括:
(4.1)将骨干网络中BN层的γ系数引入剪枝目标函数中进行联合训练,BN 层的转换函数如下:
剪枝目标函数为:
其中,Ws是可训练的权重,xs,ys表示训练的输入和输出,n是超参数,Γ为骨干网络中γ系数的集合,f(·)为YOLOv3的损失函数,g(γ)是引导稀疏的惩罚函数,其中g(γ)=|γ|,即L1正则化;
(4.2)训练之前,γ系数呈现正太分布,训练之后,γ系数向0逼近;将训练后γ系数进行归一化并排序,根据修剪阈值,将低于阈值的γ系数所在通道从模型中去除,对骨干网不涉及add操作的通道进行剪枝。
作为优选,所述步骤(5)中引入带有温度参数的softmax函数和知识蒸馏算法,将基础模型作为教师网络,剪枝后的模型作为学生网络进行迁移学习;
softmax函数定义为:
其中,zi是神经网络第i类目标检测后的输出,∑jexp(zj/T)表示全部类别输出的总和,两者的比值即qi,表示第i类目标的概率值大小,T为温度参数;
教师有界回归损失定义为:
其中,m是边距,yregm表示真实标签,Rs是剪枝后的YOLOv3网络的回归输出,Rt是初始网络的预测,v和是超参数,Ls是二值交叉熵损失,Lregm是总的回归损失,Lhint为指示学习,通过指示学习加快蒸馏,使用教师的中间表示作为提示学习帮助培训过程并提高学生的蒸馏效果,使用特征向量V和Z之间的 L2距离:
其中,Z代表在教师网络中选择作为提示的中间层,V代表学生网络中引导层的输出。
本发明另一方面提供的一种基于多尺度特征图重构和知识蒸馏的目标检测系统,包括:
图像特征提取模块,用于基于训练图像数据集训练YOLOv3模型生成基准模型,利用YOLOv3的骨干网络Darknet-53提取图像的特征,深层特征通过上采样和浅层特征张量拼接生成多尺度特征图;
多维特征融合模块,用于将图片高层语义和底层细节相融合,提高检测精度,特征图沿着空间维度进行特征压缩,将每个二维的特征通道压缩成一个具有全局感受野的实数,其输出的维度和输入的特征通道数相匹配,通过循环神经网络的门控机制为每个特征通道生成权重,再将权重加权到先前的特征上,完成在通道维度上的对原始特征的重标定;通过残差模块融合顶层特征的语义信息和底层特征的细节信息,并最终输出不同尺度的特征图用于检测;
骨干网络压缩模块,用于将骨干网络中BN层的γ系数引入剪枝目标函数中进行联合训练,对训练后γ系数进行归一化并排序,根据修剪阈值,将低于阈值的γ系数所在通道从模型中去除,对YOLOv3模型进行剪枝;以及将经过剪枝的模型作为学生模型,将基准模型作为教师网络进行知识蒸馏,教利用师模型生成的软标签指导学生模型进行训练,并使用指示学习加快蒸馏速度;
以及,图像目标检测模块,用于利用训练好的学生模型对输入的图像进行目标检测。
本发明另一方面提供的一种基于多尺度特征图重构和知识蒸馏的目标检测系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于多尺度特征图重构和知识蒸馏的目标检测方法。
有益效果:与现有技术相比,本发明具有如下优点:
(1)本发明在建模时采用能够提取多维度特征的目标检测算法YOLOv3,并对特征图进行重构,在通道维度上的对原始特征进行重标定,并通过残差模块融合顶层特征的语义信息和底层特征的细节信息,并最终输出不同尺度的特征图用于检测;有效克服了特征图中低层特征分辨率大,包含更多位置、细节信息,但是由于经过的卷积层少,其语义信息少、噪声更多,高层特征具有更强的语义信息,但是分辨率小、对细节的感知能力较差的问题。
(2)本发明融合了高层特征和底层特征,并使用剪枝和知识蒸馏结合的方法对检测模型进行压缩,既增加了多尺度目标检测的精度,也降低了模型运算速度,使得图像目标的检测能够更好地应用到嵌入式设备中。
附图说明
图1是本发明实施例的流程示意图。
图2是YOLOv3训练示意图。
图3是YOLOv3检测示意图。
图4是多尺度特征重构示意图。
图5是知识蒸馏示意图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如图1所示,本发明实施例公开的一种基于多尺度特征图重构和知识蒸馏的目标检测方法,以行人和车辆检测为例,利用目标检测算法YOLOv3[Redmon J,Farh adiA.Yolov3:An incremental improvement[J].arXiv preprint arXiv:1804.027 67,2018]对香港城市大学提供的CityStreet城市街景数据集进行特征提取,生成多尺度特征图,再通过对特征图沿着空间维度进行特征压缩,将每个二维的特征通道压缩成一个具有全局感受野的实数,其输出的维度和输入的特征通道数相匹配,通过建模为每个特征通道生成权重,再将权重加权到先前的特征上,完成在通道维度上的对原始特征的重标定。依照权重提升有用的特征并抑制无用特征,提高特征可辨性并在全局范围内选择更有用的信息。由于YOLOv3网络是图像和视频深度学习领域中成熟的技术,数据集引用香港城市大学提供的CityStreet 城市街景数据集,具体网络结构和训练过程可以参考YOLOv3论文提供的案例,本发明不再赘述。本发明实施例中多尺度特征图重构和知识蒸馏过程主要利用Y OLOv3中的residual结构,对每一层网络层的BN(Batch-Normalization)层的γ系数进行稀疏再剪枝,然后用迁移学习的思想对剪枝后的模型作知识蒸馏。
具体地,本发明实施例公开的一种基于多尺度特征图重构和知识蒸馏的目标检测方法,包括如下步骤:
步骤A,如图2和图3所示,基于训练图像数据集训练YOLOv3模型,生成YOLOv3基准模型,利用YOLOv3的骨干网络Darknet-53提取图像的特征,深层特征通过上采样和浅层特征张量拼接生成多尺度特征图;具体包括:
步骤A1,使用交叉熵损失函数作为模型训练的优化目标,通过反向传播BP 算法计算损失函数梯度同时更新模型参数;全局损失为Ltotal=ρLclass+τLreg
其中,ρ和τ为超参数;Lclass为类别打分损失,表示为:
Lreg为位置回归平方误差总和损失,表示为:
步骤A2,分类网络给出每个框的每类置信度,使用回归网络修正位置,再采用非极大值抑制(NMS)去除冗余的检测框,保留最好的一个。根据分类器的类别分类概率做排序,选择具有最大置信度的检测框,将其从集合中移除并加入最终的检测结果中;
步骤A3,利用YOLOv3的骨干网络Darknet-53提取图像的特征,深层特征通过上采样和浅层特征张量拼接生成多尺度特征图;
步骤B,如图4所示,对步骤A3中的特征图沿着空间维度进行特征压缩,将每个二维的特征通道压缩成一个具有全局感受野的实数,其输出的维度和输入的特征通道数相匹配,通过循环神经网络的门控机制为每个特征通道生成权重,再将权重加权到先前的特征上,完成在通道维度上的对原始特征的重标定;具体包括:
步骤B1,将步骤A中生成的多尺度特征图进行自适应采样,扩展为W*H的特征图;
步骤B2,沿着空间维度进行特征压缩,将每个二维的特征通道压缩成一个具有全局感受野的实数,即全局池化(global pooling)操作,其输出的维度和输入的特征通道数相匹配,具体操作如下:
其中,W和H分别为特征图宽度和高度,xc(i,j)表示第c层通道中坐标为i,j的指定元素,通过此公式遍历特征图中的每一个元素,zc表示第c层通道被压缩后的输出,是一个实数;
步骤B3,通过循环神经网络的门控机制为每个特征通道生成权重:
s=σ(W2δ(W1z)) (4)
其中,z为步骤(3.2)的输出,是大小为1×1×C的张量,C为特征图的通道数,W1和W2分别为两个全连接层中的权重,δ为ReLU函数,σ为sigmod激活函数,s为经过加权后大小为1×1×C的张量,其数值表示每层通道的重要度;
步骤B4,将步骤B3中的输出和原始特征图进行相乘:
其中,s为步骤B3的输出,x为特征图,大小为W×H×C,表示矩阵相乘,表示经过加权后的特征图,大小为W×H×C,上式用于在通道维度上的对原始特征的重标定。依照权重提升有用的特征并抑制无用特征,提高特征可辨性并在全局范围内选择更有用的信息;
步骤C,通过残差模块融合顶层特征的语义信息和底层特征的细节信息,并最终输出不同尺度的特征图用于检测;具体包括:
步骤C1,定义步骤B4中输出的不同维度的特征图中的一个特征图表示为:
Xnet={x1,x2,…xl…,xc} (6)
其中,xl表示第l层通道的特征值,C为特征图的通道数,用Xnet来表示整个特征图;
步骤C2,引入残差模块,将步骤B4中的不同维度的特征图之间进行跨通道连接,如下所示:
x′l=R(xl)+Wlxl (7)
Wl是第l层的权重,R(·)表示残差映射,通过R(·)将其他维度的特征图桥连在一起,x′l表示经过桥连后的特征值,最终用于检测的其中一个特征图可以表示为:
X′net={x′1,x′2,…x′l…,x′c} (8)
上述操作是将不同尺度的特征图经过残差处理,融合了不同维度特征图所表示的高层语义信息和底层细节信息,提高不同维度目标检测的准确性。
步骤D,将骨干网络中BN层的γ系数引入剪枝目标函数中进行联合训练,对训练后γ系数进行归一化并排序,根据修剪阈值,将低于阈值的γ系数所在通道从模型中去除,对YOLOv3模型进行剪枝;具体包括:
步骤D1,将骨干网络中BN层的γ系数引入剪枝目标函数中进行联合训练, BN层的转换函数如下:
式中,zin,zout是BN层的输入和输出,μB,是输入的平均值和方差,∈是一个接近0的修正参数,防止分母为0,γ和β分别是scale factor(比例因子)和shift (偏移),可以将BN层的输出线性转换为任何尺度,恢复原来输入的特征分布,继而表示每个卷积层对于输入的特征的贡献值,衡量相应卷积层的重要性,因此选用γ作为剪枝参数;
剪枝目标函数调整为:
其中,Ws是可训练的权重,xs,ys表示训练的输入和输出,n是超参数,Γ为骨干网络中γ系数的集合,f(·)为YOLOv3的损失函数,g(γ)是引导稀疏的惩罚函数,其中g(γ)=|γ|,即L1正则化;
步骤D2,训练之前,γ系数呈现正太分布,训练之后,γ系数向0逼近;将训练后γ系数进行归一化并排序,根据修剪阈值,将低于阈值的γ系数所在通道从模型中去除,对骨干网不涉及add操作的通道进行剪枝;
步骤E,如图5所示,将步骤D中经过剪枝的模型作为学生模型,将基准模型作为教师网络进行知识蒸馏,利用教师模型生成的软标签指导学生模型进行训练,并使用指示学习加快蒸馏速度;具体包括:
引入带有温度参数的softmax函数。针对步骤D中剪枝后模型精度降低的问题,引入知识蒸馏算法,将基础模型作为教师网络,剪枝后的模型作为学生网络进行迁移学习。
为了使基准模型与剪枝后的模型的softmax输出分布充分接近,可以直接比较,本发明引入广义的softmax函数:
其中,zi是神经网络第i类目标检测后的输出,∑jexp(zj/T)表示全部类别输出的总和,两者的比值即qi,表示第i类目标的概率值大小,在标准softmax函数中引入温度参数T,当温度T趋向于0时,softmax函数将收敛为一个one-hot 向量,温度T趋向无穷大时,softmax输出为更为均匀,微调时,使用较高的T 使得softmax产生的分布足够均匀,剪枝后的模型输出更接近基准模型,训练结束后使用T=1进行检测。
教师有界回归损失[Guobin Chen Wongun Choi Xiang Yu Tony Han ManmohanChandraker.Learning Efficient Object Detection Models with KnowledgeDistillation.31st Conference on Neural Information Processing Systems(NIPS2017), Long Beach,CA,USA],定义如下:
其中,m是边距,yreg表示真实标签,Rs是剪枝后的YOLOv3网络的回归输出,Rt是初始网络的预测,v和是超参数,Ls是二值交叉熵损失,Lregm是总的回归损失,Lhint为指示学习,通过指示学习加快蒸馏,使用教师的中间表示作为提示学习帮助培训过程并提高学生的蒸馏效果,使用特征向量V和Z之间的 L2距离:
其中Z代表在教师网络中选择作为提示的中间层,V代表学生网络中引导层的输出。
只有当学生网络的回归数值与真实标签的L2距离超过教师网络的回归数值与真实标签的L2距离、且大于某一阈值时,Lb调整为学生网络的位置回归与真实标签的L2距离,否则Lb置0。即教师网络不对学生网络进行指导。此方法使得剪枝后的网络在回归方面接近或优于初始网络,但一旦达到初始网络的标签准确率,就不会过多地推动学生网络做出改进。
本发明另一方面提供的一种基于多尺度特征图重构和知识蒸馏的目标检测系统,包括:
图像特征提取模块,用于基于训练图像数据集训练YOLOv3模型生成基准模型,利用YOLOv3的骨干网络Darknet-53提取图像的特征,深层特征通过上采样和浅层特征张量拼接生成多尺度特征图;
多维特征融合模块,用于将图片高层语义和底层细节相融合,提高检测精度,特征图沿着空间维度进行特征压缩,将每个二维的特征通道压缩成一个具有全局感受野的实数,其输出的维度和输入的特征通道数相匹配,通过循环神经网络的门控机制为每个特征通道生成权重,再将权重加权到先前的特征上,完成在通道维度上的对原始特征的重标定;通过残差模块融合顶层特征的语义信息和底层特征的细节信息,并最终输出不同尺度的特征图用于检测;
骨干网络压缩模块,用于将骨干网络中BN层的γ系数引入剪枝目标函数中进行联合训练,对训练后γ系数进行归一化并排序,根据修剪阈值,将低于阈值的γ系数所在通道从模型中去除,对YOLOv3模型进行剪枝;以及将经过剪枝的模型作为学生模型,将基准模型作为教师网络进行知识蒸馏,教利用师模型生成的软标签指导学生模型进行训练,并使用指示学习加快蒸馏速度;
以及,图像目标检测模块,用于利用训练好的学生模型对输入的图像进行目标检测。
本领域技术人员可以理解,可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
基于相同的发明构思,本发明实施例还提供一种基于多尺度特征图重构和知识蒸馏的目标检测系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于多尺度特征图重构和知识蒸馏的目标检测方法。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.一种基于多尺度特征图重构和知识蒸馏的目标检测方法,其特征在于,包括如下步骤:
(1)基于训练图像数据集训练YOLOv3模型生成基准模型,利用YOLOv3的骨干网络Darknet-53提取图像的特征,深层特征通过上采样和浅层特征张量拼接生成多尺度特征图;
(2)对步骤(1)中的特征图沿着空间维度进行特征压缩,将每个二维的特征通道压缩成一个具有全局感受野的实数,其输出的维度和输入的特征通道数相匹配,通过循环神经网络的门控机制为每个特征通道生成权重,再将权重加权到先前的特征上,完成在通道维度上的对原始特征的重标定;
(3)通过残差模块融合顶层特征的语义信息和底层特征的细节信息,并最终输出不同尺度的特征图用于检测;
(4)将骨干网络中批量归一化BN层的γ系数引入剪枝目标函数中进行联合训练,对训练后γ系数进行归一化并排序,根据修剪阈值,将低于阈值的γ系数所在通道从模型中去除,对YOLOv3模型进行剪枝;
(5)将步骤(4)中经过剪枝的模型作为学生模型,将基准模型作为教师网络进行知识蒸馏,利用教师模型生成的软标签指导学生模型进行训练,并使用指示学习加快蒸馏速度;
(6)将待检测的图像输入到步骤(5)中训练好的学生模型进行目标检测。
2.根据权利要求1所述的基于多尺度特征图重构和知识蒸馏的目标检测方法,其特征在于,所述步骤(2)中包括:
(2.1)将步骤(1)生成的多尺度特征图进行自适应采样,扩展为W*H的特征图;
(2.2)沿着空间维度进行特征压缩,将每个二维的特征通道压缩成一个具有全局感受野的实数,其输出的维度和输入的特征通道数相匹配,具体操作如下:
其中,W和H分别为特征图宽度和高度,xc(i,j)表示第c层通道中坐标为(i,j)的指定元素,zc表示第c层通道被压缩后的输出;
(2.3)通过循环神经网络的门控机制为每个特征通道生成权重:
s=σ(W2δ(W1z))
其中,z为步骤(2.2)的输出,是大小为1×1×C的张量,C为特征图的通道数,W1和W2分别为两个全连接层中的权重,δ为ReLU函数,σ为sigmod激活函数,s为经过加权后大小为1×1×C的张量,其数值表示每层通道的重要度;
(2.4)将步骤(2.3)中的输出和原始特征图进行相乘:
3.根据权利要求2所述的基于多尺度特征图重构和知识蒸馏的目标检测方法,其特征在于,所述步骤(3)中包括:
(3.1)定义步骤(2.4)中输出的不同维度的特征图中的一个特征图表示为:
Xnet={x1,x2,…xl…,xC}
其中,xl表示第l层通道的特征值,Xnet表示整个特征图;
(3.2)引入残差模块,将步骤(2.4)中的不同维度的特征图之间进行跨通道连接,如下所示:
x′l=R(xl)+Wlxl
其中,Wl是第l层的权重,R(·)表示残差映射,x′l表示经过桥连后的特征值,最终用于检测的其中一个特征图表示为:
X′net={x′1,x′2,…x′l…,x′c}
上述操作是将不同尺度的特征图经过残差处理,融合了不同维度特征图所表示的高层语义信息和底层细节信息,提高不同维度目标检测的准确性。
4.根据权利要求1所述的基于多尺度特征图重构和知识蒸馏的目标检测方法,其特征在于,所述步骤(4)中包括:
(4.1)将骨干网络中BN层的γ系数引入剪枝目标函数中进行联合训练,BN层的转换函数如下:
剪枝目标函数为:
其中,Ws是可训练的权重,xs,ys表示训练的输入和输出,n是超参数,Γ为骨干网络中γ系数的集合,f(·)为YOLOv3的损失函数,g(γ)是引导稀疏的惩罚函数,其中g(γ)=|γ|,即L1正则化;
(4.2)训练之前,γ系数呈现正太分布,训练之后,γ系数向0逼近;将训练后γ系数进行归一化并排序,根据修剪阈值,将低于阈值的γ系数所在通道从模型中去除,对骨干网不涉及add操作的通道进行剪枝。
5.根据权利要求1所述的基于多尺度特征图重构和知识蒸馏的目标检测方法,其特征在于,所述步骤(5)中引入带有温度参数的softmax函数和知识蒸馏算法,将基础模型作为教师网络,剪枝后的模型作为学生网络进行迁移学习;
softmax函数定义为:
其中,zi是神经网络第i类目标检测后的输出,∑jexp(zj/T)表示全部类别输出的总和,两者的比值即qi,表示第i类目标的概率值大小,T为温度参数;
教师有界回归损失定义为:
其中,m是边距,yreg表示真实标签,Rs是剪枝后的YOLOv3网络的回归输出,Rt是初始网络的预测,v和是超参数,Ls是二值交叉熵损失,Lregm是总的回归损失,Lhint为指示学习,通过指示学习加快蒸馏,使用教师的中间表示作为提示学习帮助培训过程并提高学生的蒸馏效果,使用特征向量V和Z之间的L2距离:
其中,Z代表在教师网络中选择作为提示的中间层,V代表学生网络中引导层的输出。
6.一种基于多尺度特征图重构和知识蒸馏的目标检测系统,其特征在于,包括:
图像特征提取模块,用于基于训练图像数据集训练YOLOv3模型生成基准模型,利用YOLOv3的骨干网络Darknet-53提取图像的特征,深层特征通过上采样和浅层特征张量拼接生成多尺度特征图;
多维特征融合模块,用于将图片高层语义和底层细节相融合,提高检测精度,特征图沿着空间维度进行特征压缩,将每个二维的特征通道压缩成一个具有全局感受野的实数,其输出的维度和输入的特征通道数相匹配,通过循环神经网络的门控机制为每个特征通道生成权重,再将权重加权到先前的特征上,完成在通道维度上的对原始特征的重标定;通过残差模块融合顶层特征的语义信息和底层特征的细节信息,并最终输出不同尺度的特征图用于检测;
骨干网络压缩模块,用于将骨干网络中BN层的γ系数引入剪枝目标函数中进行联合训练,对训练后γ系数进行归一化并排序,根据修剪阈值,将低于阈值的γ系数所在通道从模型中去除,对YOLOv3模型进行剪枝;以及将经过剪枝的模型作为学生模型,将基准模型作为教师网络进行知识蒸馏,教利用师模型生成的软标签指导学生模型进行训练,并使用指示学习加快蒸馏速度;
以及,图像目标检测模块,用于利用训练好的学生模型对输入的图像进行目标检测。
7.一种基于多尺度特征图重构和知识蒸馏的目标检测系统,其特征在于,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-5所述的基于多尺度特征图重构和知识蒸馏的目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010324557.6A CN111626330B (zh) | 2020-04-23 | 2020-04-23 | 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010324557.6A CN111626330B (zh) | 2020-04-23 | 2020-04-23 | 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626330A CN111626330A (zh) | 2020-09-04 |
CN111626330B true CN111626330B (zh) | 2022-07-26 |
Family
ID=72260965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010324557.6A Active CN111626330B (zh) | 2020-04-23 | 2020-04-23 | 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626330B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112132062B (zh) * | 2020-09-25 | 2021-06-29 | 中南大学 | 一种基于剪枝压缩神经网络的遥感图像分类方法 |
CN112164054A (zh) * | 2020-09-30 | 2021-01-01 | 交叉信息核心技术研究院(西安)有限公司 | 基于知识蒸馏的图像目标检测方法和检测器及其训练方法 |
CN112464718B (zh) * | 2020-10-23 | 2024-02-20 | 西安电子科技大学 | 一种基于YOLO-Terse网络的目标检测方法及存储介质 |
CN112528034B (zh) * | 2020-11-16 | 2022-06-10 | 中国科学院深圳先进技术研究院 | 一种基于知识蒸馏的实体关系抽取方法 |
CN112308019B (zh) * | 2020-11-19 | 2021-08-17 | 中国人民解放军国防科技大学 | 基于网络剪枝和知识蒸馏的sar舰船目标检测方法 |
CN112329721B (zh) * | 2020-11-26 | 2023-04-25 | 上海电力大学 | 一种模型轻量化设计的遥感小目标检测方法 |
CN112529178B (zh) * | 2020-12-09 | 2024-04-09 | 中国科学院国家空间科学中心 | 一种适用于无预选框检测模型的知识蒸馏方法及系统 |
CN112560631B (zh) * | 2020-12-09 | 2022-06-21 | 昆明理工大学 | 一种基于知识蒸馏的行人重识别方法 |
CN112464959B (zh) * | 2020-12-12 | 2023-12-19 | 中南民族大学 | 基于注意力和多重知识迁移的植物表型检测系统及其方法 |
CN112560693B (zh) * | 2020-12-17 | 2022-06-17 | 华中科技大学 | 基于深度学习目标检测的高速公路异物识别方法和系统 |
CN112508120B (zh) * | 2020-12-18 | 2023-10-10 | 北京百度网讯科技有限公司 | 学生模型训练方法、装置、设备、介质和程序产品 |
CN112528956A (zh) * | 2020-12-28 | 2021-03-19 | 佛山科学技术学院 | 基于特征重标定的人脸特征提取方法、系统、设备及介质 |
CN112766087A (zh) * | 2021-01-04 | 2021-05-07 | 武汉大学 | 一种基于知识蒸馏的光学遥感图像舰船检测方法 |
CN112766411B (zh) * | 2021-02-02 | 2022-09-09 | 天津大学 | 一种自适应区域精修的目标检测知识蒸馏方法 |
CN112862715B (zh) * | 2021-02-08 | 2023-06-30 | 天津大学 | 一种实时且可控的尺度空间滤波方法 |
CN113065426B (zh) * | 2021-03-19 | 2023-10-17 | 浙江理工大学 | 基于通道感知的手势图像特征融合方法 |
CN112949572B (zh) * | 2021-03-26 | 2022-11-25 | 重庆邮电大学 | 基于Slim-YOLOv3的口罩佩戴情况检测方法 |
CN113128362A (zh) * | 2021-03-31 | 2021-07-16 | 广东工业大学 | 一种基于yolov3的无人机视角下小目标快速检测方法 |
CN113159173B (zh) * | 2021-04-20 | 2024-04-26 | 北京邮电大学 | 一种结合剪枝与知识蒸馏的卷积神经网络模型压缩方法 |
CN113077389B (zh) * | 2021-04-28 | 2023-04-07 | 广东工业大学 | 一种基于信息蒸馏结构的红外热成像方法 |
CN113221717B (zh) * | 2021-05-06 | 2023-07-18 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的模型构建方法、装置及设备 |
CN113240001B (zh) * | 2021-05-11 | 2023-05-26 | 华中农业大学 | 一种棉花花药开裂状态识别方法及系统 |
CN113177527B (zh) * | 2021-05-27 | 2022-09-23 | 安阳工学院 | 一种车型识别方法及装置 |
CN113515656B (zh) * | 2021-07-06 | 2022-10-11 | 天津大学 | 一种基于增量学习的多视角目标识别与检索方法、及装置 |
CN113837376B (zh) * | 2021-08-30 | 2023-09-15 | 厦门大学 | 基于动态编码卷积核融合的神经网络剪枝方法 |
CN114022727B (zh) * | 2021-10-20 | 2024-04-26 | 之江实验室 | 一种基于图像知识回顾的深度卷积神经网络自蒸馏方法 |
CN114037857B (zh) * | 2021-10-21 | 2022-09-23 | 中国科学院大学 | 图像分类精度提升方法 |
CN115019183B (zh) * | 2022-07-28 | 2023-01-20 | 北京卫星信息工程研究所 | 基于知识蒸馏和图像重构的遥感影像模型迁移方法 |
CN117496509B (zh) * | 2023-12-25 | 2024-03-19 | 江西农业大学 | 一种融合多教师知识蒸馏的Yolov7柚子计数方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764462A (zh) * | 2018-05-29 | 2018-11-06 | 成都视观天下科技有限公司 | 一种基于知识蒸馏的卷积神经网络优化方法 |
CN108830813B (zh) * | 2018-06-12 | 2021-11-09 | 福建帝视信息科技有限公司 | 一种基于知识蒸馏的图像超分辨率增强方法 |
-
2020
- 2020-04-23 CN CN202010324557.6A patent/CN111626330B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111626330A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626330B (zh) | 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统 | |
CN110135267B (zh) | 一种大场景sar图像细微目标检测方法 | |
Zheng et al. | PAC-Bayesian framework based drop-path method for 2D discriminative convolutional network pruning | |
CN110414377B (zh) | 一种基于尺度注意力网络的遥感图像场景分类方法 | |
CN107480261B (zh) | 一种基于深度学习细粒度人脸图像快速检索方法 | |
CN112257794B (zh) | 一种基于yolo的轻量级的目标检测方法 | |
CN112446476A (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
KR102224253B1 (ko) | 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법 | |
CN112529146B (zh) | 神经网络模型训练的方法和装置 | |
CN112232355B (zh) | 图像分割网络处理、图像分割方法、装置和计算机设备 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN111523546A (zh) | 图像语义分割方法、系统及计算机存储介质 | |
CN111882031A (zh) | 一种神经网络蒸馏方法及装置 | |
CN114255361A (zh) | 神经网络模型的训练方法、图像处理方法及装置 | |
Kang et al. | Random forest with learned representations for semantic segmentation | |
Moya Rueda et al. | Neuron pruning for compressing deep networks using maxout architectures | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN114492634B (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN113095251B (zh) | 一种人体姿态估计方法及系统 | |
CN114491289A (zh) | 一种双向门控卷积网络的社交内容抑郁检测方法 | |
CN116977844A (zh) | 一种轻量级水下目标实时检测方法 | |
CN117011515A (zh) | 基于注意力机制的交互式图像分割模型及其分割方法 | |
CN111709442A (zh) | 一种面向图像分类任务的多层字典学习方法 | |
CN116311472A (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
CN116109868A (zh) | 基于轻量化神经网络的图像分类模型构建和小样本图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |