CN112288084B

CN112288084B - 基于特征图通道重要性的深度学习目标检测网络压缩方法

Info

Publication number: CN112288084B
Application number: CN202011146960.0A
Authority: CN
Inventors: 何楚; 童鸣; 李盛林; 王文伟
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-09-02
Anticipated expiration: 2040-10-23
Also published as: CN112288084A

Abstract

为了解决传统深度学习网络压缩方法不适用于需要精确回归检测坐标的目标检测网络、方法泛用性差且对网络精度损失大的问题，通过将引入特征图通道级稀疏化概念，使压缩方法在可实现性和灵活性上实现较好的折中，能有效应用到任何典型的目标检测网络。本发明公开了一种基于特征图通道重要性的深度学习目标检测网络压缩方法，采取引入BN层gamma参数作为衡量特征图通道重要性程度因子的方法，通过在训练损失函数中加入该参数稀疏化因子，在几乎不损失网络检测精度情况下，实现对目标检测网络的参数压缩。

Description

基于特征图通道重要性的深度学习目标检测网络压缩方法

技术领域

本发明属于图像处理目标检测领域，尤其涉及基于特征图通道重要性的深度学习目标检测网络压缩方法。

背景技术

目标检测，即在图像中建立给定类别物体实例到类别库(如人类，机动车辆，建筑)的映射，并标志出位置信息，是计算机视觉领域应用场景最为广泛的研究领域之一。早期的目标检测方法由于缺乏高效准确的特定特征表达方式，只能通过手工设计特征，为此研究者们针对不同场景需要设计多样化的检测算法弥补人工特征对不同场景特征表达局限性的问题。尽管部分经典传统目标检测算法在某些特定场景取得了很好的效果，但人们对特征和浅层结构的设计缺乏普适性和精确性，算法实践中的很多要素对有效性能造成很大干扰。在计算机视觉任务日益复杂的今日，传统目标检测算法那已不能满足需求。

在2012年Imagenet图像分类竞赛中，基于深度学习的图像分类网络展露峥嵘，其对不同场景的图像具有很强的鲁棒性，并且其学习的特征具有很强的表达能力。一方面，具有深层架构的神经网络能自动从大量图片数据中提取高维特征，相当于将传统目标检测算法手工设计特征的负担转移到神经网络的结构设计上。另一方面，深度学习的深层网络能提取表达能力更强的特征。由于深层神经网络的特征映射具有语义抽象性，能显著提升深层特征图的特征表达能力。随后将目标位置回归加入到深度学习系统中的尝试成功将其在目标分类中的应用转入到目标检测领域，由此目标检测任务开阔了新的前景并以惊人的速度发展。

尽管目前深度学习在目标检测领域取得了对比传统方法突破性的进展，但其仍然存在一些问题。第一，基于深度学习网络提取的特征优劣极其依赖训练数据源的数量和质量，因为深度学习网络需要训练足够数量的多场景多尺度目标来避免过拟合。第二，深度网络带来的庞大参数量导致训练和测试消耗大量时间和设备成本。故目前的深度学习目标检测研究趋向于节省数据成本和提高效率节省运行时间两方面。

鉴于目前学界和工业界对目标检测网络在移动设备和嵌入式设备上部署的要求越来越迫切，如何降低深层神经网络的时间和计算成本极其重要。随着这方面的研究逐渐被重视，深度网络的模型压缩领域发展出许多有效方法，其大致可分为三类：结构优化，剪枝与参数共享和知识精炼。虽然模型压缩整体理论已经基本确定，但目前的基于深度学习的目标检测网络压缩算法仍有很多问题亟待解决：第一，深度网络的模型压缩方法大多评测标准是图像分类准确率，与检测任务仍有差距。其次，目前的网络压缩方法泛用性较差，很难找到一种压缩方式适合大部分深度网络。最后，网络压缩带来的不可避免的精度损失问题还没有很好地规避方法。

发明内容

本发明针对现有技术的不足，提供一种基于特征图通道重要性程度的深度学习目标检测网络压缩方法。

本发明的技术方案为一种基于特征图通道重要性程度的深度学习目标检测网络压缩方法，包含以下步骤：

步骤1，设置网络特征图通道重要性尺度因子；本发明引入基于深度学习的目标检测网络常用的批量归一化层，即BN层中的gamma参数作为衡量深度网络每一层卷积层各通道对于该网络特征提取的重要程度的尺度因子；所述批量归一化层，指对该层输入z_in进行以下式子的归一化操作：

其中μ_Β为一次迭代中批量输入的特征图均值，

为一次迭代中批量输入的特征图方差；随后，引入可学习重构参数γ和β，则该层输出

该层能改善网络梯度，允许更大的学习率，大幅提高训练速度并减少对初始化的强烈依赖；批量归一化层γ参数本质具有通道缩放属性，引入其作为衡量各通道重要程度所需的尺度因子，不会给网络带来额外的参数和计算开销；

步骤2，根据采用步骤1所得网络卷积通道重要性尺度因子进行稀疏化训练，实现方式如下，

在原始网络的损失函数中增加了一项对网络所有BN层的γ参数的L1范数限制，使得γ参数更加稀疏且大部分γ参数接近于0，即BN层的γ参数在原始网络中不具备很高的稀疏性，其值分布分散，不利于后续步骤3根据通道重要性尺度因子进行通道裁剪的过程；所述增加L1范数限制，指在原始网络的训练损失函数loss_ori上增加一项关于γ参数的子项，新的损失函数loss_pru＝loss_ori+λ∑_γ∈Γ|γ|，其中λ是新的损失函数两个子项之间的权重值，其本质为该网络所有γ参数值绝对值和的惩罚因子，其值越大，则γ参数对训练损失函数影响越大；网络训练过程中，损失值函数不断减小，则所有γ参数值绝对值和不断减小，更多γ参数值不断趋近于0，即实现卷积通道重要性尺度因子的稀疏化训练；当网络损失值不再随迭代次数产生较大波动且大部分γ参数值趋近于0时，停止训练，获得网络权重值；

步骤3，根据采用步骤2所得稀疏化训练之后的网络γ参数值进行卷积层通道裁剪，实现方式如下，

在步骤2通道稀疏正则化训练后，得到了的网络模型γ参数值大部分趋近于0，由BN层γ参数的含义可知输入该层的特征图的每个通道对应一个γ参数值；将重要性低于剪枝率的特征图通道舍弃，舍弃的特征图通道对应的卷积核也被舍弃，这就完成了通道裁剪的过程；所述剪枝率，指稀疏训练后所有γ参数的百分比，即将模型所有γ参数从小到大排列，取前剪枝率对应数量的γ参数对应的特征图通道裁剪，该特征图通道对应的卷积核同时舍弃；当剪枝率较高时，通道裁剪可能会暂时导致一些精度损失，但这在很大程度上可以通过随后步骤4的网络微调来进行规避；

步骤4，根据采用步骤3获取的通道裁剪后的网络参数权重，对相同数据集进行网络再训练；训练损失函数为步骤2稀疏训练时的原始网络损失函数；当网络损失值不再随迭代次数产生较大波动时，停止训练，获得网络权重值。

在上述的一种基于特征图通道重要性程度的深度学习目标检测网络压缩方法，步骤2中原始网络的训练损失函数loss_ori分为四部分，具体计算方式如下：

定义S_n ²为每张图片被网络划分网格数，B_n为每个网格产生的候选框数，

为表示第i个网格的第j个候选框是否负责该物体的二值参数，若负责则

否则

所述负责，指第i个网格的第j个候选框与该物体的标注框的重合度在所有候选框与该标注框的重合度中最大；

表示第i个网格的第j个候选框是否不负责该物体的二值参数，若不负责则

否则

为第i个网格的第j个预测框的置信度；

为训练中的置信度标注真实值，其取值由网格候选框产生的预测框是否负责该物体决定，若负责则

否则

所述负责第i个网格的第j个预测框与该物体的标注框的重合度在所有候选框与该标注框的重合度中最大；

第一部分为边框中心坐标损失loss_xy，其可用

式子计算得到，其中x_i，y_i为网络输出的预测框中心点横纵坐标归一化后的值，

为目标标注框中心点横纵坐标归一化后的值；该项损失函数实质为第i个网格的第j个候选框负责一个真实目标时，该候选框产生的预测框中心点坐标与真实目标的标注框中心点坐标的差距；

所述归一化，指将网络输出的预测框中心点对于网格相对值的横纵坐标和宽高对于候选框相对值转化为对于图像的真实坐标和预测框真实宽高的计算过程；预测框中心点真实横坐标

其中t_x为网络输出的预测框中心点对于网格的相对值横坐标，c_x为中心点在特征图中的横坐标；预测框中心点真实纵坐标

其中t_y为网络输出的预测框中心点对于网格的相对值纵坐标，c_y为中心点在特征图中的纵坐标；预测框真实宽

其中p_w为候选框的宽，t_w为网络输出的预测框宽对于网格的相对值；预测框真实高

其中p_h为候选框的高，t_h为网络输出的预测框高对于网格的相对值；

第二部分为边框宽高损失loss_wh，其可用

式子计算得到，其中w_i，h_i为网络输出的预测框宽高归一化后的值，

为目标标注框宽高归一化后的值；该项损失函数实质为第i个网格的第j个候选框负责一个真实目标时，该候选框产生的预测框尺寸与真实目标的标注框尺寸的差距；

第三部分为置信度损失loss_con，其可用

式子计算得到，其中λnoobj预测框内不包含物体的置信度损失部分的权重系数；对于光学遥感图像，大部分内容不包含待检测物体，即没有物体的计算部分损失贡献会大于有物体的计算部分，这会导致网络倾向于预测单元格内不含物体；因此，本发明设计损失函数时减少不包含物体计算部分的贡献权重；

第四部分为类别损失loss_con，其可用

式子计算得到，其中Pij为标注框真实类别概率，Pij为预测框类别概率；该损失函数实质为第i个网格的第j个候选框负责一个真实目标时，该候选框产生的预测框类别概率与真实目标的标注框类别概率的差距。

在上述的一种基于特征图通道重要性程度的深度学习目标检测网络压缩方法，步骤3中，具体的实施方案如下

(1)对于卷积层，剪枝后判断每一层通道数是否为零，若为零，强制保留γ参数绝对值最大的特征图参数对应的滤波器单通道，避免过度剪枝带来的网络结构破坏；对于没有后续接入批量归一化层的卷积层不进行通道裁剪；

(2)对于Shortcut层，剪枝后判断该层所连接的两个卷积层通道数是否一致，若不一致，则将两层卷积层通道进行编号，未被剪枝通道标示为1，被剪枝通道标识为0，生成两组一维的二进制向量，对两组向量各位进行或操作，得到一个一维向量，其中内容为1的向量位数对应的两个卷积层通道保留，内容为0的向量位数对应的两个卷积层通道裁剪；

(3)对于池化层，上采样层和连接层，不对其进行参数剪枝，因为该层无可学习参数，与特征图通道数无关；所述最大池化层指对每个通道维度的特征图进行最大池化操作，即将特征图不重叠地分割成若干个池化尺寸大小的小块，每个小块内只取最大的数字，再舍弃其他节点后，保持原有的平面结构得到输出特征图；所属Shortcut层，指对输入的两个卷积层特征图进行各对应通道参数相加操作，其要求输入卷积层通道数完全一致；所述上采样层，是指对输入特征图，在像素点值之间采用双线性插值法插入新的元素；所述连接层，是指将输入的特征图按先后顺序，在通道维度上拼接，即连接层输出特征图通道数等于输入特征图通道数之和，在代码实现中，直接进行特征图数组在通道维度上的合并。

本发明针对目前的基于深度学习的目标检测网络压缩算法泛用性较差，检测精度损失较大的问题，引入BN层的γ参数作为衡量网络卷积通道重要性的尺度因子，通过稀疏化训练，网络自动识别冗余通道信息，在不影响泛化性能的前提下，可以安全地去除冗余参数。同时通过微调训练有效地补偿了通道裁剪带来的精度损失。

附图说明

图1是本发明实施例的目标检测网络压缩方法的流程图。

图2是本发明实施例的稀疏化训练流程图。

图3是本发明实施例的通道裁剪流程图。

图4是本发明实施例的网络训练系统框图。

具体实施方式

本发明主要基于深度学习目标检测网络压缩领域，考虑目前的网络压缩算法泛用性较差，检测精度损失较大的问题，提出基于特征图通道重要性程度的深度学习目标检测网络压缩实验方法及系统。本方法充分考虑了不同层次稀疏性的可实现性和灵活性，通过引入BN层的γ参数作为衡量网络卷积通道重要性的尺度因子在不给网络带来额外的参数开销下实现通道层次的网络稀疏化，并通过微调训练有效地补偿了通道裁剪带来的精度损失。通过本发明获得的结果更加科学，更加精确。

本发明提供的方法能够用计算机软件技术实现流程。参见图1，实施例以单阶段目标检测框架压缩为例对本发明的流程进行一个具体的阐述，如下：

步骤1，设置网络特征图通道重要性尺度因子。本发明引入基于深度学习的目标检测网络常用的批量归一化层，即BN层中的gamma参数作为衡量深度网络每一层卷积层各通道对于该网络特征提取的重要程度的尺度因子，该层操作流程参见图2。

实施例具体的实施过程说明如下：

定义z_in为批量归一化层输入特征图，z_out为批量归一化层输出特征图，

为批量归一化层归一化特征图，μ_B为一次迭代中批量输入的特征图均值，

为一次迭代中批量输入的特征图方差，γ和β为重构参数，m为批量块个数。所述批量块，只设置固定图片数作为一个批量后，整个训练数据能划分为的批量个数。

基于深度学习的目标检测网络采用随机梯度下降法，其训练参数，例如学习率、参数初始化、权重衰减系数等需要人工调试，使网络更快收敛。批量归一化层的应用可以加速网络收敛速度，改善网络梯度，允许更大的学习率，大幅提高训练速度并减少对初始化的强烈依赖。该层训练过程前向传导过程分为两部分，第一部分归一化输出

采用近似白化预处理。神经网络学习过程本质即学习数据分布，一旦训练数据与测试数据的分布不同，网络的泛化能力则大幅降低；另一方面，一旦每批训练数据的分布各不相同，网络需要在每次迭代适应不同的数据数据分布，网络的训练速度极大降低。进行归一化处理后，每批训练数据趋近于高斯分布，便于快速收敛。第二部分重构输出

该部分补偿了归一化操作对本层输入特征分布的破坏，通过训练学习恢复出原始网络所要学习的特征分布。训练过程反向传导通过链式求导方式，求出γ和β以及相关权值。其梯度求解过程如下：批量归一化层输出和归一化输出梯度关系为

一次迭代中批量输入的特征图方差和归一化输出反向传导关系为

一次迭代中批量输入的特征图均值和归一化输出反向传导关系为

即归一化输出

到批量归一化层输入z_in梯度关系为

本质为正常梯度乘一个系数再加偏置，整体给梯度一个提升，补偿激活函数的损失，改善了梯度弥散问题，其中

在网络测试过程中，批量归一化层所涉及的均值采用网络趋于稳定后的所有批量块的均值的期望值，标准偏差采用所有批量块的标准差的无偏估计，即测试阶段批量归一化层输出

实施例具体的实施方案如下：

本实施例中，批量归一化层的输入为卷积层输出特征图，每个通道的特征图作为一个单独的神经元，使用权值共享策略，每个通道特征图只有一对重构参数，即每个缩放因子γ参数和每个偏置因子β参数均与输入特征图通道一一对应。批量归一化层的缩放因子γ参数作为网络裁剪所需的通道重要性尺度因子，最大优点是不给网络带来额外参数开销。若不按照本实施例自设计缩放因子存在以下问题：(1)若在批量归一化层之前，卷积层之后设计通道缩放因子操作乘以对应特征图的所有值，则缩放因子对特征图通道的缩放效果将被批量归一化层中的归一化过程完全抵消，通道重要性失去区分度。(2)若在批量归一化层之后设计通道缩放因子操作乘以对应特征图的所有值，则特征图每个通道进行两个缩放因子的重复缩放，增加了计算消耗削弱了重要性程度缩放效果。(3)若网络不使用BN层单独设计通道缩放因子操作乘以对应特征图的所有值，则由于卷积与缩放均为线性操作，缩放因子等效于卷积核权值缩放，则重要性程度尺度因子无意义。

步骤2，根据采用步骤1所得网络卷积通道重要性尺度因子进行稀疏化训练。

一般进行网络训练时，如果不对批量归一化层的γ参数做出限制，即正常情况下其值在原始网络中不具备很高的稀疏性，分布分散，不利于后续步骤3根据通道重要性尺度因子进行通道裁剪的过程。要实现通道重要性尺度因子的稀疏性，需要修剪与通道相关联的所有传入和传出连接，这使得直接通道裁剪预先训练好的模型的参数权重的方法无效，因为通道输入端或输出端的所有权重分布分散且大部分不接近于零。强行裁剪通道，会导致模型检测精度的大幅降低。

本发明在原始网络的损失函数中增加了一项对网络所有BN层的γ参数的L1范数限制，使得γ参数更加稀疏且大部分γ参数接近于0，通过在训练阶段采用次梯度最优损失函数，保证训练过程中损失函数值下降的同时，网络全体γ参数绝对值和保持下降。本实施例中，在原始网络的训练损失函数loss_ori上增加一项关于γ参数的子项，如图2所示，新的损失函数loss_pru＝loss_ori+λ∑_γ∈Γ|γ|，其中λ是新的损失函数两个子项之间的权重值，是由人工设定的超参数，其本质为该网络所有γ参数值绝对值和的惩罚因子，其值越大，则γ参数对训练损失函数影响越大。本实施例中，λ取值为10^-4，本领域人员可自行根据具体情况在10^-4和10^-5之间取值。网络训练过程中，损失值函数不断减小，则所有γ参数值绝对值和不断减小，更多γ参数值不断趋近于0，即实现卷积通道重要性尺度因子的稀疏化训练。

本实施例所述原始网络的训练损失函数loss_ori分为四部分，具体计算方式如下：

否则

所述负责，指第i个网格的第j个候选框与该物体的标注框的重合度在所有候选框与该标注框的重合度中最大。

否则

为第i个网格的第j个预测框的置信度。

否则

所述负责第i个网格的第j个预测框与该物体的标注框的重合度在所有候选框与该标注框的重合度中最大。

第一部分为边框中心坐标损失loss_xy，其可用

为目标标注框中心点横纵坐标归一化后的值。该项损失函数实质为第i个网格的第j个候选框负责一个真实目标时，该候选框产生的预测框中心点坐标与真实目标的标注框中心点坐标的差距。

所述归一化，指将网络输出的预测框中心点对于网格相对值的横纵坐标和宽高对于候选框相对值转化为对于图像的真实坐标和预测框真实宽高的计算过程。预测框中心点真实横坐标

其中p_h为候选框的高，t_h为网络输出的预测框高对于网格的相对值。

第二部分为边框宽高损失loss_wh，其可用

为目标标注框宽高归一化后的值。该项损失函数实质为第i个网格的第j个候选框负责一个真实目标时，该候选框产生的预测框尺寸与真实目标的标注框尺寸的差距。

第三部分为置信度损失loss_con，其可用

式子计算得到，其中λnoobj预测框内不包含物体的置信度损失部分的权重系数。对于光学遥感图像，大部分内容不包含待检测物体，即没有物体的计算部分损失贡献会大于有物体的计算部分，这会导致网络倾向于预测单元格内不含物体。因此，本发明设计损失函数时减少不包含物体计算部分的贡献权重。

第四部分为类别损失loss_con，其可用

式子计算得到，其中

为标注框真实类别概率，

为预测框类别概率。该损失函数实质为第i个网格的第j个候选框负责一个真实目标时，该候选框产生的预测框类别概率与真实目标的标注框类别概率的差距。

步骤3，根据采用步骤2所得稀疏化训练之后的网络γ参数值进行卷积层通道裁剪。

在稀疏训练后，设置网络全局减值率超参数，将重要性低于剪枝率的特征图通道舍弃，舍弃的特征图通道对应的卷积核也被舍弃，这就完成了通道裁剪的过程。所述剪枝率，指稀疏训练后所有γ参数的百分比，即将模型所有γ参数从小到大排列，取前剪枝率对应数量的γ参数对应的特征图通道裁剪，该特征图通道对应的卷积核同时舍弃。当剪枝率较高时，通道裁剪可能会暂时导致一些精度损失，但这在很大程度上可以通过随后步骤4的网络微调来进行规避。如图3所示，实施例具体的实施方案如下：

(1)对于卷积层，剪枝后判断每一层通道数是否为零，若为零，强制保留γ参数绝对值最大的特征图参数对应的滤波器单通道，避免过度剪枝带来的网络结构破坏。对于没有后续接入批量归一化层的卷积层不进行通道裁剪。

(2)对于Shortcut层，剪枝后判断该层所连接的两个卷积层通道数是否一致，若不一致，则将两层卷积层通道进行编号，未被剪枝通道标示为1，被剪枝通道标识为0，生成两组一维的二进制向量，对两组向量各位进行或操作，得到一个一维向量，其中内容为1的向量位数对应的两个卷积层通道保留，内容为0的向量位数对应的两个卷积层通道裁剪。

(3)对于池化层，上采样层和连接层，本发明不对其进行参数剪枝，因为该层无可学习参数，与特征图通道数无关。所述最大池化层指对每个通道维度的特征图进行最大池化操作，即将特征图不重叠地分割成若干个池化尺寸大小的小块，每个小块内只取最大的数字，再舍弃其他节点后，保持原有的平面结构得到输出特征图。所属Shortcut层，指对输入的两个卷积层特征图进行各对应通道参数相加操作，其要求输入卷积层通道数完全一致。所述上采样层，是指对输入特征图，在像素点值之间采用合适的插值算法插入新的元素。本实施例采用双线性插值法，本领域人员可自行根据具体情况设定插值方法。所述连接层，是指将输入的特征图按先后顺序，在通道维度上拼接，即连接层输出特征图通道数等于输入特征图通道数之和，在本实施例代码实现中，直接进行特征图数组在通道维度上的合并。

步骤4，根据采用步骤3获取的通道裁剪后的网络参数权重，对相同数据集进行网络再训练。训练损失函数为步骤2稀疏训练时的原始网络损失函数。当网络损失值不再随迭代次数产生较大波动时，停止训练，获得网络权重值。本实施例中，步骤2与步骤4训练参数设置相同，本领域人员可自行根据具体情况设定两次训练的参数值。

如图4所示，具体训练流程中，对输入训练集图片划分网格，在各网格内通过预设尺寸的候选框生成预测框，通过预测框参数和标注真实框参数计算损失函数，计算完训练集内所有图片得到本次迭代损失函数值，完成一次迭代。

实施例过程训练涉及参数如下表：

Batch	Subdivisions	Resize width	Resize height
				64	16	416	416
Learning rate	Max batches	Policy	Steps
				0.001	50000	Steps	10000,20000

其中Batch与Subdivisions参数控制一次送入网络训练的图片张数，Resizewidth与Resize height为网络训练输入图片归一化后尺寸，Learning rate为网络训练学习率，决定网络收敛速度，Max batches为网络训练迭代最大次数，Policy为网络训练学习率下降策略，本实施例选择steps策略，即每训练到一定迭代次数，学习率变为自身的十分之一，设置10000次和20000次迭代时各下降一次学习率。本领域技术人员可以需要根据具体情况设定其他方式，或者参照本发明实施例提供的方式自行设置表中数值。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于特征图通道重要性程度的深度学习目标检测网络压缩方法，其特征在于，包含以下步骤：

步骤1，设置网络特征图通道重要性尺度因子；引入基于深度学习的目标检测网络常用的批量归一化层，即BN层中的γ参数作为衡量深度网络每一层卷积层各通道对于该网络特征提取的重要程度的尺度因子；所述批量归一化层，指对该层输入z_in进行以下式子的归一化操作：

其中μ_Β为一次迭代中批量输入的特征图均值，

在原始网络的损失函数中增加了一项对网络所有BN层的γ参数的L1范数限制，使得γ参数更加稀疏且大部分γ参数接近于0，即BN层的γ参数在原始网络中不具备很高的稀疏性，其值分布分散，不利于后续步骤3根据通道重要性尺度因子进行通道裁剪的过程；所述L1范数限制，指在原始网络的训练损失函数loss_ori上增加一项关于γ参数的子项，新的损失函数loss_pru＝loss_ori+λ∑_γ∈Γ|γ|，其中λ是新的损失函数两个子项之间的权重值，其本质为该网络所有γ参数值绝对值和的惩罚因子，其值越大，则γ参数对训练损失函数影响越大；网络训练过程中，损失值函数不断减小，则所有γ参数值绝对值和不断减小，更多γ参数值不断趋近于0，即实现卷积通道重要性尺度因子的稀疏化训练；当网络损失值不再随迭代次数产生较大波动且大部分γ参数值趋近于0时，停止训练，获得网络权重值；

在步骤2通道稀疏正则化训练后，得到了的网络模型γ参数值大部分趋近于0，由BN层γ参数的含义可知输入该层的特征图的每个通道对应一个γ参数值；将重要性低于剪枝率的特征图通道舍弃，舍弃的特征图通道对应的卷积核也被舍弃，这就完成了通道裁剪的过程；所述剪枝率，指稀疏训练后所有γ参数的百分比，即将模型所有γ参数从小到大排列，取前剪枝率对应数量的γ参数对应的特征图通道裁剪，该特征图通道对应的卷积核同时舍弃；当剪枝率较高时，通道裁剪可能会暂时导致一些精度损失，通过随后步骤4的网络微调来进行规避；

2.根据权利要求1所述的一种基于特征图通道重要性程度的深度学习目标检测网络压缩方法，其特征在于，步骤2中原始网络的训练损失函数loss_ori分为四部分，具体计算方式如下：

为表示第i个网格的第j个候选框是否负责待测真实目标的二值参数，若负责则

否则

所述负责，指第i个网格的第j个候选框与该真实目标的标注框的重合度在所有候选框与该标注框的重合度中最大；

表示第i个网格的第j个候选框是否不负责待测真实目标的二值参数，若不负责则

否则

为第i个网格的第j个预测框的置信度；

为训练中的置信度标注真实值，其取值由网格候选框产生的预测框是否负责待测真实目标决定，若负责则

否则

所述负责第i个网格的第j个预测框与待测真实目标的标注框的重合度在所有候选框与该标注框的重合度中最大；

第一部分为边框中心坐标损失loss_xy，其可用

为目标标注框中心点横纵坐标归一化后的值；该项损失loss_xy实质为第i个网格的第j个候选框负责一个真实目标时，该候选框产生的预测框中心点坐标与真实目标的标注框中心点坐标的差距；

第二部分为边框宽高损失loss_wh，其可用

为目标标注框宽高归一化后的值；该项损失loss_wh实质为第i个网格的第j个候选框负责一个真实目标时，该候选框产生的预测框尺寸与真实目标的标注框尺寸的差距；

第三部分为置信度损失loss_con，其可用

式子计算得到，其中λ_noobj预测框内不包含真实目标的置信度损失部分的权重系数；对于光学遥感图像，大部分内容不包含待检测真实目标，即没有真实目标的计算部分损失贡献会大于有真实目标的计算部分，这会导致网络倾向于预测单元格内不含真实目标；设计损失函数时减少不包含真实目标计算部分的贡献权重；

第四部分为类别损失loss_con，其可用

式子计算得到，其中

为标注框真实类别概率，

为预测框类别概率；该类别损失loss_con实质为第i个网格的第j个候选框负责一个真实目标时，该候选框产生的预测框类别概率与真实目标的标注框类别概率的差距。

3.根据权利要求2所述的一种基于特征图通道重要性程度的深度学习目标检测网络压缩方法，其特征在于，步骤3中，具体的实施方案如下：

(3)对于池化层，上采样层和连接层，不对其进行参数剪枝，因为该层无可学习参数，与特征图通道数无关；所述池化层指对每个通道维度的特征图进行最大池化操作，即将特征图不重叠地分割成若干个池化尺寸大小的小块，每个小块内只取最大的数字，再舍弃其他节点后，保持原有的平面结构得到输出特征图；所述Shortcut层，指对输入的两个卷积层特征图进行各对应通道参数相加操作，其要求输入卷积层通道数完全一致；所述上采样层，是指对输入特征图，在像素点值之间采用双线性插值法插入新的元素；所述连接层，是指将输入的特征图按先后顺序，在通道维度上拼接，即连接层输出特征图通道数等于输入特征图通道数之和，在代码实现中，直接进行特征图数组在通道维度上的合并。