CN113435588A

CN113435588A - 基于深度卷积神经网络bn层尺度系数的卷积核嫁接方法

Info

Publication number: CN113435588A
Application number: CN202110988504.9A
Authority: CN
Inventors: 张逸; 何鹏飞; 王军; 徐晓刚; 张文广; 朱岳江
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-09-24
Anticipated expiration: 2041-08-26
Also published as: CN113435588B

Abstract

本发明公开了基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，首先设置两组不同的训练策略；然后采用两组策略训练同构的两个深度卷积神经网络，训练过程中，对两个深度卷积神经网络的BN层尺度系数进行稀疏化；同时采用特征图学习的方式，保持两个深度卷积神经网络的层内卷积核权值分布的一致性；根据BN层尺度系数，每隔一定迭代次数，将其中一个深度卷积神经网络层内BN层对应尺度系数小的卷积核，替换为另一个深度卷积神经网络层内BN层对应尺度系数大的卷积核。

Description

基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法

技术领域

本发明涉及人工智能及计算机视觉技术领域，尤其是涉及基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法。

背景技术

随着智能化的发展，生产生活的安全已成为了人们日益关注的焦点和需求。工业生产的现场以及城市的许多角落都已经安装了摄像头，为利用计算机视觉技术自动化监控创造了良好的客观条件。

由于大规模摄像头产生的海量视频的传输和存储存在困难，因此实际场景对摄像头的端侧处理能力提出了很高的要求。

基于此，模型压缩技术包括量化、剪枝等逐步发展，于此同时，类似MobileNet、ShuffleNet等紧凑型的小型网络模型也极大推进了端侧推理性能的优化。需要指出的是，MobileNet、ShuffleNet等紧凑型的小型网络本身的设计有效降低了端侧的推理耗时和硬件资源消耗，然而其性能相对于较大规模的网络模型存在一定劣势，在网络结构限定的条件下，进一步提高其训练后的精度性能具有重要意义。

在网络结构限定的条件下，提高模型训练精度性能的常用方法是知识蒸馏，即设定异构的教师网络和学生网络，将教师网络学习到的信息传递给学生网络。然而，由于异构网络间信息传递的困难性，知识蒸馏方法对学生网络的性能提升有限。因此，直接将教师网络中子网络或中间层向学生网络进行移植嫁接是有益的发展路径。

由于深度卷积神经网络的庞大，网络训练后往往存在很多的卷积核没有得到充分利用，对其进行裁剪也不影响模型的精度性能，因此，在网络结构不进行缩减的条件下，需要提出一种进一步充分利用原有低效卷积核的方法。

直接将教师网络中子网络或中间层向学生网络进行移植嫁接虽然可行，但是其仍然没有消除移植的子网络或中间层中存在的低效卷积核，限制了性能提升的空间，而直接将教师网络中的高效卷积核替换学生网络中的低效卷积核，又将破坏学生网络层内卷积核权值分布的一致性。

发明内容

为解决现有技术的不足，利用BN层尺度系数来判断对应的卷积核是否高效，同时利用特征图学习的方法保持学生网络和教师网络层内卷积核权值分布的一致性，解决现有知识蒸馏或网络层粒度的模型嫁接对学生网络的性能提升有限的问题，实现消除学生网络模型中的低效卷积核，又在移植过程中保持学生网络层内卷积核权值分布的一致性的目的，本发明采用如下的技术方案：

基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，包括如下步骤：

S1，设置两组不同的训练策略，包括两组训练图像；

S2，采用两组不同的训练策略，分别向同构的两个深度卷积神经网络A和B输入两组训练图像，进行迭代训练，训练过程中，对两个深度卷积神经网络的BN层尺度系数进行稀疏化，目的是区分各个卷积核的重要性，稀疏化公式如下：

其中，L表示新的深度卷积神经网络的损失函数，x表示深度卷积神经网络输入的图像，y表示真实的图像分类标签，W表示可训练的权重，f(·)表示深度卷积神经网络，l(·)表示原深度卷积神经网络的损失函数，g(·)为用于稀疏化BN层尺度系数的惩罚函数，λ为公式第一项原深度卷积神经网络的损失函数和第二项稀疏化惩罚函数的平衡系数，γ表示BN层尺度系数，Γ表示实数域；

S3，采用特征图学习的方式，保持两个深度卷积神经网络的层内卷积核权值分布的一致性，对于同构的A和B，将网络结构中每次下采样前的特征图，作为A和B的绑定特征图，使得A的绑定特征图向B的绑定特征图进行学习，或B向A学习，学习产生的损失函数如下：

其中，i表示绑定特征图对应的编号，W _A,i表示计算得到A的第i个特征图所需的权重，W _B,i表示计算得到B的第i个特征图所需的权重，f(·)表示深度卷积神经网络，||·||¹表示LI范数；

S4，根据BN层尺度系数，每隔预设的迭代次数，将A深度卷积神经网络层内BN层对应尺度系数小的卷积核，替换为B深度卷积神经网络层内BN层对应尺度系数大的卷积核，或B替换为A的，从而提高了图像分类训练的精度。

进一步地，所述S2中，获取到各个BN层尺度系数的梯度后，累加λ*sign(γ)，其中sign(γ)为惩罚函数的导函数，即BN层尺度系数γ的梯度大于0则累加λ，小于0则减去λ。

进一步地，所述S3中，获取A和B的绑定特征图后，将两者对应位置的特征值相减后，再将所有相减的值求和的结果，累加到训练的总损失函数中。该操作可以使得深度卷积神经网络A和B的关键特征层内卷积核权值分布保持一致性，从而为后续卷积核层面的嫁接提供基础。

进一步地，所述S4包括如下步骤：

S41，在A和B的训练迭代过程中，每迭代N次，获取各层稀疏化的BN层尺度系数；

S42，将各层稀疏化的BN层尺度系数按大小排序，根据设定的比例阈值a，分别获取A内每一层BN层，前a的小尺度系数，以及B内每一层BN层，前a的大尺度系数；

S43，获取各BN层大、小尺度系数对应的卷积核；

S44，对于A和B的每一层，将A中BN层的小尺度系数对应的卷积核，替换为B中BN层大尺度系数对应的卷积核。

进一步地，所述深度卷积神经网络A和B，包括依次连接的Stage1模块、Stage2模块、Stage3模块、Stage4模块、GlobalPool模块、FC全连接模块，其中Stage1模块、Stage2模块、Stage3模块、Stage4模块同构，均包含依次连接的Conv卷积模块和MaxPool模块；

所述Stage1模块的Conv卷积模块，输入通道数为3，对应输入RGB图像的三个通道，输出通道数为c，Stage2模块、Stage3模块、Stage4模块的输入及输出通道数均为c，FC全连接模块的输出为类别数；

所述Stage2-4模块，在模块开始处，将c个通道的输入拆分为两个分支，即复制出两份c个通道的输入，对一个分支进行一个3*3卷积核尺度的卷积运算，其中Stage2模块、Stage3模块中该卷积运算的步长为2，即进行下采样，Stage4模块中该卷积运算的步长为1；另一个分支经过三个卷积核尺度分别为1*1、3*3、1*1的卷积层的同时，保证输出通道数与输入通道数相同，其中Stage2模块、Stage3模块、Stage4模块中的1*1卷积核步长为均1，Stage2模块、Stage3模块中3*3的卷积层卷积核步长为2，即进行下采样，Stage4模块中3*3卷积核步长为1，在三个卷积层之后，两个分支进行相加拼接，通道数不变；

以上网络结构中的每个卷积层之后都带有BN层和LeakyRelu激活层。

进一步地，所述绑定特征图，是Stage2-4模块中3*3尺度的卷积核对应的特征图。

进一步地，所述两组不同的训练策略，包括深度卷积神经网络训练过程中，不同的图像输入顺序、不同的网络学习率、不同的训练优化器。

进一步地，所述两组不同的训练策略，均采用交叉熵损失函数。

进一步地，所述λ=0.5。

进一步地，所述惩罚函数采用L1 loss。

本发明的优势和有益效果在于：

本发明在卷积核嫁接领域内，引入基于BN层尺度系数的卷积核选择方法，可以有效提高嫁接与被嫁接卷积核的选择有效性；本发明采用特征图学习的方式，保持两个深度卷积神经网络的层内卷积核权值分布的一致性，从而实现了卷积核粒度上的嫁接，相比网络层粒度的嫁接效率更高，最终有效提高了图像分类训练的精度。

附图说明

图1是本发明的方法流程图。

图2是本发明中特征图学习的示意图。

图3是本发明中网络层内卷积核嫁接示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，本发明的基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，包括以下步骤：

S1：首先设置两组不同的训练策略；

具体地，数据集采用CIFAR-10，训练集共50000张图片，测试集共10000张图片。设置两组不同的训练策略，包括对深度卷积神经网络训练过程中不同的图像输入顺序、不同的网络学习率、不同的训练优化器；第一种训练策略batch数设置为32，采用随机生成的图像输入顺序，初始网络学习率为0.01，采用SGD优化器；第二种训练策略batch数也设置为32，采用随机生成的另一组图像输入顺序，初始网络学习率为0.015，采用Adam优化器。两种训练策略均采用交叉熵损失函数。

S2：采用两组参数训练同构的两个深度卷积神经网络A和B，训练过程中对两个深度卷积神经网络的BN层尺度系数进行稀疏化；

具体地，深度卷积神经网络A和B同构，主要包含以下几个子网络模块：Stage1模块、Stage2模块、Stage3模块、Stage4模块、GlobalPool模块、FC全连接模块，其中Stage1模块、Stage2模块、Stage3模块、Stage4模块同构，均包含Conv卷积模块和MaxPool模块。

Conv卷积模块连接MaxPool模块，Stage1模块依次连接Stage2模块、Stage3模块、Stage4模块，而后连接GlobalPool模块，最后连接FC全连接模块。

Stage1模块的Conv卷积模块的输入通道数为c=3，对应输入RGB图像的三个通道，输出通道数为128，Stage2模块、Stage3模块、Stage4模块的输入及输出通道数均为128，FC全连接模块的输出类别数为10。

所述Stage模块结构如下：在模块开始处，将c=128个通道的输入拆分为两个分支，即复制出两份128个通道的输入，对一个分支进行3*3卷积核尺度的卷积运算，其中Stage2模块、Stage3模块中该卷积运算的步长为2，即进行下采样，Stage4模块中该卷积运算的步长为1；另一个分支经过三个卷积核尺度分别为1*1、3*3、1*1的卷积层的同时，保证输出通道数与输入通道数相同，其中Stage2模块、Stage3模块、Stage4模块中的1*1卷积核步长为均1，Stage2模块、Stage3模块中3*3卷积核步长为2，即进行下采样，Stage4模块中3*3卷积核步长为1，在三个卷积层之后，两个分支进行相加拼接，通道数不变。

对于深度卷积神经网络A和B，采用上述两组不同的训练策略分别进行迭代训练；

训练过程中对两个深度卷积神经网络的BN层尺度系数进行稀疏化，目的是区分各个卷积核的重要性，稀疏化方法对应的公式如下：

其中，x表示神经网络的输入，即输入的图片，y表示真实的图像分类标签，W代表可训练的权重，f(·)表示深度卷积神经网络，l(·)表示原网络损失函数，g(·)为用于稀疏化BN层尺度系数的惩罚函数，采用L1 loss，λ为公式第一项原网络损失函数和第二项稀疏化惩罚函数的平衡系数，采用0.5，γ表示BN层尺度系数，Γ表示实数域。

具体地，在代码实现中即是获取到各个BN层尺度系数的梯度后，累加0.5*sign(x)，其中sign(x)即为L1 loss的导函数，即BN层尺度系数的梯度大于0则累加0.5，小于0则减去0.5。

S3：采用特征图学习的方式保持两个深度卷积神经网络的层内卷积核权值分布的一致性；

具体地，如图2所示，对于同构的两个深度卷积神经网络A和B，将网络结构中每次下采样前的特征图作为深度卷积神经网络A和B的绑定特征图，在本实施例中，即为Stage2模块，Stage3模块，Stage4模块中3*3尺度的卷积核对应的特征图。使得深度卷积神经网络A的绑定特征图向深度卷积神经网络B的绑定特征图进行学习，亦可B向A学习。该部分产生的损失函数项如下公式所示：

其中，i表示绑定特征图对应的编号，W _A,i表示计算得到深度卷积神经网络A的第i个特征图所需的权重，f(·)表示深度卷积神经网络。

具体地，在代码实现中即是获取深度卷积神经网络A的绑定特征图和深度卷积神经网络B的绑定特征图后，将两者对应位置特征值相减再求和的结果累加到训练的总损失函数中。该操作可以使得深度卷积神经网络A和B的关键特征层内卷积核权值分布保持一致性，从而为后续卷积核层面的嫁接提供基础。

S4：根据BN层尺度系数，每隔一定迭代次数，将A深度卷积神经网络层内BN层对应尺度系数小的卷积核，替换为B深度卷积神经网络层内BN层对应尺度系数大的卷积核。

具体地，如图3所示，在深度卷积神经网络A和B的训练迭代过程中，每迭代N=10次，获取各层稀疏化的BN层尺度系数；

将各层稀疏化的BN层尺度系数按大小排序，设定比例阈值a=0.3，按此比例分别获取深度卷积神经网络A内每一层较小的30%的BN层尺度系数，以及深度卷积神经网络B内每一层较大的30%的BN层尺度系数；

获取各BN层对应的卷积核；

对于深度卷积神经网络A和B的每一层，将深度卷积神经网络A中较小BN层尺度系数对应的卷积核替换为深度卷积神经网络B中较大BN层尺度系数对应的卷积核。

本发明的方法在CIFAR-10和CIFAR-100数据集应用的最终实验准确率结果如表1所示，通过基线方法和本发明的方法得到的准确率可见，相对基线可以有效提高深度卷积神经网络的训练精度。

表1

	CIFAR-10	CIFAR-100
			基线	92.42	71.43
本方法	93.02	73.21

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，其特征在于包括如下步骤：

S1，设置两组不同的训练策略，包括两组训练图像；

S2，采用两组不同的训练策略，分别向同构的两个深度卷积神经网络A和B输入两组训练图像，进行迭代训练，训练过程中，对两个深度卷积神经网络的BN层尺度系数进行稀疏化，稀疏化公式如下：

S4，根据BN层尺度系数，每隔预设的迭代次数，将A深度卷积神经网络层内BN层对应尺度系数小的卷积核，替换为B深度卷积神经网络层内BN层对应尺度系数大的卷积核，或B替换为A的。

2.根据权利要求1所述的基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，其特征在于所述S2中，获取到各个BN层尺度系数的梯度后，累加λ*sign(γ)，其中sign(γ)为惩罚函数的导函数，即BN层尺度系数γ的梯度大于0则累加λ，小于0则减去λ。

3.根据权利要求1所述的基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，其特征在于所述S3中，获取A和B的绑定特征图后，将两者对应位置的特征值相减后，再将所有相减的值求和的结果，累加到训练的总损失函数中。

4.根据权利要求1所述的基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，其特征在于所述S4包括如下步骤：

S43，获取各BN层大、小尺度系数对应的卷积核；

5.根据权利要求1所述的基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，其特征在于所述深度卷积神经网络A和B，包括依次连接的Stage1模块、Stage2模块、Stage3模块、Stage4模块、GlobalPool模块、FC全连接模块，其中Stage1模块、Stage2模块、Stage3模块、Stage4模块同构，均包含依次连接的Conv卷积模块和MaxPool模块；

所述Stage2-4模块，在模块开始处，将c个通道的输入拆分为两个分支，即复制出两份c个通道的输入，对一个分支进行一个X*X卷积核尺度的卷积运算，其中Stage2模块、Stage3模块中该卷积运算进行下采样，Stage4模块中该卷积运算的步长为1；另一个分支经过三个卷积核尺度分别为1*1、X*X、1*1的卷积层的同时，保证输出通道数与输入通道数相同，其中Stage2模块、Stage3模块、Stage4模块中的1*1卷积核步长为均1，Stage2模块、Stage3模块中X*X的卷积层进行下采样，Stage4模块中X*X卷积核步长为1，在三个卷积层之后，两个分支进行相加拼接，通道数不变；

以上网络结构中的每个卷积层之后都带有BN层和激活层。

6.根据权利要求5所述的基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，其特征在于所述绑定特征图，是Stage2-4模块中X*X尺度的卷积核对应的特征图。

7.根据权利要求1所述的基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，其特征在于所述两组不同的训练策略，包括深度卷积神经网络训练过程中，不同的图像输入顺序、不同的网络学习率、不同的训练优化器。

8.根据权利要求1所述的基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，其特征在于所述两组不同的训练策略，均采用交叉熵损失函数。

9.根据权利要求1或2所述的基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，其特征在于所述λ=0.5。

10.根据权利要求1或2所述的基于深度卷积神经网络BN层尺度系数的卷积核嫁接方法，其特征在于所述惩罚函数采用L1 loss。