CN110826684A

CN110826684A - 卷积神经网络的压缩方法、装置、电子设备和介质

Info

Publication number: CN110826684A
Application number: CN201810897749.9A
Authority: CN
Inventors: 朱力强
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2020-02-21
Anticipated expiration: 2038-08-08
Also published as: CN110826684B

Abstract

本发明提供了一种卷积神经网络的压缩方法、装置、电子设备和介质，涉及人工智能技术领域，包括：获取卷积神经网络中待计算卷积层的输入特征图，其中，输入特征图为卷积神经网络的输入图像在其沿网络前向传播的过程中，在待计算卷积层处形成的输入特征图；计算输入特征图经过待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数，得到至少两个L1范数；利用至少两个L1范数对待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络，本发明缓解了在采用现有的卷积神经网络压缩方法对卷积神经网络进行压缩时，对卷积神经网络的准确性影响较大的技术问题。

Description

卷积神经网络的压缩方法、装置、电子设备和介质

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种卷积神经网络的压缩方法、装置、电子设备和介质。

背景技术

侵入铁路周界的异物是严重威胁铁路安全的重要因素之一。我国高速铁路线路都建有综合视频监控系统，并具备初步的视频分析和自动识别异物入侵能力。但是，现有基于图像背景差分原理的异物检测算法普遍存在误报率高的问题，无法满足现场实际需求。随着深度学习在各个领域取得的进步，将深度学习中的卷积神经网络(convolutionalneural networks，CNN)应用于铁路异物入侵检测成为一个新的研究方向。但是拥有数十甚至上百层的深度神经网络非常难以部署到硬件资源有限的系统中。对于高速铁路，为了实现线路周界入侵检测，需要每隔100～200米就安装一台监控摄像机，因此周界入侵检测系统需要面临海量视频的实时处理，而大型CNN网络模型存在的计算量大和占用内存多等问题，导致基于CNN的异物检测系统存在实时性和经济性缺陷。因此，有必要研究网络模型压缩方法，在保证检测准确度的条件下，降低网络模型规模和计算量。

现有深度神经网络模型压缩技术主要有低秩分解、知识精炼、迁移与压缩卷积滤波器以及参数修剪与共享等方法。低秩分解方法需借助非线性优化算法逐层压缩，计算量较大，同时无法保证收敛到最优解。知识精炼的方法能够将深度和宽度的网络模型压缩为浅层模型，通过遵循学生-教师的框架进行模型压缩减少深度网络的训练量和计算成本，这种方法对于采用softmax分类层的网络具有一定效果。迁移卷积层的方法准确率较低，在某些数据集上的结果不稳定。依照减少冗余信息的技术方式，参数修剪和共享可以分为三类：结构化矩阵、二进制化与量化等。结构化矩阵的缺点是这种结构约束会导致精度损失，并且如何找到一种适当的结构矩阵比较困难。对权重进行二进制化操作对准确率的影响较大。

发明内容

有鉴于此，本发明的目的在于提供一种卷积神经网络的压缩方法、装置、电子设备和介质，以缓解了在采用现有的卷积神经网络压缩方法对卷积神经网络进行压缩时，对卷积神经网络的准确性影响较大的技术问题。

第一方面，本发明实施例提供了一种卷积神经网络的压缩方法，所述卷积神经网络中包括多个依次连接的卷积层，每个卷积层包括至少两个卷积核，包括：获取所述卷积神经网络中待计算卷积层的输入特征图，其中，所述输入特征图为所述卷积神经网络的输入图像在其沿网络前向传播的过程中，在所述待计算卷积层处形成的输入特征图；计算所述输入特征图经过所述待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数，得到至少两个L1范数；利用所述至少两个L1范数对所述待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络。

进一步地，利用所述至少两个L1范数对所述待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络包括：将所述至少两个L1范数中最小L1范数所对应的卷积核删除；或者，将所述至少两个L1范数中前L个最小L1范数所对应的卷积核删除，其中，N为大于1且小于该卷积层卷积核个数的正整数。

进一步地，将所述至少两个L1范数中前N个最小L1范数所对应的卷积核删除包括：对所述至少两个L1范数按照目标顺序进行排序，得到排序结果，其中，所述目标顺序包括：由大到小的顺序，或者，由小到大的顺序；将所述排序结果中前N个最小L1范数所对应的卷积核删除。

进一步地，计算所述输入特征图经过所述待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数包括：利用公式

计算所述待计算卷积层中卷积核K的卷积处理之后，输出特征图的L1范数，其中，K依次取1至M，M为所述待计算卷积层中卷积核的数量，为第i张输入图像x_i输入所述卷积神经网络后，卷积核K的输出特征图的L1范数，N为所述输入特征图的数量。

进一步地，所述方法还包括：对所述目标卷积神经网络进行训练，得到所述目标卷积神经网络的准确率；如果所述准确率与预设阈值之间的差值满足第一预设要求，则反复对所述目标卷积神经网络中待计算卷积层的卷积核进行压缩，直至得到压缩之后的所述目标卷积神经网络的准确率与所述预设阈值之间的差值不满足所述第一预设要求。

进一步地，对所述目标卷积神经网络进行训练，得到所述目标卷积神经网络的准确率包括：在所述目标卷积神经网络的卷积层的网络连接权值固定不变的情况下，训练所述目标卷积神经网络中的全连接层和输出层，直至所述目标卷积神经网络输出的准确率满足第二预设要求，其中，所述第二预设要求为连续两个准确率之间的差值小于预设差值；在对所述目标卷积神经网络中全连接层和输出层进行训练之后，对所述目标卷积神经网络中的网络连接权值进行训练。

进一步地，当所述待计算卷积层为所述卷积神经网络的第一个卷积层时，所述输入特征图为输入至所述卷积神经网络的原始图像；当所述待计算卷积层不是所述卷积神经网络的第一个卷积层时，所述输入特征图为所述待计算卷积层的上一个卷积层的输出特征图。

第二方面，本发明实施例还提供了一种卷积神经网络的压缩装置，所述卷积神经网络中包括多个依次连接的卷积层，每个卷积层包括至少两个卷积核，包括：获取所述卷积神经网络中待计算卷积层的输入特征图，其中，所述输入特征图为所述卷积神经网络的输入图像在其沿网络前向传播的过程中，在所述待计算卷积层处形成的输入特征图；计算所述输入特征图经过所述待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数，得到至少两个L1范数；利用所述至少两个L1范数对所述待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法。

第四方面，本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行上述第一方面中任一项所述的方法。

在本发明实施例中，首先，获取卷积神经网络中待计算卷积层的输入特征图；然后，计算输入特征图经过待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数，得到至少两个L1范数；最后，利用至少两个L1范数对待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络。由于特征图的L1范数能够表征卷积核的重要程度，因此，采用特征图的L1范数对卷积神经网络进行压缩的方式，能够保证准确率稳定的条件下逐步降低模型计算量和存储空间，进而缓解了在采用现有的卷积神经网络压缩方法对卷积神经网络进行压缩时，对卷积神经网络的准确性影响较大的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种卷积神经网络的压缩方法的流程图；

图2是根据本发明实施例的一种对卷积神经网络进行压缩操作得到目标卷积神经网络的流程示意图；

图3是根据本发明实施例的一种典型图像的示意图；

图4是根据本发明实施例的一种每次裁剪后的内存变化的曲线图；

图5是根据本发明实施例的一种每次剪裁后单次前向传播计算耗时的曲线图；

图6a是根据本发明实施例的一种卷积层对应的特征图L1值的曲线图；

图6b是根据本发明实施例的一种卷积层对应的卷积核L1值的曲线图；

图6c是根据本发明实施例的一种卷积层对应的特征图L1值的曲线图；

图6d是根据本发明实施例的一种卷积层对应的卷积核L1值的曲线图；

图6e是根据本发明实施例的一种卷积层对应的特征图L1值的曲线图；

图6f是根据本发明实施例的一种卷积层对应的卷积核L1值的曲线图；

图6g是根据本发明实施例的一种卷积层对应的特征图L1值的曲线图；

图6h是根据本发明实施例的一种卷积层对应的卷积核L1值的曲线图；

图7a是根据本发明实施例的一种验证准确率的曲线图；

图7b是根据本发明实施例的一种评测准确率的曲线图；

图8a是根据本发明实施例的一种高铁周界入侵物的检测场景下验证准确率的曲线图；

图8b是根据本发明实施例的一种高铁周界入侵物的检测场景下评测准确率的曲线图；

图9是根据本发明实施例的一种卷积神经网络的压缩装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

根据本发明实施例，提供了一种卷积神经网络的压缩方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种卷积神经网络的压缩方法的流程图。在本实施例中，卷积神经网络中包括多个依次连接的卷积层，每个卷积层包括至少两个卷积核。如图1所示，该方法包括如下步骤：

步骤S102，获取所述卷积神经网络中待计算卷积层的输入特征图，其中，所述输入特征图为所述卷积神经网络的输入图像在其沿网络前向传播的过程中，在所述待计算卷积层处形成的输入特征图；

需要说明的是，待计算卷积层可以是卷积神经网络中的每个卷积层，还可以是预先指定的目标卷积层，本实施例中不做具体限定。

步骤S104，计算所述输入特征图经过所述待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数，得到至少两个L1范数；

步骤S106，利用所述至少两个L1范数对所述待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络。

需要说明的是，在本实施例中，可以采用步骤S102至步骤S106所描述的方式反复对卷积神经网络进行压缩操作，直至卷积神经网络不能被压缩。步骤S102至步骤S106所描述的过程为对卷积神经网络的每个卷积层执行一次压缩的过程。针对卷积神经网络中的每个卷积层，均可以采用步骤S102至步骤S106所描述的方式来进行压缩。

卷积神经网络通常由多个卷积层堆叠而成，而每个卷积层又包含多个卷积核。假设某个卷积核的权值张量为K，则其基本卷积运算可用下述表示：

式中x代表卷积神经网络的输入在其沿网络前向传播过程中，在卷积核K处形成输入特征图X，输出特征图F_x。任意一个卷积核K可以看做是一个特征模板，卷积运算就是扫描输入图像，计算其不同位置与特征模板的匹配程度。卷积核的数目越多，卷积神经网络能够表达的模式就越多，学习能力也越强。因此，在实际应用中，针对一个特定任务，训练一个包含有更多卷积核的网络结构通常会更容易达到训练目标，但这样往往会造成卷积神经网络中实际存在很多冗余或者无用的卷积核。基于此，可以对卷积神经网络中冗余或者无用的卷积核删除，从而实现卷积神经网络的压缩。但是，现有的卷积神经网络的压缩方式中，并不是根据卷积核的重要程度来进行压缩，因此，在采用现有的卷积神经网络的压缩方式对卷积神经网络进行压缩时，会出现由于删除重要程度较高的卷积核导致的卷积神经网络准确度降低的技术问题。

为此，在本实施例中，提出以每个卷积核输出的特征图F的L1范数为评价卷积核重要程度的为压缩依据，来对卷积神经网络中冗余或者无用的卷积核删除，从而实现卷积神经网络的压缩。下面将结合具体实施方式介绍神经网络的压缩方法。

通过上述描述可知，在本实施例中，首先获取卷积神经网络中待计算卷积层的输入特征图。其中，输入特征图为所述卷积神经网络的输入图像在其沿网络前向传播的过程中，在所述待计算卷积层处形成的输入特征图。

例如，由训练样本库中随机选取N个样本，将选取的样本逐个输入到已训练好的卷积神经网络中，N个样本在沿卷积神经网络前向传播的过程中，在待计算卷积层处形成输入特征图。

也就是说，当所述待计算卷积层为所述卷积神经网络的第一个卷积层时，所述输入特征图为输入至所述卷积神经网络的原始图像；当所述待计算卷积层不是所述卷积神经网络的第一个卷积层时，所述输入特征图为所述待计算卷积层的上一个卷积层的输出特征图。

在获取到卷积神经网络中待计算卷积层的输入特征图之后，就可以计算多个所述输入特征图经过所述待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数，具体过程包括如下步骤：

步骤S1041，利用公式

计算所述待计算卷积层中卷积核K的卷积处理之后，输出特征图的L1范数，其中，K依次取1至M，M为所述待计算卷积层中卷积核的数量，

为第i张输入图像x_i输入所述卷积神经网络后，卷积核K的输出特征图的L1范数，N为所述输入特征图的数量。

具体地，在本实施例中，可以从全部训练样本集中挑选出能够代表整个样本分布情况的N张图片，分别输入到卷积神经网络中，并估计出各通道特征图的L1范数均值：

式中

为第i张输入图像x_i输入网络后，卷积核K的输出特征图的L1范数。其中，输入图像x_i在输入到卷积神经网络后，输入图像x_i沿沿网络前向传播的过程，在传播的过程中，经过多个卷积层，每个卷积层中的每个卷积核对输入图像x_i进行卷积处理。进而利用公式

计算输入图像x_i在其沿网络前向传播的过程中，经过待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数。

在得到至少两个L1范数之后，就可以利用至少两个L1范数对所述待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络。

在一个可选的实施方式中，步骤S106，利用所述至少两个L1范数对所述待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络包括如下三种方式：

方式一、将所述至少两个L1范数中最小L1范数所对应的卷积核删除。

具体地，在本实施例中，可以对至少两个L1范数按照目标顺序进行排序，得到排序结果，其中，所述目标顺序包括：由大到小的顺序，或者，由小到大的顺序；然后，将所述排序结果中最小L1范数所对应的卷积核删除。通过上述描述可知，由于输出特征图的L1范数能够反映卷积核的重要程度，因此，在本实施例中，在删除至少两个L1范数中最小L1范数所对应的卷积核的操作，可以理解为删除多个卷积核中重要程度最低的卷积核的操作。

方式二、将所述至少两个L1范数中前N个最小L1范数所对应的卷积核删除，其中，N为大于1且小于该卷积层卷积核个数的正整数。

具体地，在本实施例中，可以对所述至少两个L1范数按照目标顺序进行排序，得到排序结果，其中，所述目标顺序包括：由大到小的顺序，或者，由小到大的顺序；然后，将所述排序结果中前N个最小L1范数所对应的卷积核删除。

方式三、按照预设比例从所述至少两个L1范数中选择前Q个最小L1范数，并将所述前Q个最小L1范数所对应的卷积核删除，其中，Q为大于1且小于该卷积层卷积核个数的正整数。

具体地，在本实施例中，可以对所述至少两个L1范数按照目标顺序进行排序，得到排序结果，其中，所述目标顺序包括：由大到小的顺序，或者，由小到大的顺序；然后，按照预设比例从所述至少两个L1范数中选择前Q个最小L1范数，并将所述前Q个最小L1范数所对应的卷积核删除。

需要说明的是，针对不同的卷积层，所删除的卷积核的数量N(或者预设比例)可以不相同。针对同一个卷积层的任意两次压缩操作，所选择的N(或者预设比例)也可以不同。例如，某个卷积神经网络中包括5个卷积层，且对每个卷积层执行9次压缩操作。此时，前3个卷积层可以采用等差数列的形式进行压缩，其中，前3个卷积层之间所选择的公差可以不相同。那么后2个卷积层可以采用等比数列的形式进行压缩，其中，后2个卷积层之间所选择的公比可以不相同。

例如，如图2所示的即为一种对卷积神经网络进行压缩操作得到目标卷积神经网络的流程示意图。

如图2所示，假设卷积神经网络在裁剪前，第M层卷积层的卷积核个数为D₁，第M+1层的卷积核个数为D₂，且第M层的输入特征图有D个，即第M-1层有D个卷积核。裁剪后的卷积神经网络(即，目标卷积神经网络)的结构如图2所示，其中M层裁剪了d1个卷积核，M+1层裁剪了d2个卷积核，其中，d1与d2相同或者不同，本实施例中不做具体限定。

通过上述描述可知，在本实施例中，以每个卷积核输出的特征图F的L1范数为评价卷积核重要程度的依据，计算一个卷积层中每个卷积核输出的特征图L1范数在目标训练样本集下的均值，按其大小对卷积核进行排序，去除后面一定数量的卷积核以达到识别与裁剪的目的。

在一个可选的实施方式中，该方法还包括如下步骤：

步骤S108，对所述目标卷积神经网络进行训练，得到所述目标卷积神经网络的准确率；

可选地，步骤S108包括：在所述目标卷积神经网络的卷积层的网络连接权值固定不变的情况下，训练所述目标卷积神经网络中全连接层和输出层，直至所述目标卷积神经网络输出的准确率满足第二预设要求，其中，所述第二预设要求为连续两个准确率之间的差值小于预设差值；在对所述目标卷积神经网络中全连接层和输出层进行训练之后，对所述目标卷积神经网络中的网络连接权值进行训练。

步骤S110，如果所述准确率与预设阈值之间的差值满足第一预设要求，则反复对所述目标卷积神经网络中待计算卷积层的卷积核进行压缩，直至得到压缩之后的所述目标卷积神经网络的准确率与所述预设阈值之间的差值不满足所述第一预设要求。

具体地，在本实施例中，在得到目标卷积神经网络之后，对裁目标卷积神经网络的网络连接权值进行微调训练。

微调训练分为两个阶段：在第一阶段，固定卷积层的网络连接权值，只训练卷积层后面的全连接层/输出层，直至网络输出准确率不再上升；在第二阶段，对全网络连接权值进行训练，直至收敛。

需要说明的是，在本实施例中，对于具有全连接层的卷积神经网络，如VGGNet卷积神经网络，可以对全连接层中小于预设阈值的连接进行剪裁。一次裁剪完成后，需要对整个网络的权值进行微调训练。这个裁剪-微调步骤可以不断重复，递归压缩网络结构，提升计算速度。另外，还可以通过使用全局平均池化层(Global Average Pooling，GAP)代替全连接层，达到同时压缩网络计算量和参数存储量的目的。

综上所述，本实施例所提供的神经网络的压缩方法可以描述如下：

(1)由训练样本库中随机选取N个样本。

(2)将选取的样本逐个输入到卷积神经网络中，计算得到卷积神经网络中各卷积核(即，待计算卷积层)输出的特征图F，并依照公式

得到每个特征图F的L1范数均值

(3)针对待计算卷积层，将本层所有特征图的按照大小排序，依据预先设定的阈值或比例，将

较小的特征图所对应的卷积核删除，同时还需对后续层的相应输入通道进行裁剪，得到目标卷积神经网络。

(4)对裁目标卷积神经网络的网络连接权值进行微调训练。微调训练分为两个阶段：在第一阶段，固定卷积层的网络连接权值，只训练卷积层后面的全连接层/输出层，直至网络输出准确率不再上升；在第二阶段，对全网络连接权值进行训练，直至收敛。

(5)如果网络输出准确率仍然满足第一预设要求，可以重复2-4步进行再次压缩。重复此过程，直至准确率无法满足第一预设要求为止。

针对上述方法，发明人进行了验证，验证过程描述如下。

本发明所提出的神经网络的压缩方法适用于任何存在卷积运算的神经网络结构，这里以VGG16、AlexNet和LeNet-5作为实验验证对象，分别针对ImageNet和MNIST数据库，递归裁剪网络模型中全部卷积层，验证压缩算法对于不同卷积模型和数据类型的效果。

VGG16是一种具有16层单路的卷积神经网络，共有13个卷积层和3个全连接层。为了研究裁剪过程对网络性能的影响，本实施例采用如表1所示的策略对VGG16进行递归裁剪，其中，裁剪次数为0的一列是原始VGG16各个卷积层的卷积核个数，其他列是每次裁剪后剩余的卷积核个数，最后一列是网络压缩后的最终结构。在实际应用中，每层最终保留的卷积核数量可以根据应用的期望计算量来确定。例如，在现有硬件平台下，表1的最终网络结构可以实现6ms/帧的处理速度，基本满足高铁周界入侵检测系统对实时性和经济性的要求。这里还需要指出的是，对每层卷积核的裁剪不可以一次性完成，应该采用每次只裁剪少量卷积核的策略，逐步压缩网络。对于VGG16网络，考虑到conv1-1至3-3卷积核数目较少，这里采用等差数列形式进行裁剪；而conv4-1至5-3卷积核数目较多，为达到同样的压缩速度，采用等比数列形式进行裁剪。另外，考虑到全连接fc6与fc7层参数占整个网络模型参数的近90％，因此在裁剪前用GAP层代替fc6与fc7层，这样能够极大降低模型所占内存，试验结果表明这种替代网络结构对模型准确性的影响很小。

在验证实验中，首先从ImageNet数据集中选取10类典型图像，组成一个新的10分类数据集，典型图像如图3所示。在将10分类数据集中图像输入卷积神经网络进行训练之前，将图像短边按比例缩放至256，然后，随机偏移裁剪出224×224的图像区域作为卷积神经网络的输入数据。

为了对预训练VGG16模型进行裁剪，首先从10分类数据集中随机挑选出1000张图片用于估计特征图L1范数。按照本实施例提出的裁剪原理，经过9次裁剪后，模型的内存变化趋势和一次前向传播耗时分别如图4和图5所示。由表2可知，对于10分类数据集问题，裁剪后的卷积神经网络网络(即，上述目标神经网络)计算耗时降低77.4％，目标神经网络的网络模型所占内存压缩约660倍，同时评测准确率仍然能够达到98.6％的较高水平。

表2

网络模型	评测误差/％	GPU耗时/ms	内存
				VGG16	0.2	26.6	512MB
裁剪后	1.4	6.0	770KB

需要说明的是，除了采用卷积层的特征图L1范数对卷积神经网络的进行压缩之外，还可以采用卷积核L1范数对卷积神经网络的进行压缩。但是，由于卷积核L1范数只代表该特征的幅值大小，并不能反映该卷积核的重要程度，因此，利用卷积核L1范数对卷积神经网络的进行压缩之后，压缩之后的卷积神经网络的准确性低于采用卷积层的特征图L1范数对卷积神经网络的进行压缩之后得到的卷积神经网络的准确性。

图6a至图6h给出了部分卷积层的特征图L1范数与卷积核L1范数的相关性对比。其中，纵坐标分别为卷积核输出的特征图L1范数均值

和该卷积核的L1范数||K||₁，图6a至图6h中横坐标代表卷积核编号，这里的卷积核编号是以

的大小进行排序获得的。可以看出，与||K||₁没有明显的相同变化趋势，因而特征图L1准则与卷积核L1准则是两种不同裁剪准则。

按照表1中的递归裁剪结构，分别以两种准则进行实验准确度对比，结果如图6a至图6h所示。可以看出，随着裁剪次数的增加，验证集准确率和评测集准确率整体呈缓慢下降趋势，但依照本实施例提出的裁剪算法每次剪裁后的准确度下降幅度较小。如表3所示，在加速不同倍数的条件下，本实施例提出的剪裁策略有更高的准确率。因此，基于特征图L1剪裁准则与传统的卷积核L1准则相比，可以更为准确地辨识冗余卷积核。

表3

与VGG16的单组卷积结构不同，AlexNet采用了双组卷积结构。在基于AlexNet对ImageNet数据集上的分类实验中，利用本实施例算法可以将AlexNet模型从232.5MB压缩至1.6MB，网络模型所占内存压缩约145倍，计算耗时降低69.1％，而损失准确率只有1.1％。MNIST数据集是手写体数字数据集，图像分辨率为28×28，远小于ImageNet数据集。在基于LeNet-5对MNIST数据集的分类实验中，利用本实施例算法可以将LeNet-5模型从1680KB压缩至109.5KB，网络模型所占内存压缩约15倍，而损失的准确率只有0.2％。由此可见，本实施例算法对不同的卷积网络结构和应用场景都有很好的适应性。

基于上述验证方法，本实施例中还针对高铁周界入侵场景，进行了验证，具体过程描述如下。

高铁周界入侵的监控视频图像与ImageNet数据集中的图像相比质量相差很多，主要体现在光线和天气条件的剧烈变化。为了训练深度神经网络，我们采集了高铁正线上9个不同场景像机的监控图像，其原始分辨率为1920×1080。为降低运算量，在图像输入网络时，将短边按比例缩放至256，然后随机偏移裁剪出224×224的图像区域作为卷积神经网络的输入数据。

整个数据集涵盖各个时间段及多种天气情况，分为训练集28000张，验证集4000张，评测集2000张，并为每张图片人工标注了3类标签：空场景、运营列车、异物侵入等类型的图像。

如果直接采用VGG16网络结构，且所有网络连接的权值以随机初始化方式进行训练，3分类的准确率可以达到99.8％，但模型参数所占内存和运算量都过大(如表2所示)。如果直接采用表1最后一列的精简网络结构，并以随机初始化方式进行训练，3分类的准确率较低，误报率约为10.25％。由此可以看出，对于一个特定计算任务，神经网络的宽度越大，可调节的网络参数越多，网络就越容易训练，计算精度也越高，但同时网络冗余度也高，所占内存和计算量大，越不适合实时性应用场景。

按照本实施例提出的剪裁原理对训练好的VGG16进行递归裁剪，递归策略如表1所示。每次裁剪后的权值作为下一次网络训练的初始化参数，训练过程中仍采用2阶段的训练方式。在裁剪中，分别以特征图L1准则和卷积核L1准则两种不同裁剪方法进行经多次裁剪，并测试每次裁剪后的网络准确率，实验结果对比如图8a和8b所示。

可以看出，依照本实施例提出的特征图L1准则裁剪算法，随着裁剪次数的增加，验证准确率和评测准确率整体稳定，经过9次裁剪后的准确率几乎不变。在相同压缩和加速效果下，相比于卷积核L1范数准则，本实施例提出的裁剪算法准确度更高。

表4

压缩策略	训练误差(％)	评测误差(％)
			随机初始化	9.48	10.25
卷积核L1准则	1.26	1.50
			特征图L1准则	0.35	0.45

由表4中可以看到，针对该铁路场景数据库，相比随机初始化策略和卷积核L1值剪裁准则，采用本实施例提出的裁剪算法测试误差最低为0.45％；在损失0.25％的精度下实现将模型压缩660倍并且提升计算速度4.4倍，能够取得较好的压缩和加速效果，易于存储和实时计算，能有效的解决实时监控处理多路视频场景异物入侵情况。

综上，本实施例提出一种神经网络的压缩算法，该方法能够实现对卷积神经网络模型的压缩和计算加速。在压缩过程中，使用GAP层代替内存占比最大的全连接层，通过采用特征图L1范数值为准则对卷积层进行递归裁剪，能够保证准确率稳定的条件下逐步降低模型计算量和存储空间。在高速铁路周界入侵检测的应用中，本实施例提出的神经网络的压缩算法可以实现VGG16网络模型压缩660倍，计算加速4.4倍，而精度损失只有0.25％，完全能够满足对多路铁路视频场景进行实时有效的异物入侵检测需求。

实施例二：

本发明实施例还提供了一种卷积神经网络的压缩装置，该卷积神经网络的压缩装置主要用于执行本发明实施例上述内容所提供的卷积神经网络的压缩方法，以下对本发明实施例提供的卷积神经网络的压缩装置做具体介绍。

图9是根据本发明实施例的一种卷积神经网络的压缩装置的示意图，如图9所示，该卷积神经网络的压缩装置主要包括获取单元10，计算单元20和压缩单元30，其中：

获取单元10，用于获取所述卷积神经网络中待计算卷积层的输入特征图，其中，所述输入特征图为所述卷积神经网络的输入图像在其沿网络前向传播的过程中，在所述待计算卷积层处形成的输入特征图；

计算单元20，用于计算所述输入特征图经过所述待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数，得到至少两个L1范数；

压缩单元30，用于利用所述至少两个L1范数对所述待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络。

可选地，压缩单元用于：将所述至少两个L1范数中最小L1范数所对应的卷积核删除；或者，将所述至少两个L1范数中前L个最小L1范数所对应的卷积核删除，其中，N为大于1且小于该卷积层卷积核个数的正整数。

可选地，压缩单元还用于：对所述至少两个L1范数按照目标顺序进行排序，得到排序结果，其中，所述目标顺序包括：由大到小的顺序，或者，由小到大的顺序；将所述排序结果中前N个最小L1范数所对应的卷积核删除。

可选地，计算单元用于：利用公式

可选地，该装置还用于：对所述目标卷积神经网络进行训练，得到所述目标卷积神经网络的准确率；如果所述准确率与预设阈值之间的差值满足第一预设要求，则反复对所述目标卷积神经网络中待计算卷积层的卷积核进行压缩，直至得到压缩之后的所述目标卷积神经网络的准确率与所述预设阈值之间的差值不满足所述第一预设要求。

可选地，该装置还用于：在所述目标卷积神经网络的卷积层的网络连接权值固定不变的情况下，训练所述目标卷积神经网络中的全连接层和输出层，直至所述目标卷积神经网络输出的准确率满足第二预设要求，其中，所述第二预设要求为连续两个准确率之间的差值小于预设差值；在对所述目标卷积神经网络中全连接层和输出层进行训练之后，对所述目标卷积神经网络中的网络连接权值进行训练。

可选地，当所述待计算卷积层为所述卷积神经网络的第一个卷积层时，所述输入特征图为输入至所述卷积神经网络的原始图像；当所述待计算卷积层不是所述卷积神经网络的第一个卷积层时，所述输入特征图为所述待计算卷积层的上一个卷积层的输出特征图。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种卷积神经网络的压缩方法，其特征在于，卷积神经网络中包括多个依次连接的卷积层，每个卷积层包括至少两个卷积核，包括：

获取所述卷积神经网络中待计算卷积层的输入特征图，其中，所述输入特征图为所述卷积神经网络的输入图像在其沿网络前向传播的过程中，在所述待计算卷积层处形成的输入特征图；

计算所述输入特征图经过所述待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数，得到至少两个L1范数；

利用所述至少两个L1范数对所述待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络。

2.根据权利要求1所述的方法，其特征在于，利用所述至少两个L1范数对所述待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络包括：

将所述至少两个L1范数中最小L1范数所对应的卷积核删除；或者

将所述至少两个L1范数中前N个最小L1范数所对应的卷积核删除，其中，N为大于1且小于该卷积层卷积核个数的正整数。

3.根据权利要求2所述的方法，其特征在于，将所述至少两个L1范数中前N个最小L1范数所对应的卷积核删除包括：

对所述至少两个L1范数按照目标顺序进行排序，得到排序结果，其中，所述目标顺序包括：由大到小的顺序，或者，由小到大的顺序；

将所述排序结果中前N个最小L1范数所对应的卷积核删除。

4.根据权利要求1所述的方法，其特征在于，计算所述输入特征图经过所述待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数包括：

利用公式计算所述待计算卷积层中卷积核K的卷积处理之后，输出特征图的L1范数，其中，K依次取1至M，M为所述待计算卷积层中卷积核的数量，

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述目标卷积神经网络进行训练，得到所述目标卷积神经网络的准确率；

如果所述准确率与预设阈值之间的差值满足第一预设要求，则反复对所述目标卷积神经网络中待计算卷积层的卷积核进行压缩，直至得到压缩之后的所述目标卷积神经网络的准确率与所述预设阈值之间的差值不满足所述第一预设要求。

6.根据权利要求5所述的方法，其特征在于，对所述目标卷积神经网络进行训练，得到所述目标卷积神经网络的准确率包括：

在所述目标卷积神经网络的卷积层的网络连接权值固定不变的情况下，训练所述目标卷积神经网络中的全连接层和输出层，直至所述目标卷积神经网络输出的准确率满足第二预设要求，其中，所述第二预设要求为连续两个准确率之间的差值小于预设差值；

在对所述目标卷积神经网络中全连接层和输出层进行训练之后，对所述目标卷积神经网络中的网络连接权值进行训练。

7.根据权利要求1所述的方法，其特征在于，当所述待计算卷积层为所述卷积神经网络的第一个卷积层时，所述输入特征图为输入至所述卷积神经网络的原始图像；当所述待计算卷积层不是所述卷积神经网络的第一个卷积层时，所述输入特征图为所述待计算卷积层的上一个卷积层的输出特征图。

8.一种卷积神经网络的压缩装置，其特征在于，卷积神经网络中包括多个依次连接的卷积层，每个卷积层包括至少两个卷积核，包括：

获取单元，用于获取所述卷积神经网络中待计算卷积层的输入特征图，其中，所述输入特征图为所述卷积神经网络的输入图像在其沿网络前向传播的过程中，在所述待计算卷积层处形成的输入特征图；

计算单元，用于计算所述输入特征图经过所述待计算卷积层中每个卷积核的卷积处理之后，输出特征图的L1范数，得到至少两个L1范数；

压缩单元，用于利用所述至少两个L1范数对所述待计算卷积层的卷积核进行压缩，压缩之后得到目标卷积神经网络。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行上述权利要求1至7中任一项所述的方法。