CN114118411A

CN114118411A - 图像识别网络的训练方法、图像识别方法及装置

Info

Publication number: CN114118411A
Application number: CN202111438472.1A
Authority: CN
Inventors: 李志航
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01

Abstract

本公开关于一种图像识别网络的训练方法、图像识别方法及装置，训练方法包括：为图像识别网络的每个卷积层的每个卷积核配置重要性权重；根据配置的重要性权重，对每个卷积层的每个卷积核提取的图像样本的图像特征向量进行加权，以得到加权图像特征图；使用加权图像特征图来调整图像识别网络的网络参数和重要性权重；根据调整后的重要性权重，裁剪图像识别网络的卷积核，并移除裁剪卷积核后的图像识别网络的卷积核的重要性权重，得到裁剪后的图像识别网络；利用图像样本训练裁剪后的图像识别网络。

Description

图像识别网络的训练方法、图像识别方法及装置

技术领域

本公开涉及图像识别技术领域，尤其涉及一种图像识别网络的训练方法、图像识别方法及装置。

背景技术

为了解决日益复杂和多样化的任务，用于图像识别的深度神经网络的宽度越来越厚、深度越来越深。随着智能手机的普及，越来越多的图像识别网络需要部署到移动端上，然而手机的计算能力和存储空间都是有限，难以满足参数量逐渐增大的网络模型的计算需求，导致在推理过程中响应时间变慢且功耗增加。

为了解决这个问题，模型压缩技术被引入以减小模型，同时保持合理的模型精度。深度神经网络常常是过参数化的，这使得网络剪枝作为模型压缩技术之一，有望在尽量不影响模型精度的情况下去除冗余权重，以减少设备上的内存和计算量。传统的剪枝方法包含三个阶段：预先训练一个大模型，根据预先定义的准则剪枝大模型中“不重要”的权值，对剪枝后的模型进行微调。因此，如何定义剪枝的准则十分重要。然而当前的大部分方法是根据人的经验启发式地设计一些准则，这些准则难以准确反映卷积核的重要性，导致重要权值被剪去而影响模型性能，同时不重要的权值被保留而未能充分减小模型，剪枝效果不佳。

发明内容

本公开提供一种图像识别网络的训练方法、图像识别方法及装置，以至少解决相关技术中的图像识别网络剪枝效果不佳的问题，也可不解决任何上述问题。

根据本公开的第一方面，提供了一种图像识别网络的训练方法，所述训练方法包括：为所述图像识别网络的每个卷积层的每个卷积核配置重要性权重；根据配置的所述重要性权重，对每个卷积层的每个卷积核提取的图像样本的图像特征向量进行加权，以得到加权图像特征图；使用所述加权图像特征图来调整所述图像识别网络的网络参数和所述重要性权重；根据调整后的所述重要性权重，裁剪所述图像识别网络的卷积核，并移除裁剪卷积核后的所述图像识别网络的卷积核的所述重要性权重，得到裁剪后的所述图像识别网络；利用所述图像样本训练裁剪后的所述图像识别网络。

可选地，所述图像样本包括第一图像样本和第二图像样本，所述使用所述加权图像特征图来调整所述图像识别网络的网络参数和所述重要性权重，包括：保持所述重要性权重不变，利用所述第一图像样本对应的所述加权图像特征图调整所述网络参数，以对所述图像识别网络进行第一阶段训练；保持所述网络参数不变，利用所述第二图像样本对应的所述加权图像特征图调整所述重要性权重，以对所述图像识别网络进行第二阶段训练；循环执行所述第一阶段训练和所述第二阶段训练，直到满足停止条件。

可选地，所述使用所述加权图像特征图来调整所述图像识别网络的网络参数和所述重要性权重，包括：将所述加权图像特征图输入所述图像识别网络的输出层，得到估计的类别概率；根据所述估计的类别概率和所述图像样本的类别标记，确定所述图像识别网络的训练损失值；根据所述训练损失值，调整所述网络参数和所述重要性权重。

可选地，所述根据调整后的所述重要性权重裁剪所述图像识别网络的卷积核，包括：对于每个卷积层，移除设定比例的卷积核，其中，移除的卷积核的所述重要性权重小于保留的卷积核的所述重要性权重；或对于每个卷积层，移除所述重要性权重小于设定阈值的卷积核。

可选地，在为所述图像识别网络的每个卷积层的每个卷积核配置重要性权重之后，所述训练方法还包括：对每个卷积层的各个卷积核对应的所述重要性权重进行归一化处理，得到归一化后的重要性权重；所述根据配置的所述重要性权重，对每个卷积层的每个卷积核提取的图像样本的图像特征向量进行加权，以得到加权图像特征图包括：根据所述归一化后的重要性权重，对每个卷积层的每个卷积核提取的图像样本的图像特征向量进行加权，以得到加权图像特征图。

可选地，所述对每个卷积层的各个卷积核对应的所述重要性权重进行归一化处理，得到归一化后的重要性权重，包括：根据卷积层的各个卷积核对应的所述重要性权重，确定各个所述重要性权重的指数化值；对各个所述重要性权重的指数化值求和，得到指数化和值；确定所述重要性权重的指数化值与所述指数化和值的比值，得到归一化后的重要性权重。

根据本公开的第二方面，提供了一种图像识别方法，包括：获取待识别的图像数据；将所述图像数据输入图像识别网络，得到估计的是识别概率，其中，所述图像识别网络是使用上述的训练方法训练得到的。

根据本公开的第三方面，提供了一种图像识别网络的训练装置，所述训练装置包括：配置单元，被配置为：为所述图像识别网络的每个卷积层的每个卷积核配置重要性权重；提取单元，被配置为：根据配置的所述重要性权重，对每个卷积层的每个卷积核提取的图像样本的图像特征向量进行加权，以得到加权图像特征图；调整单元，被配置为：使用所述加权图像特征图来调整所述图像识别网络的网络参数和所述重要性权重；裁剪单元，被配置为：根据调整后的所述重要性权重，裁剪所述图像识别网络的卷积核，并移除裁剪卷积核后的所述图像识别网络的卷积核的所述重要性权重，得到裁剪后的所述图像识别网络；训练单元，被配置为：利用所述图像样本训练裁剪后的所述图像识别网络。

可选地，所述图像样本包括第一图像样本和第二图像样本，所述调整单元还被配置为：保持所述重要性权重不变，利用所述第一图像样本对应的所述加权图像特征图调整所述网络参数，以对所述图像识别网络进行第一阶段训练；保持所述网络参数不变，利用所述第二图像样本对应的所述加权图像特征图调整所述重要性权重，以对所述图像识别网络进行第二阶段训练；循环执行所述第一阶段训练和所述第二阶段训练，直到满足停止条件。

可选地，所述调整单元还被配置为：将所述加权图像特征图输入所述图像识别网络的输出层，得到估计的类别概率；根据所述估计的类别概率和所述图像样本的类别标记，确定所述图像识别网络的训练损失值；根据所述训练损失值，调整所述网络参数和所述重要性权重。

可选地，所述裁剪单元还被配置为：对于每个卷积层，移除设定比例的卷积核，其中，移除的卷积核的所述重要性权重小于保留的卷积核的所述重要性权重；或对于每个卷积层，移除所述重要性权重小于设定阈值的卷积核。

可选地，所述训练装置还包括预处理单元，被配置为：对每个卷积层的各个卷积核对应的所述重要性权重进行归一化处理，得到归一化后的重要性权重；所述提取单元还被配置为：根据所述归一化后的重要性权重，对每个卷积层的每个卷积核提取的图像样本的图像特征向量进行加权，以得到加权图像特征图。

可选地，所述预处理单元还被配置为：根据卷积层的各个卷积核对应的所述重要性权重，确定各个所述重要性权重的指数化值；对各个所述重要性权重的指数化值求和，得到指数化和值；确定所述重要性权重的指数化值与所述指数化和值的比值，得到归一化后的重要性权重。

根据本公开的第四方面，提供了一种图像识别装置，包括：获取单元，被配置为：获取待识别的图像数据；估计单元，被配置为：将所述图像数据输入图像识别网络，得到估计的识别概率，其中，所述图像识别网络是使用上述的训练方法训练得到的。

根据本公开的第五方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的图像识别网络的训练方法或图像识别方法。

根据本公开的第六方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的图像识别网络的训练方法或图像识别方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的图像识别网络的训练方法或图像识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的实施例的图像识别网络的训练方法和装置以及图像识别方法和装置，通过为每个卷积核配置重要性权重，可以用一个连续的随机变量表示该卷积核被保留的概率，同时通过令每个卷积层的输出与该重要性权重相关联，可以充分考虑相邻层卷积核的依赖关系。因此，本公开的实施例的图像识别网络的训练方法和装置能够准确表征卷积核的重要性，提升剪枝效率，得到尺寸减小、性能可靠的图像识别网络，从而保障了训练得到的图像识别网络对移动端的适应能力，有助于维持甚至缩短推理过程中的响应时间并维持甚至降低功耗。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的图像识别网络的训练方法的流程图。

图2是示出根据本公开的一个具体实施例的图像识别网络的训练方法的流程图。

图3是示出根据本公开的示例性实施例的图像识别方法的流程图。

图4是示出根据本公开的示例性实施例的图像识别网络的训练装置的框图。

图5是示出根据本公开的示例性实施例的图像识别装置的框图。

图6是根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图像识别网络常采用深度神经网络，尤其常用卷积神经网络。卷积神经网络包括对图像数据做初步处理的输入层、用于提取图像特征的卷积层、根据提取的图像特征得出识别结果的输出层。这些层以级联的方式连接，卷积层隐藏在中间并且往往是级联的多层结构(即包括多个卷积层)，而每个卷积层又包括多个卷积核，每个卷积核包括多个通道，每个通道都配置有卷积运算所需使用的权重和偏置项。第一个卷积层中的卷积核利用配置的权重和偏置项与输入层输出的图像向量做卷积运算，得到初步提取的一维或二维的图像特征向量。这些卷积核提取的图像特征向量汇集在一起，形成二维或三维的图像特征图(本质上仍是一个多维向量)。向量升高的一维的长度即是这层卷积层中的卷积核的数量，也就是这次卷积层的通道数，能够反映卷积层的深度。第一个卷积层输出的图像特征图又继续输入后一个卷积层，经过类似的卷积和汇集得到新的图像特征图，如此层层传递，最后一个卷积层输出的就是最终提取的图像特征图，作为图像特征输入输出层中。简单来说，以图像分类任务为例，其输入是图像X，输出是各个类别的概率p。输入的图像X经神经网络提取层次化的特征图{X₁，X₂，...，X_l}，其中X_i为第i层的特征图。对于第i层特征图X_i∈R^C×H×W，即为三维向量，其中C为特征图的通道数，H和W代表特征图的高和宽。通过N个卷积核F[i]∈R^C×k×k，i∈{1，2，...N}，输出特征图X_i+1∈R^N×H×W，其中k为卷积核的宽和高。

可见，要提取到更复杂更多样的图像特征，就需要增加卷积层的个数和深度，使得图像识别网络的宽度越来越厚、深度越来越深，计算量也随之大增。随着智能手机的普及，越来越多的图像识别网络需要部署到移动端上，然而手机的计算能力和存储空间都是有限，难以满足参数量逐渐增大的网络模型的计算需求，导致在推理过程中响应时间变慢且功耗增加。

深度神经网络常常是过参数化的，这使得网络剪枝技术成为可能，并且有望在尽量不影响模型精度的情况下去除冗余权重，以减少设备上的内存和计算量。传统的剪枝方法包含三个阶段：预先训练一个大模型，根据预先定义的准则剪枝大模型中“不重要”的权值，对剪枝后的模型进行微调。因此，如何定义剪枝的准则十分重要。然而当前的大部分方法是根据人的经验启发式地设计一些准则，这些准则难以准确反映卷积核的重要性，导致重要权值被剪去而影响模型性能，同时不重要的权值被保留而未能充分减小模型，导致剪枝效果不佳。

为了提升剪枝效果，得到尺寸减小、性能可靠的图像识别网络，本公开提出了一种图像识别网络的训练方法以及应用该方法得到的图像识别网络，通过为每个卷积核配置重要性权重，可以用一个连续的随机变量表示该卷积核被保留的概率，同时通过令每个卷积层的输出与该重要性权重相关联，并借助图像样本自动化地计算出合理的重要性权重，可以充分考虑相邻层卷积核的依赖关系并且不需要依赖人工的先验。因此，本公开的图像识别网络的训练方法和装置能够准确表征卷积核的重要性，提升剪枝效率，从而保障了训练得到的图像识别网络对移动端的适应能力，有助于维持甚至缩短推理过程中的响应时间并维持甚至降低功耗。

下面，将参照图1至图5具体描述根据本公开的示例性实施例的图像识别网络的训练方法和训练装置以及图像识别方法和图像识别装置。

图1是示出根据本公开的示例性实施例的图像识别网络的训练方法的流程图。应理解，根据本公开的示例性实施例的用于图像识别网络的训练方法可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中实现，也可以在诸如服务器的设备中实现训练。

参照图1，在步骤101，为图像识别网络的每个卷积层的每个卷积核配置重要性权重。由于图像识别网络中的每个卷积核用于提取不同的特征，而在过参数化的网络中，不同的卷积核对最终的识别准确率的影响是不同的。通过为每个卷积核配置重要性权重，能够据此评估每个卷积核的重要性，重要性权重越大，说明对应的卷积核越重要，对最终的识别效果影响也越大，这也为直接剪去不重要的卷积核以实现网络剪枝提供了可能性。

可选地，配置好重要性权重之后，还可对每个卷积层的各个卷积核对应的重要性权重进行归一化处理，得到归一化后的重要性权重，以便于直观地比较同一卷积层中不同卷积核的相对重要性。具体地，归一化处理包括：根据卷积层的各个卷积核对应的重要性权重，确定各个重要性权重的指数化值；对各个重要性权重的指数化值求和，得到指数化和值；确定重要性权重的指数化值与指数化和值的比值，得到归一化后的重要性权重。也就是选择一个底数，将各个重要性权重作为指数，计算出相应的指数化值，有助于挖掘出不同重要性权重的更多细节区别。对于每个卷积层，再确定每个指数化值与相应卷积层的指数化和值的比值，可以保证同一卷积层的全部比值之和为1，从而实现归一化。具体可取自然常数e作为底数，也即采用softmax函数来将重要性权重映射到(0,1)区间，从而实现重要性权重归一化，此时可直接调用已有的函数，可简化程序，降低开发成本。softmax函数为：

其中，a_i为原始的重要性权重，b_i为归一化处理后的重要性权重，j∈{1，2，...N}，N为对应卷积层的卷积核数量。

在步骤102，根据配置的重要性权重，对每个卷积层的每个卷积核提取的图像样本的图像特征向量进行加权，以得到加权图像特征图。具体地，一个卷积层的第i个卷积核输出的图像特征向量为Y[i]∈R^H×W，若未配置重要性权重，则该卷积层输出的图像特征图为Y∈R^N×H×W。结合归一化后的重要性权重b_i进行加权得到的加权图像特征图为Y′∈R^N×H×W，其中的第i个图像特征向量为Y′[i]＝b_i×Y[i]。通过将重要性权重与对应卷积层输出的图像特征图相关联，能够令重要性权重影响后续各个卷积层的输出，进而影响最终的图像识别结果，充分考虑了相邻层卷积核的依赖关系。

在步骤103，使用加权图像特征图来调整图像识别网络的网络参数和重要性权重。由于加权图像特征图是将图像样本输入配置了重要性权重的图像识别网络后得到的，该加权图像特征图会直接影响识别结果，而图像样本本身需要识别的特性是已知的，例如对于图像分类任务，需要识别的是图像为某种类别的概率，图像样本的类别就是已知的。因此经过对照调整，对识别结果影响较大的卷积核就能得到更大的重要性权重，对识别结果影响较小的卷积核就能得到更小的重要性权重，使调整得到的重要性权重能够更准确地表征卷积核的重要性。同时，网络参数对图像识别网络的识别结果影响重大，通过在调整重要性权重时也一并调整图像识别网络的网络参数，可一并完成整个网络的预训练，保证了调整后的重要性权重能够更准确地反映相应卷积核的重要性。具体地，调整的网络参数可以仅为每个卷积核内的权重，也可以还包括偏置项，本公开在此不作限制。

仍以图像分类任务为例，步骤103具体可执行为：将加权图像特征图输入图像识别网络的输出层，得到估计的类别概率；根据估计的类别概率和图像样本的类别标记确定图像识别网络的训练损失值；根据训练损失值调整网络参数和重要性权重。通过结合训练损失值实现网络参数和重要性权重的调整，可以基于数据驱动，自动化地学习每个卷积核的重要性权重及网络参数，既减少了人工计算的工作量，又不需要依赖人工的先验。其中，训练损失值例如为损失函数的值，损失函数可采用交叉熵损失函数，并通过梯度下降法更新网络参数和重要性权重，有助于提升学习效率。交叉熵损失函数的表达式具体可为：

其中，T为图像样本的数量，M为类别的数量，y_ic取值为1或0，表示图像样本i的类别标记，1代表图像样本i是类别c，0代表图像样本i不是类别c，p_ic表示图像样本i属于类别c的概率。

可选地，步骤103可将图像样本划分为第一图像样本和第二图像样本，也就是由原来的一个训练集拆分为两个训练集，分别用来调整网络参数和重要性权重。具体来说，步骤103包括：保持重要性权重不变，利用第一图像样本对应的加权图像特征图调整网络参数，以对图像识别网络进行第一阶段训练；保持网络参数不变，利用第二图像样本对应的加权图像特征图调整重要性权重，以对图像识别网络进行第二阶段训练；循环执行第一阶段训练和第二阶段训练，直到满足停止条件。其中，停止条件可以是训练收敛，也可以是迭代次数达到设定次数。通过用两个不同的训练集分别训练调整网络参数和重要性权重，可防止重要性权重的学习过拟合，提升调整结果的泛化性能，降低误判。同时，具体先调整网络参数，可以先令图像识别网络初步确定，后续就可以在此基础上调整重要性权重，以评估卷积核的重要性，有助于提升调整效率。可以理解的是，两个阶段的训练都可如前所述，结合估计的类别概率、图像样本的类别标记以及损失函数进行，只是每个阶段具体调整的对象略有不同，在此不再赘述。

在步骤104，根据调整后的重要性权重，裁剪图像识别网络的卷积核，并移除裁剪卷积核后的图像识别网络的卷积核的重要性权重，得到裁剪后的图像识别网络。其中，裁剪卷积核的操作具体可执行为：对于每个卷积层，移除设定比例的卷积核，其中，移除的卷积核的重要性权重小于保留的卷积核的重要性权重，也就是按照设定比例，裁剪掉一个卷积层中相应比例的低重要度卷积核，便于按照明确的大小目标进行剪枝。举例来说，可以将各个卷积核按照对应的重要性权重进行升序排列，并从低至高移除设定比例的卷积核。例如，用户需要裁剪25％的卷积核，那么每个卷积层重要性权重排列在最低的25％的卷积核将被移除。裁剪卷积核的操作也可执行为：对于每个卷积层，移除重要性权重小于设定阈值的卷积核，便于在没有明确的大小目标的情况下进行灵活剪枝，兼顾网络大小与网络性能。可以理解的是，对于根据设定阈值裁剪卷积核的情况，尤其可以对重要性权重做归一化处理，以便于设置普遍适用的设定阈值。由于重要性权重仅用于表征裁剪前的图像识别网络中各个卷积核的重要性，因此在裁剪掉重要性低的卷积核后，通过移除网络中的重要性权重，可以确保得到的图像识别网络能够正常应用。换言之，重要性权重是为了裁剪卷积核而暂时配置的参数，不再出现在实际应用时的图像识别网络中。

在步骤105，利用图像样本训练裁剪后的图像识别网络。通过利用完整的图像样本对裁剪后的图像识别网络再次进行训练，可以对图像识别网络的网络参数进行微调，降低裁剪卷积核对网络造成的影响，优化网络识别效果。具体地，可如前所述，结合估计的类别概率、图像样本的类别标记以及损失函数进行训练，只是具体的调整对象仅变为网络参数，在此不再赘述。

图2是示出根据本公开的一个具体实施例的图像识别网络的训练方法的流程图，该图像识别网络用于执行图像分类任务，采用卷积神经网络。

参照图2，该训练方法首先为卷积神经网络中的卷积核配置重要性权重a，并将训练图像集随机划分为第一训练图像集和第二训练图像集，接着开始对重要性权重a的训练。在训练时，先固定重要性权重a，在第一训练图像集上更新网络权重参数F，再固定网络权重参数F，在第二训练图像集上更新重要性权重a。更新重要性权重a后，需判断当前累计的迭代次数是否达到设定次数，若未达到，则继续重复一遍前述的训练，若达到，则可停止前述的训练，将重要性权重a确定下来。然后，可根据用户输入的裁剪比例，按照重要性权重a由低到高移除裁剪比例的卷积核，并移除裁剪卷积核后的卷积神经网络的卷积核的重要性权重，得到裁剪后的卷积神经网络。最后，在完整的训练图像集上训练裁剪后的卷积神经网络，以进行微调，即完成该网络的训练，可输出训练好的卷积神经网络。

参照图3，在步骤301，获取待识别的图像数据。

在步骤302，将图像数据输入图像识别网络，得到估计的识别概率。其中，图像识别网络是使用上述参照图1描述的训练方法训练得到的，因此本公开的示例性实施例的图像识别方法具备上述训练方法的全部有益技术效果，在此不再赘述。具体地，以图像分类任务为例，步骤302得到的估计的识别概率为估计的类别概率。

图4是示出根据本公开的示例性实施例的图像识别网络的训练装置的框图。应理解，根据本公开的示例性实施例的用于图像识别网络的训练装置可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中以软件、硬件或软件硬件结合的方式实现，也可以在诸如服务器的设备中实现训练。

参照图4，图像识别网络的训练装置400包括配置单元401、提取单元402、调整单元403、裁剪单元404、训练单元405。

配置单元401可为图像识别网络的每个卷积层的每个卷积核配置重要性权重。由于图像识别网络中的每个卷积核用于提取不同的特征，而在过参数化的网络中，不同的卷积核对最终的识别准确率的影响是不同的。通过为每个卷积核配置重要性权重，能够据此评估每个卷积核的重要性，重要性权重越大，说明对应的卷积核越重要，对最终的识别效果影响也越大，这也为直接剪去不重要的卷积核以实现网络剪枝提供了可能性。

可选地，配置好重要性权重之后，配置单元401还可对每个卷积层的各个卷积核对应的重要性权重进行归一化处理，得到归一化后的重要性权重，以便于直观地比较同一卷积层中不同卷积核的相对重要性。具体地，归一化处理包括：根据卷积层的各个卷积核对应的重要性权重，确定各个重要性权重的指数化值；对各个重要性权重的指数化值求和，得到指数化和值；确定重要性权重的指数化值与指数化和值的比值，得到归一化后的重要性权重。也就是选择一个底数，将各个重要性权重作为指数，计算出相应的指数化值，有助于挖掘出不同重要性权重的更多细节区别。对于每个卷积层，再确定每个指数化值与相应卷积层的指数化和值的比值，可以保证同一卷积层的全部比值之和为1，从而实现归一化。具体可取自然常数e作为底数，也即采用softmax函数来将重要性权重映射到(0,1)区间，从而实现重要性权重归一化，此时可直接调用已有的函数，可简化程序，降低开发成本。

提取单元402可根据配置的重要性权重，对每个卷积层的每个卷积核提取的图像样本的图像特征向量进行加权，以得到加权图像特征图。通过将重要性权重与对应卷积层输出的图像特征图相关联，能够令重要性权重影响后续各个卷积层的输出，进而影响最终的图像识别结果，充分考虑了相邻层卷积核的依赖关系。

调整单元403可使用加权图像特征图来调整图像识别网络的网络参数和重要性权重。由于加权图像特征图是将图像样本输入配置了重要性权重的图像识别网络后得到的，该加权图像特征图会直接影响识别结果，而图像样本本身需要识别的特性是已知的，例如对于图像分类任务，需要识别的是图像为某种类别的概率，图像样本的类别就是已知的。因此经过对照调整，对识别结果影响较大的卷积核就能得到更大的重要性权重，对识别结果影响较小的卷积核就能得到更小的重要性权重，使调整得到的重要性权重能够更准确地表征卷积核的重要性。同时，网络参数对图像识别网络的识别结果影响重大，通过在调整重要性权重时也一并调整图像识别网络的网络参数，可一并完成整个网络的预训练，保证了调整后的重要性权重能够更准确地反映相应卷积核的重要性。具体地，调整的网络参数可以仅为每个卷积核内的权重，也可以还包括偏置项，本公开在此不作限制。

仍以图像分类任务为例，调整单元403的调整操作具体可执行为：将加权图像特征图输入图像识别网络的输出层，得到估计的类别概率；根据估计的类别概率和图像样本的类别标记确定图像识别网络的训练损失值；根据训练损失值调整网络参数和重要性权重。通过结合训练损失值实现网络参数和重要性权重的调整，可以基于数据驱动，自动化地学习每个卷积核的重要性权重及网络参数，既减少了人工计算的工作量，又不需要依赖人工的先验。其中，损失函数可采用交叉熵损失函数，并通过梯度下降法更新网络参数和重要性权重，有助于提升学习效率。

可选地，调整单元403还可将图像样本划分为第一图像样本和第二图像样本，也就是由原来的一个训练集拆分为两个训练集，分别用来调整网络参数和重要性权重。具体来说，调整单元403分别调整网络参数和重要性权重的操作包括：保持重要性权重不变，利用第一图像样本对应的加权图像特征图调整网络参数，以对图像识别网络进行第一阶段训练；保持网络参数不变，利用第二图像样本对应的加权图像特征图调整重要性权重，以对图像识别网络进行第二阶段训练；循环执行第一阶段训练和第二阶段训练，直到满足停止条件。其中，停止条件可以是训练收敛，也可以是迭代次数达到设定次数。通过用两个不同的训练集分别训练调整网络参数和重要性权重，可防止重要性权重的学习过拟合，提升调整结果的泛化性能，降低误判。同时，具体先调整网络参数，可以先令图像识别网络初步确定，后续就可以在此基础上调整重要性权重，以评估卷积核的重要性，有助于提升调整效率。可以理解的是，两个阶段的训练都可如前所述，结合估计的类别概率、图像样本的类别标记以及损失函数进行，只是每个阶段具体调整的对象略有不同，在此不再赘述。

裁剪单元404可根据调整后的重要性权重，裁剪图像识别网络的卷积核，并移除裁剪卷积核后的图像识别网络的卷积核的重要性权重，得到裁剪后的图像识别网络。其中，裁剪卷积核的操作具体可执行为：对于每个卷积层，移除设定比例的卷积核，其中，移除的卷积核的重要性权重小于保留的卷积核的重要性权重，也就是按照设定比例，裁剪掉一个卷积层中相应比例的低重要度卷积核，便于按照明确的大小目标进行剪枝。举例来说，可以将各个卷积核按照对应的重要性权重进行升序排列，并从低至高移除设定比例的卷积核。裁剪卷积核的操作也可执行为：对于每个卷积层，移除重要性权重小于设定阈值的卷积核，便于在没有明确的大小目标的情况下进行灵活剪枝，兼顾网络大小与网络性能。可以理解的是，对于根据设定阈值裁剪卷积核的情况，尤其可以对重要性权重做归一化处理，以便于设置普遍适用的设定阈值。由于重要性权重仅用于表征裁剪前的图像识别网络中各个卷积核的重要性，因此在裁剪掉重要性低的卷积核后，通过移除网络中的重要性权重，可以确保得到的图像识别网络能够正常应用。换言之，重要性权重是为了裁剪卷积核而暂时配置的参数，不再出现在实际应用时的图像识别网络中。

训练单元405可利用图像样本训练裁剪后的图像识别网络。通过利用完整的图像样本对裁剪后的图像识别网络再次进行训练，可以对图像识别网络的网络参数进行微调，降低裁剪卷积核对网络造成的影响，优化网络识别效果。具体地，可如前所述，结合估计的类别概率、图像样本的类别标记以及损失函数进行训练，只是具体的调整对象仅变为网络参数，在此不再赘述。

图5是示出根据本公开的示例性实施例的图像识别装置的框图。应理解，根据本公开的示例性实施例的图像识别装置可以以软件、硬件或软件硬件结合的方式实现。例如，可以在智能手机的APP中实现如图5所述的图像识别装置。

参照图5，图像识别装置500包括获取单元501和估计单元502。

获取单元501可获取待识别的图像数据。

估计单元502可将图像数据输入图像识别网络，得到估计的识别概率。其中，图像识别网络是使用上述参照图1描述的训练方法训练得到的，因此本公开的示例性实施例的图像识别装置500具备上述训练方法的全部有益技术效果，在此不再赘述。具体地，以图像分类任务为例，估计单元502得到的估计的识别概率为估计的类别概率。

图6是根据本公开的示例性实施例的电子设备的框图。

参照图6，电子设备600包括至少一个存储器601和至少一个处理器602，所述至少一个存储器601中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器602执行时，执行根据本公开的示例性实施例的图像识别网络的训练方法或图像识别方法。

作为示例，电子设备600可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备600并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备600还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备600中，处理器602可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器602可运行存储在存储器601中的指令或代码，其中，存储器601还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器601可与处理器602集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器601可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器601和处理器602可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器602能够读取存储在存储器中的文件。

此外，电子设备600还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备600的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的图像识别网络的训练方法或图像识别方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的图像识别网络的训练方法或图像识别方法。

根据本公开的示例性实施例的图像识别网络的训练方法和装置以及图像识别方法和装置，通过为每个卷积核配置重要性权重，可以用一个连续的随机变量表示该卷积核被保留的概率，同时令每个卷积层的输出与该重要性权重相关联，可以充分考虑相邻层卷积核的依赖关系，进而准确表征卷积核的重要性，提升剪枝效率，得到尺寸减小、性能可靠的图像识别网络，保障了训练得到的图像识别网络对移动端的适应能力，有助于维持甚至缩短推理过程中的响应时间，并维持甚至降低功耗。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别网络的训练方法，其特征在于，所述训练方法包括：

为所述图像识别网络的每个卷积层的每个卷积核配置重要性权重；

根据配置的所述重要性权重，对每个卷积层的每个卷积核提取的图像样本的图像特征向量进行加权，以得到加权图像特征图；

使用所述加权图像特征图来调整所述图像识别网络的网络参数和所述重要性权重；

根据调整后的所述重要性权重，裁剪所述图像识别网络的卷积核，并移除裁剪卷积核后的所述图像识别网络的卷积核的所述重要性权重，得到裁剪后的所述图像识别网络；

利用所述图像样本训练裁剪后的所述图像识别网络。

2.如权利要求1所述的训练方法，其特征在于，所述图像样本包括第一图像样本和第二图像样本，所述使用所述加权图像特征图来调整所述图像识别网络的网络参数和所述重要性权重，包括：

保持所述重要性权重不变，利用所述第一图像样本对应的所述加权图像特征图调整所述网络参数，以对所述图像识别网络进行第一阶段训练；

保持所述网络参数不变，利用所述第二图像样本对应的所述加权图像特征图调整所述重要性权重，以对所述图像识别网络进行第二阶段训练；

循环执行所述第一阶段训练和所述第二阶段训练，直到满足停止条件。

3.如权利要求1或2所述的训练方法，其特征在于，所述使用所述加权图像特征图来调整所述图像识别网络的网络参数和所述重要性权重，包括：

将所述加权图像特征图输入所述图像识别网络的输出层，得到估计的类别概率；

根据所述估计的类别概率和所述图像样本的类别标记，确定所述图像识别网络的训练损失值；

根据所述训练损失值，调整所述网络参数和所述重要性权重。

4.如权利要求1所述的训练方法，其特征在于，所述根据调整后的所述重要性权重裁剪所述图像识别网络的卷积核，包括：

对于每个卷积层，移除设定比例的卷积核，其中，移除的卷积核的所述重要性权重小于保留的卷积核的所述重要性权重；或

对于每个卷积层，移除所述重要性权重小于设定阈值的卷积核。

5.一种图像识别方法，其特征在于，包括：

获取待识别的图像数据；

将所述图像数据输入图像识别网络，得到估计的识别概率，

其中，所述图像识别网络是使用如权利要求1到4中的任一权利要求所述的训练方法训练得到的。

6.一种图像识别网络的训练装置，其特征在于，所述训练装置包括：

配置单元，被配置为：为所述图像识别网络的每个卷积层的每个卷积核配置重要性权重；

提取单元，被配置为：根据配置的所述重要性权重，对每个卷积层的每个卷积核提取的图像样本的图像特征向量进行加权，以得到加权图像特征图；

调整单元，被配置为：使用所述加权图像特征图来调整所述图像识别网络的网络参数和所述重要性权重；

裁剪单元，被配置为：根据调整后的所述重要性权重，裁剪所述图像识别网络的卷积核，并移除裁剪卷积核后的所述图像识别网络的卷积核的所述重要性权重，得到裁剪后的所述图像识别网络；

训练单元，被配置为：利用所述图像样本训练裁剪后的所述图像识别网络。

7.一种图像识别装置，其特征在于，包括：

获取单元，被配置为：获取待识别的图像数据；

估计单元，被配置为：将所述图像数据输入图像识别网络，得到估计的识别概率，

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的图像识别网络的训练方法或如权利要求5所述的图像识别方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的图像识别网络的训练方法或如权利要求5所述的图像识别方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1到4中的任一权利要求所述的图像识别网络的训练方法或如权利要求5所述的图像识别方法。