CN111598238A

CN111598238A - 深度学习模型的压缩方法及装置

Info

Publication number: CN111598238A
Application number: CN202010691948.1A
Authority: CN
Inventors: 杨新星; 周俊; 李龙飞
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-08-28

Abstract

本说明书实施例中提供了一种深度学习模型的压缩方法及装置。该方法可以包括：首先获取经训练得到的深度学习模型以及用于训练该深度学习模型的多条训练数据，其中该深度学习模型用于进行业务预测并且包括多个权重参数。然后根据深度学习模型对应的损失函数以及多条训练数据，确定多个权重参数各自对应的梯度值。接着确定多个权重参数各自对应的重要性度量值；其中，一个权重参数对应的重要性度量值，与该权重参数的绝对值正相关，与该权重参数对应的梯度值的绝对值正相关。之后根据多个权重参数各自对应的重要性度量值，对深度学习模型进行网络剪枝。

Description

深度学习模型的压缩方法及装置

技术领域

本说明书一个或多个实施例涉及人工智能领域，尤其涉及深度学习模型的压缩方法及装置。

背景技术

深度学习使得很多业务可以通过训练得到的深度学习模型来执行。例如，可以通过相应的深度学习模型，实现语音识别任务、计算机视觉任务以及自然语言处理任务等。为了提高深度学习模型的任务执行性能，深度学习模型的规模通常相对较大，需要占用高额的存储资源和计算资源，可能导致深度学习模型难以高效的应用在各种硬件设备中。例如，用于实现图像识别任务的卷积神经网络VGG-16，权重参数的数量达到1亿3千多万，占用的存储资源达到500MB，需要进行309亿次浮点运算才能完成一次图像识别任务。如此巨大的参数量和运算量，使得一般的硬件设备难以部署并运行这样的深度学习模型。

为了解决这些问题，许多业界研究人员开始研究模型压缩方法，以最大限度的减小模型对存储资源和计算资源的消耗。研究发现，在许多深度的神经网络中存在显著的冗余。例如，对于一部分深度的神经网络来说，仅仅使用很少一部分（5%）权重参数就足以预测剩余的权重参数。也就是说，仅仅训练得到很少一部分的权重参数，就有可能达到和原来的网络相近甚至更好的性能，实现最大程度的减小模型复杂度，减小模型需要存储资源和计算资源，同时将加速深度学习模型的训练和预测，提高深度学习模型的各项性能。

因此，希望能有改进的方案，以期更为有效地实现对深度学习模型进行压缩，提高深度学习模型的性能及其可用性。

发明内容

本说明书一个或多个实施例中提供了一种深度学习模型的压缩方法及装置，可以更为有效地实现对深度学习模型进行压缩，提高深度学习模型的性能及其可用性。

第一方面，提供了一种深度学习模型的压缩方法，该方法包括：获取经训练得到的深度学习模型以及用于训练该深度学习模型的多条训练数据；其中该深度学习模型用于实现预测业务并且包括多个权重参数。然后根据该深度学习模型对应的损失函数以及多条训练数据，确定多个权重参数各自对应的梯度值。接着确定多个权重参数各自对应的重要性度量值；其中对于多个权重参数中的任一当前参数，该当前参数对应的重要性度量值与该当前参数的绝对值正相关，与该当前参数对应的梯度值的绝对值正相关。之后即可根据多个权重参数各自对应的重要性度量值，对深度学习模型进行网络剪枝。

在一种可能得实施方式中，训练数据可以包括样本数据以及其对应的样本标签，样本数据的类型可以包括但不限于以下各种类型之一：文本、图片以及音频。

在一种可能得实施方式中，预测业务可以包括但不限于以下各种业务之一：自然语言处理、图像识别、语音识别以及对业务对象进行分类。

在一种可能得实施方式中，深度学习模型可以包括卷积神经网络，该卷积神经网络包括多个卷积核通道，多个卷积核通道各自包括多个权重参数中的至少一个。相应的，根据多个权重参数各自对应的重要性度量值，对深度学习模型进行网络剪枝，可以包括：确定多个卷积核通道各自对应的重要性度量值；其中，对于多个卷积核通道中的任一当前通道，该当前通道对应的重要性度量值为，该当前通道包括的各个权重参数分别对应的重要性度量值的和；根据多个卷积核通道各自对应的重要性度量值，对卷积神经网络进行网络剪枝。

在一种可能的实施方式中，根据多个卷积核通道各自对应的重要性度量值，对卷积神经网络进行网络剪枝，包括：从多个卷积核通道中选择至少一个目标卷积核通道；其中，对于至少一个目标卷积核通道中的任一第一通道，以及多个卷积核通道中未被选择的任一第二通道，第一通道对应的重要性度量值不大于第二通道对应的重要性度量值；删除至少一个目标卷积核通道。

在一种可能的实施方式中，根据多个权重参数各自对应的重要性度量值，对深度学习模型进行网络剪枝，包括：从多个权重参数中选择至少一个目标权重参数；其中，对于至少一个目标权重参数中的任一第一参数，以及多个权重参数中未被选择的任一第二参数，第一参数对应的重要性度量值不大于第二参数对应的重要性度量值；删除至少一个目标权重参数。

在一种可能的实施方式中，深度学习模型包括多个网络层，多个网络层各自包括多个权重参数中的至少一个。相应的，根据多个权重参数各自对应的重要性度量值，对深度学习模型进行网络剪枝，包括：确定多个网络层各自对应的剪枝策略；其中，对于多个网络层中的任一当前层，该当前层对应的剪枝策略指示了该当前层需要删除的权重参数的数量或比例；对于每个网络层，根据该网络层对应的剪枝策略，以及该网络层包括的各个权重参数分别对应的重要性度量值，对该网络层进行网络剪枝。

在一种可能的实施方式中，该方法还包括：根据多条训练数据对进行网络剪枝后的深度学习模型进行微调训练。

在一种可能的实施方式中，该方法还包括：确定是否达到终止条件；其中，终止条件包括：进行网络剪枝的当前次数达到预设次数，或者，进行微调训练后的深度学习模型的规模满足预设条件；在达到终止条件的情况下，将进行微调训练后的深度学习模型确定为压缩后的深度学习模型。

第二方面，提供了一种深度学习模型的压缩装置，该装置包括：

获取单元，配置为获取经训练得到的深度学习模型，以及获取用于训练所述深度学习模型的多条训练数据；其中，所述深度学习模型用于实现预测业务，所述深度学习模型包括多个权重参数；

梯度确定单元，配置为根据所述深度学习模型对应的损失函数以及所述多条训练数据，确定所述多个权重参数各自对应的梯度值；

重要性度量单元，配置为确定所述多个权重参数各自对应的重要性度量值；其中，对于所述多个权重参数中的任一当前参数，所述当前参数对应的重要性度量值与所述当前参数的绝对值正相关，与所述当前参数对应的梯度值的绝对值正相关；

剪枝处理单元，配置为根据所述多个权重参数各自对应的重要性度量值，对所述深度学习模型进行网络剪枝。

在一种可能的实施方式中，所述训练数据包括样本数据以及其对应的样本标签，所述样本数据的类型包括以下各种类型之一：文本、图片以及音频。

在一种可能的实施方式中，所述预测业务包括以下各种业务之一：自然语言处理、图像识别、语音识别以及对业务对象进行分类。

在一种可能的实施方式中，所述深度学习模型包括卷积神经网络，所述卷积神经网络包括多个卷积核通道，所述多个卷积核通道各自包括所述多个权重参数中的至少一个。所述剪枝处理单元，具体配置为确定所述多个卷积核通道各自对应的重要性度量值；其中，对于所述多个卷积核通道中的任一当前通道，所述当前通道对应的重要性度量值为，所述当前通道包括的各个权重参数分别对应的重要性度量值的和；根据所述多个卷积核通道各自对应的重要性度量值，对所述卷积神经网络进行网络剪枝。

在一种可能的实施方式中，所述剪枝处理单元，具体配置为从所述多个卷积核通道中选择至少一个目标卷积核通道；其中，对于所述至少一个目标卷积核通道中的任一第一通道，以及所述多个卷积核通道中未被选择的任一第二通道，所述第一通道对应的重要性度量值不大于所述第二通道对应的重要性度量值；删除所述至少一个目标卷积核通道。

在一种可能的实施方式中，所述剪枝处理单元，具体配置为从所述多个权重参数中选择至少一个目标权重参数；其中，对于所述至少一个目标权重参数中的任一第一参数，以及所述多个权重参数中未被选择的任一第二参数，所述第一参数对应的重要性度量值不大于所述第二参数对应的重要性度量值；删除所述至少一个目标权重参数。

在一种可能的实施方式中，所述深度学习模型包括多个网络层，所述多个网络层各自包括所述多个权重参数中的至少一个。所述剪枝处理单元，具体配置为确定所述多个网络层各自对应的剪枝策略；其中，对于所述多个网络层中的任一当前层，所述当前层对应的剪枝策略指示了所述当前层需要删除的权重参数的数量或比例；对于每个所述网络层，根据所述网络层对应的剪枝策略，以及所述网络层包括的各个权重参数分别对应的重要性度量值，对所述网络层进行网络剪枝。

在一种可能的实施方式中，所述装置还包括：模型训练单元，配置为根据所述多条训练数据，对进行网络剪枝后的所述深度学习模型进行微调训练。

在一种可能的实施方式中，所述装置还包括条件处理单元，配置为确定是否达到终止条件；其中，所述终止条件包括进行网络剪枝的当前次数达到预设次数，或者，所述终止条件包括进行微调训练后的所述深度学习模型的规模满足预设条件；在达到终止条件的情况下，将进行微调训练后的所述深度学习模型确定为压缩后的深度学习模型。

第三方面，提供了一种计算设备，包括处理器，该处理器执行存储器中存储的计算机指令/代码时，实现第一方面中任一项提供的方法。其中，该存储器可以位于该计算设备中，也可以位于该计算设备之外。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机指令/代码，该计算机指令/代码在计算设备中执行时，计算设备实现第一方面中任一项提供的方法。

通过本说明书实施例中提供的方法及装置，对于深度学习模型的每个权重参数，可以根据该权重参数自身以及其对应的梯度值，综合衡量该权重参数的重要性，然后根据各个权重参数的重要性对深度学习模型进行网络剪枝，使得深度学习模型的权重参数的数量被减少，实现了对深度学习模型的规模进行压缩，可增强深度学习模型的可用性，同时还能够确保深度学习模型具有较好的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书实施例中对深度学习模型进行网络剪枝的示意图之一。

图2为本说明书实施例中提供的一种深度学习模型的压缩方法的示意图。

图3为本说明书实施例中对深度学习模型进行网络剪枝的示意图之二。

图4为说明书实施例中提供的一种深度学习模型的压缩装置的示意图。

具体实施方式

下面结合附图，对本说明书所提供的各个非限制性实施例进行详细描述。

对深度学习模型进行压缩的方法可以包括但不限于：低秩近似（low-rankapproximation）、网络剪枝（network pruning）、网络量化（network quantization），知识蒸馏（knowledge distillation）和紧凑网络设计（compact Network design）等。其中，网络剪枝是被经常被采用的模型压缩方法之一。

网络剪枝的核心思想是：在训练得到深度学习模型的权重矩阵后，即训练得到满足精度要求的深度学习模型之后，从深度学习模型中找出相对 “不重要”的权重参数并予以删除，然后对深度学习模型进行微调（fine tune）训练，得到压缩后的深度学习模型。具体地，经训练得到的深度学习模型可以包括多个网络层，每个网络层可以包括多个神经元；相邻两个网络层之间可能包含多个用于连接神经元的连接边，每个连接边各自具有相应的权重参数。可以根据相对“不重要”的权重参数，确定出相对“不重要”的连接边和/或神经元并予以删除。

图1为对深度学习模型进行网络剪枝的示意图。如图1所示，进行网络剪枝前的深度学习模型可以包括典型的前馈全连接神经网络。进行网络剪枝后的深度学习模型相对于进行网络剪枝前的深度学习模型：L2层被删除了一个神经元，L3层被删除了一个神经元；L1层与L2层之间被删除了14条连接边，L2层与L3层之间被删除了8条连接边，L3层与L4层之间被删除了4条连接变。换而言之，进行网络剪枝后的深度学习模型，仅保留了进行网络剪枝前的深度学习模型的少量神经元和连接边，仅具少量的权重参数，深度学习模型的规模得到压缩。

通常的，对深度学习模型进行网络剪枝的过程中，核心问题主要包括如何衡量神经元和/或连接边的重要性，或者说包括如何衡量深度学习模型包括的各权重参数的重要性。另外，还包括如何进行网络剪枝，即如何确定需要进行网络剪枝的权重参数的数量或比例等。

传统的网络剪枝方法主要依靠专家经验。例如，专家经验认为，深度学习模型中靠近输入层的网络层比靠近输出层的网络层更加重要；对深度学习模型进行网络剪枝时，靠近输入层的网络层所对应的剪枝比例，小于靠近输出层的网络层所对应的剪枝比例。又如，依赖专家经验，制定衡量权重参数的重要性的规则，比如将权重参数的绝对值作为重要性的排序依据。如果深度神经网络的结构过于复杂，比如网络层的数量过多，则需要针对每个网络层分别设置剪枝策略，将会耗费大量的人工和时间；另外，同样的网络结构，针对不同的应用场景，其最优的剪枝策略是不同的，依靠专家经验进行网络剪枝的方法，难以确保压缩后的深度学习模型的性能，可能导致进行网络剪枝后的深度学习模型无法用于准确执行相应的预测任务。

有鉴于此，本说明书实施例中至少提供了一种深度学习模型的压缩方法及装置。其中，对于经训练得到的深度学习模型，可以首先获取该深度学习模型包括的多个权重参数各自对应的梯度值。接着，对于每个权重参数，确定该权重参数对应的重要性度量值，该重要性度量值与该权重参数的绝对值正相关，与该权重参数对应的梯度值的绝对值正相关。也就是说，对于深度学习模型的每个权重参数，可以根据该权重参数自身以及其对应的梯度值，综合衡量该权重参数的重要性。之后可以根据多个权重参数各自对应的重要性度量值，对该深度学习模型进行网络剪枝。相应的，按照前述的方式，对深度学习模型进行一次或多次小规模的网络剪枝，即可获得规模相对较小的深度学习模型，即得到压缩后的深度学习模型，不仅可以提高深度学习模型的可用性，还能够确保压缩后的深度学习模型具有较好的性能。

下面将详细描述对深度学习模型进行压缩的具体过程。

图2为本说明书实施例中提供的一种深度学习模型的压缩方法的示意图。其中，该方法可以通过任何具有计算/处理能力的装置、设备、平台或者集群系统来执行。如图2所示，该方法可以包括但不限于如下各个步骤。

步骤201，获取经训练得到的深度学习模型，以及获取用于训练该深度学习模型的多条训练数据；其中，该深度学习模型用于实现预测业务并且包括多个权重参数。

预测业务可以包括但不限于以下各种业务之一：自然语言处理、图像识别、语音识别以及对业务对象进行分类。

根据需要实现的预测业务的不同，深度学习模型可以包括多种不同类型的神经网络。例如，用于实现计算机视觉任务/图像识别任务的深度学习模型，可以包括但不限于卷积神经网络（convolutional neural networks，CNN）；用于实现自然语言处理任务的深度学习模型，可以包括但不限于循环神经网络（recurrent neural networks，RNN）、长短期记忆网络（long short-term memory，LSTM）或者前馈全连接式的深度神经网络（deep neuralnetworks，DNN）。另外，深度学习模型还可以是多个神经网络的结合，例如深度学习模型可以同时包含RNN和CNN。

训练数据可以包括样本数据以及其对应的样本标签。其中，根据需要实现的预测业务的不同，样本数据的类型可以包括但不限于以下各种类型之一：文本、图片以及音频。可以理解，样本数据对应的样本标签用于指示：该样本数据被输入深度学习模型，并且由该深度学习模型对该样本数据进行分析处理之后，该深度学习模型应当输出的数据。

接着，在步骤202，根据该深度学习模型对应的损失函数，以及用于训练该深度学习模型的多条训练数据，确定多个权重参数各自对应的梯度值。

根据多条训练数据训练得到深度学习模型的过程，实质上是调整深度学习模型包括的多个权重参数，以期实现最小化深度学习模型对应的损失函数的过程。其中，梯度下降法是训练深度学习模型的主要方式之一。具体地，根据多条训练数据，采用梯度下降法对获取的深度学习模型进行训练，训练过程中将会产生深度学习模型包括的多个权重各自对应的梯度值。可以通过对训练深度学习模型的过程进行监听，获得多个权重参数各自对应的梯度值。

示例性的，利用n个训练数据训练深度学习模型，则n个训练数据一共包含X1~Xn共n个样本数据，X1~Xn中的第i个样本数据可以被表述为Xi，Xi对应的样本标签可以被表述为Yi。采用梯度下降法训练深度学习模型的过程中，深度学习模型对其接收的Xi进行分析处理，预测并输出预测数据的过程，实质上是通过关于Xi以及P的预测函数F（Xi，P）预测并输出预测数据的过程，其中P表征深度学习模型包括的多个权重参数，具体地说P可以是由深度学习模型包括的多个权重参数组成的权重矩阵。另外，Xi对应的损失函数可以被表述为关于预测函数F（Xi，P）和样本标签Yi的损失函数L（F（Xi，P），Yi）。相应的，可以根据Xi对应的损失函数L（F（Xi，P），Yi）得到深度学习模型的损失函数。通过对深度学习模型对应的损失函数求偏导，即可得到构成权重矩阵P的各个分量分别对应的梯度值，即得到深度学习模型包括的多个权重参数各自对应的梯度值。

经研究发现，对于深度学习模型中的权重参数的重要性而言，权重参数的绝对值越大，则该权重参数的重要性越高；权重参数对应的梯度值的绝对值越大，则该权重参数的重要性越高。

相应的，在步骤203，确定多个权重参数各自对应的重要性度量值；其中，对于多个权重参数中的任一当前参数，当前参数对应的重要性度量值与当前参数的绝对值正相关，与当前参数对应的梯度值的绝对值正相关。

在一个示例中，对于一个权重参数，可以计算该权重参数与其对应的梯度值的乘积，进而将该乘积的绝对值或者m次方确定为该权重参数的重要性度量值，其中m为大于0的偶数。

在一个示例中，对于一个权重参数，可以对该权重参数的绝对值，以及该权重参数对应的梯度值的绝对值，进行加权求和以得到该权重参数的重要性度量值。

接着，在步骤204，根据多个权重参数各自对应的重要性度量值，对深度学习模型进行网络剪枝。

以深度学习模型包括CNN为例。CNN可以包括多个卷积层，每个卷积层各自包括一个或多个卷积核，每个卷积核各自包括一个或多个卷积核通道，每个卷积核通道各自包括一个或多个权重参数。相应的，在获得CNN包括的多个权重参数各自对应的重要性度量值之后，即可进一步确定每个卷积核通道各自对应的重要性度量值；其中对于多个卷积核通道中的任一当前通道，当前通道对应的重要性度量值为，当前通道包括的各个权重参数分别对应的重要性度量值的和；然后根据每个卷积核通道各自对应的重要性度量值对该CNN进行网络剪枝。

在一个更为具体的示例中，可以从CNN包括的多个卷积核通道中选择并删除至少一个目标卷积核通道。其中对于至少一个目标卷积核通道中的任一第一通道，以及多个卷积核通道中未被选择的任一第二通道，该第一通道对应的重要性度量值不大于该第二通道对应的重要性度量值。

示例性的，可以按照由小到大的顺序，对CNN包括的多个卷积核通道各自对应的重要性度量值进行排序。根据排序结果依次选择预设数量个重要性度量值，被选择的预设数量个重要性度量值各自对应的卷积核通道，可以被选择/确定为目标卷积核通道。

示例性的，可以预先确定一个标准阈值。对CNN包括的每个卷积核通道，如果该卷积核通道对应的重要性度量值小于该标准阈值，则该卷积核通道可以被选择/确定为目标卷积核通道。

请参考图3，对于经训练得到的CNN，该CNN可以包括相邻的网络层L1和网络层L2，其中网络层L1可以是输入层或者卷积层，网络层L2可以是卷积层。网络层L1可以向卷积层L2提供3个特征图A1、A2和A3，卷积层L2中的一个卷积核Filter X可以包括3个卷积核通道W1、W2和W3，卷积核通道W1、W2、W3与特征图A1、A2、A3一一对应；其中W1用于对其对应的A1进行卷积处理以得到卷积结果F1，W2用于对其对应的A2进行卷积处理以得到卷积结果F2，W3用于对其对应的A3进行卷积处理以得到卷积结果F3。卷积结果F1、F2、F3可以组合形成特征图B，并且该特征图B可以被提供给卷积层L2连接的下一个网络层。如果W2对应的重要性度量值相对较小，而且W1和W3对应的重要性度量值相对较大，则F2对特征图B的影响程度相对较小，F1和F3对特征图B的影响程度相对较大，即使删除W2也并不会对CNN的性能造成较大的影响。如果删除W2且保留W1和W3，并且假设Filter X中每个卷积核通道的长度和宽度均为N，则CNN包括的权重参数的数量将会减少N*N个，从而使得CNN包括的权重参数的数量得到减少，不仅可以降低CNN占用的存储资源，而且并不会对CNN的性能造成较大的影响。另外，当W2被删除之后，即使网络层L1向卷积层L2提供了特征图A1、A2、A3，卷积层L2中仅需要利用W1对A1进行卷积处理，以及利用W3对A3进行处理，不再利用W2对A2进行卷积处理，卷积层L2的计算量得到降低，相应的降低了CNN对计算资源的消耗。

需要说明的是，还可以针对CNN包括的多个卷积层分别设置剪枝策略，例如针对每个卷积层分别设置需要删除的卷积核通道的数量或比例。相应的，可以针对CNN包括的每个卷积层，从该卷积层中删除符合相应数量或比例的卷积核通道。

以深度学习模型前馈全连接式的DNN为例。DNN可以包括多个网络层，每个网络层可以包括一个或多个权重参数。相应的，在获得DNN包括的多个权重参数各自对应的重要性度量值之后，可以从DNN包括的多个权重参数中选择并删除至少一个目标权重参数；其中对于至少一个目标权重参数中的任一第一参数，以及多个权重参数中未被选择的任一第二参数，第一参数对应的重要性度量值不大于第二参数对应的重要性度量值。

可以理解，可以采用与前述选择并删除至少一个目标卷积核通道相似的方法，选择并删除至少一个目标权重参数。

需要说明的是，还可以针对DNN包括的多个网络层分别设置剪枝策略，例如针对每个网络层分别设置需要删除的权重参数的数量或比例。相应的，可以针对DNN包括的每个网络层，从该网络层中删除符合相应数量或比例的权重参数。

可以理解，在执行对深度学习模型进行网络剪枝时，删除的目标权重参数或目标卷积核通道的数量可以相对较小。如此，可以通过对经训练得到的深度学习模型进行多次小规模的网络剪枝，避免一次性删除过多的权重参数或卷积核通道而对深度学习模型的性能造成较大的影响，确保后续得到的压缩后的深度学习模型具有较好的性能。

接着，在步骤205，根据用于训练深度学习模型的多条训练数据，对进行网络剪枝后的深度学习模型进行微调训练。

可以根据多条训练数据，通过较小的学习率对进行网络剪枝后的深度学习模型进行训练。例如，仍然采用梯度下降法对进行网络剪枝模型进行训练，在训练过程中，可以根据多条训练数据以及进行网络剪枝后的深度学习模型对应的损失函数，确定出进行网络剪枝后的深度学习模型所包括的每个权重参数各自对应的梯度值。接着，对于进行网络剪枝后的深度学习模型所包括的第i个权重参数Wi，可以将Wi更新为Wi-a*Ti；其中a表征学习率，a的取值为预先设置的大于0且小于1的常数，Ti表征Wi对应的梯度值。

如此，通过对进行网络剪枝后的深度学习模型进行微调训练，可以提高进行网络剪枝后的深度学习模型的预测精度，确保进行网络剪枝后的深度学习模型具有更好的性能，能够用于更为准确的实施预测业务。

可以理解，在每次执行对深度学习模型进行网络剪枝之后，还可以将进行网络剪枝的当前次数加1。

接着，在步骤206，确定是否达到终止条件。

终止条件可以包括但不限于进行网络剪枝的当前次数达到预设次数，或者，进行微调训练后的深度学习模型的规模满足预设条件。其中，该预设条件可以包括但不限于：进行微调训练后的深度学习模型包括的权重参数的第一数量小于第一预设阈值；或者，进行微调训练后的深度学习模型需要占用的存储资源小于第二预设阈值；或者，进行微调训练后的深度学习模型所包括的权重参数的第一数量，相对于经训练得到的并且未进行网络剪枝的深度学习模型所包括的权重参数的第二数量，该第一数量与该第二数量之间的比值小于第三预设阈值。

在未达到终止条件的情况下，可以采用与前述步骤202至步骤206相似的方法，对进行微调训练后的深度学习模型进行处理。

在达到终止条件的情况下，说明进行微调训练后的深度学习模型的规模已经满足用户需求，可以执行步骤207，将进行微调训练后的深度学习模型确定为压缩后的深度学习模型。

压缩后的深度学习模型的规模相对较小，仅需要占用相对较少的存储资源和计算资源，因此压缩后的深度学习模型能够较好的应用于一般硬件设备，可用性极高。

与前述方法实施例基于相同的构思，本说明书实施例中还提供了一种深度学习模型的压缩装置。该装置可以部署在计算设备中，使得计算设备能够实施如图2所示方法中的各个步骤。具体地，如图4所示，该装置可以包括：

获取单元401，配置为获取经训练得到的深度学习模型，以及获取用于训练所述深度学习模型的多条训练数据；其中，所述深度学习模型用于实现预测业务，所述深度学习模型包括多个权重参数；

梯度确定单元402，配置为根据所述深度学习模型对应的损失函数以及所述多条训练数据，确定所述多个权重参数各自对应的梯度值；

重要性度量单元403，配置为确定所述多个权重参数各自对应的重要性度量值；其中，对于所述多个权重参数中的任一当前参数，所述当前参数对应的重要性度量值与所述当前参数的绝对值正相关，与所述当前参数对应的梯度值的绝对值正相关；

剪枝处理单元404，配置为根据所述多个权重参数各自对应的重要性度量值，对所述深度学习模型进行网络剪枝。

在一种可能的实施方式中，所述深度学习模型包括卷积神经网络，所述卷积神经网络包括多个卷积核通道，所述多个卷积核通道各自包括所述多个权重参数中的至少一个。所述剪枝处理单元404，具体配置为确定所述多个卷积核通道各自对应的重要性度量值；其中，对于所述多个卷积核通道中的任一当前通道，所述当前通道对应的重要性度量值为，所述当前通道包括的各个权重参数分别对应的重要性度量值的和；根据所述多个卷积核通道各自对应的重要性度量值，对所述卷积神经网络进行网络剪枝。

在一种可能的实施方式中，所述剪枝处理单元404，具体配置为从所述多个卷积核通道中选择至少一个目标卷积核通道；其中，对于所述至少一个目标卷积核通道中的任一第一通道，以及所述多个卷积核通道中未被选择的任一第二通道，所述第一通道对应的重要性度量值不大于所述第二通道对应的重要性度量值；删除所述至少一个目标卷积核通道。

在一种可能的实施方式中，所述剪枝处理单元404，具体配置为从所述多个权重参数中选择至少一个目标权重参数；其中，对于所述至少一个目标权重参数中的任一第一参数，以及所述多个权重参数中未被选择的任一第二参数，所述第一参数对应的重要性度量值不大于所述第二参数对应的重要性度量值；删除所述至少一个目标权重参数。

本说明书实施例中还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现说明中任意一个实施例描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能所对应的计算机程序存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令/代码进行传输，以便这些功能所对应的计算机程序被计算机执行时，通过计算机实现本发明任意一个实施例中所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例中相同、相似的部分互相参见即可，每个实施例中重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种深度学习模型的压缩方法，所述方法包括：

获取经训练得到的深度学习模型，以及获取用于训练所述深度学习模型的多条训练数据；其中，所述深度学习模型用于实现预测业务，所述深度学习模型包括多个权重参数；

根据所述深度学习模型对应的损失函数以及所述多条训练数据，确定所述多个权重参数各自对应的梯度值；

确定所述多个权重参数各自对应的重要性度量值；其中，对于所述多个权重参数中的任一当前参数，所述当前参数对应的重要性度量值与所述当前参数的绝对值正相关，与所述当前参数对应的梯度值的绝对值正相关；

根据所述多个权重参数各自对应的重要性度量值，对所述深度学习模型进行网络剪枝。

2.根据权利要求1所述的方法，其中，所述训练数据包括样本数据以及其对应的样本标签，所述样本数据的类型包括以下各种类型之一：文本、图片以及音频。

3.根据权利要求1所述的方法，其中，所述预测业务包括以下各种业务之一：自然语言处理、图像识别、语音识别以及对业务对象进行分类。

4.根据权利要求1所述的方法，其中，所述深度学习模型包括卷积神经网络，所述卷积神经网络包括多个卷积核通道，所述多个卷积核通道各自包括所述多个权重参数中的至少一个；

所述根据所述多个权重参数各自对应的重要性度量值，对所述深度学习模型进行网络剪枝，包括：

确定所述多个卷积核通道各自对应的重要性度量值；其中，对于所述多个卷积核通道中的任一当前通道，所述当前通道对应的重要性度量值为，所述当前通道包括的各个权重参数分别对应的重要性度量值的和；

根据所述多个卷积核通道各自对应的重要性度量值，对所述卷积神经网络进行网络剪枝。

5.根据权利要求4所述的方法，其中，所述根据所述多个卷积核通道各自对应的重要性度量值，对所述卷积神经网络进行网络剪枝，包括：

从所述多个卷积核通道中选择至少一个目标卷积核通道；其中，对于所述至少一个目标卷积核通道中的任一第一通道，以及所述多个卷积核通道中未被选择的任一第二通道，所述第一通道对应的重要性度量值不大于所述第二通道对应的重要性度量值；

删除所述至少一个目标卷积核通道。

6.根据权利要求1所述的方法，其中，所述根据所述多个权重参数各自对应的重要性度量值，对所述深度学习模型进行网络剪枝，包括：

从所述多个权重参数中选择至少一个目标权重参数；其中，对于所述至少一个目标权重参数中的任一第一参数，以及所述多个权重参数中未被选择的任一第二参数，所述第一参数对应的重要性度量值不大于所述第二参数对应的重要性度量值；

删除所述至少一个目标权重参数。

7.根据权利要求1所述的方法，其中，所述深度学习模型包括多个网络层，所述多个网络层各自包括所述多个权重参数中的至少一个；

确定所述多个网络层各自对应的剪枝策略；其中，对于所述多个网络层中的任一当前层，所述当前层对应的剪枝策略指示了所述当前层需要删除的权重参数的数量或比例；

对于每个所述网络层，根据所述网络层对应的剪枝策略以及其包括的各个权重参数分别对应的重要性度量值，对所述网络层进行网络剪枝。

8.根据权利要求1至7中任一所述的方法，其中，所述方法还包括：根据所述多条训练数据，对进行网络剪枝后的所述深度学习模型进行微调训练。

9.根据权利要求8所述的方法，其中，所述方法还包括：

确定是否达到终止条件；其中，所述终止条件包括进行网络剪枝的当前次数达到预设次数，或者，所述终止条件包括进行微调训练后的所述深度学习模型的规模满足预设条件；

在达到终止条件的情况下，将进行微调训练后的所述深度学习模型确定为压缩后的深度学习模型。

10.一种深度学习模型的压缩装置，所述装置包括：

11.根据权利要求10所述的装置，其中，所述训练数据包括样本数据以及其对应的样本标签，所述样本数据的类型包括以下各种类型之一：文本、图片以及音频。

12.根据权利要求10所述的装置，其中，所述预测业务包括以下各种业务之一：自然语言处理、图像识别、语音识别以及对业务对象进行分类。

13.根据权利要求10所述的装置，其中，所述深度学习模型包括卷积神经网络，所述卷积神经网络包括多个卷积核通道，所述多个卷积核通道各自包括所述多个权重参数中的至少一个；

所述剪枝处理单元，具体配置为确定所述多个卷积核通道各自对应的重要性度量值；其中，对于所述多个卷积核通道中的任一当前通道，所述当前通道对应的重要性度量值为，所述当前通道包括的各个权重参数分别对应的重要性度量值的和；根据所述多个卷积核通道各自对应的重要性度量值，对所述卷积神经网络进行网络剪枝。

14.根据权利要求13所述的装置，其中，所述剪枝处理单元，具体配置为从所述多个卷积核通道中选择至少一个目标卷积核通道；其中，对于所述至少一个目标卷积核通道中的任一第一通道，以及所述多个卷积核通道中未被选择的任一第二通道，所述第一通道对应的重要性度量值不大于所述第二通道对应的重要性度量值；删除所述至少一个目标卷积核通道。

15.根据权利要求10所述的装置，其中，所述剪枝处理单元，具体配置为从所述多个权重参数中选择至少一个目标权重参数；其中，对于所述至少一个目标权重参数中的任一第一参数，以及所述多个权重参数中未被选择的任一第二参数，所述第一参数对应的重要性度量值不大于所述第二参数对应的重要性度量值；删除所述至少一个目标权重参数。

16.根据权利要求10所述的装置，其中，所述深度学习模型包括多个网络层，所述多个网络层各自包括所述多个权重参数中的至少一个；

所述剪枝处理单元，具体配置为确定所述多个网络层各自对应的剪枝策略；其中，对于所述多个网络层中的任一当前层，所述当前层对应的剪枝策略指示了所述当前层需要删除的权重参数的数量或比例；对于每个所述网络层，根据所述网络层对应的剪枝策略，以及所述网络层包括的各个权重参数分别对应的重要性度量值，对所述网络层进行网络剪枝。

17.根据权利要求10至16中任一所述的方法，其中，所述装置还包括：模型训练单元，配置为根据所述多条训练数据，对进行网络剪枝后的所述深度学习模型进行微调训练。

18.根据权利要求17所述装置，其中，所述装置还包括条件处理单元，配置为确定是否达到终止条件；其中，所述终止条件包括进行网络剪枝的当前次数达到预设次数，或者，所述终止条件包括进行微调训练后的所述深度学习模型的规模满足预设条件；在达到终止条件的情况下，将进行微调训练后的所述深度学习模型确定为压缩后的深度学习模型。

19.一种计算设备，包括处理器，所述处理器执行存储器中存储的计算机指令/代码时，实现权利要求1-9中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机指令/代码，当所述计算机指令/代码在计算设备中执行时，所述计算设备执行权利要求1-9中任一项所述的方法。