CN114565080A

CN114565080A - 神经网络压缩方法及装置、计算机可读介质、电子设备

Info

Publication number: CN114565080A
Application number: CN202210192398.8A
Authority: CN
Inventors: 王李闽
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-31

Abstract

本公开具体涉及计算机技术领域，具体涉及神经网络压缩方法及装置、计算机可读介质以及处理器。所述方法包括：响应于触发操作为原始模型配置待执行参数；其中，所述待执行参数包括模型剪枝参数、训练终止条件；对所述原始模型插入伪量化节点，并统计对应的量化参数；基于所述量化参数对插入伪量化节点的原始模型进行量化感知训练；根据所述剪枝参数中的剪枝频率对进行了n轮量化感知训练的原始模型进行剪枝处理，直至所述原始模型达到预设的所述训练终止条件；其中，n为正整数。本方案能够缩短剪枝、量化的时间开销，并提高模型精度。

Description

神经网络压缩方法及装置、计算机可读介质、电子设备

技术领域

本公开涉及计算机技术领域，具体涉及一种神经网络压缩方法、一种神经网络压缩装置、一种计算机可读介质以及一种处理器。

背景技术

随着人工智能的快速发展，神经网络已被推广并应用到诸多领域，例如，语音识别、图像识别、数据分析等领域。但随着神经网络性能的提升，模型的参数量和计算量也越来越大，神经网络存在自身运算量大、内存消耗多的特点。在算力有限的终端运行神经网络时，便需要对神经网络模型进行压缩。现有的神经网络压缩方法存在训练时间开销大，模型处理时间长等缺陷。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种神经网络压缩方法、一种神经网络压缩装置、一种计算机可读介质以及一种处理器，能够降低模型训练的时间开销。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种神经网络压缩方法，包括：

响应于触发操作为原始模型配置待执行参数；其中，所述待执行参数包括模型剪枝参数、训练终止条件；

对所述原始模型插入伪量化节点，并统计对应的量化参数；

基于所述量化参数对插入伪量化节点的原始模型进行量化感知训练；

根据所述剪枝参数中的剪枝频率对进行了n轮量化感知训练的原始模型进行剪枝处理，直至所述原始模型达到预设的所述训练终止条件；其中，n为正整数。

根据本公开的第二方面，提供一种神经网络压缩装置，包括：

待执行参数配置模块，用于响应于触发操作为原始模型配置待执行参数；其中，所述待执行参数包括模型剪枝参数、训练终止条件；

量化参数统计模块，用于对所述原始模型插入伪量化节点，并统计对应的量化参数；

量化感知训练模块，用于基于所述量化参数对插入伪量化节点的原始模型进行量化感知训练；

剪枝执行模块，用于根据所述剪枝参数中的剪枝频率对进行了n轮量化感知训练的原始模型进行剪枝处理，直至所述原始模型达到预设的所述训练终止条件；其中，n为正整数。

根据本公开的第三方面，提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的神经网络压缩方法。

根据本公开的第四方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来实现上述的神经网络压缩方法。

本公开的一种实施例所提供的神经网络压缩方法，通过预先为原始模型配置对应的待执行参数，在待执行参数中限定模型的剪枝参数以及训练终止条件等内容，使得原始模型在进行量化感知训练的过程中，通过量化节点保存的统计信息，以及待执行参数进行剪枝，可以有效的避免获取剪枝核(kernel)索引所需要的额外训练开销，缩短了剪枝、量化的时间开销。并且，通过逐步剪枝，降低了模型剪枝后的精度损失，提高了模型精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种神经网络压缩方法的示意图；

图2示意性示出本公开示例性实施例中一种配置待执行参数的方法的示意图；

图3示意性示出本公开示例性实施例中一种量化感知训练的方法的示意图；

图4示意性示出本公开示例性实施例中一种剪枝处理的方法的示意图；

图5示意性示出本公开示例性实施例中一种神经网络压缩装置的组成示意图；

图6示意性示出本公开示例性实施例中一种电子设备的组成示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在相关技术中，神经网络以其优异的数据拟合能力，在图像分类、语音识别、数据分析等领域得到了广泛的应用。然而，由于神经网络存在自身运算量大、内存消耗多等不足，在落地算力有限的端侧设备时，通常需要通过剪枝、量化手段，对神经网络做模型压缩。但是，在一些技术方案中，需要分别完成稀疏化训练和量化训练；或者，在另一些方案中，需要在每轮剪枝量化后重新训练模型，这就导致了训练时间开销大，并且模型精度不容易保证。

针对上述的现有技术的缺点和不足，本示例实施方式中提供了一种神经网络压缩方法。参考图1中所示，上述的神经网络压缩方法可以包括：

步骤S11，响应于触发操作为原始模型配置待执行参数；其中，所述待执行参数包括模型剪枝参数、训练终止条件；

步骤S12，对所述原始模型插入伪量化节点，并统计对应的量化参数；

步骤S13，基于所述量化参数对插入伪量化节点的原始模型进行量化感知训练；

步骤S14，根据所述剪枝参数中的剪枝频率对进行了n轮量化感知训练的原始模型进行剪枝处理，直至所述原始模型达到预设的所述训练终止条件；其中，n为正整数。

本示例实施方式所提供的神经网络压缩方法，通过通过预先为原始模型配置对应的待执行参数，在待执行参数中限定模型的剪枝参数以及训练终止条件等内容，一方面，使得原始模型在进行量化感知训练的过程中，通过量化节点保存的统计信息，以及待执行参数进行剪枝，可以有效的避免获取剪枝核(kernel)索引所需要的额外训练开销，缩短了剪枝、量化的时间开销。另一方面，通过按预设的剪枝频率进行逐步剪枝，降低了模型剪枝后的精度损失，提高了模型精度。

下面，将结合附图及实施例对本示例实施方式中的神经网络压缩方法的各个步骤进行更详细的说明。

本示例实施方式中，上述的指令处理方法可以应用于终端设备。上述的原始模型可以用于图像识别、图像分类、文本识别，或者自然语言处理等应用场景的卷积神经网络模型，或者深度神经网络模型。

在一些示例性实施方式中，上述的方法还可以包括：预先对所述原始模型进行训练，以获取训练至收敛的所述原始模型；其中，所述原始模型为目标任务对应的浮点模型。

举例来说，以文本识别的深度神经网络模型为例，原始模型可以在终端设备上运行。此外，可以在服务器端利用数据集对原始模型进行训练至收敛。例如，原始模型可以是FP32模型。服务器端在将原始模型训练至收敛后，可以下发至终端设备，用于实时的对语音数据进行文本识别。在终端设备侧，可以对原始模型进行压缩处理。其中，终端设备可以是手机、平板电脑等智能终端设备。

本示例实施方式中，参考图2，上述的步骤S11可以包括：

步骤S111，响应于触发操作为所述原始模型创建参数配置任务；

步骤S112，执行所述参数配置任务，获取所述原始模型对应的基础信息；其中，所述基础信息包括：应用场景、任务类型、可用算力、精度下限中的任意一项或任意多项；

步骤S113，基于所述基础信息为所述原始模型配置所述待执行参数。

举例来说，终端设备在接收到服务器下发的已训练的原始模型后，便可以触发对原始模型的参数配置任务。举例来说，可以预先在终端设备装载一参数配置表单，在表单中可以包含应用场景、终端设备类型、任务类型、算力、精度要求的基础信息类别，以及结合各类基础信息配置的待执行参数。其中，任务类型可以是指实时任务或者离线任务。待执行参数包括模型剪枝参数、训练终止条件。模型剪枝参数可以包括：剪枝比例、量化比特数、推理时延、模型大小中的任意一项或任意多项。在不同的终端设备、不同的模型应用场景、不同的终端算力的条件下，可以配置不同的剪枝比例、剪枝频率、推理时延等参数。例如，在文本识别的应用场景、图像识别的应用场景下，可以配置不同的剪枝比例。或者，在终端算力不同的条件下，可以配置不同的模型大小、剪枝频率；等等。例如，对于在手机上部署的实时任务而言，可以配置量化比特数为8，配置推理时延为10-20ms，模型大小为3-5MB等。

终端参数在确定该些待执行参数后，便可以基于该些参数对原始模型进行量化感知训练。

在步骤S12中，对所述原始模型插入伪量化节点，并统计对应的量化参数。

本示例实施方式中，可以利用per channel量化(通道量化)算法在原始模型的卷积网络结构的每个卷积层中嵌入伪量化节点，并统计量化需要的参数。具体的，统计的量化参数可以包括以kernel(核)为单位统计的各类参数对应的min_val(最小值)、max_val(最大值)，以及feature map(特征图)整体的min_val、max_val。例如，可以包括神经网络中各卷积层的卷积核的最大值和最小值；特征图中的最大值和最小值，等等。

在步骤S13中，基于所述量化参数对插入伪量化节点的原始模型进行量化感知训练。

本示例实施方式中，参考图3所示，上述的步骤S13可以包括：

步骤S131，利用统计的量化参数进行伪量化运算，以实现对所述原始模型进行前向传播；

步骤S132，基于所述原始模型的预设损失函数计算损失，并根据损失对所述原始模型进行模型参数更新。

具体的，在统计量化参数后，便可以对原始模型做量化感知训练。在前向传播过程，利用统计的最小值、最大值做伪量化运算，根据损失函数计算损失，反向传播更新模型参数。

在步骤S14中，根据所述剪枝参数中的剪枝频率对进行了n轮量化感知训练的原始模型进行剪枝处理，直至所述原始模型达到预设的所述训练终止条件；其中，n为正整数。

本示例实施方式中，参考图4所示，上述的步骤S14可以包括：

步骤S141，在完成第n轮量化感知训练时，对当前的所述原始模型计算各量化参数的参考值；其中，所述量化参数的参考值基于量化参数的最大值和最小值确定；

步骤S142，基于该参考值对所述量化参数进行排序，并基于按预设剪枝比例筛选参考值最小的量化参数进行剪枝。

具体而言，根据待执行参数中已配置的剪枝频率，在当前完成n轮的训练后，可以利用以下公式来计算每个kernel(核)的参考值：

s＝2max_val-min_val

其中，max_val表示最大值，min_val表示最小值。

计算后，可以根据该参考值来表示参数的重要性程度。根据已配置的剪枝比例，对当前的原始模型进行剪枝，移除计算结果较小的kernel。判断当前是否达到预设的终止条件。若没有，则重复该步骤再次进行剪枝，直至达到预先配置的终止条件，输出量化训练后的模型。

本公开实施例所提供的神经网络压缩方法，通过预先配置待执行参数，在感知量化过程，通过量化节点保存的统计信息对模型做剪枝，避免了获取剪枝kernel索引所需要的额外训练开销，缩短了剪枝、量化的时间开销。并且，通过控制剪枝频率，在量化训练过程中，逐步对模型剪枝，每次剪掉固定比例的参数量，降低了模型剪枝后的精度损失，提高剪枝量化的精度。本方案缩短了端侧落地智能算法时的时间周期，并在一定程度上保证了模型在剪枝、量化后的精度。

需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图5所示，本示例的实施方式中还提供一种神经网络压缩装置50，包括：待执行参数配置模块501、量化参数统计模块502、量化感知训练模块503，以及剪枝执行模块504。其中，

所述待执行参数配置模块501可以用于响应于触发操作为原始模型配置待执行参数；其中，所述待执行参数包括模型剪枝参数、训练终止条件。

所述量化参数统计模块502可以用于对所述原始模型插入伪量化节点，并统计对应的量化参数。

所述量化感知训练模块503可以用于基于所述量化参数对插入伪量化节点的原始模型进行量化感知训练。

所述剪枝执行模块504可以用于根据所述剪枝参数中的剪枝频率对进行了n轮量化感知训练的原始模型进行剪枝处理，直至所述原始模型达到预设的所述训练终止条件；其中，n为正整数。

在一些示例性实施方式中，所述装置还包括：模型预训练模块。

所述模型预训练模块可以用于预先对所述原始模型进行训练，以获取训练至收敛的所述原始模型；其中，所述原始模型为目标任务对应的浮点模型。

在一些示例性实施方式中，所述待执行参数配置模块501可以包括：响应于触发操作为所述原始模型创建参数配置任务；执行所述参数配置任务，获取所述原始模型对应的基础信息；其中，所述基础信息包括：应用场景、任务类型、可用算力、精度下限中的任意一项或任意多项；基于所述基础信息为所述原始模型配置所述待执行参数。

在一些示例性实施方式中，所述模型剪枝参数包括：剪枝比例、量化比特数、推理时延、模型大小中的任意一项或任意多项。

在一些示例性实施方式中，统计的所述量化参数包括：以核为单位的目标参数的最大值和最小值，特征图的最大值和最小值。

在一些示例性实施方式中，所述量化感知训练模块503可以包括：利用统计的量化参数进行伪量化运算，以实现对所述原始模型进行前向传播；基于所述原始模型的预设损失函数计算损失，并根据损失对所述原始模型进行模型参数更新。

在一些示例性实施方式中，所述剪枝执行模块504可以包括在完成第n轮量化感知训练时，对当前的所述原始模型计算各量化参数的参考值；其中，所述量化参数的参考值基于量化参数的最大值和最小值确定；基于该参考值对所述量化参数进行排序，并基于按预设剪枝比例筛选参考值最小的量化参数进行剪枝。

上述的神经网络压缩装置50中各模块的具体细节已经在对应的神经网络压缩方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

图6示出了适于用来实现本发明实施例的电子设备的示意图。

需要说明的是，图6示出的电子设备1000仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备1000包括中央处理单元(Central Processing Unit，CPU)1001，其可以根据存储在只读存储器(Read-Only Memory，ROM)1002中的程序或者从储存部分1008加载到随机访问存储器(Random Access Memory，RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1001、ROM1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output，I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的储存部分1008；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入储存部分1008。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的系统中限定的各种功能。

具体来说，上述的电子设备可以是手机、平板电脑或者笔记本电脑等智能移动终端设备。或者，上述的电子设备也可以是台式电脑等智能终端设备。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

需要说明的是，作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图1所示的各个步骤。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种神经网络压缩方法，其特征在于，所述方法包括：

对所述原始模型插入伪量化节点，并统计对应的量化参数；

2.根据权利要求1所述的神经网络压缩方法，其特征在于，所述方法还包括：

预先对所述原始模型进行训练，以获取训练至收敛的所述原始模型；其中，所述原始模型为目标任务对应的浮点模型。

3.根据权利要求1或2所述的指令处理方法，其特征在于，所述响应于触发操作为原始模型配置待执行参数，包括：

响应于触发操作为所述原始模型创建参数配置任务；

执行所述参数配置任务，获取所述原始模型对应的基础信息；其中，所述基础信息包括：应用场景、任务类型、可用算力、精度下限中的任意一项或任意多项；

基于所述基础信息为所述原始模型配置所述待执行参数。

4.根据权利要求1所述的神经网络压缩方法，其特征在于，所述模型剪枝参数包括：剪枝比例、量化比特数、推理时延、模型大小中的任意一项或任意多项。

5.根据权利要求1所述的神经网络压缩方法，其特征在于，统计的所述量化参数包括：以核为单位的目标参数的最大值和最小值，特征图的最大值和最小值。

6.根据权利要求5所述的神经网络压缩方法，其特征在于，所述基于所述量化参数对插入伪量化节点的原始模型进行量化感知训练包括：

利用统计的量化参数进行伪量化运算，以实现对所述原始模型进行前向传播；

基于所述原始模型的预设损失函数计算损失，并根据损失对所述原始模型进行模型参数更新。

7.根据权利要求1所述的神经网络压缩方法，其特征在于，所述根据所述剪枝参数中的剪枝频率对进行了n轮量化感知训练的原始模型进行剪枝处理，包括：

在完成第n轮量化感知训练时，对当前的所述原始模型计算各量化参数的参考值；其中，所述量化参数的参考值基于量化参数的最大值和最小值确定；

基于该参考值对所述量化参数进行排序，并基于按预设剪枝比例筛选参考值最小的量化参数进行剪枝。

8.一种神经网络压缩装置，其特征在于，所述装置包括：

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的神经网络压缩方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的神经网络压缩方法。