CN109961147A

CN109961147A - 一种基于Q-Learning算法的自动化模型压缩方法

Info

Publication number: CN109961147A
Application number: CN201910211531.8A
Authority: CN
Inventors: 高岭; 秦晴; 袁璐; 党鑫; 于佳龙; 王海; 郑杰; 刘瑞献; 杨建锋
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-07-02
Anticipated expiration: 2039-03-20
Also published as: CN109961147B

Abstract

一种基于Q‑Learning算法的自动化模型压缩方法，该方法通过将深度神经网络的模型性能包括推理时间，模型大小，能耗及准确率作为约束条件，设计可以根据网络结构自动选择模型压缩方法的算法，从而获得性能最优的压缩方案选择。通过这种自动化模型压缩框架在五种不同网络结构下的模型使用，最终实现了在准确率平均损失3.04%的条件下，模型的推理时间平均降低12.8%，能耗降低30.2%，模型大小降低55.4%。通过这种基于Q‑Learning的自动化模型压缩方法的设计为神经网络的模型压缩提供一种自动压缩算法，为进一步实现深度神经网络的有效压缩和推理提供了思路。

Description

一种基于Q-Learning算法的自动化模型压缩方法

技术领域

本发明属于深度学习技术领域，具体涉及一种基于Q-Learning算法的自动化模型压缩方法。

背景技术

深度神经网络近年来发展迅速，它强大的计算能力使其成为一种解决复杂问题的有效工具，为减小时延，保护用户隐私，在移动端或边缘设备进行模型推理是非常有必要的。而对于移动端而言，其有限的资源及能耗限制成为模型应用的最大瓶颈。通过研究发现，模型压缩技术为解决嵌入式移动设备深度推理的计算问题提供了可能，模型压缩不是免费的午餐，通常模型大小的减少会以预测精度损失为代价。这意味着必须仔细选择模型压缩技术及其参数从而达到有效交换时间精度、能量、以及计算和资源需求。目前关于模型压缩的研究多数集中在狭窄的压缩算法领域，而没有从有效实现各个算法的融合以最大限度提升压缩后的模型性能的角度进行技术研究。

发明内容

为了克服上述现有技术的不足，本发明的目的是提供一种基于Q-Learning算法的自动化模型压缩方法，基于Q-Learning算法的自动模型压缩方法并根据问题对动作集状态集及奖励函数进行详细设计，最后通过使用Q-Learning压缩框架对为不同结构的模型根据任务需求和侧重点自动提供不同的压缩方法选择并对实验结果进行分析。通过本发明实现了对不同结构模型的按需压缩，为神经网络的模型压缩提供一种自动压缩算法，为进一步实现深度神经网络的有效压缩和推理提供了思路。

为了实现上述目的，本发明采用的技术方案是：

一种基于Q-Learning算法的自动化模型压缩方法，包括以下步骤：

1)根据深度学习模型的结构选择经典模型，设计模型测试脚本对模型的初始性能包括模型的推理时间，存储空间大小，能耗以及准确率进行测试，然后对不同模型压缩技术的代码进行整合修改；

所述的对深度学习模型性能测试中为保证测试结果的准确性和可靠性，需对一些测试指标需进行具体的设计，其中对于推理时间的测试，为保证推理时间不受噪声影响，通过对每个输入运行每个模型，直到在95％置信区间下每个模型的每个输入的推理时间误差小于5％，此外，在实验测试中，需将模型加载时间除外，同时对于模型能耗的测试是通过撰写能耗计算脚本对平台进行能耗读取和计算，我们以每秒1,000个样本的频率从设备能量传感器获读取功耗。然后通过将读数与模型执行的时间戳相匹配来计算能耗；

2)在测试的基础上根据性能需求明确模型压缩算法的优化条件，量化约束优化策略，为整个算法设计明确优化目标。同时在描述优化约束条件的基础上，根据优化目标和对Q-Learning算法的应用设计基于强化学习的框架来实现模型自动化压缩；

所述的根据对深度神经网络模型的推理时间，存储空间大小，能耗以及准确率的分析，将优化目标明确为对四种性能综合最优的压缩方法，具体约束优化条件描述为：

其中，A，E，T和S表示模型测量精度，能耗，模型在平台下的推理时间以及存储空间，然后通过N(x)函数将精度和能量转换为相同的比例实现归一化，可以通过对调整系数来实现压缩技术的不同组合，选择压缩技术和比例可以从给定的压缩方案中选择，其中，能耗E，推理时间T等参数数值与硬件平台紧密相关，因为它们与底层硬件紧密耦合，不同设备的之间会发生变化，因此还可以根据设备平台实现不同的压缩方法选择；

然后在描述优化约束条件的基础上，根据优化表达式设计基于强化学习的框架来实现模型自动化压缩，其中主要通过Q-Learning算法用于选择超参数，即压缩技术方案的算法，实现最大性能优化。通过以任务需求和模型性能花费约束条件作为输入，以自动选择的压缩技术作为模型参数，以Q-Learning算法作为压缩技术选择算法，在实现合适的压缩算法对模型进行压缩后，最终以压缩后的深度神经网络模型作为输出，以此实现整个框架流程的设计；

3)根据优化目标和Q-Learning算法本身的要求设计奖励函数，为整个优化算法确定奖励方式，保证压缩算法选择的有效性；

在奖励函数的设计中，为实现压缩结果的有效性，避免出现准确性和能源性能差，延迟/存储使用率低或高精度和高能量性能，具有高延迟/存储使用率等模糊性问题。在优化策略的基础上，进一步根据压缩算法的情况设计奖励函数；

首先，为保证模型压缩的有效性，对于准确率的最小值设为不超过模型本身准确率的5％，此外，由于准确率变化越小越好，因此为准确率的系数应为负值，此外，对于模型大小和能耗而言，部分压缩算法可能会导致其增加，因此在算法设计中需要加入判断条件，当模型的大小和能耗大于其原始值时，需要将对应系数调整为负数。最后可以通过调整系数来实验对不同任务需求的，如果任务对推理时间要求更高，可以提高系数的值或对存储空间有较高要求可以提高系数

4)在奖励函数设计的基础上，进一步完善设计Q-Learning算法中需要的状态集，动作集以及奖励矩阵，然后通过这些概念的明确完成算法代码编写；

在状态集的设计中为保证确保模型动作和状态一一对应，将状态集定义为四元组通过表示，统称为当前模型性能，在状态集S中具体包含的状态分别是模型推理时间T，模型占用的存储空间S，能耗成本E，准确率(RNN为BLEU)A，每个状态都是唯一的，然后，设计动作集为不同压缩方法的压缩比例，即每个动作都代表一种模型压缩方案，具体包括：裁剪比例(5％，15％，25％，35％，45％，50％)，量化比例(6bit，8bit，16bit)，稀疏比例(25％，50％，75％)共包含12种动作设计，在动作和状态设计的基础上进一步生成奖励矩阵R，用来表示动作和状态之间的转换关系，为避免同一种压缩算法进行二次使用，造成压缩模型出错，在定义奖励矩阵时，需要对状态之间的关系进行限制，即同一算法每次模型只能压缩一种比例，因此在定义矩阵中采用1表示状态之间不可以通过，用0表示可以转换；

5)使用模型压缩算法框架对不同网络结构的模型进行压缩方案选择并将压缩后的模型迁移到嵌入式平台上测试；在深度神经网络迁移到嵌入式系统中时，需要重新对所有模型的性能在嵌入式系统上进行测试，在测试中需要对嵌入式系统重新刷机并安装相对应的深度学习框架。此外，为保证测试的有效性，在运行模型时需要保持GPU不被其他应用占用，还需在嵌入式读取功耗时需要设计专门的脚本进行功耗读取。

本发明的有益效果是：

通过对压缩技术的分析，提供新的见解和具体指导方针，并定义可能的研究途径，以实现高效的嵌入式推理。通过使用Q-Learning压缩框架对为不同结构的模型根据任务需求和侧重点自动提供不同的压缩方法选择，为神经网络的模型压缩提供一种自动压缩算法，为进一步实现深度神经网络的有效压缩和推理提供了思路。在均衡考虑各个性格的情况下，通过这种自动化模型压缩框架在五种不同网络结构下的模型使用，最终实现了在准确率平均损失3.04％下条件下，模型的推理时间平均降低12.8％，能耗降低30.2％，模型大小降低55.4％。在进一步改变系数设置，调整任务需求后，可以使得ResNet以模型大小增加59％的前提，换取到模型准确率1.2％的上升，能耗和推理时间15％和27％的减少。

附图说明

附图为本发明方法的设计框架图。

具体实施方式

以下结合附图对本发明进一步叙述。

实施例，见图1：

1)在京东云服务器上及NVIDIA Jetson TX2嵌入式移动平台进行深度学习环境搭建，并从github上选择五种经典的深度神经网络模型备用，其中具体包括MobileNet,Inceptionv3,ResNet50,VGG16以及NMT模型。

2)根据约束条件分析设计Q-Learning算法中的状态集，动作集，奖励函数并完成算法的代码编写以及模型性能测试的脚本编写。

3)对不同模型压缩技术的代码进行整合修改并选择MobileNet进行在NVIDIAJetson TX2测试，对不同压缩算法的性能表现做初步判断。

4)将代码移植到京东云服务器设置不同的需求系数分别对五种网络模型进行压缩算法选择并将压缩后的所有模型保存。

5)将所有压缩前后的模型移植到NVIDIA Jetson TX2并使用性能测试脚本对推理时间，模型大小，能耗及准确率进行测试并统计分析结果。

Claims

1.一种基于Q-Learning算法的自动化模型压缩方法，其特征在于，包括以下步骤：

首先，为保证模型压缩的有效性，对于准确率的最小值设为不超过模型本身准确率的5％，此外，由于准确率变化越小越好，因此为准确率的系数应为负值，此外，对于模型大小和能耗而言，部分压缩算法可能会导致其增加，因此在算法设计中需要加入判断条件，当模型的大小和能耗大于其原始值时，需要将对应系数调整为负数。最后可以通过调整系数来实验对不同任务需求的，如果任务对推理时间要求更高，可以提高系数的值或对存储空间有较高要求可以提高系数；