CN116167413A

CN116167413A - 深度卷积神经网络量化剪枝联合优化的方法及系统

Info

Publication number: CN116167413A
Application number: CN202310422590.6A
Authority: CN
Inventors: 胥明凯; 任志刚; 李琮; 杨杰; 陈显达; 王淑颖; 王思源; 刘昭; 刘晓; 刘一男; 胡庆浩; 高翔; 邵帅; 郑义斌; 张雨薇
Original assignee: Institute of Automation of Chinese Academy of Science; Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: Institute of Automation of Chinese Academy of Science; Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-05-26

Abstract

本发明公开了一种深度卷积神经网络量化剪枝联合优化的方法及系统，属于图像处理技术领域，方法包括：获取待处理对象图像的数据集；利用所述数据集训练待优化神经网络模型，并初始化神经网络模型参数，神经网络模型参数包括评价网络、执行网络、目标评价网络和目标执行网络参数；使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率；使用基于蒸馏和量化熵正则后训练方法重新训练神经网络，得到优化后的神经网络模型参数；利用最优的权重剪枝率、权重量化率、输入特征量化率对神经网络模型进行优化，得到最终的神经网络模型。本发明使深度卷积神经网络提升了模型性能，实现了加速与压缩。

Description

深度卷积神经网络量化剪枝联合优化的方法及系统

技术领域

本发明涉及一种深度卷积神经网络量化剪枝联合优化的方法及系统，属于图像处理技术领域。

背景技术

近几年来，随着全球人工智能学科的蓬勃发展，深度卷积神经网络已经被广泛地应用在了在计算机视觉、信息检索、语音识别、语义理解，知识图谱、强化学习等众多热门领域，在工业界和学术界掀起了一股又一股神经网络研究的浪潮，解决了很多计算机认知和推理上的难题，并推动了互联网、金融、医疗健康、交通运输等行业的发展。

目前，深度卷积神经网络向着多模态、大模型、大数据的趋势发展，模型的网络层数和总的参数量都飞速增长，这使得许多超大规模的网络模型只能够在高性能的计算集群上进行训练和测试，并且训练部署的成本高昂。随着移动互联网技术的普及，人们更加倾向于在移动互联设备上运行深度卷积神经网络的测试过程。但是现有移动设备的运算能力和存储能力都非常有限。这就向我们提出了两个挑战：如何降低卷积神经网络的测试用时，以及如何压缩网络模型的存储开销。

针对卷积神经网络的加速与压缩问题，已有一些有效的算法被提出。然而，这些算法大多数都是对卷积神经网络进行单独的量化优化或剪枝优化，并没有考虑卷积神经网络的量化剪枝联合优化，并且只在网络的少数几层上进行了测试，所以神经网络模型全层数的量化剪枝联合优化问题亟待研究。

发明内容

为了解决上述问题，本发明提出了一种深度卷积神经网络量化剪枝联合优化的方法及系统，能够实现深度卷积神经网络的加速与压缩。

本发明解决其技术问题采取的技术方案是：

第一方面，本发明实施例提供的一种深度卷积神经网络量化剪枝联合优化的方法，包括以下步骤：

获取待处理对象图像的数据集；

利用所述数据集训练待优化神经网络模型，并初始化神经网络模型参数，所述神经网络模型参数包括评价网络参数、执行网络参数、目标评价网络参数和目标执行网络参数；

使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率；

使用基于蒸馏和量化熵正则后训练方法重新训练神经网络，得到优化后的神经网络模型参数；

利用最优的权重剪枝率、权重量化率、输入特征量化率对神经网络模型进行优化，得到最终的神经网络模型。

作为本实施例一种可能的实现方式，所述使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率，包括：

初始化随机噪声、模型观测状态和时间步计数；

基于DDPG算法的策略学习；

重复执行上述步骤处理，当所述评价网络参数和执行网络参数收敛时，跳出循环，得到最优的评价网络和执行网络。

作为本实施例一种可能的实现方式，所述基于DDPG算法的策略学习，包括：

使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码，将重新编码后的当前时间步的观测状态和噪声输入到执行网络中，得到当前时间步动作；

使用当前时间步动作的剪枝参数优化神经网络模型,训练神经网络模型一个轮次,使用当前时间步动作的量化参数优化神经网络模型，前向传播网络模型，获得动作奖励和新的观测状态；

从回放缓存

中随机抽样/>

条回放数据；

通过最小化Q值损失函数来更新参数评价网络参数；

使用策略梯度更新执行网络参数；

更新目标评价网络参数、目标执行网络参数和时间步计数；

重复执行上述步骤处理，当深度卷积神经网络所有层都被遍历完成时，跳出循环。

作为本实施例一种可能的实现方式，所述使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码，包括：

当遍历至K阶段图第0层时，初始化K阶段图的子网编码，即每个网络层状态信息的编码；

将当前网络层上上层的K阶段图的子网编码和当前网络层上层K阶段图节点的隐藏状态输入到K阶段图的图卷积层当中，得到当前层节点的隐藏状态；

将当前层节点的隐藏状态输入到K阶段图的可学习池化层当中，得到上层的K阶段图的子网编码；

重复执行上述步骤处理，当K阶段图所有层都被遍历完成时，跳出循环，得到第K层的K阶段图的子网编码，将第K层的K阶段图的子网编码和当前时间步计数连接组成重新编码后的当前时间步的观测状态。

作为本实施例一种可能的实现方式，所述使用基于蒸馏和量化熵正则后训练方法重新训练神经网络，得到优化后的神经网络模型参数，包括：

使用执行网络的量化参数对神经网络模型进行量化；

计算包含蒸馏和量化熵正则两项的损失函数；

计算神经网络模型参数的梯度并对神经网络模型的参数值进行更新；

重复执行上述步骤处理，当所述神经网络模型的参数收敛时，跳出循环，得到优化后的神经网络模型参数。

作为本实施例一种可能的实现方式，所述待处理对象包括输电线路隐患分析数据或/和变电站缺陷检测数据。

作为本实施例一种可能的实现方式，所述深度卷积神经网络为包含多个卷积层的神经网络。

第一方面，本发明实施例提供的一种深度卷积神经网络量化剪枝联合优化的系统，包括：

数据采集模块，用于获取待处理对象图像的数据集；

模型训练模块，用于利用所述数据集训练待优化神经网络模型，并初始化神经网络模型参数，所述神经网络模型参数包括评价网络参数、执行网络参数、目标评价网络参数和目标执行网络参数；

强化学习模块，用于使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率；

参数优化模块，用于使用基于蒸馏和量化熵正则后训练方法重新训练神经网络，得到优化后的神经网络模型参数；

模型优化模块，用于利用最优的权重剪枝率、权重量化率、输入特征量化率对神经网络模型进行优化，得到最终的神经网络模型。

作为本实施例一种可能的实现方式，所述强化学习模块，包括：

初始化模块，用于初始化随机噪声、模型观测状态和时间步计数；

策略学习模块，用于基于DDPG算法的策略学习；

第一重复执行模块，用于重复执行上述步骤处理，当所述评价网络参数和执行网络参数收敛时，跳出循环，得到最优的评价网络和执行网络。

作为本实施例一种可能的实现方式，所述策略学习模块，具体用于：

从回放缓存

中随机抽样/>

条回放数据；

通过最小化Q值损失函数来更新参数评价网络参数；

使用策略梯度更新执行网络参数；

更新目标评价网络参数、目标执行网络参数和时间步计数；

作为本实施例一种可能的实现方式，所述策略学习模块使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码的具体过程为：

作为本实施例一种可能的实现方式，所述参数优化模块，具体用于：

使用执行网络的量化参数对神经网络模型进行量化；

计算包含蒸馏和量化熵正则两项的损失函数；

第三方面，本发明实施例提供的一种上述任一所述深度卷积神经网络量化剪枝联合优化的方法在输电线路隐患分析场景或变电站缺陷检测场景实中的应用，用于对隐患进行检测。

作为本实施例一种可能的实现方式，所述的深度卷积神经网络量化剪枝联合优化的方法在输电线路隐患分析场景或变电站缺陷检测场景实中的应用过程为：

采集待检测数据作为数据集，所述数据集分为输电线路隐患分析数据集和变电站缺陷检测数据集，均在真实场景下采集并人工标注；输电线路隐患分析数据集和变电站缺陷检测数据集的训练集均为10000张，验证集均为1000张，测试集均为2000张；

设置网络层数L为100，设置多阶段图的层数K为2，设置

为0.1，设置/>

为0.1；

设置优化器为SGD，设置优化器的动量为0.9，设置优化器的衰减率为0.0005；

状态空间参数设定，所述状态空间包括卷积层和全连接层，其中，所述卷积层包括：卷积核大小为1的卷积层、卷积核大小为3的卷积层、卷积核大小为5的卷积层、卷积核大小为7的卷积层、卷积核大小为3的深度可分离卷积层、卷积核大小为5的深度可分离卷积层、卷积核大小为7的深度可分离卷积层、卷积核大小为3的深度可分离空洞卷积层、卷积核大小为5的深度可分离空洞卷积层和卷积核大小为7的深度可分离空洞卷积层；

动作空间参数设定：量化上界为8，量化下界为2，剪枝上界为1，剪枝下界为0；

首先，按照以上参数设定初始化整个算法；

训练待优化神经网络模型M；

随机初始化评价网络

和执行网络/>

，初始化目标评价网络/>

和目标执行网络/>

，并另/>

，/>

，初始化回放缓存/>

，其中，/>

表示观测状态，/>

表示动作，/>

表示评价网络参数，/>

表示执行网络参数，/>

表示目标执行网络参数，/>

表示目标执行网络参数；

重复执行以下两个步骤，直至

和/>

收敛：a1.初始化随机噪声/>

，初始化模型观测状态/>

，t=1；b1.重复执行以下7个步骤，直至t等于网络层数L；

根据当前状态

选择/>

，其中，/>

表示t时刻的观测状态，/>

表示第t层的动作，/>

表示第t层的噪声因子；

使用

的剪枝参数优化神经网络模型M，在训练数据集和验证数据集上训练模型M一个轮次后，使用/>

的量化参数优化神经网络模型M，量化公式如下：

，

，

在测试数据集上前向传播网络模型M，获得动作奖励

和新的观测状态/>

，其中，/>

表示t层的量化参数，/>

表示截断参数，/>

表示模型M的权重参数，/>

表示KL散度，/>

模型M在第t层的权重参数，/>

表示截断参数，clamp表示阶段函数，round表示近似函数，/>

表示指数滑动平均因子；

将回放数据

存储于回放缓存/>

中；

从回放缓存

中随机抽样/>

条回放数据；

通过最小化

来更新参数评价网络参数/>

：

，

；

使用策略梯度更新执行网络参数

，公式如下：

；

更新目标评价网络参数

和目标执行网络参数/>

：/>

，

，t=t+1；

使用学习到的执行网络

的剪枝参数对已经训练好的模型M进行剪枝，并训练模型M；

重复执行以下两个步骤直至模型M的参数收敛：

a2.使用执行网络

的量化参数对模型M进行量化；

b2.使用

来对模型M的参数进行更新，其中每一层的量化策略由执行网络

得到，其中/>

，/>

，

，其中，/>

，/>

，/>

表示全精度教师网络，/>

表示量化学生网络，/>

表示全精度教师网络在，/>

表示量化学生网络，/>

表示神经网络权重的真实值,/>

表示神经网络权重的量化值,/>

表示输入特征的的真实值,/>

表示输入特征的的量化值，/>

代表量化箱，/>

代表均值计算，/>

代表方差计算；

使用执行网络

的量化参数对模型M进行量化，得到最终的面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型M。/>

第四方面，本发明实施例提供的一种计算机设备，包括处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述任意深度卷积神经网络量化剪枝联合优化的方法的步骤。

第五方面，本发明实施例提供的一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述任意深度卷积神经网络量化剪枝联合优化的方法的步骤。

本发明实施例的技术方案可以具有的有益效果如下：

本发明采用了基于强化学习的量化剪枝策略学习方法和基于蒸馏和量化熵正则的后训练方法，其中基于强化学习的量化剪枝策略学习方法又分为两个子方法，分别是基于K阶段图的观测状态生成方法和基于DDPG算法的策略学习方法。本发明通过使用强化学习算法不断从模型的实际性能指标中学习量化剪枝联合优化策略，得到神经网络模型最优的权重剪策略、权重量化策略、输入特征量化策略，最后使用基于蒸馏和量化熵正则的后训练方法提升深度卷积神经网络模型的性能，从而实现深度卷积神经网络的加速与压缩。

附图说明

图1是根据一示例性实施例示出的一种深度卷积神经网络量化剪枝联合优化的方法的流程图；

图2是根据一示例性实施例示出的一种深度卷积神经网络量化剪枝联合优化的系统的示意图；

图3是根据一示例性实施例示出的一种深度卷积神经网络量化剪枝联合优化的具体流程图；

图4是根据一示例性实施例示出的一种基于K阶段图的观测状态生成过程示意图；

图5是根据一示例性实施例示出的一种使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码的示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明：

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

如图1所示，本发明实施例提供的一种深度卷积神经网络量化剪枝联合优化的方法，包括以下步骤：

获取待处理对象图像的数据集；

本发明采用了基于强化学习的量化剪枝策略学习方法和基于蒸馏和量化熵正则的后训练方法，通过使用强化学习算法不断从模型的实际性能指标中学习量化剪枝联合优化策略，得到神经网络模型最优的权重剪策略、权重量化策略、输入特征量化策略，最后使用基于蒸馏和量化熵正则的后训练方法提升深度卷积神经网络模型的性能，从而实现深度卷积神经网络的加速与压缩。

初始化随机噪声、模型观测状态和时间步计数；

基于DDPG算法的策略学习；

从回放缓存

中随机抽样/>

条回放数据；

通过最小化Q值损失函数来更新参数评价网络参数；

使用策略梯度更新执行网络参数；

更新目标评价网络参数、目标执行网络参数和时间步计数；

使用执行网络的量化参数对神经网络模型进行量化；

计算包含蒸馏和量化熵正则两项的损失函数；

如图2所示，本发明实施例提供的一种深度卷积神经网络量化剪枝联合优化的系统，包括：

数据采集模块，用于获取待处理对象图像的数据集；

策略学习模块，用于基于DDPG算法的策略学习；

从回放缓存

中随机抽样/>

条回放数据；

通过最小化Q值损失函数来更新参数评价网络参数；

使用策略梯度更新执行网络参数；

更新目标评价网络参数、目标执行网络参数和时间步计数；

使用执行网络的量化参数对神经网络模型进行量化；

计算包含蒸馏和量化熵正则两项的损失函数；

本发明实施例提供的一种上述任一所述深度卷积神经网络量化剪枝联合优化的方法在输电线路隐患分析场景或变电站缺陷检测场景实中的应用，用于对隐患进行检测。

设置网络层数L为100，设置多阶段图的层数K为2，设置

为0.1，设置/>

为0.1；

首先，按照以上参数设定初始化整个算法；

训练待优化神经网络模型M；

随机初始化评价网络

和执行网络/>

，初始化目标评价网络/>

和目标执行网络/>

，并另/>

，/>

，初始化回放缓存/>

，其中，/>

表示观测状态，/>

表示动作，/>

表示评价网络参数，/>

表示执行网络参数，/>

表示目标执行网络参数，/>

表示目标执行网络参数；

重复执行以下两个步骤，直至

和/>

收敛：

a1.初始化随机噪声

，初始化模型观测状态/>

，t=1；

b1.重复执行以下7个步骤，直至t等于网络层数L；

1.根据当前状态

选择/>

，其中，/>

表示t时刻的观测状态，/>

表示第t层的动作，/>

表示第t层的噪声因子；

2.使用

的量化参数优化神经网络模型M，量化公式如下，

，

，在测试数据集上前向传播网络模型M，获得动作奖励/>

和新的观测状态/>

，其中，/>

表示t层的量化参数，/>

表示截断参数，/>

表示模型M的权重参数，/>

表示KL散度，/>

模型M在第t层的权重参数，/>

表示截断参数，clamp表示阶段函数，round表示近似函数，/>

表示指数滑动平均因子；

3.将回放数据

存储于回放缓存/>

中；

4.从回放缓存

中随机抽样/>

条回放数据；

5.通过最小化

来更新参数评价网络参数/>

，其中/>

，

；

6.使用策略梯度更新执行网络参数

，公式如下：

；

7.更新目标评价网络参数

和目标执行网络参数/>

：/>

，

，t=t+1；

使用学习到的执行网络

的剪枝参数对已经训练好的模型M进行剪枝，并训练模型M；

重复执行以下两个步骤直至模型M的参数收敛：

a2.使用执行网络

的量化参数对模型M进行量化；

b2.使用

得到，其中/>

，/>

，/>

，其中，

，/>

，/>

表示全精度教师网络，/>

表示量化学生网络，/>

表示全精度教师网络在，/>

表示量化学生网络，/>

表示神经网络权重的真实值,/>

表示神经网络权重的量化值,/>

表示输入特征的的真实值,/>

表示输入特征的的量化值，/>

代表量化箱，/>

代表均值计算，/>

代表方差计算。

使用执行网络

的量化参数对模型M进行量化，得到最终的面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型M。

本发明实施例提供的基于强化学习的深度卷积神经网络量化剪枝联合优化方法的结构图，该方法分为四个模块。如图3所示，模块M1是基于强化学习的量化剪枝策略学习模块，分为M1.1和M1.2两个子模块，模块M1.1是基于K阶段图的观测状态生成模块，模块M1.2是基于DDPG算法的策略学习模块；模块M2是基于蒸馏和量化熵正则的后训练模块。

基于强化学习的深度卷积神经网络量化剪枝策略学习过程可以分为基于K阶段图的观测状态生成和基于DDPG算法的策略学习两个步骤交叉迭代运行，其中基于K阶段图的观测状态生成是基于强化学习的深度卷积神经网络量化剪枝策略学习过程的核心，强化学习算法的观测状态是由K+1阶段网络拓扑结构的节点隐藏状态计算得到，如图4所示。

强化学习算法的动作空间包含深度卷积神经网络每一层的权重剪枝率、每一层的权重量化率、每一层的输入特征量化率，使用连续的动作空间来得到更好的深度卷积神经网络量化剪枝联合优化效果,其中负责学习量化策略的DDPG智能体由执行网络和评价网络组成，如图5所示。

下面结合图3至图5对本发明基于强化学习的深度卷积神经网络量化剪枝联合优化方法进行详细描述。

一、该方法整体流程如下：

输入：优化神经网络模型M，神经网络模型总层数L，多阶段图的层数K，神经网络模型每一层的状态信息

，神经网络模型拓扑信息/>

，评价网络/>

的初始化参数和执行网络/>

的初始化参数。

输出：优化后的神经网络模型，神经网络模型每层权重的剪枝策略，神经网络模型每层权重的量化策略，神经网络模型每层特征的量化策略。

二、该方法步骤如下：

步骤1：训练待优化神经网络模型M；

步骤2：随机初始化评价网络

和执行网络/>

，初始化目标评价网络/>

和目标执行网络/>

，并另/>

，/>

，初始化回放缓存/>

，其中，/>

表示观测状态，/>

表示动作，/>

表示评价网络参数，/>

表示执行网络参数，/>

表示目标执行网络参数，

表示目标执行网络参数；

步骤3：重复执行以下步骤，直至

和/>

收敛：/>

步骤3.1：初始化随机噪声

，初始化模型观测状态/>

，t=1；

步骤3.2：重复执行以下7个步骤，直至t等于网络层数L:

步骤3.2.1：根据当前状态

选择/>

，其中，/>

表示t时刻的观测状态，/>

表示第t层的动作，/>

表示第t层的噪声因子；

步骤3.2.2：使用

的剪枝参数优化神经网络模型M，训练模型M一个轮次后，使用

的量化参数优化神经网络模型M，量化公式如下，

，

，前向传播网络模型M，获得动作奖励/>

和新的观测状态/>

，其中，/>

表示t层的量化参数，/>

表示截断参数，/>

表示模型M的权重参数，/>

表示KL散度，/>

模型M在第t层的权重参数，/>

表示截断参数，clamp表示阶段函数，round表示近似函数，/>

表示指数滑动平均因子；

步骤3.2.3：将回放数据

存储于回放缓存/>

中；

步骤3.2.4：从回放缓存

中随机抽样/>

条回放数据；

步骤3.2.5：通过最小化

来更新参数评价网络参数/>

，其中/>

，

；

步骤3.2.6：使用策略梯度更新执行网络参数

，公式如下：

；

步骤3.2.7：更新目标评价网络参数

和目标执行网络参数/>

：/>

，

，t=t+1；

步骤4：使用学习到的执行网络

的剪枝参数对已经训练好的模型M进行剪枝，并训练模型M；

步骤5：重复执行以下步骤直至模型M的参数收敛：

步骤5.1：使用执行网络

的量化参数对模型M进行量化；

步骤5.2：使用

得到，其中/>

，/>

，

，其中，

，/>

，/>

表示全精度教师网络，/>

表示量化学生网络，/>

表示全精度教师网络在，/>

表示量化学生网络，/>

表示神经网络权重的真实值,/>

表示神经网络权重的量化值,/>

表示输入特征的的真实值,/>

表示输入特征的的量化值，/>

代表量化箱，/>

代表均值计算，/>

代表方差计算；/>

步骤6：使用执行网络

的量化参数对模型M进行量化，得到最终的优化模型M。

三、该方法详细描述：

模型M的网络结构层数使用

来表示，多阶段图的层数使用/>

来表示，其中/>

的取值范围为[0,K],/>

的取值范围为[1，L]。

强化学习算法的状态空间细节描述：

第K层图网络特征和时间步

，经过GraphEncoder计算得到强化学习算法第/>

步的观测状态/>

，计算公式为：/>

。

K阶段图的第

层的第/>

个子网络的编码为/>

，计算公式如下：

，其中/>

，/>

，

，/>

，

其中，

,/>

代表第/>

层图的子图集合，/>

代表第/>

层图的方向边，/>

代表第/>

层图的结点隐藏状态。

其中，K阶段图的GraphEncoder分为两个部分：

1、图卷积部分：K阶段图的第

+1层的第/>

个结点的隐藏状态为/>

，计算公式如下，

，其中/>

是结点/>

的邻居节点，/>

是协变量常数，/>

是/>

边上的子网络编码。

2、可学习池化层部分：

，/>

为未被剪枝的集合，/>

代表被剪枝结点集合。

的初始化方式如下：/>

,/>

,

当第

层为卷积层时，/>

,每个参数分别代表网络层数索引，输入通道数，输出通道数，核大小，步长，输入特征尺寸，卷积层参数量，卷积类型索引，第/>

-1时间步的动作；当第/>

层为全连接层时，

,每个参数分别代表网络层数索引，输入隐藏单元数，输出隐藏单元数，固定参数1，固定参数0，输入特征尺寸，全连接层参数量，固定参数0，第/>

-1时间步的动作。

强化学习算法的动作空间细节描述：

表示权重参数第/>

层的量化率，/>

表示输入特征第/>

层的量化率，取值范围为[0,1]，取值范围为[0,1]，/>

表示权重参数第/>

层的剪枝率，取值范围为[0,1)。实际权重参数第/>

层的量化率/>

和实际输入特征第/>

层的量化率/>

的计算公式如下：

，/>

，其中，/>

和/>

分别表示量化位宽的下界和上界。

强化学习算法的奖励函数细节描述：

强化学习算法第

步的奖励计算方法如下，/>

，其中

表示第/>

步优化后的模型的精度，/>

表示原生全精度模型的精度，/>

表示缩放系数，默认设置为0.1。

基于蒸馏和量化熵正则的后训练方法细节描述：

蒸馏部分损失函数计算方法如下：

，

其中

为全精度教师网络，/>

为量化学生网络。

量化熵正则部分损失函数计算方法如下：

，其中，/>

，/>

；/>

表示神经网络权重的真实值,/>

表示神经网络权重的量化值,/>

表示输入特征的的真实值,/>

表示输入特征的的量化值，/>

代表量化箱，/>

代表均值计算，/>

代表方差计算。

本发明实施例提供的一种计算机设备，包括处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述装置运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述任意深度卷积神经网络量化剪枝联合优化的方法的步骤。

具体地，上述存储器和处理器能够为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机程序时，能够执行上述深度卷积神经网络量化剪枝联合优化的方法。

本领域技术人员可以理解，所述计算机设备的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

在一些实施例中，该计算机设备还可以包括触摸屏可用于显示图形用户界面（例如，应用程序的启动界面）和接收用户针对图形用户界面的操作（例如，针对应用程序的启动操作）。具体的触摸屏可包括显示面板和触控面板。其中显示面板可以采用LCD(LiquidCrystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置。触控面板可收集用户在其上或附近的接触或者非接触操作，并生成预先设定的操作指令，例如，用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作。另外，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位、姿势，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成处理器能够处理的信息，再送给处理器，并能接收处理器发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板，也可以采用未来发展的任何技术实现触控面板。进一步的，触控面板可覆盖显示面板，用户可以根据显示面板显示的图形用户界面，在显示面板上覆盖的触控面板上或者附近进行操作，触控面板检测到在其上或附近的操作后，传送给处理器以确定用户输入，随后处理器响应于用户输入在显示面板上提供相应的视觉输出。另外，触控面板与显示面板可以作为两个独立的部件来实现也可以集成而来实现。

对应于上述应用程序的启动方法，本发明实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述任意深度卷积神经网络量化剪枝联合优化的方法的步骤。

本申请实施例所提供的应用程序的启动装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种深度卷积神经网络量化剪枝联合优化的方法，其特征在于，包括以下步骤：

获取待处理对象图像的数据集；

2.根据权利要求1所述的深度卷积神经网络量化剪枝联合优化的方法，其特征在于，所述使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率，包括：

初始化随机噪声、模型观测状态和时间步计数；

基于DDPG算法的策略学习；

3.根据权利要求2所述的深度卷积神经网络量化剪枝联合优化的方法，其特征在于，所述基于DDPG算法的策略学习，包括：

从回放缓存

中随机抽样/>

条回放数据；

通过最小化Q值损失函数来更新参数评价网络参数；

使用策略梯度更新执行网络参数；

更新目标评价网络参数、目标执行网络参数和时间步计数；

4.根据权利要求3所述的深度卷积神经网络量化剪枝联合优化的方法，其特征在于，所述使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码，包括：

5.根据权利要求1所述的深度卷积神经网络量化剪枝联合优化的方法，其特征在于，所述使用基于蒸馏和量化熵正则后训练方法重新训练神经网络，得到优化后的神经网络模型参数，包括：

使用执行网络的量化参数对神经网络模型进行量化；

计算包含蒸馏和量化熵正则两项的损失函数；

6.根据权利要求1-5任意一项所述的深度卷积神经网络量化剪枝联合优化的方法，其特征在于，所述待处理对象包括输电线路隐患分析数据或/和变电站缺陷检测数据。

7.根据权利要求1-5任意一项所述的深度卷积神经网络量化剪枝联合优化的方法，其特征在于，所述深度卷积神经网络为包含多个卷积层的神经网络。

8.一种深度卷积神经网络量化剪枝联合优化的系统，其特征在于，包括：

数据采集模块，用于获取待处理对象图像的数据集；

9.根据权利要求8所述的深度卷积神经网络量化剪枝联合优化的系统，其特征在于，所述强化学习模块，包括：

策略学习模块，用于基于DDPG算法的策略学习；

10.根据权利要求9所述的深度卷积神经网络量化剪枝联合优化的系统，其特征在于，所述策略学习模块，具体用于：

从回放缓存

中随机抽样/>

条回放数据；

通过最小化Q值损失函数来更新参数评价网络参数；

使用策略梯度更新执行网络参数；

更新目标评价网络参数、目标执行网络参数和时间步计数；

11.根据权利要求10所述的深度卷积神经网络量化剪枝联合优化的系统，其特征在于，所述策略学习模块使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码的具体过程为：

12.根据权利要求8所述的深度卷积神经网络量化剪枝联合优化的系统，其特征在于，所述参数优化模块，具体用于：

使用执行网络的量化参数对神经网络模型进行量化；

计算包含蒸馏和量化熵正则两项的损失函数；

13.根据权利要求8-12任意一项所述的深度卷积神经网络量化剪枝联合优化的系统，其特征在于，所述待处理对象包括输电线路隐患分析数据或/和变电站缺陷检测数据。

14.根据权利要求8-12任意一项所述的深度卷积神经网络量化剪枝联合优化的系统，其特征在于，所述深度卷积神经网络为包含多个卷积层的神经网络。

15.一种深度卷积神经网络量化剪枝联合优化的方法在输电线路隐患分析场景或变电站缺陷检测场景实中的应用，用于对隐患进行检测，所述深度卷积神经网络量化剪枝联合优化的方法采用权利要求1~7任一项所述的一种深度卷积神经网络量化剪枝联合优化的方法。

16.一种计算机设备，其特征在于，包括处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-7任一所述的深度卷积神经网络量化剪枝联合优化的方法的步骤。

17.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-7任一所述的深度卷积神经网络量化剪枝联合优化的方法的步骤。