CN113688990A

CN113688990A - 用于电力边缘计算分类神经网络的无数据量化训练方法

Info

Publication number: CN113688990A
Application number: CN202111057719.5A
Authority: CN
Inventors: 徐长宝; 辛明勇; 高吉普; 刘卓毅; 王宇; 张历; 申彧; 习伟; 姚浩; 陈军健; 陶伟
Original assignee: Guizhou Power Grid Co Ltd; Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Guizhou Power Grid Co Ltd; Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-11-23

Abstract

本发明公开了一种用于电力边缘计算分类神经网络的无数据量化训练方法，对无训练数据集的情况增加一个生成网络，该生成网络的功能是重建训练数据，用于量化网络的训练；该生成网络根据全精度网络的反馈进行学习，生成的图片具有高的置信度且满足多样性。量化网络根据生成网络生成的图片，参考全精度网络的输出，使用知识蒸馏的方法进行学习；解决了现有技术存在的量化误差导致分类精度严重下降等技术问题。

Description

用于电力边缘计算分类神经网络的无数据量化训练方法

技术领域

本发明属于机器学习神经网络压缩加速技术领域；尤其涉及一种用于电力边缘计算分类神经网络的无数据量化训练方法。

背景技术

随着神经网络的应用越来越广泛，其所搭载的平台也相应扩展到监控摄像头等嵌入式设备。电力嵌入式设备同样需要使用到支持边缘智能计算的神经网络算法处理器单元。嵌入式设备往往对神经网络的功耗和存储空间比较敏感，量化可以对神经网络进行加速和压缩，是实现部署的重要步骤。由于量化会带来量化误差导致精度下降，一般是需要对量化后的网络进行重训练来恢复精度。但是训练数据集一般非常庞大，在很多情况下是不可得的。尤其是在电力应用的神经网络中，由于公司隐私策略等原因，其电网数据属于保密信息，训练数据集不会公开。

现有量化方法需要原始的训练数据集，来对量化后的网络进行重训练，而在缺少训练数据集的情况下是无法进行训练的。其余不需要训练数据集的方法均基于对预训练后的全精度（32位浮点）权值数据进行分析后，对其进行均匀量化。详细来说首先分析神经网络权值的分布，其次计算出一个截断阈值或量化步长，然后对权值进行均匀量化。该阈值的计算方法多种多样，可以是选取最大的权值，也可以是通过权值分布的均值和方差计算得出等。这些不需要训练数据的方法存在的缺陷在于当使用较少比特进行量化时，往往由于过大的量化误差导致分类精度严重下降。

发明内容

本发明要解决的技术问题：提供一种用于电力边缘计算分类神经网络的无数据量化训练方法，以解决现有技术存在的量化误差导致分类精度严重下降等技术问题。

本发明技术方案：

一种用于电力边缘计算分类神经网络的无数据量化训练方法，对无训练数据集的情况增加一个生成网络，该生成网络的功能是重建训练数据，用于量化网络的训练。

生成网络的训练是通过将生成的图片输入预训练好的全精度网络，通过全精度网络的输出来衡量生成的图片质量计算损失函数，进而计算梯度更新参数。

衡量标准包括置信度和多样性；置信度即为全精度网络认为该生成图片属于某一类的概率，多样性指的是一张以上生成图片属于不同的类别，类别包含预训练好的全精度网络的所有类别，并且生成每一类图片的概率相同。

衡量标准还包括：让生成的图片和用于训练全精度网络图片之间的分布尽可能类似。

量化网络将全精度网络的输出作为标注，采用知识蒸馏的方法，计算量化网络的损失函数，再通过该损失函数计算梯度，进而更新自身参数。

量化网络使用全精度网络的参数进行初始化，先训练生成网络，再共同训练生成网络和量化网络。

训练生成网络的方法为：训练时首先进行正向传播，生成网络输入高斯噪声生成训练图片，全精度网络和量化网络根据生成的训练图片给出自身的分类结果，根据全精度网络的分类结果评估图片质量计算损失函数；再进行反向传播，生成网络根据全精度网络的图片质量计算梯度更新自身参数。

量化网络的训练方法为：训练过程先进行正向传播，量化网络根据生成网络生成的图片输出分类结果，对比全精度网络和量化网络的分类结果计算知识蒸馏损失函数；再进行反向传播，计算量化网络参数的梯度，并更新量化网络参数。

本发明的有益效果：

本发明对无训练数据集的情况下提出额外增加一个生成网络；生成网络的功能就是重建训练数据，用于量化网络的训练；该生成网络的作用就是根据预训练的全精度网络，重建训练数据集，用于训练量化网络；训练方式采用正向传播和反向传播。

本发明对量化网络重新进行了训练而不是直接均匀量化；使用生成网络提取全精度网络中存储的信息也优于人为地去分析全精度网络权值的分布，使其能更好地将信息传递到量化后的网络中，因此能够在较低比特的量化中也能够取得较高的分类精度

解决了现有技术存在的量化误差导致分类精度严重下降等技术问题。

附图说明

图1 为本发明整体结构框图；

图2 为本发明训练流程图。

具体实施方式

本发明对无训练数据集的情况下提出额外增加一个生成网络，该生成网络的功能就是重建训练数据，用于量化网络的训练。该生成网络根据全精度网络的反馈进行学习，生成的图片具有高的置信度且满足多样性。量化网络根据生成网络生成的图片，参考全精度网络的输出，使用知识蒸馏的方法进行学习。该方法的优势在于对量化网络重新进行了训练而不是直接均匀量化。使用生成网络提取全精度网络中存储的信息也优于人为地去分析全精度网络权值的分布，使其能更好地将信息传递到量化后的网络中，因此能够在较低比特例如4比特整型的量化中也能够取得较高的分类精度。

具体描述为：分类神经网络的训练属于监督学习的范畴，即其训练数据是由多组输入输出对组成的，分类任务中输入即为图片，输出即为即为该图片属于哪一类的标注。在仅有预训练好的全精度网络，而无数据的情况下，为了训练量化网络，需要分别解决如何生成图片和标注两个问题。

为了解决图片问题，本发明采用额外引入一个生成网络（Generator）来生成图片，见图1，对于该生成网络的训练是通过将其生成的图片输入预训练好的全精度网络，通过全精度网络的输出来衡量生成的图片质量计算损失函数，进而计算梯度更新参数。衡量标准一般包括较高的置信度和多样性等。置信度即为全精度网络认为该生成图片属于某一类的概率，多样性指的是多张生成图片属于不同的类别，其类别应包含预训练全精度分类网络的所有类别，并且生成每一类图片的概率应大致相同。此外，为了进一步提升图片质量，该衡量标准还可以包括，让生成的图片和用于训练全精度网络图片之间的分布尽可能类似；采用对抗的方法，使得量化网络学习地更快等。虚线框内为量化网络的训练，

为了解决标注问题，量化网络可以将全精度网络的输出作为标注，采用现有的知识蒸馏（knowledge distillation）的方法，计算量化网络的损失函数，再通过该损失函数计算梯度，进而更新自身参数。（此处的知识蒸馏方法不是本发明的创新点，只是将其应用到本发明中）

综上，本发明的一种用于分类神经网络的无数据量化训练方法提出整体框架图（图1）。神经网络的训练分为正向传播和反向传播两个步骤，正向传播获得分类结果，反向传播计算梯度更新参数。图中实线箭头为正向传播的过程：图片经过神经网络计算出分类结果，进而计算出损失函数；虚线箭头为反向传播的过程：根据损失函数，计算出神经网络参数的梯度，沿着上图中的箭头反方向进行传播。

图1总共包括对两三个网络的训练：全精度网络，生成网络和量化网络。全精度网络已预先训练，因此参数为固定值不进行训练。量化网络和生成网络可以共同训练，也可以先训练生成网络，再共同训练生成网络和量化网络。具体流程见图2，若量化网络为随机初始化（分支左路）则共同训练。若量化网络使用全精度网络的参数进行初始化（分支右路），量化网络有一定的分类能力，如果直接使用随机初始化的生成网络生成的图片对其训练，反而会导致量化网络性能变差。因此本发明将训练流程分为两步，即先训练生成网络，再共同训练生成网络和量化网络。训练生成网络的阶段本发明称之为预热阶段，该阶段可以不需要图1虚线框中的量化网络。预热好之后再将量化网络加入共同训练，由于该训练阶段只需要轻微修改参数即可，学习率设置较小，本发明称该阶段为微调阶段。建议使用全精度参数对量化网络进行初始化（分支右路），该初始化方式分类结果（accuracy）较高，收敛也较快。

此处以ResNet20网络在CIFAR10数据集上为例，选取DCGAN中的生成网络，使用全精度参数初始化量化网络介绍具体实施方式，即图2中的右路分支。预热阶段，训练时首先进行正向传播，生成网络输入高斯噪声生成训练图片，全精度网络和量化网络根据生成的训练图片给出自身的分类结果，根据全精度网络的分类结果评估图片质量计算损失函数。再进行反向传播，生成网络根据全精度网络的图片质量计算梯度更新自身参数。微调阶段，训练过程同样先进行正向传播，量化网络根据生成网络生成的图片输出分类结果，对比全精度网络和量化网络的分类结果计算知识蒸馏损失函数。再进行反向传播，计算量化网络参数的梯度，并更新量化网络参数。预热阶段跑200轮循环（epoch），微调阶段跑40轮循环（epoch）。而预热好的生成网络可以被不同精度的量化网络所共享。因此训练1到8比特这8种精度需要的总时间为200+8*40=520轮循环。本发明ResNet20网络在CIFAR10数据集的4比特量化结果可以控制在比全精度结果下降1%以内。

Claims

1.一种用于电力边缘计算分类神经网络的无数据量化训练方法，其特征在于：对无训练数据集的情况增加一个生成网络，该生成网络的功能是重建训练数据，用于量化网络的训练。

2.根据权利要求1所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法，其特征在于：生成网络的训练是通过将生成的图片输入预训练好的全精度网络，通过全精度网络的输出来衡量生成的图片质量计算损失函数，进而计算梯度更新参数。

3.根据权利要求2所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法，其特征在于：衡量标准包括置信度和多样性；置信度即为全精度网络认为该生成图片属于某一类的概率，多样性指的是一张以上生成图片属于不同的类别，类别包含预训练好的全精度网络的所有类别，并且生成每一类图片的概率相同。

4.根据权利要求3所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法，其特征在于：衡量标准还包括：让生成的图片和用于训练全精度网络图片之间的分布尽可能类似。

5.根据权利要求1所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法，其特征在于：量化网络将全精度网络的输出作为标注，采用知识蒸馏的方法，计算量化网络的损失函数，再通过该损失函数计算梯度，进而更新自身参数。

6.根据权利要求1所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法，其特征在于：量化网络使用全精度网络的参数进行初始化，先训练生成网络，再共同训练生成网络和量化网络。

7.根据权利要求6所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法，其特征在于：训练生成网络的方法为：训练时首先进行正向传播，生成网络输入高斯噪声生成训练图片，全精度网络和量化网络根据生成的训练图片给出自身的分类结果，根据全精度网络的分类结果评估图片质量计算损失函数；再进行反向传播，生成网络根据全精度网络的图片质量计算梯度更新自身参数。

8.根据权利要求6所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法，其特征在于：量化网络的训练方法为：训练过程先进行正向传播，量化网络根据生成网络生成的图片输出分类结果，对比全精度网络和量化网络的分类结果计算知识蒸馏损失函数；再进行反向传播，计算量化网络参数的梯度，并更新量化网络参数。