CN113688990A - 用于电力边缘计算分类神经网络的无数据量化训练方法 - Google Patents
用于电力边缘计算分类神经网络的无数据量化训练方法 Download PDFInfo
- Publication number
- CN113688990A CN113688990A CN202111057719.5A CN202111057719A CN113688990A CN 113688990 A CN113688990 A CN 113688990A CN 202111057719 A CN202111057719 A CN 202111057719A CN 113688990 A CN113688990 A CN 113688990A
- Authority
- CN
- China
- Prior art keywords
- network
- training
- full
- precision
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 20
- 238000004364 calculation method Methods 0.000 title claims abstract description 8
- 238000013139 quantization Methods 0.000 claims abstract description 44
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 22
- 238000011002 quantification Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于电力边缘计算分类神经网络的无数据量化训练方法,对无训练数据集的情况增加一个生成网络,该生成网络的功能是重建训练数据,用于量化网络的训练;该生成网络根据全精度网络的反馈进行学习,生成的图片具有高的置信度且满足多样性。量化网络根据生成网络生成的图片,参考全精度网络的输出,使用知识蒸馏的方法进行学习;解决了现有技术存在的量化误差导致分类精度严重下降等技术问题。
Description
技术领域
本发明属于机器学习神经网络压缩加速技术领域;尤其涉及一种用于电力边缘计算分类神经网络的无数据量化训练方法。
背景技术
随着神经网络的应用越来越广泛,其所搭载的平台也相应扩展到监控摄像头等嵌入式设备。电力嵌入式设备同样需要使用到支持边缘智能计算的神经网络算法处理器单元。嵌入式设备往往对神经网络的功耗和存储空间比较敏感,量化可以对神经网络进行加速和压缩,是实现部署的重要步骤。由于量化会带来量化误差导致精度下降,一般是需要对量化后的网络进行重训练来恢复精度。但是训练数据集一般非常庞大,在很多情况下是不可得的。尤其是在电力应用的神经网络中,由于公司隐私策略等原因,其电网数据属于保密信息,训练数据集不会公开。
现有量化方法需要原始的训练数据集,来对量化后的网络进行重训练,而在缺少训练数据集的情况下是无法进行训练的。其余不需要训练数据集的方法均基于对预训练后的全精度(32位浮点)权值数据进行分析后,对其进行均匀量化。详细来说首先分析神经网络权值的分布,其次计算出一个截断阈值或量化步长,然后对权值进行均匀量化。该阈值的计算方法多种多样,可以是选取最大的权值,也可以是通过权值分布的均值和方差计算得出等。这些不需要训练数据的方法存在的缺陷在于当使用较少比特进行量化时,往往由于过大的量化误差导致分类精度严重下降。
发明内容
本发明要解决的技术问题:提供一种用于电力边缘计算分类神经网络的无数据量化训练方法,以解决现有技术存在的量化误差导致分类精度严重下降等技术问题。
本发明技术方案:
一种用于电力边缘计算分类神经网络的无数据量化训练方法,对无训练数据集的情况增加一个生成网络,该生成网络的功能是重建训练数据,用于量化网络的训练。
生成网络的训练是通过将生成的图片输入预训练好的全精度网络,通过全精度网络的输出来衡量生成的图片质量计算损失函数,进而计算梯度更新参数。
衡量标准包括置信度和多样性;置信度即为全精度网络认为该生成图片属于某一类的概率,多样性指的是一张以上生成图片属于不同的类别,类别包含预训练好的全精度网络的所有类别,并且生成每一类图片的概率相同。
衡量标准还包括:让生成的图片和用于训练全精度网络图片之间的分布尽可能类似。
量化网络将全精度网络的输出作为标注,采用知识蒸馏的方法,计算量化网络的损失函数,再通过该损失函数计算梯度,进而更新自身参数。
量化网络使用全精度网络的参数进行初始化,先训练生成网络,再共同训练生成网络和量化网络。
训练生成网络的方法为:训练时首先进行正向传播,生成网络输入高斯噪声生成训练图片,全精度网络和量化网络根据生成的训练图片给出自身的分类结果,根据全精度网络的分类结果评估图片质量计算损失函数;再进行反向传播,生成网络根据全精度网络的图片质量计算梯度更新自身参数。
量化网络的训练方法为:训练过程先进行正向传播,量化网络根据生成网络生成的图片输出分类结果,对比全精度网络和量化网络的分类结果计算知识蒸馏损失函数;再进行反向传播,计算量化网络参数的梯度,并更新量化网络参数。
本发明的有益效果:
本发明对无训练数据集的情况下提出额外增加一个生成网络;生成网络的功能就是重建训练数据,用于量化网络的训练;该生成网络的作用就是根据预训练的全精度网络,重建训练数据集,用于训练量化网络;训练方式采用正向传播和反向传播。
本发明对量化网络重新进行了训练而不是直接均匀量化;使用生成网络提取全精度网络中存储的信息也优于人为地去分析全精度网络权值的分布,使其能更好地将信息传递到量化后的网络中,因此能够在较低比特的量化中也能够取得较高的分类精度
解决了现有技术存在的量化误差导致分类精度严重下降等技术问题。
附图说明
图1 为本发明整体结构框图;
图2 为本发明训练流程图。
具体实施方式
本发明对无训练数据集的情况下提出额外增加一个生成网络,该生成网络的功能就是重建训练数据,用于量化网络的训练。该生成网络根据全精度网络的反馈进行学习,生成的图片具有高的置信度且满足多样性。量化网络根据生成网络生成的图片,参考全精度网络的输出,使用知识蒸馏的方法进行学习。该方法的优势在于对量化网络重新进行了训练而不是直接均匀量化。使用生成网络提取全精度网络中存储的信息也优于人为地去分析全精度网络权值的分布,使其能更好地将信息传递到量化后的网络中,因此能够在较低比特例如4比特整型的量化中也能够取得较高的分类精度。
具体描述为:分类神经网络的训练属于监督学习的范畴,即其训练数据是由多组输入输出对组成的,分类任务中输入即为图片,输出即为即为该图片属于哪一类的标注。在仅有预训练好的全精度网络,而无数据的情况下,为了训练量化网络,需要分别解决如何生成图片和标注两个问题。
为了解决图片问题,本发明采用额外引入一个生成网络(Generator)来生成图片,见图1,对于该生成网络的训练是通过将其生成的图片输入预训练好的全精度网络,通过全精度网络的输出来衡量生成的图片质量计算损失函数,进而计算梯度更新参数。衡量标准一般包括较高的置信度和多样性等。置信度即为全精度网络认为该生成图片属于某一类的概率,多样性指的是多张生成图片属于不同的类别,其类别应包含预训练全精度分类网络的所有类别,并且生成每一类图片的概率应大致相同。此外,为了进一步提升图片质量,该衡量标准还可以包括,让生成的图片和用于训练全精度网络图片之间的分布尽可能类似;采用对抗的方法,使得量化网络学习地更快等。虚线框内为量化网络的训练,
为了解决标注问题,量化网络可以将全精度网络的输出作为标注,采用现有的知识蒸馏(knowledge distillation)的方法,计算量化网络的损失函数,再通过该损失函数计算梯度,进而更新自身参数。(此处的知识蒸馏方法不是本发明的创新点,只是将其应用到本发明中)
综上,本发明的一种用于分类神经网络的无数据量化训练方法提出整体框架图(图1)。神经网络的训练分为正向传播和反向传播两个步骤,正向传播获得分类结果,反向传播计算梯度更新参数。图中实线箭头为正向传播的过程:图片经过神经网络计算出分类结果,进而计算出损失函数;虚线箭头为反向传播的过程:根据损失函数,计算出神经网络参数的梯度,沿着上图中的箭头反方向进行传播。
图1总共包括对两三个网络的训练:全精度网络,生成网络和量化网络。全精度网络已预先训练,因此参数为固定值不进行训练。量化网络和生成网络可以共同训练,也可以先训练生成网络,再共同训练生成网络和量化网络。具体流程见图2,若量化网络为随机初始化(分支左路)则共同训练。若量化网络使用全精度网络的参数进行初始化(分支右路),量化网络有一定的分类能力,如果直接使用随机初始化的生成网络生成的图片对其训练,反而会导致量化网络性能变差。因此本发明将训练流程分为两步,即先训练生成网络,再共同训练生成网络和量化网络。训练生成网络的阶段本发明称之为预热阶段,该阶段可以不需要图1虚线框中的量化网络。预热好之后再将量化网络加入共同训练,由于该训练阶段只需要轻微修改参数即可,学习率设置较小,本发明称该阶段为微调阶段。建议使用全精度参数对量化网络进行初始化(分支右路),该初始化方式分类结果(accuracy)较高,收敛也较快。
此处以ResNet20网络在CIFAR10数据集上为例,选取DCGAN中的生成网络,使用全精度参数初始化量化网络介绍具体实施方式,即图2中的右路分支。预热阶段,训练时首先进行正向传播,生成网络输入高斯噪声生成训练图片,全精度网络和量化网络根据生成的训练图片给出自身的分类结果,根据全精度网络的分类结果评估图片质量计算损失函数。再进行反向传播,生成网络根据全精度网络的图片质量计算梯度更新自身参数。微调阶段,训练过程同样先进行正向传播,量化网络根据生成网络生成的图片输出分类结果,对比全精度网络和量化网络的分类结果计算知识蒸馏损失函数。再进行反向传播,计算量化网络参数的梯度,并更新量化网络参数。预热阶段跑200轮循环(epoch),微调阶段跑40轮循环(epoch)。而预热好的生成网络可以被不同精度的量化网络所共享。因此训练1到8比特这8种精度需要的总时间为200+8*40=520轮循环。本发明ResNet20网络在CIFAR10数据集的4比特量化结果可以控制在比全精度结果下降1%以内。
Claims (8)
1.一种用于电力边缘计算分类神经网络的无数据量化训练方法,其特征在于:对无训练数据集的情况增加一个生成网络,该生成网络的功能是重建训练数据,用于量化网络的训练。
2.根据权利要求1所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法,其特征在于:生成网络的训练是通过将生成的图片输入预训练好的全精度网络,通过全精度网络的输出来衡量生成的图片质量计算损失函数,进而计算梯度更新参数。
3.根据权利要求2所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法,其特征在于:衡量标准包括置信度和多样性;置信度即为全精度网络认为该生成图片属于某一类的概率,多样性指的是一张以上生成图片属于不同的类别,类别包含预训练好的全精度网络的所有类别,并且生成每一类图片的概率相同。
4.根据权利要求3所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法,其特征在于:衡量标准还包括:让生成的图片和用于训练全精度网络图片之间的分布尽可能类似。
5.根据权利要求1所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法,其特征在于:量化网络将全精度网络的输出作为标注,采用知识蒸馏的方法,计算量化网络的损失函数,再通过该损失函数计算梯度,进而更新自身参数。
6.根据权利要求1所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法,其特征在于:量化网络使用全精度网络的参数进行初始化,先训练生成网络,再共同训练生成网络和量化网络。
7.根据权利要求6所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法,其特征在于:训练生成网络的方法为:训练时首先进行正向传播,生成网络输入高斯噪声生成训练图片,全精度网络和量化网络根据生成的训练图片给出自身的分类结果,根据全精度网络的分类结果评估图片质量计算损失函数;再进行反向传播,生成网络根据全精度网络的图片质量计算梯度更新自身参数。
8.根据权利要求6所述的一种用于电力边缘计算分类神经网络的无数据量化训练方法,其特征在于:量化网络的训练方法为:训练过程先进行正向传播,量化网络根据生成网络生成的图片输出分类结果,对比全精度网络和量化网络的分类结果计算知识蒸馏损失函数;再进行反向传播,计算量化网络参数的梯度,并更新量化网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111057719.5A CN113688990A (zh) | 2021-09-09 | 2021-09-09 | 用于电力边缘计算分类神经网络的无数据量化训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111057719.5A CN113688990A (zh) | 2021-09-09 | 2021-09-09 | 用于电力边缘计算分类神经网络的无数据量化训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113688990A true CN113688990A (zh) | 2021-11-23 |
Family
ID=78586205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111057719.5A Pending CN113688990A (zh) | 2021-09-09 | 2021-09-09 | 用于电力边缘计算分类神经网络的无数据量化训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688990A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019157251A1 (en) * | 2018-02-09 | 2019-08-15 | Google Llc | Neural network compression |
CN110276451A (zh) * | 2019-06-28 | 2019-09-24 | 南京大学 | 一种基于权重归一化的深度神经网络压缩方法 |
CN111008694A (zh) * | 2019-12-02 | 2020-04-14 | 许昌北邮万联网络技术有限公司 | 基于深度卷积对抗生成网络的无数据模型量化压缩方法 |
CN111382788A (zh) * | 2020-03-06 | 2020-07-07 | 西安电子科技大学 | 基于二值量化网络的高光谱图像分类方法 |
CN111985523A (zh) * | 2020-06-28 | 2020-11-24 | 合肥工业大学 | 基于知识蒸馏训练的2指数幂深度神经网络量化方法 |
CN112101544A (zh) * | 2020-08-21 | 2020-12-18 | 清华大学 | 适用于长尾分布数据集的神经网络的训练方法和装置 |
CN112434793A (zh) * | 2020-11-23 | 2021-03-02 | 中国科学院上海微系统与信息技术研究所 | 量化卷积神经网络的生成方法、装置、设备及存储介质 |
CN113112020A (zh) * | 2021-03-25 | 2021-07-13 | 厦门大学 | 一种基于生成网络与知识蒸馏的模型网络提取和压缩方法 |
-
2021
- 2021-09-09 CN CN202111057719.5A patent/CN113688990A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019157251A1 (en) * | 2018-02-09 | 2019-08-15 | Google Llc | Neural network compression |
CN110276451A (zh) * | 2019-06-28 | 2019-09-24 | 南京大学 | 一种基于权重归一化的深度神经网络压缩方法 |
CN111008694A (zh) * | 2019-12-02 | 2020-04-14 | 许昌北邮万联网络技术有限公司 | 基于深度卷积对抗生成网络的无数据模型量化压缩方法 |
CN111382788A (zh) * | 2020-03-06 | 2020-07-07 | 西安电子科技大学 | 基于二值量化网络的高光谱图像分类方法 |
CN111985523A (zh) * | 2020-06-28 | 2020-11-24 | 合肥工业大学 | 基于知识蒸馏训练的2指数幂深度神经网络量化方法 |
CN112101544A (zh) * | 2020-08-21 | 2020-12-18 | 清华大学 | 适用于长尾分布数据集的神经网络的训练方法和装置 |
CN112434793A (zh) * | 2020-11-23 | 2021-03-02 | 中国科学院上海微系统与信息技术研究所 | 量化卷积神经网络的生成方法、装置、设备及存储介质 |
CN113112020A (zh) * | 2021-03-25 | 2021-07-13 | 厦门大学 | 一种基于生成网络与知识蒸馏的模型网络提取和压缩方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gholami et al. | A survey of quantization methods for efficient neural network inference | |
US20190095777A1 (en) | Method and apparatus for quantizing artificial neural network | |
KR102656006B1 (ko) | 심층 다항식 네트워크를 사용하는 암호화된 데이터의 분산 및 협업 분석 | |
Tang et al. | 1-bit adam: Communication efficient large-scale training with adam’s convergence speed | |
Rudi et al. | Falkon: An optimal large scale kernel method | |
US20190147322A1 (en) | Method and apparatus for quantizing artificial neural network | |
KR20190068255A (ko) | 고정 소수점 뉴럴 네트워크를 생성하는 방법 및 장치 | |
Acharya et al. | Distributed learning with sublinear communication | |
CN115398450A (zh) | 使用基于样本的正则化技术的迁移学习设备和方法 | |
KR20200049422A (ko) | 시뮬레이션-가이드된 반복적 프루닝을 사용하는 효율적인 네트워크 압축 | |
CN112884146A (zh) | 一种训练基于数据量化与硬件加速的模型的方法及系统 | |
Zhang et al. | Distributed adversarial training to robustify deep neural networks at scale | |
Kummer et al. | Adaptive Precision Training (AdaPT): A dynamic quantized training approach for DNNs | |
CN113688990A (zh) | 用于电力边缘计算分类神经网络的无数据量化训练方法 | |
CN114830137A (zh) | 用于生成预测模型的方法和系统 | |
Xu et al. | Optimal gradient quantization condition for communication-efficient distributed training | |
Tang et al. | Apmsqueeze: A communication efficient adam-preconditioned momentum sgd algorithm | |
US20210358179A1 (en) | Method and apparatus for feature substitution for end-to-end image compression | |
CN114511069A (zh) | 一种提高低比特量化模型性能的方法和系统 | |
CN114358280A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
WO2022103291A1 (en) | Method and system for quantizing a neural network | |
Chinrungrueng | Evaluation of heterogeneous architectures for artificial neural networks | |
Jiang et al. | Single-shot pruning and quantization for hardware-friendly neural network acceleration | |
Yvinec et al. | Designing strong baselines for ternary neural network quantization through support and mass equalization | |
WO2022217856A1 (en) | Methods, devices and media for re-weighting to improve knowledge distillation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |