CN113128116B - 可用于轻量级神经网络的纯整型量化方法 - Google Patents

可用于轻量级神经网络的纯整型量化方法 Download PDF

Info

Publication number
CN113128116B
CN113128116B CN202110421738.5A CN202110421738A CN113128116B CN 113128116 B CN113128116 B CN 113128116B CN 202110421738 A CN202110421738 A CN 202110421738A CN 113128116 B CN113128116 B CN 113128116B
Authority
CN
China
Prior art keywords
feature map
channel
weights
layer
maximum value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110421738.5A
Other languages
English (en)
Other versions
CN113128116A (zh
Inventor
姜伟雄
哈亚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ShanghaiTech University
Original Assignee
ShanghaiTech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ShanghaiTech University filed Critical ShanghaiTech University
Priority to CN202110421738.5A priority Critical patent/CN113128116B/zh
Publication of CN113128116A publication Critical patent/CN113128116A/zh
Priority to PCT/CN2021/119513 priority patent/WO2022222369A1/zh
Priority to US17/799,933 priority patent/US11934954B2/en
Application granted granted Critical
Publication of CN113128116B publication Critical patent/CN113128116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明提供了一种可用于轻量级神经网络的纯整型量化方法,其特征在于,包括以下步骤:获得当前一层特征图各通道的像素值的最大值;将特征图每个通道的每一个像素的像素值除以最大值的t次方,t∈[0,1];将权重各通道的值乘以对应特征图通道的像素值的最大值;经过处理的特征图与经过处理的权值卷积后得到下一层特征图。在SkyNet和MobileNet上分别验证了本发明提供的算法,在SkyNet上取得了INT8无损量化,在MobileNetv2上取得了迄今最高的量化精度。

Description

可用于轻量级神经网络的纯整型量化方法
技术领域
本发明涉及一种可用于轻量级神经网络的量化方法。
背景技术
近年,大量工作探究了针对传统模型的量化技术。但是这些技术应用到轻量级网络时会带来较大的精度损失。比如:Jacob Benoit et al.Quantization and training ofneural networks for efficient integer-arithmetic-only inference.In CVPR,pages2704–2713,2018在量化MobileNetv2时在ImageNet数据集精度从73.03%降到0.1%;Raghura Krishnamoorthi.Quantizing deep convolutional networks for efficientinference:A whitepaper.CoRR,abs/1806.08342,2018取得了2%的精度损失。为了恢复这些精度损失,很多工作采用重训练或训练时量化技术。但是这些技术很耗时,并且需要数据集支持。Nagel等人提出了DFQ算法来解决上面提到的问题,他们认为在权重的分布差异导致了传统量化方法在采用了深度分离卷积的模型上表现差。为此,Nagel等人提出了跨层权重均衡,将权重的均衡性在不同的层之间做调整。但是这项技术只能应用在以ReLU作为激活函数的网络模型,但是目前大部分轻量级网络采用了ReLU6。直接将ReLU6替换为ReLU又会造成显著的精度损失。并且Nagel等人提出的方法不适用于纯整型量化。
发明内容
本发明要解决的技术问题是:将轻量级神经网络技术和量化技术简单地组合在一起会导致或者显著的精度下降,或者是较长的重训练时间;此外,目前很多量化方法只将权重和特征图量化,但是偏置和量化系数还是浮点数,这对ASIC/FPGA很不友好。
为了解决上述技术问题,本发明的技术方案是提供了一种可用于轻量级神经网络的纯整型量化方法,其特征在于,包括以下步骤:
步骤1、设特征图有N个通道,N≥1,获得当前一层特征图各通道的像素值的最大值;
步骤2、对特征图每个通道的像素做如下处理:
将特征图第n个通道的每一个像素的像素值除以步骤1获得的第n个通道的最大值的t次方,t∈[0,1];
有N组与下一层特征图的N个通道相对应的权值,每组权值由N个与当前一层特征图的N个通道相对应的权值组成,对每组权值做如下处理:
第n组权值中的N个权值分别对应乘以步骤1获得的N个通道的像素值的最大值;
步骤3、经过步骤2处理的特征图与经过步骤2处理的N组权值卷积后得到下一层特征图。
优选地,当所述t=0时,没有做不均衡性转移;当所述t=1时,将当前一层特征图通道间的不均衡性全部转移到了后一层的权重。
优选地,所述当前一层为轻量级神经网络中除最后一层外的任意一层。
在SkyNet和MobileNet上分别验证了本发明提供的算法,在SkyNet上取得了INT8无损量化,在MobileNetv2上取得了迄今最高的量化精度。
附图说明
图1为1X1卷积做不均衡转移的示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
发明人分析了神经网络的量化流程并对其进行建模,发现张量的均衡性可以作为量化误差的预测指标。在该指标的指引下,本发明提出了可调不均衡转移算法来优化特征图的量化误差,具体包括以下内容:
鉴于目前的神经网络计算模式,权重可以逐通道量化,特征图只能逐层量化,因此权重的量化误差较小,但是特征图的量化误差较大。
本发明将神经网络中当前一层特征图各通道的每一个像素的像素值除以其所在通道的像素值的最大值,再做量化就可以实现等效的逐通道量化。为了保证计算结果不变,与上述特征图做卷积的权重各通道的值要乘以对应特征图通道的像素值的最大值。这样便实现了将当前一层特征图通道间的不均衡性全部转移到了后一层的权重中。
但是在实际情况中,将特征图的通道间不均匀性全部转移并非最优解。为了调节不均衡性转移的程度,本发明额外添加了一个超参数不均衡性转移系数t,在上述步骤中,特征图各通道的每个像素的像素值除以其所在通道的像素值的最大值的t次方,其中t的范围是0到1。当t=0时,相当于没有做不均衡性转移;当t=1时,相当于前文提到的将全部不均衡性转移。通过调节t,本发明可以得到最优的量化精度。这种操作适用于任何网络模型、任意卷积核大小。
图1给出了一个1X1卷积做不均衡转移的示意图,虚线圈出的张量共享同一个量化系数。A1的每个通道的每个像素的像素值分别除以各自通道的像素值的最大值,而后W2对应通道乘以这个最大值,这样计算结果没有别改变,但是A1的均衡性大大增加。与此同时,权重的均衡性没有显著的下降。因此可以降低特征图的量化误差,进而提升模型量化后的精度。

Claims (2)

1.一种可用于轻量级神经网络的纯整型量化方法,其特征在于,包括以下步骤:
步骤1、设特征图有N个通道,N≥1,获得当前一层特征图各通道的像素值的最大值;
步骤2、对特征图每个通道的像素做如下处理:
将特征图第n个通道的每一个像素的像素值除以步骤1获得的第n个通道的最大值的t次方,t∈[0,1];
有N组与下一层特征图的N个通道相对应的权值,每组权值由N个与当前一层特征图的N个通道相对应的权值组成,对每组权值做如下处理:
第n组权值中的N个权值分别对应乘以步骤1获得的N个通道的像素值的最大值;
步骤3、经过步骤2处理的特征图与经过步骤2处理的N组权值卷积后得到下一层特征图;
当所述t=0时,没有做不均衡性转移;当所述t=1时,将当前一层特征图通道间的不均衡性全部转移到了后一层的权重。
2.如权利要求1所述的一种可用于轻量级神经网络的纯整型量化方法,其特征在于,所述当前一层为轻量级神经网络中除最后一层外的任意一层。
CN202110421738.5A 2021-04-20 2021-04-20 可用于轻量级神经网络的纯整型量化方法 Active CN113128116B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110421738.5A CN113128116B (zh) 2021-04-20 2021-04-20 可用于轻量级神经网络的纯整型量化方法
PCT/CN2021/119513 WO2022222369A1 (zh) 2021-04-20 2021-09-22 可用于轻量级神经网络的纯整型量化方法
US17/799,933 US11934954B2 (en) 2021-04-20 2021-09-22 Pure integer quantization method for lightweight neural network (LNN)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110421738.5A CN113128116B (zh) 2021-04-20 2021-04-20 可用于轻量级神经网络的纯整型量化方法

Publications (2)

Publication Number Publication Date
CN113128116A CN113128116A (zh) 2021-07-16
CN113128116B true CN113128116B (zh) 2023-09-26

Family

ID=76779184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110421738.5A Active CN113128116B (zh) 2021-04-20 2021-04-20 可用于轻量级神经网络的纯整型量化方法

Country Status (3)

Country Link
US (1) US11934954B2 (zh)
CN (1) CN113128116B (zh)
WO (1) WO2022222369A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128116B (zh) 2021-04-20 2023-09-26 上海科技大学 可用于轻量级神经网络的纯整型量化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528589A (zh) * 2015-12-31 2016-04-27 上海科技大学 基于多列卷积神经网络的单张图像人群计数算法
WO2018073975A1 (en) * 2016-10-21 2018-04-26 Nec Corporation Improved sparse convolution neural network
CN110930320A (zh) * 2019-11-06 2020-03-27 南京邮电大学 一种基于轻量化卷积神经网络的图像去雾方法
CN111402143A (zh) * 2020-06-03 2020-07-10 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN111937010A (zh) * 2018-03-23 2020-11-13 亚马逊技术股份有限公司 加速的量化乘法和加法运算
CN112560355A (zh) * 2021-02-22 2021-03-26 常州微亿智造科技有限公司 基于卷积神经网络的风洞的马赫数的预测方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003501639A (ja) * 1999-06-03 2003-01-14 ユニバーシティ オブ ワシントン 横断電気泳動および等電点電気泳動法のための微小流体デバイス
WO2005048185A1 (en) * 2003-11-17 2005-05-26 Auckland University Of Technology Transductive neuro fuzzy inference method for personalised modelling
KR102601604B1 (ko) * 2017-08-04 2023-11-13 삼성전자주식회사 뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치
US20210110236A1 (en) * 2018-03-02 2021-04-15 Nec Corporation Inferential device, convolutional operation method, and program
US11755880B2 (en) * 2018-03-09 2023-09-12 Canon Kabushiki Kaisha Method and apparatus for optimizing and applying multilayer neural network model, and storage medium
US10527699B1 (en) * 2018-08-01 2020-01-07 The Board Of Trustees Of The Leland Stanford Junior University Unsupervised deep learning for multi-channel MRI model estimation
US11704555B2 (en) * 2019-06-24 2023-07-18 Baidu Usa Llc Batch normalization layer fusion and quantization method for model inference in AI neural network engine
CN111311538B (zh) * 2019-12-28 2023-06-06 北京工业大学 一种基于卷积神经网络的多尺度轻量化道路路面检测方法
US11477464B2 (en) * 2020-09-16 2022-10-18 Qualcomm Incorporated End-to-end neural network based video coding
CN112418397B (zh) * 2020-11-19 2021-10-26 重庆邮电大学 一种基于轻量级卷积神经网络的图像分类方法
CN112488070A (zh) * 2020-12-21 2021-03-12 上海交通大学 一种面向遥感图像目标检测的神经网络压缩方法
CN113128116B (zh) * 2021-04-20 2023-09-26 上海科技大学 可用于轻量级神经网络的纯整型量化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528589A (zh) * 2015-12-31 2016-04-27 上海科技大学 基于多列卷积神经网络的单张图像人群计数算法
WO2018073975A1 (en) * 2016-10-21 2018-04-26 Nec Corporation Improved sparse convolution neural network
CN111937010A (zh) * 2018-03-23 2020-11-13 亚马逊技术股份有限公司 加速的量化乘法和加法运算
CN110930320A (zh) * 2019-11-06 2020-03-27 南京邮电大学 一种基于轻量化卷积神经网络的图像去雾方法
CN111402143A (zh) * 2020-06-03 2020-07-10 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN112560355A (zh) * 2021-02-22 2021-03-26 常州微亿智造科技有限公司 基于卷积神经网络的风洞的马赫数的预测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于图像融合的实时去雾硬件加速器设计与实现;刘冠宇;《信息科技》;正文 *

Also Published As

Publication number Publication date
US20230196095A1 (en) 2023-06-22
US11934954B2 (en) 2024-03-19
WO2022222369A1 (zh) 2022-10-27
CN113128116A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN111260022B (zh) 一种卷积神经网络全int8定点量化的方法
CN109087273B (zh) 基于增强的神经网络的图像复原方法、存储介质及系统
CN109961396B (zh) 一种基于卷积神经网络的图像超分辨率重建方法
CN113011571B (zh) 基于Transformer模型的INT8离线量化及整数推断方法
CN113052868B (zh) 一种抠图模型训练、图像抠图的方法及装置
CN111696149A (zh) 针对基于cnn的立体匹配算法的量化方法
CN113128116B (zh) 可用于轻量级神经网络的纯整型量化方法
CN111612147A (zh) 深度卷积网络的量化方法
CN109344893B (zh) 一种基于移动终端的图像分类方法
CN114139683A (zh) 一种神经网络加速器模型量化方法
CN112990438B (zh) 基于移位量化操作的全定点卷积计算方法、系统及设备
EP3779801A1 (en) Method for optimizing neural network parameter appropriate for hardware implementation, neural network operation method, and apparatus therefor
CN111985495A (zh) 模型部署方法、装置、系统及存储介质
CN111738427B (zh) 一种神经网络的运算电路
CN112465844A (zh) 一种用于图像语义分割的多类别损失函数及其设计方法
CN113780549A (zh) 溢出感知的量化模型训练方法、装置、介质及终端设备
US11531884B2 (en) Separate quantization method of forming combination of 4-bit and 8-bit data of neural network
CN112465140A (zh) 一种基于分组通道融合的卷积神经网络模型压缩方法
CN115222754A (zh) 一种基于知识蒸馏和对抗学习的镜面图像分割方法
CN108805844B (zh) 一种基于先验滤波的轻量化回归网络构建方法
CN114708496A (zh) 一种基于改进空间池化金字塔的遥感变化检测方法
CN112183726A (zh) 一种神经网络全量化方法及系统
CN110837885B (zh) 一种基于概率分布的Sigmoid函数拟合方法
CN115062690A (zh) 一种基于域自适应网络的轴承故障诊断方法
Sasaki et al. Post training weight compression with distribution-based filter-wise quantization step

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant