CN116957045B - 基于最优传输理论的神经网络量化方法、系统及电子设备 - Google Patents
基于最优传输理论的神经网络量化方法、系统及电子设备 Download PDFInfo
- Publication number
- CN116957045B CN116957045B CN202311218377.XA CN202311218377A CN116957045B CN 116957045 B CN116957045 B CN 116957045B CN 202311218377 A CN202311218377 A CN 202311218377A CN 116957045 B CN116957045 B CN 116957045B
- Authority
- CN
- China
- Prior art keywords
- rounding
- neural network
- interval
- optimal
- scaling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000013139 quantization Methods 0.000 title claims abstract description 55
- 230000005540 biological transmission Effects 0.000 title claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 38
- 238000013507 mapping Methods 0.000 claims abstract description 34
- 239000002356 single layer Substances 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 238000005381 potential energy Methods 0.000 claims abstract description 19
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 56
- 239000010410 layer Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000005192 partition Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010276 construction Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/483—Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Nonlinear Science (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供基于最优传输理论的神经网络量化方法、系统及电子设备,包括:确定训练后的浮点数神经网络模型中待量化的浮点数权重,经过放缩操作后得到放缩权重;用随机变量X和P表示单层神经网络的放缩权重和取整后的缩放权重;将取整操作看为区间Ω到整数点集S的取整映射,根据设计的区间划分算法以及关于Brenier势能函数与能量函数的优化算法,求解得到最优取整映射和划分的取整区间;根据划分的取整区间进行取整操作,得到取整后的放缩权重;取整后的放缩权重进行反量化操作,得到量化后的神经网络权重,进而获得量化后的神经网络。该方法在降低对计算机的资源需求的基础上,提高量化后神经网络处理图像数据效果。
Description
技术领域
本发明属于机器视觉技术领域,具体涉及一种基于最优传输理论的神经网络量化方法、系统及电子设备。
背景技术
机器视觉是人工智能正在快速发展的一个分支。简单说来,机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品将被摄取目标转换成图像信号,传送给专用的图像处理系统,得到被摄目标的形态信息,根据像素分布和亮度、颜色等信息,转变成数字化信号;图像系统对这些信号采用深度神经网络等方法来抽取目标的特征,进而根据判别的结果来控制现场的设备动作。
在过去十年中,深度神经网络对各种问题的准确性有了很大提高,但这往往是通过高度过度参数化的模型实现的,其庞大的参数存储导致模型很难在计算资源受限的计算机中部署,严重制约着深度网络在业界的应用。因此在应用上,提高深度神经网络的普适性将对实时智能医疗监控、自动驾驶、音频分析和语音识别等广泛的应用产生重大影响。为了保证较高的精度,计算机中大部分的科学运算都是采用浮点型进行计算,常见的是float32和float64。量化是将以往用32bit或者64bit表达的浮点数用1bit、2bit占用较少内存空间的形式进行存储,是指将信号的连续取值近似为有限多个离散值的过程,可理解成一种信息压缩的方法。
由于模型量化是一种近似算法方法,精度损失是一个严峻的问题,尤其是在机器视觉领域,对于图像的识别和处理方面,虽然降低了对计算机的资源需求的,但在识别、预测的准确度上产生一定的影响,如何合理地量化参数设置来降低精度损失是亟待解决的问题。
发明内容
为解决如何减少量化操作所带来深度神经网络的精度损失问题,本发明提供基于最优传输理论的神经网络量化方法、系统及电子设备,提出如下的技术方案:
一种基于最优传输理论的神经网络量化方法,包括以下步骤:
获得训练后的神经网络,得到浮点数神经网络模型,确定浮点数神经网络模型中待量化的浮点数参数,即浮点数权重,经过放缩操作后得到放缩权重;
对于每一层的神经网络中的放缩权重的矩阵形式展开为向量形式,确定取值范围,即区间Ω;用随机变量X表示单层神经网络的放缩权重,根据单层权重的正态分布假设,随机变量X服从区间Ω内的截尾正态分布,概率测度为μ;
用随机变量P表示取整后的单层神经网络的放缩权重,区间Ω中的整数点集S作为样本空间,并为随机变量P赋予Dirac测度ν;其中,随机变量X的总概率测度等于随机变量P的总概率测度;
将取整操作看为区间Ω到整数点集S的取整映射,利用最优传输理论的结果,证明存在一个最优的取整映射满足最小化取整代价;
根据区间划分算法以及关于Brenier势能函数与能量函数的优化算法,求解得到最优取整映射和划分的取整区间;
根据划分的取整区间进行取整操作,得到取整后的放缩权重;
取整后的放缩权重进行反量化操作,得到量化后的神经网络权重,进而获得量化后的神经网络。
优选地,所述用随机变量X表示单层神经网络的放缩权重,根据单层权重的正态分布假设,随机变量X服从在区间Ω内的截尾正态分布,概率测度为μ,包括以下步骤:
若该层神经网络中有m个放缩权重,将该层神经网络中的m个放缩权重的矩阵形式按元素展开记作,放缩权重取值范围为/>,记为/>,R为实数,/>是超参数;
将放缩权重的m个分量作为随机变量X的m个样本点,从而X的样本空间为;
根据单层权重的正态分布假设,随机变量X服从均值为,方差为/>的正态分布,其中/>,其概率测度记为μ。
优选地,所述用随机变量P表示取整后的单层神经网络的放缩权重,区间Ω中的整数点集S作为样本空间,包括以下步骤:
对于这一层神经网络取整后的放缩权重对应的取整点记为/>;
将看作随机变量P,样本空间/>,即/>是Ω中的整数点,S是Ω中所有整数点组成的集合,n为Ω中整数点的个数,Z表示整数。
优选地,所述随机变量P赋予Dirac测度ν为:
式中,δ为狄拉克函数;
即Dirac测度满足令随机变量P的总概率测度等于随机变量X的总概率测度。
优选地,所述将取整操作看为区间Ω到整数点集S的取整映射T#,即:
根据最优传输理论,存在一个最优的取整映射T满足最小化取整代价E(T):
计算时最优映射T的求解依赖于Brenier势能函数u,其中,u是一个凸函数,且;最优映射T满足/>,且/>。
优选地,所述Brenier势能函数u的求解包括以下步骤:
确定的形式,对于每一个取整点/>,设其对应一个截距/>,考虑构造一条直线/>,所有/>对应的这样的直线/>形成的上包络即为/>:
其中,上包络为一个凸多边形,恰为Brenier势能函数的图;在最优传输理论中,这个上包络在Ω上的投影形成了Ω的一个胞腔分解,即/>;
实际上这个投影形成区间的一种取整划分:每个对应的划分区间是胞腔,胞腔中的元素均取整为/>;
构建能量函数,/>是凸函数,最优取整区间对应的最优截距是满足最小化/>的解:
设计优化算法通过最小化能量函数求解最优截距h,通过求解凸多面形的取整区间划分的方法求解形成的胞腔分解/>,即对区间的取整划分。
优选地,所述区间划分算法为求解凸多面形的取整区间划分的方法和最小化能量函数的优化算法,包括以下步骤:
对指定的截距h,求解Brenier势能函数形成的取整划分/>;
取整区间划分算法是基于求解凸多面形设计的,根据设计的取整区间划分算法得到分割点集C,进而对区间进行分割得到划分区间;
具体为:
定义关于截距h的两个函数去计算区间的划分点,对任意两个取整点/>,其中/>且/>,对应的函数为/>,其计算公式为:
对任意的取整点,对应的函数为/>,其计算公式为:
另外设定,记/>为负数取整点的个数,/>为正数取整点的个数,构建区间划分点的集合/>,其中是取整点为负数的区间划分点集,是取整点为正数的区间划分点集,最终在截距为h时的取整区间为:
通过能量函数优化算法求解最优截距h,包括以下步骤:
通过优化方法求解最小化能量函数E(h)的截距,即最优截距h;所述优化方法为梯度下降法;所述能量函数E(h)的梯度如下式:
其中将对Dirac测度的构造记为,记/>为第i个划分区间中样本点的个数,Dirac测度为:
。
优选地,所述凸多面形的取整区间划分的方法,包括以下步骤:
输入截距h、取整点集S和函数,以及参数N和bound;其中,/>;bound=[α,β];
初始化集合;
将α加入,β加入/>;计算m,m=[mL,mR],mL=Xi+1(h),mR=Xj+1(h);
初始化K=-1,执行K=K+1,当K≤1,清空stack[],计算left,right;其中,left=min(m[K],bound[K]),right=max(m[K],bound[K]);
当i=N[K]→0,循环执行:
如果stack为空,将clamp(left,XnL+1+i(h),right)加入C[K];将加入stack;s=stack[-1];
如果abs(XnL+1+i(h))≥abs(XnL+1+s(h)),将clamp(left,XnL+1+s(h),right)加入C[K];将加入stack;
否则,将clamp(left,XnL+1+i(h),right)加入C[K];将加入stack;
最终输出集合C;
其中,C[K],m[K],N[K],S[i]符号均表示数据的索引。
一种基于最优传输理论的神经网络量化装置,包括:
初始量化对象确定模块,用于训练后的浮点数神经网络,得到浮点数神经网络模型,确定浮点数神经网络模型中待量化的浮点数参数,即浮点数权重;
量化计算模块,用于将浮点数权重经过放缩操作处理为放缩权重;还用于对于每一层的神经网络中的放缩权重的矩阵形式展开为向量形式sw,并确定其取值范围,即区间Ω;用随机变量X表示单层神经网络的放缩权重sw,根据单层权重的正态分布假设,随机变量X服从在区间Ω内的截尾正态分布,概率测度为μ;用随机变量P表示取整后的单层神经网络的放缩权重,区间Ω中的整数点集S作为其样本空间,并为随机变量P赋予Dirac测度ν,使得随机变量P的总概率测度等于随机变量X的总概率测度;将取整操作看为区间Ω到整数点集S的取整映射,根据最优传输理论的结果,得到最优的取整映射的表示,其满足最小化取整代价;根据区间划分算法以及关于Brenier势能函数与能量函数的优化算法,求解出最优取整映射和划分的取整区间;根据划分的取整区间进行取整操作,得到取整后的放缩权重;取整后的放缩权重进行反量化操作,得到量化后的神经网络权重,进而获得量化后的神经网络;
识别模块,用于采用量化后的神经网络对待识别的图像进行处理,获得识别结果。
一种电子设备,包括:处理器和存储装置;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行所述基于最优传输理论的神经网络量化方法。
本发明的有益效果:
本发明提出基于最优传输理论的神经网络量化方法、系统及电子设备,本发明是以单层均匀对称无数据量化为量化类型,基于最优传输理论通过寻找最优取整策略,即Round操作,从而减少量化操作带来深度神经网络的精度损失,使得量化后深度神经网络的准确率与量化前相近。
附图说明
图1是本发明实施例的流程图;
图2是本发明实施例的凸多面形的取整区间划分算法流程图;
图3是本发明实施例的能量函数优化算法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了保证较高的精度,计算机中大部分的科学运算都是采用浮点型进行计算,常见的是float32和float64。量化是将以往用32bit或者64bit表达的浮点数用1bit、2bit占用较少内存空间的形式进行存储,是指将信号的连续取值近似为有限多个离散值的过程,可理解成一种信息压缩的方法。
神经网络的量化是将网络的权值,激活值等数据存储从高精度转化成低精度的操作过程,例如将float32转化成int8,同时期望转换后网络的准确率与转化前相近。深度神经网络的量化方案也有许多分类,目前主要是 QAT(Quantization Aware Training)和PTQ(Post-Training Quantization)。QAT是一种训练时进行量化的方法,是在网络训练过程中使用一些技巧来模拟量化误差,例如添加高斯噪声、使用随机量化等,这样可以让模型逐渐适应量化后的数据表示,从而在量化后仍然能够保持较高的精度。PTQ是一种离线量化方法,该方法在模型训练完成后,通常分为两个步骤:首先,使用标准训练方法训练深度神经网络,得到一个浮点数模型。然后,在训练后对模型进行量化,将权重和激活值等浮点数参数转换为整数参数。这个过程中,通常需要设置量化参数,例如量化位数、量化范围等,以控制量化误差和精度损失。
由于模型量化是一种近似算法方法,精度损失是一个严峻的问题。 QAT的主要缺点是重新训练深度神经网络的计算成本。这种重新训练可能需要进行几百个历时来恢复精度,特别是对于低位精度的量化。与QAT相比,PTQ直接对训练好的网络进行量化,不需要重新训练或在训练过程中模拟量化误差,即它可以在数据有限或无标签的情况下应用,实现简单,也可以保护数据隐私。但是,PTQ可能会导致一定的精度损失,特别是对于低精度量化,需要通过合理的量化参数设置和模型微调等技术来降低精度损失。
本实施例中,提出一种基于最优传输理论的神经网络量化方法,采用图像数据进行测试,判断量化后的神经网络的精确性和运行速率。
该方法的执行步骤如图1所示,包括以下步骤:
S1:通过标准训练方法训练神经网络,得到浮点数神经网络模型,确定浮点数神经网络模型中待量化的浮点数参数,即浮点数权重,经过放缩操作后得到放缩权重。
S2:对于每一层的神经网络中的放缩权重的矩阵形式展开为向量形式,确定取值范围,即区间Ω;用随机变量X表示单层神经网络的放缩权重,根据单层权重的正态分布假设,随机变量X服从区间Ω内的截尾正态分布,概率测度为μ。
S3:用随机变量P表示取整后的单层神经网络的放缩权重,区间Ω中的整数点集S作为样本空间,并为随机变量P赋予Dirac测度ν;其中,随机变量X的总概率测度等于随机变量P的总概率测度。
S4:将取整操作看为区间Ω到整数点集S的取整映射,利用最优传输理论的结果,证明存在一个最优的取整映射满足最小化取整代价。
S5:根据区间划分算法以及关于Brenier势能函数与能量函数的优化算法,求解得到最优取整映射和划分的取整区间。
S6:根据划分的取整区间进行取整操作,得到取整后的放缩权重。
S7:取整后的放缩权重进行反量化操作,得到量化后的神经网络权重,进而获得量化后的神经网络;将量化后的神经网络部署到任务设备,进行图像识别或图像分类任务。
进一步的实施例:建立基于 Brenier 势能函数的最优取整模型:
(1)最优取整映射
对于任意的第l层神经网络,将未取整前这一层的权重经过放缩系数作用后的权重/>(简称放缩权重)看作一个随机变量,由于层与层之间的独立性,单独讨论每层网络时省略上标l。
若该层有m个放缩权重,将该层放缩权重的矩阵形式按元素展开记作,放缩权重取值范围为/>,记为/>,因此将/>看作一个随机变量X,这m个放缩权重值看作X的m个样本点,从而X的样本空间为/>。根据单层权重的正态分布假设,随机变量X服从均值为/>,方差为/>的正态分布,其中,其概率测度记为μ,/>是超参数。
对于这一层神经网络取整后的放缩权重,/>对应的取整点记为/>,将其看作随机变量P,样本空间为/>,即 是Ω中的整数点,S是Ω中所有整数点组成的集合,n为Ω中整数点的个数,Z表示整数。
为随机变量P赋予Dirac测度,即:
式中,δ为狄拉克函数;
也就是需要满足随机变量X的总概率测度等于随机变量P的总概率测度。
若有取整映射T,将区间Ω中值映射到整数点集S中,即,根据最优传输理论,存在一个最优的取整映射T满足最小化取整代价E(T):
具体地,计算时最优映射T的求解依赖于Brenier势能函数u,其中,u是一个凸函数,且;最优映射T满足/>,且/>。
(2)最优取整映射T的形式
确定的形式,对于每一个取整点/>,设其对应一个截距/>,考虑构造一条直线/>,所有/>对应的这样的直线/>形成的上包络即为/>:
其中,上包络为一个凸多边形,恰为Brenier势能函数的图;在最优传输理论中,这个上包络在Ω上的投影形成了Ω的一个胞腔分解,即/>。实际上这个投影形成区间的一种取整划分:每个/>对应的划分区间是胞腔/>,胞腔中的元素均取整为/>。构建能量函数/>,/>是凸函数,最优取整区间对应的最优截距/>是满足最小化/>的解:
使用算法2(main)求解最优截距h,设计算法1(sub)求解形成的胞腔分解,即对区间的取整划分。
进一步地:
算法1:求解凸多面形的取整区间划分
本部分的重点在于对指定的截距h,求解Brenier势能函数形成的取整划分。定义关于截距h的两个函数/>去计算区间的划分点,对任意两个取整点,其中/>且/>,对应的函数为/>,其计算公式为:
对任意的取整点,对应的函数为/>,其计算公式为:
另外设定,记/>为负数取整点的个数,/>为正数取整点的个数,构建区间划分点的集合/>,其中/>是取整点为负数的区间划分点集,/>是取整点为正数的区间划分点集,最终在截距为h时的取整区间为:
算法流程图如图2所示。
算法伪代码如下:
算法2:能量函数优化算法
通过优化方法求解最小化能量函数E(h)的截距,即最优截距h;所述优化方法为梯度下降法;能量函数E(h)的梯度如下式:
Dirac测度的确定可以有多种方法,需要根据实际应用情况确定,但需要满足上式。这里以直方图采样分布为例,对于初始截距h,根据算法1得到分割点集C,得到划分区间,记/>为第i个划分区间中样本点的个数,则:
将对Dirac测度的构造记为,设计基于梯度下降法的求解算法,算法如下:
算法流程图如图3所示。
本实施例中,将图像数据输入量化后的神经网络进行识别后,能够保持原有的运行速度,同时对于图像的识别效果也较为相近,极大减少了传统量化神经网络的精度损失。本发明提出基于最优传输理论的神经网络量化方法、系统及电子设备,本发明是以单层均匀对称无数据量化为量化类型,基于最优传输理论通过寻找最优取整策略,即Round操作,从而减少量化操作带来深度神经网络的精度损失,使得量化后深度神经网络的准确率与量化前相近。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于最优传输理论的神经网络量化方法,其特征在于,包括以下步骤:
获得训练后的神经网络,得到浮点数神经网络模型,确定浮点数神经网络模型中待量化的浮点数参数,即浮点数权重,经过放缩操作后得到放缩权重;
对于每一层的神经网络中的放缩权重的矩阵形式展开为向量形式,确定取值范围,即区间Ω;用随机变量X表示单层神经网络的放缩权重,根据单层权重的正态分布假设,随机变量X服从区间Ω内的截尾正态分布,概率测度为μ;
用随机变量P表示取整后的单层神经网络的放缩权重,区间Ω中的整数点集S作为样本空间,并为随机变量P赋予Dirac测度ν;其中,随机变量X的总概率测度等于随机变量P的总概率测度;
将取整操作看为区间Ω到整数点集S的取整映射,利用最优传输理论的结果,证明存在一个最优的取整映射满足最小化取整代价;
根据区间划分算法以及关于Brenier势能函数与能量函数的优化算法,求解得到最优取整映射和划分的取整区间;
根据划分的取整区间进行取整操作,得到取整后的放缩权重;
取整后的放缩权重进行反量化操作,得到量化后的神经网络权重,进而获得量化后的神经网络;
用于采用量化后的神经网络对待识别的图像进行处理,获得识别结果;
所述将取整操作看为区间Ω到整数点集S的取整映射T#,即:
T#:(Ω,μ)→({pi}i∈Ω∩Z,ν)
根据最优传输理论,存在一个最优的取整映射T满足最小化取整代价E(T):
计算时最优映射T的求解依赖于Brenier势能函数u,其中,u是一个凸函数,且u:Ω→R;最优映射T满足T:且Vol(T-1(pi))=νi。
2.根据权利要求1所述的基于最优传输理论的神经网络量化方法,其特征在于,所述用随机变量X表示单层神经网络的放缩权重,根据单层权重的正态分布假设,随机变量X服从在区间Ω内的截尾正态分布,概率测度为μ,包括以下步骤:
若该层神经网络中有m个放缩权重,将该层放缩权重的矩阵形式按元素展开记作sw∈Rm,放缩权重取值范围为[α,β],记为R为实数,α,β是超参数;
将放缩权重sw的m个分量作为随机变量X的m个样本点,从而X的样本空间为{xj|xj=swj∈Ω};
根据单层权重的正态分布假设,随机变量X服从均值为uw,方差为σw的正态分布,其中其概率测度记为μ。
3.根据权利要求1所述的基于最优传输理论的神经网络量化方法,其特征在于,所述用随机变量P表示取整后的单层神经网络的放缩权重,区间Ω中的整数点集S作为样本空间,包括以下步骤:
对于这一层神经网络取整后的放缩权重swj对应的取整点记为[swj];
将[swj]看作随机变量P,样本空间即pi是Ω中的整数点,S是Ω中所有整数点组成的集合,n为Ω中整数点的个数,Z表示整数。
4.根据权利要求3所述的基于最优传输理论的神经网络量化方法,其特征在于,所述随机变量P赋予Dirac测度ν为:
式中,δ为狄拉克函数;
即Dirac测度满足令随机变量P的总概率测度等于随机变量X的总概率测度。
5.根据权利要求4所述的基于最优传输理论的神经网络量化方法,其特征在于,所述Brenier势能函数u的求解包括以下步骤:
确定u(x)的形式,对于每一个取整点pi,设其对应一个截距hi,考虑构造一条直线πi:<x,pi>+hi=0,所有pi对应的这样的直线πi形成的上包络即为u(x):
u(x)=maxi{<x,pi>+hi}
其中,上包络为一个凸多边形,恰为Brenier势能函数u(x)的图;在最优传输理论中,这个上包络在Ω上的投影形成了Ω的一个胞腔分解,即Ω=∪iUi;
实际上这个投影形成区间的一种取整划分:每个pi对应的划分区间是胞腔胞腔中的元素均取整为pi;
构建能量函数E(h),E(h)是凸函数,最优取整区间对应的最优截距h=(h1,...,hn)∈Rn是满足最小化E(h)的解:
设计优化算法通过最小化能量函数求解最优截距h,通过求解凸多面形的取整区间划分的方法求解uh(x)形成的胞腔分解即对区间的取整划分。
6.根据权利要求5所述的基于最优传输理论的神经网络量化方法,其特征在于,所述区间划分算法为求解凸多面形的取整区间划分的方法和最小化能量函数的优化算法,包括以下步骤:
对指定的截距h,求解Brenier势能函数uh(x)形成的取整划分
取整区间划分算法是基于求解凸多面形设计的,根据设计的取整区间划分算法得到分割点集C,进而对区间进行分割得到划分区间U={Ui}i∈Ω∩Z;
具体为:
定义关于截距h的两个函数Xi,j(h),Xj(h)去计算区间的划分点,对任意两个取整点pi,pj,其中i≠j且i,j∈{1,2,···,n},对应的函数为Xi,j(h),其计算公式为:
对任意的取整点pj,对应的函数为Xj(h),其计算公式为:
Xj(h)=maxiX(i,j)
另外设定Xn+1(h)=β,X0(h)=α,记nL为负数取整点的个数,nR为正数取整点的个数,构建区间划分点的集合C={CL,CR},其中是取整点为负数的区间划分点集,/>是取整点为正数的区间划分点集,最终在截距为h时的取整区间为:
通过能量函数优化算法求解最优截距h,包括以下步骤:
通过优化方法求解最小化能量函数E(h)的截距,即最优截距h;所述优化方法为梯度下降法;所述能量函数E(h)的梯度如下式:
其中将对Dirac测度的构造记为ν=G(h),记mi为第i个划分区间中样本点的个数,Dirac测度为:
7.根据权利要求6所述的基于最优传输理论的神经网络量化方法,其特征在于,所述凸多面形的取整区间划分的方法,包括以下步骤:
输入截距h、取整点集S和函数Xj(h),以及参数N和bound;其中,N=[-nL,nR];bound=[α,β];
初始化集合C={CL,CR};
将α加入CL,β加入CR;计算m,m=[mL,mR],mL=Xi+1(h),mR=Xj+1(h);
初始化K=-1,执行K=K+1,当K≤1,清空stack[],计算left,right;其中,left=min(m[K],bound[K]),right=max(m[K],bound[K]);
当i=N[K]→0,循环执行:
如果stack为空,将clamp(left,XnL+1+i(h),right)加入C[K];将S[i+nL]加入stack;s=stack[-1];
如果abs(XnL+1+i(h))≥abs(XnL+1+s(h)),将clamp(left,XnL+1+s(h),right)加入C[K];将S[s+nL]加入stack;
否则,将clamp(left,XnL+1+i(h),right)加入C[K];将S[i+nL]加入stack;
最终输出集合C;
其中,C[K],m[K],N[K],S[i]符号均表示数据的索引。
8.一种基于最优传输理论的神经网络量化装置,其特征在于,包括:
初始量化对象确定模块,用于训练后的浮点数神经网络,得到浮点数神经网络模型,确定浮点数神经网络模型中待量化的浮点数参数,即浮点数权重;
量化计算模块,用于将浮点数权重经过放缩操作处理为放缩权重;还用于对于每一层的神经网络中的放缩权重的矩阵形式展开为向量形式sw,并确定其取值范围,即区间Ω;用随机变量X表示单层神经网络的放缩权重sw,根据单层权重的正态分布假设,随机变量X服从在区间Ω内的截尾正态分布,概率测度为μ;用随机变量P表示取整后的单层神经网络的放缩权重,区间Ω中的整数点集S作为其样本空间,并为随机变量P赋予Dirac测度ν,使得随机变量P的总概率测度等于随机变量X的总概率测度;将取整操作看为区间Ω到整数点集S的取整映射,根据最优传输理论的结果,得到最优的取整映射的表示,其满足最小化取整代价;根据区间划分算法以及关于Brenier势能函数与能量函数的优化算法,求解出最优取整映射和划分的取整区间;根据划分的取整区间进行取整操作,得到取整后的放缩权重;取整后的放缩权重进行反量化操作,得到量化后的神经网络权重,进而获得量化后的神经网络;
识别模块,用于采用量化后的神经网络对待识别的图像进行处理,获得识别结果;
所述将取整操作看为区间Ω到整数点集S的取整映射T#,即:
T#:(Ω,μ)→({pi}i∈Ω∩Z,ν)
根据最优传输理论,存在一个最优的取整映射T满足最小化取整代价E(T):
计算时最优映射T的求解依赖于Brenier势能函数u,其中,u是一个凸函数,且u:Ω→R;最优映射T满足T:且Vol(T-1(pi))=νi。
9.一种电子设备,其特征在于,包括:处理器和存储装置;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311218377.XA CN116957045B (zh) | 2023-09-21 | 2023-09-21 | 基于最优传输理论的神经网络量化方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311218377.XA CN116957045B (zh) | 2023-09-21 | 2023-09-21 | 基于最优传输理论的神经网络量化方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116957045A CN116957045A (zh) | 2023-10-27 |
CN116957045B true CN116957045B (zh) | 2023-12-22 |
Family
ID=88455088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311218377.XA Active CN116957045B (zh) | 2023-09-21 | 2023-09-21 | 基于最优传输理论的神经网络量化方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116957045B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814871A (zh) * | 2020-06-13 | 2020-10-23 | 浙江大学 | 一种基于可靠权重最优传输的图像分类方法 |
CN113887721A (zh) * | 2021-09-29 | 2022-01-04 | 中国科学技术大学 | 一种语音识别任务中的训练后量化压缩方法及系统 |
CN114118406A (zh) * | 2021-10-28 | 2022-03-01 | 哈尔滨工业大学 | 一种卷积神经网络的量化压缩方法 |
CN114943335A (zh) * | 2022-04-16 | 2022-08-26 | 国网山东省电力公司聊城供电公司 | 一种三值神经网络逐层优化方法 |
CN115019150A (zh) * | 2022-08-03 | 2022-09-06 | 深圳比特微电子科技有限公司 | 目标检测定点模型建立方法、装置及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220237513A1 (en) * | 2021-01-28 | 2022-07-28 | Samsung Electronics Co., Ltd. | Method and apparatus with optimization for deep learning model |
-
2023
- 2023-09-21 CN CN202311218377.XA patent/CN116957045B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814871A (zh) * | 2020-06-13 | 2020-10-23 | 浙江大学 | 一种基于可靠权重最优传输的图像分类方法 |
CN113887721A (zh) * | 2021-09-29 | 2022-01-04 | 中国科学技术大学 | 一种语音识别任务中的训练后量化压缩方法及系统 |
CN114118406A (zh) * | 2021-10-28 | 2022-03-01 | 哈尔滨工业大学 | 一种卷积神经网络的量化压缩方法 |
CN114943335A (zh) * | 2022-04-16 | 2022-08-26 | 国网山东省电力公司聊城供电公司 | 一种三值神经网络逐层优化方法 |
CN115019150A (zh) * | 2022-08-03 | 2022-09-06 | 深圳比特微电子科技有限公司 | 目标检测定点模型建立方法、装置及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
卷积神经网络的定点化研究;陈俊保;方向忠;;信息技术(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116957045A (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052886B (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN111488985B (zh) | 深度神经网络模型压缩训练方法、装置、设备、介质 | |
CN112150821B (zh) | 轻量化车辆检测模型构建方法、系统及装置 | |
CN111275175B (zh) | 神经网络训练方法、装置、图像分类方法、设备和介质 | |
CN109299716A (zh) | 神经网络的训练方法、图像分割方法、装置、设备及介质 | |
CN110175641B (zh) | 图像识别方法、装置、设备和存储介质 | |
WO2022228425A1 (zh) | 一种模型训练方法及装置 | |
CN113591978B (zh) | 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质 | |
CN111783996B (zh) | 一种数据处理方法、装置及设备 | |
CN112288084B (zh) | 基于特征图通道重要性的深度学习目标检测网络压缩方法 | |
CN110874627B (zh) | 数据处理方法、数据处理装置及计算机可读介质 | |
CN113128478A (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN111127360A (zh) | 一种基于自动编码器的灰度图像迁移学习方法 | |
CN115841596B (zh) | 多标签图像分类方法及其模型的训练方法、装置 | |
CN114708434A (zh) | 基于迭代域内适应和自训练的跨域遥感图像语义分割方法 | |
CN112150497A (zh) | 基于二值神经网络的局部激活方法与系统 | |
CN115527104A (zh) | 无人艇感知系统检测方法 | |
CN117710841A (zh) | 一种无人机航拍图像的小目标检测方法、装置 | |
CN113705404A (zh) | 一种面向嵌入式硬件的人脸检测方法 | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 | |
CN116957045B (zh) | 基于最优传输理论的神经网络量化方法、系统及电子设备 | |
CN110288002B (zh) | 一种基于稀疏正交神经网络的图像分类方法 | |
CN116994291A (zh) | 一种基于深度学习的智能手势识别方法与系统 | |
CN116362301A (zh) | 一种模型的量化方法以及相关设备 | |
CN110728292A (zh) | 一种多任务联合优化下的自适应特征选择算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |