CN116957045B

CN116957045B - 基于最优传输理论的神经网络量化方法、系统及电子设备

Info

Publication number: CN116957045B
Application number: CN202311218377.XA
Authority: CN
Inventors: 懂欢宁; 胡峻毅; 庞天吉; 刘闯; 张义夫; 何贤昆
Original assignee: Sixth Mirror Vision Technology Xi'an Co ltd
Current assignee: Sixth Mirror Vision Technology Xi'an Co ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-22
Anticipated expiration: 2043-09-21
Also published as: CN116957045A

Abstract

本发明提供基于最优传输理论的神经网络量化方法、系统及电子设备，包括：确定训练后的浮点数神经网络模型中待量化的浮点数权重，经过放缩操作后得到放缩权重；用随机变量X和P表示单层神经网络的放缩权重和取整后的缩放权重；将取整操作看为区间Ω到整数点集S的取整映射，根据设计的区间划分算法以及关于Brenier势能函数与能量函数的优化算法，求解得到最优取整映射和划分的取整区间；根据划分的取整区间进行取整操作，得到取整后的放缩权重；取整后的放缩权重进行反量化操作，得到量化后的神经网络权重，进而获得量化后的神经网络。该方法在降低对计算机的资源需求的基础上，提高量化后神经网络处理图像数据效果。

Description

基于最优传输理论的神经网络量化方法、系统及电子设备

技术领域

本发明属于机器视觉技术领域，具体涉及一种基于最优传输理论的神经网络量化方法、系统及电子设备。

背景技术

机器视觉是人工智能正在快速发展的一个分支。简单说来，机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品将被摄取目标转换成图像信号，传送给专用的图像处理系统，得到被摄目标的形态信息，根据像素分布和亮度、颜色等信息，转变成数字化信号；图像系统对这些信号采用深度神经网络等方法来抽取目标的特征，进而根据判别的结果来控制现场的设备动作。

在过去十年中，深度神经网络对各种问题的准确性有了很大提高，但这往往是通过高度过度参数化的模型实现的，其庞大的参数存储导致模型很难在计算资源受限的计算机中部署，严重制约着深度网络在业界的应用。因此在应用上，提高深度神经网络的普适性将对实时智能医疗监控、自动驾驶、音频分析和语音识别等广泛的应用产生重大影响。为了保证较高的精度，计算机中大部分的科学运算都是采用浮点型进行计算，常见的是float32和float64。量化是将以往用32bit或者64bit表达的浮点数用1bit、2bit占用较少内存空间的形式进行存储，是指将信号的连续取值近似为有限多个离散值的过程，可理解成一种信息压缩的方法。

由于模型量化是一种近似算法方法，精度损失是一个严峻的问题，尤其是在机器视觉领域，对于图像的识别和处理方面，虽然降低了对计算机的资源需求的，但在识别、预测的准确度上产生一定的影响，如何合理地量化参数设置来降低精度损失是亟待解决的问题。

发明内容

为解决如何减少量化操作所带来深度神经网络的精度损失问题，本发明提供基于最优传输理论的神经网络量化方法、系统及电子设备，提出如下的技术方案：

一种基于最优传输理论的神经网络量化方法，包括以下步骤：

获得训练后的神经网络，得到浮点数神经网络模型，确定浮点数神经网络模型中待量化的浮点数参数，即浮点数权重，经过放缩操作后得到放缩权重；

对于每一层的神经网络中的放缩权重的矩阵形式展开为向量形式，确定取值范围，即区间Ω；用随机变量X表示单层神经网络的放缩权重，根据单层权重的正态分布假设，随机变量X服从区间Ω内的截尾正态分布，概率测度为μ；

用随机变量P表示取整后的单层神经网络的放缩权重，区间Ω中的整数点集S作为样本空间，并为随机变量P赋予Dirac测度ν；其中，随机变量X的总概率测度等于随机变量P的总概率测度；

将取整操作看为区间Ω到整数点集S的取整映射，利用最优传输理论的结果，证明存在一个最优的取整映射满足最小化取整代价；

根据区间划分算法以及关于Brenier势能函数与能量函数的优化算法，求解得到最优取整映射和划分的取整区间；

根据划分的取整区间进行取整操作，得到取整后的放缩权重；

取整后的放缩权重进行反量化操作，得到量化后的神经网络权重，进而获得量化后的神经网络。

优选地，所述用随机变量X表示单层神经网络的放缩权重，根据单层权重的正态分布假设，随机变量X服从在区间Ω内的截尾正态分布，概率测度为μ，包括以下步骤：

若该层神经网络中有m个放缩权重，将该层神经网络中的m个放缩权重的矩阵形式按元素展开记作，放缩权重取值范围为/>，记为/>，R为实数，/>是超参数；

将放缩权重的m个分量作为随机变量X的m个样本点，从而X的样本空间为；

根据单层权重的正态分布假设，随机变量X服从均值为，方差为/>的正态分布，其中/>，其概率测度记为μ。

优选地，所述用随机变量P表示取整后的单层神经网络的放缩权重，区间Ω中的整数点集S作为样本空间，包括以下步骤：

对于这一层神经网络取整后的放缩权重对应的取整点记为/>；

将看作随机变量P，样本空间/>，即/>是Ω中的整数点，S是Ω中所有整数点组成的集合，n为Ω中整数点的个数，Z表示整数。

优选地，所述随机变量P赋予Dirac测度ν为：

式中，δ为狄拉克函数；

即Dirac测度满足令随机变量P的总概率测度等于随机变量X的总概率测度。

优选地，所述将取整操作看为区间Ω到整数点集S的取整映射T_#，即：

根据最优传输理论，存在一个最优的取整映射T满足最小化取整代价E(T)：

计算时最优映射T的求解依赖于Brenier势能函数u，其中，u是一个凸函数，且；最优映射T满足/>，且/>。

优选地，所述Brenier势能函数u的求解包括以下步骤：

确定的形式，对于每一个取整点/>，设其对应一个截距/>，考虑构造一条直线/>，所有/>对应的这样的直线/>形成的上包络即为/>：

其中，上包络为一个凸多边形，恰为Brenier势能函数的图；在最优传输理论中，这个上包络在Ω上的投影形成了Ω的一个胞腔分解，即/>；

实际上这个投影形成区间的一种取整划分：每个对应的划分区间是胞腔，胞腔中的元素均取整为/>；

构建能量函数，/>是凸函数，最优取整区间对应的最优截距是满足最小化/>的解：

设计优化算法通过最小化能量函数求解最优截距h，通过求解凸多面形的取整区间划分的方法求解形成的胞腔分解/>，即对区间的取整划分。

优选地，所述区间划分算法为求解凸多面形的取整区间划分的方法和最小化能量函数的优化算法，包括以下步骤：

对指定的截距h，求解Brenier势能函数形成的取整划分/>；

取整区间划分算法是基于求解凸多面形设计的，根据设计的取整区间划分算法得到分割点集C，进而对区间进行分割得到划分区间；

具体为：

定义关于截距h的两个函数去计算区间的划分点，对任意两个取整点/>，其中/>且/>，对应的函数为/>，其计算公式为：

对任意的取整点，对应的函数为/>，其计算公式为：

另外设定，记/>为负数取整点的个数，/>为正数取整点的个数，构建区间划分点的集合/>，其中是取整点为负数的区间划分点集，是取整点为正数的区间划分点集，最终在截距为h时的取整区间为：

通过能量函数优化算法求解最优截距h，包括以下步骤：

通过优化方法求解最小化能量函数E(h)的截距，即最优截距h；所述优化方法为梯度下降法；所述能量函数E(h)的梯度如下式：

其中将对Dirac测度的构造记为，记/>为第i个划分区间中样本点的个数，Dirac测度为：

。

优选地，所述凸多面形的取整区间划分的方法，包括以下步骤：

输入截距h、取整点集S和函数，以及参数N和bound；其中，/>；bound=[α,β]；

初始化集合；

将α加入，β加入/>；计算m，m=[m^L,m^R]，m^L=X_i+1(h)，m^R=X_j+1(h)；

初始化K=-1，执行K=K+1，当K≤1，清空stack[]，计算left，right；其中，left=min(m[K],bound[K])，right=max(m[K],bound[K])；

当i=N[K]→0，循环执行：

如果stack为空，将clamp(left,X_nL+1+i(h),right)加入C[K]；将加入stack；s=stack[-1]；

如果abs(X_nL+1+i(h))≥abs(X_nL+1+s(h))，将clamp(left,X_nL+1+s(h),right)加入C[K]；将加入stack；

否则，将clamp(left,X_nL+1+i(h),right)加入C[K]；将加入stack；

最终输出集合C；

其中，C[K]，m[K]，N[K]，S[i]符号均表示数据的索引。

一种基于最优传输理论的神经网络量化装置，包括：

初始量化对象确定模块，用于训练后的浮点数神经网络，得到浮点数神经网络模型，确定浮点数神经网络模型中待量化的浮点数参数，即浮点数权重；

量化计算模块，用于将浮点数权重经过放缩操作处理为放缩权重；还用于对于每一层的神经网络中的放缩权重的矩阵形式展开为向量形式sw，并确定其取值范围，即区间Ω；用随机变量X表示单层神经网络的放缩权重sw，根据单层权重的正态分布假设，随机变量X服从在区间Ω内的截尾正态分布，概率测度为μ；用随机变量P表示取整后的单层神经网络的放缩权重，区间Ω中的整数点集S作为其样本空间，并为随机变量P赋予Dirac测度ν，使得随机变量P的总概率测度等于随机变量X的总概率测度；将取整操作看为区间Ω到整数点集S的取整映射，根据最优传输理论的结果，得到最优的取整映射的表示，其满足最小化取整代价；根据区间划分算法以及关于Brenier势能函数与能量函数的优化算法，求解出最优取整映射和划分的取整区间；根据划分的取整区间进行取整操作，得到取整后的放缩权重；取整后的放缩权重进行反量化操作，得到量化后的神经网络权重，进而获得量化后的神经网络；

识别模块，用于采用量化后的神经网络对待识别的图像进行处理，获得识别结果。

一种电子设备，包括：处理器和存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行所述基于最优传输理论的神经网络量化方法。

本发明的有益效果：

本发明提出基于最优传输理论的神经网络量化方法、系统及电子设备，本发明是以单层均匀对称无数据量化为量化类型，基于最优传输理论通过寻找最优取整策略，即Round操作，从而减少量化操作带来深度神经网络的精度损失，使得量化后深度神经网络的准确率与量化前相近。

附图说明

图1是本发明实施例的流程图；

图2是本发明实施例的凸多面形的取整区间划分算法流程图；

图3是本发明实施例的能量函数优化算法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了保证较高的精度，计算机中大部分的科学运算都是采用浮点型进行计算，常见的是float32和float64。量化是将以往用32bit或者64bit表达的浮点数用1bit、2bit占用较少内存空间的形式进行存储，是指将信号的连续取值近似为有限多个离散值的过程，可理解成一种信息压缩的方法。

神经网络的量化是将网络的权值，激活值等数据存储从高精度转化成低精度的操作过程，例如将float32转化成int8，同时期望转换后网络的准确率与转化前相近。深度神经网络的量化方案也有许多分类，目前主要是 QAT（Quantization Aware Training）和PTQ（Post-Training Quantization）。QAT是一种训练时进行量化的方法，是在网络训练过程中使用一些技巧来模拟量化误差，例如添加高斯噪声、使用随机量化等，这样可以让模型逐渐适应量化后的数据表示，从而在量化后仍然能够保持较高的精度。PTQ是一种离线量化方法，该方法在模型训练完成后，通常分为两个步骤：首先，使用标准训练方法训练深度神经网络，得到一个浮点数模型。然后，在训练后对模型进行量化，将权重和激活值等浮点数参数转换为整数参数。这个过程中，通常需要设置量化参数，例如量化位数、量化范围等，以控制量化误差和精度损失。

由于模型量化是一种近似算法方法，精度损失是一个严峻的问题。 QAT的主要缺点是重新训练深度神经网络的计算成本。这种重新训练可能需要进行几百个历时来恢复精度，特别是对于低位精度的量化。与QAT相比，PTQ直接对训练好的网络进行量化，不需要重新训练或在训练过程中模拟量化误差，即它可以在数据有限或无标签的情况下应用，实现简单，也可以保护数据隐私。但是，PTQ可能会导致一定的精度损失，特别是对于低精度量化，需要通过合理的量化参数设置和模型微调等技术来降低精度损失。

本实施例中，提出一种基于最优传输理论的神经网络量化方法，采用图像数据进行测试，判断量化后的神经网络的精确性和运行速率。

该方法的执行步骤如图1所示，包括以下步骤：

S1：通过标准训练方法训练神经网络，得到浮点数神经网络模型，确定浮点数神经网络模型中待量化的浮点数参数，即浮点数权重，经过放缩操作后得到放缩权重。

S2：对于每一层的神经网络中的放缩权重的矩阵形式展开为向量形式，确定取值范围，即区间Ω；用随机变量X表示单层神经网络的放缩权重，根据单层权重的正态分布假设，随机变量X服从区间Ω内的截尾正态分布，概率测度为μ。

S3：用随机变量P表示取整后的单层神经网络的放缩权重，区间Ω中的整数点集S作为样本空间，并为随机变量P赋予Dirac测度ν；其中，随机变量X的总概率测度等于随机变量P的总概率测度。

S4：将取整操作看为区间Ω到整数点集S的取整映射，利用最优传输理论的结果，证明存在一个最优的取整映射满足最小化取整代价。

S5：根据区间划分算法以及关于Brenier势能函数与能量函数的优化算法，求解得到最优取整映射和划分的取整区间。

S6：根据划分的取整区间进行取整操作，得到取整后的放缩权重。

S7：取整后的放缩权重进行反量化操作，得到量化后的神经网络权重，进而获得量化后的神经网络；将量化后的神经网络部署到任务设备，进行图像识别或图像分类任务。

进一步的实施例：建立基于 Brenier 势能函数的最优取整模型：

（1）最优取整映射

对于任意的第l层神经网络，将未取整前这一层的权重经过放缩系数作用后的权重/>（简称放缩权重）看作一个随机变量，由于层与层之间的独立性，单独讨论每层网络时省略上标l。

若该层有m个放缩权重，将该层放缩权重的矩阵形式按元素展开记作，放缩权重取值范围为/>，记为/>，因此将/>看作一个随机变量X，这m个放缩权重值看作X的m个样本点，从而X的样本空间为/>。根据单层权重的正态分布假设，随机变量X服从均值为/>，方差为/>的正态分布，其中，其概率测度记为μ，/>是超参数。

对于这一层神经网络取整后的放缩权重，/>对应的取整点记为/>，将其看作随机变量P，样本空间为/>，即是Ω中的整数点，S是Ω中所有整数点组成的集合，n为Ω中整数点的个数，Z表示整数。

为随机变量P赋予Dirac测度，即：

式中，δ为狄拉克函数；

也就是需要满足随机变量X的总概率测度等于随机变量P的总概率测度。

若有取整映射T，将区间Ω中值映射到整数点集S中，即，根据最优传输理论，存在一个最优的取整映射T满足最小化取整代价E(T)：

具体地，计算时最优映射T的求解依赖于Brenier势能函数u，其中，u是一个凸函数，且；最优映射T满足/>，且/>。

（2）最优取整映射T的形式

其中，上包络为一个凸多边形，恰为Brenier势能函数的图；在最优传输理论中，这个上包络在Ω上的投影形成了Ω的一个胞腔分解，即/>。实际上这个投影形成区间的一种取整划分：每个/>对应的划分区间是胞腔/>，胞腔中的元素均取整为/>。构建能量函数/>，/>是凸函数，最优取整区间对应的最优截距/>是满足最小化/>的解：

使用算法2（main）求解最优截距h，设计算法1（sub）求解形成的胞腔分解，即对区间的取整划分。

进一步地：

算法1：求解凸多面形的取整区间划分

本部分的重点在于对指定的截距h，求解Brenier势能函数形成的取整划分。定义关于截距h的两个函数/>去计算区间的划分点，对任意两个取整点，其中/>且/>，对应的函数为/>，其计算公式为：

对任意的取整点，对应的函数为/>，其计算公式为：

另外设定，记/>为负数取整点的个数，/>为正数取整点的个数，构建区间划分点的集合/>，其中/>是取整点为负数的区间划分点集，/>是取整点为正数的区间划分点集，最终在截距为h时的取整区间为：

算法流程图如图2所示。

算法伪代码如下：

算法2：能量函数优化算法

通过优化方法求解最小化能量函数E(h)的截距，即最优截距h；所述优化方法为梯度下降法；能量函数E(h)的梯度如下式：

Dirac测度的确定可以有多种方法，需要根据实际应用情况确定，但需要满足上式。这里以直方图采样分布为例，对于初始截距h，根据算法1得到分割点集C，得到划分区间，记/>为第i个划分区间中样本点的个数，则：

将对Dirac测度的构造记为，设计基于梯度下降法的求解算法，算法如下：

算法流程图如图3所示。

本实施例中，将图像数据输入量化后的神经网络进行识别后，能够保持原有的运行速度，同时对于图像的识别效果也较为相近，极大减少了传统量化神经网络的精度损失。本发明提出基于最优传输理论的神经网络量化方法、系统及电子设备，本发明是以单层均匀对称无数据量化为量化类型，基于最优传输理论通过寻找最优取整策略，即Round操作，从而减少量化操作带来深度神经网络的精度损失，使得量化后深度神经网络的准确率与量化前相近。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于最优传输理论的神经网络量化方法，其特征在于，包括以下步骤：

取整后的放缩权重进行反量化操作，得到量化后的神经网络权重，进而获得量化后的神经网络；

用于采用量化后的神经网络对待识别的图像进行处理，获得识别结果；

所述将取整操作看为区间Ω到整数点集S的取整映射T_#，即：

T_#:(Ω,μ)→({p_i}_i∈Ω∩Z,ν)

计算时最优映射T的求解依赖于Brenier势能函数u，其中，u是一个凸函数，且u:Ω→R；最优映射T满足T:且Vol(T^-1(p_i))＝ν_i。

2.根据权利要求1所述的基于最优传输理论的神经网络量化方法，其特征在于，所述用随机变量X表示单层神经网络的放缩权重，根据单层权重的正态分布假设，随机变量X服从在区间Ω内的截尾正态分布，概率测度为μ，包括以下步骤：

若该层神经网络中有m个放缩权重，将该层放缩权重的矩阵形式按元素展开记作sw∈R^m，放缩权重取值范围为[α,β]，记为R为实数，α,β是超参数；

将放缩权重sw的m个分量作为随机变量X的m个样本点，从而X的样本空间为{x_j|x_j＝sw_j∈Ω}；

根据单层权重的正态分布假设，随机变量X服从均值为u_w，方差为σ_w的正态分布，其中其概率测度记为μ。

3.根据权利要求1所述的基于最优传输理论的神经网络量化方法，其特征在于，所述用随机变量P表示取整后的单层神经网络的放缩权重，区间Ω中的整数点集S作为样本空间，包括以下步骤：

对于这一层神经网络取整后的放缩权重sw_j对应的取整点记为[sw_j]；

将[sw_j]看作随机变量P，样本空间即p_i是Ω中的整数点，S是Ω中所有整数点组成的集合，n为Ω中整数点的个数，Z表示整数。

4.根据权利要求3所述的基于最优传输理论的神经网络量化方法，其特征在于，所述随机变量P赋予Dirac测度ν为：

式中，δ为狄拉克函数；

5.根据权利要求4所述的基于最优传输理论的神经网络量化方法，其特征在于，所述Brenier势能函数u的求解包括以下步骤：

确定u(x)的形式，对于每一个取整点p_i，设其对应一个截距h_i，考虑构造一条直线π_i:＜x,p_i＞+h_i＝0，所有p_i对应的这样的直线π_i形成的上包络即为u(x)：

u(x)＝max_i{＜x,p_i＞+h_i}

其中，上包络为一个凸多边形，恰为Brenier势能函数u(x)的图；在最优传输理论中，这个上包络在Ω上的投影形成了Ω的一个胞腔分解，即Ω＝∪_iU_i；

实际上这个投影形成区间的一种取整划分：每个p_i对应的划分区间是胞腔胞腔中的元素均取整为p_i；

构建能量函数E(h)，E(h)是凸函数，最优取整区间对应的最优截距h＝(h₁,...,h_n)∈Rⁿ是满足最小化E(h)的解：

设计优化算法通过最小化能量函数求解最优截距h，通过求解凸多面形的取整区间划分的方法求解u^h(x)形成的胞腔分解即对区间的取整划分。

6.根据权利要求5所述的基于最优传输理论的神经网络量化方法，其特征在于，所述区间划分算法为求解凸多面形的取整区间划分的方法和最小化能量函数的优化算法，包括以下步骤：

对指定的截距h，求解Brenier势能函数u^h(x)形成的取整划分

取整区间划分算法是基于求解凸多面形设计的，根据设计的取整区间划分算法得到分割点集C，进而对区间进行分割得到划分区间U＝{U_i}_i∈Ω∩Z；

具体为：

定义关于截距h的两个函数X_i,j(h),X_j(h)去计算区间的划分点，对任意两个取整点p_i,p_j，其中i≠j且i,j∈{1,2,···,n}，对应的函数为X_i,j(h)，其计算公式为：

对任意的取整点p_j，对应的函数为X_j(h)，其计算公式为：

X_j(h)＝max_iX(i,j)

另外设定X_n+1(h)＝β,X₀(h)＝α，记n^L为负数取整点的个数，n^R为正数取整点的个数，构建区间划分点的集合C＝{C^L,C^R}，其中是取整点为负数的区间划分点集，/>是取整点为正数的区间划分点集，最终在截距为h时的取整区间为：

通过能量函数优化算法求解最优截距h，包括以下步骤：

其中将对Dirac测度的构造记为ν＝G(h)，记m_i为第i个划分区间中样本点的个数，Dirac测度为：

7.根据权利要求6所述的基于最优传输理论的神经网络量化方法，其特征在于，所述凸多面形的取整区间划分的方法，包括以下步骤：

输入截距h、取整点集S和函数X_j(h)，以及参数N和bound；其中，N＝[-n^L,n^R]；bound＝[α,β]；

初始化集合C＝{C^L,C^R}；

将α加入C^L，β加入C^R；计算m，m＝[m^L,m^R]，m^L＝X_i+1(h)，m^R＝X_j+1(h)；

初始化K＝-1，执行K＝K+1，当K≤1，清空stack[]，计算left，right；其中，left＝min(m[K],bound[K])，right＝max(m[K],bound[K])；

当i＝N[K]→0，循环执行：

如果stack为空，将clamp(left,X_nL+1+i(h),right)加入C[K]；将S[i+n^L]加入stack；s＝stack[-1]；

如果abs(X_nL+1+i(h))≥abs(X_nL+1+s(h))，将clamp(left,X_nL+1+s(h),right)加入C[K]；将S[s+n^L]加入stack；

否则，将clamp(left,X_nL+1+i(h),right)加入C[K]；将S[i+n^L]加入stack；

最终输出集合C；

其中，C[K]，m[K]，N[K]，S[i]符号均表示数据的索引。

8.一种基于最优传输理论的神经网络量化装置，其特征在于，包括：

识别模块，用于采用量化后的神经网络对待识别的图像进行处理，获得识别结果；

所述将取整操作看为区间Ω到整数点集S的取整映射T_#，即：

T_#:(Ω,μ)→({p_i}_i∈Ω∩Z,ν)

9.一种电子设备，其特征在于，包括：处理器和存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至7任一项所述的方法。