CN116502691A - 一种应用于fpga的深度卷积神经网络混合精度量化方法 - Google Patents
一种应用于fpga的深度卷积神经网络混合精度量化方法 Download PDFInfo
- Publication number
- CN116502691A CN116502691A CN202310284018.8A CN202310284018A CN116502691A CN 116502691 A CN116502691 A CN 116502691A CN 202310284018 A CN202310284018 A CN 202310284018A CN 116502691 A CN116502691 A CN 116502691A
- Authority
- CN
- China
- Prior art keywords
- value
- quantization
- layer
- neural network
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 26
- 230000004913 activation Effects 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 20
- 230000001174 ascending effect Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种应用于FPGA的深度卷积神经网络混合精度量化方法。首先针对将要部署神经网络的FPGA硬件平台的逻辑资源容量及对每层精度的要求选取合适的几种量化位宽;其次,根据所使用神经网络的权重分布直方图峰值判断当前层权重的重要程度并选择一种作为当前层权重的量化位宽;然后在前向推理过程中根据激活值分布直方图峰值判断当前层激活值的重要程度并选择一种作为当前层激活值的量化位宽;最后采用对称均匀量化方式。该方法分析深度卷积神经网络不同层的权重分布,针对不同层对量化的敏感程度对权重和激活值分配相应的量化位宽,不同于传统的基于混合比特量化空间迭代搜索得到最优混合比特量化模型方式,实现了较方便快捷的混合精度量化策略。
Description
背景技术
深度卷积神经网络(deep convolutional neural networks,DCNNs)为目标检测应用带来了准确率的显著提升。同时,DCNNs巨大的计算开销和复杂度以及大量的访存操作对目标检测任务的执行核心带来极大的挑战。目前主流的DCNNs有着数以亿计的连接,同时具有访存密集型和计算密集型的特点。随着现存的应用场景对DCNNs精度和功能要求的提高,神经网络的规模在不断的加深,当权重矩阵的规模远大于缓存大小时,访存问题成了神经网络计算过程中的一大瓶颈。
DCNNs的基础运算包含大量的的乘累加运算,乘法运算对硬件资源的消耗多、功耗大、延时长,这种问题在边缘智能场景下尤为突出。大多数情况下,边缘设备无法提供大量的存储资源及计算资源并且功耗受限,深度卷积神经网络难以在嵌入式设备中部署。因此需要在算法层面上通过剪枝、量化、低秩近似、知识蒸馏等方法对模型进行压缩,其中最常用的是剪枝和量化。量化是减少神经网络计算时间和功耗最有效的方法之一。在神经网络量化中,存储权值和激活张量的比特位宽比训练常用的16位或32位精度要低,可以有效的减少存储时的内存开销和矩阵乘法的计算成本。这一过程也叫做软件优化。在硬件层面上为了解决这些问题需要在这些模型的部署平台上采用高并行度和高数据重用性的优化方法来构建优化的加速器。目前,主要的硬件加速器有图形处理器(graphics processingunit,GPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)和可编程逻辑门阵列(Field Programmable Logic Array,FPGA),其中GPU功耗大,ASIC定制周期长且灵活性差,FPGA拥有并行性高、数据局部性好以及可重构等特性。基于FPGA的硬件加速器平衡了性能、功耗和灵活性之间的差距。为了进一步提高计算效率,DNN硬件加速器开始支持混合精度(1-8位),混合精度量化策略相比单一精度量化更能充分发挥硬件逻辑资源的灵活性,同时也提出了一个巨大的挑战即如何选取混合精度量化策略找到每一层的最佳位宽,它需要领域专家探索巨大的设计空间以达到精度、延迟、能效和模型大小之间的权衡。
综合目前的研究状况,神经网络采用浮点卷积计算时巨大的计算量和大量的访存操作会带来资源及功耗受限等问题。现有的成熟的量化技术如DOREFA-NET能够以任意的精度量化权重、激活值及梯度,在量化策略方面为了更好的适配硬件平台更加偏向于采用混合精度量化。目前大多数深度卷积神经网络混合精度量化算法通常只关注如何设计搜索算法获得可达到预期的混合精度量化模型,但是没有考虑到量化精度的搜索空间过大导致的实施起来较为繁琐及耗时的缺点。
发明内容
为了解决目前大多数深度卷积神经网络混合精度量化算法通常只关注如何设计搜索算法获得可达到预期的混合精度量化模型,但是没有考虑到量化精度的搜索空间过大导致的实施起来较为繁琐及耗时的问题,本发明提出一种应用于FPGA的深度卷积神经网络混合精度量化方法。
为了实现上述目的,本发明采用如下一种技术方案:
一种应用于FPGA的深度卷积神经网络混合精度量化方法,包括如下步骤:
步骤1:选取数据集和所需网络模型,选取一个量化位宽的取值集合用于混合精度量化中为模型各层分配量化位宽,集合内部将其按照元素值升序进行排列;
步骤2:统计所使用神经网络的权重分布直方图,直方图的横坐标对应权值,纵坐标对应权值的个数,直方图集中的权值点反映当前权值的数量多,将直方图峰值作为当前层权重的典型值,根据典型值大小判断当前层权重的重要程度并据此分配权重的量化位宽,典型值大的卷积层分配较高的量化位宽;
步骤3:在训练时的前向推理过程中将激活值分布直方图峰值作为当前层激活值的典型值,根据典型值大小判断当前层激活值的重要程度并据此分配激活值的量化位宽,典型值大的卷积层分配较高的量化位宽;
步骤4:训练上述针对每层分配好合适位宽的网络模型,其中量化方式采用对称均匀量化;
步骤5:在FPGA端侧进行推理,采用位运算来实现低位宽定点整数之间的卷积运算。
特别地,步骤1具体包括以下步骤:
将所要使用的数据集划分为训练集、测试集和验证集,在所划分的训练集中随机选取一部分子集作为校准集,其中包括图像以及标签值;选取一个量化位宽的取值集合用于混合精度量化中为模型各层分配量化位宽,集合内部将其按照元素值升序进行排列,量化集合的长度为N;给定已经训练至收敛的深度卷积神经网络。
特别地,步骤2具体包括以下步骤:
统计所给定的深度卷积神经网络每层的权重分布直方图;针对每一层,取权重分布直方图峰值所对应的权重值作为当前层权重的典型值;将所得到的每一层的权重的典型值按照取绝对值后的大小从小到大排序得到一个典型值集合,根据步骤1中所得量化集合的长度N将所得典型值集合划分成N个子集合,并将量化集合中的值依次分配给这N个子典型值集合;典型值集合中的每个典型值所对应的量化位宽即这个典型值在模型中的对应层的权重量化位宽。
特别地,步骤3具体包括以下步骤:
将步骤1中的校准集的图像以及标签值作为输入对所给定的浮点模型进行一次前向推理过程以获得每一层计算后的激活值,统计所得到的每层的激活值的分布直方图,针对每一层,取激活值分布直方图峰值所对应的激活值作为当前层激活的典型值;将所得到的每一层的激活值的典型值按照取绝对值后的大小从小到大排序得到一个典型值集合,根据步骤1中所得量化集合的长度N将所得典型值集合划分成N个子集合,并将量化集合中的值依次分配给这N个子典型值集合;典型值集合中的每个典型值所对应的量化位宽即这个典型值在模型中的对应层的激活值量化位宽。
特别地,步骤4具体包括以下步骤:
结合步骤2和步骤3得到模型每一层量化位宽的组合,将步骤1中的训练集的图像以及标签值作为输入对当前的网络模型进行量化感知训练;在每层的量化规则上选用对称均匀量化,可以更容易的在硬件中实现,具体如下:
在训练过程中通过以下公式将每层的浮点数转换为其所对应的k位定点数;
α=max|R| (2)
其中ri表示输入浮点数,ri的取值范围是[-α,α];r0是量化后的k位定点数;R表示这一层中ri所有取值的集合;max|R|表示对浮点数集合中的值绝对值后再取最大值;Δ表示比例因子;在反向传播中为了规避0梯度的问题,使用直通估计器STE,用对低精度权重的导数来近似对浮点数的导数:
其中,Loss代表总损失误差,W和WQ分别代表浮点数权重和量化后的权重。
特别地,步骤5具体包括以下步骤:
在FPGA端侧进行推理,参考DoreFa-Net采用位运算来实现低位宽定点整数之间的卷积运算:
其中分别是M位,K位的定点整数序列集合,/>和/>是位向量,公式(4)的计算复杂度为O(MK),即与x和y的位宽度成正比。
本发明的有益效果:
相较于传统的基于混合比特量化空间迭代搜索得到最优混合比特量化模型的方法,本发明所述的应用于FPGA的深度卷积神经网络混合精度量化方法针对深度卷积神经网络不同的层权重值分布情况不同且对量化的敏感程度不同这一特性,结合硬件的特性对权重或激活分布直方图中峰值较高的层即量化较为敏感的层分配了较高的量化位宽,对权重或激活分布直方图中峰值较低的层即量化敏感程度低的层分配较低的量化位宽;传统的混合精度量化策略为了找到每一层的最佳位宽,需要领域专家探索巨大的设计空间以达到精度、延迟、能效和模型大小之间的权衡。不同于传统的基于混合比特量化空间迭代搜索得到最优混合比特量化模型方式,本发明在一定程度上缩小了搜索空间,设计了较为方便快捷的混合精度量化策略。
本发明针对所提出的混合精度量化策略对神经网络中权重值和激活值都进行了低比特量化,参考现有的成熟的量化技术如DOREFA-NET在硬件端采用位运算的计算方法,其计算复杂度与每层权值及激活值的位宽成正比,不同层的量化位宽不同其计算复杂度也不同,较传统的运算方法来说总体的计算复杂度会降低。
附图说明
图1是根据本发明的用于FPGA的深度卷积神经网络混合精度量化方法的流程图;
图2是根据本发明的用于FPGA的深度卷积神经网络混合精度量化方法的每层权重量化精度的详细步骤流程图;
图3是根据本发明的用于FPGA的深度卷积神经网络混合精度量化方法的每层激活值量化精度的详细步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本公开实施例中的技术方案进行详细说明:
如图1所示,本发明提供一种应用于FPGA的深度卷积神经网络混合精度量化方法,包括如下步骤:
S1,将所要使用的数据集划分为训练集、测试集和验证集,在所划分的训练集中随机选取一部分子集作为校准集;选取一个量化位宽的取值集合(8bit,4bit,2bit)并将其按照从小到大排序得到一个长度为N的量化集合(使用8bit,4bit,2bit,N=3);给定已经训练至收敛的深度卷积神经网络。
S2,使用TensorBoard工具查看所给定的深度卷积神经网络每层的权重分布直方图;针对每一层,取权重分布直方图峰值所对应的权重值作为当前层权重的典型值;将所求的每一层的典型值按照其绝对值后的大小从小到大排序得到一个典型值序列,根据S1中所得量化集合的长度N将所得典型值序列进行划分成N个子序列,具体方法如图2所示:
S21将所获得的典型值序列中的值相加求均值,大于均值的划分出来组成典型值子序列1,再将剩余的典型值相加求均值,大于均值的划分出来组成典型值子序列2,剩余的重复上述步骤,直至划分出N个子序列;S22将量化集合中的N个值按照从大到小的顺序分配给上述N个典型值子序列,典型值序列中的每个典型值所对应的量化位宽即这个典型值在模型中的对应层的权重量化位宽。
S3,对激活值的量化处理如图3所示,S31将S1中的校准集的图像以及标签值作为输入对所给定的浮点模型进行一次前向推理过程以获得每一层计算后的激活值,统计所得到的每层的激活值的分布直方图,针对每一层,取激活值分布直方图峰值处所对应的激活值作为当前层激活值的典型值;将所求的每一层的典型值按照其取绝对值后的大小从小到大排序得到一个典型值序列,根据S1中所得量化集合的长度N将所得典型值序列进行划分成N个子序列,具体方法为:
S32将所获得的典型值序列中的值相加求均值,大于均值的划分出来组成典型值子序列1,再将剩余的典型值相加求均值,大于均值的划分出来组成典型值子序列2,剩余的重复上述步骤,直至划分出N个子序列;S33将量化序列中的N个值按照从大到小的顺序分配给上述N个典型值子序列,典型值序列中的每个典型值所对应的量化位宽即这个典型值在模型中的对应层的激活值量化位宽。
S4,根据所述混合精度量化策略(S2、S3)得到模型的要进行量化的各层量化位宽的组合。
S5,按照所述混合精度量化策略将S1中的训练集的图像以及标签值作为输入对当前的网络模型进行量化感知训练;在每层的量化规则上选用对称均匀量化,可以更容易的在硬件中实现。具体如下:
在训练过程中通过以下公式将每层的浮点数转换为其所对应的k位定点数。
α=max|R| (2)
其中ri表示输入浮点数,ri的取值范围是[-α,α];r0是量化后的k位定点数;R表示这一层中ri所有取值的集合;max|R|表示对浮点数集合中的值绝对值后再取最大值;Δ表示比例因子;在反向传播中为了规避0梯度的问题,使用STE(Straight-ThroughEstimator),用对低精度权重的导数来近似对浮点数的导数:
其中,Loss代表总损失误差;W和WQ分别代表浮点数权重和量化后的权重。
S6,在FPGA端侧进行推理,参考DoreFa-Net采用位运算来实现低位宽定点整数之间的卷积运算:
其中分别是M位,K位的定点整数序列集合,/>和/>是位向量。公式(4)的计算复杂度为O(MK),即与x和y的位宽度成正比。
综上所述,本发明通过针对深度卷积神经网络不同的层权重值分布情况不同且对量化的敏感程度不同这一特性,结合硬件平台的逻辑资源容量及对每层精度的要求对量化较为敏感的层分配了较高的比特精度,对量化敏感程度低的层分配较低的比特精度,相较于目前大多数深度卷积神经网络混合精度量化算法通常只关注如何设计搜索算法获得可达到预期的混合精度量化模型,但是没有考虑到量化精度的搜索空间过大导致的实施起来较为繁琐及耗时的缺点来说,本发明设计了较为方便快捷的混合精度量化策略。
Claims (6)
1.一种应用于FPGA的深度卷积神经网络混合精度量化方法,包括如下步骤:
步骤1:选取数据集和所需网络模型,选取一个量化位宽的取值集合用于混合精度量化中为模型各层分配量化位宽,集合内部将其按照元素值升序进行排列;
步骤2:统计所使用神经网络的权重分布直方图,直方图的横坐标对应权值,纵坐标对应权值的个数,直方图集中的权值点反映当前权值的数量多,将直方图峰值作为当前层权重的典型值,根据典型值大小判断当前层权重的重要程度并据此分配权重的量化位宽,典型值大的卷积层分配较高的量化位宽;
步骤3:在训练时的前向推理过程中将激活值分布直方图峰值作为当前层激活值的典型值,根据典型值大小判断当前层激活值的重要程度并据此分配激活值的量化位宽,典型值大的卷积层分配较高的量化位宽;
步骤4:训练上述针对每层分配好合适位宽的网络模型,其中量化方式采用对称均匀量化;
步骤5:在FPGA端侧进行推理,采用位运算来实现低位宽定点整数之间的卷积运算。
2.根据权利要求1所述的应用于FPGA的深度卷积神经网络混合精度量化方法,其特征在于:步骤1具体包括以下步骤:
将所要使用的数据集划分为训练集、测试集和验证集,在所划分的训练集中随机选取一部分子集作为校准集,其中包括图像以及标签值;选取一个量化位宽的取值集合用于混合精度量化中为模型各层分配量化位宽,集合内部将其按照元素值升序进行排列,量化集合的长度为N;给定已经训练至收敛的深度卷积神经网络。
3.根据权利要求1所述的应用于FPGA的深度卷积神经网络混合精度量化方法,其特征在于:步骤2具体包括以下步骤:
统计所给定的深度卷积神经网络每层的权重分布直方图;针对每一层,取权重分布直方图峰值所对应的权重值作为当前层权重的典型值;将所得到的每一层的权重的典型值按照取绝对值后的大小从小到大排序得到一个典型值集合,根据步骤1中所得量化集合的长度N将所得典型值集合划分成N个子集合,并将量化集合中的值依次分配给这N个子典型值集合;典型值集合中的每个典型值所对应的量化位宽即这个典型值在模型中的对应层的权重量化位宽。
4.根据权利要求1所述的应用于FPGA的深度卷积神经网络混合精度量化方法,其特征在于:步骤3具体包括以下步骤:
将步骤1中的校准集的图像以及标签值作为输入对所给定的浮点模型进行一次前向推理过程以获得每一层计算后的激活值,统计所得到的每层的激活值的分布直方图,针对每一层,取激活值分布直方图峰值所对应的激活值作为当前层激活的典型值;将所得到的每一层的激活值的典型值按照取绝对值后的大小从小到大排序得到一个典型值集合,根据步骤1中所得量化集合的长度N将所得典型值集合划分成N个子集合,并将量化集合中的值依次分配给这N个子典型值集合;典型值集合中的每个典型值所对应的量化位宽即这个典型值在模型中的对应层的激活值量化位宽。
5.根据权利要求1所述的应用于FPGA的深度卷积神经网络混合精度量化方法,其特征在于:步骤4具体包括以下步骤:
结合步骤2和步骤3得到模型每一层量化位宽的组合,将步骤1中的训练集的图像以及标签值作为输入对当前的网络模型进行量化感知训练;在每层的量化规则上选用对称均匀量化,可以更容易的在硬件中实现,具体如下:
在训练过程中通过以下公式将每层的浮点数转换为其所对应的k位定点数;
α=max|R| (2)
其中ri表示输入浮点数,ri的取值范围是[-α,α];r0是量化后的k位定点数;R表示这一层中ri所有取值的集合;max|R|表示对浮点数集合中的值绝对值后再取最大值;Δ表示比例因子;在反向传播中为了规避0梯度的问题,使用直通估计器STE,用对低精度权重的导数来近似对浮点数的导数:
其中,Loss代表总损失误差,W和WQ分别代表浮点数权重和量化后的权重。
6.根据权利要求1所述的应用于FPGA的深度卷积神经网络混合精度量化方法,其特征在于:步骤5具体包括以下步骤:
在FPGA端侧进行推理,参考DoreFa-Net采用位运算来实现低位宽定点整数之间的卷积运算:
其中分别是M位,K位的定点整数序列集合,/>和/>是位向量,公式(4)的计算复杂度为O(MK),即与x和y的位宽度成正比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310284018.8A CN116502691A (zh) | 2023-03-22 | 2023-03-22 | 一种应用于fpga的深度卷积神经网络混合精度量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310284018.8A CN116502691A (zh) | 2023-03-22 | 2023-03-22 | 一种应用于fpga的深度卷积神经网络混合精度量化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116502691A true CN116502691A (zh) | 2023-07-28 |
Family
ID=87329317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310284018.8A Pending CN116502691A (zh) | 2023-03-22 | 2023-03-22 | 一种应用于fpga的深度卷积神经网络混合精度量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116502691A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116911350A (zh) * | 2023-09-12 | 2023-10-20 | 苏州浪潮智能科技有限公司 | 基于图神经网络模型的量化方法、任务处理方法及装置 |
CN117893975A (zh) * | 2024-03-18 | 2024-04-16 | 南京邮电大学 | 一种电力监控识别场景下的多精度残差量化方法 |
CN118035628A (zh) * | 2024-04-11 | 2024-05-14 | 清华大学 | 支持混合比特量化的矩阵向量乘算子实现方法及装置 |
-
2023
- 2023-03-22 CN CN202310284018.8A patent/CN116502691A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116911350A (zh) * | 2023-09-12 | 2023-10-20 | 苏州浪潮智能科技有限公司 | 基于图神经网络模型的量化方法、任务处理方法及装置 |
CN116911350B (zh) * | 2023-09-12 | 2024-01-09 | 苏州浪潮智能科技有限公司 | 基于图神经网络模型的量化方法、任务处理方法及装置 |
CN117893975A (zh) * | 2024-03-18 | 2024-04-16 | 南京邮电大学 | 一种电力监控识别场景下的多精度残差量化方法 |
CN117893975B (zh) * | 2024-03-18 | 2024-05-28 | 南京邮电大学 | 一种电力监控识别场景下的多精度残差量化方法 |
CN118035628A (zh) * | 2024-04-11 | 2024-05-14 | 清华大学 | 支持混合比特量化的矩阵向量乘算子实现方法及装置 |
CN118035628B (zh) * | 2024-04-11 | 2024-06-11 | 清华大学 | 支持混合比特量化的矩阵向量乘算子实现方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378468B (zh) | 一种基于结构化剪枝和低比特量化的神经网络加速器 | |
CN116502691A (zh) | 一种应用于fpga的深度卷积神经网络混合精度量化方法 | |
CN110413255B (zh) | 人工神经网络调整方法和装置 | |
CN110880038A (zh) | 基于fpga的加速卷积计算的系统、卷积神经网络 | |
CN111563589B (zh) | 一种神经网络模型的量化方法及装置 | |
CN113283587B (zh) | 一种Winograd卷积运算加速方法及加速模块 | |
Dai et al. | SparseTrain: Exploiting dataflow sparsity for efficient convolutional neural networks training | |
CN111381968A (zh) | 一种高效运行深度学习任务的卷积运算优化方法及系统 | |
Shahshahani et al. | Memory optimization techniques for fpga based cnn implementations | |
CN113392973A (zh) | 一种基于fpga的ai芯片神经网络加速方法 | |
CN112686384A (zh) | 一种自适应比特位宽的神经网络量化方法及其装置 | |
CN113660113A (zh) | 面向分布式机器学习的自适应稀疏参数模型设计与量化传输方法 | |
CN114970853A (zh) | 一种跨范围量化的卷积神经网络压缩方法 | |
Jiang et al. | A low-latency LSTM accelerator using balanced sparsity based on FPGA | |
Xiao et al. | Research on fpga based convolutional neural network acceleration method | |
CN112561049A (zh) | 一种基于忆阻器的dnn加速器的资源分配方法及装置 | |
Zhan et al. | Field programmable gate array‐based all‐layer accelerator with quantization neural networks for sustainable cyber‐physical systems | |
CN115936067A (zh) | 一种具有eca通道注意力机制的神经网络 | |
CN115983343A (zh) | 基于FPGA的YOLOv4卷积神经网络轻量化方法 | |
Wu et al. | A high-speed and low-power FPGA implementation of spiking convolutional neural network using logarithmic quantization | |
Wu et al. | Skeletongcn: a simple yet effective accelerator for gcn training | |
Sharma et al. | Hardware accelerator for object detection using tiny YOLO-v3 | |
CN115222028A (zh) | 基于fpga的一维cnn-lstm加速平台及实现方法 | |
Xu et al. | Research on YOLOv3 model compression strategy for UAV deployment | |
Bai | A Flexible and Low-Resource CNN Accelerator on FPGA for Edge Computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |