CN110188877A - 一种神经网络压缩方法与装置 - Google Patents

一种神经网络压缩方法与装置 Download PDF

Info

Publication number
CN110188877A
CN110188877A CN201910460244.0A CN201910460244A CN110188877A CN 110188877 A CN110188877 A CN 110188877A CN 201910460244 A CN201910460244 A CN 201910460244A CN 110188877 A CN110188877 A CN 110188877A
Authority
CN
China
Prior art keywords
network
quantization
weight
precision
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910460244.0A
Other languages
English (en)
Inventor
景璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910460244.0A priority Critical patent/CN110188877A/zh
Publication of CN110188877A publication Critical patent/CN110188877A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种神经网络压缩方法与装置,包括:对用于处理特征值的神经网络执行模型裁剪,以得到稀疏网络;以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式,对稀疏网络执行权重量化,以得到可用网络;使用可用网络以整数移位计算方式处理特征值。本发明的技术方案能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩,降低神经网络的时间和空间计算复杂度,缩短工作用时和减少占用的存储空间,便于移植到移动设备和嵌入式设备。

Description

一种神经网络压缩方法与装置
技术领域
本发明涉及深度学习领域,并且更具体地,特别是涉及一种神经网络压缩方法与装置。
背景技术
近年来随着深度学习技术的快速发展,实际应用中需要处理和识别大量数据集,所以对深度学习模型的的精度要求越来越高。CNN(卷积神经网络)在计算机视觉领域(在图像分类、目标检测、语义分割等方向)发挥着重要的作用。为了达到更好的识别效果和处理更加复杂的任务,神经网络模型层数越来越深,例如对于ImageNet竞赛的冠军模型AlexNet、GoogLeNet、ResNets等,模型层数由8层提高到了100多层,对于110层的ReNet,有高达1.7Milloin的模型参数及近200MB的存储空间需求,大规模的参数导致的结果是模型对于硬件设备的浮点(或整数)乘法资源(乘法计算占整个神经网络计算90%以上的计算量)、存储资源的要求越来越高,这使得它难以被部署到资源有限的移动端和嵌入式系统上,极大限制了深度学习产品在移动端、嵌入式设备上的发展。
针对现有技术中神经网络的时间和空间计算复杂度高的问题,目前尚未有有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种神经网络压缩方法与装置,能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩,降低神经网络的时间和空间计算复杂度,缩短工作用时和减少占用的存储空间,便于移植到移动设备和嵌入式设备。
基于上述目的,本发明实施例的一方面提供了一种神经网络压缩方法,包括以下步骤:
对用于处理特征值的神经网络执行模型裁剪,以得到稀疏网络;
以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式,对稀疏网络执行权重量化,以得到可用网络;
使用可用网络以整数移位计算方式处理特征值。
在一些实施方式中,对用于处理特征值的神经网络执行模型裁剪,以得到稀疏网络包括:
训练神经网络,获得神经网络的层间各神经元的连接权重作为网络参数;
裁剪掉连接权重值低于指定阈值的连接,使得神经网络具有稀疏结构;
重新训练稀疏结构,获得稀疏网络。
在一些实施方式中,对稀疏网络执行权重量化,以得到可用网络包括:
将稀疏网络中作为网络参数的连接权重聚类为量化权重组和重训练权重组;
将量化权重组中的连接权重根据网络参数的精度而量化为2的整数次幂或0;
通过仅修改重训练权重组中的网络参数且不修改量化权重组中的网络参数,重新训练量化后的稀疏网络,以获得可用网络。
在一些实施方式中,将量化权重组中的连接权重根据网络参数的精度而量化为2的整数次幂或0包括:
确定一个不超过特征值的精度的网络参数的精度;
基于网络参数的精度生成量化集合,量化集合中包括0、(网络参数的精度位数的平方-2)/2个连续的2的正整数次幂、和与该连续的2的正整数次幂分别相对应的连续的2的负整数次幂;
将量化权重组中的每个连接权重分别量化为量化集合中与连接权重最接近的数值。
在一些实施方式中,量化集合中还包括不与量化权重组中的任何连接权重的量化产生对应关系的拓展位。
在一些实施方式中,将稀疏网络中作为网络参数的连接权重聚类为量化权重组和重训练权重组,包括:
将连接权重按照其数值大小聚类为量化权重组和重训练权重组,其中量化权重组的连接权重数值较大,重训练权重组的连接权重数值较小。
在一些实施方式中,使用可用网络以整数移位计算方式处理特征值包括:根据特征值计算卷积。
在一些实施方式中,根据特征值计算卷积包括:由特征值、膨胀因子根据二进制整数移位计算方式确定卷积。
在一些实施方式中,特征值的精度为8位;网络参数的精度被压缩到4位。
基于上述目的,本发明实施例的另一方面提供了一种神经网络压缩装置,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时执行上述的方法。
本发明具有以下有益技术效果:本发明实施例提供的神经网络压缩方法与装置,通过对用于处理特征值的神经网络执行模型裁剪,以得到稀疏网络,以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式,对稀疏网络执行权重量化,以得到可用网络,使用可用网络以整数移位计算方式处理特征值的技术方案,能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩,降低神经网络的时间和空间计算复杂度,缩短工作用时和减少占用的存储空间,便于移植到移动设备和嵌入式设备。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的神经网络压缩方法的流程示意图;
图2为本发明提供的神经网络压缩方法的模型裁剪示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”、“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩的神经网络压缩方法的实施例。图1示出的是本发明提供的神经网络压缩方法的实施例的流程示意图。
所述神经网络压缩方法,包括以下步骤:
步骤S101,对用于处理特征值的神经网络执行模型裁剪,以得到稀疏网络;
步骤S103,以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式,对稀疏网络执行权重量化,以得到可用网络;
步骤S105,使用可用网络以整数移位计算方式处理特征值。
本发明实施例能够解决深层神经网络中模型参数规模大、对设备浮点计算能力需求高、难以部署到移动端和嵌入式端等资源受限设备上的问题。本发明实施例是一种对神经网络模型的权重参数进行压缩的自适应调节方法:一方面进行裁剪以减少模型参数数量,另一方面进行量化以降低模型复杂度。压缩后的模型可用于神经网络在嵌入式端快速部署,同时保证原始模型的精度基本不受影响。压缩后的低比特整数神经网络模型结合量化后的特征值,可将浮点乘法计算为转化为整数移位计算,消除深度神经网络计算对设备浮点计算能力的依赖,也降低了系统功耗。
在一些实施方式中,对用于处理特征值的神经网络执行模型裁剪,以得到稀疏网络包括:
训练神经网络,获得神经网络的层间各神经元的连接权重作为网络参数;
裁剪掉连接权重值低于指定阈值的连接,使得神经网络具有稀疏结构;
重新训练稀疏结构,获得稀疏网络。
模型裁剪首先采用权重裁剪的方式来剔除不重要连接对网络规模的影响,然后基于裁剪后的模型进行权重量化,实现深层神经网络模型的进一步压缩。该方法的优势在于一方面通过裁剪来减少模型中的冗余数据,另一方面通过量化重训练可实现模型的进一步压缩及精度恢复,这样可以减少传统压缩方法带来的精度损失情况。
模型裁剪的具体方式详见图2。首先对神经网络进行常规训练,得到各层之间连接的权重系数(即各个神经节点之间连接的重要程度)。然后将权重参数值低于指定阈值的连接裁剪掉,使得神经网络结构变为稀疏结构。再对神经网络中裁剪后保留的权重系数进行重新训练,以弥补由于模型裁剪所导致的精度损失。
在一些实施方式中,对稀疏网络执行权重量化,以得到可用网络包括:
将稀疏网络中作为网络参数的连接权重聚类为量化权重组和重训练权重组;
将量化权重组中的连接权重根据网络参数的精度而量化为2的整数次幂或0;
通过仅修改重训练权重组中的网络参数且不修改量化权重组中的网络参数,重新训练量化后的稀疏网络,以获得可用网络。
在一些实施方式中,将量化权重组中的连接权重根据网络参数的精度而量化为2的整数次幂或0包括:
确定一个不超过特征值的精度的网络参数的精度;
基于网络参数的精度生成量化集合,量化集合中包括0、(网络参数的精度位数的平方-2)/2个连续的2的正整数次幂、和与该连续的2的正整数次幂分别相对应的连续的2的负整数次幂;
将量化权重组中的每个连接权重分别量化为量化集合中与连接权重最接近的数值。
权重裁剪后的神经网络模型结构变得稀疏,在内存中存储的表现为稀疏矩阵,而硬件资源对稀疏矩阵的计算效率是比较低的,并且一些裁剪带来的精度损失在一定程度上难以弥补。模型量化的主要目标是对网络模型裁剪后保留的重要连接,用低比特位代替高比特位表示,如将32bit表示的浮点数转换为4bit表示,即将模型压缩8倍。这样一方面可以压缩模型规模,另一方面可以降低模型复杂度,保证网络具有更广泛的适用性,还可以通过重训练来恢复精度和部分重要连接。
权重量化首先将神经网络中的连接权重按照权值大小进行聚类,分为两组:
其中,表示量化权重组,表示重训练权重组,且的权重值大于的权重值。
然后将中的权重参数量化为2的整次幂或者0。首先根据量化比特数计算出量化值域(量化集合)然后将中的权重量化到量化值域Pl中,量化规则是将中的权重量化到Pl中差值最小的值上,以最大限度保持原始模型的特征。
完成量化分组之后再重新训练整个神经网络,目的是补偿由于权重量化所带来的精度损失,重训练重点针对未被量化的权重组,已被量化的权重保持不变。
在一些实施方式中,量化集合中还包括不与量化权重组中的任何连接权重的量化产生对应关系的拓展位。
在一些实施方式中,将稀疏网络中作为网络参数的连接权重聚类为量化权重组和重训练权重组,为:将连接权重按照其数值大小聚类为量化权重组和重训练权重组,其中量化权重组的连接权重数值较大,重训练权重组的连接权重数值较小。
在一些实施方式中,使用可用网络以整数移位计算方式处理特征值包括:根据特征值计算卷积。
在一些实施方式中,根据特征值计算卷积包括:由特征值、膨胀因子根据二进制整数移位计算方式确定卷积。
使用二进制整数移位计算方式相比于现有技术的浮点乘法计算可以额外地节省更多的计算量,并且进一步降低计算时间复杂度,更有利于移植到移动设备和嵌入式设备上的可用性。
在一些实施方式中,特征值的精度为8位;网络参数的精度被压缩到4位。
量化后的4比特网络参数为实际模型数据的次幂数的编码形式,其编码格式如下表所示:
对于深度神经网络的每一层卷积计算,都有一个参数exp,假如exp=-5,而4比特编码值为0001,即代表实际的权重值为-2(-5+1)=-0.0625。
由上表可见,量化后的权重可表示为:
Qweight=(-1)s*2m (1)
其中s表示权重的符号,m等于(exp+i)。
卷积计算可由如下公式计算:
量化之后的特征图数据可表示为:
Qfeature=feature*2-Q (3)
假设量化后的输入特征为Qfeature,系数为Q1,卷积计算结果为Qresult,量化系数为Q2,则结合公式(1)和公式(3),公式(2)可转换为:
四舍五入后的最终计算结果为:
rounding_Qresult=(Qresults>>(Inflat-1)+1)>>1 (5)
其中Inflat是为了提高计算精度,引入的膨胀因子。由公式(2)和公式(5)的对比可见,由于网络参数的精度不超过输入特征的精度,浮点乘法计算得以转化为整数移位计算。
从上述实施例可以看出,本发明实施例提供的神经网络压缩方法,通过对用于处理特征值的神经网络执行模型裁剪,以得到稀疏网络,以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式,对稀疏网络执行权重量化,以得到可用网络,使用可用网络以整数移位计算方式处理特征值的技术方案,能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩,降低神经网络的时间和空间计算复杂度,缩短工作用时和减少占用的存储空间,便于移植到移动设备和嵌入式设备。
需要特别指出的是,上述神经网络压缩方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于神经网络压缩方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩的神经网络压缩装置的实施例。所述装置包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时执行如上述的方法。
从上述实施例可以看出,本发明实施例提供的神经网络压缩装置,通过对用于处理特征值的神经网络执行模型裁剪,以得到稀疏网络,以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式,对稀疏网络执行权重量化,以得到可用网络,使用可用网络以整数移位计算方式处理特征值的技术方案,能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩,降低神经网络的时间和空间计算复杂度,缩短工作用时和减少占用的存储空间,便于移植到移动设备和嵌入式设备。
需要特别指出的是,上述神经网络压缩装置的实施例采用了所述神经网络压缩方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述神经网络压缩方法的其他实施例中。当然,由于所述神经网络压缩方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述神经网络压缩装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种神经网络压缩方法,其特征在于,包括以下步骤:
对用于处理特征值的神经网络执行模型裁剪,以得到稀疏网络;
以将所述稀疏网络中的网络参数的精度压缩到不超过所述特征值的精度的方式,对所述稀疏网络执行权重量化,以得到可用网络;
使用所述可用网络以整数移位计算方式处理所述特征值。
2.根据权利要求1所述的方法,其特征在于,对用于处理所述特征值的所述神经网络执行模型裁剪,以得到所述稀疏网络包括:
训练所述神经网络,获得所述神经网络的层间各神经元的连接权重作为所述网络参数;
裁剪掉所述连接权重值低于指定阈值的所述连接,使得所述神经网络具有稀疏结构;
重新训练所述稀疏结构,获得所述稀疏网络。
3.根据权利要求1所述的方法,其特征在于,对所述稀疏网络执行权重量化,以得到可用网络包括:
将所述稀疏网络中作为所述网络参数的连接权重聚类为量化权重组和重训练权重组;
将所述量化权重组中的所述连接权重根据所述网络参数的精度而量化为2的整数次幂或0;
通过仅修改所述重训练权重组中的所述网络参数且不修改所述量化权重组中的所述网络参数,重新训练量化后的所述稀疏网络,以获得所述可用网络。
4.根据权利要求3所述的方法,其特征在于,将所述量化权重组中的所述连接权重根据所述网络参数的精度而量化为2的整数次幂或0包括:
确定一个不超过所述特征值的精度的所述网络参数的精度;
基于所述网络参数的精度生成量化集合,所述量化集合中包括0、所述(网络参数的精度位数的平方-2)/2个连续的2的正整数次幂、和与所述连续的2的正整数次幂分别相对应的连续的2的负整数次幂;
将所述量化权重组中的每个所述连接权重分别量化为所述量化集合中与所述连接权重最接近的数值。
5.根据权利要求4所述的方法,其特征在于,所述量化集合中还包括不与所述量化权重组中的任何所述连接权重的量化产生对应关系的拓展位。
6.根据权利要求3所述的方法,其特征在于,将所述稀疏网络中作为所述网络参数的所述连接权重聚类为所述量化权重组和所述重训练权重组,包括:
将所述连接权重按照其数值大小聚类为所述量化权重组和所述重训练权重组,其中所述量化权重组的所述连接权重数值较大,所述重训练权重组的所述连接权重数值较小。
7.根据权利要求1所述的方法,其特征在于,使用所述可用网络以整数移位计算方式处理所述特征值包括:根据所述特征值计算卷积。
8.根据权利要求7所述的方法,其特征在于,根据所述特征值计算卷积包括:由所述特征值、膨胀因子根据二进制整数移位计算方式确定所述卷积。
9.根据权利要求1-8中任意一项所述的方法,其特征在于,所述特征值的精度为8位;所述网络参数的精度被压缩到4位。
10.一种神经网络压缩装置,其特征在于,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时执行如权利要求1-9中任意一项所述的方法。
CN201910460244.0A 2019-05-30 2019-05-30 一种神经网络压缩方法与装置 Pending CN110188877A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910460244.0A CN110188877A (zh) 2019-05-30 2019-05-30 一种神经网络压缩方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910460244.0A CN110188877A (zh) 2019-05-30 2019-05-30 一种神经网络压缩方法与装置

Publications (1)

Publication Number Publication Date
CN110188877A true CN110188877A (zh) 2019-08-30

Family

ID=67718739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910460244.0A Pending CN110188877A (zh) 2019-05-30 2019-05-30 一种神经网络压缩方法与装置

Country Status (1)

Country Link
CN (1) CN110188877A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260049A (zh) * 2020-01-15 2020-06-09 中山德著智能科技有限公司 一种基于国产嵌入式系统的神经网络实现方法
CN112052937A (zh) * 2020-07-28 2020-12-08 广西小珈智能科技有限责任公司 基于集成Jetson Nano域控制器运行神经网络的优化算法
CN112307968A (zh) * 2020-10-30 2021-02-02 天地伟业技术有限公司 一种人脸识别特征压缩方法
CN113762496A (zh) * 2020-06-04 2021-12-07 合肥君正科技有限公司 一种降低低比特卷积神经网络推理运算复杂度的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260049A (zh) * 2020-01-15 2020-06-09 中山德著智能科技有限公司 一种基于国产嵌入式系统的神经网络实现方法
CN113762496A (zh) * 2020-06-04 2021-12-07 合肥君正科技有限公司 一种降低低比特卷积神经网络推理运算复杂度的方法
CN113762496B (zh) * 2020-06-04 2024-05-03 合肥君正科技有限公司 一种降低低比特卷积神经网络推理运算复杂度的方法
CN112052937A (zh) * 2020-07-28 2020-12-08 广西小珈智能科技有限责任公司 基于集成Jetson Nano域控制器运行神经网络的优化算法
CN112307968A (zh) * 2020-10-30 2021-02-02 天地伟业技术有限公司 一种人脸识别特征压缩方法

Similar Documents

Publication Publication Date Title
CN110188877A (zh) 一种神经网络压缩方法与装置
CN105260776B (zh) 神经网络处理器和卷积神经网络处理器
CN108701250B (zh) 数据定点化方法和装置
CN111416743B (zh) 一种卷积网络加速器、配置方法及计算机可读存储介质
US11816574B2 (en) Structured pruning for machine learning model
CN107256424B (zh) 三值权重卷积网络处理系统及方法
CN109635935A (zh) 基于模长聚类的深度卷积神经网络模型自适应量化方法
CN108764458B (zh) 一种减少移动设备存储空间消耗以及计算量的方法及系统
CN111240746B (zh) 一种浮点数据反量化及量化的方法和设备
CN112734020B (zh) 卷积神经网络的卷积乘累加硬件加速装置、系统以及方法
Abdelsalam et al. An efficient FPGA-based overlay inference architecture for fully connected DNNs
CN115080248B (zh) 调度装置的调度优化方法、调度装置和存储介质
CN113595993A (zh) 边缘计算下模型结构优化的车载感知设备联合学习方法
CN114626516A (zh) 一种基于对数块浮点量化的神经网络加速系统
CN115222046A (zh) 神经网络结构搜索方法、装置、电子设备及存储介质
Qi et al. Learning low resource consumption cnn through pruning and quantization
CN116894189B (zh) 一种模型训练方法、装置、设备及可读存储介质
CN113962388A (zh) 一种硬件加速感知的神经网络通道剪枝方法
CN117009093A (zh) 降低神经网络推理所需内存占用量的重计算方法和系统
CN117273092A (zh) 一种模型量化方法、装置、电子设备及存储介质
Zhan et al. Field programmable gate array‐based all‐layer accelerator with quantization neural networks for sustainable cyber‐physical systems
CN116227332A (zh) 一种transformer混合比特量化方法及系统
CN114065923A (zh) 一种卷积神经网络的压缩方法、系统及加速装置
Honka Automatic Mixed Precision Quantization of Neural Networks using Iterative Correlation Coefficient Adaptation
CN114640357B (zh) 数据编码方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190830