CN112633477A - 一种基于现场可编程阵列的量化神经网络加速方法 - Google Patents
一种基于现场可编程阵列的量化神经网络加速方法 Download PDFInfo
- Publication number
- CN112633477A CN112633477A CN202011576097.2A CN202011576097A CN112633477A CN 112633477 A CN112633477 A CN 112633477A CN 202011576097 A CN202011576097 A CN 202011576097A CN 112633477 A CN112633477 A CN 112633477A
- Authority
- CN
- China
- Prior art keywords
- neural network
- space
- image processing
- weight
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000001133 acceleration Effects 0.000 title claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000013139 quantization Methods 0.000 claims abstract description 26
- 230000004913 activation Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 39
- 238000003062 neural network model Methods 0.000 claims description 12
- 230000004048 modification Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000001994 activation Methods 0.000 description 14
- 238000012549 training Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011002 quantification Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于现场可编程阵列的量化神经网络加速方法,应用于图像处理领域,针对现有技术存在的图像处理效率低的问题,本发明将图像处理的神经网络的每一层表示为计算图,输入和权重经过卷积或者全连接计算之后,加上偏置值,再通过激活函数,得到最后的输出;将权重空间向稀疏的离散空间进行逼近;对处理后的权重进行数值量化,得到量化后的图像处理的神经网络;然后设计与量化后的图像处理的神经网络相匹配的加速器;量化后的图像处理的神经网络各层根据对应的加速器进行计算,得到图像处理结果。采用本发明的方法,实现了能够在资源受限的嵌入式系统中,对图像处理应用进行部署,具有快速推理和低功耗的特点。
Description
技术领域
本发明属于图像处理领域,特别涉及一种基于神经网络的图像处理技术。
背景技术
神经网络(NN)在目标检测、语义分割等许多领域已经取得了不错的效果,但是如何在自动驾驶、自主机器人等实际应用中部署神经网络的人工智能(AI)应用程序是具有挑战性的。这是由于实际应用中的设备一般是资源受限的嵌入式系统,这类系统内存较少且计算能力不足,但是神经网络通常拥有庞大的参数量和计算量,这就要求大量的存储资源和计算资源,资源受限的嵌入式系统是不能够满足的。将神经网络模型低精度量化,可以有效减少存储需求,使用现场可编程门阵列作为协处理器并设计与量化神经网络相匹配的运算电路来加速神经网络的计算,可以减少资源受限的嵌入式系统的计算压力,这样就能够在资源受限的嵌入式系统中部署人工智能应用。
近年来,神经网络在各种领域相比于传统算法有了极大的进步。在图像、视频、语音处理领域,各种各样的网络模型被提出,例如卷积神经网络、循环神经网络。训练较好的CNN模型把ImageNet数据集上5类顶尖图像的分类准确率从73.8%提升到了84.7%,也靠其卓越的特征提取能力进一步提高了目标检测准确率。RNN在语音识别领域取得了最新的词错率记录。总而言之,由于高度适应大量模式识别问题,神经网络已经成为许多人工智能应用的有力备选项。
然而,神经网络模型仍旧存在计算量大、存储复杂问题。同时,神经网络的研究目前还主要聚焦在网络模型规模的提升上。例如,做224x224图像分类的最新CNN模型需要390亿浮点运算(FLOP)以及超过500MB的模型参数。由于计算复杂度直接与输入图像的大小成正比,处理高分辨率图像所需的计算量可能超过1000亿。此外,神经网络应用在部署阶段,一般的部署环境都是资源受限的嵌入式环境,在这样的系统中,其存储资源和计算资源都将会受到严重的约束。例如自动驾驶汽车系统中,其需要进行复杂的视觉图像处理和雷达图像处理,来进行行人、车辆和道路的识别,但由于系统的能耗和算力受到约束,往往对于远景的识别能力较差。
因此,为神经网络应用选择适度的计算平台特别重要。一般来说,CPU每秒能够完成10-100的GFLOP运算,但能效通常低于1GOP/J,因此难以满足神经网络的高性能需求以及移动端的低能耗需求。相比之下,GPU提供的巅峰性能可达到10TOP/S,因此它是高性能神经网络应用的绝佳选择,但是也不能够满足移动端的低能耗需求。除了CPU和GPU,FPGA逐渐成为高能效神经网络处理的备选平台。根据神经网络的计算过程,结合为具体模型设计的硬件,FPGA可以实现高度并行并简化逻辑。一些研究显示,神经网络模型能以硬件友好的方式进行简化,不影响模型的准确率。因此,FPGA能够取得比CPU和GPU更高的能效。
发明内容
为解决上述技术问题,本发明提出一种基于现场可编程阵列的量化神经网络加速方法。
本发明采用的技术方案为:一种基于现场可编程阵列的量化神经网络加速方法,包括:
S1、图像处理的神经网络的每一层表示为计算图,输入和权重经过卷积或者全连接计算之后,加上偏置值,再通过激活函数,得到最后的输出;将权重空间向稀疏的离散空间进行逼近;
S2、对经步骤S1处理后的权重进行数值量化,得到量化后的图像处理的神经网络;
S3、设计与量化后的图像处理的神经网络相匹配的加速器;
S4、量化后的图像处理的神经网络各层根据对应的加速器进行计算,得到图像处理结果。
本发明的有益效果:本发明的方法,首先在图像处理领域对神经网络模型进行数值量化,然后基于现场可编程门阵列构建与量化数据类型匹配的神经网络加速器,从而实现能够在资源受限的嵌入式系统中,对图像处理应用进行部署,具有快速推理和低功耗的特点;本发明具备以下优点:
1、模型参数占用内存少,对应神经网络实际应用中的设备一般是资源受限的嵌入式系统,这类系统内存较少且计算能力不足,但是神经网络通常拥有庞大的参数量和计算量,这就要求大量的存储资源,资源受限的嵌入式系统是不能够满足的,将神经网络模型低精度量化,可以有效减少存储需求;
2、模型计算速度快;使用现场可编程门阵列(FPGA)作为协处理器并设计与量化神经网络相匹配的运算电路(图6)来加速神经网络的计算,可以减少资源受限的嵌入式系统的计算压力,这样就能够在资源受限的嵌入式系统中部署人工智能应用。
附图说明
图1是本发明的量化神经网络加速系统总体设计图。
图2是本发明的权重空间逼近流程图。
图3为本发明的神经网络结构图。
图4是本发明的数值量化流程图。
图5是本发明的FPGA加速器架构图。
图6是本发明的量化神经网络相匹配的运算电路原理图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
如图1所示,本发明的方法包括:
第一步:神经网络权重空间逼近。对于权重空间逼近,给定一个图像处理的神经网络,权重对最后的结果起到了重要作用。神经网络的每一层表示为计算图,输入和权重经过卷积(CONV)或者全连接(FC)计算之后,加上偏置值,再通过激活函数,得到最后的输出。原始的权重空间是连续复杂的实数空间,期望量化后的权重空间仅包含1,-1和0这三个数,因此需要将权重空间向稀疏的离散空间进行逼近,使用如下逼近函数:
逼近函数有一个控制参数λ,通过改变控制参数的值,能够调整输入量x的逼近层度,控制参数越大,x越能够接近逼近函数的极限1或者-1,这样就与逼近的目标达成了一致,从而实现了权重空间的逼近。
第二步:数值量化。对于权重量化,通过获取权重空间逼近之后的神经网络模型参数,并设置量化函数来进行前向推理,根据神经网络的输入和对应的标签,可以计算损失函数来比较前向传播的预测结果与真实结果的差距,利用损失值更新模型的量化参数,从而得到高准确率的神经网络模型。权重已经被量化了,为了进一步压缩模型和降低神经网络的运算复杂度,需要将激活和偏置也进行量化,这样就可以把复杂的浮点数乘法转换为定点数乘法。由于激活函数不量化数据,因此激活和偏差具有相同的数据宽度。因此,它们应该使用相同的量化函数来保持相同的数据宽度,以避免过度的精度损失。
第三步:加速器存储与比特乘法。设计与量化神经网络相匹配的加速器,将会加快推理速度。用AND/XOR运算实现的乘法器,使运算速度更快,功耗更低。数据表示是加速器的重要组成部分。激活被量化为8位,权重量化为2位,其最高位表示为符号位,符号位0表示正数,符号位1表示相反,数据由原码表示。神经网络的运算主要包括乘法运算和加法运算,其中乘法运算需要大量的硬件资源,并且耗费大量的时间。由于量化神经网络的权值只有0、1和-1,所有的乘法运算都可以用位和/异或运算来代替,从而提高了计算性能。
第四步:层级运算加速。根据全连接层的计算,设计了计算单元和数据流,合理安排了流水线。为池化操作设计高效的计算单元,并在池层安排数据流。设计卷积层的计算单元和数据流。在层级加速器部署神经网络,实现快速推理。
主要分为训练和量化阶段及部署加速阶段,训练和量化部分主要负责对图像处理神经网络模型进行训练,并针对权重空间进行数值精度量化压缩。部署加速阶段为神经网络的前向计算过程提供计算支持,达到高效推理的效果。
1、训练和量化阶段主要包括权重空间逼近、权重量化、激活和偏置量化、微调。
11、权重空间逼近。
如图2所示,权重空间逼近的详细流程包括:
111:根据训练集(如通用图像训练集ImageNet)中的训练数据,按照神经网络的层级结构,如图3所示,权重和输入数据通过运算函数进行计算,再将计算结果和偏置相加,最后利用激活函数得到层级输出。
逼近函数有一个控制参数λ,通过改变控制参数的值,能够调整图像训练集中的训练数据x的逼近程度,控制参数越大,x越能够接近逼近函数的极限1或者-1;
112:统计神经网络输出向量中每个类别的置信度并计算损失。神经网络会计算出每个图像类的识别概率,概率最高的类就是神经网络认为这个输入图片所在的分类,依据图片的分类标签,计算输出和标签之间的二范数,也就是损失函数。
C=||Target-Prediction||2
其中,Target是分类标签,Prediction是神经网络的输出向量
113:根据损失计算每一层权重和偏置的偏导数,将这个偏导数乘上更新系数得到需要更新的数值量,在原始权重和偏置的值上面进行更新。
其中,W是神经网络的权重,η是学习率,C是112中损失函数的计算结果,θ是偏导运算符。
114:重复步骤111至113,直至达到预期的训练轮次。
12、神经网络权重量化。
如图4所示,权重量化的详细步骤包括:
121:获取权重空间逼近后的神经网络模型,得到近似逼近{-1,0,+1}的连续空间。
122:设置量化函数
其中Δ是一个趋近于0的数,这样的量化函数不依赖神经网络的先验知识,只用选择一个较小的值,例如Δ=0.05。
123:在图像处理神经网络中,利用量化函数和前向传播过程,根据层计算公式依次计算每一层的数值结果
可以按照上述公式依次计算每一层的数值结果,这个数值结果也就是输入图像数据的特征图,最后依据神经网络的输出和分类标签计算推理结果和真实结果的差距
loss=|y-target|2
其中,y是神经网络的输出,target是分类标签,矩阵2范数能够评估矩阵直接的空间距离,得到损失函数的值。
124:量化函数的导数在每个地方几乎都为0,因为量化函数是分段函数,在狭义的导数概念里是不可导函数,而在根据广义导数计算处处为0,这会使反向传播过程无法正常工作,因此使用直通梯度估计来评估量化函数的导数
125:根据损失计算每一层权重和偏置的偏导数,将这个偏导数乘上更新系数得到需要更新的数值量,在原始权重和偏置的值上面进行更新。
126:重复步骤123至125,直至达到预期的训练轮次,本实施例中设定训练轮次为200次。
13、激活和偏置量化与微调
131:由于激活函数不量化数据,因此激活和偏差具有相同的数据宽度。因此,它们应该使用相同的量化函数来保持相同的数据宽度,以避免过度的精度损失。激活和偏置使用量化函数:
其中,round是最近取整函数,将小数舍入到数值距离最近的整数。
132:加载输入图片数据和标签,根据计算图前向推理,计算图像神经网络的预测结果,并更新图像处理神经网络的模型参数。
133:微调图像处理神经网络。权重、激活和偏置被量化之后,图像处理神经网络的运算已经从浮点数变成了定点数乘法,模型参数也被压缩到了一个可以接受的参数量,但是图像处理神经网络的预测精度有了不小的损失,这在某些时候是不可以接受的,因此需要对神经网络模型进行一个微调,从而提高量化神经网络模型的预测精度。
2、如图5所示,FPGA加速器包括如下步骤:
21、存储系统控制。
存储系统控制的详细步骤包括:
211:将片上的块随机存取存储器(BRAM)按照等比例划分成两个部分,其中一个部分作为输入空间,另外一部分作为输出空间。输入空间用来存储计算所需的输入数据,输出空间用来存储临时数据和最后的计算结果。
212:从输入空间读取部分输入数据进行运算,运算结果存储在输出空间。
213:在当前层计算完成之后,交换两个分区,以前的输出空间,将作为下一层的输入空间,而输入空间中的数据已经失效,因此变成了输出空间。
22、比特乘法器。
比特乘法器的详细步骤包括:
221:数据表示,数据表示是加速器的重要组成部分。激活被量化为8位,权重量化为2位,其最高位表示为符号位,符号位0表示正数,符号位1表示相反,数据由原码表示。
222:神经网络的运算主要包括乘法运算和加法运算,其中乘法运算需要大量的硬件资源,并且耗费大量的时间。由于量化神经网络的权值只有0、1和-1,所有的乘法运算都可以用与非/异或运算来代替。
223:将输入按照顺序依次排列,总共24bit,再将对应的权重按照顺序输入乘法器,将会得到三个乘法输出。
23、层级加速器。
层级加速器的详细步骤包括:
231:根据全连接层的计算,设计计算单元和数据流,合理安排流水线。全连接层进行的乘加运算,取出输入数据和权重进行相乘,然后从缓冲区读取中间结果进行累加。如果是最后一次累积,则会增加偏差,并通过激活函数获得最终结果。不同输出节点的输入相同,唯一的区别是权重,因此,首先读取存储在BRAM中的输入,再从动态随机存取存储器(DRAM)连续读取与这些输入相对应的不同权重,这样的数据流可以保证相同的输入不会多次读取,从而优化数据传输。
232:为池化操作设计高效的计算单元,并在池化层安排数据流。池化层的数据处理主要是滑动窗口,依次从输入空间取出输入数据,并在滑动窗口中找到最大的数,进行最大池化操作,结果存入输出空间。
233:使用卷积单元计算卷积操作和安排卷积层数据流。卷积层的计算是分通道进行的,依次计算不同的通道。在一个通道内,从依次计算每一个卷积,结果进行缓存,不同的通道间,相同位置的数据缓存进行累加,得到最后的结果。
234:根据神经网络的结构,按照对应的操作从231到233中选择对应的计算单元,完成该层的计算,并依次按层执行。
如图6所示,使用现场可编程门阵列作为协处理器并设计与量化神经网络相匹配的运算电路来加速神经网络的计算。图6中三个输入数据同时进行计算,以无符号数输入计算单元,和权重进行乘法操作,最后符号位通过与门进行快速计算,得到输出数据。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (7)
1.一种基于现场可编程阵列的量化神经网络加速方法,包括以下步骤:
S1、图像处理的神经网络的每一层表示为计算图,输入和权重经过卷积或者全连接计算之后,加上偏置值,再通过激活函数,得到最后的输出;将权重空间向稀疏的离散空间进行逼近;
S2、对经步骤S1处理后的权重进行数值量化,得到量化后的图像处理的神经网络;
S3、设计与量化后的图像处理的神经网络相匹配的加速器;
S4、量化后的图像处理的神经网络各层根据对应的加速器进行计算,得到图像处理结果。
2.根据权利要求1所述的一种基于现场可编程阵列的量化神经网络加速方法,其特征在于,所述步骤S1所述权重空间为连续复杂的实数空间。
3.根据权利要求2所述的一种基于现场可编程阵列的量化神经网络加速方法,其特征在于,稀疏的离散空间为{-1,0,+1}的离散空间。
4.根据权利要求3所述的一种基于现场可编程阵列的量化神经网络加速方法,其特征在于,所述步骤S2包括以下子步骤:
S21、获取权重空间逼近后的神经网络模型,得到近似逼近{-1,0,+1}的权重空间;
S22、定义离散化量化函数;
S23、计算损失函数统计图像分类标签和预测结果直接的差距;通过损失函数对权重的偏导数更新权重。
6.根据权利要求5所述的一种基于现场可编程阵列的量化神经网络加速方法,其特征在于,所述步骤S3包括存储器的改进,具体为:
A1:将片上的块随机存取存储器划分成两个分区,其中一个部分作为输入空间,另外一部分作为输出空间;输入空间用来存储计算所需的输入数据,输出空间用来存储临时数据和最后的计算结果;
A2:从输入空间读取部分输入数据进行运算,运算结果存储在输出空间;
A3:当前层计算完成后,交换两个分区,具体为:当前层的输出空间作为下一层的输入空间,当前层输入空间作为下一层的输出空间。
7.根据权利要求6所述的一种基于现场可编程阵列的量化神经网络加速方法,其特征在于,根据量化神经网络的权值空间为{-1,0,+1},所有的乘法运算采用与非/异或运算来代替。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011576097.2A CN112633477A (zh) | 2020-12-28 | 2020-12-28 | 一种基于现场可编程阵列的量化神经网络加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011576097.2A CN112633477A (zh) | 2020-12-28 | 2020-12-28 | 一种基于现场可编程阵列的量化神经网络加速方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112633477A true CN112633477A (zh) | 2021-04-09 |
Family
ID=75326033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011576097.2A Pending CN112633477A (zh) | 2020-12-28 | 2020-12-28 | 一种基于现场可编程阵列的量化神经网络加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633477A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537498A (zh) * | 2021-06-30 | 2021-10-22 | 电子科技大学 | 基于TrustZone的可信量化模型推理方法 |
CN113590529A (zh) * | 2021-07-16 | 2021-11-02 | 华中科技大学 | 一种cnn协处理器 |
CN114528101A (zh) * | 2022-02-14 | 2022-05-24 | 贵州电网有限责任公司 | 一种应用于电力边缘计算的神经网络的结构化动态量化方法 |
CN114897159A (zh) * | 2022-05-18 | 2022-08-12 | 电子科技大学 | 一种基于神经网络的快速推断电磁信号入射角的方法 |
CN115879530A (zh) * | 2023-03-02 | 2023-03-31 | 湖北大学 | 一种面向rram存内计算系统阵列结构优化的方法 |
WO2023071658A1 (zh) * | 2021-10-28 | 2023-05-04 | 华为技术有限公司 | Ai模型的处理方法、运算方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363279A (zh) * | 2018-03-26 | 2019-10-22 | 华为技术有限公司 | 基于卷积神经网络模型的图像处理方法和装置 |
CN110782022A (zh) * | 2019-10-31 | 2020-02-11 | 福州大学 | 一种面向可编程逻辑器件移动终端的小型神经网络的实现方法 |
-
2020
- 2020-12-28 CN CN202011576097.2A patent/CN112633477A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363279A (zh) * | 2018-03-26 | 2019-10-22 | 华为技术有限公司 | 基于卷积神经网络模型的图像处理方法和装置 |
CN110782022A (zh) * | 2019-10-31 | 2020-02-11 | 福州大学 | 一种面向可编程逻辑器件移动终端的小型神经网络的实现方法 |
Non-Patent Citations (2)
Title |
---|
JINYU ZHAN 等: "Field programmable gate array-based all-layer accelerator with quantization neural networks for sustainable cyber-physical systems", 《SOFTWARE: PRACTICE AND EXPERIENCE》 * |
江维 等: "可信嵌入式系统中可靠且能量有效的任务调度", 《四川大学学报(工程科学版)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537498A (zh) * | 2021-06-30 | 2021-10-22 | 电子科技大学 | 基于TrustZone的可信量化模型推理方法 |
CN113537498B (zh) * | 2021-06-30 | 2022-07-26 | 电子科技大学 | 基于TrustZone的可信量化模型推理方法 |
CN113590529A (zh) * | 2021-07-16 | 2021-11-02 | 华中科技大学 | 一种cnn协处理器 |
WO2023071658A1 (zh) * | 2021-10-28 | 2023-05-04 | 华为技术有限公司 | Ai模型的处理方法、运算方法及装置 |
CN114528101A (zh) * | 2022-02-14 | 2022-05-24 | 贵州电网有限责任公司 | 一种应用于电力边缘计算的神经网络的结构化动态量化方法 |
CN114897159A (zh) * | 2022-05-18 | 2022-08-12 | 电子科技大学 | 一种基于神经网络的快速推断电磁信号入射角的方法 |
CN115879530A (zh) * | 2023-03-02 | 2023-03-31 | 湖北大学 | 一种面向rram存内计算系统阵列结构优化的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633477A (zh) | 一种基于现场可编程阵列的量化神经网络加速方法 | |
Wan et al. | Tbn: Convolutional neural network with ternary inputs and binary weights | |
US10096134B2 (en) | Data compaction and memory bandwidth reduction for sparse neural networks | |
Nguyen et al. | Layer-specific optimization for mixed data flow with mixed precision in FPGA design for CNN-based object detectors | |
Kim et al. | Zero-centered fixed-point quantization with iterative retraining for deep convolutional neural network-based object detectors | |
CN113326930B (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
CN111667051A (zh) | 适用边缘设备的神经网络加速器及神经网络加速计算方法 | |
WO2020154083A1 (en) | Neural network activation compression with non-uniform mantissas | |
CN111240746B (zh) | 一种浮点数据反量化及量化的方法和设备 | |
Wang et al. | Evolutionary multi-objective model compression for deep neural networks | |
CN114698395A (zh) | 神经网络模型的量化方法和装置、数据处理的方法和装置 | |
CN113792621A (zh) | 一种基于fpga的目标检测加速器设计方法 | |
CN113222102A (zh) | 用于神经网络模型量化的优化方法 | |
CN113344179A (zh) | 基于fpga的二值化卷积神经网络算法的ip核 | |
CN114757347A (zh) | 低比特量化神经网络加速器实现方法和系统 | |
Shin et al. | Prediction confidence based low complexity gradient computation for accelerating DNN training | |
Shahshahani et al. | Memory optimization techniques for fpga based cnn implementations | |
Datta et al. | Towards energy-efficient, low-latency and accurate spiking LSTMs | |
Li et al. | High-performance convolutional neural network accelerator based on systolic arrays and quantization | |
CN110110852B (zh) | 一种深度学习网络移植到fpag平台的方法 | |
Guan et al. | Recursive binary neural network learning model with 2.28 b/weight storage requirement | |
CN111882028B (zh) | 用于卷积神经网络的卷积运算装置 | |
Park et al. | Squantizer: Simultaneous learning for both sparse and low-precision neural networks | |
Hoang et al. | FPGA oriented compression of DNN using layer-targeted weights and activations quantization | |
US20220405576A1 (en) | Multi-layer neural network system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210409 |
|
RJ01 | Rejection of invention patent application after publication |