CN112862080B - EfficientNet的注意力机制的硬件计算方法 - Google Patents
EfficientNet的注意力机制的硬件计算方法 Download PDFInfo
- Publication number
- CN112862080B CN112862080B CN202110262446.1A CN202110262446A CN112862080B CN 112862080 B CN112862080 B CN 112862080B CN 202110262446 A CN202110262446 A CN 202110262446A CN 112862080 B CN112862080 B CN 112862080B
- Authority
- CN
- China
- Prior art keywords
- convolution
- attention mechanism
- hardware
- layer
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供一种EfficientNet的注意力机制的硬件计算方法,该方法对EfficientNet的注意力机制模块实现了硬件的计算,对深度卷积层后的注意力机制模块设计了硬件进行相应计算,减少注意力机制模块所需计算时间,加速得到在深度卷积后进行注意力机制模块运算的结果特征。有助于卷积层的流水式运行,减少卷积神经网络卷积块的计算延时。
Description
技术领域
本发明涉及卷积神经网络在图像检测和识别方法领域,更具体地,涉及一种EfficientNet的注意力机制的硬件计算方法。
背景技术
卷积神经网络在图像检测和识别领域有效地应用,但是移动端的系统在部署卷积神经网络(CNN)完成实时目标识别时,使用移动端的中央处理器(CPU)去完成卷积计算的计算挑战是非常大的。因此,采用专用集成电路(ASIC),现场可编程逻辑门阵列(FPGA)加速器和图形处理单元(GPU)作为协处理器来提高识别的速度,减少识别延时,减少中央处理器的计算负担具有重要的意义。在移动端侧的目标识别系统还需要具有低功耗,相比起GPU,基于FPGA的卷积神经加速器具有低功耗的优势。
快速发展的卷积神经网络具有更复杂的结构,其表现为更深层的网络层数,更多的网络分支处理。传统的标准的卷积神经网络有大量的计算和参数量,很难在移动端或者嵌入式设备中部署,而深度可分离卷积神经网络的出现减轻了标准卷积的参数和计算量,适合在移动端或嵌入式端部署。谷歌在2019年提出EfficientNet卷积神经网络,通过放大EfficientNet b0基础模型,获得了一系列EfficientNet模型。但EfficientNet具有残差分支和注意力机制模块使得其网络结构复杂,不利于在移动端或者嵌入式侧部署EfficientNet网络。而FPGA的硬件可编程性质就能适应到卷积神经网络结构的变化,在FPGA上部署EfficientNet卷积神经网络加速器具有较高的价值。
EfficientNet卷积神经网络是由MBconvBlock块的通过重复结合而成的结构。MBconvBlock模块的拓朴图见图1:输入到卷积和激活,到深度卷积和激活,将结果按每个通道进行全局平均池化,进行1维卷积降维,1维卷积升维。进行每个通道相乘,后进行卷积。如果该MBconvBlock块的步长为1,就进行输入残差相加,从而完成一个完成的MBconvBlock块的计算。
EfficientNet卷积神经注意力机制的计算过程见图2,将深度卷积后的结果,按每个通道为单位,进行全局平均池化,得到与通道数量一样的系数,如C个通道得到C个系数。将C个系数进行1维卷积的降维变成C/r个系数,r为一个因子。再将C/r个系数进行1维卷积升维变成C个系数。EfficientNet的MBconvBlock块的深度卷积的每个通道的像素和对应通道的系数进行相乘,得到经过注意力机制的特征图结果。
目前基于FPGA的卷积神经网络加速器的单一中央计算阵列适合参数量大的,网络层数少的传统标准卷积。对于新型的深度可分离的卷积的结构,尤其是深度卷积的计算,由于其计算较传统标准卷积更为稀疏,导致一个传统标准的中央卷积计算阵列计算效率不高。本发明的设计的硬件能对EfficientNet的MBconvBlock块的深度卷积进行计算加速;目前较新的卷积神经网络通常带有注意力机制模块,比如MobileNet V3和EfficientNet系列的网络。但目前的卷积神经网络加速器没有专门处理注意力机制的硬件,导致在处理MobileNet V3,EfficientNet等带注意力机制模块的卷积神经网络的时候,需要用软件等其他方法处理。没有专门处理注意力机制的硬件,会导致计算注意力机制的所需的时间较长,会阻塞到接下来的卷积层的运行,从而使得卷积神经网络的计算延时加大。
发明内容
本发明提供一种EfficientNet的注意力机制的硬件计算方法,该方法有助于卷积层的数据以流水的方式运行,减少卷积神经网络的计算延时。
为了达到上述技术效果,本发明的技术方案如下:
一种EfficientNet的注意力机制的硬件计算方法,包括以下步骤:
S1:通过深度卷积计算引擎和注意力机制硬件完成EfficientNet的深度卷积和注意力机制运算的计算;
S2:通过深度卷积计算引擎和注意力机制硬件完成EfficientNet的MBconvBlock的运算。
进一步地,所述步骤S1中,在全局控制单元的控制下,从特征图缓冲区读取特征图,从权重缓冲区读取权重,进行深度卷积运算,进行Hswish函数激活;
Hswish函数激活的硬件数量等于卷积计算阵列每个周期输出的结果的个数,深度卷积计算引擎并行输出的结果能立刻进行激活,实现输出数据流过Hswish函数激活硬件;得到经过激活的结果就可以送入注意力模块硬件,其过程为将激活的结果按同一个输出通道的安排送入加法树进行累加,同时每个周期的激活的结果以并行的数据读写方式写入深度卷积引擎输出特征缓冲区;等到深度卷积阵列把该深度卷积层的运算算完后,此时同一个输出通道的激活结果也累加完,求平均数后得到了用于一维降维卷积的系数;当得到用于一维降维卷积的全部系数,在几个时钟周期内执行完一维降维卷积,其后执行一维升维卷积,得到全部的用于通道相乘的系数;以并行数据流的方式从深度卷积引擎输出特征缓冲区读出特征送入乘法器完成每个通道的特征和对应每个通道的系数的相乘,此时得到的特征图即是经过注意力模块运算的特征图,以并行数据方式送去输入特征缓冲区。
进一步地,步骤S2中,实现深度卷积引擎的分时复用计算MBconvBlock块的第一层卷积,第二层深度卷积和第三层卷积;加载第一层卷积的输入特征和权重,正常启动卷积计算,但不启动注意力机制硬件;等算完第一层卷积的时候,将输出特征缓冲区的结果送入特征缓冲区,开始进行深度卷积和注意力机制的运算工作;深度卷积输出特征缓冲区的数据经过通道乘法器阵列送到输入特征缓冲区,开启第三层卷积的运算;如果MBconvBlock块有输入特征残差项相加,则将MBconvBlock块的第一层逐点卷积的输入特征和第三层逐点卷积的输出特征图进行相加;经过三个卷积层计算而完成了一个MBconvBlock块的计算,将特征结果送出到外部存储器。
与现有技术相比,本发明技术方案的有益效果是:
本发明设计深度卷积计算引擎融合了注意力机制的硬件实现,有助于卷积层的流水式运行,使得该加速器能更好地计算EfficientNet的深度卷积和注意力机制模块;设计了深度卷积融合注意力模块的硬件架构的工作过程。本发明把深度卷积后的注意力机制模块的工作过程分为两个阶段,描述了每个阶段控制通路和数据通路。减少注意力机制模块所需计算时间,加速得到在深度卷积后进行注意力机制模块运算的结果特征;本发明利用设计的深度卷积计算引擎和注意力机制的硬件,完成了一个EfficientNet的MBconvBlock块的计算过程;本发明对EfficientNet的注意力机制模块实现了硬件的计算。对深度卷积层后的注意力机制模块设计了硬件进行相应计算,减少注意力机制模块所需计算时间,加速得到在深度卷积后进行注意力机制模块运算的结果特征。有助于卷积层的流水式运行,减少卷积神经网络的计算延时。
附图说明
图1为现有技术中MBconvBlock块的内部计算过程图;
图2为现有技术中卷积神经网络的注意力机制模块的计算过程;
图3为深度卷积融合注意力模块的硬件架构图;
图4为深度卷积引擎融合注意力硬件工作流程图;
图5为MBconvBlock块的加速的总体流程;
图6为MBconvBlock块加速的数据通路和控制通路图;
图7为深度卷积融合注意力硬件电路的流水线指标图;
图8为输入特征缓冲区寄存器级视图;
图9为权重缓冲区寄存器级视图;
图10为卷积计算阵列视图;
图11为输出特征缓冲区和注意力机制硬件实现视图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
深度卷积融合注意力模块的架构:是用于深度卷积以及注意力机制模块的运算。
深度卷积融合注意力模块的硬件实现思路:与深度卷积的计算过程进行融合,将注意力模块的硬件有机融入到深度卷积计算引擎中。
深度卷积融合注意力模块的硬件包含的结构:深度卷积计算引擎,Hswish函数激活硬件,同一输出通道加法器,系数寄存器,一维降维卷积乘法阵列,一维升维卷积乘法阵列,通道乘法器阵列。
其中同一输出通道加法器,系数寄存器,一维降维卷积乘法阵列,一维升维卷积乘法阵列,通道乘法器阵列是用于注意力机制模块的计算。如图3深度卷积与注意力模块的硬件架构图的虚线框标出。
本发明提供一种EfficientNet的注意力机制的硬件计算方法,包括以下步骤:
S1:通过深度卷积计算引擎和注意力机制硬件完成EfficientNet的深度卷积和注意力机制运算的计算;
S2:通过深度卷积计算引擎和注意力机制硬件完成EfficientNet的MBconvBlock的运算。
如图4所示,步骤S1的具体过程包括两个阶段:
第一阶段:深度卷积计算—激活—全局平均池化
在全局控制逻辑控制下,从特征图缓冲区读取特征图,从权重缓冲区读取权重,进行深度卷积运算,进行Hswish函数激活。
Hswish函数激活的硬件数量等于卷积计算阵列每个周期输出的结果的个数,目的是深度卷积计算引擎并行输出的结果能立刻进行激活,实现输出数据流过Hswish函数激活硬件。
得到经过激活的结果就可以送入注意力模块硬件,其过程为将激活的结果按同一个输出通道的安排送入加法树进行累加。与此同时每个周期的激活的结果以并行的数据读写方式写入深度卷积引擎输出特征缓冲区,见图4的标号为1的数据流。
第二阶段:一维降维卷积—一维升维卷积—通道相乘
等到深度卷积阵列把该深度卷积层的运算算完后,此时同一个输出通道的激活结果也累加完,求平均数后得到了用于一维降维卷积的系数。当得到用于一维降维卷积的全部系数,在几个时钟周期内执行完一维降维卷积,其后执行一维升维卷积。得到全部的用于通道相乘的系数。
然后开始以并行数据流的方式从深度卷积引擎输出特征缓冲区读出特征送入乘法器完成每个通道的特征和对应每个通道的系数的相乘。此时得到的特征图即是经过注意力模块运算的特征图,以并行数据方式送去输入特征缓冲区。
如图5所示,步骤S2的具体过程是:
基于EfficientNet的MBconvBlock块包含了卷积—深度卷积—注意力机制模块—卷积的计算过程。
利用深度卷积引擎配合完成一个MBconvBlock块的运算的具体的数据通路实现如下:
实现深度卷积引擎的分时复用计算MBconvBlock块的第一层卷积,第二层深度卷积和第三层卷积。
加载第一层卷积的输入特征和权重,正常启动卷积计算,但不启动注意力机制硬件,如图6的标号为1的数据流。
等算完第一层卷积的时候,将输出特征缓冲区的结果送入特征缓冲区,开始进行深度卷积和注意力机制的运算工作,如图6的标号为2的数据流。
深度卷积输出特征缓冲区的数据经过通道乘法器阵列送到输入特征缓冲区,开启第三层卷积的运算。最后如果MBconvBlock块有输入特征残差项相加,则将MBconvBlock块的第一层逐点卷积的输入特征和第三层逐点卷积的输出特征图进行相加。如图6的标号为3的数据流。
经过三个卷积层计算而完成了一个MBconvBlock块的计算,将特征结果送出到外部存储器,如图6的虚线数据流。
通过高层次综合工具,对深度卷积融合注意力机制模块进行建模,按本发明的架构实现深度卷积阵列和注意力硬件,目的是测试本发明的设计的深度卷积融合注意力机制模块架构和电路,在流水运行的时候的指标。
启动间隔(interval):可以接受新输入数据之前的时钟周期数,见图7,可以看到深度卷积启动间隔都为2。可以看到一维降维卷积乘法器阵列,一维升维卷积乘法器阵列,通道乘法器阵列的启动间隔都为1。说明本发明实现的电路在流水式运行的时候较良好。
通过工具,按本发明的深度卷积阵列和注意力硬件架构,在寄存器传输级别进行建模,对深度卷积融合注意力机制模块硬件实现进行建模。其寄存器传输级别的视图如下:输入特征缓冲区寄存器级视图见图8,权重缓冲区寄存器级视图见图9,卷积计算阵列视图见图10,输出特征缓冲区和注意力机制硬件实现视图见图11。本发明从寄存器传输级别上是可以实现的。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种EfficientNet的注意力机制的硬件计算方法,其特征在于,包括以下步骤:
S1:通过深度卷积计算引擎和注意力机制硬件完成EfficientNet的深度卷积和注意力机制运算的计算;
S2:通过深度卷积计算引擎和注意力机制硬件完成EfficientNet的MBconvBlock的运算;
所述步骤S1中,在全局控制单元的控制下,从特征图缓冲区读取特征图,从权重缓冲区读取权重,进行深度卷积运算,进行Hswish函数激活;
Hswish函数激活的硬件数量等于卷积计算阵列每个周期输出的结果的个数,深度卷积计算引擎并行输出的结果能立刻进行激活,实现输出数据流过Hswish函数激活硬件;
所述步骤S1中,得到经过激活的结果送入注意力模块硬件,其过程为将激活的结果按同一个输出通道的安排送入加法树进行累加,同时每个周期的激活的结果以并行的数据读写方式写入深度卷积引擎输出特征缓冲区;
步骤S1中,等到深度卷积阵列把该深度卷积层的运算算完后,此时同一个输出通道的激活结果也累加完,求平均数后得到了用于一维降维卷积的系数;当得到用于一维降维卷积的全部系数,在几个时钟周期内执行完一维降维卷积,其后执行一维升维卷积,得到全部的用于通道相乘的系数;
步骤S1中,以并行数据流的方式从深度卷积引擎输出特征缓冲区读出特征送入乘法器完成每个通道的特征和对应每个通道的系数的相乘,此时得到的特征图即是经过注意力模块运算的特征图,以并行数据方式送去输入特征缓冲区;
步骤S2中,实现深度卷积引擎的分时复用计算MBconvBlock块的第一层卷积,第二层深度卷积和第三层卷积;加载第一层卷积的输入特征和权重,正常启动卷积计算,但不启动注意力机制硬件;
步骤S2中,等算完第一层卷积的时候,将输出特征缓冲区的结果送入特征缓冲区,开始进行深度卷积和注意力机制的运算工作;
步骤S2中,深度卷积输出特征缓冲区的数据经过通道乘法器阵列送到输入特征缓冲区,开启第三层卷积的运算;
步骤S2中,如果MBconvBlock块有输入特征残差项相加,则将MBconvBlock块的第一层逐点卷积的输入特征和第三层逐点卷积的输出特征图进行相加;
步骤S2中,经过三个卷积层计算而完成了一个MBconvBlock块的计算,将特征结果送出到外部存储器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262446.1A CN112862080B (zh) | 2021-03-10 | 2021-03-10 | EfficientNet的注意力机制的硬件计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262446.1A CN112862080B (zh) | 2021-03-10 | 2021-03-10 | EfficientNet的注意力机制的硬件计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112862080A CN112862080A (zh) | 2021-05-28 |
CN112862080B true CN112862080B (zh) | 2023-08-15 |
Family
ID=75993954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110262446.1A Active CN112862080B (zh) | 2021-03-10 | 2021-03-10 | EfficientNet的注意力机制的硬件计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112862080B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114528989B (zh) * | 2022-04-24 | 2022-09-09 | 深圳比特微电子科技有限公司 | 注意力机制电路 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284817A (zh) * | 2018-08-31 | 2019-01-29 | 中国科学院上海高等研究院 | 深度可分离卷积神经网络处理架构/方法/系统及介质 |
CN109948784A (zh) * | 2019-01-03 | 2019-06-28 | 重庆邮电大学 | 一种基于快速滤波算法的卷积神经网络加速器电路 |
CN110458279A (zh) * | 2019-07-15 | 2019-11-15 | 武汉魅瞳科技有限公司 | 一种基于fpga的二值神经网络加速方法及系统 |
CN111178518A (zh) * | 2019-12-24 | 2020-05-19 | 杭州电子科技大学 | 一种基于fpga的软硬件协同的加速方法 |
CN111488983A (zh) * | 2020-03-24 | 2020-08-04 | 哈尔滨工业大学 | 一种基于fpga的轻量级cnn模型计算加速器 |
-
2021
- 2021-03-10 CN CN202110262446.1A patent/CN112862080B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284817A (zh) * | 2018-08-31 | 2019-01-29 | 中国科学院上海高等研究院 | 深度可分离卷积神经网络处理架构/方法/系统及介质 |
CN109948784A (zh) * | 2019-01-03 | 2019-06-28 | 重庆邮电大学 | 一种基于快速滤波算法的卷积神经网络加速器电路 |
CN110458279A (zh) * | 2019-07-15 | 2019-11-15 | 武汉魅瞳科技有限公司 | 一种基于fpga的二值神经网络加速方法及系统 |
CN111178518A (zh) * | 2019-12-24 | 2020-05-19 | 杭州电子科技大学 | 一种基于fpga的软硬件协同的加速方法 |
CN111488983A (zh) * | 2020-03-24 | 2020-08-04 | 哈尔滨工业大学 | 一种基于fpga的轻量级cnn模型计算加速器 |
Also Published As
Publication number | Publication date |
---|---|
CN112862080A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886400B (zh) | 基于卷积核拆分的卷积神经网络硬件加速器系统及其计算方法 | |
CN109784489B (zh) | 基于fpga的卷积神经网络ip核 | |
US20180260711A1 (en) | Calculating device and method for a sparsely connected artificial neural network | |
CN108764466A (zh) | 基于现场可编程门阵列的卷积神经网络硬件及其加速方法 | |
CN108537746A (zh) | 一种基于深度卷积网络的模糊可变图像盲复原方法 | |
WO2020069239A1 (en) | Exploiting activation sparsity in deep neural networks | |
CN109284824B (zh) | 一种基于可重构技术的用于加速卷积和池化运算的装置 | |
KR20190041921A (ko) | 액티베이션 연산과 컨벌루션 연산을 동시에 수행하기 위한 방법 및 장치 그리고 이를 위한 학습 방법 및 학습 장치 | |
CN112862080B (zh) | EfficientNet的注意力机制的硬件计算方法 | |
CN109657794B (zh) | 一种基于指令队列的分布式深度神经网络性能建模方法 | |
Russo et al. | DNN model compression for IoT domain-specific hardware accelerators | |
CN111815526B (zh) | 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统 | |
CN108446758B (zh) | 一种面向人工智能计算的神经网络数据串行流水处理方法 | |
CN113344179A (zh) | 基于fpga的二值化卷积神经网络算法的ip核 | |
Abd El-Maksoud et al. | Power efficient design of high-performance convolutional neural networks hardware accelerator on FPGA: A case study with GoogLeNet | |
Mao et al. | Fta-gan: A computation-efficient accelerator for gans with fast transformation algorithm | |
Domingos et al. | An efficient and scalable architecture for neural networks with backpropagation learning | |
Irmak et al. | An energy-efficient FPGA-based convolutional neural network implementation | |
Jin et al. | Sparse ternary connect: Convolutional neural networks using ternarized weights with enhanced sparsity | |
Mazouz et al. | Automated offline design-space exploration and online design reconfiguration for CNNs | |
Jiang et al. | Hardware implementation of depthwise separable convolution neural network | |
Acosta et al. | Custom architectures for fuzzy and neural networks controllers | |
CN113033795B (zh) | 基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器 | |
CN110930290B (zh) | 一种数据处理方法及装置 | |
CN111143208B (zh) | 基于处理器技术辅助fpga实现ai算法的验证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |