CN110178146B - 反卷积器及其所应用的人工智能处理装置 - Google Patents

反卷积器及其所应用的人工智能处理装置 Download PDF

Info

Publication number
CN110178146B
CN110178146B CN201880002766.XA CN201880002766A CN110178146B CN 110178146 B CN110178146 B CN 110178146B CN 201880002766 A CN201880002766 A CN 201880002766A CN 110178146 B CN110178146 B CN 110178146B
Authority
CN
China
Prior art keywords
buffer
deconvolutor
deconvolution
data
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880002766.XA
Other languages
English (en)
Other versions
CN110178146A (zh
Inventor
肖梦秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Corerain Technologies Co Ltd
Original Assignee
Shenzhen Corerain Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Corerain Technologies Co Ltd filed Critical Shenzhen Corerain Technologies Co Ltd
Publication of CN110178146A publication Critical patent/CN110178146A/zh
Application granted granted Critical
Publication of CN110178146B publication Critical patent/CN110178146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Image Processing (AREA)
  • Microcomputers (AREA)
  • Complex Calculations (AREA)

Abstract

一种反卷积器(100)及其所应用的人工智能处理装置,电性连接至外部存储器(200),所述外部存储器(200)存储有待处理数据及权重参数;反卷积器(100)包括:参数缓存器(110)、输入缓存器、反卷积运算电路(140)及输出缓存器(150);参数缓存器(110)用于接收并输出所述权重参数;输入缓存器包括:多个相连的行缓存器,用于接收并输出待处理数据;其中,各行缓存器每输出一位数据则集合形成一列数据输出;反卷积运算电路(140)用于从所述输入缓存器接收待处理数据、从参数缓存器(110)接收权重参数,据以进行反卷积运算并输出反卷积运算结果;输出缓存器(150)用于接收反卷积运算结果并将该反卷积运算结果向外部存储器(200)输出。可有效解决现有技术中通过软件运算实现带来的处理速度变慢,对处理器性能要求高的问题。

Description

反卷积器及其所应用的人工智能处理装置
技术领域
本发明涉及处理器技术领域,特别是涉及人工智能处理器技术领域,具体为反卷积器及其所应用的人工智能处理装置。
背景技术
反卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。反卷积神经网络包括反卷积层(convolutional layer))和池化层(pooling layer)。
现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。
一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为反卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。反卷积神经网络中的每一个反卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是反卷积网络相对于神经元彼此相连网络的一大优势。反卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
目前,反卷积神经网络都是通过运行在一个处理器或多个分布式处理中的软件进行运算实现,随着反卷积神经网络的复杂性增大,处理速度相对就会减慢,而且对处理器的性能要求也越来越高。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供反卷积器及其所应用的人工智能处理装置,用于解决现有技术中反卷积神经网络均是通过软件运算实现带来的处理速度变慢,对处理器性能要求高的问题。
为实现上述目的及其他相关目的,本发明提供一种反卷积器,电性连接至外部存储器,其中,所述外部存储器存储有待处理数据及权重参数;所述反卷积器包括:参数缓存器、输入缓存器、反卷积运算电路及输出缓存器;所述参数缓存器用于接收并输出所述权重参数;所述输入缓存器包括:多个相连的行缓存器,用于接收并输出所述待处理数据;其中,各所述行缓存器每输出一位数据则集合形成一列数据输出;所述反卷积运算电路用于从所述输入缓存器接收所述待处理数据、从所述参数缓存器接收权重参数,据以进行反卷积运算并输出反卷积运算结果;所述输出缓存器用于接收所述反卷积运算结果并将该反卷积运算结果向所述外部存储器输出。
于本发明的一实施例中,所述输入缓存器包括:第一行缓存器,逐位接收待处理的特征图谱的像素数据,经过滤波器之后同时输出行像素数据,并存储输入的各反卷积层的所述特征图谱。
于本发明的一实施例中,所述第一行缓存器依次输出各所述反卷积层的行像素数据,并在输出每一个所述反卷积层行像素数据时依次输出各通道数据的行像素数据。
于本发明的一实施例中,所述输入缓存器还包括:至少一个第二行缓存器,用于从所述外部存储器获取各个滤波器的权重参数并依次输入到所述参数缓存器。
于本发明的一实施例中,所述反卷积运算电路包括:多个并行运行的反卷积核,每一个所述反卷积核包含用于进行反卷积运算的乘法器;加法器树,对多个所述乘法器的输出结果进行累加;每一个所述反卷积器输入K×K矩阵形式的像素数据,根据输入的像素数据和所述权重参数经过反卷积运算逐位输出像素数据。
于本发明的一实施例中,所述输出缓存器包括:并行的多个FIFO存储器,经过同一个滤波器的通道数据经累加后存入同一个所述FIFO存储器中;数据选择器,用于将每次累加的结果返回至所述加法器树直至所述加法器输出最终的累加结果。
于本发明的一实施例中,所述反卷积器还包括:池化运算电路,连接于所述输出缓存器和所述外部存储器之间,用于对所述反卷积运算结果进行池化后向外部存储器输出。
于本发明的一实施例中,所述反卷积器所包括的各内部部件之间、以及所述反卷积器与所述外部存储器之间通过先入先出数据接口连接。
本发明还提供一种人工智能处理装置,所述人工智能处理装置包括如上所述的反卷积器。
如上所述,本发明的反卷积器及其所应用的人工智能处理装置,具有以下有益效果:
本发明的反卷积器由参数缓存器、输入缓存器、反卷积运算电路、输出缓存器,池化运算电路以及先入先出数据接口等硬件组成,可高速处理复杂度高的反卷积神经网络算法,可以有效解决现有技术中通过软件运算实现带来的处理速度变慢,对处理器性能要求高的问题。
附图说明
图1显示为现有技术中的一种反卷积器的整体原理示意图。
图2显示为本发明的一种反卷积器的输入输出示意图。
元件标号说明
100      反卷积器
110      参数缓存器
120      第一行缓存器
130      第二行缓存器
140      反卷积运算电路
150      输出缓存器
160      池化运算电路
200      外部存储器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,如图1至图2所示,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本实施例的目的在于提供一种反卷积器及其所应用的人工智能处理装置,用于解决现有技术中反卷积神经网络均是通过软件运算实现带来的处理速度变慢,对处理器性能要求高的问题。以下将详细描述本实施例的一种反卷积器及其所应用的人工智能处理装置的原理和实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的一种反卷积器及其所应用的人工智能处理装置。
具体地,如图1所示,本实施例提供一种反卷积器100,所述反卷积器100电性连接至外部存储器200,其中,所述外部存储器200存储有待处理数据及权重参数;所述反卷积器100包括:参数缓存器110、输入缓存器、反卷积运算电路140及输出缓存器150。
所述第一待处理数据包含多个通道数据;所述第一权重参数包含多层子参数,每层子参数分别一一对应各个通道数据;所述反卷积运算电路140有多个,用于一一对应地并行计算各个通道数据的反卷积运算结果。
于本实施例中,所述参数缓存器110(图2中所示的Con_reg)用于接收并输出所述权重参数(图2中所示的Weight)。所述参数缓存器110包括一FIFO存储器,所述权重参数存储于所述FIFO存储器中。其中,输入缓存器、反卷积运算电路140及输出缓存器150中的参数均配置好后也储存于所述参数缓存器110中。
于本实施例中,所述输入缓存器包括:多个相连的行缓存器,用于接收并输出所述待处理数据;其中,各所述行缓存器每输出一位数据则集合形成一列数据输出。
所述输入缓存器包括第一行缓存器120(图2中所示的RAM,第二行缓存器130(图2中所示的Coef_reg)。第一行缓存器120,第二行缓存器130)用于将1*1像素数据的输入进行处理输出K*K像素数据。其中,K为反卷积核的大小。以下对所述输入缓存器进行详细说明。
具体地,于本实施例中,所述第一行缓存器120逐位接收待处理的特征图谱的像素数据,经过滤波器之后同时输出行像素数据,并存储输入的各反卷积层的所述特征图谱;其中,行像素每行的数据个数为并行的滤波器数量。
于本实施例中,所述第一行缓存器120包括一RAM,每个反卷积层的特征图谱输入像素数据将被缓存RAM中,以提高像素数据的本地化存储。
其中,于本实施例中,所述第一行缓存器120依次输出各所述反卷积层的行像素数据,并在输出每一个所述反卷积层行像素数据时依次输出各通道数据的行像素数据。即所述第一行缓存器120在开始时输出第一个通道的像素数据,当对第一个通道的像素数据处理完成后,所述第一行缓存器120开始输出第二个通道的像素数据,当一个反卷积层的所有通道的像素数据都输出后,进行下一个反卷积层的通道的像素数据输出。其中,所述第一行缓存器120会利用不同的滤波器从第一个反卷积层到最后一个反卷积层进行迭代计算输出。
于本实施例中,所述输入缓存器还包括:至少一个第二行缓存器130,如图2所示,所述第二行缓存器130包含一个FIFO存储器,所述第二行缓存器130(图2中所示的Coef_reg)用于从所述外部存储器200获取各个滤波器的权重参数并依次输入到所述参数缓存器。其中,所述第二行缓存器130与所述外部存储器200通过先入先出数据接口(图2中所示的多个SIF)连接。所述第二行缓存器130输出的像素数据为k*k矩阵形式的像素数据。
于本实施例中,所述反卷积运算电路140用于从所述输入缓存器接收所述待处理数据、从所述参数缓存器110接收权重参数,据以进行反卷积运算并输出反卷积运算结果。
具体地,于本实施例中,所述反卷积运算电路140包括:多个并行运行的反卷积核,每一个所述反卷积核包含用于进行反卷积运算的乘法器;加法器树,对多个所述乘法器的输出结果进行累加;每一个所述反卷积器100输入K×K矩阵形式的像素数据,根据输入的像素数据和所述权重参数经过反卷积运算逐位输出像素数据。
即所述反卷积运算电路140包括多个乘法器,其中,所述乘法器所采用的矩阵是卷积器采用矩阵的转置。每个时钟周期内所述反卷积器输入的一个K×K矩阵形式的像素数据与乘法器的转置矩阵的每一列相乘,得到一列输出,分别存在所述输出缓存器150的k个FIFO存储器中。
举例来讲,图像有R、G、B三个通道数据,即三个二维矩阵,假设第一权重参数即filter的深度为3,即具有三层子权重参数,即三个二维矩阵,每个长宽设为K*K,假设K是奇数3,分别与三个Chanel反卷积运算,当从第一待处理数据取出Pv*k*3的一个数据立方体(Pv>K),假设Pv是5,则该filter要与该数据立方体通过反卷积运算电路140三次才能运算完毕,而优选的,反卷积运算电路140可以设有对应数量的3个,从而可以在一个时钟周期内并行进行各自所负责Channel的反卷积运算。
于本实施例中,所述输出缓存器150用于接收所述反卷积运算结果并将该反卷积运算结果向所述外部存储器200输出。
具体地,所述输出缓存器150接收每一个通道的反卷积运算结果,然后累加所有通道数据的反卷积运算结果,结果暂时存储于所述输出缓存器150。
具体地,于本实施例中,如图5所示,所述输出缓存器150包括:并行的多个FIFO存储器,经过同一个滤波器的通道数据经累加后存入同一个所述FIFO存储器中;数据选择器(MUX),用于将每次累加的结果返回至所述加法器树直至所述加法器输出最终的累加结果。
其中,每一个所述FIFO存储器输出K*W*H矩阵形式的像素数据,一个滤波器的输出结果被存储于K个FIFO存储器,此外,数据选择器(MUX)还用于将数据流速度降至1*1,一位一位像素点像素输出。
于本实施例中,所述反卷积器100还包括:池化运算电路160,连接于所述输出缓存器150和所述外部存储器200之间,用于对所述反卷积运算结果进行池化后向外部存储器200输出。
所述池化运算电路160为每两行像素数据提供最大的池,所述池化运算电路160也包含一个FIFO存储器,用于存储每行像素数据。
具体的,池化方式可以是Max pooling,也可以是Average pooling,都可以通过逻辑电路实现。
于本实施例中,所述反卷积器100所包括的各内部部件之间、以及所述反卷积器100与所述外部存储器200之间通过先入先出数据接口连接。
具体地,所述先入先出数据接口包括:先入先出存储器,第一逻辑单元和第二逻辑单元。
其中,所述先入先出存储器包括:上行的可写使能管脚、数据输入管脚、及存储器满状态标识管脚;以及,下行的可读使能管脚、数据输出管脚、及存储器空状态标识管脚;
所述第一逻辑单元连接上行对象、所述可写使能管脚、及存储器满状态标识管脚,用于在接收到上行对象的写请求时,根据存储器满状态标识管脚上的信号确定所述先入先出存储器是否已满;若未满,则发送使能信号至可写使能管脚来令先入先出存储器可写;否则,令所述先入先出存储器不可写。
具体地,所述第一逻辑单元包括:第一反向器,其输入端连接所述存储器满状态标识管脚,其输出端引出供连接上行对象的第一标识端;第一与门,其第一输入端连接所述第一数据有效标识端,其第二输入端连接于供连接上行对象的上行数据有效端,其输出端连接所述可写使能管脚。
所述第二逻辑单元连接下行对象、所述可读使能管脚、及存储器空状态标识管脚,用于在接收到下行对象的读请求时,根据存储器空状态标识管脚上的信号确定所述先入先出存储器是否已空;若未空,则发送使能信号至可读使能管脚来令先入先出存储器可读;否则,令所述先入先出存储器不可读。
具体地,所述第二逻辑单元包括:第二反向器,其输入端连接所述存储器空状态标识管脚,其输出端引出供连接下行对象的下行数据有效端;第二与门,其第一输入端连接所述下行数据有效端,其第二输入端连接于供连接下行对象的下行数据有效标识端。
本实施例中,反卷积器100的运行过程如下:
通过先入先出数据接口从外部存储器200读取待处理数据,并存储至第一行缓存器120(图2中所示的Conv_in_cache)的BRAM。
其中,所述待处理数据即为特征图谱和卷积参数,特征图谱大小为NC×W1×H1,卷积参数包括滤波器数量NF,卷积核大小k*k,步幅s和边界扩充(Padding)p。
第二行缓存器130通过先入先出数据接口(SIF)从外部存储器200读取NF(NC*k*k)的权重参数(一个通道),然后存储至所述参数缓存器110。
一旦所述参数缓存器110加载到一个权重参数,开始接收处理特征图谱的像素数据,通过第一行缓存器120、第二行缓存器130的处理,所述反卷积运算电路140每时钟周期接收到k*k像素数据。
通过所述反卷积运算电路140对每一个通道(每一个通道输入的特征图谱的高为H和宽为W)的输入数据进行反卷积累加,然后输出各通道的结果至所述输出缓存器150。
循环访问不同的输入通道,所述输出缓存器150累加每一个通道的数据结果直到获取到NF×W2×H2的特征图谱。
然后可以利用池化运算电路160接收NF×W2×H2像素数据做池化处理后再输出特征图谱,也可以直接从所述输出缓存器150输出特征图谱。
当所述池化运算电路160或所述输出缓存器150输出经过一个滤波器处理的特征图谱之后,所述参数缓存器110重新加载到一个权重参数,通过不同的滤波器重复迭代上述像素处理过程,直至完成所有反卷积层的像素处理。
本实施例还提供一种人工智能处理装置,所述人工智能处理装置包括如上所述的反卷积器100。上述已对所述反卷积器100进行了详细说明,在此不再赘述。
其中,所述人工智能处理器,包括:可编程逻辑电路(PL)及处理系统电路(PS)。所述处理系统电路包括中央处理器,其可通过MCU、SoC、FPGA或DSP等实现,例如ARM架构的嵌入式处理器芯片等;所述中央处理器与外部存储器200通信连接,所述外部存储器200例如为RAM或ROM存储器,例如三代、四代DDR SDRAM等;所述中央处理器可对外部存储器200读写数据。
综上所述,本发明的反卷积器由参数缓存器、输入缓存器、反卷积运算电路、输出缓存器,池化运算电路以及先入先出数据接口等硬件组成,可高速处理复杂度高的反卷积神经网络算法,可以有效解决现有技术中通过软件运算实现带来的处理速度变慢,对处理器性能要求高的问题。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (7)

1.一种反卷积器,电性连接至外部存储器,其中,所述外部存储器存储有待处理数据及权重参数;其特征在于,所述反卷积器包括:参数缓存器、输入缓存器、反卷积运算电路及输出缓存器;
所述参数缓存器用于接收并输出所述权重参数;
所述输入缓存器包括:多个相连的行缓存器,用于接收并输出所述待处理数据;其中,各所述行缓存器每输出一位数据则集合形成一列数据输出;
所述反卷积运算电路用于从所述输入缓存器接收所述待处理数据、从所述参数缓存器接收权重参数,据以进行反卷积运算并输出反卷积运算结果;
所述输出缓存器用于接收所述反卷积运算结果并将该反卷积运算结果向所述外部存储器输出;
所述输入缓存器包括:
第一行缓存器,逐位接收待处理的特征图谱的像素数据,经过滤波器之后同时输出行像素数据,并存储输入的各反卷积层的所述特征图谱;
所述输入缓存器还包括:
至少一个第二行缓存器,用于从所述外部存储器获取各个滤波器的权重参数并依次输入到所述参数缓存器。
2.根据权利要求1所述的反卷积器,其特征在于,所述第一行缓存器依次输出各所述反卷积层的行像素数据,并在输出每一个所述反卷积层行像素数据时依次输出各通道数据的行像素数据。
3.根据权利要求1所述的反卷积器,其特征在于,所述反卷积运算电路包括:
多个并行运行的反卷积核,每一个所述反卷积核包含用于进行反卷积运算的乘法器;
加法器树,对多个所述乘法器的输出结果进行累加;
每一个所述反卷积器输入K×K矩阵形式的像素数据,根据输入的像素数据和所述权重参数经过反卷积运算逐位输出像素数据。
4.根据权利要求3所述的反卷积器,其特征在于,所述输出缓存器包括:
并行的至少两个FIFO存储器,经过同一个滤波器的通道数据经累加后存入同一个所述FIFO存储器中;
数据选择器,用于将每次累加的结果返回至所述加法器树直至所述加法器输出最终的累加结果。
5.根据权利要求1所述的反卷积器,其特征在于,所述反卷积器还包括:
池化运算电路,连接于所述输出缓存器和所述外部存储器之间,用于对所述反卷积运算结果进行池化后向外部存储器输出。
6.根据权利要求1所述的反卷积器,其特征在于,所述反卷积器所包括的各内部部件之间、以及所述反卷积器与所述外部存储器之间通过先入先出数据接口连接。
7.一种人工智能处理装置,其特征在于,所述人工智能处理装置包括如权利要求1至权利要求6任一权利要求所述的反卷积器。
CN201880002766.XA 2018-01-15 2018-01-15 反卷积器及其所应用的人工智能处理装置 Active CN110178146B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/072659 WO2019136747A1 (zh) 2018-01-15 2018-01-15 反卷积器及其所应用的人工智能处理装置

Publications (2)

Publication Number Publication Date
CN110178146A CN110178146A (zh) 2019-08-27
CN110178146B true CN110178146B (zh) 2023-05-12

Family

ID=67218472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880002766.XA Active CN110178146B (zh) 2018-01-15 2018-01-15 反卷积器及其所应用的人工智能处理装置

Country Status (2)

Country Link
CN (1) CN110178146B (zh)
WO (1) WO2019136747A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727633A (zh) * 2019-09-17 2020-01-24 广东高云半导体科技股份有限公司 基于SoC FPGA的边缘人工智能计算系统构架

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022468A (zh) * 2016-05-17 2016-10-12 成都启英泰伦科技有限公司 人工神经网络处理器集成电路及该集成电路的设计方法
CN106066783A (zh) * 2016-06-02 2016-11-02 华为技术有限公司 基于幂次权重量化的神经网络前向运算硬件结构
CN106228240A (zh) * 2016-07-30 2016-12-14 复旦大学 基于fpga的深度卷积神经网络实现方法
CN106355244A (zh) * 2016-08-30 2017-01-25 深圳市诺比邻科技有限公司 卷积神经网络的构建方法及系统
CN106875011A (zh) * 2017-01-12 2017-06-20 南京大学 二值权重卷积神经网络加速器的硬件架构及其计算流程
CN107239824A (zh) * 2016-12-05 2017-10-10 北京深鉴智能科技有限公司 用于实现稀疏卷积神经网络加速器的装置和方法
CN107392309A (zh) * 2017-09-11 2017-11-24 东南大学—无锡集成电路技术研究所 一种基于fpga的通用定点数神经网络卷积加速器硬件结构
CN107403117A (zh) * 2017-07-28 2017-11-28 西安电子科技大学 基于fpga的三维卷积器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379109A1 (en) * 2015-06-29 2016-12-29 Microsoft Technology Licensing, Llc Convolutional neural networks on hardware accelerators
US10497089B2 (en) * 2016-01-29 2019-12-03 Fotonation Limited Convolutional neural network

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022468A (zh) * 2016-05-17 2016-10-12 成都启英泰伦科技有限公司 人工神经网络处理器集成电路及该集成电路的设计方法
CN106066783A (zh) * 2016-06-02 2016-11-02 华为技术有限公司 基于幂次权重量化的神经网络前向运算硬件结构
CN106228240A (zh) * 2016-07-30 2016-12-14 复旦大学 基于fpga的深度卷积神经网络实现方法
CN106355244A (zh) * 2016-08-30 2017-01-25 深圳市诺比邻科技有限公司 卷积神经网络的构建方法及系统
CN107239824A (zh) * 2016-12-05 2017-10-10 北京深鉴智能科技有限公司 用于实现稀疏卷积神经网络加速器的装置和方法
CN106875011A (zh) * 2017-01-12 2017-06-20 南京大学 二值权重卷积神经网络加速器的硬件架构及其计算流程
CN107403117A (zh) * 2017-07-28 2017-11-28 西安电子科技大学 基于fpga的三维卷积器
CN107392309A (zh) * 2017-09-11 2017-11-24 东南大学—无锡集成电路技术研究所 一种基于fpga的通用定点数神经网络卷积加速器硬件结构

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
F-C3D: FPGA-based 3-Dimensional Convolutional Neural Network;Hongxiang Fan 等;《2017 27th International Conference on Field Programmable Logic and Applications (FPL)》;20171005;第1-2节,图2-4,表1 *

Also Published As

Publication number Publication date
CN110178146A (zh) 2019-08-27
WO2019136747A1 (zh) 2019-07-18

Similar Documents

Publication Publication Date Title
WO2019136764A1 (zh) 卷积器及其所应用的人工智能处理装置
CN110050267B (zh) 用于数据管理的系统和方法
CN111967468B (zh) 一种基于fpga的轻量级目标检测神经网络的实现方法
US11720523B2 (en) Performing concurrent operations in a processing element
CN109284817B (zh) 深度可分离卷积神经网络处理架构/方法/系统及介质
US10394929B2 (en) Adaptive execution engine for convolution computing systems
CN108416327B (zh) 一种目标检测方法、装置、计算机设备及可读存储介质
CN110366732B (zh) 用于在卷积神经网络中进行矩阵处理的方法和设备
CN108108809B (zh) 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法
CN108090565A (zh) 一种卷积神经网络并行化训练加速方法
US20180157969A1 (en) Apparatus and Method for Achieving Accelerator of Sparse Convolutional Neural Network
CN109903221A (zh) 图像超分方法及装置
WO2019136762A1 (zh) 人工智能处理器、及其所应用的处理方法
CN111210019B (zh) 一种基于软硬件协同加速的神经网络推断方法
CN110766127B (zh) 神经网络计算专用电路及其相关计算平台与实现方法
CN109740619B (zh) 用于目标识别的神经网络终端运行方法和装置
CN110738317A (zh) 基于fpga的可变形卷积网络运算方法、装置和系统
CN111582465B (zh) 基于fpga的卷积神经网络加速处理系统、方法以及终端
CN110782430A (zh) 一种小目标的检测方法、装置、电子设备及存储介质
Shahshahani et al. Memory optimization techniques for fpga based cnn implementations
Xiao et al. FPGA-based scalable and highly concurrent convolutional neural network acceleration
CN110178146B (zh) 反卷积器及其所应用的人工智能处理装置
CN114359662A (zh) 一种基于异构fpga和融合多分辨率的卷积神经网络的实现方法
CN111222090B (zh) 卷积计算模块、神经网络处理器、芯片和电子设备
CN214586992U (zh) 神经网络加速电路、图像处理器及三维成像电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant