CN107992940A - 一种卷积神经网络在fpga上的实现方法及装置 - Google Patents
一种卷积神经网络在fpga上的实现方法及装置 Download PDFInfo
- Publication number
- CN107992940A CN107992940A CN201711318756.0A CN201711318756A CN107992940A CN 107992940 A CN107992940 A CN 107992940A CN 201711318756 A CN201711318756 A CN 201711318756A CN 107992940 A CN107992940 A CN 107992940A
- Authority
- CN
- China
- Prior art keywords
- data
- unit
- fpga
- units
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种卷积神经网络在FPGA上的实现方法及装置,其中方法包括:压缩神经网络模型,并将压缩后的神经网络模型存储于FPGA存储器中;所述神经网络模型中神经网络单层包括多个计算单元,在FPGA上并行实现,各个所述计算单元之间通过channel进行数据交互。通过FPGA这种计算密集性计算设备提高了运算速度,另外压缩神经网络模型,使其模型可以全部存储到FPGA片上存储器,使得所有的推理计算和数据通信都在FPGA内部进行,大大减小了外部存储器通信带来的高功耗和低延迟。
Description
技术领域
本发明属于计算机领域,尤其涉及一种卷积神经网络在FPGA上的实现方法及装置。
背景技术
卷积神经网络(CNN)是人工神经网络的一种,广泛应用于图像分类、目标识别、行为识别、语音识别、自然语言处理和文档分类等领域。近几年来,随着计算机计算能力的增长以及神经网路结构的发展,CNN的网络性能和识别准确度都有了很大的提高。但与此同时,网络的深度不断加深,网络的计算量也越来越大。
因此,迫切需要提供一种实现方案,以提高运算速度。
发明内容
本发明实施例提供一种卷积神经网络在FPGA上的实现方法及装置,以解决上述问题。
本发明实施例提供一种卷积神经网络在FPGA上的实现方法。上述方法包括以下步骤:压缩神经网络模型,并将压缩后的神经网络模型存储于FPGA存储器中;所述神经网络模型中神经网络单层包括多个计算单元,在FPGA上并行实现,各个所述计算单元之间通过channel进行数据交互。
本发明实施例还提供一种卷积神经网络实现装置,包括:压缩模块,用于压缩神经网络模型,并将压缩后的神经网络模型存储于FPGA存储器中;FPGA模块,所述神经网络模型中神经网络单层包括多个计算单元,在所述FPGA模块上并行实现,各个所述计算单元之间通过channel进行数据交。
通过以下方案:压缩神经网络模型,并将压缩后的神经网络模型存储于FPGA存储器中;神经网络模型中神经网络单层包括多个计算单元,在FPGA上并行实现,各个计算单元之间通过channel进行数据交互。通过FPGA这种计算密集性计算设备提高了运算速度,另外压缩神经网络模型,使其模型可以全部存储到FPGA片上存储器,使得所有的推理计算和数据通信都在FPGA内部进行,大大减小了外部存储器通信带来的高功耗和低延迟,大大提升了FPGA对神经网络模型的处理效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的卷积神经网络在FPGA上的实现方法处理流程图;
图2所示为本发明实施例2的卷积神经网络算法整体实现架构示意图;
图3所示为本发明实施例2的卷积神经网络各层实现方案图;
图4所示为本发明实施例3的卷积神经网络实现装置结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本发明实施例1的卷积神经网络在FPGA上的实现方法处理流程图,包括以下步骤:
步骤102:压缩神经网络模型,并将压缩后的神经网络模型存储于FPGA存储器中。
步骤104:所述神经网络模型中神经网络单层包括多个计算单元,在FPGA上并行实现,各个所述计算单元之间通过channel进行数据交互。
上述方案通过FPGA这种计算密集性计算设备提高了运算速度,另外压缩神经网络模型,使其模型可以全部存储到FPGA片上存储器,使得所有的推理计算和数据通信都在FPGA内部进行,大大减小了外部存储器通信带来的高功耗和低延迟,大大提升了FPGA对神经网络模型的处理效率。
进一步地,所述多个计算单元包括:图片数据读取单元、模型数据读取单元、控制器单元、特征图数据存储单元、PE单元、激活单元BatchNorm计算单元、池化单元、输出单元。
进一步地,所述特征图数据存储单元接收所述控制器单元发送的控制信号;
接收所述图片数据读取单元发送的数据,并根据所述控制信号中的写地址,将所述图片数据写入FPGA上数据缓存的特定地址;
接收所述模型数据读取单元读取的模型数据;
根据所述控制器单元发送的控制信号中的读数据地址读取当前时钟周期PE单元计算需要的图片数据,并对该图片数据进行Winograd转换;
将经过转换的图片数据、所述模型数据和控制信号发送至所述PE单元,使其进行卷积计算。
进一步地,所述PE单元接收来自所述特征图数据存储单元的数据和控制信号,进行点积计算,并对点积结果进行累加;
所述激活单元接收来自所述PE单元的点积计算结果,对所述点积计算结果进行Winograd转换,然后进行激活操作,输出计算结果;
所述BatchNorm计算单元接收来自所述激活单元的计算数据,进行BatchNorm计算,输出计算结果;
所述池化单元读取来自所述BatchNorm单元的计算数据,以流水线的方式依次处理每组输出特征图的池化操作;
所述输出单元输出最终的处理结果到外部存储。
其中,卷积神经网络在FPGA上的实现方法支持多种开源架构的模型输入,包括TensorFlow、Caffe、MxNet。支持模型压缩、支持浮点模型计算和量化模型计算。
卷积神经网络的实现包括模型训练和和线上推理两个阶段。本实施例用于应用推理阶段。本实施例通过以下各方面实现:
1)不同开源架构训练模型输入解析的实现
对于不同的开源架构如TensorFlow、Caffe等的模型输入,只需要调用不同的c++或Python接口即可实现模型的解析,进而进行模型的计算。TensorFlow和Caffe的模型解析都是使用Proto Buffer实现。此架构也可以扩展到目前没有支持的模型输入格式,扩展时只需要实现相应的接口就可,不需要修改之前的相关内容。
2)神经网络模型压缩
对于常用的卷积神经网络,如AlexNet,其模型大小为240MB,而FPGA的片上存储器大小为5MB左右,故在进行卷积神经网络推理计算时,需要分别读入单个计算层的模型数据进行计算,并且在进行多张图片的推理计算时,模型需要重复的从外部存储器读入。这样就增加了模型传输延迟,并且增加了FPGA的计算功耗。本实施例对神经网络模型在保持高精度的情况下,对模型进行了压缩,可压缩到5MB以下,以使其可以全部存储到FPGA片上存储器。在FPGA启动阶段,读取外部存储器的压缩模型到片上存储器。在多张图片的神经网络算法处理阶段,从片上存储器读取模型到处理单元。
2)神经网络模型的实现
此架构实现了卷积神经网络常用的基本计算单元,如卷积计算、池化计算、BatchNorm计算、激活计算、EltWise计算、局部响应归一化计算、DropOut计算等。
卷积神经网络算法的整体实现架构如图2所示。对于卷积神经网络单层中的多个计算,在FPGA上并行实现,各个单元之间通过channel进行数据交互。卷积神经网络的主要功能模块包括图片数据读取模块、模型数据读取模块、控制器模型、特征图数据存储模块、PE模块、激活模块、BatchNorm模块、池化模块和输出模块。
对于输入特征图、输出特征图都进行了向量化,如图3所示。输入特征图向量化参数为VEC_SIZE,输出特征图向量化参数为LANE_SIZE,即VEC_SIZE个输入特征图为一组进行运算,输出一组即LANE_SIZE个输出特征图,可提高FPGA计算的并行度。
神经网络各个计算单元的介绍如下:
(1)图片数据读取单元读取全部的输入推理图片,并存储到特征图数据存储模块,供PE单元计算使用。
(2)模型数据读取单元读取全部的压缩模型数据,并且存储到片上模型缓存器。在图片推理进行时,根据当前处理的层数计算模型数据地址偏移,读取模型数据并进行Winograd转换,并且发送模型数据到PE单元。
(3)控制器单元控制特征图数据存储单元和PE单元的工作时序。控制器单元生成特征图存储单元每个时钟周期的控制时序,使其在不同的工作模式进行不同的工作。
(4)特征图数据存储单元的功能如下:
a)接收控制器单元发送的控制信号;
b)接收图片数据读取单元发送的数据,根据控制器单元发送的控制信号中的写地址,写接收到的图片数据到片上数据缓存的特定地址;
c)接收模型数据读取单元读取的模型数据;
d)根据控制器发送单元发送的控制信号中的读数据地址读取当前时钟周期PE模块计算需要的图片数据,进行Winograd转换;
e)整合输入图片数据、模型数据和控制信号,发送到PE单元,使其进行卷积计算。
(5)PE单元接收特征图数据存储单元的数据和控制信号,进行点积计算,并对对此数据输入的点积结果进行累加。当控制信号中的输出使能信号置位时,即输出计算结果。
(6)激活单元接收PE单元的数据,首先对计算结果进行Winograd转换,然后进行激活操作,输出计算结果。
(7)BatchNorm计算单元接收激活单元的计算数据,进行BatchNorm计算,输出计算结果。
(8)池化单元读取BatchNorm单元的计算数据,以流水线的方式依次处理每组输出特征图的池化操作。每组内的单个池化操作并行进行。每个时钟周期可实现一次池化操作。如果当前计算为神经网络的最后一层计算,即输出池化结果数据到输出单元,输出结果数据;如果不是最后一层计算,即输出池化结果数据到特征图数据存储单元,以使其他单元进行后续处理。
(9)输出单元输出最终的处理结果到外部存储器,并传输到主机端。
(10)多有处理单元之间的数据传输都采用channel进行,多个处理单元在FPGA中并行执行。
本实施例中的卷积神经网络架构可基于Intel的Software Development Kit(SDK)开发环境和OpenCL语言实现。硬件平台安装Intel SDK开发环境后,编译即可运行于不同的Intel FPGA平台。
本实施例方案可使深度学习网络高效、方便的配置到FPGA高性能计算设备,用户不需要了解深度学习网络的算法本身,也不需要对算法进行优化,就可以在产品中方便的使用,既可以推进深度学习算法在实际产品中的使用。
图4所示为本发明实施例3的卷积神经网络实现装置结构图。
如图4所示,根据本发明实施例的卷积神经网络实现装置包括:压缩模块402,用于压缩神经网络模型,并将压缩后的神经网络模型存储于FPGA存储器中;
FPGA模块404,所述神经网络模型中神经网络单层包括多个计算单元,在所述FPGA模块上并行实现,各个所述计算单元之间通过channel进行数据交。
上述方案通过FPGA这种计算密集性计算设备提高了运算速度,另外压缩神经网络模型,使其模型可以全部存储到FPGA片上存储器,使得所有的推理计算和数据通信都在FPGA内部进行,大大减小了外部存储器通信带来的高功耗和低延迟,大大提升了FPGA对神经网络模型的处理效率。
进一步地,在所述FPGA模块404中实现的所述多个计算单元包括:图片数据读取单元、模型数据读取单元、控制器单元、特征图数据存储单元、PE单元、激活单元BatchNorm计算单元、池化单元、输出单元。
进一步地,所述特征图数据存储单元还用于接收所述控制器单元发送的控制信号,接收所述图片数据读取单元发送的数据,并根据所述控制信号中的写地址,将所述图片数据写入FPGA上数据缓存的特定地址,以及接收所述模型数据读取单元读取的模型数据,根据所述控制器单元发送的控制信号中的读数据地址读取当前时钟周期PE单元计算需要的图片数据,并对该图片数据进行Winograd转换,以及将经过转换的图片数据、所述模型数据和控制信号发送至所述PE单元,使其进行卷积计算。
进一步地,所述PE单元接收来自所述特征图数据存储单元的数据和控制信号,进行点积计算,并对点积结果进行累加;
所述激活单元接收来自所述PE单元的点积计算结果,对所述点积计算结果进行Winograd转换,然后进行激活操作,输出计算结果;
所述BatchNorm计算单元接收来自所述激活单元的计算数据,进行BatchNorm计算,输出计算结果;
所述池化单元读取来自所述BatchNorm单元的计算数据,以流水线的方式依次处理每组输出特征图的池化操作;
所述输出单元输出最终的处理结果到外部存储器。
进一步地,支持多种开源架构的模型输入,包括TensorFlow、Caffe、MxNet。
本实施例能够压缩神经网络模型,使其可全部存储于FPGA片上存储器,免去外部存储器重复访问带来的低延时和高功耗,其次神经网络多层之间的数据交互均在FPGA片上进行,免去外部存储器重复访问带来的低延时和高功耗,并且特征图数据缓存和模型数据缓存均采用双缓存设计,可减小数据通信对计算的影响,提高计算效率,还能够对卷积计算使用Winograd算法进行优化。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种卷积神经网络在FPGA上的实现方法,其特征在于,包括以下步骤:
压缩神经网络模型,并将压缩后的神经网络模型存储于FPGA存储器中;
所述神经网络模型中神经网络单层包括多个计算单元,在FPGA上并行实现,各个所述计算单元之间通过channel进行数据交互。
2.根据权利要求1所述的方法,其特征在于,所述多个计算单元包括:图片数据读取单元、模型数据读取单元、控制器单元、特征图数据存储单元、PE单元、激活单元BatchNorm计算单元、池化单元、输出单元。
3.根据权利要求2所述的方法,其特征在于,所述特征图数据存储单元接收所述控制器单元发送的控制信号;
接收所述图片数据读取单元发送的数据,并根据所述控制信号中的写地址,将所述图片数据写入FPGA上数据缓存的特定地址;
接收所述模型数据读取单元读取的模型数据;
根据所述控制器单元发送的控制信号中的读数据地址读取当前时钟周期PE单元计算需要的图片数据,并对该图片数据进行Winograd转换;
将经过转换的图片数据、所述模型数据和控制信号发送至所述PE单元,使其进行卷积计算。
4.根据权利要求3所述的方法,其特征在于,所述PE单元接收来自所述特征图数据存储单元的数据和控制信号,进行点积计算,并对点积结果进行累加;
所述激活单元接收来自所述PE单元的点积计算结果,对所述点积计算结果进行Winograd转换,然后进行激活操作,输出计算结果;
所述BatchNorm计算单元接收来自所述激活单元的计算数据,进行BatchNorm计算,输出计算结果;
所述池化单元读取来自所述BatchNorm单元的计算数据,以流水线的方式依次处理每组输出特征图的池化操作;
所述输出单元输出最终的处理结果到外部存储器。
5.根据权利要求1至4中任一项所述的方法,其特征在于,支持多种开源架构的模型输入,包括TensorFlow、Caffe、MxNet。
6.一种卷积神经网络实现装置,其特征在于,包括:
压缩模块,用于压缩神经网络模型,并将压缩后的神经网络模型存储于FPGA存储器中;
FPGA模块,所述神经网络模型中神经网络单层包括多个计算单元,在所述FPGA模块上并行实现,各个所述计算单元之间通过channel进行数据交。
7.根据权利要求6所述的装置,其特征在于,所述多个计算单元包括:图片数据读取单元、模型数据读取单元、控制器单元、特征图数据存储单元、PE单元、激活单元BatchNorm计算单元、池化单元、输出单元。
8.根据权利要求7所述的装置,其特征在于,所述特征图数据存储单元还用于接收所述控制器单元发送的控制信号,接收所述图片数据读取单元发送的数据,并根据所述控制信号中的写地址,将所述图片数据写入FPGA上数据缓存的特定地址,以及接收所述模型数据读取单元读取的模型数据,根据所述控制器单元发送的控制信号中的读数据地址读取当前时钟周期PE单元计算需要的图片数据,并对该图片数据进行Winograd转换,以及将经过转换的图片数据、所述模型数据和控制信号发送至所述PE单元,使其进行卷积计算。
9.根据权利要求8所述的装置,其特征在于,所述PE单元接收来自所述特征图数据存储单元的数据和控制信号,进行点积计算,并对点积结果进行累加;
所述激活单元接收来自所述PE单元的点积计算结果,对所述点积计算结果进行Winograd转换,然后进行激活操作,输出计算结果;
所述BatchNorm计算单元接收来自所述激活单元的计算数据,进行BatchNorm计算,输出计算结果;
所述池化单元读取来自所述BatchNorm单元的计算数据,以流水线的方式依次处理每组输出特征图的池化操作;
所述输出单元输出最终的处理结果到外部存储器。
10.根据权利要求6至9中任一项所述的装置,其特征在于,支持多种开源架构的模型输入,包括TensorFlow、Caffe、MxNet。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711318756.0A CN107992940A (zh) | 2017-12-12 | 2017-12-12 | 一种卷积神经网络在fpga上的实现方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711318756.0A CN107992940A (zh) | 2017-12-12 | 2017-12-12 | 一种卷积神经网络在fpga上的实现方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107992940A true CN107992940A (zh) | 2018-05-04 |
Family
ID=62037228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711318756.0A Pending CN107992940A (zh) | 2017-12-12 | 2017-12-12 | 一种卷积神经网络在fpga上的实现方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107992940A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776833A (zh) * | 2018-06-05 | 2018-11-09 | 郑州云海信息技术有限公司 | 一种数据处理方法、系统及计算机可读存储介质 |
CN109214506A (zh) * | 2018-09-13 | 2019-01-15 | 深思考人工智能机器人科技(北京)有限公司 | 一种卷积神经网络的建立装置及方法 |
CN109272113A (zh) * | 2018-09-13 | 2019-01-25 | 深思考人工智能机器人科技(北京)有限公司 | 一种卷积神经网络的建立装置及方法 |
CN109447256A (zh) * | 2018-09-12 | 2019-03-08 | 上海交通大学 | 基于FPGA的Tensorflow系统加速的设计方法 |
CN109685210A (zh) * | 2018-12-29 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 卷积神经网络处理方法、卷积神经网络装置 |
CN109711367A (zh) * | 2018-12-29 | 2019-05-03 | 北京中科寒武纪科技有限公司 | 运算方法、装置及相关产品 |
CN109961139A (zh) * | 2019-01-08 | 2019-07-02 | 广东浪潮大数据研究有限公司 | 一种残差网络的加速方法、装置、设备及存储介质 |
CN110097172A (zh) * | 2019-03-18 | 2019-08-06 | 中国科学院计算技术研究所 | 一种基于winograd卷积运算的卷积神经网络数据处理方法及装置 |
CN110110850A (zh) * | 2019-04-29 | 2019-08-09 | 山东浪潮人工智能研究院有限公司 | 基于fpga前向反向可复用的处理单元实现方法 |
CN110119806A (zh) * | 2019-05-23 | 2019-08-13 | 北京环境特性研究所 | 基于fpga实现人工神经网络的方法和装置 |
CN110689122A (zh) * | 2019-09-25 | 2020-01-14 | 苏州浪潮智能科技有限公司 | 一种存储系统和方法 |
CN110766128A (zh) * | 2018-07-26 | 2020-02-07 | 北京深鉴智能科技有限公司 | 卷积计算单元、计算方法及神经网络计算平台 |
CN110874635A (zh) * | 2018-08-31 | 2020-03-10 | 杭州海康威视数字技术股份有限公司 | 一种深度神经网络模型压缩方法及装置 |
CN111382854A (zh) * | 2018-12-28 | 2020-07-07 | 广州市百果园信息技术有限公司 | 一种卷积神经网络处理方法、装置、设备及存储介质 |
CN112631778A (zh) * | 2020-12-27 | 2021-04-09 | 苏州浪潮智能科技有限公司 | 一种基于fpga云的计算优化方法、系统、存储介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170103299A1 (en) * | 2015-10-07 | 2017-04-13 | Altera Corporation | Method and Apparatus for Implementing Layers on a Convolutional Neural Network Accelerator |
CN106940815A (zh) * | 2017-02-13 | 2017-07-11 | 西安交通大学 | 一种可编程卷积神经网络协处理器ip核 |
CN107066239A (zh) * | 2017-03-01 | 2017-08-18 | 智擎信息系统(上海)有限公司 | 一种实现卷积神经网络前向计算的硬件结构 |
CN107229967A (zh) * | 2016-08-22 | 2017-10-03 | 北京深鉴智能科技有限公司 | 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法 |
-
2017
- 2017-12-12 CN CN201711318756.0A patent/CN107992940A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170103299A1 (en) * | 2015-10-07 | 2017-04-13 | Altera Corporation | Method and Apparatus for Implementing Layers on a Convolutional Neural Network Accelerator |
CN107229967A (zh) * | 2016-08-22 | 2017-10-03 | 北京深鉴智能科技有限公司 | 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法 |
CN106940815A (zh) * | 2017-02-13 | 2017-07-11 | 西安交通大学 | 一种可编程卷积神经网络协处理器ip核 |
CN107066239A (zh) * | 2017-03-01 | 2017-08-18 | 智擎信息系统(上海)有限公司 | 一种实现卷积神经网络前向计算的硬件结构 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776833A (zh) * | 2018-06-05 | 2018-11-09 | 郑州云海信息技术有限公司 | 一种数据处理方法、系统及计算机可读存储介质 |
CN108776833B (zh) * | 2018-06-05 | 2021-08-31 | 郑州云海信息技术有限公司 | 一种数据处理方法、系统及计算机可读存储介质 |
CN110766128A (zh) * | 2018-07-26 | 2020-02-07 | 北京深鉴智能科技有限公司 | 卷积计算单元、计算方法及神经网络计算平台 |
CN110874635B (zh) * | 2018-08-31 | 2023-06-30 | 杭州海康威视数字技术股份有限公司 | 一种深度神经网络模型压缩方法及装置 |
CN110874635A (zh) * | 2018-08-31 | 2020-03-10 | 杭州海康威视数字技术股份有限公司 | 一种深度神经网络模型压缩方法及装置 |
CN109447256A (zh) * | 2018-09-12 | 2019-03-08 | 上海交通大学 | 基于FPGA的Tensorflow系统加速的设计方法 |
CN109214506A (zh) * | 2018-09-13 | 2019-01-15 | 深思考人工智能机器人科技(北京)有限公司 | 一种卷积神经网络的建立装置及方法 |
CN109272113A (zh) * | 2018-09-13 | 2019-01-25 | 深思考人工智能机器人科技(北京)有限公司 | 一种卷积神经网络的建立装置及方法 |
CN109214506B (zh) * | 2018-09-13 | 2022-04-15 | 深思考人工智能机器人科技(北京)有限公司 | 一种基于像素的卷积神经网络建立装置及方法 |
CN111382854A (zh) * | 2018-12-28 | 2020-07-07 | 广州市百果园信息技术有限公司 | 一种卷积神经网络处理方法、装置、设备及存储介质 |
CN109711367A (zh) * | 2018-12-29 | 2019-05-03 | 北京中科寒武纪科技有限公司 | 运算方法、装置及相关产品 |
CN109685210A (zh) * | 2018-12-29 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 卷积神经网络处理方法、卷积神经网络装置 |
CN109961139A (zh) * | 2019-01-08 | 2019-07-02 | 广东浪潮大数据研究有限公司 | 一种残差网络的加速方法、装置、设备及存储介质 |
CN110097172A (zh) * | 2019-03-18 | 2019-08-06 | 中国科学院计算技术研究所 | 一种基于winograd卷积运算的卷积神经网络数据处理方法及装置 |
CN110110850A (zh) * | 2019-04-29 | 2019-08-09 | 山东浪潮人工智能研究院有限公司 | 基于fpga前向反向可复用的处理单元实现方法 |
CN110119806A (zh) * | 2019-05-23 | 2019-08-13 | 北京环境特性研究所 | 基于fpga实现人工神经网络的方法和装置 |
CN110689122A (zh) * | 2019-09-25 | 2020-01-14 | 苏州浪潮智能科技有限公司 | 一种存储系统和方法 |
CN110689122B (zh) * | 2019-09-25 | 2022-07-12 | 苏州浪潮智能科技有限公司 | 一种存储系统和方法 |
CN112631778A (zh) * | 2020-12-27 | 2021-04-09 | 苏州浪潮智能科技有限公司 | 一种基于fpga云的计算优化方法、系统、存储介质及设备 |
CN112631778B (zh) * | 2020-12-27 | 2023-01-06 | 苏州浪潮智能科技有限公司 | 一种基于fpga云的计算优化方法、系统、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992940A (zh) | 一种卷积神经网络在fpga上的实现方法及装置 | |
JP6893968B2 (ja) | 画像処理装置及び方法 | |
Liang et al. | FP-BNN: Binarized neural network on FPGA | |
CN107609642B (zh) | 计算装置和方法 | |
WO2019007406A1 (zh) | 一种数据处理装置和方法 | |
CN110175671A (zh) | 神经网络的构建方法、图像处理方法及装置 | |
CN110383300A (zh) | 一种计算装置及方法 | |
CN111126590B (zh) | 一种人工神经网络运算的装置及方法 | |
WO2022100165A1 (zh) | 神经网络模型的训练方法、图像处理方法及装置 | |
CN111797982A (zh) | 基于卷积神经网络的图像处理系统 | |
CN109446996A (zh) | 基于fpga的人脸识别数据处理装置及处理方法 | |
WO2018228399A1 (zh) | 运算装置和方法 | |
CN109918630A (zh) | 文本生成方法、装置、计算机设备及存储介质 | |
WO2023284716A1 (zh) | 一种神经网络搜索方法及相关设备 | |
US11561767B2 (en) | Mixed-precision computation unit | |
CN111126569B (zh) | 一种支持剪枝稀疏化压缩的卷积神经网络装置和计算方法 | |
CN112529149A (zh) | 一种数据处理方法及相关装置 | |
CN114698395A (zh) | 神经网络模型的量化方法和装置、数据处理的方法和装置 | |
US11593637B2 (en) | Convolution streaming engine for deep neural networks | |
CN113807998A (zh) | 图像处理方法、目标检测装置、机器视觉设备和存储介质 | |
CN111382848A (zh) | 一种计算装置及相关产品 | |
CN110704587A (zh) | 文本答案的查找方法及装置 | |
Ngo | FPGA hardware acceleration of inception style parameter reduced convolution neural networks | |
CN117454930B (zh) | 一种针对图神经网络的表达特征数据输出方法和装置 | |
CN117762642B (zh) | 一种卷积神经网络模型的加载方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180504 |