CN112215342A - 一种船用气象雷达照相装置多通道并行cnn加速器 - Google Patents

一种船用气象雷达照相装置多通道并行cnn加速器 Download PDF

Info

Publication number
CN112215342A
CN112215342A CN202011036801.5A CN202011036801A CN112215342A CN 112215342 A CN112215342 A CN 112215342A CN 202011036801 A CN202011036801 A CN 202011036801A CN 112215342 A CN112215342 A CN 112215342A
Authority
CN
China
Prior art keywords
channel
cache
convolution
input
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011036801.5A
Other languages
English (en)
Other versions
CN112215342B (zh
Inventor
徐俊杰
朱瑞华
娄方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Junlu Technology Co ltd
Original Assignee
Nanjing Junlu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Junlu Technology Co ltd filed Critical Nanjing Junlu Technology Co ltd
Priority to CN202011036801.5A priority Critical patent/CN112215342B/zh
Publication of CN112215342A publication Critical patent/CN112215342A/zh
Application granted granted Critical
Publication of CN112215342B publication Critical patent/CN112215342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/95Radar or analogous systems specially adapted for specific applications for meteorological use
    • G01S13/956Radar or analogous systems specially adapted for specific applications for meteorological use mounted on ship or other platform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0893Caches characterised by their organisation or structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3893Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Electromagnetism (AREA)
  • Ocean & Marine Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Neurology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Processing (AREA)
  • Complex Calculations (AREA)

Abstract

一种船用气象雷达照相装置多通道并行CNN加速器,其包括运算单元和缓存,PE进行卷积运算,缓存存储运算单元输入和输出的数据,缓存包括输入特征缓存、权重参数缓存及输出特征缓存,运算单元采用全流水设计结构,N(通道数)个乘法器进行并行运算,并将N个输出同时输入到加法树中相加,得到N通道输入特征乘加的结果,再将该结果与上一次的中间结果进行累加。本发明通过将非1x1卷积运算分解成多个1x1卷积运算,可适配不同尺寸及不同滑动步长的卷积核,提高的PE的通用性;使用N个数据拼接的大位宽数据结构的缓存形式,适应了PE的数据带宽的需求,简化了复杂的数据流控制;采用乒乓缓存结构,提升了系统的吞吐量。

Description

一种船用气象雷达照相装置多通道并行CNN加速器
【技术领域】
本发明涉及船用气象雷达深度学习领域,具体为一种船用气象雷达照相装置多通道并行CNN加速器。
【背景技术】
气象雷达是专门用于大气探测的雷达。属于主动式微波大气遥感设备。与无线电探空仪配套使用的高空风测风雷达,只是一种对位移气球定位的专门设备,一般不算作此类雷达。气象雷达是用于警戒和预报中、小尺度天气系统(如台风和暴雨云系)的主要探测工具之一。常规雷达装置大体上由定向天线、发射机、接收机、天线控制器、显示器和照相装置、电子计算机和图象传输等部分组成。
卷积神经网络CNN以其强大的表征能力,在目标图像识别及人工智能等领域得到了广泛的应用,成为了深度学习领域重要的算法之一。随着算法地不断演进,CNN的网络结构变得越来越深,给部署CNN的设备带来极大挑战。CNN中的卷积运算占据了整个网络90%以上的运算量,CNN加速器的关键组件是处理卷积运算的功能单元。
目前,CNN加速器通常采用脉动阵列结构。该结构由功能相同的运算单元(PE)组成矩阵形式,每个运算单元实现乘加运算,并设计相应的缓存和控制逻辑。该架构运算过程如下:1.权值广播:将阵列中的每一行PE分成一组,权值参数按行广播到各组中,各组中的PE共用同一个权值参数;2.输入特征:将阵列中对角线上PE划分成一组,输入特征按行输入到各组中,各组内的PE共用同一个输入特征值;3.输出结果:将整列中的每一列PE划分成一组,将各组内每个PE的计算结果相加,即可得到卷积计算的中间结果。该方案主要侧重点在于能效,主要体现在数据复用方面,首先权值参数广播到网络中,存储到每个PE的缓存中,直到对应该权值参数的所有输入特征数据都输入完之后才更换,体现了权值参数的复用;其次,输入特征按行输入后,每个卷积的输入特征有重叠,体现了输入特征的复用。
脉动阵列结构具有设计简单且规则、容易实现高并行性、运算单元间通信比较简单等优势,但这种结构也存在明显的缺点,采用脉动阵列结构时,运算单元(PE)易出现闲置率较高的情况,进而导致降低加速器的效率;采用脉动阵列结构时,由于需要带宽的成比例增加来维持所需要的加速倍数,因而脉动阵列的可扩展性差。
由此可见,提供一种架构布线简单、可灵活适配不同卷积核尺寸,同时可以很容易地根据硬件资源情况和实际需求进行扩展多通道的并行CNN加速器是本领域亟需解决的问题。
【发明内容】
针对上述问题,本发明通过将非1x1卷积运算分解成多个1x1卷积运算,可适配不同尺寸及不同滑动步长的卷积核,提高的PE的通用性;使用N个数据拼接的大位宽数据结构的缓存形式,适应了PE的数据带宽的需求,简化了复杂的数据流控制;采用乒乓缓存结构,提升了系统的吞吐量。
为解决上述问题,本发明船用气象雷达照相装置多通道并行CNN加速器包括运算单元和缓存,PE进行卷积运算,缓存存储运算单元输入和输出的数据,缓存包括输入特征缓存、权重参数缓存及输出特征缓存,运算单元采用全流水设计结构,N(通道数)个乘法器进行并行运算,并将N个输出同时输入到加法树中相加,得到N通道输入特征乘加的结果,再将该结果与上一次的中间结果进行累加。
进一步的,所述输入特征缓存、权重参数缓存及输出特征缓存均采用A/B双缓存的乒乓结构。
进一步的,所述设计方法包括卷积运算的分解运算和通道间并行运算,具体是将非1x1卷积运算分解成多个1x1卷积运算,并使用多通道的并行运算。
进一步的,所述分解运算是将的X*X的卷积核在5*5的输入特征谱从左往右、从上到下进行滑动,最终得到一张X*X的输出特征谱,卷积核每滑动一步,将卷积核的权重参数(k1~kX)与输入特征谱上相应位置的值进行乘法运算,并将X个位置的乘积相加得到输出特征谱上对应的一个值(p1~pX)。
进一步的,所述分解运算包括以下步骤:
步骤1:在时段1提取卷积核中的第一个权重参数k1;
步骤2:把权重k1在输入特征谱上所滑过的区域提取出来;
步骤3:权重参数k1在k1滑过的区域上进行1x1的卷积运算;
步骤4:在时段2~时段X依次取下一个权重参数以其所滑过的区域,重复步骤1到3的操作;
步骤5:将X个时段得到的输出结果相应位置的X个结果累加得到最终的输出特征谱。
进一步的,所述通道间并行运算过程是将单通道运算过程扩展到N通道上,将每个通道上的输出加起来作为该位置的中间特征值输出,实现通道之间的并行。
进一步的,所述通道间并行运算包括以下步骤:
步骤1:在时段1提取N通道卷积核中的k1位置N个通道权重参数;
步骤2:把k1位置N通道权重参数在各自通道的输入特征谱上所滑过的区域提取出来;
步骤3:k1位置N通道权重参数在各自通道提取出的区域上进行1x1的卷积运算,并把各通道的卷积结果相加;
步骤4:在时段2至时段X依次取下一位置(k2,k3,k4……)N通道的权重参数及其在各自通道输入特征谱上所滑过的区域,重复步骤1~3的操作;
步骤5:将X个时段得到的输出结果相应位置的X个结果累加得到最终的输出特征谱。
再者,本发明通过将非1x1卷积运算分解成多个1x1卷积运算,可适配不同尺寸及不同滑动步长的卷积核,提高的PE的通用性;使用N个数据拼接的大位宽数据结构的缓存形式,适应了PE的数据带宽的需求,简化了复杂的数据流控制;采用乒乓缓存结构,提升了系统的吞吐量。
【附图说明】
图1是本发明的整体架构图。
【具体实施方式】
本发明所提到的方向用语,例如「上」、「下」、「前」、「后」、「左」、「右」、「内」、「外」、「侧面」等,仅是附图中的方向,只是用来解释和说明本发明,而不是用来限定本发明的保护范围。
参见图1,给出了本发明的架构图,其包括运算单元(PE)和缓存,PE进行卷积运算,缓存存储PE输入和输出的数据,缓存包括输入特征缓存(IfmA/B buffer)、权重参数缓存(WetA/B buffer)及输出特征缓存(OfmA/B buffer),PE采用全流水设计结构,N(通道数)个乘法器进行并行运算,并将N个输出同时输入到加法树(AdderTree)中相加,得到N通道输入特征乘加的结果,再将该结果与上一次的中间结果进行累加(Acc)。
本发明能够将非1x1卷积运算分解成多个1x1卷积运算,并使用多通道的并行运算。该架构可以适配不同尺寸及不同滑动步长的卷积核,提高了PE的灵活性和可扩展性。以3x3卷积的运算分解成9个1x1卷积运算过程为例,3x3的卷积核在5x5的输入特征谱从左往右、从上到下进行滑动,最终得到一张3x3的输出特征谱。卷积核每滑动一步,将卷积核的权重参数(k1~k9)与输入特征谱上相应位置的值进行乘法运算,并将9个位置的乘积相加得到输出特征谱上对应的一个值(p1~p9),具体包括以下步骤:
步骤1:在时段1提取卷积核中的第一个权重参数k1;
步骤2:把权重k1在输入特征谱上所滑过的区域提取出来;
步骤3:权重参数k1在k1滑过的区域上进行1x1的卷积运算;
步骤4:在时段2~时段9依次取下一个权重参数以其所滑过的区域,重复步骤1~3的操作;
步骤5:将9个时段得到的输出结果相应位置的9个结果累加得到最终的输出特征谱。
使用以上的分解方法可以将任意尺寸卷积核的卷积运算分解成多个1x1的卷积运算,例如5x5的卷积运算可以分解成25个1x1的卷积运算,7x7的卷积运算可以分解成49个1x1的卷积运算等等。
通道间并行的运算过程是将单通道运算过程扩展到N通道上,将每个通道上的输出加起来作为该位置的中间特征值输出,实现通道之间的并行,具体运算过程包括以下步骤:
步骤1:在时段1提取N通道卷积核中的k1位置N个通道权重参数;
步骤2:把k1位置N通道权重参数在各自通道的输入特征谱上所滑过的区域提取出来;
步骤3:k1位置N通道权重参数在各自通道提取出的区域上进行1x1的卷积运算,并把各通道的卷积结果相加;
步骤4:在时段2至时段9依次取下一位置(k2,k3,k4……)N通道的权重参数及其在各自通道输入特征谱上所滑过的区域,重复步骤1~3的操作;
步骤5:将9个时段得到的输出结果相应位置的9个结果累加得到最终的输出特征谱。
所述输入特征缓存(IfmA/B buffer)、权重参数缓存(WetA/B buffer)及输出特征缓存(OfmA/B buffer)均采用A/B双缓存的乒乓结构。运算单元使用一个缓存进行计算的同时,另一个缓存可与片外进行数据交互,导入下一组待运算的数据或者将计算输出的数据导出,以提升运算单元的使用效率。输入特征谱N个连续通道相同位置的数据拼接起来组成一个大位宽数据,存储到输入特征缓存中的一个Cell中。权重参数和输出特征数据也采用同样的方式分别存储到权重参数缓存和输出特征缓存中。这样每个缓存的Cell存储N个数据,每次可以同时读取N个数据送入PE,实现通道并行的目的。输入特征缓存存储整张输入特征谱的部分区域,它的深度与该区域高宽的乘积相等。输入特征缓存中的特征分别与N组权重完成运算后,再导入特征谱下一个区域的特征数据,这样可以最大限度的复用输入特征,降低数据片外传输带来的功耗。
本发明通过将非1x1卷积运算分解成多个1x1卷积运算,可适配不同尺寸及不同滑动步长的卷积核,提高的PE的通用性;使用N个数据拼接的大位宽数据结构的缓存形式,适应PE数据带宽的需求,简化了复杂的数据流控制;采用乒乓缓存结构,提升了系统的吞吐量。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种船用气象雷达照相装置多通道并行CNN加速器,其特征在于,所述多通道并行CNN加速器包括运算单元和缓存,PE进行卷积运算,缓存存储运算单元输入和输出的数据,缓存包括输入特征缓存、权重参数缓存及输出特征缓存,运算单元采用全流水设计结构,N(通道数)个乘法器进行并行运算,并将N个输出同时输入到加法树中相加,得到N通道输入特征乘加的结果,再将该结果与上一次的中间结果进行累加。
2.根据权利要求1所述的一种多通道并行CNN加速器,其特征在于,所述输入特征缓存、权重参数缓存及输出特征缓存均采用A/B双缓存的乒乓结构。
3.一种应用于权利要求1所述多通道并行CNN加速器的设计方法,其特征在于,所述设计方法包括卷积运算的分解运算和通道间并行运算,具体是将非1x1卷积运算分解成多个1x1卷积运算,并使用多通道的并行运算。
4.根据权利要求3所述的多通道并行CNN加速器的设计方法,其特征在于,所述分解运算是将的X*X的卷积核在5*5的输入特征谱从左往右、从上到下进行滑动,最终得到一张X*X的输出特征谱,卷积核每滑动一步,将卷积核的权重参数(k1~kX)与输入特征谱上相应位置的值进行乘法运算,并将X个位置的乘积相加得到输出特征谱上对应的一个值(p1~pX)。
5.根据权利要求3所述的多通道并行CNN加速器的设计方法,其特征在于,所述分解运算包括以下步骤:
步骤1:在时段1提取卷积核中的第一个权重参数k1;
步骤2:把权重k1在输入特征谱上所滑过的区域提取出来;
步骤3:权重参数k1在k1滑过的区域上进行1x1的卷积运算;
步骤4:在时段2~时段X依次取下一个权重参数以其所滑过的区域,重复步骤1到3的操作;
步骤5:将X个时段得到的输出结果相应位置的X个结果累加得到最终的输出特征谱。
6.根据权利要求3所述的多通道并行CNN加速器的设计方法,其特征在于,所述通道间并行运算过程是将单通道运算过程扩展到N通道上,将每个通道上的输出加起来作为该位置的中间特征值输出,实现通道之间的并行。
7.根据权利要求3所述的多通道并行CNN加速器的设计方法,其特征在于,所述通道间并行运算包括以下步骤:
步骤1:在时段1提取N通道卷积核中的k1位置N个通道权重参数;
步骤2:把k1位置N通道权重参数在各自通道的输入特征谱上所滑过的区域提取出来;
步骤3:k1位置N通道权重参数在各自通道提取出的区域上进行1x1的卷积运算,并把各通道的卷积结果相加;
步骤4:在时段2至时段X依次取下一位置(k2,k3,k4……)N通道的权重参数及其在各自通道输入特征谱上所滑过的区域,重复步骤1~3的操作;
步骤5:将X个时段得到的输出结果相应位置的X个结果累加得到最终的输出特征谱。
CN202011036801.5A 2020-09-28 2020-09-28 一种船用气象雷达照相装置多通道并行cnn加速器 Active CN112215342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011036801.5A CN112215342B (zh) 2020-09-28 2020-09-28 一种船用气象雷达照相装置多通道并行cnn加速器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011036801.5A CN112215342B (zh) 2020-09-28 2020-09-28 一种船用气象雷达照相装置多通道并行cnn加速器

Publications (2)

Publication Number Publication Date
CN112215342A true CN112215342A (zh) 2021-01-12
CN112215342B CN112215342B (zh) 2024-03-26

Family

ID=74052582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011036801.5A Active CN112215342B (zh) 2020-09-28 2020-09-28 一种船用气象雷达照相装置多通道并行cnn加速器

Country Status (1)

Country Link
CN (1) CN112215342B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657581A (zh) * 2017-09-28 2018-02-02 中国人民解放军国防科技大学 一种卷积神经网络cnn硬件加速器及加速方法
US20180157969A1 (en) * 2016-12-05 2018-06-07 Beijing Deephi Technology Co., Ltd. Apparatus and Method for Achieving Accelerator of Sparse Convolutional Neural Network
CN108805266A (zh) * 2018-05-21 2018-11-13 南京大学 一种可重构cnn高并发卷积加速器
CN109978137A (zh) * 2019-03-20 2019-07-05 厦门美图之家科技有限公司 一种卷积神经网络的处理方法
CN110309789A (zh) * 2019-07-04 2019-10-08 北京维联众诚科技有限公司 基于深度学习的视频监控下人脸清晰度评价方法及装置
CN110688616A (zh) * 2019-08-26 2020-01-14 陈小柏 一种基于乒乓ram的条带阵列的卷积模块及其运算方法
US20200151019A1 (en) * 2019-03-14 2020-05-14 Rednova Innovations,Inc. OPU-based CNN acceleration method and system
CN111401532A (zh) * 2020-04-28 2020-07-10 南京宁麒智能计算芯片研究院有限公司 一种卷积神经网络推理加速器及加速方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180157969A1 (en) * 2016-12-05 2018-06-07 Beijing Deephi Technology Co., Ltd. Apparatus and Method for Achieving Accelerator of Sparse Convolutional Neural Network
CN107657581A (zh) * 2017-09-28 2018-02-02 中国人民解放军国防科技大学 一种卷积神经网络cnn硬件加速器及加速方法
CN108805266A (zh) * 2018-05-21 2018-11-13 南京大学 一种可重构cnn高并发卷积加速器
US20200151019A1 (en) * 2019-03-14 2020-05-14 Rednova Innovations,Inc. OPU-based CNN acceleration method and system
CN109978137A (zh) * 2019-03-20 2019-07-05 厦门美图之家科技有限公司 一种卷积神经网络的处理方法
CN110309789A (zh) * 2019-07-04 2019-10-08 北京维联众诚科技有限公司 基于深度学习的视频监控下人脸清晰度评价方法及装置
CN110688616A (zh) * 2019-08-26 2020-01-14 陈小柏 一种基于乒乓ram的条带阵列的卷积模块及其运算方法
CN111401532A (zh) * 2020-04-28 2020-07-10 南京宁麒智能计算芯片研究院有限公司 一种卷积神经网络推理加速器及加速方法

Also Published As

Publication number Publication date
CN112215342B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN109753903B (zh) 一种基于深度学习的无人机检测方法
US20220012593A1 (en) Neural network accelerator and neural network acceleration method based on structured pruning and low-bit quantization
CN109325589B (zh) 卷积计算方法及装置
CN111144329B (zh) 一种基于多标签的轻量快速人群计数方法
CN110263925B (zh) 一种基于fpga的卷积神经网络前向预测的硬件加速实现装置
Zeng et al. Lightweight tomato real-time detection method based on improved YOLO and mobile deployment
US7529721B2 (en) Efficient processing in an auto-adaptive network
CN110826693B (zh) 基于DenseNet卷积神经网络的三维大气温度廓线反演方法和系统
CN108205703B (zh) 多输入多输出矩阵平均值池化向量化实现方法
US20200389182A1 (en) Data conversion method and apparatus
CN114241230A (zh) 目标检测模型剪枝方法和目标检测方法
CN114021811A (zh) 基于注意力改进的交通预测方法及计算机介质
CN112215342A (zh) 一种船用气象雷达照相装置多通道并行cnn加速器
CN113313252B (zh) 一种基于脉动阵列的深度可分离卷积实现方法
EP4328802A1 (en) Deep neural network (dnn) accelerators with heterogeneous tiling
CN112462369A (zh) 一种用于微波成像仪反演海上大气可降水的方法及装置
CN114780910B (zh) 用于稀疏化卷积计算的硬件系统和计算方法
Liu et al. Integration transformer for ground-based cloud image segmentation
CN113902904B (zh) 一种轻量化网络架构系统
CN112260738B (zh) 基于yolo目标检测的fd-mimo下行多用户分簇方法
CN111832336B (zh) 一种基于改进的c3d视频行为检测方法
CN113744220A (zh) 一种基于pynq的无预选框检测系统
CN114187606A (zh) 一种采用分支融合网络轻量化的车库行人检测方法及系统
Li et al. Design of Fruit-Carrying Monitoring System for Monorail Transporter in Mountain Orchard
Vasileva et al. The development of modern automated image processing and transfer systems for agriculture unmanned aerial vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant