CN111860781A - 基于fpga实现的卷积神经网络特征解码系统 - Google Patents
基于fpga实现的卷积神经网络特征解码系统 Download PDFInfo
- Publication number
- CN111860781A CN111860781A CN202010665131.7A CN202010665131A CN111860781A CN 111860781 A CN111860781 A CN 111860781A CN 202010665131 A CN202010665131 A CN 202010665131A CN 111860781 A CN111860781 A CN 111860781A
- Authority
- CN
- China
- Prior art keywords
- fpga
- module
- feature
- decoding
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 230000009466 transformation Effects 0.000 claims description 11
- 230000001629 suppression Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 abstract description 22
- 230000001133 acceleration Effects 0.000 abstract description 21
- 230000000694 effects Effects 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7807—System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及到计算机视觉技术领域,尤其涉及到一种基于FPGA实现的卷积神经网络特征解码系统。该系统将CNN网络的特征解码模块也放到FPGA内部进行加速,解决FPGA加速方案中遇到的特征提取和特征解码速率不匹配的问题,所有功能都在FPGA中实现,也就是说加速效果完全取决于FPGA的性能,只要将两个部分的功能实现完全的流水化设计,就能达到FPGA加速效果的最大化。同时因为特征提取的结果不需要再经过DDR缓存,直接在片内进行处理,也降低了CNN网络处理的时延,甚至可以完全脱离处理器实现CNN网络的加速,达到芯片级别的计算加速效果。
Description
技术领域
本发明涉及到计算机视觉技术领域,尤其涉及到一种基于FPGA实现的卷积神经网络特征解码系统。
背景技术
当前卷积神经网络(CNN)已经被广泛运用于计算机视觉,工业检测,自然语言处理等多个领域。但受限于卷积神经网络的庞大计算量和存储要求,传统的通用处理器早已无法满足其实时性的要求,所以基于图形处理器(GPU),专用集成电路(ASIC)和现场可编程门阵列(FPGA)等硬件平台的CNN加速器纷纷被提出。综合比较这些硬件平台,基于FPGA的CNN加速器具有开发周期短,能效收益高,可重构性高等优点,越来越受到大家关注。
一个典型的CNN包含两个部分,特征提取部分和特征解码部分。特征提取部分用于产生图像不同特征的特征图,然后输出包含这些特征的低维向量给到特征解码部分。特征解码部分也可以理解为神经网络解码的过程,基于提取到的低维向量包含的特征信息,完成检测和分类等功能。CNN大部分的计算量都在于特征提取部分的卷积操作,如图1所示,现有的一些FPGA加速器方案都聚焦于加速特征提取部分,而特征解码部分还是要交由上位机或者ARM硬核去处理,所以在一些需要摆脱上位机的应用场景下,芯片选型时只能考虑系统级芯片(SoC),即FPGA+处理器结构。但是因为ARM架构是一个32位的精简指令集(RISV)处理器,所以往往会出现FPGA的计算资源很多,卷积部分加速快,而处理器对于CNN网络的特征解码能力有限的情况,以YoloV3网络为例,网络特征解码包括Sigmoid函数,非极大值抑制(NMS),指数(Exp)函数等,存在大量的浮点数计算,处理器的性能更是会成为网络加速的瓶颈,即FPGA的加速效果受到了处理器的限制,无法完全发挥FPGA的优势以达到最好的加速效果。
发明内容
鉴于上述技术问题,本发明提供了一种基于FPGA实现的卷积神经网络特征解码系统,该系统将CNN网络的特征解码模块也放到FPGA内部进行加速,解决FPGA加速方案中遇到的特征提取和特征解码速率不匹配的问题。将该特征解码模块放在特征提取的后面,因为整个网络不再分为两个部分,所有功能都在FPGA中实现,也就是说加速效果完全取决于FPGA的性能,只要将两个部分的功能实现完全的流水化设计,就能达到FPGA加速效果的最大化。同时因为特征提取的结果不需要再经过DDR缓存,直接在片内进行处理,也降低了CNN网络处理的时延,甚至可以完全脱离处理器实现CNN网络的加速,达到芯片级别的计算加速效果。
一种基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述系统包括有:
相互连接的DDR缓存模块和FPGA,所述FPGA中设置有特征提取模块和特征解码模块,所述特征提取模块与所述特征解码模块连接。
上述的基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述FPGA中设置有特征提取模块和特征解码模块,所述特征解码模块进一步包括有:函数变换模块、比较模块、非极大值抑制模块,所述函数变换模块、比较模块、非极大值抑制模块依次连接。
本发明技术方案中,上述的基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述函数变换模块中包括有Sigmoid函数、指数函数。
本发明技术方案中,上述的基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述比较模块包括有第一比较模块和第二比较模块,所述第一比较模块中设置有第一比较器,所述第二比较模块中设置有片上缓存BRAM和第二比较器。
上述技术方案具有如下优点或有益效果:
1、解决了加速方案所关心的芯片选型问题。包含ARM处理器的SoC芯片不再是唯一的选项,传统的FPGA芯片也可以摆脱上位机和处理器,完成整个卷积神经网络的计算,所以在成本方面可以有更多的选择空间。
2、有效降低单张图片处理的时延。集成了该功能模块后,FPGA与ARM处理器之间不再有数据交互,减少了大量的数据传输。同时特征解码功能不再需要等待所有尺度的特征提取结果,任一尺度结果输出即被该模块处理,相比处理器的方式能够更快输出结果。
3、最大化加速效果。不再依赖处理器或者上位机进行特征解码,也就避免了卷积神经网络中特征提取部分和特征解码部分速率不匹配的问题,FPGA的速度不会因为处理器的表现受到限制,而且处理器也不会再和FPGA竞争DDR的带宽,最终能够达到完全芯片级别的加速效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未可以按照比例绘制附图,重点在于示出本发明的主旨。
图1是背景技术中使用FPGA进行神经网络加速的方案示意图;
图2是本发明特征解码方案示意图;
图3是YoloV3网络特征解码流程示意图;
图4是本发明在特征解码效率上的改进示意图;
图5是比较模块实现示意图;
图6本发明具体实施例示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图2~图4所示,本发明基于FPGA实现的卷积神经网络特征解码系统,包括有:相互连接的DDR缓存模块和FPGA,FPGA中设置有特征提取模块和特征解码模块,特征提取模块与特征解码模块连接,特征解码模块进一步包括有:函数变换模块、比较模块、非极大值抑制模块,函数变换模块、比较模块、非极大值抑制模块依次连接。
在本发明技术方案中,函数变换模块中包括有Sigmoid函数、指数函数。
在本发明技术方案中,比较模块包括有第一比较模块和第二比较模块,所述第一比较模块中设置有第一比较器,所述第二比较模块中设置有片上缓存BRAM和第二比较器。第一比较模块(即比较模块1)内判断所有特征点在已经得到的通道中N(N<K)分类得分最高的类别N1max,然后将所有特征点的N1max存储在第二比较模块(即比较模块2),第一比较模块再进入N个通道的数据得到N2max,通过第二比较模块再得到N1max与N2max的最大值,以此类推,直到特征点的所有的通道都遍历完,即可得到置信度最高的分类。
本发明以具有代表性的YoloV3网络为例,阐述该模块实现卷积神经网络的过程。如图3所示,神经网络的特征解码包含Sigmoid函数,指数函数,阈值过滤,非极大值抑制和比较模块。YoloV3网络共有3个输出层,分别对应3个尺度的特征提取结果,这3层结果都要经过函数变换和阈值过滤,然后所有满足条件的点再进行NMS操作,最终输出检测结果的类别,置信度和相对位置信息。
与ARM处理器处理方式不同,FPGA不属于冯·诺依曼架构,所以特征提取的结果不需要写入DDR,而是直接输入到特征解码模块,基于FPGA可以同时拥有流水线并行和数据并行的特性,本发明对该步骤在效率上进行了改进,网络特征解码的时间会被特征提取的时间所淹没。如图4所示,我们记3个尺度的特征提取结果分别为R1,R2和R3,现有的FPGA加速方案,上位机或是ARM处理器必须要等到R1,R2,R3全部产生才能进行特征解码,采用本发明提出的模块后,在等待特征提取部分输出R2的过程中,基于FPGA实现的卷积神经网络特征解码系统已经将R1进行函数变换。同理,在等待R3输出的过程中R2也进行了相同的处理,所以对整个神经网络来说,R3输出之后即可以和R1,R2进行NMS操作,得到最终结果,所以对单张图片而言,基于FPGA实现的卷积神经网络特征解码会显著降低处理时延。
通常情况下,FPGA的片上缓存(BRAM)资源都是有限的,对于卷积神经网络加速这一场景而言,特征提取部分还需要使用部分BRAM资源用于存放特征图和权重数据,所以特征解码模块能分配到的BRAM资源更加紧缺,为了解决这一问题,本发明采用了切割通道(C,channel)的方案。原始的特征提取结果中1个特征点包含M个通道,通道信息包含了检测结果的坐标,置信度和可能的分类类别数。分类类别数K决定了通道数大小,M=3*(4+1+K),分类类别越多,通道数越多。因为分配到特征解码模块的BRAM无法将所有特征点的全通道数据都存储下来,所以只能存储所有特征点的部分通道的数据,通道切割后的特征点因为通道不再连续,所以无法再直接取到所有分类中的最可靠信分类,如图5所示,为此将分类得分比较部分分为2个步骤。首先在第一比较模块(即比较模块1)内判断所有特征点在已经得到的通道中N(N<K)分类得分最高的类别N1max,然后将所有特征点的N1max存储在第二比较模块(即比较模块2),接下来第一比较模块再进入N个通道的数据得到N2max,通过第二比较模块再得到N1max与N2max的最大值,以此类推,直到特征点的所有的通道都遍历完,即可得到置信度最高的分类。
同样,以YoloV3-Tiny网络为例,YoloV3-Tiny网络一共有2个输出层,检测80个分类,所以输出每个特征点共有255个通道。FPGA芯片选型采用Xilinx厂家的Kintex7-325T(K7)芯片,此芯片不包含处理器,现有的FPGA加速方案基于K7芯片只能输出特征检测结果,再将特征检测结果发送给上位机去处理,才能得到最终的检测结果。通过在K7芯片上集成本发明提出的基于FPGA实现的卷积神经网络特征解码模块,FPGA可以实现摆脱对上位机的依赖,同时也减少了数据传输时延。在本例中,结合K7芯片的BRAM存储资源大小,将切割通道大小定为32,所以要遍历完所有的通道数据需要8次,且最后一次只有31通道的数据,完成所有通道的比较后,再进行NMS操作即可得到最终检测输出结果。本发明极大程度上解决了加速方案芯片选型的问题,因为摆脱了处理器的限制,选择范围不再只有单一的SoC芯片,纯FPGA芯片也可以。
图6中为另一实施例示意图,以YoloV3网络为例,YoloV3网络一共有3个输出层,检测80个分类,所以输出每个特征点共有255个通道。FPGA芯片选型采用Xilinx厂家的ZynqUltraScale+MPSoC(Zu7)芯片,此SoC芯片包含ARM处理器。结合Zu7芯片的BRAM存储资源大小,将切割通道大小定为64,所以要遍历完所有的通道数据需要4次,且最后一次只有63通道的数据。如图6所示,SoC芯片上的ARM处理器只负责控制逻辑,不参与特征解码的计算过程。ARM进行特征解码的方案,本发明减少了ARM与DDR的数据交互,降低了DDR的负载,不再使用ARM进行特征解码步骤中的浮点数计算,也减少了SoC芯片整体的功耗,单张图片处理时延也有所降低。
本领域技术人员应该理解,本领域技术人员在结合现有技术以及上述实施例可以实现所述变化例,在此不做赘述。这样的变化例并不影响本发明的实质内容,在此不予赘述。
以上对本发明的较佳实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (4)
1.一种基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述系统包括有:
相互连接的DDR缓存模块和FPGA,所述FPGA中设置有特征提取模块和特征解码模块,所述特征提取模块与所述特征解码模块连接。
2.根据权利要求1所述的基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述FPGA中设置有特征提取模块和特征解码模块,所述特征解码模块进一步包括有:函数变换模块、比较模块、非极大值抑制模块,所述函数变换模块、比较模块、非极大值抑制模块依次连接。
3.根据权利要求2所述的基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述函数变换模块中包括有Sigmoid函数、指数函数。
4.根据权利要求2所述的基于FPGA实现的卷积神经网络特征解码系统,其特征在于,所述比较模块包括有第一比较模块和第二比较模块,所述第一比较模块中设置有第一比较器,所述第二比较模块中设置有片上缓存BRAM和第二比较器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010665131.7A CN111860781B (zh) | 2020-07-10 | 2020-07-10 | 基于fpga实现的卷积神经网络特征解码系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010665131.7A CN111860781B (zh) | 2020-07-10 | 2020-07-10 | 基于fpga实现的卷积神经网络特征解码系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860781A true CN111860781A (zh) | 2020-10-30 |
CN111860781B CN111860781B (zh) | 2024-06-28 |
Family
ID=72984266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010665131.7A Active CN111860781B (zh) | 2020-07-10 | 2020-07-10 | 基于fpga实现的卷积神经网络特征解码系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860781B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220069336A (ko) * | 2020-11-20 | 2022-05-27 | 재단법인대구경북과학기술원 | 객체 검출 방법 및 장치 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846364A (zh) * | 2018-06-22 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 一种基于fpga的视频特征检测方法和系统 |
CN109086867A (zh) * | 2018-07-02 | 2018-12-25 | 武汉魅瞳科技有限公司 | 一种基于fpga的卷积神经网络加速系统 |
CN109102065A (zh) * | 2018-06-28 | 2018-12-28 | 广东工业大学 | 一种基于PSoC的卷积神经网络加速器 |
CN109784489A (zh) * | 2019-01-16 | 2019-05-21 | 北京大学软件与微电子学院 | 基于fpga的卷积神经网络ip核 |
CN110175670A (zh) * | 2019-04-09 | 2019-08-27 | 华中科技大学 | 一种基于FPGA实现YOLOv2检测网络的方法及系统 |
CN110717852A (zh) * | 2019-06-13 | 2020-01-21 | 内蒙古大学 | 一种基于fpga的田间视频图像实时分割系统及方法 |
-
2020
- 2020-07-10 CN CN202010665131.7A patent/CN111860781B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846364A (zh) * | 2018-06-22 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 一种基于fpga的视频特征检测方法和系统 |
CN109102065A (zh) * | 2018-06-28 | 2018-12-28 | 广东工业大学 | 一种基于PSoC的卷积神经网络加速器 |
CN109086867A (zh) * | 2018-07-02 | 2018-12-25 | 武汉魅瞳科技有限公司 | 一种基于fpga的卷积神经网络加速系统 |
CN109784489A (zh) * | 2019-01-16 | 2019-05-21 | 北京大学软件与微电子学院 | 基于fpga的卷积神经网络ip核 |
CN110175670A (zh) * | 2019-04-09 | 2019-08-27 | 华中科技大学 | 一种基于FPGA实现YOLOv2检测网络的方法及系统 |
CN110717852A (zh) * | 2019-06-13 | 2020-01-21 | 内蒙古大学 | 一种基于fpga的田间视频图像实时分割系统及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220069336A (ko) * | 2020-11-20 | 2022-05-27 | 재단법인대구경북과학기술원 | 객체 검출 방법 및 장치 |
KR102512151B1 (ko) | 2020-11-20 | 2023-03-20 | 재단법인대구경북과학기술원 | 객체 검출 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
CN111860781B (zh) | 2024-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967468B (zh) | 一种基于fpga的轻量级目标检测神经网络的实现方法 | |
US20200097806A1 (en) | Processing method and accelerating device | |
CN108108809B (zh) | 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法 | |
US11775430B1 (en) | Memory access for multiple circuit components | |
US20210089871A1 (en) | Processing system and method for binary weight convolutional neural network | |
CN111091130A (zh) | 基于轻量级卷积神经网络的实时图像语义分割方法及系统 | |
CN108764466A (zh) | 基于现场可编程门阵列的卷积神经网络硬件及其加速方法 | |
CN107463990A (zh) | 一种卷积神经网络的fpga并行加速方法 | |
CN113051216B (zh) | 一种基于FPGA加速的MobileNet-SSD目标检测装置及方法 | |
CN109472734B (zh) | 一种基于fpga的目标检测网络及其实现方法 | |
CN112633420A (zh) | 图像相似度确定及模型训练方法、装置、设备和介质 | |
CN113743505A (zh) | 基于自注意力和特征融合的改进ssd目标检测方法 | |
Shahshahani et al. | Memory optimization techniques for fpga based cnn implementations | |
CN111860781A (zh) | 基于fpga实现的卷积神经网络特征解码系统 | |
Yan et al. | Acceleration and optimization of artificial intelligence CNN image recognition based on FPGA | |
Tang et al. | Horizontal feature pyramid network for object detection in UAV images | |
CN113158132A (zh) | 一种基于非结构化稀疏的卷积神经网络加速系统 | |
CN112149814A (zh) | 一种基于fpga的卷积神经网络加速系统 | |
Wei et al. | Comic style transfer based on generative confrontation network | |
Xue et al. | Improved Faster R-CNN Based On CSP-DPN | |
CN111445019B (zh) | 一种分组卷积中通道混洗操作的实现装置及方法 | |
CN114612758A (zh) | 一种基于深度分组可分离卷积的目标检测方法 | |
Bai et al. | An OpenCL-based FPGA accelerator with the Winograd’s minimal filtering algorithm for convolution neuron networks | |
CN113313721A (zh) | 基于多尺度结构的实时语义分割方法 | |
Zhang et al. | Contextual and lightweight network for underwater object detection with self-attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |