CN110736970B - 基于asic机器学习处理器的雷达目标快速识别方法 - Google Patents
基于asic机器学习处理器的雷达目标快速识别方法 Download PDFInfo
- Publication number
- CN110736970B CN110736970B CN201911017078.3A CN201911017078A CN110736970B CN 110736970 B CN110736970 B CN 110736970B CN 201911017078 A CN201911017078 A CN 201911017078A CN 110736970 B CN110736970 B CN 110736970B
- Authority
- CN
- China
- Prior art keywords
- model
- coprocessor
- dimension
- layer
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000010801 machine learning Methods 0.000 title claims abstract description 17
- 238000013139 quantization Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000012544 monitoring process Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims 1
- 238000003062 neural network model Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 25
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000001133 acceleration Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 102100030148 Integrator complex subunit 8 Human genes 0.000 description 1
- 101710092891 Integrator complex subunit 8 Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000002346 layers by function Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/41—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
- G01S7/415—Identification of targets based on measurements of movement associated with the target
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/41—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
- G01S7/417—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section involving the use of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10044—Radar image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20056—Discrete and fast Fourier transform, [DFT, FFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明公开了一种基于ASIC机器学习处理器的雷达目标快速识别方法,主要解决现有方法利用神经网络模型对雷达目标的识别速度慢,能效比低的问题,其方案是:获取VGG16识别模型,将该模型参数进行int8量化,并将其结构均匀拆分为N份;将拆分后模型从主处理器导入协处理器中;对毫米波雷达数据进行距离向傅里叶变换和短时傅里叶变换,得到目标的微多普勒图;将微多普勒图从主处理器导入协处理器中;通过协处理器按照拆分后的模型进行端到端的计算,得到目标属于不同类别的概率,并将结果拷入到主处理器中;主处理器将识别概率最大的结果作为最终识别结果输出。本发明能够加快雷达目标识别速度,提高能效比,可用于毫米波雷达场景监视。
Description
技术领域
本发明属于雷达技术领域,特别涉及一种雷达目标快速识别方法,可用于毫米波雷达场景监视的目标识别。
背景技术
随着深度学习技术的快速发展,深度神经网络被广泛应用于各个领域。由于其在特征提取、目标检测以及目标识别等方面的出色表现,也被引入雷达领域。利用神经网络技术搭建智能雷达系统,实现雷达目标智能识别也成为一种雷达发展趋势。
雷达微多普勒效应在原理上与经典的多普勒效应类似,是除目标主体运动外的微小运动对雷达回波信号产生的附加频率调制。不同运动目标的微动特性都会有或大或小的差异,因此,基于目标微动差异提取相应的微多普勒特征可用于雷达目标识别。由于毫米波波长较短,微多普勒特征相较来说更加明显,将毫米波雷达应用于基于微多普勒的目标识别更加有利,并且结合深度卷积网络技术,可以实现毫米波雷达目标智能识别。然而,深度卷积神经网络算法往往存在着存储资源消耗大、计算密集度大、耗时长等问题,无法满足雷达目标识别在实际中使用的需求。
为了解决深度卷积网络耗时较长,难于应用于实际系统中的问题,诸多系统方案被提出。目前,针对该问题主要有两种方案:
一是沈恬,胡飞在论文“卷积神经网络在图形处理GPU芯片上的优化”中提出了结合图形处理芯片的硬件特点,进行特定图形处理芯片上的优化。该论文首先分析了GPU的硬件特点,GPU具有大量的并行计算单元,适合计算密集型问题。随后分析了卷积神经网络应用于GPU所存在的问题,及输入瓶颈。因此采用直接卷积优化大量共享输入数据来平衡输入和运算之间的资源比例,达到了卷积神经网络在GPU上的加速运行。
二是王绍润在论文“神经网络算法的FPGA加速研究”中提出了基于FPGA开发的神经网络加速器。该论文首先分析了FPGA在硬件加速方面能效比较高,且灵活易重构的特点,适合采用FPGA实现硬件加速。随后针对卷积神经网络,从优化内存访问和提高并行计算程度两方面对不同的功能层进行设计。通过设计矩阵乘法模块完成对卷积层和全连接层的并行计算加速,设计线性缓冲结构使池化层流水线处理,提出并行流水线执行策略提高各功能模块的使用效率来提升系统整体性能。
但是上述两种方法在应用系统中均面临一定的问题,方法一采用了GPU作为神经网络加速硬件,首先,GPU不是专为神经网络搭建的硬件,底层运算单元对于神经网络基本算子的运算效率不是最高的;其次,GPU存在功耗大问题,不适合部署在实际应用系统中。方法二采用FPGA进行神经网络加速器硬件系统开发,虽然相比于GPU获得了较高的能效比,但是实现难度较大,并且一些复杂网络的硬件实现,对于FPGA上的各种资源需求很大,因其可重构的特点,FPGA还存在一些额外的硬件开销,不利于系统小型集成化。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于ASIC机器学习处理器的雷达目标快速识别方法,以提高神经网络计算中的运算速度与能效比,进一步提高雷达目标识别速度,避免额外的资源浪费,有利于系统小型集成化。
实现本发明目的的技术方案包括如下步骤:
(1)从公开网络下载VGG16识别模型,将该模型参数进行int8量化,再将参数量化后的VGG16模型结构均匀拆分为N份,将拆分后的模型从主机处理器拷入ASIC机器学习处理器的片上内存中,得到预处理后的识别模型;
(2)从主机处理器读取现有毫米波雷达监测场景中的二维数据,包括快时间维和慢时间维,对该二维数据依次进行距离向傅里叶变换和短时傅里叶变换处理,得到检测场景中目标的微多普勒图;
(3)多线程操作,得到目标的识别结果:
3a)将目标的微多普勒图从主机处理器拷入ASIC机器学习协处理器中;
3b)协处理器按照预处理后的模型对输入数据进行端到端的计算,得到目标属于不同类别的概率,并将该计算结果拷入到主处理器中;
3c)主处理器按照应用需求根据目标属于不同类别的概率,从中选出识别概率最大的结果作为目标的识别结果并输出。
本发明与现有技术相比具有以下优点:
第一,本发明由于采用ASIC机器学习协处理器按照VGG16模型进行端到端计算,有利于系统集成化,同时大大加快了运算速度,提高了能效比。
第二,本发明采用了int8模型参数量化,不仅大大降低了系统的存储压力,还加快了运算速度;同时利用多核处理器的优势,将同一个模型拆分成N份同时运行在ASIC处理器中不同的内核上,大大降低了系统单次响应时间,加快了雷达目标识别速度。
附图说明
图1是本发明的实现总流程图;
图2是现有VGG16识别模型的结构图。
具体实施方式
下面结合附图对本发明实施例做进一步描述。
参照图1,本发明的实施步骤如下:
步骤一,对VGG16识别模型进行参数量化及结构拆分。
1a)从公开网络下载获取VGG16识别模型:
如图2所示,该模型结构由五个卷积池化模块、两个全连接层以及一个Softmax层依次连接组成,其中:
每一个卷积池化模块,由若干个卷积层和一个最大池化层组成,每个卷积层后面都采用激活函数,卷积核均为3×3,步长为1,池化核尺寸均为2×2,步长为2;五个卷积池化模块的卷积层个数分别为2,2,3,3,3,激活函数都为relu(x)函数,其公式表示如下:
五个卷积池化模块的输出通道数分别为64,128,256,512,512;
所有卷积层加上两个全连接层和一个Softmax层,形成十六层网络结构;
1b)对识别模型参数进行int8量化,即将VGG16模型中的float32类型参数按如下公式量化为int8类型:
i=int(Valuefp32*scale),
其中,i表示量化后的int8类型参数,int(·)表示取整函数,Valuefp32为截断后的VGG16模型float32类型参数,scale为量化缩放因子,T表示参数的截断阈值,T的选取是采取最小化KL散度来确定;
1c)将VGG16模型结构均匀拆分成N份:
对VGG16模型结构的均匀拆分包括有两种方法,其中:
第一种方法是按照模型每层输入数据的通道维、长度维或者宽度维方向进行划分,根据当前层输入数据的输入通道数、长度以及宽度,按照通道维>长度维>宽度维的优先级,选取其中一个维度将输入数据均匀划分为N份,N为正整数,其取值范围为1≤N≤32,由于该模型的第一层输入数据的通道数为1,则按照第一层的长度维和宽度维进行均匀拆分,沿长度维均匀拆分为J份,沿宽度维均匀拆分为K份,J,K都为正整数,且J×K=N,之后的每一层都执行类似的操作,最后得到一个N等分的模型结构;
第二种方法是根据当前层的卷积核数量,将卷积核均匀分成N份,由于该模型中的每一层卷积核的数量与其同一层的输出通道数相等,则可以将每一层的卷积核均匀拆分N份,其余参数共享,最后得到一个N等分的模型结构;
对于模型拆分方法的选取,主要考虑采取该方法是否可以实现模型结构的均匀拆分,在本实例中,两种方法都可以采用。
步骤二,在主处理器中对雷达二维数据依次进行距离向傅里叶变换和短时傅里叶变换。
主处理器为常规的个人电脑中央处理器,本实例中采用的是但不限于Inter CPU,
距离向傅里叶变换和短时傅里叶变换是常规的雷达信号处理技术,具体实现如下:
2a)主处理器读取现有毫米波雷达监测场景中的二维数据;
2b)对回波信号快时间维进行快速傅里叶变换,得到目标的高分辨距离像s(l,m),其中,l代表快时间维采样单元,l=1,2,…L,L为一个慢时间采样间隔内快时间维采样点的个数,m代表慢时间维序号,m=1,2,…,M,M为慢时间维采样个数;
其中,STFT(·)表示短时傅里叶变换操作。
步骤三,将目标的微多普勒图从主机处理器拷入ASIC机器学习协处理器中,即将微多普勒图从Inter CPU拷入ASIC机器学习协处理器中。
ASIC机器学习处理器就是采用专用集成电路的硬件架构,专为机器学习开发的处理器,在本实例中,该机器学习处理器协助主处理器进行网络模型加速,因此也称为ASIC机器学习协处理器,该处理器有32个内核,4个双倍速率同步动态随机存储DDR控制器。
步骤四,ASIC机器学习协处理器按照拆分后的模型对输入数据进行端到端的计算。
所述端到端的计算,即给予协处理器一个输入数据,协处理器按照拆分后的模型结构运行,直接得到输出结果,中间没有其他额外操作,具体实现如下:
4a)将协处理器上32个内核按每8个内核与一个双倍速率同步动态随机存储DDR控制器绑定,得到4个DDR通道,用以减少核与核之间的访存冲突,并且充分挖掘各个DDR通道中的访存局部性;
4b)将拆分后的VGG16模型分别绑定在不同的内核上运行,协处理器内核解析该模型结构及模型参数,将微多普勒图作为该模型的第一层输入数据,由协处理器进行核间数据同步,该模型最后一层的输出结果即为目标属于不同类别的概率。
步骤五,将目标属于不同类别的概率从协处理器拷入到主处理器中,即从ASIC机器学习协处理器拷入到Inter CPU中,主处理器按照应用需求从目标属于不同类别的概率中选出识别概率最大的结果作为目标的识别结果并输出。
本发明的效果可以通过以下实验进一步说明:
分别采用本发明和现有基于CPU、基于GPU的方法,利用同样的VGG16识别模型,对监测场景中的雷达目标进行识别,统计其识别速率,如表一所示。
表一三种方法的识别速率对比
采用方法 | 基于CPU | 基于GPU | 本发明 |
识别速率/每秒识别帧数 | 5 | 168 | 312 |
从上表一可以看出,本方法识别速率比基于CPU的方法提高了61.4倍,比GPU的方法提高了0.86倍。
Claims (6)
1.一种基于ASIC机器学习处理器的雷达目标快速识别方法,其特征在于,包括如下:
(1)从公开网络下载VGG16识别模型,将该模型参数进行int8量化,再将参数量化后的VGG16模型结构均匀拆分为N份,将拆分后的模型从主机处理器拷入ASIC机器学习处理器的片上内存中,得到预处理后的识别模型;
(2)从主机处理器读取现有毫米波雷达监测场景中的二维数据,包括快时间维和慢时间维,对该二维数据依次进行距离向傅里叶变换和短时傅里叶变换处理,得到检测场景中目标的微多普勒图;
(3)多线程操作,得到目标的识别结果:
3a)将目标的微多普勒图从主机处理器拷入ASIC机器学习协处理器中;
3b)协处理器按照预处理后的模型对输入数据进行端到端的计算,得到目标属于不同类别的概率,并将该计算结果拷入到主处理器中;
3c)主处理器按照应用需求根据目标属于不同类别的概率,从中选出识别概率最大的结果作为目标的识别结果并输出。
4.根据权利要求1所述的方法,其中(1)中对参数量化后的VGG16模型结构均匀拆分,包括有两种方法,其中:
第一种方法是按照模型每层输入数据的通道维、长度维或者宽度维方向进行划分,根据当前层输入数据的输入通道数、长度以及宽度,按照通道维>长度维>宽度维的优先级,选取其中一个维度将输入数据均匀划分为N份,N为正整数,其取值范围为1≤N≤32;
第二种方法是根据当前层的卷积核数量,将卷积核均匀分成N份,其余模型参数共享。
6.根据权利要求1所述的方法,其中(3b)中协处理器按照预处理后的模型对输入数据进行端到端的计算,具体实现如下:
3b1)先将协处理器上32个内核按每8个内核与一个双倍速率同步动态随机存储DDR控制器绑定,得到4个DDR通道;
3b2)将拆分后的VGG16模型分别绑定在不同的内核上运行,协处理器内核解析该模型结构及模型参数,将微多普勒图作为该模型的第一层输入数据,由协处理器进行核间数据同步,该模型最后一层的输出结果即为目标属于不同类别的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017078.3A CN110736970B (zh) | 2019-10-24 | 2019-10-24 | 基于asic机器学习处理器的雷达目标快速识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017078.3A CN110736970B (zh) | 2019-10-24 | 2019-10-24 | 基于asic机器学习处理器的雷达目标快速识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110736970A CN110736970A (zh) | 2020-01-31 |
CN110736970B true CN110736970B (zh) | 2023-03-24 |
Family
ID=69271115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911017078.3A Active CN110736970B (zh) | 2019-10-24 | 2019-10-24 | 基于asic机器学习处理器的雷达目标快速识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110736970B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652351A (zh) * | 2020-05-09 | 2020-09-11 | 济南浪潮高新科技投资发展有限公司 | 一种神经网络模型的部署方法、设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10621486B2 (en) * | 2016-08-12 | 2020-04-14 | Beijing Deephi Intelligent Technology Co., Ltd. | Method for optimizing an artificial neural network (ANN) |
CN110059733A (zh) * | 2019-04-01 | 2019-07-26 | 苏州科达科技股份有限公司 | 卷积神经网络的优化及快速目标检测方法、装置 |
-
2019
- 2019-10-24 CN CN201911017078.3A patent/CN110736970B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110736970A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mehta et al. | Espnet: Efficient spatial pyramid of dilated convolutions for semantic segmentation | |
Feng et al. | Computer vision algorithms and hardware implementations: A survey | |
CN111459877B (zh) | 基于FPGA加速的Winograd YOLOv2目标检测模型方法 | |
CN111062472B (zh) | 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法 | |
CN111445012A (zh) | 一种基于fpga的分组卷积硬件加速器及其方法 | |
CN113033794B (zh) | 基于深度可分离卷积的轻量级神经网络硬件加速器 | |
CN103905831B (zh) | 基于图形处理器的条带波变换图像压缩方法 | |
CN113792621B (zh) | 一种基于fpga的目标检测加速器设计方法 | |
CN113222998B (zh) | 基于自监督低秩网络的半监督图像语义分割方法及装置 | |
CN110736970B (zh) | 基于asic机器学习处理器的雷达目标快速识别方法 | |
CN111340198A (zh) | 基于fpga的数据高度复用的神经网络加速器 | |
CN112257844A (zh) | 一种基于混合精度配置的卷积神经网络加速器及其实现方法 | |
Duan et al. | Energy-efficient architecture for FPGA-based deep convolutional neural networks with binary weights | |
CN109472734B (zh) | 一种基于fpga的目标检测网络及其实现方法 | |
CN102855644B (zh) | 一种基于小波自反馈的大规模地形数据压缩和解压方法 | |
Zhao et al. | HLS-based FPGA implementation of convolutional deep belief network for signal modulation recognition | |
CN112364989A (zh) | 一种基于快速傅里叶变换的卷积神经网络加速设计方法 | |
CN108960203B (zh) | 一种基于fpga异构计算的车辆检测方法 | |
CN116822616A (zh) | 一种用于大语言模型中Softmax函数训练的装置 | |
CN115983343A (zh) | 基于FPGA的YOLOv4卷积神经网络轻量化方法 | |
CN112561943B (zh) | 一种基于脉动阵列卷积运算数据复用的图像处理方法 | |
Chen et al. | Mask-net: A hardware-efficient object detection network with masked region proposals | |
Piyasena et al. | Lowering dynamic power of a stream-based cnn hardware accelerator | |
CN111047038A (zh) | 一种利用分块循环矩阵的神经网络压缩方法 | |
CN116151340B (zh) | 并行随机计算神经网络系统及其硬件压缩方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |