CN108960203A - 一种基于fpga异构计算的车辆检测方法 - Google Patents

一种基于fpga异构计算的车辆检测方法 Download PDF

Info

Publication number
CN108960203A
CN108960203A CN201810866372.0A CN201810866372A CN108960203A CN 108960203 A CN108960203 A CN 108960203A CN 201810866372 A CN201810866372 A CN 201810866372A CN 108960203 A CN108960203 A CN 108960203A
Authority
CN
China
Prior art keywords
matrix
fpga
pixel
vehicle detection
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810866372.0A
Other languages
English (en)
Other versions
CN108960203B (zh
Inventor
侯彪
焦李成
马菲
马晶晶
马文萍
白静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810866372.0A priority Critical patent/CN108960203B/zh
Publication of CN108960203A publication Critical patent/CN108960203A/zh
Application granted granted Critical
Publication of CN108960203B publication Critical patent/CN108960203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)

Abstract

本发明提供的一种基于FPGA异构计算的车辆检测方法,包括以下步骤:第一步,将目标算法编写为kernel程序,再将kernel程序编译为AOCX可执行文件;第二步,将待处理的目标数据通过PCIe接口发送到FPGA板卡上,并将上述所得到的AOCX可执行文件在FPGA板卡上进行运行;最终得到目标数据的处理结果;其中,所述目标算法为基于人类视觉注意系统的车辆检测算法;所述待处理的目标数据为高分辨SAR图像;本申请通过在FPGA端运行生成的可执行文件,很大程度的减少了基于人类视觉注意系统的车辆检测算法运行所需时间,明显的提高了算法的运行速度。

Description

一种基于FPGA异构计算的车辆检测方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于FPGA异构计算的车辆检测方法。
背景技术
在高分辨SAR图像中,目标的细节特征更加丰富,使得影藏在低分辨SAR图像的一些信息清晰的展现出来。高分辨SAR图像的这一优势使得对目标进行更加精细的检测与识别成为可能。对于高分辨率SAR图像来说,传统的目标检测算法已经不能满足实时性和准确性的要求.
人类具有十分强大的视觉感知系统,能够迅速地过滤掉人眼获取的海量信息中的无用信息,只对部分有用信息做出响应。基于人类视觉注意机制的车辆检测算法将人类视觉注意机制与SAR图像检测结合起来,为处理海量数据提供了一种高效便捷的方法,对高分辨SAR车辆图像具有较好的检测效果。基于人类视觉注意机制的车辆检测算法在CPU上执行虽然有较好的检测效果,但SAR图像数据量大、处理算法结构复杂,导致图像不能实时处理,进而使得车辆的检测算法运行速度慢。
发明内容
本发明的目的在于提供一种基于FPGA异构计算的车辆检测方法,解决了现有的车辆检测算法中在处理SAR图像时,由于SAR图像数据量大、处理算法结构复杂,导致图像不能实时处理,进而使得车辆的检测算法运行速度慢的缺陷。
为了达到上述目的,本发明采用的技术方案是:
本发明提供的一种基于FPGA异构计算的车辆检测方法,包括以下步骤:
第一步,将目标算法编写为kernel程序,再将kernel程序编译为AOCX可执行文件;
第二步,将待处理的目标数据通过PCIe接口发送到FPGA板卡上,并将上述所得到的AOCX可执行文件在FPGA板卡上进行运行;最终得到目标数据的处理结果;
其中,所述目标算法为基于人类视觉注意系统的车辆检测算法;所述待处理的目标数据为高分辨SAR图像。
优选地,所述目标算法在FPGA板卡上的运行过程,包括以下步骤:
S1,对待处理的目标数据进行均值滤波;
S2,将上述得到的滤波后的图像进行处理,得到两个子图像块集;
S3,通过下式分别计算出两个子图像块集上的每一个像素值的替代值v,进而得到对应的两个矩阵,分别为矩阵S1和矩阵S2
其中,μ代表滤波后的图像像素值,σtitle代表子图像块的标准偏差;
S4,将矩阵S1上的像素点的像素值与矩阵S2上对应的像素点的像素值进行比较,将两个像素值中最小的像素值对应的像素点作为矩阵S3的像素点,进而得到矩阵S3
S5,根据上述得到的矩阵S3,结合式(2)计算得到矩阵S4:
式中,S3(x,y)为矩阵S3的像素点;TF为阈值;其中,
式中,α表示噪声抑制参数,其取值范围为3.2~5.0;表示矩阵S3的像素值的平均数,σS3表示矩阵S3像素值的标准偏差;
S6,根据基于PCT的视觉注意模型,对矩阵S4进行处理,得到矩阵F;
S7,结合式(7)由矩阵F计算得到二值图像D的像素点:
式中,TD为阈值;
TD=μF+(β×σF)
式中,β为经验常数,其取值范围为1.0~3.5,μF表矩阵F像素点的平均数,σF代表矩阵F像素点的标准差;
其中,在二值图像D上,由像素点值为255的像素点所组成的区域即为检测到的车辆目标。
优选地,第一步中,将均值滤波编写为一个kernel函数的具体方法是:
S1,设置均值滤波kernel函数的工作组大小,进而将待处理的目标数据划分为若干个工作组;
S2,采用float2的矢量式的方式,将待处理的目标数据从FPGA板卡上的全局内存导入本地内存,得到每个工作组的数据,然后利用barrier函数,使得工作组内的数据同步;
S3,对S2得到的工作组数据进行卷积运算,得到工作组内每个像素点滤波后的像素值,进而得到滤波后的图像。
优选地,第二步中,两个子图像块集分别为第一子图像块集和第二子图像块集,其中,第一子图像块集是将滤波后的图像划分为若干个150*150的子图像块a所得;第二子图像块集是将滤波后的图像划分为若干个300*300的子图像块b所得。
优选地,在编写计算矩阵S1、矩阵S2和矩阵S3的生成kernel函数时,均采用流水线复制指令,且流水线复制指令的复制次数为4次。
优选地,第六步中,实现DCT与反DCT变换时,将乘法运算编写为一个kernel函数的具体方法:
S1、设置乘法运算kernel函数的工作组的大小,在两个输入矩阵的外围填充0使得global_work_size能够被工作组大小整除;
S2、将两个输入矩阵从FPGA板卡上的全局内存导入本地内存,得到对应的本地内存数据,然后利用barrier函数,使得工作组内的数据同步;
S3、将本地内存存储的矩阵对应的像素点进行相乘累加,得到矩阵相乘后的输出矩阵的每个像素点;
其中,在编写乘法运算kernel函数时,采用向量化指令对乘法运算kernel函数进行优化。
优选地,第一步中,利用OpenCL将目标算法编写为kernel程序;用Altera SDK forOpenCL将所述的kernel程序编译为AOCX可执行文件。
优选地,FPGA板卡型号为de5net_a7。
与现有技术相比,本发明的有益效果是:
本发明提供的一种基于FPGA异构计算的车辆检测方法,通过对基于人类视觉注意系统的车辆检测算法进行高级语言描述,得到Kernel程序;将所述的Kernel程序编译为Kernel可执行文件。在FPGA端运行上述生成的可执行文件,实现对人类视觉注意系统的车辆检测算法,得到处理结果;本申请通过在FPGA端运行生成的可执行文件,很大程度的减少了基于人类视觉注意系统的车辆检测算法运行所需时间,明显的提高了算法的运行速度。
进一步的,在对目标算法进行高级语言描述时,对FPGA板进行设置,如合理的设置工作组和工作项以划分目标数据,实现存储访问优化,提高Kernel程序的执行效率,在执行算法中的均值滤波和PCT变换时,应用数据划分对程序运算速度有很大的提升。
进一步的,在对目标算法进行高级语言描述时,对FPGA板进行设置,如采用流水线复制指令,提高了硬件资源的吞吐率,进而提高系统的吞吐量。
进一步的,在对目标算法进行高级语言描述时,对FPGA板进行设置,如合理的使用Buffer类型,避免无谓的数据传输,在所述车辆检测算法的多个kernel顺序执行的时候,让数据停留在FPGA内存中,下个Kernel执行前就不需要重新传入数据,提高FPGA的计算效率。
附图说明
图1是本发明涉及的流程图;
图2是目标算法在FPGA板卡上运行流程图。
具体实施方式
下面结合附图,对本发明进一步详细说明。
如图1所示,本发明提供的一种基于FPGA异构计算的车辆检测方法,包括以下步骤:
第一步,将目标算法利用OpenCL编写为kernel程序,用Altera SDK for OpenCL将所述的kernel程序编译为AOCX可执行文件;
第二步,将待处理的目标数据通过PCIe接口发送到FPGA板卡上,并通过CPU执行主机端程序控制第一步生成的AOCX可执行文件在FPGA板卡上进行运行;最终得到目标数据的处理结果。
其中,所述目标算法为基于人类视觉注意系统的车辆检测算法;所述待处理的目标数据为高分辨SAR图像;
如图2所示,所述的基于人类视觉注意系统的车辆检测算法在FPGA板卡上的运行过程,包括以下步骤:
第一步,对待处理的目标数据进行预处理:
首先,将待处理的目标数据进行均值滤波;将均值滤波编写为一个kernel函数;均值滤波的具体过程是:
S1,设置均值滤波kernel函数的工作组大小,进而将待处理的目标数据划分为若干个工作组,本实施例中,待处理的目标数据为2000*2000的SAR图像,设置工作组的大小为16*16,进而将该图像划分为125*125个工作组;
S2,采用float2的矢量式的方式,将待处理的目标数据从FPGA板卡上的全局内存导入本地内存,得到每个工作组的数据,然后利用barrier函数,使得工作组内的数据同步。使用矢量数据类型,大幅的提高了访存效率,实现了内存聚合,将多次访问合并成为一次宽向量的访问,减少了内存管理的个数。
S3,对S2得到的工作组数据进行卷积运算,得到工作组内每个像素点滤波后的像素值;本实施例中,设置filter的大小为5*5,使用循环展开指令,指定循环展开次数为5;编译器可以通过循环展开的优化方法增加kernel在每个时钟周期的工作量。
其次,将上述得到的滤波后的图像进行处理,得到两个子图像块集,具体地:将滤波后的图像划分为若干个150*150的子图像块a,进而形成第一子图像块集;接着再将滤波后的图像划分为若干个300*300的子图像块b,进而形成第二子图像块集;
然后,通过下式分别计算出两个子图像块集上的每一个像素值的替代值v,进而得到对应的两个矩阵,分别为矩阵S1和矩阵S2
其中,μ代表滤波后的图像像素值,σtitle代表子图像块的标准偏差;
最后,将矩阵S1上的像素点的像素值与矩阵S2上对应的像素点的像素值进行比较,将两个像素值中最小的像素值对应的像素点作为矩阵S3的像素点,进而得到矩阵S3
编写计算S1,S2,S3矩阵的kernel函数时,由于每个工作项所需的运算资源和逻辑都比较少,因此,在编写计算S1,S2,S3矩阵的kernel函数时,均利用流水线复制指令,且流水线复制为4次,以此提高了资源占用率,进而提高了系统的吞吐量。
FPGA编译工具AOC可以通过使用多余的工作组来达到复制流水线的目的,由此增加系统的吞吐量。每一个kernel流水线都可以由多个工作组共同完成,只要没达到流水线的最大容量,AOC就可以增加其他的工作组来帮助完成流水线任务。
第二步,根据上述得到的矩阵S3,结合式(2)计算矩阵S4:
式中,S3(x,y)为矩阵S3的像素点;TF为阈值;其中,
式中,α表示噪声抑制参数,其取值范围为3.2~5.0;表示矩阵S3的像素值的平均数,σS3表示矩阵S3像素值的标准偏差。
第三步,根据基于PCT的视觉注意模型,首先结合式(4)对矩阵S4做二维DCT变换,得到DCT变换后的矩阵X:
X=AS4AT
其中,矩阵A为矩阵S4的变换矩阵,矩阵AT为矩阵A的转置矩阵。
对矩阵X做符号化处理,得到符号化处理后的矩阵Y;
Y=sign(X)
其中,sign()表示做符号化处理。
然后结合式(6)对矩阵Y做二维DCT反变换,得到反变换后的矩阵F:
F=ATYA
实现DCT与反DCT变换时,将乘法运算编写为一个kernel函数,具体的:
S1、设置乘法运算kernel函数的工作组的大小,在两个输入矩阵的外围填充0使得global_work_size能够被工作组大小整除,本实施例中,工作组的大小为64*64;
S2、将两个输入矩阵从FPGA板卡上的全局内存导入本地内存,得到对应的本地内存数据,降低全局内存的访存复杂度,然后利用barrier函数,使得工作组内的数据同步;
S3、将本地内存存储的矩阵对应的像素点相乘累加,得到矩阵相乘后的输出矩阵的每个像素点,本实施例中,使用循环展开指令,设置为完全循环展开。
其中,在编写乘法运算kernel函数时,采用向量化指令对乘法运算kernel函数进行优化,设置向量化的次数为4,实现单指令执行多数据。
第四步,结合式(7)由矩阵F计算得到矩阵D的像素点,式(7):
其中,
TD=μF+(β×σF)
其中,β为经验常数,其取值范围为1.0~3.5,μF表矩阵F像素点的平均数,σF代表矩阵F像素点的标准差;
第五步,上述得到的二值图像D中像素点值为255的像素点所组成的区域即为检测到的车辆目标。
所述的将目标数据发送到FPGA板卡的过程,包括:
主机端通过OpenCL提供的写Buffer方式,将高分辨SAR图像数据发送到FPGA板卡的DDR内存中。
本实施例中,主机端将原始的高分辨SAR车辆图像数据转化为一维数组数据,通过调用OpenCL提供的clEnqueueWriteBuffer函数,将数据发送到FPGA板卡的DDR内存中。
将FPGA的处理结果发送到主机端的过程,包括:
主机端通过OpenCL提供的读Buffer方式,将FPGA的处理结果从FPGA的DDR内存发送到主机端。
本实施例中,通过调用OpenCL提供的clEnqueueReadBuffer函数,将FPGA的处理结果从FPGA的DDR内存发送到主机端,主机端在待处理的目标图像上框选出检测到的车辆目标,具体地:
在二值图像D上,由像素点值为255的像素点所组成的区域即为检测到的车辆目标,确定该检测区域的中心坐标,并在待处理的目标图像确定该中心坐标所对应的中心坐标,之后以待处理的目标图像上的中心坐标为中心,用矩形框框选出检测到的车辆目标。
本实施例中,使用的FPGA板卡型号为de5net_a7。
所述CPU端的的执行过程包括:
利用Visual studio 2015工具运行所述主机端程序;
可选的,所述Kernel可执行文件的生成过程,包括:
利用Altera SDK for OpenCL对所述的Kernel程序进行编译,以生成相应的可用FPGA执行的AOCX可执行文件。

Claims (8)

1.一种基于FPGA异构计算的车辆检测方法,其特征在于,包括以下步骤:
第一步,将目标算法编写为kernel程序,再将kernel程序编译为AOCX可执行文件;
第二步,将待处理的目标数据通过PCIe接口发送到FPGA板卡上,并将上述所得到的AOCX可执行文件在FPGA板卡上进行运行;最终得到目标数据的处理结果;
其中,所述目标算法为基于人类视觉注意系统的车辆检测算法;所述待处理的目标数据为高分辨SAR图像。
2.根据权利要求1所述的一种基于FPGA异构计算的车辆检测方法,其特征在于,所述目标算法在FPGA板卡上的运行过程,包括以下步骤:
S1,对待处理的目标数据进行均值滤波;
S2,将上述得到的滤波后的图像进行处理,得到两个子图像块集;
S3,通过下式分别计算出两个子图像块集上的每一个像素值的替代值v,进而得到对应的两个矩阵,分别为矩阵S1和矩阵S2
其中,μ代表滤波后的图像像素值,σtitle代表子图像块的标准偏差;
S4,将矩阵S1上的像素点的像素值与矩阵S2上对应的像素点的像素值进行比较,将两个像素值中最小的像素值对应的像素点作为矩阵S3的像素点,进而得到矩阵S3
S5,根据上述得到的矩阵S3,结合式(2)计算得到矩阵S4:
式中,S3(x,y)为矩阵S3的像素点;TF为阈值;其中,
式中,α表示噪声抑制参数,其取值范围为3.2~5.0;表示矩阵S3的像素值的平均数,σS3表示矩阵S3像素值的标准偏差;
S6,根据基于PCT的视觉注意模型,对矩阵S4进行处理,得到矩阵F;
S7,结合式(7)由矩阵F计算得到二值图像D的像素点:
式中,TD为阈值;
TD=μF+(β×σF)
式中,β为经验常数,其取值范围为1.0~3.5,μF表矩阵F像素点的平均数,σF代表矩阵F像素点的标准差;
其中,在二值图像D上,由像素点值为255的像素点所组成的区域即为检测到的车辆目标。
3.根据权利要求2所述的一种基于FPGA异构计算的车辆检测方法,其特征在于,第一步中,将均值滤波编写为一个kernel函数的具体方法是:
S1,设置均值滤波kernel函数的工作组大小,进而将待处理的目标数据划分为若干个工作组;
S2,采用float2的矢量式的方式,将待处理的目标数据从FPGA板卡上的全局内存导入本地内存,得到每个工作组的数据,然后利用barrier函数,使得工作组内的数据同步;
S3,对S2得到的工作组数据进行卷积运算,得到工作组内每个像素点滤波后的像素值,进而得到滤波后的图像。
4.根据权利要求2所述的一种基于FPGA异构计算的车辆检测方法,其特征在于,第二步中,两个子图像块集分别为第一子图像块集和第二子图像块集,其中,第一子图像块集是将滤波后的图像划分为若干个150*150的子图像块a所得;第二子图像块集是将滤波后的图像划分为若干个300*300的子图像块b所得。
5.根据权利要求2所述的一种基于FPGA异构计算的车辆检测方法,其特征在于,在编写计算矩阵S1、矩阵S2和矩阵S3的生成kernel函数时,均采用流水线复制指令,且流水线复制指令的复制次数为4次。
6.根据权利要求2所述的一种基于FPGA异构计算的车辆检测方法,其特征在于,第六步中,实现DCT与反DCT变换时,将乘法运算编写为一个kernel函数的具体方法:
S1、设置乘法运算kernel函数的工作组的大小,在两个输入矩阵的外围填充0使得global_work_size能够被工作组大小整除;
S2、将两个输入矩阵从FPGA板卡上的全局内存导入本地内存,得到对应的本地内存数据,然后利用barrier函数,使得工作组内的数据同步;
S3、将本地内存存储的矩阵对应的像素点进行相乘累加,得到矩阵相乘后的输出矩阵的每个像素点;
其中,在编写乘法运算kernel函数时,采用向量化指令对乘法运算kernel函数进行优化。
7.根据权利要求1所述的一种基于FPGA异构计算的车辆检测方法,其特征在于,第一步中,利用OpenCL将目标算法编写为kernel程序;用Altera SDK for OpenCL将所述的kernel程序编译为AOCX可执行文件。
8.根据权利要求1所述的一种基于FPGA异构计算的车辆检测方法,其特征在于,FPGA板卡型号为de5net_a7。
CN201810866372.0A 2018-08-01 2018-08-01 一种基于fpga异构计算的车辆检测方法 Active CN108960203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810866372.0A CN108960203B (zh) 2018-08-01 2018-08-01 一种基于fpga异构计算的车辆检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810866372.0A CN108960203B (zh) 2018-08-01 2018-08-01 一种基于fpga异构计算的车辆检测方法

Publications (2)

Publication Number Publication Date
CN108960203A true CN108960203A (zh) 2018-12-07
CN108960203B CN108960203B (zh) 2021-08-17

Family

ID=64466855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810866372.0A Active CN108960203B (zh) 2018-08-01 2018-08-01 一种基于fpga异构计算的车辆检测方法

Country Status (1)

Country Link
CN (1) CN108960203B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976810A (zh) * 2019-03-13 2019-07-05 西安交通大学 一种基于OpenCL的稠密矩阵乘GPU加速方法
CN116152307A (zh) * 2023-04-04 2023-05-23 西安电子科技大学 一种基于fpga的sar图像配准预处理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065136A (zh) * 2013-01-29 2013-04-24 中国电子科技集团公司第二十八研究所 一种基于视觉注意机制的sar图像协同目标识别方法
CN104392616A (zh) * 2014-12-19 2015-03-04 武汉大学 一种智能红绿灯控制系统及控制方法
CN105354541A (zh) * 2015-10-23 2016-02-24 西安电子科技大学 基于视觉注意模型和恒虚警率的sar图像目标检测方法
US20170177972A1 (en) * 2015-12-21 2017-06-22 Nokia Technologies Oy Method for analysing media content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065136A (zh) * 2013-01-29 2013-04-24 中国电子科技集团公司第二十八研究所 一种基于视觉注意机制的sar图像协同目标识别方法
CN104392616A (zh) * 2014-12-19 2015-03-04 武汉大学 一种智能红绿灯控制系统及控制方法
CN105354541A (zh) * 2015-10-23 2016-02-24 西安电子科技大学 基于视觉注意模型和恒虚警率的sar图像目标检测方法
US20170177972A1 (en) * 2015-12-21 2017-06-22 Nokia Technologies Oy Method for analysing media content

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周府: "基于OpenCL的FPGA异构计算方法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976810A (zh) * 2019-03-13 2019-07-05 西安交通大学 一种基于OpenCL的稠密矩阵乘GPU加速方法
CN116152307A (zh) * 2023-04-04 2023-05-23 西安电子科技大学 一种基于fpga的sar图像配准预处理装置

Also Published As

Publication number Publication date
CN108960203B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
US12020142B2 (en) Neural network model deployment method, prediction method and related device
KR102258414B1 (ko) 처리 장치 및 처리 방법
US20210224125A1 (en) Operation Accelerator, Processing Method, and Related Device
Mahmoud et al. Diffy: A Déjà vu-free differential deep neural network accelerator
Possa et al. A multi-resolution FPGA-based architecture for real-time edge and corner detection
US20230026006A1 (en) Convolution computation engine, artificial intelligence chip, and data processing method
CN106846235B (zh) 一种利用NVIDIA Kepler GPU汇编指令加速的卷积优化方法及系统
CN114995782B (zh) 数据处理方法、装置、设备和可读存储介质
US20220083857A1 (en) Convolutional neural network operation method and device
WO2023093623A1 (zh) 计算图的优化方法、数据处理方法及相关产品
US11568323B2 (en) Electronic device and control method thereof
CN117435855B (zh) 用于进行卷积运算的方法、电子设备和存储介质
KR20210014561A (ko) 다수 컨벌루션 윈도우 중의 이미지 데이터를 추출하는 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장매체
CN109993293B (zh) 一种适用于堆叠式沙漏网络的深度学习加速器
CN108960203B (zh) 一种基于fpga异构计算的车辆检测方法
US11397615B2 (en) Methods and apparatuses for coalescing function calls for ray-tracing
US20230085718A1 (en) Neural network scheduling method and apparatus
CN111028136B (zh) 一种人工智能处理器处理二维复数矩阵的方法和设备
CN106251291A (zh) 利用OpenGL与OpenCL协作实现图像缩放的方法及系统
CN110490308B (zh) 加速库的设计方法、终端设备及存储介质
WO2020103883A1 (zh) 执行矩阵乘法运算的方法、电路及soc
US11874898B2 (en) Streaming-based artificial intelligence convolution processing method and apparatus, readable storage medium and terminal
CN106909320B (zh) 一种多维数据扩充传输的方法、装置以及系统
CN106934757B (zh) 基于cuda的监控视频前景提取加速方法
CN111610963B (zh) 芯片结构及其乘加计算引擎

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant