CN111289975A - 一种多gpu并行计算的快速成像处理系统 - Google Patents

一种多gpu并行计算的快速成像处理系统 Download PDF

Info

Publication number
CN111289975A
CN111289975A CN202010068855.3A CN202010068855A CN111289975A CN 111289975 A CN111289975 A CN 111289975A CN 202010068855 A CN202010068855 A CN 202010068855A CN 111289975 A CN111289975 A CN 111289975A
Authority
CN
China
Prior art keywords
distance information
gpu
processing
data
dimensional distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010068855.3A
Other languages
English (en)
Other versions
CN111289975B (zh
Inventor
刘晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brainware Terahertz Information Technology Co ltd
Original Assignee
Brainware Terahertz Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brainware Terahertz Information Technology Co ltd filed Critical Brainware Terahertz Information Technology Co ltd
Priority to CN202010068855.3A priority Critical patent/CN111289975B/zh
Publication of CN111289975A publication Critical patent/CN111289975A/zh
Application granted granted Critical
Publication of CN111289975B publication Critical patent/CN111289975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/89Radar or analogous systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Theoretical Computer Science (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种多GPU并行计算的快速成像处理系统,所述快速成像处理系统包括采集模块、接收模块、GPU组和CPU;所述采集模块,用于采集回波数据,顺序处理所述回波数据,得到顺序数据;所述接收模块,用于接收所述顺序数据,直接加载所述顺序数据。本发明通过采集模块采集回波数据,按顺序处理回波数据,并发送给接收模块,接收模块接收到回波数据后通过PCIe接口和RDMA技术直接加载进GPU1,大大节省了回波数据加载时间,GPU组中多个GPU进行并行处理,通过优化多GPU间的拓扑结构和并行计算方法,使得成像计算时间与GPU个数基本呈线性的关系,大大提高了GPU组计算效率。

Description

一种多GPU并行计算的快速成像处理系统
技术领域
本发明属于快速成像处理技术领域,特别涉及一种多GPU并行计算的快速成像处理系统。
背景技术
二维多输入多输出(Multiple inputMultiple Output,MIMO)阵列可以获取目标高分辨率三维图像,凭借其快速数据获取能力,可被应用于快速人体安检场合。采用MIMO阵列的探测系统,其发射端和接收端均采用多阵元天线结构,并同时使用多个相互正交的发射信号来探测目标,多路正交信号经目标散射后被接收端的所有阵元接收。每个接收信号都通过一组匹配滤波器分选对应各个发射波形的回波信号,从而引入了远多于实际物理阵元数目的观测通道和自由度。MIMO雷达独特的多收发天线阵列结构,使得常规的高效率成像算法难以直接应用MIMO雷达成像机制,而来源于计算机层析(computerizedtomography,CT)成像技术的后向投影(back projection,BP)算法却不受天线阵列形式的限制,能够直接进行MIMO雷达成像处理。
BP算法是一种精确的时域成像算法,但计算效率很低,应用于MIMO雷达成像时需要考虑如何降低计算时间的问题。常规的CPU计算方式,效率低下,成像时间慢。采用现场可编程门阵列(Field-Programmable Gate Array,FPGA),虽可以大大提高计算效率,但其成本较高,发热量大,散热问题严峻。采用GPU运算,利用其并发处理的优势,可大大提高运算效率,且成本相对较低,是BP成像计算的首选方式。在基于GPU的快速成像信号处理系统中,会面临两个难以解决的问题,一是低延迟的加载回波数据到GPU中,二是设计一个合理的GPU并行计算架构,以达到一个低延迟的成像性能。采用BP算法的MIMO近场成像方法,由于计算量大,对于快速成像的应用场合,单个GPU受限于内存和并行核数,计算效率会受到限制,因此迫切需要研究提出利用多个GPU并行实施MIMO近场快速成像的方法。
毫米波回波数据的采集通常由一块搭载FPGA的电路板完成,该电路板通常放置在天线阵列附近,同时距离GPU处理系统较远。一种常见的做法是,通过以太网连接数据采集板与GPU处理系统,这种做法的显著弊端有两个,一是当成像系统中天线阵列数量较大时,网络传输时间可能长达几十毫秒甚至更长,这是不可忽略的大延迟;二是网络传输的数据首先会加载进CPU中,再从CPU加载进GPU中,特别地,当GPU数量不止一个时,数据还需要分别加载到这些GPU中,这个数据路径是冗长低效率的。
发明内容
针对上述问题,本发明提供了一种多GPU并行计算的快速成像处理系统,所述快速成像处理系统包括采集模块、接收模块、GPU组和CPU;
所述采集模块,用于采集回波数据,顺序处理所述回波数据,得到顺序数据;
所述接收模块,用于接收所述顺序数据,直接加载所述顺序数据;
所述GPU组,用于运算处理所述顺序数据,得到一维距离信息,均分处理所述一维距离信息,得到距离信息分量,计算处理所述距离信息分量,得到图像结果,累加处理所述图像结果,得到累加结果,发送所述累加结果;
所述CPU,用于接收所述累加结果,对所述累加结果进行图片处理,得到成像结果。
优选的,所述接收模块至少包括1片FPGA,1个4×高速输入/输出接口和1个PCIe×8接口;
所述FPGA集成有PCIe控制器,用于直接加载所述顺序数据。
优选的,所述GPU组为以环形拓扑结构连接的N个GPU,所述每个GPU分别处理1/N份一维距离信息,其中N≥2;
环形拓扑结构中第1个GPU,
用于接收所述顺序数据,对所述顺序数据在频率维度进行一维快速傅里叶运算,得到所述一维距离信息;
还用于对所述一维距离信息进行切割处理,得到N份距离信息分量,N为GPU的总个数,其中,距离信息分量等于1/N所述一维距离信息。
优选的,每个所述GPU包括缓冲区和多个处理单元,其中,
所述缓冲区包括执行缓冲区和临时缓冲区,所述执行缓冲区用于拷贝1/N所述一维距离信息,所述临时缓冲区,用于存储剩余的所述一维距离信息,并将所述剩余的所述一维距离信息发送到下一个GPU中;
所述多个处理单元用于对所述1/N所述一维距离信息并行执行算法处理。
优选的,环形拓扑结构中第n个GPU的所述临时缓冲区,还用于存储执行区执行图像处理的执行结果,并将所述执行结果发送到下一个GPU的临时缓冲区,其中1<n<N。
优选的,环形拓扑结构中第N个GPU的所述临时缓冲区,还用于存储执行区执行图像处理的执行结果,并将所述执行结果发送到第一个GPU的图像累加单元。
优选的,采集回波数据,顺序处理所述回波数据,得到顺序数据;
接收所述顺序数据,加载所述顺序数据;
以环形拓扑结构连接的N个GPU,运算处理所述顺序数据,得到一维距离信息,均分处理所述一维距离信息,得到距离信息分量,计算处理所述距离信息分量,得到图像结果,累加处理所述图像结果,得到累加结果,发送所述累加结果;
接收所述累加结果,对所述累加结果进行图片处理,得到成像结果。
优选的,所述顺序处理包括:对所述回波数据进行先频率维度,然后接收阵列维度,最后发射阵列维度的顺序处理。
优选的,所述运算处理包括:接收所述顺序数据,对所述顺序数据在频率维度进行一维快速傅里叶运算,得到所述一维距离信息;
所述均分处理包括:对所述一维距离信息进行切割处理,得到N份所述距离信息分量,N为GPU的总个数,距离信息分量等于1/N所述一维距离信息;
所述计算处理包括:
接收1/N所述一维距离信息,发送1/N所述一维距离信息;
算法处理1/N所述一维距离信息,得到图像结果;
接收(N-I+1)/N所述一维距离信息和所述图像结果,发送所述图像结果,其中I=1,2…,N。
优选的,所述算法处理包括距离向插值、方位向时延校正和相干累加。
本发明通过采集模块采集回波数据,按顺序处理回波数据,并发送给接收模块,接收模块接收到回波数据后通过PCIe接口和RDMA技术直接加载进GPU1,大大节省了回波数据加载时间,GPU组中多个GPU进行并行处理,通过优化多GPU间的拓扑结构和并行计算方法,使得成像计算时间与GPU个数基本呈线性的关系,大大提高了GPU组计算效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明的整体结构示意图;
图2示出了本发明的实施例中GPU组结构图;
图3示出了本发明的三个GPU内部运行结构图;
图4示出了本发明的四个GPU内部运行结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种多GPU并行计算的快速成像处理系统,图1展示出了快速成像处理系统的整体结构示意图,如图1所示,所述快速成像处理系统包括采集模块、接收模块、GPU组和CPU。
具体的,所述采集模块,用于采集回波数据,顺序处理所述回波数据,得到顺序数据;采集模块前端接收到回波数据后,将回波数据按照先频率维度,然后接收阵列维度,最后发射阵列维度的顺序,得到顺序数据后,发送顺序数据。
其中,所述采集模块采用毫米波回波数据采集模块,毫米波回波数据采集模块至少包括1个4×Rapid IO接口。
具体的,所述接收模块,用于接收所述顺序数据,直接加载所述顺序数据,所述接收模块至少包括1片FPGA,1个4×高速输入/输出接口和1个PCIe×8接口,所述FPGA集成有PCIe控制器,用于直接加载所述顺序数据。
采集模块采用多路高速收发器,现以Rapid IO数据接收模块为例,其中,Rapid IO数据接收模块至少包括1片FPGA,1个4×Rapid IO接口和1个PCIe×8接口,其中FPGA集成有PCIe控制器。
烧录FPGA:在拥有N个Nvdia Quadro或Tesla系列显卡的计算机上创建一个混杂设备,通过文件操作集函数ioctl,实现nvidia_p2p_get_pages接nvidia_p2p_put_pages接口的PINNING GPU MEMORY和UNPINNING GPU MEMORY功能;通过nvidia_p2p_get_pages映射物理页表,并保存在nvidia_p2p_page_table结构体中;根据申请的虚拟内存地址映射物理页表,并建立一个scatterlist;将nvidia_p2p_page_table中映射好的页表信息填入D MA描述符表中;CPU将DMA描述符表通过PCIe写寄存器的方式写入到FPGA中。
Rapid IO数据接收模块中的FPGA将接收到的顺序数据通过PCIe DM A写的方式传输到GPU组中的GPU1的显存中。
具体的,所述GPU组,用于运算处理所述顺序数据,得到一维距离信息,均分处理所述一维距离信息,得到距离信息分量,计算处理所述距离信息分量,得到图像结果,累加处理所述图像结果,得到累加结果,发送所述累加结果。
进一步地,所述GPU组为以环形拓扑结构连接的N个GPU,所述每个GPU分别处理1/N份一维距离信息,其中N≥2。
进一步地,环形拓扑结构中第1个GPU,用于接收所述顺序数据,对所述顺序数据在频率维度进行一维快速傅里叶运算,得到所述一维距离信息,一维距离信息即Fecho(i,j,p),其中i=1,2,……Nt,Nt为天线发射阵列的个数,j=1,2,……Nr,Nr为接收阵列的个数;p=1,2,……,Nf,Nf为步进频率的个数。
进一步地,环形拓扑结构中第1个GPU,还用于对所述一维距离信息进行切割处理,得到N份距离信息分量,N为GPU的总个数,其中,距离信息分量等于1/N所述一维距离信息。
进一步地,每个所述GPU包括缓冲区和多个处理单元,其中,所述缓冲区包括执行缓冲区和临时缓冲区,所述临时缓冲区,用于存储剩余的所述一维距离信息,并将所述剩余的所述一维距离信息发送到下一个GPU中;所述执行缓冲区用于拷贝1/N所述一维距离信息,所述多个处理单元用于对所述1/N所述一维距离信息并行执行算法处理。
GPU1对1/N一维距离信息进行算法处理,即对1/N一维距离信息进行距离向插值、方位向时延校正和相干累加,与此同时,GPU1通过GPU Di rect P2P技术将(N-1)/N一维距离信息传输到GPU2中。具体的,GPU1将1/N一维距离信息拷贝到执行缓冲区中,将剩下(N-1)/N一维距离信息拷贝到临时缓冲区,并将临时缓冲区中的数据通过GPU Direct P2P技术拷贝到G PU2中;在GPU1构造M个后向投影算法模块,并分配到M个的CUDA核心中进行并行计算,其中M不大于成像网格数中,每个后向投影算法模块执行距离向插值、方位向时延校正和相干累加计算;并行计算完毕后,将并行计算结果进行合并,形成第一图片,拷贝到临时缓冲区。
进一步地,环形拓扑结构中第n个GPU的所述临时缓冲区,还用于存储执行区执行图像处理的执行结果,并将所述执行结果发送到下一个GPU的临时缓冲区,其中1<n<N。
GPUi从GPUi-1接收到(N-i+1)/N一维距离信息,i=2,3,…,N,只对1/N一维距离信息进行距离像插值、时延校正和相干累加,GPUi将剩余的1-[(N-i+1)/(N-1)]一维距离信息转发到GPUi+1中,并在计算任务完成后,将计算结果发送到GPUi+1中。具体的,GPUi将从GPUi-1中接收到(N-i+1)/N一维距离信息分为两部分,将1/N一维距离信息拷贝到执行缓冲区中,将剩下1-[(N-i+1)/(N-1)]一维距离信息拷贝到临时缓冲区,并将临时缓冲区中的数据通过GPU Direct P2P技术拷贝到GPUi+1中;在GPUi中构造M个后向投影算法模块,并分配到M个的CUDA核心中进行并行计算,其中M不大于成像网格数中,每个后向投影算法模块执行距离向插值、方位向时延校正和相干累加计算;并行计算完毕后,将并行计算结果进行合并,形成第i图片,拷贝到临时缓冲区;在GPUi中将第i图片拷贝到临时缓冲区中,并通过GPUDirect P2P技术拷贝到GPUi+1中。
进一步地,环形拓扑结构中第N个GPU的所述临时缓冲区,还用于存储执行区执行图像处理的执行结果,并将所述执行结果发送到第一个GPU的图像累加单元。
具体的,GPUn在计算任务完成后,将GPUn-1和自身的后向投影计算结果拷贝到临时缓冲区中,并通过GPU Direct P2P技术发送到GPU1中,GP U1接收到N-1个GPU计算结果,从临时缓冲区中取出自身计算结果,将N个GPU的计算结果进行累加,得到累加结果,完成聚焦成像。
进一步地,所述CPU,用于接收所述累加结果,对所述累加结果进行图片处理,得到成像结果。
以下结合快速成像处理系统的实际使用为例进行说明:
如图2和图3所示,毫米波数据采集前端在接收到毫米波回波数据后,将回波数据按照先频率维度,然后接收阵列维度,最后发射阵列维度的顺序,利用多路Rapid IO接口将毫米波回波数据从数据采集前端传输到一块Rapid IO数据接收模块FPGA中,在Rapid IO数据接收模块中,将接收到的回波数据通过PCIe接口和RDMA技术直接加载进GPU1中。
满足要求的Rapid IO数据接收模块可采用Xilinx设计的VC709开发板,该板卡采用一颗Xilinx Virtex-7系列FPGA作为处理器,拥有4×Rapid I O接口,总传输带宽高达40Gbps,同时拥有1个PCIe 2.0×8接口,总传输带宽高达64Gbps。
将3块Nvidia Quadro M4000显卡GPU1、GPU2、GPU3和一块Xilinx VC709开发板安装在Dell Precision T7910工作站的PCIe插槽中。在Rapi d IO数据接收模块中,将接收到的回波数据通过PCIe接口和RDMA技术直接加载进GPU1的显存中。
3块GPU间采用环形链接,每个GPU左右两个各有一个GPU,并且只从左边的GPU接收数据,再把数据发送至右边的GPU。为了避免与GP U与CPU之间的通信开销,GPU与GPU之间通过Nvida提供的GPUDirec t P2P技术直接通信。
收发天线阵列数目各800,跳频点数为256,成像区域网格划分为600*600*128,GPU1中对顺序数据在频率维度进行一维快速傅里叶运算,得到距离信息Fecho,GPU1将距离信息Fecho在发射阵列维度切割为3份。
在GPU1显存中设置执行缓冲区和临时缓冲区,将1/3一维距离信息拷贝到执行缓冲区中,将剩下2/3一维距离信息拷贝到临时缓冲区,并将临时缓冲区中的数据通过GPUDirect P2P技术拷贝到GPU2中,在GPU1中构造500个后向投影算法模块,并分配到500个的CUDA核心中进行并行计算,每个后向投影算法模块执行距离向插值、方位向时延校正和相干累加计算,当计算完成后,将500个CUDA核心的并行计算结果进行合并,形成第一图片,拷贝到临时缓冲区中。
GPU2从GPU1接收到2/3一维距离信息,只对1/3一维距离信息进行距离像插值、时延校正和相干累加,GPU2将剩余的1/3一维距离信息转发到GPU3中,在GPU2中构造500个后向投影算法模块,并分配到500个的C UDA核心中进行并行计算,每个后向投影算法模块执行距离向插值、方位向时延校正和相干累加计算,当计算完成后,将500个CUDA核心的并行计算结果进行合并,形成第二图片,拷贝到临时缓冲区中,并通过GPU Dir ect P2P技术拷贝到GPU3
GPU3从GPU2接收到1/3的一维距离数据,构造500个后向投影算法模块,并分配到500个的CUDA核心中进行并行计算,每个BP算法模块执行距离向插值、方位向时延校正和相干累加计算,当计算完成后,将500个CUDA核心的并行计算结果进行合并,形成第三图片,并拷贝到临时缓冲区中,GPU3将临时缓冲区中的第一图片和第二图片通过GPU Direct P2P技术拷贝到GPU1中,GPU1接收第一图片和第二图片,并从临时缓冲区中取出自身计算结果第一图片,将3个GPU的计算结果进行累加,得到累加结果,完成聚焦成像,并将累加结果回传到CPU中进行后续图像处理,得到成像结果。
通过统计回波数据从采集到加载进GPU的时间,发现在1块、2块和3块GPU参与后向投影成像计算的情况下,回波数据从采集到加载进GPU的时间占总后向投影成像时间不到3‰,数据传输延迟已减小到可以忽略的程度。
通过对比在1块、2块和3块GPU参与BP成像计算的情况下的总成像时间,发现数据总成像时间和GPU个数基本呈现线性关系,对于成像网格数更大的应用场合,通过增加GPU的个数可以达到成像时间基本不变的效果。
综上所述,该系统通过多路高速收发器和PCIe总线,并利用RDMA技术将回波数据直接传输进GPU,大大节省了回波数据加载时间;GPU间采用环形拓扑结构,并利用P2P技术直接通信,从而减少了CPU与GPU间的通信回路,减少二维多输入多输出毫米波成像时间,且当成像区域网格点增大时,通过增加GPU的个数,可基本维持成像时间不变。
如果是4个GPU,其内部运行如图4所示,和3个GPU运行的流程原理一样,这里不做阐述。
本发明基于上述一种多GPU并行计算的快速成像处理系统,还介绍了一种多GPU并行计算的快速成像处理方法,快速成像处理方法步骤为:
采集回波数据,顺序处理所述回波数据,得到顺序数据;
所述顺序处理包括:对所述回波数据进行先频率维度,然后接收阵列维度,最后发射阵列维度的顺序处理;
接收所述顺序数据,加载所述顺序数据;
以环形拓扑结构连接的N个GPU,运算处理所述顺序数据,得到一维距离信息;
所述运算处理包括:接收所述顺序数据,对所述顺序数据在频率维度进行一维快速傅里叶运算,得到所述一维距离信息;
以环形拓扑结构连接的N个GPU,均分处理所述一维距离信息,得到距离信息分量;
所述均分处理包括:对所述一维距离信息进行切割处理,得到N份所述距离信息分量,N为GPU的总个数,其中,所述距离信息分量等于1/N所述一维距离信息;
以环形拓扑结构连接的N个GPU,计算处理所述一维距离信息,得到图像结果;
所述计算处理包括:
接收1/N所述一维距离信息,发送1/N所述一维距离信息;
算法处理1/N所述一维距离信息,得到图像结果;
所述算法处理包括距离向插值、方位向时延校正和相干累加;
接收(N-I+1)/N所述一维距离信息和所述图像结果,发送所述图像结果,其中I=1,2…,N;
以环形拓扑结构连接的N个GPU,累加处理所述图像结果,得到累加结果,发送所述累加结果;
CPU接收所述累加结果,对所述累加结果进行图片处理,得到成像结果。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种多GPU并行计算的快速成像处理系统,其特征在于,所述快速成像处理系统包括采集模块、接收模块、GPU组和CPU;
所述采集模块,用于采集回波数据,顺序处理所述回波数据,得到顺序数据;
所述接收模块,用于接收所述顺序数据,直接加载所述顺序数据;
所述GPU组,用于运算处理所述顺序数据,得到一维距离信息,均分处理所述一维距离信息,得到距离信息分量,计算处理所述距离信息分量,得到图像结果,累加处理所述图像结果,得到累加结果,发送所述累加结果;
所述CPU,用于接收所述累加结果,对所述累加结果进行图片处理,得到成像结果。
2.根据权利要求1所述的多GPU并行计算的快速成像处理系统快速成像处理系统,其特征在于,所述接收模块至少包括1片FPGA,1个4×高速输入/输出接口和1个PCIe×8接口;
所述FPGA集成有PCIe控制器,用于直接加载所述顺序数据。
3.根据权利要求1所述的多GPU并行计算的快速成像处理系统快速成像处理系统,其特征在于,所述GPU组为以环形拓扑结构连接的N个GPU,所述每个GPU分别处理1/N份一维距离信息,其中N≥2;
环形拓扑结构中第1个GPU,
用于接收所述顺序数据,对所述顺序数据在频率维度进行一维快速傅里叶运算,得到所述一维距离信息;
还用于对所述一维距离信息进行切割处理,得到N份距离信息分量,N为GPU的总个数,其中,距离信息分量等于1/N所述一维距离信息。
4.根据权利要求3所述的多GPU并行计算的快速成像处理系统快速成像处理系统,其特征在于,
每个所述GPU包括缓冲区和多个处理单元,其中,
所述缓冲区包括执行缓冲区和临时缓冲区,所述执行缓冲区用于拷贝1/N所述一维距离信息,所述临时缓冲区,用于存储剩余的所述一维距离信息,并将所述剩余的所述一维距离信息发送到下一个GPU中;
所述多个处理单元用于对所述1/N所述一维距离信息并行执行算法处理。
5.根据权利要求3或4所述的多GPU并行计算的快速成像处理系统,其特征在于,
环形拓扑结构中第n个GPU的所述临时缓冲区,还用于存储执行区执行图像处理的执行结果,并将所述执行结果发送到下一个GPU的临时缓冲区,其中1<n<N。
6.根据权利要求4所述的多GPU并行计算的快速成像处理系统,其特征在于,
环形拓扑结构中第N个GPU的所述临时缓冲区,还用于存储执行区执行图像处理的执行结果,并将所述执行结果发送到第一个GPU的图像累加单元。
7.一种多GPU并行计算的快速成像处理方法,其特征在于,所述快速成像处理方法包括:
采集回波数据,顺序处理所述回波数据,得到顺序数据;
接收所述顺序数据,加载所述顺序数据;
以环形拓扑结构连接的N个GPU,运算处理所述顺序数据,得到一维距离信息,均分处理所述一维距离信息,得到距离信息分量,计算处理所述距离信息分量,得到图像结果,累加处理所述图像结果,得到累加结果,发送所述累加结果;
接收所述累加结果,对所述累加结果进行图片处理,得到成像结果。
8.根据权利要求7所述的多GPU并行计算的快速成像处理方法,其特征在于,
所述顺序处理包括:对所述回波数据进行先频率维度,然后接收阵列维度,最后发射阵列维度的顺序处理。
9.根据权利要求7所述的多GPU并行计算的快速成像处理方法,其特征在于,
所述运算处理包括:接收所述顺序数据,对所述顺序数据在频率维度进行一维快速傅里叶运算,得到所述一维距离信息;
所述均分处理包括:对所述一维距离信息进行切割处理,得到N份所述距离信息分量,N为GPU的总个数,距离信息分量等于1/N所述一维距离信息;
所述计算处理包括:
接收1/N所述一维距离信息,发送1/N所述一维距离信息;
算法处理1/N所述一维距离信息,得到图像结果;
接收(N-I+1)/N所述一维距离信息和所述图像结果,发送所述图像结果,其中I=1,2…,N。
10.根据权利要求9所述的多GPU并行计算的快速成像处理方法,其特征在于,所述算法处理包括距离向插值、方位向时延校正和相干累加。
CN202010068855.3A 2020-01-21 2020-01-21 一种多gpu并行计算的快速成像处理系统 Active CN111289975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010068855.3A CN111289975B (zh) 2020-01-21 2020-01-21 一种多gpu并行计算的快速成像处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010068855.3A CN111289975B (zh) 2020-01-21 2020-01-21 一种多gpu并行计算的快速成像处理系统

Publications (2)

Publication Number Publication Date
CN111289975A true CN111289975A (zh) 2020-06-16
CN111289975B CN111289975B (zh) 2022-04-22

Family

ID=71030694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010068855.3A Active CN111289975B (zh) 2020-01-21 2020-01-21 一种多gpu并行计算的快速成像处理系统

Country Status (1)

Country Link
CN (1) CN111289975B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328532A (zh) * 2020-11-02 2021-02-05 长沙景嘉微电子股份有限公司 多gpu通信的方法及装置、存储介质、电子装置
CN112764027A (zh) * 2020-12-10 2021-05-07 北京无线电计量测试研究所 基于cuda的mimo毫米波雷达三维成像方法及系统
CN113359134A (zh) * 2021-06-07 2021-09-07 西安电子科技大学 基于嵌入式gpu的sar数据分布式实时成像处理系统及方法
CN113805174A (zh) * 2021-09-13 2021-12-17 博微太赫兹信息科技有限公司 一种基于gpu的圆周合成孔径雷达图像重建方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070291040A1 (en) * 2005-01-25 2007-12-20 Reuven Bakalash Multi-mode parallel graphics rendering system supporting dynamic profiling of graphics-based applications and automatic control of parallel modes of operation
CN101441271A (zh) * 2008-12-05 2009-05-27 航天恒星科技有限公司 基于gpu的sar实时成像处理设备
CN101937082A (zh) * 2009-07-02 2011-01-05 北京理工大学 基于gpu众核平台的合成孔径雷达并行成像方法
CN104035751A (zh) * 2014-06-20 2014-09-10 深圳市腾讯计算机系统有限公司 基于多图形处理器的数据并行处理方法及装置
CN107301398A (zh) * 2017-06-23 2017-10-27 电子科技大学 一种基于gpu实现的合成孔径雷达图像目标识别方法
KR101877809B1 (ko) * 2017-02-21 2018-07-12 연세대학교 산학협력단 Gpu를 이용한 신호등 인식 장치 및 방법
CN108957450A (zh) * 2018-07-10 2018-12-07 西安恒帆电子科技有限公司 一种毫米波雷达gpu实时三维成像方法
CN109856632A (zh) * 2018-11-16 2019-06-07 上海无线电设备研究所 一种主动毫米波成像雷达的数据采集系统及其采集方法
CN209388308U (zh) * 2019-03-12 2019-09-13 博微太赫兹信息科技有限公司 基于gpu和fpga的通用数据采集与信号处理系统
CN110515053A (zh) * 2019-08-27 2019-11-29 西安电子科技大学 基于cpu和多gpu的异构平台sar回波仿真并行方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070291040A1 (en) * 2005-01-25 2007-12-20 Reuven Bakalash Multi-mode parallel graphics rendering system supporting dynamic profiling of graphics-based applications and automatic control of parallel modes of operation
CN101441271A (zh) * 2008-12-05 2009-05-27 航天恒星科技有限公司 基于gpu的sar实时成像处理设备
CN101937082A (zh) * 2009-07-02 2011-01-05 北京理工大学 基于gpu众核平台的合成孔径雷达并行成像方法
CN104035751A (zh) * 2014-06-20 2014-09-10 深圳市腾讯计算机系统有限公司 基于多图形处理器的数据并行处理方法及装置
KR101877809B1 (ko) * 2017-02-21 2018-07-12 연세대학교 산학협력단 Gpu를 이용한 신호등 인식 장치 및 방법
CN107301398A (zh) * 2017-06-23 2017-10-27 电子科技大学 一种基于gpu实现的合成孔径雷达图像目标识别方法
CN108957450A (zh) * 2018-07-10 2018-12-07 西安恒帆电子科技有限公司 一种毫米波雷达gpu实时三维成像方法
CN109856632A (zh) * 2018-11-16 2019-06-07 上海无线电设备研究所 一种主动毫米波成像雷达的数据采集系统及其采集方法
CN209388308U (zh) * 2019-03-12 2019-09-13 博微太赫兹信息科技有限公司 基于gpu和fpga的通用数据采集与信号处理系统
CN110515053A (zh) * 2019-08-27 2019-11-29 西安电子科技大学 基于cpu和多gpu的异构平台sar回波仿真并行方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王裕民: "多GPU环境下的卷积神经网络并行算法", 《小型微型计算机系统》 *
班阳阳: "基于后向投影的SAR成像算法与GPU加速研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328532A (zh) * 2020-11-02 2021-02-05 长沙景嘉微电子股份有限公司 多gpu通信的方法及装置、存储介质、电子装置
CN112328532B (zh) * 2020-11-02 2024-02-09 长沙景嘉微电子股份有限公司 多gpu通信的方法及装置、存储介质、电子装置
CN112764027A (zh) * 2020-12-10 2021-05-07 北京无线电计量测试研究所 基于cuda的mimo毫米波雷达三维成像方法及系统
CN112764027B (zh) * 2020-12-10 2023-11-14 北京无线电计量测试研究所 基于cuda的mimo毫米波雷达三维成像方法及系统
CN113359134A (zh) * 2021-06-07 2021-09-07 西安电子科技大学 基于嵌入式gpu的sar数据分布式实时成像处理系统及方法
CN113359134B (zh) * 2021-06-07 2024-01-16 西安电子科技大学 基于嵌入式gpu的sar数据分布式实时成像处理系统及方法
CN113805174A (zh) * 2021-09-13 2021-12-17 博微太赫兹信息科技有限公司 一种基于gpu的圆周合成孔径雷达图像重建方法

Also Published As

Publication number Publication date
CN111289975B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN111289975B (zh) 一种多gpu并行计算的快速成像处理系统
US11677662B2 (en) FPGA-efficient directional two-dimensional router
EP3298740B1 (en) Directional two-dimensional router and interconnection network for field programmable gate arrays
CN100449522C (zh) 基于多fpga的矩阵乘法并行计算系统
US10768856B1 (en) Memory access for multiple circuit components
US11315344B2 (en) Reconfigurable 3D convolution engine
CN102446158A (zh) 多核处理器及多核处理器组
CN102298139B (zh) 基于fpga的sar成像系统的二维加窗方法
CN105137428A (zh) 去斜率信号的极坐标格式成像算法的fpga实现方法
US20220113944A1 (en) Arithmetic processing device
He et al. Accl: Fpga-accelerated collectives over 100 gbps tcp-ip
CN111124995A (zh) 通过人工智能处理器处理一维复数数组的方法和设备
CN104820659A (zh) 一种面向粗粒度可重构系统的多模式动态可配高速访存接口
EP3822776A1 (en) System and method for transaction broadcast in a network-on-chip
WO2023098256A1 (zh) 神经网络运算方法、装置、芯片、电子设备和存储介质
CN108960203B (zh) 一种基于fpga异构计算的车辆检测方法
CN108564644B (zh) 机载主被动三维影像实时成像装置及方法
CN113156431B (zh) 一种基于fpga的后向投影快速成像架构设计方法
Xiaoguang Signal Processing System of Back-Projection Algorithm with Multi GPU s
EP3961509A1 (en) A reconfigurable parallel 3-dimensional convolution cluster engine
JPWO2017199401A1 (ja) 並列処理装置及び並列処理方法
CN113609056B (zh) 数据传输测试方法、装置、设备以及存储介质
CN112506677B (zh) TensorFlow的分布式矩阵计算实现方法与系统
CN115017072A (zh) 突发长度拆分方法、装置、芯片系统和电子设备
CN112230884B (zh) 目标检测硬件加速器及加速方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 230088 airborne integration center, 199 Xiangzhang Avenue, hi tech Zone, Hefei City, Anhui Province

Applicant after: BRAINWARE TERAHERTZ INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 230088 floor 6, building F4, innovation industrial park, high tech Zone, Shushan District, Hefei City, Anhui Province

Applicant before: BRAINWARE TERAHERTZ INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 6 / F, building F4, phase II, innovation industrial park, hi tech Zone, Hefei City, Anhui Province

Applicant after: BRAINWARE TERAHERTZ INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 230088 airborne integration center, 199 Xiangzhang Avenue, hi tech Zone, Hefei City, Anhui Province

Applicant before: BRAINWARE TERAHERTZ INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant