CN104142845A - 基于OpenCL-To-FPGA的CT图像重建反投影加速方法 - Google Patents

基于OpenCL-To-FPGA的CT图像重建反投影加速方法 Download PDF

Info

Publication number
CN104142845A
CN104142845A CN201410347123.2A CN201410347123A CN104142845A CN 104142845 A CN104142845 A CN 104142845A CN 201410347123 A CN201410347123 A CN 201410347123A CN 104142845 A CN104142845 A CN 104142845A
Authority
CN
China
Prior art keywords
fpga
opencl
back projection
cpu
image reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410347123.2A
Other languages
English (en)
Other versions
CN104142845B (zh
Inventor
李磊
张瀚铭
蔡爱龙
闫镔
李汉宁
席晓琦
王林元
王彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CN201410347123.2A priority Critical patent/CN104142845B/zh
Publication of CN104142845A publication Critical patent/CN104142845A/zh
Application granted granted Critical
Publication of CN104142845B publication Critical patent/CN104142845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于OpenCL-To-FPGA的CT图像重建反投影加速方法,主要利用FPGA实现了CT图像重建反投影步骤的加速,具体为:在OpenCL编程模型中,构建CPU和FPGA协作的CPU-FPGA异构计算模式,CPU和FPGA间通过PCI-E总线进行通信,CPU作为主机端,负责算法中的串行任务以及对FPGA的配置与控制任务;FPGA作为协处理器端,通过加载OpenCL内核程序以实现对反投影计算的并行流水加速。在编程模式中,FPGA执行程序全部采用类C/C++风格的OpenCL语言开发,开发简便,修改灵活,能大大缩短研发周期,减少产品维护和升级的研发成本;另一方面,新方法基于OpenCL框架,代码可以实现跨平台快速移植,适合扩展和应用于多处理器异构平台的协同加速之中。

Description

基于OpenCL-To-FPGA的CT图像重建反投影加速方法
技术领域
本发明涉及一种CT图像重建的方法,特别是涉及一种基于OpenCL-To-FPGA的CT图像重建过程中反投影加速方法。 
背景技术
计算机断层成像(Computed Tomography, CT)以其无损、精确、三维可视化等优点在工业无损检测和医疗诊断领域获得了广泛的应用。然而CT设备在提高成像质量和重建分辨率的同时,相应需求的计算资源和存储资源都非常大,重建速度已成为CT技术走向实用的一个瓶颈,如何对CT重建过程加速是目前该领域研究的一个难点问题。
目前,实际CT系统中应用的主流算法主要集中于以滤波反投影为基础的解析类重建算法上,如FBP、FDK等算法。在这类算法中,反投影过程所占计算消耗的比例最高,对反投影计算的加速是实际应用中重建加速的关键点。
随着现代电子技术的高速发展,处理器的运算速度越来越快,因此近年来对CT重建加速的研究主要集中于基于GPU、FPGA等硬件加速方法上。FPGA拥有丰富的逻辑资源、算法模块和嵌入式硬核模块,以全数据流的形式进行处理,使用硬件以空间上全面积并行的方法提升算法速度,适合用来进行图像重建,利用FPGA实现对CT重建的反投影过程进行加速是该领域的重要研究方向。
经过现有技术的文献检索发现,利用FPGA加速CT重建反投影的文章采取的实现方式存在开发周期长、难以跨平台快速移植、不适于多处理器异构平台协同加速等不足。2008年,Markus Kowarschik等在Proceedings of the 9th International Meeting on Fully Three-Dimensional Image Reconstruction in Radiology and Nuclear Medicine 上发表文章《High-Speed Reconstruction for C-Arm Computed Tomography》,用9块FPGA协调工作完成了CT重建中三维反投影部分的加速,但他采用的开发方式是基于传统的VHDL/Verilog硬件编程语言,开发复杂度大,研发周期长,且研发程序只能在FPGA上使用,无法移植到其它处理器上。
2009年,Xu在其学位论文《An FPGA Hardware Solution for Accelerating Tomographic Reconstruction》中提出采用Impulse C语言在FPGA上实现了CT重建的FBP算法,对FBP算法中的二维反投影过程进行了FPGA加速,Impulse C语言采用类C的编程模式,研发速度和修改灵活性强于传统的开发方式,但Impulse C仅仅是面向FPGA编程研发,依旧存在移植困难,不适于多处理器异构平台协同加速等缺点。
OpenCL编程框架简介:OpenCL全称为Open Computing Language,即开放式计算语言,最早于2008年由Apple公司提出,是一个开放的免版税标准。OpenCL可以实现混合处理器的并行计算,它所支持的异构处理器包括CPU、GPU、DSP、Cell/B.E. processor等,可以实现可移植的并行加速代码,它为通用计算领域提供了一个跨平台的统一标准语言。2011年,Altera公司发布了FPGA的OpenCL标准开发计划,并于2013年推出了其基于OpenCL框架的FPGA产品,将跨平台并行编程标准OpenCL扩展到了FPGA。 
发明内容
本发明的发明目的是:提供一种基于OpenCL-To-FPGA的CT图像重建过程中反投影加速方法。
   本发明的技术方案是:基于OpenCL-To-FPGA的CT图像重建过程中反投影加速方法,包括如下步骤:
    步骤A:在OpenCL编程框架下,构建CPU和FPGA协作的CPU-FPGA异构平台模型;
    步骤B:CPU主机端构建OpenCL主机程序,并执行投影数据预处理操作;
    步骤C:处理后的投影数据通过PCI-E总线传输至FPGA协处理器,并存储至全局存储器中;
    步骤D:CPU主机端对FPGA的内核进行配置,FPGA作为协处理器端,通过加载OpenCL内核程序以实现对反投影计算的并行流水加速;
    步骤E:反投影后的重建数据通过PCI-E总线传输至CPU主机端。
进一步地,步骤D中FPGA作为协处理器端,实现对反投影计算进的并行流水加速的具体步骤为:
    步骤D1:根据反投影算子的算法思想和OpenCL编程框架模型设计相应的OpenCL设备核程序(.CL程序);
    步骤D2:利用Altera Altera SDK for OpenCL(AOCL)工具对核程序进行编译,生成相应的FPGA工程;
    步骤D3:利用Quartus工具对生成的FPGA工程编译,生成FPGA配置文件;
    步骤D4:CPU主机端设计并编写相应的主机程序,设计数据传输流程和FPGA设备的控制流程;
步骤D5:将FPGA配置文件下载到对应的FPGA协处理器设备中,同时主机端协同执行主机程序。
进一步地,步骤D中采用了分区访问的全局存储器访问优化方法,将全局存储器分割为多块bank,不同角度的投影数据分配到不同的bank上。
 
本发明的有益效果是:本发明在编程模式中,FPGA执行程序全部采用类C/C++风格的OpenCL语言开发,较传统的Verilog或VHDL等底层硬件描述语言,本方法开发简便,修改灵活,能大大缩短研发周期,减少产品维护和升级的研发成本;另一方面,新方法基于OpenCL框架,代码可以实现跨平台快速移植,适合扩展和应用于多处理器异构平台的协同加速之中。
附图说明
下面结合附图对本发明的具体实施方式作进一步的详细说明
图1为本发明的异构平台模型整体框架;
图2为本发明中反投影算子加速流程图;
图3为本发明中加速反投影重建结果图。
具体实施方式
本方法构建的异构平台模型如图1所示,其中CPU为主机端,通过PCI-E总线和一个或多个协处理器设备(FPGA板卡)连接。根据CT图像重建算法的任务分配,编程模型可以分为两部分,一部分是在CPU上执行的主程序,另一部分是在FPGA上执行的核函数。每个协处理器设备由多个处理单元组成,各种计算操作都是在处理单元中完成的,协处理器设备上的存储单元分为3种,分别为全局存储器、常数存储器和局部存储器。主机端管理着整个平台上的所有计算资源,主程序通过定义上下文并管理内核程序在FPGA上的执行,应用程序会从主机端向各个协处理器设备的处理单元发送计算命令,在一个计算单元内的所有处理单元会执行完全相同的一套指令流程。
整个平台对于CT图像重建算法的执行过程如下:(1)CPU主机端执行投影数据预处理操作;(2)处理后的投影数据通过PCI-E总线传输至FPGA协处理器,并存储至全局存储器中;(3)CPU主机端对FPGA的内核进行配置,FPGA协处理器端通过多处理单元并行流水执行反投影计算;(4)反投影后的重建数据通过PCI-E总线传输至CPU主机端。
 对CPU主机端的编程采用标准C/C++语言,对FPGA协处理器的编程采用基于OpenCL规范的描述语言。OpenCL标准规范的编程语言的抽象等级远高于VHDL和Verilog等硬件描述语言。传统的编程方式需要对FPGA底层硬件单元按照时序周期进行编程描述,对于复杂的算法执行,需要设计状态机控制数据通路,同时需要处理各级接口约束和时序同步问题,编程难度大、耗时长,且程序维护和升级复杂,非常不利于实际产品的快速应用。而采用OpenCL编程方式,无需关注底层时序级的硬件设计,可根据反投影算法设计高级语言描述的类C代码,OpenCL编译器则可自动实现由OpenCL代码转化为硬件描述语言和执行程序的步骤。
对于CT重建的反投影算法并行加速实现,采用OpenCL-To-FPGA方式的开发流程如图2所示,具体描述如下:(1)根据反投影算子的算法思想和OpenCL编程框架模型设计相应的OpenCL设备核程序(.CL程序);(2)利用Altera Altera SDK for OpenCL(AOCL)工具对核程序进行编译,生成相应的FPGA工程;(3)利用Quartus工具对生成的FPGA工程编译,生成FPGA配置文件;(4)CPU主机端设计并编写相应的主机程序,设计数据传输流程和FPGA设备的控制流程;(5)将FPGA配置文件下载到对应的FPGA协处理器设备中,同时主机端协同执行主机程序。
在反投影算子的OpenCL核函数设计中,采用2维线程进行并行设计。反投影过程采用体素驱动,各体素点间的计算是无关的,因此线程也按照体素点进行并行分配。同时,考虑z方向的相关性,为了减少重复计算量,z方向索引单独分配一个线程维度;而x-y面内的索引分配另一个线程维度。
为了实现加速性能的最优,综合考虑FPGA的硬件特点和反投影算子的计算流程,本设计主要采用了以下优化技术:(1)基于分区访问的全局存储器访问优化:将全局存储器分割为多块bank,不同角度的投影数据分配到不同的bank上,以实现负载的访问平衡,从而提升全局存储器的访问带宽;(2)利用常数存储器存储运算过程中需要多次重复计算的中间变量,节省计算资源;(3)优化内核函数中一次反投影的张数,提升对投影数据存储的访问带宽,同时减少对重建数据存储的访问,通过调整以达到对全局存储器访问的最优。
采用本方法在实际硬件设备上进行实现,使用的CPU为Intel i7 3770 CPU 3.40GHz,使用的FPGA协处理器设备为Altera公司的DE4-230开发板,OpenCL编译工具为Altera Beta OpenCL Development Kit(ACL) v0.9版,FPGA编译工具为Quartus 12.0。受DE4-230板卡外部存储器的带宽限制,对实际性能评测,优化3中核函数中一次反投影的张数定为2时最佳。重建体模采用标准Sheep-Logan体模,CT图像重建结果如图3所示,在DE4-230上执行反投影加速的测试结果如下表所示:
投影规模 重建规模 DE4-230执行时间
182^2*360 128^3 3.31
364^2*360 256^3 23.5
728^2*360 512^3 191.2
    上面结合附图对本发明优选的具体实施方式和实施例作了详细说明,但是本发明并不限
于上述实施方式和实施例,在本领域技术人员所具备的知识范 围内,还可以在不脱离本发明构思的前提下作出各种变化。 

Claims (3)

1.基于OpenCL-To-FPGA的CT图像重建过程中反投影加速方法,其特征在于包括如下步骤:
    步骤A:在OpenCL编程框架下,构建CPU和FPGA协作的CPU-FPGA异构平台模型;
    步骤B:CPU主机端构建OpenCL主机程序,并执行投影数据预处理操作;
    步骤C:处理后的投影数据通过PCI-E总线传输至FPGA协处理器,并存储至全局存储器中;
    步骤D:CPU主机端对FPGA的内核进行配置,FPGA作为协处理器端,通过加载OpenCL内核程序以实现对反投影计算的并行流水加速;
    步骤E:反投影后的重建数据通过PCI-E总线传输至CPU主机端。
2.根据权利要求1所述的基于OpenCL-To-FPGA的CT图像重建过程中反投影加速方法,其特征在于:步骤D中FPGA作为协处理器端,实现对反投影计算的并行流水加速的具体步骤为:
    步骤D1:根据反投影算子的算法思想和OpenCL编程框架模型设计相应的OpenCL设备核程序(.CL程序);
    步骤D2:利用Altera Altera SDK for OpenCL(AOCL)工具对核程序进行编译,生成相应的FPGA工程;
    步骤D3:利用Quartus工具对生成的FPGA工程编译,生成FPGA配置文件;
    步骤D4:CPU主机端设计并编写相应的主机程序,设计数据传输流程和FPGA设备的控制流程;
步骤D5:将FPGA配置文件下载到对应的FPGA协处理器设备中,同时主机端协同执行主机程序。
3. 根据权利要求1所述的基于OpenCL-To-FPGA的CT图像重建过程中反投影加速方法,其特征在于:步骤D中采用了分区访问的全局存储器访问优化方法,将全局存储器分割为多块bank,不同角度的投影数据分配到不同的bank上。
CN201410347123.2A 2014-07-21 2014-07-21 基于OpenCL-To-FPGA的CT图像重建反投影加速方法 Active CN104142845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410347123.2A CN104142845B (zh) 2014-07-21 2014-07-21 基于OpenCL-To-FPGA的CT图像重建反投影加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410347123.2A CN104142845B (zh) 2014-07-21 2014-07-21 基于OpenCL-To-FPGA的CT图像重建反投影加速方法

Publications (2)

Publication Number Publication Date
CN104142845A true CN104142845A (zh) 2014-11-12
CN104142845B CN104142845B (zh) 2018-08-17

Family

ID=51852027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410347123.2A Active CN104142845B (zh) 2014-07-21 2014-07-21 基于OpenCL-To-FPGA的CT图像重建反投影加速方法

Country Status (1)

Country Link
CN (1) CN104142845B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850866A (zh) * 2015-06-08 2015-08-19 电子科技大学 基于SoC-FPGA的自重构K-means聚类技术实现方法
CN104866286A (zh) * 2015-06-02 2015-08-26 电子科技大学 一种基于OpenCL与SoC-FPGA的K近邻分类加速方法
CN105678820A (zh) * 2016-01-11 2016-06-15 中国人民解放军信息工程大学 一种基于cuda的s-bpf重建算法加速方法
CN106020425A (zh) * 2016-05-27 2016-10-12 浪潮(北京)电子信息产业有限公司 一种fpga异构加速计算系统
CN106339351A (zh) * 2016-08-30 2017-01-18 浪潮(北京)电子信息产业有限公司 一种sgd算法优化系统及方法
CN107194864A (zh) * 2017-04-24 2017-09-22 中国人民解放军信息工程大学 基于异构平台的ct图像三维重建加速方法及其装置
CN107273331A (zh) * 2017-06-30 2017-10-20 山东超越数控电子有限公司 一种基于cpu+gpu+fpga架构的异构计算系统和方法
CN107315632A (zh) * 2017-06-27 2017-11-03 郑州云海信息技术有限公司 一种双调合并排序方法及系统
CN107357206A (zh) * 2017-07-20 2017-11-17 郑州云海信息技术有限公司 一种基于fpga板卡的运算优化的方法、装置及系统
CN107610035A (zh) * 2017-09-11 2018-01-19 郑州云海信息技术有限公司 一种处理图像的方法及系统
CN108596885A (zh) * 2018-04-16 2018-09-28 西安电子科技大学 基于cpu+fpga的快速sar图像变化检测方法
CN108733480A (zh) * 2017-09-23 2018-11-02 沈阳晟诺科技有限公司 一种ct重建架构设计方法
CN108829530A (zh) * 2018-06-15 2018-11-16 郑州云海信息技术有限公司 一种图像处理方法及装置
CN109472777A (zh) * 2018-10-19 2019-03-15 西安电子科技大学 一种基于fpga异构计算的桥梁检测方法
CN109558817A (zh) * 2018-11-16 2019-04-02 西安电子科技大学 一种基于fpga加速的机场跑道检测方法
CN109656673A (zh) * 2017-10-11 2019-04-19 阿里巴巴集团控股有限公司 程序的加载方法、装置、系统以及电子设备
CN109739833A (zh) * 2018-12-18 2019-05-10 山东超越数控电子股份有限公司 一种基于fpga的国产平台数据库加速系统及方法
CN110188066A (zh) * 2019-05-07 2019-08-30 方一信息科技(上海)有限公司 一种针对大容量数据的FPGA和基于opencl的FPGA算法
CN111105341A (zh) * 2019-12-16 2020-05-05 上海大学 一种低功耗高运算性能求解计算流体动力学的框架方法
CN111488051A (zh) * 2020-03-06 2020-08-04 复旦大学 基于cpu和fpga协同计算的云端深度神经网络优化方法
CN112540770A (zh) * 2019-09-23 2021-03-23 中国科学院沈阳自动化研究所 基于PowerPC和FPGA的异构平台及其加速方法
CN113781596A (zh) * 2020-09-25 2021-12-10 上海联影医疗科技股份有限公司 图像重建方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567944A (zh) * 2012-03-09 2012-07-11 中国人民解放军信息工程大学 基于fpga的ct图像重建硬件加速方法
US20130346953A1 (en) * 2012-06-22 2013-12-26 Altera Corporation Opencl compilation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567944A (zh) * 2012-03-09 2012-07-11 中国人民解放军信息工程大学 基于fpga的ct图像重建硬件加速方法
US20130346953A1 (en) * 2012-06-22 2013-12-26 Altera Corporation Opencl compilation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALTERA: "《Altera SDK for OpenCL Getting Started Guide》", 《HTTPS://WWW.ALTERA.CO.JP/JA_JP/PDFS/LITERATURE/HB/OPENCL-SDK/AOCL_GETTING_STARTED.PDF》 *
ALTERA: "《采用OpenCL标准实现FPGA设计》", 《WWW/GLOBAL/ZH_CN/PDFS/LITERATURE/WP/WP-01173-OPENCL_CN.PDF》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866286A (zh) * 2015-06-02 2015-08-26 电子科技大学 一种基于OpenCL与SoC-FPGA的K近邻分类加速方法
CN104866286B (zh) * 2015-06-02 2018-05-01 电子科技大学 一种基于OpenCL与SoC-FPGA的K近邻分类加速方法
CN104850866A (zh) * 2015-06-08 2015-08-19 电子科技大学 基于SoC-FPGA的自重构K-means聚类技术实现方法
CN104850866B (zh) * 2015-06-08 2018-05-01 电子科技大学 基于SoC-FPGA的自重构K-means聚类技术实现方法
CN105678820A (zh) * 2016-01-11 2016-06-15 中国人民解放军信息工程大学 一种基于cuda的s-bpf重建算法加速方法
CN106020425A (zh) * 2016-05-27 2016-10-12 浪潮(北京)电子信息产业有限公司 一种fpga异构加速计算系统
CN106339351B (zh) * 2016-08-30 2019-05-10 浪潮(北京)电子信息产业有限公司 一种sgd算法优化系统及方法
CN106339351A (zh) * 2016-08-30 2017-01-18 浪潮(北京)电子信息产业有限公司 一种sgd算法优化系统及方法
CN107194864A (zh) * 2017-04-24 2017-09-22 中国人民解放军信息工程大学 基于异构平台的ct图像三维重建加速方法及其装置
CN107315632A (zh) * 2017-06-27 2017-11-03 郑州云海信息技术有限公司 一种双调合并排序方法及系统
CN107273331A (zh) * 2017-06-30 2017-10-20 山东超越数控电子有限公司 一种基于cpu+gpu+fpga架构的异构计算系统和方法
CN107357206A (zh) * 2017-07-20 2017-11-17 郑州云海信息技术有限公司 一种基于fpga板卡的运算优化的方法、装置及系统
CN107610035B (zh) * 2017-09-11 2021-02-02 苏州浪潮智能科技有限公司 一种处理图像的方法及系统
CN107610035A (zh) * 2017-09-11 2018-01-19 郑州云海信息技术有限公司 一种处理图像的方法及系统
CN108733480A (zh) * 2017-09-23 2018-11-02 沈阳晟诺科技有限公司 一种ct重建架构设计方法
CN109656673A (zh) * 2017-10-11 2019-04-19 阿里巴巴集团控股有限公司 程序的加载方法、装置、系统以及电子设备
CN109656673B (zh) * 2017-10-11 2023-03-31 阿里巴巴集团控股有限公司 程序的加载方法、装置、系统以及电子设备
CN108596885A (zh) * 2018-04-16 2018-09-28 西安电子科技大学 基于cpu+fpga的快速sar图像变化检测方法
CN108596885B (zh) * 2018-04-16 2021-12-28 西安电子科技大学 基于cpu+fpga的快速sar图像变化检测方法
CN108829530A (zh) * 2018-06-15 2018-11-16 郑州云海信息技术有限公司 一种图像处理方法及装置
CN108829530B (zh) * 2018-06-15 2022-03-25 郑州云海信息技术有限公司 一种图像处理方法及装置
CN109472777A (zh) * 2018-10-19 2019-03-15 西安电子科技大学 一种基于fpga异构计算的桥梁检测方法
CN109472777B (zh) * 2018-10-19 2020-09-29 西安电子科技大学 一种基于fpga异构计算的桥梁检测方法
CN109558817A (zh) * 2018-11-16 2019-04-02 西安电子科技大学 一种基于fpga加速的机场跑道检测方法
CN109739833A (zh) * 2018-12-18 2019-05-10 山东超越数控电子股份有限公司 一种基于fpga的国产平台数据库加速系统及方法
CN110188066B (zh) * 2019-05-07 2021-02-02 方一信息科技(上海)有限公司 一种针对大容量数据的FPGA和基于opencl的FPGA算法
CN110188066A (zh) * 2019-05-07 2019-08-30 方一信息科技(上海)有限公司 一种针对大容量数据的FPGA和基于opencl的FPGA算法
CN112540770A (zh) * 2019-09-23 2021-03-23 中国科学院沈阳自动化研究所 基于PowerPC和FPGA的异构平台及其加速方法
CN112540770B (zh) * 2019-09-23 2022-05-06 中国科学院沈阳自动化研究所 基于PowerPC和FPGA的异构平台及其加速方法
CN111105341A (zh) * 2019-12-16 2020-05-05 上海大学 一种低功耗高运算性能求解计算流体动力学的框架方法
CN111488051A (zh) * 2020-03-06 2020-08-04 复旦大学 基于cpu和fpga协同计算的云端深度神经网络优化方法
CN113781596A (zh) * 2020-09-25 2021-12-10 上海联影医疗科技股份有限公司 图像重建方法和系统

Also Published As

Publication number Publication date
CN104142845B (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN104142845A (zh) 基于OpenCL-To-FPGA的CT图像重建反投影加速方法
Chen et al. Flinkcl: An opencl-based in-memory computing architecture on heterogeneous cpu-gpu clusters for big data
Liu et al. Speculative segmented sum for sparse matrix-vector multiplication on heterogeneous processors
CN102567944B (zh) 基于fpga的ct图像重建硬件加速方法
Kelly GPU computing for atmospheric modeling
CN104850866A (zh) 基于SoC-FPGA的自重构K-means聚类技术实现方法
CN101826016A (zh) 支持多核并行程序设计的可视化建模及代码框架生成方法
CN107194864A (zh) 基于异构平台的ct图像三维重建加速方法及其装置
Gong et al. Particle transport with unstructured grid on GPU
Tohid et al. Asynchronous execution of python code on task-based runtime systems
Lu et al. Parallel secondo: Practical and efficient mobility data processing in the cloud
Thies et al. PHIST: a pipelined, hybrid-parallel iterative solver toolkit
Reyes et al. Optimization strategies in different CUDA architectures using llCoMP
CN105183562A (zh) 一种基于cuda技术对栅格化数据进行抽阶的方法
Segal et al. High level programming for heterogeneous architectures
Huang et al. Improvement of GPU parallel real-time equilibrium reconstruction for plasma control
Andon et al. Software tools for automation of parallel programming on the basis of algebra of algorithms
Zhang et al. Development of a GPU-based three-dimensional neutron transport code
Ozog et al. A performance analysis of SIMD algorithms for Monte Carlo simulations of nuclear reactor cores
CN103530132A (zh) 一种cpu串行程序移植到mic平台的方法
Andon et al. Programming high-performance parallel computations: formal models and graphics processing units
Rannou et al. A parallel computational model for GATE simulations
Aslam et al. Performance comparison of gpu-based jacobi solvers using cuda provided synchronization methods
Zhao et al. Code refactoring from OpenMP to MapReduce model for big data processing
Nelson Monte Carlo methods for neutron transport on graphics processing units using CUDA

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant