CN104866286A - 一种基于OpenCL与SoC-FPGA的K近邻分类加速方法 - Google Patents

一种基于OpenCL与SoC-FPGA的K近邻分类加速方法 Download PDF

Info

Publication number
CN104866286A
CN104866286A CN201510294882.1A CN201510294882A CN104866286A CN 104866286 A CN104866286 A CN 104866286A CN 201510294882 A CN201510294882 A CN 201510294882A CN 104866286 A CN104866286 A CN 104866286A
Authority
CN
China
Prior art keywords
fpga
opencl
data
program
equipment end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510294882.1A
Other languages
English (en)
Other versions
CN104866286B (zh
Inventor
蒲宇亮
黄乐天
彭军
贺江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510294882.1A priority Critical patent/CN104866286B/zh
Publication of CN104866286A publication Critical patent/CN104866286A/zh
Application granted granted Critical
Publication of CN104866286B publication Critical patent/CN104866286B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Stored Programmes (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于OpenCL与SoC-FPGA的K近邻分类加速方法,它包括以下步骤:S1:构建SoC-FPGA异构平台模型;S2:在ARM主机端构建控制作用的OpenCL主机程序;S3:ARM主机端的主机程序创建内核;S4:ARM主机端配置并调用FPGA设备端的内核程序,将数据传输至FPGA设备端;S5:第一内核程序负责计算待分类数据距离训练集数据的欧氏距离,产生距离矩阵;S6:第二内核程序对距离矩阵的每一行进行不完全排序,筛选出每行的最小K个距离,并找到对应的训练集元素类型,传回ARM主机端处理;S7:ARM主机端进行类别统计并归类。本发明运用OpenCL标准,实现K近邻分类算法的FPGA并行优化,并在ARM端和FPGA端形成系统级流水,相比传统的GPU异构计算系统,本发明功耗更低,获得了更高的能量效率。

Description

一种基于OpenCL与SoC-FPGA的K近邻分类加速方法
技术领域
本发明涉及一种基于SoC-FPGA新型异构计算系统的K近邻分类技术的加速方法。
背景技术
K近邻算法作为二十世纪十大经典数据挖掘算法之一,以其精确、简单、有效等优点被广泛应用于文本分类、模式识别、图像及空间分类等领域。K近邻算法基于懒惰学习,其基本思想是在已知训练集中找到距离每个待分类样本最邻近的K个参考样本,根据这K个参考样本中最多的类别决定待分类样本的类别。然而K近邻算法中涉及大量计算,特别当与待分类样本比较的训练集样本较大时,会带来很大的计算开销。在大型分类系统中,训练集规模往往非常庞大,相应的计算资源和存储资源消耗都非常大,分类速度已成为K近邻分类技术走向实用的一个瓶颈,如何对K近邻分类过程加速是目前该领域研究的一个难题。
随着现代电子技术的飞速发展,处理器的运算速度越来越快,近年来对K近邻分类加速的研究主要集中于基于GPU、FPGA等硬件加速方法上。FPGA拥有丰富的逻辑资源、算法模块和嵌入式硬核模块,以全数据流的形式进行处理,使用硬件以空间上并行的方法提升算法速度,适用于K近邻分类技术中待分类样本与训练集样本的相似度计算以及K近邻样本的查找。利用FPGA实现对K近邻分类技术进行加速是该领域的重要研究方向。
经过现有的技术文献检索发现,利用FPGA加速K近邻分类技术的文章采取的实现方式存在开发周期长、跨平台移植性差、不适于多处理器异构平台协同加速等不足。2012年,Hanaa M. Hussain等在NASA/ESA Conference on Adaptive Hardware and Systems(AHS)上发表文章《An Adaptive Implementation of a Dynamically Reconfigurable K-Nearest Neighbour Classifier on FPGA》,采用动态局部重构的方法在FPGA上实现了K近邻分类技术的加速,但他采用的开发方式基于传统的VHDL/Verilog硬件编程语言,开发复杂度大,研发周期长,且研发程序只能在FPGA上使用,无法移植到其他架构的处理器上。
2008年,Apple公司提出了第一个面向异构系统通用目的并行编程的开放式免版税标准,全称Open Computing Language(OpenCL),即开放式计算语言。OpenCL适用于不同处理器的协同并行计算,其支持的异构协处理器包括CPU、GPU、DSP等,代码通用性强,能轻松在不同设备端进行移植。2011年,Altera公司发布了FPGA的OpenCL标准开发计划,并于2013年推出了基于OpenCL框架的FPGA产品,将跨平台并行编程标准OpenCL扩展到了FPGA领域。
在编程模式上,FPGA执行程序全部采用类C/C++风格的OpenCL语言开发,开发简便,修改灵活,能大大缩短研发周期,减少产品维护和升级的研发成本;另一方面,新方法基于OpenCL架构,代码可以实现跨平台快速移植,适合扩展和应用于多处理器异构平台的协同加速之中。同时,由于FPGA设备的精细粒度体系结构,编译只生成所需的逻辑结构,降低了系统能耗,达到了高性能低功耗计算的目的。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于SoC-FPGA新型异构计算系统的K近邻分类技术的加速方法,解决现有技术的K近邻算法存在的运算量大、占用硬件资源多、功耗大和系统时延大等问题。
本发明的目的是通过以下技术方案来实现的:一种基于OpenCL与SoC-FPGA的K近邻分类加速方法,它包括以下步骤:
S1:在OpenCL编程架构下,构建ARM主机端和FPGA设备端协作的SoC-FPGA异构平台模型,所述的ARM主机端与FPGA设备端通过AXI片内总线连接;
S2:在ARM主机端构建控制作用的OpenCL主机程序,所述的主机程序对环境参数进行配置,确定设备端平台以及完成平台初始化工作;
S3:ARM主机端的主机程序创建内核并且完成ARM主机端与FPGA设备端的内存分配,向内存中写入数据,通过参数传递的方式完成主机端与设备端的内存映射;
S4:ARM主机端的主机程序配置FPGA设备端的内核程序,并且调用FPGA设备端的内核程序,将训练集数据和待分类数据经过SoC的AXI片内总线传输至FPGA设备端,其中,所述的训练集数据存储在全局内存中,所述的待分类数据存储在局部内存中;
S5:FPGA设备端包括至少两个OpenCL内核程序;所述的OpenCL内核程序核包括第一内核程序和第二内核程序;所述的第一内核程序负责并行地计算每个待分类数据距离每个训练集数据的欧氏距离,产生距离矩阵,并将数据传输至第二内核程序进行处理;
S6:FPGA设备端的第二内核程序对距离矩阵的每一行进行不完全排序,筛选出每行的最小K个距离,并找到相应的训练集元素类型,传回ARM主机端处理;
S7:ARM主机端将找到的训练集元素类型进行类别统计,以频率最高的类别对待分类数据进行归类,完成整个K近邻分类过程。
步骤S6中所述的排序为并行冒泡排序。
一种基于OpenCL与SoC-FPGA的K近邻分类加速方法还包括一个释放内核与内存资源步骤S8:在步骤S7完成之后,释放所有内核与内存资源。
步骤S4所述的配置FPGA设备端的内核程序包括配置工作组组数、工作组大小以及计算单元维度。
本发明的有益效果是:
(1)本发明根据K近邻算法的可并行化特性,运用OpenCL标准,实现K近邻分类算法的FPGA并行优化,并在ARM主机端和FPGA设备端形成系统级流水,能更好地处理具有大量分支跳转结构的程序,使得硬件资源得到充分利用,解决现有技术的基于OpenCL标准的异构系统单纯用设备端实现加速,没有考虑挖掘主机端计算潜力的问题。
(2)本发明采用的SoC-FPGA系统由两部分子系统构成,分别为ARM架构子系统和FPGA架构子系统,由于两个系统集成在同一块芯片上,AXI片内总线高带宽特性将大大缩短主机与设备的通信时延,相比传统的GPU-CPU异构模式,系统时延更小,数据吞吐量更高;该方法不仅提升了K近邻算法的执行速度,而且相比传统的GPU异构计算系统,本发明功耗更低,获得了更高的能量效率。
(3)本发明通过合理配置计算位置,实现数据计算优化:根据K近邻分类算法的任务分配,计算密集度高且适合并行的距离矩阵计算以及距离排序部分以内核程序形式在FPGA端执行,类别统计以及分类等轻计算量且不易并行的部分在ARM端执行。
(4)由于FPGA设备的精细粒度体系结构,编译只生成所需的逻辑结构,降低了系统能耗,达到了高性能低功耗计算的目的。
(5)本发明通过合理配置数据存放的方式,实现数据访存优化:OpenCL标准所提供的内存模型包括全局内存、本地内存以及私有内存等,由于全局内存拥有资源多但访问速度慢,而本地内存访问速度快但资源较少,将数据量相对较少的待分类数据存储至本地内存,将数据量较大训练集数据存储至全局内存。
(6)采用OpenCL标准开发,系统可移植性强,兼容性强。
(7)FPGA执行程序全部采用类C/C++风格的OpenCL语言开发,开发简便,修改灵活,能大大缩短研发周期,减少产品维护和升级的研发成本。
附图说明
图1为本发明的方法流程图;
图2为FPGA设备端第一内核程序内核的工作组示意图;
图3为FPGA设备端第二内核程序的工作组示意图;
图4为FPGA设备端第二内核程序的并行冒泡排序示意图;
图5为系统流水示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案:
本方法的流程如图1所示,其中ARM为主机端,通过AXI总线与FPGA设备端相连,AXI片内总线高带宽特性将大大缩短主机与设备的通信时延,提高系统吞吐量。根据K近邻分类算法的任务分配,计算密集度高且适合并行的距离矩阵计算以及距离排序部分以内核程序形式在FPGA端执行,类别统计以及分类等轻计算量且不易并行的部分在ARM端执行。
OpenCL标准所提供的内存模型包括全局内存、本地内存以及私有内存等,由于全局内存拥有资源多但访问速度慢,而本地内存访问速度快但资源较少,将数据量相对较少的待分类数据存储至本地内存,将数据量较大训练集数据存储至全局内存。本发明通过合理配置数据存放的方式,实现数据访存优化。
在整个系统中,ARM主机端管理整个平台上的所有计算资源,主机端程序通过定义上下文以及队列管理内核程序。与传统基于SIMD(Single Instruction Multiple Data)并行实现方式的异构计算系统不同,本设计所采用的SoC-FPGA利用流水线实现并行,能更好地处理具有大量分支跳转结构的程序。
一种基于OpenCL与SoC-FPGA的K近邻分类加速方法,它包括以下步骤:
S1:在OpenCL编程架构下,构建ARM主机端和FPGA设备端协作的SoC-FPGA异构平台模型,所述的ARM主机端与FPGA设备端通过AXI片内总线连接;
S2:在ARM主机端构建控制作用的OpenCL主机程序,所述的主机程序对环境参数进行配置,确定设备端平台以及完成平台初始化工作;
S3:ARM主机端的主机程序创建内核并且完成ARM主机端与FPGA设备端的内存分配,向内存中写入数据,通过参数传递的方式完成主机端与设备端的内存映射;
S4:ARM主机端主机程序配置FPGA设备端工作组组数、工作组大小以及计算单元维度,并调用FPGA设备端内核程序,将训练集数据和待分类数据经过SoC的AXI片内总线传输至FPGA设备端,其中,所述的训练集数据存储在全局内存中,所述的待分类数据存储在局部内存中;
S5:FPGA设备端包括至少两个OpenCL内核程序;所述的OpenCL内核程序核包括第一内核程序和第二内核程序;所述的第一内核程序负责并行地计算每个待分类数据距离每个训练集数据的欧氏距离,计算空间如图2所示,产生距离矩阵,并将数据传输至第二内核程序进行处理;
S6:FPGA设备端的第二内核程序接受第一内核程序产生的距离矩阵,并对距离矩阵的每一行进行不完全排序,计算空间如图3所示;对于距离矩阵中的每行数据,设计并行冒泡算法实现K个数据的部分排序,过程中将数据加载到本地内存,维护一个长度为2*K的比较队列,如图4所示,直至筛选出每行的K个最小数据,并记录其对应训练集元素的类型,形成一个宽度为K的类型矩阵,数据通过AXI总线传回ARM主机端;
S7:ARM主机端的主机程序统计类型矩阵中每行数据中各类别数量,得到各种类型的出现频率;
S8:ARM端主机程序根据出现频率最大的类别确定待分类数据的类别,确定待分类数据的类型。至此完成了整个K近邻分类过程。
S9:在上述步骤完成后,释放所有内核与内存资源。
由于ARM主机端与FPGA设备端独立承担K近邻分类算法中的不同计算环节,步骤S5、步骤S6、步骤S7和步骤S8由于任务的计算时间相仿,本设计采用系统级流水形式实现多任务并行,流水示意图如图5所示。

Claims (4)

1.一种基于OpenCL与SoC-FPGA的K近邻分类加速方法,其特征在于:它包括以下步骤:
S1:在OpenCL编程架构下,构建ARM主机端和FPGA设备端协作的SoC-FPGA异构平台模型,所述的ARM主机端与FPGA设备端通过AXI片内总线连接;
S2:在ARM主机端构建控制作用的OpenCL主机程序,所述的主机程序对环境参数进行配置,确定设备端平台以及完成平台初始化工作;
S3:ARM主机端的主机程序创建内核并且完成ARM主机端与FPGA设备端的内存分配,向内存中写入数据,通过参数传递的方式完成主机端与设备端的内存映射;
S4:ARM主机端的主机程序配置FPGA设备端的内核程序,并且调用FPGA设备端的内核程序,将训练集数据和待分类数据经过SoC的AXI片内总线传输至FPGA设备端,其中,所述的训练集数据存储在全局内存中,所述的待分类数据存储在局部内存中;
S5:FPGA设备端包括至少两个OpenCL内核程序;所述的OpenCL内核程序核包括第一内核程序和第二内核程序;所述的第一内核程序负责并行地计算每个待分类数据距离每个训练集数据的欧氏距离,产生距离矩阵,并将数据传输至第二内核程序进行处理;
S6:FPGA设备端的第二内核程序对距离矩阵的每一行进行不完全排序,筛选出每行的最小K个距离,并找到相应的训练集元素类型,传回ARM主机端处理;
S7:ARM主机端将找到的训练集元素类型进行类别统计,以频率最高的类别对待分类数据进行归类,完成整个K近邻分类过程。
2.根据权利要求1所述的一种基于OpenCL与SoC-FPGA的K近邻分类加速方法,其特征在于:步骤S6中所述的排序为并行冒泡排序。
3.根据权利要求1所述的一种基于OpenCL与SoC-FPGA的K近邻分类加速方法,其特征在于:它还包括一个释放内核与内存资源步骤S8:在步骤S7完成之后,释放所有内核与内存资源。
4.根据权利要求1所述的一种基于OpenCL与SoC-FPGA的K近邻分类加速方法,其特征在于:步骤S4所述的配置FPGA设备端的内核程序包括配置工作组组数、工作组大小以及计算单元维度。
CN201510294882.1A 2015-06-02 2015-06-02 一种基于OpenCL与SoC-FPGA的K近邻分类加速方法 Expired - Fee Related CN104866286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510294882.1A CN104866286B (zh) 2015-06-02 2015-06-02 一种基于OpenCL与SoC-FPGA的K近邻分类加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510294882.1A CN104866286B (zh) 2015-06-02 2015-06-02 一种基于OpenCL与SoC-FPGA的K近邻分类加速方法

Publications (2)

Publication Number Publication Date
CN104866286A true CN104866286A (zh) 2015-08-26
CN104866286B CN104866286B (zh) 2018-05-01

Family

ID=53912140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510294882.1A Expired - Fee Related CN104866286B (zh) 2015-06-02 2015-06-02 一种基于OpenCL与SoC-FPGA的K近邻分类加速方法

Country Status (1)

Country Link
CN (1) CN104866286B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296616A (zh) * 2016-08-18 2017-01-04 中国航空工业集团公司洛阳电光设备研究所 一种红外图像细节增强方法和一种红外图像细节增强装置
CN108280461A (zh) * 2017-12-08 2018-07-13 西安电子科技大学 使用OpenCL加速的快速全局K-均值聚类方法
CN108804073A (zh) * 2018-05-21 2018-11-13 南京大学 一种多流水实时高速排序引擎系统
CN108932135A (zh) * 2018-06-29 2018-12-04 中国科学技术大学苏州研究院 基于fpga的分类算法的加速平台设计方法
CN109408148A (zh) * 2018-10-25 2019-03-01 北京计算机技术及应用研究所 一种国产化计算平台及其应用加速方法
US11544544B2 (en) 2019-09-17 2023-01-03 Gowin Semiconductor Corporation System architecture based on SoC FPGA for edge artificial intelligence computing

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020893A (zh) * 2012-11-21 2013-04-03 西安电子科技大学 基于fpga的k近邻分类器
JP2014074959A (ja) * 2012-10-02 2014-04-24 Nippon Telegr & Teleph Corp <Ntt> 近傍探索処理装置及び方法及びプログラム
CN104020983A (zh) * 2014-06-16 2014-09-03 上海大学 一种基于OpenCL的KNN-GPU加速方法
CN104142845A (zh) * 2014-07-21 2014-11-12 中国人民解放军信息工程大学 基于OpenCL-To-FPGA的CT图像重建反投影加速方法
US20150033075A1 (en) * 2013-07-25 2015-01-29 Altera Corporation Cache debug system for programmable circuits
CN104424383A (zh) * 2013-08-22 2015-03-18 南京理工大学 基于红外图像的硬件处理算法效果评价装置及其评价方法
CN104636300A (zh) * 2015-02-09 2015-05-20 南京国电南自美卓控制系统有限公司 基于soc fpga的串行收发器及数据接收发送方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014074959A (ja) * 2012-10-02 2014-04-24 Nippon Telegr & Teleph Corp <Ntt> 近傍探索処理装置及び方法及びプログラム
CN103020893A (zh) * 2012-11-21 2013-04-03 西安电子科技大学 基于fpga的k近邻分类器
US20150033075A1 (en) * 2013-07-25 2015-01-29 Altera Corporation Cache debug system for programmable circuits
CN104424383A (zh) * 2013-08-22 2015-03-18 南京理工大学 基于红外图像的硬件处理算法效果评价装置及其评价方法
CN104020983A (zh) * 2014-06-16 2014-09-03 上海大学 一种基于OpenCL的KNN-GPU加速方法
CN104142845A (zh) * 2014-07-21 2014-11-12 中国人民解放军信息工程大学 基于OpenCL-To-FPGA的CT图像重建反投影加速方法
CN104636300A (zh) * 2015-02-09 2015-05-20 南京国电南自美卓控制系统有限公司 基于soc fpga的串行收发器及数据接收发送方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MURAD QASAIMEH, ASSIM SAGAHYROON, TAMER SHANABLEH: ""FPGA-Based Parallel Hardware Architecture for Real-Time Image Classification"", 《IEEE TRANSACTIONS ON COMPUTATIONAL IMAGING》 *
刘莹,菅立恒,梁莘燊,李小君,高洋,王琤: ""基于CUDA架构的GPU的并行数据挖掘技术研究"", 《科研信息化技术与应用》 *
阳文敏: ""FPGA动态配置机制研究及应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296616A (zh) * 2016-08-18 2017-01-04 中国航空工业集团公司洛阳电光设备研究所 一种红外图像细节增强方法和一种红外图像细节增强装置
CN106296616B (zh) * 2016-08-18 2019-01-29 中国航空工业集团公司洛阳电光设备研究所 一种红外图像细节增强方法和一种红外图像细节增强装置
CN108280461A (zh) * 2017-12-08 2018-07-13 西安电子科技大学 使用OpenCL加速的快速全局K-均值聚类方法
CN108280461B (zh) * 2017-12-08 2020-04-14 西安电子科技大学 使用OpenCL加速的快速全局K-均值聚类方法
CN108804073A (zh) * 2018-05-21 2018-11-13 南京大学 一种多流水实时高速排序引擎系统
CN108804073B (zh) * 2018-05-21 2021-12-17 南京大学 一种多流水实时高速排序引擎系统
CN108932135A (zh) * 2018-06-29 2018-12-04 中国科学技术大学苏州研究院 基于fpga的分类算法的加速平台设计方法
CN109408148A (zh) * 2018-10-25 2019-03-01 北京计算机技术及应用研究所 一种国产化计算平台及其应用加速方法
US11544544B2 (en) 2019-09-17 2023-01-03 Gowin Semiconductor Corporation System architecture based on SoC FPGA for edge artificial intelligence computing

Also Published As

Publication number Publication date
CN104866286B (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN104866286A (zh) 一种基于OpenCL与SoC-FPGA的K近邻分类加速方法
Chen et al. NoC-based DNN accelerator: A future design paradigm
Saqib et al. Pipelined decision tree classification accelerator implementation in FPGA (DT-CAIF)
CN104850866A (zh) 基于SoC-FPGA的自重构K-means聚类技术实现方法
CN106339351B (zh) 一种sgd算法优化系统及方法
Verma et al. Performance evaluation of deep learning compilers for edge inference
CN109739833A (zh) 一种基于fpga的国产平台数据库加速系统及方法
Tzanos et al. Hardware acceleration on gaussian naive bayes machine learning algorithm
Zhou et al. Model-architecture co-design for high performance temporal gnn inference on fpga
Zou et al. Parallel design of intelligent optimization algorithm based on FPGA
CN102147813A (zh) 一种电力云环境下基于k最近邻算法的文档自动分类方法
Antonov et al. Research of the efficiency of high-level synthesis tool for FPGA based hardware implementation of some basic algorithms for the big data analysis and management tasks
Que et al. A reconfigurable multithreaded accelerator for recurrent neural networks
He et al. Haas: Cloud-based real-time data analytics with heterogeneity-aware scheduling
Zong-ling et al. The design of lightweight and multi parallel CNN accelerator based on FPGA
Zhang et al. Design and implementation of deep neural network for edge computing
István The Glass Half Full: Using Programmable Hardware Accelerators in Analytics.
CN103530132A (zh) 一种cpu串行程序移植到mic平台的方法
Wei et al. An efficient OpenCL-based FPGA accelerator for MobileNet
Raju et al. A CPU-GPU cooperative sorting approach
Zhang et al. Accelerating GNN Training by Adapting Large Graphs to Distributed Heterogeneous Architectures
Xu et al. Evaluation and trade-offs of graph processing for cloud services
Qin et al. A CNN hardware accelerator designed for YOLO algorithm based on RISC-V SoC
Bordawekar et al. Accelerating database workloads by software-hardware-system co-design
Mitsuishi et al. Implementing breadth-first search on a compact supercomputer suiren

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180501

Termination date: 20210602

CF01 Termination of patent right due to non-payment of annual fee