CN107341053A

CN107341053A - 异构多核可编程系统及其内存配置和计算单元的编程方法

Info

Publication number: CN107341053A
Application number: CN201710404920.3A
Authority: CN
Inventors: 胡勇; 徐渊; 朱明程; 赵光东
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2017-11-10
Anticipated expiration: 2037-06-01
Also published as: CN107341053B

Abstract

本发明涉及一种在单颗FPGA芯片内实现的异构多核可编程系统及其内存配置方法和计算单元的编程方法。该异构多核可编程系统包括一个主机和多个计算单元,以及作为系统内存配置给多个计算单元共享的外部DDR存储器，其中为每个计算单元分配有一块存储空间，每个存储空间用于存储相应计算单元的数据和指令。该内存配置方法包括：主机根据为各个计算单元配置的计算任务，在外部DDR存储器中为各计算单元分配相应的存储空间；并进一步地将该存储空间划分为两个对称区域。本发明将计算单元的指令和数据存储器都分配在外部的DDR存储器上，不会出现因芯片内部存储资源稀缺，而导致指令和数据存储容量不够的情况，且内存分配具有灵活、高效、可靠的优势。

Description

异构多核可编程系统及其内存配置和计算单元的编程方法

技术领域

本发明涉及异构多核可编程系统领域，主要涉及在单颗现场可编程门阵列(FPGA，Field－Programmable Gate Array)芯片内实现异构多核可编程系统的设计方法、内存分配、编程模型设计与开放运算语言(OpenCL，Open Computing Language)支持，更具体地说，涉及一种在单颗FPGA芯片内实现的异构多核可编程系统及其内存配置方法和计算单元的编程方法。

背景技术

异构多核可编程系统是将结构、功能、功耗、运算性能不同的多个核心处理器集成在单颗芯片上，通过任务剖析与核心调度，将不同的任务分配给相应的核心，使每个核心物尽其用，这种组织方式实现了资源的最佳化配置，且能降低整体功耗。由于在FPGA平台上实现异构多核系统，其能量效率方面表现较高，且FPGA的硬件可编程性可以使开发者方便的搭建符合自身需求的数字系统。目前，常见的异构模型有同种CPU+FPGA上的硬件加速模块组成，或单个CPU+单个DSP组成异构系统。前者的硬件加速模块，由于是在系统设计之初就确定了功能，设计完成后不能实现灵活的可编程性。后者其实还是在用单个核心做串行的数据运算和处理，未达到并行处理的要求，不能充分展现系统的高效性。

在异构多核可编程系统中，内存的分配使用是关键问题。如何保证多个计算单元无冲突的访问内存，当前有设计是给计算单元在FPGA芯片上实现本地数据和指令存储器。然而FPGA内部的存储器资源非常稀缺，因而限制了各个计算单元的本地存储器大小，导致数据和指令空间的不够用，这种本地存储的方式在多计算单元的设计中尤为矛盾。而且在主机需要结果数据时，还需要从原有本地存储中拷贝数据到主机内存空间，数据搬移上产生了时间的消耗。

此外，异构多核可编程系统的编程较复杂，有研究者提出“统一编程，分开编译”的编程模型，对于此种模型，需要为从核的变量和函数都添加特定的标记，然后再设计相应的分离解析程序。此种方式其实加大了编程的复杂性，并不能保证分离解析程序的准确性、可靠性。

OpenCL是一个为异构平台编写程序的框架，此异构平台可由CPU，GPU或其他类型的处理器组成。现在已成为行业规范。AMD和NVIDIA都发布了支持OpenCL的图形处理器及软件开发工具包(SDK，Software Development Kit)。美国FPGA厂商英特尔和赛灵思公司，也推出了使支持OpenCL的开发板卡，用以实现CPU+FPGA的异构并行计算。微软在数据中心使用FPGA加速计算任务。但是这只能针对于特定的板卡，开发者对在FPGA内部的系统不可见也无法修改。

针对现有技术存在的上述问题，业内需要开发一种具有大容量内存的异构多核可编程系统，以及与之配套的内存优化配置方法和计算单元的编程方法。

发明内容

本发明要解决的技术问题在于，针对现有异构多核可编程系统存在系统效率低、存储空间小的缺陷，提供一种具有大容量存储空间的在单颗FPGA芯片内实现的异构多核可编程系统及其内存配置方法。

本发明要解决另一技术问题在于，针对现有异构多核可编程系统存在的系统编程复杂的缺陷，提供一种在单颗FPGA芯片内实现的异构多核可编程系统中计算单元的编程方法。

本发明解决其技术问题所采用的技术方案是：构造一种在单颗FPGA芯片内实现的异构多核可编程系统，包括一个主机和多个计算单元，还包括，

作为系统内存配置给所述多个计算单元共享的外部DDR存储器，其中为每个计算单元分配有一块存储空间，每个所述存储空间用于存储相应计算单元的数据和指令。

在本发明所述的在单颗FPGA芯片内实现的异构多核可编程系统中，

每个所述计算单元在外部DDR存储器所分配的所述存储空间的起始地址和空间大小是可动态配置的。

为每个计算单元分配的所述存储空间划分为相互对称的第一区域和第二区域，使得能够交替使用和配置所述第一区域和第二区域，以节省等待配置时间。

包括直接内存访问(DMA，Direct Memory Access)模块，用于进行主机存储器与各计算单元的存储空间的数据相互搬移。

所述主机包括采用MicroBlaze软核的片上可编程系统，所述计算单元包括OR1200软核；且所述主机通过AXI4Lite互联模块与所述直接内存访问模块及各计算单元通信。

所述系统包括DDR控制器，其通过AXI4Interconnect总线互联模块与所述主机、直接内存访问模块及各计算单元通信连接；

计算单元包括协议转换模块(wb2axi模块)，以实现WISHBONE协议到AXI协议的转换；且

计算单元设置有读指令、读数据、写数据接口，计算单元的访存AXI总线，连接到所述AXI4Interconnect总线互联模块，由所述DDR控制器负责访存。

本发明解决其技术问题所采用的另一技术方案是：提供一种如上所述在单颗FPGA芯片内实现的异构多核可编程系统的内存配置方法，其特征在于，所述方法包括：

主机为各个计算单元配置计算任务；

根据所配置的计算任务在外部DDR存储器中为各计算单元分配相应的存储空间，其包括为计算单元所分配的外部存储器的起始地址和空间大小，并为各计算单元及其相应的区域设置编号。

在本发明所述的在单颗FPGA芯片内实现异构多核可编程系统的内存配置方法中，包括：

输入要配置的计算单元及其相应的区域的编号，以确定将要配置的目标区域的地址；

判断所确定的目标区域是否处于空闲状态和非配置状态；

当所述目标区域处于空闲及非配置状态下，设置直接内存访问模块，以启动主机与该计算单元之间的数据传输。

在本发明所述的在单颗FPGA芯片内实现异构多核可编程系统的内存配置方法中，包括在计算单元的存储空间的第一区域和第二区域进行切换的方法，其中包括：

输入要切换区域的计算单元及其相应的区域的编号，以确定将要切换的目标区域地址；

检查所述计算单元当前是否处于空闲状态，

当所述计算单元是空闲的状态下，确定目标区域的配置状态；

当所述目标区域为非配置状态时，设置区域切换。

本发明解决其技术问题所采用的又一技术方案是：提供一种如上所述在单颗FPGA芯片内实现的异构多核可编程系统中计算单元的编程方法，其特征在于，所述方法包括：

为每个计算单元创建其自己的工程目录，以使多个计算单元的程序开发彼此独立；且所述多个计算单元共用同一链接脚本，用Makefile文件直接调用其编译工具链。

实施本发明，具有以下有益效果：

相比于在FPGA芯片上实现本地数据和指令存储器的方法，本发明提出更灵活、高效、可靠的内存分配方式。在外部DDR存储器中，为每个计算单元分配一块存储空间，用于数据和指令的存储。首先，将计算单元的指令和数据存储器都分配在外部的DDR存储器上，不会出现因芯片内部存储资源稀缺，而导致指令和数据存储容量不够的情况。

其次，每个计算单元的存储地址可灵活配置，其大小也可根据实际所需，进行差异化配置。不同于固定大小和固定地址的分配方式，通常为保证最大情况的内存所需，会配置一块较大的空间，然而并不是每个计算单元都需要。特别是在当每个计算单元的性能、执行任务差异较大的设计中，灵活配置的方法可节省不必要的空间浪费。

计算单元的数据和指令都存储在外部DDR存储器，这也方便了主机对各个计算单元的配置。为优化主机的内存配置，提高系统吞吐率，本发明技术方案中引入直接内存访问(DMA，Direct Memory Access)功能模块，主机在内存配置期间可执行其他任务。另外，当计算任务完成时，主机可直接从相应内存空间读取处理数据。而对于在芯片内实现存储的设计，主机对计算单元配置和读取数据时，都需要经过主机存储器与芯片内部存储的搬移操作。

每个计算单元的运行指令可由主机配置，为提高配置效率和可靠性，将每个计算单元的存储器分成对称的两个区。在效率方面，当计算单元正使用存储器某一区运行时，主机可配置存储器的另一区。两个区交替工作，对比于只有一个存储区域的设计，本处理方式能节省等待配置时间。在可靠性方面，另一个区还可作为配置的备份。对称区域的设计，对于动态更新计算单元的程序也更为快捷。

在编程模型设计与OpenCL支持方面，针对多核CPU平台的编程、编译复杂性，结合上述的内存优化模型，编写脚本提高编程效率，自动化编译流程。本发明提出一种能简化分开编程、编译的模型，保证程序的可移植性。设计用脚本直接调用其编译工具链，确保了编译准确，同时方便对每个计算单元的任务进行调试分析。

综合上述，本发明提供了一种在单颗FPGA芯片内实现异构多核可编程系统的内存优化方法、编程模型设计与OpenCL支持，能优化内存分配，提高系统吞吐率，加快开发验证速度，使软硬件设计更加灵活。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是根据本发明一实施例的异构多核可编程系统的结构框图；

图2是根据本发明实施例的异构多核可编程系统的多个计算单元(图1中CU，Computing Unit)从DDR分配存储空间的方式的示意图；

图3是根据本发明实施例的计算单元访问外部DDR时的访问地址产生方式的示意图；

图4是根据本发明实施例的异构多核可编程系统的各个计算单元存储空间内部区域分布的示意图；

图5是根据本发明实施例的计算单元的内存区域配置的流程图；

图6是根据本发明实施例的在计算单元的对称内存区域切换的流程图；

图7是根据本发明实施例的异构多核可编程系统的自动创建工作空间脚本生成的文件示意图。

具体实施方式

本发明构思一种在单颗FPGA芯片内实现的异构多核可编程系统，其采用两种不同架构的CPU来实现一个主机和多个计算单元。主机负责任务分配和结果处理，多个计算单元负责并行化处理任务。使得计算单元的任务是在线可配置的，可实现单指令多数据或多指令多数据的任务。

本发明中，采用计算单元的内部数据和指令缓存器+外部DDR存储器实现动态可配置的本地数据和指令存储器。这既提供了每个计算单元够用的数据和指令存储空间，又不会降低访问存储的速度。

在本发明自主提出的编程、编译模型基础上，通过实现软件开发工具包，使在FPGA芯片上设计的本异构多核可编程系统能支持OpenCL规范。

图1是根据本发明一实施例的异构多核可编程系统的结构框图。

如图1所示，本发明在单颗FPGA芯片10内实现的异构多核可编程系统包括：

一个主机11，用于任务分配和结果处理；

多个计算单元121、122……12n(n为正整数，代表计算单元的个数，n的最大值取决于AXI互联模块所能容纳的计算单元总个数),用于并行化处理任务；

外部DDR存储器20，用于作为系统内存配置给多个计算单元121、122……12n共享，其中为每个计算单元分配有一块存储空间(如图2所示)，每个存储空间用于存储相应计算单元的数据和指令；这种将计算单元的指令和数据存储器都分配在外部的DDR存储器上的技术方案，不会出现因芯片内部存储资源稀缺，而导致指令和数据存储容量不够的情况；

直接内存访问(DMA，Direct Memory Access)模块13，用于进行主机存储器与各计算单元的存储空间的数据相互搬移；

AXI4Lite互联模块14，用于主机与直接内存访问模块、各个计算单元之间的通信信道；

AXI4Interconnect总线互联模块15，用于主机、直接内存访问模块及各计算单元与DDR控制器16之间的通信信道；以及

DDR控制器16，其通过AXI4Interconnect总线互联模块15与主机、直接内存访问模块及各计算单元通信连接，用于负责对外部DDR存储器20的访存。

在一些实施例中，主机11包括以MicroBlaze软核为核心模块加上其他子模块所组成的片上可编程系统，计算单元包括OR1200软核和协议转换模块(wb2axi模块)；且主机11通过AXI4Lite互联模块14与直接内存访问模块13及各计算单元121、122……12n通信。其中，协议转换模块(wb2axi模块)用以实现WISHBONE协议到AXI协议的转换。计算单元设置有读指令、读数据、写数据接口，计算单元的访存AXI总线，连接到AXI4Interconnect总线互联模块15，由DDR控制器负责访存。

在图1所示的实施例中，主机11采用MicroBlaze软核组成的片上可编程系统，设计16个从机做计算单元，计算单元包括OR1200软核和协议转换模块(wb2axi模块)。在该实施例中，计算单元是由OR1200为核心组成的系统，OR1200的指令和数据总线均为WISHBONE协议，要让OR1200直接访问外部DDR，需要实现WISHBONE协议到AXI协议的转换，如图1中计算单元(CU)部分的wb2axi模块，实现通信协议的转换。具体实施方案中，为实现AXI总线协议访问外部DDR，分别给每个计算单元设置了读指令、读数据、写数据接口，计算单元的访存AXI总线，连接到AXI4Interconnect总线互联模块15，由DDR控制器16负责访存。

由于主机要配置各计算单元的计算任务，读取结果，故主机会多次访问外部DDR存储器，且多为大量连续的存储区域。为提高系统吞吐率，本发明的技术方案中，加入直接内存访问模块13。主机设置好直接内存访问模块后，该模块会完成主机存储器空间与各计算单元存储器空间的数据相互搬移，而不需主机参与数据的读写操作。

图2是根据本发明实施例的异构多核可编程系统的多个计算单元从DDR分配存储空间的方式的示意图。

如图2所示，为计算单元所分配的外部存储器的起始地址和空间大小，都可由主机通过AXI4Lite模块配置。例如：有一个容量为1GB的外部DDR存储器，其地址范围为0x00000000～0x3FFFFFFF。配置计算单元(CU0)121的起始地址为CU0_ADDR_STR，空间大小为CU0_ADDR_SIZE，则计算单元121访存的地址范围为CU0_ADDR_STR～CU0_ADDR_STR+CU0_ADDR_SIZE-1。其他计算单元以此类推。

图3是根据本发明实施例的计算单元访问外部DDR时的访问地址产生方式的示意图。

如图3，计算单元(CU)的指令和数据总线均是Wishbone协议，Wishbone总线地址由从机(本发明中指CU)地址(指示访问的从机设备地址)和访问地址(指示该从机设备的内部地址)组成。计算单元实际访问的DDR地址是由基地址+偏移地址组成：由主机所配置的起始地址做基地址，OR1200的指令或数据总线的Wishbone地址的访问地址段做偏移地址。

在本发明的一些实施例中，每个计算单元121、122……12n在外部DDR存储器20所分配的存储空间的起始地址和空间大小是可动态配置的。

具体地说，每个计算单元的存储地址可灵活配置，其大小也可根据实际所需，进行差异化配置。不同于固定大小和固定地址的分配方式，通常为保证最大情况的内存所需，会配置一块较大的空间，然而并不是每个计算单元都需要。特别是在当每个计算单元的性能、执行任务差异较大的设计中，灵活配置的方法可节省不必要的空间浪费。

图4是根据本发明实施例的异构多核可编程系统的各个计算单元存储空间内部区域分布的示意图。在一些实施例中，本发明为每个计算单元分配的存储空间划分为相互对称的第一区域和第二区域，使得能够交替使用和配置所述第一区域和第二区域，以节省等待配置时间。

如图4，本实施例中的指令和数据均为统一编址。这是一种将计算单元的存储空间配置为16MB的实例，将其分成等分对称的两个区，两个区本质是一样的。设计中使程序段的排列、用作数据存储的区域划分均相同，在计算单元的程序编译中也是使用的同一链接脚本。在访问一区时，基地址为所配置的计算单元的起始地址；在访问二区时，基地址为所配置的计算单元的起始地址+0X800000。每个区域的划分是前4MB空间用来做程序的运行空间，接下来的1MB空间留做备用，最后的3MB空间，程序中可通过指针访问，用于结果数据的存储。对称区域的设计，对于动态更新计算单元的程序也更为方便。例如：当一区的任务执行完毕，主机直接切换该计算单元的基地址到二区，计算单元即可继续执行重新分配的计算任务，而且不会污染一区任务的结果数据。

本发明在单颗FPGA芯片内实现的异构多核可编程系统的内存配置方法如下：首先，主机为各个计算单元配置计算任务。然后，主机根据所配置的计算任务在外部DDR存储器中为各计算单元分配相应的存储空间，其包括为计算单元所分配的外部存储器的起始地址和空间大小，并为各计算单元及其相应的区域设置编号。

图5是根据本发明实施例的计算单元的内存区域配置的流程图，是在计算单元的存储空间为对称内存区域的实施例中，实现内存配置的基本流程。输入要配置的计算单元以及区域编号，便可确定要配置的地址。在该区域空闲的状态下，通过设置直接内存访问模块，启动数据传输。

如图5所示，在单颗FPGA芯片内实现异构多核可编程系统的内存配置方法，包括：

开始配置，在步骤510，输入要配置的计算单元及其相应的区域的编号；

在步骤520，确定将要配置的目标区域的地址；

在步骤530，判断所确定的目标区域是否在运行(即非空闲状态)，

如果处于运行状态，则执行步骤535，返回正在运行状态；

如果处于空闲状态；则执行步骤540，判断是否处于配置状态；

如果处于配置状态，则执行步骤560，返回正在进行的配置状态；

如果未在配置状态，则执行步骤550，标记当前为配置状态，并设置直接内存访问模块，以启动主机与该计算单元之间的数据传输。

图6是根据本发明实施例的在计算单元的对称内存区域切换的流程图。在区域切换前，需要检查计算单元当前的运行状态，执行任务是否完成，并确定目标区域的配置状态。

如图6所示，在计算单元的存储空间的第一区域和第二区域进行切换的方法包括：

开始切换，在步骤610，输入要切换区域的计算单元及其相应的区域的编号，以确定将要切换的目标区域地址；

在步骤620，检查该计算单元当前是否处于运行状态；

如果处于运行状态，则执行步骤625，返回正在运行状态；

如果处于空闲状态；则执行步骤630，判断是否处于配置状态；

如果处于配置状态，则执行步骤635，返回正在进行的配置状态；

如果未在配置状态，则执行步骤640，标记当前为运行且非配置状态；

之后，执行步骤650，设置区域切换。

在步骤660，切换成功后返回切换成功，结束切换。

如图7，这是一种在每个计算单元分配相同空间大小时的工作空间目录结构。针对此情况，多个计算单元可以共用同一链接脚本(即如下所列的自动化编译脚本中的ram.ld文件)。每个计算单元有自己的工程目录，这使得多计算单元的程序开发彼此独立，避免相互干扰。在独立程序开发的前提下，通过设计一套符合OpenCL规范的软件开发工具包，使之支持并行计算编程模型。

本发明一些实施例中，在单颗FPGA芯片内实现的异构多核可编程系统中计算单元的编程方法包括：为每个计算单元创建其自己的工程目录，以使多个计算单元的程序开发彼此独立；且所述多个计算单元共用同一链接脚本，用Makefile文件直接调用其编译工具链，从而为其编译自己的工程目录。

其中，Makefile配置文件(Makefile mkconfig)用于1)控制对哪几个计算单元(CU)进行编译；2)调用各自的编译工作链；3)涉及多Makefile文件的情况下，即主机配置文件(host_makefile)、第n+1计算单元配置文件(cu_n_makefile),由总的makefile来控制。

在一实施例中，本发明在单颗FPGA芯片内实现异构多核可编程系统的自动化编译脚本如下：

本发明的技术关键点包括其采用的内存优化方法，其中包括将多个计算单元的数据和指令存储器分配到外部DDR存储器上，多个计算单元共享一个外部存储器，每个计算单元在外部存储器分配的起始地址和空间大小可实现动态配置的方法。如图3中所示，由主机软件来配置访问DDR的基地址(即为该起始地址)，和可以访问的空间大小(即可访问的地址范围)。

另外，针对各个计算单元存储器内部的具体分布情况，本发明采用对称的两个区，包括区域的交替使用和配置，以及为提升可靠性方面的备份策略，动态更新计算单元对称区域的计算任务均为本发明的技术关键点。

以上实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施，并不能限制本发明的保护范围。凡跟本发明权利要求范围所做的均等变化与修饰，均应属于本发明权利要求的涵盖范围。

Claims

1.一种在单颗FPGA芯片内实现的异构多核可编程系统，包括一个主机和多个计算单元，其特征在于，还包括，

2.根据权利要求1所述的在单颗FPGA芯片内实现的异构多核可编程系统，其特征在于，

3.根据权利要求1或2所述的在单颗FPGA芯片内实现的异构多核可编程系统，其特征在于，

4.根据权利要求3所述的在单颗FPGA芯片内实现的异构多核可编程系统，其特征在于，

5.根据权利要求4所述的在单颗FPGA芯片内实现的异构多核可编程系统，其特征在于，

6.根据权利要求5所述的在单颗FPGA芯片内实现的异构多核可编程系统，其特征在于，

所述系统包括DDR控制器，其通过AXI4 Interconnect总线互联模块与所述主机、直接内存访问模块及各计算单元通信连接；

计算单元设置有读指令、读数据、写数据接口，计算单元的访存AXI总线，连接到所述AXI4 Interconnect总线互联模块，由所述DDR控制器负责访存。

7.一种如权利要求4-6中任一项所述在单颗FPGA芯片内实现的异构多核可编程系统的内存配置方法，其特征在于，所述方法包括：

主机为各个计算单元配置计算任务；

8.根据权利要求7所述的在单颗FPGA芯片内实现异构多核可编程系统的内存配置方法，其特征在于，包括：

判断所确定的目标区域是否处于空闲状态和非配置状态；

9.根据权利要求7所述的在单颗FPGA芯片内实现异构多核可编程系统的内存配置方法，其特征在于，包括在计算单元的存储空间的第一区域和第二区域进行切换的方法，其中包括：

检查所述计算单元当前是否处于空闲状态，

当所述目标区域为非配置状态时，设置区域切换。

10.一种如权利要求1-6中任一项所述在单颗FPGA芯片内实现的异构多核可编程系统中计算单元的编程方法，其特征在于，所述方法包括：