CN103345461B

CN103345461B - 基于fpga的带有加速器的多核处理器片上网络系统

Info

Publication number: CN103345461B
Application number: CN201310151590.3A
Authority: CN
Inventors: 何春; 贺江; 王坚; 李玉柏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2013-04-27
Filing date: 2013-04-27
Publication date: 2016-01-20
Anticipated expiration: 2033-04-27
Also published as: CN103345461A

Abstract

本发明公开了一种基于FPGA的带有加速器的多核处理器片上网络系统，其处理器节点的主控单元中的处理器通过第一AXI总线连接数据存储器BRAM2；所述处理器依次通过自身的Cache接口、第二AXI总线连接所述数据存储器BRAM2，当所述第一AXI总线繁忙或被占用时，所述处理器通过该第二AXI总线读取所述数据存储器BRAM2中的数据进行处理。本发明系统提高了处理器和各个设备的利用率，运算速度快，系统总体性能好。

Description

基于FPGA的带有加速器的多核处理器片上网络系统

技术领域

本发明属于集成电路设计领域，具体涉及一种基于FPGA的带有加速器的多核处理器片上网络系统。

背景技术

随着信息技术的发展，对处理器的运算能力要求越来越高。传统的单核处理器已经无法满足需要，由此出现了多核处理器。多核处理器是指在一个处理器中集成两个或两个以上的处理器内核，通过在各个内核之间划分任务，实现了多个处理器内核的并行运算，从而提高整个处理器的运算处理能力。多核处理器中全局信号线较少，能够较好的克服信号延时。在设计方面也更具优势，可以使用IP复用技术，缩短设计和验证的周期，降低研发成本。

微电子技术的发展，为SoC的实现开辟了新的途径。采用大规模的可编程器件FPGA来实现SoC就是这个十分有效的新途径，称为SOPC技术。传统的通用处理器尽管主频非常的高，但对于特定的处理目标实际处理速度尚不及主频时钟，远低于它的处理器速度。而SOPC技术正使得设计者可根据处理目标随心所欲地为软核处理器设计构建硬件加速器。针对以上仅依靠增加主频速度提高处理器工作频率却收效甚微的难题，基于SOPC技术的可配置型处理器设计的解决方案提供了有效的解决手段。

基于共享总线的多核处理器系统的是目前较为常用的架构之一。所有的核均通过一条总线互连起来，核之间可以通过总线来相互通信，每个核都有独立的一级缓存，核共享总线上的设备。基于共享总线的多核处理器系统缺点是：

第一：单个总线不能提供并发的事务处理，当多个数据流要求同时传输时，他们竞争相同的通信资源--总线。在当前的总线事物处理期间，其他总线请求必须等待，直到当前的总线事物完成。随着系统中集成的IP核数量的增加，总线结构将无法有效地应对多个数据流并发传输时对通信资源的频繁竞争。

第二：随着总线上挂接的设备数量的增加，总线上的寄生电容等参数也变大，从而导致总线的操作频率降低，进而限制了总线的带宽。

第三：随着工艺特征尺寸的缩小，互连线将逐渐成为系统能量的主要消耗者之一。总线传输数据时需要对挂接在总线上的所有设备（表现为负载电容）进行充放电，会浪费大量的能量。

多核处理器片上网络系统架构是作为共享总线的多核处理器系统的改进架构。它采用片上网络的核间通信方式，它的每一个核都是采用的通用处理器，该系统虽然克服了共享总线的多核处理器系统的很多缺点，但是由于采用的是通用处理器，任务分配到每个处理器上直接进行运算，总体性能还是较为低下。

发明内容

本发明的目的在于克服现有技术中所存在的多核处理器片上网络系统总体性能低下的问题，提供一种运算速度快、总体性能高的基于FPGA的带有加速器的多核处理器片上网络系统。

为了解决上述问题，本发明采用的技术方案为：

一种基于FPGA的带有加速器的多核处理器片上网络系统，包括多个路由节点，所述路由节点和相邻路由节点之间的通信链路组成片上网络，所述每个路由节点均挂载一个处理器节点，所述每个处理器节点均包括主控单元、所述主控单元通过可配置接口单元连接所述片上网络；其中，所述主控单元包括处理器，所述处理器通过第一AXI总线连接用于存储数据的数据存储器BRAM2；当所述片上网络上的数据到来时，在所述处理器控制下，所述可配置接口单元将数据通过第一AXI总线送入所述数据存储器BRAM2中，所述处理器再通过所述第一AXI总线从所述数据存储器BRAM2中读取数据进行处理，所述处理器依次通过自身的Cache接口、第二AXI总线连接所述数据存储器BRAM2，当所述第一AXI总线繁忙或被占用时，所述处理器通过该第二AXI总线读取所述数据存储器BRAM2中的数据进行处理。在本发明中，处理器读取数据采用专用的总线（即第二AXI总线），其他设备共享一个总线（第一AXI总线）。这样当共享总线，即第一AXI总线在被占用时，处理器仍能读取数据进行处理，提高了处理器和各个设备的利用率，运算速度快，系统总体性能提高。

优选的，所述主控单元通过可配置接口单元还连接有加速器，当有大量数据从所述片上网络传来需要所述主控单元中的处理器处理时，所述处理器控制所述可配置接口单元将数据直接送入所述加速器中，由所述加速器进行数据处理。本发明中当有大数据需要处理时，数据从片上网络直接到达加速器，然后再由处理器控制加速器对数据进行处理。和现有技术中片上网络上的数据到了之后由处理器控制将数据放入数据存储器BRAM2，然后再依次取数据到加速器处理相比，存取时间要少很多，可以大大减少整个数据的处理时间。

上述基于FPGA的带有加速器的多核处理器片上网络系统中，所述可配置接口单元包括加速器接口模块和网络接口模块；

其中，所述网络接口模块用于所述处理器与片上网络的相互通信，根据所述处理器的指令判断决定将来自所述片上网络的数据通过所述第一AXI总线送入所述处理器，或将来自所述片上网络的数据通过所述加速器接口模块送入所述加速器；所述加速器接口模块用于所述处理器与加速器的相互通信；同时用于所述加速器与片上网络的单向通信，根据所述处理器的指令将所述网络接口模块发送来的来自片上网络的数据送入加速器。

进一步的，所述可配置接口单元还包括用于所述主控单元中的处理器与所述加速器接口模块和网络接口模块进行指令交互的指令接口模块，所述处理器通过AXI_Stream指令总线直接连接所述可配置接口单元中的所述指令接口模块，所述处理器通过所述AXI_Stream指令总线发送指令控制所述可配置接口单元中的各模块运行。

为了方便系统各部分连接，所述可配置接口单元通过互连接口连接所述主控单元；所述互连接口包括第一AXI总线接口和第二AXI总线接口，所述第一AXI总线接口连接所述可配置接口单元中的加速器接口模块，所述第二AXI总线接口连接所述可配置接口单元中的网络接口模块；所述第一AXI总线接口和第二AXI总线接口均连接所述主控单元中的第一AXI总线。

优选的，所述片上网络为采用2D-mesh拓扑结构，虫孔交换方式和维序路由算法设计的片上网络。

优选的，所述处理器通过本地总线LMBBUS还连接有存储应用程序代码的本地存储器BRAM1。

优选的，所述第一AXI总线上挂载有DMA。

优选的，所述第一AXI总线上挂载有AXIUART。

与现有技术相比，本发明的有益效果：

本发明中，处理器读取数据采用专用的总线（即第二AXI总线），其他设备共享一个总线（第一AXI总线），这样当共享总线，即第一AXI总线在被占用时，处理器仍能读取数据进行处理，提高了处理器和各个设备的利用率，运算速度快，系统总体性能好。本发明优选方案中，当有大数据需要处理时，数据从片上网络直接到达加速器，然后再由处理器控制加速器对数据进行处理。和现有技术中片上网络上的数据到了之后由处理器控制将数据放入数据存储器BRAM2，然后再依次取数据到加速器处理相比，存取时间要少很多，可以大大减少整个数据的处理时间。同时本发明中使用AXI_stream指令总线作为专用的指令总线，处理器通过该专用指令总线发送和接收指令控制相应模块运行，系统运行速度快。

附图说明：

图1是本发明具体实施方式中的片上网络拓扑结构示意图。

图2是本发明具体实施方式中的处理器节点的系统结构框图。

图3是本发明具体实施方式中的可配置接口单元的结构框图。

具体实施方式

下面结合具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明系统是在Xilinx的FPGA芯片上实现的。在设计当中，使用的通用处理器核是Microblaze。该系统主要包括片上网络和处理器节点两部分。参看图1和图2，本发明的基于FPGA的带有加速器的多核处理器片上网络系统，包括多个路由节点R，所述路由节点R和相邻路由节点R之间的通信链路（双向箭头表示通信链路）组成片上网络NoC，所述每个路由节点R均挂载一个处理器节点IP，所述每个处理器节点IP均包括主控单元、所述主控单元通过可配置接口单元连接所述片上网络NoC；其中，所述主控单元包括处理器Microblaze，所述处理器Microblaze通过第一AXI总线AXIBUS1连接用于存储数据的数据存储器BRAM2；当所述片上网络NoC上的数据到来时，在所述处理器Microblaze控制下，所述可配置接口单元将数据通过第一AXI总线AXIBUS1送入所述数据存储器BRAM2中，所述处理器再通过所述第一AXI总线AXIBUS1从所述数据存储器BRAM2中读取数据进行处理，所述处理器Microblaze依次通过自身的Cache接口、第二AXI总线AXIBUS2连接所述数据存储器BRAM2，数据存储器BRAM2为双口BRAM2，它的一个端口挂载到AXIBUS1上，另一个端口挂载到AXIBUS2上。当所述第一AXI总线AXIBUS1繁忙或被占用时，所述处理器Microblaze通过该第二AXI总线AXIBUS2读取所述数据存储器BRAM2中的数据进行处理。在本发明中，处理器Microblaze读取数据采用专用的总线（即第二AXI总线AXIBUS2），其他设备共享一个总线（第一AXI总线AXIBUS1）。这样当共享总线，即第一AXI总线AXIBUS1在被占用时，处理器Microblaze仍能读取数据进行处理，提高了处理器Microblaze和各个设备的利用率，运算速度快，系统总体性能好。为了进一步提高处理器Microblaze处理数据的速度，所述处理器Microblaze通过本地总线LMBBUS还连接有存储应用程序代码的本地存储器BRAM1，所述第一AXI总线AXIBUS1上挂载有DMA，在AXIBUS1上加入了DMA，用于此条总线上相关设备的数据搬运，可以大大提高数据的传输效率。

进一步的，所述主控单元通过可配置接口单元还连接有加速器ACC，当有大量数据从所述片上网络NoC传来需要所述主控单元中的处理器Microblaze处理时，所述处理器Microblaze控制所述可配置接口单元将数据直接送入所述加速器ACC中，由所述加速器ACC进行数据处理。本发明中当有大数据需要处理时，数据从片上网络NoC直接到达加速器ACC，然后再由处理器Microblaze控制加速器ACC对数据进行处理。和现有技术中片上网络NoC上的数据到了之后由处理器Microblaze控制将数据放入数据存储器BRAM2，然后再依次取数据到加速器ACC处理相比，存取时间要少很多，可以大大减少整个数据的处理时间。

具体的，所述可配置接口单元包括加速器接口模块ACC_IF和网络接口模块NoC_IF，其中所述网络接口模块NoC_IF用于所述处理器Microblaze与片上网络NoC的相互通信，根据所述处理器Microblaze的指令判断决定将来自所述片上网络NoC的数据通过所述第一AXI总线AXIBUS1送入所述处理器Microblaze，或将来自所述片上网络NoC的数据通过所述加速器接口模块ACC_IF送入所述加速器ACC；所述加速器接口模块ACC_IF用于所述处理器Microblaze与加速器ACC的相互通信；同时用于所述加速器ACC与片上网络NoC的单向通信，根据所述处理器Microblaze的指令将所述网络接口模块NoC_IF发送来的来自片上网络NoC的数据送入加速器ACC。

进一步的，所述可配置接口单元还包括用于所述主控单元中的处理器Microblaze与所述加速器接口模块ACC_IF和网络接口模块NoC_IF进行指令交互的指令接口模块AXI_Stream_IF，所述处理器Microblaze通过AXI_Stream指令总线直接连接所述可配置接口单元中的所述指令接口模块AXI_Stream_IF，，所述处理器Microblaze通过所述AXI_Stream指令总线发送指令控制所述可配置接口单元中的各模块运行，运行速度大大提高。

再参看图3，所述可配置接口单元中的所述网络接口模块NoC_IF包括仲裁模块，当NoC的数据到达以后，经过该仲裁模块的判断，然后决定数据是进入加速器接口模块ACC_IF还是进入处理器Microblaze，还包含有封包模块，用于当处理器发送的数据到来时，封包模块将该数据按照NoC上的数据包格式封装成包，然后发送到NoC。当然所述网络接口模块NoC_IF还包括解包模块（图未示），其与封包模块功能刚好相反，在此不再详述。所述加速器接口模块ACC_IF包括第一合并模块合并1，用于根据处理器的指令将来自所述仲裁模块的数据输入到加速器ACC中，还包括第二合并模块合并2和数据缓存模块FIFO，加速器处理后的数据如果要直接发送到片上网络NoC，则第二合并模块合并2根据处理器的指令将加速器ACC处理后的数据加上数据头（包含路由信息）后输入到数据缓存模块FIFO中，再由数据缓存模块FIFO将加上了数据头的数据通过第一AXI总线AXIBUS1送入网络接口模块NoC_IF中的封包模块。所述处理器也可以控制将数据通过第一合并模块合并1送入加速器ACC中处理，加速器ACC处理后的数据通过第二合并模块合并2输出到数据缓存模块FIFO中，再由数据缓存模块FIFO输出送入所述处理器Microblaze。

所述指令接口模块AXI_Stream_IF连接一指令收集模块，指令收集模块收集可配置接口单元中各模块（ACC_IF、NoC_IF）等的信息，然后将这些信息按照一定的指令格式组合，指令收集模块同时产生中断信号并通过中断控制器通知处理器获取这些组合后的信息。指令接口模块AXI_Stream_IF还连接一指令译码模块，用于将处理器输出的指令译码后输入到可配置接口单元相应的模块（ACC_IF、NoC_IF），控制这些模块的运行。ACC_IF、NoC_IF等模块在运行过程中可产生中断信号（例如数据传输完毕）通过中断控制器通知所述处理器，由处理器根据情况控制系统运行。

为了方便可配置接口单元与主控单元的连接，所述可配置接口单元和所述主控单元之间设有互连接口，所述互连接口包括第一AXI总线接口AXI_IF1和第二AXI总线接口AXI_IF2，所述第一AXI总线接口AXI_IF1连接所述可配置接口单元中的加速器接口模块ACC_IF，所述第二AXI总线接口AXI_IF2连接所述可配置接口单元中的网络接口模块NoC_IF；所述第一AXI总线接口AXI_IF1和第二AXI总线接口AXI_IF2均连接所述主控单元中的第一AXI总线AXIBUS1。互连接口使用了两条数据总线接口，分别是AXI_IF1和AXI_IF2，接口AXI_IF1和AXI_IF2是完全相同的，选用的接口类型是AXI4，并且包含了读和写FIFO。AXI_IF1连接着加速器接口模块ACC_IF，用于处理器Microblaze和加速器ACC相互的通信。AXI_IF2连接着网络接口模块NoC_IF，用于处理器Microblaze和NoC的相互通信。NoC_IF与ACC_IF之间还有一条单向的通道，数据可以在指令的控制下从NoC_IF直接发送到ACC_IF从而进入加速器ACC中。

本发明具体实施方式上述系统中所述片上网络NoC为采用2D-mesh拓扑结构，虫孔交换方式和维序路由算法设计的片上网络。片上网络NoC的设计主要包含拓扑结构、交换方式和路由算法的选择。在拓扑结构上，考虑到实现的复杂度，选用了2D-mesh拓扑结构，交换方式上，考虑到硬件开销以及传输延迟，选用虫孔交换，在路由算法上考虑到死锁问题以及硬件开销，选用了维序路由，这些均为现有成熟技术，在此不再详述片上网络NoC的具体设计。

为了使该系统和电脑通信，便于系统调试使用，所述第一AXI总线AXIBUS1上挂载有AXIUART。

本发明的主控单元中所有的设计都是采用的标准IP核，包括了处理器Microblaze、LMB、AXIBUS1、AXIBUS2、DMA、中断控制器等。使用这些标准IP核的时候，只需要对其进行例化，并对其参数进行配置。可配置接口单元和片上网络路由节点采用verilog硬件编程语言设计。

本发明中处理器节点在其主控单元中使用了一条LMBBUS总线、一条AXI_Stream总线和两条AXI总线。LMBBUS用于连接处理器和本地存储器BRAM1，BRAM1用于存放应用程序和代码。AXI_Stream用于连接AXI_stream_IF，AXI_stream_IF是可配置接口单元的指令接口模块，用于处理器和可配置接口单元的指令交互。数据存储器BRAM2有两条AXI总线与之相连，分别是AXIBUS1和AXIBUS2。处理器Microblaze可以通过专用的AXIBUS2访问BRAM2的数据，这样可以大大减轻AXIBUS1的数据传输压力。

下面以在FPGA上实现并采用2*2的2-Dmesh结构的多核处理器片上网络系统作为实例对本发明进行说明。

可以看出，该架构包含了片上网络和处理器节点两部分。片上网络由通信链路和路由节点（R00、R01、R10、R11）组成，为了准确地让各个路由节点相互通信，每个路由节点R都必须有自己的唯一地址。在本设计中，用XY坐标来标识路由节点的地址，如R11表示该路由节点的坐标为（1,1）。每个路由节点都挂载了一个处理器节点，所有的处理器节点完全相同，是同构的多核处理器。处理器节点的坐标和路由节点的坐标相同。要将数据从一个路由节点发往另一个路由节点上的处理器节点，只需要指定目的路由节点的坐标即可。

选用基于矩阵乘法定义的64*64矩阵相乘，适当分配任务到每个核（即处理器节点中的处理器Microblaze）。假定两个矩阵分别为A和B，A*B=C。容易得知C是一个64*64的矩阵，指定核01（即路由节点R01挂载的处理器节点中处理器Microblaze）计算C的第1行到第22行共1408个数据，核10（即路由节点R10挂载的处理器节点中处理器Microblaze）计算第23行到第44行共1408个数据，核11（即路由节点R11挂载的处理器节点中处理器Microblaze）计算第45行到第64行共1280个数据。

然后进行数据分配：按照矩阵乘法的定义可知，所有的辅核（即核01、核10和核11）都需要矩阵B的全部数据，只需要部分的矩阵A数据，核01需要A的第1行到22行，核10需要A的第23行到第44行，核11需要A的第45行到第64行。

第一步：数据产生。在核00（即路由节点R00挂载的处理器节点中处理器Microblaze）中产生上述两个64*64的矩阵A和B。

第二步：数据发送。将矩阵A的相应数据和矩阵B的全部数据发送到对应的核01、核10和核11。即将矩阵A的第1行到22行的数据发送到核01，矩阵A的第23行到第44行的数据发送到核10，矩阵A的第45行到第64行的数据发送到核11。矩阵B的全部数据发送到核01、核10和核11。

第三步：核01、核10和核11接收完数据后分别启动加速器进行计算处理。

第四步：数据汇总。核01、核10和核11将加速器计算的结果发送到核00。

第五步：结果对比。核00将汇总的结果和直接用A和B计算的结果进行对比。

第六步：结果分析和性能对比。分析结果的正确性和处理时间。

在上述案中，程序的存储需要BRAM1，数据的存储需要BRAM2，数据搬运需要DMA、总线AXIBUS1以及可配置接口单元，处理器Microblaze获取数据需要用到总线AXIBUS2。当数据由NoC传送到达时，需要用来中断通知处理器Microblaze。为了得到的多核处理器片上网络系统的性能，测试了64*64矩阵乘法在单个的处理器Microblaze系统、多核处理器Microblaze系统消耗的时钟个数。表1为按定义的64*64矩阵相乘在各种处理器上的运行情况。

表164*64矩阵相乘在不同种类处理器上运行的时钟个数

处理器种类	主频	消耗时钟个数
			单个Microblaze	150Mhz	18256966
多核Microblaze计算	150Mhz	6292529
			多核加速器计算	150Mhz	63672

由下面公式（1）和（2）可以计算出对应处理器的时钟周期、计算时间。

计算时间=时钟周期×时钟个数(2）

为了进一步比较性能，再对得到的数据进行加工处理。以本发明上述带有加速器的4核处理器系统的计算时间为1个时间单位，可以分别计算出现有其他方式所用的时间单位，这样就得到了时间归一化数据，时间归一化可以方便地看出不同系统的数据处理时间差别。容易知道，计算时间的倒数与处理速度成正比，若以单个处理器Microblaze系统计算时间的倒数作为1个速度单位，可以计算出其他处理方式的速度归一化数据，从该数据中可以方便的看出不同方式处理的快慢。表2为按照上述方式对不同种类处理器系统的运行情况分析：

处理器种类	4核加速器计算	4核Microblaze	单个Microblaze
				消耗时钟数	63672	6292529	18256966
时钟周期（ns）	6.6667	6.6667	6.6667
				计算时间(us)	424.48	41950.19	121713.11
时间归一化	1	98.83	286.73
				速度归一化	286.73	2.90	1
时钟数归一化	1	2.90	286.73

从表2中可以看出，不带有加速器的4核处理器Microblaze系统是单个处理器Microblaze系统速度的2.9倍。可以初步体现出多核处理器相对于单核的优势。而带有加速器的多核处理器系统速度提升更为明显，达到单个核速度的286.73倍。由此看出采用本发明方案，提高了处理器和各个设备的利用率，运算速度快，系统总体性能好。

上面结合附图对本发明的具体实施方式进行了详细说明，但本发明并不限制于上述实施方式，在不脱离本申请的权利要求的精神和范围情况下，本领域的技术人员可以作出各种修改或改型。

Claims

1.一种基于FPGA的带有加速器的多核处理器片上网络系统，包括多个路由节点，所述路由节点和相邻路由节点之间的通信链路组成片上网络，每个所述路由节点均挂载一个处理器节点，每个所述处理器节点均包括主控单元、所述主控单元通过可配置接口单元连接所述片上网络；其中，所述主控单元包括处理器，所述处理器通过第一AXI总线连接用于存储数据的数据存储器BRAM2；当所述片上网络上的数据到来时，在所述处理器控制下，所述可配置接口单元将数据通过第一AXI总线送入所述数据存储器BRAM2中，所述处理器再通过所述第一AXI总线从所述数据存储器BRAM2中读取数据进行处理，其特征在于，所述处理器依次通过自身的Cache接口、第二AXI总线连接所述数据存储器BRAM2，当所述第一AXI总线繁忙或被占用时，所述处理器通过该第二AXI总线读取所述数据存储器BRAM2中的数据进行处理。

2.根据权利要求1所述的基于FPGA的带有加速器的多核处理器片上网络系统，其特征在于，所述主控单元通过可配置接口单元还连接有加速器，当有大量数据从所述片上网络传来需要所述主控单元中的处理器处理时，所述处理器控制所述可配置接口单元将数据直接送入所述加速器中，由所述加速器进行数据处理。

3.根据权利要求2所述的基于FPGA的带有加速器的多核处理器片上网络系统，其特征在于，所述可配置接口单元包括加速器接口模块和网络接口模块；

其中，所述网络接口模块用于所述处理器与片上网络的相互通信，根据所述处理器的指令判断决定将来自所述片上网络的数据通过所述第一AXI总线送入所述处理器，或将来自所述片上网络的数据通过所述加速器接口模块送入所述加速器；

所述加速器接口模块用于所述处理器与加速器的相互通信；同时用于所述加速器与片上网络的单向通信，根据所述处理器的指令将所述网络接口模块发送来的来自片上网络的数据送入加速器。

4.根据权利要求3所述的基于FPGA的带有加速器的多核处理器片上网络系统，其特征在于，所述可配置接口单元还包括用于所述主控单元中的处理器与所述加速器接口模块和网络接口模块进行指令交互的指令接口模块，所述处理器通过AXI_Stream指令总线直接连接所述可配置接口单元中的所述指令接口模块，所述处理器通过所述AXI_Stream指令总线发送指令控制所述可配置接口单元中的各模块运行。

5.根据权利要求4所述的基于FPGA的带有加速器的多核处理器片上网络系统，其特征在于，所述可配置接口单元通过互连接口连接所述主控单元；所述互连接口包括第一AXI总线接口和第二AXI总线接口，所述第一AXI总线接口连接所述可配置接口单元中的加速器接口模块，所述第二AXI总线接口连接所述可配置接口单元中的网络接口模块；所述第一AXI总线接口和第二AXI总线接口均连接所述主控单元中的第一AXI总线。

6.根据权利要求1至5任一项所述的基于FPGA的带有加速器的多核处理器片上网络系统，其特征在于，所述片上网络为采用2D-mesh拓扑结构，虫孔交换方式和维序路由算法设计的片上网络。

7.根据权利要求1至5任一项所述的基于FPGA的带有加速器的多核处理器片上网络系统，其特征在于，所述处理器通过本地总线LMBBUS还连接有存储应用程序代码的本地存储器BRAM1。

8.根据权利要求1至5任一项所述的基于FPGA的带有加速器的多核处理器片上网络系统，其特征在于，所述第一AXI总线上挂载有DMA。

9.根据权利要求1至5任一项所述的基于FPGA的带有加速器的多核处理器片上网络系统，其特征在于，所述第一AXI总线上挂载有AXIUART。