CN109302357B

CN109302357B - 一种面向深度学习可重构处理器的片上互联结构

Info

Publication number: CN109302357B
Application number: CN201810877106.8A
Authority: CN
Inventors: 杨晨; 王逸洲; 姚人杰; 王小力; 耿莉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2020-05-22
Anticipated expiration: 2038-08-03
Also published as: CN109302357A

Abstract

一种面向深度学习可重构处理器的片上互联结构，包括NoC片上互联网络和多路复用器；NoC片上互联网络由多个相同节点组成，节点由FIFO模块、头地址寄存器、预路由模块、路由选择模块、请求发生器、仲裁器和交叉开关组成；多路复用器由地址解析器和多路选择器组成；FIFO模块由预取FIFO模块和预留FIFO模块组成；预取FIFO模块与头地址寄存器、请求发生器和交叉开关相连；预留FIFO模块与路由选择模块、仲裁器和交叉开关相连；预路由模块与头地址寄存器、仲裁器和路由选择模块相连；仲裁器与预路由模块、路由选择模块、请求发生器、交叉开关和FIFO模块相连。本发明片上互连网络结构，能够实现数据在运算单元之间的高效传递，减小数据传输延时，降低功耗代价。

Description

一种面向深度学习可重构处理器的片上互联结构

技术领域

本发明属于网络装置领域，尤其涉及一种面向深度学习可重构处理器的片上互联结构。

背景技术

人工智能是目前热门的计算机科学之一，作为实现人工智能的主要方式，深度学习也得到了深远的发展，随着网络层数和每层神经元个数的增加，模型的计算复杂度会随着网络规模增大以指数增长。所以深度学习算法的学习速度和运行速度瓶颈越来越依赖于云计算等大规模计算平台。对于深度学习算法的硬件加速，目前通常有三类实现方式——多核CPU、GPU和FPGA，它们的共同特点是可以实现高并行度的计算。然而，现有的硬件实现方式功耗较高，还存在着能量效率(性能/功耗)较低的问题，并不能应用在智能移动终端上，例如智能手机、可穿戴设备或者是自动驾驶汽车等。在此背景下，可重构处理器已经被证明是一种兼具高灵活性和高能量效率的并行计算架构形式，它的优势在于可以根据不同的模型大小来选择合适的资源配置策略，扩大专用处理器使用范围的同时提高处理性能，是多核CPU和FPGA技术进一步发展受到限制的解决途径之一，有可能成为未来实现高效能深度学习SoC的方案之一。

片上互联结构在可重构处理器中的作用如图1，为了满足深度学习算法的多样性和复杂性，可重构处理器的单元阵列规模不断扩大，因此，处理单元之间的片上互联规模变大，结构变复杂。片上互联结构的面积和功耗开销甚至超过了处理单元本身。并且不同可重构处理器之间采用不同的连接方式十分复杂，大致有多路选择器，交叉开关，NoC或者混合模型等。Muhammad等人的混合结构可以在配置信息长度相同的情况下，比多路选择器提高2.87倍的性能。可以看出，单一的连接模式不一定适用于可重构处理器互连结构，混合结构的互联方式可以克服多种结构各自的缺点，更好的适用与特定网络。这也从侧面反映了可重构处理器的互联方式不一定局限于传统的连接方式，针对应用范围应当尽可能的优化，达到加速效果。

发明内容

本发明的目的在于提供一种面向深度学习可重构处理器的片上互联结构，其通过针对深度学习算法中的数据依赖关系，设计高效、低复杂度的片上互连网络结构，实现数据在运算单元之间的高效传递，减小数据传输延时，降低功耗代价。

本发明采用如下技术方案来实现的：

一种面向深度学习可重构处理器的片上互联结构，包括NoC片上互联网络和多路复用器；其中，

NoC片上互联网络由多个相同节点组成，节点由FIFO模块、头地址寄存器、预路由模块、路由选择模块、请求发生器、仲裁器和交叉开关组成；多路复用器由地址解析器和多路选择器组成；FIFO模块由预取FIFO模块和预留FIFO模块组成；预取FIFO模块与头地址寄存器、请求发生器和交叉开关相连；预留FIFO模块与路由选择模块、仲裁器和交叉开关相连；预路由模块与头地址寄存器、仲裁器和路由选择模块相连；仲裁器与预路由模块、路由选择模块、请求发生器、交叉开关和FIFO模块相连。

本发明进一步的改进在于，NoC片上互联网络采用2D-Torus结构，4*4的网络连接了16个节点；每个节点与其东西南北四个方向的节点相连，处于边缘的节点通过物理通道和首尾相连，使得每个节点的拓扑结构相同。

本发明进一步的改进在于，多路复用器使用在2*2的小区内部，通过NI接口连接，NI结构连接了IP核以及NoC网络，并且相邻NI结构通过Mux相连；FIFO-UP和FIFO-DOWN连往NoC，每个NI通过Multiplexer与相邻的三个NI相连。

本发明进一步的改进在于，FIFO模块与头地址寄存器用于地址解析，暂存地址信息，缓存输入、输出数据。

本发明进一步的改进在于，预路由模块用于根据头地址寄存器给出的地址确定路由方向。

本发明进一步的改进在于，请求发生器用于根据相邻FIFO的满空情况来控制请求信号，确定FIFO的状态，使得数据包能够完整传输。

本发明进一步的改进在于，仲裁器用于处理同时有多个方向的请求，决定请求优先顺序，给出当前需要相应的方向。

本发明进一步的改进在于，路由选择模块用于通过仲裁器结果从预路由模块的输出结果中选择最终输出结果。

本发明进一步的改进在于，交叉开关用于数据传输，选择被响应的方向把数据发送到需要路由的方向。

本发明进一步的改进在于，地址解析器用于解析当前数据包的地址，并且完成NI层面的转发；

多路选择器用于接收数据，选通数据来源方向，输出数据到IP核。本发明具有如下有益的技术效果：

1、互联结构采用NoC片上互联网络+多路复用器的混合结构。

2、NoC片上互联网络网络采用2D-Torus结构，4*4的网络连接了16个PE(处理单元)。每个节点可以与它东西南北四个方向的节点相连，处于边缘的节点通过物理通道和首尾相连，使得每个节点的拓扑结构相同。

3、在NoC片上互联网络基础上，4*4的网络被分成4个2*2的网络小块。每个小块内4个节点之间增加多路复用器全互连结构。

4、路由算法采用了基于R-Cube结构中确定性的XY路由算法改进的自定义算法。

5、数据包交换采用的是简单的包交换机制，并根据多路复用器结构的优点，提出了两种更有效的数据包接收机制。NoC片上互联网络具有实用性，多路复用器在数据传输过程中延时小、吞吐率大。NoC片上互联网络+多路复用器的混合机构会综合两种结构的优势带来巨大的红利。

6、采用R-Cube结构的NoC片上互联网络，所有节点一致性强，增加了网络的吞吐率，减少延时。

7、本发明所提出的多路复用器结构，每个节点内部都是一个1选3的数据发送模块和一个3选1的数据接收模块。每个路由节点可以给其他三个路由节点发送数据包，并且彼此互不影响。每个节点都可以在发送数据包的同时接收数据包，节点之间互不占用。

附图说明

图1为本发明面向深度学习可重构处理器的片上互联结构示意图。

图2为NoC片上互联网络与多路复用器复合互联结构示意图。

图3为NoC片上互联网络节点传输方向示意图。

图4为路由节点结构图示意图。

图5为轮询示意图示意图。

图6为NI结构图示意图。

附图标记说明：

1为NoC片上互联网络，10为FIFO模块，101为预取FIFO模块，102为预留FIFO模块，11为头地址寄存器，12为预路由模块，13为路由选择模块，14为请求发生器，15为仲裁器，16为交叉开关；

2为多路复用器，20为地址解析器，21为多路选择器。

具体实施方式

以下结合附图对本发明做出进一步的说明。

本发明所提出的互联结构采用的是NoC片上互联网络1与多路复用器2复合结构，具体来讲就是4*4的NoC 2D-Torus网络与2*2的多路复用器全互连结构，如图2所示。

本发明所提出的NoC片上互联网络1由各个节点组成，每个节点都可以和周围东南西北4个方向的节点通过物理通道相连，每个节点通过NI连接本地IP核(PE)，如图3所示。每个路由节点结构相同，都可以和东(E)、西(W)、南(S)、北(N)、本地(L)五个方向的FIFO模块连接，用以传输数据包。每个方向的数据传输都有一条物理通道，并被复用成两条虚拟通道用以接收数据和发送数据，而且每一条物理通道都有可能有两个方向的数据传输。

本发明所提出的NoC片上互联网络1中每个节点结构相同，如图4所示。节点由FIFO模块10、头地址寄存器11、预路由模块12、路由选择模块13、请求发生器14、仲裁器15、交叉开关16等组成。主要逻辑为：头地址寄存器11得到路由地址后交由预路由模块12解析路由方向。得到的路由方向传到仲裁器15和路由选择模块13。请求发生器14根据FIFO模块10的满空情况来生成请求，同样传给仲裁器15。仲裁器15在收到前面给定的信号后决定仲裁方向，传递给交叉开关16和路由选择模块13。交叉开关16中建立数据通路，路由选择模块13中生成通往下一级路由的路由信号。其中：

1)FIFO模块

FIFO模块10位于相邻路由节点之间，以及和本地IP核之间。在路由节点之间的缓存相对于数据传输分为输入缓存和输出缓存。前一级的输出缓存即为后一级的输入缓存。每个缓存模块都有双向两个部分，每个部分都是由一个FIFO实现。

2)头地址寄存器

由于必须要先获得路由的标志位中的信息才能对包进行传递，所以必须要在包进过路由节点之前首先获取它的地址信息，判断数据包传递方向，才能进行路由。头地址寄存器11用以在收到包后及时对数据包中含有标志位的Flit解析，解析并暂存地址信息等。头地址寄存器11在数据包到来的时候进行更新，此后如果标志位不包含需要解析的信息，就寄存之前解析的信息，直到下一个数据包到来。

3)预路由模块

预路由模块12则根据头地址寄存器11给出的地址确定路由方向。每个路由节点都会收到5个方向传来的地址和路由请求，为了节约时间和加快速度，需要一个预路由模块12在路由之前就能获得路由请求传递方向。预路由模块12的作用是通过目标地址和源地址来判断本级节点需要产生路由请求的方向。同时，预路由模块需要处理5个方向的地址，分别给出路由请求方向。路由规则按照以下步骤进行：

a.路由节点地址分高位(X坐标)和低位(Y坐标)。源地址(a1,b1)，目标地址(a2,b2)。

b.比较源结点和目的结点的高位，当a1>a2时，如果|a1-a2|>n/2,则向北移动，否则则向下移动；当a1<a2时，如果|a1-a2|>n/2,则向下移动，否则则向上移动。

c.高位一致后，比较源结点和目的结点的低位，当b1>b2时，如果|b1-b2|>n/2,则向右移动，否则则向左移动；当b1<b2时，如果|b1-b2|>n/2,则向左移动，否则则向右移动。

d.当a1＝a2，b1＝b2时，数据包向本地转发。

判断是否传向本地，本发明设计了两种路由规则：

a.直接互联：当数据包到达的路由节点和目标节点处于同一多路复用器2互联网络时，结束NoC片上互联网络1传输，直接转发到本地通过多路复用器2接力转发数据包。

b.满互联：当数据包到达的路由节点和目标节点处于同一多路复用器2互联网络时，并且下一传输方向节点发生拥塞，结束NoC片上互联网络1传输，直接转发到本地通过多路复用器2接力转发数据包。

4)请求发生器

请求发生器接14收5个方向的FIFO模块10满空状态，发出req请求信号。当一个方向FIFO模块10满信号传达时，产生该方向请求，同时，维持该请求。直到该方向FIFO模块10空信号传达时，再将req请求信号清空。请求发生器14的信号会传递到仲裁器15，用于仲裁判断。

5)仲裁器

当出现多个方向的有请求发生，仲裁器15合适相应各个方向的路由请求，决定请求优先顺序，给出当前需要相应的方向。本发明中的仲裁器15采用轮询调度原理设计。轮询优先方法，如图5所示。对于节点中5个方向的路由，初始情况E方向优先级最高，轮询顺序为E-W-S-NL。在轮询过程中，优先级相对顺序不会变。在一轮E方向数据包传输完成后，E的优先级将为最低。接下来W方向优先级会最高。优先级高的先于优先级低的传输。如果5个方向都有路由请求，理论上会按照E-W-S-N-L的顺序一次变更路由优先级，达到依次传输的效果。仲裁器15的5个请求信号会传输给前一级FIFO模块10、路由选择模块13、交叉开关16。

6)路由选择器

预路由模块12每个方向都会产生5位的路由信号，对应路由的5个方向。这5位信号是one-hot信号，每个方向只会产生对一个方向的路由信号。这组信号控制下一级只有一个缓存可以写入等待被转发的数据包。在收到仲裁器15给的仲裁结果后，5个方向的路由信号有一组将会被使能，那一组里面路由的方向就是最终路由方向。

7)交叉开关

交叉开关16主要负责数据传输。输入来自于前一级缓存，输出是下一级缓存，由仲裁器15产生的控制信号控制。交叉开关16需要选择被响应的方向把数据发送到需要路由的方向。交叉开关16的输出输出信号都是64bits宽的总线。通过仲裁器15产生的仲裁信号，输入端5个方向的数据只有一个方向可以进入交叉开关16，即得到读使能信号的那个方向的FIFO数据会进入交叉开关。

本发明中NoC片上互联网络1由16个节点组成，16个节点被分成了4组2*2的小区。每个2*2范围内都增加了全互连的多路复用器2。NoC片上互联网络1向下与IP核的连接通过NI接口，而多路复用器2就是连接在NI层。

本发明中的多路复用器2主要部分就是NI结构，如图6所示。NI结构分为两个部分，地址解析器20和多路选择器21。其中：

1)地址解析器

地址解析器20与其他三个节点的多路选择器21相连接。三个方向的多路选择器21转发状态也会返还给地址解析器20，用来判断目标方向的多路复用器21是否已被别的通路占用而不能接收数据。地址解析器20通过接收到的状态与请求信号，输出最后的路由控制信号与数据流，完成数据包传输。

输入信号包含上传下载FIFO的状态，用来上传和下载数据包时的状态控制以及请求控制。只有当信号使能，数据才会被正确接收，否则数据包将会被丢弃。通过多路选择器21转发到相邻节点数据包的操作是通过FIFO模块10的满信号。此时会读出FIFO模块10中数据包的目的地址，通过目的地址来判断转发还是直接接收到本地。当转发数据包的时候，本模块被占用，停止从核接收数据。状态信号来自相邻的多路复用器，用来判断该方向是否可通。这个信号是用于多路选择器21转发数据包时的控制信号。如果该通路的多路选择器21不可用，那么数据包会被发往FIFO模块10，通过NoC片上互联网络1传输。输出信号为目标方向路由使能信号，用来控制多路复用器2选通数据通路。当所有多路复用器2不通或不能上传到NoC片上互联网络1时，需要禁止上传，这时节点负载达到极限。

2)多路选择器

多路选择器21的作用是接收数据。数据来源是3个相邻节点的全互连结构，以及从NoC片上互联网络1过来的数据。多路选择器21的控制信号来自于发送数据包过来的地址解析器20或者FIFO模块10。当本节点多路选择器21可通时，某一方向有数据包过来，一同响应的还有该方向的控制信号。在接收到控制信号的同时，多路选择器21选通数据来源方向，输出数据到IP核。在数据传输过程中，改变状态，广播所有的相邻节点地址解析器20，本节点被占用。

【本发明的性能测试】

NoC片上互联结构1的评估指标最主要的是延时和吞吐率。在测试中，采用16个核向其他节点随机发送数据包。在测试吞吐率的最大值时，指定发送数据包模式为，只要没有上传禁止信号，即只要网络负载还有空余，就上传数据包，否则等待。数据包大小为16*64bits，每个数据包的包尾记录了时间戳，用以记录数据包的延时信息。这里针对两种不同的路由方法都做了延时和吞吐率的测试。性能测试结果如下：

表中显示两种方式：直接互联和满互联下的性能指标值，其中延时是每个核接收数据包的平均延时。如果是用NoC片上互联网络1转发数据包，那么延时将会偏高，但是如果靠多路复用器2转发，延时大约是1个cycle。可以看出，直接互联路由规则的性能(吞吐率、延时)更好一点，满互联路由规则的性能相对较差，但是硬件使用率会更高。总的来说，维持在2％到30％之间的吞吐率。意味着至少1/4的节点在同一时间发送或者接收数据包。在延时方面，两种路由方式性能较为相似，都是在28-29cycles左右。第一种路由规则的延时稍长。相比较于4*4的2D-Mesh网络，当有16个节点同时接收数据包的情况下，如果使用XY路由算法吞吐率一般在13％左右，可以看出本发明的优越性。

为了验证本发明对神经网络运算的加速效果，从吞吐率和延时两个方面说明。

1、延时方面：本设计中采用的是一个4*4的网络，总共有16个节点。按照上下层神经网络并行设计计算，数据包假设都可以通过多路复用器2直接发往下一个节点经行运算。理论上，每个PE单元能够完成的计算为神经网络最基础的运算即两个数据源的乘加，那么经过优化的数据分布全都可以通过多路复用器2的方式来进行传输，那么延时就变成了1cycle，性能大大的提升。

2、吞吐率方面：多路复用器2是只要目的核可以接收就直接传输，网络性能取决于核接收数据的程度，每个节点之间的传输互补影响，不共用数据通路，所以在多路复用器2不讨论吞吐率。由于网络中多路复用器2的设计，当注入率到达饱和，即吞吐率无法再进一步提高的时候，网络中数据包并不会发生阻塞现象。也得益于多路复用器2与NoC片上互联网络1混合的路由规则，使得网路在处理、预防阻塞方面拥有良好的性能。

可以看出，本发明对于神经网络加速效果是非常显著的。

实施例

对于传输延迟性能指标，用加速CNN网络卷积过程中的池化运算来说明本发明的优越性。例如，对一个2*2的数据块进行最大值的池化运算时，需要选出4个数中的最大值。在本发明中，那么因为2*2多路复用器2网络提供了4个节点的高速互联，所以理论上数据在池化过程中的延时是1cycle。如果只使用简单的NoC片上互联网络1时，延迟会大大增加，如果只使用多路复用器2时，当节点增加相距远的节点之间使用多路复用器2互联，会增加面积、功耗和设计复杂性。所以采用本发明所提出的NoC 2D-Torus网络与2*2的多路复用器全互连结构更适用于深度学习中的加速运算。

对于吞吐率性能指标，因为多路复用器网络是只要目的核可以接收就直接传输，网络性能取决于核接收数据的程度，每个节点之间的传输互补影响，不共用数据通路，所以在多路复用器网络不讨论吞吐率。由于网络中多路复用器的设计，当注入率到达饱和，即吞吐率无法再进一步提高的时候，网络中数据包并不会发生阻塞现象。也得益于多路复用器2与NoC片上互联网络1混合的路由规则，使得网路在处理、预防阻塞方面拥有良好的性能。

Claims

1.一种面向深度学习可重构处理器的片上互联结构系统，其特征在于，包括NoC片上互联网络(1)和多路复用器(2)；其中，

NoC片上互联网络(1)由多个相同节点组成，节点由FIFO模块(10)、头地址寄存器(11)、预路由模块(12)、路由选择模块(13)、请求发生器(14)、仲裁器(15)和交叉开关(16)组成；多路复用器(2)由地址解析器(20)和多路选择器(21)组成；FIFO模块(10)由预取FIFO模块(101)和预留FIFO模块(102)组成；预取FIFO模块(101)与头地址寄存器(11)、请求发生器(14)和交叉开关(16)相连；预留FIFO模块(102)与路由选择模块(13)、仲裁器(15)和交叉开关(16)相连；预路由模块(12)与头地址寄存器(11)、仲裁器(15)和路由选择模块(13)相连；仲裁器(15)与预路由模块(12)、路由选择模块(13)、请求发生器(14)、交叉开关(16)和FIFO模块(10)相连；

NoC片上互联网络(1)采用2D-Torus结构，4*4的网络连接了16个节点；每个节点与其东西南北四个方向的节点相连，处于边缘的节点通过物理通道首尾相连，使得每个节点的拓扑结构相同；

多路复用器(2)使用在2*2的小区内部，通过NI接口连接，NI结构连接了IP核以及NoC网络，并且相邻NI结构通过Mux相连；FIFO-UP和FIFO-DOWN连往NoC，每个NI通过Multiplexer与相邻的三个NI相连；

FIFO模块(10)与头地址寄存器(11)用于地址解析，暂存地址信息，缓存输入、输出数据；

预路由模块(12)用于根据头地址寄存器给出的地址确定路由方向；

请求发生器(14)用于根据相邻FIFO的满空情况来控制请求信号，确定FIFO的状态，使得数据包能够完整传输；

仲裁器(15)用于处理同时有多个方向的请求，决定请求优先顺序，给出当前需要相应的方向；

路由选择模块(13)用于通过仲裁器结果从预路由模块的输出结果中选择最终输出结果；

交叉开关(16)用于数据传输，选择被响应的方向把数据发送到需要路由的方向；

地址解析器(20)用于解析当前数据包的地址，并且完成NI层面的转发；

多路选择器(21)用于接收数据，选通一个方向的数据来源，输出数据到IP核。