CN100481060C

CN100481060C - 一种流处理器中多核扩展的方法

Info

Publication number: CN100481060C
Application number: CNB2007100346423A
Authority: CN
Inventors: 任巨; 文梅; 伍楠; 张春元; 何义; 杨乾明; 荀长庆; 管茂林
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2007-03-29
Filing date: 2007-03-29
Publication date: 2009-04-22
Anticipated expiration: 2027-03-29
Also published as: CN101021830A

Abstract

本发明公开了一种流处理器中多核扩展的方法，要解决的技术问题是提供一种适用于流处理器的多核扩展方法，既减小扩展开销，又不增加VLIW编译器调度的难度，提高执行效率。技术方案是首先改进流处理核的逻辑结构，然后在多核流处理器中设置一个可编程专用数据通道作为核间的流数据传输通道，并在流控制器中增加一个通道信息寄存器文件缓存流传输的信息。本发明通过改进流处理核的逻辑结构，使在单片流处理器中能够设置多个流处理核，采用本发明后功耗资源仅随核的数量呈线性增长，可编程专用数据通道增加了可扩展性，且硬件开销小，传输效率高。

Description

一种流处理器中多核扩展的方法

技术领域

本发明涉及面向密集计算应用领域的流处理器内部扩展方法，尤其是将流处理器中的流处理核进行扩展以达到加速流应用执行速度的方法。

背景技术

流处理器是新一代面向密集计算的高性能微处理器的典型代表，专门面向流应用。流应用主要分为两类：一类是媒体应用；另一类是科学计算。流应用具有以下几个主要特征：计算密集性，与传统的桌面应用相比，流式应用对每次从内存取出的数据都要进行大量的算术运算；并行性，以数据级并行为主，同时存在指令级和任务级并行；局域性，是指应用中的数据重用局域性。

流处理器的原型结构由标量核、DRAM控制器、存储控制器、流控制器、微控制器、流寄存器文件(SRF)、多个运算簇和多个流缓冲组成，各部件之间通过片上通用总线连接。其中微控制器、运算簇和对应的流缓冲构成核心程序的执行部件——流处理核(Core)。流处理器中所有的计算指令由运算簇完成，每个运算簇内包含多个ALU及ALU间的簇内互联开关，运算簇之间通过通讯单元保证不同运算簇间的通讯。同计算相关的输入数据流、输出数据流以及中间数据都被存放在流寄存器文件SRF中，保证数据能够在处理器内部循环利用而不产生对外部存储器DRAM的访问。运算簇和流寄存器文件通过双向的流缓冲连接，所有对流寄存器文件的访问都通过流缓冲完成。

目前的流应用需要很高的计算速度，而且流应用采用的算法以及流应用本身变得越来越复杂，这个需求还将继续提高。例如：天基雷达(SBR)应用的性能需求在2004年左右就达到1TFLOPS，无人机(UAV)应用的性能需求增长非常明显，在2005年达到1TFLOPS。在1GHz的频率下要达到该峰值性能，需要在芯片上集成1000个ALU。这些新的发展变化要求流体系结构具有良好的可扩展性，以满足更高的性能需求。

目前对流处理器进行扩展的方法有两种：簇内扩展法和簇间扩展法。对流处理器运算簇内部的功能单元进行扩展即增加功能单元ALU的方法称为簇内扩展法。这种扩展法会对整个运算簇造成影响，每增加一个功能单元，都需要在超长指令字中添加一个子域，且对应该功能单元的每个输入输出端口都要添加一个本地寄存器文件，当运算簇内部的ALU数量增长时，将直接造成运算簇、微控制器、本地寄存器文件的开销相应增长，且功耗、延迟也相应增加。采用簇内扩展法时，硬件资源与ALU数量的比值基本成线性增长趋势，实验表明当ALU数目为4至8时效率最高，继续增长ALU数目效率将降低，这是由于簇内互联开关的影响增加造成的。

簇间扩展法是指对运算簇的数目进行扩展。采用簇间扩展法时，簇内互联开关不发生变化，硬件资源与ALU数量的比值基本保持不变，扩展开销小于簇内扩展法。但是运算簇的数量增加，会使得离微控制器较远的运算簇和离微控制器较近运算簇的延时不同，必须通过在较近的运算簇中设置指令缓冲来解决该问题，这会增加VLIW编译器调度的难度，微控制器与流控制器的通讯和同步变得困难。

这两种扩展法都有缺陷，不能满足密集计算型流应用的加速执行的需要。因此技术人员开始考虑对处理核的数目进行扩展，这种方法是目前在通用处理器中解决大规模并行计算加速问题的一种重要方法。这种多核扩展方法在处理器中采用多个处理核，核的结构一般相同。多个处理核并行执行程序，可以有效加速大规模并行程序的执行速度。但是，这种多核扩展方法无法直接应用于流处理器中，因为流处理器的系统结构与通用处理器不同，其关键部件流寄存器文件SRF是流处理器独有的，与计算相关的数据在SRF中存储，多个核之间如果进行数据通信，就必须考虑如何设计SRF及用于通信的数据通道。对于通信的数据通道而言，目前常见的交叉开关结构和总线结构，均不能直接用在流处理器中。

交叉开关结构是指使用交叉开关网络作为核间传输通道，若用在流处理器中，则每个流寄存器文件对应的流缓冲都通过交叉开关网络互联。数据可以通过这个网络在任意两个流寄存器文件之间进行传输。这种结构下，当核的数目较多时，硬件代价和延迟代价太高，一个拥有N个核的流处理器，若每个核的流寄存器文件有a个专属的流缓冲，则交叉开关硬件代价高达

。流寄存器文件的最大延迟为6.5纳秒左右，核间流传输通道与流缓冲传输数据的延迟要与流寄存器文件的最大延迟相近才能满足需要，而采用交叉开关结构，当核的数目为8时就达到了8.5纳秒的延迟；当核的数目为16时，延迟超过了11纳秒，差不多是流寄存器文件延迟的2倍，严重影响了流数据的传输速度。

总线结构用在流处理器中时是指在流处理器中设置一条总线用于完成不同流处理核中的流寄存器文件间的数据通信。为每个流寄存器文件增加一个专门用于总线访问的端口，当存在流传输需求时流寄存器文件通过该端口占用总线进行流传输。在核间传输通道中设置一个仲裁器，如果存在多路流传输需要使用总线，则通过仲裁器竞争总线的使用权。而增加流寄存器文件端口的代价是非常昂贵的；而且这种由于总线的固有瓶颈，只能通过仲裁机制分时共享数据通路，因此每次只能传输一组流数据，因此一个N核系统的核间和核内的带宽比仅为1：N，核间带宽明显不能满足流数据高速传输的需求。

因此研究一种适用于流处理器的多核扩展方法成为本领域技术人员极为关心的问题。

发明内容

本发明要解决的技术问题是提供一种新的适用于流处理器的多核扩展方法，克服簇内扩展法和簇间扩展法的不足，既减小扩展开销，又不增加VLIW编译器调度的难度，提高执行效率，使扩展后的新型流体系结构可以支持不同并行需求的流应用。

本发明的技术方案是：对流处理核的逻辑结构进行改进，在流处理器内部设置多个完全同构的流处理核并设计多核间的数据通信通道，形成新型的流体系结构。

本发明对流处理器进行多核扩展方法的具体步骤如下：

第一步，改进流处理核的逻辑结构：

原有流处理器中的流处理核Core通过内部的流缓冲与流寄存器文件SRF进行数据通信。在不改变流处理核逻辑结构的情况下，设置多个流处理核，共同访问集中式的流寄存器文件。这种结构下流缓冲数目也成线性增长，访问带宽如果不变，将与计算能力失衡。因此流寄存器文件的端口访问带宽必须随着Core的数量增长，原有集中式单端口流寄存器文件显然不能满足带宽要求。因此需要在流处理器中采用有多路选择器的多端口流寄存器文件，其资源A_{多路选择器_集中式}的计算公式如下，A_{多路选择器_集中式}＝N_SBN_port ²bw+c，其中N_SB＝I₀+N_cOREI_CLSB。其中，N_SB是流处理器中总的流缓冲数目，N_port是SRF的端口数目，b是流处理器的数据字长，w是选择开关资源常数，c是每个流处理核内运算簇的数量，I₀是除面向流处理核之外的流缓冲数目，N_CORE是流处理核的数量，I_CLSB是每个流处理核所需的流缓冲数目，其值为8。为保证带宽等比增长，N_port必须等于N_CORE，因此A_{多路选择器_集中式}将以O(8N_CORE ³)增长，即硬件开销随端口数数量的增加成3次方增长，性能开销比过低。另一方面，由于集中式流寄存器文件必须采用集中式仲裁，当流缓冲数目大幅增加时，仲裁电路的延迟也大幅增加，流寄存器文件将成为制约运算速度的关键路径。

因此，必须对流处理核的逻辑结构进行改进：每个流处理核内部设置一个微控制器、M个运算簇(各个运算簇的内部结构相同)及M个流缓冲，一个本地流寄存器文件。流缓冲与运算簇一一对应，称为专有的运算簇流缓冲。M的数目由硬件资源的大小来决定，当M为8以下，运算簇间互联开关所占资源小于流寄存器文件，但以O(M²)增长，因此很快超过流寄存器文件和流缓冲，当M≥32时，互联开关成为第二大模块，硬件资源开销显著增加。由于硬件资源的限制，M的取值范围应在4至8之间。本地流寄存器文件的大小随M的变化而增加，在一般的媒体应用及科学计算中，当M取4的时候，本地流寄存器文件大小取128K比较合适；当M取8时，本地流寄存器文件大小取256K比较合适。

流处理核内各部件的连接方式为：每个流缓冲分别与一个运算簇连接，这些流缓冲都与本地流寄存器文件连接。在这种连接方式下，流处理核内的运算簇只能从本地流寄存器文件中读写流数据。由于每个流处理核中都有一个本地流寄存器文件，在流处理器中就不再设置集中式流寄存器文件，这种结构称为分布式流寄存器文件的多核流体系结构。在这种结构下所有流寄存器文件资源以单个流处理核的本地流寄存器文件为基础，随流处理核的数目N_CORE线性增长，相比集中式流寄存器文件的开销大幅降低，带宽也可等比增长。在分布式流寄存器文件的结构中，流处理核的数目N_CORE可以根据流应用的需求灵活地增加或减少。

第二步在分布式流寄存器文件的多核流处理器中设置一个可编程专用数据通道作为核间的流数据传输通道。

在具有N个流处理核的流处理器中，专用数据通道中包含N个独立的双向数据通道，每个双向数据通道包含一个N路选择器，一个控制寄存器，N个流缓冲。每个流缓冲的输出接口都与N路选择器的一个输入接口连接，N路选择器的输出接口与每个流缓冲的输入接口连接，控制寄存器控制数据的传输方向。双向通道中的一个流缓冲与每个核中的流寄存器文件相连。这样形成了N组独立的双向数据通道，每个本地流寄存器文件通过流缓冲与这N个通道分别相连，形成最大结点度为N的拓扑结构，能够最多同时配置传输N组流。

第三步，在流控制器中增加一个通道信息寄存器文件PIRF(Pipe Information RegisterFile)，用来保存源节点、目的节点等路由信息。PIRF由多个寄存器组成，每个寄存器缓存一路流传输的信息，包含源流寄存器文件编码和目的流寄存器文件编码，源流寄存器文件编码和目的流寄存器文件编码是根据本地流寄存器文件的数目生成的二进制编码。当流数据从流处理核A向流处理核B传输时，核A的本地流寄存器文件是源流寄存器文件，核B的本地流寄存器文件是目的流寄存器文件。

PIRF与流控制器中的指令发射单元的输出端口通过控制信号线连接，PIRF的输出端口与可编程专用数据通道的控制寄存器连接。流控制器中具有记分牌指令队列和指令发射单元，记分牌指令队列将流传输指令送入指令发射单元，指令发射单元向PIRF发控制信号，PIRF接到控制信号后向控制寄存器传输路由信息。

采用可编程专用数据通道进行流数据传输时，流编译器根据流级程序静态生成路由信息。根据路由信息，被传输的流占用从源流寄存器到目的流寄存器的数据通道。在传输过程中被传输的流独占该通道，传输结束后释放该通道给其它流。在这种传输模式下，每次流数据传输，不同的源和目的流寄存器文件形成了不同的路由信息，根据路由信息传输占用不同的通道，因此具有了通道的可编程特征。流数据传输的具体步骤如下：

1流编译器对流级程序编译，静态生成路由信息和流传输指令。

2路由信息缓存在PIRF中的一个C位寄存器中，流传输指令存入流控制器中的记分牌指令队列。

3流控制器中的记分牌指令队列将流传输指令送入指令发射单元，指令发射单元根据流传输指令生成对PIRF的控制信号。

4控制信号控制PIRF，将C位寄存器中的源SRF和目的SRF编码送入数据通道的控制寄存器中。

5控制寄存器根据从PIRF获得的路由信息选择源SRF，流数据通过源SRF对应的流缓冲流入流数据通道。

6多路选择器选择目的SRF所对应的流缓冲，流数据流出，完成流数据的传输。

当需要由一个流寄存器文件发送数据，其它流寄存器文件接收数据的时候，采用广播模式，这种情况只占用一条数据传输通道。具体步骤的第1—第5步与上面数据传输步骤的第1—第5步相同，只是第6步变为“多路选择器选择除了源流缓冲外的其他全部流缓冲，流数据流出，完成流数据的传输。”

采用本发明可以达到以下技术效果：

1、本发明提供了一种多核扩展方法来对流处理器进行扩展。这种扩展方法的功耗资源仅随核的数量呈线性增长，由于采用可编程专用数据通道，不会增加对应用数据并行性的要求，这种方法与簇间扩展法和簇内扩展法形成有利互补，增加可扩展性。

2、本发明通过改进流处理核的逻辑结构，使在单片流处理器中能够设置多个流处理核。这多个流处理核一方面除可支持指令级、数据级并行模式外，还支持任务并行模式，即可以向多个处理核分配不同的任务以达到任务并行的目的。一方面缓解了对应用计算密集的阈值要求，因为每个流处理核可以执行不同的核心程序，原来需要一个核心程序承担的计算量由多个核心程序分享，这样可以缓解SIMD(单指令多数据流)执行模式下对一个核心程序的计算密集要求，降低对应用需求的门槛。

4、本发明通过改进流处理核的逻辑结构，使在单片流处理器中能够设置多个流处理核。因为能够将同一个任务分配在两个或两个以上的流处理核上执行，可以达到多核容错的效果。

5、本发明通过设计多核间的可编程专用数据通道，使得多个核之间的流寄存器文件之间能方便地进行数据传输，硬件开销小于交叉开关结构，传输效率高于总线结构。

附图说明

图1是目前通用的一种流处理器的逻辑结构图。

图2是多核共享集中式流寄存器文件的流体系结构图。

图3是采用本发明设计的分布式流寄存器文件多核流体系结构框图。

图4是采用本发明设计的基于可编程专用数据通道互连的流体系结构图。

图5是采用本发明设计的带有PIRF的流控制器和可编程专用数据通道的结构图。

具体实施方式

图1是目前通用的一种流处理器的逻辑结构图。流处理器是新一代面向密集计算的高性能微处理器的典型代表，专门面向流应用。流处理器的原型结构由标量核、DRAM控制器、存储控制器、流控制器、微控制器、流寄存器文件(SRF)、多个运算簇和多个流缓冲组成，各部件之间通过片上通用总线连接。其中微控制器、运算簇和对应的流缓冲构成核心程序的执行部件——流处理核(Core)。流处理器中所有的计算指令由运算簇完成，每个运算簇内包含多个ALU及ALU间的簇内互联开关。同计算相关的输入数据流、输出数据流以及中间数据都被存放在流寄存器文件SRF中，保证数据能够在处理器内部循环利用而不产生对外部存储器DRAM的访问。运算簇和流寄存器文件通过双向的流缓冲连接，所有对流寄存器文件的访问都通过流缓冲完成。

图2是多核共享集中式流寄存器文件的流体系结构图。流处理器中的流处理核通过内部的流缓冲与流寄存器文件SRF进行数据通信。多个流处理核共同访问集中式的流寄存器文件。

图3是采用本发明设计的分布式流寄存器文件多核流体系结构框图。每个流处理核内部设置一个微控制器、M个运算簇(各个运算簇的内部结构相同)及M个流缓冲，一个本地流寄存器文件。流缓冲与运算簇一一对应，称为专有的运算簇流缓冲。每个流缓冲分别与一个运算簇连接，这些流缓冲都与本地流寄存器文件连接。在这种连接方式下，流处理核内的运算簇只能从本地流寄存器文件中读写流数据。由于每个流处理核中都有一个本地流寄存器文件，在流处理器中就不再设置集中式流寄存器文件，这种结构称为分布式流寄存器文件的多核流体系结构。

图4是采用本发明设计的基于可编程专用数据通道互连的流体系结构图。在具有N个流处理核的流处理器中，专用数据通道中包含N个独立的双向数据通道，每个双向数据通道包含一个N路选择器，一个控制寄存器，N个流缓冲。每个流缓冲的输出接口都与N路选择器的一个输入接口连接，N路选择器的输出接口与每个流缓冲的输入接口连接，控制寄存器控制数据的传输方向。双向通道中的一个流缓冲与每个核中的流寄存器文件相连。这样形成了N组独立的双向数据通道，每个本地流寄存器文件通过流缓冲与这N个通道分别相连，形成最大结点度为N的拓扑结构，能够最多同时配置传输N组流。

图5是采用本发明设计的带有PIRF的流控制器和可编程专用数据通道的结构图。在流控制器中增加一个通道信息寄存器文件PIRF(Pipe Information Register File)，用来保存源节点、目的节点等路由信息。PIRF与流控制器中的指令发射单元的输出端口通过控制信号线连接，PIRF的输出端口与可编程专用数据通道的控制寄存器连接。流控制器中具有记分牌指令队列和指令发射单元，记分牌指令队列将流传输指令送入指令发射单元，指令发射单元向PIRF发控制信号，PIRF接到控制信号后向控制寄存器传输路由信息。

流数据传输的具体步骤如下：

2路由信息缓存在PIRF中的一个寄存器中，流传输指令存入流控制器中的记分牌指令队列。

4控制信号控制PIRF，将寄存器中的源SRF和目的SRF编码送入数据通道的控制寄存器中。

Claims

1.一种流处理器中多核扩展的方法，其特征在于它包括以下步骤：

第一步，改进流处理核的逻辑结构：每个流处理核内部设置一个微控制器、M个内部结构相同的运算簇及M个流缓冲，一个本地流寄存器文件；流缓冲与运算簇一一对应；M的数目由硬件资源的大小决定，M的取值范围在4至8之间；本地流寄存器文件的大小随M的变化而增加；每个流缓冲分别与一个运算簇连接，这些流缓冲都与本地流寄存器文件连接，流处理核内的运算簇只从本地流寄存器文件中读写流数据，这种结构称为分布式流寄存器文件的多核流体系结构；

第二步，在分布式流寄存器文件的多核流处理器中设置一个可编程专用数据通道作为核间的流数据传输通道：在具有N个流处理核的流处理器中，专用数据通道中包含N个独立的双向数据通道，每个双向数据通道包含一个N路选择器，一个控制寄存器，N个流缓冲；每个流缓冲的输出接口都与N路选择器的一个输入接口连接，N路选择器的输出接口与每个流缓冲的输入接口连接，控制寄存器控制数据的传输方向；双向通道中的一个流缓冲与每个核中的流寄存器文件相连；这样形成了N组独立的双向数据通道，每个本地流寄存器文件通过流缓冲与这N个通道分别相连，形成最大结点度为N的拓扑结构，能够最多同时配置传输N组流；

第三步，在流控制器中增加一个通道信息寄存器文件PIRF，PIRF由多个寄存器组成，每个寄存器缓存一路流传输的信息，包含源流寄存器文件编码和目的流寄存器文件编码，源流寄存器文件编码和目的流寄存器文件编码是根据本地流寄存器文件的数目生成的二进制编码；PIRF与流控制器中的指令发射单元的输出端口通过控制信号线连接，PIRF的输出端口与可编程专用数据通道的控制寄存器连接，流控制器中具有记分牌指令队列和指令发射单元，记分牌指令队列将流传输指令送入指令发射单元，指令发射单元向PIRF发控制信号，PIRF接到控制信号后向控制寄存器传输路由信息。

2.如权利要求1所述的一种流处理器中多核扩展的方法，其特征在于当M取4的时候，本地流寄存器文件大小取128K；当M取8时，本地流寄存器文件大小取256K。

3.如权利要求1所述的一种流处理器中多核扩展的方法，其特征在于采用可编程专用数据通道进行流数据传输时，流编译器根据流级程序静态生成路由信息，根据路由信息，被传输的流占用从源流寄存器到目的流寄存器的数据通道；在传输过程中被传输的流独占该通道，传输结束后释放该通道给其它流；流数据传输的具体步骤如下：

3.1 流编译器对流级程序编译，静态生成路由信息和流传输指令；

3.2 路由信息缓存在PIRF中的一个C位寄存器中，流传输指令存入流控制器中的记分牌指令队列；

3.3 流控制器中的记分牌指令队列将流传输指令送入指令发射单元，指令发射单元根据流传输指令生成对PIRF的控制信号；

3.4 控制信号控制PIRF，将C位寄存器中的源SRF和目的SRF编码送入数据通道的控制寄存器中；

3.5 控制寄存器根据从PIRF获得的路由信息选择源SRF，流数据通过源SRF对应的流缓冲流入流数据通道；

3.6 多路选择器选择目的SRF对应的流缓冲，流数据流出，完成流数据的传输。

4.如权利要求1所述的一种流处理器中多核扩展的方法，其特征在于当需要由一个流寄存器文件发送数据，其它流寄存器文件接收数据的时候，采用广播模式，这种情况只占用一条数据传输通道，具体步骤如下：

4.1 流编译器对流级程序编译，静态生成路由信息和流传输指令；

4.2 路由信息缓存在PIRF中的一个C位寄存器中，流传输指令存入流控制器中的记分牌指令队列；

4.3 流控制器中的记分牌指令队列将流传输指令送入指令发射单元，指令发射单元根据流传输指令生成对PIRF的控制信号；

4.4 控制信号控制PIRF，将C位寄存器中的源SRF和目的SRF编码送入数据通道的控制寄存器中；

4.5 控制寄存器根据从PIRF获得的路由信息选择源SRF，流数据通过源SRF对应的流缓冲流入流数据通道；

4.6 多路选择器选择除了源流缓冲外的其他全部流缓冲，流数据流出，完成流数据的传输。