CN100357932C

CN100357932C - 流处理器中降低数据访问延迟的方法

Info

Publication number: CN100357932C
Application number: CNB2006100317638A
Authority: CN
Inventors: 文梅; 伍楠; 张春元; 任巨; 何义; 荀长庆; 杨乾明; 管茂林
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2006-06-05
Filing date: 2006-06-05
Publication date: 2007-12-26
Anticipated expiration: 2026-06-05
Also published as: CN1885283A

Abstract

本发明公开了一种流处理器中降低数据访问延迟的方法，要解决的技术问题是降低流处理器的数据访问延迟。技术方案是改进流处理器的第一级存储层次，将标量DRAM和流DRAM合并为由标量处理器和流处理器共享的片外共享存储器，并采用新的方法来完成数据流在片外共享DRAM与流寄存器文件SRF之间的传输，且采用同步机制解决RAW相关。标量处理器和流处理器要访问片外数据时，都直接向总线发送请求，获得总线使用权后，将访存地址传送给DRAM控制器，DRAM控制器访问片外DRAM，获得DRAM中的数据后再将数据返回给标量处理器或流处理器。采用本发明可以有效避免由于流过长或数目太多导致的SRF溢出，从而避免了一次访存请求导致的数据多次在存储空间的转移，降低了数据访问延迟。

Description

流处理器中降低数据访问延迟的方法

技术领域

本发明涉及流处理器中降低数据访问延迟的方法，尤其是面向密集计算的流处理器中降低数据访问延迟的方法。

背景技术

基于流体系结构的流处理器是新一代面向密集计算的高性能微处理器的典型代表，专门面向流应用。流，是不间断的、连续的、移动的数据队列，队列长度可以是定长或不定长的。流应用主要分为两类：一类是媒体应用；另一类是科学计算。流应用具有以下几个主要特征：计算密集性，与传统的桌面应用相比，流式应用对每次从内存取出的数据都要进行大量的算术运算；并行性，以数据级并行为主，同时存在指令级和任务级并行；局域性，是指应用中的数据重用局域性。流应用程序通常包含kernel(运算核心)级程序和流级程序两部分：流级程序负责组织输入和输出数据，kernel程序是运算的核心，负责对这些数据进行运算。

由于流应用有大量的数据并行性和局域性，因此数据访问延迟较大。为了降低数据访问延迟，现有的流体系结构采用三级存储层次，即处理器芯片外部的DRAM(动态随机存取存储器)、处理器片上SRF(流寄存器文件，Stream Register File)和LRF(分布式本地寄存器文件，Local Distribute Register File)。DRAM是第一级，提供2GB/s的带宽；SRF是第二级，具有25.6GB/s的带宽；运算单元内部的LRF是第三级，提供高达436GB/s的带宽。这种存储层次降低了计算密集型应用在流处理器上运行时的数据访问延迟：临时性的数据被存放在运算器内部即第三级，保证它能被频繁的快速存取；同kernel计算相关的输入数据流和输出数据流以及中间数据，都被存放在处理器芯片上的SRF中即第二级，保证它能够在处理器内部循环利用而不产生存储器访问；因为初始输入、最终输出和其它的全局数据不会被频繁访问且需要很大的存储空间，所以它们存放在处理器芯片外部DRAM即第一级中。

在流体系结构的设计中，逻辑上标量处理器和流处理器的存储空间是分离的，物理上也采用了两个独立的片外DRAM存储器，即标量DRAM存储器和流DRAM存储器，这两个存储器之间没有数据通路和控制通路。标量处理器和流处理器还使用各自的存储控制器、片外DRAM的数据通路、控制通路以及与之相对应的芯片引脚，时钟系统也是独立的。属于标量处理器的存储系统只与标量处理器互连，属于流处理器的存储系统只与流处理器相连。流处理器作为标量处理器的协处理器，通过处理器接口部件与标量处理器互连。处理器接口部件为标量处理器和流处理器之间传输数据设置数据线、地址线以及请求和响应等控制线。流存储器DRAM对数据的访问必须首先通过处理器接口部件向标量处理器发送请求，标量处理器接到请求后，将流处理器存储空间的地址转换为标量处理器存储空间的地址，发送给标量存储控制器，标量存储控制器再访问标量DRAM，标量DRAM返回数据给标量处理器，标量处理器再将数据转发给处理器接口部件，流处理器从处理器接口部件将数据取出存储到其独占的流DRAM存储器中。

在流应用中输入数据以及所有的kernel微代码都必须首先由标量处理器的存储空间传输到流处理器内部的SRF中；当流处理器的结果需要标量处理器处理时，输出数据必须由流处理器内部的SRF传回标量处理器的存储空间。这两个过程的具体实现如下：

1.向SRF中加载数据有四种可能的情况：

1.1正常加载：从标量DRAM经过处理器接口部件加载数据到SRF，数据不发生溢出。

1.2溢出：指目前从标量DRAM中加载的数据流A在SRF中所在的空间将被后面加载的数据流B替换掉，并且目前的数据流A在被替换掉后还会再次被kernel使用，这意味着还需要第二次加载使数据流A重新加载至SRF。对这种情况调度方法是把数据流A在第一次从标量DRAM加载到SRF的同时也存储到流DRAM中，以准备下次kernel使用时，再从流DRAM加载至SRF，不必重新从标量DRAM加载至SRF。

1.3长流加载：当标量DRAM加载的数据流长度超过SRF的剩余容量时出现长流加载情况，采用双缓冲方法处理：

1)将SRF在逻辑上分成两块空间，分别为第一SRF空间和第二SRF空间。

2)由标量DRAM通过主处理器、处理器接口部件向第一SRF空间加载数据。

3)当第一SRF空间写满后，就写第二SRF空间，同时把第一SRF空间中的数据送入流DRAM。

4)当第二SRF空间写满后，将数据流从标量DRAM继续写入第一SRF空间，同时把第二SRF空间中的数据送入流DRAM。

5)如果数据流未加载完毕，转3)；如果加载完毕，停止。

上述过程将数据流从标量DRAM先加载至SRF，同时又从SRF加载至流DRAM。然后当kernel计算时，还要使用双缓冲方法将数据从流DRAM加载至SRF中同时从SRF送入运算单元进行运算。因此长流加载时需要将标量DRAM中的数据分多次转存到SRF上，再由SRF分多次传送到流DRAM，运算时又从流DRAM分多次转移到SRF中，这种一次数据访问请求导致三次数据转存，大大增加了数据访问的延迟。

1.4索引：指加载的数据流将被索引后使用。流是连续的数据队列，索引是指流处理器需要计算的数据段是输入流队列的中间一段(这一段称为索引流)，而不是从输入流队列的队首开始的。流在向流处理器加载的时候只能从队首开始，顺序加载队列中的数据，即流处理器对数据流只能从头进行顺序访问。而流DRAM则可以通过地址访问其中的任意数据。所以当加载将被索引使用的流时，必须先把整个输入流按顺序都加载到SRF中，同时把SRF中的流数据全部加载到流DRAM中，当索引发生则通过索引地址访问流DRAM存储器中的索引部分加载到SRF中。

索引发生时，如果整个输入流的长度超过SRF容量，则先按照长流加载情况分多次将数据通过SRF转存到流DRAM中，然后再通过地址访问流DRAM把索引流加载到SRF。

2.从SRF中把数据存回至标量DRAM有三种可能的情况：

2.1正常save(保存)数据：直接将SRF中的数据存回至标量DRAM。

2.2索引：指SRF中的数据流曾被索引使用。对于索引情况，流处理器把计算结果的数据流直接存储到流DRAM中，然后再从流DRAM中把该数据流由队首开始顺序转存到SRF，最后从SRF存回标量DRAM。

2.3长流存回：如果需要存回标量DRAM的数据流长超过SRF的剩余容量时，采用双缓冲方法处理，先从流DRAM中把该数据流由队首开始顺序转存到SRF，然后从SRF存回标量DRAM。

由此可见，这种一次访存导致的数据在标量DRAM、标量处理器、处理器接口部件、SRF和流DRAM中的多次转移会大大增加数据访问延迟。因此现有的流处理器数据访存方法的效率低，数据传输过程开销高，需要新的方法来降低数据访问延迟。

发明内容

本发明要解决的技术问题是降低流处理器的数据访问延迟。

本发明的技术方案是：改进流处理器的第一级存储层次，将标量DRAM和流DRAM合并为由标量处理器和流处理器共享的片外共享存储器；片外共享存储器由多个片外共享DRAM组成，每个片外共享DRAM分别通过一个DRAM控制器与片上通用总线相连；片上通用总线分别与标量处理器和流处理器相连，使得标量处理器和流处理器可以通过任一DRAM控制器访问对应的片外DRAM。标量处理器和流处理器都作为总线主设备，DRAM控制器作为总线从设备。处理器接口部件作为从设备挂在片上通用总线上，它只传输标量处理器和流处理器之间的数据，不再传输片外存储器到标量处理器或流处理器的数据，因此处理器接口部件中不用设置访问片外存储器的数据线和地址线。不管是标量处理器还是流处理器要访问片外数据时，都直接向总线发送请求，获得总线使用权后，将访存地址通过总线传送给DRAM控制器，DRAM控制器访问片外DRAM，获得DRAM中的数据后再将数据通过片上通用总线返回给标量处理器或流处理器。

对于这种流体系结构，因为流应用中输入数据以及所有的kernel微代码都已经存储在片外共享DRAM中，需要采用新的方法来完成数据访问，即完成数据流在片外共享DRAM与流寄存器文件SRF之间的传输。

将数据流从片外共享DRAM加载到SRF存在正常加载，溢出，长流加载，索引四种情况。

1正常加载：数据通过片上通用总线从片外共享DRAM加载到SRF。

2溢出：指目前从片外共享DRAM中加载的数据流A在SRF中所在的空间将被后面加载的数据流B替换掉，并且目前的数据流A在被替换掉后还会再次被kernel使用。由于数据流A存储在片外共享DRAM中，因此无论首次还是再次使用数据流A，都只需要将数据加载至SRF。这与现有的流处理器相比，减少了一次向流DRAM的数据加载操作。

3长流加载：需要加载的流长超过SRF的剩余容量时，采用双缓冲方法处理：

2)由片外共享DRAM通过片上通用总线向第一SRF空间加载数据。

3)当第一SRF空间写满且运算单元空闲，就写第二SRF空间，同时把第一SRF空间中的数据送入运算单元进行运算。

4)当第二SRF空间写满且运算单元空闲，将数据流从片外共享DRAM继续写入第一SRF空间，同时把第二SRF空间中的数据送入运算单元进行运算。

5)如果数据流未加载完毕，转3)；如果加载完毕，停止。

上述过程只需要采用双缓冲操作把数据从片外共享DRAM加载至SRF，同时从SRF送入运算单元，就完成了数据流的访问和计算，无需再采用双缓冲操作将数据从流DRAM加载至SRF中同时从SRF送入运算单元进行运算，与现有的流处理器相比，减少了一次双缓冲操作，因此降低了数据访问延迟。

4索引：数据流将被索引访问。因为全部数据流都在片外共享DRAM中，所以只需要通过地址访问DRAM就可以将索引流加载至SRF。

将数据从流处理器的SRF存回到片外共享存储空间DRAM存在三种情况：

1正常save数据：指要存回的数据存储在SRF中，此时将数据直接写入片外共享存储空间DRAM中。

2索引：指该数据流曾被索引使用。在发生索引的情况下，为了保持原来全部数据流的数据一致性，必须把索引部分的改变立即存回DRAM，因此流处理器计算后的结果数据在kernel执行完毕后从SRF存入片外存储空间中。

3长流存回：当所要存储的流长超过SRF的剩余容量，采用双缓冲方法处理，kernel执行结果的输出数据流从kernel写入SRF，同时从SRF存回片外共享DRAM，因此当kernel计算完毕后，输出数据流也就已经存储在片外共享DRAM中。

因此，不论是加载数据还是存回数据，在溢出或索引情况下可以避免使用SRF进行多次转存的情况。

由于共享片外存储器DRAM，可能会发生标量处理器与流处理器同时对DRAM中相同地址的数据进行操作的情况。标量程序是顺序执行的，遇到流指令就给流处理器发送流指令，随后再执行标量程序。因此当标量程序的某条指令需要处理前面流指令的结果数据流时，有可能发生流指令未执行完毕，流数据尚未更新，而标量程序已经在处理未更新的流数据的错误情况，即发生RAW(写后读)相关。本发明解决这个问题的办法是采用同步机制：在数据访问的流指令执行时添加wait(等待)指令，标量程序执行时遇到wait指令则等待前面的流指令执行结束才继续执行。这样，只有当流指令对片外存储空间DRAM的写操作执行完毕后，才会有标量处理器访问DRAM，因此保证对同一片数据区流处理器和标量处理器互斥访问，就不会出现错误访问。

采用本发明可以达到以下技术效果：

标量处理器和流处理器共享片外存储空间，有效避免了数据访问中由于溢出、索引、长流加载和存回所导致的数据多次在存储空间的转移，减少了访存次数，达到降低数据访问延迟的目的。

采用本发明后，使用爆轰流体力学应用测试集合YGX2进行测试，测试结果如表1所示。表中第一列是YGX2程序中的kernel名称；第二列是采用本发明后单次执行kernel的时钟周期数；第三列是采用背景技术标量DRAM存储器和流DRAM存储器分离时单次执行kernel的时钟周期数。

Kernel	单次执行时间cycle
	单次执行时间cycle		共享存储	非共享存储
	E11	4187	共享存储	非共享存储	4203
E12	E11	4187	100212	146310	4203
E12	Meuvef	7174	100212	146310	7309
Meuvfue	Meuvef	7174	4872	4872	7309
Meuvfue	Meuvml	3960	4872	4872	3960
Meuvmead	Meuvml	3960	3743	3768	3960
Meuvmead	Meuvuv1	3910	3743	3768	3913
Meuvuv2	Meuvuv1	3910	3040	3047	3913
Meuvuv2	Meuvxr41	2101	3040	3047	2102
Roqlxten	Meuvxr41	2101	4080	4087	2102
Roqlxten	Roqpp	50475	4080	4087	73693
Roqpq1	Roqpp	50475	9169	10020	73693
Roqpq1	Roqpq2	3566	9169	10020	3589
Uvxrlden	Roqpq2	3566	3788	3793	3589
Uvxrlden	Uvxrluv	54686	3788	3793	79841
Uvxrluv0	Uvxrluv	54686	1118	1118	79841
Uvxrluv0	Xrwxlrl1	25699	1118	1118	37500
Xrwxlrl2	Xrwxlrl1	25699	21556	28021	37500

由上表数据可见，使用本发明将片外存储空间共享后，程序执行时钟周期有明显降低，即降低了数据访问延迟。

附图说明

图1是目前通用的一种流处理器的逻辑结构图；

图2是目前通用的流处理器中的双缓冲方法示意图；

图3是目前通用的流处理器中索引流加载的过程图；

图4是采用本发明设计的一种流处理器逻辑结构图：

图5是采用本发明后采用YGX2进行测试的效果图

具体实施方式

图1是斯坦福大学Imagine处理器课题组在http://cva.stanford.edu/imagine网站公布的一种流处理器结构示意图。在流体系结构的设计中，逻辑上标量处理器和流处理器的存储空间是分离的，物理上也采用了两个独立的片外DRAM存储器，即标量DRAM存储器和流DRAM存储器，这两个存储器之间没有数据通路和控制通路。标量处理器和流处理器还使用各自的存储控制器、片外DRAM的数据通路、控制通路以及与之相对应的芯片引脚，时钟系统也是独立的。属于标量处理器的存储系统只与标量处理器互连，属于流处理器的存储系统只与流处理器相连。流处理器作为标量处理器的协处理器，使用处理器接口部件与标量处理器互连，处理器接口部件为标量处理器和流处理器之间传输数据设置数据线、地址线以及请求和响应控制线。流存储器DRAM对数据的访问必须首先通过处理器接口部件向标量处理器发送请求，标量处理器接到请求后，将流处理器存储空间的地址转换为标量处理器存储空间地址，发送给标量存储控制器，标量存储控制器再访问标量DRAM，标量DRAM返回数据给标量处理器，标量处理器再将数据转发给处理器接口部件，流处理器从处理器接口部件将数据取出存储到其独占的流DRAM存储器中。

图2是目前通用的流处理器中的双缓冲方法。当标量DRAM加载的数据流长度超过SRF的剩余容量时出现长流加载情况，采用双缓冲方法处理：将SRF在逻辑上分成两块空间，分别为第一SRF空间和第二SRF空间。由标量DRAM通过主处理器、处理器接口部件向第一SRF空间加载数据。当第一SRF空间已经写满，就写第二SRF空间，同时把第一SRF空间中的数据送入流DRAM。然后将数据流从标量DRAM继续写入第一SRF空间，同时把第二SRF空间中的数据送入流DRAM。如此反复，当标量DRAM向一个SRF空间加载数据时，另一个SRF空间就向流DRAM写数据，直到加载完毕。

图3是目前通用的流处理器中索引流加载的过程图。由于流在向流处理器加载的时候只能从队首开始顺序加载队列中的数据，而对流处理器的片外存储空间DRAM则可以通过地址访问其中的任意数据。所以当索引发生时，必须先把整个输入流都加载到SRF中，再把SRF中的数据全部加载到流DRAM中，然后通过地址访问DRAM中的索引流部分。如果整个输入流的长度超过SRF容量，则先按照溢出情况分多次将数据通过SRF转存到流DRAM中，然后再按索引情况通过地址访问流DRAM把索引流加载到SRF。

图4是采用本发明将标量处理器与流处理器片外存储空间共事后的流处理器的体系结构图。此时，整个系统结构只使用一个存储系统，且在这个存储系统中设置多个DRAM控制器、多条数据通路以及多个片外DRAM。这些DRAM控制器对于标量处理器和流处理器都是共享的，也就是说两者都可以通过任一DRAM控制器访问对应的片外DRAM。DRAM控制器、标量处理器和流处理器通过片上通用总线互连，标量处理器和流处理器都作为总线主设备，DRAM控制器作为总线从设备，片外共享存储器只与DRAM控制器相连。处理器接口部件仍然保留，也作为从设备挂在片上通用总线上，用于传输标量处理器和流处理器之间的数据。但是片外存储器的数据不再通过处理器接口部件传输。不管是标量处理器还是流处理器要访问片外数据时，都直接向总线发送请求，获得总线使用权后，将访存地址通过总线传送给DRAM控制器。DRAM控制器控制并访问片外DRAM，获得DRAM数据后再将数据通过片上总线返回给标量或者流处理器。

图5是采用本发明后采用YGX2的测试效果图。图中纵轴是运行YGX2各个测试子程序时的SRF带宽和内存带宽，以GB/s为单位，横轴是YGX2中各个测试程序。经测试，采用本发明后，运行各个测试程序所占用的SRF带宽和系统内存带宽都有所降低。采用本发明后数据访问的次数减少，导致内存带宽使用的降低，因此图5内存带宽的降低也就反映了访存的次数减少，即反映了访存延迟的降低。

Claims

1.一种流处理器中降低数据访问延迟的方法，其特征在于：

第一步，改进流处理器的第一级存储层次，将标量DRAM和流DRAM合并为由标量处理器和流处理器共享的片外共享存储器，具体方法是：片外共享存储器由多个片外共享DRAM组成，每个片外共享DRAM分别通过一个DRAM控制器与片上通用总线相连；片上通用总线分别与标量处理器和流处理器相连，使得标量处理器和流处理器可以通过任一DRAM控制器访问对应的片外DRAM；标量处理器和流处理器都作为总线主设备，DRAM控制器作为总线从设备；处理器接口部件作为从设备挂在片上通用总线上，它只传输标量处理器和流处理器之间的数据，不再传输片外存储器到标量处理器或流处理器的数据；标量处理器和流处理器要访问片外数据时，都直接向总线发送请求，获得总线使用权后，将访存地址通过总线传送给DRAM控制器，DRAM控制器访问片外DRAM，获得DRAM中的数据后再将数据通过片上通用总线返回给标量处理器或流处理器；

第二步，采用新的方法来完成数据流在片外共享DRAM与流寄存器文件SRF之间的传输，具体过程是：

1.1将数据流从片外共享DRAM加载到SRF存在正常加载，溢出，长流加载，索引四种情况：

1.1.1正常加载：数据通过片上通用总线从片外共享DRAM加载到SRF；

1.1.2溢出：指目前从片外共享DRAM中加载的数据流A在SRF中所在的空间将被后面加载的数据流B替换掉，并且目前的数据流A在被替换掉后还会再次被kernel使用，将数据流A加载至SRF；

1.1.3长流加载：需要加载的流长超过SRF的剩余容量时，采用双缓冲方法处理：

1)将SRF在逻辑上分成两块空间，分别为第一SRF空间和第二SRF空间；

2)由片外共享DRAM通过片上通用总线向第一SRF空间加载数据；

3)当第一SRF空间写满且运算单元空闲，就写第二SRF空间，同时把第一SRF空间中的数据送入运算单元进行运算；

4)当第二SRF空间写满且运算单元空闲，将数据流从片外共享DRAM继续写入第一SRF空间，同时把第二SRF空间中的数据送入运算单元进行运算；

5)如果数据流未加载完毕，转3)；如果加载完毕，停止；

1.1.4索引：数据流将被索引访问，因为全部数据流都在片外共享DRAM中，所以只需要通过地址访问DRAM就可以将索引流加载至SRF；

1.2将数据从流处理器的SRF存回到片外共享存储空间DRAM存在三种情况：

1.2.1正常save数据：指要存回的数据存储在SRF中，此时将数据直接写入片外共享存储空间DRAM中；

1.2.2索引：指该数据流曾被索引使用，在发生索引的情况下，把索引部分的改变立即存回DRAM，流处理器计算后的结果数据在kernel执行完毕后从SRF存入片外存储空间中；

1.2.3长流存回：当所要存储的流长超过SRF的剩余容量，采用双缓冲方法处理，kernel执行结果的输出数据流从kernel写入SRF，同时从SRF存回片外共享DRAM，因此当kernel计算完毕后，输出数据流也就已经存储在片外共享DRAM中。

2.如权利要求1所述的流处理器中降低数据访问延迟的方法，其特征在于采用同步机制解决RAW相关，即在数据访问的流指令执行时添加wait指令，标量程序执行时遇到wait指令则等待前面的流指令执行结束才继续执行。