CN100456230C

CN100456230C - 超长指令字与单指令流多数据流融合的计算群单元

Info

Publication number: CN100456230C
Application number: CNB2007100345670A
Authority: CN
Inventors: 邢座程; 杨学军; 张民选; 蒋江; 张承义; 马驰远; 李勇; 陈海燕; 高军; 李晋文; 衣晓飞; 张明; 穆长富; 阳柳; 曾献君; 倪晓强; 唐遇星
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2007-03-19
Filing date: 2007-03-19
Publication date: 2009-01-28
Anticipated expiration: 2027-03-19
Also published as: CN101021778A

Abstract

本发明公开了一种超长指令字与单指令流多数据流融合的计算群结构，它包括与主控制器相连的数据缓冲和微控制器，以及连接它们的计算群。主控制器负责指令和数据的移动，指令载入微控制器，数据载入数据缓冲并接收其输出；数据缓冲接收主控制器数据，为计算群提供操作数并接收其计算结果，最后输出到主控制器；微控制器接收主控制器的超长指令字序列，译码后广播到计算群每个处理单元并行执行；计算群是多个相同的处理单元，分别有多种处理部件，处理的指令序列相同，数据则取自数据缓冲的不同单元。本发明能够支持数据级并行和指令级并行同时开发，能结合超长指令字、单指令流多数据流和软件流水技术，从多种途径改善计算密集型应用的处理性能。

Description

超长指令字与单指令流多数据流融合的计算群单元

技术领域

本发明主要涉及到微处理器设计中的指令处理技术，尤其是应用于面向计算密集型计算的处理器中，特指一种超长指令字与单指令流多数据流融合的计算群单元。

背景技术

指令级并行(Instruction Level Parallelism，简称ILP)是微处理器设计中并行性开发的主要途径，不相关的指令之间可以并行执行，以此提高处理器执行的效率，如超标量技术和超长指令字技术(Very Long Instruction Word，简称VLIW)。VLIW技术在硬件上配置多个功能部件，它们可以并行执行指令，编译器负责将程序组织成超长指令字序列，每个新的指令字包含多条可以并行执行的原始指令，执行时可以直接映射到功能部件上处理，从而达到开发指令级并行的目的，没有复杂的硬件检测相关和发射逻辑。而多媒体和科学计算等计算密集型应用中同时还存在有大量的数据级并行(DataLevel Parallelism，简称为DLP)，相同类型或结构的数据往往需要执行相同的一个或一串操作。采用特殊的指令处理技术可以有效地开发此类程序中的数据级并行性，从而提升处理器的执行性能。

首先数据级并行性开发可以转化为指令级并行性开发。软件流水是开发指令级并行性的一种有效的编译调度方法，编译器通过循环展开将不存在数据相关的来自不同循环周期的指令重新调度，组成新的循环体，以此来增加处理器中可以并行执行的指令条数，解决数据相关。含有大量数据级并行的程序中指令间的数据相关性主要是存储与计算之间的相关，软件流水技术可以比较容易地化解这种相关。软件流水技术可以与超标量或VLIW技术同时使用来开发ILP。

向量处理技术是一种提高处理器成批数据处理性能的有效方法，利用时间重叠的思想，将数据并行转化为指令并行，通过将用于处理相同操作的循环语句向量化，不仅可以减少程序的代码量，还能将循环迭代之间的控制相关性隐藏到向量指令中，提高硬件的执行效率。向量的链接技术可以在向量处理的基础上有效减少中间结果的存储量，缓解向量寄存器的分配压力。

单指令流多数据流(Single Instruction，Multiple Data，简称SIMD)技术是一种资源重复技术，通过配置多个并行的处理单元或将一个处理单元分割为多条数据通路来开发数据级并行。一条指令的控制信号可以控制多个运算部件同时工作，但加工的数据来自多个数据流。Intel的IA-32指令集和IA-64指令集都有针对SIMD的指令扩展，可以提高数值计算应用的性能。

可见，当前对于多媒体和科学计算等计算密集型应用的并行性开发以独立的指令级并行或数据级并行开发为主，在应用规模持续扩大以及复杂度日益增加的情况下，利用上述方法并行化的难度变大，所获得的性能增益也不断减小。如何在硬件结构上支持数据级并行和指令级并行的同时开发是一个解决此类问题的新思路。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的问题，本发明提供一种能够同时支持数据级并行性和指令级并行性开发，能结合超长指令字技术、单指令流多数据流技术和软件流水技术，从多种途径进一步改善计算密集型应用程序在处理器上执行性能的超长指令字与单指令流多数据流融合的计算群单元。

为解决上述技术问题，本发明提出的解决方案为：一种超长指令字与单指令流多数据流融合的计算群单元，其特征在于：它包括主控制器、数据缓冲、SIMD计算群以及微控制器，数据缓冲和微控制器分别与主控制器相连，数据缓冲和微控制器之间通过SIMD计算群相连，主控制器负责指令和数据的准备，将需要SIMD计算群执行的指令调入微控制器中的存储部件，主控制器控制SIMD计算群的启动和暂停，所需源操作数据调入数据缓冲，主控制器同时接收数据缓冲中最终计算结果；数据缓冲部件接收从主控制器传来的数据，并按固定索引地址进行存储，为SIMD计算群提供计算所需源操作数，计算结束后接收计算群的输出结果，最终结果输出到主控制器；微控制器部件接收主控制器提供的超长指令字序列，进行译码后，以广播的形式将每个操作分派、映射到SIMD计算群的每个处理单元的对应处理部件F并行执行；SIMD计算群是以SIMD形式组织的多个并行处理单元PE，每个处理单元包括多个处理部件，所执行的指令序列都来自于微控制器，但所需计算数据来自数据缓冲的不同位置。

所述SIMD计算群是结构相同的多个并行处理单元PE，所有PE的结构均完全相同，以SIMD的方式同时执行来自微控制器的同一条指令或指令序列；每个PE包含多个算术逻辑运算处理部件Fn和局部的寄存器文件，算术逻辑运算处理部件Fn支持超长指令字执行，可以同时并行处理多个不同类型的操作，每个算术逻辑运算处理部件Fn都有单独的局部寄存器文件，直接为处理部件提供操作数并保存计算结果。

与现有技术相比，由于多媒体和科学计算等计算密集型应用程序中数据计算量较大，且相同类型或结构的数据往往需要执行相同的一个或一串操作。因此在面向此类应用的微处理器中，通过配置本发明所提出的硬件结构具有以下优点：

(1)本发明所提出的超长指令字技术与单指令流多数据流技术融合的计算群结构通过在PE内部配置局部寄存器、在系统中配置数据缓冲保存程序运算的中间结果，避免了存储带宽浪费，利用资源重复和编译调度的策略同时开发数据级并行性和指令级并行性，能够提高应用程序在处理器上的执行效率；

(2)同时开发DLP和ILP。由于支持VLIW程序以SIMD的方式执行，协同开发程序中的指令级并行性和数据级并行性，大大提高了处理器执行此类应用程序的吞吐率；

(3)硬件效率高。多个PE共用一套指令控制逻辑，取指、译码、分派、映射，而操作数来自不同的数据流，这种SIMD的执行方式利用一条指令的控制通路实现了多处理器系统才能实现的数据吞吐率，提高了硬件效率；

(4)硬件实现复杂度低。由于编译可以确定各种指令的操作延时，并行性开发的工作完全由编译器来完成，避免了复杂的硬件检测逻辑和流水线互锁逻辑，降低了硬件实现的复杂度；

(5)缓解了存储带宽瓶颈。由于使用了PE内部的局部寄存器，指令操作产生的中间结果不需要占有外部的数据缓冲，缓解了外部存储的带宽压力，并加快了操作数读取的速度；

综上所述，本发明所提出的硬件结构结合了VLIW和SIMD开发程序并行性的优势，适合应用于面向计算密集型应用的处理器中，但不局限于此种处理器，其他需要同时开发多种并行性的处理器也可以采用。

附图说明

图1是本发明的框架结构示意图；

图2是本发明中VLIW与SIMD融合的计算群结构示意图；

图3是本发明指令处理的流程示意图。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明。

参见图1所示，本发明的超长指令字与单指令流多数据流融合的计算群单元，它包括主控制器、数据缓冲、SIMD计算群以及微控制器。其中主控制器负责指令和数据的准备，将需要SIMD计算群执行的指令调入微控制器中的存储部件，控制SIMD计算群的启动和暂停，所需源操作数据调入数据缓冲，并接收数据缓冲中最终计算结果；数据缓冲部件接收从主控制器传来的数据，并以特定的组织方式进行存储，为SIMD计算群提供计算所需源操作数，计算结束后接收计算群的输出结果，最终结果输出到主控制器；微控制器部件接收主控制器提供的超长指令字序列，进行译码后，以广播的形式将每个操作分派、映射到SIMD计算群的每个处理单元(Processing Element，简称PE)的对应处理部件F并行执行；SIMD计算群是以SIMD形式组织的多个并行处理单元，每个处理单元结构相同，并配置多个处理部件，所执行的指令序列都来自于微控制器，但所需计算数据来自数据缓冲的不同位置。

图2是VLIW与SIMD融合的计算群结构图。SIMD计算群是结构相同的一组处理单元PE(PE0、PE1、……、PEN)。所有PE的结构均完全相同，以SIMD的方式同时执行来自微控制器的同一条指令或指令序列。每个PE包含多个算术、逻辑运算处理部件(F1、F2、……、Fn)和局部的寄存器文件。处理部件F1、F2、……、Fn支持超长指令字执行，可以同时并行处理多个不同类型的操作(如加法、乘法、乘加、逻辑运算等)。每个处理部件都有单独的局部寄存器文件，直接为处理部件提供操作数并保存计算结果。操作数首先从数据缓冲读入局部寄存器，由于主控制器在启动微控制器进行译码、分派、映射执行之前已经把操作数调入了数据缓冲，操作数从数据缓冲调入PE局部寄存器的延时是固定的。处理单元内部每个局部寄存器文件之间有网络相连，可以交换计算生成的中间临时数据，每个处理部件的操作数都直接从自己的局部寄存器读取，所以处理部件在执行指令操作时不存在因数据未就绪而导致的不可预期的停顿。因此，超长指令字在所有PE上执行任何操作所需的延时都是一致的、可知的，编译器可以完全开发指令级并行性，生成超长指令字指令序列，并利用软件流水技术重组程序中的循环，化解超长指令字之间的数据相关性，无需硬件干预。同时PE之间也存在互连网络，可以进行必要的同步和数据交换。

以如下伪码程序为例：

//数据准备

load(data1[m]，mem1)；

load(data2[m]，mem2)；

//数据处理

for(i from l to m)

func(data1[i]，data2[i]，data3[i]，data4[i])；

func(data3[i]，data4[i]，data5[i]，data6[i])；

//数据写回到外存或网络接口

send(data5[m]，mem3)；

send(data6[m]，chan0)；

//数据处理函数定义，输入in_a和in_b，输出out_c和out_d

func(in_a，in_b，out_c，out_d){

//第一条超长指令字指令I1

OP₁₁//执行部件为F1

OP₁₂//执行部件为F2

…

OP_1n；；//执行部件为Fn，；；为超长指令字边界标识

//第二条超长指令字指令I2

OP₂₁

OP₂₂

…

OP_2n；；

…

}

该程序描述一连串相同结构的数据(data1、data2)顺序执行一系列操作(两个func函数)，并生产新的一连串数据(data5、data6)的过程，主体为一个for循环。其中for循环的第二个func函数同第一个func函数之间存在写后读的数据相关，在传统指令处理技术中，程序执行效率即并行性受限于这个相关，而且两次调用之间将产生大量的临时数据(data3、data4)，如果寄存器资源不足，则要换出到存储器进行保存，需要时再读入到寄存器中，浪费了存储带宽。采用本发明提出的硬件结构可以有效避免这些瓶颈，该程序在本发明上的执行过程是：

1.执行load指令，主控制器控制数据流的流动，启动数据缓冲从外部存储器调入程序执行所需数据序列data1和data2，并按固定索引地址存放在数据缓冲内；

2.主控制器将程序中的超长指令字序列(第一个func函数)发射到微控制器中的指令缓存部件；

3.微控制器对超长指令字指令I₁，I₂等进行译码，每拍译出n个微操作(OP_i1，OP_i2，…，OP_in)，并行分派到N个PE的n个处理部件上执行：

(a)数据载入操作控制数据(in_a，in_b)从数据缓冲读入到PE的局部寄存器；

(b)数据写回操作控制数据(out_c，out_d)从PE的局部寄存器写回数据缓冲；

(c)算术逻辑操作的源操作数取自各自的局部寄存器，执行结果写回各自的局部寄存器；

(d)数据可以通过PE内部的互连网络在局部寄存器之间移动，也可以通过PE间的互连网络跨PE移动；

4.执行第二个func函数，重复2、3步；

5.执行send指令，主控制器控制数据流的流动，启动数据缓冲将数据序列data5和data6写回到外部存储器或指定的网络端口；

每个微操作都具有固定的、可预知的执行延时，所有PE同时开始执行、同时结束，PE之间是SIMD方式，PE内部的并行采用VLIW方式。

图3是本发明指令处理的流程。指令在主控制器译码后，判断是数据准备指令还是数据处理指令。如果是数据准备指令，则发射到数据缓冲执行，数据缓冲判断是写指令还是读指令。读指令根据指令给出的数据地址和取数长度从外部存储器读入一整块数据，并按固定索引地址存放在数据缓冲中；写指令将数据缓冲中的指定数据块输出到指定位置(外部存储器或网络端口)。如果是数据处理指令，则从外部存储器取相应的一段超长指令字指令序列到微控制器中，微控制器逐条指令进行译码、分派和执行。每条超长指令字指令译出的微操作同时分派到N个PE，映射到对应的处理部件F，所需数据来自数据缓冲，PE之间以SIMD的方式执行。一条超长指令字指令处理完毕，微控制器启动下一条指令的译码和分派；一段指令序列执行完毕，主控制器启动下一个序列的读入和处理。

Claims

1、一种超长指令字与单指令流多数据流融合的计算群单元，其特征在于：它包括主控制器、数据缓冲、SIMD计算群以及微控制器，数据缓冲和微控制器分别与主控制器相连，数据缓冲和微控制器之间通过SIMD计算群相连，主控制器负责指令和数据的准备，将需要SIMD计算群执行的指令调入微控制器中的存储部件，主控制器控制SIMD计算群的启动和暂停，所需源操作数据调入数据缓冲，主控制器同时接收数据缓冲中最终计算结果；数据缓冲件接收从主控制器传来的数据，并按固定索引地址进行存储，为SIMD计算群提供计算所需源操作数，计算结束后接收计算群的输出结果，最终结果输出到主控制器；微控制器接收主控制器提供的超长指令字序列，进行译码后，以广播的形式将每个操作分派、映射到SIMD计算群的每个处理单元的对应处理部件并行执行；SIMD计算群是结构相同的多个并行处理单元PE，每个处理单元包含多个处理部件，所执行的指令序列都来自于微控制器，但所需计算数据来自数据缓冲的不同位置。

2、根据权利要求1所述的超长指令字与单指令流多数据流融合的计算群单元，其特征在于：所述SIMD计算群是结构相同的多个并行处理单元PE，所有PE的结构均完全相同，以SIMD的方式同时执行来自微控制器的同一条指令或指令序列；每个PE包含多个算术逻辑运算处理部件Fn和局部的寄存器文件，算术逻辑运算处理部件Fn支持超长指令字执行，可以同时并行处理多个不同类型的操作，每个算术逻辑运算处理部件Fn都有单独的局部寄存器文件，直接为处理部件提供操作数并保存计算结果。