CN101727435A

CN101727435A - 一种超长指令字处理器

Info

Publication number: CN101727435A
Application number: CN200810224965A
Authority: CN
Inventors: 卢安; 张现聚; 罗晋; 倪伟新
Original assignee: BEIJING VIVACE TONGYONG MICROELECTRONICS TECHNOLOGY Co Ltd
Current assignee: BEIJING VIVACE TONGYONG MICROELECTRONICS TECHNOLOGY Co Ltd
Priority date: 2008-10-28
Filing date: 2008-10-28
Publication date: 2010-06-09
Anticipated expiration: 2028-10-28
Also published as: CN101727435B

Abstract

本发明提供了一种超长指令字处理器。本发明提供的VLIW处理器，采用统一接口和控制方式的数据处理单元，配以分布式寄存器堆和数据交换网络，采用自有的可变长度的VLIW指令集，具备从应用出发，根据应用需要任意增加或删减数据处理单元的能力，使得设计者可以按照本发明提供的VLIW处理器的架构，设计出面向应用的VLIW处理器，从而克服了单一体系结构的VLIW处理器不能适用多种应用需求的矛盾。

Description

一种超长指令字处理器

技术领域

本发明涉及处理器技术领域，具体涉及一种超长指令字(VLIW，Very LongInstruction Word)处理器。

背景技术

计算机体系结构是指那些对程序员可见的处理器系统属性，包括程序设计思想与硬件体系结构。“计算机体系结构(computer architecture)”的定义是1964年C.M.Amdahl在介绍IBM 360系统时提出的，其具体描述为“计算机体系结构是程序员所看到的计算机的属性，即概念性结构与功能特性”。

复杂指令集计算机(CISC，Complex Instruction Set Computer)和精简指令集计算机(RISC，Reduced Instruction Set Computer)是CPU的两种架构。它们的区别在于不同的CPU设计理念和方法。早期的CPU全部是CISC架构，它的设计目的是要用最少的机器语言指令来完成所需的计算任务。

从计算机诞生以来，人们一直沿用CISC指令集方式。在CISC微处理器中，程序的各条指令是按顺序串行执行的，每条指令中的各个操作也是按顺序串行执行的。顺序执行的优点是控制简单，但计算机各部分的利用率不高，执行速度慢。CISC架构的服务器主要以英特尔架构-32(IA-32，IntelArchitecture-32)为主，而且多数为中低档服务器所采用。

RISC是一种执行较少类型计算机指令的微处理器，起源于80年代的MIPS主机(即RISC机)，RISC机中采用的微处理器统称RISC处理器。这样一来，它能够以更快的速度执行操作(每秒执行更多百万条指令，即MIPS)。因为计算机执行每个指令类型都需要额外的晶体管和电路元件，计算机指令集越大就会使微处理器更复杂，执行操作也会更慢。

RISC微处理器不仅精简了指令系统，采用超标量和超流水线结构；它们的指令数目只有几十条，却大大增强了并行处理能力。由于指令集简化后，流水线以及常用指令均可用硬件执行；采用大量的寄存器，使大部分指令操作都在寄存器之间进行，提高了处理速度；采用缓存-主机-外存三级存储结构，使取数与存数指令分开执行，使处理器可以完成尽可能多的工作，且不因从存储器存取信息而放慢处理速度。

面向计算密集型的应用，除了使用流水线技术外，提高运算的并行能力是常用的技术手段。提高计算的并行能力通常有三个层面：指令级并行——超长指令字(VLIW)；线程级并行——超线程(Hyper-Threading)；芯片级并行——多内核。其中，VLIW体系结构是美国Multiflow和Cydrome公司于20世纪80年代设计的体系结构。

VLIW的基本思路是：处理器在一个长指令字中赋予编译程序控制所有功能单元的能力，使得编译程序能够精确地调度在何处执行每个操作、每个寄存器存储器读和每个转移操作。实际上，编译程序创立每个程序的执行记录，计算机则反演该记录。VLIW结构处理器通常被设计成没有高速缓存，主要处理反复循环、向量化的代码。这些限制意味着内存延迟是固定的，转移方向是在编译时就能预测的。由于在VLIW体系结构中指令并行性和数据移动完全是在编译时规定的，处理器只需简单执行编译程序所产生的记录，因而大大简化了运行时资源的调度。VLIW设计者通过开发出能够充分利用VLIW特点的编译程序，大大缩短程序的指令长度，因而也缩短VLIW目标程序的执行时间。

VLIW结构通常应用于复杂的计算密集型运算。由于计算密集型的应用非常广泛，并且各种应用本身的计算量就极不均衡，从而很难使用统一的VLIW结构处理各种应用。也就是说，现有技术中，使用单一的VLIW体系结构，无法解决体系结构和应用之间的内在冲突。

发明内容

本发明所要解决的技术问题是提供一种VLIW处理器，按照本发明提供的VLIW处理器的架构，可以设计出面向应用的VLIW处理器，从而克服单一体系结构的VLIW处理器不能适用于多种应用需求的矛盾。

为解决上述技术问题，本发明提供方案如下：

一种超长指令字VLIW处理器，包括：控制路径、数据交换网络和多个包括操作数输入端口和数据输出端口的数据处理单元；

所述控制路径包括：

指令存储器控制单元，用于对外部的指令存储器进行访问控制；

指令译码单元，用于对所述指令存储器控制单元读取的VLIW指令进行指令译码，并将译码得到的微指令发送给处理器状态机、数据交换网络和各个数据处理单元，其中，所述VLIW指令包括指令标志位、指令立即数、数据交换网络控制指令、主控指令和各个并行数据处理单元的微指令；

处理器状态机，用于根据接收到的微指令执行处理器的控制操作；

每一个数据处理单元包括：

数据处理逻辑单元，与所述数据交换网络连接，用于根据接收到的本数据处理单元的微指令，对本数据处理单元的操作数输入端口上输入的数据执行相应的数据运算操作；

分布式寄存器堆，用于根据接收到的本数据处理单元的微指令，保存本数据处理单元的数据处理逻辑单元的数据处理结果，和/或将自身保存的数据通过本数据处理单元的数据输出端口输出；

所述数据交换网络，用于形成每一个所述操作数输入端口与所有所述数据输出端口之间的通道，并根据接收到的数据交换网络控制指令，选择使所述通道中的一个通道导通。

较佳的，上述处理器中，所述操作数输入端口包括左操作数输入端口和右操作数输入端口，所述数据输出端口包括左数据输出端口和右数据输出端口。

较佳的，上述处理器中，所述指令存储器控制单元，进一步根据处理器状态机的控制，对外部的指令存储器进行所述访问控制。

较佳的，上述处理器中，所述处理器的控制操作包括：处理器的运行状态控制，处理器的循环控制，处理器的常数寄存器及全局寄存器读写控制。

较佳的，上述处理器中，所述数据处理单元，还包括全局数据输入端口和/或常数数据输入端口；

所述数据交换网络，还用于形成所述处理器状态机与所述全局数据输入端口或常数数据输入端口之间的通道，将所述处理器状态机输出的常数寄存器或全局寄存器中的数据发送至数据处理单元。

较佳的，上述处理器中，所述数据处理单元的微指令包括操作码、源操作数地址，目的操作数地址和寄存器输出选择地址；

所述数据处理逻辑单元进一步用于根据所述操作码和源操作数地址，对所述全局数据输入端口、常数数据输入端口和操作数输入端口中的至少一个端口输入的数据执行与所述操作码对应的数据运算操作；所述分布式寄存器堆进一步用于根据所述目的操作数地址确定所述数据处理结果的暂存地址，以及根据所述寄存器输出选择地址，将该寄存器输出选择地址对应的数据通过数据输出端口输出至数据交换网络。

较佳的，上述处理器中，所述数据处理单元为运算单元或数据存储器控制单元。

较佳的，上述处理器中，所述数据运算操作包括算术逻辑操作、乘法累加操作、桶形移位操作和数据读写操作。

较佳的，上述处理器中，所述控制路径还包括：

控制接口单元，用于提供处理器的控制寄存器和状态寄存器，实现对处理器的全局控制功能，并对外提供查询本处理器状态的接口。

较佳的，上述处理器中，所述数据处理单元的数量是根据所述处理器的具体应用确定的。

从以上所述可以看出，本发明采用分布式寄存器堆和数据交换网络相结合的结构，实现了任意多组数据处理单元每组都能够同时通信，且相互不影响。同时，本发明采用统一接口和控制方式的数据处理单元，配以分布式寄存器堆和数据交换网络，采用自有的可变长度的VLIW指令集，具备从应用出发，根据应用需要任意增加或删减数据处理单元的能力，使得设计者可以按照本发明提供的VLIW处理器的架构，设计出面向应用的VLIW处理器，从而克服了单一体系结构的VLIW处理器不能适用于多种应用需求的矛盾。

附图说明

图1为本发明实施例所述VLIW处理器的系统接口示意图；

图2为本发明实施例所述VLIW处理器核架构示意图；

图3为本发明实施例中的所述数据处理单元的结构示意图；

图4为本发明实施例所述的数据交换网络的结构示意图。

具体实施方式

本发明主要目的是优化现有技术的VLIW体系结构，用于克服单一体系结构的VLIW处理器不能应用于多种复杂密集型计算应用的不足。本发明提出了VLIW的一种结构实现方式，基于这种结构，可以设计出面向应用优化的VLIW结构，解决VLIW体系结构和应用之间的内在冲突。以下结合附图，通过具体实施例对本发明作进一步说明。

VLIW体系结构的核心思想是提供指令级并行的运算能力，但由于体系结构的限制，任意一种固定的体系结构都无法满足不同算法的需要，只有提供可变的并行运算能力，可变的寄存器访问能力，可变长度的VLIW指令，才能从本质上满足多种计算密集型运算的需要。

可变的VLIW结构主要是指基本的数据处理单元的数目可变，整体处理器的并行运算能力可变。这种可改变的特性不能影响处理器的整体特性，即不论采用多少数据处理单元和并行运算能力，处理器都应该是完整和统一的整体。

由于基本数据处理单元的数目和并行运算能力可变，因此必须提供可变的寄存器访问能力。本发明中采用分布式寄存器技术，对处理器内部的寄存器进行扩充。除了保留传统的寄存器堆作为全局寄存器和常数寄存器外，还在各个数据处理单元中添加分布式寄存器堆，并利用对分布式寄存器堆和数据交换网络的控制确保任意两个数据处理单元之间都能够交换数据。

每一种具体的体系结构都对应着一种指令集，因此，可变的VLIW结构必须具有一种可变的指令集与其对应。这种指令集必须支持数据处理单元的数目可变、整体处理器的并行运算能力可变，所以必须采用可变的长度。虽然采用可变的指令长度，但其基本结构是固定的，都由指令标志位，指令立即数，主控指令，数据交换网络控制指令和每个并行数据处理单元的微指令组成。

VLIW体系结构的处理器由于面向计算密集型运算应用，通常在系统中担当协处理器，其系统结构隶属于改进的哈佛结构，其寻址空间由指令存储器空间和数据存储器寻址空间构成，且两寻址空间相对独立。数据寻址空间的数据宽度通常是32比特固定宽度，指令寻址空间的数据宽度由处理器的指令宽度决定，不同的指令宽度对应不同的指令存储器宽度。

请参照图1，本实施例所述VLIW处理器与四片存储器和系统总线接口连接。其中，四片存储器分别为指令只读存储器(Instruction ROM)、指令随机存储器(Instruction RAM)、私有数据存储器和共享数据存储器。其中，指令只读存储器主要用于保存处理器内部寄存器、系统总线接口和指令随机存储器等的初始化指令。本实施例所述VLIW处理器不提供单独的对外总线接口，而是通过系统总线接口与主处理器的系统总线连接。具体的连接方式是通过VLIW处理器数据地址和VLIW处理器控制地址的系统地址映射完成，即将共享数据存储器的一部分或全部映射成系统存储器的一部分，将VLIW处理器的部分控制寄存器映射成系统存储器的一部分。主处理器通过访问这两部分的存储器，实现与协处理器的数据通信和控制交互。相应的，这两部分映射存储器即为协处理器的数据接口和控制接口。

上述的系统结构提供了VLIW处理器核结构可改变的可能。本实施例采用图2所示的处理器核结构，提供可改变的VLIW体系结构，可扩充和裁减的数据路径。如图2所示，本实施例所述的VLIW处理器核架构可以分为控制路径、数据处理单元和数据交换网络三个部分。

本实施例中，控制路径主要包括处理器的控制接口单元，指令存储器控制单元，指令译码单元和处理器状态机。其中，控制接口单元提供VLIW处理器的多种控制寄存器和状态寄存器，主要完成对处理器的全局控制功能，并对外提供系统查询本处理器状态的接口；指令存储器控制单元在处理器状态机的控制下提供对指令存储器(指令只读存储器和指令随机存储器)的访问控制，生成指令访问地址，读取VLIW指令，并在读取失败时执行相关操作；指令译码单元根据不同的处理器配置，对指令存储器控制单元读取的VLIW指令完成不同的指令译码操作，将译码后的操作以微指令的形式发给各操作对应的处理器状态机、数据交换网络和各个数据处理单元，其中，所述VLIW指令包括指令标志位、指令立即数、数据交换网络控制指令、主控指令和各个并行数据处理单元的微指令(VLIW指令的具体结构在下文中有详细说明)；处理器状态机根据接收到的译码后的微指令完成处理器的控制操作，主要包括处理器的运行状态控制，处理器的循环控制，处理器的常数寄存器及全局寄存器读写控制等。

本实施例所述VLIW处理器的控制路径与现有技术的VLIW处理器并无本质区别。都是根据处理器的当前运行状态和所执行的指令，决定下一条指令的地址及处理器的运行状态。当没有遇到分支、跳转和其他改变程序流程的指令时，处理器的程序计数器自动加一。

本实施例中的数据处理单元有两种：运算单元和数据存储器控制单元。其中，运算单元主要有算术逻辑单元(ALU)，乘法累加单元(MAC)，桶形移位器单元(Shift)三种。每种运算单元都能够执行若干种对应的运算，完成一定的计算功能。数据存储器控制单元负责处理器内部寄存器(包括全局寄存器和数据存储器控制单元内部的分布式寄存器堆)与外部的数据存储器的数据交互，主要完成读(Read，即将数据存储器中的数值传送给处理器内部寄存器)和写(Write，即将处理器内部寄存器的数值传送给数据存储器)操作，并同时负责数据地址的生成和数据存储器的分片使能等操作。

数据交换网络是本实施例中特有的硬件结构，主要完成数据处理单元之间的数据交换功能。在本实施例中，各个数据处理器单元相对独立，并且可以根据处理器具体的应用环境，面向应用任意增加和删减数据处理单元。这种可变的VLIW体系结构势必带来寄存器堆的访问问题。传统的VLIW结构没有这个问题。传统的VLIW结构中，数据处理单元的数目和并行运算能力固定，因此可采用一个可多读出多写入的寄存器堆来实现数据处理单元的数据通信。即每一个数据处理单元在运算完成后回写寄存器堆，下一次运算时再从寄存器堆中读取操作数。这种结构对于本实施例的可变VLIW结构并不适用。由于数据处理单元的数目可以在较大范围内变化，若使用单一的寄存器堆，则会大大限制了数据处理单元之间的数据通信能力，从而限制了处理器整体的计算性能。

本实施例采用分布式寄存器堆和数据交换网络相结合的结构，实现了任意多组数据处理单元每组都能够同时通信，且相互不影响。具体实现包括改造数据处理单元的结构和添加指令可控的数据交换网络。以下首先介绍VLIW指令的具体结构。

本实施例所述VLIW处理器采用的指令集是特有的指令集，与其他处理器的指令都不兼容。这种指令集随着数据处理单元的数量和并行运算能力的不同而不同，即是一种可变长度的VLIW指令，具体包括：

1)指令标志位：1位，表示本条指令是否为普通VLIW指令。

2)指令立即数：16位，本条指令中包含的立即数，可供任意数据处理单元使用。

3)数据交换网络控制指令：长度不固定，随着数据处理单元的增多而增多，确保本处理器的任意数据处理单元均可以同时互相访问。

4)主控指令：13位，用于指示当前处理器状态机的功能，包括处理器运行状态控制，分支跳转控制，硬件循环控制，全局寄存器堆和常数寄存器堆控制。

5)各个并行数据处理单元的微指令：m×n位，其中m表示每个数据处理单元的微指令长度，n表示并行数据处理单元的数量。

可见，当并行数据处理单元的数量发生变化时，VLIW指令的长度也发生变化，从而保证了任意添加或删减数据处理单元后整个处理器的可控制性。

以下说明数据处理单元是如何通过数据交换网络实现相互通信的。

首先，本实施例中所有的数据处理单元，包括运算单元和数据存储器控制单元都添加内部寄存器堆用于保存数据，这个内部寄存器堆即处理器的分布式寄存器堆。图3为本实施例中的一个数据处理单元的完整结构，包括数据处理逻辑单元和分布式寄存器堆。其中，数据处理逻辑单元有四个数据输入端口，分别是全局数据输入端口、常数数据输入端口、左操作数输入端口和右操作数输入端口，分别接收对应的数据，还有一个指令输入端口，接收本数据处理单元的微指令，并根据该微指令，对上述数据输入端口上输入的数据执行相应的数据运算操作。分布式寄存器堆，通过左数据输出端口和右数据输出端口与数据交换网络连接，用于根据接收到的本数据处理单元的微指令，保存本数据处理单元的数据处理逻辑单元的数据处理结果，和/或将自身保存的数据通过本数据处理单元的数据输出端口输出至数据交换网络，所述数据输出端口包括左操作数输出端口和右操作数输出端口。

各个并行数据处理单元的微指令，包括有操作码、源操作数地址，目的操作数地址和寄存器输出选择地址四个部分。其中操作码和源操作数地址发送给数据处理逻辑单元，数据处理逻辑单元用于根据所述操作码和源操作数地址，对所述全局数据输入端口、常数数据输入端口和操作数输入端口中的至少一个端口输入的数据执行与所述操作码对应的数据运算操作。可能的源操作数来源包括由控制寄存器负责维护的全局寄存器堆和常数寄存器堆，和由数据交换网络负责维护的各个数据处理单元的寄存器输出。指令中的目的操作数地址和寄存器输出选择地址发送给各个数据处理单元的分布式寄存器堆，分布式寄存器堆根据所述目的操作数地址确定数据处理逻辑单元的数据处理结果的暂存地址；以及根据所述寄存器输出选择地址，将该寄存器输出选择地址对应的数据通过数据输出端口输出至数据交换网络，然后，该对应的数据通过数据交换网络被发送给本处理器的所有数据处理单元的每一个操作数输入端口(包括左操作数输入端口和右操作数输入端口)。

图3所示为一个包括各种可能的输入端口和输出端口的数据处理单元。通常的数据处理单元可能只包括图3中的部分数据输入端口和部分数据输出端口。例如，算术逻辑运算单元(ALU)不需要全局数据输入端口，读操作的数据存储器控制单元不需要右操作数输入端口等。

除了分布式寄存器堆，要保证每个数据处理单元都可以访问到任何数据处理单元上一步的运算结果，还需要通过本实施例的全连接的数据交换网络来实现。如图4所示，本实施例所述的数据交换网络，用于形成本处理器的每个数据处理单元的数据处理逻辑单元的每一个操作数输入端口(包括左操作数输入端口和右操作数输入端口)与本处理器所有所述数据输出端口(包括左数据输出端口和右数据输出端口)之间的通道，并通过具体的数据交换网络控制指令，选择使所述通道中的一个通道导通，从而控制各个数据处理单元的操作数输入端口的数据源。

可以看出，本实施例所述的数据交换网络是一个组合逻辑，其具体实现方式为微指令(数据交换网络控制指令)控制的多路选择电路。数据交换网络将任意一个数据处理单元的数据输出端口(包括左数据输出端口和右数据输出端口)和任意一个数据处理单元的操作数输入端口(包括左操作数输入端口和右操作数输入端口)之间都形成一个通道，并通过数据交换网络控制指令，控制各个通道的导通或关闭，从而为各个操作数输入端口选择当前的数据来源。

图4中只是示出了所述数据交换网络在数据处理单元之间的连接以及如何控制数据处理单元的左、右操作数输入。本实施例的数据交换网络还负责系统时钟、数据处理单元的微指令、处理器的全局寄存器和常数寄存器中的数据的发送。例如，通过数据交换网络，将处理器状态机输出的某个全局寄存器(或常数寄存器)中的数据发送至某个数据处理逻辑单元的任意一个数据输入端口(包括左、右操作数输入端口和常数、全局数据输入端口)：其中，如果发送至全局数据输入端口(或常数数据输入端口)，此时，数据网络在处理器状态机和该全局数据输入端口(或常数数据输入端口)之间建立了一条通道，该通道不需要通过数据交换网络控制指令来控制，一直为导通；如果发送至左操作数输入端口(或右操作数输入端口)，此时，对于数据处理逻辑单元，其左操作数输入端口(或右操作数输入端口)的数据来源仍然是根据数据交换网络控制指令的控制，从全局数据(来自全局寄存器)或常数数据(来自常数寄存器)以及所有的数据处理单元的左、右数据输出端口输出的数据中选择其中之一作为当前的数据源。

从以上所述可以看出，传统的VLIW架构由于其架构固定，所以其并行能力也是固定的。本实施例所述的VLIW处理器采用统一接口和控制方式的数据处理单元，配以分布式寄存器堆和数据交换网络，采用自有的可变长度的VLIW指令集，具备从应用出发，根据应用需要任意增加或删减数据处理单元的能力，从而从架构层面上解决了处理器运算能力和应用需求不匹配的内在矛盾，是一种创新独到的VLIW体系结构。

本发明所述超长指令字处理器，并不仅仅限于说明书和实施方式中所列运用，它完全可以适用于各种适合本发明之领域，对于熟悉本领域的人员而言可容易地实现另外的优点和进行修改，因此在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。

Claims

1.一种超长指令字VLIW处理器，其特征在于，包括：控制路径、数据交换网络和多个包括操作数输入端口和数据输出端口的数据处理单元；

所述控制路径包括：

每一个数据处理单元包括：

2.如权利要求1所述的处理器，其特征在于，所述操作数输入端口包括左操作数输入端口和右操作数输入端口，所述数据输出端口包括左数据输出端口和右数据输出端口。

3.如权利要求1所述的处理器，其特征在于，所述指令存储器控制单元，进一步根据处理器状态机的控制，对外部的指令存储器进行所述访问控制。

4.如权利要求1所述的处理器，其特征在于，所述处理器的控制操作包括：处理器的运行状态控制，处理器的循环控制，处理器的常数寄存器及全局寄存器读写控制。

5.如权利要求4所述的处理器，其特征在于，

所述数据处理单元，还包括全局数据输入端口和/或常数数据输入端口；

6.如权利要求5所述的处理器，其特征在于，所述数据处理单元的微指令包括操作码、源操作数地址，目的操作数地址和寄存器输出选择地址；

7.如权利要求1所述的处理器，其特征在于，所述数据处理单元为运算单元或数据存储器控制单元。

8.如权利要求1所述的处理器，其特征在于，所述数据运算操作包括算术逻辑操作、乘法累加操作、桶形移位操作和数据读写操作。

9.如权利要求1所述的处理器，其特征在于，所述控制路径还包括：

10.如权利要求1所述的处理器，其特征在于，所述数据处理单元的数量是根据所述处理器的具体应用确定的。