CN101010666A

CN101010666A - 存储器高效率的指令处理电路

Info

Publication number: CN101010666A
Application number: CNA2004800374216A
Authority: CN
Inventors: 彼得·迪特里希
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nytell Software LLC
Priority date: 2003-12-16
Filing date: 2004-11-30
Publication date: 2007-08-01
Anticipated expiration: 2024-11-30
Also published as: EP1697830A2; WO2005059738A3; US20070162724A1; ATE422258T1; EP1697830B1; WO2005059738A2; US7716456B2; JP2007514245A; DE602004019346D1; CN100485606C

Abstract

在二维光存储器(TwoDOS)配置中，在光盘的某些位置，例如在导入区中和/或附加地稀疏地在数据中，放置校准比特。测量从校准比特中读取而产生的信号波形，并对这些信号执行矩阵乘法，以获得线形干扰系数。这可以完成，是由于比特序列已知(沿着2D模式的所有比特行)。根据这些线性干扰系数中，重新构建凹槽孔处的读出光点的电磁场分布。该信息至少能够以两种方式使用：信号处理单元使用该信息，作为它的设置的输入，所以，它使用光通道的测量的响应，取代期望的响应。可以修改OPU设置，以使光点形状最优并减小。

Description

存储器高效率的指令处理电路

本发明涉及一种并行处理设备，诸如超长指令字(VLIW)处理器，也涉及对这种并行处理设备的指令字进行压缩和解压缩的存储器高效率的方法，以及涉及计算机程序产品，使得当计算机载入该计算机程序产品时，能够执行该存储器高效率的方法的步骤。

并行处理器，例如VLIM处理器，可以用于从超级计算机到工作站和个人计算机范围内的各种应用中。它们在工作站、个人计算机以及视频或音频消费产品中，可以用作专门的或可编程的处理器。它们可以是特定应用的处理器，即它们可以被设计用于处理特定的应用，以增强这些应用的性能。为此，在VLIM处理器中加入特殊的功能单元。每个功能单元，取决于被处理的应用，被设计用于处理特别的操作。由VLIM处理器执行的指令集包括预先安排的操作。

当功能单元执行操作时，如果该功能单元不是流水线式的，那么没有其他的操作被安排在所述功能单元上。如果该功能单元是流水线式的，那么在与该功能单元的启动时间间隔对应的固定循环数后，由编译器安排新操作。当功能单元完成处理后，处理结果必须被进一步处理或从VLIW处理器中输出。产生指令集的编译器在编译时，需要知晓功能单元的启动时间间隔和等待时间，以安排这些单元的操作。功能单元的启动时间间隔是指该时间间隔后，在功能单元上能够启动新操作。功能单元的等待时间是指功能单元执行它的操作所花费的时间。基于用于安排VLIM处理器中功能单元操作的最坏情况等待时间，编译器必须在安排中引入NOP(无操作指令)。

可惜，在大多数应用中存在的CPU(中央处理单元)里，指令等级并行性(ILP)的程度有限，从而导致使用大量昂贵的程序存储器资源，仅仅用于描述许多CPU的功能单元的NOP。

文献US6154828和EP1158401A2公开了指令压缩和解压缩方案，但是该方案需要特定的流水线、寄存器或存储器段(memory section)，用于重新对齐和/或扩展沿着流水线向指令解码器发出的指令字。

本发明的目的是在不引入任何额外的存储器需求或流水线的情况下，减少所需的程序存储器的量。

该目的通过权利要求1中提出的并行处理设备，权利要求11中提出的解压缩方法，权利要求12中提出的压缩方法，以及权利要求13中提出的计算机程序产品来实现。

相应的，从随后的指令字中提取的单独指令被合并为相同通用指令格式的新的单个指令字。这使得在没有使用任何附加的流水线级或存储器段的情况下，减少了程序存储器的量。这样，可以在将延迟指令或延迟时隙储存在程序存储器之前，将其从指令字中移去。然后，通过将丢失的延迟指令重新合并，可以由指令流水线直接处理该指令格式。除了减少程序存储器的量外，由于储存指令的量降低，所需的存储器访问宽度也减小。所提出的压缩技术可以在低硬件复杂度和高循环效率的情况下实现。

该指令处理适于：如果所述第一个指令字和至少第二个指令字每个都包括具有至少一个延迟指令的预定指令模式之一，则提取所述第一个单独指令和至少第二个单独指令，并且将所述第一个指令字和至少第二个指令字压缩到所述单个指令字中。特别的，延迟指令可以是空操作或NOP。所以，以预定方式分组单独指令的公共简单模式，并将其与物理程序存储器字精确地对齐。这对于存储器使用和复杂度来说很有益。

并且，在压缩期间或压缩后，该指令处理适于向所述单个指令字添加预定控制信息，所述控制信息表示下述中的至少之一：所述提取的第一个单独指令和至少第二个单独指令到所述相应功能单元的分配；以及所述第一个单独指令和至少第二个单独指令在它们各自功能单元中的顺序。该控制信息包括作为至少一个相应最高有效比特被添加到所述单个指令字上的至少一个比特。这样，在无需附加的存储器空间来储存原始存储器地址或被压缩的单独指令的序列的情况下，每个新的单个指令字可以被单独解压缩或扩展。

在扩展或解压缩期间或之前，该指令处理适用于检查从程序存储器读出的指令字中的控制信息，基于所述控制信息，重新建立所述第一个指令字和至少第二个指令字，并向指令解码器提供所述重新建立的第一个指令字和至少第二个指令字。因此，在每个程序存储器取指中，可以以正确的方式将单独指令或控制字发出至指令解码器。

指令处理适用于标记出所有与延迟时隙和分支目标相关联的指令字，基于所作的标记，对所述第一个单独指令和至少第二个单独指令的提取作出决定。然后，基于已决定的提取，调整至少一个程序存储器地址。这样，所提出的技术对于代码产生应用的使用者来说是透明的，并且，可以自动处理所有级。

其他有利的改进在从属权利要求中定义。

现在参照附图，描述本发明的实施例，其中：

图1表示VLIW处理器的结构示意图，在该VLIW处理器中可以实现本发明；

图2表示根据优选实施例的压缩指令字的代表示意图；

图3表示根据第一优选实施例的程序存储器取操作的流程示意图；

图4表示根据第一优选实施例的实现指令发出控制逻辑(steeringlogic)的示意图；以及

图5表示根据第一优选实施例的压缩方案的流程示意图。

图1描述了根据本发明实施例的VLIW处理器。该VLIW处理器包括VLIW控制器40，其连接至多个功能单元30-1至30-n。特别地，该VLIW控制器40发出功能单元30-1至30-n的操作或单独指令。互连网络20直接连接功能单元30-1至30-n，以方便这些功能单元之间的数据传送。全局寄存器文件具有独立的寄存器文件(RF)10-1至10-n，该全局寄存器文件储存功能单元30-1至30-n产生的值。全局寄存器文件的目的是提供一种方式，用于将功能单元30-1至30-n中的一个产生的数据传送至其他功能单元30-1至30-n。功能单元30-1至30-n可以包括标准算术和逻辑单元、常数产生单元、用于数据的存储器单元以及指令存储器等中的至少一个。这些单元可以用于许多应用中。

通信网络20在控制器40提供的定序器功能的控制下，将功能单元30-1至30-n的输出端口连接至寄存器文件10-1至10-n的输入端口，并将功能单元30-1至30-n的输入端口连接至寄存器文件10-1至10-n的输出端口。特别地，控制器40的指令解码器44从控制器40的指令寄存器42获得指令字。在每个循环中，指令寄存器42装载新的指令字。该指令字包括为每个数据路径分量产生在一个循环中有效的控制信息所需的信息。取决于所使用的指令编码概念，指令字在相同循环，或不同循环中同时控制数据路径分量。在任何情况下，当和现在的结构一样，具有多于一个功能单元时，一个指令字隐含几个并行操作的执行。具有指令字序列的程序储存在程序存储器50中。

根据实施例，在不使用额外的流水线级的情况下，所提出的指令处理方案用于产生描述延迟指令，例如NOP，所需的程序存储器的量。特别地，所提出的压缩或压紧方案引出了更高效率的解决方案，特别适用于低功率处理单元，这是由于包含了低硬件复杂度，并实现了高循环效率。例如，使用普通编译的C代码，可以节约大约25％的程序存储器空间。

在程序代码中，例如安排用于数字信号处理，许多程序段具有被定义为无算术运算的完全的存储器载入或者储存操作，例如，进入或退出一个功能时的栈帧处理。这些存储器操作关联于单个功能单元，例如载入存储单元。接下来，给出了指令模式序列的示例，该指令模式序列包括两个单独指令，但是该示例也可以应用于任何功能单元，并不只是载入存储单元。

NOP‖mem1

NOP‖mem2

...

NOP‖memN

根据第一优选实施例，定义了一种新的指令格式，该指令格式内具有两个连续的存储器操作，例如

mem1‖mem2

其中，用于指示该新指令格式的信息可以插入到指令集图表的任何位置，例如在顶部。例如，在具有单一形式的32比特ISA(指令集结构)的机器中，该新格式可以通过位于最高有效比特(MSB)位置的附加比特表示。

这样，通过在32比特指令字的MSB位置上添加这样一个格式比特，用于对原始格式和连续格式进行区分或编码，该比特序列可以表示如下：

“0”<32> 原始ISA

“1”<32> 连续扩展

然后，通过扩展或添加丢失的算术NOP，就和发出具有NOP指令的原始指令序列一样，由指令流水线处理新的指令格式。由于所提出的技术仅仅包括对齐的程序存储器访问的扩展，无需额外的流水线级或存储器段，且保持了循环效率。

图2表示根据优选实施例，具有控制信息CB的指令字的一般结构。每个程序字或指令字通过预定数目的比特扩展，这些比特与控制信息CB对应，该控制信息CB指示指令格式，且该指令格式定义例如单独指令FUx1-Iy1至FUxn-Iyn的分配和顺序(sequential order)。该新扩展的指令宽度也被分配至物理程序存储器50。

在传统指令格式中，指令字内单独指令的位置被固定分配给功能单元30-1至30-n中对应的一个，也固定分配给当前的(prevailing)指令循环。新的指令格式允许将不同循环和/或不同功能单元的单独指令合并在单个指令字内。所以，根据第一优选实施例，在带有两个单独指令的32比特指令字的情况下，传统的模式序列：

NOP‖FU1 ∥指令1

NOP‖FU1 ∥指令2

能够被压缩或压紧至新的单个指令字中。

“1”<FU1指令1><FU1指令2>＝“1”<FU1-I1><FU1-I2>

其中，“FU”表示功能单元，“I”表示指令索引，用于指定所述的功能单元中指令的顺序。例如，“FU1”可以是存储器载入存储单元或通常是VLIW处理器中提供的功能单元30-1至30-n中的一个。

更一般的，该指令处理技术可以应用于压缩包括一些NOP或者其他非运算延迟指令的任意指令模式集。编码效率完全由指令模式的出现统计来驱动，其中，功能单元和指令的任意组合可以被编码，其与物理程序存储器字相配合。作为一个高效率的示例，简单的公共模式，诸如“NOP‖mem”，可以被检测和组合，以去除NOP指令。

根据第二优选实施例，指令字可以包括单独指令的三元组(triple)。在这种情况下，控制信息CB可以是二比特信息，以区分指令分配方式和顺序的四种不同组合，例如，如下定义：

“00”<FU3-I1><FU2-I1><FU1-I1> ∥并行格式

“01”<FU1-I1><FU1-I2><FU1-I3> ∥三个被压缩的

NOP‖NOP‖FU1三元组

“10”<FU2-I1><FU2-I2><FU2-I3> ∥三个被压缩的NOP‖FU2‖NOP三元组

“11”<FU3-I1><FU2-I2><FU1-I2>//被压缩的FU3‖NOP‖NOP，NOP‖FU2‖FU1对

因此，NOP指令不必储存在程序存储器50中，这是由于下述事实：检测包括NOP指令的预定模式，包括预定模式的预定数目的连续指令字被单个指令字代替，其中该单个指令字包括从预定模式提取的一种非NOP指令模式。然后将这些压缩指令字储存在程序存储器50中。

图3表示根据第一优选实施例，程序存储器取操作的流程示意图，这可以由图1的处理器40执行。每次从程序存储器50中取一个新指令字，处理器40遵循图3中描述的过程，以便正确地向指令解码器44发出控制或指令字。在步骤S100中，参数C1表示取操作的第一循环，被设定为“1”，这与逻辑值“真”对应。然后，在步骤S110中，检查控制信息或控制比特CB的内容。如果确定为传统的指令格式，正如用控制信息CB的值“0”指定的一样，则在步骤S120中，确定为传统的非压缩指令字，并将所有32比特的指令字直接发出至指令解码器44。另一方面，如果确定控制信息CB设定为值“1”，这表示压缩指令字，那么在步骤S130中检查循环参数C1的值。如果循环参数C1设定为“1”，这样就表示第一循环，那么在步骤S140中，选择较低的单独指令，并添加NOP指令。然后，在步骤S150中，发出该第一个解压缩的指令字，并且在步骤160中，将循环参数C1设定为“0”，这表示逻辑值“假”。

之后，该过程返回步骤S110。如果在步骤S130中，确定循环参数设定为“0”，这样就表示第二循环，则在步骤S170中，选择当前指令字的较高单独指令，并添加NOP指令。然后在步骤S180中，将解压缩的指令字作为第二个连续的指令字发出。

注意，术语“较低的单独指令”表示在较低有效比特位置处的指令，而术语“较高的单独指令”表示在较高有效比特位置处的指令。

图4的示意图示出了，基于图3的流程图，指令发出控制逻辑的适当实现的示例。该控制逻辑基于第一预定示例，其中指令字包括两个单独指令，即，覆盖第0个至第15个比特的较低指令和覆盖第16个至第31个比特的较高指令。在图4中，示出了从指令寄存器42至指令解码器44的信息的逻辑流。基于控制信息CB的值，三个组合中的一个被提供至指令解码器44，其中该三个组合包括较高单独指令和较低单独指令中的至少一个。特别地，如果在比特位置32处，作为新MSB添加的控制信息设定为“0”，那么确定为非压缩的指令模式，并将该指令模式作为一个指令字，在一个循环中，提供至指令解码器44。

另一方面，如果控制信息CB设定为“1”，那么在两个循环中，将两个解压缩的指令字连续提供至指令解码器44。在第一个循环中，较低单独指令与较高比特位置处的NOP操作合并，并将合并后的解压缩指令字提供至指令解码器44。在第二个循环中，将较高单独指令作为较低单独指令，再次与较高比特位置处第二个NOP操作合并，以形成连续的第二个解压缩指令字。该第二个解压缩指令字也被提供至指令解码器44。

通常，根据优选实施例，通过将n个单独指令打包为一个物理存储器字或指令字，来压缩n个指令。在第一和第二优选实施例中，分别为n＝2和n＝3。所以，不需要额外的流水线级。相反，开始描述的传统压缩技术处理指令字，用来解除它的对准，以至于使用额外的流水线级来重新对准和扩展沿着流水线发出至指令解码器的提取字。

根据优选实施例，通过使用预定的提取模式，将被压缩的单独指令的组合与物理程序存储器字对准。因此，通过具有更小的存储器空间，而节省了功率，并且，由于两个或更多个指令的发出只需要一个指令取出，也减小了程序存储器访问的带宽。

图5表示根据第一优选实施例的压紧或压缩方案的流程示意图。该过程可以由处理器40的编译器、汇编器和/或连接器完成，并且，该过程支持各种形式的程序员的软件工具流。延迟时隙必须成对处理，并且在它们内不能有分支目标。分支目标必须一直被视为将成对的适当压紧或压缩候选分开，使得只在有效对上执行压缩，该有效对包括由分支目标提供的潜在的控制流入口。

在步骤S200中，检查该过程是否已经处理了全部的程序。如果没有，则在步骤S210中，标记出下一延迟时隙块，即包括NOP指令的模式。然后，在步骤S220中标记出下一分支目标，然后该过程返回步骤S200。重复该循环，直到该过程已经标记出与延迟指令和分支目标相关联的所有指令。在步骤S200中，确定全部程序已经处理完时，在步骤S230中，用压缩的块或指令字代替或取代预定模式的指令对。最后，在步骤S240中，基于从单独指令字到压缩指令字的合并，调整所有程序存储器地址。在步骤S230中，通过考虑相邻指令模式诸如“NOP‖mem”模式的邻接区域，可以发出有效对指令。

由于通过压缩使得程序空间的“高度”减小，所以步骤S240中的地址调整可以由后处理级执行，以重新计算所有的流控制目标地址。并且，可以通过以下方式来提高所提出的压缩方案：偏移例如编译器的调度器中的用于代码选择的内部指标(internal metrics)，以便依次支持所选预定模式，例如“NOP‖mem”模式，从而扩大识别有效压缩候选的范围。

所提出的压缩方案对于例如数字信号处理器的C编译器的用户来说是完全透明的，并且所有级被自动处理。汇编语言程序员可以手动选择压紧候选，而自动执行其他级，诸如正确的流目标地址解。在代码产生的任一方式中，ISS(指令集仿真器)对该指令类精确等级的行为进行正确的仿真。

总之，提出了并行处理设备和指令处理方案，其中，从第一个指令字中提取的第一个单独指令和至少从随后的第二个指令字中提取的至少第二个单独指令，作为新的单个指令字被处理。因此，在一个指令字中可以定义至少两个连续的操作，且该指令字由指令流水线处理，好像发出两个原始的指令一样。这可以通过扩展被压缩的指令格式，以添加移除的延迟指令来实现。

注意，本发明不限于上述的优选实施例，可以应用于由具有几个单独指令的指令字控制的任何并行处理设备。特别地，本发明还可以应用于非VLIW结构。所提出的压缩方案可以由根据计算机程序运行的任意通用计算机实现。该计算机程序可以承载在任意适合的载体介质或载体信号上，该载体介质诸如储存介质，即软盘或CD ROM。这样的载体信号可以是经由通信网络，诸如因特网，下载的信号。后序的计算机程序产品权利要求被解释为，覆盖了以上述任意形式提供的计算机程序。本发明中提出的并行处理设备可以作为处理器核包含在高度集成环境中，用于多媒体应用、网络路由器、视频移动电话、智能汽车、数字电视、声音识别、游戏、信号处理应用等。该实施例可以在所附权利要求的保护范围内变化。

Claims

1、一种并行处理设备，基于包括至少两个单独指令的指令字，来处理数据，所述至少两个单独指令用于控制至少两个相应功能单元(30-1至30-n)，所述设备包括指令处理装置(40)，用于将从第一个指令字中提取的第一个单独指令和从随后的至少第二个指令字中提取的至少第二个单独指令，作为新的单个指令字进行处理。

2、如权利要求1所述的设备，其中，所述指令处理装置(40)被设置用于：如果所述第一个指令字和至少第二个指令字每个都包括具有至少一个延迟指令的预定指令模式之一，则提取所述第一个单独指令和至少第二个单独指令，并将所述第一个指令字和至少第二个指令字压缩到所述单个指令字中。

3、如权利要求2所述的设备，其中，所述延迟指令是空操作(NOP)。

4、如权利要求2所述的设备，其中，所述单个指令字储存在程序存储器(50)中。

5、如前述任一权利要求所述的设备，其中，所述指令处理装置(40)被设置用于将预定控制信息添加到所述单个指令字中，所述控制信息表示下述中的至少之一：所述提取的第一个单独指令和至少第二个单独指令到所述相应功能单元(30-1至30-n)的分配；以及所述第一个单独指令和至少第二个单独指令在它们各自功能单元中的顺序。

6、如权利要求5所述的设备，其中，所述控制信息包括作为至少一个相应最高有效比特被添加到所述单个指令字中的至少一个比特。

7、如权利要求5所述的设备，其中，所述指令处理装置(40)被设置用于检查从程序存储器(50)读出的指令字中的所述控制信息，基于所述控制信息重新建立所述第一个指令字和至少第二个指令字，并向指令解码器(44)提供所述重新建立的第一个指令字和至少第二个指令字。

8、如权利要求1所述的设备，其中，所述指令处理装置(40)被设置用于标记出与延迟时隙和分支目标相关联的所有指令字，并且基于所述标记，决定所述第一个单独指令和至少第二个单独指令的提取。

9、如权利要求8所述的设备，其中，所述指令处理装置(40)被设置用于，基于已决定的提取，调整至少一个程序存储器地址。

10、如权利要求1所述的设备，其中，所述并行处理设备是VLIW处理器。

11、一种解压缩指令字的方法，所述指令字包括至少两个单独指令，所述至少两个单独指令用于控制至少两个相应功能单元(30-1至30-n)，所述方法包括步骤：

a)检查添加到所述指令字的控制信息；

b)提取所述至少两个单独指令，并产生至少两个新指令字，其中每个新指令字包括所述提取的单独指令中的一个；以及

c)将至少一个延迟指令添加到所述至少两个新指令字中的每一个中，

d)其中，响应于步骤a)的结果，执行步骤b)和c)。

12、一种压缩指令字的方法，每个指令字包括至少两个单独指令，所述至少两个单独指令用于控制至少两个相应功能单元(30-1至30-n)，所述方法包括步骤：

a)从第一个指令字中提取第一个单独指令；

b)从随后的至少一个第二个指令字中提取至少第二个单独指令；以及

c)根据所述第一个单独指令和第二个单独指令产生新的单个指令字。

13、一种计算机程序产品，包括代码模块，用于当载入计算机系统中时，控制所述计算机系统，以执行如权利要求12或13所述的压缩方法的步骤。