CN1382274A

CN1382274A - 微处理机的延迟时隙控制机构

Info

Publication number: CN1382274A
Application number: CN00813118A
Authority: CN
Inventors: R·布卢姆
Original assignee: Infineon Technologies AG
Current assignee: Intel Germany Holding GmbH
Priority date: 1999-05-26
Filing date: 2000-04-27
Publication date: 2002-11-27
Anticipated expiration: 2020-04-27
Also published as: EP1190308A1; KR100479281B1; KR20020003882A; CN1153131C; WO2000073896A1; JP3639557B2; US6275929B1; JP2003521761A

Abstract

一种由微处理机在运行时间插入动态数量的隐含nop指令的方法。该隐含nop指令是未在该程序本身中置入实际nop指令由该微处理机执行的非操作指令。本发明的方法使得为每个多周期指令的出现自动地计算并执行适当数量的隐含nop指令。以后,词自动地是指没有程序员或高级语言编译程序直接干预而产生的过程。由微处理机通过从所需的延迟时隙的总数减去该IDSI的数量自动地计算隐含nop指令的该适当数量。最好由汇编程序确定该IDSI的数量,然后,使该微处理机可以得到。更好的是,由该汇编程序将这个数量放置在编码指令中的延迟时隙区里,然后由该微处理机从该延迟时隙区中检索。因此,本发明的方法使微处理机能够自动地插入需要数量的隐含nop指令,不需要额外的存储器资源,也不迫使程序员或高级语言编译程序向每个未用延迟时隙中插入nop指令。

Description

微处理机的延迟时隙控制机构

发明的领域和背景

本发明是一种用于将灵活数量的有用指令插入延迟时隙的方法，具体地是用于自动地和动态地确定要插入到执行多周期指令的延迟时隙的附加nop(非操作)指令的数量，实际上不将现行的nop指令置入该程序本身，而同时将有用的指令置入延迟时隙。本发明的方法减少了存储该程序所需的存储器中的空间量，并且由于减少了读取操作的数量而节省了功耗。在取得这些好处的同时仍使这些延迟时隙被使用。

大约在二十五年前引入了微处理机，已迅速扩展到许多不同的技术领域。实时微处理机技术的进步，特别是在通信领域中的发展，促进了诸如蜂窝电话，应答机和声频系统等复杂设备的批量生产。现在正继续地寻找生产这些设备的更有效的方法，以便增加其技术性能，同时减少开发和生产的成本。

微处理机执行机器码指令，它们是从由程序员或码产生器书写的程序码中得到的。在单个时钟周期里执行许多现行微处理机的指令。然而，一些指令需要多于一个的时钟周期来执行，称之为多周期指令。通常的多周期指令包括条件转移指令和其它程序流指令。在多周期指令生效之前经过的时钟周期被浪费了。将这些时钟周期称为延迟时隙。

图1表示背景技术程序的指令序列10，表明了为多周期指令14的三个所需空周期12的插入所浪费的时间。每个空周期12并不产生单周期指令16的执行，只是插入使多周期指令14执行。很清楚，指令序列10代表为了使多周期指令14执行的比较低效的方法。

开发了微处理机的流水线体系结构以便以更大的效率并行执行更多的指令。流水线微处理机能够同时运行多个指令，使得该微处理机在这些空余时隙期间不空闲。可由程序员将其它的指令插入到这些延迟时隙，以便使用以前浪费的为执行多周期指令所需的时间。该微处理机在这些延迟时隙期间单独地读取这些延迟时隙指令，将这些指令装载到管道(pipe)，然后同时执行这些指令。这些插入指令通常与为其原来产生延迟时隙的多周期指令无关。而这些指令执行诸如控制功能，对于随后指令的装入的登记等其它任务。

图2表示由具有根据背景技术的流水线体系结构的微处理机执行的重写的图1的程序。现在该程序的指令序列18以在多周期指令14的周期4，5和6中执行的三个指令20为特征。因此执行图2的程序比执行图1的更有效。

然而，当前该流水线微处理机体系结构具有许多缺点。例如，如果不将有用的指令插入这些延迟时隙，则由多周期指令浪费了保持该程序的时间和空间。如果只是这些，还不是全部，用有用的指令填充延迟时隙，必须用nop(非操作)指令装入当前未用的延迟时隙。Nop指令需要存储空间但却不执行任何有用的功能。因为经常需要这种nop指令，故只是减轻了该延迟时隙问题，但并未解决。因此，在所需的附加存储器空间与浪费的时间量之间有一个折衷选择。

除了浪费时间和存储器空间的问题之外，还必须考虑程序员的需要。该程序员应以有用的指令填充尽可能多的延迟时隙，以便最佳化性能，但发现有用的指令很少是简单的。插入有用的指令到所有的延迟时隙的过程是费时间的，很难作成文献并很难保持。程序员花费大量的时间寻找置入这些时隙中的有用指令。而且，诸如C编译程序的比较高级语言编译程序必定试图利用有用指令填充延迟时隙。即使用最佳算法，这种编译程序也不能使用所有的延迟时隙，从而浪费了存储该程序所需的额外空间。

程序流指令是这种多周期指令的一个例子，并且在通常的通信应用中平均每18个单周期指令出现1个程序流指令。可将这个速率用于计算预期的浪费存储器的量，根据下面的公式1可知一个平均程序流指令产生3个需要的nop指令：

公式1表示例如一个18kb大小的程序浪费了3Kb的存储器，而不包括由其它类型的多周期指令所浪费的存储器。这种存储器浪费减小了相关设备的工作效率，并增加了生产成本。因此，多周期指令产生三种问题，包括浪费时间和程序存储器，并增加了程序员试图使用这些延迟时隙用于指令所需的时间量。

以比较高的速率出现的多周期指令突出了该流水线微处理机体系结构的缺点。现在，在现有技术中可利用两种不同的处理多周期指令的方法。第一种方法不使用任何延迟时隙，从而浪费了时间但却节省了存储器，因为该微处理机可运行不明显包括在该程序中的nop指令。第二种方法需要通过插入现行指令或nop指令而使用的所有延迟时隙。如果nop指令增加则使所需要的存储器空间增加。然而，如果有效地插入了这些现行指令，则使执行该程序所需的时间量减少。

当不要求该程序执行的高性能(对于时间)时选择第一现有技术的方法。该程序执行的高性能，执行该程序所需的时间量换取了存储器节约和程序员编程的容易。设计第二现有技术的方法用于必须有效执行的高性能应用。程序员所关心的是程序的快速有效执行，因此必须将有用的指令插入到所有的延迟时隙。如果使用所有的延迟时隙这是一个可获得性能有效性并因而减少执行该程序所需的时间量的乏味的工作，但是如果通常所用的不是所有的延迟时隙则产生了存储该程序所需的扩展存储量的负担。未能使用所有的延迟时隙使得将nop指令插入到其余未用的所有延迟时隙中。因此，没有一个处理多周期指令的现有技术方法提供所有这三个优点：速度、存储器的经济和有效使用，和编程容易。

因此，通过只将明显有用的指令由程序员或高级语言编译程序插入延迟时隙的更有效的处理延迟时隙的方法，将是需要和有用的，使得在该微处理机的操作期间以基本上自动的方法，将隐含的nop指令插入，来完成剩余延迟时隙的数量，并使得更有效地使用与该微处理机相联系的存储器空间，同时改善了性能并减少了开发时间和成本，同时在保持这些有用指令的附加存储器空间的需要与在程序执行期间由这些隐含nop指令浪费的时间量之间提供了最佳的均衡。

发明的概述

本发明是在运行时间由微处理机插入动态数据的隐含nop指令的方法。该隐含nop指令是由微处理机执行的非操作指令，在该程序本身中不放置现行的nop指令。本发明的方法使得能自动地计算适当数量的nop指令，并在每当多周期指令出现时执行。以后，词“自动”是指没有程序员或代码产生器的直接干预而产生的过程。由微处理机通过从需要的延迟时隙的总数减去插入的延迟时隙指令(IDSI)的数量，来自动地计算适当数据的隐含nop指令。

本发明的方法具有优点：减少了存储该程序所需的存储器空间的数量；因为减少了读取操作而节省了功耗。而且，本发明在为保持这些指令的附加存储器空间的需求与在程序执行中浪费的时间量之间，以及在nop指令的插入与程序员插入有用的延迟时隙指令所需的附加时间之间，提供了最佳的均衡。最好由汇编程序计算该插入延迟时隙指令的数量，则该微处理机是可以做的。更好的是，由该汇编程序将这个数量置入延迟时隙区。然后由微处理机从该延迟时隙区中检索。因此，与图1的现有技术相比，本发明的方法使微处理机能够自动地插入所需数量的隐含nop指令，填充该多周期指令实施所需的周期，不需要额外的存储器资源，不强迫程序员或代码产生器(比如高级语言编译程序)插入nop指令到每个未用的延迟时隙中。在它们不是nop指令，隐含的或其它的意义上对于该多周期指令的插入延迟时隙指令是有用指令。

根据本发明，提供一种在多个指令的执行期间由微处理机自动地插入所需数量的nop指令的方法，该多个指令包括至少一个多周期指令，对于该至少一个多周期指令所需的延迟时隙的总数，该方法包括步骤：(a)确定与该至少一个多周期指令相关的插入延迟时隙指令(IDSI)的数量；(b)由微处理机通过从该延迟时隙的总数减去该IDSI的数量来计算所需的nop指令的数量；(c)由该微处理机执行该所需数量的nop指令。

最好，该至少一个多周期指令所需的延迟时隙的总数依赖于硬件。而且最好该方法还包括步骤：提供一个汇编程序，用于接收该多个指令并用于准备由该微处理机执行的该多个指令，在执行步骤(a)之前执行提供该汇编程序的步骤，其中步骤(a)还包括步骤：(I)在该至少一个多周期指令中提供一个延迟时隙区；(II)由汇编程序将该数量的IDSI放置在该延迟时隙区中；和(III)由该微处理机从该延迟时隙区检索该数量的IDSI。

根据本发明的另一实施方案，提供一种在多指令执行期间由微处理机自动地插入需要数量的nop指令的方法，该多个指令包括至少一个多周期指令，该方法包括步骤：(a)提供一种汇编程序，用于接收该多个指令；(b)向该微处理机提供该至少一个多周期指令所需的延迟时时隙的总数；(c)由该汇编程序确定与该至少一个多周期指令相关的IDSI的数量；(d)将该数量的IDSI传送给该微处理机；(e)由该微处理机通过从该延迟时隙的总数减去该数量的IDSI来计算所需的nop指令的数量；和(f)由该微处理机执行这些所需数量的nop指令。此后，词“高级语言编译程序”是指编程语言的编译程序，例如C或C++，它比汇编编程语言更高级。

附图简述

从下面参考附图的本发明最佳实施方案的详细描述将会更好地了解其上述和其它目的，方面和优点，其中：

图1是用于处理多周期指令的第一现有技术方法的示意框图，没有延迟时隙；

图2是用于处理多周期指令的第二现有技术方法的示意框图，具有延迟时隙；

图3是说明根据本发明的有效延迟时隙使用的方法的示意框图；

图4是通过与图2所示的类似结构(尽管未使用所有的延迟时隙)执行图3的指令的较少有效的现有技术方法的示意框图；和

图5A是根据本发明插入nop延迟时隙的示例方法的流程图；

图5B是根据图5A中所示的方法构成的示例性程序的部分的表示。

参考附图及其描述可更好地理解根据本发明的有效延迟时隙使用的方法的原理和操作，应知道，这些图只用于说明的目的而不是对本发明的限定。

现在参考附图，是表示根据本发明的有效延迟时隙使用的方法的示意框图。如图所示，所示的指令序列22至少代表程序的一部分，以多周期指令24为特征。指令序列22的特征在于只有一个插入的延迟时隙指令(IDSI)26，在多周期指令24的延迟时隙期间执行它。用动态数量的隐含nop指令来填充其余的延迟时隙。隐含nop指令是未置入该程序中的nop指令，使得未用的这些延迟时隙不需要将nop指令插入到存储器中。该隐含nop指令的数量动态地变化为等于该未用延迟时隙的数量。因此，程序员或高级语言编译程序用IDSI或nop指令不完全填充所有的延迟时隙。

插入动态数量的隐含nop指令的优点包括能够只插入与要求一样多的有用延迟时隙，从而在减少程序的所需存储器数量的同时减少了浪费的周期。另外，程序员能够更快更有效地编程和调试这些指令，因为只是利用有用的延迟时隙指令部分地使用了延迟时隙，从而减少了开发时间量开发特定产品所需的工时。

相比之下，执行这种多周期指令的当前现有技术方法是明显的低效。例如，图4是表示图3指令的根据现有技术的示意框图，而不实施本发明的方法。如图所示，所示的指令序列28的特征也在于多周期指令24和一个延迟时隙指令26。然而，为了填充多周期指令24的预定数量的延迟时隙，该现有技术方法需要插入两个nop指令30，从而浪费了两个延迟时隙。因此，很明显图4的现有技术方法与本发明的方法相比是低效的。

图5A是表示通过微处理机操作的本发明方法的一例的流程图。为了使该微处理机执行多周期指令，则对于每个延迟时隙该微处理机必须插入延迟时隙指令或nop指令。对于本发明，这些nop指令是根据图5A中所示的方法确定的动态确定数量的隐含nop指令。

简而言之，如步骤1中所示，对于该微处理机可得到多周期指令所需延迟时隙的总数量(TOS)。该所需延迟时隙的总数量是依赖于硬件的。在步骤2，该汇编程序确定对于该多周期指令的插入延迟时隙指令(IDSI)的数量。在它们不是nop指令，隐含的或其它的意义上，这些是有用的指令。当多周期指令执行时，隐含nop指令的目的是填充IDSI未使用的时间。

最好，该汇编程序通过对该多周期指令的每个插入的有用延迟时隙指令进行计数未确定插入的延迟时隙指令的数量(该IDSI数量)。

在步骤3，最好该汇编程序将该IDSI数量(使用的延迟时隙的数量)置入该编码多周期指令的延迟时隙区中。该指令的延迟时隙区是优选的用于存储该IDSI数量的附加区，通常(尽管不是必须的)是2-3比特长。

在步骤4，由该汇编程序将该对于该多周期指令的IDSI数量给到该微处理机。最好，该微处理机通过在运行期间检查该编码指令的延迟时隙区获取该IDSI数量以计算所需的隐含nop指令的数量(该UUDS数量，即未用延迟时隙的数量)。

在步骤5，该微处理机通过从该TDS数量(所需的延迟时隙的总数)减去该IDSI数量(插入的延迟时隙指令的数量)来计算该UUDS数量，如公式2所示：UUDS＝TDS-IDSI。

在步骤6，该微处理机在该多周期指令的执行期间插入所需数量的隐含nop指令。

现在对于图5B描述图5A方法操作的例子。图5B表示具有主程序34和子程序36的程序32的一部分。同时示出多个单时隙指令38。示出了调用指令40，它用名称Routine-name调用子程序36(第2程序)。通过返回指令42终止子程序36的操作。例如调用指令40，它在转移之前存储当前环境，以调用指令40生效之前需要四个时钟周期。调用指令40的代码需要一个周期，三个延迟时隙需要三个时钟周期。在主程序34恢复控制之前，返回指令42必须还原该环境，需要例如六个时钟周期。该返回指令42的代码需要一个时钟周期，五个延迟时隙需要五个时钟周期。因此，调用指令40和返回指令42都是多周期指令。

为了计算对于调用指令40和返回指令42的操作所需的隐含nop指令的数量，该微处理机应知道对于每个多周期指令的出现插入延迟时隙的延迟时隙指令的数量。正如对于图5A所描述的，该微处理机从该编码指令的延迟时隙区检索这个数量。

在这个例子中，在该三个所需的延迟时隙之外，由程序员为调用指令40插入了单个的有用延迟时隙指令(IDSI)44。在该五个所需延迟时隙之外为返回指令42插入了两个有用的延迟时隙指令44。

在编译程序32的该过程中，该汇编程序对为调用指令40插入的延迟时隙指令44的数量进行计数，在此例中例如为数量1。因此，该汇编程序将数量1装入调用指令40的该延迟时隙区。将这个信息装入存储器，用于在执行期间与该微处理机通信。因为需要三个延迟时隙，该微处理机执行两个隐含nop指令，如对于图5A所述的。

同样，该汇编程序还对为返回指令42插入的延迟时隙指令44的数量进行计数，在这个例子中是数量2。因此，该汇编程序将该数量2装入返回指令42的延迟时隙区。因为需要五个延迟时隙，该微处理机执行三个隐含的nop指令，也如对于图5A所述的。

因此，本发明的用于延迟时隙控制机构的方法具有如下的优点。第一本发明的方法使该程序的性能与该程序所需的存储器空间的量之间的折衷最佳化。而本发明提供了在保持这些有用指令的附加存储器空间的需要与在程序执行期间所浪费的时间量之间的最佳均衡，以及在nop指令的插入与程序员插入有用延迟时隙指令所需的附加时间之间的最佳均衡。

第二，本发明的方法避免了要求程序员，高级语言编译程序或其它自动机器语言代码编程工具为不包含有用延迟时隙指令的每个延g迟时隙插入nop指令的损失，使程序员能够只将该程序需要的有用延迟时隙指令插入。因此，在避免用IDSI不填充所有延迟时隙的损失与仍得到使用至少一部分IDSI可用的延迟时隙的好处之间保持均衡。

应理解，上面的描述只是作为例子，在本发明的精神和范围内可有许多其它的实施方案。

Claims

1.一种在多个指令的执行期间由微处理机自动地插入所需数量的nop(非操作)指令的方法，该多个指令包括至少一个多周期指令，该至少一个多周期指令所需的延迟时隙的总数量，该方法包括步骤：

(a)确定与该至少一个多周期指令相关的插入延迟时隙指令(IDSI)的数量；

(b)由该微处理机通过从该延迟时隙的总数减去所述的IDSI的数量来计算该所需的nop指令的数量；

(c)由该微处理机执行这些所需数量的nop指令。

2.根据权利要求1的方法，该至少一个多周期指令所需的延迟时隙的总数是依赖于硬件的。

3.根据权利要求1的方法，还包括步骤：提供汇编程序，用于接收该多个指令和准备由该微处理机执行的该多个指令；提供在所述步骤(a)执行之前执行的所述汇编程序，其中步骤(a)还包括步骤：

(i)由所述汇编程序对所述数量的IDSI进行计数；和

(ii)传送所述数量的IDSI给该微处理机。

4.根据权利要求3的方法，其中将所述数量的IDSI传送给该微处理机的步骤还包括步骤：

(I)在该至少一个多周期指令中提供延迟时隙区；

(II)由所述汇编程序将所述数量的IDSI置入所述的延迟时隙区；和

(III)由该微处理机从所述延迟时隙区检索所述数量的IDSI。

5.一种在多个指令执行期间由微处理机自动地插入需要数量的nop指令的方法，该多个指令包括至少一个多周期指令，该方法包括步骤：

(a)提供一种汇编程序，用于接收该多个指令；

(b)向该微处理机提供该至少一个多周期指令所要求的延迟时隙的总数；

(c)由所述汇编程序确定与该至少一个多周期指令相关的IDSI的数量；

(d)传送所述数量的IDSI给该微处理机；

(e)由该微处理机通过从所述延迟时隙的总数减去所述IDSI的数量来计算所需的nop指令的数量；和

(f)由该微处理机执行该所需数量的nop指令。

6.根据权利要求5的方法，其中该至少一个多周期指令所需的延迟时隙的总数是依赖于硬件的。

7.根据权利要求5的方法，其中步骤(a)还包括步骤：

(i)由所述的汇编程序对所述数量的IDSI进行计数。

8.根据权利要求7的方法，其中将所述数量的IDSI传送给该微处理器的步骤还包括步骤：

(i)在该至少一个多周期指令中提供延迟时隙区；

(ii)由所述汇编程序将所述数量的IDSI置入所述延迟时隙区；和

(iii)由该微处理机从所述的延迟时隙区检索所述数量的IDSI。