JPH08507889A

JPH08507889A - スーパースカラマイクロプロセッサ用のプログラムから並行的に処理可能な命令グループを機械的に生成する方法

Info

Publication number: JPH08507889A
Application number: JP6520497A
Authority: JP
Inventors: イェルクシェーパース，
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1993-03-15
Filing date: 1994-03-01
Publication date: 1996-08-20
Also published as: WO1994022079A1; DE59401478D1; EP0689694B1; EP0689694A1; US5712996A

Abstract

(57)【要約】スーパースカラプロセッサ上でプログラムの高速処理を実行できるようにするためには、当該プログラムの個々の命令を、プロセッサの各処理ユニットにより処理可能な命令グループへ、各命令を並列処理できるように分割する必要がある。この場合、データならびに制御流れの依存関係やパイプラインコンフリクトを考慮しなければならない。この目的でまずはじめに、すでに処理済みの先行命令を有する命令が選ばれ、当該命令は、その実行前に最小数の遅延サイクルしか必要ないか否かについて調べられ、最小数の命令がリストに記憶される。それらの命令のうち、ヒューリスティックな選択プロセスにしたがって１つの命令が選出され、その命令は、それをできるかぎり早い実行サイクルで実行できるような１つの命令グループへ分類される。

Description

【発明の詳細な説明】スーパースカラマイクロプロセッサ用のプログラムから並行的に処理可能な命令グループを機械的に生成する方法プロセッサイクロプロセッサは少なくとも、機械語命令を並列に実行可能な複数の機能ユニット−以下では処理ユニットと称する−により構成されている。この特性はスーパースカラと呼ばれる。すべての処理ユニットを十分に活用するためには、スーパースカラプロセッサは１つのクロックサイクル内で複数の命令を実行用グループとして供給しなければならない。しかし処理ユニットは一般に、たとえばロード／ストア命令または浮動小数点命令のような所定の形式の機械語命令しか実行できないので、命令を与える際にすでに、１つのグループのすべての命令が対応する処理ユニット上でも実行可能であるということを留意しなければならない。しかも命令をグループ化するにあたって、プログラムのヤマンティクスを満たせるよう、各命令間のデータおよび制御流れの依存関係を考慮しなければならない。さらに、個々の処理ユニットごとにできるかぎり高いスループットを達成するために、各処理ユニットにおけるパイプラインコンフリクトを最小化することが重要である。このように命令のグループ化は、スーパースカラマイクロプロセッサの効果的な性能のために重要な役割を果たす。この場合、できるかぎり多くの命令を並列に実行できるように各命令を１つの命令シーケンス内に配置することが重要である。この目的ですでに多くのアプローチが開発され公開されており、それらはスタティックなスケジューリングプロセスとダイナミックなスケジューリングプロセスとに分類できる。ダイナミックなスケジューリングプロセスの場合、各命令は実行中にグループ化され直される。このことはたいてい、たとえば”スコアボード”または”リザベーションテーブル”のような専用のハードウェアを用いて行われる。対応する技術は殊に、Tomasulo，R.M．An Efficlent Algorilthm for Exploring Multipl eArlthmetic Units，IBM Journal of Research and Development，１９６７年１月刊、第２５頁〜第３３頁に記載されている。これによれば部分的に著しい付加的なハードウェアコストが必要とされ、たいていの場合、あらかじめ固定的に規定された個数の命令（命令窓）しか処理しない。スタティックなスケジューリングプロセスによればすでにコンパイル時に、パイプラインコンフリクトが最小化されておりできるだけ多くの命令を並列に実行可能な命令シーケンスが生成されるようにしている。このための種々のアルゴリズムは、殊に命令パイプラインを備えたプロセッサのために、およびマイクロプログラミングの分野で、ならびにＶＬＩＷアーキテクチャのために開発されてきた。たとえばKrishnamurth y，S.M.，A Brlef Survey of Papers on Scheduling for Pipelined Processors ；SIGPLAN Notlces，Vol．25，No.7，1990，p.97-106，には、スーパーパイプラインアーキテクチャのためのアルゴリズムに関する概観が示されている。それらのアルゴリズムによって、できるかぎり僅かなパイプラインコンフリクトしかない命令シーケンスがヒューリスティックに生成されるが、この場合にはたいてい、データ依存性のない命令間のコンフリクトは考慮対象外となる。スーパースカラプロセッサにおいて生じるような命令グループ化の問題点は、ＶＬＩＷアーキテクチャ用のコードを生成するアルゴリズムにおいて定式化の形で取り扱われる。殊にこの場合、トレースまたはパーコレーションスケジューリングのように、基本ブロックの境界を超えて命令の位置をずらすことのできるグローバルなスケジューリングプロセスが使われる（たとえばFisher，J.A.，Trac e Scheduling：A Technique for Global Mlcrocode Compaction，IEEE Trans．o n Comp.，１９８１年７月刊、第４７８頁〜第４９０頁参照）。しかしながらスーパースカラアーキテクチャとは異なり、ＶＬＩＷアーキテクチャの場合にはすでにスタティックに長い命令語を生成しなければならない。つまり、個々の命令はすでにコンパイル時に種々異なる処理ユニットに割り当てられ、１つの命令語の命令は同期して実行される。これに関してスーパースカラアーキテクチャによれば、ランタイムになってはじめて最終的に命令のグループ化が行われ、１つのグループのすべての命令が同期しては実行されないため、より多くのフリースペースが与えられる。本発明の課題は、スーパースカラプロセッサに対しても１つのプログラムから並列処理可能な命令グループを生成し、その際に付加的な遅延サイクルを伴うことなく１つの命令グループのすべての命令を実行できるようにした新たな方法を提供することにある。上記のような遅延サイクルは、グループ化の行われないプログラムにおいて、各命令間にデータ依存性が存在することにより引き起こされる可能性があり、つまりデータに依存する後続の命令が実行可能になる前に１つの命令が実行されなければならず、ないしはパイプライン構造においてパイプラインコンフリクトが存在することにより引き起こされる可能性があり、これによりいわゆるインタロックサイクルが生じる。上記の課題は、請求項１の特徴部分に記載の方法により解決される。請求項２には、とりわけ有利な命令グループ生成方法が示されている。このように本発明による方法によればダイナミックなスケジューリングプロセスを行う必要がなく、したがって付加的なハードウェアは不要である。命令グループへの命令の分類はむしろすでにコンパイル時に行われ、つまり命令処理が実行される前に行われる。次に、実施例に基づき本発明を詳細に説明する。このプロセスは、Gibbons，P.B.，Muchnick，S.S.，Efficient Instruction S cheduling for a Pipelined Architecture，Proc．86，Sigplan Notices，Vol.2 1，No.7，第１１頁〜１６頁に記載されているスケジューリングプロセスをもとにしている。説明のため、以下に示すアセンブラコードで書かれたプログラムセクションを用いる。個々の命令については、各命令の横に示した説明により容易に理解できるものである。たとえば命令１は、１つのワードをレジスタｒ３へロードし、しかもこれをレジスタｒ４中にあるアドレスのメモリロケーションからロードせよ、ということを意味する。２番目の命令では、レジスタｒ３の内容に１が加算されその結果がレジスタｒ３に記憶されることになる。命令３は、レジスタｒ４中のデータを１つの位置だけ左へシフトせよ、ということを表す。命令４は減算命令であり、レジスタｒ３の内容からレジスタｒ４の内容が減算され、その結果がレジスタｒ３に記憶されることになる。命令１〜４はいわゆる整数命令である。これに対し、命令５〜９は浮動小数点命令である。命令５は、レジスタｒ５中にあるアドレスを有する浮動小数点数を浮動小数点レジスタｆ２へロードせよ、ということを表す。命令６により、浮動小数点レジスタｆ１の内容が浮動小数点レジスタｆ２の内容と加算され、その結果が浮動小数点レジスタｆ１に記憶される。命令７において、浮動小数点数の絶対値が形成され、しかもこの場合にはレジスタｆ２中にある数値の絶対値が形成され、その結果が浮動小数点レジスタｆ３に記憶される。浮動小数点レジスタｆ３の内容はレジスタｒ５中にあるアドレスでメモリに記憶され、最後に命令９において、レジスタｒ３の内容がゼロよりも大きければ、アドレスＬ１へのジャンプが行われる分岐命令が実行される。第１図による図式化により個々の命令のデータ依存性が示されており、ここでは並列処理に際して生じる問題点がいっそう良好に示されている。この図はノードとエッジにより構成されており、その際、各エッジにはそれぞれ１つの遅延サイクルテーブルＶ−Ｔａｂが配置されている。このテーブルは、順次連続する２つの命令の間で１つの遅延サイクルが必要とされるか否かを表している。最初の数値は、命令シーケンス内で明示的なノーオペレーション（noop）命令により確保されなければならない遅延サイクルを表し、２番目の数値は、パイプラインコンフリクトにより引き起こされる遅延サイクルの個数を表し、これはプログラム中ではs-noop命令を用いてシンボリックに表されるものである。たとえば整数命令の場合、命令１の直後に命令２が実行されるときには１つの遅延サイクルが必要とされる。これに対し命令３は命令２とは無関係であるので、それらの命令は並列に実行可能である。しかし、これはデータ依存性ゆえに命令１の後でしか実行できない。それというのは、そのようにしないとレジスタｒ４中のメモリアドレスは誤ったものになるからである。相応のことは、ダイアグラムの右側に示されている浮動小数点命令についてもあてはまる。この場合、Ｖ−Ｔａｂには最初の位置にデータ依存性に起因する遅延サイクルが示されており、２番目の位置にはパイプラインコンフリクトに起因して生じる遅延サイクルが示されている。このことはたとえば、命令７”abs s”の実行後、２つの別のクロックサイクルが経過してはじめて、付加的な遅延サイクルを伴わずに命令８”s.s”を実行できることを意味する。さらに第１図には、命令”add.s”と”abs.s”との間の依存性が示されている。たとえば”add.s”は、同じ処理ユニットによっては、”abs.s”の実行後、３つの遅延サイクルを経てはじめて実行することができる。これとは逆に”abs.s ”は”add.s”の実行後、２つの遅延サイクルを経てはじめて実行できる。それぞれ異なるユニットにおいて処理するならば、これらの依存性は存在しない。本発明による方法を詳細に説明する前に、この方法で用いられるいくつかの用語について定義しておく必要がある。１．ブロッキングポジションＬ；これは、１つの命令により直後に続く命令のうちの１つに対し少なくとも１つの遅延サイクルが引き起こされるときにセットされる。２．後続命令数；この数値は、データに依存する後続命令が１つの命令にいくつ続くかを表す。１つの命令のもつ後続命令の個数が増えれば増えるほど、当該命令を命令グループに分類する際にその優先度が高くなる。３．距離値；これは、ダイアグラム中、注目している命令と直前の命令との間のクロックサイクルにおける最大の隔たりを表す。この場合、遅延サイクルも考慮しなければならない。ここで、ｄ（ｎ，ｎ′）が１つの命令ｎとじかにデータに依存する１つの後続命令ｎ′との間の最大遅延サイクル数であり、ｈ（ｎ′）がｎ′の距離値であるとすれば、ｎの距離値は、後続命令数が０であればｈ（ｎ）：＝０であり、あるいはｈ（ｎ）＝ｈ（ｎ′）＋ｄ（ｎ，ｎ′）＋１であり、この場合、直後の後続命令ｎ′が複数であれば最大値をとる。これらの値は値テーブルＷ−Ｔａｂに挿入されており、明瞭にするためそれらは第１図のダイアグラムの個々のノードのところに示されている。左側から出発して最初の位置にブロッキングポジションＬが示されており、次の位置には後続命令数が、さらに３番目の位置には距離値が示されている。たとえば、命令１” lw”では、１つの遅延サイクルが続くのでブロッキングポジションＬがセットされている。この場合、データに依存する２つの命令がじかに続くので後続命令数は２である。そして、１番目の命令と命令９との距離値は４である。その他のノードに対応づけられた値テーブルについても相応に解釈できる。次に、第１図によるダイアグラムを参照しテーブル１とテーブル２を用いながら本発明による方法を詳細に説明する。テーブル１には、プログラムセクションの個々の命令がどのように順次連続して扱われるかが示されており、次にそれらはテーブル２によって、スーパースカラプロセッサの各処理ユニットにより並列に実行可能な複数の命令グループにまとめられる。その際にここでは実例として、スーパースカラプロセッサは３つの命令の長さのデータワードをロードできるものとする。プログラムセクションの調査は常に、第１図によるダイアグラム中の最初の命令を用いて行われる。それらの命令は、データ依存性を有するような先行する命令を有していない。次に、それらの命令に後続する命令の調査が行われ、この場合、どの命令グループに１つの命令を分類すべきかが常に調べられる。つまり、必要とされる遅延サイクル数が最小化されるよう、各命令を命令グループに分類することを目標としている。この目標は以下のステップにより達成される：第１ステップにおいて各命令ごとにブロッキングポジション、後続命令数、距離値が算出され、値テーブルＷ−Ｔａｂに記憶される。遅延サイクルはＶ−Ｔａｂ中にある。第２ステップにおいて、すべての命令がマークされていないようにする。第３ステップにおいて第１リストＣＳが形成され、このリスト中にはマークされていない先行命令を有していない命令が収容される。第４ステップにおいて第１リストＣＳが空であるか否かがチェックされ、第１リストが空であればこのプロセスは終了する。第５ステップにおいて、最小数の遅延サイクル後に実行可能であるマークされていない命令が第１リストから求められ、それらの命令から第２リストＲＳが形成される。第６ステップにおいて、第２リスト中に含まれている命令のうち１つの命令がヒューリスティックな選択プロセスにしたがって選び出され、命令グループへ分類するために用意される。第７ステップにおいて、選び出された命令が１つのコンポーネントにおける複数の命令グループのうちの１つに挿入される。この目的でまずはじめに、ステップ６において選択された命令を実行可能なできるかぎり早いサイクルが決定される。その後、当該クロックサイクル中で、またはできるかぎり早くこのクロックサイクル後に実行される命令グループが選択される。この命令グループ中には、場合によっては既存の、プロセッサのアーキテクチャに基づくグループ化制限を考慮して、命令を配置させることができる。配置された最後の命令の前の命令グループ内の空の位置はs-noop命令で満たす必要がある。ステップ８において、挿入された命令がマークされリストＣＳから除かれる。そしてこのプロセスはステップ３から続けられる。ヒューリスティックな選択プロセス（ステップ６）は、たとえば以下のようにして行える： −まずはじめに、第２リストＲＳ中でブロッキングポジションＬのセットされている命令を選び出す。このような命令が１つしかなければ、その命令が選び出される。このような命令が複数あれば、あるいはブロッキングポジションのセットされた命令がなければ、以下の手順が続く： −最大距離値を有する命令が第２リストから選び出される。最大距離値を有する命令が複数ある場合には、それらのうち最大の後続命令数を有する命令が選び出される。 −複数の等価の命令が求められたときには常に、それらの命令のうちの１つを任意に選んで、ステップ７に応じて命令グループに挿入できる。もちろん、ステップ６によるヒューリスティックな選択プロセスをこれとは異なるやり方で行うこともでき、たとえば上述の個々のステップを互いに取り替えることもできるが、それにより解法が劣化する場合もある。テーブル１のうち１列目には第１リストがＣＳとして示されており、次に第２リストがＲＳとして、さらに３列目にはどの命令が選択されたかが示されている。テーブル２には、プロセス後に生じた個々の命令グループＢＧが示されている。１列目には命令グループの実行される処理サイクルが示されており、２列目には命令グループＢＧの第１コンポーネントＫＰＩが、３列目には命令グループＢＧの第２コンポーネントが、さらに４列目には命令グループＢＧの第３コンポーネントＫＰ３が示されている。個々の命令グループ内には遅延サイクルがs-noop で示されている。最初、両方のテーブル１，２は空である。この場合、ステップ１と２がすでに実行されたものとする。したがってこのプロセスのステップ３から始められる。まずはじめに、マークされていない先行命令を有していないノードないし命令がサーチされる。第１図によればこれは命令”lw”と命令”l.s”である。これら両命令は、テーブル１における列ＣＳの１行目にエントリされる。次にステップ５において、これら両命令のうちいずれが最小数の遅延サイクルしか必要としないかが調べられる。この場合、これら両方の命令は付加的な遅延サイクルを伴わずに実行でき、これに応じてこれらの命令は列ＲＳに挿入される。ステップ６により、これら両方の命令のうち一方が選ばれる。これらの命令は両方ともセットされたブロッキングポジションを有しているので、最大距離値を有する命令が選択され、この場合、それは命令”l.s”である。そしてこの命令はテーブル２において１つの命令グループ中に挿入される。命令グループへの挿入はできるかぎり早い実行サイクルで行われるという取り決めのもとに、たとえば最も左側にある許容し得る列（コンポーネント）において行われるという取り決めのもとに、当該命令はコンポーネントＫＰＩのサイクル１における命令グループに配属される。命令”l.s”はマークされ、このプロセスのステップ３から再び始められる。ステップ３により、マークされていない直前の先行命令を有していない命令が選び出される。この場合にはそれは、”lw”のほかに命令”add.s”と”abs.s” もあてはまる。これらは列ＣＳに挿入される。次にステップ５において、それらの命令のうちのいずれが最小数の遅延サイクル後に処理できるかが調べられ、それが列ＲＳ中へ挿入される。この場合、ＲＳには命令”lw”しか含まれておらず、したがってこの命令が選択され、同様にステップ７に応じて第１サイクル中、２番目の位置ＫＰ２のところに挿入される。さらにここで、３つのめのオペレーションについても説明しなければならない。この場合もステップ３で始められ、どの付加的な命令がマークされていない先行命令を有していないかが調べられる。この場合、それは命令”add”と”sl” である。ＣＳ中のすべての命令に対しステップ５が実施され、いずれの命令が最小数の遅延サイクル後に処理されるかが決定される。この場合、それは命令”sl”，”add.s”および”abs .s”であり、次にそれらは２列目ＲＳに挿入される。そして、列ＲＳ中に含まれているこれら３つの命令に対しステップ６が実行される。これらの命令のうち命令”abs.s”と”add.s”だけにセットされたブロッキングポジションが設けられているので、最大距離値を有する方の命令（”abs.s”）が選ばれる。次に、この命令をテーブル中の命令グループに挿入する必要がある。この場合、”abs.s ”が”I.s”の後、１つの遅延サイクルを経てはじめて実行可能であることを考慮する必要がある。したがってこの命令はステップ７に応じてサイクル３中に挿入される。このプロセスの説明を締めくくるにあたって、４つめのオペレーションについて述べる。ステップ８による命令”abs.s”のマーク後、ステップ３において命令”s.s”が列ＣＳに挿入される。この列中にはさらに、命令”add”，”sl”および”add.s”も存在している。”add.s”は”abs.s”の後、早くとも２つの遅延サイクルを経てから実行できるので、命令”add”と”sl”だけが遅延サイクルを伴わずに実行可能である。”add”と”sl”のうち、ステップ６にしたがって１つの命令が選ばれる。この場合、両方の命令はＷ−Ｔａｂにおいて同じエントリを有するので、一方を任意に選ぶことができ、たとえば”sl”を選択できる。次に、命令”sl”を各命令グループのうちの１つに挿入する必要がある。ここでわかるのは、命令” sl”は命令”lw”の実行直後に実行できることであり、したがってこの命令を第２サイクル中に配置できる。このためステップ７により、この命令は第２命令グループＢＧ２の第１コンポーネントＫＰＩに配属される。そして命令”sl”はマークされ、次にプロセスのステップ３からさらに再びこの手順が続けられる。このことは、テーブル１の列１にもはやいかなる命令も含まれなくなるまで行われる。そしてその結果として、テーブル２による命令シーケンスＢＧ１〜ＢＧ６が得られる。なお、ステップ６により複数の等価の命令が生じた場合には常に、それらの命令のうちの１つを任意に選ぶことができ、その結果として１つの命令グループ中に含まれる命令はこの選択にしたがってそれぞれ異なり得ることを指摘しおく。各命令グループＢＧ中、これまで占有されなかった位置はsnoop命令で補うことができる。テーブル２のプログラムアレイに示されているように、２つの処理ユニットだけで浮動小数点命令を処理することができる。テーブル２による図式化により、１つのプログラムから２次元表現が展開されることが示されている。このことでスーパースカラプロセッサは、各サイクルごとに１つの命令をフェッチできるだけでなく、コンフリクトが発生することなくすべてを並列に実行可能な複数の命令から成る１つのグループをフェッチできる。そして、最大数の命令を並列処理可能にするというスーパースカラプロセッサ用のコード生成の目的が達成されるのである。したがってスーパースカラプロセッサにより要求されるのは命令シーケンスではなく、複数の命令グループから成るシーケンスである。このことはテーブル２にきわめてよく示されている。プログラムアレイ中のコンポーネントの数は、プロセッサに同時にロード可能な命令の個数に依存する。さらに言及しておくと、snoop命令の挿入は説明のために必要であっただけである。コード生成のためには、アレイの各行が順次連続して配置され、たとえば左から右へ配置され、snoop命令は削除される。

【手続補正書】特許法第１８４条の８【提出日】１９９５年３月１４日【補正内容】請求の範囲１．スーパースカラプロセッサ用のプログラムから並行的に処理可能な命令グループを機械的に生成する方法において、ａ）プログラムの各命令ごとに１つの値テーブル（Ｗ−Ｔａｂ）には、直接的なデータ依存性のある１つの命令の実行前に１つの遅延サイクルを挿入すべき場合にはブロッキングポジションがセットされ、直後に続くデータ依存性のある命令の個数を表す後続数が挿入されデータ依存性のある複数の命令のうち最後の命令に至るまでの最大クロックサイクル数を表す距離値がエントリされ、ｂ）各命令ごとに１つの遅延サイクルテーブル（Ｖ−Ｔａｂ）内で、各命令の間にいくつの遅延サイクルが存在するかの情報が表されており、ｃ）複数の命令の各々は以下のステップで命令グループに分類され、すなわち、 aa）まずはじめにすべての命令がマークされずにセットされ、 ab）データ依存性のあるマークされていない先行の命令をもたないすべての命令が第１リスト（ＣＳ）に記憶され、 ad）最小数の遅延サイクル後に実行可能な命令が前記第１リスト（ＣＳ）から選出され、当該命令は第２リスト（ＲＳ）へ記憶され、 ae）ヒューリスティックな選択プロセスにより１つの命令が選出され、 af）選出された各命令は、できるかぎり早い実行サイクルをもつ命令グループに当該命令が配属されるよう、複数のコンポーネントから成る１つの命令グループへ分類され、かつ当該命令は所定の順序にしたがって複数のコンポーネントのうちの１つに分類され、 ag）分類された命令はマークされ、 ah）プログラムのすべての命令が処理されてしまうまでステップab）〜ag）が実行される、ことを特徴とする、スーパースカラプロセッサ用のプログラムから並行的に処理可能な命令グループを機械的に生成する方法。２．前記のヒューリスティックなプロセスは、前記第２リスト（ＲＳ）から、ブロッキングポジションのセットされている命令が選択され、セットされたブロッキングポジションがなければ最大距離値と最大後続数を有する命令が選択され、求められた命令が複数であれば当該命令のうちの１つが選択されるようにして行われる、請求項１記載の方法。３．各命令グループごとのコンポーネントの個数は、プロセッサが同時にロード可能な命令数に相応する、請求項１または２記載の方法。

Claims

【特許請求の範囲】１．スーパースカラプロセッサ用のプログラムから並行的に処理可能な命令グループを機械的に生成する方法において、ａ）プログラムの各命令ごとに１つの値テーブル（Ｗ−Ｔａｂ）には、直接的なデータ依存性のある１つの命令の実行前に１つの遅延サイクルを挿入すべき場合にはブロッキングポジションがセットされ、直後に続くデータ依存性のある命令の個数を表す後続数が挿入されデータ依存性のある複数の命令のうち最後の命令に至るまでの最大クロックサイクル数を表す距離値がエントリされ、ｂ）各命令ごとに１つの遅延サイクルテーブル（Ｖ−Ｔａｂ）内で、各命令の間にいくつの遅延サイクルが存在するかの情報が表されており、ｃ）複数の命令の各々はそのブロッキングボジション、後続数および遅延サイクルテーブルの内容ならびにその距離値に依存して、命令グループに分類されることを特徴とする、スーパースカラプロセッサ用のプログラムから並行的に処理可能な命令グループを機械的に生成する方法。２．ａ）はじめはすべての命令がマークされておらず、ｂ）データ依存性のあるマークされていない先行の命令をもたないすべての命令が第１リスト（ＣＳ）に記憶され、ｃ）最小数の遅延サイクル後に実行可能な命令が前記第１リスト（ＣＳ）から選出され、当該命令は第２リスト（ＲＳ）へ記憶され、ｄ）ヒューリスティックな選択プロセスにより１つの命令が選出され、ｅ）選出された各命令は、できるかぎり早い実行サイクルをもつ命令グループに当該命令が配属されるよう、複数のコンポーネントから成る１つの命令グループへ分類され、かつ当該命令は所定の順序にしたがって複数のコンポーネントのうちの１つに分類され、ｆ）分類された命令はマークされ、ｇ）プログラムのすべての命令が処理されてしまうまでステップａ）〜ｆ）が実行される、請求項１記載の方法。３．前記のヒューリスティックなプロセスは、前記第２リスト（ＲＳ）から、ブロッキングポジションのセットされている命令が選択され、セットされたブロッキングポジションがなければ最大距離値と最大後続数を有する命令が選択され、求められた命令が複数であれば当該命令のうちの１つが選択されるようにして行われる、請求項２記載の方法。４．各命令グループごとのコンポーネントの個数は、プロセッサが同時にロード可能な命令数に相応する、請求項２または３記載の方法。