JPH01133138A

JPH01133138A - 並列計算機及びその制御方法

Info

Publication number: JPH01133138A
Application number: JP62290711A
Authority: JP
Inventors: Hiroshi Watanabe; 坦渡辺
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1987-11-19
Filing date: 1987-11-19
Publication date: 1989-05-25
Anticipated expiration: 2013-03-18
Also published as: JP2729795B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野コ本発明は、複数の処理ユニット又は機能ユニットを備え
てプログラムの諸部分を並列に実行する並列計算機と、
そのための並列化コンパイラに関し、特に、各処理ユニ
ットのための制御情報の集合が一つの命令語を形成する
型の並列計算機と、並列化を意識せずに作られたプログ
ムをこのような並列計算機のための命令語の列に変換す
るコンパイラに関する。

［従来の技術］複数の機能ユニットを単一の命令が同時に制御し、それ
によりプログラムを並列に実行する型の並列計算機と、
そのための並列化コンパイラは、１９８６年Ｔｈｅ　Ｍ
ＩＴ　Ｐｒｅｓｓ発行、　Ｊ、Ｒ，Ｅ１１ｉｓ著、「プ
ルドッグ：ＶＬＩＶアーキテクチャのためのコンパイラ
」（Ｂｕｌｌｄｏｇ：Ａ　　Ｃｏｍｐｉｌｅｒ　　ｆｏ
ｒ　　ＶＬＩＷ　　Ａｒｃｈｉｔｅｃｔｕｒｅｓ）で論
じられている。このＶＬＩｌｄ型計算機では、各命令は
それぞれが一つの機能ユニットに対応付けられた固定数
のフィールドからなり、各フィールドが対応する機能ユ
ニットの動作を制御する。多数の機能ユニットがあるの
で、命令は非常に長く、ここからＶＬＩりという名称（
Ｖｅｒｙ　ＬｏｎｇＩｎｓｔｒｕｃｔｉｏｎ　’Ｊｏｒ
ｄ）が与えられている。複数の機能ユニットが共有する
レジスタバンクを設けることも示唆されている。

この型の並列計算機に対しては、各機能ユニットがいつ
動作し、データ転送がどこからどこへいつ行なわれるべ
きかを、逐一明示的にプログラムしなければならない。

このようなプログラムを人手で作成するのは極めて困難
であり、したがって。

効率良く並列化を行なえるコンパイラを用意することが
不可欠である。前記ＶＬＩＷ型計算機のためのコンパイ
ラは、トレーススケジューリングと呼ばれる方法を用い
て、大域的なフロー解析と実行頻度予測を行ない、中間
コードプログラム中の多数の基本ブロックの連鎖、すな
わちトレースの内部での並列化を行ない、それにより、
非常に高度な並列化を達成する。

［発明が解決しようとする問題点コ前記のＶＬＩＷ計算機では、各命令がそれぞれ各機能ユ
ニットに固定的に対応付けられた一定数のフィールドか
らなるため、命令が非常に長く、しかも、実際に同時に
動作する機能ユニットの個数に関係なく、すなわち、同
時に実行しうる要素的演算が少ないためにいくつかの機
能ユニットが休止する場合でも、命令長は常に一定であ
る。その結果、プログラムが占める記憶領域が必要以上
に広くなり、かつ、命令列取出しのための総記憶アクセ
ス時間もそれに対応して増大する。

また、レジスタバンクは、諸機能ユニットにより共有さ
れるので、それへのアクセス競合が処理の遅れを生じる
ことのないように、レジスタバンクへのアクセス回数を
減らすことが望ましい。

更に、ＶＬＩｌｉｌ計算機用のコンパイラでは、高度な
並列化の達成のためのトレーススケジューリングが、コ
ンパイラを複雑化し、かつ、コンパイル時間を長くして
いる。しかし、実用上はそれほど高度な並列化を必要と
しない場合が多く、そのような場合には、もっと単純で
、しかも効率のよいコンパイラが望ましい。

本発明の主たる目的は、命令データ量を圧縮して、それ
により、プログラムのために必要な記憶領域と記憶アク
セス時間を削減することにある。

本発明の第２の目的は、共有レジスタ群へのアクセス回
数を減らし、それにより、処理の遅れを防止することに
ある。

本発明の第３の目的は、実用上多くの場合に充分な程度
の並列化を効率よく行なえるような、単純な構造のコン
パイラを提供することにある。

［問題点を解決するための手段］命令データ量の圧縮のために、本発明の並列計算機には
、命令中の要素命令の実行ユニットへの分配を制御する
命令供給制御機構が設けられる。

この機構は、特定の要素命令（分配先指定要素命令）を
実行した実行ユニットによりその内部状態が設定され、
この内部状態に従って各命令中の要素命令を実行ユニッ
トに分配する。並列化コンパイラは、同時に実行しうる
複数の要素命令を併合して単一の命令を形成しつつ命令
列を生成する並列化過程において、要素命令数を異にす
る二つの命令が隣接する所に分配先指定要素命令を挿入
する。

好ましい実施例においては、共有されるレジスタファイ
ルのレジスタは相対番地により指定され、各実行ユニッ
トはアキュムレータを有し、並列化コンパイラは、並列
化過程において、任意多数の仮想実行ユニットを想定し
、実行ユニット内にデータを保持しておかねばならない
区間の要素命令列である断片的要素命令列を−っの仮想
実行ユニットに割り当てて、その後に、各仮想実行ユニ
ットを実在実行ユニットに割付ける。

［作用］命令供給制御機構が指定する要素命令の分配先は、必要
に応じて命令中に置かれる分配先指定要素命令により変
更される。したがって、実際に実行すべき有意の要素命
令のみから各命令を構成し、実行すべき有意の要素命令
がない実行ユニットのためのフィールドを省略すること
ができる。その結果、固定数のフィールドからなる命令
を用いる従来装置に比して、命令データ量が圧縮される
。

また、実施例に採用されたレジスタの相対番地指定も、
各要素命令の長さを短縮し、それにより、命令データ量
の圧縮に寄与する。

実施例において、アキュムレータの設置は、レジスタか
ら取出したデータや中間演算結果を保持し、それにより
、レジスタファイルへのアクセス回数を低減する。更に
、コンパイラによる並列化過程において、任意多数の仮
想実行ユニットにそれぞれ断片的要素命令列を割当てて
、然る後に各仮想実行ユニットを実在実行ユニットに割
付ける手順は、要素命令列の生成と並列化を分離すると
ともに、並列化の手続きを簡明なものとし、それにより
、コンパイラの構造を単純化するとともに、並列化処理
の効率を改善する。

［実施例コ第１図は、本発明による並列計算機の一実施例の構成を
示す。この計算機は、４台の同型の実行ユニット１，２
，３．４と、多数のレジスタからなり前記諸実行ユニッ
トにより共有されるレジスタファイル５を備える。これ
ら実行ユニットのそれぞれは、また、主記憶アクセス制
御機構６を介して、データの読出し又は書込みのために
主記憶７にアクセスすることができる。主記憶７は、ま
た、プログラムを保持する。命令シーケンス制御機構８
は、図示されていないが、プログラムカウンタと、プロ
グラムカウンタの値に基づいて主記憶７の読出位置を指
示する命令番地レジスタとを有し、プログラムを構成す
る相次ぐ命令を主記憶７から順次読出して、ＦＩＦｏ型
の命令バッファ９に格納する。各命令は、後で詳述する
ように。

一般に複数の要素命令からなり、これらの要素命令が異
なる実行ユニットで同時に実行される。命令供給器１０
は、命令供給制御ベクトル１１の指示の下に、命令バッ
ファ９から相次ぐ命令を順次読出して、各命令内の要素
命令を実行ユニット１〜４に分配する。

命令供給制御ベクトル１１は、４ビツト長のレジスタで
あり、その各ビット位置はスロットと呼ばれ、第１ない
し第４スロツトは実行ユニット１ないし４への要素命令
の供給の要否を示す。すなわち、第にスロット（１≦に
≦４）は、その値が１の時に実行ユニットｋに供給され
るべき要素命令があることを示し、その値がＯの時に実
行ユニットｋに供給されるべき要素命令力１ないことを
示す。命令供給制御ベクトル１１の内容は、後で詳述す
るＰＲＯＣ命令を実行した実行ユニットにより、そのＰ
ＲＯＣ命令が指定する値に設定され、それにより、命令
に含まれる要素命令の個数を、並列化の可能な要素命令
の個数に応じてダイナミックに変更することを可能にし
、その結果、固定数の要素命令からなる命令を使用する
従来装置と比較して、プログラムのためのデータ量、し
たがって、必要な記憶容量及び命令読出しのための記憶
アクセスが減少する。また、命令供給制御ベクトル１１
は、初期状態設定時の他に、各種の分岐、副プログラム
の呼出しとそれからの復帰などの順序制御要素命令が、
いずれかの実行ユニットで実行されると、分岐が生じた
か否かにかかわりなく、予め定められた値（本実施例で
は１１００）にリセットされる。この自動リセット機能
により、後述するように、分岐等の順序側後が関連する
プログラムを簡素化することができる。

実行ユニット１〜４のそれぞれは、図示されていないが
、命令解読・実行回路、アドレス計算器、算術・論理演
算器等を備え、通常の汎用プロセッサと同程度の命令レ
パートリを持つ。特に、各実行ユニットは、通常のプロ
セッサが必要とする各種レジスタとしてはレジスタファ
イル５を用いるけれども、アキュムレータ（Ａｃｅ）は
内蔵しており、そこに演算結果又はレジスタファイル５
から読出したデータが保持されることにより、レジスタ
ファイル５への所要アクセス回数が削減される。

レジスタファイル５は、大きな容量を持ち、諸実行ユニ
ットからの中間結果や使用頻度の高いデータを保持する
のに主として使用され、それにより、主記憶７へのアク
セス回数を減らし、かつ、諸実行ユニット間の交信のた
めのオーバヘッドを削減する。レジスタファイル５は、
このような多数の汎用レジスタに加えて、スタックとス
タックポインタ、後述する相対番地のための領域レジス
タ群などの、特殊目的レジスタ群を含む。

要素命令のフォーマットの例を、第２図（ａ）。

（ｂ）に示す。本実施例における各要素命令は、１６ビ
ツトの固定長である。第２図（ａ）は、オペランドの番
地を指定する型の代表的な要素命令のフォーマットであ
る。大容量のレジスタファイルを短い要素命令で扱い、
それにより、プログラムのための記憶領域と記憶アクセ
ス時間を削減するために、相対番地が用いられる。７ビ
ツトのオペレータ部１０１は、演算種別、番地モードな
どを指定する。３ビツトの領域レジスタ部１０２は、レ
ジスタファイル５中で領域レジスタとして予め定められ
た複数（最大８個）のレジスタの一つを指定し、各領域
レジスタには、レジスタファイル５のある領域の先頭番
地、すなわち相対番地のためのベース番地が、然るべき
要素命令によって設定される。６ビツトの変位部１０３
は、前記先頭番地から所望番地までの変位を示す。した
がって、このフォーマットにおいては、指定されたレジ
スタ番地は、領域レジスタ部１０２で指定された領域レ
ジスタの内容と変位部１ｏ３の値の和で与えられる。

多様な番地モードが用いられ、それらの一つがオペレー
タ部１０１により指定される。指定された番地モードに
従って、指定されたレジスタの内容又はこの内容が指す
レジスタか主記憶位置の内容、若しくは実行ユニット内
の値（Ａｃｅの内容）又はこの値が指すレジスタか主記
憶位置の内容等が。

オペランドとして処理される。順序制御要素命令につい
ては、実行ユニット内の値又は指定されたレジスタの内
容、若しくはこの値又は内容と当該命令の番地の和が、
分岐先番地を与える。更に。

即値番地（ｉｍｍｅｄｉａｔｅ　ａｄｄｒｅｓｓ）のた
めに、第２図（ｂ）のフォーマットが用いられる。この
フォーマットは、領域レジスタ部と変位部の代りに、そ
れ自体がオペランドとして扱われる９ビツトの即値オペ
ランド部１０４を持つ。この番地モードの採用も、レジ
スタファイル５へのアクセス回数の削減に寄与する。

平行して実行しつる複数の要素命令が一個の命令を構成
し、このような命令の列がプログラムを形成する。第２
図（Ｃ）は命令列の一例を示す。

図において、ＩＪＫ　（Ｊ　＝１＋　２．３．・・・；
１≦に≦４）は、第１ステツプにおいて第に実行ユニッ
トにより実行されるべき要素命令を表し、一つの行、す
なわち同一ステップにおいて実行されるべき要素命令群
が、一つの命令を構成する。例えば。

第１ステツプでは、第１ないし第４実行ユニットのすべ
てに要素命令が供給される。第２ステツプでは、第１、
第２及び第３実行ユニットには要素命令が供給されるが
、第４実行ユニットは、要素命令の供給を受けず、した
がって、以前の内部状態を維持する。

実際には、主記憶７及び命令バッファ９の内部において
、第２図（Ｑ）に示されるような、各命令が分離・［ｆ
された配置が実現されているわけではなく、すべての要
素命令が間隙なく詰込まれている。命令シーケンス制御
機構８は、命令バッファ９に一定量の空所が生じると、
そこに入るだけの要素命令列を主記憶７からそこへ読出
し、命令供給器１０は、命令供給制御ベクトル１１が示
す個数の要素命令を命令バッファ９の先頭から読出して
、それらを命令供給制御ベクトル１１が指す実行ユニッ
ト（１〜４）に順番に供給する。要素命令を受けた各実
行ユニットは、その実行を終了すると、命令シーケンス
制御機構８に終了信号を送り、命令シーケンス制御機構
８は、命令供給制御ベクトルが示すすべての実行ユニッ
トから終了信号を受けると１図示されていないプログラ
ムカウンタを歩進させるとともに、命令供給器１゜に次
の命令の読出しを指示する６ある実行ユニットで分岐等の順序制御要素命令が実行さ
れると、その結果が命令シーケンス制御機構８に報告さ
れて１図示されていないプログラムカウンタに分岐先番
地が設定され、それの旧内容はスタックに保持される。

命令シーケンス制御機構８は、続いて、命令バッファ９
をクリアし。

それから、プログラムカウンタの新内容が指す主記憶番
地及びその後続番地から新しい命令列を読出し、命令バ
ッファ９に書込む。したがって、いずれかの実行ユニッ
トにおいて生じた分岐は、全実行ユニットに対してその
効力を生じ、リセットされた命令供給制御ベクトル１１
の指す実行ユニット群が、分岐先の命令に含まれる要素
命令群を実行することになる。

第３図は、本発明の並列化コンパイラによる処理の一例
を示すフローチャートである。与えられたソースプログ
ラムは、まず、構文解析と意味解析を受けて、中間コー
ドとして表現される（ステップ２１）。それから、コン
パイラは、中間コードとして表現されたプログラムの制
御の流れ、すなわち処理の順序関係を調べて、基本ブロ
ックを抽出し、それらの基本ブロックを結ぶ有向グラフ
としてプログラムを表現する（ステップ２２）。

ここまでは、従来のコンパイラと同様である。基本ブロ
ックとは、途中で制御の流入も流出もない最長区間の命
令列である。換言すれば、一つの基本ブロックは、順序
制御命令の次の命令、又は他のブロックの順序制御命令
の分岐先命令で始まり、次の順序制御命令、又は他のブ
ロックの順序制御命令の分岐先命令の直前の命令で終わ
る。

次いで、任意多数個の仮想実行ユニットを想定して、各
基本ブロック内の処理と基本ブロック間のつなぎの処理
（分岐とその関連処理）を、これら仮想実行ユニットに
対する要素命令の列に展開する（ステップ２３）。その
際に、断片的要素命令列とここで呼ぶ一連の要素命令に
一つの仮想実行ユニットを割当てる。断片的要素命令列
とは。

実行ユニット内にデータを（引続き利用するために）保
存しておかなければならない区間の要素命令列をいい、
典型的には、レジスタファイル又は主記憶から実行ユニ
ットにデータを取出す要素命令（例えば、後述するＬＯ
ＡＤ）で始まり、次の同種命令の直前の命令で終る。例
えば、データを主記憶又はレジスタファイルから実行ユ
ニットに読出し、これを用いて何らかの処理を行ない、
その結果を主記憶又はレジスタファイルに格納する操作
系列は、断片的要素命令列である。通常、一つの基本ブ
ロックは、一つ又は複数の断片的要素命令列を含む。し
かし、一つの断片的要素命令列が複数の基本ブロックに
またがって形成されることもありうる。

次に、ある要素命令で得られた結果を他の要素命令で使
うというようなデータ受渡し関係に着目して、要素命令
間の前後関係を解析しくステップ２４）、その前後関係
を損うことなく並列に実行できる要素命令を可能な限り
並列化することにより、各基本ブロック内で要素命令を
並列化し、同時に、実在の実行ユニットへの割当てを行
なう。

具体的には、まず、各仮想実行ユニットを一つの実在実
行ユニットに割付けることにより、断片的要素命令列の
並列化を行ない１次に、実在実行ユニットが空いていれ
ば、断片的要素命令列の一部を切離して、それの並列化
を試る。（ステップ２５）。更に、並列度に余裕がある
場合には、各基本ブロックの先頭部分の要素命令で先行
基本ブロックの要素命令と並列化できるものがあれば、
そのように並列化を行ない、あるいは、各基本ブロック
の末尾部分の要素命令で後続基本ブロックの要素命令と
並列化できるものがあれば、そのように並列化を行ない
、それにより、基本ブロック間で要素命令を融合する（
ステップ２６）。最後に、以上のように並列化された要
素命令群が、マシンコードに変換された後、オブジェク
トプログラムとして出力される（ステップ２７）。要素
命令列生成処理と並列化処理が分離されているので、並
列化コンパイラの構造を簡明・単純にすることができる
。

第４図は、本発明の並列化コンパイラによる処理を例示
するために採用されたソースプログラムであり、これは
、文字列テキストから特定の文字列パタンを探索するプ
ログラムの一部である。図において、記号−一の右の文
字列は注釈である。

第５ａ〜５０図（以下第５図と総称する）は、連結され
て、第３図におけるステップ２３の処理により第４図の
ソースプログラムから作成された。

仮想実行ユニットに対する要素命令の列（断片的要素命
令列の列）を示す。この図でも、記号−一の右の文字列
は注釈である。各要素命令の形式は、ラベル部と、それ
に続くオペレータ部と、末尾のオペランド部とを含み、
通常は、オペランドの前に仮想実行ユニット名が置かれ
る。ラベルは必要に応じて記入される。図示の例では、
Ｌ］、Ｏ，Ｌ２ｏ等がラヘルテアリ、ＬＯＡＤＡＤ、５
ＴＯＲＥ等がオペレータであり、ＥＯＩ、ＥＯ２等が仮
想実行ユニット名である。仮想実行ユニット名を持たな
い要素命令゛は、孤立的で、仮想実行ユニツトの割当て
を要しない要素命令である。オペランドとしてのレジス
タは、前に第２図（ａ）を参照して説明したように、相
対番地で記述される。ただし、第５図においては、領域
レジスタの指定は、記号〈〉の中に記されている。また
、オペランド部に記された記号＃とそれに続く数字は、
第２図（ｂ）に示す即値オペランドとして与えられる定
数を表わす。

第５図の左端の丸付き数字は、基本ブロックを示す。例
えば１行１〜１１が基本ブロック■を構成し、行１２〜
１４が基本ブロック■を構成し、行１５〜，１６が基本
ブロック■を構成し、以下同様である。

第５図に現われる各要素命令が示す演算の概要は、次の
通りである。ＬＯＡＤ系要素全要素命令般に、レジスタ
から実行ユニットへのデータの取込みを示す。行１のＬ
ＯＡＤＡＤ　　ＥＯＩ、８＜ＬＢ＞は、領域レジスタＬ
Ｂの内容に８を加えた値を仮想実行ユニットＥＯＩに置
くことを示し、行３（７）ＬＯＡＤＳＢ　　ＥＯＩ、２
＜５ＴＫＲ＞は。

領域レジスタ５ＴＫＲの内容から２を減じた値をＥｏｌ
　（のＡｃｃ）に置くことを示し、行４のＬＯＡＤＸ　
　ＥＯ２は、ＥＯ２内のデータが示す番地のレジスタの
内容をＥＯ２に取出すことを示す。

５ＴＯＲＥ系要素命令は、一般に、実行ユニッ１〜内（
Ａｃｃ内）のデータのレジスタへの転送を示す。ただし
、実行ユニットはクリアされない。行１１の５ＴＯＲＥ
１は、定数１のレジスタへの書込みを示し、行１５の５
ＴＯＲＥＯＰは、間接番地モードでの定数Ｏの書込みを
示し、行５４の５ＴＯＲＥＰは、間接番地モードでのデ
ータ転送を示す。行２５のＧＥＴＲは、実行ユニット内
のデータが指す主記憶位置の内容を指定されたレジスタ
に読出すことを示し、行２６のＣＯＭＦ　ＩＲＭＧは、
前記読出しの完了の確認を指示する。

ＡＤＤは、指定されたレジスタの内容と実行ユニット内
のデータを加算してその和を実行ユニットに残すことを
示し、ＡＤＤＱは、即値番地モードでの同様な加算を示
す。ＳＵＢは、実行ユニット内のデータからの減算を示
す６行２０のＡＮＤＱ　　ＥＯ６，２＃１１は、ＥＯ６
内のデータの末尾２ビツトと２進定数１１のＡＮＤ演算
を示し、その結果、Ｅ０６内のデータは、末尾の２ビツ
トを残して消去される６行２８のＥＸＴＲＡＣＴは、実
行ユニット内のデータから指定されたレジスタの内容が
示す位置のバイトを抽出して、抽出したバイトを実行ユ
ニット内の最下位位置に残すことを示す、ＣＯＭＦは、
指定されたオペランドと実行ユニット内のデータの比較
を示す。

ＢＲは無条件分岐を示し、ＢＬＥとＢＮＥとＢＥＱは、
それに先立って実行されたＣＯＭＰの結果による条件付
き分岐を示す。ＢＬＥは、実行ユニット内のデータが指
定されたオペランドより小さいか又はそれと等しい場合
に分岐を生じ、ＢＮＥは、それらが等しくない場合に分
岐を生じ、ＢＥＱは、それらが等しい場合に分岐を生じ
る。ＲＥＴＵＲＮ　　５ＴＫＲは、スタックポインタを
用いて呼出し元ルーチンに戻ることを示す。これらは、
順序制御要素命令である。

第６ａ、６ｂ図（以下第６図と総称する）は、連結され
て、第３図のステップ２５及び２６の処理により第５図
の要素命令列から作られた命令列を示す。第６図では、
各要素命令はそれを実行すべき実行ユニットの表示を持
たず、その代りに、各要素命令が記された欄位置が、そ
れを実行すべき実行ユニットに対応する。すなわち、図
の左端の欄に記された要素命令群は実行ユニット１に割
当てられ、次欄の要素命令群は実行ユニット２に割当て
られ、以下同様である。各水平行に並んだ要素命令列は
一つの命令を構成し、これらの要素命令は並行して実行
される。ただし、既述のように、計算機の内部では、相
次ぐ命令は間隙なく並べられ、命令供給制御ベクトル１
１を用いて各命令が切出される。

要素命令の並列化に際して、まず、仮想実行ユニットＥ
ＯＩを第１実行ユニットに割付け、それにより、第５図
の行１，２の要素命令を第１実行ユニットに割当てる。

次に、ＥＯ２を第２実行ユニットに割付ける。ＥＯ２の
第３要素命令は領域レジスタＬＢを使い、このレジスタ
の値はＥＯＩの第２要素命令で設定されるけれども、後
者が前者よりも早い時点で実行される限りは、Ｅｏｌの
要素命令列とＥＯ２の要素命令列は並列化することがで
きる。ＥＯ３とＥＯ４の両要素命令列も、それらの最後
の要素命令がＬＢを使用する点を除けば、実行時点に制
限がないから、ＥＯ２の場合と同じ条件の下で、ＥＯＩ
の要素命令列と並列化することができる。ところで、プ
ログラムの実行開始時には、命令供給制御ベクトル１１
が１１００にリセットされ、したがって、第１及び第２
実行ユニットのみが使用できる。そこで、第２ステツプ
以降で４個の要素命令を並列に実行するために、第１ス
テツプで第２実行ユニットに要素命令ＰＲＯＣ２＃１１
１１を与える。なお、要素命令ＰＲＯＣの機能は後で詳
述する。基本ブロック■の最後の命令５ＴＯＲＥ　１は
、レジスタＬＢの設定の後である限り、どの実行ユニッ
トによりどの時点で実行されても支障がないので、第１
実行ユニットの空きステップに入れる。こうして、基本
ブロック■内での並列化が終わる１次の基本ブロック■
の先頭の要素命令は、ラベルＬＩＯを持ち、後方の要素
命令（行５０）の分岐先なので。

この要素命令を含む命令は、第１及び第２実行ユニット
のみを使用しなければならない。その準ｑδとして、第
４ステツプ（第６図行８５）で空いている実行ユニット
にＰＲＯＣ２＃１１００を与える。他の空き実行ユニッ
トには、何の動作も指示しない要素命令ＮＵＬＬを与え
る。このようにして、初期処理部の並列化が終り、第６
図の行８２〜８５の命令列が完成する。

ラベルＬＩＯで始まる基本ブロック■の要素命令列は、
ひとまず、使用可能な実行ユニットの一つ（この例では
第２実行ユニット）に割当てる。

次の基本ブロック■の要素命令５ＴＯＲＥＯＰ及びＲＥ
ＴＵＲＮは、同時に実行することができ、かつ、どの実
行ユニットにより実行されてもよいが、基本ブロック■
の最後の要素命令ＢＬＥの後でなければならない。した
がって、これらを、基本ブロック■の要素命令列の後に
、第１及び第２実行ユニットへ適宜割当てる。次の基本
ブロック■は、先頭にラベルＬ２０を持つ、しかし、こ
こへの分岐は、先行する基本ブロック■の末尾のＢＬＥ
によってのみ生じ、他の基本ブロックからの分岐は生じ
ない。したがって、基本ブロック■は。

もしも他の条件が満たされれば、基本ブロック■と並列
化することができる。基本ブロック■は一括して仮想実
行ユニットＥＯ６に割当てられているが、それは、ＴＥ
ＸＴ　（ＴＩ）ｆ７）番地ＡＴＥＸＴＩの計算（行１７
〜１９）と、この番地データを用いて行なうＴＥＸＴ　
（ＴＩ）の謹白バイト位置ＤＩＳＰの計算（行２０，２
１）と、ＤＩＳＰの値がＯでないときの分岐（行２２，
２３）との、三つの操作からなる。ＡＴＥＸＴＩは、次
の基本ブ０７り■のＬＯＡＤ　　ＡＴＥＸＴ＜ＬＢ＞　
（行２４）で使われるだけの局所的変数であり、ｌ０Ｓ
Ｐもそのまた次の基本ブロック■のＥＸＴＲＡＣＴ　（
行２８）で使われるだけである。また、基本ブロック■
の要素命令のオペランドは、基本ブロック■による操作
の影響を受けない。したがって、基本ブロック■の要素
命令は、基本ブロック■及び■より前に実行される基本
ブロック■の要素命令と並列に実行できる。以上の理由
から、基本ブロック■の先頭の４要素命令（行１７〜２
０）を基本ブロック■の要素命令と並列化する。このよ
うにして、第６図の行８６−９０の命令列が生成される
。

基本ブロック■において、先頭のＬＯＡＤはレジスタフ
ァイルの内容を変えないが１次のＧＥＴＲはレジスタフ
ァイルの内容を変える。したがって、基本ブロック■の
先頭のＬＯＡＤを基本ブロック■の末尾のＢＮＥと並列
化する。他方、基本ブロック■（７）ＳＴＯＲＥ　　Ｅ
Ｏ６，ＤＩＳＰ＜ＬＢ＞（行２１）によりレジスタファ
イルに転送されるデータは、この基本ブロック■を唯一
の分岐元とする基本ブロック■において、第２要素命令
ＥＸＴＲＡＣＴで使用されるのみであるから、基本ブロ
ック■の第１要素命令ＬＯＡＤと同時に実行しても支障
はない。なお、この５ＴＯＲＥにより転送されるべきデ
ータ（行２０のＡＮＤＱにより実行ユニット内に得られ
たデータ）は１行２２゜２３の要素命令ＣＯＭＰ、ＢＮ
Ｅによっては破壊されない。このようにして、第６図の
行９１〜９４の命令列と行９５〜９７の命令列が生成さ
れる。

基本ブロック■〜■は、ＰＩがＯよりも大きいか否かの
判定（行３０，３１）と、ＰＡＴＮ　（ＰＩ）とＴＥＸ
Ｔ　（ＴＩ）の比較（行３３〜３５）と、Ｃ０ＭＰＰ　
（ｐｒ）のＰＩへの代入（行３７〜４０）とを含み、特
に、基本ブロック■と■は同じ仮想実行ユニットに割当
てられているが、これら三つの操作が扱うオペランドを
調べると、行３３の要素命令が行３０の要素命令で読込
まれたデータを使用する点を除けば、これら三つの操作
を逐次的に実行しなければならない理由はない。

したがって、行３３のＡＤＤの前に行３０と同じＬＯＡ
Ｄ　　ＰＩ＜ＬＢ＞を付加することにより、これら三つ
の操作を３台の実行ユニットに別々に実行させることが
できる。本並列計算機では、実行すべき要素命令の個数
が増しても、並列化によりステップ数が減少すれば処理
速度は上るので、前記のような並列化が行なわれる。た
だし、動作すべき実行ユニット群に第３実行ユニットが
加わるので、ＰＲＯＣ２＃１１１０の挿入が必要である
。行３２のＢＬＥと行３６のＢＥＱは、分岐先を同じく
する条件付き分岐なので、同時に実行しても混乱は生じ
ず、いずれか一方、又は双方の分岐条件が満たされると
、Ｌ６０への飛越しが生じる。ただし、これらの実行の
結果、命令供給制御ベクトル１１　（第１図）がリセッ
トされるので、次の命令では第１及び第２実行ユニット
しか使用できない。行４１のＢＲは１行４０の５ＴＯＲ
Ｅと同時に、任意の使用可能な実行ユニットに実行させ
ることができる。このようにして、第６図の行９８〜１
０３の命令列が生成される。この例では、基本ブロック
■が第３実行ユニットに割当てられ、ＬＯＡＤ　　ＰＩ
＜ＬＢ＞が付加された基本ブロック■と行４１のＢＲが
第１実行ユニットに割り当てられ、基本ブロック■が第
２実行ユニットに割当てられている。

基本ブロック［相］と０は、ＰＩとＰＡＴＮＬが等しい
か否かの判定（行４２，４３）と、ＰＩ及びＴＩのそれ
ぞれへの１の加算（行４５，４６及び行４７〜４９）と
を行なうが、これらは並列に実行できる。ただし、行４
５のＡＤＤＱの前に１行４２と同じＬＯＡＤ　　ＰＩ＜
ＬＢ＞の付加が必要である。逆に、第２実行ユニットで
は、このＬＯＡＤ　　ＰＩ＜ＬＢ＞を省略することがで
きる。というのは、行４２のＬＯＡＤのオペランドは、
第２実行ユニットで実行された行４０の５ＴＯＲＥによ
りＰＩ＜ＬＢ）に書込まれたデータであり。

このデータは、第２実行ユニット内に残っているからで
ある。行５ｏのＢＲは行４９の５ＴＯＲＥと並列に実行
できる。このようにして、第６図の行１０４〜１０８の
命令列が生成される。

最後の基本ブロック＠においては、関数値の計算と設定
（行５１〜５４）と、領域レジスタＬＢの内容の更新（
行５５，５６）が行なねれるが、後者の最初の要素命令
ＬＯＡＤＳＢは、未だＬＢの内容を変えないので、前者
の最後の要素命令５ＴＯＲＦＰと並列に実行できる。ま
た、行５７のＲＥＴＵＲＮは、行５６の５ＴＯＲＥと同
時に実行してよい。このようにして、第６図の行１０９
〜１１２の命令列が生成される。

以上のように、この例では、第５図に示された５７ステ
ツプの処理が、本発明による並列化コンパイラにより、
３１ステツプに縮少される。特に。

最も高い頻度で実行される第５図の行３０〜４１の１２
ステツプは、並列化により、第６図の行９８〜１０３の
６ステツプに縮少される。

各実行ユニットへの要素命令の供給を制御し、それに対
応して後続する命令の長さを規定する要素命令は、一般
に、Ｐ　ＲＯＣ２＃ｅ　□ｅ　２ｅ　３ｅ　。

の形式を持ち、第１図に示された命令供給制御ベクトル
１１の第１ないし第４スロツトに、ｅｌないしＣ４をそ
れぞれ設定する。ここに、ｅＫ（１≦に≦４）は、０又
は１の定数である。命令供給制御ベクトル１１の機能は
、既に第１図を参照しつつ説明した。要するに、命令供
給制御ベクトル１１の第にスロットは、それが１に設定
されると、以後の命令が第に実行ユニット用の要素命令
を含むことを示し、それが０に設定されると、以後の命
令が第に実行ユニット用の要素命令を含まないことを示
す。命令列の途中で、−時的に、並列に実行できる要素
命令の数が予定数に満たなくなったときには、何の動作
も指示せず、したがって実行ユニットの状態を変えない
ＮＵＬＬ命令を、適宜挿入すればよい。しかし、このよ
うな状態がしばらく続く場合には、適当なＰＲＯＣ要素
命令を与えるのがよい。

既述のように、命令供給制御ベクトル１１は。

分岐その他の順序制御要素命令が実行されると、自動的
に１１００にリセットされる。したがって。

他の命令からの分岐先となる命令列の先頭命令は必ず２
個の要素命令で構成されるように、コンパイルしなけれ
ばならない。その代償として１分岐先の命令列の命令長
を考慮することなしに、つまり、分岐元の命令にＰＲＯ
Ｃ要素命令を置くことなしに、任意の命令長のルーチン
からどのルーチンにでも飛越すことができる。

分岐先が同じであれば、複数の条件付き分岐要素命令を
単一の命令に含めることができ、第６図の行１０２はそ
の一例である。このような命令が実行されると、それら
の条件付き分岐要素命令のいずれか一つについてでも条
件が満たされさえすれば特定番地への分岐が生じる。す
なわち、条件式の論理和による分岐を単一の命令により
実現することが出来る。

第５図の行１２〜１４は、限界値検出処理である。この
ような限界値検出あるいは異常検出の処理を他の処理と
並列化することにより、それらの検出を早期に行なうこ
とができる。

第１図における実行ユニット１〜４．レジスタファイル
５．主記憶アクセス制御機構６．命令シーケンス制御機
構８．命令バッファ９．命令供給器１０．命令供給制御
ベクトル１１のすべてを、単一の半導体チップ上に集積
すれば、これら構成要素間の信号伝達時間が短縮され、
その結果、総合処理速度は一層向上する。

第１図に示した実施例では、４台の実行ユニットが設け
られているが、その台数は任意である。

しかし、通常の手続き型言語で書かれたプログラムにつ
いては、多くの場合、実現可能な並列度は２ないし４で
あるから、４台の実行ユニットは、集積回路化の容易さ
を含めて、実用的な観点から適正な規模といえる。

すべての実行ユニットが同一の機能を持つことは、プロ
グラムの並列化を容易にする効果がある。

しかし、変形として、整数演算用、浮動小数点演算用な
ど、機能の異なる複数の実行ユニットを設けてもよい。

そのように変形された実施例に対しては、並列化コンパ
イラは、第３図のステップ２３において、各機能につい
て任意多数の仮想実行ユニットがあると想定して断片的
要素命令列を作り、ステップ２５における基本ブロック
内並列化において、各仮想実行ユニットを対応する機能
の実在実行ユニットに割付ける。

なお、並列化コンバイリングは、単一の仮想実行ユニッ
ト（機能の異なる実行ユニットを含む並列計算機の場合
は各機能ごとに単一の仮想実行ユニット）を想定しても
、行な°うことができる。この方法によれば、例えば第
５図の例で、仮想実行ユニットの表示がすべて除かれて
いる。この場合には、各断片的要素命令列の境界を示す
適当な記号を挿入するのがよい。並列化の最初の段階に
おける断片的要素命令列の実行ユニットへの割当ては、
この境界記号に基づいて行なうことができる。

境界記号を用いないと、並列化処理に際して、要素命令
列を走査・解析して一つの断片的要素命令列を抽出する
処理と、それの実行ユニットへの割当てを、交互に反復
する必要がある。

［発明の効果］本発明によれば、並列計算機のための命令の長さが可変
となり、それにより、むだなフィールドを除いて、命令
データ量を圧縮することができ、したがって、プログラ
ムのために費される記憶領域と記憶アクセス時間を節減
できる。更に、好ましい実施例によれば、相対レジスタ
番地の採用により、命令データ量は一層圧縮される。

加えて、好ましい実施例によれば、アキュムレータの設
置によりレジスタファイルへのアクセス回数が減少し、
更に、任意多数の仮想実行ユニットを想定した要素命令
列の生成と、それに続く、仮想実行ユニットの実在実行
ユニットへの割付けとに分けられたコンパイル手順は、
コンパイラの構造を簡潔化するとともに、並列化処理の
効率を改善する。

【図面の簡単な説明】

第１図は本発明の並列計算機の一実施例のブロックダイ
ヤグラム、第２図は第１図の計算機で用いられる要素命
令と命令の形式を示す図、第３図は本発明の制御方法に
よる並列化コンパイラのフローチャート、第４図は第３
図のコンパイラにより並列化されて第１図の計算機によ
り実行されるべきソースプログラムの一例を示す図、第
５８図ないし第５ｃ図は第４図のソースプログラムから
生成された要素命令列を示す図、第６ａ図と第６ｂ図は
第５ａ〜５０図の要素命令列の並列化により得られた命
令列を示す図である。

Claims

【特許請求の範囲】１、各命令が可変個数の要素命令からなる一連の命令と
データを格納する記憶装置と、複数のレジスタからなる
レジスタファイルと、前記記憶装置とレジスタファイル
を共有する複数の要素命令実行ユニットと、前記記憶装
置から前記命令を逐次取出して各命令中の前記要素命令
を前記実行ユニットに分配する命令供給手段と、特定の
要素命令を実行した前記実行ユニットにより設定される
内部状態に従って前記命令供給手段に要素命令の分配先
を指示する命令供給制御手段とを備えた並列計算機。２、特許請求の範囲１において、前記命令供給制御手段
は前記複数の実行ユニットのいずれか一つが順序制御要
素命令を実行したことに応答して予め定められた内部状
態に設定される並列計算機。３、特許請求の範囲１又は２において、前記レジスタフ
ァイル中のレジスタは相対番地で指定される並列計算機
。４、特許請求の範囲１、２又は３において、前記複数の
実行ユニットのそれぞれはアキュムレータを有する並列
計算機。５、特許請求の範囲１ないし４の一つにおいて、前記複
数の実行ユニットは同一の機能を有する並列計算機。６、特許請求の範囲１ないし４の一つにおいて、前記複
数の実行ユニットの少なくとも一つは他と異なる機能を
有する並列計算機。７、特許請求の範囲１ないし６の一つにおいて、前記複
数の実行ユニット、レジスタファイル、命令供給手段及
び命令供給制御手段が単一のチップ上に集積回路として
形成された並列計算機。８、各命令が可変個数の要素命令からなる一連の命令と
データを格納する記憶装置と、複数のレジスタからなる
レジスタファイルと、前記記憶装置とレジスタファイル
を共有する複数の要素命令実行ユニットと、前記憶装置
から前記命令を逐次取出して各命令中の前記要素命令を
前記実行ユニットに分配する命令供給手段と、特定の要
素命令を実行した前記実行ユニットにより設定された内
部状態に従って前記命令供給手段に要素命令の分配先を
指示する命令供給制御手段とを備えた並列計算機を制御
するための、ソースプログラムを前記要素命令の列に変
換するステップと、同時に実行されても支障を生じない
複数の要素命令を併合して単一の命令を形成しつつ、前
記要素命令列から一連の命令を作る並列化ステップと、
前記一連の命令中で要素命令数の異なる二つの命令が隣
接する所に前記命令供給制御手段の内部状態の変更を命
する前記特定の要素命令を挿入するステップと、前記諸
ステップを経て得られた命令列を前記記憶装置に格納す
るステップとを有する制御方法。９、特許請求の範囲８において、前記変換ステップは、
実行ユニット内にデータを保持しておかなければならな
い区間の要素命令列である断片的要素命令列を識別する
ステップを含み、前記並列化ステップは、一つの前記断
片的要素命令列を一つの前記実行ユニットに割当てると
ともにその断片的要素命令列と少なくとも部分的に同時
に実行されても支障の生じない他の断片的要素命令列を
他の前記実行ユニットに割当てるステップを含む制御方
法。１０、特許請求の範囲９において、前記断片的要素命令
列識別ステップはそれぞれの断片的要素命令列を異なる
仮想実行ユニットに割当てるステップを含み、前記実行
ユニット割当てステップにおける断片的要素命令列の実
行ユニットへの割当ては前記仮想実行ユニットを前記実
行ユニットに割付けることにより行なわれる制御方法。１１、特許請求の範囲９又は１０において、前記実行ユ
ニット割当てステップは前記断片的要素命令列中の分離
可能な要素命令を同時実行によって支障が生じない他の
要素命令を含む命令に併合するステップを含む制御方法
。１２、特許請求の範囲９、１０又は１１において、前記
並列化ステップは、制御の流入も流出も途中で生じない
最長区間の要素命令列である基本ブロックごとに前記の
実行ユニット割当てを行なうステップと、隣接する二つ
の基本ブロックの一方の要素命令を同時実行によって支
障が生じない他方の基本ブロックの要素命令を含む命令
に併合するステップとを含む制御方法。１３、特許請求の範囲８ないし１２の一つにおいて、前
記並列化ステップは同一の分岐先を持つ複数の条件付き
分岐要素命令を単一の命令に含めるステップを含む制御
方法。