JP5240424B2

JP5240424B2 - Ｓｉｍｄ型並列演算装置、プロセッシング・エレメント、ｓｉｍｄ型並列演算装置の制御方式

Info

Publication number: JP5240424B2
Application number: JP2006542480A
Authority: JP
Inventors: 昭倫京
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-11-05
Filing date: 2005-11-04
Publication date: 2013-07-17
Anticipated expiration: 2025-11-04
Also published as: JPWO2006049331A1; WO2006049331A1; US20070250688A1

Description

本発明は、ＳＩＭＤ型並列演算装置に関し、特に同一命令流に属する命令を並列に実行することが可能なＶＬＩＷ（ＶｅｒｙＬｏｎｇＩｎｓｔｒｕｃｔｉｏｎＷｏｒｄ：超長命令語）方式に基づくプロセッシング・エレメント（ＰＥ）を有するＳＩＭＤ型並列演算装置及びその制御方式に関する。

近年の技術の発展に伴い、多数のプロセッシング・エレメント（ＰＥ）を持った並列型の演算装置（以降、並列プロセッサ）が実用化されている。並列プロセッサの主な制御方式として、ＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎＭｕｌｔｉｐｌｅＤａｔａｓｔｒｅａｍ：単一命令流・複数データ）方式とＭＩＭＤ（ＭｕｌｔｉｐｌｅＩｎｓｔｒｕｃｔｉｏｎＭｕｌｔｉｐｌｅＤａｔａｓｔｒｅａｍ：複数命令流・複数データ）方式とが存在する。
そのうちＳＩＭＤ方式は、いわゆる「シーケンサ」と呼ばれる、プログラムメモリに格納された命令コードを解読し制御信号をＰＥへ送信する回路ブロックがＰＥの数に依存せず１つだけで済む構成であるため、各ＰＥがそれぞれシーケンサを有して相異なる命令流で動作するＭＩＭＤ方式と比べると、高い処理性能を実現するのに要する回路規模が数分の１（例えば８分の１）程度も少なくて済むという利点がある。
しかし、ＳＩＭＤ方式では、単一命令流によって多数のＰＥを制御することから、ＰＥ毎に演算の自律性がなく、処理すべき全データに対し同一の命令列を適用するタイプの処理（データ並列型処理）の場合は高い実効性能が得られるが、データの各部分集合毎にデータ値に依存した相異なる命令流を適用するタイプの処理（領域並列型処理）、あるいは、同一のデータセットに対し相異なる命令流を並列に適用するタイプの処理（タスク並列型処理）については、単一命令流による制御しかできないことから、多数のＰＥを有効に利用できず高い実効性能が得られないという問題が存在していた。
上記のような問題点を解決するために、例えば特開２００１−２７３２６８号公報（文献１）では、先行する演算結果のフラグ値等により後続命令の動作を修飾するＳＩＭＤ型並列プロセッサの回路構成を開示している。また、特表２００１−５２３０２３号公報（文献２）では、各ＰＥにプログラムメモリ並びに命令デコーダを付与し、単一のシーケンサから各ＰＥへの動的なプログラムダウンロードやダウンロード済みプログラムの起動が行えるようなＳＩＭＤ型並列プロセッサプロセッサの回路構成を開示している。
さらに、ＤａｖｉｄＥ．Ｓｃｈｉｍｍｅｌ著「スーパースカラーＳＩＭＤアーキテクチャ」、「Ｄ．Ｅ．Ｓｃｈｉｍｍｅｌ：”ＳｕｐｅｒｓｃａｌａｒＳＩＭＤＡｒｃｈｉｔｅｃｔｕｒｅ”，Ｐｒｏｃ．ｏｆ４ｔｈＳｙｍｐｏｓｉｕｍｏｎｔｈｅＦｒｏｎｔｉｅｒｓｏｆＭａｓｓｉｖｅｌｙＰａｒａｌｌｅｌＣｏｍｐｕｔａｔｉｏｎ」、ｐｐ．５７３−５７６、１９９２年（文献３）では、単一シーケンサが同時に複数（例えばｋ個）の命令を全ＰＥに放送（転送）すると共に、各ＰＥは処理結果に応じて各自ｋ命令の中から一つを選び実行する方式のＳＩＭＤ型並列プロセッサを提案している。
上述した従来のＳＩＭＤ型並列プロセッサにおいては、以下に述べるような問題が存在する。
文献１に開示されたＳＩＭＤ型並列プロセッサでは、命令の動作を修飾する情報量が演算結果のフラグ値のビット幅程度に限定されていること、及び当該フラグ値が先行命令の演算結果で定義されているため、ＰＥ毎に非常に自由度の小さい演算の自律性しか実現できないという問題点がある。
また、文献２に開示されたＳＩＭＤ型並列プロセッサでは、ＰＥ数に比例してプログラムメモリ分の回路規模が増加すること、及び実行時でのＰＥ数に比例した分だけのプログラムダウンロード時間分のオーバーヘッドが増加するといった問題点がある。
さらに、文献３に開示されたＳＩＭＤ型並列プロセッサでは、同時に複数（例えばｋ個）の命令を全ＰＥに放送（転送）することから、命令放送のビット幅を複数倍（例えばｋ倍）に増やす必要があり、これにより回路規模が大きくなるという問題点がある。
本発明の目的は、回路規模を大きく増加させることなく、複数の命令流を同時に実行することができる命令流レベル並列性を実現することにより、ＳＩＭＤ型並列プロセッサ内のＰＥアレイの実行性能を改善するＳＩＭＤ型並列プロセッサ及びその制御方式を提供することにある。

上記目的を達成するため本発明は、同一命令流に属する命令コードを並列に実行することが可能な超長命令語型のプロセッシング・エレメントを有するＳＩＭＤ型並列演算装置であって、並列実行可能な命令コードの数以下の相異なる複数の命令流に属する並列実行可能な命令コードを、前記命令流に伴って放送される命令選択情報に基づいて選択し前記プロセッシング・エレメントで実行する構成としている。
本発明の好ましい態様では、ｋ個の命令コード及び前記命令選択情報を前記各プロセッシング・エレメントに放送するシーケンサと、前記各プロセッシング・エレメントの前記命令流に対する動作非動作を指定するｋビット以上の値を格納するマスクレジスタと、ｋ個の命令コードを最大ｋ個の相異なる命令流に復元する命令選択回路と、前記マスクレジスタの値と前記命令選択情報を入力とし、前記命令選択回路を制御するための命令選択制御信号を出力とする命令選択制御ユニットとを有する構成としている。

図１は、本発明のＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置の基本構成を示すブロック図である。
図２は、第１の実施の形態による、４命令並列実行を可能としたＳＩＭＤ型並列演算装置の構成を示すブロック図である。
図３は、第１の実施の形態によるＳＩＭＤ型並列演算装置のセレクタＭＸにおける、制御情報選択信号ＭＣに基づく制御情報の選択動作を説明するフローチャートである。
図４は、ｋ＝４（４命令並列実行）とした第１の実施の形態によるＳＩＭＤ型並列演算装置に放送される４つの命令流の例を示す図である。
図５は、図４に示す４つの命令流が放送された場合における、第１の実施の形態によるＳＩＭＤ型並列演算装置の並列処理の動作を説明するための命令コード列の例を示す図である。
図６は、図４に示す４つの命令流が放送された場合における、第１の実施の形態によるＳＩＭＤ型並列演算装置の並列処理の動作を説明するための命令コード列と制御情報Ｘ１〜Ｘ４による制御動作の内容を説明する図である。
図７は、第２の実施の形態による、４命令並列実行を可能としたＳＩＭＤ型並列演算装置の構成を示すブロック図である。
図８は、ｋ＝４（４命令並列実行）とした第２の実施の形態によるＳＩＭＤ型並列演算装置に放送される４つの命令流の例を示す図である。
図９は、図８に示す４つの命令流が放送された場合における、第２の実施の形態によるＳＩＭＤ型並列演算装置の並列処理の動作を説明するための命令コード列の例を示す図である。
図１０は、図８に示す４つの命令流が放送された場合における、第２の実施の形態によるＳＩＭＤ型並列演算装置の並列処理の動作を説明するための命令コード列と制御情報Ｘ１〜Ｘ４による制御動作の内容を説明する図である。
図１１は、第３の実施の形態による、４命令並列実行を可能としたＳＩＭＤ型並列演算装置の、命令選択制御ユニットＳＵの構成を示すブロック図である。
図１２は、第３の実施の形態による、４命令並列実行を可能としたＳＩＭＤ型並列演算装置のサブ制御情報Ｘ１０を用いて５ビットのマスクレジスタＭＲの中から４ビットを選び出すセレクタＤＸの動作を説明するフローチャートである。
図１３は、第３の実施の形態による、４命令並列実行を可能としたＳＩＭＤ型並列演算装置における、サブ制御情報Ｘ１１の４つのセレクタＭ１〜Ｍ４を制御する制御内容示す図である。
図１４は、第３の実施の形態によるＳＩＭＤ型並列演算装置のセレクタＭＸにおける、制御情報選択信号ＭＣに基づく制御情報の選択動作を説明するフローチャートである。
図１５は、第３の実施の形態によるＳＩＭＤ型並列演算装置に放送される５つの命令流の例を示す図である。
図１６は、図１５に示す命令流における条件の内容を示す図である。
図１７は、図１５に示す５つの命令流が放送された場合における、第２の実施の形態によるＳＩＭＤ型並列演算装置の並列処理の結果を説明するための命令コード列の例を示す図である。
図１８は、図１５に示す５つの命令流が放送された場合における、第３の実施の形態によるＳＩＭＤ型並列演算装置の並列処理の結果を説明するための命令コード列の例を示す図である。
図１９は、図１５に示す５つの命令流が放送された場合における、第３の実施の形態によるＳＩＭＤ型並列演算装置の並列処理の動作を説明するための命令コード列と制御情報Ｘ１０及び制御情報Ｘ２〜Ｘ４による制御動作の内容を説明する図である。

次に、本発明の実施の形態について図面を参照して詳細に説明する。
図中の符号の説明を以下に示す。
１００：命令選択回路ＳＥＬ、１０１：マスクレジスタＭＲ、１０２：命令選択制御ユニットＳＵ、１０３：シーケンサＣＰ、１０４：命令スロットＳ１〜Ｓｋ、１０６：命令選択情報コードＸ、１０７：命令選択制御信号ＣＸ、１０８：命令レジスタＩＲ１〜ＩＲｋ、１０９：ＰＥアレイ、１１０：ＰＥ、１１１：命令デコーダＤ１〜Ｄｋ、１１２：演算器Ｅ１〜Ｅｋ、１１３：汎用レジスタファイルＲＥＧ、２０１：セレクタＭ１〜Ｍ４、２０２：制御情報Ｘ１〜Ｘ４、２０３：セレクタＭＸ、２０４：制御情報選択信号ＭＣ、４０１：サブ制御情報Ｘ１０、４０２：サブ制御情報Ｘ１１、４０３：セレクタＤＸ、４０４：デコーダＤＣ、５００、７００、９０２：命令列
図１を参照すると、本発明のＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置は、最大ｋ（ｋは２以上の整数）個の依存関係にない命令を同時実行できるｋウェイのＶＬＩＷ（ＶｅｒｙＬｏｎｇＩｎｓｔｒｕｃｔｉｏｎＷｏｒｄ：超長命令語）方式に基づくｎ個のＰＥ（１１０）〜ＰＥｎ（１１０）を結合することにより構成されたＰＥアレイ（１０９）、当該ＰＥアレイ（１０９）を制御する１つのシーケンサＣＰ（制御プロセッサ（ＣｏｎｔｒｏｌＰｒｏｃｅｓｓｏｒ））（１０３）で構成されている。
シーケンサＣＰ（１０３）は、ｋ個の命令コードＳ１〜Ｓｋ（１０４）を各ＰＥに放送する以外に、命令選択情報コードＸ（１０６）を各ＰＥ（１１０）〜ＰＥｎ（１１０）に放送する。
各ＶＬＩＷ型ＰＥ（１１０）〜ＰＥｎ（１１０）は、各ＰＥ１（１１０）〜ＰＥｎ（１１０）が持つｋ個の命令レジスタＩＲ１〜ＩＲｋ（１０８）へ命令を格納する前に命令の選択を行う（ｋ個の命令コードを最大ｋ個の相異なる命令流に復元する）命令選択回路ＳＥＬ（１００）、最大Ｗ個の命令流の内のどれを実行するかを表すＷ（Ｗ≧ｋ）ビットの排他的（Ｗビット中の任意の１ビットだけが１）マスクレジスタＭＲ（１０１）、及びマスクレジスタＭＲ（１０１）と命令選択情報コードＸ（１０６）を入力とし、命令選択情報コードＸ（１０６）をマスクレジスタＭＲ（１０１）の値に基づきその一部を選択し、命令選択回路ＳＥＬ（１００）を制御する命令選択制御信号ＣＸ（１０７）として出力とする命令選択制御ユニットＳＵ（１０２）とを有する。
最大ｋ個の命令を同時実行できるＶＬＩＷ型ＰＥによって構成されたＰＥアレイを有するＳＩＭＤ型並列演算装置は、これまで同一命令流内で隣接して存在する並列処理可能な命令の同時実行（命令レベル並列性）がｋ個に満たない場合に空き（ＮＯＰ）となっていた命令コードＳ１〜Ｓｋ（１０４）を、命令流レベル並列性（タスクレベル並列性）が存在する場合に、最大ｋ種類の命令流の同時放送に利用する。
その際、各ＰＥ１（１１０）〜ＰＥｎ（１１０）において当該命令流を解読するのに必要な情報を命令選択情報コードＸ（１０６）として同時に全ＰＥに向け放送する。
シーケンサＣＰ（１０３）からの命令コードＳ１〜Ｓｋ（１０４）の放送を受けたＰＥアレイ１０９側では各ＰＥが命令選択制御ユニットＳＵ（１０２）において、各ＰＥ上でのデータ演算結果に基づき設定された（当該ＰＥがどの命令流を実行すべきかを示す）マスクレジスタＭＲ（１０１）の値を元に、シーケンサＣＰ（１０３）から放送された命令選択情報コードＸ（１０６）の中から必要な部分を切り出し、それを命令選択制御信号ＣＸ（１０７）として命令選択回路（１００）の制御に利用することで、ＣＰ（１０３）から放送されたｋ個の命令コードＳ１〜Ｓｋ（１０４）の中から０〜ｋ個の命令を選択し命令レジスタ（１０８）へ投入し次クロック以降での実行に備える。

図２は、本発明の第１の実施の形態によるＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置（プロセッサ）の構成を示すブロック図である。なお、ここでは、説明を簡単にするため、ｋを４、命令コードのビット数を３２ビットとした場合について説明する。
第１の実施の形態では、ＶＬＩＷ型ＰＥアレイ１０９は、４（＝ｋ）つのＰＥ１（１１０）〜ＰＥ４（１１０）を有しており、各ＰＥ１（１１０）〜ＰＥ４（１１０）は、それぞれ、４個の命令レジスタＩＲ１（１０８）〜ＩＲ４（１０８）へ命令を格納する前に命令の選択を行う命令選択回路ＳＥＬ（１００）、最大４個の命令流の内のどれを実行するかを指定する４ビットの排他的（４ビット中の任意の１ビットだけが「１」）マスクレジスタＭＲ（１０１）、シーケンサＣＰ（１０３）から放送される命令選択情報コードＸ（１０６）を構成する制御情報Ｘ１〜Ｘ４の中からマスクレジスタＭＲ（１０１）の制御情報選択信号ＭＣ（２０４）の値に基づき１つを選択し、その結果を命令選択回路ＳＥＬ（１００）を制御するための命令選択制御信号ＣＸ（１０７）として出力する命令選択制御ユニットＳＵ（１０２）を備える。
また、各ＰＥ１（１１０）〜ＰＥ４（１１０）は、命令レジスタＩＲ１（１０８）〜ＩＲ４（１０８）に格納された命令をデコードする命令デコーダＤ１（１１１）〜Ｄ４（１１１）、デコードされた命令によるデータ演算を行う演算器Ｅ１（１１２）〜Ｅ４（１１２）及びデータ演算の結果を格納する汎用レジスタファイルＲＥＧ（１１３）を備える。
命令選択回路ＳＥＬ（１００）は、５つの入力から１つを選択する（ｋ＋１_→１の選択）を行う４つのセレクタＭ１（２０１）〜Ｍ４（２０１）で構成されており、ｋが「４」の場合ではセレクタ毎に３ビット、計１２ビットの制御信号でセレクタＭ１（２０１）〜Ｍ４（２０１）を制御することが可能である。
そこで、シーケンサＣＰ（１０３）は、命令処理ステップ毎に、命令コードＳ１〜Ｓ４（１０４）に加え、１２ビット×４（＝ｋ）セット、すなわち４８ビットの命令選択情報コードＸ（１０６）を全ＰＥに放送する。
各ＰＥ１（１１０）〜ＰＥ４（１１０）では、命令選択制御ユニットＳＵ（１０２）内で、セレクタＭＸ（２０３）が制御情報選択信号ＭＣ（２０４）に基づき制御情報Ｘ１〜Ｘ４の中から１つを選び、選択した制御情報を命令選択回路ＳＥＬ（１００）に対して命令選択制御信号ＣＸ（１０７）として出力する。
図３は、セレクタＭＸ（２０３）における、制御情報選択信号ＭＣ（２０４）に基づく制御情報Ｘ１〜Ｘ４の選択動作を説明するフローチャートである。
図３において、セレクタＭＸ（２０３）は、マスクレジスタＭＲ（１０１）からの制御情報選択信号ＭＣ（２０４）が「１０００」であれば制御情報Ｘ１を、「０１００」であれば制御情報Ｘ２を、「００１０」であれば制御情報Ｘ３を、「０００１」であれば制御情報Ｘ４を、命令選択制御信号ＣＸ（１０７）として出力する。
また、制御情報選択信号ＭＣ（２０４）が上記の値の何れでもない場合には、セレクタＭ１（２０１）〜Ｍ４（２０１）のそれぞれでＮＯＰ（ＮｏＯｐｅｒａｔｉｏｎ）を選択する制御情報を命令選択制御信号ＣＸ（１０７）として出力するものとする。
上記第１の実施の形態では、全ＰＥに放送すべきデータのビット数は、命令コードＳ１（１０４）〜Ｓ４（１０４）について１２８（＝３２×４）ビットと、命令選択情報コードＸ（１０６）の４８ビットの合計で１７６ビットであり、すなわち本発明を適用したことによる全ＰＥへ放送すべき命令関連の情報量の増加は約３８％程度に留まる。
一方、上記のように構成される第１の実施の形態によるＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置では、最大で４つの相異なる命令流を並列に処理できるようになる。以下、第１の実施の形態によるＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置の命令流の並列処理について説明する。
ここで、図４に示すような４つの並列に実行可能な命令流Ａ〜Ｄの命令コード列が放送される場合を例にとって説明する。
図４の場合、各命令流Ａ〜Ｄを逐次的に実行した場合では、命令流Ａに６ステップ、命令流Ｂに８ステップ、命令流Ｃに５ステップ、命令流Ｄに４ステップの命令処理ステップがそれぞれ必要であり、合計２３命令処理ステップが必要となる。
これに対して、本発明の第１の実施の形態によるＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置では、命令流Ａ〜Ｄの命令コードを、図５に示すような命令列５００に従って、その各行の命令コードをステップ毎にシーケンサＣＰ（１０３）から全ＰＥ（ＰＥ１〜ＰＥ４）に放送し、同時にステップ毎に図６に示すようにセレクタＭ１（２０１）〜Ｍ４（２０１）の動作を制御するための制御情報Ｘ１〜Ｘ４からなる命令選択制御コードＸ（１０６）を全ＰＥに放送すれば、８命令処理ステップで全命令流の処理が終了する。この場合、図４の各命令流Ａ〜Ｄを逐次的に実行した場合に比べて約２．９倍の高速化が実現されることになる。
ただし、マスクレジスタＭＲ（１０１）に設定される４ビットの制御情報選択信号ＭＣ（２０４）については、その第０ビット目から第３ビット目には以下のような規則に基づいて予め値が格納されている。
すなわち、制御情報選択信号ＭＣ（２０４）は、あるＰＥが命令流Ａを実行する場合は第１ビット目に「１」（それ以外のビットは全てゼロ）、命令流Ｂを実行する場合は第２ビット目に「１」（それ以外のビットは全てゼロ）、命令流Ｃを実行する場合は第３ビット目に「１」（それ以外のビットは全てゼロ）、そして命令流Ｄを実行する場合は第４ビット目に「１」（それ以外のビットは全てゼロ）という規則に基づいた値が格納されているものとする。
この制御情報選択信号ＭＣ（２０４）の値は、各ＰＥ上での演算器Ｅ１〜Ｅ４でのデータ演算結果に基づいて設定される。
また、制御情報Ｘ１〜Ｘ４は、各ＰＥ１（１１０）〜ＰＥ４（１１０）のセレクタＭ１〜Ｍ４に対して命令コード（Ｓ１〜Ｓ４）を選択するかを指定する。
例えば、図６のステップ１では、各ＰＥのセレクタＭ１でそれぞれ命令コードＳ１、Ｓ２、Ｓ３、Ｓ４が選択され、各命令流Ａ〜Ｄの命令コードＡ１、Ｂ１、Ｃ１、Ｄ１がそれぞれ実行される。
このように、マスクレジスタＭＲ（１０１）の制御情報選択信号ＭＣ（２０４）によって最大４つの命令流を各ＰＥに割り当てると共に、各ＰＥに対応する制御情報Ｘ１〜Ｘ４によって各ＰＥのどのセレクタでどの命令コードを選択するかを指定することで、図６に示すような命令流の並列処理が実現される。
なお、命令選択回路ＳＥＬ（１００）内のセレクタＭ１〜Ｍ４については、図２で示した、５つの入力から１つを選択（ｋ＋１_→１の選択）する論理以外の選択方法によって、命令コードＳ１〜Ｓ４（１０４）を選択することも可能である。例えば、セレクタＭ１〜Ｍ４を全て２_→１の選択を行うセレクタとすることも可能である。このような構成とすれば、命令選択回路ＳＥＬ（１００）を実現するための回路規模、及び命令選択情報コードＸ（１０６）の全ビット数を減らすことが可能となる。ただし、その場合、シーケンサＣＰ（１０３）から放送可能な命令列の組合せに対し制約が増加し、空きとなった命令コードＳ１〜Ｓ４（１０４）の有効利用が損なわれる可能性も発生する。
以上のように、第１の実施の形態におけるＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置によれば、最大ｋ個の命令を同時に実行できるｋウェイＶＬＩＷ方式に基づくＰＥによって構成されたＰＥアレイを有するＳＩＭＤ型並列演算装置が元来備わるｋ命令分の命令流経路を、その本来の目的である同一命令流内で隣接して存在する並列処理可能な命令の同時実行（命令レベル並列性と呼ぶ）に利用するのみならず、命令レベル並列性が不足するケースでは、複数命令流の同時実行（命令流レベル並列性）の実現にも利用できるようにし、それによりＰＥアレイの実行性能を改善すること可能となる。

図７は、本発明の第２の実施の形態によるＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置の構成を示すブロック図である。なお、説明を簡単にするため、上記第１の実施の形態と同様、ｋが「４」、命令コードのビット数が３２ビットであるとする。
本発明の第２の実施の形態においては、命令選択回路ＳＥＬ（１００）のセレクタＭ１（２０１）〜Ｍ４（２０１）の構成をより簡単化した点、命令選択情報コードＸ（１０６）のビット幅を１とした点、そして命令コードトＳ１〜Ｓ４（１０４）のうちの一つ（図７では命令コードＳ４）を命令選択制御ユニットＳＵ（１０２）に入力している点、そして命令選択制御ユニットＳＵ（１０２）内部に新たなセレクタＳＸ（３０５）を備える点において、第１の実施の形態と相違する。
以下、上記の第１の実施の形態との相違点について主に説明する。
命令選択回路ＳＥＬ（１００）は、セレクタＭ１〜Ｍ４がそれぞれ４つの入力から１つを選択する（４_→１の選択）を行うセレクタが採用さえており、セレクタ毎に２ビット、合計８ビットの制御信号でセレクタＭ１（２０１）〜Ｍ４（２０１）を制御することが可能となっている。
また、命令選択制御ユニットＳＵ（１０２）に追加されたセレクタＳＸ（３０５）において、シーケンサＣＰ（１０３）からの１ビットの命令選択情報コードＸ（１０６）の値が「０」である場合は、予め設定された既定制御情報Ｘ０（３０６）を命令選択制御信号ＣＸ（１０７）として出力するように構成されている。
この既定制御情報Ｘ０（３０６）は、命令選択回路ＳＥＬ（１００）内のセレクタＭ１がＳ１、セレクタＭ２がＳ２、セレクタＭ３がＳ３、そしてセレクタＭ４がＳ４を選択するように指定するものである。
命令選択情報コードＸ（１０６）の値が「１」の場合、セレクタＳＸ（３０５）は、セレクタＭＸ（２０３）で選択された制御情報Ｘ１〜Ｘ４を命令選択制御信号ＣＸ（１０７）として出力する。
ここで、セレクタＭＸ（２０３）へ入力される、各８ビットで計３２ビットの制御情報Ｘ１〜Ｘ４（２０２）には、命令コードＳ４を使用する。
上記のように第２の実施の形態では、４ウェイのＶＬＩＷ方式に基づくＰＥアレイを有し、各命令コード（命令ワード）が３２ビットで構成されているＳＩＭＤ型並列演算装置において、シーケンサＣＰ（１０３）が放送する命令関連の情報のビット幅を、命令選択制御コードＸ（１０６）の分の１ビット増加させるだけで、単一命令流動作（命令選択情報コードＸ（１０６）の値が「０」）の場合では同一命令流に属する最大４（＝ｋ）個の並列実行可能な命令コードを、複数命令流動作（命令選択情報コードＸ（１０６）の値が「１」）の場合では、最大３（＝ｋ−１）個の命令流に属する並列実行可能な命令コードを命令処理ステップ毎にＰＥアレイに放送することにより実行させることができるようになる。
以下、第２の実施の形態によるＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置の命令流の並列処理について説明する。
ここで、図８に示すような４つの並列に実行可能な命令流Ａ〜Ｄの命令コード列が放送される場合における並列処理を例にとって説明する。
図８に示すような図４と同様の４つの並列に実行可能な命令流Ａ〜Ｄの命令コード列が放送される場合、各命令流Ａ〜Ｄを逐次的に実行すると合計２３命令処理ステップが必要となることについては、第１の実施の形態で説明した通りである。
この第２の実施の形態に基づくＳＩＭＤ型並列演算装置に、図９に示すような命令列（７００）に従って、その各行の命令コードをステップ毎にシーケンサＣＰ（１０３）から全ＰＥ（ＰＥ１〜ＰＥ４）に放送し、同時にステップ毎に図１０に示すようにセレクタＭ１〜Ｍ４の選択動作を制御するための制御情報Ｘ１〜Ｘ４からなる命令選択制御信号Ｘ（１０６）を命令コードＳ４のパスを利用し全ＰＥに放送すれば、９命令処理ステップで全命令流の処理を終了させることができるる。
この場合、図８の各命令流Ａ〜Ｄを逐次的に実行した場合に比べて約２．６倍の高速化が実現される。
ただし、第１の実施の形態と同様、マスクレジスタＭＲ（１０１）に設定される４ビットの制御情報選択信号ＭＣ（２０４）については、その第１ビット目から第４ビット目には以下のような規則に基づいて予め値が格納されている。
すなわち、制御情報選択信号ＭＣ（２０４）は、命令流Ａを実行する場合は第１ビット目に「１」（それ以外のビットは全てゼロ）、命令流Ｂを実行する場合は第２ビット目に「１」（それ以外のビットは全てゼロ）、命令流Ｃを実行する場合は第３ビット目に「１」（それ以外のビットは全てゼロ）、命令流Ｄを実行する場合は第４ビット目に「１」（それ以外のビットは全てゼロ）という規則に基づいた値が格納されているものとする。
この制御情報選択信号ＭＣ（２０４）の値は、各ＰＥ上での演算器Ｅ１〜Ｅ４でのデータ演算結果に基づいて設定される。
本発明の第１と第２の実施の形態におけるハードウェアコストと効果を対比させると、第１の実施の形態ではシーケンサＣＰ（１０３）から全ＰＥへ放送する情報のビット数を４８ビット増やす必要があるのに対し、本第２の実施の形態では１ビット増やすだけでよく、かつ当該１ビットの情報は単一命令流実行から複数命令流実行に切り替える際及びその逆の際に更新すればよい。命令選択回路ＳＥＬ（１００）に関しても、本第２の実施の形態の方が、第１の実施の形態よりも回路規模を小さくすることができる。
ただし、第１の実施の形態では最大４つの命令流を同時に４つの全てのＰＥに対し放送できるのに対し、本第２の実施の形態では最大３つの命令流までしか同時にＰＥに対し放送することができない。
例えば、図４から図６、図８から図１０の例から分かるように、同じような４つの命令流Ａ〜Ｄを処理するのに、第１の実施の形態を採った場合では８命令処理ステップ、第２の実施の形態を採った場合では９命令処理ステップ、というように性能差が発生する。
第１の実施の形態と第２の実施の形態の何れかを採用すべきかについては、回路規模と要求する性能とのトレードオフを考慮のうえ決定する必要がある。
以上のように、第２の実施の形態に従ったＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置によれば、第１の実施の形態と同様に、ＰＥアレイの実行性能を改善すること可能であると共に、回路規模をより小さくすることができる。

図１１は、本発明の第３の実施の形態によるＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置の命令選択制御ユニットＳＵ（１０２）の構成を示すブロック図である。なお、説明を簡単にするため、上記第１及び第２の実施の形態と同様、ｋが「４」、命令コードのビット数が３２ビットであるとする。
本発明の第３の実施の形態においては、第２の実施の形態と比べ、マスクレジスタＭＲ（１０１）のビット数を、同一命令流に属する並列実行可能な命令コードの数ｋ（本実施の形態の場合「４」）に制約されずに、ｋを超えたビット数とすることができる点、命令選択制御ユニットＳＵ（１０２）内のセレクタＭＸ（２０３）への入力である制御情報Ｘ１〜Ｘ４（２０２）のうち、制御情報Ｘ１（８ビット）の内容をさらにサブ制御情報Ｘ１０（４０１）とサブ制御情報Ｘ１１（４０２）の２組の４ビット情報に分け、サブ制御情報Ｘ１０の４ビットで新たに追加されたセレクタＤＸ（９０３）を制御し、４（＝ｋ）を超えるビット数を有するマスクレジスタＭＲ（１０１）のビット列の中から４（＝ｋ）ビットを選び出すようにしている点、そしてサブ制御情報Ｘ１１（４０２）をデコーダＤＣ（４０４）を用いて８ビットに拡張した後、制御情報Ｘ１に代わりセレクタＭＸ（２０３）へ入力している点において相違する。
この第３の実施の形態においては、命令選択制御ユニットＳＵ（１０２）以外の構成については、上記第２の実施の形態の構成と同じである。
セレクタＤＸ（９０３）は、４ビットのサブ制御情報Ｘ１０（４０１）を用いることにより、４（＝ｋ）を超えるビット数を有するマスクレジスタＭＲ（１０１）のビット列の中から４（＝ｋ）ビットを選び出すように動作する。
マスクレジスタＭＲ（１０１）のビット数をｋより「１」大きい「５」とした場合を例にとって、サブ制御情報Ｘ１０（４０１）を用いて５ビットのマスクレジスタＭＲ（１０１）の中から計４（＝ｋ）ビットを選び出すセレクタＤＸ（９０３）の動作をフローチャートを図１２に示す。
図１２において、セレクタＤＸ（９０３）は、４ビットのサブ制御情報Ｘ１０（４０１）が「００００」であればマスクレジスタＭＲ（１０１）の第１ビット、第２ビット、第３ビット、第４ビットを、それぞれ第１ビット、第２ビット、第３ビット、第４ビットとするビット列を出力し、「１０００」であればマスクレジスタＭＲ（１０１）の第２ビット、第３ビット、第４ビット、第５ビットを、それぞれ第１ビット、第２ビット、第３ビット、第４ビットとするビット列を出力し、「０１００」であればマスクレジスタＭＲ（１０１）の第１ビット、第３ビット、第４ビット、第５ビットを、それぞれ第１ビット、第２ビット、第３ビット、第４ビットとするビット列を出力し、「００１０」であればマスクレジスタＭＲ（１０１）の第１ビット、第２ビット、第４ビット、第５ビットを、それぞれ第１ビット、第２ビット、第３ビット、第４ビットとするヒット列を出力する。
また、サブ制御情報Ｘ１０（４０１）が「０００１」である場合、マスクレジスタＭＲ（１０１）の第１ビット、第２ビット、第４ビット、第５ビットを、それぞれ第１ビット、第２ビット、第３ビット、第４ビットとするビット列を出力する。
デコーダＤＣ（４０４）は、４ビットのサブ制御情報Ｘ１１（４０２）を、４つのセレクタＭ１〜Ｍ４（２０１）制御するための８ビット制御信号であって、図１３に示す制御内容を実行するための制御情報Ｘ１０（４００）に変換して出力する。
すなわち、図１３の例では、サブ制御情報Ｘ１１（４０２）の４ビットのうち、第１のビットがセレクタＭ１に、第２ビットがセレクタＭ２に、第３ビットがセレクタＭ３に、そして第４ビットがセレクタＭ４に対応しており、第１から第４のビットが「１」の場合にセレクタＭ１〜Ｍ４がそれぞれ命令コードＳ１〜Ｓ４を選択し、「０」の場合にＮＯＰを選択するように制御する。
デコーダＤＣ（４０４）によってサブ制御情報Ｘ１１（４０２）を８ビットの制御情報Ｘ１０（４００）に変換するのは、セレクタＭＸ（２０３）に入力する制御情報Ｘ２〜Ｘ４のビット数と整合性を持たせるためであり、例えば、サブ制御情報Ｘ１１（４０２）の下位（第５ビット〜第８ビット）に４ビット分「０」をパディングすることで８ビットに変換する。
セレクタＭＸ（２０３）は、制御情報選択信号ＭＣ（２０４）に基づき制御情報Ｘ１０（４００）及び制御情報Ｘ２〜Ｘ４（２０２）の中から１つを選択し、命令選択回路ＳＥＬ（１００）に対して命令選択制御信号ＣＸ（１０７）として出力する。
図１４は、セレクタＭＸ（２０３）における、制御情報選択信号ＭＣ（２０４）に基づく制御情報Ｘ１０（４００）及び制御情報Ｘ２〜Ｘ４の選択動作を説明するフローチャートである。
図１４において、セレクタＭＸ（２０３）は、マスクレジスタＭＲ（１０１）からの制御情報選択信号ＭＣ（２０４）が「１０００」であれば制御情報Ｘ１０（４００）を、「０１００」であれば制御情報Ｘ２を、「００１０」であれば制御情報Ｘ３を、「０００１」であれば制御情報Ｘ４を、命令選択制御信号ＣＸ（１０７）として出力する。
また、制御情報選択信号ＭＣ（２０４）が上記の値の何れでもない場合には、セレクタＭ１（２０１）〜Ｍ４（２０１）のそれぞれがＮＯＰ（ＮｏＯｐｅｒａｔｉｏｎ）を選択するように制御する制御情報を命令選択制御信号ＣＸ（１０７）として出力するものとする。
上記本発明の第３の実施の形態は、本発明の第２の実施の形態と比較して、上記のように同一命令流に属する並列実行可能な命令コードの数ｋよりも大きいビット数のマスクレジスタＭＲ（１０１）を利用できるようになっているため、より多数の並列実行可能な命令流が存在する場合に、より効率よく命令処理ステップ数を短縮できるようになる。
以下、その理由について、第３の実施の形態によるＶＬＩＷ方式に基づくＳＩＭＤ型並列演算装置の命令流の並列処理の動作と共に説明する。
ここで、図１５に示すような５つの並列に実行可能な命令流Ａ〜Ｅの命令コード列が放送される場合における並列処理を例にとって説明する。
図１５は、５つの並列に実行可能な命令流Ａ〜Ｅの命令コード列が存在し、かつ命令流Ｅに関しては、図１６に示すような条件が存在する例である。
図１５に示すような５つの並列に実行可能な命令流Ａ〜Ｅの命令コード列が放送される場合、各命令流Ａ〜Ｅを逐次的に実行すると合計２８命令処理ステップが必要となる。
また、上記の第２の実施の形態を用いた場合、マスクレジスタＭＲ（１０１）のビット数がｋ（＝４）であるため、同時には最大で４つの命令流までしか並列に実行できず、したがって命令処理ステップ数は、図１７に示すように計１４ステップかかってしまうことになる。
これに対し、本第３の実施の形態に基づくＳＩＭＤ型並列演算装置に、図１８に示すような命令列（９０２）に従って、その各行の命令コードを各ステップ毎に、シーケンサＣＰ（１０３）から全ＰＥに放送し、同時にステップ毎に図１９に示すようにセレクタＭ１〜Ｍ４の選択動作を制御するための制御情報Ｘ１０（４００）と制御情報Ｘ２〜Ｘ４（２０２）からなる命令選択制御信号Ｘ（１０６）を全ＰＥに放送し、かつ図１９に示すようにセレクタＤＸ（４０３）を制御することにより、５ビットのマスクレジスタＭＲ（１０１）から４ビットを選び出し制御情報選択信号ＭＣ（２０４）としてセレクタＭＸ（２０３）に供給すれば、９命令処理ステップで５つの全命令流の処理を終了させることができる。
この場合、第２の実施の形態を利用した場合の処理と比べて、約１．６倍の高速化を実現できるものである。
ただし、第１の実施の形態と同様、マスクレジスタＭＲ（１０１）に設定される５ビットの制御情報選択信号ＭＣ（２０４）については、その第１ビット目から第５ビット目には以下のような規則に基づいて予め値が格納されている。
すなわち、制御情報選択信号ＭＣ（２０４）は、命令流Ａを実行する場合は第１ビット目に「１」（それ以外のビットは全てゼロ）、命令流Ｂを実行する場合は第２ビット目に「１」（それ以外のビットは全てゼロ）、命令流Ｃを実行する場合は第３ビット目に「１」（それ以外のビットは全てゼロ）、命令流Ｄを実行する場合は第４ビット目に「１」（それ以外のビットは全てゼロ）、そして命令流Ｅを実行する場合は第５ビット目に「１」（それ以外のビットは全てゼロ）という規則に基づいた値が格納されているものとする。
このように本発明の第３の実施の形態によれば、本発明の第２の実施の形態を利用した場合と比べ、相異なる命令流同士が同一命令処理ステップにおいて同一命令を実行する場合に、より高速な処理を実現することができる。
特に、高級言語記述から命令コード列を自動生成するコンパイラを利用した場合には、同じ命令シーケンスが相異なる命令流中に同時に出現する可能性が高いため、本発明の第３の実施の形態の有効性が顕著となる。
以上好ましい複数の実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。
例えば、上記第１から第３の実施の形態では、ｋを４、命令コードのビット数を３２ビットとした場合の回路構成について説明したが、ｋが２以上であれば、上記以外の構成についても本発明を適用することができるのは言うまでもない。
本発明によれば、一つのシーケンサで複数の命令流を同時に実行することができるＶＬＩＷ方式に基づくプロセッシングエレメントを有するＳＩＭＤ方式の演算処理装置を実現することが可能となる。

Claims

同一命令流に属する命令コードを並列に実行することが可能な超長命令語型のプロセッシング・エレメントを有するＳＩＭＤ型並列演算装置であって、
並列実行可能な命令コードの数以下の相異なる複数の命令流に属する並列実行可能な命令コードを、前記命令流に伴って放送される命令選択情報に基づいて選択し前記プロセッシング・エレメントで実行し、
ｋ（ｋは２以上の整数）個の命令コード及び前記命令選択情報を前記各プロセッシング・エレメントに放送するシーケンサと、
前記各プロセッシング・エレメントの前記命令流に対する動作又は非動作を指定するｋビット以上の値を格納するマスクレジスタと、
ｋ個の命令コードを最大ｋ個の相異なる命令流に復元する命令選択回路と、
前記マスクレジスタの値と前記命令選択情報を入力とし、前記命令選択回路を制御するための命令選択制御信号を出力とする命令選択制御ユニットとを有し、
前記命令選択情報が、前記命令選択回路のセレクタの選択動作を制御するｋ個の制御情報からなる
ことを特徴とするＳＩＭＤ型並列演算装置。
前記命令選択回路が、
ｋ＋１の入力から１を選択するｋ個のセレクタであって、ｋ個の前記命令コードを選択するセレクタを備え、
前記命令選択制御ユニットが、
前記ｋ個の制御情報を、前記マスクレジスタの値に基づいて選択し、前記命令選択制御信号として前記命令選択回路に出力することを特徴とする請求項１に記載のＳＩＭＤ型並列演算装置。
前記シーケンサが放送する命令選択情報に応じ、前記各プロセッシング・エレメントが、単一命令流動作と複数命令流動作の切り替えを行い、
前記命令選択制御ユニットが、
前記単一命令流動作の場合、予め設定された既定値を前記命令選択制御信号として出力し、複数命令流動作の場合、ｋ個の命令コードのうちの１つを前記命令選択情報として入力することを特徴とする請求項１に記載のＳＩＭＤ型並列演算装置。
前記命令選択回路が、
ｋの入力から１を選択するｋ個のセレクタであって、ｋ−１個の前記命令コードを選択するセレクタを備え、
前記命令選択制御ユニットが、
前記シーケンサが放送する１ビットの命令選択情報の値に応じて、予め設定された既定値を前記命令選択制御信号として出力し、又は前記ｋ個の制御情報を、前記マスクレジスタの値に基づいて選択し、前記命令選択制御信号として前記命令選択回路に出力することを特徴とする請求項３に記載のＳＩＭＤ型並列演算装置。
前記各プロセッシング・エレメントの命令選択制御ユニットが、
前記複数命令流動作の場合に、ｋより大きなビット数の前記マスクレジスタからｋ個のビットを選び出すためのセレクタを有することを特徴とする請求項３又は請求項４に記載のＳＩＭＤ型並列演算装置。
前記制御情報の１つを２つのサブ制御情報に分け、一方の前記サブ制御情報をデコードして当該制御情報として利用すると共に、他方の前記サブ制御情報を、前記セレクタを制御して前記マスクレジスタからｋ個のビットを選択するのに利用することを特徴とする請求項５に記載のＳＩＭＤ型並列演算装置。
同一命令流に属する命令コードを並列に実行することが可能な超長命令語型のプロセッシング・エレメントを有するＳＩＭＤ型並列演算装置における制御方法であって、
並列実行可能な命令コードの数以下の相異なる複数の命令流に属する並列実行可能な命令コードを、前記命令流に伴って放送される命令選択情報に基づいて選択するステップと、
前記選択した前記命令コードを前記プロセッシング・エレメントで実行させるステップと、
シーケンサが、ｋ（ｋは２以上の整数）個の命令コード及び前記命令選択情報を前記各プロセッシング・エレメントに放送するステップと、
命令選択制御ユニットが、前記各プロセッシング・エレメントの前記命令流に対する動作又は非動作を指定するｋビット以上の値を格納するマスクレジスタの値と前記命令選択情報を入力とし、ｋ個の命令コードを最大ｋ個の相異なる命令流に復元する命令選択回路を制御するための命令選択制御信号を出力とするステップとを有し、
前記命令選択情報が、前記命令選択回路のセレクタの選択動作を制御するｋ個の制御情報からなる
ことを特徴とする制御方法。
前記命令選択回路が、ｋ＋１の入力から１を選択するｋ個のセレクタであって、ｋ個の前記命令コードを選択するセレクタを備え、
前記命令選択制御ユニットが、前記ｋ個の制御情報を、前記マスクレジスタの値に基づいて選択し、前記命令選択制御信号として前記命令選択回路に出力するステップを有することを特徴とする請求項７に記載の制御方法。
前記シーケンサが放送する命令選択情報に応じ、前記各プロセッシング・エレメントが、単一命令流動作と複数命令流動作の切り替えを行い、
前記命令選択制御ユニットが、前記単一命令流動作の場合、予め設定された既定値を前記命令選択制御信号として出力し、複数命令流動作の場合、ｋ個の命令コードのうちの１つを前記命令選択情報として入力することを特徴とする請求項７に記載の制御方法。
前記命令選択回路が、ｋの入力から１を選択するｋ個のセレクタであって、ｋ−１個の前記命令コードを選択するセレクタを備え、
前記命令選択制御ユニットが、前記シーケンサが放送する１ビットの命令選択情報の値に応じて、予め設定された既定値を前記命令選択制御信号として出力し、又は前記ｋ個の制御情報を、前記マスクレジスタの値に基づいて選択し、前記命令選択制御信号として前記命令選択回路に出力することを特徴とする請求項９に記載の制御方法。
前記各プロセッシング・エレメントの命令選択制御ユニットが、前記複数命令流動作の場合に、ｋより大きなビット数の前記マスクレジスタからｋ個のビットを選び出すことを特徴とする請求項９又は請求項１０に記載の制御方法。
前記制御情報の１つを２つのサブ制御情報に分け、一方の前記サブ制御情報をデコードして当該制御情報として利用すると共に、他方の前記サブ制御情報を、前記セレクタを制御して前記マスクレジスタからｋ個のビットを選択するのに利用することを特徴とする請求項１１に記載の制御方法。
ＳＩＭＤ型並列演算装置を構成する同一命令流に属する命令コードを並列に実行することが可能な超長命令語型のプロセッシング・エレメントであって、
並列実行可能な命令コードの数以下の相異なる複数の命令流に属する並列実行可能な命令コードを、前記命令流に伴って放送される命令選択情報に基づいて選択して実行し、
シーケンサから放送されるｋ（ｋは２以上の整数）個の命令コード及び前記命令選択情報を入力し、
前記命令流に対する動作又は非動作を指定するｋビット以上の値を格納するマスクレジスタと、
ｋ個の命令コードを最大ｋ個の相異なる命令流に復元する命令選択回路と、
前記マスクレジスタの値と前記命令選択情報を入力とし、前記命令選択回路を制御するための命令選択制御信号を出力とする命令選択制御ユニットとを有し、
前記命令選択情報が、前記命令選択回路のセレクタの選択動作を制御するｋ個の制御情報からなる
ことを特徴とするプロセッシング・エレメント。
前記命令選択回路が、
ｋ＋１の入力から１を選択するｋ個のセレクタであって、ｋ個の前記命令コードを選択するセレクタを備え、
前記命令選択制御ユニットが、
前記ｋ個の制御情報を、前記マスクレジスタの値に基づいて選択し、前記命令選択制御信号として前記命令選択回路に出力することを特徴とする請求項１３に記載のプロセッシング・エレメント。
前記シーケンサが放送する命令選択情報に応じ、単一命令流動作と複数命令流動作の切り替えを行い、
前記命令選択制御ユニットが、
前記単一命令流動作の場合、予め設定された既定値を前記命令選択制御信号として出力し、複数命令流動作の場合、ｋ個の命令コードのうちの１つを前記命令選択情報として入力することを特徴とする請求項１３に記載のプロセッシング・エレメント。
前記命令選択回路が、
ｋの入力から１を選択するｋ個のセレクタであって、ｋ−１個の前記命令コードを選択するセレクタを備え、
前記命令選択制御ユニットが、
前記シーケンサが放送する１ビットの命令選択情報の値に応じて、予め設定された既定値を前記命令選択制御信号として出力し、又は前記ｋ個の制御情報を、前記マスクレジスタの値に基づいて選択し、前記命令選択制御信号として前記命令選択回路に出力することを特徴とする請求項１５に記載のプロセッシング・エレメント。
前記命令選択制御ユニットが、
前記複数命令流動作の場合に、ｋより大きなビット数の前記マスクレジスタからｋ個のビットを選び出すためのセレクタを有することを特徴とする請求項１５又は請求項１６に記載のプロセッシング・エレメント。
前記制御情報の１つを２つのサブ制御情報に分け、一方の前記サブ制御情報をデコードして当該制御情報として利用すると共に、他方の前記サブ制御情報を、前記セレクタを制御して前記マスクレジスタからｋ個のビットを選択するのに利用することを特徴とする請求項１７に記載のプロセッシング・エレメント。