JP4234925B2

JP4234925B2 - データ処理装置、制御方法およびその記録媒体

Info

Publication number: JP4234925B2
Application number: JP2001520598A
Authority: JP
Inventors: 友美佐藤
Original assignee: アイピーフレックス株式会社; 友美佐藤
Priority date: 1999-08-30
Filing date: 2000-08-30
Publication date: 2009-03-04
Anticipated expiration: 2020-08-30
Also published as: WO2001016717A8; EA200200309A1; CN1148647C; EA004196B1; TW504608B; CA2348261A1; ATE466330T1; CA2348259A1; WO2001016710A1; JP3842129B2; EP1215569B1; TW495711B; WO2001016711A1; US20050038550A1; CA2348261C; EP1215569A4; DE60044300D1; BR0013595A; CN1301459C; KR100491593B1

Description

技術分野
本発明は、マイクロコードなどにより記述されたプログラム製品、およびそのプログラムを実行可能なデータ処理装置に関するものである。
背景技術
汎用的な処理および専用的なデジタルデータの処理を行う装置として、マイクロプロセッサー（ＭＰＵ）、デジタル・シグナルプロセッサー（ＤＳＰ）といった演算機能を内蔵したプロセッサ（データ処理装置あるいはＬＳＩ）が知られている。これらの性能向上に大きく貢献したアーキテクチャ要素として、パイプライン化技術、スーパー・パイプライン化技術、スーパー・スケーラ化技術、ＶＬＩＷ技術、特化型データパス（専用命令）を挙げることができる。さらに、分岐予測やレジスタバンク、キャッシュ技術等も挙げることができる。
ＶＬＩＷ技術は、予めデータパスを並列実行可能なように構成しておき、コンパイラがこの並列実行を高めるように、最適化を行い目的のＶＬＩＷ命令コードを生成するという考え方であり、極めて合理的な考え方を採用している。これにより、スーパー・スケーラのように１つ１つの命令の並列実行の可能性をチェックする回路が不要なので、並列実行を行うハードウェアの実装手段としては、極めて有望とされているものである。しかしながら、画像処理や特殊データ処理を必要とするアプリケーションの処理を用途とするプロセッサを考えると、ＶＬＩＷも最適な解決策とはならない。特に演算結果の連続処理を要求されるような用途では、汎用レジスタにデータを抱えながらの演算やデータ処理には限界があるからである。これは従来のパイプライン技術でも同様である。
一方、各種のマトリックス計算やベクトル計算等は、専用回路によりこれを実現した方が高い性能を得られることは過去の経験から良く知られている。このため、現在、世界最高性能を目指す最先端の実装技術では、ＶＬＩＷをベースにアプリケーションの目的に応じて、各種の専用演算回路を実装して、最高性能を目指すという考え方が主流になりつつある。
しかしながら、ＶＬＩＷは、プログラムカウンタ近傍の並列処理実行効率を改善する技術であり、例えば２つ以上のオブジェクトを同時に実行したり、２つ以上の関数を実行するにはあまり有効な手段とはならない。また、各種の専用演算回路を実装することはハードウェアが増加することとなり、その一方で、ソフトウェアのフレキシビリティーが低下することを意味する。
ＦＰＧＡ（Field Programmable Gate Arrays）のようにトランジスタ間の接続を変更可能なアーキテクチャは、ある程度動的に制御できるものであり、各種の専用演算回路を実現することも可能である。しかしながら、ＦＰＧＡ自体は、ハードウェアをダイナミックに変更するには時間がかかり、また、その時間を短縮するためのハードウェアが必要となる。このため、アプリケーションの実行中にハードウェアを動的に制御することは難しく、さらに、経済的な解であるとも言えない。すなわち、ＦＰＧＡの再構成情報を二面以上のＲＡＭに保持し、バックグラウンドで実行する事により、見かけ上短い時間で動的なアーキテクチャ変更を行う方式も可能であるが、もし、数クロック以内にこの再構成を行う事を可能とするためには、考えられる組み合わせの数の再構成情報を全て格納するＲＡＭを実装する必要があり、これは、本質的にＦＰＧＡの再構成時間が大きく掛かるという経済的な問題を一切解決していない。また、ＦＰＧＡが、本来ハードウェアのゲートに注目したマッピングを効率良く実現しようとするために抱えている問題、即ち実用上のＡＣ特性の悪さをについては、当面解決出来そうも無い。
そこで、本発明においては、複雑なデータ処理に対し、それらのデータ処理に特化した多種多様な専用回路を用いなくても、それぞれのデータ処理をフレキシブルに、そして高速に実行可能なシステム、すなわち、プログラム製品と、それを実行可能なデータ処理装置およびその制御方法を提供することを目的としている。さらに、アプリケーションの実行中でもハードウェアを動的に制御することを可能とし、ソフトウェアレベルのフレキシビリティーをハードウェアレベルで実現し、様々なデータ処理を高速で実行可能であり、さらに経済的なデータ処理装置およびその制御方法、さらにはプログラム製品を提供することを目的としている。
発明の開示
データ処理装置は、それぞれ独自のコンフィグレーションメモリを備えた複数の処理ユニットであって、独自のコンフィグレーションメモリのデータが書き換えられることにより、入力および／または出力インタフェースを介した他の処理ユニットとの接続および当該処理ユニットの処理内容が変更され、当該複数の処理ユニットの少なくとも一部によりデータパスを構成変更可能な複数の処理ユニットと、汎用命令による処理を実行する汎用データ処理ユニットと、少なくとも１つの処理ユニットの入力および／または出力インタフェースを介した他の処理ユニットとの接続および少なくとも１つの処理ユニットの処理内容の組み合せを、処理ユニットにより処理を実行する時期とは独立して、それぞれの処理ユニットの単位で、または複数の処理ユニットからなる処理ブロックの単位で指示するデータフロー指定命令、および、少なくとも１つの処理ユニットにより処理を実行する時期より前に汎用データ処理ユニットにおいて実行される処理を指示する汎用命令を含む命令セットをフェッチ可能なユニットと、汎用命令による他の処理を制御する制御ユニットと、制御ユニットおよび／または汎用データ処理ユニットにおける汎用命令による他の処理と並列して、データフロー指定命令をデコードし、少なくとも１つの処理ユニットの独自のコンフィグレーションメモリのデータを個々に、または他の処理ユニットの独自のコンフィグレーションメモリのデータと共に書き換え、少なくとも１つの処理ユニットの入力および／または出力インタフェースを介した他の処理ユニットとの接続および少なくとも１つの処理ユニットの処理内容を、それぞれの処理ユニットの単位、または処理ブロックの単位で設定し、それぞれの処理ユニットの単位、または処理ブロックの単位によるデータパスを構成可能なデータフロー指定ユニットとを有する。このため、複数の処理ユニットの組み合わせからなるデータパスをプログラムで変更し、様々なデータ処理を、その処理に適したハードウェア、すなわち、データパスあるいはデータフローで実行することができる。
また、それぞれ独自のコンフィグレーションメモリを備えた複数の処理ユニットであって、独自のコンフィグレーションメモリのデータが書き換えられることにより、入力および／または出力インタフェースを介した他の処理ユニットとの接続および処理ユニットの処理内容が変更され、当該複数の処理ユニットの少なくととも一部によりデータパスを構成可能な複数の処理ユニットと、汎用命令により処理を実行する汎用データ処理ユニットと、汎用命令による他の処理を制御する制御ユニットとを有する本発明のデータ処理装置の制御方法においては、少なくとも１つの処理ユニットの入力および／または出力インタフェースを介した他の処理ユニットとの接続および少なくとも１つの処理ユニットの処理内容の組み合わせを、少なくとも１つの処理ユニットにより処理を実行する時期とは独立して、それぞれの処理ユニットの単位で、または複数の処理ユニットからなる処理ブロックの単位で指示するデータフロー指定命令、および、少なくとも１つの処理ユニットにより処理を実行する時期より前に汎用データ処理ユニットにおいて実行される処理を指示する汎用命令を含む命令セットを、データ処理装置のフェッチユニットがフェッチする工程と、データ処理装置のデータフロー指定ユニットが、制御ユニットおよび／または汎用データ処理ユニットにおける汎用命令による他の処理と並列に、データフロー指定命令をデコードし、少なくとも１つの処理ユニットの独自のコンフィグレーションメモリのデータを個々に、または他の処理ユニットの独自のコンフィグレーションメモリのデータと共に書き換え、処理ユニットの入力および／または出力インタフェースを介した他の処理ユニットとの接続および少なくとも１つの処理ユニットの処理内容を、それぞれの処理ユニットの単位、または処理ブロックの単位で設定し、それぞれの処理ユニットの単位、または前記処理ブロックの単位によるデータパスを構成するデータフロー指定工程とを有する。
従来は、複雑なデータ処理は、専用回路を用意し、その専用回路を用いる専用命令化するしか対応方法が無くハードウェアコストが増大する。これに対し、本発明のシステム、すなわち、プログラム製品、データ処理装置およびその制御方法においては、論理演算ユニットなどの処理ユニットのインタフェースを記述できるので、パイプライン制御やデータパス制御の構造を命令セット、すなわちプログラム製品の中に取り込むことが可能となる。したがって、様々なデータ処理を、プログラムで記述し、それに適したハードウェアで実行することが可能となり、ソフトウェアのフレキシビリティーと専用回路を用いた高速性を兼ね備えたデータ処理装置を提供することができる。さらに、これらのデータパスは主要な処理あるいは汎用的な処理の実行を中止させないで実現することが可能であり、アプリケーションの実行中に動的にハードウェアを変更することが容易に実現できる。
さらに、本発明は、プログラムカウンタの近傍の並列処理を実行だけでなく、２つ以上オブジェクトの同時擬似実行や２つ以上の関数の同時擬似実行に有効な手段を提供することになる。つまり、従来の命令セットでは、２つ以上のコンテキストの異なるデータ処理やアルゴリズム実行等の、それぞれ離れたプログラムカウンタに基づく処理が同時に起動ができなかったのに対し、本発明においてはデータフロー指定命令を用いてデータフローを適当に定義することにより、プログラムカウンタにかかわらずに処理を実行することが可能となる。
したがって、本命令セットを用いると、並列処理に対して、予めアプリケーション側から見て性能向上に有効と思われるデータパスをソフトウェアから組み込むことが可能であり、それにより実現されたデータパス（データフロー）を必要に応じて、さらにソフトウェアから命令レベルで起動することができる。このデータパスは、特定の目的に対応したデータ処理だけでなく、一般のステートマシンを起動するような目的にも使用可能なので、極めて自由度が高い。
そして、本発明においては、データフロー指定命令により処理ユニットのインタフェースを指示することにより、処理ユニットの組み合わせによるデータパスを変更できるようにしている。このため、ＦＰＧＡのようにトランジスタ間の接続を変更するアーキテクチャと異なり、適当な、あるいは特定のデータ処理機能を備えた処理ユニット間のインタフェースを切り替えるだけデータパスを定義できるので、短時間でハードウェアを再構成することができる。さらに、本発明のデータ処理装置は、ＦＰＧＡのようにトランジスタレベルでの汎用性を要求するアーキテクチャではないので、実装密度も向上でき、コンパクトで経済的なシステムＬＳＩなどのデータ処理装置を提供できる。さらに、冗長な構成を削減することができるので、処理速度も高速化でき、ＡＣ特性も向上する。
このように、本発明のデータ処理装置およびその制御方法においては、データ処理装置に含まれる少なくとも１つの処理ユニットのインタフェースを介した他の処理ユニットとの接続を規定する命令を記載あるいは記述することにより、データフロー指定を行うことが可能となる。これにより、データパスの独立性を高めることが可能となり結果的にデータフロー指定を別命令プログラムを実行しながら行ったり、アイドル状態にあるデータ処理装置の内部のデータパスを、外部の他のデータ処理装置あるいは同一チップ内の他のデータ処理系統において実行されている緊急度の高い処理のために貸し出すことも許すような構造を容易に提供することが可能となる。
さらに、データフロー指定命令によりデータパスを組み合わせて構成可能な処理ユニットの処理内容を変更できることが望ましい。すなわち、データフロー指定ユニットおよびデータフロー指定工程においては、データフロー指定命令により、処理ユニットの処理内容を変更可能であることが望ましい。これにより、処理ユニットを組み合わせて構成するデータパスのフレキシビリティーを向上でき、より多くのデータ処理を少ないハードウェア資源でデータフロー型の処理に持ち込み、高性能化することができる。
このため、本発明においては、処理ユニットとして、特定の内部データパスを備えた回路ユニットを採用することが望ましい。すなわち、ある程度コンパクトなデータパスを備えた処理ユニットをテンプレート的に用意しておき、そのデータパス間の組み合わせを指示してデータフロー型の処理に持ち込むと共に、データフロー指定命令により、処理ユニットの内部データパスの一部を選択して処理ユニットの処理内容を変更することにより、さらにフレキシブルに、そして短時間にハードウェアを再構成できる。
たとえば、処理ユニットに、少なくとも１つの論理ゲートと、この論理ゲートと入出力インタフェースを接続する内部データパスとを設けておくことにより、入出力されるデータの順番を変えたり、論理ゲート間の接続あるいは選択を変えることにより処理ユニットの処理内容を変更できる。そして、トランジスタレベルで回路を再構成するＦＰＧＡに比較すると、予め用意された内部データパスの一部を選択するだけで良いので、短時間で処理内容を変更できる。さらに、予め用意された内部データパスを使用するので、冗長な回路要素は少なく、トランジスタの面積利用効率も高い。したがって、実装密度も高く、経済的である。さらに、高速処理に適したデータパスを構築でき、ＡＣ特性も高い。このため、本発明においては、データフロー指定命令により、データフロー指定ユニットおよび工程において、処理ユニットの内部データパスの一部を選択可能とすることが望ましい。
さらに、データフロー指定命令により設定された各処理ユニットのインタフェースを介した他の処理ユニットとの接続を保持するスケジュールを管理するように、データフロー指定ユニットは処理ユニットのインタフェースを管理するスケジューラとしての機能を備えていることが望ましい。例えば、ある一定時間だけ、マトリックス計算を行い、その後にフィルター処理を行う場合は、予めそれらの処理に必要なデータ処理装置内部の処理ユニット間の接続を指定し、時間を計数するカウンターを使ってこれを実現する事が出来る。計数カウンターを別の比較回路や外部イベント検出器に置き換える事で、より複雑で柔軟性のあるスケジューリング処理を実現可能となる。
また、データフロー指定命令により、複数の処理ユニットにより構成される処理ブロックの入力および／または出力インタフェースを介した複数の処理ユニットの接続を規定できるようにすることが望ましい。複数の処理ユニットのインタフェースを介した複数の処理ユニットの接続を１命令で変更可能とすることにより、複数の処理ユニットが関連するデータパスの変更が１命令で処理することができる。したがって、データフロー指定ユニットあるいは工程では、データフロー指定命令により、複数の処理ユニットにより構成される処理ブロックの入力および／または出力インタフェースを変更可能であることが望ましい。
さらに、処理ブロックの入力および／または出力インタフェースを介した他の処理ユニットとの接続を規定する複数のコンフィグレーションデータを格納したメモリを設け、データフロー指定ユニットあるいは工程においては、データフロー指定命令によりメモリに格納された複数のコンフィグレーションデータの１つを選択し、処理ブロックの入力および／または出力インタフェースを変更できるようにすることが望ましい。データフロー指定命令によりコンフィグレーションデータを指定できるようにすることにより、命令自体は冗長にせずに複数の処理ユニットのインタフェースの変更をプログラムから制御することができる。
発明を実施するための最良の形態
以下に図面を参照して、本発明をさらに詳しく説明する。図１に、本発明にかかるデータフロー指定命令を記述するのにて適した命令セット（命令フォーマット）の構成を示してある。この命令セット（ＤＡＰ／ＤＮＡの命令セット）１０は、第１のフィールドである命令実行基本フィールド（Ｘフィールド）１１と呼ばれる部分と、次の命令実行の効率化を図ることができる第２のフィールドである次命令実行準備サイクル（追加フィールドあるいはＹフィールド）１２と呼ばれる２つのフィールドを備えている。命令実行基本フィールド（Ｘフィールド）１１は、加減演算、論理和、論理積、比較などのデータの演算、および分岐などのその他の各種のデータ処理の内容を指定し、その結果が格納される先（ディスティネーション）を指定する。また、Ｘフィールド１１は、命令長の使用効率を上げるために実際に実行される命令の情報しか含まない。一方、追加フィールド（Ｙフィールド）１２は、同一の命令セットのＸフィールド１１の実行命令とは独立した命令（情報）が記述可能であり、たとえば、次の命令の実行準備サイクルに割当てられる。
さらに詳しく命令セット１０を説明すると、Ｘフィールド１１は、算術論理演算ユニットなどの処理ユニットに対する命令操作あるいは実行命令（Execution ID）を記述する実行命令フィールド１５と、Ｙフィールド１２の有効／無効およびＹフィールド１２で示す準備命令のタイプを示すフィールド（タイプフィールド）１６と、ディスティネーションのレジスタを示すフィールド１７とを備えている。タイプフィールド１６の内容は、Ｙフィールド１２に関連したものであり、Ｘフィールド１１の他のフィールドの内容とは独立して、別に定義できることは上述した通りである。
また、Ｙフィールド１２は、タイプフィールド１６によって規定される準備情報が記述される。このＹフィールド１２に記述される準備情報は、演算または他のデータ処理を実行可能な状態にするための情報であり、図２に具体的な幾つかの例を示してある。先ず、ＴＹＰＥフィールド１６はＸフィールド１１に含まれているが、実行命令フィールド１５とは独立あるいは無関係に記述できる。そして、Ｙフィールド１２には、アドレスＩＤ（ＡＩＤ）２１と、それによって利用目的が規定されるアドレス情報２２を記述するアドレス情報フィールド２６として利用することができる。このＹフィールド１２に記述されたアドレス情報は、レジスタあるいはバッファとメモリ（レジスタファイルを含む）との間のリードおよびライトに用いられ、ＤＭＡのようにブロック転送も可能な構成になっている。さらに、分岐命令を実行したときの分岐先を示すアドレス（フェッチアドレス）、並列実行するときのスタートアドレスなどの情報もＹフィールド１２に記述することができる。
また、レジスタタイプの命令、たとえば、算術演算あるいはその他の論理演算命令（ＭＯＶＥ、メモリーリード／ライトなども含む）に対してソース側となるレジスタ情報あるいは即値（イミーディエイト）を規定する情報２３もＹフィールド１２に記述することができる。すなわち、Ｙフィールド１２を以降の実行命令のためのソースを規定するフィールド２７として利用することができる。
さらに、Ｙフィールド１２には、算術論理演算ユニット（ＡＬＵ）あるいは他のデータ処理ユニット、たとえば所定のデータパスを備えた処理ユニット（以降においてはテンプレート）のインタフェース（ソース、ディスティネーション）および処理内容の組み合わせを規定するデータフロー指定命令２５も記述することが可能である。すなわち、Ｙフィールド１２は、リコンフィグラブルなデータパスなどを、特定のデータ処理を行うために、それらのパイプライン（データフローあるいはデータパス）を定義するためのフィールド２８として利用することができる。もちろん、Ｙフィールド１２には、そのデータフローをスタートする情報および終了するデータフロー指定命令２５を記述することが可能である。したがって、Ｙフィールド１２を用いてリコンフィグラブルなデータパスを定義して生成したデータフローにより、コードＲＡＭからコードをフェッチするプログラムカウンタとは独立した処理を行うことができる。
以下ではＸフィールド１１およびＹフィールド１２に実行命令あるいは準備命令が記載あるいは記述された例を説明するが、これらのフィールドに命令を記述せず（ＮＯＰを記述し）、Ｘフィールド１１あるいはＹフィールド１２だけが意味を持つような命令セットも可能である。さらに、ニーモニックな実行命令と、データフロー指定命令が混在した命令セットを備えたプログラム製品も可能であり、データフロー指定命令が連続して記述されたプログラム製品も可能である。そして、記述される形態は問わずに、データフロー指定命令を含むプログラム製品あるいはそのプログラムを記録した記録媒体なども本発明の範囲に含まれる。
図３に、本例の命令セット１０の簡単な例を示してある。ｊ−１番目の命令セット１０であるＴ（ｊ−１）は、そのＸフィールド１１のタイプフィールド１６に、同一の命令セットのＹフィールド１２に３２ビットのイミーディエイトが記述されていることが示されている。そして、その命令セットＴ（ｊ−１）のＹフィールド１２には、イミーディエイトとして「＃００００１２３４Ｈ」が記載されている。次のｊ番目の命令セットＴ（ｊ）には、Ｘフィールド１１の実行命令フィールド１５にＭＯＶＥが記述され、ディスティネーションフィールド１７にレジスタＲ３が記載されている。このため、このｊ番目の命令セットＴ（ｊ）をフェッチすると、制御ユニットのＡＬＵは、前の命令フィールドＴ（ｊ−１）に定義されたイミーディエイト「＃００００１２３４Ｈ」をレジスタＲ３に格納する。
このようにして、本例の命令セット１０（以降では、ｊ番目の命令セット１０を命令セットＴ（ｊ）で示す）では、実行命令が記述された命令セットＴ（ｊ）の前の命令セットＴ（ｊ−１）によりその実行命令の準備が行われる。したがって、命令セットＴ（ｊ）だけでは制御ユニットを構成するＡＬＵが実行する処理内容は判らないが、２つの命令セットＴ（ｊ−１）およびＴ（ｊ）によりＡＬＵが実行する処理内容は一義的に決定される。また、命令セットＴ（ｊ−１）の実行命令フィールド１５には、その命令セットのＹフィールド１２とは独立して命令セットＴ（ｊ−１）の前の命令セットのＹフィールド１２により準備された処理を実行する命令が記述されている。さらに、命令セットＴ（ｊ）のタイプフィールド１６およびＹフィールド１２には、次の命令セットの実行命令フィールドに記述された実行命令の準備をする情報が記述されている。
本例では、ある実行命令がＸフィールド１１に記述された命令セットＴ（ｊ）の直前の命令セットＴ（ｊ−１）のＹフィールド１２に、その実行命令の準備情報（準備命令）が記述されている。すなわち、準備命令のレイテンシーが１クロックの例となっているが、準備情報が記述される命令セットは、直前の命令セットにかぎられるものではない。例えば、複数のＡＬＵを備えた制御ユニットの制御プログラム、あるいは後述するデータフロー制御を目的とする準備命令などであれば直前の命令セットである必要はない。準備命令によってセットされたＡＬＵの状態（環境あるいはインタフェース）あるいはテンプレートの構成が、その準備命令に対応する実行命令を備えた命令セットがフェッチされて実行されるまで保持されるのであれば、実行命令を備えた命令セット１０の数命令前の命令セット１０のＹフィールド１２で準備命令を記述できる。
図４に、図３に示した命令セットによりレジスタとして機能するレジスタファイルあるいはメモリに値が格納される様子を示してある。プロセッサがｊ−１番目の命令セットＴ（ｊ−１）をフェッチして、そのＹフィールド１２の準備命令によりイミーディエイト「＃００００１２３４Ｈ」がプロセッサのＡＬＵのソース側のレジスタＤＰ０．Ｒにラッチされる。そして、プロセッサが次のｊ番目の命令セットＴ（ｊ）をフェッチし、そのＸフィールド１１の実行命令であるＭＯＶＥを実行するサイクルでバッファ２９ｂにストアされる。その後、メモリまたはレジスタファイル２９ａのレジスタＲ３のアドレスにバッファ２９ｂの値が格納される。したがって、格納先がレジスタではなくメモリであっても、本例の命令セット１０を用いると、準備情報に基づく処理を実行命令に先立って行うことにより、実行命令のサイクルでデータをロードあるいはストアすることができる。
図５に、本例の命令セット１０により処理内容が記述されたプログラムを実行可能な制御ユニット３０を備えたプロセッサ（データ処理装置）３８の概略構成を示してある。本例の命令セット１０を具備したマイクロコードあるいはマイクロプログラム１８はコードＲＯＭ３９に記憶されている。制御ユニット３０は、コードＲＯＭ３９からマイクロプログラムの命令セット１０をプログラムカウンタによって随時フェッチするフェッチユニット３１と、フェッチされた命令セット１０のＸフィールド１１をデコードしてＡＬＵ３４の処理内容を決定あるいはアサートすると共に、ＡＬＵ３４の論理演算結果をディスティネーションのレジスタ３４ｄを選択してラッチする機能を備えた第１の実行制御ユニット３２を備えている。
さらに、制御ユニット３０は、フェッチされた命令セット１０のＹフィールド１２をＸフィールド１１のタイプフィールド１６の情報に基づいてデコードし、演算処理ユニット（ＡＬＵ）３４のソース側のレジスタ３４ｓを選択する機能を備えた第２の実行制御ユニット３３を備えている。この第２の実行制御ユニット３３は、タイプフィールド１６の情報を除き、Ｙフィールド１２の命令あるいは情報をＸフィールド１１の内容とは独立して解釈することができる。第２の実行制御ユニット３３は、さらに、Ｙフィールド１２に記述された情報がデータフローを規定するものであれば、ＡＬＵ３４のソース側およびディスティネーション側の選択あるいは設定、すなわち、ＡＬＵ３４のインタフェースを決定し、さらに、その状態を所定のクロックあるいは解除の指示があるまで連続的に保持する機能も備えている。また、Ｙフィールド１２の情報がデータフローを規定する場合は、この第２の実行制御ユニット３３は、さらに、ＡＬＵ３４の処理内容も決定し、その状態を所定の期間保持する。
本例の制御ユニット３０は、さらに、このような実行制御ユニット３２および３３と、ＡＬＵ３４の組み合わせを複数備えており、これらによって様々な処理が実行できるようになっている。したがって、本例の制御ユニット３０をコアあるいは周辺回路として画像データを高速で処理するようなＤＳＰ、汎用のデジタル処理を高速で行えるＣＰＵあるいはＭＰＵなどを構成することが可能である。
図６ないし図９に、本例の制御ユニット３０で実行するプログラムの一例を示してある。図６に示したサンプルプログラム４１は、従来のＣＰＵあるいはＤＳＰで実行可能なように作成した例である。このプログラムは、＃ＳＴＡＲＴのアドレスから始まるテーブルから最も大きな値を抽出し、最終データであることを示す＃ＥＮＤを検出すると終了するプログラムである。
図７に記載したプログラム４２は、図６と同じ処理を本発明にかかる命令セットを実行可能な制御ユニット３０に適したプログラムに変換したものであり、２命令を１つの命令セットで実行できる例を示してある。図７に示したプログラムは、コンパイラを通して本発明にかかる命令セットの実行プログラムに変換され、制御ユニット３０で実行される。図８にコンパイルされたプログラム４３を示してある。このプログラム４３と、プログラム４２とを比較すると判るように、第１の番目の命令セット１０のＹフィールド１２で２番目の命令セット１０の実行命令１５の準備が行われる。すなわち、タイプフィールド１６に準備情報としてイミーディエイトがＹフィールド１２に記述されていることが示されており、Ｙフィールド１２をデコードした第２の実行制御ユニット３２によりイミーディエイトがＡＬＵ３４のソースとなるキャッシュあるいはレジスタに提供される。そして、２番目の命令セット１０を実行するときは、その実行命令を行う準備が整ったＡＬＵ３４に対し実行命令１５を行うことができる。すなわち、ディスティネーションフィールド１７に規定されたレジスタに対し、実行命令フィールド１５のＭＯＶＥ命令を単に実行するだけになる。
このように、本発明の命令セットによれば、実行命令と、その実行命令を行うためのインタフェースなどを記述した準備命令とを分離することができ、さらに、準備命令を実行命令に先立ってフェッチされる命令セットに記述して処理することができる。したがって、各々の命令セットに記述された実行命令を行うときは、ＡＬＵ３４のソース側にデータがリードされているので純粋に算術命令だけを行うようになる。このため、ＡＣ特性が良く、実行周波数特性が向上する。さらに、実行命令に対する前後の差はあるが、従来のパイプラインと同様に、命令フェッチ、レジスタデコード、処理実行などを段階的に行うことが可能であり、スループットも向上できる。また、本例のプログラムは２命令を１命令セットに記述できるようになっているので、ＶＬＩＷと同様にプログラムカウンタの近傍の複数の命令を並列実行することにより処理速度を向上できる。
さらに、４番目の命令セットの実行命令フィールド１５には条件分岐が記述されており、その分岐先のアドレスは、この命令セットに先行する３番目の命令セットのＹフィールド１２に記述されている。したがって、４番目の命令セットを実行する際に、あるいはそれに先立ってフェッチレジスタに分岐先のアドレスをセットし、分岐条件が成立したときにペナルティなく分岐先の命令セットをフェッチあるいは実行することができる。さらには、分岐先の命令をプリフェッチしておくことも可能であり、分岐先の実行命令を実行する準備を事前に整えておくことも可能となる。したがって、分岐先の命令であっても１クロックの無駄もなく実行することが可能であり、１クロック単位で処理を正確に定義することができる。
図９には、さらに、命令セット１０のＹフィールド１２を用いてデータフロー指定命令２５を記述した本発明のプログラム４４を示してある。このようなデータフロー指定命令２５を有するプログラム製品１８がＲＯＭ３９、ＲＡＭあるいは他の適当なデータ処理装置で読取可能な記録媒体に記憶されて提供される。また、ネットワーク環境で交換される伝送媒体にプログラム製品４４あるいは１８を埋め込んで流通することも可能である。
このプログラム４４に記述されたデータフロー指定命令２５の内、ＤＦＬＷＩは、データフローの初期設定を行う命令であり、ＤＦＬＷＣはデータフロー（データパス）を構成する演算処理ユニット３４の接続情報（インタフェースの情報）および処理内容を規定する命令である。また、ＤＦＬＷＴはデータフローの終了条件を規定する命令であり、最後に、このようにして定義されたデータフローにデータを入力して処理を行うＤＦＬＷＳが記述されている。これらのデータフロー指定命令２５は、Ｙフィールド１２に準備情報として記述され、第２の実行制御ユニット３３でデコードされ、処理ユニット３４でデータ処理を行うための構成（コンフィグレーション）がセットされる。
図９に示した本例のプログラム４４を実行する際には、プログラムのデータフロー指定にしたがって第２の実行制御ユニット３３がデータフロー指定ユニットとして機能し、データフロー指定工程にしたがった制御を行う。すなわち、フェッチユニット３１でフェッチされたデータフロー指定命令２５をデコードし、処理ユニット３４の入力および／または出力インタフェースを、その処理ユニット３４の実行する時期とは独立して設定する。さらに、データフロー指定命令２５によっては、処理ユニット２５の処理内容も規定あるいは変更する制御を行う。また、第２の実行制御ユニット３３は、スケジューラ３６としても機能し、各処理ユニット３４のインタフェースを維持するスケジュールを管理する。
このため、図１０に示すように、スケジューラ３６として機能する第２の実行制御ユニット３３により、３つの演算処理ユニット３４のインタフェース（入出力）と、その処理内容が規定され、その状態あるいはコンフィグレーションが終了条件が成立するまで保持される。したがって、これらの演算処理ユニット３４により構成されるデータフローあるいはデータパスにより、プログラムカウンタとは独立して次々と図６に示した処理と同じ処理が進行する。すなわち、データフロー指定を行うことにより、３つの演算処理ユニット３４によって制御ユニット３０の中に、その処理のための専用回路が事前に設けられた状態となり、プログラムカウンタの制御から外れて最大値を求める処理を実行することができる。そして、ＤＰ１．Ｒ１と＃ＥＮＤが同じになることをＤＰ１．ＳＵＢとしての機能を果たすＡＬＵ３４で判断するとデータフローが終了する。
したがって、図９から判るように、データフローを定義することにより分岐命令を用いずに図６あるいは図７に記載されたプログラムを同じ処理を実行することができる。このため、汎用の制御ユニット３０でありながら、専用回路を備えた制御ユニットと同様に特定の処理を非常に高速に効率良く行うことが可能となる。
本発明にかかる命令セットおよび制御ユニットにより、様々な処理を行うデータフローあるいは疑似データフローを制御ユニットに設けることができる。これらのデータフローはテンプレートとして他の処理あるいは他のプログラムにも適用できるものであり、ソフトウェアを用いてハードウェアを随時、特定のデータ処理に適した構成に変更でき、それを他のプログラムあるいは他のハードウェアにおいても実現できることを意味する。そして、このようなデータフローを複数設定することも可能であり、マルチコマンドストリームをソフトウェアを用いて制御ユニットの中に定義することができる。したがって、複数の処理を並列実行することが極めて簡単となり、その実行内容をプログラミングにより自由に制御できる。
図１１に、データフロー指定命令２５を有するプログラム４１により制御できるデータ処理装置の異なる例を示してある。このデータ処理装置４０はシステムＬＳＩとして実現可能なものであり、プログラム４１が記録されたコードＲＡＭ３９と、このコードＲＡＭ３９から命令をフェッチ可能なフェッチユニット４２とを備えている。本例のフェッチユニット４２は、データフロー指定命令２５をフェッチすると、その命令をデコードすることができるデータフローデコーダ（ＤＦＤＥＣ）４２ｂと、データフロー指定命令２５以外の一般命令をデコードするデコーダ４２ａとを備えている。したがって、このデータ処理装置４０を制御するプログラム４１は、データフロー指定命令２５とその他の汎用命令とが混在したものであっても良いし、あるいは、データフロー指定命令２５を備えたプログラムと、その他の汎用命令からなるプログラムとをコードＲＡＭ４１に用意し、適当な方法で同期しながら命令をフェッチできるようにすることも可能である。
汎用命令は、汎用のデコーダ４２ａによりデコードされ、そのデコードされた信号φｐが、ＡＬＵおよびレジスタなどを備えた組込型の汎用プロセッサ４３に供給され、実行される。一方、データフロー指定命令２５は、ＤＦＤＥＣ４２ｂによりデコードされ、そのデコードされた信号φｆはデータフロー処理ユニット（ＤＦＵ）４５に供給され、処理される。
本例のＤＦＵ４５は、複数のデータ処理ユニット（ＤＰＵ）４６が用意されている。各々のＤＰＵ４６はＦＰＧＡによりデータパスが形成されており再構成可能な処理ユニットとなっている。このため、ＤＰＵ４６は、ＦＰＧＡ４６ｃと、このＦＰＧＡ４６ｃのマッピングを記憶したＲＡＭ４６ｂあるいはＲＯＭと、ＦＰＧＡ４６ｃに対するデータの入出力を制御するインタフェース４６ｄと、ＲＡＭ４６ｂに記憶されたマッピング情報およびインタフェース情報をＦＰＧＡ４６ｃおよびインタフェース４６ｄに供給して、それらの構成あるいは状態を定義するコンフィグレーション制御部４６ａとを備えている。
本例のデータ処理装置４０においては、フェッチユニット４２がデータフロー指定命令を含む命令セットをフェッチする工程を行い、さらに、ＤＦＤＥＣ４２ｂがデータフロー指定ユニットとして機能し、データフロー指定工程を含む制御を行う。すなわち、データフロー指定命令をデコードし、ＤＦＵ４５の各々のＤＰＵ４６のコンフィグレーション制御部４６ａを介してＤＰＵ４６のインタフェース４６ｄを指定する。したがって、データフロー指定命令２５により、ＤＦＵ４５のＤＰＵ４６のコネクションを制御することが可能となり、複数のＤＰＵ４６によって構成されるデータパスをフレキシブルにプログラムレベルで制御できる。
図１２（ａ）では、１２個のＤＰＵ４６により２つのデータパス４７ａおよび４７ｂを構成したのに対し、ＤＰＵ４６のインタフェースを変更することにより図１２（ｂ）に示すように１２個のＤＰＵ４６により、図１２（ａ）とは異なるデータ処理を実行可能な１つのデータパス４８を構成することができる。複数のＤＰＵ４６により構成可能なデータパスはこれに限定されるものでなく、データフロー指定命令により３つ以上のデータパスをソフトウェアを用いてデータ処理装置４０のＤＦＵ４５に定義することも可能である。したがって、複数の処理を並列実行することが極めて簡単となり、さらに、余剰のＤＰＵ４６があれば、それによって適当なデータパスを設定することにより他のデータ処理装置により使用させることも可能である。
また、ＤＰＵ４６を組み合わせてデータパスを構成あるいは変更する処理は、他のデータパスにおけるデータ処理を中断させずに、あるいは、組込プロセッサ４３における処理を中断させずに行うことが可能である。さらに、ＦＰＧＡ４６ｃにおける処理内容の変更を伴わなければ、インタフェース４６ｄの設定を変えるだけでデータパスを動的に変更することができる。また、ＤＰＵ４６の処理内容を変える場合も、ある程度回路規模の小さなＦＰＧＡ４６ｃを採用することによりマッピングしなおすために要する時間を短縮することができる。したがって、データ処理装置４０の処理対象となるアプリケーションのデータ処理に合致するデータパスをプログラムによりフレキシブルに構築し、そのデータ処理を極めて高速に実行することが可能となる。しかしながら、現状のＦＰＧＡでは、上述したように数クロック〜数十クロック単位でマッピングするためにはハードウェアが十分ではない。さらに、所望のデータフロー処理を実行するためには、それに数クロックあるいは１０数クロック程度も先行して指示する必要があるので、データフロー指定命令をプログラムに記述する際にもデータ処理の開始や分岐命令と整合をとる必要があるなどの制限が多くなる。
図１３に、図１に示したＸフィールド１１およびＹフィールド１２を備えた命令セット１０によりデータフローを定義することができる複数の処理ユニット（テンプレート）を備えたデータ処理装置の概略構成を、システムＬＳＩ５０のイメージで示してある。このシステムＬＳＩ５０は、データの処理動作を行うプロセッサ領域５１と、そのプロセッサ領域５１の処理を制御するプログラム１８が格納されたコードＲＡＭ５２と、その他の制御情報あるいは処理用のデータを記憶し、さらに、一次的なワーク領域ともなるデータＲＡＭ５３とを備えている。プロセッサ領域５１は、プログラムコードをフェッチするフェッチユニット（ＦＵ）５５と、多目的な処理を行う汎用的なデータ処理ユニット（多目的ＡＬＵ）５６と、データフロー方式でデータを処理することができるデータフロー処理ユニット（ＤＦＵ）５７とを備えている。
本例のＬＳＩ５０は、１つの命令セット１０に１組のＸフィールド１１およびＹフィールド１２を含んだプログラムコードをデコードして処理を実行できるようになっている。このため、ＦＵ５５は、フェッチした命令セット１０のＸフィールド１１の命令を格納できるフェッチレジスタ（ＦＲ（Ｘ））６１ｘと、Ｙフィールド１２の命令を格納できるフェッチレジスタ（ＦＲ（Ｙ））６１ｙとを備えている。また、ＦＲ（Ｘ）６１ｘにラッチされた命令をデコードするＸデコーダ６２ｘと、ＦＲ（Ｙ）６１ｙにラッチされた命令をデコードするＹデコーダ６２ｙとを備えている。また、これらのデコーダ６２ｘおよび６２ｙのデコード結果により次の命令セットのアドレスが格納され、プログラムカウンタとして機能するレジスタ（ＰＣ）６３を備えている。したがって、コードＲＡＭ５２に格納されているプログラムの所定のアドレスから次の命令セットを随時フェッチすることができる。
本例のＬＳＩ５０においては、Ｘデコーダ６２ｘが上述した第１の実行制御ユニット３２としての機能を果たす。また、Ｙデコーダ６２ｙが第２の実行制御ユニット３３、すなわち、データフロー指定ユニットとしての機能を果たす。したがって、Ｙデコーダ６２ｙが、命令セット１０のＹフィールド１２に記述されたデータフロー命令をデコードし、それに基づきＤＦＵ５７の処理ユニットの入出力インタフェースを設定してデータパスを構成する、本発明のデータフロー指定工程を実行する。このため、図１３に示したデータ処理装置５０の制御では、フェッチユニット５５において、処理ユニットの入力および／または出力インタフェースを、その処理ユニットにより処理を実行する時期とは独立して指示するデータフロー指定命令２５をフェッチする工程が行われ、さらに、Ｙデコーダ６２ｙにおいて、データフロー指定命令２５をデコードし、処理ユニットの入力および／または出力インタフェースを設定し、複数の処理ユニットによるデータパスを構成するデータフロー指定工程が行われる。
多目的ＡＬＵ５６は、図５で説明した演算ユニット（ＡＬＵ）３４と、このＡＬＵ３４の入出力のデータを格納するレジスタ群３５とを備えている。ＦＵ５５でデコードされた命令がＡＬＵ３４の実行命令と準備情報であれば、Ｘデコーダ６２ｘでデコードされた信号φｘと、Ｙデコーダ６２ｙでデコードされた信号φｙは多目的ＡＬＵ５６に供給され、上記にて説明したようにＡＬＵ３４における処理が実行される。
ＤＦＵ５７は、様々な処理を行うデータフローあるいは疑似データフローを構成するための複数のテンプレート７１が配置されたテンプレート領域７２を備えている。それぞれのテンプレート７１は、図９および図１０に基づき説明したように、演算処理ユニット（ＡＬＵ）などのような特定のデータパスあるいはデータフローとしての機能を備えている処理ユニット（処理回路）である。そして、Ｙフィールド１２に準備情報として記述されたデータフロー指定命令２５をＹデコーダ６２ｙがデコードし、その信号φｙにより、ＤＦＵ５７の処理ユニットであるテンプレート７１それぞれのインタフェースと処理内容を規定することができる。
したがって、これらのテンプレート７１の接続および処理内容をＹフィールド１２に記述したデータフロー指定命令２５によって変更することが可能である。このため、これらのテンプレート７１の組み合わせにより、テンプレート領域７２に特定のデータ処理に適したデータパスをプログラム１８のデータフロー命令２５によりフレキシブルに構成することが可能となる。したがって、プロセッサ５１の中に、特定の処理のための専用回路が設けられた状態となり、そこでの処理をプログラムカウンタの制御から外れて実行することができる。すなわち、データフロー指定命令２５によりテンプレート７１の入出力と処理内容を変更することができるので、本例のプロセッサ５１はソフトウェアを用いてハードウェアを随時、特定のデータ処理に適した構成に変更することができる。
図１４（ａ）に示したように、本例のプロセッサ５１のＤＦＵ５７で入力データφｉｎに処理を施して出力データφｏｕｔにする場合、たとえば、図１４（ｂ）に示すように、テンプレート１−１、１−２および１−３を直列に繋いであるデータ処理を行うようにテンプレート７１のインタフェースをデータフロー指定命令２５で設定することができる。同様に、テンプレート領域７２の他のテンプレート７１に対してもそれらのインタフェースをセットして複数のテンプレート７１を適当に組み合わせてデータパスあるいはデータフローを構成することが可能であり、テンプレート領域７２に入力データφｉｎの処理に適した専用処理ユニットあるいは専用データパス７３を複数個、プログラム１８により随時構築できる。
一方、入力データφｉｎに対する処理が変わったときは、図１４（ｃ）に示すように、データフロー指定命令２５によりテンプレート７１の間の接続を変えることが可能である。すなわち、データフロー指定命令２５をＹデコーダ６２ｙがデコードし、該当するテンプレート７１のインタフェースを変更することができる。このようなＹデコーダ６２ｙとしての制御（データフロー指定工程）により、テンプレート１−１、２−ｎおよびｍ−ｎを直列に接続して、他の異なる処理を実行するのに適した１つあるいは複数のデータパス７３をテンプレート領域７２に構築することが可能である。
これらのテンプレート７１は、図１４に示した組み合わせに限らず、図１２に示したような組み合わせにすることも可能であり、テンプレート７１を単独で、あるいは複数のテンプレート７１を組み合わせて構成された処理ユニットは、並列して実行される他の処理あるいは他のプログラムに割り当てることも可能である。複数のプロセッサ５１が適当なバスで接続されていれば、他のプロセッサ５１が主として行っているデータ処理のためにテンプレート７１を組み合わせたトレイン（データパス）７３を構成することも可能であり、テンプレート７１というデータ処理資源を極めて有効に活用することができる。
さらに、ＡＮＤやＯＲなどの単純な論理ゲートから構成する必要があり、これらの単純な論理ゲートの実現をもカバーする目的のＦＰＧＡとは異なり、本発明に係るテンプレート７１は、ＡＬＵなどとしての機能あるいは論理ゲートを基本的に備えた特定のデータパスを内部に実装する、より高いレベルのデータ処理ユニットである。そして、データフロー指定命令２５により、テンプレート７１のインタフェースを定義する、あるいは再定義することにより、それらの組み合わせを変えて特定の処理に適したさらに大きなデータパスを構成している。さらに、データフロー指定命令２５によりテンプレート７１で実行する処理内容を定義できるが、その際も、テンプレート７１の内部のＡＬＵあるいは他の論理ゲートなどの接続を変更することで、テンプレート７１の内部データパスの一部を選択する形で、テンプレート７１で実行する処理内容を定義するようにしている。
したがって、本例のテンプレート７１が複数配置されたＤＦＵ５７のハードウェアを特定のデータ処理に適した構成に変更するときには、ＦＰＧＡのようにチップ全体を、あるいは限定された論理ブロック単位でもマッピングしなおす必要はなく、テンプレート７１あるいはテンプレート領域７２に予め設けられたデータパスを切り替えたり、それらの一部を選択することによりに、予め用意されたＡＬＵあるいは論理ゲートを用いて所望のデータパスを実現することができる。すなわち、テンプレート７１の内部では論理ゲートのコネクションを必要な範囲で設定しなおし、テンプレート７１の間でもそのコネクションを必要な範囲で設定し直すだけでよい。このため、極めて短時間に、クロック単位で、ハードウェアを特定のデータ処理に適した構成に変更することができる。
さらに、論理ゲートが内蔵されていないＦＰＧＡは、極めて汎用的である反面、特定のアプリケーションの機能を実現するロジック回路を形成するためには無駄となる配線も多く、冗長で信号経路も短くはならない。したがって、実行するアプリケーションに特化したＡＳＩＣに対して実装面積が大きくなり、また、ＡＣ特性も劣化する。これに対し、予め適当な論理ゲートを内蔵している本例のテンプレート７１を採用したプロセッサ５１では、ＦＰＧＡのように膨大な無駄な領域が発生するのを防止でき、ＡＣ特性も改善することができる。したがって、テンプレート７１をベースとした本例のデータ処理ユニット５７は、ハードウェアをプログラムで変更可能なリコンフィグラブルな構成の処理装置であり、ＦＰＧＡを採用した処理装置に対し、より高いレベルでソフトウェアのフレキシビリティとハードウェアの高速性とを備えたデータ処理装置を提供することができる。
そして、本例のテンプレート７１は、適当な論理ゲートを予め内蔵しているので、特定のアプリケーションの処理を実現するために必要な論理ゲートを適当な実装密度で実現することができる。このため、テンプレート７１を用いたデータ処理ユニットは経済的である。また、ＦＰＧＡでデータ処理装置を構成した場合には、実装密度の低下をカバーするために、論理を再構成するプログラムのダウンロードを頻繁に行うことを検討する必要があり、そのための時間も処理速度が低下する原因となる。これに対し、本例のテンプレート７１を用いたプロセッサ５１では、実装密度が高いので、その低下をカバーする必然性は減少し、実装密度の低下を補償するためにハードウェアを再構成する要求は少なくなる。そして、ハードウェアの再構成もクロック単位で制御することができる。これらの点でも、ＦＰＧＡをベースとしたリコンフィグラブルな処理装置と異なり、ハードウェアをソフトウェアにより再構築できる処理装置であって、コンパクトで実行速度の速いデータ処理装置を提供することができる。
さらに、図１３に示したＤＦＵ５７は、テンプレート領域７２に配置されたテンプレート７１のインタフェースおよび処理内容（以降においてはコンフィグレーションデータ）を一括して定義あるいはセットすることができるコンフィグレーションレジスタ（ＣＲＥＧ）７５と、そのＣＲＥＧ７５にセットする複数のコンフィグレーションデータＣｉ（ｉは適当な整数を示す、以下においても同様である）を記憶したコンフィグレーションＲＡＭ（ＣＲＡＭ）７６を備えている。そして、データフロー指定命令２５として「ＤＦＳＥＴＣｉ」といった命令が用意されており、Ｙデコーダ６２ｙがこの命令をデコードすると、ＣＲＡＭ７６に記憶されているコンフィグレーションデータＣｉの中から所望のデータがＣＲＥＧ７５にロードされる。その結果、テンプレート領域７２に配置された複数のテンプレート７１のコンフィグレーションを一括して変更できる。あるいは、複数のテンプレート７１からなる処理ブロック単位でそのコンフィグレーションを変更することができる。
また、ＤＦＬＷＩあるいはＤＦＬＷＣといった上記のようなデータフロー指定命令２５をＹデコーダ６２ｙがデコードすることにより、個々のテンプレート７１のコンフィグレーションを設定あるいは変更することも可能である。したがって、本例のＤＦＵ５７では、多くの情報が必要となる複数のテンプレート７１のコンフィグレーションを１命令で変更することが可能であり、命令効率がよく、さらに、再構成のために消費される時間が短縮されている。
さらに、本例のＤＦＵ５７は、ＣＲＡＭ７６にブロック単位でコンフィグレーションデータをダウンロードするコントローラ７７を備えている。また、データフロー指定命令２５として「ＤＦＬＯＡＤＢＣｉ」が用意されており、Ｙデコーダ６２ｙがこの命令をデコードすると、データＲＡＭ５３などに予め用意されている多数のコンフィグレーションデータ７８の中から、進行中の処理あるいは今後発生するであろう処理のためのコンフィグレーションデータＣｉを予めコンフィグレーションメモリであるＣＲＡＭ７６にダウンロードしておくことができる。このような構成によりＣＲＡＭ７６に小容量の高速な連想メモリなどを採用することが可能となり、さらに短時間でハードウェアをフレキシブルに変更することができる。
図１５に、テンプレート７１の一例を示してある。このテンプレート７１は、ＤＦＵ５７に用意されたデータフローＲＡＭ（ＤＦＲＡＭ）７９を介して他のテンプレート７１とデータを交換することができる構成となっており、Ｉ／Ｏインタフェース８１を介して他のテンプレート７１の処理結果が入力キャッシュ８２ａ〜８２ｄに入力され、処理された結果が出力キャッシュ８３ａ〜８３ｄに出力される。このテンプレート７１は、これらの入力キャッシュ８２ａ〜８２ｄに各々ストアされたデータＡ、Ｂ、ＣおよびＤに対し以下の処理を実行し、演算結果は出力キャッシュ８３ｂに、比較した結果は出力キャッシュ８３ｃにストアすることができるデータパス８８を備えている。このテンプレート７１の処理結果は、再びＩ／Ｏインタフェース８１およびＤＦＲＡＭ７９を介して他のテンプレートに出力される。
IF A == ?
THEN (C+B)==D
ELSE (C-B)==D ・・・（Ａ）
このテンプレート７１は、独自のコンフィグレーションレジスタ８４を備えており、このレジスタ８４に格納されるデータによって複数のセレクタ８９を制御し、制御部８５、加算器８６、比較器８７などの論理ゲートに入力する信号を選択することができる。したがって、テンプレート７１は、コンフィグレーションレジスタ８４のデータを変更することにより、データパス８８の一部を用いた処理も可能であり、たとえば、制御部８５を用いずに、以下のような処理を実行させることも可能である。
(B+C)==D
(B-C)==D ・・・（Ｂ）
また、同様にコンフィグレーションレジスタ８４のデータを変えることにより、このテンプレート７１は、データパス８８の一部を用いて、制御部８５による条件判定回路、加算器８６を用いた加減演算回路、比較器８７を用いた比較回路としても使用することができる。これらの論理ゲートはテンプレート７１に予め作りこまれた専用回路で構成されているので、回路構成としても、処理時間としても無駄がない。そして、入力および出力データのコンフィグレーションは、コンフィグレーションレジスタ８４によって制御されるインタフェース８１により変更することが可能であり、所望のデータ処理を行うデータフローの全部あるいは一部を、本例のテンプレート７１で処理することができる。
このテンプレート７１は、さらに、独自のコンフィグレーションレジスタ８４のデータを上述したＣＲＥＧ７５からのデータと、データフロー指定ユニットとして機能するＦＵ５５のＹデコーダ（ＹＤＥＣ）６２ｙからのデータのいずれに基づいても書き換えることが可能であり、その選択はＹデコーダ６２ｙからの信号により制御することができる。すなわち、上述したようなテンプレート７１のコンフィグレーションは、データフロー指定命令２５に基づきＹデコーダ６２ｙあるいはこのＹデコーダ６２ｙで実行されるデータフロー指定工程によって行うことができる。さらに、ＤＦＳＥＴ命令などによりＣＲＡＭ７６に記憶されたコンフィグレーションデータＣｉにしたがって、他のテンプレートと共にコンフィグレーションを変えてハードウェア構成を変更することも可能である。また、データフロー指定命令２５によりコンフィグレーションレジスタ８４のデータを設定できるので、テンプレート７１の特定のデータパス８８を部分的に選択して使用することも可能である。
このため、テンプレート７１を個別でもグループあるいはブロック単位でもデータフロー指定命令２５によってコンフィグレーションを変え、プロセッサ５１のデータパスをフレキシブルに構成することができる。
テンプレート７１の構成は本例に限定されるものではなく、他のデータ処理を実現可能なように論理ゲートを組み合わせた、適当な種類と数のテンプレートを用意しておくことにより、それらの組み合わせを変えたり、処理内容の一部を変更することにより、多くのデータ処理をテンプレート７１を組み合わせたデータパスにより処理することができる。すなわち、本発明によれば、ある程度コンパクトなデータパスを幾種類かのテンプレートとして用意しておき、そのデータパス間の組み合わせを指示して、データフロー型の処理に持ち込むことにより高性能化を図ることが可能である。そして、テンプレートでは対応できない処理は、プロセッサ５１の多目的ＡＬＵ５６の機能を用いて実行することが可能である。さらに、本例の多目的ＡＬＵ５６は命令セット１０のＹフィールド１２に記述された準備命令により分岐などにより発生するペナルティを最小限に止められるようになっている。このため、本例のプロセッサ５１を搭載したシステムＬＳＩ５０により、プログラムで処理を記述するのと同様に柔軟にハードウェアを変更し、高速処理あるいはリアルタイム処理が可能な高性能のＬＳＩを提供することができる。また、アプリケーションの変更や仕様変更などに対して柔軟に対応でき、仕様変更などに伴い処理性能が低下することも防止できる。
システムＬＳＩ５０を開発あるいは設計する時点で、システムＬＳＩ５０を用いて実行するアプリケーションの概要が判明している場合には、そのアプリケーションの処理に適した構成のテンプレートを中心にテンプレート領域７２を構成することが可能であり、より多くのデータ処理をデータフロー型の処理で実行し、処理性能を高めることが可能である。汎用的なＬＳＩを提供する場合には、浮動小数点演算、乗除算、画像処理などの汎用のアプリケーションで多く発生する処理に適したテンプレートを中心にテンプレート領域７２を構成することが可能である。
このように、本発明にかかる命令セットおよび制御ユニットにより、様々な処理を行うデータフローあるいは疑似データフローを備えたＬＳＩを提供することが可能であり、ソフトウェアを用いてデータフローを実行するハードウェアを随時、特定のデータ処理に適した構成に変更できる。また、上記に説明した、テンプレートの組み合わせによりデータフロー型の処理を実行するアーキテクチャ、すなわち、ＤＦＵ５７あるいはテンプレート領域７２は、Ｘフィールド１１およびＹフィールド１２を備えた命令セット１０とは独立して制御ユニットやプロセッサに組み込むことが可能である。そして、ＦＰＧＡよりも高速処理が可能であり、ハードウェアの変更に係る時間も短く、ＡＣ特性も良いデータ処理装置を提供できる。
また、本例のＤＦＵ５７あるいはテンプレート領域７２を、従来型の汎用の組込プロセッサ、すなわち、ニーモニックなコードで動作するプロセッサと共に組み込んでシステムＬＳＩを構成することも可能であり、テンプレート７１で対応できない処理は、汎用のプロセッサで処理することができる。しかしながら、従来のプロセッサでは、分岐のペナルティや、演算処理のためのレジスタを準備するためにクロックを消費するなどの問題があることは上述した通りであり、本例のＸ−Ｙフィールドを備えた命令セット１０をデコードして実行できるプロセッサ５１のような形態が望ましい。
さらに、本例のプロセッサ５１および命令セット１０であれば、Ｙフィールド１２を用い、他の処理と並列して、ＤＦＵ５７のコンフィグレーションをデータ処理を実行する前に設定あるいは変更することが可能であり、処理効率およびプログラム効率の面で優れている。従来のニーモニックな命令コードと、データフロー型の命令コードとを１つの命令セットに記述することによりプログラム効率を高めることも可能である。しかしながら、本例の命令セット１０のＹフィールド１２の機能は、データフロー型の命令コードを記述するだけでないことは上述したとおりである。
また、本発明に係るプロセッサは、Ｙフィールド１２により実行に先立って物理的なデータパスの構成を変えることができる。これに対し、従来のプロセッサでは、複数のマルチプロセッサ間の接続方法が、共有メモリ等を通す方法しか存在せず、アイドル状態のプロセッサが存在しても、その内部のデータ処理ユニットを外部から利用する方法が無かった。本発明にかかる制御ユニットにおいては、適当なデータフローを設定することにより、余っているハードウェアを他の制御ユニットにより使用するといったことも可能となる。
さらに、副次的な効果として、命令実行シーケンスの効率化と内部データパスの独立性の確保と自由度（流用度）の向上により、本発明にかかる制御ユニットあるいはそれを用いたプロセッサにおいては、実行するハードウェアに余裕さえあれば、全く性質の異なるコンテキストの命令シーケンスを同時に供給しても問題無く実行することが可能となる。
更に、現在、ハードウェアとソフトウェアの協調設計によるメリットが盛んに指摘されるようになったが、本発明による命令セットおよび制御ユニットを採用することにより、ユーザ側の要求するアルゴリズムやデータ処理を許されるハードウェア・コストでどう効率良く経済的に実現可能かという事に対しする１つの回答を与えることができる。例えば、ハードウェア・コストを最小に抑制しながら、性能向上に貢献可能なデータパス（データフロー）を、過去のデータパスに関する構成結果情報である本発明にかかる命令セット（旧ＤＡＰ／ＤＮＡ）のデータ情報と、その後に追加されるハードウェア構成情報およびデータ処理を実行するシーケンス情報から新しいタイプの組み合わせ結果、すなわち、新しいデータフローを定義するソフトウェアを導き、極めて無駄の少ない最適解を提供することが可能となる。
また、従来は、ハードウェア構成が要素化され難いために、その相互の組み合わせ自体の柔軟性が無く、基本的には、性能を上げるために１つ新規のデータパスを追加するというようなやり方が主流であった。そして、性能向上のための情報蓄積の点でも、実際にそれを実現する上で必要となるハードウェア情報の追加という観点でも、数値化し難くデータベース化することは困難であった。これに対し、本発明によれば、ある程度コンパクトなデータパスをいくつかテンプレート的に用意しておき、そのデータパス間の組み合わせを指示して、データフロー型の処理に持ち込むことにより高性能化を図ることが可能である。そして、極めて細かい単位でのハードウェアとソフトウェアとの連携の見積もりが容易となる。また、ハードウェアとソフトウェアのトレードオフ情報を蓄積することも可能で、データパス単位でその組み合わせの可能性が、処理性能に対する貢献度と密接に結びつくことになる。したがって、ハードウェアとソフトウェアの緊密な実行性能データや処理要求に応じた性能コストの正確な見積もりを蓄積することが可能となる。もちろん、これらのデータパスは主要な処理あるいは汎用的な処理の実行を停止させないで実現することも可能となるため、性能要求に対して、何をどれだけどのように追加すれば、どのような結果が期待出来るということを、純粋に過去に蓄積された本発明にかかる命令セットおよびハードウェアのデータから予測する事が可能とする。
これは、現在行われている設計コストや仕様策定コストの著しい低減に貢献するだけで無く、次の新しい設計に対して、新規に追加すべきハードウェアとソフトウェアのトレードオフを必要最小限で完了させる事に貢献する。また、処理形態に応じて、内部のデータパスを外部へ貸し出しする事も容易にする為、ハードウェアのリソースシェアリング化が可能となり、複数の本発明にかかるモジュール（ＤＡＰ／ＤＮＡモジュール）の間で並列処理化を極め、コンパクトなハードウェアで実現する事が可能となる。
なお、上記に示したデータ処理装置および命令セットなどは、本発明の一例に過ぎず、たとえば、データ処理装置においては、コードＲＡＭあるいはデータＲＡＭなどを外部のＲＡＭあるいはＲＯＭとしたり、これらに加えて外部のＤＲＡＭあるいはＳＲＡＭなどとのインタフェースを設けることも可能である。さらに、外部の他のデバイスと接続するための入出力インタフェースなど、システムＬＳＩなどのデータ処理装置として公知の機能を備えたデータ処理装置も本発明に含まれる。したがって、本発明は以下の請求の範囲の記載により理解および把握され、それらの請求の範囲に含まれる変形例は全て本発明の範囲に含まれる。
以上に説明したように、本発明においては、データフロー指定命令により複数の処理ユニットのインタフェースを変更することによりデータパスをプログラムによりフレキシブルに組替え可能としている。したがって、複雑なデータ処理に対し、それらのデータ処理に特化した多種多様な専用回路を用いなくても、それぞれのデータ処理をフレキシブルに、ハードウェアにより高速に実行することができる。さらに、特定のデータパスを予め備えたテンプレートを処理ユニットとして採用することにより、性能向上に貢献可能なデータパス（データフロー）をテンプレートという資産と、それを使用する命令セットという資産で蓄積できる。さらに、その後に追加されるハードウェア構成情報およびデータ処理を実行するシーケンス情報に基づき随時更新し最適解を求めるようにすることができる。したがって、従来存在したアプリケーション間の資産の共有化とハードウェア資産の共有化、及び高性能化に対する適切なハードウェア投資がより健全な方向へ向かい、ネットワーク化社会を構築する上でのテクノロジー・インフラとしても大きく貢献可能となることが期待できる。
産業上の利用可能性
本発明のデータ処理装置は、様々なデータ処理を実行可能なプロセッサあるいはＬＳＩなどとして提供することが可能であり、電子素子の集積回路のみならず、光素子、さらには電子素子および光素子を集積した光集積回路装置にも適用することができる。特に、本発明の命令セットを備えた制御プログラムおよびデータ処理装置においては、データ処理を柔軟に、そして高速に実行できるので、ネットワーク処理や、画像処理などの高速性およびリアルタイム性能を要求されるデータ処理装置に好適なものである。
【図面の簡単な説明】
図１は、データフロー指定命令を含む命令セットの概要を示す図である。
図２は、図１に示す命令セットのＹフィールドをさらに詳しく説明する図である。
図３は、図１に示す命令セットを実際に用いた簡単な例を示す図である。
図４は、図３に示す命令セットによりデータがレジスタに格納される様子を示す図である。
図５は、本発明の命令セットを実行可能なデータ処理装置を示す図である。
図６は、従来のＣＰＵあるいはＤＳＰで実行可能なサンプルプログラムである。
図７は、本発明にかかる制御ユニット用のプログラム例である。
図８は、図７に示すプログラムを本発明にかかる命令セットの実行プログラムにコンパイルした例を示す図である。
図９は、本発明にかかる制御ユニット用の異なるプログラム例である。
図１０は、図９のプログラムにより構成されたデータフローを示す図である。
図１１は、データフローが指定可能なデータ処理装置の異なる例を示す図である。
図１２は、データパスが変更される例を示す図である。
図１３は、本発明の命令セットによりデータ処理を実行可能なデータ処理装置の概略構成を示す図である。
図１４は、テンプレートの組み合わせを変えて異なる専用回路を構成する様子を示す図である。
図１５は、テンプレートの一例を示す図である。

Claims

それぞれ独自のコンフィグレーションメモリを備えた複数の処理ユニットであって、前記独自のコンフィグレーションメモリのデータが書き換えられることにより、入力および／または出力インタフェースを介した他の処理ユニットとの接続および当該処理ユニットの処理内容が変更され、当該複数の処理ユニットの少なくとも一部によりデータパスを構成可能な複数の処理ユニットと、
汎用命令による処理を実行する汎用データ処理ユニットと、
少なくとも１つの処理ユニットの入力および／または出力インタフェースを介した他の処理ユニットとの接続および前記少なくとも１つの処理ユニットの処理内容の組み合せを、前記少なくとも１つの処理ユニットにより処理を実行する時期とは独立して、それぞれの処理ユニットの単位で、または複数の処理ユニットからなる処理ブロックの単位で指示するデータフロー指定命令、および、前記少なくとも１つの処理ユニットにより処理を実行する時期より前に前記汎用データ処理ユニットにおいて実行される処理を指示する汎用命令を含む命令セットをフェッチ可能なユニットと、
前記汎用命令による他の処理を制御する制御ユニットと、
前記制御ユニットおよび／または前記汎用データ処理ユニットにおける前記汎用命令による他の処理と並列して、前記データフロー指定命令をデコードし、前記少なくとも１つの処理ユニットの独自のコンフィグレーションメモリのデータを個々に、または他の処理ユニットの独自のコンフィグレーションメモリのデータと共に書き換え、前記少なくとも１つの処理ユニットの入力および／または出力インタフェースを介した他の処理ユニットとの接続および前記少なくとも１つの処理ユニットの処理内容を、それぞれの処理ユニットの単位、または処理ブロックの単位で設定し、前記それぞれの処理ユニットの単位、または前記処理ブロックの単位によるデータパスを構成可能なデータフロー指定ユニットとを有するデータ処理装置。
前記少なくとも１つの処理ユニットは、特定の内部データパスを備えている、請求項１のデータ処理装置。
前記少なくとも１つの処理ユニットは、少なくとも１つの論理ゲートと、この論理ゲートと前記入力および／または出力インタフェースとを接続する内部データパスと、を備えている、請求項２のデータ処理装置。
前記データフロー指定ユニットは、前記データフロー指定命令により前記少なくとも１つの処理ユニットの独自のコンフィグレーションメモリのデータを書き換えることにより、前記少なくとも１つの処理ユニットの内部データパスの一部を選択可能である、請求項３のデータ処理装置。
前記データフロー指定ユニットは、前記少なくとも１つの処理ユニットのインタフェースを管理するスケジューラとしての機能を備えている、請求項１のデータ処理装置。
処理ブロックの単位で、その処理ブロックに含まれる複数の処理ユニットの入力および／または出力インタフェースを介した前記複数の処理ユニットの接続を規定する複数のコンフィグレーションデータを格納したメモリを有し、
前記データフロー指定ユニットは、前記データフロー指定命令により前記メモリに格納された前記複数のコンフィグレーションデータの１つを選択し、前記処理ブロックに含まれる複数の処理ユニットの独自のコンフィグレーションメモリのデータを書き換えることにより、前記複数の処理ユニットの入力および／または出力インタフェースを介した前記複数の処理ユニットの接続を変更可能である、請求項１のデータ処理装置。
それぞれ独自のコンフィグレーションメモリを備えた複数の処理ユニットであって、前記独自のコンフィグレーションメモリのデータが書き換えられることにより、入力および／または出力インタフェースを介した他の処理ユニットとの接続および当該処理ユニットの処理内容が変更され、当該複数の処理ユニットの少なくとも一部によりデータパスを構成可能な複数の処理ユニットと、汎用命令により処理を実行する汎用データ処理ユニットと、前記汎用命令による他の処理を制御する制御ユニットとを有するデータ処理装置の制御方法であって、
少なくとも１つの処理ユニットの入力および／または出力インタフェースを介した他の処理ユニットとの接続および前記少なくとも１つの処理ユニットの処理内容の組み合わせを、前記少なくとも１つの処理ユニットにより処理を実行する時期とは独立して、それぞれの処理ユニットの単位で、または複数の処理ユニットからなる処理ブロックの単位で指示するデータフロー指定命令、および、前記少なくとも１つの処理ユニットにより処理を実行する時期より前に前記汎用データ処理ユニットにおいて実行される処理を指示する汎用命令を含む命令セットを、前記データ処理装置のフェッチユニットがフェッチする工程と、
前記データ処理装置のデータフロー指定ユニットが、前記制御ユニットおよび／または前記汎用データ処理ユニットにおける前記汎用命令による他の処理と並列に、前記データフロー指定命令をデコードし、前記少なくとも１つの処理ユニットの独自のコンフィグレーションメモリのデータを個々に、または他の処理ユニットの独自のコンフィグレーションメモリのデータと共に書き換え、前記少なくとも１つの処理ユニットの入力および／または出力インタフェースを介した他の処理ユニットとの接続および前記少なくとも１つの処理ユニットの処理内容を、それぞれの処理ユニットの単位、または処理ブロックの単位で設定し、前記それぞれの処理ユニットの単位、または前記処理ブロックの単位によるデータパスを構成するデータフロー指定工程とを有するデータ処理装置の制御方法。
前記少なくとも１つの処理ユニットは、特定の内部データパスを備えており、
前記データフロー指定工程では、前記データフロー指定命令により前記少なくとも１つの処理ユニットの独自のコンフィグレーションメモリのデータを書き換えることにより、前記少なくとも１つの処理ユニットの内部データパスの一部を選択可能である、請求項７のデータ処理装置の制御方法。
前記データフロー指定工程では、前記少なくとも１つの処理ユニットの入力および／または出力インタフェースを介した他の処理ユニットとの接続を保持するスケジュールも管理する、請求項７のデータ処理装置の制御方法。
前記データ処理装置は、処理ブロックの単位で、その処理ブロックに含まれる複数の処理ユニットの入力および／または出力インタフェースを介した前記複数の処理ユニットの接続を規定する複数のコンフィグレーションデータを格納したメモリを有し、
前記データフロー指定工程では、前記データフロー指定命令により、前記メモリに格納された前記複数のコンフィグレーションデータの１つを選択し、前記処理ブロックに含まれる複数の処理ユニットの独自のコンフィグレーションメモリのデータを書き換えることにより、前記複数の処理ユニットの入力および／または出力インタフェースを介した前記複数の処理ユニットの接続を変更可能である、請求項７のデータ処理装置の制御方法。