JP2003005954A

JP2003005954A - データ処理装置およびその制御方法

Info

Publication number: JP2003005954A
Application number: JP2001191346A
Authority: JP
Inventors: Takeshi Sato; 武佐藤
Original assignee: Pacific Design Inc
Current assignee: Pacific Design Inc
Priority date: 2001-06-25
Filing date: 2001-06-25
Publication date: 2003-01-10
Anticipated expiration: 2021-06-25
Also published as: US20030009652A1; GB2380283B; GB2380283A; GB0214389D0; JP5372307B2

Abstract

(57)【要約】【課題】専用処理ユニットＶＵと汎用処理ユニットＰ
Ｕを備えたＶＵＰＵプロセッサにおいて、さらに柔軟性
が高く、処理速度の速いプロセッサを提供する。【解決手段】本発明においては、ＶＵとＰＵとの協調
処理を規定した協調命令を導入する。すなわち、フェッ
チした命令がＰＵ命令であるとＰＵデコードステージ命
令をＰＵに供給し、ＶＵ命令であるとＶＵデコードステ
ージ命令をＶＵに供給し、ＶＵ命令がさらに協調命令で
あると、そのデコードステージ命令をＰＵに供給する。
協調命令により、ＰＵのリソースをＶＵに開放すること
が可能となるので、ＶＵとＰＵとの間のデータ転送に必
要なオーバヘッドを実質的になくし、ＶＵでＰＵのリソ
ースを利用できるようになるので、さらに高いレベルで
柔軟性と高速性とを同時に実現できるプロセッサを提供
できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、専用回路を備えた
データ処理装置に関するものである。

【０００２】

【従来の技術】アプリケーションに特化したプロセッサ
の要求が高まっている。例えば、画像処理、ネットワー
ク処理といった分野では各処理に特化した専用回路と、
その専用回路を駆動する専用命令を装着可能とし、個々
のアプリケーションの仕様に柔軟に対応できるプロセッ
サがコストパフォーマンス上有利である。そのようなプ
ロセッサについては本願出願人も、特開２０００−２０
７２０２号にて提案している。

【０００３】

【発明が解決しようとする課題】アプリケーションの仕
様に柔軟に対応できるプロセッサにおける難しさの１つ
は、ユーザの要求、すなわち要求仕様に対し、いかに自
由度の高い専用命令（ユーザ専用命令）が装着できるか
ということと、その専用命令をいかにオーバヘッドの少
ない状態で実行できるかということのトレードにあると
いえる。

【０００４】上記の特開２０００−２０７２０２号に開
示されたプロセッサは、専用処理ユニット（専用データ
処理ユニット、以降においてはＶＵ）と、汎用処理が可
能な汎用処理ユニット（基本実行ユニットあるいはプロ
セッサユニット、以降においてはＰＵ）を備えている。
したがって、汎用処理ユニットＰＵをベースとした汎用
処理機能に加えて、ユーザの要求仕様に対応した処理に
特化した専用回路を極めて高い自由度で装着でき、ユー
ザが定義した専用命令を実装することが可能となってい
る。さらに、ＰＵおよびＶＵが共通に参照できるレジス
タが用意されており、ＭＯＶＥ命令などのレジスタ転送
命令を実行するだけでＰＵとＶＵとの間でのデータ転送
が可能となっており、ＶＵとして、ＰＵとのデータ交換
を含めた極めて高い自由度の専用命令を実装できるアー
キテクチャとなっている。

【０００５】近年、画像処理あるいはネットワーク処理
といったリアルタイムな処理が要求される分野では、さ
らに高いレベルで高速処理あるいはリアルタイムな処理
性能が要求されつつある。たとえば、レジスタ転送を採
用している上記のプロセッサにおいて、ＶＵにて、ＰＵ
のデータに対してユーザ独自の専用命令によりデータ処
理を行う場合、まず、ＰＵからデータを転送し、演算結
果を再びＶＵから転送するために少なくとも２サイクル
の処理が基本的に必要である。ＶＵにおける処理内容が
例えば数十クロック程度の多数のクロックを消費するの
であれば、ＶＵとＰＵの間のデータ転送に費やされるク
ロックは、その処理で消費されるクロックに対する比率
が小さいのでそれほど問題にはならない。しかしなが
ら、ＶＵの処理が積和演算を基本とするもので数クロッ
クで終えてしまうような場合には、データ転送に費やさ
れるクロックが極めて大きなオーバヘッドとして見えて
くる。特に、プロセッサの処理速度を向上するために、
専用回路化して専用命令で実行可能とする処理の範囲を
増大すると、専用回路の処理で消費されるクロック数は
減少する傾向となり、データ転送のオーバヘッドが増大
しやすい。

【０００６】また、ＰＵとＶＵとで共通に参照できるレ
ジスタを採用した方法は、汎用性は高いが、ＰＵおよび
ＶＵの内部レジスタからデータ転送用のレジスタへ転送
するだけで１サイクルを消費するので、ＶＵとＰＵとの
間でデータ転送をしようとすると往復で合計４サイクル
を消費する。したがって、データ転送で消費されるクロ
ック数を削減することにより大幅に処理速度を向上でき
る。しかしながら、ＰＵの構成をＶＵの構成に合わせて
変形することは、ＰＵの汎用性を犠牲にすることにな
り、ユーザの仕様に合わせて自由な構成のＶＵを実装す
るためのプラットフォームとしての価値が低下する。さ
らに、ＰＵも含めて設計しなおすことになると、プロセ
ッサの開発期間とコストが増加することになり経済的な
解決策でもない。

【０００７】そこで、本発明においては、ＰＵの汎用性
を犠牲にすることなく、ＶＵとＰＵとのデータ転送のオ
ーバヘッドを削減可能なデータ処理装置およびその制御
方法を提供することを目的としている。そして、ＶＵと
ＰＵの間のデータ転送に伴うクロック消費を表面に現さ
ずに、あるいはほとんど現さずにＶＵにおける処理を実
行することができるデータ処理装置およびその制御方法
を提供することを目的としている。

【０００８】

【課題を解決するための手段】本発明においては、専用
処理ユニットにおける処理を規定した専用命令と、汎用
処理ユニットにおける処理を規定した汎用命令に加え、
専用処理ユニットおよび汎用処理ユニットにおける協調
処理を規定した協調命令を設ける。そして、特定のデー
タ処理に適した専用回路を備えた専用処理ユニットと、
汎用のデータ処理に適した汎用処理ユニットと、コード
メモリよりフェッチした命令コードが専用処理ユニット
における処理を規定した専用命令であれば専用処理ユニ
ットに対し専用命令またはそれをデコードした命令を供
給し、命令コードが汎用処理ユニットにおける処理を規
定した汎用命令であれば汎用処理ユニットに対し汎用命
令またはそれをデコードした命令を供給し、さらに、命
令コードが専用処理ユニットおよび汎用処理ユニットに
おける協調処理を規定した協調命令であれば専用処理ユ
ニットおよび汎用処理ユニットに対し協調命令またはそ
れをデコードした命令を供給するフェッチユニットとを
有するデータ処理装置を提供する。

【０００９】また、本発明においては、コードメモリよ
り命令コードをフェッチするステップと、フェッチした
命令コードが、特定のデータ処理に適した専用回路を備
えた専用処理ユニットにおける処理を規定した専用命令
であれば専用処理ユニットに対し専用命令またはそれを
デコードした命令を供給するステップと、フェッチした
命令コードが、汎用のデータ処理に適した汎用処理ユニ
ットにおける処理を規定した汎用命令であれば汎用処理
ユニットに対し汎用命令またはそれをデコードした命令
を供給するステップと、フェッチした命令コードが専用
処理ユニットおよび汎用処理ユニットにおける協調処理
を規定した協調命令であれば専用処理ユニットおよび汎
用処理ユニットに対し協調命令またはそれをデコードし
た命令を供給するステップとを有するデータ処理装置の
制御方法を提供する。

【００１０】このデータ処理装置またはその制御方法を
採用することにより、専用命令と、汎用命令と、協調命
令とを有するプログラムを適当な記録媒体、たとえば、
コードＲＯＭあるいはＲＡＭなどに記録して提供するこ
とができる。そして、データ処理装置あるいはその制御
方法においては、フェッチユニットまたはフェッチする
ステップで、専用命令と、汎用命令と、協調命令とを有
するプログラムから、専用命令、汎用命令および協調命
令が分岐なども含めて配列された順番にフェッチされ、
専用処理ユニットあるいは汎用処理ユニットに供給され
る。したがって、プログラムレベルで、汎用処理ユニッ
トと専用処理ユニットにおける処理の順番を協調して制
御することが可能である。したがって、これらのユニッ
ト間で同期を取る特殊な回路などを設けなくても、汎用
処理ユニットと専用処理ユニットの並列処理も含めて制
御することができる。複数の専用処理ユニットを有する
データ処理装置においては、複数の専用処理ユニットの
並列処理も含めてプログラムレベルで制御することがで
きる。このため、汎用処理ユニットと専用処理ユニット
における処理を規定した協調命令を設けることにより、
汎用処理ユニットと専用処理ユニットとを同期させて共
通の処理を実行することが可能であり、汎用処理ユニッ
トのハードウェア資源あるいはその一部と、専用処理ユ
ニットのハードウェア資源あるいはその一部とで構成さ
れるデータパスを用いて処理を行うことが可能となる。

【００１１】したがって、汎用処理ユニットから共通の
レジスタなどを介してデータを専用処理ユニットに転送
しなくても、汎用処理ユニットの内部レジスタなどの資
源と、専用処理ユニットの演算器などの資源とからなる
データパスにより同じ処理が可能であり、その処理結果
をデータ転送しなくても汎用処理ユニットに戻すことが
できる。たとえば、汎用処理ユニットの内部レジスタに
記録されたデータを専用処理ユニットの専用回路で処理
し、その結果を再び汎用処理ユニットの内部レジスタに
格納する処理が、フリップフロップなどが介在したとき
の遅延を除けば、専用処理ユニット内にデータがある条
件で専用回路において処理するのと同じサイクルで実行
することが可能である。したがって、データ転送で消費
されるクロック数を削減でき、データ転送などのコマン
ドは不要となるので、プログラム上ではデータ転送のた
めに消費されるサイクルが現れないようにすることがで
きる。

【００１２】協調命令を必要とするか否かは、本発明に
係るデータ処理装置で実現しようとしているアプリケー
ションの仕様などに依存する。しかしながら、汎用処理
ユニットの標準的なアーキテクチャあるいは制御コマン
ドとして協調命令を実現できるようになっていれば、仕
様によって開発あるいは設計される専用処理ユニットを
搭載するプラットフォームとしての汎用処理ユニットの
汎用性を犠牲にしないで、本発明の効果を得ることがで
きる。

【００１３】このように、本発明のデータ処理装置およ
びその制御方法においては、プログラムレベルで、汎用
処理ユニットあるいは専用処理ユニットが相互のハード
ウェア資源を用いて処理を行うことができる。専用処理
ユニットは、実装する仕様によって異なる専用回路を備
える可能性が高いので、汎用処理ユニットの処理を規定
した汎用命令的な意味で、専用処理ユニットの資源の一
部を利用する協調命令を定義することはそれほどのメリ
ットをもたらさない可能性が高い。これに対し、汎用処
理ユニットとして提供されるハードウェア資源は常に使
用可能なものであり、専用処理ユニットの処理を規定し
た専用命令的な意味で、汎用処理ユニットの資源あるい
はその一部を利用する協調命令を定義することは、汎用
処理と専用処理との並列性を犠牲にすることになるが、
専用回路の一部として汎用処理ユニットの資源を利用で
きるので、重複したハードウェア資源を省略することが
可能となり、専用処理ユニットをコンパクトにすること
ができる。さらに、専用回路の一部として汎用処理ユニ
ットの汎用的な回路構成を、無理なく取り込むことがで
きるので、専用命令の自由度を大幅に広げることができ
る。そして、汎用処理ユニットと専用処理ユニットの間
で個別の処理としてデータ転送を行う必要がなくなるの
で、データ転送に伴うオーバヘッドも大幅に低減でき
る。

【００１４】したがって、本発明のデータ処理装置およ
びその制御方法により、アプリケーションの仕様に柔軟
に対応できる専用回路を備えたプロセッサあるいはデー
タ処理装置であって、ユーザの要求、すなわち要求仕様
に対し、自由度の高い専用命令（ユーザ専用命令）を装
着可能であり、その専用命令をオーバヘッドがない、あ
るいはオーバヘッドが見えない状態で実行できるデータ
処理装置を提供することができる。

【００１５】このように、協調命令としては、汎用処理
ユニットのハードウェア資源の少なくとも１部を専用処
理ユニットに対し開放する命令が有効であり、処理速度
が速くリアルタイム処理にさらに適したプロセッサを低
コストで提供するのに適している。そのような協調命令
としては、汎用処理ユニットの汎用レジスタのデータを
入力として専用処理ユニットにおける処理を実行する汎
用レジスタ参照命令、専用処理ユニットの専用レジスタ
のデータを入力として汎用処理ユニットの演算器が処理
を実行する汎用演算器参照命令、専用処理ユニットの専
用レジスタのデータを汎用処理ユニットのデータＲＡＭ
に書き込む汎用ＲＡＭ書き込み命令、および汎用処理ユ
ニットのデータＲＡＭのデータを専用処理ユニットの専
用レジスタに書き込む汎用ＲＡＭ読み込み命令がある。

【００１６】汎用レジスタ参照命令に対応するには、汎
用処理ユニットに、汎用レジスタ参照命令に指定された
汎用レジスタのデータを専用処理ユニットに出力するデ
ータパスと、専用処理ユニットにおいて処理されたデー
タを汎用レジスタ参照命令に指定された汎用レジスタに
書き込むデータパスとを設ければよく、汎用処理ユニッ
トの汎用性を犠牲にすることなく協調命令に対応させる
ことができる。同様に、汎用演算器参照命令に対処する
には、汎用処理ユニットに、専用処理ユニットから供給
されたデータを演算器において汎用演算器参照命令で指
定された処理を行い、その結果を専用処理ユニットに出
力するデータパスを設ければ良い。汎用ＲＡＭ書き込み
命令に対しては、汎用処理ユニットに、専用処理ユニッ
トからデータＲＡＭのアドレスと書き込むデータとを取
得するデータパスを設ければ良い。汎用ＲＡＭ読み込み
命令に対しては、汎用処理ユニットに、専用処理ユニッ
トからデータＲＡＭのアドレスを取得し、そのアドレス
のデータを専用処理ユニットに出力するデータパスを設
ければ良い。これらのデータパスを設けておくことによ
り、本発明に係るデータ処理装置のプラットフォームと
して有効な汎用処理ユニットを備えたアーキテクチャを
提供できる。

【００１７】そして、協調命令を実行している間は、汎
用処理ユニットは専用処理ユニットの一部として利用さ
れているので、汎用処理ユニットは、協調命令またはそ
れをデコードした命令を取得すると、専用処理ユニット
における処理が終了するのを待ってフェッチユニットに
次の命令コードをフェッチする指示を出すことが望まし
い。

【００１８】

【発明の実施の形態】以下に図面を参照しながら本発明
についてさらに説明する。図１に、特定の処理に特化し
た専用処理ユニット（専用データ処理ユニット、以降で
はＶＵ）１と、汎用的な構成の汎用処理ユニット（汎用
データ処理ユニットあるいはプロセスユニット、以降で
はＰＵ）２とを備えたデータ処理装置（システムＬＳＩ
あるいはプロセッサ）１０の概略構成を示してある。こ
のプロセッサ１０は、ＶＵ１およびＰＵ２にデコードさ
れた制御信号あるいは命令を供給するフェッチユニット
（以降ではＦＵ）３を備えており、コードＲＡＭ４に記
録された実行形式のプログラムコード（マイクロプログ
ラムコード）５から命令コード（マイクロコード）をフ
ェッチし、デコードステージ命令として出力する。この
ため、ＦＵ３は、次の命令コードの先頭アドレスを記録
するレジスタ６と、ＰＵ２からの制御信号φ１によりレ
ジスタ６のアドレスまたはデコードされた命令φｐで指
示されたアドレスのいずれかを選択し、そのアドレスを
次の命令コードをフェッチするためにＲＡＭ４に出力す
るセレクタ７と、フェッチされたデータをアライメント
して命令コードの種別を判別しデコードステージの命令
として出力するコードアライメント回路８とを備えてい
る。したがって、次の命令コードのアドレスはＰＵ２か
らフィードバックされてＦＵ３に入力される。コードア
ライメント回路８はバッファとしても機能し、必要があ
れば、命令コードをプリフェッチすることも可能であ
る。

【００１９】ＲＡＭ４に記録されたプログラム５は、Ｖ
Ｕ１における処理を規定する専用命令（以下ではＶＵ命
令）と、ＰＵ２における処理を規定する汎用命令（以下
ではＰＵ命令）と、さらに、ＶＵ１とＰＵ２における協
調処理を規定する協調命令を備えている。上述したよう
に、ＶＵ１とＰＵ２とを備えたプロセッサ１０において
協調命令はＶＵ１の機能を拡張するために非常に有効で
ある。このため、本例においては、協調命令はＶＵ命令
の命令体系に組み込まれており、ＶＵ命令のインストラ
クションフォーマットで定義されている。ＦＵ３は、こ
れらのＶＵ命令、ＰＵ命令をデコードしてＶＵ１および
ＰＵ２にそれぞれ供給する機能を備えている。このた
め、フェッチした命令コードがＶＵ命令であれば、それ
をアライメントしたＶＵデコードステージ命令φｖを格
納するレジスタ９ｖと、フェッチした命令コードがＰＵ
命令であれば、それをアライメントしたＰＵデコードス
テージ命令φｐを格納するレジスタ９ｐを備えている。
そして、フェッチした命令が協調命令であれば、それを
デコード、すなわちアライメントしたＶＵデコードステ
ージ命令φｖと、ＰＵデコードステージ命令φｐとがレ
ジスタ９ｖおよび９ｐに各々格納される。

【００２０】専用処理ユニットＶＵ１は、ユーザ命令で
ある専用命令（ＶＵ命令）を実行するユニットであり、
ＶＵデコードステージ命令φｖをデコードし、その命令
φｖで規定されたデータ処理に適した回路における処理
を制御するデコードおよび実行制御回路１１を備えてい
る。本例のＶＵ１は、専用回路として、入出力のデータ
パスを切替可能なセレクタ論理を含むＶＵレジスタへア
クセス可能な第１の専用回路部１５と、セレクタ論理を
含むＶＵ演算器を備えた第２の専用回路部１６とを備え
ており、これらが結合して特定の演算処理に適した回路
を構成している。これらはセレクタ論理とＶＵレジスタ
とＶＵ演算器を備えた第３の専用回路部１７として捉え
ることももちろん可能である。これらのＶＵ演算器およ
びＶＵレジスタにより構成される専用回路における処理
はシーケンサあるいはハードワイヤードロジックなどの
ハードウェアロジックにより制御あるいは実行されるよ
うになっており、特定のデータ処理に特化しているので
フレキシビリティーは少ないが、その特定のデータ処理
を高速で実行できる。

【００２１】ＶＵ１においてもパイプライン的な処理イ
メージを導入すると、ＶＵレジスタにアクセス可能な第
１の専用回路部１５の制御サイクルと、ＶＵ演算器を備
えた第２の専用回路部１６の制御あるいは実行サイクル
とは異なり、段階的に進行する。したがって、ＦＵ３か
ら供給されたＶＵデコードステージ命令φｖを一時的に
格納する実行ステージ命令レジスタ１２を備えており、
このレジスタからＶＵ実行命令φｖｅが出力される。こ
れに対応して、レジスタ関連の制御を行うためのＶＵデ
コードステージ命令は以降においてはＶＵレジスタ制御
命令φｖｄと称することにする。また、本例のＶＵ１
は、１６個（Ｖ１５〜Ｖ０）のＶＵレジスタを備えてい
るものとする。

【００２２】汎用処理ユニットＰＵは、汎用命令あるい
は基本命令の実行ユニットであり、汎用プロセッサとほ
ぼ同じ構成が採用される。本例では、ＰＵ命令φｐをデ
コードし、ＡＬＵなどの汎用的な演算処理ユニットを備
えた回路の制御を行うデコードおよび実行制御回路２１
を備えている。そして、汎用処理を行う回路は、入出力
のデータパスを切替可能なセレクタ論理を含む汎用レジ
スタ（ＰＵレジスタ）へアクセス可能な第１の汎用回路
部２５と、セレクタ論理とフラグ生成論理を含む汎用演
算器を備えた第２の汎用回路部２６と、セレクタ論理を
含むデータＲＡＭにアクセス可能な第３の汎用回路部２
７との結合として捉えることが可能である。

【００２３】ＰＵ２においては、パイプラインで処理が
実行され、レジスタあるいはメモリにアクセスする第１
または第３の汎用回路部２５または２７の制御サイクル
と、演算器を備えた第２の汎用回路部２６の実行サイク
ルとは異なる。したがって、ＦＵ３から供給されたＰＵ
デコードステージ命令φｐを一時的に格納する実行ステ
ージ命令レジスタ２２が用意されており、このレジスタ
からＰＵ実行命令φｐｅが出力される。これに対応し
て、レジスタ関連の制御を行うためのＰＵデコードステ
ージ命令は以降においてはＰＵレジスタ制御命令φｐｄ
と称することにする。また、本例のＰＵ２は、１６個
（Ｒ１５〜Ｒ０）のＰＵ汎用レジスタを備えている。

【００２４】また、ＶＵ１とＰＵ２との間にはデータ転
送用の２つデータバスＶＵＲＤＡＴＡ３２と、ＶＵＷＤ
ＡＴＡ３１とが用意されている。これらのＶＵＲＤＡＴ
Ａ３２と、ＶＵＷＤＡＴＡ３１は、３２ビット（３１か
ら０）であり、各々１６ビット単位（１５〜０、３１〜
１６）にてアクセスできるようになっている。さらに、
ＶＵ１とＰＵ２との間には、互いの制御を行う為にＶＵ
／ＰＵ制御信号Ｃｖｐが設けられている。

【００２５】図２（ａ）に、プログラム５を構成する命
令セットのフォーマットを示してある。また、図２
（ｂ）に、命令セットの識別子「ＧＲＰ」とＶＵ命令の
カテゴリとの関係を示してある。本例のプログラム５の
インストラクションセット５０は、２語長の不定長命令
であり、１語（ワード）が２４ビットで構成されてい
る。１ワード目５１の２３ビットＬは命令長を示すデー
タ５１ａであり、このデータ５１ａをデコードすること
により命令長が判断できる。１ワード目５１の２２から
２１ビットは０で固定されており、その次の２０ビット
目のデータ５１ｂがＰＵ命令かＶＵ命令かを識別するフ
ラグとなっている。ＰＵ命令はフラグ５１ｂが「０」で
あり、ＶＵ命令はフラグ５１ｂが「１」にセットされ
る。本例においては、協調命令もＶＵ命令の体系で定義
されているので、フラグ５１ｂが「１」にセットされ
る。協調命令用にフラグを用意することも可能である。

【００２６】１ワード目５１の１９から１６ビットまで
のデータＧＲＰ５１ｃがＶＵ命令のカテゴリ５３を示
す。ＧＲＰ５１ｃが「００００」から「０１１１」はユ
ーザ定義のＶＵ命令であることを示し、「１０００」か
ら「１００１」がＰＵデータＲＡＭの読み出し参照を行
う協調命令であることを示し、「１０１０」から「１０
１１」がＰＵデータＲＡＭの書き込み参照を行う協調命
令であることを示し、「１１００」がＰＵ汎用レジスタ
の参照を行う協調命令であることを示し、「１１０１」
から「１１１１」がＰＵ演算器の参照を行う協調命令で
あることを示している。すなわち、ＧＲＰ５１ｃが「１
０００」から「１１１１」までが協調命令であり、その
場合には１ワード目５１の１５ビットから２ワード目５
２のすべてのフィールドが４ビット単位のオペランドフ
ィールドＦ１からＦ１０に分割され、それぞれが予約さ
れたＶＵ命令の命令オペコードおよびパラメータを記述
するスペースとなる。

【００２７】したがって、本例のプロセッサ１０のＦＵ
３では、プログラム５の命令セットをフェッチすると図
３に示したように処理を行う。まず、ステップ６１でコ
ードＲＡＭ４に次の命令コードのアドレスを出力して命
令コード５０をフェッチする。ステップ６２で、フェッ
チされた命令コード５０がＰＵ命令であればステップ６
５でＰＵデコードステージ命令φｐを出力する。一方、
命令コード５０がＶＵ命令であればステップ６３でＶＵ
デコードステージ命令φｖを出力し、ＰＵデコードステ
ージ命令φｐとしては「ｎｏｐ」を出力する。ＶＵデコ
ードステージ命令φｖではなく「ｎｏｐ」がＰＵ２に供
給されることにより、ＰＵ２では何も実行せずにＦＵ３
に次の命令コードをフェッチさせ、プログラム５の次の
命令コードに従った処理を行うことができる。また、Ｐ
Ｕ２には、ユーザの仕様などに依存して変わる可能性が
ある専用命令であるＶＵ命令の代わりに「ｎｏｐ」を供
給することにより、ＰＵ２の汎用性を維持したままユー
ザ実行命令である専用命令（ＶＵ命令）を自由に定義す
ることができる。

【００２８】さらに、フェッチしたＶＵ命令のＧＲＰ５
１ｃのカテゴリ５３が協調命令であれば、ステップ６４
で判断し、ステップ６５で協調命令であるＶＵ命令をデ
コードしたＰＵデコードステージ命令φｐを出力する。
そして、フェッチした命令コード５０がＶＵ命令あるい
はＰＵ命令であれば、次のクロックあるいはサイクルの
タイミングで次の命令コードのアドレスを出力しステッ
プ６１で次の命令コードをフェッチする。一方、協調命
令の場合は、ＰＵ２のリソースがＶＵ１における処理の
一部として用いられている。したがって、ステップ６６
において、ＶＵ１での処理が終了しＰＵ２のリソースが
開放されるのを待って次の命令コードをフェッチする。
このために、ＶＵ／ＰＵ制御信号Ｃｖｐが利用されてい
る。

【００２９】すなわち、図４（ａ）に示すように、ＶＵ
命令（図においてはＶ命令）が協調命令でなく、それを
ＶＵ１で実行するために３クロックを要するのであれ
ば、ＶＵ命令をフェッチするとＰＵ２には「ｎｏｐ」が
供給される。そして、次のサイクルでは次のＰＵ命令
（図においてはＰ命令）がフェッチされる。したがっ
て、ＶＵ１とＰＵ２とで並列して処理が進行する。

【００３０】一方、図４（ｂ）に示すようにＶＵ命令が
協調命令であれば、ＶＵ１にＶＵデコードステージ命令
φｖが供給されると共に、ＰＵ２に対してもＶＵ命令を
デコードしたＰＵデコードステージ命令φｐが供給され
る。そして、その協調処理を行うＶＵ命令をＶＵ１で実
行するために３クロックを要するのであれば、ＰＵ２も
同じクロック数だけＶＵ命令に拘束される。したがっ
て、同期した処理が行われる。

【００３１】このように、本例のデータ処理装置である
プロセッサあるいはシステムＬＳＩ１０は、プログラム
５を構成するＶＵ命令およびＰＵ命令を配列された順番
にＦＵ３でフェッチしてＶＵ１あるいはＰＵ２に供給す
る。したがって、１つのプログラム５によりＶＵ１およ
びＰＵ２の処理を適宜制御することが可能であり、同期
回路などを設けなくても、プログラム５のレベルでＶＵ
１とＰＵ２とにおける処理を、並列処理も含めて制御す
ることができる。そして、ＶＵ１とＰＵ２との処理を、
命令コードをフェッチするサイクル、すなわち、クロッ
ク単位で制御することができる。また、複数のＶＵ１を
有するプロセッサにおいても、それら複数のＶＵ１の並
列処理をプログラムレベルでクロック単位で制御するこ
とができる。もちろん、ＶＵ１とＰＵ２との同期が必要
な場合は、ＶＵ命令の完了を待ち合わせる同期命令を用
意することにより、プログラムレベルで同期させること
ができる。

【００３２】したがって、ＶＵ１とＰＵ２に協調命令を
供給することにより、ＶＵ１とＰＵ２とを同期して同一
の処理を行わせることも可能である。そこで、本例のプ
ロセッサ１０においては、協調命令をプログラムレベル
で用意すると共に、各々のリソースを利用することがで
きるＶＵＷＤＡＴＡ３１およびＶＵＲＤＡＴＡ３２など
のデータパスを実装することにより、ＶＵ１とＰＵ２の
リソースあるいはそれらの一部のリソースを利用した新
たなデータパスによる協調処理が行えるようにしてい
る。

【００３３】これらのＰＵ命令、ＶＵ命令、およびＶＵ
命令形式の協調命令を含むプログラム５は、コードＲＡ
ＭあるいはＲＯＭなどのプロセッサ用のプログラムを記
録するのに適した記録媒体に記録して提供される。そし
て、ユーザ仕様に変更が生じたり、プロセッサの開発段
階で変更が生じたりするとプログラム５を変更すること
によりプロセッサ１０の処理機能を自由に変更すること
が可能であり、フレキシビリティーの高いシステムとな
っている。

【００３４】本例のプロセッサ１０においては、４種類
の協調命令が用意されている。第１の協調命令は、ＰＵ
２の汎用レジスタ（ＰＵレジスタ）のデータを入力とし
てＶＵ１における処理を実行する汎用レジスタ参照命令
であり、以下の記述が採用されている。

【００３５】Ｖ＿ＯＰＲｘ，Ｒｙ，Ｒｚ・・・（１）このＶＵ命令は、ＰＵ２の汎用レジスタＲｙおよびＲｚ
の内容を読み出し、Ｖ＿ＯＰで指定されるＶＵ１の演算
器で演算を行い、その結果をＰＵ２のＰＵ汎用レジスタ
Ｒｘに格納するものである。

【００３６】第２の協調命令は、ＶＵ１の専用レジスタ
（ＶＵレジスタ）のデータを入力としてＰＵ２の演算器
が処理を実行する汎用演算器参照命令であり、以下の記
述が採用されている。

【００３７】Ｖ＿ＰＡＤＤＶｘ，Ｖｙ，Ｖｚ・・・（２）このＶＵ命令は、ＶＵ１のＶＵレジスタＶｙおよびＶｚ
の内容を読み出し、ＰＵ２の演算器で演算を行い、その
結果をＶＵレジスタＶｘに格納するものである。

【００３８】第３の協調命令は、ＶＵ１の専用レジスタ
（ＶＵレジスタ）のデータをＰＵ２のデータＲＡＭに書
き込む汎用ＲＡＭ書き込み命令であり、以下の記述が採
用されている。

【００３９】Ｖ＿ＳＴ（Ｖｘ），Ｖｙ・・・（３）このＶＵ命令は、ＶＵ１のＶＵレジスタＶｘで示される
ＰＵ２のデータＲＡＭのアドレスに、ＶＵレジスタＶｙ
の内容を格納するものである。

【００４０】第４の協調命令は、ＰＵ２のデータＲＡＭ
のデータをＶＵ１の専用レジスタ（ＶＵレジスタ）に書
き込む汎用ＲＡＭ読み込み命令であり、以下の記述が採
用されている。

【００４１】Ｖ＿ＬＤ（Ｖｘ），Ｖｙ・・・（４）このＶＵ命令は、ＶＵ１のＶＵレジスタＶｘで示される
ＰＵ２のデータＲＡＭのアドレスの内容をＶＵ１のＶＵ
レジスタＶｙに格納するものである。

【００４２】これらの協調命令は、ＰＵ２のリソースの
一部をＶＵ１における処理で流用可能とするものであ
り、ＶＵ１のリソースを増やさずにＶＵ１における処
理、すなわち専用命令であるＶＵ命令の自由度を拡張で
きる。そして、これらの協調命令により、ＰＵ２のリソ
ースとＶＵ１のリソースで新たなデータパスが構成され
るので、そのデータパスで処理が実行される。したがっ
て、ＰＵ２のデータをＶＵ１に共通のレジスタなどを介
して転送する処理は一切不要となり、１命令でＰＵ２の
データを用いてＶＵ１で演算し、その結果をＰＵ２に戻
すことが可能となる。

【００４３】各々の協調命令についてさらに説明する。
図５に、汎用レジスタ参照命令Ｖ＿ＯＰの命令フォーマ
ットを示し、図６に、この協調命令を実行したときのデ
ータの流れと制御の流れを示してある。ＰＵ２の汎用レ
ジスタの数が本例では１６個（Ｒ０〜Ｒ１５）なので、
４ビットでＰＵレジスタを指定できる。したがって、本
例では、汎用レジスタ参照命令Ｖ＿ＯＰ５５は、１ワー
ドの命令コードとなり、命令コード５０の１ワード目５
１で記述できる。

【００４４】ＰＵ２においては、デコードステージの信
号φｐｄでＶ＿ＯＰ命令５５が出力されると、データバ
スＶＵＷＤＡＴＡ３１の０〜１５ビットにＰＵレジスタ
のＲｙレジスタの内容を、データバスＶＵＷＤＡＴＡ３
１の１６〜３１ビットにＰＵレジスタのＲｚレジスタの
内容を出力するようにデータパスを形成する。また、実
行およびライトバックステージの信号φｐｅで、ＰＵレ
ジスタのＲｘレジスタにデータバスＶＵＲＤＡＴＡ３２
の０〜１５ビットのデータを書き込むようにデータパス
を形成する。

【００４５】このため、図６に示すように、ＰＵ２にお
いては、汎用レジスタ（ＰＵレジスタ）２５ａおよびセ
レクタ２５ｂを含む第１の汎用回路２５では、信号φｐ
ｅによりＶＵＲＤＡＴＡ３２のデータがＰＵレジスタ２
５に書き込まれるようにセレクタ２５ｂが設定される。
一方、ＰＵ演算器２６ａ、入力レジスタ２６ｂおよび２
６ｃ、さらに、セレクタ２６ｄおよび２６ｅを含む第２
の汎用回路２６では、信号φｐｄにより、セレクタ２６
ｄおよび２６ｅでＰＵレジスタ２５ａのＲｙレジスタお
よびＲｚレジスタのデータがＶＵＷＤＡＴＡ３１に出力
されるように設定される。なお、本例の協調命令５５に
おいては、ライトバックステージはＶＵ１の演算と同期
して行われる必要があるので、実行時に制御信号φｐｅ
は、ＶＵ１からＶＵ／ＰＵ制御信号Ｃｖｐとして供給さ
れるＶＵＷＢＥＮ信号（ＶＵ１からＰＵ２へのフラグラ
イトバック制御信号）に基づき出力される。

【００４６】一方、ＶＵ１においては、ＶＵ演算器１６
ａ、セレクタ１６ｂおよび１６ｃを含む第２の専用回路
１６では、信号φｖｅによりセレクタ１６ｂおよび１６
ｃがＶＵＷＤＡＴＡ３１を入力として選択するように設
定され、ＶＵ演算器１６ａがユーザ定義の演算を行い、
１６ビットの結果（必要に応じてフラグ情報）がセレク
タ１９を介してＶＵＲＤＡＴＡ３２から出力される。し
たがって、汎用レジスタ参照命令Ｖ＿ＯＰ５５により、
ＰＵ２の汎用レジスタ２５ａを入力としてＶＵ１のＶＵ
演算器１６ａが演算し、その結果をＰＵ２の汎用レジス
タ２５ａにライトバックするデータパスが形成される。
そして、ＶＵ１において、汎用レジスタ参照命令Ｖ＿Ｏ
Ｐ５５で規定された演算が実行される。したがって、図
７にタイミングチャートで示すように、４番目のサイク
ルで汎用レジスタ参照命令Ｖ＿ＯＰ５５がデコードステ
ージ命令（Ｄｅｃ＿ｉｎｓｔ）として出力されてからＶ
ＵＲＤＡＴＡ３２に演算結果が現れてＰＵ２の汎用レジ
スタ２５ａにライトバックされるまで３サイクル、すな
わち、３クロックが消費されるだけとなる。したがっ
て、ＰＵ２からＶＵ１にデータを転送するためにクロッ
クは消費されず、ＶＵ１における演算時間だけでＰＵ２
のデータをＶＵ１で演算処理することができる。

【００４７】本図および以下に示すタイミングチャート
に示した信号は次の通りである。

【００４８】ＣＬＫクロックコードＲＡＭアドレスコードＲＡＭアドレス入力コードＲＡＭデータコードＲＡＭデータ出力 Dec＿inst ＰＵデコードステージ命令 EX＿WB＿Inst ＰＵ実行ステージ命令 AA & AB ＰＵ演算器入力データ PUALUOUT ＰＵ演算器出力データ Reg Update 汎用レジスタデータ値（更新された値） VUINST(dec) ＶＵデコードステージ命令 VUINST＿EX ＶＵ実行ステージ命令 VUEXEC ＶＵ実行ステージタイミング制御信号 VUWAIT ＶＵ命令実行時のＶＵ命令完了同期制御信号 VUPABUSY ＰＵ演算器使用時のＰＵ演算完了同期制御信号 VUCMD ＶＵ−Ｉ／Ｆ（ＰＵ命令）のコマンド信号 VUWDATA ＰＵからＶＵへのライトデータバス VURDATA ＶＵからＰＵへのライトデータバス VUWBEN/VUWBCCEN ＶＵからＰＵへのフラグライトバック制御信号 Next＿IP 次にフェッチするインストラクションポインタ Fetch＿IP フェッチステージのインストラクションポインタ Dec＿IP デコードステージのインストラクションポインタ EX＿IP 実行ステージのインストラクションポインタこのように本命令５５を使えば、ＰＵ２に標準装備され
ていない演算をＶＵ１にてＰＵ２のレジスタを直接参照
することによりデータ転送のオーバヘッドなしに実行す
ることができる。したがって、特殊な掛け算やシフト命
令を実行する必要がある場合に極めて有効である。例え
ば、ＶＵ１における演算が複雑で１クロックで実行でき
ず複数クロックかかる場合においても、ＰＵ２の汎用レ
ジスタ２５ａからのリードとライトは１クロックで行わ
れるので、ＶＵ１における演算に必要なクロック数のみ
で実行できることになる。即ち、ＶＵ１で演算が複数ク
ロックかかる場合にはＶＵ１からＰＵ２の実行ステージ
をＶＵ／ＰＵ制御信号Ｃｖｐ、例えば、ＶＵ命令実行時
の完了同期制御信号であるＶＵＷＡＩＴ信号を通じて停
止させ、ウェイト状態としておくことにより、ＰＵ２を
矛盾なくＶＵ１と同期して動作させることが可能であ
り、協調処理を矛盾なく実行することができる。

【００４９】さらに、ＰＵ２の第２の汎用回路２６のセ
レクタ２６ｄをＶＵＲＤＡＴＡ３２から供給された演算
結果をＶＵ１に戻すように設定し、ＶＵ１の演算に対し
フォワーディング操作を行うことも可能である。

【００５０】図８に、汎用演算器参照命令Ｖ＿ＰＡＤＤ
５６の命令フォーマットを示し、図９に、この協調命令
を実行したときのデータの流れと制御の流れを示してあ
る。ＶＵ１のＶＵレジスタ１５ａの数が本例では１６個
（Ｖ０〜Ｖ１５）なので、４ビットでＶＵレジスタを指
定できる。したがって、本例では、汎用演算器参照命令
Ｖ＿ＰＡＤＤ５６も、１ワードの命令コードとなり、命
令コード５０の１ワード目５１で記述できる。

【００５１】ＰＵ２は、基本命令実行ユニットであり、
ＶＵ１の機能に関わらず一定の機能を提供するようにな
っている既定義のユニットである。したがって、ＰＵ２
で行う演算処理はユーザは指定できても定義することは
できない。従って、本例では、ＧＲＰコード５１ｃとオ
ペランドフィールドのＦ２に記述されるコードを使用し
て図１０に示すようにＶＵ命令であるＶ＿ＰＡＤＤ５６
によりＰＵ２で行う既定義の演算機能を指定するように
している。

【００５２】図１０に示した各演算の概略は図１１に示
した通りであり、汎用レジスタで演算機能の概略を示し
てあるが、Ｖ＿ＰＡＤＤ５６を用いることにより、汎用
レジスタの代わりにＶＵレジスタ１５ａを指定して各演
算を実行することができる。なお、図１１のＣＦはコン
ディションコードを示している。

【００５３】ＰＵ２の第２の汎用回路２６においては、
Ｖ＿ＰＡＤＤ命令５６がデコードステージ命令φｐｄと
して出力されると、ＶＵ１から出力されてくるデータバ
スＶＵＲＤＡＴＡ３２の０〜１５ビットのデータと、Ｖ
ＵＲＤＡＴＡ３２の１６〜３１ビットのデータとを、Ｐ
Ｕ２の演算器２６ａの入力ポートＡおよびＢにそれぞれ
アサインし、ＰＵ２の演算器２６ａで演算が実行される
ようにデータパスを形成する。さらに、ＰＵ演算器２６
ａの出力をＶＵＷＤＡＴＡ３１によりＶＵ１に供給する
データパスを形成する。

【００５４】このため、図９に示すように、ＰＵ２のＰ
Ｕ演算器２６ａを含む第２の汎用回路２６においては、
実行およびライトバックステージの信号φｐｅにより、
セレクタ２６ｄおよび２６ｅがＶＵＲＤＡＴＡ３２から
のデータを入力として選択するように設定される。さら
に、ＰＵ演算器２６ａにおいては、Ｖ＿ＰＡＤＤ５６の
ＧＲＰ５１ｃとＦ２で指定された演算を行うように設定
され、その演算結果が出力されると、セレクタ２６ｄが
切り替えられ、レジスタ２６ｂを介してデータバスＶＵ
ＷＤＡＴＡ３１の０〜１５ビットに演算結果が出力され
るように設定される。さらに、ＶＵ１からフラグ変更指
示がＶＵ／ＰＵ制御信号Ｃｖｐを通じてあった場合に
は、演算結果のフラグをフラグレジスタに格納する。

【００５５】一方、ＶＵ１においては、ＶＵレジスタ１
５ａおよびセレクタ１５を含む第１の専用回路１５で
は、デコードステージの信号φｖｄにより、ＶＵレジス
タ１５ａの選択された２つのレジスタのデータがデータ
バスＶＵＲＤＡＴＡ３２のビット０〜３１を介してＰＵ
２に転送されるようにＶＵレジスタ１５ａとセレクタ１
９がセットされる。さらに、実行時の信号φｖｅによ
り、ＶＵレジスタ１５ａの選択されたレジスタにＶＵＷ
ＤＡＴＡ３１の０〜１５ビットのデータが書き込まれる
ようにセレクタ１５ｂが設定される。なお、ＶＵ１にお
いては、ＶＵ命令をデコードしたら、該当する、すなわ
ち、ＶＵ１が複数ある場合に、Ｖ＿ＰＡＤＤ５６を実行
するＶＵ側では、ＶＵレジスタ１５ａに対するフォワー
ディング機構または「ｎｏｐ」によるタイミング調整を
行う機構が必要となる場合がある。

【００５６】したがって、本例のプロセッサ１０におい
ては、汎用演算器参照命令Ｖ＿ＰＡＤＤ５６により、Ｖ
Ｕ１のＶＵレジスタ１５ａを入力として、ＰＵ２のＰＵ
演算器２６ａが演算し、その結果をＶＵ１のＶＵレジス
タ１５ａにライトバックするデータパスが形成される。
そして、ＰＵ２の演算器２６ａにおいて、汎用演算器参
照命令Ｖ＿ＰＡＤＤ５６で指定された演算が実行され
る。したがって、図１２にタイミングチャートで示すよ
うに、１番目のサイクルで汎用演算器参照命令Ｖ＿ＰＡ
ＤＤ５６がデコードステージ命令（Ｄｅｃ＿ｉｎｓｔ）
として出力されてからＶＵＷＤＡＴＡ３１にＰＵ２の演
算結果が現れてＶＵ１のＶＵレジスタ１５ａにライトバ
ックされるまで３サイクル、すなわち、３クロックが消
費されるだけとなる。したがって、ＶＵ１からＰＵ２に
データを転送するためにクロックは消費されず、ＰＵ２
における演算時間だけでＰＵ２の演算機能をＶＵ１で利
用することができる。

【００５７】図１３に示したタイミングチャートは、実
行に３サイクル（クロック）を消費するＶ＿ＰＡＤＤ命
令を実行したケースであり、図４（ｂ）のケースに相当
する。この協調処理用のＶＵ命令をフェッチすると、１
番目のサイクルで汎用演算器参照命令Ｖ＿ＰＡＤＤ５６
がデコードステージ命令（Ｄｅｃ＿ｉｎｓｔ）として出
力され、２〜４サイクルにかけてＰＵ演算器２６ａを用
いた処理が行われ、その結果が５サイクル目にＶＵＷＤ
ＡＴＡ３１に現れる（Ｖ＿ＰＡＤＤＯＵＴ）。そし
て、５番目のサイクルでＶＵ１のＶＵレジスタ１５ａに
ライトバックされる。したがって、実行に３クロックを
消費する汎用演算器参照命令Ｖ＿ＰＡＤＤ５６を実行す
るために５サイクル、すなわち、５クロックが消費され
るだけとなり、ＰＵ２あるいはＶＵ１が単独で、実行に
３サイクルを消費する命令を実行したのと消費するクロ
ックは変わらずに、ＶＵ１のデータをＰＵ２の演算器２
６ａで処理することができる。

【００５８】このように、本例のプロセッサ１０におい
ては、汎用演算器参照命令Ｖ＿ＰＡＤＤ５６により、Ｖ
Ｕ１からＰＵ２にデータを転送するためにクロックを消
費せずに、ＰＵ２における演算時間だけでＰＵ２の演算
機能をＶＵ１で利用することができる。したがって、Ｐ
Ｕ２を用いた演算処理時間が大幅に短縮され、処理速度
が向上する。さらに、この命令は上記のＶ＿ＯＰ命令の
対称型の命令であり、ＰＵ２の演算器をプロセッサ１０
としては二重に持つことなく、ＶＵ１のレジスタからこ
れをストレスなくアクセスして演算に利用することがで
きる。これは、ＶＵ１として実装するユーザの仕様の中
でＰＵ２の演算器を用いて処理できる演算があり、ＰＵ
２と並列実行を行う必要がなければ、あるいはＰＵ２と
の並列実行する可能性を捨てれば、ＶＵ１に、該当する
処理を実行するための演算器およびデータパスを実装し
なくても良いことを意味し、ＶＵ１をコンパクトに設計
することが可能となる。したがって、ユーザ論理を実装
するＶＵ１の開発および設計工数、さらには検査工数の
削減も図ることが可能であり、ＶＵ１を搭載し、かつ、
さらに経済的なプロセッサを提供することが可能とな
る。

【００５９】そして、上述したように、ＶＵ１からＰＵ
２の演算器２６ａをストレスなく利用できる環境が提供
されるので、図１０などに示したＰＵ演算器２６ａの多
様な演算機能をＶＵ１から利用することが可能となり、
ＶＵ１に実装されるユーザ論理、すなわち専用命令の自
由度は大幅に向上する。そして、その自由度の高い専用
命令（ＶＵ命令）を、データ転送のためのクロックを消
費させずに、高速に実行することができる。したがっ
て、ユーザあるいはアプリケーションで要求される仕様
に極めて柔軟に対応できると共に、リアルタイム処理に
適した実行速度も高く、低コストでコンパクトなプロセ
ッサあるいはシステムＬＳＩを提供することができる。

【００６０】図１４に汎用ＲＡＭ書き込み命令（メモリ
ストア命令）Ｖ＿ＳＴ５７の命令フォーマットを示し、
図１５に、この協調命令を実行したときのデータの流れ
と制御の流れを示してある。ＶＵ１のＶＵレジスタ１５
ａの数が本例では１６個（Ｖ０〜Ｖ１５）なので、４ビ
ットでＶＵレジスタを指定できる。したがって、本例の
汎用ＲＡＭ書き込み命令Ｖ＿ＳＴ５７も、１ワードの命
令コードとなり、命令コード５０の１ワード目５１で記
述できる。

【００６１】ＰＵ２においては、Ｖ＿ＳＴ命令５７がデ
コードステージ命令φｐｄとして出力されると、ＶＵ１
から出力されてくるデータバスＶＵＲＤＡＴＡ３２の０
〜１５ビットのデータがＰＵ２のデータＲＡＭ２７ａの
アドレスにセットアップされ、ＶＵＲＤＡＴＡ３２の１
６〜３１ビットのデータをデータＲＡＭ２７ａのライト
データにセットアップされるようにデータパスを形成す
る。

【００６２】このため、図１５に示すように、データＲ
ＡＭ２７ａ、アドレスのオフセットを加算する加算器２
７ｂ、アドレス入力を選択するセレクタ２７ｃ、および
データ入力を選択するセレクタ２７ｄを含む第３の汎用
回路２７においては、デコードステージの信号φｐｄに
より、セレクタ２７ｃおよび２７ｄがＶＵＲＤＡＴＡ３
２からのデータを入力として選択するように設定され
る。そして、ＶＵ１からＶＵ／ＰＵ制御信号Ｃｖｐを通
じてメモリライト指示があったときにメモリライトサイ
クルを実行し、データＲＡＭ２７ａにデータを書き込
む。

【００６３】一方、ＶＵ１においては、デコードステー
ジの信号φｖｄにより、ＶＵレジスタ１５ａの選択され
た２つのレジスタのデータがデータバスＶＵＲＤＡＴＡ
３２のビット０〜３１を介してＰＵ２に転送されるよう
にＶＵレジスタ１５ａとセレクタ１９がセットされる。
なお、ＶＵ１においては、ＶＵ命令をデコードしたら、
該当する、すなわち、ＶＵ１が複数ある場合に、本ＶＵ
命令を実行するＶＵ側では、ＶＵレジスタ１５ａに対す
るフォワーディング機構または「ｎｏｐ」によるタイミ
ング調整を行う機構が必要となる。

【００６４】この汎用ＲＡＭ書き込み命令Ｖ＿ＳＴ５７
によれば、ＰＵ汎用レジスタ２５ａを用いてデータ転送
することなく、ＶＵ１のデータをＰＵ２のデータＲＡＭ
２７ａに書き込むことができる。したがって、ＰＵ２の
汎用レジスタを経由してＶＵ１のデータをストアする方
式と比較し、１サイクル、すなわち１クロックでデータ
をストアすることができ、その処理のために消費するク
ロックを大幅に削減できるので、極めて大きな効果があ
る。この協調命令Ｖ＿ＳＴ５７によりＰＵ２の処理はＶ
Ｕ１の処理に拘束されるが、ＰＵ２において汎用レジス
タ２５ａを介してデータ転送する処理を省くことが可能
となるので、ＰＵ２の処理効率も大幅に向上できる。

【００６５】図１６に、汎用ＲＡＭ読み込み命令Ｖ＿Ｌ
Ｄ５８の命令フォーマットを示し、図１７に、この協調
命令を実行したときのデータの流れと制御の流れを示し
てある。本例では、４ビットでＶＵレジスタを指定でき
るので、汎用ＲＡＭ読み込み命令（メモリロード命令）
Ｖ＿ＬＤ５８も、１ワードの命令コードとなり、命令コ
ード５０の１ワード目５１で記述できる。

【００６６】ＰＵ２においては、Ｖ＿ＬＤ命令５８がデ
コードステージ命令φｐｄとして出力されると、ＶＵ１
から出力されてくるデータバスＶＵＲＤＡＴＡ３２の０
〜１５ビットのデータがＰＵ２のデータＲＡＭ２７ａの
アドレスにセットアップされ、データＲＡＭ２７ａの出
力がデータバスＶＵＷＤＡＴＡ３１の０〜１５ビットに
出力されるようにデータパスを形成する。

【００６７】このため、図１７に示すように、第３の汎
用回路２７においては、デコードステージの信号φｐｄ
により、セレクタ２７ｃがＶＵＲＤＡＴＡ３２からのデ
ータを入力として選択するように設定され、第２の汎用
回路２６のセレクタ２６ｄがデータＲＡＭ２７ａの出力
をレジスタ２６ｂを介してＶＵＷＤＡＴＡ３１に出力す
るように設定される。そして、ＶＵ１からＶＵ／ＰＵ制
御信号Ｃｖｐを通じてメモリリード指示があったとき
に、メモリリードサイクルを実行し、リードしたデータ
をレジスタ２６ｂにラッチしてバスＶＵＷＤＡＴＡ３１
に出力する。

【００６８】一方、ＶＵ１においては、デコードステー
ジの信号φｖｄにより、ＶＵレジスタ１５ａの選択され
た１つのレジスタのデータがデータバスＶＵＲＤＡＴＡ
３２のビット０〜１５を介してＰＵ２に転送されるよう
にＶＵレジスタ１５ａとセレクタ１９がセットされる。
Ｖ＿ＬＤ命令５８の実行ステージは２クロック構成とな
っており、２クロック目でＰＵ２からの出力（レジスタ
２６ｂの出力でＶＵＷＤＡＴＡ３１により供給されるデ
ータ）をＶＵレジスタ１５ａの指定されたレジスタに書
き込む。なお、この命令においても、ＶＵ１において
は、ＶＵ命令をデコードしたら、該当する、すなわち、
ＶＵ１が複数ある場合に、本ＶＵ命令を実行するＶＵ側
では、ＶＵレジスタ１５ａに対するフォワーディング機
構または「ｎｏｐ」によるタイミング調整を行う機構が
必要となる。

【００６９】この汎用ＲＡＭ読み込み命令Ｖ＿ＬＤ５８
は、上記の汎用ＲＡＭ書き込み命令Ｖ＿ＳＴ５７の対称
型の命令であり、同様に、ＰＵ汎用レジスタ２５ａを用
いてデータ転送することなく、ＰＵ２のデータＲＡＭ２
７ａのデータをＶＵ１のデータに書き込むことができ
る。したがって、ＰＵ２の汎用レジスタを経由してＶＵ
１のデータをストアする方式と比較し、１サイクル、す
なわち１クロックでデータをＶＵレジスタ１５ａにスト
アすることができ、その処理ために消費するクロックを
大幅に削減できる。したがって、同様に極めて大きな効
果を備えた協調制御型のＶＵ命令である。

【００７０】これらの汎用レジスタ参照命令Ｖ＿ＯＰ５
５、汎用演算器参照命令Ｖ＿ＰＡＤＤ５６、汎用ＲＡＭ
書き込み命令Ｖ＿ＳＴ５７、および汎用ＲＡＭ読み込み
命令Ｖ＿ＬＤ５８は、ＶＵ命令の体系で実装された協調
命令であり、ＰＵ２のリソースの一部をＶＵ１に開放す
ることにより、ＶＵ１における処理を実行するためのデ
ータパスの一部としてＰＵ２のリソースを組み込めるよ
うにしている。したがって、ＶＵ１とＰＵ２との間のデ
ータ転送をＭＯＶＥ命令なしに行うことが可能となり、
また、ＶＵ１の演算器を利用した演算、ＰＵ２の演算器
を利用した演算、ＰＵ２のデータＲＡＭへのアクセスが
クロックを浪費することなく行えることになる。このた
め、汎用機能を備えたＰＵ２をプラットフォームとして
ユーザロジックを実現するＶＵ１を実装したプロセッサ
（ＶＵＰＵプロセッサ）１０の処理効率を大きく改善す
ることができる。この効果は、本発明を適用しないと、
データ転送が頻繁に行われることになる、ＶＵ１におけ
る処理が数クロックで終えるような短いユーザ命令（Ｖ
Ｕ命令）の場合に極めて顕著に効果を発揮することにな
る。

【００７１】本例では、この効果を得るためにユーザは
ＶＵ命令の規定にしたがって協調命令を採用する必要が
出てくる。この例では、４ビットＧＲＰコード５１ｃが
命令フォーマット５０に規定されることになるが、全体
で４８ビット長のオペランドフィールドを備えた命令フ
ォーマットのなかでのＧＲＰコード５１ｃにより消費さ
れる４ビットの予約は、協調命令を採用することにより
改善される処理速度の効果に比べれば十分許容できるも
のである。もちろん、協調命令を導入することは、デー
タ転送などを目的とした他のユーザ定義の標準命令を定
義しないということではなく、ＰＵ２の汎用レジスタ２
５ａとＶＵ１のＶＵレジスタ１５ａの間でデータ転送を
行うＭＯＶＥ命令なども使用できる。

【００７２】さらに、ＰＵ２のリソースを開放する協調
命令を実装するために、Ｖ＿ＯＰ命令５５に対しては、
データバスＶＵＷＤＡＴＡ３１にＰＵレジスタ２５ａの
指定されたレジスタの内容が出力され、ＰＵレジスタ２
５ａの指定されたレジスタにデータバスＶＵＲＤＡＴＡ
３２のデータが書き込まれるデータパスをＰＵ２に設け
ている。これらのデータパスの構成は、上記にて開示し
た回路に限定されるものではないが、汎用レジスタ参照
命令５５に指定された汎用レジスタ２５ａのデータをＶ
Ｕ１に出力するデータパスと、ＶＵ１において処理され
たデータを命令５５に指定された汎用レジスタ２５ａに
書き込むデータパスとをＰＵ２に標準的に設けておくこ
とにより、汎用レジスタ参照命令であるＶ＿ＯＰ命令５
５をＶＵ命令として利用できるＶＵ１を実装するプロセ
ッサ１０のプラットフォームとしてＰＵ２は機能する。
このような構成にしても、ＰＵ２の汎用性が犠牲にされ
ることはなく、協調命令に対応させることができる。

【００７３】同様に、Ｖ＿ＰＡＤＤ命令５６に対して
は、ＶＵ１から出力されてくるデータバスＶＵＲＤＡＴ
Ａ３２のデータをＰＵ２の演算器２６ａの入力にアサイ
ンし、ＰＵ演算器２６ａで演算が実行されるようにデー
タパスを形成すると共に、ＰＵ演算器２６ａの出力をＶ
ＵＷＤＡＴＡ３１によりＶＵ１に供給するデータパスを
形成している。すなわち、ＰＵ２に、ＶＵ１から供給さ
れたデータをＰＵ演算器において命令５６で指定された
処理を行い、その結果をＶＵ１に出力するデータパスを
設けることにより、汎用演算器参照命令であるＶ＿ＰＡ
ＤＤ命令５６を実装可能なプラットフォームとすること
ができる。

【００７４】また、Ｖ＿ＳＴ命令５７に対しては、ＶＵ
１から出力されてくるデータバスＶＵＲＤＡＴＡ３２の
データがＰＵ２のデータＲＡＭ２７ａのアドレスとライ
トデータにセットアップするデータパスを設けている。
すなわち、ＰＵ２に、ＶＵ１からデータＲＡＭのアドレ
スと書き込むデータとを取得するデータパスを設けるこ
とにより、汎用ＲＡＭ書き込み命令であるＶ＿ＳＴ命令
５７を実装可能なＰＵ２を提供できる。さらに、Ｖ＿Ｌ
Ｄ命令５８に対しては、ＶＵ１から出力されてくるデー
タバスＶＵＲＤＡＴＡ３２のデータがＰＵ２のデータＲ
ＡＭ２７ａのアドレスにセットアップされ、データＲＡ
Ｍ２７ａの出力がデータバスＶＵＷＤＡＴＡ３１に出力
されるようにデータパスを形成し、ＰＵ２に、ＶＵ１か
らデータＲＡＭのアドレスを取得し、そのアドレスのデ
ータＲＡＭのデータをＶＵ１に出力するデータパスを設
けることにより、汎用ＲＡＭ読み込み命令であるＶ＿Ｌ
Ｄ命令５８を実装可能なＰＵ２を提供できる。

【００７５】なお、協調命令の種類は本例で説明したも
のに限定されるものではないが、本例で例示した協調命
令に対応したＰＵ２を提供することにより、ユーザ定義
命令実行ユニットであるＶＵ１と基本実行ユニットであ
るＰＵ２の間をよりタイトなカップルとすることが可能
となり、互いのリソースアクセスを可能とすることがで
きる。協調命令を実行することにより、その間、上述し
たように、ＶＵ１とＰＵ２との並列処理は実現できない
が、並列処理を優先したプログラミングも可能である。
したがって、本発明の協調命令を実装可能とすることに
より、より高いレベルで柔軟性と高速化とを実現しうる
プロセッサを提供することができる。

【００７６】

【発明の効果】以上に説明したように、上記にて説明し
たＶＵＰＵプロセッサは、ユーザ仕様などに従い高速化
が必要とされる処理を専用回路化して実装することがで
きるＶＵと、エラー処理などの汎用的な機能をサポート
し、プログラムにより仕様変更などに対し極めて柔軟に
対応することができるＰＵとを備えており、プログラマ
ブルな柔軟性と、専用回路による高速性とを併せもつプ
ロセッサである。そして、ＶＵはユーザ設計が可能であ
り、ユーザ命令をＶＵ命令として自由に組み込むことが
できる自由度の高いセミカスタムプロセッサでもある。
したがって、アプリケーション専用プロセッサとして高
機能のシステムＬＳＩを極めて短期間に低コストで開発
および製造することが可能である。

【００７７】そして、本発明においては、ＶＵとＰＵと
の協調処理を規定した協調命令を導入している。この協
調命令により、ＰＵのリソースをＶＵに開放することが
可能となるので、ＶＵとＰＵとの間のデータ転送に必要
なオーバヘッドを実質的になくすことが可能となりＶＵ
を用いた処理時間をさらに短縮でき、画像処理やネット
ワーク処理などのリアルタイム応答性が要求されるアプ
リケーションにさらに適したプロセッサを提供できる。
加えて、ＰＵのリソースがＶＵに開放されることによ
り、ＰＵの機能をＶＵ命令、すなわち、ユーザ命令の一
部として利用することが可能となり、ＶＵのリソースを
増大させることなく、さらに自由度の高いＶＵ命令を組
み込むことが可能となる。したがって、本発明のデータ
処理装置は、さらに高いレベルで柔軟性と高速性とを同
時に実現できるプロセッサあるいはシステムＬＳＩを提
供可能であり、本発明により、高速ネットワーク、画像
処理アプリケーションなどにさらに適したデータ処理装
置を提供できる。

【図面の簡単な説明】

【図１】本発明に係るデータ処理装置（プロセッサ）の
概略構成を示すブロック図である。

【図２】図２（ａ）は命令フォーマットを示す図であ
り、図２（ｂ）はＧＲＰとカテゴリとの対応を示す図で
ある。

【図３】ＦＵ３における処理の概要を示すフローチャー
トである。

【図４】プロセッサ用のプログラムの概要を示す図であ
り、図４（ａ）はＰＵ命令およびＶＵ命令を含む部分を
示し、図４（ｂ）はＰＵ命令および協調命令となるＶＵ
命令を含む部分を示す図である。

【図５】汎用レジスタ参照命令であるＶ＿ＯＰ命令のフ
ォーマットを示す図である。

【図６】汎用レジスタ参照命令が実行されるときのデー
タパスの概要を示す図である。

【図７】汎用レジスタ参照命令を実行するときのタイミ
ングチャートである。

【図８】汎用演算器参照命令であるＶ＿ＰＡＤＤ命令の
フォーマットを示す図である。

【図９】汎用演算器参照命令が実行されるときのデータ
パスの概要を示す図である。

【図１０】汎用演算器参照命令で指定可能な演算を示す
図である。

【図１１】図１０で示した演算の概要を示す図である。

【図１２】汎用演算器参照命令を実行するときのタイミ
ングチャートである。

【図１３】汎用演算器参照命令を実行するときの異なる
タイミングチャートである。

【図１４】汎用ＲＡＭ書き込み命令であるＶ＿ＳＴ命令
のフォーマットを示す図である。

【図１５】汎用ＲＡＭ書き込み命令が実行されるときの
データパスの概要を示す図である。

【図１６】汎用ＲＡＭ読み込み命令であるＶ＿ＬＤ命令
のフォーマットを示す図である。

【図１７】汎用ＲＡＭ読み込み命令が実行されるときの
データパスの概要を示す図である。

【符号の説明】

１専用処理ユニットＶＵ２汎用処理ユニットＰＵ３フェッチユニットＦＵ４コードＲＡＭ５プログラム１０プロセッサ（データ処理装置）

Claims

【特許請求の範囲】

【請求項１】特定のデータ処理に適した専用回路を備
えた専用処理ユニットと、汎用のデータ処理に適した汎用処理ユニットと、コードメモリよりフェッチした命令コードが前記専用処
理ユニットにおける処理を規定した専用命令であれば前
記専用処理ユニットに対し前記専用命令またはそれをデ
コードした命令を供給し、前記命令コードが前記汎用処
理ユニットにおける処理を規定した汎用命令であれば前
記汎用処理ユニットに対し前記汎用命令またはそれをデ
コードした命令を供給し、さらに、前記命令コードが前
記専用処理ユニットおよび汎用処理ユニットにおける協
調処理を規定した協調命令であれば前記専用処理ユニッ
トおよび汎用処理ユニットに対し前記協調命令またはそ
れをデコードした命令を供給するフェッチユニットとを
有するデータ処理装置。
【請求項２】請求項１において、前記協調命令は、前
記汎用処理ユニットのハードウェア資源の少なくとも１
部を前記専用処理ユニットに対し開放する命令であるデ
ータ処理装置。
【請求項３】請求項１において、前記協調命令は、前
記汎用処理ユニットの汎用レジスタのデータを入力とし
て前記専用処理ユニットにおける処理を実行する汎用レ
ジスタ参照命令であり、前記汎用処理ユニットは、前記汎用レジスタ参照命令に
指定された前記汎用レジスタのデータを前記専用処理ユ
ニットに出力するデータパスと、前記専用処理ユニット
において処理されたデータを前記汎用レジスタ参照命令
に指定された前記汎用レジスタに書き込むデータパスと
を備えているデータ処理装置。
【請求項４】請求項１において、前記協調命令は、前
記専用処理ユニットの専用レジスタのデータを入力とし
て前記汎用処理ユニットの演算器が処理を実行する汎用
演算器参照命令であり、前記汎用処理ユニットは、前記専用処理ユニットから供
給されたデータを前記演算器において前記汎用演算器参
照命令で指定された処理を行い、その結果を前記専用処
理ユニットに出力するデータパスを備えているデータ処
理装置。
【請求項５】請求項１において、前記協調命令は、前
記専用処理ユニットの専用レジスタのデータを前記汎用
処理ユニットのデータＲＡＭに書き込む汎用ＲＡＭ書き
込み命令であり、前記汎用処理ユニットは、前記専用処理ユニットから前
記データＲＡＭのアドレスと書き込むデータとを取得す
るデータパスを備えているデータ処理装置。
【請求項６】請求項１において、前記協調命令は、前
記汎用処理ユニットのデータＲＡＭのデータを前記専用
処理ユニットの専用レジスタに書き込む汎用ＲＡＭ読み
込み命令であり、前記汎用処理ユニットは、前記専用処理ユニットから前
記データＲＡＭのアドレスを取得し、そのアドレスのデ
ータを前記専用処理ユニットに出力するデータパスを備
えているデータ処理装置。
【請求項７】請求項１において、前記汎用処理ユニッ
トは、前記協調命令またはそれをデコードした命令を取
得すると、前記専用処理ユニットにおける処理が終了す
るのを待って前記フェッチユニットに次の前記命令コー
ドをフェッチする指示を出すデータ処理装置。
【請求項８】請求項１において、複数の前記専用処理
ユニットを有するデータ処理装置。
【請求項９】特定のデータ処理に適した専用回路を備
えた専用処理ユニットにおける処理を規定した専用命令
と、汎用のデータ処理に適した汎用処理ユニットにおけ
る処理を規定した汎用命令と、前記専用処理ユニットお
よび汎用処理ユニットにおける処理を規定した協調命令
とを有するプログラム。
【請求項１０】請求項９において、前記専用命令、汎
用命令および協調命令が配列された順番にフェッチされ
るように含まれているプログラム。
【請求項１１】請求項１０において、前記協調命令
は、前記汎用処理ユニットのハードウェア資源の少なく
とも１部を前記専用処理ユニットに対し開放する命令で
あるプログラム。
【請求項１２】請求項９において、前記協調命令は、
前記汎用処理ユニットの汎用レジスタのデータを入力と
して前記専用処理ユニットにおける処理を実行する汎用
レジスタ参照命令、前記専用処理ユニットの専用レジス
タのデータを入力として前記汎用処理ユニットの演算器
が処理を実行する汎用演算器参照命令、前記専用処理ユ
ニットの専用レジスタのデータを前記汎用処理ユニット
のデータＲＡＭに書き込む汎用ＲＡＭ書き込み命令、お
よび前記汎用処理ユニットのデータＲＡＭのデータを前
記専用処理ユニットの専用レジスタに書き込む汎用ＲＡ
Ｍ読み込み命令のいずれかであるプログラム。
【請求項１３】コードメモリより命令コードをフェッ
チするステップと、フェッチした前記命令コードが、特定のデータ処理に適
した専用回路を備えた専用処理ユニットにおける処理を
規定した専用命令であれば前記専用処理ユニットに対し
前記専用命令またはそれをデコードした命令を供給する
ステップと、フェッチした前記命令コードが、汎用のデータ処理に適
した汎用処理ユニットにおける処理を規定した汎用命令
であれば前記汎用処理ユニットに対し前記汎用命令また
はそれをデコードした命令を供給するステップと、フェッチした前記命令コードが前記専用処理ユニットお
よび汎用処理ユニットにおける協調処理を規定した協調
命令であれば前記専用処理ユニットおよび汎用処理ユニ
ットに対し前記協調命令またはそれをデコードした命令
を供給するステップとを有するデータ処理装置の制御方
法。
【請求項１４】請求項１３において、前記協調命令
は、前記汎用処理ユニットのハードウェア資源の少なく
とも１部を前記専用処理ユニットに対し開放する命令で
あるデータ処理装置の制御方法。
【請求項１５】請求項１３において、前記協調命令
は、前記汎用処理ユニットの汎用レジスタのデータを入
力として前記専用処理ユニットにおける処理を実行する
汎用レジスタ参照命令、前記専用処理ユニットの専用レ
ジスタのデータを入力として前記汎用処理ユニットの演
算器が処理を実行する汎用演算器参照命令、前記専用処
理ユニットの専用レジスタのデータを前記汎用処理ユニ
ットのデータＲＡＭに書き込む汎用ＲＡＭ書き込み命
令、および前記汎用処理ユニットのデータＲＡＭのデー
タを前記専用処理ユニットの専用レジスタに書き込む汎
用ＲＡＭ読み込み命令のいずれかであるデータ処理装置
の制御方法。
【請求項１６】請求項１３において、前記協調命令を
フェッチしたときは、前記専用処理ユニットにおける処
理が終了するのを待って次の前記命令コードをフェッチ
するステップをさらに有するデータ処理装置の制御方
法。