JP2009026135A

JP2009026135A - マルチプロセッサ装置

Info

Publication number: JP2009026135A
Application number: JP2007189769A
Authority: JP
Inventors: Shinji Kashiwagi; 伸次柏木; Hiroyuki Nakajima; 博行中島
Original assignee: NEC Electronics Corp
Current assignee: NEC Electronics Corp
Priority date: 2007-07-20
Filing date: 2007-07-20
Publication date: 2009-02-05
Also published as: US20090024834A1; US8055882B2

Abstract

【課題】１つのコプロセッサを密結合バスを介して、複数のプロセッサからアクセス可能とするマルチプロセッサ装置の提供。
【解決手段】共通バス（１０５）に接続された複数のプロセッサ（１０１Ａ、１０１Ｂ）と、複数のプロセッサに対して共通に設けられたコプロセッサ（１０６）と、前記プロセッサによる、密結合バス（１０９、１１０）を介したコプロセッサ（１０６）の資源の使用に関して、複数のプロセッサ（１０１Ａ、１０１Ｂ）間での競合を調停するアービトレーション回路（１０７）を備えている。
【選択図】図１

Description

本発明は、複数のプロセッサを備えた装置に関し、特に、複数のプロセッサ間でコプロセッサ資源を共有する装置に適用して好適なシステム構成に関する。

この種のマルチプロセッサ（並列プロセッサ）システムの典型的な構成の一例を、図９に示す（非特許文献１参照）。マルチプロセッサ（並列プロセッサ）システムは、対称又は非対称のプロセッサとコプロセッサを複数持ち、メモリや周辺ＩＯなどをプロセッサ間で共有する。

コプロセッサ（ｃｏ−ｐｒｏｃｅｓｓｏｒ）には、
・特定の処理（オーディオ、ビデオ、ワイヤレス、あるいは、浮動小数点演算やＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）等の数値演算、・・）を担うことでプロセッサを補助するものと、
・特定の処理（オーディオ、ビデオ、ワイヤレス・・・）に必要な処理を丸ごと処理するといったハードウェア・アクセラレータ的なものがある。

複数のプロセッサを備えたマルチプロセッサにおいて、コプロセッサは、メモリと同様に、プロセッサ間で共有する場合と、プロセッサにローカルに専有する場合とがある。

図９に示した例は、コプロセッサをローカルに専有する構成であり、コンフィギュラブルプロセッサＭｅＰ（ＭｅｄｉａｅｍｂｅｄｄｅｄＰｒｏｃｅｓｓｏｒ）技術を用いたＬＳＩ構成の一例が示されている。

図１０は、図９の構成を説明するために簡略化して示した図である。図１０に示すように、プロセッサ２０１Ａ、プロセッサ２０１Ｂは、それぞれプロセッサのローカルバスを介して特定用途向けコプロセッサ２０３Ａ、２０３Ｂと密結合している。なお、ローカルメモリ２０２Ａ、２０２Ｂは、それぞれ、プロセッサ２０１Ａ、２０１Ｂで実行される命令や作業データを格納する。

マルチプロセッサとそれに接続された周辺ハードウェア（コプロセッサや各種周辺装置）とを効率的に強調させる構成の並列処理装置が特許文献１に開示されている。図１１は、特許文献１に開示されたＣＰＵの構成を示す図である。図１１を参照すると、タスクあるいはスレッドを実行する複数のプロセッサ部Ｐ０〜Ｐ３を備え、コプロセッサ１３０ａ、１３０ｂ、周辺装置４０ａ〜４０ｄの周辺ハードウェアと接続されたＣＰＵ１０を含み、タスクあるいはスレッドを実行しているプロセッサ部それぞれが実行中のタスクあるいはスレッドの実行内容に応じて周辺ハードウェアに処理依頼を行う、というものである。図１２は、図１１の構成を簡略化して示した図である。図１２に示すように、プロセッサＰ０〜Ｐ３、コプロセッサ１３０ａ、１３０ｂは共通バスに接続されており、プロセッサＰ０〜Ｐ３はコプロセッサ１３０ａ、１３０ｂに共通バスを介してアクセスする。

特開２００６−２６０３７７号公報東芝半導体製品カタログＭｅＰ（ＭｅｄｉａｅｍｂｅｄｄｅｄＰｒｏｃｅｓｓｏｒ）概説インターネットURL：<http://www.semicon.toshiba.co.jp/docs/catalog/ja/BCJ0043_catalog.pdf>

上記した関連技術の構成は、以下のような課題を有している（以下は、本発明者等の分析結果による）。

図１０に示したように、コプロセッサ２０３Ａ、２０３Ｂをプロセッサ２０１Ａ、２０１Ｂのローカルバスにそれぞれ密結合させた場合、共通バス上の別のプロセッサから、コプロセッサにアクセスすることができない。

また、プロセッサ２０１Ａ、２０１Ｂの各々が、コプロセッサ２０３Ａ、２０３Ｂに必要な回路（演算器やレジスタなど）をローカルに持つこととなり、他のプロセッサとのコプロセッサ（演算資源）レベルでの共有、もしくは回路資源（演算器やレジスタなどの回路レベル）での共有が困難となる。

そして、コプロセッサは、各々のプロセッサのコプロセッサＩＦ（インタフェース）にローカルに密結合されているため、ある機能に特化したコプロセッサを他のプロセッサから利用することはできない。

一方、図１２に示したように、コプロセッサを、共通バス上に配置した場合、全てのプロセッサからアクセスすることができ、コプロセッサ資源の共有が可能となる。しかしながら、共有メモリや周辺ＩＯへのアクセスと共用する共通バスを介するため、低速メモリや低速ＩＯへのアクセスがあった場合など、バストラフィック、負荷に影響を受けやすく、このため、リアルタイム性に劣る。

本願で開示される発明は、前記課題の認識に基づき創案されたものであって、概略以下のように構成される。

本発明の１つの側面に係るマルチプロセッサ装置においては、複数のプロセッサに対して共通に設けられたコプロセッサと、前記プロセッサによる、密結合バスを介しての前記コプロセッサの資源の使用に関して、前記複数のプロセッサ間での競合を調停するアービトレーション手段と、を備えている。

本発明に係るマルチプロセッサ装置においては、複数のプロセッサにそれぞれ対応して設けられた複数のコプロセッサと、前記複数のコプロセッサのうち少なくとも１つのプロセッサに対応して設けられた少なくとも１つのコプロセッサに関して、前記１つのプロセッサと他のプロセッサからの、密結合バスを介しての、前記コプロセッサの資源の使用の競合を調停するアービトレーション手段と、を備えた構成としてもよい。

本発明に係るマルチプロセッサ装置においては、第１、第２のプロセッサにそれぞれ対応して設けられた第１、第２のコプロセッサを備え、前記第１のプロセッサと前記第２のプロセッサからの、第１の密結合バスを介しての、前記第１のコプロセッサの資源の使用の競合を調停する第１のアービトレーション手段と、前記第１のプロセッサと前記第２のプロセッサからの、第２の密結合バスを介しての、前記第２のコプロセッサの資源の使用の競合を調停する第２のアービトレーション手段と、を備え、前記第１のプロセッサは、前記第１のコプロセッサの資源及び／又は前記第２のコプロセッサの資源に、密結合バスを介して、アクセス自在とされ、前記第２のプロセッサは、前記第１のコプロセッサの資源及び／又は前記第２のコプロセッサの資源に、密結合バスを介して、アクセス自在とされる構成としてもよい。

本発明に係るマルチプロセッサ装置においては、複数のプロセッサの少なくとも１つのプロセッサに、密結合バスを介して接続されるコプロセッサを備え、共通バスに接続される前記複数のプロセッサは、前記共通バスを介して前記コプロセッサと接続される少なくとも１つの他のプロセッサを有し、前記１つのプロセッサからの密結合バスを介しての前記コプロセッサの資源の使用と、前記他のプロセッサの前記共通バスを介しての前記コプロセッサの資源の使用の競合を調停するアービトレーション手段を備えた構成としてもよい。

本発明においては、前記複数のプロセッサから、前記コプロセッサへの信号を入力するマルチプレクサを備え、前記マルチプレクサは、前記アービトレーション手段で許可されたプロセッサからの信号を選択して、前記コプロセッサに供給する、構成としてもよい。

本発明においては、前記アービトレーション手段は、前記プロセッサからの使用要求を入力し、前記プロセッサによる前記コプロセッサの資源の使用に競合が生じる場合には、前記コプロセッサの資源の使用を要求するプロセッサのうち、使用が許諾されたプロセッサ以外のプロセッサによる前記コプロセッサの資源の使用をウェイトさせる、構成としてもよい。

本発明においては、前記アービトレーション手段は、前記複数のプロセッサが接続される共通バスに接続され、前記アービトレーション手段は、前記プロセッサから前記共通バスに出力される信号に基づき、前記プロセッサによる前記コプロセッサの資源の使用に競合が生じると判定される場合、前記コプロセッサの資源の使用を要求するプロセッサのうち使用が許諾されたプロセッサ以外のプロセッサによる前記コプロセッサの資源の使用をウェイトさせる、構成としてもよい。

本発明においては、前記コプロセッサは、前記アービトレーション手段により行われる前記プロセッサ間での資源使用の調停が、前記コプロセッサの資源単位で行われる資源を少なくとも１つ含む、構成としてもよい。

本発明においては、前記コプロセッサが、複数の資源と、前記複数の資源にそれぞれ対応する複数のインタフェースと、を有し、前記複数の資源は、前記アービトレーション手段により行われる前記プロセッサ間での資源使用の調停が、前記資源単位で行われる資源を少なくとも１つ含む、構成としてもよい。

本発明においては、前記コプロセッサの複数の前記資源が、複数の前記資源にそれぞれ対応する複数の前記インタフェースを介して同時に使用自在とされてなる、構成としてもよい。

本発明においては、前記プロセッサでは、前記別のバスを介して、前記コプロセッサに、命令を送信し、前記コプロセッサによる、命令実行結果を受け取る処理が行われ、前記アービトレーション手段は、前記複数のプロセッサによる前記コプロセッサの資源の使用を、命令パイプラインのステージ単位で、調停する、構成としてもよい。

本発明によれば、複数のプロセッサの共用バスとは別の密結合バスを介してのコプロセッサの使用を調停する構成としたことにより、１つのコプロセッサを複数のプロセッサで使用可能とするとともに、共通バスを介してアクセスする場合と比べて高速化を可能とし、リアルタイム処理に好適とされる。

前記した本発明についてさらに詳細に説述すべく添付図面を参照して実施例を説明する。本発明によれば、並列プロセッサ構成のシステムＬＳＩにおいて、メモリやバスの共有だけでなく、コプロセッサの資源の共有を実現する。コプロセッサを用いた演算は、並列実行が可能であり、資源が競合した時にのみ、アービトレーションが行われる。

以下の各実施例では、本発明をマルチ(並列)プロセッサ・システムに適用した例を説明する。各々の対称又は非対称のプロセッサは、共通バスとは別のローカルバスに専有のメモリやコプロセッサを接続している。コプロセッサは、特定の処理（オーディオ、ビデオ、ワイヤレス、ＦＦＴ等の数値演算、・・）を担うことで、プロセッサを補助する。あるいは、コプロセッサはハードウェアアクセラレータであってもよい。以下の実施例においては、コプロセッサを並列プロセッサ間で共有しており、密結合プロセッサへのアクセスを調停するアービトレーション回路を用意している。

＜実施例１＞
図１は、本発明の第１の実施例の構成を示す図である。本実施例においては、コプロセッサ１０６はプロセッサのローカルバスに密結合される。なお、密結合されるコプロセッサ１０６を「密結合コプロセッサ」ともいう。プロセッサ１０１Ａ、１０１Ｂからコプロセッサ１０６の資源に対する使用要求が重複した場合（コプロセッサ１０６の資源の使用に競合が生じた場合）には、アービトレーション回路（コプロセッサ・アクセス・アービトレーション回路）１０７で競合の調停を行い、一方のプロセッサの使用要求を許諾し、他方のプロセッサに対してウェイト（ＷＡＩＴ）をかける。

より詳細には、プロセッサ１０１Ａ、１０１Ｂからのコプロセッサ１０６の使用要求１１１Ａ、１１１Ｂは、アービトレーション回路１０７に入力され、アービトレーション回路１０７から使用許諾／ＷＡＩＴを指示する信号１１２Ａ、１１２Ｂが、プロセッサ１０１Ａ、１０１Ｂにそれぞれ入力される。アービトレーション回路１０７において、プロセッサ１０１Ａ、１０１Ｂからのコプロセッサ１０６の演算資源の使用要求が重なった場合、１方のプロセッサの使用を許可し、他方のプロセッサをＷＡＩＴ状態とする。

マルチプレクサ１０８は、プロセッサ１０１Ａ、１０１Ｂから信号線１０９Ａ、１０９Ｂを介して転送されたコマンド（命令）を受け、アービトレーション回路１０７での調停結果に基づき、コプロセッサ１０６の使用が許可されたプロセッサからのコマンド（命令）を信号線１０９からコプロセッサ１０６に伝える。コプロセッサ１０６は、当該命令の実行結果（応答）を、信号線１１０を介して、プロセッサに返す。

なお、アービトレーション回路１０７において、コプロセッサ１０６の状態（回路資源の使用状態、パイプライン状態等）を、コプロセッサ１０６から信号線１１０’を介して受け取り、プロセッサ１０１Ａ、１０１Ｂからのコプロセッサ１０６の使用要求１１１Ａ、１１１Ｂと照合し、資源の競合が生じない場合には、同時並行的に実行するようにしてもよい。例えば、現在、プロセッサ１０１Ａでコプロセッサ１０６のある資源を使用中の場合において、アービトレーション回路１０７が、プロセッサ１０１Ｂからの使用要求を受けた場合、プロセッサ１０１Ｂの使用要求で使用されるコプロセッサ１０６の資源が、プロセッサ１０１Ａの使用要求で使用されるコプロセッサ１０６の資源と競合しなければ、アービトレーション回路１０７は、プロセッサ１０１Ｂからのコプロセッサ１０６の使用要求に対して使用許可を与える。

信号線１０９、１０９Ａ、１０９Ｂ、１１０、１１０’の各々は、複数ビット幅のパラレルラインであってもよいし、１ビットのシリアルラインであってもよい。信号線１０９、１０９Ａ、１０９Ｂ、信号線１１０、１１０’は、プロセッサのローカルバス（密結合バス）を構成する。

本実施例では、コプロセッサ１０６は、プロセッサ１０１Ａ、１０１Ｂのローカルバス上に配設されたマルチプレクサ１０８を介して密結合される。密結合バスにおいては、プロセッサ１０１Ａ、１０１Ｂからのコマンド（コプロセッサ命令）がコプロセッサ１０６に転送され、コプロセッサ１０６は当該コマンド（コプロセッサ命令）を実行し、実行結果が、プロセッサに転送されるというバスプロトコルを有する。一方、共通バス等の疎結合バスにおいては、バス使用権を獲得したバスマスタ（プロセッサ）からアドレス信号、制御信号（リード／ライト）、データ信号がバス上に転送される。なお、図１には、簡単のため、プロセッサ１０１Ａ、１０１Ｂの２台の構成が示されているが、本発明において、プロセッサの数は２台に制限されるものでないことは勿論である。

本実施例によれば、プロセッサのローカルバスに密結合されたコプロセッサ１０６の演算資源は、プロセッサ１０１Ａ、１０１Ｂ間で共有可能となり、コプロセッサ１０６の演算資源の共有と、密結合による高速アクセスとを両立させることができる。

なお、プロセッサ１０１Ａ、１０１Ｂからコプロセッサ１０６ヘ送るコマンドは、命令（一部デコード済みのコード等、命令の一部）であってもよいし、マクロ命令（例えばＦＦＴ等、複数の命令の集まりで定義された命令）であってもよい。また、コプロセッサ１０６がパイプライン構成の場合、プロセッサから転送されたコプロセッサ命令を受け取ったコプロセッサ１０６において、命令デコード（ＤＥ）ステージから開始し、演算実行（ＥＸ）ステージで実行した演算結果を、プロセッサ側に返すようにしてもよい。

次に、図６を参照して、本実施例における、密結合バスを介したコプロセッサのアクセス調停について説明する。特に制限されないが、本実施例において、命令パイプラインは、命令フェッチ（ＩＦ）、デコード（ＤＥ）、演算実行（ＥＸ）、メモリアクセス（ＭＥ）、結果格納（ＷＢ）の５段のステージを含むものとする。例えばロード命令の場合、ＥＸステージでアドレスの計算が行われ、ＭＥステージでデータメモリからデータが読み出され、ＷＢステージで読み出しデータがレジスタに書き込まれる。ストア命令の場合、ＥＸステージでアドレスの計算が行われ、ＭＥステージでデータはデータメモリに書き込まれ、ＷＢステージでは何も行われない。

図６（Ａ）を参照すると、プロセッサＡでは、命令をローカルメモリ（あるいは、プロセッサＡ内蔵の命令メモリ）よりフェッチし（ＩＦ）、デコード（ＤＥ）ステージにて、フェッチした命令が、コプロセッサ命令であると判定された場合、該命令を、コプロセッサで実行させるため、コプロセッサの使用要求を、アービトレーション回路（図１の１０７）に出力する。プロセッサＡは、アービトレーション回路からコプロセッサの使用許諾を受けると、当該命令をコプロセッサに送信する。コプロセッサでは、プロセッサＡから受け取った当該命令のデコード（ＣＯＰＤＥ）、命令の実行（ＣＯＰＥＸ）、メモリアクセス（ＣＯＰＭＥ）の各ステージを実行し、プロセッサＡによるライトバックステージ（ＷＢ）が実行される。特に制限されないが、コプロセッサのメモリアクセス（ＣＯＰＭＥ）ステージにおいて、コプロセッサによる命令の実行結果が、プロセッサＡのローカルバスを介してプロセッサＡに転送され、プロセッサＡのライトバック（ＷＢ）ステージにおいて、プロセッサＡ内のレジスタに書き込まれる構成としてもよい。この場合、プロセッサＡは、ＭＥステージでデータメモリのかわりに、コプロセッサから演算結果を受け取り、ＷＢステージで結果をレジスタに格納することになる。なお、図６（Ａ）に示す例では、各プロセッサにおける命令パイプライン・ステージ（ＤＥ、ＥＸ、ＭＥ）と、該プロセッサが発行したコプロセッサ命令を実行するコプロセッサの命令パイプライン・ステージ（ＣＯＰＤＥ、ＣＯＰＥＸ、ＣＯＰＭＥ）とが同期しているが、コプロセッサとプロセッサの動作周波数が相違してもよいことは勿論である。あるいは、コプロセッサがプロセッサと非同期で動作し、コプロセッサで演算が終了した場合、ＲＥＡＤＹ信号をプロセッサに通知する構成としてもよい。

プロセッサＢも、当該命令のデコード（ＣＯＰＤＥ）、命令の実行（ＣＯＰＥＸ）、メモリアクセス（ＣＯＰＭＥ）の各ステージをコプロセッサで行わせることになる。この場合、アービトレーション回路（図１の１０７）は、コプロセッサの命令デコード（ＤＥ）ステージ（プロセッサＡ発行のコプロセッサ命令のＤＥステージ分）に相当する期間、プロセッサＢをウェイト状態とし、プロセッサＢ発行のコプロセッサ命令に関してデコード（ＤＥ）ステージがストールされる。つづいて、ウェイト（ＷＡＩＴ）が解除される。プロセッサＢは、アービトレーション回路から使用許諾（ＷＡＩＴ解除）を受け、当該命令をコプロセッサに送信する。コプロセッサでは、プロセッサＢから受け取った当該命令のデコード（ＣＯＰＤＥ）、命令の実行（ＣＯＰＥＸ）、メモリアクセス（ＣＯＰＭＥ）の各ステージを順次実行し、プロセッサＢによるライトバックステージ（ＷＢ）が実行される。

図６（Ａ）には、コプロセッサの命令デコード（ＤＥ）ステージでの回路資源に競合が生じた例（例えばプロセッサＡ、Ｂで同時に発行されたコプロセッサ命令が同一の場合）が示されているが、アクセスの競合が調停される対象は、命令デコード（ＤＥ）ステージに限定されるものでなく、演算実行（ＥＸ）ステージ、メモリアクセス（ＭＥ）ステージにおいて、コプロセッサの回路資源に競合が生じた場合、使用が許可されたプロセッサ以外のプロセッサによるコプロセッサの回路資源の使用は、ウェイト状態に設定される。

一方、プロセッサＡ、Ｂがそれぞれ発行したコプロセッサ命令に、回路資源のアクセス競合がない場合には、図６（Ｂ）に示すように、ＷＡＩＴ信号は非活性（ＬＯＷ）のままであり、コプロセッサでは、プロセッサＡとプロセッサＢからのコプロセッサ命令の命令デコード（ＤＥ）からメモリアクセス（ＭＥ）のパイプライン・ステージが同時に実行される。特に制限されないが、図６（Ａ）、（Ｂ）に示す例では、コプロセッサ１０６は２本のパイプラインを備え、２命令同時発行可能な構成としてもよい。

本実施例では、プロセッサに密結合されたコプロセッサの回路資源の競合の調整を、命令パイプラインのステージ単位で行っている。例えば図１のアービトレーション回路１０７において、コプロセッサのパイプラインのステージの進捗情報（現在のステージ）が、信号線１１０’を介して通知され、アービトレーション回路１０７では、対応する資源の使用を監視し、使用要求対象の資源と競合が生じるか判別する制御を行う。すなわち、密結合バスには、コプロセッサ１０６からコプロセッサ１０６のパイプラインの状態等の信号が転送される構成としてもよい。この場合、プロセッサ１０１Ａ、１０１Ｂには、信号線１１０を介してパイプラインの状態等が通知される。

密結合バスを介しての資源の競合を調停するアービトレーション回路１０７においては、パイプラインのステージ単位で資源競合の調停を行っているが、パイプラインのステージ単位ではなく、命令サイクル単位で、プロセッサ間でのコプロセッサ１０６の資源競合の調停を行うようにしてもよいことは勿論である。

図７は、比較例として、プロセッサを共通バス等の疎結合バスを介してコプロセッサに接続した場合の命令パイプラインの推移を示す図である。

プロセッサが共通バス等の疎結合バスを介してコプロセッサに命令を渡す場合、プロセッサの命令パイプラインのメモリアクセス（ＭＥ）ステージにおいて、コプロセッサに命令が渡され、コプロセッサでは、プロセッサのメモリアクセス（ＭＥ）ステージの後半に当該命令のデコード（ＣＯＰＤＥ）が行われ、プロセッサのライトバック（ＷＢ）ステージに対応するサイクルで、コプロセッサの演算実行（ＥＸ）ステージが実行され、つづいてメモリアクセス（ＣＯＰＭＥ）ステージが実行される。特に制限されないが、コプロセッサにおけるメモリアクセス（ＣＯＰＭＥ）ステージでは、コプロセッサからプロセッサへデータの転送が行われる。図７に示す例では、共通バス等の疎結合バスのバスサイクルが低速であるため、バスアクセスによりプロセッサ側のパイプラインに停止期間が生じる。例えばコプロセッサにおけるメモリアクセス（ＣＯＰＭＥ）ステージに対応する期間、プロセッサ側のパイプラインに空きが生じている。

図７（Ａ）に示すように、プロセッサＡとプロセッサＢのメモリアクセス（ＭＥ）ステージに競合がある場合、プロセッサＢのメモリアクセス（ＭＥ）（したがって、コプロセッサへコプロセッサ命令を転送しコプロセッサでコプロセッサ命令をデコードするＤＥステージ）は、コプロセッサにおいて、プロセッサＡ発行のコプロセッサ命令のデコード（ＣＯＰＤＥ）、命令実行（ＣＯＰＥＸ）、メモリアクセス（ＣＯＰＭＥ）のステージが終了するまで、ウェイト状態（待機状態）とされる。すなわち、共通バス等の疎結合バスにおいては、プロセッサＡ発行の命令を実行するコプロセッサのメモリアクセス（ＣＯＰＭＥ）は、プロセッサＢのメモリアクセス（ＭＥ）ステージと、バス資源の競合が生じるため、プロセッサＡ発行の命令のデコード（ＣＯＰＤＥ）、命令実行（ＣＯＰＥＸ）、メモリアクセス（ＣＯＰＭＥ）のステージが終了するまで、プロセッサＢのメモリアクセス（ＭＥ）ステージはストールされる。

コプロセッサにおけるプロセッサＡ発行の命令のメモリアクセス（ＣＯＰＭＥ）ステージ終了後、プロセッサＢのメモリアクセス（ＭＥ）ステージのウェイトが解除され、これを受けて、プロセッサＢ発行のコプロセッサ命令がコプロセッサに転送され、コプロセッサにおいて、プロセッサＢ発行のコプロセッサ命令のデコード（ＣＯＰＤＥ）、実行（ＣＯＰＥＸ）、メモリアクセス（ＣＯＰＭＥ）の各ステージが順次実行される。

プロセッサＡ、Ｂから発行されるコプロセッサ命令に、回路資源のアクセス競合がない場合には、図７（Ｂ）に示すように、ウェイト（ＷＡＩＴ）信号は非活性（ＬＯＷ）のままである。図７（Ｂ）に示す例において、プロセッサＢでは、プロセッサＡのメモリアクセス（ＭＥ）のステージでは、プロセッサＢにおける命令フェッチ（ＩＦ）、デコード（ＤＥ）、実行（ＥＸ）が行われ、プロセッサＡのメモリアクセス（ＭＥ）につづいて、プロセッサＢのメモリアクセス（ＭＥ）のステージが実行される。すなわち、コプロセッサでは、プロセッサＡ発行の命令のメモリアクセス（ＣＯＰＭＥ）につづいて、プロセッサＢ発行の命令のデコード（ＣＯＰＤＥ）が行われる。

図６（Ａ）に示した密結合バスの場合、アクセス競合時にパイプラインがストールされる期間（遅延）は、例えばパイプライン１段分の期間（図６（Ａ）ではＤＥステージ）であるのに対して、図７（Ａ）の疎結合バスの場合、アクセス競合が生じた場合のプロセッサのＭＥステージのストールされる期間は長く、特にバスサイクルが低速である場合、ストールされる期間は長くなり、パイプラインに停止期間が生じる。図６（Ａ）に示した密結合バスの場合、パイプラインの停止（空き）は生じていない。

図８は、本実施例のコプロセッサを用いた構成において、複数サイクルのコプロセッサの命令が競合した場合を説明するための図である。すなわち図８は、コプロセッサで実行されるパイプラインにおいて、複数サイクルのコプロセッサ命令が競合した場合を示している。プロセッサＡ発行のコプロセッサ命令を実行するコプロセッサにおけるパイプラインの演算実行ステージ（ＣＯＰＥＸ１〜ＥＸ５）において、プロセッサＢのコプロセッサ命令で使う資源アクセスが競合している場合、この期間、アービトレーション回路から、プロセッサＢへのＷＡＩＴ信号が出力され、コプロセッサ１０６におけるプロセッサＢ発行のコプロセッサ命令のデコード（ＤＥ）ステージがストールされる。コプロセッサにおけるプロセッサＡ発行のコプロセッサ命令の演算実行ステージ（ＣＯＰＥＸ５）の終了後、プロセッサＢ発行のコプロセッサ命令の演算実行ステージ（ＣＯＰＥＸ１〜ＥＸ５）とメモリアクセス（ＣＯＰＭＥ）ステージが実行される。

なお、本実施例では、資源競合のアービトレーション（調停）制御を、命令パイプラインのステージ単位で行う例を説明したが、資源のアクセス競合に基づき、命令サイクル単位でのアービトレーション、複数命令単位でのアクセスアービトレーションを行ってもよい。

＜実施例２＞
次に、本発明の第２の実施例を説明する。図２は、本発明の第２の実施例の構成を示す図である。本実施例においては、図１に示した前記第１の実施例のアービトレーション回路のようなハードウェアではなく、プロセッサ同士のソフトウェア制御によるアービトレーションを行う。

コプロセッサ（密結合コプロセッサ）１０６と、プロセッサ１０１Ａ、プロセッサ１０１Ｂの接続を切換えるマルチプレクサ１０８は、周辺ＩＯ空間にマップされたレジスタ（周辺ＩＯ・マップドレジスタ）１１３から制御する。すなわち、プロセッサ１０１Ａ、１０１Ｂは、共通バス１０５へのアクセスアドレス（ＩＯアドレス）にて、レジスタ１１３をアクセスし、他のプロセッサが密結合コプロセッサ１０６を使用中でない場合、使用要求がレジスタ１１３に設定され、使用要求を行ったプロセッサからの命令がマルチプレクサ１０８で選択され、コプロセッサ１０６に伝達される。１つのプロセッサがコプロセッサ１０６を使用中は、他のプロセッサによるコプロセッサ１０６のアクセスはロックされる。レジスタ１１３の値が他のプロセッサがコプロセッサ１０６を使用中であることを示す場合、他のプロセッサがコプロセッサ１０６を解放するまでコプロセッサ１０６の使用は待たされる。レジスタ１１３は、コプロセッサ１０６の排他制御を実現するためのセマフォア、フラグを実現する。プロセッサ１０１Ａ、１０１Ｂ間でコプロセッサ１０６の同時使用はできない。なお、排他制御の粒度（ｇｒａｎｕｌａｒｉｔｙ）は、命令パイプラインのステージ単位で行ってもよい。

本実施例においては、プロセッサのローカルバスに密結合されたコプロセッサ１０６をプロセッサ１０１Ａ、１０１Ｂ間で共有可能となり、演算資源（コプロセッサ）の共有と密結合による高速アクセスが両立できる。

特に制限されないが、コプロセッサ１０６は、例えばＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）デコード処理に特化した専用コプロセッサであってもよい。プロセッサ１０１Ａは、例えば３００ＭＩＰＳ（ＭｅｇａＩｎｓｔｒｃｕｔｉｏｎｓＰｅｒＳｅｃｏｎｄ）級のＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、プロセッサ１０１Ｂは、例えば５０ＭＩＰＳ級ＤＳＰ、という構成では、必要処理ＭＩＰＳに余裕があるときには、プロセッサ１０１ＢでＡＡＣデコード処理を行う。一方、ビデオ系が追加され、プロセッサ１０１Ｂでは性能不足の場合、プロセッサ１０１Ａにおいてビデオ系とオーディオ系の処理を行う。この場合、プロセッサ１０１Ａがオーディオ用コプロセッサ１０６にアクセスする。このように、ＤＳＰを使い分けることで消費電力の最適化を行うようにしてもよい。

＜実施例３＞
次に、本発明の第３の実施例を説明する。図３は、本発明の第３の実施例の構成を示す図である。図３を参照すると、本実施例においては、コプロセッサ（密結合コプロセッサ）１１６は、第１、第２のコプロセッサ・インタフェースＩＦ（１）、ＩＦ（２）を備え、マルチレイヤーのコプロセッサ・バス１１４に接続している。マルチレイヤーのコプロセッサ・バス１１４は、複数のプロセッサからの同時アクセスを可能とするバスである。

コプロセッサ１１６内の資源Ａと資源Ｂには、コプロセッサ・バス１１４のそれぞれ別のレイヤからアクセスすることができるため、プロセッサ１０１Ａとプロセッサ１０１Ｂでコプロセッサ１０６の使用要求が重複した場合に、要求が資源Ａと資源Ｂで分かれていれば、競合せず、同時使用が可能である。

コプロセッサ１１６内の資源Ａ又は資源Ｂの単位で使用要求が競合した場合、アービトレーション回路（コプロセッサ・アクセス・アービトレーション回路）１１５は、いずれか一方のプロセッサにＷＡＩＴをかける。コプロセッサ・バス１１４には、インタフェースＩＦ（１）、ＩＦ（２）等を介して、コプロセッサ１１６の状態情報（パイプライン状態、資源の使用状況）が転送される。アービトレーション回路１１５は、現在使用が許諾されているプロセッサに関するコプロセッサ１１６内の資源Ａと資源Ｂの使用に関する情報を監視・管理し、プロセッサからの使用要求１１１Ａ、１１１Ｂに基づき、資源の競合の有無を判定する。

本実施例においては、プロセッサ１０１Ａ、１０１Ｂは、コプロセッサ１１６内の資源（例えば演算器等の回路資源）に個々にアクセスすることが可能となり、より細かな回路ブロックのレベルで資源有効活用（同時使用）が可能となる。

特に制限されないが、例えば、コプロセッサ１１６内の資源Ａがハフマンデコード処理、資源ＢがＩＭＤＣＴ（ＩｎｖｅｒｓｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）処理を行う。コプロセッサ１１６内の資源Ａ、資源Ｂは、ＭＰ３（ＭＰＥＧ１ＡｕｄｉｏＬａｙｅｒ−３）とＡＡＣの両方の処理が利用可能である。プロセッサ１０１ＡがＭＰ３のデコード処理、プロセッサ１０１ＢがＡＡＣのデコード処理を行う場合、プロセッサ１０１Ａ、１０１Ｂは、コプロセッサ１１６内の資源Ａ、資源Ｂにそれぞれアクセスし、ＭＰ３、ＡＡＣの規格のデコード処理を行う。また、ＭＰ３とＡＡＣの同時復号処理は、ＭＰ３とＡＡＣが混在したプレイリストに対し曲間のフェードアウト、フェードインのオーバラップ処理（クロスフェード）に用いられる。

＜実施例４＞
次に、本発明の第４の実施例を説明する。図４は、本発明の第４の実施例の構成を示す図である。図４を参照すると、本実施例においては、モジュールＡ、Ｂとが共通バス１０５に接続され、モジュールＡは、プロセッサ１０１Ａ、ローカルメモリ１０２Ａ、コプロセッサ１０６Ａと、マルチプレクサ１１８Ａを備えている。モジュールＢは、プロセッサ１０１Ｂ、ローカルメモリ１０２Ｂ、コプロセッサ１０６Ｂと、マルチプレクサ１１８Ｂを備えている。さらに、アービトレーション回路（コプロセッサ・アクセス・アービトレーション回路）１１７を備えている。

アービトレーション回路１１７は、プロセッサ１０１Ａ、プロセッサ１０１Ｂからの使用要求を受け、アクセスが競合する場合、一方に使用許諾を与え、他方をＷＡＩＴさせる。使用を許可するプロセッサを、マルチプレクサ１１８Ａ又は１１８Ｂに通知する。なお、プロセッサ１０１Ａ、１０１Ｂは、コプロセッサの使用要求１１１Ａ、１１１Ｂ内に、モジュールＡとモジュールＢのいずれのコプロセッサを使用するのか指定する。アービトレーション回路１１７には、コプロセッサ１０６Ａ、コプロセッサ１０６Ｂの状態（パイプライン状態）が信号線１１０Ａ、１１０Ｂを介して通知される構成としてもよい。

プロセッサ１０１Ａとコプロセッサ１０６Ａとローカルメモリ１０２Ａで構成するモジュールＡは、モジュール内コプロセッサ１０６Ａに、モジュール外からアクセス可能となるインタフェース１２１Ａと、モジュール外部のコプロセッサ１０６Ｂにアクセスするためのインタフェース１２０Ａを備えている。モジュール１０１Ｂは、モジュール内コプロセッサ１０６Ｂに、モジュール外からアクセス可能となるインタフェース１２１Ｂと、モジュール外部のコプロセッサ１０６Ａにアクセスするためのインタフェース１２０Ｂを備えている。特に制限されないが、モジュールＡ又はモジュールＢは、再利用ＩＰマクロで構成してもよい。

マルチプレクサ１１８Ａは、プロセッサ１０１Ａ、１０１Ｂのうち選択されたプロセッサからの命令をコプロセッサ１０６Ａに渡し、コプロセッサ１０６Ａでの処理結果を、該命令を発行したプロセッサ１０１Ａ又は１０１Ｂに返す。

マルチプレクサ１１８Ｂは、プロセッサ１０１Ｂ、１０１Ａのうち選択されたプロセッサからの命令をコプロセッサ１０６Ｂに渡し、コプロセッサ１０６Ｂでの処理結果を、該命令を発行したプロセッサ１０１Ａ又は１０１Ｂに返す。

これらのインタフェース１２０、１２１を介して他方モジュールのコプロセッサにアクセスすることで、並列プロセッサ間でコプロセッサを共有する。

本実施例によれば、再利用ＩＰのようなモジュールのなかのコプロセッサを並列プロセッサ間で共有可能となる。また、ある機能に特化したコプロセッサを他のプロセッサから利用できるようになる。

再利用ＩＰのような回路がフィックスしている場合でも、モジュール内外のコプロセッサに接続するためのインタフェースを用意しておくことで、再利用ＩＰ内部の回路資源（コプロセッサ）の再利用性を高めることが可能となる。

モジュールＡは、例えばＭＰ３デコードに特化したＩＰで、コプロセッサ１０６Ａ内に３２ｘ３２乗算器を有し、３２ｘ３２乗算という単位での命令実行が可能であるものとする。モジュールＢは、ＡＡＣデコードに特化したＩＰで、コプロセッサ１０６Ｂ内に３２ｘ１６乗算器を有し、３２ｘ１６乗算という単位での命令実行が可能であるものとする。モジュールＡで、ＭＰ３デコードし、同時に、モジュールＢにおいて、新たにＷＭＡ（Ｗｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＡｕｉｄｏ）デコードする場合、３２ｘ３２乗算を必要とするモジュールＢのプロセッサ１０１Ｂは、インタフェース１２０Ｂ、１２０Ａを介して、モジュールＡ内のコプロセッサ１０６Ａ（３２ｘ３２乗算器）を利用する。

＜実施例５＞
次に、本発明の第５の実施例を説明する。図５は、本発明の第５の実施例の構成を示す図である。図５を参照すると、本実施例においては、共通バス１０５上の共有コプロセッサ（２）１０４−２は、マルチプレクサ１１９を介して、共通バス１０５とプロセッサ１０１Ｂの密結合コプロセッサ・インタフェース（ＩＦ）１２２に接続している。プロセッサ１０１Ｂは、共通バス１０５を介さずに、コプロセッサ・インタフェース（ＩＦ）１２２を介して、共有コプロセッサ（２）１０４−２にアクセスすることができる。

本実施例において、アービトレーション回路（コプロセッサ・アクセス・アービトレーション回路）１２７は、プロセッサ１０１Ｂからの使用要求を許可する場合には、マルチプレクサ１１９は、密結合コプロセッサ・インタフェース１２２を選択して、プロセッサ１０１Ｂを共有コプロセッサ１０４−２に接続し、共有コプロセッサ１０４−２は、プロセッサ１０１Ｂの密結合コプロセッサとして機能する。

一方、アービトレーション回路１２７がプロセッサ１０１Ａからの使用要求を許可する場合には、マルチプレクサ１１９は、共通バス１０５を選択し、プロセッサ１０１Ａは、共通バス１０５を介して共有コプロセッサ１０４−２にアクセスする。なお、本実施例において、プロセッサ１０１Ｂは、共有コプロセッサ１０４−２の使用要求をアービトレーション回路１２７に出力せずに、共通バス１０５のバスプロトコルにしたがって、共有コプロセッサ１０４−２にアクセスすることができることは勿論である。

本実施例によれば、共通バス１０５に接続されるコプロセッサ１０４−２に対して、密結合による高速アクセスが可能となる。また、コプロセッサ１０４−２は、共通バス１０５による接続（疎結合）からのアクセスが可能となる。

上記した各実施例の作用効果について説明する。

前記第１、第２の実施例によれば、プロセッサのローカルバスに密結合されたコプロセッサは並列プロセッサ間で共有可能となり、演算資源（コプロセッサ）の共有と密結合による高速アクセスが両立できる。

前記第３の実施例によれば、複数のプロセッサは密結合コプロセッサ内の回路資源（演算器など）に個々にアクセス可能となり、より細かな回路ブロックのレベルで、資源有効活用（同時使用）が可能となる。

前記第４の実施例によれば、再利用ＩＰのようなモジュールのなかのコプロセッサを並列プロセッサ間で共有可能となる。ある機能に特化したコプロセッサを他のプロセッサから利用できるようになる。再利用ＩＰのような回路が固まっている場合でも、モジュール内外のコプロセッサに接続するためのインタフェースを用意しておくことで、再利用IP内部の回路資源（コプロセッサ）の再利用性を高めることが可能となる。

前記第５に実施例によれば、共通バス上にあるコプロセッサに対して密結合アクセスが可能となり、共通バス接続（粗結合）による全プロセッサからアクセス（共有）可能になる利点と密結合による高速アクセスの両方を得る。

なお、上記の特許文献、非特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

本発明の第１の実施例の構成を示す図である。本発明の第２の実施例の構成を示す図である。本発明の第３の実施例の構成を示す図である。本発明の第４の実施例の構成を示す図である。本発明の第５の実施例の構成を示す図である。密結合バスでのアクセス競合の有無を説明するための図である。疎結合バスでのアクセス競合の有無を説明するための図である。密結合バスでのアクセス競合の有無を説明するための図である。関連技術の構成を示す図である。図９の構成を説明する図である。関連技術の構成を示す図である。図１１の構成を説明する図である。

符号の説明

１０ＣＰＵ
３０メモリ
４０ａ、４０ｂ、４０ｃ、４０ｄ周辺装置
１０１Ａ、２０１Ａプロセッサ（Ａ）
１０１Ｂ、２０１Ｂプロセッサ（Ｂ）
１０２Ａ、２０２Ａローカルメモリ
１０２Ｂ、２０２Ｂローカルメモリ
１０３、２０４共用メモリ
１０４共有コプロセッサ
１０４−１共有コプロセッサ（１）
１０４−２共有コプロセッサ（２）
１０５、２０６共通バス
１０６、１０６Ａ、１０６Ｂ、１１６、１２６、２０３Ａ、２０３Ｂコプロセッサ（密結合コプロセッサ）
１０７、１１５、１１７、１２７アービトレーション回路
１０８、１１８Ａ、１１８Ｂ、１１９マルチプレクサ回路
１０９、１０９Ａ、１０９Ｂ信号線（命令）
１１０、１１０Ａ、１１０Ｂ、１１０’ 信号線（応答、状態）
１１１Ａ、１１１Ｂコプロセッサ使用要求
１１２Ａ、１１２ＢＷＡＩＴ信号
１１３レジスタ（周辺ＩＯ・マップドレジスタ）
１１４コプロセッサ・バス
１２０、１２０Ａ、１０２Ｂ、１２１、１２１Ａ、１２１Ｂインタフェース
１２２密結合コプロセッサ・インタフェース
１３０ａ、１３０ｂコプロセッサ
２０５共有、周辺ＩＯ・ホストＩＦ

Claims

複数のプロセッサに対して共通に設けられたコプロセッサと、
前記プロセッサによる、密結合バスを介しての前記コプロセッサの資源の使用に関して、前記複数のプロセッサ間での競合を調停するアービトレーション手段と、
を備えているマルチプロセッサ装置。
複数のプロセッサにそれぞれ対応して設けられた複数のコプロセッサと、
前記複数のコプロセッサのうち、少なくとも１つのプロセッサに対応して設けられた少なくとも１つのコプロセッサに関して、前記１つのプロセッサと他のプロセッサからの、密結合バスを介しての、前記１つのコプロセッサの資源の使用の競合を調停するアービトレーション手段と、
を備えている、マルチプロセッサ装置。
前記複数のプロセッサが、第１、第２のプロセッサを備え、
前記複数のコプロセッサが、前記第１、第２のプロセッサにそれぞれ対応して設けられた第１、第２のコプロセッサを備え、
前記アービトレーション手段が、
前記第１のプロセッサと前記第２のプロセッサからの、第１の密結合バスを介しての、前記第１のコプロセッサの資源の使用の競合を調停する第１のアービトレーション手段と、
前記第１のプロセッサと前記第２のプロセッサからの、第２の密結合バスを介しての、前記第２のコプロセッサの資源の使用の競合を調停する第２のアービトレーション手段と、
を備え、
前記第１のプロセッサは、前記第１のコプロセッサの資源及び／又は前記第２のコプロセッサの資源に、密結合バスを介して、アクセス自在とされ、
前記第２のプロセッサは、前記第１のコプロセッサの資源及び／又は前記第２のコプロセッサの資源に、密結合バスを介して、アクセス自在とされる、請求項２記載のマルチプロセッサ装置。
複数のプロセッサの少なくとも１つのプロセッサに、密結合バスを介して接続されるコプロセッサを備え、
共通バスに接続される前記複数のプロセッサは、前記共通バスを介して前記コプロセッサと接続される少なくとも１つの他のプロセッサを有し、
前記１つのプロセッサからの密結合バスを介しての前記コプロセッサの資源の使用と、前記他のプロセッサの前記共通バスを介しての前記コプロセッサの資源の使用の競合を調停するアービトレーション手段を備えている、マルチプロセッサ装置。
前記複数のプロセッサから、前記コプロセッサへの信号を入力するマルチプレクサを備え、
前記マルチプレクサは、前記アービトレーション手段で許可されたプロセッサからの信号を選択して前記コプロセッサに供給する、請求項１乃至４のいずれか１項記載のマルチプロセッサ装置。
前記アービトレーション手段は、前記プロセッサからの使用要求を入力し、前記プロセッサによる前記コプロセッサの資源の使用に競合が生じる場合には、前記コプロセッサの資源の使用を要求するプロセッサのうち、使用が許諾されたプロセッサ以外のプロセッサによる前記コプロセッサの資源の使用をウェイトさせる、請求項１乃至５のいずれか１項記載のマルチプロセッサ装置。
前記アービトレーション手段は、前記複数のプロセッサが接続される共通バスに接続され、
前記アービトレーション手段は、前記プロセッサから前記共通バスに出力される信号に基づき、前記プロセッサによる前記コプロセッサの資源の使用に競合が生じると判定される場合、前記コプロセッサの資源の使用を要求するプロセッサのうち使用が許諾されたプロセッサ以外のプロセッサによる前記コプロセッサの資源の使用をウェイトさせる、請求項１記載のマルチプロセッサ装置。
前記コプロセッサは、前記アービトレーション手段により行われる前記プロセッサ間での資源使用の調停が、前記コプロセッサの資源単位で行われる資源を少なくとも１つ含む、請求項１乃至７のいずれか１項記載のマルチプロセッサ装置。
前記コプロセッサが、
複数の資源と、
前記複数の資源にそれぞれ対応する複数のインタフェースと、
を有し、
前記複数の資源は、前記アービトレーション手段により行われる前記プロセッサ間での資源使用の調停が、前記資源単位で行われる資源を少なくとも１つ含む、請求項１乃至７のいずれか１項記載のマルチプロセッサ装置。
前記コプロセッサの複数の前記資源が、複数の前記資源にそれぞれ対応する複数の前記インタフェースを介して、前記複数のプロセッサから、同時に使用自在とされてなる、請求項９記載のマルチプロセッサ装置。
前記プロセッサでは、前記密結合バスを介して、前記コプロセッサに、命令を送信し、前記コプロセッサによる、命令実行結果を受け取る処理が行われ、
前記アービトレーション手段は、前記複数のプロセッサによる前記コプロセッサの資源の使用を、命令パイプラインのステージ単位で、調停する、請求項１乃至７のいずれか１項記載のマルチプロセッサ装置。