JP2000330928A

JP2000330928A - 高速転送を行う並列処理システム

Info

Publication number: JP2000330928A
Application number: JP11139659A
Authority: JP
Inventors: Masashi Yoshida; 昌司吉田; Koji Ikeda; 光二池田; Atsushi Takane; 高根　　淳; Norio Sato; 典夫佐藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-05-20
Filing date: 1999-05-20
Publication date: 2000-11-30

Abstract

(57)【要約】【課題】性能の高いマルチプロセッサを低コストで構成
する。【解決手段】ＤＭＡ転送単位境界からのずれが、マスタ
プロセッサのデータ領域とスレーブプロセッサのデータ
領域で等しくなるように、無効領域を付加してスレーブ
プロセッサのデータ領域を確保する。マルチプロセッサ
のプロセッサ間の転送では、無効領域を転送しないよう
に、ＤＭＡ転送単位境界に含まれない部分をＣＰＵを用
いて１画素ずつ転送し、ＤＭＡ転送単位境界に含まれる
部分のみをＤＭＡ機能を用いて高速に転送する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データ処理計算機
の技術分野に属し、マルチプロセッサシステムのプロセ
ッサ間転送の方法に関している。

【０００２】

【従来の技術】マルチプロセッサシステムにおいては、
複数のプロセッサで演算を並列に実行でき、特に画像処
理では、画素ごとの処理の並列性が高いので、演算時間
をほぼプロセッサ数で割った時間に短縮することが可能
である。しかし、複数のプロセッサに処理すべきデータ
を分割する必要があり、そのプロセッサ間転送の転送時
間がオーバヘッドとして新たに処理時間に加わる。従っ
て、いかにプロセッサ間転送を高速に行って、最終的な
演算効率を向上できるかが鍵となる。

【０００３】転送を高速化する技術としては、本来ＣＰ
Ｕが転送するべきデータをＣＰＵと独立にデータ転送す
る、ＤＭＡと呼ばれる機能が一般に知られている。ＣＰ
ＵはＤＭＡが転送を行っている間、別の実行処理を継続
することができ、性能の向上が図れる。ＤＭＡ機能をハ
ードウェアで実現した例としては、特開平9−34835号公
報に記載されている。

【０００４】また、ＤＭＡ機能は、転送性能の向上のた
めシングルチップマイコンに内蔵されるようになってき
ており、シングルチップに構成するための技術として
は、特開平5−307516号公報，特開平8−286999号公報，
「日立SuperH RISC engine SH-4SH7750 ハードウェアマ
ニュアル第１４章ダイレクトメモリアクセスコントロ
ーラ（ＤＭＡＣ）」等に記載されている。

【０００５】さらに、マルチプロセッサにおいてプロセ
ッサ間の転送にＤＭＡ機能を応用した例としては、特開
平8−212179号公報に記載されている。

【０００６】

【発明が解決しようとする課題】任意の大きさのデータ
を転送する場合、ある転送単位の転送を繰り返して送る
ことになる。転送の効率を上げるには転送単位を大きく
した方が有利であり、転送単位のサイズは大きくなって
いく傾向にある。シングルチップマイコンに内蔵される
ＤＭＡ機能の場合、ＤＭＡ転送単位をバス幅かキャッシ
ュのブロックサイズにしておくのが、コストの面から都
合がよい。

【０００７】一方、ユーザの送るデータは、始点が転送
単位境界と合っている保証はない。例えば画像処理で扱
う画像データにおいては、１画素を表わすデータは、白
黒画像なら１〜２バイト，カラーでも３バイト等、サイ
ズは小さい。従って、大きな画像データの一部に処理対
象としてウィンドウを設定する場合、ウィンドウの始点
はユーザが任意に設定するので、転送単位からずれてい
るのが普通である。転送元と転送先でＤＭＡの転送単位
からのずれが一致しない場合、シングルチップマイコン
に内蔵されるＤＭＡ転送を用いることができない。ま
た、マルチプロセッサで画像処理を行う場合、各プロセ
ッサの処理データ量を同じにするよう画像を縦分割する
と、各プロセッサの処理領域の開始点は、転送単位から
ずれを生じる形となり、やはりＤＭＡ転送を用いて高速
に転送することはできない。

【０００８】従来例の特開平8−212179 号公報に記載の
技術では、この問題について考慮されていない。また、
特開平9−34835号公報に記載の技術は、このずれに対処
するＤＭＡ転送のハードウェアを実現しており、ＣＰＵ
の外付け回路として実現する際には問題ないが、このＤ
ＭＡ転送のハードウェアをシングルチップマイコンに内
蔵しようとするとコストがかかりすぎる問題がある。

【０００９】本発明の目的は、マルチプロセッサのプロ
セッサ間転送で扱う、始点が転送単位からずれているデ
ータを、コスト的に有利だが転送単位に制約がついてし
まう、シングルチップマイコン内蔵のＤＭＡ機能を用い
て、転送する方法を提供することにある。

【００１０】また、ＤＭＡ転送がキャッシュを用いない
ため、通常のＣＰＵ処理でキャッシングされたデータに
関し、キャッシュコヒーレンシの方法を提供することも
課題となる。

【００１１】

【課題を解決するための手段】上記課題を解決するた
め、複数のＣＰＵがデータをやり取りしながら並列に処
理を実行する並列処理システムにおいて、少なくとも１
つのＣＰＵを、ＤＭＡ機能を内蔵するシングルチッププ
ロセッサで構成し、ＣＰＵ間の転送を前記ＤＭＡ機能を
用いて行うことにより、課題を達成する。

【００１２】また、前記マルチプロセッサシステムにお
いて、プロセッサ間の転送に２種類以上の異なる大きさ
の転送単位の転送を備え、大きい転送単位境界に満たな
い部分は小さい転送単位にて転送し、大きい転送単位境
界に含まれる部分は大きい転送単位ごとに転送すること
により、課題を達成する。

【００１３】さらに、前記マルチプロセッサシステムに
おいて、少なくとも１つのプロセッサを、ＣＰＵとＤＭ
Ａ機能を共に内蔵したシングルチップとメモリで構成
し、プロセッサ間の転送のうち、ＤＭＡ転送単位境界に
満たない部分はＣＰＵにて転送し、ＤＭＡ転送単位境界
に含まれる部分は前記ＤＭＡ機能にて転送することによ
り、課題を達成する。

【００１４】次に、前記マルチプロセッサシステムにお
いて、ＤＭＡ転送単位境界からのずれが、マスタプロセ
ッサのデータ領域とスレーブプロセッサのデータ領域で
等しくなるように、スレーブプロセッサのデータ領域を
確保し、ＤＭＡ機能を用いてプロセッサ間転送を行うこ
とにより、課題を達成する。

【００１５】最後に、前記マルチプロセッサシステムに
おいて、ＤＭＡ転送前にキャッシュに入っているＤＭＡ
転送元領域のデータをメモリに書き戻し、ＤＭＡ転送後
にキャッシュに入っているＤＭＡ転送先領域のデータを
無効化することにより、課題を達成する。

【００１６】

【発明の実施の形態】図１は、本発明を実施した場合の
マルチプロセッサシステムのハードウェア構成例であ
る。本マルチプロセッサシステムは、マスタプロセッサ
１０９，スレーブプロセッサ１１９，１２９,１３９,１
４９、及びそれらを接続するバス１０２から成る。もち
ろんスレーブの数は４台に限る必要はなく、それ以上で
もそれ以下でも実施可能だが、本実施例では４台として
説明する。

【００１７】マスタプロセッサ１０９は、マスタＣＰＵ
１００，主メモリ１０１から成る。スレーブプロセッサ
１１９は、バス１０２を介して接続されるスレーブCPU1
10，ローカルメモリ１１１から成り、同様に、スレーブ
プロセッサ１２９は、スレーブＣＰＵ１２０，ローカル
メモリ１２１，スレーブプロセッサ１３９は、スレーブ
ＣＰＵ１３０，ローカルメモリ１３１，スレーブプロセ
ッサ１４９は、スレーブＣＰＵ１４０，ローカルメモリ
１４１から成る。

【００１８】さらに、マスタＣＰＵ１００は、ＣＰＵコ
ア１５１，キャッシュ１５２，ＤＭＡ１５３より成る。
ＣＰＵコア１５１が主メモリ１０１をアクセスする場
合、キャッシュ１５２を介してアクセスするが、ＤＭＡ
１５３がメモリ１０１をアクセスする場合、キャッシュ
１５２を介さず直接アクセスする。

【００１９】主メモリ１０１は、１画像全体の画像デー
タを保持しており、マスタCPU100は、その画像データを
スレーブプロセッサの数である４つに分割し、ローカル
メモリ１１１，１２１，１３１，１４１へ転送する。分
割された画像を受け取ったスレーブＣＰＵ１１０，１２
０，１３０，１４０は、分割された画像に対し画像処理
を行い、結果画像をローカルメモリ１１１，１２１，１
３１，１４１へ書き込む。スレーブＣＰＵ１１０，１２
０，１３０，１４０の処理がすべて終わると、マスタＣ
ＰＵ１００は、それぞれのスレーブＣＰＵ１１０，１２
０，１３０，１４０の分割された結果画像をローカルメ
モリ１１１，１２１，１３１，１４１から主メモリ１０
１に転送し、１画像全体の画像データに構成する。

【００２０】図２は、マスタＣＰＵ１００、及びスレー
ブＣＰＵ１１０，１２０，１３０，１４０で実行される
処理手続きを示したものである。下側にむかうにつれて
処理が進む形で記述してある。スレーブＣＰＵ上の手続
きは、実際は４つのスレーブに各々１つずつプログラム
が実行される訳であるが、４つ説明するのは繁雑である
ため、１つのスレーブＣＰＵ（例えば１１０）の分を説
明する。マスタCPU100上で実行されるマスタプログラム
３１０、及びスレーブＣＰＵ(例えば１１０)上で実行さ
れるスレーブ通信処理３２０と画像処理３３０，ローカ
ルメモリ（例えば１１１）上に置かれるデータ３６０か
ら成る。マスタＣＰＵ１００上でＣＰＵという変数は、
ＣＰＵ＝１のときスレーブＣＰＵ１１０，ＣＰＵ＝２の
ときスレーブＣＰＵ１２０，ＣＰＵ＝３のときスレーブ
ＣＰＵ１３０，ＣＰＵ＝４のときスレーブＣＰＵ１４０
へ対する処理を表わす。

【００２１】ローカルメモリ上のデータ３６０には、ロ
ーカルメモリのアクセス権６３１〜６３５，画像データ
６４１〜６４６からなる。ローカルメモリのアクセス権
は１ビットで、０がマスタにアクセス権あり、１がスレ
ーブにアクセス権ありを示す。マスタプログラム３１０
はまず、画像をスレーブの数に分割する画像分割611を
行い、その後にローカルメモリ上に領域を設けるメモリ
確保６１２を行う。このとき、アクセス権６３１と画像
データ６４１の領域がローカルメモリ上に設けられ、ア
クセス権は０に初期化される。すなわちマスタＣＰＵに
アクセス権ありがデフォルトとなる。次に最初の１ライ
ンの画像データを送る画像データ送信６１３が行われ、
ローカルメモリ上の画像データ領域６４２にデータが送
られる。データが送り終わるとアクセス権を１にする処
理６１４が行われ、アクセス権６３２は１の値となる。
マスタプログラム３１０はスレーブ起動６１５を実行
し、スレーブを立ち上げる。６１２から６１５の処理は
スレーブの数だけ行う必要があり、ループ判定６１６に
て、スレーブ数ｎの回数だけ繰り返す。スレーブ上で
は、スレーブ通信処理３２０を介し、画像処理３３０が
実行開始する。その後、マスタプログラム３１０はアク
セス権が０にされるのを待つ処理６１７によってアクセ
ス権が０になるのを待つ。画像処理３３０は、画像デー
タ領域６４３から画像データを読み出し、演算６６１を
行って、結果を画像データ領域６４３に書き込む。１行
分が終わったら、最終行か否かの判定６６２を行い、最
終行でない場合は、スレーブ通信処理３２０がアクセス
権をマスタに返す処理６５１を行い、マスタがアクセス
権をスレーブに渡してくるまで待つ処理６５２に入る。
アクセス権が０にされるのを待つ処理６１７を行ってい
たマスタプログラム３１０はアクセス権０を検出すると
画像データ領域６４４を読み込む画像データ受信６１８
を行い、１行分の結果を集めたあと、画像データ送信６
１９により次の１行分のデータ６４５を送る。１行分送
り終わったら、アクセス権６３４を１にする処理６２０
を行い、これをスレーブ数ずつ繰り返す処理６２１とさ
らに画像の縦幅分繰り返す処理６２２により、処理を継
続する。マスタがアクセス権をスレーブに渡してくるま
で待つ処理６５２に入っていたスレーブ通信３２０は、
アクセス権６３４がマスタプログラム３１０によって１
にされると、画像処理３３０に次の行に関する演算６６
１を行わさせる。こうして画像全体の処理を進め、最後
の行において、最終行か否かの判定６６２で最後の行で
あると判定されると、スレーブ通信３２０はアクセス権
６３５を０にする処理６５３を行って処理を終了する。
マスタプログラム３１０もこのときアクセス権６３５が
０かどうかを判定する処理６２３で待っているはずで、
アクセス権６３５が０であると判定すると最後の行の演
算結果である画像データ６４６を集める画像データ受信
６２４を行い、これをスレーブの数だけ繰り返す処理６
２５で繰り返した後、処理を終了する。このように、マ
スタプログラム３１０とスレーブ通信３２０は、アクセ
ス権６３１〜６３５で１行ずつ同期をとりながら画像デ
ータ６４１〜６４６をやりとりして処理を進めていく。

【００２２】図３は、従来のデータ転送の方法を説明す
る図である。図１における主メモリ１０１に画像３０１
が置かれ、その中に画像処理する対象としてウィンドウ
302が定義されている。また、ローカルメモリ１１１に
データ領域３０４が置かれている。ローカルメモリは、
他の１２１，１３１，１４１でも同様であるので、１１
１のみを説明する。

【００２３】ユーザは画像処理を実行させる場合、画像
３０１の中にウィンドウ３０２を設定して、その部分を
処理するよう指定するのが一般的である。従って、ウィ
ンドウ３０２の開始点は、通常、ＤＭＡ転送単位の境界
に合っていない。一方、マルチプロセッサで実行する
際、ローカルメモリ１１１上のデータ領域３０４は、Ｄ
ＭＡ転送単位の境界に合わせてとられる。すると、主メ
モリ１０１上の例えば画素群３０３をローカルメモリ１
１１上の例えば画素３０５に転送する場合、ＤＭＡ転送
単位の境界からのずれが合わないので、１画素ごと転送
せねばならず、ＤＭＡ転送を用いることができない。さ
らに、マルチプロセッサで画像を縦分割する場合、各ス
レーブプロセッサの処理データ量を同じにするよう均等
に分割すると、各プロセッサの処理領域の開始点は、Ｄ
ＭＡ転送単位からずれを生じる形となり、やはりＤＭＡ
転送を用いることができない。

【００２４】図４は、本発明のデータ転送方法を説明す
る図である。主メモリ１０１上に画像３０１が置かれ、
ローカルメモリ１１１にデータ領域４０４が置かれるの
は、図３と同様である。

【００２５】図３と同じように、画像３０１上のウィン
ドウ３０２に対して画像処理を実行させる場合、図２に
おけるメモリ確保６１１にて、主メモリ１０１上のウィ
ンドウ３０２のＤＭＡ転送単位境界からのずれと、ロー
カルメモリ１１１上のデータ領域４０４のＤＭＡ転送単
位境界からのずれが一致するように無効領域４０５と無
効領域４０６を含めたローカルメモリ１１１上のデータ
領域４０４を、図２のデータ領域６４１として確保す
る。このようにすると、主メモリ１０１上のDMA転送単
位境界部分４０２を、ローカルメモリ１１１上のＤＭＡ
転送単位境界部分４０８にＤＭＡ転送することができ
る。左右の半端領域は、ＤＭＡ転送単位に満たないの
で、画素ごと転送せねばならない。すなわち、主メモリ
１０１上の左端部４０１をローカルメモリ１１１上の左
端部４０７へ画素ごとに転送し、主メモリ１０１上の右
端部４０３をローカルメモリ１１１上の右端部４０９へ
画素ごとに転送する。しかしながら、画素ごとに転送す
る領域は、１ラインにつきＤＭＡ転送単位の２倍を超え
ず、それ以外の領域４０２をＤＭＡ転送単位ずつＤＭＡ
転送できるため、処理性能が大幅に向上する。

【００２６】図５は、図２における画像データ受信６１
８の詳細を示したものである。なお、画像データ送信６
１９も、データの流れの方向が逆になるだけで基本的に
同様の手続きになる。画像データ受信６１８は、図４に
おける、主メモリ１０１上のウィンドウ３０２上の１行
分を、ローカルメモリ１１１上のデータ領域４０４上の
１行分へ転送する機能を持っており、ＣＰＵ転送領域確
定２００，左端ＣＰＵ転送２０１，ＤＭＡ転送２０２，
右端ＣＰＵ転送２０３からなる。

【００２７】ＣＰＵ転送領域確定２００は、転送元先頭
アドレスsrc ，転送先先頭アドレスdst ，転送サイズsi
zeを与えられ、そのうちＤＭＡ転送単位ＵＮＩＴの境界
に含まれない左端部４０１の画素数leftと右端部４０３
の画素数right 、及びＤＭＡ転送単位境界に含まれる部
分のＤＭＡ回数ＤＭＡ＿Count を計算する。

【００２８】left＝UNIT−src％UNIT； right＝（src＋size）％UNIT； DMA_Count ＝(src＋size)／UNIT−(src−UNIT−１)／UN
IT；左端ＣＰＵ転送２０１は、図４において、主メモリ１０
１上の左端部４０１をローカルメモリ１１１上の左端部
４０７へ画素ごとに転送する。ＣＰＵ転送領域確定２０
０において、左端部の画素数leftが計算されているの
で、その回数に達するか否かの判定２１１を行いなが
ら、１画素の転送２１０を繰り返す。

【００２９】ＤＭＡ転送２０２は、図４において、主メ
モリ１０１上の中央部４０２をローカルメモリ１１１上
の中央部４０８へＤＭＡ転送する。ＣＰＵ転送領域確定
200において、ＤＭＡ転送単位境界に含まれる部分のＤ
ＭＡ回数DMA_Count が計算されているので、その回数
や、転送元先頭アドレスsrc ，転送先先頭アドレスdst
を、所定のレジスタに設定２２０し、ＤＭＡ回路をスタ
ート２２１する。この後、ＣＰＵは、転送をＤＭＡに任
せ、他の処理を行うことができる。ＤＭＡ回路は、所定
の回数の転送を終わると終了ビットを返してくるので、
ＣＰＵはしばらくの時間が経過した後、ＤＭＡ転送状態
取得２２３で終了ビットを検査し、終了ビットが立って
くるのを待つ。

【００３０】左端ＣＰＵ転送２０２は、主メモリ１０１
上の右端部４０３をローカルメモリ１１１上の右端部４
０９へ画素ごとに転送する。ＣＰＵ転送領域確定２００
において、右端部の画素数right が計算されているの
で、その回数に達するか否かの判定２３１を行いなが
ら、１画素の転送２３０を繰り返す。

【００３１】図６は、図２における画像データ受信６１
８の詳細のもう一つの例である。なお、画像データ送信
６１９も、データの流れの方向が逆になるだけで基本的
に同様の手続きになる。画像データ受信６１８は、図４
における、主メモリ１０１上のウィンドウ３０２上の１
行分を、ローカルメモリ１１１上のデータ領域４０４上
の１行分へ転送する機能を持っており、転送元キャッシ
ュブロックの書き出し６０１，ＣＰＵ転送領域確定２０
０，左端ＣＰＵ転送２０１，ＤＭＡ転送２０２，右端Ｃ
ＰＵ転送２０３，転送先キャッシュブロックの無効化６
０２からなる。このうち、ＣＰＵ転送領域確定２００，
左端ＣＰＵ転送２０１，ＤＭＡ転送202,右端ＣＰＵ転送
２０３は図５と同じなので説明を省略する。

【００３２】図１において、ＣＰＵコア１５１が主メモ
リ１０１をアクセスする場合、キャッシュ１５２を介し
てアクセスするが、ＤＭＡ１５３がメモリ１０１をアク
セスする場合、キャッシュ１５２を介さず直接アクセス
する。従って、ＤＭＡ転送を行う前には、転送元データ
領域がキャッシュ１５２に入っている場合、転送元キャ
ッシュブロックの書き出し６０１が必要となる。また、
ＤＭＡ転送を行った後には、転送先データ領域がキャッ
シュ１５２に入っている場合、転送先キャッシュブロッ
クの無効化６０２が必要となる。

【００３３】図７は、画面を縦に分割する場合の入力画
像の構成例を示したものである。マスタ通信３１０で画
像をスレーブの数SlaveNumに分割する画像分割６１１で
の処理を示している。一般に画像処理は、注目画素の周
りのカーネルの大きさの領域を読み込んで演算するの
で、入力画像をスレーブの数に分けるときには、境界部
分でカーネルの大きさ分だけ重なり合わせた形で分けな
ければならない。各プロセッサの処理データ量を同じに
するよう画像を均等に分割するようにすると、スレーブ
の入力画像Slv->ImgSrcは、マスタの入力画像Mst->ImgS
rcのパラメータを用いて次のような式で表される。

【００３４】Slv->ImgSrc.Width＝{Mst->WinSrc.Width
−(Mst->KerW-1)}／SlaveNum＋(Mst->KerW-1) Slv->ImgSrc.Height＝Mst->WinSrc.Height Slv->WinSrc.x_coord＝０，Slv->WinSrc.y_coord＝０ Slv->WinSrc.Width＝{Mst->WinSrc.Width−(Mst->KerW-
1)}／SlaveNum＋(Mst->KerW-1） Slv->WinSrc.Height＝Ｍｓｔ−＞ＷｉｎＳｒｃ．Ｈｅｉ
ｇｈｔこのように、マルチプロセッサで画像処理を行う場合、
各プロセッサの処理データ量を同じにするよう画像を縦
分割すると、各プロセッサの処理領域の開始点は、ＤＭ
Ａ転送単位からずれを生じる形となる。

【００３５】さらに、上記のように分割した後、ＤＭＡ
転送単位境界からのずれを考慮して、各プロセッサの処
理領域の開始点をＤＭＡ転送単位境界に合うように補正
する分割方法も考えられる。

【００３６】図８は、画面を縦に分割する場合の出力画
像の構成例を示したものである。マスタ通信３１０で画
像をスレーブの数ＳｌａｖｅＮｕｍに分割する画像分割
６１１での処理を示している。一般に画像処理は、注目
画素の周りのカーネルの大きさの領域を読み込んで演算
するので、出力画像は周囲部分でカーネルの大きさの半
分の分だけ計算できない領域が発生する。図ではこの領
域をハッチングして表している。スレーブの出力画像Sl
v->ImgDstは、マスタの入力画像Mst->ImgDstのパラメー
タを用いて次のような式で表される。

【００３７】Slv->ImgDst.Width＝{Mst->WinDst.Width
−(Mst->KerW-1)}／SlaveNum＋(Mst->KerW-1) Slv->ImgDst.Height＝Mst->WinDst.Height Slv->WinDst.x_coord＝０，Slv->WinDst.y_coord＝０ Slv->WinDst.Width＝{Mst->WinDst.Width−(Mst->KerW-
1)}／SlaveNum Slv->WinDst.Height＝Mst->WinDst.Height 図９は、画面を横に分割する場合の入力画像の構成例を
示したものである。マスタ通信３１０で画像をスレーブ
の数SlaveNumに分割する画像分割６１１での処理を示し
ている。一般に画像処理は、注目画素の周りのカーネル
の大きさの領域を読み込んで演算するので、入力画像を
スレーブの数に分けるときには、境界部分でカーネルの
大きさ分だけ重なり合わせた形で分けなければならな
い。スレーブの入力画像Slv->ImgSrcは、マスタの入力
画像Mst->ImgSrcのパラメータを用いて次のような式で
表される。

【００３８】Slv->ImgSrc.Height＝{Mst->WinSrc.Heigh
t−(Mst->KerH-1)}／SlaveNum＋(Mst->KerH-1) Slv->ImgSrc.＝Width->WinSrc.Width Slv->WinSrc.x_coord＝０，Slv->WinSrc.y_coord＝０ Slv->WinSrc.Height＝{Mst->WinSrc.Height−(Mst->Ker
H-1)}／SlaveNum＋(Mst->KerH-1) Slv->WinSrc.Width＝Mst->WinSrc.Width 図１０は、画面を横に分割する場合の出力画像の構成例
を示したものである。マスタ通信３１０で画像をスレー
ブの数SlaveNumに分割する画像分割６１１での処理を示
している。一般に画像処理は、注目画素の周りのカーネ
ルの大きさの領域を読み込んで演算するので、出力画像
は周囲部分でカーネルの大きさの半分の分だけ計算でき
ない領域が発生する。図ではこの領域をハッチングして
表している。スレーブの出力画像Slv->ImgDstは、マス
タの入力画像Mst->ImgDstのパラメータを用いて次のよ
うな式で表される。

【００３９】Slv->ImgDst.Height＝{Mst->WinDst.Heigh
t−(Mst->KerH-1)}／SlaveNum＋(Mst->KerH-1） Slv->ImgDst.＝Width->WinDst.Width Slv->WinDst.x_coord＝０，Slv->WinDst.y_coord＝０ Slv->WinDst.Height＝{Mst->WinDst.Height−(Mst->Ker
H-1)}／SlaveNum Slv->WinDst.Width＝Mst->WinDst.Width

【００４０】

【発明の効果】本発明によれば、始点がＤＭＡ転送単位
からずれているデータを、ＤＭＡ転送単位に制約がつく
シングルチップマイコン内蔵のＤＭＡ機能を用いて転送
することができる。

【００４１】従って、ＣＰＵに回路を外付けしてＤＭＡ
機能を構成する必要がなくなり、追加ハードウェアが不
要でコストの削減の効果がある。またＤＭＡ機能を用い
て高速に転送できるために、性能向上の効果がある。

【図面の簡単な説明】

【図１】ハードウェア構成例を示した図である。

【図２】処理手続きを示した図である。

【図３】従来のデータ転送を説明するための図である。

【図４】本発明のデータ転送を説明するための図であ
る。

【図５】データ転送６１８の処理を示した図である。

【図６】データ転送６１８の他の処理を示した図であ
る。

【図７】入力画像分割の例を示した図である。

【図８】出力画像分割の例を示した図である。

【図９】入力画像分割の例を示した図である。

【図１０】出力画像分割の例を示した図である。

【符号の説明】

１００…マスタＣＰＵ、１０１…主メモリ、１０２…バ
ス、１０９…マスタプロセッサ、１１０，１２０，１３
０，１４０…スレーブＣＰＵ、１１１，１２１，１３
１，１４１…ローカルメモリ、１１９，１２９，１３
９，１４９…スレーブプロセッサ、１５１…ＣＰＵコ
ア、１５２…キャッシュ、１５３…ＤＭＡ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者高根淳茨城県ひたちなか市大字市毛882番地株式会社日立製作所計測器事業部内 (72)発明者佐藤典夫茨城県ひたちなか市大字市毛882番地株式会社日立製作所計測器事業部内Ｆターム(参考） 5B005 JJ22 KK16 KK22 LL15 MM01 PP21 5B045 AA01 BB31 BB54 DD13 KK08 5B061 DD00 DD04 DD06 DD12 GG13

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサがメモリを介してデータ
をやり取りしながら並列に処理を実行するマルチプロセ
ッサシステムにおいて、少なくとも１つのプロセッサを、ＣＰＵとＤＭＡ機能を
共に内蔵したシングルチップとメモリで構成し、プロセッサ間の転送に前記ＤＭＡ機能を用いることを特
徴とするマルチプロセッサシステム。
【請求項２】複数のプロセッサがメモリを介してデータ
をやり取りしながら並列に処理を実行するマルチプロセ
ッサシステムにおいて、プロセッサ間の転送に２種類以上の異なる大きさの転送
単位の転送を備え、大きい転送単位境界に満たない部分は小さい転送単位に
て転送し、大きい転送単位境界に含まれる部分は大きい転送単位ご
とに転送することを特徴とするマルチプロセッサシステ
ム。
【請求項３】複数のプロセッサがメモリを介してデータ
をやり取りしながら並列に処理を実行するマルチプロセ
ッサシステムにおいて、少なくとも１つのプロセッサを、ＣＰＵとＤＭＡ機能を
共に内蔵したシングルチップとメモリで構成し、プロセッサ間の転送のうち、ＤＭＡ転送単位境界に満た
ない部分はＣＰＵにて転送し、ＤＭＡ転送単位境界に含まれる部分は前記ＤＭＡ機能に
て転送することを特徴とするマルチプロセッサシステ
ム。
【請求項４】複数のプロセッサがメモリを介してデータ
をやり取りしながら並列に処理を実行するマルチプロセ
ッサシステムにおいて、ＤＭＡ転送単位境界からのずれが、マスタプロセッサの
データ領域とスレーブプロセッサのデータ領域で等しく
なるように、スレーブプロセッサのデータ領域を確保
し、ＤＭＡ機能を用いてプロセッサ間転送を行うことを特徴
とするマルチプロセッサシステム。
【請求項５】複数のプロセッサがメモリを介してデータ
をやり取りしながら並列に処理を実行するマルチプロセ
ッサシステムにおいて、ＤＭＡ転送前にキャッシュに入っているＤＭＡ転送元領
域のデータをメモリに書き戻し、ＤＭＡ転送後にキャッシュに入っているＤＭＡ転送先領
域のデータを無効化することを特徴とするマルチプロセ
ッサシステム。