JPH06342450A

JPH06342450A - 行列乗算装置

Info

Publication number: JPH06342450A
Application number: JP13018293A
Authority: JP
Inventors: Hiroshi Obara; 洋小原; Hideaki Kurihara; 秀明栗原
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-06-01
Filing date: 1993-06-01
Publication date: 1994-12-13

Abstract

(57)【要約】【目的】行列の乗算を行う装置に関し、マイクロプロセ
ッサやＤＳＰ等において、効率よく行列の乗算を行うこ
とができる、行列乗算装置を提供することを目的とす
る。【構成】ＪＡ×ＫＡ行列Ａ_JA,KAとＪＢ×ＫＢ行列Ｂ
_JB,KBとを乗算して、ＪＡ×ＫＢ行列Ｃ_JA,KBを得る行
列乗算装置において、プログラム制御部１を備えて、行
列乗算命令Ｃ_JA,KB＝Ａ_JA,KA×Ｂ_JB,KBの実行をプロ
グラムによって制御し、アドレス生成部２を備えて、プ
ログラムの使用するアドレスを生成し、積和演算部３を
備えて、行列Ａ_JA,KAの要素と行列Ｂ_JB,KBの要素との
積和演算を行い、メモリ４を備えて、行列Ａ_JA,KAと行
列Ｂ_JB,KBの各要素を予め格納するとともに、求められ
た行列Ｃ_JA,KBの各要素を格納することで構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、行列の乗算を行う装置
に関し、特にマイクロプロセッサやＤＳＰ（ディジタル
・シグナル・プロセッサ）等において、効率よく行列の
乗算を行うことができる、行列乗算装置に関するもので
ある。

【０００２】

【従来の技術】行列の乗算式は、例えば次式のように表
すことができる。Ｃ_JA,KB＝Ａ_JA,KA×Ｂ_JB,KB …（１）ここで、“ＪＡ，ＫＢ”はＪＡ×ＫＢ行列を意味するも
のとする。

【０００３】この場合の乗算のステップは、以下のよう
になる。 [1] Ｃ_1,1 の計算：Ａの第１行要素とＢの第１列要素の積和[min(KA,JB) 回] Ｃ_1,2 の計算：Ａの第１行要素とＢの第２列要素の積和[min(KA,JB) 回] ：Ｃ_1,KB の計算：Ａの第１行要素とＢの第KB列要素の積和[min(KA,JB) 回] [2] Ｃ₂,₁ の計算：Ａの第２行要素とＢの第１列要素の積和[min(KA,JB) 回] Ｃ_2,2 の計算：Ａの第２行要素とＢの第２列要素の積和[min(KA,JB) 回] ：Ｃ_2,KB の計算：Ａの第２行要素とＢの第KB列要素の積和[min(KA,JB) 回] : ： [JA]Ｃ_JA,1 の計算：Ａの第JA行要素とＢの第１列要素の積和[min(KA,JB) 回] Ｃ_JA,2 の計算：Ａの第JA行要素とＢの第２列要素の積和[min(KA,JB) 回] ：Ｃ_JA,KBの計算：Ａの第JA行要素とＢの第KB列要素の積和[min(KA,JB) 回]

【０００４】このように、行列の乗算の演算は、乗算結
果の行列の各要素を構成する積和を求める各要素ごとの
Ｎ（ＮはＫＡとＪＢのいずれか小さい方の値）回の演算
ループと、乗算結果の行列の行ごとのＫＢ回の演算ルー
プと、乗算結果の行列の行の数に等しいＪＡ回の演算ル
ープとからなる、多重演算ループ構造となる。

【０００５】図１１，図１２，図１３は、行列の乗算に
用いられる行列のメモリ配置とポインタの動き（１），
（２），（３）を示したものである。図１１は、Ａ行列
のメモリ配置とこれに対するポインタの動きを示したも
のであって、メモリにはＡ行列の各要素が行ごとに格納
されており、ポインタの動きはこれに対応して、行ごと
に初期値ＸＡから各要素を順次アクセスする、ＫＢ回の
ループを繰り返すことが示されている。

【０００６】図１２は、Ｂ行列のメモリ配置とこれに対
するポインタの動きを示したものであって、メモリには
Ｂ行列の各要素が行ごとに格納されており、ポインタの
動きは、各行の同一列の要素ごとにＮ回のアクセスを、
初期値ＸＢからＫＢ回行うループを、ＪＡ回繰り返すこ
とが示されている。

【０００７】図１３は、Ｃ行列のメモリ配置とこれに対
するポインタの動きを示したものであって、メモリには
乗算結果のＣ行列の各要素が、初期値ＸＣからＪＡ×Ｋ
Ｂ個、順次格納されることが示されている。

【０００８】図１４，図１５は、プログラムによる行列
の乗算のフロー（１），（２）を示したものである。図
１４，図１５において、最初、乗算結果の各要素を求め
るための積和演算回数Ｎを、Ａ行列の列数ＫＡと、Ｂ行
列の行数ＪＢとの最小数として求める（Ｓ１）。

【０００９】次に各行列Ａ，Ｂ，Ｃの先頭要素のアドレ
スＸＡ，ＸＢ，ＸＣをポインタに設定し（Ｓ２）、さら
に行列Ａ，Ｂのポインタを格納するそれぞれのバッファ
を初期化する（Ｓ３）。この場合の初期値は、行列Ａ，
Ｂの先頭要素のアドレスである。またＢ行列について
の、ポインタの更新量Ｙ０を設定する（Ｓ４）。この場
合の更新量Ｙ０の値は、前述のようにＫＢである。

【００１０】次に演算に使用するアキュムレータをクリ
アして、その値Ｃを０にしたのち（Ｓ５）、Ｃ行列の各
要素を求めるＮ回の積和演算を行う（Ｓ６）。この場合
は、ポインタを初期値ＸＡから順次１ずつ更新しなが
ら、Ａ行列のメモリを読み出してＡレジスタにロード
し、ポインタを初期値ＸＢから順次Ｙ０ずつ更新しなが
ら、Ｂ行列のメモリを読み出してＢレジスタにロード
し、積和演算結果を初期値Ｃに順次加算しながらＣレジ
スタにロードする。積和演算結果は、結果メモリにスト
アされる（Ｓ７）。

【００１１】さらにＢ行列のポインタ・バッファを初期
値から＋１し（Ｓ８）、ポインタを更新する（Ｓ９）。
この場合、Ａ行列のメモリに対するポインタは変化しな
いが、Ｂ行列のメモリに対するポインタは、＋１されて
１列分ずれている。このような演算ループをＫＢ回繰り
返すことによって、Ｃ行列の第１行が求められる（Ｓ１
０）。

【００１２】次に、ポインタ・バッファにおけるＡ行列
のポインタを＋ＫＡし、Ｂ行列のポインタを初期値とし
て（Ｓ１１）、ポインタを更新する（Ｓ１２）。この場
合、Ａ行列のメモリに対するポインタは、＋ＫＡされて
１行分ずれているが、Ｂ行列のメモリに対するポインタ
は変化しない。このような演算ループをＪＡ回繰り返す
ことによって、Ｃ行列が求められる（Ｓ１３）。

【００１３】

【発明が解決しようとする課題】プログラムを用いて行
う従来の行列の乗算は、次のような点がオーバーヘッド
となり、演算効率を低下させる原因となっている。三重ループの演算制御を行うことが必要なため、そ
の制御が極めて煩雑である。

【００１４】ポインタ更新の処理が複雑である。す
なわち、上述のＪＡ回，ＫＢ回の各ループ尾において、
次回のループのためのポインタの設定を行うが、この際
バッファを利用して、バッファ−ポインタ相互間の転送
を頻繁に行うため、その処理が煩雑で時間がかかる。

【００１５】本発明は、このような従来技術の課題を解
決しようとするものであって、行列の乗算を行う場合
に、プログラムによってループ制御やポインタ制御を行
わずに、数種類のレジスタ，カウンタ，セレクタを用い
た簡単なハードウエア構成によって、演算を行わせるこ
とによって、演算に必要な処理量を削減するとともに、
プログラミングを容易にし、かつ演算装置の消費電力を
低減することができる、行列乗算装置を提供することを
目的としている。

【００１６】

【課題を解決するための手段】

(1) 図１は、本発明の原理的構成を示したものである。
本発明は、ＪＡ×ＫＡ行列Ａ_JA,KAとＪＢ×ＫＢ行列Ｂ
_JB,KBとを乗算して、ＪＡ×ＫＢ行列Ｃ_JA,KBを得る行
列乗算装置において、行列乗算命令Ｃ_JA,KB＝Ａ_JA,KA
×Ｂ_JB,KBの実行をプログラムによって制御するプログ
ラム制御部１と、このプログラムの使用するアドレスを
生成するアドレス生成部２と、行列Ａ_JA,KAの要素と行
列Ｂ_JB,K _Bの要素との積和演算を行う積和演算部３と、
行列Ａ_JA,KAと行列Ｂ_JB,KBの各要素を予め格納すると
ともに、求められた行列Ｃ_JA,KBの各要素を格納するメ
モリ４とを備えたものである。

【００１７】(2)(1)において、プログラム制御部１が、
プログラム・カウンタ１１のカウントに応じて行列乗算
命令を読みだす命令ＲＯＭ１２と、行列乗算命令の各行
列Ａ _JA,KA，Ｂ_JB,KBの行数，列数ＪＡ，ＫＡ，ＪＢＫ
Ｂを格納する行・列レジスタ１５と、列数ＫＡ，行数Ｊ
Ｂの最小値Ｎを算出する比較・演算部１６と、この最小
値Ｎを格納するＮレジスタ１７と、行列Ｃ_JA,KBの各要
素を求めるＮ回の積和演算ループを制御する第１のカウ
ンタ１８と、行列Ｃ_JA,KBの各行要素を求めるＫＢ回の
演算ループを制御する第２のカウンタ１９と、行列Ｃ
_JA,KBの列要素を求めるＪＡ回の演算ループを制御する
第３のカウンタ２０とを備える。

【００１８】(3)(2)において、アドレス生成部２が、Ｎ
回の積和演算ループにおいて、行列乗算命令の各行列Ａ
_JA,KA，Ｂ_JB,KB，Ｃ_JA,KBの要素（ＸＡ，ＸＢ，Ｘ
Ｃ）を指示するポインタを格納するポインタ・レジスタ
・ファイル２１を用いて＋１更新することによって、行
列Ｃ_JA,KBの各要素を算出するアドレスを生成し、ＫＢ
回の演算ループにおいて、ポインタ・レジスタ・ファイ
ル２１から転送された先頭アドレス（ＸＡ’，ＸＢ’）
を初期値として格納する第１のポインタ・バッファ２２
を用いて＋ＫＡ更新することによって、行列Ｃ_JA,KBの
ＪＡ個の行要素を算出するアドレスを生成し、ＪＡ回の
演算ループにおいて、行列Ｂ_JB,KBの先頭アドレス（Ｘ
Ｂ”）を初期値として格納する第２のポインタ・バッフ
ァ２３を用いて＋ＫＢ更新することによって行列Ｃ
_JA,KBのＪＡ×ＫＢ個の列要素を算出するアドレスを生
成する。

【００１９】(4)(1)において、積和演算部３が、メモリ
４における行列Ａ_JA,KAの要素をロードする第１の入力
レジスタ３６と、メモリ４における行列Ｂ_JB,KBの要素
をロードする第２の入力レジスタ３７と、この両入力レ
ジスタ３６，３７のデータの積和演算を行う積和演算ユ
ニット３８とを備えて構成される。

【００２０】

【作用】本発明の行列乗算装置においては、プログラム
制御部１によって、行列乗算命令Ｃ_JA,KB＝Ａ_JA,KA×
Ｂ_JB,KBの実行をプログラムによって制御し、アドレス
生成部２によって、プログラムの使用するアドレスを生
成するとともに、積和演算部３によって、行列Ａ_JA,KA
の要素と行列Ｂ_JB,KBの要素との積和演算を行う。この
際メモリ４を用いて、行列Ａ_JA,KAと行列Ｂ_JB,KBの各
要素を予め格納するとともに、求められた行列Ｃ_JA,KB
の各要素を格納する。

【００２１】プログラム制御部１においては、命令ＲＯ
Ｍ１２に格納されている各行列の行数，列数（ＪＡ，Ｋ
Ａ，ＪＢ，ＫＢ）を格納する行・列レジスタ１５と、算
出された列数ＫＡ，行数ＪＢの最小値Ｎを格納するＮレ
ジスタ１７と、演算に必要なリピート数２Ｎ＋１，Ｋ
Ｂ，ＪＡを格納するカウンタ１８，１９，２０とを用い
て、行列乗算のプログラムを実行する。

【００２２】アドレス生成部２においては、Ｎ回の積和
演算において、各行列Ａ_JA,KA，Ｂ _JB,KB，Ｃ_JA,KBの
要素を指示するポインタを格納するポインタ・レジスタ
・ファイル２１を用いて、通常の＋１更新を行い、ルー
プ尾では、ＫＢ回ループの先頭アドレスを初期値として
格納するポインタ・バッファ２２を用いて＋ＫＡ更新を
行い、ＪＡ回ループでは、Ｂ行列の先頭アドレスを初期
値として格納するポインタ・バッファ２３を用いて＋Ｋ
Ｂ更新して、演算に必要なアドレスを生成する。この場
合の更新は、更新値０，１，ＫＡ，ＫＢから選択して、
これをアドレス算術ユニット２５で加算することによっ
て行われる。

【００２３】積和演算部３においては、ポインタによっ
て示されたメモリ４から、乗算すべきデータが入力レジ
スタ３６，３７にロードされて、積和演算ユニット３８
に入力され、積和演算ユニット３８によって、Ｎ回の積
和演算によって、行列Ｃ_JA,K _Bの要素が算出される。積
和演算結果は、データバスを経て、再びメモリ４に格納
される。

【００２４】

【実施例】図２は、本発明の一実施例におけるプログラ
ム制御部の構成を示したものである。１１はプログラム
・カウンタ、１２は演算に必要な命令を格納した命令Ｒ
ＯＭ、１３は命令をデコードするデコーダ、１４はデー
タ・バス、１５は演算に使用する各行列の行数と列数
（ＪＡ，ＫＡ，ＪＢ，ＫＢ）を格納する行・列レジス
タ、１６は列数ＫＡと行数ＪＢの最小値Ｎを選択する比
較・選択部、１７はＮを格納するＮレジスタ、１８はリ
ピート数（２Ｎ＋１）を格納するカウンタ、１９はリピ
ート数（ＫＢ）を格納するカウンタ、２０はリピート数
（ＪＡ）を格納するカウンタである。

【００２５】プログラム・カウンタ１１が順次カウント
することによって、命令ＲＯＭ１２から演算に必要な命
令が読み出される。デコーダ１３は、これをデコードし
て所要の制御を行う。

【００２６】命令ＲＯＭ１２から読み出された各行列の
行数，列数（ＪＡ，ＫＡ，ＪＢ，ＫＢ）は、行・列レジ
スタ１５における対応する領域に格納される。比較・選
択部１６は、Ａ行列の列数ＫＡと、Ｂ行列の行数ＪＢと
を比較して、小さい方の値Ｎを選択し、Ｎレジスタ１７
はこの値を格納する。

【００２７】カウンタ１８，１９，２０は、２Ｎ＋１，
ＫＢ，ＪＡをそれぞれリピート数として格納して、デー
タバス１４との間で、データの送受を行う。

【００２８】図３は、本発明の一実施例におけるアドレ
ス生成部の構成を示したものである。２１は、初期状態
において行列Ａ，Ｂ，Ｃのそれぞれの要素（ＸＡ，Ｘ
Ｂ，ＸＣ）の先頭アドレスを示すポインタを格納するポ
インタ・レジスタ・ファイル、２２は初期状態において
ＫＢ回ループにおける行列Ａ，Ｂの要素（ＸＡ’，Ｘ
Ｂ’）の先頭アドレスを示すポインタを格納するポイン
タ・バッファ、２３は初期状態においてＪＡ回ループに
おける行列Ｂの要素（ＸＢ”）の先頭アドレスを示すポ
インタを格納するポインタ・バッファ、２４はフリップ
・フロップ（ＦＦ）、２５はアドレス算術ユニット、２
６はポインタ・レジスタ・ファイル２１の入力を選択す
るセレクタ、２７はポインタ・レジスタ・ファイル２１
の出力を選択するセレクタ、２８はポインタ・バッファ
２２の出力を選択するセレクタ、２９はセレクタ２７，
２８の出力を選択するセレクタ、３０はアドレス算術ユ
ニット２５における更新値を選択するセレクタ、３１は
アドレス・バスである。

【００２９】ポインタ・レジスタ・ファイル２１は、最
初、Ａ行列，Ｂ行列，Ｃ行列のそれぞれのメモリに対す
るポインタの初期値ＸＡ，ＸＢ，ＸＣを保持し、これか
らフリップ・フロップ２４を経てタイミングを設定して
転送することによって、ポインタ・バッファ２２にＡ行
列，Ｂ行列の先頭アドレスＸＡ’，ＸＢ’が設定され
る。セレクタ３０は、“ＫＡ”，“ＫＢ”または“１”
を加算することによって、ポインタを更新する。“０”
のときは、ポインタは更新されない。生成アドレスは、
セレクタ２７からアドレス・バス３１に出力される。

【００３０】図４は、本発明の一実施例における演算部
とメモリの構成を示したものである。３５はメモリであ
って、Ａ行列，Ｂ行列，Ｃ行列をそれぞれ格納する。３
６，３７は積和演算入力を保持する入力レジスタ
（Ａ），（Ｂ）、３８は積和演算ユニットである。

【００３１】メモリ３５からのＡ行列，Ｂ行列のデータ
は、データ・バス１４を経てレジスタ（Ａ）３６，レジ
スタ（Ｂ）３７にロードされたのち、積和演算ユニット
３８において積和演算を行われ、演算結果は、データ・
バス１４を経てメモリ３５におけるＣ行列の領域に格納
される。メモリ３５は、アドレス・バス３１から、先頭
アドレスＸＡ，ＸＢ，ＸＣを与えられる。

【００３２】以下においては、図２〜図４に示された構
成に基づいて、（１）式に示された行列の乗算「Ｃ
_JA,KB＝Ａ_JA,KA×Ｂ_JB,KB」を実行する際の動作を詳
細に説明する。

【００３３】最初、プログラムカウンタ１１の所定のア
ドレスに、（１）式に示された演算を実行させる命令
が、例えば、Ｃ（Ｃ１）＝Ａ_JA,KA（Ａ１）×Ｂ_JB,KB（Ｂ１） …（２）のように格納されているものとする。ここで、Ａ１，Ｂ
１，Ｃ１はそれぞれ、Ａ行列，Ｂ行列，Ｃ行列が格納さ
れているメモリの先頭アドレスを示し、メモリ上におけ
るその配置は、図１１〜図１３に示されたものと同じで
ある。

【００３４】図５〜図１０は本発明の一実施例のシーケ
ンス・チャート（１）〜（６）を示したものである。図
中、縦の列はプログラムの１サイクルに対応している。
またプロセッサは、３段のパイプ・ライン構造を持つも
のとする。各図において、ＣＯ１，ＣＯ２，ＣＯ３はそ
れぞれメモリ１８，１９，２０の内容を示し、〔ａｄ〕
は生成されるアドレスを示し、〔ＬＯＡＤ〕は積和演算
のためにメモリからロードされるレジスタ（レジスタ
（Ａ）３６またはレジスタ（Ｂ）３７）を示し、〔ＥＸ
Ｅ〕は積和演算の実行を示している。

【００３５】初期設定プログラム・カウンタ１１が所定のアドレス値になっ
て、命令ＲＯＭ１２内の演算命令が指示されると、デー
タ・バス１４を介して、行・列レジスタ１５に、ＪＡ，
ＫＡ，ＪＢ，ＫＢがそれぞれロードされる。

【００３６】次のサイクルでは、データ・バス１４を介
して、ポインタ・レジスタ・ファイル２１におけるＸ
Ａ，ＸＢ，ＸＣに、それぞれ初期値である先頭アドレス
（Ａ１，Ｂ１，Ｃ１）がロードされ、ポインタ・バッフ
ァ２３におけるＸＢ”にＢ１がロードされる。これと同
時に比較・選択部１６においてＫＡ，ＪＢの最小値Ｎが
算出されて、結果がＮレジスタ１７に格納される。

【００３７】さらに次のサイクルで、カウンタ１８，１
９，２０にそれぞれ、２Ｎ＋１，ＫＢ，ＪＡがセットさ
れ、フリップ・フロップ２４にクロックを与えることに
よって、ポインタ・レジスタ・ファイル２１から、Ｘ
Ａ，ＸＢがポインタ・バッファ２２のＸＡ’，ＸＢ’に
転送される。

【００３８】Ｃ_1,1 の計算カウンタ１８は、プロセッサのサイクルに同期してカウ
ント・ダウンする。Ｃ _1,1 の計算時、カウンタ１９はＫ
Ｂ、カウンタ２０はＪＡに保たれる。

【００３９】カウンタ１８の値が２Ｎ＋１のとき、ポイ
ンタ・レジスタ・ファイル２１のＸＡがセレクタ２７を
経て読み出されることによって、Ａ１がアドレスとして
アドレス・バス３１に出力される。同時に、ＸＡが＋１
更新されるので、Ａ１＋１が新たなＸＡとなる。

【００４０】カウンタ１８の値が２Ｎのとき、ポインタ
・レジスタ・ファイル２１のＸＢがセレクタ２７を経て
読み出されることによって、Ｂ１がアドレス・バス３１
に出力される。同時に、ＸＢが＋ＫＢ更新されるので、
Ｂ１＋ＫＢが新たなＸＢとなる。このとき、Ａ１によっ
て指示されるメモリのデータが、レジスタ（Ａ）３６に
ロードされる。

【００４１】カウンタ１８の値が２Ｎ−１のとき、生成
されるアドレスはＡ１＋１であり、ポインタ・レジスタ
・ファイル２１のＸＡはＡ１＋２となる。このとき、Ｂ
１によって指示されるメモリのデータがレジスタ（Ｂ）
３７にロードされる。

【００４２】カウンタ１８の値が２Ｎ−２のとき、生成
されるアドレスはＢ１＋ＫＢであり、ポインタ・レジス
タ・ファイル２１のＸＢはＢ１＋２ＫＢとなる。このと
き、Ａ１によって指示されるメモリのデータがレジスタ
（Ａ）３６にロードされる。ここで、積和演算を行っ
て、Ａ×Ｂ＝Ｃを算出する。

【００４３】以後、同様な演算を続けて、カウンタ１８
の値が４のとき、生成されるアドレスはＢ１＋（Ｎ−
２）ＫＢであり、ポインタ・レジスタ・ファイル２１の
ＸＢはＢ１＋（Ｎ−１）ＫＢとなる。このとき、Ａ１＋
Ｎ−２によって指示されるメモリのデータがレジスタ
（Ａ）３６にロードされる。ここで、積和演算を行っ
て、Ｃ＋Ａ×Ｂ＝Ｃを算出する。

【００４４】カウンタ１８の値が３のとき、生成される
アドレスはＡ１＋Ｎ−１である。このとき、アドレス算
術ユニット２５への入力として、ポインタ・バッファ２
２のＸＢ’がセレクタ２８，２９によって選択され、±
０更新されるので、結果的に更新がなく、ポインタ・レ
ジスタ・ファイル２１の新たなＸＡはＡ１となる。そし
て、Ｂ１＋（Ｎ−２）ＫＢによって指示されるメモリの
データが、レジスタ（Ｂ）３７にロードされる。

【００４５】カウンタ１８の値が２のとき、生成される
アドレスはＢ１＋（Ｎ−１）ＫＢである。このとき、ポ
インタ・バッファ２２のＸＢ’がセレクタ２８，２９に
よって選択されてアドレス算術ユニット２５へ入力され
るとともに、セレクタ３０から“１”が入力されて＋１
更新がなされるので、ポインタ・レジスタ・ファイル２
１における新たなＸＢは、Ｂ１＋１となる。そして、Ａ
１＋Ｎ−１によって指示されるメモリのデータがレジス
タ（Ａ）３６にロードされる。ここで積和演算を行っ
て、Ｃ＋Ａ×Ｂ＝Ｃを算出する。

【００４６】カウンタ１８の値が１のとき、生成される
アドレスはＣ１であって、ポインタ・レジスタ・ファイ
ル２１のＸＣは＋１更新されて、Ｃ１＋１となる。この
とき、Ｂ１＋（Ｎ−１）ＫＢによって指示されるメモリ
のデータが、レジスタ（Ｂ）３７にロードされる。そし
て、フリップ・フロップ２４にクロックが供給されて、
ポインタ・レジスタ・ファイル２１のＸＡ，ＸＢがポイ
ンタ・バッファ２２のＸＡ’，ＸＢ’に転送されて、新
たなＸＡ，ＸＢはそれぞれＡ１，Ｂ１＋１となる。

【００４７】次に再びカウンタ１８の値が２Ｎ＋１にな
ったとき、カウンタ１９の値はＫＢ−１であって、Ｃ＋
Ａ×Ｂ＝Ｃが算出されて積和演算が終了する。

【００４８】次にカウンタ１８の値が２Ｎになったと
き、カウンタ１９の値はＫＢ−１であって、積和演算結
果がＣ１によって指示されるメモリに格納される。

【００４９】Ｃ_1,2 の計算カウンタ１８は、プロセッサのサイクルに同期してカウ
ント・ダウンする。Ｃ _1,2 の計算時、カウンタ１９はＫ
Ｂ−１、カウンタ２０はＪＡに保たれる。

【００５０】カウンタ１８の値が２Ｎ＋１のとき、カウ
ンタ１９がＫＢ−１にカウント・ダウンされる。生成さ
れるアドレスはＡ１であり、ポインタ・レジスタ・ファ
イル２１のＸＡはＡ１＋１になる。

【００５１】カウンタ１８の値が２Ｎのとき、生成され
るアドレスはＢ１＋１であり、ポインタ・レジスタ・フ
ァイル２１のＸＢはＢ１＋１＋ＫＢとなる。

【００５２】以下、同様な演算を続けて、カウンタ１８
の値が３のとき、生成されるアドレスはＡ１＋Ｎ−１で
ある。このとき、アドレス算術ユニット２５への入力と
して、ポインタ・バッファ２２のＸＡ’がセレクタ２
８，２９によって選択され、±０更新がなされるので、
結果的に更新がなく、ポインタ・レジスタ・ファイル２
１の新たなＸＡはＡ１となる。そして、Ｂ１＋１＋（Ｎ
−２）ＫＢによって指示されるメモリのデータが、レジ
スタ（Ｂ）３７にロードされる。

【００５３】カウンタ１８の値が２のとき、生成される
アドレスはＢ１＋１＋（Ｎ−１）ＫＢであり、このと
き、ポインタ・バッファ２２のＸＢ’がセレクタ２８，
２９によって選択されてアドレス算術ユニット２５へ入
力されるとともに、セレクタ３０から“１”が入力され
て＋１更新される結果、新たなＸＢは、Ｂ１＋２とな
る。そして、Ａ１＋Ｎ−１によって指示されるメモリの
データがレジスタ（Ａ）３６にロードされる。ここで積
和演算を行って、Ｃ＋Ａ×Ｂ＝Ｃを算出する。

【００５４】カウンタ１８の値が１のとき、生成される
アドレスはＣ１であって、ポインタ・レジスタ・ファイ
ル２１のＸＣは＋１更新されて、Ｃ１＋２となる。この
とき、Ｂ１＋１＋（Ｎ−１）ＫＢによって指示されるメ
モリのデータが、レジスタ（Ｂ）３７にロードされる。
そして、フリップ・フロップ２４にクロックが供給され
て、ポインタ・レジスタ・ファイル２１のＸＡ，ＸＢが
ポインタ・バッファ２２のＸＡ’，ＸＢ’に転送され
て、新たなＸＡ，ＸＢはそれぞれＡ１，Ｂ１＋２とな
る。

【００５５】次に再びカウンタ１８の値が２Ｎ＋１にな
ったとき、カウンタ１９の値はＫＢ−２であって、Ｃ＋
Ａ×Ｂ＝Ｃが算出されて積和演算が終了する。

【００５６】次にカウンタ１８の値が２Ｎになったと
き、カウンタ１９の値はＫＢ−２であって、積和演算結
果がＣ１＋１によって指示されるメモリに格納される。
以後、同様な演算が繰り返される。

【００５７】Ｃ_1,KB-1の計算カウンタ１８は、プロセッサのサイクルに同期してカウ
ント・ダウンする。Ｃ _1,KB-1の計算時、カウンタ１９は
１、カウンタ２０はＪＡに保たれる。

【００５８】カウンタ１８の値が２Ｎ＋１のとき、カウ
ンタ１９が１にカウント・ダウンされる。生成されるア
ドレスはＡ１であり、ポインタ・レジスタ・ファイル２
１のＸＡはＡ１＋１になる。

【００５９】カウンタ１８の値が２Ｎのとき、生成され
るアドレスはＢ１＋ＫＢ−１であり、ポインタ・レジス
タ・ファイル２１のＸＢはＢ１＋２ＫＢ−１となる。

【００６０】以下、同様な演算を続けて、カウンタ１８
の値が３のとき、生成されるアドレスはＡ１＋Ｎ−１で
ある。このとき、アドレス算術ユニット２５への入力と
して、ポインタ・バッファ２２のＸＡ’がセレクタ２
８，２９によって選択され、＋ＫＡ更新がなされるの
で、ポインタ・レジスタ・ファイル２１の新たなＸＡは
Ａ１＋ＫＡとなる。そして、Ｂ１＋（Ｎ−１）ＫＢ−１
によって指示されるメモリのデータが、レジスタ（Ｂ）
３７にロードされる。

【００６１】カウンタ１８の値が２のとき、生成される
アドレスはＢ１＋Ｎ＊ＫＢ−１である。このとき、ポイ
ンタ・バッファ２２のＸＢ’がセレクタ２８，２９によ
って選択されてアドレス算術ユニット２５へ転送される
結果、新たなＸＢは、Ｂ１となる。そして、Ａ１＋Ｎ−
１によって指示されるメモリのデータがレジスタ（Ａ）
３６にロードされる。ここで積和演算を行って、Ｃ＋Ａ
×Ｂ＝Ｃを算出する。

【００６２】カウンタ１８の値が１のとき、生成される
アドレスはＣ１＋ＫＢ−１であって、ポインタ・レジス
タ・ファイル２１のＸＣは＋１更新されて、Ｃ１＋ＫＢ
となる。このとき、Ｂ１＋Ｎ＊ＫＢ−１によって指示さ
れるメモリのデータが、レジスタ（Ｂ）３７にロードさ
れる。そして、フリップ・フロップ２４にクロックが供
給されて、ポインタ・レジスタ・ファイル２１のＸＡ，
ＸＢがポインタ・バッファ２２のＸＡ’，ＸＢ’に転送
されて、新たなＸＡ，ＸＢはそれぞれＡ１＋ＫＡ，Ｂ１
となる。

【００６３】次に再びカウンタ１８の値が２Ｎ＋１にな
ったとき、カウンタ１９の値はＫＢ、カウンタ２０の値
はＪＡ−１であって、Ｃ＋Ａ×Ｂ＝Ｃが算出されて積和
演算が終了する。

【００６４】次にカウンタ１８の値が２Ｎになったと
き、カウンタ１９の値はＫＢ、カウンタ２０の値はＪＡ
−１であって、積和演算結果がＣ１＋ＫＢ−１によって
指示されるメモリに格納される。

【００６５】Ｃ_2,1 の計算カウンタ１８は、プロセッサのサイクルに同期してカウ
ント・ダウンする。Ｃ _2,1 の計算時、カウンタ１９はＫ
Ｂ、カウンタ２０はＪＡ−１に保たれる。

【００６６】カウンタ１８の値が２Ｎ＋１のとき、カウ
ンタ１９がＫＢにセットされる。またカウンタ２０がＪ
Ａ−１にカウント・ダウンされる。生成されるアドレス
はＡ１＋ＫＡであり、ポインタ・レジスタ・ファイル２
１のＸＡはＡ１＋ＫＡ＋１になる。

【００６７】カウンタ１８の値が２Ｎのとき、生成され
るアドレスはＢ１であり、ポインタ・レジスタ・ファイ
ル２１のＸＢはＢ１＋ＫＢとなる。以下、同様な演算が
行われる。

【００６８】Ｃ_JA,KBの計算上述と同様にして演算が行われて、カウンタ１８の値が
３のとき、生成されるアドレスはＡ１＋（Ｊ１−１）Ｋ
Ａ＋Ｎ−１である。このとき、Ｂ１＋（Ｎ−１）ＫＢ−
１によって指示されるメモリのデータがレジスタ（Ｂ）
３７にロードされる。

【００６９】カウンタ１８の値が２のとき、生成される
アドレスはＢ１＋Ｎ＊ＫＢ−１である。このとき、Ａ１
＋（Ｊ１−１）ＫＡ＋Ｎ−１によって指示されるメモリ
のデータがレジスタ（Ａ）３６にロードされる。ここで
積和演算を行って、Ｃ＋Ａ×Ｂ＝Ｃを算出する。

【００７０】カウンタ１８の値が１のとき、Ｂ１＋Ｎ＊
ＫＢ−１によって指示されるメモリのデータが、レジス
タ（Ｂ）３７にロードされる。

【００７１】カウンタ１８，カウンタ１９，カウンタ２
０の値がともに１になったとき、その＋１サイクル後
に、Ｃ＋Ａ×Ｂ＝Ｃを算出して積和演算を終了する。

【００７２】カウンタ１８，カウンタ１９，カウンタ２
０の値がともに１になって、＋２サイクル後に、積和演
算結果がＣ１＋ＪＡ＊ＫＢ−１によって指示されるメモ
リに格納される。

【００７３】

【発明の効果】以上説明したように本発明によれば、行
列の乗算「Ｃ_JA,KB＝Ａ_JA,KA×Ｂ_JB _,KB」を、マイク
ロプロセッサやＤＳＰ等によって行う際に、従来のよう
に、プログラムによって多重ループ制御や、ポインタ制
御等を行うことなしに、数種類のレジスタ，カウンタ，
セレクタ等を用いた回路構成からなる、簡単なハードウ
エアによって演算を実現するようにしたので、演算処理
量を減少させることができるとともに、プログラミング
が容易となり、さらに演算装置の消費電力を低減するこ
とが可能となる。

【図面の簡単な説明】

【図１】本発明の原理的構成を示す図である。

【図２】本発明の一実施例におけるプログラム制御部の
構成を示す図である。

【図３】本発明の一実施例におけるアドレス生成部の構
成を示す図である。

【図４】本発明の一実施例における演算部とメモリの構
成を示す図である。

【図５】本発明の一実施例のシーケンス・チャート
（１）を示す図である。

【図６】本発明の一実施例のシーケンス・チャート
（２）を示す図である。

【図７】本発明の一実施例のシーケンス・チャート
（３）を示す図である。

【図８】本発明の一実施例のシーケンス・チャート
（４）を示す図である。

【図９】本発明の一実施例のシーケンス・チャート
（５）を示す図である。

【図１０】本発明の一実施例のシーケンス・チャート
（６）を示す図である。

【図１１】行列の乗算に用いられる行列のメモリ配置と
ポインタの動き（１）を示す図である。

【図１２】行列の乗算に用いられる行列のメモリ配置と
ポインタの動き（２）を示す図である。

【図１３】行列の乗算に用いられる行列のメモリ配置と
ポインタの動き（３）を示す図である。

【図１４】プログラムによる行列の乗算のフロー（１）
を示す図である。

【図１５】プログラムによる行列の乗算のフロー（２）
を示す図である。

【符号の説明】

１プログラム制御部２アドレス生成部３積和演算部４メモリ１１プログラム・カウンタ１２命令ＲＯＭ１５行・列レジスタ１６比較・選択部１７Ｎレジスタ１８カウンタ１９カウンタ２０カウンタ２１ポインタ・レジスタ・ファイル２２ポインタ・バッファ２３ポインタ・バッファ３６入力レジスタ３７入力レジスタ３８積和演算ユニット

Claims

【特許請求の範囲】

【請求項１】ＪＡ×ＫＡ行列Ａ_JA,KAとＪＢ×ＫＢ行
列Ｂ_JB,KBとを乗算して、ＪＡ×ＫＢ行列Ｃ_JA,KBを得
る行列乗算装置において、行列乗算命令Ｃ_JA,KB＝Ａ_JA,KA×Ｂ_JB,KBの実行をプ
ログラムによって制御するプログラム制御部（１）と、該プログラムの使用するアドレスを生成するアドレス生
成部（２）と、行列Ａ_JA,KAの要素と行列Ｂ_JB,KBの要素との積和演算
を行う積和演算部（３）と、行列Ａ_JA,KAと行列Ｂ_JB,KBの各要素を予め格納すると
ともに、求められた行列Ｃ_JA,KBの各要素を格納するメ
モリ（４）とを備えたことを特徴とする行列乗算装置。
【請求項２】前記プログラム制御部（１）が、プログラム・カウンタ（１１）のカウントに応じて前記
行列乗算命令を読みだす命令ＲＯＭ（１２）と、前記行列乗算命令の各行列Ａ_JA,KA，Ｂ_JB,KBの行数，
列数ＪＡ，ＫＡ，ＪＢＫＢを格納する行・列レジスタ
（１５）と、該列数ＫＡ，行数ＪＢの最小値Ｎを算出する比較・演算
部（１６）と、該最小値Ｎを格納するＮレジスタ（１７）と、前記行列Ｃ_JA,KBの各要素を求めるＮ回の積和演算ルー
プを制御する第１のカウンタ（１８）と、前記行列Ｃ_JA,KBの各行要素を求めるＫＢ回の演算ルー
プを制御する第２のカウンタ（１９）と、前記行列Ｃ_JA,KBの列要素を求めるＪＡ回の演算ループ
を制御する第３のカウンタ（２０）とを備えたことを特
徴とする請求項１に記載の行列乗算装置。
【請求項３】前記アドレス生成部（２）が、前記Ｎ回の積和演算ループにおいて、行列乗算命令の各
行列Ａ_JA,KA，Ｂ_JB,K _B，Ｃ_JA,KBの要素（ＸＡ，Ｘ
Ｂ，ＸＣ）を指示するポインタを格納するポインタ・レ
ジスタ・ファイル（２１）を用いて＋１更新することに
よって、行列Ｃ_JA _,KBの各要素を算出するアドレスを生
成し、前記ＫＢ回の演算ループにおいて、ポインタ・レ
ジスタ・ファイル（２１）から転送された先頭アドレス
（ＸＡ’，ＸＢ’）を初期値として格納する第１のポイ
ンタ・バッファ（２２）を用いて＋ＫＡ更新することに
よって、行列Ｃ_JA,KBのＪＡ個の行要素を算出するアド
レスを生成し、前記ＪＡ回の演算ループにおいて、行列
Ｂ_JB,KBの先頭アドレス（ＸＢ”）を初期値として格納
する第２のポインタ・バッファ（２３）を用いて＋ＫＢ
更新することによって行列Ｃ_JA,KBのＪＡ×ＫＢ個の列
要素を算出するアドレスを生成することを特徴とする請
求項２に記載の行列乗算装置。
【請求項４】前記積和演算部（３）が、前記メモリ
（４）における行列Ａ _JA,KAの要素をロードする第１の
入力レジスタ（３６）と、前記メモリ（４）における行
列Ｂ_JB,KBの要素をロードする第２の入力レジスタ（３
７）と、該両入力レジスタ（３６），（３７）のデータ
の積和演算を行う積和演算ユニット（３８）とを備えて
なることを特徴とする請求項１に記載の行列乗算装置。