JP5157484B2

JP5157484B2 - 行列演算コプロセッサ

Info

Publication number: JP5157484B2
Application number: JP2008019119A
Authority: JP
Inventors: 佳弘有田
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-01-30
Filing date: 2008-01-30
Publication date: 2013-03-06
Anticipated expiration: 2028-01-30
Also published as: JP2009181293A

Description

この発明は、プロセッサから乗算対象である２つの行列の要素を受け取って、２つの行列の乗算を行う行列演算コプロセッサに関する。

画像処理装置では、例えば画像の回転等の処理のために行列乗算処理が頻繁に行われる。一般に行列乗算処理は演算量が多い。従って、画像処理装置全体を制御するプロセッサにこの行列乗算処理を実行させると、画像処理装置の処理効率を大幅に低下させることとなる。そこで、プロセッサの負担を軽減するために、演算処理専用のコプロセッサを設け、このコプロセッサに行列乗算処理を実行させる構成が採られることがある（例えば特許文献１参照）。
特開平７−２１１５５号公報

ところで、例えば４×４個の２個の行列同士の乗算処理を行う場合、乗算結果である行列の１つの要素を算出するために、乗算対象である２個の行列のうち一方の行列の一行分の要素４個と他方の行列の一列分の要素４個、すなわち、合計８個の要素が必要となる。そこで、従来の技術において、コプロセッサは、乗算結果である行列の１つの要素を得るために、この８個の要素をプロセッサから受け取り、積和演算処理を行っていた。しかし、プロセッサおよびコプロセッサ間のデータ供給経路のビット幅は小さく、１クロックに同期して１要素分のデータしかプロセッサからコプロセッサに送ることができない。このため、乗算結果である行列の１つの要素を得るための所要クロック数は８クロック、乗算結果である行列の全要素を得るための所要クロック数は１６×８＝１２８クロックとなり、行列乗算処理の所要時間が長いという問題があった。

この発明は、以上説明した事情に鑑みてなされたものであり、行列の要素をプロセッサから多数まとめて送ることができない状況においても、行列乗算処理を高速に実行することができる行列演算コプロセッサを提供することを目的としている。

この発明は、プロセッサから乗算対象である２つの行列の要素を受け取って行列乗算を行う行列演算コプロセッサにおいて、各々第１のデータ入力端子に与えられるデータと第２のデータ入力端子に与えられるデータとを乗算する複数の乗算器と、前記複数の乗算器による各乗算結果の累算を各々行う複数の累算器と、乗算対象である２つの行列のうちの一方の行列の要素を記憶する行列要素レジスタと、前記２つの行列の乗算結果である行列の要素を前記複数の累算器から行毎にまたは列毎に順次得るための制御を行う手段であって、前記乗算結果である行列の１行分または１列分の要素を前記複数の累算器から得るために、前記複数の累算器の累算値を予め初期化した後、前記乗算対象である２つの行列のうちの他方の行列の１行分または１列分の要素を前記プロセッサから１個ずつ順次受け取り、１個の要素を受け取る毎に、受け取った要素を前記複数の乗算器の第１のデータ入力端子に供給するとともに、前記乗算結果である行列の１行分または１列分の要素を得るための演算において当該要素を共通の乗算相手とする１行分または１列分の要素を前記行列要素レジスタから読み出して前記複数の乗算器の各々の第２のデータ入力端子に各々供給し、前記複数の乗算器から得られる各乗算結果の累算を前記複数の累算器に各々行わせる制御手段とを具備することを特徴とする行列演算コプロセッサを提供する。
かかる発明によれば、行列演算コプロセッサでは、プロセッサから行列の要素を１個受け取る毎に、当該要素を共通の乗算相手とする複数の要素が行列要素レジスタから読み出され、複数組の乗算が行われ、それらの各乗算結果の累算が行われる。従って、行列要素を１個ずつしかプロセッサから受け取ることができない状況においても、高速に行列乗算の結果を算出することができる。

以下、図面を参照し、この発明の実施の形態を説明する。
図１は、この発明の一実施形態である行列演算コプロセッサ１００の構成を示すブロック図である。この行列演算コプロセッサ１００は、ＣＰＵ２００から乗算対象である２つの行列ＡおよびＢの要素ａ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）およびｂ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）を受け取り、行列ＡおよびＢの乗算結果、すなわち、下記式（１）〜（１６）により与えられる行列Ｑの要素ｑ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）を算出し、ＣＰＵ２００に返すコプロセッサである。
ｑ_００
＝ａ_００・ｂ_００＋ａ_０１・ｂ_１０＋ａ_０２・ｂ_２０＋ａ_０３・ｂ_３０……（１）
ｑ_０１
＝ａ_００・ｂ_０１＋ａ_０１・ｂ_１１＋ａ_０２・ｂ_２１＋ａ_０３・ｂ_３１……（２）
ｑ_０２
＝ａ_００・ｂ_０２＋ａ_０１・ｂ_１２＋ａ_０２・ｂ_２２＋ａ_０３・ｂ_３２……（３）
ｑ_０３
＝ａ_００・ｂ_０３＋ａ_０１・ｂ_１３＋ａ_０２・ｂ_２３＋ａ_０３・ｂ_３３……（４）
ｑ_１０
＝ａ_１０・ｂ_００＋ａ_１１・ｂ_１０＋ａ_１２・ｂ_２０＋ａ_１３・ｂ_３０……（５）
ｑ_１１
＝ａ_１０・ｂ_０１＋ａ_１１・ｂ_１１＋ａ_１２・ｂ_２１＋ａ_１３・ｂ_３１……（６）
ｑ_１２
＝ａ_１０・ｂ_０２＋ａ_１１・ｂ_１２＋ａ_１２・ｂ_２２＋ａ_１３・ｂ_３２……（７）
ｑ_１３
＝ａ_１０・ｂ_０３＋ａ_１１・ｂ_１３＋ａ_１２・ｂ_２３＋ａ_１３・ｂ_３３……（８）
ｑ_２０
＝ａ_２０・ｂ_００＋ａ_２１・ｂ_１０＋ａ_２２・ｂ_２０＋ａ_２３・ｂ_３０……（９）
ｑ_２１
＝ａ_２０・ｂ_０１＋ａ_２１・ｂ_１１＋ａ_２２・ｂ_２１＋ａ_２３・ｂ_３１……（１０）
ｑ_２２
＝ａ_２０・ｂ_０２＋ａ_２１・ｂ_１２＋ａ_２２・ｂ_２２＋ａ_２３・ｂ_３２……（１１）
ｑ_２３
＝ａ_２０・ｂ_０３＋ａ_２１・ｂ_１３＋ａ_２２・ｂ_２３＋ａ_２３・ｂ_３３……（１２）
ｑ_３０
＝ａ_３０・ｂ_００＋ａ_３１・ｂ_１０＋ａ_３２・ｂ_２０＋ａ_３３・ｂ_３０……（１３）
ｑ_３１
＝ａ_３０・ｂ_０１＋ａ_３１・ｂ_１１＋ａ_３２・ｂ_２１＋ａ_３３・ｂ_３１……（１４）
ｑ_３２
＝ａ_３０・ｂ_０２＋ａ_３１・ｂ_１２＋ａ_３２・ｂ_２２＋ａ_３３・ｂ_３２……（１５）
ｑ_３３
＝ａ_３０・ｂ_０３＋ａ_３１・ｂ_１３＋ａ_３２・ｂ_２３＋ａ_３３・ｂ_３３……（１６）

ここで、行列Ａは、例えば回転処理の対象である図形の頂点の座標を要素とする行列であり、行列Ｂは、回転角度に応じて決まる回転処理のための係数を要素とする行列である。行列ＡおよびＢの乗算結果である行列Ｑは、回転後の図形の頂点の座標を要素とする行列となる。

図１に示すように、行列演算コプロセッサ１００は、４個の乗算器１０１〜１０４と、その後段の４個の累算器１１１〜１１４と、行列要素レジスタ１２０と、結果格納部１３０と、制御部１４０とを有する。

乗算器１０１〜１０４は、各々第１のデータ入力端子に与えられるデータと第２のデータ入力端子に与えられるデータとを乗算し、その乗算結果を出力する。累算器１１１〜１１４は、乗算器１０１〜１０４の各乗算結果の累算を行う装置である。累算器１１１〜１１４の各々は、加算器１１とレジスタ１２により構成されている。各累算器１１１〜１１４において、加算器１１は前段の乗算器１０１〜１０４の出力データとレジスタ１２の出力データとを加算して出力する。レジスタ１２は、書き込み信号ＷＲが与えられることにより加算器１１の出力データを取り込んで出力する。以上説明した乗算器１０１〜１０４およびその後段の累算器１１１〜１１４は、行列ＡおよびＢの乗算結果である行列Ｑの要素ｑ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）を算出するための手段として用いられる。

行列要素レジスタ１２０は、乗算対象である２つの行列ＡおよびＢのうちの一方の行列Ｂの要素ｂ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）を記憶するレジスタである。ここで、行列Ｂの要素ｂ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）は、行列ＡおよびＢの乗算処理の実行に先立って、予めＣＰＵ２００から行列演算コプロセッサ１００に与えられるものである。結果格納部１３０は、行列ＡおよびＢの乗算結果である行列Ｑの要素ｑ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）を累算器１１１〜１１４から受け取って格納するバッファである。

制御部１４０は、ＣＰＵ２００から演算処理に関するコマンドを受け取り、演算処理を実行するための行列演算コプロセッサ１００内の各部の制御を行うとともに、ＣＰＵ２００との間のデータの授受の制御を行う装置である。

以下、この制御部１４０による制御の下で行われる行列ＡおよびＢの乗算処理について説明する。ＣＰＵ２００からのコマンドに従って行列ＡおよびＢの乗算処理を実行する場合、制御部１４０は、予め一方の行列Ｂの要素ｂ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）をＣＰＵ２００から受け取って、行列要素レジスタ１２０に格納する。そして、制御部１４０は、行列ＡおよびＢの乗算結果の行列Ｑの要素ｑ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）を４個の累算器１１１〜１１４から行毎（インデックスｉ毎）に順次得るための制御を行う。

さらに詳述すると、制御部１４０は、乗算結果である行列Ｑの第０行の要素ｑ_０ｊ（ｊ＝０〜３）を累算器１１１〜１１４から得るために、まず、累算器１１１〜１１４の累算値ｑ_０ｊ（ｊ＝０〜３）を予め「０」に初期化する。

その後、乗算対象である２つの行列ＡおよびＢのうちの他方の行列Ａの第０行の要素ａ_０ｊ（ｊ＝０〜３）をＣＰＵ２００から１個ずつ順次受け取り、１個の要素ａ_０ｊを受け取る毎に、次の制御を行う。

まず、最初に受け取った要素ａ_００を４個の乗算器１０１〜１０４の第１のデータ入力端子に供給する。また、行列Ｑの第０行の要素ｑ_０ｊ（ｊ＝０〜３）を得るための演算（前掲式（１）〜（４）参照）において当該要素ａ_００を共通の乗算相手とする１行分の要素、すなわち、要素ｂ_０ｊ（ｊ＝０〜３）を行列要素レジスタ１２０から読み出して乗算器１０１〜１０４の各々の第２のデータ入力端子に各々供給する。これにより乗算器１０１〜１０４から乗算結果ａ_００・ｂ_００、ａ_００・ｂ_０１、ａ_００・ｂ_０２およびａ_００・ｂ_０３が各々出力され、累算器１１１〜１１４に各々供給される。

次に累算器１１１〜１１４の各レジスタ１２に書き込み信号ＷＲを送る。これにより累算器１１１〜１１４では、下記式（１７）〜（２０）の累算が行われ、各式の左辺のｑ_０ｊ（ｊ＝０〜３）が出力される。
ｑ_００＝ａ_００・ｂ_００＋ｑ_００ ……（１７）
ｑ_０１＝ａ_００・ｂ_０１＋ｑ_０１ ……（１８）
ｑ_０２＝ａ_００・ｂ_０２＋ｑ_０２ ……（１９）
ｑ_０３＝ａ_００・ｂ_０３＋ｑ_０３ ……（２０）

次に要素ａ_０１を受け取ると、この要素ａ_０１を４個の乗算器１０１〜１０４の第１のデータ入力端子に供給する。また、行列Ｑの第０行の要素ｑ_０ｊ（ｊ＝０〜３）を得るための演算（前掲式（１）〜（４）参照）において当該要素ａ_０１を共通の乗算相手とする１行分の要素、すなわち、要素ｂ_１ｊ（ｊ＝０〜３）を行列要素レジスタ１２０から読み出して乗算器１０１〜１０４の各々の第２のデータ入力端子に各々供給する。これにより乗算器１０１〜１０４から乗算結果ａ_０１・ｂ_１０、ａ_０１・ｂ_１１、ａ_０１・ｂ_１２およびａ_０１・ｂ_１３が各々出力され、累算器１１１〜１１４に各々供給される。

次に累算器１１１〜１１４の各レジスタ１２に書き込み信号ＷＲを送る。これにより累算器１１１〜１１４では、下記式（２１）〜（２４）の累算が行われ、各式の左辺のｑ_０ｊ（ｊ＝０〜３）が出力される。
ｑ_００＝ａ_０１・ｂ_１０＋ｑ_００ ……（２１）
ｑ_０１＝ａ_０１・ｂ_１１＋ｑ_０１ ……（２２）
ｑ_０２＝ａ_０１・ｂ_１２＋ｑ_０２ ……（２３）
ｑ_０３＝ａ_０１・ｂ_１３＋ｑ_０３ ……（２４）

以下同様であり、要素ａ_０２を受け取ったときには、この要素ａ_０２を４個の乗算器１０１〜１０４の第１のデータ入力端子に供給するとともに、要素ｂ_２ｊ（ｊ＝０〜３）を行列要素レジスタ１２０から読み出して乗算器１０１〜１０４の各々の第２のデータ入力端子に各々供給し、累算器１１１〜１１４の各レジスタ１２に書き込み信号ＷＲを送る。これにより、累算器１１１〜１１４では、下記式（２５）〜（２８）の累算が行われ、各式の左辺のｑ_０ｊ（ｊ＝０〜３）が出力される。
ｑ_００＝ａ_０２・ｂ_２０＋ｑ_００ ……（２５）
ｑ_０１＝ａ_０２・ｂ_２１＋ｑ_０１ ……（２６）
ｑ_０２＝ａ_０２・ｂ_２２＋ｑ_０２ ……（２７）
ｑ_０３＝ａ_０２・ｂ_２３＋ｑ_０３ ……（２８）

また、第０行の最後の要素ａ_０３を受け取ったときには、この要素ａ_０３を４個の乗算器１０１〜１０４の第１のデータ入力端子に供給するとともに、要素ｂ_３ｊ（ｊ＝０〜３）を行列要素レジスタ１２０から読み出して乗算器１０１〜１０４の各々の第２のデータ入力端子に各々供給し、累算器１１１〜１１４の各レジスタ１２に書き込み信号ＷＲを送る。これにより、累算器１１１〜１１４では、下記式（２９）〜（３２）の累算が行われ、各式の左辺のｑ_０ｊ（ｊ＝０〜３）が出力される。
ｑ_００＝ａ_０３・ｂ_３０＋ｑ_００ ……（２９）
ｑ_０１＝ａ_０３・ｂ_３１＋ｑ_０１ ……（３０）
ｑ_０２＝ａ_０３・ｂ_３２＋ｑ_０２ ……（３１）
ｑ_０３＝ａ_０３・ｂ_３３＋ｑ_０３ ……（３２）

このようにして、前掲式（１）〜（４）に示す行列Ｑの第０行の要素ｑ_０ｊ（ｊ＝０〜３）が累算器１１１〜１１４から得られる。そこで、制御部１４０は、累算器１１１〜１１４から得られた要素ｑ_０ｊ（ｊ＝０〜３）を結果格納部１３０に格納する。

そして、制御部１４０は、行を順次変え、以上説明した行列Ｑの第０行の場合と同様に、行列Ｑの第１行の要素ｑ_１ｊ（ｊ＝０〜３）を得るための制御、第２行の要素ｑ_１ｊ（ｊ＝０〜３）を得るための制御、第３行の要素ｑ_１ｊ（ｊ＝０〜３）を得るための制御を実行する。このような制御により、乗算結果である行列Ｑの全行の要素ｑ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）が結果格納部１３０に得られる。制御部１４０は、この結果格納部１３０から行列Ｑの要素ｑ_ｉｊ（ｉ＝０〜３、ｊ＝０〜３）を順次読み出して、ＣＰＵ２００に送る。

以上説明した本実施形態によれば、行列演算コプロセッサ１００が４行４列の行列ＡおよびＢの乗算処理を行う場合において、１つのクロックに同期して１個の要素をＣＰＵ２００から受け取るとすると、所要クロック数は次のようになる。まず、行列要素レジスタ１２０に行列Ｂの全要素を格納するための所要クロック数が１６クロックとなる。次に乗算結果である行列Ｑの１行分の４個の要素を算出するための所要クロック数は４クロックとなる。従って、行列Ｑの全要素（すなわち、４行分の要素）を算出するための所要クロック数は１６クロックとなる。よって、行列乗算処理が終了するまでの所要クロック数は３２クロックとなる。このように本実施形態によれば、１つのクロックに同期して１個の要素しかＣＰＵ２００から受け取ることができない状況においても、少ない所要クロック数で行列乗算処理を実行することができる。また、画像処理においては、乗算対象である２個の行列のうちの一方の内容を固定し、他方の内容を切り換えて、行列乗算処理を繰り返す場合がある。そのような場合、本実施形態では、内容を固定する行列の要素を行列要素レジスタ１２０に格納してしまえば、再度、ＣＰＵ２００から受け取る必要がないので、さらに行列乗算処理を高速化することができる。

以上、この発明の一実施形態について説明したが、この発明には他にも実施形態があり得る。例えば次の通りである。
（１）上記実施形態では、乗算結果である行列Ｑの要素を行毎に順次算出するようにしたが、列毎に順次算出するようにしてもよい。
（２）上記実施形態では、４行４列の行列同士の乗算処理を行ったが、乗算処理の対象となる行列の規模は任意である。

この発明の一実施形態である行列演算コプロセッサ１００の構成を示すブロック図である。

符号の説明

２００……ＣＰＵ、１００……行列演算コプロセッサ、１０１〜１０４……乗算器、１１１〜１１４……累算器、１１……加算器、１２……レジスタ、１２０……行列要素レジスタ、１３０……結果格納部、１４０……制御部。

Claims

プロセッサから乗算対象である２つの行列の要素を受け取って行列乗算を行う行列演算コプロセッサにおいて、
各々第１のデータ入力端子に与えられるデータと第２のデータ入力端子に与えられるデータとを乗算する複数の乗算器と、
前記複数の乗算器による各乗算結果の累算を各々行う複数の累算器と、
乗算対象である２つの行列のうちの一方の行列の要素を記憶する行列要素レジスタと、
前記２つの行列の乗算結果である行列の要素を前記複数の累算器から行毎にまたは列毎に順次得るための制御を行う手段であって、前記乗算結果である行列の１行分または１列分の要素を前記複数の累算器から得るために、前記複数の累算器の累算値を予め初期化した後、前記乗算対象である２つの行列のうちの他方の行列の１行分または１列分の要素を前記プロセッサから１個ずつ順次受け取り、１個の要素を受け取る毎に、受け取った要素を前記複数の乗算器の第１のデータ入力端子に供給するとともに、前記乗算結果である行列の１行分または１列分の要素を得るための演算において当該要素を共通の乗算相手とする１行分または１列分の要素を前記行列要素レジスタから読み出して前記複数の乗算器の各々の第２のデータ入力端子に各々供給し、前記複数の乗算器から得られる各乗算結果の累算を前記複数の累算器に各々行わせる制御手段と
を具備することを特徴とする行列演算コプロセッサ。