JPH06175986A

JPH06175986A - 行列演算の並列処理方法

Info

Publication number: JPH06175986A
Application number: JP33014092A
Authority: JP
Inventors: Tsutomu Ishikawa; 勉石川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1992-12-10
Filing date: 1992-12-10
Publication date: 1994-06-24

Abstract

(57)【要約】【目的】行列とベクトルの積の繰り返し演算を高速処
理する方法を提供する。【構成】複数の処理要素をｐ行ｑ列の２次元トーラス
状に結合した並列計算機を用いてｍ行ｎ列より成る行列
とｎ個の要素より成るベクトルの積を繰り返し演算する
演算処理において、処理要素の各々には行列の行方向お
よび列方向をそれぞれｐ分割、ｑ分割して形成した行列
の要素とｑ分割したベクトルの要素を割り付け、割り付
けられた要素に対応する行の部分積和の総和の計算を処
理要素の各々に均等に担当させ、処理要素の各々におい
て割り付けられた行列とベクトルの要素間について部分
積和を計算し、一回の行列とベクトルの積の演算処理を
完了して結果のベクトルを得、次の行列と結果のベクト
ルの積の演算は行列を転置し行と列を入れ換えて上述さ
れた演算処理を実行する行列演算の並列処理方法。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、行列演算の並列処理
方法に関し、特に、各種のニューラルネットその他の演
算において必須の行列演算、例えば行列とベクトルの積
の繰り返し演算処理を２次元トーラス結合型並列計算機
により高速処理する行列演算の並列処理方法に関する。

【０００２】

【従来の技術】２次元トーラス結合型並列計算機により
行列とベクトルの積を繰り返し演算処理する並列処理方
法の従来例を図を参照して説明する。ここで、２次元ト
ーラス結合とは図１に示される如く２次元アレイ状に並
べられた処理要素（以下、ＰＥと称す）間を行方向およ
び列方向の双方共にリング状に結合した形態をいう。演
算処理されるべき行列Ａはｍ行ｎ列、即ちｍｎ個の要素
から成り、ベクトルＸはｎ個の要素から成るものとす
る。そして、並列計算機であるＰＥアレイはｐ行ｑ列、
即ちｐｑ個のＰＥから成るものとする。

【０００３】図２を参照するに、行列Ａを行方向、列方
向にそれぞれｐ分割、ｑ分割する。この様にして得られ
た（ｍ／ｐ）×（ｎ／ｑ）個の要素からなる小行列Ａ_ij
（以下、部分行列、と称す）を対応する位置のＰＥに割
り当てる。即ち、左からｊ番目で上からｉ番目の部分行
列は同じく左からｊ番目で上からｉ番目のＰＥに割り当
てる。そして、ベクトルＸはｑ分割し、得られたｎ／ｑ
個の要素からなる小ベクトルＸ_i（以下、部分ベクト
ル、と称す）を対応する各列のＰＥ全部に割り当てる。
即ち、上からｉ番目の部分ベクトルは左からｉ番目の列
の全ＰＥに割り当てる。この様に割り当てられた状態を
図３に示す。

【０００４】行列ＡとベクトルＸの積の演算は、上述の
状態を実現して以下の過程により並列的に実行される。過程ｉ) 全てのＰＥは割り当てられた部分行列と部分
ベクトルの積を計算する。この結果、ｍ／ｐ個の要素か
らなる小ベクトルが得られる。この要素を部分積和と称
す。

【０００５】過程ii) 各ＰＥは過程ｉ)により得られた
部分積和を行方向の隣接ＰＥに転送する。過程iii) 各ＰＥは、自身の計算結果である部分積和に
隣接ＰＥから転送されてきた部分積和を順次加算し、転
送されてきた部分積和はそのまま隣接ＰＥに転送する。

【０００６】過程iv) 行方向の各ＰＥにおいて部分積
和の総和が得られるまで過程iii)を繰り返す。ここで、例えば行列の上からｍ／ｐ個の行とベクトルの
内積についてみると、これはＰＥアレイの最初の行の全
ＰＥにおいて同時に得られる。この段階においては、ｍ
行ｎ列の行列とベクトルの積の演算が完了し、その結果
（ｍ個の要素からなるベクトルＹ；各要素は内積）はＰ
Ｅアレイの各行に分散して得られる（各行のＰＥはｍ／
ｐ個の要素を持つ）。以上の過程ｉ)ないし過程iv)によ
り、結局、部分積和の総和である行列の各行（行ベクト
ル）とベクトルの内積（ｍ／ｐ個）が、ＰＥアレイの対
応する行の全ＰＥで同時に得られることになる。しか
し、このときＰＥアレイの行方向の各ＰＥは部分積和の
総和の計算を重複して行っている。

【０００７】次に、行列Ｂ（ｈ行ｍ列）と上述のベクト
ルＹ（ｍ個の要素）の積の演算について説明するに、先
ず行列Ｂを転置し（ｍ行ｈ列となる）、その転置行列を
行方向および列方向にそれぞれｐ分割、ｑ分割し、部分
行列Ｂ_ijを上述された割り当てと同様にＰＥに割り当て
る。ベクトルＹについては直前の行列とベクトルの積の
結果（過程iv)の後）として自動的に、ｍ／ｐ個の要素
からなる部分ベクトルＹ_iが対応する各行のＰＥ全部に
割り当てられている。この様に割り当てられた状態は図
４に示される通りである。図４の如くに割り当てられて
いる部分行列と部分ベクトルに対して、上述の過程i)な
いし過程iv)の処理を行と列を入れ換えて実行すると
（列方向に部分積和を転送）、この行列とベクトルの積
ＺはＰＥアレイの各列に分散して得られることになる。
更に、次の行列と以上で得られたベクトルの積は最初の
手順により得られることになる。即ち、以上の手順を交
互に繰り返すことにより行列とベクトルの積の繰り返し
演算が実現される。

【０００８】

【発明が解決しようとする課題】以上のことから、従来
の行列演算の並列処理方法は、行列とベクトルの積の演
算の内の過程ｉ)の部分においてのみ全ＰＥが並列的に
演算処理を実施しているに過ぎず、その他の部分である
過程ii)ないし過程iv)においては行或は列方向のＰＥの
数の並列性しか得られなかった。即ち、過程ii)ないし
過程iv)においては、行あるいは列方向の全てのＰＥは
全く同一の重複した演算処理を実行している。具体的に
は行列の各行とベクトルの内積である部分積和を総和す
る演算処理はこれらのＰＥ全てが実行している。等価的
には、ｐｑ個のＰＥの内のｐ個あるいはｑ個のＰＥのみ
しか有効に機能していないことになり、ＰＥの利用効率
は良くない。また、ｍ／ｐ個の部分積和をリング結合上
における距離（ｑ−１）のＰＥまで送る必要があるの
で、ＰＥ間転送回数も（ｍ／ｐ）×（ｑ−１）回という
多数回にも上り、ＰＥ数に見合った速度向上が得られて
いなかった。

【０００９】この発明は、ＰＥが重複した演算処理を行
なうことなく全ＰＥが並列に動作してＰＥの利用効率が
高く、且つ、ＰＥ間転送回数を少なく行列とベクトルの
積の繰り返し演算処理を高速に実行する行列演算の並列
処理方法を提供するものである。

【００１０】

【課題を解決するための手段】複数の処理要素をｐ行ｑ
列の２次元トーラス状に結合した並列計算機を用いてｍ
行ｎ列より成る行列とｎ個の要素より成るベクトルの積
を繰り返し演算する行列演算の並列処理方法において、
処理要素の各々は、行列の行方向および列方向をそれぞ
れｐ分割、ｑ分割して形成した（ｍ／ｐ）×（ｎ／ｑ）
個の行列の要素とｑ分割した（ｎ／ｑ）個のベクトルの
要素を割り付け、割り付けられた要素に対応する行の部
分積和の総和の計算を処理要素の各々に均等に担当させ
る第１の過程と、処理要素の各々において割り付けられ
た行列とベクトルの要素間について部分積和を計算する
第２の過程と、行方向のリング状結合処理要素を用いて
左（或は右）の処理要素が総和の計算を担当する行の部
分積和を右（或は左）隣の処理要素に転送する第３の過
程と、転送されてきた部分積和と自処理要素内のそれと
同一の行の部分積和の和を演算してその結果を隣接処理
要素に転送する第４の過程と、第４の過程を各行の部分
積和の総和が得られるまで繰り返す第５の過程と、得ら
れた結果を行方向のリング状結合処理要素を用いて行方
向の全ての処理要素に順次転送する第６の過程とを具備
し、一回の行列とベクトルの積の演算処理を完了して結
果のベクトルを得、次の行列と結果のベクトルの積の演
算は、行列を転置し行と列を入れ換えて上述された第１
の過程ないし第６の過程を実行する、行列演算の並列処
理方法を構成した。

【００１１】この様な行列とベクトルの要素の割りつ
け、総和計算の割りつけ、処理手順を採用することによ
り全ての処理は全ＰＥで重複することなく並列的に行わ
れることになる。即ち、部分積和の総和（行列の行とベ
クトルの内積）は各ＰＥで重複することなく計算され、
必要とされるＰＥ間転送の回数は従来の方法と比較して
大きく減少する。

【００１２】

【実施例】この発明の実施例を図５を参照して説明す
る。説明を簡単化するために、ｍ＝ｎ＝ｈ＝９、ｐ＝ｑ
＝３とし、３行３列のＰＥアレイにより先ず９行９列の
行列Ａと９個の要素のベクトルＸの積を計算し、次い
で、同様に９行９列の行列Ｂと先の行列ＡとベクトルＸ
の積である９個の要素より成るベクトルＹの積を計算す
る例について説明する。

【００１３】先ず、行列ＡとベクトルＸの積の演算処理
について説明する。９行９列の行列Ａを行方向および列
方向とも３分割して部分行列Ａ_ijを形成し、ベトクルＸ
を３分割して部分ベクトルＸ_iを形成し、図５の如く各
ＰＥに割りつける。図５において、ＰＥ_ijは第ｉ行、第
ｊ列のＰＥを表す。割りつけられた要素に対応する第ｉ
行の部分積和の総和（行列の行ベクトルとベクトルの内
積であり、ｙ_iで表す）の演算処理は各ＰＥに均等に担
当させる。具体的には、ＰＥ₁₁にｙ₁、ＰＥ₁₂にｙ₂、
ＰＥ₁₃にｙ₃、ＰＥ₂₁にｙ₄、ＰＥ₂₂にｙ₅、ＰＥ₂₃に
ｙ₆、ＰＥ₃₁にｙ₇、ＰＥ₃₂にｙ₈、ＰＥ₃₃にｙ₉をそ
れぞれ担当させる。

【００１４】この様な割り付けにおいて、各ＰＥは、先
ず、割りつけられた行列とベクトルの要素間の部分積和
を計算する。例えば、ＰＥ₁₁は、ａ₁₁×ｘ₁＋ａ₁₂×ｘ₂＋ａ₁₃×ｘ₃＝ｙ₁₁ ａ₂₁×ｘ₁＋ａ₂₂×ｘ₂＋ａ₂₃×ｘ₃＝ｙ₂₁ ａ₃₁×ｘ₁＋ａ₃₂×ｘ₂＋ａ₃₃×ｘ₃＝ｙ₃₁ を計算して部分積和ｙ₁₁を求める（一般に、ｙ_ijはｊ列
目のＰＥが担当する行列のｉ行目の部分積和を表す）。
同様に、ＰＥ₁₂は、ａ₁₄×ｘ₄＋ａ₁₅×ｘ₅＋ａ₁₆×ｘ₆＝ｙ₁₂ ａ₂₄×ｘ₄＋ａ₂₅×ｘ₅＋ａ₂₆×ｘ₆＝ｙ₂₂ ａ₃₄×ｘ₄＋ａ₃₅×ｘ₅＋ａ₃₆×ｘ₆＝ｙ₃₂ 同様に、同じく、ＰＥ₁₃は、ａ₁₇×ｘ₇＋ａ₁₈×ｘ₈＋ａ₁₉×ｘ₉＝ｙ₁₃ ａ₂₇×ｘ₇＋ａ₂₈×ｘ₈＋ａ₂₉×ｘ₉＝ｙ₂₃ ａ₃₇×ｘ₇＋ａ₃₈×ｘ₈＋ａ₃₉×ｘ₉＝ｙ₃₃ を計算する。これらの計算は全ＰＥで同時に並列的に行
われる（従来例の過程ｉ)に対応）。

【００１５】次に、過程ii)ないし過程iv)の処理を第１
行のＰＥ_1jの場合について、図６を参照して説明する。
なお、説明は省略するが他の行のＰＥについても同様で
ある。ＰＥ_1jの初期の状態は図６（イ）の状態である。
各ＰＥ_1jは行方向のリング状結合を用い、左隣のＰＥ_1j
が総和の計算を担当する行の部分積和を右隣りのＰＥに
転送する（逆方向でも可）。図６（イ）および（ロ）を
参照するに、ＰＥ₁₁はその左隣のＰＥであるＰＥ₁₃（リ
ング状結合なので左隣のＰＥはＰＥ₁₃である）が総和を
担当する３行目の部分積和ｙ₃₁を、右隣りのＰＥである
ＰＥ₁₂に転送する。同様に、ＰＥ₁₂、ＰＥ₁₃はそれぞれ
ｙ₁₂、ｙ₂₃をそれぞれＰＥ₁₃、ＰＥ₁₁に転送する。これ
らの転送は同時に行われる（従来例の過程ii)に対
応）。次に図６（ハ）を参照するに、各ＰＥ_1jは転送
されてきた部分積和と自身のＰＥ内のそれと同一行の部
分積和の和をとり、その結果を隣接ＰＥに転送する。即
ち、ＰＥ₁₁は、ｙ₂₃が送られてくるのでこれに同一行で
ある２行目の部分積和ｙ₂₁を加算し、その結果を隣接Ｐ
ＥであるＰＥ₁₂へ転送する。同様に、ＰＥ₁₂はｙ₃₁にｙ
₃₂を加算してＰＥ₁₃に転送し、ＰＥ₁₃はｙ₁₂にｙ₁₃を加
算してＰＥ₁₁に転送する（従来例の過程iii)に対応）。
これらの処理を各行の部分積和の総和（内積）が得られ
るまで繰り返す。この例の場合、図６（ニ）に示される
如く、ＰＥ₁₁、ＰＥ₁₂、ＰＥ₁₃は、送られてきた加算結
果にそれぞれｙ₁₁、ｙ₂₂、ｙ₃₃を加算することにより、
部分積和の総和ｙ₁、ｙ₂、ｙ₃をそれぞれのＰＥに得
ることになる（従来例の過程iv)に対応）。この段階に
おいて、行列ＡとベクトルＸの積の演算が終了し、その
結果（行列の各行とベクトルの内積であり、９個の要
素）は全ＰＥに分散して配置されることになる。そし
て、以上の説明から明かな如く、処理は全ＰＥで重複す
ることなく並列的に行われ、必要なＰＥ間転送回数はこ
の例においては２回である（一般に、（１行のＰＥ数−
１）×（１ＰＥが担当するｙ_iの数）＝（ｑ−１）ｍ／
（ｐｑ）回）。

【００１６】次に、分散して配置されている行列とベク
トルの積の演算結果を行方向のリング状結合を用い、行
方向の全ＰＥに順次転送する。具体的には、この例にお
ける第１行目のＰＥについて説明すると、まずＰＥ₁₁、
ＰＥ₁₂、ＰＥ₁₃はそれぞれ内積ｙ₁、ｙ₂、ｙ₃を隣接
ＰＥであるＰＥ₁₂、ＰＥ₁₃、ＰＥ₁₁に転送する。これら
ＰＥ₁₁、ＰＥ₁₂、ＰＥ₁₃は送られてきた内積ｙ₃、
ｙ₁、ｙ₂を再び隣接ＰＥに転送する。一般に、この転
送は行方向の全ＰＥに各ＰＥの有する内積が行き渡るま
で繰り返される。この段階で、第１行目の各ＰＥはすべ
てｙ₁、ｙ₂、ｙ₃を持つことになる。これは他の行に
ついても同様である。即ち、ＰＥアレイの各行のＰＥは
行方向のリング状結合を用い、自身の持つ内積を行方向
の隣接ＰＥに２回転送すると、同一行のＰＥは３個づつ
の同じ内積をもつことになる。この転送回数は一般に
は、（１行のＰＥ数−１）×（１ＰＥが担当するｙ_iの
数）＝（ｑ−１）ｍ／（ｐｑ）回である。即ち、この発
明は行列とベクトルの積の演算に必要となるＰＥ間転送
回数は１演算当たり総計２（ｑ−１）ｍ／（ｐｑ）回と
少ない。この段階において、次の行列Ｂとこの演算結果
であるベクトルＹの積の演算のための準備が整ったこと
になる（従来例の過程ｖ)に対応）。

【００１７】次に、行列ＢとベクトルＹの積の演算処理
は、行列Ｂを転置して、上述の処理において行と列を入
れ換えて実行する。図７を参照するに、先ず、９行９列
の行列Ｂを転置し、行方向および列方向の双方向共に３
分割して部分行列Ｂ_ijを形成し、各ＰＥに割りつける。
ベクトルＹは先の演算処理により自動的に同図のように
配置されている。割りつけられた要素に対応する行の部
分積和の総和（第ｉ行の総和をｚ_iで表す）の計算は、
ＰＥ₁₁にｚ₁、ＰＥ₁₂にｚ₄、ＰＥ₁₃にｚ₇、ＰＥ₂₁に
ｚ₂、ＰＥ₂₂にｚ₅、ＰＥ₂₃にｚ₈、ＰＥ₃₁にｚ₃、Ｐ
Ｅ₃₂にｚ₆、ＰＥ₃₃にｚ₉をそれぞれ担当させる。この
割り付けにおいて、各ＰＥは、先ず割りつけられた行列
とベクトルの要素間の部分積和を計算する。例えば、Ｐ
Ｅ₁₁は、ｂ₁₁×ｙ₁＋ｂ₁₂×ｙ₂＋ｂ₁₃×ｙ₃＝ｚ₁₁ ｂ₂₁×ｙ₁＋ｂ₂₂×ｙ₂＋ｂ₂₃×ｙ₃＝ｚ₂₁ ｂ₃₁×ｙ₁＋ｂ₃₂×ｙ₂＋ｂ₃₃×ｙ₃＝ｚ₃₁ を計算し、その結果を部分積和ｚ₁₁（ｚ_ijはｊ列目のＰ
Ｅが担当する転置する前の行列のｉ行目の部分積和を表
す）に格納する。同様に、ＰＥ₂₁は、ｂ₁₄×ｙ₄＋ｂ₁₅×ｙ₅＋ｂ₁₆×ｙ₆＝ｚ₁₂ ｂ₂₄×ｙ₄＋ｂ₂₅×ｙ₅＋ｂ₂₆×ｙ₆＝ｚ₂₂ ｂ₃₄×ｙ₄＋ｂ₃₅×ｙ₅＋ｂ₃₆×ｙ₆＝ｚ₃₂ を計算する。

【００１８】次に、過程ii)ないし過程iv)の処理を行と
列を入れ換えて図６と同様に実行する。各ＰＥは列方向
のリング状結合を用い、上隣のＰＥが総和の計算を担当
する行の部分積和を下隣りのＰＥに転送する（逆方向も
可）。例えば、第１列目のＰＥについては、ＰＥ₁₁は、
その上隣のＰＥであるＰＥ₃₁（リング状結合なので上隣
のＰＥはＰＥ₃₁である）が総和を担当する行である３行
目の部分積和ｚ₃₁を下隣りのＰＥであるＰＥ₂₁に転送す
る。同様に、ＰＥ₂₁、ＰＥ₃₁はそれぞれｚ₁₂、ｚ₂₃をそ
れぞれＰＥ₃₁、ＰＥ₁₁に転送する。

【００１９】次に、各ＰＥは転送されてきた部分積和と
自身のそれと同一の行の部分積和の和をとり、その結果
を隣接ＰＥに転送する。即ち、ＰＥ₁₁は、ｚ₂₃が送られ
てくるので、それと同一の行である２行目の部分積和ｚ
₂₁を加算し、その結果を隣接ＰＥであるＰＥ₂₁へ転送す
る。同様にＰＥ₂₁はｚ₃₁にｚ₃₂を加算してＰＥ₃₁に転送
し、ＰＥ₃₁はｚ₁₂にｚ₁₃を加算してＰＥ₁₁に転送する。
この処理を各行の部分積和の総和（内積）が得られるま
で繰り返す。この例の場合、ＰＥ₁₁、ＰＥ₂₁、ＰＥ
₃₁は、送られてきた加算結果にそれぞれｚ₁₁、ｚ₂₂、ｚ
₃₃を加算することにより、部分積和の総和ｚ₁、ｚ₂、
ｚ₃をそれぞれのＰＥ内に得ることになる。この段階に
おいて、行列ＢとベクトルＹの積の演算処理は完了し、
その結果は全ＰＥに分散して配置されたこととなる。

【００２０】次に、分散配置されている行列とベクトル
の積の演算結果を列方向のリング状結合を用い、上述と
同様に列方向の全ＰＥに順次転送する。この段階におい
て、次の行列とこの演算結果であるベクトルＺの積の演
算処理の準備が整ったことになり、以後同様の演算処理
を繰り返す。即ち、以上の処理を交互に繰り返すことに
より、行列とベクトルの積の繰り返し演算が実行される
こととなる。

【００２１】説明を簡単化するためにｍ＝ｎ＝ｈ＝９、
ｐ＝ｑ＝３の例を採用して説明したのであるが、ｍ、
ｎ、ｈおよびｐ、ｑは互いに異なる数値であっても差し
支えないことは言うまでもない。

【００２２】

【発明の効果】この発明は、以上の通りのＰＥに対する
行列とベクトルの要素の割りつけおよび演算処理手順を
採用することにより、部分積和の計算を含めて全ての処
理を重複することなく並列的に実行するものであり、そ
して必要とされるＰＥ間転送回数も従来例と比較して大
幅に削減することができる。従って、ＰＥの使用効率が
高く高速な演算処理を行列とベクトルの積の繰り返し演
算についてが実現することができる。この種の演算はニ
ューラルネットの演算処理の大部分を占めるところか
ら、この発明をニューラルコンピュータに適用して大き
な効果を期待することができる。

【図面の簡単な説明】

【図１】並列計算機（ＰＥアレイ）を示す図。

【図２】行列とベクトルの分割の仕方を示す図。

【図３】部分行列と部分ベクトルのＰＥアレイへの割り
つけの仕方を示す図。

【図４】部分行列と部分ベクトルのＰＥアレイへの割り
つけを示す図。

【図５】最初の行列とベクトルの積の演算の場合の部分
行列と部分ベクトルのＰＥアレイへの割りつけを示す
図。

【図６】部分積和の総和の計算手順を示す図。

【図７】次の行列とベクトルの積の演算の場合の部分行
列と部分ベクトルのＰＥアレイへの割りつけ示す図。

【符号の説明】

ＰＥ処理要素Ａｍ行ｎ列より成る行列Ｘｎ個の要素より成るベクトルＡ_ij 部分行列Ｘ_j部分ベクトル

Claims

【特許請求の範囲】

【請求項１】複数の処理要素をｐ行ｑ列の２次元トー
ラス状に結合した並列計算機を用いてｍ行ｎ列より成る
行列とｎ個の要素より成るベクトルの積を繰り返し演算
する行列演算の並列処理方法において、処理要素の各々は、行列の行方向および列方向をそれぞれｐ分割、ｑ分割し
て形成した（ｍ／ｐ）×（ｎ／ｑ）個の行列の要素とｑ
分割した（ｎ／ｑ）個のベクトルの要素を割り付け、割
り付けられた要素に対応する行の部分積和の総和の計算
を処理要素の各々に均等に担当させる第１の過程と、処理要素の各々において割り付けられた行列とベクトル
の要素間について部分積和を計算する第２の過程と、行方向のリング状結合処理要素を用いて左（或は右）の
処理要素が総和の計算を担当する行の部分積和を右（或
は左）隣の処理要素に転送する第３の過程と、転送されてきた部分積和と自処理要素内のそれと同一の
行の部分積和の和を演算してその結果を隣接処理要素に
転送する第４の過程と、第４の過程を各行の部分積和の総和が得られるまで繰り
返す第５の過程と、得られた結果を行方向のリング状結合処理要素を用いて
行方向の全ての処理要素に順次転送する第６の過程とを
具備し、一回の行列とベクトルの積の演算処理を完了して結果の
ベクトルを得、次の行列と結果のベクトルの積の演算は、行列を転置し
行と列を入れ換えて上述された第１の過程ないし第６の
過程を実行する、ことを特徴とする行列演算の並列処理方法。