JP2018197906A

JP2018197906A - 情報処理装置、マルチスレッド行列演算方法、およびマルチスレッド行列演算プログラム

Info

Publication number: JP2018197906A
Application number: JP2017101556A
Authority: JP
Inventors: 和明竹重; Kazuaki Takeshige
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-23
Filing date: 2017-05-23
Publication date: 2018-12-13
Anticipated expiration: 2037-05-23
Also published as: US20180341517A1; JP6907700B2; US10528384B2

Abstract

【課題】行列演算にかかる時間の低減化を図ること。【解決手段】情報処理装置１００は、行列Ｃを、行方向の先頭から、行方向にブロックサイズの倍数単位で４個に分割し、４個の第１部分行列Ｃ11，Ｃ12，Ｃ13，Ｃ14を特定する。情報処理装置１００は、行列Ｃのうち４個の第１部分行列Ｃ11，Ｃ12，Ｃ13，Ｃ14以外の領域を４個に分割し、４個の第２部分行列Ｃ21，Ｃ22，Ｃ23，Ｃ24を特定する。情報処理装置１００は、それぞれの第１部分行列Ｃ11，Ｃ12，Ｃ13，Ｃ14の各要素の値を生成する行列演算と、それぞれの第２部分行列Ｃ21，Ｃ22，Ｃ23，Ｃ24の各要素の値を生成する行列演算とを、それぞれのスレッドＴ１，Ｔ２，Ｔ３，Ｔ４に割り当てる。【選択図】図１

Description

本発明は、情報処理装置、マルチスレッド行列演算方法、およびマルチスレッド行列演算プログラムに関する。

従来、所定行列の各要素の値を生成する行列演算を複数のスレッドで並列に実行する技術がある。例えば、所定行列の各要素の値を生成する行列演算と等価である、所定行列を行方向または列方向に同程度の大きさに分割した複数の部分行列の各要素の値を生成する複数の行列演算を、複数のスレッドで並列して実行することがある。

先行技術としては、例えば、行列の行を分割した部分行ベクトルと、別の行列の列を分割した部分列ベクトルとの乗算を並列に実行し、乗算結果を加算し、部分積和演算結果を出力するものがある。また、例えば、ＬＵ分解のサイズから残りのＬＵ分解を高速にベクトル演算出来る様にブロック段数を調整する技術がある。

特開２００９−２４５３８１号公報特開平６−７５９８８号公報

しかしながら、従来技術では、スレッドが実行する行列演算にかかる時間の増大化を招いてしまう。例えば、複数の行列演算のいずれかの行列演算の実行効率が悪いと、複数のスレッドが実行する複数の行列演算全体にかかる時間の増大化を招いてしまう。

１つの側面では、本発明は、行列演算にかかる時間の低減化を図ることができる情報処理装置、マルチスレッド行列演算方法、およびマルチスレッド行列演算プログラムを提供することを目的とする。

１つの実施態様によれば、行列演算により各要素の値が生成される所定行列を、行方向と列方向との少なくともいずれかの方向の大きさが前記行列演算に用いられるレジスタ数に対応するブロックサイズの倍数分の大きさになる所定数の第１部分行列と、前記所定数の第１部分行列とは異なる前記所定数の第２部分行列とに分割し、分割した前記所定数の第１部分行列のそれぞれの第１部分行列の各要素の値を生成する行列演算と、分割した前記所定数の第２部分行列のそれぞれの第２部分行列の各要素の値を生成する行列演算とを、前記所定数のスレッドのそれぞれのスレッドに割り当てる情報処理装置、マルチスレッド行列演算方法、およびマルチスレッド行列演算プログラムが提案される。

本発明の一態様によれば、行列演算にかかる時間の低減化を図ることができるという効果を奏する。

図１は、実施の形態にかかるマルチスレッド行列演算方法の一実施例を示す説明図である。図２は、情報処理装置１００のハードウェア構成例を示すブロック図である。図３は、情報処理装置１００の機能的構成例を示すブロック図である。図４は、情報処理装置１００の複数のスレッドを用いた行列演算の流れを示す説明図（その１）である。図５は、情報処理装置１００の複数のスレッドを用いた行列演算の流れを示す説明図（その２）である。図６は、情報処理装置１００の複数のスレッドを用いた行列演算の流れを示す説明図（その３）である。図７は、情報処理装置１００の複数のスレッドを用いた行列演算の流れを示す説明図（その４）である。図８は、情報処理装置１００の複数のスレッドを用いた行列演算の流れを示す説明図（その５）である。図９は、情報処理装置１００の複数のスレッドを用いた行列演算の実施例を示す説明図（その１）である。図１０は、情報処理装置１００の複数のスレッドを用いた行列演算の実施例を示す説明図（その２）である。図１１は、情報処理装置１００の複数のスレッドを用いた行列演算の実施例を示す説明図（その３）である。図１２は、行列演算処理手順の一例を示すフローチャートである。

以下に、図面を参照して、本発明にかかる情報処理装置、マルチスレッド行列演算方法、およびマルチスレッド行列演算プログラムの実施の形態を詳細に説明する。

（実施の形態にかかるマルチスレッド行列演算方法の一実施例）
図１は、実施の形態にかかるマルチスレッド行列演算方法の一実施例を示す説明図である。情報処理装置１００は、所定数の行列演算を所定数のスレッドで並列に実行するコンピュータである。情報処理装置１００は、例えば、サーバ、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ノートＰＣ、タブレット端末、スマートフォン、ウェアラブル端末などである。

ここで、数値計算において行列演算が実行されることがある。例えば、密行列の連立一次方程式を解くための、ブロック化したＬＵ分解において、行列演算が実行されることがある。密行列は、非零要素が比較的多い行列である。これに対し、数値計算にかかる時間は膨大化する傾向があるため、数値計算にかかる時間の低減化を図るために、数値計算における行列演算にかかる時間の低減化を図ることが求められる。

例えば、所定行列の各要素の値を生成する行列演算を、複数のスレッドを用いて効率よく実現することが考えられる。具体的には、行列Ａと行列Ｂとの内積演算により行列Ｃの各要素の値を生成する行列演算と等価な、行列Ｃを行方向または列方向に同程度の大きさに分割した複数の部分行列の各要素の値を生成する複数の行列演算を、複数のスレッドで並列して実行することがある。行列Ａは、Ｍ×Ｋ行列であり、行列Ｂは、Ｋ×Ｎ行列であり、行列Ｃは、Ｍ×Ｎ行列である。ここで、ａ×ｂは、ａ行ｂ列であることを示す。

また、行列演算を実現する処理のうち、行列演算に用いるデータをメモリから読み出すロード処理と、行列演算を実行する演算処理とでは、ロード処理にかかる時間の方が大きくなる傾向がある。このため、メモリから読み出してキャッシュ、または、レジスタに保持したデータを、複数の演算処理に活用することができるように、行列演算に用いられる行列Ａや行列Ｂを所定ブロックサイズ単位で扱うことが好ましい。行方向の所定ブロックサイズと、列方向の所定ブロックサイズとは異なってもよい。

そこで、複数のスレッドのそれぞれのスレッドが実行する行列演算を効率化するために、複数のスレッドのそれぞれのスレッドに対してキャッシュブロッキングの技術、および、レジスタブロッキングの技術が適用される場合がある。キャッシュブロッキングの技術、および、レジスタブロッキングの技術は、行列演算に用いられる行列Ａや行列Ｂを所定ブロックサイズ単位で扱うための技術である。キャッシュブロッキングの技術、および、レジスタブロッキングの技術については、下記参考文献１を参照することができる。

参考文献１：Ｗｈａｌｅｙ，Ｒ．Ｃｌｉｎｔ，ＡｎｔｏｉｎｅＰｅｔｉｔｅｔ，ａｎｄＪａｃｋＪ．Ｄｏｎｇａｒｒａ． “ＡｕｔｏｍａｔｅｄｅｍｐｉｒｉｃａｌｏｐｔｉｍｉｚａｔｉｏｎｓｏｆｓｏｆｔｗａｒｅａｎｄｔｈｅＡＴＬＡＳｐｒｏｊｅｃｔ．” ＰａｒａｌｌｅｌＣｏｍｐｕｔｉｎｇ２７．１（２００１）：３−３５．

しかしながら、この場合であっても、いずれかの行列演算の実行効率が悪いことがあるため、いずれかの行列演算がボトルネックになってしまい、複数のスレッドで並列して実行する複数の行列演算全体にかかる時間の増大化を招いてしまうことがある。例えば、行列Ｃから分割された部分行列の行方向または列方向の大きさが、レジスタブロッキングの所定ブロックサイズ単位のサイズで割り切れる大きさではない場合に、その部分行列の各要素を生成する行列演算の実行効率が悪くなってしまう。

そこで、本実施の形態では、所定数のスレッドのそれぞれのスレッドに割り当てた行列演算にかかる時間の均一化を図ることにより、ボトルネックをなくして、所定数の行列演算全体にかかる時間の低減化を図るマルチスレッド行列演算方法について説明する。

図１において、情報処理装置１００は、所定数のスレッドを生成する。情報処理装置１００は、例えば、４個のスレッドＴ１〜Ｔ４を生成する。スレッドは、プログラムの実行単位である。スレッドは、割り当てられた行列演算を実行する。

（１−１）情報処理装置１００は、所定行列を、所定数の第１部分行列と、所定数の第１部分行列とは異なる所定数の第２部分行列とに分割する。所定行列は、行列演算により各要素の値が生成される行列である。所定行列は、例えば、内積演算により得られる行列である。図１の例では、所定行列は、行列Ａと行列Ｂとの内積演算により得られる行列Ｃである。

第１部分行列は、行方向と列方向との少なくともいずれかの方向の大きさが行列演算に用いられるレジスタ数に対応するブロックサイズの倍数分の大きさになる部分行列である。レジスタ数に対応するブロックサイズは、レジスタブロッキングの技術が適用され、行列を所定ブロックサイズ単位で扱う場合の、所定ブロックサイズである。第１部分行列は、所定数存在する。第２部分行列は、所定数存在する。

情報処理装置１００は、例えば、行列Ｃを、行方向の先頭から、行方向にブロックサイズの倍数単位で４個に分割し、４個の第１部分行列Ｃ₁₁，Ｃ₁₂，Ｃ₁₃，Ｃ₁₄を特定する。また、情報処理装置１００は、例えば、行列Ｃのうち４個の第１部分行列Ｃ₁₁，Ｃ₁₂，Ｃ₁₃，Ｃ₁₄以外の領域を４個に分割し、４個の第２部分行列Ｃ₂₁，Ｃ₂₂，Ｃ₂₃，Ｃ₂₄を特定する。また、情報処理装置１００は、４個の第２部分行列Ｃ₂₁，Ｃ₂₂，Ｃ₂₃，Ｃ₂₄を特定してから、４個の第１部分行列Ｃ₁₁，Ｃ₁₂，Ｃ₁₃，Ｃ₁₄を特定してもよい。

（１−２）情報処理装置１００は、所定数の第１部分行列のそれぞれの第１部分行列の各要素の値を生成する行列演算と、所定数の第２部分行列のそれぞれの第２部分行列の各要素の値とを生成する行列演算を、所定数のスレッドのそれぞれのスレッドに割り当てる。

情報処理装置１００は、例えば、第１部分行列Ｃ₁₁の各要素の値を生成する行列演算と、第２部分行列Ｃ₂₁の各要素の値を生成する行列演算とを、スレッドＴ１に割り当てる。情報処理装置１００は、例えば、第１部分行列Ｃ₁₂の各要素の値を生成する行列演算と、第２部分行列Ｃ₂₂の各要素の値を生成する行列演算とを、スレッドＴ２に割り当てる。情報処理装置１００は、例えば、第１部分行列Ｃ₁₃の各要素の値を生成する行列演算と、第２部分行列Ｃ₂₃の各要素の値を生成する行列演算とを、スレッドＴ３に割り当てる。情報処理装置１００は、例えば、第１部分行列Ｃ₁₄の各要素の値を生成する行列演算と、第２部分行列Ｃ₂₄の各要素の値を生成する行列演算とを、スレッドＴ４に割り当てる。

これにより、情報処理装置１００は、所定数のスレッドによって、所定行列の各要素の値を生成する行列演算と等価になる複数の行列演算を実行し、所定行列の各要素の値を生成することを可能にすることができる。情報処理装置１００は、それぞれのスレッドに割り当てた行列演算にかかる時間の均一化を図り、いずれかの行列演算がボトルネックになりづらくし、所定数の行列演算全体にかかる時間の低減化を図ることができる。

例えば、従来、所定行列を行方向に同程度の大きさに分割する場合、等分割することができない余りの列の各要素を生成する行列演算が、いずれかのスレッドに纏めて割り当てられ、ボトルネックになることがある。これに対し、情報処理装置１００は、所定行列のうち、第１部分行列とは異なる領域を、さらに第２部分行列に分割するため、それぞれのスレッドに割り当てた行列演算にかかる時間が均一化され、ボトルネックをなくすことができる。

ここでは、情報処理装置１００が、第１部分行列に、行方向と列方向との少なくともいずれかの方向の大きさがブロックサイズの倍数分の大きさになる部分行列を用いる場合について説明したが、これに限らない。例えば、情報処理装置１００が、所定行列の形状が、行方向にブロックサイズの倍数分の大きさにならない形状である傾向がある場合、第１部分行列に、行方向の大きさがブロックサイズの倍数分の大きさになる部分行列を用いるようにしてもよい。

また、例えば、情報処理装置１００が、所定行列の形状が、列方向にブロックサイズの倍数分の大きさにならない形状である傾向がある場合、第１部分行列に、列方向の大きさがブロックサイズの倍数分の大きさになる部分行列を用いるようにしてもよい。また、例えば、情報処理装置１００が、所定行列の形状に応じて、第１部分行列として、行方向の大きさがブロックサイズの倍数分の大きさになる部分行列と、列方向の大きさがブロックサイズの倍数分の大きさになる部分行列とを使い分ける場合があってもよい。

ここでは、情報処理装置１００が、第１部分行列の右側に第２部分行列が存在するように所定行列を分割する場合について説明したが、これに限らない。例えば、情報処理装置１００が、第２部分行列の右側に第１部分行列が存在するように所定行列を分割する場合があってもよい。また、情報処理装置１００が、第１部分行列の上側または下側に第２部分行列が存在するように所定行列を分割する場合があってもよい。

（情報処理装置１００のハードウェア構成例）
次に、図２を用いて、図１に示した情報処理装置１００のハードウェア構成例について説明する。

図２は、情報処理装置１００のハードウェア構成例を示すブロック図である。図２において、情報処理装置１００は、複数のコア２０１と、メモリ２０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２０３と、記録媒体Ｉ／Ｆ２０４と、記録媒体２０５とを有する。また、各構成部は、バス２００によってそれぞれ接続される。

ここで、いずれかのコア２０１は、情報処理装置１００の全体の制御を司る。それぞれのコア２０１は、演算装置２１１と、キャッシュ２１２と、レジスタ２１３とを有する。演算装置２１１は、所定処理を実行する。演算装置２１１は、例えば、行列演算を割り当てられたスレッドを実行する。キャッシュ２１２は、演算装置２１１が利用するデータを一時的に記憶する。レジスタ２１３は、演算装置２１１が読み出したデータを一時的に記憶する。

メモリ２０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがコア２０１のワークエリアとして使用される。メモリ２０２に記憶されるプログラムは、コア２０１にロードされることで、コーディングされている処理をコア２０１に実行させる。

ネットワークＩ／Ｆ２０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ２０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ２０３には、例えば、モデムやＬＡＮアダプタなどを採用することができる。

記録媒体Ｉ／Ｆ２０４は、コア２０１の制御に従って記録媒体２０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ２０４は、例えば、ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポートなどである。記録媒体２０５は、記録媒体Ｉ／Ｆ２０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体２０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体２０５は、情報処理装置１００から着脱可能であってもよい。

情報処理装置１００は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、マイク、スピーカーなどを有してもよい。また、情報処理装置１００は、記録媒体Ｉ／Ｆ２０４や記録媒体２０５を有していなくてもよい。

（情報処理装置１００の機能的構成例）
次に、図３を用いて、情報処理装置１００の機能的構成例について説明する。

図３は、情報処理装置１００の機能的構成例を示すブロック図である。図３に示すように、情報処理装置１００は、記憶部３００と、取得部３０１と、分割部３０２と、実行部３０３と、生成部３０４と、出力部３０５とを含む。

記憶部３００は、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域によって実現される。取得部３０１〜出力部３０５は、制御部となる機能である。取得部３０１〜出力部３０５は、具体的には、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域に記憶されたプログラムをコア２０１に実行させることにより、または、ネットワークＩ／Ｆ２０３により、その機能を実現する。各機能部の処理結果は、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域に記憶される。

記憶部３００は、分割部３０２が所定行列を分割する１以上の分割方法を記憶する。所定行列は、行列演算により各要素の値が生成される行列である。所定行列は、例えば、いくつかの行列を用いた行列演算により生成される。所定行列は、具体的には、第１行列と第２行列との内積演算により生成される。これにより、記憶部３００は、分割部３０２に１以上の分割方法を参照させることができ、分割部３０２に１以上の分割方法を使い分けさせることができる。

取得部３０１は、所定行列の各要素の値を生成する行列演算に用いる入力行列を取得する。取得部３０１は、例えば、所定行列の各要素の値を生成する内積演算に用いる第１行列と第２行列とを取得する。これにより、取得部３０１は、実行部３０３に入力行列を参照させ、実行部３０３に所定行列の各要素の値を生成させることができる。

分割部３０２は、所定行列を、所定数の第１部分行列と、所定数の第１部分行列とは異なる所定数の第２部分行列とに分割する。第１部分行列は、行方向と列方向との少なくともいずれかの方向の大きさが行列演算に用いられるレジスタ数に対応するブロックサイズの倍数分の大きさになる部分行列である。ブロックサイズは、例えば、レジスタブロッキングの技術における所定ブロックサイズである。第１部分行列は、所定数存在する。第２部分行列は、所定数存在する。

分割部３０２は、例えば、所定行列を、行方向の大きさがブロックサイズの倍数分の大きさになる所定数の第１部分行列と、所定数の第２部分行列とに分割する。これにより、分割部３０２は、所定行列の行方向の大きさがブロックサイズで割り切れない場合、所定数のスレッドに割り当てる行列演算全体にかかる時間を効率よく低減化することができる。

分割部３０２は、例えば、所定行列を、列方向の大きさがブロックサイズの倍数分の大きさになる所定数の第１部分行列と、所定数の第２部分行列とに分割する。これにより、分割部３０２は、所定行列の列方向の大きさがブロックサイズで割り切れない場合、所定数のスレッドに割り当てる行列演算全体にかかる時間を効率よく低減化することができる。

分割部３０２は、例えば、所定行列の行方向の大きさをブロックサイズで除算した第１剰余と、所定行列の列方向の大きさをブロックサイズで除算した第２剰余とを比較する。ここで、分割部３０２は、比較した結果、第１剰余が第２剰余より小さい場合、所定行列を、行方向の大きさがブロックサイズの倍数分の大きさになる所定数の第１部分行列と、所定数の第２部分行列とに分割する。

一方で、分割部３０２は、比較した結果、第１剰余が第２剰余より大きい場合、所定行列を、列方向の大きさがブロックサイズの倍数分の大きさになる所定数の第１部分行列と、所定数の第２部分行列とに分割する。これにより、分割部３０２は、所定行列を分割する分割方法を使い分け、所定数のスレッドに割り当てる行列演算全体にかかる時間を効率よく低減化することができる。

実行部３０３は、所定数の第１部分行列のそれぞれの第１部分行列の各要素の値を生成する行列演算と、所定数の第２部分行列のそれぞれの第２部分行列の各要素の値を生成する行列演算とを、所定数のスレッドのそれぞれのスレッドに割り当てる。実行部３０３は、例えば、ｎ個の第１部分行列のそれぞれの第１部分行列の各要素の値を生成する行列演算と、ｎ個の第２部分行列のそれぞれの第２部分行列の各要素の値を生成する行列演算とを、ｎ個のスレッドのそれぞれのスレッドに割り当てる。これにより、実行部３０３は、それぞれのスレッドに割り当てた行列演算にかかる時間の均一化を図り、所定数の行列演算全体にかかる時間の低減化を図ることができる。

生成部３０４は、それぞれのスレッドから、それぞれの第１部分行列の各要素の値と、それぞれの第２部分行列の各要素の値とを取得する。そして、生成部３０４は、取得したそれぞれの第１部分行列の各要素の値と、取得したそれぞれの第２部分行列の各要素の値とを組み合わせて、所定行列の各要素の値を生成する。これにより、生成部３０４は、所定行列の各要素の値を生成する行列演算を実質的に実行完了することができる。

出力部３０５は、生成部３０４が生成した所定行列を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ２０３による外部装置への送信、または、メモリ２０２や記録媒体２０５などの記憶領域への記憶である。出力部３０５は、各機能部の処理結果を出力してもよい。これにより、出力部３０５は、情報処理装置１００の利用者に、生成部３０４が生成した所定行列、または各機能部の処理結果などを利用させることができる。また、出力部３０５は、他のプログラムに、生成部３０４が生成した所定行列、または各機能部の処理結果などを利用させることができる。

（情報処理装置１００の複数のスレッドを用いた行列演算の流れ）
次に、図４〜図８を用いて、情報処理装置１００の複数のスレッドを用いた行列演算の流れについて説明する。

図４〜図８は、情報処理装置１００の複数のスレッドを用いた行列演算の流れを示す説明図である。図４において、情報処理装置１００は、行列Ａと行列Ｂとの内積演算によって各要素が生成される行列Ｃを、部分行列Ｃ₁と部分行列Ｃ₂とに分割する。

ここで、部分行列Ｃ₁は、行方向のｉ１列目を先頭にして、行方向の大きさｎ１が、（ｎｔｈ×ｎｒｂ）の倍数分の大きさになる部分行列である。ｉ１は、１である。ｎｔｈは、スレッド数である。ｎｒｂは、ブロックサイズである。ｎ１は、例えば、Ｎ−ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）によって算出することができる。ＭＯＤ（ａ，ｂ）は、剰余を算出する関数であり、ａをｂで除算した場合の余りを示す。

部分行列Ｃ₂は、行方向のｉ２列目を先頭にして、行方向の大きさｎ２が、Ｎを（ｎｔｈ×ｎｒｂ）で除算した余りの分の大きさになる部分行列である。ｉ２は、Ｎ−ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）＋１である。ｎ２は、例えば、ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）によって算出することができる。ここで、図５の説明に移行する。

図５において、情報処理装置１００は、部分行列Ｃ₁を行方向にスレッド数ｎｔｈで分割し、行方向の大きさがブロックサイズｎｒｂの倍数分の大きさである部分行列Ｃ₁₁，Ｃ₁₂，Ｃ₁₃，Ｃ₁₄を特定する。部分行列Ｃ₁₁，Ｃ₁₂，Ｃ₁₃，Ｃ₁₄の行方向の大きさは、（Ｎ−ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ））／ｎｔｈである。情報処理装置１００は、部分行列Ｃ₁₁，Ｃ₁₂，Ｃ₁₃，Ｃ₁₄の各要素の値を生成する行列演算を、ｎｔｈ個のスレッドのそれぞれのスレッドに割り当てる。ここで、図６の説明に移行する。

図６において、情報処理装置１００は、部分行列Ｃ₂を列方向にスレッド数ｎｔｈで分割し、列方向の大きさが同程度の大きさである部分行列Ｃ₂₁，Ｃ₂₂，Ｃ₂₃，Ｃ₂₄を特定する。部分行列Ｃ₂₁，Ｃ₂₂，Ｃ₂₃，Ｃ₂₄の行方向の大きさは、ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）である。情報処理装置１００は、部分行列Ｃ₂₁，Ｃ₂₂，Ｃ₂₃，Ｃ₂₄の各要素の値を生成する行列演算を、ｎｔｈ個のスレッドのそれぞれのスレッドに割り当てる。

図６の例では、斜線部分は、行方向にブロックサイズ単位で割った場合に、割り切ることができない余りの列であり、斜線部分の各要素の値を生成する行列演算の効率は、他の部分の各要素を生成する行列演算に比べて悪い傾向がある。これに対し、情報処理装置１００は、斜線部分にかかる行列演算をｎｔｈ個のスレッドで分担することができ、それぞれのスレッドにかかる処理負荷の均一化を図ることができる。ここで、図７の説明に移行する。

図７において、情報処理装置１００は、キャッシュブロッキングの技術、および、レジスタブロッキングの技術とを用いて、ｎｔｈ個のスレッドのそれぞれのスレッドによって、それぞれのスレッドに割り当てられた行列演算を実行する。ここで、１つのスレッドは、例えば、１つのコアにおいて実現される。

スレッドは、例えば、部分行列Ｃ₁₁の各要素の値を生成する行列演算が割り当てられた場合、行列Ｃと部分行列Ｃ₁₁との関係に基づいて、行列Ｂを行方向に分割した部分行列Ｂ₁₁を特定する。部分行列Ｂ₁₁は、例えば、部分行列Ｃ₁₁と行方向の先頭になる列が同一であり、部分行列Ｃ₁₁と行方向の大きさが同一である。そして、スレッドは、行列Ａと部分行列Ｂ₁₁の内積演算を実行し、部分行列Ｃ₁₁の各要素の値を生成する。

スレッドは、同様に、部分行列Ｃ₁₂の各要素の値を生成する行列演算が割り当てられた場合、行列Ａと部分行列Ｂ₁₂の内積演算を実行し、部分行列Ｃ₁₂の各要素の値を生成する。また、スレッドは、同様に、部分行列Ｃ₁₃の各要素の値を生成する行列演算が割り当てられると、行列Ａと部分行列Ｂ₁₃の内積演算を実行し、部分行列Ｃ₁₃の各要素の値を生成する。

また、スレッドは、同様に、部分行列Ｃ₁₄の各要素の値を生成する行列演算が割り当てられると、行列Ａと部分行列Ｂ₁₄の内積演算を実行し、部分行列Ｃ₁₄の各要素の値を生成する。これにより、情報処理装置１００は、ｎｔｈ個のスレッドによって、ブロックサイズ単位で、効率よく部分行列Ｃ₁の各要素の値を生成することができる。ここで、図８の説明に移行する。

図８において、スレッドは、例えば、部分行列Ｃ₂₁の各要素の値を生成する行列演算が割り当てられた場合、行列Ｃと部分行列Ｃ₂₁との関係に基づいて、行列Ａを列方向に分割した部分行列Ａ₁を特定する。部分行列Ａ₁は、例えば、部分行列Ｃ₂₁と列方向の先頭になる行が同一であり、部分行列Ｃ₂₁と列方向の大きさが同一である。

また、スレッドは、行列Ｃと部分行列Ｃ₂₁との関係に基づいて、行列Ｂを行方向に分割した部分行列Ｂ₂を特定する。部分行列Ｂ₂は、例えば、部分行列Ｃ₂₁と行方向の先頭になる列が同一であり、部分行列Ｃ₂₁と行方向の大きさが同一である。部分行列Ｂ₂は、行方向にブロックサイズ単位で割った場合に、割り切ることができない余りの列に対応する部分行列Ｂ₃を含む。そして、スレッドは、行列Ａ₁と部分行列Ｂ₂の内積演算を実行し、部分行列Ｃ₂₁の各要素の値を生成する。

スレッドは、同様に、部分行列Ｃ₂₂の各要素の値を生成する行列演算が割り当てられた場合、行列Ａ₂と部分行列Ｂ₂の内積演算を実行し、部分行列Ｃ₂₂の各要素の値を生成する。また、スレッドは、同様に、部分行列Ｃ₂₃の各要素の値を生成する行列演算が割り当てられた場合、行列Ａ₃と部分行列Ｂ₂の内積演算を実行し、部分行列Ｃ₂₃の各要素の値を生成する。

また、スレッドは、同様に、部分行列Ｃ₂₄の各要素の値を生成する行列演算が割り当てられた場合、行列Ａ₄と部分行列Ｂ₂の内積演算を実行し、部分行列Ｃ₂₄の各要素の値を生成する。これにより、情報処理装置１００は、それぞれのスレッドに割り当てられた行列演算にかかる時間の均一化を図ることができ、ｎｔｈ個のスレッドに割り当てられた行列演算全体にかかる時間の低減化を図ることができる。

例えば、部分行列Ｂ₃を用いた行列演算は、ブロックサイズ単位で割り切れず、効率よく各要素の値を生成することが難しい。このため、ｎｔｈ個のスレッドのいずれかのスレッドだけが、部分行列Ｂ₃を用いた行列演算を担当する場合では、そのスレッドがボトルネックになってしまい、ｎｔｈ個のスレッドに割り当てられた行列演算全体にかかる時間の増大化を招いてしまう。これに対し、情報処理装置１００は、部分行列Ｂ₃を用いた行列演算を、ｎｔｈ個のスレッドで分担し、それぞれのスレッドにかかる負荷の均一化を図ることができる。

（情報処理装置１００の複数のスレッドを用いた行列演算の実施例）
次に、図９〜図１１を用いて、行列Ａと行列Ｂと行列Ｃとの大きさに具体的な値を設定して、情報処理装置１００の複数のスレッドを用いた行列演算の実施例について説明する。

図９〜図１１は、情報処理装置１００の複数のスレッドを用いた行列演算の実施例を示す説明図である。情報処理装置１００は、ｎｔｈ個のスレッドのそれぞれのスレッドを、ｎｔｈ個のコアのそれぞれのコアにおいて生成する。ｎｔｈは、１６であるとする。それぞれのスレッドの通し番号をｉｔｈとする。ｉｔｈは、０〜ｎｔｈ−１の整数である。

以下では、情報処理装置１００が、生成した１６個のスレッドによって、３２０×１００の行列Ａと、１００×１５０の行列Ｂとの内積演算を実行することにより、３２０×１５０の行列Ｃの各要素の値を生成する場合について説明する。行方向のブロックサイズｎｒｂは、４であるとする。列方向のブロックサイズｍｒｂは、４であるとする。それぞれのスレッドは、図１０および図１１のように演算処理を実行する。ここで、図１０の説明に移行する。

図１０において、スレッドは、行列Ｃを、行方向に分割し、ブロックサイズ４で割り切ることができる３２０×１２８の部分行列Ｃ₁と、ブロックサイズ４で割り切ることができない３２０×２２の部分行列Ｃ₂を特定する。

スレッドは、例えば、部分行列Ｃ₁の行方向の先頭になる列の番号ｉ１＝１と設定し、部分行列Ｃ₁の行方向の大きさｎ１＝Ｎ−ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）を算出することにより、部分行列Ｃ₁を特定する。

また、スレッドは、部分行列Ｃ₂の行方向の先頭になる列の番号ｉ２＝Ｎ−ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）＋１を算出し、部分行列Ｃ₂の行方向の大きさｎ２＝ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）を算出することにより、部分行列Ｃ₂を特定する。

スレッドは、具体的には、部分行列Ｃ₁の行方向の先頭になる列の番号ｉ１＝１と設定する。また、スレッドは、部分行列Ｃ₁の行方向の大きさｎ１＝Ｎ−ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）＝１５０−ＭＯＤ（１５０，１６×４）＝１２８を算出する。これにより、スレッドは、部分行列Ｃ₁を特定する。

また、スレッドは、部分行列Ｃ₂の行方向の先頭になる列の番号ｉ２＝Ｎ−ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）＋１＝１５０−ＭＯＤ（１５０，１６×４）＋１＝１２９を算出する。また、スレッドは、部分行列Ｃ₂の行方向の大きさｎ２＝ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）＝ＭＯＤ（１５０，１６×４）＝２２を算出する。これにより、スレッドは、部分行列Ｃ₂を特定する。ここで、図１１の説明に移行する。

図１１において、スレッドは、部分行列Ｃ₁を行方向にスレッド数１６で分割し、行方向の大きさがブロックサイズ４の倍数８の大きさである、１６個の部分行列を特定する。部分行列の行方向の大きさは、（Ｎ−ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ））／ｎｔｈである。

次に、スレッドは、１６個の部分行列のいずれかの部分行列の各要素の値を生成する行列演算を、自スレッドに割り当てる。スレッドは、例えば、自スレッドに各要素の値を生成する行列演算を割り当てられる部分行列の、行方向の大きさｎｎ＝ｎ１／ｎｔｈと、行方向の先頭になる列の番号ｉｎ＝１＋ｎｎ×ｉｔｈとを算出する。

通し番号０のスレッドｔｈ０は、具体的には、自スレッドに各要素の値を生成する行列演算を割り当てられる部分行列の、行方向の大きさｎｎ＝ｎ１／ｎｔｈ＝１２８／１６＝８と、行方向の先頭になる列の番号ｉｎ＝１＋ｎｎ×ｉｔｈ＝１＋８×０とを算出する。これにより、通し番号０のスレッドｔｈ０は、自スレッドに割り当てる部分行列を特定する。

そして、スレッドは、自スレッドに割り当てた部分行列の各要素の値を生成する行列演算を実行する。スレッドは、例えば、Ａ（１：Ｍ，１：Ｋ）×Ｂ（１：Ｋ，ｉｎ：ｉｎ＋ｎｎ−１）→Ｃ（１：Ｍ，ｉｎ：ｉｎ＋ｎｎ−１）によって、行列演算を実行する。

ここで、Ａ（ａ：ｂ，ｃ：ｄ）は、行列Ａのａ〜ｂ行かつｃ〜ｄ列の要素の値を示す。Ｂ（ａ：ｂ，ｃ：ｄ）は、行列Ｂのａ〜ｂ行かつｃ〜ｄ列の要素の値を示す。Ｃ（ａ：ｂ，ｃ：ｄ）は、行列Ｃのａ〜ｂ行かつｃ〜ｄ列の要素の値を示す。「→」は、行列Ａと行列Ｂとの要素の値を用いた内積演算の結果を、行列Ｃの要素の値に設定することを示す。

スレッドは、部分行列Ｃ₂を列方向にスレッド数１６で分割し、列方向の大きさが２０の大きさである、１６個の部分行列を特定する。スレッドは、部分行列Ｃ₂の列方向の大きさがスレッド数１６で割り切れない場合、割り切れない余りの分の行をそれぞれの部分行列に振り分け、または、末尾の部分行列に振り分ける。

次に、スレッドは、１６個の部分行列のいずれかの部分行列の各要素の値を生成する行列演算を、自スレッドに割り当てる。スレッドは、自スレッドに各要素の値を生成する行列演算を割り当てられる部分行列の、列方向の先頭になる行の番号ｉｍ＝１＋ｍｗ×ｉｔｈ＋ＭＩＮ（ＭＯＤ（Ｍ，ｎｔｈ），ｉｔｈ）を算出する。ｍｗ＝Ｍ／ｎｔｈである。ＭＩＮ（ａ，ｂ）は、ａとｂとのうち小さい方を示す。また、スレッドは、例えば、自スレッドに各要素の値を生成する行列演算を割り当てられる部分行列の、列方向の大きさｍｍ＝１＋ｍｗ×（ｉｔｈ＋１）＋ＭＩＮ（ＭＯＤ（Ｍ，ｎｔｈ），ｉｔｈ＋１）−ｉｍを算出する。

通し番号０のスレッドｔｈ０は、具体的には、ｍｗ＝Ｍ／ｎｔｈ＝２０を算出する。通し番号０のスレッドｔｈ０は、自スレッドに各要素の値を生成する行列演算を割り当てられる部分行列の、列方向の先頭になる行の番号ｉｍ＝１＋ｍｗ×ｉｔｈ＋ＭＩＮ（ＭＯＤ（Ｍ，ｎｔｈ），ｉｔｈ）＝１を算出する。通し番号０のスレッドｔｈ０は、自スレッドに各要素の値を生成する行列演算を割り当てられる部分行列の、列方向の大きさｍｍ＝１＋ｎｗ×（ｉｔｈ＋１）＋ＭＩＮ（ＭＯＤ（Ｍ，ｎｔｈ），ｉｔｈ＋１）−ｉｍ＝２０を算出する。これにより、通し番号０のスレッドｔｈ０は、自スレッドに割り当てる部分行列を特定する。

そして、スレッドは、自スレッドに割り当てた部分行列の各要素の値を生成する行列演算を実行する。スレッドは、例えば、Ａ（ｉｍ：ｉｍ＋ｍｍ−１，１：Ｋ）×Ｂ（１：Ｋ，ｉ２：ｉ２＋ｎ２−１）→Ｃ（ｉｍ：ｉｍ＋ｍｍ−１，ｉ２：ｉ２＋ｎ２−１）によって、行列演算を実行する。情報処理装置１００は、１６個のスレッドが行列演算を終了すると、１６個のスレッドを終了する。これにより、情報処理装置１００は、行列Ｃの各要素の値を生成することができる。

ここで、従来のように、行列Ｃを、行方向に１６個に同程度の大きさに分割して、１６個のスレッドで分担する場合が考えられる。例えば、３２０×１５０の行列Ｃを分割する場合、スレッドｔｈ０〜ｔｈ５に３２０×１０の部分行列にかかる行列演算が割り当てられ、スレッドｔｈ６〜ｔｈ１５に３２０×９の部分行列にかかる行列演算が割り当てられる。この場合、３２０×１０の部分行列にかかる行列演算も、３２０×９の部分行列にかかる行列演算も、ブロックサイズ４で割り切ることができないため、演算効率が悪い。例えば、３２０×１０の部分行列にかかる行列演算も、３２０×９の部分行列にかかる行列演算も、ブロックサイズ４で割り切ることができる３２０×１２の部分行列にかかる行列演算と同様の演算効率になってしまう。

結果として、それぞれのスレッドが、３２０×１２の部分行列にかかる行列演算を実行した場合と同等の時間がかかってしまう。具体的には、１スレッドあたりの計算時間は、３２０×（ｃｅｉｌｉｎｇ（１０／ｎｒｂ）×ｎｒｂ）×１００＝４３２０００回の積和演算を実行する時間に等しくなってしまう。ｃｅｉｌｉｎｇは、値の小数点以下を切り上げることを示す。

これに対し、情報処理装置１００は、行列Ｃを、行方向にブロックサイズで割り切ることができる部分行列Ｃ₁と、行方向にブロックサイズで割り切ることができない余りの部分を含む部分行列Ｃ₂とに分割する。これにより、情報処理装置１００は、行方向にブロックサイズで割り切ることができる部分行列Ｃ₁にかかる行列演算については、効率よく実行することができる。

そして、情報処理装置１００は、部分行列Ｃ₂を１６個のスレッドで分担し、それぞれのスレッドが２０×２２の部分行列にかかる行列演算を実行するようにする。これにより、情報処理装置１００は、２０×２２の部分行列のうち、２０×２０の部分行列については、効率よく実行することができる。また、情報処理装置１００は、それぞれのスレッドに２０×２の部分行列にかかる行列演算を実行させ、それぞれのスレッドにかかる負荷の均一化を図ることができる。

このように、情報処理装置１００は、１６個のスレッドが実行する行列演算全体にかかる時間の低減化を図ることができる。具体的には、１スレッドあたりの計算時間は、３２０×（ｃｅｉｌｉｎｇ（８／ｎｒｂ）×ｎｒｂ）×１００＋２０×（ｃｅｉｌｉｎｇ（２２／ｎｒｂ）×ｎｒｂ）×１００＝３３６０００回の積和演算を実行する時間に等しくなる。

したがって、情報処理装置１００は、１６個のスレッドが実行する行列演算全体にかかる時間を、従来と比べて約２０％低減化することができる。また、情報処理装置１００は、数値計算に行列演算が含まれる場合に、数値計算全体にかかる時間を低減化することができる。

ここでは、情報処理装置１００が、第１部分行列に、行方向の大きさがブロックサイズの倍数分の大きさになる部分行列を用いる場合について説明した。これにより、情報処理装置１００は、所定行列の形状が、行方向の大きさがブロックサイズで割り切れない形状である傾向がある場合に対して、複数のスレッドが実行する行列演算全体にかかる時間の低減化を図ることができる。

一方で、情報処理装置１００は、第１部分行列に、列方向の大きさがブロックサイズの倍数分の大きさになる部分行列を用いる場合があってもよい。これにより、情報処理装置１００は、所定行列の形状が、列方向の大きさがブロックサイズで割り切れない形状である傾向がある場合に対して、複数のスレッドが実行する行列演算全体にかかる時間の低減化を図ることができる。

ここで、所定行列の形状が、行方向の大きさがブロックサイズで割り切れず、かつ、列方向の大きさがブロックサイズで割り切れない形状である場合がある。この場合、行方向および列方向のうち、ブロックサイズで割った剰余が小さいほど、ブロックサイズ単位で扱った場合に、行列演算にかかる時間の増大化を招きやすい。

具体的には、行方向にブロックサイズで割った余りの列が１列である場合、余りの１列を扱うためには、ブロックサイズ分の列、例えば、４列を扱う場合と同様の時間がかかる傾向がある。一方で、列方向にブロックサイズで割った余りの行が３行である場合、余りの３行を扱うためには、ブロックサイズ分の行、例えば、４行を扱う場合と同様の時間がかかる傾向がある。

この具体例では、情報処理装置１００が、第１部分行列に、行方向の大きさがブロックサイズの倍数分の大きさになる部分行列を用いる方が、複数のスレッドが実行する行列演算全体にかかる時間の低減化を図りやすい可能性がある。

そこで、情報処理装置１００は、所定行列の形状に応じて、第１部分行列として、行方向の大きさがブロックサイズの倍数分の大きさになる部分行列と、列方向の大きさがブロックサイズの倍数分の大きさになる部分行列とを使い分ける場合があってもよい。これにより、情報処理装置１００は、所定行列を分割する分割方法を使い分け、所定数のスレッドに割り当てる行列演算全体にかかる時間を効率よく低減化することができる。

ここでは、複数のスレッドが、自スレッドが担当する行列演算を特定し、特定した行列演算を実行する場合について説明したが、これに限らない。例えば、情報処理装置１００が、それぞれのスレッドに割り当てる行列演算を管理し、それぞれのスレッドに行列演算を実行させてもよい。

（行列演算処理手順の一例）
次に、図１２を用いて、行列演算処理手順の一例について説明する。

図１２は、行列演算処理手順の一例を示すフローチャートである。図１２において、情報処理装置１００は、行列演算に用いられる行列Ａと、行列演算に用いられる行列Ｂと、行列演算により各要素の値が生成される行列Ｃと、行列Ａ，Ｂ，Ｃの大きさを規定する変数Ｍ，Ｎ，Ｋとの入力を受け付ける（ステップＳ１２０１）。行列Ｃは、例えば、各要素の値が初期化されており、行列演算によって更新される。

次に、情報処理装置１００は、行列演算を割り当てる、ｎｔｈ個のスレッドを生成する（ステップＳ１２０２）。ｎｔｈ個のスレッドは、それぞれ、通し番号ｉｔｈが割り振られる。ｉｔｈは、例えば、０〜ｎｔｈ−１の整数である。

そして、情報処理装置１００は、それぞれのスレッドによって、行列Ｃを、ｉ１番目の列を先頭にして行方向の大きさがｎ１である部分行列Ｃ₁と、ｉ２番目の列を先頭にして行方向の大きさがｎ２である部分行列Ｃ₂とに分割する（ステップＳ１２０３）。ｉ１は、例えば、１である。ｎ１は、例えば、Ｎ−ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）である。ｉ２は、例えば、Ｎ−ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）＋１である。ｎ２は、例えば、ＭＯＤ（Ｎ，ｎｔｈ×ｎｒｂ）である。

次に、情報処理装置１００は、それぞれのスレッドによって、部分行列Ｃ₁を行方向に等分割して、ｉｎ番目の列を先頭にして行方向の大きさがｎｎである部分行列を、当該スレッドが担当する部分行列に決定する（ステップＳ１２０４）。通し番号ｉｔｈのスレッドは、部分行列Ｃ₁を等分割した部分行列のうち、行方向の先頭からｉｔｈ＋１番目の部分行列を、自スレッドが担当する部分行列に決定する。

そして、情報処理装置１００は、それぞれのスレッドによって、キャッシュブロッキングの技術、および、レジスタブロッキングの技術を適用して、当該スレッドが担当する部分行列の各要素の値を生成する（ステップＳ１２０５）。スレッドが担当する部分行列の各要素の値Ｃ（１：Ｍ，ｉｎ：ｉｎ＋ｎｎ−１）は、例えば、行列Ａの各要素の値Ａ（１：Ｍ，１：Ｋ）×行列Ｂの各要素の値Ｂ（１：Ｋ，ｉｎ：ｉｎ＋ｎｎ−１）である。

次に、情報処理装置１００は、それぞれのスレッドによって、部分行列Ｃ₂を列方向にｎｔｈ個に分割して、ｉｍ番目の行を先頭にして列方向の大きさがｍｍである部分行列を、当該スレッドが担当する部分行列に決定する（ステップＳ１２０６）。通し番号ｉｔｈのスレッドは、部分行列Ｃ₂を等分割した部分行列のうち、列方向の先頭からｉｔｈ＋１番目の部分行列を、自スレッドが担当する部分行列に決定する。

そして、情報処理装置１００は、それぞれのスレッドによって、キャッシュブロッキングの技術、および、レジスタブロッキングの技術を適用して、当該スレッドが担当する部分行列の各要素の値を生成する（ステップＳ１２０７）。スレッドが担当する部分行列の各要素の値Ｃ（ｉｍ：ｉｍ＋ｍｍ−１，２：ｉ２＋ｎ２−１）は、例えば、行列Ａの各要素の値Ａ（ｉｍ：ｉｍ＋ｍｍ−１，１：Ｋ）×行列Ｂの各要素の値Ｂ（１：Ｋ，ｉ２：ｉ２＋ｎ２−１）である。

次に、情報処理装置１００は、複数のスレッドから行列演算の演算結果を取得すると、複数のスレッドを終了する（ステップＳ１２０８）。そして、情報処理装置１００は、取得した演算結果に基づいて、行列Ｃの各要素の値を設定して、行列Ｃを出力する（ステップＳ１２０９）。これにより、情報処理装置１００は、行列Ｃの各要素の値を効率よく生成することができる。

以上説明したように、情報処理装置１００によれば、所定行列を、行方向と列方向との少なくともいずれかの方向の大きさがブロックサイズの倍数分の大きさになる所定数の第１部分行列と、所定数の第２部分行列とに分割することができる。情報処理装置１００によれば、それぞれの第１部分行列の各要素の値を生成する行列演算と、それぞれの第２部分行列の各要素の値を生成する行列演算とを、所定数のスレッドのそれぞれのスレッドに割り当てることができる。これにより、情報処理装置１００は、それぞれのスレッドに割り当てた行列演算にかかる時間の均一化を図り、所定数の行列演算全体にかかる時間の低減化を図ることができる。

情報処理装置１００によれば、所定行列を、行方向の大きさがブロックサイズの倍数分の大きさになる所定数の第１部分行列と、所定数の第２部分行列とに分割することができる。これにより、情報処理装置１００は、所定行列の行方向の大きさがブロックサイズで割り切れない場合、所定数のスレッドに割り当てる行列演算全体にかかる時間を効率よく低減化することができる。

情報処理装置１００によれば、所定行列を、列方向の大きさがブロックサイズの倍数分の大きさになる所定数の第１部分行列と、所定数の第２部分行列とに分割することができる。これにより、情報処理装置１００は、所定行列の列方向の大きさがブロックサイズで割り切れない場合、所定数のスレッドに割り当てる行列演算全体にかかる時間を効率よく低減化することができる。

情報処理装置１００によれば、所定行列の行方向の大きさをブロックサイズで除算した第１剰余と、所定行列の列方向の大きさをブロックサイズで除算した第２剰余とを比較することができる。情報処理装置１００によれば、比較した結果、第１剰余が第２剰余より小さい場合、所定行列を、行方向の大きさがブロックサイズの倍数分の大きさになる所定数の第１部分行列と、所定数の第２部分行列とに分割することができる。情報処理装置１００によれば、比較した結果、第１剰余が第２剰余より大きい場合、所定行列を、列方向の大きさがブロックサイズの倍数分の大きさになる所定数の第１部分行列と、所定数の第２部分行列とに分割することができる。これにより、情報処理装置１００は、所定行列を分割する分割方法を使い分け、所定数のスレッドに割り当てる行列演算全体にかかる時間を効率よく低減化することができる。

情報処理装置１００によれば、それぞれのスレッドから、それぞれの第１部分行列の各要素の値と、それぞれの第２部分行列の各要素の値とを取得することができる。情報処理装置１００によれば、取得したそれぞれの第１部分行列の各要素の値と、取得したそれぞれの第２部分行列の各要素の値とを組み合わせて、所定行列の各要素の値を生成することができる。これにより、情報処理装置１００は、所定行列の各要素の値を出力し、所定行列を活用可能にすることができる。

なお、本実施の形態で説明したマルチスレッド行列演算方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明したマルチスレッド行列演算プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明したマルチスレッド行列演算プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）行列演算により各要素の値が生成される所定行列を、行方向と列方向との少なくともいずれかの方向の大きさが前記行列演算に用いられるレジスタ数に対応するブロックサイズの倍数分の大きさになる所定数の第１部分行列と、前記所定数の第１部分行列とは異なる前記所定数の第２部分行列とに分割し、
分割した前記所定数の第１部分行列のそれぞれの第１部分行列の各要素の値を生成する行列演算と、分割した前記所定数の第２部分行列のそれぞれの第２部分行列の各要素の値を生成する行列演算とを、前記所定数のスレッドのそれぞれのスレッドに割り当てる、
制御部を有することを特徴とする情報処理装置。

（付記２）前記制御部は、
前記所定行列を、行方向の大きさが前記ブロックサイズの倍数分の大きさになる前記所定数の第１部分行列と、前記所定数の第２部分行列とに分割する、ことを特徴とする付記１に記載の情報処理装置。

（付記３）前記制御部は、
前記所定行列を、列方向の大きさが前記ブロックサイズの倍数分の大きさになる前記所定数の第１部分行列と、前記所定数の第２部分行列とに分割する、ことを特徴とする付記１または２に記載の情報処理装置。

（付記４）前記制御部は、
前記所定行列の行方向の大きさを前記ブロックサイズで除算した第１剰余と、前記所定行列の列方向の大きさを前記ブロックサイズで除算した第２剰余とを比較し、
比較した結果、前記第１剰余が前記第２剰余より小さい場合、前記所定行列を、行方向の大きさが前記ブロックサイズの倍数分の大きさになる前記所定数の第１部分行列と、前記所定数の第２部分行列とに分割し、
比較した結果、前記第１剰余が前記第２剰余より大きい場合、前記所定行列を、列方向の大きさが前記ブロックサイズの倍数分の大きさになる前記所定数の第１部分行列と、前記所定数の第２部分行列とに分割する、ことを特徴とする付記１〜３のいずれか一つに記載の情報処理装置。

（付記５）前記制御部は、
前記それぞれのスレッドから、前記それぞれの第１部分行列の各要素の値と、前記それぞれの第２部分行列の各要素の値とを取得し、
取得した前記それぞれの第１部分行列の各要素の値と、取得した前記それぞれの第２部分行列の各要素の値とを組み合わせて、前記所定行列の各要素の値を生成する、ことを特徴とする付記１〜４のいずれか一つに記載の情報処理装置。

（付記６）前記所定数のスレッドは、それぞれ、前記所定数の演算装置によって実現される、ことを特徴とする付記１〜５のいずれか一つに記載の情報処理装置。

（付記７）コンピュータが、
行列演算により各要素の値が生成される所定行列を、行方向と列方向との少なくともいずれかの方向の大きさが前記行列演算に用いられるレジスタ数に対応するブロックサイズの倍数分の大きさになる所定数の第１部分行列と、前記所定数の第１部分行列とは異なる前記所定数の第２部分行列とに分割し、
分割した前記所定数の第１部分行列のそれぞれの第１部分行列の各要素の値を生成する行列演算と、分割した前記所定数の第２部分行列のそれぞれの第２部分行列の各要素の値を生成する行列演算とを、前記所定数のスレッドのそれぞれのスレッドに割り当てる、
処理を実行することを特徴とするマルチスレッド行列演算方法。

（付記８）コンピュータに、
行列演算により各要素の値が生成される所定行列を、行方向と列方向との少なくともいずれかの方向の大きさが前記行列演算に用いられるレジスタ数に対応するブロックサイズの倍数分の大きさになる所定数の第１部分行列と、前記所定数の第１部分行列とは異なる前記所定数の第２部分行列とに分割し、
分割した前記所定数の第１部分行列のそれぞれの第１部分行列の各要素の値を生成する行列演算と、分割した前記所定数の第２部分行列のそれぞれの第２部分行列の各要素の値を生成する行列演算とを、前記所定数のスレッドのそれぞれのスレッドに割り当てる、
処理を実行させることを特徴とするマルチスレッド行列演算プログラム。

１００情報処理装置
２００バス
２０１コア
２０２メモリ
２０３ネットワークＩ／Ｆ
２０４記録媒体Ｉ／Ｆ
２０５記録媒体
２１０ネットワーク
３００記憶部
３０１取得部
３０２分割部
３０３実行部
３０４生成部
３０５出力部

Claims

行列演算により各要素の値が生成される所定行列を、行方向と列方向との少なくともいずれかの方向の大きさが前記行列演算に用いられるレジスタ数に対応するブロックサイズの倍数分の大きさになる所定数の第１部分行列と、前記所定数の第１部分行列とは異なる前記所定数の第２部分行列とに分割し、
分割した前記所定数の第１部分行列のそれぞれの第１部分行列の各要素の値を生成する行列演算と、分割した前記所定数の第２部分行列のそれぞれの第２部分行列の各要素の値を生成する行列演算とを、前記所定数のスレッドのそれぞれのスレッドに割り当てる、
制御部を有することを特徴とする情報処理装置。
前記制御部は、
前記所定行列を、行方向の大きさが前記ブロックサイズの倍数分の大きさになる前記所定数の第１部分行列と、前記所定数の第２部分行列とに分割する、ことを特徴とする請求項１に記載の情報処理装置。
前記制御部は、
前記所定行列を、列方向の大きさが前記ブロックサイズの倍数分の大きさになる前記所定数の第１部分行列と、前記所定数の第２部分行列とに分割する、ことを特徴とする請求項１または２に記載の情報処理装置。
前記制御部は、
前記所定行列の行方向の大きさを前記ブロックサイズで除算した第１剰余と、前記所定行列の列方向の大きさを前記ブロックサイズで除算した第２剰余とを比較し、
比較した結果、前記第１剰余が前記第２剰余より小さい場合、前記所定行列を、行方向の大きさが前記ブロックサイズの倍数分の大きさになる前記所定数の第１部分行列と、前記所定数の第２部分行列とに分割し、
比較した結果、前記第１剰余が前記第２剰余より大きい場合、前記所定行列を、列方向の大きさが前記ブロックサイズの倍数分の大きさになる前記所定数の第１部分行列と、前記所定数の第２部分行列とに分割する、ことを特徴とする請求項１〜３のいずれか一つに記載の情報処理装置。
コンピュータが、
行列演算により各要素の値が生成される所定行列を、行方向と列方向との少なくともいずれかの方向の大きさが前記行列演算に用いられるレジスタ数に対応するブロックサイズの倍数分の大きさになる所定数の第１部分行列と、前記所定数の第１部分行列とは異なる前記所定数の第２部分行列とに分割し、
分割した前記所定数の第１部分行列のそれぞれの第１部分行列の各要素の値を生成する行列演算と、分割した前記所定数の第２部分行列のそれぞれの第２部分行列の各要素の値を生成する行列演算とを、前記所定数のスレッドのそれぞれのスレッドに割り当てる、
処理を実行することを特徴とするマルチスレッド行列演算方法。
コンピュータに、
行列演算により各要素の値が生成される所定行列を、行方向と列方向との少なくともいずれかの方向の大きさが前記行列演算に用いられるレジスタ数に対応するブロックサイズの倍数分の大きさになる所定数の第１部分行列と、前記所定数の第１部分行列とは異なる前記所定数の第２部分行列とに分割し、
分割した前記所定数の第１部分行列のそれぞれの第１部分行列の各要素の値を生成する行列演算と、分割した前記所定数の第２部分行列のそれぞれの第２部分行列の各要素の値を生成する行列演算とを、前記所定数のスレッドのそれぞれのスレッドに割り当てる、
処理を実行させることを特徴とするマルチスレッド行列演算プログラム。