JP7251354B2

JP7251354B2 - 情報処理装置、情報処理プログラム、及び情報処理方法

Info

Publication number: JP7251354B2
Application number: JP2019119018A
Authority: JP
Inventors: 俊宏清水
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2023-04-04
Anticipated expiration: 2039-06-26
Also published as: JP2021005242A; US11631002B2; EP3757902A1; CN112149794A; US20200410340A1

Description

本発明は、情報処理装置、情報処理プログラム、及び情報処理方法に関する。

多層構造のニューラルネットワークを用いた機械学習は深層学習と呼ばれ、様々な分野に応用されている。その深層学習の各層においては様々な計算が行われる。例えば、畳み込み層では、画像データとフィルタとの間で畳み込み計算を行い、その結果が後段に出力される。畳み込み計算は行列同士の計算であるため計算量が多く、学習の処理速度が遅延する一因となる。そこで、畳み込み計算の計算量を低減するためのアルゴリズムとしてWinogradアルゴリズムが提案されている。

"Fast Algorithms for Convolutional Neural Networks", Andrew Lavin et al., The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 4013-4021 "Deep Residual Learning for Image Recognition", Kaiming He et al., The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778

しかしながら、Winogradアルゴリズムには、畳み込み計算の処理速度を更に速めるという点で改善の余地がある。

一側面によれば、本発明は、畳み込み計算を高速化することを目的とする。

一側面によれば、複数の第１の行列とt行t列の複数の第２の行列の各々の要素の総数が、レジスタが備える複数の記憶領域のうちのq個の各々に格納できるデータの個数を超えないtとqの組み合わせのうちで、q個の前記記憶領域の各々に対応したq個の計算コアの各々が複数の前記第１の行列と複数の前記第２の行列との畳み込み計算をWinogradアルゴリズムで並列して実行するときの計算時間が最小となる組み合わせを算出する算出部と、算出したtとqの組み合わせを用いてq個の前記記憶領域の各々に複数の前記第１の行列とt行t列の複数の前記第２の行列とを格納する処理と、q個の前記計算コアの各々がWinogradアルゴリズムを用いて前記第１の行列と前記第２の行列との畳み込み計算を行う処理とを、前記計算コアと前記レジスタとを備えた計算機に実行させるためのプログラムを出力する出力部とを有する情報処理装置が提供される。

一側面によれば、畳み込み計算を高速化することができる。

図１は、深層学習の処理の流れを模式的に示す図である。図２は、畳み込み層で行う畳み込み計算について模式的に示す図である。図３（ａ）～（ｃ）は、bottom行列とweight行列との畳み込み計算を模式的に示す図である。図４（ａ）～（ｃ）は、フォワード処理におけるWinogradアルゴリズムについて模式的に示す図である。図５は、深層学習等における畳み込み計算を行うための計算機のハードウェア構成図である。図６（ａ）は、一つのDPU-chainのハードウェア構成図であり、図６（ｂ）は、一つのDPUのハードウェア構成図である。図７は、各DPEのハードウェア構成図である。図８は、DPE0のハードウェア構成図である。図９は、バンクR#0～R#7の各々に付されたライン番号について説明するための図である。図１０（ａ）～（ｃ）は、シーケンシャル方式について説明するための模式図（その１）である。図１１（ａ）～（ｃ）は、シーケンシャル方式について説明するための模式図（その２）である。図１２は、マルチキャスト方式について説明するための模式図である。図１３は、各DPEのそれぞれのレジスタG#0の中身を模式的に示す図である。図１４は、メインメモリにある配列gの配列要素を模式的に示す図である。図１５は、マルチキャスト方式で転送された直後のDPE0のレジスタG#0の中身を示す図である。図１６は、整列後のDPE0のレジスタG#0の中身を示す図である。図１７は、整列後のDPE0～DPE7の各々のレジスタG#0の中身を示す図である。図１８は、DPE0のレジスタG#0のバンクR#0の模式図である。図１９は、本実施形態に係る情報処理装置のハードウェア構成図である。図２０は、本実施形態に係る情報処理装置の機能構成図である。図２１は、計算機の機能ブロック図である。図２２は、本実施形態でフォワード処理を行う場合に、格納部によって各配列d、gが格納されたDPE0～DPE7の各々のレジスタG#0の中身を示す図である。図２３（ａ）、（ｂ）は、本実施形態において計算部がWinogradアルゴリズムで畳み込み計算を行う場合のDPE0の各レジスタG#0～G#3の中身を示す図（その１）である。図２４は、本実施形態において計算部がWinogradアルゴリズムで畳み込み計算を行う場合のDPE0の各レジスタG#0～G#3の中身を示す図（その２）である。図２５は、本実施形態において計算部がWinogradアルゴリズムで畳み込み計算を行う場合のDPE0の各レジスタG#0～G#3の中身を示す図（その３）である。図２６は、本実施形態の式（１９）の計算をステップ順に示す模式図である。図２７は、本実施形態の式（２１）の計算をステップ順に示す模式図である。図２８は、本実施形態に係る情報処理方法のフローチャートである。図２９（ａ）～（ｃ）は、本実施形態に係るbackword処理において、top行列とweight行列との畳み込み計算をWinogradアルゴリズムで行うときの模式図である。図３０は、本実施形態に係る格納部によって各配列y、gが格納されたDPE0～DPE7の各々のレジスタG#0の中身を示す図である。図３１（ａ）、（ｂ）は、本実施形態に係るbackword処理において、top行列とbottom行列との畳み込み計算をWinogradアルゴリズムで行うときの模式図である。図３２（ａ）～（ｃ）は、本実施形態に係るbackword処理において、top行列とbottom行列との畳み込み計算をWinogradアルゴリズムで行うときの模式図である。図３３は、本実施形態に係る格納部によって各配列y、dが格納されたDPE0～DPE7の各々のレジスタG#0の中身を示す図である。図３４は、本実施形態において１×１の畳み込みを行う場合に、格納部によって各配列d、gが格納されたDPE0のレジスタG#0の中身を示す図である。図３５は、batch normalizationのときに本実施形態に係る格納部によって小bottom行列dが格納されたDPE0のレジスタG#0の中身を示す図である。図３６（ａ）、（ｂ）は、batch normalizationのときに本実施形態に係る計算部が行う計算について説明するためのDPE0のレジスタG#0の中身を示す図である。

本実施形態の説明に先立ち、本願発明者が検討した事項について説明する。

図１は、深層学習の処理の流れを模式的に示す図である。
深層学習では、画像等の識別対象に関する教師あり学習を行うことにより、ニューラルネットワークに識別対象の特徴を学習させる。そのように学習させたニューラルネットワークを用いることにより、識別対象を識別することができる。

ニューラルネットワークは、脳のニューロンを模したユニットを階層的に結合したネットワークである。各ユニットは、他のユニットからデータを受け取り、他のユニットへデータを受け渡す。ニューラルネットワークでは、ユニットのパラメータを学習によって変化させることで様々な識別対象を識別できる。

以下では、図１を参照しながら、画像の認識に用いられる畳み込みニューラルネットワーク(CNN：Convolutional Neural Network)について説明する。

このニューラルネットワークは、畳み込み(convolution)層、サブサンプリング(sub-sampling)層、及び全結合(fully-connected)層を備えた階層構造を有する。図１の例では畳み込み層とサブサンプリング層を交互に２回設けているが、これらの層を更に多く設けてもよい。更に、全結合層を複数設けてもよい。ニューラルネットワークの階層構造や各層の構成は、識別する対象などに応じて設計者が予め定めればよい。

ニューラルネットワークで画像の識別を行う処理はフォワード処理とも呼ばれる。フォワード処理では、図１に示すように、左から右に向かって畳み込み層とプーリング層とが交互に複数繰り返される。そして、最後に全結合層で画像に写った識別対象の識別が行われる。

また、ニューラルネットワークで画像の学習を行う処理はバックワード処理とも呼ばれる。バックワード処理では、識別した結果と正解との誤差を求め、それを右から左へニューラルネットワークに逆伝播させ、畳み込みニューラルネットワークの各階層のパラメータを変更する。

図２は、畳み込み層で行う畳み込み計算について模式的に示す図である。

図２においては、入力画像の画素データが各要素に格納されたbottom行列と、入力画像に作用させるフィルタを表すweight行列との畳み込み計算について例示している。この例では、bottom行列とweight行列の各々を複数用意し、それらの間で畳み込みを行う。

なお、複数のbottom行列の各々は、バッチ数Nと入力チャネル番号Cinとにより識別される。一方、weight行列は、出力チャネル番号Coutと入力チャネル番号Cinとにより識別される。

図２の例では畳み込み計算は以下のようにして行われる。
まず、バッチ数Nと出力チャネル番号Coutの組み合わせを一つ選択する。例えば、N=0、Cout=0とする。

そして、選択したバッチ数Nを有する複数のbottom行列と、選択した出力チャネル番号Coutを有する複数のweight行列との組み合わせのうちで、入力チャネル番号Cinが同一となる組み合わせを選択する。例えば、前述のようにN=0、Cout=0とした場合には、N=0かつCin=0のbottom行列と、Cout=0かつCin=0のweight行列とを選択する。

そして、選択したこれらのbottom行列とweight行列との間で畳み込みを行う。その畳み込みにより得られた行列を以下ではtop行列と呼ぶ。

バッチ数Nと出力チャネル番号Coutとを固定した状態でこのような畳み込みをCin=0～255の各々のbottom行列とweight行列に行うことで256個のtop行列が得られる。その後に、これら256個のtop行列の各々を足すことにより、バッチ数Nと出力チャネル番号Coutとで特定される一つの出力行列を得る。

更に、バッチ数Nと出力チャネル番号Coutとを変えながらこのような計算を行うことにより、最終的に全バッチ数N×全出力チャネル番号Coutの個数の出力行列が得られる。図２の例では、６４×３８４個の出力行列が得られる。

このようにして複数のbottom行列と複数のweight行列との畳み込み計算が行われる。

そのような畳み込み計算では、前述のように入力チャネル番号Cinが同一の二つのbottom行列とweight行列との間で畳み込み計算が行われる。そこで、これらの行列の畳み込み計算について詳細に説明する。

図３（ａ）～（ｃ）は、bottom行列とweight行列との畳み込み計算を模式的に示す図である。

まず、図３（ａ）に示すように、畳み込みの対象となるbottom行列とweight行列を用意する。この例では、bottom行列を１３×１３の正方行列とし、weight行列を３×３の正方行列としている。

次に、図３（ｂ）に示すように、bottom行列の周囲を０パディングすることにより１５×１５の行列Mを得る。

続いて、図３（ｃ）に示すように、行列Mにおいてweight行列と同じサイズの小行列P_ijを抽出する。以下ではその小行列P_ijのk行l列の要素を(P_ij)_kl(0≦k,l≦2)で表し、weight行列のk行l列の要素をg_kl(0≦k,l≦2)で表す。

また、行列Mとweight行列との畳み込みで得られた行列を前述のようにtop行列と呼ぶ。この場合、top行列の各要素r_ijは、以下の式（１）から算出することができる。

但し、この方法では、top行列の一つの要素r_ijを求めるために、weight行列の要素数（３×３）と同じ数だけ乗算をする必要があり、畳み込み計算の高速化を実現できない。

畳み込み計算を高速化するアルゴリズムとしてWinogradアルゴリズムが知られている。そこで、以下にWinogradアルゴリズムについて説明する。

深層学習には前述のようにフォワード処理とバックワード処理とがあるが、ここではフォワード処理におけるWinogradアルゴリズムについて説明する。

図４（ａ）～（ｃ）は、フォワード処理におけるWinogradアルゴリズムについて模式的に示す図である。

まず、図４（ａ）に示すように、bottom行列からt×tの小bottom行列dを切り出す。なお、tは自然数である。
次に、次の式（２）に従い、小top行列yを求める。

小top行列yは、top行列の一部を形成する行列である。

また、式（２）におけるB、G、Aは定数行列である。これらの定数行列B、G、Aの要素やサイズは、各行列g、dのサイズに応じて変わる。例えば、weight行列gのサイズが３×３であり、小bottom行列dのサイズが４×４の場合には、定数行列B、G、Aの要素とサイズは以下の式（３）のようになる。

なお、式（２）における演算子「◎」は行列の要素ごとの乗算である。例えば、型が同一の任意の行列U、Vの各々の要素をu_ij、v_ij、U◎Vのij要素を(U◎V)_ijとすると、(U◎V)_ij=u_ijv_ijとなる。

次に、図４（ｂ）に示すように、bottom行列から小bottom行列dを切り出す位置を図４（ａ）の場合よりも２列ずらし、切り出した小bottom行列dに対して上記と同じ計算を行う。これにより得られた小top行列yは、top行列において、図４（ａ）で得た小top行列yの隣のブロックを形成する。

このようにbottom行列から小bottom行列dを切り出す位置を列方向と行方向に二個ずつずらすことにより、図４（ｃ）に示すように、各小top行列yで形成されるtop行列を得ることができる。

以上により、Winogradアルゴリズムを用いたbottom行列とtop行列との畳み込み計算を終える。

式（２）のWinogradアルゴリズムでは、行列GgG^Tと行列B^TdBを一度作ってしまえば、後はそれらの要素ごとの積を計算するだけで畳み込みを行うことができるため、畳み込み計算を高速に行うことができる。

本願発明者は、この例のようにweight行列gのサイズが３×３であり、かつ小bottom行列dのサイズが４×４の場合の計算時間を試算した。その結果、Winogradアルゴリズムを使用しない図３（ａ）～（ｃ）の例では、計算時間が１１５２サイクルとなった。なお、「サイクル」は、レジスタへの書き込み回数と等価である。

一方、Winogradアルゴリズムでは計算時間は９４０サイクルとなり、図３（ａ）～（ｃ）の例と比較して１．２３（＝１１５２／９４０）倍の高速化が図られることが明らかとなった。

次に、このようなWinogradアルゴリズムを利用して畳み込み計算を行う計算機について説明する。

図５は、深層学習等における畳み込み計算を行うための計算機のハードウェア構成図である。

図５に示すように、この計算機１０は、バス１３を介して接続されたメインメモリ１１とプロセッサ１２とを有する。

このうち、メインメモリ１１はDRAM(Dynamic Random Access Memory)等のようにデータを一時的に記憶するデバイスであり、プロセッサ１２と協働して様々なプログラムを実行する。

一方、プロセッサ１２は、ALU(arithmetic and logic unit)等の演算器を備えたハードウェアである。この例では、プロセッサ１２としてDLU(Deep Learning Unit: 登録商標)を使用する。DLUは、深層学習に適したアーキテクチャを有するプロセッサであり、８個のDPU(Deep learning Processing Unit)-chain１４を有する。

図６（ａ）は、一つのDPU-chain１４のハードウェア構成図である。

図６（ａ）に示すように、DPU-chain１４は４個のDPU１５を備える。これらのDPU１５の各々において後述のように並列計算が行われる。

また、図６（ｂ）は、一つのDPU１５のハードウェア構成図である。

図６（ｂ）に示すように、DPU１５は、１６個のDPE(Deep learning Processing Element)0～15を有する。
図７は、各DPEのハードウェア構成図である。

なお、図６（ｂ）に示したようにDPEの総数は１６であるが、以下ではそのうちのDPE0～DPE7のみを示して説明する。

図７に示すように、DPE0～DPE7の各々は、８個の計算コアC#0～C#7と、これらの計算コアC#0～C#7が読み書き可能なレジスタファイル２０とを有する。

このうち、計算コアC#0～C#7は各々が独立したSIMD(Single Instruction Multiple Data)演算器であり、各計算コアC#0～C#7において並列計算を実行することができる。

一方、レジスタファイル２０は、バス１３（図５参照）を介してメインメモリ１１に接続されており、メインメモリ１１から読み出されたデータを格納したり、計算コアC#0～C#7が計算した計算結果を格納したりする。

この例では、レジスタファイル２０を４個のレジスタG#0～G#3に分け、各々が並行して読み出しや書き込みが行えるようにする。例えば、レジスタG#0がメインメモリ１１からデータを読み出している場合には、それと並行して計算コアC#0～C#7が計算した計算結果をレジスタG#1に格納することができる。

図８は、DPE0のハードウェア構成図である。
なお、DPE1～DPE15もこれと同様のハードウェア構成を有するため、その説明については省略する。また、図８では、レジスタファイル２０のレジスタG#0～G#3のうち、レジスタG#0のハードウェア構成のみを示している。他のレジスタG#1～G#3もこれと同様のハードウェア構成を有する。

図８に示すように、レジスタG#0は、８個のバンクR#0～R#7を備える。バンクR#0～R#7は、それぞれが記憶領域の一例であって、計算コアC#0～C#7の各々に対応して設けられる。例えば、バンクR#0は、計算コアC#0に対応して設けられた記憶領域である。計算コアC#0が計算を行うときには、バンクR#0にあるデータを計算コアC#0が読み込んだり、計算コアC#0が計算結果をバンクR#0に書き込んだりすることになる。

図９は、バンクR#0～R#7の各々に付されたライン番号について説明するための図である。

ライン番号は、バンクR#0～R#7のそれぞれのエントリを識別するための識別子であり、この例ではL₀～L₁₂₇の１２８個のライン番号を使用する。各エントリに格納されるデータは特に限定されない。この例では、浮動小数点型のデータを一つのエントリに格納する。これによれば、１２７個の浮動小数点型のデータをバンクR#0に格納できる。バンクR#1～R#7についても同様である。

また、深層学習の畳み込み計算を行う場合には、畳み込み計算の対象となる行列の要素が各エントリに格納される。その場合、行列の要素は、メインメモリ１１において配列要素として格納されている。

そこで、次に、メインメモリ１１に格納されている配列要素をDPE0～DPE7に展開する展開方法について説明する。

その展開方法にはシーケンシャル方式とマルチキャスト方式とがある。
まず、シーケンシャル方式について説明する。

図１０及び図１１は、シーケンシャル方式について説明するための模式図である。

この例では、メインメモリ１１に格納された配列要素a[0]、a[1]、a[2]、…a[127]をDPE0～DPE7に展開するものとする。

この場合は、まず図１０（ａ）に示すように、DPE0のバンクR#0においてライン番号L₀で特定されるエントリに最初の配列要素a[0]を格納する。

次に、図１０（ｂ）に示すように、ライン番号L₀を変えずに隣のバンクR#1に次の配列要素a[1]を格納する。

そして、図１０（ｃ）に示すように、ライン番号L₀を変えずに隣のバンクに次々と要素を格納していく。これにより、DPE0～DPE7の各バンクR#0～R#7においてライン番号L₀で特定されるエントリが、配列要素a[0]、a[1]、a[2]、…a[63]で埋められることになる。

この後は、図１１（ａ）に示すように、DPE0のバンクR#0においてライン番号L₁で特定されるエントリに次の配列要素a[64]を格納する。

そして、図１１（ｂ）に示すように、ライン番号L₁を変えずに隣のバンクR#1に次の配列要素a[65]を格納する。

更に、このようにライン番号L₁を変えずに隣のバンクに次々と配列要素を格納していく。これにより、図１１（ｃ）に示すように、DPE0～DPE7の各バンクR#0～R#7においてライン番号L₁で特定されるエントリが配列要素a[64]、a[65]、a[66]、…a[127]で埋められる。

以上により、シーケンシャル方式により配列要素a[0]、a[1]、a[2]、…a[127]がDPE0～DPE7に展開されたことになる。このようなシーケンシャル方式によれば、DPE0～DPE7の同一のライン番号L_iにあるエントリが順に埋められていき、そのライン番号L_iの最後のエントリが埋まったところで次のライン番号L_i+1に配列要素が格納されていく。

次に、マルチキャスト方式について説明する。
図１２は、マルチキャスト方式について説明するための模式図である。

この例では、メインメモリ１１に格納された配列要素a[0]、a[1]、a[2]、…a[23]をDPE0～DPE7に展開するものとする。

マルチキャスト方式では、DPE0にa[0]、a[1]、a[2]、…a[23]を順に格納していく。そして、これと同様にしてDPE1～DPE7の各々にa[0]、a[1]、a[2]、…a[23]を格納する。この方法によれば、DPE0～DPE7のそれぞれに格納される配列要素が同一となる。

次に、計算機１０においてWinogradアルゴリズムで畳み込み計算を行う場合のレジスタの中身について説明する。

図１３は、各DPEのそれぞれのレジスタG#0の中身を模式的に示す図である。

以下では、行列を表す記号と、その行列の各要素を格納した配列とを同じ記号で表す。例えば、t×tのbottom行列dの各要素を格納する配列をdで表し、３×３のweight行列gの各要素を格納する配列をgで表す。

そして、これらの配列d、gを以下の式（４）のように記述する。

式（４）においてNは、0～63の値をとるバッチ数である。また、Cinは0～255の値をとる入力チャネル番号であり、Coutは0～383の値をとる出力チャネル数である。

そして、HとWは、一つのbottom行列における要素を特定する変数である。同様に、H’とW’は、一つのweight行列における要素を特定する変数である。

この場合、配列dは、シーケンシャル方式によりDPE0～DPE7のそれぞれのレジスタG#0に展開される。

配列dのような多重配列の場合は、最下位の配列要素から順にレジスタG#0に格納される。配列dの最下位の要素はバッチ数Nで特定される。よって、DPE0のバンクR#0、R#1、…R#7の順に、バッチ数Nが0、1、…7の配列要素が格納される。そして、バッチ数Nが8、9、…15の配列要素は、DPE1のバンクR#0、R#1、…R#7に順に格納される。このようにしてバッチ数Nが0～63の各要素がDPE0～DPE7に展開される。

また、配列d[Cin][H][W][N]において、Cin、H、Wで特定される上位の要素については以下のように取り扱う。

まず、図４（ａ）に示したように、bottom行列からt×tの小bottom行列dを切り出す位置を固定し、その小bottom行列dのt×t個の要素を[H][W]に格納する。そして、Cinについては、0～255の値のうちの最初の0～4とする。

これによれば、Cin=0に対応するt×tの行列要素がDPE0～DPE7のそれぞれに展開される。同様に、Cin=1、Cin=2、Cin=3のそれぞれに対応するt×tの行列要素もDPE0～DPE7に展開される。

一方、配列gについては、マルチキャスト方式によりDPE0～DPE7のそれぞれのレジスタG#0に展開される。

この例では、Coutの値が0～7の配列要素を、入力チャネル番号Cinごとにマルチキャストを行う。例えば、Coutの値が0～7の配列要素のうち、Cin=0の要素をDPE0～DPE7のそれぞれにマルチキャストする。Cin=0、Cin=1、Cin=2の配列要素についても同様にマルチキャストによりDPE0～DPE7に転送する。

但し、このようにマルチキャスト方式で配列gを転送すると、DPE0のバンクR#0における入力チャネル番号Cinと出力チャネルCoutの値に規則性がなくなる。これでは、そのバンクR#0に対応した計算コアC#0が、Winogradアルゴリズムで配列g、dを畳み込むのに不便である。他の計算コアC#1～C#7や、DPE1～DPE7においても同様である。
そこで、配列gの要素については以下のように並び替えを行う。

図１４は、メインメモリ１１にある配列gの配列要素を模式的に示す図である。

前述のように、配列gは、weight行列を表す配列であり、３×３の正方行列に対応させることができる。そこで、以下ではこの３×３の正方行列の各要素に順に0、2、…8の数字を割り当て、これらの数字で各要素を識別する。

これによれば、式（４）のようにg[Cout][Cin][H’][W’]と記述した場合、[H’]と[W’]の各々に0、2、…8の数字が割り当てられることになる。

図１５は、前述のマルチキャスト方式で転送された直後のDPE0のレジスタG#0の中身を示す図である。

図１５に示すように、マルチキャスト方式で転送を行うと、g[Cout][Cin][H’][W’]の下位の要素から順にバンクR#0～R#7の一つのラインが埋められる。そして、そのラインの最後のバンクR#7が埋まると、一つ上のラインが順に埋められていく。

weight行列gの要素数は９であるのに対し、バンクR#0～R#7の個数は８個であり、両者の数は一致しない。よって、このようにマルチキャスト方式でレジスタに転送を行うと、Cin=0かつCout=0の９個の要素が二つのラインをまたいでレジスタに格納されることになる。他のCinとCoutの組み合わせでも同様である。

これにより、バンクR#0にはCinやCoutの値が様々な配列要素が格納されてしまい、バンクR#0におけるCinとCoutの規則性が低下する。

そこで、この例では、DPE0の各計算コアC#0～C#7が、DPE0の残りのレジスタG#1～G#3のいずれかをバッファとしながら、レジスタG#0における配列gの要素を整列させる。

図１６は、整列後のDPE0のレジスタG#0の中身を示す図である。

図１６に示すように、整列をすることによって、Coutの値が同一の要素は同一のバンクに格納される。例えば、バンクR#0にはCout=0の要素のみが格納される。

図１７は、このように整列をした後のDPE0～DPE7の各々のレジスタG#0の中身を示す図である。

図１７に示すように、例えばDPE0のバンクR#0に格納される配列gの要素は、Cout=0かつCin=0～3の要素となる。また、このバンクR#0に格納される配列dの要素は、N=0かつCin=0～3の要素である。

これにより、バンクR#0における配列d、gのそれぞれのCinの値が同一となり、Cinの値が同一の配列d、g同士の畳み込みを計算コアC#0がWinogradアルゴリズムに従って実行できるようになる。

また、各バンクR#0～R#7とバッチ数Nとは一対一に対応しており、異なるバッチ数に対する畳み込み計算が各バンクR#0～R#7において実行される。これについては他のDPE1～DPE7でも同様である。

そして、このような畳み込み計算を各DPE0～DPE7の各計算コアC#0～C#7が並列実行することにより、深層学習のフォワード処理やバックワード処理を高速に実行できると期待される。

しかし、本願発明者が検討したところ、このように各バンクR#0～R#7とバッチ数Nとを一対一に対応させる方法には以下のような問題があることが明らかとなった。

図１８は、その問題について説明するための図であり、DPE0のレジスタG#0のバンクR#0の模式図である。

この例では、各バンクR#0～R#7とバッチ数Nとを一対一に対応させつつ、入力チャネル番号Cinが相互に等しい小bottom行列dとweight行列gとを一つのバンクに格納する。よって、一つのバンクに小bottom行列dとweight行列をそれぞれ同じ個数だけ格納する必要が生じ、小bottom行列dのサイズを大きくしようとすると小bottom行列dの要素がバンクから溢れてしまう。

例えば、図１８のように、４個の小bottom行列dと４個のweight行列gとをバンクR#0に格納する場合を考える。小bottom行列dのサイズはt×tであり、weight行列gのサイズは３×３である。よって、バンクR#0に格納される要素数は、４×t²＋４×３^２個となる。前述のように一つのバンクに格納可能なデータの個数は１２７個であるから、これを要素数が超えないようにするにはtを４以下にする必要がある。

このようにtが小さいと、式（２）で得られる小top行列yのサイズも小さくなるため、top行列を得るために多数の小top行列yを計算しなければならず、畳み込みに要する計算時間が長くなってしまう。その結果、畳み込み計算を高速化できるというWinogradアルゴリズムの特徴を十分に活かすことができなくなってしまう。

以下に、畳み込み計算を高速に実行することが可能な各実施形態について説明する。

（本実施形態）
図１９は、本実施形態に係る情報処理装置３１のハードウェア構成図である。

情報処理装置３１は、計算機１０（図５参照）で実行可能なプログラムを生成するためのPC(Personal Computer)等のコンピュータであり、記憶装置３２、メインメモリ３３、プロセッサ３４、入力装置３５、及び表示装置３６を備える。これらの各部はバス３７によって相互に接続される。

このうち、記憶装置３２は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等の二次記憶装置であり、本実施形態に係る情報処理プログラム３９を記憶する。

その情報処理プログラム３９を実行することにより、後述のように計算機１０（図５参照）で実行可能なプログラムを生成することができる。

なお、情報処理プログラム３９をコンピュータが読み取り可能な記録媒体３８に記録させておき、プロセッサ３４に記録媒体３８の情報処理プログラム３９を読み取らせるようにしてもよい。

そのような記録媒体３８としては、例えばCD-ROM(Compact Disc - Read Only Memory)、DVD(Digital Versatile Disc)、及びUSB(Universal Serial Bus)メモリ等の物理的な可搬型記録媒体がある。また、フラッシュメモリ等の半導体メモリやハードディスクドライブを記録媒体３８として使用してもよい。これらの記録媒体３８は、物理的な形態を持たない搬送波のような一時的な媒体ではない。

更に、公衆回線、インターネット、及びLAN(Local Area Network)等に接続された装置に情報処理プログラム３９を記憶させておき、プロセッサ３４が情報処理プログラム３９を読み出して実行するようにしてもよい。

一方、メインメモリ３３は、DRAM(Dynamic Random Access Memory)等のようにデータを一時的に記憶するハードウェアであって、その上に情報処理プログラム３９が展開される。

プロセッサ３４は、自装置の各部を制御したり、メインメモリ３３と協働して情報処理プログラム３９を実行したりするCPU(Central Processing Unit)等のハードウェアである。

入力装置３５は、ユーザが操作するキーボードやマウス等の入力デバイスである。また、表示装置３６は、情報処理プログラム３９の実行時にユーザが使用する様々なコマンドを表示する液晶ディスプレイ等の表示デバイスである。

図２０は、本実施形態に係る情報処理装置３１の機能構成図である。
図２０に示すように、情報処理装置３１は、出力部４１と算出部４２とを有する。これらの各部は、プロセッサ３４とメインメモリ３３が協働して前述の情報処理プログラム３９を実行することにより実現される。

このうち、出力部４１は、計算機１０（図５参照）で実行可能なプログラム５０を生成する機能ブロックである。そのプログラムは、中間コードが記述されたファイルでもよいし、実行可能なバイナリファイルでもよい。

また、算出部４２は、そのプログラム５０における様々なパラメータを最適化する機能ブロックである。そのパラメータとしては、図４（ａ）～（ｃ）のようにbottom行列から切り出す小bottom行列dのサイズtがある。また、後述するバンクの個数qも最適化の対象となるパラメータの一例である。

図２１は、プログラム５０を実行することにより実現される計算機１０の機能ブロック図である。

図２１に示すように、計算機１０は、受付部５１、選択部５２、格納部５３、計算部５４、及び出力部５５を備える。これらの各部は、図５のメインメモリ１１とDLU１２が協働してプログラム５０を実行することにより実現される。

このうち、受付部５１は、bottom行列とweight行列の入力を受け付ける。また、選択部５２は、図４（ａ）～（ｃ）に示したように、bottom行列からt×tの小bottom行列dを選択する。前述のようにサイズtの値は算出部４２によって最適化されており、最適化されたサイズtを利用して選択部５２が小bottom行列dを選択する。

そして、格納部５３は、小bottom行列dとweight行列gのそれぞれの要素をDPE0～DPE7の各バンクR#0～R#7に格納する。

また、計算部５４は、各バンクR#0～R#7に格納されたこれらの要素を用いて畳み込み計算を行う。出力部５５は、畳み込み計算の結果である小top行列y（図４（ａ）～（ｃ）参照）を出力する。

次に、格納部５３の機能について詳細に説明する。
格納部５３は、メインメモリ１１から読み出した各配列の要素を各バンクR#0～R#7に格納する機能ブロックであるが、どのように格納するかはフォワード処理とバックワード処理とで異なる。

ここではフォワード処理について説明する。フォワード処理の場合、格納部５３は、メインメモリ１１から読み出した各配列の要素を次の式（５）のように並び替え、各要素をDPE0～DPE7の各バンクR#0～R#7に格納する。

なお、配列yは、小bottom行列dとweight行列gとを畳み込んで得られた小top行列の要素を格納するための配列である。そして、この例では、weight行列gが第１の行列の一例となり、t×tの小bottom行列dが第２の行列の一例となる。

また、（Cinの個数）=（Cin_majorの個数）×（Cin_minorの個数）であり、組（Cin_major、Cin_minor）によって入力チャネル番号Cinを特定することができる。そこで、以下では組（Cin_major、Cin_minor）と入力チャネル番号Cinとを同一視する。例えば、Cin_major=0、Cin_minor=0の配列要素はCin=0に対応し、Cin_major=0、Cin_minor=1の配列要素はCin=1に対応する。

同様に、（Nの個数）=（N_majorの個数）×（N_minorの個数）であり、組（N_major、N_minor）によってバッチ数Nを特定することができるため、以下では組（N_major、N_minor）とバッチ数Nとを同一視する。例えば、N_major=0、N_minor=0の配列要素はN=0に対応し、N_major=0、N_minor=1の配列要素はN=1に対応する。

式（５）によれば、入力チャネル番号Cinとバッチ数Nとを特定することで一つの小bottom行列dを特定することができる。この例における入力チャネル番号Cinは、このように小bottom行列dを特定する第１の識別子の一例である。同様に、この例におけるバッチ数Nは、小bottom行列dを特定する第２の識別子の一例である。

また、この例では、Cin_minorの総数を4とし、N_minorの総数を16とする。更に、Cin_majorの総数は1とし、N_majorの総数は4とする。これにより、図２のように全部で256個ある入力チャネル番号Cinのうちの4(=1×4)個と、64(=4×16)個のバッチ数の各々で特定されるbottom行列に対して畳み込み計算が行われる。

更に、配列dにおける要素[H][W]は、t×tの小bottom行列dの各要素に対応する。

一方、配列gの要素[H’][W’]は、３×３のweight行列gの各要素に対応する。また、配列gの入力チャネル番号Cinの総数は、配列dの入力チャネル番号と同じ4個とする。そして、出力チャネル番号Coutの総数は8個とする。

図２２は、フォワード処理を行う場合に、格納部５３によって各配列d、gが格納されたDPE0～DPE7の各々のレジスタG#0の中身を示す図である。

DPE0においては、複数の計算コアの各々が、バンクR#0～R#7のうちで自身に対応するバンクに格納された各行列d、gの間で畳み込み計算を行う。その畳み込み計算は、複数の計算コアの各々で並列実行されるため、畳み込み計算を高速化することができる。これについてはDPE0～DPE7においても同様である。

また、配列d、gのうち、配列dについては、図１３と同様にシーケンシャル方式でDPE0～DPE7の各バンクR#0～R#7に格納する。ここでは、Cin_majorが同一の配列dのみを各バンクR#0～R#7に一度に格納する。そして、その配列dの畳み込みが終了した後に、Cin_majorが別の値の配列dを各バンクR#0～R#7に格納する。図２２は、Cin_major=0の配列dを各バンクR#0～R#7に格納した場合を想定している。

このとき、本実施形態では、式（５）のように配列dの最下位にCin_minorを記述し、その上位にN_minorを記述したため、N_minorが同一の範囲で各バンクとCin_minorとが一対一に対応する。そのため、Cin_minorの総数をq(=4)個とすると、一つのDPEにおけるq個のバンクの各々には、入力チャネル番号（Cin_major、Cin_minor）が相互に異なり、かつバッチ数（N_major、N_minor）が同一のq個の小bottom行列dが格納されることになる。

例えば、DPE0においては、R#0～R#3の４(=q)個のバンクの各々に、バッチ数Nが（0、0）であり、かつ入力チャネル番号Cinが（0、0）、（0、1）、（0、2）、（0、3）である４個の小bottom行列dが格納される。

これにより、図１３のようにバンクR#0～R#7ごとにバッチ数Nを変える例とは異なり、同一のバッチ数Nを有するq個の小bottom行列dの畳み込み計算をq個の計算コアが並列して実行することができる。

一方、weight行列gについては、格納部５３が図１３の例と同様にマルチキャスト方式によりメインメモリ１１から各DPE0～DPE7の各バンクに格納する。

ここでは、格納部５３は、小bottom行列dと同一の入力チャネル番号Cinを有するweight行列gを各DPE0～DPE7の各バンクに格納する。このように入力チャネル番号Cinが相互に等しい行列d、gを同一のバンクに格納することにより、計算部５４が、図２のように同一の入力チャネル番号Cinが相互に等しい行列d、g同士の畳み込み計算を行うことができる。

但し、マルチキャスト方式で配列gを各バンクに転送すると、図１５を参照して説明したように、一つのバンクにおける入力チャネル番号Cinと出力チャネルCoutの規則性が低下する。そこで、本実施形態では、Winogradアルゴリズムで畳み込み計算を行うときに、計算部５４が以下のようにして配列gの要素を整列させる。

図２３～図２５は、計算部５４がWinogradアルゴリズムで畳み込み計算を行う場合のDPE0の各レジスタG#0～G#3の中身を示す図である。なお、図２３～図２５では、図が煩雑になるのを避けるために、レジスタG#0～G#3のバンクR#0のみを示している。

畳み込み計算を行う前は、図２３（ａ）に示すように、レジスタG#0のバンクR#0に配列d、gの各要素が格納されている。このうち、配列dとしては、前述のようにバッチ数N（＝（N_major、N_minor））が異なる複数の配列dがバンクR#0に格納されている。

次に、式（２）に従って、配列dの両側から行列B^T、Bを乗算し、その結果である行列B^TdBを配列dと同じラインに格納する。なお、行列B^T、Bの各要素は、バンクR#0の定数領域cstに格納されている。

また、この段階では、weight行列を表す配列gは、図１５のように規則性が乱れた状態となっている。

そこで、次のステップでは、図２３（ｂ）に示すように、レジスタG#0のバンクR#0に格納されている配列gの各要素を、レジスタG#3のバンクR#0に転送しながら各要素を整列させる。

整列後のレジスタの中身は、図１６に示したように、バンクR#0～R#7と出力チャネル番号Coutとが一対一に対応しており、バンクR#0にはCout=0の要素のみが格納される。

次に、図２４に示すように、式（２）に従って、配列gの両側から行列G、G^Tを乗算し、その結果である行列GgG^Tを同じバンクの空き領域に格納する。なお、行列G、G^Tの各要素は、バンクR#0の定数領域cstに格納されている。

次いで、図２５に示すように、レジスタG#0のバンクR#0にある二つの行列B^TdBと、レジスタG#3のバンクR#0にある一つの行列GdG^Tとに対して、式（２）の要素ごとの乗算「◎」を行う。

なお、畳み込み計算は、図２を参照して説明したように入力チャネル番号Cinが同じ二つの行列に対して行う。よって、レジスタG#3のバンクR#0にある四つの行列GdG^TのうちのCin=0の行列と、レジスタG#0のバンクR#0にあるCin_minor=0の二つの行列B^TdBを用いて要素ごとの乗算「◎」を行う。

この後は、式（２）に従って[GgG^T]◎[B^TdB]の両側から行列A^T、Aを乗算し、小top行列yを得る。

以上により、計算部５４が行うWinogradアルゴリズムを用いた畳み込み計算を終了する。

このような畳み込み計算によれば、図２３（ａ）に示したように、レジスタG#0のバンクR#0に、バッチ数N（=（N_minor、N_major））が異なるbottom行列を格納する。

これにより、図１７のようにバッチ数Nが同一で入力チャネル番号Cinが異なる複数の小bottom行列dを同一のバンクに格納する例と比較して、一つのバンクに格納する小bottom行列dの個数を減らすことができる。その結果、bottom行列dのサイズtを大きくすることができ、Winogradアルゴリズムで畳み込み計算を高速に行うことが可能となる。

t=6の場合について本願発明者が試算したところ、Winogradアルゴリズムを使用しない図３（ａ）～（ｃ）の例では、畳み込みに要する計算時間が２３０４サイクルとなった。一方、本実施形態ではその計算時間は１２６４サイクルとなり、１．８２（＝２３０４／１２６４）倍の高速化が図られることが明らかとなった。

畳み込み計算を更に高速に行うにはtの値をなるべく大きくすればよいが、tを大きくし過ぎるとバンクR#0～R#7の各々に小bottom行列dを格納することができなくなってしまう。一方、tの値が小さいとバンクR#0～R#7の各々に小bottom行列dを確実に格納できるものの、畳み込み計算の計算時間が長くなってしまう。

そこで、本実施形態では、以下のようにして最適なtの値を求める。
まず、各パラメータを次のように定義する。
p: 一つのDPEにおけるバンクの個数
q: 一つのDPEにおいて、同一のN_minorを有する小bottom行列dが格納されるバンクの個数
R: 一つのバンクに格納できるデータの個数

図２２の例の場合、これらのパラメータの具体的な値は次のようになる。

p: ８個
q: ４個
R １２８個

更に、次のパラメータを定義する。
Cin’: DPE0で一度に処理する入力チャネル番号Cinの個数
Cout’: DPE0で一度に処理する出力チャネル番号Coutの個数
N’: DPE0で一度に処理するバッチ数Nの個数
これらのパラメータについて、図２２の例を参照しながら説明する。

Cin’は、上記のようにDPE0で一度に処理する入力チャネル番号Cinの個数である。入力チャネル番号Cinは組（Cin_major、Cin_minor）で特定されるが、図２２の例では（Cin_major、Cin_minor）＝（0、0）、（0、1）、（0、2）、（0、3）の配列g、dのみをDPE0で処理しているため、Cin’=4となる。

一方、Cout’は、上記のようにDPE0で一度に処理する出力チャネル番号Coutの個数である。図２２の例ではCoutの値が0～7の８個のweight行列gがDPE0に格納されているため、Cout’=8となる。

また、N’は、上記のようにDPE0で一度に処理するバッチ数Nの個数である。図２２の例では、組（N_major、N_minor）が（0、0）、（0、1）、（1、0）、（1、1）の４個の小bottom行列dがDPE0で処理されているため、N’=4となる。
次に、畳み込み計算の計算時間について検討する。

まず、図２３（ａ）のようにt×tの小bottom行列dから行列B^TdBを求める場合の計算時間について検討する。行列B^TdBを求めるには、例えば最初にB^Tdを計算し、その計算結果に右から行列Bをかければよい。また、B^Tdを計算するには、t×tの小bottom行列dをt個の列ベクトルに分解し、その列ベクトルと行列B^Tとの積を求めればよい。

そこで、この例では、t×tの小bottom行列dを構成するt個の列ベクトルのうちの一つと行列B^Tとの積を求めるときに要する計算時間をb(t)と書く。その関数b(t)を用いると、一つのDPEでB^TdBを求めるのに要する計算時間は次の式（６）のように書ける。

式（６）に「t」を含めたのは、B^Tdを求めるときに、小bottom行列dのt個の列ベクトルを行列B^Tに乗ずる必要があるため、関数b(t)が表す計算時間よりもt倍長い計算時間が必要になることを考慮してのことである。同様に、行列B^TdとBとの積を求める場合にも、行列Bのt個の列ベクトルを行列B^Tdに乗じる必要がある。よって、トータルの計算時間は関数b(t)が表す計算時間のt+t倍となるため、因子「t+t」を式（６）に含めた。

また、図２２に示したように、一つのDPEには全部でCin’・N’個の小bottom行列dがあるから、一つのバンクあたりの小bottom行列dの個数はCin’・N’/q個となる。計算コアC#0～C#7の各々は、自身に対応する一つのバンクにあるCin’・N’/q個の小bottom行列dの各々についてB^TdBを求める必要があるため、式（６）に因子Cin’・N’/qを含めた。

次に、図２４のように３×３のweight行列gから行列GgG^Tを求める場合の計算時間について検討する。

行列GgG^Tを求めるには、例えば最初にGgを計算し、その計算結果に右から行列G^Tをかければよい。また、Ggを計算するには、weight行列gを３個の列ベクトルに分解し、その列ベクトルと行列Gとの積を求めればよい。

そこで、この例では、３×３のweight行列gを構成する３個の列ベクトルのうちの一つと行列Gとの積を求めるときに要する計算時間をw(t)と書く。その関数w(t)を用いると、一つのDPEでGgG^Tを求めるのに要する計算時間は次の式（７）のように書ける。

式（７）に「3」を含めたのは、行列Ggを求めるときに、weight行列gの３個の列ベクトルを行列Gに乗ずる必要があるため、関数w(t)が表す計算時間よりも３倍長い計算時間が必要になることを考慮してのことである。

また、行列Ggと行列G^Tとの積を求める場合には、行列G^Tのt個の列ベクトルを行列Ggに乗じる必要がある。よって、トータルの計算時間は関数w(t)が表す計算時間よりもt+3倍だけ長くなるため、因子「t+3」を式（７）に含めた。

また、図２２に示したように、一つのDPEには全部でCin’・Cout’個のweight行列gがあるから、一つのバンクあたりのweight行列gの個数はCin’・Cout’/p個となる。計算コアC#0～C#7の各々は、自身に対応する一つのバンクにあるCin’・Cout’/p個の小bottom行列dの各々についてGgG^Tを求める必要があるため、式（７）に因子Cin’・Cout’/pを含めた。

次に、図２５のように行列B^TdBとGgG^Tとの要素ごとの乗算を行うのに要する計算時間について検討する。

図２２に示したように、一つのDPEに格納される小bottom行列dの個数はN’・Cin’・Cout’/pとなる。また、小bottom行列dの要素数はt²である。よって、行列B^TdBとGgG^Tのそれぞれの要素ごとを乗算するときの乗算の回数は、次の式（８）で表される。

式（６）～（８）は、N個のバッチ数からN’個を選択し、Cout個の出力チャネル番号からCout’個を選択し、Cin個の入力チャネル番号からCin’個を選択した場合の計算時間である。よって、図２の全てのbottom行列とweight行列との畳み込み計算を行うには、更に次の式（９）の回数だけ計算を行う必要がある。

なお、式（９）における因子HW/(t-2)²は、H×Wのbottom行列からt×tの小行列を切り出すときの切り出し方の総数を表す。

以上の式（６）～（９）によれば、計算時間は、tだけでなくqにも依存する。そこで、本実施形態では一つのDPEで畳み込み計算をするときの計算時間を第１の関数f(t,q)で表す。第１の関数f(t,q)は、式（６）～（７）の和に式（９）を乗じることにより以下の式（１０）のように表すことができる。

畳み込みに必要な計算時間を短くするには、weight行列gと小bottom行列dの各々の要素数がレジスタに格納可能な個数を超えない条件下で、第１の関数f(t,q)の値を最小とするようなtとqの組み合わせを見つければよい。

そこで、次に小bottom行列dとweight行列gの各々の要素数について検討する。
まず、小bottom行列dの要素数について説明する。

一つのDPEの一つのバンクにおける小bottom行列dの要素数E_bは次の式（１１）で表すことができる。

式（１１）において、t²は、一つの小bottom行列dの要素数である。また、Cin’・N’/qは、一つのバンクに格納される小bottom行列dの個数である。

一方、一つのDPEの一つのバンクにおけるweight行列gの要素数E_wは次の式（１２）で表すことができる。

式（１２）において、3²は、一つのweight行列gの要素数である。また、Cin’・Cout’/pは、一つのバンクに格納されるweight行列gの個数である。

式（１１）と式（１２）より、小bottom行列dとweight行列gの各々の要素の総数を表す第２の関数g(t,q)は次の式（１３）のように書ける。

前述のように一つのバンクに格納できるデータの個数をRとすると、次の式（１４）の制約条件が得られる。

以上により、式（１４）の制約条件を満たすt,qの組み合わせのうちで、式（１０）の第１の関数f(t,q)の値を最小とするようなtとqの組み合わせを見つけることにより畳み込み計算を高速化できることになる。

そこで、本実施形態では、算出部４２が式（１４）の制約条件を満たすt,qの組み合わせのうちで、式（１０）の第１の関数f(t,q)の値を最小とするようなtとqの組み合わせを算出する。

なお、本実施形態ではR=128であり、式（１４）を満たすtとqの候補の数はそれほど多くはない。そのため、算出部４２は、全探索で式（１４）を満たすtとqの組み合わせを見つけ出し、これらのうちで式（１０）の第１の関数f(t,q)の値を最小とするものを特定することができる。

ところで、式（１０）では、b(t)とw(t)を既知の関数として扱った。b(t)とw(t)は、以下のようにして求めることができる。

まず、w(t)の求め方について説明する。前述のように、w(t)は、Ggを計算するときに、３×３のweight行列gを構成する３個の列ベクトルのうちの一つと行列Gとの積を求めるときに要する計算時間である。t=6のとき、行列Gの各要素は次の式（１５）のようになる。

この行列Gは次の式（１６）のように変形できる。

式（１６）の右辺の二つの行列を以下の式（１７）、（１８）のようにおく。

よって、Ggを計算するには、最初にG’gを計算し、その結果に左からG”をかければよいことになる。そこで、G’gの計算方法について説明する。

３×３のweight行列gの一つの列g’を以下では(g₀,g₁,g₂)^Tと書く。すると、G’g’は次の式（１９）のように書ける。

なお、(x₀,x₁,x₂,x₃,x₄,x₅)^Tは、G’g’の各要素を格納する変数である。

ここで、式（１９）の計算を行うために、６個の配列要素a[0]、a[1]、a[2]、a[3]、a[4]、a[5]を用意する。そして、a[0]、a[1]、a[2]の各々にg₀、g₁、g₂を格納しておく。そして、計算用のバッファとして２個の配列要素b[0]、b[1]を用意する。

このとき、式（１９）の計算は、図２６の順序で各配列要素に値を代入することにより実現できる。

図２６は、式（１９）の計算をステップ順に示す模式図である。なお、図２６における「//」は、各ステップの意味を表すコメント文である。これについては後述の図２７においても同様である。

図２６に示す手順で計算を行うと、最終的に(a[0]、a[1]、a[2]、a[3]、a[4]、a[5]) = (x₀,x₁,x₅,x₂,x₄,x₃)となり、配列要素a[0]、a[1]、a[2]、a[3]、a[4]、a[5]の各々にG’g’の計算結果を格納することができる。

そして、G’g’の計算は、８ステップで行うことができる。よって、w(6)=8となる。tの値が6とは異なる場合もこれと同様にしてw(t)の値を求めることができる。

次に、b(t)の求め方について説明する。前述のように、b(t)は、t×tの小bottom行列dを構成するt個の列ベクトルのうちの一つと行列B^Tとの積B^Tdを求めるときに要する計算時間である。t=6のとき、行列B^Tの各要素は次の式（２０）のようになる。

また、６×６の小bottom行列dの一つの列d’を以下では(d₀,d₁,d₂,d₃,d₄,d₅)^Tと書く。このとき、B^Td’は次の式（２１）のように書ける。

なお、(x₀,x₁,x₂,x₃,x₄,x₅)^Tは、B^Td’の各要素を格納する変数である。

ここで、式（２１）の計算を行うために、６個の配列要素a[0]、a[1]、a[2]、a[3]、a[4]、a[5]を用意し、この各々にd₀,d₁,d₂,d₃,d₄,d₅を予め格納しておく。

そして、計算用のバッファとして４個の配列要素b[0]、b[1]、b[2]、b[3]を用意する。

このとき、式（２１）の計算は、図２７の順序で各配列要素に値を代入することにより実現できる。

図２７は、式（２１）の計算をステップ順に示す模式図である。
図２７に示す手順で計算を行うと、最終的に(a[0]、a[1]、a[2]、a[3]、a[4]、a[5]) = (x₀,x₁,x₂,x₃,x₄,x₅)となり、配列要素a[0]、a[1]、a[2]、a[3]、a[4]、a[5]の各々にB^Td’の計算結果を格納することができる。

そして、B^Td’の計算は、１５ステップで行うことができる。よって、b(6) = 15となる。tの値が6とは異なる場合もこれと同様にしてb(t)の値を求めることができる。

以上説明した事項に基づき、本実施形態に係る情報処理装置３１は以下のような情報処理方法を実行する。

図２８は、本実施形態に係る情報処理方法のフローチャートである。
まず、ステップS1において、算出部４２（図２０参照）がtとqの組み合わせを算出する。例えば、算出部４２は、式（１４）の制約条件を満たすtとqの組み合わせのうちで、式（１０）の第１の関数f(t,q)の値が最小となる組み合わせを算出する。これにより、weight行列gとt×tの小bottom行列dの要素をq個のバンクに格納できるtとqの組み合わせのうちで、計算時間が最小の組み合わせを得ることができる。

次に、ステップS2に移り、出力部４１（図２０参照）が、計算機１０（図５参照）で実行可能なプログラム５０を出力する。

そのプログラム５０には、ステップS1で算出したtとqの組み合わせが使用される。例えば、計算機１０でプログラム５０を実行すると、選択部５２（図２１参照）がbottom行列からt×tの小bottom行列dを選択する。

そして、格納部５３が、DPE0のバンクR#0～R#7のうちのq個のバンクの各々に、t×tの小bottom行列dとweight行列gを格納する。その後、計算部５４が、図２３～図２５の手順に従って、Winogradアルゴリズムを用いて小bottom行列dとweight行列gとの畳み込み計算を行う。

以上により、本実施形態に係る情報処理方法の基本ステップを終了する。

上記した本実施形態によれば、小bottom行列dとweight行列gを一つのバンクに格納できるという式（１４）の制約条件の下で、畳み込み計算の計算時間を表す第１の関数f(t,q)が最小となるtとqの組み合わせを算出部４２が算出する。

そのため、レジスタのバンクに小bottom行列dとweight行列gを格納しつつ、これらの行列を用いて高速に畳み込み計算を行うことが可能となる。

＜backword処理＞
図２２の例では、深層学習のフォワード処理における畳み込み計算をWinogradアルゴリズムで行った。

以下では、深層学習のバックワード処理におけるWinogradアルゴリズムについて説明する。backword処理には、top行列とweight行列とを畳み込んでbottom行列を得る処理と、top行列とbottom行列とを畳み込んでweight行列を得る処理がある。

まず、前者のようにtop行列とweight行列との畳み込み計算によりbottom行列を得る処理について説明する。

図２９（ａ）～（ｃ）は、backword処理において、top行列とweight行列との畳み込み計算をWinogradアルゴリズムで行うときの模式図である。

まず、図２９（ａ）に示すように、選択部５２（図２１参照）が、H行W列のtop行列からt×tの小top行列yを選択する。

次に、次の式（２２）に従い、計算部５４が、weight行列gと小top行列yとを畳み込むことにより小bottom行列dを求める。

次に、図２９（ｂ）に示すように、top行列から小top行列yを切り出す位置を図２９（ａ）の場合よりも２列ずらし、切り出した小top行列yに対して上記と同じ計算を行う。これにより得られた小bottom行列dは、botttom行列において、図２９（ａ）で得た小bottom行列dの隣のブロックを形成する。

このようにtop行列から小top行列yを切り出す位置を列方向と行方向に２個ずつずらすことにより、図２９（ｃ）に示すように、各小bottom行列dで形成されるbottom行列を得ることができる。

以上により、backword処理におけるtop行列とweight行列との畳み込み計算を終える。この例では、weight行列gが第１の行列の一例となり、t×tの小top行列yが第２の行列の一例となる。

次に、このようにbackword処理をする場合の格納部５３の機能について詳細に説明する。

格納部５３は、次の式（２３）のように各配列の要素を並べ、各要素をDPE0～DPE7の各バンクR#0～R#7に格納する。

ここで、Nをバッチ数とすると、（Nの個数）=（N_majorの個数）×（N_minorの個数）、（Coutの個数）=（Cout_majorの個数）×（Cout_minorの個数）である。この場合、式（５）と同様に組（N_major、N_minor）でバッチ数Nが特定される。なお、このバックワード処理においては、バッチ数Nは、小top行列yを識別する第２の識別子の一例である。

また、出力チャネル番号Coutも組（Cout_major、Cout_minor）で特定される。例えば、Cout_major=0、Cout_minor=0の配列要素はCout=0に対応し、Cout_major=0、Cout_minor=1の配列要素はCout=1に対応する。そして、このバックワード処理においては、出力チャネル番号Coutが、小top行列yを識別する第１の識別子となる。

更に、この例では、図２と同様にバッチ数Nの総数を64、出力チャネル番号Coutの総数を384とする。そして、N_majorの総数を16、N_minorの総数を4、Cout_minorの総数を4とする。

また、配列yにおける要素[H’’][W’’]は、t×tの小top行列yの各要素に対応する。

図３０は、格納部５３によって各配列y、gが格納されたDPE0～DPE7の各々のレジスタG#0の中身を示す図である。

各配列y、gのうち、配列yについては、格納部５３がシーケンシャル方式でDPE0～DPE7の各バンクR#0～R#7に格納する。

このとき、本実施形態では、式（２３）のように配列yの最下位にCout_minorを記述し、その上位にN_minorを記述したため、N_minorが同一の範囲で各バンクとCout_minorとが一対一に対応する。そのため、Cout_minorの総数をq(=4)個とすると、一つのDPEにおけるq個のバンクの各々には、出力チャネル番号（Cout_major、Cout_minor）が相互に異なり、かつバッチ数（N_major、N_minor）が同一のq個の小top行列yが格納されることになる。

例えば、DPE0においては、R#0～R#3の４個のバンクの各々に、バッチ数Nが（0、0）であり、かつ出力チャネル番号Coutが（0、0）、（0、1）、（0、2）、（0、3）である４個の小top行列yが格納される。

これにより、図１３のようにバンクR#0～R#7ごとにバッチ数Nを変える例とは異なり、同一のバッチ数Nを有するq個の小top行列yの畳み込み計算をq個の計算コアで並列して実行することができる。

一方、weight行列gについては、格納部５３が図２２の例と同様にマルチキャスト方式によりメインメモリ１１から各DPE0～DPE7に転送する。

なお、図１５を参照して説明したように、マルチキャスト方式では、入力チャネル番号Cinと出力チャネルCoutの値に規則性がない。よって、この例においても、図２３～図２５と同様にして計算部５４が配列gを整列させる。

次に、このバックワード処理における畳み込み計算の計算時間について検討する。

式（２２）のB^TyBを一つのDPEで求めるのに要する計算時間は、式（６）におけるCin’をCout’に置き換えることにより、次の式（２４）のように書ける。

また、式（２２）のGgG^Tを一つのDPEで求めるのに要する計算時間は、式（７）と同じ理由により、式（２５）のように書ける。

更に、式（２２）において行列B^TyBとGgG^Tのそれぞれの要素ごとを乗算するときの乗算の回数は、式（８）と同様に次の式（２６）で表される。

そして、全てのtop行列とweight行列との畳み込み計算を行うには、式（９）のpをCout’に置き換えた次の式（２７）の回数だけ計算を行う必要がある。

一つのDPEで畳み込み計算をするときの計算時間を表す第１の関数f(t,q)は、式（２４）～（２６）の和に式（２７）を乗じることにより以下の式（２８）のように表すことができる。

次に、小top行列yとweight行列gの各々の要素数がレジスタに格納可能な個数を超えない条件について検討する。
まず、小top行列yの要素数について説明する。

一つのDPEの一つのバンクにおける小top行列yの要素数E_yは、式（１１）のCin’をCout’に置き換えることにより次の式（２９）で表すことができる。

一方、一つのDPEの一つのバンクにおけるweight行列gの要素数E_wは、式（１２）と同様に次の式（３０）で表すことができる。

式（２９）と式（３０）より、小top行列yとweight行列gとを合わせた要素の総数を表す第２の関数g(t,q)は次の式（３１）のように書ける。

よって、一つのバンクに格納できるデータの個数をRとすると、次の式（３２）の制約条件が得られる。

以上により、式（３２）の制約条件を満たすt,qの組み合わせのうちで、式（２８）の第１の関数f(t,q)の値を最小とするようなtとqの組み合わせを見つけることにより、畳み込み計算を高速化できることになる。

そこで、この例のようにtop行列とweight行列とを畳み込んで小bottom行列dを得るバックワード処理をする場合には、算出部４２は、式（３２）の制約条件を満たすt,qの組み合わせを特定する。そして、特定した組み合わせのうち、式（２８）の第１の関数f(t,q)の値を最小とするようなtとqの組み合わせを算出部４２が算出し、畳み込み計算を高速化する。

次に、top行列とbottom行列とを畳み込んでweight行列を得るバックワード処理について説明する。

図３１～図３２は、backword処理において、top行列とbottom行列との畳み込み計算をWinogradアルゴリズムで行うときの模式図である。

まず、図３１（ａ）に示すように、選択部５２が、H×Wのtop行列からt’×t’の小top行列yを選択する。

そして、図３１（ｂ）に示すように、選択部５２が、H’×W’のbottom行列から(t’-2)×(t’-2)の小bottom行列dを選択する。

続いて、図３２（ａ）に示すように、計算部５４が、小top行列yから(t’-2)×(t’-2)の行列y’を選択する。そして、計算部５４が、次の式（３３）に従ってweight行列gの11成分を求める。

次に、図３２（ｂ）に示すように、小top行列yから行列y’を選択する位置を図３２（ａ）の場合よりも１列ずらし、選択した行列y’に対して計算部５４が上記と同じ計算を行うことにより、weight行列gの12成分を求める。

このように小top行列yから行列y’を切り出す位置を列方向と行方向にずらすことにより、図３２（ｃ）に示すように、３×３のweight行列gの各要素を得ることができる。

以上により、backword処理におけるtop行列とbottom行列との畳み込み計算を終える。この例では、(t’-2)×(t’-2)の小bottom行列dが第１の行列の一例となり、t’×t’の小top行列yが第２の行列の一例となる。

次に、このbackword処理をする場合の格納部５３の機能について詳細に説明する。

格納部５３は、次の式（３４）のように各配列の要素を並べ、各要素をDPE0～DPE7の各バンクR#0～R#7に格納する。

この例でも、バッチ数N（=（N_major、N_minor））と入力チャネル番号Cin（=（Cin_major、Cin_minor））との組み合わせにより小bottom行列dが特定される。なお、バッチ数N（=（N_major、N_minor））は第１の識別子の一例であり、入力チャネル番号Cin（=（Cin_major、Cin_minor））は第２の識別子の一例である。

図３３は、格納部５３によって各配列y、dが格納されたDPE0～DPE7の各々のレジスタG#0の中身を示す図である。

配列dについては、格納部５３がシーケンシャル方式でDPE0～DPE7の各バンクR#0～R#7に格納する。

このとき、本実施形態では、式（３４）のように配列dの最下位にN_minorを記述し、その上位にCin_minorを記述したため、Cin_minorが同一の範囲で各バンクとN_minorとが一対一に対応する。そのため、N_minorの総数をq(=4)個とすると、一つのDPEにおけるq個のバンクの各々には、バッチ数（N_major、N_minor）が相互に異なり、かつ入力チャネル番号（Cin_major、Cin_minor）が同一のq個の小bottom行列dが格納されることになる。

例えば、DPE0においては、R#0～R#3の４個のバンクの各々に、入力チャネル番号Cinが（0、0）であり、かつバッチ数Nが（0、0）、（0、1）、（0、2）、（0、3）である４個の小bottom行列dが格納される。

これにより、図１３のようにバンクR#0～R#7ごとにバッチ数Nを変える例とは異なり、同一の入力チャネル番号Cinを有するq個の小bottom行列dの畳み込み計算をq個の計算コアで並列して実行することができる。

また、小top行列yについては、格納部５３がマルチキャスト方式によりメインメモリ１１から各DPE0～DPE7に転送する。

なお、図３０の例とは異なり、この例では式（３４）のように配列yの最下位にCout_minorを記述し、その上位にN_minorを記述する。また、Cout_minorの総数は４個とし、N_minorの総数は４個とする。

これにより、例えばDPE0においては、N_major=0かつN_minor=0の配列yの要素のうち、Cout_minorの値が小さい要素から順にバンクR#0～R#3に格納される。そして、バンクR#4～R#7には、N_major=0かつN_minor=1の要素が、Cout_minorの値が小さい順に格納される。

また、配列yのN_major=1の要素についても、Cout_minorの値が小さい要素から順にバンクR#0～R#3に格納され、バンクR#0～R#3にはN_minorの値が一つ繰り上がった要素が格納されていく。

これにより、一つのバンクにはCout_minor値が同一の配列yの要素が格納されるようになるため、バンク内でCout_minor値を揃えるために配列yの各要素を整列させる必要がない。

式（３３）のGy’G^Tを一つのDPEで求めるのに要する計算時間は、式（２４）におけるtをt’に置き換えることにより、次の式（３５）のように書ける。

また、式（３３）のB^TdBを一つのDPEで求めるのに要する計算時間は、式（２５）の3をt’-2に置き換え、tをt’に置き換え、cout’をN’に置き換えることにより、次の式（３６）のように書ける。

更に、式（３３）において行列Gy’G^Tと行列B^TdBとのそれぞれの要素ごとを乗算するときの乗算の回数は、式（８）と同様に次の式（３７）で表される。

そして、全てのtop行列とweight行列との畳み込み計算を行うには、式（２７）と同様に次の式（３８）の回数だけ計算を行う必要がある。

一つのDPEで畳み込み計算をするときの計算時間を表す第１の関数f(t,q)は、式（３５）～（３７）の和に式（３８）を乗じることにより以下の式（３９）のように表すことができる。

次に、小bottom行列dと小top行列yの各々の要素数がレジスタに格納可能な個数を超えない条件について検討する。

まず、小top行列yの要素数について説明する。一つのDPEの一つのバンクにおける小top行列yの要素数E_yは、次の式（４０）のように書ける。

式（４０）において、t²は、一つの小top行列yの要素数である。また、N’・Cin’/pは、一つのバンクに格納される小top行列yの個数である。

一方、一つのDPEの一つのバンクにおける小bottom行列dの要素数E_dは、次の式（４１）のように書ける。

式（４１）において、(t’-2)²は、一つの小bottom行列dの要素数である。また、N’・Cout’/pは、一つのバンクに格納される小bottom行列dの個数である。

式（２９）と式（３０）より、小top行列yとweight行列gとを合わせた要素の総数を表す第２の関数g(t,q)は次の式（４２）のように書ける。

よって、一つのバンクに格納できるデータの個数をRとすると、次の式（４３）の制約条件が得られる。

以上により、式（４３）の制約条件を満たすt,qの組み合わせのうちで、式（３９）の第１の関数f(t,q)の値を最小とするようなtとqの組み合わせを見つけることにより、畳み込み計算を高速化できることになる。

そこで、この例のようにbottom行列とtop行列とを畳み込んでweight行列を得るバックワード処理をする場合には、算出部４２は、式（４３）の制約条件を満たすt,qの組み合わせを特定する。そして、特定した組み合わせのうち、式（３９）の第１の関数f(t,q)の値を最小とするようなtとqの組み合わせを算出部４２が算出し、畳み込み計算を高速化する。

＜１×１の畳み込み＞
深層学習においては１×１の畳み込みが行われることがある。例えば、ResNet-50やResNet101においては１×１の畳み込みが使用される。そこで、本実施形態における１×１の畳み込みについて説明する。

なお、１×１の畳み込みの対象となる行列は特に限定されないが、以下では小bottom行列dとweight行列gとの畳み込みについて説明する。

行列d、gの１×１の畳み込みを行う場合は、格納部５３は、次の式（４４）のように各行列の要素を配列に格納し、各要素をDPE0～DPE7の各バンクR#0～R#7に格納する。

式（４４）における各配列d、gの要素の並び順は式（５）におけるのと同様である。例えば、配列dにおいては最下位にCin_minorが記述され、その上位にN_minorが記述される。

図３４は、１×１の畳み込みを行う場合に、格納部５３によって各配列d、gが格納されたDPE0のレジスタG#0の中身を示す図である。

式（５）の場合には図２２のようにシーケンシャル方式によりDPE0～DPE7に配列dを格納したが、この例ではマルチキャスト方式によりDPE0～DPE7に配列dを格納する。

これにより、例えばN_major=0かつN_minor=0の要素は、Cin_minor=0,1,2,3の順にバンクR#0,R#1,R#2,R#3に格納されていく。そして、N_major=0かつN_minor=0の全ての要素が格納されると、次はN_major=0かつN_minor=1の要素がCin_minor=0,1,2,3の順にバンクR#4,R#5,R#6,R#7に格納されていく。これにより各バンクR#0～R#7の最初の一つのラインが埋まるため、N_minor=2以降の要素は一つ上のラインに格納される。

なお、N_major=1の配列dの要素については、N_major=0の要素の畳み込みが終了した後にDPE0に展開される。N_majorの値が2以上の配列dの要素についても同様である。

また、配列gについても、マルチキャスト方式によりバンクR#0に配列dを格納する。

１×１の畳み込みに適用可能なWinogradアルゴリズムは存在しない。よって、この例では、各バンクR#0～R#7に格納された要素を用いて、計算部５４が図３（ａ）～（ｃ）に示した手順で畳み込みを行う。

＜batch normalization＞
深層学習においては、batch normalizationを行うことにより性能が向上する場合がある。batch normalizationは、複数の画像の間で画素データの値が大きく異なる場合に、各画像の画素データの平均値を０にし、かつその分散を１にする規格化の手法である。その手法について以下に説明する。

batch normalizationを行う場合は、格納部５３は、次の式（４５）のように各配列d、yの各要素を並べ、各要素をDPE0～DPE7の各バンクR#0～R#7にマルチキャスト方式で格納する。

batch normalizationは、bottom行列とtop行列のどちらにも適用することができる。以下では、bottom行列の一部である小bottom行列dに対してbatch normalizationを行う場合について説明する。

図３５は、batch normalizationのときに格納部５３によって小bottom行列dが格納されたDPE0のレジスタG#0の中身を示す図である。

この例では、図３４におけるのと同様に、格納部５３が、マルチキャスト方式によりバンクR#0に小bottom行列dを格納する。式（４５）に示すように、小bottom行列dの最下位にはCin_minorが記述される。よって、各バンクR#0～R#7のうちの一つに着目すると、そのバンクにはCin_minorの値が同じ要素が格納される。例えば、バンクR#0には、Cin_minor=0の要素のみが格納される。

また、式（４５）によれば、小bottom行列dにおいてCin_minorの上位にN_minorが記述される。そのため、各バンクR#0～R#7のうちの一つに着目すると、そのバンクには、バッチ数（N_major、N_minor）が異なる要素が格納される。例えば、バンクR#0には、（N_major、N_minor）=（0、0）、（0、2）、…（0、14）、（1、0）、（1、2）、…（1、14）、…（3、0）、（3、2）、…（3、14）の要素が格納される。

このように、一つのバンクには、Cin_minorが同じでバッチ数（N_major、N_minor）が異なる要素が格納される。そのため、計算コアC#0～C#7の各々が、自身に対応する一つのバンクのみを用いて、Cin_minorが同じでバッチ数（N_major、N_minor）が異なる複数の要素の平均と、これらの要素の分散とを計算することができる。

その計算は、計算部５４によって以下のように実行される。
図３６（ａ）、（ｂ）は、batch normalizationのときに計算部５４が行う計算について説明するためのDPE0のレジスタG#0の中身を示す図である。

まず、図３６（ａ）に示すように、計算コアC#0が、バンクR#0にある小bottom行列dの各要素の値を加算し、これにより得られた値x₀をバンクR#0のラインL_{sum_1}に格納する。他のバンクR#1～R#7においても、計算コアC#1～C#7の各々が、対応するバンクにある小bottom行列dの各要素の値を加算し、これにより得られた値x₁～x₇をそれぞれバンクR#1～R#7のラインL_{sum_1}に格納する。

ここで、図３５に示されるように、バンクR#0にはN_minorが偶数の要素のみが格納される。そのため、値x₀は、全てのバッチ数（N_major、N_minor）にわたる要素の合計ではなく、N_minorが偶数の要素の値のみを合計したものとなる。

そこで、計算部５４は、値x₀～x₇のうちで同一のCin_minorに対応するもの同士を加算する。例えば、値x₀と値x₄は両方ともCin_minor=0に対応するため、計算部５４は、両者を加算してその結果を値x₀に書き込む。これにより得られた値x₀は、Cin_minor=0の要素を全てのバッチ数（N_major、N_minor）にわたって合計した値となる。同様にして、計算部５４は次の計算を行う。
x₁=x₁+x₅
x₂=x₂+x₆
x₃=x₃+x₇

次に、計算コアC#0が、バンクR#0に格納した値x₀をバッチ数で割ることにより平均値m₀を計算し、その平均値m₀をバンクR#0のラインL_meanに格納する。バンクR#1～R#3においても、計算コアC#1～C#3の各々が値x₁～x₃の平均値m₁～m₃を計算し、これらの値をそれぞれバンクR#1～R#3のラインL_meanに格納する。

以上により、バンクR#0～R#3ごとに小bottom行列dの要素の平均値m₀～m₃が得られたことになる。
次に、分散を求める計算方法について説明する。

まず、図３６（ｂ）に示すように、計算コアC#0が、バンクR#0にある小bottom行列dの各要素の値を二乗し、これにより得られた各値を合計した値y₀をバンクR#0のラインL_{sum_2}に格納する。他のバンクR#1～R#7においても、計算コアC#1～C#7の各々が、対応するバンクにある各要素を二乗してそれらを加算し、これにより得られた値y₁～y₇をそれぞれバンクR#1～R#7のラインL_{sum_2}に格納する。

図３６（ａ）の例と同様に、値y₀は、全てのバッチ数（N_major、N_minor）にわたる要素の二乗の合計ではなく、N_minorが偶数の要素を二乗した値のみを合計したものとなる。そこで、計算部５４は、次の計算を行うことにより、全てのバッチ数（N_major、N_minor）にわたる小bottom行列dの要素の二乗の合計を値y₀～y₃の各々に書き込む。
y₀=y₀+y₄
y₁=y₁+y₅
y₂=y₂+y₆
y₃=y₃+y₇

次に、計算コアC#0が、バンクR#0に格納した値y₀をバッチ数で割ることにより平均値a₀を計算し、その平均値a₀をバンクR#0のラインL_{mean_2}に格納する。バンクR#1～R#3においても、計算コアC#1～C#3の各々が値y₁～y₃の平均値a₁～a₃を計算し、これらの値をそれぞれバンクR#1～R#3のラインL_{mean_2}に格納する。

以上により、バンクR#0～R#3ごとに小bottom行列dの要素の二乗の平均値a₀～a₃が得られたことになる。

次に、計算部５４は、v₀=a₀-m₀ ²を計算することにより、バンクR#0にある小bottom行列dの各要素の分散v₀を算出し、それをバンクR#0のラインL_varに格納する。これと同様に、計算部５４が以下の計算を行うことによりバンクR#1～R#3の各要素の分散v₁～v₃を算出し、それをバンクR#1～R#3のラインL_varに格納する。
v₁=a₁-m₁ ²
v₂=a₂-m₂ ²
v₃=a₃-m₃ ²

この後は、計算部５４は、以下の式（４６）のように小bottom行列dの各要素の値(d[N_major][Cin_major][H][W][N_minor][i])と平均値m_iとの差を分散v_iで割ることにより、Cin_minor=i (i=0,1,2,3)の要素に対してbatch normalizationを行う。

以上によりbatch normalizationを終える。

このようにbatch normalizationを行うことで、深層学習における学習性能の向上が期待できる。

以上説明した各実施形態に関し、更に以下の付記を開示する。
（付記１）複数の第１の行列とt行t列の複数の第２の行列の各々の要素の総数が、レジスタが備える複数の記憶領域のうちのq個の各々に格納できるデータの個数を超えないtとqの組み合わせのうちで、q個の前記記憶領域の各々に対応したq個の計算コアの各々が複数の前記第１の行列と複数の前記第２の行列との畳み込み計算をWinogradアルゴリズムで並列して実行するときの計算時間が最小となる組み合わせを算出する算出部と、
算出したtとqの組み合わせを用いてq個の前記記憶領域の各々に複数の前記第１の行列とt行t列の複数の前記第２の行列とを格納する処理と、q個の前記計算コアの各々がWinogradアルゴリズムを用いて前記第１の行列と前記第２の行列との畳み込み計算を行う処理とを、前記計算コアと前記レジスタとを備えた計算機に実行させるためのプログラムを出力する出力部と、
を有することを特徴とする情報処理装置。
（付記２）前記第１の行列と前記第２の行列の各々は、深層学習の畳み込み層における行列であることを特徴とする付記１に記載の情報処理装置。
（付記３）前記計算時間を第１の関数f(t,q)で表し、かつ一つの前記記憶領域に格納される複数の前記第１の行列と複数の前記第２の行列の各々の前記要素の前記総数を第２の関数g(t,q)で表したときに、前記算出部は、一つの前記記憶領域に格納可能なデータの個数を前記第２の関数g(t,q)の値が超えない範囲内で前記第１の関数f(t,q)の値が最小となるqとtとの組み合わせを算出することを特徴とする付記１に記載の情報処理装置。
（付記４）前記第１の行列と前記第２の行列の各々は、深層学習の畳み込み層における行列であり、
前記深層学習のバックワード処理における前記第１の関数f(t,q)及び前記第２の関数g(t,q)は、前記深層学習のフォワード処理における前記第１の関数f(t,q)及び前記第２の関数g(t,q)とそれぞれ異なることを特徴とする付記３に記載の情報処理装置。
（付記５）複数の前記第２の行列の各々は、第１の識別子と第２の識別子との組み合わせにより特定され、
前記プログラムは、
前記第１の識別子が相互に異なり、かつ前記第２の識別子が同一のq個の前記第２の行列の各々を、q個の前記記憶領域の各々に格納する処理を前記計算機に実行させることを特徴とする付記１に記載の情報処理装置。
（付記６）前記プログラムは、
前記第１の識別子が相互に等しい前記第１の行列と前記第２の行列とを同一の前記記憶領域に格納し、
同一の前記記憶領域に格納された前記第１の行列と前記第２の行列との間で前記畳み込み計算を実行する処理を前記計算機に実行させることを特徴とする付記５に記載の情報処理装置。
（付記７）前記プログラムは、
複数の前記記憶領域ごとに前記要素の値の平均値と分散とを計算し、
複数の前記記憶領域ごとに、前記要素の値と前記平均値との差を前記分散で割ることにより、前記要素の値を規格化する処理を前記計算機に実行させることを特徴とする付記１に記載の情報処理装置。
（付記８）複数の第１の行列とt行t列の複数の第２の行列の各々の要素の総数が、レジスタが備える複数の記憶領域のうちのq個の各々に格納できるデータの個数を超えないtとqの組み合わせのうちで、q個の前記記憶領域の各々に対応したq個の計算コアの各々が複数の前記第１の行列と複数の前記第２の行列との畳み込み計算をWinogradアルゴリズムで並列して実行するときの計算時間が最小となる組み合わせを算出する処理と、
算出したtとqの組み合わせを用いてq個の前記記憶領域の各々に複数の前記第１の行列とt行t列の複数の前記第２の行列とを格納する処理と、q個の前記計算コアの各々がWinogradアルゴリズムを用いて前記第１の行列と前記第２の行列との畳み込み計算を行う処理とを、前記計算コアと前記レジスタとを備えた計算機に実行させるためのプログラムを出力する処理と、
をコンピュータに実行させるための情報処理プログラム。
（付記９）複数の第１の行列とt行t列の複数の第２の行列の各々の要素の総数が、レジスタが備える複数の記憶領域のうちのq個の各々に格納できるデータの個数を超えないtとqの組み合わせのうちで、q個の前記記憶領域の各々に対応したq個の計算コアの各々が複数の前記第１の行列と複数の前記第２の行列との畳み込み計算をWinogradアルゴリズムで並列して実行するときの計算時間が最小となる組み合わせを算出する処理と、
算出したtとqの組み合わせを用いてq個の前記記憶領域の各々に複数の前記第１の行列とt行t列の複数の前記第２の行列とを格納する処理と、q個の前記計算コアの各々がWinogradアルゴリズムを用いて前記第１の行列と前記第２の行列との畳み込み計算を行う処理とを、前記計算コアと前記レジスタとを備えた計算機に実行させるためのプログラムを出力する処理と、
をコンピュータが実行することを特徴とする情報処理方法。

１０…計算機、１１…メインメモリ、１２…プロセッサ、１３…バス、２０…レジスタファイル、２１…情報処理プログラム、３１…情報処理装置、３２…記憶装置、３３…メインメモリ、３４…プロセッサ、３５…入力装置、３６…表示装置、３７…バス、３８…記録媒体、３９…情報処理プログラム、４１…出力部、４２…算出部、５０…プログラム、５１…受付部、５２…選択部、５３…格納部、５４…計算部、５５…出力部。

Claims

複数の第１の行列とt行t列の複数の第２の行列の各々の要素の総数が、レジスタが備える複数の記憶領域のうちのq個の各々に格納できるデータの個数を超えないtとqの組み合わせのうちで、q個の前記記憶領域の各々に対応したq個の計算コアの各々が複数の前記第１の行列と複数の前記第２の行列との畳み込み計算をWinogradアルゴリズムで並列して実行するときの計算時間が最小となる組み合わせを算出する算出部と、
算出したtとqの組み合わせを用いてq個の前記記憶領域の各々に複数の前記第１の行列とt行t列の複数の前記第２の行列とを格納する処理と、q個の前記計算コアの各々がWinogradアルゴリズムを用いて前記第１の行列と前記第２の行列との畳み込み計算を行う処理とを、前記計算コアと前記レジスタとを備えた計算機に実行させるためのプログラムを出力する出力部と、
を有することを特徴とする情報処理装置。
前記第１の行列と前記第２の行列の各々は、深層学習の畳み込み層における行列であることを特徴とする請求項１に記載の情報処理装置。
複数の前記第２の行列の各々は、第１の識別子と第２の識別子との組み合わせにより特定され、
前記プログラムは、
前記第１の識別子が相互に異なり、かつ前記第２の識別子が同一のq個の前記第２の行列の各々を、q個の前記記憶領域の各々に格納する処理を前記計算機に実行させることを特徴とする請求項１に記載の情報処理装置。
複数の第１の行列とt行t列の複数の第２の行列の各々の要素の総数が、レジスタが備える複数の記憶領域のうちのq個の各々に格納できるデータの個数を超えないtとqの組み合わせのうちで、q個の前記記憶領域の各々に対応したq個の計算コアの各々が複数の前記第１の行列と複数の前記第２の行列との畳み込み計算をWinogradアルゴリズムで並列して実行するときの計算時間が最小となる組み合わせを算出する処理と、
算出したtとqの組み合わせを用いてq個の前記記憶領域の各々に複数の前記第１の行列とt行t列の複数の前記第２の行列とを格納する処理と、q個の前記計算コアの各々がWinogradアルゴリズムを用いて前記第１の行列と前記第２の行列との畳み込み計算を行う処理とを、前記計算コアと前記レジスタとを備えた計算機に実行させるためのプログラムを出力する処理と、
をコンピュータに実行させるための情報処理プログラム。
複数の第１の行列とt行t列の複数の第２の行列の各々の要素の総数が、レジスタが備える複数の記憶領域のうちのq個の各々に格納できるデータの個数を超えないtとqの組み合わせのうちで、q個の前記記憶領域の各々に対応したq個の計算コアの各々が複数の前記第１の行列と複数の前記第２の行列との畳み込み計算をWinogradアルゴリズムで並列して実行するときの計算時間が最小となる組み合わせを算出する処理と、
算出したtとqの組み合わせを用いてq個の前記記憶領域の各々に複数の前記第１の行列とt行t列の複数の前記第２の行列とを格納する処理と、q個の前記計算コアの各々がWinogradアルゴリズムを用いて前記第１の行列と前記第２の行列との畳み込み計算を行う処理とを、前記計算コアと前記レジスタとを備えた計算機に実行させるためのプログラムを出力する処理と、
をコンピュータが実行することを特徴とする情報処理方法。