JP6856609B2

JP6856609B2 - 畳み込みニューラルネットワークの畳み込み層における演算を実行する方法及び装置

Info

Publication number: JP6856609B2
Application number: JP2018221335A
Authority: JP
Inventors: 李徳林; 凌坤; 陳亮; 李建軍
Original assignee: 南京地平綫机器人技術有限公司
Priority date: 2017-11-28
Filing date: 2018-11-27
Publication date: 2021-04-07
Anticipated expiration: 2038-11-27
Also published as: CN107844827A; US11468301B2; JP2019125352A; EP3489863A1; KR20190062305A; CN107844827B; US20190164045A1

Description

本開示は、畳み込みニューラルネットワークの技術分野に関し、具体的には、畳み込みニューラルネットワークの畳み込み層における演算を実行する方法及び装置に関する。

畳み込みニューラルネットワークに基づくディープラーニング技術は、画像認識、ビデオ分析、自然言語処理、補助運転などの様々な分野に広く利用されている。

畳み込みニューラルネットワークは、通常では演算の量は膨大であり、汎用型中央処理装置（ＣＰＵ）、グラフィックプロセッサ（ＧＰＵ）、専用アクセラレータなどのハードウェアを利用して畳み込みニューラルネットワークにおける演算を効率的に実行することが望まれる。

本開示は、畳み込みニューラルネットワークの畳み込み層における演算を実行する方法を提供する。該方法は、畳み込み層によって指定されたパディング方法に従って畳み込み層に提供される折り畳まれていない特徴データに対してパディングするステップと、パディングされた折り畳まれていない特徴データを幅と高さの少なくとも一つの次元において折り畳んで折り畳まれた特徴データを生成するステップと、前記畳み込み層のオリジナル畳み込みカーネルを少なくとも一つの次元において折り畳んで、オリジナル畳み込みカーネルに対応する１つ又は複数の折り畳まれた畳み込みカーネルを生成するステップと、１つ又は複数の折り畳まれた畳み込みカーネルを用いて折り畳まれた特徴データに対して畳み込み演算を実行するステップとを含む。

本開示は、畳み込みニューラルネットワークの畳み込み層における演算を実行する装置をさらに提供する。該装置は、前記方法を実行するように構成される１つ又は複数のプロセッサを含む。

本開示は、畳み込みニューラルネットワークの畳み込み層における演算を実行する装置をさらに提供する。該装置は、畳み込み層によって指定されたパディング方法に従って畳み込み層に提供される折り畳まれていない特徴データに対してパディングするように構成された前処理部と、パディングされた折り畳まれていない特徴データを、幅と高さの少なくとも一つの次元において折り畳んで折り畳まれた特徴データを生成するように構成された第一折り畳み部と、畳み込み層のオリジナル畳み込みカーネルを少なくとも一つの次元において折り畳んで、オリジナル畳み込みカーネルに対応する１つ又は複数の折り畳まれた畳み込みカーネルを生成するように構成された第二折り畳み部と、１つ又は複数の折り畳まれた畳み込みカーネルを使用して折り畳まれた特徴データに対して畳み込み演算を実行するように構成された演算部とを含む。

本開示は、計算手段によって実行されると前記方法が実行されるプログラム指令が記憶された非一時的記憶媒体をさらに提供する。

本開示に係る方法及び／又は装置によれば、チャネルの利用効率を向上させ、キャッシュメモリの占有量を低減することができ、演算効率を向上させることができる。

図１は、本開示の実施形態に係る畳み込みニューラルネットワークの畳み込み層における演算を実行する方法のフローチャートを示す。図２は、本開示の実施形態に係る折り畳まれていない特徴データを折り畳む例を示す。図３は、本開示の実施形態に係るオリジナル畳み込みカーネルを折り畳む例を示す。図４は、本開示の実施形態に係る折り畳まれた畳み込みカーネルを用いて折り畳まれた特徴データに対して畳み込み演算を実行する例を示す。図５は、本開示の実施形態に係る折り畳まれた畳み込みカーネルを用いて折り畳まれた特徴データに対して畳み込み演算を実行する例を示す。図６は、本開示の実施形態に係る畳み込みニューラルネットワークの畳み込み層における演算を実行する装置のブロック図を示す。図７は、本開示の実施形態に係る畳み込みニューラルネットワークの畳み込み層における演算を実行する装置のブロック図を示す。図８は、本開示の実施形態に係る折り畳まれた特徴データに対して畳み込み演算を実行する装置を示す。図９Ａ及び図９Ｂは、特徴データがスタチックランダムアクセスメモリ（ＳＲＡＭ）に記憶されている例を示す。

以下の記載において、添付図面を参照しつつ、本開示に係る例示的な実施形態を述べる。

本開示において、畳み込みニューラルネットワークに提供される特徴データは、幅、高さ及び深さ（すなわち異なるチャネル）などのような複数の次元を有するデータキューブとみなすことができる。該特徴データにおける一つのデータが、データキューブ内の一つの点にそれぞれ対応させることができる。畳み込みニューラルネットワークにおける畳み込み演算のための重みパラメータも畳み込みカーネルごとに一つのデータキューブとみなすことができる。

通常、データキューブを記述するときに、「スライス」という用語を使うことができる。データキューブの３つの次元を、それぞれ３次元デカルト座標系のＸ軸、Ｙ軸、Ｙ軸で示される次元に対応するとみなす場合、Ｘ軸で示される次元に対応する第一の次元における該データキューブのスライスが、Ｘ軸に直交する平面を用いて該データキューブ内のデータに対してサンプリングした結果を示す。該結果は、Ｙ軸及びＺ軸によって示される二次元平面内の矩形のデータである。形式的には、データキューブを点の集合とみなす場合、すなわち、

ただし、Ｗ、Ｈ、及びＤはいずれも０より大きい整数である場合、該データキューブのＸ軸で示される次元に対応する第一の次元におけるスライスは、

すべてのデータがゼロ（又はゼロに相当）であるスライスは、ゼロスライスと呼ばれることがある。

さらに、「ピクセル」という用語もデータキューブを記述するために用いられる。データキューブのピクセルは、同じ幅（Ｘ軸）及び高さ（Ｙ軸）の座標を有するデータキューブ内の点を含み、

と記される。１つのスライスは複数のピクセルを含み得ることは理解される。

本明細書において、便宜上、特徴データ又は畳み込みカーネルの特定の次元におけるデータも「スライス」で記述することがあり、例えば、幅の次元のスライス（「幅のスライス」と略称）、高の次元のスライス（「高さスライス」と略称）などである。

なお、データキューブＡの第一の次元（例えば幅の次元）でパディングし又は１つ以上のゼロスライスを追加することを言及する場合に、データキューブＡの第一の次元のある境界（例えば幅の次元の左側又は右側）に１つ又は複数のゼロスライスを追加することによって該データキューブＡの第一の次元の次元値（例えば幅）を増加させ、増加した各ゼロスライスが別の２つの次元（例えば、高さの次元及び深さの次元）においてオリジナルデータキューブＡと同一の次元値（例えば高さの値及び深さの値）を有することを意味するものとすることができる。

なお、データキューブＡの第一の次元及び第二の次元（例えば幅の次元及び高さの次元）でパディングし、又は１つ以上のゼロスライスを附加することに言及するとき、データキューブＡの第一の次元のある境界（例えば幅の次元の左側又は右側）に１つ又は複数のゼロスライスを追加することによって該データキューブＡの第一の次元の次元値（例えば幅）を増加させ、増加した各ゼロスライスが別の２つの次元（例えば、高さの次元及び深さの次元）においてオリジナルデータキューブＡと同一の次元値（例えば高さの値及び深さの値）を有することを意味するものとすることができる。そして、幅が増加した後に得られたデータキューブＡ’の第二の次元のある境界（例えば高さの次元の上側又は下側）に１つ又は複数のゼロスライスを追加することによって該データキューブＡ’の第二の次元の次元値（例えば高さ）を増加させ、増加した各ゼロスライスが別の２つの次元（例えば、幅の次元及び深さの次元）においてデータキューブＡ’と同一の次元値（例えば幅の値及び深さの値）を有することを意味するものとすることができる。

なお、データキューブＡの各スライスを深さ方向に揃える（align）ことを言及するとき、データキューブＡの所望の深さ値を有しないスライス（幅スライスであってもよく又は高さスライスであってもよい）に対して、パディングされたデータキューブＡの各スライスが所望の深さ値を有するように深さの次元にゼロ（又はゼロに相当する値）を追加することを意味するものとすることができる。

なお、データキューブＡの第一の次元及び／又は第二の次元においてパディングをすると言及するときは、特に明記しない限り、パディングされるゼロスライスの数はゼロ、又は一つ又は複数であってもよい。

畳み込みニューラルネットワークは、通常では演算の量は膨大であり、汎用型中央処理装置、グラフィックプロセッサ、専用のアクセラレータなどのハードウェアを利用して畳み込みニューラルネットワークにおける演算を効率的に実行することが望まれている。演算効率を向上させ、及び／又はハードウェア設計を簡素化させ、例えば、マルチチャネルをサポートするメモリを設計して、畳み込み演算を実行する加算器及び／又は乗算器にデータを提供するや、演算手段をマルチチャネルの演算を対応できるようにすることができる。

一般的に、畳み込みニューラルネットワークの入力層に提供される特徴データのチャネルの数は少い（通常、３つのチャネル又は１つのチャネル）可能性があり、かつ、畳み込みニューラルネットワークのフィードフォワード推論（feedforward reasoning）方向に、相対的に前寄りの畳み込み層への入力特徴データも、チャネルの数が少い可能性がある。チャネルを揃えさせるため、深さ又はチャネルの次元において、特徴データ及び対応する畳み込みカーネルにゼロスライスを追加する必要があるため、キャッシュや乗算器などのハードウェアリソースの使用率が低くなり、多くの無効な演算を導入してしまう可能性がある。

図１は、本開示の実施形態に係る畳み込みニューラルネットワークの畳み込み層における演算を実行させる例示方法１００を示し、該方法は、
該畳み込み層によって指定されたパディング方法に従って、畳み込み層に提供された折り畳まれていない特徴データをパディングするステップＳ１０１と、
パディングされた折り畳まれていない特徴データを、幅と高さの少なくとも一つの次元において折り畳んで、折り畳まれた特徴データを生成するステップＳ１０５と、
幅と高さの少なくとも一つの次元において該畳み込み層のオリジナル畳み込みカーネルを折り畳んで、該オリジナル畳み込みカーネルに対応する１つ又は複数の折り畳まれた畳み込みカーネルを生成するステップＳ１１０と、
生成した１つ又は複数の折り畳まれた畳み込みカーネルを用いて折り畳まれた特徴データに対して畳み込み演算を実行するステップＳ１１５とを含む。

本開示の実施形態に係る方法によれば、少なくとも、ハードウェア設計を簡素化させることができ、チャネル又はハードウェアリソースの使用率を向上させ、及び／又は演算の並列性を向上させることが可能である。

図１に示したように、本開示の実施形態に係る畳み込みニューラルネットワークの畳み込み層における演算を実行させる例示方法１００は、ステップＳ１０１から実行し、該畳み込み層によって指定されたパディング方法に従って、畳み込み層に提供された折り畳まれていない特徴データに対してパディングする。

畳み込みニューラルネットワークの１つの畳み込み層において、該畳み込み層に提供されたオリジナルの折り畳まれていない特徴データに対して、オリジナル折り畳まれていない特徴データと同一のチャネル数（即ち、同一の深さ）を有する畳み込みカーネルを設計し、該畳み込みカーネルを、幅方向にストライドS_x（S_xは１以上）で、高さ方向にストライドS_y（S_yは１以上）でオリジナル折り畳まれていない特徴データにスライドし、オリジナルの折り畳まれていない特徴データのスライディングウィンドウ（sliding window）に対応する部分のデータを畳み込むことによって、チャネルの数が１である出力特徴データ（又は賦活値）を得る。該畳み込み層に対して該畳み込み層の重みパラメータになる複数の畳み込みカーネルを設計し、これらの畳み込みカーネルによって得られた複数の結果データを用いて、該畳み込み層に対して特徴データの異なるチャネルにおけるデータをそれぞれ出力することができる。

該畳み込み層に提供されたオリジナルの折り畳まれていない特徴データを正確に畳み込んで所望の幅及び高さを有する出力特徴データを得るために、畳み込みを実行する前に、指定されたパディング方法に基づいてオリジナルの折り畳まれていない特徴データの幅と高さの２つの次元の周り（幅の次元の開始境界及び終了境界(starting and ending boundaries)ならびに高さ次元の開始境界及び終了境界を含む）にゼロスライスをパディングすることができる。パディングされたゼロスライスの数は指定されたパディング方法により決まり、０、１又は複数であってもよい。

設計された畳み込みニューラルネットワークに対して、各畳み込み層において使用される重みパラメータ（畳み込みカーネルの数、畳み込みカーネルごとの幅、高さ、深さ、及び含まれている値を含む）及び該畳み込み層に提供されるオリジナル折り畳まれていない特徴データに対するパディング方法は公知のものである。これらの設定は、畳み込みニューラルネットワークを設計するときに畳み込みニューラルネットワークの設計者によって事前に指定されてもよく、又は学習によって設計され又は調整されてもよい。

本開示の実施形態の例示方法１００は、畳み込み層がオリジナルの折り畳まれていない特徴データを受けると、ステップＳ１０１において受けた入力特徴データを前処理する。すなわち、該畳み込み層によって指定されたパディング方法に基づいて受けた入力特徴データに対してパディングする。幅の次元の開始境界（左側）及び／又は幅の次元の終了境界（右側）及び／又は高さ次元の開始境界（上側）及び／又は高さ次元の終了境界（下側）を含む）ところに０、１又は複数のゼロスライスをパディングする別の実施形態では、該畳み込み層によって指定されたパディング方法に基づいて受けた入力特徴データの左側及び／又は上側へのパディング量（即ち、パディングされるゼロスライスの数）を決定し、そして期待される出力特徴データの幅及び／又は高さ、畳み込み演算用の畳み込みカーネルの幅及び／又は高さ、並びに畳み込みカーネルの幅及び／又は高さにおけるストライドに基づいて、受けた入力特徴データの右側及び／又は下側へのパディング量を推測し、相応のパディングを行っても良い。

そして、例示方法１００はステップＳ１０５に進み、パディングされた（前処理された）折り畳まれていない特徴データを、幅と高さの少なくとも一つの次元において折り畳む。

一実施形態において、ステップＳ１０１からのパディングされた折り畳まれていない特徴データＦＤに対して、幅と高さの一つの次元Ｄ１において、ＦＤのＤ１におけるN_x枚（本明細書では「Ｄ１における接合の数」、文脈が明らかな場合には「接合の数」とも略称する）ごとの連続したスライスを深さ方向において接合するように、ＦＤを折り畳んでＦＤ’を生成し、これによって、該ＦＤの次元Ｄ１におけるi_fx×N_x+j_fx番目のスライスのすべてのC_x個のチャネルのデータを、ＦＤ'の次元Ｄ１におけるi_fx番目のスライスのj_fx×C_x番目のチャネルから始まる連続したC_x個のチャネルのデータに対応させる。ただし、N_xは１より大きい整数で、i_fxは０以上の整数で、j_fxは０以上N_x未満の整数で、C_xは０より大きい整数である。

一実施形態において、ＦＤ'が得られた後、幅と高さの別の次元Ｄ２において、ＦＤ'のＤ２におけるN_y枚（本明細書では「Ｄ２における接合の数」、文脈が明らかな場合には「接合の数」とも略称する）ごとの連続したスライスを深さ方向において接合するように、ＦＤ'を折り畳んでＦＤ''を生成し、これによって、該ＦＤ'の次元Ｄ２におけるi_fy×N_y+j_fy番目のスライスのすべてのC_y個のチャネルのデータを、ＦＤ''の次元Ｄ２におけるi_fy番目のスライスのj_fy×C_y番目のチャネルから始まる連続したC_yつのチャネルのデータに対応させる。ただし、N_yは１より大きい整数で、i_fyは０以上の整数で、j_fyは０以上N_y未満の整数で、C_yは０より大きい整数である。

図２の上段は、パディングされた折り畳まれていない特徴データＦＤ１を幅方向において折り畳む例を示す。当該例では、パディングされた折り畳まれていない特徴データＦＤ１がオリジナルのデータスライスＳ１〜Ｓ６を含み、且つ左側及び右側がそれぞれパディング用のゼロスライスＰを有する。

図２の上段に示したように、パディングされた折り畳まれていない特徴データＦＤ１の幅の方向に２枚ごとの連続したスライス（即ち、左側のＰとＳ１、Ｓ２とＳ３、Ｓ４とＳ５、Ｓ６と右側のＰ）を深さ方向に接合することによって、ＦＤ１に対して幅方向の折り畳みを実現して、折り畳まれた特徴データＦＤ１’を生成する。

該例示では、折り畳まれた特徴データＦＤ１'は、幅が折り畳まれていない特徴データＦＤ１の半分になり、深さ（チャネルの数）がパディングされた折り畳まれていない特徴データＦＤ１の２倍になるため、チャネルの利用率を向上させることができ、幅方向における演算量を減らすことができる。

図２の下段は、パディングされた折り畳まれていない特徴データＦＤ２を高さ方向において折り畳む例を示す。当該例では、パディングされた折り畳まれていない特徴データＦＤ２がオリジナルのデータスライスＳ１〜Ｓ４を含み、且つ上側及び右側にそれぞれパディング用のゼロスライスＰを有する。

図２の下段に示したように、パディングされた折り畳まれていない特徴データＦＤ２の高さの方向に２枚ごとの連続したスライス（即ち、上側のＰとＳ１、Ｓ２とＳ３）を深さ方向に接合することによって、ＦＤ２に対して高さ方向の折り畳みを実現して、折り畳まれた特徴データＦＤ２’を生成する。

図２に示した例では、ＦＤ２の高さスライスの総数が５であり、２の整数倍でないため、ＦＤ２の高さスライスにおいて、スライスＳ４に接合することができるほかのスライスがない。そのため、折り畳まれた特徴データＦＤ２'の高さスライスごとのチャネルの数が不一致になってしまう可能性がある。

このような場合、一実施形態では、折り畳む前に特徴データＦＤ２における高さスライスの総数をチェックしておいてもよい。該特徴データＦＤ２における高さスライスの総数が接合の数の整数倍ではない場合、ＦＤ２における高さスライスの総数が接合の数の整数倍になるように特徴データＦＤ２の下側に１つ又は複数のゼロスライスを予め附加することができる（図２に図示せず）。附加されたゼロスライスの数は接合の数より少なくしてもよく、必要に応じて、例えば後述の折り畳まれた畳み込みカーネルを用いて折り畳まれた特徴データに対して畳み込みを行うとき畳み込みのスライド窓が常に折り畳まれた特徴データの内部に位置させるように、接合の数より多くしてもよい。

別の実施形態において、折り畳みの際、パディングされた（前処理された）折り畳まれていない特徴データの折り畳む次元における最後のスライスについて、得られた折り畳まれた特徴データの各スライスのチャネル数が同一になるように該スライスに基づいて深さ方向で接合すげきか否かを判断する。接合する場合、例えば、特徴データＦＤ２におけるＳ４のようなスライスに対して、余分の１つ又は複数のゼロスライス（例えば、図２に示した特徴データＦＤ２'におけるＡ）を、該スライスと深さ方向で接合してもよい。

別の実施形態において、折り畳んだ後に、得られた折り畳まれた特徴データに対して余分の１つ又は複数のゼロスライス（例えば、図２に示したＦＤ２'におけるＡ）を附加することができ、それにより、附加した折り畳まれた特徴データの各高さスライスがチャネルにおいて揃えるようにする。

別の実施形態において、ハードウェアの特性及び処理能力を直接利用することも可能である。例えば、ハードウェアがチャネル整列の（チャネルを揃える）機能を備えてもよい場合、実際のデータに占有されていないチャネルは、ハードウェアは自動的にゼロ値を有するとみなすことができる。このような場合、折り畳まれた特徴データ（例えば図２に示したＦＤ２'）におけるスライスごとのチャネルはハードウェアによって自動的に揃えるようになる。

なお、幅方向における折り畳みには、同様に、折り畳まれた特徴データの最後の幅スライスのチャネルの数とその他の幅スライスのチャネルの数と一致しない場合がある。同様に、折り畳む前、折り畳む手順の途中、折り畳む後に、パディングされた折り畳まれていない特徴データ又は得られた折り畳まれた特徴データに対して処理し、又はハードウェアの特性を利用して自動的に処理し、最終的に得られた特徴データにおける幅スライスごとのチャネルを揃うようにする。

図２の下段の例示では、折り畳まれた特徴データＦＤ２'の高さがパディングされた折り畳まれていない特徴データＦＤ２の、高さの半分になり、深さ（チャネルの数）がパディングされた折り畳まれていない特徴データＦＤ２の２倍になるため、チャネルの利用率を向上させることができ、高さ方向の演算量を減らすことができる。

また、前述のとおり、折り畳まれた特徴データＦＤ１'を高さ方向においてさらに折り畳んでもよく、折り畳まれた特徴データＦＤ２'を幅方向においてさらに折り畳んでもよい。引き続きの折り畳みと最初の折り畳みとの相違点次元及び対象においてのみであるため、詳細は繰り返し説明しない。

なお、本開示に係る実施形態の方法は、オリジナルの折り畳まれていない特徴データに対するパディングの方法、オリジナルの折り畳まれていない特徴データの幅のスライス又は高さスライスの数及び幅の折り畳み又は高さの折り畳みのための接合の数に限られるものではないことは理解される。

例えば、接合の数N_x又はN_ｙは例えば３、４であってもよく、又は１より大きい如何なる整数であってもよい。一実施形態において、ハードウェア（例えばマルチチャネルを対応できる記憶装置又は演算装置）が対応できるチャネルの数に基づいて、幅の折り畳み又は高さの折り畳みのための接合の数N_x又はN_ｙを設定することができる。例えば、ハードウェアの対応できるチャネルの数がＴＣである場合、

かつN_xとN_yのいずれも１より大きくになるようにN_xとN_yの値を選択することができる。

例示方法１００のステップＳ１１０において、畳み込み層のオリジナル畳み込みカーネルを幅及び高さの少なくとも一つの次元において折り畳んで、該オリジナル畳み込みカーネルに対応する１つ又は複数の折り畳まれた畳み込みカーネルを生成する。一つの重みパラメータは１つ又は複数の畳み込みカーネルを含むことができ、畳み込みカーネルごとに同一の幅及び高さを有し、且つ通常、該層に提供された特徴データと同一の深さ（即ちチャネルの数）を有する。したがって、以下の説明は、重みパラメータのオリジナル畳み込みカーネルのうちのいずれかに適用することが理解される。言い換えれば、一つの畳み込み層の重みパラメータが複数の畳み込みカーネルを含む場合、各畳み込みカーネルに対して以下の処理を実行することができる。

一実施形態において、ステップＳ１０５に次元Ｄ１（幅と高さの一つ）において特徴データを折り畳んだ場合、ステップＳ１１０において、オリジナル畳み込みカーネルＫの次元Ｄ１の開始境界においてk_x×S_x個のゼロスライスをそれぞれパディングすることで、オリジナル畳み込みカーネルＫに対応する１つ又は複数の変換された畳み込みカーネルK[k_x]を生成し、ただし、S_xはオリジナル畳み込みカーネルＫの次元Ｄ１におけるストライドであり、k_xは０以上の整数である。例えば、０個のゼロスライス、S_x個のゼロスライス、及び2×S_x個のゼロスライスをそれぞれパディングすることによって、オリジナル畳み込みカーネルＫに対応する３つの変換された畳み込みカーネルを生成することができる。

変換された畳み込みカーネルの数を制御するために、k_xの最大値を設定することができる。例えば、k_x<E_xにすることができ、ここで、E_xを、S_xとN_xの最小公倍数をS_xで除算して得られた結果値、又はN_xを、N_xとS_xの最大公約数で除算して得られた結果値として決定してもよく、又はS_x=1の場合もしくはS_xとN_xが互い素である場合、N_xに等しいとして決定してもよい。したがって、オリジナル畳み込みカーネルＫに対応するE_x個の変換された畳み込みカーネルK[k_x]を生成することができる。

そして、ステップＳ１１０において、各変換された畳み込みカーネルK[k_x］に対して、次元Ｄ１におけるN_x枚ごとの連続したスライスを深さ方向において接合するように、Ｄ１においてK[k_x]ごとに、それぞれ折り畳んで、変換された畳み込みカーネルK[k_x］ごとに、対応する折り畳まれた畳み込みカーネルK'[k_x]を生成することによって、K'[k_x]ごとの次元Ｄ１におけるi_kx×N_x+j_kx番目のスライスのすべてのC_x個のチャネルのデータは、K[k_x]の次元Ｄ１におけるi_kx番目のスライスのj_kx×C_x番目のチャネルから始まる連続したC_x個のチャネルのデータに対応するようにする。ただし、i_kxは０以上の整数で、j_kxは０以上N_x未満の整数である。

生成した変換された畳み込みカーネルK[k_x]は、次元Ｄ１において異なる次元値（例えば、Ｄ１が幅である場合は幅の値）を有する可能性があり、又は１つ以上の変換された畳み込みカーネルK[k_x]が存在する可能性があり、次元Ｄ１における次元値はN_xの整数倍ではないため、対応するK'[k_x]のスライスが深さにおいて揃えっていない。

一実施形態において、前述した折り畳む前、折り畳む途中、折り畳む後に特徴データに対するパディング又は追加と同様に、全ての変換された畳み込みカーネルK[k_x]が次元Ｄ１において同一の次元値を有し、かつ全ての折り畳まれた畳み込みカーネルK'[k_x]のスライスが深さで揃うように、折り畳む前、折り畳む途中、折り畳む後に畳み込みカーネルK[k_x]を処理してもよい。

別の実施形態において、さらに、E_x、S_x、N_x及びオリジナル畳み込みカーネルＫの次元Ｄ１における次元値V_xに基づいて、変換された畳み込みカーネルK[k_x]ごとの期待次元値EV_xを決定しても良い。例えば、式

変換された畳み込みカーネルK[k_x]の次元Ｄ１における次元値がEV_xより小さい場合、変換された畳み込みカーネルK[k_x]のＤ１における終了境界にゼロスライスを附加することで調整したK[k_x]によって、調整後の変換された畳み込みカーネルK[k_x]のＤ１における次元値がEV_xに等しくなる。そして、次元Ｄ１において調整後の変換された畳み込みカーネルK[k_x]を折り畳んで、対応する折り畳まれた畳み込みカーネルK'[k_x]を生成することができる。

別の実施形態では、ステップＳ１０５において、次元Ｄ２（幅と高さの他方）においてN_yに従って、すでに次元Ｄ１にN_Xに従って折り畳まれた特徴データに対してさらに折り畳みを行う場合、ステップＳ１１０において、Ｅ_ｘ個の折り畳まれた畳み込みカーネルK'[k_x]（ただし、0≦k_x<E_x）を得た後、Ｄ１における折り畳みＫと同様に、Ｄ２において折り畳まれた畳み込みカーネルK'[k_x]ごとに折り畳みを行う。

例えば、K'[k_x]の次元Ｄ２における開始境界においてk_x×S_x個のゼロスライスをそれぞれパディングすることで、K'[k_x]に対応する１つ又は複数の変換された畳み込みカーネルK'[k_x,k_y］を生成し、ただし、S_yはオリジナル畳み込みカーネルＫの次元Ｄ２におけるストライドであり、k_yは０以上の整数である。同様に、変換された畳み込みカーネルの数を制御するために、k_yの最大値を設定することができる。例えば、k_y<E_yにし、ここで、E_yを、S_yとN_yの最小公倍数をS_yで除算して得た結果値、又はN_yを、N_yとS_yの最大公約数で除算して得た結果値として決定してもよく、又はS_y=1の場合もしくはS_yとN_yが互い素である場合、E_yはN_yに等しいとして決定してもよい。したがって、K'[k_x]に対応するE_y個の変換された畳み込みカーネルK'[k_x,k_y]、あるいはオリジナル畳み込みカーネルKに対応するE_x×E_y個の変換された畳み込みカーネルK'[k_x,k_y]を生成することができる。

そして、ステップＳ１１０において、各変換された畳み込みカーネルK'[k_x,k_y]に対して、次元Ｄ２におけるN_y枚ごとの連続したスライスを深さ方向で接合するように、Ｄ２においてK'[k_x,k_y]ごとに折り畳みをそれぞれ行い、各変換された畳み込みカーネルK'[k_x,k_y]に対して対応する折り畳まれた畳み込みカーネルK''[k_x,k_y]を生成し、K''[k_x,k_y]ごとの次元Ｄ２におけるi_ky×N_y+j_ky番目のスライスのすべてのC_y個のチャネルのデータが、K'[k_x,k_y]の次元Ｄ２におけるi_ky番目のスライスのj_ky×C_y番目のチャネルから始まる連続したC_y個のチャネルのデータに対応するようにする。ただし、i_kyは０以上の整数で、j_kyは０以上N_y未満の整数である。

同様に、E_y、S_y、N_y及びオリジナル畳み込みカーネルKの次元Ｄ２における次元値V_yから、変換された畳み込みカーネルK'[k_x,k_y]ごとの次元Ｄ２における期待次元値EV_yを決定してもよい。例えば、式

に基づいて変換された畳み込みカーネルK'[k_x,k_y]ごとの次元Ｄ２における期待次元値EV_yを決定することができる。変換された畳み込みカーネルK'[k_x,k_y]の次元Ｄ２における次元値がEV_yより小さい場合、変換された畳み込みカーネルK'[k_x,k_y]のＤ２における終了境界にゼロスライスを附加して調整したK'[k_x,k_y]によって、調整後の変換された畳み込みカーネルK'[k_x,k_y]の次元値がEV_yに等しくなる。そして、次元Ｄ２において調整後の変換された畳み込みカーネルK'[k_x,k_y]を折り畳んで、対応する折り畳まれた畳み込みカーネルK''[k_x,k_y］を生成することができる。

図３は、図２の折り畳まれた特徴データＦＤ１'に応じてオリジナル畳み込みカーネルＫを幅においてを折り畳む例を示した。この例では、オリジナル畳み込みカーネルＫの幅V_xが３（幅スライスKS1乃至KS3を含む）であり、幅のストライドS_xが１であると仮定すると、幅の次元においてオリジナル畳み込みカーネルＫに対応する変換された畳み込みカーネルの数が２であると特定できる。そして、オリジナル畳み込みカーネルＫの左側に０個のゼロスライスをパディング又は附加することによって、変換された畳み込みカーネルＫａを生成し、オリジナル畳み込みカーネルＫの左側に１個のゼロスライスＫＰをパディング又は追加することによって、変換された畳み込みカーネルＫbを生成することができる。次に、変換された畳み込みカーネルＫａ及びＫｂのそれぞれを幅に折り畳んで、２つの折り畳まれた畳み込みカーネルＫａ'及びＫｂ'が生成される。

図３に示したように、変換された畳み込みカーネルＫａの幅は３であり、折り畳まれた畳み込みカーネルＫａ'の各幅のスライスは深さに揃っていない。上述のように、折り畳む前、折り畳む途中、折り畳む後にゼロスライスＫＡを補充することによって、折り畳まれた畳み込みカーネルＫａ'の各の幅スライスを深さ方向で揃うようにする。またはハードウェアの特性を利用して、折り畳まれた畳み込みカーネルＫａ'の各幅のスライスを深さにおいて自動的に揃えるようにしてもよい。例えば、折り畳む前に、変換された畳み込みカーネルＫａ及びＫｂの期待される次元値又は期待される幅は

であると決定し、幅の値が４未満のＫaの右側に１つのゼロスライスＫＡをパディング又は附加してもよい（図３に図示せず）。

図３は、オリジナル畳み込みカーネルを幅方向に折り畳む例しか示していいない。オリジナル畳み込みカーネルを高さ方向において折り畳むこと、高さ方向において２つの折り畳まれた畳み込みカーネルＫａ'、Ｋｂ'をさらに折り畳むこと、オリジナル畳み込みカーネルを高さ方向に折り畳んで生成されたオリジナル畳み込みカーネルを幅方向にさらに折り畳むことは、図３の例示と類似しているので、詳細は繰り返し説明しない。

図１では、ステップＳ１０５の後にステップＳ１１０を示しているが、これに限られず、ステップＳ１１０は、ステップＳ１０５の前に、又はステップＳ１１０と並行して実行してもよいことが理解される。

幅及び高さのうちの一つの次元Ｄ１においてN_xに従って折り畳みを行っただけの場合、ステップＳ１０５においてパディングされた折り畳まれていない特徴データＦＤをＤ１において折り畳みを行い、折り畳まれた特徴データＦＤ'を取得し、ステップＳ１１０において、次元Ｄ１においてオリジナル畳み込みカーネルＫを折り畳んで、例えば、E_x個の折り畳まれた畳み込みカーネルK'[k_x]（ただし、0≦k_x<E_x）を得る。そして、例示方法１００がステップＳ１１５へ進み、得られたＥ_ｘ個の折り畳まれた畳み込みカーネルK'[k_x]を用いて折り畳まれた特徴データＦＤ'に対して畳み込み演算を実行する。

この場合、オリジナル畳み込みカーネルＫが次元Ｄ１におけるストライドS_xの値がN_xに等しい場合、折り畳まれた畳み込みカーネルK'[k_x]ごとの次元Ｄ１におけるストライドは１であり、そうでなければ、折り畳まれた畳み込みカーネルK'[k_x］ごとの次元Ｄ１におけるストライドはS_xである。また、折り畳まれた畳み込みカーネルK'[k_x]ごとの幅及び高さの他方の次元Ｄ２におけるストライドは、オリジナル畳み込みカーネルＫが次元Ｄ２におけるストライドS_yである。

次元Ｄ１での折り畳みのほかに、さらにＤ２おいてN_Yに従って折り畳みを行う場合、ステップＳ１０５においてＤ２においてＦＤ'をさらに折り畳みを行い、折り畳まれた特徴データＦＤ''を取得し、ステップＳ１１０において、Ｄ１において、E_x個の折り畳まれた畳み込みカーネルK'[k_x]を折り畳んでE_x×E_y個の折り畳まれた畳み込みカーネルK''[k_x,k_y]（ただし、0≦k_y<E_y）を得る。そして、例示方法１００がステップＳ１１５へ進み、得られたＥ_x×E_y個の折り畳まれた畳み込みカーネルK''[k_x,k_y]を用いて、折り畳まれた特徴データＦＤ''に対して畳み込み演算を行う。

この場合、オリジナル畳み込みカーネルＫが次元Ｄ１におけるストライドS_xの値がN_xに等しい場合、折り畳まれた畳み込みカーネルK''[k_x,k_y]ごとの次元Ｄ１におけるストライドは１であり、そうでなければ、折り畳まれた畳み込みカーネルK''[k_x,k_y]ごとの次元Ｄ１におけるストライドはS_xである。また、オリジナル畳み込みカーネルＫが次元Ｄ２におけるストライドS_yがN_yに等しい場合、折り畳まれた畳み込みカーネルK''[k_x,k_y]ごとの次元Ｄ２におけるストライドは１であり、そうでなければ、折り畳まれた畳み込みカーネルK''[k_x,k_y]ごとの次元Ｄ2におけるストライドはS_yである。

一実施形態では、ステップＳ１１５において、すべての折り畳まれた畳み込みカーネルを用いて、折り畳まれた特徴データの同一の部分を畳み込んでから、次元Ｄ１又はＤ２における折り畳まれた畳み込みカーネルのＤ１におけるストライドに従って、又はＤ２におけるストライドに従って、すべての折り畳まれた畳み込みカーネルを移動させ、折り畳まれた特徴データの別の部分に対して畳み込みを実行することができる。折り畳まれた特徴データすべての部分に対して畳み込みを行った後、最終的な出力特徴データを得ることができる。

例えば、図４に示したように、図３に示された折り畳まれた畳み込みカーネルＫａ'を用いて、図２に示された折り畳まれた特徴データＦＤ１'内のP+S1スライス及びS2+S3スライスに対して畳み込みを実行することによって、出力特徴データＦＤ１''内の部分値Ｏ１を取得し、折り畳まれた畳み込みカーネルＫｂ'を用いて折り畳まれた特徴データＦＤ１'内のP+S1スライス及びS2+S3スライスに対して畳み込みを実行することによって、出力特徴データＦＤ１''内の部分値Ｏ２を取得することができる。次に、折り畳まれた畳み込みカーネルＫａ'及びＫｂ'を幅において移動し、折り畳まれた特徴データＦＤ１'におけるS2+S3スライス及びS4+S5スライスに対して畳み込みを実行することによって、出力特徴データＦＤ１''における部分値Ｏ３及びＯ４を取得する。同様に、出力特徴データＦＤ１''の部分値Ｏ５及びＯ６も取得する。

他の実施形態では、各折り畳み畳み込みカーネルをそれぞれ用いて、折り畳まれた特徴データ全体に対して畳み込みを行うことができる。この場合、ハードウェア用の畳み込み指令を修正する必要はないが、１つのオリジナル畳み込みカーネルが複数の折り畳まれた畳み込みカーネルに対応する場合、各折り畳まれた畳み込みカーネルを使用して得られた部分的な結果が複数のチャネルに分布することになる。出力特性データを畳み込みニューラルネットワークの次の層に提供する前、又は畳み込みニューラルネットワーク全体の最終出力とする前に、１つのチャネルで完全な出力結果を得るように、異なるチャネルに分布している部分的な結果を再編成又は展開してもよい。

例えば、図５に示したように、図３に示された折り畳まれた畳み込みカーネルＫａ'を用いて図２に示された折り畳まれた特徴データＦＤ１'全体に対して畳み込みを実行し、出力特徴データＦＤ１'における部分値Ｏ１、Ｏ３及びＯ５を取得し、次に折り畳まれた畳み込みカーネルＫｂ'を用いて折り畳まれた特徴データＦＤ１'全体に対して畳み込みを実行し、出力特徴データＦＤ１''における部分値Ｏ２、Ｏ４及びＯ６を取得する。そして、取得された各部分値をまとめて、完全な出力特徴データＦＤ１''を取得してもよい。

図４及び図５は、幅において畳み込みを実行するプロセスの例しか示していないが、高さにおいて畳み込みを実行する手順も同様であり、その詳細は繰り返し説明しない。

特徴データ及び畳み込みカーネルを折り畳んで、得られた折り畳まれた特徴データ及び折り畳まれた畳み込みカーネルを用いて畳み込み演算を実行することにより、チャネルの利用効率を向上させ、キャッシュメモリの占有量を低減することができ、演算効率を向上させることができる。

例えば、プロセッサ（例えば、畳み込み演算用の乗算器のアレイ）が一度に３２チャネルを処理することができると仮定すると、5×5の畳み込みカーネルを用いて720×1280のＲＧＢ画像（チャネル数は３）に対して畳み込み（幅及び高さのストライドはいずれも１である）を実行する場合、従来の畳み込み（即ち、オリジナル畳み込みカーネルを用いてオリジナル折り畳まれていない特徴データに対して畳み込みを実行する）、幅方向の折り畳み畳み込み（即ち、２枚のスライスごとに幅方向において特徴データ及びオリジナル畳み込みカーネルを折り畳んでから、畳み込みを行う）、及び幅及び高さ方向の折り畳み畳み込み（即ち、２枚のスライスごとに幅方向及び高さ方向のそれぞれに特徴データ及びオリジナル畳み込みカーネルを折り畳んでから、畳み込みを実行する）をそれぞれ使用する演算量の比較を以下の表１に示す。

表１の例示されたデータによれば、特徴データ及び畳み込みカーネルを折り畳んで得られた折り畳まれた特徴データ及び折り畳まれた畳み込みカーネルを用いて畳み込み演算を実行することにより、演算量を著しく低減させることができ（例えば、幅及び高さ方向の折り畳み畳み込みに係る演算量は、従来の畳み込みの演算量の３６％に過ぎない）、有効演算率を著しく向上させることができる（例えば、従来の畳み込みに対して幅及び高さ方向の折り畳みによる畳み込みに係る有効演算率は約４倍高くなる）。

図６及び図７は、本開示に係る実施形態による畳み込みニューラルネットワークの畳み込み層における演算を実行する装置のブロック図を示す。

図６に示すように、例示装置６００は、一以上のプロセッサ６１０を含むことができる。プロセッサ６１０は、汎用ＣＰＵ、ＧＰＵ、専用ニューラルネットワークプロセッサ又はアクセラレータなどのようなデータ処理能力及び／又は指令の実行能力を有する任意の形態の処理手段であってもよい。例えば、プロセッサ６１０は、例えば本開示に係る実施形態により特徴データ及び畳み込みカーネルを折り畳んで、得られた折り畳まれた特徴データ及び折り畳まれた畳み込みカーネルを用いて畳み込み演算を実行する方法を実行することができる。さらに、プロセッサ６１０は、装置６００における他の部品を制御して、所望の機能を実行することもできる。

プロセッサ６１０は、バスシステム及び／又は他の形態の接続機構（図示せず）を介して、メモリ６２０及びＩ／Ｏインターフェイス６３０に接続することができる。

メモリ６２０は、例えば、揮発性メモリ及び／又は不揮発性メモリなどの様々なコンピュータ読み書き可能な記憶媒体を含むことができる。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）及び／又はキャッシュメモリ（キャッシュ）などを含むことができる。不揮発性メモリは、例えば、読み取り専用メモリ（ＲＯＭ）、ハードディスク、フラッシュメモリ等を含むことができる。読み書き可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置、デバイス、又はそれらの任意の組み合わせを含むことができるがこれらに限らない。例えば、ニューラルネットワーク専用プロセッサに合わせて使用する場合、メモリ６２０は、専用プロセッサが搭載されるチップ上のＲＡＭであってもよい。メモリ６２０は、本開示に係る実施形態による特徴データ及び畳み込みカーネルを折り畳んで得られた折り畳まれた特徴データ及び折り畳まれた畳み込みカーネルを用いて畳み込み演算を実行する方法を、装置６００に実行させるためのプログラム指令を含むことができる。

Ｉ／Ｏインターフェイス６３０は、プロセッサ６１０にパラメータ又はデータを提供し、かつプロセッサ６１０によって処理された結果データの出力のために用いることができる。

図７に示すように、例示装置７００は、前処理手段７１０、第１の折り畳み手段７２０、第２の折り畳み手段７３０、及び演算手段７４０を含むことができる。

前処理手段７１０は、畳み込み層によって指定されたパディング方法に従って、該畳み込み層に提供された折り畳まれていない特徴データに対してパディングをするように構成することができる。一実施形態では、前処理手段７１０は、例えば図１に示した例示方法１００のステップＳ１０１を実行するように構成してもよい。

第１の折り畳み手段７２０は、パディングされた折り畳まれていない特徴データを、幅と高さの少なくとも一つの次元において折り畳んで、折り畳まれた特徴データを生成するように構成することができる。一実施形態では、第１の折り畳み手段７２０は、例えば図１に示した例示方法１００のステップＳ１０５を実行するように構成してもよい。

第２の折り畳み手段７３０は、少なくとも一つの次元において該畳み込み層のオリジナル畳み込みカーネルを折り畳んで、該オリジナル畳み込みカーネルに対応する一つ又は複数の折り畳まれた畳み込みカーネルを生成するように構成することができる。一実施形態では、第２の折り畳み手段７３０は、例えば図１に示した例示方法１００のステップＳ１１０を実行するように構成してもよい。

演算手段７４０は、生成した折り畳まれた畳み込みカーネルを利用し生成された折り畳まれた特徴データに対して畳み込み演算を実行するように構成することができる。一実施形態では、演算手段７４０は、例えば図１に示した例示方法１００のステップＳ１１５を実行するように構成してもよい。

なお、図６及び図７に示された装置６００及び７００は単なる例示であって限定的なものではない。必要に応じて、本開示に係る実施形態に係る装置は、その他の部材及び／又は構造を有することができる。

図８は、本開示に係る実施形態による折り畳まれた特徴データに対して畳み込み演算を実行する装置のブロック図を示す。

図８に示すように、装置１１００は、メインプロセッサ１１１０、ダイナミックランダムアクセス（ＤＲＡＭ）１１２０、及び畳み込みエンジン１１３０を含むことができる。これらの手段はバスシステム１１０１を介して互いに接続されている。

メインプロセッサ１１１０は、ＡＲＭプロセッサ、汎用ＣＰＵなどのような任意の形態の処理手段であってもよい。メインプロセッサ１１１０は、プログラム指令を実行させることで、装置１１００における他の部品例えばＤＲＡＭ１１２０及び畳み込みエンジン１１３０を制御する。

ＤＲＡＭ１１２０は、ＤＤＲＲＡＭ又は他の任意の形態のＤＲＡＭであってもよい。磁気ハードディスクなどの不揮発性メモリから読み出されたデータが一時的に記憶されてもよい。例えば、前述した畳み込みニューラルネットワークの畳み込み層における折り畳まれていない特徴データ及びオリジナル畳み込みカーネル、又はメインプロセッサ１１１０によって実行されるプログラム指令などがＤＲＡＭ１１２０に一時的に記憶することができる。

畳み込みエンジン１１３０は、折り畳まれていない特徴データ及びオリジナル畳み込みカーネルをＤＲＡＭ１１２０から読み出して、前述した方法のいずれか１つに従って畳み込み演算を実行する。畳み込みエンジン１１３０は、チップとして構成されてもよいし、その構成及び動作は、以下で詳細に説明する。

畳み込みエンジン１１３０は、スタティックランダムアクセスメモリ（ＳＲＡＭ）などの入力バッファ１１３１を含むことができる。折り畳まれていない特徴データ及びオリジナル畳み込みカーネルは、ＤＲＡＭ１１２０から読み出され、ＳＲＡＭ１１３１に記憶されてもよい。折り畳まれていない特徴データ及びオリジナル畳み込みカーネルは同一又は異なるＳＲＡＭ１１３１に記憶されてもよい。折り畳まれていない特徴データ及びオリジナル畳み込みカーネルは、ＳＲＡＭ１１３１に記憶する前又は記憶しているとき、図１〜３を参照して上述したパディング及び折り畳みを実行しても良い。

一実施形態では、折り畳まれていない特徴データのパディング、折り畳み及び記憶は、同一のステップで実行されてもよい。例えば、ＤＲＡＭ１１２０から読み出した折り畳まれていない特徴データをＳＲＡＭ１１３１に書き込むとき、折り畳まれていない特徴データのデータストリームに附加のゼロ値を挿入して所定の書式で該パディングされた折り畳まれていない特徴データをＳＲＡＭ１１３１書き込むことが可能である。これにより、ＳＲＡＭ１１３１に記憶されている特徴データがパディングされて折り畳まれたものになる。

図９Ａ及び図９Ｂは、特徴データＦＤ１及び図２におけるＦＤ１'がＳＲＡＭ１１３１に記憶されている例を示す図である。

図９Ａに示したように、ＳＲＡＭ１１３１は、複数の列１１４０に配列されている複数のメモリ手段１１４１を含み、各列１１４０は「スライス」とも呼ばれる。各ＳＲＡＭのスライス１１４０は列方向に連続的にアドレス指定され（addressing）、幅方向で複数のビットを格納することができる。メモリ手段１１４１ごとに複数のビットを格納する複数のメモリセル（図示せず）を含むことができる。例えば、メモリ手段１１４１ごとに、８ビット、１６ビット又はそれ以上を格納することができる。各メモリ手段１１４１に格納されるビット数はデータ幅とも呼ばれる。メモリ手段１１４１はそれぞれアドレスを有し、ＳＲＡＭスライス１１４０は列方向に連続的にアドレス指定される。メモリ手段１１４１ごとの複数のメモリセルは同期して読み書きすることができ、複数のＳＲＡＭスライス１１４０は同期して読み書きすることができるので、ＳＲＡＭ１１３１のデータ幅はB×Nに等しくなる。ただし、ＢはＳＲＡＭのスライス１１４０（又は記憶手段１１４１）のデータ幅であり、ＮはＳＲＡＭ１１３１に含まれるスライス１１４０の数である。

メモリ手段１１４１ごとにデータ幅が６４であり、８のデータを記憶することができると仮定する。オリジナル特徴データＦＤは折り畳まれていないので、図１２Ａに示したように、メモリ手段１１４１ごとに１つのピクセル（３チャネル、３データ）しか格納されず、メモリ手段１１４１の残りの４０（６４−３×８）ビットは５つのゼロ値でパディングすることができる。折り畳まれた特徴データＦＤ'については、図９Ｂに示したように、メモリ手段１１４１ごとに２つのピクセルを格納でき、各ピクセルの末尾にはそれぞれ１つのゼロ値だけパディングする。別の例として、代わりに、第２のピクセルの末尾にだけ２つのゼロ値をパディングしてもよい。メモリ手段１１４１がより広いデータの幅を有すると、各メモリ手段１１４１においてより多くのピクセルを格納することができる。メモリ手段１１４１ごとに２つ以上のピクセルを格納することにより、１つのメモリ手段１１４１に１つのピクセルのみを格納すると比較して、１周期でより多くのデータを畳み込み演算を実行するために後述の計算手段１１３３に提供することができる。それにより、装置１１００の計算効率が向上される。

同様に、１つ又は複数のオリジナル畳み込みカーネルをＤＲＡＭ１１２０から読み出してＳＲＡＭ１１３１に記憶することができる。オリジナル畳み込みカーネルは前述のようにパディングして畳み込んで、１つ又は複数の折り畳まれた畳み込みカーネルを得る。１つ又は複数の折り畳まれた畳み込みカーネルのＳＲＡＭ１１３１への記憶は、ＳＲＡＭの異なるスライス１１４０に格納される以外に、図９Ａ及び図９Ｂを参照して上述した折り畳まれた特徴データの記憶と同様である。ここで、折り畳まれた畳み込みカーネルのＳＲＡＭ１１３１における格納の詳細の繰り返しは省略する。なお、ＳＲＡＭ１１３１はＤＲＡＭ１１２０より小さい容量を有するため、毎回、一部の特徴データ及び一部の畳み込みカーネルしか読み取らないようにすることができる。

図８を参照し、折り畳まれた特徴データ及び１つ又は複数の折り畳まれた畳み込みカーネルをＳＲＡＭ１１３１から計算手段１１３３に読み込んで畳み込み演算を実行することができる。計算手段１１３３は、畳み込み演算のために複数の乗算器及び複数の加算器を含んでもよい。

一実施形態では、計算手段１１３３は、折り畳まれた特徴データ内の複数のピクセルのそれぞれと、複数の折り畳まれた畳み込みカーネルの対応するピクセルとの乗算を同時に実行することができる。該乗算を繰り返すことによって、すべての折り畳まれた畳み込みカーネルを用いて、折り畳まれた特徴データの同一部分に対して畳み込みを実行することができる。

例えば、計算手段１１３３が２５６個の乗算器を含む場合、折り畳まれた特徴データの８個のピクセル（ピクセルごとに４チャネルを有し、合計で３２個のデータを有する）のそれぞれと、８個の畳み込みカーネルの対応するピクセル（同様に４チャネルを有する）とを同時に乗算し、６４個のデータ（８ピクセル×８チャネル）を生成してもよい。特徴データが折り畳まれていない従来の場合と比較して、計算効率が大幅に向上される。

計算手段１１３３からの演算結果は、出力バッファ（ＳＲＡＭ）１１３５に格納することができる。計算手段１１３３に提供されるデータ又は計算手段１１３３から受信されたデータを制御するように、入力バッファ１１３１及び出力バッファ１１３５は、それぞれバッファクロスバースイッチ１１３２及び１１３４を備えても良い。必要に応じて、計算結果を出力バッファ１１３５からＤＲＡＭ１１２０に移動させてもよい。

前後文から明確に別途の要求がある場合を除き、明細書及び特許請求の範囲全体において、用語「ｃｏｍｐｒｉｓｅ」（有する）、「ｉｎｃｌｕｄｅ」（含む）などは、排他性又は限界性（ｅｘｈａｕｓｔｉｖｅ）の意味の逆である包括的な意味として解釈すべきであり、つまり、「を含むが、これに限定されない」の意味として解釈すべきである。また、用語「本明細書中」、「以上の記載に」、「以下の記載に」及び似たような意味の用語が本開示において使用される場合に、本開示のある具体的な部分ではなく、本開示全体を指すとすべきである。前後文が許される場合、単数形又は複数形を使用する以上の記載における用語も、それぞれ複数又は単数を含むことができる。二つ又は複数の項目のリストを言及する場合の用語「又は」について、該用語は該用語の以下の解釈における全部をカバーする。すなわち、リストにおける任意の項目、リストにおけるすべての項目、及びリストにおける項目の任意の組み合わせである。

本開示に係る実施形態の以上の詳細な説明は、制限的又は本発明を以上の記載によって開示された適切な形式に限定することを意図するものではない。説明のために、本開示に係る具体的な実施形態及び例示を述べたが、当該分野における技術者が認識しているように本発明の技術的範囲内である限り、各種の均等の範囲における変更は可能である。例えば、処理又はブロックが所定の順序で示したが、代替の実施形態において、これらのステップの処理又は異なる順序でこれらのブロックのシステムを使用することができ、かついくつかの処理又はブロックは、削除、移動、追加、細分化、組み合わせ、及び／又は変更が可能である。これらの処理又はブロックのそれぞれは異なる方法で実施することができる。また、処理又はブロックは直列的に実行で示されるが、代わりに、これらの処理又はブロックは並列的に実行されてもよく、又は異なる時間に実行されることも可能である。

本明細書で提供される本発明の教示は、必ずしも上記のシステムである必要はなく、他のシステムにも適用することができる。上述のそれぞれの実施形態の部品及び動作を組み合わせることにより、別の実施形態を提供することができる。

本開示に係るいくつかの実施形態について説明したが、これらの実施形態は、例示として提示するものであり、本開示の範囲を限定することを意図するものではない。実際、本明細書に記載された新規の方法及びシステムは、様々なその他の形態で実施することができる。また、本発明の範囲から逸脱しない限り、本明細書に記載された方法及びシステムの形式に種々の省略、置換及び変更をすることが可能である。

１００例示方法
６００例示装置
６１０プロセッサ
６２０メモリ
６３０Ｉ／Ｏインターフェイス
７００例示装置
７１０前処理手段
７２０第１の折り畳み手段
７３０第２の折り畳み手段
７４０演算手段
１１００装置
１１０１バスシステム
１１１０メインプロセッサ
１１２０ダイナミックランダムアクセス
１１３０畳み込みエンジン
１１３１入力バッファ（ＳＲＡＭ）
１１３２バッファクロスバースイッチ
１１３３計算手段
１１３４バッファクロスバースイッチ
１１３５出力バッファ
１１４０列(スライス)
１１４１メモリ手段

Claims

畳み込みニューラルネットワークの畳み込み層における演算を実行する方法であって、
前記畳み込み層に提供される折り畳まれていない特徴データ及びオリジナル畳み込みカーネルを、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）から読み取るステップであって、前記オリジナル畳み込みカーネルは折り畳まれていない畳み込みカーネルを表すステップと、
前記畳み込み層によって指定されたパディング方法に従って前記畳み込み層に提供される折り畳まれていない特徴データをパディングするステップと、
パディングされた折り畳まれていない特徴データを幅と高さの少なくとも一つの次元において折り畳んで、折り畳まれた特徴データを生成するステップと、
前記折り畳まれた特徴データをスタティックランダムアクセスメモリ（ＳＲＡＭ）に記憶するステップと、
前記オリジナル畳み込みカーネルを前記幅と高さの少なくとも一つの次元において折り畳んで、前記オリジナル畳み込みカーネルに対応する１つ又は複数の折り畳まれた畳み込みカーネルを生成するステップと、
前記１つ又は複数の折り畳まれた畳み込みカーネルを前記スタティックランダムアクセスメモリに記憶するステップと、
前記スタティックランダムアクセスメモリから前記折り畳まれた特徴データ及び前記１つ又は複数の折り畳まれた畳み込みカーネルを演算手段に読み込み、前記１つ又は複数の折り畳まれた畳み込みカーネルを使用して前記折り畳まれた特徴データに対して畳み込み演算を実行するステップと
を含む畳み込みニューラルネットワークの畳み込み層における演算を実行する方法。
前記スタティックランダムアクセスメモリは複数のメモリ手段を含み、メモリ手段ごとにメモリアドレスを有し、前記折り畳まれた特徴データは、少なくとも２つのピクセルごとに同一の前記メモリ手段に記憶され、各前記折り畳まれた畳み込みカーネルは、少なくとも２つのピクセルごとに同一の前記メモリ手段に記憶される請求項１に記載の方法。
前記演算手段は複数の乗算器及び複数の加算器を含む請求項１に記載の方法。
前記パディングされた折り畳まれていない特徴データを前記少なくとも一つの次元において折り畳むことは、
第一の次元におけるＮ_ｘ枚ごとの連続したスライスを深さの方向で接合するように、前記第一の次元において、前記折り畳まれていない特徴データに対して、第一の折り畳みを行うステップをさらに含み、
前記第一の次元は幅と高さのいずれかであり、Ｎ_ｘは１より大きい整数であり、
前記パディングされた折り畳まれていない特徴データにおける前記第一の次元のｉ_ｆｘ×Ｎ_ｘ＋ｊ_ｆｘ番目のスライスのすべてのＣ_ｘ個のチャネルのデータが、前記第一の折り畳みの結果の前記第一の次元におけるｉ_ｆｘ番目のスライスのｊ_ｆｘ×Ｃ_ｘ番目のチャネルから始まる連続したＣ_ｘ個のチャネルのデータに対応し、ｉ_ｆｘは０以上の整数で、ｊ_ｆｘは０以上Ｎ_ｘ未満の整数で、Ｃ_ｘは０より大きい整数である
請求項３に記載の方法。
前記畳み込み演算を実行することは、
前記オリジナル畳み込みカーネルの前記第一の次元における第一ストライドがＮ_ｘに等しくない場合、前記オリジナル畳み込みカーネルに対応するすべての折り畳まれた畳み込みカーネルを用いて、前記折り畳まれた特徴データの同一の部分を畳み込んでから、前記オリジナル畳み込みカーネルに対応するすべての折り畳まれた畳み込みカーネルを、前記第一の次元で前記第一ストライドに従って移動させ、前記折り畳まれた特徴データに対して前記すべての折り畳まれた畳み込みカーネルを用いて畳み込み演算を実行することは、前記複数の乗算器を利用して前記折り畳まれた特徴データにおける複数のピクセルのそれぞれが、複数の折り畳まれた畳み込みカーネルの対応するピクセルと乗算することを含み、又は
前記オリジナル畳み込みカーネルに対応する各折り畳まれた畳み込みカーネルをそれぞれ用いて、折り畳まれた特徴データの全体に対して畳み込み演算を実行し、折り畳まれた畳み込みカーネルごとの前記第一の次元におけるストライドは前記第一ストライドに等しく、及び
前記オリジナル畳み込みカーネルの前記第一の次元における第一ストライドがＮ_ｘに等しい場合、折り畳まれた畳み込みカーネルごとの前記第一の次元におけるストライドは１である
ことを含む請求項４に記載の方法。
前記オリジナル畳み込みカーネルを前記少なくとも一つの次元において折り畳むことは、
前記オリジナル畳み込みカーネルの前記第一の次元における開始境界においてｋ_ｘ×Ｓ_ｘ個のゼロスライスをそれぞれパディングすることで、Ｅ_ｘ個の第一の変換された畳み込みカーネルを生成するステップと、
ただし、Ｓ_ｘは前記オリジナル畳み込みカーネルの前記第一の次元における第一ストライドであり、Ｅ_ｘはＮ_ｘとＳ_ｘによって決まる１以上の値であり、ｋ_ｘは０以上Ｅ_ｘ未満の整数であり、
前記第一の次元におけるＮ_ｘ枚ごとの連続したスライスを深さ方向で接合するように、前記第一の次元において、第一の変換された畳み込みカーネルごとに第二の折り畳みを行い、第一の変換された畳み込みカーネルごとに対応する第一の折り畳まれた畳み込みカーネルを生成するステップとをさらに含み、
第一の変換された畳み込みカーネルごとの前記第一の次元におけるｉ_ｋｘ×Ｎ_ｘ＋ｊ_ｋｘ番目のスライスのすべてのＣｘ個のチャネルのデータは、対応する第一の折り畳まれた畳み込みカーネルの前記第一の次元におけるｉ_ｋｘ番目のスライスのｊ_ｋｘ×Ｃ_ｘ番目のチャネルから始まる連続したＣ_ｘ個のチャネルのデータに対応し、ただし、ｉ_ｋｘは０以上の整数で、ｊ_ｋｘは０以上Ｎ_ｘ未満の整数である
ことを含む請求項４に記載の方法。
前記オリジナル畳み込みカーネルを前記少なくとも一つの次元において折り畳むことは、生成されたＥｘ個の第一の折り畳まれた畳み込みカーネルを前記オリジナル畳み込みカーネルに対応する１つ又は複数の折り畳まれた畳み込みカーとして使用する
ことをさらに含む請求項６に記載の方法。
パディングされた折り畳まれていない特徴データを前記少なくとも一つの次元において折り畳むことは、
第二次元におけるＮ_ｙ枚ごとの連続したスライスを深さ方向で接合するように、前記第二次元において前記第一の折り畳みの結果に対して第三の折り畳みを行うことをさらに含み、
前記第二次元は幅と高さの他方であり、Ｎ_ｙは１より大きい整数であり、
前記第一の折り畳みの結果における前記第二次元のｉ_ｆｙ×Ｎ_ｙ＋ｊ_ｆｙ番目のスライスのすべてのＣ_ｙ個のチャネルのデータは、前記第三の折り畳みの結果における前記第二次元のｉ_ｆｙ番目のスライスのｊ_ｆｙ×Ｃ_ｙ番目のチャネルから始まる連続したＣ_ｙ個のチャネルのデータに対応し、ｉ_ｆｙは０以上の整数で、ｊ_ｆｙは０以上Ｎ_ｙ未満の整数で、Ｃ_ｙは０より大きい整数である
請求項６に記載の方法。
前記オリジナル畳み込みカーネルを前記少なくとも一つの次元において折り畳むことは、
第一の折り畳まれた畳み込みカーネルごとの前記第二次元における開始境界において、ｋ_ｙ×Ｓ_ｙ個のゼロスライスをそれぞれパディングすることで、第一の折り畳まれた畳み込みカーネルごとに、Ｅ_ｙ個の第二の変換された畳み込みカーネルをそれぞれ生成するステップと、
ただし、Ｓ_ｙは前記オリジナル畳み込みカーネルの前記第二次元における第二ストライドであり、Ｅ_ｙはＮ_ｙとＳ_ｙによって決まる１以上の値であり、ｋ_ｙは０以上Ｅ_ｙ未満の整数であり、
前記第二次元におけるＮ_ｙ枚ごとの連続したスライスを深さ方向で接合するように、前記第二次元において、第二の変換された畳み込みカーネルごとに第四の折り畳みを行い、第二の変換された畳み込みカーネルに対し、対応する第二の折り畳まれた畳み込みカーネルを生成するステップとをさらに含み、
第二の変換された畳み込みカーネルごとの前記第二次元におけるｉ_ｋｙ×Ｎ_ｙ＋ｊ_ｋｙ番目のスライスのすべてのＣ_ｙ個のチャネルのデータは、対応する第二の折り畳まれた畳み込みカーネルの前記第二次元におけるｉ_ｋｙ番目のスライスのｊ_ｋｙ×Ｃ_ｙ番目のチャネルから始まる連続したＣ_ｙ個のチャネルのデータに対応し、ただし、ｉ_ｋｙは０以上の整数で、ｊ_ｋｙは０以上Ｎ_ｙ未満の整数である
請求項８に記載の方法。
前記オリジナル畳み込みカーネルを前記少なくとも一つの次元において折り畳むことは、生成されたＥ_ｘ×Ｅ_ｙ個の第二の折り畳まれた畳み込みカーネルを前記オリジナル畳み込みカーネルに対応する１つ又は複数の折り畳まれた畳み込みカーネルとして使用する
ことをさらに含む請求項９に記載の方法。
前記畳み込み演算を実行することは、
前記オリジナル畳み込みカーネルの前記第二次元における第二ストライドがＮ_ｙに等しくない場合、前記オリジナル畳み込みカーネルに対応するすべての折り畳まれた畳み込みカーネルを用いて、前記折り畳まれた特徴データの同一の部分を畳み込んでから、前記オリジナル畳み込みカーネルに対応するすべての折り畳まれた畳み込みカーネルを、前記第二次元に前記第二ストライドに従って移動させるステップ、又は
前記オリジナル畳み込みカーネルに対応する各前記折り畳まれた畳み込みカーネルをそれぞれ用いて、折り畳まれた特徴データの全体に対して畳み込みを実行するステップをさらに含み、
前記折り畳まれた畳み込みカーネルごとの前記第二次元におけるストライドは前記第二ストライドに等しく、
前記オリジナル畳み込みカーネルの前記第二次元における第二ストライドがＮ_ｙに等しい場合、折り畳まれた畳み込みカーネルごとの前記第二次元におけるストライドは１である
請求項８に記載の方法。
指令を実行するように構成される１つ又は複数のプロセッサを具備し、
前記指令が実行されると、前記１つ又は複数のプロセッサによって請求項１〜１１のいずれか１項に記載の方法が実行される
畳み込みニューラルネットワークの畳み込み層における演算を実行するための装置。
畳み込みニューラルネットワークの畳み込み層における演算を実行するための装置であって、
前記畳み込み層によって指定されたパディング方法に従って前記畳み込み層に提供される折り畳まれていない特徴データに対してパディングするように構成された前処理部と、
パディングされた折り畳まれていない特徴データを、幅と高さの少なくとも一つの次元において折り畳んで、折り畳まれた特徴データを生成するように構成された第一折り畳み部と、
前記畳み込み層の、折り畳まれていない畳み込みカーネルを前記少なくとも一つの次元において折り畳んで、前記折り畳まれていない畳み込みカーネルに対応する１つ又は複数の折り畳まれた畳み込みカーネルを生成するように構成された第二折り畳み部と、
前記１つ又は複数の折り畳まれた畳み込みカーネルを用いて前記折り畳まれた特徴データに対して畳み込み演算を実行するように構成された演算部と
を含む畳み込みニューラルネットワークの畳み込み層における演算を実行するための装置。
１つ又は複数のメモリ及び１つ又は複数のプロセッサを具備する装置によって実行されると、前記請求項１〜１１のいずれか１項に記載の方法が実行されるように構成されるコンピュータプログラム。