JP7501617B2

JP7501617B2 - グループ化畳み込み処理定義変更装置、グループ化畳み込み処理定義変更方法およびグループ化畳み込み処理定義変更プログラム

Info

Publication number: JP7501617B2
Application number: JP2022518508A
Authority: JP
Inventors: 誠也柴田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2024-06-18
Anticipated expiration: 2040-04-28
Also published as: US20230237322A1; JPWO2021220422A1; WO2021220422A1

Description

本発明は、グループ化畳み込み処理定義変更装置、グループ化畳み込み処理定義変更方法およびグループ化畳み込み処理定義変更プログラムに関する。

畳み込みニューラルネットワーク(convolutional neural network; CNN) は、畳み込み層とプーリング層の２種類の層が交互に積み重ねられた構造を持つフィードフォーワード型のニューラルネットワークである。以下、畳み込みニューラルネットワークを単にCNN とも呼ぶ。

図８は、畳み込みニューラルネットワークの例を示す説明図である。図８に示すCNN では、第１畳み込み層、第１プーリング層、第２畳み込み層、第２プーリング層が交互に積み重ねられている。

また、図８に示すC₁、C₂はそれぞれ、畳み込みの計算を表す。例えば、第１畳み込み層に入力される入力画像に対して、畳み込みの計算C₁が実行される。

なお、画像は、入力されるデータの一例である。CNN に入力されるデータは、画像以外のデータであってもよい。

また、図８に示すP₁、P₂はそれぞれ、プーリングの計算を表す。例えば、第１プーリング層に入力される畳み込みの計算結果に対して、プーリングの計算P₁が実行される。

また、図８に示すF は、全結合ネットワークを表す。全結合ネットワークF は、第２プーリング層のノードと出力層のノードを全て結合する全結合層の機能を有する。最終的に、出力層からCNN の出力が得られる。

以下、CNN における畳み込みの計算を具体的に説明する。図９は、CNN における畳み込みの計算の例を示す説明図である。なお、図９に示す畳み込みの計算の例は、図８に示す畳み込みの計算C₁に相当する。

図９に示す入力画像は、CNN に入力される画像である。図９に示す入力画像は、第１チャネル～第C_in チャネル（C_inは２以上の整数）が順に並べられて構成されている。すなわち、C_inは、入力チャネル数を意味する。また、図９に示すように、入力画像を構成する画像の縦のサイズはH 、横のサイズはW である。

説明を簡便にするため、畳み込みの計算の対象である入力X として、図９に示す格子模様が記された縦のサイズが１、横のサイズが１、チャネル数がC_inの画像を考える。図９の下段には、高さ方向から見た場合の入力X が記載されている。また、図９に示す入力X の左の符号は、チャネルの識別番号である（他の図においても同様）。

すなわち、図９に示す畳み込みの計算の例において、カーネルサイズは「１×１」である。しかし、以下の説明の内容は、カーネルサイズが「１×１」以外のサイズ（例えば、「３×３」や「５×５」）であっても同様である。

図９に示す畳み込みの計算では、縦のサイズがC_out、横のサイズがC_inの重みW と、入力X とが掛け合わされる。掛け合わされた結果、チャネル数がC_outの画像である出力Y₀が得られる。すなわち、C_outは、出力チャネル数を意味する。

なお、図９に示す畳み込みの計算は、行列同士の乗算に相当する。すなわち、図９に示す畳み込みの計算では、重みW 、入力X 、出力Y₀はそれぞれ、行列として扱われる。本明細書における「重み」は、正確には「重み行列」であるが、簡便のため単に「重み」とも呼ぶ。

また、図８～図９に示すCNN は、学習済みモデルである。すなわち、図９に示す重みW も、事前に学習が実行されることによって得られた重みである。

上記の畳み込みの計算の方法として、グループ化畳み込みを使用するCNN が増加している。例えば、非特許文献１には、グループ化畳み込みの説明が記載されている。

S. Xie, R. Girshick, P. Dollar, Z. Tu, and K. He, "Aggregatedresidual transformations for deep neural networks," in Computer Vision and Pattern Recognition, 2017.

グループ化畳み込みの計算には、通常の畳み込みの計算に比べて演算量が小さい、精度が高い等の利点がある。しかし、AI(Artificial Intelligence) 処理に特化した半導体集積回路であるAIチップがグループ化畳み込みの計算を実行すると、計算速度が低下する場合がある。

グループ化畳み込みとAIチップのどちらも利用の増加が予測されるため、AIチップがグループ化畳み込みの計算を実行しても、計算速度が低下しない方法が求められている。非特許文献１には、グループ化畳み込みの計算速度が低下しない方法が記載されていない。

そこで、本発明は、グループ化畳み込みの計算速度を高めることができるグループ化畳み込み処理定義変更装置、グループ化畳み込み処理定義変更方法およびグループ化畳み込み処理定義変更プログラムを提供することを目的とする。

本発明によるグループ化畳み込み処理定義変更装置は、第１チャネル～第N チャネル（N は２以上の整数）が順に並べられて構成されている入力されたデータがチャネル方向にG （G は２以上の整数）個に分割され、分割された{(i －1)×N/G ＋1}チャネル～(i×N/G)チャネル(i＝１～G)で構成されているデータに対して第i 重み行列が使用されて畳み込みの計算がi ＝１からi ＝G に渡ってそれぞれ実行されるグループ化畳み込みが定義された学習済みの畳み込みニューラルネットワークに関して、入力されたデータが分割される数をG からg （g は、G を除くG の約数）に変更する変更手段と、分割される数が変更された後に分割された{(j －1)×N/g ＋1}チャネル～(j×N/g)チャネル(j＝１～g)で構成されているデータの畳み込みの計算で使用される新たな第j 重み行列を、j ＝１からj ＝g に渡ってそれぞれ生成する生成手段とを備え、生成手段は、新たな第j 重み行列を、新たな第j 重み行列の左上から右下にかけて第{(j －1)×G/g ＋1}重み行列～第(j×G/g)重み行列を対角線上に順に配置し、重み行列が配置された箇所の成分以外の成分の値を全て０に設定することによって生成することを特徴とする。

本発明によるグループ化畳み込み処理定義変更方法は、コンピュータが、第１チャネル～第N チャネル（N は２以上の整数）が順に並べられて構成されている入力されたデータがチャネル方向にG （G は２以上の整数）個に分割され、分割された{(i －1)×N/G ＋1}チャネル～(i×N/G)チャネル(i＝１～G)で構成されているデータに対して第i 重み行列が使用されて畳み込みの計算がi ＝１からi ＝G に渡ってそれぞれ実行されるグループ化畳み込みが定義された学習済みの畳み込みニューラルネットワークに関して、入力されたデータが分割される数をG からg （g は、G を除くG の約数）に変更し、分割される数が変更された後に分割された{(j －1)×N/g ＋1}チャネル～(j×N/g)チャネル(j＝１～g)で構成されているデータの畳み込みの計算で使用される新たな第j 重み行列を、j ＝１からj ＝g に渡ってそれぞれ生成し、新たな第j 重み行列を、新たな第j 重み行列の左上から右下にかけて第{(j －1)×G/g ＋1}重み行列～第(j×G/g)重み行列を対角線上に順に配置し、重み行列が配置された箇所の成分以外の成分の値を全て０に設定することによって生成することを特徴とする。

本発明によるグループ化畳み込み処理定義変更プログラムは、コンピュータに、第１チャネル～第N チャネル（N は２以上の整数）が順に並べられて構成されている入力されたデータがチャネル方向にG （G は２以上の整数）個に分割され、分割された{(i －1)×N/G ＋1}チャネル～(i×N/G)チャネル(i＝１～G)で構成されているデータに対して第i 重み行列が使用されて畳み込みの計算がi ＝１からi ＝G に渡ってそれぞれ実行されるグループ化畳み込みが定義された学習済みの畳み込みニューラルネットワークに関して、入力されたデータが分割される数をG からg （g は、G を除くG の約数）に変更する変更処理、および分割される数が変更された後に分割された{(j －1)×N/g ＋1}チャネル～(j×N/g)チャネル(j＝１～g)で構成されているデータの畳み込みの計算で使用される新たな第j 重み行列を、j ＝１からj ＝g に渡ってそれぞれ生成する生成処理を実行させるためのグループ化畳み込み処理定義変更プログラムであって、生成処理で、新たな第j 重み行列を、新たな第j 重み行列の左上から右下にかけて第{(j －1)×G/g ＋1}重み行列～第(j×G/g)重み行列を対角線上に順に配置し、重み行列が配置された箇所の成分以外の成分の値を全て０に設定することによって生成させることを特徴とする。

本発明によれば、グループ化畳み込みの計算速度を高めることができる。

CNN におけるグループ化畳み込みの計算の例を示す説明図である。本発明の実施形態のグループ化畳み込み処理定義変更装置の構成例を示すブロック図である。グループ化畳み込み処理定義変更装置１００により定義が変更されたグループ化畳み込みの計算の例を示す説明図である。グループ化畳み込み処理定義変更装置１００により定義が変更されたグループ化畳み込みの計算の他の例を示す説明図である。本実施形態のグループ化畳み込み処理定義変更装置１００によるグループ化畳み込み処理定義変更処理の動作を示すフローチャートである。本発明によるグループ化畳み込み処理定義変更装置１００のハードウェア構成例を示す説明図である。本発明によるグループ化畳み込み処理定義変更装置の概要を示すブロック図である。畳み込みニューラルネットワークの例を示す説明図である。 CNN における畳み込みの計算の例を示す説明図である。

最初に、CNN におけるグループ化畳み込みの計算を具体的に説明する。図１は、CNN におけるグループ化畳み込みの計算の例を示す説明図である。

なお、図１に示すグループ化畳み込みの計算の例は、図９に示す畳み込みの計算にグループ化畳み込みが適用された場合の例である。また、本例ではAIチップがグループ化畳み込みの計算を実行する場合を考える。

図１に示すグループ化畳み込みの計算の例では、グループ数が「４」に定義されている。すなわち、図１に示す例で使用されるCNN は、入力X をチャネル方向に４つのグループに分けて畳み込みの計算を行うことが予め定義された上で事前に学習されたモデルである。

なお、画像である入力X は、入力されるデータの一例である。CNN に入力されるデータは、画像以外のデータであってもよい。

よって、図１に示すように、グループ化畳み込みの計算では、縦のサイズが(C_out/4)、横のサイズが(C_in/4) の重みW_a～重みW_dが用意される。AIチップは、例えば重みW_aと、分割された第１チャネル～第C_in/4 チャネルで構成されている画像（チャネル数が(C_in/4) ）とを掛け合わせる。掛け合わせた結果、AIチップは、チャネル数が(C_out/4)の画像を出力として得る。

図１に示すように、AIチップは、上記の計算を重みW_b～重みW_dに対してもそれぞれ行う。すなわち、AIチップは、入力X をチャネル方向に４個に分割し、分割された第{(i －1)×C_in/4 ＋1}チャネル～第(i×C_in/4)チャネル(i＝１～４) で構成されている画像に対して第i 重み行列を使用して、畳み込みの計算をi ＝１からi ＝４に渡ってそれぞれ実行する。なお、第１重み行列～第４重み行列はそれぞれ、重みW_a～重みW_dに対応する。各計算の結果、AIチップは、チャネル数が(C_out/4)の画像を４つ得る。

最後に、AIチップは、計算に使用された４分割された入力X の位置と同じ位置に、得られた画像を配置する。得られた４つの画像をそれぞれ配置した後、AIチップは、各画像を結合する。

結合することによって、AIチップは、通常の畳み込みの計算結果に相当するチャネル数がC_outの画像である出力Y を得る。なお、図１に示すグループ化畳み込みの計算で得られる出力Y は、図９に示す畳み込みの計算で得られる出力Y₀と等価ではない。

畳み込みの計算量は、重みのサイズに比例する。例えば、図９に示す畳み込みの計算量は、重みW のサイズである(C_in×C_out) に比例する。また、図１に示すグループ化畳み込みの計算量は、重みW_a～重みW_dの各サイズの総和である{(C_in/4)×(C_out/4)×4}に比例する。すなわち、図１に示すグループ化畳み込みの計算量は、図９に示す畳み込みの計算量の1/4 になる。

一般的に、入力X がG （G は２以上の整数）個のグループに分けられてグループ化畳み込みの計算が行われる場合、図１に示すグループ化畳み込みの計算量は、{(C_in/G)×(C_out/G)×G}に比例する。すなわち、図１に示すグループ化畳み込みの計算量は、図９に示す畳み込みの計算量の1/G になる。

上記の理論によれば、計算量が1/G になるため、グループ化畳み込みの計算速度は、通常の畳み込みの計算速度のG 倍になることが予想される。しかし、AIチップには、通常の畳み込みに最適化されているため、グループ化畳み込みに適していないチップも多い。

グループ化畳み込みに適していないAIチップには、例えばグループ化畳み込みの計算処理が複数回の畳み込みの計算処理として実装される可能性がある。よって、複数回の畳み込みの計算処理が実装されたAIチップは、グループ化畳み込みの計算を行う場合、畳み込みの計算の呼び出しに掛かるオーバヘッドの影響をG 回受ける。AIチップがオーバヘッドの影響をG 回受けると、グループ化畳み込みの計算速度が低下する。

また、グループ化畳み込みの計算では、１回の計算対象の画像のチャネル数が小さくなる（図１に示す(C_in/4) 等）。よって、同時に実行可能な畳み込みの計算処理の数である画像のチャネル数が、AIチップが並列で処理可能な処理の最大数に到達しない可能性が高い。

例えば、最大で２５６個の処理を並列で処理可能なAIチップにチャネル数が８の画像が入力されても、AIチップは、最大で８個の処理しか並列で処理できない。すなわち、処理の並列度が小さくなることも、グループ化畳み込みの計算速度が低下する要因の１つである。

［構成の説明］
以下、上述した課題である、グループ化畳み込みの計算速度を高めることができる本発明の実施形態を図面を参照して説明する。図２は、本発明の実施形態のグループ化畳み込み処理定義変更装置の構成例を示すブロック図である。

図２に示すグループ化畳み込み処理定義変更装置１００は、変更前CNN モデル記憶部２００と、変更後CNN モデル記憶部３００と通信可能に接続されている。

変更前CNN モデル記憶部２００には、図１に示す重みW_a～重みW_dを含め、上述した学習済みのCNN のモデルが記憶されている。変更前CNN モデル記憶部２００に記憶されている学習済みのCNN のモデルは、グループ化畳み込みが定義された上で学習されたモデルである。

また、変更後CNN モデル記憶部３００には、グループ化畳み込み処理定義変更装置１００により定義が変更された、変更前CNN モデル記憶部２００に記憶されている学習済みのCNN のモデルが格納される。

また、AIチップ４００は、変更後CNN モデル記憶部３００と通信可能に接続されている。AIチップ４００は、変更後CNN モデル記憶部３００に記憶されている学習済みのCNN のモデルを用いて、畳み込みの計算を行うチップである。

また、図２に示すように、グループ化畳み込み処理定義変更装置１００は、取得部１１０と、定義変更部１２０と、重み変更部１３０と、格納部１４０とを備える。

取得部１１０は、図１に示す重みW_a～重みW_dを含め、変更前CNN モデル記憶部２００から学習済みのCNN のモデルを取得する。

上述した課題を解決するために、本実施形態のグループ化畳み込み処理定義変更装置１００は、グループ化畳み込みの計算における各グループを再度まとめることを特徴とする。以下、グループ化畳み込み処理定義変更装置１００による課題の解決方法を説明する。

図３は、グループ化畳み込み処理定義変更装置１００により定義が変更されたグループ化畳み込みの計算の例を示す説明図である。

なお、図３～図４に示す畳み込みの計算の例において、カーネルサイズは「１×１」である。しかし、本実施形態の内容は、カーネルサイズが「１×１」以外のサイズ（例えば、「３×３」や「５×５」）であっても同様である。

図３に示す畳み込みの計算では、定義変更部１２０が、変更前CNN モデル記憶部２００に記憶されている学習済みのCNN のモデルに定義されているグループ数を「４」から「１」に変更している。グループ数の変更に伴い、重み変更部１３０が、１つの重みW₁のみを用意している。

図３に示すように、重み変更部１３０は、重みW₁の左上から右下にかけて図１に示す重みW_a～重みW_dを、対角線上に重みW_a～重みW_dの順で配置する。次いで、重み変更部１３０は、重みW_a～重みW_dが配置された箇所の成分以外の成分の値を全て０に設定することによって、重みW₁を生成する。

図３に示すように、重みW₁は、縦のサイズがC_out、横のサイズがC_in の重みになる。また、図３に示す「（０）」が記載された箇所は、成分の値が０である箇所である（他の図においても同様）。

グループ化畳み込み処理定義変更装置１００の格納部１４０は、重み変更部１３０により生成された重みW₁も含めて、定義変更部１２０により定義が変更された学習済みのCNN のモデルを変更後CNN モデル記憶部３００に格納する。

よって、図３に示す畳み込みの計算では、AIチップ４００が、重みW₁と、入力X とを掛け合わせる計算を１回だけ行う。計算を１回だけ行うことによって、AIチップ４００は、出力Y を得る。

図３に示す畳み込みの計算では、AIチップ４００がオーバヘッドの影響を受ける回数は最少（１回）になる。ただし、値が０である多くの重みの成分に対しても、AIチップ４００は、演算を行う。すなわち、図３に示す畳み込みの計算は、オーバヘッドの影響と行列演算の負荷とのバランスがとれた計算ではない可能性が高い。

図４は、グループ化畳み込み処理定義変更装置１００により定義が変更されたグループ化畳み込みの計算の他の例を示す説明図である。

図４に示すグループ化畳み込みの計算では、定義変更部１２０が、変更前CNN モデル記憶部２００に記憶されている学習済みのCNN のモデルに定義されているグループ数を「４」から「２」に変更している。グループ数の変更に伴い、重み変更部１３０が、重みW₂～重みW₃を用意している。

本実施形態の定義変更部１２０は、学習済みのCNN のモデルに定義されているグループ数を、グループ数の約数に変更する。図４に示す例であれば、「２」は「４」の約数である。

図４に示すように、重み変更部１３０は、重みW₂の左上から右下にかけて図１に示す重みW_a～重みW_bを、対角線上に重みW_a～重みW_bの順で配置する。次いで、重み変更部１３０は、重みW_a～重みW_bが配置された箇所の成分以外の成分の値を全て０に設定することによって、重みW₂を生成する。

また、重み変更部１３０は、重みW₃の左上から右下にかけて図１に示す重みW_c～重みW_dを、対角線上に重みW_c～重みW_dの順で配置する。次いで、重み変更部１３０は、重みW_c～重みW_dが配置された箇所の成分以外の成分の値を全て０に設定することによって、重みW₃を生成する。

図４に示すように、重みW₂～重みW₃は、縦のサイズが(C_out/2)、横のサイズが(C_in/2) の重みになる。なお、重み変更部１３０は、図３に示すサイズが(C_in×C_out) の重みW₁を、サイズが(C_in/2) ×(C_out/2)である４個の重みに分割し、分割された４個の重みのうち非零の成分を含む重みを重みW₂～重みW₃として生成してもよい。

グループ化畳み込み処理定義変更装置１００の格納部１４０は、重み変更部１３０により生成された重みW₂～重みW₃も含めて、定義変更部１２０により定義が変更された学習済みのCNN のモデルを変更後CNN モデル記憶部３００に格納する。

よって、図４に示す畳み込みの計算では、AIチップ４００が、例えば重みW₂と、分割された第１チャネル～第C_in/2 チャネルで構成されている画像（チャネル数が(C_in/2) ）とを掛け合わせる。掛け合わせた結果、AIチップ４００は、チャネル数が(C_out/2)の画像を出力として得る。

AIチップ４００は、上記の計算を重みW₃に対しても行う。すなわち、AIチップ４００は、入力X をチャネル方向に２個に分割し、分割された第{(j －1)×C_in/2 ＋1}チャネル～第(j×C_in/2)チャネル(j＝１～２) で構成されている画像に対して新たな第j 重み行列を使用して、畳み込みの計算をj ＝１からj ＝２に渡ってそれぞれ実行する。なお、新たな第１重み行列～新たな第２重み行列はそれぞれ、重みW₂～重みW₃に対応する。

各計算の結果、AIチップ４００は、チャネル数が(C_out/2)の画像を２つ得る。次いで、AIチップ４００は、計算に使用された２分割された入力X の位置と同じ位置に得られた画像を配置する。

得られた２つの画像をそれぞれ配置した後、AIチップ４００は、各画像を結合する。結合することによって、AIチップ４００は、出力Y を得る。

すなわち、重み変更部１３０は、新たな第１重み行列に対応する重みW₂の左上から右下にかけて重みW_a、重みW_bを対角線上に順に配置する。次いで、重み変更部１３０は、重みが配置された箇所の成分以外の成分の値を全て０に設定することによって、重みW₂を生成する。

図１に示すグループ化畳み込みでは、重みW_aは、第１（＝{(1 －1)×4/2 ＋1}）重み行列に対応する。また、重みW_bは、第２（＝(1×4/2)）重み行列に対応する。

また、重み変更部１３０は、新たな第２重み行列に対応する重みW₃の左上から右下にかけて重みW_c、重みW_dを対角線上に順に配置する。次いで、重み変更部１３０は、重みが配置された箇所の成分以外の成分の値を全て０に設定することによって、重みW₃を生成する。

図１に示すグループ化畳み込みでは、重みW_cは、第３（＝{(2 －1)×4/2 ＋1}）重み行列に対応する。また、重みW_dは、第４（＝(2×4/2)）重み行列に対応する。

図４に示すグループ化畳み込みの計算では、AIチップ４００がオーバヘッドの影響を受ける回数は、図１に示すグループ化畳み込みの計算での４回から２回に減る。

また、図４に示すグループ化畳み込みの計算では、図３に示す畳み込みの計算に比べて、値が０である重みの成分に対してAIチップ４００が演算を行う回数も少なくなる。すなわち、図４に示すグループ化畳み込みの計算は、オーバヘッドの影響と行列演算の負荷とのバランスがとれた計算である可能性が高い。

以上のように、本実施形態のグループ化畳み込み処理定義変更装置１００は、第１チャネル～第N チャネル（N は２以上の整数）が順に並べられて構成されている入力されたデータがチャネル方向にG （G は２以上の整数）個に分割されるグループ化畳み込みが定義された学習済みの畳み込みニューラルネットワークを扱う。グループ化畳み込みでは、分割された{(i －1)×N/G ＋1}チャネル～(i×N/G)チャネル(i＝１～G)で構成されているデータに対して第i 重み行列が使用されて畳み込みの計算がi ＝１からi ＝G に渡ってそれぞれ実行される。

定義変更部１２０は、入力されたデータが分割される数をG からg （g は、G を除くG の約数）に変更する。G からg に変更された場合、重み変更部１３０は、分割される数が変更された後に分割された{(j －1)×N/g ＋1}チャネル～(j×N/g)チャネル(j＝１～g)で構成されているデータの畳み込みの計算で使用される新たな第j 重み行列を、j ＝１からj ＝g に渡ってそれぞれ生成する。

具体的には、重み変更部１３０は、新たな第j 重み行列を、新たな第j 重み行列の左上から右下にかけて第{(j －1)×G/g ＋1}重み行列～第(j×G/g)重み行列を対角線上に順に配置し、重み行列が配置された箇所の成分以外の成分の値を全て０に設定することによって生成する。

なお、g の最適な値は、AIチップ４００に依存する。よって、グループ化畳み込み処理定義変更装置１００がG を除くG の約数全てに対して新たな重み行列を生成し、各重み行列が用いられた場合のAIチップ４００の性能がそれぞれ計測され、各計測結果を基にg の最適な値が決定されることが好ましい。

また、定義変更部１２０は、入力されたデータが分割される数をG から１に変更してもよい。また、定義変更部１２０は、CNN を構成する複数の畳み込み層ごとに、g の最適な値を変更してもよい。

［動作の説明］
以下、本実施形態のグループ化畳み込み処理定義変更装置１００の動作を図５を参照して説明する。図５は、本実施形態のグループ化畳み込み処理定義変更装置１００によるグループ化畳み込み処理定義変更処理の動作を示すフローチャートである。

最初に、グループ化畳み込み処理定義変更装置１００の取得部１１０が、変更前CNN モデル記憶部２００から学習済みのCNN のモデルを取得する（ステップS101）。

次いで、定義変更部１２０は、取得された学習済みのCNN のモデルに定義されているグループ数G を、新たなグループ数g に変更する（ステップS102）。なお、g は、G を除くG の約数である。

次いで、重み変更部１３０は、変更されたg を基に、取得された学習済みのCNN のモデルで使用される重みから新たな重みを生成する（ステップS103）。

重み変更部１３０による重みの生成方法は、上述した通りである。例えば、グループ数G がグループ数g に変更された場合、重み変更部１３０は、全部でg 個の重みを生成する。また、重み変更部１３０が生成する重みの縦と横のサイズは、取得された重みの縦と横のサイズのG/g 倍になる。

次いで、格納部１４０は、変更後CNN モデル記憶部３００に、重み変更部１３０により生成された重みも含めて、定義変更部１２０により定義が変更された学習済みのCNN のモデルを格納する（ステップS104）。格納した後、グループ化畳み込み処理定義変更装置１００は、グループ化畳み込み処理定義変更処理を終了する。

［効果の説明］
本実施形態のグループ化畳み込み処理定義変更装置１００は、定義変更部１２０および重み変更部１３０がグループ化畳み込みの処理をAIチップ４００に適した処理に置き換えることによって、グループ化畳み込みの計算を高速化する。

具体的には、グループ化畳み込みの処理は、計算量が増えるものの、オーバヘッドの影響を受ける回数が少なく、かつAIチップ４００が得意な並列度が高い処理に置き換えられる。従って、本実施形態のグループ化畳み込み処理定義変更装置１００が使用されると、計算量が増えるにも関わらず、グループ化畳み込みの計算が高速化される。

以下、本実施形態のグループ化畳み込み処理定義変更装置１００のハードウェア構成の具体例を説明する。図６は、本発明によるグループ化畳み込み処理定義変更装置１００のハードウェア構成例を示す説明図である。

図６に示すグループ化畳み込み処理定義変更装置１００は、ＣＰＵ（Central Processing Unit ）１１と、主記憶部１２と、通信部１３と、補助記憶部１４とを備える。また、ユーザが操作するための入力部１５や、ユーザに処理結果または処理内容の経過を提示するための出力部１６を備える。

グループ化畳み込み処理定義変更装置１００は、図６に示すＣＰＵ１１が各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現される。

すなわち、ＣＰＵ１１が補助記憶部１４に格納されているプログラムを、主記憶部１２にロードして実行し、グループ化畳み込み処理定義変更装置１００の動作を制御することによって、各機能がソフトウェアにより実現される。

なお、図６に示すグループ化畳み込み処理定義変更装置１００は、ＣＰＵ１１の代わりにＤＳＰ（Digital Signal Processor）を備えてもよい。または、図６に示すグループ化畳み込み処理定義変更装置１００は、ＣＰＵ１１とＤＳＰとを併せて備えてもよい。

主記憶部１２は、データの作業領域やデータの一時退避領域として用いられる。主記憶部１２は、例えばＲＡＭ（Random Access Memory）である。

通信部１３は、有線のネットワークまたは無線のネットワーク（情報通信ネットワーク）を介して、周辺機器との間でデータを入力および出力する機能を有する。

補助記憶部１４は、一時的でない有形の記憶媒体である。一時的でない有形の記憶媒体として、例えば磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory ）、ＤＶＤ－ＲＯＭ（Digital Versatile Disk Read Only Memory ）、半導体メモリが挙げられる。

入力部１５は、データや処理命令を入力する機能を有する。入力部１５は、例えばキーボードやマウス等の入力デバイスである。

出力部１６は、データを出力する機能を有する。出力部１６は、例えば液晶ディスプレイ装置等の表示装置、またはプリンタ等の印刷装置である。

また、図６に示すように、グループ化畳み込み処理定義変更装置１００において、各構成要素は、システムバス１７に接続されている。

補助記憶部１４は、本実施形態のグループ化畳み込み処理定義変更装置１００において、取得部１１０、定義変更部１２０、重み変更部１３０、および格納部１４０を実現するためのプログラムを記憶している。

なお、グループ化畳み込み処理定義変更装置１００は、例えば内部に図２に示すような機能を実現するＬＳＩ（Large Scale Integration ）等のハードウェア部品が含まれる回路が実装されてもよい。

また、グループ化畳み込み処理定義変更装置１００は、ＣＰＵ等の素子を用いるコンピュータ機能を含まないハードウェアにより実現されてもよい。例えば、各構成要素の一部または全部は、汎用の回路（circuitry ）または専用の回路、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップ（例えば、上記のＬＳＩ）によって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本発明の概要を説明する。図７は、本発明によるグループ化畳み込み処理定義変更装置の概要を示すブロック図である。本発明によるグループ化畳み込み処理定義変更装置２０は、第１チャネル～第N チャネル（N は２以上の整数）が順に並べられて構成されている入力されたデータがチャネル方向にG （G は２以上の整数）個に分割され、分割された{(i －1)×N/G ＋1}チャネル～(i×N/G)チャネル(i＝１～G)で構成されているデータに対して第i 重み行列が使用されて畳み込みの計算がi ＝１からi ＝G に渡ってそれぞれ実行されるグループ化畳み込みが定義された学習済みの畳み込みニューラルネットワークに関して、入力されたデータが分割される数をG からg （g は、G を除くG の約数）に変更する変更手段２１（例えば、定義変更部１２０）と、分割される数が変更された後に分割された{(j －1)×N/g ＋1}チャネル～(j×N/g)チャネル(j＝１～g)で構成されているデータの畳み込みの計算で使用される新たな第j 重み行列を、j ＝１からj ＝g に渡ってそれぞれ生成する生成手段２２（例えば、重み変更部１３０）とを備え、生成手段２２は、新たな第j 重み行列を、新たな第j 重み行列の左上から右下にかけて第{(j －1)×G/g ＋1}重み行列～第(j×G/g)重み行列を対角線上に順に配置し、重み行列が配置された箇所の成分以外の成分の値を全て０に設定することによって生成する。

そのような構成により、グループ化畳み込み処理定義変更装置は、グループ化畳み込みの計算速度を高めることができる。

また、変更手段２１は、入力されたデータが分割される数をG から１に変更してもよい。

そのような構成により、グループ化畳み込み処理定義変更装置は、オーバヘッドの影響を最小化できる。

また、変更手段２１は、学習済みの畳み込みニューラルネットワークを構成する複数の畳み込み層ごとに入力されたデータが分割される数をそれぞれ変更してもよい。

そのような構成により、グループ化畳み込み処理定義変更装置は、畳み込み層ごとにグループ化畳み込みの定義を変更できる。

１１ＣＰＵ
１２主記憶部
１３通信部
１４補助記憶部
１５入力部
１６出力部
１７システムバス
２０、１００グループ化畳み込み処理定義変更装置
２１変更手段
２２生成手段
１１０取得部
１２０定義変更部
１３０重み変更部
１４０格納部
２００変更前CNN モデル記憶部
３００変更後CNN モデル記憶部
４００ AIチップ

Claims

第１チャネル～第N チャネル（N は２以上の整数）が順に並べられて構成されている入力されたデータがチャネル方向にG （G は２以上の整数）個に分割され、分割された{(i －1)×N/G ＋1}チャネル～(i×N/G)チャネル(i＝１～G)で構成されているデータに対して第i 重み行列が使用されて畳み込みの計算がi ＝１からi ＝G に渡ってそれぞれ実行されるグループ化畳み込みが定義された学習済みの畳み込みニューラルネットワークに関して、前記入力されたデータが分割される数をG からg （g は、G を除くG の約数）に変更する変更手段と、
前記分割される数が変更された後に分割された{(j －1)×N/g ＋1}チャネル～(j×N/g)チャネル(j＝１～g)で構成されているデータの畳み込みの計算で使用される新たな第j 重み行列を、j ＝１からj ＝g に渡ってそれぞれ生成する生成手段とを備え、
前記生成手段は、
前記新たな第j 重み行列を、前記新たな第j 重み行列の左上から右下にかけて第{(j －1)×G/g ＋1}重み行列～第(j×G/g)重み行列を対角線上に順に配置し、重み行列が配置された箇所の成分以外の成分の値を全て０に設定することによって生成する
ことを特徴とするグループ化畳み込み処理定義変更装置。
変更手段は、入力されたデータが分割される数をG から１に変更する
請求項１記載のグループ化畳み込み処理定義変更装置。
変更手段は、学習済みの畳み込みニューラルネットワークを構成する複数の畳み込み層ごとに入力されたデータが分割される数をそれぞれ変更する
請求項１記載のグループ化畳み込み処理定義変更装置。
コンピュータが、
第１チャネル～第N チャネル（N は２以上の整数）が順に並べられて構成されている入力されたデータがチャネル方向にG （G は２以上の整数）個に分割され、分割された{(i －1)×N/G ＋1}チャネル～(i×N/G)チャネル(i＝１～G)で構成されているデータに対して第i 重み行列が使用されて畳み込みの計算がi ＝１からi ＝G に渡ってそれぞれ実行されるグループ化畳み込みが定義された学習済みの畳み込みニューラルネットワークに関して、前記入力されたデータが分割される数をG からg （g は、G を除くG の約数）に変更し、
前記分割される数が変更された後に分割された{(j －1)×N/g ＋1}チャネル～(j×N/g)チャネル(j＝１～g)で構成されているデータの畳み込みの計算で使用される新たな第j 重み行列を、j ＝１からj ＝g に渡ってそれぞれ生成し、
前記新たな第j 重み行列を、前記新たな第j 重み行列の左上から右下にかけて第{(j －1)×G/g ＋1}重み行列～第(j×G/g)重み行列を対角線上に順に配置し、重み行列が配置された箇所の成分以外の成分の値を全て０に設定することによって生成する
ことを特徴とするグループ化畳み込み処理定義変更方法。
コンピュータが、
入力されたデータが分割される数をG から１に変更する
請求項４記載のグループ化畳み込み処理定義変更方法。
コンピュータが、
学習済みの畳み込みニューラルネットワークを構成する複数の畳み込み層ごとに入力されたデータが分割される数をそれぞれ変更する
請求項４記載のグループ化畳み込み処理定義変更方法。
コンピュータに、
第１チャネル～第N チャネル（N は２以上の整数）が順に並べられて構成されている入力されたデータがチャネル方向にG （G は２以上の整数）個に分割され、分割された{(i －1)×N/G ＋1}チャネル～(i×N/G)チャネル(i＝１～G)で構成されているデータに対して第i 重み行列が使用されて畳み込みの計算がi ＝１からi ＝G に渡ってそれぞれ実行されるグループ化畳み込みが定義された学習済みの畳み込みニューラルネットワークに関して、前記入力されたデータが分割される数をG からg （g は、G を除くG の約数）に変更する変更処理、および
前記分割される数が変更された後に分割された{(j －1)×N/g ＋1}チャネル～(j×N/g)チャネル(j＝１～g)で構成されているデータの畳み込みの計算で使用される新たな第j 重み行列を、j ＝１からj ＝g に渡ってそれぞれ生成する生成処理を実行させるためのグループ化畳み込み処理定義変更プログラムであって、
前記生成処理で、
前記新たな第j 重み行列を、前記新たな第j 重み行列の左上から右下にかけて第{(j －1)×G/g ＋1}重み行列～第(j×G/g)重み行列を対角線上に順に配置し、重み行列が配置された箇所の成分以外の成分の値を全て０に設定することによって生成させる
グループ化畳み込み処理定義変更プログラム。
コンピュータに、
前記変更処理で、入力されたデータが分割される数をG から１に変更させる
請求項７記載のグループ化畳み込み処理定義変更プログラム。
コンピュータに、
前記変更処理で、学習済みの畳み込みニューラルネットワークを構成する複数の畳み込み層ごとに入力されたデータが分割される数をそれぞれ変更させる
請求項７記載のグループ化畳み込み処理定義変更プログラム。