JP2022135701A

JP2022135701A - 学習装置、方法およびプログラム

Info

Publication number: JP2022135701A
Application number: JP2021035666A
Authority: JP
Inventors: 修平新田; Shuhei Nitta; 昭行谷沢; Akiyuki Tanizawa
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-09-15
Also published as: US20220284238A1

Abstract

【課題】効率的かつ効果的な学習条件を設定すること。
【解決手段】本実施形態に係る学習装置は、決定部は、対象デバイスで取得する対象データに関する単位当たりの情報量を示すデータ解像度を基準として、前記対象データのデータ解像度を含む範囲で、それぞれ異なる複数のデータ解像度を決定する。学習部は、前記複数のデータ解像度にそれぞれ対応する学習サンプルを用いて、入力データのデータ解像度を変更可能なニューラルネットワークであるスケーラブルネットワークを学習させる。
【選択図】図１

Description

本発明の実施形態は、学習装置、方法およびプログラムに関する。

ニューラルネットワークのアーキテクチャ設計を最適化する技術（ＮＡＳ：Neural Architecture Search）が注目される。例えば、入力画像サイズ、層数およびチャネル数に関する複数の条件を混ぜてスケーラブルなニューラルネットワークを学習する技術がある。
しかし、上述の技術では、どのようなバリエーションで学習すべきかについての指針がなく、当該バリエーションの選定が難しい。また、搭載するデバイスの使用に特化して学習しているわけではないため、推論精度が十分でない場合がある。

国際公開第２０１８／１７３１２１号

Jiahui Yu et al., "BigNAS:Scaling up Neural Architecture Search with Big Single-Stage Models", [online]、令和２年７月１７日、［令和３年１月１２日検索］、インターネット＜URL : http://arxiv.org/abs/2003.11142＞

本開示は、上述の課題を解決するためになされたものであり、効率的かつ効果的な学習条件を設定できる学習装置、方法およびプログラムを提供することを目的とする。

本実施形態に係る学習装置は、決定部と、学習部とを含む。決定部は、対象デバイスで取得する対象データに関する単位当たりの情報量を示すデータ解像度を基準として、前記対象データのデータ解像度を含む範囲で、それぞれ異なる複数のデータ解像度を決定する。学習部は、前記複数のデータ解像度にそれぞれ対応する学習サンプルを用いて、入力データのデータ解像度を変更可能なニューラルネットワークであるスケーラブルネットワークを学習させる。

本実施形態に係る学習装置を示すブロック図。本実施形態に係る画像データの場合のデータ解像度を示す概念図。本実施形態に係る時系列データの場合のデータ解像度を示す概念図。本実施形態に係る学習装置の動作例を示すフローチャート。残差ブロックに関する概念図。基本構造におけるスケーラブルネットワークの層構造を示す概念図。基本構造よりも画像サイズが小さい場合のスケーラブルネットワークの層構造を示す概念図。本実施形態に係る学習装置のシミュレーション結果を示す概念図。本実施形態に係る学習装置のハードウェア構成を示す図。

以下、図面を参照しながら本実施形態に係る学習装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

本実施形態に係る学習装置を含むモデル提供システムについて図１のブロック図を参照して説明する。
本実施形態に係るモデル提供システム１は、学習装置１０と１以上の対象デバイス２１とを含む。
学習装置１０は、ネットワーク５０を介して対象デバイス２１－１および対象デバイス２１－２と接続される。対象デバイス２１は、例えば路上または工場などに配備される監視カメラまたはユーザが利用するＩｏＴ機器といった、学習済みモデルを搭載して処理を実行可能なエッジデバイスを想定する。
なお、図１では２つの対象デバイス２１を図示するが、１つの対象デバイス２１であってもよいし、３以上の対象デバイス２１が存在してもよい。以下では、特に断らない限り、対象デバイス２１が１つであるか、複数の対象デバイス２１が存在する場合でも、複数の対象デバイス２１が同一の仕様を有する場合について説明する。

本実施形態に係る学習装置１０は、取得部１０１と、決定部１０２と、学習部１０３と、提供部１０４とを含む。
取得部１０１は、学習済みモデルの提供先である対象デバイス２１に関するデバイス情報を取得する。

デバイス情報は、例えば、対象デバイス２１で取得する対象データのデータ解像度（対象データ解像度ともいう）、対象デバイス２１の処理回路（例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable gate array）およびＡＳＩＣ（Application Specific Integrated Circuit））の処理能力、デバイスの最大メモリといった情報である。対象データは、カメラにより撮像した画像データ、マイクにより収集した音声などの時系列データなどが挙げられる。データ解像度は、単位当たりの情報量を示す。処理回路の処理能力に関する情報としては、ＦＬＯＰＳ（Floating-point Operations Per Second）、ＴＯＰＳ（Trillion Operations Per Second）などが挙げられる。

また、取得部１０１は、機械学習モデルを学習させるための学習サンプルおよび教示データを取得する。なお、学習サンプルおよび教示データをあわせて学習用データセットとも呼ぶ。

決定部１０２は、取得部１０１からデバイス情報を受け取り、デバイス情報に含まれる対象データ解像度を基準として、対象データ解像度を含む範囲で、それぞれ異なる複数のデータ解像度を決定する。
学習部１０３は、取得部１０１から学習用データセットを、決定部１０２からそれぞれ異なる複数のデータ解像度に関する情報をそれぞれ受け取る。学習部１０３は、異なるデータ解像度にそれぞれ対応する学習サンプルを含む学習用データセットを用いて、スケーラブルネットワークを学習させ、学習済みモデルを生成する。スケーラブルネットワークは、少なくとも入力データのデータ解像度（サイズ）を変更可能なニューラルネットワークである。

提供部１０４は、学習部１０３から学習済みモデルを受け取り、ネットワーク５０を介して学習済みモデルを対象デバイス２１に提供する。なお、ネットワーク５０を介さず、学習装置１０が対象デバイス２１に有線または無線により直接接続し、学習装置１０から学習済みモデルが対象デバイス２１に直接提供されてもよい。

次に、本実施形態に係るデータ解像度の概念について図２Ａおよび図２Ｂを参照して説明する。
図２Ａは、対象データが画像データである場合の複数のデータ解像度の概念を示す。対象データが画像データであれば、画像サイズがデータ解像度となる「１枚の画像」という単位当たりの縦横の画像サイズ（ピクセル数）を異ならせることで、画像データの解像度を変更できる。図２Ａでは、１０４×１０４［ｐｉｘｅｌ］、１２８×１２８［ｐｉｘｅｌ］および１５２×１５２［ｐｉｘｅｌ］と３つの異なる画像サイズが示される。一般にピクセル数が多いほど画像の解像度は高くなり、ピクセル数が少ないほど画像の解像度は低いといえる。

次に、図２Ｂは、対象データが時系列データである場合の複数のデータ解像度の概念を示す。対象データが音声やセンサ値などの時系列データであれば、データのサンプリングレートがデータ解像度となる。図２Ｂに示すように、単位時間当たりの時系列データのサンプリング間隔を異ならせることで、時系列データの解像度を変更できる。図２Ｂでは、ある単位時間において、１ｋＨｚのサンプリングレートでは４つのサンプリング点（Ｓ_１～Ｓ_４）、２ｋＨｚのサンプリングレートでは８つのサンプリング点（Ｓ_１～Ｓ_８）、および３ｋＨｚのサンプリングレートでは１２つのサンプリング点（Ｓ_１～Ｓ_１２）を有する、３つの異なるサンプリングレートの時系列データが示される。サンプリングレートが高いほど、単位時間に取得するデータ数が多くなるためデータの解像度が高く、サンプリングレートが低いほど、単位時間に取得するデータ数が少なくなるため、データの解像度が低いといえる。

決定部１０２は、図２Ａおよび図２Ｂのように、それぞれ異なる複数のデータ解像度を決定すればよい。以下の実施形態では、対象データが画像データであり、データ解像度が画像サイズである場合を例に説明する。
なお、本実施形態では、対象データが画像データおよび時系列データに限らず、データ解像度が定義可能な等間隔にサンプリングされたデータであれば、対象データとして採用できる。

次に、本実施形態に係る学習装置１０の動作例について図３のフローチャートを参照して説明する。なお図３の例では、車が写っているか否かを判定する画像の分類タスクを実行する学習済みモデルを、対象デバイス２１である路上に配置される監視カメラに搭載する例を用いて説明する。また、以下では、入力データのサイズとネットワークの層数とを変更可能なスケーラブルネットワークを学習し、学習済みモデルを生成する例について説明する。

ステップＳ３０１では、取得部１０１が、対象デバイス２１のデバイス情報を取得し、対象デバイス２１の対象データ解像度を取得する。すなわち、取得部１０１は、画像データの画像サイズを取得する。ここでは一例として、対象デバイス２１で取得される画像サイズを１２８×１２８［ｐｉｘｅｌ］であるとする。

ステップＳ３０２では、決定部１０２が、ステップＳ３０１で取得した対象データ解像度に基づいて、それぞれ異なる複数のデータ解像度と、スケーラブルネットワークに関する、それぞれ異なる複数のネットワーク構造とを決定する。すなわち、決定部１０２は、対象デバイス２１で取得される画像サイズを含む範囲で、それぞれ異なる複数の画像サイズと、対応する複数のネットワーク構造を決定する。ここでは、ネットワーク構造の一例として、ＲｅｓＮｅｔ（Residual Network）を想定する。本実施形態で想定するＲｅｓＮｅｔは、（６ｎ＋１）層（ｎは１以上の整数）の畳み込み層と、１層の全結合層とにより構成される畳み込みニューラルネットワークである。ｎの数を変更することにより、計算コストに相当する合計の層数と推論精度（認識率）とを調整できる。例えば、ｎ＝６であれば、（６×６＋１）＋１＝３８層のネットワーク構造となる。本実施形態では、最終的に対象デバイス２１に提供する、対象データ解像度に対応するスケーラブルネットワークのネットワーク構造を基本構造とも呼ぶ。

なお、ＲｅｓＮｅｔに限らず、ＤｅｎｓｅＮｅｔやＵ－ｎｅｔなど、ショートカット構造を有する他のニューラルネットワークでもよいし、一般的なＤＣＮＮ（Deep Convolutional Neural Network）であってもよく、異なるデータ解像度に対応した複数のネットワーク構造を設計できれば、どのようなニューラルネットワークでもよい。

決定部１０２は、基本構造となるｎの値を中心としてｎの値を増減させることでバリエーションを持たせ、複数のｎの値にそれぞれ対応するネットワーク構造を決定する。ここでは、デバイス情報に含まれる対象デバイスの最大メモリの容量を超えない範囲で最大のｎを選択することとし、ｎ＝６の場合を基本構造とする。続いて、対応するＲｅｓＮｅｔの構造を基本構造とし、基本構造となるｎの値を中心としてｎ±１、ｎ±２となる５つのｎの値を選択する。決定部１０２は、ｎ＝｛４，５，６，７，８｝にそれぞれ対応するネットワーク構造を決定する。

決定部１０２は、決定されたネットワーク構造のそれぞれの層数に対応する、複数の画像サイズを決定する。画像サイズの決定方法としては、例えば、本実施形態で想定するスケーラブルネットワークでは、ｎが１つ増えると、ネットワーク全体で６層分、層が増える。畳み込み処理におけるカーネルのストライドを１とすると、１層増えるごとに２［ｐｉｘｅｌ］増加することから、スケーラブルネットワーク全体での畳み込み層の受容野（レセプティブフィールド）はプーリングを考慮しない単純な換算で１２[ｐｉｘｅｌ]増加する。よって、決定部１０２は、層数を変更した場合に受容野が変化しないように画像サイズを決定すればよい。具体的には、基本構造に対する対象デバイス２１の画像サイズが１２８×１２８［ｐｉｘｅｌ］である場合を基本構造とすると、ｎ＝｛４，５，６，７，８｝で規定される層数に対応する画像サイズはそれぞれ、Ｓ＝｛１０４，１１６，１２８，１４０，１５２｝として決定される。なお、Ｓは、画像の一辺のピクセル数を示す。よって、例えばＳ＝１２８であれば、１２８×１２８［ｐｉｘｅｌ］の画像サイズであることを示す。

ステップＳ３０３では、取得部１０１が、それぞれ異なる複数の画像サイズを学習サンプルとする、スケーラブルネットワークを学習させるための学習用データセットを取得する。ここでは、学習用データセットに含まれる学習サンプル（画像データ）は、ｘ^→ _ｉｊで表される。上付き矢印は、ベクトル集合であることを示す。ｉは、学習サンプルの通し番号であり、ｉ＝｛１，２，…，Ｂ｝で表される。Ｂは、取得した学習サンプルの数である。ｊは、入力される画像サイズとニューラルネットワークの層数との組み合わせの通し番号であり、ｊ＝｛１，２，…，Ｍ｝で表される。Ｍは、組み合わせの数である。つまり、学習サンプルｘ^→ _ｉｊは、ｉ番目のサンプルと、ｊ番目の画像サイズおよび層数の組み合わせとにおける画素集合のベクトルで表される。

図２の例では、５つの異なる層数を想定するため、Ｍ＝５である。すなわち、ｊ＝１の場合は（ｎ＝４，Ｓ＝１０４）、ｊ＝２の場合は（ｎ＝５，Ｓ＝１１６）、ｊ＝３の場合は（ｎ＝６，Ｓ＝１２８）、ｊ＝４の場合は（ｎ＝７，Ｓ＝１４０）、ｊ＝５の場合は（ｎ＝８，Ｓ＝１５２）といった組み合わせを表す。

本実施形態では、Ｘ^→ _ｉｊの学習サンプルは、一般的な画像変換処理（いわゆる、Resize, RandomCrop, CenterCrop, RandomResizedCrop）により生成されればよい。ただし、ｊ＝１~Mの間で解像度情報の関係が保たれるように注意する必要があり、例えば解像度最大のｊについてのみ画像変換処理を行い、その画像をResizeすることで残りのｊについての画像を生成することで、解像度情報の関係が保たれた学習サンプルを生成できる。なお、学習サンプルとして様々な画像サイズの学習用データセットが用意されていれば、決定部１０２は、切り出し処理またはスケール変換を行わずに、そのままＸ^→ _ｉｊのデータを選択してもよい。

学習用データセットに含まれる教示データｔ_ｉは、対象ラベルに該当するスカラー値であり、例えば、ｉ番目の画像内に車が写っていれば「１」、車が写っていない場合は「０」である。

ステップＳ３０４では、学習部１０３が、学習サンプルを入力データとし、教示データを正解データとした学習用データセットを用いて、スケーラブルネットワークを学習させる。言い換えれば、画像サイズに応じて変更したネットワーク構造のニューラルネットワークを、学習用データセットを用いて学習させる。学習部１０３における学習方法の一例は、以下の（１）式から（３）式で表せる。
ｙ_ｉｊ＝ｆ（ｗ^→ _ｊ，x^→ _ｉｊ)・・・（１）
Ｌ_ｉｊ＝－ｔ_ｉｌｎ（ｙ_ｉｊ＋ｅ）－（１－ｔ_ｉ）ｌｎ（１－ｙ_ｉｊ＋ｅ）・・・（２）
Ｌ＝Σ_ｊ｛ａ_ｊΣＬ_ｉｊ｝・・・（３）

ｘ^→ _ｉｊは、ニューラルネットワークへの入力となる、学習サンプル（画像データ）であり、ｙ_ｉｊはニューラルネットワークの出力、つまりここでは車が写っているか否かの確率を表す。
ｆは、パラメータ集合ｗ^→ _ｊを保持するニューラルネットワークの関数である。ニューラルネットワークでは、畳み込み層、全結合層、正規化層、プーリング層などの処理を繰り返す。スケーラブルネットワークは、入力される画像サイズに応じて層数が変化するため、層数に応じてパラメータ数なども変化する。よって、パラメータ集合ｗ^→ _ｊには、入力される画像サイズとニューラルネットワークの層数との組み合わせであるｊが添え字として与えられる。

なお、ｗ^→ _１およびｗ^→ _２では、ｎが１つ増えることで増加する層に関するパラメータ以外のパラメータ集合については、全結合層などの重みパラメータおよびバイアスなどを共有する。

正規化層については、平均、分散などの統計パラメータは、ｊの値ごとに用意する、つまりそれぞれ異なる画像サイズごとに設定してもよいし、または学習後に再計算してもよい。なお、正規化層のパラメータは全体から比べるとわずかであるため、正規化層に関する重みパラメータおよびバイアスのパラメータを、ｊの値ごとに用意する、つまりそれぞれ異なる画像サイズごとに個別に設定してもよい。
関数ｆの最後には、出力層に相当するシグモイド関数が含まれ、出力ｙ_ｉｊの値域を０から１までに制限する。

（２）式は、学習サンプルｘ_ｉｊの学習誤差Ｌ_ｉｊの計算式を示す。ｔ_ｉは、教示データであり、例えば、ｉ番目の画像内に車などの対象物が写っている場合は「１」、写っていない場合は「０（ゼロ）」を示すスカラー値で示されるラベルである。本実施形態では、学習誤差Ｌ_ｉｊは、教示データｔ_ｉと出力ｙ_ｉｊとのバイナリークロスエントロピーを用いて計算される。ここで、ｌｎは自然対数であり、ｅはｌｎ（０）を防ぐための固定値である。

（３）式は、学習誤差Ｌ_ｉｊをｉ，ｊについてまとめた最終的な誤差関数Ｌである。ａ_ｊは、ｊの値に応じた調整パラメータである。本実施形態では、Ｂ×Ｍのサンプル集合の学習誤差の加重平均で算出される誤差に基づく誤差関数Ｌが最小化されるように、誤差逆伝播法と確率的勾配降下法とによりニューラルネットワークのパラメータをミニバッチ学習で反復学習する。この際、同一の画像データの異なる画像サイズのサンプルを含むようにミニバッチに係るバッチサイズを設計し、ミニバッチ学習が行われてもよい。
なお、教示データｔ_ｉとの学習誤差Ｌ_ｉｊに関するミニバッチ学習に限らず、例えば、異なるネットワーク構造を有する２つのスケーラブルネットワーク間の誤差を学習する、いわゆる蒸留を行なってもよい。例えば、出力ｙ_ｉｊと出力ｙ_ｉｊ’（ｊ＜ｊ’）とのバイナリークロスエントロピーを誤差として反復学習すればよい。

ステップＳ３０５では、学習部１０３が、反復学習の終了条件を満たすか否かを判定する。終了条件の判定は、例えば、学習誤差Ｌ_ｉｊや、誤差関数Ｌの出力の絶対値または減少値といった判定指標が閾値以下であるか否かを判定し、判定指標が閾値以下であれば、反復学習の終了条件を満たすと判定すればよい。または、反復回数が所定回数に到達したか否かを判定し、反復回数が所定回数に到達していれば、反復学習の終了条件を満たすと判定してもよい。
反復学習の終了条件を満たすと判定される場合は学習を終了し、反復学習の終了条件を満たさない場合はステップＳ３０４に戻り、同様の処理を繰り返す。

ステップＳ３０６では、提供部１０４が、学習が終了することで生成された学習済みモデルを対象デバイス２１に提供する。具体的には、基本構造に対応するニューラルネットワークのパラメータが対象デバイス２１に提供されることで、対象デバイス２１において基本構造に対応する学習済みモデルが構築される。

なお、図３の例では、決定部１０２において、対象デバイス２１のメモリ容量からスケーラブルネットワークの基本構造を決定したが、この方法に限らない。
例えば、スケーラブルネットワークの基本構造の決定方法として、対象デバイス２１に搭載される処理回路のＦＬＯＰＳをデバイス情報として取得し、決定部１０２が、対象デバイス２１の処理時間またはフレームレートの仕様にあわせて基本構造を決定してもよい。具体的には、１秒間に１０枚の画像を撮影し、撮影した画像ごとに学習済みモデルによる推論を実行するような状況を想定すると、例えば、撮影のフレームレート（単位時間当たり０．１秒）にあわせ目一杯の推論時間で実行可能な学習済みモデルであれば、対象デバイス２１の仕様にあわせて推論精度を最大限確保した学習済みモデルを提供できる。

または、決定部１０２は、対象デバイス２１の消費電力の仕様にあわせて基本構造を決定してもよい。例えば、対象デバイス２１に学習済みモデルを搭載し、当該学習済みモデルで推論を実行する場合の消費電力量が対象デバイスの駆動時の消費電力量の数十パーセント以下とする要求があれば、当該要求を満たすように所定の消費電力に応じたスケーラブルネットワークの基本構造を決定してもよい。このように対象デバイス２１のスペック（メモリ容量、処理時間、フレームレート、消費電力量など）に基づいて、スケーラブルネットワークの基本構造を決定できる。

また、上述のような、対象デバイス２１のスペックに基づいて、スケーラブルネットワークの基本構造を決定し、層数が異なる複数のネットワーク構造を決定し、その後、畳み込み層の受容野に基づいて複数の異なる画像サイズを決定したが、当該順序に限らない。例えば、異なる複数の画像サイズを先に決定し、当該複数の画像サイズから受容野がいくつになれば同等の範囲に対応するかを逆算することでネットワークの基本構造を決定してもよい。受容野は入力画像のどの領域を参照したかを示すため、層が深くなるほど入力画像において広い範囲を参照することになる。

画像サイズの決定方法としては、対象デバイスで取得する画像全体の画像サイズに限らず、対象物のスケールを算出できれば、当該対象物の画像サイズを基準に複数の異なる画像サイズを決定してもよい。
例えば、対象物の対象デバイス２１に含まれるカメラとの距離または空間的位置関係、対象物の実際のサイズ、カメラの画角などから把握できる情報に基づいて、対象デバイス２１全体で取得する画像から対象物の領域に対応する画像サイズが決定されてもよい。

さらに、セグメンテーションタスクまたは回帰タスクを実行する他の学習済みモデルで利用される教示データから対象物のスケールが算出できる場合は、当該スケールから対象物の画像サイズが決定されてもよい。また、物体検出に関する他の学習済みモデルにおける物体検出の領域であるバウンディングボックスのサイズから、対象物の画像サイズが決定されてもよい。また、弱いアノテーションを利用する弱教師あり学習の結果を用いてもよい。例えば、分類タスクにおける分類結果と、顕著性マップ（Saliency map）またはＣＡＭ（Class Activation Mapping）とを用いて画像全体に対する対象物の領域の大きさを算出し、当該領域の大きさを画素サイズに変換するなどして画像サイズを決定してもよい。

なお、上述の例では対象デバイス２１で取得する画像サイズを中心に、当該画像サイズよりも小さいサイズおよび当該画像サイズよりも大きいサイズといったように、画像サイズを振ることにより異なる複数の画像サイズを決定するが、これに限らない。

例えば、対象デバイスで取得する画像サイズよりも小さいサイズだけのバリエーションでもよいし、大きいサイズだけのバリエーションでもよい。また、対象デバイス２１で取得する画像サイズと同一の画像サイズでなくともよい。例えば、複数の画像サイズのバリエーションを予め用意しておき、対象デバイスで取得する画像サイズと最も近い画像サイズを含むバリエーションを選択してもよい。また、画像サイズのうちの最大サイズまたは最小サイズのみを決定し、学習中に画像サイズをランダムに振ることで、複数の異なる画像サイズを決定してもよい。例えば、ネットワーク構造の層数を変更する際に最も相性のよいサイズのバリエーションを決定すればよい。

また、図２の例では、受容野はスケーラブルネットワーク全体での換算を想定しているが、各処理段（第１段から第３段）の範囲で算出した受容野でもよい。さらに、受容野に相当する領域を線形変換または比例関係にある変換をすることで、画像サイズに換算してもよい。

次に、本実施形態に係るスケーラブルネットワークの学習方法の概念について図４から図６を参照して説明する。
図４は、本実施形態に係るスケーラブルネットワークとして採用するＲｅｓＮｅｔの残差ブロックに関する概念図である。本実施形態では、残差ブロック４１は、第１処理ブロック４１１と第２処理ブロック４１２との２つの処理ブロックの組である。第１処理ブロック４１１および第２処理ブロック４１２はそれぞれ、バッチ正規化（Batch Normalization）層、ＲｅＬＵ（Rectified Linear Unit）層、３×３のカーネルサイズによる畳み込み層を含む。残差ブロック４１では、入力データに対して、第１処理ブロック４１１の各層で処理が実行され、第１処理ブロック４１１からの出力を入力として、第２処理ブロック４１２で畳み込み処理が行われる。第２処理ブロック４１２からの出力と、ショートカット接続による入力データとを加算したデータが残差ブロック４１からの出力となる。

なお、図４に示す残差ブロック４１の構造に限らず、さらに畳み込み層などを追加してもよい。また、バッチ正規化層、ＲｅＬＵ層の順序および層数を適宜変更してもよい。さらに、バッチ正規化に限らず、ドロップアウトなどの他の正則化手法を用いてもよい。ＲｅＬＵに限らず、シグモイド関数などの他の種類の活性化関数を用いてもよい。

次に、基本構造（ｎ＝６）におけるスケーラブルネットワークの層構造の概念図を図５に示す。
図５に示すスケーラブルネットワークでは、第１段５３、第２段５４および第３段５５の残差ブロックの処理段を含み、各処理段は、同一の画像サイズについて処理する１以上の残差ブロック４１が含まれる。ここで、ｎの数は、第１段５３、第２段５４および第３段５５の処理段それぞれにおける、残差ブロック４１の数を表す。つまり、ここでは第１段５３から第３段５５のそれぞれの処理段に、６つの残差ブロック４１が含まれる。
図５では、入力画像５１が１２８×１２８［ｐｉｘｅｌ］の３チャネルとする。
畳み込み層５２は、３×３のカーネルサイズによる畳み込み処理を行う層である。入力画像５１が畳み込み層５２に入力され、畳み込み処理されることで、チャネル数が３［ｃｈ］から１６［ｃｈ］に増やされる。

第１段５３では、１２８×１２８［ｐｉｘｅｌ］、６４［ｃｈ］の画像が各残差ブロック４１で生成され、後段への入力となる。なお、第１段５３の先頭の残差ブロック４１では、畳み込み層５２からの出力を入力として、バッチ正規化層、ＲｅＬＵ層および１×１のカーネルサイズの畳み込み層により、チャネル数が１６［ｃｈ］から６４［ｃｈ］に増やされた中間データが、ショートカット接続により先頭の残差ブロック４１の第２処理ブロック４１２からの出力に加算される。

第２段５４では、第１段５３からの出力を入力とし、先頭の残差ブロック４１において、バッチ正規化層、ＲｅＬＵ層および１×１のカーネルサイズで、かつストライドを「２」として畳み込み処理する。これにより、画像サイズが１２８×１２８［ｐｉｘｅｌ］を６４×６４［ｐｉｘｅｌ］と変更され、チャネル数も６４［ｃｈ］から１２８［ｃｈ］に変更される。第２段５４の後段の残差ブロック４１では、画像サイズ６４×６４［ｐｉｘｅｌ］、チャネル数１２８［ｃｈ］の中間データに対して処理を実行する。

第３段５５では、第２段５４からの出力を入力とし、先頭の残差ブロック４１において、バッチ正規化層、ＲｅＬＵ層および１×１のカーネルサイズで、かつストライドを「２」として畳み込み処理する。これにより、画像サイズを６４×６４［ｐｉｘｅｌ］を３２×３２［ｐｉｘｅｌ］と変更し、チャネル数も１２８［ｃｈ］から２５６［ｃｈ］に変更する。第３段５５の後段の残差ブロック４１では、画像サイズ３２×３２［ｐｉｘｅｌ］、チャネル数２５６［ｃｈ］の中間データに対して処理を実行する。

プーリング層５６では、第３段５５からの出力に対してバッチ正規化およびＲｅＬＵを適用した後に、ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇを実行する。

全結合層５７では、プーリング層４６からの出力される中間データに対して全結合を行い、２５６［ｃｈ］から１０［ｃｈ］に変更する。全結合層５７からの出力ｙは、スケーラブルネットワークからの出力となる。なお、図５の例では、１０クラスの多クラス分類問題を想定するため、出力ｙは、１０次元のベクトルをソフトマックス関数により、各要素が非負で合計が１になるように正規化され、各要素の値が確率値で表される。このような３クラス以上に分類する多クラス分類問題の場合、上述の（２）式のようなシグモイド関数とバイナリークロスエントロピーとを用いる代わりに、ソフトマックス関数とクロスエントロピーとを用いればよい。

次に、ｎ＝４におけるスケーラブルネットワークの層構造の概念図を図６に示す。図６では、入力画像６１の画像サイズが１０４×１０４［ｐｉｘｅｌ］を想定する。すなわち、図５の場合よりも画像サイズが小さい場合、スケーラブルネットワークにおける第１段６３、第２段６４および第３段６５における各残差ブロック４１の数も減少させる。具体的には、第１段６３から第３段６５はそれぞれ、４つの残差ブロック４１を含む。このように、決定部１０２が、決定されたネットワーク構造の層数と入力画像の画像サイズとに応じて、ニューラルネットワークの深さ方向に該当する層数を調整する。

画像サイズが異なる以外は、図５と同様の方法で処理すればよい。具体的には、入力画像６１を畳み込み層６２において１６［ｃｈ］に増やし、第１段６３の４つの残差ブロック４１では、１０４×１０４［ｐｉｘｅｌ］、６４［ｃｈ］の中間データについて処理する。同様に、第２段６４の４つの残差ブロック４１では、５２×５２［ｐｉｘｅｌ］、１２８［ｃｈ］の中間データについて処理され、第３段６５の４つの残差ブロック４１では、２６×２６［ｐｉｘｅｌ］、２５６［ｃｈ］の中間データについて処理されればよい。

図６の例では、基本構造（ｎ＝６）よりもｎの値が小さい場合を示すが、基本構造よりもｎの値が大きい場合も同様である。つまり、図示しないが、例えばｎ＝８であれば、第１段から第３段にはそれぞれ、８つの残差ブロック４１が含まれ、第１段では、１５２×１５２［ｐｉｘｅｌ］、６４［ｃｈ］の中間データ、第２段では、７６×７６［ｐｉｘｅｌ］、１２８［ｃｈ］の中間データ、第３段では、３８×３８［ｐｉｘｅｌ］、２５６［ｃｈ］の中間データについて処理されればよい。

なお、図５および図６に示すスケーラブルネットワークの構造は、画像サイズに応じて層数を変更可能な構造、すなわち、画像サイズが大きい場合にネットワークの層数が多く構造（深い層構造）、画像サイズが小さい場合にネットワークの層数が少なくなる構造（浅い層構造）であれば、どのようなネットワーク構造でもよい。また、図５および図６の例では、隠れ層のチャネル数とカーネルサイズとは固定である場合を想定するが、決定部１０２は、ネットワークの層数を変更することに加えて、画像サイズに比例してチャネル数またはカーネルサイズを変更してもよい。例えば、画像サイズが大きい場合カーネルサイズも大きく設定され、画像サイズが小さい場合カーネルサイズも小さく設定されればよい。

さらに、学習部１０３は、ネットワーク構造および層数を変更させずに固定したまま、それぞれ異なる複数の画像サイズを有する複数の画像データを入力画像として、入力データ（画像）のサイズを変更可能なスケーラブルネットワークを反復学習させ、学習済みモデルを生成してもよい。

また、上述の例では、分類タスクについてのスケーラブルネットワークの構造を示したが、これに限らず、セグメンテーションタスクでもよいし、回帰を行う回帰タスクでもよい。回帰タスクでは、上述の（２）式において、シグモイド関数の代わりに、例えば二乗誤差平均（ＭＳＥ）または絶対値誤差平均（ＭＡＥ）を用いればよい。

次に、本実施形態に係る学習装置１０により学習したスケーラブルネットワークの学習済みモデルと、画像サイズと層数を固定した従来のニューラルネットワークの学習済みモデルとのシミュレーション結果を図７に示す。
横軸は、１つの画像を推論（処理）するのにかかる乗算数であり、計算コストと同義である。乗算数が少ないほど、つまり値が小さいほど推論能力が優れることを示す。縦軸は、テスト用サンプルの正解率を示し、推論精度と同義である。

グラフ７１は、本実施形態に係るスケーラブルネットワークの推論結果であり、プロット７２は、従来のニューラルネットワークの推論結果である。グラフ７１は、同一の計算コストで比較するとプロット７２よりも正解率が高い。よって、図７に示すように、単一のモデルを複数のデータ解像度（解像度）と層数とを混ぜて学習するスケーラブルなニューラルネットワークは、１つのデータ解像度および層数で学習する従来のニューラルネットワークに比べて、同一計算コストで高精度に推論することができる。

なお、対象デバイス２１が複数存在し、それぞれの対象デバイスの対象データが異なるデータ解像度である場合、決定部１０２は、各デバイス情報に基づいてデータ解像度および層数のバリエーションを決定すればよい。
例えば、決定部１０２は、各対象デバイスの基本構造を上述の方法で決定し、複数の対象デバイスのうちの最小の基本構造および最大の基本構造を決定し、最小の基本構造および最大の基本構造がカバーされる範囲で、画像サイズと層数との組み合わせをＭ個選択すればよい。

具体的には、第１の対象デバイスの画像サイズが１２８［ｐｉｘｅｌ］、基本構造ｎ＝５であり、第２の対象デバイスの画像サイズが６４［ｐｉｘｅｌ］、基本構造ｎ＝３であり、第１の対象デバイスの画像サイズが１６０［ｐｉｘｅｌ］、基本構造ｎ＝６であるとする。よって、基本構造ｎ＝３が最小であり、基本構造ｎ＝６が最大となるので、データ解像度を振ったバリエーションとすべく、最小よりもさらに小さい画像サイズおよび最大よりもさらに大きい画像サイズを設定すればよい。例えば、画像サイズＳ＝｛３２，６４，９６，１２８，１６０，１９２｝、層数ｎ＝｛２，３，４，５，６，７｝とすることにより、最小および最大の基本構造をカバーしたバリエーションで、スケーラブルネットワークを学習させることができる。当該画像サイズおよび層数の条件で学習した学習済みモデルは、各画像サイズおよび層数に対して高精度なニューラルネットワークとなるため、各デバイスに対応した基本構造のパラメータを提供できる。

次に、上述の実施形態に係る学習装置１０のハードウェア構成の一例を図８に示す。
学習装置１０は、ＣＰＵ（Central Processing Unit）８１と、ＲＡＭ（Random Access Memory）８２と、ＲＯＭ（Read Only Memory）８３と、ストレージ８４と、表示装置８５と、入力装置８６と、通信装置８７とを含み、それぞれバスにより接続される。

ＣＰＵ８１は、プログラムに従って演算処理および制御処理などを実行するプロセッサである。ＣＰＵ８１は、ＲＡＭ８２の所定領域を作業領域として、ＲＯＭ８３およびストレージ８４などに記憶されたプログラムとの協働により、上述した学習装置１０の各部の処理を実行する。

ＲＡＭ８２は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）などのメモリである。ＲＡＭ８２は、ＣＰＵ８１の作業領域として機能する。ＲＯＭ８３は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。

ストレージ８４は、ＨＤＤ等の磁気記録媒体、フラッシュメモリなどの半導体による記憶媒体、または、ＨＤＤ（Hard Disc Drive）などの磁気的に記録可能な記憶媒体、または光学的に記録可能な記憶媒体などにデータを書き込みおよび読み出しをする装置である。ストレージ８４は、ＣＰＵ８１からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。

表示装置８５は、ＬＣＤ（Liquid Crystal Display）などの表示デバイスである。表示装置８５は、ＣＰＵ８１からの表示信号に基づいて、各種情報を表示する。
入力装置８６は、マウスおよびキーボード等の入力デバイスである。入力装置８６は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をＣＰＵ８１に出力する。
通信装置８７は、ＣＰＵ８１からの制御に応じて外部機器とネットワークを介して通信する。

以上に示した本実施形態によれば、学習済みモデルの提供先である対象デバイスで取得する対象データに基づいて、少なくとも入力データのデータ解像度を変更可能なスケーラブルネットワークを学習するための学習サンプルとなる、それぞれ異なる複数のデータ解像度を決定する。スケーラブルネットワークを、当該複数の異なるデータ解像度に対応する学習サンプルで反復学習することで、対象デバイスに提供するための学習済みモデルを生成する。このように、対象デバイスのスペックなどの仕様に基づいて対象データ解像度の周辺で解像度をばらつかせ、ネットワークの学習のための学習サンプルのバリエーションを決定することで、効率的かつ効果的な学習条件を設定でき、対象デバイスに高精度な学習済みモデルを提供できる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した学習装置の制御動作による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＤＶＤ－ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の学習装置の制御と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…モデル提供システム、１０…学習装置、２１（２１－１，２１－２）…対象デバイス、４１…残差ブロック、５１，６１…入力画像、５２，６２…畳み込み層、５３，６３…第１段、５４，６４…第２段、５５，６５…第３段、５６…プーリング層、５７…全結合層、５０…ネットワーク、７１…グラフ、７２…プロット、８１…ＣＰＵ、８２…ＲＡＭ、８３…ＲＯＭ、８４…ストレージ、８５…表示装置、８６…入力装置、８７…通信装置、１０１…取得部、１０２…決定部、１０３…学習部、１０４…提供部、４１１…第１処理ブロック、４１２…第２処理ブロック。

Claims

対象デバイスで取得する対象データに関する単位当たりの情報量を示すデータ解像度を基準として、前記対象データのデータ解像度を含む範囲で、それぞれ異なる複数のデータ解像度を決定する決定部と、
前記複数のデータ解像度にそれぞれ対応する学習サンプルを用いて、入力データのデータ解像度を変更可能なニューラルネットワークであるスケーラブルネットワークを学習させる学習部と、
を具備する学習装置。
前記決定部は、前記対象データのデータ解像度に対応する前記スケーラブルネットワークの構造を基本構造として決定し、前記基本構造における層数を基準として、データ解像度に比例して前記スケーラブルネットワークの層数を決定する、請求項１に記載の学習装置。
前記決定部は、前記対象デバイスのスペックに基づいて前記基本構造を決定し、前記層数を変更した場合の畳み込み処理における受容野の変化に応じて、前記複数のデータ解像度を決定する、請求項２に記載の学習装置。
前記スペックは、前記対象デバイスに搭載されるメモリのメモリ容量、前記対象デバイスに搭載される処理回路の処理能力、および前記対象デバイスの消費電力の少なくともいずれか１つである、請求項３に記載の学習装置。
学習済みのスケーラブルネットワークであって、前記対象データのデータ解像度に対応する前記スケーラブルネットワークの構造である基本構造に関する学習済みモデルを前記対象デバイスに提供する提供部をさらに具備する、請求項１から請求項４のいずれか１項に記載の学習装置。
前記学習部は、データ解像度に比例して、層数、チャネル数および畳み込み処理におけるカーネルサイズの少なくとも１つをさらに変更して前記スケーラブルネットワークを学習させる、請求項１から請求項５のいずれか１項に記載の学習装置。
前記対象データは、画像データであり、
前記異なる複数のデータ解像度は、それぞれ異なる複数の画像サイズであり、
前記決定部は、前記画像データに含まれる対象物のサイズから、前記異なる複数の画像サイズを決定する、請求項１から請求項６のいずれかに記載の学習装置。
前記決定部は、教示データに含まれるラベルまたは物体検出に関するバウンディングボックスに関する情報から前記対象物の画像サイズを決定する、請求項７に記載の学習装置。
前記決定部は、前記対象物と前記対象デバイスとの空間的位置関係から前記対象物の画像サイズを決定する、請求項７に記載の学習装置。
前記決定部は、他の学習済みモデルに対し前記画像データを入力して得られた分類結果と顕著性マップとを用いて、前記対象物の画像サイズを決定する、請求項７に記載の学習装置。
前記学習部は、前記異なる複数のデータ解像度に対応する複数の学習サンプルを１つのバッチに割り当て、前記スケーラブルネットワークをミニバッチ学習する、請求項１から請求項１０のいずれか１項に記載の学習装置。
前記学習部は、前記複数のデータ解像度のそれぞれに対するネットワーク構造において個別の正規化層を用いる、請求項１から請求項１１のいずれか１項に記載の学習装置。
前記決定部は、複数の対象デバイスが存在する場合、前記複数の対象デバイスそれぞれで取得される対象データのデータ解像度が含まれるように前記異なる複数のデータ解像度を決定する、請求項１から請求項１２のいずれか１項に記載の学習装置。
対象デバイスで取得する対象データに関する単位当たりの情報量を示すデータ解像度を基準として、前記対象データのデータ解像度を含む範囲で、それぞれ異なる複数のデータ解像度を決定し、
前記複数のデータ解像度にそれぞれ対応する学習サンプルを用いて、入力データのデータ解像度を変更可能なニューラルネットワークであるスケーラブルネットワークを学習させる、学習方法。
コンピュータを、
対象デバイスで取得する対象データに関する単位当たりの情報量を示すデータ解像度を基準として、前記対象データのデータ解像度を含む範囲で、それぞれ異なる複数のデータ解像度を決定する決定手段と、
前記複数のデータ解像度にそれぞれ対応する学習サンプルを用いて、入力データのデータ解像度を変更可能なニューラルネットワークであるスケーラブルネットワークを学習させる学習手段として機能させるための学習プログラム。