JP7459425B2

JP7459425B2 - 適応的ランタイム高効率画像分類のための入力画像サイズスイッチ可能ネットワーク

Info

Publication number: JP7459425B2
Application number: JP2022564542A
Authority: JP
Inventors: ヤオ、アンバン; ワン、イカイ; ル、ミン; ワン、シャンドン; チェン、フェン
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2024-04-02
Anticipated expiration: 2040-06-15
Also published as: JP2023537446A; EP4165555A4; KR20230022843A; US20230343068A1; WO2021253148A1; EP4165555A1; CN115605922A

Description

深層畳み込みニューラルネットワーク（ＣＮＮ）は、多様な画像分類応用において利用される。正確性の改善のためのＣＮＮアーキテクチャにおける進歩にもかかわらず、最も性能が高いＣＮＮモデルの集中的なメモリストレージ、計算、及びエネルギーコストにより、特にリアルタイム応用における、リソースが制約されたデバイス上でのそれらのモデルの展開が制限される。典型的には、複数画像サイズ実装のために、個別のＣＮＮモデルが、目標画像サイズごとにトレーニングされ、トレーニング及び保存されることになるモデルの総数は、ランタイム時に考慮されることになる目標画像サイズの数に比例する。目標画像サイズごとに個別のＣＮＮモデルをトレーニングすることを伴わないと、特定の画像サイズを用いてトレーニングされたモデルを他のサイズを有する画像に適用する場合、モデルの正確性は劣化する。したがって、目標画像サイズごとに１つのモデルが記憶される必要があり、これは、高いメモリストレージコストをもたらす。高いメモリストレージコストに加えて、各画像サイズ調整は、特にクラウドコンピューティング応用シナリオの場合、異なるＣＮＮモデルのためにそれぞれのモデルパラメータをオフロード及びロードするのに追加のレイテンシが必然的に付随する。そのような複数のモデルの状況では、現行の技法は、ネットワークの構造上の構成を調整すること（例えば、ネットワーク深さ、幅を調整すること及びブロックを構築すること）、事前トレーニングされたモデルの冗長なパラメータ、フィルタ、及びチャネルを剪定すること、完全精度の同等物の代わりに量子化された低精度のＣＮＮモデルを使用すること、大規模かつ強力なモデルの知識を伝達して目標のより小さいスチューデントモデルを改善すること、及び大規模モデルを幾つかのより小さいモデルに分割することによって、ＣＮＮモデルのための正確性－効率性のトレードオフを取ることを試みる。

画像分類応用のためのメモリ、計算、及びエネルギーの点で効率的なＣＮＮモデルが継続的に必要とされている。これらの及び他の考慮事項に関連して、この改善が必要とされてきた。そのような改善は、多様な状況、特にリソースが制約されたデバイスにおけるＣＮＮモデルの実装がより普及するにつれて、重大になり得る。

本明細書において説明されている題材は例示であって、添付図面に限定されない。図示の簡潔性及び明確性のために、図において示されている要素は、必ずしも縮尺どおりに描かれているわけではない。例えば、幾つかの要素の寸法は、明確性のために他の要素に対して誇張される場合がある。さらに、適切であると考えられる場合、対応する又は類似の要素を示すために、参照ラベルが図面間で繰り返されている。
図面は、以下のとおりである。

ネットワークトレーニングフェーズにおいて異なる解像度の入力画像のためのオブジェクトラベルを提供する例示のスイッチ可能ネットワークを示す図である。スイッチ可能ネットワークをトレーニングする例示のプロセスを示すフロー図である。異なる解像度の入力画像のためのオブジェクトラベルを提供するための実装フェーズにおける例示のスイッチ可能ネットワークを示す図である。スイッチ可能ネットワークを使用して異なる解像度の入力画像のためのラベルを生成する例示のプロセスを示すフロー図である。画像分類を実行する例示のプロセスを示すフロー図である。画像分類を実行する例示のシステムの説明図である。例示のシステムの説明図である。本開示の少なくとも幾つかの実装に従って全て構成される、例示のスモールフォームファクタデバイスを示す図である。

ここで、添付図面を参照して１つ又は複数の実施形態又は実装が説明される。特定の構成及び配置が論述されるが、これは例示の目的でのみ行われることが理解されるべきである。当業者であれば、本明細書の趣旨及び範囲から逸脱することなく他の構成及び配置が利用され得ることを認識するであろう。本明細書において説明される技法及び／又は配置が、本明細書において説明されるもの以外の多様な他のシステム及びアプリケーションにおいても利用され得ることが、当業者には明らかとなろう。

以下の説明は、例えば、システムオンチップ（ＳｏＣ）アーキテクチャ等のアーキテクチャにおいて現れ得る様々な実装を記載する一方で、本明細書において説明される技法及び／又は配置の実装は、特定のアーキテクチャ及び／又はコンピューティングシステムに制限されず、同様の目的のための任意のアーキテクチャ及び／又はコンピューティングシステムによって実装されてよい。例として、例えば、複数の集積回路（ＩＣ）チップ及び／又はパッケージ、及び／又は様々なコンピューティングデバイス及び／又はコンシューマエレクトロニック（ＣＥ）デバイス、例えば、マルチ機能デバイス、タブレット、スマートフォン等を利用する様々なアーキテクチャは、本明細書において説明される技法及び／又は構成を実装してよい。さらに、以下の説明は、例えば、ロジック実装、システムコンポーネントのタイプ及び相互関係、ロジックの分割／統合の選択等の多数の具体的な詳細を記載し得るが、特許請求される主題は、そのような具体的な詳細なしに実施され得る。他の例では、例えば、制御構造及び完全なソフトウェア命令シーケンスのような幾つかの題材は、本明細書において開示される題材を不明瞭にしないよう、詳細に示されないことがある。

本明細書において開示される題材は、ハードウェア、ファームウェア、ソフトウェア、又はこれらの任意の組み合わせにおいて実装されてよい。本明細書において開示される題材は、１つ又は複数のプロセッサによって読み取られて実行され得る、機械可読媒体上に記憶された命令としても実装されてよい。機械可読媒体は、機械（例えば、コンピューティングデバイス）によって可読の形態で情報を記憶又は送信する任意の媒体及び／又はメカニズムを含んでよい。例えば、機械可読媒体は、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスクストレージ媒体、光ストレージ媒体、フラッシュメモリデバイス、電気、光、音響又は他の形態の伝搬信号（例えば、搬送波、赤外線信号、デジタル信号等）及び他のものを含んでよい。

本明細書における「１つの実装（ｏｎｅｉｍｐｌｅｍｅｎｔａｔｉｏｎ）」、「一実装（ａｎｉｍｐｌｅｍｅｎｔａｔｉｏｎ）」、「ａｎｅｘａｍｐｌｅｉｍｐｌｅｍｅｎｔａｔｉｏｎ」、又は例、又は実施形態等への言及は、説明される実装が、特定の特徴、構造、又は特性を含んでよいが、全ての実施形態が、必ずしも当該特定の特徴、構造、又は特性を含むとは限らない場合があることを示す。その上、そのような文言は、必ずしも同じ実装を参照しているわけではない。さらに、一実施形態に関連して特定の特徴、構造又は特性が説明される場合、本明細書において明示的に説明されているか否かにかかわらず、他の実装に関連してそのような特徴、構造又は特性をもたらすことは当業者の知識の範囲内であることが述べられている。

ネットワークが全ての画像サイズに共有畳み込み層及び全結合層パラメータを適用し、入力画像サイズに基づいて非共有正規化パラメータが適応的に利用されるような、適応的ランタイム高効率画像分類のための入力画像サイズスイッチ可能ネットワークに関する方法、デバイス、装置、コンピューティングプラットフォーム、及び製品が、本明細書において説明される。

上記で説明されたように、異なるサイズ（例えば、解像度）の入力画像に対して画像分類又は他の画像処理タスクを実行することが望ましい。本明細書において使用される場合、交換可能に使用される解像度又はサイズという用語は、ピクセル単位の画像の幅×高さを示し、より高い解像度は、水平寸法、垂直寸法、又はその両方においてより多数のピクセルを含む。結果として得られる画像分類ラベル又は他の画像処理出力は、多様な状況において使用され得る。そのような画像分類は、オブジェクト認識、識別、又は検出を含み得る。明確性のために画像分類に関して本明細書において論述されているが、論述される技法は、画像超解像、画像鮮鋭化（ｉｍａｇｅｓｈａｒｐｎｅｓｓｅｎｈａｎｃｅｍｅｎｔ）、画像セグメンテーション、及び他のもの等の他の画像処理状況において使用され得る。幾つかの実施形態では、スイッチ可能ネットワークは、任意の数の共有畳み込み層を含み、その一部又は全てに非共有又は排他的正規化層が後続する、定義されたアーキテクチャを有する。本明細書において使用される場合、畳み込み層、全結合層、又は他のネットワークモジュールに関する共有という用語は、ネットワークに提供される入力画像サイズにかかわらず層又はモジュールが同じ（すなわち、共有）パラメータを適用することを示す。正規化層（又は層正規化、グループ正規化等のようなその変形）又は他のネットワークモジュールに関して適用される場合の、交換可能に使用される非共有又は排他的という用語は、層又はモジュールが、ネットワークに提供される入力画像サイズに基づいて異なる（すなわち、非共有）パラメータを適用することを示す。例えば、第１のパラメータ及び第２のパラメータが互いに排他的である（すなわち、異なる）ように、第１の正規化パラメータが第１の入力画像解像度のために適用され、かつ第２の正規化パラメータが第２の入力画像解像度のために適用される。

スイッチ可能ネットワークの論述に戻ると、（入力画像解像度に依存したパラメータを利用して）最後の正規化層の適用に後続して、非共有大域平均プーリング層及び後続の共有全結合層が、入力画像のための１つのラベル又は複数のラベル（及び対応する確率）を生成するために適用され得る。例えば、最高確率ラベルに対応する単一のラベル（例えば、カップ、犬等）が出力され得るか、又は、利用可能なラベルごとの確率のうちの幾つか（例えば、５つの最も尤度が高い確率）又は全てが出力として提供され得る。スイッチ可能ネットワークは、任意の数の共有畳み込み層、非共有正規化層、及び他の層を含んでよい。幾つかの実施形態では、非共有大域平均プーリング層及び共有全結合層は、利用されない場合があり、特徴マップ又は出力画像は、ネットワークから提供されてよい。とりわけ、大域平均プーリング動作は、各特徴マップにわたる単一の平均化値（例えば、各ピクセル／成分が平均化出力に対する同じ寄与を有するチャネル）を出力する。この観点から、最後の層からの特徴マップのサイズは異なる入力画像に対して変化するので、これは共有されない。

スイッチ可能ネットワークは、任意の数の入力画像サイズをハンドリングするために利用されてよく、共有層は、全ての入力画像サイズのための共有パラメータを有し、排他層ごとに排他的パラメータが提供される。例えば、５つの画像サイズ（例えば、２２４×２２４、１９２×１９２、１６０×１６０、１２８×１２８、及び９６×９６）のための実装を所与とすると、各共有層（例えば、各畳み込み層及び全結合層）は、パラメータの単一セットを有し、その一方、各非共有層（例えば、各正規化層及び各大域平均プーリング層）は、入力画像のサイズに応答して異なるパラメータセット及び／又は異なる動作を適用する。そのような技法は、総ストレージ要件（正規化パラメータは典型的には総ネットワークパラメータの１％未満を占めるため）、及び入力画像サイズのためのスイッチングのレイテンシを抑える。

さらに、スイッチ可能ネットワークは、利用される要素又はモジュールが、少なくとも部分的に、畳み込み層及び／又は全結合層のための共有パラメータと、正規化層、大域平均プーリング層及び／又は他の層のための非共有パラメータとを使用するような、任意のアーキテクチャ又は畳み込みニューラルネットワーク（ＣＮＮ）バックボーンを有してよい。本明細書において使用される場合、ＣＮＮという用語は、１つ又は複数の畳み込み層をネットワークの一部として利用する任意のネットワークを含む。畳み込み層という用語は、複数の畳み込みフィルタを利用し、任意選択でＲＥＬＵ層又はプーリング層を含む層を示す。選択されたスイッチ可能ネットワークアーキテクチャ又はＣＮＮバックボーンを所与とすると、別個にトレーニングされたモデルと比較して改善された正確性で、ランタイムにおいて異なる入力画像サイズをハンドリングすることができる単一のモデルがトレーニングされる。さらに、論述される技法は、線形ブースティング、量子化技法、及び剪定技法等の、削減されたＣＮＮモデルサイズ及び／又はＣＮＮモデル改善のための他の手法と併せて利用されてよい。

図１は、本開示の少なくとも幾つかの実装に従って構成される、ネットワークトレーニングフェーズにおいて異なる解像度の入力画像のためのオブジェクトラベルを提供する例示のスイッチ可能ネットワーク１００を示している。図１において示されているように、スイッチ可能ネットワーク１００は、共有畳み込み層１１１と、排他的バッチ正規化モジュール１１２、１１３、１１４を利用する非共有バッチ正規化層と、共有畳み込み層１１５と、排他的バッチ正規化モジュール１１６、１１７、１１８を利用する非共有バッチ正規化層と、排他的大域平均プーリングモジュール１１９、１２０、１２１を利用する非共有大域平均プーリング層と、共有全結合層１２２とを備える。そのような層及びモジュールは、図３に関して論述されるように、ネットワーク実装フェーズにおける展開のための最終決定パラメータを提供するために、ネットワークトレーニングフェーズにおいてトレーニングされて、異なる解像度の入力画像のためのオブジェクトラベルが生成される。そのようなトレーニングは、少なくとも部分的に、結果として得られるアンサンブル予測１３０及び予測１３１、１３２、１３３がグラウンドトゥルースラベル１３４と比較されるように、ロジット１２３、１２４、１２５、ロジット重要度スコア１２６、１２７、１２８、アンサンブルロジット１２９、アンサンブル予測１３０、及び予測１３１、１３２、１３３に基づいて、実行される。実装フェーズ中、そのようなトレーニングコンポーネントは、スイッチ可能ネットワーク１００から破棄される。

図１において示されているように、任意の数の共有畳み込み層と、排他的バッチ正規化モジュールを利用する対応する非共有バッチ正規化層とが、共有畳み込み層１１５、及びスイッチ可能ネットワーク１００の残りの前に提供されてよい。例えば、共有畳み込み層と、対応する非共有バッチ正規化層との任意の数のペアがスイッチ可能ネットワーク１００内に含まれてよい。さらに、畳み込み層における畳み込みフィルタの数、フィルタサイズ等、及びバッチ正規化技法は、任意の適した特性を含んでよい。幾つかの状況におけるバッチ正規化に対して論述及び例示されているが、代替的に、層正規化、グループ正規化、又は他の正規化処理が、非共有正規化パラメータを使用して適用されてよい。本明細書において使用される場合、正規化という用語は、対応する非共有正規化パラメータを使用して実行されるようなそのようなプロセスのうちの任意のものを示す。排他的大域平均プーリングモジュール１１９、１２０、１２１を利用する非共有大域平均プーリング層と、共有全結合層１２２とは、任意の適した特性を有してよい。共有畳み込み層の出力、並びに選択されたバッチ正規化モジュール及び大域平均プーリングモジュール（例えば、画像入力サイズに基づく）の出力は、特徴マップとして特徴付けされ得る。各層において、任意の解像度の任意の数の特徴マップ（すなわち、畳み込みフィルタの数に対応する）が使用されてよい。同様に、共有全結合層１２２の出力は、確率又はスコア等として特徴付けされ、出力ノードに依存して、入力画像がノードに割り当てられたラベルの画像を含む確率又は尤度を示し得る。幾つかの実施形態では、全てのノードの確率又は尤度の総和は、１に総和される。

スイッチ可能ネットワーク１００は、トレーニングにおいて又は実装においてのいずれかで、パーソナルコンピュータ、ラップトップコンピュータ、タブレット、ファブレット、スマートフォン、デジタルカメラ、ゲーミングコンソール、ウェアラブルデバイス、ディスプレイデバイス、オールインワンデバイス、ツーインワンデバイス等のような任意の適したデバイスを介して実装されてよい。例えば、スイッチ可能ネットワーク１００は、ハードウェア、ソフトウェア、又はこれらの組み合わせにおいて実装され得る画像人工知能処理パイプラインの少なくとも一部分を提供してよい。幾つかの実施形態では、スイッチ可能ネットワーク１００は、実装フェーズにおいて、システムオンチップ（ＳｏＣ）としてハードウェアにおいて、実装される。幾つかの実施形態では、ＳｏＣは、モノリシック集積回路（ＩＣ）として利用される。本明細書において使用される場合、モノリシックという用語は、他のデバイスとは別個であるが、通信及び電力供給のための他のデバイスに結合され得るデバイスを示している。

図２は、本開示の少なくとも幾つかの実装に従って構成される、スイッチ可能ネットワークをトレーニングする例示のプロセス２００を示すフロー図である。プロセス２００は、図２において示されているように、１つ又は複数の動作２０１～２１０を含んでよい。プロセス２００又はその一部分は、スイッチ可能ネットワーク１００をトレーニングするために本明細書において論述される任意のデバイス又はシステムによって実行されてよい。

スイッチ可能ネットワーク１００のトレーニングは、入力画像サイズをスイッチングするランタイム高効率ネットワークを提供し、これは、入力サイズスイッチ可能ネットワーク（ＩＳ－Ｎｅｔ）として特徴付けされ得る。任意のスイッチ可能ネットワーク１００アーキテクチャ又はＣＮＮバックボーンを前提とすると、幾つかの実施形態では、トレーニングは、３つのコンポーネントを含む。第１に、異なるサイズを有する入力トレーニング画像が単一のモデル内でトレーニングされるように、混合サイズ（すなわち、混合画像サイズ）並列トレーニングフレームワークが提供される。第２に、異なるトレーニング画像サイズはネットワーク内で異なる活性化統計値をもたらすので、トレーニング中の混合サイズ相互作用効果（例えば、不均衡な性能）に対処するために、畳み込みネットワークパラメータは共有されるが、層単位正規化パラメータは入力画像サイズごとに非共有である。第３に、混合サイズ相互作用効果を除去し、異なる画像サイズに対するモデル性能をブースティングするために、混合サイズアンサンブル蒸留（ｍｉｘｅｄ－ｓｉｚｅｅｎｓｅｍｂｌｅｄｉｓｔｉｌｌａｔｉｏｎ）が、異なる画像サイズを有する同じ画像インスタンス（例えば、異なる解像度における同じトレーニング画像コンテンツ）に基づいて、トレーニング中にその場で実行される。本明細書において使用される場合、画像インスタンスという用語は、異なる解像度における複数のトレーニング画像を生成するのに使用される、特定のビュー、オブジェクト等のソースイメージを示す。例えば、複数のトレーニング画像は、画像インスタンスのランダムにクロップされた領域の（又は画像インスタンスの全体の）異なる解像度における同じ像を含む。トレーニングの後、結果として得られるスイッチ可能ネットワーク１００は、実装において、異なる入力画像サイズ間でのスイッチングを可能にし、対応する画像サイズを用いてトレーニングされた個別のモデルと比較して改善された性能を示す。

プロセス２００は、動作２０１において開始し、動作２０１において、異なる解像度を有するトレーニング画像のトレーニングセットが生成される。トレーニング画像インスタンスは、ネットワークによって検出されることになるオブジェクトを含む画像インスタンス（すなわち、画像）、及びそのようなオブジェクトが存在しない画像インスタンスを任意の数（例えば、数千個）含んでよい。さらに、各トレーニング画像インスタンスは、画像のトレーニングのための対応するグラウンドトゥルースオブジェクトラベルを有する。例えば、第１のトレーニング画像インスタンスは、カップの画像、及び「カップ」の対応するグラウンドトゥルースラベルを有してよく、第２のトレーニング画像インスタンスは、スプーンの画像及び「スプーン」の対応するグラウンドトゥルースラベルを有してよく、以降も同様である。各トレーニング画像インスタンスは、次に、ランダムにクロップされ、クロップされた部分は、トレーニング画像インスタンスに対応する任意の数のトレーニング画像にサイズ変更される。例えば、画像（すなわち、画像インスタンス）のトレーニングセットが得られ、各画像インスタンス又はテンプレート等がクロップされ、スイッチ可能ネットワークが利用されることになる画像のサイズに対応する複数の固定サイズトレーニング画像にサイズ変更される。例えば、ネットワークが５つの画像サイズ（例えば、２２４×２２４、１９２×１９２、１６０×１６０、１２８×１２８、及び９６×９６）において利用されることになる場合、トレーニング画像インスタンスの各クロップされた部分は、それらの５つの画像サイズにサイズ変更されて、５つのトレーニング画像及び１つの対応するグラウンドトゥルースラベルが提供される。

図１を参照すると、各トレーニング画像インスタンス１０１は、バウンディングボックス１４１を使用してクロップされ、異なる解像度を有する任意の数のトレーニング画像１０２、１０３、１０４にサイズ変更されてよく、それにより、トレーニング画像１０２は、トレーニング画像１０３よりも高い解像度を有し、トレーニング画像１０３は、任意の介在するトレーニング画像よりも高い解像度を有し、以降も最低解像度トレーニング画像１０４まで同様となる。例えば、示されているように、Ｓ個の画像解像度が実装されてよく、各解像度１、２、...、Ｓは、インデックス値が増加するとともに減少する。幾つかの実施形態では、各トレーニング画像インスタンス１０１がクロップされ、複数の（すなわち、Ｓ個の）固定サイズサンプルｘ^ｉにサイズ変更される。幾つかの実施形態では、トレーニングセットは、｛（ｘ^ｉ，ｙ^ｉ）｜ｉ∈｛１，２，...，Ｎ｝｝として表記され、ここで、ｙ^ｉは、Ｃ個のクラスのうちの１つに属するラベルであり、Ｎは、トレーニング画像インスタンスの数である。

そのようなトレーニング画像１０２、１０３、１０４は、スイッチ可能ネットワーク１００に提供される。とりわけ、トレーニング画像１０２は、共有畳み込み層１１１（すなわち、共有畳み込み層１１１は解像度にかかわらず任意の入力画像に適用される）、排他的バッチ正規化モジュール１１２（すなわち、バッチ正規化モジュール１１２はバッチ正規化モジュール１１２の解像度を有する入力画像にのみ適用される）、任意の数の共有畳み込み層／排他的バッチ正規化モジュールペア、共有畳み込み層１１５、排他的バッチ正規化モジュール１１６、排他的大域平均プーリングモジュール１１９、及び共有全結合層１２２の適用を介してスイッチ可能ネットワーク１００をトラバースし、共有全結合層１２２の出力は、ロジット１２３、そして最終的には予測１３１を生成するのに使用される。同様に、トレーニング画像１０３は、共有畳み込み層１１１、排他的バッチ正規化モジュール１１３、任意の数の共有畳み込み層／排他的バッチ正規化モジュールペア、共有畳み込み層１１５、排他的バッチ正規化モジュール１１７、排他的大域平均プーリングモジュール１２０、及び共有全結合層１２２の適用を介してスイッチ可能ネットワーク１００をトラバースし、共有全結合層１２２の出力は、ロジット１２４、そして最終的には予測１３２を生成するのに使用され、以降も同様であり、それにより、示されているように、トレーニング画像１０４は、共有畳み込み層１１１、排他的バッチ正規化モジュール１１４、任意の数の共有畳み込み層／排他的バッチ正規化モジュールペア、共有畳み込み層１１５、排他的バッチ正規化モジュール１１８、排他的大域平均プーリングモジュール１２１、及び共有全結合層１２２の適用を介してスイッチ可能ネットワーク１００をトラバースし、共有全結合層１２２の出力は、ロジット１２５、そして最終的には予測１３３を生成するのに使用される。

それによって、トレーニング中、スイッチ可能ネットワーク１００は、トレーニング画像１０２、１０３、１０４を介して示されているように複数の解像度において同じトレーニング画像インスタンス１０１に適用されて、異なる結果として得られる成果が生成される。同じトレーニング画像インスタンスの異なる解像度のためのそのような結果として得られる成果は、スイッチ可能ネットワーク１００の改善されたトレーニングのために活用される。

図２に戻ると、処理は、動作２０２において継続し、動作２０２において、パラメータθを有するスイッチ可能ネットワーク１００等のネットワーク構成（例えば、ネットワークアーキテクチャ又はＣＮＮバックボーン）を所与とすると、ネットワークは、トレーニングのために初期化される。ネットワークパラメータは、特定の範囲内でのランダム化等のような任意の適した単数又は複数の技法を使用して初期化されてよい。

一般に、ネットワークパラメータθを所与とすると、クラスｃの予測確率は、ｐ（ｃ｜ｘ^ｉ，θ）として表記される。トレーニングにおいて、ネットワーク（例えば、ネットワークモデル）は、式（１）において示されているように交差エントロピー損失を用いて最適化されてよい：
ここで、δ（ｃ，ｙ^ｉ）は、ｃ＝ｙ^ｉである場合に１に等しく、そうではない場合には０に等しい。

幾つかの実施形態では、スイッチ可能ネットワーク１００をトレーニングするために、混合サイズ並列トレーニングフレームワークが利用される。論述されたように、各トレーニング画像インスタンスは、クロップされ、サイズ変更される（例えば、ランダムにクロップされ、スイッチ可能ネットワーク１００によって実装されることになる解像度にサイズ変更される）。４つ、５つ、又はそれよりも大きい値等の任意の適した値であり得るＳ個の画像サイズ（例えば、Ｓ＝｛２２４×２２４，１９２×１９２，１６０×１６０，１２８×１２８，及び９６×９６｝）を仮定すると、混合サイズトレーニングセットは、式（２）において示されるように特徴付けることができる：
ここで、各トレーニング画像インスタンスｘ^ｉは、各利用可能な画像サイズ（例えば、１、２、...、Ｓ）にサイズ決めされ、異なる解像度のサイズ変更されたトレーニング画像のグループは、対応するグラウンドトゥルースラベルｙ^ｉを有する。

処理は、動作２０３において継続し、動作２０３において、ネットワーク（第１の又は後続のトレーニング反復における）は、トレーニング画像インスタンスの少なくともサブセットに適用される。すなわち、ネットワークは、現在のネットワークパラメータに基づいて、各セットが画像インスタンスに対応し、対応するグラウンドトゥルースラベルを有するように、異なる解像度におけるトレーニング画像のセットに適用される。それによって、スイッチ可能ネットワーク１００の混合サイズ並列トレーニングが実行される。例えば、動作２０３において、任意の数の画像インスタンスについて、ネットワークは、並列して画像インスタンスの各画像解像度に適用され、解像度の各々についての結果として得られる出力は、スイッチ可能ネットワーク１００のパラメータを調整するのに使用される。とりわけ、各トレーニング反復において、ネットワークが適用され、損失項が定義され、パラメータが調整され、トレーニングが完了するまで以降も同様である。そのようなトレーニング反復は、バッチ等において、全てのトレーニング画像、又はそれらの幾つかのみに適用されてよい。例えば、そのようなトレーニング反復は、特定の数の反復について同じトレーニング画像を使用し、トレーニング画像又はそのバッチを変更し、以降も同様であり、トレーニング進展としてそのようなトレーニング画像又はバッチに返される。任意のイベントにおいて、スイッチ可能ネットワーク１００は、並列して複数の解像度のトレーニング画像に適用され、損失項が定義及び評価され、パラメータが調整され、損失項が評価され、収束（例えば、誤差が目標未満であるか、又は特定の数のトレーニング反復若しくはエポックが得られる）まで以降も同様である。

幾つかの実施形態では、図１を参照すると、共有畳み込み層１１１、１１５（及び任意の追加の畳み込み層）のための共有畳み込み層パラメータ、バッチ正規化モジュール１１２、１１３、１１４、１１６、１１７、１１８（及び任意の追加の非共有バッチ正規化モジュール）の各々のための非共有バッチ正規化パラメータ、大域平均プーリングモジュール１１９、１２０、１２１の各々のための非共有大域平均プーリングパラメータ、及び共有全結合層１２２のための共有全結合層パラメータは、ともに取り込まれる、図２に関して論述されるようにトレーニングされる、事前トレーニングされた畳み込みニューラルネットワークパラメータθである。

処理は、動作２０４において継続し、動作２０４において、異なる解像度におけるトレーニング画像を使用して生成される予測の交差エントロピー損失の総和に基づく損失項が定義及び評価される。幾つかの実施形態では、（部分的に）最適化されることになる混合サイズトレーニングの損失項（又は関数）は、以下で示されるように定義される。例えば、損失関数は、損失関数（例えば、全体損失関数）がネットワークをトレーニングするために反復にわたって最小化されるように１つ又は複数の損失項を含んでよい。本明細書において、各損失項は、ネットワークをトレーニングするために独立して、又は他の損失項と組み合わせて、使用され得る。幾つかの実施形態では、分類損失項が、式（３）において示されるように交差エントロピー損失の総和として定義される：
ここで、
は、分類損失項であり、これは、式（１）において定義されたような交差エントロピー損失について各画像サイズ（解像度）にわたる損失を総和する。示されているように、全ての画像サイズ（すなわち、１、２、...Ｓ）は、最終の単一モデルを最小化するという共同目的に等しく寄与する。例えば、図１において示されたように、入力トレーニング画像１０２に対応する予測１３１ｐ_１は、対応するグラウンドトゥルースラベルと比較され（すなわち、交差エントロピー損失技法を使用して）、入力トレーニング画像１０３に対応する予測１３２ｐ_２は、対応するグラウンドトゥルースラベルと比較され、以降も同様であり、入力トレーニング画像１０４に対応する予測１３３ｐ_Ｓは、対応するグラウンドトゥルースラベルと比較される。そのような交差エントロピー損失は、混合サイズ並列トレーニングを提供するために全ての利用可能な解像度にわたって総和される。

以下で論述されるように、ネットワークパラメータは、プロセス２００において更新及び精緻化され、最終的に展開される。とりわけ、式（３）に関して示されたような損失項又は関数は、トレーニングの一部として最小化されてよい。論述されるように、スイッチ可能ネットワーク１００は、畳み込み層（ｃｏｎｖ）層／ブロック、バッチ正規化層、大域平均プーリング層、及び全結合（ＦＣ）層を含む任意の適したアーキテクチャを有してよい。幾つかの実施形態では、入力画像が異なるサイズを有する場合、全ての畳み込み層からの対応する特徴マップは、空間サイズにおいても異なることになる。大域平均プーリング層に起因して、特徴は、等しい数のチャネルを有する統一された空間次元（例えば、１×１）に変換され、共有全結合層１２２が後続することが可能になる。

論述される並列トレーニング中、共有畳み込み層１１１、１１５及び共有全結合層１２２のパラメータは、論述されるように、入力画像サイズにかかわらず共有及び適用される。それによって、複数の画像サイズのためのトレーニングが、単一のネットワークにおいて実現される。さらに、画像のサイズ変更は、バッチ正規化（ＢＮ）及びその変形において使用される平均及び分散（例えば、パラメータ）を含む、ネットワーク内の異なる活性化統計値をもたらす。混合サイズ並列トレーニング中、そのようなバッチ正規化パラメータは、画像サイズごとに非共有又は排他的である（又は専用化される）。

したがって、スイッチ可能ネットワーク１００のトレーニング反復において、事前トレーニングされた畳み込みニューラルネットワークパラメータは、幾つかの実施形態では、第１の解像度及び第２の解像度におけるトレーニング画像を並列して使用する交差エントロピー損失の総和（
）を含む式（３）において定義されたような分類損失項（
）を含む（以下で更に論述されるような）全体損失を使用して、並列に調整（又は更新）される。幾つかの実施形態では、分類損失項（
）は単独で、スイッチ可能ネットワーク１００をトレーニングするのに使用されてよい。

さらに、スイッチ可能ネットワーク１００のトレーニングにおいて、混合サイズベース変換（例えば、パラメータの調整）は、データ拡張とみなされてよい。したがって、第１に、モデルは、多様である画像サイズの設定を用いて、（１つのみの画像サイズを使用したトレーニングと比較して）より広い範囲の画像サイズに基づいてトレーニングされるので、混合サイズ並列トレーニングは、より小さい画像サイズではなく（より豊富な情報を符号化する）より大きい画像サイズに正確性利得をもたらす傾向がある。第２に、関心オブジェクトが画像エリアの異なる部分をランダムに占有する大規模画像分類の特殊性に基づいて、ランダムサイズクロップ拡張ストラテジーがトレーニング中に使用されるが、テストのために使用することができない。これは、最終モデルのバイアスを、大きい画像サイズに対するより良好な性能に向けるが、その一方、はるかにより小さい画像サイズに対してより不良な性能を表示する傾向がある。

そのような懸念に対処するために、混合サイズアンサンブル蒸留（ＭＥＤ）技法が、トレーニング中に利用される。とりわけ、十分にトレーニングされたモデルの場合、より大きい入力画像サイズにおいてテストされた画像インスタンスは、同じ画像インスタンスについてのより小さい入力画像サイズと比較してより良好な予測に常に対応するわけではない。例えば、テストは、小さい画像サイズにおいて正しく分類されているが、別のより大きい画像サイズにおいて誤って分類されているサンプルの或る割合が常に存在することを示した。そのような結果は、異なる画像サイズにおけるモデル予測が相補的であり、より大きい画像サイズが常により良好であるわけではないことを示している。したがって、オンザフライティーチャ（ｏｎ－ｔｈｅ－ｆｌｙｔｅａｃｈｅｒ）（例えば、トレーニング反復において生成される）が、ティーチャが全ての画像サイズに対する予測のアンサンブルであるように、スイッチ可能ネットワーク１００をトレーニングするために利用される。さらに、密アンサンブル知識蒸留（ｄｅｎｓｅｅｎｓｅｍｂｌｅｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎ）が、スイッチ可能ネットワーク１００の全体性能を改善するために、トレーニングにおいて実行される。

処理は、動作２０５において継続し、動作２０５において、アンサンブル予測が定義され、アンサンブル予測を使用して、アンサンブル損失項が定義される。とりわけ、図１を参照すると、トレーニング画像インスタンス１０１について、トレーニング画像１０２、１０３、１０４のうちの１つに各々が対応する複数の予測が得られる。複数の予測の加重平均である（例えば、以下で論述されるようにロジット重要度スコアを使用して重み付けされる）アンサンブル予測が、決定され、複数の予測の各々のためのオンザフライティーチャとして使用される。とりわけ、加重平均アンサンブル予測は、トレーニング中にその場で（ｏｎ－ｔｈｅ－ｆｌｙ）スイッチ可能ネットワーク１００を介して生成される（そして、別のネットワークによっては課されない）。アンサンブル予測は、次に、アンサンブル予測からの複数の予測の各々の予測の発散を使用してネットワークをトレーニングするのに使用される。本明細書において使用される場合、アンサンブルという用語は、グループが個別ではなく全体としてみなされ得るような当該グループから決定されるエンティティを示す。

幾つかの実施形態では、画像分類のトレーニングプロセス中、入力画像ｘ_ｉごとに、クラスｃの確率は、式（４）において示されるようにソフトマックス関数を使用して決定される：
ここで、ｚ^ｉは、ロジット、すなわち、ネットワークによって出力される非正規化対数確率であり、全てのクラスにわたる確率は、モデル予測ｐとして表記することができる。

論述されたように、各画像インスタンスは、トレーニング中にＳ個のサイズにサイズ変更される。次に、Ｓ個の対応するロジット（ｚ_１、ｚ_２、...、ｚ_Ｓ）は、式（４）に従って生成される。例示的なロジット１２３、１２４、１２５が図１において示されている。図１を引き続き参照すると、
を満たす重要度スコア１２６、１２７、１２８のグループα＝［α_１，α_２，...，α_Ｓ］がソフトマックス関数の実装を介して学習される。アンサンブルロジット１２９ｚ_０は、次に、式（５）において示されるように重要度スコアを使用して重み付けされたＳ個のロジットの加重和を介して生成される：
ここで、ｚ_０は、アンサンブルロジット１２９であり、これは、ロジット重要度スコア１２６、１２７、１２８を使用して重み付けされたトレーニング画像１０２、１０３、１０４の各々に適用されるような事前トレーニングされた畳み込みニューラルネットワークパラメータに対応するロジット１２３、１２４、１２５の加重平均である。幾つかの実施形態では、αを最適化するとき、ロジット（ｚ_１、ｚ_２、...、ｚ_Ｓ）の勾配は一時的に凍結される。

アンサンブルロジット１２９ｚ_０を使用して、アンサンブル予測１３０として特徴付けされる対応する予測ｐ_０が、上記で論述されたような式（４）を使用して決定される。とりわけ、アンサンブル予測１３０ｐ_０は、トレーニング画像１０２、１０３、１０４への（現在のパラメータを使用した）スイッチ可能ネットワーク１００の適用からの予測の組み合わせである。重要度スコア１２６、１２７、１２８、αは、アンサンブル予測１３０ｐ_０と、トレーニングセットに対して与えられたラベルとの間の交差エントロピー損失を使用して最適化される。交差エントロピー損失は、アンサンブル損失項
として特徴付けされ、式（６）に関して示されているように決定される：

例えば、損失関数は、損失関数（例えば、全体損失関数）がネットワークをトレーニングするために反復にわたって最小化されるように１つ又は複数の損失項を含んでよい。例えば、アンサンブル損失項
は、以下で論述されるように損失関数の一部として使用されてよい。示されているように、アンサンブル損失項
の最小化は、トレーニングにおいて提供されたグラウンドトゥルースからのアンサンブル予測の発散を最小化する。

処理は、動作２０６において継続し、動作２０６において、蒸留損失項が、動作２０５において生成されたアンサンブル予測からの予測の発散及び／又はより大きい入力トレーニング画像を使用して作成された予測からの予測の発散に基づいて定義される。図１を参照すると、トレーニング画像インスタンス１０１について、トレーニング画像１０２、１０３、１０４のうちの１つに各々が対応する複数の予測が得られる。複数の予測の加重平均である（例えば、以下で論述されるようにロジット重要度スコアを使用して重み付けされる）アンサンブル予測１３０が、論述されるように決定される。示されているように、アンサンブル予測１３０は、（例えば、交差エントロピー技法を使用して）グラウンドトゥルースラベル１３４によって提供されるようなグラウンドトゥルースと比較され、それらの間の差は、式（６）に関して示されたように最小化される。

アンサンブル予測１３０はまた、図１において示されたように複数の予測の各々のためのオンザフライティーチャとして使用されてよい。例えば、ロジット１２３、１２４、１２５を使用して、それぞれ入力トレーニング画像１０２、１０３、１０４に対応する、対応する予測１３１、１３２、１３３が生成される。示されているように、予測１３１、１３２、１３３の各々からのアンサンブル予測１３０の発散は、スイッチ可能ネットワーク１００のトレーニングにおいて使用される。とりわけ、加重平均アンサンブル予測は、トレーニング中にその場でスイッチ可能ネットワーク１００を介して生成される（そして、別のネットワークによっては課されない）。アンサンブル予測１３０は、次に、アンサンブル予測１３０からの複数の予測１３１、１３２、１３３の各々の予測の発散を使用してネットワークをトレーニングするのに使用される。本明細書において使用される場合、アンサンブルという用語は、グループが個別ではなく全体としてみなされ得るような当該グループから決定されるエンティティを示す。

加えて又は代替的に、より高い解像度のトレーニング画像の予測が、カスケード１４１に関して示されているようにより低い解像度のトレーニング画像をトレーニングするための参照として使用されてよい。例えば、（最高解像度の入力トレーニング画像１０２に対応する）予測１３１は、全てのより低い解像度における予測１３２、...、１３３をトレーニングするのに使用されてよく、（２番目に最高の解像度の入力トレーニング画像１０２に対応する）予測１３２は、予測１３３を含む全てのより低い解像度における予測をトレーニングするのに使用されてよく、以降も同様である（予測１３３のみが参照として使用されないようになっている）。そのような技法は、より良好な予測を典型的には提供するより高い解像度の入力トレーニング画像を活用してよい。

例えば、アンサンブル損失項（例えば、グラウンドトゥルースからのアンサンブル予測の発散）の（部分的）最小化を介したトレーニングに加えて又は代替的に、アンサンブル予測１３０は、トレーニング画像１０２、１０３、１０４（すなわち、異なる解像度におけるトレーニング画像）のために作成された他の予測のためのオンザフライティーチャとして使用されてよい。幾つかの実施形態では、蒸留損失項が、アンサンブル損失予測からの各予測の発散を最小化するように求めるように定義される。

すなわち、幾つかの実施形態では、スイッチ可能ネットワーク１００のトレーニングにおいて、異なる画像サイズにおける予測が、学習されたアンサンブル予測１３０を模倣するように強制される。幾つかの実施形態では、蒸留損失
は、式（７）において示されるようなＫｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ（ＫＬ）発散の総和として決定される：

幾つかの実施形態では、（例えば、知識蒸留プロセスにおける）蒸留損失を定義するために、ティーチャ予測ｐ_ｔとスチューデント予測ｐ_ｓとの間のアライメントを定量化するために、式（８）が使用される：
ただし、Ｐ_ｔは、アンサンブル予測１３０を表し、ｐ_ｓは、各予測１３１、１３２、１３３を表すことを条件とする。

加えて又は代替的に、論述されたように、混合サイズ並列トレーニングフレームワーク下で、大きい入力トレーニング画像サイズにおける予測の正確性は、多くの場合、より小さい入力トレーニング画像サイズにおける予測の正確性よりも良好である。幾つかの実施形態では、正確性は、大きい画像サイズにおける予測からより小さい画像サイズにおける予測に向かう密なガイダンスを提供することによって更に改善することができる。幾つかの実施形態では、蒸留損失
は、式（９）において示されるように一般化されてよい：
ここで、インデックスｔは、アンサンブル項を参照して０から開始する。例えば、式（９）は、予測１３１、１３２、...、１３３の各々からのアンサンブル予測１３０の発散、予測１３２、...、１３３の各々からの予測１３１の発散、等を総和し、それにより、幾つかの実施形態では、蒸留損失
は、各画像サイズベース予測からのアンサンブル予測の発散、及びより小さい解像度を有する各画像サイズベース予測からの各画像サイズベース予測からの各画像サイズの発散の総和である。各画像サイズベース予測という用語は、入力トレーニング画像への現在のスイッチ可能ネットワークパラメータの適用によって生成される予測を示す。

処理は、動作２０６において継続し、動作２０６において、損失項の総和を含む損失関数（すなわち、全体損失関数）が最小化される。全体損失関数は、本明細書において論述される任意の損失項のうちの１つ又は複数を含んでよい。幾つかの実施形態では、全体損失関数は、式（１０）において示されているように、調整すべきいずれの追加の重み付きパラメータも伴わない、分類損失項、アンサンブル損失項、及び蒸留損失項の総和である：
ここで、アンサンブル損失
の最適化は、全てのネットワーク重みを凍結させた状態で、重要度スコア１２６、１２７、１２８、αのみを更新する。とりわけ、蒸留損失項は、アンサンブル予測１３０からの予測１３１、１３２、１３３の発散のみを含んでよく、又は、これは、アンサンブル予測１３０からの予測１３１、１３２、１３３の発散及びより高い解像度におけるそれらの予測からの予測１３１、１３２の各々の予測の発散を含んでよい。

処理は、動作２０８において継続し、動作２０８において、スイッチ可能ネットワークパラメータθ及びロジット重要度スコアαは、スイッチ可能ネットワークパラメータθに関して、定義された全体損失関数を最小化することに基づいて更新される。処理は、判断動作２０９において継続し、判断動作２０９において、スイッチ可能ネットワークのトレーニングが完了したか否かについての決定が行われる。そのような決定は、閾値との全体損失の比較、特定の回数のトレーニング反復の実施等のような任意の適した単数又は複数の技法を使用して行われてよい。

トレーニングが完了していない場合、処理は、トレーニングが完了するまで上記で論述されたように動作２０３において継続する。トレーニングが完了している場合、処理は、動作２１０において継続し、動作２１０において、スイッチ可能ネットワークパラメータθは、本明細書において論述されるように実装フェーズにおける最終展開のためにメモリに記憶される。さらに、ロジット重要度スコアは、実装において不要として破棄される。

図３は、本開示の少なくとも幾つかの実装に従って構成される、異なる解像度の入力画像のためのオブジェクトラベルを提供するための実装フェーズにおけるスイッチ可能ネットワーク１００を示している。図３において示されているように、スイッチ可能ネットワーク１００は、第１の解像度における入力画像３０１を有する第１の時間インスタンス３００において、及び第１の解像度よりも高い第２の解像度における入力画像３０２を有する第２の時間インスタンス３３０において、実装される。論述されたように、実装フェーズにおいて、スイッチ可能ネットワーク１００は、パーソナルコンピュータ、ラップトップコンピュータ、タブレット、ファブレット、スマートフォン、デジタルカメラ、ゲーミングコンソール、ウェアラブルデバイス、ディスプレイデバイス、オールインワンデバイス、ツーインワンデバイス等のような任意の適したデバイスを介して実装されてよい。例えば、スイッチ可能ネットワーク１００のネットワークパラメータは、メモリから索出され、１つ又は複数のプロセッサを介して実装されてよい。

とりわけ、第１の時間インスタンス３００と第２の時間インスタンス３３０との間で、バッチ正規化モジュール及び大域平均プーリングのためのパラメータ等の非共有パラメータ３４１のみが、入力画像３０１の処理から入力画像３０２へのスイッチの処理のために更新される必要がある。例えば、トレーニングのためのみに必要とされるパラメータは、破棄されてよい。さらに、示されているように、トレーニングのために必要とされるコンポーネントも、実装フェーズにおいて破棄され、セレクタ３１０が追加される。

第１の時間インスタンス３００において、入力画像３０１が受信される。入力画像３０１は、ＲＧＢチャネル、ＹＵＶチャネル等の３画像チャネル、又は単一輝度チャネルを含んでよい。入力画像３０１は、２２４×２２４ピクセル、１９２×１９２ピクセル、１６０×１６０ピクセル、１２８×１２８ピクセル、又は９６×９６ピクセルのうちの１つ等の任意の適した解像度を有してよい。セレクタ３１０は、入力画像３０１又はそのインジケータを受信し、セレクタ３１０は、入力画像３０１の解像度に基づく実装のためのスイッチ可能ネットワーク１００の１つのルート又は一部分を選択する。示されている例では、入力画像３０１は、１９２×１９２であり、入力画像３０１のためのスイッチ可能ネットワーク１００を通る選択されたルートは、次のとおり、すなわち、共有畳み込み層１１１、バッチ正規化モジュール１１３、任意の数の共有畳み込み層／非共有バッチ正規化モジュールペア、共有畳み込み層１１５、バッチ正規化モジュール１１７、大域平均プーリングモジュール１２０、全結合層１２２であり、全結合層１２２は、単数又は複数のラベル３２４を出力する。

とりわけ、そのような層又はモジュールの各々は、スイッチ可能ネットワーク１００のパラメータを適用し、共有層は、入力画像の解像度にかかわらず同じパラメータを適用し、排他的又は非共有モジュールは、入力画像の解像度に基づいて異なるパラメータを適用する。例えば、バッチ正規化モジュール１１３は、バッチ正規化モジュール１１２、１１４のパラメータに排他的なパラメータを適用する。本明細書において使用される場合、スイッチ可能ネットワークパラメータに関する排他的という用語は、幾つかのパラメータが合致するが、パラメータの異なるセットが利用されることを示す。例えば、１つ又は複数の異なるパラメータは、互いに対して排他的であるスイッチ可能ネットワークパラメータがモジュールを介して適用されることを示す。幾つかの実施形態では、バッチ正規化モジュールは、入力画像の解像度に応答して互いに対して異なる平均及び分散を適用する。

示されているように、セレクタ３１０は、入力画像３０１のためのスイッチ可能ネットワーク１００を通るルートを提供する。入力画像３０１は、共有畳み込み層１１１によって受信され、共有畳み込み層１１１は、共有畳み込み層１１１の畳み込み層パラメータを入力画像３０１に適用して、特徴マップ（ＦＭ）３１１を生成する。特徴マップ３１１は、任意の適した解像度を有する共有畳み込み層１１１において適用される畳み込みカーネルの数に対応する任意の数の特徴マップを含んでよい。共有畳み込み層１１１は、畳み込みカーネル並びに正規化線形ユニット（ＲｅＬＵ）及び／又は他の任意の適した処理を適用してよい。畳み込み層パラメータは、フィルタ重み、ＲｅＬＵパラメータ等のような共有畳み込み層１１１の実装のための任意の適したパラメータを含んでよい。

特徴マップ３１１は、バッチ正規化モジュール１１３によって選択的に受信され、バッチ正規化モジュール１１３は、バッチ正規化を適用して、特徴マップ３１２を生成する。特徴マップ３１２は、特徴マップ３１１のものと同じ数の特徴マップ及び解像度等の任意の数の特徴マップを含んでよい。論述されたように、バッチ正規化モジュール１１３は、平均及び分散等の非共有又は排他的バッチ正規化パラメータ、平均パラメータ、分散パラメータ等を適用する。

特徴マップ３１２は、共有畳み込み層１１１及びバッチ正規化モジュール１１３に関して論述されるものと同様の方法において任意の数の共有畳み込み層及び非共有バッチ正規化モジュールペアによって処理される。そのような特徴マップ（又は特徴マップ３１２）は、共有畳み込み層１１５によって受信され、共有畳み込み層１１５は、共有畳み込み層１１５の畳み込み層パラメータを適用して、任意の適した数のマップ及び解像度を有する特徴マップ３１３を生成する。特徴マップ３１３は、バッチ正規化モジュール１１７によって選択的に受信され、バッチ正規化モジュール１１７は、バッチ正規化を適用して、ここでもやはり任意の適した数のマップ及び解像度を有する特徴マップ３１４を生成する。

特徴マップ３１４は、大域平均プーリングモジュール１２０によって選択的に受信され、大域平均プーリングモジュール１２０は、大域平均プーリングを適用して、特徴マップ３１４の、特徴ベクトル３１５を提供するための等しい数のチャネルを有する統一された空間次元（例えば、１×１）への変換等の任意の適した単数又は複数の技法を使用して特徴ベクトル（ＦＶ）３１５を生成する。特徴ベクトル３１５は、共有全結合層１２２によって受信され、共有全結合層１２２は、共有全結合層１２２の全結合層パラメータを適用して、単数又は複数のラベル３２４を生成する。幾つかの実施形態では、スイッチ可能ネットワーク１００は、最高確率に対応する単一のラベルを出力する。幾つかの実施形態では、出力は、複数のラベル及びそれらの対応する確率を含む。幾つかの実施形態では、出力は、全ての可能なラベルの確率を含む。出力ラベルは、幅広い人工知能応用、画像処理応用、又は同様の応用において使用され得る。ラベルの生成に関して論述されているが、幾つかの実施形態では、スイッチ可能ネットワーク１００は、入力画像３０１の超解像バージョン、入力画像３０１のセグメンテーション、入力画像３０１の鮮鋭化バージョン、又は他の任意の像を含む特徴マップを出力してよい。

時間インスタンス３３０に関して示されているように、スイッチ可能ネットワーク１００は、次に、入力画像３０１とは異なる解像度（示されている例におけるより高い解像度）を有する入力画像３０２を処理するようにスイッチングされてよい。とりわけ、バッチ正規化モジュール及び大域平均プーリングのためのもの等の、総パラメータのうちのごく小さい割合（例えば、＜１％）である非共有パラメータ３４１のみが、異なる解像度における処理間でスイッチングされるように更新される必要がある。それによって、スイッチ可能ネットワーク１００は、利用可能な解像度ごとに異なるネットワークを実装することと比較して著しく削減されたメモリフットプリントを提供する。３、４、５、６、又はそれよりも多い数等の任意の数の解像度がスイッチ可能ネットワーク１００によってハンドリングされてよい。幾つかの実施形態では、スイッチ可能ネットワーク１００は、５つの解像度、すなわち、２２４×２２４ピクセル、１９２×１９２ピクセル、１６０×１６０ピクセル、１２８×１２８ピクセル、又は９６×９６ピクセルを処理してよい。

第２の時間インスタンス３３０において、入力画像３０２が受信される。入力画像３０１と同様に、入力画像３０２は、３画像チャネル又は単一輝度チャネルを含んでよい。入力画像３０１は、２２４×２２４ピクセル、１９２×１９２ピクセル、１６０×１６０ピクセル、１２８×１２８ピクセル、又は９６×９６ピクセルのうちの１つ等の任意の適した解像度を有してよい。示されている例では、入力画像は、２２４×２２４の解像度を有する。セレクタ３１０は、共有畳み込み層１１１、バッチ正規化モジュール１１２、任意の数の共有畳み込み層／非共有バッチ正規化モジュールペア、共有畳み込み層１１５、バッチ正規化モジュール１１６、大域平均プーリングモジュール１１９、全結合層１２２を含む、示されている例における選択されたルートを用いた入力画像３０１の解像度に基づく実装のために、スイッチ可能ネットワーク１００のルート又は一部分を選択し、全結合層１２２は、単数又は複数のラベル３２３を出力する。とりわけ、入力画像解像度にかかわらず、選択されたルートは、共有畳み込み層、任意の数の共有畳み込み層、共有畳み込み層１１５、及び全結合層１２２を含む。論述されたように、選択された層又はモジュールの各々は、スイッチ可能ネットワーク１００のパラメータを適用し、共有層は、入力画像の解像度にかかわらず同じパラメータを適用し、排他的又は非共有モジュールは、入力画像の解像度に基づいて異なるパラメータを適用する。

示されているように、セレクタ３１０は、入力画像３０２を共有畳み込み層１１１にルーティングし、共有畳み込み層１１１は、共有畳み込み層１１１の畳み込み層パラメータ（すなわち、入力画像３０１を含む任意の入力画像に適用されるものと同じ）を入力画像３０２に適用して、特徴マップ３１６を生成する。特徴マップ３１６は、バッチ正規化モジュール１１２によって選択的に受信され、バッチ正規化モジュール１１２は、バッチ正規化（すなわち、他のバッチ正規化モジュールに対して異なるバッチ正規化）を適用して、特徴マップ３１７を生成する。特徴マップ３１７は、特徴マップ３１６のものと同じ数の特徴マップ及び解像度等の任意の数の特徴マップを含んでよい。バッチ正規化モジュール１１２は、平均及び分散等の非共有又は排他的バッチ正規化パラメータ、平均パラメータ、分散パラメータ等を適用する。とりわけ、バッチ正規化モジュール１１２によって適用されるバッチ正規化パラメータは、バッチ正規化モジュール１１３によって適用されるものと異なる。

特徴マップ３１７は、同様の方法において、任意の数の共有畳み込み層及び非共有バッチ正規化モジュールペアによって処理され、そのような特徴マップ（又は特徴マップ３１７）が共有畳み込み層１１５によって受信される。共有畳み込み層１１５は、入力画像３０１の論述に関して適用されたものと同じ畳み込み層パラメータを適用して、特徴マップ３１８を生成し、特徴マップ３１８は、任意の適した数のマップ及び解像度を有する。特徴マップ３１８は、バッチ正規化モジュール１１６によって選択的に受信され、バッチ正規化モジュール１１６は、バッチ正規化を適用して、ここでもやはり任意の適した数のマップ及び解像度を有する特徴マップ３１９を生成する。バッチ正規化モジュール１１６は、バッチ正規化モジュール１１７によって適用されるものに対して異なるバッチ正規化パラメータを適用する。

特徴マップ３１９は、大域平均プーリングモジュール１１９によって選択的に受信され、大域平均プーリングモジュール１１９は、大域平均プーリングを適用して、特徴ベクトル３２０を生成する。例えば、大域平均プーリングモジュール１１９は、特徴マップ３１９を、等しい数のチャネルを有する統一された空間次元に変換して、特徴ベクトル３２０を提供してよく、特徴ベクトル３２０は、共有全結合層１２２によって受信される。全結合層１２２は、共有全結合層１２２の全結合層パラメータ（すなわち、特徴ベクトル３１５に適用される同じパラメータ）を適用して、単数又は複数のラベル３２３を生成し、単数又は複数のラベル３２３は、単数又は複数のラベル３２４に関して論述されたもののように任意の特性を有してよい。さらに、論述されたように、ラベルの生成に関して論述されているが、幾つかの実施形態では、スイッチ可能ネットワーク１００は、超解像度画像、セグメンテーション画像、鮮鋭化画像３０１等のような特徴マップを出力してよい。

図４は、本開示の少なくとも幾つかの実装に従って構成される、スイッチ可能ネットワークを使用して異なる解像度の入力画像のためのラベルを生成する例示のプロセス４００を示すフロー図である。プロセス４００は、図４において示されているように、１つ又は複数の動作４０１～４０９を含んでよい。プロセス４００又はその一部分は、スイッチ可能ネットワーク１００等の本明細書において論述される任意のデバイス又はシステムによって実行されてよい。

プロセス４００は、動作４０１において開始し、動作４０１において、入力画像が、スイッチ可能ネットワークを介して処理するために受信されて、入力画像のための１つ又は複数の画像分類ラベルが提供される。入力画像は、スイッチ可能ネットワークが処理することが可能である幾つかの入力画像解像度のうちの１つにおいて受信されるか、又はクロップされて当該幾つかの入力画像解像度のうちの１つにサイズ変更されてよい。例えば、スイッチ可能ネットワークが処理することができる最大画像サイズよりも大きい場合、入力画像は、スイッチ可能ネットワークが処理することが可能である最大画像サイズにダウンサンプリングされてよい。代替的に、入力画像は、スイッチ可能ネットワークが処理することが可能である最小画像サイズにアップサンプリングされてよい。さらに、入力画像が適切な形状（例えば、正方形）ではない場合、入力画像は、適切な形状にクロップされてよい。

処理は、動作４０２において継続し、動作４０２において、スイッチ可能ネットワークパスが、到来する入力画像解像度を使用して選択される。例えば、スイッチ可能ネットワークパスは、常に、共有層、ブロック、又はモジュールを含み得るが、その一方、パスにおいて選択される非共有又は排他層、ブロック、又はモジュールは、入力画像の解像度に依存する。幾つかの実施形態では、全ての畳み込み層が共有され、全結合層が共有されるが、その一方、バッチ正規化モジュール及び大域平均プーリングモジュールは非共有又は排他的である。スイッチ可能ネットワークを通る利用可能なパスの数は、スイッチ可能ネットワークが処理することができる解像度の数に等しく、３、４、５、６、又はそれよりも多い数等の任意の数であってよい。幾つかの実施形態では、スイッチ可能ネットワークは、２２４×２２４、１９２×１９２、１６０×１６０、１２８×１２８、及び９６×９６の解像度入力画像のための各々について１つずつである、５つのパスを有する。

処理は、動作４０３において継続し、動作４０３において、第１の共有畳み込み層が入力画像に適用される。共有畳み込み層は、共有畳み込み層が、入力画像解像度にかかわらず、同じ畳み込み層パラメータを入力画像に適用して、任意の数の特徴マップを生成するような、本明細書において論述される任意の特性を有してよい。処理は、動作４０４において継続し、動作４０４において、解像度ベースバッチ正規化が、結果として得られる特徴マップに適用される。すなわち、バッチ正規化パラメータは、入力画像の解像度に基づいて選択され、他の解像度のためのバッチ正規化パラメータに排他的である。そのようなバッチ正規化は、到来する特徴マップに対して変更された特徴マップを生成する。

処理は、判断動作４０５において継続し、判断動作４０５において、動作４０３において適用された共有畳み込み層がスイッチ可能ネットワークにおける最後の共有畳み込み層であるか否かについての決定が行われる。そうではない場合、処理は、動作４０４において実行されたバッチ正規化から出力された特徴マップに関して上記で論述されたように動作４０３、４０４において継続し、（例えば、カウンタ変数ｉによってカウントされるように）次の共有畳み込み層への入力が提供される。シーケンスにおける各関連共有畳み込み層が、入力画像（第１の共有畳み込み層）又は特徴マップ（各後続の共有畳み込み層）に適用される。さらに、動作４０４において、後続の解像度適応バッチ正規化が、結果として得られる特徴マップに適用され、バッチ正規化パラメータがここでもやはり入力画像の解像度に基づいて選択され、他の解像度のためのバッチ正規化パラメータに排他的である。

動作４０３において適用された共有畳み込み層がスイッチ可能ネットワークにおける最後の共有畳み込み層である（及び動作４０４において適用された解像度ベースバッチ正規化がスイッチ可能ネットワークにおける最後の解像度ベースバッチ正規化である）場合、処理は、動作４０６において継続し、動作４０６において、解像度ベース大域平均プーリングは、結果として得られる特徴マップに適用される。例えば、大域平均プーリングパラメータは、入力画像の解像度に基づいて選択され、他の解像度のための大域平均プーリングパラメータに排他的である。そのような大域平均プーリング処理は、全結合層を介した実装のための特徴ベクトルを提供する。

処理は、動作４０７において継続し、動作４０７において、共有全結合層が入力画像に適用される。共有全結合層は、共有全結合層が、入力画像解像度にかかわらず、同じ共有全結合層パラメータを入力ベクトルに適用して、入力画像に対応する１つ又は複数の画像分類ラベルを生成するような、本明細書において論述される任意の特性を有してよい。出力として、単一のラベル、複数の最高確率ラベル等が提供されてよい。

処理は、判断動作４０８において継続し、判断動作４０８において、最後の画像が処理されたか否かについての決定が行われる。そうである場合、処理は、終了動作４０９において終了する。そうではない場合、処理は、上記で論述されたように、動作４０１において継続する。とりわけ、次の画像が以前に処理された画像と同じ解像度を有する場合、動作４０２において選択されたネットワークパスは、同じであり、（例えば、プロセッサによる実装のためのキャッシュメモリ等における）パラメータの変更は必要とされない。しかしながら、次の画像が以前に処理された画像に対して異なる解像度を有する場合、非共有又は排他的パラメータのみが、次の画像を処理するために、破棄され、再ロードされることが必要とされる。例えば、共有パラメータは、高レベルキャッシュ（例えば、Ｌ１又はＬ２キャッシュ）又はオンボードメモリにおいて維持されてよく、その一方、非共有パラメータは、より低いレベルのキャッシュ（例えば、Ｌ３キャッシュ）又はメインメモリから索出される。幾つかの実施形態では、共有パラメータは、オンチップメモリ（例えば、Ｌ１キャッシュ）において維持されてよく、その一方、非共有パラメータは、次の画像の処理のために、オフチップメモリから索出され、オンチップメモリにロードされる。

そのような処理は、画像分類のために画像解像度間で迅速に変更するために、任意の回数繰り返されてよい。そのような技法は、適応的ランタイム高効率画像分類のための入力画像サイズスイッチ可能ネットワークを提供する。

図５は、本開示の少なくとも幾つかの実装に従って構成される、画像分類を実行する例示のプロセス５００を示すフロー図である。プロセス５００は、図５において示されているように、１つ又は複数の動作５０１～５０７を含んでよい。プロセス５００は、画像分類プロセスの少なくとも一部を形成してよい。非限定的な例として、プロセス５００は、本明細書において論述されるように、実装フェーズにおいてスイッチ可能ネットワーク１００によって実行される画像分類プロセスの少なくとも一部を形成してよい。さらに、プロセス５００は、図６のシステム６００を参照して、本明細書において説明される。

図６は、本開示の少なくとも幾つかの実装に従って構成される、画像分類を実行する例示のシステム６００の説明図である。図６において示されているように、システム６００は、中央プロセッサ６０１、画像プロセッサ６０２、メモリストレージ６０３、及びカメラ６０４を備えてよい。例えば、カメラ６０４は、処理のための入力画像を取得してよい。同様に示されているように、中央プロセッサ６０１は、セレクタ３１０、（共有畳み込み層１１１、１１５等を表す）共有畳み込み層６１１、（バッチ正規化モジュール１１２、１１３、１１４、１１６、１１７、１１８等を表す）正規化モジュール６１２、（大域平均プーリングモジュール１１９、１２０、１２１を表す）大域平均プーリングモジュール６１３、及び全結合層１２２を含むか、又はこれらを実装してよい。システム６００は、図１に関して論述されたように、任意のトレーニングモジュール又はコンポーネントを含むか、又はこれらを実装してもよい。そのようなコンポーネント又はモジュールは、本明細書において論述されるように動作を実行するように実装されてよい。メモリストレージ６０３は、画像、画像インスタンス、スイッチ可能ネットワークパラメータ、ラベル若しくはラベルデータ、又は本明細書において論述される他の任意のデータを記憶してよい。

示されているように、幾つかの例では、セレクタ３１０、共有畳み込み層６１１、正規化モジュール６１２、大域平均プーリングモジュール６１３、及び全結合層１２２のうちの１つ又は複数は、中央プロセッサ６０１を介して実装される。他の例では、セレクタ３１０、共有畳み込み層６１１、正規化モジュール６１２、大域平均プーリングモジュール６１３、及び全結合層１２２のうちの１つ又は複数又は一部分は、画像プロセッサ６０２、ビデオプロセッサ、グラフィックスプロセッサ等を介して実装される。更に他の例では、セレクタ３１０、共有畳み込み層６１１、正規化モジュール６１２、大域平均プーリングモジュール６１３、及び全結合層１２２のうちの１つ又は複数又は一部分は、画像又はビデオ処理パイプライン又はユニットを介して実装される。

画像プロセッサ６０２は、本明細書において論述されるように動作を提供し得る、任意の数及びタイプのグラフィックス、画像、又はビデオ処理ユニットを含んでよい。幾つかの例では、画像プロセッサ６０２は、画像信号プロセッサであってよい。例えば、画像プロセッサ６０２は、メモリストレージ６０３から取得された画像データを操作するのに専用の回路を含んでよい。中央プロセッサ６０１は、システム６００に制御及び他の高レベルの機能を提供し、及び／又は、本明細書において論述されるような任意の動作を提供し得る任意の数及びタイプの処理ユニット又はモジュールを含んでよい。メモリストレージ６０３は、揮発性メモリ（例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）等）又は不揮発性メモリ（例えば、フラッシュメモリ等）等のような任意のタイプのメモリであってよい。非限定的な例では、メモリストレージ６０３は、キャッシュメモリによって実装されてよい。

一実施形態では、セレクタ３１０、共有畳み込み層６１１、正規化モジュール６１２、大域平均プーリングモジュール６１３、及び全結合層１２２のうちの１つ又は複数又は一部分は、画像プロセッサ６０２の実行ユニット（ＥＵ）を介して実装される。ＥＵは、例えば、幅広いプログラマブルロジック機能を提供し得る、単数又は複数のロジックコア等のプログラマブルロジック又は回路を含んでよい。一実施形態では、セレクタ３１０、共有畳み込み層６１１、正規化モジュール６１２、大域平均プーリングモジュール６１３、及び全結合層１２２のうちの１つ又は複数又は一部分は、固定機能回路等のような専用ハードウェアを介して実装される。固定機能回路は、専用ロジック又は回路を含んでよく、固定の目的又は機能のための専用ロジックにマッピングし得る固定機能入力ポイントのセットを提供してよい。幾つかの実施形態では、セレクタ３１０、共有畳み込み層６１１、正規化モジュール６１２、大域平均プーリングモジュール６１３、及び全結合層１２２のうちの１つ又は複数又は一部分は、特定用途向け集積回路（ＡＳＩＣ）を介して実装されてよい。ＡＳＩＣは、本明細書において論述される動作を実行するようにカスタマイズされた集積回路を含んでよい。カメラ６０４は、任意の適したレンズ及び画像センサ及び／又は画像又はビデオをキャプチャする関連ハードウェアを有する任意のカメラを含んでよい。

図５の論述に戻ると、プロセス５００は、動作５０１において開始し、動作５０１において、第１の解像度における第１の画像、及び第１の解像度未満の第２の解像度における第２の画像が、処理のために受信される。そのような画像は、並列に又は直列に受信されてよい。例えば、画像は、メモリに同時に記憶される場合も、されない場合もある。明確性のために２つの画像解像度に関して論述されているが、任意の数の利用可能な解像度の任意の数の入力画像が利用されてよい。プロセス５００の論述において、動作は、入力画像解像度に基づいてスイッチ可能であるスイッチ可能ネットワークによって実行されてよい。

処理は、動作５０２において継続し、動作５０２において、畳み込みニューラルネットワーク層が、任意の数の畳み込み層パラメータを使用して第１の画像、又は第１の画像に対応する第１の特徴マップに適用されて、第１の画像に対応する１つ又は複数の第２の特徴マップを生成する。例えば、動作５０２の畳み込みニューラルネットワーク層は、入力画像自体に適用されるスイッチ可能ネットワークにおける第１の畳み込みニューラルネットワーク層、又は第１の画像に基づいて生成される特徴マップに適用される後続の畳み込みニューラルネットワーク層であってよい。さらに、全ての畳み込みニューラルネットワーク層が共有されることに関して本明細書において論述されているが、幾つかの実施形態では、非共有畳み込みニューラルネットワーク層が１つ又は複数の層において利用されてよい。幾つかの実施形態では、畳み込みニューラルネットワーク層は、剪定された畳み込みニューラルネットワーク層又は量子化された畳み込みニューラルネットワーク層である。

処理は、動作５０３において継続し、動作５０３において、第１の正規化が、第１の正規化パラメータを使用して１つ又は複数の第２の特徴マップに対して実行されて、１つ又は複数の第３の特徴マップが生成される。例えば、第１の正規化は、結果として得られる特徴マップが、第１の画像から直接又は第１の画像に対応する特徴マップから生成されるような、動作５０２からの結果として得られる特徴マップに対して実行される。第１の画像に適用されるような第１の正規化は、第１の正規化パラメータが、第１の画像の解像度を有する入力画像にのみ適用されるように、第１の画像の解像度に基づいて選択的である。第１の正規化及び（動作５０６に関して論述される）第２の正規化は、バッチ正規化等の本明細書において論述される任意の適した正規化であってよい。

処理は、動作５０４において継続し、動作５０４において、第１のラベルが、１つ又は複数の第３の特徴マップを使用して第１の画像のために生成される。第１のラベルは、任意の適した単数又は複数の技法を使用して生成されてよい。幾つかの実施形態では、第１のラベルを生成することは、各々に追加の第１の正規化が後続する１つ又は複数の追加の共有畳み込みニューラルネットワーク層を適用することと、全結合層を適用することとを含む。幾つかの実施形態では、最終正規化に後続して、全結合層の適用の前に大域平均プーリングが適用される。幾つかの実施形態では、全結合層は、入力画像解像度にかかわらず共有及び適用され、大域平均プーリングは、入力画像解像度に基づいて選択的に適用される。幾つかの実施形態では、第１の正規化及び追加の第１の正規化は、第１の解像度である第１の画像に応答して選択される。

処理は、動作５０５において継続し、動作５０５において、畳み込みニューラルネットワーク層は、畳み込み層パラメータを使用して第２の画像、又は第２の画像に対応する第４の特徴マップに適用されて、第２の画像に対応する１つ又は複数の第５の特徴マップを生成する。例えば、動作５０５の畳み込みニューラルネットワーク層は、入力画像自体に適用されるスイッチ可能ネットワークにおける第１の畳み込みニューラルネットワーク層、又は第１の画像に基づいて生成される特徴マップに適用される後続の畳み込みニューラルネットワーク層であってよい。論述されたように、動作５０５において適用される畳み込みニューラルネットワーク層は、動作５０２において適用されたものと同じ畳み込み層パラメータを実装する。

処理は、動作５０６において継続し、動作５０６において、第２の正規化が、第１の正規化パラメータに排他的な第２の正規化パラメータを使用して１つ又は複数の第５の特徴マップに対して実行されて、１つ又は複数の第６の特徴マップが生成される。例えば、第２の正規化は、結果として得られる特徴マップが、第２の画像から直接又は第２の画像に対応する特徴マップから生成されるような動作５０５からの結果として得られる特徴マップに対して実行される。第２の画像に適用されるような第２の正規化は、第２の正規化パラメータが、第２の画像の解像度を有する入力画像にのみ適用されるように、第２の画像の解像度に基づいて選択的である。とりわけ、動作５０６において適用される第２の正規化パラメータは、動作５０３において適用された第１の正規化パラメータに対して排他的であり、これに対して異なる。

処理は、動作５０７において継続し、動作５０７において、第２のラベルが、１つ又は複数の第６の特徴マップを使用して第２の画像のために生成される。第２のラベルは、任意の適した単数又は複数の技法を使用して生成されてよい。幾つかの実施形態では、第１のラベルを生成することは、各々に（第２の画像の解像度に基づいて選択された）追加の第２の正規化が後続する１つ又は複数の追加の共有畳み込みニューラルネットワーク層を適用することと、動作５０４において適用されたものと同じ全結合層を適用することとを含む。幾つかの実施形態では、最終正規化に後続して、全結合層の適用の前に大域平均プーリングが適用される。論述されたように、幾つかの実施形態では、全結合層は、入力画像解像度にかかわらず共有及び適用され、大域平均プーリングは、入力画像解像度に基づいて選択的に適用される。

動作５０１～５０７に対して適用されるスイッチ可能ネットワークパラメータは、任意の適した単数又は複数の技法を使用して生成されてよい。例えば、畳み込み層パラメータ、第１の正規化パラメータ、第２の正規化パラメータ、他の共有畳み込み層パラメータ、他の非共有正規化パラメータ、共有全結合層パラメータ、及び非共有大域平均プーリングパラメータは、畳み込みニューラルネットワークパラメータ又は事前トレーニングされた畳み込みニューラルネットワークパラメータと総称され得る。幾つかの実施形態では、事前トレーニングされた畳み込みニューラルネットワークパラメータは、それぞれ第１の解像度及び第２の解像度における第１のトレーニング画像及び第２のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、第１のトレーニング画像及び第２のトレーニング画像は、同じ画像インスタンスに対応する、生成と、トレーニング反復における、第１のトレーニング画像及び第２のトレーニング画像への事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を含む損失項を使用した並列での事前トレーニングされた畳み込みニューラルネットワークパラメータのパラメータ調整とに基づいてトレーニングされる。幾つかの実施形態では、パラメータ調整は、事前トレーニングされた畳み込みニューラルネットワークパラメータの全結合層パラメータに対する調整を更に含み、畳み込み層パラメータ及び全結合層パラメータは、入力画像サイズにわたって共有されることになり、第１の正規化パラメータ及び第２の正規化パラメータは、入力画像サイズにわたって非共有となる。

幾つかの実施形態では、事前トレーニングされた畳み込みニューラルネットワークパラメータは、第１の解像度、第２の解像度、及び第２の解像度未満の第３の解像度における第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像は、同じ画像インスタンスに対応する、生成と、トレーニング反復における、それぞれ第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像を使用して作成される第１の予測、第２の予測、及び第３の予測に基づくアンサンブル予測の生成と、アンサンブル予測の、グラウンドトゥルースラベルとの比較とに基づいてトレーニングされる。幾つかの実施形態では、アンサンブル予測は、第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像の各々に適用されるような事前トレーニングされた畳み込みニューラルネットワークパラメータに対応するロジットの加重平均を含み、ロジットの加重平均は、ロジット重要度スコアを使用して重み付けされる。幾つかの実施形態では、トレーニング反復において、パラメータ更新は、アンサンブル予測を使用した分類確率に基づくアンサンブル損失項と、アンサンブル予測からの各第１の予測、第２の予測、及び第３の予測の発散に基づく蒸留損失項との総和を含む損失関数の最小化に基づく。幾つかの実施形態では、蒸留損失項は、第１の予測からの第２の予測の第１の発散、第３の予測からの第２の予測の第２の発散、及び第１の予測からの第３の予測の第３の発散を更に含む。幾つかの実施形態では、損失関数は、第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像への事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を更に含む。

本明細書において説明されるシステムの様々なコンポーネントは、ソフトウェア、ファームウェア、及び／又はハードウェア、及び／又はこれら任意の組み合わせにおいて実装されてよい。例えば、本明細書において論述されるシステムの様々なコンポーネントは、少なくとも部分的に、例えば、スマートフォン等のコンピューティングシステムにおいて見られ得るようなコンピューティングシステムオンチップ（ＳｏＣ）のハードウェアによって提供されてよい。当業者であれば、本明細書において説明されるシステムが、対応する図に示されていない追加のコンポーネントを含み得ることを認識し得る。例えば、本明細書において論述されるシステムは、明確性のために示されていない通信モジュール等のような追加のコンポーネントを含んでよい。

本明細書において論述される例示のプロセスの実装は、示されている全ての動作を示された順序において実行することを含み得るが、本開示は、これに関して限定されず、様々な例において、本明細書における例示のプロセスの実装は、示されている動作のサブセットのみ、示された順序とは異なる順序において実行される動作、又は、追加の動作を含んでよい。

加えて、本明細書において論述される動作のうちの任意の１つ又は複数は、１つ又は複数のコンピュータプログラム製品によって提供される命令に応答して実行されてよい。そのようなプログラム製品は、例えばプロセッサによって実行されると、本明細書において説明される機能を提供し得る命令を提供する信号担持媒体を含んでよい。コンピュータプログラム製品は、任意の形態の１つ又は複数の機械可読媒体において提供されてよい。それゆえ、例えば、１つ又は複数のグラフィックス処理ユニット又はプロセッサコアを含むプロセッサは、１つ又は複数の機械可読媒体によってプログラムコード及び／又は命令又は命令セットがプロセッサに伝達されることに応答して、本明細書における例示のプロセスのブロックのうちの１つ又は複数を実行してよい。一般に、機械可読媒体は、本明細書において説明されるデバイス及び／又はシステムのうちのいずれかに、本明細書において論述されるシステムの少なくとも一部分、又は本明細書において論述されるような他の任意のモジュール若しくはコンポーネントを実装させ得る、プログラムコード及び／又は命令又は命令セットの形態でソフトウェアを伝達してよい。

本明細書において説明される任意の実装において使用される場合、「モジュール」又は「コンポーネント」という用語は、本明細書において説明される機能を提供するように構成されたソフトウェアロジック、ファームウェアロジック、ハードウェアロジック、及び／又は回路のうちの任意の組み合わせを指す。ソフトウェアは、ソフトウェアパッケージ、コード及び／又は命令セット又は命令として具現化されてよく、「ハードウェア」は、本明細書において説明される任意の実装において使用される場合、例えば、ハードワイヤード回路、プログラマブル回路、状態機械回路、固定機能回路、実行ユニット回路及び／又は、プログラマブル回路によって実行される命令を記憶するファームウェアを、単独で又は任意の組み合わせで含んでよい。モジュールは、例えば、集積回路（ＩＣ）システムオンチップ（ＳｏＣ）等のより大きいシステムの一部を形成する回路として、集合的に又は個別に具現化されてよい。

図７は、本開示の少なくとも幾つかの実装に従って構成される、例示のシステム７００の説明図である。様々な実装において、システム７００は、モバイルシステムであってよいが、システム７００はこの状況に限定されない。システム７００は、本明細書において論述される任意のモジュール又は技法を実装及び／又は実行してよい。例えば、システム７００は、パーソナルコンピュータ（ＰＣ）、サーバ、ラップトップコンピュータ、ウルトララップトップコンピュータ、タブレット、タッチパッド、ポータブルコンピュータ、ハンドヘルドコンピュータ、パームトップコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、携帯電話／ＰＤＡの組み合わせ、テレビ、スマートデバイス（例えば、スマートフォン、スマートタブレット又はスマートテレビ）、モバイルインターネットデバイス（ＭＩＤ）、メッセージングデバイス、データ通信デバイス、カメラ（例えば、ポイントアンドシュートカメラ、スーパズームカメラ、デジタル一眼レフ（ＤＳＬＲ）カメラ）等に組み込まれてよい。幾つかの例では、システム７００は、クラウドコンピューティング環境を介して実装されてよい。

様々な実装において、システム７００は、ディスプレイ７２０に結合されたプラットフォーム７０２を備える。プラットフォーム７０２は、コンテンツサービスデバイス７３０又はコンテンツ配信デバイス７４０又は他の同様のコンテンツソース等のコンテンツデバイスからコンテンツを受信してよい。１つ又は複数のナビゲーション機能を含むナビゲーションコントローラ７５０が、例えば、プラットフォーム７０２及び／又はディスプレイ７２０とインタラクトするのに使用されてよい。これらのコンポーネントの各々は、以下でより詳細に説明される。

様々な実装において、プラットフォーム７０２は、チップセット７０５、プロセッサ７１０、メモリ７１２、アンテナ７１３、ストレージ７１４、グラフィックスサブシステム７１５、アプリケーション７１６及び／又は無線機７１８の任意の組み合わせを含んでよい。チップセット７０５は、プロセッサ７１０、メモリ７１２、ストレージ７１４、グラフィックスサブシステム７１５、アプリケーション７１６、及び／又は無線機７１８の間で相互通信を提供してよい。例えば、チップセット７０５は、ストレージ７１４との相互通信を提供することが可能なストレージアダプタ（図示せず）を有してよい。

プロセッサ７１０は、複合命令セットコンピュータ（ＣＩＳＣ）プロセッサ又は縮小命令セットコンピュータ（ＲＩＳＣ）プロセッサ、ｘ８６命令セット互換プロセッサ、マルチコア、又は他の任意のマイクロプロセッサ若しくは中央処理ユニット（ＣＰＵ）として実装されてよい。様々な実装において、プロセッサ７１０は、デュアルコアプロセッサ、デュアルコアモバイルプロセッサ等であってよい。

メモリ７１２は、揮発性メモリデバイス、例えば、限定されないが、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、又はスタティックＲＡＭ（ＳＲＡＭ）として実装されてよい。

ストレージ７１４は、不揮発性ストレージデバイス、例えば、限定されないが、磁気ディスクドライブ、光ディスクドライブ、テープドライブ、内部ストレージデバイス、アタッチトストレージデバイス、フラッシュメモリ、バッテリバックアップＳＤＲＡＭ（シンクロナスＤＲＡＭ）、及び／又はネットワークアクセス可能ストレージデバイスとして実装されてよい。様々な実装において、ストレージ７１４は、例えば、複数のハードドライブが含まれる場合、高価なデジタルメディアに対するストレージ性能の強化された保護を向上させる技術を含んでよい。

画像信号プロセッサ７１７は、画像又はビデオフレーム処理のために使用される専用のデジタル信号プロセッサ等として実装されてよい。幾つかの例では、画像信号プロセッサ７１７は、単一命令複数データ又は複数命令複数データアーキテクチャ等に基づいて実装されてよい。幾つかの例では、画像信号プロセッサ７１７は、メディアプロセッサとして特徴付けされてよい。本明細書において論述されるように、画像信号プロセッサ７１７は、システムオンチップアーキテクチャに基づいて、及び／又はマルチコアアーキテクチャに基づいて、実装されてよい。

グラフィックスサブシステム７１５は、ディスプレイのために静止画又はビデオ等の画像の処理を実行してよい。グラフィックスサブシステム７１５は、例えば、グラフィックス処理ユニット（ＧＰＵ）又はビジュアル処理ユニット（ＶＰＵ）であってよい。アナログ又はデジタルインターフェースは、グラフィックスサブシステム７１５とディスプレイ７２０とを通信可能に結合するのに使用されてよい。例えば、インターフェースは、高精細マルチメディアインターフェース、ＤｉｓｐｌａｙＰｏｒｔ、ワイヤレスＨＤＭＩ（登録商標）、及び／又はワイヤレスＨＤ互換技法のうちの任意のものであってよい。グラフィックスサブシステム７１５は、プロセッサ７１０又はチップセット７０５に統合されてよい。幾つかの実装では、グラフィックスサブシステム７１５は、チップセット７０５に通信可能に結合されたスタンドアロンデバイスであってよい。

本明細書において説明されるグラフィックス及び／又はビデオ処理技法は、様々なハードウェアアーキテクチャにおいて実装されてよい。例えば、グラフィックス及び／又はビデオ機能は、チップセット内に統合されてよい。代替的に、別個のグラフィックス及び／又はビデオプロセッサが使用されてよい。更に別の実装として、グラフィックス及び／又はビデオ機能は、マルチコアプロセッサを含む汎用プロセッサによって提供されてよい。更なる実施形態では、機能は、コンシューマエレクトロニクスデバイスにおいて実装されてよい。

無線機７１８は、様々な適したワイヤレス通信技法を使用して信号を送信及び受信することが可能である１つ又は複数の無線機を含んでよい。そのような技法は、１つ又は複数のワイヤレスネットワークにわたる通信を含んでよい。例示のワイヤレスネットワークは、ワイヤレスローカルエリアネットワーク（ＷＬＡＮ）、ワイヤレスパーソナルエリアネットワーク（ＷＰＡＮ），ワイヤレスメトロポリタンエリアネットワーク（ＷＭＡＮ）、セルラネットワーク及び衛星ネットワークを含む（が、これらに限定されない）。そのようなネットワークにわたる通信では、無線機７１８は、任意のバージョンの１つ又は複数の適用可能な規格に従って動作してよい。

様々な実装において、ディスプレイ７２０は、任意のテレビタイプのモニタ又はディスプレイを含んでよい。ディスプレイ７２０は、例えば、コンピュータディスプレイスクリーン、タッチスクリーンディスプレイ、ビデオモニタ、テレビ型デバイス、及び／又はテレビを含んでよい。ディスプレイ７２０は、デジタル及び／又はアナログであってよい。様々な実装において、ディスプレイ７２０は、ホログラフィックディスプレイであってよい。また、ディスプレイ７２０は、視覚投影を受信し得る透明な表面であってよい。そのような投影は、様々な形態の情報、画像及び／又はオブジェクトを伝達してよい。例えば、そのような投影は、モバイル拡張現実（ＭＡＲ）アプリケーションの視覚的オーバレイであってよい。１つ又は複数のソフトウェアアプリケーション７１６の制御下で、プラットフォーム７０２は、ディスプレイ７２０上にユーザインターフェース７２２を表示してよい。

様々な実装において、コンテンツサービスデバイス７３０は、任意の国内、国際及び／又は独立サービスによってホストされ、それゆえ、例えば、インターネットを介してプラットフォーム７０２にアクセス可能であってよい。コンテンツサービスデバイス７３０は、プラットフォーム７０２及び／又はディスプレイ７２０に結合されてよい。プラットフォーム７０２及び／又はコンテンツサービスデバイス７３０は、ネットワーク７６０に対してメディア情報を通信（例えば、送信及び／又は受信）するために、ネットワーク７６０に結合されてよい。コンテンツ配信デバイス７４０も、プラットフォーム７０２及び／又はディスプレイ７２０に結合されてよい。

様々な実装において、コンテンツサービスデバイス７３０は、ケーブルテレビボックス、パーソナルコンピュータ、ネットワーク、電話、インターネット対応デバイス又はデジタル情報及び／又はコンテンツを配信することが可能である装置、及び、コンテンツプロバイダと、プラットフォーム７０２及び／又はディスプレイ７２０との間で、ネットワーク７６０を介して若しくは直接、コンテンツを単方向に若しくは双方向に通信することが可能である他の任意の類似のデバイスを含んでよい。コンテンツは、システム７００内のコンポーネントのうちの任意のものに対して、及びネットワーク７６０を介してコンテンツプロバイダに対して、単方向に及び／又は双方向に通信され得ることが理解されよう。コンテンツの例は、例えば、ビデオ、音楽、医療及びゲーミング情報等を含む任意のメディア情報を含んでよい。

コンテンツサービスデバイス７３０は、メディア情報、デジタル情報及び／又は他のコンテンツを含むケーブルテレビプログラム等のコンテンツを受信してよい。コンテンツプロバイダの例は、任意のケーブル若しくは衛星テレビ、又はラジオ若しくはインターネットコンテンツプロバイダを含んでよい。提供される例は、本開示に係る実装をいかようにも限定することは意図されない。

様々な実装において、プラットフォーム７０２は、１つ又は複数のナビゲーション機能を有するナビゲーションコントローラ７５０から制御信号を受信してよい。ナビゲーションコントローラ７５０のナビゲーション機能は、例えば、ユーザインターフェース７２２とインタラクトするのに使用されてよい。様々な実施形態において、ナビゲーションコントローラ７５０は、ユーザがコンピュータに空間（例えば、連続及び多次元）データを入力することを可能にするコンピュータハードウェアコンポーネント（特に、ヒューマンインターフェースデバイス）であり得るポインティングデバイスであってよい。グラフィカルユーザインターフェース（ＧＵＩ）及び、テレビ並びにモニタ等の多くのシステムは、ユーザが身体的なジェスチャを使用してコンピュータ又はテレビを制御し、及びそれにデータを提供することを可能にする。

ナビゲーションコントローラ７５０のナビゲーション機能の動きは、ポインタ、カーソル、フォーカスリング、又はディスプレイ上で表示された他の視覚インジケータの動きによってディスプレイ（例えば、ディスプレイ７２０）上で複製されてよい。例えば、ソフトウェアアプリケーション７１６の制御下で、ナビゲーションコントローラ７５０上に位置するナビゲーション機能は、例えば、ユーザインターフェース７２２上に表示される仮想ナビゲーション機能にマッピングされてよい。様々な実施形態において、ナビゲーションコントローラ７５０は、別個のコンポーネントではなく、プラットフォーム７０２及び／又はディスプレイ７２０に統合されてよい。しかしながら、本開示は、本明細書において示される又は説明される要素又は状況に限定されない。

様々な実装において、ドライバ（図示せず）は、例えば、有効化されると、ユーザがテレビのようなプラットフォーム７０２を、テレビと同様に、初期ブートアップ後にボタンをタッチすることで、即座にオン及びオフにすることを可能にする技術を含んでよい。プラットフォームが「オフ」であっても、プログラムロジックは、プラットフォーム７０２が、メディアアダプタ又は他のコンテンツサービスデバイス７３０又はコンテンツ配信デバイス７４０にコンテンツをストリーミングすることを可能にし得る。加えて、チップセット７０５は、例えば、５．１サラウンドサウンドオーディオ及び／又は高精細７．１サラウンドサウンドオーディオに対するハードウェア及び／又はソフトウェアサポートを含んでよい。ドライバは、統合されたグラフィックスプラットフォームのためのグラフィックスドライバを含んでよい。様々な実施形態において、グラフィックスドライバは、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）エクスプレスグラフィックスカードを含んでよい。

様々な実装において、システム７００において示されているコンポーネントのうちの任意の１つ又は複数が統合されてよい。例えば、プラットフォーム７０２及びコンテンツサービスデバイス７３０が統合されてよく、又は、プラットフォーム７０２及びコンテンツ配信デバイス７４０が統合されてよく、又は、例えば、プラットフォーム７０２、コンテンツサービスデバイス７３０、及びコンテンツ配信デバイス７４０が統合されてよい。様々な実施形態において、プラットフォーム７０２及びディスプレイ７２０は、統合されたユニットであってよい。例えば、ディスプレイ７２０及びコンテンツサービスデバイス７３０が統合されてよく、又はディスプレイ７２０及びコンテンツ配信デバイス７４０が統合されてよい。これらの例は、本開示を限定することは意図されない。

様々な実施形態において、システム７００は、ワイヤレスシステム、有線システム、又はその両方の組み合わせとして実装されてよい。ワイヤレスシステムとして実装される場合、システム７００は、１つ又は複数のアンテナ、送信機、受信機、送受信機、増幅器、フィルタ、制御ロジック等のようなワイヤレス共有媒体上で通信するのに適したコンポーネント及びインターフェースを含んでよい。ワイヤレス共有媒体の例は、ＲＦスペクトル等のようなワイヤレススペクトルの一部分を含んでよい。
有線システムとして実装される場合、システム７００は、入力／出力（Ｉ／Ｏ）アダプタ、Ｉ／Ｏアダプタを対応する有線通信媒体と接続するための物理コネクタ、ネットワークインターフェースカード（ＮＩＣ）、ディスクコントローラ、ビデオコントローラ、オーディオコントローラ等のような有線通信媒体上で通信するのに適したコンポーネント及びインターフェースを含んでよい。有線通信媒体の例は、ワイヤ、ケーブル、金属リード線、プリント回路基板（ＰＣＢ）、バックプレーン、スイッチファブリック、半導体材料、ツイストペアワイヤ、同軸ケーブル、光ファイバ等を含んでよい。

プラットフォーム７０２は、情報を通信するために１つ又は複数の論理チャネル又は物理チャネルを確立してよい。情報は、メディア情報及び制御情報を含んでよい。メディア情報は、ユーザ向けのコンテンツを表す任意のデータを指してよい。コンテンツの例は、例えば、音声会話、ビデオ会議、ストリーミングビデオ、電子メール（「ｅｍａｉｌ」）メッセージ、音声メールメッセージ、英数字記号、グラフィックス、画像、ビデオ、テキスト等からのデータを含んでよい。音声会話からのデータは、例えば、スピーチ情報、無音期間、背景雑音、快適雑音、トーン等であってよい。制御情報は、自動化システム向けのコマンド、命令又は制御語を表す任意のデータを指し得る。例えば、制御情報は、システムを通してメディア情報をルーティングするか、又は、所定の方法においてメディア情報を処理することをノードに命令するのに使用されてよい。しかしながら、実施形態は、要素又は図７に示され若しくは説明された状況に限定されない。

上記で説明されたように、システム７００は、異なる物理スタイル又はフォームファクタにおいて具現化されてよい。図８は、本開示の少なくとも幾つかの実装に従って構成される、例示のスモールフォームファクタデバイス８００を示している。幾つかの例では、システム７００は、デバイス８００を介して実装されてよい。他の例では、本明細書において論述される他のシステム又はその一部分が、デバイス８００を介して実装されてよい。様々な実施形態において、例えば、デバイス８００は、ワイヤレス機能を有するモバイルコンピューティングデバイスとして実装されてよい。例えば、モバイルコンピューティングデバイスは、処理システム、及び１つ又は複数のバッテリ等のモバイル電源又は電力供給を有する任意のデバイスを指し得る。

モバイルコンピューティングデバイスの例は、パーソナルコンピュータ（ＰＣ）、ラップトップコンピュータ、ウルトララップトップコンピュータ、タブレット、タッチパッド、ポータブルコンピュータ、ハンドヘルドコンピュータ、パームトップコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、携帯電話／ＰＤＡの組み合わせ、スマートデバイス（例えば、スマートフォン、スマートタブレット又はスマートモバイルテレビ）、モバイルインターネットデバイス（ＭＩＤ）、メッセージングデバイス、データ通信デバイス、カメラ（例えば、ポイントアンドシュートカメラ、スーパズームカメラ、デジタル一眼レフ（ＤＳＬＲ）カメラ）等を含んでよい。

モバイルコンピューティングデバイスの例は、リストコンピュータ、フィンガーコンピュータ、リングコンピュータ、眼鏡コンピュータ、ベルトクリップコンピュータ、アームバンドコンピュータ、シューズコンピュータ、衣類コンピュータ、及び他のウェアラブルコンピュータ等の、人によって着用されるように構成されるコンピュータも含んでよい。様々な実施形態において、例えば、モバイルコンピューティングデバイスは、コンピュータアプリケーション、並びに音声通信及び／又はデータ通信を実行することが可能なスマートフォンとして実装されてよい。幾つかの実施形態は例示としてスマートフォンとして実装されるモバイルコンピューティングデバイスに対して説明されてよいが、他の実施形態が同様に他のワイヤレスモバイルコンピューティングデバイスを使用して実装されてよいことが理解され得る。実施形態は、この状況において限定されない。

図８において示されているように、デバイス８００は、前面８０１及び背面８０２を有するハウジングを備えてよい。デバイス８００は、ディスプレイ８０４、入力／出力（Ｉ／Ｏ）デバイス８０６、カメラ８１５、カメラ８０５、及び統合アンテナ８０８を備える。デバイス８００は、ナビゲーション機能８１２も備えてよい。Ｉ／Ｏデバイス８０６は、モバイルコンピューティングデバイスに情報を入力する任意の適したＩ／Ｏデバイスを有してよい。Ｉ／Ｏデバイス８０６の例は、英数字キーボード、テンキーパッド、タッチパッド、入力キー、ボタン、スイッチ、マイクロフォン、スピーカ、音声認識デバイス、及びソフトウェア等を含んでよい。また、情報は、マイクロフォン（図示せず）を介してデバイス８００に入力されてよく、又は、音声認識デバイスによってデジタル化されてよい。示されているように、デバイス８００は、デバイス８００の背面８０２（又は他の箇所）に統合されるカメラ８０５及びフラッシュ８１０と、デバイス８００の前面８０１に統合されるカメラ８１５とを含んでよい。幾つかの実施形態では、カメラ８１５、８０５のうちのいずれか又は両方は、ディスプレイ８０４に関して可動であってよい。カメラ８１５及び／又はカメラ８０５は、例えば、ディスプレイ８０４に出力される及び／又はアンテナ８０８を介してデバイス８００からリモートに通信されるストリームビデオに処理される色画像データを発生させるために撮像モジュール又はパイプラインのコンポーネントであってよい。例えば、カメラ８１５は、入力画像をキャプチャしてよく、アイコンタクト補正画像は、ディスプレイ８０４に提供され、及び／又はアンテナ８０８を介してデバイス８００からリモートに通信されてよい。

様々な実施形態は、ハードウェア要素、ソフトウェア要素、又はその両方の組み合わせを使用して実装されてよい。ハードウェア要素の例は、プロセッサ、マイクロプロセッサ、回路、回路要素（例えば、トランジスタ、抵抗、キャパシタ、インダクタ等）、集積回路、特定用途向け集積回路（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ロジックゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセット等を含んでよい。ソフトウェアの例は、ソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、機械プログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、関数、方法、手順、ソフトウェアインターフェース、アプリケーションプログラムインターフェース（ＡＰＩ）、命令セット、コンピューティングコード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、シンボル、又はこれらの任意の組み合わせを含んでよい。実施形態がハードウェア要素及び／又はソフトウェア要素を使用して実装されるかの判断は、所望の計算レート、電力レベル、耐熱性、処理サイクルバジェット、入力データレート、出力データレート、メモリリソース、データバス速度及び他の設計上又は性能上の制約等の任意の数の因子に従って異なり得る。

少なくとも１つの実施形態の１つ又は複数の態様は、プロセッサ内の様々なロジックを表す機械可読媒体上に記憶される代表的命令によって実装されてよく、代表的命令は、機械によって読み取られると、機械に、本明細書において説明される技法を実行するロジックを作成させる。ＩＰコアとして知られるそのような表現は、有形の機械可読媒体上に記憶され、ロジック又はプロセッサを実際に製造する製造機械にロードするために様々な顧客又は製造施設に供給されてよい。

本明細書において記載される特定の特徴が様々な実装を参照して説明されたが、この説明は限定の意味で解釈されることは意図されない。したがって、本開示が関連する当業者には明らかである、本明細書において説明された実装及び他の実装の様々な修正は、本開示の趣旨及び範囲内にあるものとみなされる。

１つ又は複数の第１の実施形態において、画像分類のための方法は、第１の解像度における第１の画像、及び第１の解像度未満の第２の解像度における第２の画像を受信する段階と、複数の畳み込み層パラメータを使用して第１の画像、又は第１の画像に対応する第１の特徴マップに畳み込みニューラルネットワーク層を適用して、第１の画像に対応する１つ又は複数の第２の特徴マップを生成する段階と、複数の第１の正規化パラメータを使用して１つ又は複数の第２の特徴マップに対して第１の正規化を実行して、１つ又は複数の第３の特徴マップを生成する段階と、１つ又は複数の第３の特徴マップを使用して第１の画像のための第１のラベルを生成する段階と、複数の畳み込み層パラメータを使用して第２の画像、又は第２の画像に対応する第４の特徴マップに畳み込みニューラルネットワーク層を適用して、第２の画像に対応する１つ又は複数の第５の特徴マップを生成する段階と、第１の正規化パラメータに排他的な複数の第２の正規化パラメータを使用して１つ又は複数の第５の特徴マップに対して第２の正規化を実行して、１つ又は複数の第６の特徴マップを生成する段階と、１つ又は複数の第６の特徴マップを使用して第２の画像のための第２のラベルを生成する段階とを備える。

第１の実施形態に加えて、１つ又は複数の第２の実施形態において、第１のラベルを生成する段階は、各々に追加の第１の正規化が後続する１つ又は複数の追加の畳み込みニューラルネットワーク層を適用する段階と、全結合層を適用する段階とを有し、第２のラベルを生成する段階は、追加の第１の正規化において使用されるものに排他的なパラメータを使用して、各々に追加の第２の正規化が後続する１つ又は複数の追加の畳み込みニューラルネットワーク層を適用する段階と、全結合層を適用する段階とを有する。

第１の実施形態又は第２の実施形態に加えて、１つ又は複数の第３の実施形態において、第１の画像が第１の解像度であることに応答して第１の正規化及び追加の第１の正規化が選択され、第２の画像が第２の解像度であることに応答して第２の正規化及び追加の第２の正規化が選択される。

第１の実施形態～第３の実施形態のいずれかに加えて、１つ又は複数の第４の実施形態において、畳み込み層パラメータ、第１の正規化パラメータ、及び第２の正規化パラメータは、それぞれ第１の解像度及び第２の解像度における第１のトレーニング画像及び第２のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、第１のトレーニング画像及び第２のトレーニング画像は、同じ画像インスタンスに対応する、生成と、トレーニング反復における、第１のトレーニング画像及び第２のトレーニング画像への事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を含む損失項を使用した並列での事前トレーニングされた畳み込みニューラルネットワークパラメータのパラメータ調整とに基づいてトレーニングされる事前トレーニングされた畳み込みニューラルネットワークパラメータを含む。

第１の実施形態～第４の実施形態のいずれかに加えて、１つ又は複数の第５の実施形態において、パラメータ調整は、事前トレーニングされた畳み込みニューラルネットワークパラメータの全結合層パラメータに対する調整を更に含み、畳み込み層パラメータ及び全結合層パラメータは、入力画像サイズにわたって共有されることになり、第１の正規化パラメータ及び第２の正規化パラメータは、入力画像サイズにわたって非共有となる。

第１の実施形態～第５の実施形態のいずれかに加えて、１つ又は複数の第６の実施形態において、畳み込み層パラメータ、第１の正規化パラメータ、及び第２の正規化パラメータは、第１の解像度、第２の解像度、及び第２の解像度未満の第３の解像度における第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像は、同じ画像インスタンスに対応する、生成と、トレーニング反復における、それぞれ第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像を使用して作成される第１の予測、第２の予測、及び第３の予測に基づくアンサンブル予測の生成と、アンサンブル予測の、グラウンドトゥルースラベルとの比較とに基づいてトレーニングされる事前トレーニングされた畳み込みニューラルネットワークパラメータを含む。

第１の実施形態～第６の実施形態のいずれかに加えて、１つ又は複数の第７の実施形態において、アンサンブル予測は、第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像の各々に適用されるような事前トレーニングされた畳み込みニューラルネットワークパラメータに対応するロジットの加重平均を含み、ロジットの加重平均は、ロジット重要度スコアを使用して重み付けされる。

第１の実施形態～第７の実施形態のいずれかに加えて、１つ又は複数の第８の実施形態において、トレーニング反復において、パラメータ更新は、アンサンブル予測を使用した分類確率に基づくアンサンブル損失項と、アンサンブル予測からの各第１の予測、第２の予測、及び第３の予測の発散に基づく蒸留損失項との総和を含む損失関数の最小化に基づく。

第１の実施形態～第８の実施形態のいずれかに加えて、１つ又は複数の第９の実施形態において、蒸留損失項は、第１の予測からの第２の予測の第１の発散、第３の予測からの第２の予測の第２の発散、及び第１の予測からの第３の予測の第３の発散を更に含む。

第１の実施形態～第９の実施形態のいずれかに加えて、１つ又は複数の第１０の実施形態において、損失関数は、第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像への事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を更に含む。

第１の実施形態～第１０の実施形態のいずれかに加えて、１つ又は複数の第１１の実施形態において、畳み込みニューラルネットワーク層は、剪定された畳み込みニューラルネットワーク層又は量子化された畳み込みニューラルネットワーク層のうちの１つを含む。

１つ又は複数の第１２の実施形態において、デバイス又はシステムは、上記の実施形態のいずれか１つに記載の方法を実行するためのメモリ及びプロセッサを備える。

１つ又は複数の第１３の実施形態において、少なくとも１つの機械可読媒体は、コンピューティングデバイス上で実行されることに応答して、コンピューティングデバイスに、上記の実施形態のうちのいずれか１つに記載の方法を実行させる複数の命令を含む。

１つ又は複数の第１４の実施形態において、装置は、上記の実施形態のいずれか１つに記載の方法を実行する手段を含む。

実施形態は、このように説明されている実施形態に限定されず、添付の特許請求の範囲の範囲から逸脱することなく、修正及び変更を伴って実施することができることが認識されよう。例えば、上記の実施形態は、特徴の特定の組み合わせを含み得る。しかしながら、上記の実施形態は、これに関して限定されず、様々な実装において、上記の実施形態は、そのような特徴のサブセットのみの実行、そのような特徴の異なる順序の実行、そのような特徴の異なる組み合わせの実行、及び／又は明示的に列挙されたそれらの特徴に対する追加の特徴の実行を含んでよい。したがって、これらの実施形態の範囲は、添付の特許請求の範囲が権利を与えられる均等物の範囲全体とともに、そのような特許請求の範囲を参照して決定されるべきである。
［他の可能な項目］
［項目１］
画像分類のためのシステムであって、
第１の解像度における第１の画像、及び前記第１の解像度未満の第２の解像度における第２の画像を記憶するメモリと、
前記メモリに結合された１つ又は複数のプロセッサであって、前記１つ又は複数のプロセッサは、
複数の畳み込み層パラメータを使用して前記第１の画像、又は前記第１の画像に対応する第１の特徴マップに畳み込みニューラルネットワーク層を適用して、前記第１の画像に対応する１つ又は複数の第２の特徴マップを生成することと、
複数の第１の正規化パラメータを使用して前記１つ又は複数の第２の特徴マップに対して第１の正規化を実行して、１つ又は複数の第３の特徴マップを生成することと、
前記１つ又は複数の第３の特徴マップを使用して前記第１の画像のための第１のラベルを生成することと、
前記複数の畳み込み層パラメータを使用して前記第２の画像、又は前記第２の画像に対応する第４の特徴マップに前記畳み込みニューラルネットワーク層を適用して、前記第２の画像に対応する１つ又は複数の第５の特徴マップを生成することと、
前記第１の正規化パラメータに排他的な複数の第２の正規化パラメータを使用して前記１つ又は複数の第５の特徴マップに対して第２の正規化を実行して、１つ又は複数の第６の特徴マップを生成することと、
前記１つ又は複数の第６の特徴マップを使用して前記第２の画像のための第２のラベルを生成することと
を行う、１つ又は複数のプロセッサと
を備える、システム。
［項目２］
前記第１のラベルを生成する前記１つ又は複数のプロセッサは、各々に追加の第１の正規化が後続する１つ又は複数の追加の畳み込みニューラルネットワーク層を適用することと、全結合層を適用することとを行う前記１つ又は複数のプロセッサを含み、前記第２のラベルを生成する前記１つ又は複数のプロセッサは、前記追加の第１の正規化において使用されるものに排他的なパラメータを使用して、各々に追加の第２の正規化が後続する前記１つ又は複数の追加の畳み込みニューラルネットワーク層を適用することと、前記全結合層を適用することとを行う前記１つ又は複数のプロセッサを含む、項目１に記載のシステム。
［項目３］
前記第１の画像が前記第１の解像度であることに応答して前記第１の正規化及び追加の第１の正規化が選択され、前記第２の画像が前記第２の解像度であることに応答して前記第２の正規化及び追加の第２の正規化が選択される、項目２に記載のシステム。
［項目４］
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
それぞれ前記第１の解像度及び前記第２の解像度における第１のトレーニング画像及び第２のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像及び前記第２のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、前記第１のトレーニング画像及び前記第２のトレーニング画像への事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を含む損失項を使用した並列での前記事前トレーニングされた畳み込みニューラルネットワークパラメータのパラメータ調整と
に基づいてトレーニングされる前記事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、項目１～３のいずれか１項に記載のシステム。
［項目５］
前記パラメータ調整は、前記事前トレーニングされた畳み込みニューラルネットワークパラメータの全結合層パラメータに対する調整を更に含み、前記畳み込み層パラメータ及び全結合層パラメータは、入力画像サイズにわたって共有されることになり、前記第１の正規化パラメータ及び前記第２の正規化パラメータは、前記入力画像サイズにわたって非共有となる、項目４に記載のシステム。
［項目６］
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
前記第１の解像度、前記第２の解像度、及び前記第２の解像度未満の第３の解像度における第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、それぞれ前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像を使用して作成される第１の予測、第２の予測、及び第３の予測に基づくアンサンブル予測の生成と、
前記アンサンブル予測の、前記グラウンドトゥルースラベルとの比較と
に基づいてトレーニングされる事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、項目１～３のいずれか１項に記載のシステム。
［項目７］
前記アンサンブル予測は、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像の各々に適用されるような前記事前トレーニングされた畳み込みニューラルネットワークパラメータに対応するロジットの加重平均を含み、前記ロジットの前記加重平均は、ロジット重要度スコアを使用して重み付けされる、項目６に記載のシステム。
［項目８］
前記トレーニング反復において、パラメータ更新は、前記アンサンブル予測を使用した分類確率に基づくアンサンブル損失項と、前記アンサンブル予測からの各前記第１の予測、前記第２の予測、及び前記第３の予測の発散に基づく蒸留損失項との総和を含む損失関数の最小化に基づく、項目６に記載のシステム。
［項目９］
前記蒸留損失項は、前記第１の予測からの前記第２の予測の第１の発散、前記第３の予測からの前記第２の予測の第２の発散、及び前記第１の予測からの前記第３の予測の第３の発散を更に含む、項目８に記載のシステム。
［項目１０］
前記損失関数は、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像への前記事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を更に含む、項目８に記載のシステム。
［項目１１］
前記畳み込みニューラルネットワーク層は、剪定された畳み込みニューラルネットワーク層又は量子化された畳み込みニューラルネットワーク層のうちの１つを含む、項目１～３のいずれか１項に記載のシステム。
［項目１２］
画像分類のための方法であって、
第１の解像度における第１の画像、及び前記第１の解像度未満の第２の解像度における第２の画像を受信する段階と、
複数の畳み込み層パラメータを使用して前記第１の画像、又は前記第１の画像に対応する第１の特徴マップに畳み込みニューラルネットワーク層を適用して、前記第１の画像に対応する１つ又は複数の第２の特徴マップを生成する段階と、
複数の第１の正規化パラメータを使用して前記１つ又は複数の第２の特徴マップに対して第１の正規化を実行して、１つ又は複数の第３の特徴マップを生成する段階と、
前記１つ又は複数の第３の特徴マップを使用して前記第１の画像のための第１のラベルを生成する段階と、
前記複数の畳み込み層パラメータを使用して前記第２の画像、又は前記第２の画像に対応する第４の特徴マップに前記畳み込みニューラルネットワーク層を適用して、前記第２の画像に対応する１つ又は複数の第５の特徴マップを生成する段階と、
前記第１の正規化パラメータに排他的な複数の第２の正規化パラメータを使用して前記１つ又は複数の第５の特徴マップに対して第２の正規化を実行して、１つ又は複数の第６の特徴マップを生成する段階と、
前記１つ又は複数の第６の特徴マップを使用して前記第２の画像のための第２のラベルを生成する段階と
を備える、方法。
［項目１３］
前記第１のラベルを生成する段階は、各々に追加の第１の正規化が後続する１つ又は複数の追加の畳み込みニューラルネットワーク層を適用する段階と、全結合層を適用する段階とを有し、前記第２のラベルを生成する段階は、前記追加の第１の正規化において使用されるものに排他的なパラメータを使用して、各々に追加の第２の正規化が後続する１つ又は複数の追加の畳み込みニューラルネットワーク層を適用する段階と、前記全結合層を適用する段階とを有する、項目１２に記載の方法。
［項目１４］
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
それぞれ前記第１の解像度及び前記第２の解像度における第１のトレーニング画像及び第２のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像及び前記第２のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、前記第１のトレーニング画像及び前記第２のトレーニング画像への事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を含む損失項を使用した並列での前記事前トレーニングされた畳み込みニューラルネットワークパラメータのパラメータ調整と
に基づいてトレーニングされる前記事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、項目１２又は１３に記載の方法。
［項目１５］
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
前記第１の解像度、前記第２の解像度、及び前記第２の解像度未満の第３の解像度における第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、それぞれ前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像を使用して作成される第１の予測、第２の予測、及び第３の予測に基づくアンサンブル予測の生成と、
前記アンサンブル予測の、前記グラウンドトゥルースラベルとの比較と
に基づいてトレーニングされる事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、項目１２又は１３に記載の方法。
［項目１６］
前記トレーニング反復において、パラメータ更新は、前記アンサンブル予測を使用した分類確率に基づくアンサンブル損失項と、前記アンサンブル予測からの各前記第１の予測、前記第２の予測、及び前記第３の予測の発散に基づく蒸留損失項との総和を含む損失関数の最小化に基づく、項目１５に記載の方法。
［項目１７］
複数の命令を含む少なくとも１つの機械可読媒体であって、前記複数の命令は、デバイス上で実行されることに応答して、前記デバイスに、
人間の顔の表現を含む複数の連続的なビデオ画像を受信する手順と、
第１の解像度における第１の画像、及び前記第１の解像度未満の第２の解像度における第２の画像を受信する手順と、
複数の畳み込み層パラメータを使用して前記第１の画像、又は前記第１の画像に対応する第１の特徴マップに畳み込みニューラルネットワーク層を適用して、前記第１の画像に対応する１つ又は複数の第２の特徴マップを生成する手順と、
複数の第１の正規化パラメータを使用して前記１つ又は複数の第２の特徴マップに対して第１の正規化を実行して、１つ又は複数の第３の特徴マップを生成する手順と、
前記１つ又は複数の第３の特徴マップを使用して前記第１の画像のための第１のラベルを生成する手順と、
前記複数の畳み込み層パラメータを使用して前記第２の画像、又は前記第２の画像に対応する第４の特徴マップに前記畳み込みニューラルネットワーク層を適用して、前記第２の画像に対応する１つ又は複数の第５の特徴マップを生成する手順と、
前記第１の正規化パラメータに排他的な複数の第２の正規化パラメータを使用して前記１つ又は複数の第５の特徴マップに対して第２の正規化を実行して、１つ又は複数の第６の特徴マップを生成する手順と、
前記１つ又は複数の第６の特徴マップを使用して前記第２の画像のための第２のラベルを生成する手順と
を行うことによって画像分類を実行させる、機械可読媒体。
［項目１８］
前記第１のラベルを生成する手順は、各々に追加の第１の正規化が後続する１つ又は複数の追加の畳み込みニューラルネットワーク層を適用する手順と、全結合層を適用する手順とを有し、前記第２のラベルを生成する手順は、前記追加の第１の正規化において使用されるものに排他的なパラメータを使用して、各々に追加の第２の正規化が後続する前記１つ又は複数の追加の畳み込みニューラルネットワーク層を適用する手順と、前記全結合層を適用する手順とを有する、項目１７に記載の機械可読媒体。
［項目１９］
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
それぞれ前記第１の解像度及び前記第２の解像度における第１のトレーニング画像及び第２のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像及び前記第２のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、前記第１のトレーニング画像及び前記第２のトレーニング画像への事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を含む損失項を使用した並列での前記事前トレーニングされた畳み込みニューラルネットワークパラメータのパラメータ調整と
に基づいてトレーニングされる前記事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、項目１７又は１８に記載の機械可読媒体。
［項目２０］
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
前記第１の解像度、前記第２の解像度、及び前記第２の解像度未満の第３の解像度における第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、それぞれ前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像を使用して作成される第１の予測、第２の予測、及び第３の予測に基づくアンサンブル予測の生成と、
前記アンサンブル予測の、前記グラウンドトゥルースラベルとの比較と
に基づいてトレーニングされる事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、項目１７又は１８に記載の機械可読媒体。
［項目２１］
前記トレーニング反復において、パラメータ更新は、前記アンサンブル予測を使用した分類確率に基づくアンサンブル損失項と、前記アンサンブル予測からの各前記第１の予測、前記第２の予測、及び前記第３の予測の発散に基づく蒸留損失項との総和を含む損失関数の最小化に基づく、項目２０に記載の機械可読媒体。
［項目２２］
システムであって、
第１の解像度における第１の画像、及び前記第１の解像度未満の第２の解像度における第２の画像を受信する手段と、
複数の畳み込み層パラメータを使用して前記第１の画像、又は前記第１の画像に対応する第１の特徴マップに畳み込みニューラルネットワーク層を適用して、前記第１の画像に対応する１つ又は複数の第２の特徴マップを生成する手段と、
複数の第１の正規化パラメータを使用して前記１つ又は複数の第２の特徴マップに対して第１の正規化を実行して、１つ又は複数の第３の特徴マップを生成する手段と、
前記１つ又は複数の第３の特徴マップを使用して前記第１の画像のための第１のラベルを生成する手段と、
前記複数の畳み込み層パラメータを使用して前記第２の画像、又は前記第２の画像に対応する第４の特徴マップに前記畳み込みニューラルネットワーク層を適用して、前記第２の画像に対応する１つ又は複数の第５の特徴マップを生成する手段と、
前記第１の正規化パラメータに排他的な複数の第２の正規化パラメータを使用して前記１つ又は複数の第５の特徴マップに対して第２の正規化を実行して、１つ又は複数の第６の特徴マップを生成する手段と、
前記１つ又は複数の第６の特徴マップを使用して前記第２の画像のための第２のラベルを生成する手段と
を備える、システム。
［項目２３］
前記第１のラベルを生成する手段は、各々に追加の第１の正規化が後続する１つ又は複数の追加の畳み込みニューラルネットワーク層を適用する手段と、全結合層を適用する手段とを有し、前記第２のラベルを生成する手段は、前記追加の第１の正規化において使用されるものに排他的なパラメータを使用して、各々に追加の第２の正規化が後続する前記１つ又は複数の追加の畳み込みニューラルネットワーク層を適用する手段と、前記全結合層を適用する手段とを有する、項目２２に記載のシステム。
［項目２４］
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
それぞれ前記第１の解像度及び前記第２の解像度における第１のトレーニング画像及び第２のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像及び前記第２のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、前記第１のトレーニング画像及び前記第２のトレーニング画像への事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を含む損失項を使用した並列での前記事前トレーニングされた畳み込みニューラルネットワークパラメータのパラメータ調整と
に基づいてトレーニングされる前記トレーニングされる事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、項目２２又は２３に記載のシステム。
［項目２５］
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
前記第１の解像度、前記第２の解像度、及び前記第２の解像度未満の第３の解像度における第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、それぞれ前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像を使用して作成される第１の予測、第２の予測、及び第３の予測に基づくアンサンブル予測の生成と、
前記アンサンブル予測の、前記グラウンドトゥルースラベルとの比較と
に基づいてトレーニングされる事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、項目２２又は２３に記載のシステム。

Claims

画像分類のためのシステムであって、
第１の解像度における第１の画像、及び前記第１の解像度未満の第２の解像度における第２の画像を記憶するメモリと、
前記メモリに結合された１つ又は複数のプロセッサであって、前記１つ又は複数のプロセッサは、
複数の畳み込み層パラメータを使用して前記第１の画像、又は前記第１の画像に対応する第１の特徴マップに畳み込みニューラルネットワーク層を適用して、前記第１の画像に対応する１つ又は複数の第２の特徴マップを生成することと、
複数の第１の正規化パラメータを使用して前記１つ又は複数の第２の特徴マップに対して第１の正規化を実行して、１つ又は複数の第３の特徴マップを生成することと、
前記１つ又は複数の第３の特徴マップを使用して前記第１の画像のための第１のラベルを生成することと、
前記複数の畳み込み層パラメータを使用して前記第２の画像、又は前記第２の画像に対応する第４の特徴マップに前記畳み込みニューラルネットワーク層を適用して、前記第２の画像に対応する１つ又は複数の第５の特徴マップを生成することと、
前記第１の正規化パラメータに排他的な複数の第２の正規化パラメータを使用して前記１つ又は複数の第５の特徴マップに対して第２の正規化を実行して、１つ又は複数の第６の特徴マップを生成することと、
前記１つ又は複数の第６の特徴マップを使用して前記第２の画像のための第２のラベルを生成することと
を行う、１つ又は複数のプロセッサと
を備える、システム。
前記第１のラベルを生成する前記１つ又は複数のプロセッサは、各々に追加の第１の正規化が後続する１つ又は複数の追加の畳み込みニューラルネットワーク層を適用することと、全結合層を適用することとを行う前記１つ又は複数のプロセッサを含み、前記第２のラベルを生成する前記１つ又は複数のプロセッサは、前記追加の第１の正規化において使用されるものに排他的なパラメータを使用して、各々に追加の第２の正規化が後続する前記１つ又は複数の追加の畳み込みニューラルネットワーク層を適用することと、前記全結合層を適用することとを行う前記１つ又は複数のプロセッサを含む、請求項１に記載のシステム。
前記第１の画像が前記第１の解像度であることに応答して前記第１の正規化及び追加の第１の正規化が選択され、前記第２の画像が前記第２の解像度であることに応答して前記第２の正規化及び追加の第２の正規化が選択される、請求項２に記載のシステム。
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
それぞれ前記第１の解像度及び前記第２の解像度における第１のトレーニング画像及び第２のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像及び前記第２のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、前記第１のトレーニング画像及び前記第２のトレーニング画像への事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を含む損失項を使用した並列での前記事前トレーニングされた畳み込みニューラルネットワークパラメータのパラメータ調整と
に基づいてトレーニングされる前記事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、請求項１～３のいずれか１項に記載のシステム。
前記パラメータ調整は、前記事前トレーニングされた畳み込みニューラルネットワークパラメータの全結合層パラメータに対する調整を更に含み、前記畳み込み層パラメータ及び全結合層パラメータは、入力画像サイズにわたって共有されることになり、前記第１の正規化パラメータ及び前記第２の正規化パラメータは、前記入力画像サイズにわたって非共有となる、請求項４に記載のシステム。
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
前記第１の解像度、前記第２の解像度、及び前記第２の解像度未満の第３の解像度における第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、それぞれ前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像を使用して作成される第１の予測、第２の予測、及び第３の予測に基づくアンサンブル予測の生成と、
前記アンサンブル予測の、前記グラウンドトゥルースラベルとの比較と
に基づいてトレーニングされる事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、請求項１～５のいずれか１項に記載のシステム。
前記アンサンブル予測は、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像の各々に適用されるような前記事前トレーニングされた畳み込みニューラルネットワークパラメータに対応するロジットの加重平均を含み、前記ロジットの前記加重平均は、ロジット重要度スコアを使用して重み付けされる、請求項６に記載のシステム。
前記トレーニング反復において、パラメータ更新は、前記アンサンブル予測を使用した分類確率に基づくアンサンブル損失項と、前記アンサンブル予測からの各前記第１の予測、前記第２の予測、及び前記第３の予測の発散に基づく蒸留損失項との総和を含む損失関数の最小化に基づく、請求項６に記載のシステム。
前記蒸留損失項は、前記第１の予測からの前記第２の予測の第１の発散、前記第３の予測からの前記第２の予測の第２の発散、及び前記第１の予測からの前記第３の予測の第３の発散を更に含む、請求項８に記載のシステム。
前記損失関数は、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像への前記事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を更に含む、請求項８に記載のシステム。
前記畳み込みニューラルネットワーク層は、剪定された畳み込みニューラルネットワーク層又は量子化された畳み込みニューラルネットワーク層のうちの１つを含む、請求項１～１０のいずれか１項に記載のシステム。
画像分類のための方法であって、
第１の解像度における第１の画像、及び前記第１の解像度未満の第２の解像度における第２の画像を受信する段階と、
複数の畳み込み層パラメータを使用して前記第１の画像、又は前記第１の画像に対応する第１の特徴マップに畳み込みニューラルネットワーク層を適用して、前記第１の画像に対応する１つ又は複数の第２の特徴マップを生成する段階と、
複数の第１の正規化パラメータを使用して前記１つ又は複数の第２の特徴マップに対して第１の正規化を実行して、１つ又は複数の第３の特徴マップを生成する段階と、
前記１つ又は複数の第３の特徴マップを使用して前記第１の画像のための第１のラベルを生成する段階と、
前記複数の畳み込み層パラメータを使用して前記第２の画像、又は前記第２の画像に対応する第４の特徴マップに前記畳み込みニューラルネットワーク層を適用して、前記第２の画像に対応する１つ又は複数の第５の特徴マップを生成する段階と、
前記第１の正規化パラメータに排他的な複数の第２の正規化パラメータを使用して前記１つ又は複数の第５の特徴マップに対して第２の正規化を実行して、１つ又は複数の第６の特徴マップを生成する段階と、
前記１つ又は複数の第６の特徴マップを使用して前記第２の画像のための第２のラベルを生成する段階と
を備える、方法。
前記第１のラベルを生成する段階は、各々に追加の第１の正規化が後続する１つ又は複数の追加の畳み込みニューラルネットワーク層を適用する段階と、全結合層を適用する段階とを有し、前記第２のラベルを生成する段階は、前記追加の第１の正規化において使用されるものに排他的なパラメータを使用して、各々に追加の第２の正規化が後続する１つ又は複数の追加の畳み込みニューラルネットワーク層を適用する段階と、前記全結合層を適用する段階とを有する、請求項１２に記載の方法。
前記第１の画像が前記第１の解像度であることに応答して前記第１の正規化及び追加の第１の正規化が選択され、前記第２の画像が前記第２の解像度であることに応答して前記第２の正規化及び追加の第２の正規化が選択される、請求項１３に記載の方法。
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
それぞれ前記第１の解像度及び前記第２の解像度における第１のトレーニング画像及び第２のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像及び前記第２のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、前記第１のトレーニング画像及び前記第２のトレーニング画像への事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を含む損失項を使用した並列での前記事前トレーニングされた畳み込みニューラルネットワークパラメータのパラメータ調整と
に基づいてトレーニングされる前記事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、請求項１２～１４のいずれか１項に記載の方法。
前記パラメータ調整は、前記事前トレーニングされた畳み込みニューラルネットワークパラメータの全結合層パラメータに対する調整を更に含み、前記畳み込み層パラメータ及び全結合層パラメータは、入力画像サイズにわたって共有されることになり、前記第１の正規化パラメータ及び前記第２の正規化パラメータは、前記入力画像サイズにわたって非共有となる、請求項１５に記載の方法。
前記畳み込み層パラメータ、前記第１の正規化パラメータ、及び前記第２の正規化パラメータは、
前記第１の解像度、前記第２の解像度、及び前記第２の解像度未満の第３の解像度における第１のトレーニング画像、第２のトレーニング画像、及び第３のトレーニング画像、並びに対応するグラウンドトゥルースラベルを含むトレーニングセットの生成であって、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像は、同じ画像インスタンスに対応する、生成と、
トレーニング反復における、それぞれ前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像を使用して作成される第１の予測、第２の予測、及び第３の予測に基づくアンサンブル予測の生成と、
前記アンサンブル予測の、前記グラウンドトゥルースラベルとの比較と
に基づいてトレーニングされる事前トレーニングされた畳み込みニューラルネットワークパラメータを含む、請求項１２～１６のいずれか１項に記載の方法。
前記アンサンブル予測は、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像の各々に適用されるような前記事前トレーニングされた畳み込みニューラルネットワークパラメータに対応するロジットの加重平均を含み、前記ロジットの前記加重平均は、ロジット重要度スコアを使用して重み付けされる、請求項１７に記載の方法。
前記トレーニング反復において、パラメータ更新は、前記アンサンブル予測を使用した分類確率に基づくアンサンブル損失項と、前記アンサンブル予測からの各前記第１の予測、前記第２の予測、及び前記第３の予測の発散に基づく蒸留損失項との総和を含む損失関数の最小化に基づく、請求項１７に記載の方法。
前記蒸留損失項は、前記第１の予測からの前記第２の予測の第１の発散、前記第３の予測からの前記第２の予測の第２の発散、及び前記第１の予測からの前記第３の予測の第３の発散を更に含む、請求項１９に記載の方法。
前記損失関数は、前記第１のトレーニング画像、前記第２のトレーニング画像、及び前記第３のトレーニング画像への前記事前トレーニングされた畳み込みニューラルネットワークパラメータの適用に基づく交差エントロピー損失の総和を更に含む、請求項１９に記載の方法。
前記畳み込みニューラルネットワーク層は、剪定された畳み込みニューラルネットワーク層又は量子化された畳み込みニューラルネットワーク層のうちの１つを含む、請求項１２～２１のいずれか１項に記載の方法。
プロセッサに、請求項１２～２２のいずれか１項に記載の方法を実行させるコンピュータプログラム。
請求項１２～２２のいずれか１項に記載の方法を実行する手段を備える、装置。