JP2022523207A

JP2022523207A - ピラミッドレイヤのアーキテクチャを生成するためのシステムおよび方法

Info

Publication number: JP2022523207A
Application number: JP2021549673A
Authority: JP
Inventors: クォク・ヴィー・レ; ゴルナズ・ギアシ; ツン－イ・リン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-02-25
Filing date: 2020-02-25
Publication date: 2022-04-21
Anticipated expiration: 2040-02-25
Also published as: WO2020176435A1; US20220092387A1; KR20210116640A; EP3931762A1; CN113490955A; JP7317979B2

Abstract

ピラミッドレイヤのアーキテクチャを生成するためのコンピューティングシステムについて開示する。コンピューティングシステムは、バックボーンモデルによって出力された複数の入力特徴表現を受信し、それに応答して、複数の出力特徴表現を出力するピラミッドレイヤのための新規アーキテクチャを生成するように構成されたコントローラモデルを含み得る。複数の入力特徴表現は、複数の異なる入力解像度を有してよく、複数の出力特徴表現は、複数の異なる出力解像度を有し得る。コンピューティングシステムは、複数の反復を実施するように構成され得る。各反復について、コンピューティングシステムは、コントローラモデルの出力として、新規ピラミッドレイヤアーキテクチャを受信し、バックボーンモデルと、新規ピラミッドレイヤアーキテクチャを有する1つまたは複数のピラミッドレイヤとを含む機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価してよい。

Description

関連出願の相互参照
本出願は、参照によって全体が本明細書に組み込まれている、2019年2月25日の出願日を有する米国仮特許出願第62/810,143号の出願利益を主張する。

本開示は概して、ニューラルネットワークアーキテクチャに関する。より詳細には、本開示は、ピラミッドレイヤのアーキテクチャを生成するためのシステムおよび方法に関する。

現在の最新の畳み込みニューラルネットワークアーキテクチャ(たとえば、オブジェクト検出を実施するのに使われるアーキテクチャ)は、手作業で設計される。この手法は成功しており、多くのベンチマークにおいて優れた性能をもたらしたが、これらのアーキテクチャは概して、最適化されていない。たとえば、RetinaNet、Mask RCNN、Fast RCNN、およびFaster RCNNのバックボーンモデルは、最新分類ネットワークにおける何年もの研究から、高度に最適化されたアーキテクチャを継承するが、それらの特徴ピラミッドネットワークは、複数のスケールにおける特徴を組み合わせ、概して見落とされ、したがって、最適化不足である。ただし、特徴ピラミッドネットワークのアーキテクチャは、大規模な、関連付けられた探索空間を表す。異なるスケールからの特徴表現を組み合わせるための可能な接続および動作は、アーキテクチャ中のレイヤの数とともに、指数関数的に大きくなる。

本開示の実施形態の態様および利点が、以下の記述において部分的に説明され、または記述から学ぶことができ、または実施形態の実践を通して学ぶことができる。

本開示の1つの例示的態様は、1つまたは複数のプロセッサと、バックボーンモデルによって出力された複数の入力特徴表現を受信し、それに応答して、複数の出力特徴表現を出力するピラミッドレイヤのための新規アーキテクチャを生成するように構成されたコントローラモデルとを含み得るコンピューティングシステムを対象とする。入力特徴表現の大多数は、複数の異なる入力解像度を有し得る。複数の出力特徴表現は、複数の異なる出力解像度を有し得る。コンピューティングシステムは、1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実施させる命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体を含み得る。動作は、複数の反復の各々について、コントローラモデルの出力として、新規ピラミッドレイヤアーキテクチャを受信し、バックボーンモデルと、新規ピラミッドレイヤアーキテクチャを有する1つまたは複数のピラミッドレイヤとを含む機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価することを含み得る。

本開示の別の例示的態様は、1つまたは複数のプロセッサと、入力を受信し、入力を受信したことに応答して、出力を出力するように構成された機械学習済みモデルとを含み得るコンピューティングシステムを対象とし、機械学習済みモデルは、バックボーンモデルと、次々に順に積み重ねられた複数のピラミッドレイヤとを含む。バックボーンモデルは、入力を受信し、初期の複数の出力特徴表現を生成するように構成され得る。複数のピラミッドレイヤの各ピラミッドレイヤは、バックボーンモデルまたは以前の順次ピラミッドレイヤから、複数の異なる解像度を有するそれぞれの複数の入力特徴表現を受信し、同じ複数の異なる解像度を有するそれぞれの複数の出力特徴表現を生成するように構成され得る。コンピューティングシステムは、1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実施させる命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体を含み得る。動作は、機械学習済みモデルに入力を入力し、機械学習済みモデルの出力として、出力を受信することを含み得る。

本開示の別の例示的態様は、バックボーンモデルによって出力されたピラミッド状特徴表現のセットを処理するピラミッドレイヤのアーキテクチャを生成するためのコンピュータ実装方法を対象とする。この方法は、複数の反復の各々について、1つまたは複数のコンピューティングデバイスによって、新規ピラミッドレイヤアーキテクチャをコントローラモデルの出力として受信するステップを含み得る。コントローラモデルは、バックボーンモデルによって出力された複数の入力特徴表現を受信し、それに応答して、複数の出力特徴表現を出力するように構成されるピラミッドレイヤのための新規アーキテクチャを生成するように構成され得る。複数の入力特徴表現は、複数の異なる入力解像度を有してよく、複数の出力特徴表現が複数の異なる出力解像度を有する。方法は、1つまたは複数のコンピューティングデバイスによって、バックボーンモデルと、新規ピラミッドレイヤアーキテクチャを有する1つまたは複数のピラミッドレイヤとを含む機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価するステップを含み得る。

本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。

本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照してより良く理解されよう。添付の図面は、本明細書に組み込まれるとともにその一部をなし、本開示の例示的実施形態を示し、記述と一緒に、関連原理を説明するのに役立つ。

当業者を対象とする、実施形態の詳細な考察が本明細書において説明され、本明細書は、添付の図面を参照する。

本開示の例示的実施形態による、ピラミッドレイヤのアーキテクチャを生成するための例示的コンピューティングシステムのブロック図である。本開示の例示的実施形態による、ピラミッドレイヤのアーキテクチャを生成するためのブロック図、例示的コンピューティングシステムを示す図である。本開示の例示的実施形態による、ピラミッドレイヤのアーキテクチャを生成するための例示的コンピューティングシステムのブロック図である。本開示の例示的実施形態による、報酬に基づいて新規ピラミッドアーキテクチャを生成するように構成されたコントローラモデルを示す図である。本開示の例示的実施形態による、報酬に基づいて新規ピラミッドアーキテクチャを生成するように構成される強化学習アージェントを含むコントローラモデルを示す図である。本開示の例示的実施形態によるバックボーンモデルおよびピラミッドレイヤを示す図である。本開示の例示的実施形態による複数の特徴表現およびマージセル(merging cell)を示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤのアーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤのアーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤのアーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤのアーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤのアーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤのアーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成されるピラミッドレイヤのアーキテクチャの一例を示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤの追加アーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤの追加アーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤの追加アーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤの追加アーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤの追加アーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤの追加アーキテクチャグラフを示す図である。本開示の例示的実施形態による、コントローラモデルによって生成されるピラミッドレイヤのアーキテクチャの別の例を示す図である。本開示の例示的実施形態による、複数のスケールにおける特徴表現を組み合わせるピラミッドレイヤのためのアーキテクチャを生成するための例示的方法のフローチャート図である。

複数の図面にわたって繰り返される参照番号は、様々な実装形態において同じ特徴を識別することを意図している。

概して、本開示は、複数のスケールにおける特徴表現を組み合わせる特徴ピラミッドネットワークのピラミッドレイヤのためのアーキテクチャを最適化するために反復探索を実施するシステムおよび方法を対象とする。たとえば、強化学習および/または進化論的技法が、反復探索を実施するのに使われてよい。本開示によって提案される探索空間は、異なるスケールにおける特徴表現を組み合わせるための可能なクロススケール接続をカバーするように設計される。探索は、繰り返し適用され得るアーキテクチャを見つけるように制約されてもよい。その結果、得られたアーキテクチャは、積重ね可能であってよく、かつ/または常時オブジェクト検出(「早期終了」)に使うことができる。

より具体的には、いくつかの実装形態では、ピラミッドレイヤの異なるアーキテクチャが、進化論的方法を通して反復して生成され、または、たとえば、強化学習コンテキストにおいて学習され得る。たとえば、コントローラモデルが、強化学習を使って、所与の探索空間中で新規モデルアーキテクチャを選択またはそうでなければ生成するようにトレーニングされ得る。コントローラモデルは、直近に提案されたアーキテクチャを有する1つまたは複数のピラミッドレイヤを含む機械学習済みモデルの1つまたは複数の性能特性に基づく報酬に基づいてトレーニングされ得る。したがって、試行錯誤を通して、特定の性能特性向けにピラミッドレイヤアーキテクチャが設計または最適化され得る。

得られたアーキテクチャは、軽量であり柔軟であり得る。第1に、得られたアーキテクチャは、性能を向上するために繰り返し適用され得るという点で、スケーラブルであり得る。第2に、得られたアーキテクチャは、ResNet-10、ResNet-50、ResNet-101、およびAmoebaNetなど、様々なバックボーンモデルとうまくいくことができる。第3に、得られたアーキテクチャは、様々なバックボーンモデルと組み合わされると、速さ、正確さ、または他の特性に関連した、優れた性能特性を達成することができる。さらに、学習されたアーキテクチャは、オブジェクト検出、オブジェクト認識、画像分類、他の視覚処理タスク、または他の非視覚機械学習タスクを含む、様々なタスク用に構成されてよい。

したがって、本開示の一態様によると、コンピューティングシステムは、ピラミッドレイヤ用の新規アーキテクチャを反復して生成するように構成されたコントローラモデルを含み得る。ピラミッドレイヤは、バックボーンモデル(または、複数の積重ねピラミッドレイヤがある場合は以前の順次ピラミッドレイヤ)によって出力された複数の入力特徴表現(たとえば、特徴マップ)を受信するように構成されてよい。複数の入力特徴表現は、複数の異なる入力解像度を有し得る。ピラミッドレイヤは、入力特徴表現に関して、畳み込みおよび/または他の動作を実施するように構成され得る。具体的には、入力特徴表現は、同じまたは異なる解像度を有する2つの特徴表現の組合せを含む、他の特徴表現(たとえば、入力特徴表現、内部特徴表現、および/または出力特徴表現)との組合せを行うこと(たとえば、それらと合計し、大域プールすることなど)ができる。特徴表現に対してピラミッドレイヤによって実施される動作の結果、ピラミッドレイヤは、複数の出力特徴表現を生成し、出力し得る。複数の出力特徴表現は、複数の異なる出力解像度を有し得る。

いくつかの実装形態では、ピラミッドレイヤによって生成される新規特徴表現は、ピラミッドレイヤアーキテクチャに対して内部である1つまたは複数の内部特徴表現を含み得る。内部特徴表現は、入力特徴表現および出力特徴表現とは別個であってよい。内部特徴表現は、他の内部特徴表現、入力特徴表現、および/または出力特徴表現と接続されてよい。複数の出力特徴表現のうちの少なくとも1つは、内部特徴表現のうちの1つまたは複数に基づいて生成され得る。

いくつかの実装形態では、複数の探索反復の各々について、コントローラモデルは、新規ピラミッドアーキテクチャを生成するために複数のマージセルを構築し、付加することによって、新規ピラミッドレイヤアーキテクチャを生成するように構成されてよい。各マージセルは、2つの入力特徴表現および1つの出力特徴表現を有し得る。このことにより、ピラミッドレイヤの様々な特徴表現の間のクロススケール接続を生成することができ、意味論的に強力な特徴表現を結果としてもたらし得る。

より具体的には、マージセルのうちの1つを構築するために、コントローラモデルは、複数の入力特徴表現を含む利用可能な特徴表現のセットから、第1の入力特徴表現を選択するように構成されてよい。コントローラモデルは、利用可能な特徴表現のセットのうちの、第2の、異なる入力特徴表現を選択してよい。コントローラモデルは、複数の異なる出力解像度のうちの第1の解像度を選択し、第1の入力特徴表現を第2の、異なる入力特徴表現と組み合わせて、第1の解像度をもつ新規特徴表現を生成する演算を選択してよい。たとえば、演算は、和演算および大域プーリング演算など、様々な適切なバイナリ演算を含み得る。複数のマージセルが、このようにして別々および/または順次に構築されてよい。複数のマージセルは次いで、ピラミッドレイヤアーキテクチャを生成するように付加され得る。したがって、コントローラモデルは、マージセルを、新規ピラミッドレイヤアーキテクチャを生成するのに使うことができる。

いくつかの実装形態では、マージセルのうちの少なくともいくつかについて、コントローラモデルは、次のマージセルにおける潜在的選択のために、利用可能な特徴表現のセットに、新規特徴表現を追加してよい。したがって、いくつかの事例では、新たに作成された特徴表現が、次のマージセル中の別の特徴表現とマージされ得る。そのような動作は、様々なクロススケール接続の発見または学習を容易にし得る。

いくつかの実装形態では、第1の入力特徴表現および第2の、異なる入力特徴表現は、異なるそれぞれの解像度を有するように制約され得る。たとえば、第1の入力特徴表現および第2の、異なる入力特徴表現は、複数の入力解像度のピラミッド状構造化内で非隣接である異なるそれぞれの解像度を有し得る。したがって、ピラミッドレイヤの新規アーキテクチャは、異なるスケールにおける特徴表現を組み合わせるクロススケール接続を有するように制約されてよい。

いくつかの実装形態では、複数のマージセルのうちの少なくともいくつかについて、コントローラモデルは、マージセルによって生成される新規特徴表現が複数の出力表現のうちの1つを形成し得るように、出力解像度のうちの1つを選択するように制約されてよい。したがって、ピラミッドレイヤのアーキテクチャは、所定の出力解像度を有するように制約されてよい。さらに、いくつかの実装形態では、入力解像度のうちの2つ以上が、出力解像度のうちの少なくとも2つと同一となるように制約されてよい。そのような特徴は、ピラミッドレイヤの積重ねを容易にし得る。

マージセルの数は、得られたピラミッドアーキテクチャの複雑さおよびサイズに影響し得る。マージセルの数はユーザ定義ハイパーパラメータであってよく、このパラメータは、得られたピラミッドアーキテクチャに対する増大した制御をユーザに与えることができる。ただし、他の実施形態では、マージセルの数は、得られたピラミッドアーキテクチャのサイズおよび/または複雑さが、得られたピラミッドアーキテクチャの所望の性能特性(たとえば、高速解決時間、高い正確さなど)を最適化し得るような、学習可能パラメータであってよい。

別の態様によると、介入なしで、本明細書に記載するマージセルは、他の特徴表現との出力接続が欠けている特徴表現を結果としてもたらし得る。そのような構成は概して、望ましくなく、というのは、そのような特徴表現は、ピラミッドレイヤの出力を与えずにリソースを消費するからである。この構成を防止するために、いくつかの実装形態では、コントローラモデルは、対応する解像度を有する出力特徴表現をもつ複数の出力特徴表現のうちのどれにも接続しない各特徴表現を合計するように構成されてよい。したがって、コントローラモデルは、後続特徴表現との出力接続が欠けている特徴表現の形成を防止するようにピラミッドレイヤアーキテクチャを制約またはそうでなければ修正するように構成されてよい。

コンピューティングシステムは、ピラミッドレイヤアーキテクチャを改善するようにピラミッドレイヤアーキテクチャが反復して修正され、評価される一連の反復を実施するように構成されてよい。たとえば、コンピューティングシステムは、コントローラモデルの出力として、新規ピラミッドレイヤアーキテクチャを受信し、バックボーンモデルと、新規ピラミッドレイヤアーキテクチャを有する1つまたは複数のピラミッドレイヤとを含む機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価してよい。例示的性能特性は、正確さ、精度、解決時間、反復もしくはフロップの数、および/またはそれらの組合せを含み得る。

コンピューティングシステムは、機械学習済みピラミッド状特徴モデルの評価された性能に基づいて、アーキテクチャについての出力結果を判断することができる。一例として、いくつかの実装形態では、コントローラモデルは、強化学習エージェントを含み得る。複数の反復の各々について、コンピューティングシステムは、バックボーンモデルと、新規ピラミッドレイヤアーキテクチャを有する1つまたは複数のピラミッドレイヤとを含む機械学習済みピラミッド状特徴モデルに関連付けられた1つまたは複数の評価された性能特性に少なくとも部分的に基づいて、報酬を判断するように構成されてよい。コンピューティングシステムは、報酬に基づいて、コントローラモデルによって実装されるポリシーの1つまたは複数のパラメータを修正してよい。コントローラモデルは、ニューラルネットワーク(たとえば、回帰型ニューラルネットワーク)を含み得る。したがって、コントローラモデルは、得られた機械学習済みピラミッド状特徴モデルに関連付けられた性能特性を最大限にし、最適化し、またはそうでなければ調節するようにピラミッドアーキテクチャを設計するようにトレーニングされ得る。

別の例として、進化論的方式では、直近に提案されたアーキテクチャの性能は、たとえば、直近に提案されたアーキテクチャを保持するか、それとも直近に提案されたアーキテクチャを破棄し、代わりに最良の以前観察されたアーキテクチャに戻るかを判断するために、最良の以前観察された性能と比較され得る。次の反復アーキテクチャを生成するために、コントローラモデルは、上述した比較に基づいて選択されたモデルに対して進化的変異を実施してよい。

いくつかの実装形態では、機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価することは、バックボーンモデルと、新規ピラミッドレイヤアーキテクチャを各々が有する複数の積重ねピラミッドレイヤとを含む機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価することを含み得る。たとえば、機械学習済みモデルの評価中に、バックボーンモデルは、入力として画像をとり得る。機械学習済みモデルは、1つまたは複数のピラミッドレイヤのうちの最終ピラミッドレイヤによって出力された複数の出力特徴表現に基づいて、画像のためのオブジェクト検出、オブジェクト分類、および/または意味論的セグメント化を実施してよい。したがって、ピラミッドレイヤのアーキテクチャの性能特性は、評価され、反復して改善され得る。

いくつかの実施形態では、性能特性は、ピラミッドアーキテクチャが最適化または設計されている実際のタスク(たとえば、「実タスク」)を使って評価され得る。たとえば、性能特性は、ピラミッドレイヤを含む、得られたモデルをトレーニングするのに使われる画像のセットを使って評価され得る。ただし、他の実施形態では、性能特性は、比較的短いトレーニング時間を有するとともに実タスクとも相関するプロキシタスクを使って評価され得る。たとえば、プロキシタスクを使って性能特性を評価することは、実タスクよりも低解像度の画像(たとえば、画像のダウンサンプリングされたバージョン)を使うこと、バックボーンモデルのより小さいバージョンを使うこと、および/または概して実タスクを使ってモデルをトレーニングするのに使われるはずであるよりも少ないエポックのための実タスクを評価することを含み得る。

いくつかの実装形態では、機械学習済みモデルの評価中に、機械学習済みモデルは、たとえば、「常時」オブジェクト検出のための早期終了を実施するために、1つまたは複数のピラミッドレイヤのうちのいずれか1つによって出力されたそれぞれの複数の出力特徴表現に基づいて予測を生成し得る。言い換えると、推論中、モデルは、バックボーンモデルに対して内部であるピラミッドレイヤからソリューション(たとえば、オブジェクト検出情報)を生成し得る。たとえば、モデル内の複数のピラミッドレイヤからの出力は、ソリューション(たとえば、オブジェクト検出情報)を含み得る。このプロパティは、推論中の計算リソースまたは待ち時間が懸念事項であるときに望ましい場合がある。さらに、「常時」オブジェクト検出が、推論時に使うべきリソースの量を動的に調節するのに使われてよい。

本開示のシステムおよび方法は、いくつかの技術的効果および利益を提供する。たとえば、本明細書に記載する実装形態は、他の、手作業で生成されたモデルアーキテクチャと比較して、正確さ/待ち時間トレードオフを改善したモデルアーキテクチャを生成することができる。さらに、本明細書に記載する実装形態に従って生成される積重ね可能モデルアーキテクチャは、推論時に使うべき計算リソースを動的に調節するのに使うことができ、「常時」オブジェクト検出をできるようにする。本明細書に記載する様々な例示的実装形態は、オブジェクト検出、または画像分類もしくは意味論的セグメント化などの他の視覚処理タスクに特に適応されるモデルアーキテクチャを生成する。

一例として、本開示のシステムおよび方法は、アプリケーション、ブラウザプラグインのコンテキスト内に、または他のコンテキストに、含められるか、またはそうでなければその中で利用され得る。したがって、いくつかの実装形態では、本開示のモデルは、ラップトップ、タブレット、またはスマートフォンなどのユーザコンピューティングデバイスに含まれるか、またはそうでなければユーザコンピューティングデバイスによって記憶され、実装され得る。さらに別の例として、モデルは、クライアント-サーバ関係に従ってユーザコンピューティングデバイスと通信するサーバコンピューティングデバイスに含まれるか、またはそうでなければ、サーバコンピューティングデバイスによって記憶され、実装され得る。たとえば、モデルは、ウェブサービス(たとえば、ウェブeメールサービス)の一部分として、サーバコンピューティングデバイスによって実装され得る。

ここで図面を参照して、本開示の例示的実施形態についてさらに詳しく論じる。

例示的デバイスおよびシステム
図1Aは、本開示の例示的実施形態による、ピラミッドレイヤのアーキテクチャを生成するための例示的コンピューティングシステムのブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されている、ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、およびトレーニング用コンピューティングシステム150を含む。

ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンもしくはタブレット)、ゲーム機もしくはコントローラ、装着可能コンピューティングデバイス、埋め込み型コンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、どのタイプのコンピューティングデバイスであってもよい。

ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであってよい。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ114は、データ116と、ユーザコンピューティングデバイス102に動作を実施させるようにプロセッサ112によって実行される命令118とを記憶することができる。

ユーザコンピューティングデバイス102は、1つまたは複数のコントローラモデル120を記憶するか、または含むことができる。たとえば、コントローラモデル120は、ニューラルネットワーク(たとえば、回帰型ニューラルネットワーク)または他のマルチレイヤ非線形モデルなど、機械学習済みモデルであってよく、またはそうでなければ、それらの機械学習済みモデルを含むことができる。ニューラルネットワークは、回帰型ニューラルネットワーク(たとえば、長短期メモリ回帰型ニューラルネットワーク)、順伝播型ニューラルネットワーク、または他の形のニューラルネットワークを含み得る。例示的コントローラモデル120については、図3Aおよび図3Bを参照して論じる。

いくつかの実装形態では、1つまたは複数のコントローラモデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に記憶され、次いで、1つまたは複数のプロセッサ112によって使われ、またはそうでなければ実装され得る。いくつかの実装形態では、ユーザコンピューティングデバイス102は、単一強化学習エージェントモデルの複数の並列インスタンスを実装することができる。

追加または代替として、1つまたは複数のコントローラモデル140は、クライアント-サーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含まれ、またはそうでなければ、サーバコンピューティングシステム130によって記憶され、実装され得る。たとえば、コントローラモデル140は、ウェブサービス(たとえば、強化学習シミュレーションサービス)の一部分として、サーバコンピューティングシステム130によって実装され得る。したがって、1つまたは複数のコントローラモデル120が、ユーザコンピューティングデバイス102において記憶され、実装されてよく、かつ/または1つもしくは複数のコントローラモデル140が、サーバコンピューティングシステム130において記憶され、実装されてよい。

ユーザコンピューティングデバイス102は、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122も含み得る。たとえば、ユーザ入力構成要素122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチに敏感な、タッチ感応構成要素(たとえば、タッチ感応表示画面またはタッチパッド)であってよい。タッチ感応構成要素は、仮想キーボードを実装するのに役立ち得る。他の例示的ユーザ入力構成要素は、マイクロフォン、従来のキーボード、またはユーザが通信を入れることができる他の手段を含む。

サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132およびメモリ134を含む。1つまたは複数のプロセッサ132は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであってよい。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ134は、データ136と、サーバコンピューティングシステム130に動作を実施させるようにプロセッサ132によって実行される命令138とを記憶することができる。

いくつかの実装形態では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、1つまたは複数のサーバコンピューティングデバイスによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む事例では、そのようなサーバコンピューティングデバイスは、順次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。

上述したように、サーバコンピューティングシステム130は、1つまたは複数のコントローラモデル140を記憶することができ、またはそうでなければ、1つまたは複数のコントローラモデル140を含む。たとえば、コントローラモデル140は、ニューラルネットワーク(たとえば、深層回帰型ニューラルネットワーク)または他のマルチレイヤ非線形モデルなど、様々な機械学習済みモデルであってよく、またはそうでなければ、それらの機械学習済みモデルを含むことができる。例示的コントローラモデル140については、図3Aおよび図3Bを参照して論じる。

いくつかの実装形態では、システムおよび方法は、クラウドベースのサービスとして(たとえば、サーバコンピューティングシステム130によって)提供され得る。ユーザは、事前トレーニングまたは事前構成された強化学習エージェントモデルを提供することができる。ユーザは、シミュレートされた環境をカスタマイズするように、たとえば、ユーザが強化学習エージェントモデルを展開することを意図する実世界環境をシミュレートするように、入力および/または設定をセットし、または調節することができる。ユーザは次いで、実世界環境におけるエージェントモデルまたはその複数の異なる変形体の性能を予測および/または最適化するために、シミュレートされた環境において時間をかけて強化学習エージェントモデルの性能をシミュレートしてよい。

サーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されるトレーニング用コンピューティングシステム150との対話により、コントローラモデル140をトレーニングすることができる。トレーニング用コンピューティングシステム150は、サーバコンピューティングシステム130とは別個であってよく、またはサーバコンピューティングシステム130の一部分であってよい。

トレーニング用コンピューティングシステム150は、1つまたは複数のプロセッサ152およびメモリ154を含む。1つまたは複数のプロセッサ152は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであってよい。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ154は、データ156と、トレーニング用コンピューティングシステム150に動作を実施させるようにプロセッサ152によって実行される命令158とを記憶することができる。いくつかの実装形態では、トレーニング用コンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、サーバコンピューティングデバイスによって実装される。

トレーニング用コンピューティングシステム150は、サーバコンピューティングシステム130において記憶されたコントローラモデル140を、たとえば、誤差逆伝播など、様々なトレーニングまたは学習技法を使ってトレーニングするモデル訓練器160を含み得る。いくつかの実装形態では、誤差逆伝播を実施することは、時間をかけて短縮逆伝播を実施することを含み得る。モデル訓練器160は、トレーニングされるモデルの汎化能力を向上するために、いくつかの汎化技法(たとえば、重み減衰、ドロップアウトなど)を実施することができる。

特に、モデル訓練器160は、トレーニングデータ142に基づいてコントローラモデル140をトレーニングまたは事前トレーニングすることができる。トレーニングデータ142は、ラベル付きおよび/またはラベルなしデータを含み得る。たとえば、トレーニングデータ142は、トレーニング用ピラミッドレイヤ設計者構造を含み得る。

いくつかの実装形態では、ユーザが同意を与えた場合、ユーザコンピューティングデバイス102によって(たとえば、ユーザコンピューティングデバイス102のユーザによってあらかじめ提供された通信に基づいて)トレーニング例を与えることができる。したがって、そのような実装形態では、ユーザコンピューティングデバイス102に与えられるコントローラモデル120は、ユーザコンピューティングデバイス102から受信されたユーザ固有通信データについて、トレーニング用コンピューティングシステム150によってトレーニングされ得る。いくつかの事例では、このプロセスは、モデルの個別化と呼ばれ得る。

モデル訓練器160は、所望の機能性を提供するのに使用されるコンピュータ論理を含む。モデル訓練器160は、汎用プロセッサを制御するハードウェア、ファームウェア、および/またはソフトウェアにおいて実装することができる。たとえば、いくつかの実装形態では、モデル訓練器160は、記憶デバイス上に記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態では、モデル訓練器160は、RAMハードディスクまたは光学もしくは磁気媒体などの有形コンピュータ可読記憶媒体に記憶されるコンピュータ実行可能命令の1つまたは複数のセットを含む。

ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなど、どのタイプの通信ネットワークであってもよく、任意の数のワイヤードまたはワイヤレスリンクを含み得る。概して、ネットワーク180を介した通信は、非常に様々な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使って、どのタイプのワイヤードおよび/またはワイヤレス接続を介しても搬送することができる。

図1Aは、本開示を実装するのに使うことができる1つの例示的コンピューティングシステムを示す。他のコンピューティングシステムが使われてもよい。たとえば、いくつかの実装形態では、ユーザコンピューティングデバイス102は、モデル訓練器160およびトレーニングデータセット162を含み得る。そのような実装形態では、モデル120は、ユーザコンピューティングデバイス102においてローカルにトレーニングされることと使われることの両方が可能である。そのような実装形態のうちのいくつかでは、ユーザコンピューティングデバイス102は、ユーザ固有データに基づいてモデル120を個別化するために、モデル訓練器160を実装することができる。

図1Bは、本開示の例示的実施形態に従って実施する例示的コンピューティングデバイス10のブロック図を示す。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。

コンピューティングデバイス10は、いくつかのアプリケーション(たとえば、アプリケーション1～N)を含む。各アプリケーションは、それ自体の機械学習ライブラリおよび機械学習済みモデルを含む。たとえば、各アプリケーションは、機械学習済みモデルを含み得る。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。

図1Bに示すように、各アプリケーションは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、各アプリケーションは、API(たとえば、パブリックAPI)を使って、各デバイス構成要素と通信することができる。いくつかの実装形態では、各アプリケーションによって使われるAPIは、そのアプリケーションに固有である。

図1Cは、本開示の例示的実施形態に従って実施する例示的コンピューティングデバイス50のブロック図を示す。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。

コンピューティングデバイス50は、いくつかのアプリケーション(たとえば、アプリケーション1～N)を含む。各アプリケーションは、中央インテリジェンスレイヤと通信する。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションにわたる共通API)を使って、中央インテリジェンスレイヤ(およびその中に記憶されるモデル)と通信することができる。

中央インテリジェンスレイヤは、いくつかの機械学習済みモデルを含む。たとえば、図1Cに示すように、それぞれの機械学習済みモデル(たとえば、モデル)が、各アプリケーションに与えられ、中央インテリジェンスレイヤによって管理され得る。他の実装形態では、2つ以上のアプリケーションが、単一の機械学習済みモデルを共有することができる。たとえば、いくつかの実装形態では、中央インテリジェンスレイヤは、アプリケーションすべてに単一モデル(たとえば、単一モデル)を提供することができる。いくつかの実装形態では、中央インテリジェンスレイヤは、コンピューティングデバイス50のオペレーティングシステムに含まれるか、またはそうでなければ、オペレーティングシステムによって実装される。

中央インテリジェンスレイヤは、中央デバイスデータレイヤと通信することができる。中央デバイスデータレイヤは、コンピューティングデバイス50向けのデータの集中型リポジトリであってよい。図1Cに示すように、中央デバイスデータレイヤは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、中央デバイスデータレイヤは、API(たとえば、プライベートAPI)を使って、各デバイス構成要素と通信することができる。

例示的モデル配置
図2は、本開示の例示的実施形態による、ピラミッドレイヤアーキテクチャを改善するためにピラミッドレイヤアーキテクチャが反復して修正され、評価される一連の反復を実施するように構成される例示的システム200を示す。システム200は、本開示の例示的実施形態によるコントローラモデル202を含み得る。コントローラモデル202は、報酬206に基づいて新規ピラミッドアーキテクチャ204を生成するように構成され得る。報酬206は、バックボーンモデルと、新規ピラミッドレイヤアーキテクチャを有する1つまたは複数のピラミッドレイヤとを含む機械学習済みピラミッド状特徴モデルに関連付けられた1つまたは複数の性能特性に少なくとも部分的に基づき得る。コンピューティングシステムは、たとえば、バックボーンモデルと、新規ピラミッドレイヤアーキテクチャ204を有する1つまたは複数のピラミッドレイヤとを含む機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価することによって、新規ピラミッドアーキテクチャ204の性能評価208を実施することができる。コンピューティングシステムは、報酬206に基づいてコントローラモデル202の1つまたは複数のパラメータを修正することができる。したがって、コンピューティングシステムは、機械学習済みピラミッド状特徴モデルの性能評価208に基づいて、新規ピラミッドアーキテクチャ204についての出力結果を判断することができる。したがって、コントローラモデルは、得られた機械学習済みピラミッド状特徴モデルに関連付けられた性能特性を最大限にし、最適化し、またはそうでなければ調節するようにピラミッドアーキテクチャを設計するようにトレーニングされ得る。

いくつかの実装形態では、機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価すること(ブロック208によって表される)は、バックボーンモデルと、新規ピラミッドレイヤアーキテクチャを各々が有する複数の積重ねピラミッドレイヤとを含む機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価することを含み得る。たとえば、機械学習済みモデルの評価中に、バックボーンモデルは、入力として画像をとり得る。機械学習済みモデルは、1つまたは複数のピラミッドレイヤのうちの最終ピラミッドレイヤによって出力された複数の出力特徴表現に基づいて、画像のためのオブジェクト検出、オブジェクト分類、および/または意味論的セグメント化を実施してよい。したがって、ピラミッドレイヤのアーキテクチャの性能特性は、評価され、反復して改善され得る。

いくつかの実施形態では、性能特性は、ピラミッドアーキテクチャが最適化または設計されている実際のタスク(たとえば、「実タスク」)を使って評価され得る。たとえば、性能特性は、ピラミッドレイヤを含む、得られたモデルをトレーニングするのに使われる画像のグループを使って評価され得る。ただし、他の実施形態では、性能特性は、比較的短いトレーニング時間を有するとともに実タスクとも相関するプロキシタスクを使って評価され得る。たとえば、プロキシタスクを使って性能特性を評価することは、実タスクよりも低解像度の画像(たとえば、画像のダウンサンプリングされたバージョン)を使うこと、バックボーンモデルのより小さいバージョンを使うこと、および/または概して実タスクを使ってモデルをトレーニングするのに使われるはずであるよりも少ないエポックのための実タスクを評価することを含み得る。

図3は、本開示の例示的実施形態による、ピラミッドレイヤアーキテクチャを改善するためにピラミッドレイヤアーキテクチャが反復して修正され、評価される一連の反復を実施するように構成される例示的システム300を示す。コントローラモデル302は、報酬306に基づいて新規ピラミッドアーキテクチャ304を生成するように構成される強化学習エージェント310を含み得る。図2および図3を参照すると、コントローラモデル202、302は、たとえば、図4～図8を参照して以下で説明する追加動作を実施するように構成され得る。

図4は、本開示の例示的実施形態によるバックボーンモデル400およびピラミッドレイヤ402を示す。ピラミッドレイヤ402は、バックボーンモデル400(または、複数の積重ねピラミッドレイヤがある場合は以前の順次ピラミッドレイヤ)によって出力された複数の入力特徴表現404(たとえば、特徴マップ)を受信するように構成されてよい。複数の入力特徴表現は、複数の異なる入力解像度を有し得る。ピラミッドレイヤは、入力特徴表現に関して、畳み込みおよび/または他の動作を実施するように構成され得る。具体的には、入力特徴表現は、同じまたは異なる解像度を有する2つの特徴表現の組合せを含む、他の特徴表現(たとえば、入力特徴表現、内部特徴表現、および/または出力特徴表現)との組合せを行うこと(たとえば、合計し、大域プールすることなど)ができる。特徴表現に対してピラミッドレイヤによって実施される動作の結果、ピラミッドレイヤは、複数の出力特徴表現を生成し、出力し得る。複数の出力特徴表現は、複数の異なる出力解像度を有し得る。

本明細書の他の箇所に記載され、図4において「×N」によって示されるように、一連のピラミッドレイヤ402が次々と積み重ねられてよい(たとえば、特定のピラミッドレイヤについての入力表現は、以前の順次ピラミッドレイヤからの出力表現であってよく、特定のピラミッドレイヤによって提供される出力表現は、次の順次ピラミッドレイヤのための入力表現であってよい)。第1のピラミッドレイヤへの入力は、バックボーンモデル400中の特徴階層から直接とられた特徴であってよい。

いくつかの実装形態では、最終ピラミッドレイヤ(および/または常時終了が可能にされる場合は中間ピラミッドレイヤ)向けの出力特徴表現は、さらなるネットワーク406への入力として与えられてよく、このネットワークは、たとえば、受信された出力表現に基づいて分類および/または回帰を実施してよい。したがって、いくつかの実装形態では、モデルのトレーニング中に、ピラミッドレイヤすべての後に、追加分類器および/またはボックス回帰ヘッド406が取り付けられてよい。推論中、ヘッド406は、最終ピラミッドレイヤ(および/または常時終了が可能にされる場合は中間ピラミッドレイヤ)によって生成された特徴表現に基づいて検出を生成し得る。

具体的には、常時終了に関して、繰り返されるピラミッドレイヤとのスケーリングの1つの利点は、特徴ピラミッド表現が、どの所与のレイヤにおいても取得され得ることである。このことは、どの所与のピラミッドレイヤにおいても検出結果を生成し得る常時検出を可能にする。したがって、いくつかの実装形態では、トレーニング中に、ピラミッドレイヤすべての後に、分類器およびボックス回帰ヘッド406が取り付けられてよい。推論中、モデルは、どのピラミッドレイヤからも検出を生成し得る。このプロパティは、推論中に計算リソースまたは待ち時間が懸念事項であるときに望ましい場合があり、検出を生成するためにどれだけ多くのリソースを使うべきかを動的に決定し得るソリューションを与える。

一例では、入力特徴404は、{8, 16, 32, 64, 128}ピクセルという対応するストライドをもつ5つのスケール{C3, C4, C5, C6, C7}中にある。C6およびC7は、ストライド2およびストライド4の最大プーリングをC5に適用することによって作成された。入力特徴は次いで、特徴をクロススケール接続と組み合わせ、拡張特徴表現{P3, P4, P5, P6, P7}を生成するために、ピラミッドレイヤ中の一連のマージセルに渡された。ピラミッドレイヤ402の入力と出力の両方が同じスケールを有し得るので、ピラミッドレイヤ402のアーキテクチャは、スケーラブルモデルアーキテクチャを生成するように、繰り返し複製され、連結され得る。ピラミッドレイヤの数は、速さおよび正確さをトレードオフするように制御されてよい。より多くのピラミッドレイヤは概して、より高い正確さ、ただしより遅い性能を生じる。より少ないピラミッドレイヤは概して、より速い性能、ただしより低い正確さを生じる。

図5は、本開示の例示的実施形態による複数の特徴表現500およびマージセル502を示す。複数の探索反復の各々に対して、コントローラモデルは、新規ピラミッドアーキテクチャを生成するために複数のマージセル502を構築し、付加することによって、新規ピラミッドレイヤアーキテクチャを生成するように構成されてよい。各マージセル502は、2つの入力特徴表現および1つの出力特徴表現を有し得る。このことにより、ピラミッドレイヤの様々な特徴表現の間のクロススケール接続を生成することができ、意味論的に強力な特徴表現を結果としてもたらし得る。

より具体的には、マージセル502のうちの1つを構築するために、コントローラモデルは、複数の入力特徴表現500を含む利用可能な特徴表現のセットから、第1の入力特徴表現504を選択するように構成されてよい。コントローラモデルは、利用可能な特徴表現のセットのうちの、第2の、異なる入力特徴表現506を選択してよい。コントローラモデルは、複数の異なる出力解像度のうちの第1の解像度を選択し、第1の入力特徴表現504を第2の、異なる入力特徴表現506と組み合わせて、第1の解像度をもつ新規特徴表現510を生成する演算508を選択してよい。たとえば、演算508は、和演算および大域プーリング演算など、様々な適切なバイナリ演算を含み得る。マージセル502は、畳み込み512(たとえば、3×3畳み込み)を実施するように構成され得る。複数のマージセル502が、このようにして別々および/または順次に構築されてよい。複数のマージセル502は次いで、ピラミッドレイヤアーキテクチャを生成するように付加され得る。したがって、コントローラモデルは、たとえば図6A～図6Fを参照して以下で説明するように、新規ピラミッドレイヤアーキテクチャを生成するのにマージセル502を使うことができる。

いくつかの実装形態では、マージセル502のうちの少なくともいくつかについて、コントローラモデルは、次のマージセルにおける潜在的選択のために、利用可能な特徴表現のセットに、新規特徴表現を追加してよい(矢印514によって示される)。したがって、いくつかの事例では、新たに作成された特徴表現が、次のマージセル中の別の特徴表現とマージされ得る。そのような動作は、様々なクロススケール接続の発見または学習を容易にし得る。

いくつかの実装形態では、第1の入力特徴表現504および第2の、異なる入力特徴表現506は、異なるそれぞれの解像度を有するように制約され得る。たとえば、第1の入力特徴表現504および第2の、異なる入力特徴表現506は、たとえば図6A～図7を参照して以下で説明するように、複数の入力解像度のピラミッド状構造化内で非隣接である異なるそれぞれの解像度を有し得る。したがって、ピラミッドレイヤの新規アーキテクチャは、異なるスケールにおける特徴表現を組み合わせるクロススケール接続を有するように制約されてよい。

図6A～図6Fは、本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤのアーキテクチャグラフを示す。ドットは特徴表現を表し、矢印は特徴表現の間の接続を表す。入力特徴レイヤは、円で囲まれ、各グラフの左側に位置する。同じ行にある特徴表現は、同じ解像度を有し得る。解像度は、上方向に低下していく。たとえば、図6Aを参照すると、ドットの最下行602は、同じ解像度を有する特徴表現および潜在的特徴表現を表す。ドットの次の行604は、最下行602にあるドットの解像度よりも低い、同じ解像度を有する特徴表現および潜在的特徴表現を表す。この例では、出力特徴表現は、より大きい解像度を有する他の出力特徴表現との接続を形成することを許され得るだけである。

図6Aは、本開示の態様による、ベースライン、または初期のピラミッド構造アーキテクチャを示す。図6B～図6Fは、本開示の態様による、様々な探索反復を使って発見されるアーキテクチャを示す。この例では、プロキシタスクが、ピラミッドアーキテクチャを評価するのに使われた。発見されたアーキテクチャは、プロキシタスクの報酬が次第に改善すると、収束した。図6Fは、他のバックボーンモデルを用いて後続実験において使われる最終的アーキテクチャを示す。図6Fに示される最終的アーキテクチャは、図7にも示される。

いくつかの実装形態では、ピラミッドレイヤによって生成される新規特徴表現は、ピラミッドレイヤアーキテクチャに対して内部である1つまたは複数の内部特徴表現を含み得る。たとえば、図6Bを参照すると、ピラミッドレイヤアーキテクチャは、第1の内部特徴表現606および第2の内部特徴表現608を含み得る。内部特徴表現606、608は、入力特徴表現610、612、614および出力特徴表現616、618、620、622とは別個であってよい。

内部特徴表現は、他の内部特徴表現、入力特徴表現、および/または出力特徴表現と接続されてよい。たとえば、図6Bを参照すると、第1の内部特徴表現606は、入力としての2つの入力特徴表現610、614と接続され、出力としての第2の内部特徴表現608と接続されてよい。第2の特徴表現608は、第1の内部特徴表現606の各々および入力特徴表現614のうちの1つと、入力として、および出力特徴表現618のうちの1つと、出力として接続されてよい。複数の出力特徴表現616、618、620、622のうちの少なくとも1つは、内部特徴表現606、608のうちの1つまたは複数に基づいて生成され得る。

上述したように、複数のマージセルは、ピラミッドレイヤアーキテクチャを生成するように付加されてよい。図6Bを参照すると、接続された特徴表現は、それぞれの付加されたマージセルを表し得る。たとえば、1つのマージセルでは、たとえば図5を参照して上述したように、入力特徴表現610、614のうちの2つが選択されてよい。入力特徴表現610、614は、新規特徴表現(たとえば、第1の内部特徴表現608)を生成するように組み合わされてよい。図示するように、第1の内部特徴表現608は、クロススケール接続が作成されるような、入力特徴表現610、614の一方または両方とは異なる解像度を有し得る。

いくつかの実装形態では、新規特徴表現が、次のマージセルにおける潜在的選択に利用可能であってよい。たとえば、図6Bを参照すると、第1の内部特徴表現606と入力特徴表現610のうちの1つが、第2の内部特徴表現608を生成するように組み合わされた。したがって、いくつかの事例では、新たに作成された特徴表現(たとえば、第1の内部特徴表現606)が、次のマージセル中の別の特徴表現(たとえば、入力特徴表現610)とマージされてよい。そのような動作は、様々なクロススケール接続の発見または学習を容易にし得る。

いくつかの実装形態では、第1の入力特徴表現および第2の、異なる入力特徴表現は、異なるそれぞれの解像度を有するように制約され得る。たとえば、第1の入力特徴表現および第2の、異なる入力特徴表現は、複数の入力解像度のピラミッド状構造化内で非隣接である異なるそれぞれの解像度を有し得る。たとえば、図6Bに示されるように、第1の内部特徴表現606および入力特徴表現610は、異なる解像度を有する。さらに、第2の内部特徴表現608は、第1の内部特徴表現606および入力特徴表現610の各々とは異なる解像度を有する。したがって、ピラミッドレイヤの新規アーキテクチャは、異なるスケールにおける特徴表現を組み合わせるクロススケール接続を有するように制約されてよい。

いくつかの実装形態では、複数のマージセルのうちの少なくともいくつかについて、コントローラモデルは、マージセルによって生成される新規特徴表現が複数の出力表現のうちの1つを形成し得るように、出力解像度のうちの1つを選択するように制約されてよい。たとえば、図6Bを参照すると、コントローラモデルは、出力特徴表現616のうちの1つを、第1の内部特徴表現606向けの出力として、および入力特徴表現614のうちの1つを選択してよい。したがって、ピラミッドレイヤのアーキテクチャは、所定の出力解像度を有するように制約されてよい。さらに、いくつかの実装形態では、入力解像度のうちの2つ以上(たとえば、それぞれ、入力特徴表現610、612、614を含む下の3行)が、出力解像度のうちの少なくとも2つ(たとえば、出力特徴表現620、622、624を含む行)と同一であるように制約されてよい。そのような制約は、ピラミッドレイヤの積重ねを容易にし得る。

たとえば、図6Fを参照すると、内部特徴表現626が、複数の出力特徴表現628、630、632、634、636のうちのいずれへの接続にも欠けている場合、コントローラモデルは、内部特徴表現626を、同じ出力解像度を有する出力特徴表現634と接続するように構成されてよい。

図7は、図6Fのピラミッドレイヤアーキテクチャ700を示す。ピラミッドレイヤアーキテクチャ700は、図6A～図6Fを参照して上述したように、反復して生成された。入力特徴表現702、704、706が、ピラミッドレイヤアーキテクチャ700に入力され得る。入力特徴表現702、704、706は、内部特徴表現708、710を生成するために、図示されるように組み合わされてよい。たとえば、入力特徴表現702、704、706は、必要とされるか、または有用である場合、最近傍アップサンプリングまたは最大プーリングによって出力解像度に調節されてよい。マージされた特徴マップには、たとえば図示するように、正規化線形ユニット(ReLU)、3×3畳み込み、および/またはバッチ正規化レイヤが続き得る。ピラミッドレイヤアーキテクチャ700は、出力特徴表現712、714、716、718、720を含み得る。

図8A～図8Fは、本開示の例示的実施形態による、コントローラモデルによって生成される連続ピラミッドレイヤのアーキテクチャグラフを示す。この例では、図6A～図6Fを参照して上述した例とは対照的に、各出力特徴表現は、より大きいか、またはより低い解像度を有する他の出力特徴表現との接続を自由に形成してよい。図7が、図6Fのピラミッドレイヤアーキテクチャを示すのと同じように、図9は、図8Fのピラミッドレイヤアーキテクチャを示す。

本開示のシステムおよび方法は、いくつかの技術的効果および利益を提供する。たとえば、本明細書に記載する実装形態は、他の、手作業で生成された、モデルアーキテクチャと比較して、正確さ/待ち時間トレードオフを改善したモデルアーキテクチャを生成することができる。さらに、本明細書に記載する実装形態に従って生成される積重ね可能モデルアーキテクチャは、推論時に使うべき計算リソースを動的に調節するのに使うことができ、「常時」オブジェクト検出をできるようにする。本明細書に記載する様々な例示的実装形態は、オブジェクト検出、または画像分類もしくは意味論的セグメント化などの他の視覚処理タスクに特に適応されるモデルアーキテクチャを生成する。

例示的方法
図10は、本開示の例示的実施形態に従って実施するための例示的方法のフローチャート図を示す。図10は、説明および考察のために、具体的順序で実施されるステップを示すが、本開示の方法は、具体的に示す順序または配置には限定されない。方法800の様々なステップは、本開示の範囲から逸脱することなく、様々な手段で省かれ、並べ替えられ、組み合わされ、かつ/または適応されてよい。

コンピューティングシステムは、本開示の例示的実施形態に従って、ピラミッドレイヤアーキテクチャを改善するためにピラミッドレイヤアーキテクチャが反復して修正され、評価される一連の反復を実施し得る。たとえば、802において、コンピューティングシステムは、たとえば、図2～図9を参照して上述したように、ピラミッドレイヤのための新規アーキテクチャを生成するように構成されるコントローラモデルの出力として、新規ピラミッドレイヤアーキテクチャを受信し得る。

804において、コンピューティングシステムは、たとえば、図2～図9を参照して上述したように、バックボーンモデルと、新規ピラミッドレイヤアーキテクチャを有する1つまたは複数のピラミッドレイヤとを含む機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価し得る。

806において、コンピューティングシステムは、たとえば、図2～図9を参照して上述したように、評価された性能特性に基づいて、新規ピラミッドレイヤアーキテクチャについての出力結果を判断し得る。コンピューティングシステムは次いで、ステップ802に戻り得る。

追加開示
本明細書において論じた技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびに行われるアクションおよびそのようなシステムとの間で送られる情報を参照する。コンピュータベースのシステムの固有の柔軟性により、構成要素の間での、タスクおよび機能性の多種多様の可能な構成、組合せ、および分割が可能である。たとえば、本明細書において論じるプロセスは、組合せで動く、単一のデバイスもしくは構成要素または複数のデバイスもしくは構成要素を使って実装することができる。データベースおよびアプリケーションは、単一のシステム上で実装するか、または複数のシステムに分散することができる。分散構成要素は、順次、または並行して動作することができる。

本主題を、その様々な具体的な例示的実施形態に関して詳しく記載したが、各例は、本開示の限定ではなく、説明として与えられている。当業者は、上記を理解すると、そのような実施形態への改変、変形、および等価物を容易に生じることができよう。したがって、本開示は、当業者には容易に明らかであるような、本主題に対するそのような修正、変形および/または追加の包含を排除しない。たとえば、一実施形態の一部として示し、または記載した特徴は、別の実施形態とともに使われて、またさらなる実施形態をもたらすことができる。したがって、本開示は、そのような改変、変形、および等価物をカバーすることを意図するものである。

10 コンピューティングデバイス
50 コンピューティングデバイス
100 システム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ、ユーザコンピューティングデバイスメモリ
116 データ
118 命令
120 コントローラモデル
122 ユーザ入力構成要素
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
136 データ
138 命令
140 コントローラモデル
142 トレーニングデータ
150 トレーニング用コンピューティングシステム
152 プロセッサ
154 メモリ
156 データ
158 命令
160 モデル訓練器
162 トレーニングデータセット
180 ネットワーク
200 システム
202 コントローラモデル
204 新規ピラミッドアーキテクチャ、ピラミッドレイヤ
206 報酬
208 性能評価
300 システム
302 コントローラモデル
304 新規ピラミッドアーキテクチャ
306 報酬
310 強化学習エージェント
400 バックボーンモデル
402 ピラミッドレイヤ
406 ネットワーク、追加分類器および/またはボックス回帰ヘッド、ヘッド
502 マージセル
508 演算
512 畳み込み
700 ピラミッドレイヤアーキテクチャ

Claims

コンピューティングシステムであって、
1つまたは複数のプロセッサと、
バックボーンモデルによって出力された複数の入力特徴表現を受信し、それに応答して、複数の出力特徴表現を出力するピラミッドレイヤのための新規アーキテクチャを生成するように構成されたコントローラモデルであって、前記複数の入力特徴表現は複数の異なる入力解像度を有し、前記複数の出力特徴表現は、複数の異なる出力解像度を有する、コントローラモデルと、
前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させる命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備え、前記動作は、
複数の反復の各々について、
前記コントローラモデルの出力として、新規ピラミッドレイヤアーキテクチャを受信することと、
前記バックボーンモデル、および前記新規ピラミッドレイヤアーキテクチャを有する1つまたは複数のピラミッドレイヤを含む機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価することとを含む、コンピューティングシステム。
前記複数の反復の各々について、
前記新規ピラミッドレイヤアーキテクチャは、前記ピラミッドレイヤアーキテクチャに対して内部である少なくとも1つの内部特徴表現を生成するために、前記複数の入力特徴表現のうちの少なくとも2つの、少なくとも1つの組合せを実施し、
前記複数の出力特徴表現のうちの少なくとも1つは、前記少なくとも1つの内部特徴表現に基づいて生成される、請求項1に記載のコンピューティングシステム。
前記複数の反復の各々について、前記コントローラモデルは、コントローラ動作を実施することによって、前記新規ピラミッドレイヤアーキテクチャを生成するように構成され、前記コントローラ動作は、複数のマージセルを構築するためであり、前記動作は、前記複数のマージセルの各々について、
前記複数の入力特徴表現を含む利用可能な特徴表現のセットから、第1の入力特徴表現を選択することと、
前記利用可能な特徴表現のセットのうちの第2の、異なる入力特徴表現を選択することと、
前記複数の異なる出力解像度のうちの第1の解像度を選択することと、
前記第1の入力特徴表現を前記第2の、異なる入力特徴表現と組み合わせて、前記第1の解像度をもつ新規特徴表現を生成する演算を選択することとを含む、請求項1または2に記載のコンピューティングシステム。
前記演算を選択することは、和演算および大域プーリング演算のうちの1つを選択することを含む、請求項3に記載のコンピューティングシステム。
前記コントローラ動作は、前記新規ピラミッドレイヤアーキテクチャを生成するために、前記複数のマージセルを付加することをさらに含む、請求項1から4のいずれか一項に記載のコンピューティングシステム。
前記コントローラ動作は、前記複数のマージセルのうちの少なくともいくつかについて、次のマージセルにおける潜在的選択のために、前記利用可能な特徴表現のセットに前記新規特徴表現を追加することをさらに含む、請求項1から5のいずれか一項に記載のコンピューティングシステム。
前記新規特徴表現は、前記ピラミッドレイヤアーキテクチャに対して内部である内部特徴表現を含む、請求項1から6のいずれか一項に記載のコンピューティングシステム。
前記第1の入力特徴表現および前記第2の、異なる入力特徴表現は、異なるそれぞれの解像度を有するように制約される、請求項1から7のいずれか一項に記載のコンピューティングシステム。
前記第1の入力特徴表現および前記第2の、異なる入力特徴表現は、前記複数の入力解像度のピラミッド状構造化内で非隣接である、異なるそれぞれの解像度を有する、請求項1から8のいずれか一項に記載のコンピューティングシステム。
前記複数のマージセルのうちの少なくともある特定の数について、前記コントローラモデルは、前記新規特徴表現が前記複数の出力表現のうちの1つを形成するように、前記新規特徴表現用の前記第1の解像度として、前記複数の異なる出力解像度のうちの1つを選択するように制約される、請求項1から9のいずれか一項に記載のコンピューティングシステム。
前記少なくとも2つの異なる入力解像度は、前記ピラミッドレイヤアーキテクチャが積重ね可能であるように前記少なくとも2つの異なる出力解像度と同一であるように制約される、請求項1から10のいずれか一項に記載のコンピューティングシステム。
前記複数のマージセルの数は、ユーザ定義ハイパーパラメータまたは学習可能パラメータである、請求項1から11のいずれか一項に記載のコンピューティングシステム。
前記コントローラ動作は、前記複数のマージセルを構築した後、対応する解像度を有する前記出力特徴表現をもつ前記複数の出力特徴表現のいずれにも接続しない各特徴表現を合計することをさらに含む、請求項1から12のいずれか一項に記載のコンピューティングシステム。
前記コントローラモデルは強化学習エージェントを備え、前記動作は、前記複数の反復の各々について、
前記1つまたは複数の性能特性に少なくとも部分的に基づいて、報酬を判断することと、
前記報酬に基づいて、前記コントローラモデルの1つまたは複数のパラメータを修正することとをさらに含む、請求項1から13のいずれか一項に記載のコンピューティングシステム。
前記コントローラモデルは、進化的変異の実施を通して、前記ピラミッドレイヤ用の前記新規アーキテクチャを生成するように構成され、前記動作は、前記複数の反復の各々について、前記1つまたは複数の性能特性に少なくとも部分的に基づいて前記新規ピラミッドレイヤアーキテクチャを保持するか、それとも破棄するかを判断することをさらに含む、請求項1から14のいずれか一項に記載のコンピューティングシステム。
前記機械学習済みピラミッド状特徴モデルの前記1つまたは複数の性能特性を評価することは、前記バックボーンモデルと、前記新規ピラミッドレイヤアーキテクチャを各々が有する複数の積重ねピラミッドレイヤとを含む前記機械学習済みピラミッド状特徴モデルの前記1つまたは複数の性能特性を評価することを含む、請求項1から15のいずれか一項に記載のコンピューティングシステム。
前記機械学習済みモデルの評価中に、前記バックボーンモデルは、入力として画像をとり、前記機械学習済みモデルは、前記1つまたは複数のピラミッドレイヤのうちの最終ピラミッドレイヤによって出力された前記複数の出力特徴表現に基づいて、前記画像についてのオブジェクト検出、オブジェクト分類、または意味論的セグメント化のうちの1つを実施する、請求項1から16のいずれか一項に記載のコンピューティングシステム。
前記機械学習済みモデルの評価中に、前記機械学習済みモデルは、早期終了を実施するために、前記1つまたは複数のピラミッドレイヤのうちのいずれか1つによって出力された前記それぞれの複数の出力特徴表現に基づいて予測を生成し得る、請求項1から17のいずれか一項に記載のコンピューティングシステム。
コンピューティングシステムであって、
1つまたは複数のプロセッサと、
入力を受信し、前記入力を受信したことに応答して、出力を出力するように構成された機械学習済みモデルであって、前記機械学習済みモデルは、バックボーンモデルと、次々に順に積み重ねられた複数のピラミッドレイヤとを含み、前記バックボーンモデルは、前記入力を受信し、初期の複数の出力特徴表現を生成するように構成され、前記複数のピラミッドレイヤの各ピラミッドレイヤは、前記バックボーンモデルまたは以前の順次ピラミッドレイヤから、複数の異なる解像度を有する、それぞれの複数の入力特徴表現を受信し、同じ複数の異なる解像度を有するそれぞれの複数の出力特徴表現を生成するように構成される、機械学習済みモデルと、
前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させる命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備え、前記動作は、
前記機械学習済みモデルに前記入力を入力することと、
前記機械学習済みモデルの出力として、前記出力を受信することとを含む、コンピューティングシステム。
前記複数のピラミッドレイヤの各々は、同一のピラミッドレイヤアーキテクチャを有する、請求項19に記載のコンピューティングシステム。
前記同一のピラミッドレイヤアーキテクチャは、反復探索プロセスを実施するコントローラモデルによって生成されている、請求項19に記載のコンピューティングシステム。
バックボーンモデルによって出力されたピラミッド状特徴表現のセットを処理するピラミッドレイヤのアーキテクチャを生成するためのコンピュータ実装方法であって、複数の反復の各々について、
1つまたは複数のコンピューティングデバイスによって、バックボーンモデルによって出力された複数の入力特徴表現を受信し、それに応答して、複数の出力特徴表現を出力するように構成されるピラミッドレイヤのための新規アーキテクチャを生成するように構成されるコントローラモデルの出力として、新規ピラミッドレイヤアーキテクチャを受信するステップであって、前記複数の入力特徴表現は、複数の異なる入力解像度を有し、前記複数の出力特徴表現は、複数の異なる出力解像度を有する、受信するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記バックボーンモデル、および前記新規ピラミッドレイヤアーキテクチャを有する1つまたは複数のピラミッドレイヤを含む機械学習済みピラミッド状特徴モデルの1つまたは複数の性能特性を評価するステップとを含む、方法。