JP2017162456A

JP2017162456A - 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング

Info

Publication number: JP2017162456A
Application number: JP2017029703A
Authority: JP
Inventors: ロスサンチェスジャーマン; Ros Sanchez German; ステントサイモン; Stent Simon; アルカンタリラパブロ; Alcantarilla Pablo
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-03-11
Filing date: 2017-02-21
Publication date: 2017-09-14
Anticipated expiration: 2037-02-21
Also published as: US9916522B2; US20170262735A1; JP6309663B2

Abstract

【課題】入力画像の対応するエリアのラベルデータを作るためのトレーニングされたコンピュータシステムを提供する。【解決手段】ソースデコンボリューションネットワークが、セマンティックセグメンテーションを実行するために、適応的にトレーニングされる。次いで、画像データが、ソースデコンボリューションネットワーク（Ｓ−Ｎｅｔ）に入力され、Ｓ−Ｎｅｔの出力が測定される。同じ画像データおよびソースデコンボリューションネットワークの測定された出力は、ターゲットデコンボリューションネットワークをトレーニングするために使用される。ターゲットデコンボリューションネットワークは、ソースデコンボリューションネットワークより実質的に少数の数値パラメータによって定義される。【選択図】図８

Description

本開示は、画像内でオブジェクトの画像である画像のエリアを識別し、オブジェクトの性質を示すラベルで画像のエリアにラベルを付ける（labelling）ためのコンピュータ実装方法（computer-implemented methods）およびコンピュータシステムに関する。

コンボリューションニューラルネットワーク（ＣＮＮまたはＣｏｎｖＮｅｔ：convolutional neural network）は、画像を処理するために使用される１つのタイプのフィードフォワード人工ニューラルネットワーク（feed-forward artificial neural network）である。

ＣＮＮの基礎的要素（building blocks）のうちの１つは、値の２次元配列を入力として受信する「コンボリューションレイヤ」である。コンボリューションレイヤは、数値パラメータのそれぞれのセットによって定義される整数ｂのフィルタを備える。コンボリューションレイヤへの入力は、同一サイズの２次元配列のセットであり、これらの配列の数を整数ａとして示す。各フィルタは、それぞれの２次元出力を作るために、同時に入力２次元配列とコンボリューションされる。コンボリューションプロセスの間、複数のフィルタのうちの所与の１つが、入力２次元配列の各々（フィルタの「ビジュアルフィールド（visual field）」）の連続する対応するウインドウ（すなわち、スモールエリア）から入力を連続して受信する。ウインドウのサイズは、ｋｘｋとして示されることができ、ここで、ｋは整数であり、したがって、フィルタは、ｋｘｋｘａの入力値を使用して単一の出力値を生成する。フィルタは、これらの値にｋｘｋｘａのそれぞれのフィルタ値を掛け、それらの結果を、対応する出力値を与えるために加える。したがって、所与のフィルタについて、各入力２次元画像の対応するスモールエリアは、それぞれの２次元出力の１ピクセルである、単一の出力値を作る。

各フィルタの連続するビジュアルフィールドは、「ストライド（stride）」と呼ばれるいくつかのピクセルによってオフセットされる。２次元入力配列のサイズが２次元出力配列のサイズと実質的に等しいことを意味する、ストライド値の１が、本明細書において想定されることになる。

したがって、所与のコンボリューションレイヤの重大なパラメータは、それが入力として受信する２次元配列の数ａと、それが含むフィルタの数ｂ（それが作る２次元出力配列の数と等しい）と、入力画像の各々内の各フィルタのｋｘｋビジュアルフィールドのサイズとを含む。しばしば、入力画像は、それの外周にゼロでパディングされ、このゼロパディング（zero-padding）のサイズは、別のパラメータである。

図１は、コンボリューションレイヤを表すために本明細書で使用される表記法を示す。それは、コンボリューションレイヤへの入力がａの２次元配列のセットであることを示し、そのコンボリューションレイヤはｂのフィルタを含む。ウインドウのサイズはｋｘｋであり、入力配列は値「ｐａｄ」によってパディングされる。

コンボリューションネットワークの第２の共通の基礎的要素は、非線形のダウンサンプリングを実行する、プーリングレイヤである。具体的には、プーリングレイヤは、２次元配列をサイズｋｘｋの複数の重なり合わないブロックに分割し、このブロックについて、２つの出力値：そのブロックのｋｘｋの入力値の最大値と、そのブロックのｋｘｋの入力値のどれが最高値を有したかを示す「プーリングインデックス」、を出力する。言い換えれば、プーリングは、入力画像を重なり合わない四角のセットに分割し、そのような各四角について、最大値を出力する。複数のブロックが重なり合わないという事実は、複数のブロックが複数のブロックのサイズと等しいストライドによってペアで間隔を置かれると言うことと等しく、本明細書ではさらに考慮されない、汎化において、これは当てはまらないことがある。

図２（ａ）は、プーリングレイヤを表すために本明細書で使用される表記法を示し、図２（ｂ）は、同等の簡略化された表記法である。両方とも、プーリングレイヤが、ストライドｋによってペアでオフセットされた、サイズｋｘｋの複数のブロックを使用することを意味する。

コンボリューションネットワークの別の共通の基礎的要素は、修正線形ユニット（ＲｅＬＵ：Rectified Linear Unit）レイヤである。これは、関数ｆ（ｘ）＝ｍａｘ（０，ｘ）に従って、それに入力される各値（示されたｘ）を変換する。図３（ａ）は、ＲｅＬＵレイヤを表すために本明細書で使用される表記法を示す。

コンボリューションネットワークの別の共通の基礎的要素は、バッチ正規化（ＢＮｏｒｍ：Batch normalisation）レイヤである。これは、入力値のセットに作用し、２つの数値パラメータＡおよびＢを使用する。各入力値は、それぞれの出力値を作るために、値Ａによって減らされ、次いでパラメータＢで割られる。ＡおよびＢの値は、出力値のセットがゼロの平均と１の分散（a variance）とを有するように、選択される。図３（ｂ）は、ＲｅＬｕレイヤを表すために本明細書で使用される表記法を示す。

コンボリューションネットワークの別の共通の基礎的要素は、ソフトマックスレイヤである。これは、整数Ｋの入力値に作用し、合計１になる範囲（０，１）においてそれぞれのＫの出力値のセットを出力する。図３（ｃ）は、ソフトマックスレイヤを表すために本明細書で使用される表記法を示す。ソフトマックスレイヤは、しばしば、コンボリューションネットワークの出力に位置し、ソフトマックスレイヤの出力値は、確率値に対応する。一例では、ソフトマックスレイヤの出力の各々は、それぞれのオブジェクトカテゴリに対応し、画像がコンボリューションネットワークに入力されるとき、ソフトマックスレイヤによって出力される複数の値は、その画像が複数のオブジェクトカテゴリのうちのそれぞれのオブジェクトカテゴリ内のオブジェクトを示すそれぞれの確率を示す。

近年、「デコンボリューションネットワーク（deconvolutional networks）」（ＤＮ）が、提案された。デコンボリューションネットワークは、非自明の（non-trivial）空間コンテキストを有する出力を回帰する（regress）ためのメカニズムを含む。１つの例は、２Ｄにおける空間解像度（ＨｘＷ）であるが、デコンボリューションネットワークはまた、２Ｄより大きい（ＨｘＷｘＤ＿３ｘ…ｘＤ＿ｋ）において入力に適用可能である。デコンボリューションネットワークの出力は、入力と同じ空間解像度、より大きい空間解像度、またはより小さい解像度さえも有し得る。これらのアーキテクチャの一例は、画像の入力ピクセルの各々についての出力値を作るものであり、すなわち、サイズＨｘＷの入力画像について、出力サイズは、空間コンテキストの回帰のために使用されるメカニズムから独立して、ＨｘＷである。「デコンボリューションネットワーク」という用語は、前の作業（work）と一貫性を維持するために選択される。

一般に、デコンボリューションネットワークはまた、「デコンボリューション」レイヤが後に続く「アンプーリング（unpooling）」レイヤを含む。アンプーリングレイヤは、プーリングレイヤの反意語である。アンプーリングレイヤへの入力は、数値の２次元配列であり、各値について、それぞれの「プーリングインデックス」が、ｋｘｋ配列のピクセルのうちの１つのピクセルを示す。数値の２次元配列の各々について、アンプーリングレイヤは、第２の数値のそれぞれのｋｘｋ配列を出力する。それぞれのプーリングインデックスによって示される第２の数値は、第１の数値と等しく、他のｋｘｋ−１の第２の数値は、ゼロである。したがって、サイズｂｘｂの第１の数値の２次元配列である入力を所与として、出力は、第２の数値のｋｂｘｋｂ配列であり、ｂｘｂの第２の数値以外はすべてゼロである。

言い換えれば、アンプーリングレイヤは、プーリングレイヤを取り消す（undoes）：第１の数値のある特定の第１の２Ｄ配列が、信号であり、プーリングレイヤと次いでアンプーリングレイヤとを通して渡される場合、結果は、第１の２Ｄ配列と同じサイズの第２の２Ｄ配列であり、各ｋｘｋのブロック内の第１の数値の最高は変わらないが、他のすべての第１の数値はゼロにセットされる。

「デコンボリューションレイヤ」は、次いで、出力にコンボリューションを適用する。この動作の間、アンプーリングレイヤによって出力されるゼロ以外の値は、アンプーリングレイヤの出力がゼロであった２Ｄ配列内の位置においてゼロ以外の値を生成する。したがって、デコンボリューションは、転置されたコンボリューションである。

アンプーリングレイヤとデコンボリューションレイヤとの組合せは、プーリングレイヤとコンボリューションレイヤとの反意語と考えられることができる。

図４（ａ）は、アンプーリングレイヤを表すために本明細書で使用される表記法を示し、図４（ｂ）は、同等の簡略化された表記法である。

ＤＮｓは、セマンティックセグメンテーション（semantic segmentation）のタスクについて注目すべき成功を達成し、その中で、画像認識は、個々のピクセルの解像度で実行され、結果として、道路シーンセグメンテーションのための魅力的なアーキテクチャ −多数の自律運転またはアドバンスト運転者補助システムにおける有用なコンポーネントになった。しかしながら、実際に最新のＤＮｓを適用しようとするとき、いくつかの制限が存在する。

第１に、それらは、メモリフットプリント（memory footprint）に関して不十分である。自動車産業を対象とする市販のチップが、ますますパラレルになる一方で、小さいサイズの高速アクセスオンチップＳＲＡＭメモリは、限定されたままである（たとえば、ＭｏｂｉｌｅｙｅＥｙｅＱ２５６チップの５１２ＫＢおよび東芝ＴＭＰＶ７６０シリーズ７６チップファミリの１〜１０ＭＢ）。対照的に、一般的なＤＮｓは、５０〜１０００倍多くのメモリを使用する。より効率的なＤＮアーキテクチャが、提案されているが、それらは、いまだに数千万のパラメータを含み、より大きいＤＮｓと同等の精度をまだ示していない。

第２に、ＤＮｓは、通常は、監視された（supervised）形でトレーニングされるので、それらの性能は、対応するピクセルごとの注釈を有する大量のトレーニングデータへのアクセスの利益を得る。そのような注釈を作ることは、高価な、時間のかかるプロセスである。したがって、画像分類などのタスクのためのデータセットは、スケールにおいてＯ（１０⁷）の画像に達し得るが、一般的なセマンティック道路シーンセグメンテーションデータセットは、Ｏ（１０³）の画像を含む。データの不足（scarcity）は、モデルがオーバーフィット（overfitting）なしにこれらの概念を学習することを難しくし得る、歩行者および自転車に乗った人など、より稀であるが重要なクラスのサンプルの不足をもたらす。さらに、データの不足は、起こりうる道路シーンの真の分布にわたる不十分なカバレッジを暗に示す：データセットは、通常は、比較的同種の道路条件の下で１つまたは少数の局所的領域においてキャプチャされる。トレーニングデータが利用可能になるときに新しいドメインからの知識をどのようにして最も良く組み込むかを理解することは、利用可能なデータを所与とした最良の一般タスク性能を保証するための重要な問題である。

以下のトピックの文献をここで簡潔に概括する：（ｉ）セマンティックセグメンテーション、および（ｉｉ）制限されたデータでのトレーニング。

（ｉ）セマンティックセグメンテーション。
セマンティックセグメンテーションのタスクは、
などの入力画像を出力ラベル画像
にマップする関数ｆの推定を伴い、ここで、ラベル１，．．，Ｎは、そのピクセルでの入力のセマンティッククラスにインデックスを付ける（たとえば、道路、歩道、空、草木、歩行者など）。これは、コンピュータビジョンにおける一般的な問題であり、屋内から屋外までの様々な環境について、ならびに道路シーン認識などの特定のタスクについて取り組まれてきた。後者については、我々の仕事の焦点であり、セマンティックセグメンテーションは、ローカルプランニングおよび未来の半自律（semi-autonomous）および自律車両の障害物回避サブシステムの一部として主要な役割を果たすことが期待される。

その問題に対処するための古典的なツールは、構造化された予測を作るために使用される条件付きランダムフィールド（ＣＲＦｓ：Conditional Random Fields）などの確率的グラフィックモデルでの、手作りの（hand-crafted）機能（たとえば、ＳＩＦＴ、ＨＯＧ）および領域ベースの分類子（たとえば、ＳＶＭ、ＡＤ−ＡＢｏｏｓｔ）の組合せに基づくパイプラインを含む。ディープ（deep）コンボリューションニューラルネットワーク（ＣＮＮｓ）の到来により、手作りの機能は、画像パッチのレベルで動作した、学習されたＣＮＮ表現によって置き換わった。この傾向は、ピクセルレベルでのデンス（dense）推論を作り、認識および画像全体のセグメンテーションのプロセスを自然に実行する、ＤＮｓの導入とともに継続した。

（ｉｉ）制限されたデータでのトレーニング
ＤＮｓの１つの重要な問題は、自動車環境などのある種のドメインに適用されるとき、適切に大きい、多様なトレーニングデータが不足するということである。境界ボックス（bounding boxes）またはテキストキャプションで弱く注釈を付けられた、オブジェクト検出および画像分類データセットからの付加的データで既存のセマンティックセグメンテーションデータセット（すなわち、ピクセル単位のラベルから成る）を増加させることによってこの問題を緩和するための提案が存在する。両方の手法は、エンドツーエンドの方法でＤＮｓをトレーニングするために増加されたデータセットに直接適用され、精度の向上をもたらした。しかしながら、この方式で顕著な改善を得ることは、既存の付加的なデータセットが、単純なオブジェクトの注釈など − 同様の性質にあるときにのみ可能である。

（ｉｉｉ）シャロー（shallow）ネットワークの性能の向上
ディープ学習の最近の傾向は、さらによりディープなモデルを追い求めることであるが、よりシャローなモデルに対するディープモデルの優先は、よりシャローなモデルが限られた能力または表現力（representational power）を有することが示されたからではなく、むしろ、シャローモデルをトレーニングするために使用される学習および正則化手順が十分に強力ではないということである。これの１つの理由は、直観に反して、低品質のローカル最小値に陥る可能性は、ネットワークサイズが小さくなるとともに増すということである。シャローネットワークからより良い性能を引き出すための様々な手法が、文献において提案された。いくつかは、より大きい、ラベルを付されていないデータセットにラベルを付けるために、より大きいデータセットの小さいが代表的なサブセットでトレーニングされた、分類子のアンサンブルを使用する。大きいアンサンブルラベルを付けられたデータセットは、次いで、ネットワークをトレーニングするために使用される。別の手法では、大きい教師アンサンブル（a large teacher ensemble）がトレーニングされ、知識は、その教師のロジットアクティベーション（logit activations）にマッチさせるためにそれをトレーニングすることによって、それからシャローであるが広いモデルに転送された（transferred）。

本発明の一例が、以下のような図面を参照して例示のみを目的としてここで説明されることになる。

図１は、コンボリューションレイヤを示すために本明細書で使用される表記法を示す。図２（ａ）および図２（ｂ）は、プーリングレイヤを示すために本明細書で使用される２つの同等の表記法を示す。図３（ａ）、図３（ｂ）、および図３（ｃ）はそれぞれ、修正線形ユニットレイヤ、バッチ正規化レイヤ、およびソフトマックスレイヤを示すために本明細書で使用される表記法を示す。図４（ａ）および図４（ｂ）は、アンプーリングレイヤを示すために本明細書で使用される２つの同等の表記法を示す。図５（ａ）−図５（ｃ）は、本発明の例の説明において使用されるさらなる表記法を示す。図６は、本発明の例において使用される完全コンボリューションネットワーク（ＦＣＮ：fully convolutional network）を示す。図７は、本明細書で使用される表記法を示す図７（ａ）と、本明細書およびそれの定義において使用される別の表記法を示す図７（ｂ）と、で構成される。図８は、本発明の例において使用される第１のデコンボリューションネットワーク（Ｓ−Ｎｅｔ）の構造を示す。図９は、本発明の例において使用される第２のデコンボリューションネットワーク（Ｔ−Ｎｅｔ）の構造を示す。図１０は実験結果を示す。

一般論として、本発明は、ソースデコンボリューションネットワーク（本明細書ではＳ−Ｎｅｔとも称される）が、セマンティックセグメンテーションを実行するように適応的にトレーニングされることを提案する。トレーニングプロセスは、トレーニング画像を符号化する画像データと、トレーニング画像の対応するエリアにラベルを付ける注釈データとを備える、トレーニングデータを使用する。エリアは、代替的に、「スーパーピクセル」、または、個々のピクセルの代わりの他の構造であり得るが、エリアは、好ましくは、トレーニング画像の個々のピクセルである。注釈データは、オブジェクトカテゴリのいくつかの所定のセットのうちの１つを指定し、その画像の対応するエリアが、注釈データによって指定されたオブジェクトカテゴリ内にあるオブジェクトの画像であることを示す。

Ｓ−Ｎｅｔは、実質的に、それのサイズの制約なしに（または、現在の高速アクセスオンチップＳＲＡＭメモリのメモリ制限によって制約されることなしに任意のレートで）トレーニングされる。

トレーニング画像は、Ｓ−Ｎｅｔに入力され（そのうちのいくつかまたはすべてがＳ−Ｎｅｔを作るために使用されたものである可能性がある）、Ｓ−Ｎｅｔの１つまたは複数の対応する出力が、決定される。これらのトレーニング画像およびＳ−Ｎｅｔの（１つまたは複数の）測定された出力は、次いで、ターゲットデコンボリューションネットワーク（本明細書でＴ−Ｎｅｔとも称される）をトレーニングするために使用される。Ｔ−Ｎｅｔは、Ｓ−Ｎｅｔよりも実質的に少数の数値パラメータによって定義される。すなわち、Ｔ−Ｎｅｔのためのトレーニング手順は、Ｓ−Ｎｅｔを作るように適応されたものより少数の数値パラメータを適応することを含む。

具体的には、現在の高速アクセスオンチップＳＲＡＭなどの現在の集積回路設計による集積回路においてＴ−Ｎｅｔを実装することが可能であるように、Ｔ−Ｎｅｔは、Ｔ−Ｎｅｔのパラメータの数が数値制限より高くならないように選択（「制約」）され得る。たとえば、Ｔ−Ｎｅｔは、好ましくは、１０Ｍ以下の適応的にセットされた数値パラメータを有し、より好ましくは、５Ｍ未満の適応的に生成されセットされた数値パラメータを有する。Ｓ−Ｎｅｔは、それに反して、実質的に、トレーニング時間の制約および／またはそれを定義する数値パラメータを記憶するためのメモリ要件なしにトレーニングされ得る。Ｓ−Ｎｅｔは、Ｔ−Ｎｅｔの５０倍を超える（より好ましくは、１００倍を超える、または、２００倍も超える）適応的にセットされた数値パラメータを含み得る。

「デコンボリューションネットワーク」という用語は、シーケンスで配列された複数のレイヤと、それらのレイヤのうちの次のものにデータを連続的に送信するレイヤと、以下を含むレイヤとを備える、計算モデルを意味するために本明細書において使用される：
複数のコンボリューションレイヤ、各コンボリューションレイヤは、出力値のそれぞれの２次元配列を各フィルタについて生成するために、入力値の１つまたは複数の２次元配列にそれぞれのフィルタによって定義される複数のコンボリューション動作を実行する；
出力値のより小さい２次元配列を作るために、入力値の２次元配列にダウンサンプリング動作を各々実行する複数のプーリングレイヤ；
出力値のより大きい２次元配列を作るために、入力値の２次元配列にアップサンプリング動作を各々が実行する複数のアンプーリングレイヤ。

通常は、Ｓ−ＮｅｔおよびＴ−Ｎｅｔは、トレーニング装置の機能を果たす適切にプログラムされた汎用コンピュータなどのコンピュータ装置内部で、前述の方法によって、自動的に生成される。そのコンピュータ装置は、プログラム命令を実行するときに、コンピュータ装置のプロセッサに、Ｓ−ＮｅｔおよびＴ−Ｎｅｔを生成するための方法のステップを実行させるように動作するプログラム命令（非一時的な形の）を記憶する有形データストレージデバイスを含む、またはそのような有形データストレージデバイスへのアクセスを有する。

Ｔ−Ｎｅｔを記述するデータは、次いで、コンピュータ装置から出力され、１つまたは複数の有形集積回路としてＴ−Ｎｅｔを実装するために使用される。具体的には、Ｔ−Ｎｅｔのパラメータは、ＳｏＣ（システムオンチップ）技術を実装し、コンピュータ装置からＡＳＩＣ（特定用途向け集積回路）またはＦＰＧＡ（フィールドプログラマブルゲートアレイ）集積回路に転送され、Ｔ−Ｎｅｔのブロックによって定義された同じ動作が、実装される（すなわち、集積回路は、Ｔ−Ｎｅｔのクローンであり、コンボリューション、ＲｅＬｕ、プーリング、アンプーリングなどを実行する対応する機能ブロックを含む）。（１つまたは複数の）集積回路は、次いで、道路車両制御システムのセマンティックセグメンテーションコンポーネントなど、道路シーンの画像のセマンティックセグメンテーションのための車両装備システムの一部として使用され得る。道路車両制御システムの出力は、車両のステアリングシステムおよび速度制御システムの入力を制御するために、送信される。したがって、車両は、「自分で運転する」道路車両として動作することができる。

本発明の以下の例では、異なるドメインおよびモダリティ（modalities）からの多数の公的に利用可能なデータセットが、セマンティック道路シーンセグメンテーションのタスクのためのデータセットを形成するために照合される。我々は、我々の集積されたデータセットをマルチドメイン道路シーンのセマンティックセグメンテーション（ＭＤＲＳ３：Multi-Domain Road Scene Semantic Segmentation）データセットと呼ぶ。我々は、ＭＤＲＳ３のためのテストセットとして全体として構成データセット（constituent datasets）のうちの２つを選択する。これは、ＭＤＲＳ３のためのトレーニングおよびテストが、同じオリジナルデータセットのサブセットで実行されないことを意味し、性能は、タスク汎化のより良いインジケーションである。

Ｓ−Ｎｅｔ（および、任意選択でＴ−Ｎｅｔ）は、異なる「ドメイン」または「モダリティ」である複数の部分を含むトレーニングデータを使用して生成され得る。具体的には、ドメインのうちの第１のドメインは、その中で注釈データが各ピクセルについて正確であるトレーニングデータを含み得る。ドメインのうちの第２のドメインは、自動化アルゴリズムによって生成されたおよび各ピクセルについて利用可能ではないがそれらのうちの少数についてのみ利用可能である注釈データなど、その中で注釈データが概算である（approximate）トレーニングデータを含み得る。トレーニングデータの第１の種類は、「デンス（dense）」トレーニングデータと呼ばれ、一方、第２の種類は、「スパース（sparse）」トレーニングデータと呼ばれ、ここで、「デンス」は、ピクセルの総数に対する注釈付きのピクセルの比率が第１の閾値（たとえば、６０％またはさらに７０％）を上回ることを意味し、一方、スパースは、ピクセルの総数に対する注釈付きのピクセルの比率が第１の閾値より低い第２の閾値（たとえば、２０％またはさらに１０％）を下回ることを暗に示す。

Ｓ−Ｎｅｔは、Ｓ−Ｎｅｔへの入力を各々受信するおよび異なるそれぞれのモダリティでトレーニングデータでトレーニングされた複数のデコンボリューションネットワークを含み得る。Ｓ−Ｎｅｔは、複数のデコンボリューションネットワークの出力を結合するために、１つまたは複数のコンボリューションレイヤを任意選択で含む、１つまたは複数のレイヤを含み得る。

これらの原理の使用の詳細な例をここで説明する。

１．本例で使用されることになるトレーニングおよびテストデータセットの生成
道路シーンのセマンティックセグメンテーションのトレーニングに適したデータの獲得は、費用がかかり、時間がかかる。１０〜２０クラスで画像にデンスに（densely）ラベル付けするプロセスは、通常の、雑然とした遠近法のストリートビュー画像について最大３０分を要することがあり、そのため、存在するデータセットは比較的小さい傾向がある。加えて、データセットは、しばしば、局所的地理的領域に限定され、孤立してトレーニングおよびテストされる。本例では、多数のデータセットが、すべての利用可能な関連トレーニングデータを活用するために、我々がマルチドメイン道路シーンのセマンティックセグメンテーションデータセット（ＭＤＲＳ３）と呼ぶ、１つの集合的データセットを作成するために使用される。

１．１データセット合成
データセットは、ＣａｍＶｉｄ［１，２］およびＫＩＴＴＩセマンティック（ＫＩＴＴＩ−Ｓ）［３，４，５］などのデンスピクセル単位の注釈を有する一般的な道路シーンのセマンティックセグメンテーションデータセットを含む。

表１に示すように、これらのデンスデータセットは、様々なクラスの出現の頻度において大きい不均衡を含む：道路、空または建物などの構造的クラスは、車、歩行者、道路標識または自転車に乗った人などの重要な非構造的クラスよりも数桁多く頻出する。後者の認識を高めるために、我々は、注釈が境界ボックスまたはセグメンテーションマスクの形で利用可能である特定の検出および認識データセットを含む：ＫＩＴＴＩオブジェクト（ＫＩＴＴＩ−Ｏ）［３］と、都市環境における歩行者、自転車に乗った人、道路標識および車を含むＭｉｃｒｏｓｏｆｔＣＯＣＯ（Ｍ−ＣＯＣＯ）［６］のフィルタ処理されたセットと、歩行者のためのモバイルプラットフォームからのＥＴＨローバストマルチパーソントラッキング（ＥＴＨ−ＲＭＰＴＭＰ：ETH Robust Multi-Person Tracking from Mobile Platforms）［７］と、道路標識のためのドイツ交通標識認識ベンチマーク（ＧＴＳＲＢ：German Traffic Sign Recognition Benchmark）［８］。

我々のＭＤＲＳ３トレーニングおよびテストセットのクラスの分布（表１の最後の２つの行）は、我々のデータセット内のトレーニングデータが既存のデンスデータセットと比べて重要な稀なクラスのより多数のインスタンスをどのように含むかを示す。

１．２スパース注釈の改良（Refinement of sparse annotations）
注釈が境界ボックスの形で提供される構成データセット（表１においてアスタリスクの印を付けられた）について、ピクセル単位の注釈への改良が、［９］の同様のＧｒａｂＣｕｔベースの手法を採用することによって、実行された。９のオブジェクトカテゴリの多角形の境界ボックスでラベルを付けられたおよび多数のボイドエリア（void areas）を含むＣＢＣＬデータセットについて、カテゴリセットは、１１まで大きくされ、既存のラベルは、ＣＲＦ分類子［１０］を使用して欠けているエリア（missing areas）まで延長される。

１．３テストデータセット
評価のために、分離が、トレーニングとテストとのために使用される複数のデータセットの間で維持された。複数の異なるドメインの組合せが、トレーニングのためのデンスおよびスパース注釈とともに使用され、一方、テストは、デンスピクセル単位の注釈を有する２つの別個のデータセットを使用した：アーバンＬａｂｅｌＭｅ（Ｕ−ＬａｂｅｌＭｅ）とここで称される、異なる街からの都市画像を有するＬａｂｅｌＭｅデータセットの新しいサブセットと、ＣＢＣＬストリートシーンチャレンジフレームワークの処理されたサブセット。これらの２つのデータセットは、（ＣａｍＶｉｄおよびＫＩＴＴＩにおける前向きのカメラ視点と比較して）異なる視点および照明条件を有するより幅広いシナリオを含み、ＣａｍＶｉｄおよびＫＩＴＴＩと比べてより挑戦的である。したがって、テストデータセットは、特にトレーニングおよびテストのための同じシーケンスのサブセットの使用の共通の実施と比較して、テスト時間でのトレーニングされたネットワークの汎化性能のより優れた尺度（a better measure）を提供する。

２．セマンティックセグメンテーションのためのネットワークアーキテクチャ
我々は、知られているＤＮアーキテクチャと、タスク性能とメモリフットプリントとの間でそれが達成するトレードオフとを考慮する。選択された最新のネットワークは、完全コンボリューションネットワーク（ＦＣＮ）［１１］である。ＣＲＦでの拡張は、固有モデル容量を変更せず、必要に応じてスムーシングが後処理ステップとして追加され得るので、我々はＣＲＦで拡張されたモデルを考慮しない。

ＦＣＮアーキテクチャが、図６に示される。３つの配列は、それぞれの色、赤−緑−青の輝度（したがって、図６において、「３」の２次元配列によって定義される入力を有するものとしての第１のコンボリューションレイヤ）である。「ドロップ（drop）」の印を付けられたレイヤは、トレーニング中のニューラルアクティベーションの割合をランダムにスイッチオフするユニットを指す（画像の各バッチの異なるセットのアクティベーション）。これは、モデルオーバーフィットを減らすまたは回避する利点を有する。

パラメータＬは、ＦＣＭが認識するようにトレーニングされたオブジェクトカテゴリの数であることに、留意されたい。ＦＣＮの出力は、Ｌの２次元配列（各々は、ＦＣＮに入力される画像と同じサイズである）であり、ここで、各ピクセルについて、Ｌ値は、そのピクセルがＬのカテゴリのうちの対応する１つにおいてオブジェクトを画像化する可能性がどのくらいかを示す数値を表す。

図７（ａ）は、［データセット］によって示されるデータセットでトレーニングされたＦＣＮを示すために本明細書において後で使用されるシンボルを示す。ＦＣＮは、ピクセルをＬのオブジェクトカテゴリに分類するためのものである。

図７（ｂ）は、本明細書およびそれの定義において後で使用される別のシンボルを示す。これは、本明細書でＲＥＳブロックと呼ばれる。

ＦＣＮアーキテクチャの上方の行は、［１２］のＶＧＧ−１６アーキテクチャであり、バッチ正規化なしに、同じ方法で初期化される。ＦＣＮネットワークの深度（depth）は、一般的なシーン（オブジェクトの数千のクラスを含む）のセマンティックセグメンテーションのタスクのためにそろえられる（justified）が、よりシャローなネットワークは、制約された都市環境に十分であり得る。ＦＣＮは、より優れたローカライゼーション精度を達成するために、異なるレイヤの出力を結合することに留意されたい。

２．１ソースネットワーク（Ｓ−Ｎｅｔ）アーキテクチャ
ソースネットワーク（Ｓ−Ｎｅｔ）は、メモリまたは計算の制約を無視し、可能な最高の実行できるネットワークを選択することによって選ばれる。Ｓ−Ｎｅｔの選択は、以下のセクション３において説明され、そこで説明されるように、その結果は、図８に示されるネットワークである。Ｓ−Ｎｅｔへの入力は、入力値の３つの２次元配列から成る画像である。

Ｓ−Ｎｅｔは、異なるデータモダリティ、すなわち、それぞれデンスおよびスパースデータモダリティ、でそれぞれにトレーニングされた２つのＦＣＮネットワーク１、２のアンサンブルを備える。デンスデータモダリティを有するデータセットのピクセルは、Ｌ_dラベルのうちの１つと関連付けられ、したがって、ＦＣＮ１は、Ｌ_dの２次元配列である出力を生成する。スパースデータモダリティを有するデータセットのピクセルは、Ｌ_sラベルのうちの１つと関連付けられ、したがって、ＦＣＮ１は、Ｌ_sの２次元配列である出力を生成する。ＦＣＮ１、２によって出力される２次元配列の各々は、オリジナル画像と同じサイズである。我々の実験では、Ｌ_dは１１にセットされ、Ｌ_sは６にセットされた。

ＦＣＮｓの出力は、ユニット３によって連結される。これは、同一サイズのＬ_d＋Ｌ_sの２次元配列を作る。

Ｓ−Ｎｅｔは、Ｌのカテゴリを有するセマンティックセグメンテーションを実行するためにトレーニングされる。ユニット４は、そのピクセルで画像化されたオブジェクトがそれぞれのＬのカテゴリに属するそれぞれの可能性を示すＬ値を各ピクセルについて生成するためにトレーニングされる。

全体で、Ｓ−Ｎｅｔは、ＦＣＮ１、２のそれらを含む、２６９Ｍのパラメータを有する。

２．２ターゲットネットワーク（Ｔ−Ｎｅｔ）アーキテクチャ
Ｔ−Ｎｅｔが、図９に示される。Ｔ−Ｎｅｔは、４の縮小ブロック１１、１２、１３、１４から成り、その後に４の拡張ブロック１５、１６、１７、１８が続き、合計１．４Ｍのパラメータを有する（言い換えれば、Ｓ−Ｎｅｔのパラメータの０．５％を足らずである）。このサイズの縮小は、メモリ要件と性能との間の優れた妥協点を提供する。縮小ブロック（プーリングレイヤが後に続くコンボリューションレイヤ（バッチ再正規化およびＲｅＬｕを有する）を備える）は、標準分類ＣＮＮｓにあるような認識を可能にする豊富な表現を作り出す役割を果たす。拡張ブロック（デコンボリューションレイヤ（バッチ再正規化およびＲｅＬｕもまた有する）が後に続くアンプーリングレイヤを備える）は、ラベル割当てのローカライゼーションおよび描写を改善するために使用される。縮小ブロックと拡張ブロックの両方のコンボリューションレイヤは、１ピクセルのストライドと固定数の６４の機能マップとを有する７×７のカーネルを使用する。バッチ正規化が、トレーニング中の内部共変量シフト（internal covariate shift）を減らし、収束（convergence）を改善するために、ＲｅＬＵより前に追加される。拡張ブロック１５、１６、１７、１８におけるアップサンプリングが、現在のアクティベーションのためのプーリングインデックスを記憶および取得することによって、実行される。具体的には、縮小ブロックのプーリングユニット１１ａ、１２ａ、１３ａ、１４ａは、それぞれ、プーリングインデックスをアンプーリングユニット１８ａ、１７ａ、１６ａ、１５ａに渡す。これは、濃淡のむらのある結果（blocky results）を回避し、最終的な出力において鋭いエッジを作るのを助ける。線形分類子は、ピクセルレベルで最終的なラベル推定を実行する。４の拡張／縮小ブロックの選択は、モデルの簡潔さと優れた性能との間の最良のトレードオフを提供し、実証的分析によって動機づけられる。

いくつかのユニットのために異なるストライドを使用することは本発明の変更形態において可能であるが、図６、８および９内のすべてのコンボリューションレイヤは、ストライド１を使用する。

３．両方のＤＮアーキテクチャのためのＳ−Ｎｅｔおよびトレーニング戦略の選択
このセクションでは、Ｓ−Ｎｅｔを選択するためにおよび前述の挑戦的ＭＤＲＳ３データセットでＳ−ＮｅｔおよびＴ−Ｎｅｔをトレーニングするために使用される異なる手法を説明する。

Ｓ−Ｎｅｔを選択するために研究される手法は、（ｉ）「ｅ２ｅ」を使用する図６のＦＣＮのトレーニング − マルチドメイントレーニングデータの様々なサブセットを介する標準的エンドツーエンドトレーニングと、（ｉｉ）エンドツーエンドトレーニングのための安定した勾配方向を生成するために均衡のとれた勾配貢献（Balanced Gradient Contribution）を使用する − 「ＢＧＣ」を使用する図６のＦＣＮのトレーニングと、（ｉｉｉ）「フライングカー（Flying Cars）」のＦＣＮのトレーニング − スパーストレーニングデータの動的ドメイン適応と、（ｉｖ）図８に示すような、別個のドメインでトレーニングされたＦＶＮモデルのアンサンブリングを使用する、「アンサンブル」ネットワーク。

比較のために、我々はまた、トレーニング技法（ｉ）〜（ｉｖ）を所与としてＴ−Ｎｅｔがどのように実行することになるかを考慮した。技法（ｉｖ）において、これは、トレーニングされたネットワークは、図８に示されるそれであるが、ネットワーク１、２の各々としてそれぞれのＴ−Ｎｅｔ（Ｓ−Ｎｅｔで使用されるＦＣＮｓの代わりに）を有することを意味することに、留意されたい。言い換えれば、この技法は、技法（ｉ）〜（ｉｉｉ）よりも多数の数値パラメータを有するネットワークをもたらす。

各トレーニング戦略は、等しく初期化された。Ｓ−ＮｅｔおよびＴ−Ｎｅｔの縮小ブロックは、ＩｍａｇｅＮｅｔで事前トレーニングされた分類ネットワークの重み − ＦＣＮ（前述のように）の場合にはＶＧＧ−１６［１２］、そして、Ｔ−Ｎｅｔの場合にはＶＧＧ−Ｆ［１３］ − が割り当てられた。重みの形の調整は、次元が一致しない場合に実行された。拡張ブロックは、Ｈｅなどの方法を使用し、初期化された［１４］。

最適化が、アルミホのルール（Armijo's rule）で有界のラインサーチ戦略およびバックトラッキングを与えられた、確率的共役勾配降下法（Ｓ−ＣＧＤ：Stochastic Conjugate Gradient Descent）を使用する標準逆伝搬を介して実行された［１５］。オーバーフィットを回避するために、ラインサーチ反復の数は、３に抑制された。これは、学習レートのマニュアル微調整なしに確率的勾配降下法より速く優れた解決法に収束することが判明した。

３．１エンドツーエンドトレーニング（ｅ２ｅ）
実験において使用される最も単純なトレーニング手法、エンドツーエンド（ｅ２ｅ）トレーニング、は、混合のデンスおよびスパーストレーニングセット（すなわち、すべてのデータが入った）からのランダムサンプル（置換を有する）の標準ミニバッチトレーニング（standard mini-batch training）で構成される。

標準逆伝搬は、トレーニングのために使用される：ネットワークの出力と所望の出力との間の差の特性を示す損失関数を使用すること、ネットワークを通したエラーの逆伝搬と、次いで、学習レートと逆伝搬された勾配との積であるデルタによる重みの更新とが存在する。

合理的なクラスごとの精度を達成するために、重み付けされたクロスエントロピー（ＷＣＥ）が、損失関数の定義において使用された。ＷＣＥは、トレーニングデータセットχにおいて逆頻度（inverse frequency）ｆ^l（χ）^-1に従って、各クラスの重要性ｌ∈［１，．．，Ｌ］、を再スケール設定する、すなわち：
ここで、ｘⁿは、ｎ番目のトレーニング画像を表し、ｙⁿは、対応するｎ番目のグラウンドトゥルース画像を表し（すなわち、ｙ_ijlは、その他すべてについての１およびゼロのうちの１つの値についてゼロに等しい）、Ｆは、ネットワークによって実行される関数を指し（すなわち、関数Ｆへの第１の入力は、ＨｘＷｘＣコンポーネントを有する画像であり（ここで、Ｃは色の数である）、θは、ネットワークのすべてのパラメータを表し（すなわち、それは、そのネットワークのすべての重みのスタックである）、そして、関数Ｆは、ＨｘＷｘＬコンポーネントを有するテンソル（a tensor）を出力する）、そして、重み付け関数は、
によって与えられる。
は、任意で選択され、任意の小さい数であり得る。すべてのピクセルがωへのいくらかの貢献を行うことを保証することが存在する。

この方法で、ＷＣＥは、トレーニング中の歩行者または自転車などの稀であるが重要なクラスへのネットワークの注意を減らすようにさもなければ観測されたクラス頻度不均衡、表１において顕在化された共通の現象、をネットワークが説明する（account for）のを助けた。

エンドツーエンドトレーニングは、デンスドメインおよびスパースドメインの別個のモデルならびに両方のデータドメインでの結合されたモデルを学習するために、適用された。しかし、この手法が、結合されたデータで単純に使用されるとき、我々は、対象の不安定な振動運動と、最終的にはシステムの分化（divergence）とを観測した。この現象は、両方の分布の統計量の間の激しい差により、最適化中に非常に騒々しい降下方向（very noisy descent directions）を生じさせる。したがって、両方のドメインにおいて利用可能なすべての情報を活用するために、以下のセクションで提案されるものなどの代替手段を介して、トレーニングプロセスを安定させることが好ましい。

３．２均衡のとれた勾配貢献（ＢＧＣ）
複数のドメイン間の深刻な統計的差異は、ミニバッチのシーケンスの勾配における大きい分散（a large variance in gradients）を生じさせる。デンスドメインからのデータは、より安定し、構造的クラスに適しているが、一般に与える情報は少ない（less informative）。スパースドメインからのデータは、動的クラスに関する重大な情報を有し、与える情報が多い（highly informative）が、非常に騒々しい。これらの態様に対処するために、探索方向が、（３）に示されるようにスパースドメインによって与えられる制御された摂動の下でデンスドメインによって提案される方向を使用し、計算された。
ここで、ｘ、ｙは、デンス（Ｄ）またはスパース（Ｓ）ドメインから引き出された、サンプルのサブセットとそれらの関連ラベルとを表す。ここで、Ｌｏｓｓ_WCE（ｘ^Ｄ，ｙ^Ｄ）およびＬｏｓｓ_WCE（ｘ^Ｓ，ｙ^Ｓ）は、サンプルの対応するサブセットを介して方程式（１）によって与えられるＬｏｓｓ_WCEの各合計である。ラムダは、検証セットを使用するいくつかのテストの後に実験的に選択される。

この手順は、パラメータλによって制御された非常に情報の多いレギュラライザ（regularizer）の追加として見ることができるが、類似の効果は、
となるように、各ドメインからの画像の慎重に選択された割合を含むミニバッチを生成することによって達成することができ、ここで、
および
は、ｘ^Ｄおよびｘ^Ｓの要素の数を示す。トレーニング手順のこの修正は、優れた結果および安定した動作につながる。

３．３フライングカー（ＦＣ）：データ投影によるドメイン適応
互換性のないドメインの組合せに起因する問題を解決するための別の代替手段は、あるドメインから別のドメインに投影または転送することである。我々の場合、騒々しいスパースドメインが、ドメイン適応からのアイデアを使用してデンスドメインに投影される。これは、たとえば、デンスドメインからランダム画像を選択することと、スパースドメインのオブジェクトおよびラベルをその中で投入するバックグラウンドとしてそれらを使用することとによって、達成され得る。この手法は、デンスドメインにわたって非常に情報の多いデータ増大を実行する方法として見ることができる。我々は、シーンに挿入されるオブジェクトの空間コンテキストの厳しい制約を提供しない単純な手法を使用し、したがって、「フライングカー」（ＦＣ）の名がある。

３．４スパースおよびデンスドメインのアンサンブル
最後に、複数のドメインについて２つの異なるタスクとして考えることが可能である：一方は、精細に注釈を付けられたデータからＬ_D＝１１クラスを認識することから成り、他方は、騒々しいスパース注釈からのＬ_S＝６クラス、すなわち、フォアグラウンド、交通標識、ポール、車、歩行者および自転車に乗った人、を認識することから成る。デンスドメインでトレーニングされたモデル、θ_Dは、道路、建物および歩道などの構造的要素がより得意であり、一方、スパースドメインでトレーニングされたモデル、θ_Sは、歩行者および自転車に乗った人などの動的オブジェクトのセグメント化することを非常に得意とする。これらのモデルは、オリジナルモデルの出力からの合意を実行するためにいくつかの新しいトレーニング可能なブロックを追加する、より大きいネットワークの一部として結合され得る。我々の実験では、アンサンブルは、オリジナルネットワークを固定することと、一貫性のある出力を推定するために図８に示されるようにコンボリューションブロックおよび４つの残りのブロックを追加することとによって、実行される。残りのブロックは、実際には単純なコンボリューションより優れた汎化をもたらすことが発見されたので、それらが、使用された。

以下にあるセクション５は、このセクションで説明されたトレーニング方法の実験的結果を示す。表２に示すように、Ｓ−Ｎｅｔになるすべての４つの候補は、より小さいＴ−Ｎｅｔより一貫して性能が優れていることが観測された。これらの４つの候補のうち、４ＲＥＳブロックを有し、２つは１２８の機能を有して２つは６４の機能を有する、図８のアンサンブルは、それがオーバーフィットをクリアすることにつながらなかったことを我々が発見した、最良の構成であった。したがって、これが、Ｔ−ＮｅｔのトレーニングのためのＳ−Ｎｅｔとして採用された。

４．デコンボリューションネットワークにわたる知識の転送
Ｓ−Ｎｅｔの高い精度にも関わらず、そのパラメータの数の多さは、道路シーンセグメンテーションのコンテキストで、それを埋め込みアプリケーションには不向きにする。同等の性能を有するようにＴ−Ｎｅｔなどのよりコンパクトなモデルを促進することが可能であるかどうかが調査された。これは、Ｔ−Ｎｅｔの容量が、Ｓ−Ｎｅｔのレベルでの結果を作るのに十分であるという前提に基づくが、トレーニングデータ内のバッチ正規化およびノイズなど、そのトレーニングおよびアーキテクチャの特定の詳細により、セクション３の方法は、それの完全な潜在力を活用することができない。したがって、Ｔ−ＮｅｔでＳ−Ｎｅｔの動作をエミュレートする（emulate）（すなわち、Ｓ−Ｎｅｔの知識をＴ−Ｎｅｔに転送する）ための試みが成された。我々は、知識を転送するための３つの手法を説明する：（ｉ）ラベルを介する（ＴＫ−Ｌ）、（ｉｉ）ソフトマックス確率を介する（ＴＫ−ＳＭＰ）、および、（ｉｉｉ）重み付けされたクロスエントロピーを有するソフトマックス確率を介する（ＴＫ−ＳＭＰ−ＷＣＥ）。Ｓ−Ｎｅｔの「ドロップ」レイヤは、知識転送プロセス中にオフにされる（すなわち、ゼロにＳ−Ｎｅｔのニューラルアクティベーションをランダムにセットするプロセスは存在せず、Ｓ−Ｎｅｔの「ドロップ」レイヤは、それらの入力を修正せずに出力する）ことに留意されたい。結果は、表３に示される。

４．１ラベルを通した知識の転送（ＴＫ−Ｌ）
この戦略は、その予測されるラベルから直接にＳ−Ｎｅｔの知識を引き出すことを目標とする。セクション１に記載されたトレーニングデータのデンスドメインとスパースドメインの両方が、それらのオリジナルの注釈を無視して、使用された。この手法の利益は、データのマルチモダリティがＳ−Ｎｅｔによってフィルタ処理され、いくつかの不正解の選択肢（distractor）が無視され、そうして、Ｔ−Ｎｅｔに達する情報がより単純になり、よりスムーズな探索空間をもたらし、優れた解決法を見つけるのをより容易にするということである。我々のセットアップでは、米国内の複数の街からの街の景色が撮られた、大きいラベルを付されていないグーグルストリートビュー（ＧＳＶ）データセットからの特別なトレーニングデータ（すなわち、トレーニング画像の新しいドメイン）を含めた［１６］。我々は、上を向いたカメラを取り除き、５１，７１５の画像を作るために各画像からランダムクロップ（a random crop）を取った。我々は、標準クロスエントロピー損失でＴ−Ｎｅｔをトレーニングするために、ＢＧＣを使用して前のトレーニングデータと新しいトレーニングデータとを結合させた。再び、トレーニングが、画像の連続するバッチを使用して行われ、各バッチは、予備のドメイン、デンスドメインおよび新しいドメインからのトレーニング画像を含む。方程式（１）は、まだ有効であるが、ｙ_ijlはもはや０または１ではなく、しかし、範囲［０，１］内の値は、ｌの可能性にわたる所与のピクセル（ｉ，ｊ）についての確率分布を表す。所与のピクセルについて、値ｙ_ijlは、やはり１まで合計する。したがって、ＢＧＣは、ＧＳＶデータの影響を制御し、ドリフトを防ぐための重要なメカニズムとして使用される。

４．２ソフトマックス確率を通した知識の転送（ＴＫ−ＳＭＰ）
本戦略は、複数の異なるクラスがどのように相関するかに関する情報を含む、ソフトマックス分類子によって作られる確率分布を考慮することによって、転送中にＳ−Ｎｅｔからの付加的情報を使用する。この目的のために、我々は、我々の損失関数としてＳ−Ｎｅｔの確率分布とＴ−Ｎｅｔの確率分布との間の標準クロスエントロピーを使用してＴ−Ｎｅｔをトレーニングする。前の戦略でのように、トレーニングは、ＧＳＶデータの影響を制御してそれの貢献を抑制するためにＢＧＣを利用する。この第２の手法は、表３に示すようにネットワーククラスごとの精度の著しい向上をもたらす。

この方法の変更形態は、転送プロセス中にＴ−Ｎｅｔにドロップアウトブロックを追加することから成る。実際には、この追加は、ネットの汎化の改善を助け、エンドツーエンドトレーニングにおけるように機能する。表３を参照（「ＴＫ−ＳＭＰ−ドロップ」）。

４．３ＷＣＥでのソフトマックス確率を通した知識の転送（ＴＫ−ＳＭＰ−ＷＣＥ）
ＴＫ−ＬおよびＴＫ−ＳＭＰの前の手法の問題の１つは、それらが、転送中にクラス不均衡を説明しないということである。実際には、これは、結果として生じるモデルが、主要な（dominant）クラスに偏り、クラスごとのより高い精度を有する作成モデルは、トレーニング中により多数のエポックを必要とするということを意味する。我々は、方程式（１）の形で損失関数を使用することによってＷＣＥで各ソフトマックスサンプルの影響を制御することによってこの問題を解決することを提案し、ここで、
は、異なるデータセットの影響がＢＧＣによって制御されるのと同じ方法で、トレーニング画像のバッチが提示されるときにＳ−Ｎｅｔの出力によって置き換えられる。Ｔ−Ｎｅｔにおけるドロップアウトの使用と組み合わせて、この修正は、Ｓ−Ｎｅｔと同じクラスごとの精度を実質的に有するモデル、すなわち、ＦＣＮｓのアンサンブルをもたらす；表３（ＴＫ−ＳＭＰ−ＷＣＥ）を参照。この方法では、埋め込み型のシステムおよび自動車アプリケーションにとって便利な、正確なおよびメモリ効率的モデルを生じさせ、Ｔ−Ｎｅｔの全潜在能力は、解放される。

５実験結果
我々は、最新のベースラインのセットに関して、提案されたトレーニング方法論の性能を評価する。均衡のとれた勾配貢献（ＢＧＣ）と組み合わせて使用されるとき、我々のＴＫ−ＳＭＰ−ＷＣＥ転送技法の性能は、特に強調される。

すべての我々の実験は、Ｕ−ＬａｂｅｌＭｅとＣＢＣＬとの組合せをテストし、ＭＤＲＳ３データセット（セクション１）で実行される（全体で１，５２６の画像）。時間およびリソースの制約により、我々は、すべての我々の実験において２４０×１８０の解像度にオリジナル画像をサブサンプリングする（subsample）。これは、モデルのトレーニングおよび評価の速度を上げるが、歩道、ポールおよび交通標識など、ある特定のクラスを低い解像度を原因としてすべてのモデルについて認識することを系統的により難しくする。それでもなお、この要因は、すべての実験にわたって一貫性があり、複数の異なるトレーニング手法およびモデルを比較するときに得られる結論に影響を及ぼさない。画像は、各チャネルに独立して適用される、空間コントラスト正規化を使用して最初に正規化される。その後、ゼロ平均および範囲［−１２７，１２７］におけるデータ再度スケール設定が、適用される。実際に、我々は、この正規化が収束の速度を上げることを観測した。

表２は、セマンティックセグメンテーションを実行するためにＦＣＮｓ、Ｓ−ＮｅｔおよびＴ−Ｎｅｔをトレーニングする実験の結果を示し、一方、表３は、知識転送によるＴ−Ｎｅｔのトレーニングの結果を示す。結果は、クラスごとの平均精度（「クラスごと」としての表２および３の列）およびグローバル精度（「グローバル」の印を付けられた列）に従って、評価される。クラスｉに属し、クラスｊとして分類されたピクセルの数、ｎ_i,j、を所与とし、そして、Ｌはクラスの数であると仮定すると、そのとき、「クラスごと」は
として評価され、「グローバル」は
として評価され、ここで、Ｎは評価セット内のピクセルの総数である。都市シーンにおけるクラス頻度の固有の不平衡の性質により、我々は、モデルの認識および汎化能力を評価するためにはクラスごとの平均がより重要になると考える。現在の方法の結果とＦＣＮモデルの結果との差異は、かっこ（brackets）において示される。

５．１マルチドメイントレーニングの評価
エンドツーエンドトレーニング。表２の行２および３の行は、セクション３．１において説明されたエンドツーエンド手法で、デンスドメインのみを使用してトレーニングされたモデルを示す。この初期のセットアップについて、Ｔ−Ｎｅｔは、クラスごとに１１．２ポイントによってＦＣＮに及ばない。

我々は、エンドツーエンドトレーニングにスパースドメインを追加することによって、この第１の評価を拡張した。しかし、表２の行４および８に示すように、トレーニングは、両方の場合で分化した。この現象は、セクション３．１で解説され、それの貢献が抑制されないときにスパースドメインによって導入される勾配ノイズに起因する。これは、分布にわたる制御およびデータの複雑性が競合し得るトレーニング結果を作るために必要とされるという我々の主張を強固にする。

フライングカー、ＢＧＣ＆アンサンブル。エンドツーエンドトレーニングが、各ドメインの貢献を制御するためのポリシを実装する方法に置き換えられるとき、精度の向上は、著しい。表２、行５〜７は、すべての技法について、制御されたトレーニングが標準ＦＣＮのクラスごとを改善することを示す。ＦＣおよびＢＧＣ方法は、最高の性能を達成しないが、ほんの１つのトレーニングステージを必要とするという利点を有し、一方、アンサンブルは、第一に（ドメインごとに）個々のモデルをトレーニングすることと、次いで、それらをマージすることとを必要とする。Ｔ−ＮｅｔでのＦＣ、ＢＧＣおよびアンサンブルの適用の結果は、前の場合と類似しており、やはり、アンサンブルは、クラスごとの精度に関して最良の結果を示す（表２、行９から１１を参照）。

５．２知識転送方法の評価
表３に要約されるように、Ｔ−Ｎｅｔでの前のトレーニング手法の結果は、知識転送方法を適用するときに劇的に改善される。すべての転送方法について、我々は、Ｓ−Ｎｅｔの動作のキャプチャを助ける、プロセスの間のＳ−Ｎｅｔ応答の可変性（variability）を増すために、グーグルストリートビューデータセット［１７］からラベルを付されていないデータを追加した。

ここで、転送技法の進化がＴ−Ｎｅｔ性能の向上に直接に相関することが分かった。Ｓ−Ｎｅｔからのラベル（ＴＫ−Ｌ）の単純な転送は、ＦＣＮ（ここで基準として使用される）より既に２．９ポイント優れたＴ−Ｎｅｔモデルを作る。転送が、クラスにわたるソフトマックス確率分布に基づくとき、ＴＫ−ＳＭＰにあるように、精度は、５７．３まで高められる（ＦＣＮより６．７ポイント優れる）。ドロップアウトが、ＴＫ−ＳＭＰ転送（ＴＫ−ＳＭＰ−ドロップ）に含まれるとき、それは、ＦＣＮと比較してグローバル精度を３．２ポイント向上させることは、注目に値する。クラスごとの精度におけるいくらかの損失を代償としてドロップアウトを使用するときに、この効果を観測した。

最後に、表３の行６は、Ｓ−Ｎｅｔソフトマックス分布が、データセットにおけるそれらの関連性（すなわち、不十分かより関連性があるか）に従って重み付けされるときに、この知識の転送が、これまでに発見された最大の性能、５９．３％のクラスごとの精度、を達成することを示す。したがって、ＴＫ−ＳＭＰ−ＷＣＥ手法は、Ｓ−Ｎｅｔの結果にほぼ到達し、クラスごとにおいてＦＣＮより９．１ポイント優れ、グローバル精度において０．２ポイント優れたＴ−Ｎｅｔ、すなわち、２００倍多いパラメータを有する２つのＦＣＮのアンサンブル、を作る。

図１０は、モデルサイズに対するモデル性能を示す、別の形でのこれらの結果を表す。

ある特定の配置が説明されたが、これらの配置は、単に例として提示され、本発明の範囲を限定することは意図されていない。実際には、本明細書に記載の装置^*は、様々な他の形で具現化されることができ、さらに、本明細書に記載の装置の形における様々な省略、置換および変更が行われ得る。

参考文献
［１］Ｂｒｏｓｔｏｗ，Ｇ．Ｊ．，Ｆａｕｑｕｅｕｒ，Ｊ．，Ｃｉｐｏｌｌａ，Ｒ．：Ｓｅｍａｎｔｉｃｏｂｊｅｃｔｃｌａｓｓｅｓｉｎｖｉｄｅｏ：Ａｈｉｇｈ−ｄｅｆｉｎｉｔｉｏｎｇｒｏｕｎｄｔｒｕｔｈｄａｔａｂａｓｅ．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ３０（２）（２００９）８８−９７．
［２］Ｂｒｏｓｔｏｗ，Ｇ．Ｊ．，Ｓｈｏｔｔｏｎ，Ｊ．，Ｃｉｐｏｌｌａ，Ｒ．：Ｓｅｇｍｅｎｔａｔｉｏｎａｎｄｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｓｔｒｕｃ−ｔｕｒｅｆｒｏｍｍｏｔｉｏｎｐｏｉｎｔｃｌｏｕｄｓ．Ｉｎ：Ｅｕｒ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）．（２００８）．
［３］Ｇｅｉｇｅｒ，Ａ．，Ｌｅｎｚ，Ｐ．，Ｓｔｉｌｌｅｒ，Ｃ．，Ｕｒｔａｓｕｎ，Ｒ．：Ｖｉｓｉｏｎｍｅｅｔｓｒｏｂｏｔｉｃｓ：ＴｈｅＫＩＴＴＩｄａｔａｓｅｔ．Ｉｎｔｌ．Ｊ．ｏｆＲｏｂｏｔｉｃｓＲｅｓｅａｒｃｈ（２０１３）．
［４］Ｋｕｎｄｕ，Ａ．，Ｌｉ，Ｙ．，Ｄｅｌｌａｅｒｔ，Ｆ．，Ｌｉ，Ｆ．，Ｒｅｈｇ，Ｊ．Ｍ．：Ｊｏｉｎｔｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎａｎｄ３Ｄｒｅｃｏｎｓｔｒｕｃｔｉｏｎｆｒｏｍｍｏｎｏｃｕｌａｒｖｉｄｅｏ．Ｉｎ：Ｅｕｒ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）（２０１４）．
［５］Ｒｏｓ，Ｇ．，Ｒａｍｏｓ，Ｓ．，Ｇｒａｎａｄｏｓ，Ｍ．，Ｂａｋｈｔｉａｒｙ，Ａ．，Ｖａｚｑｕｅｚ，Ｄ．，Ｌｏｐｅｚ，Ａ．Ｍ．：Ｖｉｓｉｏｎ−ｂａｓｅｄｏｆｆｌｉｎｅ−ｏｎｌｉｎｅｐｅｒｃｅｐｔｉｏｎｐａｒａｄｉｇｍｆｏｒａｕｔｏｎｏｍｏｕｓｄｒｉｖｉｎｇ．Ｉｎ：ＷｉｎｔｅｒＣｏｎｆｅｒｅｎｃｅｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＷＡＣＶ）（２０１５）．
［６］Ｌｉｎ，Ｔ．Ｙ．，Ｍａｉｒｅ，Ｍ．，Ｂｅｌｏｎｇｉｅ，Ｓ．，Ｈａｙｓ，Ｊ．，Ｐｅｒｏｎａ，Ｐ．，Ｒａｍａｎａｎ，Ｄ．，Ｄｏｌｌａｒ，Ｐ．，Ｚｉｔｎｉｃｋ，Ｃ．Ｌ．：ＭｉｃｒｏｓｏｆｔＣＯＣＯ：ＣｏｍｍｏｎＯｂｊｅｃｔｓｉｎＣｏｎｔｅｘｔ．Ｉｎ：Ｅｕｒ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）（２０１４）．
［７］Ｅｓｓ，Ａ．，Ｌｅｉｂｅ，Ｂ．，Ｓｃｈｉｎｄｌｅｒ，Ｋ．，Ｇｏｏｌ，Ｌ．Ｖ．：Ｒｏｂｕｓｔｍｕｌｔｉ−ｐｅｒｓｏｎｔｒａｃｋｉｎｇｆｒｏｍａｍｏｂｉｌｅｐｌａｔｆｏｒｍ．ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌ．ＭａｃｈｉｎｅＩｎｔｅｌｌ．３１（１０）（２００９）１８３１−１８４６．
［８］Ｈｏｕｂｅｎ，Ｓ．，Ｓｔａｌｌｋａｍｐ，Ｊ．，Ｓａｌｍｅｎ，Ｊ．，Ｓｃｈｌｉｐｓｉｎｇ，Ｍ．，Ｉｇｅｌ，Ｃ．：Ｄｅｔｅｃｔｉｏｎｏｆｔｒａｆｆｉｃｓｉｇｎｓｉｎｒｅａｌ−ｗｏｒｌｄｉｍａｇｅｓ：ＴｈｅＧｅｒｍａｎＴｒａｆｆｉｃＳｉｇｎＤｅｔｅｃｔｉｏｎＢｅｎｃｈｍａｒｋ．Ｉｎ：ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．Ｎｕｍｂｅｒ１２８８（２０１３）．
［９］Ｐａｐａｎｄｒｅｏｕ，Ｇ．，Ｃｈｅｎ，Ｌ．Ｃ．，Ｍｕｒｐｈｙ，Ｋ．，Ｙｕｉｌｌｅ，Ａ．Ｌ．，Ｗｅａｋｌｙ− ａｎｄｓｅｍｉ−ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｏｆａｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｆｏｒｓｅｍａｎｔｉｃｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ．Ｉｎ：Ｉｎｔｌ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ）（２０１５））．
［１０］Ｌａｄｉｃｋｙ，Ｌ．，Ｓｔｕｒｇｅｓｓ，Ｐ．，Ａｌａｈａｒｉ，Ｋ．，Ｒｕｓｓｅｌｌ，Ｃ．，Ｔｏｒｒ，Ｐ．Ｈ．Ｓ．：Ｗｈａｔ，ｗｈｅｒｅａｎｄｈｏｗｍａｎｙ？ＣｏｍｂｉｎｉｎｇｏｂｊｅｃｔｄｅｔｅｃｔｏｒｓａｎｄＣＲＦｓ．Ｉｎ：Ｅｕｒ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）．（２０１０）４２７−４３７）．
［１１］Ｌｏｎｇ，Ｊ．，Ｓｈｅｌｈａｍｅｒ，Ｅ．，Ｄａｒｒｅｌｌ，Ｔ．：Ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ．Ｉｎ：ＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）（２０１５）．
［１２］Ｓｉｍｏｎｙａｎ，Ｋ．ａｎｄＺｉｓｓｅｒｍａｎ，Ａ．Ｖｅｒｙｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｌａｒｇｅ−ｓｃａｌｅｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ．Ｉｎ：Ｉｎｔｌ．Ｃｏｎｆ．ｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（ＩＣＬＲ）（２０１５）．
［１３］Ｃｈａｔｆｉｅｌｄ，Ｋ．，Ｓｉｍｏｎｙａｎ，Ｋ．，Ｖｅｄａｌｄｉ，Ａ．，Ｚｉｓｓｅｒｍａｎ，Ａ．：Ｒｅｔｕｒｎｏｆｔｈｅｄｅｖｉｌｉｎｔｈｅｄｅｔａｉｌｓ：Ｄｅｌｖｉｎｇｄｅｅｐｉｎｔｏｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ．Ｉｎ：ＢｒｉｔｉｓｈＭａｃｈｉｎｅＶｉｓｉｏｎＣｏｎｆ．（ＢＭＶＣ）（２０１４）．
［１４］Ｈｅ，Ｋ．，Ｚｈａｎｇ，Ｘ．，Ｒｅｎ，Ｓ．，Ｓｕｎ，Ｊ．：Ｄｅｌｖｉｎｇｄｅｅｐｉｎｔｏｒｅｃｔｉｆｉｅｒｓ：Ｓｕｒｐａｓｓｉｎｇｈｕｍａｎ−ｌｅｖｅｌｐｅｒｆｏｒｍａｎｃｅｏｎＩｍａｇｅＮｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｉｎ：Ｉｎｔｌ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ）（２０１５）．
［１５］Ｌｅ，Ｑ．Ｖ．，Ｎｇｉａｍ，Ｊ．，Ｃｏａｔｅｓ，Ａ．，Ｌａｈｉｒｉ，Ａ．，Ｐｒｏｃｈｎｏｗ，Ｂ．，Ｎｇ，Ａ．Ｙ．：Ｏｎｏｐｔｉｍｉｚａｔｉｏｎｍｅｔｈｏｄｓｆｏｒｄｅｅｐｌｅａｒｎｉｎｇ．Ｉｎ：Ｉｎｔｌ．Ｃｏｎｆ．ｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ（ＩＣＭＬ）（２０１１）．
［１６］Ｚａｍｉｒ，Ａ．Ｒ．，Ｓｈａｈ，Ｍ．：Ｉｍａｇｅｇｅｏ−ｌｏｃａｌｉｚａｔｉｏｎｂａｓｅｄｏｎｍｕｌｔｉｐｌｅｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｆｅａｔｕｒｅｍａｔｃｈｉｎｇｕｓｉｎｇｇｅｎｅｒａｌｉｚｅｄｇｒａｐｈｓ．ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ３６（８）（２０１４）１５４６−１５５８．
［１７］Ｚａｍｉｒ，Ａ．，Ｓｈａｈ，Ｍ．：Ｉｍａｇｅｇｅｏ−ｌｏｃａｌｉｚａｔｉｏｎｂａｓｅｄｏｎｍｕｌｔｉｐｌｅｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｆｅａｔｕｒｅｍａｔｃｈｉｎｇｕｓｉｎｇｇｅｎｅｒａｌｉｚｅｄｇｒａｐｈｓ．（２０１４）．

Claims

入力画像の対応するエリアのラベルデータを作るためのコンピュータシステムを形成するためのコンピュータ実装方法であって、前記ラベルデータは、所定の値のセットのうちの１つの所定の値であり、前記画像の前記対応するエリアがオブジェクトカテゴリのセットのうちのそれぞれのオブジェクトカテゴリ内にあるオブジェクトの画像であることを示し、前記方法は、
（ｉ）トレーニング画像を符号化する第１の画像データおよび（ｉｉ）各トレーニング画像の注釈データの対応するセットを備えるトレーニングデータを使用する監視された学習によって、複数の第１の値によって定義されるソースデコンボリューションネットワークを適応的に生成することと、各トレーニング画像の注釈データの前記セットは、前記トレーニング画像の複数の対応するエリアについて、前記トレーニング画像の前記エリアが、オブジェクトカテゴリの前記セットのうちのそれぞれのオブジェクトカテゴリ内にあるオブジェクトの画像であることを示し、
前記ソースデコンボリューションネットワークにトレーニング画像を符号化する第２の画像データを入力し、前記ソースデコンボリューションネットワークの１つまたは複数の出力を記述する対応する出力データを収集することと、
複数の第２の値によって定義されるターゲットデコンボリューションネットワークを適応的に生成するために、前記第２の画像データおよび前記出力データを使用することと、前記複数の第２の値のカーディナリティは、前記複数の第１の値のカーディナリティより低く、
前記ターゲットデコンボリューションネットワークを実装するコンピュータシステムを形成することと、
を備える、コンピュータ実装方法。
所与のトレーニング画像の前記収集された出力データが、前記トレーニング画像のそれぞれの領域について、前記トレーニング画像の前記領域が対応する既定義のオブジェクトカテゴリであるオブジェクトを示すことを示すラベルのセットである、請求項１に記載の方法。
所与のトレーニング画像の前記収集された出力データが、ベクトルのセットであり、各ベクトルが、オブジェクトカテゴリの数と等しいいくつかのコンポーネントを有し、前記トレーニング画像のそれぞれの領域について、オブジェクトが前記対応するオブジェクトカテゴリ内にあることを前記領域が示す確率値を示す、請求項１に記載の方法。
前記ターゲットデコンボリューションネットワークの前記適応的生成が、前記第２の画像データによって符号化される前記トレーニング画像のうちの１つの所与のエリアについて、前記トレーニング画像とともに提示されるときの前記ターゲットデコンボリューションネットワークの対応する出力と前記ソースデコンボリューションネットワークの対応する出力との間のクロスエントロピーを示す、クロスエントロピー損失関数を使用して実行される、請求項３に記載の方法。
前記クロスエントロピー損失関数が、（ａ）前記ターゲットデコンボリューションネットワークおよびソースデコンボリューションネットワークの対応する出力の類似を表す項と（ｂ）前記オブジェクトカテゴリの重み付け項との積の前記複数のオブジェクトカテゴリにわたる和を計算することによって計算され、前記オブジェクトカテゴリの前記重み付け項は、前記トレーニングデータにおける前記対応するオブジェクトカテゴリのオブジェクトの頻度を増やすために減少する、請求項４に記載の方法。
前記ソースデコンボリューションネットワークおよび前記ターゲットデコンボリューションネットワークのうちの少なくとも１つの前記適応的生成は、逆伝搬アルゴリズムによるものであり、前記アルゴリズム中に、前記値の連続するサブセットがランダムに選択され、値の各選択されたサブセットの対応するネットワークの出力への効果が、連続的に無視される、請求項１に記載の方法。
前記第２の画像データの前記トレーニング画像のうちの少なくともいくつかが、前記第１の画像データのトレーニング画像である、請求項１に記載の方法。
前記トレーニングデータが、前記注釈データが比較的高い密度を有する第１の部分と、前記注釈データが比較的低い密度を有する第２の部分とを含む、請求項１に記載の方法。
前記ソースデコンボリューションネットワークを生成する前記ステップが、前記トレーニングデータの前記第１の部分を使用して第１のネットワークコンポーネントを生成することと、前記トレーニングデータの前記第２の部分を使用して第２のネットワークコンポーネントを生成することと、を備え、
前記ソースデコンボリューションネットワークが、（ｉ）前記第１のおよび第２のネットワークコンポーネントの各々に前記ソースデコンボリューションネットワークに入力される画像データを送信するように、および（ｉｉ）前記第１のおよび第２のネットワークコンポーネントの出力を使用して前記１つまたは複数の出力を生成するように、適応される、請求項８に記載の方法。
前記ソースデコンボリューションネットワークおよび前記ターゲットデコンボリューションネットワークのうちの少なくとも１つが、前記トレーニングデータの連続するバッチを使用して生成され、トレーニングデータの各バッチが、複数の比較的デンスにサンプリングされた画像と、複数の比較的スパースにサンプリングされた画像とを備え、前記生成が、前記比較的デンスにサンプリングされた画像から導出された第１のコンポーネントと前記比較的スパースにサンプリングされた画像から導出された第２のコンポーネントとを有するコスト関数を使用する、請求項４に記載の方法。
前記コスト関数の２つのコストコンポーネントの相対的重要性が、重み付けパラメータによって決定される、請求項１０に記載の方法。
前記ソースデコンボリューションネットワークおよび前記ターゲットデコンボリューションネットワークのうちの少なくとも１つの前記生成が、オブジェクトの複数の既定義のクラスの各々について、各クラス内のオブジェクトの画像における出現の頻度の尺度と反比例して変化するコスト関数を使用する、請求項１に記載の方法。
前記コンピュータシステムが、集積回路を備え、前記方法が、第２の計算モデルを実装するために前記集積回路を形成することを備える、請求項１に記載の方法。
前記集積回路が、プログラマブル集積回路であり、前記第２の計算モデルを実装するために前記集積回路を形成する前記ステップが、前記複数の第２の値を使用して前記集積回路をプログラムすることを備える、請求項１に記載の方法。
前記画像データが、それぞれの道路運輸シーンの画像を符号化する、請求項１に記載の方法。
入力画像の対応するエリアのラベルデータを作るためのコンピュータシステムを設計するためのコンピュータ装置であって、前記ラベルデータは、所定の値のセットのうちの１つの所定の値であり、前記画像の前記対応するエリアがオブジェクトカテゴリのセットのうちのそれぞれのオブジェクトカテゴリ内にあるオブジェクトの画像であることを示し、
前記コンピュータ装置は、
プロセッサと、
前記プロセッサが従うときに、前記プロセッサに、
（ｉ）トレーニング画像を符号化する第１の画像データおよび（ｉｉ）各トレーニング画像の注釈データの対応するセットを備えるトレーニングデータを使用する監視された学習によって、複数の第１の値によって定義されるソースデコンボリューションネットワークを生成することと、各トレーニング画像の注釈データの前記セットは、前記トレーニング画像の複数の対応するエリアについて、前記トレーニング画像の前記エリアが、オブジェクトカテゴリの前記セットのうちのそれぞれのオブジェクトカテゴリ内にあるオブジェクトの画像であることを示し、
前記ソースデコンボリューションネットワークにトレーニング画像を符号化する第２の画像データを入力するときに前記ソースデコンボリューションネットワークの１つまたは複数の出力を記述する出力データを計算することと、
複数の第２の値によって定義されるターゲットデコンボリューションネットワークを適応的に生成するために、前記第２の画像データおよび前記出力データを使用することと、前記複数の第２の値のカーディナリティは、前記複数の第１の値のカーディナリティより低く、
を行わせるように動作するコンピュータプログラム命令を記憶するデータストレージデバイスと、
を備える、コンピュータ装置。
前記プログラム命令が、前記プロセッサに、前記トレーニング画像のそれぞれの領域について、前記トレーニング画像の前記領域が対応する既定義のオブジェクトカテゴリであるオブジェクトを示すことを示すラベルのセットとして所与のトレーニング画像の前記出力データを収集させるように動作する、請求項１６に記載のコンピュータ装置。
前記プログラム命令が、前記プロセッサに、ベクトルのセットとして所与のトレーニング画像の前記出力データを収集させるように動作し、各ベクトルが、オブジェクトカテゴリの数と等しいいくつかのコンポーネントを有し、前記トレーニング画像のそれぞれの領域について、オブジェクトが前記対応するオブジェクトカテゴリ内にあることを前記領域が示す確率値を示す、請求項１６に記載のコンピュータ装置。
前記プログラム命令が、前記プロセッサに、前記第２の画像データによって符号化される前記トレーニング画像のうちの１つの所与のエリアについて、前記トレーニング画像と提示されるときの前記ターゲットデコンボリューションネットワークの対応する出力と前記ソースデコンボリューションネットワークの対応する出力との間のクロスエントロピーを示す、クロスエントロピー損失関数を使用して前記ターゲットデコンボリューションネットワークを生成させるように動作する、請求項１８に記載のコンピュータ装置。
前記プログラム命令が、前記プロセッサに、（ａ）前記ターゲットデコンボリューションネットワークおよびソースデコンボリューションネットワークの対応する出力の類似を表す項と（ｂ）前記オブジェクトカテゴリの重み付け項との積の前記複数のオブジェクトカテゴリにわたる和を計算することによって前記クロスエントロピー損失関数を計算させるように動作し、前記オブジェクトカテゴリの前記重み付け項は、前記トレーニングデータにおける前記対応するオブジェクトカテゴリのオブジェクトの頻度を増やすために減少する、請求項１９に記載のコンピュータ装置。