JP6861249B2

JP6861249B2 - 畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法

Info

Publication number: JP6861249B2
Application number: JP2019147185A
Authority: JP
Inventors: ワインゼフェルフィリップ
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2018-08-10
Filing date: 2019-08-09
Publication date: 2021-04-21
Anticipated expiration: 2039-08-09
Also published as: JP2020027659A; KR20200018283A; KR102235745B1

Description

本発明は、畳み込み回帰型（ｃｏｎｖｏｌｕｔｉｏｎａｌｒｅｃｕｒｒｅｎｔ）ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティック（意味的な）セグメンテーション方法に関する。

３５Ｕ．Ｓ．Ｃ．§１１９（ａ）に基づき、本出願は、欧州特許出願ＥＰ１８３０６１０４．３（出願日２０１８年８月１０日）のより早い出願日の優先権の利益を主張し、これにより、欧州特許出願ＥＰ１８３０６１０４．３（出願日２０１８年８月１０日）の全体の内容は参照によって本出願に組み込まれる。

コンピュータビジョンは、デジタルビデオから高い水準（ｈｉｇｈ−ｌｅｖｅｌ）の理解をコンピュータに提供することを目的とする、近年の努力分野の１つである。これは、人間の視覚システムが実行することのできる作業を自動化しようとするものである。

このような作業の１つが「セマンティック（意味的な）」セグメンテーションである。一般的に、セグメンテーションとは、イメージをピクセルのセットに分割する（ｐａｒｔｉｔｉｏｎｉｎｇ）プロセスである。このようなセットのそれぞれがタイプを識別するエンティティ（自動車、人物、建物など）に対応するとき、意味のあるセグメンテーションとして見なされるのである。実際に、セマンティックセグメンテーションは、クラスの所定のセットのうち、クラスラベルを各ピクセルに割り当てることによって構成される。

これは、（場面を理解してロボットが探索する（ｎａｖｉｇａｔｅ）ことのできる場所を識別するための）ロボット工学および自律走行を含む多くの応用において高い関心が示されている。同じような意味において、セマンティックセグメンテーションは、場面を理解してオブジェクトおよび仮想のオブジェクトが追加され得る領域の範囲を見つけ出すための拡張現実の脈絡においても有効的である。

セマンティックセグメンテーションは、（例えば、建物のように）大きかったり（例えば、信号のように）薄かったりする、（空や芝生などのような）もの、および適切に定義されたオブジェクト（自動車や瓶など）を含む多種類のクラスによるコンピュータビジョンにおいて挑戦すべき課題である。セマンティックセグメンテーションによる出力は、空間（オブジェクトの境界を除いた、同じクラスに属する傾向にある隣接するピクセル）と時間（実世界ポイント（ｐｏｉｎｔ）が時間において一定のラベルを有する。これは、そのプロジェクション（ｐｒｏｊｅｃｔｉｏｎ）も同じであることを意味する）の両方が存在するため、滑らか（ｓｍｏｏｔｈ）になる。

このために、畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）の使用が提案されてきた。畳み込みニューラルネットワークは、ニューロン間の結合パターンが動物の視覚野（ｖｉｓｕａｌｃｏｒｔｅｘ）の配置から着想を得た、一種のニューラルネットワークである。畳み込みニューラルネットワークは、イメージ内の個体を効率的に認識できることから、特にビデオ処理に適している。

したがって、畳み込みニューラルネットワークが予めセグメンテーションされた、すなわち、ビデオのフレーム内の各ピクセルのラベルが提供されたビデオの訓練セットを提供することによって訓練される教師あり学習段階を経ることで、畳み込みニューラルネットワークは、（ラベルが指定されていない、特に、ライブＣＣＴＶからの「フレッシュ（ｆｒｅｓｈ）」ビデオ）自身が入力したあらゆるビデオをセグメント化することが可能となる。

セマンティックセグメンテーションに対する従来の方法のほとんどは、イメージレベルで実行される、すなわち、アルゴリズムがビデオのすべてのフレームに独立的に適用されるものであった。

従来のアクセス法は、密集した予測（ｄｅｎｓｅｐｒｅｄｉｃｔｉｏｎ）を出力するために、イメージ分類の畳み込みニューラルネットワークアーキテクチャを全層畳み込みバージョン（ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｖｅｒｓｉｏｎ）に変換するものである。標準的なコンピュータビジョンの畳み込みニューラルネットワークアーキテクチャのストライド（ｓｔｒｉｄｅ）により、特徴マップ（ｆｅａｔｕｒｅｍａｐｓ）は、一般的に入力イメージよりも低い解像度であることに留意する。したがって、１番目の深い（ｄｅｅｐ）セグメンテーションアクセス方法は、アップサンプリング戦略、すなわち、エンコーダ−デコーダのアーキテクチャを使用するという条件付きランダムフィールドのようなグラフィックモデルを使用することによって出力を精製してきた。

さらに最近には、Ｄｉｌａｔｅｄ畳み込み（または、Ａｔｒｏｕｓ畳み込みとも称される）が紹介されているが、これは、従来の分類畳み込みニューラルネットワークアーキテクチャからさらに密集した特徴マップを抽出するものである。

より優れた正確性を得るために、最近の傾向としては、最後のレイヤのマルチスケール（ｍｕｌｔｉｐｌｅｓｃａｌｅｓ）におけるコンテキスト情報をモデリングすることで構成される。例えば、これは、Ｄｉｌａｔｅｄ畳み込みの出力を複数の因子と全域的に（ｇｌｏｂａｌｌｙ）プーリングされた（ｐｏｏｌｅｄ）イメージ特徴によって連鎖させることによって構成されたり、ＰＳＰ−Ｎｅｔの複数のグリッドスケールによって空間的なプーリングを実行することによって構成されたりする。

通常、これは、実世界の一部の領域が連続的な（ｃｏｎｓｅｃｕｔｉｖｅ）フレーム間のセマンティックラベルに多くの変化を経るようになることから、満足しないフリッキング効果（ｆｌｉｃｋｅｒｉｎｇｅｆｆｅｃｔ）に繋がる。これについては、３つの連続するフレーム（図１）上でフレーム単位（ｐｅｒ−ｆｒａｍｅ）推定の例を示す図２において説明する。

ノイズアーティファクトは、時間に応じて予測されたラベル（ボックス）において、２つを超えるラベル（右側ボックス）間のフリッカを含む領域でも観察されるということに留意する。

時間による一貫性（ｃｏｎｓｉｓｔｅｎｃｙ）を改善するために、セマンティックセグメンテーションは、ビデオレベルで、すなわち、フレームに対しても実行されなければならない。

ビデオのセマンティックセグメンテーションを扱うために様々な方法が試みられた。最初の方法として、時間および空間において、マルコフ確率場（ＭａｒｋｏｖＲａｎｄｏｍＦｉｅｌｄ）、Ｐｅｒｔｕｒｂ＆ＭＡＰ確率場、または条件付き確率場を基盤とするものであった。ここ最近は、フレーム間の対ポテンシャル（ｐａｉｒｗｉｓｅｐｏｔｅｎｔｉａｌ）におけるモーションをモデリングするためにオプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）を活用（ｌｅｖｅｒａｇｅ）する方法が提案された。ビデオのセマンティックセグメンテーションを精製するための他の方法として、フィルタリングを使用する方法もある。しかし、このようなすべての方法では、一貫されたビデオセグメンテーションの出力を生成することができない。

より最近では、ＮｅｔＷａｒｐモジュールを、ある時間一貫性（ｔｅｍｐｏｒａｌｃｏｎｓｉｓｔｅｎｃｙ）をセマンティックセグメンテーション畳み込みニューラルネットワークアーキテクチャによって統合するために取り入れる方法が提案された。このような方法は、現在のフレームの特徴をオプティカルフローによってワーピングされた（ｗａｒｐｅｄ）以前のフレームからの特徴と結合するものである。実際に、連続するフレームからの特徴が、ワーピング後には、オプティカルフローによって集合されるようになり、最終的な推定を生成するために使用されるが、特徴は事前に定義されて固定された数のフレームに制限されて残っている。

この代案として、ｃｌｏｃｋｗｏｒｋ畳み込みニューラルネットワークアーキテクチャが、ビデオのセマンティックセグメンテーションのために提案された。ｃｌｏｃｋｗｏｒｋ畳み込みニューラルネットワークアーキテクチャは、正確性の低下という代償を払ってビデオセグメントのランタイムを減少させることを目的とし、以前のフレームから中間特徴を再利用することによって構成される。

結果的に、時系列的情報の直接的なレバレッジ（ｌｅｖｅｒａｇｅ）を許容するニューラルネットワークを使用するセグメンテーション方法の改善が求められている。

以下の図面は、多様な実施形態を説明することを目的とし、制限的に解釈されてはならない。
３つの連続するフレームの例を示した図である。従来のフレーム単位（ｐｅｒ−ｆｒａｍｅ）技法を使用する、図１のフレーム例のセマンティックセグメンテーションを示した図である。図７の畳み込み回帰型ニューラルネットワークアーキテクチャを使用する、図１のフレーム例のセマンティックセグメンテーションを示した図である。セマンティックセグメンテーションのためのシステムの例を示した図である。２つの連続するフレームの例に対し、オプティカルフローがピクセルをどのように変位させるかを説明するための図である。セマンティックセグメンテーションでの使用のための畳み込みニューラルネットワークアーキテクチャの例を示した図である。セマンティックセグメンテーションでの使用のための畳み込み回帰型ニューラルネットワークアーキテクチャの例を示した図である。

以下では、ビデオのセマンティックセグメンテーションの２つの補完的な側面について説明する。（ａ）ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）を訓練させる方法、および（ｂ）より好ましくは、（ａ）の方法によって訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法。

すべてのビデオは、（その長さに応じて）１からＴまでの番号が付与され、Ｔ個のフレームのシーケンスとなる。言い換えれば、ビデオの一般的なフレームは、ｔ∈[[１；Ｔ]]であるフレームｔとして参照されるようになる。各フレームは、イメージ、すなわち、与えられたサイズのピクセルのマトリックス、例えば３２１×３２１ピクセルで構成される。

ビデオのセマンティックセグメンテーションとは、ビデオの各フレームの各ピクセルの分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）であって、すなわち、ラベルの所定のリストのラベルのうち、各ピクセルによって描写されるエンティティのタイプを定義する、各フレームに対して各ピクセルのラベルを予測することに該当する。したがって、フレームは、同じラベルを有するピクセルの複数のセットに分割され、同じラベルを有するそれぞれの「連結する」ピクセルのセットは、エンティティ、すなわち「実世界」オブジェクトを定義する。例えば、１つの自動車を描写するすべてのピクセルは、「自動車」タイプのピクセルとしてラベリングされなければならない。

上述した２つのタイプの方法は、図４に示すように、第１サーバ１ａおよび／または第２サーバ１ｂを使用するシステム内で実現される。第１サーバ１ａは（１番目の方法を実現する）学習サーバであり、第２サーバ１ｂは（２番目の方法を実現する）セグメンテーションサーバである。このような２つのサーバは、単一のサーバとして統合されることも可能である。

このようなサーバ１ａ、１ｂのそれぞれは、通常、データ交換のために、インターネットのような拡張されたネットワーク２に接続される遠隔のコンピュータ機器である。それぞれのサーバは、プロセッサタイプのデータ処理手段１１ａ、１１ｂ（特に、学習は、訓練された畳み込み回帰型ニューラルネットワークの一般的な使用に比べて長くて複雑であるため、第１サーバのデータ処理手段１１ａは強力なコンピュータパワーを有する）と、選択的にコンピュータメモリ、例えば、ハードディスクのようなストレージ手段１２を含む。

第１サーバ１ａは、１つ以上の訓練データベース、すなわち、（正確な分類を意図とする、いわゆる入力されるデータとは反対の）既に分類されたデータのセットを有するか、これに対するアクセスを有する。説明するように、データは、ここでイメージおよび／またはビデオとして構成され、少なくとも既にセマンティックセグメンテーションされた訓練ビデオを含む。言い換えれば、訓練ビデオのピクセルは、既にラベリングされているのである。

アーキテクチャは、より好ましくは、クライアント機器１０の１つ以上のアイテムを含む。これは、すべてのワークステーションに（または、ネットワーク２に接続されて）存在してよく、好ましくは、サーバ１ａ、１ｂから分離されていてよく、その１つおよび／または残りと統合されてよい。１つ以上のデータアイテムを有する。機器のオペレータは、通常、第１サーバ１ａおよび／または第２サーバ１ｂを運用するサービス提供者の商業的意味としての「クライアント」を示す用語である。

回帰型ニューラルネットワークは、連続的な情報、現在のケース内のフレームのシーケンスを活用するニューラルネットワークの一タイプである。言い換えれば、与えられたフレームにおける出力は、このようなフレームからの特徴だけでなく、または隠れ状態またはメモリによって命名される「内部状態（ｉｎｔｅｒｎａｌｓｔａｔｅ）」により、以前のフレームからの推定に依存するようになるであろう。回帰型ニューラルネットワークは、筆跡またはスピーチ認識のような作業に極めて適している。

回帰型ニューラルネットワークは、ニューラルネットワーク内におけるシーケンスのモデリングに効果的であることが立証された。その方法とは、時間による関連情報を累積する内部状態を学習し、推定が現在の入力とこのような内部状態を基盤とすることである。回帰型ニューラルネットワークは、勾配消滅問題（ｖａｎｉｓｈｉｎｇｇｒａｄｉｅｎｔｉｓｓｕｅｓ）によって訓練が難しい。

回帰型ニューラルネットワークは、「回帰型」動作（ｂｅｈａｖｉｏｒ）を示す１つ以上のレイヤのブロックである「回帰型ニューラルネットワークモジュール」を含む。回帰型ニューラルネットワークモジュールは、当業者にとって周知の事項である。回帰型ニューラルネットワークは、ゲート付き回帰型ユニット（ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ）および／または長短期記憶（ｌｏｎｇｓｈｏｒｔ−ｔｅｒｍｍｅｍｏｒｙ）を含んでよい。ゲート付き回帰型ユニットおよび長短期記憶は、内部状態を選択的にアップデートするための学習可能なゲートを含み、これにより、訓練中により長いシーケンスに勾配を伝播することを可能にする。

一般的に、ｘ_ｔ、ｈ_ｔ、およびｏ_ｔが、それぞれフレームｔからの回帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲＮＮ）の入力、隠れ状態、および出力を示す一般的な設定を定義する場合、回帰型ニューラルネットワークモジュールの出力ｏ_ｔは、現在フレームｔにおける特徴（ｆｅａｔｕｒｅｓ）ｘ_ｔだけでなく、以前のフレームｔ−１でも隠れ状態ｈ_ｔ−１の関数となる。同時に、隠れ状態ｈ_ｔは、同じ入力に基づいてアップデートされる。ここで、回帰型ニューラルネットワークモジュールは、以下の数式（１）によって定義される：
ｏ_ｔ，ｈ_ｔ＝ＲＮＮ(ｘ_ｔ，ｈ_ｔ−１) ・・・（１）

ｈ_ｏは、すべてゼロであるテンソル（ｔｅｎｓｏｒ）によって初期化される（ｈ_ｏ）。このようなゼロ初期化において、訓練段階は、好ましくは、対（ｐａｉｒ）よりも長いシーケンスとして実行される。

回帰型ニューラルネットワークモジュールは、ビデオの固有のモーションを考慮するようにセマンティックセグメンテーションの作業に適応されてよい。

事実、ｘ_ｔおよびｏ_ｔは、セマンティックセグメンテーションの作業のための現在の特徴マップとなり、これにより、（入力、内部状態、および出力が３Ｄテンソルである）畳み込み演算子（ｏｐｅｒａｔｏｒ）が回帰型ニューラルネットワークモジュール、例えば、畳み込みゲート付き回帰型ユニット内部で使用されてよい。

このような畳み込み演算子は、例えば、フレーム予測およびビデオキャプション（ｃａｐｔｉｏｎｉｎｇ）のために使用されてきた。畳み込み回帰型ニューラルネットワークも、その目的が、１番目のフレームにおいてそのセグメンテーションが与えられたビデオに対するオブジェクトのバイナリセグメンテーションを出力することであるビデオオブジェクトセグメンテーションのような、他の密集したビデオ推定作業に適用されてきた。

例えば、畳み込みゲート付き回帰型ユニットをビデオのセマンティックセグメンテーションに適用することが提案された。しかし、このようなモデルは、モーションモデリングに欠ける。与えられたピクセルにおける推定は、該当のピクセルにおける推定の履歴を基盤とするが、このようなピクセルは、モーションがある場合には実世界において他のポイントを示すことがある。

実際の出力ｏ_ｔは、周知の方式の畳み込み演算子のカーネルのサイズによる近傍（ｎｅｉｇｈｂｏｒｈｏｏｄ）の大きさにより、ｘ_ｔおよびｈ_ｔ−１のローカル空間的近傍（ｌｏｃａｌｓｐａｔｉａｌｎｅｉｇｈｂｏｒｈｏｏｄ）に依存するはずである。

標準的な畳み込み回帰型ニューラルネットワークは、フレームｔで与えられたピクセルｐ_ｔと以前のフレームｔ−１で同じピクセルｐ_ｔ−１（「同じピクセル」とは、ピクセルが正確に同じ座標であることを意味する）とが同じ実世界ポイントのプロジェクションである場合のみ、すなわち、このようなポイントが実世界で静的に（ｓｔａｔｉｃ）残っていれば（または、プロジェクションレイ（ｒａｙ）に沿って移動すれば）考慮されてよい。言い換えれば、これは、ビデオが静的であること、すなわち、モーションがないことを仮定するのである。しかし、自律走行のような多くの応用において、このような仮定は有効でなく、ピクセルはフレーム間で相当に移動する。

より正確には、フレームｔのピクセルｐ_ｔでの推定は、このようなピクセルｐ_ｔのローカル近傍Ｎ（ｐ_ｔ）の特徴ｘ_ｔと以前のフレームｔ−１での隠れ状態ｈ_ｔ−１からのローカル近傍Ｎ（ｐ_ｔ−１）に依存するはずである。反対に、ｐ_ｔでの推定は、実際にはＮ（ｐ_ｔ）の特徴ｘ_ｔと隠れ状態ｈ_ｔ−１からのローカル近傍Ｎ（ｐ’_ｔ−１）に依存しなければならないはずである。ｐ’_ｔ−１は、実世界のｐ_ｔと同じポイントに対応するピクセルである。

連続するフレームｔ−１（左）およびｔ（右）の例を示す図５は、現在のフレームｔ上の２つのピクセルｐ_ｔおよびｑ_ｔの正確に同じ座標において、以前のフレームｔ−１上のピクセルｐ_ｔ−１およびｑ_ｔ−１を示す。ｐ_ｔ−１およびｑ_ｔ−１は、ｐ’_ｔ−１およびｑ’_ｔ−１とは対照的に、それぞれｐ_ｔおよびｑ_ｔと同じ領域には属さない。

「オプティカルフロー」とは、あるイメージの他の１つ（特に、連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の対、すなわち、以前のフレームｔ−１および現在のフレームｔ）へのすべてのピクセルの変位を定義するベクトルフィールドである。

例えば、オプティカルフローＦ_{ｔ−１→ｔ}とは、以前のフレームｔ−１から現在のフレームｔへのすべてのピクセルたちの変位を定義し、オプティカルフロー（「逆方向のフロー」）とは、現在のフレームｔから以前のフレームｔ−１へのすべてのピクセルの変位を定義する。

ピクセルｐ’_ｔ−１は、数式ｐ’_ｔ−１＝ｐ_ｔ＋Ｆ_{ｔ→ｔ−１}(ｐ_ｔ)によって求められる。言い換えれば、オプティカルフローは、ベクトルフィールドによって各ピクセルを「シフト」する。

フローによって特徴マップをすべてのピクセルのモーションに適応させるために、回帰型モジュールの使用は、「ワーピング（ｗａｒｐｉｎｇ）」関数の使用とともに結合（ｃｏｍｂｉｎｅ）される。実際、ａ_ｔ−１が以前フレームｔ−１での特徴マップであり、ａ_ｔが現在のフレームｔでの特徴マップであれば（特徴マップは、ベクトルフィールド、すなわち、各ピクセルにベクトルを関連させる）、ａ_ｔ(ｐ_ｔ)およびａ_ｔ−１(ｐ’_ｔ−１)＝ａ_ｔ−１(ｐ_ｔ＋Ｆ_{ｔ→ｔ−１}(Ｐ_ｔ))のすべてのピクセル特徴は結合される。このような演算は、効率的に実現することが難しいため（関連するピクセルは異なる座標を有するため）、特徴のワーピングが先に計算される。すなわち、

と定義されるベクトルフィールド

を構築するように計算される。したがって、ａ_ｔ(ｐ_ｔ)および

の特徴は、ピクセル単位（ｐｉｘｅｌｂｙｐｉｘｅｌ）で直接的に結合されてよい。

言い換えれば、オプティカルフローＦ_{ｔ→ｔ−１}が分かれば、ワーピングは、与えられたすべての特徴マップａ_ｔ−１からの与えられた特徴マップａ_ｔ−１に対応するワーピングされた特徴マップ

を計算することであり、各ピクセルはオプティカルフローによる変位を経たものになる。

ワーピングとは、特徴マップ（すなわち、ベクトル）の値を変更させるのではなく、これらを「空間的に再配置」することを意味する。本発明に係る以前のフレームｔ−１からフレームｔへのワーピングにおいて、ワーピング関数は、現在のイメージｔの各ピクセルｐ_ｔに対し、逆方向のオプティカルフローＦ_{ｔ→ｔ−１}による他のピクセルｐ’_ｔ−１に対するワーピングされた特徴マップの値（以前のイメージｔ−１と関連する内部状態ｈ_ｔ−１）を関連させる。

実際に、オプティカルフローは、整数だけでなく、小数（ｆｌｏａｔｖａｌｕｅｓ）を含む。ワーピング関数は、（例えば、４つの値の）バイリニア補間法（ｂｉｌｉｎｅａｒｉｎｔｅｒｐｏｌａｔｉｏｎ）を基盤としてよく、これは、フロー値が、勾配がゼロに設定される場合である、整数である例外的な場合を除けば微分が可能である。

一般的なワーピングされた回帰型ニューラルネットワークモジュールは、ＦｌｏｗｉｎｇＲＮＮと称される。これにより、内部状態がオプティカルフローによるフレーム間でワーピングされる回帰型ニューラルネットワークモジュールとして作成されてよく、すなわち、次のとおりとなる。

好ましい一実施形態において、ＦｌｏｗｉｎｇＧＲＵ、すなわち、畳み込みゲート付き回帰型ユニットモジュール基盤のＦｌｏｗｉｎｇＲＮＮが使用される。これは、以下の数式（２）にしたがって与えられてよい。

は要素別（ｅｌｅｍｅｎｔ−ｗｉｓｅ）の乗算（ｍｕｌｔｉｐｌｉｃａｔｉｏｎ）を示し、★は畳み込み演算子を、σはシグモイド関数を、ＲｅＬＵは正規化線形ユニット（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）の非線形性を示し（以下を参照）、Ｗとｂは学習可能なパラメータ（それぞれの加重値およびバイアス）を示す。

直観的に、リセットゲートｒ_ｔは、入力ｘ_ｔを以前の隠れ状態ｈ_ｔ−１とどのように結合しなければならないかを学習し、アップデートゲートｚ_ｔは、どれだけ多くの以前のメモリが維持されなければならないかを学習する。

本ＦｌｏｗｉｎｇＧＲＵと標準的な畳み込みゲート付き回帰型ユニットの主な違いは、隠れ状態がオプティカルフローによってワーピングされ、これにより、ピクセルモーションの場合においても、与えられたピクセルおよびタイムステップでの推定は、実世界のこのような特定されたポイントの履歴（ｈｉｓｔｏｒｙ）に基づくようになるということにある。１つの小さな違いは、ＲｅＬＵがコンピュータビジョン畳み込みニューラルネットワークアーキテクチャにおいて一般的に使用されるほど、ＲｅＬＵ非線形性が、好ましくは、標準的なｔａｎｈの代わりに使用されるということにある。

当業者は、説明されたアーキテクチャを、他のすべてのタイプの回帰型モジュールに変更する（ｔｒａｎｓｐｏｓｅ）ことが可能であろう。特に、「ＦｌｏｗｉｎｇＧＲＵ」の代わりに「ＦｌｏｗｉｎｇＬＳＴＭ」、すなわち、畳み込み長短期記憶モジュール基盤のＦｌｏｗｉｎｇＲＮＮが使用されてよい。

一般的に、ＦｌｏｗｉｎｇＲＮＮは、増加された性能、特に時間による一貫性の観点において、ビデオの向上されたセマンティックセグメンテーションを実行するように、すべての全層畳み込みイメージセグメンテーション方法に連結されてよい。

図３は、図１に示した３つの連続するフレームに対してＦｌｏｗｉｎｇＲＮＮを使用したセマンティックセグメンテーションの例を示した図である。図２を参照しながら時間によって予測されたラベル内のノイズアーティファクトの不存在（ａｂｓｅｎｃｅ）（ボックス）を、図３で観察することができる。

畳み込み回帰型ニューラルネットワーク、フロー推定、およびワーピングモジュールはすべて区別可能であり、全層ネットワークエンドツーエンド訓練を可能にする。

第１側面において、訓練方法は、第１サーバ１ａのデータ処理手段１１ａによって実現される。方法は、ビデオのセマンティックセグメンテーションのために畳み込み回帰型ニューラルネットワークを訓練する。

第１段階ａにおいて、標準的な畳み込みニューラルネットワーク（非回帰型）は、「第１畳み込みニューラルネットワーク」として参照可能であり、予めセマンティックセグメンテーションされた訓練イメージのベース（例えば、ＭＳ−Ｃｏｃｏデータセット）から訓練される。

言い換えれば、第１畳み込みニューラルネットワークは、時間によるローカル依存性を考慮しない、伝統的な「フレーム単位」ベースラインとする。周知のすべてのアーキテクチャが、第１畳み込みニューラルネットワークのために使用されてよい。

畳み込みニューラルネットワークは、一般的に、情報を処理する４つのタイプのレイヤを含む。

（ａ）１つずつイメージのブロックを処理する畳み込みレイヤ。
（ｂ）「活性化関数」を適用することによって結果の適切性が改善されるようにする非線形レイヤ（校正レイヤとも称される）。
（ｃ）複数のニューロンを１つの単一のニューロンにグルーピングするようにするプーリングレイヤ。
（ｄ）レイヤのすべてのニューロンを以前のレイヤのすべてのニューロンと連結する、全層連結のレイヤ。

全層連結の畳み込みネットワークの場合、全層連結のレイヤはこれ以上存在せず、カーネルサイズ１の畳み込みレイヤに変換されるという点に留意する。これは、全体のイメージに対するただ１つの確率分布の代わりに、確率の出力マップを許容する。

非線形レイヤの活性化関数としては、最も頻繁にＲｅＬＵ関数（正規化線形ユニット）が使用されるが、これはｆ（ｘ）＝ｍａｘ（０、ｘ）と同等であり、プーリングレイヤ（ＰＯＯＬ）は、スクエア（ｓｑｕａｒｅ）の４つの値の間で最大値に対応する（４つの値が１つにプーリングされる）、ＭａｘＰｏｏｌ２×２関数が最も多く使用されるが、ＡｖｅｒａｇｅＰｏｏｌまたはＳｕｍＰｏｏｌのような他のプーリング関数が使用されてもよい。

畳み込みレイヤ（ＣＯＮＶ）および全層連結のレイヤ（ＦＣ）は、一般的に、以前のレイヤのニューロンと畳み込みニューラルネットワークの加重値とのスカラー乗法に対応する。

典型的な畳み込みニューラルネットワークアーキテクチャは、複数のレイヤＣＯＮＶ−＞ＲＥＬＵの対を積層し、その次にレイヤプールを追加し、このようなスキーム［（ＣＯＮＶ−＞ＲＥＬＵ）ｐ−＞ＰＯＯＬ］を十分に小さな出力ベクトルが得られるまで繰り返し、１つまたは２つの全層連結のレイヤによって終了する。

図６では、第１畳み込みニューラルネットワークのためのアーキテクチャの例について説明する。

図６で説明するように、１番目の畳み込みレイヤとブロック１〜ブロック４はＲｅｓＮｅｔ−１０１からのものであり、ブロック３およびブロック４はそれぞれ、２および４の因子（レートとも呼ばれる）で拡張された畳み込み（ｄｉｌａｔｅｄｃｏｎｖｏｌｕｔｉｏｎｓ）を使用しており、３２から８にネットワークのストライド（ｓｔｒｉｄｅ）を減少させる。

次に、多様な拡張因子（ｄｉｌａｔｉｏｎｆａｃｔｏｒｓ）を有する、異なる畳み込みカーネルからの結果が積層されるＡｔｒｏｕｓ空間的ピラミッドプーリング（ＡＳＰＰ：ａｔｒｏｕｓｓｐａｔｉａｌｐｙｒａｍｉｄｐｏｏｌｉｎｇ）モジュールが存在する。Ａｔｒｏｕｓ空間的ピラミッドプーリングモジュールは、クラススコアを出力する最終的な１×１畳み込みレイヤの前に、２５６個のフィルタを有する（バッチ正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）およびＲｅＵＬを有する）１×１畳み込みレイヤに供給される。このようなスコアは、最初のイメージ解像度によってバイリニアで（ｂｉｌｉｎｅａｒｌｙ）アップサンプリングされ、例えば、訓練時間中にピクセル単位でソフトマックス損失（ｓｏｆｔｍａｘｌｏｓｓ）を適用したり、試験時間中にピクセル単位でａｒｇｍａｘを取得したりすることによって予測されたクラスを推定する。

第１畳み込みニューラルネットワークを訓練するために、１６のバッチサイズを有する確率的勾配降下法（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ：ＳＧＤ）が使用されてよい。特に、「ポリー」学習率スケジュール（ｌｅａｒｎｉｎｇｒａｔｅｓｃｈｅｄｕｌｅ）、すなわち、初期学習率にＮ回の繰り返しの総数に対して繰り返しｉで

だけ掛けられたものが適用されてよい。

訓練バッチは、例えば、３２１×３２１のピクセルサイズを有する訓練イメージのランダムクロップ（ｃｒｏｐ）から生成され、畳み込みニューラルネットワークは、全体イメージに対して試験される。訓練時に、ランダムクロップを取得する前に、データ増強がイメージをランダムで左右にフリッピングし、範囲［０：５；１：５］のランダムスケーリング因子を適用することによって実行されることが好ましい。

追加で（段階ａ）、オプティカルフローが有する連続するフレームの対のベースからの第２畳み込みニューラルネットワークの訓練が実行される。

説明するように、第２畳み込みニューラルネットワークは、フレームの対のオプティカルフロー、特に、現在のフレームｔから以前のフレームｔ−１への逆方向のオプティカルフローＦ_{ｔ→ｔ−１}を推定することを目標とする。

第２畳み込みニューラルネットワークは、ＦｌｏｗＮｅｔＳｉｍｐｌｅまたはＦｌｏｗＮｅｔＣｏｒｒｅｌａｔｉｏｎのようなものであってよい。アーキテクチャＦｌｏｗＮｅｔＳｉｍｐｌｅ（一般的にはＦｌｏｗＮｅｔＳと称する）が好ましく、図６の例で使用される。このようなアーキテクチャにおいて、２つの入力イメージはいずれも一緒に積層され、畳み込みレイヤとしてのみ生成されたネットワークを介して供給される。

ＲｅＬＵ非線形および「アップ畳み込み」も、畳み込みとして実現されてよい。

その次に（段階ｂ）、畳み込み回帰型ニューラルネットワークが訓練される。その方法は、第１畳み込みニューラルネットワーク（および、存在する場合は第２畳み込みニューラルネットワーク）から畳み込み回帰型ニューラルネットワークを構築するものである。

畳み込み回帰型ニューラルネットワークは、第１畳み込みニューラルネットワークに対応し、畳み込みレイヤは、上述したような隠れ状態を有する回帰型モジュール（ＦｌｏｗｉｎｇＧＲＵのようなＦｌｏｗｉｎｇＲＮＮモジュール）によって代替された。

好ましくは、図６に示すように、回帰型モジュールによって代替される、第１畳み込みニューラルネットワークの畳み込みレイヤは、最後から２番目（ｐｅｎｕｌｔｉｍａｔｅ）の畳み込みレイヤである。このような位置は、ＲｅｓＮｅｔ−１０１を基盤とした例示内のＡｔｒｏｕｓ空間的ピラミッドプーリングモジュールのすぐ後ろにあるため優れた結果を提供するが、回帰型モジュールは第１畳み込みニューラルネットワーク内のどことも代替可能であり、例えば、最後の畳み込みレイヤと代替されてよい。また、Ａｔｒｏｕｓ空間的ピラミッドプーリングモジュールの次に３つの畳み込みレイヤが存在してよく、回帰型モジュールは、１番目の（すなわち、第１畳み込みニューラルネットワークの後ろから３番目の（ａｎｔｅｐｅｎｕｌｔｉｍａｔｅ）畳み込みレイヤ）と代替されてよい。

第１畳み込みニューラルネットワークの訓練（段階ａ）は、畳み込み回帰型ニューラルネットワークのパラメータの「初期化」として示されてよく、（後述するように）既にセマンティックセグメンテーションされた訓練ビデオのベースからの追加の訓練により、畳み込み回帰型ニューラルネットワークの訓練（段階ｂ）は、このようなパラメータの「ファインチューニング（ｆｉｎｅ−ｔｕｎｉｎｇ）」として示されてよい。

第１畳み込みニューラルネットワークの訓練によって取得されたパラメータの一部は固定されてよく、すなわち、畳み込み回帰型ニューラルネットワークの訓練において追加で学習されなくてもよく、好ましくは、回帰型モジュールの前に（すなわち、Ａｔｒｏｕｓ空間的ピラミッドプーリングが含まれるまで）畳み込み回帰型ニューラルネットワークの各レイヤのパラメータがそうであってよい。追加で学習されたパラメータは、以後、好ましくは、回帰型モジュール、畳み込みニューラルネットワークの最後の畳み込みレイヤ（および、一般的には固定されない各畳み込みレイヤ）、および（存在する場合には）第２畳み込みニューラルネットワークのパラメータとなる。

セマンティックセグメンテーションに対して最も人気のあるベンチマークはイメージに制限され、畳み込み回帰型ニューラルネットワークの訓練においては使用されない。本発明の方法は、複数のピクセルがビデオ内で注釈処理されていたとしても、損失によって注釈処理されていないピクセルを無視することによって訓練されてよく、密集したグラウンドトゥルース（ｇｒｏｕｎｄ−ｔｒｕｔｈ）を使用する訓練は、より優れた時系列的一貫性に繋がるはずである。

大部分の実世界データセットは、シーケンス単位で注釈処理されたただ１つのフレームを有するが、複数の合成ベンチマークはデータの現実性（ｒｅａｌｉｓｍ）またはシーケンスの低い数によって制限されるため、既にセマンティックセグメンテーションされた訓練ビデオのベースは、好ましくは、現実的なＧｒａｎｄＴｈｅｆｔＡｕｔｏ（登録商標）（ＧＴＡ）Ｖビデオゲームからキャプチャされる約２００個のビデオシーケンスからの約２５０ｋフレームで構成される最新バイパーデータセットである。

合成レンダリングは、セマンティックセグメンテーションを含む、複数の作業に対するグラウンドトゥルースを取得するように許容する。照明および気象状態は、昼から夜まで、晴天から雨が降るまで、雪が降るとき、または霧が発生するときに変化し、データセットを挑戦的に（ｃｈａｌｌｅｎｇｉｎｇ）生成する。セマンティックセグメンテーション作業は、（例えば、空や地形のような）要素、車両（例えば、乗用車やトラック）、および小さなオブジェクト（例えば、交通標識や信号）を含む２３個のクラスを有する。

畳み込み回帰型ニューラルネットワークの訓練（段階ｂ）は、好ましくは、セマンティックセグメンテーションされた訓練ビデオのベースのうち、あるビデオの連続的なフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、該当の対のフレーム間のオプティカルフロー（特に、現在のフレームｔから以前のフレームｔ−１への逆方向のオプティカルフローＦ_{ｔ→ｔ−１}）を推定すること（サブ−段階ｂ０）によって始まる。

訓練におけるこのような段階（段階ｂ）は、好ましくは、入力として一対の２つのフレームを使用する畳み込みニューラルネットワーク（図６のＦｌｏｗＮｅｔＳ）の第２の訓練によって実行されるが、このような方法は、オプティカルフローを推定するためのいかなる技法にも制限されない。

オプティカルフローは、訓練ベースのフレーム間で既に推定されたものであり、このような段階（サブ−段階ｂ０）は、訓練において選択的なものにとどまることに留意されたい。

追加で（サブ−段階ｂ１）、既に説明したように、回帰型レイヤの内部状態は、内部状態が対をなすフレーム間のピクセルのモーションに適応するように、推定されたオプティカルフローによってワーピングされる。

その次に（サブ−段階ｂ２）、少なくとも回帰型モジュールのパラメータが学習される。

回帰型モジュールに加え、このようなレイヤの出力は、フレーム単位ベースラインの１つとは相異するようになるため、続くレイヤは再度学習される。既に説明したように、追加で学習されたパラメータは、以後、好ましくは、回帰型モジュール、畳み込みニューラルネットワークの最後の畳み込みレイヤ（および、一般的に固定されない各畳み込みレイヤ）、および（存在する場合には）第２畳み込みニューラルネットワークのパラメータとなる。

このために、４のバッチサイズを有し、１２個の連続するフレームのシーケンスを訓練し、１番目のＣＮＮの初期訓練に対するものと類似するポリー学習率スケジュール（ｐｏｌｙｌｅａｒｎｉｎｇｒａｔｅｓｃｈｅｄｕｌｅ）を有する時間アルゴリズムを利用したバックプロバケーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を使用する、確率的勾配降下法が使用されてよく、類似のデータ拡張戦略が使用されてもよい。試験時間に、以前のフレームからの隠れ状態は、シーケンスの長さに制限されることなく使用されてよい。

第２側面において、第２サーバ１ｂのデータ処理手段１１ｂによって実現される、入力されたビデオのセマンティックセグメンテーションが提案される。言い換えれば、第２側面に係る方法は、入力されたビデオのセマンティックセグメンテーションを実行し、すなわち、入力されたビデオのフレームのピクセルをラベリングする。

セグメンテーションされる入力されたビデオは、クライアント機器１０から受信されてよい。

１番目の段階ａにおいて、図７で説明したように、畳み込み回帰型ニューラルネットワークの訓練が（少なくとも予めセマンティックセグメンテーションされた訓練ビデオのベースとして、および、好ましくは、少なくとも予めセマンティックセグメンテーションされた訓練イメージのベースから）第１サーバ１ａによって実行される。好ましくは、訓練は、第１側面による方法と一致し、すなわち、第１畳み込みニューラルネットワークが訓練されることにより、第１畳み込みニューラルネットワークを基盤とした畳み込み回帰型ニューラルネットワークが構築され、最後から２番目の畳み込みレイヤがＦｌｏｗｉｎｇＲＮＮタイプの回帰型モジュールによって代替される。

代案的または組み合わせにより、段階ａ’は、オプティカルフローが既知である連続するフレームの訓練対のベースから、畳み込みニューラルネットワーク（すなわち、訓練方法の第２畳み込みニューラルネットワーク）を訓練させる段階をさらに含んでよい。

第１サーバ１ａおよび第２サーバ１ｂは、同じ機器であるか、あるいは、段階ａ’は、メモリ１２内の記録のために、訓練された畳み込み回帰型ニューラルネットワークパラメータおよび加重値の第１サーバ１ａから第２サーバ１ｂへの送信を含むものと理解されなければならない。

第２段階ｂ’において、第２サーバ１ｂの処理手段１１ｂは、セグメンテーションのために畳み込み回帰型ニューラルネットワークを使用する。

このために、段階ｂ’は、入力されたビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、次のような段階を含む。

（ｂ’０）対をなすフレーム間のオプティカルフローを推定する段階、
（ｂ’１）推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が対をなすフレーム間のピクセルのモーションに適応するように（ａｄａｐｔ）、ワーピングする段階、および
（ｂ’２）畳み込み回帰型ニューラルネットワークによって各フレームをセマンティックセグメンテーションする段階。

サブ−段階ｂ’０およびｂ’１は、好ましくは、上述したようなサブ−段階ｂ０およびｂ１と同じであり、そのすべての改善を含んでよい。

最終的に取得される分類結果は、クライアント機器１０に再び送信されてよい。

本発明の効果は、標準的なピクセル単位のｍｅａｎＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎｍｅｔｒｉｃ（ｍＩｏＵ^Ｐ）の各クラスに対し、該当のクラス内でグラウンドトゥルースまたは推定が計算される該当のクラスの全体ピクセルの数に対する該当のクラスに対して正しく推定されたピクセルの数の割合を使用して評価されてよく、すべてのクラスに対する平均が報告される。

しかし、これは、セマンティックセグメンテーション推定の時系列的な一貫性は測定できない。このために、ｍｅａｎＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎｍｅｔｒｉｃは、軌跡（ｔｒａｊｅｃｔｏｒｙ）レベルでさらに計算されてよく、そこで全体ビデオに対して正しく密集した軌跡がハーフ（ｈａｌｆ）解像度および８個のピクセルの密度から抽出されたオプティカルフローとともに抽出されると見なされるようにするために、軌跡は、グラウンドトゥルースクラスを有するすべてのフレームに渡って一貫するようにラベリングされなければならない。

グラウンドトゥルースラベリングが一貫される軌跡だけが、フロー推定におけるエラーによるノイズ軌跡をフィルタリングするために維持される。実際に、このようなフィルタリング段階は、約８％の抽出された軌跡を除去する。

これは、「軌跡単位」でｍｅａｎＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎｍｅｔｒｉｃ（ｍＩｏＵ^Ｐ）が報告されるようにし、ピクセルが相異する推定されたラベルを有する軌跡は、間違い（ｗｒｏｎｇ）としてカウントされる。各クラスの一貫性も、次のように計算されてよい。予測されたクラスごとに、グラウンドトゥルースが一貫するように与えられたクラスに該当する軌跡のうちで予測が一貫する軌跡の割合が計算される。「平均一貫性（ｍｅａｎｃｏｎｓｉｓｔｅｎｃｙ：ｍＣｏｎｓ．）」は、全体クラスに対して平均化されて報告されてよい。

先ず、好ましいＦｌｏｗｉｎｇＧＲＵモジュールの性能に対する訓練シーケンスの長さＴの影響が研究される。試験時間において、訓練時に使用されるシーケンスの長さとは独立的に、以前のフレームの隠れ状態は、すべての場合において使用される。サニティ（ｓａｎｉｔｙ）チェックとして、モデルは、性能がフレーム単位ベースラインと類似するかを検証するように、先ず、オールゼロ（ａｌｌｚｅｒｏｅｓ）の内部状態による訓練において、すべての場合および１つのフレームのシーケンスにおいて使用される。Ｔは、次いで２から１２まで増加される。性能における一貫性利得はＴが増加するときに観察される。フレーム単位ベースラインに比べて１２個のフレームの訓練シーケンスを使用するとき、ｍＩｏＵ^Ｐは１．２％だけさらに高く、ｍＩｏＵ^Ｔは２．１％だけ、ｍＣｏｎｓは３．５％だけさらに高かった。

その次に、好ましいＦｌｏｗｉｎｇＧＲＵモジュールの畳み込み（および、したがって内部状態の）出力チャンネル（Ｃ）の数と（ＦｌｏｗｉｎｇＧＲＵ内のすべての畳み込み）カーネルサイズ（Ｋ）の影響が研究される。最適の性能がＣ＝２５６およびＫ＝３で観察されることに留意し、これについては次の事実に基づいて詳しく説明する。

さらに低い数のチャンネルは、正確なセマンティックセグメンテーションのために、以前のレイヤから空間的および以前のフレームからの時間により、適切な情報を伝達するのに十分でない。

１よりも大きいサイズを有するカーネルは、ローカル近傍に関する情報を統合し、これにより、オプティカルフローを計算するにあたり小さなエラーからの復旧を許容する。

３よりも大きいサイズを有するカーネルは、極めて多くのパラメータを有するため、ローカル時系列的一貫性を効果的に学習することができない。

（Ｔ＝１２、Ｋ＝３、およびＣ＝２５６の好ましい値を有する）ＦｌｏｗｉｎｇＧＲＵモジュールの影響が、表１（左側）において複数の変形と関連する作業と比較される。作業のいずれもバイパー（Ｖｉｐｅｒ）データセットとして試験されることはなく、これらの作業は、相異するバックボーン（ｂａｃｋｂｏｎｅ）アーキテクチャを使用することに留意する。公正な比較のために同じベースラインが使用され、提案されたモジュールのそれぞれは、ＦｌｏｗｉｎｇＲＮＮと同じ位置で連結されて同じ訓練スキームを基盤とする。

フレーム単位ベースラインに比べ（ＲｅＬＵ非線形性を有する）、ＦｌｏｗｉｎｇＧＲＵモジュールは、ｍＩｏＵ^Ｐにおいて１．２２％の、ｍＩｏＵ^Ｔにおいて２．１４％の、ｍＣｏｎｓ．において３．４４％の明確な改善を示した。これは、ＦｌｏｗｉｎｇＧＲＵがピクセルモーションを考慮しながらも密集したビデオ予測の作業のための時系列的情報を効果的に活用するということを強調する。

ＲｅＬＵ非線形性を有するＦｌｏｗｉｎｇＧＲＵモジュールは、２つの変形と比較されてよい。１番目の１つは、（ＲｅＬＵの代わりに）標準的なｔａｎｈ非線形性を使用することによって構成されるが、これについては表１の「ＦｌｏｗｉｎｇＧＲＵ（ｔａｎｈ）」行を参照する。ｍＩｏＵ^Ｐにおいて０．８％の下落が観察されたが、これはＲｅＬＵがセマンティックセグメンテーションのためにより適切であることを示している。

２番目の変形において、ＦｌｏｗＮｅｔＳのパラメータは固定されるが、訓練中には微細調整がなされない（すなわち、第２畳み込みニューラルネットワークが段階ｂにおいて追加で学習されない）。これについては表１のＦｌｏｗｉｎｇＧＲＵ（ｆｉｘｅｄｆｌｏｗ）」行を参照する。このような場合に、ｍＩｏＵ^Ｐにおいて０．９％の下落があり、これは、ＦｌｏｗｉｎｇＧＲＵモジュールとともにフロー推定を訓練させることの重要性を示している。

ＦｌｏｗｉｎｇＧＲＵモジュールは、他の回帰型モデルとさらに比較される。内部状態のワーピングのない、例えば、ビデオのセマンティックセグメンテーションの脈絡における使用として、標準的な畳み込みゲート付き回帰型ユニット（ＣｏｎｖＧＲＵ）が先に試される。結果は、表１の「ＣｏｎｖＧＲＵ」行で報告される。３つの指標は、フレーム単位ベースラインに比べて多少増加するが、これは一部の時系列的一貫性を事実上学習するということを示している。しかし、ＣｏｎｖＧＲＵは、例えば、０．８％さらに低いｍＩｏＵ^Ｐのように、好ましいＦｌｏｗｉｎｇＧＲＵよりは相当に劣った性能を示す。事実、連続するフレーム間で内部状態を維持することにより、ＣｏｎｖＧＲＵは、連続するフレーム内の同じ位置のピクセルが同じ実世界ポイントのプロジェクションとなることを仮定し、これはほとんどの場合において正しくない。同じように、ｍＩｏＵ^ＴおよびｍＣｏｎｓ．は、それぞれ１．６３％および２．５５％と相当に減少する。

次に、ゲート付き回帰型ユニットが、ＲｅＬＵ非線形性がｔａｎｈの代わりにも使用される長短期記憶によって代替され、これについては表１の「ＣｏｎｖＬＳＴＭ」および「ＦｌｏｗｉｎｇＬＳＴＭ」行を参照する。ゲート付き回帰型ユニットを有するものよりも、性能は相当に低下した。１つの説明は、長短期記憶がビジョン作業に対してゲート付き回帰型ユニットよりも訓練することが難しいということである。ＦｌｏｗｉｎｇＬＳＴＭが畳み込みＬＳＴＭよりも相当に優れた性能を示す（ｍＩｏＵ^Ｐにおいて＋４．０６％）という１つの興味深い結果を示したが、これは内部状態をワーピングすることの重要性を再度強調している。

最後に、最後から２番目のレイヤの代わりに最後の畳み込みレイヤを代替することにより、ＦｌｏｗｉｎｇＧＲＵモジュールの位置が研究されてよい。このような場合に、出力は、ソフトマックス（ｓｏｆｔｍａｘ）に入っていくことに留意する（非線形性は使用されなかった）。このような変形は、バイパーデータセットに対して０．６％のｍＩｏＵ^Ｐ減少に繋がることに留意する。ＣｏｎｖＧＲＵを使用するとき、性能は、モジュールを最後のレイヤに代替するときよりも低くなる。最後から２番目のレイヤを代替することにより、履歴は最終推定が生成される潜在空間（ｌａｔｅｎｔｓｐａｃｅ）に内蔵され、これは、隠れ状態と現在の特徴から最終的なセグメンテーションを直接的に推定するよりも強力である。

様々な実験は、微細アノテーション（ｆｉｎｅａｎｎｏｔａｔｉｏｎ）だけを使用する、すなわち、訓練のために２９７５個のシーケンスおよび検証のために５００個のシーケンスを実世界シティスケープデータセット（Ｃｉｔｙｓｃａｐｅｓｄａｔａｓｅｔ）上で動作されることができた。各シーケンスは、１つのフレーム（１２番目のフレーム）上だけで注釈を有する３０個のフレームを有する。

訓練および試験の手順は、バイパーデータセットの場合と同じように維持されてよい。唯一の違いは、グラウンドトゥルースが疎な（ｓｐａｒｓｅ）フレームに対して注釈処理されることにある。したがって、訓練中には注釈処理されなかったフレームに対する損失は無視され、これは、ビデオ情報が適合しないように活用されるように生成される。ノイズ軌跡は、１つのシーケンスあたり１つが注釈処理されたフレームによっては解消されず、したがって、ｍＩｏＵ^Ｐだけが報告されるようになる。

相異する変形の結果は、表１の右側の列で報告したとおりである。先ず、ＦｌｏｗｉｎｇＧＲＵは、ｍＩｏＵ^Ｐにおいて１．１４％の利得によってフレーム単位ベースラインを凌駕する。すべての場合において、「Ｆｌｏｗｉｎｇ」対応関係は、静的な畳み込みモジュールよりも優れた性能を示す。

要するに、ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練する方法は、既にセマンティックセグメンテーションされた訓練イメージのベースから第１畳み込みニューラルネットワークを訓練する段階、および既にセマンティックセグメンテーションされた訓練ビデオのベースから前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階を含み、畳み込みレイヤは、隠れ状態（ｈｉｄｄｅｎｓｔａｔｅ）を有する回帰型モジュールによって代替された。前記訓練する段階は、既にセマンティックセグメンテーションされた訓練ビデオのベースのうちの１つのビデオの連続するフレームの各対に対し、該当の対のフレーム間の推定されたオプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）によって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように（ａｄａｐｔ）ワーピングする段階を含む。

より好ましくは、内部状態がオプティカルフローによってフレーム間でワーピングされた標準的な畳み込み回帰型レイヤ（これは、他の畳み込みニューラルネットワークを使用して推定される）を提供することは、ビデオのセマンティックセグメンテーションを、特に、時間による一貫性の観点において改善させる。

連続するフレームの対は、好ましくは、以前のフレームおよび現在のフレームを含み、推定されたオプティカルフローは、前記現在のフレームから前記以前のフレームへの逆方向（ｂａｃｋｗａｒｄ）のオプティカルフローであり、前記以前のフレームと関連する内部状態に対応する前記以前のフレームと関連するワーピングされた内部状態を取得するために、前記内部状態にワーピング関数が適用され、各ピクセルは前記逆方向オプティカルフローによる変位を経るようになる。

前記ワーピング関数は

であり、ｐ_ｔは前記現在のフレームｔのピクセルであり、Ｆ_{ｔ→ｔ−１}は前記逆方向オプティカルフローであり、ｈ_ｔ−１は前記以前のフレームｔ−１と関連する内部状態であり、

は前記以前のフレームｔ−１と関連するワーピングされた内部状態である。

対をなすフレームのオプティカルフローの推定は、オプティカルフローが既知である（ｋｎｏｗｎ）連続するフレームの訓練対のベースから第２畳み込みニューラルネットワークを訓練することにより、前記第２畳み込みニューラルネットワークを使用して実行されてよい。前記第２畳み込みニューラルネットワークは、ＦｌｏｗＮｅｔＳｉｍｐｌｅネットワークまたはＦｌｏｗＮｅｔＣｏｒｒｅｌａｔｉｏｎネットワークであってよい。

前記回帰型モジュール前の前記畳み込み回帰型ニューラルネットワークの各レイヤのパラメータは、固定されてよい。

回帰型モジュールによって代替される前記第１畳み込みニューラルネットワークの畳み込みレイヤは、最後から２番目（ｐｅｎｕｌｔｉｍａｔｅ）の畳み込みレイヤであってよい。

前記畳み込み回帰型ニューラルネットワークの学習されたパラメータは、前記回帰型モジュールおよび前記第１畳み込みニューラルネットワークの最後の畳み込みレイヤのパラメータであってよい。

前記第１畳み込みニューラルネットワークは、前記最後から２番目の畳み込みレイヤの前に、Ａｔｒｏｕｓ空間的ピラミッドプーリング（ａｔｒｏｕｓｓｐａｔｉａｌｐｙｒａｍｉｄｐｏｏｌｉｎｇ）モジュールを含んでよい。

前記回帰型モジュールは、畳み込みゲート付き回帰型ユニット（ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ）または畳み込み長短期記憶（ｌｏｎｇｓｈｏｒｔ−ｔｅｒｍｍｅｍｏｒｙ）を含んでよい。

セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練する段階、およびセマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階（ここで、畳み込みレイヤは、隠れ状態（ｈｉｄｄｅｎｓｔａｔｅ）を有する回帰型モジュールによって代替され、前記畳み込み回帰型ニューラルネットワークを訓練させる段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、連続するフレームの対のフレーム間の推定されたオプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）によって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように（ａｄａｐｔ）ワーピングする段階、および少なくとも前記回帰型モジュールのパラメータを学習する段階を含む）によって訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法は、（ａ）前記入力されたビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、前記対のフレーム間のオプティカルフローを推定する段階、（ｂ）前記入力されたビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、前記推定されたオプティカルフローによって前記回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように（ａｄａｐｔ）ワーピングする段階、および（ｃ）前記入力されたビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、前記畳み込み回帰型ニューラルネットワークによって各フレームをセマンティックセグメンテーションする段階を含む。

前記畳み込み回帰型ニューラルネットワークを訓練させる段階は、オプティカルフローが既知である（ｋｎｏｗｎ）連続するフレームの訓練対のセットを使用して第２畳み込みニューラルネットワークを訓練させる段階を含んでよく、前記（ａ）は、前記第２畳み込みニューラルネットワークを使用して実行される。

前記第２畳み込みニューラルネットワークは、ＦｌｏｗＮｅｔＳｉｍｐｌｅネットワークまたはＦｌｏｗＮｅｔＣｏｒｒｅｌａｔｉｏｎネットワークであってよい。

畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法は、（ａ）前記入力されたビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、前記対のフレーム間のオプティカルフローを推定する段階、（ｂ）前記入力されたビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、前記推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように（ａｄａｐｔ）ワーピングする段階、（ｃ）前記入力されたビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、前記畳み込み回帰型ニューラルネットワークで各フレームをセマンティックセグメンテーションする段階を含み、前記畳み込みニューラルネットワークは、セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練させる段階、およびセマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練させる段階によって訓練され、畳み込みレイヤは、隠れ状態（ｈｉｄｄｅｎｓｔａｔｅ）を有する回帰型モジュールによって代替され、前記畳み込み回帰型ニューラルネットワークを訓練させる段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、連続するフレームの対のフレーム間の推定されたオプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）によって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように（ａｄａｐｔ）ワーピングする段階、および少なくとも前記回帰型モジュールのパラメータを学習する段階を含む。

前記畳み込み回帰型ニューラルネットワークを訓練する段階は、オプティカルフローが既知である（ｋｎｏｗｎ）連続するフレームの訓練対のセットを使用して第２畳み込みニューラルネットワークを訓練する段階を含み、前記（ａ）は、前記第２畳み込みニューラルネットワークを使用して実行される。

第２畳み込みニューラルネットワークは、ＦｌｏｗＮｅｔＳｉｍｐｌｅネットワークまたはＦｌｏｗＮｅｔＣｏｒｒｅｌａｔｉｏｎネットワークであってよい。

他の一側面において、ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練するシステムが提供される。当該システムは、（ａ）セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練し、（ｂ）セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練してよい。畳み込みレイヤは、隠れ状態（ｈｉｄｄｅｎｓｔａｔｅ）を有する回帰型モジュールによって代替された。前記畳み込み回帰型ニューラルネットワークを訓練することは、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、（ｂ１）連続するフレームの対のフレーム間の推定されたオプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）によって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するように（ａｄａｐｔ）ワーピングし、（ｂ１）少なくとも前記回帰型モジュールのパラメータを学習することを含んでよい。

また、他の一側面において、ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練する方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されたプログラムが提供される。当該方法は、（ａ）セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練する段階、および（ｂ）セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階（ここで、畳み込みレイヤは、隠れ状態（ｈｉｄｄｅｎｓｔａｔｅ）を有する回帰型モジュールによって代替される）を含んでよい。前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームｔ−１，ｔ∈[[１；Ｔ]]^２の各対に対し、（ｂ１）連続するフレームの対のフレーム間の推定されたオプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）によって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応する（ａｄａｐｔ）ようにワーピングする段階、および（ｂ１）少なくとも前記回帰型モジュールのパラメータを学習する段階を含んでよい。

以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

Claims

ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練する方法であって、
（ａ）セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練する段階、および
（ｂ）セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階であって、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替される段階
を含み、
前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームの各対について、
（ｂ１）連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
（ｂ２）少なくとも前記回帰型モジュールのパラメータを学習する段階
を含み、
前記回帰型モジュールによって代替される前記第１畳み込みニューラルネットワークの畳み込みレイヤは、最後から２番目の畳み込みレイヤである、
畳み込み回帰型ニューラルネットワークを訓練する方法。
前記連続するフレームの対は、以前のフレームおよび現在のフレームを含み、前記推定されたオプティカルフローは、前記現在のフレームから前記以前のフレームへの逆方向オプティカルフローであり、
前記（ｂ１）は、前記以前のフレームと関連する内部状態に対応する前記以前のフレームと関連するワーピングされた内部状態を取得するために、ワーピング関数を前記内部状態に適用する段階であり、各ピクセルは、前記逆方向オプティカルフローによる変位を経たものである、
請求項１に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
前記ワーピング関数は

であり、ｐ_ｔは前記現在のフレームｔのピクセルであり、Ｆ_{ｔ→ｔ−１}は前記逆方向オプティカルフローであり、ｈ_ｔ−１は前記以前のフレームｔ−１と関連する内部状態であり、

は、前記以前のフレームｔ−１と関連するワーピングされた内部状態である、
請求項２に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
前記（ｂ１）は、第２畳み込みニューラルネットワークを使用して実行される、前記連続するフレームの対のフレーム間のオプティカルフローを推定する段階を含み、前記第２畳み込みニューラルネットワークは、オプティカルフローが既知である連続するフレームの訓練対のセットを使用して訓練される、
請求項１に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
前記第２畳み込みニューラルネットワークは、ＦｌｏｗＮｅｔＳｉｍｐｌｅネットワークである、
請求項４に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
前記第２畳み込みニューラルネットワークは、ＦｌｏｗＮｅｔＣｏｒｒｅｌａｔｉｏｎネットワークである、
請求項４に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
前記回帰型モジュールの前の前記畳み込み回帰型ニューラルネットワークの各レイヤのパラメータは、前記（ｂ２）の間に固定される、
請求項１に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
前記（ｂ２）で学習された畳み込み回帰型ニューラルネットワークのパラメータは、前記回帰型モジュールおよび前記第１畳み込みニューラルネットワークの最後の畳み込みレイヤのパラメータである、
請求項７に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
前記（ｂ２）は、前記第２畳み込みニューラルネットワークのパラメータを学習する段階
をさらに含む、
請求項４に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
前記第１畳み込み回帰型ニューラルネットワークは、最後から２番目の畳み込みレイヤの前に、Ａｔｒｏｕｓ空間的ピラミッドプーリングモジュールを含む、
請求項７に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
前記回帰型モジュールは、畳み込みゲート付き回帰型ユニットを含む、
請求項１に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
前記回帰型モジュールは、畳み込み長短期記憶を含む、
請求項１に記載の畳み込み回帰型ニューラルネットワークを訓練する方法。
ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練する方法であって、
（ａ）セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練する段階、および
（ｂ）セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階であって、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替される段階
を含み、
前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームの各対について、
（ｂ１）連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
（ｂ２）少なくとも前記回帰型モジュールのパラメータを学習する段階
を含み、
前記回帰型モジュールの前の前記畳み込み回帰型ニューラルネットワークの各レイヤのパラメータは、前記（ｂ２）の間に固定され、
前記（ｂ２）で学習された畳み込み回帰型ニューラルネットワークのパラメータは、前記回帰型モジュールおよび前記第１畳み込みニューラルネットワークの最後の畳み込みレイヤのパラメータである、
畳み込み回帰型ニューラルネットワークを訓練する方法。
ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練する方法であって、
（ａ）セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練する段階、および
（ｂ）セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階であって、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替される段階
を含み、
前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームの各対について、
（ｂ１）連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
（ｂ２）少なくとも前記回帰型モジュールのパラメータを学習する段階
を含み、
前記回帰型モジュールの前の前記畳み込み回帰型ニューラルネットワークの各レイヤのパラメータは、前記（ｂ２）の間に固定され、
前記第１畳み込み回帰型ニューラルネットワークは、最後から２番目の畳み込みレイヤの前に、Ａｔｒｏｕｓ空間的ピラミッドプーリングモジュールを含む、
畳み込み回帰型ニューラルネットワークを訓練する方法。
セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練する段階、およびセマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階によって訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法であって、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替され、前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームの各対に対し、連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および少なくとも前記回帰型モジュールのパラメータを学習する段階を含み、当該方法は、
（ａ）前記入力されたビデオの連続するフレームの各対に対し、前記対のフレーム間のオプティカルフローを推定する段階、
（ｂ）前記入力されたビデオの連続するフレームの各対に対し、前記推定されたオプティカルフローによって前記回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
（ｃ）前記入力されたビデオの連続するフレームの各対に対し、前記畳み込み回帰型ニューラルネットワークによって各フレームをセマンティックセグメンテーションする段階
を含み、
前記回帰型モジュールによって代替される前記第１畳み込みニューラルネットワークの畳み込みレイヤは、最後から２番目の畳み込みレイヤである、
入力されたビデオのセマンティックセグメンテーション方法。
前記畳み込み回帰型ニューラルネットワークを訓練する段階は、オプティカルフローが既知である連続するフレームの訓練対のセットを使用して第２畳み込みニューラルネットワークを訓練する段階を含み、前記（ａ）は、前記第２畳み込みニューラルネットワークを使用して実行される、
請求項１５に記載の入力されたビデオのセマンティックセグメンテーション方法。
前記第２畳み込みニューラルネットワークは、ＦｌｏｗＮｅｔＳｉｍｐｌｅネットワークである、
請求項１６に記載の入力されたビデオのセマンティックセグメンテーション方法。
前記第２畳み込みニューラルネットワークは、ＦｌｏｗＮｅｔＣｏｒｒｅｌａｔｉｏｎネットワークである、
請求項１６に記載の入力されたビデオのセマンティックセグメンテーション方法。
畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法であって、
（ａ）前記入力されたビデオの連続するフレームの各対に対し、前記対のフレーム間のオプティカルフローを推定する段階、
（ｂ）前記入力されたビデオの連続するフレームの各対に対し、前記推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
（ｃ）前記入力されたビデオの連続するフレームの各対に対し、前記畳み込み回帰型ニューラルネットワークによって各フレームをセマンティックセグメンテーションする段階
を含み、
前記畳み込みニューラルネットワークは、セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練する段階、およびセマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階によって訓練され、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替され、前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームの各対に対し、連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および少なくとも前記回帰型モジュールのパラメータを学習する段階を含み、
前記回帰型モジュールによって代替される前記第１畳み込みニューラルネットワークの畳み込みレイヤは、最後から２番目の畳み込みレイヤである、
入力されたビデオのセマンティックセグメンテーション方法。
前記畳み込み回帰型ニューラルネットワークを訓練する段階は、オプティカルフローが既知である連続するフレームの訓練対のセットを使用して第２畳み込みニューラルネットワークを訓練する段階を含み、前記（ａ）は、前記第２畳み込みニューラルネットワークを使用して実行される、
請求項１９に記載の入力されたビデオのセマンティックセグメンテーション方法。
前記第２畳み込みニューラルネットワークは、ＦｌｏｗＮｅｔＳｉｍｐｌｅネットワークである、
請求項２０に記載の入力されたビデオのセマンティックセグメンテーション方法。
前記第２畳み込みニューラルネットワークは、ＦｌｏｗＮｅｔＣｏｒｒｅｌａｔｉｏｎネットワークである、
請求項２０に記載の入力されたビデオのセマンティックセグメンテーション方法。
ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練するシステムであって、
当該システムは、
（ａ）セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練し、
（ｂ）セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練し、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替され、
前記畳み込み回帰型ニューラルネットワークを訓練することは、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームの各対に対し、
（ｂ１）連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングし、
（ｂ２）少なくとも前記回帰型モジュールのパラメータを学習すること
を含み、
前記回帰型モジュールによって代替される前記第１畳み込みニューラルネットワークの畳み込みレイヤは、最後から２番目の畳み込みレイヤである、
畳み込み回帰型ニューラルネットワークを訓練するシステム。
ビデオのセマンティックセグメンテーションのための畳み込み回帰型ニューラルネットワークを訓練させる方法をコンピュータに実行させるためのプログラムであって、
前記方法は、
（ａ）セマンティックセグメンテーションされた訓練イメージのセットを使用して第１畳み込みニューラルネットワークを訓練する段階、および
（ｂ）セマンティックセグメンテーションされた訓練ビデオのセットを使用して前記第１畳み込みニューラルネットワークに対応する畳み込み回帰型ニューラルネットワークを訓練する段階であって、畳み込みレイヤは、隠れ状態を有する回帰型モジュールによって代替される、段階
を含み、
前記畳み込み回帰型ニューラルネットワークを訓練する段階は、前記セマンティックセグメンテーションされた訓練ビデオのセットのうちの１つのビデオの連続するフレームの各対に対し、
（ｂ１）連続するフレームの対のフレーム間の推定されたオプティカルフローによって回帰型レイヤの内部状態を、前記内部状態が前記対のフレーム間のピクセルのモーションに適応するようにワーピングする段階、および
（ｂ２）少なくとも前記回帰型モジュールのパラメータを学習する段階
を含み、
前記回帰型モジュールによって代替される前記第１畳み込みニューラルネットワークの畳み込みレイヤは、最後から２番目の畳み込みレイヤである、
プログラム。