JP7228172B2

JP7228172B2 - オプティカルフロー推定のための方法

Info

Publication number: JP7228172B2
Application number: JP2021547880A
Authority: JP
Inventors: フメリンニコレイ; ネオーラルミハル; ソフマンヤン; マタスイジー
Original assignee: トヨタモーターヨーロッパ; チェコテクニカルユニバーシティインプラハ
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2023-02-24
Anticipated expiration: 2038-10-31
Also published as: WO2020088766A1; JP2022509375A

Description

本発明は、画像処理のためのシステムおよび方法に関し、特に、ニューラルネットワークにより実現されるオプティカルフロー推定方法に関する。

オプティカルフローは、２つ以上の画像間のシーンの動きの予測を記述する二次元変位フィールドである。シーンの動きまたは他の要因により引き起こされるオクルージョン(occlusions)は、オプティカルフロー推定に関する問題の一因となり、つまり閉塞された(occluded)画素においては視覚的対応物が存在しない。

オプティカルフロー推定は、重要なコンピュータビジョン問題であり、例えば、行動認識、自律運転、およびビデオ編集などの多数の適用例がある。

畳み込みニューラルネットワーク（ＣＮＮ）を使用していなかった、以前に行われた方法は、この問題に、周囲の閉塞されていない領域からのオプティカルフローを外挿入して推定する正則化を使用することにより対処していた。

現在の最先端ＣＮＮに基づくアルゴリズムにおいては、正則化は単に暗黙的に示されるだけで、ネットワークは、識別された対応物にどの程度の信頼をおけるか、およびどの程度外挿して推定するかを学習する。

オクルージョンを取り扱う以前のアプローチは、まず、初期前方および後方オプティカルフローをより直接的に推定し、オクルージョンは、前方／後方一貫性チェックを使用して識別される。そして、オクルージョンマップが、最終オプティカルフローの推定のために使用される。

更に、幾つかの以前のソリューションによれば、中央のフレームが基準フレームである３つのフレームが、損失演算に対する座標システムを定義するために使用されていた。そして、将来フレームへの前方フローおよび過去フレームへの後方フローが計算され、これら２つのオプティカルフローの何らかの正則化を可能にするために適用される。

Ｙａｎｇおよびその他による「ＰＷＣ－Ｎｅｔ：ＣＮＮｓｆｏｒＯｐｔｉｃａｌＦｌｏｗＵｓｉｎｇＰｙｒａｍｉｄ，Ｗａｒｐｉｎｇ，ａｎｄＣｏｓｔＶｏｌｕｍｅ」，ＣＶＰＲ２０１８（「ＰＷＣ－Ｎｅｔ：ピラミッド、ワーピング、およびコスト量を使用するオプティカルフローのためのＣＮＮ」、ＣＶＰＲ（コンピュータビジョンおよびパターン認識）２０１８）は、推定されたオプティカルフローの生成のためのＣＮＮモデルを開示している。しかし、オクルージョンをどのように取り扱うかについての考察は検討されていない。

Ｍｅｉｓｔｅｒおよびその他による「Ｕｎｆｌｏｗ：ＵｎｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｏｆＯｐｔｉｃａｌＦｌｏｗＷｉｔｈａＢｉｄｉｒｅｃｔｉｏｎａｌＣｅｎｓｕｓＬｏｓｓ，」ＡＡＡＩ２０１８（「Ｕｎｆｌｏｗ：双方向センサス損失を伴うオプティカルフローの教師なし学習」ＡＡＡＩ（アメリカ人工知能学会）２０１８）は、オプティカルフロー推定におけるオクルージョンを取り扱うための双方向フロー推定の使用を開示している。

本発明の発明者は、従来の方法においては、オクルージョンは、解析のまさに最初から初期オプティカルフロー推定に影響し、そのため、最終ソリューションは、オクルージョンによる初期影響を考慮しないことにより悪影響を受けると判断した。

加えて、本発明の発明者は、以前に推定されたオプティカルフローを現在のオクルージョン／フロー解析にフィードバックすることにより、ＣＮＮは、以前の、および現在の時間ステップのオプティカルフローとの間の典型的な関係を学習でき、従って、ネットワークがこれらの関係を、オクルージョン／フロー推定を経る時間ステップにおいて使用することを可能にするということを認識した。

更に、３つ以上のフレームにわたるオプティカルフロー推定は、画素を損失演算のために、基準座標システムにマップする必要が生じる結果となる。マッピングは、未知のオプティカルフロー自身により定義されるので、従って、フローを知る前に、時間的正則化を適用することは困難になる。しかし、フィードバックおよびフィードフォワード方法により、本開示に係るシステムを実現することにより、システムは、時間ステップフローの学習において支援され、フレーム間で座標システムをより正確に整列させることが可能になり、そのため、以前のフレームフローを、現在のフレームにおける正しい位置に伝播させることが可能になる。

本開示の実施形態によれば、１つ以上の画素のオプティカルフロー推定を決定するために、複数の画像フレームを処理するための方法が提供される。方法は、ビデオシーケンスの複数の画像フレームを提供して、複数の画像フレームから各画像内の特徴を識別することと、オクルージョン推定器により、ビデオシーケンスの２つ以上の連続画像フレームにおける１つ以上のオクルージョンの存在を、少なくとも識別された特徴に基づいて推定することと、オクルージョン推定器により、１つ以上のオクルージョンマップを、１つ以上のオクルージョンの推定された存在に基づいて生成することと、１つ以上のオクルージョンマップを、オプティカルフローデコーダのオプティカルフロー推定器に提供することと、オプティカルフローデコーダにより、識別された特徴および１つ以上のオクルージョンマップに基づいて、複数の画像フレームにわたる１つ以上の画素に対する推定されたオプティカルフローを生成することを含んでいる。

推定されたフローの生成に先行してオクルージョン推定を考慮することにより、リソース使用量の削減と共に、オクルージョンの存在およびオプティカルフローの両者の向上された精度を達成できる。加えて、以前に推定されたフローを、システムを通してフィードバックできるので、時間的範囲に制限はなく、反復により、すべての先行するフレームを、将来のオプティカルフロー推定に使用できる。

識別することは、特徴抽出器により、２つ以上の連続画像フレームのそれぞれから１つ以上の特徴を抽出することにより、１つ以上の特徴ピラミッドを生成することと、１つ以上の特徴ピラミッドのそれぞれの少なくとも１つのレベルをオプティカルフロー推定器に提供することを含むことができる。

１つ以上のオクルージョンの存在を推定することは、２つ以上の連続画像フレーム間の複数の変位にわたる識別された特徴の１つ以上に対する推定された相関コスト量を計算することを含むことができる。

本方法は、オプティカルフローおよび１つ以上のオクルージョンマップを、精製されたオプティカルフローを生成するために精製ネットワークに提供することを含むことができる。

本方法は、オプティカルフローデコーダ、オクルージョン推定器、および精製ネットワークの少なくとも１つに、以前の時間ステップからの推定されたオプティカルフローを提供することを含むことができ、精製ネットワークは好ましくは、畳み込みニューラルネットワークを備えている。

オプティカルフローデコーダおよびオクルージョン推定器は、畳み込みニューラルネットワークを含むことができる。

本方法は、オプティカルフローのフロー座標システムを、考慮されている画像フレームのフレーム座標システムに変換することを含むことができ、変換は、バイリニア補間を伴うワーピングを備えている。

ワーピングは、前方ワーピングと後方ワーピングの少なくとも１つを含むことができる。

特徴抽出器は、複数の画像フレームの第１および第２画像フレーム間の初期推定オプティカルフローで初期化でき、初期オプティカルフローは、任意のワーピングの適用に先行して推定される。

１つ以上の畳み込みニューラルネットワークは、オプティカルフローデコーダおよびオクルージョン推定器上の重み付けられたマルチタスク損失によりエンドツーエンド（端末同士）でトレーニングできる。

トレーニングは、損失方程式に従って、すべてのスケールにおいて実行でき、

ここでα^Sは個々のスケール損失の重み、α₀はオクルージョン推定重み、合計はすべてのＳ空間解像度上で行われ、

は最適化損失、および

は、オクルージョン損失に対する画素毎のクロスエントロピ損失である。

ビデオシーケンスは、車両、好ましくは、自律操作されるモータービークル(motor vehicle)における道路シーンから得られる画像フレームを含むことができる。

本開示の更なる実施形態によれば、非一時的コンピュータ可読媒体は、プロセッサに上記の方法を実行させるように構成されている命令を備えている。

非一時的コンピュータ可読媒体は、車両、好ましくは、自律操作されるモータービークルに搭載できる。非一時的コンピュータ可読媒体は、磁気格納装置、光格納装置、電子格納装置などを備えることができる。

本開示の更なる実施形態は、上記の方法を実行するように構成されているプロセッサを備えているモータービークルを含んでおり、プロセッサは、少なくとも部分的にはオプティカルフローに基づいて車両制御システムを起動するように更に構成できる。

上記の要素と、明細書内の要素は、矛盾する場合を除き組み合わせることができるということが意図されている。

前述した一般的な記述と、下記の詳細な記述の両者は例および説明のためのものに過ぎず、主張されるような開示を制限するものではないということは理解されるべきである。

本明細書に組み込まれ、その一部を構成する付随する図面は、記述と共に開示の実施形態を例示し、その理念を説明する役割を果たす。

オプティカルフローの解析に先行してオクルージョンを考慮するように構成されているオプティカルフロー推定システムの例としての論理図である。オプティカルフロー推定およびオクルージョン精製のための、例としての時間に基づくフローを示している。本開示の実施形態に係る、例としての方法を示しているフローチャートを示している。

ここで、その例が付随する図面に示されている、開示の例としての実施形態にここで詳細に言及する。可能な場合は必ず、同じまたは類似する構成要素に言及するために、図面を通して、同じ参照番号を使用する。

本開示は、複数の画像フレームにわたる１つ以上の画素および／または特徴のオプティカルフローを正確に推定するために、画像データを処理する方法に関する。

従って、入力データは、例えば、エゴ車両を取り囲む道路シーンからの複数の画像を備えることができ、入力データを、ある時間期間にわたって備えることができる。入力データは、例えば、ここにおいては「ネットワーク」とも称される畳み込みニューラルネットワーク（ＣＮＮ）のようなニューラルネットワークの入力ノードに提供するための任意の適切な形式であることができる。例えば、画像データ入力は、ｊｐｅｇ形式、ｇｉｆ形式などであってよい。

特に注目される画像データは、制限されることはないが、例えば、停止している、または移動している車両の前方において取り込まれるような道路シーンから得られる画像データであってよい。

そのような画像データは、例えばエゴ車両の動作中に、車両またはその運転手に関連する対象物の、例えば認識および追尾のために使用できる。注目対象物は、例えば、道路および関連する標識、歩行者、車両、障害物、交通信号灯などのような任意の適切な対象物であってよい。

特に、本発明は、ビデオシーケンスの複数のフレームにわたる１つ以上の対象物またはその画素のオプティカルフローを推定するための方法を提供する。

図１は、オプティカルフローの解析に先行してオクルージョンを考慮するように構成されているオプティカルフロー推定システムの例としての論理図である。

本開示のオプティカルフロー推定システムの構成要素は、特には、機械学習可能特徴ピラミッド抽出器１００、１つ以上のオクルージョン推定器１１０、およびオプティカルフローデコーダ２を含むことができる。例えば、精製ネットワーク（図２に示されている）もまた提供できる。

学習可能特徴ピラミッド抽出器１００は、１つ以上の入力画像Ｉが与えられると、特徴ピラミッドを生成するように構成されている畳み込みニューラルネットワークを備えている。例えば、２つの入力画像Ｉ_tとＩ_t+1が与えられると、特徴図(feature representations)のＬレベルピラミッドを生成でき、底（ゼロ番目）レベルは入力画像、つまり

である。ｌ番目の層、つまり、

における特徴図を生成するために、畳み込みフィルタの層を、例えば係数２で、（ｌ－１）番目のピラミッドレベル、つまり、

における特徴をダウンサンプリングするために使用できる。

本開示の実施形態によれば、各特徴ピラミッド抽出器１００は、少なくとも３つのレベル（１０１ａ、１０１ｂ、１０１ｃ）、例えば、６つのレベル（更なる３つのレベルは、明確性の目的のために図には示されていない）を備えることができる。そのため、特徴ピラミッド抽出器１００の第１レベルから第６レベルで、特徴チャネルの数は、例えば、それぞれ１６、３２、６４、９６、１２８、および１９６であることができる。

特徴ピラミッド抽出器１００の少なくとも１つのレベルの出力は、オクルージョン推定器１１０に供給され、同時に、オプティカルフローデコーダ２の構成要素、例えば、相関コスト量推定器１０５、ワーピングモジュール１２０、および第１オプティカルフロー推定モジュール１１５ａの少なくとも１つに供給される。

オプティカルフローデコーダ２は、特には、１つ以上のオプティカルフロー推定器１１５、１つ以上の前方および／または後方ワーピングモジュール１２０、１つ以上のコスト量推定器１０５、および１つ以上のアップサンプラー１１２を含むことができる。当業者は、これらの構成要素のそれぞれは、単一ニューラルネットワーク（例えば、畳み込みニューラルネットワーク）内で実現できるということ、または、トレーニングおよび処理の間に、他の構成ニューラルネットワークからの出力から入力を受信するそれ自身の個々のニューラルネットワーク内で実現できるということを理解するであろう。

オプティカルフローデコーダ２の論理構成は、Ｄ．Ｓｕｎその他による、「ＰＷＣ－Ｎｅｔ：ＣＮＮｆｏｒＯｐｔｉｃａｌＦｌｏｗＵｓｉｎｇＰｙｒａｍｉｄ、Ｗａｒｐｉｎｇ、ａｎｄＣｏｓｔＶｏｌｕｍｅ（ＰＷＣ－Ｎｅｔ：ピラミッド、ワーピング、およびコスト量を使用するオプティカルフローのためのＣＮＮ）」ａｒＸｉｖ：１７０９．０２３７１ｖ３、２５Ｊｕｎｅ２０１８（２０１８年６月２５日）に記述されているＰＷＣ－ＮＥＴのオプティカルフローデコーダに追従している。特に、この文献の第３節で、「Ａｐｐｒｏａｃｈ（アプローチ）」というタイトルの３ページ目の第２コラムから開始して、５ページ目の第１コラムまでにおいては、有用なオプティカルデコーダの１つの例としての実現形態を提供しており、この節は、ここにおいて、本明細書に参考文献として組み込まれる。

ワーピングモジュール１２０は、特徴ピラミッド抽出器１００の１つ以上の層からの出力を入力として受信するように構成されて提供できる。例えば、ワーピングは、図１において示されているように、特徴ピラミッド１００のｌ番目のレベルにおける出力に適用できる。第１画像に向けての第２画像Ｉ_t+1のワーピング特徴は、下記の

に従って（ｌ＋１）番目のレベルからの、倍率２でアップサンプリングされたフローを使用し、ここにおいて、ｘは画素インデックスであり、アップサンプリングされたフローｕｐ₂（ｗ^l+1）は、トップレベルにおいてはゼロに設定される。

バイリニア補間を、ワーピング動作を実現し、入力ＣＮＮ特徴の勾配および誤差逆伝播法のためのフローを算出するために使用できる。

非平行移動の動きに対しては、ワーピングを、幾何学的歪みを補償し、画像パッチを所望されるスケールにするために実現できる。

追加的なワーピングモジュール１２０を、例えば、下記により詳細に検討されるように、画像フレームＩ_tとＩ_t+1間の座標システムの平行移動のために、オプティカルフローデコーダ２の外部に提供できる。そのようなワーピングモジュール１２０は、座標平行移動の性能を促進するために、オプティカルフローデコーダ２および精製ネットワーク２５０の１つ以上からの入力を受信できる。

相関コスト推定器１０５は、２つ以上の連続画像フレームＩ_tとＩ_t+1との間の複数の変位における、特徴ピラミッド抽出器１００により識別された１つ以上の特徴に対する相関コスト量を推定するように構成できる。相関コスト量は、時刻ｔの第１フレームＩ_tにおける画素を、画像シーケンスの後続フレームＩ_t+1における、それに対応する画素と関連付けるための計算／エネルギーコストに基づく値である。

コスト量の計算および処理は、この技術においては一般的に知られている。例えば、入力を、両者ともＲ^H×W×Cからの２つのテンソルＴ₁およびＴ₂とし、Ｄ＝｛-ｄ_max、．．．、０、．．．、ｄ_max｝およびｄをＤ×Ｄからとする。そうすると、相関コスト量の出力は、Ｒ^H×W×|D||D|からのテンソルＹであり、Ｙ＝ＣＶ（ｘ、ｄ）＝Ｆ（Ｔ₁、ｘ）^TＦ（Ｔ₂、ｘ＋ｄ）であり、ここで、Ｆは、入力テンソルからチャネル次元に沿ってスライスを返し、ｘは｛１、．．．、Ｈ｝×｛１、．．．、Ｗ｝からである。

本開示においては、多数の特徴ピラミッドレベル（例えば、レベル１～６）における部分的コスト量が、相関コスト量が、特徴ピラミッド１００に全体にわたって識別された特徴に対して推定できるように実現される。

オクルージョン推定器１１０は、特徴抽出器１００からの識別された特徴および相関コスト推定モジュール１０５により決定された相関コスト量に基づいて、オクルージョンの存在を推定するように構成されている。本発明の発明者は、精査されたすべての変位上で、コスト量における特別な位置に対するコスト量が高いときは、画素は次のフレームで閉塞され易いと判断した。従って、第１オクルージョン推定器の出力（つまり、プリフロー推定オクルージョンマップ）を、プリフロー推定オクルージョンマップを生成するために使用されるコスト量データと共に、オプティカルフロー推定器に供給でき、それは、より精度良く推定されたオプティカルフローという結果になる。

精度の向上を、少なくとも部分的には、オクルージョン推定は生成に先行してオクルージョンを考慮しなかった不正確なフロー推定に依存しないという事実により導出することができ、それにより、オプティカルフロー推定器が、追加的入力から恩恵を受けることを可能にする。

オプティカルフロー推定器１１５とオクルージョン推定器１１０の両者は、より高い解像度の推定器が、より低い解像度の推定器からのアップサンプリングされたフロー推定を受信する疎から密への方法で動作できる。

オクルージョン推定器１１０は、例えば、Ｄ、Ｄ／２、Ｄ／４、Ｄ／８の５つの畳み込み層と、２つの出力チャネル（閉塞されている／閉塞されていないマップ）を実現でき、ここにおいて、Ｄは相関コスト量層の数に対応している。加えて、各層はＲｅＬＵ（正規化線形ユニット）活性化関数を使用でき、または代替的に、ある層、例えば、最終層は、ソフトマックス活性化関数を実現できる。

図２は、オプティカルフロー推定およびオクルージョン精製のための例としての時間に基づくフローを示しており、図３は、本開示の実施形態に係る、例としての方法を示しているフローチャートを示している。

複数の画像を、例えば、ビデオストリームの一部として受信できる（ステップ３０５）。

そして特徴ピラミッド１００は、その中の特徴を識別して、画像と関連付けられている特徴マップを生成するために画像を処理できる（ステップ３１０）。特徴ピラミッド１００のあるレベルにおける特徴は、例えば、オプティカルフロー推定器１１５ｂ、相関コスト推定器１０５ｂ、ワーピングモジュール１２０などにフィードフォワードできる。例えば、図１に示されているように、特徴ピラミッド抽出器１００における特徴は、各レベルで、空間的に２倍でダウンサンプリングされ、チャネルは各レベルで増加する。そして、相関コスト推定器１０５ａおよびフロー推定器１１５ａとのリンクは、疎から密への方式に沿って進行する。つまり、最低の空間解像度を有する特徴から開始して、フロー推定器１１５ａは、同じ特徴を使用して相関コスト推定器１０５ａにより構築されたコスト量の値を使用して、その解像度におけるオプティカルフローを推定する。

そしてフローはアップサンプリングされて（例えば、２倍で）、より高い解像度を有する特徴と合成される。これは、最終解像度に到達するまで繰り返される。

更に詳細には、画像Ｉ_tと第２画像Ｉ_t+1に対する特徴マップの初期セットが特徴ピラミッド１００により作成されると、特徴マップを、Ｉ_tとＩ_t+1との間の、特徴マップに基づくコスト量推定のためにコスト量推定器１０５ａに提供できる。そして、画像間のコスト量推定は、オクルージョン推定器１１０ａが、ｔ－１からのオプティカルフローと共に、コスト量に基づいて、画像フレームにおける１つ以上のオクルージョンの存在を推定し、オプティカルフロー推定器１１５ａが、現在の解像度における特徴ピラミッド１００からの特徴に基づいて、オプティカルフローを推定することを可能にするために、オクルージョン推定器１１０ａと第１オプティカルフロー推定器１１５ａに並列して提供できる（ステップ３１５）。

フローが、シーケンスの第１と第２画像フレームとの間で解析されているときは、ｔ－１からのオプティカルフローは利用できない。従って、ｔ－１のシミュレーションを行う初期化オプティカルフローを提供するために、オクルージョン推定器１１０ａと共に、特徴抽出器１００は、複数の画像フレームの第１と第２画像フレームとの間の初期推定されたオプティカルフローで初期化でき、初期オプティカルフローは、ワーピングモジュール１２０における如何なるワーピングの適用に先行して推定される。言い換えると、オプティカルフローデコーダ２を通しての第１パスは、画像シーケンスの第１および第２画像フレームで実行でき、オプティカルフローは、好ましくは、ワーピングモジュール１２０の適用なしで推定される。そして、この初期化オプティカルフローは、システムの構成要素にｔ－１オプティカルフローとして提供できる。

画像Ｉ_tからＩ_t+1のオクルージョンがオクルージョン推定器１１０により推定されると、推定されたオクルージョンに対するオクルージョンマップ５ａを作成でき（ステップ３２０）これらのマップ５ａは、オプティカルフロー推定器１１５ａ、アップサンプラー１１２ｂなどにフィードフォワードされる。

そして、オプティカルフロー推定器１１５ａは、オクルージョンマップ５ａ、特徴抽出器１００からの特徴、コスト量推定器１０５ａからのコスト量情報、および、時間ステップｔ－１からのワープされた以前のオプティカルフローに基づいて初期オプティカルフロー推定１ａを作成できる。

そして、初期オプティカルフロー推定は、例えば、アップサンプラー１１２ａにより２倍のアップサンプリング率でアップサンプリングできる。上記のように、フローは、最初は対応する解像度の特徴を使用して最も疎のスケールで推定される。より高い解像度を得るために、フローはアップサンプリングされ、より高い解像度のフローを推定するために、コスト量と共に使用され、最終解像度まで繰り返される。そして、最終解像度でのこの出力は、第２コスト量推定器１０５ｂ、オクルージョン推定器１１０ｂなどと共に、ワーピングモジュール１２０に提供でき、上記のように処理される。

オクルージョンマップ５ａは、アップサンプラー１１２ｂに供給でき、例えば２倍でアップサンプリングされ、結果のデータは、第２オクルージョン推定器１１０ｂに送られる。オクルージョン推定器１１０ｂにおいては、アップサンプリングされた初期オプティカルフロー推定１ａ、コスト量推定器１０５ｂからのコスト量、および時間ｔ－１からのワープされたオプティカルフロー推定は、最終オクルージョンマップ５ａを作成するために使用される。

平行して、アップサンプリング、ワーピング、および第２コスト量計算に続いて、初期オプティカルフロー推定１ａを、オプティカルフロー推定器１１５ｂに提供でき、オプティカルフロー推定器１１５ｂは、特には、最終オクルージョンマップ５ｂ、特徴ピラミッド１００からの特徴、および時間ｔ-１からのオプティカルフローを使用して、画像Ｉ_tとＩ_t+1との間の最終オプティカルフロー推定１ｂを生成する（ステップ３３０）。

図２において示され、上記に記したように、オプティカルフローとオクルージョン推定は、精度を更に向上するために、精製ネットワーク２５０により繰り返し精製できる。そのような精製ネットワークの１つの例は、Ｉｌｇおよび他の者による「ＦｌｏｗＮｅｔ２．０：ＥｖｏｌｕｔｉｏｎｏｆＯｐｔｉｃａｌＦｌｏｗＥｓｔｉｍａｔｉｏｎｗｉｔｈＤｅｅｐＮｅｔｗｏｒｋｓ（ディープネットワークによるオプティカルフロー推定の展開）」、２０１６年１２月６日、の４．１節に記述されており、この節の内容は、ここにおいて参考文献として組み入れられる。

本開示の実施形態によれば、精製ネットワーク２５０（図２参照）は、ＦＬｏｗＮｅｔ２および／またはＰＷＣ－Ｎｅｔのオプティカルフローデコーダと類似のアーキテクチャを有することができる。例えば、ＰＷＣ－Ｎｅｔにより記述される精製ネットワーク（つまり、４ページにおいて記述されたＣｏｎｔｅｘｔＮｅｔｗｏｒｋ）を基にして、ＤｅｎｓｅＮｅｔ接続を除去できる。そして、入力画像および関連付けられているワープを使用する代わりに、対応するスケールの特徴ピラミッド１００からの特徴および関連付けられているワープを代りに使用でき、そのため、より豊かな入力表現を提供する。そして、これらの特徴の入力エラーチャネルは、Ｌ₁損失と構造類似性（ＳＳＩＭ）の合計として計算できる。

本開示によれば、本発明の発明者は、向上された結果は、２つの精製アプリケーションを使用して得ることができ、更なるアプリケーションにより、減少するゲインが得られると判断した。

上記のように、ＰＷＣ－ＮＥＴは、本開示のオプティカルデコーダ２の基盤を形成するが、開示は、オプティカルデコーダ２への追加的な時間的接続の記述を提供し、これらの時間的接続２２０は、オプティカルフローデコーダ２、オクルージョンデコーダ２、および精製ネットワーク２５に追加的入力、つまり、以前の時間ステップからの推定フローを提供する。例えば、図１および図２の矢印２２０を参照のこと。

２画面フレームよりも長いビデオシーケンスを処理するとき、これらの接続は、ネットワークが、以前の時間ステップフローと現在の時間ステップフローとの間の典型的な関係を学習し、それを、現在のフレームフロー推定に使用することを可能にする。評価の間、接続はまた、より長いシーケンス上でのフローの連続推定も可能にし、増大するシーケンス長でのフローを向上する。

しかし、２つのオプティカルフローが表現される座標システムは異なり、以前のフローを、現在の時間ステップにおける正しい画素に適用するためには、互いに対応するように変換する必要がある。そのため、前方および／または後方ワーピングを、この変換を実行するために実現できる。

前方ワーピングは、座標システムを、オプティカルフローＦ_t-1自身（画像Ｉ_t-1とＩ_tとの間の前方フロー）を使用して、時間ステップｔ－１から変換するために使用できる。ワープされたフロー

は、すべての画像位置ｘに対して、

として計算され、フローＦ_t-1が２度以上マップする位置を処理する。そのような場合は、我々は、マップされたフローをより多く保存する。このようにして、我々は、より大きな動きを、そのため、より速く動く対象物を優先する。実験では、このワーピングの有用性が示されるが、このアプローチの主な不利な点は、変換が微分可能でないということである。そのため、トレーニングはこのステップを通して勾配を伝播できず、共有された重みのみに依存する。

代替的に、座標システムは、フレームｔからフレームｔ－１への後方フローＢ_tを使用して変換できる。これは、ネットワークの余分な評価を要求する可能性があるが、そのときは、ワーピングは、微分可能空間変換器の直接の適用となる。言い換えると、ワーピングステップは、微分可能空間変換により実現でき、そのため、エンドツーエンドでトレーニングできる。

従って、勾配を、トレーニングの間に、時間的接続を通して伝播できる。

当業者は、記述されているネットワークのエンドツーエンドのトレーニングは、多数の方法で実現できるということを認識するであろう。例えば、簡単なデータセット（例えば、簡単な対象物、動きの少ない動作など）であって、ＦｌｙｉｎｇＣｈａｉｒｓおよびＦｌｙｉｎｇＴｈｉｎｇｓデータセットはその一部であり、容易にダウンロードして利用できるデータセットから開始して、他のデータセットを、トレーニングに導入できる。そのようなデータセットは、「カリキュラム学習」アプローチを使用するために、Ｄｒｉｖｉｎｇ、ＫＩＴＴＩ’１５、ＶｉｒｔｕａｌＫＩＴＴＩ、Ｓｉｎｔｅｌ、ＨＤ１Ｋを含むことができる。

幾つかのデータセットは、要求された形式のサブセットのみしか含むことができないので、損失は、形式がないときはゼロに設定できる（つまり、「トレーニングなし」）

まず、ＰＷＣ－Ｎｅｔ（上述されたような）に対応するネットワークの部分を、最も簡単なデータセットを使用してトレーニングし、簡単なトレーニングに続いて追加的なモジュール（つまり、オクルージョン推定器１１０ａ、１１０ｂ、アップサンプラー１１２ｂ）を追加することにより、向上された結果を更に得ることができる。これは、ネットワークの部分を事前トレーニングし、極小値を回避することにより、最適化の向上した率という結果とすることができる。

本発明はまた、演算装置上で実行されると、本発明に係る方法の何れの機能をも提供するコンピュータプログラム製品も含むことができる。そのようなコンピュータプログラム製品は、プログラマブルプロセッサによる実行のためのマシン読取り可能コードを搬送する搬送媒体に実体的に含めることができる。そのため、本発明は、演算手段上で実行されると、上述したような方法の何れをも実行するための命令を提供する、コンピュータプログラム製品を搬送する搬送媒体に関する。

「搬送媒体」という用語は、実行のためにプロセッサに命令を提供することに参与する任意の媒体のことである。そのような媒体は、下記に制限されないが、不揮発性媒体および伝送媒体を含む、多数の形状を取ることができる。不揮発性媒体は、例えば、大容量格納装置の一部である格納装置のような、光または磁気ディスクを含んでいる。コンピュータ可読媒体の共通の形状は、ＣＤ－ＲＯＭ、ＤＶＤ、フレキシブルディスクまたはフロッピー（登録商標）ディスク、テープ、メモリチップまたはカートリッジ、または、コンピュータが読み取ることが可能な任意の他の媒体を含んでいる。コンピュータ可読媒体の種々の形状を、実行のためにプロセッサへの１つ以上の命令の１つ以上のシーケンスを搬送することに関与させることができる。

コンピュータプログラム製品はまた、ＬＡＮ、ＷＡＮ、またはインターネットなどのネットワークにおける搬送波を介して伝送できる。伝送媒体は、無線波および赤外線データ通信の間に生成されるような、音響または光波の形状を取ることができる。伝送媒体は、コンピュータ内でバスを備えているワイヤを含む、同軸ケーブル、銅ワイヤ、および光ファイバーを含んでいる。

ネットワークの出力に基づいて、時間ｔにおける画像と、時間ｔ＋１における画像との間の各画素に対するオプティカルフロー推定を生成できる。

加えて、媒体は車両、例えば、自律的に自動化された車両においてインストールでき、方法は、車両の１つ以上のＥＣＵ内において動作するように構成できる。向上されたオプティカルフローデータは、車両の動作中に、道路シーンにおける種々の対象物および要素の追尾に使用できる。加えて、前記動きの動きと追尾に基づいて、車両のＥＣＵに、自律動作モードにおける決定を可能にする情報を提供できる。

請求項を含む記述を通して、「１つの～を備えている」という用語は、別途そうでないと記述されない限り、「少なくとも１つの～を備えている」と同義であるとして理解されるべきである。加えて、請求項を含む記述において記載されている如何なる範囲も、別途そうでないと記述されない限り、その両端の値も含むものとして理解されるべきである。記述された要素に対する特定の値は、この技術における当業者には知られている、容認される製造または産業上の許容値内であると理解されるべきであり、「実質的に」および／または「近似的に」および／または「一般的に」という用語の如何なる使用も、そのような容認されている許容値内であることを意味すると理解されるべきである。

ここにおける本開示は、特別な実施形態を参照して記述されてきたが、これらの実施形態は、本開示の理念および適用の例に過ぎないということは理解されるべきである。

明細書および例は、例示の目的のみのためであると考えられるべきであることが意図されており、開示の真の範囲は、下記の請求項により示される。
本明細書に開示される発明は以下の態様を含む。
〔態様１〕
１つ以上の画素のオプティカルフロー推定を決定するために、複数の画像フレームを処理するための方法であって、
ビデオシーケンスの複数の画像フレームを提供して、前記複数の画像フレームから各画像内の特徴を識別することと、
オクルージョン推定器により、前記ビデオシーケンスの２つ以上の連続画像フレームにおける１つ以上のオクルージョンの存在を、少なくとも前記識別された特徴に基づいて推定することと、
前記オクルージョン推定器により、１つ以上のオクルージョンマップを、前記１つ以上のオクルージョンの前記推定された存在に基づいて生成することと、
前記１つ以上のオクルージョンマップを、オプティカルフローデコーダのオプティカルフロー推定器に提供することと、
前記オプティカルフローデコーダにより、前記識別された特徴および前記１つ以上のオクルージョンマップに基づいて、前記複数の画像フレームにわたる１つ以上の画素に対する推定されたオプティカルフローを生成することと、
を有している、方法。
〔態様２〕
前記識別することは、
特徴抽出器により、前記２つ以上の連続画像フレームのそれぞれから１つ以上の特徴を抽出することにより、１つ以上の特徴ピラミッドを生成することと、
前記１つ以上の特徴ピラミッドのそれぞれの少なくとも１つのレベルを前記オプティカルフロー推定器に提供することと、
を有している、態様１に記載の方法。
〔態様３〕
１つ以上のオクルージョンの存在を推定することは、前記２つ以上の連続画像フレーム間の複数の変位にわたる前記識別された特徴の１つ以上に対する推定された相関コスト量を計算することを含んでいる、態様１から２の何れか一態様に記載の方法。
〔態様４〕
前記オプティカルフローおよび前記１つ以上のオクルージョンマップを、精製されたオプティカルフローを生成するために精製ネットワークに提供することを有している、態様１から３の何れか一態様に記載の方法。
〔態様５〕
前記オプティカルフローデコーダ、前記オクルージョン推定器、および前記精製ネットワークの少なくとも１つに、以前の時間ステップからの推定されたオプティカルフローを提供することを有しており、前記精製ネットワークは好ましくは、畳み込みニューラルネットワークを備えている、態様４に記載の方法。
〔態様６〕
前記オプティカルフローデコーダおよび前記オクルージョン推定器は、１つ以上の畳み込みニューラルネットワークを備えている、態様１から５の何れか一態様に記載の方法。
〔態様７〕
前記オプティカルフローのフロー座標システムを、考慮されている画像フレームのフレーム座標システムに変換することを有しており、前記変換は、バイリニア補間を伴うワーピングを有している、態様１から６の何れか一態様に記載の方法。
〔態様８〕
前記ワーピングは、前方ワーピングと後方ワーピングの少なくとも１つを有している、態様７に記載の方法。
〔態様９〕
前記特徴抽出器は、前記複数の画像フレームの第１および第２画像フレーム間の初期推定オプティカルフローで初期化され、前記初期オプティカルフローは、ワーピングの適用に先行して推定される、態様２から８の何れか一態様に記載の方法。
〔態様１０〕
前記１つ以上の畳み込みニューラルネットワークは、前記オプティカルフローデコーダおよびオクルージョン推定器上の重み付けられたマルチタスク損失によりエンドツーエンドでトレーニングされる、態様６に記載の方法。
〔態様１１〕
前記トレーニングは、損失方程式に従って、すべてのスケールにおいて実行され、
〔数１〕

ここでα ^S は個々のスケール損失の重み、α ₀ はオクルージョン推定重み、合計はすべてのＳ空間解像度上で行われ、
〔数２〕

は最適化損失、および
〔数３〕

は、オクルージョン損失に対する画素毎のクロスエントロピ損失である、
態様１０に記載の方法。
〔態様１２〕
前記ビデオシーケンスは、車両、好ましくは、自律操作されるモータービークルにおける道路シーンから得られる画像フレームを備えている、態様１から１１の何れか一態様に記載の方法。
〔態様１３〕
プロセッサに、態様１から１２の何れか一態様に記載の方法を実行させるように構成されている命令を有している、非一時的コンピュータ可読媒体。
〔態様１４〕
前記非一時的コンピュータ可読媒体は、車両、好ましくは、自律操作されるモータービークルに搭載されている、態様１３に記載の非一時的コンピュータ可読媒体。
〔態様１５〕
態様１から１２の何れか一態様に記載されている方法を実行するように構成されているプロセッサを備えているモータービークルであって、
前記プロセッサは、少なくとも部分的には前記オプティカルフローに基づいて車両制御システムを起動するように更に構成されている、モータービークル。

Claims

１つ以上の画素のオプティカルフロー推定を決定するために、複数の画像フレームを処理するための方法であって、
ビデオシーケンスの複数の画像フレームを提供して、前記複数の画像フレームから各画像内の特徴を識別することと、
オクルージョン推定器により、前記ビデオシーケンスの２つ以上の連続画像フレームにおける１つ以上のオクルージョンの存在を、少なくとも前記識別された特徴に基づいて推定することと、
前記オクルージョン推定器により、１つ以上のオクルージョンマップを、前記１つ以上のオクルージョンの前記推定された存在に基づいて生成することと、
前記１つ以上のオクルージョンマップを、オプティカルフローデコーダのオプティカルフロー推定器に提供することと、
前記オプティカルフローデコーダにより、前記識別された特徴および前記１つ以上のオクルージョンマップに基づいて、前記複数の画像フレームにわたる１つ以上の画素に対する推定されたオプティカルフローを生成することと、
を有し、
１つ以上のオクルージョンの存在を推定することは、前記２つ以上の連続画像フレーム間の複数の変位にわたる前記識別された特徴の１つ以上に対する推定された相関コスト量を計算することを含んでいる、
方法。
前記識別することは、
特徴抽出器により、前記２つ以上の連続画像フレームのそれぞれから１つ以上の特徴を抽出することにより、１つ以上の特徴ピラミッドを生成することと、
前記１つ以上の特徴ピラミッドのそれぞれの少なくとも１つのレベルを前記オプティカルフロー推定器に提供することと、
を有している、請求項１に記載の方法。
前記特徴抽出器は、前記複数の画像フレームの第１および第２画像フレーム間の初期推定オプティカルフローで初期化され、前記初期推定オプティカルフローは、ワーピングの適用に先行して推定される、請求項２に記載の方法。
前記オプティカルフローおよび前記１つ以上のオクルージョンマップを、精製されたオプティカルフローを生成するために精製ネットワークに提供することを有している、請求項１から３の何れか一項に記載の方法。
前記オプティカルフローデコーダ、前記オクルージョン推定器、および前記精製ネットワークの少なくとも１つに、以前の時間ステップからの推定されたオプティカルフローを提供することを有している、請求項４に記載の方法。
前記オプティカルフローデコーダおよび前記オクルージョン推定器は、１つ以上の畳み込みニューラルネットワークを備えている、請求項１から５の何れか一項に記載の方法。
前記オプティカルフローのフロー座標システムを、考慮されている画像フレームのフレーム座標システムに変換することを有しており、前記変換は、バイリニア補間を伴うワーピングを有している、請求項１から６の何れか一項に記載の方法。
前記ワーピングは、前方ワーピングと後方ワーピングの少なくとも１つを有している、請求項７に記載の方法。
前記精製ネットワークは、畳み込みニューラルネットワークを含む、請求項５に記載の方法。
前記１つ以上の畳み込みニューラルネットワークは、前記オプティカルフローデコーダおよびオクルージョン推定器上の重み付けられたマルチタスク損失によりエンドツーエンドでトレーニングされる、請求項６に記載の方法。
前記トレーニングは、損失方程式に従って、すべてのスケールにおいて実行され、

ここでα^Sは個々のスケール損失の重み、α₀はオクルージョン推定重み、合計はすべてのＳ空間解像度上で行われ、

は最適化損失、および

は、オクルージョン損失に対する画素毎のクロスエントロピ損失である、
請求項１０に記載の方法。
前記ビデオシーケンスは、車両における道路シーンから得られる画像フレームを備えている、請求項１から１１の何れか一項に記載の方法。
プロセッサに、請求項１から１２の何れか一項に記載の方法を実行させるように構成されている命令を有している、非一時的コンピュータ可読媒体。
前記非一時的コンピュータ可読媒体は、車両に搭載されている、請求項１３に記載の非一時的コンピュータ可読媒体。
請求項１から１２の何れか一項に記載されている方法を実行するように構成されているプロセッサを備えているモータービークルであって、
前記プロセッサは、少なくとも部分的には前記オプティカルフローに基づいて車両制御システムを起動するように更に構成されている、モータービークル。