JP7289013B2

JP7289013B2 - オクルージョン認識室内シーン分析

Info

Publication number: JP7289013B2
Application number: JP2022515648A
Authority: JP
Inventors: ブユリウ、; サミュエルシュルター、; マンモハンチャンドラカー、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-11-14
Filing date: 2020-11-13
Publication date: 2023-06-08
Anticipated expiration: 2040-11-13
Also published as: WO2021097156A1; DE112020005584T5; US20210150751A1; JP2022547205A

Description

関連出願情報
本出願は、２０１９年１１月１４日に出願された米国特許出願第６２/９３５，３１２号、および２０２０年１１月１２日に出願された米国特許出願第１７/０９５，９６７号の優先権を主張し、それぞれ、参照により全体が本明細書に組み込まれる。

技術分野
本発明は、画像処理に関し、より詳細には、画像内のオクルージョンを識別するために面表現を使用することに関する。
関連技術の説明

人間の視覚は、視野内のオクルージョンを識別すること、特に、１つの物体が別の物体の前にあるときに識別することに適応している。しかしながら、電子化画像分析は、特に、物体とシーンの構成が非常に複雑である室内シーンにおいて、このタスクに問題を有する。

オクルージョン検出のための方法は、機械学習モデルを使用して、前景物体の可視部分のマスクと、少なくとも１つの遮蔽部分を含む前景物体のマスクとを含む、画像内の前景物体マスクのセットを検出することを含む。機械学習モデルを使用して、背景物体の可視部分のマスクと、少なくとも１つの遮蔽部分を含む背景物体のマスクとを含む、背景物体マスクのセットが、画像内で検出される。前景物体マスクのセットと背景物体マスクのセットは、セマンティックマージを使用して統合（マージ）される。統合されたセットの少なくとも１つの物体の少なくとも１つの遮蔽部分を考慮するコンピュータビジョンタスクが実行される。

オクルージョン検出のためのシステムは、ハードウェアプロセッサと、コンピュータプログラムコードを記憶するメモリとを含む。ハードウェアプロセッサによって実行されると、プログラムコードは、オクルージョン推定モデルとコンピュータビジョンタスクを実行する。オクルージョン推定モデルは、前景物体の可視部分のマスクと、少なくとも１つの遮蔽部分を含む前景物体のマスクとを含む、画像内の前景物体マスクのセットを検出し、背景物体の可視部分のマスクと、少なくとも１つの遮蔽部分を含む背景物体のマスクとを含む、画像内の背景物体マスクのセットを検出し、セマンティックマージを使用して、前景物体マスクのセットと背景物体マスクのセットを統合する。コンピュータビジョンタスクは、統合されたセットの少なくとも１つの物体の少なくとも１つの遮蔽部分を考慮する。

これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるのであろう。

本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。

本発明の一実施形態による、部分的に遮蔽された物体を有する、室内シーンのビューを含む画像の図である。

本発明の一実施形態による、遮蔽された物体の拡張を検出し推定するために機械学習モデルを訓練する方法のブロック／フロー図である。

本発明の一実施形態による、前景物体および背景物体のための別個の分岐を有し、物体の可視部分のマスクおよびシーン内の全物体のマスクを識別する機械学習モデルのブロック図である。

本発明の一実施形態による、画像内の遮蔽された物体に関する情報を使用してコンピュータビジョンタスクを実行するための方法のブロック／フロー図である。

本発明の一実施形態による、高レベル人工ニューラルネットワーク（ＡＮＮ）機械学習モデルの図である。

本発明の一実施形態による、特定のアーキテクチャｆｉｒＡＮＮ機械学習モデルの図である。

本発明の一実施形態による、オクルージョン推定を実行するコンピュータビジョンシステムのブロック図である。

シーンは、単一の入力画像から推定される面の集合として表すことができる。椅子またはテーブルのような前景物体上の面と、壁のような背景物体上の面とのサイズおよび形状の区別を使用して、これらの物体のグループを別々に予測して、出力空間変動を低減することができる。さらに、マルチビュー入力が利用可能である場合、訓練信号を取得するために、面を１つのビューから別のビューにワープすることができる。

機械学習モデルは、例えば、隠れ領域に関する推論を用いて全シーン表現を推定するニューラルネットワークモデルを使用して、遮蔽領域のジオメトリおよびセマンティックに関するグランドトゥルースを含むデータを使用して訓練してもよい。このような訓練データを得るために、既存の画像データセットを処理して、オクルージョン推定のための近似的であるが信頼性のあるグランドトゥルース情報を提供することができる。

オクルージョン検出は、ロボットナビゲーションおよび拡張現実のような様々な用途において有用である。画像内のオクルージョンの検出および分析を改善することによって、本発明の原理は、画像を使用して実物理空間をナビゲートする任意のアプリケーションに明確な進歩を提供する。室内設定の画像の分析は、可視波長でカメラによって生成された画像を使用することが特に考えられるが、本原理は、任意の適切なタイプの入力データを使用して、任意のコンテキストに拡張されてもよいことを理解されたい。

ここで、同一の数字が同一または類似の要素を表す図を参照する。最初に図１を参照すると、例示的な画像１００が示されている。画像１００は、室内シーンのビューを含み、テーブル１０２が椅子１０４を部分的に遮る。また、前景物体によって部分的に遮蔽され得る、壁１０６および床のような物体も示されている。壁１０６は、背景面と見なすことができ、テーブル１０２および椅子１０４は、前景の一部と見なすことができる。

面を使用して、セミパラメトリックな方法でシーンをコンパクトに記述できる。各面は、法線ベクトルと、オフセットと、その面の境界の輪郭を描くマスクとによって定義される。機械学習モデルを使用して、各面の可視範囲と遮蔽範囲の両方を予測し、セマンティックに基づいて面の予測を分離することができる。この目的のために、遮蔽領域のために設計されたメトリック、例えば、平均精度隠れメトリック（average precision hidden metric）を使用することができる。本発明の原理は、面の可視部分の推論を妥協することなく、遮蔽領域の優れた検出を提供する。

機械学習を使用して、遮蔽された物体を識別することができる。例えば、データセットは、例えば、部屋のレイアウトに関するメッシュ情報を含む入力データを使用して、機械学習グラウンドトゥルースを生成するために使用されてもよい。メッシュは複数の面の集合に変換することができ、各面は、法線ベクトル、オフセット、および２つのマスク、すなわち、オクルージョンを考慮して、所定の遠近法による面の可視部分に対する１つのマスクと、オクルージョンに関係なく、面の全範囲に対するもう１つのマスクによって表現される。前者は本明細書では可視マスクと呼ばれ、後者は本明細書では完全マスクと呼ばれる。法線ベクトルは、面の方向を示すが、オフセットは、カメラの位置から面までの最も近い距離を示す。したがって、マスクは面のサイズと形状を表す。

また、深度マップは、任意の面によってカバーされない領域について、シーンの完全な表現のために使用されてもよい。シーンのあらゆるビューについて、カメラパラメータを使用して、マスクおよび面表現の他のパラメータを計算することができる。

例えば、データ生成プロセスのアーチファクトである、カメラビューやメッシュ内のノイズのために、遮蔽領域の完全なマスクに穴が開いている可能性がある。しかし、壁、床、テーブルトップのような完全な面は、多くの場合、凸形の形状であるが、穴は、一般に、全面の内側に生じる。したがって、完全なマスクは、凸状閉鎖部となるように充填することができる。充填領域は、所与の穴が実際に存在したかどうかの不確実性を考慮するために、訓練に影響を及ぼさないように、無視されるようにフラグを立てることができる。

図２を参照すると、オクルージョン検出器を訓練する方法が示されている。ブロック２０１は、例えば、マルチビューシーン情報のコーパスから訓練データを生成する。そのような情報は、特定のシーンの記録された３次元輪郭を表すメッシュを含むことができる。ブロック２０１は、例えば、カメラ視点から見える物体を表すマスクを識別し、遮蔽されたメッシュから物体の真の完全な形状を表すマスクを識別することによって、そのような各メッシュをビューの面情報に変換することができる。訓練データに追加するために、複数の異なるビューを単一のシーンから生成することができる。

ブロック２０２および２０４は、所与の入力画像について、それぞれレイアウトマスクおよび物体マスクについての領域予測を生成する。この入力画像は、カメラ視点からの訓練シーンのビューであってもよい。ブロック２０２および２０４は、任意の順序で実行することができ、並列に実行することもできることを理解されたい。各ブロックは、同じ入力画像を取り込む。

面は、その面を囲む境界ボックスを識別することによって検出することができる。通常のかつ二値のマスクは、領域の位置およびその向きを示す各面について決定することができる。また、画像内の画素ごとの深度値を予測するために、グローバル特徴マップを使用して、深度を決定してもよい。画素あたりの深度と可視面が与えられれば、オフセットを各面に対して決定することができる。

可視マスクおよび完全マスクの両方が利用可能である場合、異なるカテゴリに属する面の形状、サイズ、および分布の変化は、可視マスクのみが利用可能である場合よりも大きく変化する。そのような物体カテゴリは、「床」および「壁」のカテゴリを含むことができ、ここでは前景カテゴリと比較して大きな差異を観察することができるが、所与の面の可視マスクおよび完全マスクについての異なるカテゴリをさらに含むことができる。そのため、前景および背景は、別々に扱われてもよい。したがって、クラスは、別々のグループに定義することができ、カテゴリ固有のネットワークがそれぞれを処理するために使用され、物体領域予測２０４が前景カテゴリに使用され、レイアウト領域予測２０２が背景カテゴリに使用される。

物体領域検出２０４は、物体面グランドトゥルースで訓練されてもよく、一方、レイアウト領域検出２０２は、レイアウト面グランドトゥルースで訓練されてもよい。その結果、過度に多くのパラメータを追加することなく、異なる事前分布がカテゴリごとに学習される。単一の画像が与えられると、レイアウト領域検出は、壁および床などの背景クラスのマスクを予測することができ、一方、物体領域検出は、背景物体を無視しながら、前景クラスに焦点を合わせることができる。

ブロック２０２および２０４はそれぞれ、入力画像から予測面のそれぞれのセットを出力する。ブロック２０６は、画像全体の最終的な表現を得るセマンティックマージを実行する。単純な場合には、２つのセットの和集合（union）を使用することができ、全予測が最終結果を表す。非最大抑制（non-maxima suppression）は全予測にわたって使用されてもよく、これは重複した結果を回避するという利点を有するが、面を過剰に抑圧す可能性がある。

したがって、ブロック２０６は、セマンティックマージを使用することができる。非最大抑制（non-maxima suppression）は最初に、ブロック２０２および２０４の各々の出力に適用され得る。次に、抑制された結果は、セマンティックセグメンテーション結果を使用して融合されてもよい。物体分岐およびレイアウト分岐からの可視マスクの間の重複をチェックすることができ、予め定義された閾値θよりも大きい重複スコアを有するペアについて、セマンティックセグメンテーションを使用して、どの面を保持すべきかを決定することができる。

ペアになった可視マスクについては、セマンティックセグメンテーションに関する重複スコアに基づいて信頼スコアを決定することができ、より高い信頼スコアを有するマスクを最終予測に保持することができる。レイアウトクラスの重複スコアは、レイアウト可視マスクの内側にあり、かつ、セグメンテーションマップ内のレイアウトクラスに属する画素のパーセンテージをカウントすることによって決定することができ、その逆も同様である。実際には、閾値は約θ＝０．３に設定することができる。

訓練中、ブロック２０８は、同じシーンの複数のビューの可用性を活用する面表現を処理する訓練目的関数を使用することができる。目的関数は、異なるビューにわたる面間の一貫性を促進し、１つのビューで遮蔽された面が別のビューで見ることができることを利用する。したがって、目的関数は、隠れた領域においてさえ、一貫性を強制することができる。

２つのビュー間のカメラ変換が与えられると、それぞれの予測面

はワープされ得る。面の法線とオフセットは、カメラの回転と平行移動によって投影される。次に、予測面

のマスクは、双一次内挿を用いて他方のビューに投影されてもよい。ワープされた面は、

として表されてもよい。それぞれのワープされた予測

は、グランドトゥルース面

と一致させ、これは、

で

を条件として、

と形式化できる。ここで、

は、２つの面間のＩｏＵ（intersection-over-union）重複を計算する。

と

は、面の法線とオフセットを示す。２つのしきい値

と

は、ユーザが設定するハイパーパラメータであり、それぞれ、例えば、０．５と０．３である。次いで、目的関数の損失値は、追加の訓練信号を提供する、ワープされたマスク予測と整合された近傍グラウンドトゥルースマスクとの間のクロスエントロピーとして計算することができる。

訓練中、ブロック２０８は、平均精度隠れメトリックを使用して、面予測の性能を決定する。全可視平面

およびそれらの対応する推定値

は除去される。第ｊ番目の面

は、その隠れマスク

であれば、

に属する。ここで、

は

の可視マスクであり、

は、しきい値領域である。第ｉ番目の面

は、

の出力ｊが

を満たす限り、

に属する。ここで、

は、第ｉ番目の面推定

の完全マスクであり、

は、第ｊ番目のグランドトゥルース

の完全マスクである。以下の条件

を満たす予測面は、真の正であると判定されてもよい。ここで、

は、完全マスク

の可視部である。関数

は、深度差分を計算し、閾値

および

は、例えば、それぞれ、１００画素、０．５、および「０．４ｍ、０．６ｍ、０．９ｍ」に設定することができる。可視領域をグラウンドトゥルースから除外することによって、メトリックは、隠れ領域における予測のみに焦点を当てる。

したがって、ブロック２０８は、ブロック２０６の統合された予測と訓練データからの期待されるグラウンドトゥルースとの間の差を測定することができる。ブロック２１０は、この差を誤差または損失値として使用することができ、次いで、これを使用して２つの領域予測プロセスの重みを調整し、それによって閉塞情報の推定を改善することができる。

ここで、図３を参照すると、ブロック２０２および２０４のさらなる詳細が示されており、予測ネットワークの物体分岐３２０およびレイアウト分岐３４０を詳述している。特徴ピラミッドネットワーク（ＦＰＮ）３０２は、入力画像を受け取り、「ボトムアップ」方式で入力画像の特徴を生成し、複数の異なるスケールで特徴を識別する。これらの特徴は、各分岐のそれぞれのトップダウンＦＰＮ３０４への入力として、さらなる特徴を生成する。これらの特徴は、レイアウト分岐３４０内のレイアウト領域予測ネットワーク３０７によって、および物体分岐３０２内の物体領域予測ネットワーク３０６によって使用されて、背景物体および前景物体の境界ボックスをそれぞれ識別する。ブロック３０８は、予測された境界ボックスをグラウンドトゥルース境界ボックスと整列させる。

これらの境界ボックスを使用して、可視マスク予測３１２および全マスク予測３１４は、識別された物体のマスクを決定する。通常予測ネットワーク３１０およびオフセットアンモールディング３１１は、物体ごとにオフセット情報を生成する。この情報は、シーン内の物体を表す面のそれぞれのセットとして出力される。

次に、図４を参照すると、遮蔽された物体情報を検出し適用する方法が示されている。ブロック４０２は、新しい画像を受信する。例えば、この画像は、モバイルデバイス、自動車、またはロボットデバイスなどのユーザのカメラから受信することができ、１つまたは複数の遮蔽された物体を含む、複数の物体をその中に有するシーンを描写することができる。

ブロック４０４は、画像内の１つ以上の遮蔽された物体を識別する。例えば、図３において、上述したネットワークのレイアウト分岐３２０及び物体分岐３４０を使用して、画像内の他の物体によって部分的に遮蔽されている物体についても、全マスク及び可視マスクを決定することができる。この情報は、上述したように、例えば、セマンティックマージを使用して統合することができる。この情報は、シーン内の面の向きおよび面の物理的な拡張を含む１つまたは複数の面として表すことができる。また、深さ情報も決定することができる。

次に、ブロック４０６は、遮蔽された物体情報を使用して、コンピュータビジョンタスクを実行する。例えば、タスクは、部分的にしか見えない物体のフルスケールを考慮して、自動車またはロボット装置のための経路を設計することを含むことができる。タスクはまた、例えば、シーンに応じて情報のオーバーレイを提供する代替現実感表示において、情報を提供するために部分的に遮蔽された物体を識別することを含んでもよい。隣接するビューとの整合性を強制することによって、訓練された機械学習モデルは、可視領域および隠れ領域の両方に対して出力される完全マスクの精度を改善する。

本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、またはハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明がファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されないソフトウェアで実施される。

実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、または転送する任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム（または装置またはデバイス）、または伝搬媒体とすることができる。媒体は、半導体または固体メモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。

各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置（例えば、プログラムメモリまたは磁気ディスク）に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。

プログラムコードを記憶および／または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも１つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に使用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力／出力またはＩ／Ｏ装置（キーボード、ディスプレイ、ポインティングデバイスなどを含むが、これらに限定されない）は、直接または介在するＩ／Ｏコントローラを介してシステムに結合され得る。

介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。

本明細書で使用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、１つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェア、またはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムが１つまたは複数のデータ処理要素（例えば、論理回路、処理回路、命令実行デバイスなど）を含むことができる。１つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置、および／または別個のプロセッサまたはコンピューティング要素ベースのコントローラ（たとえば、論理ゲートなど）に含めることができる。ハードウェアプロセッササブシステムは、１つ以上のオンボードメモリ（例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど）を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムが、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム（例えば、ＲＯＭ、ＲＡＭ、基本入出力システム（ＢＩＯＳ）など）によって使用するために専用にすることができる１つ以上のメモリを含むことができる。

ある実施形態では、ハードウェアプロセッササブシステムは、１つ以上のソフトウェア要素を含むことができ、実行することができる。１つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび／または１つ以上のアプリケーションおよび／または特定のコードを含むことができる。

他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために１つまたは複数の電子処理機能を実行する専用の特殊回路網を含むことができる。そのような回路は、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／またはプログラマブルロジックアレイ（ＰＬＡ）を含むことができる。

ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。

本明細書では、本発明の「一つ実施形態」または「一実施形態」、ならびにその他の変形形態に言及し、実施形態に関連して説明した特定の特徴、構成、特性などは、本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、「一つの実施形態において」または「一実施形態において」という語句の出現、ならびに本明細書全体を通して様々な個所に出現する任意の他の変形形態は、必ずしもすべてが同じ実施形態を参照しているわけではない。しかしながら、本明細書で提供される本発明の教示を前提として、１つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。

例えば、「Ａ／Ｂ」、「Ａおよび／またはＢ」、および「Ａおよび／またはＢの少なくとも１つ」の場合における、以下の「／」、「および／または」および「少なくとも１つ」のいずれかの使用は、第１のリストされたオプション（Ａ）のみの選択、または第２のリストされたオプション（Ｂ）のみの選択、または両方のオプション（ＡおよびＢ）の選択を包含することが意図されることを理解されたい。さらなる例として、「Ａ、Ｂ、および／またはＣ」および「Ａ、Ｂ、およびＣの少なくとも１つ」の場合において、このような句は、第１のリストされたオプション（Ａ）のみの選択、または第２のリストされたオプション（Ｂ）のみの選択、または第３のリストされたオプション（Ｃ）のみの選択、または第１および第２のリストされたオプション（ＡおよびＢ）のみの選択、または第１および第３のリストされたオプション（ＡおよびＣ）のみの選択、または第２および第３のリストされたオプション（ＢおよびＣ）のみの選択、または３つすべてのオプション（ＡおよびＢおよびＣ）の選択を包含することが意図される。これは、リストされたアイテムの数だけ拡張することができる。

ここで、図５を参照すると、高レベル人工ニューラルネットワーク（ＡＮＮ）の一般化された図が示されている。人工ニューラルネットワーク（ＡＮＮ）は、脳などの生体神経系から発送を得た情報処理システムである。ＡＮＮの重要な要素は、情報処理システムの構造であり、この情報処理システムは、特定の問題を解決するために並列に動作する多数の高度に相互接続された処理要素（「ニューロン」と呼ばれる）を含む。ＡＮＮはさらに、ニューロン間に存在する重みの調整を含む学習を用いて、使用中に訓練される。ＡＮＮは、そのような学習プロセスを介して、パターン認識またはデータ分類などの特定の適用向けに構成される。

ＡＮＮは、複雑または不正確なデータから意味を導出する能力を示し、パターンを抽出し、人間または他のコンピュータベースのシステムによって検出するには複雑すぎる傾向を検出するために使用することができる。ニューラルネットワークの構造は一般に、１つまたは複数の「隠れ」ニューロン５０４に情報を提供する入力ニューロン５０２を有することが知られている。入力ニューロン５０２と隠れニューロン５０４との間の接続５０８は重み付けされ、次に、これらの重み付けされた入力は、層間の重み付けされた接続５０８と共に、隠れニューロン５０４内の何らかの関数に従って隠れニューロン５０４によって処理される。隠れニューロン５０４、ならびに異なる機能を実行するニューロンの任意の数の層が存在し得る。畳み込みニューラルネットワーク、ｍａｘｏｕｔネットワーク等のような異なるニューラルネットワーク構造も存在する。最後に、出力ニューロン５０６のセットは、隠れニューロン５０４の最後のセットからの重み付けされた入力を受け付けて処理する。

これは、情報が入力ニューロン５０２から出力ニューロン５０６に伝播する「フィードフォワード」計算を表す。フィードフォワード計算が完了すると、出力は、訓練データから利用可能な所望の出力と比較される。訓練データに対する誤差は、「フィードバック」計算で処理され、隠れニューロン５０４および入力ニューロン５０２は出力ニューロン５０６から後方に伝播する誤差に関する情報を受け取る。一旦、誤差逆伝播が完了すると、重み付け更新が実行され、重み付けされた接続５０８が受信された誤差を考慮するように更新される。これは、単に１つの種類のＡＮＮを表す。

図６を参照すると、ＡＮＮアーキテクチャ６００が示されている。本アーキテクチャは純粋に例示的なものであり、代わりに他のアーキテクチャまたはタイプのニューラルネットワークを使用することができることを理解されたい。本明細書で説明されるＡＮＮ実施形態は、高レベルの一般性でニューラルネットワーク計算の一般原理を示すことを意図して含まれており、いかなる形でも限定するものと解釈されるべきではない。

さらに、以下に記載されるニューロンの層およびそれらを接続する重みは、一般的な様式で記載され、任意の適切な程度またはタイプの相互接続性を有する任意のタイプのニューラルネットワーク層によって置き換えられ得る。例えば、層（layers）は、畳み込み層、プーリング層、全結合層、ｓｏｆｔｍａｘ層、または任意の他の適切なタイプのニューラルネットワーク層を含むことができる。さらに、必要に応じて層を追加または除去することができ、相互接続のより複雑な構成に関して重みを省略することができる。

フィードフォワード動作の間、入力ニューロン６０２のセットは、各々、重み６０４のそれぞれの行に並列に入力信号を提供する。重み６０４はそれぞれ、重み出力が重み６０４からそれぞれの隠れニューロン６０６に渡され、隠れニューロン６０６への重み付き入力を表すように、それぞれの設定可能な値を有する。ソフトウェアの実施形態では、重み６０４は、単に、関連する信号に対して乗算される係数値として表すことができる。各重みからの信号は、列ごとに加算され、隠れニューロン６０６に流れる。

隠れニューロン６０６は、重み６０４のアレイからの信号を使用して、何らかの計算を実行する。次に、隠れニューロン６０６は、それ自体の信号を重み６０４の別のアレイに出力する。このアレイは、同じ方法で、重み６０４の列がそれぞれの隠れニューロン６０６から信号を受け取り、行方向に加算し、出力ニューロン６０８に供給される重み付けされた信号出力を生成する。

アレイと隠れたニューロン６０６の追加の層を介在させることにより、これらの段の任意の数が実装され得ることを理解すべきである。また、いくつかのニューロンは、アレイに一定の出力を提供する定常ニューロン６０９であってもよいことに注意すべきである。定常ニューロン６０９は、入力ニューロン６０２および／または隠れニューロン６０６の間に存在することができ、フィードフォワード動作中にのみ使用される。

バックプロパゲーションの間、出力ニューロン６０８は、重み６０４のアレイを横切って戻る信号を提供する。出力層は、生成されたネットワーク応答を訓練データと比較し、誤差を計算する。誤差信号は、誤差値に比例させることができる。この実施例では、重み６０４の行がそれぞれの出力ニューロン６０８から並列に信号を受け取り、列ごとに加算して隠れニューロン６０６に入力を提供する出力を生成する。隠れニューロン６０６は、重み付けされたフィードバック信号をそのフィードフォワード計算の導関数と結合し、フィードバック信号を重み６０４のそれぞれの列に出力する前に、誤差値を記憶する。このバックプロパゲーションは、すべての隠れニューロン６０６および入力ニューロン６０２が誤差値を記憶するまで、ネットワーク６００全体を通って進行する。

重み更新中、記憶された誤差値は、重み６０４の設定可能な値を更新するために使用される。このようにして、重み６０４は、ニューラルネットワーク６００をその処理における誤差に適応させるように訓練され得る。フィードフォワード、バックプロパゲーション、および重み更新の３つの動作モードは、互いに重複しないことに留意されたい。

ここで、図７を参照すると、オクルージョン推定を用いるコンピュータビジョンシステム７００が示されている。システム７００は、ハードウェアプロセッサ７０２およびメモリ７０４を含む。メモリは、シーンの任意のビューを生成する能力を提供する、３次元シーンを特徴付ける情報を含むシーンメッシュ訓練データ７０６を記憶することができる。訓練データ生成器７０８は、シーンメッシュ訓練データを使用して、所与のビューから見える物体の部分を含むマスクと、所与のビューにおけるオクルージョンにかかわらず、物体の全範囲を捕捉するマスクとを生成する。

モデルトレーナ７１０は、生成された訓練データを使用して、オクルージョン推定モデル７１２を訓練する。訓練は、一貫性を強制するために、シーン内の検出された面を１つのビューから別のビューにワーピングすることを含むことができる。一旦訓練されると、オクルージョン推定モデル７１２は、入力画像を取得し、画像内の物体の可視部分を表すマスク、ならびに画像内の物体の遮蔽部分に関する推定情報を生成する。

新しい画像入力７１４は、例えば、デジタルカメラ、スキャナ、または完全にコンピュータ生成された画像を含む、任意の適切な手段によって生成されてもよい。コンピュータビジョンタスク７１６は、画像入力７１４を使用して、可視世界について何らかの決定を行い、その決定に基づいて何らかのアクションを取る。このために、コンピュータビジョンタスクは、オクルージョン推定モデル７１２への入力として画像入力７１４を使用して、物体オクルージョンに関する情報を生成する。これは、例えば、ロボットカーまたは自立運転型自動車の経路発見を助けるために、遮蔽された物体のサイズを決定することを含むことができる。

上記はあらゆる点で例示的かつ典型的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許証によって保護される、請求され、望まれるものは、添付の特許請求の範囲に記載されている。

Claims

機械学習モデルを使用して、前景物体の可視部分のマスクと、少なくとも１つの遮蔽部分を含む前記前景物体のマスクとを含む、画像内の前景物体マスクのセットを検出する（３２０）ことと、
前記機械学習モデルを使用して、背景物体の可視部分のマスクと、少なくとも１つの遮蔽部分を含む前記背景物体のマスクとを含む、前記画像内の背景物体マスクのセットを検出する（３４０）ことと、
セマンティックマージを使用して前記前景物体マスクのセットと前記背景物体マスクのセットを統合する（２０６）ことと、
前記統合されたセットの少なくとも１つの物体の前記少なくとも１つの遮蔽部分を考慮するコンピュータビジョンタスクを実行する（４０６）ことと、を含む、オクルージョン検出のための方法。
セマンティックマージは、少なくとも１つの遮蔽部分を含む前記マスクのそれぞれのセットに対する非最大抑制を含む、請求項１に記載の方法。
セマンティックマージは、前記前景物体マスクのセットの可視マスクと、前記背景物体マスクのセットの可視マスクとの間の重複を決定することをさらに含む、請求項２に記載の方法。
セマンティックマージは、より低い信頼スコアを有する重複マスクを廃棄することをさらに含む、請求項３に記載の方法。
セマンティックマージは、グランドトゥルース面と、別のビューに投影された予測面との間のＩｏＵ（intersection-over-union）重複を計算することを含む、請求項１に記載の方法。
遮蔽領域を含む、所与のシーンの複数のビュー間の一貫性を強制する目的関数を使用して、機械学習モデルを訓練することをさらに含む、請求項１に記載の方法。
前記機械学習モデルを訓練することは、第１のビューの物体マスクを第２のビューにワープすることと、前記ワープされた物体マスクを前記第２のビューのグラウンドトゥルース物体マスクと比較することとを含む、請求項６に記載の方法。
前記機械学習モデルを訓練することは、訓練データセットの各ビューを使用して、前記機械学習モデルのレイアウト部分と、前記機械学習モデルの物体部分とを別々に訓練することを含む、請求項６に記載の方法。
前記訓練データセットの各ビューは、入力メッシュによって生成され、所与の入力メッシュからのビューはそれぞれのカメラ視点から生成される、請求項８に記載の方法。
各前景物体マスクおよび各背景物体マスクは、法線方向およびオフセット値を含む、請求項９に記載の方法。
ハードウェアプロセッサ（７０２）と、
コンピュータプログラムコードを記憶するメモリ（７０４）と、を有し、
前記コンピュータプログラムコードは、前記ハードウェアプロセッサによって実行されると、
前景物体の可視部分のマスクと、少なくとも１つの遮蔽部分を含む前記前景物体のマスクとを含む、画像内の前景物体マスクのセットを検出し、背景物体の可視部分のマスクと、少なくとも１つの遮蔽部分を含む前記背景物体のマスクとを含む、前記画像内の背景物体マスクのセットを検出し、セマンティックマージを使用して前記前景物体マスクのセットと前記背景物体マスクのセットとを統合する、オクルージョン推定モデル（７１２）と、
前記統合されたセットの少なくとも１つの物体の前記少なくとも１つの遮蔽部分を考慮するコンピュータビジョンタスク（７１６）と、を実装する、オクルージョン検出のためのシステム。
前記オクルージョン推定モデルは、セマンティックマージのための少なくとも１つの遮蔽部分を含む前記マスクのそれぞれのセットに対して非最大抑制を実行する、請求項１１に記載のシステム。
前記オクルージョン推定モデルは、セマンティックマージのために前記前景物体マスクのセットの可視マスクと前記背景物体マスクのセットの可視マスクとの間の重複を決定する、請求項１２に記載のシステム。
前記オクルージョン推定モデルは、より低い信頼スコアを有する重複マスクを廃棄する、請求項１３に記載のシステム。
前記オクルージョン推定モデルは、セマンティックマージのためにグランドトゥルース面と別のビューに投影された予測面との間のＩｏＵ（intersection-over-union）重複を計算する、請求項１１に記載のシステム。
前記コンピュータプログラムコードは、遮蔽領域を含む所与のシーンの複数のビュー間の一貫性を強制する目的関数を使用して前記オクルージョン推定モデルを訓練するモデルトレーナをさらに実装する、請求項１１に記載のシステム。
前記モデルトレーナは、第１のビューの物体マスクを第２のビューにさらにワープし、前記ワープされた物体マスクを前記第２のビューのグラウンドトゥルース物体マスクと比較する、請求項１６に記載のシステム。
前記モデルトレーナは、訓練データセットの各ビューを使用して、前記オクルージョン推定モデルのレイアウト部分と前記オクルージョン推定モデルの物体部分とを別々にさらに訓練する、請求項１６に記載のシステム。
前記訓練データセットの各ビューは入力メッシュによって生成され、所与の入力メッシュからのビューがそれぞれのカメラ視点から生成される、請求項１８に記載のシステム。
各前景物体マスクおよび各背景物体マスクは、法線方向およびオフセット値を含む、請求項１９に記載のシステム。