JP2023065296A

JP2023065296A - 平面検出装置及び方法

Info

Publication number: JP2023065296A
Application number: JP2022115416A
Authority: JP
Inventors: 勝彦金; Seungeon Kim; 現盛張; Hyun-Sung Chang; 元熙李; Won Hee Lee; 錫煥張; Seokhwan Jang
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-10-27
Filing date: 2022-07-20
Publication date: 2023-05-12
Also published as: KR20230060029A; CN116051448A; US20230132106A1; EP4174774A1

Abstract

【課題】平面検出装置及び方法を提供する。【解決手段】一実施形態に係る平面検出方法は、入力映像のピクセルごとの平面パラメータを取得するステップと、入力映像のピクセルごとのセグメント対応確率を推定するステップと、ピクセルごとの平面パラメータ及びピクセルごとのセグメント対応確率に基づいてセグメントごとの平面パラメータを取得するステップと、セグメントごとの平面パラメータに基づいて入力映像に含まれている平面を検出するステップとを含む。【選択図】図１

Description

以下の開示は、平面検出装置及び方法に関する。

平面は映像で重要な幾何学的な特徴として、映像の平面検出技術は、場面の理解、映像の再構築、物体認識などの様々なコンピュータビジョン分野で活用される技術である。映像において、平面を検出するために映像の深度情報に基づいた様々な方法が開発されており、ディープラーニング技術の発達に伴ってニューラルネットワークを用いて映像から平面を検出する方法も多様に開発されている。映像に対応する深度情報、法線ベクトル又は平面に対する正解ラベルが含まれている学習データを用いて、地図学習方式を介して平面検出のためのニューラルネットワークを実現できるが、正解ラベルが含まれている映像データを取得することに困難があり、正解ラベルのない実際の環境に適用するためには明らかな限界がある。

実施形態の目的は、正解データなしに、教師なし学習方法で学習されたニューラルネットワークを用いて映像から平面を検出する技術を提供することにある。

実施形態の目的は、正解データなしに映像の深度を推定し、推定された深度情報を用いて映像を平面単位で分割するためのニューラルネットワーク学習方法を提供することにある。

一実施形態に係る平面検出方法は、第１ネットワークで推定された入力映像のピクセルごとの視差に基づいて、前記入力映像のピクセルごとの平面パラメータを取得するステップと、映像のセグメンテーションを行うように学習された第２ネットワークに基づいて、前記入力映像のピクセルごとのセグメント対応確率を決定するステップと、前記ピクセルごとの平面パラメータ及び前記ピクセルごとのセグメント対応確率に基づいて、セグメントごとの平面パラメータを取得するステップと、前記セグメントごとの平面パラメータに基づいて、前記入力映像に含まれている平面を検出するステップとを含む。

前記入力映像に含まれている平面を検出するステップは、前記ピクセルごとのセグメント対応確率に基づいて、ピクセルごとのセグメントクラスタリング情報を取得するステップと、前記セグメントごとの平面パラメータ及び前記ピクセルごとのセグメントクラスタリング情報に基づいて、前記入力映像に含まれている平面を検出するステップとを含むことができる。

前記セグメントごとの平面パラメータを取得するステップは、前記第２ネットワークに基づいた前記入力映像内のセグメントそれぞれに対応し、該当セグメントに対応する前記ピクセルごとのセグメント対応確率に基づいて、前記ピクセルごとの平面パラメータを加重和するステップと、前記加重和された平面パラメータに基づいて、前記該当セグメントに対応する平面パラメータを取得するステップとを含むことができる。

前記第１ネットワーク及び前記第２ネットワークは、前記第２ネットワークに基づいてクラスタリングされた各セグメントに対応する平面パラメータの確率分布に基づいて算出された、各ピクセルが各セグメントに対応する確率で定義される尤度に関する第１ロスと、第１映像に対応し、前記第１ネットワークで推定された視差に基づいて前記第１映像に対応する第２映像を変換した映像と前記第１映像との差に関する第２ロスのうち少なくとも１つに基づいて学習されることができる。

前記ピクセルごとの平面パラメータを取得するステップは、前記第１ネットワークに基づいて、前記入力映像のピクセルごとの視差を決定するステップと、前記入力映像を撮影したカメラの内部パラメータに基づいて、前記ピクセルごとの視差から法線ベクトル及び距離情報を含む前記ピクセルごとの平面パラメータを取得するステップとを含むことができる。

一実施形態に係る平面検出モデルの学習方法は、学習データに含まれている第１映像を第１ネットワークに印加して取得された前記第１映像のピクセルごとの視差に基づいて、前記第１映像のピクセルごとの平面パラメータを取得するステップと、前記第１映像を第２ネットワークに印加し、前記第１映像のピクセルごとのセグメント対応確率を決定するステップと、前記第１映像のピクセルごとの平面パラメータ及び前記第１映像のピクセルごとのセグメント対応確率に基づいて算出された、前記第１映像の各ピクセルが各セグメントに対応する確率で定義される尤度に関する第１ロスに基づいて、前記第１ネットワーク及び前記第２ネットワークを学習させるステップとを含む。

前記第１映像の各ピクセルが各セグメントに対応する確率は、複数のセグメントそれぞれに対応する平面パラメータに関する確率分布及び前記ピクセルごとの平面パラメータに基づいて算出されることができる。

前記複数のセグメントそれぞれに対応する平面パラメータに関する確率分布は、前記ピクセルごとのセグメント対応確率及び前記ピクセルごとの平面パラメータに基づいて算出された前記セグメントそれぞれに対応する平面パラメータの代表値と、前記ピクセルごとのセグメント対応確率、前記ピクセルごとの平面パラメータ、及び前記セグメントそれぞれに対応する平面パラメータの代表値に基づいて算出された、前記セグメントそれぞれに対応する平面パラメータの分散とを含むことができる。

前記第１ネットワーク及び前記第２ネットワークを学習させるステップは、前記第１ネットワークで前記第１映像に対応して推定された深度に基づいて、前記第１映像と異なる視点で撮影された第２映像を変換するステップと、前記第２映像の変換された映像と前記第１映像との差に関する第２ロス及び前記第１ロスに基づいて、前記第１ネットワーク及び前記第２ネットワークを学習させるステップとを含むことができる。

前記学習データは、ステレオ映像の第１単眼映像である前記第１映像及び前記ステレオ映像の第２単眼映像である第２映像と、ビデオ映像の第１フレームである前記第１映像及び前記ビデオ映像の第２フレームである第２映像のうち少なくとも１つを含むことができる。

前記ピクセルごとの平面パラメータを取得するステップは、前記第１映像を前記第１ネットワークに印加し、前記第１映像のピクセルごとの視差を決定するステップと、前記第１映像を撮影したカメラの内部パラメータに基づいて、前記ピクセルごとの視差から法線ベクトル及び距離情報を含む前記ピクセルごとの平面パラメータを取得するステップとを含むことができる。

一実施形態に係る平面検出装置は、第１ネットワークで推定された入力映像のピクセルごとの視差に基づいて、前記入力映像のピクセルごとの平面パラメータを取得し、映像のセグメンテーションを行うように学習された第２ネットワークに基づいて、前記入力映像のピクセルごとのセグメント対応確率を決定し、前記ピクセルごとの平面パラメータ及び前記ピクセルごとのセグメント対応確率に基づいて、セグメントごとの平面パラメータを取得し、前記セグメントごとの平面パラメータに基づいて、前記入力映像に含まれている平面を検出する少なくとも１つのプロセッサを含む。

前記プロセッサは、前記入力映像に含まれている平面を検出することにおいて、前記ピクセルごとのセグメント対応確率に基づいて、ピクセルごとのセグメントクラスタリング情報を取得し、前記セグメントごとの平面パラメータ及び前記ピクセルごとのセグメントクラスタリング情報に基づいて、前記入力映像に含まれている平面を検出することができる。

前記プロセッサは、前記セグメントごとの平面パラメータを取得することにおいて、前記第２ネットワークに基づいた前記入力映像内のセグメントそれぞれに対応し、該当セグメントに対応する前記ピクセルごとのセグメント対応確率に基づいて、前記ピクセルごとの平面パラメータを加重和し、前記加重和された平面パラメータに基づいて、前記該当セグメントに対応する平面パラメータを取得することができる。

前記プロセッサは、前記ピクセルごとの平面パラメータを取得することにおいて、前記第１ネットワークに基づいて、前記入力映像のピクセルごとの視差を決定し、前記入力映像を撮影したカメラの内部パラメータに基づいて、前記ピクセルごとの視差から法線ベクトル及び距離情報を含む前記ピクセルごとの平面パラメータを取得することができる。

一実施形態に係る平面検出装置は、入力された映像の視差を推定する第１ネットワーク及び入力された映像のセグメンテーションを行う第２ネットワークを含む平面検出モデルが記録されたメモリを含み、前記平面検出モデルは、学習データに含まれている第１映像を第１ネットワークに印加して取得された前記第１映像のピクセルごとの視差に基づいて、前記第１映像のピクセルごとの平面パラメータを取得するステップと、前記第１映像を第２ネットワークに印加し、前記第１映像のピクセルごとのセグメント対応確率を決定するステップと、前記第１映像のピクセルごとの平面パラメータ及び前記第１映像のピクセルごとのセグメント対応確率に基づいて算出された、前記第１映像の各ピクセルが各セグメントに対応する確率で定義される尤度に関する第１ロスに基づいて、前記第１ネットワーク及び前記第２ネットワークを学習させるステップとを含む、前記平面検出モデルの学習方法により製造される。

前記平面検出モデルの学習方法に含まれている前記第１ネットワーク及び前記第２ネットワークを学習させるステップは、前記第１ネットワークで前記第１映像に対応して推定された深度に基づいて、前記第１映像と異なる視点で撮影された第２映像を変換するステップと、前記第２映像の変換された映像と前記第１映像との差に関する第２ロス及び前記第１ロスに基づいて、前記第１ネットワーク及び前記第２ネットワークを学習させるステップとを含むことができる。

入力映像を前記第１ネットワークに印加し、前記第１ネットワークで推定された前記入力映像のピクセルごとの視差に基づいて、前記入力映像のピクセルごとの平面パラメータを取得し、前記入力映像を前記第２ネットワークに印加し、前記第２ネットワークで推定された前記入力映像のピクセルごとのセグメント対応確率を取得し、前記ピクセルごとの平面パラメータ及び前記ピクセルごとのセグメント対応確率に基づいて、セグメントごとの平面パラメータを取得し、前記セグメントごとの平面パラメータに基づいて、前記入力映像に含まれている平面を検出する少なくとも１つのプロセッサをさらに含む。

本発明によると、正解データなしに、教師なし学習方法で学習されたニューラルネットワークを用いて、映像から平面を検出する技術を提供することができる。

本発明によると、正解データなしに映像の深度を推定し、推定された深度情報を用いて映像を平面単位で分割するためのニューラルネットワーク学習方法を提供することができる。

一実施形態に係る平面検出方法の動作フローチャートである。一実施形態に係る平面検出を説明するための図である。一実施形態に係る平面検出モデルのフレームワークを例示する図である。一実施形態に係る平面検出モデルの学習方法の動作フローチャートである。一実施形態に係る平面検出モデルの学習のためのロスを説明するための図である。一実施形態に係る平面検出モデルの学習方法を説明するための図である。一実施形態に係る平面検出モデルの学習方法を説明するための図である。一実施形態に係る学習された第２ネットワークを活用した平面抽出モデルのフレームワークを例示する図である。一実施形態に係る装置の構成の例示図である。

以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照して説明することにおいて、図面符号に関係なく、同じ構成要素には同じ参照符号を付与し、これに対する重複する説明は省略する
図１は、一実施形態に係る平面検出方法の動作フローチャートである。図１の動作は、図１に示したような順序及び方式で行うことができるが、説明された実施形態の思想及び範囲を超えることなく、一部動作の順序が変更されたり一部動作が省略されてもよい。図１に示された複数の動作は、並列又は同時に実行されてもよい。図１に示す１つ以上のブロック及びブロックの組み合せは、特定機能を行うプロセッサのような特定目的のハードウェア基盤のコンピュータ、又は特定目的のハードウェアとコンピュータ命令の組み合せで実現することができる。

図１を参照すると、一実施形態による平面検出方法は、入力映像のピクセルごとの平面パラメータを取得するステップＳ１１０、入力映像のピクセルごとのセグメント対応確率を推定又は決定するステップＳ１２０、セグメントごとの平面パラメータを取得するステップＳ１３０、及び入力映像に含まれている平面を検出するステップＳ１４０を含む。

平面を検出することは、映像に含まれているオブジェクトをなしている互いに異なる平面又は面を検出することを意味する。検出対象となる平面は、数学的定義による全ての地点における曲率が０である完全な平面のみならず、ある程度の曲率又は屈曲を有する平面に類似の面を含んでもよい。例えば、図２を参照すると、底面に置かれている直六面体を被写体として含むイメージ２００の場合、平面検出により底面に対応する平面２１０、オブジェクトを構成している第１平面２２０、オブジェクトを構成している第２平面２３０、及びオブジェクトを構成している第３平面２４０が検出されることができる。

一実施形態に係るステップＳ１１０は、第１ネットワークで推定された入力映像のピクセルごとの視差（ｄｉｓｐａｒｉｔｙ）に基づいて、入力映像のピクセルごとの平面パラメータを取得するステップを含む。

一実施形態によれば、第１ネットワークは、入力映像の視差又は深度を推定するように学習されたニューラルネットワークを含む。入力映像は、単眼映像（ｍｏｎｏｃｕｌａｒｉｍａｇｅ）を含む。単眼映像は、１つの視点で撮影された映像として、深度情報又は視差情報が含まれていない映像である。言い換えれば、第１ネットワークは、深度情報を含まない単眼映像が入力され、映像の視差又は深度を推定するように学習されたニューラルネットワークを含むことができる。

映像の深度は、映像を構成しているピクセルに投射された被写体と映像を撮影したカメラとの間の距離に対応し、任意のベースライン（ｂａｓｅｌｉｎｅ）の距離をおいて配置されている２つのカメラを介して撮影された２つ映像における被写体間の距離の差である視差（ｄｉｓｐａｒｉｔｙ）から取得されることができる。深度ｒは、視差ｄとカメラレンズの焦点距離ｆ及びベースラインｂから下記の数式（１）のように算出されることができる。

即ち、視差と深度は逆数関係にあるため、視差を推定することは、深度を推定することを意味する。

一実施形態に係る平面パラメータは、平面を特定するためのパラメータとして、例えば、平面の法線ベクトル及び基準点からの距離情報を含む。例えば、カメラの位置を原点にする３次元の座標系において、ａｘ＋ｂｙ＋ｃｚ＋ｄ＝０に対応する平面を特定するための平面パラメータは、法線ベクトル（ａ、ｂ、ｃ）と原点との距離情報に対応するｄを含むベクトル［ａ、ｂ、ｃ、ｄ］を含む。

一実施形態によれば、ピクセルごとの平面パラメータは、映像に含まれている各ピクセルの平面パラメータとして、ピクセルが属する平面の法線ベクトル及び基準点からの距離情報を含む。

一実施形態によれば、ピクセルごとの平面パラメータを取得するステップＳ１１０は、第１ネットワークに基づいて入力映像のピクセルごとの視差を推定するステップ、及び入力映像を撮影したカメラの内部パラメータに基づいてピクセルごとの視差から法線ベクトル及び距離情報を含むピクセルごとの平面パラメータを取得するステップを含む。カメラの内部パラメータは、カメラの内部設定に関する値として、例えば、カメラレンズの焦点距離及びベースライン値を含む。

一実施形態によれば、第１ネットワークで推定されたピクセルの視差とカメラの内部パラメータを用いてピクセルの３Ｄポイントクラウドが算出され、ポイントクラウドからピクセルごとの法線ベクトル及び基準点からの距離を算出することができる。言い換えれば、ピクセルごとの平面パラメータは、第１ネットワークで推定されたピクセルごとの視差及びカメラの内部パラメータから算出を介して取得されることができる。

一実施形態に係るステップＳ１２０は、映像のセグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）を行うように学習された第２ネットワークに基づいて、入力映像のピクセルごとのセグメント対応確率を推定するステップを含む。

一実施形態によれば、第２ネットワークは、入力された映像のセグメンテーションを行うように学習されたニューラルネットワークを含むことができる。セグメンテーションは、映像のピクセルを複数のグループにクラスタリング（ｃｌｕｓｔｅｒｉｎｇ）することを意味する。セグメンテーションによってクラスタリングされたピクセルのグループ又はクラスタ（ｃｌｕｓｔｅｒ）は、セグメントのように称される。

一実施形態によれば、第２ネットワークは、同じ平面に属する映像のピクセルを同じセグメントにクラスタリングするよう学習されたニューラルネットワークを含む。以下で説明するが、第２ネットワークは、映像のピクセルのセグメントに対する正解データなしに第１ネットワークに基づいて取得されたピクセルごとの平面パラメータの値及び第２ネットワークの出力に基づいて、ピクセルを同じ平面に属するセグメントでクラスタリングするよう学習されることができる。また、第２ネットワークは、第１ネットワークに基づいて取得されたピクセルごとの平面パラメータの値にピクセルごとの追加情報が付加されたデータ及び第２ネットワークの出力に基づいて、ピクセルを同じ平面に属するセグメントでクラスタリングするように学習されることができる。

一実施形態によれば、第２ネットワークは、入力映像のピクセルごとのセグメント対応確率を出力することができる。特定ピクセルのセグメント対応確率は、セグメントそれぞれに対応して該当ピクセルが該当セグメントに対応する確率又は該当セグメントでクラスタリングされる確率を含む。セグメントの個数は、任意の値に決定されてもよい。例えば、セグメントの個数がＫ個に決定された場合、特定ピクセルｎのセグメント対応確率γ^ｎは、ピクセルｎがＫ個のセグメントそれぞれに対応する確率を含む集合

に該当する。

一実施形態によれば、平面パラメータ値が類似の２つのピクセルは、対応する確率の高いセグメントの種類が同一である。言い換えれば、同じ平面に属する複数のピクセルは、該当平面に該当するセグメントに対応する確率が高く示される。

一実施形態によれば、第１ネットワーク及び第２ネットワークの少なくとも１つは、第１ロス及び第２ロスのうち少なくとも１つに基づいて学習されることができる。第１ロスは、第２ネットワークに基づいてクラスタリングされた各セグメントに対応する平面パラメータの確率分布に基づいて算出された、各ピクセルが各セグメントに対応する確率として定義される尤度（ｌｉｋｅｌｉｈｏｏｄ）に関するロスを含む。第２ロスは、第１映像に対応して第１ネットワークで推定された視差に基づいて、第１映像に対応する第２映像を変換した映像及び第１映像の差に関するロスを含む。一実施形態に係る第１ネットワーク及び第２ネットワークの学習方法については以下で説明する。

一実施形態に係るステップＳ１３０は、ピクセルごとの平面パラメータ及びピクセルごとのセグメント対応確率に基づいて、セグメントごとの平面パラメータを取得するステップを含む。

一実施形態によれば、セグメントごとの平面パラメータを取得するステップＳ１３０は、第２ネットワークに基づいた入力映像内のセグメントそれぞれに対応し、該当セグメントに対応するピクセルごとのセグメント対応確率に基づいて、ピクセルごとの平面パラメータを加重和するステップ及び加重和された平面パラメータに基づいて、該当セグメントに対応する平面パラメータを取得するステップを含むことができる。

一実施形態によると、ピクセルごとの平面パラメータを加重和するステップは、ピクセルの特定セグメントに対応する確率を加重値にし、ピクセルの平面パラメータを加重和するステップを含む。例えば、下記の数式（２）のように、すべてのピクセルそれぞれの平面パラメータにセグメントｋに対応する確率を乗算して合わせた値が、セグメントｋの平面パラメータｙ_ｋとして取得される。

数式（２）において、ｎはピクセルのインデックスとして、１以上Ｎ以下の自然数に該当し、Ｎは、映像に含まれているピクセルの総数に該当する。

はピクセルｎがセグメントｋに対応する確率として、第２ネットワークで出力されたピクセルｎのセグメント対応確率γⁿに含まれる。ｘ^ｎはピクセルｎの平面パラメータとして、第１ネットワークに基づいて取得された値に該当する。

一実施形態によれば、セグメントごとの平面パラメータを正規化するために、数式（１）によるｙ_ｋに１／Ｎ_ｋを乗算した値をセグメントｋの平面パラメータとして利用する。Ｎ_ｋは、下記の数式（３）のように定義されることができる。

前記数式（２）により全てのピクセルの平面パラメータの加重和でセグメントごとの平面パラメータを取得する方法は、ピクセルごとの平面パラメータ及びピクセルごとのセグメント対応確率に基づいて、セグメントごとの平面パラメータを取得する方法の一例にすぎず、セグメントごとの平面パラメータを取得する方法は、数式（２）による方法に限定されない。

一例として、特定セグメントの平面パラメータは、セグメント対応確率のうち該当セグメントに対応する確率が最大であるピクセルの平面パラメータの単純和又は加重和に決定されてもよい。言い換えれば、

のうちセグメントｋに対応する

が最大値であるピクセルｎに対する平面パラメータの単純和による平均、又は該当セグメントに対応する確率を加重値にして合わせた値としてセグメントｋの平面パラメータを決定することができる。

また、一例として、特定セグメントの平面パラメータは、該当セグメントに対応する確率が閾値以上のピクセルの平面パラメータの加重和に決定されてもよい。例えば、閾値が０．５である場合、

が０．５以上であるピクセルｎに対する平面パラメータの加重和としてセグメントｋの平面パラメータが決定されることができる。

一実施形態に係るステップＳ１４０は、セグメントごとの平面パラメータに基づいて、入力映像に含まれている平面を検出するステップを含む。セグメントごとの平面パラメータに基づいて、入力映像で各セグメントに対応する平面が検出され得る。セグメントごとの平面パラメータは、各セグメントに対応する平面を特定するための情報を含み、例えば、各セグメントに対応する平面の法線ベクトル及び基準点との距離情報を含む。言い換えれば、セグメントごとの平面パラメータによって入力映像で各セグメントに対応する平面が特定され得る。

一実施形態によれば、入力映像に含まれている平面を検出するステップＳ１４０は、入力映像のピクセルごとのセグメント対応確率に基づいて、ピクセルごとのセグメントクラスタリング情報を取得するステップと、セグメントごとの平面パラメータ及びピクセルごとのセグメントクラスタリング情報に基づいて、入力映像に含まれている平面を検出するステップを含む。ピクセルごとのセグメントクラスタリング情報は、各ピクセルに対応するセグメントを指示する情報を含む。ピクセルのセグメントクラスタリング情報は、該当ピクセルのセグメント対応確率に基づいて、該当ピクセルが対応する確率が最も大きいセグメントを指示する情報を含む。例えば、特定ピクセルｎのセグメント対応確率

において、セグメントｋに対応する確率である

が最も大きい場合、ピクセルのセグメントクラスタリング情報は、セグメントｋを指示する情報を含む。言い換えれば、ピクセルごとのセグメントクラスタリング情報に基づいて、入力映像に含まれているピクセルのセグメントクラスタリング情報が提供され、セグメントごとの平面パラメータに基づいて、各セグメントに対応する平面に関する情報が提供されることで、入力映像に含まれている平面を検出することができる。

図３は、一実施形態に係る平面検出モデルのフレームワークを例示する図である。

図３を参照すると、一実施形態に係る平面検出モデル３００は、映像が入力されてセグメント平面パラメータ及びセグメントクラスタリング情報を平面検出の結果として出力するモデルであって、図１を参照して上述した平面検出方法の動作を行うモデルに該当する。上述したように、入力される映像は単眼映像を含む。

一実施形態に係る平面検出モデル３００は、深度推定モジュール３１０、セグメンテーションモジュール３２０、代表平面パラメータ算出モジュール３３０、及びセグメント選択モジュール３４０を含む。平面検出モデル３００に含まれているモジュール３１０～３４０は、説明の便宜のために平面検出モデル３００で実行される論理的動作に応じて任意に区分したもので、平面検出モデル３００の構造を限定するものではない。一例として、平面検出モデル３００は装置として実現されてもよく、装置の少なくとも１つのプロセッサで平面検出モデル３００の動作を行うことができる。平面検出モデルが具現された装置の具体的な構成については、以下で説明する。

一実施形態によれば、深度推定モジュール３１０は、映像が入力され、入力された映像のピクセルごとの平面パラメータを出力するモジュールである。上述したように、ピクセルの平面パラメータは、ピクセルに対応する平面を特定するためのパラメータとして、ピクセルに対応する平面の法線ベクトル及び基準点からの距離情報を含む。深度推定モジュール３１０は、入力された映像のピクセルごとの視差を推定するニューラルネットワークである第１ネットワークを含み、第１ネットワークで出力された視差に基づいてピクセルごとの平面パラメータを算出するモジュールを含む。深度推定モジュール３１０は、第１ネットワークで推定された映像のピクセルごとの視差、及び入力された映像を撮影したカメラの内部パラメータに基づいて各ピクセルのポイントクラウドを算出し、各ポイントで隣接したポイントとの関係を考慮して法線ベクトル及び基準点からの距離を算出する動作を行うことができる。

一実施形態によると、セグメンテーションモジュール３２０は映像が入力され、入力された映像のピクセルごとのセグメント対応確率を出力するモジュールである。セグメンテーションモジュール３２０は、映像が入力され、入力された映像のピクセルごとのセグメント対応確率を出力するよう学習された第２ネットワークを含む。上述のように、ピクセルのセグメント対応確率はセグメントそれぞれに対応し、当該ピクセルが当該セグメントに対応する確率又は当該セグメントにクラスタリングされる確率を含む。セグメンテーションモジュール３２０は、入力された映像の各ピクセルごとの特定セグメントに対応する確率を算出する動作を行うことができる。

一実施形態によれば、代表平面パラメータ算出モジュール３３０は、ピクセルごとの平面パラメータ及びピクセルごとのセグメントの対応確率が入力され、セグメントごとの平面パラメータを出力するモジュールである。代表平面パラメータ算出モジュール３３０は、深度推定モジュール３１０及びセグメンテーションモジュール３２０で出力された結果を用いて、第２ネットワークに基づいた前記入力映像内のセグメントごとに、各セグメントに対応するピクセルの平面パラメータの代表値を算出する動作を行う。例えば、上述したように、特定セグメントの平面パラメータは、ピクセルの該当セグメントに対応する確率を加重値にし、ピクセルの平面パラメータを加重和した値に決定され、又は、セグメント対応確率のうち該当セグメントに対応する確率が最大であるピクセルの平面パラメータの単純和又は加重和に決定されてもよい。

一実施形態によれば、セグメント選択モジュール３４０は、ピクセルごとのセグメント対応確率が入力され、セグメンテーションの結果としてピクセルごとのセグメントクラスタリング情報を出力するモジュールである。セグメント選択モジュール３４０は、ピクセルごとの各セグメントに属する確率の最大値に対応するセグメントを指示する情報を該当ピクセルのセグメントクラスタリング情報として出力することができる。セグメント選択モジュール３４０は、マックス（ｍａｘ）関数を含んでもよく、入力されたピクセルごとのセグメント対応確率で最大値を抽出し、最大値に対応するセグメントを指示する情報を出力するように動作することができる。

図４は、一実施形態に係る平面検出モデルの学習方法の動作フローチャートである。図４の動作は、図４に示したような順序及び方式で実行され得るが、説明された実施形態の思想及び範囲を超過することなく、一部動作の順序が変更されたり一部動作が省略されてもよい。図４に示された複数の動作は、並列的又は同時に実行されてもよい。図４に示す１つ以上のブロック及びブロックの組み合せは、特定機能を行うプロセッサのような特定目的のハードウェア基盤コンピュータ又は特定目的のハードウェアとコンピュータ命令の組み合せで実現し得る。以下、図４に対する説明に加えて、図１～図３の説明は図４に対しても適用可能であり、図４に対する説明に参照として含まれてもよい。従って、以下の図４に対する説明において、上記の説明を繰り返すことはない。

一実施形態によれば、平面検出モデルは、図３を参照して上述した平面検出モデル３００に対応する。より具体的に、平面検出モデルの学習方法は、平面検出モデルに含まれているニューラルネットワークの学習方法に該当し、上述したように、平面検出モデルに含まれているニューラルネットワークは、第１ネットワーク及び第２ネットワークを含む。

図４を参照すると、一実施形態に係る平面検出モデルの学習方法は、第１映像のピクセルごとの平面パラメータを取得するステップＳ４１０、第１映像のピクセルごとのセグメント対応確率を推定するステップＳ４２０、及び第１ロスに基づいて、第１ネットワーク及び第２ネットワークを学習させるステップＳ４３０を含む。

一実施形態によれば、学習データはステレオ映像（ｓｔｅｒｅｏｉｍａｇｅ）の第１単眼映像である第１映像、及びステレオ映像の第２単眼映像である第２映像を含む。例えば、第１映像がステレオ映像の左側単眼映像である場合、第２映像は、同じステレオ映像の右側単眼映像である。

一実施形態によると、学習データは、ビデオ映像の第１フレームである第１映像及びビデオ映像の第２フレームである第２映像を含むことができる。言い換えれば、第１映像及び第２映像は、同じビデオ映像の互いに異なるフレームに対応するイメージである。

一実施形態に係るステップＳ４１０は、学習データに含まれている第１映像を第１ネットワークに印加して取得された第１映像のピクセルごとの視差に基づいて、第１映像のピクセルごとの平面パラメータを取得するステップを含む。一実施形態に係るステップＳ４１０は、上述した図１に示すステップＳ１１０に対応し、図３に示す深度推定モジュール３１０で実行される動作に対応する。

一実施形態に係るピクセルごとの平面パラメータを取得するステップＳ４１０は、第１映像を第１ネットワークに印加し、第１映像のピクセルごとの視差を推定するステップと、第１映像を撮影したカメラの内部パラメータに基づいて、ピクセルごとの視差から法線ベクトル及び距離情報を含むピクセルごとの平面パラメータを取得するステップを含む。

一実施形態に係るステップＳ４２０は、第１映像を第２ネットワークに印加し、第１映像のピクセルごとのセグメント対応確率を推定するステップを含む。一実施形態に係るステップＳ４２０は、上述した図１に示すステップＳ１２０に対応し、図３に示すセグメンテーションモジュール３２０で実行される動作に対応する。

一実施形態に係るステップＳ４３０は、第１映像のピクセルごとの平面パラメータ及び第１映像のピクセルごとのセグメント対応確率に基づいて算出された、第１映像の各ピクセルが各セグメントに対応する確率として定義される尤度（ｌｉｋｅｌｉｈｏｏｄ）に関する第１ロスに基づいて、第１ネットワーク及び前記第２ネットワークを学習させるステップを含む。

一実施形態によれば、第１ロスは、クラスタリングのための教師なし学習方式で使用される尤度ロスである。第１ネットワーク及び第２ネットワークは、第１ロスに基づいて教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）方式で学習されることができる。

一実施形態に係る尤度は、第１映像の各ピクセルが各セグメントに対応する確率として定義され、第１映像の各ピクセルが各セグメントに対応する確率は、任意の数のセグメントそれぞれに対応する平面パラメータに関する確率分布及びピクセルごとの平面パラメータに基づいて算出されることができる。第２ネットワークに関してセグメンテーションの実行によってクラスタリングされるセグメントの個数は、任意の値に設定されてもよい。

一実施形態によれば、セグメントそれぞれに対応する平面パラメータに関する確率分布は、セグメントそれぞれに対応する平面パラメータの代表値及びセグメントそれぞれに対応する平面パラメータの分散を含む。セグメントそれぞれに対応する平面パラメータの代表値は、ピクセルごとのセグメント対応確率及びピクセルごとの平面パラメータに基づいて算出される。セグメントそれぞれに対応する平面パラメータの分散は、セグメントそれぞれに対応する平面パラメータの代表値及びピクセルごとのセグメント対応確率、ピクセルごとの平面パラメータ及びセグメントそれぞれに対応する平面パラメータの代表値に基づいて算出されてもよい。

一実施形態によれば、第１映像の各ピクセルが各セグメントに対応する確率である尤度は、ピクセルごとの平面パラメータにピクセルごとの追加情報が付加されたデータ、及び任意の数のセグメントそれぞれに対応するピクセルごとの平面パラメータ及び追加情報に関する確率分布に基づいて算出されることができる。ピクセルごとの平面パラメータにピクセルごとの追加情報が付加されたデータは、ピクセルごとの平面パラメータにピクセルごとのから抽出されたピクセルに関する情報を位置エンコーディング（ｐｏｓｉｔｉｏｎａｌｅｎｃｏｄｉｎｇ）のような方式を用いて付加したデータを含む。ピクセルごとの追加情報は、例えば、ピクセルごとの映像内座標値、ピクセルごとのディープラーニングモデルによって抽出された特性のようなピクセルごとに抽出可能なピクセルに関する様々な形態の情報を含む。

例えば、尤度は、ピクセルごとの平面パラメータ［ａ、ｂ、ｃ、ｄ］にピクセルごとの映像内座標値（ｘ、ｙ）を付加したデータ［ａ、ｂ、ｃ、ｄ、ｘ、ｙ］に基づいて取得されることができる。この場合、各セグメントに対応するピクセルの座標値の代表値がさらに定義され、これに基づいた新しい尤度が算出される。言い換えれば、ピクセルごとの平面パラメータの類似度だけでなく、ピクセルごとの座標値の類似度まで反映して尤度に関する第１ロスが算出されることができる。第１ロスに関しては、以下で具体的に説明する。

一実施形態によれば、第１ネットワーク及び前記第２ネットワークを学習させるステップＳ４３０は、第１ロス及び第２ロスに基づいて第１ネットワーク及び第２ネットワークを学習させるステップを含む。例えば、第１ロス及び第２ロスの和が減少するよう、第１ネットワーク及び第２ネットワークの加重値がアップデートされることができる。

一実施形態によれば、第２ロスは、第１映像に対応して第１ネットワークで推定された視差に基づいて、第１映像に対応する第２映像を変換した映像及び第１映像の差に関するロスである。言い換えれば、第１ネットワーク及び前記第２ネットワークを学習させるステップＳ４３０は、第１ネットワークで第１映像に対応して推定された深度に基づいて、第１映像とは異なる視点で撮影された第２映像を変換するステップ及び変換された映像と第１映像との差に関する第２ロス及び第１ロスに基づいて、第１ネットワーク及び前記第２ネットワークを学習させるステップを含む。第２ロスに関しては、以下でより具体的に説明する。

図５は、一実施形態に係る平面検出モデルの学習のためのロスを説明するための図である。

図５を参照すると、第１ロス５３０は、第１ネットワーク５１０の出力である映像のピクセルごとの視差５１１で取得されたピクセルごとの平面パラメータ５１２、及び第２ネットワーク５２０の出力であるピクセルごとのセグメント対応確率５２１に基づいて定義される。上述したように、第１ロス５３０は、ピクセルごとの平面パラメータ５１２にピクセルごとの追加情報が付加されたデータに基づいて定義されるが、以下では、説明の便宜のためにピクセルごとの平面パラメータ５１２に基づいて第１ロスが定義される場合を例に挙げて説明する。

例えば、第１ロス５３０は、各セグメントに対応するピクセルの平面パラメータがガウシアン分布によるものと仮定し、各ピクセルが各セグメントに対応する確率として定義された尤度に基づいて決定することができる。尤度は、下記の数式（４）のように定義される。

数式（４）において、ｋはセグメントのインデックスであって、１以上Ｋ以下の自然数であり、Ｋは、セグメントの個数である。ｎはピクセルのインデックスであって、１以上Ｎ以下の自然数であり、Ｎは、映像に含まれているピクセルの総数である。Ｎは、正規分布（ｎｏｒｍａｌｄｉｓｔｒｉｂｕｔｉｏｎ）又はガウス分布（Ｇａｕｓｓｉａｎｄｉｓｔｒｉｂｕｔｉｏｎ）を意味する。ｘ^ｎはピクセルｎの平面パラメータであって、第１ネットワーク５１０に基づいて取得されたピクセルごとの平面パラメータ５１２に含まれてもよい。μ_ｋは、セグメントｋに対応する平面パラメータの平均又は代表値、Σ_ｋはセグメントｋに対応する平面パラメータの分散、π_ｋは混合係数（ｍｉｘｉｎｇｃｏｅｆｆｉｃｉｅｎｔ）として、それぞれ数式（５）～数式（７）のように定義されることができる。

数式（５）～（７）において、

はピクセルｎがセグメントｋに対応する確率であって、第２ネットワーク５２０から出力されたピクセルごとのセグメント対応確率５２１に含まれる。

言い換えれば、各セグメントに対応する平面パラメータがガウス分布によるものと仮定するとき、各セグメントに対応する平面パラメータの平均と分散に基づいて、各ピクセルの平面パラメータ値により各セグメントに対応する確率が算出されることができる。

一実施形態によれば、第１ロス５３０は、尤度が大きいほど小さく定義され、第１ネットワーク５１０及び第２ネットワーク５２０は、第１ロス５３０が減少する方向に学習され得る。

一実施形態によれば、第２ロス５４０は、合成映像５０３と第１映像５０１との差に関するロスである。合成映像は、第１映像５０１に対応して第１ネットワーク５１０で推定された視差に基づいて、第１映像５０１に対応する第２映像５０２を変換して合成された映像である。第２ロス５４０は、合成映像５０３と第１映像５０１との差が小さいほど小さくなるよう定義され、第１ネットワーク５１０は、第２ロス５４０が減少する方向に学習されることができる。

一実施形態によれば、第２ロス５４０は、第１ネットワーク５１０で推定された視差５１１の正確度を補正するためのもので、第１ネットワーク５１０は、入力された映像の視差に関する正解データに基づいたロスに基づいて学習されることができる。

一例として、図６を参照すると、第１ネットワークの視差推定の正確度を向上させるために、ＲＧＢ－Ｄ映像データベース６１０に基づいて平面検出モデル３００が学習されることができる。図３を参照して上述したように、平面検出モデル３００は深度推定モジュール３１０を含み、深度推定モジュール３１０は、ニューラルネットワークである第１ネットワークを含む。言い換えれば、ＲＧＢ－Ｄ映像データベース６１０に基づいて平面検出モデル３００の第１ネットワークが学習されることができる。

ＲＧＢ－Ｄ映像は、深度情報が含まれている映像である。第１ネットワークは、ＲＧＢ－Ｄ映像が入力され、入力された映像の深度又は視差を推定することができる。第１ネットワークで推定された結果とＲＧＢ－Ｄ映像の実際の深度情報とを比較し、その差が減少する方向に第１ネットワークが学習されることができる。一実施形態によれば、第１ネットワークは、上述した第２ロスの代わりに、深度に関する正解データに基づいて定義されたロスと第１ロスに基づいて学習されることができる。言い換えれば、第１ネットワークの出力である視差に関する正解データを含む映像を学習データとして使用し、第１ネットワークで出力された視差と正解データとの差に関するロスを定義して第１ネットワークが学習されることができる。

また、一例として、図７を参照すると、第１ネットワークの視差推定の正確度を向上させるために、マルチビュー（ｍｕｌｔｉ－ｖｉｅｗ）映像データベース７１０に基づいて平面検出モデル３００が学習されることができる。図３を参照して上述したように、平面検出モデル３００は深度推定モジュール３１０を含み、深度推定モジュール３１０は、ニューラルネットワークである第１ネットワークを含む。言い換えれば、マルチビュー映像データベース７１０に基づいて平面検出モデル３００の第１ネットワークが学習されることができる。

マルチビュー映像は、複数の互いに異なる角度で撮影した複数の映像（例えば、ステレオ映像）を含む。マルチビュー映像に含まれている複数の映像間のマッチング関係に基づいて、マルチビュー映像が撮影された環境に関する３次元情報が取得され、取得された３次元情報に基づいてより正確な映像の視差又は深度値を取得することができる。第１ネットワークは、マルチビュー映像が入力され、入力された映像の深度又は視差を推定することができる。第１ネットワークで推定された結果とマルチビュー映像のマッチング関係に基づいて算出された深度情報とを比較し、その差が減少する方向に１ネットワークが学習され得る。

一実施形態によれば、第１ネットワーク及び第２ネットワークは同時に学習されてもよい。例えば、第１ネットワーク及び第２ネットワークは、第１ロス及び第２ロスに基づいて、第１ロス及び第２ロスの和が減少する方向に同時に学習され得る。第２ネットワークは、第１ネットワークの出力である視差推定の正確度が高いほど、正確度が高いピクセルごとの平面パラメータを使用でき、セグメンテーションの正確度が向上し得る。第１ネットワークは、第２ネットワークの出力であるセグメンテーションの正確度が高いほど、言い換えれば、ピクセルが属する平面によりクラスタリングを正確に行うほど、同じセグメントに対応するピクセルの平面パラメータが類似になるという効果により、視差推定の正確度を向上させることができる。

一実施形態によれば、第１ネットワーク及び第２ネットワークは順次学習されてもよい。例えば、第１ロス及び第２ロスに基づいて第１ネットワークが先に学習され、第１ロスに基づいて第２ネットワークが学習されてもよい。

図８は、一実施形態に係る学習された第２ネットワークを活用した平面抽出モデルのフレームワークを例示する図である。

一実施形態によれば、図４～図７を参照して上述した学習方法により学習された第２ネットワークは、入力された映像で特定平面を抽出する平面抽出モデルに使用することができる。言い換えれば、図４～図７を参照して上述した学習方法により、第１ネットワークと共に学習された第２ネットワークは、入力された映像で特定セグメントに対応する平面を抽出するための平面抽出モデルに活用されることができる。

図８を参照すると、平面抽出モデル８００は、映像が入力されてセグメントマスキング情報を平面抽出の結果として出力するモデルである。入力される映像は、単眼映像を含む。平面抽出は、映像から特定の平面を分離するもので、例えば、映像で特定平面を他の部分と区分して表示したり、特定平面に含まれているピクセルの情報を出力し、映像から特定平面を抽出することができる。

一実施形態に係る平面抽出モデル８００は、セグメンテーションモジュール３２０、セグメント選択モジュール３４０、及びセグメントマスキングモジュール８１０を含む。平面抽出モデル８００に含まれているモジュール３２０，３４０，８１０は、説明の便宜のために平面検出モデル３００で実行される論理的な動作により任意に区分したもので、平面抽出モデル８００の構造を限定するものではない。一例として、平面抽出モデル８００は装置として実現されてもよく、装置の少なくとも１つのプロセッサで平面検出モデル３００の動作を行うことができる。

一実施形態に係るセグメンテーションモジュール３２０及びセグメント選択モジュール３４０は、図３を参照して上述した平面検出モデル３００の構成である。上述したように、セグメンテーションモジュール３２０は学習された第２ネットワークを含み、映像が入力され、入力された映像のピクセルごとのセグメント対応確率を出力し得る。上述したように、セグメント選択モジュール３４０は、ピクセルごとのセグメント対応確率が入力され、セグメンテーションの結果としてピクセルごとのセグメントクラスタリング情報を出力することができる。

一実施形態に係るセグメントマスキングモジュール８１０は、セグメントを指示するためのセグメントＩＤ８０１が入力され、ピクセルごとのセグメントクラスタリング情報に基づいて入力されたセグメントＩＤ８０１に対応する平面を入力映像からマスキング又は抽出する。平面抽出モデル８００の出力であるセグメントマスキング情報は、入力映像でセグメントＩＤに対応する平面を他の部分と区分されるように表示された映像、又は、セグメントＩＤに対応する平面に含まれているピクセルの情報を含む。例えば、入力されたセグメントＩＤが底面に対応するセグメントを指示する場合、入力映像において、底面に該当する部分が他の部分と区分するように表示されて出力されたり、底面に該当するピクセルの情報が出力されることができる。

一実施形態に係る平面抽出モデル８００は、様々なコンピュータビジョン基盤の３次元モデリングアプリケーションにおいて、特定の平面に関する情報を提供するために使用されてもよく、一例として、ＡＲアプリケーションでＡＲオブジェクトを配置するための特定平面（例えば、底面又は特定オブジェクトの上段面）を抽出するために使用されてもよい。

図９は、一実施形態に係る装置の構成の例示図である。

図９を参照すると、一実施形態に係る装置９００は、プロセッサ９０１、メモリ９０３、及び入出力装置９０５を含む。装置９００は、例えば、ユーザデバイス（例えば、スマートフォン、パーソナルコンピュータ、タブレットＰＣなど）、ＡＲグラス（ＡＲｇｌａｓｓｅｓ）、センサ、サーバを含む。

一実施形態に係る装置９００は、平面検出モデルが記録されたメモリ９０３を含む。平面検出モデルは、図１～図７を参照して上述した平面検出モデルを含む。一実施形態に係るメモリ９０３は、揮発性メモリ又は不揮発性メモリであってもよい。

一実施形態によれば、メモリ９０３は、上述した平面検出モデルが具現されたプログラムを格納し、プロセッサ９０１は、メモリ９０３に格納されたプログラムを実行し、装置９００を制御する。一例として、プロセッサ９０１は、第１ネットワークで推定された入力映像のピクセルごとの視差に基づいて、入力映像のピクセルごとの平面パラメータを取得し、映像のセグメンテーションを行うように学習された第２ネットワークに基づいて、入力映像のピクセルごとのセグメント対応確率を推定し、ピクセルごとの平面パラメータ及びピクセルごとのセグメント対応確率に基づいてセグメントごとの平面パラメータを取得し、セグメントごとの平面パラメータに基づいて入力映像に含まれている平面を検出する動作を行うことができる。

一側面に係る装置９００は、入出力装置９０５を介して外部装置（例えば、パーソナルコンピュータ、サーバ又はネットワーク）に接続してデータを交換し得る。例えば、装置９００は、入出力装置９０５を介して映像を受信し、平面検出モデルの結果を出力してもよい。

上述したように、平面検出モデルは、ニューラルネットワークである第１ネットワーク及び第２ネットワークを含む。第１ネットワーク及び第２ネットワークを含む平面検出モデルは、図４～図７を参照して上述した学習方法により生成及び製造されることができる。

例えば、平面検出モデルは、学習データに含まれている第１映像を第１ネットワークに印加して取得された第１映像のピクセルごとの視差に基づいて、第１映像のピクセルごとの平面パラメータを取得するステップと、第１映像を第２ネットワークに印加し、第１映像のピクセルごとのセグメント対応確率を推定するステップと、第１映像のピクセルごとの平面パラメータ及び第１映像のピクセルごとのセグメント対応確率に基づいて算出された、第１映像の各ピクセルが各セグメントに対応する確率として定義される尤度に関する第１ロスに基づいて、第１ネットワーク及び第２ネットワークを学習させるステップにより製造又は生成されることができる。第１ネットワーク及び第２ネットワークの学習によって更新された第１ネットワーク及び第２ネットワークのパラメータは、メモリ９０３に格納されることができる。

一実施形態に係るプロセッサ９０１は、図４～図７を参照して上述した学習方法の少なくとも１つの動作を実行することができ、学習過程で更新された第１ネットワーク及び第２ネットワークのパラメータをメモリ９０３に格納する動作を行う。

一実施形態に係る装置９００は、図８を参照して上述した平面抽出モデルが具現されたプログラムを格納し、プロセッサ９０１は、メモリ９０３に格納されたプログラムを実行して装置９００を制御し得る。言い換えれば、プロセッサ９０１は、入力映像を第２ネットワークに印加し、入力映像のピクセルごとのセグメント対応確率を取得し、取得されたピクセルごとのセグメント対応確率をセグメント選択モジュールに入力してピクセルごとのセグメントクラスタリング情報を取得し、セグメントを指示するためのセグメントＩＤが入力され、ピクセルごとのセグメントクラスタリング情報に基づいて入力映像で入力されたセグメントＩＤに対応する平面をマスキング又は抽出することができる。

以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。

上記で説明したハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求の範囲に属する。

９００装置
９０１プロセッサ
９０３メモリ
９０５入出力装置

Claims

第１ネットワークで推定された入力映像のピクセルごとの視差に基づいて、前記入力映像のピクセルごとの平面パラメータを取得するステップと、
映像のセグメンテーションを行うように学習された第２ネットワークに基づいて、前記入力映像のピクセルごとのセグメント対応確率を決定するステップと、
前記ピクセルごとの平面パラメータ及び前記ピクセルごとのセグメント対応確率に基づいて、セグメントごとの平面パラメータを取得するステップと、
前記セグメントごとの平面パラメータに基づいて、前記入力映像に含まれている平面を検出するステップと、
を含む、平面検出方法。
前記入力映像に含まれている平面を検出するステップは、
前記ピクセルごとのセグメント対応確率に基づいて、ピクセルごとのセグメントクラスタリング情報を取得するステップと、
前記セグメントごとの平面パラメータ及び前記ピクセルごとのセグメントクラスタリング情報に基づいて、前記入力映像に含まれている平面を検出するステップと、
を含む、請求項１に記載の平面検出方法。
前記セグメントごとの平面パラメータを取得するステップは、
前記第２ネットワークに基づいた前記入力映像内のセグメントそれぞれに対応し、
該当セグメントに対応する前記ピクセルごとのセグメント対応確率に基づいて、前記ピクセルごとの平面パラメータを加重和するステップと、
前記加重和された平面パラメータに基づいて、前記該当セグメントに対応する平面パラメータを取得するステップと、
を含む、請求項１に記載の平面検出方法。
前記第１ネットワーク及び前記第２ネットワークは、
前記第２ネットワークに基づいてクラスタリングされた各セグメントに対応する平面パラメータの確率分布に基づいて算出された、各ピクセルが各セグメントに対応する確率で定義される尤度に関する第１ロスと、
第１映像に対応し、前記第１ネットワークで推定された視差に基づいて前記第１映像に対応する第２映像を変換した映像と前記第１映像との差に関する第２ロスと、
のうち少なくとも１つに基づいて学習される、請求項１に記載の平面検出方法。
前記ピクセルごとの平面パラメータを取得するステップは、
前記第１ネットワークに基づいて、前記入力映像のピクセルごとの視差を決定するステップと、
前記入力映像を撮影したカメラの内部パラメータに基づいて、前記ピクセルごとの視差から法線ベクトル及び距離情報を含む前記ピクセルごとの平面パラメータを取得するステップと、
を含む、請求項１に記載の平面検出方法。
学習データに含まれている第１映像を第１ネットワークに印加して取得された前記第１映像のピクセルごとの視差に基づいて、前記第１映像のピクセルごとの平面パラメータを取得するステップと、
前記第１映像を第２ネットワークに印加し、前記第１映像のピクセルごとのセグメント対応確率を決定するステップと、
前記第１映像のピクセルごとの平面パラメータ及び前記第１映像のピクセルごとのセグメント対応確率に基づいて算出された、前記第１映像の各ピクセルが各セグメントに対応する確率で定義される尤度に関する第１ロスに基づいて、前記第１ネットワーク及び前記第２ネットワークを学習させるステップと、
を含む、平面検出モデルの学習方法。
前記第１映像の各ピクセルが各セグメントに対応する確率は、複数のセグメントそれぞれに対応する平面パラメータに関する確率分布及び前記ピクセルごとの平面パラメータに基づいて算出される、請求項６に記載の平面検出モデルの学習方法。
前記複数のセグメントそれぞれに対応する平面パラメータに関する確率分布は、
前記ピクセルごとのセグメント対応確率及び前記ピクセルごとの平面パラメータに基づいて算出された前記セグメントそれぞれに対応する平面パラメータの代表値と、
前記ピクセルごとのセグメント対応確率、前記ピクセルごとの平面パラメータ、及び前記セグメントそれぞれに対応する平面パラメータの代表値に基づいて算出された、前記セグメントそれぞれに対応する平面パラメータの分散と、
を含む、請求項７に記載の平面検出モデルの学習方法。
前記第１ネットワーク及び前記第２ネットワークを学習させるステップは、
前記第１ネットワークで前記第１映像に対応して推定された深度に基づいて、前記第１映像と異なる視点で撮影された第２映像を変換するステップと、
前記第２映像の変換された映像と前記第１映像との差に関する第２ロス及び前記第１ロスに基づいて、前記第１ネットワーク及び前記第２ネットワークを学習させるステップと、
を含む、請求項６に記載の平面検出モデルの学習方法。
前記学習データは、
ステレオ映像の第１単眼映像である前記第１映像及び前記ステレオ映像の第２単眼映像である第２映像と、
ビデオ映像の第１フレームである前記第１映像及び前記ビデオ映像の第２フレームである第２映像と、
のうち少なくとも１つを含む、請求項６に記載の平面検出モデルの学習方法。
前記ピクセルごとの平面パラメータを取得するステップは、
前記第１映像を前記第１ネットワークに印加し、前記第１映像のピクセルごとの視差を決定するステップと、
前記第１映像を撮影したカメラの内部パラメータに基づいて、前記ピクセルごとの視差から法線ベクトル及び距離情報を含む前記ピクセルごとの平面パラメータを取得するステップと、
を含む、請求項６に記載の平面検出モデルの学習方法。
ハードウェアと結合して請求項１～１１のいずれか一項に記載の方法を実行させるために媒体に格納されたコンピュータプログラム。
請求項１乃至５のいずれか１項に記載の平面検出方法を実行する少なくとも１つのプロセッサを含む、平面検出装置。
平面検出装置において、
入力された映像の視差を推定する第１ネットワーク及び入力された映像のセグメンテーションを行う第２ネットワークを含む平面検出モデルが記録されたメモリを含み、
前記平面検出モデルは、
学習データに含まれている第１映像を第１ネットワークに印加して取得された前記第１映像のピクセルごとの視差に基づいて、前記第１映像のピクセルごとの平面パラメータを取得するステップと、
前記第１映像を第２ネットワークに印加し、前記第１映像のピクセルごとのセグメント対応確率を決定するステップと、
前記第１映像のピクセルごとの平面パラメータ及び前記第１映像のピクセルごとのセグメント対応確率に基づいて算出された、前記第１映像の各ピクセルが各セグメントに対応する確率で定義される尤度に関する第１ロスに基づいて、前記第１ネットワーク及び前記第２ネットワークを学習させるステップと、
を含む、前記平面検出モデルの学習方法により製造される、平面検出装置。
前記平面検出モデルの学習方法に含まれている前記第１ネットワーク及び前記第２ネットワークを学習させるステップは、
前記第１ネットワークで前記第１映像に対応して推定された深度に基づいて、前記第１映像と異なる視点で撮影された第２映像を変換するステップと、
前記第２映像の変換された映像と前記第１映像との差に関する第２ロス及び前記第１ロスに基づいて、前記第１ネットワーク及び前記第２ネットワークを学習させるステップと、
を含む、請求項１４に記載の平面検出装置。
入力映像を前記第１ネットワークに印加し、前記第１ネットワークで推定された前記入力映像のピクセルごとの視差に基づいて、前記入力映像のピクセルごとの平面パラメータを取得し、
前記入力映像を前記第２ネットワークに印加し、前記第２ネットワークで推定された前記入力映像のピクセルごとのセグメント対応確率を取得し、
前記ピクセルごとの平面パラメータ及び前記ピクセルごとのセグメント対応確率に基づいて、セグメントごとの平面パラメータを取得し、
前記セグメントごとの平面パラメータに基づいて、前記入力映像に含まれている平面を検出する、
少なくとも１つのプロセッサをさらに含む、請求項１４に記載の平面検出装置。