JP2021504848A

JP2021504848A - 画像処理システム及び画像処理方法

Info

Publication number: JP2021504848A
Application number: JP2020529658A
Authority: JP
Inventors: フェン、チェン; リ、デュアンシュン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-03-06
Filing date: 2018-08-27
Publication date: 2021-02-15
Anticipated expiration: 2038-08-27
Also published as: WO2019171628A1; US20190279368A1; US10410354B1; JP6793885B1

Abstract

画像処理システムは、ネットワークを介してデータを送信及び受信するインタフェースと、インタフェースに接続されたプロセッサと、プロセッサによって実行可能な画像処理プログラムモジュールを記憶するメモリとを備え、画像処理プログラムは、動作をプロセッサに実行させる。動作は、物体を含む画像の点群をセグメンテーションネットワーク内に与えることと、セグメンテーションネットワークを用いて、点群を点ごとに物体の複数のクラスにセグメント化するとともに物体の境界を検出することであって、セグメンテーションネットワークは、セグメント化された複数のクラス及びセグメント化された境界に基づいて、物体の関連プリミティブクラスの確率を出力することと、所定のフィッティング方法を用いて、セグメント化された複数のクラス及びセグメント化された境界を検証及び精緻化することと、物体の複数のクラスの誤分類を、複数のクラスにプリミティブをフィッティングすることによって訂正することとを含む。

Description

本発明は、包括的には、マルチモデルプリミティブフィッティングのための装置及び方法に関し、より詳細には、ディープ幾何学的境界及びインスタンス認識セグメンテーション（boundary and instance aware segmentation）を用いたマルチモデルプリミティブフィッティングに関する。

関連技術の技術分野は、マルチモデルマルチインスタンス幾何学的プリミティブ（例えば、平面、柱体、球体、錐体等）を認識及びフィッティングすることによるリバースエンジニアリングにおけるものである。この問題に対する最も標準的な解決策は、ＲＡＮＳＡＣベースの方法であり、この方法は、実際、雑音のある点（ひいては雑音のある法線推定）と、幾何学的プリミティブの複数のクラス及び／又は複数のインスタンスによって形成される乱雑としたシーンとを含む、複数の因子の組み合わせが原因で、フィッティング結果で劣ることが多く、こうした複数の因子は、ＲＡＮＳＡＣベースの方法のロバスト性を妨げるものと広く知られている。他の方法は、ハフ変換又は大域的エネルギー最小化に基づくが、これも同様に上記の課題を抱えている。

雑音のある点群内で幾何学的プリミティブ（例えば、平面、球体、柱体、錐体）を識別及びフィッティングすることは、ロボティクス及びリバースエンジニアリング等の分野にとっては、困難でありながらも有益なタスクである。マルチモデルマルチインスタンスフィッティング問題として、このタスクはＲＡＮＳＡＣを含む種々の手法を用いて取り組まれてきたが、これらの手法は、実際には、劣ったモデルを、乱雑としたシーンの雑音のある入力にフィッティングしてしまうことが多い。対応する人間の認識プロセスに着想を得るとともに、ディープニューラルネットワークを用いた画像セマンティックセグメンテーションの近年の進歩から利益を得ることによって、本発明のいくつかの実施形態は、この問題に対処する新たなフレームワークとしてＢＩＡＳＦｉｔを開示する。第１に、全層畳み込みニューラルネットワークを通して、入力点群が、いかなる幾何学的フィッティングも用いることなく、同時に検出されたインスタンス境界によって分割された複数のクラスに点ごとにセグメント化される。したがって、セグメントは、関連プリミティブクラスの確率推定を有するプリミティブ仮説として機能することができる。最後に、全ての仮説が、幾何学的検証を通して送信され、プリミティブをそれぞれフィッティングすることによって、いかなる誤分類も訂正される。いくつかの実施形態は、シミュレートされた距離画像を用いてトレーニングすることを開示し、これをシミュレートされた点群と実世界の点群との双方を用いてテストした。さらに、本発明のいくつかの実施形態は、定量的実験及び定性的実験がＢＩＡＳＦｉｔの優位性を実証したことを提供する。

さらに、本発明のいくつかの実施形態は、マルチモデルマルチインスタンス幾何学的プリミティブ（例えば、平面、柱体、球体、錐体等）を認識及びフィッティングするのに畳み込みニューラルネットワーク（ＣＮＮ）を用いることを可能にする。本発明のいくつかの実施形態は、入力点群を、同時に検出された幾何学的インスタンス境界によって分離された複数のプリミティブクラスにする幾何学的セグメンテーションを実行する。各セグメントは、その関連プリミティブクラスの確率推定を有するプリミティブ仮説として機能する。全ての仮説が幾何学的検証を通して送信され、プリミティブをそれぞれフィッティングすることによって、いかなる誤分類も訂正される。

本発明のいくつかの実施形態によれば、画像処理システムは、ネットワークを介してデータを送信及び受信するインタフェースと、インタフェースに接続されたプロセッサと、プロセッサによって実行可能な画像処理プログラムモジュールを記憶するメモリとを備え、画像処理プログラムは、物体の距離画像としての点群をセグメンテーションネットワーク内に与えることと、セグメンテーションネットワークを用いて、点群を点ごとに物体の複数のクラスにセグメント化すると同時に物体の境界を検出することであって、セグメンテーションネットワークは、セグメント化された複数のクラス及びセグメント化された境界に基づいて、物体の関連プリミティブクラスの確率を出力することと、所定のフィッティング方法を用いて、セグメント化された複数のクラス及びセグメント化された境界を検証及び精緻化することと、物体の複数のクラスの誤分類を、複数のクラスにプリミティブをフィッティングすることによって訂正することとを含む動作を、プロセッサに実行させる。

さらに、実施形態によれば、非一時的コンピュータ可読媒体は、１つ以上のプロセッサによって実行可能な命令を含むプログラムを記憶する非一時的コンピュータ可読媒体であって、命令は、メモリに関連した１つ以上のプロセッサに、物体を含む画像の点群をセグメンテーションネットワーク内に与えることと、セグメンテーションネットワークを用いて、点群を点ごとに物体の複数のクラスにセグメント化するとともに物体の境界を検出することであって、セグメンテーションネットワークは、セグメント化された複数のクラス及びセグメント化された境界に基づいて、物体の関連プリミティブクラスの確率を出力することと、所定のフィッティング方法を用いて、セグメント化された複数のクラス及びセグメント化された境界を検証及び精緻化することと、物体の複数のクラスの誤分類を、複数のクラスにプリミティブをフィッティングすることによって訂正することとを含む命令を実行させる。

更にまた、本発明の実施形態によれば、マルチモデルプリミティブフィッティングを実行する画像処理方法は、物体を含む画像の点群をセグメンテーションネットワーク内に与えることと、セグメンテーションネットワークを用いて、点群を点ごとに物体の複数のクラスにセグメント化するとともに物体の境界を検出することであって、セグメンテーションネットワークは、セグメント化された複数のクラス及びセグメント化された境界に基づいて、物体の関連プリミティブクラスの確率を出力することと、所定のフィッティング方法を用いて、セグメント化された複数のクラス及びセグメント化された境界を検証及び精緻化することと、物体の複数のクラスの誤分類を、複数のクラスにプリミティブをフィッティングすることによって訂正することとを含む。

本発明の実施形態によるマルチモデルプリミティブフィッティングシステムのブロック図である。本発明の実施形態による、シミュレートされたテスト距離画像のプリミティブフィッティングを示す一例の図である。本発明の実施形態による、ＲＡＮＳＡＣを用いてシミュレートされたテスト距離画像のプリミティブフィッティングを示す一例の図である。本発明の実施形態による、推定された法線を示す一例の図である。本発明の実施形態による、ＢＩＡＳＦｉｔを用いてシミュレートされたテスト距離画像のプリミティブフィッティングを示す一例の図である。本発明の実施形態による、グラウンドトゥルースラベルを示す一例の図である。本発明の実施形態による、インスタンス認識セグメンテーション（境界認識セグメンテーション）を示す一例の図である。本発明の実施形態による、図２Ｅ及び図２Ｆにおいて用いられるプリミティブを表す例の図である。本発明の実施形態による、適切な形態の距離画像を示す一例の図である。本発明の実施形態による、セグメンテーションのための全層畳み込みニューラルネットワーク（ＣＮＮ）を示す図である。本発明の実施形態による、セグメンテーション確率マップを示す幾何学的検証を示す図である。本発明の実施形態による、フィッティングされたプリミティブを示す一例の図である。本発明の実施形態による、ランダムシーンのシミュレートされたＫｉｎｅｃｔスキャンを示す一例の図である。本発明の実施形態による、幾何学的セグメンテーション評価の一例の図である。本発明の実施形態による、幾何学的セグメンテーション評価の一例の図である。本発明の実施形態による、スキャンされたシーンの画像の一例の図である。本発明の実施形態による、セグメンテーション結果の一例の図である。本発明の実施形態による、フィッティングされたプリミティブを示す一例の図である。シミュレートされたテストセットを用いた、プリミティブフィッティングの評価結果の要約の図である。シミュレートされたテストセットを用いた、プリミティブフィッティングの評価結果の要約の図である。

ＣＮＮについて同じ可視化スタイルを用いることにする。ここで、各ブロックは同じ空間分解能を共有する層を意味し、ブロックの高さを減少させるのは空間分解能を半分に削減することを意味し、赤色の破線は損失計算を意味する。黒色の破線は、多重二項（multi-binomial）損失を用いた同時境界検出にのみ適用され、多重二項損失では、低レベルエッジ特徴量が、最終的な境界分類のためにスキップ連結される（skip-concatenated）場合に役立つことが期待される。プリミティブクラスｋごとの結果としてもたらされるセグメンテーション確率マップＹｋ（図３Ｃ、高い確率の方が色が暗い）が、幾何学的検証を通して送信され、プリミティブの対応するクラス（図３Ｃの下段）をフィッティングすることによって、いかなる誤分類も訂正される。最後に、フィッティングされたプリミティブが図３Ｄにおいて示されている。一般性を失うことなく、本開示は、４つの共通プリミティブ、すなわち、平面、球体、柱体、及び錐体にのみ着目する。

本発明のさまざまな実施形態が、図面を参照して以下で説明される。図面は縮尺どおり描かれておらず、類似の構造又は機能の要素は、図面全体にわたって同様の参照符号によって表されることに留意されたい。図面は、本発明の特定の実施形態の説明を容易にすることのみを意図することにも留意されたい。図面は、本発明の網羅的な説明として意図されるものでもなければ、本発明の範囲を限定するものとして意図されるものでもない。加えて、本発明の特定の実施形態と併せて説明される態様は、必ずしもその実施形態に限定されず、本発明の任意の他の実施形態において実施することができる。

本開示の実施形態は、監視された幾何学的セグメンテーションのために、シミュレートされたデータセットから点ごとのグラウンドトゥルースラベルを容易に取得する方法論を提示するとともに、実世界データセットに対して一般化するその能力を実証することができ、シミュレートされたデータセットをベンチマーク用に公開する。さらに、実施形態は、乱雑としたシーンの雑音のある距離画像に対して、ＲＡＮＳＡＣベースの方法よりも定性的かつ定量的に成果が上回る、マルチモデルプリミティブフィッティングのための新規フレームワークも提示する。いくつかの実施形態は、ＣＮＮのためのこの幾何学的セグメンテーションタスクを、いくつかの設計分析及び比較を交えて導入する。

視覚物体認識のためにシーン又は複雑な物体を単純な幾何学的プリミティブのセットに分解するという発想は、１９８０年代という早期にまで遡る。当時、Biedermanがコンポーネントごとの物体認識理論（object Recognition-By-Components theory）を提唱している。この理論では、プリミティブは「ジオン（geons）」と称されている。いくつかの現実のシーンは、「ジオン」の単純な組み合わせよりも複雑になる可能性があるものの、ロボティクスのために能率的にモデル化することができる有用なジオンが多数存在する。有用なジオンとはすなわち、人工の構造物における平面、柱体としてのユーティリティパイプライン、紙コップ等の家庭用品、そしてより興味深いことに、多くの場合に単純なプリミティブのアセンブリとしてのロボット自身である。自動走行する自動車からサービスロボットに至るまで、あらゆる種類のロボットの知能を向上するためのより良好な外部観察及び内部観察のためには、例えば、物体の姿勢及び形状を必要とするロボット操作、より良好なマッピング精度のためにプリミティブ（主に平面）を利用するＳＬＡＭ、複雑な機械部品をプリミティブとしてモデル化するリバースエンジニアリング、及び同様に建築物完成時情報モデリング（as-built Building Information Modeling）といった、雑音のある３Ｄセンサ入力からそうしたプリミティブをロバストに検出し、関連パラメータを正確に推定することが有益である。

このプリミティブフィッティング技法は、所与のプリミティブパラメータを用いて、点対プリミティブ（Ｐ２Ｐ：point-to-primitive）メンバーシップを、最近傍Ｐ２Ｐ距離によって求めることができ、その逆をロバスト推定によって求めることができる、という課題を含んでいる。この課題が生じるのは、複数の因子、すなわち、雑音のある点群（ひいては雑音のある法線推定）、同じ又は複数のプリミティブモデルの複数のインスタンスに起因した乱雑としたシーン、及びプリミティブライブラリによって説明されない背景点が一緒に存在する場合である。

図１は、本開示の実施形態による、ディープ幾何学境界及びインスタンス認識セグメンテーションを用いて画像内の物体のマルチモデルプリミティブフィッティングを実行する、マルチモデルプリミティブフィッティングシステム１００を示すブロック図である。

プリミティブフィッティングシステム１００は、少なくとも１つのＲＧＢ−Ｄカメラ１１１（深度カメラ）及びポインティングデバイス／媒体１１２に接続可能な入力／出力（Ｉ／Ｏ）インタフェースを備えるヒューマンマシンインタフェース（ＨＭＩ）１１０、マイクロフォン１１３、受信機１１４、送信機１１５、３Ｄセンサ１１６、全地球測位システム（ＧＰＳ）１１７、１つ以上のＩ／Ｏインタフェース１１８、プロセッサ１２０、ストレージデバイス１３０、メモリ１４０、ローカルエリアネットワーク及びインターネットネットワーク（図示せず）を含むネットワーク１５５を介して他のコンピュータ及びマップサーバに接続可能なネットワークインタフェースコントローラ１５０（ＮＩＣ）、ディスプレイデバイス１６５に接続されたディスプレイインタフェース１６０、撮像デバイス１７５に接続可能な撮像インタフェース１７０、印刷デバイス１８５に接続可能なプリンタインタフェース１８０を備えることができる。Ｉ／Ｏインタフェースを備えるＨＭＩ１１０は、アナログ／デジタル変換器及びデジタル／アナログ変換器を含むことができる。Ｉ／Ｏインタフェースを備えるＨＭＩ１１０は、無線インターネット接続又は無線ローカルエリアネットワークを介して、他の物体検出及び位置特定システム、他のコンピュータ又はマップサーバと通信することができる無線通信インタフェースを含むことができる。Ｉ／Ｏインタフェースを備えるＨＭＩ１１０は、ネットワーク１５５を介して他のコンピュータ及びマップサーバと通信することができる有線通信インタフェースを含むことができる。プリミティブフィッティングシステム１００は、電源１９０を備えることができる。電源１９０は、Ｉ／Ｏインタフェース１１８を介して外部電源（図示せず）から充電可能なバッテリーとすることができる。応用に応じて、電源１９０は、任意選択でプリミティブフィッティングシステム１００の外部に位置することができ、いくつかの部品を単一の部品内に予め統合することができる。

ＨＭＩ及びＩ／Ｏインタフェース１１０並びにＩ／Ｏインタフェース１１８は、とりわけ、コンピュータモニタ、カメラ、テレビジョン、プロジェクタ、又はモバイルデバイスを含む別のディスプレイデバイス（図示せず）に接続するように適合することができる。

プリミティブフィッティングシステム１００は、受信機１１４、又はネットワーク１５５を介してＮＩＣ１５０を用いて、電子テキスト／画像、マルチモデルプリミティブフィッティングのために割り当てられた３次元（３Ｄ）点を含む点群、及び音声データを含む文書を受信することができる。いくつかの事例では、３Ｄ点のサブセットに対する平均３Ｄ点が、マルチモデルプリミティブフィッティングのために割り当てられる。ストレージデバイス１３０は、セグメンテーションネットワーク１３１、トレーニングされたネットワーク（プログラムモジュール）１３２及び畳み込みニューラルネットワーク（ＣＮＮ）（プログラムモジュール）１３３を含み、ネットワーク１３１、１３２及び１３３のプログラムモジュールは、プログラムコードとしてストレージ１３０内に記憶することができる。ストレージ１３０内に記憶されたプログラムの命令をプロセッサ１２０を用いて実行することによって、マルチモデルプリミティブフィッティングは、実行することができる。さらに、ネットワーク１３１、１３２及び１３３のプログラムモジュールは、コンピュータ可読記録媒体（図示せず）に記憶することができ、これにより、プロセッサ１２０は、この媒体からプログラムモジュールをロードすることによって、３Ｄ点のマルチモデルプリミティブフィッティングをアルゴリズムに従って実行することができる。さらに、ポインティングデバイス／媒体１１２は、コンピュータ可読記録媒体上に記憶されたプログラムを読み出すモジュールを含むことができる。

センサ１１６を用いて点群データを取得することを開始するために、キーボード（図示せず）又はグラフィカルユーザインタフェース（ＧＵＩ）（図示せず）上に表示された開始コマンド、ポインティングデバイス／媒体１１２を用いて、又は、無線ネットワーク、若しくはマルチモデルプリミティブフィッティング３Ｄ点群のためにクラウドソーシングを可能にする他のコンピュータ１９５に接続されたネットワーク１５５を介して、命令をプリミティブフィッティングシステム１００に送信することができる。点群の取得は、ストレージ１３０内に記憶された事前インストール済みの従来の音声認識プログラムを用いて、マイクロフォン１１３によってユーザの音響信号を受信したことに応答して開始することができる。

プロセッサ１２０は、１つ以上のグラフィックス処理ユニット（ＧＰＵ）を含む複数のプロセッサとすることができる。ストレージ１３０は、マイクロフォン１１３を介して取得された音声信号を認識することができる音声認識アルゴリズム（図示せず）を含むことができる。

さらに、プリミティブフィッティングシステム１００は、システム設計要件に従って簡略化することができる。例えば、プリミティブフィッティングシステム１００は、少なくとも１つのＲＧＢ−Ｄカメラ１１１、インタフェース１１０、メモリ１４０と、セグメンテーションネットワーク１３１、トレーニングされたネットワーク１３２及び畳み込みニューラルネットワーク（ＣＮＮ）１３３を記憶するストレージ１３０とに関連するプロセッサ１２０、及び図中に示されている部分の他の組み合わせを備えることによって設計することができる。トレーニングされたネットワーク１３２は、Ｐ／Ｎ／ＰＮ（位置／法線／位置及び法線）、Ｐ／Ｎ／ＰＮ＋ＭＢ（多重二項）、Ｎ＋ＢＩＡＳ、Ｎ＋ＭＢ＋ＢＩＡＳ、Ｎ５、Ｎ５＋ＭＢ、Ｎ５＋ＢＩＡＳ及びＮ＋ＢＯによって示される畳み込みネットワークを含むことができる。

図２Ａは、本発明の実施形態による、シミュレートされたテスト距離画像のプリミティブフィッティングを示す一例を示している。図２Ｂは、ＲＡＮＳＡＣを用いてシミュレートされたテスト距離画像のプリミティブフィッティングを示す一例である。図２Ｃは、推定された法線を示す一例である。図２Ｄは、ＢＩＡＳＦｉｔを用いてシミュレートされたテスト距離画像のプリミティブフィッティングを示す一例を示している。

図２Ｅは、グラウンドトゥルースラベルを示す一例である。図２Ｆは、インスタンス認識セグメンテーション（境界認識セグメンテーション）を示す一例である。さらに、図２Ｇは、本発明の実施形態による、図２Ｅ及び図２Ｆにおいて用いられるプリミティブを表す例を示している。

この事例では、推定された法線（図２Ｃ）及びグラウンドトゥルースラベル（図２Ｅ）は、ＢＩＡＳＦｉｔにおける全層畳み込みセグメンテーションネットワークをトレーニングするために用いられる。テスト中、境界認識ひいてはインスタンス認識セグメンテーション（図２Ｆ）が予測され、幾何学的検証を通して送信されて、最終的なプリミティブ（ランダムに色付けされる）がフィッティングされる。ＢＩＡＳＦｉｔと比較して、ＲＡＮＳＡＣベースの方法は、プリミティブの見落とし及び誤検出（透明又はワイヤフレームとして示されている）をより多くもたらし、したがって魅力が乏しい視覚結果をもたらす。

フレームワーク
図３Ａ、図３Ｂ、図３Ｃ及び図３Ｄは、本発明の実施形態による、ＢＩＡＳＦｉｔフレームワークによるマルチモデルプリミティブフィッティングプロセスの視覚的概要図を示している。

図３Ａ〜図３Ｄは、ＣＮＮにおける幾何学的フィッティング誤差又は損失を明示的に全く用いないという点で、人間の視覚プロセスを模倣するこのフレームワークのフロントエンドを示している。図３Ｂは、本発明の実施形態による、セグメンテーションのための全層畳み込みニューラルネットワーク（ＣＮＮ）を示している。図３Ｂにおいて、距離画像の適切な形態、例えばその法線マップが、セグメンテーションのために全層畳み込みニューラルネットワークに入力される。ＣＮＮについて同じ可視化スタイルが用いられる。ここで、各ブロックは同じ空間分解能を共有する層を意味し、ブロックの高さを減少させるのは空間分解能を半分に削減することを意味し、赤色の破線は損失計算を意味する。黒色の破線は、多重二項損失を用いた同時境界検出にのみ適用され、多重二項損失では、低レベルエッジ特徴量が、最終的な境界分類のためにスキップ連結される場合に役立つことが期待される。プリミティブクラスｋごとの結果としてもたらされるセグメンテーション確率マップＹｋ（図３Ｃの上段、高い確率の方が色が暗い）が、幾何学的検証を通して送信され、プリミティブの対応するクラス（図３Ｃの下段）をフィッティングすることによって、いかなる誤分類も訂正される。

最後に、フィッティングされたプリミティブが図３Ｄにおいて示されている。一般性を失うことなく、本開示は、４つの共通プリミティブ、すなわち、平面、球体、柱体、及び錐体にのみ着目する。

その代わりに、本開示は、異なるプリミティブクラスに属する点をロバストに弁別することができるＣＮＮによって学習された安定した特徴量のセットを利用する。出力確率マップ（図３Ｃの上段）の１ピクセルの意味は、その点及びその近傍が特定のプリミティブクラスに見える程度として解釈することができる。ここで、近傍サイズはＣＮＮの受容野サイズである。このようなセグメンテーションマップは、より複雑なタスクにとって既に有用とすることができるが、ロバストなプリミティブフィッティングパイプラインのために、このセグメンテーションマップは、他の全ての画像セマンティックセグメンテーションと同様に、誤分類を必然的に含むので十分に信頼することができない。これにより、本発明者らの強力な事前知識、すなわち、そうしたプリミティブクラスの数学的定義を組み込んで、いかなる潜在的な分類誤差も訂正する幾何学的検証ステップが必要とされる。これと、通常はセグメンテーション性能を向上する画像セマンティックセグメンテーションにおけるＣＲＦ後処理ステップとの間で類推を行うことができるが、その一方で、この幾何学的セグメンテーションタスクの利点は、厳密な空間制約を、良好な初期セグメンテーションが与えられる場合、ＣＮＮセグメンテーション結果を訂正するために容易に適用することができる、ということである。

シミュレーションからのグラウンドトゥルース
本発明のセグメンテーションＣＮＮの詳細に入る前に、大半の現行技術水準の画像セマンティックセグメンテーション方法と同様、本発明のＣＮＮは監視（supervision）によってトレーニングされる必要があるため、まずトレーニングデータを準備するという課題に対処する必要がある。

本発明者らが知る限りにおいて、ＣＮＮについてこのような幾何学的プリミティブセグメンテーションタスクを導入するのは我々が第一人者であり、そのため、このタスクのために公開されている既存のデータセットは存在しない。画像セマンティックセグメンテーションの場合、グラウンドトゥルース生成のためにシミュレーションを用いる多数の努力が存在する。しかしながら、シミュレートされた画像と実世界の画像との間の類似度に影響を与える多数の変数を調整するという本質的な難しさに起因して、シミュレートされたデータにわたってトレーニングされたＣＮＮを実世界の画像に対して一般化するのは困難である。

しかしながら、本発明では幾何学的データのみを扱い、３Ｄ観測は環境変動に対して感度が相対的に低く、また、大半の３Ｄセンサの観測雑音モデルは十分に研究されているので、シミュレートされた３Ｄスキャンは、実世界のスキャンに非常に類似しており、その結果、シミュレートされたスキャンに対してトレーニングされたＣＮＮは、実世界のデータに対して良好に一般化することができる、と仮定する。これが真である場合、この幾何学的タスクのために、無限数の点ごとのグラウンドトゥルースをほとんど無料で入手することができる。

煩雑な手作業ラベル付けからは免れたものの、シミュレートされたスキャンが有意であるとともに、真のデータ変動を可能な限り網羅するように、プリミティブのランダムシーンレイアウトとスキャン姿勢との双方を生成する系統的な方法が依然として必要とされる。大抵は屋内環境に応用される、一般に普及しているＫｉｎｅｃｔのようなスキャナに起因して、屋内シーンのシミュレーションに着目することにする。これによって本発明のＢＩＡＳＦｉｔフレームワークが屋内状況のみに限定されないことに留意されたい。特定のタイプのシーン及びスキャナを所与として、ランダムシーン生成プロトコルを同様に調整することができるはずである。さらに、ＣＮＮは全体のシーンレイアウトに対して感度が比較的に低いと仮定する。より重要なことは、異なるプリミティブが互いに遮蔽及び交差する十分な事例をＣＮＮに示すことである。

したがって、各水平方向において１０メートルの範囲を有する部屋のようなシーンをランダムに生成することにする。テーブルの上面を表す上昇した水平面が、部屋の中心付近のランダムな位置に生成される。他のプリミティブが、複雑度を増すためにテーブルの上面付近に配置される。さらに、経験的に、柱体／錐体軸又は平面法線の向きは、実世界における水平方向又は鉛直方向によって支配される。したがって、このような向きにあるいくつかのプリミティブインスタンスが、完全にランダムなインスタンスに加えて作為的に生成される。平面については、２つの更なるディスク状平面が、データセットをより一般的にするために追加される。トレーニングセットをより現実的にするために、本発明のプリミティブライブラリによって実際には説明されない物体を表す、２つのＮＵＲＢＳ表面（図２Ｇにおけるクラス名「その他」）が追加される。既存のスキャナシミュレータであるＢｌｅｎｓｏｒを用いてＶＧＡサイズのＫｉｎｅｃｔのようなスキャンをシミュレーションした。ここで、クラス及びインスタンスＩＤは、レイトレーシングによって仮想スキャニングプロセス中に容易に取得することができる。雑音シグマパラメータを０．００５に設定したこと以外は、デフォルトのＫｉｎｅｃｔスキャナを採用した。シミュレートされた雑音を実際のＫｉｎｅｃｔ雑音モデルに合致するようにパラメータを入念に調整していないことに留意されたい。

実際、本発明のシミュレートされたスキャナは、実際のＫｉｎｅｃｔセンサよりもわずかに雑音のある点をもたらす。ランダムなスキャン姿勢を生成するために、仮想スキャナをまず「テーブル」の中心の回りに配置する。その後、カメラ視認方向を、［−π，π）〜［−π／６，π／２）の範囲にわたる、縦π／６及び横π／１２の区間のグリッドに対してサンプリングし、合計８１個の方向をもたらす結果となった。方向ごとに、［１．５，４］ｍの間の範囲にわたる、テーブルの中心までの２つの距離を一様にサンプリングした。

このようにして、シーンごとに合計１９２個のスキャン姿勢を取得する。最後に、［−π／２４，π／２４］の間の一様雑音を、水平及び鉛直の双方に各視認方向に追加した。図４は、本発明の実施形態による、ランダムシーンのシミュレートされたＫｉｎｅｃｔスキャンを示す一例である。図中、黒色のドットはスキャンされた点を表す。さらに、図４はこのようなスキャンのスクリーンショットを示している。全部で２０個のシーンをこのプロトコルに従って生成した。１８個のシーン、すなわち３４５６個のスキャンをトレーニング用に分割し、残りの２個のシーン、すなわち３８４個のスキャンを検証用に用いた。テストセットは、同様のプロトコルを通じて生成され、２０個のシーン（それぞれ３６個のスキャンを有する）を含む。無効な点をゼロ深度点に変換し、計算問題を回避したことに留意されたい。

境界及びインスタンス認識セグメンテーション
本発明のセグメンテーションネットワーク（図３Ａ）は、同じ基本ネットワークに従い、このネットワークは、セグメンテーション性能を向上するため軽微な変更を伴った１０１層ＲｅｓＮｅｔに基づく。セマンティックセグメンテーションＣＮＮアーキテクチャはアクティブに開発されているが、本発明の新たなタスクについて所与のベースネットワーク上で最高の性能を達成するために検討すべき設計選択肢がいくつか存在する。位置対法線入力。第１の設計選択は、入力表現についてである。３Ｄ幾何学的データを扱っているので、いずれの形態の入力をＣＮＮに供給すべきであるのか？単純な選択肢は、点位置を３チャネルテンソル入力として直接用いることである。結局、これは実際には本発明者らが入手した未処理データであり、ＣＮＮが十分に強力である場合、この入力形態から全てを学習することができるはずである。しかしながら、この入力形態を正規化する方法も、正規化すべきか否かも不明瞭である。

第２の選択肢は、推定された点ごとの単位法線を入力として用いることである。これも、図３Ａにおいて示されるような法線マップとして見るだけで正しいセグメンテーションをほとんど知覚することができるので、合理的である。さらに、このセグメンテーションは既に正規化されており、これにより、通常、より良好なＣＮＮトレーニングが可能になる。しかしながら、法線が雑音のある近傍点から推定されるので、前述の選択肢と比較して情報損失の懸念があり得る。そして、第３の選択肢は、最初の２つを組み合わせて６チャネル入力をもたらし、これを通じてＣＮＮが双方の利点から利益を受けることを望むことができる。

多項対多重二項損失
第２の設計問題は、いかなる種類の損失関数を用いるべきか？である。多くのセマンティックセグメンテーションＣＮＮは、ｓｏｆｔｍａｘ関数を通した多項交差エントロピー損失を選んでいる一方で、近年の研究は、不均衡なクラスを考慮する重みを有する、いくつかの特定のタスクについてより良好に成果を上げる自己平衡多重二項損失等の他の損失関数を見出している。本研究において、以下２つのタイプの損失関数、すなわち、１）従来の「ｓｏｆｔｍａｘ損失」と、２）ハイパーパラメータとしてクラス固有損失重みβ_ｋを有する多重二項損失

とを検討する。式中、Ｗは学習可能なパラメータであり、ｐはピクセルインデックスであり、

はグラウンドトゥルース二値画像であり、Ｙ_ｋはｋ番目のプリミティブクラス（ｋ∈［１,Ｋ］）のネットワーク予測確率マップであり、Ｉは入力データである。ｋは、トレーニングセット内のｋ番目のクラスの点の総数分の１に比例するように設定する。

別個対同時境界検出
同じプリミティブクラスの複数のインスタンスが互いに遮蔽又は交差している場合、理想的なプリミティブクラスセグメンテーションでさえも、これらのインスタンスを個々のセグメントに分割することができず、マルチインスタンスフィッティング問題が、幾何学的検証ステップにとって解くのが依然として望ましくないままになり、これにより、この幾何学的セグメンテーションの元来の目的が考慮されない。さらに、境界は、通常、推定された法線に関してより高い雑音を含み、これにより、法線を用いるプリミティブフィッティング（例えば、２点ベース柱体フィッティング）に悪影響を及ぼす可能性がある。この問題を軽減する１つの方法は、そのようなクラスターをインスタンス認識境界によってプリミティブインスタンスに切り分けることである。実際、そのようなステップを用いて、カテゴリ認識セグメンテーションから境界及びインスタンス認識セグメンテーションへと移行し、したがって本発明の方法をＢＩＡＳＦｉｔと命名する。これを実現するために、以下の２つの選択肢、１）インスタンス境界検出のためにのみ別個のネットワークをトレーニングするか、又は、２）プリミティブクラスと同時にセグメント化されるべき更なるクラスとして境界をトレーニングするかを有する。前者の方が、ネットワークは境界の特徴量のみを学習することに専念しているので、より良好な境界検出結果を有することが期待できるものの、パラメータがより多くなるとともに実行時間がより長くなるので明快さでは劣る解決策となる。したがって、多少の性能を犠牲にして後者の解決策を選ぶのが合理的である。

背景クラスの処理
ランダムシーンを生成する際、より現実的かつ困難なデータセットのために、４つのプリミティブクラスによって説明されない背景点をモデリングするＮＵＲＢＳを追加した。したがって、ＣＮＮにおいて背景点を適切に処理する必要がある。損失を計算する際に背景クラスを無視するべきなのか、又は、更なるクラスとして追加するべきなのか？

上記の設計問題の全てについて、実験に依拠して経験的に最高性能のものを選択する。

フィッティングによる検証
予測確率マップ｛Ｙ_ｋ｝を所与として、本ミッションを完遂するために、プリミティブ仮説を生成及び検証して正しい仮説のプリミティブパラメータをフィッティングする必要がある。仮説生成の１つの直接的な方法は、閾値処理することによってＢＩＡＳ出力｛Ｙ_ｋ｝を単にバイナリ化して接続された成分のセットを生成し、Ｙ_ｋから到来した成分についてのｋ番目のクラスのプリミティブを１つだけフィッティングすることである。

しかしながら、ＣＮＮが非最適な閾値によっていくつかの特定の重要な領域を誤って分類した場合、２つのインスタンスが接続される可能性があり、したがって、いくつかのインスタンスの準最適フィッティング又は誤検出につながる。さらに、完璧なＢＩＡＳ出力は、１つのインスタンスが遮蔽によっていくつかのより小さな部分に分割される（例えば、図２Ａにおける左上の柱体）という別の問題をもたらす可能性がある。そして、雑音のあるスキャンのより小さな領域においてフィッティングすると、通常、誤インスタンス拒否又は推定正解率の低下という結果をもたらす。本開示の核心をなす寄与は、この問題に対する新戦略としてＢＩＡＳＦｉｔの実現可能性を提案及び研究することであるので、この問題は、プリミティブフィッティングのために｛Ｙ_ｋ｝をより良好に利用するより系統的な方法を開発するという我々の今後の研究として残している。

本研究において、各点にわたって｛Ｙ_ｋ｝について標準的な「ａｒｇｍａｘ」予測に単に従い、Ｋ個のプリミティブクラスの各々に関連付けられた仮説点のＫ個の群を入手する。その後、マルチインスタンスプリミティブフィッティングのＫ倍を、ＲＡＮＳＡＣベースの方法を用いて解く。これについては、アルゴリズム１においてより形式的に説明されている。これは、ＢＩＡＳの目的を完全に挫折させるものではないことに留意されたい。元のＲＡＮＳＡＣベースの方法は、点群全体をパイプライン内に供給し、貪欲法でプリミティブを順次検出する。この方法は、比較的大きい物体を先に検出する傾向があるので、大きいプリミティブに近接した比較的小さいプリミティブを見逃すことが多い。なぜならば、特に正常値閾値が適切に設定されていない場合、比較的小さい物体のメンバー点が、比較的大きい物体の正常値として誤ってカウントされる可能性があるからである。ＢＩＡＳはこのような影響を軽減することができ、特にＲＡＮＳＡＣサンプリングから境界点を除去することによって、その性能を向上することが期待される。

プリミティブフィッティング評価
プリミティブ検出及びフィッティング正解率のための評価基準の適切なセットを設計することは容易ではなく、そのように設計した既存の研究もデータセットも、本発明者らは一切認知していない。異なるプリミティブフィッティング方法を包括的に評価、ひいては比較することは困難である。なぜならば、１）前述したように、遮蔽により、一般的に、単一のインスタンスが複数のプリミティブにフィッティングされ、両プリミティブはグラウンドトゥルースインスタンスに十分近接している場合があるからであり、２）そのような過検出が、雑音のあるデータに関する不適切な正常値閾値によっても引き起こされる可能性があるからである。

ピクセルごとの平均適合率（ＡＰ）と、点ごとの共通部分÷和集合（ＩｏＵ：intersection-over-union）の種々のレベル（５０％〜９０％）において合致するインスタンスのＡＰとが、画像ベースのインスタンスセグメンテーション問題を評価するために用いられる。しかしながら、この典型的なＩｏＵ範囲は、本発明の問題にとって不適切である。５０％を超えるＩｏＵは、真のインスタンスごとに、最大でも１つのフィッティングされたプリミティブが、合致し得ることを意味する。真のプリミティブを表す妥当なプリミティブをフィッティングするのに５０％を超える真の点は必要ではないので、この範囲は過度に厳格であり、多くの良好なフィットを誤って拒否する可能性がある。すなわち、５０％を超える真の点が他の誤ったフィットによって取られるか、又は、観測中、真のインスタンスが遮蔽され、それぞれ５０％未満の真の点を含む部分に分割される。結局、大きなＩｏＵは、良好なプリミティブフィッティングには不要である。

したがって、ＩｏＵは、この問題では共通部分÷真（ＩｏＴ：intersection-over-true）によって取って代わられる。これは、予測プリミティブの真の正常値の数÷真のインスタンスにおける点の総数を示している。したがって、予測プリミティブ及び真のインスタンスは、１）ＩｏＴ＞３０％、かつ、２）予測プリミティブが真のインスタンスと同じクラスを有する場合に合致する。これは、１つのインスタンスが最大３つの合致した予測結果を有することができることを示す。上記の合致基準に基づいて、合致したインスタンス（存在する場合）は、予測プリミティブごとに識別することができる。

これに対して、各真のインスタンスは、いくつかの最良の合致予測候補を有することができる。曖昧さを排除するために、最小フィット誤差を有する候補が最良の合致として選ばれる。公平性及び一貫性のため、フィッティング誤差は、真のインスタンスにおける全ての点を予測プリミティブに投影することによる、或るプリミティブに対する平均距離として定義される。合致するものが見つかると、プリミティブ平均適合率（ＰＡＰ）及びプリミティブ平均再現率（ＰＡＲ）を用いて、プリミティブ検出品質が定量化される。

式中、Ｎｐ２ｔは、合致した真のインスタンスを有する予測結果の数であり、Ｎｐは、予測プリミティブの総数であり、Ｎｔ２ｐは、最良の予測結果を有する真のインスタンスの数であり、Ｎｔは、真のインスタンスの総数であり、これらは全て、テストセット全体にわたってカウントされる。

幾何学的セグメンテーション実験
ネットワーク省略名。節ＩＶに挙げた設計問題に対する答えを探索するべく、本発明者らはいくつかのＣＮＮを設計し、その詳細を省略名とともに以下に掲載する。
Ｐ／Ｎ／ＰＮ。位置（Ｐ）、法線（Ｎ）、又は双方（ＰＮ）を入力として用い、多項損失関数によってトレーニングし、４チャネル相互排他的クラス確率マップを出力する基本ネットワーク（すなわち、各ピクセルの確率は合計すると１になる、Ｋ＝４）。背景クラス点（ＮＵＲＢＳ）は損失計算について無視される。
Ｐ／Ｎ／ＰＮ＋ＭＢ。上記の基本ネットワークと同じであるが、異なるのは、式（１）におけるような多重二項（ＭＢ）損失関数を用いてトレーニングし、４チャネル非相互排他的クラス確率マップを出力する、ということである（すなわち、各ピクセルの確率は、必ずしも合計して１になるとは限らず、それゆえに多重二項分類器である、Ｋ＝４）。
Ｎ＋ＢＩＡＳ。法線入力及びＢＩＡＳラベルを用いてトレーニングしたネットワーク（すなわち、インスタンス認識境界を更なるクラスとして一緒にトレーニングした、Ｋ＝５）。
Ｎ＋ＭＢ＋ＢＩＡＳ。Ｎ＋ＢＩＡＳと同じであるが、異なるのは、多重二項方式を用いてトレーニングした、ということである（Ｋ＝５）。
Ｎ５。基本ネットワークＮと同じであるが、異なるのは、背景クラスを損失計算に関与する更なるクラスとして扱う、ということである（Ｋ＝５）。
Ｎ５＋ＭＢ。Ｎ５と同じであるが、異なるのは、多重二項方式を用いてトレーニングした、ということである（Ｋ＝５）。
Ｎ５＋ＢＩＡＳ。Ｎ＋ＢＩＡＳと同じであるが、異なるのは、多重二項方式を用いてトレーニングした、ということである（すなわち、境界及びＮＵＲＢＳは、一緒にトレーニングされた２つの更なるクラスである、Ｋ＝６）。
Ｎ＋ＢＯ。Ｎと同じであるが、異なるのは、境界を検出するようにのみトレーニングした、ということである（すなわち、二値分類器、Ｋ＝２）。

実施態様例
Ｃａｆｆｅ及びＤｅｅｐＬａｂｖ２を用いて幾何学的セグメンテーションＣＮＮを実施した。法線は５×５窓を用いるＰＣＡによって推定した。位置入力を必要とするネットワークの場合、単位としてメートルを用いる。全てのピクセルが５×５窓における同一のインスタンスに属している（又は無効点を含む）わけではない場合に、インスタンス認識境界を計算した。トレーニング時間中には、入力データサイズを無作為に４４０×４４０に剪定し、一方、テスト時間中には、全ＶＧＡ分解能を用いた。本発明のネットワークを全て、検証セットに対して調整された以下のハイパーパラメータ、すなわち、５０回のトレーニングエポック（すなわち、１７２８０回の反復）、バッチサイズ１０、トレーニング終了まで０に向かって線形的に減少していく学習率０．１、モーメンタム０．９、重み減衰５ｅ−４を用いてトレーニングした。それぞれ１２ＧＢのメモリを有するいくつかのＮＶＩＤＩＡＴＩＴＡＮＸＧＰＵを用いて、２．５ＦＰＳテストフレームレートで、ネットワークをトレーニング及び評価した。

図５Ａ及び図５Ｂは、７２０個のシミュレートされたスキャンのテストセットに対する、全１２個のネットワークの評価結果の要約を示している。要約は以下のことを示している。
１）Ｐ／Ｎ／ＰＮの列を比較すると、法線入力が最高になるという結果になり、興味深いことに、法線と位置との双方の組み合わせを凌駕することが判明した。
これは、ネットワーク入力について位置データを正規化することの難しさが原因である可能性がある。
２）Ｐ／Ｎ／ＰＮ＋ＭＢの列を比較すると、標準的な多項損失が、多重二項損失よりも性能的に概ね上回ることが判明した。
３）ＮとＮ＋ＢＩＡＳとを比較すると、付加的な境界検出をセグメンテーションに追加しても、セグメンテーション性能に対する負の影響は非常に小さいものでしかないことが判明した。これは、セグメンテーションと境界検出との双方を実行するのに単一のネットワークを用いたので魅力的である。Ｎ＋ＢＩＡＳとＮ＋ＢＯとを更に比較すると、ＢＩＡＳが実際に、境界の検出のみを行うＮ＋ＢＯと比較して境界再現率を上昇させることが判明した。
４）Ｎ５とＮとを比較すると、背景クラスを無視することの影響は、有意な性能変化に関して非決定的であることが判明した。しかしながら、これは、規定のプリミティブライブラリによって説明可能に思われる領域のみに着目する以下のステップを可能にするので、背景クラスを一緒にトレーニングすることの利益を示唆している。
参考程度に、このタスクについて、近傍７×７若しくは３７×３７の法線又は主曲率を用いるＳＶＭを試したが、幾多のパラメータ調整を経て得られたピクセル単位正解率は最高でも６６％にすぎなかった。

現実のデータに対する一般化
図６Ａは、本発明の実施形態による、スキャンされたシーンの画像の一例である。図６Ｂは、本発明の実施形態による、セグメンテーション結果の一例であり、図６Ｃは、フィッティングされたプリミティブを示す一例である。シミュレートされたスキャナの雑音モデルを本発明者らの実際のＫｉｎｅｃｔスキャナに合致するように調整しなかったものの、図に示されたように、シミュレートされたスキャンを用いてトレーニングされたネットワークは、実世界のデータに対して非常に良好に一般化する。

プリミティブフィッティング実験
プリミティブをフィッティングするために、元の能率的ＲＡＮＳＡＣ（省略名ＥＲＡＮＳＡＣ：efficient RANSAC）実施態様を、本発明のベースライン方法として、及び、本発明の幾何学的検証のために用いた。実験の詳細。全てのプリミティブフィッティング実験について、ＥＲＡＮＳＡＣ性能を最大化するため、検証セットに対して調整された以下のパラメータ、すなわち、プリミティブごとの支持点の最小数１０００個、最大正常値距離０．０３ｍ、最大正常値角度偏差３０度（コンセンサススコアをカウントする場合）及び４５度（最終正常値セット拡張の場合）、見落とし確率１ｅ−４を用いた。シミュレートされたテストセットは、４０３３個の平面、１２５６個の球体、２３３８個の柱体、１９８２個の錐体、及び計９６０９個のプリミティブインスタンスを含む。それぞれのネットワークのセグメンテーションをアルゴリズム１に対する入力として用いて、プリミティブフィッティング結果を、シミュレートされたテストセットに対して評価した。図７Ａ及び図７Ｂは、ＥＲＡＮＳＡＣベースラインとともにプリミティブフィッティングの評価結果の要約を示している。この要約は以下のことを示している。
１）ＥＲＡＮＳＡＣ性能は、本発明者らの定性評価によると、ＢＩＡＳＦｉｔの大半の変形形態よりも大幅に下回っている。
２）Ｎ５関連の実験が最も高いＰＡＰスコアを受け取っており、これは、シーンの複雑度を大いに低減する背景クラスの認識及び除去に起因して合理的である。
３）平均フィッティング誤差に関して、Ｎ＋ＢＩＡＳ＜Ｎ、Ｎ５＋ＢＩＡＳ＜Ｎ５、Ｎ＋ＭＢ＋ＢＩＡＳ＜Ｎ＋ＭＢであり、これによって節Ｖ−Ａにおいて言及したＢＩＡＳの利益が強固にサポートされる。
４）Ｎ５＋ＢＩＡＳが、フィッティング前の背景と境界との除去によって、最小フィッティング誤差を獲得する。

本発明の上記の実施形態は数多くの方法のいずれかにおいて実現することができる。例えば、それらの実施形態は、ハードウェア、ソフトウェア又はその組み合わせを用いて実現することができる。ソフトウェアにおいて実現されるとき、そのソフトウェアコードは、単一のコンピュータ内に設けられるにしても、複数のコンピュータ間に分散されるにしても、任意の適切なプロセッサ、又はプロセッサの集合体において実行することができる。そのようなプロセッサは集積回路として実現することができ、集積回路コンポーネント内に１つ以上のプロセッサが含まれる。しかしながら、プロセッサは、任意の適切な構成の回路を用いて実現することができる。

また、本発明の実施形態は方法として具現することができ、その一例が提供されてきた。その方法の一部として実行される動作は、任意の適切な方法において順序化することができる。したがって、例示的な実施形態において順次の動作として示される場合であっても、例示されるのとは異なる順序において動作が実行される実施形態を構成することもでき、異なる順序は、いくつかの動作を同時に実行することを含むことができる。

請求項要素を変更するために特許請求の範囲において「第１の」、「第２の」のような序数の用語を使用することは、それだけで、或る請求項要素が別の請求項要素よりも優先度が高いこと、優位であること、若しくは上位にあることを、又は方法の動作が実行される時間的な順序を暗示するのではなく、請求項要素を区別するために、或る特定の名称を有する１つの請求項要素を（序数用語を使用しなければ）同じ名称を有する別の要素から区別するラベルとして単に使用される。

Claims

ネットワークを介してデータを送信及び受信するインタフェースと、
前記インタフェースに接続されたプロセッサと、
前記プロセッサによって実行可能な画像処理プログラムのモジュールを記憶するメモリと、
を備え、前記画像処理プログラムは、
物体の距離画像としての点群をセグメンテーションネットワーク内に与えることと、
前記セグメンテーションネットワークを用いて、前記点群を点ごとに前記物体の複数のクラスにセグメント化すると同時に前記物体の境界を検出することであって、前記セグメンテーションネットワークは、前記セグメント化された複数のクラス及び前記セグメント化された境界に基づいて、前記物体の関連プリミティブクラスの確率を出力することと、
所定のフィッティング方法を用いて、前記セグメント化された複数のクラス及び前記セグメント化された境界を検証及び精緻化することと、
前記物体の前記複数のクラスの誤分類を、前記複数のクラスにプリミティブをフィッティングすることによって訂正することと、
を含む動作を、前記プロセッサに実行させる、画像処理システム。
前記セグメンテーションネットワークは、前記物体の前記クラスと、前記物体の前記境界とを出力する、請求項１に記載のシステム。
前記画像は、前記物体を表す前記距離画像から計算された面法線マップである、請求項１に記載のシステム。
前記検証することは、前記画像を、モデルクラスに対応する所定の群に分割することと、ランダムサンプリングによって生成された仮説からプリミティブをフィッティングすることとの双方を含む、請求項３に記載のシステム。
前記セグメンテーションネットワークは、境界を前記セグメント化すること及び前記検出することの双方を実行する、請求項１に記載のシステム。
前記セグメンテーションネットワークは、前記プリミティブクラスを用いてトレーニングされた畳み込みニューラルネットワーク（ＣＮＮ）であり、前記プリミティブクラスは、前記物体の前記境界をセグメント化するために境界クラスを含む、請求項１に記載のシステム。
１つ以上のプロセッサによって実行可能な命令を含むプログラムを記憶する非一時的コンピュータ可読媒体であって、前記命令は、メモリに関連した前記１つ以上のプロセッサに、
物体の距離画像としての点群をセグメンテーションネットワーク内に与えることと、
前記セグメンテーションネットワークを用いて、前記点群を点ごとに前記物体の複数のクラスにセグメント化すると同時に前記物体の境界を検出することであって、前記セグメンテーションネットワークは、前記セグメント化された複数のクラス及び前記セグメント化された境界に基づいて、前記物体の関連プリミティブクラスの確率を出力することと、
所定のフィッティング方法を用いて、前記セグメント化された複数のクラス及び前記セグメント化された境界を検証及び精緻化することと、
前記物体の前記複数のクラスの誤分類を、前記複数のクラスにプリミティブをフィッティングすることによって訂正することと、
を含む命令を実行させる、非一時的コンピュータ可読媒体。
前記セグメンテーションネットワークは、前記物体の前記クラスと、前記物体の前記境界とを出力する、請求項７に記載の非一時的コンピュータ可読媒体。
前記画像は、前記物体を表す前記距離画像から計算された面法線マップである、請求項７に記載の非一時的コンピュータ可読媒体。
前記検証することは、前記画像を、モデルクラスに対応する所定の群に分割することと、ランダムサンプリングによって生成された仮説からプリミティブをフィッティングすることとの双方を含む、請求項９に記載の非一時的コンピュータ可読媒体。
前記セグメンテーションネットワークは、境界を前記セグメント化すること及び前記検出することの双方を実行する、請求項７に記載の非一時的コンピュータ可読媒体。
前記セグメンテーションネットワークは、前記プリミティブクラスを用いてトレーニングされた畳み込みニューラルネットワーク（ＣＮＮ）であり、前記プリミティブクラスは、前記物体の前記境界をセグメント化するために境界クラスを含む、請求項７に記載の非一時的コンピュータ可読媒体。
物体の距離画像としての点群をセグメンテーションネットワーク内に与えることと、
前記セグメンテーションネットワークを用いて、前記点群を点ごとに前記物体の複数のクラスにセグメント化すると同時に前記物体の境界を検出することであって、前記セグメンテーションネットワークは、前記セグメント化された複数のクラス及び前記セグメント化された境界に基づいて、前記物体の関連プリミティブクラスの確率を出力することと、
所定のフィッティング方法を用いて、前記セグメント化された複数のクラス及び前記セグメント化された境界を検証及び精緻化することと、
前記物体の前記複数のクラスの誤分類を、前記複数のクラスにプリミティブをフィッティングすることによって訂正することと、
を含む、マルチモデルプリミティブフィッティングを実行する画像処理方法。
前記セグメンテーションネットワークは、前記物体の前記クラスと、前記物体の前記境界とを出力する、請求項１３に記載の方法。
前記画像は、前記物体を表す前記距離画像から計算された面法線マップである、請求項１３に記載の方法。
前記検証することは、前記画像を、モデルクラスに対応する所定の群に分割することと、ランダムサンプリングによって生成された仮説からプリミティブをフィッティングすることとの双方を含む、請求項１５に記載の方法。
前記セグメンテーションネットワークは、境界を前記セグメント化すること及び前記検出することの双方を実行する、請求項１３に記載の方法。
前記セグメンテーションネットワークは、前記プリミティブクラスを用いてトレーニングされた畳み込みニューラルネットワーク（ＣＮＮ）であり、前記プリミティブクラスは、前記物体の前記境界をセグメント化するために境界クラスを含む、請求項１３に記載の方法。