JP2021504848A - 画像処理システム及び画像処理方法 - Google Patents

画像処理システム及び画像処理方法 Download PDF

Info

Publication number
JP2021504848A
JP2021504848A JP2020529658A JP2020529658A JP2021504848A JP 2021504848 A JP2021504848 A JP 2021504848A JP 2020529658 A JP2020529658 A JP 2020529658A JP 2020529658 A JP2020529658 A JP 2020529658A JP 2021504848 A JP2021504848 A JP 2021504848A
Authority
JP
Japan
Prior art keywords
classes
segmented
primitive
class
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020529658A
Other languages
English (en)
Other versions
JP6793885B1 (ja
Inventor
フェン、チェン
リ、デュアンシュン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6793885B1 publication Critical patent/JP6793885B1/ja
Publication of JP2021504848A publication Critical patent/JP2021504848A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

画像処理システムは、ネットワークを介してデータを送信及び受信するインタフェースと、インタフェースに接続されたプロセッサと、プロセッサによって実行可能な画像処理プログラムモジュールを記憶するメモリとを備え、画像処理プログラムは、動作をプロセッサに実行させる。動作は、物体を含む画像の点群をセグメンテーションネットワーク内に与えることと、セグメンテーションネットワークを用いて、点群を点ごとに物体の複数のクラスにセグメント化するとともに物体の境界を検出することであって、セグメンテーションネットワークは、セグメント化された複数のクラス及びセグメント化された境界に基づいて、物体の関連プリミティブクラスの確率を出力することと、所定のフィッティング方法を用いて、セグメント化された複数のクラス及びセグメント化された境界を検証及び精緻化することと、物体の複数のクラスの誤分類を、複数のクラスにプリミティブをフィッティングすることによって訂正することとを含む。

Description

本発明は、包括的には、マルチモデルプリミティブフィッティングのための装置及び方法に関し、より詳細には、ディープ幾何学的境界及びインスタンス認識セグメンテーション(boundary and instance aware segmentation)を用いたマルチモデルプリミティブフィッティングに関する。
関連技術の技術分野は、マルチモデルマルチインスタンス幾何学的プリミティブ(例えば、平面、柱体、球体、錐体等)を認識及びフィッティングすることによるリバースエンジニアリングにおけるものである。この問題に対する最も標準的な解決策は、RANSACベースの方法であり、この方法は、実際、雑音のある点(ひいては雑音のある法線推定)と、幾何学的プリミティブの複数のクラス及び/又は複数のインスタンスによって形成される乱雑としたシーンとを含む、複数の因子の組み合わせが原因で、フィッティング結果で劣ることが多く、こうした複数の因子は、RANSACベースの方法のロバスト性を妨げるものと広く知られている。他の方法は、ハフ変換又は大域的エネルギー最小化に基づくが、これも同様に上記の課題を抱えている。
雑音のある点群内で幾何学的プリミティブ(例えば、平面、球体、柱体、錐体)を識別及びフィッティングすることは、ロボティクス及びリバースエンジニアリング等の分野にとっては、困難でありながらも有益なタスクである。マルチモデルマルチインスタンスフィッティング問題として、このタスクはRANSACを含む種々の手法を用いて取り組まれてきたが、これらの手法は、実際には、劣ったモデルを、乱雑としたシーンの雑音のある入力にフィッティングしてしまうことが多い。対応する人間の認識プロセスに着想を得るとともに、ディープニューラルネットワークを用いた画像セマンティックセグメンテーションの近年の進歩から利益を得ることによって、本発明のいくつかの実施形態は、この問題に対処する新たなフレームワークとしてBIASFitを開示する。第1に、全層畳み込みニューラルネットワークを通して、入力点群が、いかなる幾何学的フィッティングも用いることなく、同時に検出されたインスタンス境界によって分割された複数のクラスに点ごとにセグメント化される。したがって、セグメントは、関連プリミティブクラスの確率推定を有するプリミティブ仮説として機能することができる。最後に、全ての仮説が、幾何学的検証を通して送信され、プリミティブをそれぞれフィッティングすることによって、いかなる誤分類も訂正される。いくつかの実施形態は、シミュレートされた距離画像を用いてトレーニングすることを開示し、これをシミュレートされた点群と実世界の点群との双方を用いてテストした。さらに、本発明のいくつかの実施形態は、定量的実験及び定性的実験がBIASFitの優位性を実証したことを提供する。
さらに、本発明のいくつかの実施形態は、マルチモデルマルチインスタンス幾何学的プリミティブ(例えば、平面、柱体、球体、錐体等)を認識及びフィッティングするのに畳み込みニューラルネットワーク(CNN)を用いることを可能にする。本発明のいくつかの実施形態は、入力点群を、同時に検出された幾何学的インスタンス境界によって分離された複数のプリミティブクラスにする幾何学的セグメンテーションを実行する。各セグメントは、その関連プリミティブクラスの確率推定を有するプリミティブ仮説として機能する。全ての仮説が幾何学的検証を通して送信され、プリミティブをそれぞれフィッティングすることによって、いかなる誤分類も訂正される。
本発明のいくつかの実施形態によれば、画像処理システムは、ネットワークを介してデータを送信及び受信するインタフェースと、インタフェースに接続されたプロセッサと、プロセッサによって実行可能な画像処理プログラムモジュールを記憶するメモリとを備え、画像処理プログラムは、物体の距離画像としての点群をセグメンテーションネットワーク内に与えることと、セグメンテーションネットワークを用いて、点群を点ごとに物体の複数のクラスにセグメント化すると同時に物体の境界を検出することであって、セグメンテーションネットワークは、セグメント化された複数のクラス及びセグメント化された境界に基づいて、物体の関連プリミティブクラスの確率を出力することと、所定のフィッティング方法を用いて、セグメント化された複数のクラス及びセグメント化された境界を検証及び精緻化することと、物体の複数のクラスの誤分類を、複数のクラスにプリミティブをフィッティングすることによって訂正することとを含む動作を、プロセッサに実行させる。
さらに、実施形態によれば、非一時的コンピュータ可読媒体は、1つ以上のプロセッサによって実行可能な命令を含むプログラムを記憶する非一時的コンピュータ可読媒体であって、命令は、メモリに関連した1つ以上のプロセッサに、物体を含む画像の点群をセグメンテーションネットワーク内に与えることと、セグメンテーションネットワークを用いて、点群を点ごとに物体の複数のクラスにセグメント化するとともに物体の境界を検出することであって、セグメンテーションネットワークは、セグメント化された複数のクラス及びセグメント化された境界に基づいて、物体の関連プリミティブクラスの確率を出力することと、所定のフィッティング方法を用いて、セグメント化された複数のクラス及びセグメント化された境界を検証及び精緻化することと、物体の複数のクラスの誤分類を、複数のクラスにプリミティブをフィッティングすることによって訂正することとを含む命令を実行させる。
更にまた、本発明の実施形態によれば、マルチモデルプリミティブフィッティングを実行する画像処理方法は、物体を含む画像の点群をセグメンテーションネットワーク内に与えることと、セグメンテーションネットワークを用いて、点群を点ごとに物体の複数のクラスにセグメント化するとともに物体の境界を検出することであって、セグメンテーションネットワークは、セグメント化された複数のクラス及びセグメント化された境界に基づいて、物体の関連プリミティブクラスの確率を出力することと、所定のフィッティング方法を用いて、セグメント化された複数のクラス及びセグメント化された境界を検証及び精緻化することと、物体の複数のクラスの誤分類を、複数のクラスにプリミティブをフィッティングすることによって訂正することとを含む。
本発明の実施形態によるマルチモデルプリミティブフィッティングシステムのブロック図である。 本発明の実施形態による、シミュレートされたテスト距離画像のプリミティブフィッティングを示す一例の図である。 本発明の実施形態による、RANSACを用いてシミュレートされたテスト距離画像のプリミティブフィッティングを示す一例の図である。 本発明の実施形態による、推定された法線を示す一例の図である。 本発明の実施形態による、BIASFitを用いてシミュレートされたテスト距離画像のプリミティブフィッティングを示す一例の図である。 本発明の実施形態による、グラウンドトゥルースラベルを示す一例の図である。 本発明の実施形態による、インスタンス認識セグメンテーション(境界認識セグメンテーション)を示す一例の図である。 本発明の実施形態による、図2E及び図2Fにおいて用いられるプリミティブを表す例の図である。 本発明の実施形態による、適切な形態の距離画像を示す一例の図である。 本発明の実施形態による、セグメンテーションのための全層畳み込みニューラルネットワーク(CNN)を示す図である。 本発明の実施形態による、セグメンテーション確率マップを示す幾何学的検証を示す図である。 本発明の実施形態による、フィッティングされたプリミティブを示す一例の図である。 本発明の実施形態による、ランダムシーンのシミュレートされたKinectスキャンを示す一例の図である。 本発明の実施形態による、幾何学的セグメンテーション評価の一例の図である。 本発明の実施形態による、幾何学的セグメンテーション評価の一例の図である。 本発明の実施形態による、スキャンされたシーンの画像の一例の図である。 本発明の実施形態による、セグメンテーション結果の一例の図である。 本発明の実施形態による、フィッティングされたプリミティブを示す一例の図である。 シミュレートされたテストセットを用いた、プリミティブフィッティングの評価結果の要約の図である。 シミュレートされたテストセットを用いた、プリミティブフィッティングの評価結果の要約の図である。
CNNについて同じ可視化スタイルを用いることにする。ここで、各ブロックは同じ空間分解能を共有する層を意味し、ブロックの高さを減少させるのは空間分解能を半分に削減することを意味し、赤色の破線は損失計算を意味する。黒色の破線は、多重二項(multi-binomial)損失を用いた同時境界検出にのみ適用され、多重二項損失では、低レベルエッジ特徴量が、最終的な境界分類のためにスキップ連結される(skip-concatenated)場合に役立つことが期待される。プリミティブクラスkごとの結果としてもたらされるセグメンテーション確率マップYk(図3C、高い確率の方が色が暗い)が、幾何学的検証を通して送信され、プリミティブの対応するクラス(図3Cの下段)をフィッティングすることによって、いかなる誤分類も訂正される。最後に、フィッティングされたプリミティブが図3Dにおいて示されている。一般性を失うことなく、本開示は、4つの共通プリミティブ、すなわち、平面、球体、柱体、及び錐体にのみ着目する。
本発明のさまざまな実施形態が、図面を参照して以下で説明される。図面は縮尺どおり描かれておらず、類似の構造又は機能の要素は、図面全体にわたって同様の参照符号によって表されることに留意されたい。図面は、本発明の特定の実施形態の説明を容易にすることのみを意図することにも留意されたい。図面は、本発明の網羅的な説明として意図されるものでもなければ、本発明の範囲を限定するものとして意図されるものでもない。加えて、本発明の特定の実施形態と併せて説明される態様は、必ずしもその実施形態に限定されず、本発明の任意の他の実施形態において実施することができる。
本開示の実施形態は、監視された幾何学的セグメンテーションのために、シミュレートされたデータセットから点ごとのグラウンドトゥルースラベルを容易に取得する方法論を提示するとともに、実世界データセットに対して一般化するその能力を実証することができ、シミュレートされたデータセットをベンチマーク用に公開する。さらに、実施形態は、乱雑としたシーンの雑音のある距離画像に対して、RANSACベースの方法よりも定性的かつ定量的に成果が上回る、マルチモデルプリミティブフィッティングのための新規フレームワークも提示する。いくつかの実施形態は、CNNのためのこの幾何学的セグメンテーションタスクを、いくつかの設計分析及び比較を交えて導入する。
視覚物体認識のためにシーン又は複雑な物体を単純な幾何学的プリミティブのセットに分解するという発想は、1980年代という早期にまで遡る。当時、Biedermanがコンポーネントごとの物体認識理論(object Recognition-By-Components theory)を提唱している。この理論では、プリミティブは「ジオン(geons)」と称されている。いくつかの現実のシーンは、「ジオン」の単純な組み合わせよりも複雑になる可能性があるものの、ロボティクスのために能率的にモデル化することができる有用なジオンが多数存在する。有用なジオンとはすなわち、人工の構造物における平面、柱体としてのユーティリティパイプライン、紙コップ等の家庭用品、そしてより興味深いことに、多くの場合に単純なプリミティブのアセンブリとしてのロボット自身である。自動走行する自動車からサービスロボットに至るまで、あらゆる種類のロボットの知能を向上するためのより良好な外部観察及び内部観察のためには、例えば、物体の姿勢及び形状を必要とするロボット操作、より良好なマッピング精度のためにプリミティブ(主に平面)を利用するSLAM、複雑な機械部品をプリミティブとしてモデル化するリバースエンジニアリング、及び同様に建築物完成時情報モデリング(as-built Building Information Modeling)といった、雑音のある3Dセンサ入力からそうしたプリミティブをロバストに検出し、関連パラメータを正確に推定することが有益である。
このプリミティブフィッティング技法は、所与のプリミティブパラメータを用いて、点対プリミティブ(P2P:point-to-primitive)メンバーシップを、最近傍P2P距離によって求めることができ、その逆をロバスト推定によって求めることができる、という課題を含んでいる。この課題が生じるのは、複数の因子、すなわち、雑音のある点群(ひいては雑音のある法線推定)、同じ又は複数のプリミティブモデルの複数のインスタンスに起因した乱雑としたシーン、及びプリミティブライブラリによって説明されない背景点が一緒に存在する場合である。
図1は、本開示の実施形態による、ディープ幾何学境界及びインスタンス認識セグメンテーションを用いて画像内の物体のマルチモデルプリミティブフィッティングを実行する、マルチモデルプリミティブフィッティングシステム100を示すブロック図である。
プリミティブフィッティングシステム100は、少なくとも1つのRGB−Dカメラ111(深度カメラ)及びポインティングデバイス/媒体112に接続可能な入力/出力(I/O)インタフェースを備えるヒューマンマシンインタフェース(HMI)110、マイクロフォン113、受信機114、送信機115、3Dセンサ116、全地球測位システム(GPS)117、1つ以上のI/Oインタフェース118、プロセッサ120、ストレージデバイス130、メモリ140、ローカルエリアネットワーク及びインターネットネットワーク(図示せず)を含むネットワーク155を介して他のコンピュータ及びマップサーバに接続可能なネットワークインタフェースコントローラ150(NIC)、ディスプレイデバイス165に接続されたディスプレイインタフェース160、撮像デバイス175に接続可能な撮像インタフェース170、印刷デバイス185に接続可能なプリンタインタフェース180を備えることができる。I/Oインタフェースを備えるHMI110は、アナログ/デジタル変換器及びデジタル/アナログ変換器を含むことができる。I/Oインタフェースを備えるHMI110は、無線インターネット接続又は無線ローカルエリアネットワークを介して、他の物体検出及び位置特定システム、他のコンピュータ又はマップサーバと通信することができる無線通信インタフェースを含むことができる。I/Oインタフェースを備えるHMI110は、ネットワーク155を介して他のコンピュータ及びマップサーバと通信することができる有線通信インタフェースを含むことができる。プリミティブフィッティングシステム100は、電源190を備えることができる。電源190は、I/Oインタフェース118を介して外部電源(図示せず)から充電可能なバッテリーとすることができる。応用に応じて、電源190は、任意選択でプリミティブフィッティングシステム100の外部に位置することができ、いくつかの部品を単一の部品内に予め統合することができる。
HMI及びI/Oインタフェース110並びにI/Oインタフェース118は、とりわけ、コンピュータモニタ、カメラ、テレビジョン、プロジェクタ、又はモバイルデバイスを含む別のディスプレイデバイス(図示せず)に接続するように適合することができる。
プリミティブフィッティングシステム100は、受信機114、又はネットワーク155を介してNIC150を用いて、電子テキスト/画像、マルチモデルプリミティブフィッティングのために割り当てられた3次元(3D)点を含む点群、及び音声データを含む文書を受信することができる。いくつかの事例では、3D点のサブセットに対する平均3D点が、マルチモデルプリミティブフィッティングのために割り当てられる。ストレージデバイス130は、セグメンテーションネットワーク131、トレーニングされたネットワーク(プログラムモジュール)132及び畳み込みニューラルネットワーク(CNN)(プログラムモジュール)133を含み、ネットワーク131、132及び133のプログラムモジュールは、プログラムコードとしてストレージ130内に記憶することができる。ストレージ130内に記憶されたプログラムの命令をプロセッサ120を用いて実行することによって、マルチモデルプリミティブフィッティングは、実行することができる。さらに、ネットワーク131、132及び133のプログラムモジュールは、コンピュータ可読記録媒体(図示せず)に記憶することができ、これにより、プロセッサ120は、この媒体からプログラムモジュールをロードすることによって、3D点のマルチモデルプリミティブフィッティングをアルゴリズムに従って実行することができる。さらに、ポインティングデバイス/媒体112は、コンピュータ可読記録媒体上に記憶されたプログラムを読み出すモジュールを含むことができる。
センサ116を用いて点群データを取得することを開始するために、キーボード(図示せず)又はグラフィカルユーザインタフェース(GUI)(図示せず)上に表示された開始コマンド、ポインティングデバイス/媒体112を用いて、又は、無線ネットワーク、若しくはマルチモデルプリミティブフィッティング3D点群のためにクラウドソーシングを可能にする他のコンピュータ195に接続されたネットワーク155を介して、命令をプリミティブフィッティングシステム100に送信することができる。点群の取得は、ストレージ130内に記憶された事前インストール済みの従来の音声認識プログラムを用いて、マイクロフォン113によってユーザの音響信号を受信したことに応答して開始することができる。
プロセッサ120は、1つ以上のグラフィックス処理ユニット(GPU)を含む複数のプロセッサとすることができる。ストレージ130は、マイクロフォン113を介して取得された音声信号を認識することができる音声認識アルゴリズム(図示せず)を含むことができる。
さらに、プリミティブフィッティングシステム100は、システム設計要件に従って簡略化することができる。例えば、プリミティブフィッティングシステム100は、少なくとも1つのRGB−Dカメラ111、インタフェース110、メモリ140と、セグメンテーションネットワーク131、トレーニングされたネットワーク132及び畳み込みニューラルネットワーク(CNN)133を記憶するストレージ130とに関連するプロセッサ120、及び図中に示されている部分の他の組み合わせを備えることによって設計することができる。トレーニングされたネットワーク132は、P/N/PN(位置/法線/位置及び法線)、P/N/PN+MB(多重二項)、N+BIAS、N+MB+BIAS、N5、N5+MB、N5+BIAS及びN+BOによって示される畳み込みネットワークを含むことができる。
図2Aは、本発明の実施形態による、シミュレートされたテスト距離画像のプリミティブフィッティングを示す一例を示している。図2Bは、RANSACを用いてシミュレートされたテスト距離画像のプリミティブフィッティングを示す一例である。図2Cは、推定された法線を示す一例である。図2Dは、BIASFitを用いてシミュレートされたテスト距離画像のプリミティブフィッティングを示す一例を示している。
図2Eは、グラウンドトゥルースラベルを示す一例である。図2Fは、インスタンス認識セグメンテーション(境界認識セグメンテーション)を示す一例である。さらに、図2Gは、本発明の実施形態による、図2E及び図2Fにおいて用いられるプリミティブを表す例を示している。
この事例では、推定された法線(図2C)及びグラウンドトゥルースラベル(図2E)は、BIASFitにおける全層畳み込みセグメンテーションネットワークをトレーニングするために用いられる。テスト中、境界認識ひいてはインスタンス認識セグメンテーション(図2F)が予測され、幾何学的検証を通して送信されて、最終的なプリミティブ(ランダムに色付けされる)がフィッティングされる。BIASFitと比較して、RANSACベースの方法は、プリミティブの見落とし及び誤検出(透明又はワイヤフレームとして示されている)をより多くもたらし、したがって魅力が乏しい視覚結果をもたらす。
フレームワーク
図3A、図3B、図3C及び図3Dは、本発明の実施形態による、BIASFitフレームワークによるマルチモデルプリミティブフィッティングプロセスの視覚的概要図を示している。
図3A〜図3Dは、CNNにおける幾何学的フィッティング誤差又は損失を明示的に全く用いないという点で、人間の視覚プロセスを模倣するこのフレームワークのフロントエンドを示している。図3Bは、本発明の実施形態による、セグメンテーションのための全層畳み込みニューラルネットワーク(CNN)を示している。図3Bにおいて、距離画像の適切な形態、例えばその法線マップが、セグメンテーションのために全層畳み込みニューラルネットワークに入力される。CNNについて同じ可視化スタイルが用いられる。ここで、各ブロックは同じ空間分解能を共有する層を意味し、ブロックの高さを減少させるのは空間分解能を半分に削減することを意味し、赤色の破線は損失計算を意味する。黒色の破線は、多重二項損失を用いた同時境界検出にのみ適用され、多重二項損失では、低レベルエッジ特徴量が、最終的な境界分類のためにスキップ連結される場合に役立つことが期待される。プリミティブクラスkごとの結果としてもたらされるセグメンテーション確率マップYk(図3Cの上段、高い確率の方が色が暗い)が、幾何学的検証を通して送信され、プリミティブの対応するクラス(図3Cの下段)をフィッティングすることによって、いかなる誤分類も訂正される。
最後に、フィッティングされたプリミティブが図3Dにおいて示されている。一般性を失うことなく、本開示は、4つの共通プリミティブ、すなわち、平面、球体、柱体、及び錐体にのみ着目する。
その代わりに、本開示は、異なるプリミティブクラスに属する点をロバストに弁別することができるCNNによって学習された安定した特徴量のセットを利用する。出力確率マップ(図3Cの上段)の1ピクセルの意味は、その点及びその近傍が特定のプリミティブクラスに見える程度として解釈することができる。ここで、近傍サイズはCNNの受容野サイズである。このようなセグメンテーションマップは、より複雑なタスクにとって既に有用とすることができるが、ロバストなプリミティブフィッティングパイプラインのために、このセグメンテーションマップは、他の全ての画像セマンティックセグメンテーションと同様に、誤分類を必然的に含むので十分に信頼することができない。これにより、本発明者らの強力な事前知識、すなわち、そうしたプリミティブクラスの数学的定義を組み込んで、いかなる潜在的な分類誤差も訂正する幾何学的検証ステップが必要とされる。これと、通常はセグメンテーション性能を向上する画像セマンティックセグメンテーションにおけるCRF後処理ステップとの間で類推を行うことができるが、その一方で、この幾何学的セグメンテーションタスクの利点は、厳密な空間制約を、良好な初期セグメンテーションが与えられる場合、CNNセグメンテーション結果を訂正するために容易に適用することができる、ということである。
シミュレーションからのグラウンドトゥルース
本発明のセグメンテーションCNNの詳細に入る前に、大半の現行技術水準の画像セマンティックセグメンテーション方法と同様、本発明のCNNは監視(supervision)によってトレーニングされる必要があるため、まずトレーニングデータを準備するという課題に対処する必要がある。
本発明者らが知る限りにおいて、CNNについてこのような幾何学的プリミティブセグメンテーションタスクを導入するのは我々が第一人者であり、そのため、このタスクのために公開されている既存のデータセットは存在しない。画像セマンティックセグメンテーションの場合、グラウンドトゥルース生成のためにシミュレーションを用いる多数の努力が存在する。しかしながら、シミュレートされた画像と実世界の画像との間の類似度に影響を与える多数の変数を調整するという本質的な難しさに起因して、シミュレートされたデータにわたってトレーニングされたCNNを実世界の画像に対して一般化するのは困難である。
しかしながら、本発明では幾何学的データのみを扱い、3D観測は環境変動に対して感度が相対的に低く、また、大半の3Dセンサの観測雑音モデルは十分に研究されているので、シミュレートされた3Dスキャンは、実世界のスキャンに非常に類似しており、その結果、シミュレートされたスキャンに対してトレーニングされたCNNは、実世界のデータに対して良好に一般化することができる、と仮定する。これが真である場合、この幾何学的タスクのために、無限数の点ごとのグラウンドトゥルースをほとんど無料で入手することができる。
煩雑な手作業ラベル付けからは免れたものの、シミュレートされたスキャンが有意であるとともに、真のデータ変動を可能な限り網羅するように、プリミティブのランダムシーンレイアウトとスキャン姿勢との双方を生成する系統的な方法が依然として必要とされる。大抵は屋内環境に応用される、一般に普及しているKinectのようなスキャナに起因して、屋内シーンのシミュレーションに着目することにする。これによって本発明のBIASFitフレームワークが屋内状況のみに限定されないことに留意されたい。特定のタイプのシーン及びスキャナを所与として、ランダムシーン生成プロトコルを同様に調整することができるはずである。さらに、CNNは全体のシーンレイアウトに対して感度が比較的に低いと仮定する。より重要なことは、異なるプリミティブが互いに遮蔽及び交差する十分な事例をCNNに示すことである。
したがって、各水平方向において10メートルの範囲を有する部屋のようなシーンをランダムに生成することにする。テーブルの上面を表す上昇した水平面が、部屋の中心付近のランダムな位置に生成される。他のプリミティブが、複雑度を増すためにテーブルの上面付近に配置される。さらに、経験的に、柱体/錐体軸又は平面法線の向きは、実世界における水平方向又は鉛直方向によって支配される。したがって、このような向きにあるいくつかのプリミティブインスタンスが、完全にランダムなインスタンスに加えて作為的に生成される。平面については、2つの更なるディスク状平面が、データセットをより一般的にするために追加される。トレーニングセットをより現実的にするために、本発明のプリミティブライブラリによって実際には説明されない物体を表す、2つのNURBS表面(図2Gにおけるクラス名「その他」)が追加される。既存のスキャナシミュレータであるBlensorを用いてVGAサイズのKinectのようなスキャンをシミュレーションした。ここで、クラス及びインスタンスIDは、レイトレーシングによって仮想スキャニングプロセス中に容易に取得することができる。雑音シグマパラメータを0.005に設定したこと以外は、デフォルトのKinectスキャナを採用した。シミュレートされた雑音を実際のKinect雑音モデルに合致するようにパラメータを入念に調整していないことに留意されたい。
実際、本発明のシミュレートされたスキャナは、実際のKinectセンサよりもわずかに雑音のある点をもたらす。ランダムなスキャン姿勢を生成するために、仮想スキャナをまず「テーブル」の中心の回りに配置する。その後、カメラ視認方向を、[−π,π)〜[−π/6,π/2)の範囲にわたる、縦π/6及び横π/12の区間のグリッドに対してサンプリングし、合計81個の方向をもたらす結果となった。方向ごとに、[1.5,4]mの間の範囲にわたる、テーブルの中心までの2つの距離を一様にサンプリングした。
このようにして、シーンごとに合計192個のスキャン姿勢を取得する。最後に、[−π/24,π/24]の間の一様雑音を、水平及び鉛直の双方に各視認方向に追加した。図4は、本発明の実施形態による、ランダムシーンのシミュレートされたKinectスキャンを示す一例である。図中、黒色のドットはスキャンされた点を表す。さらに、図4はこのようなスキャンのスクリーンショットを示している。全部で20個のシーンをこのプロトコルに従って生成した。18個のシーン、すなわち3456個のスキャンをトレーニング用に分割し、残りの2個のシーン、すなわち384個のスキャンを検証用に用いた。テストセットは、同様のプロトコルを通じて生成され、20個のシーン(それぞれ36個のスキャンを有する)を含む。無効な点をゼロ深度点に変換し、計算問題を回避したことに留意されたい。
境界及びインスタンス認識セグメンテーション
本発明のセグメンテーションネットワーク(図3A)は、同じ基本ネットワークに従い、このネットワークは、セグメンテーション性能を向上するため軽微な変更を伴った101層ResNetに基づく。セマンティックセグメンテーションCNNアーキテクチャはアクティブに開発されているが、本発明の新たなタスクについて所与のベースネットワーク上で最高の性能を達成するために検討すべき設計選択肢がいくつか存在する。位置対法線入力。第1の設計選択は、入力表現についてである。3D幾何学的データを扱っているので、いずれの形態の入力をCNNに供給すべきであるのか?単純な選択肢は、点位置を3チャネルテンソル入力として直接用いることである。結局、これは実際には本発明者らが入手した未処理データであり、CNNが十分に強力である場合、この入力形態から全てを学習することができるはずである。しかしながら、この入力形態を正規化する方法も、正規化すべきか否かも不明瞭である。
第2の選択肢は、推定された点ごとの単位法線を入力として用いることである。これも、図3Aにおいて示されるような法線マップとして見るだけで正しいセグメンテーションをほとんど知覚することができるので、合理的である。さらに、このセグメンテーションは既に正規化されており、これにより、通常、より良好なCNNトレーニングが可能になる。しかしながら、法線が雑音のある近傍点から推定されるので、前述の選択肢と比較して情報損失の懸念があり得る。そして、第3の選択肢は、最初の2つを組み合わせて6チャネル入力をもたらし、これを通じてCNNが双方の利点から利益を受けることを望むことができる。
多項対多重二項損失
第2の設計問題は、いかなる種類の損失関数を用いるべきか?である。多くのセマンティックセグメンテーションCNNは、softmax関数を通した多項交差エントロピー損失を選んでいる一方で、近年の研究は、不均衡なクラスを考慮する重みを有する、いくつかの特定のタスクについてより良好に成果を上げる自己平衡多重二項損失等の他の損失関数を見出している。本研究において、以下2つのタイプの損失関数、すなわち、1)従来の「softmax損失」と、2)ハイパーパラメータとしてクラス固有損失重みβを有する多重二項損失
Figure 2021504848
とを検討する。式中、Wは学習可能なパラメータであり、pはピクセルインデックスであり、
Figure 2021504848
はグラウンドトゥルース二値画像であり、Yはk番目のプリミティブクラス(k∈[1,K])のネットワーク予測確率マップであり、Iは入力データである。kは、トレーニングセット内のk番目のクラスの点の総数分の1に比例するように設定する。
別個対同時境界検出
同じプリミティブクラスの複数のインスタンスが互いに遮蔽又は交差している場合、理想的なプリミティブクラスセグメンテーションでさえも、これらのインスタンスを個々のセグメントに分割することができず、マルチインスタンスフィッティング問題が、幾何学的検証ステップにとって解くのが依然として望ましくないままになり、これにより、この幾何学的セグメンテーションの元来の目的が考慮されない。さらに、境界は、通常、推定された法線に関してより高い雑音を含み、これにより、法線を用いるプリミティブフィッティング(例えば、2点ベース柱体フィッティング)に悪影響を及ぼす可能性がある。この問題を軽減する1つの方法は、そのようなクラスターをインスタンス認識境界によってプリミティブインスタンスに切り分けることである。実際、そのようなステップを用いて、カテゴリ認識セグメンテーションから境界及びインスタンス認識セグメンテーションへと移行し、したがって本発明の方法をBIASFitと命名する。これを実現するために、以下の2つの選択肢、1)インスタンス境界検出のためにのみ別個のネットワークをトレーニングするか、又は、2)プリミティブクラスと同時にセグメント化されるべき更なるクラスとして境界をトレーニングするかを有する。前者の方が、ネットワークは境界の特徴量のみを学習することに専念しているので、より良好な境界検出結果を有することが期待できるものの、パラメータがより多くなるとともに実行時間がより長くなるので明快さでは劣る解決策となる。したがって、多少の性能を犠牲にして後者の解決策を選ぶのが合理的である。
背景クラスの処理
ランダムシーンを生成する際、より現実的かつ困難なデータセットのために、4つのプリミティブクラスによって説明されない背景点をモデリングするNURBSを追加した。したがって、CNNにおいて背景点を適切に処理する必要がある。損失を計算する際に背景クラスを無視するべきなのか、又は、更なるクラスとして追加するべきなのか?
上記の設計問題の全てについて、実験に依拠して経験的に最高性能のものを選択する。
フィッティングによる検証
予測確率マップ{Y}を所与として、本ミッションを完遂するために、プリミティブ仮説を生成及び検証して正しい仮説のプリミティブパラメータをフィッティングする必要がある。仮説生成の1つの直接的な方法は、閾値処理することによってBIAS出力{Y}を単にバイナリ化して接続された成分のセットを生成し、Yから到来した成分についてのk番目のクラスのプリミティブを1つだけフィッティングすることである。
しかしながら、CNNが非最適な閾値によっていくつかの特定の重要な領域を誤って分類した場合、2つのインスタンスが接続される可能性があり、したがって、いくつかのインスタンスの準最適フィッティング又は誤検出につながる。さらに、完璧なBIAS出力は、1つのインスタンスが遮蔽によっていくつかのより小さな部分に分割される(例えば、図2Aにおける左上の柱体)という別の問題をもたらす可能性がある。そして、雑音のあるスキャンのより小さな領域においてフィッティングすると、通常、誤インスタンス拒否又は推定正解率の低下という結果をもたらす。本開示の核心をなす寄与は、この問題に対する新戦略としてBIASFitの実現可能性を提案及び研究することであるので、この問題は、プリミティブフィッティングのために{Y}をより良好に利用するより系統的な方法を開発するという我々の今後の研究として残している。
本研究において、各点にわたって{Y}について標準的な「arg max」予測に単に従い、K個のプリミティブクラスの各々に関連付けられた仮説点のK個の群を入手する。その後、マルチインスタンスプリミティブフィッティングのK倍を、RANSACベースの方法を用いて解く。これについては、アルゴリズム1においてより形式的に説明されている。これは、BIASの目的を完全に挫折させるものではないことに留意されたい。元のRANSACベースの方法は、点群全体をパイプライン内に供給し、貪欲法でプリミティブを順次検出する。この方法は、比較的大きい物体を先に検出する傾向があるので、大きいプリミティブに近接した比較的小さいプリミティブを見逃すことが多い。なぜならば、特に正常値閾値が適切に設定されていない場合、比較的小さい物体のメンバー点が、比較的大きい物体の正常値として誤ってカウントされる可能性があるからである。BIASはこのような影響を軽減することができ、特にRANSACサンプリングから境界点を除去することによって、その性能を向上することが期待される。
Figure 2021504848
プリミティブフィッティング評価
プリミティブ検出及びフィッティング正解率のための評価基準の適切なセットを設計することは容易ではなく、そのように設計した既存の研究もデータセットも、本発明者らは一切認知していない。異なるプリミティブフィッティング方法を包括的に評価、ひいては比較することは困難である。なぜならば、1)前述したように、遮蔽により、一般的に、単一のインスタンスが複数のプリミティブにフィッティングされ、両プリミティブはグラウンドトゥルースインスタンスに十分近接している場合があるからであり、2)そのような過検出が、雑音のあるデータに関する不適切な正常値閾値によっても引き起こされる可能性があるからである。
ピクセルごとの平均適合率(AP)と、点ごとの共通部分÷和集合(IoU:intersection-over-union)の種々のレベル(50%〜90%)において合致するインスタンスのAPとが、画像ベースのインスタンスセグメンテーション問題を評価するために用いられる。しかしながら、この典型的なIoU範囲は、本発明の問題にとって不適切である。50%を超えるIoUは、真のインスタンスごとに、最大でも1つのフィッティングされたプリミティブが、合致し得ることを意味する。真のプリミティブを表す妥当なプリミティブをフィッティングするのに50%を超える真の点は必要ではないので、この範囲は過度に厳格であり、多くの良好なフィットを誤って拒否する可能性がある。すなわち、50%を超える真の点が他の誤ったフィットによって取られるか、又は、観測中、真のインスタンスが遮蔽され、それぞれ50%未満の真の点を含む部分に分割される。結局、大きなIoUは、良好なプリミティブフィッティングには不要である。
したがって、IoUは、この問題では共通部分÷真(IoT:intersection-over-true)によって取って代わられる。これは、予測プリミティブの真の正常値の数÷真のインスタンスにおける点の総数を示している。したがって、予測プリミティブ及び真のインスタンスは、1)IoT>30%、かつ、2)予測プリミティブが真のインスタンスと同じクラスを有する場合に合致する。これは、1つのインスタンスが最大3つの合致した予測結果を有することができることを示す。上記の合致基準に基づいて、合致したインスタンス(存在する場合)は、予測プリミティブごとに識別することができる。
これに対して、各真のインスタンスは、いくつかの最良の合致予測候補を有することができる。曖昧さを排除するために、最小フィット誤差を有する候補が最良の合致として選ばれる。公平性及び一貫性のため、フィッティング誤差は、真のインスタンスにおける全ての点を予測プリミティブに投影することによる、或るプリミティブに対する平均距離として定義される。合致するものが見つかると、プリミティブ平均適合率(PAP)及びプリミティブ平均再現率(PAR)を用いて、プリミティブ検出品質が定量化される。
Figure 2021504848
式中、Np2tは、合致した真のインスタンスを有する予測結果の数であり、Npは、予測プリミティブの総数であり、Nt2pは、最良の予測結果を有する真のインスタンスの数であり、Ntは、真のインスタンスの総数であり、これらは全て、テストセット全体にわたってカウントされる。
幾何学的セグメンテーション実験
ネットワーク省略名。節IVに挙げた設計問題に対する答えを探索するべく、本発明者らはいくつかのCNNを設計し、その詳細を省略名とともに以下に掲載する。
P/N/PN。位置(P)、法線(N)、又は双方(PN)を入力として用い、多項損失関数によってトレーニングし、4チャネル相互排他的クラス確率マップを出力する基本ネットワーク(すなわち、各ピクセルの確率は合計すると1になる、K=4)。背景クラス点(NURBS)は損失計算について無視される。
P/N/PN+MB。上記の基本ネットワークと同じであるが、異なるのは、式(1)におけるような多重二項(MB)損失関数を用いてトレーニングし、4チャネル非相互排他的クラス確率マップを出力する、ということである(すなわち、各ピクセルの確率は、必ずしも合計して1になるとは限らず、それゆえに多重二項分類器である、K=4)。
N+BIAS。法線入力及びBIASラベルを用いてトレーニングしたネットワーク(すなわち、インスタンス認識境界を更なるクラスとして一緒にトレーニングした、K=5)。
N+MB+BIAS。N+BIASと同じであるが、異なるのは、多重二項方式を用いてトレーニングした、ということである(K=5)。
N5。基本ネットワークNと同じであるが、異なるのは、背景クラスを損失計算に関与する更なるクラスとして扱う、ということである(K=5)。
N5+MB。N5と同じであるが、異なるのは、多重二項方式を用いてトレーニングした、ということである(K=5)。
N5+BIAS。N+BIASと同じであるが、異なるのは、多重二項方式を用いてトレーニングした、ということである(すなわち、境界及びNURBSは、一緒にトレーニングされた2つの更なるクラスである、K=6)。
N+BO。Nと同じであるが、異なるのは、境界を検出するようにのみトレーニングした、ということである(すなわち、二値分類器、K=2)。
実施態様例
Caffe及びDeepLabv2を用いて幾何学的セグメンテーションCNNを実施した。法線は5×5窓を用いるPCAによって推定した。位置入力を必要とするネットワークの場合、単位としてメートルを用いる。全てのピクセルが5×5窓における同一のインスタンスに属している(又は無効点を含む)わけではない場合に、インスタンス認識境界を計算した。トレーニング時間中には、入力データサイズを無作為に440×440に剪定し、一方、テスト時間中には、全VGA分解能を用いた。本発明のネットワークを全て、検証セットに対して調整された以下のハイパーパラメータ、すなわち、50回のトレーニングエポック(すなわち、17280回の反復)、バッチサイズ10、トレーニング終了まで0に向かって線形的に減少していく学習率0.1、モーメンタム0.9、重み減衰5e−4を用いてトレーニングした。それぞれ12GBのメモリを有するいくつかのNVIDIA TITAN X GPUを用いて、2.5FPSテストフレームレートで、ネットワークをトレーニング及び評価した。
図5A及び図5Bは、720個のシミュレートされたスキャンのテストセットに対する、全12個のネットワークの評価結果の要約を示している。要約は以下のことを示している。
1)P/N/PNの列を比較すると、法線入力が最高になるという結果になり、興味深いことに、法線と位置との双方の組み合わせを凌駕することが判明した。
これは、ネットワーク入力について位置データを正規化することの難しさが原因である可能性がある。
2)P/N/PN+MBの列を比較すると、標準的な多項損失が、多重二項損失よりも性能的に概ね上回ることが判明した。
3)NとN+BIASとを比較すると、付加的な境界検出をセグメンテーションに追加しても、セグメンテーション性能に対する負の影響は非常に小さいものでしかないことが判明した。これは、セグメンテーションと境界検出との双方を実行するのに単一のネットワークを用いたので魅力的である。N+BIASとN+BOとを更に比較すると、BIASが実際に、境界の検出のみを行うN+BOと比較して境界再現率を上昇させることが判明した。
4)N5とNとを比較すると、背景クラスを無視することの影響は、有意な性能変化に関して非決定的であることが判明した。しかしながら、これは、規定のプリミティブライブラリによって説明可能に思われる領域のみに着目する以下のステップを可能にするので、背景クラスを一緒にトレーニングすることの利益を示唆している。
参考程度に、このタスクについて、近傍7×7若しくは37×37の法線又は主曲率を用いるSVMを試したが、幾多のパラメータ調整を経て得られたピクセル単位正解率は最高でも66%にすぎなかった。
現実のデータに対する一般化
図6Aは、本発明の実施形態による、スキャンされたシーンの画像の一例である。図6Bは、本発明の実施形態による、セグメンテーション結果の一例であり、図6Cは、フィッティングされたプリミティブを示す一例である。シミュレートされたスキャナの雑音モデルを本発明者らの実際のKinectスキャナに合致するように調整しなかったものの、図に示されたように、シミュレートされたスキャンを用いてトレーニングされたネットワークは、実世界のデータに対して非常に良好に一般化する。
プリミティブフィッティング実験
プリミティブをフィッティングするために、元の能率的RANSAC(省略名ERANSAC:efficient RANSAC)実施態様を、本発明のベースライン方法として、及び、本発明の幾何学的検証のために用いた。実験の詳細。全てのプリミティブフィッティング実験について、ERANSAC性能を最大化するため、検証セットに対して調整された以下のパラメータ、すなわち、プリミティブごとの支持点の最小数1000個、最大正常値距離0.03m、最大正常値角度偏差30度(コンセンサススコアをカウントする場合)及び45度(最終正常値セット拡張の場合)、見落とし確率1e−4を用いた。シミュレートされたテストセットは、4033個の平面、1256個の球体、2338個の柱体、1982個の錐体、及び計9609個のプリミティブインスタンスを含む。それぞれのネットワークのセグメンテーションをアルゴリズム1に対する入力として用いて、プリミティブフィッティング結果を、シミュレートされたテストセットに対して評価した。図7A及び図7Bは、ERANSACベースラインとともにプリミティブフィッティングの評価結果の要約を示している。この要約は以下のことを示している。
1)ERANSAC性能は、本発明者らの定性評価によると、BIASFitの大半の変形形態よりも大幅に下回っている。
2)N5関連の実験が最も高いPAPスコアを受け取っており、これは、シーンの複雑度を大いに低減する背景クラスの認識及び除去に起因して合理的である。
3)平均フィッティング誤差に関して、N+BIAS<N、N5+BIAS<N5、N+MB+BIAS<N+MBであり、これによって節V−Aにおいて言及したBIASの利益が強固にサポートされる。
4)N5+BIASが、フィッティング前の背景と境界との除去によって、最小フィッティング誤差を獲得する。
本発明の上記の実施形態は数多くの方法のいずれかにおいて実現することができる。例えば、それらの実施形態は、ハードウェア、ソフトウェア又はその組み合わせを用いて実現することができる。ソフトウェアにおいて実現されるとき、そのソフトウェアコードは、単一のコンピュータ内に設けられるにしても、複数のコンピュータ間に分散されるにしても、任意の適切なプロセッサ、又はプロセッサの集合体において実行することができる。そのようなプロセッサは集積回路として実現することができ、集積回路コンポーネント内に1つ以上のプロセッサが含まれる。しかしながら、プロセッサは、任意の適切な構成の回路を用いて実現することができる。
また、本発明の実施形態は方法として具現することができ、その一例が提供されてきた。その方法の一部として実行される動作は、任意の適切な方法において順序化することができる。したがって、例示的な実施形態において順次の動作として示される場合であっても、例示されるのとは異なる順序において動作が実行される実施形態を構成することもでき、異なる順序は、いくつかの動作を同時に実行することを含むことができる。
請求項要素を変更するために特許請求の範囲において「第1の」、「第2の」のような序数の用語を使用することは、それだけで、或る請求項要素が別の請求項要素よりも優先度が高いこと、優位であること、若しくは上位にあることを、又は方法の動作が実行される時間的な順序を暗示するのではなく、請求項要素を区別するために、或る特定の名称を有する1つの請求項要素を(序数用語を使用しなければ)同じ名称を有する別の要素から区別するラベルとして単に使用される。

Claims (18)

  1. ネットワークを介してデータを送信及び受信するインタフェースと、
    前記インタフェースに接続されたプロセッサと、
    前記プロセッサによって実行可能な画像処理プログラムのモジュールを記憶するメモリと、
    を備え、前記画像処理プログラムは、
    物体の距離画像としての点群をセグメンテーションネットワーク内に与えることと、
    前記セグメンテーションネットワークを用いて、前記点群を点ごとに前記物体の複数のクラスにセグメント化すると同時に前記物体の境界を検出することであって、前記セグメンテーションネットワークは、前記セグメント化された複数のクラス及び前記セグメント化された境界に基づいて、前記物体の関連プリミティブクラスの確率を出力することと、
    所定のフィッティング方法を用いて、前記セグメント化された複数のクラス及び前記セグメント化された境界を検証及び精緻化することと、
    前記物体の前記複数のクラスの誤分類を、前記複数のクラスにプリミティブをフィッティングすることによって訂正することと、
    を含む動作を、前記プロセッサに実行させる、画像処理システム。
  2. 前記セグメンテーションネットワークは、前記物体の前記クラスと、前記物体の前記境界とを出力する、請求項1に記載のシステム。
  3. 前記画像は、前記物体を表す前記距離画像から計算された面法線マップである、請求項1に記載のシステム。
  4. 前記検証することは、前記画像を、モデルクラスに対応する所定の群に分割することと、ランダムサンプリングによって生成された仮説からプリミティブをフィッティングすることとの双方を含む、請求項3に記載のシステム。
  5. 前記セグメンテーションネットワークは、境界を前記セグメント化すること及び前記検出することの双方を実行する、請求項1に記載のシステム。
  6. 前記セグメンテーションネットワークは、前記プリミティブクラスを用いてトレーニングされた畳み込みニューラルネットワーク(CNN)であり、前記プリミティブクラスは、前記物体の前記境界をセグメント化するために境界クラスを含む、請求項1に記載のシステム。
  7. 1つ以上のプロセッサによって実行可能な命令を含むプログラムを記憶する非一時的コンピュータ可読媒体であって、前記命令は、メモリに関連した前記1つ以上のプロセッサに、
    物体の距離画像としての点群をセグメンテーションネットワーク内に与えることと、
    前記セグメンテーションネットワークを用いて、前記点群を点ごとに前記物体の複数のクラスにセグメント化すると同時に前記物体の境界を検出することであって、前記セグメンテーションネットワークは、前記セグメント化された複数のクラス及び前記セグメント化された境界に基づいて、前記物体の関連プリミティブクラスの確率を出力することと、
    所定のフィッティング方法を用いて、前記セグメント化された複数のクラス及び前記セグメント化された境界を検証及び精緻化することと、
    前記物体の前記複数のクラスの誤分類を、前記複数のクラスにプリミティブをフィッティングすることによって訂正することと、
    を含む命令を実行させる、非一時的コンピュータ可読媒体。
  8. 前記セグメンテーションネットワークは、前記物体の前記クラスと、前記物体の前記境界とを出力する、請求項7に記載の非一時的コンピュータ可読媒体。
  9. 前記画像は、前記物体を表す前記距離画像から計算された面法線マップである、請求項7に記載の非一時的コンピュータ可読媒体。
  10. 前記検証することは、前記画像を、モデルクラスに対応する所定の群に分割することと、ランダムサンプリングによって生成された仮説からプリミティブをフィッティングすることとの双方を含む、請求項9に記載の非一時的コンピュータ可読媒体。
  11. 前記セグメンテーションネットワークは、境界を前記セグメント化すること及び前記検出することの双方を実行する、請求項7に記載の非一時的コンピュータ可読媒体。
  12. 前記セグメンテーションネットワークは、前記プリミティブクラスを用いてトレーニングされた畳み込みニューラルネットワーク(CNN)であり、前記プリミティブクラスは、前記物体の前記境界をセグメント化するために境界クラスを含む、請求項7に記載の非一時的コンピュータ可読媒体。
  13. 物体の距離画像としての点群をセグメンテーションネットワーク内に与えることと、
    前記セグメンテーションネットワークを用いて、前記点群を点ごとに前記物体の複数のクラスにセグメント化すると同時に前記物体の境界を検出することであって、前記セグメンテーションネットワークは、前記セグメント化された複数のクラス及び前記セグメント化された境界に基づいて、前記物体の関連プリミティブクラスの確率を出力することと、
    所定のフィッティング方法を用いて、前記セグメント化された複数のクラス及び前記セグメント化された境界を検証及び精緻化することと、
    前記物体の前記複数のクラスの誤分類を、前記複数のクラスにプリミティブをフィッティングすることによって訂正することと、
    を含む、マルチモデルプリミティブフィッティングを実行する画像処理方法。
  14. 前記セグメンテーションネットワークは、前記物体の前記クラスと、前記物体の前記境界とを出力する、請求項13に記載の方法。
  15. 前記画像は、前記物体を表す前記距離画像から計算された面法線マップである、請求項13に記載の方法。
  16. 前記検証することは、前記画像を、モデルクラスに対応する所定の群に分割することと、ランダムサンプリングによって生成された仮説からプリミティブをフィッティングすることとの双方を含む、請求項15に記載の方法。
  17. 前記セグメンテーションネットワークは、境界を前記セグメント化すること及び前記検出することの双方を実行する、請求項13に記載の方法。
  18. 前記セグメンテーションネットワークは、前記プリミティブクラスを用いてトレーニングされた畳み込みニューラルネットワーク(CNN)であり、前記プリミティブクラスは、前記物体の前記境界をセグメント化するために境界クラスを含む、請求項13に記載の方法。
JP2020529658A 2018-03-06 2018-08-27 画像処理システム及び画像処理方法 Active JP6793885B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/912,738 2018-03-06
US15/912,738 US10410354B1 (en) 2018-03-06 2018-03-06 Method and apparatus for multi-model primitive fitting based on deep geometric boundary and instance aware segmentation
PCT/JP2018/032512 WO2019171628A1 (en) 2018-03-06 2018-08-27 Image processing system and image processing method

Publications (2)

Publication Number Publication Date
JP6793885B1 JP6793885B1 (ja) 2020-12-02
JP2021504848A true JP2021504848A (ja) 2021-02-15

Family

ID=63713978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020529658A Active JP6793885B1 (ja) 2018-03-06 2018-08-27 画像処理システム及び画像処理方法

Country Status (3)

Country Link
US (1) US10410354B1 (ja)
JP (1) JP6793885B1 (ja)
WO (1) WO2019171628A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK201970115A1 (en) 2018-11-08 2020-06-09 Aptiv Technologies Limited DEEP LEARNING FOR OBJECT DETECTION USING PILLARS
JP7378221B2 (ja) * 2019-04-17 2023-11-13 シャープ株式会社 画像処理装置、画像形成装置、画像読取装置、制御方法、コンピュータプログラム、および記録媒体
GB2621701A (en) * 2019-11-14 2024-02-21 Motional Ad Llc Sequential fusion for 3D object detection
CN111091580B (zh) * 2019-12-17 2023-03-14 浙江农林大学 一种基于改进ResNet-UNet网络的立木图像分割方法
JP7339185B2 (ja) * 2020-03-04 2023-09-05 株式会社奥村組 屋外構造物部位特定装置、屋外構造物部位特定方法および屋外構造物部位特定プログラム
US11417063B2 (en) * 2020-09-01 2022-08-16 Nvidia Corporation Determining a three-dimensional representation of a scene
CN112328544B (zh) * 2020-09-18 2022-01-11 广州中望龙腾软件股份有限公司 一种多学科仿真数据分类方法、设备及存储介质
CN116783620A (zh) * 2020-11-16 2023-09-19 伟摩有限责任公司 根据点云的高效三维对象检测
KR102504405B1 (ko) 2021-11-26 2023-02-28 한국생산기술연구원 객체 어포던스 시각화를 통한 작업 가이드라인을 생성하는 사용자 인터페이스 제공 방법 및 그 시스템
CN117635810A (zh) * 2022-08-17 2024-03-01 北京字跳网络技术有限公司 立体模型处理方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170287137A1 (en) * 2016-03-31 2017-10-05 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4320451A (en) * 1974-04-19 1982-03-16 Honeywell Information Systems Inc. Extended semaphore architecture
US8004517B1 (en) * 2005-06-24 2011-08-23 Geomagic, Inc. Methods, apparatus and computer program products that model three-dimensional surface structures
US8675951B2 (en) * 2007-05-11 2014-03-18 Three Pixels Wide Pty Ltd. Method and system for generating a 3D model
US20180107940A1 (en) * 2010-04-27 2018-04-19 Jeremy Lieberman Artificial intelligence method and apparatus
US8700620B1 (en) * 2010-04-27 2014-04-15 Jeremy Lieberman Artificial intelligence method and apparatus
US8605093B2 (en) * 2010-06-10 2013-12-10 Autodesk, Inc. Pipe reconstruction from unorganized point cloud data
US9436987B2 (en) * 2014-04-30 2016-09-06 Seiko Epson Corporation Geodesic distance based primitive segmentation and fitting for 3D modeling of non-rigid objects from 2D images
WO2016195698A1 (en) * 2015-06-05 2016-12-08 Siemens Aktiengesellschaft Method and system for simultaneous scene parsing and model fusion for endoscopic and laparoscopic navigation
US10311302B2 (en) 2015-08-31 2019-06-04 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery
GB2562924B (en) 2015-12-14 2021-05-19 Motion Metrics Int Corp Method and apparatus for identifying fragmented material portions within an image
US20190156202A1 (en) 2016-05-02 2019-05-23 Scopito Aps Model construction in a neural network for object detection
GB2554633B (en) 2016-06-24 2020-01-22 Imperial College Sci Tech & Medicine Detecting objects in video data
US10078790B2 (en) * 2017-02-16 2018-09-18 Honda Motor Co., Ltd. Systems for generating parking maps and methods thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170287137A1 (en) * 2016-03-31 2017-10-05 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AUSTIN MYERS ET AL.: ""Affordance Detection of Tool Parts from Geometric Features"", 2015 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA), JPN6020038836, 26 May 2015 (2015-05-26), US, pages 1374 - 1381, ISSN: 0004365363 *
DIRK HOLZ ET AL.: ""Fast Range Image Segmentation and Smoothing using Approximate Surface Reconstruction and Region Gro", PROCEEDINGS OF THE 12TH INTERNATIONAL CONFERENCE ON INTELLIGENT AUTONOMOUS SYSTEMS (IAS), vol. 2, JPN7020003244, 26 June 2012 (2012-06-26), DE, pages 1 - 6, XP055524678, ISSN: 0004365364 *
脇田 志郎、青野 雅樹: ""突起形状に着目した3次元モデルのセグメンテーション"", 映像情報メディア学会技術報告, vol. 35, no. 9, JPN6020038833, 14 February 2011 (2011-02-14), JP, pages 215 - 220, ISSN: 0004365362 *

Also Published As

Publication number Publication date
WO2019171628A1 (en) 2019-09-12
US20190279368A1 (en) 2019-09-12
US10410354B1 (en) 2019-09-10
JP6793885B1 (ja) 2020-12-02

Similar Documents

Publication Publication Date Title
JP6793885B1 (ja) 画像処理システム及び画像処理方法
US11618438B2 (en) Three-dimensional object localization for obstacle avoidance using one-shot convolutional neural network
CN108805170B (zh) 形成用于全监督式学习的数据集
US11176423B2 (en) Edge-based adaptive machine learning for object recognition
US10497145B2 (en) System and method for real-time large image homography processing
JP2020042816A (ja) 物体検出方法、装置、機器、記憶媒体及び車両
US10762644B1 (en) Multiple object tracking in video by combining neural networks within a bayesian framework
CN113056743A (zh) 训练神经网络以用于车辆重新识别
US20200410338A1 (en) Multimodal data learning method and device
KR102252439B1 (ko) 이미지에서 오브젝트 검출 및 표현
US8542912B2 (en) Determining the uniqueness of a model for machine vision
JP2013242757A (ja) 画像処理装置及び画像処理方法、並びにコンピューター・プログラム
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
JP7031685B2 (ja) モデル学習装置、モデル学習方法及びコンピュータプログラム
WO2022134842A1 (zh) 一种建筑特征的识别方法及装置
US8542905B2 (en) Determining the uniqueness of a model for machine vision
US10937150B2 (en) Systems and methods of feature correspondence analysis
CN112861809B (zh) 基于多目标视频分析的课堂抬头检测系统及其工作方法
KR20230036327A (ko) 패치기반의 딥러닝 알고리즘을 통한 실내도면 이미지에서의 실내공간정보 자동추출방법 및 그 장치
CN115205806A (zh) 生成目标检测模型的方法、装置和自动驾驶车辆
Kourbane et al. Skeleton-aware multi-scale heatmap regression for 2D hand pose estimation
CN114200934A (zh) 机器人目标跟随控制方法、装置、电子设备和存储介质
CN111815658B (zh) 一种图像识别方法及装置
CN107562050B (zh) 一种机器人识别环境的方法及系统
Li et al. Primitive fitting using deep boundary aware geometric segmentation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200529

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200529

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200529

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201110

R150 Certificate of patent or registration of utility model

Ref document number: 6793885

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250