JP7115846B2 - マルコフ・ランダム・フィールド最適化を使用するセグメント化された画像の生成 - Google Patents

マルコフ・ランダム・フィールド最適化を使用するセグメント化された画像の生成 Download PDF

Info

Publication number
JP7115846B2
JP7115846B2 JP2017245011A JP2017245011A JP7115846B2 JP 7115846 B2 JP7115846 B2 JP 7115846B2 JP 2017245011 A JP2017245011 A JP 2017245011A JP 2017245011 A JP2017245011 A JP 2017245011A JP 7115846 B2 JP7115846 B2 JP 7115846B2
Authority
JP
Japan
Prior art keywords
pixel
image
scene
images
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017245011A
Other languages
English (en)
Other versions
JP2018109970A (ja
Inventor
メーア エロワ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes SE
Original Assignee
Dassault Systemes SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP16306860.4A external-priority patent/EP3343507B1/en
Priority claimed from EP16306861.2A external-priority patent/EP3343504B1/en
Application filed by Dassault Systemes SE filed Critical Dassault Systemes SE
Publication of JP2018109970A publication Critical patent/JP2018109970A/ja
Application granted granted Critical
Publication of JP7115846B2 publication Critical patent/JP7115846B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image

Description

本発明は、コンピュータビジョンの分野に関し、より詳細には、物理信号データの画像獲得に基づいてシーンについてのセグメント化された画像を生成することに関連する方法、システム、およびプログラムに関する。
オブジェクトの設計、エンジニアリング、および製造のための数々のシステムおよびプログラムが、市場に提供されている。CADは、Computer-Aided Design(コンピュータ支援設計)の頭字語であり、例えば、それは、オブジェクトを設計するためのソフトウェアソリューションに関連する。CAEは、Computer-Aided Engineering(コンピュータ支援エンジニアリング)の頭字語であり、例えば、それは、将来の製品の物理的な挙動をシミュレートするためのソフトウェアソリューションに関連する。CAMは、Computer-Aided Manufacturing(コンピュータ支援製造)の頭字語であり、例えば、それは、製造プロセスおよび操作を定義するためのソフトウェアソリューションに関連する。そのようなコンピュータ支援設計システムにおいては、技法の効率性に関して、グラフィカルユーザインターフェースが、重要な役割を演じる。これらの技法は、製品ライフサイクル管理(PLM:Product Lifecycle Management)システム内に組み込まれてよい。PLMとは、会社が、製品の開発のために、構想からそれらの寿命が尽きるまで、エクステンデッドエンタープライズという概念にわたって、製品データを共有し、共通プロセスを適用し、企業知識を利用することを助けるビジネス戦略である。Dassault Systemesによって(CATIA、ENOVIA、およびDELMIAという商標の下で)提供されるPLMソリューションは、製品エンジニアリング知識を組織化するエンジニアリングハブと、製品エンジニアリング知識を管理するマニュファクチャリングハブと、エンジニアリングハブおよびマニュファクチャリングハブの両方への事業統合および接続を可能にするエンタープライズハブとを提供する。すべてが一緒になって、システムは、ダイナミックな知識ベースの製品作成と、最適化された製品定義、製造準備、製造、およびサービスを推進する決定支援とを可能にするための、製品、プロセス、リソースを結び付けるオープンオブジェクトモデルを生み出す。
3次元(3D)形状は、サーフェス(surface)ベースおよびボリュメトリック(voumetric)として表されることができる。サーフェスベースの表現においては、3Dジオメトリ(geometric)は、閉曲面または開曲面によって定義される。サーフェスは、3D点である頂点を有する三角形から構成されることができる。サーフェスベースの表現は、CAD/CAMにおいて、およびコンピュータ情報において一般的である。ボリュメトリック表現においては、3D形状は、ボクセルグリッド内に記憶された値によって3D空間上で連続的または区分的に定義された、関数f(x,y,z)によって定義される。3Dジオメトリは、その場合、関数のある値を満足する空間内の領域としてさらに定義される。一般に、f(x,y,z)が、スカラ値を有する場合、形状は、f(x,y,z)<s(またはf(x,y,z)>s)として定義され、ただし、sは、適切な閾値である。ボリュメトリック表現は、医療アプリケーション、特に、コンピュータ断層撮影法において一般的である。特別なケースとして、領域は、下限と上限との間の狭いバンドであるとして定義されてよく、そのケースにおいては、定義は、sを中心とする幅2wの狭いバンドを表す、s-w<f(x,y,z)<s+wであってよい。
画像セグメント化は、画像、例えば、2次元(2D)画像または3D仮想オブジェクトなどの3D画像をゾーンに分ける。例えば、屋内で撮影されたオブジェクトの2D画像においては、画像セグメント化は、床を表す画像の部分を識別することと、その部分を、家具、壁など、画像の他の特徴から隔離することとを含むことができる。人間を表す3D仮想オブジェクトにおいては、セグメント化は、衣服を素肌から弁別すること、または腕を胴体から弁別することを含むことができる。
セグメント化は、多くの画像分析タスクにおいて利用されることができる。例えば、交通制御システムについては、道路沿いのカメラに結合されたコンピュータは、セグメント化を利用して、通過車両を識別し、台数を数えることができる。同様に、監視システムにおいては、画像セグメント化は、画像内の人間の姿を識別し、関節および手足の場所を特定することができ、それは、侵入者の識別を容易化することができる。画像からの3D形状の再構成も、例えば、再構成がオブジェクトの意味的に重要な部分を識別することを含むときは、セグメント化を利用することができる。
ほとんどの既存のソリューションにおいては、セグメント化は、色(例えば、赤-緑-青(RGB))データと、任意選択で深度データとを含む、画像データに対して実行される。深度データは、ピクセル毎に、センサからの距離を表す。深度データは、Microsoft Kinect(登録商標)、Asus Xtion(商標)、またはGoogle Tango(商標)など、利用可能なデバイスを使用してキャプチャされることができる。
こうした状況において、コンピュータビジョン、特に画像セグメント化を改善する必要性が、依然として存在する。
"Ziegler et al.,3D Reconstruction Using Labeled Image Regions" "Leung et al.,3D Reconstruction through Segmentation of Multi-View Image Sequences" "Kuo et al.,3D Reconstruction with Automatic Foreground Segmentation from Multi-View images Acquired from a Mobile Device" "Kundu et al.,Joint Semantic Segmentation and 3D Reconstruction from Monocular Video",In ECCV 2014" "Hane et al.,Joint 3d scene reconstruction and class segmentation",in CVPR 2013" "Yucer et al.,Efficient 3D Object Segmentation from Densely Sampled Light Fields with Applications to 3D Reconstruction",in ACM Transactions on Graphics" "Prisacariu et al.,Simultaneous Monocular 2D Segmentation, 3D Pose Recovery and 3D Reconstruction",In ACCV 2012" "Herbst et al.,Toward Online 3-D Object Segmentation and Mapping",In ICRA 2014" Rother et al."GrabCut-Interactive Foreground Extraction using Iterated Graph Cuts"SIGGRAPH,2004 Li,"Markov Random Field Modeling in Image Analysis",Advances in Pattern Recognition,2009 "Anh Vu Le,Seung-Won Jung,and Chee Sun Won:Directional Joint Bilateral Filter for Depth Images,In Sensors Journal 2014 11362-11378" "Andrew Y Ng,Michael I Jordan,Yair Weiss,et al,On spectral clustering:Analysis and an algorithm,in Advances in neural information processing systems,2:849-856,2002" "Simon J.D.Prince,Computer Vision:Models,Learning,and Inference,in Cambridge University Press,chapter 7,section 4" "J. Kappes et al,A Comparative Study of Modern Inference Techniques for Discrete Minimization Problems,in CVPR 2013"
したがって、シーンのセグメント化された画像を生成するコンピュータ実施方法が、提供される。セグメント化された画像はピクセルを含み、各ピクセルはセグメントのセットのそれぞれ1つに割り当てられる。本方法は、シーンの複数の画像を提供するステップを含む。各画像は物理信号のそれぞれの獲得に対応する。複数の画像は異なる物理信号に対応する少なくとも2つの画像を含む。本方法は、複数の画像に基づいて、セグメント化された画像を生成するステップも含む。セグメント化された画像の生成は、マルコフ・ランダム・フィールド(MRF:Markov Random Field)グラフ上で定義された、エネルギーを最小化する、ラベルの分布を決定することによって実行される。MRFグラフは、ノードおよびエッジを含む。各ノードは、それぞれのピクセルに対応しおよびそれぞれのラベルに関連付けられる。各エッジは、所定の閾値を下回る距離を有するピクセルのそれぞれのペアに対応する。ラベルは、ピクセルをセグメントのセットのそれぞれ1つに割り当てるすべての異なる割り当てに対応する。エネルギーは、エッジに対応するピクセルのペアを、異なるセグメントに対する割り当てすることにペナルティを賦課する平滑化項を含む。任意の所与のペアに対するペナルティ賦課は、所与のペアのピクセル間の距離が増加するにつれて減少する。所与のペアに対するペナルティ賦課は、所与のペアのピクセルに対応する物理信号のベクトル間の差が増加するにつれてさらに減少する。
本方法は、以下のいずれか1つ、または以下の任意の組み合わせを含んでよい。
- 本方法は、1つもしくは複数の透明オブジェクト、および/または1つもしくは複数の反射オブジェクトを含むシーンにおける、コンピュータビジョンの方法を構成する。
- 複数の画像は、赤外線画像と、RGB画像および深度画像のうちの一方または両方とを含む。
- 赤外線画像は、熱画像である。
- シーンは、建物の内部シーン、または建物の外部シーンである。
- シーンは、少なくとも1つの生物学的エンティティを含む。
- 本方法は、複数の画像を提供することと、シーンについてのセグメント化された画像を生成することとを反復して、シーンについての複数のセグメント化された画像を生成するステップを含み、本方法は、複数のセグメント化された画像の中の対応するセグメントに基づいて、シーンについての3Dモデルを再構成するステップをさらに含む。
- シーンについての3Dモデルを再構成するステップは、複数のセグメント化された画像の中の対応するセグメントに基づいて実行され、複数のセグメント化された画像の中の対応するセグメントは、すべて、非生物学的エンティティに対応する。
- 複数の画像を提供することを反復するステップは、シーンについての複数のビデオを提供することによって実行され、各ビデオは、物理信号のそれぞれのビデオ獲得に対応する。
- 各ビデオ獲得は、複数のセンサが取り付けられたカメラを用いて実行され、各センサは、それぞれの物理信号に対応する。
- カメラは、シーン内で動かされ、同時に、各々がそれぞれの物理信号のビデオ獲得である複数のビデオ獲得を実行する。
- Sと表記される平滑化項は、
Figure 0007115846000001
という形式を取り、ただし、mおよびnは、ピクセルインデックスであり、Cは、マルコフ・ランダム・フィールドグラフのエッジのセットであり、Cは、マルコフ・ランダム・フィールドグラフのエッジのセットであり、lmは、ピクセルmに関連付けられたラベルであり、lnは、ピクセルnに関連付けられたラベルであり、
Figure 0007115846000002
は、ラベルlmおよびlnが異なるときは1に等しく、それ以外のときは0に等しい、インジケータ関数であり、dist(m,n)-1は、ピクセルmとピクセルnとの間の距離の逆数であり、xmは、ピクセルmに対応するそれぞれの物理信号のベクトルであり、xnは、ピクセルnに対応するそれぞれの物理信号のベクトルであり、||xm-xn||は、物理信号のベクトルxmと物理信号のベクトルxnとの間の距離であり、pen( )は、減少関数である。
- pen( )は、exp(-β||xm-xn||)という形式を取り、ただし、βは、正の整数である。
- エネルギーは、各ピクセルを、いずれかのセグメントに対する割り当てすることにペナルティを賦課するデータ項をさらに含み、ペナルティ賦課は、ピクセル毎に、セグメントのセットの各々について、ピクセルがセグメントに属するそれぞれの確率を他のピクセルとは別個に提供する、それぞれの確率分布に基づいており、任意の所与のピクセルに対するペナルティ賦課は、所与のピクセルに関する確率分布によって提供される確率が減少するにつれて増加し、確率分布は、ピクセルのクラスタリングに基づいて学習される。
- データ項は、U=Σn-logP(ln)という形式を取り、ただし、nは、ピクセルインデックスであり、lnは、ピクセルnのラベルであり、P(ln)は、ラベルlnに対応するセグメントについての、ピクセルnに関する確率分布によって提供される確率である。
- 本方法は、スペクトラルクラスタリングを介して、クラスタリングを実行し、その後に、セグメントの融合の反復が続き、セグメントの数は、反復が終了したとき、ラベルに対応したものに達する。
- 確率分布は、ガウス混合を形成する。
- ガウス混合は、期待値最大化アルゴリズムによって学習される。ならびに/または
- エネルギーは、E(l)=U(l)+λS(l)という形式を取り、ただし、λは、ポンダレーション係数であり、lは、ラベルの分布である。
本方法を実行するための命令を含むコンピュータプログラムが、さらに提供される。
コンピュータプログラムを記録したコンピュータ可読記憶媒体が、さらに提供される。
メモリに結合されたプロセッサを備えるシステムが、さらに提供され、メモリには、コンピュータプログラムが記録されている。
例においては、システムは、以下のいずれか1つまたは以下の任意の組み合わせを含んでよい。
- システムは、グラフィカルユーザインターフェースをさらに備え、プロセッサは、グラフィカルユーザインターフェースに結合される。
- グラフィカルユーザインターフェースは、シーンについてのセグメント化された画像、および/またはシーンについての3D再構成の表現を表示するように構成される。
- システムは、シーンについての複数の画像を獲得するように構成された、1つまたは複数のセンサをさらに備える。
- 各センサは、シーンについての複数の画像のうちのそれぞれ1つが対応する、物理信号のそれぞれの獲得のために構成される。
- 1つまたは複数のセンサは、材料特性センサと、RGBセンサおよび深度センサの一方または両方とを含む。
- 材料特性センサは、赤外線センサである。
- 赤外線センサは、熱センサである。
- システムは、1つまたは複数のセンサが取り付けられた、1つまたは複数のカメラを備え、プロセッサは、1つまたは複数のカメラに結合される。
- 1つまたは複数のカメラは、可搬である。
- 1つまたは複数のカメラは、システムを形成し、プロセッサと、コンピュータプログラムを記録したメモリとを組み込み、またはあるいは、システムは、プロセッサと、コンピュータプログラムを記録したメモリとを組み込んだ、コンピュータワークステーションを備え、コンピュータワークステーションは、1つまたは複数のカメラに無線で結合される。
- 各センサは、別個のカメラに取り付けられ、またはあるいは、システムは、複数のセンサ、例えば、すべてのセンサが取り付けられた、(単一の)カメラを備える。
- 1つまたは複数のカメラは、ビデオ獲得のために構成される。
- 単一のカメラは、シーン内で動かされ、同時に、各々がそれぞれの物理信号のビデオ獲得である複数のビデオ獲得を実行するように構成され、ここでは、「同時に」によって、複数の獲得されたビデオのすべてについて、獲得(または「記録」)が、(少なくとも実質的に)同時に開始し、(少なくとも実質的に)同時に終了し、したがって、各センサが、並列的に獲得を実行することを意味する。ならびに/または
- 複数のビデオは、すべて、同期させられ、ここでは、「同期させられ」によって、複数のビデオが、すべて、同じ周波数を有すること、およびそれらの画像フレームが、すべて、(少なくとも実質的に)同時にキャプチャされることを意味する。
本発明の実施形態が、非限定的な例として、添付の図面を参照しながら、今から説明される。
本発明の例を示す高水準図である。 シーンについてのセグメント化を示す図である。 3Dモデルとして再構成されるべき別のシーンを示す図である。 本発明の例を示すフロー図である。 本発明の例が実施されてよいコンピュータネットワークまたは類似のデジタル処理環境を示す図である。 図5のコンピュータネットワーク内のコンピュータ(例えば、クライアントプロセッサ/デバイス、またはサーバコンピュータ)の例示的な内部構造を示す図である。 システムの例を示す図である。 建物の外部シーンを示す図である。 多基準MRFの例を示す図である。
シーンにおけるコンピュータビジョンの方法が、提供される。「シーン」は、現実世界の下位区分である。「コンピュータビジョン」という表現は、シーンについての1つまたは複数の画像を含むデジタルデータを処理する方法を指す。シーンについての画像は、シーン上における物理信号の分布の表現、例えば、それの2Dまたは3D表現である。「物理信号」は、任意の種類の物理的特性、例えば、所与の電磁範囲内の放射線放出を表す。物理信号の「獲得」は、その物理信号の分布についてのシーン内で行われた測定である。そのような獲得は、物理的デバイスによって実行されてよく、それは、一般に「カメラ」と呼ばれることがあり、物理信号に対応したセンサが、その上に取り付けられる。そのようなセンサは、物理信号を感知し、物理信号を「デジタル信号」とも呼ばれるデジタルデータに変換するように構成される。画像は、「ピクセル」と呼ばれる下位区分に細分化されてよく、その各々には、物理信号の固定された値が、割り当てられてよい。細分化は、グリッドを形成してよい。グリッドは、規則的であってよい。
提供される方法は、各々が物理信号のそれぞれの獲得に対応する、シーンについての複数の画像を処理する。「物理信号の獲得に対応する」という表現は、所与の画像について、例えば、所与の画像は、その獲得の(得られたままの)結果であるので、またはそれは、後処理(例えば、ノイズ除去などのフィルタリング)を介して、その獲得から導出されたので、所与の画像が、その獲得の結果から生じたことを意味する。
提供される方法は、シーンについてのセグメント化された画像を生成することに関する。シーンについてのセグメント化された画像は、広く知られているように、ピクセルが属するグループを表す追加情報を含む画像であり、各グループは、「セグメント」と呼ばれる。セグメントは、例えば同じ固体もしくは液体、同じ材料、または同じ色など、シーン内の一体的なエンティティに対応する。セグメント化から望まれる結果は、企図されている用途に依存し、セグメント化は、その企図されている用途を考慮して調整されてよい。追加情報は、任意の形態を取ってよい。セグメント化された画像は、各ピクセルの、セグメントのセットのそれぞれ1つへの割り当てを表す情報を含む。セグメントのセットの異なるセグメントは、任意の方法で、例えば、単なるインデックスによって、表されてよい。あるいは、または加えて、セグメントは、セグメントによって表されるシーンの中のエンティティの物理的特徴のメタ記述など、追加仕様に関連付けられてよい。これは、しかしながら、単なる実施の問題であり、本明細書においては、これ以上説明されない。
提供される方法は、複数の画像に基づいて、シーンについてのセグメント化された画像を生成するステップを含み、ここで、複数の画像は、異なる物理信号に対応する少なくとも2つの画像を含む。言い換えると、セグメント化された画像を生成するときには、少なくとも2つの異なる物理信号(すなわち、異なる性質の物理的データ)が、含まれる。これは、単一の種類の物理信号による画像獲得に依存するものよりも正確なセグメント化を可能にする。実際に、セグメント化を行うときに、材料、色、またはオブジェクト間の変わり目の区別が、より容易に行われることがあるように、異なる物理信号は、シーンを表すためにもたらされた情報に関して、互いに補完し合ってよい。また、物理信号の獲得は、物理的ノイズまたはデータホールを含むことがある。異なる物理信号に関連付けられたそのような「誤解を与える情報」は、一般に相関性がないので、異なる物理信号に対応する少なくとも2つの画像の使用は、セグメント化の最中における影響を低減させることが可能である。
異なる物理信号に対応する複数の画像に基づいて、シーンについてのセグメント化された画像を生成することは、任意の種類のシーンについてのセグメント化を改善することがある。改善は、シーンが透明オブジェクトおよび/または反射オブジェクトを含むときに、なおさら著しい。透明オブジェクトは、一般に、光によって横切られることができる少なくとも1つの容易に知覚できるサーフェスを有する、任意のリアルなエンティティを意味する。反射オブジェクトは、一般に、光を反射するサーフェスを有する、任意のリアルなエンティティを意味する。そのようなオブジェクトは、例えば、鏡、もしくは(反射していることがある)金属オブジェクト、(反射していること、および/もしくは透明なことがある)建物のファサード、または(反射していることがある)水溜り、もしくは(反射していること、および/もしくは透明なことがある)プール、湖、もしくは海の表面などの、水エンティティを含んでよい。透明オブジェクトおよび/または反射オブジェクトは、それらは、RGBセンサおよび深度センサを含むほとんどのセンサに誤解を与える情報を生成するので、セグメント化をかき乱す。透明オブジェクトは、特に、深度センサに誤解を与えるが、そのわけは、深度センサは、オブジェクトを横切る光線を放出し、それによって、正しい深度情報を提供することに失敗するからである。反射オブジェクトは、特に、RGBセンサに誤解を与えるが、そのわけは、それらの反射面が、オブジェクトの色以外の色を反射するからである。セグメント化における異なる物理信号の使用は、したがって、そのようなケースにおける結果を改善することに、特に関連がある。
複数の画像は、特に、赤外線画像を含んでよい。赤外線画像は、シーン内に1つもしくは複数の透明オブジェクト、および/または1つもしくは複数の反射オブジェクトが存在するケースにおいてさえ、良好なセグメント化を実行することを助けるデータを提供する。RGB画像および/または深度画像と組み合わされて、赤外線画像は、そのような特定の状況において、特に高品質のセグメント化を可能にする。
そのようなソリューションは、したがって、シーンが、建物の内部シーンまたは建物の外部シーンであるときに、特に適していることがある。建物の内部シーンは、建物の屋内のシーンである。(「都市シーン」または「建築シーン」とも呼ばれる)建物の外部シーンは、1つまたは複数の建物を含む屋外のシーンである。そのようなシーンは、建物のファサードおよび/または水溜りを含む、特定の建物の外部シーン内に、透明オブジェクトおよび/または1つもしくは複数の反射オブジェクトをしばしば含む。
さらに、そのようなシーンは、人間など、生物学的エンティティをしばしば含む。そのようなケースにおいては、赤外線画像が、シーンについての特に正確なセグメント化に貢献することができるように、赤外線画像は、そのようなエンティティの正確な表現を提供する。これは、赤外線画像が熱画像であるとき、よりいっそう著しい。
シーンのセグメント化は、3D再構成に、すなわち、物理信号データの獲得に基づいた、シーンについての3Dモデルの自動生成に特に適用されてよい。
3D再構成プロセスは、シーン内において、複数の画像の提供と、上で説明されたようなシーンについてのセグメント化された画像の生成とを反復する(すなわち、何回か実行する)ことを含んでよい。各反復は、各反復における複数の画像が対応する(異なる種類の少なくとも2つの物理信号を含む)複数の物理信号の、シーン内の異なるビューポイントからの獲得に対応してよい。例えば、反復は、シーン内においてビューポイントを動かすことに対応してよい。異なる反復における画像内に存在するシーンの部分は、その後、シーンについての3D再構成のために使用されてよい。実際に、異なるビューポイントからの、そのような部分を表す画像の利用可能性は、その部分の3Dモデルを推測することを可能にする。3D再構成プロセスは、複数のセグメント化された画像の中の対応するセグメントに基づいて、シーンについての3Dモデルを再構成することを特に含んでよい(すなわち、対応するセグメントは、同じ現実世界の物理的エンティティに対応するセグメントである)。シーンのセグメント化を改善することは、それによって、そのような3D再構成プロセスを改善することがある。そのような3D再構成プロセスは、広く知られている。
複数のセグメント化された画像の中の対応するセグメントに基づいて、シーンについての3Dモデルを再構成することは、一般によく知られており、例が、以下の論文において提供されており、それらのいずれのソリューションも、本明細書において実施可能である。
非特許文献1
非特許文献2
非特許文献3
セグメント化に基づいた3D再構成の他の例は、以下の論文において提供されている。
非特許文献4
非特許文献5
非特許文献6
非特許文献7
非特許文献8
本明細書においては、(シーンについての3Dモデルの再構成がそれに基づいて実行される)複数のセグメント化された画像に共通なセグメントが、すべて、非生物学的エンティティだけに対応する、任意選択の改善が、提案される。
建物の内部または外部シーンのケースにおいては、人間などの生物学的エンティティの存在は、3D再構成プロセスをかき乱す。実際に、そのようなケースにおいては、生物学的エンティティは、セグメント化を反復している間に動き、対応するセグメントは、3D再構成のためには不正確な情報を伝える。そのような動くエンティティに対応するセグメントの3D再構成からの除外は、それによって、3D再構成の正確性およびロバスト性を改善する。生物学的エンティティに関してセグメント化の正確性を改善することは、したがって、建物の内部または外部シーンを再構成する状況において特に関連がある。
(セグメントを対応物に変換することによって3D再構成を実行するために)セグメント化された画像のセットから生物学的エンティティに対応するセグメントを除去することは、いずれの方法で実行されてもよい。広く知られているように、生物学的エンティティは、そのような除去が高速かつ容易になることがあるような、高度に認識可能なシグネチャを有する。
人間工学の例においては、3D再構成プロセスは、セグメント化に含まれる物理信号のそれぞれ1つについてのそれぞれのビデオを各々が獲得する、1つまたは複数のビデオカメラを用いて実行されてよい。例えば、同じ単一のビデオカメラが、異なるセンサ(各々がそれぞれの物理信号に適合された、例えば、赤外線センサ、ならびに深度センサ、および/またはRGBセンサ)を組み込んでよく、ユーザ、自動車、またはロボットが、カメラを保持し、セグメント化に含まれる物理信号のビデオストリームをキャプチャしながら、シーン内を動いてよい。各生成は、異なる物理信号を含むので、各フレームが、シーンの正確なセグメント化された画像を生成することを可能にするように、ビデオは、同期させられてよい。
異なる物理信号に対応する複数の画像に基づいて、セグメント化された画像を生成することは、一般にいずれの方法で実行されてもよい。特に効率的な方法は、マルコフ・ランダム・フィールド(MRF)エネルギー最小化を用いて、セグメント化された画像を生成することである。そのような最小化は、特に高速かつロバストに実行されることができる。
広く知られているように、MRFエネルギー最小化は、エネルギーを最小化する、グラフ上のいわゆる「ラベル」の分布を決定することに相当する、任意のアルゴリズムを意味する。グラフは、定義によって、ノードと、ノードのペアを結び付けるエッジとを有する。グラフは、「MRFグラフ」と呼ばれることがある。ラベルは、定義によって、MRFグラフの各ノードに割り当てられるべき、所定のセットの値である(ノード当たり1つのラベル)。所定のセットが、(本明細書におけるケースのように)離散的であるとき、MRFエネルギー最小化は、特に高速に収束する(「離散的MRF最小化アルゴリズム」と呼ばれる)異なるアルゴリズムに従って実行されてよい。例が、後ほど提供される。
エネルギーは、所与の順序の(MRFグラフの)クリークの総和として各々が定義される、異なるコスト項を含んでよい。コスト項は、すべてのノード上で定義された、(「データ項」とも呼ばれる)単項を含んでよい。コスト項は、エッジによって結び付けられたグラフのノードのペア上で定義された、(「平滑化項」とも呼ばれる)バイナリ項またはペアワイズ項を含んでもよい。ラベルのセットが、離散的であり、エネルギーが、より高次のコスト項を含まないとき、最小化は、さらに特に高速に収束する(「離散的ペアワイズMRF最小化アルゴリズム」と呼ばれる)異なるアルゴリズムに従って実行されてよい。既存のアルゴリズムが、知られている。やはり、例が、後ほど提供される。
本ケースにおいては、各ノードは、セグメント化された画像のそれぞれのピクセルに対応してよく、ラベルは、ピクセルをセグメントのセットのそれぞれ1つに割り当てるすべての異なる割り当てに対応してよい。最小化は、したがって、ピクセル毎に、セグメントのセットのそれぞれ1つへの最適な割り当てを見つけることによって、セグメント化を遂行する。
MRFグラフは、相関を有すると思われるノードを結び付ける。本ケースにおいては、MRFグラフは、各エッジが、所定の閾値を下回る距離を有するピクセルのそれぞれのペアに対応するように、定義されてよい。距離は、ユークリッド距離またはグラフ距離など、任意の距離であってよい。MRFグラフは、したがって、直接的隣接ピクセルであるピクセルのペアを、および任意選択で、互いにより遠いピクセルのペア(閾値が十分に大きいならば、おそらくはピクセルのすべてのペア)を結び付けてよい。実施の例が、後ほど提供される。
ここで、エネルギーは、最適なラベリングが、複数の画像のうちのすべての画像から取られた寄与または基準に依存するように、設計されてよい。この理由で、以下では、「多基準MRF」という表現に言及することがある。
特に、エネルギーは、エッジに対応するピクセルのペアの、異なるセグメントに対する割り当てにペナルティを賦課する平滑化項を含む。言い換えると、エネルギーは、エッジによって同じセグメントに接続されるピクセルに割り当てられる傾向にあり、またはさらに言い換えると、エネルギーは、近接ピクセルに、同じセグメントに属することを強制する。任意の所与のペアに対するペナルティ賦課は、所与のペアのピクセル間の距離が増加するにつれて減少する。言い換えると、同じセグメントに割り当てられていない、エッジによって接続された2つのピクセルのコストは、その2つのピクセルが、(例えば、グリッド上において)他方の近くに配置されるとき、なおさら重要になる。ここでもやはり、距離は、任意の距離、例えば、ユークリッド距離である。所与のペアに対するペナルティ賦課は、所与のペアのピクセルに対応する物理信号のベクトル間の差が増加するにつれてさらに減少する。言い換えると、エネルギー最小化は、それぞれのピクセルに各々が割り当てられるベクトルを考慮する。ベクトルがその中で定義される空間は、各次元が複数の画像のそれぞれ1つに対応する空間である。言い換えると、ベクトルの各座標は、複数の画像のうちの対応する1つによって獲得された、それぞれのモダリティまたは物理信号の値である。ベクトル間の距離が、その場合、企図される。やはり、距離は、(中心化および通分、または正規化の後の)ユークリッド距離、または「加重後ユークリッド距離」など、任意の距離であってよい。同じセグメントに割り当てられていない2つのピクセルのコストは、その場合、それらのベクトルが近接しているとき、なおさら重要になる。
そのような平滑化項は、利用可能な異なる物理信号情報をうまく考慮し、それに基づいた正確なセグメント化を遂行する。
多くのケースにおいては、セグメント化の目的は、現実世界の材料および/または色の変わり目を識別することである。例えば、セグメント化は、影などの画像内のアーチファクトと、2つの材料間の現実の変わり目とを区別することができるセグメント化は、色度ヒストグラムを導入することによって、セグメント化を照度に対して不変にすることもできる。測光不変量のクラスは、材料を形状および照度から分離することができる。しかしながら、既存の手法は、それらが画像からの情報だけに依存するとき、しばしば脆弱である。したがって、多くの条件において、例えば、濃い影が暗色のオブジェクトを部分的に覆うとき、セグメント化は、不可能になる。同様に、セグメント化は、明色のオブジェクトが、空、光る鏡面性を有するオブジェクトを背景にしてセットされた場合、またはともに同じ色の2つの材料間の変わり目において、困難であることができる。これらのセグメント化の難題は、可視光だけを使用する既存の画像ベースのセグメント化アルゴリズムには、克服不可能であることができる。
本発明の例においては、システムおよび方法は、RGB/RGB-深度/深度キャプチャを、Consumer Physics(商標)が製造するSCiO(商標)などの分子センサ、熱センサ、およびテラヘルツスキャナを含む、材料特性を感知することが可能な1つまたは複数の他のセンサに関連付けることができる。これらのセンサからの情報は、画像をより正確にセグメント化するために、RGB/RGB-深度/深度データを補完する。このセグメント化は、2D画像上において、またはKinect(登録商標)FusionなどのRGB/RGB-深度/深度再構成手法の1つによって作成された3D再構成上において行うことができる。再構成手法は、一般に、画像上のRGBまたは深度ピクセルを、再構成されたオブジェクト上の対応するサーフェス点に関連付けるので、セグメント化は、2D画像または3D再構成の両方のために利用されることができる。3D形状再構成のケースにおいては、使用される画像のセットは、強くオーバラップしており、単一の画像においては隠されることができる多くの部分を露わにするので、セグメント化のロバスト性は、一般に、画像のケースにおけるよりも良好である。
本発明の例においては、材料特性情報を色および深度情報と組み合わせて利用することは、連続的により多くのケースにおいて、既存の方法と比較してはるかに高い正確性およびロバスト性で、オブジェクトをセグメント化することができる。
例においては、システム、方法、および非一時的コンピュータ可読媒体は、プロセッサにおいて、第1の画像を第2の画像と位置合わせ(align)するステップを含む。第1の画像および第2の画像は、実質的に同じシーンの異なる電磁範囲を表す。方法は、第1の画像からの基準および第2の画像からの基準の両方を使用して、セグメント化された画像を生成するステップをさらに含むことができる。第1の画像からの基準のうちの1つまたは複数の基準は、第2の画像からの基準のうちの1つまたは複数の基準に対して独自であることができる。独自である基準は、可視光スペクトル(近似的に300ないし700nm)、および赤外線(700ないし1mm)を含む、電磁スペクトルの異なる部分の基準を含むことができるが、電磁スペクトルの他の部分も、同様に利用されることができる。
例においては、画像を位置合わせするステップは、第1の画像および第2の画像の特徴を検出するステップと、第1の画像と第2の画像との間のペアワイズ対応を見つけるために、特徴をマッチさせるステップと、第1の画像を第2の画像に位置合わせするために、第1の画像および第2の画像の少なくとも一方を歪曲させるステップとをさらに含むことができる。
例においては、画像を位置合わせするステップは、(a)第1の画像および第2の画像を生成するために利用されたセンサについての提供された較正からのデータ、および(b)シーンについての深度画像からのデータを適用するステップをさらに含むことができる。
例においては、第1の画像は、赤-緑-青(RGB)カラーモデル画像であり、第2の画像は、材料特性画像である。
例においては、材料センサ画像は、赤外線画像、熱画像、紫外線画像、x線画像、またはガンマ線画像である。
例においては、方法は、第1の画像および第2の画像を、共通の物理的架台を共有し、知られた相対的位置付けを有する、それぞれの第1および第2のセンサからキャプチャするステップをさらに含む。画像を位置合わせするステップは、さらに、知られた相対的位置付けに基づくことができる。
例においては、セグメント化された画像を生成するステップは、マルコフ・ランダム・フィールド(MRF)手法を利用する。
例においては、第1の画像は、RGBカラーモデル画像であり、第2の画像は、材料特性画像である。
本発明の例においては、コンピュータシステムまたは方法は、シーンについての2D画像または3Dモデル上において効率的で信頼性のある改善されたセグメント化を提供するために、シーンからの可視光データを、赤外線データ、熱データ、または深度データなどの材料特性感知データと融合させることができる。
図1は、本発明の例を示す高水準図100である。取り付け装置102(またはカメラ)は、RGBセンサ104および材料特性センサ108を取り付けるように構成される。RGBセンサ104および材料特性センサ108は、知られた較正相対位置付け158だけ離れている。RGBセンサ104は、RGB見晴らし点106から、可視光スペクトルで、シーン112を撮像する。材料特性センサ108は、材料特性見晴らし点110から、赤外線(IR)放射などの材料特性スペクトルで、シーン112を撮像する。較正相対位置付け158は、2つの異なるそれぞれの見晴らし点106、110から撮られている、RGBセンサ104からの画像と材料特性センサ108からの画像とを位置合わせするために使用されることができる。単一のデバイスの実質的に同じ場所に取り付けられたRGBセンサ104および材料特性センサ108は、同じセンサであることができ、またはデュアル機能を有するセンサが、RGBセンサと同じセンサであることができ、したがって、それらは、ゼロの較正相対位置付け158を有し、その上、各画像のための見晴らし点106、110は同じであることができることを、当業者は認識することができる。
シーン112は、床130、靴132、134、絨毯136、138、およびラジエータ140を含む、部屋であることができる。ユーザは、シーン112についての画像を、例えば、これらまたは他のオブジェクトのいずれかの1つまたは複数を有する、別々の画像またはレイヤにセグメント化することを望むことがある。シーンは、深度114も含み、深度画像は、上に列挙されたオブジェクトの様々な深度を、そのセンサに関連して、ピクセル毎ベースで表現することができる。シーン112は、図2においてさらに示されている。
RGBセンサ104および材料特性センサ108は、各々が、同じまたは近い見晴らし点106、108(例えば、ビューポイント)において、シーン112についてのそれぞれの画像をキャプチャする。相対キャプチャ点/座標、または2つのそれぞれのセンサ104および108間の較正相対位置付け158は、キャプチャ後に2つの画像を位置合わせするために記録される。RGBセンサ104は、少なくとも1つの第1のRGB/RGB-深度/深度感知画像をキャプチャし、材料特性センサ108は、少なくとも1つの材料特性画像をキャプチャする。材料特性画像の1つの例は、IR画像であるが、そのわけは、そのような画像が、材料特性を、特に、IRスペクトルにおける放射を生成する分子振動を正確に表現することができるからである。IR画像は、受動的または能動的にキャプチャされることができる。近IR周波数範囲(例えば、近似的に1μm)は、一般に、能動的照明を必要とするが、熱周波数範囲(例えば、近似的に10μm)は、能動的照明を用いずに、受動的にキャプチャされることができる。
例においては、RGBセンサ104は、セルフォンカメラなど、標準的なデジタルカメラとすることができる。材料センサ108は、モバイルデバイス(例えば、フォン、スマートフォン、タブレット、グラス)に動作可能に接続する、Seek Thermal(商標)製品などの、熱カメラとすることができる。1つの統合されたデバイス(例えば、取り付け装置102)は、RGBセンサ104、およびFLIR ONE(商標)製品におけるような、材料(例えば、熱)センサ108の両方を取り付けることができる。任意選択で、センサ構成は、深度センサ、例えば、構造センサも含むことができる。深度センサは、各ピクセル値がセンサからのその特定のピクセルまでの距離である各ピクセル値を有する、深度画像を生成する。深度センサは、RGBセンサ104の一部、材料特性センサ108の一部、第3のセンサ(図示されず)の一部、または別個のセンサとすることができる。
図1を再び参照すると、画像(例えば、シーン112についてのRGB画像150、材料センサ画像152、および深度画像153)の各セットについて、本発明の例は、画像を分析して、セグメント化された画像156を生成する。セグメント化モジュール160は、同じシーンについてのRGB画像150、材料センサ画像152、および深度画像153を受け取る。セグメント化モジュール160は、セグメント化された画像156を生成するために、少なくともRGB画像150および材料センサ画像152も利用し、任意選択で、深度画像153および任意選択の較正データ154を利用することができる。
セグメント化モジュール160は、その後、最初に、ビューポイント(例えば、RGB見晴らし点106および材料特性見晴らし点110)のいずれの相違も補償するために、画像を歪曲させることによって、セグメント化された画像156を生成する。RGB画像150および材料特性画像152は、取り付け装置102に非常に近接して配置されることができるセンサ104、108によってキャプチャされる。したがって、それぞれの画像150、152は、僅かに異なる見晴らし点106、110からシーンをキャプチャすることができる。画像を歪曲させることは、セグメント化モジュール160に提供される情報に応じて、異なる方法で実行されることができる。
セグメント化モジュール160によって受け取られた画像のセットが、RGB画像150および材料特性画像152に加えて、深度画像153を含む場合、およびセグメント化モジュール160が、センサが事前較正されていることを示す較正データ154を受け取った(例えば、デバイス上のそれらの相対的な3D位置が知られている)場合、セグメント化モジュール160は、非深度画像を深度センサによって所与の3Dサーフェス上に投影し、その後、画像を共通のビューポイント上に投影し戻す。
セグメント化モジュール160が、深度画像153または較正データ154を受け取らなかった場合、セグメント化モジュール160は、RGB画像150および材料特性画像152における特徴点のペアワイズ対応を介して、画像を歪曲させる。
多くのケースにおいては、それぞれのセンサ104、108の位置とともに変化することができる遮蔽アーチファクトのせいで、ピクセルのすべてが比較可能なように、RGB画像150および材料特性画像152を位置合わせすることは不可能である。しかしながら、これは、僅かな比率のピクセルにだけ影響し、RGBセンサ104および材料特性センサ108の1つまたは複数が、ノイズまたは他の原因のせいで不完全なデータを生み出す状況と差がないので、特別な対処を必要としない。
画像がひとたびピクセル毎に位置合わせされると、セグメント化モジュールは、各画像150、152内に含まれる補完情報に基づいて、RGB画像150および材料特性画像152をセグメント化することができる。
セグメント化を実行するいくつかの技法が、存在する(例えば、その全体が参照によって組み込まれる、非特許文献9を参照)。例においては、セグメント化は、各画像からの寄与を取ったエネルギーを用いる、変更されたマルコフ・ランダム・フィールド(MRF)手法を適用することによって、実行されることができる(例えば、非特許文献10を参照)。
可視光データおよびIR範囲データは、異なりかつ補完的であるので、本発明の例のシステムおよび方法は、より良好な結果を生成する。IR範囲放射は、材料の分子構造の関数として放出される。同じ温度にある材料であっても、放射率の差のせいで、熱IRバンドにおいては異なるIR範囲放射を放出する。システムが、このプロセスを強化するために、IR範囲放射を能動的に供給する場合でさえも、放射の吸収および再放出は、実用的な目的では、可視光の反射とまったく異なったままである。
図2Aないし図2Cは、共通のシーンを示す例示的な画像である。図2Aは、RGBシーン200を示している。(グレイスケールで表された)RGBシーン200は、可視光スペクトルからキャプチャされた光を示す。可視光スペクトルからのデータだけを有する、RGBシーン200上における従来の画像セグメント化だけを実行するとき、セグメント化システムは、図2Aにおいて青で示されるセグメント化ラインを決定することができる。これらのラインは、役に立つことができるが、それらは、オブジェクトのすべてをトレースするには不完全であることを、当業者は理解することができる。
図2Bは、熱放射率画像であるオーバレイされたIRシーン222を有するRGBシーン220を示している。IRシーン222は、シーンのラジエータの熱を表す異なる色によって示されるように、シーンの熱特性を検出する。IRシーン222は、シーンのラジエータおよび靴の周辺にさらなる詳細を有するので、セグメント化は、そのエリアについてより正確なセグメント化境界を見つけることができる。セグメント化境界は、赤い実線によって示されている。
図2Cは、セグメント化されたシーン240を示している。セグメント化されたシーン240は、RGBシーン200と、組み合わされたRGBシーン220およびIRシーン222との両方の分析を利用して、ラジエータ、靴、および絨毯の一方をセグメント化する境界を生成する。したがって、青いセグメント化境界および赤いセグメント化境界は、画像をより良好にセグメント化するために、組み合わされることができる。RGB画像によって表現された境界は、IRシーン222(例えば、熱放射率画像)によって表現された境界に対して補完的である。実際に、セグメント化モジュール416は、画像を接続されたピクセルからなるグラフであると見なし、それらを別々のセグメントに分類する、ピクセルの最も可能性の高いラベリングを計算することによって機能する。ピクセルの強い強度勾配が存在する場合、セグメント化モジュール416は、これを2つのセグメント間の潜在的な境界として識別する。上半分においてはRGB日光によって、下半分においては熱画像によって輪郭が描かれたシーン222を例に取る場合、セグメント化モジュール416が、RGBまたは熱情報だけを使用して、靴をシーンの残りから分離するセグメント化を見つける可能性は非常に低く、そのわけは、各々において、強い勾配は、靴画像の一部だけにわたって、一方の画像においては靴の上側、他方においては下側にだけ存在するからである。2つを組み合わせ、セグメント化が成功する可能性を高めるために、方法は、セグメント化モジュール416の内部において、入力データに対する以下の操作を実行してよく、すなわち、位置合わせされた熱画像およびRGB(D)画像の所与のピクセルについて、方法は、それの勾配が、画像の各々におけるそれの勾配の大きい方に等しいと見なしてよい。すべての位置合わせされた画像のすべてのピクセルに対してこの操作を実行することは、画像を生み出し、これをmaxvar画像と呼ぶことにする。maxvar画像を検査するとき、靴の上側輪郭および下側輪郭の両方に沿って強度の強い変化を観測する。したがって、maxvar画像に基づいてセグメント化を行うことによって、方法は、靴を画像の別々のセグメントとして識別することに成功するはるかに高い確率を有することがある。
本発明の例は、現実生活のシーンから仮想3Dモデルを再構成するシステムの一部として利用されることもできる。図3は、3Dモデルとして再構成される別のシーン300を示している。例えば、非常に近接している茶色の木材壁308および茶色のれんが壁306を有するシーンを観測している、材料センサデータを用いない、RGBデータおよび深度データだけに基づいたシステムは、2つの壁306および308の茶色が似すぎている場合、これら2つの材料を区別することができない。しかしながら、本発明の例においては、IR画像上では、材料の異なる放射率が別個のものとして見えることから、熱IRカメラからの情報の追加が、茶色の木材壁308を茶色のれんが壁306から分離する助けとなることができる。画像が組み合わされるとき、セグメント化プロセスは、画像のいずれか一方におけるデータの推移に基づいて、境界を決定する。このケースにおいては、熱IR画像が、主たる境界情報を与えるが、他の材料特性画像からの他の境界情報も、利用されることができる。
別の例として、水は、光を反射し、透過させ、回折させるから、満たされた浴槽302など、水のRGB画像は、視覚的な手段によってセグメント化することが難しい。同様に、窓のガラス304の反射、透過、および散乱は、同様に、困難を引き起こすことができる。これらの反射、透過、および回折は、水をその周囲のものと視覚的に区別がつかなくさせることができる。しかしながら、水は、異なる材料放射率を有し、したがって、熱画像においては目立ち、したがって、弁別および分離することが容易である。
図4は、本発明の例を示すフロー図400である。プロセスは、RGB画像および材料センサ画像をキャプチャし、画像をセグメント化モジュールに提供することによって開始する(402)。任意選択で、プロセスは、画像をキャプチャするために使用されたセンサの較正データを提供することができる(404)。較正データは、センサ間の相対的位置付け、センサの相対座標、および/またはセンサの結果画像を位置合わせすることを支援することができる他の任意の情報を含むことができる。任意選択で、プロセスは、同様に深度画像をセグメント化モジュールに提供することができる(406)。深度画像は、ピクセル毎に、その特定のピクセルにおけるセンサからオブジェクトまでの距離を表す深度を含む、画像である。
セグメント化モジュールは、次に、任意選択の較正データ(404)および深度画像(406)が提供されたかどうかを決定してよい(408)。提供されなかった場合、セグメント化モジュールは、特徴検出およびマッチングを実行することによって、RGB画像と材料センサ画像との間のペアワイズ対応を見つけてよい(412)。セグメント化モジュールは、次に、歪曲化を適用することによって、画像を位置合わせしてよい(414)。次に、システムは、本発明の変更された多基準MRFを使用して、画像のセグメント化を見つけてよい(416)。システムは、次に、セグメント化された画像を出力してよい(418)。
しかしながら、較正データおよび深度画像が利用可能である場合(408)、システムは、深度情報を使用して、2つの画像のピクセルを位置合わせしてよい(410)。次に、システムは、本発明の変更された多基準MRFを使用して、画像のセグメント化を見つけてよい(416)。システムは、次に、セグメント化された画像を出力する(418)。
図5は、本発明の例が実施されてよいコンピュータネットワークまたは類似のデジタル処理環境を示している。
1つまたは複数のクライアントコンピュータおよび/またはデバイス50、ならびに1つまたは複数のサーバコンピュータ60は、アプリケーションプログラムなどを実行する処理デバイス、記憶デバイス、および入力/出力デバイスを提供する。クライアントコンピュータおよび/またはデバイス50は、通信ネットワーク70を通して、他のクライアントデバイスおよび/またはデバイス50、ならびにサーバコンピュータ60を含む、他のコンピューティングデバイスに結び付けられることもできる。通信ネットワーク70は、リモートアクセスネットワーク、グローバルネットワーク(例えば、インターネット)、世界規模のコンピュータの集まり、ローカルエリアまたはワイドエリアネットワーク、および現在はそれぞれのプロトコル(TCP/IP、Bluetooth(登録商標)など)を使用して互いに通信するゲートウェイの一部とすることができる。他の電子デバイス/コンピュータネットワークアーキテクチャも、適している。
図6は、図5のコンピュータシステム内のコンピュータ(例えば、クライアントコンピュータもしくはデバイス50、またはサーバコンピュータ60)の例示的な内部構造の図である。各コンピュータ50、60は、システムバス79を含み、バスは、コンピュータまたは処理システムのコンポーネント間におけるデータ転送のために使用されるハードウェアラインのセットである。システムバス79は、基本的に、コンピュータシステムの異なる要素(例えば、プロセッサ、ディスクストレージ、メモリ、入力/出力ポート、ネットワークポートなど)を接続し、要素間における情報の転送を可能にする、共用コンジットである。システムバス79には、様々な入力デバイスおよび出力デバイス(例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカなど)をコンピュータ50、60に接続するためのI/Oデバイスインターフェース82が、アタッチされる。ネットワークインターフェース86は、コンピュータが、ネットワーク(例えば、図5のネットワーク70)にアタッチされた様々な他のデバイスに接続することを可能にする。メモリ90は、本発明の例を実施するために使用される、コンピュータソフトウェア命令またはルーチン92Aおよびデータ94(例えば、上で詳述されたアライメントモジュールおよびセグメント化モジュールコード)のための揮発性記憶を提供する。ディスクストレージ95は、本発明の例を実施するために使用される、コンピュータソフトウェア命令またはオペレーティングシステムプログラム92Bおよびデータ94のための不揮発性記憶を提供する。中央プロセッサユニット84も、システムバス79にアタッチされ、コンピュータ命令の実行を提供する。
例においては、ソフトウェア命令92Aないし92Bおよびデータ94は、本発明のシステムのためのソフトウェア命令の少なくとも一部を提供する非一時的コンピュータ可読媒体(例えば、1つまたは複数のDVD-ROM、CD-ROM、ディスケット、テープなどのリムーバブル記憶媒体)を含む、(全体として92として参照されてよい)コンピュータプログラム製品を構成する。コンピュータプログラム製品92は、当技術分野においてよく知られているように、任意の適切なソフトウェアインストール手順によってインストールされることができる。別の例においては、ソフトウェア命令の少なくとも一部は、ケーブル通信および/または無線接続上でダウンロードされてもよい。他の例においては、本発明のプログラムは、伝搬媒体(例えば、インターネットまたは他のネットワークなどのグローバルネットワーク上で伝搬させられる電波、赤外線波、レーザ波、音波、または電気波)上の伝搬信号上において具体化されるコンピュータプログラム伝搬信号製品である。そのようなキャリア媒体または信号は、本発明のルーチン/プログラム92のためのソフトウェア命令の少なくとも一部を提供するために、利用されてよい。
方法は、コンピュータ実施される。これは、方法のステップ(または実質的にすべてのステップ)が、少なくとも1つのコンピュータまたは任意の同様のシステムによって実行されることを意味する。したがって、方法のステップは、コンピュータによって、おそらくは完全に自動的に、または半自動的に実行される。例においては、方法のステップの少なくともいくつかのトリガは、ユーザ-コンピュータ対話を通して実行されてよい。必要とされるユーザ-コンピュータ対話のレベルは、予想される自動性のレベルに依存してよく、ユーザの望みを実施するための必要性とバランスを取ってよい。例においては、このレベルは、ユーザ定義および/または事前定義されてよい。
図7は、システムの例を示す。
例のシステムは、内部通信バス1000に接続された中央処理ユニット(CPU)1010と、やはりBUSに接続されたランダムアクセスメモリ(RAM)1070とを備える。システムは、さらに、BUSに接続されたビデオランダムアクセスメモリ1100と関連付けられたグラフィカル処理ユニット(GPU)1110を提供される。ビデオRAM1100は、当技術分野において、フレームバッファとしても知られている。大容量記憶デバイスコントローラ1020は、ハードドライブ1030などの大容量メモリデバイスへのアクセスを管理する。コンピュータプログラム命令およびデータを有形に具体化するのに適した大容量メモリデバイスは、例として、EPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイス、内蔵ハードディスク、およびリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにCD-ROMディスク1040を含む、不揮発性メモリのすべての形態を含む。上記のいずれも、特別に設計されたASIC(特定用途向け集積回路)によって補助されてよく、またはASICに組み込まれてよい。ネットワークアダプタ1050は、ネットワーク1060へのアクセスを管理する。システムは、カメラ1090に無線で結合されてよい。カメラは、その上に取り付けられたいくつかのセンサを含んでよく、カメラ1090は、ビデオカメラであってよい。
コンピュータプログラムは、コンピュータによって実行可能な命令を含んでよく、命令は、上記のシステムに方法を実行させるための手段を含む。プログラムは、システムのメモリを含む、任意のデータ記憶媒体上に記録可能であってよい。プログラムは、例えば、デジタル電子回路で、もしくはコンピュータハードウェア、ファームウェア、ソフトウェアで、またはそれらの組み合わせで実施されてよい。プログラムは、装置として、例えば、プログラム可能なプロセッサによる実行のためにマシン可読記憶デバイス内に有形に具体化された製品として実施されてよい。方法ステップは、入力データを操作し、出力を生成することによって、方法の機能を実行する、命令からなるプログラムを実行するプログラム可能なプロセッサによって実行されてよい。プロセッサは、したがって、プログラム可能であってよく、データ記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受け取り、それらにデータおよび命令を送るように結合されてよい。アプリケーションプログラムは、高水準手続き型もしくはオブジェクト指向プログラミング言語で、または望ましい場合は、アセンブリ言語もしくは機械語で実施されてよい。いずれのケースにおいても、言語は、コンパイル言語またはインタープリタ言語であってよい。プログラムは、完全インストールプログラムまたはアップデートプログラムであってよい。システム上でのプログラムの適用は、いずれのケースにおいても、方法を実行するための命令という結果となる。
図8は、本発明によって正確にセグメント化されることができる建物の外部シーンについての(グレイスケールで表された)RGB画像800の例を示している。水溜り810、またはガラス820などの透明な表面など、反射率の高い表面は、周囲のものからスプリアス情報が送られて、または反射されて来るせいで、可視スペクトルにおいてセグメント化することは困難である。見て分かるように、誤解されやすい反射を表示しない熱画像815、825においては、同じ表面が、完全に不透明である。そのような熱画像815、825は、したがって、シーンをセグメント化するために、RGB画像800を適切に補完することがある。
MRFエネルギー最小化の効率的な例が、図9を参照して、今から説明される。そのような例は、セグメント化モジュール416のために実施されてよい。
一般に、MRFエネルギーは、平滑化項から成ればよい(すなわち、他の項から成らなくてよい)。
しかしながら、収束のスピードを高めるために、例においては、エネルギーは、データ項をさらに含んでよい。データ項は、各々がいずれかのセグメントに割り当てられるピクセルの割り当てにペナルティを賦課してよく、ペナルティ賦課は、ピクセル毎に、セグメントのセットの各々について、ピクセルがセグメントに属するそれぞれの確率を他のピクセルとは別個に提供する、それぞれの確率分布に基づいており、任意の所与のピクセルに対するペナルティ賦課は、所与のピクセルに関する確率分布によって提供される確率が減少するにつれて増加する。確率分布は、ピクセルが属すべきセグメントについての事前推測を構成する。MRFエネルギー最小化が、次に、そのような事前推測を精緻化する。
確率分布は、以下で提供される例においては、ピクセルの事前クラスタリングに基づいて、学習されてよい。クラスタリング方法は、普通は相対的に高速であり、そのような例は、方法の収束のスピードを高める。
それの前に、任意選択の深度前処理(例えば、修復416a)が、説明される。
深度データ(RGB-Dの中の「D」)は、存在する場合、かなりの不安定性によって特徴付けられる。任意の所与の深度フレームは、一般に、深度センサがシーンの100%にわたって正しく機能することができないせいで、ノイズおよびホール(利用不可能なピクセルのエリア)を提示する。ノイズおよびホールは、多くの要因に、例えば、シーン内の輝くまたは透明なオブジェクト、過度に明るい光、最大範囲よりも高いシーン深度、またはシーン内における幾何学的不連続性に起因することができる。これのために、例においては、セグメント化に進む前に、非特許文献11において説明されている技法が、ホールまたはノイズのない完全な深度マップを作成するために、適用されてよい。色および深度の両方が存在するとき、この技法は、色画像を利用して、深度マップ内におけるエッジピクセルの場所を探し、深度データ上だけでノイズ除去およびホール充填を実行する方法を上回る改善された性能を生み出す。
上で言及された任意選択の事前クラスタリングが、今から説明される。スペクトラルクラスタリング416bを実施する例が、提示される。
方法は、最初に、「スペクトラルクラスタリング」と呼ばれる粗雑な初期的なセグメント化を実行してよい。これは、その後、最終的な高品質のセグメント化を生成するMRFに入力として与えられてよい。
クラスタリングは、以下の記法に基づいて、以下のように機能してよい。
・n->ピクセルインデックス
・C->グラフエッジ(我々のケースにおいては、エッジは2つの近隣ピクセルを結び付ける)
・V->グラフノードのセット(我々のケースにおいては、ピクセルのセット)
・ln->ピクセルnのラベル、すなわち、それのセグメント
・c->セグメントの数(ln∈{1,...,c})
・l->ラベリング、l=(l0,...,lN-1)、ただし、Nはピクセルの数
別途述べられない限り、以下では、次元の総数の5に対して、入力データが、3つの色チャネルR、G、Bと、熱チャネルと、深度チャネルとを含む、標準的なシナリオに言及する。深度データが存在しない、またはいくつかの熱チャネルおよび/もしくは他の材料特性チャネルが存在するなど、他の構成が可能である。これは、手法を変化させない。
方法の説明される例は、ピクセルのオーバセグメンテーションを含む、スペクトラルクラスタリングを介して、クラスタリングを実行し、その後に、セグメントの融合の反復が続く。反復が終了したときに到達されるセグメントの数は、MRF最小化のために利用可能なラベル(したがって、セグメント)に対応する。
スペクトラルクラスタリングは、ピクセルのオーバセグメンテーションを形成してよい。各融合は、その場合、セグメントを分割するためのカットコストに基づいてよく、カットコストは、近隣ピクセルのペアに割り当てられた重みに依存し、近隣ピクセルの所与のペアに割り当てられた重みは、所与のペアのピクセルに対応する物理信号のベクトル間の差が増加するにつれて減少する。
クラスタリングステップは、数々のセグメントを確立し、初期的な粗いセグメントラベルを各ピクセルに与えてよく、この分類は、MRFによって後で精緻化される。
手法は、画像をk個のセグメントからなる分割πkにオーバセグメンテーションすることであり、kは、実際に予想されるセグメントの数よりもはるかに高い(一般に、k=50)。
セグメント化されたグラフGは、画像内のピクセル(ノードxmのセットV)と、2つの近隣ピクセルを結び付けるエッジ(エッジ{xm,xn}のセットC)とから作り上げられる。以下の形で、これらのエッジに重みを与えてよい。
Figure 0007115846000003
ただし、xn=(Rn,Gn,Bn,Thn,Zn)であり、各次元は、中心化および通分(例えば、正規化)されており、||x||は、ユークリッドノルムである。ユークリッドノルムを、いわゆる「加重後ユークリッド距離」||aTx||によって置き換えることもでき、ただし、aは、各次元に適用されるスケールファクタからなるベクトルである。
Figure 0007115846000004
は、複数の画像が、RGB画像、深度画像、および赤外線画像から成り、aの最初の3つの次元がRGBチャネルに対応し、aの他の2つの次元が深度チャネルおよび赤外線チャネルに対応するケースにおいて、特に良好に機能する。
βは、
Figure 0007115846000005
であるように選択されてよい正の数である。
非特許文献12において説明されているように、隣接行列A、次数行列D、および<<グラフラプラシアン>>Lを導入してよい。
・Aij=w(xm,xn
Figure 0007115846000006
・L=D-A
この方式においては、エッジの重みに応じて、各セグメントを分割するための<<正規化されたカット>>
Figure 0007115846000007
のコストを定義することができる。
Figure 0007115846000008
ただし
・cjは、セグメントCjのインジケータベクトルである。
Figure 0007115846000009
i∈Cjである場合
Figure 0007115846000010
それ以外の場合
j=D1/2j、「正規化ラプラシアン」LN=D-1/2LD1/2であると定義すると、正規化カットを
Figure 0007115846000011
と表現することができる。
正規化カットを拡張して、グラフのk個のセグメントへのグラフの分割πkに対応するグラフ分割エネルギーを定義することができる。
Figure 0007115846000012
このエネルギーは、LNのk個の最も小さい非ゼロ固有値に関連付けられた、k個の固有ベクトルによって最小化されることがある。離散制約(cj∈{1,0}n))を緩和し、インジケータベクトルが実数値
Figure 0007115846000013
を取ることを可能にすると、正規化ラプラシアンの固有ベクトルejによって、クラスタリングを近似すること、すなわち、
Figure 0007115846000014
とすることができる。しかしながら、ベクトルは、一般に、区分的に一定ではない。各クラスタ(セグメント)Cjのための離散インジケータベクトルを見つけるために、以下のように、次元kの空間Hkにおいて、k平均アルゴリズムを適用してよく、すなわち、グラフの各ノードiについて、ベクトルpiを、(pij=(ejiのように関連付けてよい。これらのベクトルは、その後、k平均によってクラスタ化される。
方法は、このようにして、画像のk個のセグメントへのセグメント化を獲得してよく、望ましい総数を獲得するために、方法には、その後に、セグメントの融合のための技法が続いてよい。
技法は、以下のように機能してよい。
2つのセグメントの融合についての利得関数を
Figure 0007115846000015
と定義してよい。
次に、方法は、利得の降順によって、セグメントを融合してよく、これは、多数のk個のセグメントで開始し、最終的に任意のより少数のc個のセグメントを獲得することを可能にする。
方法は、今では、各ピクセル上のラベルを定義する粗いセグメント化を有している。この粗いセグメント化またはクラスタリングは、最終的なセグメント化に対する入力であってよい。
そのような事前クラスタリングに基づいた、マルコフ・ランダム・フィールド(MRF)ベースのセグメント化416cが、今から説明される。
方法は、先行ステップからのクラスタリング(粗いセグメント化)を、最終的な精緻化されたセグメント化を生み出すMRFベースのセグメント化のための入力として使用してよい。クラスタリングを入力として使用するために、方法は、ピクセル毎のラベルを、所与のセグメント内に存在する確率に変換してよい。
これのために、方法は、空間Hd内におけるc個のガウス分布の混合を適用して(d≦cであるように選択する)、ピクセルがセグメントに属する確率Pをそれの近隣ピクセルとは別個に獲得してよい。ガウス混合のこのモデルは、非特許文献13において説明されている期待値最大化アルゴリズムによって学習されてよい。
次に、方法は、スペクトラルクラスタリングのために使用されたのと同じグラフ上で、マルコフ・ランダム・フィールド(MRF)におけるラベルを推測することによって、セグメント化を精緻化してよい。
MRFエネルギーは、
・E(l)=U(l)+λS(l)
であってよい。
ただし、
・U=Σn-logP(ln
・P(ln)は、ガウス混合モデルによって与えられる。
Figure 0007115846000016
・Uは、データ項と呼ばれる。この項は、ピクセルに、ガウス混合によって予想されたラベルを有することを強制する。
・Sは、平滑化項と呼ばれる。それは、ピクセルに、それの近隣ピクセルと同じラベルを有することを強制し、これらの近隣ピクセルが類似の特徴(色、深度、熱)を有する場合は、なおさらそうである。
UおよびSの組み合わせは、画像の特定のコヒーレントなゾーンへのセグメント化を可能にする。ゾーンの辺境は、(R,G,B,Th,Z)空間における強い勾配に対応する。平滑化項にかかるλ係数は、これら2つの影響を考慮する。λの大きい値は、コヒーレントかつ一様なセグメントを促進するが、これらは、クラスタリングステップによって提供された初期情報から強く逸脱することがある。反対に、小さい値については、ピクセルは、それの近隣ピクセルとは別個に、クラスタリングによってそれに最初に与えられたラベルを保つ傾向にある。
このペアワイズMRFを解くために方法によって実施されてよいアルゴリズムの調査は、非特許文献14において見つけられることができる。特に効率的な実施においては、方法は、(例えば、以下のURL、http://vision.csd.uwo.ca/code/において提供される)gco-v3.0コードによって実施されるような、グラフカットアルファ拡張を使用することによって、このタスクを実行してよい。
方法は、より一般には、直接の近隣ピクセルだけよりも大きい近隣をエッジとして取る、このMRFの一般化を実施してよい。そのようなケースにおいては、Sは
Figure 0007115846000017
によって置き換えられる。
ただし、
・dist(m,n)は、ピクセルmとピクセルnとを隔てる距離である。
・C(マルコフ・ランダム・フィールドグラフのエッジのセット)は、例えば、(ユークリッド距離か、それともグラフ距離かに関わらず)所定の閾値を下回る距離を有するピクセルのペアに対応するすべてのエッジのセットである。
これは、初期定義を、すなわち、(隣り合わせ、または上下に位置付けられたピクセルのペアを意味するか、それとも隣り合わせ、上下、または対角線にも位置付けられたピクセルのペアを意味するかに関わらず)近隣ピクセルのペアに対応するすべてのエッジのセットを一般化する。
したがって、保持される所定のされた閾値に応じて、Cは、初期定義に縮小されてよく(そのケースにおいては、Sの定式化における項dist(m,n)-1は、余分な表記にすぎない)、またはCは、(閾値が十分に大きければ)ピクセルのすべてのペアに拡大されてよい。

Claims (10)

  1. シーンのセグメント化された画像を生成するコンピュータ実施方法であって、前記セグメント化された画像はピクセルを含み、各ピクセルはセグメントのセットのそれぞれ1つに割り当てられ、前記方法は、
    前記シーンの複数の画像を提供するステップであって、各画像は、物理信号のそれぞれの獲得に対応し、前記複数の画像は異なる物理信号に対応する少なくとも2つの画像を含む、該ステップと、
    ノードおよびエッジを含むマルコフ・ランダム・フィールド(MRF)グラフ上で定義されたエネルギーを最小化するラベルの分布を決定することによって、前記複数の画像に基づいて、前記セグメント化された画像を生成するステップであって、各ノードは、それぞれのピクセルに対応しおよびそれぞれのラベルに関連付けられ、各エッジは、所定の閾値を下回る距離を有するピクセルのそれぞれのペアに対応し、前記ラベルは、ピクセルをセグメントの前記セットのそれぞれ1つに割り当てるすべての異なる割り当てに対応し、前記エネルギーは、エッジに対応するピクセルのペアを、異なるセグメントに割り当てすることにペナルティを賦課する平滑化項を含み、任意の所与のペアに対する前記ペナルティ賦課は、前記所与のペアの前記ピクセル間の距離が増加するにつれて減少し、前記所与のペアに対する前記ペナルティ賦課は、前記所与のペアの前記ピクセルに対応する前記物理信号のベクトル間の差が増加するにつれてさらに減少する、該ステップと
    を含み、
    前記エネルギーは、各ピクセルの、いずれかのセグメントに対する割り当てにペナルティを賦課するデータ項をさらに含み、前記ペナルティ賦課は、ピクセル毎に、セグメントの前記セットの各々について、前記ピクセルが前記セグメントに属するそれぞれの確率を他のピクセルとは別個に提供する、それぞれの確率分布に基づいており、任意の所与のピクセルに対する前記ペナルティ賦課は、前記所与のピクセルに関する前記確率分布によって提供される前記確率が減少するにつれて増加し、前記確率分布は、ピクセルのクラスタリングに基づいて学習され、
    前記クラスタリングは、スペクトラルクラスタリングを介して実行され、その後に、セグメントの融合の反復が続き、セグメントの数は、前記反復が終了したとき、前記ラベルに対応したものに達することを特徴とするコンピュータ実施方法。
  2. Sと表記される前記平滑化項は、
    Figure 0007115846000018
    という形式を取り、ただし、
    ・mおよびnは、ピクセルインデックスであり、
    ・Cは、前記マルコフ・ランダム・フィールドグラフのエッジのセットであり、
    ・lmは、ピクセルmに関連付けられた前記ラベルであり、lnは、ピクセルnに関連付けられた前記ラベルであり、

    Figure 0007115846000019
    は、ラベルlmおよびlnが異なるときは1に等しく、それ以外のときは0に等しい、インジケータ関数であり、
    ・dist(m,n)-1は、ピクセルmとピクセルnとの間の距離の逆数であり、
    ・xmは、ピクセルmに対応する前記それぞれの物理信号のベクトルであり、xnは、ピクセルnに対応する前記それぞれの物理信号のベクトルであり、
    ・||xm-xn||は、物理信号のベクトルxmと物理信号のベクトルxnとの間の距離であり、
    ・pen( )は、減少関数であることを特徴とする請求項1に記載の方法。
  3. pen( )は、exp(-β||xm-xn||)という形式を取り、ただし、βは、正の整数であることを特徴とする請求項2に記載の方法。
  4. 前記データ項は、
    Figure 0007115846000020
    という形式を取り、ただし、
    ・nは、ピクセルインデックスであり、
    ・lnは、ピクセルnの前記ラベルであり、
    ・P(ln)は、ラベルlnに対応する前記セグメントについての、ピクセルnに関する前記確率分布によって提供される前記確率であることを特徴とする請求項1に記載の方法。
  5. 前記確率分布は、ガウス混合を形成することを特徴とする請求項4に記載の方法。
  6. 前記ガウス混合は、期待値最大化アルゴリズムによって学習されることを特徴とする請求項5に記載の方法。
  7. 前記エネルギーは、E(l)=U(l)+λS(l)という形式を取り、ただし、λは、ポンダレーション係数であり、lは、ラベルの分布であることを特徴とする請求項4ないし6のいずれか1つに記載の方法。
  8. 請求項1ないし7のいずれか1つに記載の方法を実行するための命令を含むことを特徴とするコンピュータプログラム。
  9. 請求項8に記載のコンピュータプログラムが記録されたことを特徴とするデータ記憶媒体。
  10. 請求項8に記載のコンピュータプログラムを記録したメモリに結合されたプロセッサを備えたことを特徴とするシステム。
JP2017245011A 2016-12-30 2017-12-21 マルコフ・ランダム・フィールド最適化を使用するセグメント化された画像の生成 Active JP7115846B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP16306860.4 2016-12-30
EP16306860.4A EP3343507B1 (en) 2016-12-30 2016-12-30 Producing a segmented image of a scene
EP16306861.2 2016-12-30
EP16306861.2A EP3343504B1 (en) 2016-12-30 2016-12-30 Producing a segmented image using markov random field optimization

Publications (2)

Publication Number Publication Date
JP2018109970A JP2018109970A (ja) 2018-07-12
JP7115846B2 true JP7115846B2 (ja) 2022-08-09

Family

ID=62711959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017245011A Active JP7115846B2 (ja) 2016-12-30 2017-12-21 マルコフ・ランダム・フィールド最適化を使用するセグメント化された画像の生成

Country Status (3)

Country Link
US (2) US10497126B2 (ja)
JP (1) JP7115846B2 (ja)
CN (1) CN108269266B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101799380B1 (ko) 2016-04-05 2017-11-22 (주)원익머트리얼즈 디보란 정제장치 및 정제방법

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10573018B2 (en) * 2016-07-13 2020-02-25 Intel Corporation Three dimensional scene reconstruction based on contextual analysis
US10497126B2 (en) * 2016-12-30 2019-12-03 Dassault Systemes Producing a segmented image using markov random field optimization
EP3430595B1 (en) * 2017-05-23 2020-10-28 Brainlab AG Determining the relative position between a point cloud generating camera and another camera
US10896492B2 (en) 2018-11-09 2021-01-19 Qwake Technologies, Llc Cognitive load reducing platform having image edge enhancement
US10417497B1 (en) 2018-11-09 2019-09-17 Qwake Technologies Cognitive load reducing platform for first responders
US11890494B2 (en) 2018-11-09 2024-02-06 Qwake Technologies, Inc. Retrofittable mask mount system for cognitive load reducing platform
US11346938B2 (en) 2019-03-15 2022-05-31 Msa Technology, Llc Safety device for providing output to an individual associated with a hazardous environment
FR3094634B1 (fr) 2019-04-02 2021-03-12 Paillet Stephane Gaine en materiau elastomere pour un manchon de prothese, et manchon sur mesure pour une prothese
US11094074B2 (en) * 2019-07-22 2021-08-17 Microsoft Technology Licensing, Llc Identification of transparent objects from image discrepancies
US11915376B2 (en) 2019-08-28 2024-02-27 Qwake Technologies, Inc. Wearable assisted perception module for navigation and communication in hazardous environments
EP3798967A1 (en) * 2019-09-24 2021-03-31 Rovco Limited Method and system for colour video processing
CN111768421A (zh) * 2020-07-03 2020-10-13 福州大学 一种边缘感知的半自动点云目标分割方法
CN112906707B (zh) * 2021-05-10 2021-07-09 武汉科技大学 一种表面缺陷图像的语义分割方法、装置及计算机设备
CN113256776B (zh) * 2021-06-21 2021-10-01 炫我信息技术(北京)有限公司 图像处理的方法、装置、电子设备和计算机可读存储介质
CN113470048B (zh) * 2021-07-06 2023-04-25 北京深睿博联科技有限责任公司 场景分割方法、装置、设备及计算机可读存储介质
CN115205435B (zh) * 2022-06-14 2023-06-20 中国科学院深圳先进技术研究院 一种改进的基于马尔可夫随机场的纹理映射方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3037432B2 (ja) * 1993-11-01 2000-04-24 カドラックス・インク 光波オーブンによる食物調理方法および調理装置
AUPP603798A0 (en) * 1998-09-18 1998-10-15 Canon Kabushiki Kaisha Automated image interpretation and retrieval system
US7085401B2 (en) * 2001-10-31 2006-08-01 Infowrap Systems Ltd. Automatic object extraction
US7706610B2 (en) * 2005-11-29 2010-04-27 Microsoft Corporation Segmentation of objects by minimizing global-local variational energy
US9204157B2 (en) * 2011-11-18 2015-12-01 Texas Instruments Incorporated Video compression searching reference frame in hybrid growing-window and sliding-window
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
KR102161053B1 (ko) * 2013-09-06 2020-09-29 삼성전자주식회사 영상에 포함된 표의 구조를 생성하는 방법 및 이를 위한 장치
US10719727B2 (en) 2014-10-01 2020-07-21 Apple Inc. Method and system for determining at least one property related to at least part of a real environment
EP3032495B1 (en) * 2014-12-10 2019-11-13 Dassault Systèmes Texturing a 3d modeled object
US9741125B2 (en) * 2015-10-28 2017-08-22 Intel Corporation Method and system of background-foreground segmentation for image processing
CN105869178B (zh) * 2016-04-26 2018-10-23 昆明理工大学 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
US10497126B2 (en) * 2016-12-30 2019-12-03 Dassault Systemes Producing a segmented image using markov random field optimization
US10168879B1 (en) * 2017-05-12 2019-01-01 Snap Inc. Interactive image recoloring

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Carsten Rother, et al,"GrabCut" -- Interactive Foreground Extraction using Iterated Graph Cuts,SIGGRAPH,米国,2004年,p.309-p.314,https://dl.acm.org/doi/pdf/10.1145/1015706.1015720
Yuri Y. Boykov, Marie-Pierre Jolly,Interactive Graph Cuts for Optimal Boundary & Region Segmentation of Objects in N-D Images,Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001,米国,IEEE,2001年07月07日,https://ieeexplore.ieee.org/document/937505
米谷 竜,シーンの色情報と深度情報の統合による自動物体セグメンテーション,情報処理学会研究報告 研究報告 コンピュータビジョンとイメージメディア(CVIM) No.180,一般社団法人情報処理学会,2012年,No.180

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101799380B1 (ko) 2016-04-05 2017-11-22 (주)원익머트리얼즈 디보란 정제장치 및 정제방법

Also Published As

Publication number Publication date
CN108269266A (zh) 2018-07-10
CN108269266B (zh) 2024-02-23
US10497126B2 (en) 2019-12-03
US20180189956A1 (en) 2018-07-05
US10586337B2 (en) 2020-03-10
JP2018109970A (ja) 2018-07-12
US20180189957A1 (en) 2018-07-05

Similar Documents

Publication Publication Date Title
JP7115846B2 (ja) マルコフ・ランダム・フィールド最適化を使用するセグメント化された画像の生成
Furukawa et al. Accurate, dense, and robust multiview stereopsis
EP3343507B1 (en) Producing a segmented image of a scene
Lu et al. An alternative of lidar in nighttime: Unsupervised depth estimation based on single thermal image
Zhang et al. A new high resolution depth map estimation system using stereo vision and kinect depth sensing
EP3665651B1 (en) Hierarchical disparity hypothesis generation with slanted support windows
Hernández et al. Shape from photographs: A multi-view stereo pipeline
O'Byrne et al. A stereo‐matching technique for recovering 3D information from underwater inspection imagery
Pan et al. Automatic segmentation of point clouds from multi-view reconstruction using graph-cut
Yang et al. Stereo matching using epipolar distance transform
Kim et al. Block world reconstruction from spherical stereo image pairs
EP3343504B1 (en) Producing a segmented image using markov random field optimization
Hu et al. IMGTR: Image-triangle based multi-view 3D reconstruction for urban scenes
Romanoni et al. Mesh-based camera pairs selection and occlusion-aware masking for mesh refinement
Tylecek et al. Depth map fusion with camera position refinement
Kim et al. Joint estimation of depth, reflectance and illumination for depth refinement
Zou et al. Scene flow estimation by depth map upsampling and layer assignment for camera-LiDAR system
Fan et al. Photo Hull regularized stereo
Xue et al. A DAISY descriptor based multi-view stereo method for large-scale scenes
Stereopsis Accurate, dense, and robust multiview stereopsis
Singh et al. Accurate three-dimensional documentation of distinct sites
Keller et al. A stereo algorithm for thin obstacles and reflective objects
Qian Efficient poisson-based surface reconstruction of 3D model from a non-homogenous sparse point cloud
Khuboni et al. Adaptive segmentation for multi‐view stereo
Naheyan Extending the Range of Depth Cameras using Linear Perspective for Mobile Robot Applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220728

R150 Certificate of patent or registration of utility model

Ref document number: 7115846

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150