JP7115846B2

JP7115846B2 - マルコフ・ランダム・フィールド最適化を使用するセグメント化された画像の生成

Info

Publication number: JP7115846B2
Application number: JP2017245011A
Authority: JP
Inventors: メーアエロワ
Original assignee: Dassault Systemes SE
Current assignee: Dassault Systemes SE
Priority date: 2016-12-30
Filing date: 2017-12-21
Publication date: 2022-08-09
Anticipated expiration: 2037-12-21
Also published as: CN108269266A; CN108269266B; US10497126B2; US20180189956A1; US10586337B2; JP2018109970A; US20180189957A1

Description

本発明は、コンピュータビジョンの分野に関し、より詳細には、物理信号データの画像獲得に基づいてシーンについてのセグメント化された画像を生成することに関連する方法、システム、およびプログラムに関する。

オブジェクトの設計、エンジニアリング、および製造のための数々のシステムおよびプログラムが、市場に提供されている。ＣＡＤは、Ｃｏｍｐｕｔｅｒ－ＡｉｄｅｄＤｅｓｉｇｎ（コンピュータ支援設計）の頭字語であり、例えば、それは、オブジェクトを設計するためのソフトウェアソリューションに関連する。ＣＡＥは、Ｃｏｍｐｕｔｅｒ－ＡｉｄｅｄＥｎｇｉｎｅｅｒｉｎｇ（コンピュータ支援エンジニアリング）の頭字語であり、例えば、それは、将来の製品の物理的な挙動をシミュレートするためのソフトウェアソリューションに関連する。ＣＡＭは、Ｃｏｍｐｕｔｅｒ－ＡｉｄｅｄＭａｎｕｆａｃｔｕｒｉｎｇ（コンピュータ支援製造）の頭字語であり、例えば、それは、製造プロセスおよび操作を定義するためのソフトウェアソリューションに関連する。そのようなコンピュータ支援設計システムにおいては、技法の効率性に関して、グラフィカルユーザインターフェースが、重要な役割を演じる。これらの技法は、製品ライフサイクル管理（ＰＬＭ：ＰｒｏｄｕｃｔＬｉｆｅｃｙｃｌｅＭａｎａｇｅｍｅｎｔ）システム内に組み込まれてよい。ＰＬＭとは、会社が、製品の開発のために、構想からそれらの寿命が尽きるまで、エクステンデッドエンタープライズという概念にわたって、製品データを共有し、共通プロセスを適用し、企業知識を利用することを助けるビジネス戦略である。ＤａｓｓａｕｌｔＳｙｓｔｅｍｅｓによって（ＣＡＴＩＡ、ＥＮＯＶＩＡ、およびＤＥＬＭＩＡという商標の下で）提供されるＰＬＭソリューションは、製品エンジニアリング知識を組織化するエンジニアリングハブと、製品エンジニアリング知識を管理するマニュファクチャリングハブと、エンジニアリングハブおよびマニュファクチャリングハブの両方への事業統合および接続を可能にするエンタープライズハブとを提供する。すべてが一緒になって、システムは、ダイナミックな知識ベースの製品作成と、最適化された製品定義、製造準備、製造、およびサービスを推進する決定支援とを可能にするための、製品、プロセス、リソースを結び付けるオープンオブジェクトモデルを生み出す。

３次元（３Ｄ）形状は、サーフェス（ｓｕｒｆａｃｅ）ベースおよびボリュメトリック（ｖｏｕｍｅｔｒｉｃ）として表されることができる。サーフェスベースの表現においては、３Ｄジオメトリ（ｇｅｏｍｅｔｒｉｃ）は、閉曲面または開曲面によって定義される。サーフェスは、３Ｄ点である頂点を有する三角形から構成されることができる。サーフェスベースの表現は、ＣＡＤ／ＣＡＭにおいて、およびコンピュータ情報において一般的である。ボリュメトリック表現においては、３Ｄ形状は、ボクセルグリッド内に記憶された値によって３Ｄ空間上で連続的または区分的に定義された、関数ｆ（ｘ，ｙ，ｚ）によって定義される。３Ｄジオメトリは、その場合、関数のある値を満足する空間内の領域としてさらに定義される。一般に、ｆ（ｘ，ｙ，ｚ）が、スカラ値を有する場合、形状は、ｆ（ｘ，ｙ，ｚ）＜ｓ（またはｆ（ｘ，ｙ，ｚ）＞ｓ）として定義され、ただし、ｓは、適切な閾値である。ボリュメトリック表現は、医療アプリケーション、特に、コンピュータ断層撮影法において一般的である。特別なケースとして、領域は、下限と上限との間の狭いバンドであるとして定義されてよく、そのケースにおいては、定義は、ｓを中心とする幅２ｗの狭いバンドを表す、ｓ－ｗ＜ｆ（ｘ，ｙ，ｚ）＜ｓ＋ｗであってよい。

画像セグメント化は、画像、例えば、２次元（２Ｄ）画像または３Ｄ仮想オブジェクトなどの３Ｄ画像をゾーンに分ける。例えば、屋内で撮影されたオブジェクトの２Ｄ画像においては、画像セグメント化は、床を表す画像の部分を識別することと、その部分を、家具、壁など、画像の他の特徴から隔離することとを含むことができる。人間を表す３Ｄ仮想オブジェクトにおいては、セグメント化は、衣服を素肌から弁別すること、または腕を胴体から弁別することを含むことができる。

セグメント化は、多くの画像分析タスクにおいて利用されることができる。例えば、交通制御システムについては、道路沿いのカメラに結合されたコンピュータは、セグメント化を利用して、通過車両を識別し、台数を数えることができる。同様に、監視システムにおいては、画像セグメント化は、画像内の人間の姿を識別し、関節および手足の場所を特定することができ、それは、侵入者の識別を容易化することができる。画像からの３Ｄ形状の再構成も、例えば、再構成がオブジェクトの意味的に重要な部分を識別することを含むときは、セグメント化を利用することができる。

ほとんどの既存のソリューションにおいては、セグメント化は、色（例えば、赤－緑－青（ＲＧＢ））データと、任意選択で深度データとを含む、画像データに対して実行される。深度データは、ピクセル毎に、センサからの距離を表す。深度データは、ＭｉｃｒｏｓｏｆｔＫｉｎｅｃｔ（登録商標）、ＡｓｕｓＸｔｉｏｎ（商標）、またはＧｏｏｇｌｅＴａｎｇｏ（商標）など、利用可能なデバイスを使用してキャプチャされることができる。

こうした状況において、コンピュータビジョン、特に画像セグメント化を改善する必要性が、依然として存在する。

"Ｚｉｅｇｌｅｒｅｔａｌ．，３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎＵｓｉｎｇＬａｂｅｌｅｄＩｍａｇｅＲｅｇｉｏｎｓ" "Ｌｅｕｎｇｅｔａｌ．，３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎｔｈｒｏｕｇｈＳｅｇｍｅｎｔａｔｉｏｎｏｆＭｕｌｔｉ－ＶｉｅｗＩｍａｇｅＳｅｑｕｅｎｃｅｓ" "Ｋｕｏｅｔａｌ．，３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎｗｉｔｈＡｕｔｏｍａｔｉｃＦｏｒｅｇｒｏｕｎｄＳｅｇｍｅｎｔａｔｉｏｎｆｒｏｍＭｕｌｔｉ－ＶｉｅｗｉｍａｇｅｓＡｃｑｕｉｒｅｄｆｒｏｍａＭｏｂｉｌｅＤｅｖｉｃｅ" "Ｋｕｎｄｕｅｔａｌ．，ＪｏｉｎｔＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎａｎｄ３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎｆｒｏｍＭｏｎｏｃｕｌａｒＶｉｄｅｏ"，ＩｎＥＣＣＶ２０１４" "Ｈａｎｅｅｔａｌ．，Ｊｏｉｎｔ３ｄｓｃｅｎｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎａｎｄｃｌａｓｓｓｅｇｍｅｎｔａｔｉｏｎ"，ｉｎＣＶＰＲ２０１３" "Ｙｕｃｅｒｅｔａｌ．，Ｅｆｆｉｃｉｅｎｔ３ＤＯｂｊｅｃｔＳｅｇｍｅｎｔａｔｉｏｎｆｒｏｍＤｅｎｓｅｌｙＳａｍｐｌｅｄＬｉｇｈｔＦｉｅｌｄｓｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓｔｏ３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎ"，ｉｎＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ" "Ｐｒｉｓａｃａｒｉｕｅｔａｌ．，ＳｉｍｕｌｔａｎｅｏｕｓＭｏｎｏｃｕｌａｒ２ＤＳｅｇｍｅｎｔａｔｉｏｎ，３ＤＰｏｓｅＲｅｃｏｖｅｒｙａｎｄ３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎ"，ＩｎＡＣＣＶ２０１２" "Ｈｅｒｂｓｔｅｔａｌ．，ＴｏｗａｒｄＯｎｌｉｎｅ３－ＤＯｂｊｅｃｔＳｅｇｍｅｎｔａｔｉｏｎａｎｄＭａｐｐｉｎｇ"，ＩｎＩＣＲＡ２０１４" Ｒｏｔｈｅｒｅｔａｌ．"ＧｒａｂＣｕｔ－ＩｎｔｅｒａｃｔｉｖｅＦｏｒｅｇｒｏｕｎｄＥｘｔｒａｃｔｉｏｎｕｓｉｎｇＩｔｅｒａｔｅｄＧｒａｐｈＣｕｔｓ"ＳＩＧＧＲＡＰＨ，２００４Ｌｉ，"ＭａｒｋｏｖＲａｎｄｏｍＦｉｅｌｄＭｏｄｅｌｉｎｇｉｎＩｍａｇｅＡｎａｌｙｓｉｓ"，ＡｄｖａｎｃｅｓｉｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００９ "ＡｎｈＶｕＬｅ，Ｓｅｕｎｇ－ＷｏｎＪｕｎｇ，ａｎｄＣｈｅｅＳｕｎＷｏｎ：ＤｉｒｅｃｔｉｏｎａｌＪｏｉｎｔＢｉｌａｔｅｒａｌＦｉｌｔｅｒｆｏｒＤｅｐｔｈＩｍａｇｅｓ，ＩｎＳｅｎｓｏｒｓＪｏｕｒｎａｌ２０１４１１３６２－１１３７８" "ＡｎｄｒｅｗＹＮｇ，ＭｉｃｈａｅｌＩＪｏｒｄａｎ，ＹａｉｒＷｅｉｓｓ，ｅｔａｌ，Ｏｎｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇ：Ａｎａｌｙｓｉｓａｎｄａｎａｌｇｏｒｉｔｈｍ，ｉｎＡｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ，２：８４９－８５６，２００２" "ＳｉｍｏｎＪ．Ｄ．Ｐｒｉｎｃｅ，ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ：Ｍｏｄｅｌｓ，Ｌｅａｒｎｉｎｇ，ａｎｄＩｎｆｅｒｅｎｃｅ，ｉｎＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，ｃｈａｐｔｅｒ７，ｓｅｃｔｉｏｎ４" "Ｊ．Ｋａｐｐｅｓｅｔａｌ，ＡＣｏｍｐａｒａｔｉｖｅＳｔｕｄｙｏｆＭｏｄｅｒｎＩｎｆｅｒｅｎｃｅＴｅｃｈｎｉｑｕｅｓｆｏｒＤｉｓｃｒｅｔｅＭｉｎｉｍｉｚａｔｉｏｎＰｒｏｂｌｅｍｓ，ｉｎＣＶＰＲ２０１３"

したがって、シーンのセグメント化された画像を生成するコンピュータ実施方法が、提供される。セグメント化された画像はピクセルを含み、各ピクセルはセグメントのセットのそれぞれ１つに割り当てられる。本方法は、シーンの複数の画像を提供するステップを含む。各画像は物理信号のそれぞれの獲得に対応する。複数の画像は異なる物理信号に対応する少なくとも２つの画像を含む。本方法は、複数の画像に基づいて、セグメント化された画像を生成するステップも含む。セグメント化された画像の生成は、マルコフ・ランダム・フィールド（ＭＲＦ：ＭａｒｋｏｖＲａｎｄｏｍＦｉｅｌｄ）グラフ上で定義された、エネルギーを最小化する、ラベルの分布を決定することによって実行される。ＭＲＦグラフは、ノードおよびエッジを含む。各ノードは、それぞれのピクセルに対応しおよびそれぞれのラベルに関連付けられる。各エッジは、所定の閾値を下回る距離を有するピクセルのそれぞれのペアに対応する。ラベルは、ピクセルをセグメントのセットのそれぞれ１つに割り当てるすべての異なる割り当てに対応する。エネルギーは、エッジに対応するピクセルのペアを、異なるセグメントに対する割り当てすることにペナルティを賦課する平滑化項を含む。任意の所与のペアに対するペナルティ賦課は、所与のペアのピクセル間の距離が増加するにつれて減少する。所与のペアに対するペナルティ賦課は、所与のペアのピクセルに対応する物理信号のベクトル間の差が増加するにつれてさらに減少する。

本方法は、以下のいずれか１つ、または以下の任意の組み合わせを含んでよい。
－本方法は、１つもしくは複数の透明オブジェクト、および／または１つもしくは複数の反射オブジェクトを含むシーンにおける、コンピュータビジョンの方法を構成する。
－複数の画像は、赤外線画像と、ＲＧＢ画像および深度画像のうちの一方または両方とを含む。
－赤外線画像は、熱画像である。
－シーンは、建物の内部シーン、または建物の外部シーンである。
－シーンは、少なくとも１つの生物学的エンティティを含む。
－本方法は、複数の画像を提供することと、シーンについてのセグメント化された画像を生成することとを反復して、シーンについての複数のセグメント化された画像を生成するステップを含み、本方法は、複数のセグメント化された画像の中の対応するセグメントに基づいて、シーンについての３Ｄモデルを再構成するステップをさらに含む。
－シーンについての３Ｄモデルを再構成するステップは、複数のセグメント化された画像の中の対応するセグメントに基づいて実行され、複数のセグメント化された画像の中の対応するセグメントは、すべて、非生物学的エンティティに対応する。
－複数の画像を提供することを反復するステップは、シーンについての複数のビデオを提供することによって実行され、各ビデオは、物理信号のそれぞれのビデオ獲得に対応する。
－各ビデオ獲得は、複数のセンサが取り付けられたカメラを用いて実行され、各センサは、それぞれの物理信号に対応する。
－カメラは、シーン内で動かされ、同時に、各々がそれぞれの物理信号のビデオ獲得である複数のビデオ獲得を実行する。
－Ｓと表記される平滑化項は、

という形式を取り、ただし、ｍおよびｎは、ピクセルインデックスであり、Ｃは、マルコフ・ランダム・フィールドグラフのエッジのセットであり、Ｃは、マルコフ・ランダム・フィールドグラフのエッジのセットであり、ｌ_mは、ピクセルｍに関連付けられたラベルであり、ｌ_nは、ピクセルｎに関連付けられたラベルであり、

は、ラベルｌ_mおよびｌ_nが異なるときは１に等しく、それ以外のときは０に等しい、インジケータ関数であり、ｄｉｓｔ（ｍ，ｎ）^-1は、ピクセルｍとピクセルｎとの間の距離の逆数であり、ｘ_mは、ピクセルｍに対応するそれぞれの物理信号のベクトルであり、ｘ_nは、ピクセルｎに対応するそれぞれの物理信号のベクトルであり、｜｜ｘ_m－ｘ_n｜｜は、物理信号のベクトルｘ_mと物理信号のベクトルｘ_nとの間の距離であり、ｐｅｎ（）は、減少関数である。
－ｐｅｎ（）は、ｅｘｐ（－β｜｜ｘ_m－ｘ_n｜｜）という形式を取り、ただし、βは、正の整数である。
－エネルギーは、各ピクセルを、いずれかのセグメントに対する割り当てすることにペナルティを賦課するデータ項をさらに含み、ペナルティ賦課は、ピクセル毎に、セグメントのセットの各々について、ピクセルがセグメントに属するそれぞれの確率を他のピクセルとは別個に提供する、それぞれの確率分布に基づいており、任意の所与のピクセルに対するペナルティ賦課は、所与のピクセルに関する確率分布によって提供される確率が減少するにつれて増加し、確率分布は、ピクセルのクラスタリングに基づいて学習される。
－データ項は、Ｕ＝Σ_n－ｌｏｇＰ（ｌ_n）という形式を取り、ただし、ｎは、ピクセルインデックスであり、ｌ_nは、ピクセルｎのラベルであり、Ｐ（ｌ_n）は、ラベルｌ_nに対応するセグメントについての、ピクセルｎに関する確率分布によって提供される確率である。
－本方法は、スペクトラルクラスタリングを介して、クラスタリングを実行し、その後に、セグメントの融合の反復が続き、セグメントの数は、反復が終了したとき、ラベルに対応したものに達する。
－確率分布は、ガウス混合を形成する。
－ガウス混合は、期待値最大化アルゴリズムによって学習される。ならびに／または
－エネルギーは、Ｅ（ｌ）＝Ｕ（ｌ）＋λＳ（ｌ）という形式を取り、ただし、λは、ポンダレーション係数であり、ｌは、ラベルの分布である。

本方法を実行するための命令を含むコンピュータプログラムが、さらに提供される。

コンピュータプログラムを記録したコンピュータ可読記憶媒体が、さらに提供される。

メモリに結合されたプロセッサを備えるシステムが、さらに提供され、メモリには、コンピュータプログラムが記録されている。

例においては、システムは、以下のいずれか１つまたは以下の任意の組み合わせを含んでよい。
－システムは、グラフィカルユーザインターフェースをさらに備え、プロセッサは、グラフィカルユーザインターフェースに結合される。
－グラフィカルユーザインターフェースは、シーンについてのセグメント化された画像、および／またはシーンについての３Ｄ再構成の表現を表示するように構成される。
－システムは、シーンについての複数の画像を獲得するように構成された、１つまたは複数のセンサをさらに備える。
－各センサは、シーンについての複数の画像のうちのそれぞれ１つが対応する、物理信号のそれぞれの獲得のために構成される。
－１つまたは複数のセンサは、材料特性センサと、ＲＧＢセンサおよび深度センサの一方または両方とを含む。
－材料特性センサは、赤外線センサである。
－赤外線センサは、熱センサである。
－システムは、１つまたは複数のセンサが取り付けられた、１つまたは複数のカメラを備え、プロセッサは、１つまたは複数のカメラに結合される。
－１つまたは複数のカメラは、可搬である。
－１つまたは複数のカメラは、システムを形成し、プロセッサと、コンピュータプログラムを記録したメモリとを組み込み、またはあるいは、システムは、プロセッサと、コンピュータプログラムを記録したメモリとを組み込んだ、コンピュータワークステーションを備え、コンピュータワークステーションは、１つまたは複数のカメラに無線で結合される。
－各センサは、別個のカメラに取り付けられ、またはあるいは、システムは、複数のセンサ、例えば、すべてのセンサが取り付けられた、（単一の）カメラを備える。
－１つまたは複数のカメラは、ビデオ獲得のために構成される。
－単一のカメラは、シーン内で動かされ、同時に、各々がそれぞれの物理信号のビデオ獲得である複数のビデオ獲得を実行するように構成され、ここでは、「同時に」によって、複数の獲得されたビデオのすべてについて、獲得（または「記録」）が、（少なくとも実質的に）同時に開始し、（少なくとも実質的に）同時に終了し、したがって、各センサが、並列的に獲得を実行することを意味する。ならびに／または
－複数のビデオは、すべて、同期させられ、ここでは、「同期させられ」によって、複数のビデオが、すべて、同じ周波数を有すること、およびそれらの画像フレームが、すべて、（少なくとも実質的に）同時にキャプチャされることを意味する。

本発明の実施形態が、非限定的な例として、添付の図面を参照しながら、今から説明される。
本発明の例を示す高水準図である。シーンについてのセグメント化を示す図である。３Ｄモデルとして再構成されるべき別のシーンを示す図である。本発明の例を示すフロー図である。本発明の例が実施されてよいコンピュータネットワークまたは類似のデジタル処理環境を示す図である。図５のコンピュータネットワーク内のコンピュータ（例えば、クライアントプロセッサ／デバイス、またはサーバコンピュータ）の例示的な内部構造を示す図である。システムの例を示す図である。建物の外部シーンを示す図である。多基準ＭＲＦの例を示す図である。

シーンにおけるコンピュータビジョンの方法が、提供される。「シーン」は、現実世界の下位区分である。「コンピュータビジョン」という表現は、シーンについての１つまたは複数の画像を含むデジタルデータを処理する方法を指す。シーンについての画像は、シーン上における物理信号の分布の表現、例えば、それの２Ｄまたは３Ｄ表現である。「物理信号」は、任意の種類の物理的特性、例えば、所与の電磁範囲内の放射線放出を表す。物理信号の「獲得」は、その物理信号の分布についてのシーン内で行われた測定である。そのような獲得は、物理的デバイスによって実行されてよく、それは、一般に「カメラ」と呼ばれることがあり、物理信号に対応したセンサが、その上に取り付けられる。そのようなセンサは、物理信号を感知し、物理信号を「デジタル信号」とも呼ばれるデジタルデータに変換するように構成される。画像は、「ピクセル」と呼ばれる下位区分に細分化されてよく、その各々には、物理信号の固定された値が、割り当てられてよい。細分化は、グリッドを形成してよい。グリッドは、規則的であってよい。

提供される方法は、各々が物理信号のそれぞれの獲得に対応する、シーンについての複数の画像を処理する。「物理信号の獲得に対応する」という表現は、所与の画像について、例えば、所与の画像は、その獲得の（得られたままの）結果であるので、またはそれは、後処理（例えば、ノイズ除去などのフィルタリング）を介して、その獲得から導出されたので、所与の画像が、その獲得の結果から生じたことを意味する。

提供される方法は、シーンについてのセグメント化された画像を生成することに関する。シーンについてのセグメント化された画像は、広く知られているように、ピクセルが属するグループを表す追加情報を含む画像であり、各グループは、「セグメント」と呼ばれる。セグメントは、例えば同じ固体もしくは液体、同じ材料、または同じ色など、シーン内の一体的なエンティティに対応する。セグメント化から望まれる結果は、企図されている用途に依存し、セグメント化は、その企図されている用途を考慮して調整されてよい。追加情報は、任意の形態を取ってよい。セグメント化された画像は、各ピクセルの、セグメントのセットのそれぞれ１つへの割り当てを表す情報を含む。セグメントのセットの異なるセグメントは、任意の方法で、例えば、単なるインデックスによって、表されてよい。あるいは、または加えて、セグメントは、セグメントによって表されるシーンの中のエンティティの物理的特徴のメタ記述など、追加仕様に関連付けられてよい。これは、しかしながら、単なる実施の問題であり、本明細書においては、これ以上説明されない。

提供される方法は、複数の画像に基づいて、シーンについてのセグメント化された画像を生成するステップを含み、ここで、複数の画像は、異なる物理信号に対応する少なくとも２つの画像を含む。言い換えると、セグメント化された画像を生成するときには、少なくとも２つの異なる物理信号（すなわち、異なる性質の物理的データ）が、含まれる。これは、単一の種類の物理信号による画像獲得に依存するものよりも正確なセグメント化を可能にする。実際に、セグメント化を行うときに、材料、色、またはオブジェクト間の変わり目の区別が、より容易に行われることがあるように、異なる物理信号は、シーンを表すためにもたらされた情報に関して、互いに補完し合ってよい。また、物理信号の獲得は、物理的ノイズまたはデータホールを含むことがある。異なる物理信号に関連付けられたそのような「誤解を与える情報」は、一般に相関性がないので、異なる物理信号に対応する少なくとも２つの画像の使用は、セグメント化の最中における影響を低減させることが可能である。

異なる物理信号に対応する複数の画像に基づいて、シーンについてのセグメント化された画像を生成することは、任意の種類のシーンについてのセグメント化を改善することがある。改善は、シーンが透明オブジェクトおよび／または反射オブジェクトを含むときに、なおさら著しい。透明オブジェクトは、一般に、光によって横切られることができる少なくとも１つの容易に知覚できるサーフェスを有する、任意のリアルなエンティティを意味する。反射オブジェクトは、一般に、光を反射するサーフェスを有する、任意のリアルなエンティティを意味する。そのようなオブジェクトは、例えば、鏡、もしくは（反射していることがある）金属オブジェクト、（反射していること、および／もしくは透明なことがある）建物のファサード、または（反射していることがある）水溜り、もしくは（反射していること、および／もしくは透明なことがある）プール、湖、もしくは海の表面などの、水エンティティを含んでよい。透明オブジェクトおよび／または反射オブジェクトは、それらは、ＲＧＢセンサおよび深度センサを含むほとんどのセンサに誤解を与える情報を生成するので、セグメント化をかき乱す。透明オブジェクトは、特に、深度センサに誤解を与えるが、そのわけは、深度センサは、オブジェクトを横切る光線を放出し、それによって、正しい深度情報を提供することに失敗するからである。反射オブジェクトは、特に、ＲＧＢセンサに誤解を与えるが、そのわけは、それらの反射面が、オブジェクトの色以外の色を反射するからである。セグメント化における異なる物理信号の使用は、したがって、そのようなケースにおける結果を改善することに、特に関連がある。

複数の画像は、特に、赤外線画像を含んでよい。赤外線画像は、シーン内に１つもしくは複数の透明オブジェクト、および／または１つもしくは複数の反射オブジェクトが存在するケースにおいてさえ、良好なセグメント化を実行することを助けるデータを提供する。ＲＧＢ画像および／または深度画像と組み合わされて、赤外線画像は、そのような特定の状況において、特に高品質のセグメント化を可能にする。

そのようなソリューションは、したがって、シーンが、建物の内部シーンまたは建物の外部シーンであるときに、特に適していることがある。建物の内部シーンは、建物の屋内のシーンである。（「都市シーン」または「建築シーン」とも呼ばれる）建物の外部シーンは、１つまたは複数の建物を含む屋外のシーンである。そのようなシーンは、建物のファサードおよび／または水溜りを含む、特定の建物の外部シーン内に、透明オブジェクトおよび／または１つもしくは複数の反射オブジェクトをしばしば含む。

さらに、そのようなシーンは、人間など、生物学的エンティティをしばしば含む。そのようなケースにおいては、赤外線画像が、シーンについての特に正確なセグメント化に貢献することができるように、赤外線画像は、そのようなエンティティの正確な表現を提供する。これは、赤外線画像が熱画像であるとき、よりいっそう著しい。

シーンのセグメント化は、３Ｄ再構成に、すなわち、物理信号データの獲得に基づいた、シーンについての３Ｄモデルの自動生成に特に適用されてよい。

３Ｄ再構成プロセスは、シーン内において、複数の画像の提供と、上で説明されたようなシーンについてのセグメント化された画像の生成とを反復する（すなわち、何回か実行する）ことを含んでよい。各反復は、各反復における複数の画像が対応する（異なる種類の少なくとも２つの物理信号を含む）複数の物理信号の、シーン内の異なるビューポイントからの獲得に対応してよい。例えば、反復は、シーン内においてビューポイントを動かすことに対応してよい。異なる反復における画像内に存在するシーンの部分は、その後、シーンについての３Ｄ再構成のために使用されてよい。実際に、異なるビューポイントからの、そのような部分を表す画像の利用可能性は、その部分の３Ｄモデルを推測することを可能にする。３Ｄ再構成プロセスは、複数のセグメント化された画像の中の対応するセグメントに基づいて、シーンについての３Ｄモデルを再構成することを特に含んでよい（すなわち、対応するセグメントは、同じ現実世界の物理的エンティティに対応するセグメントである）。シーンのセグメント化を改善することは、それによって、そのような３Ｄ再構成プロセスを改善することがある。そのような３Ｄ再構成プロセスは、広く知られている。

複数のセグメント化された画像の中の対応するセグメントに基づいて、シーンについての３Ｄモデルを再構成することは、一般によく知られており、例が、以下の論文において提供されており、それらのいずれのソリューションも、本明細書において実施可能である。
非特許文献１
非特許文献２
非特許文献３

セグメント化に基づいた３Ｄ再構成の他の例は、以下の論文において提供されている。
非特許文献４
非特許文献５
非特許文献６
非特許文献７
非特許文献８

本明細書においては、（シーンについての３Ｄモデルの再構成がそれに基づいて実行される）複数のセグメント化された画像に共通なセグメントが、すべて、非生物学的エンティティだけに対応する、任意選択の改善が、提案される。

建物の内部または外部シーンのケースにおいては、人間などの生物学的エンティティの存在は、３Ｄ再構成プロセスをかき乱す。実際に、そのようなケースにおいては、生物学的エンティティは、セグメント化を反復している間に動き、対応するセグメントは、３Ｄ再構成のためには不正確な情報を伝える。そのような動くエンティティに対応するセグメントの３Ｄ再構成からの除外は、それによって、３Ｄ再構成の正確性およびロバスト性を改善する。生物学的エンティティに関してセグメント化の正確性を改善することは、したがって、建物の内部または外部シーンを再構成する状況において特に関連がある。

（セグメントを対応物に変換することによって３Ｄ再構成を実行するために）セグメント化された画像のセットから生物学的エンティティに対応するセグメントを除去することは、いずれの方法で実行されてもよい。広く知られているように、生物学的エンティティは、そのような除去が高速かつ容易になることがあるような、高度に認識可能なシグネチャを有する。

人間工学の例においては、３Ｄ再構成プロセスは、セグメント化に含まれる物理信号のそれぞれ１つについてのそれぞれのビデオを各々が獲得する、１つまたは複数のビデオカメラを用いて実行されてよい。例えば、同じ単一のビデオカメラが、異なるセンサ（各々がそれぞれの物理信号に適合された、例えば、赤外線センサ、ならびに深度センサ、および／またはＲＧＢセンサ）を組み込んでよく、ユーザ、自動車、またはロボットが、カメラを保持し、セグメント化に含まれる物理信号のビデオストリームをキャプチャしながら、シーン内を動いてよい。各生成は、異なる物理信号を含むので、各フレームが、シーンの正確なセグメント化された画像を生成することを可能にするように、ビデオは、同期させられてよい。

異なる物理信号に対応する複数の画像に基づいて、セグメント化された画像を生成することは、一般にいずれの方法で実行されてもよい。特に効率的な方法は、マルコフ・ランダム・フィールド（ＭＲＦ）エネルギー最小化を用いて、セグメント化された画像を生成することである。そのような最小化は、特に高速かつロバストに実行されることができる。

広く知られているように、ＭＲＦエネルギー最小化は、エネルギーを最小化する、グラフ上のいわゆる「ラベル」の分布を決定することに相当する、任意のアルゴリズムを意味する。グラフは、定義によって、ノードと、ノードのペアを結び付けるエッジとを有する。グラフは、「ＭＲＦグラフ」と呼ばれることがある。ラベルは、定義によって、ＭＲＦグラフの各ノードに割り当てられるべき、所定のセットの値である（ノード当たり１つのラベル）。所定のセットが、（本明細書におけるケースのように）離散的であるとき、ＭＲＦエネルギー最小化は、特に高速に収束する（「離散的ＭＲＦ最小化アルゴリズム」と呼ばれる）異なるアルゴリズムに従って実行されてよい。例が、後ほど提供される。

エネルギーは、所与の順序の（ＭＲＦグラフの）クリークの総和として各々が定義される、異なるコスト項を含んでよい。コスト項は、すべてのノード上で定義された、（「データ項」とも呼ばれる）単項を含んでよい。コスト項は、エッジによって結び付けられたグラフのノードのペア上で定義された、（「平滑化項」とも呼ばれる）バイナリ項またはペアワイズ項を含んでもよい。ラベルのセットが、離散的であり、エネルギーが、より高次のコスト項を含まないとき、最小化は、さらに特に高速に収束する（「離散的ペアワイズＭＲＦ最小化アルゴリズム」と呼ばれる）異なるアルゴリズムに従って実行されてよい。既存のアルゴリズムが、知られている。やはり、例が、後ほど提供される。

本ケースにおいては、各ノードは、セグメント化された画像のそれぞれのピクセルに対応してよく、ラベルは、ピクセルをセグメントのセットのそれぞれ１つに割り当てるすべての異なる割り当てに対応してよい。最小化は、したがって、ピクセル毎に、セグメントのセットのそれぞれ１つへの最適な割り当てを見つけることによって、セグメント化を遂行する。

ＭＲＦグラフは、相関を有すると思われるノードを結び付ける。本ケースにおいては、ＭＲＦグラフは、各エッジが、所定の閾値を下回る距離を有するピクセルのそれぞれのペアに対応するように、定義されてよい。距離は、ユークリッド距離またはグラフ距離など、任意の距離であってよい。ＭＲＦグラフは、したがって、直接的隣接ピクセルであるピクセルのペアを、および任意選択で、互いにより遠いピクセルのペア（閾値が十分に大きいならば、おそらくはピクセルのすべてのペア）を結び付けてよい。実施の例が、後ほど提供される。

ここで、エネルギーは、最適なラベリングが、複数の画像のうちのすべての画像から取られた寄与または基準に依存するように、設計されてよい。この理由で、以下では、「多基準ＭＲＦ」という表現に言及することがある。

特に、エネルギーは、エッジに対応するピクセルのペアの、異なるセグメントに対する割り当てにペナルティを賦課する平滑化項を含む。言い換えると、エネルギーは、エッジによって同じセグメントに接続されるピクセルに割り当てられる傾向にあり、またはさらに言い換えると、エネルギーは、近接ピクセルに、同じセグメントに属することを強制する。任意の所与のペアに対するペナルティ賦課は、所与のペアのピクセル間の距離が増加するにつれて減少する。言い換えると、同じセグメントに割り当てられていない、エッジによって接続された２つのピクセルのコストは、その２つのピクセルが、（例えば、グリッド上において）他方の近くに配置されるとき、なおさら重要になる。ここでもやはり、距離は、任意の距離、例えば、ユークリッド距離である。所与のペアに対するペナルティ賦課は、所与のペアのピクセルに対応する物理信号のベクトル間の差が増加するにつれてさらに減少する。言い換えると、エネルギー最小化は、それぞれのピクセルに各々が割り当てられるベクトルを考慮する。ベクトルがその中で定義される空間は、各次元が複数の画像のそれぞれ１つに対応する空間である。言い換えると、ベクトルの各座標は、複数の画像のうちの対応する１つによって獲得された、それぞれのモダリティまたは物理信号の値である。ベクトル間の距離が、その場合、企図される。やはり、距離は、（中心化および通分、または正規化の後の）ユークリッド距離、または「加重後ユークリッド距離」など、任意の距離であってよい。同じセグメントに割り当てられていない２つのピクセルのコストは、その場合、それらのベクトルが近接しているとき、なおさら重要になる。

そのような平滑化項は、利用可能な異なる物理信号情報をうまく考慮し、それに基づいた正確なセグメント化を遂行する。

多くのケースにおいては、セグメント化の目的は、現実世界の材料および／または色の変わり目を識別することである。例えば、セグメント化は、影などの画像内のアーチファクトと、２つの材料間の現実の変わり目とを区別することができるセグメント化は、色度ヒストグラムを導入することによって、セグメント化を照度に対して不変にすることもできる。測光不変量のクラスは、材料を形状および照度から分離することができる。しかしながら、既存の手法は、それらが画像からの情報だけに依存するとき、しばしば脆弱である。したがって、多くの条件において、例えば、濃い影が暗色のオブジェクトを部分的に覆うとき、セグメント化は、不可能になる。同様に、セグメント化は、明色のオブジェクトが、空、光る鏡面性を有するオブジェクトを背景にしてセットされた場合、またはともに同じ色の２つの材料間の変わり目において、困難であることができる。これらのセグメント化の難題は、可視光だけを使用する既存の画像ベースのセグメント化アルゴリズムには、克服不可能であることができる。

本発明の例においては、システムおよび方法は、ＲＧＢ／ＲＧＢ－深度／深度キャプチャを、ＣｏｎｓｕｍｅｒＰｈｙｓｉｃｓ（商標）が製造するＳＣｉＯ（商標）などの分子センサ、熱センサ、およびテラヘルツスキャナを含む、材料特性を感知することが可能な１つまたは複数の他のセンサに関連付けることができる。これらのセンサからの情報は、画像をより正確にセグメント化するために、ＲＧＢ／ＲＧＢ－深度／深度データを補完する。このセグメント化は、２Ｄ画像上において、またはＫｉｎｅｃｔ（登録商標）ＦｕｓｉｏｎなどのＲＧＢ／ＲＧＢ－深度／深度再構成手法の１つによって作成された３Ｄ再構成上において行うことができる。再構成手法は、一般に、画像上のＲＧＢまたは深度ピクセルを、再構成されたオブジェクト上の対応するサーフェス点に関連付けるので、セグメント化は、２Ｄ画像または３Ｄ再構成の両方のために利用されることができる。３Ｄ形状再構成のケースにおいては、使用される画像のセットは、強くオーバラップしており、単一の画像においては隠されることができる多くの部分を露わにするので、セグメント化のロバスト性は、一般に、画像のケースにおけるよりも良好である。

本発明の例においては、材料特性情報を色および深度情報と組み合わせて利用することは、連続的により多くのケースにおいて、既存の方法と比較してはるかに高い正確性およびロバスト性で、オブジェクトをセグメント化することができる。

例においては、システム、方法、および非一時的コンピュータ可読媒体は、プロセッサにおいて、第１の画像を第２の画像と位置合わせ（ａｌｉｇｎ）するステップを含む。第１の画像および第２の画像は、実質的に同じシーンの異なる電磁範囲を表す。方法は、第１の画像からの基準および第２の画像からの基準の両方を使用して、セグメント化された画像を生成するステップをさらに含むことができる。第１の画像からの基準のうちの１つまたは複数の基準は、第２の画像からの基準のうちの１つまたは複数の基準に対して独自であることができる。独自である基準は、可視光スペクトル（近似的に３００ないし７００ｎｍ）、および赤外線（７００ないし１ｍｍ）を含む、電磁スペクトルの異なる部分の基準を含むことができるが、電磁スペクトルの他の部分も、同様に利用されることができる。

例においては、画像を位置合わせするステップは、第１の画像および第２の画像の特徴を検出するステップと、第１の画像と第２の画像との間のペアワイズ対応を見つけるために、特徴をマッチさせるステップと、第１の画像を第２の画像に位置合わせするために、第１の画像および第２の画像の少なくとも一方を歪曲させるステップとをさらに含むことができる。

例においては、画像を位置合わせするステップは、（ａ）第１の画像および第２の画像を生成するために利用されたセンサについての提供された較正からのデータ、および（ｂ）シーンについての深度画像からのデータを適用するステップをさらに含むことができる。

例においては、第１の画像は、赤－緑－青（ＲＧＢ）カラーモデル画像であり、第２の画像は、材料特性画像である。

例においては、材料センサ画像は、赤外線画像、熱画像、紫外線画像、ｘ線画像、またはガンマ線画像である。

例においては、方法は、第１の画像および第２の画像を、共通の物理的架台を共有し、知られた相対的位置付けを有する、それぞれの第１および第２のセンサからキャプチャするステップをさらに含む。画像を位置合わせするステップは、さらに、知られた相対的位置付けに基づくことができる。

例においては、セグメント化された画像を生成するステップは、マルコフ・ランダム・フィールド（ＭＲＦ）手法を利用する。

例においては、第１の画像は、ＲＧＢカラーモデル画像であり、第２の画像は、材料特性画像である。

本発明の例においては、コンピュータシステムまたは方法は、シーンについての２Ｄ画像または３Ｄモデル上において効率的で信頼性のある改善されたセグメント化を提供するために、シーンからの可視光データを、赤外線データ、熱データ、または深度データなどの材料特性感知データと融合させることができる。

図１は、本発明の例を示す高水準図１００である。取り付け装置１０２（またはカメラ）は、ＲＧＢセンサ１０４および材料特性センサ１０８を取り付けるように構成される。ＲＧＢセンサ１０４および材料特性センサ１０８は、知られた較正相対位置付け１５８だけ離れている。ＲＧＢセンサ１０４は、ＲＧＢ見晴らし点１０６から、可視光スペクトルで、シーン１１２を撮像する。材料特性センサ１０８は、材料特性見晴らし点１１０から、赤外線（ＩＲ）放射などの材料特性スペクトルで、シーン１１２を撮像する。較正相対位置付け１５８は、２つの異なるそれぞれの見晴らし点１０６、１１０から撮られている、ＲＧＢセンサ１０４からの画像と材料特性センサ１０８からの画像とを位置合わせするために使用されることができる。単一のデバイスの実質的に同じ場所に取り付けられたＲＧＢセンサ１０４および材料特性センサ１０８は、同じセンサであることができ、またはデュアル機能を有するセンサが、ＲＧＢセンサと同じセンサであることができ、したがって、それらは、ゼロの較正相対位置付け１５８を有し、その上、各画像のための見晴らし点１０６、１１０は同じであることができることを、当業者は認識することができる。

シーン１１２は、床１３０、靴１３２、１３４、絨毯１３６、１３８、およびラジエータ１４０を含む、部屋であることができる。ユーザは、シーン１１２についての画像を、例えば、これらまたは他のオブジェクトのいずれかの１つまたは複数を有する、別々の画像またはレイヤにセグメント化することを望むことがある。シーンは、深度１１４も含み、深度画像は、上に列挙されたオブジェクトの様々な深度を、そのセンサに関連して、ピクセル毎ベースで表現することができる。シーン１１２は、図２においてさらに示されている。

ＲＧＢセンサ１０４および材料特性センサ１０８は、各々が、同じまたは近い見晴らし点１０６、１０８（例えば、ビューポイント）において、シーン１１２についてのそれぞれの画像をキャプチャする。相対キャプチャ点／座標、または２つのそれぞれのセンサ１０４および１０８間の較正相対位置付け１５８は、キャプチャ後に２つの画像を位置合わせするために記録される。ＲＧＢセンサ１０４は、少なくとも１つの第１のＲＧＢ／ＲＧＢ－深度／深度感知画像をキャプチャし、材料特性センサ１０８は、少なくとも１つの材料特性画像をキャプチャする。材料特性画像の１つの例は、ＩＲ画像であるが、そのわけは、そのような画像が、材料特性を、特に、ＩＲスペクトルにおける放射を生成する分子振動を正確に表現することができるからである。ＩＲ画像は、受動的または能動的にキャプチャされることができる。近ＩＲ周波数範囲（例えば、近似的に１μｍ）は、一般に、能動的照明を必要とするが、熱周波数範囲（例えば、近似的に１０μｍ）は、能動的照明を用いずに、受動的にキャプチャされることができる。

例においては、ＲＧＢセンサ１０４は、セルフォンカメラなど、標準的なデジタルカメラとすることができる。材料センサ１０８は、モバイルデバイス（例えば、フォン、スマートフォン、タブレット、グラス）に動作可能に接続する、ＳｅｅｋＴｈｅｒｍａｌ（商標）製品などの、熱カメラとすることができる。１つの統合されたデバイス（例えば、取り付け装置１０２）は、ＲＧＢセンサ１０４、およびＦＬＩＲＯＮＥ（商標）製品におけるような、材料（例えば、熱）センサ１０８の両方を取り付けることができる。任意選択で、センサ構成は、深度センサ、例えば、構造センサも含むことができる。深度センサは、各ピクセル値がセンサからのその特定のピクセルまでの距離である各ピクセル値を有する、深度画像を生成する。深度センサは、ＲＧＢセンサ１０４の一部、材料特性センサ１０８の一部、第３のセンサ（図示されず）の一部、または別個のセンサとすることができる。

図１を再び参照すると、画像（例えば、シーン１１２についてのＲＧＢ画像１５０、材料センサ画像１５２、および深度画像１５３）の各セットについて、本発明の例は、画像を分析して、セグメント化された画像１５６を生成する。セグメント化モジュール１６０は、同じシーンについてのＲＧＢ画像１５０、材料センサ画像１５２、および深度画像１５３を受け取る。セグメント化モジュール１６０は、セグメント化された画像１５６を生成するために、少なくともＲＧＢ画像１５０および材料センサ画像１５２も利用し、任意選択で、深度画像１５３および任意選択の較正データ１５４を利用することができる。

セグメント化モジュール１６０は、その後、最初に、ビューポイント（例えば、ＲＧＢ見晴らし点１０６および材料特性見晴らし点１１０）のいずれの相違も補償するために、画像を歪曲させることによって、セグメント化された画像１５６を生成する。ＲＧＢ画像１５０および材料特性画像１５２は、取り付け装置１０２に非常に近接して配置されることができるセンサ１０４、１０８によってキャプチャされる。したがって、それぞれの画像１５０、１５２は、僅かに異なる見晴らし点１０６、１１０からシーンをキャプチャすることができる。画像を歪曲させることは、セグメント化モジュール１６０に提供される情報に応じて、異なる方法で実行されることができる。

セグメント化モジュール１６０によって受け取られた画像のセットが、ＲＧＢ画像１５０および材料特性画像１５２に加えて、深度画像１５３を含む場合、およびセグメント化モジュール１６０が、センサが事前較正されていることを示す較正データ１５４を受け取った（例えば、デバイス上のそれらの相対的な３Ｄ位置が知られている）場合、セグメント化モジュール１６０は、非深度画像を深度センサによって所与の３Ｄサーフェス上に投影し、その後、画像を共通のビューポイント上に投影し戻す。

セグメント化モジュール１６０が、深度画像１５３または較正データ１５４を受け取らなかった場合、セグメント化モジュール１６０は、ＲＧＢ画像１５０および材料特性画像１５２における特徴点のペアワイズ対応を介して、画像を歪曲させる。

多くのケースにおいては、それぞれのセンサ１０４、１０８の位置とともに変化することができる遮蔽アーチファクトのせいで、ピクセルのすべてが比較可能なように、ＲＧＢ画像１５０および材料特性画像１５２を位置合わせすることは不可能である。しかしながら、これは、僅かな比率のピクセルにだけ影響し、ＲＧＢセンサ１０４および材料特性センサ１０８の１つまたは複数が、ノイズまたは他の原因のせいで不完全なデータを生み出す状況と差がないので、特別な対処を必要としない。

画像がひとたびピクセル毎に位置合わせされると、セグメント化モジュールは、各画像１５０、１５２内に含まれる補完情報に基づいて、ＲＧＢ画像１５０および材料特性画像１５２をセグメント化することができる。

セグメント化を実行するいくつかの技法が、存在する（例えば、その全体が参照によって組み込まれる、非特許文献９を参照）。例においては、セグメント化は、各画像からの寄与を取ったエネルギーを用いる、変更されたマルコフ・ランダム・フィールド（ＭＲＦ）手法を適用することによって、実行されることができる（例えば、非特許文献１０を参照）。

可視光データおよびＩＲ範囲データは、異なりかつ補完的であるので、本発明の例のシステムおよび方法は、より良好な結果を生成する。ＩＲ範囲放射は、材料の分子構造の関数として放出される。同じ温度にある材料であっても、放射率の差のせいで、熱ＩＲバンドにおいては異なるＩＲ範囲放射を放出する。システムが、このプロセスを強化するために、ＩＲ範囲放射を能動的に供給する場合でさえも、放射の吸収および再放出は、実用的な目的では、可視光の反射とまったく異なったままである。

図２Ａないし図２Ｃは、共通のシーンを示す例示的な画像である。図２Ａは、ＲＧＢシーン２００を示している。（グレイスケールで表された）ＲＧＢシーン２００は、可視光スペクトルからキャプチャされた光を示す。可視光スペクトルからのデータだけを有する、ＲＧＢシーン２００上における従来の画像セグメント化だけを実行するとき、セグメント化システムは、図２Ａにおいて青で示されるセグメント化ラインを決定することができる。これらのラインは、役に立つことができるが、それらは、オブジェクトのすべてをトレースするには不完全であることを、当業者は理解することができる。

図２Ｂは、熱放射率画像であるオーバレイされたＩＲシーン２２２を有するＲＧＢシーン２２０を示している。ＩＲシーン２２２は、シーンのラジエータの熱を表す異なる色によって示されるように、シーンの熱特性を検出する。ＩＲシーン２２２は、シーンのラジエータおよび靴の周辺にさらなる詳細を有するので、セグメント化は、そのエリアについてより正確なセグメント化境界を見つけることができる。セグメント化境界は、赤い実線によって示されている。

図２Ｃは、セグメント化されたシーン２４０を示している。セグメント化されたシーン２４０は、ＲＧＢシーン２００と、組み合わされたＲＧＢシーン２２０およびＩＲシーン２２２との両方の分析を利用して、ラジエータ、靴、および絨毯の一方をセグメント化する境界を生成する。したがって、青いセグメント化境界および赤いセグメント化境界は、画像をより良好にセグメント化するために、組み合わされることができる。ＲＧＢ画像によって表現された境界は、ＩＲシーン２２２（例えば、熱放射率画像）によって表現された境界に対して補完的である。実際に、セグメント化モジュール４１６は、画像を接続されたピクセルからなるグラフであると見なし、それらを別々のセグメントに分類する、ピクセルの最も可能性の高いラベリングを計算することによって機能する。ピクセルの強い強度勾配が存在する場合、セグメント化モジュール４１６は、これを２つのセグメント間の潜在的な境界として識別する。上半分においてはＲＧＢ日光によって、下半分においては熱画像によって輪郭が描かれたシーン２２２を例に取る場合、セグメント化モジュール４１６が、ＲＧＢまたは熱情報だけを使用して、靴をシーンの残りから分離するセグメント化を見つける可能性は非常に低く、そのわけは、各々において、強い勾配は、靴画像の一部だけにわたって、一方の画像においては靴の上側、他方においては下側にだけ存在するからである。２つを組み合わせ、セグメント化が成功する可能性を高めるために、方法は、セグメント化モジュール４１６の内部において、入力データに対する以下の操作を実行してよく、すなわち、位置合わせされた熱画像およびＲＧＢ（Ｄ）画像の所与のピクセルについて、方法は、それの勾配が、画像の各々におけるそれの勾配の大きい方に等しいと見なしてよい。すべての位置合わせされた画像のすべてのピクセルに対してこの操作を実行することは、画像を生み出し、これをｍａｘｖａｒ画像と呼ぶことにする。ｍａｘｖａｒ画像を検査するとき、靴の上側輪郭および下側輪郭の両方に沿って強度の強い変化を観測する。したがって、ｍａｘｖａｒ画像に基づいてセグメント化を行うことによって、方法は、靴を画像の別々のセグメントとして識別することに成功するはるかに高い確率を有することがある。

本発明の例は、現実生活のシーンから仮想３Ｄモデルを再構成するシステムの一部として利用されることもできる。図３は、３Ｄモデルとして再構成される別のシーン３００を示している。例えば、非常に近接している茶色の木材壁３０８および茶色のれんが壁３０６を有するシーンを観測している、材料センサデータを用いない、ＲＧＢデータおよび深度データだけに基づいたシステムは、２つの壁３０６および３０８の茶色が似すぎている場合、これら２つの材料を区別することができない。しかしながら、本発明の例においては、ＩＲ画像上では、材料の異なる放射率が別個のものとして見えることから、熱ＩＲカメラからの情報の追加が、茶色の木材壁３０８を茶色のれんが壁３０６から分離する助けとなることができる。画像が組み合わされるとき、セグメント化プロセスは、画像のいずれか一方におけるデータの推移に基づいて、境界を決定する。このケースにおいては、熱ＩＲ画像が、主たる境界情報を与えるが、他の材料特性画像からの他の境界情報も、利用されることができる。

別の例として、水は、光を反射し、透過させ、回折させるから、満たされた浴槽３０２など、水のＲＧＢ画像は、視覚的な手段によってセグメント化することが難しい。同様に、窓のガラス３０４の反射、透過、および散乱は、同様に、困難を引き起こすことができる。これらの反射、透過、および回折は、水をその周囲のものと視覚的に区別がつかなくさせることができる。しかしながら、水は、異なる材料放射率を有し、したがって、熱画像においては目立ち、したがって、弁別および分離することが容易である。

図４は、本発明の例を示すフロー図４００である。プロセスは、ＲＧＢ画像および材料センサ画像をキャプチャし、画像をセグメント化モジュールに提供することによって開始する（４０２）。任意選択で、プロセスは、画像をキャプチャするために使用されたセンサの較正データを提供することができる（４０４）。較正データは、センサ間の相対的位置付け、センサの相対座標、および／またはセンサの結果画像を位置合わせすることを支援することができる他の任意の情報を含むことができる。任意選択で、プロセスは、同様に深度画像をセグメント化モジュールに提供することができる（４０６）。深度画像は、ピクセル毎に、その特定のピクセルにおけるセンサからオブジェクトまでの距離を表す深度を含む、画像である。

セグメント化モジュールは、次に、任意選択の較正データ（４０４）および深度画像（４０６）が提供されたかどうかを決定してよい（４０８）。提供されなかった場合、セグメント化モジュールは、特徴検出およびマッチングを実行することによって、ＲＧＢ画像と材料センサ画像との間のペアワイズ対応を見つけてよい（４１２）。セグメント化モジュールは、次に、歪曲化を適用することによって、画像を位置合わせしてよい（４１４）。次に、システムは、本発明の変更された多基準ＭＲＦを使用して、画像のセグメント化を見つけてよい（４１６）。システムは、次に、セグメント化された画像を出力してよい（４１８）。

しかしながら、較正データおよび深度画像が利用可能である場合（４０８）、システムは、深度情報を使用して、２つの画像のピクセルを位置合わせしてよい（４１０）。次に、システムは、本発明の変更された多基準ＭＲＦを使用して、画像のセグメント化を見つけてよい（４１６）。システムは、次に、セグメント化された画像を出力する（４１８）。

図５は、本発明の例が実施されてよいコンピュータネットワークまたは類似のデジタル処理環境を示している。

１つまたは複数のクライアントコンピュータおよび／またはデバイス５０、ならびに１つまたは複数のサーバコンピュータ６０は、アプリケーションプログラムなどを実行する処理デバイス、記憶デバイス、および入力／出力デバイスを提供する。クライアントコンピュータおよび／またはデバイス５０は、通信ネットワーク７０を通して、他のクライアントデバイスおよび／またはデバイス５０、ならびにサーバコンピュータ６０を含む、他のコンピューティングデバイスに結び付けられることもできる。通信ネットワーク７０は、リモートアクセスネットワーク、グローバルネットワーク（例えば、インターネット）、世界規模のコンピュータの集まり、ローカルエリアまたはワイドエリアネットワーク、および現在はそれぞれのプロトコル（ＴＣＰ／ＩＰ、Ｂｌｕｅｔｏｏｔｈ（登録商標）など）を使用して互いに通信するゲートウェイの一部とすることができる。他の電子デバイス／コンピュータネットワークアーキテクチャも、適している。

図６は、図５のコンピュータシステム内のコンピュータ（例えば、クライアントコンピュータもしくはデバイス５０、またはサーバコンピュータ６０）の例示的な内部構造の図である。各コンピュータ５０、６０は、システムバス７９を含み、バスは、コンピュータまたは処理システムのコンポーネント間におけるデータ転送のために使用されるハードウェアラインのセットである。システムバス７９は、基本的に、コンピュータシステムの異なる要素（例えば、プロセッサ、ディスクストレージ、メモリ、入力／出力ポート、ネットワークポートなど）を接続し、要素間における情報の転送を可能にする、共用コンジットである。システムバス７９には、様々な入力デバイスおよび出力デバイス（例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカなど）をコンピュータ５０、６０に接続するためのＩ／Ｏデバイスインターフェース８２が、アタッチされる。ネットワークインターフェース８６は、コンピュータが、ネットワーク（例えば、図５のネットワーク７０）にアタッチされた様々な他のデバイスに接続することを可能にする。メモリ９０は、本発明の例を実施するために使用される、コンピュータソフトウェア命令またはルーチン９２Ａおよびデータ９４（例えば、上で詳述されたアライメントモジュールおよびセグメント化モジュールコード）のための揮発性記憶を提供する。ディスクストレージ９５は、本発明の例を実施するために使用される、コンピュータソフトウェア命令またはオペレーティングシステムプログラム９２Ｂおよびデータ９４のための不揮発性記憶を提供する。中央プロセッサユニット８４も、システムバス７９にアタッチされ、コンピュータ命令の実行を提供する。

例においては、ソフトウェア命令９２Ａないし９２Ｂおよびデータ９４は、本発明のシステムのためのソフトウェア命令の少なくとも一部を提供する非一時的コンピュータ可読媒体（例えば、１つまたは複数のＤＶＤ－ＲＯＭ、ＣＤ－ＲＯＭ、ディスケット、テープなどのリムーバブル記憶媒体）を含む、（全体として９２として参照されてよい）コンピュータプログラム製品を構成する。コンピュータプログラム製品９２は、当技術分野においてよく知られているように、任意の適切なソフトウェアインストール手順によってインストールされることができる。別の例においては、ソフトウェア命令の少なくとも一部は、ケーブル通信および／または無線接続上でダウンロードされてもよい。他の例においては、本発明のプログラムは、伝搬媒体（例えば、インターネットまたは他のネットワークなどのグローバルネットワーク上で伝搬させられる電波、赤外線波、レーザ波、音波、または電気波）上の伝搬信号上において具体化されるコンピュータプログラム伝搬信号製品である。そのようなキャリア媒体または信号は、本発明のルーチン／プログラム９２のためのソフトウェア命令の少なくとも一部を提供するために、利用されてよい。

方法は、コンピュータ実施される。これは、方法のステップ（または実質的にすべてのステップ）が、少なくとも１つのコンピュータまたは任意の同様のシステムによって実行されることを意味する。したがって、方法のステップは、コンピュータによって、おそらくは完全に自動的に、または半自動的に実行される。例においては、方法のステップの少なくともいくつかのトリガは、ユーザ－コンピュータ対話を通して実行されてよい。必要とされるユーザ－コンピュータ対話のレベルは、予想される自動性のレベルに依存してよく、ユーザの望みを実施するための必要性とバランスを取ってよい。例においては、このレベルは、ユーザ定義および／または事前定義されてよい。

図７は、システムの例を示す。

例のシステムは、内部通信バス１０００に接続された中央処理ユニット（ＣＰＵ）１０１０と、やはりＢＵＳに接続されたランダムアクセスメモリ（ＲＡＭ）１０７０とを備える。システムは、さらに、ＢＵＳに接続されたビデオランダムアクセスメモリ１１００と関連付けられたグラフィカル処理ユニット（ＧＰＵ）１１１０を提供される。ビデオＲＡＭ１１００は、当技術分野において、フレームバッファとしても知られている。大容量記憶デバイスコントローラ１０２０は、ハードドライブ１０３０などの大容量メモリデバイスへのアクセスを管理する。コンピュータプログラム命令およびデータを有形に具体化するのに適した大容量メモリデバイスは、例として、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスなどの半導体メモリデバイス、内蔵ハードディスク、およびリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにＣＤ－ＲＯＭディスク１０４０を含む、不揮発性メモリのすべての形態を含む。上記のいずれも、特別に設計されたＡＳＩＣ（特定用途向け集積回路）によって補助されてよく、またはＡＳＩＣに組み込まれてよい。ネットワークアダプタ１０５０は、ネットワーク１０６０へのアクセスを管理する。システムは、カメラ１０９０に無線で結合されてよい。カメラは、その上に取り付けられたいくつかのセンサを含んでよく、カメラ１０９０は、ビデオカメラであってよい。

コンピュータプログラムは、コンピュータによって実行可能な命令を含んでよく、命令は、上記のシステムに方法を実行させるための手段を含む。プログラムは、システムのメモリを含む、任意のデータ記憶媒体上に記録可能であってよい。プログラムは、例えば、デジタル電子回路で、もしくはコンピュータハードウェア、ファームウェア、ソフトウェアで、またはそれらの組み合わせで実施されてよい。プログラムは、装置として、例えば、プログラム可能なプロセッサによる実行のためにマシン可読記憶デバイス内に有形に具体化された製品として実施されてよい。方法ステップは、入力データを操作し、出力を生成することによって、方法の機能を実行する、命令からなるプログラムを実行するプログラム可能なプロセッサによって実行されてよい。プロセッサは、したがって、プログラム可能であってよく、データ記憶システム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受け取り、それらにデータおよび命令を送るように結合されてよい。アプリケーションプログラムは、高水準手続き型もしくはオブジェクト指向プログラミング言語で、または望ましい場合は、アセンブリ言語もしくは機械語で実施されてよい。いずれのケースにおいても、言語は、コンパイル言語またはインタープリタ言語であってよい。プログラムは、完全インストールプログラムまたはアップデートプログラムであってよい。システム上でのプログラムの適用は、いずれのケースにおいても、方法を実行するための命令という結果となる。

図８は、本発明によって正確にセグメント化されることができる建物の外部シーンについての（グレイスケールで表された）ＲＧＢ画像８００の例を示している。水溜り８１０、またはガラス８２０などの透明な表面など、反射率の高い表面は、周囲のものからスプリアス情報が送られて、または反射されて来るせいで、可視スペクトルにおいてセグメント化することは困難である。見て分かるように、誤解されやすい反射を表示しない熱画像８１５、８２５においては、同じ表面が、完全に不透明である。そのような熱画像８１５、８２５は、したがって、シーンをセグメント化するために、ＲＧＢ画像８００を適切に補完することがある。

ＭＲＦエネルギー最小化の効率的な例が、図９を参照して、今から説明される。そのような例は、セグメント化モジュール４１６のために実施されてよい。

一般に、ＭＲＦエネルギーは、平滑化項から成ればよい（すなわち、他の項から成らなくてよい）。

しかしながら、収束のスピードを高めるために、例においては、エネルギーは、データ項をさらに含んでよい。データ項は、各々がいずれかのセグメントに割り当てられるピクセルの割り当てにペナルティを賦課してよく、ペナルティ賦課は、ピクセル毎に、セグメントのセットの各々について、ピクセルがセグメントに属するそれぞれの確率を他のピクセルとは別個に提供する、それぞれの確率分布に基づいており、任意の所与のピクセルに対するペナルティ賦課は、所与のピクセルに関する確率分布によって提供される確率が減少するにつれて増加する。確率分布は、ピクセルが属すべきセグメントについての事前推測を構成する。ＭＲＦエネルギー最小化が、次に、そのような事前推測を精緻化する。

確率分布は、以下で提供される例においては、ピクセルの事前クラスタリングに基づいて、学習されてよい。クラスタリング方法は、普通は相対的に高速であり、そのような例は、方法の収束のスピードを高める。

それの前に、任意選択の深度前処理（例えば、修復４１６ａ）が、説明される。

深度データ（ＲＧＢ－Ｄの中の「Ｄ」）は、存在する場合、かなりの不安定性によって特徴付けられる。任意の所与の深度フレームは、一般に、深度センサがシーンの１００％にわたって正しく機能することができないせいで、ノイズおよびホール（利用不可能なピクセルのエリア）を提示する。ノイズおよびホールは、多くの要因に、例えば、シーン内の輝くまたは透明なオブジェクト、過度に明るい光、最大範囲よりも高いシーン深度、またはシーン内における幾何学的不連続性に起因することができる。これのために、例においては、セグメント化に進む前に、非特許文献１１において説明されている技法が、ホールまたはノイズのない完全な深度マップを作成するために、適用されてよい。色および深度の両方が存在するとき、この技法は、色画像を利用して、深度マップ内におけるエッジピクセルの場所を探し、深度データ上だけでノイズ除去およびホール充填を実行する方法を上回る改善された性能を生み出す。

上で言及された任意選択の事前クラスタリングが、今から説明される。スペクトラルクラスタリング４１６ｂを実施する例が、提示される。

方法は、最初に、「スペクトラルクラスタリング」と呼ばれる粗雑な初期的なセグメント化を実行してよい。これは、その後、最終的な高品質のセグメント化を生成するＭＲＦに入力として与えられてよい。

クラスタリングは、以下の記法に基づいて、以下のように機能してよい。
・ｎ－＞ピクセルインデックス
・Ｃ－＞グラフエッジ（我々のケースにおいては、エッジは２つの近隣ピクセルを結び付ける）
・Ｖ－＞グラフノードのセット（我々のケースにおいては、ピクセルのセット）
・ｌ_n－＞ピクセルｎのラベル、すなわち、それのセグメント
・ｃ－＞セグメントの数（ｌ_n∈｛１，．．．，ｃ｝）
・ｌ－＞ラベリング、ｌ＝（ｌ₀，．．．，ｌ_N-1）、ただし、Ｎはピクセルの数

別途述べられない限り、以下では、次元の総数の５に対して、入力データが、３つの色チャネルＲ、Ｇ、Ｂと、熱チャネルと、深度チャネルとを含む、標準的なシナリオに言及する。深度データが存在しない、またはいくつかの熱チャネルおよび／もしくは他の材料特性チャネルが存在するなど、他の構成が可能である。これは、手法を変化させない。

方法の説明される例は、ピクセルのオーバセグメンテーションを含む、スペクトラルクラスタリングを介して、クラスタリングを実行し、その後に、セグメントの融合の反復が続く。反復が終了したときに到達されるセグメントの数は、ＭＲＦ最小化のために利用可能なラベル（したがって、セグメント）に対応する。

スペクトラルクラスタリングは、ピクセルのオーバセグメンテーションを形成してよい。各融合は、その場合、セグメントを分割するためのカットコストに基づいてよく、カットコストは、近隣ピクセルのペアに割り当てられた重みに依存し、近隣ピクセルの所与のペアに割り当てられた重みは、所与のペアのピクセルに対応する物理信号のベクトル間の差が増加するにつれて減少する。

クラスタリングステップは、数々のセグメントを確立し、初期的な粗いセグメントラベルを各ピクセルに与えてよく、この分類は、ＭＲＦによって後で精緻化される。

手法は、画像をｋ個のセグメントからなる分割π^kにオーバセグメンテーションすることであり、ｋは、実際に予想されるセグメントの数よりもはるかに高い（一般に、ｋ＝５０）。

セグメント化されたグラフＧは、画像内のピクセル（ノードｘ_mのセットＶ）と、２つの近隣ピクセルを結び付けるエッジ（エッジ｛ｘ_m，ｘ_n｝のセットＣ）とから作り上げられる。以下の形で、これらのエッジに重みを与えてよい。

ただし、ｘ_n＝（Ｒ_n，Ｇ_n，Ｂ_n，Ｔｈ_n，Ｚ_n）であり、各次元は、中心化および通分（例えば、正規化）されており、｜｜ｘ｜｜は、ユークリッドノルムである。ユークリッドノルムを、いわゆる「加重後ユークリッド距離」｜｜ａ^Tｘ｜｜によって置き換えることもでき、ただし、ａは、各次元に適用されるスケールファクタからなるベクトルである。

は、複数の画像が、ＲＧＢ画像、深度画像、および赤外線画像から成り、ａの最初の３つの次元がＲＧＢチャネルに対応し、ａの他の２つの次元が深度チャネルおよび赤外線チャネルに対応するケースにおいて、特に良好に機能する。

βは、

であるように選択されてよい正の数である。

非特許文献１２において説明されているように、隣接行列Ａ、次数行列Ｄ、および＜＜グラフラプラシアン＞＞Ｌを導入してよい。
・Ａ_ij＝ｗ（ｘ_m，ｘ_n）

・Ｌ＝Ｄ－Ａ
この方式においては、エッジの重みに応じて、各セグメントを分割するための＜＜正規化されたカット＞＞

のコストを定義することができる。

ただし
・ｃ_jは、セグメントＣ_jのインジケータベクトルである。
・

ｘ_i∈Ｃ_jである場合
・

それ以外の場合
ｚ_j＝Ｄ^1/2ｘ_j、「正規化ラプラシアン」Ｌ_N＝Ｄ^-1/2ＬＤ^1/2であると定義すると、正規化カットを

と表現することができる。

正規化カットを拡張して、グラフのｋ個のセグメントへのグラフの分割π^kに対応するグラフ分割エネルギーを定義することができる。

このエネルギーは、Ｌ_Nのｋ個の最も小さい非ゼロ固有値に関連付けられた、ｋ個の固有ベクトルによって最小化されることがある。離散制約（ｃ_j∈｛１，０｝ⁿ））を緩和し、インジケータベクトルが実数値

を取ることを可能にすると、正規化ラプラシアンの固有ベクトルｅ_jによって、クラスタリングを近似すること、すなわち、

とすることができる。しかしながら、ベクトルは、一般に、区分的に一定ではない。各クラスタ（セグメント）Ｃ_jのための離散インジケータベクトルを見つけるために、以下のように、次元ｋの空間Ｈ_kにおいて、ｋ平均アルゴリズムを適用してよく、すなわち、グラフの各ノードｉについて、ベクトルｐ_iを、（ｐ_i）_j＝（ｅ_j）_iのように関連付けてよい。これらのベクトルは、その後、ｋ平均によってクラスタ化される。

方法は、このようにして、画像のｋ個のセグメントへのセグメント化を獲得してよく、望ましい総数を獲得するために、方法には、その後に、セグメントの融合のための技法が続いてよい。

技法は、以下のように機能してよい。

２つのセグメントの融合についての利得関数を

と定義してよい。

次に、方法は、利得の降順によって、セグメントを融合してよく、これは、多数のｋ個のセグメントで開始し、最終的に任意のより少数のｃ個のセグメントを獲得することを可能にする。

方法は、今では、各ピクセル上のラベルを定義する粗いセグメント化を有している。この粗いセグメント化またはクラスタリングは、最終的なセグメント化に対する入力であってよい。

そのような事前クラスタリングに基づいた、マルコフ・ランダム・フィールド（ＭＲＦ）ベースのセグメント化４１６ｃが、今から説明される。

方法は、先行ステップからのクラスタリング（粗いセグメント化）を、最終的な精緻化されたセグメント化を生み出すＭＲＦベースのセグメント化のための入力として使用してよい。クラスタリングを入力として使用するために、方法は、ピクセル毎のラベルを、所与のセグメント内に存在する確率に変換してよい。

これのために、方法は、空間Ｈ_d内におけるｃ個のガウス分布の混合を適用して（ｄ≦ｃであるように選択する）、ピクセルがセグメントに属する確率Ｐをそれの近隣ピクセルとは別個に獲得してよい。ガウス混合のこのモデルは、非特許文献１３において説明されている期待値最大化アルゴリズムによって学習されてよい。

次に、方法は、スペクトラルクラスタリングのために使用されたのと同じグラフ上で、マルコフ・ランダム・フィールド（ＭＲＦ）におけるラベルを推測することによって、セグメント化を精緻化してよい。

ＭＲＦエネルギーは、
・Ｅ（ｌ）＝Ｕ（ｌ）＋λＳ（ｌ）
であってよい。
ただし、
・Ｕ＝Σ_n－ｌｏｇＰ（ｌ_n）
・Ｐ（ｌ_n）は、ガウス混合モデルによって与えられる。

・Ｕは、データ項と呼ばれる。この項は、ピクセルに、ガウス混合によって予想されたラベルを有することを強制する。
・Ｓは、平滑化項と呼ばれる。それは、ピクセルに、それの近隣ピクセルと同じラベルを有することを強制し、これらの近隣ピクセルが類似の特徴（色、深度、熱）を有する場合は、なおさらそうである。

ＵおよびＳの組み合わせは、画像の特定のコヒーレントなゾーンへのセグメント化を可能にする。ゾーンの辺境は、（Ｒ，Ｇ，Ｂ，Ｔｈ，Ｚ）空間における強い勾配に対応する。平滑化項にかかるλ係数は、これら２つの影響を考慮する。λの大きい値は、コヒーレントかつ一様なセグメントを促進するが、これらは、クラスタリングステップによって提供された初期情報から強く逸脱することがある。反対に、小さい値については、ピクセルは、それの近隣ピクセルとは別個に、クラスタリングによってそれに最初に与えられたラベルを保つ傾向にある。

このペアワイズＭＲＦを解くために方法によって実施されてよいアルゴリズムの調査は、非特許文献１４において見つけられることができる。特に効率的な実施においては、方法は、（例えば、以下のＵＲＬ、ｈｔｔｐ：／／ｖｉｓｉｏｎ．ｃｓｄ．ｕｗｏ．ｃａ／ｃｏｄｅ／において提供される）ｇｃｏ－ｖ３．０コードによって実施されるような、グラフカットアルファ拡張を使用することによって、このタスクを実行してよい。

方法は、より一般には、直接の近隣ピクセルだけよりも大きい近隣をエッジとして取る、このＭＲＦの一般化を実施してよい。そのようなケースにおいては、Ｓは

によって置き換えられる。

ただし、
・ｄｉｓｔ（ｍ，ｎ）は、ピクセルｍとピクセルｎとを隔てる距離である。
・Ｃ（マルコフ・ランダム・フィールドグラフのエッジのセット）は、例えば、（ユークリッド距離か、それともグラフ距離かに関わらず）所定の閾値を下回る距離を有するピクセルのペアに対応するすべてのエッジのセットである。

これは、初期定義を、すなわち、（隣り合わせ、または上下に位置付けられたピクセルのペアを意味するか、それとも隣り合わせ、上下、または対角線にも位置付けられたピクセルのペアを意味するかに関わらず）近隣ピクセルのペアに対応するすべてのエッジのセットを一般化する。

したがって、保持される所定のされた閾値に応じて、Ｃは、初期定義に縮小されてよく（そのケースにおいては、Ｓの定式化における項ｄｉｓｔ（ｍ，ｎ）^-1は、余分な表記にすぎない）、またはＣは、（閾値が十分に大きければ）ピクセルのすべてのペアに拡大されてよい。

Claims

シーンのセグメント化された画像を生成するコンピュータ実施方法であって、前記セグメント化された画像はピクセルを含み、各ピクセルはセグメントのセットのそれぞれ１つに割り当てられ、前記方法は、
前記シーンの複数の画像を提供するステップであって、各画像は、物理信号のそれぞれの獲得に対応し、前記複数の画像は異なる物理信号に対応する少なくとも２つの画像を含む、該ステップと、
ノードおよびエッジを含むマルコフ・ランダム・フィールド（ＭＲＦ）グラフ上で定義されたエネルギーを最小化するラベルの分布を決定することによって、前記複数の画像に基づいて、前記セグメント化された画像を生成するステップであって、各ノードは、それぞれのピクセルに対応しおよびそれぞれのラベルに関連付けられ、各エッジは、所定の閾値を下回る距離を有するピクセルのそれぞれのペアに対応し、前記ラベルは、ピクセルをセグメントの前記セットのそれぞれ１つに割り当てるすべての異なる割り当てに対応し、前記エネルギーは、エッジに対応するピクセルのペアを、異なるセグメントに割り当てすることにペナルティを賦課する平滑化項を含み、任意の所与のペアに対する前記ペナルティ賦課は、前記所与のペアの前記ピクセル間の距離が増加するにつれて減少し、前記所与のペアに対する前記ペナルティ賦課は、前記所与のペアの前記ピクセルに対応する前記物理信号のベクトル間の差が増加するにつれてさらに減少する、該ステップと
を含み、
前記エネルギーは、各ピクセルの、いずれかのセグメントに対する割り当てにペナルティを賦課するデータ項をさらに含み、前記ペナルティ賦課は、ピクセル毎に、セグメントの前記セットの各々について、前記ピクセルが前記セグメントに属するそれぞれの確率を他のピクセルとは別個に提供する、それぞれの確率分布に基づいており、任意の所与のピクセルに対する前記ペナルティ賦課は、前記所与のピクセルに関する前記確率分布によって提供される前記確率が減少するにつれて増加し、前記確率分布は、ピクセルのクラスタリングに基づいて学習され、
前記クラスタリングは、スペクトラルクラスタリングを介して実行され、その後に、セグメントの融合の反復が続き、セグメントの数は、前記反復が終了したとき、前記ラベルに対応したものに達することを特徴とするコンピュータ実施方法。
Ｓと表記される前記平滑化項は、

という形式を取り、ただし、
・ｍおよびｎは、ピクセルインデックスであり、
・Ｃは、前記マルコフ・ランダム・フィールドグラフのエッジのセットであり、
・ｌ_mは、ピクセルｍに関連付けられた前記ラベルであり、ｌ_nは、ピクセルｎに関連付けられた前記ラベルであり、
・

は、ラベルｌ_mおよびｌ_nが異なるときは１に等しく、それ以外のときは０に等しい、インジケータ関数であり、
・ｄｉｓｔ（ｍ，ｎ）^-1は、ピクセルｍとピクセルｎとの間の距離の逆数であり、
・ｘ_mは、ピクセルｍに対応する前記それぞれの物理信号のベクトルであり、ｘ_nは、ピクセルｎに対応する前記それぞれの物理信号のベクトルであり、
・｜｜ｘ_m－ｘ_n｜｜は、物理信号のベクトルｘ_mと物理信号のベクトルｘ_nとの間の距離であり、
・ｐｅｎ（）は、減少関数であることを特徴とする請求項１に記載の方法。
ｐｅｎ（）は、ｅｘｐ（－β｜｜ｘ_m－ｘ_n｜｜）という形式を取り、ただし、βは、正の整数であることを特徴とする請求項２に記載の方法。
前記データ項は、

という形式を取り、ただし、
・ｎは、ピクセルインデックスであり、
・ｌ_nは、ピクセルｎの前記ラベルであり、
・Ｐ（ｌ_n）は、ラベルｌ_nに対応する前記セグメントについての、ピクセルｎに関する前記確率分布によって提供される前記確率であることを特徴とする請求項１に記載の方法。
前記確率分布は、ガウス混合を形成することを特徴とする請求項４に記載の方法。
前記ガウス混合は、期待値最大化アルゴリズムによって学習されることを特徴とする請求項５に記載の方法。
前記エネルギーは、Ｅ（ｌ）＝Ｕ（ｌ）＋λＳ（ｌ）という形式を取り、ただし、λは、ポンダレーション係数であり、ｌは、ラベルの分布であることを特徴とする請求項４ないし６のいずれか１つに記載の方法。
請求項１ないし７のいずれか１つに記載の方法を実行するための命令を含むことを特徴とするコンピュータプログラム。
請求項８に記載のコンピュータプログラムが記録されたことを特徴とするデータ記憶媒体。
請求項８に記載のコンピュータプログラムを記録したメモリに結合されたプロセッサを備えたことを特徴とするシステム。