JP2016535353A - オブジェクト検出及び分割の方法,装置,コンピュータプログラム製品 - Google Patents

オブジェクト検出及び分割の方法,装置,コンピュータプログラム製品 Download PDF

Info

Publication number
JP2016535353A
JP2016535353A JP2016535510A JP2016535510A JP2016535353A JP 2016535353 A JP2016535353 A JP 2016535353A JP 2016535510 A JP2016535510 A JP 2016535510A JP 2016535510 A JP2016535510 A JP 2016535510A JP 2016535353 A JP2016535353 A JP 2016535353A
Authority
JP
Japan
Prior art keywords
image
object point
objects
point
parallax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016535510A
Other languages
English (en)
Other versions
JP6154075B2 (ja
Inventor
ソウミク ウキル
ソウミク ウキル
ヴェールダンディ ムニンダル
ヴェールダンディ ムニンダル
クリシュナ アンナサーガル ゴヴィンダーラーオ
クリシュナ アンナサーガル ゴヴィンダーラーオ
Original Assignee
ノキア テクノロジーズ オーユー
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー, ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2016535353A publication Critical patent/JP2016535353A/ja
Application granted granted Critical
Publication of JP6154075B2 publication Critical patent/JP6154075B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images

Abstract

ある例示的実施形態において、次の方法、装置及びコンピュータプログラムが提供される。本方法は、1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進めることを含む。また本方法は、第1の画像でオブジェクトのオブジェクト点を検出することによって、第1の画像のオブジェクトを検出することを含む。また本方法は、第1の画像におけるオブジェクトのオブジェクト点の検出に基づいて、第2の画像におけるオブジェクトのオブジェクト点を検出することを含む。第1の画像のオブジェクト点に対応する第2の画像のオブジェクト点を検出することは、第2の画像におけるエピポーラ線に沿って、第1の画像のオブジェクト点に対応する第2の画像のオブジェクト点を探索することを含む。また本方法は、第1の画像のオブジェクト点と第2の画像のオブジェクト点との間の視差値を決定することを含む。【選択図】図5

Description

概して、様々な実装形態が、画像におけるオブジェクト検出及び分割のための方法と装置、コンピュータプログラム製品に関する。
背景
あるシーンに関する2枚以上の画像を撮影するために、カメラや携帯電話、その他のデバイス等の種々の電子機器が使用されている。こうした画像撮影には例えば立体画像撮影があり、オブジェクト検出と後処理のアプリケーション用に利用することができる。後処理アプリケーションの中には、撮影された画像におけるオブジェクトの視差/深度推定やオブジェクトの分割を行うものが含まれる。立体画像におけるオブジェクトを検出するアプリケーションに電子機器は対応可能であるが、こうしたオブジェクト検出や視差推定・オブジェクト分割等の後処理アプリケーションには、集中的な計算が必要となる。
いくつかの実施形態の摘要
様々な例示的実施形態が、特許請求の範囲に提示されている。
第1の態様では、次の方法、即ち、1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進めることと;前記第1の画像で前記1つ又は複数のオブジェクトを検出することであって、該第1の画像の1つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと;前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を検出することは、該第2の画像におけるエピポーラ線に沿って、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を探索することを含む、前記検出することと;前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点と前記第2の画像における前記1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第1の画像のオブジェクト点と該第2の画像のオブジェクト点との間の視差値は、少なくとも、該第1の画像のオブジェクト点の検出位置及び該第2の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することを含む、方法が提供される。
第2の態様では、次の装置、即ち、少なくとも1つのプロセッサと;コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、前記少なくとも1つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、前記装置に少なくとも:1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進めることと;前記第1の画像で前記1つ又は複数のオブジェクトを検出することであって、該第1の画像の1つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと;前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を検出することは、該第2の画像におけるエピポーラ線に沿って、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を探索することを含む、前記検出することと;前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点と前記第2の画像における前記1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第1の画像のオブジェクト点と該第2の画像のオブジェクト点との間の視差値は、少なくとも、該第1の画像のオブジェクト点の検出位置及び該第2の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することを実行させるように構成される、装置が提供される。
第3の態様では、次のコンピュータプログラム製品、即ち、少なくとも1つのコンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、前記コンピュータ可読記憶媒体は命令セットを含み、前記命令セットは、1つ又は複数のプロセッサにより実行されると、装置に少なくとも:1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進めることと;前記第1の画像で前記1つ又は複数のオブジェクトを検出することであって、該第1の画像の1つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと;前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を検出することは、該第2の画像におけるエピポーラ線に沿って、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を探索することを含む、前記検出することと;前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点と前記第2の画像における前記1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第1の画像のオブジェクト点と該第2の画像のオブジェクト点との間の視差値は、少なくとも、該第1の画像のオブジェクト点の検出位置及び該第2の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することを実行させるように構成される、コンピュータプログラム製品が提供される。
第4の態様では、次の装置、即ち、1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進める手段と;前記第1の画像で前記1つ又は複数のオブジェクトを検出する手段であって、該第1の画像の1つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出する手段と;前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出する手段であって、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を検出することは、該第2の画像におけるエピポーラ線に沿って、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を探索することを含む、前記検出する手段と;前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点と前記第2の画像における前記1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定する手段であって、該第1の画像のオブジェクト点と該第2の画像のオブジェクト点との間の視差値は、少なくとも、該第1の画像のオブジェクト点の検出位置及び該第2の画像のオブジェクト点の検出位置に基づいて決定される、前記決定する手段を備える、装置が提供される。
第5の態様では、次のコンピュータプログラム、即ち、コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令は、装置により実行されると該装置に:1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進めることと;前記第1の画像で前記1つ又は複数のオブジェクトを検出することであって、該第1の画像の1つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと;前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を検出することは、該第2の画像におけるエピポーラ線に沿って、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を探索することを含む、前記検出することと;前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点と前記第2の画像における前記1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第1の画像のオブジェクト点と該第2の画像のオブジェクト点との間の視差値は、少なくとも、該第1の画像のオブジェクト点の検出位置及び該第2の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することを実行させる、コンピュータプログラムが提供される。
添付の図面には様々な実施形態が例示されている。これらは例示目的であって、限定目的のものではない。
ある例示的実施形態に従うデバイスを示す。 ある例示的実施形態に従う装置の例示的ブロック図を示す。 ある例示的実施形態に従う、画像対のオブジェクトの検出に関する例示的表現を示す。 ある例示的実施形態に従う、画像対の何れかの画像のオブジェクトの分割に関する例示的表現を示す。 ある例示的実施形態に従う例示的方法を説明するフローチャートである。 別の例示的実施形態に従う、オブジェクトの検出及び分割の例示的方法を説明するフローチャートである。
詳細説明
例示的実施形態とそれらが潜在的に持つ効果は、図1から6を参照することで理解される。
図1は、ある例示的実施形態に従うデバイス100を示す。ただし、当然のことながら、この図に描かれ以下で説明されるデバイス100は、様々な実施形態から利益を受けられるデバイスのタイプの一例を単に示しているに過ぎない。したがって、こうした開示が実施形態の範囲を限定するものと捉えてはならない。またそうした理由から、当然のことながら、デバイス100に関連して以下で説明される要素のうち少なくとも何れかは任意選択可能な要素である。したがって、例示的実施形態によっては、図1の例示的実施形態に関連して説明されている要素よりも多くの要素を有する場合や少ない要素しか有さない場合、又は異なる要素を有する場合がある。デバイス100は種々のタイプの電子機器の何れかでもよく、例えば、PDAやポケットベル、携帯テレビ、ゲーム機器、携帯電話、例えばラップトップコンピュータや携帯型コンピュータ、デスクトップコンピュータなど全てのタイプのコンピュータ、カメラ、音楽/ビデオプレーヤー、ラジオ、GPSデバイス、メディアプレーヤー、携帯型デジタル支援装置、又はそれらの組合せ、その他のタイプの通信機器でもよい。
デバイス100は、送信機104及び受信機106と協働するアンテナ(または複数のアンテナ)102を備えてもよい。デバイス100はさらに、送信機104及び受信機106との間で信号を提供したり信号を受信したりするような、コントローラ108のような装置を備えてもよい。この信号は、利用可能なセルラシステムの無線インタフェース規格に従うシグナリング情報を含んでいてもよく、及び/又はユーザの音声や受信したデータ、ユーザが生成したデータなどを含んでいてもよい。これに関してデバイス100は、1つ又は複数の無線インタフェース規格や通信プロトコル、変調タイプ、アクセスタイプによって動作する能力を有していてもよい。例ではあるが、デバイス100は、第1世代、第2世代、第3世代、第4世代、及び同様の通信プロトコルのうちいずれか1つ以上で動作することが可能であってもよい。例えばデバイス100は、第2世代(2G)の無線通信プロトコルであるIS-136(時分割多重アクセス(TDMA)やGSM(登録商標)、IS-95(符号分割多重アクセス(CDMA)に従って動作する能力を有していてもよく、第3世代(3G)の通信プロトコルであるE-UTRAN()やCDMA2000、WCDMA(登録商標)、TD-SCDMAに従って動作する能力を有していてもよく、3.9Gの無線通信プロトコルであるE-UTRAN(evolved- universal terrestrial radio access network)や第4世代(4G)の無線通信プロトコルなどのような規格に従って動作する能力を有していてもよい。あるいは又は加えて、デバイス100は、セルラ方式以外の通信メカニズムに従って動作可能でもよい。例えば、インターネットやローカルエリアネットワーク、ワイドエリアネットワークのようなコンピュータネットワークや、Bluetooth(登録商標)ネットワークやZigBee(登録商標)ネットワーク、IEEE(Institute of Electric and Electronic Engineers)802.11xネットワークのような近距離無線通信ネットワーク、公衆交換電話網(PSTN)のような有線電話ネットワークのような通信メカニズムに従って動作する能力を有していてもよい。
コントローラ108は、とりわけ、デバイス100の音声や論理機能を実装する回路を有していてもよいことは理解されたい。例えばコントローラ108は、1つ又は複数のデジタルシグナルプロセッサ装置、1つ又は複数のマイクロプロセッサ装置、1つ又は複数のデジタルシグナルプロセッサを有する1つ又は複数のプロセッサ、デジタルシグナルプロセッサを有さない1つ又は複数のプロセッサ、1つ又は複数の特定目的コンピュータチップ、1つ又は複数のFPGA(field-programmable gate array)、1つ又は複数のASIC(application-specific integrated circuit)、1つ又は複数のコンピュータ、様々なA/DコンバータやD/Aコンバータ、及び/又はその他のサポート回路を備えていてもよい。デバイス100の信号及び情報処理機能は、それぞれの能力に従って、これらのデバイスの中に割り当てられている。コントローラ108は、変調及び送信を行う前に、畳み込み的な符号化や、メッセージおよびデータのインタリーブを行う機能を有していてもよい。コントローラ108は、さらに音声符号器やデータモデムを内蔵していてもよい。さらに、コントローラ108は、メモリに記録されていてもよい1つ又は複数のソフトウェアプログラムを実行する能力を含んでいてもよい。例えばコントローラ108は、標準的に用いられているWebブラウザのような通信プログラムを実行する能力を有していてもよい。そのような通信プログラムは、デバイス100がWebコンテンツを送受信することを可能とする。そのようなWebコンテンツには、WAP(Wireless Application Protocol)やHTTP(Hypertext Transfer Protocol )位置ベースのコンテンツなどに従う位置ベースのコンテンツやその他のWebページコンテンツなどがある。ある例示的実施形態において、コントローラ108は、デュアルコアプロセッサのようなマルチコアプロセッサとして具現化されてもよい。コントローラ108にはいくつのプロセッサが含まれていてもよい。
デバイス100はまた、出力デバイスであるリンガ110や、イヤホン又はスピーカ112や、マイクロホン114、ディスプレイ116、および、ユーザ入力インタフェースを備えていてもよく、これら全てはコントローラ108に接続されていてもよい。ユーザ入力インタフェースはデバイス100がデータを受信することを可能にし、またデバイス100がデータを受信することを可能にするデバイスをいくつ備えていてもよい。そのようなデバイスには、例えばキーパッド118やタッチディスプレイ、マイクロホン、またその他の入力デバイスが存在する。キーパッド118を含む実施形態において、キーパッド118は、0−9の数字キーや関連するキー(#,*)、その他デバイス100を操作するためのハードキーやソフトキーを有していてもよい。あるいは又は加えて、キーパッド118には一般的なQWERTY配列のキーパッドが含まれてもよい。キーパッド118はまた、それぞれ機能に関連付けられた多くのソフトキーを備えていてもよい。それに加えて又は代替的に、デバイス100は、ジョイスティックまたはユーザ入力インタフェースのようなインタフェースデバイスを備えてもよい。さらにデバイス100は、デバイス100を動作させるために使用される様々な回路に電源を供給し、また検知可能な出力としての機械的な振動を提供する、振動バッテリパックのようなバッテリ120を備えてもよい。
ある例示的実施形態において、デバイス100は、カメラモジュールやビデオモジュール、及び/又はオーディオモジュールのようなメディアキャプチャ要素を備えてもよい。メディアキャプチャ要素はコントローラ108と通信する。メディアキャプチャ要素は、画像や動画及び/又は音声をキャプチャして格納したり表示したり送信したりする如何なる手段であってもよい。メディアキャプチャ要素がカメラモジュール122である例示的実施形態では、カメラモジュール122は、撮影画像からデジタル画像ファイルを作成できるデジタルカメラ(又は複数のカメラのアレイ)を備えてもよい。カメラモジュール122は、レンズその他の光学部品のような全てのハードウェアや、撮影画像からデジタル画像ファイルを作成するソフトウェアを含む。あるいは、カメラモジュール122は画像を見るのに必要なハードウェアを備えてもよい。ここでデバイス100の記憶装置は、コントローラ108が実行でき、撮影画像からデジタル画像ファイルを作成するための命令をソフトウェアの形態として格納する。ある例示的実施形態においては、カメラモジュール122はさらに、コントローラ108が画像データを処理することを支援するコプロセッサのような処理要素や、画像データを圧縮したり伸張したりするエンコーダーやデコーダーを備えていてもよい。エンコーダーやデコーダーは、JPEG標準やその他のフォーマットに従ってエンコードやデコードを行ってもよい。動画に関しては、エンコーダーやデコーダーは、例えばH.261, H.262/ MPEG-2, H.263, H.264, H.264/MPEG-4, MPEG-4のような複数の標準規格を利用することができる。場合によっては、カメラモジュール122はライブイメージをディスプレイ116に提供することができる。さらに、ある例示的実施形態では、デバイス100の一方にディスプレイ116が搭載され、カメラモジュール122は、ディスプレイ116から見て反対側であるデバイス100のもう一方に位置するレンズを備え、それによって、カメラモジュール122がデバイス100の一方で画像を撮影し、デバイス100のもう一方にいるユーザにその画像を表示できるようにしてもよい。具体的には、1つ(又は複数)のカメラモジュールはどちら側にあってもよいが、通常はディスプレイ116の反対側にある。あるいは、(例えば、ビデオコールカメラ等のように)ディスプレイ116と同じ側にあってもよい。
デバイス100はユーザ識別モジュール(UIM)124を備えていてもよい。UIM124は、プロセッサを内蔵するメモリデバイスである。UIM124には、例えば、加入者識別モジュール(SIM)や、UICCカード、USIM、R-UIM、及びその他のタイプのスマートカードが含まれる。UIM124は通常、加入者に関する情報要素を格納する。UIM124に加えてデバイス100はメモリを備えていてもよい。例えばデバイス100は、データの一時的な保管のためのキャッシュ領域を備えるランダムアクセスメモリ(RAM)のような揮発性メモリ126を備えてもよい。デバイス100は、内蔵の及び/又は着脱可能な不揮発性メモリ128を備えていてもよい。不揮発性メモリ128には、EEPROM(Electrically Erasable Programmable Read-Only Memory)やフラッシュメモリ、ハードディスクドライブのようなものも含まれる。これらのメモリは、デバイス100の機能を実装するためにデバイス100に使用されるいかなる数の情報片やプログラム、データを格納してもよい。
図2には、ある例示的実施形態に従って、あるシーンの画像においてオブジェクトの検出及び分割を行う装置200が示されている。装置200は、例えば、図1のデバイス100によって採用されることができる。しかし、装置200は、携帯式又は固定式に関わらず、その他の様々なデバイスによって採用されることができてもよいことは留意されたい。したがって、実施形態は、図1のデバイス100のようなデバイスへの応用に限定するものではない。場合によっては、実施形態は、複数のデバイスの組み合わせによって利用されうる。そのような複数のデバイスには、例えば上にリストされたものが含まれる。多くの実施形態が、(例えばデバイス100やデバイスの組み合わせのような)単一のデバイスとして具現化される。さらに、以下に記述されるデバイスや要素は必ず必要であるというものではなくともよく、実施形態によっては、これらのうちいくつかが省略されてもよいことに留意しなければならない。
装置200は少なくとも1つのプロセッサ202及び少なくとも1つのメモリ204を備える。又はこれらと通信できるようにされている。少なくとも1つのメモリ204の例は、これらに限定されないが、揮発性メモリ及び/又は不揮発性メモリを含む。揮発性メモリの例には、これらに限定されないが、ランダムアクセスメモリやダイナミック・ランダムアクセスメモリ、スタティック・ランダムアクセスメモリ等が含まれる。不揮発性メモリの例には、ハードディスクや磁気テープ、光ディスク、プログラム可能なリードオンリーメモリ、プログラムを消去可能なリードオンリーメモリ、電気的に消去可能なプログラム可能リードオンリーメモリ、フラッシュメモリ等がある。様々な例示的実施形態に従う多くの機能を装置200が実行することを可能にするべく、メモリ204は、情報やデータ、ファイル、アプリケーション、命令等を格納するように構成されてもよい。例えばメモリ204は、プロセッサ202によって処理するために、メディアコンテンツを含む入力データをバッファするように構成されてもよい。あるいは又は加えて、メモリ204は、プロセッサ202により実行される命令を格納するように構成されてもよい。
プロセッサ202の例には、コントローラ108が含まれてもよい。プロセッサ202は様々な方法で具現化されてもよい。プロセッサ202は、マルチコアプロセッサやシングルコアプロセッサ、これらの組み合わせとして具現化されてもよい。例えばプロセッサ202は、1つ又は複数の様々な処理手段として具現化されてもよい。そのような処理手段には例えば、コプロセッサやマイクロプロセッサ、コントローラ、デジタルシグナルプロセッサ(DSP)、DSP搭載型又は非搭載型の処理回路、その他様々な処理デバイスが含まれる。また、そのような処理デバイスには、例えば、ASIC(application specific integrated circuit)やFPGA(field programmable gate array)、マイクロコントローラーユニット(MCU)、ハードウェアアクセラレータ、特定目的コンピュータチップなどが存在する。ある例示的実施形態において、マルチコアプロセッサは、メモリ204に格納された命令を実行するように構成されてもよい。またはプロセッサは、自身がアクセス可能な命令を実行するように構成されてもよい。あるいは又は加えて、プロセッサ202は、ハードコードされた機能を実行するように構成されていてもよい。このように、ハードウェアにより構成されるかソフトウェアによる手法により構成されるか、またはこれらの組み合わせにより構成されるかに関わらず、プロセッサ202は、様々な実施形態に従う処理を遂行する能力を有する要素を表す。たとえば、そのような処理を遂行する能力を有するように、回路中に物理的に具現化された要素を表す。例えば、プロセッサ202が2つ以上のASICやFPGAのようなものにより具現化されるとき、プロセッサ202は、本明細書により説明される処理を遂行するために特別に構成されたハードウェアと考えられうる。または、別の実施形態では、プロセッサ202はソフトウェア命令を実行する実行機器として具現化される。そのような命令は、実行されることにより、プロセッサ202を、本明細書に記載されるアルゴリズム又は処理を遂行するように構成しうる。しかし場合によっては、プロセッサ202は、たとえば移動端末やネットワークデバイス等の特定の装置のプロセッサであってもよい。その場合、そのような装置は、本明細書に記載されるアルゴリズム又は処理を実行するための命令によりプロセッサ202を構成することにより、実施形態を取り入れるように構成される。プロセッサ202はとりわけ、その動作をサポートするクロックや算術演算ユニット(ALU)、ロジックゲートを備える。
ユーザインタフェース206は、プロセッサ202と通信する。ユーザインタフェース206は、それに限られるわけではないが、入力インタフェース及び/又は出力ユーザインタフェースを含む。入力インタフェースはユーザ入力を表す情報を受け取るように構成される。出力ユーザインタフェースは音声や視覚、メカニカル、その他の出力及び/又はフィードバックをユーザに提供する。入力インタフェースの例は、これらに限定されないが、例えばキーボードやマウス、ジョイスティック、キーパッド、タッチスクリーン、ソフトキー等を含んでもよい。出力インタフェースの例は、これらに限定されないが、例えばLEDディスプレイやTFTディスプレイのような表示装置、液晶ディスプレイ、AMOLEDディスプレイ、マイクロホン、スピーカ、リンガ、バイブレータを含んでもよい。ある例示的実施形態において、ユーザインタフェース206は、他のデバイスや要素もさることながら、特に、スピーカ、マイクロホン、ディスプレイ、キーボード、タッチスクリーンのようなもののいずれか又は全てを含んでもよい。これに関してプロセッサ202は、例えば、スピーカやリンガ、ディスプレイ等の1つ又は複数のユーザインタフェース206の要素の少なくともいずれかを制御するように構成されるユーザインタフェース回路を備えていてもよい。プロセッサ202及び/又はプロセッサ202を含むユーザインタフェース回路は、コンピュータプログラム命令を通じて、ユーザインタフェース206の1つ又は複数の要素の1つ又は複数の機能を制御するように構成されてもよい。そのようなコンピュータプログラム命令は、例えば、例えば少なくとも1つのメモリ204など、プロセッサ202がアクセス可能なメモリに格納される、ソフトウェアやファームウェアであることができる。
ある例示的実施形態では、装置200は電子機器を含んでもよい。電子機器の例には、通信機器や、通信機能を有するメディアキャプチャデバイス、コンピュータデバイス等がある。電子機器の例には、携帯電話やPDA等も含まれる。コンピュータデバイスの例には、ラップトップコンピュータやパーソナルコンピュータ等も含まれる。電子機器の例にはカメラも含まれる。ある例示的実施形態では、電子機器は、例えばUI206のようなユーザインタフェースとユーザインタフェースソフトウェアを有し、ユーザインタフェースはユーザインタフェース回路を備え、ユーザインタフェースソフトウェアは、ユーザがディスプレイを用いて電子機器の少なくとも一つの機能を制御することを進めるように構成され、更にユーザ入力に応答するように構成されてもよい。ある例示的実施形態において、上記電子機器は、電子機器のユーザインタフェースの少なくとも一部分を表示するように構成される表示回路を備えていてもよい。ディスプレイ及び表示回路は、電子機器の少なくとも1つの機能のユーザ制御を進めるように構成されてもよい。
ある例示的実施形態において、電子機器は送受信機を備えるように具現化されてもよい。この送受信機はソフトウェアに従って動作する如何なるデバイスや回路であってもよく、ハードウェアとして実装されてもよく、又はハードウェア及びソフトウェアの組み合わせとして実装されてもよい。例えば、ソフトウェアの制御の下で動作するプロセッサ202や、本明細書で説明される処理を実行するように特に構成されたASICやFPGAとして具現化されるプロセッサ202、またはこれらの組み合わせなど、装置又は回路に送受信機の機能を実行させるように作られる如何なる構成でもよい。送受信機はメディアコンテンツを受信するように構成されてもよい。メディアコンテンツの例としては、オーディオコンテンツやビデオコンテンツ、及びこれらの組み合わせなどがある。
ある例示的実施形態において、電子機器は、イメージセンサ208やイメージセンサ210のような少なくとも1つのイメージセンサを備えるように具現化されてもよい。図2の例示的表現では2つのイメージセンサ208・210のみが示されているが、電子機器はそれより多いイメージセンサを備えてもよく、あるいは1つのイメージセンサのみを備えてもよい。イメージセンサ208・210は、プロセッサ202及び/又は装置200の他の要素と通信してもよい。イメージセンサ208・210は、画像処理回路及び/又は画像処理ソフトウェアと通信してもよく、デジタル画像やビデオ、グラフィックメディアを撮影するように構成される。イメージセンサ208・210及び他の回路は、組合せで、機器100のカメラモジュール122のような少なくとも1つのカメラモジュールの例であってもよい。イメージセンサ208・210は他の要素を伴って、特定のシーンを異なる位置(又は異なる角度)から表現する複数の画像を撮影するように構成されてもよい。ある例示的実施形態において、イメージセンサ208・210は、立体視のようなシーンに対する2つのビューを撮影するために対応するレンズを伴っていてもよい。別の実施形態では、1つのイメージセンサを有する単一のカメラモジュールであって、このイメージセンサが、ある位置(x)からシーンの第1の画像を撮影し、特定の距離(例えば、10メートル)だけ離れた別の位置(y)まで移動してシーンの第2の画像を撮影するのに用いられる、単一のカメラモジュールであってもよい。
これらの要素(202−210)は、シーンの複数画像においてオブジェクトの検出及び分割を行うために、集中型回路システム(centralized circuit system)212を介して互いに通信してもよい。集中型回路システム212は、とりわけ、装置200の要素202−210が互いに通信できるように構成される様々なデバイスであってもよい。ある実施形態では、上記集中型回路システム212は、マザーボードやメインボード、システムボード、ロジックボードのような、集中型のプリント基板(PCB)であってもよい。集中型回路システム212はまた、その他のプリント基板アセンブリ(PCA)や通信チャンネルメディアを含んでいてもよい。
ある例示的実施形態において、プロセッサ202は、メモリ204の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置200に、第1及び第2の画像の受取りを進めさせるように構成される。ある例示的実施形態では、第1の画像及び第2の画像は、1つ又は複数のオブジェクトを含むシーンに関して僅かに異なるビューを含む。ある例示的実施形態では、シーンの第1の画像及び第2の画像は、そのシーンにおける少なくとも1つのオブジェクトに対して第1の画像と第2の画像との間で視差があるように撮影される。ある例示的実施形態では、第1の画像及び第2の画像は、あるシーンの立体画像対である。例えば、立体カメラは、第1の画像が同一シーンを表現する第2の画像に対して僅かな視差を含むように、第1の画像と第2の画像を撮影する。他の例示的実施形態によっては、第1の画像及び第2の画像が、シーンの複数ビューを撮影できるカメラから取り込まれてもよい。こうしたカメラには、例えばマルチベースラインカメラやアレイカメラ、プレノプティックカメラ、ライトフィールドカメラがある。
例示的実施形態によっては、第1の画像及び第2の画像は、予め記録されて装置200に格納されていてもよく、あるいは装置200の外部ソースから受け取られてもよい。こうした例示的実施形態では、装置200は、DVDやコンパクトディスク(CD)、フラッシュドライブ、メモリカードのような外部記憶媒体から第1の画像及び第2の画像を受取るようにされてもよく、あるいは、インターネットやBluetooth(登録商標)のような外部の記憶場所からそれを受け取るようにされてもよい。ある例示的実施形態では、1つ又は複数のオブジェクトを含むシーンであって、そのシーンにおける少なくとも1つのオブジェクトには第1の画像と第2の画像との間に視差があるようなシーンの第1の画像及び第2の画像の受取りを進めるように、処理手段が構成されてもよい。処理手段の一例は、プロセッサ202とイメージセンサ208・210を備えてもよく、プロセッサ202はコントローラ108の一例でもよい。
ある例示的実施形態において、装置200が受け取る第1の画像及び第2の画像は、互いに補正された立体画像対でもよい。装置200が受け取る又はアクセスする第1の画像及び第2の画像が補正画像でない実施形態では、これらの画像が追加処理で補正される。こうした例示的実施形態では、プロセッサ202は、メモリ204の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置200に、第1の画像における横の列(例えば、水平線)が第2の画像における横の列(例えば、水平線)に対応するように、第2の画像に対して第1の画像の補正を行わせるように構成される。例えば、第1の画像及び第2の画像が特定のシーンを僅かに異なるビューで撮影した画像である場合、第1の画像における特定の点を通る水平線が第2の画像の点に関するエピポーラ線に対応するように、第2の画像に対する第1の画像の向きを変えることによって、第1の画像及び第2の画像は補正される。この例では立体画像におけるエピポーラ制約のために、一方の画像、例えば第1の画像におけるオブジェクトの全画素点(「オブジェクト点」と呼ぶ)は、他方の画像、例えば第2の画像においては対応するエピポーラ線を有する。例えば、エピポーラ制約により、第1の画像の画素点に対して、第2の画像のエピポーラ線上に対応する画素点が存在する。ここで、エピポーラ線は第1の画像の画素点に対応するエピポーラ線である。ある例示的実施形態では、処理手段は、第1の画像の水平線が第2の画像の水平線に対応するように、第2の画像に対して第1の画像を補正するように構成されてもよい。処理手段の例はプロセッサ202を備え、プロセッサ202はコントローラ108の例でもよい。
ある例示的実施形態において、装置200に第1の画像における1つ又は複数のオブジェクトを検出させる。例えば、第1の画像が蝶のようなオブジェクトを含み、蝶のオブジェクト点が装置200によって検出される。ある実施例では、装置200は、本技術分野で既知である適切なオブジェクト検出技術を用いて蝶と蝶の位置を検出するように構成される。ある例示的実施形態では、処理手段は、第1の画像における1つ又は複数のオブジェクトのオブジェクト点を検出するように構成されてもよい。処理手段の例はプロセッサ202を備え、プロセッサ202はコントローラ108の例でもよい。ある例示的実施形態では、任意のオブジェクトのオブジェクト点はスパース方式で検出され、例えば、オブジェクトについて少数のオブジェクト点のみが検出される。
ある例示的実施形態において、プロセッサ202は、メモリ204の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置200に、第1の画像における1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、第2の画像における1つ又は複数のオブジェクトのオブジェクト点の検出を行わせるように構成される。例えば、第1の画像で検出される全オブジェクトに対して、第2の画像で対応するオブジェクトが検出される。ある例示的実施形態では、第1の画像で検出されたオブジェクトの点(「オブジェクト点」と呼ばれる)に対応する、第2の画像におけるオブジェクトの対応点を検出することは、第2の画像におけるエピポーラ線上にある第2の画像のオブジェクト点を探索することを含む。ある実施例では、第2の画像のエピポーラ線は、第1の画像のオブジェクト点に関して対応するエピポーラ線である。例えば、第1の画像の全オブジェクトに対して第2の画像におけるエピポーラ線が存在し、第1の画像のオブジェクト点に対応する第2の画像のオブジェクト点を検出することは、第2の画像において対応するエピポーラ線に沿ったオブジェクト点(第1の画像のオブジェクト点に対応する)を探索することを含む。ある例示的実施形態では、処理手段は、第1の画像における1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、第2の画像における1つ又は複数のオブジェクトのオブジェクト点を検出するように構成されてもよい。処理手段の例はプロセッサ202を備え、プロセッサ202はコントローラ108の例でもよい。
ある例示的実施形態において、プロセッサ202は、メモリ204の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置200に、第1の画像における1つ又は複数のオブジェクトのオブジェクト点に関して、第2の画像において対応するオブジェクト点のエピポーラ線に沿ってオブジェクト点を探索する範囲の決定を行わせるように構成される。ある実施例では、探索範囲は第2の画像のエピポーラ線を含み、エピポーラ線は、第1の画像で検出されるオブジェクトに関するオブジェクト点に対応する。ある例示的実施形態では、1つ又は複数のオブジェクトの第1のオブジェクトのオブジェクト点に関する探索範囲は、1つ又は複数のオブジェクトの第2のオブジェクトのオブジェクト点に関する探索範囲よりも広い。ある実施例では、最大サイズの(又は第1及び第2の画像を撮影するカメラに最も近い被写体の)オブジェクトは最大の探索範囲に関連し、サイズが最大サイズよりも小さくなるにつれ(又は被写体がカメラから離れるにつれ)、オブジェクトの探索範囲もそれに応じて狭められる。ある例示的実施形態では、処理手段は、第1の画像における1つ又は複数のオブジェクトのオブジェクト点に関して、第2の画像における探索範囲を決定するように構成されてもよい。処理手段の例はプロセッサ202を備え、プロセッサ202はコントローラ108の例でもよい。
ある例示的実施形態において、プロセッサ202は、メモリ204の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置200に、第1の画像における1つ又は複数のオブジェクトのオブジェクト点と第2の画像における1つ又は複数のオブジェクトのオブジェクト点との間の視差の決定を行わせるように構成される。実施例によっては、オブジェクトが第1の画像と第2の画像との間に単一の視差を有することもある。しかし、顔等のオブジェクトでは、顔の鼻先が顔の耳とは異なる視差を有する場合もある。ある例示的実施形態では、あるオブジェクト点に関する第1の画像と第2の画像との間の視差値は、少なくとも、第1の画像のオブジェクト点の検出位置と第2の画像のオブジェクト点の検出位置に基づいて決定される。例えば、第1の画像と第2の画像でのオブジェクト点の位置の差は、そのオブジェクト点に関する第1の画像と第2の画像との間の視差でもよい。ある例示的実施形態では、処理手段は、第1の画像における1つ又は複数のオブジェクトのオブジェクト点と第2の画像における1つ又は複数のオブジェクトのオブジェクト点との間の1つ又は複数の視差値を決定するように構成されてもよく、ここで、あるオブジェクト点に関する第1の画像と第2の画像との間の視差値は、少なくとも、第1の画像のオブジェクト点の検出位置と第2の画像のオブジェクト点の検出位置に基づいて決定される。処理手段の例はプロセッサ202を備え、プロセッサ202はコントローラ108の例でもよい。
ある例示的実施形態において、プロセッサ202は、メモリ204の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置200に、オブジェクトのオブジェクト点に関する少なくとも1つの視差値に基づいて、第1の画像及び第2の画像の少なくとも1つにおける1つ又は複数のオブジェクトのうち1つ(又は複数)のオブジェクトの分割を行わせるように構成される。例えば、あるオブジェクトが、それに関する視差値と、限定されないがグラフカット法を含む技術に基づいて、ある画像(第1の画像又は第2の画像)で検出された他のオブジェクトから分割されてもよい。例示的実施形態では、画像(第1の画像又は第2の画像)からオブジェクトを分割するために、装置200に、オブジェクトのオブジェクト点に対するオブジェクトラベルの割当てと、画像の残りの画素点に対する非オブジェクトラベルの割当てを行わせ、更に、グラフカット法のような適切な技術を用いて、割り当てられたオブジェクトラベルに対応する部分の分割を行わせる。例えば、プロセッサ202は、メモリ204の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置200に、第1の画像と第2の画像との間のオブジェクトコスト関数に基づいて、オブジェクトに関するオブジェクト点に対してオブジェクトラベルの割当てを行わせるように構成される。ある例示的実施形態では、オブジェクトコスト関数は、第1の画像と第2の画像との間の1つ又は複数の画像パラメータの一致度である。画像パラメータの例には、限定されないが第1及び第2の画像の色やテクスチャが含まれる。ある例示的実施形態では、オブジェクトコスト関数は、第1の視差値範囲に関するオブジェクトのオブジェクト点に対して計算され、オブジェクトコスト関数が最小となる視差値が、そのオブジェクト(そのオブジェクトのオブジェクト点)に対するオブジェクトラベルに割り当てられる。ある例示的実施形態では、装置200に、第1の画像と第2の画像との間の非オブジェクトコスト関数に基づいて、画像の残りの画素点に対する非オブジェクトラベルの割当てを行わせる。例えば、画像の中でオブジェクトに関するオブジェクト点以外の点は、非オブジェクトラベルが割り当てられる。ある実施例では、非オブジェクトコスト関数は、第1の画像の画素点と第2の画像の画素点との間で、(例えば、オブジェクトコストの計算に用いられる第1の視差値範囲とは別の)第2の視差値範囲に対して計算される。ある実施例では、複数の非オブジェクトコスト関数の中から最小の非オブジェクトコスト関数が選択され、最小非オブジェクトコスト関数に関する視差値が、画像の残りの画素点に対する非オブジェクトラベルとして割り当てられる。ある例示的実施形態では、装置200に、オブジェクトラベル及び非オブジェクトラベルに関するグラフカットアルゴリズムの適用に基づいて、オブジェクト分割を行わせる。ある例示的実施形態では、処理手段は、オブジェクトのオブジェクト点に関する少なくとも1つの視差値に基づいて、第1の画像及び第2の画像の少なくとも1つにおける1つ又は複数のオブジェクトのうちの特定のオブジェクトを分割するように構成されてもよい。処理手段の例はプロセッサ202を備え、プロセッサ202はコントローラ108の例でもよい。
オブジェクト検出及び分割に関する幾つかの例示的実施形態を、図3及び4を参照して更に説明する。なお、これら図3・4は単に1つ又は複数の例示的実施形態を示すに過ぎず、種々の例示的実施形態の範囲を限定するものと見なされるべきではない。
図3には、ある例示的実施形態に従う、立体画像対におけるオブジェクト検出の例示的表現が示されている。ある例示的実施形態では、あるシーンの第1の画像310と第2の画像350のような立体画像対を撮影するために、立体カメラが利用されてもよい。このシーンの例には、シーンの画像がカメラモジュール122等のメディアキャプチャモジュールやセンサ208・210等のセンサによって撮影できるように、オブジェクトに関する何らかの可視設定又は構成が含まれてもよい。ここで、第1の画像310及び第2の画像350に取り込まれたシーンのオブジェクトの位置に関して、画像310は画像350とは僅かに異なる。例示的実施形態では、第1の画像310及び第2の画像350が移動するカメラで2つの異なる時点で撮影され、それによって第1の画像310がそのシーンの左目画像に対応し、第2の画像350がそのシーンの右目画像に対応してもよい。例えば、シーンを表現する第1の画像310が撮影され、次いで、同じシーンの第2の画像350を撮影するために、所定の距離及び/又は角度だけカメラが動かされる。他の実施例では、画像310・350は、シーンの複数のビューを撮影できるマルチベースラインカメラやアレイカメラ、ライトフィールドカメラ、プレノプティックカメラ等のカメラで撮影されてもよい。図3において、第1の画像310及び第2の画像350は、男性312や女性314、子供316、雲311と樹木313が写っている背景といったオブジェクトを含むシーンの異なるビューを表わしている。オブジェクト312・314・316と背景311・313については、立体画像対310・350の間に視差があってもよいことに留意しなければならない。
ある実施例において、第1の画像310の全オブジェクト点(又は画素点)は、第2の画像350において対応するエピポーラ線に位置する対応オブジェクト点を持つことができる。ある例示的実施形態では、第1の画像310の位置(x,y)の画素点は、第2の画像350においてその画素点に対応するエピポーラ線上に対応する画素点を持つことができ、例えば、画素点318(女性314の鼻先を表わす画素点)は、画像350において画素点318のエピポーラ線352上に対応する画素点を持つことができる。同様に、画像310の全画素点は、画像350において対応するエピポーラ線を持つことができる。ある例示的実施形態では、画像310及び画像350は補正され、それぞれ画像320及び360を生成する。ある実施形態では、画像310・350の補正は、画像310・350のアライメントを含み、画像320の水平線(画素列)が画像360の水平線(画素列)に対応するように画像320・360を生成する。画像対310・350の補正処理(カメラパラメータによって与えられ、直接又は弱い較正を通じて行われる)は、その結果として得られるエピポーラ線が平行になって新たな走査線に沿って等しくなるように、元の画像対310・350の平面を画像320・360における別の平面に変換する。図3に示すように、画像310・350は、画像320の画素列が画像360の画素列に対応するように画像310及び/又は350を回転/調整することによって補正される。
ある例示的実施形態において、装置200に、画像320における1つ又は複数のオブジェクトを検出させる。ある実施例では、画像320は少なくとも1つのオブジェクトを有し、例えば画像320には他のものの間に複数のオブジェクトを含むシーンが描かれている。こうしたオブジェクトには、例えば男性312や女性314、子供316、雲311と樹木313が写っている背景がある。例示的実施形態では、画像320のオブジェクト312・314・316の位置/色分布を検出するために、画像320が水平方向で(各画素列に沿って)順番に走査されてもよい。画像320のオブジェクトを検出するために、肌色ベース法やブースティング法、サポートベクターマシン(SVM)法、ガウス混合法、最尤法、ニューラルネットワーク法のような適切なオブジェクト(又は顔)検出技術が用いられてもよい。図3に示すように、検出された顔322・324・326は、それぞれ男性312、女性314、子供316の顔に対応する。
ある例示的実施形態において、第2の画像360の1つ又は複数のオブジェクトのオブジェクト点は、第1の画像320のオブジェクト312・314・326のような1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて検出される。例えば、第1の画像320で検出される全オブジェクトに対して、第2の画像360で対応するオブジェクトは、画像320のオブジェクトの位置を用いて検出される。ある例示的実施形態では、第1の画像320で検出された男性312の顔322(オブジェクト)に対して、画像360で類似するオブジェクトが、顔322に対して決定される探索範囲の中で探索され検出される。ある実施例では、こうした機能には、第1の画像320で検出された男性312(オブジェクト)に対応するオブジェクト点の一部又は全部と、画像360の男性312とのマッチングが含まれてもよい。マッチング機能の実施例には、画像320の男性312を表現する画素の広がりや色、テクスチャ、輪郭のマッチングが含まれてもよい。種々の例示的実施形態では、画像320で既に検出済みのオブジェクトを探すために画像360全体を探索することはせず、エピポーラ制約に基づいて決定される探索範囲内で探索が行われる。例えば、画像320で検出される全ての顔に対して、画像360でも同じ大きさの顔が探索される。例として、ある例示的実施形態では、画像360における顔のオブジェクト点の探索は、画像320での顔のオブジェクト点と同じ位置から開始されてもよく、画像360は同じ走査線(オブジェクト点に対応するエピポーラ線)に沿って走査される。これにより、画像320における(従って画像360における)顔の位置に関する情報とエピポーラ制約に基づいて探索範囲を限定することができ、画像360における顔検出の複雑さが劇的に減らされる。
ある例示的実施形態において、画像360におけるオブジェクト312・314・316の探索範囲は、画像360において、画像320の対応するオブジェクト点に対するエピポーラ線に沿って決定される。ある実施例では、画像320の画素点318のような各画素点は第2の画像360のエピポーラ線(番号362)に関連し、それによって、画素点318は、画像360においてエピポーラ線362上で探索される。同様に、画像320の他の画素点も、それに対応するエピポーラ線に沿って探索することができる。例えば、画像320の子供316の顔326に対応する画素点は、第2の画像360において、これらの画素点に対応するエピポーラ線上で探索されてもよく、その探索範囲は対応するエピポーラ線に沿って限定される。図3に示すように、探索範囲376は、顔326に画素点に対応する複数のエピポーラ線を含みうると決定され、探索範囲376が画像360で顔326を検出する推定範囲を規定することができる。同様に、画像360における探索範囲372・374の複数のエピポーラ線は、画像360において顔322・324を検出するために決定される。
例示的実施形態によっては、画像360においてエピポーラ線に沿って探索する際に伴う計算は、画像320で検出されたオブジェクトのサイズ(又は画像を撮影するカメラから被写体までの距離)に関する情報に基づいて画像360における探索範囲を最適化することによって更に減らすことができる。ある例示的実施形態では、装置200に、1つ又は複数のオブジェクトの対応するサイズに基づいて、画像320で検出された1つ又は複数のオブジェクトのソートを行わせる。例として、検出されたオブジェクト322・324・326の各々に関するサイズがそれぞれh1、h2、h3と決定されるとする。ある例示的実施形態では、オブジェクトはそのサイズに基づいて降順にソートされる。例えば、サイズがh1>h2>h3であるような場合、プロセッサ202は、顔を322、324、326の順にソートするように構成される。ある例示的実施形態では、特定の立体カメラのベースラインからの設定や焦点距離、顔の大きさに関して、最大サイズの顔に対する探索範囲が較正されてもよい。
ある例示的実施形態において、第2の画像360での探索範囲は、画像320で検出されたオブジェクトのサイズが小さくなる程狭くなる。あるいは又は加えて、カメラに近い被写体に対する探索範囲は、カメラから遠い被写体の場合と比べて広くてもよい。例示的実施形態では、カメラに近い被写体は、カメラから遠い別の被写体と比べて画像320・360の間の視差が大きくなる。例示的実施形態では、オブジェクトのサイズと位置に基づいて、探索範囲が決定されてもよい。例えば、顔322のサイズは顔324のサイズよりも大きく、顔324は顔326よりも大きいため、これらのオブジェクトの視差の降順はオブジェクト322、324、326となる。ある例示的実施形態では、視差の降順に基づくと、探索範囲372は探索範囲374より広く、探索範囲374は探索範囲376より広い。一般性を失わずに、最大の顔(例えば、顔322)に対して、その視差と対応する探索範囲372は最大である。特定の立体カメラのベースラインからの設定や焦点距離、顔322の大きさに関して、探索範囲372が較正されてもよい。また、探索範囲374は、探索範囲372に基づいて、例えば探索範囲372よりも僅かに狭いと推定されてもよい。また更に、探索範囲376は、探索範囲374に基づいて、例えば探索範囲374よりも僅かに狭いと推定されてもよい。
ある例示的実施形態において、1つ又は複数のオブジェクトに関する1つ又は複数の視差値が決定される。ある例示的実施形態では、あるオブジェクトに関する画像320と画像360との間の視差値は、画像320でのオブジェクトの位置と画像360でのオブジェクトの位置に基づいて決定される。例えば、男性312が画像320の位置382(画像360における男性312の仮想位置を表わす破線382で示される)と画像360の位置384にあった場合、男性312に関する視差値386は、位置382と384の間の距離として決定される。図3に示すように、子供316の視差392は、画像320と画像360における子供316の位置にそれぞれ関する位置388(画像320における子供316の仮想位置を表わす破線で示される)と位置390の間の距離として決定される。画像360におけるオブジェクト検出の複雑さは、エピポーラ制約を利用することによって(画像360全体を走査せず、エピポーラ線に沿った探索範囲を決定することによって)大幅に減らすことができ、その結果、このオブジェクトについて画像320と360との間の視差計算における複雑さもまた減らすことができる。実施例によっては、オブジェクトは種々のオブジェクト点に対して同一の視差を持つこともあるが、別の実施例によっては、画像320と360との間の視差が、オブジェクトのオブジェクト点(又は範囲)ごとに異なることもある。
図4には、ある例示的実施形態に従う、画像320・360等の立体画像対の何れかの画像からオブジェクトを分割する例示的表現を示す。ある例示的実施形態では、画像320及び画像360のうち少なくとも1つにおける1つ又は複数のオブジェクトは、少なくとも、そのオブジェクトのオブジェクト点に関する少なくとも1つの視差値に基づいて分割される。例えば、画像360における子供316の顔は、子供316の顔のオブジェクト点(又は画素点)に関する視差値(例えば、d1、d2、d3、d4)に基づいて、画像360から分割されてもよい。ある例示的実施形態では、オブジェクト(例えば、子供316)を分割するために、装置200に、子供316の顔へのオブジェクトラベルの割当て(例えば、子供316の顔のオブジェクト点に同一のオブジェクトラベルを割り当てる)と、画像360の残りの部分に非オブジェクトラベルの割当てを行わせる。ある例示的実施形態では、装置200に、グラフカット法等の適切な技術を用いて、割り当てられたオブジェクトラベル(例えば、子供316)に対応する画像360の部分の分割を更に行わせる。
ある例示的実施形態において、装置200に、オブジェクトのオブジェクト点に対応する第1の視差及び第2の視差の決定を行わせる。一般性を失わずに、ある例示的実施形態では、第1の視差は、オブジェクトの任意のオブジェクト点に対してそのオブジェクトが持ちうる最小視差(dmin)でもよく、第2の視差は、オブジェクトの任意のオブジェクト点に対してそのオブジェクトが持ちうる最大視差(dmax)でもよい。ある実施例では、装置200は、子供316の顔に関する最大視差dmax をd3、同じ子供の顔に関連する最小視差dmin をd2と決定する。この実施例では、最大視差d3及び最小視差d2は、子供316の顔に関する画像320と画像360との間の視差範囲を決定する。
ある例示的実施形態において、オブジェクト(例えば、子供316の顔)に関するオブジェクト点には、画像320及び画像360等の画像間での様々な視差値に対して計算されるオブジェクトコスト関数に基づいて、オブジェクトラベル(L1)が割り当てられる。例えば、装置200に、第1の視差(dmin)から第2の視差(dmax)までの視差範囲にある画像320と画像360との間の様々な視差値に対して、オブジェクトコスト関数の計算を行わせる。また装置200に、オブジェクトラベルとして視差範囲から、画像320と画像360との間で(複数のオブジェクトコスト関数のうち)オブジェクトコスト関数が最小となる視差の選択を行わせる。ある例示的実施形態では、様々な視差値に関するオブジェクトコスト関数C(x,y,d)は、dがdminからdmaxまでの範囲で計算される。ある例示的実施形態では、装置200に、あらゆる視差値に対して計算されたオブジェクトコスト関数から最小のオブジェクトコスト関数の選択を行わせる。例えば、dminからdmaxまでの範囲のdに対して、C(x,y,L1) = min C(x,y,d)であるオブジェクトコスト関数が選択される。この実施例では、視差L1(d=L1)に対して、画像320と画像360との間のオブジェクトコスト関数が最小となるため、子供316の顔等のオブジェクトに対して視差L1がオブジェクトラベルとして選択される。
ある例示的実施形態において、装置200に、画像320と画像360との間の非オブジェクトコスト関数に基づいて、非オブジェクト点(例えば、子供316の顔等のオブジェクト以外の残りの画素点)に対して非オブジェクトラベル(L2)の割当てを行わせる。例として、装置200に、第1の視差から第2の視差までの視差範囲外の様々な視差値に対して、非オブジェクトコスト関数の計算を行わせる。例えば、非オブジェクトコスト関数は、画像320と画像360との間の視差範囲(0, dmin-Δ)又は(dmax+Δ, M) に対して計算されてもよい。ここで、Mはシーンの最大視差、Δは視差の単位/ステップサイズである。また装置200に、非オブジェクトラベルとして視差範囲(0, dmin-Δ)及び(dmax+Δ, M) から、画像320と画像360との間で非オブジェクトコスト関数が最小となる視差値の選択を行わせる。ある例示的実施形態では、様々な視差値に関する非オブジェクトコスト関数C(x,y,d)は、dが(0, dmin-Δ)及び(dmax+Δ, M)の範囲で計算される。ある例示的実施形態では、装置200に、あらゆる視差値に対して計算された非オブジェクトコスト関数から最小のオブジェクトコスト関数の選択を行わせる。例えば、(0, dmin-Δ)及び(dmax+Δ, M)の範囲にあるdに対して、C(x,y,L2) = min C(x,y,d)である非オブジェクトコスト関数が選択される。この実施例では、視差L2(d=L2)に対して、画像320と画像360との間の非オブジェクトコスト関数が最小となるため、画像320及び画像360における子供316の顔以外の画像領域に対して視差L2が非オブジェクトラベルとして選択される。
ある例示的実施形態において、特定の視差値に対するオブジェクトコスト関数及び非オブジェクトコスト関数は、画像320及び画像360のマッチングに基づいて計算される。このマッチングでは、画像320と画像360との間で1つ又は複数の画像パラメータの一致度が決定される、画像320及び360の何れかの画素が視差値分だけシフトされる。例えば、視差値「d」の場合、画像360の各画素は特定の向きに視差「d」だけシフトされ、画像320と画像360との間でパラメータ(例えば、色)の一致度を決定するために、シフトされた画像360が画像320と比較される。ある例示的実施形態では、オブジェクトコスト関数又は非オブジェクトコスト関数は、様々な視差値に対して決定された一致度に基づいて計算される。またある例示的実施形態では、シフト画像360と画像320との間の一致度が高くなる程、オブジェクトコスト関数及び/又は非オブジェクトコスト関数は減少する。ある例示的実施形態では、オブジェクトコスト関数及び非オブジェクトコスト関数が最小となる視差値(それぞれL1及びL2)は、それぞれオブジェクトラベル(例えば、視差L1)及び非オブジェクトラベル(例えば、視差L2)として選択される。
ある例示的実施形態において、オブジェクトは、オブジェクトラベル(L1)及び非オブジェクトラベル(L2)に基づくグラフカット法の適用に基づいて、画像360等の画像から分割される。例として、ある実施例では、オブジェクトラベル(L1)が割り当てられるオブジェクト点が子供316の顔を表現し、非オブジェクトラベル(L2)が割り当てられるオブジェクト点がそのシーンにおける子供316の顔以外の領域を表現する。ある例示的実施形態では、子供316の顔は前景であると見なされてもよく、子供316の顔以外の領域は背景であると見なされてもよい。ある例示的実施形態では、子供316の顔を表現する領域(例えば、ラベルL1が割り当てられた領域)は、グラフカット法を用いてラベルL2で表わされる背景から分割されてもよい。図4に示すように、子供316の顔(402で示す)は、画像400(画像320又は360の一例)の背景404から分割される。
図5は、ある例示的実施形態に従う、オブジェクトを検出する例示的方法500を説明するフローチャートである。ある例示的実施形態では、方法500は、シーンの画像におけるオブジェクトを検出することと、その画像のオブジェクトの視差を決定することを含む。ただし、シーンの画像は、そのシーンの少なくとも1つのオブジェクトに対して画像間視差があるように撮影される。フローチャートに描かれる方法500は、例えば、図2の装置200によって実行されてもよい。
ブロック505で、方法500は、シーンの第1の画像及び第2の画像等の複数の画像の受取りを進めることを含む。図2を参照して説明したように、第1の画像(I1)及び第2の画像(I2)は、2つのセンサと関連要素を備えるメディアキャプチャデバイスから取り込まれてもよいし、DVDやコンパクトディスク(CD)、フラッシュドライブ、メモリカードのような外部ソースから取り込まれてもよいし、インターネットやBluetooth(登録商標)のような外部の保存場所から受信してもよい。ある例示的実施形態では、第1の画像(I1)及び第2の画像(I2)は、特定シーンの2つの異なるビューを含む。画像I1及びI2の実施例は、それぞれ図3に示しつつ参照して説明された画像310及び350でもよい。
ブロック510で、方法500は、画像I1の1つ又は複数のオブジェクトを検出することを含む。例として、第1の画像I1は3つのオブジェクトA、B、Cを含み、第1の画像I1におけるオブジェクトA・B・Cとそれぞれの位置を決定するために、第1の画像I1が走査される。図3を参照して説明したように、第1の画像I1は、オブジェクトA・B・Cのオブジェクト点を決定する適切なオブジェクト検出技術を用いて走査される。ブロック515で、方法500は、第1の画像(I1)における1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、第2の画像(I2)における1つ又は複数のオブジェクトのオブジェクト点を検出することを含む。例として、第1の画像I1で検出される全オブジェクトに対して、対応するオブジェクトがエピポーラ制約を用いて第2の画像I2で検出される。ある例示的実施形態では、画像I1のオブジェクト点に対応する画像I2のオブジェクト点を検出することは、画像I2のエピポーラ線上に画像I2のオブジェクト点を探索することを含む。ここで、画像I2のエピポーラ線は、画像I1のオブジェクト点に関して対応するエピポーラ線である。例として、画像I1の全オブジェクト点は、画像I2のエピポーラ線に対応する。ある実施例では、画像I2全体を探索しないで画像I2において画像I1の対応オブジェクト点を探索するために、この探索は、画像I1のオブジェクト点に対応する画像I2のエピポーラ線に沿った探索に限定される。図2を参照して説明したように、画像I2においてオブジェクトに関するオブジェクト点は、画像I1のオブジェクト点に対応する画像I2のエピポーラ線に沿って水平走査を行うことによって検出される。ある例示的実施形態では、画像I2で検出される種々のオブジェクトに対して、対応するオブジェクト点の位置が決定される。
ブロック520で、方法500は、画像I1のオブジェクトのオブジェクト点と画像I2のオブジェクトのオブジェクト点との間の視差値を決定することを含む。例として、オブジェクトCが、オブジェクトCの1つ又は複数の領域(「オブジェクト点」と呼ばれる)に対して、1つ又は複数の画像I1・I2間視差値を持つとする。例えば、オブジェクトCは領域(R1,R2,R3,R4)を含み、領域(R1,R2,R3,R4)はそれぞれ異なる画像I1・I2間視差を有してもよい。ある実施例では、顔の領域毎にそれぞれ異なる画像I1・I2間視差値を有してもよい。例えば、顔の鼻先は耳よりも視差が大きくてもよい。しかし、種々のシナリオにおいて、オブジェクトがそのオブジェクト点に対して一様の画像I1・I2間視差を有することもある。
図6は、別の例示的実施形態に従う例示的方法600を説明するフローチャートである。フローチャートに描かれる方法600は、例えば、図2の装置200によって実行されてもよい。種々の実施例において、方法600は、シーンの画像において計算による有効なオブジェクト検出と、画像のオブジェクトに関する視差値(又は深度)の計算と、画像のオブジェクトの分割を提供することを含む。方法600の例示的実施形態は立体画像を援用して説明されるが、方法600に記述される種々の動作は、マルチベースラインカメラやアレイカメラ、プレノプティックカメラ、ライトフィールドカメラ等で撮影されたシーンの2つ以上の画像であれば如何なるものにも実行可能であることに留意しなければならない。
ブロック605で、方法600は立体画像対の受取りを進めることを含む。第1の画像(I1)及び第2の画像(I2)は、立体カメラで撮影されてもよい。画像I1及びI2はマルチベースラインカメラやアレイカメラ、プレノプティックカメラ、ライトフィールドカメラ等で撮影されてもよく、この画像I1及びI2の実施例は、それぞれ図3に示した画像310及び350でもよい。
場合によっては、画像I1及びI2は、装置200が受け取る、あるいは撮影するとき、互いに補正されなくてもよい。このような場合、方法600は(ブロック610で)、画像I1及び画像I2の横の列が互いに対応するように、画像I1及びI2を補正することを含む。装置200が受け取る画像I1及びI2が補正画像である場合は、この(ブロック610での)補正処理は不要である。
ブロック615で、方法600は、画像I1における1つ又は複数のオブジェクトのオブジェクト点を検出することによって、画像I1における1つ又は複数のオブジェクトを検出することを含む。例として、画像I1は3つのオブジェクトA、B、Cを含み、第1の画像I1におけるオブジェクトA・B・Cのオブジェクト点とそれぞれの位置を決定するために、画像I1が走査される。ブロック620で、方法600は、画像I1における1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、画像I2における1つ又は複数のオブジェクトのオブジェクト点を検出することを含む。ここで、オブジェクト点は画像I2の各画素点に関して探索されず、そのオブジェクト点に対応する画像I2のエピポーラ線上に限定した探索範囲内で探索されることに留意しなければならない。探索範囲は、画像I1で既に検出済みのオブジェクトA・B・Cのオブジェクト点の位置に基づいて決定される。ブロック620の動作は、ブロック625及び630で実行される動作によって実行されてもよい。
ブロック625で、方法600は、画像I1の1つ又は複数のオブジェクトのオブジェクト点に対して、オブジェクト点に対応する画像I2のエピポーラ線に沿って画像I2での探索範囲を決定することを含む。ある例示的実施形態では、このオブジェクトのオブジェクト点に関する探索範囲は、オブジェクトのサイズとカメラから被写体までの距離に基づいて決定されてもよい。例として、画像I1で検出されたオブジェクトA、B、CのサイズはそれぞれH1、H2、H3であるとする。ある実施例では、サイズH1に関するオブジェクトAが最大であり、次いでサイズH3に関するオブジェクトC、そしてサイズH2に関するオブジェクトBが最小である。この実施例では、第2の画像I2での探索範囲は、画像I1で検出されたオブジェクトのサイズが小さくなる程狭くなる。例として、オブジェクトAに関する探索範囲がS1である場合、サイズH3に関するオブジェクトCに対する探索範囲は探索範囲S1よりも狭く(Cに対する探索範囲をS2とすると、S2 < S1)、サイズH2に関するオブジェクトBに対する探索範囲は最小である。
ブロック630で、方法600は、オブジェクト点に対して決定された探索範囲で第2の画像I2のオブジェクト点を探索することを含む。例えば、画像I1のオブジェクトAのオブジェクト点に対する画像I2の探索範囲は、画像I1のオブジェクトAのオブジェクト点に対応する画像I2のエピポーラ線に沿って決定され、この決定された探索範囲でオブジェクトAのオブジェクト点が探索される。
ブロック635で、方法600は、画像I1の1つ又は複数のオブジェクトのオブジェクト点と画像I2の1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することを含む。例として、オブジェクトCが、オブジェクトCの1つ又は複数の領域(「オブジェクト点」と呼ばれる)に対して、1つ又は複数の画像I1・I2間視差値を持つとする。例えば、オブジェクトCは領域(R1,R2,R3,R4)を含み、領域(R1,R2,R3,R4)はそれぞれ異なる画像I1・I2間視差を有してもよい。ある例示的実施形態では、オブジェクトは同一の視差を有してもよい。ある例示的実施形態では、あるオブジェクトに関する画像I1と画像I2との間の視差値は、画像I1でのオブジェクトの位置と画像I2でのオブジェクトの位置に基づいて決定される。
ブロック640で、方法600は、オブジェクトに関する画像I1・I2間視差値に基づいて、画像I1及び画像I2の少なくとも何れかにおける1つ又は複数のオブジェクトの中の特定のオブジェクトを分割することを含む。例えば、オブジェクトCは、オブジェクトCに関する画像I1・I2間視差値に基づいて、画像I2から分割されてもよい。ある例示的実施形態では、ブロック640の動作は、ブロック645-670によって実行される。
ブロック645で、方法600は、オブジェクトCのオブジェクト点に対応する第1の視差(例えば、dmin)及び第2の視差(dmax)を決定することを含む。例として、オブジェクトCは、(R1,R2,R3,R4)といった様々な領域に対してそれぞれ異なる画像I1・I2間視差で広がっているとする。ある実施形態では、オブジェクトCに関する第1の視差(dmin)及び第2の視差(dmax)は、オブジェクトCのオブジェクト点が広がる視差値の範囲(dmin, dmax)を決定するために計算される。ある例示的実施形態では、値dmin, dmaxは、ベースラインや焦点距離、顔の大きさ、オブジェクトの視差といった特定の立体カメラ設定の関数として較正されてもよい。
ブロック650で、方法600は、例えば範囲(dmin, dmax)である第1の視差値から第2の視差値までの複数の視差値に対して、画像I1・I2間のオブジェクトコスト関数を計算することを含む。ブロック655で、方法600は、画像I1・I2間のオブジェクトコスト関数に基づいて、オブジェクトCに関するオブジェクト点に対してオブジェクトラベル(L1)を割り当てることを含む。ブロック655で、オブジェクトラベルとして範囲(dmin, dmax)から、画像I1・I2間でオブジェクトコスト関数が最小となる視差値が選択される。オブジェクトコスト関数の計算に関する例示的実施形態の一部は、図4を参照して説明される。
ブロック660で、方法600は、例えば範囲(0, dmin-Δ)又は(dmax+Δ, M)である第1の視差値から第2の視差値までの範囲外にある1つ又は複数の視差値に対して、画像I1・I2間の非オブジェクトコスト関数を計算することを含む。ここで、Mはシーンの最大視差、Δは視差の単位/ステップサイズである。ブロック665で、方法600は、画像I1・I2間の非オブジェクトコスト関数に基づいて、非オブジェクト点(例えば、オブジェクトC以外の残りの画素点)に対して非オブジェクトラベル(L2)を割り当てることを含む。ある例示的実施形態では、非オブジェクトラベルとして(範囲(0, dmin-Δ)及び(dmax+Δ, M)にある)種々の視差値から、画像I1・I2間で非オブジェクトコスト関数が最小となる視差値が選択される。
ブロック670で、方法600は、オブジェクトラベル及び非オブジェクトラベルに基づいてオブジェクトを分割することを含む。ある例示的実施形態では、方法600は、オブジェクトラベルL1及び非オブジェクトラベルL2に関するグラフカットアルゴリズムの適用に基づいて、オブジェクトを分割することを含む。例として、(非オブジェクトラベルL2が割り当てられる)背景からオブジェクトラベルL1が割り当てられるオブジェクト点を分割するために、グラフカット法が用いられる。その結果、画像I1又はI2からオブジェクトCを分割することができる。
図5及び6のフローチャートの説明を容易にするために、特定の処理が他のステップとは区別可能なステップで、特定の処理順序を有するものとして説明されてきたことに留意しなければならない。しかし、このような実装形態は単に例に過ぎず、実装形態を限定するものではない。処理によっては、統合されて単一の処理として実行されてもよく、また、本明細書に例示された順序とは異なる順序でも実行可能である。さらに、方法500・600の処理によっては自動的に実行されるものもある。そうした処理には実質的にユーザは関わらない。方法500・600の別の処理は、マニュアル又は半自動的に実行されてもよい。そうした処理には、1つ又は複数のユーザインタフェースを介してユーザが操作することを含む。
こうしたフローチャートに描かれる方法は、例えば、図2の装置200によって実行されてもよい。フローチャートの処理及びフローチャートの処理の組み合わせは様々な手段によって実施されることに留意されたい。そのような手段には、例えばハードウェアやファームウェア、プロセッサ、回路網、及び/又はソフトウェアの実行に関連付けられるデバイスが含まれる。また当該ソフトウェアは1つ又は複数のコンピュータプログラム命令を含む。例えば、様々な実施形態に関して説明された1つ又は複数の処理は、コンピュータプログラム命令によって具現化されてもよい。ある例示的実施形態では、多くの実施形態で説明された上記の処理を具現化するコンピュータプログラム命令は、装置の少なくとも1つのメモリデバイスに格納されてもよく、装置の少なくとも1つのプロセッサにより実行されてもよい。このようなコンピュータプログラム命令は、コンピュータや、プログラム可能な装置(例えばハードウェア)にロードされて機械を構成する。すなわち、命令がロードされたコンピュータ又はプログラム可能な装置は、1つ又は複数のフローチャートにより特定される機能を実装するための手段を具現化する。これらのコンピュータプログラム命令はコンピュータ読み取り可能な記憶メモリ(すなわち搬送波や電磁波信号のような送信媒体ではない媒体))に格納されてもよく、固有の方法でコンピュータ又はその他のプログラム可能な装置を機能させるべく命令してもよい。すなわち、コンピュータ読み取り可能なメモリに格納される命令は、実行されることにより、1つ又は複数のフローチャートのブロックにより特定される機能を実装する製品を形成する。コンピュータプログラム命令はコンピュータ又はその他のプログラム可能な装置にロードされ、一連の動作を前記コンピュータ又はその他のプログラム可能な装置で実行させることにより、コンピュータ実装プロセスを生成する。すなわち、コンピュータ又はその他のプログラム可能な装置で命令が実行されることにより、フローチャートで特定される処理を提供する。こうした方法に関する処理は、装置200の助けを借りて説明される。しかし、方法に関する処理は、他の如何なる装置を用いて説明されたり実施されたりしてもよい。
本願で開示される1つ又は複数の例示的実施形態における技術的効果は、特定のシーンに関する複数の画像で、画像のオブジェクトの間に視差があるような画像(例えば、立体画像)においてオブジェクトの検出を行うことである。ただしこのことは、以降に記載する特許請求の範囲や解釈、適用を如何様にも限定するものではない。種々の実施形態は、立体画像におけるオブジェクト検出の複雑さを減らせる技術を提供する。例えば、立体画像のうち1つの画像のみからオブジェクトが検出され、他の画像はオブジェクト検出のために全体が走査されずに、オブジェクトのエピポーラ制約に基づいて決定された探索範囲で探索が行われる。他の画像におけるオブジェクト検出は効率的に計算されるため、立体画像のオブジェクトに関する視差も効率的に決定される。また、種々の実施形態は、オブジェクトに関する視差値に基づいてグラフカットによる画像からのオブジェクト分割も提供する。こうしたオブジェクト分割は、高速かつ正確な分割処理である。
前述の様々な実施形態は、ソフトウェアやハードウェア、アプリケーションロジック、又はこれらの結合として実装されてもよい。ソフトウェアやアプリケーションロジック、ハードウェアは、少なくとも1つのメモリ、少なくとも1つのプロセッサ、装置、コンピュータプログラムを用いた製品に存在していてもよい。ある例示的実施形態においては、アプリケーションロジック、ソフトウェア、または命令セットは、種々の標準的なコンピュータ可読媒体の何れかに保持される。本明細書の文脈において「コンピュータ可読媒体」は触ることが可能なメディアや手段であって、命令を実行するコンピュータのようなシステムや装置、デバイスによって又はそれと共に使用される命令を、含むことや格納すること、通信すること、伝達すること、送信することのいずれかが可能な如何なるメディアや手段であってもよい。上記コンピュータの例には、図1及び/又は図2に関連して説明され描かれている装置がある。コンピュータ可読媒体はコンピュータ可読記憶媒体を備えてもよい。それは、コンピュータのような、命令を実行するシステムや装置、デバイスによってまたはそれと共に使用される命令を含むか格納しうる、如何なる媒体や手段であってもよい。
必要に応じて、本出願で開示した様々な機能が異なる順序で、及び/又は同時に実行されてもよい。さらに必要に応じて、前述の機能の1つ又は複数が任意選択できたり、統合されたりしてもよい。
実施形態の様々な側面が独立請求項に提示されているが、その他の側面には、請求項に明示的に提示されている組み合わせ以外にも、説明された実施形態及び/又は従属請求項に含まれる特徴を、独立請求項の特徴と組み合わせたものも含まれる。
前述の通り、本発明の例示的実施形態が説明されてきたが、これらの記述を限定的な意味で見るべきでないことにも留意されたい。それよりも、添付の特許請求の範囲に定義される開示の範囲を逸脱することなしに、様々な変形や修正が存在する。

Claims (44)

  1. 1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進めることと;
    前記第1の画像で前記1つ又は複数のオブジェクトを検出することであって、該第1の画像の1つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと;
    前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を検出することは、該第2の画像におけるエピポーラ線に沿って、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を探索することを含む、前記検出することと;
    前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点と前記第2の画像における前記1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第1の画像のオブジェクト点と該第2の画像のオブジェクト点との間の視差値は、少なくとも、該第1の画像のオブジェクト点の検出位置及び該第2の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することと;
    を含む、方法。
  2. 前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出することは:
    前記第1の画像のオブジェクト点のエピポーラ線に沿って、該第1の画像のオブジェクト点に関する探索範囲を前記第2の画像において決定することであって、前記1つ又は複数のオブジェクトの中の第1のオブジェクトが該1つ又は複数のオブジェクトの中の第2のオブジェクトよりもサイズが大きい場合、該第1のオブジェクトのオブジェクト点に関する探索範囲は、該第2のオブジェクトのオブジェクト点に関する探索範囲よりも広い、前記決定することと;
    前記オブジェクト点に関して決定された探索範囲で前記第2の画像のオブジェクト点を探索することと
    を含む、請求項1に記載の方法。
  3. 前記第1の画像及び前記第2の画像は補正画像である、請求項1に記載の方法。
  4. 前記第1の画像のオブジェクト点と前記第2の画像のオブジェクト点との間の視差値は、該第1の画像のオブジェクト点の検出位置と該第2の画像のオブジェクト点の検出位置との差である、請求項1に記載の方法。
  5. 前記オブジェクトのオブジェクト点に関する少なくとも1つの視差値に基づいて、前記第1の画像及び前記第2の画像の何れかの画像における1つ又は複数のオブジェクトの中のオブジェクトを分割することを更に含む、請求項1から4の何れかに記載の方法。
  6. 前記第1の画像及び第2の画像の何れかの画像のオブジェクトを分割することは:
    前記オブジェクトのオブジェクト点に対応する第1の視差値及び第2の視差値を決定することと;
    前記第1の視差値と前記第2の視差値との間にある複数の視差値に対して、前記第1の画像と前記第2の画像との間のオブジェクトコスト関数を計算することと;
    オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点にオブジェクトラベルを割り当てることと;
    前記第1の視差値と前記第2の視差値との間にある前記複数の視差値以外の1つ又は複数の視差値に対して、前記第1の画像と前記第2の画像との間の非オブジェクトコスト関数を計算することと;
    前記第1の画像と前記第2の画像との間の前記非オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点に非オブジェクトラベルを割り当てることと;
    前記オブジェクトラベル及び前記非オブジェクトラベルに基づいて、前記画像のオブジェクトを分割することと
    を含む、請求項5に記載の方法。
  7. 前記複数のオブジェクトコスト関数の間でオブジェクトコスト関数が最小となる視差値が、前記オブジェクトラベルとして割り当てられ、前記複数の非オブジェクトコスト関数の間で非オブジェクトコスト関数が最小となる視差値が、前記非オブジェクトラベルとして割り当てられる、請求項6に記載の方法。
  8. 前記複数の視差値の中の視差値に対して前記第1の画像と前記第2の画像との間のオブジェクトコスト関数を計算することは、該第1の画像及び第2の画像の何れかの画素が前記視差値分だけシフトされる場合、該第1の画像と該第2の画像との間での1つ又は複数の画像パラメータの一致度を決定することを含む、請求項6に記載の方法。
  9. 前記第1の画像及び前記第2の画像は立体画像対である、請求項1から8の何れかに記載の方法。
  10. 前記第1の画像及び第2の画像は、前記シーンの複数ビューを撮影できるカメラで撮影され、該カメラは、立体カメラ及びマルチベースラインカメラ、アレイカメラ、プレノプティックカメラを含むグループから選択される、請求項1から9の何れかに記載の方法。
  11. 少なくとも1つのプロセッサと;
    コンピュータプログラムコードを含む少なくとも1つのメモリを備える装置であって、前記少なくとも1つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、前記装置に少なくとも:
    1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進めることと;
    前記第1の画像で前記1つ又は複数のオブジェクトを検出することであって、該第1の画像の1つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと;
    前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を検出することは、該第2の画像におけるエピポーラ線に沿って、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を探索することを含む、前記検出することと;
    前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点と前記第2の画像における前記1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第1の画像のオブジェクト点と該第2の画像のオブジェクト点との間の視差値は、少なくとも、該第1の画像のオブジェクト点の検出位置及び該第2の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することと;
    を実行させるように構成される、装置。
  12. 前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出するために、前記装置は更に、
    前記第1の画像のオブジェクト点のエピポーラ線に沿って、該第1の画像のオブジェクト点に関する探索範囲を前記第2の画像において決定することであって、前記1つ又は複数のオブジェクトの中の第1のオブジェクトが該1つ又は複数のオブジェクトの中の第2のオブジェクトよりもサイズが大きい場合、該第1のオブジェクトのオブジェクト点に関する探索範囲は、該第2のオブジェクトのオブジェクト点に関する探索範囲よりも広い、前記決定することと;
    前記オブジェクト点に関して決定された探索範囲で前記第2の画像のオブジェクト点を探索することと
    を少なくとも部分的に実行させられる、請求項11に記載の装置。
  13. 前記第1の画像及び前記第2の画像は補正画像である、請求項11に記載の装置。
  14. 前記第1の画像のオブジェクト点と前記第2の画像のオブジェクト点との間の視差値は、該第1の画像のオブジェクト点の検出位置と該第2の画像のオブジェクト点の検出位置との差である、請求項11に記載の装置。
  15. 前記装置は更に、前記オブジェクトのオブジェクト点に関する少なくとも11つの視差値に基づいて、前記第1の画像及び前記第2の画像の何れかの画像における1つ又は複数のオブジェクトの中のオブジェクトを分割することを少なくとも部分的に実行させられる、請求項11から14の何れかに記載の装置。
  16. 前記第1の画像及び第2の画像の何れかの画像のオブジェクトを分割するために、前記装置は更に、
    前記オブジェクトのオブジェクト点に対応する第1の視差値及び第2の視差値を決定することと;
    前記第1の視差値と前記第2の視差値との間にある複数の視差値に対して、前記第1の画像と前記第2の画像との間のオブジェクトコスト関数を計算することと;
    オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点にオブジェクトラベルを割り当てることと;
    前記第1の視差値と前記第2の視差値との間にある前記複数の視差値以外の1つ又は複数の視差値に対して、前記第1の画像と前記第2の画像との間の非オブジェクトコスト関数を計算することと;
    前記第1の画像と前記第2の画像との間の前記非オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点に非オブジェクトラベルを割り当てることと;
    前記オブジェクトラベル及び前記非オブジェクトラベルに基づいて、前記画像のオブジェクトを分割することと
    を少なくとも部分的に実行させられる、請求項15に記載の装置。
  17. 前記複数のオブジェクトコスト関数の間でオブジェクトコスト関数が最小となる視差値が、前記オブジェクトラベルとして割り当てられ、前記複数の非オブジェクトコスト関数の間で非オブジェクトコスト関数が最小となる視差値が、前記非オブジェクトラベルとして割り当てられる、請求項16に記載の装置。
  18. 前記複数の視差値の中の視差値に対して前記第1の画像と前記第2の画像との間のオブジェクトコスト関数を計算することは、該第1の画像及び第2の画像の何れかの画素が前記視差値分だけシフトされる場合、該第1の画像と該第2の画像との間での1つ又は複数の画像パラメータの一致度を決定することを含む、請求項16に記載の装置。
  19. 前記第1の画像及び前記第2の画像は立体画像対である、請求項11から18の何れかに記載の装置。
  20. 前記第1の画像及び第2の画像は、前記シーンの複数ビューを撮影できるカメラで撮影され、該カメラは、立体カメラ及びマルチベースラインカメラ、アレイカメラ、プレノプティックカメラを含むグループから選択される、請求項11から19の何れかに記載の装置。
  21. 電子機器として構成される請求項11に記載の装置であって:
    ユーザがディスプレイを利用して前記電子機器の少なくとも1つの機能を制御することを進め、かつユーザ入力に応答するように構成される、ユーザインタフェース回路及びユーザインタフェースソフトウェアと;
    前記電子機器のユーザインタフェースの少なくとも一部を表示するように構成されるディスプレイ回路であって、前記ディスプレイ及び該ディスプレイ回路は、前記ユーザが前記電子機器の機能の少なくとも一部を制御することを進めるように構成される、前記ディスプレイ回路と;
    を備える、装置。
  22. 前記電子機器は、前記第1の画像及び前記第2の画像を取り込むように構成される少なくとも1つのイメージセンサを備える、請求項21に記載の装置。
  23. 前記電子機器は携帯電話を含む、請求項22に記載の装置。
  24. 少なくとも1つのコンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、前記コンピュータ可読記憶媒体は命令セットを含み、前記命令セットは、1つ又は複数のプロセッサにより実行されると、装置に少なくとも:
    1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進めることと;
    前記第1の画像で前記1つ又は複数のオブジェクトを検出することであって、該第1の画像の1つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと;
    前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を検出することは、該第2の画像におけるエピポーラ線に沿って、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を探索することを含む、前記検出することと;
    前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点と前記第2の画像における前記1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第1の画像のオブジェクト点と該第2の画像のオブジェクト点との間の視差値は、少なくとも、該第1の画像のオブジェクト点の検出位置及び該第2の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することと;
    を実行させるように構成される、コンピュータプログラム製品。
  25. 前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出するために、前記装置は更に、
    前記第1の画像のオブジェクト点のエピポーラ線に沿って、該第1の画像のオブジェクト点に関する探索範囲を前記第2の画像において決定することであって、前記1つ又は複数のオブジェクトの中の第1のオブジェクトが該1つ又は複数のオブジェクトの中の第2のオブジェクトよりもサイズが大きい場合、該第1のオブジェクトのオブジェクト点に関する探索範囲は、該第2のオブジェクトのオブジェクト点に関する探索範囲よりも広い、前記決定することと;
    前記オブジェクト点に関して決定された探索範囲で前記第2の画像のオブジェクト点を探索することと
    を少なくとも部分的に実行させられる、請求項24に記載のコンピュータプログラム製品。
  26. 前記第1の画像及び前記第2の画像は補正画像である、請求項24に記載のコンピュータプログラム製品。
  27. 前記第1の画像のオブジェクト点と前記第2の画像のオブジェクト点との間の視差値は、該第1の画像のオブジェクト点の検出位置と該第2の画像のオブジェクト点の検出位置との差である、請求項24に記載のコンピュータプログラム製品。
  28. 前記装置は更に、前記オブジェクトのオブジェクト点に関する少なくとも1つの視差値に基づいて、前記第1の画像及び前記第2の画像の何れかの画像における1つ又は複数のオブジェクトの中のオブジェクトを分割することを少なくとも部分的に実行させられる、請求項24から27の何れかに記載のコンピュータプログラム製品。
  29. 前記第1の画像及び第2の画像の何れかの画像のオブジェクトを分割するために、前記装置は更に、
    前記オブジェクトのオブジェクト点に対応する第1の視差値及び第2の視差値を決定することと;
    前記第1の視差値と前記第2の視差値との間にある複数の視差値に対して、前記第1の画像と前記第2の画像との間のオブジェクトコスト関数を計算することと;
    オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点にオブジェクトラベルを割り当てることと;
    前記第1の視差値と前記第2の視差値との間にある前記複数の視差値以外の1つ又は複数の視差値に対して、前記第1の画像と前記第2の画像との間の非オブジェクトコスト関数を計算することと;
    前記第1の画像と前記第2の画像との間の前記非オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点に非オブジェクトラベルを割り当てることと;
    前記オブジェクトラベル及び前記非オブジェクトラベルに基づいて、前記画像のオブジェクトを分割することと
    を少なくとも部分的に実行させられる、請求項28に記載のコンピュータプログラム製品。
  30. 前記複数のオブジェクトコスト関数の間でオブジェクトコスト関数が最小となる視差値が、前記オブジェクトラベルとして割り当てられ、前記複数の非オブジェクトコスト関数の間で非オブジェクトコスト関数が最小となる視差値が、前記非オブジェクトラベルとして割り当てられる、請求項29に記載のコンピュータプログラム製品。
  31. 前記複数の視差値の中の視差値に対して前記第1の画像と前記第2の画像との間のオブジェクトコスト関数を計算することは、該第1の画像及び第2の画像の何れかの画素が前記視差値分だけシフトされる場合、該第1の画像と該第2の画像との間での1つ又は複数の画像パラメータの一致度を決定することを含む、請求項30に記載のコンピュータプログラム製品。
  32. 前記第1の画像及び前記第2の画像は立体画像対である、請求項24から31の何れかに記載のコンピュータプログラム製品。
  33. 前記第1の画像及び第2の画像は、前記シーンの複数ビューを撮影できるカメラで撮影され、該カメラは、立体カメラ及びマルチベースラインカメラ、アレイカメラ、プレノプティックカメラを含むグループから選択される、請求項24から32の何れかに記載のコンピュータプログラム製品。
  34. 1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進める手段と;
    前記第1の画像で前記1つ又は複数のオブジェクトを検出する手段であって、該第1の画像の1つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出する手段と;
    前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出する手段であって、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を検出することは、該第2の画像におけるエピポーラ線に沿って、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を探索することを含む、前記検出する手段と;
    前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点と前記第2の画像における前記1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定する手段であって、該第1の画像のオブジェクト点と該第2の画像のオブジェクト点との間の視差値は、少なくとも、該第1の画像のオブジェクト点の検出位置及び該第2の画像のオブジェクト点の検出位置に基づいて決定される、前記決定する手段と;
    を備える、装置。
  35. 前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出する手段は:
    前記第1の画像のオブジェクト点のエピポーラ線に沿って、該第1の画像のオブジェクト点に関する探索範囲を前記第2の画像において決定する手段であって、前記1つ又は複数のオブジェクトの中の第1のオブジェクトが該1つ又は複数のオブジェクトの中の第2のオブジェクトよりもサイズが大きい場合、該第1のオブジェクトのオブジェクト点に関する探索範囲は、該第2のオブジェクトのオブジェクト点に関する探索範囲よりも広い、前記決定する手段と;
    前記オブジェクト点に関して決定された探索範囲で前記第2の画像のオブジェクト点を探索する手段と
    を備える、請求項34に記載の装置。
  36. 前記第1の画像及び前記第2の画像は補正画像である、請求項34に記載の装置。
  37. 前記第1の画像のオブジェクト点と前記第2の画像のオブジェクト点との間の視差値は、該第1の画像のオブジェクト点の検出位置と該第2の画像のオブジェクト点の検出位置との差である、請求項34に記載の装置。
  38. 前記オブジェクトのオブジェクト点に関する少なくとも1つの視差値に基づいて、前記第1の画像及び前記第2の画像の何れかの画像における1つ又は複数のオブジェクトの中のオブジェクトを分割する普段を更に備える、請求項34から37の何れかに記載の装置。
  39. 前記第1の画像及び第2の画像の何れかの画像のオブジェクトを分割する手段は:
    前記オブジェクトのオブジェクト点に対応する第1の視差値及び第2の視差値を決定する手段と;
    前記第1の視差値と前記第2の視差値との間にある複数の視差値に対して、前記第1の画像と前記第2の画像との間のオブジェクトコスト関数を計算する手段と;
    オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点にオブジェクトラベルを割り当てる手段と;
    前記第1の視差値と前記第2の視差値との間にある前記複数の視差値以外の1つ又は複数の視差値に対して、前記第1の画像と前記第2の画像との間の非オブジェクトコスト関数を計算する手段と;
    前記第1の画像と前記第2の画像との間の前記非オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点に非オブジェクトラベルを割り当てる手段と;
    前記オブジェクトラベル及び前記非オブジェクトラベルに基づいて、前記画像のオブジェクトを分割する手段と
    を備える、請求項38に記載の装置。
  40. 前記複数のオブジェクトコスト関数の間でオブジェクトコスト関数が最小となる視差値が、前記オブジェクトラベルとして割り当てられ、前記複数の非オブジェクトコスト関数の間で非オブジェクトコスト関数が最小となる視差値が、前記非オブジェクトラベルとして割り当てられる、請求項39に記載の装置。
  41. 前記複数の視差値の中の視差値に対して前記第1の画像と前記第2の画像との間のオブジェクトコスト関数を計算することは、該第1の画像及び第2の画像の何れかの画素が前記視差値分だけシフトされる場合、該第1の画像と該第2の画像との間での1つ又は複数の画像パラメータの一致度を決定することを含む、請求項39に記載の装置。
  42. 前記第1の画像及び前記第2の画像は立体画像対である、請求項34から41の何れかに記載の装置。
  43. 前記第1の画像及び第2の画像は、前記シーンの複数ビューを撮影できるカメラで撮影され、該カメラは、立体カメラ及びマルチベースラインカメラ、アレイカメラ、プレノプティックカメラを含むグループから選択される、請求項34から42の何れかに記載の装置。
  44. コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令は、装置により実行されると該装置に:
    1つ又は複数のオブジェクトを含む、シーンの第1の画像及び第2の画像の受取りを進めることと;
    前記第1の画像で前記1つ又は複数のオブジェクトを検出することであって、該第1の画像の1つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと;
    前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第2の画像で前記1つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を検出することは、該第2の画像におけるエピポーラ線に沿って、該第1の画像のオブジェクト点に対応する該第2の画像のオブジェクト点を探索することを含む、前記検出することと;
    前記第1の画像における前記1つ又は複数のオブジェクトのオブジェクト点と前記第2の画像における前記1つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第1の画像のオブジェクト点と該第2の画像のオブジェクト点との間の視差値は、少なくとも、該第1の画像のオブジェクト点の検出位置及び該第2の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することと;
    を実行させる、コンピュータプログラム。
JP2016535510A 2013-08-19 2014-07-01 オブジェクト検出及び分割の方法,装置,コンピュータプログラム製品 Active JP6154075B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN3658CH2013 2013-08-19
IN3658/CHE/2013 2013-08-19
PCT/FI2014/050541 WO2015025073A1 (en) 2013-08-19 2014-07-01 Method, apparatus and computer program product for object detection and segmentation

Publications (2)

Publication Number Publication Date
JP2016535353A true JP2016535353A (ja) 2016-11-10
JP6154075B2 JP6154075B2 (ja) 2017-06-28

Family

ID=52483111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016535510A Active JP6154075B2 (ja) 2013-08-19 2014-07-01 オブジェクト検出及び分割の方法,装置,コンピュータプログラム製品

Country Status (6)

Country Link
US (1) US9443130B2 (ja)
EP (1) EP3036901B1 (ja)
JP (1) JP6154075B2 (ja)
KR (1) KR101784639B1 (ja)
CN (1) CN105531998B (ja)
WO (1) WO2015025073A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068147B2 (en) * 2015-04-30 2018-09-04 Samsung Electronics Co., Ltd. System and method for insertion of photograph taker into a photograph
US10855971B2 (en) * 2015-09-16 2020-12-01 HashD, Inc. Systems and methods of creating a three-dimensional virtual image
CN106921856B (zh) * 2015-12-25 2019-07-12 北京三星通信技术研究有限公司 立体图像的处理方法、检测分割方法及相关装置和设备
US10136116B2 (en) * 2016-03-07 2018-11-20 Ricoh Company, Ltd. Object segmentation from light field data
JP6702796B2 (ja) * 2016-05-16 2020-06-03 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法および画像処理プログラム
EP3252491A1 (en) * 2016-06-02 2017-12-06 Nokia Technologies Oy An apparatus and associated methods
KR102462063B1 (ko) * 2016-12-09 2022-11-03 한국전자통신연구원 플렌옵틱 재초점을 이용한 자동 객체 분리 방법 및 장치
US11272163B2 (en) * 2017-02-07 2022-03-08 Sony Corporation Image processing apparatus and image processing method
WO2018211127A1 (en) * 2017-05-19 2018-11-22 Movidius Ltd. Methods, systems and apparatus to optimize pipeline execution
US10127825B1 (en) * 2017-06-13 2018-11-13 Fuvi Cognitive Network Corp. Apparatus, method, and system of insight-based cognitive assistant for enhancing user's expertise in learning, review, rehearsal, and memorization
WO2019027060A1 (ko) * 2017-07-31 2019-02-07 주식회사 렛시 가상 객체 증강 장치 및 방법
WO2019071403A1 (zh) * 2017-10-09 2019-04-18 深圳市柔宇科技有限公司 一种图像处理方法及装置
KR102049396B1 (ko) * 2018-04-09 2019-11-27 곽준혁 스테레오 카메라를 이용한 후방 어라운드뷰 생성 방법
US10679362B1 (en) 2018-05-14 2020-06-09 Vulcan Inc. Multi-camera homogeneous object trajectory alignment
US10600192B1 (en) * 2018-05-14 2020-03-24 Vulcan Inc. Multi-camera homogeneous object alignment
CN108986110A (zh) * 2018-07-02 2018-12-11 Oppo(重庆)智能科技有限公司 图像处理方法、装置、移动终端及存储介质
KR102365735B1 (ko) * 2018-11-06 2022-02-22 한국전자통신연구원 플렌옵틱 영상 처리 장치, 그것을 포함하는 플렌옵틱 영상 처리 시스템 및 그것의 객체 분할 방법
CN112262411B (zh) * 2019-12-23 2024-04-05 商汤国际私人有限公司 图像关联方法、系统和装置
SG10201913017TA (en) * 2019-12-23 2020-07-29 Sensetime Int Pte Ltd Image association method, system and apparatus
JP2022546880A (ja) 2020-08-01 2022-11-10 センスタイム インターナショナル プライベート リミテッド オブジェクト関連付け方法及び装置、システム、電子機器、記憶媒体及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008261756A (ja) * 2007-04-12 2008-10-30 National Institute Of Information & Communication Technology ステレオ画像対から3次元の頭部姿勢をリアルタイムで推定するための装置及びプログラム
US20100259597A1 (en) * 2009-04-14 2010-10-14 Electronics And Telecommunications Research Institute Face detection apparatus and distance measurement method using the same
JP2013105392A (ja) * 2011-11-15 2013-05-30 Kanazawa Univ 運転支援システム、運転支援方法、及び、プログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6862364B1 (en) * 1999-10-27 2005-03-01 Canon Kabushiki Kaisha Stereo image processing for radiography
US6671399B1 (en) * 1999-10-27 2003-12-30 Canon Kabushiki Kaisha Fast epipolar line adjustment of stereo pairs
US6754389B1 (en) * 1999-12-01 2004-06-22 Koninklijke Philips Electronics N.V. Program classification using object tracking
US7085409B2 (en) * 2000-10-18 2006-08-01 Sarnoff Corporation Method and apparatus for synthesizing new video and/or still imagery from a collection of real video and/or still imagery
JP2004518473A (ja) * 2001-01-30 2004-06-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 変形する3d物体の画像シーケンスを該物体の壁の動きの指示を伴って表示する画像処理方法
WO2003017680A1 (en) * 2001-08-15 2003-02-27 Koninklijke Philips Electronics N.V. 3d video conferencing system
GB0125774D0 (en) * 2001-10-26 2001-12-19 Cableform Ltd Method and apparatus for image matching
US6847728B2 (en) * 2002-12-09 2005-01-25 Sarnoff Corporation Dynamic depth recovery from multiple synchronized video streams
KR100729280B1 (ko) 2005-01-08 2007-06-15 아이리텍 잉크 스테레오 카메라를 장착한 이동단말기를 이용한 홍채인식시스템 및 그 방법
US7720282B2 (en) * 2005-08-02 2010-05-18 Microsoft Corporation Stereo image segmentation
US7471292B2 (en) * 2005-11-15 2008-12-30 Sharp Laboratories Of America, Inc. Virtual view specification and synthesis in free viewpoint
US7567271B2 (en) * 2006-01-09 2009-07-28 Sony Corporation Shared color sensors for high-resolution 3-D camera
EP1806697B1 (en) * 2006-01-10 2016-08-10 Microsoft Technology Licensing, LLC Segmenting image elements
EP2042079B1 (en) * 2006-07-14 2010-10-20 Panasonic Corporation Visual axis direction detection device and visual line direction detection method
KR20090055803A (ko) * 2007-11-29 2009-06-03 광주과학기술원 다시점 깊이맵 생성 방법 및 장치, 다시점 영상에서의변이값 생성 방법
WO2013116694A1 (en) * 2012-02-03 2013-08-08 The Trustees Of Dartmouth College Method and apparatus for determining tumor shift during surgery using a stereo-optical three-dimensional surface-mapping system
TW201005673A (en) * 2008-07-18 2010-02-01 Ind Tech Res Inst Example-based two-dimensional to three-dimensional image conversion method, computer readable medium therefor, and system
KR20100072772A (ko) 2008-12-22 2010-07-01 한국전자통신연구원 스테레오 비전을 이용한 실시간 얼굴 검출 시스템 및 그 방법
US20120242803A1 (en) * 2010-01-13 2012-09-27 Kenjiro Tsuda Stereo image capturing device, stereo image capturing method, stereo image display device, and program
JP5615088B2 (ja) * 2010-08-18 2014-10-29 キヤノン株式会社 画像処理装置及びその方法、プログラム、並びに撮像装置
US8861836B2 (en) * 2011-01-14 2014-10-14 Sony Corporation Methods and systems for 2D to 3D conversion from a portrait image
US8610712B2 (en) * 2011-03-01 2013-12-17 Adobe Systems Incorporated Object selection in stereo image pairs
JP5743142B2 (ja) * 2011-03-29 2015-07-01 ソニー株式会社 画像理装置および方法、並びにプログラム
US8810640B2 (en) * 2011-05-16 2014-08-19 Ut-Battelle, Llc Intrinsic feature-based pose measurement for imaging motion compensation
US9002099B2 (en) * 2011-09-11 2015-04-07 Apple Inc. Learning-based estimation of hand and finger pose
US8605993B2 (en) * 2011-11-21 2013-12-10 Robo-team Ltd. Methods and systems of merging depth data from a plurality of disparity maps

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008261756A (ja) * 2007-04-12 2008-10-30 National Institute Of Information & Communication Technology ステレオ画像対から3次元の頭部姿勢をリアルタイムで推定するための装置及びプログラム
US20100259597A1 (en) * 2009-04-14 2010-10-14 Electronics And Telecommunications Research Institute Face detection apparatus and distance measurement method using the same
JP2013105392A (ja) * 2011-11-15 2013-05-30 Kanazawa Univ 運転支援システム、運転支援方法、及び、プログラム

Also Published As

Publication number Publication date
CN105531998B (zh) 2017-07-07
US20150078669A1 (en) 2015-03-19
US9443130B2 (en) 2016-09-13
EP3036901A1 (en) 2016-06-29
CN105531998A (zh) 2016-04-27
KR101784639B1 (ko) 2017-10-11
JP6154075B2 (ja) 2017-06-28
EP3036901A4 (en) 2017-04-12
EP3036901B1 (en) 2019-01-30
WO2015025073A1 (en) 2015-02-26
KR20160045098A (ko) 2016-04-26

Similar Documents

Publication Publication Date Title
JP6154075B2 (ja) オブジェクト検出及び分割の方法,装置,コンピュータプログラム製品
JP5996013B2 (ja) 立体画像の視差マップ推定のための方法,装置及びコンピュータプログラム製品
US11756223B2 (en) Depth-aware photo editing
KR102644273B1 (ko) 상이한 fov를 갖는 카메라들을 이용한 시차 추정 시스템 및 방법
US9542750B2 (en) Method, apparatus and computer program product for depth estimation of stereo images
EP2874395A2 (en) Method, apparatus and computer program product for disparity estimation
US10620826B2 (en) Object selection based on region of interest fusion
CN107771391B (zh) 用于确定图像帧的曝光时间的方法和装置
CN111027438B (zh) 一种人体姿态的迁移方法、移动终端以及计算机存储介质
KR101620933B1 (ko) 제스쳐 인식 메커니즘을 제공하는 방법 및 장치
CN116324878A (zh) 针对图像效果的分割
CN108234879B (zh) 一种获取滑动变焦视频的方法和装置
CN105701762B (zh) 一种图片处理方法和电子设备
CN108776822B (zh) 目标区域检测方法、装置、终端及存储介质
EP3234908A1 (en) Method, apparatus and computer program product for blur estimation
CN115205925A (zh) 表情系数确定方法、装置、电子设备及存储介质
US9489741B2 (en) Method, apparatus and computer program product for disparity estimation of foreground objects in images
CN110177216B (zh) 图像处理方法、装置、移动终端以及存储介质
US20130107008A1 (en) Method, apparatus and computer program product for capturing images
JP2016167258A (ja) デコンボリューション画像において色収差を減じる方法、装置及びコンピュータプログラム製品
GB2519112A (en) Method, apparatus and computer program product for blending multimedia content
US9058674B1 (en) Enhancing resolution of single images
CN112232143B (zh) 一种人脸点云优化方法、装置、机器可读介质及设备
US20170053413A1 (en) Method, apparatus, and computer program product for personalized stereoscopic content capture with single camera end user devices
CN117274097A (zh) 图像处理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170531

R150 Certificate of patent or registration of utility model

Ref document number: 6154075

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250