JP2016535353A

JP2016535353A - オブジェクト検出及び分割の方法，装置，コンピュータプログラム製品

Info

Publication number: JP2016535353A
Application number: JP2016535510A
Authority: JP
Inventors: ソウミクウキル; ヴェールダンディムニンダル; クリシュナアンナサーガルゴヴィンダーラーオ
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2013-08-19
Filing date: 2014-07-01
Publication date: 2016-11-10
Anticipated expiration: 2034-07-01
Also published as: CN105531998B; US20150078669A1; US9443130B2; EP3036901A1; CN105531998A; KR101784639B1; JP6154075B2; EP3036901A4; EP3036901B1; WO2015025073A1; KR20160045098A

Abstract

ある例示的実施形態において、次の方法、装置及びコンピュータプログラムが提供される。本方法は、１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進めることを含む。また本方法は、第１の画像でオブジェクトのオブジェクト点を検出することによって、第１の画像のオブジェクトを検出することを含む。また本方法は、第１の画像におけるオブジェクトのオブジェクト点の検出に基づいて、第２の画像におけるオブジェクトのオブジェクト点を検出することを含む。第１の画像のオブジェクト点に対応する第２の画像のオブジェクト点を検出することは、第２の画像におけるエピポーラ線に沿って、第１の画像のオブジェクト点に対応する第２の画像のオブジェクト点を探索することを含む。また本方法は、第１の画像のオブジェクト点と第２の画像のオブジェクト点との間の視差値を決定することを含む。【選択図】図５

Description

概して、様々な実装形態が、画像におけるオブジェクト検出及び分割のための方法と装置、コンピュータプログラム製品に関する。

背景

あるシーンに関する２枚以上の画像を撮影するために、カメラや携帯電話、その他のデバイス等の種々の電子機器が使用されている。こうした画像撮影には例えば立体画像撮影があり、オブジェクト検出と後処理のアプリケーション用に利用することができる。後処理アプリケーションの中には、撮影された画像におけるオブジェクトの視差／深度推定やオブジェクトの分割を行うものが含まれる。立体画像におけるオブジェクトを検出するアプリケーションに電子機器は対応可能であるが、こうしたオブジェクト検出や視差推定・オブジェクト分割等の後処理アプリケーションには、集中的な計算が必要となる。

いくつかの実施形態の摘要

様々な例示的実施形態が、特許請求の範囲に提示されている。

第１の態様では、次の方法、即ち、１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進めることと；前記第１の画像で前記１つ又は複数のオブジェクトを検出することであって、該第１の画像の１つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと；前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を検出することは、該第２の画像におけるエピポーラ線に沿って、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を探索することを含む、前記検出することと；前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点と前記第２の画像における前記１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第１の画像のオブジェクト点と該第２の画像のオブジェクト点との間の視差値は、少なくとも、該第１の画像のオブジェクト点の検出位置及び該第２の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することを含む、方法が提供される。

第２の態様では、次の装置、即ち、少なくとも１つのプロセッサと；コンピュータプログラムコードを含む少なくとも１つのメモリとを備える装置であって、前記少なくとも１つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサを用いて、前記装置に少なくとも：１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進めることと；前記第１の画像で前記１つ又は複数のオブジェクトを検出することであって、該第１の画像の１つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと；前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を検出することは、該第２の画像におけるエピポーラ線に沿って、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を探索することを含む、前記検出することと；前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点と前記第２の画像における前記１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第１の画像のオブジェクト点と該第２の画像のオブジェクト点との間の視差値は、少なくとも、該第１の画像のオブジェクト点の検出位置及び該第２の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することを実行させるように構成される、装置が提供される。

第３の態様では、次のコンピュータプログラム製品、即ち、少なくとも１つのコンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、前記コンピュータ可読記憶媒体は命令セットを含み、前記命令セットは、１つ又は複数のプロセッサにより実行されると、装置に少なくとも：１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進めることと；前記第１の画像で前記１つ又は複数のオブジェクトを検出することであって、該第１の画像の１つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと；前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を検出することは、該第２の画像におけるエピポーラ線に沿って、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を探索することを含む、前記検出することと；前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点と前記第２の画像における前記１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第１の画像のオブジェクト点と該第２の画像のオブジェクト点との間の視差値は、少なくとも、該第１の画像のオブジェクト点の検出位置及び該第２の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することを実行させるように構成される、コンピュータプログラム製品が提供される。

第４の態様では、次の装置、即ち、１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進める手段と；前記第１の画像で前記１つ又は複数のオブジェクトを検出する手段であって、該第１の画像の１つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出する手段と；前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出する手段であって、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を検出することは、該第２の画像におけるエピポーラ線に沿って、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を探索することを含む、前記検出する手段と；前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点と前記第２の画像における前記１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定する手段であって、該第１の画像のオブジェクト点と該第２の画像のオブジェクト点との間の視差値は、少なくとも、該第１の画像のオブジェクト点の検出位置及び該第２の画像のオブジェクト点の検出位置に基づいて決定される、前記決定する手段を備える、装置が提供される。

第５の態様では、次のコンピュータプログラム、即ち、コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令は、装置により実行されると該装置に：１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進めることと；前記第１の画像で前記１つ又は複数のオブジェクトを検出することであって、該第１の画像の１つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと；前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を検出することは、該第２の画像におけるエピポーラ線に沿って、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を探索することを含む、前記検出することと；前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点と前記第２の画像における前記１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第１の画像のオブジェクト点と該第２の画像のオブジェクト点との間の視差値は、少なくとも、該第１の画像のオブジェクト点の検出位置及び該第２の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することを実行させる、コンピュータプログラムが提供される。

添付の図面には様々な実施形態が例示されている。これらは例示目的であって、限定目的のものではない。
ある例示的実施形態に従うデバイスを示す。ある例示的実施形態に従う装置の例示的ブロック図を示す。ある例示的実施形態に従う、画像対のオブジェクトの検出に関する例示的表現を示す。ある例示的実施形態に従う、画像対の何れかの画像のオブジェクトの分割に関する例示的表現を示す。ある例示的実施形態に従う例示的方法を説明するフローチャートである。別の例示的実施形態に従う、オブジェクトの検出及び分割の例示的方法を説明するフローチャートである。

詳細説明

例示的実施形態とそれらが潜在的に持つ効果は、図１から６を参照することで理解される。

図１は、ある例示的実施形態に従うデバイス１００を示す。ただし、当然のことながら、この図に描かれ以下で説明されるデバイス１００は、様々な実施形態から利益を受けられるデバイスのタイプの一例を単に示しているに過ぎない。したがって、こうした開示が実施形態の範囲を限定するものと捉えてはならない。またそうした理由から、当然のことながら、デバイス１００に関連して以下で説明される要素のうち少なくとも何れかは任意選択可能な要素である。したがって、例示的実施形態によっては、図１の例示的実施形態に関連して説明されている要素よりも多くの要素を有する場合や少ない要素しか有さない場合、又は異なる要素を有する場合がある。デバイス１００は種々のタイプの電子機器の何れかでもよく、例えば、PDAやポケットベル、携帯テレビ、ゲーム機器、携帯電話、例えばラップトップコンピュータや携帯型コンピュータ、デスクトップコンピュータなど全てのタイプのコンピュータ、カメラ、音楽／ビデオプレーヤー、ラジオ、GPSデバイス、メディアプレーヤー、携帯型デジタル支援装置、又はそれらの組合せ、その他のタイプの通信機器でもよい。

デバイス１００は、送信機１０４及び受信機１０６と協働するアンテナ（または複数のアンテナ）１０２を備えてもよい。デバイス１００はさらに、送信機１０４及び受信機１０６との間で信号を提供したり信号を受信したりするような、コントローラ１０８のような装置を備えてもよい。この信号は、利用可能なセルラシステムの無線インタフェース規格に従うシグナリング情報を含んでいてもよく、及び／又はユーザの音声や受信したデータ、ユーザが生成したデータなどを含んでいてもよい。これに関してデバイス１００は、１つ又は複数の無線インタフェース規格や通信プロトコル、変調タイプ、アクセスタイプによって動作する能力を有していてもよい。例ではあるが、デバイス１００は、第１世代、第２世代、第３世代、第４世代、及び同様の通信プロトコルのうちいずれか１つ以上で動作することが可能であってもよい。例えばデバイス１００は、第２世代（2G）の無線通信プロトコルであるIS-136（時分割多重アクセス（TDMA）やGSM（登録商標）、IS-95（符号分割多重アクセス（CDMA）に従って動作する能力を有していてもよく、第3世代（3G）の通信プロトコルであるE-UTRAN()やCDMA2000、WCDMA（登録商標）、TD-SCDMAに従って動作する能力を有していてもよく、3.9Gの無線通信プロトコルであるE-UTRAN（evolved- universal terrestrial radio access network）や第4世代（4G）の無線通信プロトコルなどのような規格に従って動作する能力を有していてもよい。あるいは又は加えて、デバイス100は、セルラ方式以外の通信メカニズムに従って動作可能でもよい。例えば、インターネットやローカルエリアネットワーク、ワイドエリアネットワークのようなコンピュータネットワークや、Bluetooth（登録商標）ネットワークやZigBee（登録商標）ネットワーク、IEEE（Institute of Electric and Electronic Engineers）802.11xネットワークのような近距離無線通信ネットワーク、公衆交換電話網（PSTN）のような有線電話ネットワークのような通信メカニズムに従って動作する能力を有していてもよい。

コントローラ１０８は、とりわけ、デバイス１００の音声や論理機能を実装する回路を有していてもよいことは理解されたい。例えばコントローラ１０８は、１つ又は複数のデジタルシグナルプロセッサ装置、１つ又は複数のマイクロプロセッサ装置、１つ又は複数のデジタルシグナルプロセッサを有する１つ又は複数のプロセッサ、デジタルシグナルプロセッサを有さない１つ又は複数のプロセッサ、１つ又は複数の特定目的コンピュータチップ、１つ又は複数のFPGA（field-programmable gate array）、１つ又は複数のASIC（application-specific integrated circuit）、１つ又は複数のコンピュータ、様々なA/DコンバータやD/Aコンバータ、及び／又はその他のサポート回路を備えていてもよい。デバイス１００の信号及び情報処理機能は、それぞれの能力に従って、これらのデバイスの中に割り当てられている。コントローラ１０８は、変調及び送信を行う前に、畳み込み的な符号化や、メッセージおよびデータのインタリーブを行う機能を有していてもよい。コントローラ１０８は、さらに音声符号器やデータモデムを内蔵していてもよい。さらに、コントローラ１０８は、メモリに記録されていてもよい１つ又は複数のソフトウェアプログラムを実行する能力を含んでいてもよい。例えばコントローラ１０８は、標準的に用いられているWebブラウザのような通信プログラムを実行する能力を有していてもよい。そのような通信プログラムは、デバイス１００がWebコンテンツを送受信することを可能とする。そのようなＷｅｂコンテンツには、WAP（Wireless Application Protocol）やHTTP（Hypertext Transfer Protocol ）位置ベースのコンテンツなどに従う位置ベースのコンテンツやその他のWebページコンテンツなどがある。ある例示的実施形態において、コントローラ１０８は、デュアルコアプロセッサのようなマルチコアプロセッサとして具現化されてもよい。コントローラ１０８にはいくつのプロセッサが含まれていてもよい。

デバイス１００はまた、出力デバイスであるリンガ１１０や、イヤホン又はスピーカ１１２や、マイクロホン１１４、ディスプレイ１１６、および、ユーザ入力インタフェースを備えていてもよく、これら全てはコントローラ１０８に接続されていてもよい。ユーザ入力インタフェースはデバイス１００がデータを受信することを可能にし、またデバイス１００がデータを受信することを可能にするデバイスをいくつ備えていてもよい。そのようなデバイスには、例えばキーパッド１１８やタッチディスプレイ、マイクロホン、またその他の入力デバイスが存在する。キーパッド１１８を含む実施形態において、キーパッド１１８は、０−９の数字キーや関連するキー（#，*）、その他デバイス１００を操作するためのハードキーやソフトキーを有していてもよい。あるいは又は加えて、キーパッド１１８には一般的なQWERTY配列のキーパッドが含まれてもよい。キーパッド１１８はまた、それぞれ機能に関連付けられた多くのソフトキーを備えていてもよい。それに加えて又は代替的に、デバイス１００は、ジョイスティックまたはユーザ入力インタフェースのようなインタフェースデバイスを備えてもよい。さらにデバイス１００は、デバイス１００を動作させるために使用される様々な回路に電源を供給し、また検知可能な出力としての機械的な振動を提供する、振動バッテリパックのようなバッテリ120を備えてもよい。

ある例示的実施形態において、デバイス100は、カメラモジュールやビデオモジュール、及び／又はオーディオモジュールのようなメディアキャプチャ要素を備えてもよい。メディアキャプチャ要素はコントローラ108と通信する。メディアキャプチャ要素は、画像や動画及び／又は音声をキャプチャして格納したり表示したり送信したりする如何なる手段であってもよい。メディアキャプチャ要素がカメラモジュール122である例示的実施形態では、カメラモジュール122は、撮影画像からデジタル画像ファイルを作成できるデジタルカメラ（又は複数のカメラのアレイ）を備えてもよい。カメラモジュール１２２は、レンズその他の光学部品のような全てのハードウェアや、撮影画像からデジタル画像ファイルを作成するソフトウェアを含む。あるいは、カメラモジュール122は画像を見るのに必要なハードウェアを備えてもよい。ここでデバイス100の記憶装置は、コントローラ108が実行でき、撮影画像からデジタル画像ファイルを作成するための命令をソフトウェアの形態として格納する。ある例示的実施形態においては、カメラモジュール122はさらに、コントローラ108が画像データを処理することを支援するコプロセッサのような処理要素や、画像データを圧縮したり伸張したりするエンコーダーやデコーダーを備えていてもよい。エンコーダーやデコーダーは、JPEG標準やその他のフォーマットに従ってエンコードやデコードを行ってもよい。動画に関しては、エンコーダーやデコーダーは、例えばH.261, H.262/ MPEG-2, H.263, H.264, H.264/MPEG-4, MPEG-4のような複数の標準規格を利用することができる。場合によっては、カメラモジュール122はライブイメージをディスプレイ116に提供することができる。さらに、ある例示的実施形態では、デバイス１００の一方にディスプレイ１１６が搭載され、カメラモジュール１２２は、ディスプレイ１１６から見て反対側であるデバイス１００のもう一方に位置するレンズを備え、それによって、カメラモジュール１２２がデバイス１００の一方で画像を撮影し、デバイス１００のもう一方にいるユーザにその画像を表示できるようにしてもよい。具体的には、１つ（又は複数）のカメラモジュールはどちら側にあってもよいが、通常はディスプレイ１１６の反対側にある。あるいは、（例えば、ビデオコールカメラ等のように）ディスプレイ１１６と同じ側にあってもよい。

デバイス100はユーザ識別モジュール（UIM)124を備えていてもよい。UIM124は、プロセッサを内蔵するメモリデバイスである。UIM124には、例えば、加入者識別モジュール（SIM）や、UICCカード、USIM、R-UIM、及びその他のタイプのスマートカードが含まれる。UIM124は通常、加入者に関する情報要素を格納する。UIM124に加えてデバイス100はメモリを備えていてもよい。例えばデバイス100は、データの一時的な保管のためのキャッシュ領域を備えるランダムアクセスメモリ（RAM）のような揮発性メモリ126を備えてもよい。デバイス100は、内蔵の及び／又は着脱可能な不揮発性メモリ128を備えていてもよい。不揮発性メモリ128には、EEPROM（Electrically Erasable Programmable Read-Only Memory）やフラッシュメモリ、ハードディスクドライブのようなものも含まれる。これらのメモリは、デバイス１００の機能を実装するためにデバイス１００に使用されるいかなる数の情報片やプログラム、データを格納してもよい。

図２には、ある例示的実施形態に従って、あるシーンの画像においてオブジェクトの検出及び分割を行う装置２００が示されている。装置２００は、例えば、図１のデバイス１００によって採用されることができる。しかし、装置２００は、携帯式又は固定式に関わらず、その他の様々なデバイスによって採用されることができてもよいことは留意されたい。したがって、実施形態は、図１のデバイス１００のようなデバイスへの応用に限定するものではない。場合によっては、実施形態は、複数のデバイスの組み合わせによって利用されうる。そのような複数のデバイスには、例えば上にリストされたものが含まれる。多くの実施形態が、（例えばデバイス１００やデバイスの組み合わせのような）単一のデバイスとして具現化される。さらに、以下に記述されるデバイスや要素は必ず必要であるというものではなくともよく、実施形態によっては、これらのうちいくつかが省略されてもよいことに留意しなければならない。

装置２００は少なくとも１つのプロセッサ２０２及び少なくとも１つのメモリ２０４を備える。又はこれらと通信できるようにされている。少なくとも１つのメモリ２０４の例は、これらに限定されないが、揮発性メモリ及び／又は不揮発性メモリを含む。揮発性メモリの例には、これらに限定されないが、ランダムアクセスメモリやダイナミック・ランダムアクセスメモリ、スタティック・ランダムアクセスメモリ等が含まれる。不揮発性メモリの例には、ハードディスクや磁気テープ、光ディスク、プログラム可能なリードオンリーメモリ、プログラムを消去可能なリードオンリーメモリ、電気的に消去可能なプログラム可能リードオンリーメモリ、フラッシュメモリ等がある。様々な例示的実施形態に従う多くの機能を装置２００が実行することを可能にするべく、メモリ２０４は、情報やデータ、ファイル、アプリケーション、命令等を格納するように構成されてもよい。例えばメモリ２０４は、プロセッサ２０２によって処理するために、メディアコンテンツを含む入力データをバッファするように構成されてもよい。あるいは又は加えて、メモリ２０４は、プロセッサ２０２により実行される命令を格納するように構成されてもよい。

プロセッサ２０２の例には、コントローラ１０８が含まれてもよい。プロセッサ２０２は様々な方法で具現化されてもよい。プロセッサ２０２は、マルチコアプロセッサやシングルコアプロセッサ、これらの組み合わせとして具現化されてもよい。例えばプロセッサ２０２は、１つ又は複数の様々な処理手段として具現化されてもよい。そのような処理手段には例えば、コプロセッサやマイクロプロセッサ、コントローラ、デジタルシグナルプロセッサ（DSP）、DSP搭載型又は非搭載型の処理回路、その他様々な処理デバイスが含まれる。また、そのような処理デバイスには、例えば、ASIC（application specific integrated circuit）やFPGA（field programmable gate array）、マイクロコントローラーユニット（MCU）、ハードウェアアクセラレータ、特定目的コンピュータチップなどが存在する。ある例示的実施形態において、マルチコアプロセッサは、メモリ２０４に格納された命令を実行するように構成されてもよい。またはプロセッサは、自身がアクセス可能な命令を実行するように構成されてもよい。あるいは又は加えて、プロセッサ２０２は、ハードコードされた機能を実行するように構成されていてもよい。このように、ハードウェアにより構成されるかソフトウェアによる手法により構成されるか、またはこれらの組み合わせにより構成されるかに関わらず、プロセッサ２０２は、様々な実施形態に従う処理を遂行する能力を有する要素を表す。たとえば、そのような処理を遂行する能力を有するように、回路中に物理的に具現化された要素を表す。例えば、プロセッサ２０２が２つ以上のASICやFPGAのようなものにより具現化されるとき、プロセッサ２０２は、本明細書により説明される処理を遂行するために特別に構成されたハードウェアと考えられうる。または、別の実施形態では、プロセッサ２０２はソフトウェア命令を実行する実行機器として具現化される。そのような命令は、実行されることにより、プロセッサ２０２を、本明細書に記載されるアルゴリズム又は処理を遂行するように構成しうる。しかし場合によっては、プロセッサ２０２は、たとえば移動端末やネットワークデバイス等の特定の装置のプロセッサであってもよい。その場合、そのような装置は、本明細書に記載されるアルゴリズム又は処理を実行するための命令によりプロセッサ２０２を構成することにより、実施形態を取り入れるように構成される。プロセッサ２０２はとりわけ、その動作をサポートするクロックや算術演算ユニット（ALU）、ロジックゲートを備える。

ユーザインタフェース２０６は、プロセッサ２０２と通信する。ユーザインタフェース２０６は、それに限られるわけではないが、入力インタフェース及び／又は出力ユーザインタフェースを含む。入力インタフェースはユーザ入力を表す情報を受け取るように構成される。出力ユーザインタフェースは音声や視覚、メカニカル、その他の出力及び／又はフィードバックをユーザに提供する。入力インタフェースの例は、これらに限定されないが、例えばキーボードやマウス、ジョイスティック、キーパッド、タッチスクリーン、ソフトキー等を含んでもよい。出力インタフェースの例は、これらに限定されないが、例えばLEDディスプレイやTFTディスプレイのような表示装置、液晶ディスプレイ、AMOLEDディスプレイ、マイクロホン、スピーカ、リンガ、バイブレータを含んでもよい。ある例示的実施形態において、ユーザインタフェース２０６は、他のデバイスや要素もさることながら、特に、スピーカ、マイクロホン、ディスプレイ、キーボード、タッチスクリーンのようなもののいずれか又は全てを含んでもよい。これに関してプロセッサ２０２は、例えば、スピーカやリンガ、ディスプレイ等の１つ又は複数のユーザインタフェース２０６の要素の少なくともいずれかを制御するように構成されるユーザインタフェース回路を備えていてもよい。プロセッサ２０２及び／又はプロセッサ２０２を含むユーザインタフェース回路は、コンピュータプログラム命令を通じて、ユーザインタフェース２０６の１つ又は複数の要素の１つ又は複数の機能を制御するように構成されてもよい。そのようなコンピュータプログラム命令は、例えば、例えば少なくとも１つのメモリ２０４など、プロセッサ２０２がアクセス可能なメモリに格納される、ソフトウェアやファームウェアであることができる。

ある例示的実施形態では、装置２００は電子機器を含んでもよい。電子機器の例には、通信機器や、通信機能を有するメディアキャプチャデバイス、コンピュータデバイス等がある。電子機器の例には、携帯電話やPDA等も含まれる。コンピュータデバイスの例には、ラップトップコンピュータやパーソナルコンピュータ等も含まれる。電子機器の例にはカメラも含まれる。ある例示的実施形態では、電子機器は、例えばUI２０６のようなユーザインタフェースとユーザインタフェースソフトウェアを有し、ユーザインタフェースはユーザインタフェース回路を備え、ユーザインタフェースソフトウェアは、ユーザがディスプレイを用いて電子機器の少なくとも一つの機能を制御することを進めるように構成され、更にユーザ入力に応答するように構成されてもよい。ある例示的実施形態において、上記電子機器は、電子機器のユーザインタフェースの少なくとも一部分を表示するように構成される表示回路を備えていてもよい。ディスプレイ及び表示回路は、電子機器の少なくとも１つの機能のユーザ制御を進めるように構成されてもよい。

ある例示的実施形態において、電子機器は送受信機を備えるように具現化されてもよい。この送受信機はソフトウェアに従って動作する如何なるデバイスや回路であってもよく、ハードウェアとして実装されてもよく、又はハードウェア及びソフトウェアの組み合わせとして実装されてもよい。例えば、ソフトウェアの制御の下で動作するプロセッサ２０２や、本明細書で説明される処理を実行するように特に構成されたASICやFPGAとして具現化されるプロセッサ２０２、またはこれらの組み合わせなど、装置又は回路に送受信機の機能を実行させるように作られる如何なる構成でもよい。送受信機はメディアコンテンツを受信するように構成されてもよい。メディアコンテンツの例としては、オーディオコンテンツやビデオコンテンツ、及びこれらの組み合わせなどがある。

ある例示的実施形態において、電子機器は、イメージセンサ２０８やイメージセンサ２１０のような少なくとも１つのイメージセンサを備えるように具現化されてもよい。図２の例示的表現では２つのイメージセンサ２０８・２１０のみが示されているが、電子機器はそれより多いイメージセンサを備えてもよく、あるいは１つのイメージセンサのみを備えてもよい。イメージセンサ２０８・２１０は、プロセッサ２０２及び／又は装置２００の他の要素と通信してもよい。イメージセンサ２０８・２１０は、画像処理回路及び／又は画像処理ソフトウェアと通信してもよく、デジタル画像やビデオ、グラフィックメディアを撮影するように構成される。イメージセンサ２０８・２１０及び他の回路は、組合せで、機器１００のカメラモジュール１２２のような少なくとも１つのカメラモジュールの例であってもよい。イメージセンサ２０８・２１０は他の要素を伴って、特定のシーンを異なる位置（又は異なる角度）から表現する複数の画像を撮影するように構成されてもよい。ある例示的実施形態において、イメージセンサ２０８・２１０は、立体視のようなシーンに対する２つのビューを撮影するために対応するレンズを伴っていてもよい。別の実施形態では、１つのイメージセンサを有する単一のカメラモジュールであって、このイメージセンサが、ある位置（ｘ）からシーンの第１の画像を撮影し、特定の距離（例えば、１０メートル）だけ離れた別の位置（ｙ）まで移動してシーンの第２の画像を撮影するのに用いられる、単一のカメラモジュールであってもよい。

これらの要素（２０２−２１０）は、シーンの複数画像においてオブジェクトの検出及び分割を行うために、集中型回路システム（centralized circuit system）２１２を介して互いに通信してもよい。集中型回路システム２１２は、とりわけ、装置２００の要素２０２−２１０が互いに通信できるように構成される様々なデバイスであってもよい。ある実施形態では、上記集中型回路システム２１２は、マザーボードやメインボード、システムボード、ロジックボードのような、集中型のプリント基板（PCB）であってもよい。集中型回路システム２１２はまた、その他のプリント基板アセンブリ（PCA）や通信チャンネルメディアを含んでいてもよい。

ある例示的実施形態において、プロセッサ２０２は、メモリ２０４の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置２００に、第１及び第２の画像の受取りを進めさせるように構成される。ある例示的実施形態では、第１の画像及び第２の画像は、１つ又は複数のオブジェクトを含むシーンに関して僅かに異なるビューを含む。ある例示的実施形態では、シーンの第１の画像及び第２の画像は、そのシーンにおける少なくとも１つのオブジェクトに対して第１の画像と第２の画像との間で視差があるように撮影される。ある例示的実施形態では、第１の画像及び第２の画像は、あるシーンの立体画像対である。例えば、立体カメラは、第１の画像が同一シーンを表現する第２の画像に対して僅かな視差を含むように、第１の画像と第２の画像を撮影する。他の例示的実施形態によっては、第１の画像及び第２の画像が、シーンの複数ビューを撮影できるカメラから取り込まれてもよい。こうしたカメラには、例えばマルチベースラインカメラやアレイカメラ、プレノプティックカメラ、ライトフィールドカメラがある。
例示的実施形態によっては、第１の画像及び第２の画像は、予め記録されて装置２００に格納されていてもよく、あるいは装置２００の外部ソースから受け取られてもよい。こうした例示的実施形態では、装置２００は、DVDやコンパクトディスク（CD）、フラッシュドライブ、メモリカードのような外部記憶媒体から第１の画像及び第２の画像を受取るようにされてもよく、あるいは、インターネットやBluetooth（登録商標）のような外部の記憶場所からそれを受け取るようにされてもよい。ある例示的実施形態では、１つ又は複数のオブジェクトを含むシーンであって、そのシーンにおける少なくとも１つのオブジェクトには第１の画像と第２の画像との間に視差があるようなシーンの第１の画像及び第２の画像の受取りを進めるように、処理手段が構成されてもよい。処理手段の一例は、プロセッサ２０２とイメージセンサ２０８・２１０を備えてもよく、プロセッサ２０２はコントローラ１０８の一例でもよい。

ある例示的実施形態において、装置２００が受け取る第１の画像及び第２の画像は、互いに補正された立体画像対でもよい。装置２００が受け取る又はアクセスする第１の画像及び第２の画像が補正画像でない実施形態では、これらの画像が追加処理で補正される。こうした例示的実施形態では、プロセッサ２０２は、メモリ２０４の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置２００に、第１の画像における横の列（例えば、水平線）が第２の画像における横の列（例えば、水平線）に対応するように、第２の画像に対して第１の画像の補正を行わせるように構成される。例えば、第１の画像及び第２の画像が特定のシーンを僅かに異なるビューで撮影した画像である場合、第１の画像における特定の点を通る水平線が第２の画像の点に関するエピポーラ線に対応するように、第２の画像に対する第１の画像の向きを変えることによって、第１の画像及び第２の画像は補正される。この例では立体画像におけるエピポーラ制約のために、一方の画像、例えば第１の画像におけるオブジェクトの全画素点（「オブジェクト点」と呼ぶ）は、他方の画像、例えば第２の画像においては対応するエピポーラ線を有する。例えば、エピポーラ制約により、第１の画像の画素点に対して、第２の画像のエピポーラ線上に対応する画素点が存在する。ここで、エピポーラ線は第１の画像の画素点に対応するエピポーラ線である。ある例示的実施形態では、処理手段は、第１の画像の水平線が第２の画像の水平線に対応するように、第２の画像に対して第１の画像を補正するように構成されてもよい。処理手段の例はプロセッサ２０２を備え、プロセッサ２０２はコントローラ１０８の例でもよい。

ある例示的実施形態において、装置２００に第１の画像における１つ又は複数のオブジェクトを検出させる。例えば、第１の画像が蝶のようなオブジェクトを含み、蝶のオブジェクト点が装置２００によって検出される。ある実施例では、装置２００は、本技術分野で既知である適切なオブジェクト検出技術を用いて蝶と蝶の位置を検出するように構成される。ある例示的実施形態では、処理手段は、第１の画像における１つ又は複数のオブジェクトのオブジェクト点を検出するように構成されてもよい。処理手段の例はプロセッサ２０２を備え、プロセッサ２０２はコントローラ１０８の例でもよい。ある例示的実施形態では、任意のオブジェクトのオブジェクト点はスパース方式で検出され、例えば、オブジェクトについて少数のオブジェクト点のみが検出される。

ある例示的実施形態において、プロセッサ２０２は、メモリ２０４の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置２００に、第１の画像における１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、第２の画像における１つ又は複数のオブジェクトのオブジェクト点の検出を行わせるように構成される。例えば、第１の画像で検出される全オブジェクトに対して、第２の画像で対応するオブジェクトが検出される。ある例示的実施形態では、第１の画像で検出されたオブジェクトの点（「オブジェクト点」と呼ばれる）に対応する、第２の画像におけるオブジェクトの対応点を検出することは、第２の画像におけるエピポーラ線上にある第２の画像のオブジェクト点を探索することを含む。ある実施例では、第２の画像のエピポーラ線は、第１の画像のオブジェクト点に関して対応するエピポーラ線である。例えば、第１の画像の全オブジェクトに対して第２の画像におけるエピポーラ線が存在し、第１の画像のオブジェクト点に対応する第２の画像のオブジェクト点を検出することは、第２の画像において対応するエピポーラ線に沿ったオブジェクト点（第１の画像のオブジェクト点に対応する）を探索することを含む。ある例示的実施形態では、処理手段は、第１の画像における１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、第２の画像における１つ又は複数のオブジェクトのオブジェクト点を検出するように構成されてもよい。処理手段の例はプロセッサ２０２を備え、プロセッサ２０２はコントローラ１０８の例でもよい。

ある例示的実施形態において、プロセッサ２０２は、メモリ２０４の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置２００に、第１の画像における１つ又は複数のオブジェクトのオブジェクト点に関して、第２の画像において対応するオブジェクト点のエピポーラ線に沿ってオブジェクト点を探索する範囲の決定を行わせるように構成される。ある実施例では、探索範囲は第２の画像のエピポーラ線を含み、エピポーラ線は、第１の画像で検出されるオブジェクトに関するオブジェクト点に対応する。ある例示的実施形態では、１つ又は複数のオブジェクトの第１のオブジェクトのオブジェクト点に関する探索範囲は、１つ又は複数のオブジェクトの第２のオブジェクトのオブジェクト点に関する探索範囲よりも広い。ある実施例では、最大サイズの（又は第１及び第２の画像を撮影するカメラに最も近い被写体の）オブジェクトは最大の探索範囲に関連し、サイズが最大サイズよりも小さくなるにつれ（又は被写体がカメラから離れるにつれ）、オブジェクトの探索範囲もそれに応じて狭められる。ある例示的実施形態では、処理手段は、第１の画像における１つ又は複数のオブジェクトのオブジェクト点に関して、第２の画像における探索範囲を決定するように構成されてもよい。処理手段の例はプロセッサ２０２を備え、プロセッサ２０２はコントローラ１０８の例でもよい。

ある例示的実施形態において、プロセッサ２０２は、メモリ２０４の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置２００に、第１の画像における１つ又は複数のオブジェクトのオブジェクト点と第２の画像における１つ又は複数のオブジェクトのオブジェクト点との間の視差の決定を行わせるように構成される。実施例によっては、オブジェクトが第１の画像と第２の画像との間に単一の視差を有することもある。しかし、顔等のオブジェクトでは、顔の鼻先が顔の耳とは異なる視差を有する場合もある。ある例示的実施形態では、あるオブジェクト点に関する第１の画像と第２の画像との間の視差値は、少なくとも、第１の画像のオブジェクト点の検出位置と第２の画像のオブジェクト点の検出位置に基づいて決定される。例えば、第１の画像と第２の画像でのオブジェクト点の位置の差は、そのオブジェクト点に関する第１の画像と第２の画像との間の視差でもよい。ある例示的実施形態では、処理手段は、第１の画像における１つ又は複数のオブジェクトのオブジェクト点と第２の画像における１つ又は複数のオブジェクトのオブジェクト点との間の１つ又は複数の視差値を決定するように構成されてもよく、ここで、あるオブジェクト点に関する第１の画像と第２の画像との間の視差値は、少なくとも、第１の画像のオブジェクト点の検出位置と第２の画像のオブジェクト点の検出位置に基づいて決定される。処理手段の例はプロセッサ２０２を備え、プロセッサ２０２はコントローラ１０８の例でもよい。

ある例示的実施形態において、プロセッサ２０２は、メモリ２０４の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置２００に、オブジェクトのオブジェクト点に関する少なくとも１つの視差値に基づいて、第１の画像及び第２の画像の少なくとも１つにおける１つ又は複数のオブジェクトのうち１つ（又は複数）のオブジェクトの分割を行わせるように構成される。例えば、あるオブジェクトが、それに関する視差値と、限定されないがグラフカット法を含む技術に基づいて、ある画像（第１の画像又は第２の画像）で検出された他のオブジェクトから分割されてもよい。例示的実施形態では、画像（第１の画像又は第２の画像）からオブジェクトを分割するために、装置２００に、オブジェクトのオブジェクト点に対するオブジェクトラベルの割当てと、画像の残りの画素点に対する非オブジェクトラベルの割当てを行わせ、更に、グラフカット法のような適切な技術を用いて、割り当てられたオブジェクトラベルに対応する部分の分割を行わせる。例えば、プロセッサ２０２は、メモリ２０４の内容と共に、あるいは本明細書で説明される他の要素も選択的に伴って、装置２００に、第１の画像と第２の画像との間のオブジェクトコスト関数に基づいて、オブジェクトに関するオブジェクト点に対してオブジェクトラベルの割当てを行わせるように構成される。ある例示的実施形態では、オブジェクトコスト関数は、第１の画像と第２の画像との間の１つ又は複数の画像パラメータの一致度である。画像パラメータの例には、限定されないが第１及び第２の画像の色やテクスチャが含まれる。ある例示的実施形態では、オブジェクトコスト関数は、第１の視差値範囲に関するオブジェクトのオブジェクト点に対して計算され、オブジェクトコスト関数が最小となる視差値が、そのオブジェクト（そのオブジェクトのオブジェクト点）に対するオブジェクトラベルに割り当てられる。ある例示的実施形態では、装置２００に、第１の画像と第２の画像との間の非オブジェクトコスト関数に基づいて、画像の残りの画素点に対する非オブジェクトラベルの割当てを行わせる。例えば、画像の中でオブジェクトに関するオブジェクト点以外の点は、非オブジェクトラベルが割り当てられる。ある実施例では、非オブジェクトコスト関数は、第１の画像の画素点と第２の画像の画素点との間で、（例えば、オブジェクトコストの計算に用いられる第１の視差値範囲とは別の）第２の視差値範囲に対して計算される。ある実施例では、複数の非オブジェクトコスト関数の中から最小の非オブジェクトコスト関数が選択され、最小非オブジェクトコスト関数に関する視差値が、画像の残りの画素点に対する非オブジェクトラベルとして割り当てられる。ある例示的実施形態では、装置２００に、オブジェクトラベル及び非オブジェクトラベルに関するグラフカットアルゴリズムの適用に基づいて、オブジェクト分割を行わせる。ある例示的実施形態では、処理手段は、オブジェクトのオブジェクト点に関する少なくとも１つの視差値に基づいて、第１の画像及び第２の画像の少なくとも１つにおける１つ又は複数のオブジェクトのうちの特定のオブジェクトを分割するように構成されてもよい。処理手段の例はプロセッサ２０２を備え、プロセッサ２０２はコントローラ１０８の例でもよい。

オブジェクト検出及び分割に関する幾つかの例示的実施形態を、図３及び４を参照して更に説明する。なお、これら図３・４は単に１つ又は複数の例示的実施形態を示すに過ぎず、種々の例示的実施形態の範囲を限定するものと見なされるべきではない。

図３には、ある例示的実施形態に従う、立体画像対におけるオブジェクト検出の例示的表現が示されている。ある例示的実施形態では、あるシーンの第１の画像３１０と第２の画像３５０のような立体画像対を撮影するために、立体カメラが利用されてもよい。このシーンの例には、シーンの画像がカメラモジュール１２２等のメディアキャプチャモジュールやセンサ２０８・２１０等のセンサによって撮影できるように、オブジェクトに関する何らかの可視設定又は構成が含まれてもよい。ここで、第１の画像３１０及び第２の画像３５０に取り込まれたシーンのオブジェクトの位置に関して、画像３１０は画像３５０とは僅かに異なる。例示的実施形態では、第１の画像３１０及び第２の画像３５０が移動するカメラで２つの異なる時点で撮影され、それによって第１の画像３１０がそのシーンの左目画像に対応し、第２の画像３５０がそのシーンの右目画像に対応してもよい。例えば、シーンを表現する第１の画像３１０が撮影され、次いで、同じシーンの第２の画像３５０を撮影するために、所定の距離及び／又は角度だけカメラが動かされる。他の実施例では、画像３１０・３５０は、シーンの複数のビューを撮影できるマルチベースラインカメラやアレイカメラ、ライトフィールドカメラ、プレノプティックカメラ等のカメラで撮影されてもよい。図３において、第１の画像３１０及び第２の画像３５０は、男性３１２や女性３１４、子供３１６、雲３１１と樹木３１３が写っている背景といったオブジェクトを含むシーンの異なるビューを表わしている。オブジェクト３１２・３１４・３１６と背景３１１・３１３については、立体画像対３１０・３５０の間に視差があってもよいことに留意しなければならない。

ある実施例において、第１の画像３１０の全オブジェクト点（又は画素点）は、第２の画像３５０において対応するエピポーラ線に位置する対応オブジェクト点を持つことができる。ある例示的実施形態では、第１の画像３１０の位置（ｘ，ｙ）の画素点は、第２の画像３５０においてその画素点に対応するエピポーラ線上に対応する画素点を持つことができ、例えば、画素点３１８（女性３１４の鼻先を表わす画素点）は、画像３５０において画素点３１８のエピポーラ線３５２上に対応する画素点を持つことができる。同様に、画像３１０の全画素点は、画像３５０において対応するエピポーラ線を持つことができる。ある例示的実施形態では、画像３１０及び画像３５０は補正され、それぞれ画像３２０及び３６０を生成する。ある実施形態では、画像３１０・３５０の補正は、画像３１０・３５０のアライメントを含み、画像３２０の水平線（画素列）が画像３６０の水平線（画素列）に対応するように画像３２０・３６０を生成する。画像対３１０・３５０の補正処理（カメラパラメータによって与えられ、直接又は弱い較正を通じて行われる）は、その結果として得られるエピポーラ線が平行になって新たな走査線に沿って等しくなるように、元の画像対３１０・３５０の平面を画像３２０・３６０における別の平面に変換する。図３に示すように、画像３１０・３５０は、画像３２０の画素列が画像３６０の画素列に対応するように画像３１０及び／又は３５０を回転／調整することによって補正される。

ある例示的実施形態において、装置２００に、画像３２０における１つ又は複数のオブジェクトを検出させる。ある実施例では、画像３２０は少なくとも１つのオブジェクトを有し、例えば画像３２０には他のものの間に複数のオブジェクトを含むシーンが描かれている。こうしたオブジェクトには、例えば男性３１２や女性３１４、子供３１６、雲３１１と樹木３１３が写っている背景がある。例示的実施形態では、画像３２０のオブジェクト３１２・３１４・３１６の位置／色分布を検出するために、画像３２０が水平方向で（各画素列に沿って）順番に走査されてもよい。画像３２０のオブジェクトを検出するために、肌色ベース法やブースティング法、サポートベクターマシン（SVM）法、ガウス混合法、最尤法、ニューラルネットワーク法のような適切なオブジェクト（又は顔）検出技術が用いられてもよい。図３に示すように、検出された顔３２２・３２４・３２６は、それぞれ男性３１２、女性３１４、子供３１６の顔に対応する。

ある例示的実施形態において、第２の画像３６０の１つ又は複数のオブジェクトのオブジェクト点は、第１の画像３２０のオブジェクト３１２・３１４・３２６のような１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて検出される。例えば、第１の画像３２０で検出される全オブジェクトに対して、第２の画像３６０で対応するオブジェクトは、画像３２０のオブジェクトの位置を用いて検出される。ある例示的実施形態では、第１の画像３２０で検出された男性３１２の顔３２２（オブジェクト）に対して、画像３６０で類似するオブジェクトが、顔３２２に対して決定される探索範囲の中で探索され検出される。ある実施例では、こうした機能には、第１の画像３２０で検出された男性３１２（オブジェクト）に対応するオブジェクト点の一部又は全部と、画像３６０の男性３１２とのマッチングが含まれてもよい。マッチング機能の実施例には、画像３２０の男性３１２を表現する画素の広がりや色、テクスチャ、輪郭のマッチングが含まれてもよい。種々の例示的実施形態では、画像３２０で既に検出済みのオブジェクトを探すために画像３６０全体を探索することはせず、エピポーラ制約に基づいて決定される探索範囲内で探索が行われる。例えば、画像３２０で検出される全ての顔に対して、画像３６０でも同じ大きさの顔が探索される。例として、ある例示的実施形態では、画像３６０における顔のオブジェクト点の探索は、画像３２０での顔のオブジェクト点と同じ位置から開始されてもよく、画像３６０は同じ走査線（オブジェクト点に対応するエピポーラ線）に沿って走査される。これにより、画像３２０における（従って画像３６０における）顔の位置に関する情報とエピポーラ制約に基づいて探索範囲を限定することができ、画像３６０における顔検出の複雑さが劇的に減らされる。

ある例示的実施形態において、画像３６０におけるオブジェクト３１２・３１４・３１６の探索範囲は、画像３６０において、画像３２０の対応するオブジェクト点に対するエピポーラ線に沿って決定される。ある実施例では、画像３２０の画素点３１８のような各画素点は第２の画像３６０のエピポーラ線（番号３６２）に関連し、それによって、画素点３１８は、画像３６０においてエピポーラ線３６２上で探索される。同様に、画像３２０の他の画素点も、それに対応するエピポーラ線に沿って探索することができる。例えば、画像３２０の子供３１６の顔３２６に対応する画素点は、第２の画像３６０において、これらの画素点に対応するエピポーラ線上で探索されてもよく、その探索範囲は対応するエピポーラ線に沿って限定される。図３に示すように、探索範囲３７６は、顔３２６に画素点に対応する複数のエピポーラ線を含みうると決定され、探索範囲３７６が画像３６０で顔３２６を検出する推定範囲を規定することができる。同様に、画像３６０における探索範囲３７２・３７４の複数のエピポーラ線は、画像３６０において顔３２２・３２４を検出するために決定される。

例示的実施形態によっては、画像３６０においてエピポーラ線に沿って探索する際に伴う計算は、画像３２０で検出されたオブジェクトのサイズ（又は画像を撮影するカメラから被写体までの距離）に関する情報に基づいて画像３６０における探索範囲を最適化することによって更に減らすことができる。ある例示的実施形態では、装置２００に、１つ又は複数のオブジェクトの対応するサイズに基づいて、画像３２０で検出された１つ又は複数のオブジェクトのソートを行わせる。例として、検出されたオブジェクト３２２・３２４・３２６の各々に関するサイズがそれぞれh1、h2、h3と決定されるとする。ある例示的実施形態では、オブジェクトはそのサイズに基づいて降順にソートされる。例えば、サイズがh1>h2>h3であるような場合、プロセッサ２０２は、顔を３２２、３２４、３２６の順にソートするように構成される。ある例示的実施形態では、特定の立体カメラのベースラインからの設定や焦点距離、顔の大きさに関して、最大サイズの顔に対する探索範囲が較正されてもよい。

ある例示的実施形態において、第２の画像３６０での探索範囲は、画像３２０で検出されたオブジェクトのサイズが小さくなる程狭くなる。あるいは又は加えて、カメラに近い被写体に対する探索範囲は、カメラから遠い被写体の場合と比べて広くてもよい。例示的実施形態では、カメラに近い被写体は、カメラから遠い別の被写体と比べて画像３２０・３６０の間の視差が大きくなる。例示的実施形態では、オブジェクトのサイズと位置に基づいて、探索範囲が決定されてもよい。例えば、顔３２２のサイズは顔３２４のサイズよりも大きく、顔３２４は顔３２６よりも大きいため、これらのオブジェクトの視差の降順はオブジェクト３２２、３２４、３２６となる。ある例示的実施形態では、視差の降順に基づくと、探索範囲３７２は探索範囲３７４より広く、探索範囲３７４は探索範囲３７６より広い。一般性を失わずに、最大の顔（例えば、顔３２２）に対して、その視差と対応する探索範囲３７２は最大である。特定の立体カメラのベースラインからの設定や焦点距離、顔３２２の大きさに関して、探索範囲３７２が較正されてもよい。また、探索範囲３７４は、探索範囲３７２に基づいて、例えば探索範囲３７２よりも僅かに狭いと推定されてもよい。また更に、探索範囲３７６は、探索範囲３７４に基づいて、例えば探索範囲３７４よりも僅かに狭いと推定されてもよい。

ある例示的実施形態において、１つ又は複数のオブジェクトに関する１つ又は複数の視差値が決定される。ある例示的実施形態では、あるオブジェクトに関する画像３２０と画像３６０との間の視差値は、画像３２０でのオブジェクトの位置と画像３６０でのオブジェクトの位置に基づいて決定される。例えば、男性３１２が画像３２０の位置３８２（画像３６０における男性３１２の仮想位置を表わす破線３８２で示される）と画像３６０の位置３８４にあった場合、男性３１２に関する視差値３８６は、位置３８２と３８４の間の距離として決定される。図３に示すように、子供３１６の視差３９２は、画像３２０と画像３６０における子供３１６の位置にそれぞれ関する位置３８８（画像３２０における子供３１６の仮想位置を表わす破線で示される）と位置３９０の間の距離として決定される。画像３６０におけるオブジェクト検出の複雑さは、エピポーラ制約を利用することによって（画像３６０全体を走査せず、エピポーラ線に沿った探索範囲を決定することによって）大幅に減らすことができ、その結果、このオブジェクトについて画像３２０と３６０との間の視差計算における複雑さもまた減らすことができる。実施例によっては、オブジェクトは種々のオブジェクト点に対して同一の視差を持つこともあるが、別の実施例によっては、画像３２０と３６０との間の視差が、オブジェクトのオブジェクト点（又は範囲）ごとに異なることもある。

図４には、ある例示的実施形態に従う、画像３２０・３６０等の立体画像対の何れかの画像からオブジェクトを分割する例示的表現を示す。ある例示的実施形態では、画像３２０及び画像３６０のうち少なくとも１つにおける１つ又は複数のオブジェクトは、少なくとも、そのオブジェクトのオブジェクト点に関する少なくとも１つの視差値に基づいて分割される。例えば、画像３６０における子供３１６の顔は、子供３１６の顔のオブジェクト点（又は画素点）に関する視差値（例えば、d1、d2、d3、d4）に基づいて、画像３６０から分割されてもよい。ある例示的実施形態では、オブジェクト（例えば、子供３１６）を分割するために、装置２００に、子供３１６の顔へのオブジェクトラベルの割当て（例えば、子供３１６の顔のオブジェクト点に同一のオブジェクトラベルを割り当てる）と、画像３６０の残りの部分に非オブジェクトラベルの割当てを行わせる。ある例示的実施形態では、装置２００に、グラフカット法等の適切な技術を用いて、割り当てられたオブジェクトラベル（例えば、子供３１６）に対応する画像３６０の部分の分割を更に行わせる。

ある例示的実施形態において、装置２００に、オブジェクトのオブジェクト点に対応する第１の視差及び第２の視差の決定を行わせる。一般性を失わずに、ある例示的実施形態では、第１の視差は、オブジェクトの任意のオブジェクト点に対してそのオブジェクトが持ちうる最小視差（d_min）でもよく、第２の視差は、オブジェクトの任意のオブジェクト点に対してそのオブジェクトが持ちうる最大視差（d_max）でもよい。ある実施例では、装置２００は、子供３１６の顔に関する最大視差d_max をd3、同じ子供の顔に関連する最小視差d_min をd2と決定する。この実施例では、最大視差d3及び最小視差d2は、子供３１６の顔に関する画像３２０と画像３６０との間の視差範囲を決定する。

ある例示的実施形態において、オブジェクト（例えば、子供３１６の顔）に関するオブジェクト点には、画像３２０及び画像３６０等の画像間での様々な視差値に対して計算されるオブジェクトコスト関数に基づいて、オブジェクトラベル（L1）が割り当てられる。例えば、装置２００に、第１の視差（d_min）から第２の視差（d_max）までの視差範囲にある画像３２０と画像３６０との間の様々な視差値に対して、オブジェクトコスト関数の計算を行わせる。また装置２００に、オブジェクトラベルとして視差範囲から、画像３２０と画像３６０との間で（複数のオブジェクトコスト関数のうち）オブジェクトコスト関数が最小となる視差の選択を行わせる。ある例示的実施形態では、様々な視差値に関するオブジェクトコスト関数C(x,y,d)は、dがd_minからd_maxまでの範囲で計算される。ある例示的実施形態では、装置２００に、あらゆる視差値に対して計算されたオブジェクトコスト関数から最小のオブジェクトコスト関数の選択を行わせる。例えば、d_minからd_maxまでの範囲のdに対して、C(x,y,L1) = min C(x,y,d)であるオブジェクトコスト関数が選択される。この実施例では、視差L1（d=L1）に対して、画像３２０と画像３６０との間のオブジェクトコスト関数が最小となるため、子供３１６の顔等のオブジェクトに対して視差L1がオブジェクトラベルとして選択される。

ある例示的実施形態において、装置２００に、画像３２０と画像３６０との間の非オブジェクトコスト関数に基づいて、非オブジェクト点（例えば、子供３１６の顔等のオブジェクト以外の残りの画素点）に対して非オブジェクトラベル（L2）の割当てを行わせる。例として、装置２００に、第１の視差から第２の視差までの視差範囲外の様々な視差値に対して、非オブジェクトコスト関数の計算を行わせる。例えば、非オブジェクトコスト関数は、画像３２０と画像３６０との間の視差範囲(0, d_min-Δ)又は(d_max+Δ, M)に対して計算されてもよい。ここで、Mはシーンの最大視差、Δは視差の単位／ステップサイズである。また装置２００に、非オブジェクトラベルとして視差範囲(0, d_min-Δ)及び(d_max+Δ, M)から、画像３２０と画像３６０との間で非オブジェクトコスト関数が最小となる視差値の選択を行わせる。ある例示的実施形態では、様々な視差値に関する非オブジェクトコスト関数C(x,y,d)は、dが(0, d_min-Δ)及び(d_max+Δ, M)の範囲で計算される。ある例示的実施形態では、装置２００に、あらゆる視差値に対して計算された非オブジェクトコスト関数から最小のオブジェクトコスト関数の選択を行わせる。例えば、(0, d_min-Δ)及び(d_max+Δ, M)の範囲にあるdに対して、C(x,y,L2) = min C(x,y,d)である非オブジェクトコスト関数が選択される。この実施例では、視差L2（d=L2）に対して、画像３２０と画像３６０との間の非オブジェクトコスト関数が最小となるため、画像３２０及び画像３６０における子供３１６の顔以外の画像領域に対して視差L2が非オブジェクトラベルとして選択される。

ある例示的実施形態において、特定の視差値に対するオブジェクトコスト関数及び非オブジェクトコスト関数は、画像３２０及び画像３６０のマッチングに基づいて計算される。このマッチングでは、画像３２０と画像３６０との間で１つ又は複数の画像パラメータの一致度が決定される、画像３２０及び３６０の何れかの画素が視差値分だけシフトされる。例えば、視差値「d」の場合、画像３６０の各画素は特定の向きに視差「d」だけシフトされ、画像３２０と画像３６０との間でパラメータ（例えば、色）の一致度を決定するために、シフトされた画像３６０が画像３２０と比較される。ある例示的実施形態では、オブジェクトコスト関数又は非オブジェクトコスト関数は、様々な視差値に対して決定された一致度に基づいて計算される。またある例示的実施形態では、シフト画像３６０と画像３２０との間の一致度が高くなる程、オブジェクトコスト関数及び／又は非オブジェクトコスト関数は減少する。ある例示的実施形態では、オブジェクトコスト関数及び非オブジェクトコスト関数が最小となる視差値（それぞれL1及びL2）は、それぞれオブジェクトラベル（例えば、視差L1）及び非オブジェクトラベル（例えば、視差L2）として選択される。

ある例示的実施形態において、オブジェクトは、オブジェクトラベル（L1）及び非オブジェクトラベル（L2）に基づくグラフカット法の適用に基づいて、画像３６０等の画像から分割される。例として、ある実施例では、オブジェクトラベル（L1）が割り当てられるオブジェクト点が子供３１６の顔を表現し、非オブジェクトラベル（L2）が割り当てられるオブジェクト点がそのシーンにおける子供３１６の顔以外の領域を表現する。ある例示的実施形態では、子供３１６の顔は前景であると見なされてもよく、子供３１６の顔以外の領域は背景であると見なされてもよい。ある例示的実施形態では、子供３１６の顔を表現する領域（例えば、ラベルL1が割り当てられた領域）は、グラフカット法を用いてラベルL2で表わされる背景から分割されてもよい。図４に示すように、子供３１６の顔（４０２で示す）は、画像４００（画像３２０又は３６０の一例）の背景４０４から分割される。

図５は、ある例示的実施形態に従う、オブジェクトを検出する例示的方法５００を説明するフローチャートである。ある例示的実施形態では、方法５００は、シーンの画像におけるオブジェクトを検出することと、その画像のオブジェクトの視差を決定することを含む。ただし、シーンの画像は、そのシーンの少なくとも１つのオブジェクトに対して画像間視差があるように撮影される。フローチャートに描かれる方法５００は、例えば、図２の装置２００によって実行されてもよい。

ブロック５０５で、方法５００は、シーンの第１の画像及び第２の画像等の複数の画像の受取りを進めることを含む。図２を参照して説明したように、第１の画像（I1）及び第２の画像（I2）は、２つのセンサと関連要素を備えるメディアキャプチャデバイスから取り込まれてもよいし、DVDやコンパクトディスク（CD）、フラッシュドライブ、メモリカードのような外部ソースから取り込まれてもよいし、インターネットやBluetooth（登録商標）のような外部の保存場所から受信してもよい。ある例示的実施形態では、第1の画像（I1）及び第２の画像（I2）は、特定シーンの２つの異なるビューを含む。画像I1及びI2の実施例は、それぞれ図３に示しつつ参照して説明された画像３１０及び３５０でもよい。

ブロック５１０で、方法５００は、画像I1の１つ又は複数のオブジェクトを検出することを含む。例として、第１の画像I1は３つのオブジェクトA、B、Cを含み、第１の画像I1におけるオブジェクトA・B・Cとそれぞれの位置を決定するために、第１の画像I1が走査される。図３を参照して説明したように、第１の画像I1は、オブジェクトA・B・Cのオブジェクト点を決定する適切なオブジェクト検出技術を用いて走査される。ブロック５１５で、方法５００は、第１の画像（I1）における１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、第２の画像（I2）における１つ又は複数のオブジェクトのオブジェクト点を検出することを含む。例として、第１の画像I1で検出される全オブジェクトに対して、対応するオブジェクトがエピポーラ制約を用いて第２の画像I2で検出される。ある例示的実施形態では、画像I1のオブジェクト点に対応する画像I2のオブジェクト点を検出することは、画像I2のエピポーラ線上に画像I2のオブジェクト点を探索することを含む。ここで、画像I2のエピポーラ線は、画像I1のオブジェクト点に関して対応するエピポーラ線である。例として、画像I1の全オブジェクト点は、画像I2のエピポーラ線に対応する。ある実施例では、画像I2全体を探索しないで画像I2において画像I1の対応オブジェクト点を探索するために、この探索は、画像I1のオブジェクト点に対応する画像I2のエピポーラ線に沿った探索に限定される。図２を参照して説明したように、画像I2においてオブジェクトに関するオブジェクト点は、画像I1のオブジェクト点に対応する画像I2のエピポーラ線に沿って水平走査を行うことによって検出される。ある例示的実施形態では、画像I2で検出される種々のオブジェクトに対して、対応するオブジェクト点の位置が決定される。

ブロック５２０で、方法５００は、画像I1のオブジェクトのオブジェクト点と画像I2のオブジェクトのオブジェクト点との間の視差値を決定することを含む。例として、オブジェクトCが、オブジェクトCの１つ又は複数の領域（「オブジェクト点」と呼ばれる）に対して、１つ又は複数の画像I1・I2間視差値を持つとする。例えば、オブジェクトCは領域（R1，R2，R3，R4）を含み、領域（R1，R2，R3，R4）はそれぞれ異なる画像I1・I2間視差を有してもよい。ある実施例では、顔の領域毎にそれぞれ異なる画像I1・I2間視差値を有してもよい。例えば、顔の鼻先は耳よりも視差が大きくてもよい。しかし、種々のシナリオにおいて、オブジェクトがそのオブジェクト点に対して一様の画像I1・I2間視差を有することもある。

図６は、別の例示的実施形態に従う例示的方法６００を説明するフローチャートである。フローチャートに描かれる方法６００は、例えば、図２の装置２００によって実行されてもよい。種々の実施例において、方法６００は、シーンの画像において計算による有効なオブジェクト検出と、画像のオブジェクトに関する視差値（又は深度）の計算と、画像のオブジェクトの分割を提供することを含む。方法６００の例示的実施形態は立体画像を援用して説明されるが、方法６００に記述される種々の動作は、マルチベースラインカメラやアレイカメラ、プレノプティックカメラ、ライトフィールドカメラ等で撮影されたシーンの２つ以上の画像であれば如何なるものにも実行可能であることに留意しなければならない。

ブロック６０５で、方法６００は立体画像対の受取りを進めることを含む。第１の画像（I1）及び第２の画像（I2）は、立体カメラで撮影されてもよい。画像I1及びI2はマルチベースラインカメラやアレイカメラ、プレノプティックカメラ、ライトフィールドカメラ等で撮影されてもよく、この画像I1及びI2の実施例は、それぞれ図３に示した画像３１０及び３５０でもよい。

場合によっては、画像I1及びI2は、装置２００が受け取る、あるいは撮影するとき、互いに補正されなくてもよい。このような場合、方法６００は（ブロック６１０で）、画像I1及び画像I2の横の列が互いに対応するように、画像I1及びI2を補正することを含む。装置２００が受け取る画像I1及びI2が補正画像である場合は、この（ブロック６１０での）補正処理は不要である。

ブロック６１５で、方法６００は、画像I1における１つ又は複数のオブジェクトのオブジェクト点を検出することによって、画像I1における１つ又は複数のオブジェクトを検出することを含む。例として、画像I1は３つのオブジェクトA、B、Cを含み、第１の画像I1におけるオブジェクトA・B・Cのオブジェクト点とそれぞれの位置を決定するために、画像I1が走査される。ブロック６２０で、方法６００は、画像I1における１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、画像I2における１つ又は複数のオブジェクトのオブジェクト点を検出することを含む。ここで、オブジェクト点は画像I2の各画素点に関して探索されず、そのオブジェクト点に対応する画像I2のエピポーラ線上に限定した探索範囲内で探索されることに留意しなければならない。探索範囲は、画像I1で既に検出済みのオブジェクトA・B・Cのオブジェクト点の位置に基づいて決定される。ブロック６２０の動作は、ブロック６２５及び６３０で実行される動作によって実行されてもよい。

ブロック６２５で、方法６００は、画像I1の１つ又は複数のオブジェクトのオブジェクト点に対して、オブジェクト点に対応する画像I2のエピポーラ線に沿って画像I2での探索範囲を決定することを含む。ある例示的実施形態では、このオブジェクトのオブジェクト点に関する探索範囲は、オブジェクトのサイズとカメラから被写体までの距離に基づいて決定されてもよい。例として、画像I1で検出されたオブジェクトA、B、CのサイズはそれぞれH1、H2、H3であるとする。ある実施例では、サイズH1に関するオブジェクトAが最大であり、次いでサイズH3に関するオブジェクトC、そしてサイズH2に関するオブジェクトBが最小である。この実施例では、第２の画像I2での探索範囲は、画像I1で検出されたオブジェクトのサイズが小さくなる程狭くなる。例として、オブジェクトAに関する探索範囲がS1である場合、サイズH3に関するオブジェクトCに対する探索範囲は探索範囲S1よりも狭く（Cに対する探索範囲をS2とすると、S2 < S1）、サイズH2に関するオブジェクトBに対する探索範囲は最小である。

ブロック６３０で、方法６００は、オブジェクト点に対して決定された探索範囲で第２の画像I2のオブジェクト点を探索することを含む。例えば、画像I1のオブジェクトAのオブジェクト点に対する画像I2の探索範囲は、画像I1のオブジェクトAのオブジェクト点に対応する画像I2のエピポーラ線に沿って決定され、この決定された探索範囲でオブジェクトAのオブジェクト点が探索される。

ブロック６３５で、方法６００は、画像I1の１つ又は複数のオブジェクトのオブジェクト点と画像I2の１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することを含む。例として、オブジェクトCが、オブジェクトCの１つ又は複数の領域（「オブジェクト点」と呼ばれる）に対して、１つ又は複数の画像I1・I2間視差値を持つとする。例えば、オブジェクトCは領域（R1，R2，R3，R4）を含み、領域（R1，R2，R3，R4）はそれぞれ異なる画像I1・I2間視差を有してもよい。ある例示的実施形態では、オブジェクトは同一の視差を有してもよい。ある例示的実施形態では、あるオブジェクトに関する画像I1と画像I2との間の視差値は、画像I1でのオブジェクトの位置と画像I2でのオブジェクトの位置に基づいて決定される。

ブロック640で、方法600は、オブジェクトに関する画像I1・I2間視差値に基づいて、画像I1及び画像I2の少なくとも何れかにおける１つ又は複数のオブジェクトの中の特定のオブジェクトを分割することを含む。例えば、オブジェクトCは、オブジェクトCに関する画像I1・I2間視差値に基づいて、画像I2から分割されてもよい。ある例示的実施形態では、ブロック640の動作は、ブロック６４５-670によって実行される。

ブロック６４５で、方法６００は、オブジェクトCのオブジェクト点に対応する第１の視差（例えば、d_min）及び第２の視差（d_max）を決定することを含む。例として、オブジェクトCは、（R1，R2，R3，R4）といった様々な領域に対してそれぞれ異なる画像I1・I2間視差で広がっているとする。ある実施形態では、オブジェクトCに関する第１の視差（d_min）及び第２の視差（d_max）は、オブジェクトCのオブジェクト点が広がる視差値の範囲（d_min, d_max）を決定するために計算される。ある例示的実施形態では、値d_min, d_maxは、ベースラインや焦点距離、顔の大きさ、オブジェクトの視差といった特定の立体カメラ設定の関数として較正されてもよい。

ブロック６５０で、方法６００は、例えば範囲（d_min, d_max）である第１の視差値から第２の視差値までの複数の視差値に対して、画像I1・I2間のオブジェクトコスト関数を計算することを含む。ブロック655で、方法600は、画像I1・I2間のオブジェクトコスト関数に基づいて、オブジェクトCに関するオブジェクト点に対してオブジェクトラベル（L1）を割り当てることを含む。ブロック655で、オブジェクトラベルとして範囲（d_min, d_max）から、画像I1・I2間でオブジェクトコスト関数が最小となる視差値が選択される。オブジェクトコスト関数の計算に関する例示的実施形態の一部は、図４を参照して説明される。

ブロック６６０で、方法６００は、例えば範囲(0, d_min-Δ)又は(d_max+Δ, M)である第１の視差値から第２の視差値までの範囲外にある１つ又は複数の視差値に対して、画像I1・I2間の非オブジェクトコスト関数を計算することを含む。ここで、Mはシーンの最大視差、Δは視差の単位／ステップサイズである。ブロック６６５で、方法６００は、画像I1・I2間の非オブジェクトコスト関数に基づいて、非オブジェクト点（例えば、オブジェクトC以外の残りの画素点）に対して非オブジェクトラベル（L2）を割り当てることを含む。ある例示的実施形態では、非オブジェクトラベルとして（範囲(0, d_min-Δ)及び(d_max+Δ, M)にある）種々の視差値から、画像I1・I2間で非オブジェクトコスト関数が最小となる視差値が選択される。

ブロック６７０で、方法６００は、オブジェクトラベル及び非オブジェクトラベルに基づいてオブジェクトを分割することを含む。ある例示的実施形態では、方法６００は、オブジェクトラベルL1及び非オブジェクトラベルL2に関するグラフカットアルゴリズムの適用に基づいて、オブジェクトを分割することを含む。例として、（非オブジェクトラベルL2が割り当てられる）背景からオブジェクトラベルL1が割り当てられるオブジェクト点を分割するために、グラフカット法が用いられる。その結果、画像I1又はI2からオブジェクトCを分割することができる。

図５及び６のフローチャートの説明を容易にするために、特定の処理が他のステップとは区別可能なステップで、特定の処理順序を有するものとして説明されてきたことに留意しなければならない。しかし、このような実装形態は単に例に過ぎず、実装形態を限定するものではない。処理によっては、統合されて単一の処理として実行されてもよく、また、本明細書に例示された順序とは異なる順序でも実行可能である。さらに、方法５００・６００の処理によっては自動的に実行されるものもある。そうした処理には実質的にユーザは関わらない。方法５００・６００の別の処理は、マニュアル又は半自動的に実行されてもよい。そうした処理には、１つ又は複数のユーザインタフェースを介してユーザが操作することを含む。

こうしたフローチャートに描かれる方法は、例えば、図２の装置２００によって実行されてもよい。フローチャートの処理及びフローチャートの処理の組み合わせは様々な手段によって実施されることに留意されたい。そのような手段には、例えばハードウェアやファームウェア、プロセッサ、回路網、及び／又はソフトウェアの実行に関連付けられるデバイスが含まれる。また当該ソフトウェアは１つ又は複数のコンピュータプログラム命令を含む。例えば、様々な実施形態に関して説明された１つ又は複数の処理は、コンピュータプログラム命令によって具現化されてもよい。ある例示的実施形態では、多くの実施形態で説明された上記の処理を具現化するコンピュータプログラム命令は、装置の少なくとも１つのメモリデバイスに格納されてもよく、装置の少なくとも１つのプロセッサにより実行されてもよい。このようなコンピュータプログラム命令は、コンピュータや、プログラム可能な装置（例えばハードウェア）にロードされて機械を構成する。すなわち、命令がロードされたコンピュータ又はプログラム可能な装置は、１つ又は複数のフローチャートにより特定される機能を実装するための手段を具現化する。これらのコンピュータプログラム命令はコンピュータ読み取り可能な記憶メモリ（すなわち搬送波や電磁波信号のような送信媒体ではない媒体））に格納されてもよく、固有の方法でコンピュータ又はその他のプログラム可能な装置を機能させるべく命令してもよい。すなわち、コンピュータ読み取り可能なメモリに格納される命令は、実行されることにより、１つ又は複数のフローチャートのブロックにより特定される機能を実装する製品を形成する。コンピュータプログラム命令はコンピュータ又はその他のプログラム可能な装置にロードされ、一連の動作を前記コンピュータ又はその他のプログラム可能な装置で実行させることにより、コンピュータ実装プロセスを生成する。すなわち、コンピュータ又はその他のプログラム可能な装置で命令が実行されることにより、フローチャートで特定される処理を提供する。こうした方法に関する処理は、装置２００の助けを借りて説明される。しかし、方法に関する処理は、他の如何なる装置を用いて説明されたり実施されたりしてもよい。

本願で開示される１つ又は複数の例示的実施形態における技術的効果は、特定のシーンに関する複数の画像で、画像のオブジェクトの間に視差があるような画像（例えば、立体画像）においてオブジェクトの検出を行うことである。ただしこのことは、以降に記載する特許請求の範囲や解釈、適用を如何様にも限定するものではない。種々の実施形態は、立体画像におけるオブジェクト検出の複雑さを減らせる技術を提供する。例えば、立体画像のうち１つの画像のみからオブジェクトが検出され、他の画像はオブジェクト検出のために全体が走査されずに、オブジェクトのエピポーラ制約に基づいて決定された探索範囲で探索が行われる。他の画像におけるオブジェクト検出は効率的に計算されるため、立体画像のオブジェクトに関する視差も効率的に決定される。また、種々の実施形態は、オブジェクトに関する視差値に基づいてグラフカットによる画像からのオブジェクト分割も提供する。こうしたオブジェクト分割は、高速かつ正確な分割処理である。

前述の様々な実施形態は、ソフトウェアやハードウェア、アプリケーションロジック、又はこれらの結合として実装されてもよい。ソフトウェアやアプリケーションロジック、ハードウェアは、少なくとも１つのメモリ、少なくとも１つのプロセッサ、装置、コンピュータプログラムを用いた製品に存在していてもよい。ある例示的実施形態においては、アプリケーションロジック、ソフトウェア、または命令セットは、種々の標準的なコンピュータ可読媒体の何れかに保持される。本明細書の文脈において「コンピュータ可読媒体」は触ることが可能なメディアや手段であって、命令を実行するコンピュータのようなシステムや装置、デバイスによって又はそれと共に使用される命令を、含むことや格納すること、通信すること、伝達すること、送信することのいずれかが可能な如何なるメディアや手段であってもよい。上記コンピュータの例には、図１及び／又は図２に関連して説明され描かれている装置がある。コンピュータ可読媒体はコンピュータ可読記憶媒体を備えてもよい。それは、コンピュータのような、命令を実行するシステムや装置、デバイスによってまたはそれと共に使用される命令を含むか格納しうる、如何なる媒体や手段であってもよい。

必要に応じて、本出願で開示した様々な機能が異なる順序で、及び／又は同時に実行されてもよい。さらに必要に応じて、前述の機能の１つ又は複数が任意選択できたり、統合されたりしてもよい。

実施形態の様々な側面が独立請求項に提示されているが、その他の側面には、請求項に明示的に提示されている組み合わせ以外にも、説明された実施形態及び／又は従属請求項に含まれる特徴を、独立請求項の特徴と組み合わせたものも含まれる。

前述の通り、本発明の例示的実施形態が説明されてきたが、これらの記述を限定的な意味で見るべきでないことにも留意されたい。それよりも、添付の特許請求の範囲に定義される開示の範囲を逸脱することなしに、様々な変形や修正が存在する。

Claims

１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進めることと；
前記第１の画像で前記１つ又は複数のオブジェクトを検出することであって、該第１の画像の１つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと；
前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を検出することは、該第２の画像におけるエピポーラ線に沿って、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を探索することを含む、前記検出することと；
前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点と前記第２の画像における前記１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第１の画像のオブジェクト点と該第２の画像のオブジェクト点との間の視差値は、少なくとも、該第１の画像のオブジェクト点の検出位置及び該第２の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することと；
を含む、方法。
前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出することは：
前記第１の画像のオブジェクト点のエピポーラ線に沿って、該第１の画像のオブジェクト点に関する探索範囲を前記第２の画像において決定することであって、前記１つ又は複数のオブジェクトの中の第１のオブジェクトが該１つ又は複数のオブジェクトの中の第２のオブジェクトよりもサイズが大きい場合、該第１のオブジェクトのオブジェクト点に関する探索範囲は、該第２のオブジェクトのオブジェクト点に関する探索範囲よりも広い、前記決定することと；
前記オブジェクト点に関して決定された探索範囲で前記第２の画像のオブジェクト点を探索することと
を含む、請求項１に記載の方法。
前記第１の画像及び前記第２の画像は補正画像である、請求項１に記載の方法。
前記第１の画像のオブジェクト点と前記第２の画像のオブジェクト点との間の視差値は、該第１の画像のオブジェクト点の検出位置と該第２の画像のオブジェクト点の検出位置との差である、請求項１に記載の方法。
前記オブジェクトのオブジェクト点に関する少なくとも１つの視差値に基づいて、前記第１の画像及び前記第２の画像の何れかの画像における１つ又は複数のオブジェクトの中のオブジェクトを分割することを更に含む、請求項１から４の何れかに記載の方法。
前記第１の画像及び第２の画像の何れかの画像のオブジェクトを分割することは：
前記オブジェクトのオブジェクト点に対応する第１の視差値及び第２の視差値を決定することと；
前記第１の視差値と前記第２の視差値との間にある複数の視差値に対して、前記第１の画像と前記第２の画像との間のオブジェクトコスト関数を計算することと；
オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点にオブジェクトラベルを割り当てることと；
前記第１の視差値と前記第２の視差値との間にある前記複数の視差値以外の１つ又は複数の視差値に対して、前記第１の画像と前記第２の画像との間の非オブジェクトコスト関数を計算することと；
前記第１の画像と前記第２の画像との間の前記非オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点に非オブジェクトラベルを割り当てることと；
前記オブジェクトラベル及び前記非オブジェクトラベルに基づいて、前記画像のオブジェクトを分割することと
を含む、請求項５に記載の方法。
前記複数のオブジェクトコスト関数の間でオブジェクトコスト関数が最小となる視差値が、前記オブジェクトラベルとして割り当てられ、前記複数の非オブジェクトコスト関数の間で非オブジェクトコスト関数が最小となる視差値が、前記非オブジェクトラベルとして割り当てられる、請求項６に記載の方法。
前記複数の視差値の中の視差値に対して前記第１の画像と前記第２の画像との間のオブジェクトコスト関数を計算することは、該第１の画像及び第２の画像の何れかの画素が前記視差値分だけシフトされる場合、該第１の画像と該第２の画像との間での１つ又は複数の画像パラメータの一致度を決定することを含む、請求項６に記載の方法。
前記第１の画像及び前記第２の画像は立体画像対である、請求項１から８の何れかに記載の方法。
前記第１の画像及び第２の画像は、前記シーンの複数ビューを撮影できるカメラで撮影され、該カメラは、立体カメラ及びマルチベースラインカメラ、アレイカメラ、プレノプティックカメラを含むグループから選択される、請求項１から９の何れかに記載の方法。
少なくとも１つのプロセッサと；
コンピュータプログラムコードを含む少なくとも１つのメモリを備える装置であって、前記少なくとも１つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサを用いて、前記装置に少なくとも：
１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進めることと；
前記第１の画像で前記１つ又は複数のオブジェクトを検出することであって、該第１の画像の１つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと；
前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を検出することは、該第２の画像におけるエピポーラ線に沿って、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を探索することを含む、前記検出することと；
前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点と前記第２の画像における前記１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第１の画像のオブジェクト点と該第２の画像のオブジェクト点との間の視差値は、少なくとも、該第１の画像のオブジェクト点の検出位置及び該第２の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することと；
を実行させるように構成される、装置。
前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出するために、前記装置は更に、
前記第１の画像のオブジェクト点のエピポーラ線に沿って、該第１の画像のオブジェクト点に関する探索範囲を前記第２の画像において決定することであって、前記１つ又は複数のオブジェクトの中の第１のオブジェクトが該１つ又は複数のオブジェクトの中の第２のオブジェクトよりもサイズが大きい場合、該第１のオブジェクトのオブジェクト点に関する探索範囲は、該第２のオブジェクトのオブジェクト点に関する探索範囲よりも広い、前記決定することと；
前記オブジェクト点に関して決定された探索範囲で前記第２の画像のオブジェクト点を探索することと
を少なくとも部分的に実行させられる、請求項１１に記載の装置。
前記第１の画像及び前記第２の画像は補正画像である、請求項１１に記載の装置。
前記第１の画像のオブジェクト点と前記第２の画像のオブジェクト点との間の視差値は、該第１の画像のオブジェクト点の検出位置と該第２の画像のオブジェクト点の検出位置との差である、請求項１１に記載の装置。
前記装置は更に、前記オブジェクトのオブジェクト点に関する少なくとも１１つの視差値に基づいて、前記第１の画像及び前記第２の画像の何れかの画像における１つ又は複数のオブジェクトの中のオブジェクトを分割することを少なくとも部分的に実行させられる、請求項１１から１４の何れかに記載の装置。
前記第１の画像及び第２の画像の何れかの画像のオブジェクトを分割するために、前記装置は更に、
前記オブジェクトのオブジェクト点に対応する第１の視差値及び第２の視差値を決定することと；
前記第１の視差値と前記第２の視差値との間にある複数の視差値に対して、前記第１の画像と前記第２の画像との間のオブジェクトコスト関数を計算することと；
オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点にオブジェクトラベルを割り当てることと；
前記第１の視差値と前記第２の視差値との間にある前記複数の視差値以外の１つ又は複数の視差値に対して、前記第１の画像と前記第２の画像との間の非オブジェクトコスト関数を計算することと；
前記第１の画像と前記第２の画像との間の前記非オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点に非オブジェクトラベルを割り当てることと；
前記オブジェクトラベル及び前記非オブジェクトラベルに基づいて、前記画像のオブジェクトを分割することと
を少なくとも部分的に実行させられる、請求項１５に記載の装置。
前記複数のオブジェクトコスト関数の間でオブジェクトコスト関数が最小となる視差値が、前記オブジェクトラベルとして割り当てられ、前記複数の非オブジェクトコスト関数の間で非オブジェクトコスト関数が最小となる視差値が、前記非オブジェクトラベルとして割り当てられる、請求項１６に記載の装置。
前記複数の視差値の中の視差値に対して前記第１の画像と前記第２の画像との間のオブジェクトコスト関数を計算することは、該第１の画像及び第２の画像の何れかの画素が前記視差値分だけシフトされる場合、該第１の画像と該第２の画像との間での１つ又は複数の画像パラメータの一致度を決定することを含む、請求項１６に記載の装置。
前記第１の画像及び前記第２の画像は立体画像対である、請求項１１から１８の何れかに記載の装置。
前記第１の画像及び第２の画像は、前記シーンの複数ビューを撮影できるカメラで撮影され、該カメラは、立体カメラ及びマルチベースラインカメラ、アレイカメラ、プレノプティックカメラを含むグループから選択される、請求項１１から１９の何れかに記載の装置。
電子機器として構成される請求項１１に記載の装置であって：
ユーザがディスプレイを利用して前記電子機器の少なくとも１つの機能を制御することを進め、かつユーザ入力に応答するように構成される、ユーザインタフェース回路及びユーザインタフェースソフトウェアと；
前記電子機器のユーザインタフェースの少なくとも一部を表示するように構成されるディスプレイ回路であって、前記ディスプレイ及び該ディスプレイ回路は、前記ユーザが前記電子機器の機能の少なくとも一部を制御することを進めるように構成される、前記ディスプレイ回路と；
を備える、装置。
前記電子機器は、前記第１の画像及び前記第２の画像を取り込むように構成される少なくとも１つのイメージセンサを備える、請求項２１に記載の装置。
前記電子機器は携帯電話を含む、請求項２２に記載の装置。
少なくとも１つのコンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、前記コンピュータ可読記憶媒体は命令セットを含み、前記命令セットは、１つ又は複数のプロセッサにより実行されると、装置に少なくとも：
１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進めることと；
前記第１の画像で前記１つ又は複数のオブジェクトを検出することであって、該第１の画像の１つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと；
前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を検出することは、該第２の画像におけるエピポーラ線に沿って、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を探索することを含む、前記検出することと；
前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点と前記第２の画像における前記１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第１の画像のオブジェクト点と該第２の画像のオブジェクト点との間の視差値は、少なくとも、該第１の画像のオブジェクト点の検出位置及び該第２の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することと；
を実行させるように構成される、コンピュータプログラム製品。
前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出するために、前記装置は更に、
前記第１の画像のオブジェクト点のエピポーラ線に沿って、該第１の画像のオブジェクト点に関する探索範囲を前記第２の画像において決定することであって、前記１つ又は複数のオブジェクトの中の第１のオブジェクトが該１つ又は複数のオブジェクトの中の第２のオブジェクトよりもサイズが大きい場合、該第１のオブジェクトのオブジェクト点に関する探索範囲は、該第２のオブジェクトのオブジェクト点に関する探索範囲よりも広い、前記決定することと；
前記オブジェクト点に関して決定された探索範囲で前記第２の画像のオブジェクト点を探索することと
を少なくとも部分的に実行させられる、請求項２４に記載のコンピュータプログラム製品。
前記第１の画像及び前記第２の画像は補正画像である、請求項２４に記載のコンピュータプログラム製品。
前記第１の画像のオブジェクト点と前記第２の画像のオブジェクト点との間の視差値は、該第１の画像のオブジェクト点の検出位置と該第２の画像のオブジェクト点の検出位置との差である、請求項２４に記載のコンピュータプログラム製品。
前記装置は更に、前記オブジェクトのオブジェクト点に関する少なくとも１つの視差値に基づいて、前記第１の画像及び前記第２の画像の何れかの画像における１つ又は複数のオブジェクトの中のオブジェクトを分割することを少なくとも部分的に実行させられる、請求項２４から２７の何れかに記載のコンピュータプログラム製品。
前記第１の画像及び第２の画像の何れかの画像のオブジェクトを分割するために、前記装置は更に、
前記オブジェクトのオブジェクト点に対応する第１の視差値及び第２の視差値を決定することと；
前記第１の視差値と前記第２の視差値との間にある複数の視差値に対して、前記第１の画像と前記第２の画像との間のオブジェクトコスト関数を計算することと；
オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点にオブジェクトラベルを割り当てることと；
前記第１の視差値と前記第２の視差値との間にある前記複数の視差値以外の１つ又は複数の視差値に対して、前記第１の画像と前記第２の画像との間の非オブジェクトコスト関数を計算することと；
前記第１の画像と前記第２の画像との間の前記非オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点に非オブジェクトラベルを割り当てることと；
前記オブジェクトラベル及び前記非オブジェクトラベルに基づいて、前記画像のオブジェクトを分割することと
を少なくとも部分的に実行させられる、請求項２８に記載のコンピュータプログラム製品。
前記複数のオブジェクトコスト関数の間でオブジェクトコスト関数が最小となる視差値が、前記オブジェクトラベルとして割り当てられ、前記複数の非オブジェクトコスト関数の間で非オブジェクトコスト関数が最小となる視差値が、前記非オブジェクトラベルとして割り当てられる、請求項２９に記載のコンピュータプログラム製品。
前記複数の視差値の中の視差値に対して前記第１の画像と前記第２の画像との間のオブジェクトコスト関数を計算することは、該第１の画像及び第２の画像の何れかの画素が前記視差値分だけシフトされる場合、該第１の画像と該第２の画像との間での１つ又は複数の画像パラメータの一致度を決定することを含む、請求項３０に記載のコンピュータプログラム製品。
前記第１の画像及び前記第２の画像は立体画像対である、請求項２４から３１の何れかに記載のコンピュータプログラム製品。
前記第１の画像及び第２の画像は、前記シーンの複数ビューを撮影できるカメラで撮影され、該カメラは、立体カメラ及びマルチベースラインカメラ、アレイカメラ、プレノプティックカメラを含むグループから選択される、請求項２４から３２の何れかに記載のコンピュータプログラム製品。
１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進める手段と；
前記第１の画像で前記１つ又は複数のオブジェクトを検出する手段であって、該第１の画像の１つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出する手段と；
前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出する手段であって、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を検出することは、該第２の画像におけるエピポーラ線に沿って、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を探索することを含む、前記検出する手段と；
前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点と前記第２の画像における前記１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定する手段であって、該第１の画像のオブジェクト点と該第２の画像のオブジェクト点との間の視差値は、少なくとも、該第１の画像のオブジェクト点の検出位置及び該第２の画像のオブジェクト点の検出位置に基づいて決定される、前記決定する手段と；
を備える、装置。
前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出する手段は：
前記第１の画像のオブジェクト点のエピポーラ線に沿って、該第１の画像のオブジェクト点に関する探索範囲を前記第２の画像において決定する手段であって、前記１つ又は複数のオブジェクトの中の第１のオブジェクトが該１つ又は複数のオブジェクトの中の第２のオブジェクトよりもサイズが大きい場合、該第１のオブジェクトのオブジェクト点に関する探索範囲は、該第２のオブジェクトのオブジェクト点に関する探索範囲よりも広い、前記決定する手段と；
前記オブジェクト点に関して決定された探索範囲で前記第２の画像のオブジェクト点を探索する手段と
を備える、請求項３４に記載の装置。
前記第１の画像及び前記第２の画像は補正画像である、請求項３４に記載の装置。
前記第１の画像のオブジェクト点と前記第２の画像のオブジェクト点との間の視差値は、該第１の画像のオブジェクト点の検出位置と該第２の画像のオブジェクト点の検出位置との差である、請求項３４に記載の装置。
前記オブジェクトのオブジェクト点に関する少なくとも１つの視差値に基づいて、前記第１の画像及び前記第２の画像の何れかの画像における１つ又は複数のオブジェクトの中のオブジェクトを分割する普段を更に備える、請求項３４から３７の何れかに記載の装置。
前記第１の画像及び第２の画像の何れかの画像のオブジェクトを分割する手段は：
前記オブジェクトのオブジェクト点に対応する第１の視差値及び第２の視差値を決定する手段と；
前記第１の視差値と前記第２の視差値との間にある複数の視差値に対して、前記第１の画像と前記第２の画像との間のオブジェクトコスト関数を計算する手段と；
オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点にオブジェクトラベルを割り当てる手段と；
前記第１の視差値と前記第２の視差値との間にある前記複数の視差値以外の１つ又は複数の視差値に対して、前記第１の画像と前記第２の画像との間の非オブジェクトコスト関数を計算する手段と；
前記第１の画像と前記第２の画像との間の前記非オブジェクトコスト関数に基づいて、前記画像における前記オブジェクトのオブジェクト点に非オブジェクトラベルを割り当てる手段と；
前記オブジェクトラベル及び前記非オブジェクトラベルに基づいて、前記画像のオブジェクトを分割する手段と
を備える、請求項３８に記載の装置。
前記複数のオブジェクトコスト関数の間でオブジェクトコスト関数が最小となる視差値が、前記オブジェクトラベルとして割り当てられ、前記複数の非オブジェクトコスト関数の間で非オブジェクトコスト関数が最小となる視差値が、前記非オブジェクトラベルとして割り当てられる、請求項３９に記載の装置。
前記複数の視差値の中の視差値に対して前記第１の画像と前記第２の画像との間のオブジェクトコスト関数を計算することは、該第１の画像及び第２の画像の何れかの画素が前記視差値分だけシフトされる場合、該第１の画像と該第２の画像との間での１つ又は複数の画像パラメータの一致度を決定することを含む、請求項３９に記載の装置。
前記第１の画像及び前記第２の画像は立体画像対である、請求項３４から４１の何れかに記載の装置。
前記第１の画像及び第２の画像は、前記シーンの複数ビューを撮影できるカメラで撮影され、該カメラは、立体カメラ及びマルチベースラインカメラ、アレイカメラ、プレノプティックカメラを含むグループから選択される、請求項３４から４２の何れかに記載の装置。
コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令は、装置により実行されると該装置に：
１つ又は複数のオブジェクトを含む、シーンの第１の画像及び第２の画像の受取りを進めることと；
前記第１の画像で前記１つ又は複数のオブジェクトを検出することであって、該第１の画像の１つ又は複数のオブジェクトのオブジェクト点を検出することを含む、前記検出することと；
前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点の検出に基づいて、前記第２の画像で前記１つ又は複数のオブジェクトのオブジェクト点を検出することであって、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を検出することは、該第２の画像におけるエピポーラ線に沿って、該第１の画像のオブジェクト点に対応する該第２の画像のオブジェクト点を探索することを含む、前記検出することと；
前記第１の画像における前記１つ又は複数のオブジェクトのオブジェクト点と前記第２の画像における前記１つ又は複数のオブジェクトのオブジェクト点との間の視差値を決定することであって、該第１の画像のオブジェクト点と該第２の画像のオブジェクト点との間の視差値は、少なくとも、該第１の画像のオブジェクト点の検出位置及び該第２の画像のオブジェクト点の検出位置に基づいて決定される、前記決定することと；
を実行させる、コンピュータプログラム。