JP6158929B2 - 画像処理装置、方法及びコンピュータプログラム - Google Patents

画像処理装置、方法及びコンピュータプログラム Download PDF

Info

Publication number
JP6158929B2
JP6158929B2 JP2015530465A JP2015530465A JP6158929B2 JP 6158929 B2 JP6158929 B2 JP 6158929B2 JP 2015530465 A JP2015530465 A JP 2015530465A JP 2015530465 A JP2015530465 A JP 2015530465A JP 6158929 B2 JP6158929 B2 JP 6158929B2
Authority
JP
Japan
Prior art keywords
parallax
image
map
disparity
filtered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015530465A
Other languages
English (en)
Other versions
JP2015536057A (ja
Inventor
セルゲイ スミルノフ
セルゲイ スミルノフ
アタナス ゴチェフ
アタナス ゴチェフ
ミスカ ハンヌクセラ
ミスカ ハンヌクセラ
Original Assignee
ノキア テクノロジーズ オーユー
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー, ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2015536057A publication Critical patent/JP2015536057A/ja
Application granted granted Critical
Publication of JP6158929B2 publication Critical patent/JP6158929B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)

Description

本発明は、画像処理を行うための装置、方法及びコンピュータプログラムに関する。
背景情報
本項は特許請求の範囲に記載されている本発明の背景又は文脈を提供することを目的としている。本明細書に記載されている説明は、追求され得る概念を含み得るが、必ずしも以前に着想又は追求された概念であるとは限らない。したがって、本明細書に特に示されていない限り、本項で説明されている技術は、本出願内の説明及び特許請求の範囲に対する先行技術ではなく、本項に含まれていても、それが先行技術であるとは認められない。
現在、3次元(3D)ビデオコンテンツを提供するための様々な技術が調査及び開発されている。様々なマルチビューの適用例では、視聴者が見ることができるのは、特定の視点からの1つのステレオビデオペア及び異なる視点からの別のステレオビデオペアに限定される。一部の手法では、デコーダ側には限られた数の入力ビュー、例えばモノラル又はステレオビデオ及び何らかの補足データなど、のみが提供され、その後デコーダがすべての必要なビューを局所的にレンダリング(すなわち合成)してディスプレイに表示する。
3Dビデオコンテンツのエンコードでは、高度ビデオ符号化規格H.264/AVC又はH.264/AVCのマルチビュービデオ符号化(MVC)拡張などのビデオ圧縮システムを用いることができる。
立体ビデオのキャプチャには、水平方向に整列され、かつ同期された2つのカメラを用いてもよい。2つのカメラの光学的中心間の距離は、基線距離として知られている。ステレオ対応点は、2つのカメラ内の同じシーン点を反映する画素によって示される。カメラのパラメータ、基線及び対応点が分かれば、三角測距式の推定などを適用することによってシーン点の3次元(3D)座標を求めることができる。同じ手順を2つのカメラ画像内のすべての画素に適用すると、カメラを中心とする高密度の距離マップ(奥行きマップ)を取得することができる。このマップはシーンの3D幾何モデルとして、符号化、再利用、仮想ビューの合成、3D走査、対象物の検出及び認識、現実シーンへの仮想対象物の埋込み(拡張現実感)など、多くの3Dビデオ処理の適用例に利用することができる。
マルチビューの適用例では、論理的に複数のカメラペアとして配列し得る3つ以上のカメラを用いてもよい。したがって、これらのカメラによって同じシーンがキャプチャされることで、同じシーンの様々なビューから立体ビデオを提供することができる。
奥行きマップ推定では、2つのカメラビュー内の画素間の対応点をどのような方法で確実に検出するかが課題となる。通常、カメラビューは修正されてもよく、対応点は水平線上で発生するように制限される。このような対応関係は視差と呼ばれる。視差マップ(修正された2つの画像ビュー内の画素間の対応点)を検出するプロセスは、ステレオマッチングと呼ばれる。一部のステレオマッチング手法では、実世界のステレオ像に関する特定の問題に対処するために、局所的又は全体的な最適化基準が適用されるが、この基準は適用例ごとにいくつかの制約を受ける。
多くのステレオマッチングアルゴリズムは、視差範囲内の一致を探索する。任意の立体像に対して正しい視差探索範囲を選択することは、困難な作業になり得る。これは特に、手動による範囲選択があまり現実的でない実世界及び屋外での適用例に当てはまる。選択した探索範囲が狭すぎる場合、推定視差の質が不必要に低下する可能性がある。さらに、ステレオマッチングの範囲が広すぎる場合(制約がない場合など)、計算複雑性が不必要に増加する可能性がある。最新のステレオマッチング技術の複雑性は、求められる視差レベル(仮定)の数値に線形従属する場合がある。事前選択された視差範囲を用いても、シーンのキャプチャ(立体写真又はビデオの撮影など)中にシーンが変更され、その結果、用いられた(事前選択された)視差範囲が変更される場合がある。
摘要
本発明は、画像ペアを低解像度の画像ペアにダウンサンプリングし、さらに少なくとも画像ペアの画素のサブセット間の推定視差を表す視差画像を取得することができる、画像処理を行うための装置、方法及びコンピュータプログラムに関する。視差推定の信頼度を取得して、信頼度マップ内に挿入してもよい。画素位置の空間的近傍を用いて視差画像及び信頼度マップの両方をフィルタリングすることによって、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得してもよい。フィルタリングされた視差画像及び信頼度マップから、画像ペアの推定視差分布を取得してもよい。
一部の実施形態は、修正された立体ビデオコンテンツに対する、コンテンツに依存しない自動的な視差範囲選択アルゴリズムを提供する。
本発明の一部の実施形態は、ピラミッド手法を用いる。ただし、視差範囲の決定に信頼度を用いるだけでなく、第1の視差推定及び信頼度マップの空間的フィルタリングを適用して、外れ値を効果的に除去してもよい。その結果、2〜3層のみが必要となり得る。一部の実施形態で用いられるピラミッドの層は2つのみである。
以下では、本発明の一部の実施形態に係る視差範囲推定のいくつかの特徴について簡単に説明する。
一定複雑性の差分絶対値和(SAD)マッチングを用いることで、計算複雑性にほぼ影響を与えないか、又は全く影響を与えることなく、マッチングウィンドウサイズを変更することが可能になる。
いくつかの層から成るピラミッドの代わりに、単一のダウンサンプリングステップを用いてもよい。これにより、手順の作用が予測可能になり、かつ安定し得る。また、ダウンサンプリング係数を変更することによって、計算速度を調整することもできる。
より効果的に外れ値を除去するために、初期の視差推定で好適な空間的フィルタリングを用いてもよい。
連続するビデオフレームに特別な時間的フィルタリングを適用しない、時間的に一定な前提条件を利用してもよい。
本発明の様々な態様は、独立請求項に記載されている内容を特徴とする方法、装置、コンピュータプログラム、エンコーダ及びデコーダを含む。本発明の様々な実施形態は、従属請求項に開示されている。
第1の態様によれば、
入力画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングするステップと、
少なくとも第1の画像の画素のサブセットと少なくとも第2の画像の画素のサブセットとの間の視差を視差画像内に推定するステップと、
少なくとも視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定するステップと、
視差画像及び信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得するステップであって、前記フィルタリングが、フィルタリングされる画素の画素位置の空間的近傍を用いる、ステップと、
フィルタリングされた視差画像及びフィルタリングされた信頼度マップから前記画像ペアの視差分布を推定するステップと、を含む方法が提供される。
第2の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置が提供され、少なくとも1つのメモリ及びコンピュータプログラムコードは、少なくとも1つのプロセッサと共に用いられた場合、装置が少なくとも、
入力画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングするステップと、
少なくとも第1の画像の画素のサブセットと少なくとも第2の画像の画素のサブセットとの間の視差を視差画像内に推定するステップと、
少なくとも視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定するステップと、
視差画像及び信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得するステップであって、前記フィルタリングが、フィルタリングされる画素の画素位置の空間的近傍を用いる、ステップと、
フィルタリングされた視差画像及びフィルタリングされた信頼度マップから前記画像ペアの視差分布を推定するステップと、を実施するように構成される。
第3の態様によれば、1つ以上の命令から成る1つ以上のシーケンスを含むコンピュータプログラムであって、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が少なくとも、
入力画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングするステップと、
少なくとも第1の画像の画素のサブセットと少なくとも第2の画像の画素のサブセットとの間の視差を視差画像内に推定するステップと、
少なくとも視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定するステップと、
視差画像及び信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得するステップであって、前記フィルタリングが、フィルタリングされる画素の画素位置の空間的近傍を用いる、ステップと、
フィルタリングされた視差画像及びフィルタリングされた信頼度マップから前記画像ペアの視差分布を推定するステップと、を実施するコンピュータプログラム製品が提供される。
第4の態様によれば、
画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングするように適合されたダウンサンプラと、
少なくとも第1の画像の画素のサブセットと少なくとも第2の画像の画素のサブセットとの間の視差を視差画像内に推定するように適合された視差推定器と、
少なくとも視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定するように適合された信頼度推定器と、
視差画像及び信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得するように適合されたフィルタであって、前記フィルタリングが、フィルタリングされる画素の画素位置の空間的近傍を用いる、フィルタと、
フィルタリングされた視差画像及びフィルタリングされた信頼度マップから前記画像ペアの視差分布を推定するよう適合された視差分布推定器と、を備える装置が提供される。
第5の態様によれば、
画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングする手段と、
少なくとも第1の画像の画素のサブセットと少なくとも第2の画像の画素のサブセットとの間の視差を視差画像内に推定する手段と、
少なくとも視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定する手段と、
視差画像及び信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得する手段であって、前記フィルタリングが、フィルタリングされる画素の画素位置の空間的近傍を用いる、手段と、
フィルタリングされた視差画像及びフィルタリングされた信頼度マップから前記画像ペアの視差分布を推定する手段と、を備える装置が提供される。
第6の態様によれば、請求項1から12のいずれか一項に記載の方法を実施するための手段を備える装置が提供される。
様々な実施形態に関する理解を深めるために、以下の添付図面を例として参照する。
立体カメラ設備の簡略化された2Dモデルを示す図である。 マルチビューカメラ設備の簡略化されたモデルを示す図である。 マルチビュー自動立体ディスプレイ(ASD)の簡略化されたモデルを示す図である。 DIBRに基づく3DVシステムの簡略化されたモデルを示す図である。 飛行時間に基づく奥行き推定システムを示す図である。 飛行時間に基づく奥行き推定システムを示す図である。 一実施例による装置の簡略化されたブロック図である。 図8a及び8bは左画像及び右画像に基づいて視差マップを形成する一実施例を示す図である。 図9aから9hはエリア総和テーブルアルゴリズムを用いる一実施例を示す図である。 一部の実施形態を実施するために好適な電子デバイスの概要を示す図である。 一部の実施形態を実施するために好適なユーザ機器の概要を示す図である。 無線及び有線ネットワーク接続を用いる実施形態を実施するための電子デバイスの概要をさらに示す図である。 一実施例に係る方法を示す流れ図である。
詳細説明
次に、実施形態について理解するために、3次元(3D)マルチビューの適用例の一部の態様、並びにそれらと密接に関連する奥行き及び視差情報の概念について簡単に説明する。
立体ビデオコンテンツは、視聴者の左右の眼に別々に映るオフセット画像ペアから成る。これらのオフセット画像は特定の立体カメラ設備を用いてキャプチャされる。この設備は、カメラ間に特定のステレオ基線距離が確保されていることを前提とする。
図1は、このような立体カメラ設備の簡略化された2Dモデルを示している。図1のC1及びC2は立体カメラ設備のカメラ、より具体的にはカメラの中心位置を指している。bは2つのカメラの中心間の距離(すなわち、ステレオ基線)、fはカメラの焦点距離、Xはキャプチャされる現実の3Dシーン内の対象物である。実世界の対象物Xは、カメラC1及びC2によってキャプチャされる画像内の異なる位置x1及びx2にそれぞれ投影される。画像の絶対座標に基づくx1とx2との間の水平方向の距離は、視差と呼ばれる。カメラ設備によってキャプチャされる画像は立体画像と呼ばれ、これらの画像内の視差が奥行きの錯覚を作り出したり、強調したりする。画像が視聴者の左右の眼に別々に映るようにするには、通常、視聴者が特定の3D眼鏡を用いる必要がある。視差の適合は、立体ビデオコンテンツを様々なディスプレイで快適に視聴できるよう調整するために重要となる。
ただし、視差の適合は単純なプロセスではなく、基線距離が異なる(すなわちbが異なる)追加のカメラビュー、又は実世界で入手できなかった仮想カメラビューのレンダリングを必要とし得る。図2は、この問題の解決に適したマルチビューカメラ設備の簡略化されたモデルを示している。この設備では、値が異なる様々な立体基線を用いてキャプチャされた立体ビデオコンテンツを提供することができるため、立体ディスプレイが視聴条件に合ったカメラペアを選択することが可能になる。
3Dビジョンを実現するためのより高度な手法は、眼鏡を必要としないマルチビュー自動立体ディスプレイ(ASD)を用いることである。ASDは一度に2つ以上のビューを放射するが、その放射は空間内で局所化され、特定の視点から見た視聴者には1つのステレオペアのみが表示される。図3に示すように、最も右の視点で見た場合、ボートはビューの中心に表示される。さらに、視聴者は異なる視点から別のステレオペアを見ることもできる。図3の例で言えば、最も左の視点で見た場合、ボートはビューの右の境界に表示される。したがって、連続するビューがステレオペアであり、かつこれらのビューが適切に配列されている場合、運動視差表示がサポートされる。ASD技術は、例えば52個以上の異なる画像を同時に表示することができ、このとき視聴者は特定の視点から1つのステレオペアのみを見ることができる。これにより、リビングルーム環境などで複数の視聴者が眼鏡を用いることなく3Dビジョンを得ることが可能になる。
奥行き画像に基づくレンダリング(DIBR)では、立体ビデオ及びそれに対応する、立体基線を含む奥行き情報が入力として受け取られ、複数の仮想ビューが2つの入力ビュー間で合成される。したがって、DIBRアルゴリズムを用いることで、2つの入力ビューの外側に位置し、かつこれらの間に位置しないビューの外挿が可能になり得る。同様に、DIBRアルゴリズムを用いることで、テクスチャの単一ビュー及びその奥行きビューからビューを合成でき得る。
図4は、DIBRに基づく3DVシステムの簡略化されたモデルを示している。3Dビデオコーデックの入力は、立体ビデオ及びそれに対応する、立体基線b0に基づいた奥行き情報を含む。この3Dビデオコーデックは、基線(bi<b0)に基づいて複数の仮想ビューを2つの入力ビュー間で合成する。DIBRアルゴリズムを用いることで、2つの入力ビューの外側に位置し、かつこれらの間に位置しないビューの外挿が可能になり得る。同様に、DIBRアルゴリズムを用いることで、テクスチャの単一ビュー及びその奥行きビューからビューを合成でき得る。ただし、DIBRに基づくマルチビューレンダリングを可能にするには、デコーダ側でテクスチャデータ及び対応する奥行きデータが利用可能である必要がある。
このような3DVシステムにおいて、奥行き情報は、ビデオフレームごとの奥行き図(奥行きマップとしても知られる)としてエンコーダ側で生成される。奥行きマップは、画素単位の奥行き情報を含む画像である。奥行きマップ内の各サンプルは、カメラが配置された平面からそのテクスチャサンプルまでの距離を表す。すなわち、z軸がカメラの撮影軸に沿っている(したがって、カメラが配置された平面に直交している)場合、奥行きマップ内のサンプルはz軸上の値を表す。
奥行き情報は様々な手段で取得することができる。例えば3Dシーンの奥行きは、キャプチャを実行するカメラによって登録された視差から計算してもよい。奥行き推定アルゴリズムは、立体ビューを入力として受け取り、そのビューの2つのオフセット画像間の局所的な視差を計算する。各画像の処理は、画素1つ1つの重複するブロック内で実行され、各画素ブロックに対して、オフセット画像内で一致するブロックを検出するために水平方向に局所化された探索が実行される。画素単位の視差が計算された後、対応する奥行き値zが以下の数式(1)によって計算される。
Figure 0006158929
図1に示すように、fはカメラの焦点距離、bはカメラ間の基線距離である。さらに、dは2つのカメラ内の対応する画素間の推定視差、又は2つのカメラ内の対応する画素間の推定視差と考えてもよい。カメラオフセットΔdは、2つのカメラの光軸間で発生し得る水平方向の位置ずれ、又は事前処理によってカメラフレーム内で発生し得る水平方向のクロッピングを反映するものと考えてもよい。
ISO/IEC国際規格23002−3に規定されたパララックスマップなどの視差マップ又はパララックスマップを奥行きマップと同様の方法で処理してもよい。奥行き及び視差は直接的な対応関係を有するため、上記の数式によって一方から他方を計算し得る。
テクスチャビューは、一般的なカメラを用いてキャプチャされたものなどの一般的なビデオコンテンツを表すビューであり、通常はディスプレイへのレンダリングに適している。
左右の画像を比較することによって視差マップを生成し、最良の一致を検出することは、必ずしも単純な作業ではない。立体カメラ設備では、左カメラによって生成される画像と右カメラによって生成される対応画像との間に多くの類似点が存在するが、カメラの位置にあまり差がない(基線が短い)ため、左右の画像間にいくつかの違いが生まれる。さらに、シーン内の最前面にある対象物によって、一方の画像に表示されているいくつかの細部が隠され、他方の画像にそのような細部が含まれない場合がある。この現象は、遮蔽(オクルージョン)又は遮蔽された細部と呼ばれる。さらに、一方の画像の垂直縁に近い細部は、他方のカメラの視野角から外れる場合がある。例えば、左画像の左縁に表示されるいくつかの細部は、右画像に表示されない場合がある。また、右画像の右縁に表示されるいくつかの細部は、左画像に表示されない場合がある。したがって、そのような領域の視差を決定することは不可能になり得る。
一部の実施形態では、遮蔽マップを生成して、ステレオペアの一方の画像に対して、ステレオペアの他方の画像に表示されない部分を示してもよい。また、遮蔽マップを用いて、視差マップ内で正しくない値を決定してもよい。
視差マップ及び遮蔽マップに加え、信頼度マップを計算して、視差マップの視差値の信頼度を示してもよい。
以下では、一部の実施例についてさらに詳しく説明する。これらの実施例では、同じシーンからキャプチャする2つの異なる画像又は画像シーケンス(ビデオストリームなど)の供給源として、ステレオカメラ設備が用いられる。ただし、マルチビューの適用例にも同様の原理を適用することができる。画像の供給源は、メモリから取得したり、受信器によって受信したり、コンピュータプログラムによって生成したりすることも可能である。
以下では、2つの異なる画像を左画像及び右画像と呼ぶ場合があるが、本発明の実施形態はこのような配列のみに限定されない。すなわち、画像のキャプチャは、水平方向に整列されていない、例えば垂直方向に整列された2つのカメラによって行われてもよい。
図7の実施例では、装置700によって、第1のカメラ704から第1のカメラ信号702、第2のカメラ708から第2のカメラ信号706がそれぞれ受信される。図13のブロック100は、この処理を示している。信号702及び706は既にデジタル形式であってもよく、アナログ形式である場合は、アナログデジタル変換器(図示せず)によってデジタル信号に変換されてもよい。この実施例の設備では、第1のカメラ信号がシーンの左画像を伝達し、第2のカメラ信号がシーンの右画像を伝達する。ピクチャ又はフレームとも呼ばれる画像は画素マトリックスを備え、そこに含まれる各画素値が、画像の小部分の性質(輝度など)を表す。画素は、それぞれが異なる色成分を表す2つ以上の画素値を含んでいてもよい。例えば画素は、画像の画素位置における赤色、緑色及び青色の強度を表す3つの画素値又は成分値を含んでいてもよい。別の実施例では、画素が3つの画素値又は成分値を含み、1つは一般にY成分と呼ばれる輝度を表し、2つは一般にCb及びCr成分又はU及びV成分と呼ばれる色度を表してもよい。成分画素の配列は、ベイヤ配列などの空間的に交互に配置される形式であってもよい。
受信した画像ペアの画素値は、さらなる処理のためにフレームメモリ710内に記憶してもよいし、直接さらなる処理ステップに提供してもよい。画像のコンテンツはシーンカット検出器712によって分析され、前の画像がある場合はその画像と比較される。これにより、画像が前のシーケンスの一部であるか、又は新しい画像シーケンスの開始部分であるかが判定される(ブロック102)。この判定は、画像ペアの一方のフレームに基づいて(すなわち、左画像又は右画像に基づいて)行ってもよいし、左画像及び右画像の両方に基づいて行ってもよい。新しい画像シーケンスが開始されるのは、例えば画像シーケンス内にシーンカットが含まれる場合である。ライブキャプチャプロセスでは、装置700が受信する画像情報を生成するカメラペアの変更により、シーンカットが発生し得る。
装置の範囲定義要素714は、視差を分析する目的で、画像の視差を特定するための初期探索範囲を定義する。範囲定義要素714は、輝度成分画素から成る画像などの1つの成分画像を用いて処理を実行してもよいし、2つ以上の成分画像を共に用いてもよい。2つ以上の成分画像を用いる場合、画素単位の差分絶対値などを求める画素単位の演算を、成分の種類ごとに独立して実行してもよく、画素単位の演算結果の平均値又は合計値を後続の処理で用いてもよい。画素単位の差分を用いる状況では、常に代替方法として、N次元空間(Nは成分画像の数と等しくてもよい)のユークリッド距離又は他の距離測定値を導出してもよい。シーンカット検出手段712によって、画像ペアが新しい画像シーケンスの開始部分であると判定された場合、範囲定義手段714は、既定の探索範囲を選択してもよい(ブロック104)。この範囲は可能な限りの最大探索範囲であってもよいし、最大探索範囲より小さい別の探索範囲であってもよい。それ以外の場合、範囲定義手段714は、前の画像の分析で用いられたものと同じ探索範囲を利用してもよい。したがって、前の探索範囲にマージンが追加されたものを用いてもよい(ブロック106)。一部の実施形態では、マージンが10画素、15画素、20画素又は他の好適な値であってもよい。マージンは上端及び下端の両方で一致している必要はなく、互いに異なっていてもよいことに留意されたい。マージンで拡張され得る前の探索範囲の利用は、通常は単一のシーンカット内で視差コンテンツが大幅に変更されないという前提に基づいている。さらに、異なる実施形態では異なるマージンを用いることができ、画像の解像度又は画像の他の1つ以上のパラメータが変更されたときなどにマージンを変更してもよい。
範囲の設定に加え、複雑性推定器716などによってマッチング複雑性を推定してもよい(ブロック108)。一般に、ステレオマッチング方法の計算複雑性は、潜在的な視差層の数に線形従属してもよいし、空間的解像度に線形従属してもよい。ステレオマッチング手順の大まかな推定計算時間は、A×D×Mと定義してもよい。Aは特定のプラットフォームの計算能力及び特定のマッチングアルゴリズムの複雑性を示すパラメータ、Dは視差層の数、Mはフレーム内の画素数である。D及びMの値を変更する(視差を粗くし、ダウンサンプリングする)ことで、バランスを維持することができる。Mを変更することによってDが変更されてもよい。
複雑性推定器716によって、推定マッチング複雑性が事前定義された制限値を超えると判定された場合、ダウンサンプリング比を上げて(ブロック110)、複雑性(すなわち、計算時間)をほぼ一定にしてもよい。推定複雑性が許容値よりも大幅に低い場合は、ダウンサンプリング比を下げて(ブロック112)ロバスト性を向上させてもよい。
一部の実施形態では、まずダウンサンプリングが全く実行されないことを示す値(1など)をダウンサンプリング比に設定し、複雑性推定器716によって、推定マッチング複雑性が事前定義された制限値を超えると判定された場合に、ダウンサンプリング比を上げてもよい。
ダウンサンプリング比が決定され、ダウンサンプリングが実行される必要があることを示している場合、ダウンサンプラ718内で、左画像及び右画像がダウンサンプリング比に従ってダウンサンプリングされる(ブロック114)。ダウンサンプラ718は、左画像及び右画像のダウンサンプリングされた画像、すなわち解像度が元の左画像及び右画像よりも低い画像を生成する。ダウンサンプラ内では、任意のダウンサンプリングアルゴリズムを用いてもよい。ダウンサンプリングされた画像は、フレームメモリ710内に記憶してもよい。一部の実施形態では、フレームメモリ710内に記憶された元の画像はダウンサンプリングの影響を受けないが、ダウンサンプリングされた画像をフレームメモリ710の異なる部分に記憶してもよい。
視差推定器720は、ダウンサンプリングされた画像を用いて現在の画像ペアの視差推定を取得する(ブロック116)。視差推定器720及びブロック116は、ステレオマッチングアルゴリズム又は奥行き推定アルゴリズムとも呼ばれる任意の視差推定アルゴリズムを用いてもよい。例えば、視差推定器720及びブロック116は、ステレオペア(左画像及び右画像)間の対応点をサンプル単位又はウィンドウ単位で検出する局所的なマッチングアルゴリズムを用いてもよい。他の実施例では、視差推定器720及びブロック116が、奥行きマップの平滑性及び奥行きエッジの連続性などの選択された前提条件に基づいてコスト関数を最小化し得る、全体的な最適化アルゴリズムを用いてもよい。
一部の実施形態では、視差推定器720が、初期範囲制限値による制約を受けて(ダウンサンプリング比を考慮して)事前定義されたウィンドウサイズを用いる、複雑性がO(1)の差分絶対値和(SAD)ステレオマッチングを適用する。
立体ブロックマッチングの一部の実装は、ウィンドウ(ブロック)サイズに関して線形の(O(N))複雑性を有する。すなわち、ブロックマッチングの実行に必要な時間が、ウィンドウサイズの増加に比例して長くなる。本発明の一部の実施形態では、エリア総和テーブル(SAT)を用いて、マッチング複雑性がマッチングウィンドウサイズに関して実質的に一定になるようにしてもよい。すなわち実装が、マッチングウィンドウサイズが事前定義されている場合はO(1)若しくはO(1)に近い複雑性を有し、又はNがマッチングウィンドウサイズに比例するO(N)若しくはO(N)に近い複雑性を有するようにしてもよい。このようなマッチング手法を利用するもう1つの理由は、結果として得られる視差マップを最終的なフル解像度の視差推定に用いる必要がなく、したがって視差マップが完全に整列されている必要がないためである。
視差マップの推定は、左から右(すなわち、左画像を参照画像として用いる)、右から左(すなわち、右画像を参照画像として用いる)又はこれらの両方の方向で実行してもよい。両方の方向を用いた場合、一方の画像のどの部分が他方の画像から遮蔽されているかを、より確実に判定することができる。これは、そのような部分の一対一の対応点が、両方の方向ではなく一方向のみで検出されるためである。
視差推定器720は、視差マップ生成プロセスで取得した情報を用いて、信頼度マップ及び/又は遮蔽マップを形成してもよい(ブロック118)。
以下では、視差マップを形成する実施例について、図8a及び8bを参照してより詳しく説明する。図8aは既定の探索範囲を用いる状況を示し、図8bは以前に定義された探索範囲を用いる状況を示している。これらの実施例はブロックマッチングアルゴリズムを例示しているが、他のアルゴリズムを用いてもよい。また以下では、最初に左から右への探索が実行されることを前提とする。すなわち、左画像のブロックを基準ブロックとして選択し、右画像のブロックを用いて、対応するブロックを右画像から検出する。ただし、最初に右から左への探索を実行することもできる。左から右への探索では、視差推定器720が、左画像802からサイズM×Nのブロック803を選択し、右画像804から同じサイズのブロック805を探索することによって、左画像の選択されたブロックと最も対応しているブロックを右画像から検出する。可能なブロックサイズには、1×1(すなわち1つの画素のみ)、2×2、3×3、4×4、5×5、8×8、7×5などがある。
探索は画像領域全体ではなく、特定の範囲内、すなわち探索範囲806内に限定してもよい。探索範囲806には、上述のように、初期探索範囲を用いてもよいし、前の探索範囲を用いてもよい。ブロックマッチング手順では、プロセスを速めるために、さらにいくつかの前提条件を設けてもよい。平行なカメラ設備を用いて左から右への探索を実行する場合、右画像内の対応するブロック(存在する場合)は、左画像内の基準ブロックの位置と同じ右画像内の位置か、または基準ブロックの位置よりも左に存在すると考えることができる。したがって、基準画像の該当する位置よりも右にあるブロックは分析する必要がない。この前提条件は、対象の画像が、水平方向に整列された2つの位置からキャプチャされた同じシーンを表す場合、左画像内に表示される対象物は、右画像内でそれよりも左(又は同じ位置)に表示されるという事実に基づいている。さらに、水平方向に整列されたブロック、すなわち基準ブロックと垂直位置が同じブロックのみを分析すれば十分であると考えることもできる。画像が水平方向に整列された異なる位置からではなく、例えば垂直方向に整列された位置又は対角線状に整列された位置からキャプチャされた同じシーンを表す実施形態では、探索範囲を異なる方法で定義する必要があり得る。
視差推定器720は、左画像内の基準ブロックに対応する右画像内のブロックを、例えば以下のように決定してもよい。視差推定器720は、それぞれの値が基準ブロック内の画素値の及び評価対象ブロック(すなわち、この実施例では右画像内のブロック)内の対応する画素値の差分絶対値を表すSAD画像を形成してもよい。異なる視差値には異なるSAD画像を定義してもよい。図9aは元の左画像の一部の実施例を示し、図9bは元の右画像の一部の実施例を示している。明確にするために、画像のサイズには5×5を用いているが、実際の実装では異なるサイズを用いてもよい。図9cは元の左画像及び元の右画像の画素値に基づいて計算された、視差が0のSAD画像、すなわち差分絶対値が左画像及び右画像内の同じ位置にある画素値間で計算されたSAD画像を示している。この計算は数式AD(x,y)=abs(L(x,y)−R(x,y))で表すことができる。このとき、L(x,y)は左画像内の位置x,yにある画素値を表し、R(x,y)は右画像内の位置x,yにある画素値を表す。図9dは元の左画像及び元の右画像の画素値に基づいて計算された、視差が1のSAD画像、すなわち差分絶対値が水平方向に1ずれた画素値間で計算されたSAD画像を示している。この計算は数式AD(x,y)=abs(L(x,y)−R(x+1,y))で表すことができる。同様の方法で、視差範囲内の他のSAD画像を取得してもよい。
SAD画像を用いて、以下のように積分SAD画像900(別名エリア総和テーブル、SAT)を計算してもよい。この計算はSAD画像の左上隅から右下隅に向かって実行することを前提としているが、他の方向を用いてもよい。積分SAD画像の最も上の行にある最も左の要素は、SAD画像の最も上の行にある最も左の要素の差分絶対値を取得する。最も上の行にある次の値は最も左にある要素の値の和を取得し、次の要素である第3の要素は画像の第1の要素、第2の要素及び第3の要素の差分絶対値和を取得する。すなわち、SAD画像内にある特定の画素の差分絶対値(差分絶対値和テーブルの要素)がa(i,j)として示され(iは行インデックス、jは列インデックスを示す)、SAD画像内の対応する値がs(i,j)として示される場合、以下の数式が適用される。
Figure 0006158929
通常、SAD画像の要素の値は以下の数式によって取得することができる。
Figure 0006158929
すなわち値s(i,j)は、i及びjによって定義されたSAD画像の領域内にある値の和に対応している。
図9eは図9c(すなわち視差が0)のSAD画像の積分SAD画像を示し、図9fは図9d(すなわち視差が1)のSAD画像の積分SAD画像を示している。
積分SAD画像900を探索範囲内の各画素に用いることによって、最小差分絶対値和を提供する視差値を求めることができる。以下では、図9g及び9hを参照しながら、SAD値を決定する実施例について説明する。この実施例は、探索ウィンドウの画素が3×3であること、及び左画像の中心にある画素(図9g及び9hでは参照符号920)が分析対象であることを前提としている。すなわち、この実施例における画素の座標値はx=2,y=2となる。この特定の画素920の探索範囲は、図9g及び9hでは正方形922によって示されている。この画素のSAD値は、積分SAD画像内の4つの要素の値に基づき、例えば以下のように計算することができる。第1の値は、探索ウィンドウの右下隅にある要素924の値とみなすことができる。第2の値は、探索ウィンドウの左上隅に対して斜めに隣接している要素926の値とみなすことができる。第3の値は、第1の値と同じ列かつ第2の値と同じ行にある要素928の値とみなすことができる。第4の値は、第1の値と同じ行かつ第2の値と同じ列にある要素930の値とみなすことができる。これら4つの値を組み合わせて、第1の値924及び第2の値926の合計を求め、そこから第3の値928及び第4の値930を減算する。この計算は以下の数式で表すことができる。
SAD(x, y) = s(x+r, y+r) + s(x-r, y-r) - s(x-r, y+r) - s(x+r, y-r)
(ただしrは探索ウィンドウのサイズ)
図9gに示された(視差が0の)積分SAD画像の実施例ではSAD=37になり、この値を探索ウィンドウ内の画素数(この実施例では9)で除算した結果は4.111になる。したがって、図9hに示された(視差が0の)積分SAD画像の実施例ではSAD=2になり、この値を探索ウィンドウ内の画素数で除算した結果は0.222になる。これら2つの実施例に基づき、より小さいSAD値を提供する視差1を選択することができる。
上記の手順を視差範囲内の各視差値に対して繰り返してもよい。例えば、図9a及び9bの画像の第3の行にある第4の画素(3,2)の視差値を視差0で評価した場合の結果は、SAD=117/9=13というSAD値になる。視差が1の場合、積分SAD画像の右エッジに有効値が含まれないため、異なるサイズの探索ウィンドウが必要になる場合がある。探索ウィンドウのサイズとして1×3を用いた場合、SAD=2/3になる。したがって、画素(3,2)に対しても視差値1を選択することができる。
フレーム(又はピクチャ)のエッジ付近にある画素の視差を評価するとき、上述のように、より小さいサイズの探索ウィンドウを用いる必要があり得る。
一部の実施形態では、探索ウィンドウが図9g及び9hのように左右対称であり、かつ奇数の列及び行を有するが、他の一部の実施形態では、探索ウィンドウが左右対称ではなく、及び/又は偶数の行及び/又は列を備えていてもよい。
取得された画素の視差値は視差マップとして記憶されてもよい。
一部の実施形態では、対応するブロックが誤検出される可能性を低減するために、閾値を定義してもよい。例えば、閾値を最小差分絶対値和と比較し、その値が閾値を超えている場合、視差推定器720は、最小差分絶対値和を生成したブロックが正しいブロックではない可能性があると判定してもよい。このような状況では、探索ブロックが右画像内に対応するブロックを有さない、すなわちブロックが右画像内で遮蔽されているか、又はブロックが左画像のエッジ付近にあると推測してもよい。
上述の演算を左画像内のすべての画素が分析されるまで、又は左画像の事前定義された領域が分析されるまで繰り返してもよい。上述の演算は、基準ブロックのウィンドウをずらしていく形式で繰り返されてもよいことを理解されたい。すなわち、次の反復の基準ブロックが部分的に前の反復の基準ブロックと重複してもよい。例えば、上述の演算を反復して視差マッチングを実行するたびに、基準ブロックの位置を水平方向に1画素ずらしてもよい。
一部の実施形態では、右画像を基準画像、左画像を参照画像として用いて(すなわち、最初に右から左への探索を実行して)別の視差マップを生成してもよい。これらの視差マップは左視差マップ及び右視差マップと呼ばれることもある。
左視差マップ及び右視差マップの生成中又は生成後に信頼度マップを決定してもよい。信頼度マップは差分絶対値和の情報を利用して、対応するブロックの決定の信頼度を判定する(例えば、最小差分絶対値和が小さくなるほど、検出の信頼度は高くなる)。信頼度マップの判別に2つの視差マップを利用して、一対一の対応点を有する画素及び一対一の対応点を有さない画素を検出してもよい。この文脈において一対一の対応点という用語は、互いに対応していることが両方の視差マップによって示された、左画像及び右画像内の画素ペアを意味する。一方の画像内に一対一の対応点を有さない画素がある場合、そのような画素は他方の画像内に対応するブロックを有さない(すなわち、画素が他方の画像内の遮蔽された領域に属する)か、又は対応する画素を何らかの理由で他方の画像から検出できなかった可能性がある。
遮蔽マップは2つの視差マップによって提供された情報及び/又は信頼度マップによって提供された情報を用いて形成されてもよい。
視差マップ、信頼度マップ及び遮蔽マップが取得されたら、空間的フィルタリングを視差マップ及び信頼度マップに適用することができる(ブロック120)。一部の実施形態では、空間的フィルタリングが、視差推定の外れ値を除去するための非線形空間的フィルタリングを含む。この手法を用いることで、初期の推定視差ヒストグラム内の外れ値数を低減することができ得る。このステップによって、その後実行されるヒストグラムの閾値設定動作もさらに安定するため、アルゴリズムがコンテンツにほぼ依存しない状態になる。
ロバスト性を確保するには、空間的フィルタを選択すべきである。例えば、5×5などの特定のウィンドウサイズに基づく2D中央値フィルタリングを用いてもよい。クロスバイラテラルフィルタリングなどの、より包括的なフィルタリングも実行可能である。
視差マップ及び信頼度マップのフィルタリング後、左から右への対応関係などを用いて遮蔽マップを再計算してもよい。
推定視差マップ内の外れ値を破棄するときに、信頼度が高い/信頼度が低い推定対応点を選択してもよい。信頼度はピーク比及び遮蔽マップを組み合わせて計算してもよく、この場合遮蔽されたゾーンの信頼度は0となり、他の領域の信頼度は、それぞれのピーク比特性に応じて0から1の間で変化する。
信頼度マップが更新されたら、一致信頼度が高い画素から視差ヒストグラムを計算してもよい。
推定視差マップ内の潜在的な外れ値は、視差マップ及び信頼度マップの両方の空間的フィルタリングによって除外されてもよい。両方(左及び右)の視差マップが上記のプロセスで変更された後、遮蔽マップの再計算が必要になる場合がある。したがって、フィルタリングされた信頼度マップを更新された遮蔽マップと再度組み合わせて、最終的な信頼度マップを形成してもよい。
信頼度が高いとみなすことができる視差マップ内の要素を決定するために、信頼度閾値を定義してもよい。この場合、信頼度マップ内の信頼度値が閾値を超える要素は、信頼度が低いとみなしてもよい。一部の実施形態では、信頼度閾値として0.1を選択し、その特定の適用例に応じて値を最適化することができる。
視差ヒストグラムは、視差マップ内の一致信頼度が高い画素に基づいて計算してもよい。推定視差制限値を取得するために、視差ヒストグラムに対する閾値設定プロセスを用いてもよい(ブロック122)。例えば、ヒストグラム内の発生頻度が低い視差値が破棄される場合、発生頻度が低いかどうかの判断は、事前定義された又は適応的に計算された閾値に関連して行われる。閾値は、ヒストグラム内の合計インライア数の小数(インライア数の0.2など)として計算されてもよい。閾値設定後の最大及び最小視差値を、求められる視差範囲制限値とみなしてもよい。このプロセスでは「ガード」間隔を用いてもよい。この間隔は必要に応じて、検出された最大視差制限値に加算され、かつ検出された最小視差制限値から減算される。本発明の一部の実施形態では、画像のコンテンツとは無関係に単一の固定閾値を用いてもよい。
検出された視差制限値は、その後ダウンサンプリング比の係数によって補正されてもよい。
上述のプロセスでは、画像の視差制限値を検出する方法が提供される。その後、検出された視差制限値に基づく視差/奥行き推定アルゴリズムを、フル解像度のステレオフレームに対して適用することができる。例えば、フル解像度に対するステレオマッチング又は視差/奥行き推定の視差探索範囲は、検出された最小視差から検出された最大視差までの範囲を網羅するように設定することができる。推定視差/奥行きマップは、例えば立体画像/ビデオ圧縮に利用したり、後で用いるために保存したりしてもよい。
上述のプロセスは、新しい画像が存在するか、又は処理が停止されるまで繰り返してもよい(ブロック124)。
本発明の多くの実施形態は比較的正確な視差範囲推定を提供するため、変更/パラメータ最適化を必要とすることなく、ほぼ全ての立体ビデオコンテンツに適用することができる。
立体ビデオなどの画像ペアの入力シーケンスはフレーム単位で処理してもよいため、ストリーミングを用いた適用例が実現される。
奥行きビューは、カメラセンサからテクスチャサンプルまでの距離情報、テクスチャサンプルと別のビュー内にあるそのテクスチャサンプルとの間の視差若しくはパララックス情報、又は類似の情報を表すビューである。奥行きビューは通常、テクスチャビューの輝度成分に類似した1つの成分を有する奥行き図(別名奥行きマップ)を備える。奥行きマップは画素単位の奥行き情報又は類似の情報を含む画像である。例えば、奥行きマップ内の各サンプルは、カメラが配置された平面からそのテクスチャサンプルまでの距離を表す。すなわち、z軸がカメラの撮影軸に沿っている(したがって、カメラが配置された平面に直交している)場合、奥行きマップ内のサンプルはz軸上の値を表す。奥行きマップ値の語義には、例えば以下のようなものが含まれる。
1.符号化された奥行きビュー成分内の各輝度サンプル値が、実世界の距離(Z)値の逆数、すなわち1/Zが輝度サンプルのダイナミックレンジ(8ビット輝度表現の場合は0から255の範囲)に正規化されたものを表す。
2.符号化された奥行きビュー成分内の各輝度サンプル値が、実世界の距離(Z)値の逆数、すなわち1/Zが、マッピング関数f(1/Z)又は区分的線形マッピングなどのテーブルを用いて輝度サンプルのダイナミックレンジ(8ビット輝度表現の場合は0から255の範囲)にマップされたものを表す。言い換えれば、奥行きマップ値に関数f(1/Z)を適用した結果となる。
3.符号化された奥行きビュー成分内の各輝度サンプル値が、実世界の距離(Z)値が輝度サンプルのダイナミックレンジ(8ビット輝度表現の場合は0から255の範囲)に正規化されたものを表す。
4.符号化された奥行きビュー成分内の各輝度サンプル値が、現在の奥行きビューから別の指定又は導出された奥行きビュー又はビュー位置までの視差又はパララックス値を表す。
奥行きビュー、奥行きビュー成分、奥行き図及び奥行きマップなどの語句は様々な実施形態の説明に用いられるが、奥行きマップ値の任意の語義を、上述の実施形態を含むがこれらに限定されない様々な実施形態において用いてもよいことを理解すべきである。例えば、サンプル値が視差値を示す奥行き図に対して、本発明の実施形態を適用してもよい。
一部の実施形態では、奥行きマップのサンプル値のダイナミックレンジが、検出された視差制限値に基づいて選択される。例えば、検出された最小視差制限値が整数のa、検出された最大視差制限値が整数のbとしてそれぞれ示され、奥行き推定アルゴリズムが4分の1画素の精度又は解像度で実行される場合、奥行き推定プロセスでc=(b×a)×4+1に基づいて、異なる視差値が生成され得る。したがって、作成される奥行きマップ内ではt〜t+cのダイナミックレンジを用いてもよい。このとき、tはt>=0及びt+c<=符号化システム内の最大輝度サンプル値(例えば、8ビット輝度表現の場合は255)になるように選択されてもよい。一部の実施形態では、エンコーダがt及び/又はcの値、又は奥行きマップ値のダイナミックレンジを指定する類似の値を示すための1つ以上の指標をビデオビットストリーム内、例えばビデオパラメータセット構造、シーケンスパラメータセット構造、補足エンハンスメント情報メッセージ、又は他の任意の構文構造内にエンコードしてもよい。
符号化された奥行きマップを含むビットストリームを作成若しくは修正するエンコードシステム又は他の任意のエンティティは、奥行きサンプルの解釈及び奥行きサンプルの量子化スキームに関する情報を作成し、それをビットストリーム内に含めてもよい。奥行きサンプルの解釈及び奥行きサンプルの量子化スキームに関する情報は、ビデオパラメータセット構造、シーケンスパラメータセット構造、補足エンハンスメント情報メッセージ、又は他の任意のビデオビットストリームの構文構造内に含めてもよい。
一部の実施形態では、検出された視差制限値が、奥行き推定プロセスで作成された奥行きマップの最小値(例えば0)及び最大値(例えば、8ビット表現の場合は255)に対応していてもよい。さらに、ビットストリームを作成若しくは修正するエンコードシステム又は他の任意のエンティティが、ビデオビットストリーム内の奥行きマップ量子化レベルを(エンコード前に)示していてもよい。例えば、量子化ステップの分子及び分母がビットストリーム内で示されていてもよく、かつ分子及び分母に基づいて導出された非整数量子化レベルに事前定義又は指定された丸め規則を適用することによって、整数量子化レベルが求められてもよい。奥行きマップ値の量子化ステップサイズ及び/又は量子化レベルは、エンコーダ側で視差制限値に基づいて決定されてもよい。
多くの実施形態では、視差マップがマルチメディア又は他のビデオストリームのエンコード及び/又はデコード時、例えば予測情報の形成などに用いられてもよい。本発明の多くの実施形態は、再利用、仮想ビューの合成、3D走査、対象物の検出及び認識、現実シーンへの仮想対象物の埋込みなどにおいて実装されてもよい。
以下では、一部の実施形態を実装するための好適な装置及び想定される機構について、さらに詳しく説明する。この観点から、まず一部の実施形態に係る画像処理装置を備え得る、例示的な装置又は電子デバイス50の概略ブロック図である、図10を参照する。
電子デバイス50は、例えば、無線通信システムの携帯端末又はユーザ機器であってもよい。ただし、視差の特定及びステレオ又はマルチビュー画像処理を必要とし得る任意の電子デバイス又は装置内に実施形態を実装してもよいことを理解されたい。
図11に開示されているように、装置50はデバイスを内蔵及び保護するための筐体30を備えていてもよい。装置50は、液晶ディスプレイ、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイなどの形を取る、ディスプレイ32をさらに備えていてもよい。他の実施形態では、ディスプレイが情報の表示に適した任意の好適なディスプレイ技術であってもよい。装置50は、キー又は電子デバイスのタッチスクリーンを用いることによって実装し得る、キーパッド34をさらに備えていてもよい。他の実施形態では、任意の好適なデータ又はユーザインタフェース機構を用いてもよい。例えば、ユーザインタフェースは、タッチ感応ディスプレイの一部を成す仮想キーボード又はデータ入力システムとして実装してもよい。装置は、マイク36又はデジタル若しくはアナログ信号入力であり得る任意の好適な音声入力を備えていてもよい。装置50は、実施形態においてイヤホン38、スピーカー、又はアナログ音声若しくはデジタル音声出力接続であり得る音声出力デバイスをさらに備えていてもよい。また、装置50はバッテリー(図示せず)を備えていてもよい(又は、他の実施形態では、デバイスの電力源として太陽電池、燃料電池、ぜんまい式発電機などの任意の好適な携帯エネルギーデバイスを用いてもよい)。装置は、画像及び/又はビデオの記録又は取込みが可能なカメラ42をさらに備えていてもよい。一部の実施形態では、装置50がBluetooth(登録商標)無線接続、USB/ファイアワイヤ有線接続、又は短距離見通し線光接続用の赤外線ポートなど、任意の好適な短距離通信ソリューションをさらに備えていてもよい。
装置50は、装置50を制御するためのコントローラ56又はプロセッサを備えていてもよい。コントローラ56は、実施形態においてコントローラ56に実装するデータ及び/又は命令を記憶し得るメモリ58に接続されていてもよい。コントローラ56は、音声及び/又はビデオデータの符号化及びデコード、又はコントローラ56によって実行される符号化及びデコードの補助に適したコーデック回路54にさらに接続されていてもよい。
装置50は、ユーザ情報を提供し、かつネットワークでユーザを認証及び認可するために用いる認証情報の提供にも適した、例えばUICC及びUICCリーダなどのカードリーダ48及びスマートカード46をさらに備えていてもよい。
装置50は、コントローラに接続され、かつセルラー通信ネットワークとの通信、無線通信システム若しくは無線ローカルエリアネットワークとの通信、及び/又はBluetooth(登録商標)技術などを利用するデバイスとの通信に用いる無線通信信号の生成に適した、1つ以上の無線インタフェース回路52を備えていてもよい。装置50は、無線インタフェース回路52で生成された無線周波数信号を他の装置に伝送し、かつ他の装置からの無線周波数信号を受信するために、無線インタフェース回路52に接続されたアンテナ44をさらに備えていてもよい。
一部の実施形態では、装置50が、個々のフレームを記録又は検出することができるカメラを備え、それらのフレームは処理対象としてコーデック54又はコントローラに送られる。本発明の他の実施形態では、装置が処理対象のビデオ画像データを伝送及び/又は記憶する前に別のデバイスから受信してもよい。他の実施形態では、装置50が符号化/デコード対象の画像を無線又は有線接続によって受信してもよい。
図12は、実施形態を利用し得るシステムの実施例を示している。システム10は、1つ以上のネットワークを介して通信し得る複数の通信デバイスを備える。システム10は、以下に限定されないが、無線携帯電話ネットワーク(GSM(登録商標)、UMTS、CDMAネットワークなど)、何れかのIEEE 802.x規格によって定義されているものを含む無線ローカルエリアネットワーク(WLAN)、Bluetooth(登録商標)パーソナルエリアネットワーク、イーサネット(登録商標)ローカルエリアネットワーク、トークンリングローカルエリアネットワーク、ワイドエリアネットワーク、及びインターネットを含む、有線又は無線ネットワークの任意の組み合わせを備えていてもよい。
システム10は、本発明の実施形態の実装に適した有線及び無線の両方の通信デバイス又は装置50を含んでもよい。
例えば、図12に示すシステムは、携帯電話ネットワーク11及びインターネット28の表記を示している。インターネット28への接続は、以下に限定されないが、長距離無線接続、短距離無線接続、及び以下に限定されないが、電話線、ケーブル線、送電線、及び同様の通信経路を含む様々な有線接続を含んでもよい。
システム10に示す例示的な通信デバイスは、以下に限定されないが、電子デバイス又は装置50、携帯情報端末(PDA)及び携帯電話14の組み合わせ、PDA16、統合メッセージングデバイス(IMD)18、デスクトップコンピュータ20、ノートブックコンピュータ22を含んでもよい。装置50は、据え置き式のもの、又は移動している個人が搬送する場合には移動式のものであってもよい。装置50は、以下に限定されないが、自動車、トラック、タクシー、バス、電車、船、飛行機、自転車、単車、又は同様の好適な輸送手段を含む輸送手段の中に配置してもよい。
一部の又はさらなる装置は、呼び出し及びメッセージを送受信してもよく、基地局24への無線接続25を介してサービスプロバイダと通信してもよい。基地局24は、携帯電話ネットワーク11とインターネット28との間の通信を可能にするネットワークサーバ26に接続されていてもよい。システムは、追加の通信デバイス及び異なる種類の通信デバイスを含んでもよい。
通信デバイスは、以下に限定されないが、符号分割多重アクセス(CDMA)、GSM(登録商標)、ユニバーサル移動体通信システム(UMTS)、時分割多元アクセス(TDMA)、周波数分割多元アクセス(FDMA)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ショートメッセージングサービス(SMS)、マルチメディアメッセージングサービス(MMS)、電子メール、インスタントメッセージングサービス(IMS)、Bluetooth(登録商標)、IEEE 802.11、及び同様の無線通信技術を含む様々な伝送技術を用いて通信してもよい。様々な実施形態の実装に関与する通信デバイスは、以下に限定されないが、無線、赤外線、レーザー、ケーブル接続、及び任意の好適な接続を含む様々な媒体を用いて通信してもよい。
上記の実施例は、電子デバイス内のコーデックにおいて動作する本発明の実施形態について説明しているが、以下で説明するように、本発明は任意のビデオコーデックの一部として実装してもよいことを理解されたい。したがって、例えば本発明の実施形態は、固定通信経路又は有線通信経路を介したビデオ符号化を実装し得るビデオコーデック内に実装してもよい。
また、ユーザ機器が、上記の本発明の実施形態で説明したような画像処理手段を備えていてもよい。ユーザ機器という用語は、携帯電話、携帯データ処理デバイス又は携帯ウェブブラウザ、テレビ、コンピュータ用モニタ、カメラ、電子ゲームなど、あらゆる好適な種類のユーザ機器を網羅する目的で用いられていることを理解されたい。
さらに、公衆陸上移動体ネットワーク(PLMN)の要素も、上述のビデオコーデックを備えていてもよい。
一般には、様々な実施形態をハードウェア若しくは専用回路、ソフトウェア、ロジック、又はこれらの任意の組み合わせの中に実装してもよい。例えば、本発明がこれに限定されるわけではないが、一部の態様をハードウェア内に実装し、他の態様をコントローラ、マイクロプロセッサ又は他の計算デバイスによって実行され得るファームウェア若しくはソフトウェア内に実装してもよい。本発明の様々な態様は、ブロック図、フローチャート又は他の図形表記を用いて例示及び説明され得るが、本明細書で説明されているこのようなブロック、装置、システム、技術又は方法は、非限定的な実施例として、ハードウェア、ソフトウェア、ファームウェア、専用回路若しくはロジック、汎用ハードウェア若しくはコントローラ、他の計算デバイス、又はこれらの組み合わせの中に実装してもよいことが十分に理解されている。
本発明の実施形態は、携帯デバイスのデータプロセッサによって実行可能な、プロセッサエンティティ内などのコンピュータソフトウェア、ハードウェア、又はソフトウェア及びハードウェアの組み合わせによって実装してもよい。また、この観点から、図に示されているロジックフローのブロックは、プログラムステップ若しくは相互に接続されたロジック回路、ブロック及び機能であるか、又はプログラムステップ並びにロジック回路、ブロック及び機能の組み合わせであることに留意されたい。ソフトウェアは、メモリチップ、又はプロセッサ内に実装されているメモリブロックなどの物理媒体、ハードディスク又はフレキシブルディスクなどの磁気媒体、並びにDVD及びその可変データ、CDなどの光媒体に記憶してもよい。
メモリの種類は各々の技術環境に適した任意のものであってもよく、半導体に基づくメモリデバイス、磁気メモリデバイス及びシステム、光メモリデバイス及びシステム、固定メモリ及びリムーバブルメモリなど、任意の好適なデータ記憶技術を用いて実装してもよい。データプロセッサの種類は各々の技術環境に適した任意のものであってもよく、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、及びマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つ以上を非限定的な実施例として含んでもよい。
本発明の実施形態は、集積回路モジュールなどの様々な構成要素内で実施してもよい。集積回路の設計は、概して高度に自動化されている。複雑かつ強力なソフトウェアツールを用いて、ロジックレベルの設計を、半導体基板へのエッチング及び形成が可能な半導体回路設計に変換することができる。
カリフォルニア州マウンテンビューのシノプシス社及びカリフォルニア州サンノゼのケイデンスデザインなどによって提供されているプログラムは、広く普及している設計基準及び事前記憶済み設計モジュールのライブラリを用いて、自動的に導体の経路を設定し、半導体チップ上に構成要素を配置する。半導体回路の設計が完了したら、その設計は標準化された電子形式(Opus、GDSIIなど)で半導体製造設備に伝送されてもよい。
ここまで、例示的及び非限定的な実施例を用いて、本発明の例示的な実施形態について、完全かつ有益な説明を提供した。しかしながら、上記の説明と共に添付の図面及び特許請求の範囲を参照することによって、当業者には様々な変更態様及び適合態様が明らかになるであろう。ただし、本発明の教示のかかる変更態様又は類似の変更態様はすべて、本発明の範囲内に含まれる。
以下にいくつかの実施例を示す。
第1の実施例によれば、
入力画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングするステップと、
少なくとも第1の画像の画素のサブセットと少なくとも第2の画像の画素のサブセットとの間の視差を視差画像内に推定するステップと、
少なくとも視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定するステップと、
視差画像及び信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得するステップであって、前記画素位置のフィルタリングが画素位置の空間的近傍を用いる、ステップと、
フィルタリングされた視差画像及び信頼度マップから前記画像ペアの視差分布を推定するステップと、を含む方法が提供される。
一部の実施形態では、方法が、視差ヒストグラムに基づいて視差分布を推定するステップをさらに含む。
一部の実施形態では、方法が、推定視差分布の閾値に基づいて少なくとも1つの視差制限値を推定するステップをさらに含む。
一部の実施形態では、方法が、奥行き推定において少なくとも1つの視差制限値を用いるステップをさらに含む。
一部の実施形態では、方法が、該方法の計算複雑性を制御するステップをさらに含む。
方法の一部の実施形態では、計算複雑性を制御するステップが、複雑性制限値を定義するステップを含む。
一部の実施形態では、方法が、少なくともダウンサンプリング比を調整することによって計算複雑性を制御するステップをさらに含む。
一部の実施形態では、方法が、線形計算複雑性視差推定を1つ以上の入力パラメータの関数として適用することによって計算複雑性を制御するステップと、1つ以上の入力パラメータの値を決定するステップと、をさらに含む。
方法の一部の実施形態では、1つ以上の入力パラメータが画像サイズ、ウィンドウサイズ、及び/又は予め利用可能な視差範囲である。
一部の実施形態では、方法が、ビデオエンコードにおいて少なくとも1つの視差制限値を用いるステップをさらに含む。
一部の実施形態では、方法が、
少なくとも1つの視差制限値に基づいて、奥行き図又は視差図に示された少なくとも1つのサンプル値範囲をエンコードするステップをさらに含む。
一部の実施形態では、方法が、
少なくとも1つの視差制限値に基づいて、奥行き図又は視差図に示された少なくとも1つのサンプル値量子化レベル又はサンプル値量子化ステップサイズをエンコードするステップをさらに含む。
第2の実施例によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置が提供され、少なくとも1つのメモリ及びコンピュータプログラムコードは、少なくとも1つのプロセッサと共に用いられた場合、装置が少なくとも、
入力画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングするステップと、
少なくとも第1の画像の画素のサブセットと少なくとも第2の画像の画素のサブセットとの間の視差を視差画像内に推定するステップと、
少なくとも視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定するステップと、
視差画像及び信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得するステップであって、前記画素位置のフィルタリングが画素位置の空間的近傍を用いる、ステップと、
フィルタリングされた視差画像及び信頼度マップから前記画像ペアの視差分布を推定するステップと、を実施するように構成される。
装置の一部の実施形態では、前記少なくとも1つのメモリに記憶されたコードが前記少なくとも1つのプロセッサによって実行されたとき、装置がさらに、視差ヒストグラムに基づいて視差分布を推定する。
装置の一部の実施形態では、前記少なくとも1つのメモリに記憶されたコードが前記少なくとも1つのプロセッサによって実行されたとき、装置がさらに、推定視差分布の閾値に基づいて少なくとも1つの視差制限値を推定する。
装置の一部の実施形態では、前記少なくとも1つのメモリに記憶されたコードが前記少なくとも1つのプロセッサによって実行されたとき、装置がさらに、奥行き推定において少なくとも1つの視差制限値を用いる。
装置の一部の実施形態では、前記少なくとも1つのメモリに記憶されたコードが前記少なくとも1つのプロセッサによって実行されたとき、装置がさらに、方法の計算複雑性を制御する。
装置の一部の実施形態では、前記少なくとも1つのメモリに記憶されたコードが前記少なくとも1つのプロセッサによって実行されたとき、装置がさらに、複雑性制限値を定義する。
装置の一部の実施形態では、前記少なくとも1つのメモリに記憶されたコードが前記少なくとも1つのプロセッサによって実行されたとき、装置がさらに、少なくともダウンサンプリング比を調整する。
装置の一部の実施形態では、前記少なくとも1つのメモリに記憶されたコードが前記少なくとも1つのプロセッサによって実行されたとき、装置がさらに、
線形計算複雑性視差推定を1つ以上の入力パラメータの関数として適用することによって計算複雑性を制御し、
1つ以上の入力パラメータの値を決定する。
装置の一部の実施形態では、1つ以上の入力パラメータが画像サイズ、ウィンドウサイズ、及び/又は予め利用可能な視差範囲である。
装置の一部の実施形態では、前記少なくとも1つのメモリに記憶されたコードが前記少なくとも1つのプロセッサによって実行されたとき、装置がさらに、ビデオエンコードにおいて少なくとも1つの視差制限値を用いる。
装置の一部の実施形態では、前記少なくとも1つのメモリに記憶されたコードが前記少なくとも1つのプロセッサによって実行されたとき、装置がさらに、少なくとも1つの視差制限値に基づいて、奥行き図又は視差図に示された少なくとも1つのサンプル値範囲を符号化する。
装置の一部の実施形態では、前記少なくとも1つのメモリに記憶されたコードが前記少なくとも1つのプロセッサによって実行されたとき、装置がさらに、少なくとも1つの視差制限値に基づいて、奥行き図又は視差図に示された少なくとも1つのサンプル値量子化レベル又はサンプル値量子化ステップサイズを符号化する。
一部の実施形態では、装置が通信デバイスを備え、該通信デバイスが、
ユーザがディスプレイを用いて通信デバイスの少なくとも1つの機能を容易に制御できるように構成され、ユーザ入力に応答するようにさらに構成された、ユーザインタフェース回路及びユーザインタフェースソフトウェアと、
通信デバイスのユーザインタフェースの少なくとも一部を表示するように構成されたディスプレイ回路であって、ユーザが通信デバイスの少なくとも1つの機能を容易に制御できるように構成されたディスプレイ及びディスプレイ回路と、を備える。
一部の実施形態では、通信デバイスが携帯電話を備える。
第3の実施例によれば、1つ以上の命令から成る1つ以上のシーケンスを含むコンピュータプログラムであって、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が少なくとも、
入力画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングするステップと、
少なくとも第1の画像の画素のサブセットと少なくとも第2の画像の画素のサブセットとの間の視差を視差画像内に推定するステップと、
少なくとも視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定するステップと、
視差画像及び信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得するステップであって、前記画素位置のフィルタリングが画素位置の空間的近傍を用いる、ステップと、
フィルタリングされた視差画像及び信頼度マップから前記画像ペアの視差分布を推定するステップと、を実施する、コンピュータプログラムが提供される。
一部の実施形態では、コンピュータプログラムが1つ以上の命令から成る1つ以上のシーケンスを含み、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が視差ヒストグラムに基づいて視差分布を推定する。
一部の実施形態では、コンピュータプログラムが1つ以上の命令から成る1つ以上のシーケンスを含み、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が推定視差分布の閾値に基づいて少なくとも1つの視差制限値を推定する。
一部の実施形態では、コンピュータプログラムが1つ以上の命令から成る1つ以上のシーケンスを含み、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が奥行き推定において少なくとも1つの視差制限値を用いる。
一部の実施形態では、コンピュータプログラムが1つ以上の命令から成る1つ以上のシーケンスを含み、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が方法の計算複雑性を制御する。
一部の実施形態では、コンピュータプログラムが1つ以上の命令から成る1つ以上のシーケンスを含み、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が複雑性制限値を定義する。
一部の実施形態では、コンピュータプログラムが1つ以上の命令から成る1つ以上のシーケンスを含み、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が少なくともダウンサンプリング比を調整する。
一部の実施形態では、コンピュータプログラムが1つ以上の命令から成る1つ以上のシーケンスを含み、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が、
線形計算複雑性視差推定を1つ以上の入力パラメータの関数として適用することによって計算複雑性を制御し、
1つ以上の入力パラメータの値を決定する。
コンピュータプログラムの一部の実施形態では、1つ以上の入力パラメータが画像サイズ、ウィンドウサイズ、及び/又は予め利用可能な視差範囲である。
一部の実施形態では、コンピュータプログラムが1つ以上の命令から成る1つ以上のシーケンスを含み、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置がビデオエンコードにおいて少なくとも1つの視差制限値を用いる。
一部の実施形態では、コンピュータプログラムが1つ以上の命令から成る1つ以上のシーケンスを含み、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が少なくとも1つの視差制限値に基づいて、奥行き図又は視差図に示された少なくとも1つのサンプル値範囲を符号化する。
一部の実施形態では、コンピュータプログラムが1つ以上の命令から成る1つ以上のシーケンスを含み、該1つ以上のシーケンスが1つ以上のプロセッサによって実行されたとき、装置が少なくとも1つの視差制限値に基づいて、奥行き図又は視差図に示された少なくとも1つのサンプル値量子化レベル又はサンプル値量子化ステップサイズを符号化する。
一部の実施形態では、コンピュータプログラムがコンピュータ可読メモリ内に含まれる。
一部の実施形態では、コンピュータ可読メモリが不揮発性コンピュータ可読記憶媒体を備える。
第4の実施例によれば、
画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングするように適合されたダウンサンプラと、
少なくとも第1の画像の画素のサブセットと少なくとも第2の画像の画素のサブセットとの間の視差を視差画像内に推定するように適合された視差推定器と、
少なくとも視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定するように適合された信頼度推定器と、
視差画像及び信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得するように適合されたフィルタであって、前記画素位置のフィルタリングが画素位置の空間的近傍を用いる、フィルタと、
フィルタリングされた視差画像及び信頼度マップから前記画像ペアの視差分布を推定するように適合された視差分布推定器と、を備える装置が提供される。
第5の実施例によれば、
画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングする手段と、
少なくとも第1の画像の画素のサブセットと少なくとも第2の画像の画素のサブセットとの間の視差を視差画像内に推定する手段と、
少なくとも視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定する手段と、
視差画像及び信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得する手段であって、前記画素位置のフィルタリングが画素位置の空間的近傍を用いる、手段と、
フィルタリングされた視差画像及び信頼度マップから前記画像ペアの視差分布を推定する手段と、を備える装置が提供される。
一部の実施形態では、装置が視差ヒストグラムに基づいて視差分布を推定する手段をさらに含む。

Claims (24)

  1. 入力画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングするステップと、
    少なくとも前記第1の画像の画素のサブセットと少なくとも前記第2の画像の画素のサブセットとの間の視差を視差画像内に推定するステップと、
    少なくとも前記視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定するステップと、
    前記視差画像及び前記信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得するステップであって、前記フィルタリングが、フィルタリングされる画素の画素位置の空間的近傍を用いる、ステップと、
    前記フィルタリングされた視差画像及び前記フィルタリングされた信頼度マップから前記低解像度ペアの視差分布を推定するステップと、
    を含む方法であって、
    推定視差分布の閾値に基づいて少なくとも1つの視差制限値を推定するステップと、
    ビデオエンコードにおいて前記少なくとも1つの視差制限値を用いるステップと、
    をさらに含む、方法。
  2. 視差ヒストグラムに基づいて前記視差分布を推定するステップをさらに含む、請求項1に記載の方法。
  3. 奥行き推定において前記少なくとも1つの視差制限値を用いるステップをさらに含む、請求項1に記載の方法。
  4. 前記方法の計算複雑性を制御するステップをさらに含む、請求項1から3のいずれか一項に記載の方法。
  5. 前記計算複雑性を制御するステップが複雑性制限値を定義するステップを含む、請求項4に記載の方法。
  6. 少なくともダウンサンプリング比を調整することによって前記計算複雑性を制御するステップをさらに含む、請求項5に記載の方法。
  7. 線形計算複雑性視差推定を1つ以上の入力パラメータの関数として適用することによって前記計算複雑性を制御するステップと、前記1つ以上の入力パラメータの値を決定するステップと、をさらに含む、請求項5又は6に記載の方法。
  8. 前記1つ以上の入力パラメータが画像サイズ、ウィンドウサイズ、及び/又は予め利用可能な視差範囲である、請求項7に記載の方法。
  9. 前記少なくとも1つの視差制限値に基づいて、奥行き図又は視差図に示された少なくとも1つのサンプル値範囲をエンコードするステップをさらに含む、請求項1に記載の方法。
  10. 前記少なくとも1つの視差制限値に基づいて、奥行き図又は視差図に示された少なくとも1つのサンプル値量子化レベル又はサンプル値量子化ステップサイズをエンコードするステップをさらに含む、請求項1又は9に記載の方法。
  11. 入力画像ペアを第1の画像及び第2の画像の低解像度ペアにダウンサンプリングする手段と、
    少なくとも前記第1の画像の画素のサブセットと少なくとも前記第2の画像の画素のサブセットとの間の視差を視差画像内に推定する手段と、
    少なくとも前記視差画像の画素のサブセットに対する前記視差推定の信頼度を信頼度マップ内に推定する手段と、
    前記視差画像及び前記信頼度マップをフィルタリングして、フィルタリングされた視差画像及びフィルタリングされた信頼度マップを取得する手段であって、前記フィルタリングが、フィルタリングされる画素の画素位置の空間的近傍を用いる、手段と、
    前記フィルタリングされた視差画像及び前記フィルタリングされた信頼度マップから前記低解像度ペアの視差分布を推定する手段と、
    を備える装置であって、
    推定視差分布の閾値に基づいて少なくとも1つの視差制限値を推定するようにさらに構成されると共に、ビデオエンコードにおいて前記少なくとも1つの視差制限値を用いるようにさらに構成される、装置。
  12. 視差ヒストグラムに基づいて前記視差分布を推定するようにさらに構成される、請求項11に記載の装置。
  13. 奥行き推定において前記少なくとも1つの視差制限値を用いるようにさらに構成される、請求項11に記載の装置。
  14. 計算複雑性を制御するようにさらに構成される、請求項11から13のいずれか一項に記載の装置。
  15. 複雑性制限値を定義するようにさらに構成される、請求項14に記載の装置。
  16. 少なくともダウンサンプリング比を調整するようにさらに構成される、請求項15に記載の装置。
  17. 線形計算複雑性視差推定を1つ以上の入力パラメータの関数として適用することによって前記計算複雑性を制御し、
    前記1つ以上の入力パラメータの値を決定する、
    ようにさらに構成される、請求項15又は16に記載の装置。
  18. 前記1つ以上の入力パラメータが画像サイズ、ウィンドウサイズ、及び/又は予め利用可能な視差範囲である、請求項17に記載の装置。
  19. 前記少なくとも1つの視差制限値に基づいて、奥行き図又は視差図に示された少なくとも1つのサンプル値範囲を符号化するようにさらに構成される、請求項11に記載の装置。
  20. 前記少なくとも1つの視差制限値に基づいて、奥行き図又は視差図に示された少なくとも1つのサンプル値量子化レベル又はサンプル値量子化ステップサイズを符号化するようにさらに構成される、請求項11又は19に記載の装置。
  21. 処理手段及び記憶手段を備える装置であって、前記記憶手段はプログラム命令を格納し、該プログラム命令は、前記処理手段に実行されると、前記装置に、請求項1から10のいずれかに記載の方法を遂行させるように構成される、装置。
  22. 通信デバイスとして構成される、請求項11から21に記載の装置であって、前記通信デバイスが、
    ユーザがディスプレイを用いて前記通信デバイスの少なくとも1つの機能を容易に制御できるように構成され、ユーザ入力に応答するようにさらに構成された、ユーザインタフェース回路及びユーザインタフェースソフトウェアと、
    前記通信デバイスのユーザインタフェースの少なくとも一部を表示するように構成されたディスプレイ回路であって、ユーザが前記通信デバイスの少なくとも1つの機能を容易に制御できるように構成された前記ディスプレイ及びディスプレイ回路と、を備える装置。
  23. 前記通信デバイスは携帯電話として構成される、請求項22に記載の装置。
  24. 装置の処理手段に実行されると、前記装置に、請求項1から10のいずれかに記載の方法を遂行させるように構成されるプログラム命令を備える、コンピュータプログラム。
JP2015530465A 2012-09-06 2012-09-06 画像処理装置、方法及びコンピュータプログラム Expired - Fee Related JP6158929B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI2012/050861 WO2014037603A1 (en) 2012-09-06 2012-09-06 An apparatus, a method and a computer program for image processing

Publications (2)

Publication Number Publication Date
JP2015536057A JP2015536057A (ja) 2015-12-17
JP6158929B2 true JP6158929B2 (ja) 2017-07-05

Family

ID=49111022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015530465A Expired - Fee Related JP6158929B2 (ja) 2012-09-06 2012-09-06 画像処理装置、方法及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20140063188A1 (ja)
EP (1) EP2706504A3 (ja)
JP (1) JP6158929B2 (ja)
CN (1) CN104662896B (ja)
WO (1) WO2014037603A1 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8983121B2 (en) * 2010-10-27 2015-03-17 Samsung Techwin Co., Ltd. Image processing apparatus and method thereof
AU2013263760A1 (en) * 2013-11-28 2015-06-11 Canon Kabushiki Kaisha Method, system and apparatus for determining a depth value of a pixel
US9536351B1 (en) * 2014-02-03 2017-01-03 Bentley Systems, Incorporated Third person view augmented reality
EP2916290A1 (en) 2014-03-07 2015-09-09 Thomson Licensing Method and apparatus for disparity estimation
JP6589313B2 (ja) * 2014-04-11 2019-10-16 株式会社リコー 視差値導出装置、機器制御システム、移動体、ロボット、視差値導出方法、およびプログラム
US9712807B2 (en) * 2014-09-08 2017-07-18 Intel Corporation Disparity determination for images from an array of disparate image sensors
US9674505B2 (en) * 2014-12-09 2017-06-06 Intel Corporation Disparity search range determination for images from an image sensor array
US9965861B2 (en) * 2014-12-29 2018-05-08 Intel Corporation Method and system of feature matching for multiple images
US10019657B2 (en) * 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
US10097805B2 (en) 2015-10-13 2018-10-09 Apple Inc. Multi-image color refinement with application to disparity estimation
US10554956B2 (en) * 2015-10-29 2020-02-04 Dell Products, Lp Depth masks for image segmentation for depth-based computational photography
EP3166315A1 (en) * 2015-11-05 2017-05-10 Axis AB A method and apparatus for controlling a degree of compression of a digital image
WO2017084009A1 (en) 2015-11-16 2017-05-26 Intel Corporation Disparity search range compression
KR101763376B1 (ko) 2016-03-11 2017-07-31 광주과학기술원 신뢰 기반 재귀적 깊이 영상 필터링 방법
JP2018018425A (ja) * 2016-07-29 2018-02-01 キヤノン株式会社 画像処理装置及び画像処理方法
WO2018037479A1 (ja) * 2016-08-23 2018-03-01 株式会社日立製作所 画像処理装置、ステレオカメラ装置及び画像処理方法
CN106228597A (zh) * 2016-08-31 2016-12-14 上海交通大学 一种基于深度分层的图像景深效果渲染方法
JP6853928B2 (ja) * 2016-11-10 2021-04-07 株式会社金子製作所 三次元動画像表示処理装置、並びにプログラム
EP3358844A1 (en) * 2017-02-07 2018-08-08 Koninklijke Philips N.V. Method and apparatus for processing an image property map
DE112018002572T5 (de) * 2017-05-19 2020-06-04 Movidius Ltd. Verfahren, systeme und vorrichtungen zur optimierung der pipeline-ausführung
US10992847B2 (en) * 2017-05-25 2021-04-27 Eys3D Microelectronics, Co. Image device for generating a 360 degree depth map
US10554957B2 (en) * 2017-06-04 2020-02-04 Google Llc Learning-based matching for active stereo systems
KR102455632B1 (ko) * 2017-09-14 2022-10-17 삼성전자주식회사 스테레오 매칭 방법 및 장치
US10841558B2 (en) * 2017-11-17 2020-11-17 Omnivision Technologies, Inc. Aligning two images by matching their feature points
KR102459853B1 (ko) * 2017-11-23 2022-10-27 삼성전자주식회사 디스패리티 추정 장치 및 방법
CN108734776B (zh) * 2018-05-23 2022-03-25 四川川大智胜软件股份有限公司 一种基于散斑的三维人脸重建方法及设备
US10878590B2 (en) * 2018-05-25 2020-12-29 Microsoft Technology Licensing, Llc Fusing disparity proposals in stereo matching
CN109191512B (zh) * 2018-07-27 2020-10-30 深圳市商汤科技有限公司 双目图像的深度估计方法及装置、设备、程序及介质
CN109325513B (zh) * 2018-08-01 2021-06-25 中国计量大学 一种基于海量单类单幅图像的图像分类网络训练方法
CN109191506B (zh) * 2018-08-06 2021-01-29 深圳看到科技有限公司 深度图的处理方法、系统及计算机可读存储介质
CN110910438B (zh) * 2018-09-17 2022-03-22 中国科学院沈阳自动化研究所 一种超高分辨率双目图像的高速立体匹配算法
US10930054B2 (en) * 2019-06-18 2021-02-23 Intel Corporation Method and system of robust virtual view generation between camera views
US20220329770A1 (en) * 2019-09-25 2022-10-13 Sony Group Corporation Information processing apparatus, video generation method and program
KR102699829B1 (ko) * 2019-11-11 2024-08-29 삼성전자주식회사 디스패리티 이미지를 생성하는 알고리즘 갱신 방법 및 장치
US11481914B2 (en) * 2020-05-13 2022-10-25 Microsoft Technology Licensing, Llc Systems and methods for low compute depth map generation
US11488318B2 (en) * 2020-05-13 2022-11-01 Microsoft Technology Licensing, Llc Systems and methods for temporally consistent depth map generation
EP4199850A1 (en) * 2020-08-19 2023-06-28 Covidien LP Predicting stereoscopic video with confidence shading from a monocular endoscope
CN112633096B (zh) * 2020-12-14 2024-08-23 深圳云天励飞技术股份有限公司 客流的监测方法、装置、电子设备及存储介质
US11711491B2 (en) 2021-03-02 2023-07-25 Boe Technology Group Co., Ltd. Video image de-interlacing method and video image de-interlacing device
US20240031540A1 (en) * 2022-07-21 2024-01-25 Apple Inc. Foveated down sampling of image data
CN116701707B (zh) * 2023-08-08 2023-11-10 成都市青羊大数据有限责任公司 一种教育大数据管理系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07240943A (ja) * 1994-02-25 1995-09-12 Sanyo Electric Co Ltd ステレオ画像符号化方法
GB9823689D0 (en) * 1998-10-30 1998-12-23 Greenagate Limited Improved methods and apparatus for 3-D imaging
US9013551B2 (en) * 2008-12-01 2015-04-21 Imax Corporation Methods and systems for presenting three-dimensional motion pictures with content adaptive information
JP5624053B2 (ja) * 2008-12-19 2014-11-12 コーニンクレッカ フィリップス エヌ ヴェ 画像からの深度マップの作成
KR101639053B1 (ko) * 2009-02-17 2016-07-13 코닌클리케 필립스 엔.브이. 3d 이미지 및 그래픽 데이터의 조합
KR101716636B1 (ko) * 2009-07-27 2017-03-15 코닌클리케 필립스 엔.브이. 3d 비디오 및 보조 데이터의 결합
US20120140036A1 (en) * 2009-12-28 2012-06-07 Yuki Maruyama Stereo image encoding device and method
WO2011104151A1 (en) * 2010-02-26 2011-09-01 Thomson Licensing Confidence map, method for generating the same and method for refining a disparity map
US20120307023A1 (en) * 2010-03-05 2012-12-06 Sony Corporation Disparity distribution estimation for 3d tv
KR20110124473A (ko) * 2010-05-11 2011-11-17 삼성전자주식회사 다중시점 영상을 위한 3차원 영상 생성 장치 및 방법
US9225961B2 (en) * 2010-05-13 2015-12-29 Qualcomm Incorporated Frame packing for asymmetric stereo video
US8970672B2 (en) * 2010-05-28 2015-03-03 Qualcomm Incorporated Three-dimensional image processing
US20110304618A1 (en) * 2010-06-14 2011-12-15 Qualcomm Incorporated Calculating disparity for three-dimensional images
US20120062548A1 (en) * 2010-09-14 2012-03-15 Sharp Laboratories Of America, Inc. Reducing viewing discomfort
TR201010436A2 (tr) * 2010-12-14 2012-07-23 Vestel Elektron�K Sanay� Ve T�Caret A.�. Aykırılık aralığının tespiti için bir yöntem ve cihaz.
US9591281B2 (en) * 2010-12-22 2017-03-07 Thomson Licensing Apparatus and method for determining a disparity estimate
GB2534504B (en) * 2011-03-11 2016-12-28 Snell Ltd Analysis of stereoscopic images
US9560334B2 (en) * 2011-09-08 2017-01-31 Qualcomm Incorporated Methods and apparatus for improved cropping of a stereoscopic image pair

Also Published As

Publication number Publication date
WO2014037603A1 (en) 2014-03-13
CN104662896A (zh) 2015-05-27
JP2015536057A (ja) 2015-12-17
EP2706504A2 (en) 2014-03-12
EP2706504A3 (en) 2017-10-18
US20140063188A1 (en) 2014-03-06
CN104662896B (zh) 2017-11-28

Similar Documents

Publication Publication Date Title
JP6158929B2 (ja) 画像処理装置、方法及びコンピュータプログラム
US9525858B2 (en) Depth or disparity map upscaling
CN103250184B (zh) 基于全局运动的深度估计
US20160065948A1 (en) Methods, systems, and computer program products for creating three-dimensional video sequences
US20140098100A1 (en) Multiview synthesis and processing systems and methods
US9736498B2 (en) Method and apparatus of disparity vector derivation and inter-view motion vector prediction for 3D video coding
KR20170140187A (ko) 깊이 정보를 이용한 완전 시차 압축 광 필드 합성을 위한 방법
WO2013074561A1 (en) Modifying the viewpoint of a digital image
US10244259B2 (en) Method and apparatus of disparity vector derivation for three-dimensional video coding
US20170064279A1 (en) Multi-view 3d video method and system
JP5755571B2 (ja) 仮想視点画像生成装置、仮想視点画像生成方法、制御プログラム、記録媒体、および立体表示装置
Stankiewicz et al. Multiview video: Acquisition, processing, compression, and virtual view rendering
US8947506B2 (en) Method and system for utilizing depth information for generating 3D maps
US10616548B2 (en) Method and apparatus for processing video information
US9787980B2 (en) Auxiliary information map upsampling
US20120206442A1 (en) Method for Generating Virtual Images of Scenes Using Trellis Structures
Shih et al. A depth refinement algorithm for multi-view video synthesis
Chellappa et al. Academic Press Library in Signal Processing, Volume 6: Image and Video Processing and Analysis and Computer Vision
Kim et al. Photorealistic interactive virtual environment generation using multiview cameras
US10783609B2 (en) Method and apparatus for processing video information
Brites et al. Epipolar plane image based rendering for 3D video coding
Lin et al. 2D-to-3D Video Conversion: Techniques and Applications in 3D Video Communications
EP3267682A1 (en) Multiview video encoding

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170515

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170608

R150 Certificate of patent or registration of utility model

Ref document number: 6158929

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees