JP2017005480A

JP2017005480A - 立体動画像処理装置、立体動画像処理方法、立体動画像処理プログラム、および記録媒体

Info

Publication number: JP2017005480A
Application number: JP2015117032A
Authority: JP
Inventors: 郁子椿; Ikuko Tsubaki
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-06-09
Filing date: 2015-06-09
Publication date: 2017-01-05

Abstract

【課題】動画像におけるオクルージョン領域の検出において、検出されたオクルージョン領域のフレーム間におけるばらつきを少なくする。【解決手段】複数の視点画像から構成されるあるフレームにおける評価値を画素値の類似度に基づいて算出する評価値算出部１００と、評価値を参照して、あるフレームにおけるオクルージョン領域を検出するオクルージョン領域検出部１０１を有する。評価値算出部は、注目画素に対応するあるフレームの隣接フレームにおける画素がオクルージョン領域の画素である場合は、注目画素の評価値をオクルージョン領域であると検出されやすくなるように変化させる。【選択図】図１

Description

本発明は立体動画像処理装置、立体動画像処理方法、立体動画像処理プログラム、および記録媒体に関する。

左目用画像と右目用画像の２枚の視点画像から構成されるステレオ画像において、視点画像間での被写体の座標のずれは視差と呼ばれ、被写体とカメラとの距離に応じて異なる。視差は、視点画像の各画素において、視点画像間の対応点を求めることで検出できる。以降の説明では、手前にある被写体ほど視差が大きく、奥にあるほど視差が小さいと表す。また、視差は、対応点において、右目用画像内の位置よりも左目用画像内での位置が右にある場合を正値とし、同様に、左目用画像内の位置よりも右目用画像内での位置が右にある場合を負値とする。無論、視点画像の数は２枚に限らず、３枚以上であっても視点画像間の視差（例えばある基準となる視点画像に対する他の視点画像の視差）は推定できる。

ところで、オクルージョン領域とは、前景に遮蔽されることによって、片方の視点画像にしか写っていない背景領域であり、その領域では対応点が存在しない。特許文献１には、確率に関するエネルギーを最小化する手法により、視差の推定と共にオクルージョンに起因する推定エラーが生じたことの判定を行う距離指標情報推定装置が開示されている。また、特許文献２には、評価値を最小とする視差の組合せに基づいて、視差の推定と共にオクルージョン領域の検出を行う立体画像処理装置が開示されている。

特開２０１３−７７１３１号公報（２０１３年４月２５日公開）特開２０１３−５８８４８号公報（２０１３年３月２８日公開）

しかしながら、特許文献１、２に記載の技術をはじめとする従来技術では、静止画（または１フレーム）におけるオクルージョン領域の検出しかできない。したがって、動画像におけるオクルージョン領域の検出を行う場合には、各フレームにおいて独立にオクルージョン領域の検出を行う。このため、検出されたオクルージョン領域がフレーム間でばらつくという問題があった。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、動画像におけるオクルージョン領域の検出において、検出されたオクルージョン領域のフレーム間でおけるばらつきが少ない立体動画像処理装置等を提供することにある。

上記の課題を解決するために、本発明の一態様に係る立体動画像処理装置は、立体動画像を処理する立体動画像処理装置であって、複数の視点画像から構成されるあるフレームにおける評価値を画素値の類似度に基づいて算出する評価値算出部と、上記評価値を参照して、該あるフレームにおけるオクルージョン領域を検出するオクルージョン領域検出部を有し、上記評価値算出部は、注目画素に対応する該あるフレームの隣接フレームにおける画素がオクルージョン領域の画素である場合は、上記注目画素の評価値をオクルージョン領域であると検出されやすくなるように変化させる。

また、本発明の一態様に係る立体動画像処理方法は、複数の視点画像から構成されるあるフレームにおける評価値を画素値の類似度に基づいて算出する評価値算出ステップと、上記評価値を参照して、該あるフレームにおけるオクルージョン領域を検出するオクルージョン領域検出ステップを有し、上記評価値算出ステップにおいては、注目画素に対応する該あるフレームの隣接フレームにおける画素がオクルージョン領域の画素である場合は、上記注目画素の評価値をオクルージョン領域であると検出されやすくなるように変化させる。

本発明の一態様によれば、動画像におけるオクルージョン領域の検出において、検出されたオクルージョン領域のフレーム間におけるばらつきが少ないという効果を奏する。

本発明の実施形態１に係る立体動画像処理装置のブロック図である。本発明の実施形態１に係る評価値の求め方を説明するための図である。本発明の実施形態１に係る立体動画像処理装置における処理の流れを説明するためのフロー図である。本発明の実施形態１に係る立体動画像処理装置における視差マップ作成処理の流れを説明するためのフロー図である。本発明の実施形態２に係る立体動画像処理装置のブロック図である。本発明の実施形態２に係る立体動画像処理装置における処理の流れを説明するためのフロー図である。本発明の実施形態２に係る立体動画像処理装置における視差マップ作成処理の流れを説明するためのフロー図である。

〔実施形態１〕
以下、本発明の実施の形態について、図１〜図４に基づいて詳細に説明する。

図１に示すように、本実施形態において、立体動画像処理装置１０は、入力部１１、視点画像処理部１２、記憶部１３、および出力部１４を備えている。

入力部１１は、複数の視点の動画像を入力して視点画像を作成する。

視点画像処理部１２は、複数の視点画像に対して処理を行い、評価値算出部１００、オクルージョン領域検出部１０１、および視差検出部１０２を含む。

オクルージョン領域検出部１０１は、複数の視点画像から構成されるあるフレームにおけるオクルージョン領域を検出する。視差検出部１０２は、複数の視点画像から構成されるあるフレームにおける画素毎の視差を検出する。そして、視点画像処理部１２は、画素毎の視差、および各画素がオクルージョン領域であるか否かを表わす視差マップを作成する。

評価値算出部１００は、あるフレームの注目画素の視差とオクルージョン領域の画素であるかを特定するために参照する評価値を算出する。

記憶部１３は、作成された視差マップを記憶する。

出力部１４は、視差マップを出力する。

次に、立体動画像処理装置１０における処理の流れを、図３を参照して説明する。

入力部１１は、まず複数の視点の動画を入力し、各動画をフレーム画像へ分解する。そして、フレーム画像を輝度画像（以下、この輝度画像を視点画像とも呼ぶ）に変換し、順次視点画像処理部１２に出力する。視点画像処理部１２は、入力部１１から視点画像を入力する（ステップＳ１）。

本実施形態においては、入力部１１を通して入力される複数の動画が左目用動画及び右目用動画の合計２つから構成される場合を例に挙げる。例えば、入力部１１は、左目用動画と右目用動画とを入力し、各動画をフレーム画像へ分解し、輝度画像への変換を行う。作成された視点画像をそれぞれ左目視点画像、右目視点画像と呼ぶ。そして、入力部１１は、左目視点画像と右目視点画像を順次、視点画像処理部１２に出力する。無論、入力部１１は、予め輝度画像に変換された左目用動画及び右目用動画を入力してもよい。以下、左目視点画像を基準とした右目視点画像の視差マップを検出する場合について説明する。また、本実施形態では、視差を求めるのに最適な輝度画像（つまり画像の輝度値）を用いて処理を行うことを前提としているが、視差を求めるのに必要な値は輝度値に限らない。すなわち、左目用動画及び右目用動画の各フレームの画素値、例えばＲＧＢデータであってもそのいずれか１又は複数色の値を用いて処理を行うことができる。

続いてステップＳ２において、視点画像処理部１２は、前のフレームで求めた視差マップを記憶部１３から読み出す。前のフレームの視差マップには、前のフレームの画素毎の視差と各画素がオクルージョン領域であるか否かが示されている。

続いてステップＳ３において、視点画像処理部１２は、入力部１１から入力される左目視点画像と右目視点画像の間の視差とオクルージョン領域の検出を行い、視差マップを作成する。オクルージョン領域検出部１０１は、左目視点画像について求めた視差と右目視点画像について求めた視差の不一致度から求める手法等、既知の様々な方法を用いてオクルージョン領域を検出する。視差検出部１０２は、ブロックマッチング、確率伝播法等、既知の様々な方法を用いて視差を検出する。

本実施形態では、例えば、動的計画法を用いて、現在のフレームにおける最も上の行（ｙ＝０（ｙ：検出を行っている注目行））から順番に１行ずつ処理を行う場合について説明する。その際、前のフレームで求めた画素毎の視差と各画素がオクルージョン領域であるか否かの検出結果を用いる。

次に、ステップＳ３における各行の処理の一例の流れを、図４を参照しながら説明する。

まず、ステップＳ１１において、視点画像処理部１２は、変数ｘの値を初期化する。ｘは注目行における右目視点画像の横方向の座標（図２参照）であり、本実施形態では注目行（ｙ）の左端画素から順に処理を行うために、視点画像処理部１２は、初期値として０を入力する。

続いてステップＳ１２において、評価値算出部１００は、各行において、下記式（１）〜（５）に従い、０≦ｐ≦Ｐを満たす全ての（ｘ，ｐ）について、評価値Ｕ（ｘ，ｐ）を算出する。（ｘ，ｙ）は現在のフレーム中の座標を示し、ｐは視差を表し、ｔは検出を行っているフレーム番号を示す。Ｐは視差の探索範囲を示し、ｐは０≦ｐ≦Ｐの範囲の値のみをとることとする。ｗは画像の横画素数である。

Ｍは類似度、ｃ_０は定数を示す。Ｌ、Ｒはそれぞれ左目視点画像と右目視点画像の輝度値、２ａ＋１は−ａ≦ｉ≦ａ及び−ａ≦ｊ≦ａで定義されるブロックサイズである。なお、ａの値は任意に決めておけばよく、探索範囲は矩形に限ったものではない。また、上記式（２）の計算の際、座標が画像の外の位置を示した場合は、視点画像処理部１２は、その座標を近傍の画像端の座標で置き換えるなどの画像端処理を行えばよい。

類似度Ｍ（ｘ，ｙ，ｐ）は、左目視点画像に対する右目視点画像の輝度値の差分（右目用画像の画素（ｘ，ｙ）の輝度値に対して、ｐだけ横にずらした位置の左目視点画像の輝度値の差分）の絶対値和を用いて定義した。本実施形態において、類似度Ｍの値は、小さい程、比較対象の画素値の類似度が高いと言える。但し、この例に限らず、類似度は、差分平方和、正規化相互相関などの類似度を表す他の関数で定義してもよい。

Ａは、右目視点画像の注目画素（ｘ，ｙ）の視差がｐであると仮定した場合の、その左隣の視差の候補を示している。右目視点画像の注目画素（ｘ，ｙ）は左目視点画像の画素（ｘ＋ｐ，ｙ）と対応している。上記式（１）の計算において、Ｕ（ｘｂ，ｐｂ）＋Ｄｘ（ｐ，ｐｂ）が最小となる（ｘｂ，ｐｂ）をＡの中から選ぶことは、注目画素（座標ｘ）の視差がｐである場合に、座標ｘｂの画素の視差がｐｂであり、座標ｘ＝ｘｂ＋１，ｘｂ＋２，・・・，ｘ−１の画素をオクルージョン領域であると選択することを示している。つまり、後述のステップＳ１５において選ばれた経路が、（ｘ，ｐ）を通る場合は、座標ｘｂの画素の視差がｐｂであり、座標ｘ＝ｘｂ＋１，ｘｂ＋２，・・・，ｘ−１の画素がオクルージョン領域であると検出される。ｘｂがｘ−１である場合は、オクルージョン領域と検出される画素は無い。

図２は上記式（３）で示す集合Ａの範囲を示しており、横軸はｘ座標、縦軸は視差である。格子模様を付けた座標は注目画素（ｘ，ｙ）を示し、その視差はｐである。このとき、黒で示したＰ＋１個の座標がＡの要素を示す。また、図２中、斜線で示した座標は、画像端における視差の探索範囲外の領域を示しており、下記式（６）の集合Ｂで表わされる。視点画像処理部１２は、上記式（１）の計算において、この領域では、Ｕ（ｘ，ｐ）の値を、無限大とみなせる大きな値で置き換える。

上記式（１）におけるＤｘは上記式（４）で示される関数であり、上記式（１）におけるＤｔは上記式（５）で示される関数である。ｃ_１、ｃ_２、ｃ_３は正の定数であり、ｃ_２＞ｃ_３とする。ｏｃｃは、該当画素がオクルージョン領域であることを示す値である。式（４）においては、ｐ１とｐ２は共に現在のフレーム中の座標の視差であり、ｐ１は注目画素（ｘ,ｙ）の視差、ｐ２は注目画素の左隣の画素（ｘｂ,ｙ）の視差になる。一方、式（５）において、ｐ１は現在のフレーム中の座標の視差であり、ｐ２は隣接フレーム（本実施形態においては、前のフレーム）中の座標の視差である。上記式（３）〜（５）の技術的な意味については後述する。

続いてステップＳ１３において、視点画像処理部１２が、ｘ＝ｗ−１か否かを判定する。視点画像処理部１２が、ｘ＝ｗ−１でないと判定した場合（ステップＳ１３でＮＯ）、ステップＳ１４に進む。

ステップＳ１４において、視点画像処理部１２は、ｘをインクリメントする。すなわち、評価値算出部１００は、Ｕ（ｘ，ｐ）の計算を、まずｘ＝０の場合について行い、その後ｘ＝１からｗ−１までが順に行う（ステップＳ１１〜ステップＳ１４）。

上記式（１）は再帰的であり、ｘ＝０から順に累積して最後に得られたＵ（ｗ−１，ｐ）が注目行（ｙ）内の視差の組合せ（経路）に対する評価値となる。０≦ｐ≦Ｐであるため、Ｕ（ｗ−１，ｐ）はＰ＋１個得られており、Ｐ＋１通りの経路が作成されたことになる。Ｕ（ｗ−１，ｐ）はＰ＋１通りの経路に対する評価値である。

評価値算出部１００は、上記式（１）の計算において、Ｕ（ｘｂ，ｐｂ）＋Ｄｘ（ｐ，ｐｂ）が最小となったときのｘｂの値、ｐｂの値を、それぞれＫｘ（ｘ，ｐ）、Ｋｐ（ｘ，ｐ）として保持しておく。このＫｘ（ｘ，ｐ）とＫｐ（ｘ，ｐ）は、評価値Ｕ（ｘ，ｐ）に対する経路を表している。また、ｘｂ、ｐｂは、それぞれ右目視点画像の集合Ａにおける横方向の座標、視差の値である。

一方ステップＳ１３において、視点画像処理部１２が、ｘ＝ｗ−１であると判定した場合（ステップＳ１３でＹＥＳ）、ステップＳ１５に進む。ステップＳ１５において、視点画像処理部１２は、動的計画法に基づき、評価値Ｕ（ｗ−１，ｐ）の中から、最小の評価値を選択し、そのｐの値をｐｂに入力する。これにより、Ｐ＋１通りの経路の中から、（ｗ−１，ｐｂ）を通る１つの経路を最終的に選んだことになる。ただし、本実施形態においては式（６）の領域においてＵ（ｘ，ｐ）の値を無限大としたため、自動的にＵ（ｗ−１，０）が最小となる。

ステップＳ１６において、視点画像処理部１２は、変数ｘｂの値を初期化する。ｘｂは右目視点画像の集合Ａにおける横方向の座標であり、以降の処理を図２における右端画素から順に処理を行うために、視点画像処理部１２は、初期値としてｗ−１を入力する。

続いてステップＳ１７において、オクルージョン領域検出部１０１が、ｘｂ＝ｘか否かを判定する。オクルージョン領域検出部１０１が、ｘｂ＝ｘでないと判定した場合（ステップＳ１７でＮＯ）、ステップＳ１８に進む。

ステップＳ１８において、オクルージョン領域検出部１０１は、座標（ｘ，ｙ）がオクルージョン領域であると判定し、視差マップにオクルージョン領域に該当することを示す値ｏｃｃを出力する。ステップＳ１８の後は、ステップＳ２２に進む。

一方、ステップＳ１７において、オクルージョン領域検出部１０１が、ｘｂ＝ｘであると判定した場合（ステップＳ１７でＹＥＳ）、ステップＳ１９に進む。ステップＳ１９において、視差検出部１０２は、ｐにｐｂの値を入力する。

続いてステップＳ２０において、視差検出部１０２は、座標（ｘ，ｙ）の視差の値をｐと検出し、視差マップに視差を出力する。

続いてステップＳ２１において、視点画像処理部１２は、ｘｂの値をＫｘ（ｘ，ｐ）で更新するとともに、ｐｂの値をＫｐ（ｘ，ｐ）で更新する。

続いてステップＳ２２において、視点画像処理部１２が、ｘ＝０か否かを判定する。視点画像処理部２２が、ｘ＝０であると判定した場合（ステップＳ２２でＹＥＳ）は、図２における左端画素まで処理が終了しているため、視点画像処理部１２は、図４の処理を終了する。

一方、視点画像処理部１２が、ｘ＝０でないと判定した場合（ステップＳ２２でＮＯ）は、ステップＳ２３に進む。

ステップＳ２３において、視点画像処理部１２は、ｘをデクリメントする。すなわち、視点画像処理部１２は、処理対象を図２における左隣りの画素に移動する。その後、ステップＳ１７に戻る。

つまり、視点画像処理部１２は、評価値における経路をＫｘとＫｐを参照して図２における右端画素（ｘ＝ｗ−１）から順に左へ向かってたどり、Ｋｐ（ｘ，ｐ）の値を座標（ｘ−１，ｙ）の視差として、画素毎の視差を検出する。この際、オクルージョン領域検出部１０１は、座標ｘ＝ｘｂ＋１，ｘｂ＋２，・・・，ｘ−１の画素をオクルージョン領域として検出する（ステップＳ１６〜ステップＳ２３）。

このようにして、視点画像処理部１２は、注目行（ｙ）内の全画素の視差（全てのｘについての視差）とオクルージョン領域を検出し、画像全体の視差とオクルージョン領域を表わす視差マップを作成する。

続いてＳ４において、記憶部１３が、視点画像処理部１２によって作成された視差マップを記憶する。

最後にＳ５において、出力部１４が、視点画像処理部１２によって作成された視差マップを出力する。

次に、上記式（３）〜（５）について、その技術的意味を説明する。式（１）のｍｉｎ［Ｕ（ｘｂ，ｐｂ）＋Ｄｘ（ｐ，ｐｂ）］の項は、左隣りの画素における最小評価値を用いて評価値を累積する動的計画法の手法が適用されている。但し、特許文献２に記載の技術と同様に、上記式（３）で定めたＡの範囲を用いることによって、オクルージョン領域の類似度を除いて評価値を累積している。また、上記式（３）で示す集合Ａは、オクルージョン領域の左端と右端に隣接する画素間の視差の差分の大きさを、オクルージョン領域の横幅と等しくなるように制約するためのものである。つまり、視点画像処理部１２は、オクルージョン領域に隣接する右側と左側の画素間の視差の差分の大きさがオクルージョン領域の横幅と等しくなるという条件下で、評価値の算出を行っている。よって、オクルージョン領域検出部１０１では、オクルージョン領域を検出していると言える。また、上記式（１）の定数項ｃ_０は、対応点の個数に応じて評価値に報酬を与え、オクルージョン領域を誤って広く検出することを防ぐ効果がある。

また、上記式（４）のＤｘは、視差がフレーム内の横方向に不連続な場合にペナルティ（定数項ｃ_１）を与えてその視差を検出されにくくする効果がある。この式に限らず、２つの視差の差分を用いた線形関数などの他の関数によって同様の効果を与えてもよい。無論、平滑化の効果を鑑みなければ、上記式（４）におけるＤｘは常に０、つまりＤｘの項を除いた式を採用することもできる。

また、上記式（５）のＤｔは、視差が時間方向に（すなわちフレーム間で）不連続な場合にペナルティ（定数項ｃ_３）を与えて評価値が大きくなるようにし、その視差を検出されにくくする効果がある。つまり、評価値算出部１００は、注目画素の評価値を、注目画素の視差が注目画素に対応する隣接フレームにおける画素の視差と同じであると検出されやすくなるように変化させる。また、上記式（５）のＤｔは、前のフレームでオクルージョン領域である場合に、ペナルティ（定数項ｃ_２）を与えて、評価値の値が大きくなるようにし、その画素がオクルージョン領域であると検出されやすくする効果がある。より具体的には、あるｘ（ｘ＝ｘ１）において式（１）のＤｔで大きな値を加算することで、後のｘ（ｘ＝ｘ２）における式（１）の（ｘｂ、ｐｂ）の選択の際に、そのｘ（ｘ＝ｘ１）が選ばれにくくなり、ｘ＝ｘ１がオクルージョン領域となる。評価値算出部１００は、あるフレームの隣接フレームにおける、注目画素に対応する画素がオクルージョン領域の画素であるか否かを参照して評価値を算出する。さらにいえば、評価値算出部１００は、注目画素に対応する画素が隣接フレームにおいてオクルージョン領域の画素である場合は、注目画素に対応する画素がオクルージョン領域の画素でない場合よりも評価値が大きくなるような算出式を用いて、評価値を算出する。具体的には、評価値Ｕ（ｘ，ｐ）において、前のフレームの該当領域がオクルージョン領域であった場合にペナルティ（定数項ｃ_２）を与えて評価値の値が大きくなるようにし、オクルージョン領域と検出されやすくする。これにより、時間方向にばらつきの小さい視差とオクルージョン領域を検出することができる。視点画像が動画像の開始フレームの画像であった場合（ｔ＝０）には、Ｇ（ｘ，ｙ）に値が入っておらず上記式（５）においてｐ２が不定であるため、Ｄｔ＝０としている。Ｄｔは上記式（５）に限らず、２つの視差の差分を用いた線形関数などの他の関数を用いて同様の効果を与えてもよい。

また、本実施形態では、視差の範囲を０≦ｐ≦Ｐとすることでｐが正値のみを取る場合について説明したが、ｐが負値を取り得る場合についても、同様の手法を適用することができる。また、右目視点画像の視差マップを求める場合について説明したが、逆に右目視点画像に対する左目視点画像の視差マップについても同様に求めることができる。

また、本実施形態では、前のフレームで求めた視差マップＧ（ｘ，ｙ）を用いる場合について説明したが、これに限らず、後ろのフレームから順に画素毎の視差と各画素がオクルージョン領域か否かの検出を行い、後のフレームで求めた視差マップをＧ（ｘ，ｙ）として用いてもよい。また、上記で述べた、前のフレームまたは後のフレームは、一つ前または一つ後のフレームだけではなく、二つ以上前または二つ以上後のフレームを参照しても構わない。

また、本実施形態では、視差とオクルージョン領域の両方の検出を行う場合について説明したが、視差の検出を行わず、オクルージョン領域の検出のみを行ってもよい。例えば、図４のステップＳ２０を省くことで、視差の検出を行わずにオクルージョン領域の検出のみを行うことができる。

上述のとおり、本実施形態の立体画像処理装置によれば、隣接フレームのオクルージョン領域検出結果を用いることによって、注目画素が隣接フレームにおいてオクルージョン領域である場合は、隣接フレームにおける画素がオクルージョン領域の画素でない場合よりも評価値が大きくなるので、隣接フレームにおいてオクルージョン領域でない場合と比べて前記注目画素がオクルージョン領域であると検出されやすい。これにより、時間方向に（すなわちフレーム間で）ばらつきの小さいオクルージョン領域を検出することができる。また、隣接フレームの視差検出結果を用いることによって、時間方向にばらつきの小さい視差を検出することができる。

〔実施形態２〕
本発明の他の実施形態について、図５〜図７に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

本実施形態は、被写体が静止被写体である場合と動いている被写体である場合とで評価値Ｕ（ｘ，ｙ）の算出方法を異ならせる点で実施形態１と異なる。

図５に示されるように、立体動画像処理装置２０は、入力部１１、視点画像処理部２２、記憶部２３、および出力部１４を備えている。

視点画像処理部２２は、評価値算出部２００、オクルージョン領域検出部２０１、視差検出部２０２、および静動判定部２０３を含む。視点画像処理部２２は、入力部１１から入力される左目視点画像と右目視点画像の間の視差とオクルージョン領域の検出を行う。そして、視点画像処理部２２は、視差とオクルージョン領域を表わす視差マップを作成する。

静動判定部２０３は、注目画素における被写体が静止被写体であるか否かを判定する。そして、視点画像処理部２２は、オクルージョン領域の検出の際、各画素における被写体が静止被写体であるか動いている被写体であるかに応じて異なる処理を行う。

記憶部２３は、右目視点画像と視点画像処理部２２で作成された視差マップを記憶する。右目視点画像と視差マップとは、視点画像処理部２２において次のフレームの処理を行う際に読み出される。

次に、立体動画像処理装置１０における処理の流れを、図６を参照して説明する。

まずステップＳ３１において、視点画像処理部２２は、入力部１１から視点画像を入力する。

続いてステップＳ３２において、視点画像処理部２２は、記憶部２３から前のフレームの右目視点画像と前のフレームで求めた視差マップを記憶部２３から読み出す。読み出した前のフレームの右目視点画像をＲｐｒｅ（ｘ，ｙ）、視差マップをＧ（ｘ，ｙ）とする。

続いてステップＳ３３において、視点画像処理部２２は、現在のフレームの画素毎の視差と各画素がオクルージョン領域であるか否かを検出して視差マップを作成する。ステップＳ３３においては、視点画像処理部２２は、最も上の行（ｙ＝０）から順に処理を行う。

次に、ステップＳ３３における各行の処理の一例の流れを、図７を参照しながら説明する。

まず、ステップＳ１１において、視点画像処理部２２は、変数ｘの値を初期化する。

続いてステップＳ４１において、静動判定部２０３は、注目画素（ｘ，ｙ）における被写体が静止被写体か否かを判定する。静動判定部２０３は、注目画素の画素値の隣接フレームとの差分の大きさを用いて静動判定を行う。静動判定部２０３は、静動判定を、画素値のフレーム間差分や、動きベクトル検出などを用いた既存の手法によって行うことが好ましい。例えば、静動判定部２０３は、右目視点画像における現在のフレームと前のフレームとの間の輝度値の差分の大きさの閾値処理によって行えばよい。また、静動判定部２０３は、例えば、下記式（７）が成り立つ場合は、その画素において被写体が静止被写体であると判定し、式（７）が成り立たない場合は、その画素において被写体が静止被写体でないと判定すればよい。

Ｒ（ｘ，ｙ）は現在のフレームの右目視点画像であり、Ｍ，Ａ，Ｄｘ，ｃ_０は実施形態１と同じである。ｃ_４は正の定数である。

静動判定処理の方法は、上述した例に限らず、例えば、静動判定部２０３が、右目視点画像における現在のフレームと前のフレームとの間でグローバルモーションを検出し、グローバルモーションを補償するように前のフレームの視点画像を変形してから、現在のフレームとの間の輝度値の差分の大きさの閾値処理によって判定してもよい。この方法によれば、カメラが動きながら撮影した場合でも、被写体の画面内での動きを正しく判定できる。

静動判定部２０３が、被写体が静止被写体であると判定した場合（ステップＳ４１でＹＥＳ）、ステップＳ４２に進む。ステップＳ４２においては、評価値算出部２００は、上記式（１）を用いて評価値Ｕ（ｘ，ｐ）を０≦ｐ≦Ｐを満たす全ての（ｘ，ｐ）について算出する。すなわち、評価値算出部２００は、静動判定部２０３が注目画素における被写体が静止被写体であると判定した場合に、上記式（１）を用いて評価値Ｕ（ｘ，ｐ）を算出する。その後、ステップＳ１３に進む。

一方、静動判定部２０３が、被写体が静止被写体でないと判定した場合（ステップＳ４１でＮＯ）、ステップＳ４３に進む。ステップＳ４３においては、評価値算出部２００は、下記式（８）を用いて評価値Ｕ（ｘ，ｐ）を０≦ｐ≦Ｐを満たす全ての（ｘ，ｐ）について算出する。その後、ステップＳ１３に進む。

上記式（８）は、上記式（１）からＤｔの項を削除した式である。被写体が静止被写体である場合は、フレーム間で視差やオクルージョン領域が一定となることが望ましいため、Ｄｔを用いて時間方向のばらつきを抑制する。一方で、被写体が動いている場合は、フレーム間で視差やオクルージョン領域が大きく変化する可能性があるため、Ｄｔを削除する。このようにして、静止被写体であると判定した場合に限って、注目画素が隣接フレームにおいてオクルージョン領域である場合に、そうでない場合と比べて前記注目画素がオクルージョン領域であると検出されやすくなるように処理を行う。これにより、被写体が静止被写体である場合と動いている被写体である場合の両方で、オクルージョン検出の誤りを減らすことができる。

ステップＳ１３において、視点画像処理部２２が、ｘ＝ｗ−１か否かを判定する。視点画像処理部２２が、ｘ＝ｗ−１でないと判定した場合（ステップＳ１３でＮＯ）、ステップＳ１４に進み、視点画像処理部２２が、ｘ＝ｗ−１であると判定した場合（ステップＳ１３でＹＥＳ）、ステップＳ１５に進む。

ステップＳ１４において、視点画像処理部２２は、ｘをインクリメントする。その後、ステップＳ４１に戻る。

ステップＳ１４の後の処理（ステップＳ１５〜ステップＳ２３）は、実施形態１のステップＳ１５〜ステップＳ２３の処理と同様であるので、説明を省略する。

すなわち、視点画像処理部２２は、評価値Ｕ（ｘ，ｐ）を算出した後、実施形態１と同様に、Ｋｘ（ｘ，ｐ）、Ｋｐ（ｘ，ｐ）とＵ（ｘ，ｐ）とを用いて、注目行の画素毎の視差と各画素がオクルージョン領域であるか否かを検出する。

このようにして、視点画像処理部２２は、注目行内の全画素の視差（全てのｘについての視差）とオクルージョン領域とを検出する。そして、視点画像処理部２２は、全ての行に対して処理を実行するので、画像全体の視差とオクルージョン領域を表わす視差マップを作成することができる。

続いてＳ３４において、記憶部２３が、右目視点画像Ｒ（ｘ，ｙ）と視点画像処理部２２によって作成された視差マップを記憶する。

最後にＳ３５において、出力部１４が、視点画像処理部２２によって作成された視差マップを出力する。

上述のごとく、本実施形態の立体動画像処理装置は、静動判定を行い、静止被写体であると判定した場合に、注目画素が隣接フレームにおいてオクルージョン領域である場合にそうでない場合と比べて評価値が大きくなるように評価値算出部２００が評価値を算出するので、前記注目画素がオクルージョン領域であると検出されやすくなるように処理を行う。これにより、被写体が静止被写体である場合と動いている被写体である場合の両方で、オクルージョン検出の誤りを減らすことができる。

（実施形態１、および実施形態２について）
本発明の各実施形態においては上記の通り、入力部１１を通して入力される複数の視点画像が左目用画像及び右目用画像の２枚の視点画像、すなわち横に配置されたカメラによる視点画像から構成される例を挙げた。但し、視点画像の数は２枚に限らず、３枚以上であっても、各実施形態において説明した処理により同様に視点画像間の視差は推定できる。例えば、ある基準となる視点画像に対する他の視点画像の視差を推定することもできるし、各視点画像間の全ての組合せについて視差を推定することもできる。オクルージョン領域の推定についても同様である。

また、縦に配置されたカメラで撮影した複数の視点画像に対しても、同様に視差やオクルージョン領域を推定することも可能である。その際、各実施形態における処理をそのまま適用することも、縦方向と横方向の処理を入れ替えて適用することも可能である。さらには、斜めに配置されたカメラで撮影した複数の視点画像に対しても、同様に視差やオクルージョン領域を推定することも可能である。

また、本発明の各実施形態において、動的計画法を適用して視差推定に係る各行の処理を行うことを例に挙げたが、これに限ったものではなく、例えばブロックマッチング、確率伝播法などの他の手法を適用してもよい。

本発明は、上記の各実施形態に限定されるものではない。これらの実施形態にそれぞれ開示された技術的手段を適宜組合せて得られる実施形態についても本発明の技術的範囲に含まれる。

また、本発明の実施形態１および実施形態２に係る立体画像処理装置は、各種レコーダや各種記録メディア再生装置等の映像出力機器に組み込むことができる。さらに、本発明の実施形態１および実施形態２に係る立体画像処理装置は、このような立体画像処理装置に表示デバイスを外部接続又は内部に搭載したテレビ装置やモニタ装置等の立体画像表示装置としての形態も採り得る。

〔実施形態３〕
立体動画像処理装置１０の制御ブロック（特に視点画像処理部１２）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、立体動画像処理装置１０は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る立体動画像処理装置１０は、立体動画像を処理する立体動画像処理装置であって、複数の視点画像から構成されるあるフレームにおける評価値を画素値の類似度に基づいて算出する評価値算出部と、上記評価値を参照して、該あるフレームにおけるオクルージョン領域を検出するオクルージョン領域検出部を有し、上記評価値算出部は、注目画素に対応する該あるフレームの隣接フレームにおける画素がオクルージョン領域の画素である場合は、上記注目画素の評価値をオクルージョン領域であると検出されやすくなるように変化させる。

上記の構成によれば、動画像におけるオクルージョン領域の検出において、検出されたオクルージョン領域のフレーム間におけるばらつきが少ない。

本発明の態様２に係る立体動画像処理装置２０は、上記態様１において、上記注目画素における被写体が静止被写体であるか否かを判定する静動判定部をさらに備え、上記評価値算出部が、上記注目画素の評価値をオクルージョン領域であると検出されやすくなるように変化させるのは、上記静動判定部が上記注目画素における被写体が静止被写体であると判定し、かつ、上記注目画素に対応する該あるフレームの隣接フレームにおける画素がオクルージョン領域の画素である場合であってもよい。

上記の構成によれば、静止被写体であると判定した場合に、注目画素が隣接フレームにおいてオクルージョン領域である場合にそうでない場合と比べて注目画素がオクルージョン領域であると検出されやすくなる。

本発明の態様３に係る立体動画像処理装置は、上記態様１または２において、上記複数の視点画像間の視差を検出する視差検出部１０２をさらに備えてもよい。

上記の構成によれば、あるフレームにおける複数の視点画像間の、オクルージョン領域でない領域の視差を検出することができる。

本発明の態様４に係る立体動画像処理装置は、上記態様１〜３において、上記評価値算出部は、上記注目画素の評価値を、上記注目画素の視差が上記注目画素に対応する上記隣接フレームにおける画素の視差と同じであると検出されやすくなるように変化させる。

上記構成によれば、隣接フレームにおける画素の視差が同じであることを検出されやすくすることができる。

本発明の態様５に係る立体動画像処理方法は、複数の視点画像から構成されるあるフレームにおける評価値を画素値の類似度に基づいて算出する評価値算出ステップと、上記評価値を参照して、該あるフレームにおけるオクルージョン領域を検出するオクルージョン領域検出ステップを有し、上記評価値算出ステップにおいては、注目画素に対応する該あるフレームの隣接フレームにおける画素がオクルージョン領域の画素である場合は、上記注目画素の評価値をオクルージョン領域であると検出されやすくなるように変化させる。

上記の構成によれば、上記態様１と同様の作用効果を奏する。

本発明の各態様に係る立体動画像処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記立体動画像処理装置が備える各部（ソフトウェア要素）として動作させることにより上記立体動画像処理装置をコンピュータにて実現させる立体動画像処理装置の立体動画像処理制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、立体動画像におけるオクルージョン領域の推定に利用することができる。

１０、２０立体動画像処理装置
１００、２００評価値算出部
１０１、２０１オクルージョン領域検出部
１０２、２０２視差検出部
２０３静動判定部

Claims

立体動画像を処理する立体動画像処理装置であって、
複数の視点画像から構成されるあるフレームにおける評価値を画素値の類似度に基づいて算出する評価値算出部と、
上記評価値を参照して、該あるフレームにおけるオクルージョン領域を検出するオクルージョン領域検出部を有し、
上記評価値算出部は、注目画素に対応する該あるフレームの隣接フレームにおける画素がオクルージョン領域の画素である場合は、上記注目画素の評価値をオクルージョン領域であると検出されやすくなるように変化させる、
ことを特徴とする立体動画像処理装置。
上記注目画素における被写体が静止被写体であるか否かを判定する静動判定部をさらに備え、
上記評価値算出部が、上記注目画素の評価値をオクルージョン領域であると検出されやすくなるように変化させるのは、上記静動判定部が上記注目画素における被写体が静止被写体であると判定し、かつ、上記注目画素に対応する該あるフレームの隣接フレームにおける画素がオクルージョン領域の画素である場合である
ことを特徴とする請求項１に記載の立体動画像処理装置。
上記評価値を参照して、上記複数の視点画像間の視差を検出する視差検出部をさらに備える
ことを特徴とする請求項１または２に記載の立体動画像処理装置。
上記評価値算出部は、上記注目画素の評価値を、上記注目画素の視差が上記注目画素に対応する上記隣接フレームにおける画素の視差と同じであると検出されやすくなるように変化させる、
ことを特徴とする請求項３に記載の立体動画像処理装置。
複数の視点画像から構成されるあるフレームにおける評価値を画素値の類似度に基づいて算出する評価値算出ステップと、
上記評価値を参照して、該あるフレームにおけるオクルージョン領域を検出するオクルージョン領域検出ステップを有し、
上記評価値算出ステップにおいては、注目画素に対応する該あるフレームの隣接フレームにおける画素がオクルージョン領域の画素である場合は、上記注目画素の評価値をオクルージョン領域であると検出されやすくなるように変化させる、
立体動画像処理方法。
請求項１〜４のいずれか１項に記載の立体動画像処理装置としてコンピュータを機能させるための立体動画像処理プログラムであって、上記オクルージョン領域検出部、および上記評価値算出部としてコンピュータを機能させるための立体動画像処理プログラム。
請求項６に記載の立体動画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体。