JP4939639B2

JP4939639B2 - 画像処理装置、画像処理方法、プログラム及び記録媒体

Info

Publication number: JP4939639B2
Application number: JP2010216385A
Authority: JP
Inventors: 誠大津; 敦稔〆野
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2012-05-30
Anticipated expiration: 2030-09-28
Also published as: WO2012042998A1; JP2012073702A

Description

本発明は、画像処理装置、画像処理方法、プログラム及び記録媒体に関し、より具体的には、複数の異なる視点において撮影された映像を信号処理することにより、実際には撮影していない視点の映像を作り出す画像処理装置、画像処理方法、及び該画像処理の機能を実現するプログラム及び記録媒体に関する。

左右の目に異なる映像を提示することで疑似的に立体視をさせるステレオ立体視テレビ（以下３Ｄテレビと称する）は、従来の２次元の映像では表現できない奥行き感を強く感じることができ、臨場感を高める効果がある。人間の左右の目は異なる場所に位置しており、実際に物を見るときには左右の目でわずかに異なる角度から物体を見ることになり、この左右の見えの差（視差）によって立体感を感じると考えられている。３Ｄテレビでは、この人間の視覚特性を利用し、左右の目に角度の異なる映像を提示することで立体視を実現させている。

３Ｄテレビとは異なる方式として、裸眼多視点立体ディスプレイ（以下、多視点ディスプレイと称する）がある。多視点ディスプレイでは、ディスプレイの前面に微小の蒲鉾状のレンズを張り合わせたレンチキュラーレンズによって複数の方向に少しずつ角度の異なる映像を提示し、ディスプレイを見たときに、２つの異なる角度の映像が右目と左目に入ることで立体視することができる。この方式では、頭を動かすと次の位置の２つの異なる角度の映像が右目と左目に入るため、より自然な立体視をすることができる。視点位置を変えた時に、その動きに合わせて物体の見える角度が変わることを運動視差と呼び、両眼視差と並んで自然な立体視には必要な要素である。

ところが、多視点ディスプレイで扱う全ての視点の映像を撮影し、伝送することは、様々な理由で困難である。特に、視点の数が多く、その間隔が密になるほど実現は困難になる。その代表的な理由は、カメラ自体の筐体の大きさや撮像素子そのものに大きさがあるため、カメラの設置間隔に物理的な限界があることと、仮に設置ができたとしても、多くの視点の映像をすべて伝送すると視点数に応じて伝送容量が増大することにある。

以上の問題を解決するために、視点合成技術を導入し、少ない視点の映像から多くの間の視点の映像を作り出す方法が提案されている。視点合成技術では、疎に設置したカメラの間の映像を補間により生成でき、密な視点の映像を簡単に作り出すことが可能である。また視点の数についても、例えば少ない視点の映像を伝送し、受信側で間の視点の映像を作り出すことで、伝送容量を抑制することも可能である。

視点合成技術について、複数の異なる視点で撮影した映像を利用して合成品質を向上させる方法がある。具体的には、求めたい視点の映像を各視点ごとに一度中間的に生成し、その中間的な視点映像を画素単位で適宜品質の高いと想定できる中間生成結果を選択、あるいは品質の高いと想定できる中間生成結果に重みをつけてブレンドすることで、最終的な合成映像の品質を高めることが可能である。このような中間的な合成映像を各視点から算出し、適宜選択・ブレンドする方法について記載している先行技術が複数ある。

例えば、特許文献１では、左右のカメラ映像を用いて間の視点の映像を合成する時に、合成視点の画素値の算出方法を３つの条件に従って切り替える例が開示されている。合成視点の画素を横方向に跨ぐ近傍の２つの画素に対応する点を左右の合成元の映像から求めて置き、その合成視点の２つの画素に対応する２点の間の長さの違いによって切り替えを行う。具体的には、左側の映像において対応する２点間の長さが、右側の映像において対応する２点間の長さに比べて所定の条件より長い場合には、左カメラで撮影された映像を用いて合成を行う。反対に、右側の映像において対応する２点間の長さが、左側の映像において対応する２点間の長さに比べて所定の条件より長い場合には、右カメラで撮影された映像を用いて合成を行う。以上の２つの条件とも満足しない場合には、合成を行う視点の位置によって合成比率が定常的に確定され、その比率に基づいてブレンドされる。

また、特許文献２では、仮想的な視点の映像中の画素を算出する際に、異なる視点から合成して求めた画素値と、対応する視点において異なる時間から合成した画素の画素値に関して、それぞれの信頼度を算出し、その信頼度の高い方の画素値に合成比率が高くなるよう設定を行い、合成を行う方法について開示されている。特許文献２では、求める視点とは異なる視点から合成した画像（方式１）と、求める視点と同じではあるが異なる時間から合成した画像（方式２）の信頼度を算出し、信頼度が高い方式の合成比率が高くなるように視点合成を行っている。

判定方法は、方式１から算出した信頼度を示す特徴量と方式２から算出した信頼度を示す特徴量を用いて、その大小関係によって判断する。方式１において信頼度を示す特徴量は、左右のカメラ映像において対応するブロックを求め、その左右のブロック間の画素値の差分を加算して算出した値（視差間平均誤差）である。方式２における信頼度を示す特徴量は、算出する時間の前後の時間において、お互いに対応するブロックを求めて、そのブロックにおける画素値の差分を加算して算出した値（時間平均誤差）である。このとき方式１と方式２のブロックの中心は、視点合成を行う処理対象となる画素の位置である。

特開平８−２０１９４１号公報特開２００９−３５０７号公報

INTERNATIONAL ORGANIZATION FOR STANDADISATION,ISO/IEC JTC1/SC29/WG11 M14889,"Experiment of view synthesis using multi-view depth"

特許文献１に記載されている視点合成方法では、最終合成結果として選択される画素は、その画素を挟んだ２点に対応した左右のカメラ映像における画素間の距離によって定常的に決まる。例えば、左側のカメラ映像において対応する２点間の長さが右側のカメラ映像において対応する２点間の長さより長い場合、左側のカメラ映像を用いて求める画素値が算出される。反対に、右側のカメラ映像において対応する２点間の長さが長い場合には、右側のカメラ映像を用いて求める画素値が算出される。

然しながら、特許文献１の場合、いずれにしても合成は２点間の補間によってなされるため、仮に対応する２点間の長さが長くても、求める画素の位置によっては合成のサンプリング位置が合わずに変換誤差をより大きくさせることがある。このように変換誤差を多く発生した場合には、合成品質が劣化する問題がある

特許文献２に記載された視点合成方法は、異なる視点の映像から合成された画素と、視点は同じであるが撮影された時間の異なる画像から合成された画素を比較して、対応するブロック内の平均誤差の小さい方を信頼度が高いと判断をして合成を行っている。異なる視点あるいは異なる時間の片方の画像において見えない領域があるようなオクルージョン領域では、ブロック間の誤差が大きくなるため信頼度に差が出やすいため正しく合成方式を選択できるが、非オクルージョン領域では、特許文献１の課題で示したように、仮に信頼度が高くても求める画素位置によっては、合成のためのサンプリング位置が合わない問題が発生する可能性がある。

これは、特許文献１と共通の課題であるが、異なる条件によって得た合成結果を判断するために、合成結果に影響に与える２次的な状況（特許文献１では対応する画素間が広い方が合成には適しているという仮定。特許文献２では異なる視点間の対応するブロックの平均誤差と異なる時間の対応するブロックの誤差の小さい方が合成に適しているという仮定。以上のような、状況的な基準に基づいている。）を基準に判断を行うため、合成変換の時に発生する誤差を判断基準に盛り込めていないことが原因である。

上記問題を鑑み、本発明は、状況基準によって判断するのではなく、一旦合成した結果そのものを用いて、その合成信号の定常性を判断基準として判断を行うことにより、異なる条件から目的の視点の映像を合成した中間的な合成視点映像を画素単位で精度よく適切に選択、あるいは適切に重みづけすることが可能になり、合成品質を向上させることができるようにした画像処理装置、画像処理方法、プログラム及び記録媒体を提供することを目的とする。

上記課題を解決するための第１の技術手段は、複数の視点のカメラ映像を用いて、該複数の視点の中間に位置する仮想視点画像を合成する画像処理装置であって、前記複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成部と、該仮想視点合成部が合成した前記中間的な仮想視点画像のそれぞれについて、該中間的な仮想視点画像の局所領域においてエッジ量が特定の大きさに集中している程度を示す特徴量を算出する定常性算出部と、該定常性算出部が算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出部と、該合成比率算出部で算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成部と、を有することを特徴としたものである。

第２の技術手段は、第１の技術手段において、前記特徴量が、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴としたものである。

第３の技術手段は、第１または第２の技術手段において、前記複数の視点が、２視点以上の視点であることを特徴としたものである。

第４の技術手段は、第１〜第３のいずれか１の技術手段において、前記対応点を示す情報を外部より入力することを特徴としたものである。

第５の技術手段は、第１〜第３のいずれか１の技術手段において、前記仮想視点合成部が、前記複数の視点の画像間における対応関係を示す情報を算出し、該対応関係を示す情報に基づき、相互に対応性のある画素を補間することにより、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成することを特徴したものである。

第６の技術手段は、複数の視点のカメラ映像を用いて、該複数の視点の中間に位置する仮想視点画像を合成する画像処理方法であって、前記複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成ステップと、該仮想視点合成ステップで合成した前記中間的な仮想視点画像のそれぞれについて、該中間的な仮想視点画像の局所領域においてエッジ量が特定の大きさに集中している程度を示す特徴量を算出する定常性算出ステップと、該定常性算出ステップで算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出ステップと、該合成比率算出ステップで算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成ステップと、を有することを特徴としたものである。

第７の技術手段は、第６の技術手段において、前記特徴量が、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴としたものである。

第８の技術手段は、コンピュータに、複数の視点のカメラ映像から取得した複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成ステップと、該仮想視点合成ステップで合成した前記中間的な仮想視点画像のそれぞれについて、該中間的な仮想視点画像の局所領域においてエッジ量が特定の大きさに集中している程度を示す特徴量を算出する定常性算出ステップと、該定常性算出ステップで算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出ステップと、該合成比率算出ステップで算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成ステップと、を実行させるための画像処理プログラムである。

第９の技術手段は、第８の技術手段において、前記特徴量が、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴としたものである。

第１０の技術手段は、第８または第９の技術手段のプログラムを記録したコンピュータ読み取り可能な記録媒体である。

本発明によれば、一旦合成した結果そのものを用いて、その合成信号の定常性を判断基準として判断を行うことにより、異なる条件から目的の視点の映像を合成した中間的な合成視点映像を画素単位で精度よく適切に選択することが可能になり、合成品質を向上させることができる。
特に、複数の異なる視点において撮影した映像を用いて、物理的にカメラの存在しない視点の映像を作りだす視点合成技術に関し、異なる視点から生成した中間的な合成視点映像を、画素単位で精度よく適切に選択・ブレンドすることで、合成映像の品質を向上させることが可能になる。また、本発明によって任意視点の映像を生成し、立体表示ディスプレイに表示させることによって、少ない視点の映像であっても、密な視点の多視点映像を疑似的に生成することが可能で、品質の高い多視点立体視が可能になる。

本発明の第１の実施例に対応するブロック図である。複数のカメラを用いて被写体を撮影する様子の概観図である。複数の視点の映像から抽出した画像の時間方向と視点方向への２次元配置を示す図である。定常性を説明する図である。第１の実施例に対応する処理フローチャートである。２台の実カメラから間の視点の映像（画像列）を生成する概念図である。本発明の第２の実施例に対応するブロック図である。第２の実施例に対応した２台のカメラと視点合成する位置の関係を示す図である。第２の実施例に対応した間の視点を合成する方法に関する図である。第２の実施例に対応する処理フローチャートである。

（第１の実施例）
＜構成＞
本発明の第１の実施の形態について図面を参照して説明する。図１は、本発明の画像処理装置の一実施の形態を示すブロック図である。図１に示すように、本発明の画像処理装置は、フレームバッファ１，２，３，４，７，８、仮想視点合成部５，６、マスク形成部９，１０、定常性特徴量算出部１１，１２、合成比率算出部１３、及び合成部１４を備えている。
フレームバッファ１，２は、所定の視点において撮影された映像から抽出された、ある時刻のフレーム（画像）を一時的に保持しておくためのフレームバッファである。フレームバッファ３は、フレームバッファ１において保持してある映像と同じ視点で、異なる視点の画像間における対応点を示す情報である対応点算出情報を格納しておくフレームバッファである。本実施例では、対応点を示す情報は外部から入力される。なお、フレームバッファ４は、フレームバッファ２の視点に対応する対応点算出情報が格納される。対応点を示す対応点算出情報は、例えば被写体までの距離を表すデプス情報であり、詳細は後述する。

仮想視点合成部５（、６）では、フレームバッファ１（、２）に保持される特定の時刻の視点画像とフレームバッファ３（、４）に保持される同時刻の対応点算出情報が入力され、その入力された対応点算出情報を利用して入力された視点の画像を所望の視点に変換する。なお、対応点算出情報を用いて撮影された視点の画像を所望の視点に変換する方法については後述する。
仮想視点合成部５（、６）において変換された画像は一旦別のフレームバッファ７（、８）に格納され、マスク形成部９（、１０）において局所ブロックに分割され、画素ごとに位置をずらしながら画像の一部を出力する。

続いて、定常性特徴量算出部１１（、１２）は、マスク形成部９（、１０）から入力されたブロック画像を使って定常性を示す特徴量を算出し、その結果を合成比率算出部１３に出力する。合成比率算出部１３では、各定常性特徴量算出部１１，１２より入力された定常性を示す特徴量に応じて、中間的に生成された各視点の合成結果に対する合成比率を算出し、合成部１４に出力する。合成部１４では、合成比率算出部１３から入力された合成比率に従って、変換された画像が格納されているフレームバッファ７，８から変換画像を取り出し、各視点の中間的な視点合成画像に合成比率を乗じて合成視点画像を生成し、出力する。

＜概念＞
続いて、図２乃至図４を用いて本発明の視点合成処理の概念について説明する。
図２は、被写体を複数の異なる位置から撮影している様子を示している。図２における、２１，２２，２３，２４，２５は被写体を撮影する実物のカメラとその位置関係を示している。カメラとカメラの間にあたる２６，２７，２８，２９は、例えばカメラの筐体の大きさ等によって物理的に設置できない領域、あるいはカメラを疎に置いたことによる隙間を示している。以下、実物のカメラが存在する位置を実カメラ位置と呼ぶ。

図２における実物のカメラ２１，２２，２３，２４，２５に対応するように、視点ｉ−２，ｉ−１，ｉ，ｉ＋１，ｉ＋２を規定し、各カメラによって撮影した映像をＶ_ｉ−２，Ｖ_ｉ−１，Ｖ_i，Ｖ_ｉ＋１，Ｖ_ｉ＋２とする。実際の処理は、これらの映像の中から抽出した特定の時刻の画像に対して行うため、扱いやすいように次の規定を行う。各視点において撮影された映像の中から取り出した時刻ｔにおける画像（フレーム）をＩ（ｉ−２，ｔ），Ｉ（ｉ−１，ｔ），Ｉ（ｉ，ｔ），Ｉ（ｉ＋１，ｔ），Ｉ（ｉ＋２，ｔ）とする。説明のために視点と時刻について画像を並べると図３の様に２次元的に配置することができる。図３では、点線で囲んだ横方向の画像の列が、ある視点の画像の列、すなわち映像を表し、点線等で図示していないが縦方向の画像を集めたものが、ある時刻の異なる視点の画像集合となる。

視点合成について説明するために、求める仮想視点位置がカメラ２３とカメラ２４の間にある場合を例にする。これとは異なる位置の合成視点を算出する場合についても、以降の説明と同様に処理することができる。以下、合成によって算出する所望の視点を仮想視点と呼び、その視点の合成映像を合成映像と呼ぶこととする。

本実施例で扱う視点合成の基本部分は、例えば非特許文献１に記載の技術を用いて実現できる。この方法によると、映像を取得するカメラの外部パラメータと内部パラメータが既知であるとともに、各視点に対応する距離情報（以下、デプス情報と呼ぶ）が視点合成を行うために必要である。ここでいう、カメラの外部パラメータとはカメラの３次元的な位置と姿勢を示す行列であり、内部パラメータとは、焦点距離、レンズ歪み、投影面の傾きを示す行列である。

対応点を示す対応点算出情報として利用するデプス情報は、国際標準化機構／国際電機標準会議（ＩＳＯ／ＩＥＣ）のワーキンググループであるMoving Picture Experts Group（ＭＰＥＧ）などで規定されており、距離深度を２５６段階、すなわち８ビットの輝度値で表現する。この結果、距離情報は８ビットのグレースケールとなる。距離が近いほど高い値の輝度を割り当てるため、手前の被写体ほど白く、奥にいくほど黒くなる。また、この距離情報を実際の距離としてデコードするために、一番大きい（白い）値の距離と一番小さい（黒い）値の距離が別途規定されており、この距離の間とデプス情報の値を線形に割り当てることで、実際の距離を求めることができる。

非特許文献１によると、初めに所望の仮想視点を挟み一番近くの実カメラが２つ選択される。上述のカメラ２３とカメラ２４の間に仮想視点がある場合、選択される実カメラはカメラ２３（視点ｉ）とカメラ２４（視点ｉ＋１）である。この２つのカメラ映像を用いて仮想視点映像を作り出す。実際には、映像の中から１フレーム分の画像が抽出され、その画像を用いて仮想視点画像を合成する。選択された視点ごとに（ここでは２視点画像から）中間的に仮想視点画像が作り出され、最終的に仮想視点のカメラ位置がどちらのカメラに近いかによって、近いほうの画像を一面分選択、あるいはその位置による合成比率に応じてブレンドし、仮想視点画像を作り出す。

具体的に非特許文献１に記載の、外部パラメータと内部パラメータが既知なカメラ映像とデプス情報から、所望の視点の映像を算出する方法について説明する。非特許文献１に記載の視点合成技術には、３Ｄワーピング技術が用いられている。３Ｄワーピング技術は特性の既知なカメラで取得した画像とデプス情報を用いて、画像の各画素に１対１対応する３次元空間内の位置が決まり、さらにその３次元空間内の1点を仮想視点映像の投影面に投影することで、実カメラにおける画素とそれに対応する仮想視点の画素との対応関係を求めることができる。この対応関係をもとに、実カメラに対応する画素のテクスチャ（画素値）を取得して、仮想視点画像の対応する画素に割り当てることで合成画像を作り出すことができる。以上が視点合成の基本的な考え方である。

合成品質を高めるために、２つ以上の異なる視点ごとに中間的な仮想視点画像を作り、その中から適宜選択あるいは合成比率を決めて合成する方法がある。非特許文献１では、この選択、あるいは合成比率を計算する基準が、仮想視点の位置と選択された合成元の実カメラ位置の関係によって確定的に決められている。

本発明は、中間的に求められた仮想視点画像の局所的な信号の定常性を比較し、定常性の高い中間合成結果を適宜選択し、あるいは合成比率の重みを高くして合成画像を作り出すことによって、最終的な合成品質を高めていることを特徴としている。局所的な信号の定常性とは、複数の視点ごとに求められた中間的な仮想視点画像から抽出した局所領域において、合成された信号がある特徴的な信号に集中している程度のことである。特徴的な信号に集中するとは、例えば、隣の画素との差分の絶対値を算出して求まるエッジ量が特定の大きさに集中していることである。仮に合成品質が高い場合、局所領域において特定のエッジ量に集中する。
一方合成品質が低い場合は、変換の過程で混入される変換ノイズのため、元来持っている特定のエッジ量に変換誤差が加わるため、結果として得られるエッジ量の分布は分散する。

図４は、中間的に生成した仮想視点画像について、局所領域のエッジ量の発生確率の違いと定常性の関係を説明するための図である。横軸はエッジ量を示しており、縦軸は局所領域におけるエッジ量の発生確率を示している。図４（Ａ）は、特定のエッジ量ｅにピークを持っており、かつ発生確率がその周辺に集中していることを示す図である。一方、図４（Ｂ）は、図４（Ａ）と同じくエッジ量ｅにピークを持つが、その集中度は低く全体にブロードになっていることを示す図である。

図４（Ｂ）に比べて、図４（Ａ）は特定のエッジ量ｅに集中している（定常性が高い）ため、合成で得られた信号の信頼度が高いといえる。従って、図４（Ａ）の特徴を持つ仮想視点画像を選択した方が、合成品質を高める可能性が高いといえる。この定常性を用いた判定に基づいた選択、あるいはブレンディングを、画素をずらしながら画像全域で行うことで、最適な合成画像を作り出すことが可能になる。

＜処理内容＞
具体的に本発明の仮想視点映像を生成する方法について、ブロック図（図１）とフローチャート（図５）を用いて説明する。
被写体を撮影する実カメラはカメラ２１，２２，２３，２４，２５であって、カメラ２３とカメラ２４の実カメラ位置の間の視点を合成する例について記載する。初めにＳ１−１において、仮想視点映像を合成するために利用する実カメラが選択される。実カメラの選択は、合成する仮想視点位置を挟むように最も近いカメラを２つ選択するものとする。つまり、求める仮想視点の位置をＰ_ｖ’とし、各実カメラの位置をＰ_ｖｉ（ｉ＝−２，−１，０，１，２）とすると、次の関係を満足する２つのカメラを選択する。但し、カメラ位置Ｐは、図２に示す様に１次元配置されているため、その大小関係で位置を確定できるものとする。

前述の仮想視点位置に関する前提によると、仮想視点位置はカメラ２３とカメラ２４の間であるため、式（１）のＰ_ｖｉ，Ｐ_ｖｉ＋１はそれぞれＰ_ｖ０，Ｐ_ｖ１に該当する。

続いて、選択された実カメラによって撮影された映像から、処理対象の時刻ｔにおける画像を抽出する（Ｓ１−２，Ｓ１−３）と、実カメラの映像Ｖ_ｉ，Ｖ_ｉ＋１の時刻ｔにおける画像（フレーム）は、Ｉ（ｉ，ｔ），Ｉ（ｉ＋１，ｔ）である。抽出した画像は一旦、フレームバッファ１，２に格納される。同時に、対応する視点のデプス情報（距離情報）についても同時刻の画像（フレーム）Ｄ（ｉ，ｔ）、Ｄ（ｉ＋１，ｔ）が抽出され（Ｓ１−４，Ｓ１−５）、フレームバッファ３，４に格納される。

デプス情報は、さまざまな方法で取得することが可能である。ここでは、赤外線を物体に照射し、その光が反射して戻ってくるまでの時間を計測し、物体までの距離を求めることができる測距機器を用いて測定するものとする。赤外線の進む速度をＶ_ＩＲ、赤外線を照射してから測距機器に戻ってくるまでの時間をｔ_ｔｏｆとすると、求める物体までの距離ｄ_０は、以下の式によって算出することができる。この処理を撮影画像と同じ解像度で実施し、デプス画像（デプス情報）を得る。

非特許文献１によると、次式によって仮想視点の画像を作り出すことができる。この処理は３Ｄワーピングと呼ばれ、仮想視点合成部５，６において実施される処理Ｓ１−６，Ｓ１−７に該当する。

ここで、ｄ_０，ｄ_０´は、それぞれ実カメラ位置の距離情報と仮想視点位置の距離情報である。Ａ，Ｒ，ｔは、それぞれ実カメラの内部パラメータと外部パラメータの一部であるカメラの回転角度、カメラの３次元位置を表している。Ａ´，Ｒ´，ｔ´は、仮想視点カメラの内部パラメータと外部パラメータの一部である回転角度、３次元位置を表している。Ｒ^−１，Ａ^−１は、対応する行列の逆行列を示す。また、ｃ，ｃ´は実カメラの画像の座標と仮想カメラの画像の座標を、通常の２次元座標に１次元追加した斉次座標系で示したものである。例えば２次元の座標（ｘ，ｙ）を斉次座標系で表すと、（ｘ，ｙ，１）のように、次元数を一つ増やし、追加した次元部分には１を代入することで作ることができる。

式（３）によって実カメラの座標ｃと仮想視点の座標ｃ´の間の対応関係が求まり、仮想視点のすべての画素に対応する実カメラの画素値を抽出し貼り付けることで、仮想視点の画像を作り出すことが可能になる。生成された仮想視点の画像は各視点ごとに一旦フレームバッファ７，８に格納される。

上記処理を実カメラ画像のＩ（ｉ，ｔ）、Ｉ（ｉ＋１，ｔ）について行うことで、図６のように２枚の中間的な合成視点画像Ｉ_ｉ（ｉ´，ｔ）、Ｉ_ｉ＋１（ｉ´，ｔ）が得られる。ここで、６１，６２は実カメラ、６３は仮想視点カメラで、Ｉ_ｉ，Ｉ_ｉ＋１は、それぞれ視点ｉ，ｉ＋１より合成した仮想視点画像であることを示している。なお、合成視点をｉ´としている。

生成された２枚の中間的な仮想視点画像Ｉ_ｉ（ｉ´，ｔ）、Ｉ_ｉ＋１（ｉ´，ｔ）は２次元平面であり、ｘ座標とｙ座標の位置を示すために、それぞれＩ_ｉ（ｉ´，ｔ，ｘ，ｙ）、Ｉ_ｉ＋１（ｉ´，ｔ，ｘ，ｙ）とする。マスク形成部９、１０において、処理対象画素（ｘ，ｙ）を中心に以下のように７×７のサイズのマスクを形成する（Ｓ１−８，Ｓ１−９）。

続いて、定常性特徴量算出部１１，１２について説明する。本発明では定常性の判定に、情報理論で扱われるエントロピー（平均情報量）を適用する。はじめに情報量とは、複数の事象が起こり得るときに、ある事象が起きた際にそれがどれほど起こりにくいかを表す尺度である。そして、全ての事象の情報量の平均値（期待値）をエントロピーと呼ぶ。
例えば、図４（Ａ）と図４（Ｂ）のピーク値ｅの事象について比べると、図４（Ａ）の方が図４（Ｂ）よりもピーク値ｅの事象の発生確率が高いため、図４（Ａ）の場合はピーク値ｅの事象の情報を得たとしてもその情報量は高くない。なぜなら、簡単に予想が着くためである。

また、すべての事象の平均の情報量は、偏りのある図４（Ａ）の方が平均情報量（エントロピー）の値は小さくなる。つまり、エントロピーは、発生確率に偏りがある様な、高い確率で発生事象を推定できる場合にはその値が小さくなる。従って、エントロピーの値が小さいほど、得られた信号の定常性は高いと判断することができる。

式（４）で求めたマスク内の各画素について隣の画素との差分の絶対値を求め、前記エントロピーを算出するための事象とする。各事象の発生頻度の算出は次式で行うことができる。

なお、扱う画像の画素値は、一般的にＲＧＢ値やＹＣ_ｂＣ_Ｒ等の３つの値によって構成されるが、ここでは説明を簡単にするために、以下の変換を行ったグレースケール値とする。

さらに、式（５）の発生頻度をマスク内の画素数で除算することで各事象の発生確率を求めることができ、以下の式で求めることが可能である。

なお、ｎｕｍＭは定数で式（４）のマスク内の画素数である。

定常性特徴量算出部１１，１２で行われるエントロピーの算出（Ｓ１−１０，Ｓ１−１１）は、次の式で行う。

上記エントロピーを各視点から生成された中間的な仮想視点画像ごとに算出する。図６では、選択した実カメラが２つであるため、式（７）によって算出されるエントロピーの値は各画素ごとに２つである。
得られたエントロピーの値をＥ_ｉ、Ｅ_ｉ＋１とすると、次の式によって合成比率を決めることができる（Ｓ１−１２）。この処理は、合成比率算出部１３で行われる。

エントロピーの値が小さい方が、定常性が高く合成結果として信頼できるため、合成比率を高くする必要がある。式（８）では、第２項によって選択した複数のカメラのエントロピーに対する所定のカメラのエントロピーの占める割合が算出される。エントロピーの値が小さいほど合成比率を高くする必要があるため、１.０から第２項を減算して合成比率としている。
合成部１４において、最終的に次式によって合成処理が実現される（Ｓ１−１３）。

以上の処理を、すべての画素が終了するまで（Ｓ１−１４）繰り返すことで合成視点画像を生成することができる。

本実施例では、合成部１４において、異なる２つの視点から中間的に合成された合成視点画像を画素単位で適宜重みづけを行い合成する例について示してきたが、各処理部で行う計算式は３視点以上の複数の視点にも対応している。従って、図１において１つの視点分に対応する、フレームバッファ１，フレームバッファ３，仮想視点合成部５，フレームバッファ７，マスク形成部９，及び定常性特徴量算出部１１の構成を扱う視点分追加することで、合成のために利用する実カメラの数を増やすことが可能である。視点数を増やすことで、多方面からの被写体の情報を適宜活用することでより合成品質を高めることが可能になる。

また、式（８）においてエントロピー値に応じて合成比率を算出して、その結果を式（９）に適用してブレンドする例を示したが、エントロピーの最小となるカメラの合成比率のみ１.０にして、その他を０にすることで、ブレンド処理ではなく、合成画像を選択による方法で生成することも可能である。

（第２の実施例）
図７は、本発明の第２の実施例の形態を示すブロック図である。第１の実施例と共通するブロックについては、同じ番号を割り当てて対応関係のみを示す。
第１の実施例と第２の実施例の違いは、視点の異なる画像の画素ごとの対応関係を示す情報を外部から入力するか、内部で対応関係を示す情報を作り出すのかの違いである。従って、第２の実施例では、第１の実施例の対応視点情報を格納するフレームバッファ３，４は存在しない。また、第２の実施例で追加したブロックは、視差ベクトル算出部７１である。

仮想視点合成部７２と７３は入力する対応視点情報の内容が異なるため仮想視点合成部５、５と処理が異なり、番号を実施例１（図１）と変えている。以下、第１の実施例と異なる部分について、図１０のフローチャートともに説明する。選択された実カメラによって撮影された映像から、処理対象の時刻ｔにおける画像を抽出し（Ｓ２−２，Ｓ２−３）これらの画像から視差ベクトルを算出する（Ｓ２−４）。
対応視点情報を内部で生成して、合成視点を作成する方法については、特許文献１に記載の視点合成方法を用いることができる。本方式に従えば、画像の対応関係は視差ベクトル算出部７１で実施され、以下の式Ｅ（ｐ）を最小にする視差量Ｐを算出して求めることができる。

ここで、画像は実施例１で示したものと同じで、視点合成で生成する視点に近い２つの視点ｉとｉ＋１を用いるものとする。
Ｗはマッチングを行う局所マスクを示しており、例えば７×７のサイズのマスクである。上記処理をすべての画素に対して行うことで、全画素の対応関係を求めることができる。

次に、対応関係の得られた２枚の画像を用いて中間の画像を合成する方法について図８を用いて説明する。図８に示す様に、実カメラ８１，８２の間の距離がＬである時に、仮想視点カメラ８３が実カメラ８１から距離ＤＬ、実カメラ８２から距離ＤＲの場所に位置しているものとする。画素ごとの対応性を求めるために、２つの対応した点を結ぶ水平線分上に間の点も存在するものと仮定する。図９に示す様な対応関係が得られたとすると、間の視点の画素はカメラ８１（視点ｉ）を基準にすると次式で求めることができる（Ｓ２−５）。本処理は、仮想視点合成部７２で行われる。

同様に、カメラ８２（視点ｉ＋１）を基準にすると、間の視点の画素は次式から求めることができる（Ｓ２−６）。本処理は、仮想視点合成部７３で行われる。

特許文献１に記載の方式では、対応する２点間の距離によって式（１１）と式（１２）を適応的に切り替えて仮想視点画像を求めているが、本発明では、両方のカメラの中間合成結果を一旦算出しておき、局所的な信号の定常性を用いて合成する。
複数の中間的な合成結果を算出してから以降の処理（定常性算出、合成比率算出、ブレンド処理）は第１の実施例と同じである。

（第３の実施例）プログラム
また、本発明はコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に、実施例１あるいは実施例２で示したように、複数の異なる視点の映像を入力し、その異なる視点ごとに中間的に求める合成視点映像作成する。求めた中間的な合成映像の局所的な定常性に基づいてその合成比率を算出し、合成することで仮想視点映像を生成する方法をソフトウエア処理として記録することもできる。

結果として、仮想視点画像の合成品質を向上させることが可能である。記録媒体としては、マイクロコンピュータで処理が行われるために図示しないメモリ、例えばＲＯＭのようなプログラムメディアであってもよく、図示しない外部記憶装置としてのプログラム読取装置が設けられ、そこに記録媒体を挿入することで読み取り可能なプログラムメディアであってもよい。いずれの場合においても、格納されているプログラムはマイクロプロセッサがアクセスして実行させる構成であってもよいし、プログラムを読み出し、読み出されたプログラムは、マイクロコンピュータの図示されていないプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であってもよい。この場合、ダウンロード用のプログラムは予め本体装置に格納されているものとする。

ここで、上記プログラムメディアは、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フロッピーディスク（登録商標）やハードディスク等の磁気ディスク並びにＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ等の光ディスクのディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、フラッシュＲＯＭ等による半導体メモリを含めた固定的にプログラムを担持する媒体であってもよい。

また、この場合、インターネットを含む通信ネットワークを接続可能なシステム構成であることから、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する媒体であってもよい。なお、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別の記録媒体からインストールされるものであってもよい。上記記録媒体は、デジタルカラー画像形成装置やコンピュータシステムに備えられるプログラム読み取り装置により読み取られることで上述した画像処理方法が実行される。なお、上記コンピュータシステムは、ＷＥＢカメラなどの汎用画像入力装置、所定のプログラムがロードされることにより上記画像処理方法など様々な処理が行われるコンピュータ、コンピュータの処理結果を表示するディスプレイ・液晶ディスプレイなどの画像表示装置より構成される。さらには、ネットワークを介してサーバーなどに接続するための通信手段としてのネットワークカードやモデムなどが備えられる。

１，２，３，４，７，８…フレームバッファ、５…仮想視点合成部、５，６…仮視点合成部、９，１０…マスク形成部、１１，１２…定常性特徴量算出部、１３…合成比率算出部、１４…合成部、２３…カメラ、２４…カメラ、７１…視差ベクトル算出部、７２…仮想視点合成部、７３…仮想視点合成部、８１，８２…実カメラ、８３…仮想視点カメラ。

Claims

複数の視点のカメラ映像を用いて、該複数の視点の中間に位置する仮想視点画像を合成する画像処理装置であって、
前記複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成部と、
該仮想視点合成部が合成した前記中間的な仮想視点画像のそれぞれについて、該中間的な仮想視点画像の局所領域においてエッジ量が特定の大きさに集中している程度を示す特徴量を算出する定常性算出部と、
該定常性算出部が算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出部と、
該合成比率算出部で算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成部と、を有することを特徴とする画像処理装置。
前記特徴量は、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴とする請求項１に記載の画像処理装置。
前記複数の視点は、２視点以上の視点であることを特徴とする請求項１または２に記載の画像処理装置。
前記対応点を示す情報を外部より入力することを特徴とする請求項１〜３のいずれか１に記載の画像処理装置。
前記仮想視点合成部は、前記複数の視点の画像間における対応関係を示す情報を算出し、該対応関係を示す情報に基づき、相互に対応性のある画素を補間することにより、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成することを特徴とする請求項１〜３のいずれか１に記載の画像処理装置。
複数の視点のカメラ映像を用いて、該複数の視点の中間に位置する仮想視点画像を合成する画像処理方法であって、
前記複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成ステップと、
該仮想視点合成ステップで合成した前記中間的な仮想視点画像のそれぞれについて、該中間的な仮想視点画像の局所領域においてエッジ量が特定の大きさに集中している程度を示す特徴量を算出する定常性算出ステップと、
該定常性算出ステップで算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出ステップと、
該合成比率算出ステップで算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成ステップと、を有することを特徴とする画像処理方法。
前記特徴量は、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴とする請求項６に記載の画像処理方法。
コンピュータに、
複数の視点のカメラ映像から取得した複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成ステップと、
該仮想視点合成ステップで合成した前記中間的な仮想視点画像のそれぞれについて、該中間的な仮想視点画像の局所領域においてエッジ量が特定の大きさに集中している程度を示す特徴量を算出する定常性算出ステップと、
該定常性算出ステップで算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出ステップと、
該合成比率算出ステップで算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成ステップと、を実行させるための画像処理プログラム。
前記特徴量は、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴とする請求項８に記載の画像処理プログラム。
請求項８または９に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。