JP2015171097A

JP2015171097A - 画像処理装置及びその制御方法

Info

Publication number: JP2015171097A
Application number: JP2014046754A
Authority: JP
Inventors: 秀往松井; Hideyuki Matsui; 大澤　秀史; Hideshi Osawa; 秀史大澤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-03-10
Filing date: 2014-03-10
Publication date: 2015-09-28

Abstract

【課題】所望とするＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）領域にリフォーカスした画像をできるようにしつつも、高い符号化効率で符号化データを生成する画像処理装置を提供する。【解決手段】画像処理装置は、多視点画像データを構成する各視点のサブイメージ内の同一位置の画素の値の平均値を算出することで、算出した平均値を該当する位置の画素値とする平均画像を生成する生成部と、各サブイメージにおけるコントラストと、各サブイメージ間の視差とに基づき、各サブイメージに共通な少なくとも１つのＲＯＩ領域を検出する検出部１０６と、平均画像、及び、各サブイメージ内の各ＲＯＩ領域で示される部分画像を符号化し、ＲＯＩ領域の位置情報と合わせて符号化データ列を形成する符号列生成部１１１とを有する。【選択図】図２２

Description

本発明は多視点画像の符号化技術に関するものである。

従来から、複数の視点で映像を撮影し、撮影した多視点映像を利用してステレオ立体視や、自由視点合成、自由焦点画像合成（リフォーカス）といった映像表現を実現する方法が知られている。そのような映像表現を実現するためには、多視点で撮影した映像を保存する必要があるが、異なる視点の映像を別々に符号化すると、視点数に比例したデータ量になってしまう課題がある。一方で、多視点映像を撮影するカメラ同士が近いほど、異なる視点の映像間の相関が高く、別々に圧縮した場合に比べて符号データを削減できると考えられ、この性質を利用した圧縮・符号化方式が多数提案されている。

既存の画像の符号化方式としては、国際標準化団体であるＭＰＥＧで検討された動画符号化であるＡＶＣ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）やＭＶＣ（ＭｕｌｔｉｖｉｅｗＶｉｄｅｏＣｏｄｉｎｇ）方式がある。ＭＶＣでは、２か所の多視点画像で似たブロックを探索し、その位置関係を視差ベクトルとして算出し、動画符号化の動きベクトルと切り替えながら符号化していく方式で、既に国際標準方式となったものである。

また、Ｙｉ−Ｒｅｎ（特許文献１）らのプレノプティックカメラでは、センサの前にマイクロレンズアレイを配置し、複数視点の画像を撮影し、それらを光線の入射方向を考慮しながら、自由視点合成、自由焦点画像合成を合成する方法が開示されている。

図１は、プレノプティックカメラの構成の一例である。物体Ａはメインレンズ２２２の焦点部におかれたマイクロレンズ２２３で、２×２のセンサ面２２４に光線が分光されて像を得るものである。センサ上の各画素２２５は、それぞれの位置毎に集められ、画像サイズが縦横１／２の４つのサブイメージ２２７を生成する。図示の符号２２６はマイクロレンズと２×２センサの正面の模式図である。

一般に、ボケの形状はレンズの開口部の形状で決まるという事実、プレノプティックカメラで撮影した各多視点画像は、メインレンズの一部を通過した光を捉えた部分開口画像である事実が知られている。従って、２×２のセンサ２２５上に、円形のマイクロレンズを設置した構成では部分開口が１／４円（もしくはそれ相当）になるので、４方向に異なる異方性ボケ画像が生成されることになる。これを例示したものが図２である。図２に示すごとく、点光源のボケを示す４個のサブ画像２３１〜２３５では、そのボケの方向（グラデーション）が異なったものとなる。そして、この４つの画像の平均をとった画像２３５は、偏りのない画像になることも公知である。

特許第４７５２０３１号公報

図２で示したような、ボケを含む画像を画像符号化する場合を考える。このとき、４つのサブイメージにおいて、背景部などにおいてボケの方向が異なるため、画像間差分を計算すると、大きな差分を生じることになる。この理由により、公知技術であるＡＶＣ，ＭＶＣの原理であるフレーム間差分符号化や視差補償予測符号化の効率が悪くなることが容易に予想される。

これを対策する方法の１つとして、４つの画像の平均値をとることにより、ボケが等方性になることでまず画質が向上することを前述した。しかし、平均化処理により、画像の先鋭度が下がること、さらに、詳細は後述する実施形態から明らかにするが、４視点の情報を使った画像シフト合成による自由焦点処理（リフォーカス）ができなくなるという問題が発生する。

また、このリフォーカス処理を行うためには、各視点画像において先鋭度が高い部分が必要となり、画像全体を低圧縮にする必要があり、全体の符号量が多くなるという問題がある。

本発明は上記の問題点に鑑みなされたものであり、所望とするＲＯＩ領域にリフォーカスした画像を生成できるようにしつつも、高い符号化効率で符号化データを生成する技術を提供するものである。

この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、
多視点画像データを符号化する画像処理装置であって、
前記多視点画像データを構成する各視点のサブイメージ内の同じ位置の画素の値の平均値を算出することで、算出した平均値を該当する位置の画素値とする平均画像を生成する生成手段と、
前記各サブイメージに共通な少なくとも１つのＲＯＩ領域を検出する検出手段と、
前記生成手段で生成された前記平均画像、及び、前記検出手段で検出した各サブイメージ内の各ＲＯＩ領域で示される部分画像を符号化し、前記検出手段が検出したＲＯＩ領域の位置を示す情報と合わせて符号列を生成する符号列生成手段とを有する。

本発明によれば、所望とするＲＯＩ領域にリフォーカスした画像を生成できるようにしつつも、高い符号化効率で符号化データを生成することが可能となる。

プレノプティックカメラの構成図。点光源の撮影時でのボケの異方性の説明するための図。実施形態で用いる撮影サンプル画像の説明図。実施形態における４視点の画像の説明図。注目領域Ａ，Ｂ，Ｃの説明図。ＲＯＩ領域処理を示すフローチャート。各視点画像の視差ｘ、視差ｙの検出方式の説明図。リフォーカス処理のための画像位置をシフトする説明図。領域Ａを合焦するときの説明図。領域Ｂを合焦するときの説明図。領域Ｃを合焦するときの説明図。背景との合成の説明図。画像合成に係るブロック図。第３の実施形態における画像合成を説明するための図。第４の実施形態における画像合成を説明するための図。実施形態の装置で生成した符号化データのデータ構造を示す図。注目領域の視差ベクトルを探索を説明するための図。第２の実施形態における符号化処理を示すフローチャート。エッジに依存した背景領域とＲＯＩ領域合成処理のフローチャート。デプスに依存した背景領域とＲＯＩ領域合成処理のフローチャート。復号器の処理のフローチャート。実施形態における画像処理装置のブロック構成図。

以下、添付図面を参照し、本発明に係る画像処理装置の実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な例である。

［第１の実施形態］
第１の実施形態では、撮像装置に適用した例を説明する。図２２（ａ）は第１の実施形態における撮像装置１００のブロック構成図である。撮像装置１００は、ＣＰＵ、ＲＯＭ、ＲＡＭ等で構成され、装置全体の制御を司る制御部１０１を有する。他の構成については、その機能と共に以下に説明する。なお、実施形態では、説明を簡単なものとするため、符号化対象の画像は１画素が、８ビットで表される１成分のモノクロ画像として説明する。これは、あくまで説明を単純にするためのものであると理解されたい。

多視点撮像部１０２は、図１のカメラ構造を有し、１回の撮影で視点位置の異なる２×２個のサブイメージを生成し、バッファメモリ１０３に出力する。なお、図１では１個のマイクロレンズに対して２×２個のセンサが割り当てられている例であるが、１個のマイクレンズに対するセンサの個数が３×３個とするのでれば、３×３個のサブイメージを入力することになるので、サブイメージの個数は２×２に限るものではないことに注意されたい。

合成画像生成部１０４はバッファメモリ１０３に格納された２×２個のサブイメージを合成し、１枚の合成画像を生成し、第１符号化部１０８に出力する。この第１符号化部１０８は、入力した合成画像を符号化し、その符号化データを符号列生成部１１１に出力する。実施形態における、第１符号化部１０８は、非可逆符号化データを生成するＪＰＥＧ符号化器を想定している。

デプスデータ生成部１０５は、バッファメモリ１０３に格納された２×２個のサブイメージに基づき、画素位置毎のデプスデータ（奥行データ）を生成し、それを第２符号化部１０９に出力する。この第２符号化部１０８は、入力したデプスデータを符号化し、その符号化データを符号列生成部１１１に出力する。実施形態における、第２符号化部１０９は、デプス値を画素値と見立てて、可逆符号化データを生成するＪＰＥＧ−ＬＳ符号化器を想定している。

ＲＯＩ検出部１０６は、バッファメモリ１０３に格納された２×２個のサブイメージそれぞれのＲＯＩ（Region Of Interest）領域を検出し、その検出したＲＯＩ領域の座標データ（矩形の左上隅と右下隅の座標とするが、左上隅と幅、高さでも構わない）をＲＯＩ切り出し部１０７に出力する。ＲＯＩ切り出し部１０７は、ＲＯＩ検出部１０６で検出された座標データに基づき、各サブイメージ内の該当する領域を切り出し、第３符号化部１１０に出力する。第３符号化部１１０は、入力したＲＯＩ領域が表す部分画像を符号化し、符号列生成部１１１に出力する。実施形態における、第３符号化部１１０は、非可逆符号化データを生成するＪＰＥＧ符号化器を想定している。

なお、回路規模を小さくするのであれば、第１符号化部１０８、第３符号化部１１１の符号化処理を１つの符号化部で兼用しても構わない。ただし、ＲＯＩが表す部分画像は、その画質が高いことが望まれるので、量子化ステップは、背景画像を符号化する場合と比較して小さいことが望ましい。また、第１、第３符号化部を非可逆符号化データを生成するものとしたが、可逆符号化データを生成することを許容するのであれば、３つの符号化を１つの符号化部で兼用しても構わない。

符号列生成部１１１は、第１符号化部１０８、第２符号化部１０９、第３符号化部１１０からの符号化データを接続し、所定のヘッダを付加した符号化データファイルを生成する。そして、出力部１１２は、生成された符号化データファイルを、例えばメモリカードなどの記憶媒体に書き込むことになる。なお、出力対象は、メモリカードに限るものではなく、他の記憶媒体でも構わないし、場合によっては出力対象はネットワークでも良い。

以上、第１の実施形態における撮像装置１００の構成について説明した。以下、係る構成を踏まえ、更に詳しく第１の実施形態を説明する。

図３は、実施形態における被写体の例である。図示は、壁の前にある植木鉢に咲く花の写真を示し、３つの花が手前、真ん中、奥に配置されているものとする。実施形態では、これらの花の部分は被写界深度内で合焦（ピント合わす）させる。一方、壁と植木鉢は被写界深度外でレンズによりボケが生じさせると仮定して説明する。

図４は、図３の被写体を撮影した際に、２×２センサ画像の各視点の画素を集めて作成したサブイメージ４１乃至４４の例である。これらは先に説明したように、バッファ１０３に格納されることになる。本実施形態であるマイクロレンズと２×２のセンサの組み合わせで、左右方向に２段階、上下方向に２段階背景がずれた４つのサブイメージ４１乃至４４が生成されている。被写界深度内なので、４つのサブイメージ４１乃至４４内の、３つの花にはすべてピントが合っている状態になっているものとする。ただし、真ん中の花は、真の合焦位置にあり、各サブイメージにおける視差がない、もしくは無視できる視差しかないものとする。

図５は、合焦している領域がＡ，Ｂ，Ｃの３箇所あることを示している。４視点のサブイメージそれぞれは、視差を持ちながら同じようなＡ，Ｂ，Ｃ領域がある。これらが実施形態におけるＲＯＩとして扱われることになる。すなわち、ＲＯＩ検出部１０６は、各サブイメージ内の、これらのＲＯＩの座標を検出することになる。そして、ＲＯＩ切り出し部１０７は、その座標に基づき、各サブイメージからＲＯＩ内の画像を切り出し、第３符号化部１１０はそれを符号化する。

図６は、ＲＯＩ検出部１０６におけるＲＯＩ決定フローである。Ｓ６０１では、４視点のサブイメージをバッファメモリ１０３から入力する。そして、ステップ６０２では４視点のサブイメージ毎の高コントラスト部の検出を行う。高コントラスト検出は、例えば、ｍ×ｎ個の画素で構成される画素ブロック（実施形態ではｍ＝ｎ＝８とする）内の画素値の平均値を算出し、その画素ブロック内の各画素値と平均値との差分の絶対値和を求める処理で良い。絶対値和が大きいほど、その画素ブロック内には、差が大きい画素が多く含むことを意味することになるので、絶対値和はコントラストを示していると言える。絶対値和は、その程度がわかれば良いので、例えば８ビットの精度で算出する。上記の結果、４枚のサブイメージから、コントラスト値を画素とする４枚のコントラスト画像が生成されることになる。なお、生成されるコントラス画像の画素数は、オリジナルのサブイメージの１／６４の画素数となるのは明らかである。

次にステップ６０３は、各サブイメージから生成したコントラスト画像間で、水平方向、垂直方向（便宜的にｘ、ｙ方向とする）で相関の高い領域の探索処理を行う。

例えば、図４のサブイメージ４１から生成されたコントラスト画像と、サブイメージ４２から生成されたコントラスト画像間での探索処理の場合には、両コントラスト画像の一方のみを水平方向に０、１、２…とシフトさせた際の画素の差分値を求める処理を行う。そして、ステップＳ６０４において、２つのコントラスト画像にて、共通に、画素値（コントラスト値）が所定以上で、かつ、画素値の差分が所定閾値以下となる連続する領域を判定し、その領域内の画素値がＲＯＩを構成する画素と認定し、それ以外を非ＲＯＩ画素と認定する。そして、ＲＯＩに属すると認定された、水平、垂直方向に接続される領域をＲＯＩ領域として決定する。従って、サブイメージ４１から生成されたコントラスト画像と、サブイメージ４２から生成されたコントラスト画像間での探索処理では、水平方向に座標位置は異なる可能性があるものの、それら両者に共通な３つのＲＯＩ領域が検出できる。なお、ここで言う画素は、コントラスト画像における画素であるので、オリジナルのサブイメージに換算する場合には、その画素の座標を水平、垂直とも８倍する（ｍ＝ｎ＝８としているため）。実施形態の場合、ＲＯＩは矩形としているので、その矩形の左上隅、右下隅の座標を算出することになる。

同様に、サブイメージ４２内にも３つのＲＯＩが検出されることになる。サブイメージ４３のＲＯＩは、サブイメージ４１との相関に基づき求めれば良い。ただし、この場合には視差は垂直方向になる点に注意されたい。そして、サブイメージ４４内のＲＯＩの検出は、サブイメージ４１、４２、４３のいずれか１つとの視差方向に従って求めればよい。

以上の結果、実施形態の場合、サブイメージ４１乃至４４のそれぞれに、３つのＲＯＩ（「花」の部分）が検出されることになる。

図７は、ＲＯＩ間の視差を計算するための、ブロックマッチングの原理図である。図示の符号７１は左上視点のサブイメージであり、領域ａ０と相関の高い領域をサブイメージ７２、７３内で探索する。ａ１領域が視差ｘ、ａ２領域が視差ｙでそれぞれ検出できたとする。同様にサブイメージ７２と７４が視差ｙ、サブイメージ７３と７４が視差ｘで検出できた場合は、領域ａ１，ａ２，ａ３，ａ４は、各視点のサブイメージにおけるＲＯＩ領域とする。同様な判断で、ｂ０，ｂ１，ｂ２，ｂ３領域もＲＯＩ領域かどうかも判定可能となる。

ここで、リフォーカス処理について説明する。リフォーカス処理は、４枚のサブイメージから、着目しているＲＯＩにフォーカスした画像を生成する処理であって、主に復号装置側の機能でもある。図８は、リフォーカス処理のため画像位置をシフトすることの説明図である。サブイメージでは視点が異なるため、Ａ，Ｂ，Ｃ領域が少しづつ、ずれて撮影される。これを実線枠で示す。破線は、各サブイメージの同じ画素位置を示している。ＡＢＣ領域をこの位置に平行移動して加算するとその位置の領域だけ合焦（ピントが合う）その他はボケた画像になることは明らかである。領域Ａは、真の合焦位置なので、シフトしないで４つのサブイメージの平均化により、合焦画像が得られる。シフトゼロでは、領域Ｂ，領域Ｃは４つのサブイメージの平均化により合焦位置がずれたボケ画像が得られる。

一方領域Ｂは、奥側にある領域なので、４つのサブイメージ２×２の中央側に奥行位置に応じた量ｓシフトして平均化すると合焦画像が得られる。一方、このシフト量では領域Ａと領域Ｃは合焦位置がずれてボケ画像が得られる。

また、領域Ｃは、手前側にある領域なので、４つのサブイメージ２×２の外側に奥行位置に応じた量ｔシフトして平均化すると合焦画像が得られる。一方、このシフト量では領域Ａと領域Ｂは合焦位置がずれてボケ画像が得られる。

このように、４つのサブイメージのシフト量を調整して平均化することにより、目的とするＲＯＩ領域が合焦し、それ以外はボケるという再合焦（リフォーカス）した画像を生成することが可能となる。

図９は、領域Ａに合焦するような、４視点画像の合成方法を示している。実線の文字で示したブロックＡが合焦、破線で示した文字で示したブロックＢ，Ｃが合焦していないところを示している。

図１０は、領域Ｂに合焦するような、４視点画像の合成方法を示している。実線の文字で示したブロックＢが合焦、破線の文字で示したブロックＡ，Ｃが合焦していないところを示している。

図１１は、領域Ｃに合焦するような、４視点画像の合成方法を示している。実線の音字文字で示したブロックＣが合焦、破線の文字で示したブロックＡ，Ｂが合焦していないところを示している。

このように、いくつものＲＯＩのうち、ユーザが意図した１つにリフォーカスした画像を生成することが可能とまる。なお、図９乃至図１１のいずれの処理を行うかは、ユーザが例えばマウスなどのポインティングデバイスで指定した座標が、領域Ａ，Ｂ，Ｃのいずれに近いに応じて決定すれば良い。指定したＲＯＩについては合焦、指定外のＲＯＩについてはボケたた像が生成できる。

図１２は、ＲＯＩ部と背景部の合成方法の説明図である。４つのサブイメージでは背景部でボケの方向が違っていたが、シフト量０で、４つのサブイメージの加算平均をとると、ボケの平均化された背景部が生成できる。これを共通な背景画像とする。さらに、合成したブロックＡ，Ｂ，Ｃの再合焦（リフォーカス）画像と背景画像を合成することにより、画像全体のリフォーカス画像を得ることができる。

そのため、合成画像生成部１０４は、このシフト量０の４つサブイメージの加算平均した画像を生成し、第１符号化部１０８に出力する。シフト量０であるから、合成画像生成部１０４は、４つのサブイメージの同一座標位置の画素を加算し、その加算結果を４で除算した値を、合成画像中の同じ画素位置の画素値と算出するだけで良い。つまり、合成画像生成部１０４は、４つのサブイメージから、その平均画像を算出する。

因に、リフォーカス処理を行う際の、ＲＯＩ領域が示す部分画像と背景画像の合成器は、図１３に示すような構成で良い。この例でのＲＯＩが示す部分画像と背景画像を合成する時に透明度を使う方法について述べる。

図示の、符号１３０１はシフト０で合成した背景画像であり、１３０２は４視点ＲＯＩ領域のシフト合成画像である。１３０３は、透明度設定信号である。１３００は合成器で、リフォーカス後の画素値Ｐｉｘは、次式に従って算出する。
Ｐｉｘ＝ α＊Ｆｇ＋（１−α）＊Ｂｇ
ここで、ＦｇはＲＯＩ合成画像、Ｂｇは背景画像である。透明度αは、ＲＯＩ領域内（部分画像内）の各画素もしくは、微小領域の持つ画素のエッジ量を求めて、エッジ量に比例した値である。この値αは、エッジの度合いが大きければ大きいほど１に、平坦であればあるほど０になるようなブレンドの度合いを示す値でもある。故に、αはエッジの度合いを示す指標値ということもできる。このほかにも、デプスから算出する方法、領域分割結果から算出する方法なども考えられるが、これらは復号する側のリフォーカス処理であるので、これ以上の説明は省略する。

図１に戻って、デプスデータ生成部１０５は、例えば、４つのサブイメージ４１乃至４４から奥行方向の程度を示す画素単位のデプスデータを生成する。典型的には、例えばセブイメージ４１、４２に着目した場合、これらは水平軸に沿った視差があるわけであるから、２つの画像中の対応画素の水平方向の差分（視差）をもとめ、その示唆の逆数を算出することで得られる。視差が大きいということは、視点からその画素を持つ対象物までの距離が近いことを示し、逆に視差が小さいということは視点からその画素を持つ対象物までの距離が遠いことを示すからである。第２符号化部１０９は、このデプスデータを可逆符号化し、その結果を符号列生成部１１１に出力する。

符号列生成部１１１は、ＲＯＩ検出部１０６からの各サブイメージごとのＲＯＩの座標データ、第１符号化部１０８、第２符号化部１０９、第３符号化部１１０それぞれからの符号化データを入力し、復号に必要な情報を含めたヘッダに後続して、ＲＯＩ座標、それら符号化データを並べたファイルを生成し、出力部１１２に渡すことになる。

図１６は、実施形態における出力部１１２が出力するファイル構造の例を示している。最初のヘッダは、復号処理に必要なデータを格納する領域で、画像サイズ（水平、垂直方向の画素数）、色数（実施形態では色数が１）、色空間名、色のビット数、視点数など撮像システムの構成を示したデータを格納する。

背景画像は、第１符号化部１０８から出力されたシフト０で平均化して得た画像のＪＰＥＧ符号化したデータである。

後続して、最初のサブイメージ４１から抽出したＲＯＩの個数と各ＲＯＩの座標で構成されるＲＯＩデータ、そして、サブイメージ４１中の各ＲＯＩ領域の部分画像のＪＰＥＧ符号化データ（第３符号化部１１０が生成した）で構成されるＲＯＩ画像データが配置される。そして、それに後続してサブイメージ４２、４３、４４それぞれの｛ＲＯＩデータ、ＲＯＩ画像データ｝が配置される。そして、最後に、第２符号化部１０９が生成した符号化されたデプスデータが配置される。なお、最後のデプスデータであるが、表示時の背景画像の生成方法で使用する場合としない場合があり、オプションで構わない。

図１７は、ＲＯＩ領域間の視差ベクトルを符号化することの説明図である。４視点の１つを代表画像として、そのＲＯＩ領域と別の視点からの画像のＲＯＩ領域の視差ベクトルを算出し、それを符号化する。視差ベクトルは、画素単位でも良いし、画素ブロック単位でもよい。さらにその視差ベクトルを使った視差予測補償データを生成し、そのデータとそれぞれの視点の画像との差分をもとめ、その差分値を符号化することも考えられる。また、どこかの視点位置に合わせたシフト背景画像を生成すれば、その視点のＲＯＩ領域は合焦しているわけだから、代表画像のＲＯＩ領域の符号化が不要にすることも可能である。最終的には背景画像と合成するので、背景画像と代表ＲＯＩ画像の位置とその他のＲＯＩ画像との相対位置が分かればどのような方法をとっても構わない。

一部復号側の処理も含めたが、以上が実施形態における画像符号化に係る構成と処理である。ＲＯＩの個数や座標に係るデータの、全体のデータ量の占める割合は無視できる程度である。よって、本実施形態で生成されるデータ量は、図１６に示すように、１つのシフトゼロの合成画像、各サブイメージ内のＲＯＩ画像の符号化データ、及び、オプションであるがデプスデータの符号化データである。４つのサブイメージそれぞれをＪＰＥＧ符号化する場合の合計量と比較して、十分に小さいデータ量とすることができるのは、理解できよう。

実施形態における符号化データファイルのフォーマットは図１６に示す通りであるが、そのファイルを構成する個々の符号化データはＪＰＥＧやＪＰＥＧ−ＬＳ等の周知のアルゴリズムに従って生成しているだけである。また、復号装置は、ヘッダを解析し符号化データを復号すれば良いだけであるので、ここでの詳述は省略する。

以上説明したように実施形態によれば、多視点画像データから１枚の背景画像を生成し、その背景画像の符号化データと、各視点の画像中のＲＯＩ領域の画像の符号化データで構成されるデータを、多視点画像データの符号化データとした。この結果、各視点の画像データを符号化する場合よりもはるかに少なく、かつ、復号する側では、自然な背景を有し、所望とするＲＯＩにリフォーカスした画像を簡単に生成することも可能になる。

［第２の実施形態］
上記は図２２（ａ）の構造を持つ装置として説明したが、その処理をソフトウェア（コンピュータプログラム）として実装しても良い。この場合、このソフトウェアは、ＰＣ（パーソナルコンピュータ）等、一般のコンピュータのメモリにインストールされることになる。そしてこのコンピュータのＣＰＵがこのインストールされたソフトウェアを実行することで、このコンピュータは、上述の画像処理装置の機能を実現することになる。即ち、このコンピュータは、上述の画像処理装置に適用することができる。第１の実施形態に係る多視点画像符号化装置に適用可能なコンピュータのソフトウェアで実現する場合の、コンピュータハードウェア構成例を図２２（ｂ）に示し、以下に説明する。

ＣＰＵ１５０１は、ＲＡＭ１５０２やＲＯＭ１５０３に格納されているコンピュータプログラムやデータを用いて、コンピュータ全体の制御を行うと共に、画像処理装置が行うものとして説明した上述の各処理を実行する。

ＲＡＭ１５０２は、コンピュータ読み取り可能な記憶媒体の一例である。ＲＡＭ１５０２は、外部記憶装置１５０７や記憶媒体ドライブ１５０８からロードされたコンピュータプログラムやデータ、Ｉ／Ｆ（インターフェース）１５０９を介して外部装置から受信したデータなどを一時的に記憶するためのエリアを有する。更に、ＲＡＭ１５０２は、ＣＰＵ１５０１が各種の処理を実行する際に用いるワークエリアを有する。即ち、ＲＡＭ１５０２は、各種のエリアを適宜提供することができる。ＲＯＭ１５０３は、コンピュータ読み取り可能な記憶媒体の一例であり、コンピュータの設定データや、ブートプログラムなどが格納されている。

キーボード１５０４、マウス１５０５は、コンピュータの操作者が操作することで、各種の指示をＣＰＵ１５０１に対して入力することができる。表示装置１５０６は、ＣＲＴや液晶画面などにより構成されており、ＣＰＵ１５０１による処理結果を画像や文字などでもって表示することができる。例えば、上記入力画像を表示や、多視点画像符号化装置で変換した結果の表示ができる。

外部記憶装置１５０７は、コンピュータ読み取り記憶媒体の一例であり、ハードディスクドライブ装置に代表される大容量情報記憶装置である。外部記憶装置１５０７には、ＯＳ（オペレーティングシステム）や、図２２（ａ）に示した各部の機能をＣＰＵ１５０１に実現させるためのコンピュータプログラムやデータ、上記入力画像のデータ、既知の情報として説明した情報等が保存されている。外部記憶装置１５０７に保存されているコンピュータプログラムやデータは、ＣＰＵ１５０１による制御に従って適宜ＲＡＭ１５０２にロードされ、ＣＰＵ１５０１による処理対象となる。

記憶媒体ドライブ１５０８は、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどの記憶媒体に記録されているコンピュータプログラムやデータを読み出し、読み出したコンピュータプログラムやデータを外部記憶装置１５０７やＲＡＭ１５０２に出力する。なお、外部記憶装置１５０７に保存されているものとして説明した情報の一部若しくは全部をこの記憶媒体に記録させておき、この記憶媒体ドライブ１５０８に読み取らせても良い。

Ｉ／Ｆ１５０９は、外部装置をコンピュータに接続する為のものである。例えば、図１で説明した、多眼方式による撮像装置など、上記入力画像を取得するための装置を、このＩ／Ｆ１５０９に接続し、この外部装置から入力画像をＩ／Ｆ１５０９を介してＲＡＭ１５０２や外部記憶装置１５０７に取得するようにしても良い。１５１０は、上述の各部を繋ぐバスである。

上述構成において、本コンピュータの電源がＯＮになると、ＣＰＵ１５０１はＲＯＭ１５０３に格納されている上記ブートプログラムに従って、外部記憶装置１５０７からＯＳをＲＡＭ１５０２にロードする。この結果、キーボード１５０４、マウス１５０５を介した情報入力操作が可能となり、表示装置１５０６にＧＵＩを表示することが可能となる。ユーザが、キーボード１５０４やマウス１５０５を操作し、外部記憶装置１５０７に格納された画像処理用アプリケーションプログラムの起動指示を入力すると、ＣＰＵ１５０１はこのプログラムをＲＡＭ１５０２にロードし、実行する。これにより、本コンピュータが上記の画像処理装置として機能することになる。

ＣＰＵ１５０１が実行する画像処理用のアプリケーションプログラムは、基本的に図２２ａに示す各構成要素に相当する関数を備えることになる。ここで、符号化対象の４視点画像は、Ｉ/Ｆ１５０９を介して外部の撮像装置から受信するものとするが、外部記憶装置１５０７に予め格納されていても構わない。また、符号化データファイルは、外部記憶装置１５０７に保存するものとして説明する。

以下、そのアプリケーションプログラムを実行した際のＣＰＵ１５０１の処理手順を図１８のフローチャートに従って説明する。

ステップＳ１８０１では、４視点サブイメージそれぞれについて高コントラスト領域を抽出する。高コントラスト検出法は、既に説明したように画素ブロック内の平均値と平均値から差分の絶対値和を求め、その値が予め決めた閾値以上にブロックで良い。ステップ１８０２では、図６で示したような視差算出を行う。ステップ１８０３では、図６で示したようなＲＯＩ領域を決定する。ステップ１８０４では、デプス推定を行う。デプス推定は画素毎の視差の逆数を求めるものとするが、それ以外でも構わない。ステップ１８０５では、背景領域のシフトゼロの合成画像を生成する。この場合、特にシフト０に限定することなく、平均化により代表画像としたい画像を１つ用意する。ステップ１８０６では、ＲＯＩ領域の符号化を行う。符号化はそのままの状態で、ＪＰＥＧなどの静止画符号化でもよいし、図１７で示したような視差ベクトルやその視差ベクトルで予測した画像との差分を用いる方式でも構わない。ステップ１８０７では、背景領域をＪＰＥＧなどの静止画符号化で符号化する。ステップ１８０８では、デプスの符号化を行うが、これもＪＰＥＧを使う場合、そのほかデプス用符号化でも構わない。そして、ステップＳ１８０９にて、復号に必要な情報を含むヘッダを生成し、後続して、上記のようにして生成された各データを並べ、図１６に示すような符号列のデータファイルを生成し、外部記憶装置１５０７に格納する。

次に、背景画像、各ＲＯＩの画像を利用した、復号装置側の合成処理を図１８のフローチャートに従って説明する。

ステップ１９０１では合成しようとするＲＯＩ領域の各画素のエッジ強度を算出する。算出方法は、ラプラシアンフィルタなど公知の方法でもよい。ステップ１９０２では透過率演算方法で、エッジ量が高い時ほど透明度が１に近い値になり、エッジ量が低いほど透明度が０になるような透明度αを設定する。

ステップ１９０３では、合成後の画素値Ｐｉｘを、
Ｐｉｘ＝（１−α）＊Ｂｇ＋α＊Ｆｇ
の計算式で計算する。ここで、ＦｇはＲＯＩ合成画像、Ｂｇは背景画像である。この場合の背景領域はシフト０合成画像を使用する。

図２０は、デプスに依存した背景領域とＲＯＩ領域合成処理のフローチャートである。ステップ２００１ではデプスを復号する。ステップ２００２では各視点位置に対するローカルデプスを算出する。ステップ２００３ではデプスの値に応じて透過率αを演算する。デプス値が大きい、すなわち、奥に位置するほどαを１に近づける。ステップ２００４では画素値Ｐｉｘを、
Ｐｉｘ＝α＊Ｂｇ＋（１−α）＊Ｆｇ
の計算式で計算する。この場合の背景領域は前景を抜いた背景画像を使用することが考えられる。

図２１は、表示方法切り替えにより復号方法を自由焦点のみか、もしくは自由視点＋自由焦点を切り替える処理のフローチャートである。ステップ２１０１では、符号データから背景領域の復号をする。ステップ２１０２では、オプションで入っているデプス情報を復号する。

ステップ２１０３では、４視点毎の注目領域（ＲＯＩ）を復号する。ステップ２１０４では、リフォーカスをするのか、自由視点で復号するのか、図示しないユーザー入力手段からの信号で切り替える。リフォーカスの場合は、背景画像はそのまま使用する。ステップ２１０５では、合焦位置入力をする。ステップ２１０６では、ＲＯＩ領域をシフトして合成画像を生成する。ステップ２１０７では、背景領域とＲＯＩリフォーカス画像を合成する。一方、ステップ２１０８では、表示したい視点位置と合焦位置を入力する。ステップ２１０９では、視点位置に応じた背景画像シフトを行う。ステップ２１１０では、ＲＯＩ領域をシフトしてＲＯＩリフォーカス画像を合成する。ステップ２１１１では、背景領域とＲＯＩリフォーカス画像を合成する。

以上説明したように、コンピュータプログラムによっても、第１の実施形態と同様の作用効果を奏することが可能となる。

［第３の実施形態］
図１４は、背景部をデプス情報で作った場合の例である。デプス情報は、視点の異なる２枚の画像のステレオマッチングから求めた視差をデプス変換するような公知技術で求めるたり、別のデプスカメラで撮影されたデプス画像を使ってもよい。

符号１４０１はシフト量０で合成しボケの方向性を抑制した画像である。また１４０２はデプス画像で距離が近い方が白、遠い方が黒でグレースケール表現されている。選択器１４０３では、距離情報に応じて切り替える。本方式では、距離が遠い画素は、背景画像１４０４の方を選択し、距離が近い固定画素値（白画素）を選択し出力する。

また１４０５〜１４０７は、各視点のＲＯＩ領域の画像で、シフト量Ａ１４１２を与えて、４視点合成画像１４０８〜１４１０を得る。これらと背景画像１４０４を合成器１４１１で画像合成する。

これにより、背景と前景の合成による不具合を減らすことができる。

［第４の実施形態］
図１５は、視点に応じた、リフォーカス調整方式の例である。１５００はシフト０合成画像で、共通の背景画像として使用する。１５０１〜１５０４は、各視点位置に応じて、画像１５００をシフトして作った視点毎の背景画像である。

これに、前述してきたＲＯＩ部Ａ、Ｂ、Ｃのリフォーカス画像１５０５を生成し、各位置を調整して背景画像と合成すると、視点、フォーカス位置を独立に調整できたリフォーカス画像１５０６乃至１５０８を生成することができる。

背景画像のシフト量は、まず視点毎のＲＯＩ領域の視差量と、そこに対するデプス情報から、視点毎の撮影位置を求める。次に背景部のデプス情報から背景部の視差である背景シフト量を算出することができる。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

多視点画像データを符号化する画像処理装置であって、
前記多視点画像データを構成する各視点のサブイメージ内の同じ位置の画素の値の平均値を算出することで、算出した平均値を該当する位置の画素値とする平均画像を生成する生成手段と、
前記各サブイメージに共通な少なくとも１つのＲＯＩ領域を検出する検出手段と、
前記生成手段で生成された前記平均画像、及び、前記検出手段で検出した各サブイメージ内の各ＲＯＩ領域で示される部分画像を符号化し、前記検出手段が検出したＲＯＩ領域の位置を示す情報と合わせて符号列を生成する符号列生成手段と、
を有することを特徴とする画像処理装置。
更に、前記各視点のサブイメージから、デプスの度合いを画素値とするデプスデータを生成するデプスデータ生成手段を有し、
前記符号列生成手段は、前記デプスデータ生成手段で生成したデプスデータを可逆符号化し、前記符号列に含めることを特徴とする請求項１に記載の画像処理装置。
前記符号列生成手段は、
前記平均画像を符号化する第１符号化手段、
前記デプスデータを符号化する第２符号化手段と、
前記ＲＯＩ領域で示される各部分画像を符号化する第３符号化手段を有し、
前記第１、第３符号化手段は非可逆符号化を行い、前記第２符号化手段は可逆符号化を行うことを特徴とする請求項２に記載の画像処理装置。
ユーザがいずれかのＲＯＩ領域を指定したことに応じて、各サブイメージのＲＯＩ領域の部分画像に基づき、指定したＲＯＩ領域についてはフォーカスした部分画像を生成し、前記指定外のＲＯＩ領域についてはぼかした部分画像を生成し、各部分画像を、前記生成手段が生成した平均画像を背景画像として合成することで、リフォーカス画像を生成する画像生成手段を有することを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。
前記画像生成手段は、
ＲＯＩ領域の部分画像のエッジの度合いを示すαを算出し、
前記部分画像内の画素値をＦ、前記背景画像における画素値をＢとしたとき、合成後の画素値Ｐを、ＦとＢとをαの大きさに応じてブレンドして定めることを特徴とする請求項４に記載の画像処理装置。
多視点画像データを符号化する画像処理装置の制御方法であって、
生成手段が、前記多視点画像データを構成する各視点のサブイメージ内の同じ位置の画素の値の平均値を算出することで、算出した平均値を該当する位置の画素値とする平均画像を生成する生成工程と、
検出手段が、前記各サブイメージに共通な少なくとも１つのＲＯＩ領域を検出する検出工程と、
符号列生成手段が、前記生成工程で生成された前記平均画像、及び、前記検出工程で検出した各サブイメージ内の各ＲＯＩ領域で示される部分画像を符号化し、前記検出工程が検出したＲＯＩ領域の位置を示す情報と合わせて符号列を生成する符号列生成工程と、
を有することを特徴とする画像処理装置の制御方法。
コンピュータに読み込ませ実行させることで、前記コンピュータを、請求項１乃至５のいずれか１項に記載の画像処理装置として機能させるためのプログラム。
請求項８に記載のプログラムを格納した、コンピュータが読み込み可能な記憶媒体。