JP2013098740A - 画像処理装置及びその制御方法 - Google Patents
画像処理装置及びその制御方法 Download PDFInfo
- Publication number
- JP2013098740A JP2013098740A JP2011239557A JP2011239557A JP2013098740A JP 2013098740 A JP2013098740 A JP 2013098740A JP 2011239557 A JP2011239557 A JP 2011239557A JP 2011239557 A JP2011239557 A JP 2011239557A JP 2013098740 A JP2013098740 A JP 2013098740A
- Authority
- JP
- Japan
- Prior art keywords
- viewpoint
- viewpoint position
- hierarchy
- image
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
【課題】2次元のアレイ状に並んだM×N個の撮像手段で撮像された画像の符号化データから、或る1つの視点位置の画像を復号する際に、復号処理に係る負荷の軽減、復号処理に速度を向上させる。
【解決手段】2次元に配置されたM×N個のカメラ部による四隅の視点位置を、単独で符号化する画像を接続する第1階層に属する視点として決定し、第1階層に属する2視点位置で得られる画像を参照画像とする視点位置を第2階層に属する視点位置として決定し、第1、第2階層のいずれにも属さない視点位置を第3階層に属する視点位置として決定する。そして、第3階層に属する着目視点位置に対する参照視点位置を、当該着目視点位置に対する参照画像を撮像する第2階層の各視点位置候補の中から、第2階層の各視点位置候補にとっての参照画像を撮像する第1階層に属する視点位置数が少ない方を着目視点位置に対する参照視点位置として決定する。
【選択図】図9
【解決手段】2次元に配置されたM×N個のカメラ部による四隅の視点位置を、単独で符号化する画像を接続する第1階層に属する視点として決定し、第1階層に属する2視点位置で得られる画像を参照画像とする視点位置を第2階層に属する視点位置として決定し、第1、第2階層のいずれにも属さない視点位置を第3階層に属する視点位置として決定する。そして、第3階層に属する着目視点位置に対する参照視点位置を、当該着目視点位置に対する参照画像を撮像する第2階層の各視点位置候補の中から、第2階層の各視点位置候補にとっての参照画像を撮像する第1階層に属する視点位置数が少ない方を着目視点位置に対する参照視点位置として決定する。
【選択図】図9
Description
本発明は多視点画像の符号化技術に関するものである。
従来から、複数の視点で映像を撮影し、撮影した多視点映像を利用してステレオ立体視や、自由視点映像合成といった映像表現を実現する方法が知られている。そのような映像表現を実現するためには、多視点で撮影した映像を保存する必要がある。当然、それらを圧縮符号化するにしても、1枚の画像の符号量に対し、視点数に比例した符号量になってしまう。
このような状況を顧み、多視点映像の相関を利用してデータ量を削減する符号化方式が検討されている。代表的なものとしてH.264/MPEG−4 AVC multiview video coding (以下、MVC)が知られている。MVCでは、ある視点(以下、視点1)の映像を、異なる視点(以下、視点2)の映像を用いて視差補償予測によって予測し、視点1の映像と予測画像との差分を符号化することで、視点1の映像そのものを符号化する場合に比べてデータ量を削減する。ここで、視差補償予測は、動画のフレーム間の相関を利用した圧縮技術として知られている動き補償予測を、異なる視点間の映像に適用したものである。MVCの規格では、ある視点の映像を予測するためにどの視点の映像を用いるかまでは規定されていないが、それによって圧縮率や符号化速度、各視点の復号に必要なステップ数などが変化するため、目的に沿って視点間の予測関係を最適に決める必要がある。
ここで、各視点の復号に必要なステップ数について本明細書中での意味を補足する。別の視点の映像を用いて注目視点の映像を予測復号する場合は、まず予測に用いた視点の映像を復号して、その後予測符号化した視点の映像を復号する必要がある。このように、各視点の映像を復号するために必要な映像の総数を、本明細書では復号に必要なステップ数と呼ぶ。先ほどの例では、まず視点2を復号し、その復号結果を利用して視点1を復号する必要がある。この場合は視点1の復号に必要なステップ数は2である。また、視点2が視点3の映像から予測符号化されている場合には、視点1の復号には視点3の復号も必要となるため、視点1の復号に必要なステップ数は3となる。
圧縮率を決める主な要因は、予測に用いる視点数、視点間の位置関係が挙げられる。予測に用いる視点数が増えるほど予測の精度が向上し差分データ量が削減できる可能性が高い。また、視点間の位置関係は予測に用いる視点と予測される視点とが近い位置にあり同じ向きを向いているほど、撮影した映像の類似性が高くなるためデータ量が削減できる可能性が高い。また、視点間の位置関係は、複数の視点を予測に用いる場合は内挿予測になっている方がデータ量を削減できる可能性が高い。ここで内挿予測とは、視点数が2つの場合は、予測に用いる2つの視点の位置座標を線分で結んだ場合に、予測対象の視点がその線分上に位置することを意味する。
符号化速度を決める主な要因は、予測に用いる視点数がある。予測に用いる視点数が増えるほど、視差補償予測の際に画像間の類似した領域を探索する際の探索範囲が増え、符号化に時間がかかる。
視点間の予測関係を検討した従来技術には特許文献1に記載の方法が知られている。特許文献1では、第1ステップで複数のカメラの中心にあるカメラを符号化し、第2ステップでは中央のカメラに隣接するカメラを予測して符号化し、以下、前のステップで符号したカメラに隣接するカメラを繰り返す符号化が述べられている。例えば2次元アレイ状に3×3個並んだカメラを符号化する場合は、まず中心にあるカメラを符号化し、次に中心のカメラに対して上下左右に隣接する4つのカメラを符号化し、最後に4隅にある4つのカメラを符号化する。
また、1列に配置したカメラで撮影した静止画像の視点間の予測関係は、単視点で撮影した動画のフレーム間予測の予測関係と同様であると見なせる。動画のフレーム間予測では、数フレーム毎にキーピクチャを設定し、2つのキーピクチャの間にあるフレームについては、2つのキーピクチャの外側にあるフレームは参照しないという制約を設けることで、部分復号を可能にする技術が知られている(非特許文献1)。ここでキーピクチャは一般に、他のフレーム(もしくは他の視点)の映像を利用した予測を行わずに符号化するIピクチャ、もしくは1つのフレーム(もしくは他の1つの視点)から予測を行うPピクチャとして符号化される。また、キーピクチャ以外の画像はPピクチャ、もしくは複数の画像を用いて予測を行うBピクチャとして符号化される。非特許文献1ではさらに、階層Bピクチャ構造を用いて、キーピクチャ以外のフレームを全て2枚の画像を用いた内挿予測で行うことで、圧縮率を向上させている。
Schwarz H., Marpe D., Wiegrand T.,「Analysis of Hierarchical B Pictures and MCTF」, IEEE International Conference on Multimedia and Expo 2006.
多視点映像のメリットは、先に説明したように、ステレオ立体視や、自由視点映像合成といった映像表現を利用できる点である。このためには、符号化された多視点画像データから指定した視点位置の画像を復号するまでに要する復号ステップ数が少ないことが望まれる。復号ステップ数が少ないほど高速に復号できるのは勿論、処理能力の低いプロセッサでも実用的な時間内で復号することができるからである。
しかしながら、これまでの多視点映像の符号化に係る技術は文字通り符号化側の都合に合わせるものであって、復号する側の復号処理に係るステップ数まで考慮していず、まだまだ改善の余地がある。
本発明はかかる課題に鑑みなされたものであり、復号側における復号処理に係るステップ数がこれまでよりも少なくできる、多視点画像の符号化データを生成することを可能ならしめる技術を提供しようとするものである。
この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、
多視点画像を生成するために2次元のアレイ状に並んだM×N個の撮像手段を有するカメラ装置における、M×N個の各画像の符号化順序、ならびに、単独で符号化するか、参照して予測符号化するのかを示す情報を格納したテーブルを生成する画像処理装置であって、
前記2次元アレイの「M×N」のM、Nの値を設定する設定手段と、
該設定手段で設定された2次元アレイにおける各撮像手段の視点位置を、最初に単独で符号化を行う第1階層、その次に予測符号化する第2階層、最後に予測符号化を行う第3階層のいずれかに分類し、当該分類した結果を示すテーブルを生成するテーブル生成手段とを備え、
当該テーブル生成手段は、
前記2次元アレイのM×N個の撮像手段における、少なくとも四隅の位置に配置された各撮像手段の視点位置を前記第1階層に属する視点位置として決定し、
前記第1階層に属する2視点位置の撮像手段を参照画像を撮像する参照視点位置の撮像手段とし、当該参照視点位置を結ぶ線上に位置する撮像手段の各視点位置を第2階層に属する視点位置として決定し、
前記第1、第2階層のいずれにも属さない視点位置を第3階層に属する視点位置として決定する決定手段を有し、
該決定手段は、
前記第3階層に属する着目視点位置に対する参照視点位置を、当該着目視点位置に対する参照画像を撮像する前記第2階層の各視点位置候補の中から、該第2階層の各視点位置候補にとっての参照画像を撮像する第1階層に属する視点位置数が少ない方を、前記着目視点位置に対する参照視点位置として決定することで前記テーブルを生成することを特徴とする。
多視点画像を生成するために2次元のアレイ状に並んだM×N個の撮像手段を有するカメラ装置における、M×N個の各画像の符号化順序、ならびに、単独で符号化するか、参照して予測符号化するのかを示す情報を格納したテーブルを生成する画像処理装置であって、
前記2次元アレイの「M×N」のM、Nの値を設定する設定手段と、
該設定手段で設定された2次元アレイにおける各撮像手段の視点位置を、最初に単独で符号化を行う第1階層、その次に予測符号化する第2階層、最後に予測符号化を行う第3階層のいずれかに分類し、当該分類した結果を示すテーブルを生成するテーブル生成手段とを備え、
当該テーブル生成手段は、
前記2次元アレイのM×N個の撮像手段における、少なくとも四隅の位置に配置された各撮像手段の視点位置を前記第1階層に属する視点位置として決定し、
前記第1階層に属する2視点位置の撮像手段を参照画像を撮像する参照視点位置の撮像手段とし、当該参照視点位置を結ぶ線上に位置する撮像手段の各視点位置を第2階層に属する視点位置として決定し、
前記第1、第2階層のいずれにも属さない視点位置を第3階層に属する視点位置として決定する決定手段を有し、
該決定手段は、
前記第3階層に属する着目視点位置に対する参照視点位置を、当該着目視点位置に対する参照画像を撮像する前記第2階層の各視点位置候補の中から、該第2階層の各視点位置候補にとっての参照画像を撮像する第1階層に属する視点位置数が少ない方を、前記着目視点位置に対する参照視点位置として決定することで前記テーブルを生成することを特徴とする。
本発明によれば、多視点画像を生成するために2次元のアレイ状に並んだM×N個の撮像手段で撮像された画像の符号化データから、或る1つの視点位置の画像を復号する際に、その画像を復号するまでに要するステップを少なくでき、復号処理に係る負荷の軽減、復号処理に速度を向上させることができる。
以下、添付図面に従って本発明に係る実施形態を詳細に説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、あくまで特許請求の範囲に記載の具体的な例であることに注意されたい。
[原理の説明]
2次元アレイ状にM×N個のカメラを配置して撮影したM×N枚の多視点画像から、或る1つの視点位置の映像を復号するための都合の良い符号化データを生成する場合について考察する。
2次元アレイ状にM×N個のカメラを配置して撮影したM×N枚の多視点画像から、或る1つの視点位置の映像を復号するための都合の良い符号化データを生成する場合について考察する。
符号化効率を無視するのであれば、個々のカメラで撮影して得られた映像を、それぞれ独立して符号化することである。しかし、これでは符号量がカメラの個数に比例したものとなってしまう。そこで、M×N個のカメラのうち、限られた数のカメラからの映像については独立して符号化し、それ以外のカメラからの映像については予測符号化を用いる。予測符号化の場合、その予測画像(予測映像)を生成し、実際の映像との差分を算出し、その算出した差分を符号化することになる。当然、その予測画像を生成する際に参照する映像をどれにするかを決める必要がある。予測画像の生成方法として内挿予測を用いるものとすると、予測画像を生成する際に参照する2つの画像を撮影する2視点位置を結ぶ直線上で、且つ、その2視点位置の間に、予測符号化しようとする映像を撮影する視点位置があることが望ましいことになる。当然、2次元配列の四隅の各視点位置の1つに着目すると、その視点位置を通る直線上に、それを挟む他の2つの視点位置は存在しない。それ故、少なくとも2次元配列の四隅にある各視点位置の映像それぞれについては単独で符号化する必要がある。換言すれば、四隅以外の視点位置については、内挿予測符号化を適用できることになり、高い圧縮率が期待できることとなる。
一方、復号装置にて予測符号化された画像を復号する場合を考察する。この場合、それ以前にその予測画像を生成するための他の2つの映像が復号済みとなっていなければならない。結局のところ、単独で符号化した映像を先ず復号しなければならない。それ故、以降では、単独に符号化する映像をキーピクチャと呼ぶこととする。
ここで、より具体的に説明するため、2次元アレイ状に5×5個のカメラ部を等間隔で配置して撮影した5×5(=25)枚の多視点画像を符号化する画像処理装置(多視点画像符号化装置)場合について考察する。図17は、5×5個のカメラ部(符号702はその1つを示している)を有する撮像ユニットを接続した多視点画像符号化装置700を示している。図示の符号701がシャッターボタンである。
図1に、2次元アレイ状に5×5個のカメラ部702を配置した場合の、各視点位置の関係を示す。図示のV1乃至V25が各視点位置を特定する符号である。以降、例えば右下隅位置の視点を、図1に従い「視点V5」と表現する。また、実施形態における、内挿予測画像の生成に係る条件としては、内挿予測画像を生成する際に参照することになる2つの視点が共にキーピクチャの視点となり得るのは、符号化対象の視点とその参照画像を生成する2つの視点の並びが、垂直、水平、又は、斜め45度の直線上にある場合とする。そして、内挿予測画像を生成する際に参照する2つの視点が共に非キーピクチャの視点である場合には、符号化対象の視点とその参照画像を生成する2つの視点の並びは、垂直、又は、水平のいずれかであるとする。
図1に示す如く、四隅の太枠の視点V1、V5、V21、V25がキーピクチャの視点である。そして、視点V3の内挿予測画像は、図示の通り視点V1、V5における2つのキーピクチャから生成できることを示している。視点V7の内挿予測画像は視点V1、V25の2つのキーピクチャから生成できることを示し、視点V9の内挿予測画像は視点V5、V21の2つのキーピクチャから生成できることを示している。そして、視点V13(配列の中心)の内挿予測画像は視点V5、V21の2つのキーピクチャから生成できることを示している。なお、視点V13の内挿予測画像は、視点V1、V25のキーピクチャの組からも作成しても構わない。
当業者であれば容易に推察されるように、視点V1乃至V5並びにおいて、視点V1、V5におけるキーピクチャは、H.264/MPEG−4 AVC Multiview video codingに定められた形式のiピクチャに相当する。そして、視点V1、V5の中間に位置する視点V3の非キーピクチャは同Bピクチャに相当する。すなわち、空間軸か時間軸かの違いであって、同じ原理で予測画像を生成できる。
さて、視点V3、V7、V9、V13の映像を復号する場合の復号装置における復号処理を各段階で分けると、図2に示すようになる。先ず、最初に復号する必要がある映像はキーフレームであり、そのキーフレームの映像を得る視点V1、V5、V21、V25が第1階層に配置される。そして、その第1階層の次に復号することになる第2階層には、視点V3、V7、V9、V13が配置されることになる。
ここで、図1における破線で示された視点V8、V12、V14、V18を着目すると、そのいずれもが、その視点位置を通る直線上に位置し、その視点位置を挟む垂直、水平、斜め45度の線上には2つのキーピクチャは存在しない。それ故、例えば視点V8に着目した場合、質の高い内挿予測画像を生成するには、その視点に最も近い左右に位置する視点V7、V9の映像を参照して生成するか、もっとも近い上下に位置する視点V3、V13の映像を参照して生成するかのいずれかとなる。かかる点を復号する側の見地から言えば、視点V8の映像は、視点V7、V9、又は、V3、V13の映像の復号処理が完了するのを待って復号しなければならないことになる。つまり、視点V8の映像を復号するには、第2階層までの視点の映像の復号処理が完了していることが必要になる。それ故、この視点V8は、最後に符号化する第3階層に属することとなる。
ここで、視点V8の映像を復号する際に参照する2つの映像の視点の組がV7、V9の場合の復号処理の階層構造を示したのが図3である。
図3に示すように、視点V7は視点V1、V21の映像を参照することになる。そして、視点V9は視点V5、V25の映像を参照することになる。つまり、視点V8の映像の復号する以前に、図3の破線で示す第1階層のV1、V5、V21、V25、第2階層のV7、V9の計6個の映像の復号が完了していなければならない。しかも、第2階層の視点V7、V9の映像は、それ以前に第1階層の視点V1、V5、V21、V25の復号処理が完了するまで開始できない。そして、第3階層の視点V8の映像は、第2階層の視点V7、V9の映像の復号処理が完了するまで開始できない。
更に、もし復号装置が、3つのプロセッサを有する場合(或いは、同時実行できる復号回路が3つの場合)、視点V8の映像を復号するまでのサイクルは次の通りとなる。すなわち、最初のサイクルでは、3つのプロセッサで視点V1,V5,V21の映像をそれぞれ復号する。次のサイクルでは、視点V7、V25の2つの映像しか復号できない(視点V9の映像は、視点V5とV25の両方の復号処理が完了しないと開始できない点に注意)。つまり、第2サイクルでは1つのプロセッサが利用できないことになる。その次の第3サイクルでは1つのプロセッサで視点V9の映像のみが復号し、残りの2つのプロセッサは利用できない(視点V8の映像は視点V7、V9の両方がないと復号を開始できない点に注意)。そして、第4サイクル目になってはじめて視点V8の映像の復号が開始できることになり、復号効率面で問題が残る。
次に、視点V8の映像を復号する際に参照する映像の視点の組がV3、V13の場合について考察する。この場合の復号処理階層を示したのが図4である。
図4に示すように、視点V3は視点V1、V5の映像を参照することになる。そして、視点V13は視点V5、V21の映像を参照することになる。つまり、視点V8の映像の復号する以前に、図3の破線で示す第1階層のV1、V5、V21、第2階層のV3、V13の計5個の映像の復号が完了していれば良いことになる。視点V8を復号するために視点V3、V13の組を利用した場合、視点V7、V9の組を利用する場合と比較し、復号する画像数が1つ少なくできることになる。言い換えれば、処理の負荷が5/6にできることになる。
因に、同時実行できるプロセッサ数が3の場合に当てはめてみる。この場合第1サイクルでは視点V1、V5、V21のキーピクチャを復号する。そして、第2サイクルでは視点V3、V13を復号し、第3サイクルで視点V8が復号できることなる。この結果、プロセッサ(もしくは復号回路)の稼働率を上げることが可能になり、短時間に視点V8の映像を復号できることになる。
ここまでの説明をまとめると、第3階層に属する視点(以下、着目視点)の映像を復号する場合、その視点位置を挟む最寄りの水平線上にある第2階層の2視点位置、その視点位置を挟む最寄りの垂直線上にある第2階層の2視点位置のいずれ一方を採用する。そしてその採用は、それぞれの第1階層の参照する視点位置の個数が少ない方を採用すれば良い。図3の場合の第1階層における参照視点数は4であり、図4の場合の第1階層における参照視点数は3である。
上記のように、図5に示す2次元アレイ状に5×5個のカメラを配置して撮像ユニットを有する装置の場合、視点V1乃至V25を上記の原理に従い3つの階層L1、L2、L3のいずれかに分類する。キーピクチャを撮影する視点L1を除く他の視点位置L2、L3については、その視点位置の予測画像を生成するために参照する2つの画像それぞれの視点を上記のアルゴリズムに従い決定する。図5の下図がこの原理に従って生成されたテーブルを示している。例えば、視点V8の場合、テーブル内では「L3(V3、V13)」となっているので、視点V8は第3階層に属している点、ならびに、予測符号化する際に参照する視点位置はV3、V13であることがわかる。以降、この2次元アレイ状の5×5個のカメラで撮影した画像を符号化するとき、このテーブルを参照して、先ず第1階層L1に属する視点の画像をキーピクチャとして符号化する。第1階層L1に属する全ての視点の画像の符号化を終えると、第2階層L2に属する視点の画像について予測符号化を行う。そして、その後第3階層L3に属する視点の画像を予測符号化することになる。以上実施形態における符号化に係る原理を説明した。
[装置構成の説明]
図6は本実施形態における多視点画像符号化装置700のブロック構成図である。
図6は本実施形態における多視点画像符号化装置700のブロック構成図である。
撮像ユニット101は、2次元アレイ状に配置したカメラ部702を有する撮影ユニットであり、その搭載されているカメラ部の数に応じた種類がある。撮像ユニット判定部102は、接続した撮像ユニット101と通信し、搭載されたカメラ部の配列「M×N」のM,Nの値を判定する。そして、判定したM,Nから先に説明したテーブル、すなわち、M×N個の各画像の符号化順序、ならびに、単独で符号化するか、参照して予測符号化するのかを示す情報を格納したテーブル(実施形態では参照視点ルックアップテーブル)を作成し、参照視点LUT記憶部103に格納する。このため、撮像ユニット判定部102は、「機種識別情報+搭載しているカメラの配列情報(M×N)」を1レコードとするデータベースを保持するためのメモリを内蔵する。撮像ユニット101との通信で、機種識別情報を取得すると、取得した機種識別情報をキーにして、データベースを検索することで、接続された撮像ユニット101におけるカメラの配列「M×N」を判定する。なお、ユーザが操作部111を操作して、M、Nの値を直接設定しても構わない。また、撮像ユニット101を交換しないかぎり、生成した参照視点ルックアップテーブルは変更がないので、参照視点LUT記憶部103は不揮発性の記憶媒体であることが望ましい。
ピクチャ選択部104は、内部にバッファメモリ(不図示)を有し、そのバッファメモリ内に、撮像ユニット101から供給されてきたM×N枚の画像を一時的に格納する。そして、ピクチャ選択部104は、参照視点LUT記憶部103に記憶された参照視点ルックアップテーブルを参照し、バッファメモリに格納された画像の選択と、その選択画像の第1の符号化部105、参照画像生成部106、第2の符号化部107へと出力を行う。なお、係る処理の操作は後述する説明から明らかにする。
第1の符号化部105は、キーピクチャーをMVCにおけるiピクチャーと同様にして符号化し、符号化データを出力する。なお、符号化の種類としては、JPEG、JPEG2000、JPEG XR等でも良く、その種類は問わない。
参照画像生成部106は、ピクチャ選択部104からの2枚の画像から、その2枚の画像中の指定された内挿位置における参照画像を生成し、第2の符号化部107に出力する。第2の符号化部107は、ピクチャ選択部104からの画像を、参照画像生成部106からの画像を予測画像として用いて予測符号化し、その符号化データを出力する。つまり、参照画像生成部106及び第2の符号化部107により、予測符号化部を構成することになる。
出力部108は、所定のファイルヘッダを生成し、それをメモリ109に格納すると共に、第1の符号化部105、第2の符号化部107からの符号化データを、そのファイルヘッダに後続して格納することで、多視点画像ファイルを生成する。
制御部110は、本装置全体の制御を司るものであり、操作部111はユーザインタフェースとして機能するためにシャッターボタン701をはじめ、各種ボタン、スイッチ、更には液晶表示部で構成されている。
図7は、実施形態における多視点画像符号化装置の電源がONになった際の処理手順を示すフローチャートである。以下同図に従い説明する。
先ず、制御部110は、S101にて、接続された撮像ユニット101が、前回とは異なるタイプであるかどうかを判定する。もし、異なるタイプであると判定した場合、S102に進み、接続された撮像ユニット101に対応する参照視点ルックアップテーブルを作成し、撮像ユニットLUT記憶部103に格納(更新)する(詳細後述)。
また、S103にて、操作部111のシャッターボタン701が押下されたか否かを判定する。シャッターボタンの押下を検出すると、S104にて、制御部110は画像ファイルを作成すべく、ファイルヘッダを作成させる。
次いで、S105に進み、参照視点テーブルを参照し、キーフレーム(第1階層に属する視点の映像)を第1の符号化部105に順に供給し、符号化を行なわせる。この後、S106にて、参照視点テーブルに基づく第2階層に属する視点の予測符号化を行う。例えば、図5の第2階層に属する視点V3を予測符号化する場合には、ピクチャ選択部104は、視点V1、V5の映像と、その中央の位置を示すパラメータを参照画像生成部106に供給する。また、ピクチャ選択部104は、視点V3の映像を第2の符号化部107に供給する。参照画像生成部106は、与えられた視点V1、V5の映像とパラメータに従って視点V3用の予測画像を生成させる。第2の符号化部107は、視点V3の映像と、生成された予測画像を用いて予測符号化を行う。このようにして、第2階層に属する全視点の画像について予測符号化が完了すると、S107に進み、参照視点テーブルを参照して第3階層に属する視点の画像の予測符号化を行う。このS107でも、予測画像生成部106、第2の符号化部107を利用することになる。
ここで、図7のS102の参照視点テーブルの生成処理の詳細を図8のフローチャートに従って説明する。
先ず、S201にて、撮像ユニット101の種別から、搭載しているカメラ部の2次元配列「M×N」のM,Nの値を決定する。M,Nの値の決定は先に説明したデータベースを検索することで行う。次いで、S202にて、2次元配列の四隅の視点を第1階層に属する視点(キーフレームを撮影するカメラ部)として決定する。
次に、S203にて、第1階層に登録された4つの視点中の2つを選択し、その2視点間を結ぶ直線上にある視点を第2階層に属する視点として決定する。4つの視点中2つを選択する組み合わせは6通りであるので、この処理を6回行う。この結果、第2階層に属する視点が決定する。このとき、第2の階層に属する視点を決定した際に、利用した第1階層に属する2視点位置が、第2階層の視点位置の画像を予測符号化する際に参照する画像を撮影するための参照視点位置となる。この後、S204にて、第2階層に属する各視点に対する予測画像を生成する際に参照する2参照視点を決定する。
上記の結果、第1階層に属する視点が決定すると共に、第2階層に属する視点、及び、第2階層に属する視点における2参照視点が決定される。従って、S205では、第1,第2階層のいずれにも属さず、残った視点を第3階層に属するものとして決定する。そして、S206にて、第3階層に属する各視点における2参照視点を決定する。
第1乃至第3階層の視点位置の決定手順、並びに、第1、第2階層の視点位置における2参照視点の決定手順については説明するまでもないであろう。そこで、以下ではS206における第3階層に属する視点の予測符号化時に参照する2参照視点の決定処理を図9のフローチャートに従って説明する。
先ず、S301にて、第3階層に属する視点の1つを選択する(以降、この選択した視点を着目視点と呼び、その位置を着目視点位置と呼ぶ)。次いで、S302にて、注目視点位置を挟む垂直方向に位置する最寄りの第2階層の2参照視点位置候補を探し、それぞれが参照する第1階層の視点位置数Nvをカウントする。例えば、図1において、第3階層に位置する視点V8を着目視点としたとき、その着目視点位置を挟む垂直方向に位置する最寄りの第2階層の2参照視点位置候補はV3、V13である。これら視点V3、V13が参照する第1階層の視点は、図4から、V1、V5、V21の3つであるので、視点位置数Nvは“3”となる。
次に、S303に進み、注目視点を挟む水平方向に位置する最寄りの第2階層の2参照視点位置候補を探し、それぞれが参照する第1階層の視点位置数Nhをカウントする。例えば、図1において、視点V8を着目視点としたとき、その視点を挟む水平方向に位置する最寄りの第2階層の2参照視点位置候補は、V7、V9である。これら視点V3、V13が参照する第1階層の視点は、図3から、V1、V5、V21、V25であるので、視点位置数Nhは“4”となる。
この後、S304にて、NvとNhとを比較する。Nv<Nhであった場合、S305にて、着目視点を挟む垂直方向に位置する第2階層の2参照視点が、着目視点に対する最終的な2参照視点として決定する。一方、Nv<Nhを満たさない場合、S306にて、着目視点を挟む水平方向に位置する最寄りの第2階層の2参照視点が、着目視点に対する最終的な2参照視点として決定する。
そして、S307にて、第3階層に属する全ての視点についての処理が完了したか否かを判定し、否の場合にはS301以降の処理を繰り返す。
以上説明したように本実施形態によれば、2次元アレイ状にM×N個のカメラを配置して撮影したM×N枚の多視点画像を効率良く圧縮符号化できると共に、或る1つの視点位置の映像を復号する際の復号装置側の負荷も軽減させることが可能になる。
なお、実施形態では、例をして2次元アレイの配列として5×5を例にして説明したが、配列はこれに限らず、一般にM×Nで表わせる。ただし、M、Nが共に4以下の場合、全ての視点は、第1,第2階層に属することとなり、第3階層に属する視点はないので、5×5以上の場合に特に有効である。また、例えば、2次元アレイとして9×9個としたとき、その四隅の視点だけを第1階層の属するものとすると、第1階層に属する2視点間の距離が長くなり、結果、その間の予測画像の精度が落ち、符号化効率も落ちる可能性がある。そこで、例えば図10に示す斜線部のように、四隅だけでなく、各辺の中央、もしくは中央近傍にある視点も第1階層に属する視点としても構わない。このようにする例としては、2次元配列のM×N個のカメラ部のM,Nが判明したとき、それらが閾値Thよりも大きい場合、その中央位置を第1階層に属するようにしれも良いし、場合によってはユーザに問い合わせて設定させても良い。また、図10の場合、5×5の配列が、その一辺が互いに重複して4つ存在するものとして扱えば良いので、その4つのそれぞれに対して、上記実施形態の処理を適用すれば良い。
なお、実施形態では、静止画画像を撮影する例を説明したが、撮影を連続的に行えば、多視点動画像データを生成することができるので、上記静止画撮影にのみ本願発明が限定されるものではない。
<第1の実施形態の変形例>
図6に示した各部はハードウェアで構成しても良いが、ソフトウェア(コンピュータプログラム)として実装しても良い。この場合、このソフトウェアは、PC(パーソナルコンピュータ)等、一般のコンピュータのメモリにインストールされることになる。そしてこのコンピュータのCPUがこのインストールされたソフトウェアを実行することで、このコンピュータは、上述の画像処理装置の機能(図6に示した各部の機能)を実現することになる。即ち、このコンピュータは、上述の画像処理装置に適用することができる。第1の実施形態に係る多視点画像符号化装置に適用可能なコンピュータのハードウェア構成例について、図16のブロック図を用いて説明する。
図6に示した各部はハードウェアで構成しても良いが、ソフトウェア(コンピュータプログラム)として実装しても良い。この場合、このソフトウェアは、PC(パーソナルコンピュータ)等、一般のコンピュータのメモリにインストールされることになる。そしてこのコンピュータのCPUがこのインストールされたソフトウェアを実行することで、このコンピュータは、上述の画像処理装置の機能(図6に示した各部の機能)を実現することになる。即ち、このコンピュータは、上述の画像処理装置に適用することができる。第1の実施形態に係る多視点画像符号化装置に適用可能なコンピュータのハードウェア構成例について、図16のブロック図を用いて説明する。
CPU601は、RAM602やROM603に格納されているコンピュータプログラムやデータを用いて、コンピュータ全体の制御を行うと共に、多視点画像符号化装置が行うものとして説明した上述の各処理を実行する。即ち、図6に示した各部が行うものとして上述した各処理を実行する。
RAM602は、コンピュータ読み取り可能な記憶媒体の一例である。RAM602は、外部記憶装置607や記憶媒体ドライブ608、更にはネットワークインタフェース610からロードされたコンピュータプログラムやデータを一時的に記憶するためのエリアを有する。更に、RAM602は、CPU601が各種の処理を実行する際に用いるワークエリアを有する。即ち、RAM602は、各種のエリアを適宜提供することができる。ROM603は、コンピュータ読み取り可能な記憶媒体の一例であり、コンピュータの設定データや、ブートプログラムなどが格納されている。
キーボード604、マウス605は、コンピュータの操作者が操作することで、各種の指示をCPU601に対して入力することができる。表示装置606は、CRTや液晶画面などにより構成されており、CPU601による処理結果を画像や文字などでもって表示することができる。例えば、上記入力画像を表示や、多視点画像符号化装置で変換した結果の表示ができる。
外部記憶装置607は、コンピュータ読み取り記憶媒体の一例であり、ハードディスクドライブ装置に代表される大容量情報記憶装置である。外部記憶装置607には、OS(オペレーティングシステム)や、図6に示した各部の機能をCPU601に実現させるためのコンピュータプログラムやデータ、上記の各種テーブル、データベース等が保存されている。外部記憶装置607に保存されているコンピュータプログラムやデータは、CPU601による制御に従って適宜RAM602にロードされ、CPU601による処理対象となる。
記憶媒体ドライブ608は、CD−ROMやDVD−ROMなどの記憶媒体に記録されているコンピュータプログラムやデータを読み出し、読み出したコンピュータプログラムやデータを外部記憶装置607やRAM602に出力する。なお、外部記憶装置607に保存されているものとして説明した情報の一部若しくは全部をこの記憶媒体に記録させておき、この記憶媒体ドライブ608に読み取らせても良い。
I/F609は、2次元配列の撮像ユニット650を接続するためのインタフェースであり、一例として示すのであればUSB(Universal Serial Bus)である。611は、上述の各部を繋ぐバスである。
CPU601は、多視点カメラ装置650との接続を検出し、参照視点テーブルを生成し、多視点カメラ装置650を特定し、参照視点テーブルを例えば外部記憶装置607にファイルとして作成する。
そして、シャッターボタン701の押下により、多視点カメラ装置650から転送されてくる各画像を、2次元配列の各カメラ部で撮影された各画像とし入力し、上記第1の実施形態と同様の工程を経て、符号化する。
そして、シャッターボタン701の押下により、多視点カメラ装置650から転送されてくる各画像を、2次元配列の各カメラ部で撮影された各画像とし入力し、上記第1の実施形態と同様の工程を経て、符号化する。
上述構成において、本コンピュータの電源がONになると、CPU601はROM603に格納されているブートプログラムに従って、外部記憶装置607からOSをRAM602にロードする。この結果、キーボード604、マウス605を介した情報入力操作が可能となり、表示装置606にGUIを表示することが可能となる。ユーザが、キーボード604やマウス605を操作し、外部記憶装置607に格納された多視点画像符号化用のアプリケーションプログラムの起動指示を入力すると、CPU601はこのプログラムをRAM602にロードし、実行する。これにより、本コンピュータが多視点画像符号化装置として機能することになる。
なお、CPU601が実行する多視点画像符号化用のアプリケーションプログラムは、基本的に図6に示す各構成要素に相当する関数を備えることになる。ここで、符号化データは外部記憶装置607に保存することになる。なお、このコンピュータは、以降の各実施形態に係る画像処理装置にも同様に適用可能であることは、以下の説明より明らかである。
[第2の実施形態]
上記第1の実施形態では、多視点画像から或る1つの視点位置の映像を復号するための都合の良い符号化データを生成する場合を説明した。それ故、以下では、第1の実施形態における処理を復号優先モードと呼ぶ。そして、第2の実施形態では、符号化効率を優先する符号化優先モードを搭載し、ユーザにその何れかを選択させる例を説明する。
上記第1の実施形態では、多視点画像から或る1つの視点位置の映像を復号するための都合の良い符号化データを生成する場合を説明した。それ故、以下では、第1の実施形態における処理を復号優先モードと呼ぶ。そして、第2の実施形態では、符号化効率を優先する符号化優先モードを搭載し、ユーザにその何れかを選択させる例を説明する。
復号優先モードは実施形態で説明してあるので、以下では、符号化優先モードにつて説明する。なお、装置構成は、図6と同じである。
圧縮率を向上する予測符号化を行う場合、参照画像のペアの選択が重要となる。すなわち、参照画像のペアは、着目画像に近いことが望ましい。非特許文献1によると、動画のフレーム間の予測においては階層Bピクチャ構造が圧縮率向上に有効である。
ここで階層Bピクチャ構造について簡単に説明する。図11に代表的な階層Bピクチャ構造を示す。図11における矩形は動画中の各フレームの画像を表し、時系列順にF1〜F55の番号を振って示している。階層Bピクチャ構造ではまず、キーピクチャを符号化する。図11の例ではフレームF1とF5をキーピクチャとして符号化する。次に2つのキーピクチャの間にあり、キーピクチャ間を時間的に2分割するフレームを内挿予測によって符号化する。この場合はフレームF3を予測符号化する。次にフレームF1とF3の間にあるフレームF2、およびフレームF3とF5の間にあるフレームF4をそれぞれ内挿符号化する。ここではキーピクチャを4フレーム置きに配置する例を示したが、フレーム数を増やしても、符号化済みの2枚のフレームを2分割する位置の画像を内挿予測で符号化する処理を繰り返せば、一般に適用可能である。また、1列に配置したカメラで撮影した静止画像の視点間の予測関係にも応用可能である。
本第2の実施形態では、このような階層Bピクチャ構造を2次元アレイ状に並べたカメラで撮影した画像に拡張する。
なお、先に説明したように、圧縮率を向上する予測符号化を行う場合、参照画像のペアの選択が重要となる。或る着目画像を予測符号化する際に、その着目画像と参照する参照画像への距離は近いほど、予測誤差の発生が抑制でき、高い符号化効率が期待できる。そこで、本第2の実施形態では、予測符号化対象の着目画像に対する2参照画像は、その着目画像を挟む、垂直、水平方向のいずれかに位置する画像とし、斜め45度方向に位置する画像は参照画像から除外するものとして説明する。
具体的な例を説明するため、図12の5×5配列を用いて説明する。
第1階層に属する視点(キーピクチャを撮影するカメラ部の視点)は、2次元配列の四隅に位置する視点V1、V5、V21、V25とする。
次に第2階層に属する視点を決定する。第2階層に属する視点は次の条件である。
・第1階層に属する視点は第2階層から除外する。
・第1階層に属する2視点のペアのうち、斜めになる組み合わせを除外し、水平、垂直となるペアを求め、そのペアの中央に位置する視点を第2階層に属する視点とする。図12の場合、第1階層に属する水平に並ぶ2視点のペアは{V1、V5}、{V21、V25}であるので、その中央位置にある視点V3、V23が第2階層に属する視点となる。また、ペア{V1、V21}、{V5、V25}は垂直に並ぶので、それらの中央に位置する視点V11、V15も第2階層に属する。
・第1階層に属する視点は第2階層から除外する。
・第1階層に属する2視点のペアのうち、斜めになる組み合わせを除外し、水平、垂直となるペアを求め、そのペアの中央に位置する視点を第2階層に属する視点とする。図12の場合、第1階層に属する水平に並ぶ2視点のペアは{V1、V5}、{V21、V25}であるので、その中央位置にある視点V3、V23が第2階層に属する視点となる。また、ペア{V1、V21}、{V5、V25}は垂直に並ぶので、それらの中央に位置する視点V11、V15も第2階層に属する。
第3階層以降の下位層については、その階層を示す値を“i”で表わすと次の通りである(実際は第2階層でも以下の条件は成立する)。
・第i層の上位層(第1乃至第i−1階層)に属する視点は第i階層の視点から除外する。
・未定の視点を着目し、その着目視点を挟む垂直方向、又は、水平方向に同じ距離だけ隔てた第1乃至第i−1階層のいずれかに属する2つの視点があれば、着目視点を第i階層に属する視点として決定する。
・第i層の上位層(第1乃至第i−1階層)に属する視点は第i階層の視点から除外する。
・未定の視点を着目し、その着目視点を挟む垂直方向、又は、水平方向に同じ距離だけ隔てた第1乃至第i−1階層のいずれかに属する2つの視点があれば、着目視点を第i階層に属する視点として決定する。
図13は上記の論理に従って作成された符号化優先モードにおける参照視点テーブルを示している(図5に示すテーブルを第1のテーブルとするなら、図13のそれは第2のテーブルと定義できる)。図示における文字“L”に後続する数値が階層の番号を示している。図示の如く、符号化優先モードの場合、階層数は2次元配列のサイズに応じたものとなる。
ここで、2次元配列の外側に配置された視点を除く、内側に位置する視点については印“*”を付けた。これは、その視点位置を予測符号化する際に、参照画像となるペアは2通りあることを示すためである。例えば、視点V13(図1参照)については「L3*」として示しているが、実際は、第1の実施形態に対応して示すのであれば、L3{(V11、V15)、(V3、V23)}と記述されている。この結果、視点V13は第3階層に属するのは勿論、その視点位置の画像を予測符号化する際に参集する画像のペアは{V11、V15}と{V3、V23}の2つ存在することを示している。また、視点V7の場合には、{V6、V8}、{V2,V12}の2つ存在する。当然、「*」が付かない視点では、参照画像となり得るペアは1つだけである。
本第2の実施形態では、例えば、視点V13を予測符号化する場合、視点ペア{V11、V15}、{V3、V23}のいずれを用いた場合に符号化効率が良いかを推定し、その推定に基づき予測符号化する。最も単純な処理の仕方は、視点ペア{V11、V15}を用いて視点V13の映像を符号化した場合の符号化データの符号量と、視点ペア{V3、V23}用いて視点V13の映像を符号化した場合の符号化データの符号量と比較し、符号量の少なかった視点ペアに決定することである。しかし、この場合、それぞれのペアでの予測画像を生成、差分の生成等の負荷の多い処理が2倍になり、符号化処理に多くの時間を必要になってしまう。そこで、本第2の実施形態では、以下に説明する更に単純な類似度を用いたアルゴリズムで一方の参照画像ペアを決定する。
説明のため、着目視点の画像をPiとし、それを挟む水平方向に位置する参照画像候補のペアを{Ph1、Ph2}とし、それを挟む垂直方向に位置する参照画像候補のペアを{Pv1、Pv2}とする。
2つの画像A,Bの類似度を、それぞれの画像内の同じ座標の画素の値の差の絶対値の総和を|A−B|と定義する。本第2の実施形態では、次式(1)、(2)
Dh=|Ph1−Pi|+|Ph2−Pi| …(1)
Dv=|Pv1−Pi|+|Pv2−Pi| …(2)
を算出し、DhがDvより少ない場合(Dh<Dvの場合)に、参照画像候補のペア{Ph1、Ph2}を着目画像Piの参照画像として決定する。そして、それ以外の場合(Dh≧Dvの場合)、参照画像候補のペア{Pv1、Pv2}を着目画像Piの参照画像として決定する。画像の画素値の差分の絶対値を加算するという処理で良いので、簡単にハードウェア化できるし、ソフトウェアでも高速に処理できる。
Dh=|Ph1−Pi|+|Ph2−Pi| …(1)
Dv=|Pv1−Pi|+|Pv2−Pi| …(2)
を算出し、DhがDvより少ない場合(Dh<Dvの場合)に、参照画像候補のペア{Ph1、Ph2}を着目画像Piの参照画像として決定する。そして、それ以外の場合(Dh≧Dvの場合)、参照画像候補のペア{Pv1、Pv2}を着目画像Piの参照画像として決定する。画像の画素値の差分の絶対値を加算するという処理で良いので、簡単にハードウェア化できるし、ソフトウェアでも高速に処理できる。
先に説明したアルゴリズムに従って各視点の階層への割り振りを行えば、着目画像に対する参照画像のペアが1つか2つかは勿論、各参照画像候補となる視点位置は、2次元配列のM×NのM,Nの値で一義的に決まる。従って、予測符号化に利用するものとして決定した参照画像ペアが、着目画像を挟んで水平方向、或いは、垂直方向のいずれに並んでいるのかを示す識別情報(1ビットで良い)を、着目画像の符号化データのヘッダに配置すれば、正しく復号できる。なお、着目画像の符号化データのヘッダではなく、ファイルヘッダにまとめて記述しても良い。
以上であるが、本第2の実施形態における全体の動作処理手順を図14のフローチャートに従って説明する。同図は、第2の実施形態における多視点画像符号化装置の電源がONになった際の処理手順を示すフローチャートである。
先ず、制御部110は、S401にて、接続された撮像ユニット101が、前回とは異なるタイプであるかどうかを判定する。もし、異なるタイプであると判定した場合、S402に進み、接続された撮像ユニット101に対応する2つの参照視点ルックアップテーブルを作成し、参照視点LUT記憶部103に格納(更新)する。すなわち、撮像ユニット判定部102は、第1のテーブルを生成する第1のテーブル生成手段、第2のテーブルを生成する第2のテーブル生成手段として機能することになる。ここで、第1のテーブルは第1の実施形態と同様(図5の下部)である。もう一方の第2のテーブルは、第2の実施形態に特有の図13のルックアップテーブルである。
また、S403にて、操作部111のシャッターボタン701が押下されたか否かを判定する。シャッターボタン701の押下を検出すると、S404にて、操作部111による指定されたモードが符号化優先モードであるか、復号優先モードかを判定する。復号優先モードである場合には、S405に進み、第1の実施形態で説明した符号化処理(図7のS104乃至S107)の処理を行う。一方、符号化優先モードであると判断した場合、処理はS406に進み、圧縮率優先符号化処理を実行する。
ここで、S406の処理の詳細を図15のフローチャートに従い説明する。
先ず、S501にて、参照視点LUT記憶部103より、符号化優先モード用の参照視点ルックアップテーブルから階層数Lを取得する。次いで、S502にて、第1階層に属する視点における画像を第1の符号化部105に供給することで、キーピクチャーの符号化を行う。次に、S503に進み、第2階層以降の符号化を行うため、変数iに初期値として“2”を設定する。
S504では、第i階層の着目視点の映像の1つを取得する。そして、S505にてその映像に対する参照視点ペアが複数(2つ)あるか否かを判定する。2つある場合には、S506に進み、先に示した式(1)、(2)を演算し、参照ペアを1つに絞り込む。S507に処理が進んだ場合、参照ペアは1つになっているので、そのペアを構成する2視点の画像と、予測画像はその中央位置であることを示すパラメータとを参照画像生成部106に供給する。また、着目視点の画像を第2の符号化部107に供給する。これにより、着目画像の予測符号化が実行される。この後、S508に進み、第i階層に属する全映像の符号化が完了したか否かを判定し、否の場合にはS504に処理を戻す。
一方、第i階層に属する全映像の符号化が完了したと判定した場合、S509に進み、変数iとLとを比較し、i<Lであるか否か、すなわち、全階層に対する符号化が完了したか否かを判断する。否の場合には、S510にて変数iを“1”だけ増加させ、S504以降の処理を行う。また、S509の判定で全階層の視点位置の画像の符号化を終えたと判断した場合には、本処理を終える。
以上説明したように、本第2の実施形態によれば、復号装置の復号処理に係る負担をへらすのではなく、圧縮率を優先した符号化モードが選択できる。本第2の実施形態は、例えば、復号装置が十分な処理能力を持っていることが予め判明している場合に特に有効なものと言える。
なお、上記第2の実施形態でも、2次元アレイのM×NのM,Nが奇数である例を説明した。しかし、例えば、図18に示すように6×6の水平、垂直とも偶数としても構わない。この場合、四隅をキーピクチャを撮像する第1階層に属する視点位置として定義できても、その中央位置には視点が存在しない。従って、図示の通り、四隅の視点位置における水平、垂直に並ぶ2つを結ぶ線上の、中央位置を挟む最寄りの2視点を第1階層に属するものとして設定すればよい。
また、本第2の実施形態をコンピュータプログラムでもって実現できることは、先に説明した第1の実施形態の変形例と同様明らかである。
上記第2の実施形態では、2次元配列の四隅のキーピクチャーは、iピクチャと同じく独立符号化(イントラ符号化)を行うものとしたが、キーピクチャーの1つを独立符号化し、他のキーピクチャーは独立符号化したキーピクチャーを用いた予測符号化を行ってもよい。この場合、画質については多少犠牲になるかもしれないが、符号化効率を更に上げることができる。この場合の独立符号化するキーピクチャーは、2次元配列の中央の視点の映像が望ましい。この中央に位置する視点を先ず独立符号化し、次いで、四隅の視点を予測符号化する。後は、これまでに説明した手順に従えば良い。
(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
Claims (7)
- 多視点画像を生成するために2次元のアレイ状に並んだM×N個の撮像手段を有するカメラ装置における、M×N個の各画像の符号化順序、ならびに、単独で符号化するか、参照して予測符号化するのかを示す情報を格納したテーブルを生成する画像処理装置であって、
前記2次元アレイの「M×N」のM、Nの値を設定する設定手段と、
該設定手段で設定された2次元アレイにおける各撮像手段の視点位置を、最初に単独で符号化を行う第1階層、その次に予測符号化する第2階層、最後に予測符号化を行う第3階層のいずれかに分類し、当該分類した結果を示すテーブルを生成するテーブル生成手段とを備え、
当該テーブル生成手段は、
前記2次元アレイのM×N個の撮像手段における、少なくとも四隅の位置に配置された各撮像手段の視点位置を前記第1階層に属する視点位置として決定し、
前記第1階層に属する2視点位置の撮像手段を参照画像を撮像する参照視点位置の撮像手段とし、当該参照視点位置を結ぶ線上に位置する撮像手段の各視点位置を第2階層に属する視点位置として決定し、
前記第1、第2階層のいずれにも属さない視点位置を第3階層に属する視点位置として決定する決定手段を有し、
該決定手段は、
前記第3階層に属する着目視点位置に対する参照視点位置を、当該着目視点位置に対する参照画像を撮像する前記第2階層の各視点位置候補の中から、該第2階層の各視点位置候補にとっての参照画像を撮像する第1階層に属する視点位置数が少ない方を、前記着目視点位置に対する参照視点位置として決定することで前記テーブルを生成する
ことを特徴とする画像処理装置。 - 画像を単独で符号化する第1の符号化手段と、
画像を、指定された参照画像から予測符号化する第2の符号化手段と、
前記テーブル生成手段で生成されたテーブルを参照して、前記第1階層に属する視点位置の画像については前記第1の符号化手段で符号化させ、
前記第2階層、第3階層に属する視点位置の画像については、前記テーブルを記憶された参照視点位置の画像を参照して前記第2の符号化手段で予測符号化させる制御手段と
を更に有することを特徴とする請求項1に記載の画像処理装置。 - 前記テーブル生成手段を第1のテーブル生成手段、生成する前記テーブルを第1のテーブルとしたとき、
前記設定手段で設定された2次元アレイにおける各撮像手段の視点位置を、最初に単独で符号化を行う第1階層、それ以降に予測符号化する第2階層を含む下位層のいずれかに分類し、下位層に属する着目視点位置については、当該着目視点位置を挟み、当該着目視点位置から同じ距離にある、着目視点位置の層よりも上位層の2視点位置を前記着目視点位置の画像の予測符号化する際の参照画像を撮像する参照視点位置候補として定義した第2のテーブルを生成する第2のテーブル生成手段と、
前記第1のテーブル、前記第2のテーブルのいずれを用いて符号化するかを選択する選択手段とを有し、
前記制御手段は、該選択手段で前記第2のテーブルを用いて符号化することが選択された場合、
前記第2のテーブルにおける前記第1階層に属する視点位置の画像については前記第1の符号化手段で符号化させ、
前記第2のテーブルにおける第2階層を含む下位層の着目視点位置に対する参照視点位置候補が1つである場合には、当該参照視点位置候補で示された視点位置の画像を参照して前記第2の符号化手段で符号化させ、
前記第2のテーブルにおける第2階層を含む下位層の着目視点位置に対する参照視点位置候補が複数ある場合には、当該参照視点位置候補の画像と、各参照視点位置候補との類似度を算出することで1つの参照視点位置候補に絞り込み、当該絞り込んだ参照視点位置候補で示された視点位置の画像を参照して前記第2の符号化手段で符号化させる
ことを特徴とする請求項2に記載の画像処理装置。 - 前記第1の符号化手段はH.264/MPEG−4 AVC Multiview video codingに定められた形式のiピクチャとして符号化し、
前記第2の符号化手段はH.264/MPEG−4 AVC Multiview video codingに定められた形式のBピクチャとして符号化することを特徴とする請求項2又は3に記載の画像処理装置。 - コンピュータが読み込み実行することで、前記コンピュータを、請求項1に記載の各手段として機能させるためのプログラム。
- 請求項5に記載のプログラムを格納したコンピュータが読み取り可能な記憶媒体。
- 多視点画像を生成するために2次元のアレイ状に並んだM×N個の撮像手段を有するカメラ装置における、M×N個の各画像の符号化順序、ならびに、単独で符号化するか、参照して予測符号化するのかを示す情報を格納したテーブルを生成する画像処理装置の制御方法であって、
設定手段が、前記2次元アレイの「M×N」のM、Nの値を設定する設定工程と、
テーブル生成手段が、該設定工程で設定された2次元アレイにおける各撮像手段の視点位置を、最初に単独で符号化を行う第1階層、その次に予測符号化する第2階層、最後に予測符号化を行う第3階層のいずれかに分類し、当該分類した結果を示すテーブルを生成するテーブル生成工程とを備え、
当該テーブル生成工程は、
前記2次元アレイのM×N個の撮像手段における、少なくとも四隅の位置に配置された各撮像手段の視点位置を前記第1階層に属する視点位置として決定し、
前記第1階層に属する2視点位置の撮像手段を参照画像を撮像する参照視点位置の撮像手段とし、当該参照視点位置を結ぶ線上に位置する撮像手段の各視点位置を第2階層に属する視点位置として決定し、
前記第1、第2階層のいずれにも属さない視点位置を第3階層に属する視点位置として決定する決定工程を有し、
該決定工程は、
前記第3階層に属する着目視点位置に対する参照視点位置を、当該着目視点位置に対する参照画像を撮像する前記第2階層の各視点位置候補の中から、該第2階層の各視点位置候補にとっての参照画像を撮像する第1階層に属する視点位置数が少ない方を、前記着目視点位置に対する参照視点位置として決定することで前記テーブルを生成する
ことを特徴とする画像処理装置の制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011239557A JP2013098740A (ja) | 2011-10-31 | 2011-10-31 | 画像処理装置及びその制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011239557A JP2013098740A (ja) | 2011-10-31 | 2011-10-31 | 画像処理装置及びその制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013098740A true JP2013098740A (ja) | 2013-05-20 |
Family
ID=48620256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011239557A Pending JP2013098740A (ja) | 2011-10-31 | 2011-10-31 | 画像処理装置及びその制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013098740A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3388119A2 (en) | 2017-04-14 | 2018-10-17 | Fujitsu Limited | Method, apparatus, and non-transitory computer-readable storage medium for view point selection assistance in free viewpoint video generation |
-
2011
- 2011-10-31 JP JP2011239557A patent/JP2013098740A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3388119A2 (en) | 2017-04-14 | 2018-10-17 | Fujitsu Limited | Method, apparatus, and non-transitory computer-readable storage medium for view point selection assistance in free viewpoint video generation |
US10681337B2 (en) | 2017-04-14 | 2020-06-09 | Fujitsu Limited | Method, apparatus, and non-transitory computer-readable storage medium for view point selection assistance in free viewpoint video generation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11381839B2 (en) | Method and device for image motion compensation | |
US20210218974A1 (en) | Hash-based encoder decisions for video coding | |
CN105684409B (zh) | 在视频和图像编码和解码中使用散列值来表示各块 | |
US20170324970A1 (en) | Image encoding apparatus, method of image encoding, and recording medium, image decoding apparatus, method of image decoding, and recording medium | |
JP5199123B2 (ja) | 多視点ビデオの処理 | |
KR101753171B1 (ko) | 3d 비디오 코딩에서의 간략화된 뷰 합성 예측 방법 | |
KR20190094407A (ko) | 부호화 장치, 부호화 방법 및 프로그램, 복호 장치, 복호 방법 및 프로그램 | |
JP5883153B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体 | |
JP2017536002A (ja) | 画像予測方法および関連装置 | |
JP2014524706A (ja) | 動きベクトル処理 | |
US9681126B2 (en) | Motion vector coding apparatus, method and program for coding motion vector, motion vector decoding apparatus, and method and program for decoding motion vector | |
KR20210088693A (ko) | 임의의 ctu 크기에 대한 ibc 검색 범위 최적화를 사용하는 인코더, 디코더 및 대응하는 방법 | |
EP2846544A1 (en) | Method and apparatus for encoding multi-view images, and method and apparatus for decoding multi-view images | |
JP2023012484A (ja) | ビデオ復号化方法及びビデオ・デコーダ | |
CN112385213A (zh) | 基于帧间预测模式处理图像的方法和用于该方法的设备 | |
CN104704819A (zh) | 3d视频编码的视差矢量推导和视图间运动矢量预测的方法及装置 | |
JP5926451B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム | |
JP2015119396A (ja) | イントラ予測モード決定装置、イントラ予測モード決定方法、及びイントラ予測モード決定プログラム | |
JP6209026B2 (ja) | 画像符号化装置及びその制御方法 | |
JP2015103872A (ja) | 画像符号化装置及び画像復号装置及びそれらの制御方法 | |
CN103491371B (zh) | 基于分层的编码方法、装置和设备 | |
JP2008153907A (ja) | 画像符号化装置及びそれらを含む情報端末ならびに画像符号化方法 | |
CN110944184B (zh) | 视频解码方法及视频解码器 | |
JP2005012439A (ja) | 符号化装置、符号化方法および符号化プログラム | |
US9491455B2 (en) | Picture encoding method, picture decoding method, picture encoding apparatus, picture decoding apparatus, picture encoding program, and picture decoding program |