JP2009213161A

JP2009213161A - 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2009213161A
Application number: JP2009141891A
Authority: JP
Inventors: Shinya Shimizu; 信哉志水; Masaki Kitahara; 正樹北原; Kazuto Kamikura; 一人上倉; Yoshiyuki Yajima; 由幸八島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-06-15
Filing date: 2009-06-15
Publication date: 2009-09-17
Anticipated expiration: 2025-07-28
Also published as: JP4851564B2

Abstract

【課題】本発明は、視差方向予測と時間方向予測とを同時に使うことによって多視点動画像を効率的に符号化するという構成を採るときにあって、必要となる映像を参照関係にある全てのカメラの映像を使うことなく復号できるようにする技術の提供を目的とする。
【解決手段】符号側は、基準視点のカメラにより撮影された基準視点画像と、基準視点画像を撮影したカメラから被写体までの推定距離を示す距離画像と、基準視点画像と距離画像とカメラの位置関係とに基づいて推定された視差補償画像と符号化対象画像との差分を示す視差差分画像とを符号化する。復号側は、基準視点画像と距離画像と視差差分画像とを復号して、復号した基準視点画像と復号した距離画像とカメラの位置関係とに基づいて視差補償画像を推定し、その推定した視差補償画像と復号した視差差分画像とに基づいて、基準視点以外の視点に対応付けられるカメラの撮影した符号化対象画像を復元する。
【選択図】図２

Description

本発明は、ある被写体を撮影する複数のカメラにより撮影された画像を符号化する映像符号化方法と、その映像符号化方法の実現に用いられる映像符号化プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体と、その映像符号化方法で符号化されたデータを復号する映像復号方法と、その映像復号方法の実現に用いられる映像復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体とに関する。

多視点動画像（多視点映像）とは、複数のカメラで同じ被写体と背景を撮影した複数の動画像のことである。以下では、１つのカメラで撮影された動画像を“２次元動画像”と呼び、同じ被写体と背景を撮影した２次元動画像群を多視点動画像と呼ぶ。

多視点動画像に含まれる各カメラの２次元動画像は、時間方向に関して強い相関がある。一方、各カメラが同期されていた場合、同じ時間に対応した各カメラの映像は全く同じ状態の被写体と背景を別の位置から撮影したものなので、カメラ間で強い相関がある。以下では、このカメラ間での相関を空間方向の相関と呼ぶ。

動画像の符号化においては、これらの相関を利用することによって符号化効率を高めている。

まず、２次元動画像の符号化技術に関する従来技術を述べる。

２次元動画像の符号化では、符号化しようとする画像と既に符号化済みの画像との差分のみを符号化対象とすることで、時間方向の相関を利用し、符号化効率を高めている。

国際符号化標準であるＨ．２６４、ＭＰＥＧ−２、ＭＰＥＧ−４をはじめとした従来の多くの２次元動画像符号化方式では、差分を求める際に動き補償と呼ばれる技術を用いることで、更に符号化効率を高めている。動き補償とは、画像をより小さなブロックに分割し、そのブロックごとに差分をとるブロックを切り替える技術である。これによって、被写体に動きが生じたり、カメラが動いたりする場合にも差分を小さくし、符号化効率をあげることができる。

次に、従来の多視点動画像の符号化方式について説明する。

従来の多視点動画像の符号化では、時間方向及び空間方向の相関を利用して符号化効率を高めるために、時間方向の予測及びカメラ間での補償を行った符号化を採用している。その一例としては、下記に示す非特許文献１の手法がある。

この非特許文献１の手法で行われるカメラ間での補償は視差方向予測と呼ばれ、別のカメラの画像を参照画像として動き補償を行うものである。この手法では符号化効率を考え、マクロブロックごとにどちらの相関を利用した補償を行うのかを選択できるようになっている。そのため、時間方向及び空間方向の相関が符号化に利用されるため、時間方向のみの相関を利用した方法より符号化効率を向上させることが可能である。

Hideaki Kimata and Masaki Kitahara, "Preliminary results on multiple view video coding(3DAV)," document M10976 MPEG Redmond Meeting, July, 2004.

確かに、非特許文献１の手法では、時間方向のみの相関を利用した方法より符号化効率を向上させることができるようになるものの、複数のカメラの映像を参照し合う方法を用いていることから、データを復号する際に参照関係にある全てのカメラの映像を必要とすることになる。

例えば、図１９に示すような参照関係がある場合、全てのカメラの映像を復号側に渡す必要がある。これは多視点動画像の利用法の１つである自由視点動画像合成においては、必要のないカメラの映像まで復号する必要があるということになってしまう。ネットワークでデータを通信させることを考えると、本来必要のない情報まで相手に送る必要が生じるということになる。

ここで述べている自由視点動画像合成とは、カメラの置いてない地点からの映像を隣接するカメラの映像を用いて合成する技術のことである。したがって、各カメラの映像を独立して取り出せるように符号化する機能が求められる。

また、多視点動画像の利用法として自由視点動画像の合成を考えた場合、自由視点動画像の合成処理は非常に演算量の多い処理であるため、復号と合成とを同時に行うのは高負荷なことと言える。したがって、符号・復号における処理で合成処理を手助けできるような機能も求められる。

各カメラの映像を必要に応じて独立して取り出せる機能を実現する符号化方法として、非特許文献１のような手法における参照関係を制限し、ある特定のカメラの映像しか参照できないようにする方法を用いることが考えられる。この方法を用いれば、参照関係が制限されることによって、データを復号する際に必要なカメラの映像を減らすことができる。

しかしながら、このような方法では、符号化側で設定された単位毎でしかカメラの情報を個別に取り出すことはできない。また、各カメラの映像を１つ以上のビットストリームとして符号化することは明らかに効率的ではないため、参照関係が制限されることによって、あるカメラ間に強い相関があってもそれを利用できなくなってしまう場合もある。つまり、相関を取り除けなくなるので、全体として十分な符号化効率を達成することが困難となる。

また、下記に示す参考文献によれば、多視点動画像から自由視点動画像を合成する手法には、被写体の幾何情報を利用して合成する手法と、被写体の幾何情報を利用しないで映像から合成する手法とがある。

参考文献：Heung-Yeung Shum, Sing Bing Kang, and Shing-Chow Chan, "Survey of image-based representations and compression techniques," IEEE Tran sactions on Circuits and Systems for Video Technology, vol.13, no. 11, Nov.2003, pp.1020-1037.
幾何情報を利用しない手法でもって、幾何情報を利用する手法と同等の品質の映像を合成するためには、より多くのカメラからの映像が入力として必要となる。多くのカメラの映像を用いるということは非常に多くの演算が必要になることを意味する。

この点について、非特許文献１のような手法では、各画素のもつ情報は、前のフレームからの動きベクトルまたは他のカメラからの視差ベクトルのどちらかと残差信号という形でしか表現されない。したがって、非特許文献１のような手法で符号化された多視点動画像を用いて自由視点動画像を合成する場合には、幾何情報を計算する必要が生じて演算量が増して合成に時間がかかることになるか、より多くのカメラからの映像が必要になることになる。

本発明はかかる事情に鑑みてなされたものであって、視差方向予測と時間方向予測とを同時に使うことによって多視点動画像の符号化効率を向上できるようにするという構成を採るときにあって、必要となる映像を参照関係にある全てのカメラの映像を使うことなく復号できるようにすることで、自由視点動画像の合成を小さな負荷で実現できるようにする新たな映像符号化復号技術の提供を目的とする。

〔１〕本発明の映像符号化方法の基本的な構成
この目的を達成するために、本発明の映像符号化方法は、ある被写体を撮影する複数のカメラにより撮影された画像を符号化することを実現するために、（ａ）基準視点となるカメラにより撮影された基準視点画像を符号化する基準視点画像符号化ステップと、（ｂ）基準視点画像を撮影したカメラから被写体までの推定距離を示す距離画像を生成する距離画像生成ステップと、（ｃ）生成した距離画像を符号化する距離画像符号化ステップと、（ｄ）基準視点画像と距離画像とカメラの設置位置および向きについて規定するカメラの位置関係とに基づいて、基準視点以外の視点における視差補償画像（視差に基づく予測画像となるもの）を推定する視差補償画像推定ステップと、（ｅ）推定した視差補償画像とその推定対象の視点に対応付けられるカメラの撮影した符号化対象画像との差分を示す視差差分画像を算出する視差差分画像算出ステップと、（ｆ）符号化済みの視差差分画像を用いて、算出した視差差分画像を時間的あるいは空間的に予測した視差差分予測値を生成する視差差分予測値生成ステップと、（ｇ）算出した視差差分画像と生成した視差差分予測値との差に相当するデータを符号化する差データ符号化ステップとを有する。

この基本的な構成を採るときにあって、本発明の映像符号化方法は、さらに次の構成を採ることがある。

〔１−１〕
視差補償画像推定ステップでは、復号側がカメラの位置関係の情報を符号化データからではなくて得ることができる場合には、基準視点画像の符号化データを復号することで得られる基準視点画像と、距離画像の符号化データを復号することで得られる距離画像と、符号化されることのないカメラの位置関係とに基づいて、基準視点以外の視点における視差補償画像を推定することがある。

〔１−２〕
復号側がカメラの位置関係の情報を符号化データから得ることになる場合には、上述の基本的な構成のステップに加えて、（ｇ）外部からの情報に従ってカメラの位置関係を取得するか、全カメラの画像に基づいてカメラの位置関係を推定することで、カメラの位置関係を設定するカメラ位置関係設定ステップと、（ｈ）設定したカメラの位置関係の情報を符号化するカメラ位置関係情報符号化ステップとを有する。

〔１−３〕
視差補償画像推定ステップでは、復号側がカメラの位置関係の情報を符号化データから得ることになる場合には、基準視点画像の符号化データを復号することで得られる基準視点画像と、距離画像の符号化データを復号することで得られる距離画像と、カメラ位置関係情報の符号化データを復号することで得られるカメラの位置関係とに基づいて、基準視点以外の視点における視差補償画像を推定することがある。

〔１−４〕
基準視点となるカメラを自動的に決定する場合には、上述の基本的な構成のステップに加えて、（ｉ）他のカメラが撮影する空間と最も重複する空間を撮影しているカメラを基準視点となるカメラとして設定するステップを有することがある。

〔１−５〕
距離画像生成ステップでは、画像をブロックに分割して、ブロックごとに距離を推定することで距離画像を生成することがある。

〔１−６〕
距離画像生成ステップでは、規定のアルゴリズムに従って距離画像を生成する場合に、現時刻において生成した距離画像の評価値と、１つ前の時刻において生成した距離画像の評価値との差分値を求めて、その差分値の大きさを所定の閾値と比較することで判断して、その差分値が大きいことを判断する場合には、現時刻において生成した距離画像をそのまま用いることを決定し、その差分値が小さいことを判断する場合には、１つ前の時刻において生成した距離画像に変更して用いることを決定することで距離画像を生成することがある。

〔１−７〕
視差補償画像推定ステップでは、基準視点画像と距離画像とカメラの位置関係とに基づいて基準視点以外の視点における視差補償画像を推定することになるが、このとき、画素値を推定できない画素について、周辺の画素の画素値から、その画素の画素値を推定することがある。

〔１−８〕
視差補償画像推定ステップでは、基準視点画像と距離画像とカメラの位置関係とに基づいて基準視点以外の視点における視差補償画像を推定することになるが、このとき、画素値を推定できない画素について、周辺の画素の動き情報からその画素の動き情報を推定して、その推定した動き情報と符号化済みの画像の画素値とに基づいて、その画素の画素値を推定することがある。

〔１−９〕
視差補償画像推定ステップでは、基準視点画像と距離画像とカメラの位置関係とに基づいて基準視点以外の視点における視差補償画像を推定することになるが、このとき、画素値を推定できない画素について、〔１−７〕の方法に従って推定した視差補償画像を用いる場合の符号量と、〔１−８〕の方法に従って推定した視差補償画像を用いる場合の符号量とを比較して、視差補償画像ごとに効率的な符号化を行える方法を選択することで、その画素の画素値を推定することがある。この構成を採るときには、どちらの予測モードを用いたのかを示す情報についても符号化することになる。

〔１−１０〕
距離画像符号化ステップでは、基準視点画像を符号化する際に使われた動きベクトルを用いて距離画像を符号化することがある。

〔１−１１〕
視差差分予測値生成ステップでは、基準視点画像を符号化する際に使われた動きベクトルと距離画像とカメラの位置関係とに基づいて推定される動きベクトルか、自身の参照画像から推定される動きベクトルの内の符号化効率のよい方を選択して視差差分予測値を生成することがある。

〔１−１２〕
視差差分予測値生成ステップでは、基準視点画像を符号化する際に使われた動きベクトルと距離画像とカメラの位置関係とに基づいて推定される動きベクトルか、自身の参照画像から推定される動きベクトルの内の符号化効率のよい方を選択して視差差分予測値を生成することがあるが、この動きベクトルを推定するときに、距離画像の符号化データを復号することで得られる距離画像を用いて動きベクトルを推定することがある。

ここで、このように構成される本発明の映像符号化方法はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてＣＰＵなどの制御手段上で動作することにより本発明を実現することになる。

〔２〕本発明の映像復号方法の基本的な構成
本発明の映像復号方法は、本発明の映像符号化方法により生成された符号化データを復号することで、ある被写体を撮影する複数のカメラにより撮影された画像を復元することを実現するために、（ａ）基準視点となるカメラにより撮影された基準視点画像についての符号化データを復号する基準視点画像復号ステップと、（ｂ）基準視点画像を撮影したカメラから被写体までの推定距離を示す距離画像についての符号化データを復号する距離画像復号ステップと、（ｃ）復号した基準視点画像と復号した距離画像とカメラの設置位置および向きについて規定するカメラの位置関係とに基づいて、基準視点以外の視点における視差補償画像を推定する視差補償画像推定ステップと、（ｄ）推定した視差補償画像とその推定対象の視点に対応付けられるカメラの撮影した画像との差分を示す視差差分画像と、その視差差分画像を復元済みの視差差分画像を用いて時間的あるいは空間的に予測した視差差分予測値との差データについての符号化データを復号する差データ復号ステップと、（ｅ）復号した差データと視差差分予測値とに基づいて、基準視点以外の視点に対応付けられるカメラの撮影した画像との差分を示す視差差分画像を復元する視差差分画像復元ステップと、（ｆ）推定した視差補償画像と復元した視差差分画像とに基づいて、基準視点以外の視点に対応付けられるカメラの撮影した画像を復元する画像復元ステップとを有する。

この基本的な構成を採るときにあって、本発明の映像復号方法は、さらに次の構成を採ることがある。

〔２−１〕
カメラの位置関係の情報を符号化データから得ることになる場合には、上述の基本的な構成のステップに加えて、（ｇ）各画像を撮影したカメラの位置関係の情報についての符号化データを復号するカメラ位置関係情報復号ステップを有する。

〔２−２〕
視差補償画像推定ステップでは、復号した基準視点画像と復号した距離画像とカメラの位置関係とに基づいて基準視点以外の視点における視差補償画像を推定することになるが、このとき、画素値を推定できない画素については、周辺の画素の画素値から、その画素の画素値を推定することがある。

〔２−３〕
視差補償画像推定ステップでは、復号した基準視点画像と復号した距離画像とカメラの位置関係とに基づいて基準視点以外の視点における視差補償画像を推定することになるが、このとき、画素値を推定できない画素については、周辺の画素の動き情報からその画素の動き情報を推定して、その推定した動き情報と復号済みの画像の画素値とに基づいて、その画素の画素値を推定することがある。

〔２−４〕
視差補償画像推定ステップでは、復号した基準視点画像と復号した距離画像とカメラの位置関係とに基づいて基準視点以外の視点における視差補償画像を推定することになるが、このとき、画素値を推定できない画素については、符号化データに埋め込まれている予測モードの情報に基づいて、〔２−２〕の推定方法か〔２−３〕の推定方法のどちらかを選択することで、視差補償画像を単位にして２つの方法を切り替えながら画素値の推定を行うことがある。

ここで、このように構成される本発明の映像復号方法はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてＣＰＵなどの制御手段上で動作することにより本発明を実現することになる。

〔３〕本発明の処理について
本発明の映像符号化方法は、復号側がカメラの位置関係の情報を符号化データからではなくて得ることができる場合には、基準視点となるカメラにより撮影された基準視点画像と、基準視点画像を撮影したカメラから被写体までの推定距離を示す距離画像と、基準視点画像と距離画像とカメラの位置関係とに基づいて推定された視差補償画像と符号化対象画像との差分を示す視差差分画像という３種類の画像を符号化する。そして、復号側がカメラの位置関係の情報を符号化データから得ることになる場合には、この３種類の画像に加えて、カメラの位置関係の情報を符号化する。

この符号化データを受けて、本発明の映像復号方法は、基準視点画像と距離画像と視差差分画像とを復号することにより得て、復号した基準視点画像と復号した距離画像とカメラの位置関係とに基づいて、基準視点以外の視点における視差補償画像を推定して、その推定した視差補償画像と復号した視差差分画像とに基づいて、基準視点以外の視点に対応付けられるカメラの撮影した符号化対象画像を復元する。

このように、本発明では、符号化対象の多視点動画像の中の１つの視点（基準視点）から被写体への距離を、その多視点動画像を用いて求めて距離画像を作り出す。次に、基準視点における動画像と奥行き情報の動画像（距離動画像）とを用いて、他視点における動画像を予測する。そして、この予測動画像と符号化対象の動画像との差分を求めることで差分の動画像を得て、基準視点の動画像、基準視点における奥行き情報の動画像（距離動画像）、基準視点以外の視点における差分の動画像をそれぞれ２次元動画像として符号化する。

つまり、本発明では、参照は基準視点としか行われていないため、必要なカメラ以外の情報をできるだけ抑えて取り出すという機能を実現できることになる。また、奥行き情報の動画像（距離動画像）は全ての視点の情報から作られたものであるため、それを用いて予測することで、空間方向の相関を利用できることになる。

更に、予測残差は基準視点から予測できない情報であることから、基準視点の画像には含まれてなく、その視点にのみ含まれる情報が残るのだが、これに対しては動き予測を用いて時間方向の相関を利用することで符号化効率を向上できることになる。

更に、奥行き情報の動画像（距離動画像）は基準視点と他の全ての視点との間の視差情報を１つの表現で表すことができているだけでなく、それを２次元動画像として符号化することで視差の時間方向の冗長性を取り除くことができることになる。

また、多視点動画像から自由視点動画像を合成する場合、被写体の幾何情報が存在することによって、ある品質の映像を作り出すのに必要な画像の個数が少なくて済んだり、合成の処理が簡略化されたりすることになるのだが、本発明で求める奥行きの動画像（距離動画像）は一種の幾何情報を表しているため、合成画像の品質を向上させたり、幾何情報の推定処理を簡略化できることになる。

このように、本発明によれば、受け手が必要とする任意のカメラの映像を、必要ないカメラの情報を送信することをできるだけ抑えて取り出すという機能を実現できるようになる。そして、ある視点からの被写体の推定距離情報を用いて符号化されているため、被写体の幾何情報が提供されることとなり、自由視点動画像を合成する前処理が省略できるという利点を持ち、なお、かつ空間方向の相関と時間方向の相関とを同時に利用することによって多視点動画像を効率的に符号化できるようになる。

次に、本発明の映像符号化方法が持つ上述の〔１−１〕〜〔１−１２〕に記載した各処理機能の持つ意味について説明する。

（Ａ）〔１−１〕に記載した処理機能の持つ意味

復号側が入手できる距離画像と基準視点画像とは符号化されたものを復号した画像であるため、符号化側で、符号化・復号を行わないオリジナルの距離画像と基準視点画像とを用いて推定した視差補償画像を用いると、復号側で推定される視差補償画像との間に誤差が存在することになり、基準視点以外の画像が、視差差分画像の誤差と基準視点画像の誤差と距離画像の誤差とが重なったものになってしまう。

そこで、本発明では、〔１−１〕に記載するように、復号側がカメラの位置関係の情報を符号化データからではなくて得ることができる場合には、符号化側は、基準視点画像の符号化データを復号することで得られる基準視点画像と、距離画像の符号化データを復号することで得られる距離画像と、符号化されることのないカメラの位置関係とに基づいて、基準視点以外の視点における視差補償画像を推定するように処理するのである。

この処理機能に従って、符号化側で符号化歪みの入った距離画像と基準視点画像とを用いることになるため、基準視点以外の画像における符号化歪みは視差差分画像における符号化歪みの影響だけにすることができるようになる。すなわち、視差差分画像の符号化において、復号側における距離画像と基準視点画像の符号化歪みを考慮した符号化を行うことができることで、最高で歪みなしの符号化を達成することができるようになる。

（Ｂ）〔１−２〕に記載した処理機能の持つ意味

カメラの位置関係が明示的に与えられなかった場合、多視点動画像から距離画像を求め、視差補償画像を求める処理の精度は著しく低下する。そのため視差差分画像により多くの残差が存在することにより符号化効率が悪くなる。

そこで、本発明では、〔１−２〕に記載するように、復号側がカメラの位置関係の情報を符号化データから得ることになる場合にあって、カメラの位置関係が外部から与えられる場合には、それを取得して符号化し、一方、カメラの位置関係が外部から与えられない場合には、全カメラの画像に基づいてカメラの位置関係を推定して、それを符号化するように処理するのである。

この処理機能に従って、カメラの位置関係を符号化する必要があるときに、カメラの位置関係が外部から与えられない場合には、与えられた多視点動画像からカメラの位置関係を推定するため、より正確な距離画像と視差補償画像とを求めることができることで、視差差分画像に残る信号を小さくすることができるため、カメラの位置関係が明示的に与えられなくても符号化効率が悪くなることを防ぐことができる。すなわち、カメラの位置関係が明示的に与えられなくても、さまざまなカメラ配置の多視点動画像に対して、より柔軟に対応して符号化が行うことができるようになる。

（Ｃ）〔１−３〕に記載した処理機能の持つ意味

〔１−３〕に記載した処理機能の持つ意味は、〔１−１〕に記載した処理機能の持つ意味と基本的に同じである。ただし、〔１−３〕に記載した処理機能では、カメラの位置関係の情報も符号化することを想定しているので、視差補償画像を推定する際に必要となるカメラの位置関係についても、カメラ位置関係情報の符号化データを復号することで得られるものを使用するように処理している。

（Ｄ）〔１−４〕に記載した処理機能の持つ意味

各カメラはほぼ同じ被写体と背景を撮影しているといっても、全く同じ視点から撮影を行なっているわけではないので、各カメラが撮影している空間は異なる。そのため、どのカメラ対で視差予測をするかによって、精度の高い視差予測が可能な領域の大きさが異なる。精度の高い視差予測が可能な領域が小さくなるカメラを基準視点としてしまうと符号化効率が悪くなる。

そこで、本発明では、〔１−４〕に記載するように、他のカメラが撮影する空間と最も重複する空間を撮影しているカメラを基準視点となるカメラとして設定するように処理するのである。

この処理機能に従って、各カメラから撮影される映像の共通部分がより多く撮影されているカメラを基準視点に選ぶことになるので、全カメラにおける精度の高い視差予測が可能な領域の合計を最大にすることができるため、符号化効率が悪くなることを防ぐことができる。すなわち、多くの領域に関して精度の高い視差補償画像を生成できるため、より効率的な符号化を行うことができるようになる。

（Ｅ）〔１−５〕に記載した処理機能の持つ意味

本発明においては、もともとの符号化対象である多視点動画像のほかに距離画像を符号化する必要が生じている。そのため、距離画像を符号化するのに必要な符号量はできる限り少なくする必要がある。距離画像は視差情報を提供して視差補償画像を作成するために存在することから、そのために必要な情報が含まれていればよいということになる。つまり、距離画像は画素単位の視差情報を提供できる程度のものでかまわないということを示している。そのような精度の距離推定では隣接する画素での推定距離が同じになる場合が多い。

そこで、本発明では、〔１−５〕に記載するように、画像をブロックに分割して、ブロックごとに距離を推定することで距離画像を生成するように処理するのである。

この処理機能に従って、精度をある程度保ったまま、距離画像の符号化において、より効率的な符号化を行うことができるようなる。

（Ｆ）〔１−６〕に記載した処理機能の持つ意味

視差予測された画像と符号化対象の画像との誤差が単純に小さくなるように距離の予測を行った場合、距離の予測には時間方向の相関が考慮に入れられていないことから、視差予測された視差補償画像における時間方向の相関が失われてしまう。視差予測された視差補償画像において時間方向の相関がない場合、それと符号化対象の画像との差分で求められる視差差分画像においても時間方向の相関がなくなってしまうことになる。そのような場合、視差差分画像の符号化効率は非常に悪くなる。

そこで、本発明では、〔１−６〕に記載するように、規定のアルゴリズムに従って距離画像を生成する場合に、その距離画像に基づいて算出されることになる視差差分画像の符号化効率が向上するようにと、その生成した距離画像をそのまま用いるのか時間的に変化しないものに変更して用いるのかを決定するように処理するのである。ここで、この決定については、距離画像がブロックを単位にして符号化されるような場合には、そのブロックを単位にして行うことになる。

この処理機能に従って、視差差分画像における時間方向の相関を考慮に入れて距離を推定するため、視差差分画像において時間方向の相関が失われることを防ぐことが可能となり、視差差分画像の符号化において、より効率的な符号化を行うことができるようになる。

（Ｇ）〔１−７〕に記載した処理機能の持つ意味

基準視点画像と他の視点における画像とは、視差補償をする場合、必ずしも１対１に対応しない。そのため視差補償画像において予測値の存在しない画素が現れることになる。そうなると視差差分画像は画素間で大きく値の異なる画像となる。そのような画像は自然な画像と異なる性質を持つようになることから、一般的な符号化手法を用いたときに符号化効率が低下する。

そこで、本発明では、〔１−７〕に記載するように、視差補償画像を推定するときに画素値を推定できない画素について、周辺の画素の画素値から、その画素の画素値を推定するように処理するのである。

この処理機能に従って、視差補償値のない画素に対して、隣接画素から予測値を作り出すことで、画素間で値が大きく異ならない視差差分画像を生成することが可能となる。隣接画素の値に相関があることはよく知られており、２次元動画像の符号化でも用いられているため、この予測が大きく外れることは少ない。したがって、視差差分画像における符号化対象情報を減らすことで符号化効率を上げることができるようになる。

（Ｈ）〔１−８〕に記載した処理機能の持つ意味

〔１−７〕に記載した処理機能では、視差補償画像を推定するときに画素値を推定できない画素について、空間的な予測を行うことでその画素値を推定するようにしている。

これに対して、〔１−８〕に記載した処理機能では、視差補償画像を推定するときに画素値を推定できない画素について、周辺の画素の動き情報からその画素の動き情報を推定して、その推定した動き情報と符号化済みの画像の画素値とに基づいて、その画素の画素値を推定するように処理している。

この処理機能では、一般的な動画像の符号化で用いられる隣接画素における動きベクトルの相関を利用していることから、この予測が大きく外れることは少ない。したがって、〔１−７〕に記載した処理機能と同様に、視差差分画像における符号化対象情報を減らすことで符号化効率を上げることができるようになる。

（Ｉ）〔１−９〕に記載した処理機能の持つ意味

〔１−７〕に記載した処理機能では、視差補償画像を推定するときに画素値を推定できない画素について、空間的な予測を行うことでその画素値を推定するようにし、一方、〔１−８〕に記載した処理機能では、視差補償画像を推定するときに画素値を推定できない画素について、時間的な予測を行うことでその画素値を推定するようにしている。

このどちらの予測方法を用いるのかについては、符号化効率の観点から選択することが望ましい。

そこで、本発明では、〔１−９〕に記載するように、〔１−７〕の推定方法に従って推定した視差補償画像を用いる場合の符号量と、〔１−８〕の推定方法に従って推定した視差補償画像を用いる場合の符号量とを比較して、視差補償画像ごとに効率的な符号化を行える方法を選択することで、その画素の画素値を推定するように処理するのである。この構成を採るときには、どちらの予測モードを用いたのかを示す情報についても符号化することになる。

この処理機能に従って、視差補償値のない画素に対して予測値を作り出すことで視差補償画像を推定し、これにより、視差差分画像における符号化対象情報を減らすことで符号化効率を上げることができるようにすることを実現するときにあって、その符号化効率の向上をさらに確実なものにすることができるようになる。

（Ｊ）〔１−１０〕に記載した処理機能の持つ意味

基準視点画像と距離画像とはどちらも同じ視点からの画像であるため、動きに関しては非常に強い相関があると言える。したがって、両者を独立に符号化してしまうと、かなりの冗長性が残ることになる。

そこで、本発明では、〔１−１０〕に記載するように、基準視点画像を符号化する際に使われた動きベクトルを用いて距離画像を符号化するように処理するのである。

この処理機能に従って、同じ動きを表すベクトルを重複して符号化することをなくして、符号化効率を向上させることができるようになる。しかも、基準視点以外の視点の画像を復号する際には、基準視点も距離画像も必ず必要であるため、両者に参照関係があっても、本発明により実現される必要なカメラ以外の情報をできるだけ抑えて取り出すという機能を損なうことにはならない。したがって、基準視点画像と距離画像との相関を用いて、基準視点画像と距離画像とをあわせた符号化効率を上げることができるようになる。

（Ｋ）〔１−１１〕に記載した処理機能の持つ意味

同じ被写体を撮影しているということは、被写体の実際の３次元的動きは１つである。そのため、カメラの位置関係と距離画像と基準視点における動きベクトルとから、他視点における動きをある程度予測することができる。しかし、基準視点における動きベクトルは２次元であり、距離画像も完全な３次元ではないので、予測ベクトルは常に正しいわけではない。また、符号化効率という面で言えば、実際の動きを表した動きベクトルを用いることが常に最も高い符号化効率を達成するとは限らない。

そこで、本発明では、〔１−１１〕に記載するように、視差差分画像を符号化するときに、基準視点画像を符号化する際に使われた動きベクトルと距離画像とカメラの位置関係とに基づいて推定される動きベクトルか、自身の参照画像から推定される動きベクトルの内の符号化効率のよい方を選択して視差差分予測値を生成するように処理するのである。

この処理機能に従って、各視点に閉じて求められる動きベクトルと視差補償で求められる動きベクトルのうち符号化効率のよい方を選ぶことで、視差補償で求められる動きベクトルの間違いを許容して高い符号化効率を達成することが可能となる。すなわち、同じ被写体を撮影していることからくる、各視点における動画像に含まれる動き成分の相関を利用することで、視差差分画像の符号化効率を上げることができるようになる。

（Ｌ）〔１−１２〕に記載した処理機能の持つ意味

〔１−１１〕に記載した処理機能では、基準視点画像を符号化する際に使われた動きベクトルと距離画像とカメラの位置関係とに基づいて動きベクトルを推定することになるが、〔１−１２〕に記載した処理機能では、この動きベクトルの推定にあたって、復号側の処理に合わせて、距離画像の符号化データを復号することで得られる距離画像を用いて動きベクトルを推定するように処理する。

この処理機能に従って、復号側と同じ方法で動きベクトルを推定するようにすることから、距離画像に含まれる符号化歪みの影響を取り除いて動きベクトルの推定が可能になることから、復号において歪みが蓄積するのを防ぐことができるようになる。

本発明によれば、視差方向予測と時間方向予測とを同時に使うことによって多視点動画像の符号化効率を向上させることができるようになるとともに、この符号化にあたって、共通情報として、基準視点の映像と基準視点における距離画像とを利用することによって、受け手が必要とする任意のカメラの映像を、必要ないカメラの情報を送信することをできるだけ抑えて取り出すという機能を実現できるようになる。

そして、ある視点からの被写体の推定距離情報を用いて符号化を行うことから、被写体の幾何情報が提供されることとなり、自由視点動画像を生成するのに必要な幾何情報を推定する処理量を削減できるようになるとともに、必要とされる品質の自由視点動画像を生成するのに必要な映像の数を減少させたりすることができるようになる。

カメラ構成の一例を示す図である。本発明の映像符号化装置の一実施形態例である。カメラ情報初期設定部の構成の詳細を示す図である。基準視点動画像処理部の構成の詳細を示す図である。距離画像処理部の構成の詳細を示す図である。非基準視点動画像処理部の構成の詳細を示す図である。本発明の映像符号化装置の実行する処理フローである。本発明の映像符号化装置の実行する処理フローである。本発明の映像符号化装置の実行する処理フローである。本発明の映像符号化装置の実行する処理フローである。本発明の映像符号化装置の実行する処理フローである。基準視点画像の投影処理の説明図である。本発明の映像符号化装置が符号化するデータの種類とその符号化の順番を示す図である。本発明の映像復号装置の一実施形態例である。非基準視点動画像復号部の構成の詳細を示す図である。本発明の映像復号装置の実行する処理フローである。本発明の映像復号装置の実行する処理フローである。本発明の映像復号装置の実行する処理フローである。従来技術の説明図である。

以下、実施の形態に従って本発明を詳細に説明する。

ここで、以下に説明する実施形態例では、３つのカメラで撮影された多視点動画像を符号化する場合を想定している。

図１に、本実施形態例で使用するカメラ構成の概念図を示す。図中の四角型の図形は各カメラのフレームを表す。

このカメラ構成の場合、本発明では、まず、カメラＣ１，Ｃ２，Ｃ３の位置関係を求め、いずれか１つのカメラを基準視点と定める。次に、その基準視点からの距離画像（被写体及び背景までの距離の大きさを示す画像）を生成する。そして、同一時刻のフレームに関しては、基準視点に設定されたカメラの画像、距離画像、基準視点以外のカメラの画像の順に符号化を行い、この符号化にあたって、距離画像については基準視点のカメラの画像を参照しながら符号化を行うとともに、基準視点以外のカメラの画像については基準視点のカメラの画像と距離画像とを参照しながら符号化を行う。

説明を簡単にするために、図１の中でフレームの図に記述されてある順番で符号化をしていくこととする。

図２ないし図６に、本発明の映像符号化装置１の一実施形態例を示す。

図２に示すように、本発明の映像符号化装置１は、カメラＣ１，Ｃ２，Ｃ３のフレームを図１に示す順番で入力する画像情報入力部１１と、全てのカメラのある時刻のフレームを蓄積する画像メモリ１２と、カメラの位置関係（カメラの設置位置及びカメラの向き）を推定し、基準視点となるカメラを選出するカメラ情報初期設定部１３と、基準視点の画像を符号化する基準視点動画像処理部１４と、同一時刻の全てのカメラのフレームに基づいて、基準視点からの距離画像を生成し符号化する距離画像処理部１５と、距離画像と基準視点画像とカメラの位置関係とに基づいて基準視点以外のカメラのフレームを推定し、そのカメラの入力画像との差分を符号化する非基準視点動画像処理部１６とを備える。

図３は、カメラ情報初期設定部１３の構成の詳細を示す図である。

この図に示すように、カメラ情報初期設定部１３は、カメラの位置関係を推定するカメラ位置関係推定部１３０と、入力カメラ群の中から基準視点を選択する基準視点設定部１３１と、カメラの位置関係の情報を符号化するカメラ位置関係符号化部１３２とを備える。

ここで、カメラ位置関係推定部１３０が推定したカメラの位置関係の情報については、距離画像処理部１５及び非基準視点動画像処理部１６に通知されることになる。

図４は、基準視点動画像処理部１４の構成の詳細を示す図である。

この図に示すように、基準視点動画像処理部１４は、基準視点の画像を通常の２次元動画像として符号化する基準視点動画像符号化部１４０と、符号化された基準視点動画像を復号する基準視点動画像復号部１４１とを備える。

ここで、基準視点動画像符号化部１４０が基準視点の画像を符号化する際に生成したブロック分割タイプや動きベクトルなどの符号化対象情報については、距離画像処理部１５及び非基準視点動画像処理部１６に通知されることになる。また、基準視点動画像復号部１４１が復号した基準視点動画像については、非基準視点動画像処理部１６に通知されることになる。

図５は、距離画像処理部１５の構成の詳細を示す図である。

この図に示すように、距離画像処理部１５は、多視点動画像とそれらを撮影したカメラの位置関係とに基づいて基準視点からの距離画像を推定し生成する距離画像生成部１５０と、生成された距離画像を通常の２次元動画像として符号化する距離動画像符号化部１５１と、符号化された距離動画像を復号する距離動画像復号部１５２とを備える。

ここで、距離動画像復号部１５２が復号した距離動画像については、非基準視点動画像処理部１６に通知されることになる。

図６は、非基準視点動画像処理部１６の構成の詳細を示す図である。

この図に示すように、非基準視点動画像処理部１６は、同一時刻における一度符号化され復号された距離動画像（以後、復号距離動画像と呼ぶ）と一度符号化され復号された基準視点動画像（以後、復号基準視点動画像と呼ぶ）とに基づいて、そのカメラの視点における画像（以後、視差補償画像と呼ぶ）を生成する視差補償画像生成部１６０と、視差補償画像と入力された同一視点、同一時刻における画像との差分画像（以後、視差差分画像と呼ぶ）を生成する視差差分画像生成部１６１と、生成された視差差分画像を通常の２次元動画像として符号化する視差差分動画像符号化部１６２と、符号化された視差差分動画像を復号する視差差分動画像復号部１６３と、符号化されて復号された基準視点動画像と距離動画像と視差差分動画像とから復元される非基準視点の画像を格納する非基準視点画像メモリ１６４とを備える。

図７ないし図１１に、このように構成される本発明の映像符号化装置１の実行する処理フローを示す。

次に、これらの処理フローに従って、このように構成される本発明の映像符号化装置１の実行する処理について詳細に説明する。

本発明の映像符号化装置１では、符号化処理全体の概要を示す図７の処理フローに示すように、カメラＣ１，Ｃ２，Ｃ３のフレームが図１に示す順番で、次々と画像情報入力部１１に入力される〔Ａ１〕。入力された画像は同一時刻の全てのカメラからの画像が入力されるまで画像メモリ１２に蓄積される〔Ａ２，Ａ３〕。つまり、本実施形態例の場合、画像メモリ１２は３フレーム分のメモリ容量を持つことになる。

次に、これまでに１フレームも符号化処理が行われていない場合には、カメラ情報初期設定部１３において各カメラの位置関係が調べられ、全てのカメラから１つの基準視点が選択された後に、入力フレームの符号化処理が行われる〔Ａ４，Ａ５，Ａ６〕。一方、これまでに１フレームでも符号化が行われていた場合には、既に求められているカメラの位置関係、基準視点を用いて入力フレームの符号化が行われる〔Ａ４，Ａ６〕。

図８に、カメラ情報初期設定部１３で行われる処理の処理フローを示す。

この処理フローに示すように、カメラ情報初期設定部１３では、まず、カメラ位置関係推定部１３０で、与えられた同一時刻における３つのカメラのフレームから各々のカメラの相対な位置関係を推定する〔Ｂ１〕。

この推定法としては、下記に示す参考文献に記載されているものに代表される任意のカメラパラメータの推定法が利用できる。

参考文献：Oliver Faugeras, Three-Dimension Computer Vision - MIT Press; BCTC /UFF-006.37 F259 1993-ISBN:0-262-06158-9.
この推定したカメラの位置関係の情報は復号側でも正確に必要となることから、カメラ位置関係符号化部１３２で、可逆符号化する〔Ｂ２〕。

そして、基準視点設定部１３１で、このカメラの位置関係から互いのカメラで撮影可能な空間を算出し、最も他カメラと重複する空間が大きいカメラを基準視点とする処理を行う〔Ｂ３〕。

つまり、以下の式を満たすＣ_bを基準視点カメラとする処理を行う。ただし、Ｓ_j（ｋ）はカメラｊの画像内におけるカメラｋで撮影可能な面積を示す。

図９に、入力フレームの符号化処理の処理フローを示す。

この処理フローに示すように、距離画像処理部１５内の距離画像生成部１５０で、画像メモリ１２に蓄えられている全てのカメラのフレームと、カメラ情報初期設定部１３で求められたカメラ位置関係及び基準視点情報とを用いて、基準視点からの被写体と背景の距離画像を生成する〔Ｃ１〕。

この際、基準視点画像をあるブロックに分割し、ブロックごとに距離を推定することで距離画像を生成する。基準視点画像のあるブロックにおける距離は次のような方法で推定する。

すなわち、そのブロックに含まれる画素とその周囲のＭ個の画素において、距離をｄと仮定したときに、カメラの位置関係から対応する非基準視点画像内の画素を求めて、次の評価関数を用いて最小の評価値を与えるｄを、そのブロックの距離とする推定を行う。

ここで、この式において、Ｂは距離を求めようとするブロックに含まれる基準視点画像における画素とその周囲のＭ個の画素との集合を表し、ある画素ｂ∈Ｂの距離がｄの場合に、非基準視点画像でその画素に対応する画素をｒ（ｂ，ｄ）で表し、画素ｂの持つ画素値をＩ_bで表している。

さらに、距離Ｄ_cur（ｄの確定した値）のときに最小の評価値Ｅ_minが得られた場合、１つ前の時刻の過去における同じブロックの持つ距離Ｄ_preを用いて上記の評価関数で求められた評価値Ｅ_preを使い、次の式に示すように、その２つの評価値の差が閾値Ｄ_thを超えなければ過去における距離をそのブロックの距離として用いることとする。

ここで、この閾値Ｄ_thは、上述の〔数２〕で推定される距離をそのまま用いるのか時間的に変化しないものに変更して用いるのかを決定するために用意されており、視差差分画像の符号化効率がよくなる方を用いることを実現するために用意されている。この閾値機能が用意されることで、視差差分画像における時間方向の相関を考慮に入れて距離を推定することになることから、視差差分画像において時間方向の相関が失われることを防ぐことが可能となり、視差差分画像の符号化において、より効率的な符号化を行うことができるようになる。

このようにして、図９の処理フローの〔Ｃ１〕では、基準視点の全ての画素に対応する距離を求めることで距離画像を生成するのである。

次に、基準視点動画像処理部１４内の基準視点動画像符号化部１４０で、基準視点の画像を通常の２次元動画像（基準視点動画像）として符号化する〔Ｃ２〕。そして、この基準視点動画像の符号化に用いられた動きベクトル（基準視点の画像のフレーム間で求めた動きベクトル）を用いて、距離画像処理部１５内の距離動画像符号化部１５１で、生成した距離画像を２次元動画像（距離動画像）として符号化する〔Ｃ３〕。

ここで、基準視点動画像と距離動画像における視点位置は同じであるので、動きベクトルや符号化ブロックサイズなどは共通のものが使える。具体的には、基準視点動画像の符号化の際に使われたブロックサイズや動きベクトル情報を距離動画像の符号化の際にそのまま用いるか、新たなブロックサイズや動きベクトルを設定し直すのかを選択的に決める。

その際には、ある定数λを用いて、新たなブロックサイズと動きベクトルとを設定して符号化するのに必要な符号量Ｒ_newと、その情報を用いたときの残差の量Ｄ_newとから次の式で求まるコストＣＯＳＴ_newを計算し、さらに、基準視点動画像の符号化の際に使われたブロックサイズと動きベクトルとを流用することを示すのに必要な符号量Ｒ_oldと、その流用する情報を用いたときの残差の量Ｄ_oldとから同様の式で求まるコストＣＯＳＴ_oldを計算して、より小さなコストとなる方を選択する。

また、基準視点動画像の符号化に使われた動きベクトルを、距離動画像を符号化するときにも利用する方法には、予測値に重み付けをする方法や、基準視点動画像を符号化する際の動きベクトルに対する残差ベクトルを用いる方法もある。

予測値に重み付けをする方法とは、具体的には、基準視点動画像の符号化で用いられた動きベクトルが（Ｖ_x，Ｖ_y）であったとするとき、距離動画像を符号化する際の動き補償の選択肢として、ある定数Ｗeight の情報のみを付加することによって次の式で計算される値を使うことを指す。

ここで、estimatedValue(i,j) は位置（ｉ，ｊ）の予測値を表し、previousValue(i,j)は参照フレームにおける位置（ｉ，ｊ）の値を表す。

また、残差ベクトルを使う方法とは、同様にある定数ベクトル（ＭＶ_x，ＭＶ_y）の情報のみを付加することによって次の式で計算されるものを使うことを指す。

このようにして符号化された基準視点動画像については、基準視点動画像処理部１４内の基準視点動画像復号部１４１で復号され、そして、このようにして符号化された距離動画像については、距離画像処理部１５内の距離動画像復号部１５２で復号されることになる〔Ｃ４，Ｃ５〕。

この復号された基準視点動画像と距離動画像とは、非基準視点動画像処理部１６に送られる。

そして、まず、非基準視点動画像処理部１６内の視差補償画像生成部１６０で、基準視点以外のカメラについて、その復号された基準視点動画像と距離動画像とによって推定される視差補償画像を生成する〔Ｃ６〕。なお、この視差補償画像の生成処理については、図１０の処理フローで後述することにする。

続いて、非基準視点動画像処理部１６内の視差差分画像生成部１６１で、この生成された視差補償画像について、入力フレームとの差分を取ることで視差差分画像を生成する〔Ｃ７〕。この視差差分画像については、非基準視点動画像処理部１６内の視差差分動画像符号化部１６２で、普通の２次元動画像として符号化する〔Ｃ８〕。

続いて、非基準視点動画像処理部１６内の視差差分動画像復号部１６３で、この符号化された視差差分動画像を復号して、非基準視点画像メモリ１６４に格納されている同一時刻の視差補償画像と足し合わすことで復号非基準視点動画像を生成し、次フレームの符号化に用いるために非基準視点画像メモリ１６４に再度格納する〔Ｃ９〕。

次に、図１０の処理フローに従って、非基準視点動画像処理部１６内の視差補償画像生成部１６０で実行される視差補償画像の生成処理について説明する。

視差補償画像生成部１６０では、視差補償画像を生成するために、距離画像とカメラの位置関係とから基準視点画像の全ての画素の値を対象とするカメラの画像へと投影する〔Ｄ１〕。

この投影は、図１２（ａ）に示す式により実行される。ここで、Ｈ_Cnは基準視点で撮影された画像上の点からカメラＣ_nで撮影された画像上の点への変換行列であり、（ｉ，ｊ）は基準視点座標であり、ｄ_ijはその座標に対応する距離画像の値であり、（Ｉ，Ｊ）は基準視点画像上の位置（ｉ，ｊ）に対応するカメラＣ_nで撮影された画像上の位置であり、ｆ_CnはカメラＣ_nの焦点距離であり、Ａ，Ｘ，Ｙは等式を成り立たせる任意の実数である。このとき、Ｈ_Cnは距離画像とカメラの位置関係とから作ることができる。

この〔Ｄ１〕で行われる投影は一般的に１対１に対応しないので、フレーム全体の画素に対して値が割り振られるとは限らない。

例えば、全ての視点において焦点距離ｆの一般的なピンホールモデルの適用可能なカメラを利用し、基準視点のカメラとカメラＣ_nとが同じ方向を向いていて、カメラの位置が水平方向にΔｘだけ離れている場合、Ｈ_Cnは図１２（ｂ）に示す形となる。

つまり、基準視点上の２つの画素（ｉ１，ｊ１），（ｉ２，ｊ２）が図１２（ｃ）に示す式を満たす場合、どちらの画素もカメラＣ_nでは同じ画素と対応することになるため、Ｈ_Cnが１対１の投影でないことが確認できる。ここで、ｄ_i1j1は画素（ｉ１，ｊ１）に対応する距離画像の値であり、ｄ_i2j2は画素（ｉ２，ｊ２）に対応する距離画像の値である。

このように１対１に対応しないことから、投影によって割り振られた値がない全ての画素において以下の処理を行う〔Ｄ２〕。

まず、空間的予測を行う〔Ｄ３〕。空間的予測は既に値の割り振られている隣接画素の値から自身の画素の値を求める方法である。次に、時間的予測を行う〔Ｄ４〕。時間的予測は既に値の割り振られている周辺のブロックにおいて、非基準視点動画像処理部１６内の非基準視点画像メモリ１６４に蓄えられている過去のフレームを参照して求められる動きベクトルから自身の動きベクトルを推定して、その動きベクトルを用いて過去のフレームから対応する画素を見つけて補完する方法である。

そして、実際に符号化対象のフレームとの差分値を比べて、差分値の量と予測の種類を示すために必要な符号量の関係とから、効率的な符号化が行える予測を行う〔Ｄ５〕。この際に用いた予測モードについては、符号化対象情報として視差補償画像と共に次のステップに送られる。

このようにして、非基準視点動画像処理部１６内の視差補償画像生成部１６０で視差補償画像が生成されると〔Ｃ６〕、図９の処理フローで説明したように、入力フレームとの差分を取られることで視差差分画像が生成されて〔Ｃ７〕、その視差差分画像が２次元動画像として符号化され〔Ｃ８〕、さらに、これを復号して非基準視点画像メモリ１６４に格納されている同一時刻の視差補償画像と足し合わすことで復号非基準視点動画像が生成されて、次フレームの符号化に用いるために非基準視点画像メモリ１６４に再度格納されることになる〔Ｃ９〕。

この〔Ｃ８〕で行う符号化では、距離動画像と基準視点動画像とを符号化するときに使われた符号化対象情報を用いて動きベクトルの情報を可能ならば共有する。

図１１に、この動きベクトルの利用に関する処理フローを示す。

この処理フローに示すように、まず、カメラの位置関係と距離画像とから、符号化対象の視差差分動画像の符号化ブロック（ｉ，ｊ）に対応する基準視点動画像のブロック（Ｉ，Ｊ）を求める〔Ｅ１〕。

次に、その基準視点動画像のブロック（Ｉ，Ｊ）を符号化する際に使われた２次元のベクトル（Ｖ_I，Ｖ_J）を抜き出す。このベクトルは２次元であり、始点を参照ブロック、終点を符号化対象ブロックと呼ぶとすると、同一時刻の距離画像における符号化対象ブロックに対応するブロックの推定距離Ｄ_nowを終点の奥行きと仮定し、参照フレームと同一時刻の距離画像における参照ブロックに対応するブロックの推定距離Ｄ_preを始点の奥行きと仮定することによって、３次元の動きベクトル（Ｖ_I，Ｖ_J，Ｄ_now−Ｄ_pre）を定義する〔Ｅ２〕。

続いて、カメラの位置関係を用いて、この３次元の動きベクトルを、符号化しようとしている非基準視点のカメラ平面における２次元ベクトルに変換する〔Ｅ３〕。

このベクトルを使用したときの歪み量（予測誤差量）の表現に必要な符号量と、その他の通常の２次元動画像の符号化において求められる動きベクトルを使用したときの歪み量の表現に必要な符号量とを比べて、符号化効率のよいベクトルを採用する〔Ｅ４〕。

このとき、通常の２次元動画像の符号化において求められる動きベクトルを使用する場合には、その動きベクトルを符号化し、変換して得られた２次元ベクトルを動きベクトル（推定動きベクトル）として使用する場合には、そのことを表す情報を符号化する。

このようにして、本発明の映像符号化装置１は、カメラＣ１，Ｃ２，Ｃ３の撮影した画像を符号化するのである。

図１３に、図１に示すカメラ構成を用いる場合に、本発明の映像符号化装置１が符号化するデータの種類とその符号化の順番を図示する。

この図に示すように、本発明の映像符号化装置１は、先ず最初に、カメラＣ１，Ｃ２，Ｃ３についてのカメラ情報（どのカメラを基準視点とするのかという情報と、カメラの位置関係の情報などの情報）を符号化し、続いて、時刻Ｔ１について、基準視点の画像／距離画像／基準視点以外のカメラについての視差差分画像を符号化し、続いて、時刻Ｔ２について、基準視点の画像／距離画像／基準視点以外のカメラについての視差差分画像を符号化し、続いて、時刻Ｔ３について、基準視点の画像／距離画像／基準視点以外のカメラについての視差差分画像を符号化するような形で符号化を実行するのである。

次に、このように生成された符号化データを復号する本発明の映像復号装置について説明する。

図１４及び図１５に、本発明の映像復号装置２の一実施形態例を示す。

図１４に示すように、本発明の映像復号装置２は、カメラ情報を復号するカメラ情報復号部２１と、復号されたカメラ情報を格納するカメラ情報メモリ２２と、基準視点として選ばれたカメラの映像を復号する基準視点動画像復号部２３と、基準視点動画像を復号する際に生成されるブロック分割タイプや動きベクトルなどの符号化対象情報を格納する符号化対象情報メモリ２４と、距離動画像を復号する距離動画像復号部２５と、視差差分動画像を復号する視差差分動画像復号部２６と、基準視点以外のカメラの映像を復号する非基準視点動画像復号部２７と、復号された画像を出力する画像出力部２８とを備える。

図１５は、非基準視点動画像復号部２７の構成の詳細を示す図である。

この図に示すように、非基準視点動画像復号部２７は、現在の時刻の距離画像と参照画像に使われている画像と同じ時刻の距離画像とを格納する距離画像メモリ２７０と、視差補償画像を生成する視差補償画像生成部２７１と、視差補償画像生成部２７１で生成される視差補償画像に関して時間方向と空間方向とから画素値を補完する視差補償画像補完部２７２と、視差補償画像と復号された視差差分動画像とから最終的な非基準視点動画像を生成する非基準視点動画像生成部２７３と、生成された非基準視点画像を以降のフレームの復号に使うために格納しておく非基準視点画像メモリ２７４とを備える。

図１６ないし図１８に、このように構成される本発明の映像復号装置２の実行する処理フローを示す。

次に、これらの処理フローに従って、このように構成される本発明の映像復号装置２の実行する処理について詳細に説明する。

ここで、本実施形態例では、まずカメラ情報が入力され、その後、時刻毎に基準視点動画像、距離動画像、視差差分動画像の順番で符号化データが入力されることを想定している。

これから、本発明の映像復号装置２では、図１６の処理フローに示すように、まずカメラ情報が入力され、その後、時刻毎に基準視点動画像、距離動画像、視差差分動画像の順番で符号化データがされてくるので、その符号化データを入力する〔Ｆ１〕。

入力した符号化データがカメラ情報であれば、カメラ情報復号部２１で、それを復号して、カメラ情報メモリ２２に蓄える〔Ｆ２，Ｆ３〕。

一方、入力した符号化データが基準視点動画像であれば、基準視点動画像復号部２３で、それを復号して、復号の際に得た動きベクトルや符号化ブロック分割タイプなどの符号化対象情報については符号化対象情報メモリ２４に格納し、復号した基準視点の画像については非基準視点動画像復号部２７と画像出力部２８とに送る〔Ｆ４，Ｆ５〕。

一方、入力した符号化データが距離動画像であれば、距離動画像復号部２５で、符号化対象情報メモリ２４に格納されている符号化対象情報を用いて、それを復号して、視差差分動画像復号部２６と非基準視点動画像復号部２７とに送る〔Ｆ６，Ｆ７〕。

一方、入力した符号化データが視差差分動画像であれば、視差差分動画像復号部２６で、符号化対象情報メモリ２４に格納されている符号化対象情報と距離動画像復号部２５で復号された距離画像とカメラ情報メモリ２２に格納されているカメラ位置関係とを用いて、それを復号して、非基準視点動画像復号部２７に送る〔Ｆ８〕。

このとき、通常の動画像の復号と同じく、動きベクトルを用いて参照フレームからの動き補償を行いながら視差差分動画像を復号する。ここで用いられる動きベクトルは、視差差分動画像の符号化データに含まれているか、符号化対象情報メモリ２４に格納されている符号化対象情報と距離動画像復号部２５で復号された距離動画像とカメラ情報メモリ２２に格納されているカメラ位置関係とから推定する。

そして、非基準視点動画像復号部２７で、基準視点動画像復号部２３で復号された基準視点動画像と距離動画像復号部２５で復号された距離動画像とカメラ情報メモリ２２に格納されているカメラ位置関係とを用いて、非基準視点動画像を復号して、画像出力部２８に送る〔Ｆ９〕。

画像出力部２８は、基準視点動画像復号部２３から送られてくる基準視点動画像と、非基準視点動画像復号部２７から送られてる非基準視点動画像とを受けて、最終的に送られてきた復号画像を出力する〔Ｆ１０〕。

次に、図１７の処理フローに従って、視差差分動画像復号部２６で実行される推定動きベクトルの導出処理について説明する。

視差差分動画像復号部２６で実行される推定動きベクトルの導出処理では、まず、復号する視差差分動画像のブロック（ｘ，ｙ）に対応する基準視点動画像のブロック（Ｘ，Ｙ）を、カメラ位置関係とその時刻の復号済み距離画像とを用いて求める〔Ｇ１〕。

次に、符号化対象情報として蓄えられている、基準視点動画像のブロック（Ｘ，Ｙ）を符号化する際に使われた動きベクトル（Ｕ_{X ,}Ｕ_Y）を抜き出す〔Ｇ２〕。

続いて、このベクトルが「ブロック（Ｘ，Ｙ）は参照フレームにおけるブロック（Ｘ−Ｕ_{X ,}Ｙ−Ｕ_Y）の映像が移動してきたものである」ということを示していることにすると、復号対象フレームと同一時刻の距離画像における基準視点画像のブロック（Ｘ，Ｙ）に対応する位置の値Ｄ_nをベクトルの終点における奥行きと仮定し、参照フレームと同一時刻の距離画像における基準視点画像のブロック（Ｘ−Ｕ_{X ,}Ｙ−Ｕ_Y）に対応する位置の値Ｄ_pをベクトルの始点における奥行きと仮定することによって、３次元の動きベクトル（Ｕ_{X ,}Ｕ_{Y ,}Ｄ_n−Ｄ_p）を定義する〔Ｇ３〕。

最後に、カメラの位置関係を用いて、この３次元の動きベクトルを、復号しようとしている視差差分動画像に対応する非基準視点のカメラ平面における２次元ベクトルに変換して推定動きベクトルを得る〔Ｇ４〕。

次に、図１８の処理フローに従って、非基準視点動画像復号部２７で実行される非基準視点動画像の復号処理について説明する。

非基準視点動画像復号部２７で実行される非基準視点動画像の復号処理では、まず復号距離動画像と復号基準視点動画像とカメラ位置関係とが視差補償画像生成部２７１に入力され、視差補償画像生成部２７１で、視差補償画像を生成する〔Ｈ１〕。

次に、その視差補償画像の中で、先ほどの処理では値が割り振られなかった画素について、視差補償画像補完部２７２で、空間的補完あるいは時間的補完を行う〔Ｈ２，Ｈ３，Ｈ４，Ｈ５〕。どちらの補完を行うのかは視差差分動画像の符号化データの中に埋め込まれている。

ここで、空間的補完とは周囲の画素の値から画素を予測する補完処理である。また、時間的補完とは周囲の画素の動きベクトルを非基準視点画像メモリ２７４に蓄えられている画像から予測し、その周囲の画素の動きベクトルからその画素の動きベクトルを予測して、その動きベクトルによって表されるその画素が非基準視点画像メモリ２７４に蓄えられている画像の中で対応する画素の値をその画素の値とする補完である。この補完処理を値が割り振られた画素がなくなるまで繰り返す〔Ｈ２〕。

そして、非基準視点動画像生成部２７３で、生成された視差補償画像と視差差分動画像復号部２６で復号された視差差分動画像とを足しあわすことで非基準視点動画像を生成する〔Ｈ６〕。この生成した非基準視点画像については以降の時間的補完処理で使われるため、非基準視点動画像生成部２７３は、それを非基準視点画像メモリ２７４に格納する〔Ｈ７〕。

このようにして、本発明の映像復号装置２は、本発明の映像符号化装置１により生成された符号化データを復号することで、カメラＣ１，Ｃ２，Ｃ３の撮影した画像を復号するのである。

以上に説明した実施形態例では、カメラの位置関係が変わらないものとしてあるが、位置関係に変化がある場合には、その都度カメラの位置関係を再計算して符号化して伝送することもできる。また、ある程度のずれは許容して、ＧＯＰ単位でカメラの位置関係情報を更新するようにもできる。

また、以上に説明した実施形態例では、カメラのフレームからカメラの位置関係や基準視点を求めるようにしているが、それらの情報を外部から与えることもできる。その際には、上述したカメラの位置関係の推定と基準視点の選択の処理とを省くことができる。

また、以上に説明した実施形態例では説明しなかったが、カメラの位置関係を求める手法としては、符号化処理・復号処理のどちらにも影響がなく任意の手法を用いることができる。

また、実施形態例の中に２次元動画像を符号化・復号する処理がいくつか存在するが、その手法は動き予測・動き補償を行う動画像符号化・復号手法であれば、どのような手法にも適用することができる。動き予測・動き補償を用いる符号化技術としては、国際標準であるＨ．２６４やＭＰＥＧ−４など多数の手法が存在する。

１映像符号化装置
２映像復号装置
１１画像情報入力部
１２画像メモリ
１３カメラ情報初期設定部
１４基準視点動画像処理部
１５距離画像処理部
１６非基準視点動画像処理部
２１カメラ情報復号部
２２カメラ情報メモリ
２３基準視点動画像復号部
２４符号化対象情報メモリ
２５距離動画像復号部
２６視差差分動画像復号部
２７非基準視点動画像復号部
２８画像出力部

Claims

ある被写体を撮影する複数のカメラにより撮影された画像を符号化する映像符号化方法であって、
基準視点となるカメラにより撮影された基準視点画像を符号化するステップと、
上記基準視点画像を撮影したカメラから被写体までの推定距離を示す距離画像を生成するステップと、
上記距離画像を符号化するステップと、
上記基準視点画像と上記距離画像とカメラの設置位置および向きについて規定するカメラの位置関係とに基づいて、上記基準視点以外の視点における視差補償画像を推定するステップと、
上記推定した視差補償画像とその推定対象の視点に対応付けられるカメラの撮影した符号化対象画像との差分を示す視差差分画像を算出するステップと、
符号化済みの視差差分画像を用いて、上記算出した視差差分画像を時間的あるいは空間的に予測した視差差分予測値を生成するステップと、
上記算出した視差差分画像と上記視差差分予測値との差に相当するデータを符号化するステップとを有することを、
特徴とする映像符号化方法。
請求項１に記載の映像符号化方法において、
上記視差補償画像を推定するステップでは、上記基準視点画像の符号化データを復号することで得られる基準視点画像と、上記距離画像の符号化データを復号することで得られる距離画像とを使って、上記基準視点以外の視点における視差補償画像を推定することを、
特徴とする映像符号化方法。
請求項１に記載の映像符号化方法において、
外部からの情報に従って上記カメラの位置関係を取得するか、全カメラの画像に基づいて上記カメラの位置関係を推定することで、上記カメラの位置関係を設定するステップと、
上記設定したカメラの位置関係の情報を符号化するステップとを有することを、
特徴とする映像符号化方法。
請求項３に記載の映像符号化方法において、
上記視差補償画像を推定するステップでは、上記基準視点画像の符号化データを復号することで得られる基準視点画像と、上記距離画像の符号化データを復号することで得られる距離画像と、上記カメラ位置関係情報の符号化データを復号することで得られるカメラの位置関係とに基づいて、上記基準視点以外の視点における視差補償画像を推定することを、
特徴とする映像符号化方法。
請求項１ないし４のいずれか１項に記載の映像符号化方法において、
他のカメラが撮影する空間と最も重複する空間を撮影しているカメラを基準視点となるカメラとして設定するステップを有することを、
特徴とする映像符号化方法。
請求項１ないし５のいずれか１項に記載の映像符号化方法において、
上記距離画像を生成するステップでは、画像をブロックに分割して、ブロックごとに距離を推定することで距離画像を生成することを、
特徴とする映像符号化方法。
請求項１ないし６のいずれか１項に記載の映像符号化方法において、
上記距離画像を生成するステップでは、規定のアルゴリズムに従って距離画像を生成する場合に、現時刻において生成した距離画像の評価値と、１つ前の時刻において生成した距離画像の評価値との差分値を求めて、その差分値の大きさを所定の閾値と比較することで判断して、その差分値が大きいことを判断する場合には、現時刻において生成した距離画像をそのまま用いることを決定し、その差分値が小さいことを判断する場合には、１つ前の時刻において生成した距離画像に変更して用いることを決定することで距離画像を生成することを、
特徴とする映像符号化方法。
請求項１ないし７のいずれか１項に記載の映像符号化方法において、
上記視差補償画像を推定するステップでは、上記基準視点画像と上記距離画像と上記カメラの位置関係とに基づいて画素値を推定できない画素について、周辺の画素の画素値から、その画素の画素値を推定することを、
特徴とする映像符号化方法。
請求項１ないし７のいずれか１項に記載の映像符号化方法において、
上記視差補償画像を推定するステップでは、上記基準視点画像と上記距離画像と上記カメラの位置関係とに基づいて画素値を推定できない画素について、周辺の画素の動き情報からその画素の動き情報を推定して、その推定した動き情報と符号化済みの画像の画素値とに基づいて、その画素の画素値を推定することを、
特徴とする映像符号化方法。
請求項１ないし９のいずれか１項に記載の映像符号化方法において、
上記距離画像を符号化するステップでは、上記基準視点画像を符号化する際に使われた動きベクトルを用いて上記距離画像を符号化することを、
特徴とする映像符号化方法。
請求項１ないし１０のいずれか１項に記載の映像符号化方法において、
上記視差差分予測値を生成するステップでは、上記基準視点画像を符号化する際に使われた動きベクトルと上記距離画像と上記カメラの位置関係とに基づいて推定される動きベクトルか、自身の参照画像から推定される動きベクトルの内の符号化効率のよい方を選択して上記視差差分予測値を生成することを、
特徴とする映像符号化方法。
請求項１１に記載の映像符号化方法において、
上記視差差分予測値を生成するステップでは、動きベクトルを推定するときに、上記距離画像の符号化データを復号することで得られる距離画像を用いることを、
特徴とする映像符号化方法。
ある被写体を撮影する複数のカメラにより撮影された画像の符号化データを復号する映像復号方法であって、
基準視点となるカメラにより撮影された基準視点画像についての符号化データを復号するステップと、
上記基準視点画像を撮影したカメラから被写体までの推定距離を示す距離画像についての符号化データを復号するステップと、
上記復号した基準視点画像と上記復号した距離画像とカメラの設置位置および向きについて規定するカメラの位置関係とに基づいて、上記基準視点以外の視点における視差補償画像を推定するステップと、
上記推定した視差補償画像とその推定対象の視点に対応付けられるカメラの撮影した画像との差分を示す視差差分画像と、その視差差分画像を復元済みの視差差分画像を用いて時間的あるいは空間的に予測した視差差分予測値との差データについての符号化データを復号するステップと、
上記復号した差データと上記視差差分予測値とに基づいて、上記視差差分画像を復元するステップと、
上記推定した視差補償画像と上記復元した視差差分画像とに基づいて、上記基準視点以外の視点に対応付けられるカメラの撮影した画像を復元するステップとを有することを、
特徴とする映像復号方法。
請求項１３に記載の映像復号方法において、
上記カメラの位置関係の情報についての符号化データを復号するステップを有することを、
特徴とする映像復号方法。
請求項１３又は１４に記載の映像復号方法において、
上記視差補償画像を推定するステップでは、上記復号した基準視点画像と上記復号した距離画像と上記カメラの位置関係とに基づいて画素値を推定できない画素について、周辺の画素の画素値から、その画素の画素値を推定することを、
特徴とする映像復号方法。
請求項１３又は１４に記載の映像復号方法において、
上記視差補償画像を推定するステップでは、上記復号した基準視点画像と上記復号した距離画像と上記カメラの位置関係とに基づいて画素値を推定できない画素について、周辺の画素の動き情報からその画素の動き情報を推定して、その推定した動き情報と復号済みの画像の画素値とに基づいて、その画素の画素値を推定することを、
特徴とする映像復号方法。
請求項１ないし１２のいずれか１項に記載の映像符号化方法をコンピュータに実行させるための映像符号化プログラム。
請求項１ないし１２のいずれか１項に記載の映像符号化方法をコンピュータに実行させるための映像符号化プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１３ないし１６のいずれか１項に記載の映像復号方法をコンピュータに実行させるための映像復号プログラム。
請求項１３ないし１６のいずれか１項に記載の映像復号方法をコンピュータに実行させるための映像復号プログラムを記録したコンピュータ読み取り可能な記録媒体。