JP2019220902A

JP2019220902A - 多視点映像符号化装置およびそのプログラム、ならびに、多視点映像復号装置およびそのプログラム

Info

Publication number: JP2019220902A
Application number: JP2018118447A
Authority: JP
Inventors: 一宏原; Kazuhiro Hara; 片山　美和; Miwa Katayama; 美和片山; 河北　真宏; Masahiro Kawakita; 真宏河北; 三科　智之; Tomoyuki Mishina; 智之三科; 菊池　宏; Hiroshi Kikuchi; 宏菊池; 藤井　俊彰; Toshiaki Fujii; 俊彰藤井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2019-12-26
Anticipated expiration: 2038-06-22
Also published as: JP7085416B2

Abstract

【課題】ＮＡＬヘッダのバイト数を増加させることなく視点数を増加させて、多視点映像を符号化することが可能な多視点映像符号化装置を提供する。【解決手段】多視点映像符号化装置１は、多視点映像のフレームごとの多視点画像を構成する視点画像のうちで予め定めた規則で特定される視点画像の奥行きを奥行画像として生成する奥行画像生成手段１２と、視点画像をグループ化し、当該グループ内でどの視点画像を符号化対象とするかを示す規則に基づいて、規則を特定する予め定めた値を、ＮＡＬヘッダのＴｅｍｐｏｒａｌＩｄの領域に設定するとともに、符号化対象の視点画像のグループを示す識別子をＮＡＬヘッダのｎｕｈ＿ｌａｙｅｒ＿ｉｄの領域に設定して、視点画像と奥行画像とを、Ｈ．２６５／ＨＥＶＣを拡張した多視点映像符号化により符号する符号化手段１３と、を備える。【選択図】図１

Description

本発明は、多視点映像を符号化／復号する多視点映像符号化装置およびそのプログラム、ならびに、多視点映像復号装置およびそのプログラムに関する。

一般に、任意の視点で自由に立体像を視認することが可能な立体像表示方式の一つとして、平面上に配列された凸レンズ群あるいはピンホール群を利用したインテグラルフォトグラフィ（Integral Photography：以下ＩＰ）方式が知られている。

このＩＰ方式について、図２１を参照して、凸レンズ群を利用した例で説明する。
ＩＰ方式は、図２１（ａ）に示すように、撮影装置（立体カメラ）３によって、平面上に２次元配列された複数の要素レンズ（凸レンズ）からなるレンズアレイ（凸レンズ群）３０を介して、被写体Ｏから出た光を撮影する。このとき、要素レンズの焦点距離ｆだけ離間した撮像素子の撮影面３１において、要素レンズのレンズ間隔で、複数の要素画像ｅ（要素画像群）が撮影されることになる。
そして、ＩＰ方式は、図２１（ｂ）に示すように、撮影時と同じ配置のレンズアレイ４０を介して、表示装置（立体ディスプレイ）４の表示デバイスの表示面４１に撮影装置３で撮影した複数の要素画像ｅ（要素画像群）を表示する。このとき、撮影時の被写体空間と同様の光線が再生され、観察者Ｍは、被写体Ｏを立体像Ｔとして視認することができる。
この撮影装置３は、多視点カメラで構成することもできる。多視点カメラを構成する複数のカメラを水平方向および垂直方向に配置した場合、多視点カメラで撮影した多視点画像群から要素画像を生成する。また、レンズサイズの大きいレンズアレイを用いることで、一台の多視点カメラから複数の視点画像（多視点画像）を取得することができる。そのため、レンズアレイを用いた複数台の多視点カメラで撮影した多視点映像群から要素画像を生成してもよい。この場合、サイズの大きいレンズを通して取得される要素画像は、それぞれの多視点カメラで撮影した多視点画像群と考えることもできる。

従来、このようなＩＰ方式の要素画像群を符号化して伝送する手法が開示されている。
例えば、要素画像群を、要素画像ごとに同じ位置にある画素を集めることで、視点位置の異なる複数の視点画像（以下、多視点画像）に変換し、符号化する手法が開示されている（例えば、特許文献１参照）。
さらに、要素画像群を効率よく符号化する手法が開示されている。
例えば、多視点画像から、視点画像の奥行きを示す奥行画像を生成し、一部の奥行画像と対応する視点画像とを符号化して伝送し、復号側で、復号した視点画像と奥行画像とから間引かれた視点画像を合成する手法が開示されている（例えば、特許文献２参照）。

この手法は、図２２に示すように、予め定めた一部の視点画像とそれに対応する奥行画像とを符号化する。そして、この手法は、復号側で、符号化されていない視点画像を、周辺の視点画像と奥行画像とを用いて内挿処理を行うことで生成する。これによって、この手法は、伝送する符号化データを削減することができる。

また、現在、国際標準化組織ＩＳＯ（International Organization for Standardization）／ＩＥＣＪＴＣ（International Electrotechnical Commission Japan Technical Committee）において、時系列の多視点画像を動画として符号化する技術として、Ｈ．２６５／ＨＥＶＣ（High Efficiency video coding）を拡張したより一層高効率な符号化方式の検討や多視点映像符号化の標準化作業が行われている。

このＨ．２６５／ＨＥＶＣでは、符号化データとなるビットストリームの構成中、フレーム画像に相当するピクチャを複数のＮＡＬ（Network Abstraction Layer）ユニットで構成している。図２３にＮＡＬユニットの構造を示す。
従来の３Ｄ−ＨＥＶＣは、２バイトで構成されるＮＡＬヘッダに含まれる６ビットのｎｕｈ＿ｌａｙｅｒ＿ｉｄで多視点映像の視点を特定する。すなわち、従来の３Ｄ−ＨＥＶＣは、ｎｕｈ＿ｌａｙｅｒ＿ｉｄの“０”〜“６２”（６３は不使用）の値によって、６３視点までを１フレームの画像として符号化することが可能である。

このように、従来手法は、ＩＰ方式の要素画像群を伝送する場合、図２４に示すような処理を行う。すなわち、従来手法は、まず、要素画像群Ｅｉを多視点画像に変換する（Ｓ１０１）。そして、従来手法は、視点画像の奥行きを推定するとともに視点画像を間引く（Ｓ１０２）。そして、従来手法は、順次生成される最大６３視点の多視点画像を多視点映像として符号化し（Ｓ１０３）、伝送する。

また、従来手法は、伝送された符号化済みの多視点映像を復号する（Ｓ１０４）。そして、従来手法は、間引かれた視点画像を奥行画像と隣接する視点画像とにより内挿処理することで多視点画像を生成する（Ｓ１０５）。そして、従来手法は、多視点画像を要素画像群Ｅｏに変換する（Ｓ１０６）。

特開２０１３−２５１６６３号公報特開２０１０−２００１８８号公報

従来手法のように、符号化側で視点数を間引いて復号側でその間引いた視点画像を合成する場合、撮影する対象や撮影装置から被写体までの距離によって画質が変わる。例えば、撮影する対象が複雑な構造である場合や撮影装置から被写体までの距離が近い場合、視点画像間の視差が大きいことやオクルージョンが発生するため、合成した画像の精度が落ちてしまう。
この場合、隣接する要素レンズとのレンズ間距離や多視点カメラのカメラ間の距離を短くすることで、視点画像間の視差を小さくし、合成画像の精度を高めることができる。

しかし、従来手法では、ＮＡＬヘッダに含まれるｎｕｈ＿ｌａｙｅｒ＿ｉｄ（図２３参照）のビット数の制限によって、多視点映像を符号化する際に、視点位置を６３視点までしか指定できない。また、ＩＰ方式では、携帯電話などのモバイル端末の画面表示を回転した際の立体視に対応するために水平視差に加えて垂直視差も含んだ多視点画像が必要となる。
このように、多視点映像の符号化には、さらなる視点数の増加が望まれている。

本発明は、このような問題に鑑みてなされたものであり、ＮＡＬヘッダのバイト数を増加させることなく視点数を増加させて、多視点映像を符号化／復号することが可能な多視点映像符号化装置およびそのプログラム、ならびに、多視点映像復号装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る多視点映像符号化装置は、視点位置の異なる視点画像で構成される多視点画像の時系列である多視点映像を符号化する多視点映像符号化装置であって、多視点画像入力手段と、奥行画像生成手段と、符号化手段と、を備える構成とした。

かかる構成において、多視点映像符号化装置は、多視点画像入力手段によって、多視点画像を時系列に入力する。なお、レンズサイズの大きいレンズアレイを用いた複数台の多視点カメラで撮影した多視点映像群や、レンズアレイを構成するレンズを通して得られる要素画像を多視点画像としてもよい。
そして、多視点映像符号化装置は、奥行画像生成手段によって、多視点画像を構成する視点画像のうちで予め定めた規則で特定される視点画像の奥行きを、当該視点画像に隣接する視点の視点画像との視差により奥行画像として生成する。この規則は、視点画像をグループ化し、当該グループ内でどの視点画像を符号化対象とするかを示すものである。

そして、多視点映像符号化装置は、符号化手段によって、奥行画像生成手段で生成された奥行画像と当該奥行画像に対応する視点画像とをＮＡＬユニット構造で区切って符号化データを生成する。ここで、符号化手段は、規則を特定する予め定めた値を、Ｈ．２６５／ＨＥＶＣにおけるＮＡＬユニット構造のＮＡＬヘッダのＴｅｍｐｏｒａｌＩｄの領域に設定するとともに、符号化対象の視点画像のグループを示す識別子をＮＡＬヘッダのｎｕｈ＿ｌａｙｅｒ＿ｉｄの領域に設定する。
これによって、多視点映像符号化装置は、ｎｕｈ＿ｌａｙｅｒ＿ｉｄの領域とＴｅｍｐｏｒａｌＩｄの領域とを用いて視点位置を特定することができるため、従来のＮＡＬヘッダのｎｕｈ＿ｌａｙｅｒ＿ｉｄの制限を超えて、視点数を増加させることができる。
なお、多視点映像符号化装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。

また、前記課題を解決するため、本発明に係る多視点映像復号装置は、多視点映像符号化装置で生成された符号化データを復号する多視点映像復号装置であって、復号手段と、視点内挿手段と、多視点画像出力手段と、を備える構成とした。

かかる構成において、多視点映像復号装置は、復号手段によって、符号化データに含まれるＮＡＬヘッダのｎｕｈ＿ｌａｙｅｒ＿ｉｄの領域で特定される符号化された視点画像のグループと、ＮＡＬヘッダのＴｅｍｐｏｒａｌＩｄの領域で特定されるグループ内において符号化された視点画像の位置とにより、符号化された視点画像と当該視点画像に対応する奥行画像とを復号する。
そして、多視点映像復号装置は、視点内挿手段によって、符号化されていない視点位置の視点画像を、復号手段で復号された当該視点位置に同時点で隣接する視点画像および奥行画像に基づいて内挿する。これによって、符号化されていない視点画像が再生されることになる。

そして、多視点映像復号装置は、多視点画像出力手段によって、視点内挿手段で内挿された多視点画像を時系列に出力する。これによって、多視点映像が復号されることになる。
なお、多視点映像復号装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、ＮＡＬヘッダのＴｅｍｐｏｒａｌＩｄの領域を利用して、視点数を増加させることができる。また、本発明によれば、ＮＡＬヘッダのバイト数を増やすことなく、視点数を増加させるため、符号化効率を高めることができる。
これによって、本発明は、視点数を増やすことで、視点間の距離を短くすることができ、視点画像間の視差を小さくして、視点内挿を行う多視点映像の精度を高めることができる。

本発明の実施形態に係る多視点映像符号化装置の構成を示すブロック図である。多視点画像の構成を説明するための説明図である。多視点画像のビューのおよびサブビューの構成を説明するための説明図である。対象バンクの値を“０”とした時の符号化対象を説明するための図である。対象バンクの値を“１”とした時の符号化対象を説明するための図である。対象バンクの値を“２”とした時の符号化対象を説明するための図である。対象バンクの値を“３”とした時の符号化対象を説明するための図である。本発明におけるＮＡＬユニットの構造を説明するためのデータ構造図である。本発明におけるＮＡＬユニットの他の構造を説明するためのデータ構造図である。本発明の実施形態に係る多視点映像符号化装置の動作を示すフローチャートである。本発明の実施形態に係る多視点映像復号装置の構成を示すブロック図である。視点内挿手段における内挿処理の一例を説明するための説明図である。本発明の実施形態に係る多視点映像復号装置の動作を示すフローチャートである。符号化規則の変形例を説明するための説明図である。２つの視点画像をスウィーピング処理する際の視点画像の切り替えを空間的に示す図である。２つの視点画像をスウィーピング処理する際の視点画像の切り替えを時系列に示す図である。１つの視点画像をスウィーピング処理する際の視点画像の切り替えを空間的に示す図である。１つの視点画像をスウィーピング処理する際の視点画像の切り替えを時系列に示す図である。スウィーピング処理する際の視点内挿手段における内挿処理の一例を説明するための説明図である。Ｈ．２６５／ＨＥＶＣの時間スケーラビリティ機能を説明するための説明図である。従来のＩＰ方式を説明するための説明図であって、（ａ）は要素画像の撮影時、（ｂ）は立体像の表示時を示す。従来の多視点映像を符号化する対象を説明するための説明図である。従来のＮＡＬユニットの構造を説明するためのデータ構造図である。従来の多視点映像の符号化／復号の動作を説明するための説明図である。

以下、本発明の実施形態について図面を参照して説明する。
〔多視点映像符号化装置の構成〕
図１を参照して、本発明の実施形態に係る多視点映像符号化装置１の構成について説明する。
多視点映像符号化装置１は、多視点画像の時系列データである多視点映像を符号化するものである。
多視点画像は、ＩＰ方式の撮影装置で撮影した要素画像群を構成する複数の要素画像であってもよいし、複数のカメラを水平方向および垂直方向に配置した多視点カメラで撮影した複数の視点画像であってもよい。以下、要素画像についても視点画像と呼ぶこととする。

ここで、図２，図３を参照して、多視点映像符号化装置１内部で処理する多視点画像の構造について説明する。
多視点映像符号化装置１は、図２に示すように、水平方向２個×垂直方向２個のサブビュー（Ｓｕｂ−ｖｉｅｗ）を１つのビュー（Ｖｉｅｗ）として、多視点画像をグループ化して扱う。ここで、サブビューは、それぞれ視点画像である。
すなわち、多視点映像符号化装置１は、多視点画像を、４個のサブビュー（Ｓｕｂ−ｖｉｅｗ）で構成されるビュー（Ｖｉｅｗ）を水平方向ｍ個（ｍは２以上の整数）、垂直方向ｎ個（ｎは２以上の整数）に配列した構成（Ｖｉｅｗ０，０〜Ｖｉｅｗ_{ｍ−１，ｎ−１}）として符号化する。

また、多視点映像符号化装置１は、それぞれのビュー（Ｖｉｅｗ）を、図３に示すように、固有の識別子（ＶｉｅｗＩｄ）で識別し、ビュー内のサブビューも、それぞれの配置位置に応じた識別子（０〜３）で識別する。
図１に戻って、多視点映像符号化装置１の構成について説明する。

図１に示すように、多視点映像符号化装置１は、符号化規則記憶手段１０と、多視点画像入力手段１１と、奥行画像生成手段１２と、符号化手段１３と、を備える。

符号化規則記憶手段１０は、多視点映像の符号化の対象となる視点画像を予め定めた規則を記憶するものである。
例えば、符号化規則記憶手段１０は、ビュー構造、対象ビュー、対象バンクを予め記憶する。

「ビュー構造」は、多視点画像のビューの構造を定義するものである。例えば、ここでは、多視点画像が水平方向にｍ個、垂直方向にｎ個のビュー（４つの視点画像）で構成されていることを示している。

「対象ビュー」は、符号化の対象となるビュー（グループ）を示すものである。例えば、対象ビューは、予め符号化の対象とするビューの識別子（ＶｉｅｗＩｄ；図３参照）である。
「対象バンク」は、符号化の対象となるビュー内で、実際に符号化を行う対象となるサブビューを示すものである。ここでは、サブビューを予め定めたバンク（ブロック）単位で符号化の対象とするか否かを示す。

ここで、図４〜図７を参照して、１つのビュー（４視点画像）を対象として、対象バンクの値と符号化対象の視点画像との関係について説明する。
図４〜図７において、横軸はフレーム順序（ＰＯＣ：ＰｉｃｔｕｒｅｏｆＣｏｕｎｔ）を示し、縦軸は符号化対象のサブビュー（Ｓｕｂ−Ｖｉｅｗ；視点画像）の識別子を示す。

図４に示すように、対象バンクの値を“０”とした場合、規則として、識別子が“０”のサブビューのみを符号化対象とする。
また、図５に示ように、対象バンクの値を“１”とした場合、規則として、識別子が“０”と“１”の２つのサブビューを符号化対象とする。
また、図６に示すように、対象バンクの値を“２”とした場合、規則として、識別子が“０”〜“２”の３つのサブビューを符号化対象とする。
また、図７に示すように、対象バンクの値を“３”とした場合、規則として、識別子が“０”〜“３”の４つのサブビューを符号化対象とする。この場合、すべてのサブビューが符号化対象となる。

このように、「対象ビュー」と「対象バンク」との組み合わせによって、符号化対象のサブビュー（視点画像）の数を調整することができる。また、対象バンクの値によって、対象ビュー内における符号化対象のバリエーションを変えることができる。
図１に戻って、多視点映像符号化装置１の構成について説明する。

多視点画像入力手段１１は、外部から、多視点映像を、フレーム（多視点画像）単位（時系列）で入力するものである。多視点画像入力手段１１は、時系列に入力される多視点画像を奥行画像生成手段１２に出力する。

奥行画像生成手段１２は、符号化対象の視点画像に対して、視点の奥行きを示す奥行画像を生成するものである。奥行画像生成手段１２は、符号化規則記憶手段１０に記憶されている規則である対象ビューおよび対象バンクを参照して、符号化対象の視点画像を選択する。そして、奥行画像生成手段１２は、選択した視点画像に対して、隣接する視点画像との視差を画素ごとに奥行きとして算出して奥行画像を生成する。なお、視点画像同士の視点距離は予め設定されているものとする。この奥行画像の生成手法は、特許文献２等の一般的な手法を用いればよいため、ここでは、詳細な説明を省略する。
奥行画像生成手段１２は、符号化対象の視点画像とそれに対応して生成した奥行画像とを、フレーム単位で、ビューおよびサブビューの識別子とともに、符号化手段１３に出力する。

符号化手段１３は、奥行画像生成手段１２で生成された奥行画像と、それに対応する視点画像とを、符号化するものである。符号化手段１３は、Ｈ．２６５／ＨＥＶＣから符号化効率を高め、拡張した多視点映像符号化で視点画像および奥行画像を符号化する。
この符号化手段１３は、図８に示すように、ＮＡＬユニットＮＵの構成で、符号化データを生成する。符号化手段１３は、図８に示すＮＡＬユニットＮＵを、ビューの識別子ごとに生成する。ＮＡＬユニットＮＵのうち、ＶｉｅｗＩｄ（６ビット）とＶｉｅｗＢａｎｋ（２ビット）以外の構成は、従来のＨ．２６５／ＨＥＶＣのＮＡＬユニットの構成と同じである。
すなわち、符号化手段１３は、ＮＡＬヘッダ以外の情報については、従来のＨ．２６５／ＨＥＶＣの符号化ビットストリームと同じ構造で符号化データを生成し、フレームの順番を示すＰＯＣ（ＰｉｃｔｕｒｅｏｆＣｏｕｎｔ）を、スライスヘッダ情報に設定する。

符号化手段１３は、図８に示すように、ＮＡＬヘッダの６ビットのＶｉｅｗＩｄの領域に、ビューの識別子を設定するとともに、２ビットのＶｉｅｗＢａｎｋの領域に、符号化規則記憶手段１０に記憶されている対象バンクの値を設定する。
また、符号化手段１３は、奥行画像生成手段１２から出力される視点画像および奥行画像を、同じビューの識別子（ＶｉｅｗＩｄ）の対象バンクで特定されるサブビューの識別子の順に符号化し、ＮＡＬユニットＮＵのペイロード領域（ＲＢＳＰ）に配置する。
このように、符号化手段１３は、符号化規則記憶手段１０に設定されている規則に対応した視点画像とその奥行画像のみを符号化した符号化データ（ビットストリーム）を生成する。

これによって、多視点映像符号化装置１は、６ビットのＶｉｅｗＩｄと２ビットのＶｅｗＢａｎｋとによって、視点位置を、従来の６３視点に対して、２５５視点（従来と同様にｎｕｈ＿ｌａｙｅｒ＿ｉｄ＝ＶｉｅｗＩｄ＝６３を不使用とした場合）まで拡張することができる。

なお、図８に示すように、Ｈ．２６５／ＨＥＶＣのＮＡＬヘッダの「ｎｕｈ＿ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１」の領域は、未使用の１ビットと、「ＴｅｍｐｏｒａｌＩｄ（ここではＶｉｅｗＢａｎｋ）」の２ビットで構成されている。
そこで、図９に示すように、ＶｉｅｗＩｄを７ビットで構成しても構わない。これによって、視点数を５１１視点まで拡張することができる。

以上説明したように多視点映像符号化装置１を構成することで、多視点映像符号化装置１は、ＮＡＬユニットＮＵのバイト数を増加させることなく、視点数を増加させて多視点映像を符号化することができる。
なお、多視点映像符号化装置１は、コンピュータを、前記した各手段として機能させるためのプログラム（多視点映像符号化プログラム）で動作させることができる。

〔多視点映像符号化装置の動作〕
次に、図１０を参照（構成については適宜図１参照）して、本発明の実施形態に係る多視点映像符号化装置１の動作について説明する。

ステップＳ１において、多視点画像入力手段１１は、外部から、多視点映像として、フレーム単位で複数の視点画像を入力する。
ステップＳ２において、奥行画像生成手段１２は、符号化規則記憶手段１０に記憶されている規則である対象ビューおよび対象バンクを参照して、ステップＳ１で入力した視点画像のうちで、符号化対象の視点画像を選択する。
すなわち、奥行画像生成手段１２は、符号化規則記憶手段１０に記憶されている対象ビューにより、符号化対象の４つの視点画像を選択する。そして、奥行画像生成手段１２は、符号化規則記憶手段１０に記憶されている対象バンクにより、符号化対象の４つの視点画像の中で実際に符号化するサブビュー（視点画像）を選択する。

ステップＳ３において、奥行画像生成手段１２は、ステップＳ２で選択された視点画像に対して、隣接する視点画像との視差により奥行画像を生成する。
ステップＳ４において、符号化手段１３は、ステップＳ３で生成された視点画像および奥行画像を符号化する。
このとき、符号化手段１３は、符号化対象のビューの識別子ごとにＮＡＬユニットを生成し、ＮＡＬヘッダのＶｉｅｗＩｄの領域に、ビューの識別子を設定するとともに、ＶｉｅｗＢａｎｋの領域に、符号化規則記憶手段１０に記憶されている対象バンクの値を設定する。

ステップＳ５において、符号化手段１３は、ステップＳ４で生成した符号化データ（ビットストリーム）を出力する。なお、図示は省略するが、フレーム（多視点画像）内で符号化対象の視点画像が存在する限り、多視点映像符号化装置１は、ステップＳ２〜Ｓ５の動作を繰り返す。
そして、多視点映像の全フレームについて、まだ、符号化が完了していない場合、すなわち、多視点映像の入力が終了していない場合（ステップＳ６でＮｏ）、多視点映像符号化装置１は、ステップＳ１に戻って動作を継続する。
一方、多視点映像の全フレームについて、符号化が完了した場合、すなわち、多視点映像の入力が終了した場合（ステップＳ６でＹｅｓ）、多視点映像符号化装置１は、動作を終了する。

〔多視点映像復号装置の構成〕
次に、図１１を参照して、本発明の実施形態に係る多視点映像復号装置２の構成について説明する。
多視点映像復号装置２は、多視点画像の時系列データである多視点映像を符号化した符号化データを復号するものである。なお、符号化データは、多視点映像符号化装置１（図１参照）で符号化されたデータである。

図１１に示すように、多視点映像復号装置２は、復号規則記憶手段２０と、復号手段２１と、視点内挿手段２２と、多視点画像出力手段２３と、を備える。

復号規則記憶手段２０は、多視点映像を復号するための視点画像の配置を特定するための規則を予め記憶するものである。
復号規則記憶手段２０は、ビュー構造、対象バンクを予め記憶する。

「ビュー構造」は、多視点画像のビューの構造を定義するものである。このビュー構造には、符号化規則記憶手段１０（図１参照）のビュー構造と同じ値を設定しておく。
「対象バンク」は、復号の対象となるビュー（４視点画像）内で、実際に復号する対象となるサブビューを示すものである。ここでは、サブビューを予め定めたバンク（ブロック）単位で復号の対象とするか否かを示す。なお、この対象バンクは、符号化規則記憶手段１０（図１参照）の対象バンクと同じ定義とする。

復号手段２１は、復号規則記憶手段２０に記憶されている規則に基づいて、符号化データをフレームごとに復号し、視点画像および奥行画像を生成するものである。復号手段２１は、Ｈ．２６５／ＨＥＶＣで視点画像および奥行画像を復号する。
ただし、復号手段２１は、復号する視点画像および奥行画像の視点位置を、符号化データに含まれるＮＡＬヘッダと、復号規則記憶手段２０に記憶されている規則に基づいて特定する。

具体的には、復号手段２１は、ＮＡＬヘッダ内のＶｉｅｗＩｄ（図８参照）を抽出して、ＮＡＬユニットに含まれる４視点画像の位置を特定する。例えば、ＶｉｅｗＩｄ＝１であれば、ＮＡＬユニットのデータはＶｉｅｗ_０，１（図２，図３参照）の符号化データであると特定する。
また、復号手段２１は、ＮＡＬヘッダ内のＶｉｅｗＢａｎｋ（図８参照）を抽出して、ＮＡＬユニットに含まれるサブビューの位置を特定する。例えば、ＶｉｅｗＢａｎｋ＝１であれば、ＮＡＬユニットのデータはサブビュー（Ｓｕｂ−ｖｉｅｗ）０，１（図３参照）の２視点の符号化データであると特定する。

復号手段２１は、ＮＡＬユニットのペイロード（ＲＢＳＰ）に含まれている符号化データを、特定した視点位置の視点画像および奥行画像に順次復号する。
復号手段２１は、復号した視点画像および奥行画像を、視点位置と対応付けて、フレームごとに視点内挿手段２２に出力する。

視点内挿手段２２は、復号手段２１でフレームごとに復号された視点位置における視点画像および奥行画像から、符号化されていない視点位置の視点画像を内挿により生成するものである。
なお、視点内挿手段２２における内挿処理は、一般的な手法を用いればよい。例えば、視点内挿手段２２は、符号化されていない視点位置に同時点で隣接する視点画像を、それに対応する奥行画像で特定される奥行きの視差だけ画素ごとにシフトする。そして、視点内挿手段２２は、複数の隣接する視点画像を奥行画像に応じてシフトした画像を、加算平均することで、符号化されていない視点位置の視点画像を生成する。
視点内挿手段２２は、復号手段２１で復号された視点画像と、自身が生成した視点画像とを、視点位置に対応付けて、フレームごとに、多視点画像出力手段２３に出力する。

ここで、図１２を参照して、視点内挿手段２２における内挿処理の一例について説明する。図１２は、フレーム（Ｆ１，Ｆ２，Ｆ３，Ｆ４，…）ごとに、復号手段２１で復号された視点画像を示す。なお、図１１中、斜めパターンを付した実線の四角形は、復号手段２１で復号された視点画像を示し、破線の四角形は、欠損している視点画像（符号化されていない視点画像）を示す。また、図１２において、奥行画像については記載を省略している。
ここで、例えば、ＮＡＬヘッダのＶｉｅｗＢａｎｋ（図８参照）が“１”で、サブビュー（Ｓｕｂ−ｖｉｅｗ）０，１（図３参照）が復号された場合、図１２に示すように、水平方向および垂直方向それぞれ交互に視点画像が復号される。

視点内挿手段２２は、例えば、復号されてない視点画像Ｖ_Ｃについては、同時点で隣接する視点画像Ｖ_Ｕ，Ｖ_Ｄ，Ｖ_Ｌ，Ｖ_Ｒを、それぞれの奥行画像の奥行きに応じてシフトさせ、画素ごとに加算平均することで生成する。なお、隣接した視点画像のよって埋めることができなかったオクルージョンが発生する画素については、隣接する画素の値で埋める等の処理を行う。
図１１に戻って、多視点映像復号装置２の構成について説明する。

多視点画像出力手段２３は、視点内挿手段２２で、符号化されていない視点画像が内挿されたすべての視点画像を、フレームごとに出力するものである。
この多視点画像出力手段２３は、例えば、それぞれの視点画像を要素画像として表示するＩＰ方式の表示装置に、多視点画像をフレームごとに出力する。そして、ＩＰ方式の表示装置は、これらの多視点画像を要素画像群に変換する。これによって、ＩＰ方式の表示装置の観視者は、立体像を視認することができる。

以上説明したように多視点映像復号装置２を構成することで、多視点映像復号装置２は、ＮＡＬユニットＮＵのバイト数を増加させることなく、視点数を増加させて多視点映像を復号することができる。
なお、多視点映像復号装置２は、コンピュータを、前記した各手段として機能させるためのプログラム（多視点映像復号プログラム）で動作させることができる。

〔多視点映像復号装置の動作〕
次に、図１３を参照（構成については適宜図１１参照）して、本発明の実施形態に係る多視点映像復号装置２の動作について説明する。
ステップＳ１０において、復号手段２１は、符号化データのフレームの順番を示すＰＯＣごとに、ＮＡＬヘッダから、ＶｉｅｗＩｄおよびＶｉｅｗＢａｎｋを抽出する。
ステップＳ１１において、復号手段２１は、ステップＳ１０で抽出したＶｉｅｗＩｄおよびＶｉｅｗＢａｎｋにより、ＮＡＬユニットに含まれる視点画像および奥行画像の視点位置を特定するとともに、視点画像および奥行画像を復号する。
ステップＳ１２において、視点内挿手段２２は、ステップＳ１１で復号された視点位置における視点画像および奥行画像から、符号化されていない視点位置の視点画像を内挿により生成する。

ステップＳ１３において、多視点画像出力手段２３は、ステップＳ１２で内挿されたすべての多視点画像を、多視点映像の１フレーム分のデータとして出力する。
そして、符号化データの復号がまだ完了していない場合（ステップＳ１４でＮｏ）、多視点映像復号装置２は、ステップＳ１０に戻って動作を継続する。
一方、符号化データの復号がすべて完了した場合（ステップＳ１４でＹｅｓ）、多視点映像復号装置２は、動作を終了する。

〔変形例〕
以上、本発明の実施形態に係る多視点映像符号化装置１および多視点映像復号装置２の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、符号化規則記憶手段１０および復号規則記憶手段２０に記憶する対象バンクとして、その値（０〜３）によって、符号化対象となるサブビュー（視点画像）の１以上の組み合わせを全フレームに亘って特定する構成とした。
しかし、対象バンクの値によって、フレームごとに規則的に符号化対象となるサブビューを変化させることとしてもよい。

例えば、図１４に示すように、対象バンクの値として、２つの値“０”および“１”を定義する。
そして、対象バンクの値“０”をとした場合、規則として、フレームの順番が奇数のフレーム（奇数フレーム）については、識別子が“０”と“１”の２つのサブビューを符号化対象とする。また、フレームの順番が偶数のフレーム（偶数フレーム）については、識別子が“２”と“３”の２つのサブビューを符号化対象とする。
また、対象バンクの値を“１”とした場合、規則として、フレームの順番に応じて、識別子が“０”，“１”，“２”，“３”，“０”，…のサブビューを順次切り替えて符号化対象とする。

ここで、図１５〜図１８を参照して、変形例の符号化対象の切り替えについて説明する。図１５，図１７は、多視点画像を平面視して、符号化対象の視点画像に斜線パターンを付した図である。図１６，図１８は、横軸にフレーム順序（ＰＯＣ）を示し、縦軸に符号化対象のサブビュー（Ｓｕｂ−Ｖｉｅｗ；視点画像）の識別子を示した図である。なお、図１５〜図１８において、視点画像に対応する奥行画像は記載を省略している。

図１５，図１６に示すように、対象バンクの値を“０”とした場合、符号化対象は、識別子が“０”と“１”のサブビューと、識別子が“２”と“３”のサブビューとが、フレームごとに交互に符号化対象となる。
また、図１７，図１８に示すように、対象バンクの値を“１”とした場合、符号化対象は、識別子が“０”，“１”，“２”，“３”の順番で、サブビューが、フレームごとに符号化対象となる。
このように、符号化対象を変化（スウィーピング）させることで、符号化されていない視点画像は、時間的、空間的に近接した位置の実際に撮影した視点画像から復号することが可能になる。

ここで、図１９を参照して、対象バンクの値を“０”とし、符号化対象を、識別子が“０”と“１”のサブビューと、識別子が“２”と“３”のサブビューとで、フレームごとに交互に符号化対象とした場合の視点内挿手段２２（図１１参照）における内挿処理の一例について説明する。図１９は、フレーム（Ｆ１，Ｆ２，Ｆ３，Ｆ４，…）ごとに、復号手段２１（図１１参照）で復号された視点画像を示す。なお、図１９中、斜めパターンを付した実線の四角形は、復号手段２１で復号された視点画像を示し、破線の四角形は、欠損している視点画像（符号化されていない視点画像）を示す。また、図１９において、奥行画像については記載を省略している。

図１９に示すように、例えば、フレームＦ２の視点画像Ｖ_Ｃは、空間的に隣接する視点画像Ｖ_Ｕ，Ｖ_Ｄ，Ｖ_Ｌ，Ｖ_Ｒ以外に、時間的に隣接する視点画像Ｖ_Ｆ，Ｖ_Ｂが存在することになる。
そこで、視点内挿手段２２は、復号されてない視点画像Ｖ_Ｃについては、同時点で隣接する視点画像Ｖ_Ｕ，Ｖ_Ｄ，Ｖ_Ｌ，Ｖ_Ｒを、それぞれの奥行画像の奥行きに応じてシフトさせるとともに、オクルージョンが発生する画素については、例えば、視点画像Ｖ_Ｆ，Ｖ_Ｂの動きベクトルに応じて対応する画素の値を補間する。
これによって、多視点映像符号化装置１および多視点映像復号装置２は、視点画像を復号する精度を高めることができる。

また、ここでは、図８に示すように、Ｈ．２６５／ＨＥＶＣのＮＡＬヘッダのＴｅｍｐｏｒａｌＩｄを、ＶｉｅｗＢａｎｋとして利用した。
従来のＨ．２６５／ＨＥＶＣは、ＴｅｍｐｏｒａｌＩｄを用いて、時間スケーラビリティ機能を実現している。例えば、図２０に示すように、フレームを他のフレームから予測する機能を有している。図２０中、フレーム間の矢印は、予測の参照関係を示している。例えば、フレーム番号“１”のフレームは、フレーム番号“０”，“１”を参照して予測することができることを示している。この場合、ＴｅｍｐｏｒａｌＩｄ＝２が指定された場合、復号装置は、フレーム番号“０”，“２”，“４”，“６”，“８”を復号する。
このように、従来のＨ．２６５／ＨＥＶＣは、ＴｅｍｐｏｒａｌＩｄは、フレームごとに異なる値を設定している。一方、本発明に係る多視点映像符号化装置１および多視点映像復号装置２は、ＴｅｍｐｏｒａｌＩｄ、すなわち、ＶｉｅｗＢａｎｋを一定の値として用いている。

そこで、多視点映像復号装置２は、符号化データを復号する前段階として、図示を省略したスケーラブル判定手段を備えて、ＮＡＬヘッダのＴｅｍｐｏｒａｌＩｄがフレームごとに変化するか否かを検出することとしてもよい。
そして、ＴｅｍｐｏｒａｌＩｄが変化しない場合、多視点映像復号装置２は、ＴｅｍｐｏｒａｌＩｄをＶｉｅｗＢａｎｋとして、前記した復号動作を行うこととする。
一方、ＴｅｍｐｏｒａｌＩｄが変化しない場合、多視点映像復号装置２は、従来のＨ．２６５／ＨＥＶＣと同様の復号動作を行うこととする。
これによって、多視点映像復号装置２は、従来のＨ．２６５／ＨＥＶＣと互換性をもって、復号動作を行うことができる。

１多視点映像符号化装置
１０符号化規則記憶手段
１１多視点画像入力手段
１２奥行画像生成手段
１３符号化手段
２多視点映像復号装置
２０復号規則記憶手段
２１復号手段
２２視点内挿手段
２３多視点画像出力手段

Claims

視点位置の異なる視点画像で構成される多視点画像の時系列である多視点映像を符号化する多視点映像符号化装置であって、
前記多視点画像を時系列に入力する多視点画像入力手段と、
前記多視点画像を構成する前記視点画像のうちで予め定めた規則で特定される視点画像の奥行きを、当該視点画像に隣接する視点の視点画像との視差により奥行画像として生成する奥行画像生成手段と、
前記奥行画像生成手段で生成された奥行画像と当該奥行画像に対応する視点画像とをＮＡＬユニット構造で区切って符号化データを生成する符号化手段と、を備え、
前記規則は、前記視点画像をグループ化し、グループ内でどの視点画像を符号化対象とするかを示すものであって、
前記符号化手段は、前記規則を特定する予め定めた値を、Ｈ．２６５／ＨＥＶＣにおけるＮＡＬユニット構造のＮＡＬヘッダのＴｅｍｐｏｒａｌＩｄの領域に設定するとともに、前記符号化対象の視点画像のグループを示す識別子を前記ＮＡＬヘッダのｎｕｈ＿ｌａｙｅｒ＿ｉｄの領域に設定することを特徴とする多視点映像符号化装置。
前記ＮＡＬヘッダのｎｕｈ＿ｌａｙｅｒ＿ｉｄの領域を７ビットで構成することを特徴とする請求項１に記載の多視点映像符号化装置。
前記規則は、さらに、フレームごとにグループ内の符号化対象の位置を切り替える規則を含んでいることを特徴とする請求項１または請求項２に記載の多視点映像符号化装置。
請求項１または請求項２に記載の多視点映像符号化装置で生成された符号化データを復号する多視点映像復号装置であって、
前記符号化データに含まれるＮＡＬヘッダのｎｕｈ＿ｌａｙｅｒ＿ｉｄの領域で特定される符号化された視点画像のグループと、前記ＮＡＬヘッダのＴｅｍｐｏｒａｌＩｄの領域で特定される前記グループ内において符号化された視点画像の位置とにより、符号化された視点画像と当該視点画像に対応する奥行画像とを復号する復号手段と、
符号化されていない視点位置の視点画像を、前記復号手段で復号された前記視点位置に同時点で隣接する視点画像および奥行画像に基づいて内挿する視点内挿手段と、
前記視点内挿手段で内挿された多視点画像を時系列に出力する多視点画像出力手段と、
を備えることを特徴とする多視点映像復号装置。
請求項３に記載の多視点映像符号化装置で生成された符号化データを復号する多視点映像復号装置であって、
前記符号化データに含まれるＮＡＬヘッダのｎｕｈ＿ｌａｙｅｒ＿ｉｄの領域で特定される符号化された視点画像のグループと、前記ＮＡＬヘッダのＴｅｍｐｏｒａｌＩｄの領域で特定される前記グループ内において符号化された視点画像の位置とにより、符号化された視点画像と当該視点画像に対応する奥行画像とを復号する復号手段と、
符号化されていない視点位置の視点画像を、前記復号手段で復号された前記視点位置に同時点で隣接する視点画像および奥行画像と、時系列に隣接する視点画像とに基づいて内挿する視点内挿手段と、
前記視点内挿手段で内挿された多視点画像を、フレームごとに出力する多視点画像出力手段と、
を備えることを特徴とする多視点映像復号装置。
コンピュータを、請求項１から請求項３のいずれか一項に記載の多視点映像符号化装置として機能させるための多視点映像符号化プログラム。
コンピュータを、請求項４または請求項５に記載の多視点映像復号装置として機能させるための多視点映像復号プログラム。