JP2024012332A

JP2024012332A - マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置

Info

Publication number: JP2024012332A
Application number: JP2023179221A
Authority: JP
Inventors: ジュング，ジョエル; Jung Joel; ニキーチン，パーヴェル; Nikitin Pavel; ボアソナード，パトリック; Boissonade Patrick
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2018-05-03
Filing date: 2023-10-18
Publication date: 2024-01-30
Also published as: US11910015B2; JP2021524214A; US20210243472A1; WO2019211541A3; CN112075081A; US11910016B2; EP3788789A2; JP7371090B2; WO2019211541A2; US11290746B2; US20220182672A1; US20220182673A1; US20220182671A1; FR3080968A1; KR20210003809A; US11889115B2

Abstract

【課題】マルチビュー画像のシーケンスのデコード及び中間ビューの画像の合成の方法及び装置を提供する。【解決手段】デコーダＤＥＣによるマルチビュービデオを表すデータストリームのデコード方法は、データストリームの少なくとも１つの部分からシンタックス要素を取得することＥ２０と、取得されたシンタックス要素からマルチビュービデオのビューの少なくとも１つの画像を再構成することＥ２１と、を含み、少なくとも１つのシンタックス要素から、シーン内の少なくとも１つのカメラの位置を表すカメラパラメータに対応する、所定の形式でメタデータの少なくとも１つの項目を取得しＥ２３、メタデータの少なくとも１つの項目を画像合成モジュールに提供しＥ２４、画像合成モジュールは、再構成された少なくとも１つの画像とメタデータの少なくとも１つの項目とから、マルチビュービデオのビューとは異なる少なくとも１つの仮想ビューを合成する。【選択図】図４

Description

本発明は、一般に、３Ｄ画像処理の分野に関し、より詳細には、マルチビュー画像のシ
ーケンスのデコード、及び中間ビューの画像の合成に関する。

仮想現実の分野では、フリーナビゲーション（free navigation）により、視認者が、
任意の視点からのシーンを、その視点がカメラによってキャプチャされた視点に対応する
のか又はカメラによってキャプチャされていない視点に対応するのかを問わず、視認する
ことが可能になる。カメラによってキャプチャされていないそのようなビューは、仮想ビ
ュー又は中間ビューとも称され、これはなぜならば、このビューは、カメラによってキャ
プチャされたビューとビューとの間にあり、復元のために合成されなければならないため
である。

シーン内のフリーナビゲーションは、マルチビュービデオを視認するユーザの全ての動
きが正しく管理されるとともに、画像が最適にレンダリングされない場合に視認者が感じ
得る不快感が回避されることを必要とする。

一般に、ユーザの動きは、復元装置、例えば、ＨＭＤ（ヘッドマウントデバイス）仮想
現実ヘッドセットによって正しく考慮される。

しかしながら、ユーザの動き（回転又は平行移動）にかかわらず、表示のために正しい
ピクセルを提供することは、依然として問題である。実際には、表示すべき画像の計算は
、仮想（すなわち、合成された）ビューの追加の画像を表示するためにいくつかのキャプ
チャされたビューの使用を必要とする。そのような仮想ビューは、カメラによってキャプ
チャされていない視点に対応する。そして、デコードされキャプチャされたビュー及び関
連付けられた深度からそれらを計算することが必要とされる。

したがって、フリーナビゲーション機能を提供するコーデックは、いくつかのビュー及
び関連付けられた深度をエンコードするのに有効であるとともに、仮想ビューの最適なレ
ンダリングを可能にしなければならず、すなわち、合成アルゴリズムを表示に使用するこ
とを必要とする。

マルチビューシーケンスをエンコードするように設計されたマルチビュービデオエンコ
ーダ、例えば、スタンダードＭＶ－ＨＥＶＣ又は３Ｄ－ＨＥＶＣ（Series H: Audiovisua
l and multimedia systems - Infrastructure of audio visual services - Coding of m
oving video, High Efficiency Video Coding, Recommendation ITU-T H.265, Internati
onal Telecommunication Union, December 2016）が既知である。

ＭＶ－ＨＥＶＣエンコーダは、非常に基本的なビュー間予測を適用し、一方、３Ｄ－Ｈ
ＥＶＣエンコーダは、いくつかの追加のツールを含むことで、時間冗長性のみではなく、
ビュー間冗長性も利用する。加えて、３Ｄ－ＨＥＶＣは、深度マップを効率的にエンコー
ドするための特定のツールを有する。これらの２つのコーデック、及び特に３Ｄ－ＨＥＶ
Ｃは、関連する深度を有する複数のビューをエンコードする際に、ＨＥＶＣ規格等の２Ｄ
ビデオシーケンスを扱う従来のビデオコーデックと比較して、ビットレートを有効に削減
する。

仮想現実の状況では、カメラによってキャプチャされ、データストリームにエンコード
されているビューをデコードした後、例えばユーザの動きに基づいて仮想ビューを合成す
ることができる。

そのような仮想ビューを合成することについて、例えば、ＶＳＲＳツール（Wegner, St
ankiewicz, Tanimoto, Domanski, Enhanced view synthesis reference software (VSRS)
for free-viewpoint television, ISO/IEC JTC1/SC29/WG11 m31520, October 2013, Gen
eva, Switzerland）が既知である。

図１は、デコーダＤＥＣ（例えば、３Ｄ－ＨＥＶＣ）がデータストリームＳＴＲをデコ
ードして、デコードされたビュー（ＶＤ１、ＶＤ２）を生成する、従来のフリーナビゲー
ションシステムを示している。その場合、そのようなビューが、ビュー合成装置ＳＹＮＴ
Ｈ（例えば、ＶＳＲＳ）によって用いられて、合成されたビューＶＳ（１＋２）が生成さ
れる。その後、デコードされたビュー及び合成されたビューが、ユーザの動きに従って復
元装置ＤＩＳＰによって表示される。

従来のデコーダＤＥＣが図２に示されている。典型的には、そのようなデコーダは、デ
ータストリームＳＴＲの分析（Ｅ２０）を実行して、デコードすべき関連データを取得し
、その後、デコード処理（Ｅ２１）を適用して、仮想ビューを生成するのに合成モジュー
ルＳＹＮＴＨによって後に用いることができるデコードされたビュー（ＶＤ１、ＶＤ２）
を再構成する。

したがって、データストリームからビューをデコードする処理と、仮想ビューを合成す
る処理とは相関しないように思われる。特に、合成処理は、デコーダが関与しない困難な
タスクである。デコーダは、単に、データストリームから再構成されたデコードされたビ
ューを、合成モジュールにとって利用可能にする。

仮想現実アプリケーションが直面する技術的問題は、エンコーダ及びデコーダが、特に
フリーナビゲーションの場合において、ユーザによって要求される最終的な視点の事前知
識を有しないということである。マルチビュービデオエンコーダ及びデコーダは、更には
、仮想ビューを合成するのに最終的に用いられる合成処理の知識も有しない。実際には、
仮想ビューを合成するのに用いられる合成方法は、マルチビュービデオデコーダとは異な
り、現在標準化されておらず、それにより、仮想現実アプリケーションによって用いられ
る合成方法は、独自のツールであり続けている。

したがって、合成された仮想ビューの品質は、そのようなアプリケーションによって用
いられる合成ツール及び合成アルゴリズムに依存する。一般に、そのような品質は、用い
られる合成ツールの複雑度と、これらの合成ツールを実装する装置のリソースとに依存す
る。

仮想現実アプリケーション、及びより詳細にはフリーナビゲーションを用いる仮想現実
アプリケーションは、リアルタイムでなければならない。仮想ビュー合成モジュールは、
一般的に、特にキャプチャ及びデコードされるビューの数が不十分である場合、デコード
及び再構成されるキャプチャされるビューが高ビジュアル品質であっても、中程度の品質
の仮想ビューを提供する。

本発明は、現行技術水準を改善する。

本発明は、デコード装置によって実施される、マルチビュービデオを表すデータストリ
ームをデコードする方法であって、データストリームの少なくとも１つの部分からシンタ
ックス要素を取得することと、取得されたシンタックス要素からビデオのビューの少なく
とも１つの画像を再構成することとを含む、デコード方法に関する。有利なことに、この
デコード方法は、少なくとも１つのシンタックス要素から、所定の形式でメタデータの少
なくとも１つの項目を取得することと、メタデータの少なくとも１つの項目を画像処理モ
ジュールに提供することとを更に含む。

したがって、そのようなデコード方法は、画像処理モジュール、例えばデコーダの外部
の合成モジュールに、ビデオストリームのデータを表し、画像処理モジュールによって用
いることができるメタデータを提供することを可能にする。したがって、画像処理モジュ
ール内で実施される処理は、複雑度が低くなる。例えば、仮想ビュー合成モジュールの場
合では、合成アルゴリズムによって用いられるとともにデコーダから利用可能であるデー
タの一部を再計算することは必要ではない。その上、本発明は、画像処理モジュールが、
単独で計算することが可能でないデータにアクセスし、そのデータを用いて自身の動作を
改善することも可能にする。例えば、仮想ビュー合成モジュールの場合では、デコーダは
、合成モジュールにオクルージョンマップを提供することができ、そのようなオクルージ
ョンは、合成モジュールによって、ビデオのビューの再構成された画像のみから決定する
ことが困難である。

したがって、画像処理モジュール内で実施される処理を改善することができる。これは
、なぜならば、デコーダレベルにおいて利用可能であるデータを取得する演算複雑度が削
減されるためであり、したがって、より複雑な、それゆえより強力な画像処理アルゴリズ
ムを、画像処理モジュール内でより容易に実施することができる。

仮想ビュー合成モジュールの場合では、仮想ビューの品質はこのように改善される。こ
れにより、ビュー間のよりスムーズな遷移を提供することによって、マルチビュービデオ
におけるユーザのフリーナビゲーションも向上する。その上、仮想ビューの合成を改善す
ることにより、シーンをキャプチャするのに必要なカメラの数も削減される。

所定のフォーマットでメタデータを提供することにより、デコーダと画像処理モジュー
ルとの間の通信が容易になる。例えば、メタデータは、インデックス付けされるとともに
標準化された表の形式で提供される。したがって、画像処理モジュールは、表内のインデ
ックスごとに、いずれのメタデータがこのインデックスにおいて記憶されているのかを知
る。

ビデオデータ通信にメタデータを用いることが既知である。例えば、Ｈ．２６４／ＡＶ
Ｃ規格で導入されたＳＥＩ（補助強化情報：Supplemental Enhancement Information）メ
ッセージは、デコーダレベルにおいて実施される任意選択の処理動作に関するデータであ
る。ＳＥＩメッセージは、ビデオデータビットストリームを介してデコーダに送信される
。しかしながら、そのようなＳＥＩメッセージデータは、エンコーダレベルにおいて作成
されるとともに、デコーダによってのみ用いられ、任意選択で、デコード及び再構成され
たビューの品質が改善する。

本発明の特定の実施形態によれば、メタデータの少なくとも１つの項目を取得すること
は、シンタックス要素の少なくとも１つの部分から上記メタデータの少なくとも１つの項
目を計算することを更に含む。

本発明のそのような特定の実施形態は、例えば、ビューを再構成するのにデコーダによ
って用いられない情報、例えば深度情報のために計算される信頼度値、又は、別の形式で
デコーダによって用いられる情報、例えば画像を再構成するときに用いられる粒度よりも
粗い粒度を有するモーション情報に対応する、新たなメタデータを計算することを可能に
する。

本発明の別の特定の実施形態によれば、上記メタデータの少なくとも１つの項目は、少
なくとも１つの画像を再構成するのに用いられない。

本発明の別の特定の実施形態によれば、上記メタデータの少なくとも１つの項目は、以
下のもの、すなわち、
－カメラパラメータ、
－デコード及びスケーリングされたモーションベクトル、
－再構成された画像の分割、
－再構成されたビューの画像のブロックによって用いられる参照画像、
－再構成されたビューの画像のコード化モード、
－再構成されたビューの画像の量子化パラメータ値、
－再構成されたビューの画像の予測残差値、
－再構成されたビューの画像内の動きを表すマップ、
－再構成されたビューの画像内のオクルージョンの存在を表すマップ、
－深度マップに関連付けられた信頼度値を表すマップ、
を含むグループ内に含まれる情報の１つの項目に対応する。

本発明の別の特定の実施形態によれば、所定の形式は、メタデータの少なくとも１つの
項目がインデックスに関連付けられて記憶される、インデックス付き表に対応する。

本発明の別の特定の実施形態によれば、上記メタデータの少なくとも１つの項目は、デ
コード装置において指定された粒度レベルに基づいて取得される。

本発明のこの特定の実施形態によれば、シンタックス要素から生成されるメタデータを
、異なる粒度レベルにおいて取得することができる。例えば、モーション情報の場合、デ
コーダにおいて用いられる（すなわち、デコーダによって用いられるような）粒度、又は
（例えば、サイズ６４×６４のブロックごとに１つのモーションベクトルを提供すること
によって）より粗い粒度を有するモーションベクトルを提供することができる。

本発明の別の特定の実施形態によれば、デコード方法は、デコード装置によって、画像
処理モジュールによって必要とされるメタデータの少なくとも１つの項目を示す要求をこ
の画像処理モジュールから受信することを更に含む。本発明のこの特定の実施形態によれ
ば、画像処理モジュールは、デコーダに、画像処理モジュールが必要とする情報を示す。
したがって、デコーダは、必要なメタデータのみを画像処理モジュールにとって利用可能
にすることができ、これにより、デコーダにおける複雑度及びメモリリソースの使用が限
られたものとなる。

本発明の別の特定の実施形態によれば、要求は、利用可能なメタデータの所定のリスト
の中の必要なメタデータの項目を示す少なくとも１つのインデックスを含む。

本発明はまた、上記で定義された特定の実施形態のうちのいずれか１つによるデコード
方法を実施するように構成されたデコード装置に関する。当然、このデコード装置は、本
発明によるデコード装置に関する異なる特徴を含むことができる。したがって、このデコ
ード装置の特徴及び利点は、デコード方法の特徴及び利点と同じであり、更には詳述され
ない。

本発明の特定の実施形態によれば、そのようなデコード装置は、端末、又はサーバ内に
含まれる。

本発明は、デコード装置によってデコードされたビューの少なくとも１つの画像から、
仮想ビューの少なくとも１つの画像を生成することを含む画像合成方法にも関する。本発
明によれば、そのような画像処理方法は、所定の形式でメタデータの少なくとも１つの項
目を読み出すことも含み、上記メタデータの少なくとも１つの項目は、デコード装置によ
って、マルチビュービデオを表すデータストリームから取得された少なくとも１つのシン
タックス要素から取得され、上記少なくとも１つの画像は、上記メタデータの少なくとも
１つの読み出された項目を用いて生成される。

したがって、画像合成方法は、デコーダが利用可能なメタデータを利用して、マルチビ
ュービデオの仮想ビューの画像を生成する。そのようなメタデータは、画像処理装置がア
クセスを有しないデータ、又は、再計算することが可能であるデータに対応することがで
きるが、演算が非常に複雑になる。

ここでの仮想ビューとは、画像のシーケンスがシーン取得システムのカメラによってキ
ャプチャされていないシーンの新たな視点からのビューを意味する。

本発明の特定の実施形態によれば、画像合成方法は、デコード装置に、画像を生成する
のに必要なメタデータの少なくとも１つの項目を示す要求を送信することを更に含む。

本発明はまた、上記で定義された特定の実施形態のうちのいずれか１つによる画像処理
方法を実施するように構成された画像処理装置に関する。当然、この画像処理装置は、本
発明による画像処理方法に関する異なる特徴を含むことができる。したがって、この画像
処理装置の特徴及び利点は、画像処理方法の特徴及び利点と同じであり、更には詳述され
ない。

本発明の特定の実施形態によれば、そのような画像処理装置は、端末、又はサーバ内に
含まれる。

本発明はまた、マルチビュービデオを表すデータストリームからマルチビュービデオを
表示する画像処理システムであって、上記の実施形態のうちのいずれか１つによるデコー
ド装置と、上記の実施形態のうちのいずれか１つによる画像処理装置とを備える、画像処
理システムに関する。

本発明による、デコード方法、それぞれの画像処理方法は、種々の方法、とりわけ、配
線形式又はソフトウェア形式で実施することができる。本発明の特定の実施形態によれば
、デコード方法、それぞれの画像処理方法は、コンピュータプログラムによって実施され
る。本発明はまた、プロセッサによって実行されると、前述した特定の実施形態のうちの
いずれか１つによるデコード方法又は画像処理方法を実施する命令を含むコンピュータプ
ログラムに関する。そのようなプログラムは、任意のプログラミング言語を用いることが
できる。プログラムは、通信ネットワークからダウンロードし、及び／又はコンピュータ
可読媒体上に記録することができる。

このプログラムは、任意のプログラミング言語を用いることができ、ソースコード、オ
ブジェクトコード、ソースコードとオブジェクトコードとの間の中間コード、例えば、部
分的にコンパイルされた形式、又は他の任意の所望の形式のものとすることができる。

本発明は、上述されたコンピュータプログラムの命令を含むコンピュータ可読記憶媒体
又はデータ媒体にも関する。上述された記録媒体は、プログラムを記憶することが可能で
ある任意のエンティティ又は装置とすることができる。例えば、媒体は、記憶手段、例え
ばＲＯＭ、例えばＣＤ－ＲＯＭ若しくはマイクロ電子回路ＲＯＭ、ＵＳＢフラッシュドラ
イブ、又は磁気記録手段、例えばハードドライブを含むことができる。他方、記録媒体は
、無線又は他の手段によって電気ケーブル又は光ケーブルを介して伝送することができる
、電気信号又は光学信号等の伝送可能媒体に対応することができる。本発明によるプログ
ラムは、特にインターネット型のネットワーク上でダウンロードすることができる。

代替的に、記録媒体は、プログラムが埋め込まれる集積回路に対応することができ、こ
の回路は、当該方法を実行するか又は当該方法の実行に用いられるように適応される。

本発明の他の特徴及び利点は、添付の図面を参照しながら、単なる例示であり非限定的
な例として提供される以下の特定の実施形態の説明を読めばより明らかになるであろう。

従来技術による、マルチビュービデオ内のフリーナビゲーションのためのシステムを図式的に示す図である。従来技術による、マルチビュービデオを表すデータストリームのデコーダを図式的に示す図である。本発明の特定の実施形態による、マルチビュービデオ内のフリーナビゲーションのためのシステムを図式的に示す図である。本発明の特定の実施形態による、マルチビュービデオを表すデータストリームをデコードする方法のステップを示す図である。本発明の特定の実施形態による、マルチビュービデオを表すデータストリームのデコーダを図式的に示す図である。本発明の特定の実施形態による画像処理方法のステップを示す図である。本発明の別の特定の実施形態によるデコード方法及び画像処理方法のステップを示す図である。本発明の特定の実施形態によるデコード方法を実施するように適応された装置を図式的に示す図である。本発明の特定の実施形態による画像処理方法を実施するように適応された装置を図式的に示す図である。マルチビューキャプチャシステムのビューの配置構成を示す図である。

本発明は、マルチビュービデオを表すデータストリームのデコード処理を変更すること
に基づいており、それにより、デコード処理によって再構成されたビューに基づく画像処
理プロセスが容易になる。例えば、画像処理プロセスは、仮想ビューを合成する処理に対
応する。このために、デコーダは、データストリームから再構成されたビューの画像のみ
ではなく、そのような画像に関連付けられたメタデータも提供し、メタデータは、その後
、仮想ビューの合成のために用いることができる。有利なことに、そのようなメタデータ
はフォーマットされており、すなわち、デコーダと合成装置との間の相互運用性を容易に
する所定の形式にされている。したがって、仮想ビューを合成するのに、所定の形式にお
けるメタデータを読み出すように構成された任意の合成装置を用いることができる。

図３は、本発明の特定の実施形態による、マルチビュービデオ内のフリーナビゲーショ
ンのためのシステムを図式的に示している。図３におけるシステムは、図１に関連して説
明されたシステムと同様に動作するが、デコーダＤＥＣが、出力において、再構成された
ビューＶＤ１及びＶＤ２の画像に加えて、メタデータＭＤ１、ＭＤ２を提供するという差
を有する。そのようなメタデータＭＤ１、ＭＤ２は、合成装置への入力において提供され
、次に、合成装置は、例えば再構成されたビューＶＤ１、ＶＤ２から、仮想ビューＶＳ（
１＋２）を生成する。そして、デコーダＤＥＣ及び合成装置ＳＹＮＴＨは、本発明による
画像処理システムを形成する。デコーダＤＥＣ及び合成装置ＳＹＮＴＨは、同じ装置内に
含めることもできるし、互いに通信することが可能な２つの別個の装置内に含めることも
できる。

例えば、非限定的及び非網羅的に、そのようなメタデータは、以下のものに対応するこ
とができる。
－デコーダによって再構成されたビューのカメラパラメータ、
－デコーダによって再構成された画像のデコード及びスケーリングされたモーションベ
クトル、
－再構成された画像の分割、
－再構成された画像のブロックによって用いられる参照画像の表示、
－再構成された画像のコード化モード、
－再構成された画像の量子化パラメータ値、
－再構成された画像の予測残差値。

そのような情報は、デコーダによって用いられるものとして提供することができる。代
替的に、そのような情報は、デコーダによって、例えば、デコーダによって使用される粒
度よりも細かい粒度又は粗い粒度を提供するように処理することができる。

メタデータはデコーダによって計算及び共有することもでき、例えば、以下のものがあ
る。
－再構成されたビューの一画像、又は画像のグループ内の全体モーションを表すマップ
。例えば、そのようなマップは、画像、又は画像のグループのモーションベクトルを閾値
処理することによって得られるバイナリマップとすることができる。
－再構成されたビューの画像内のオクルージョンの存在を表すマップ。例えば、そのよ
うなマップは、ビュー間予測の場合において各ピクセルの予測残差に含まれる情報のレベ
ルを考慮することによって得られるバイナリマップとすることができ、又は、オクルージ
ョンの可能なロケーションの情報を、画像の視差ベクトル又はエッジマップから導出する
ことができる。
－深度マップに関連付けられた信頼度値を表すマップ。例えば、そのようなマップは、
テクスチャのコード化モードと対応する深度のコード化モードとを比較することによって
デコーダによって計算することができる。

出力メタデータのうちの一部は、単一のビューに関するデータとすることができる。そ
の場合、この出力メタデータは、そのビューに固有のものである。他のメタデータは、２
つ以上のビューから得ることができる。この場合では、メタデータは、ビュー同士の間の
差又は相関関係（カメラパラメータ、オクルージョンマップ、デコードモードにおける差
等）を表す。

図４は、本発明の特定の実施形態による、マルチビュービデオを表すデータストリーム
をデコードする方法のステップを示している。

データストリームＳＴＲが、例えばビットストリームとして、デコーダＤＥＣの入力に
おいて供給される。データストリームＳＴＲは、例えば、フレーム同士の間の冗長性を用
いるマルチビュービデオのエンコードに適応された従来技術によるビデオエンコーダによ
って、又は、マルチビュービデオの各ビューに個別に適用された単一ビュービデオエンコ
ーダによって、エンコードされたマルチビュービデオのデータを含む。

ステップＥ２０において、デコーダＤＥＣは、デコードされたシンタックス要素が提供
されるデータストリームの少なくとも１つの部分をデコードする。そのようなデコードＥ
２０は、例えば、再構成されるビュー、例えばユーザによって視認されるビューの現在の
画像を再構成するのに必要なシンタックス要素を抽出するために、データストリームのパ
ス、及びビットストリームのエントロピーのデコードに対応する。そのようなシンタック
ス要素は、例えば、現在の画像のブロックのコード化モード、画像間予測又はビュー間予
測の場合におけるモーションベクトル、予測残差の量子化係数等に対応する。

従来的に、ステップＥ２１の間に、再構成されるビュー（ＶＤ１、ＶＤ２）の現在の画
像は、デコードされたシンタックス要素、及び場合によっては、そのビュー又は他の以前
に再構成されたビューの画像から再構成される。現在の画像のそのような再構成は、現在
の画像をエンコードするためにエンコーダレベルにおいて用いられるコード化モード及び
予測技法に従って実施される。

再構成されたビューの画像は、画像処理モジュールＳＹＮＴＨの入力において提供され
る。

ステップＥ２３において、メタデータの少なくとも１つの項目は、少なくとも１つのデ
コードされたシンタックス要素から得られる。メタデータのそのような項目は、所定の形
式でフォーマットされる。そのような所定の形式は、例えば、データが送信されるか又は
メモリに記憶されるように構成される特定のシンタックスに対応する。マルチビュービデ
オデコーダが特定の規格に準拠したデコーダである場合、メタデータのシンタックスは、
例えば、その特定の規格、又は特定のデコード規格に関連付けられた規格において記載さ
れているものとすることができる。

本発明の特定の実施形態によれば、所定の形式は、メタデータの少なくとも１つの項目
がインデックスに関連付けられて記憶されるインデックス付けされた表に対応する。この
特定の実施形態によれば、各メタデータタイプは、インデックスに関連付けられる。その
ような表の一例が、以下の表１において示されている。

メタデータの各項目は、そのインデックスに関連付けられ、メタデータタイプに従った
適切なフォーマットで記憶される。

例えば、ビューのカメラパラメータは、それぞれ、例えばシーン内のカメラの位置に対
応する３Ｄ座標系内の点の座標に対応する位置情報と、例えば３Ｄ座標系内の３つの角度
の値によって定義される方位情報と、被写界深度とを含むデータの３つ組（triplet）と
して記憶される。

別の例によれば、モーションベクトルは、対応する再構成された画像のブロックごとに
、対応するモーションベクトルの値を含む表の形式で記憶される。

以下で示されるメタデータ表は、非限定的な例にすぎない。メタデータは、他の所定の
形式で記憶することができる。例えば、１つのメタデータタイプのみが可能である場合、
インデックスをそのメタデータタイプに関連付けることは必要ではない。

本発明の特定の実施形態によれば、ステップＥ２２において、メタデータの少なくとも
１つの項目は、取得ステップＥ２３の前に、デコードされたシンタックス要素の少なくと
も１つの部分から計算される。

したがって、本発明のそのような特定の実施形態により、再構成されるビューの現在の
画像を再構成するのには用いられないが、再構成された現在の画像から仮想ビューを合成
するのに用いることができるメタデータ、例えばオクルージョンマップを取得することが
可能になる。

本発明のそのような特定の実施形態により、現在の画像を再構成するのに用いられる粒
度とは異なる粒度を有するメタデータを取得することも可能になる。例えば、モーション
ベクトルは、例えば画像全体上で６４×６４ピクセルのサイズのブロックの場合、６４×
６４の当該ブロック内に含まれる現在の画像の全てのサブブロックの再構成されたモーシ
ョンベクトルから、より粗く計算することができる。例えば、６４×６４のブロックごと
に、モーションベクトルは、サブブロックのモーションベクトルの、最小値若しくは最大
値、平均値若しくは中央値、又は他の任意の関数を選択することによって計算される。

ステップＥ２４において、ステップＥ２３において取得されたメタデータＭＤ１、ＭＤ
２は、デコーダＤＥＣの外部の画像処理モジュールＳＹＮＴＨ、例えば仮想ビュー合成モ
ジュールに提供される。デコーダの外部のモジュールとは、データストリームをデコード
するためにも、デコーダによって再構成されたビューを表示するためにもその動作が必須
ではないモジュールを意味する。

例えば、メタデータは、画像処理モジュールがアクセス可能なメモリに記憶される。別
の例によれば、メタデータは、デコーダと画像処理モジュールとが同じ装置内に統合され
る場合にはデータ送信バス等のコネクションリンクを介して画像処理モジュールに送信さ
れ、又は、デコーダと画像処理モジュールとが別個の装置内で統合される場合にはケーブ
ル若しくはワイヤレスコネクションを介して画像処理モジュールに送信される。

図５は、本発明の特定の実施形態による、マルチビュービデオを表すデータストリーム
のデコーダを図式的に示している。

従来的に、データストリームＳＴＲから再構成されるビューのデコードは、以下のよう
に実施される。再構成されるビューのデコードは、画像単位で、及び各画像についてブロ
ック単位で、行われる。再構成されるブロックごとに、そのブロックに対応する要素がエ
ントロピーのデコードモジュールＤによってデータストリームＳＴＲからデコードされ、
デコードされたシンタックス要素ＳＥ（テクスチャのエンコードモード、モーションベク
トル、視差ベクトル、深度のエンコードモード、参照画像インデックス、．．．）及び量
子化係数ｃｏｅｆｆのセットが提供される。

量子化係数ｃｏｅｆｆは、逆量子化モジュール（Ｑ^－１）に、そしてその後、逆変換モ
ジュール（Ｔ^－１）に送信されて、ブロックの予測残差値ｒｅｓ_ｒｅｃが提供される。デ
コードされたシンタックス要素（ＳＥ）は、予測モジュール（Ｐ）に送信されて、以前に
再構成された画像Ｉ_ｒｅｆ（現在の画像の１つの部分、又は以前に再構成されたビューの
参照画像、又は別の以前に再構成されたビューの参照画像）も用いて予測ブロックｐｒｅ
ｄが計算される。その後、現在のブロックは、予測ｐｒｅｄを、ブロックの予測残差ｒｅ
ｓ_ｒｅｃに加算することによって再構成される（Ｂ_ｒｅｃ）。その後、再構成されたブロ
ック（Ｂ_ｒｅｃ）は、現在の画像又は別の画像又は別のビューを再構成するのに後に用い
られるように、メモリＭＥＭに記憶される。

本発明によれば、エントロピーのデコードモジュールの出力において、ブロックのデコ
ードされたシンタックス要素ＳＥ及び任意選択の量子化係数は、デコードされたシンタッ
クス要素ＳＥ及び任意選択の量子化係数の少なくとも１つの部分を選択し、それらを所定
の形式で記憶するように構成されたモジュールＦＯＲＭに送信されて、再構成された画像
、又は画像のグループに関するメタデータＭＤが提供される。

フォーマットされるデコードされたシンタックス要素ＳＥの選択は、例えば、デコーダ
の動作を記述している規格内で明記されているように、固定することができる。代替的に
、異なるタイプの選択を固定的に、例えばデコーダプロファイルを介して定義することが
でき、デコーダのパラメータ化は、フォーマットモジュールＦＯＲＭが対応するシンタッ
クス要素を選択するように、これを構成することができる。更に別の変形形態によれば、
デコーダは、このデコーダがメタデータを提供する画像処理モジュールと交換を行うこと
が可能である。この場合、画像処理モジュールは、デコーダに、画像処理モジュールが受
信することを望むメタデータのタイプを明示的に示し、デコーダのモジュールＦＯＲＭは
、要求されたデコードされたシンタックス要素のみを選択する。

デコーダによって用いられる粒度レベルと異なる粒度レベルにおいてメタデータを提供
することができる場合、そのような粒度レベルは、デコーダの動作を記述している規格に
おいて、又はデコーダプロファイルを介して固定的に定義することができる。画像処理モ
ジュールがメタデータを取得するためにデコーダと通信する場合、画像処理モジュールは
、この画像処理モジュールがメタデータの一部を受信する際に望む粒度レベルをデコーダ
に明示的に示すことができる。

本発明の特定の実施形態によれば、エントロピーのデコードモジュールの出力における
デコードされたシンタックス要素ＳＥ及び任意選択の量子化係数は、シンタックス要素Ｓ
Ｅ及び／又は量子化係数からメタデータを計算するように構成されたモジュールＣＡＬＣ
に送信される。前述したように、計算されるメタデータは、デコーダの動作を記述してい
る規格において、もしくは異なるプロファイル又はそれ以外に従って明示的に定義するこ
ともできるし、対象とされる画像処理モジュールとの交換から決定することもできる。

本発明の特定の実施形態によれば、モジュールＦＯＲＭは、特に、再構成されるビュー
のカメラパラメータを選択する。

新たな視点を合成するために、合成モジュールは、元の（再構成された）ビューの各ピ
クセルが仮想ビューに投射される方法を記述しているモデルを作成しなければならない。
大半の合成装置、例えば、ＤＩＢＲ（深度画像ベースレンダリング）技法に基づく合成装
置は、再構成されたビューのピクセルを３Ｄ空間に投射するのに深度情報を用いる。その
後、３Ｄ空間内の対応する点は、上記新たな視点からカメラ平面に投射される。

３Ｄ空間内の画像点のそのような投射は、次の式、すなわち、Ｍ＝Ｋ．ＲＴ．Ｍ’を用
いてモデル化することができ、ここで、Ｍは、３Ｄ空間内の点の座標行列であり、Ｋは、
仮想カメラの内部パラメータ（intrinsic parameters）の行列であり、ＲＴは、仮想カメ
ラの外部パラメータ（extrinsic parameters）（３Ｄ空間内のカメラ位置及び方向）の行
列であり、Ｍ’は、現在の画像のピクセル行列である。

カメラパラメータが合成モジュールに送信されない場合、合成モジュールは、高複雑度
及び正確性を犠牲にして、それらのカメラパラメータを計算しなければならず、計算は、
リアルタイムに行うことができないか、又は、外部センサによって取得しなければならな
い。それゆえ、デコーダによってこれらのパラメータを提供することにより、合成モジュ
ールの複雑度を制限することが可能になる。

本発明の別の特定の実施形態によれば、モジュールＦＯＲＭは、特に、現在の画像を再
構成するのに用いられる参照画像に関するシンタックス要素を選択する。

仮想ビューを生成するために、合成モジュールが、以前に再構成された利用可能な種々
のビューの画像の中から参照画像を選択する可能性がある場合、合成モジュールは、合成
のために用いられるビューをコード化するときにいずれの参照ビューが用いられたのかを
知ることから利益を得ることができる。例えば、図１０は、１６個のカメラを含むマルチ
ビューキャプチャシステムのビューの配置構成を示している。各フレームの間の矢印は、
ビューのデコード順序を示している。合成モジュールがビューＶ６とビューＶ１０との間
に置かれた視点（図１０において×印によって表されている）についての仮想ビューＶＶ
を生成しなければならない場合、従来的には、合成モジュールは、最良の仮想ビューを構
成するために、各ビューの可用性をチェックしなければならない。

本明細書において説明される特定の実施形態によれば、或るビューについて、そのビュ
ーを再構成するのに用いられる参照ビューを示すメタデータを有する場合、合成モジュー
ルは、仮想ビューを生成するのにいずれの画像を用いるべきかを決定するために、仮想視
点に最も近い利用可能なビュー（図１０の場合ではビューＶ６）のみを選択することがで
きる。例えば、ビューＶ６のブロックが参照画像としてビューＶ７の画像を用いる場合、
合成モジュールは、ビューＶ６によって用いられるので利用可能である必要があるビュー
Ｖ７を用いることを決定することもできる。したがって、そのような実施形態は、合成中
の各ビューの可用性をチェックする必要性を回避することによって、合成モジュールの複
雑度を低減する。

本発明の別の特定の実施形態によれば、モジュールＣＡＬＣは、特に、モーションマッ
プを生成するためにモーションベクトルに関するシンタックス要素を選択する。

動きがほとんどない領域では、仮想ビュー合成は、一般的に、深度マップの不正確性に
起因して、時間的コヒーレンスの欠如を示す。これらのインコヒーレンスは、仮想視点か
らの視覚化にとって非常に妨げとなる。

この特定の実施形態では、デコーダのモジュールＣＡＬＣは、デコード及び再構成され
たモーションベクトル、すなわち、モーションベクトルの逆予測及びモーションベクトル
の拡縮の後のモーションベクトルを選択する。モジュールＣＡＬＣは、モーションマップ
、典型的にはバイナリマップを生成するために各ブロックの再構成されたモーションベク
トルの閾値処理を実行し、バイナリマップでは、各要素が値０又は１を取り、その領域が
局所的にモーションを有するか否かを示す。バイナリマップは、例えば、数理形態学（例
えば、収縮（erosion）、膨張（expansion）、オープニング（opening）、クロージング
（closing））を用いることによって改善することができる。

その後、モーションバイナリマップは、所望の粒度（ピクセルレベルマップ、ブロック
レベルマップ若しくはサブブロックレベルマップ、又は画像内の特定のブロックサイズに
ついて定義されたマップ等）に応じてフォーマットされ、モーションがビュー内に存在す
るか否かを示すことができる。

その後、そのようなモーションマップを受信する合成モジュールは、例えば、或る領域
がモーションを有するものとマーキングされるか否かに応じて異なる合成処理を適用する
ことによって、自身の動作を適応することができる。例えば、時間的インコヒーレンスの
問題を解決するために、従来の合成処理は、固定（モーションレス）領域内で無効化され
るとともに、単に、以前の画像のピクセルの値を引き継ぐことができる。

当然ながら、合成モジュールは、他の手段を用いて、例えば、エンコーダとしてモーシ
ョンを推定することによって、単独でモーションマップを生成することができる。しかし
ながら、そのような動作は、合成アルゴリズムの複雑度、及び、結果として得られるモー
ションの精度に著しい影響を与える。なぜならば、エンコーダは、デコーダの出力におい
てもはや利用可能でないコード化されていない画像からモーションを推定するためである
。

図１０において示される例及び前述された実施形態では、最も近い利用可能なビューを
用いることのみではなく、仮想視点の近傍の参照ビューを平均化することによっても、有
効な参照ビューを計算することができる。例えば、参照ビューＶ６、Ｖ７、Ｖ１０及びＶ
１１は、デコーダのモジュールＣＡＬＣによって平均化することができ、結果として得ら
れる平均ビューは合成モジュールに送信することができる。

別の変形形態では、デコーダのモジュールＣＡＬＣは、オクルージョンマップを計算す
ることができ、ここで、オクルージョンマップは、画像のピクセル又はブロックごとに、
領域がオクルージョン領域に対応するか否かを示す。例えば、モジュールＣＡＬＣは、領
域を再構成するのにデコーダによって用いられる参照画像（複数の場合もある）の情報を
用いることによって、領域がオクルージョン領域に対応するか否かを決定することができ
る。例えば、図１０の場合では、ビューＶ６の画像内のブロックの大半が時間予測を用い
るとともにビューＶ６の画像内のいくつかのブロックがビュー間予測、例えば、ビューＶ
２に対するビュー間予測を用いる場合、これらのブロックは、オクルージョン領域に対応
する可能性が高い。

その後、そのようなオクルージョンマップを受信する合成モジュールは、領域がオクル
ージョン領域とマークされるか否かに応じて異なる合成処理を適用することを決定するこ
とができる。

本発明の別の特定の実施形態によれば、モジュールＣＡＬＣは、特に、それぞれ再構成
された画像のテクスチャ及び画像の深度マップに関連付けられたコード化モードを選択す
る。

従来技術によれば、合成アルゴリズムは、主に、深度マップを用いる。そのような深度
マップは、通常、合成された仮想ビュー内でアーティファクトを生成するエラーを示す。
テクスチャと深度マップとの間でエンコードモードを比較することによって、デコーダは
、深度マップに関連付けられた信頼度尺度、例えば、深度及びテクスチャが相関する（値
１）のか又は相関しない（値０）のかを示すバイナリマップを導出することができる。

例えば、信頼度値は、エンコードモードから導出することができる。テクスチャのエン
コードモード及び深度のエンコードモードが異なり、例えば一方がイントラモード（intr
a mode）であり他方がインターモード（inter mode）である場合、これは、テクスチャと
深度とが相関していないことを意味する。したがって、信頼度値は低く、例えば０となる
。

信頼度値は、モーションベクトルに従って配置することもできる。テクスチャ及び深度
が異なるモーションベクトルを有する場合、これは、テクスチャと深度とが相関していな
いことを意味する。したがって、信頼度値は低く、例えば０となる。

信頼度値は、テクスチャ及び深度によって用いられる参照画像に従って配置することも
できる。参照画像が異なる場合、これは、テクスチャと深度とが相関していないことを意
味する。したがって、信頼度値は低く、例えば０でとなる。

その後、そのような信頼度マップを受信する合成モジュールは、その領域が低信頼度値
とマークされているか否かに応じて異なる合成処理を適用することを決定することができ
る。例えば、そのような領域について、その領域のより良い信頼度値を提供する別の参照
ビューを用いて、対応する領域を合成することができる。

図６は、本発明の特定の実施形態による画像処理方法のステップを示している。そのよ
うな処理は、例えば図５に関連して説明されたデコード方法によってデコードされ、再構
成されたビューから、例えば仮想ビュー合成モジュールによって実施される。

ステップＥ６０において、メタデータ（ＭＤ１、ＭＤ２）の少なくとも１つの項目が、
合成モジュールによって読み出される。合成モジュールによって読み出されたメタデータ
は、マルチビュービデオを表すストリームからデコードされたシンタックス要素に対応し
、１つ以上のビューに関連付けられる。これは、デコードされたシンタックス要素からス
トリームをデコードする方法の間に計算された情報にも対応することができる。メタデー
タは、所定の形式で合成モジュールに記憶されるか又は送信され、それにより、適した読
み出しモジュールを有する任意の合成モジュールがこれを読み出すことができる。

ステップＥ６１において、合成モジュールは、入力において、例えば図５に関連して説
明されたデコード方法に従ってマルチビュービデオデコーダによって再構成されたビュー
（ＶＤ１、ＶＤ２）の少なくとも１つの画像を受信する。合成モジュールは、これらの受
信されたビューＶＤ１、ＶＤ２及び読み出されたメタデータＭＤ１、ＭＤ２を用いて、仮
想視点ＶＳ（１＋２）からの少なくとも１つの画像を生成する。特に、メタデータＭＤ１
、ＭＤ２は、合成モジュールによって用いられて、画像の或る特定の領域について用いる
べき合成アルゴリズムが決定されるか、又は、仮想ビューの画像を生成するのに用いるべ
きビューが決定される。

図７は、本発明の別の特定の実施形態によるデコード方法及び画像処理方法のステップ
を示している。

一般に、マルチビュービデオのデコーダは、仮想視点を生成するのに用いられる合成装
置のタイプの知識を有しない。換言すれば、デコーダは、いずれの合成アルゴリズムが用
いられるのかも、いずれのメタデータタイプがデコーダに有用であるのかも知らない。

本明細書において説明される特定の実施形態に応じて、デコーダ及び合成モジュールは
、双方向に交換することが可能であるように適合されている。例えば、合成モジュールは
、合成モジュールがより良い合成を達成するのに必要とするメタデータのリストをデコー
ダに示すことができる。合成モジュールからの要求の前又は後に、デコーダは、合成モジ
ュールに、デコーダが合成モジュールに送信することが可能であるメタデータを通知する
ことができる。有利なことに、デコーダが共有することが可能であるメタデータのリスト
は、標準化され、すなわち、デコード規格に準拠する全てのデコーダがリスト上のメタデ
ータを共有することが可能でなければならない。したがって、所与のデコード規格につい
て、合成モジュールは、いずれのメタデータが利用可能であるかを認識している。メタデ
ータのリストは、デコーダ規格のプロファイルに従って適応することもできる。例えば、
低演算複雑度を必要とするデコーダ向けのプロファイルの場合、メタデータのリストは、
ストリームのデコードされたシンタックス要素のみを含み、一方、より高い演算複雑度を
扱うことが可能であるデコーダ向けのプロファイルの場合、メタデータのリストは、モー
ションマップ、オクルージョンマップ、信頼度マップ等の、ストリームのデコードされた
シンタックス要素からの計算によって得られるメタデータも含むことができる。

ステップＥ７０において、合成モジュールは、デコーダに、仮想視点から画像を生成す
るのに必要なメタデータの少なくとも１つの項目を示す要求を送信する。例えば、クエリ
は、必要なメタデータにそれぞれ対応するインデックス、又はインデックスのリストを含
む。

そのような要求は、所定の形式に従って、すなわち、合成モジュール及びデコーダが互
いに理解することができるように所定のシンタックスに従って送信される。例えば、その
ようなシンタックスは、以下のものとすることができる。
ｎｂ
０～ｎｂ－１の範囲の整数ｉについて、ｌｉｓｔ［ｉ］
ここで、シンタックス要素ｎｂは、合成モジュールによって必要とされるメタデータの数
、ひいては、デコーダによって読み出されるべきインデックスの数を示し、ｌｉｓｔ［ｉ
］は、必要とされるメタデータのそれぞれのインデックスを示す。

一例によれば、上述した表１によって与えられるメタデータの例を取ると、合成モジュ
ールは、要求内で、ｎｂ＝２、及びカメラパラメータ及びオクルージョンマップにそれぞ
れ対応するインデックス０及び９を示すことができる。

一変形形態によれば、合成モジュールは、必要なメタデータの項目のインデックスに関
連付けて、例えばメタデータの項目に関連付けられた「ｇｒｌｅｖｅｌ」シンタックス要
素の所定の値を指定することによって粒度レベルも示すことができる。例えば、オクルー
ジョンマップの場合、合成モジュールは、ピクセルレベルにおいてオクルージョンマップ
を望む場合には、インデックス９に関連付けられた「レベル」要素の値１、又は、より粗
いレベルにおいて、例えばサイズ８×８のブロックのためにオクルージョンマップを望む
場合、インデックス９に関連付けられた「レベル」要素の値２を示すことができる。

ステップＥ７１において、デコーダは、対応するメタデータを取得する。この目的で、
図４又は図５に関連して上記で説明された例に従って、デコーダは、メタデータを取得す
るのに必要なデコードされたシンタックス要素を索出し、オクルージョンマップ等の、再
構成のためにデコーダによって用いられないメタデータを計算する。その後、メタデータ
は、合成モジュールがメタデータを読み出すことができるように、所定の形式に従ってフ
ォーマットされる。

ステップＥ７２において、デコーダは、合成モジュールにメタデータを送信し、その後
、合成モジュールは、自身の合成アルゴリズムにおいてメタデータを用いることができる
。

図８は、本発明の上記で説明した特定の実施形態によるデコード方法を実施するように
適合された装置ＤＥＣを図式的に示している。

そのようなデコード装置は、メモリＭＥＭと、例えばプロセッサＰＲＯＣを備え、メモ
リＭＥＭに記憶されたコンピュータプログラムＰＧによって制御される処理ユニットＵＴ
とを含んで構成される。コンピュータプログラムＰＧは、このプログラムがプロセッサＰ
ＲＯＣによって実行されると、上記で説明したデコード方法のステップを実施する命令を
含む。

本発明の特定の実施形態によれば、デコード装置ＤＥＣは、とりわけ、デコード装置が
通信ネットワークを介してマルチビュービデオを表すデータストリームを受信することを
可能にする通信インタフェースＣＯＭ０を備える。

本発明の別の特定の実施形態によれば、デコード装置ＤＥＣは、デコード装置が合成モ
ジュール等の画像処理装置にメタデータを送信するとともに、データストリームから再構
成されたビューの画像を送信することを可能にする通信インタフェースＣＯＭ１を備える
。

初期化時に、コンピュータプログラムＰＧのコード命令は、例えば、プロセッサＰＲＯ
Ｃによって実行される前にメモリにロードされる。特に、処理ユニットＵＴのプロセッサ
ＰＲＯＣは、コンピュータプログラムＰＧの命令に従って図４、図５及び図７に関連して
説明されたデコード方法のステップを実施する。メモリＭＥＭは、とりわけ、所定の形式
で、デコード方法中に取得されたメタデータを記憶するように適合されている。

本発明の特定の実施形態によれば、上記で説明したデコード装置は、テレビ受像機、移
動電話（例えば、スマートフォン）、セットトップボックス、仮想現実ヘッドセット等の
端末内に含まれる。

図９は、本発明の上記で説明した特定の実施形態による画像処理方法を実施するように
適応された装置ＳＹＮＴＨを図式的に示している。

このような装置は、メモリＭＥＭ９と、例えばプロセッサＰＲＯＣ９を備え、メモリＭ
ＥＭ９に記憶されたコンピュータプログラムＰＧ９によって制御される処理ユニットＵＴ
９とを含んで構成される。コンピュータプログラムＰＧ９は、このプログラムがプロセッ
サＰＲＯＣ９によって実行されると、上記で説明したような画像処理方法のステップを実
施する命令を含む。

本発明の特定の実施形態によれば、装置ＳＹＮＴＨは、装置が、上記で説明された装置
ＤＥＣ等のデコード装置から発信されたメタデータを受信するとともに、装置ＤＥＣによ
ってマルチビュービデオを表すデータストリームから再構成されたビューの画像を受信す
ることを可能にする通信インタフェースＣＯＭ９を備える。

初期化時に、コンピュータプログラムＰＧ９のコード命令は、例えば、プロセッサＰＲ
ＯＣ９によって実行される前にメモリにロードされる。特に、処理ユニットＵＴ９のプロ
セッサＰＲＯＣ９は、コンピュータプログラムＰＧ９の命令に従って図６及び図７に関連
して説明された画像処理方法のステップを実施する。

本発明の特定の実施形態によれば、装置ＳＹＮＴＨは、装置ＳＹＮＴＨがディスプレイ
装置、例えばスクリーンに画像を送信することを可能にする出力インタフェースＡＦＦ９
を備える。例えば、そのような画像は、再構成されたビューの画像及び装置ＤＥＣから受
信されたメタデータを用いて装置ＳＹＮＴＨによって生成される、仮想視点からの画像に
対応することができる。

本発明の特定の実施形態によれば、装置ＳＹＮＴＨは、合成モジュールである。合成モ
ジュールは、テレビ受像機、移動電話（例えば、スマートフォン）、セットトップボック
ス、仮想現実ヘッドセット等の端末内に含まれる。

本発明の原理は、マルチビュービデオデコードシステムの場合において説明され、この
場合では、複数のビューが同じストリーム（ビットストリーム）からデコードされ、メタ
データは、ビューごとに取得される。この原理は、マルチビュービデオが複数のストリー
ム（ビットストリーム）を用いてエンコードされ、ストリームごとに１つのビューがエン
コードされる場合に同様に当てはまる。この場合では、各ビューデコーダは、自身がデコ
ードするビューに関連付けられたメタデータを提供する。

Claims

デコード装置によって実施される、マルチビュービデオを表すデータストリームのデコ
ード方法であって、
前記データストリームの少なくとも１つの部分からシンタックス要素を取得すること（
Ｅ２０）と、
取得された前記シンタックス要素から前記ビデオのビューの少なくとも１つの画像を再
構成すること（Ｅ２１）と、
を含み、該デコード方法は、
少なくとも１つのシンタックス要素から、所定の形式でメタデータの少なくとも１つの
項目を取得すること（Ｅ２３）と、
前記メタデータの少なくとも１つの項目を画像合成モジュールに提供すること（Ｅ２４
）と、
を更に含むことを特徴とする、デコード方法。
メタデータの少なくとも１つの項目を取得することは、前記シンタックス要素の少なく
とも１つの部分から前記メタデータの少なくとも１つの項目を計算することを更に含む、
請求項１に記載のデコード方法。
前記メタデータの少なくとも１つの項目は、前記少なくとも１つの画像を再構成するの
に用いられない、請求項１又は２に記載のデコード方法。
前記メタデータの少なくとも１つの項目は、以下のもの、すなわち、
カメラパラメータ、
デコード及びスケーリングされたモーションベクトル、
前記再構成された画像の分割、
前記再構成されたビューの画像のブロックによって用いられる参照画像、
前記再構成されたビューの画像のコード化モード、
前記再構成されたビューの画像の量子化パラメータ値、
前記再構成されたビューの画像の予測残差値、
前記再構成されたビューの画像内の動きを表すマップ、
前記再構成されたビューの画像内のオクルージョンの存在を表すマップ、
深度マップに関連付けられた信頼度値を表すマップ、
を含むグループ内に含まれる情報の項目に対応する、請求項１～３のいずれか１項に記載
のデコード方法。
前記所定の形式は、メタデータの少なくとも１つの項目がインデックスに関連付けられ
て記憶される、インデックス付き表に対応する、請求項１～４のいずれか１項に記載のデ
コード方法。
前記メタデータの少なくとも１つの項目は、前記デコード装置において指定された粒度
レベルに基づいて取得される、請求項１～５のいずれか１項に記載のデコード方法。
前記デコード装置によって、前記画像合成モジュールによって必要とされるメタデータ
の少なくとも１つの項目を示す要求を該画像合成モジュールから受信することを更に含む
、請求項１～６のいずれか１項に記載のデコード方法。
前記要求は、利用可能なメタデータの所定のリストの中から前記必要とされるメタデー
タの項目を示す少なくとも１つのインデックスを含む、請求項７に記載のデコード方法。
マルチビュービデオを表すデータストリームのデコード装置であって、
該装置は、
前記データストリームの少なくとも１つの部分からシンタックス要素を取得し、
取得された前記シンタックス要素から前記ビデオのビューの少なくとも１つの画像を再
構成する、
ように構成され（ＵＴ、ＭＥＭ、ＣＯＭ１）、
該デコード装置は、
少なくとも１つのシンタックス要素から、所定の形式でメタデータの少なくとも１つの
項目を取得し、
前記メタデータの少なくとも１つの項目を画像合成モジュールに提供する、
ように更に構成されることを特徴とする、デコード装置。
デコード装置によってデコードされたビューの少なくとも１つの画像から、仮想ビュー
の少なくとも１つの画像を生成することを含む画像合成方法であって、該画像合成方法は
、
所定の形式でメタデータの少なくとも１つの項目を読み出すこと（Ｅ６０）であって、
前記メタデータの少なくとも１つの項目は、前記デコード装置によって、マルチビュービ
デオを表すデータストリームから取得された少なくとも１つのシンタックス要素から取得
されることと、
前記メタデータの少なくとも１つの読み出された項目を用いることを含む前記少なくと
も１つの画像を生成すること（Ｅ６１）と、
を含むことを特徴とする、画像合成方法。
前記デコード装置に、前記画像を生成するのに必要とされるメタデータの少なくとも１
つの項目を示す要求を送信することを更に含む、請求項１０に記載の画像合成方法。
デコード装置によってデコードされたビューの少なくとも１つの画像から、仮想ビュー
の少なくとも１つの画像を生成するように構成された画像合成装置であって、該画像合成
装置は、
該画像合成装置が所定の形式でメタデータの少なくとも１つの項目を読み出すように構
成され（ＵＴ９、ＭＥＭ９、ＣＯＭ９）、前記メタデータの少なくとも１つの項目は、前
記デコード装置によって、マルチビュービデオを表すデータストリームから取得された少
なくとも１つのシンタックス要素から取得されること、及び、
前記少なくとも１つの画像が生成されるときに、前記メタデータの少なくとも１つの読
み出された項目が用いられること、
を特徴とする、画像合成装置。
マルチビュービデオを表すデータストリームから該マルチビュービデオを表示する画像
処理システムであって、
請求項９に記載のデコード装置と、
請求項１２に記載の画像合成装置と、
を備える、画像処理システム。
プロセッサによって実行されると、請求項１～８のいずれか１項に記載のデコード方法
を実施するか、又は、請求項１０又は１１に記載の画像合成方法を実施する命令を含むコ
ンピュータプログラム。