JP2024012332A - マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置 - Google Patents

マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置 Download PDF

Info

Publication number
JP2024012332A
JP2024012332A JP2023179221A JP2023179221A JP2024012332A JP 2024012332 A JP2024012332 A JP 2024012332A JP 2023179221 A JP2023179221 A JP 2023179221A JP 2023179221 A JP2023179221 A JP 2023179221A JP 2024012332 A JP2024012332 A JP 2024012332A
Authority
JP
Japan
Prior art keywords
image
metadata
view
item
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023179221A
Other languages
English (en)
Inventor
ジュング,ジョエル
Jung Joel
ニキーチン,パーヴェル
Nikitin Pavel
ボアソナード,パトリック
Boissonade Patrick
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of JP2024012332A publication Critical patent/JP2024012332A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】マルチビュー画像のシーケンスのデコード及び中間ビューの画像の合成の方法及び装置を提供する。【解決手段】デコーダDECによるマルチビュービデオを表すデータストリームのデコード方法は、データストリームの少なくとも1つの部分からシンタックス要素を取得することE20と、取得されたシンタックス要素からマルチビュービデオのビューの少なくとも1つの画像を再構成することE21と、を含み、少なくとも1つのシンタックス要素から、シーン内の少なくとも1つのカメラの位置を表すカメラパラメータに対応する、所定の形式でメタデータの少なくとも1つの項目を取得しE23、メタデータの少なくとも1つの項目を画像合成モジュールに提供しE24、画像合成モジュールは、再構成された少なくとも1つの画像とメタデータの少なくとも1つの項目とから、マルチビュービデオのビューとは異なる少なくとも1つの仮想ビューを合成する。【選択図】図4

Description

本発明は、一般に、3D画像処理の分野に関し、より詳細には、マルチビュー画像のシ
ーケンスのデコード、及び中間ビューの画像の合成に関する。
仮想現実の分野では、フリーナビゲーション(free navigation)により、視認者が、
任意の視点からのシーンを、その視点がカメラによってキャプチャされた視点に対応する
のか又はカメラによってキャプチャされていない視点に対応するのかを問わず、視認する
ことが可能になる。カメラによってキャプチャされていないそのようなビューは、仮想ビ
ュー又は中間ビューとも称され、これはなぜならば、このビューは、カメラによってキャ
プチャされたビューとビューとの間にあり、復元のために合成されなければならないため
である。
シーン内のフリーナビゲーションは、マルチビュービデオを視認するユーザの全ての動
きが正しく管理されるとともに、画像が最適にレンダリングされない場合に視認者が感じ
得る不快感が回避されることを必要とする。
一般に、ユーザの動きは、復元装置、例えば、HMD(ヘッドマウントデバイス)仮想
現実ヘッドセットによって正しく考慮される。
しかしながら、ユーザの動き(回転又は平行移動)にかかわらず、表示のために正しい
ピクセルを提供することは、依然として問題である。実際には、表示すべき画像の計算は
、仮想(すなわち、合成された)ビューの追加の画像を表示するためにいくつかのキャプ
チャされたビューの使用を必要とする。そのような仮想ビューは、カメラによってキャプ
チャされていない視点に対応する。そして、デコードされキャプチャされたビュー及び関
連付けられた深度からそれらを計算することが必要とされる。
したがって、フリーナビゲーション機能を提供するコーデックは、いくつかのビュー及
び関連付けられた深度をエンコードするのに有効であるとともに、仮想ビューの最適なレ
ンダリングを可能にしなければならず、すなわち、合成アルゴリズムを表示に使用するこ
とを必要とする。
マルチビューシーケンスをエンコードするように設計されたマルチビュービデオエンコ
ーダ、例えば、スタンダードMV-HEVC又は3D-HEVC(Series H: Audiovisua
l and multimedia systems - Infrastructure of audio visual services - Coding of m
oving video, High Efficiency Video Coding, Recommendation ITU-T H.265, Internati
onal Telecommunication Union, December 2016)が既知である。
MV-HEVCエンコーダは、非常に基本的なビュー間予測を適用し、一方、3D-H
EVCエンコーダは、いくつかの追加のツールを含むことで、時間冗長性のみではなく、
ビュー間冗長性も利用する。加えて、3D-HEVCは、深度マップを効率的にエンコー
ドするための特定のツールを有する。これらの2つのコーデック、及び特に3D-HEV
Cは、関連する深度を有する複数のビューをエンコードする際に、HEVC規格等の2D
ビデオシーケンスを扱う従来のビデオコーデックと比較して、ビットレートを有効に削減
する。
仮想現実の状況では、カメラによってキャプチャされ、データストリームにエンコード
されているビューをデコードした後、例えばユーザの動きに基づいて仮想ビューを合成す
ることができる。
そのような仮想ビューを合成することについて、例えば、VSRSツール(Wegner, St
ankiewicz, Tanimoto, Domanski, Enhanced view synthesis reference software (VSRS)
for free-viewpoint television, ISO/IEC JTC1/SC29/WG11 m31520, October 2013, Gen
eva, Switzerland)が既知である。
図1は、デコーダDEC(例えば、3D-HEVC)がデータストリームSTRをデコ
ードして、デコードされたビュー(VD1、VD2)を生成する、従来のフリーナビゲー
ションシステムを示している。その場合、そのようなビューが、ビュー合成装置SYNT
H(例えば、VSRS)によって用いられて、合成されたビューVS(1+2)が生成さ
れる。その後、デコードされたビュー及び合成されたビューが、ユーザの動きに従って復
元装置DISPによって表示される。
従来のデコーダDECが図2に示されている。典型的には、そのようなデコーダは、デ
ータストリームSTRの分析(E20)を実行して、デコードすべき関連データを取得し
、その後、デコード処理(E21)を適用して、仮想ビューを生成するのに合成モジュー
ルSYNTHによって後に用いることができるデコードされたビュー(VD1、VD2)
を再構成する。
したがって、データストリームからビューをデコードする処理と、仮想ビューを合成す
る処理とは相関しないように思われる。特に、合成処理は、デコーダが関与しない困難な
タスクである。デコーダは、単に、データストリームから再構成されたデコードされたビ
ューを、合成モジュールにとって利用可能にする。
仮想現実アプリケーションが直面する技術的問題は、エンコーダ及びデコーダが、特に
フリーナビゲーションの場合において、ユーザによって要求される最終的な視点の事前知
識を有しないということである。マルチビュービデオエンコーダ及びデコーダは、更には
、仮想ビューを合成するのに最終的に用いられる合成処理の知識も有しない。実際には、
仮想ビューを合成するのに用いられる合成方法は、マルチビュービデオデコーダとは異な
り、現在標準化されておらず、それにより、仮想現実アプリケーションによって用いられ
る合成方法は、独自のツールであり続けている。
したがって、合成された仮想ビューの品質は、そのようなアプリケーションによって用
いられる合成ツール及び合成アルゴリズムに依存する。一般に、そのような品質は、用い
られる合成ツールの複雑度と、これらの合成ツールを実装する装置のリソースとに依存す
る。
仮想現実アプリケーション、及びより詳細にはフリーナビゲーションを用いる仮想現実
アプリケーションは、リアルタイムでなければならない。仮想ビュー合成モジュールは、
一般的に、特にキャプチャ及びデコードされるビューの数が不十分である場合、デコード
及び再構成されるキャプチャされるビューが高ビジュアル品質であっても、中程度の品質
の仮想ビューを提供する。
本発明は、現行技術水準を改善する。
本発明は、デコード装置によって実施される、マルチビュービデオを表すデータストリ
ームをデコードする方法であって、データストリームの少なくとも1つの部分からシンタ
ックス要素を取得することと、取得されたシンタックス要素からビデオのビューの少なく
とも1つの画像を再構成することとを含む、デコード方法に関する。有利なことに、この
デコード方法は、少なくとも1つのシンタックス要素から、所定の形式でメタデータの少
なくとも1つの項目を取得することと、メタデータの少なくとも1つの項目を画像処理モ
ジュールに提供することとを更に含む。
したがって、そのようなデコード方法は、画像処理モジュール、例えばデコーダの外部
の合成モジュールに、ビデオストリームのデータを表し、画像処理モジュールによって用
いることができるメタデータを提供することを可能にする。したがって、画像処理モジュ
ール内で実施される処理は、複雑度が低くなる。例えば、仮想ビュー合成モジュールの場
合では、合成アルゴリズムによって用いられるとともにデコーダから利用可能であるデー
タの一部を再計算することは必要ではない。その上、本発明は、画像処理モジュールが、
単独で計算することが可能でないデータにアクセスし、そのデータを用いて自身の動作を
改善することも可能にする。例えば、仮想ビュー合成モジュールの場合では、デコーダは
、合成モジュールにオクルージョンマップを提供することができ、そのようなオクルージ
ョンは、合成モジュールによって、ビデオのビューの再構成された画像のみから決定する
ことが困難である。
したがって、画像処理モジュール内で実施される処理を改善することができる。これは
、なぜならば、デコーダレベルにおいて利用可能であるデータを取得する演算複雑度が削
減されるためであり、したがって、より複雑な、それゆえより強力な画像処理アルゴリズ
ムを、画像処理モジュール内でより容易に実施することができる。
仮想ビュー合成モジュールの場合では、仮想ビューの品質はこのように改善される。こ
れにより、ビュー間のよりスムーズな遷移を提供することによって、マルチビュービデオ
におけるユーザのフリーナビゲーションも向上する。その上、仮想ビューの合成を改善す
ることにより、シーンをキャプチャするのに必要なカメラの数も削減される。
所定のフォーマットでメタデータを提供することにより、デコーダと画像処理モジュー
ルとの間の通信が容易になる。例えば、メタデータは、インデックス付けされるとともに
標準化された表の形式で提供される。したがって、画像処理モジュールは、表内のインデ
ックスごとに、いずれのメタデータがこのインデックスにおいて記憶されているのかを知
る。
ビデオデータ通信にメタデータを用いることが既知である。例えば、H.264/AV
C規格で導入されたSEI(補助強化情報:Supplemental Enhancement Information)メ
ッセージは、デコーダレベルにおいて実施される任意選択の処理動作に関するデータであ
る。SEIメッセージは、ビデオデータビットストリームを介してデコーダに送信される
。しかしながら、そのようなSEIメッセージデータは、エンコーダレベルにおいて作成
されるとともに、デコーダによってのみ用いられ、任意選択で、デコード及び再構成され
たビューの品質が改善する。
本発明の特定の実施形態によれば、メタデータの少なくとも1つの項目を取得すること
は、シンタックス要素の少なくとも1つの部分から上記メタデータの少なくとも1つの項
目を計算することを更に含む。
本発明のそのような特定の実施形態は、例えば、ビューを再構成するのにデコーダによ
って用いられない情報、例えば深度情報のために計算される信頼度値、又は、別の形式で
デコーダによって用いられる情報、例えば画像を再構成するときに用いられる粒度よりも
粗い粒度を有するモーション情報に対応する、新たなメタデータを計算することを可能に
する。
本発明の別の特定の実施形態によれば、上記メタデータの少なくとも1つの項目は、少
なくとも1つの画像を再構成するのに用いられない。
本発明の別の特定の実施形態によれば、上記メタデータの少なくとも1つの項目は、以
下のもの、すなわち、
-カメラパラメータ、
-デコード及びスケーリングされたモーションベクトル、
-再構成された画像の分割、
-再構成されたビューの画像のブロックによって用いられる参照画像、
-再構成されたビューの画像のコード化モード、
-再構成されたビューの画像の量子化パラメータ値、
-再構成されたビューの画像の予測残差値、
-再構成されたビューの画像内の動きを表すマップ、
-再構成されたビューの画像内のオクルージョンの存在を表すマップ、
-深度マップに関連付けられた信頼度値を表すマップ、
を含むグループ内に含まれる情報の1つの項目に対応する。
本発明の別の特定の実施形態によれば、所定の形式は、メタデータの少なくとも1つの
項目がインデックスに関連付けられて記憶される、インデックス付き表に対応する。
本発明の別の特定の実施形態によれば、上記メタデータの少なくとも1つの項目は、デ
コード装置において指定された粒度レベルに基づいて取得される。
本発明のこの特定の実施形態によれば、シンタックス要素から生成されるメタデータを
、異なる粒度レベルにおいて取得することができる。例えば、モーション情報の場合、デ
コーダにおいて用いられる(すなわち、デコーダによって用いられるような)粒度、又は
(例えば、サイズ64×64のブロックごとに1つのモーションベクトルを提供すること
によって)より粗い粒度を有するモーションベクトルを提供することができる。
本発明の別の特定の実施形態によれば、デコード方法は、デコード装置によって、画像
処理モジュールによって必要とされるメタデータの少なくとも1つの項目を示す要求をこ
の画像処理モジュールから受信することを更に含む。本発明のこの特定の実施形態によれ
ば、画像処理モジュールは、デコーダに、画像処理モジュールが必要とする情報を示す。
したがって、デコーダは、必要なメタデータのみを画像処理モジュールにとって利用可能
にすることができ、これにより、デコーダにおける複雑度及びメモリリソースの使用が限
られたものとなる。
本発明の別の特定の実施形態によれば、要求は、利用可能なメタデータの所定のリスト
の中の必要なメタデータの項目を示す少なくとも1つのインデックスを含む。
本発明はまた、上記で定義された特定の実施形態のうちのいずれか1つによるデコード
方法を実施するように構成されたデコード装置に関する。当然、このデコード装置は、本
発明によるデコード装置に関する異なる特徴を含むことができる。したがって、このデコ
ード装置の特徴及び利点は、デコード方法の特徴及び利点と同じであり、更には詳述され
ない。
本発明の特定の実施形態によれば、そのようなデコード装置は、端末、又はサーバ内に
含まれる。
本発明は、デコード装置によってデコードされたビューの少なくとも1つの画像から、
仮想ビューの少なくとも1つの画像を生成することを含む画像合成方法にも関する。本発
明によれば、そのような画像処理方法は、所定の形式でメタデータの少なくとも1つの項
目を読み出すことも含み、上記メタデータの少なくとも1つの項目は、デコード装置によ
って、マルチビュービデオを表すデータストリームから取得された少なくとも1つのシン
タックス要素から取得され、上記少なくとも1つの画像は、上記メタデータの少なくとも
1つの読み出された項目を用いて生成される。
したがって、画像合成方法は、デコーダが利用可能なメタデータを利用して、マルチビ
ュービデオの仮想ビューの画像を生成する。そのようなメタデータは、画像処理装置がア
クセスを有しないデータ、又は、再計算することが可能であるデータに対応することがで
きるが、演算が非常に複雑になる。
ここでの仮想ビューとは、画像のシーケンスがシーン取得システムのカメラによってキ
ャプチャされていないシーンの新たな視点からのビューを意味する。
本発明の特定の実施形態によれば、画像合成方法は、デコード装置に、画像を生成する
のに必要なメタデータの少なくとも1つの項目を示す要求を送信することを更に含む。
本発明はまた、上記で定義された特定の実施形態のうちのいずれか1つによる画像処理
方法を実施するように構成された画像処理装置に関する。当然、この画像処理装置は、本
発明による画像処理方法に関する異なる特徴を含むことができる。したがって、この画像
処理装置の特徴及び利点は、画像処理方法の特徴及び利点と同じであり、更には詳述され
ない。
本発明の特定の実施形態によれば、そのような画像処理装置は、端末、又はサーバ内に
含まれる。
本発明はまた、マルチビュービデオを表すデータストリームからマルチビュービデオを
表示する画像処理システムであって、上記の実施形態のうちのいずれか1つによるデコー
ド装置と、上記の実施形態のうちのいずれか1つによる画像処理装置とを備える、画像処
理システムに関する。
本発明による、デコード方法、それぞれの画像処理方法は、種々の方法、とりわけ、配
線形式又はソフトウェア形式で実施することができる。本発明の特定の実施形態によれば
、デコード方法、それぞれの画像処理方法は、コンピュータプログラムによって実施され
る。本発明はまた、プロセッサによって実行されると、前述した特定の実施形態のうちの
いずれか1つによるデコード方法又は画像処理方法を実施する命令を含むコンピュータプ
ログラムに関する。そのようなプログラムは、任意のプログラミング言語を用いることが
できる。プログラムは、通信ネットワークからダウンロードし、及び/又はコンピュータ
可読媒体上に記録することができる。
このプログラムは、任意のプログラミング言語を用いることができ、ソースコード、オ
ブジェクトコード、ソースコードとオブジェクトコードとの間の中間コード、例えば、部
分的にコンパイルされた形式、又は他の任意の所望の形式のものとすることができる。
本発明は、上述されたコンピュータプログラムの命令を含むコンピュータ可読記憶媒体
又はデータ媒体にも関する。上述された記録媒体は、プログラムを記憶することが可能で
ある任意のエンティティ又は装置とすることができる。例えば、媒体は、記憶手段、例え
ばROM、例えばCD-ROM若しくはマイクロ電子回路ROM、USBフラッシュドラ
イブ、又は磁気記録手段、例えばハードドライブを含むことができる。他方、記録媒体は
、無線又は他の手段によって電気ケーブル又は光ケーブルを介して伝送することができる
、電気信号又は光学信号等の伝送可能媒体に対応することができる。本発明によるプログ
ラムは、特にインターネット型のネットワーク上でダウンロードすることができる。
代替的に、記録媒体は、プログラムが埋め込まれる集積回路に対応することができ、こ
の回路は、当該方法を実行するか又は当該方法の実行に用いられるように適応される。
本発明の他の特徴及び利点は、添付の図面を参照しながら、単なる例示であり非限定的
な例として提供される以下の特定の実施形態の説明を読めばより明らかになるであろう。
従来技術による、マルチビュービデオ内のフリーナビゲーションのためのシステムを図式的に示す図である。 従来技術による、マルチビュービデオを表すデータストリームのデコーダを図式的に示す図である。 本発明の特定の実施形態による、マルチビュービデオ内のフリーナビゲーションのためのシステムを図式的に示す図である。 本発明の特定の実施形態による、マルチビュービデオを表すデータストリームをデコードする方法のステップを示す図である。 本発明の特定の実施形態による、マルチビュービデオを表すデータストリームのデコーダを図式的に示す図である。 本発明の特定の実施形態による画像処理方法のステップを示す図である。 本発明の別の特定の実施形態によるデコード方法及び画像処理方法のステップを示す図である。 本発明の特定の実施形態によるデコード方法を実施するように適応された装置を図式的に示す図である。 本発明の特定の実施形態による画像処理方法を実施するように適応された装置を図式的に示す図である。 マルチビューキャプチャシステムのビューの配置構成を示す図である。
本発明は、マルチビュービデオを表すデータストリームのデコード処理を変更すること
に基づいており、それにより、デコード処理によって再構成されたビューに基づく画像処
理プロセスが容易になる。例えば、画像処理プロセスは、仮想ビューを合成する処理に対
応する。このために、デコーダは、データストリームから再構成されたビューの画像のみ
ではなく、そのような画像に関連付けられたメタデータも提供し、メタデータは、その後
、仮想ビューの合成のために用いることができる。有利なことに、そのようなメタデータ
はフォーマットされており、すなわち、デコーダと合成装置との間の相互運用性を容易に
する所定の形式にされている。したがって、仮想ビューを合成するのに、所定の形式にお
けるメタデータを読み出すように構成された任意の合成装置を用いることができる。
図3は、本発明の特定の実施形態による、マルチビュービデオ内のフリーナビゲーショ
ンのためのシステムを図式的に示している。図3におけるシステムは、図1に関連して説
明されたシステムと同様に動作するが、デコーダDECが、出力において、再構成された
ビューVD1及びVD2の画像に加えて、メタデータMD1、MD2を提供するという差
を有する。そのようなメタデータMD1、MD2は、合成装置への入力において提供され
、次に、合成装置は、例えば再構成されたビューVD1、VD2から、仮想ビューVS(
1+2)を生成する。そして、デコーダDEC及び合成装置SYNTHは、本発明による
画像処理システムを形成する。デコーダDEC及び合成装置SYNTHは、同じ装置内に
含めることもできるし、互いに通信することが可能な2つの別個の装置内に含めることも
できる。
例えば、非限定的及び非網羅的に、そのようなメタデータは、以下のものに対応するこ
とができる。
-デコーダによって再構成されたビューのカメラパラメータ、
-デコーダによって再構成された画像のデコード及びスケーリングされたモーションベ
クトル、
-再構成された画像の分割、
-再構成された画像のブロックによって用いられる参照画像の表示、
-再構成された画像のコード化モード、
-再構成された画像の量子化パラメータ値、
-再構成された画像の予測残差値。
そのような情報は、デコーダによって用いられるものとして提供することができる。代
替的に、そのような情報は、デコーダによって、例えば、デコーダによって使用される粒
度よりも細かい粒度又は粗い粒度を提供するように処理することができる。
メタデータはデコーダによって計算及び共有することもでき、例えば、以下のものがあ
る。
-再構成されたビューの一画像、又は画像のグループ内の全体モーションを表すマップ
。例えば、そのようなマップは、画像、又は画像のグループのモーションベクトルを閾値
処理することによって得られるバイナリマップとすることができる。
-再構成されたビューの画像内のオクルージョンの存在を表すマップ。例えば、そのよ
うなマップは、ビュー間予測の場合において各ピクセルの予測残差に含まれる情報のレベ
ルを考慮することによって得られるバイナリマップとすることができ、又は、オクルージ
ョンの可能なロケーションの情報を、画像の視差ベクトル又はエッジマップから導出する
ことができる。
-深度マップに関連付けられた信頼度値を表すマップ。例えば、そのようなマップは、
テクスチャのコード化モードと対応する深度のコード化モードとを比較することによって
デコーダによって計算することができる。
出力メタデータのうちの一部は、単一のビューに関するデータとすることができる。そ
の場合、この出力メタデータは、そのビューに固有のものである。他のメタデータは、2
つ以上のビューから得ることができる。この場合では、メタデータは、ビュー同士の間の
差又は相関関係(カメラパラメータ、オクルージョンマップ、デコードモードにおける差
等)を表す。
図4は、本発明の特定の実施形態による、マルチビュービデオを表すデータストリーム
をデコードする方法のステップを示している。
データストリームSTRが、例えばビットストリームとして、デコーダDECの入力に
おいて供給される。データストリームSTRは、例えば、フレーム同士の間の冗長性を用
いるマルチビュービデオのエンコードに適応された従来技術によるビデオエンコーダによ
って、又は、マルチビュービデオの各ビューに個別に適用された単一ビュービデオエンコ
ーダによって、エンコードされたマルチビュービデオのデータを含む。
ステップE20において、デコーダDECは、デコードされたシンタックス要素が提供
されるデータストリームの少なくとも1つの部分をデコードする。そのようなデコードE
20は、例えば、再構成されるビュー、例えばユーザによって視認されるビューの現在の
画像を再構成するのに必要なシンタックス要素を抽出するために、データストリームのパ
ス、及びビットストリームのエントロピーのデコードに対応する。そのようなシンタック
ス要素は、例えば、現在の画像のブロックのコード化モード、画像間予測又はビュー間予
測の場合におけるモーションベクトル、予測残差の量子化係数等に対応する。
従来的に、ステップE21の間に、再構成されるビュー(VD1、VD2)の現在の画
像は、デコードされたシンタックス要素、及び場合によっては、そのビュー又は他の以前
に再構成されたビューの画像から再構成される。現在の画像のそのような再構成は、現在
の画像をエンコードするためにエンコーダレベルにおいて用いられるコード化モード及び
予測技法に従って実施される。
再構成されたビューの画像は、画像処理モジュールSYNTHの入力において提供され
る。
ステップE23において、メタデータの少なくとも1つの項目は、少なくとも1つのデ
コードされたシンタックス要素から得られる。メタデータのそのような項目は、所定の形
式でフォーマットされる。そのような所定の形式は、例えば、データが送信されるか又は
メモリに記憶されるように構成される特定のシンタックスに対応する。マルチビュービデ
オデコーダが特定の規格に準拠したデコーダである場合、メタデータのシンタックスは、
例えば、その特定の規格、又は特定のデコード規格に関連付けられた規格において記載さ
れているものとすることができる。
本発明の特定の実施形態によれば、所定の形式は、メタデータの少なくとも1つの項目
がインデックスに関連付けられて記憶されるインデックス付けされた表に対応する。この
特定の実施形態によれば、各メタデータタイプは、インデックスに関連付けられる。その
ような表の一例が、以下の表1において示されている。
メタデータの各項目は、そのインデックスに関連付けられ、メタデータタイプに従った
適切なフォーマットで記憶される。
例えば、ビューのカメラパラメータは、それぞれ、例えばシーン内のカメラの位置に対
応する3D座標系内の点の座標に対応する位置情報と、例えば3D座標系内の3つの角度
の値によって定義される方位情報と、被写界深度とを含むデータの3つ組(triplet)と
して記憶される。
別の例によれば、モーションベクトルは、対応する再構成された画像のブロックごとに
、対応するモーションベクトルの値を含む表の形式で記憶される。
以下で示されるメタデータ表は、非限定的な例にすぎない。メタデータは、他の所定の
形式で記憶することができる。例えば、1つのメタデータタイプのみが可能である場合、
インデックスをそのメタデータタイプに関連付けることは必要ではない。
本発明の特定の実施形態によれば、ステップE22において、メタデータの少なくとも
1つの項目は、取得ステップE23の前に、デコードされたシンタックス要素の少なくと
も1つの部分から計算される。
したがって、本発明のそのような特定の実施形態により、再構成されるビューの現在の
画像を再構成するのには用いられないが、再構成された現在の画像から仮想ビューを合成
するのに用いることができるメタデータ、例えばオクルージョンマップを取得することが
可能になる。
本発明のそのような特定の実施形態により、現在の画像を再構成するのに用いられる粒
度とは異なる粒度を有するメタデータを取得することも可能になる。例えば、モーション
ベクトルは、例えば画像全体上で64×64ピクセルのサイズのブロックの場合、64×
64の当該ブロック内に含まれる現在の画像の全てのサブブロックの再構成されたモーシ
ョンベクトルから、より粗く計算することができる。例えば、64×64のブロックごと
に、モーションベクトルは、サブブロックのモーションベクトルの、最小値若しくは最大
値、平均値若しくは中央値、又は他の任意の関数を選択することによって計算される。
ステップE24において、ステップE23において取得されたメタデータMD1、MD
2は、デコーダDECの外部の画像処理モジュールSYNTH、例えば仮想ビュー合成モ
ジュールに提供される。デコーダの外部のモジュールとは、データストリームをデコード
するためにも、デコーダによって再構成されたビューを表示するためにもその動作が必須
ではないモジュールを意味する。
例えば、メタデータは、画像処理モジュールがアクセス可能なメモリに記憶される。別
の例によれば、メタデータは、デコーダと画像処理モジュールとが同じ装置内に統合され
る場合にはデータ送信バス等のコネクションリンクを介して画像処理モジュールに送信さ
れ、又は、デコーダと画像処理モジュールとが別個の装置内で統合される場合にはケーブ
ル若しくはワイヤレスコネクションを介して画像処理モジュールに送信される。
図5は、本発明の特定の実施形態による、マルチビュービデオを表すデータストリーム
のデコーダを図式的に示している。
従来的に、データストリームSTRから再構成されるビューのデコードは、以下のよう
に実施される。再構成されるビューのデコードは、画像単位で、及び各画像についてブロ
ック単位で、行われる。再構成されるブロックごとに、そのブロックに対応する要素がエ
ントロピーのデコードモジュールDによってデータストリームSTRからデコードされ、
デコードされたシンタックス要素SE(テクスチャのエンコードモード、モーションベク
トル、視差ベクトル、深度のエンコードモード、参照画像インデックス、...)及び量
子化係数coeffのセットが提供される。
量子化係数coeffは、逆量子化モジュール(Q-1)に、そしてその後、逆変換モ
ジュール(T-1)に送信されて、ブロックの予測残差値resrecが提供される。デ
コードされたシンタックス要素(SE)は、予測モジュール(P)に送信されて、以前に
再構成された画像Iref(現在の画像の1つの部分、又は以前に再構成されたビューの
参照画像、又は別の以前に再構成されたビューの参照画像)も用いて予測ブロックpre
dが計算される。その後、現在のブロックは、予測predを、ブロックの予測残差re
recに加算することによって再構成される(Brec)。その後、再構成されたブロ
ック(Brec)は、現在の画像又は別の画像又は別のビューを再構成するのに後に用い
られるように、メモリMEMに記憶される。
本発明によれば、エントロピーのデコードモジュールの出力において、ブロックのデコ
ードされたシンタックス要素SE及び任意選択の量子化係数は、デコードされたシンタッ
クス要素SE及び任意選択の量子化係数の少なくとも1つの部分を選択し、それらを所定
の形式で記憶するように構成されたモジュールFORMに送信されて、再構成された画像
、又は画像のグループに関するメタデータMDが提供される。
フォーマットされるデコードされたシンタックス要素SEの選択は、例えば、デコーダ
の動作を記述している規格内で明記されているように、固定することができる。代替的に
、異なるタイプの選択を固定的に、例えばデコーダプロファイルを介して定義することが
でき、デコーダのパラメータ化は、フォーマットモジュールFORMが対応するシンタッ
クス要素を選択するように、これを構成することができる。更に別の変形形態によれば、
デコーダは、このデコーダがメタデータを提供する画像処理モジュールと交換を行うこと
が可能である。この場合、画像処理モジュールは、デコーダに、画像処理モジュールが受
信することを望むメタデータのタイプを明示的に示し、デコーダのモジュールFORMは
、要求されたデコードされたシンタックス要素のみを選択する。
デコーダによって用いられる粒度レベルと異なる粒度レベルにおいてメタデータを提供
することができる場合、そのような粒度レベルは、デコーダの動作を記述している規格に
おいて、又はデコーダプロファイルを介して固定的に定義することができる。画像処理モ
ジュールがメタデータを取得するためにデコーダと通信する場合、画像処理モジュールは
、この画像処理モジュールがメタデータの一部を受信する際に望む粒度レベルをデコーダ
に明示的に示すことができる。
本発明の特定の実施形態によれば、エントロピーのデコードモジュールの出力における
デコードされたシンタックス要素SE及び任意選択の量子化係数は、シンタックス要素S
E及び/又は量子化係数からメタデータを計算するように構成されたモジュールCALC
に送信される。前述したように、計算されるメタデータは、デコーダの動作を記述してい
る規格において、もしくは異なるプロファイル又はそれ以外に従って明示的に定義するこ
ともできるし、対象とされる画像処理モジュールとの交換から決定することもできる。
本発明の特定の実施形態によれば、モジュールFORMは、特に、再構成されるビュー
のカメラパラメータを選択する。
新たな視点を合成するために、合成モジュールは、元の(再構成された)ビューの各ピ
クセルが仮想ビューに投射される方法を記述しているモデルを作成しなければならない。
大半の合成装置、例えば、DIBR(深度画像ベースレンダリング)技法に基づく合成装
置は、再構成されたビューのピクセルを3D空間に投射するのに深度情報を用いる。その
後、3D空間内の対応する点は、上記新たな視点からカメラ平面に投射される。
3D空間内の画像点のそのような投射は、次の式、すなわち、M=K.RT.M’を用
いてモデル化することができ、ここで、Mは、3D空間内の点の座標行列であり、Kは、
仮想カメラの内部パラメータ(intrinsic parameters)の行列であり、RTは、仮想カメ
ラの外部パラメータ(extrinsic parameters)(3D空間内のカメラ位置及び方向)の行
列であり、M’は、現在の画像のピクセル行列である。
カメラパラメータが合成モジュールに送信されない場合、合成モジュールは、高複雑度
及び正確性を犠牲にして、それらのカメラパラメータを計算しなければならず、計算は、
リアルタイムに行うことができないか、又は、外部センサによって取得しなければならな
い。それゆえ、デコーダによってこれらのパラメータを提供することにより、合成モジュ
ールの複雑度を制限することが可能になる。
本発明の別の特定の実施形態によれば、モジュールFORMは、特に、現在の画像を再
構成するのに用いられる参照画像に関するシンタックス要素を選択する。
仮想ビューを生成するために、合成モジュールが、以前に再構成された利用可能な種々
のビューの画像の中から参照画像を選択する可能性がある場合、合成モジュールは、合成
のために用いられるビューをコード化するときにいずれの参照ビューが用いられたのかを
知ることから利益を得ることができる。例えば、図10は、16個のカメラを含むマルチ
ビューキャプチャシステムのビューの配置構成を示している。各フレームの間の矢印は、
ビューのデコード順序を示している。合成モジュールがビューV6とビューV10との間
に置かれた視点(図10において×印によって表されている)についての仮想ビューVV
を生成しなければならない場合、従来的には、合成モジュールは、最良の仮想ビューを構
成するために、各ビューの可用性をチェックしなければならない。
本明細書において説明される特定の実施形態によれば、或るビューについて、そのビュ
ーを再構成するのに用いられる参照ビューを示すメタデータを有する場合、合成モジュー
ルは、仮想ビューを生成するのにいずれの画像を用いるべきかを決定するために、仮想視
点に最も近い利用可能なビュー(図10の場合ではビューV6)のみを選択することがで
きる。例えば、ビューV6のブロックが参照画像としてビューV7の画像を用いる場合、
合成モジュールは、ビューV6によって用いられるので利用可能である必要があるビュー
V7を用いることを決定することもできる。したがって、そのような実施形態は、合成中
の各ビューの可用性をチェックする必要性を回避することによって、合成モジュールの複
雑度を低減する。
本発明の別の特定の実施形態によれば、モジュールCALCは、特に、モーションマッ
プを生成するためにモーションベクトルに関するシンタックス要素を選択する。
動きがほとんどない領域では、仮想ビュー合成は、一般的に、深度マップの不正確性に
起因して、時間的コヒーレンスの欠如を示す。これらのインコヒーレンスは、仮想視点か
らの視覚化にとって非常に妨げとなる。
この特定の実施形態では、デコーダのモジュールCALCは、デコード及び再構成され
たモーションベクトル、すなわち、モーションベクトルの逆予測及びモーションベクトル
の拡縮の後のモーションベクトルを選択する。モジュールCALCは、モーションマップ
、典型的にはバイナリマップを生成するために各ブロックの再構成されたモーションベク
トルの閾値処理を実行し、バイナリマップでは、各要素が値0又は1を取り、その領域が
局所的にモーションを有するか否かを示す。バイナリマップは、例えば、数理形態学(例
えば、収縮(erosion)、膨張(expansion)、オープニング(opening)、クロージング
(closing))を用いることによって改善することができる。
その後、モーションバイナリマップは、所望の粒度(ピクセルレベルマップ、ブロック
レベルマップ若しくはサブブロックレベルマップ、又は画像内の特定のブロックサイズに
ついて定義されたマップ等)に応じてフォーマットされ、モーションがビュー内に存在す
るか否かを示すことができる。
その後、そのようなモーションマップを受信する合成モジュールは、例えば、或る領域
がモーションを有するものとマーキングされるか否かに応じて異なる合成処理を適用する
ことによって、自身の動作を適応することができる。例えば、時間的インコヒーレンスの
問題を解決するために、従来の合成処理は、固定(モーションレス)領域内で無効化され
るとともに、単に、以前の画像のピクセルの値を引き継ぐことができる。
当然ながら、合成モジュールは、他の手段を用いて、例えば、エンコーダとしてモーシ
ョンを推定することによって、単独でモーションマップを生成することができる。しかし
ながら、そのような動作は、合成アルゴリズムの複雑度、及び、結果として得られるモー
ションの精度に著しい影響を与える。なぜならば、エンコーダは、デコーダの出力におい
てもはや利用可能でないコード化されていない画像からモーションを推定するためである
図10において示される例及び前述された実施形態では、最も近い利用可能なビューを
用いることのみではなく、仮想視点の近傍の参照ビューを平均化することによっても、有
効な参照ビューを計算することができる。例えば、参照ビューV6、V7、V10及びV
11は、デコーダのモジュールCALCによって平均化することができ、結果として得ら
れる平均ビューは合成モジュールに送信することができる。
別の変形形態では、デコーダのモジュールCALCは、オクルージョンマップを計算す
ることができ、ここで、オクルージョンマップは、画像のピクセル又はブロックごとに、
領域がオクルージョン領域に対応するか否かを示す。例えば、モジュールCALCは、領
域を再構成するのにデコーダによって用いられる参照画像(複数の場合もある)の情報を
用いることによって、領域がオクルージョン領域に対応するか否かを決定することができ
る。例えば、図10の場合では、ビューV6の画像内のブロックの大半が時間予測を用い
るとともにビューV6の画像内のいくつかのブロックがビュー間予測、例えば、ビューV
2に対するビュー間予測を用いる場合、これらのブロックは、オクルージョン領域に対応
する可能性が高い。
その後、そのようなオクルージョンマップを受信する合成モジュールは、領域がオクル
ージョン領域とマークされるか否かに応じて異なる合成処理を適用することを決定するこ
とができる。
本発明の別の特定の実施形態によれば、モジュールCALCは、特に、それぞれ再構成
された画像のテクスチャ及び画像の深度マップに関連付けられたコード化モードを選択す
る。
従来技術によれば、合成アルゴリズムは、主に、深度マップを用いる。そのような深度
マップは、通常、合成された仮想ビュー内でアーティファクトを生成するエラーを示す。
テクスチャと深度マップとの間でエンコードモードを比較することによって、デコーダは
、深度マップに関連付けられた信頼度尺度、例えば、深度及びテクスチャが相関する(値
1)のか又は相関しない(値0)のかを示すバイナリマップを導出することができる。
例えば、信頼度値は、エンコードモードから導出することができる。テクスチャのエン
コードモード及び深度のエンコードモードが異なり、例えば一方がイントラモード(intr
a mode)であり他方がインターモード(inter mode)である場合、これは、テクスチャと
深度とが相関していないことを意味する。したがって、信頼度値は低く、例えば0となる
信頼度値は、モーションベクトルに従って配置することもできる。テクスチャ及び深度
が異なるモーションベクトルを有する場合、これは、テクスチャと深度とが相関していな
いことを意味する。したがって、信頼度値は低く、例えば0となる。
信頼度値は、テクスチャ及び深度によって用いられる参照画像に従って配置することも
できる。参照画像が異なる場合、これは、テクスチャと深度とが相関していないことを意
味する。したがって、信頼度値は低く、例えば0でとなる。
その後、そのような信頼度マップを受信する合成モジュールは、その領域が低信頼度値
とマークされているか否かに応じて異なる合成処理を適用することを決定することができ
る。例えば、そのような領域について、その領域のより良い信頼度値を提供する別の参照
ビューを用いて、対応する領域を合成することができる。
図6は、本発明の特定の実施形態による画像処理方法のステップを示している。そのよ
うな処理は、例えば図5に関連して説明されたデコード方法によってデコードされ、再構
成されたビューから、例えば仮想ビュー合成モジュールによって実施される。
ステップE60において、メタデータ(MD1、MD2)の少なくとも1つの項目が、
合成モジュールによって読み出される。合成モジュールによって読み出されたメタデータ
は、マルチビュービデオを表すストリームからデコードされたシンタックス要素に対応し
、1つ以上のビューに関連付けられる。これは、デコードされたシンタックス要素からス
トリームをデコードする方法の間に計算された情報にも対応することができる。メタデー
タは、所定の形式で合成モジュールに記憶されるか又は送信され、それにより、適した読
み出しモジュールを有する任意の合成モジュールがこれを読み出すことができる。
ステップE61において、合成モジュールは、入力において、例えば図5に関連して説
明されたデコード方法に従ってマルチビュービデオデコーダによって再構成されたビュー
(VD1、VD2)の少なくとも1つの画像を受信する。合成モジュールは、これらの受
信されたビューVD1、VD2及び読み出されたメタデータMD1、MD2を用いて、仮
想視点VS(1+2)からの少なくとも1つの画像を生成する。特に、メタデータMD1
、MD2は、合成モジュールによって用いられて、画像の或る特定の領域について用いる
べき合成アルゴリズムが決定されるか、又は、仮想ビューの画像を生成するのに用いるべ
きビューが決定される。
図7は、本発明の別の特定の実施形態によるデコード方法及び画像処理方法のステップ
を示している。
一般に、マルチビュービデオのデコーダは、仮想視点を生成するのに用いられる合成装
置のタイプの知識を有しない。換言すれば、デコーダは、いずれの合成アルゴリズムが用
いられるのかも、いずれのメタデータタイプがデコーダに有用であるのかも知らない。
本明細書において説明される特定の実施形態に応じて、デコーダ及び合成モジュールは
、双方向に交換することが可能であるように適合されている。例えば、合成モジュールは
、合成モジュールがより良い合成を達成するのに必要とするメタデータのリストをデコー
ダに示すことができる。合成モジュールからの要求の前又は後に、デコーダは、合成モジ
ュールに、デコーダが合成モジュールに送信することが可能であるメタデータを通知する
ことができる。有利なことに、デコーダが共有することが可能であるメタデータのリスト
は、標準化され、すなわち、デコード規格に準拠する全てのデコーダがリスト上のメタデ
ータを共有することが可能でなければならない。したがって、所与のデコード規格につい
て、合成モジュールは、いずれのメタデータが利用可能であるかを認識している。メタデ
ータのリストは、デコーダ規格のプロファイルに従って適応することもできる。例えば、
低演算複雑度を必要とするデコーダ向けのプロファイルの場合、メタデータのリストは、
ストリームのデコードされたシンタックス要素のみを含み、一方、より高い演算複雑度を
扱うことが可能であるデコーダ向けのプロファイルの場合、メタデータのリストは、モー
ションマップ、オクルージョンマップ、信頼度マップ等の、ストリームのデコードされた
シンタックス要素からの計算によって得られるメタデータも含むことができる。
ステップE70において、合成モジュールは、デコーダに、仮想視点から画像を生成す
るのに必要なメタデータの少なくとも1つの項目を示す要求を送信する。例えば、クエリ
は、必要なメタデータにそれぞれ対応するインデックス、又はインデックスのリストを含
む。
そのような要求は、所定の形式に従って、すなわち、合成モジュール及びデコーダが互
いに理解することができるように所定のシンタックスに従って送信される。例えば、その
ようなシンタックスは、以下のものとすることができる。
nb
0~nb-1の範囲の整数iについて、list[i]
ここで、シンタックス要素nbは、合成モジュールによって必要とされるメタデータの数
、ひいては、デコーダによって読み出されるべきインデックスの数を示し、list[i
]は、必要とされるメタデータのそれぞれのインデックスを示す。
一例によれば、上述した表1によって与えられるメタデータの例を取ると、合成モジュ
ールは、要求内で、nb=2、及びカメラパラメータ及びオクルージョンマップにそれぞ
れ対応するインデックス0及び9を示すことができる。
一変形形態によれば、合成モジュールは、必要なメタデータの項目のインデックスに関
連付けて、例えばメタデータの項目に関連付けられた「grlevel」シンタックス要
素の所定の値を指定することによって粒度レベルも示すことができる。例えば、オクルー
ジョンマップの場合、合成モジュールは、ピクセルレベルにおいてオクルージョンマップ
を望む場合には、インデックス9に関連付けられた「レベル」要素の値1、又は、より粗
いレベルにおいて、例えばサイズ8×8のブロックのためにオクルージョンマップを望む
場合、インデックス9に関連付けられた「レベル」要素の値2を示すことができる。
ステップE71において、デコーダは、対応するメタデータを取得する。この目的で、
図4又は図5に関連して上記で説明された例に従って、デコーダは、メタデータを取得す
るのに必要なデコードされたシンタックス要素を索出し、オクルージョンマップ等の、再
構成のためにデコーダによって用いられないメタデータを計算する。その後、メタデータ
は、合成モジュールがメタデータを読み出すことができるように、所定の形式に従ってフ
ォーマットされる。
ステップE72において、デコーダは、合成モジュールにメタデータを送信し、その後
、合成モジュールは、自身の合成アルゴリズムにおいてメタデータを用いることができる
図8は、本発明の上記で説明した特定の実施形態によるデコード方法を実施するように
適合された装置DECを図式的に示している。
そのようなデコード装置は、メモリMEMと、例えばプロセッサPROCを備え、メモ
リMEMに記憶されたコンピュータプログラムPGによって制御される処理ユニットUT
とを含んで構成される。コンピュータプログラムPGは、このプログラムがプロセッサP
ROCによって実行されると、上記で説明したデコード方法のステップを実施する命令を
含む。
本発明の特定の実施形態によれば、デコード装置DECは、とりわけ、デコード装置が
通信ネットワークを介してマルチビュービデオを表すデータストリームを受信することを
可能にする通信インタフェースCOM0を備える。
本発明の別の特定の実施形態によれば、デコード装置DECは、デコード装置が合成モ
ジュール等の画像処理装置にメタデータを送信するとともに、データストリームから再構
成されたビューの画像を送信することを可能にする通信インタフェースCOM1を備える
初期化時に、コンピュータプログラムPGのコード命令は、例えば、プロセッサPRO
Cによって実行される前にメモリにロードされる。特に、処理ユニットUTのプロセッサ
PROCは、コンピュータプログラムPGの命令に従って図4、図5及び図7に関連して
説明されたデコード方法のステップを実施する。メモリMEMは、とりわけ、所定の形式
で、デコード方法中に取得されたメタデータを記憶するように適合されている。
本発明の特定の実施形態によれば、上記で説明したデコード装置は、テレビ受像機、移
動電話(例えば、スマートフォン)、セットトップボックス、仮想現実ヘッドセット等の
端末内に含まれる。
図9は、本発明の上記で説明した特定の実施形態による画像処理方法を実施するように
適応された装置SYNTHを図式的に示している。
このような装置は、メモリMEM9と、例えばプロセッサPROC9を備え、メモリM
EM9に記憶されたコンピュータプログラムPG9によって制御される処理ユニットUT
9とを含んで構成される。コンピュータプログラムPG9は、このプログラムがプロセッ
サPROC9によって実行されると、上記で説明したような画像処理方法のステップを実
施する命令を含む。
本発明の特定の実施形態によれば、装置SYNTHは、装置が、上記で説明された装置
DEC等のデコード装置から発信されたメタデータを受信するとともに、装置DECによ
ってマルチビュービデオを表すデータストリームから再構成されたビューの画像を受信す
ることを可能にする通信インタフェースCOM9を備える。
初期化時に、コンピュータプログラムPG9のコード命令は、例えば、プロセッサPR
OC9によって実行される前にメモリにロードされる。特に、処理ユニットUT9のプロ
セッサPROC9は、コンピュータプログラムPG9の命令に従って図6及び図7に関連
して説明された画像処理方法のステップを実施する。
本発明の特定の実施形態によれば、装置SYNTHは、装置SYNTHがディスプレイ
装置、例えばスクリーンに画像を送信することを可能にする出力インタフェースAFF9
を備える。例えば、そのような画像は、再構成されたビューの画像及び装置DECから受
信されたメタデータを用いて装置SYNTHによって生成される、仮想視点からの画像に
対応することができる。
本発明の特定の実施形態によれば、装置SYNTHは、合成モジュールである。合成モ
ジュールは、テレビ受像機、移動電話(例えば、スマートフォン)、セットトップボック
ス、仮想現実ヘッドセット等の端末内に含まれる。
本発明の原理は、マルチビュービデオデコードシステムの場合において説明され、この
場合では、複数のビューが同じストリーム(ビットストリーム)からデコードされ、メタ
データは、ビューごとに取得される。この原理は、マルチビュービデオが複数のストリー
ム(ビットストリーム)を用いてエンコードされ、ストリームごとに1つのビューがエン
コードされる場合に同様に当てはまる。この場合では、各ビューデコーダは、自身がデコ
ードするビューに関連付けられたメタデータを提供する。

Claims (14)

  1. デコード装置によって実施される、マルチビュービデオを表すデータストリームのデコ
    ード方法であって、
    前記データストリームの少なくとも1つの部分からシンタックス要素を取得すること(
    E20)と、
    取得された前記シンタックス要素から前記ビデオのビューの少なくとも1つの画像を再
    構成すること(E21)と、
    を含み、該デコード方法は、
    少なくとも1つのシンタックス要素から、所定の形式でメタデータの少なくとも1つの
    項目を取得すること(E23)と、
    前記メタデータの少なくとも1つの項目を画像合成モジュールに提供すること(E24
    )と、
    を更に含むことを特徴とする、デコード方法。
  2. メタデータの少なくとも1つの項目を取得することは、前記シンタックス要素の少なく
    とも1つの部分から前記メタデータの少なくとも1つの項目を計算することを更に含む、
    請求項1に記載のデコード方法。
  3. 前記メタデータの少なくとも1つの項目は、前記少なくとも1つの画像を再構成するの
    に用いられない、請求項1又は2に記載のデコード方法。
  4. 前記メタデータの少なくとも1つの項目は、以下のもの、すなわち、
    カメラパラメータ、
    デコード及びスケーリングされたモーションベクトル、
    前記再構成された画像の分割、
    前記再構成されたビューの画像のブロックによって用いられる参照画像、
    前記再構成されたビューの画像のコード化モード、
    前記再構成されたビューの画像の量子化パラメータ値、
    前記再構成されたビューの画像の予測残差値、
    前記再構成されたビューの画像内の動きを表すマップ、
    前記再構成されたビューの画像内のオクルージョンの存在を表すマップ、
    深度マップに関連付けられた信頼度値を表すマップ、
    を含むグループ内に含まれる情報の項目に対応する、請求項1~3のいずれか1項に記載
    のデコード方法。
  5. 前記所定の形式は、メタデータの少なくとも1つの項目がインデックスに関連付けられ
    て記憶される、インデックス付き表に対応する、請求項1~4のいずれか1項に記載のデ
    コード方法。
  6. 前記メタデータの少なくとも1つの項目は、前記デコード装置において指定された粒度
    レベルに基づいて取得される、請求項1~5のいずれか1項に記載のデコード方法。
  7. 前記デコード装置によって、前記画像合成モジュールによって必要とされるメタデータ
    の少なくとも1つの項目を示す要求を該画像合成モジュールから受信することを更に含む
    、請求項1~6のいずれか1項に記載のデコード方法。
  8. 前記要求は、利用可能なメタデータの所定のリストの中から前記必要とされるメタデー
    タの項目を示す少なくとも1つのインデックスを含む、請求項7に記載のデコード方法。
  9. マルチビュービデオを表すデータストリームのデコード装置であって、
    該装置は、
    前記データストリームの少なくとも1つの部分からシンタックス要素を取得し、
    取得された前記シンタックス要素から前記ビデオのビューの少なくとも1つの画像を再
    構成する、
    ように構成され(UT、MEM、COM1)、
    該デコード装置は、
    少なくとも1つのシンタックス要素から、所定の形式でメタデータの少なくとも1つの
    項目を取得し、
    前記メタデータの少なくとも1つの項目を画像合成モジュールに提供する、
    ように更に構成されることを特徴とする、デコード装置。
  10. デコード装置によってデコードされたビューの少なくとも1つの画像から、仮想ビュー
    の少なくとも1つの画像を生成することを含む画像合成方法であって、該画像合成方法は

    所定の形式でメタデータの少なくとも1つの項目を読み出すこと(E60)であって、
    前記メタデータの少なくとも1つの項目は、前記デコード装置によって、マルチビュービ
    デオを表すデータストリームから取得された少なくとも1つのシンタックス要素から取得
    されることと、
    前記メタデータの少なくとも1つの読み出された項目を用いることを含む前記少なくと
    も1つの画像を生成すること(E61)と、
    を含むことを特徴とする、画像合成方法。
  11. 前記デコード装置に、前記画像を生成するのに必要とされるメタデータの少なくとも1
    つの項目を示す要求を送信することを更に含む、請求項10に記載の画像合成方法。
  12. デコード装置によってデコードされたビューの少なくとも1つの画像から、仮想ビュー
    の少なくとも1つの画像を生成するように構成された画像合成装置であって、該画像合成
    装置は、
    該画像合成装置が所定の形式でメタデータの少なくとも1つの項目を読み出すように構
    成され(UT9、MEM9、COM9)、前記メタデータの少なくとも1つの項目は、前
    記デコード装置によって、マルチビュービデオを表すデータストリームから取得された少
    なくとも1つのシンタックス要素から取得されること、及び、
    前記少なくとも1つの画像が生成されるときに、前記メタデータの少なくとも1つの読
    み出された項目が用いられること、
    を特徴とする、画像合成装置。
  13. マルチビュービデオを表すデータストリームから該マルチビュービデオを表示する画像
    処理システムであって、
    請求項9に記載のデコード装置と、
    請求項12に記載の画像合成装置と、
    を備える、画像処理システム。
  14. プロセッサによって実行されると、請求項1~8のいずれか1項に記載のデコード方法
    を実施するか、又は、請求項10又は11に記載の画像合成方法を実施する命令を含むコ
    ンピュータプログラム。
JP2023179221A 2018-05-03 2023-10-18 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置 Pending JP2024012332A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
FR1853829A FR3080968A1 (fr) 2018-05-03 2018-05-03 Procede et dispositif de decodage d'une video multi-vue, et procede et dispositif de traitement d'images.
FR1853829 2018-05-03
JP2021510551A JP7371090B2 (ja) 2018-05-03 2019-04-16 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置
PCT/FR2019/050892 WO2019211541A2 (fr) 2018-05-03 2019-04-16 Procédé et dispositif de décodage d'une vidéo multi-vue, et procédé et dispositif de traitement d'images

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021510551A Division JP7371090B2 (ja) 2018-05-03 2019-04-16 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置

Publications (1)

Publication Number Publication Date
JP2024012332A true JP2024012332A (ja) 2024-01-30

Family

ID=63407334

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021510551A Active JP7371090B2 (ja) 2018-05-03 2019-04-16 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置
JP2023179221A Pending JP2024012332A (ja) 2018-05-03 2023-10-18 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2021510551A Active JP7371090B2 (ja) 2018-05-03 2019-04-16 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置

Country Status (7)

Country Link
US (4) US11290746B2 (ja)
EP (1) EP3788789A2 (ja)
JP (2) JP7371090B2 (ja)
KR (1) KR20210003809A (ja)
CN (1) CN112075081A (ja)
FR (1) FR3080968A1 (ja)
WO (1) WO2019211541A2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021182650A (ja) * 2018-07-20 2021-11-25 ソニーグループ株式会社 画像処理装置および方法
GB2586838B (en) * 2019-09-05 2022-07-27 Sony Interactive Entertainment Inc Free-viewpoint method and system
WO2023014576A1 (en) * 2021-08-03 2023-02-09 Leia Inc. View synthesis system and method using depth map
CN115134574B (zh) * 2022-06-24 2023-08-01 咪咕视讯科技有限公司 动态元数据生成方法、装置、设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY159176A (en) 2005-10-19 2016-12-30 Thomson Licensing Multi-view video coding using scalable video coding
US20110122230A1 (en) * 2008-07-21 2011-05-26 Thomson Licensing Coding device for 3d video signals
TWI507183B (zh) 2009-09-04 2015-11-11 Alcon Inc 具晶體間混濁化抗性之眼內晶體
US8537200B2 (en) * 2009-10-23 2013-09-17 Qualcomm Incorporated Depth map generation techniques for conversion of 2D video data to 3D video data
JP2013514718A (ja) * 2009-12-17 2013-04-25 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 映像符号化の方法及び装置
EP2630799A4 (en) * 2010-10-20 2014-07-02 Nokia Corp METHOD AND DEVICE FOR VIDEO CODING AND DECODING
JP2014528190A (ja) * 2011-08-12 2014-10-23 テレフオンアクチーボラゲット エル エム エリクソン(パブル) カメラおよび/または深度パラメータのシグナリング
US9762903B2 (en) * 2012-06-01 2017-09-12 Qualcomm Incorporated External pictures in video coding
US10452715B2 (en) * 2012-06-30 2019-10-22 Divx, Llc Systems and methods for compressing geotagged video
JP6150277B2 (ja) * 2013-01-07 2017-06-21 国立研究開発法人情報通信研究機構 立体映像符号化装置、立体映像復号化装置、立体映像符号化方法、立体映像復号化方法、立体映像符号化プログラム及び立体映像復号化プログラム
US9930363B2 (en) * 2013-04-12 2018-03-27 Nokia Technologies Oy Harmonized inter-view and view synthesis prediction for 3D video coding
JP6482498B2 (ja) * 2016-05-25 2019-03-13 キヤノン株式会社 制御装置、制御方法、及び、プログラム

Also Published As

Publication number Publication date
US11290746B2 (en) 2022-03-29
JP2021524214A (ja) 2021-09-09
US20220182673A1 (en) 2022-06-09
US20210243472A1 (en) 2021-08-05
US11910015B2 (en) 2024-02-20
JP7371090B2 (ja) 2023-10-30
US20220182671A1 (en) 2022-06-09
US20220182672A1 (en) 2022-06-09
KR20210003809A (ko) 2021-01-12
US11889115B2 (en) 2024-01-30
WO2019211541A3 (fr) 2020-01-16
CN112075081A (zh) 2020-12-11
WO2019211541A2 (fr) 2019-11-07
EP3788789A2 (fr) 2021-03-10
US11910016B2 (en) 2024-02-20
FR3080968A1 (fr) 2019-11-08

Similar Documents

Publication Publication Date Title
JP7371090B2 (ja) マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置
KR101340911B1 (ko) 다중 뷰들의 효율적인 인코딩 방법
US10158838B2 (en) Methods and arrangements for supporting view synthesis
JP5763184B2 (ja) 3次元画像に対する視差の算出
US9191646B2 (en) Apparatus, a method and a computer program for video coding and decoding
US8537200B2 (en) Depth map generation techniques for conversion of 2D video data to 3D video data
US20090103616A1 (en) Method and device for generating depth image using reference image, method for encoding/decoding depth image, encoder or decoder for the same, and recording medium recording image generated using the method
US20070104276A1 (en) Method and apparatus for encoding multiview video
WO2004059980A1 (en) Method and apparatus for encoding and decoding stereoscopic video
WO1997004404A1 (en) Multi-viewpoint digital video encoding
EP2742695A2 (en) Method and apparatus for creating a disocclusion map used for coding a three-dimensional video
US20220217400A1 (en) Method, an apparatus and a computer program product for volumetric video encoding and decoding
KR101386651B1 (ko) 다시점 비디오 인코딩 및 디코딩 방법 및 이를 이용한 인코딩 및 디코딩 장치
Mieloch et al. A New Approach to Decoder-Side Depth Estimation in Immersive Video Transmission
KR20230078669A (ko) 다시점 비디오의 인코딩 및 디코딩 방법
CN117043820A (zh) 沉浸式视频上下文中的深度估计方法
Morvan et al. Predictive coding of depth images across multiple views
KR20150043164A (ko) 2d 비디오 기반 3d 비디오 코딩을 위한 병합 움직임 후보 리스트를 구성하는 방법 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231117