JP7371090B2 - マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置 - Google Patents

マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置 Download PDF

Info

Publication number
JP7371090B2
JP7371090B2 JP2021510551A JP2021510551A JP7371090B2 JP 7371090 B2 JP7371090 B2 JP 7371090B2 JP 2021510551 A JP2021510551 A JP 2021510551A JP 2021510551 A JP2021510551 A JP 2021510551A JP 7371090 B2 JP7371090 B2 JP 7371090B2
Authority
JP
Japan
Prior art keywords
image
metadata
view
item
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021510551A
Other languages
English (en)
Other versions
JP2021524214A (ja
Inventor
ジュング,ジョエル
ニキーチン,パーヴェル
ボアソナード,パトリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2021524214A publication Critical patent/JP2021524214A/ja
Priority to JP2023179221A priority Critical patent/JP2024012332A/ja
Application granted granted Critical
Publication of JP7371090B2 publication Critical patent/JP7371090B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、一般に、3D画像処理の分野に関し、より詳細には、マルチビュー画像のシーケンスのデコード、及び中間ビューの画像の合成に関する。
仮想現実の分野では、フリーナビゲーション(free navigation)により、視認者が、任意の視点からのシーンを、その視点がカメラによってキャプチャされた視点に対応するのか又はカメラによってキャプチャされていない視点に対応するのかを問わず、視認することが可能になる。カメラによってキャプチャされていないそのようなビューは、仮想ビュー又は中間ビューとも称され、これはなぜならば、このビューは、カメラによってキャプチャされたビューとビューとの間にあり、復元のために合成されなければならないためである。
シーン内のフリーナビゲーションは、マルチビュービデオを視認するユーザの全ての動きが正しく管理されるとともに、画像が最適にレンダリングされない場合に視認者が感じ得る不快感が回避されることを必要とする。
一般に、ユーザの動きは、復元装置、例えば、HMD(ヘッドマウントデバイス)仮想現実ヘッドセットによって正しく考慮される。
しかしながら、ユーザの動き(回転又は平行移動)にかかわらず、表示のために正しいピクセルを提供することは、依然として問題である。実際には、表示すべき画像の計算は、仮想(すなわち、合成された)ビューの追加の画像を表示するためにいくつかのキャプチャされたビューの使用を必要とする。そのような仮想ビューは、カメラによってキャプチャされていない視点に対応する。そして、デコードされキャプチャされたビュー及び関連付けられた深度からそれらを計算することが必要とされる。
したがって、フリーナビゲーション機能を提供するコーデックは、いくつかのビュー及び関連付けられた深度をエンコードするのに有効であるとともに、仮想ビューの最適なレンダリングを可能にしなければならず、すなわち、合成アルゴリズムを表示に使用することを必要とする。
マルチビューシーケンスをエンコードするように設計されたマルチビュービデオエンコーダ、例えば、スタンダードMV-HEVC又は3D-HEVC(Series H: Audiovisual and multimedia systems - Infrastructure of audio visual services - Coding of moving video, High Efficiency Video Coding, Recommendation ITU-T H.265, International Telecommunication Union, December 2016)が既知である。
MV-HEVCエンコーダは、非常に基本的なビュー間予測を適用し、一方、3D-HEVCエンコーダは、いくつかの追加のツールを含むことで、時間冗長性のみではなく、ビュー間冗長性も利用する。加えて、3D-HEVCは、深度マップを効率的にエンコードするための特定のツールを有する。これらの2つのコーデック、及び特に3D-HEVCは、関連する深度を有する複数のビューをエンコードする際に、HEVC規格等の2Dビデオシーケンスを扱う従来のビデオコーデックと比較して、ビットレートを有効に削減する。
仮想現実の状況では、カメラによってキャプチャされ、データストリームにエンコードされているビューをデコードした後、例えばユーザの動きに基づいて仮想ビューを合成することができる。
そのような仮想ビューを合成することについて、例えば、VSRSツール(Wegner, Stankiewicz, Tanimoto, Domanski, Enhanced view synthesis reference software (VSRS) for free-viewpoint television, ISO/IEC JTC1/SC29/WG11 m31520, October 2013, Geneva, Switzerland)が既知である。
図1は、デコーダDEC(例えば、3D-HEVC)がデータストリームSTRをデコードして、デコードされたビュー(VD1、VD2)を生成する、従来のフリーナビゲーションシステムを示している。その場合、そのようなビューが、ビュー合成装置SYNTH(例えば、VSRS)によって用いられて、合成されたビューVS(1+2)が生成される。その後、デコードされたビュー及び合成されたビューが、ユーザの動きに従って復元装置DISPによって表示される。
従来のデコーダDECが図2に示されている。典型的には、そのようなデコーダは、データストリームSTRの分析(E20)を実行して、デコードすべき関連データを取得し、その後、デコード処理(E21)を適用して、仮想ビューを生成するのに合成モジュールSYNTHによって後に用いることができるデコードされたビュー(VD1、VD2)を再構成する。
したがって、データストリームからビューをデコードする処理と、仮想ビューを合成する処理とは相関しないように思われる。特に、合成処理は、デコーダが関与しない困難なタスクである。デコーダは、単に、データストリームから再構成されたデコードされたビューを、合成モジュールにとって利用可能にする。
仮想現実アプリケーションが直面する技術的問題は、エンコーダ及びデコーダが、特にフリーナビゲーションの場合において、ユーザによって要求される最終的な視点の事前知識を有しないということである。マルチビュービデオエンコーダ及びデコーダは、更には、仮想ビューを合成するのに最終的に用いられる合成処理の知識も有しない。実際には、仮想ビューを合成するのに用いられる合成方法は、マルチビュービデオデコーダとは異なり、現在標準化されておらず、それにより、仮想現実アプリケーションによって用いられる合成方法は、独自のツールであり続けている。
したがって、合成された仮想ビューの品質は、そのようなアプリケーションによって用いられる合成ツール及び合成アルゴリズムに依存する。一般に、そのような品質は、用いられる合成ツールの複雑度と、これらの合成ツールを実装する装置のリソースとに依存する。
仮想現実アプリケーション、及びより詳細にはフリーナビゲーションを用いる仮想現実アプリケーションは、リアルタイムでなければならない。仮想ビュー合成モジュールは、一般的に、特にキャプチャ及びデコードされるビューの数が不十分である場合、デコード及び再構成されるキャプチャされるビューが高ビジュアル品質であっても、中程度の品質の仮想ビューを提供する。
本発明は、現行技術水準を改善する。
本発明は、デコード装置によって実施される、マルチビュービデオを表すデータストリームをデコードする方法であって、データストリームの少なくとも1つの部分からシンタックス要素を取得することと、取得されたシンタックス要素からビデオのビューの少なくとも1つの画像を再構成することとを含む、デコード方法に関する。有利なことに、このデコード方法は、少なくとも1つのシンタックス要素から、所定の形式でメタデータの少なくとも1つの項目を取得することと、メタデータの少なくとも1つの項目を画像処理モジュールに提供することとを更に含む。
したがって、そのようなデコード方法は、画像処理モジュール、例えばデコーダの外部の合成モジュールに、ビデオストリームのデータを表し、画像処理モジュールによって用いることができるメタデータを提供することを可能にする。したがって、画像処理モジュール内で実施される処理は、複雑度が低くなる。例えば、仮想ビュー合成モジュールの場合では、合成アルゴリズムによって用いられるとともにデコーダから利用可能であるデータの一部を再計算することは必要ではない。その上、本発明は、画像処理モジュールが、単独で計算することが可能でないデータにアクセスし、そのデータを用いて自身の動作を改善することも可能にする。例えば、仮想ビュー合成モジュールの場合では、デコーダは、合成モジュールにオクルージョンマップを提供することができ、そのようなオクルージョンは、合成モジュールによって、ビデオのビューの再構成された画像のみから決定することが困難である。
したがって、画像処理モジュール内で実施される処理を改善することができる。これは、なぜならば、デコーダレベルにおいて利用可能であるデータを取得する演算複雑度が削減されるためであり、したがって、より複雑な、それゆえより強力な画像処理アルゴリズムを、画像処理モジュール内でより容易に実施することができる。
仮想ビュー合成モジュールの場合では、仮想ビューの品質はこのように改善される。これにより、ビュー間のよりスムーズな遷移を提供することによって、マルチビュービデオにおけるユーザのフリーナビゲーションも向上する。その上、仮想ビューの合成を改善することにより、シーンをキャプチャするのに必要なカメラの数も削減される。
所定のフォーマットでメタデータを提供することにより、デコーダと画像処理モジュールとの間の通信が容易になる。例えば、メタデータは、インデックス付けされるとともに標準化された表の形式で提供される。したがって、画像処理モジュールは、表内のインデックスごとに、いずれのメタデータがこのインデックスにおいて記憶されているのかを知る。
ビデオデータ通信にメタデータを用いることが既知である。例えば、H.264/AVC規格で導入されたSEI(補助強化情報:Supplemental Enhancement Information)メッセージは、デコーダレベルにおいて実施される任意選択の処理動作に関するデータである。SEIメッセージは、ビデオデータビットストリームを介してデコーダに送信される。しかしながら、そのようなSEIメッセージデータは、エンコーダレベルにおいて作成されるとともに、デコーダによってのみ用いられ、任意選択で、デコード及び再構成されたビューの品質が改善する。
本発明の特定の実施形態によれば、メタデータの少なくとも1つの項目を取得することは、シンタックス要素の少なくとも1つの部分から上記メタデータの少なくとも1つの項目を計算することを更に含む。
本発明のそのような特定の実施形態は、例えば、ビューを再構成するのにデコーダによって用いられない情報、例えば深度情報のために計算される信頼度値、又は、別の形式でデコーダによって用いられる情報、例えば画像を再構成するときに用いられる粒度よりも粗い粒度を有するモーション情報に対応する、新たなメタデータを計算することを可能にする。
本発明の別の特定の実施形態によれば、上記メタデータの少なくとも1つの項目は、少なくとも1つの画像を再構成するのに用いられない。
本発明の別の特定の実施形態によれば、上記メタデータの少なくとも1つの項目は、以下のもの、すなわち、
-カメラパラメータ、
-デコード及びスケーリングされたモーションベクトル、
-再構成された画像の分割、
-再構成されたビューの画像のブロックによって用いられる参照画像、
-再構成されたビューの画像のコード化モード、
-再構成されたビューの画像の量子化パラメータ値、
-再構成されたビューの画像の予測残差値、
-再構成されたビューの画像内の動きを表すマップ、
-再構成されたビューの画像内のオクルージョンの存在を表すマップ、
-深度マップに関連付けられた信頼度値を表すマップ、
を含むグループ内に含まれる情報の1つの項目に対応する。
本発明の別の特定の実施形態によれば、所定の形式は、メタデータの少なくとも1つの項目がインデックスに関連付けられて記憶される、インデックス付き表に対応する。
本発明の別の特定の実施形態によれば、上記メタデータの少なくとも1つの項目は、デコード装置において指定された粒度レベルに基づいて取得される。
本発明のこの特定の実施形態によれば、シンタックス要素から生成されるメタデータを、異なる粒度レベルにおいて取得することができる。例えば、モーション情報の場合、デコーダにおいて用いられる(すなわち、デコーダによって用いられるような)粒度、又は(例えば、サイズ64×64のブロックごとに1つのモーションベクトルを提供することによって)より粗い粒度を有するモーションベクトルを提供することができる。
本発明の別の特定の実施形態によれば、デコード方法は、デコード装置によって、画像処理モジュールによって必要とされるメタデータの少なくとも1つの項目を示す要求をこの画像処理モジュールから受信することを更に含む。本発明のこの特定の実施形態によれば、画像処理モジュールは、デコーダに、画像処理モジュールが必要とする情報を示す。したがって、デコーダは、必要なメタデータのみを画像処理モジュールにとって利用可能にすることができ、これにより、デコーダにおける複雑度及びメモリリソースの使用が限られたものとなる。
本発明の別の特定の実施形態によれば、要求は、利用可能なメタデータの所定のリストの中の必要なメタデータの項目を示す少なくとも1つのインデックスを含む。
本発明はまた、上記で定義された特定の実施形態のうちのいずれか1つによるデコード方法を実施するように構成されたデコード装置に関する。当然、このデコード装置は、本発明によるデコード装置に関する異なる特徴を含むことができる。したがって、このデコード装置の特徴及び利点は、デコード方法の特徴及び利点と同じであり、更には詳述されない。
本発明の特定の実施形態によれば、そのようなデコード装置は、端末、又はサーバ内に含まれる。
本発明は、デコード装置によってデコードされたビューの少なくとも1つの画像から、仮想ビューの少なくとも1つの画像を生成することを含む画像合成方法にも関する。本発明によれば、そのような画像処理方法は、所定の形式でメタデータの少なくとも1つの項目を読み出すことも含み、上記メタデータの少なくとも1つの項目は、デコード装置によって、マルチビュービデオを表すデータストリームから取得された少なくとも1つのシンタックス要素から取得され、上記少なくとも1つの画像は、上記メタデータの少なくとも1つの読み出された項目を用いて生成される。
したがって、画像合成方法は、デコーダが利用可能なメタデータを利用して、マルチビュービデオの仮想ビューの画像を生成する。そのようなメタデータは、画像処理装置がアクセスを有しないデータ、又は、再計算することが可能であるデータに対応することができるが、演算が非常に複雑になる。
ここでの仮想ビューとは、画像のシーケンスがシーン取得システムのカメラによってキャプチャされていないシーンの新たな視点からのビューを意味する。
本発明の特定の実施形態によれば、画像合成方法は、デコード装置に、画像を生成するのに必要なメタデータの少なくとも1つの項目を示す要求を送信することを更に含む。
本発明はまた、上記で定義された特定の実施形態のうちのいずれか1つによる画像処理方法を実施するように構成された画像処理装置に関する。当然、この画像処理装置は、本発明による画像処理方法に関する異なる特徴を含むことができる。したがって、この画像処理装置の特徴及び利点は、画像処理方法の特徴及び利点と同じであり、更には詳述されない。
本発明の特定の実施形態によれば、そのような画像処理装置は、端末、又はサーバ内に含まれる。
本発明はまた、マルチビュービデオを表すデータストリームからマルチビュービデオを表示する画像処理システムであって、上記の実施形態のうちのいずれか1つによるデコード装置と、上記の実施形態のうちのいずれか1つによる画像処理装置とを備える、画像処理システムに関する。
本発明による、デコード方法、それぞれの画像処理方法は、種々の方法、とりわけ、配線形式又はソフトウェア形式で実施することができる。本発明の特定の実施形態によれば、デコード方法、それぞれの画像処理方法は、コンピュータプログラムによって実施される。本発明はまた、プロセッサによって実行されると、前述した特定の実施形態のうちのいずれか1つによるデコード方法又は画像処理方法を実施する命令を含むコンピュータプログラムに関する。そのようなプログラムは、任意のプログラミング言語を用いることができる。プログラムは、通信ネットワークからダウンロードし、及び/又はコンピュータ可読媒体上に記録することができる。
このプログラムは、任意のプログラミング言語を用いることができ、ソースコード、オブジェクトコード、ソースコードとオブジェクトコードとの間の中間コード、例えば、部分的にコンパイルされた形式、又は他の任意の所望の形式のものとすることができる。
本発明は、上述されたコンピュータプログラムの命令を含むコンピュータ可読記憶媒体又はデータ媒体にも関する。上述された記録媒体は、プログラムを記憶することが可能である任意のエンティティ又は装置とすることができる。例えば、媒体は、記憶手段、例えばROM、例えばCD-ROM若しくはマイクロ電子回路ROM、USBフラッシュドライブ、又は磁気記録手段、例えばハードドライブを含むことができる。他方、記録媒体は、無線又は他の手段によって電気ケーブル又は光ケーブルを介して伝送することができる、電気信号又は光学信号等の伝送可能媒体に対応することができる。本発明によるプログラムは、特にインターネット型のネットワーク上でダウンロードすることができる。
代替的に、記録媒体は、プログラムが埋め込まれる集積回路に対応することができ、この回路は、当該方法を実行するか又は当該方法の実行に用いられるように適応される。
本発明の他の特徴及び利点は、添付の図面を参照しながら、単なる例示であり非限定的な例として提供される以下の特定の実施形態の説明を読めばより明らかになるであろう。
従来技術による、マルチビュービデオ内のフリーナビゲーションのためのシステムを図式的に示す図である。 従来技術による、マルチビュービデオを表すデータストリームのデコーダを図式的に示す図である。 本発明の特定の実施形態による、マルチビュービデオ内のフリーナビゲーションのためのシステムを図式的に示す図である。 本発明の特定の実施形態による、マルチビュービデオを表すデータストリームをデコードする方法のステップを示す図である。 本発明の特定の実施形態による、マルチビュービデオを表すデータストリームのデコーダを図式的に示す図である。 本発明の特定の実施形態による画像処理方法のステップを示す図である。 本発明の別の特定の実施形態によるデコード方法及び画像処理方法のステップを示す図である。 本発明の特定の実施形態によるデコード方法を実施するように適応された装置を図式的に示す図である。 本発明の特定の実施形態による画像処理方法を実施するように適応された装置を図式的に示す図である。 マルチビューキャプチャシステムのビューの配置構成を示す図である。
本発明は、マルチビュービデオを表すデータストリームのデコード処理を変更することに基づいており、それにより、デコード処理によって再構成されたビューに基づく画像処理プロセスが容易になる。例えば、画像処理プロセスは、仮想ビューを合成する処理に対応する。このために、デコーダは、データストリームから再構成されたビューの画像のみではなく、そのような画像に関連付けられたメタデータも提供し、メタデータは、その後、仮想ビューの合成のために用いることができる。有利なことに、そのようなメタデータはフォーマットされており、すなわち、デコーダと合成装置との間の相互運用性を容易にする所定の形式にされている。したがって、仮想ビューを合成するのに、所定の形式におけるメタデータを読み出すように構成された任意の合成装置を用いることができる。
図3は、本発明の特定の実施形態による、マルチビュービデオ内のフリーナビゲーションのためのシステムを図式的に示している。図3におけるシステムは、図1に関連して説明されたシステムと同様に動作するが、デコーダDECが、出力において、再構成されたビューVD1及びVD2の画像に加えて、メタデータMD1、MD2を提供するという差を有する。そのようなメタデータMD1、MD2は、合成装置への入力において提供され、次に、合成装置は、例えば再構成されたビューVD1、VD2から、仮想ビューVS(1+2)を生成する。そして、デコーダDEC及び合成装置SYNTHは、本発明による画像処理システムを形成する。デコーダDEC及び合成装置SYNTHは、同じ装置内に含めることもできるし、互いに通信することが可能な2つの別個の装置内に含めることもできる。
例えば、非限定的及び非網羅的に、そのようなメタデータは、以下のものに対応することができる。
-デコーダによって再構成されたビューのカメラパラメータ、
-デコーダによって再構成された画像のデコード及びスケーリングされたモーションベクトル、
-再構成された画像の分割、
-再構成された画像のブロックによって用いられる参照画像の表示、
-再構成された画像のコード化モード、
-再構成された画像の量子化パラメータ値、
-再構成された画像の予測残差値。
そのような情報は、デコーダによって用いられるものとして提供することができる。代替的に、そのような情報は、デコーダによって、例えば、デコーダによって使用される粒度よりも細かい粒度又は粗い粒度を提供するように処理することができる。
メタデータはデコーダによって計算及び共有することもでき、例えば、以下のものがある。
-再構成されたビューの一画像、又は画像のグループ内の全体モーションを表すマップ。例えば、そのようなマップは、画像、又は画像のグループのモーションベクトルを閾値処理することによって得られるバイナリマップとすることができる。
-再構成されたビューの画像内のオクルージョンの存在を表すマップ。例えば、そのようなマップは、ビュー間予測の場合において各ピクセルの予測残差に含まれる情報のレベルを考慮することによって得られるバイナリマップとすることができ、又は、オクルージョンの可能なロケーションの情報を、画像の視差ベクトル又はエッジマップから導出することができる。
-深度マップに関連付けられた信頼度値を表すマップ。例えば、そのようなマップは、テクスチャのコード化モードと対応する深度のコード化モードとを比較することによってデコーダによって計算することができる。
出力メタデータのうちの一部は、単一のビューに関するデータとすることができる。その場合、この出力メタデータは、そのビューに固有のものである。他のメタデータは、2つ以上のビューから得ることができる。この場合では、メタデータは、ビュー同士の間の差又は相関関係(カメラパラメータ、オクルージョンマップ、デコードモードにおける差等)を表す。
図4は、本発明の特定の実施形態による、マルチビュービデオを表すデータストリームをデコードする方法のステップを示している。
データストリームSTRが、例えばビットストリームとして、デコーダDECの入力において供給される。データストリームSTRは、例えば、フレーム同士の間の冗長性を用いるマルチビュービデオのエンコードに適応された従来技術によるビデオエンコーダによって、又は、マルチビュービデオの各ビューに個別に適用された単一ビュービデオエンコーダによって、エンコードされたマルチビュービデオのデータを含む。
ステップE20において、デコーダDECは、デコードされたシンタックス要素が提供されるデータストリームの少なくとも1つの部分をデコードする。そのようなデコードE20は、例えば、再構成されるビュー、例えばユーザによって視認されるビューの現在の画像を再構成するのに必要なシンタックス要素を抽出するために、データストリームのパス、及びビットストリームのエントロピーのデコードに対応する。そのようなシンタックス要素は、例えば、現在の画像のブロックのコード化モード、画像間予測又はビュー間予測の場合におけるモーションベクトル、予測残差の量子化係数等に対応する。
従来的に、ステップE21の間に、再構成されるビュー(VD1、VD2)の現在の画像は、デコードされたシンタックス要素、及び場合によっては、そのビュー又は他の以前に再構成されたビューの画像から再構成される。現在の画像のそのような再構成は、現在の画像をエンコードするためにエンコーダレベルにおいて用いられるコード化モード及び予測技法に従って実施される。
再構成されたビューの画像は、画像処理モジュールSYNTHの入力において提供される。
ステップE23において、メタデータの少なくとも1つの項目は、少なくとも1つのデコードされたシンタックス要素から得られる。メタデータのそのような項目は、所定の形式でフォーマットされる。そのような所定の形式は、例えば、データが送信されるか又はメモリに記憶されるように構成される特定のシンタックスに対応する。マルチビュービデオデコーダが特定の規格に準拠したデコーダである場合、メタデータのシンタックスは、例えば、その特定の規格、又は特定のデコード規格に関連付けられた規格において記載されているものとすることができる。
本発明の特定の実施形態によれば、所定の形式は、メタデータの少なくとも1つの項目がインデックスに関連付けられて記憶されるインデックス付けされた表に対応する。この特定の実施形態によれば、各メタデータタイプは、インデックスに関連付けられる。そのような表の一例が、以下の表1において示されている。
メタデータの各項目は、そのインデックスに関連付けられ、メタデータタイプに従った適切なフォーマットで記憶される。
例えば、ビューのカメラパラメータは、それぞれ、例えばシーン内のカメラの位置に対応する3D座標系内の点の座標に対応する位置情報と、例えば3D座標系内の3つの角度の値によって定義される方位情報と、被写界深度とを含むデータの3つ組(triplet)として記憶される。
別の例によれば、モーションベクトルは、対応する再構成された画像のブロックごとに、対応するモーションベクトルの値を含む表の形式で記憶される。
以下で示されるメタデータ表は、非限定的な例にすぎない。メタデータは、他の所定の形式で記憶することができる。例えば、1つのメタデータタイプのみが可能である場合、インデックスをそのメタデータタイプに関連付けることは必要ではない。
本発明の特定の実施形態によれば、ステップE22において、メタデータの少なくとも1つの項目は、取得ステップE23の前に、デコードされたシンタックス要素の少なくとも1つの部分から計算される。
したがって、本発明のそのような特定の実施形態により、再構成されるビューの現在の画像を再構成するのには用いられないが、再構成された現在の画像から仮想ビューを合成するのに用いることができるメタデータ、例えばオクルージョンマップを取得することが可能になる。
本発明のそのような特定の実施形態により、現在の画像を再構成するのに用いられる粒度とは異なる粒度を有するメタデータを取得することも可能になる。例えば、モーションベクトルは、例えば画像全体上で64×64ピクセルのサイズのブロックの場合、64×64の当該ブロック内に含まれる現在の画像の全てのサブブロックの再構成されたモーションベクトルから、より粗く計算することができる。例えば、64×64のブロックごとに、モーションベクトルは、サブブロックのモーションベクトルの、最小値若しくは最大値、平均値若しくは中央値、又は他の任意の関数を選択することによって計算される。
ステップE24において、ステップE23において取得されたメタデータMD1、MD2は、デコーダDECの外部の画像処理モジュールSYNTH、例えば仮想ビュー合成モジュールに提供される。デコーダの外部のモジュールとは、データストリームをデコードするためにも、デコーダによって再構成されたビューを表示するためにもその動作が必須ではないモジュールを意味する。
例えば、メタデータは、画像処理モジュールがアクセス可能なメモリに記憶される。別の例によれば、メタデータは、デコーダと画像処理モジュールとが同じ装置内に統合される場合にはデータ送信バス等のコネクションリンクを介して画像処理モジュールに送信され、又は、デコーダと画像処理モジュールとが別個の装置内で統合される場合にはケーブル若しくはワイヤレスコネクションを介して画像処理モジュールに送信される。
図5は、本発明の特定の実施形態による、マルチビュービデオを表すデータストリームのデコーダを図式的に示している。
従来的に、データストリームSTRから再構成されるビューのデコードは、以下のように実施される。再構成されるビューのデコードは、画像単位で、及び各画像についてブロック単位で、行われる。再構成されるブロックごとに、そのブロックに対応する要素がエントロピーのデコードモジュールDによってデータストリームSTRからデコードされ、デコードされたシンタックス要素SE(テクスチャのエンコードモード、モーションベクトル、視差ベクトル、深度のエンコードモード、参照画像インデックス、...)及び量子化係数coeffのセットが提供される。
量子化係数coeffは、逆量子化モジュール(Q-1)に、そしてその後、逆変換モジュール(T-1)に送信されて、ブロックの予測残差値resrecが提供される。デコードされたシンタックス要素(SE)は、予測モジュール(P)に送信されて、以前に再構成された画像Iref(現在の画像の1つの部分、又は以前に再構成されたビューの参照画像、又は別の以前に再構成されたビューの参照画像)も用いて予測ブロックpredが計算される。その後、現在のブロックは、予測predを、ブロックの予測残差resrecに加算することによって再構成される(Brec)。その後、再構成されたブロック(Brec)は、現在の画像又は別の画像又は別のビューを再構成するのに後に用いられるように、メモリMEMに記憶される。
本発明によれば、エントロピーのデコードモジュールの出力において、ブロックのデコードされたシンタックス要素SE及び任意選択の量子化係数は、デコードされたシンタックス要素SE及び任意選択の量子化係数の少なくとも1つの部分を選択し、それらを所定の形式で記憶するように構成されたモジュールFORMに送信されて、再構成された画像、又は画像のグループに関するメタデータMDが提供される。
フォーマットされるデコードされたシンタックス要素SEの選択は、例えば、デコーダの動作を記述している規格内で明記されているように、固定することができる。代替的に、異なるタイプの選択を固定的に、例えばデコーダプロファイルを介して定義することができ、デコーダのパラメータ化は、フォーマットモジュールFORMが対応するシンタックス要素を選択するように、これを構成することができる。更に別の変形形態によれば、デコーダは、このデコーダがメタデータを提供する画像処理モジュールと交換を行うことが可能である。この場合、画像処理モジュールは、デコーダに、画像処理モジュールが受信することを望むメタデータのタイプを明示的に示し、デコーダのモジュールFORMは、要求されたデコードされたシンタックス要素のみを選択する。
デコーダによって用いられる粒度レベルと異なる粒度レベルにおいてメタデータを提供することができる場合、そのような粒度レベルは、デコーダの動作を記述している規格において、又はデコーダプロファイルを介して固定的に定義することができる。画像処理モジュールがメタデータを取得するためにデコーダと通信する場合、画像処理モジュールは、この画像処理モジュールがメタデータの一部を受信する際に望む粒度レベルをデコーダに明示的に示すことができる。
本発明の特定の実施形態によれば、エントロピーのデコードモジュールの出力におけるデコードされたシンタックス要素SE及び任意選択の量子化係数は、シンタックス要素SE及び/又は量子化係数からメタデータを計算するように構成されたモジュールCALCに送信される。前述したように、計算されるメタデータは、デコーダの動作を記述している規格において、もしくは異なるプロファイル又はそれ以外に従って明示的に定義することもできるし、対象とされる画像処理モジュールとの交換から決定することもできる。
本発明の特定の実施形態によれば、モジュールFORMは、特に、再構成されるビューのカメラパラメータを選択する。
新たな視点を合成するために、合成モジュールは、元の(再構成された)ビューの各ピクセルが仮想ビューに投射される方法を記述しているモデルを作成しなければならない。大半の合成装置、例えば、DIBR(深度画像ベースレンダリング)技法に基づく合成装置は、再構成されたビューのピクセルを3D空間に投射するのに深度情報を用いる。その後、3D空間内の対応する点は、上記新たな視点からカメラ平面に投射される。
3D空間内の画像点のそのような投射は、次の式、すなわち、M=K.RT.M’を用いてモデル化することができ、ここで、Mは、3D空間内の点の座標行列であり、Kは、仮想カメラの内部パラメータ(intrinsic parameters)の行列であり、RTは、仮想カメラの外部パラメータ(extrinsic parameters)(3D空間内のカメラ位置及び方向)の行列であり、M’は、現在の画像のピクセル行列である。
カメラパラメータが合成モジュールに送信されない場合、合成モジュールは、高複雑度及び正確性を犠牲にして、それらのカメラパラメータを計算しなければならず、計算は、リアルタイムに行うことができないか、又は、外部センサによって取得しなければならない。それゆえ、デコーダによってこれらのパラメータを提供することにより、合成モジュールの複雑度を制限することが可能になる。
本発明の別の特定の実施形態によれば、モジュールFORMは、特に、現在の画像を再構成するのに用いられる参照画像に関するシンタックス要素を選択する。
仮想ビューを生成するために、合成モジュールが、以前に再構成された利用可能な種々のビューの画像の中から参照画像を選択する可能性がある場合、合成モジュールは、合成のために用いられるビューをコード化するときにいずれの参照ビューが用いられたのかを知ることから利益を得ることができる。例えば、図10は、16個のカメラを含むマルチビューキャプチャシステムのビューの配置構成を示している。各フレームの間の矢印は、ビューのデコード順序を示している。合成モジュールがビューV6とビューV10との間に置かれた視点(図10において×印によって表されている)についての仮想ビューVVを生成しなければならない場合、従来的には、合成モジュールは、最良の仮想ビューを構成するために、各ビューの可用性をチェックしなければならない。
本明細書において説明される特定の実施形態によれば、或るビューについて、そのビューを再構成するのに用いられる参照ビューを示すメタデータを有する場合、合成モジュールは、仮想ビューを生成するのにいずれの画像を用いるべきかを決定するために、仮想視点に最も近い利用可能なビュー(図10の場合ではビューV6)のみを選択することができる。例えば、ビューV6のブロックが参照画像としてビューV7の画像を用いる場合、合成モジュールは、ビューV6によって用いられるので利用可能である必要があるビューV7を用いることを決定することもできる。したがって、そのような実施形態は、合成中の各ビューの可用性をチェックする必要性を回避することによって、合成モジュールの複雑度を低減する。
本発明の別の特定の実施形態によれば、モジュールCALCは、特に、モーションマップを生成するためにモーションベクトルに関するシンタックス要素を選択する。
動きがほとんどない領域では、仮想ビュー合成は、一般的に、深度マップの不正確性に起因して、時間的コヒーレンスの欠如を示す。これらのインコヒーレンスは、仮想視点からの視覚化にとって非常に妨げとなる。
この特定の実施形態では、デコーダのモジュールCALCは、デコード及び再構成されたモーションベクトル、すなわち、モーションベクトルの逆予測及びモーションベクトルの拡縮の後のモーションベクトルを選択する。モジュールCALCは、モーションマップ、典型的にはバイナリマップを生成するために各ブロックの再構成されたモーションベクトルの閾値処理を実行し、バイナリマップでは、各要素が値0又は1を取り、その領域が局所的にモーションを有するか否かを示す。バイナリマップは、例えば、数理形態学(例えば、収縮(erosion)、膨張(expansion)、オープニング(opening)、クロージング(closing))を用いることによって改善することができる。
その後、モーションバイナリマップは、所望の粒度(ピクセルレベルマップ、ブロックレベルマップ若しくはサブブロックレベルマップ、又は画像内の特定のブロックサイズについて定義されたマップ等)に応じてフォーマットされ、モーションがビュー内に存在するか否かを示すことができる。
その後、そのようなモーションマップを受信する合成モジュールは、例えば、或る領域がモーションを有するものとマーキングされるか否かに応じて異なる合成処理を適用することによって、自身の動作を適応することができる。例えば、時間的インコヒーレンスの問題を解決するために、従来の合成処理は、固定(モーションレス)領域内で無効化されるとともに、単に、以前の画像のピクセルの値を引き継ぐことができる。
当然ながら、合成モジュールは、他の手段を用いて、例えば、エンコーダとしてモーションを推定することによって、単独でモーションマップを生成することができる。しかしながら、そのような動作は、合成アルゴリズムの複雑度、及び、結果として得られるモーションの精度に著しい影響を与える。なぜならば、エンコーダは、デコーダの出力においてもはや利用可能でないコード化されていない画像からモーションを推定するためである。
図10において示される例及び前述された実施形態では、最も近い利用可能なビューを用いることのみではなく、仮想視点の近傍の参照ビューを平均化することによっても、有効な参照ビューを計算することができる。例えば、参照ビューV6、V7、V10及びV11は、デコーダのモジュールCALCによって平均化することができ、結果として得られる平均ビューは合成モジュールに送信することができる。
別の変形形態では、デコーダのモジュールCALCは、オクルージョンマップを計算することができ、ここで、オクルージョンマップは、画像のピクセル又はブロックごとに、領域がオクルージョン領域に対応するか否かを示す。例えば、モジュールCALCは、領域を再構成するのにデコーダによって用いられる参照画像(複数の場合もある)の情報を用いることによって、領域がオクルージョン領域に対応するか否かを決定することができる。例えば、図10の場合では、ビューV6の画像内のブロックの大半が時間予測を用いるとともにビューV6の画像内のいくつかのブロックがビュー間予測、例えば、ビューV2に対するビュー間予測を用いる場合、これらのブロックは、オクルージョン領域に対応する可能性が高い。
その後、そのようなオクルージョンマップを受信する合成モジュールは、領域がオクルージョン領域とマークされるか否かに応じて異なる合成処理を適用することを決定することができる。
本発明の別の特定の実施形態によれば、モジュールCALCは、特に、それぞれ再構成された画像のテクスチャ及び画像の深度マップに関連付けられたコード化モードを選択する。
従来技術によれば、合成アルゴリズムは、主に、深度マップを用いる。そのような深度マップは、通常、合成された仮想ビュー内でアーティファクトを生成するエラーを示す。テクスチャと深度マップとの間でエンコードモードを比較することによって、デコーダは、深度マップに関連付けられた信頼度尺度、例えば、深度及びテクスチャが相関する(値1)のか又は相関しない(値0)のかを示すバイナリマップを導出することができる。
例えば、信頼度値は、エンコードモードから導出することができる。テクスチャのエンコードモード及び深度のエンコードモードが異なり、例えば一方がイントラモード(intra mode)であり他方がインターモード(inter mode)である場合、これは、テクスチャと深度とが相関していないことを意味する。したがって、信頼度値は低く、例えば0となる。
信頼度値は、モーションベクトルに従って配置することもできる。テクスチャ及び深度が異なるモーションベクトルを有する場合、これは、テクスチャと深度とが相関していないことを意味する。したがって、信頼度値は低く、例えば0となる。
信頼度値は、テクスチャ及び深度によって用いられる参照画像に従って配置することもできる。参照画像が異なる場合、これは、テクスチャと深度とが相関していないことを意味する。したがって、信頼度値は低く、例えば0でとなる。
その後、そのような信頼度マップを受信する合成モジュールは、その領域が低信頼度値とマークされているか否かに応じて異なる合成処理を適用することを決定することができる。例えば、そのような領域について、その領域のより良い信頼度値を提供する別の参照ビューを用いて、対応する領域を合成することができる。
図6は、本発明の特定の実施形態による画像処理方法のステップを示している。そのような処理は、例えば図5に関連して説明されたデコード方法によってデコードされ、再構成されたビューから、例えば仮想ビュー合成モジュールによって実施される。
ステップE60において、メタデータ(MD1、MD2)の少なくとも1つの項目が、合成モジュールによって読み出される。合成モジュールによって読み出されたメタデータは、マルチビュービデオを表すストリームからデコードされたシンタックス要素に対応し、1つ以上のビューに関連付けられる。これは、デコードされたシンタックス要素からストリームをデコードする方法の間に計算された情報にも対応することができる。メタデータは、所定の形式で合成モジュールに記憶されるか又は送信され、それにより、適した読み出しモジュールを有する任意の合成モジュールがこれを読み出すことができる。
ステップE61において、合成モジュールは、入力において、例えば図5に関連して説明されたデコード方法に従ってマルチビュービデオデコーダによって再構成されたビュー(VD1、VD2)の少なくとも1つの画像を受信する。合成モジュールは、これらの受信されたビューVD1、VD2及び読み出されたメタデータMD1、MD2を用いて、仮想視点VS(1+2)からの少なくとも1つの画像を生成する。特に、メタデータMD1、MD2は、合成モジュールによって用いられて、画像の或る特定の領域について用いるべき合成アルゴリズムが決定されるか、又は、仮想ビューの画像を生成するのに用いるべきビューが決定される。
図7は、本発明の別の特定の実施形態によるデコード方法及び画像処理方法のステップを示している。
一般に、マルチビュービデオのデコーダは、仮想視点を生成するのに用いられる合成装置のタイプの知識を有しない。換言すれば、デコーダは、いずれの合成アルゴリズムが用いられるのかも、いずれのメタデータタイプがデコーダに有用であるのかも知らない。
本明細書において説明される特定の実施形態に応じて、デコーダ及び合成モジュールは、双方向に交換することが可能であるように適合されている。例えば、合成モジュールは、合成モジュールがより良い合成を達成するのに必要とするメタデータのリストをデコーダに示すことができる。合成モジュールからの要求の前又は後に、デコーダは、合成モジュールに、デコーダが合成モジュールに送信することが可能であるメタデータを通知することができる。有利なことに、デコーダが共有することが可能であるメタデータのリストは、標準化され、すなわち、デコード規格に準拠する全てのデコーダがリスト上のメタデータを共有することが可能でなければならない。したがって、所与のデコード規格について、合成モジュールは、いずれのメタデータが利用可能であるかを認識している。メタデータのリストは、デコーダ規格のプロファイルに従って適応することもできる。例えば、低演算複雑度を必要とするデコーダ向けのプロファイルの場合、メタデータのリストは、ストリームのデコードされたシンタックス要素のみを含み、一方、より高い演算複雑度を扱うことが可能であるデコーダ向けのプロファイルの場合、メタデータのリストは、モーションマップ、オクルージョンマップ、信頼度マップ等の、ストリームのデコードされたシンタックス要素からの計算によって得られるメタデータも含むことができる。
ステップE70において、合成モジュールは、デコーダに、仮想視点から画像を生成するのに必要なメタデータの少なくとも1つの項目を示す要求を送信する。例えば、クエリは、必要なメタデータにそれぞれ対応するインデックス、又はインデックスのリストを含む。
そのような要求は、所定の形式に従って、すなわち、合成モジュール及びデコーダが互いに理解することができるように所定のシンタックスに従って送信される。例えば、そのようなシンタックスは、以下のものとすることができる。
nb
0~nb-1の範囲の整数iについて、list[i]
ここで、シンタックス要素nbは、合成モジュールによって必要とされるメタデータの数、ひいては、デコーダによって読み出されるべきインデックスの数を示し、list[i]は、必要とされるメタデータのそれぞれのインデックスを示す。
一例によれば、上述した表1によって与えられるメタデータの例を取ると、合成モジュールは、要求内で、nb=2、及びカメラパラメータ及びオクルージョンマップにそれぞれ対応するインデックス0及び9を示すことができる。
一変形形態によれば、合成モジュールは、必要なメタデータの項目のインデックスに関連付けて、例えばメタデータの項目に関連付けられた「grlevel」シンタックス要素の所定の値を指定することによって粒度レベルも示すことができる。例えば、オクルージョンマップの場合、合成モジュールは、ピクセルレベルにおいてオクルージョンマップを望む場合には、インデックス9に関連付けられた「レベル」要素の値1、又は、より粗いレベルにおいて、例えばサイズ8×8のブロックのためにオクルージョンマップを望む場合、インデックス9に関連付けられた「レベル」要素の値2を示すことができる。
ステップE71において、デコーダは、対応するメタデータを取得する。この目的で、図4又は図5に関連して上記で説明された例に従って、デコーダは、メタデータを取得するのに必要なデコードされたシンタックス要素を索出し、オクルージョンマップ等の、再構成のためにデコーダによって用いられないメタデータを計算する。その後、メタデータは、合成モジュールがメタデータを読み出すことができるように、所定の形式に従ってフォーマットされる。
ステップE72において、デコーダは、合成モジュールにメタデータを送信し、その後、合成モジュールは、自身の合成アルゴリズムにおいてメタデータを用いることができる。
図8は、本発明の上記で説明した特定の実施形態によるデコード方法を実施するように適合された装置DECを図式的に示している。
そのようなデコード装置は、メモリMEMと、例えばプロセッサPROCを備え、メモリMEMに記憶されたコンピュータプログラムPGによって制御される処理ユニットUTとを含んで構成される。コンピュータプログラムPGは、このプログラムがプロセッサPROCによって実行されると、上記で説明したデコード方法のステップを実施する命令を含む。
本発明の特定の実施形態によれば、デコード装置DECは、とりわけ、デコード装置が通信ネットワークを介してマルチビュービデオを表すデータストリームを受信することを可能にする通信インタフェースCOM0を備える。
本発明の別の特定の実施形態によれば、デコード装置DECは、デコード装置が合成モジュール等の画像処理装置にメタデータを送信するとともに、データストリームから再構成されたビューの画像を送信することを可能にする通信インタフェースCOM1を備える。
初期化時に、コンピュータプログラムPGのコード命令は、例えば、プロセッサPROCによって実行される前にメモリにロードされる。特に、処理ユニットUTのプロセッサPROCは、コンピュータプログラムPGの命令に従って図4、図5及び図7に関連して説明されたデコード方法のステップを実施する。メモリMEMは、とりわけ、所定の形式で、デコード方法中に取得されたメタデータを記憶するように適合されている。
本発明の特定の実施形態によれば、上記で説明したデコード装置は、テレビ受像機、移動電話(例えば、スマートフォン)、セットトップボックス、仮想現実ヘッドセット等の端末内に含まれる。
図9は、本発明の上記で説明した特定の実施形態による画像処理方法を実施するように適応された装置SYNTHを図式的に示している。
このような装置は、メモリMEM9と、例えばプロセッサPROC9を備え、メモリMEM9に記憶されたコンピュータプログラムPG9によって制御される処理ユニットUT9とを含んで構成される。コンピュータプログラムPG9は、このプログラムがプロセッサPROC9によって実行されると、上記で説明したような画像処理方法のステップを実施する命令を含む。
本発明の特定の実施形態によれば、装置SYNTHは、装置が、上記で説明された装置DEC等のデコード装置から発信されたメタデータを受信するとともに、装置DECによってマルチビュービデオを表すデータストリームから再構成されたビューの画像を受信することを可能にする通信インタフェースCOM9を備える。
初期化時に、コンピュータプログラムPG9のコード命令は、例えば、プロセッサPROC9によって実行される前にメモリにロードされる。特に、処理ユニットUT9のプロセッサPROC9は、コンピュータプログラムPG9の命令に従って図6及び図7に関連して説明された画像処理方法のステップを実施する。
本発明の特定の実施形態によれば、装置SYNTHは、装置SYNTHがディスプレイ装置、例えばスクリーンに画像を送信することを可能にする出力インタフェースAFF9を備える。例えば、そのような画像は、再構成されたビューの画像及び装置DECから受信されたメタデータを用いて装置SYNTHによって生成される、仮想視点からの画像に対応することができる。
本発明の特定の実施形態によれば、装置SYNTHは、合成モジュールである。合成モジュールは、テレビ受像機、移動電話(例えば、スマートフォン)、セットトップボックス、仮想現実ヘッドセット等の端末内に含まれる。
本発明の原理は、マルチビュービデオデコードシステムの場合において説明され、この場合では、複数のビューが同じストリーム(ビットストリーム)からデコードされ、メタデータは、ビューごとに取得される。この原理は、マルチビュービデオが複数のストリーム(ビットストリーム)を用いてエンコードされ、ストリームごとに1つのビューがエンコードされる場合に同様に当てはまる。この場合では、各ビューデコーダは、自身がデコードするビューに関連付けられたメタデータを提供する。

Claims (12)

  1. デコード装置によって実施される、マルチビュービデオを表すデータストリームのデコード方法であって、
    前記データストリームの少なくとも1つの部分からシンタックス要素を取得すること(E20)と、
    取得された前記シンタックス要素から前記マルチビュービデオのビューの少なくとも1つの画像を再構成すること(E21)と、
    を含み、該デコード方法は、
    画像合成モジュールによって必要とされるメタデータの少なくとも1つの項目を示す要求を該画像合成モジュールから受信することと、
    少なくとも1つのシンタックス要素から、所定の形式で前記メタデータの少なくとも1つの項目を取得すること(E23)と、
    前記メタデータの少なくとも1つの項目を前記画像合成モジュールに提供すること(E24)と、
    を更に含むことを特徴とする、デコード方法。
  2. メタデータの少なくとも1つの項目を取得することは、前記シンタックス要素の少なくとも1つの部分から前記メタデータの少なくとも1つの項目を計算することを更に含む、請求項1に記載のデコード方法。
  3. 前記メタデータの少なくとも1つの項目は、前記少なくとも1つの画像を再構成するのに用いられない、請求項1又は2に記載のデコード方法。
  4. 前記メタデータの少なくとも1つの項目は、以下のもの、すなわち、
    カメラパラメータ、
    デコード及びスケーリングされたモーションベクトル、
    前記再構成された画像の分割、
    前記再構成されたビューの画像のブロックによって用いられる参照画像、
    前記再構成されたビューの画像のコード化モード、
    前記再構成されたビューの画像の量子化パラメータ値、
    前記再構成されたビューの画像の予測残差値、
    前記再構成されたビューの画像内の動きを表すマップ、
    前記再構成されたビューの画像内のオクルージョンの存在を表すマップ、
    深度マップに関連付けられた信頼度値を表すマップ、
    を含むグループ内に含まれる情報の項目に対応する、請求項1~3のいずれか1項に記載のデコード方法。
  5. 前記所定の形式は、メタデータの少なくとも1つの項目がインデックスに関連付けられて記憶される、インデックス付き表に対応する、請求項1~4のいずれか1項に記載のデコード方法。
  6. 前記メタデータの少なくとも1つの項目は、前記デコード装置において指定された粒度レベルに基づいて取得される、請求項1~5のいずれか1項に記載のデコード方法。
  7. 前記要求は、利用可能なメタデータの所定のリストの中から前記必要とされるメタデータの項目を示す少なくとも1つのインデックスを含む、請求項に記載のデコード方法。
  8. マルチビュービデオを表すデータストリームのデコード装置であって、
    該装置は、
    前記データストリームの少なくとも1つの部分からシンタックス要素を取得し、
    取得された前記シンタックス要素から前記マルチビュービデオのビューの少なくとも1つの画像を再構成する、
    ように構成され(UT、MEM、COM1)、
    該デコード装置は、
    画像合成モジュールによって必要とされるメタデータの少なくとも1つの項目を示す要求を該画像合成モジュールから受信し、
    少なくとも1つのシンタックス要素から、所定の形式で前記メタデータの少なくとも1つの項目を取得し、
    前記メタデータの少なくとも1つの項目を前記画像合成モジュールに提供する、
    ように更に構成されることを特徴とする、デコード装置。
  9. デコード装置によってデコードされたビューの少なくとも1つの画像から、仮想ビューの少なくとも1つの画像を生成することを含む画像合成方法であって、該画像合成方法は、
    前記デコード装置に、前記画像を生成するのに必要とされるメタデータの少なくとも1つの項目を示す要求を送信することと、
    所定の形式で前記メタデータの少なくとも1つの項目を読み出すこと(E60)であって、前記メタデータの少なくとも1つの項目は、前記デコード装置によって、マルチビュービデオを表すデータストリームから取得された少なくとも1つのシンタックス要素から取得されることと、
    前記メタデータの少なくとも1つの読み出された項目を用いることを含む前記少なくとも1つの画像を生成すること(E61)と、
    を含むことを特徴とする、画像合成方法。
  10. デコード装置によってデコードされたビューの少なくとも1つの画像から、仮想ビューの少なくとも1つの画像を生成するように構成された画像合成装置であって、該画像合成装置は、
    前記デコード装置に、前記画像を生成するのに必要とされるメタデータの少なくとも1つの項目を示す要求を送信すること、
    該画像合成装置が所定の形式で前記メタデータの少なくとも1つの項目を読み出、前記メタデータの少なくとも1つの項目は、前記デコード装置によって、マルチビュービデオを表すデータストリームから取得された少なくとも1つのシンタックス要素から取得されること、及び、
    前記少なくとも1つの画像が生成されるときに、前記メタデータの少なくとも1つの読み出された項目が用いられること、
    を含むように構成される(UT9、MEM9、COM9)ことを特徴とする、画像合成装置。
  11. マルチビュービデオを表すデータストリームから該マルチビュービデオを表示する画像処理システムであって、
    請求項に記載のデコード装置と、
    請求項10に記載の画像合成装置と、
    を備える、画像処理システム。
  12. プロセッサによって実行されると、請求項1~のいずれか1項に記載のデコード方法を実施するか、又は、請求項に記載の画像合成方法を実施する命令を含むコンピュータプログラム。
JP2021510551A 2018-05-03 2019-04-16 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置 Active JP7371090B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023179221A JP2024012332A (ja) 2018-05-03 2023-10-18 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1853829 2018-05-03
FR1853829A FR3080968A1 (fr) 2018-05-03 2018-05-03 Procede et dispositif de decodage d'une video multi-vue, et procede et dispositif de traitement d'images.
PCT/FR2019/050892 WO2019211541A2 (fr) 2018-05-03 2019-04-16 Procédé et dispositif de décodage d'une vidéo multi-vue, et procédé et dispositif de traitement d'images

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023179221A Division JP2024012332A (ja) 2018-05-03 2023-10-18 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置

Publications (2)

Publication Number Publication Date
JP2021524214A JP2021524214A (ja) 2021-09-09
JP7371090B2 true JP7371090B2 (ja) 2023-10-30

Family

ID=63407334

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021510551A Active JP7371090B2 (ja) 2018-05-03 2019-04-16 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置
JP2023179221A Pending JP2024012332A (ja) 2018-05-03 2023-10-18 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023179221A Pending JP2024012332A (ja) 2018-05-03 2023-10-18 マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置

Country Status (7)

Country Link
US (4) US11290746B2 (ja)
EP (1) EP3788789A2 (ja)
JP (2) JP7371090B2 (ja)
KR (1) KR20210003809A (ja)
CN (1) CN112075081A (ja)
FR (1) FR3080968A1 (ja)
WO (1) WO2019211541A2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021182650A (ja) * 2018-07-20 2021-11-25 ソニーグループ株式会社 画像処理装置および方法
GB2586838B (en) * 2019-09-05 2022-07-27 Sony Interactive Entertainment Inc Free-viewpoint method and system
WO2023014576A1 (en) * 2021-08-03 2023-02-09 Leia Inc. View synthesis system and method using depth map
CN115134574B (zh) * 2022-06-24 2023-08-01 咪咕视讯科技有限公司 动态元数据生成方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140192165A1 (en) 2011-08-12 2014-07-10 Telefonaktiebolaget L M Ericsson (Publ) Signaling of camera and/or depth parameters
JP2014132721A (ja) 2013-01-07 2014-07-17 National Institute Of Information & Communication Technology 立体映像符号化装置、立体映像復号化装置、立体映像符号化方法、立体映像復号化方法、立体映像符号化プログラム及び立体映像復号化プログラム
JP2017212592A (ja) 2016-05-25 2017-11-30 キヤノン株式会社 制御装置、制御方法、及び、プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5587552B2 (ja) * 2005-10-19 2014-09-10 トムソン ライセンシング スケーラブル映像符号化を用いた多視点映像符号化
BRPI0916367A2 (pt) * 2008-07-21 2018-05-29 Thompson Licensing dispositivo de codificação para sinais de vídeo em 3d
TWI507183B (zh) 2009-09-04 2015-11-11 Alcon Inc 具晶體間混濁化抗性之眼內晶體
US8537200B2 (en) * 2009-10-23 2013-09-17 Qualcomm Incorporated Depth map generation techniques for conversion of 2D video data to 3D video data
WO2011075071A1 (en) * 2009-12-17 2011-06-23 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for video coding
WO2012052968A1 (en) * 2010-10-20 2012-04-26 Nokia Corporation Method and device for video coding and decoding
US9762903B2 (en) 2012-06-01 2017-09-12 Qualcomm Incorporated External pictures in video coding
US10452715B2 (en) * 2012-06-30 2019-10-22 Divx, Llc Systems and methods for compressing geotagged video
US9930363B2 (en) * 2013-04-12 2018-03-27 Nokia Technologies Oy Harmonized inter-view and view synthesis prediction for 3D video coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140192165A1 (en) 2011-08-12 2014-07-10 Telefonaktiebolaget L M Ericsson (Publ) Signaling of camera and/or depth parameters
JP2014528190A (ja) 2011-08-12 2014-10-23 テレフオンアクチーボラゲット エル エム エリクソン(パブル) カメラおよび/または深度パラメータのシグナリング
JP2014132721A (ja) 2013-01-07 2014-07-17 National Institute Of Information & Communication Technology 立体映像符号化装置、立体映像復号化装置、立体映像符号化方法、立体映像復号化方法、立体映像符号化プログラム及び立体映像復号化プログラム
US20150341614A1 (en) 2013-01-07 2015-11-26 National Institute Of Information And Communications Technology Stereoscopic video encoding device, stereoscopic video decoding device, stereoscopic video encoding method, stereoscopic video decoding method, stereoscopic video encoding program, and stereoscopic video decoding program
JP2017212592A (ja) 2016-05-25 2017-11-30 キヤノン株式会社 制御装置、制御方法、及び、プログラム
US20200322584A1 (en) 2016-05-25 2020-10-08 Canon Kabushiki Kaisha Control device, control method, and storage medium

Also Published As

Publication number Publication date
EP3788789A2 (fr) 2021-03-10
US20220182671A1 (en) 2022-06-09
WO2019211541A2 (fr) 2019-11-07
WO2019211541A3 (fr) 2020-01-16
JP2021524214A (ja) 2021-09-09
US11910015B2 (en) 2024-02-20
FR3080968A1 (fr) 2019-11-08
US20220182673A1 (en) 2022-06-09
US11889115B2 (en) 2024-01-30
JP2024012332A (ja) 2024-01-30
US11290746B2 (en) 2022-03-29
US20210243472A1 (en) 2021-08-05
US20220182672A1 (en) 2022-06-09
KR20210003809A (ko) 2021-01-12
CN112075081A (zh) 2020-12-11
US11910016B2 (en) 2024-02-20

Similar Documents

Publication Publication Date Title
JP7371090B2 (ja) マルチビュービデオのデコードの方法及び装置、並びに画像処理の方法及び装置
KR101340911B1 (ko) 다중 뷰들의 효율적인 인코딩 방법
US10158838B2 (en) Methods and arrangements for supporting view synthesis
EP2491722B1 (en) Depth map generation techniques for conversion of 2d video data to 3d video data
JP2020058055A (ja) 多視点信号コーデック
US20130222534A1 (en) Apparatus, a Method and a Computer Program for Video Coding and Decoding
US20090103616A1 (en) Method and device for generating depth image using reference image, method for encoding/decoding depth image, encoder or decoder for the same, and recording medium recording image generated using the method
WO2013158216A1 (en) View synthesis based on asymmetric texture and depth resolutions
KR20150122726A (ko) 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치, 화상 복호 장치, 화상 부호화 프로그램, 화상 복호 프로그램 및 기록매체
CN111630862B (zh) 用于对表示全向视频的多视图视频序列进行编码和解码的方法和设备
US20230065861A1 (en) Method and device for processing multi-view video data
Mieloch et al. A New Approach to Decoder-Side Depth Estimation in Immersive Video Transmission
WO2013039333A1 (ko) 3d 비디오 부호화/복호화 방법 및 그 장치
KR20230078669A (ko) 다시점 비디오의 인코딩 및 디코딩 방법
CN117043820A (zh) 沉浸式视频上下文中的深度估计方法
Morvan et al. Predictive coding of depth images across multiple views
BR112016020544B1 (pt) Realce consciente de profundidade para vídeo estéreo
KR20150043164A (ko) 2d 비디오 기반 3d 비디오 코딩을 위한 병합 움직임 후보 리스트를 구성하는 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231018

R150 Certificate of patent or registration of utility model

Ref document number: 7371090

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150