JP2023542979A

JP2023542979A - 没入型ビデオの符号化および復号

Info

Publication number: JP2023542979A
Application number: JP2023518747A
Authority: JP
Inventors: ヒーストバートロメウスウィルヘルムスダミアヌスファン; バートクローン; クリスティアーンフェアカンプ
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2020-09-30
Filing date: 2021-09-23
Publication date: 2023-10-12
Also published as: KR20230079184A; EP4222964A1; AR123642A1; MX2023003670A; US20230370635A1; WO2022069325A1; CN116261855A; EP3979651A1; CA3196949A1; TW202224437A

Abstract

没入型ビデオのためのマルチビューデータを符号化および復号するためのコンセプトが開示される。符号化方法では、マルチビューデータのパッチデータユニットが欠落データを表すためのインペイントされたデータを含むかどうかを示すフィールドを含むメタデータが生成される。生成されたメタデータは元のテクスチャおよび奥行きデータを含むパッチデータユニットを、インペイントされたデータ（例えば、インペイントされたテクスチャおよび奥行きデータ）を含むパッチデータユニットと区別する手段を提供する。没入型ビデオのメタデータ内にそのような情報を提供することは、ブレンディングおよびプルーニングされたビュー再構成に関連する問題に対処し得る。また、没入型ビデオのためのマルチビューデータのためのエンコーダおよびデコーダ、ならびにメタデータを含む対応するビットストリームも提供される。

Description

本発明は、没入型ビデオに関する。本発明は特に、没入型ビデオのためのマルチビューデータを符号化および復号するための方法および装置に関する。

6自由度(6DoF)ビデオとしても知られる没入型ビデオは、位置及び向きが変化する視点についてシーンのビューを再構成することを可能にする3次元(3D)シーンのビデオである。これは、3自由度(3DoF)ビデオの発展を表し、3自由度(3DoF)ビデオは、ビューが任意の向きを有する視点に対して再構成されることを可能にするが、空間内の固定点においてのみ再構成されることを可能にする。3DoFでは、自由度は角度、すなわち、ピッチ、ロールおよびヨーである。3DoFビデオは頭部の回転をサポートし、言い換えれば、ビデオコンテンツを消費するユーザは、シーン内の任意の方向を見ることができるが、シーン内の異なる場所に移動することはできない。6DoFビデオは、頭部の回転をサポートし、さらに、シーン内でのシーンが観察される位置の選択をサポートする。

6DoFビデオを生成するには、シーンを記録するために複数のカメラが必要である。各カメラは、画像データ(この文脈ではしばしばテクスチャデータと呼ばれる)および対応する奥行きデータを生成する。各画素に対して、奥行きデータは、対応する画像画素データが観察される奥行きを表す。複数のカメラのそれぞれは、シーンのそれぞれのビューを提供する。

ターゲットビューの生成に対する問題は、ソースカメラからのビューで利用可能な画像データのみを合成できることである。ターゲットビューのいくつかの画像領域は、（例えば、ソースカメラのいずれからも見えなかったので）送信されたビデオストリームから利用できないことがある。この問題に対処するために、他の背景領域から利用可能な色データを使用して、これらの画像領域を充填または「塗りつぶす」ことが典型的である。そのような「インペイント」はビュー合成段階の後の後処理段階として（例えば、デコーダにおいて）実行される。これは、特に、欠落データの領域のサイズが大きい場合、複雑な動作である。

後処理中のインペイントに対する代替策は、（例えば、エンコーダにおける）データ符号化中にインペイントを行い、次いで、通常のパッチと共に、得られたテクスチャアトラスをパックすることである。しかしながら、これには以下のような関連する欠点がある:
(i) インペイントされた画像領域は、テクスチャおよび奥行き情報を必要とする。必要な再投影のために奥行き情報が必要である。テクスチャ情報に加えて、インペイントされた奥行き情報も、元の奥行き情報よりも品質が低いと考えられる。その結果、インペイントされたデータの領域の再投影は、あまり正確ではない。
(ii)符号化されたデータからのプルーニングされた（冗長部分なしの）ソースビューの再構成中に、テクスチャアトラスが追加のインペイントされた画像領域と共にパックされるときに問題が生じる。インペイントされたパッチおよび元の画像データを有するパッチの両方が、再構成されたビュー内の同じ位置にマッピングされ、競合を引き起こすことがある。
(iii)ビデオストリーム内に追加のインペイントされたテクスチャをパックすると、ビットレートが増加する。それはまた、テクスチャおよび奥行きアトラスの必要な（アクティブな）フレームサイズ、すなわちピクセルレートを増加させる。これは、（通常は限られたリソースしか有しない）クライアントデバイス上のリソース要件を増加させる。

本発明は、請求項により規定される。

本発明の一態様による例によれば、請求項1に記載の没入型ビデオのためのマルチビューデータを符号化する方法が提供される。

提案されるコンセプトは、没入型ビデオのためのマルチビューデータを符号化することに関連するスキーム、ソリューション、コンセプト、デザイン、方法およびシステムを提供することを目的とする。具体的には、実施形態は、元のテクスチャおよび奥行き情報を保持するパッチデータユニットを、インペイントされたデータを保持するパッチデータユニットと区別するためのコンセプトを提供することを目的とする。したがって、ブレンディングおよびプルーニングされたビュー再構成の問題に対処することができる。具体的には、実施形態は、マルチビューデータのパッチデータユニットが欠落データを表すためのインペイントされたデータを含むかどうかを示す方策を提供するために、没入型ビデオのメタデータを使用することを提案する。このようにして、没入型ビデオの既存の特徴を活用して、マルチビューデータ中のインペイントされたデータの存在を示すことができる。

例えば、提案された実施形態によれば、没入型ビデオのメタデータは、パッチデータユニットがインペイントされたデータを含むかどうかを示すフィールド（すなわち、シンタックス要素、メタデータフィールド、メタデータ要素、またはデータで占められた入力要素）を含むように生成されることができる。

このフィールドは、少なくとも2つの許容値のセットを含むことができる。このセットの第1の値は、マルチビューデータのパッチデータユニットが少なくとも1つの視点からキャプチャされた元の画像データを含むことを示すことができ、このセットの第2の値は、マルチビューデータのパッチデータユニットがインペイントされたデータを含むことを示す。たとえば、このフィールドは、バイナリフラグまたはブールインジケータであることができ、したがって、（ブール値「0」/「ロー」または「1/」「ハイ」を示す）単純ビットからなることができる。このフィールドは、ビットストリーム中のシンタックス要素の形を有し得る。あるいは、このフィールドは、他のフィールドから導出される。例えば、第1の他のフィールドがビットストリーム中に存在するビューの総数を表すことができ、第2の他のフィールドがインぺイントされていないビューの総数を示すことができる。ビューインデックスがインペイントされていないビューの総数を超えている場合、（派生）フィールドは「1」であり、そうでない場合には「0」であり、またはその逆である。したがって、そのような実装は、従来の没入型ビデオメタデータに対して最小限の修正または軽微な修正しか必要としないだろう。

しかしながら、いくつかの実施形態では、許容値のセットが3つ以上の許容値を含んでもよい。たとえば、フィールドの値は、パッチデータユニットの詳細レベル（Level of Detail：LoD）を示し得る。このフィールドの1つの値は、パッチデータユニットが最高品質の（したがって、使用に対する優先度が最高である、すなわち、損失がない）元の/取得されたデータを備えることを示し得る。このフィールドの別の値は、パッチデータユニットが取得されたデータから合成されたデータを含む（すなわち、忠実度がいくらか低いが、依然として良好な品質である）ことを示し得る。このフィールドのさらに別の値は、パッチデータユニットが最低品質の（したがって、使用についての優先度が最低である、すなわち、インペイント損失がある）インペイントされたデータを含むことを示し得る。このようにして、フィールドは、インペイントされたデータに関するさらなる情報（インペイントされたデータのLoD詳細など）を提供することができる。したがって、いくつかの実施形態は、3つ以上の許容値を有するフィールドを使用することができる。したがって、このフィールドは複数のビット（たとえば、1バイトまたは複数のバイト）を備え得る。

マルチビューデータが符号化され得る。そして、このフィールドは、符号化されたマルチビューデータのフレームに関連付けられ、インペイントされたデータを有するこのフレームの1つまたは複数のパッチデータユニットの記述（または定義）を含むことができる。

いくつかの実施形態では、このフィールドは、記憶された値の識別子またはアドレスを含む。そのような記憶された値は、たとえば、レンダリングパラメータ値を含むことができる。すなわち、このフィールドは、1つまたは複数の値が検索または「ルックアップ」されることを可能にする情報を含み得る。たとえば、異なるレンダリングパラメータセットが事前に定義され、それぞれがそれぞれの一意の識別子（たとえば、アドレス）を使用して記憶され得る。そして、パッチデータユニットのためのフィールドに含まれる識別子/アドレスは、このパッチデータユニットとともに使用するためのパラメータセット（すなわち、パラメータ値のセット）を特定し、読み出すために使用され得る。すなわち、パッチデータユニットに関連付けられたフィールドは、パッチデータユニットに関連する追加の情報を見つけるための識別子またはアドレスを含むことができる。

いくつかの実施形態は、マルチビューデータのパッチデータユニットが、少なくとも1つの視点からキャプチャされた元の画像データを含むのか、または欠落した画像データを表すためのインペイントされたデータを含むのかを判断するステップと、この判断の結果に基づいて、パッチデータユニットが元の画像データを含むのかまたはインペイントされたデータを含むのかを示すためのフィールド値を定めるステップとをさらに含むことができる。すなわち、いくつかの実施形態は、パッチデータユニットがインペイントされたデータを含むか否かを判断するためにパッチデータユニット分析して、そして、分析結果に従ってフィールドの値を設定するプロセスを含むことができる。そのようなプロセスは、例えば、マルチビューデータ内のインペイントされたデータに関する情報が別の手段によって（例えば、ユーザ入力を介して、または別個のデータ分析プロセスから）提供されていないときに、行われることができる。

いくつかの実施形態によれば、フィールド値は、ビューパラメータを含むことができる。マルチビューデータのパッチデータユニットが少なくとも1つの視点から取り込まれた元の画像データを含むのか、または欠落画像データを表すためのインペイントされたデータを含むのかを判断することは、パッチデータユニットがインペイントビューへの参照を有することを識別したことに応じて、マルチビューデータのパッチデータユニットがインペイントされたデータを含むことを決定することを含み得る。そのような実施形態では、フィールドはビューパラメータの一部であってもよく、パッチは、それがインペイントビューを参照するとき、インペイントされたパッチとして識別されてもよい。これは、パッチデータユニットへとインペイントされる合成背景ビューを作成する実装にとって特に有益であり得る。

さらに、実施形態はまた、決定の結果に基づいて、パッチデータユニットに適用されるべきデータサブサンプリング係数を表す詳細レベル（LoD）値を定義するステップを含むことができる。LoD機能を採用することによって、実施形態は、インペイントされたパッチデータユニットのダウンスケーリングをサポートすることができる。

マルチビューデータは、複数のソースビューを有するビデオデータであり得、各ソースビューはテクスチャ値と奥行き値とを有する。言い換えれば、上述のようなマルチビューデータを符号化する方法は、没入型ビデオを符号化する方法に適用されることができる。

本発明の別の態様によれば、請求項8に記載の没入型ビデオのためのマルチビューデータを復号する方法が提供される。提案されるコンセプトは、したがって、没入型ビデオのためのマルチビューデータを復号することに関連するスキーム、ソリューション、コンセプト、デザイン、方法およびシステムを提供することを目的とする。具体的には、実施形態は、提案された実施形態に従って符号化されたマルチビューデータおよび関連するメタデータを含むビットストリームを復号するためのコンセプトを提供することを目的とする。そのようなコンセプトでは、パッチデータユニットのレンダリングパラメータが、マルチビューデータのパッチデータユニットがインペイントされたデータを含むことを示すフィールドに基づいて設定される。このようにして、マルチビューデータに関連するメタデータの提案されたフィールドを活用して、例えばレンダリング優先度、レンダリング順序、またはブレンディング（混合）重みなど、パッチデータユニットのためのビュー合成を制御することができる。

例として、一実施形態では、このフィールドは、レンダリングパラメータ値の識別子を含むことができる。パッチデータユニットのレンダリングパラメータを設定することは、この識別子に基づいて、レンダリングパラメータ値を特定することと、特定されたレンダリングパラメータ値にレンダリングパラメータを設定することを有することができる。このようにして、提案される実施形態は、フィールドを使用して1つまたは複数のレンダリングパラメータを「ルックアップ」するように構成され得る。たとえば、複数のレンダリングパラメータセットが事前に定義されることができ、各々がそれぞれの一意の識別子を有し、そして、パラメータセットは、その識別子がパッチデータユニットのためのフィールドに含まれていることに従って、そのパッチデータユニットとともに使用するために選択されることができる。

いくつかの実施形態において、レンダリングパラメータは、レンダリング優先度を含む。パッチデータユニットのレンダリングパラメータを設定することは、マルチビューデータのパッチデータユニットがインペイントされたデータを含むことを示すフィールドに応じて、パッチデータユニットのレンダリング優先度を第1の優先度値に設定することと、マルチビューデータのパッチデータユニットが少なくとも1つの視点からキャプチャされた元の画像データを含むことを示すフィールドに応じて、パッチデータユニットのレンダリング優先度を第2の異なる優先度値に設定することとを含み得る。したがって、パッチデータユニットをレンダリングする重要度、すなわち「重み」は、パッチデータユニットに関連付けられたフィールドがそれがインペイントされたデータを含むことを示すかどうかに従って、制御され得る。これはレンダリングまたはビュー合成の順序が、インペイントされたデータに関連するプリファレンスまたは要件に従って制御されることを可能にし得る。

また、処理システム上で実行されるときに当該処理システムに上記で要約された方法を実行させるためのコンピュータコードを含むコンピュータプログラムも開示される。コンピュータプログラムは、コンピュータ可読記憶媒体に記憶されることができる。これは、一時的でない記憶媒体であってもよい。

請求項14に記載の、没入型ビデオのためのマルチビューデータを符号化するためのエンコーダも提供される。

さらに、請求項16に記載の、没入型ビデオのためのマルチビューデータを復号するためのデコーダが提供される。

さらに別の態様によれば、請求項17に記載の没入型ビデオおよび関連するメタデータのためのマルチビューデータを含むビットストリームが提供される。

ビットストリームは、上記に要約した方法を用いて符号化および復号することができる。これは、コンピュータ可読媒体上で、または電磁搬送波上に変調された信号として実施されることができる。

本発明のこれらおよび他の態様は、以下に記載される実施形態から明らかになり、これを参照して説明される。

本発明をより良く理解し、本発明をどのように実施することができるかをより明確に示すために、単なる例として、添付の図面を参照する。
本発明の第1の実施形態による、没入型ビデオのためのマルチビューデータを符号化する方法のフローチャート。図1に示される方法を実行するように構成される、一実施形態によるエンコーダのブロック図。本発明の第2の実施形態による、没入型ビデオのためのマルチビューデータを復号する方法を示すフローチャート。図3に示す方法を実行するように構成された、実施形態によるデコーダのブロック図。

本発明は、図面を参照して説明される。

詳細な説明および特定の例は、装置、システムおよび方法の例示的な実施形態を示しているが、例示のみを目的としたものであり、本発明の範囲を限定することを意図したものではないことを理解されたい。本発明の装置、システムおよび方法のこれらおよび他の特徴、態様、および利点は、以下の説明、添付の特許請求の範囲、および添付の図面からより良く理解されるのであろう。特定の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段の組み合わせが有利に使用されることができないことを示すものではない。

開示された実施形態に対する変形例は、図面、開示、および添付の特許請求の範囲の検討から、特許請求された発明を実施する際に当業者によって理解され、実施されることができる。請求項において、単語「有する」は、他の要素又はステップを排除するものではなく、不定冠詞「a」又は「an」は、複数性を排除するものではない。

図面は単に概略的なものであり、一定の縮尺で描かれていないことを理解されたい。また、同じ参照番号が、同じまたは類似の部分を示すために、図面全体にわたって使用されることを理解されたい。

本開示による実施は、没入型ビデオのためのマルチビューデータの符号化および復号に関する様々な技法、方法、方式および/またはソリューションに関する。提案されたコンセプトによれば、いくつかのソリューションが別個に、または一緒に実装され得る。すなわち、これらの可能なソリューションは別々に以下で説明され得るが、これらの可能なソリューションのうちの2つ以上は1つの組み合わせまたは別の組み合わせで実装され得る。

MPEG Immersive Video (MIV)は、テクスチャデータ、奥行きデータ（ジオメトリまたはレンジデータとも呼ばれる）、およびメタデータの3つのデータストリームを有する。コンテンツは、標準圧縮コーデック（例えば、HEVC）を使用して符号化され、メタデータは、カメラパラメータおよびパッチデータを含む。

「パッチ」または「パッチデータユニット」という用語は、没入型ビデオの符号化されたマルチビューフレーム（アトラス）内の（矩形）領域（すなわち、パッチ）を指す。したがって、パッチ中のピクセルは、あるソースビュー中の部分を指し、等しく変換され、投影される。パッチデータユニットは、錐台スライスまたは投影面全体に対応し得る。すなわち、パッチは、必ずしもフレーム全体よりもサイズが小さい領域（すなわちフレームのサブ領域）に限定されず、フレーム全体を含んでもよい。

ソース側では、マルチビューデータは、全体の（すなわち、キャプチャされた）ビューに対応する。没入型ビデオでは、符号化されたマルチビューフレームは、通常、アトラスと呼ばれ、1つまたは複数のテクスチャおよび奥行き（ジオメトリ）画像からなる。

また、「レンダリング優先度」への言及は、順序ではなく、重要度または相対的重み付けを指すものと解釈されるべきである。したがって、パッチデータユニットに高いレンダリング優先度が割り当てられていると、そのパッチデータユニットがレンダリング待ち行列の前に向かって順序が移動することになる場合があるが、必ずしもそうとは限らない。むしろ、より高いレンダリング優先度は、レンダリング順序に影響を与え得るが、パッチデータユニットの他のファクタの相対的重要度または重みに起因して、レンダリング順序を最終的に変更しないまたは変化させないことがある。すなわち、優先度は、必ずしも時間的順序を意味しない。レンダリング順序は、実施形態に依存してもよく、インペイントされたデータおよび元のデータの異なるレンダリング順序が可能である。

提案されたコンセプトによれば、没入型ビデオのためのマルチビューデータを符号化および復号する方法が開示される。提案された符号化方法では、マルチビューデータのパッチデータユニットが欠落データを表すためのインペイントされたデータを含むかどうかを示すフィールドを含むメタデータが生成される。生成されたメタデータは、元のテクスチャおよび奥行きデータを含むパッチデータユニットと、インペイントされたデータ（例えば、インペイントされたテクスチャおよび奥行きデータ）を含むパッチデータユニットとを区別する方策を提供する。没入型ビデオのメタデータ内にそのような情報を提供することは、（ターゲットビュー合成の一部としての）混合およびプルーニングされたビュー再構成に関連する問題に対処し得る。

マルチビューデータのパッチデータ・ユニットがインペイントされたデータを含むかどうかを示すフィールドを含むメタデータを提供することによって、実施形態は、没入型ビデオ内のインペイントされたデータの位置を示すための手段を提供することができる。これはまた、インペイントされたデータを有するパッチデータユニットが低減されたレベルの詳細LoDを採用することを可能にし、それによって、必要とされるビットレートおよびピクセルレートの低減を可能にし得る。

したがって、提案されたコンセプトによれば、没入型ビデオのメタデータは、没入型ビデオのマルチビューデータ内のインペイントされたデータの存在、位置および範囲を示すように強化され得る。提案された符号化方法は、1つまたは複数のパッチにおいてインペイントされたデータを示す（拡張された）メタデータを出力することができる。この（拡張された）メタデータは、ビューをレンダリングまたは合成するために、対応する復号方法によって使用され得る。マルチビューデータのためのエンコーダおよびデコーダ、ならびに、そのような（拡張された）メタデータを有する対応するビットストリームも提供される。

図1は、本発明の第1の実施形態に係る符号化方法を示す図である。図2は、図1の方法を実行するためのエンコーダの概略ブロック図である。

エンコーダ200は、入力インタフェース210と、分析器220と、メタデータエンコーダ230と、出力部240とを有する。

ステップ110において、入力インタフェース210は、パッチデータユニットを含むマルチビューデータを受信する。本実施形態では、マルチビューデータは、複数のソースビューを含む没入型ビデオデータである。各ソースビューは、テクスチャ値および奥行き値を含む。テクスチャ値および奥行き値の符号化は本発明の範囲外であり、ここではさらに説明しない。入力インタフェース210は、分析器220に結合される

ステップ120において、分析器220は、マルチビューデータのパッチデータユニットが少なくとも1つの視点から取り込まれた元の画像データを含むのか、あるいは欠落画像データを表すためのインペイントされたデータを含むのかを判定する。

ステップ125において、分析器は、判定結果に基づいて、パッチデータユニットが元の画像データを含むのかまたはインペイントされたデータを含むのかを示すためのフィールド値を定義する。

したがって、分析器のタスクは、パッチデータユニットが元の画像データを含むのかまたはインペイントされたデータを含むのかを識別し、そのような分析の結果を示すことである。分析器220は、分析の結果をメタデータエンコーダ230に提供する

ステップ130において、メタデータエンコーダ230は、マルチビューデータのパッチデータユニットが欠落データを表すためのインペイントされたデータを含むかどうかを示すフィールドを含むメタデータ140を生成する。この例では、フィールドは、2つの許容値を有するバイナリフラグを備える（例えば、許容値が「0」（論理ロー）および「1」（論理ハイ）の単一ビット）。第1の値「0」は、マルチビューデータのパッチデータユニットが少なくとも1つの視点から取り込まれた元の画像データを含むことを示す。第2の値「1」は、マルチビューデータのパッチデータユニットがインペイントされたデータを含むことを示す。

したがって、メタデータエンコーダ230のタスクは、マルチビューデータのパッチデータユニットが欠落データを表すためのインペイントされたデータを含むかどうかを示すバイナリフラグを含む（拡張された）メタデータを生成することである。この（拡張された）メタデータは、インペイントされたデータを含むパッチデータユニットを定義する情報を含む。この実施形態ではそうではないが、メタデータのフィールドは、たとえば、インペイントされたデータのLoDなど、パッチデータユニットのインペイントされたデータに関する更なる情報を示す/含むように構成され得る。しかしながら、これは、いくつかの実施形態では必要ではない場合がある。例えば、インペイントされたデータのLoDは、予め決定され、及び/又は、標準化されてもよい。

出力部240は、生成された（拡張された）メタデータを生成して出力する。それは、マルチビューデータ（すなわち、テクスチャおよび奥行きデータストリーム）を含むビットストリームの一部として、またはビットストリームとは別個に、メタデータを出力し得る。

図3は、本発明の第2の実施形態による、没入型ビデオのための符号化マルチビューデータを復号する方法を示すフローチャートである。図4は、図3の方法を実行するためのデコーダの概略ブロック図である。

デコーダ400は、入力インタフェース410と、メタデータデコーダ420と、出力部430とを備える。オプションとして、それはレンダラ440も含むことができる。

ステップ310において、入力インタフェース410は、テクスチャ及び奥行きデータ305を含むビットストリームを受信する。入力インタフェース410はまた、ビットストリームを記述するメタデータ140を受信する。メタデータは、ビットストリームに埋め込まれていても、別個のものであってもよい。この例のメタデータ140は、上述の図1の方法に従って作成される。したがって、メタデータは、マルチビューデータのパッチデータユニットが欠落データを表すためのインペイントされたデータを含むかどうかを示すフィールドを含む。デコーダ400へのメタデータ入力は、典型的には、圧縮（および場合によっては、伝送チャネルを介した、誤差が起こりやすい通信）を後で受けた可能性がある、エンコーダ300によって出力されたメタデータの或るバージョンであることに留意されたい。

ステップ320において、メタデータデコーダ420は、メタデータを復号する。これは、マルチビューデータのパッチデータユニットがインペイントされたデータを含むかどうかを示す関連フィールドに基づいて、パッチデータユニットのレンダリングパラメータを設定することを含む。この例では、レンダリングパラメータは、レンダリング優先度になる。パッチデータユニットがインペイントされたデータを含むことを示すフィールドに応じて、パッチデータユニットのレンダリング優先度は第1の優先度値（例えば、ロー）に設定される。パッチデータユニットが少なくとも1つの視点から取り込まれた元の画像データを含むことを示すフィールドに応じて、パッチデータユニットのレンダリング優先度は第2のより高い優先度値（例えば、ハイ）に設定される。

メタデータデコーダ420は、出力部430にレンダリングパラメータを提供する。出力部430は、レンダリングパラメータを出力する（ステップ330）。

デコーダ400がオプションとしてのレンダラ440を含む場合、データデコーダ420は、復号されたレンダリングパラメータをレンダラ440に提供することができ、レンダラ440は、レンダリングパラメータに従って1つ以上のビューを再構成する。この場合、レンダラ440は、再構成されたビューを出力部430に提供することができ、出力部430はこの再構成されたビューを(例えば、フレームバッファに)出力することができる。

メタデータのフィールドが定義され、使用されることができる様々な態様がある。次に、これらの態様の幾つかをより詳細に説明する。

変形例A
いくつかの実施形態では、メタデータのフィールドがマルチビューデータのパッチデータユニットが少なくとも1つの視点からキャプチャされた元の画像データを含むのか、あるいは欠落データを表すためのインペイントされたデータを含むのかを示すバイナリフラグ（例えば、単一ビット）を含む。

エンコーダでは、パッチデータユニットが元の内容を含むときにフラグがセットされ（すなわち、アサートされる、論理ハイにセットされる、値「1」にセットされる等）、パッチデータユニットがインペイントされたコンテンツを含むときにフラグがセットされない（すなわち、ネゲートされる、論理ローにセットされる、値「0」にセットされる、等）。

デコーダにおいて:フラグが未設定のパッチのテクスチャがブレンドされるとき、ブレンド重みは低い値に設定される。したがって、（フラグが設定された）他のテクスチャデータが同じ出力位置にマッピングされるとき、それは、実質的に高いブレンディング優先度を得て、より最適な品質をもたらす。

デコーダが実際のビュー合成の前に「プルーニングされたビュー再構成」を使用する場合: 再構成処理は、フラグが設定されたパッチのみを選択的に許可することによって行われる。インペイントされたデータを事実上無視する（すなわち、インペイントされたデータを低い優先度として扱う）。その後、実際のビュー合成では、インペイントされたコンテンツを保持するパッチ（すなわち、フラグが設定されていないもの）は欠落データの領域に対してのみ使用される。

変形例B
代替の実施形態では、メタデータは、アトラスフレームごとに、インペイントされたデータを含むパッチ専用である「インペイントパッチ領域」（例えば、矩形）が指定されるように拡張される。そのような領域は、（例えば、利用可能なアトラスフレームサイズのパーセンテージとして）ユーザパラメータを用いて最初に指定されることができ、または、元のデータ対インペイントされたデータについての（最大画素レートによって決定される）利用可能なスペースのバランスをとるように自動的に決定されることができる。このようにして、メタデータのフィールドは、符号化されたマルチビューデータのフレームに関連付けられ、インペイントされたデータを含むフレームの1つまたは複数のパッチデータユニットの記述（すなわち定義）を含む。

エンコーダでは、「インペイントパッチ領域」が考慮される。インペイントされたコンテンツを含むパッチデータユニットがその中に配置され、（元のコンテンツを含む）他のパッチはその領域の外に残される。

デコーダでは、前述の実施形態で説明したのと同じ挙動が適用される。ビデオエンコーダは、テクスチャおよび/または奥行きビデオ成分について、より大きい量子化値（すなわち、より低い品質）を用いてこの領域を符号化するように命令され得る。

複数のアトラス成分がビデオフレームにパックされるMIVの実装の場合、パッチデータユニットは、別個のアトラスの一部であり得、そのアトラスはビデオフレームにパックされ得る。すなわち、ビデオフレームの1つまたは複数の部分が、これらのインペイントされたパッチデータユニットに関連するビデオデータのために予約され得る。

変形例Aは、パッチデータユニットに関連付けられたフラグを追加するだけであるので、現在のMIV(ドラフト）規格への必要となる変更量が最小であることに留意されたい。また、（変形例Bと比較して）すべてのパッチデータユニットをより効率的にパックすることもできる。品質フラグ（たとえば、ビット）の代わりに品質値（たとえば、バイト）を使用することで、品質がさらに最適化され得るという追加の利点を有し得る。

変形例Bは、パッチデータユニットごとのメタデータシンタックスを必要とせず、したがって、必要なメタデータビットレートが低い。さらに、インペイントされたコンテンツを保持するパッチは一緒にコンパクトにパックされることができ、それにより、専用のインペイントレンダリング段階（例えば、最初に、インペイントされたデータによりバックドロップを作成し、次いで、通常のパッチデータを使用して合成する）のために使用されるべき三角形の別個のメッシュの作成を可能にし得る。

背景技術で上述したように、エンコーダにおける欠落データのインペイントは、ビットレート及びピクセルレートを増加させる。ここで、この増加を制限することを目的とする、提案された実施形態に対する拡張および/または修正を説明する。

インペイントされたコンテンツを含むパッチのダウンスケーリング
ビットレートおよびピクセルレートを低減するために、ペイントされたコンテンツが、より小さいスケール（すなわち、低減されたLoD）を使用して、パッチにパックされることが提案される。特に、いくつかの実施形態は、インペイントされたコンテンツを有するパッチデータユニットが、ビットレートおよびピクセルレートを低減するためにより低いLoDを使用することができるように、パッチデータユニットごとにLoDを指定するように構成され得ることが提案される。

使用される伝送規格は、パッチデータユニット毎のLoD指定が、インペイントされたパッチデータユニットに対してデフォルトで有効にされ、通常のパッチ（すなわち、元のデータからなるパッチ）に対してデフォルトで無効にされるシンタックス/セマンティックをサポートすることができる。デフォルトのLoDパラメータ値は、インペイントされたパッチを含むビットストリームに対して指定されることができる。

典型的な実装は、インペイントされたデータを2倍でサブサンプリングし、通常のパッチをサブサンプリングしないように構成され得る。しかしながら、実施形態は、（例えば、シーンの低テクスチャ部分に対してより低いLoDを使用するために）パッチ毎にデフォルトのLoDパラメータ値をオーバーライドにするように依然として構成され得る。

背景を表現するための低解像度メッシュの採用
最小限の/散在的な頂点のセットを有する特定のメッシュが、欠落した背景コンテンツを表すために使用され得る。頂点は、色データ（または既存のテクスチャにおける色データへの参照）を伴うことができる。そのようなアプローチは、比較的大きな背景領域が少数の頂点のみで表され得るという利点を提供する。

そのような低解像度メッシュは、エンコーダ側でソースビューの奥行きマップから構築され得る。しかしながら、これは必ずしもそうとは限らず、テクスチャを有するグラフィックモデルが背景メッシュとして使用されてもよい。すなわち、人工（グラフィックス）データと実際のカメラデータとの組み合わせが用いられてもよい。

関連するテクスチャを有する低解像度メッシュは、ソースビューと同じ投影空間において表される必要はない。たとえば、ソースビューが所与の視野（FoV）を有する透視投影を有するとき、ビューポートの境界でのアンカバリングを回避するために、より大きいFoVを有する透視投影に対して低解像度背景メッシュが定義され得る。背景メッシュの球面投影を選択することも有用であり得る。

低解像度背景メッシュは、関連するメタデータが定義/生成されることを必要とし得る。したがって、いくつかの実施形態は、関連する低解像度メッシュを定義および/または記述するためのフィールドを含むメタデータを生成するステップを含むことができる。たとえば、最も単純な形態では、このフィールドは、背景メッシュの存在を示すバイナリフラグを含むことができる。このフィールドは、代替的に、奥行きおよびテクスチャデータの位置および/または規格投影パラメータなど、さらなる情報が示されることを可能にする形態であってもよい。そのような追加の情報（例えば、レンダリングパラメータ）が存在しない場合、デフォルトのパラメータが使用され得る。

上述の例示的な実施形態では、フィールドがバイナリフラグまたはブールインジケータを含むものとして説明されている。しかしながら、マルチビューデータのパッチデータユニットがインペイントされたデータを含むかどうかを示すための提案されたフィールドは、単純なバイナリ表示を超える追加情報を提供するように構成され得ることを理解されたい。たとえば、いくつかの実施形態では、フィールドは、可能な値の大きな範囲を示すための1つまたは複数のバイトを含むことができる。また、可能な値は、記憶された値の識別子またはアドレスを含むことができ、したがって、情報を検索または「ルックアップ」することが可能になる。

たとえば、複数のレンダリングパラメータセットが事前定義され、それぞれがそれぞれの一意の識別子（たとえば、アドレス）とともに記憶され得る。そして、パッチデータユニットのためのフィールドに含まれる識別子は、パッチデータユニットとともに使用するためのパラメータセットを選択して読み出すために使用され得る。すなわち、パッチデータユニットに関連付けられたフィールドは、パッチデータユニットに関する追加情報を識別するための識別子またはアドレスを含むことができる。

もちろん、提案されたメタデータフィールドを使用して、インペイントされたパッチデータユニットに関する他の情報を提供することも可能である。そのような機能はデータ品質、レンダリングプリファレンス、1つまたは複数の識別子などを含むことができる（ただし、選好に限定されない）。そのような情報は、他の情報またはレンダリングパラメータと組み合わされて、その全体がまたは区分的に使用され得る。

本発明の実施形態は、パッチデータユニットを記述するメタデータの使用に依存する。メタデータは復号処理にとって重要であるため、メタデータが追加の誤り検出符号または誤り訂正符号と共に符号化されると有益である。適切な符号は、通信理論の分野で知られている。

図1および図3の符号化および復号方法、ならびに図2および図4のエンコーダおよびデコーダは、ハードウェアまたはソフトウェア、あるいはその両方の混合(たとえば、ハードウェア装置上で実行されるファームウェアとして)で実装され得る。一実施形態が部分的にまたは全体的にソフトウェアで実装される限り、プロセスフローチャートに示される機能ステップは、1つまたは複数の中央処理装置(CPU)またはグラフィックス処理装置(GPU)などの適切にプログラムされた物理的コンピューティングデバイスによって実行され得る。各プロセス、およびフローチャートに示されるその個々のコンポーネントステップは、同じまたは異なるコンピューティング装置によって実行され得る。実施形態によれば、コンピュータ可読記憶媒体は、プログラムが1つ以上の物理的コンピューティング装置上で実行されるときに、1つ以上の物理的コンピューティング装置に上記のような符号化または復号方法を実行させるように構成されたコンピュータプログラムコードを含むコンピュータプログラムを記憶する。

記憶媒体は、RAM、PROM、EPROM、およびEEPROMなどの揮発性および不揮発性コンピュータメモリ、（CD、DVD、BDなどの）光ディスク、（ハードディスクおよびテープなどの）磁気記憶媒体を含み得る。様々な記憶媒体は、モバイルコンピューティングデバイス内に取り付けられてもよいし、記憶媒体に記憶される1つ以上のプログラムが処理器に読み込まれるように、搬送可能でもよい。

一実施形態によるメタデータは、記憶媒体に記憶されてもよい。一実施形態によるビットストリームは、同じ記憶媒体または異なる記憶媒体に記憶されてもよい。メタデータはビットストリームに埋め込まれることができるが、これは必須ではない。同様に、メタデータおよび/または(ビットストリーム中のメタデータまたはそれとは別個のメタデータを伴う)ビットストリームは、電磁搬送波上に変調された信号として送信されてもよい。信号は、デジタル通信のための規格に従って定義されてもよい。搬送波は、光搬送波、高周波、ミリ波、近距離通信波であってもよい。有線または無線の場合がある。

一実施形態が部分的にまたは全体的にハードウェアで実施される限り、図2および図4のブロック図に示されるブロックは、別個の物理的コンポーネント、または単一の物理的コンポーネントの論理的細分であってもよく、またはすべてが1つの物理的コンポーネントに統合された形で実施されてもよい。図面に示される1つのブロックの機能は実装において複数のコンポーネントに分割されてもよく、または図面に示される複数のブロックの機能は実装において単一のコンポーネントに組み合わされてもよい。本発明の実施形態で使用するのに適したハードウェアコンポーネントには、従来のマイクロプロセッサ、特定用途向け集積回路(ASIC)、およびフィールド・プログラマブル・ゲート・アレイ(FPGA)が含まれるが、これらに限定されない。1つまたは複数のブロックは、いくつかの機能を実行するための専用ハードウェアと、他の機能を実行するための1つまたは複数のプログラムされたマイクロプロセッサおよび関連する回路との組合せとして実装され得る。

開示された実施形態に対する変形例は、図面、開示、および添付の特許請求の範囲の検討から、特許請求された発明を実施する際に当業者によって理解され、実施されることができる。請求項において、単語「有する」は、他の要素又はステップを排除するものではなく、不定冠詞「a」又は「an」は、複数性を排除するものではない。単一のプロセッサ又は他のユニットが、請求項に列挙されるいくつかの項目の機能を果たすことができる。特定の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段の組み合わせが有利に使用されることができないことを示すものではない。コンピュータプログラムが上述される場合、コンピュータプログラムは、適切な媒体、例えば他のハードウェアと一緒に或いはその一部として供給される光記憶媒体若しくはソリッドステート媒体に記憶又は配布されることができるが、他の形態、例えばインターネット又は他の有線若しくは無線電気通信システムを介して配布されてもよい。「に適応する」という用語が請求項又は明細書に用いられる場合、「に適応する」という用語は、「ように構成される」と言う用語と同様であることを意味する。請求項におけるいかなる参照符号も、範囲を限定するものとして解釈されるべきではない。

Claims

没入型ビデオのためのマルチビューデータを符号化する方法であって、
欠落データを表すインペイントされたデータを前記マルチビューデータのパッチデータユニットが有するかを示すフィールドを有するメタデータを生成するステップを有する方法。
前記フィールドが、少なくとも２つの許容値のセットを有し、前記セットのうちの第1の値は、前記マルチビューデータの前記パッチデータユニットが少なくとも１つの視点からキャプチャされた元の画像データを有することを示し、前記セットのうちの第2の値は、前記マルチビューデータの前記パッチデータユニットがインペイントされたデータを有することを示し、前記フィールドの値が、前記パッチデータユニットのための詳細レベルを示す、請求項１に記載の方法。
前記フィールドが、記憶された値の識別子またはアドレスを有する、請求項１に記載の方法。
前記記憶された値がレンダリングパラメータ値を含む、請求項３に記載の方法。
マルチビューデータのパッチデータユニットが少なくとも１つの視点からキャプチャされた元の画像データを有するのか、あるいは、欠落画像データを表すインペイントされたデータを有するのかを判断するステップと、
判断の結果に基づいて、前記パッチデータユニットが元の画像データを有するのかインペイントされたデータを有するのかを示すためのフィールドの値を決定するステップと、
を有する請求項１から４のいずれか一項に記載の方法。
前記フィールドの値がビューパラメータを有し、
マルチビューデータのパッチデータユニットが少なくとも１つの視点からキャプチャされた元の画像データを有するのか、あるいは、欠落画像データを表すインペイントされたデータを有するのかを判断する前記ステップが、
前記パッチデータユニットがインペイントビューへの参照を有することを識別したことに応じて、マルチビューデータの前記パッチデータユニットがインペイントされたデータを有すると決定する、
請求項３に従属する請求項５に記載の方法。
没入型ビデオのためのマルチビューデータを復号する方法であって、
マルチビューデータおよび関連するメタデータを有するビットストリームを受信するステップであって、前記メタデータが、前記マルチビューデータのパッチデータユニットが欠落データを表すインペイントされたデータを有するかを示すフィールドを有する、ステップと
前記マルチビューデータの前記パッチデータユニットを復号するステップであって、前記マルチビューデータの前記パッチデータユニットがインペイントされたデータを有することを示す前記フィールドに基づいて前記パッチデータユニットのレンダリングパラメータを設定するステップを含む、ステップと、を有する方法。
前記フィールドが、記憶された値の識別子またはアドレスを有し、
前記パッチデータユニットの前記レンダリングパラメータを設定するステップが、
前記識別子またはアドレスに基づいて、前記記憶された値を特定し、
前記記憶された値に基づいて前記レンダリングパラメータを設定する、
請求項７に記載の方法。
前記レンダリングパラメータがレンダリング優先度を有し、
前記パッチデータユニットの前記レンダリングパラメータを設定するステップが、
前記マルチビューデータの前記パッチデータユニットがインペイントされたデータを有することを示す前記フィールドに応じて、前記パッチデータユニットのレンダリング優先度を第1の優先度値に設定し、
前記マルチビューデータの前記パッチデータユニットが少なくとも１つの視点からキャプチャされた元の画像データを有することを示す前記フィールドに応じて、前記パッチデータユニットの前記レンダリング優先度を第２の異なる優先度値に設定する、請求項７または８に記載の方法。
前記フィールドが、前記マルチビューデータのフレームに関連付けられ、インペイントされたデータを有する前記フレームの１つまたは複数のパッチデータユニットの記述を有し、
前記マルチビューデータの前記パッチデータユニットを復号するステップが、
前記パッチデータユニットがインペイントされたデータを有するかを判断するために前記記述を分析し、
前記分析の結果に基づいて前記パッチデータユニットのレンダリングパラメータを設定する、
請求項７から９のいずれいか一項に記載の方法。
前記フィールドの値がビューパラメータであり、前記記述の分析が、当該記述がインペイントビューへの参照を有するかを判断することを含む、請求項１０に記載の方法。
処理システムにより実行され、当該処理システムに請求項１から１１のいずれか一項に記載の方法を実行させるコンピュータプログラム。
没入型ビデオのためのマルチビューデータを符号化するためのエンコーダであって、欠落データを表すインペイントされたデータを前記マルチビューデータのパッチデータユニットが有するかを示すフィールドを有するメタデータを生成するように構成されたメタデータ符号化器を有する、エンコーダ。
没入型ビデオのためのマルチビューデータを復号するためのデコーダであって、
マルチビューデータおよび関連するメタデータを有するビットストリームを受信するように構成された入力インタフェイスであって、前記メタデータが、前記マルチビューデータのパッチデータユニットが欠落データを表すインペイントされたデータを有するかを示すフィールドを有する、入力インタフェイスと、
前記マルチビューデータの前記パッチデータユニットを復号するように構成されたデータ復号器であって、前記マルチビューデータの前記パッチデータユニットがインペイントされたデータを有することを示す前記フィールドに基づいて前記パッチデータユニットのレンダリングパラメータを設定する、データ復号器と、を有するデコーダ。
没入型ビデオのためのマルチビューデータおよび関連するメタデータを有するビットストリームであって、前記メタデータが、前記マルチビューデータのパッチデータユニットが欠落データを表すインペイントされたデータを有するかを示すフィールドを有する、ビットストリーム。