JP2023535581A

JP2023535581A - 画像またはビデオ符号化のためのビューのパッキング

Info

Publication number: JP2023535581A
Application number: JP2023504715A
Authority: JP
Inventors: ウィルヘルムスヘンドリクスアルフォンススブルルス
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2020-07-31
Filing date: 2021-07-26
Publication date: 2023-08-18
Also published as: US20230262262A1; EP3945720A1; WO2022023227A1; TW202215850A; CA3190265A1; BR112023001623A2; EP4189958A1; KR20230043977A; CN116158075A

Abstract

3DoF+ビデオのための符号化器、復号器、符号化方法および復号方法が開示される。符号化方法は、基本ビューと、シーンの少なくとも第1の追加ビューとを備えるマルチビュー画像またはビデオデータを受信するステップ110を有する。本方法は、基本ビュー内に見えないシーンコンテンツを含むために符号化される必要がある第1の追加ビュー内の画素を識別するステップ220に進む。第1の追加ビューは、複数の画素の第1のブロックに分割される（230）。識別された画素のうちの少なくとも1つを含む第1のブロックが保持され（240）、識別された画素のいずれをも含まない第1のブロックが破棄される。保持されたブロックは、少なくとも1つの次元において連続するように再配置される（250）。パックされた追加のビューが、再配置された第1の保持されたブロックから生成され（260）、符号化される（264）。

Description

本発明は、マルチビュー画像またはビデオデータの符号化に関する。本発明は特に、仮想現実（VR）または没入型ビデオアプリケーションのためのビデオシーケンスを符号化および復号するための方法および装置に関する。

いくつかの異なるタイプの没入型メディアコンテンツのための符号化方式が、当技術分野で研究されている。1つのタイプは、3自由度（3DoF）ビデオとしても知られる360°ビデオである。これにより、（コンテンツの消費者によって選択された）任意の向きを有するが、空間内の固定点にのみある視点について、シーンのビューが再構成されることが可能になる。3DoFでは、自由度は角度、すなわち、ピッチ、ロールおよびヨーである。3DoFビデオは頭部の回転をサポートし、言い換えれば、ビデオコンテンツを消費するユーザは、シーン内の任意の方向を見ることができるが、シーン内の異なる場所に移動することはできない。

名前が示すように、「3DoF+」は、3DoFビデオの拡張を表す。「+」は、シーン内の視点の限定された並進変化をさらにサポートすることを反映する。これにより、着座者は例えば、頭部を上下、左右、前後に少しずつ移動させることができる。これは、ユーザが視差効果を体験し、ある程度シーン内のオブジェクトを「見回る」ことを可能にするので、体験を向上させる。

制約のない並進が6自由度（6DoF）ビデオの目的である。これは、完全に没入した体験を可能にし、それによって、観察者は仮想シーンの中で自由に移動することができ、シーン内の任意の点から任意の方向に見ることができる。3DoF+は、これらの大きな並進をサポートしない。

3DoF+は、関心が高まっているバーチャルリアリティ（VR）アプリケーションのための重要な有効化技術である。通常、VR 3DoF+ コンテンツは、複数のカメラを使用してシーンをキャプチャし、様々な（わずかに）異なる表示位置から様々な異なる方向を見ることによって記録される。各カメラは、（「テクスチャ」データとも呼ばれる）画像データおよび奥行きデータを含む、シーンのそれぞれの「ビュー」を生成する。各画素に対して、奥行きデータは対応する画像画素データが観察される奥行きを表す。

ビューはすべて、わずかに異なる位置および角度から、同じシーンを表すので、通常、異なるビューのコンテンツには高度の冗長性がある。言い換えれば、各カメラによってキャプチャされた視覚情報の多くは、1つ以上の他のカメラによってもキャプチャされる。帯域幅効率の良い方法でコンテンツを記憶および/または送信し、計算効率の良い方法でコンテンツを符号化および復号するために、この冗長性を低減することが望ましい。コンテンツは1回生成（および符号化）されるが、複数のユーザによって、複数回消費（したがって復号）され得るので、復号器の複雑さを最小限に抑えることが特に望ましい。

ビューの中で、1つのビューを「基本」ビューまたは「中央」ビューとして指定することができる。他のものは、「追加」ビューまたは「サイド」ビューとして指定され得る。

計算労力、エネルギー消費、およびデータレート（帯域幅）の観点から、基本ビューおよび追加ビューを効率的に符号化および復号することが望ましい。ビットレートと処理する必要がある画素数（画素レート）の両方の観点から符号化効率を高めることが望ましい。ビットレートは、符号化されたビューを記憶および/または送信するのに必要な帯域幅、ならびに復号器の複雑さに影響を及ぼす。画素レートは、復号器の複雑さに影響する。

本発明は、請求項により規定される。

本発明の一態様による例によれば、請求項1に記載のマルチビュー画像またはビデオデータを符号化する方法が提供される。

ここで、「少なくとも1つの次元で連続している」とは、（i）保持された第1のブロック間にギャップがなく、ブロックの各行に沿って左から右または右から左にスキャンすること、または（ii）保持された第1のブロック間にギャップがなく、ブロックのすべての列に沿って上から下または下から上にスキャンすること、または（iii）保持された第1のブロックが２つの次元で連続していることを意味する。ケース（i）は、ブロックが行に沿って接続されることを意味し、各行の左端および右端のブロックを除いて、保持された第1のブロックはすべて、保持された別の第1のブロックに左右において隣接する。しかしながら、保持されたブロックがない1つ以上の行が存在してもよい。ケース（ii）は、ブロックが列に沿って接続されていることを意味し、各列の上端および下端のブロックを除き、保持された第1のブロックはすべて、保持された別の第1のブロックに上下において隣接している。しかしながら、保持されたブロックがない1つ以上の列が存在してもよい。

（iii）のケースにおいて、「2つの次元で連続している」とは、保持されているすべての第1のブロックが少なくとも1つの他のそのようなブロック（上、下、左または右）に隣接していることを意味する。したがって、孤立したブロックまたはブロックのグループは存在しない。好ましくは、2つの1次元の場合について上述したように、列のいずれにも沿ってギャップがなく、行のいずれにも沿ってギャップがない。

保持された第1のブロックを並べ替えることは、各々の保持された第1のブロックを、1つの次元にシフトすること、特に、その最も近い隣接する保持された第1のブロックにその次元に沿って直接隣接して位置付けることを含み得る。

このシフトは、ブロックの行に沿って水平方向にシフトすること、またはブロックの列に沿って垂直方向にシフトすることを含むことができる。水平にシフトすることが好ましい場合がある。いくつかの例では、ブロックは水平および垂直の両方にシフトされ得る。例えば、ブロックはブロックの連続する行を生成するために、水平にシフトされ得る。次いで、連続する行は、ブロックが2つの次元で連続するように、垂直にシフトされ得る。

シフトは、保持された第1のブロックを同じ方向にシフトすることを含み得る。たとえば、ブロックを左にシフトする。

パックされた追加のビューでは、保持された第1のブロックがビューの1つの端と連続していてもよい。これは、パックされた追加ビューの左端であってもよい。

ブロックは、すべて同じサイズを有し得る。

方法は、パックされた追加のビューを符号化する前に、パックされた追加のビューを第1の部分と第2の部分とに分割することと、変換されたパックされたビューを生成するために、第1の部分に対して第2の部分を変換することと、変換されたパックされたビューをビデオビットストリームに符号化することとをさらに有し得る。すなわち、変換されたパックされたビューが、元のパックされた追加のビューの代わりに符号化される。この変換は、変換されたパックされたビューが少なくとも1つの次元において縮小されたサイズを有するように選択され得る。特に、変換されたパックされたビューは、低減された水平サイズを有し得る（すなわち、画素の列の数が低減される）。

この変換は、オプションとして、第2の部分を水平方向に反転させること、第2の部分を垂直方向に逆転させること、第2の部分を転置すること、第2の部分を水平方向に沿って循環してシフトさせること、および第2の部分を垂直方向に沿って循環してシフトさせることのうちの1つまたは複数を含む。

反転は、行の鏡像（左右）を生成する。逆転とは、列を上下にひっくり返すことを意味する。転置とは、最初の行が元の最初の列に置き換えられ、2 番目の行が元の2 番目の列に置き換えられるように、列を行と入れかえること（およびその逆）を意味する。

第1の部分および第2の部分のうちの少なくとも1つにおける保持されたブロックは、それらを左にシフトすることによって再配置され得る。この左シフトは、第1の部分に対する第2の部分の変換の前および/または後に実行されることができる。このアプローチは、変換されたパックされた追加ビューを後に圧縮するときにうまく機能し得る。多くの圧縮規格が機能するため、このアプローチは、圧縮後のビットレートを低減するのに役立ち得る。

本方法は、第2の部分が第1の部分に対してどのように変換されたかの記述をメタデータビットストリームに符号化することをさらに含むことができる。

本方法は、パックされた追加のビューへと追加のビューがパックされた順序の記述をメタデータビットストリームに符号化することをさらに含むことができる。

メタデータビットストリームは、可逆圧縮を使用して、オプションとして誤り検出および/または訂正符号とともに、符号化され得る。

パックされた追加のビューは、少なくとも1つの次元に沿って、各々の追加のビューと同じサイズを有し得る。特に、それらは、垂直次元に沿って同じサイズを有し得る（すなわち、画素の行の数が同じ）。

本方法は、ビデオ圧縮アルゴリズムを使用して、オプションとして、非可逆圧縮を採用し得る標準化ビデオ圧縮アルゴリズムを使用して、基本ビューとパックされた追加ビューとを圧縮することをさらに備え得る。例としてはH.265およびMPEG-Hパート2としても知られる高効率ビデオ符号化（HEVC）が挙げられるが、これらに限定されない。ビットストリームは、圧縮された基本ビューと圧縮されパックされた追加ビューとを有することができる。

ビデオ圧縮アルゴリズムの圧縮ブロックサイズは、少なくとも1つの次元において、その次元における第1および第2のブロックのサイズよりも大きくなり得る。これは、複数のより小さいブロック（またはブロックのスライス）がビデオ圧縮のために単一の圧縮ブロックにまとめられることを可能にし得る。これは、保持されたブロックの符号化効率を改善するのに役立ち得る。

各ビューは、画像（テクスチャ）値および奥行き値を有し得る。

請求項10に記載のマルチビュー画像またはビデオデータを復号する方法も提供される。

第1のブロックを配置することは、第1のパッキングメタデータにおける記述に従って、それらを1つの次元においてシフトすることを有することができる。特に、第1のブロックは、前記次元に沿って離間した位置にシフトされることができる。いくつかの例では、この配置は、第1のブロックを2つの次元においてシフトすることを含み得る。

ビデオビットストリーム内のビューは、ビデオ圧縮アルゴリズムを使用して、オプションとして標準化ビデオ圧縮アルゴリズムを使用して、圧縮されている場合がある。本方法は、ビューを復号するとき、ビデオ圧縮アルゴリズムに従ってビューを展開することを有することができる。

本方法は、パックされた追加のビューの第2の部分を第1の部分に対して逆変換することを含むことができる。逆変換は、符号化中に第2の部分が第1の部分に対してどのように変換されたかについての、メタデータビットストリームから復号された記述に基づき得る。

コンピュータ可読媒体、好ましくは非一時的コンピュータ可読媒体上に提供され得る、請求項12に記載のコンピュータプログラムも提供される。

請求項13に記載の符号化器、請求項14に記載の復号器及び請求項15に記載のビットストリームも提供される。

このビットストリームは、上記に要約した方法を用いて符号化および復号されることができる。これは、コンピュータ可読媒体上で、または電磁搬送波上に変調された信号として実施されることができる。コンピュータ可読媒体は、非一時的コンピュータ可読媒体であり得る。

本発明のこれらおよび他の態様は、以下に記載される実施形態から明らかになり、これを参照して説明される。

本発明をより良く理解し、本発明をどのように実施することができるかをより明確に示すために、単なる例として、添付の図面を参照する。
一実施形態に従って動作するビデオ符号化及び復号化システムを示す図。一実施形態による符号化器のブロック図。図2のブロック図の構成要素をより詳細に示す図。図1の符号化器によって実行される符号化方法を示すフローチャート。一実施形態による画素の保持されたブロックの再配置を示す図。画素のブロックの再配置のためのさらなるステップを示すフローチャート。は、図6に示されるプロセスを用いたパックされた追加のビューの一部の変換を示す図。一実施形態による復号器のブロック図図8の復号器によって実行される復号方法を示すフローチャート。

本発明は、図面を参照して説明される。

詳細な説明および特定の例は、装置、システムおよび方法の例示的な実施形態を示しているが、例示のみを目的としたものであり、本発明の範囲を限定することを意図したものではないことを理解されたい。本発明の装置、システムおよび方法のこれらおよび他の特徴、態様および利点は、以下の説明、添付の特許請求の範囲および添付の図面からより良く理解されるであろう。図面は単に概略的なものであり、一定の縮尺で描かれていないことを理解されたい。また、同じ参照番号が、同じまたは類似の部分を示すために、図面全体にわたって使用されることを理解されたい。

本明細書で使用されるとき、「ビュー」は、シーンの画像を指す（この画像は、静止画像またはビデオのフレームであってもよい）。画像は、行および列から構成される画素の2次元アレイからなる。このアレイ内で、行は水平方向に延び、列は垂直方向に延びる。方向「左」および「右」は水平（すなわち、行）次元を指す。方向「上」/「上方」および「下」/「下方」は垂直（すなわち、列）次元を指す。最も左の画素は、各行の最初の画素である。最も上の画素は、各列の最初の画素である。画像が全て（画素数に関して）同じ高さを有する画素のブロックに分割されるとき、これは、ブロックの行をもたらす。画像が全て（ここでも画素の数として測られる）同じ幅を有する画素のブロックに分割されるとき、これは、ブロックの列をもたらす。画像が同じ高さおよび幅を有するブロックに分割されるとき、これは、ブロックの行および列から構成される、ブロックの規則的なアレイをもたらす。

基本（または「中央」）ビューは、その全体が符号化され得るが、余分なビジュアルコンテンツ、すなわち、基本ビューによってすでに十分に正確に表されているビジュアルコンテンツを含む範囲において、追加のビューを「プルーニング」する（刈り込む）ことが可能である。これは、ビジュアルコンテンツが比較的少ないプルーニングされた追加のビューをもたらす。本発明者らは、追加のビューを圧縮する前に、これらの追加のビューをブロックに分割し、これらのブロックをより効率的にパックするためにこれらのブロックを再配置することが有利であり得ることを認識した。

図1は、一実施形態によるシステム全体を示す。図1は、3DoF+ビデオを符号化および復号するためのシステムを簡略化された形で示す。カメラのアレイ10は、シーンの複数のビューをキャプチャするために使用される。各カメラは、その前方のビューの従来の画像(本明細書ではテクスチャマップと呼ぶ)と奥行きマップとを撮像する。テクスチャおよび奥行きデータを含むビューのセットは、符号化器100に提供される。符号化器は、テクスチャデータと奥行きデータの両方を、従来のビデオビットストリーム、たとえば、高効率ビデオコーディング（HEVC）ビットストリームに符号化する。これは、ビデオビットストリームのそれぞれの部分の意味を復号器400に通知するために、メタデータビットストリームを伴う。たとえば、メタデータは、ビデオビットストリームのどの部分がテクスチャマップに対応し、どの部分が奥行きマップに対応するかを復号器に伝える。符号化方式の複雑さと柔軟性に応じて、多かれ少なかれメタデータが必要とされる。例えば、非常に単純なスキームは、ビットストリームの構造を非常に厳密に指示し、それを復号器側でアンパックするためにメタデータをほとんどまたはまったく必要としないようにすることができる。ビットストリームにオプションの可能性が多数ある場合、より多くのメタデータが必要になる。

復号器400は、符号化されたビュー（テクスチャおよび奥行き）を復号し、シーンの少なくとも1つのビューをレンダリングする。それは、レンダリングされたビューを、仮想現実ヘッドセット40などのディスプレイデバイスに渡す。ヘッドセット40は、復号されたビューを使用して、ヘッドセット40の現在の位置及び向きに従って、復号器400に3Dシーンの特定のビューをレンダリングすることを要求する。

図1に示すシステムの利点は、従来の2Dビデオコーデックを使用して、テクスチャおよび奥行きデータを符号化および復号することができることである。しかし、符号化、転送、復号するための大量のデータが必要であるという欠点がある。したがって、再構成されたビューの品質をできるだけ損なうことなく、ビットレートおよび/または画素レートを低減することが望ましい。

図2は、本実施の形態に係る符号化装置100のブロック図である。符号化器100は、ビデオデータを受信するように構成された入力部110と、プルーニングユニット120と、パッキングユニット130と、ビデオ符号化器140と、メタデータ符号化器150とを備える。プルーニングユニット120の出力部は、パッキングユニット130の入力部に接続される。パッキングユニット130の出力部は、それぞれビデオ符号化器140およびメタデータ符号化器150の入力部に接続される。ビデオ符号化器140は、ビデオビットストリームを出力し、メタデータ符号化器150はメタデータビットストリームを出力する。

図3は、プルーニングユニット120およびパッキングユニット130をより詳細に示す。プルーニングユニット120は、シーンの各サイドビューに１つの、一組の画素識別ユニット122a, b,・・・を有する。図1の例では、全体で8つのビュー、すなわち1つの基本ビューおよび7つのサイドビューがあった。図3は、説明を容易にするために、2つのサイドビューのみを示す。他のサイドビューも同様に処理されることができることが理解されるであろう。プルーニングユニット120はさらに、ここでもサイドビュー毎に1つの、一組のブロック整列ミュータ124a, b,を有する。パッキングユニット130は、左シフトユニット132a, b等の対応するセットを有する。それはさらに、サイドビューをパックされた追加のビューへと結合するためのビュー結合器134を有する。

次に、図4を参照して、符号化器100によって実行される方法について説明する。ステップ210において、入力部110は、基本ビューおよび追加の（サイド）ビューを含むビデオデータを受信する。本説明の目的のために、基本ビューは別々に符号化および圧縮されると想定され、これは、本開示の対象外であり、本明細書ではさらに説明されない。サイドビューは、プルーニングユニット120に渡される。特に、第1のサイドビューは、画素識別器122aとブロック整列ミュータ124aに渡される。第2のサイドビューは、画素識別器122bおよびブロック整列ミュータ124bに渡される。

ステップ220において、各々の画素識別器122は、基本ビューでは見えないシーンコンテンツを含むために符号化される必要があるそれぞれのサイドビュー中の画素を識別する。これは、多くの異なる方法のうちの1つで行うことができる。一例では、各画素識別器は、奥行きマップの勾配の大きさを検査するように構成される。この勾配が所定の閾値を上回る画素は、符号化される必要があると識別される。これらの識別された画素は、奥行きの不連続性をキャプチャする。奥行き不連続部における視覚情報は、例えば、視差効果のために、シーンの異なるビューにおいて異なるように見えるので、符号化される必要がある。このようにして、勾配の大きさが大きい画素を識別することは、それらが基本ビューにおいて見えないので符号化される必要がある画像の領域を識別する1つの方法を提供する。

別の例では、符号化器は、破棄されている（すなわち、符号化されていない）特定の画素に基づいてテストビューポートを構築するように構成され得る。これは、これらの画素を保持しながら構築された基準ビューポートと比較され得る。画素識別部は、テストビューポートと基準ビューポートとの間の差分（たとえば、画素値間の二乗差分の合計）を計算するように構成され得る。選択された画素がないことが、テストビューポートのレンダリングにあまり影響を与えない場合（すなわち、差が所定の閾値よりも大きくない場合）、テストされた画素は符号化プロセスから破棄され得る。そうでない場合、それらを破棄することが、レンダリングされたテストビューポートに重大な影響を及ぼす場合、画素識別部122はそれらを保持するためにマークするべきである。符号化器は、破棄のために提案された画素の異なるセットを用いて実験し、最高品質および/または最低ビットレートもしくは画素レートを提供する設定を選択することができる。

画素識別部122の出力は、画素が保持されるべきか破棄されるべきかを示す、画素ごとのバイナリフラグである。この情報は、それぞれのブロック整列ミュータ124に渡される。ステップ230において、ブロック整列ミュータ124aが第1サイドビューを複数の第1画素ブロックに分割する。並行して、ブロック整列ミュータ124bは、第2のサイドビューを複数の第2画素ブロックに分割する。ステップ240において、ブロック整列ミュータ124aは、符号化される必要があるとして画素識別部122aによって識別された1つ以上の画素を含む第1ブロックを保持する。これらのブロックは、パッキングユニット130の左シフトユニット132aに渡される。識別された画素のいずれも含まないブロックは破棄される（すなわち、パッキングユニットに渡されない）。本実施形態では、これはサイドビュー内の破棄されるブロックの全てを黒い画素に置き換えることによって実現される。この黒い画素での置き換えは、本明細書では「ミューティング」と呼ばれる。対応するステップが、第2のサイドビュー上でブロック整列ミュータ124bによって実行される。保持された第2の画素ブロックは、左シフトユニット132bに渡される。

ステップ250において、左シフトユニット132aは、保持された第1の画素ブロックが少なくとも1つの次元で連続するように再配置する。これは、ブロックが全て、ブロックのそれぞれの行に沿って互いに隣接し、各行の左端のブロックが画像の左端に隣接するまで、ブロックを左にシフトすることによって行われる。この手順を図5AからCに示す。図5Aは、保持される個々のブロック32を有するサイドビュー30を示す。図5Bは、ブロック32を左にシフトするプロセスを示す。図5Cは、画像の左端に移動した後のブロックを示している。ブロックの各行は、行次元に沿って連続している。つまり、各行に沿ったブロック間にギャップはない。この例では、ブロックが列方向にも連続しているが、行に沿ってブロックをシフトする場合、必ずしもそうなるとは限らない。いくつかの行はそれらの中に保持されたブロックを有さない可能性があり、その場合、再配置された画像中のブロックのいくつかの行の間にギャップが存在する。図5A-Cに示される保持されるブロック32以外のブロックは黒にされる。図5A-Cは、例示的なサイドビューの小さい領域における少数のブロックを示すことに留意されたい。実際には、典型的にはより多くのブロックが存在する。本発明者らは、正方形ではなく長方形であるブロック、すなわち、それらの水平幅とは異なる垂直高さを有するブロックで、良好な結果が得られることを見出した。特に、垂直高さよりも小さい水平幅を有するブロックを用いることで、より良好な結果を達成することができる。32画素の垂直高さ、1画素または4画素のいずれかの水平方向の幅で、良好な結果を与えることが見出されている。

ステップ260において、ビュー結合器が、再配置された第1の保持されたブロックを（左シフトユニット132aから）パックされた追加ビューに追加する。単一のサイドビューが追加された後、パックされた追加ビューは、図5Cと同一である。ステップ270において、左シフトユニット132aは、保持された第１のブロックがどのように再配置されたかを記述する第1のパッキングメタデータを生成する。左シフトユニット132bは、第2のサイドビューの第2の保持ブロックについても同様の再配置処理を行い、どのように再配置されたかを記述した第2のパッキングメタデータを生成する。再配置されたブロックは、パックされた追加のビューに追加されるために、ビュー結合器134に渡される。それらは、様々な方法で追加されることができる。本例では、第2のサイドビューからの保持されたブロックの各行が第1のサイドビューからの保持されたブロックの対応する行に付加される。この手続きは、パックされた追加のビューが完了するまで、サイドビューのそれぞれについて繰り返されることができる。サイドビューは、ミュート段階の後、保持されたブロックが比較的まばらに配置されるので、全てのサイドビューの保持されたブロックは、より少ない数の画素かつ全てのサイドビューの総画素数を有する画像にパックされ得ることに留意されたい。特に、本例では、パックされた追加ビューは、元のサイドビューの各々と同じ数の行（すなわち、同じ垂直次元）を有するが、より少ない数の列（すなわち、より小さい水平次元）を有することができる。これは、符号化/送信される画素レートの低減を容易にする。

ステップ264において、ビデオ符号化器140はパッキングユニット130からパックされた追加ビューを受信し、パックされた追加ビューおよび基本ビューをビデオビットストリームへと符号化する。基本ビューおよびパックされた追加ビューは、非可逆ビデオ圧縮アルゴリズムであり得るビデオ圧縮アルゴリズムを使用して符号化され得る。ステップ274において、メタデータ符号化器150は、第1のパッキングメタデータ及び第2のパッキングメタデータをメタデータビットストリームに符号化する。メタデータ符号化器150はまた、追加ビューがパックされた追加ビューへと追加/パックされたシーケンスの定義を、メタデータビットストリームに符号化し得る。これは、特に、追加ビューが所定の固定された順序で追加/パックされなかった場合に行われるべきである。メタデータは、可逆圧縮を使用して、オプションとして誤り検出および/または訂正符号を使用して符号化される。これは、メタデータ内の誤りが、復号器で正しく受信されない場合には、より重大な影響を復号処理に及ぼす可能性が高いからである。適切な誤り検出および/または訂正符号は、通信理論の技術分野で知られている。

図6および図7A-Dを参照して、オプションの追加の符号化段階について説明する。図6はプロセスステップを示すフローチャートであり、図7A-Dのグラフの例で示されている。図6のプロセスは、パッキングユニット130によって実行され得る。これは、サイドビューごとに別々に実行されることもできるし、パックされた追加ビューに含まれるサイドビューの組み合わせに対して実行されることもできる。図6では後者の場合を想定している。

ステップ136において、パッキングユニット130は、パックされた追加のビューを2つの部分に分割する。図7Aに示す例では、パックされた追加ビューが左側部分30a（部分1）と右側部分30b（部分2）とに分割される。右側部分30bのブロックは説明を明確にするために、灰色で覆われている。次に、パックされた追加ビューの右側部分30bは、各行上のミュートされた（破棄された）ブロックの数をより均一にするために変換される。ステップ137において、右側部分30bが左から右に反転される。これは、図7Bに示されるように、右側部分30bをその鏡像で置き換える。ステップ138において、パッキングユニット130は、右側部分30bの保持されたブロックを、垂直に、循環してシフトする（それによって、一番上の行は、垂直に「上向き」に1行シフトされたとき、一番下の行に移動する）。図7Cに図示例では、ブロックが4行上方にシフトされる。図7Cに示すように、変換された各行は、同様の数のミュートされた（破棄された）ブロックを含む。逆に、各行は、同様の数の保持されたブロックを含むと言える。これにより、（灰色で示される）変換された右側部分の保持されたブロックを左にシフトさせ、左側部分の保持されたブロックに近づけることができる。ステップ139において、パッキングユニット130は、変換された右側部分30bを左側部分30aと再結合する。再結合プロセスでは、図7Dに示されるように、変換された右側部分の保持されたブロックが左にシフトされて、変換された圧縮ビュー30cが生成される。左シフトは、様々な方法で行うことができる。図7Dに示される例では、すべての保持されたブロックが同じ数のブロックだけ（すなわち、同じ数の列だけ）左にシフトされ、その結果、変換された右側部分の少なくとも1つの保持されたブロックは、所与の行に沿って、左側部分の少なくとも1つのブロックに隣接する。代替的に、変換された右側部分30bの各行は、変換された右側部分30bのブロックの各行が左側部分30aのブロックのそれぞれの行と連続するまで、行固有の数のブロックだけ左にシフトされ得る。メタデータ符号化器150は、変換されたパックされたビューを生成するときに、右側部分（部分2）の保持されたブロックがどのように操作されたかの記述をメタデータビットストリームに符号化する。この記述のサイズ、したがってメタデータの量は、変換の複雑さにある程度依存することに留意されたい。例えば、右側部分の全ての行が同じ数の列だけ左にシフトされる場合、変換のこの部分を記述するために、1つの値のみがメタデータに符号化される必要がある。一方、各行が異なる数の列だけシフトされる場合、メタデータ値は、行ごとに生成される。

変換の複雑さ（およびメタデータの対応するサイズ）は、変換から生じるビットレートおよび/または画素レートの低減とトレードオフするだろう。前述の説明から明らかなように、右側部分（部分2）のための変換を選択するとき、いくつかの変数が存在する。これらは、様々な異なる方法で選択することができる。例えば、符号化器は変換の異なる選択を試みることができ、各々の異なる選択に対するビットレート及び/又は画素レートの低減を測定することができる。符号化器は、次いで、ビットレートおよび/または画素レートの最大の減少をもたらす変換パラメータの組合せを選択することができる。

図8は、図2の符号化器によって生成されたビデオおよびメタデータビットストリームを復号するように構成された復号器400を示す。図9は、復号器400によって実行される、対応する方法を示す。

ステップ510において、ビデオビットストリームは、第1の入力部410において受信される。ステップ520において、メタデータビットストリームは、第1の入力部と同じであっても異なっていてもよい第2の入力部で受信される。この例では、第2の入力部は第1の入力部410と同じである。ステップ530において、ビデオ復号器420は、基本ビューおよびパックされた追加ビューを取得するために、ビデオビットストリームを復号する。これは、標準的なビデオ圧縮コーデックに従って復号することを含むことができる。ステップ540において、メタデータ復号器430は、メタデータビットストリームを復号して、第1の追加（サイド）ビューがどのようにパックされた追加ビューに追加されたかを記述する第1のパッキングメタデータと、第2の追加（サイド）ビューがどのようにパックされた追加ビューに追加されたかを記述する第2のパッキングメタデータとを取得する。これは、図5A-Cおよび図7A-Dを参照して上述されたブロックの再配置および部分のオプションの変換を記述するメタデータを含む。

復号されたパックされた追加ビューおよび復号されたメタデータは、再構成ユニット440に渡される。ステップ550において、再構成ユニット440は、復号されたパックされた追加ビューからのブロックを個々のサイドビューに配置する。これは、復号されたメタデータを使用して、符号化器で実行された操作を逆にすることによって行われる。復号された基本ビューおよび再構成されたサイドビューは、次いで、レンダラ450に渡され、レンダラ450は、ステップ560において、この入力に基づいてシーンのビューをレンダリングする。

上記の符号化（および復号）方法は、MPEGテストシーケンスを使用して、マルチビュー3DoF+符号化のための現在の最新MPEGソリューション（ISO/IEC JTC 1/SC 29/WG 11 N18464: Working Draft 1 of Metadata for Immersive Media (Video); ISO/IEC JTC 1/SC 29/WG 11 N18470: Test Model for Immersive Videoを参照）に対してテストされた。結果は下記の表１に示されている。この結果は、本実施形態の方法が、テストシーケンスおよびブロックサイズに応じて、現在の最新のアルゴリズムの34%から61%の間の画素レート、および最新のアルゴリズムの27%から82%の間のビットレートを達成することを示す。右側の列において、4×32は、水平方向に4画素幅、垂直方向に32画素高さを意味し、1×32は、水平方向に1画素幅、垂直方向に32画素高さを意味する。

当業者であれば、上述の実施形態は、本開示の範囲内の一例に過ぎないことを理解するであろう。多くの変形例が可能である。例えば、保持されたブロックの再配置は、左シフトに限定されない。ブロックは、左ではなく右にシフトされてもよい。それらは、行に沿って水平にではなく、列に沿って垂直にシフトされてもよい。いくつかの実施形態では、保持されたブロックのより良好なパッキングを達成するために、垂直シフトと水平シフトとを組み合わせることができる。理論に拘束されることを望むものではないが、ブロックが、パックされた表現において互いに隣接する保持されたブロックに同様のビジュアルコンテンツが含まれるように再配置される場合、コーディング効率が改善され得る（したがって、ビットレートが低減され得る）と考えられる。これは、標準的なビデオ圧縮アルゴリズムが最良の符号化効率を達成することを可能にすることができるが、それは標準的なビデオ圧縮アルゴリズムが、通常、このような画像コンテンツにおける空間的冗長性を活用するように設計されているからである。その結果、ブロックの異なる再配置および変換は、異なるタイプのシーンに対してより良好に機能し得る。いくつかの実施形態では、符号化器が様々な異なる並べ替えおよび変換をテストすることができ、最高品質（すなわち、再生の精度）を維持しながら、そのシーンのビットレートおよび/または画素レートの最大の減少をもたらす並べ替えおよび/または変換の組合せを選ぶことができる。

図4および図9の符号化および復号方法、ならびに図2および図8の符号化器および復号器はハードウェアまたはソフトウェア、あるいはその両方の混合(たとえば、ハードウェア装置上で実行されるファームウェアとして)で実装され得る。一実施形態が部分的にまたは全体的にソフトウェアで実装される限り、プロセスフローチャートに示される機能ステップは、1つまたは複数の中央処理装置(CPU)またはグラフィックス処理装置(GPU)などの適切にプログラムされた物理的コンピューティングデバイスによって実行され得る。各プロセス、およびフローチャートに示されるその個々のコンポーネントステップは、同じまたは異なるコンピューティング装置によって実行され得る。実施形態によれば、コンピュータ可読記憶媒体は、プログラムが1つ以上の物理的コンピューティング装置上で実行されるときに、1つ以上の物理的コンピューティング装置に上記のような符号化または復号方法を実行させるように構成されたコンピュータプログラムコードを含むコンピュータプログラムを記憶する。

記憶媒体は、RAM、PROM、EPROMおよびEEPROMのような揮発性および不揮発性のコンピュータメモリを含み得る。様々な記憶媒体は、モバイルコンピューティングデバイス内に取り付けられてもよいし、記憶媒体に記憶される1つ以上のプログラムが処理器に読み込まれるように、搬送可能でもよい。

一実施形態によるメタデータは、記憶媒体に記憶されてもよい。一実施形態によるビットストリームは、同じ記憶媒体または異なる記憶媒体に記憶されてもよい。メタデータはビットストリームに埋め込まれることができるが、これは必須ではない。同様に、メタデータおよび/または(ビットストリーム中のメタデータまたはそれとは別個のメタデータを伴う)ビットストリームは、電磁搬送波上に変調された信号として送信されてもよい。信号は、デジタル通信のための規格に従って定義されてもよい。搬送波は、光搬送波、高周波、ミリ波、近距離通信波であってもよい。有線または無線の場合がある。

一実施形態が部分的にまたは全体的にハードウェアで実施される限り、図2および図8のブロック図に示されるブロックは、別個の物理的コンポーネント、または単一の物理的コンポーネントの論理的細分であってもよく、またはすべてが1つの物理的コンポーネントに統合された形で実施されてもよい。図面に示される1つのブロックの機能は実装において複数のコンポーネントに分割されてもよく、または図面に示される複数のブロックの機能は実装において単一のコンポーネントに組み合わされてもよい。本発明の実施形態で使用するのに適したハードウェアコンポーネントには、従来のマイクロプロセッサ、特定用途向け集積回路(ASIC)、およびフィールド・プログラマブル・ゲート・アレイ(FPGA)が含まれるが、これらに限定されない。1つまたは複数のブロックは、いくつかの機能を実行するための専用ハードウェアと、他の機能を実行するための1つまたは複数のプログラムされたマイクロプロセッサおよび関連する回路との組合せとして実装され得る。

開示された実施形態に対する変形例は、図面、開示、および添付の特許請求の範囲の検討から、特許請求された発明を実施する際に当業者によって理解され、実施されることができる。請求項において、単語「有する」は、他の要素又はステップを排除するものではなく、不定冠詞「a」又は「an」は、複数性を排除するものではない。単一のプロセッサ又は他のユニットが、請求項に列挙されるいくつかの項目の機能を果たすことができる。特定の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段の組み合わせが有利に使用されることができないことを示すものではない。コンピュータプログラムが上述される場合、コンピュータプログラムは、適切な媒体、例えば他のハードウェアと一緒に或いはその一部として供給される光記憶媒体若しくはソリッドステート媒体に記憶又は配布されることができるが、他の形態、例えばインターネット又は他の有線若しくは無線電気通信システムを介して配布されてもよい。「に適応する」という用語が請求項又は明細書に用いられる場合、「に適応する」という用語は、「ように構成される」と言う用語と同様であることを意味する。請求項におけるいかなる参照符号も、範囲を限定するものとして解釈されるべきではない。

Claims

シーンの基本ビュー及び少なくとも第1追加ビューを有するマルチビュー画像データまたはマルチビュービデオデータを符号化する方法であって、各ビューは画素のアレイを有し、当該方法は、
前記マルチビュー画像データまたは前記マルチビュービデオデータを受信するステップと、
前記基本ビュー中では見えないシーンコンテンツを含むために符号化される必要がある前記第1追加ビュー中の画素を識別するステップと、
前記第1追加ビューを画素の複数の第1ブロックに分割するステップと、
少なくとも１つの前記識別された画素を含む第1ブロックを保持するステップと、
前記識別された画素を含まない第1ブロックを破棄するステップと、
画素の前記保持された第1ブロックを、少なくとも１つの次元において隣接するように、再配置するステップと、
前記再配置された前記保持された第1ブロックからパックされた追加ビューを生成するステップと、
前記保持された第1ブロックがどのように再配置されたかを記述する第1パッキングメタデータを生成するステップと、
前記基本ビューおよび前記パックされた追加ビューをビデオビットストリームへと符号化するステップと、
前記第1パッキングメタデータをメタデータビットストリームへと符号化するステップと、を有する方法。
前記保持された第1ブロックを再配置するステップが、各々の保持された第1ブロックを１つの次元においてシフトして、その次元に沿って最も近傍の保持された第1ブロックに直接隣接するように配置する、請求項１に記載の方法。
前記ブロックは、画素単位の幅および画素単位の高さを有する矩形のブロックであり、前記幅が前記高さと異なる、請求項１または２に記載の方法。
前記マルチビュー画像データまたは前記マルチビュービデオデータがさらに第2追加ビューを有し、当該方法はさらに、
前記基本ビュー中では見えないシーンコンテンツを含むために符号化される必要がある前記第２追加ビュー中の画素を識別するステップと、
前記第２追加ビューを画素の複数の第２ブロックに分割するステップと、
少なくとも１つの前記識別された画素を含む第２ブロックを保持するステップと、
前記識別された画素を含まない第２ブロックを破棄するステップと、
画素の前記保持された第２ブロックを、前記少なくとも１つの次元において隣接するように、再配置するステップと、
前記保持された第２ブロックがどのように再配置されたかを記述する第２パッキングメタデータを生成するステップと、
前記再配置された第2ブロックを前記パックされた追加ビューに追加するステップと、
前記第２パッキングメタデータを前記メタデータビットストリームへと符号化するステップと、を有する請求項１から３の何れか一項に記載の方法。
前記追加ビューが前記パックされた追加ビューへと追加された順序の記述を前記メタデータビットストリームへと符号化するステップをさらに有する、請求項４に記載の方法。
前記パックされた追加ビューを符号化する前に、
前記パックされた追加ビューを第1部分および第2部分に分割するステップと、
前記第1部分に対して前記第２部分を変換して、変換されパックされたビューを生成するステップと、
前記変換されパックされたビューを前記ビデオビットストリームへと符号化するステップと、を有する請求項１から５の何れか一項に記載の方法。
前記変換が、
前記第2部分を水平方向に反転させること、
前記第2部分を垂直方向に逆転させること、
転置すること、
前記第2部分を水平方向に沿って循環してシフトさせること、および
前記第2部分を垂直方向に沿って循環してシフトさせること、
のうちの1つまたは複数を含む、請求項６に記載の方法。
前記第1部分および前記第２部分の少なくとも一方における前記保持されたブロックが、それらを左にシフトすることにより再配置される、請求項６または７に記載の方法。
前記パックされた追加ビューが、少なくとも１つの次元に沿って、少なくとも前記第1追加ビューと同じサイズを有する、請求項１から請求項８の何れか一項に記載の方法。
シーンを表すマルチビュー画像データまたはマルチビュービデオデータを復号する方法であって、
基本ビューおよびパックされた追加ビューが符号化されたビデオビットストリームを受信するステップであって、各ビューが画素のアレイを有するステップと、
第1追加ビューの画素の第1ブロックがどのように前記パックされた追加ビューへと再配置されたかの記述を含む、第1パッキングメタデータを有するメタデータビットストリームを受信するステップと、
前記ビデオビットストリームを復号して前記基本ビューおよび前記パックされた追加ビューを取得するステップと、
前記メタデータビットストリームから前記第1パッキングメタデータを復号するステップと、
前記第1パッキングメタデータを用いて、前記パックされた追加ビューから前記第1追加ビューを再構成し、再構成された第1追加ビューを生成するステップと、
前記基本ビューおよび前記再構成された第1追加ビューに基づいて前記シーンの少なくとも１つのビューをレンダリングするステップと、を有し、
前記第1追加ビューの再構成が、前記第1パッキングメタデータにおける記述に従って前記第1ブロックを配置する、方法。
前記パックされた追加ビューが、第2追加ビューに属する画素の第2ブロックを有し、前記メタデータビットストリームが、画素の前記第2ブロックがどのように前記パックされた追加ビューへと再配置されたかの記述を含む第2パッキングメタデータを有し、当該方法がさらに、
前記メタデータビットストリームから前記第2パッキングメタデータを復号するステップと、
前記第2パッキングメタデータを用いて、前記パックされた追加ビューから前記第2追加ビューを再構成し、再構成された第2追加ビューを生成するステップと、
前記基本ビューおよび前記再構成された第2追加ビューに基づいて前記シーンの少なくとも１つのビューをレンダリングするステップと、を有し、
前記第2追加ビューの再構成が、前記第2パッキングメタデータにおける記述に従って前記第2ブロックを配置する、請求項１０に記載の方法。
コンピュータにより実行されて、当該コンピュータに請求項１から１１のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
シーンの基本ビュー及び少なくとも第1追加ビューを有するマルチビュー画像データまたはマルチビュービデオデータを符号化するように構成された符号化器であって、各ビューは画素のアレイを有し、当該符号化器は、
前記マルチビュー画像データまたは前記マルチビュービデオデータを受信するように構成された入力部と、
前記基本ビュー中では見えないシーンコンテンツを含むために符号化される必要がある前記第1追加ビュー中の画素を識別し、
前記第1追加ビューを画素の複数の第1ブロックに分割し、
少なくとも１つの前記識別された画素を含む第1ブロックを保持し、
前記識別された画素を含まない第1ブロックを破棄し、
画素の前記保持された第1ブロックを、少なくとも１つの次元において隣接するように、再配置し、
前記再配置された前記保持された第1ブロックからパックされた追加ビューを生成し、
前記保持された第1ブロックがどのように再配置されたかを記述する第1パッキングメタデータを生成するように構成されたプルーニングユニットと、
前記基本ビューおよび前記パックされた追加ビューをビデオビットストリームへと符号化するように構成されたビデオエンコーダと、
前記第1パッキングメタデータをメタデータビットストリームへと符号化するように構成されたメタデータエンコーダと、を有する符号化器。
マルチビュー画像データまたはマルチビュービデオデータのための復号器であって、
基本ビューおよびパックされた追加ビューが符号化されたビデオビットストリームを受信するように構成された第1入力部であって、各ビューが画素のアレイを有する、第1入力部と、
第1追加ビューの画素の第1ブロックがどのように前記パックされた追加ビューへと再配置されたかの記述を含む、第1パッキングメタデータを有するメタデータビットストリームを受信するように構成された第2入力部と、
前記ビデオビットストリームを復号して前記基本ビューおよび前記パックされた追加ビューを取得するように構成されたビデオデコーダと、
前記メタデータビットストリームから前記第1パッキングメタデータを復号するように構成されたメタデータデコーダと、
前記第1パッキングメタデータを用いて、前記パックされた追加ビューから前記第1追加ビューを再構成し、再構成された第1追加ビューを生成するように構成された再構成ユニットと、
前記基本ビューおよび前記再構成された第1追加ビューに基づいてシーンの少なくとも１つのビューをレンダリングするように構成されたレンダラと、を有し、
前記再構成ユニットが、前記第1追加ビューを再構成するときに、前記第1パッキングメタデータにおける記述に従って前記第1ブロックを配置するように構成される、復号器。
シーンを表す符号化されたマルチビュー画像データまたはマルチビュービデオデータを含むビットストリームであって、
ビデオビットストリームとメタデータビットストリームとを有し、
前記ビデオストリームが基本ビューおよびパックされた追加ビューを符号化し、各ビューが画素のアレイを有し、
前記メタデータビットストリームが、第1追加ビューの画素の第1ブロックがどのように前記パックされた追加ビューへと再配置されたかの記述を含む、少なくとも第1パッキングメタデータを符号化する、ビットストリーム。