JP2022521199A

JP2022521199A - ビデオビットストリームにおけるレイヤ間予測の信号伝達

Info

Publication number: JP2022521199A
Application number: JP2021547815A
Authority: JP
Inventors: チョイ，ビョンドゥ; ウェンジャー，ステファン; リィウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2019-09-20
Filing date: 2020-09-18
Publication date: 2022-04-06
Also published as: US20210092358A1; WO2021055741A1; KR20210113387A; CN113678451A; US11765344B2; CA3134537A1; US11310492B2; AU2020348846A1; EP4032282A4; SG11202110394SA; US20220210404A1; AU2020348846B2; US20230328229A1; EP4032282A1

Abstract

プロセッサに対して、スケーラブルビットストリームにおける少なくとも1つのレイヤがスケーラブルビットストリームの従属レイヤ及びスケーラブルビットストリームの独立レイヤのうち1つであるかを示す少なくとも1つのシンタックスエレメントを含む少なくとも1つのビデオパラメータセットを解析するステップと、レイヤ間参照ピクチャリストを解析及び解釈することによって、従属レイヤ内のピクチャを復号するステップと、レイヤ間参照ピクチャリストを解析及び解釈することなく、独立レイヤ内のピクチャを復号するステップとを実行させるように構成されたコンピュータコードを含む方法及び装置が提供される。

Description

［関連出願への相互参照］
本出願は、2019年9月20日に出願された米国仮特許出願第62/903,647号及び2020年9月14日に出願された米国特許出願第17/019,567号の優先権を主張し、これらの全内容を援用する。

［技術分野］
開示の対象物は、ビデオ符号化及び復号に関し、より具体的には、ビデオビットストリームにおけるレイヤ間予測の信号伝達に関する。

動き補償によるインターピクチャ予測を使用するビデオ符号化及び復号は、数十年前から知られている。非圧縮ディジタルビデオは、一連のピクチャで構成でき、各ピクチャは、例えば、1920×1080の輝度サンプル及び関連する色差サンプルの空間次元を有する。一連のピクチャは、例えば、毎秒60ピクチャ又は60Hzの固定又は可変のピクチャレート(フレームレートとしても非公式に知られている)を有することができる。非圧縮ビデオは、かなりのビットレート要件を有する。例えば、サンプル当たり8ビットの1080p60 4:2:0ビデオ(60Hzのフレームレートの1920×1080の輝度サンプル解像度)は、1.5Gbit/sに近い帯域幅を必要とする。1時間のこのようなビデオは、600Gバイトを超える記憶空間を必要とする。

ビデオ符号化及び復号の1つの目的は、圧縮を通じて入力ビデオ信号の冗長性を低減できることである。圧縮は、場合によっては2桁以上も上記の帯域幅又は記憶空間の要件を低減するのに役立つことができる。可逆圧縮及び不可逆圧縮の双方並びにこれらの組み合わせを使用することができる。可逆圧縮とは、元の信号の正確なコピーが圧縮された元の信号から復元できる技術を示す。不可逆圧縮を使用する場合、復元された信号は、元の信号と同一ではない可能性があるが、元の信号と復元された信号との間の歪みは、復元された信号を目的のアプリケーションにとって有用にするほど十分に小さい。ビデオの場合、不可逆圧縮が広く使用されている。許容される歪みの量はアプリケーションに依存する。例えば、特定の消費者のストリーミングアプリケーションのユーザは、テレビ配信アプリケーションのユーザよりも高い歪みを許容する可能性がある。達成可能な圧縮比は、より高い許容可能な歪み/許容される歪みがより高い圧縮比をもたらすことができるということを反映できる。

ビデオエンコーダ及びデコーダは、例えば、動き補償、変換、量子化及びエントロピー符号化を含むいくつかの広いカテゴリからの技術を利用することができ、これらのうちいくつかについて以下に紹介する。

歴史的に、ビデオエンコーダ及びデコーダは、所与のピクチャサイズで動作する傾向があり、ほとんどの場合、ピクチャサイズは、符号化ビデオシーケンス(CVS, coded video sequence)、グループオブピクチャ(GOP, Group of Pictures)又は同様のマルチピクチャ時間フレームについて定義され、一定のままであった。例えば、MPEG-2では、システム設計は、シーンのアクティビティのような要因に依存して水平解像度(したがって、ピクチャサイズ)を変更することが知られているが、Iピクチャにおいてのみ、すなわち、典型的にはGOPについてのみ変更する。CVS内で異なる解像度を使用する参照ピクチャのリサンプリングは、例えば、ITU-T Rec. H.263 Annex Pから知られている。しかし、この場合、ピクチャサイズは変化せず、参照ピクチャのみがリサンプリングされ、その結果、ピクチャキャンバスの一部のみが使用されること(ダウンサンプリングの場合)、又はシーンの部分のみがキャプチャされること(アップサンプリングの場合)を潜在的に生じる。さらに、H.263 Annex Qは、上方又は下方に(各次元において)2の係数による個々のマクロブロックのリサンプリングを許容する。この場合も同様に、ピクチャサイズは同じままである。マクロブロックのサイズはH.263において固定されており、したがって、信号伝達される必要はない。

予測ピクチャにおけるピクチャサイズの変更は、現代のビデオ符号化においてより主流になっている。例えば、VP9は、参照ピクチャリサンプリング(RPR, reference picture resampling)及び全体のピクチャについての解像度の変更を許容する。同様に、VVCに対して行われた特定の提案(例えば、Hendry, et. al, “On adaptive resolution change (ARC) for VVC”, Joint Video Team document JVET-M0135-v1, Jan 9-19, 2019、その全内容を援用する)は、全体の参照ピクチャを異なる高解像度又は低解像度にリサンプリングすることを許容する。その文献において、異なる候補解像度がシーケンスパラメータセットに符号化され、ピクチャパラメータセット内のピクチャ毎のシンタックスエレメントによって参照されることが示唆されている。

1つ以上の異なる技術的問題に対処するために、この開示は、ビデオビットストリームにおけるスケーリングの伝達のために設計された新たなシンタックス及びその使用について説明する。したがって、改善した符号化(復号)効率が達成できる。

本明細書の実施形態によれば、参照ピクチャリサンプリング(RPR, Reference Picture Resampling)又は適応解像度変更(ARC, Adaptive Resolution Change)によって、スケーラビリティのサポートについての更なる負担は、ハイレベルシンタックス(HLS, high-level syntax)の修正によって達成され得る。技術的側面において、レイヤ間予測が、エンハンスメントレイヤの符号化効率を改善するためにスケーラブルシステムにおいて使用される。単一レイヤコーデックで利用可能な空間及び時間動き補償予測に加えて、レイヤ間予測は、現在のエンハンスメントレイヤを予測するために、参照レイヤからの復元された参照ピクチャのリサンプリングされたビデオデータを使用する。次いで、レイヤ間予測のためのリサンプリング処理が、動き補償のための既存の補間処理を修正することによって、ブロックレベルで実行される。これは、スケーラビリティをサポートするために更なるリサンプリング処理が必要ないことを意味する。この開示では、RPRを使用して空間/品質スケーラビリティをサポートするためのハイレベルシンタックスエレメントが開示される。

コンピュータプログラムコードを記憶するように構成されたメモリと、コンピュータプログラムコードにアクセスしてコンピュータプログラムコードによって命令されるように動作するように構成されたプロセッサとを含む方法及び装置が含まれる。コンピュータプログラムコードは、少なくとも1つのプロセッサに対して、スケーラブルビットストリームにおける少なくとも1つのレイヤがスケーラブルビットストリームの従属レイヤ及びスケーラブルビットストリームの独立レイヤのうち1つであるかを示す少なくとも1つのシンタックスエレメントを含む少なくとも1つのビデオパラメータセット(VPS, video parameter set)を解析させるように構成された解析コードと、少なくとも1つのプロセッサに対して、レイヤ間参照ピクチャ(ILRP, inter-layer reference picture)リストを解析及び解釈することによって、従属レイヤ内のピクチャを復号させるように構成された第1の復号コードと、少なくとも1つのプロセッサに対して、ILRPリストを解析及び解釈することなく、独立レイヤ内のピクチャを復号させるように構成された第2の復号コードとを含む。

実施形態によれば、第2の復号コードは、少なくとも1つのプロセッサに対して、他のレイヤの復号されたピクチャを含まない参照ピクチャリストを解析及び解釈することによって、独立レイヤ内のピクチャを復号させるように更に構成される。

実施形態によれば、レイヤ間参照ピクチャリストは、他のレイヤの復号されたピクチャを含む。

実施形態によれば、解析コードは、少なくとも1つのプロセッサに対して、他のシンタックスエレメントがレイヤの最大数を示すか否かを決定することによって、少なくとも1つのVPSを解析させるように更に構成される。

実施形態によれば、解析コードは、少なくとも1つのプロセッサに対して、スケーラブルビットストリームにおける他のレイヤが少なくとも1つのレイヤについての参照レイヤであるかを示すフラグをVPSが含むか否かを決定することによって、少なくとも1つのVPSを解析させるように更に構成される。

実施形態によれば、解析コードは、少なくとも1つのプロセッサに対して、他のレイヤのインデックス及び少なくとも1つのレイヤのインデックスを指定することによって、フラグが他のレイヤを少なくとも1つのレイヤについての参照レイヤとして示すか否かを決定することによって、少なくとも1つのVPSを解析させるように更に構成される。

実施形態によれば、解析コードは、少なくとも1つのプロセッサに対して、他のレイヤのインデックス及び少なくとも1つのレイヤのインデックスを指定することによって、フラグが他のレイヤを少なくとも1つのレイヤについての参照レイヤではないものとして示すか否かを決定することによって、少なくとも1つのVPSを解析させるように更に構成される。

実施形態によれば、解析コードは、少なくとも1つのプロセッサに対して、少なくとも1つのレイヤを含む複数のレイヤがILRPリストを解釈することによって復号されるべきであるかを示すフラグをVPSが含むか否かを決定することによって、少なくとも1つのVPSを解析させるように更に構成される。

実施形態によれば、解析コードは、少なくとも1つのプロセッサに対して、少なくとも1つのレイヤを含む複数のレイヤがILRPリストを解釈することなく復号されるべきであるかを示すフラグをVPSが含むか否かを決定することによって、少なくとも1つのVPSを解析させるように更に構成される。

実施形態によれば、解析コードが少なくとも1つのプロセッサに対して少なくとも1つのVPSを解析させるように更に構成されることは、少なくとも1つのレイヤを含む複数のレイヤがILRPリストを解釈することによって復号されるべきであるかを示すフラグをVPSが含むか否かを決定することを更に含む。

開示の対象物の更なる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになる。
実施形態による通信システムの簡略化したブロック図の概略図である。実施形態による通信システムの簡略化したブロック図の概略図である。実施形態によるデコーダの簡略化したブロック図の概略図である。実施形態によるエンコーダの簡略化したブロック図の概略図である。関連技術に従ってARC/RPRパラメータを伝達するためのオプションの概略図である。関連技術に従ってARC/RPRパラメータを伝達するためのオプションの概略図である。実施形態に従ってARC/RPRパラメータを伝達するためのオプションの概略図である。実施形態に従ってARC/RPRパラメータを伝達するためのオプションの概略図である。実施形態に従ってARC/RPRパラメータを伝達するためのオプションの概略図である。実施形態に従ってピクチャ解像度を伝達する概略図である。実施形態に従ってSPSにおいてピクチャサイズ及びコンフォーマンスウィンドウ(conformance window)を伝達する概略図である。実施形態に従ってSPSにおいてレイヤ間予測の存在を伝達する概略図である。実施形態に従ってスライスヘッダにおいてレイヤ間予測インデックスを伝達する概略図である。実施形態によるコンピュータシステムの概略図である。

以下で議論される提案の特徴は、別々に使用されてもよく、或いは、いずれかの順序で組み合わされてもよい。さらに、実施形態は、処理回路(例えば、1つ以上のプロセッサ又は1つ以上の集積回路)によって実装されてもよい。一例では、1つ以上のプロセッサは、非一時的なコンピュータ読み取り可能媒体に記憶されたプログラムを実行する。

図１は、本開示の一実施形態による通信システム(100)の簡略化したブロック図を示す。当該システム(100)は、ネットワーク(150)を介して相互接続された少なくとも2つの端末(110及び120)を含んでもよい。データの一方向伝送のために、第1の端末(110)は、ネットワーク(150)を介して他方の端末(120)に送信するために、ローカル位置においてビデオデータを符号化してもよい。第2の端末(120)は、ネットワーク(150)から他方の端末の符号化されたビデオデータを受信し、符号化ビデオデータを復号し、復元したビデオデータを表示してもよい。一方向データ伝送は、メディア提供アプリケーション等において一般的でもよい。

図１は、例えば、テレビ会議中に発生し得る符号化ビデオの双方向伝送をサポートするために提供される第2の対の端末(130、140)を示している。データの双方向伝送のために、各端末(130、140)は、ネットワーク(150)を介して他の端末に送信するために、ローカル位置においてキャプチャされたビデオデータを符号化してもよい。また、各端末(130、140)は、他方の端末によって送信された符号化ビデオデータを受信してもよく、符号化データを復号してもよく、ローカルの表示デバイスに復元されたビデオデータを表示してもよい。

図１において、端末(110、120、130、140)は、サーバ、パーソナルコンピュータ及びスマートフォンとして示されることがあるが、本開示の原理はこれらに限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤ及び/又は専用のテレビ会議機器に適用がある。ネットワーク(150)は、例えば、有線及び/又は無線通信ネットワークを含む、端末(110、120、130、140)の間で符号化ビデオデータを伝達するいずれかの数のネットワークを表す。通信ネットワーク(150)は、回線交換チャネル及び/又はパケット交換チャネルにおいてデータを交換してもよい。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク及び/又はインターネットを含む。本説明の目的では、ネットワーク(150)のアーキテクチャ及びトポロジは、本明細書において以下に説明しない限り、本開示の動作には重要ではない。

図２は、開示の対象物のアプリケーションの例として、ストリーミング環境におけるビデオエンコーダ及びデコーダの配置を示す。開示の対象物は、例えば、テレビ会議、デジタルTV、デジタルメディア(CD、DVD、メモリスティック等を含む)上の圧縮ビデオの記憶等を含む、他のビデオ可能なアプリケーションにも同様に適用可能である。

ストリーミングシステムはキャプチャサブシステム(213)を含んでもよく、当該キャプチャサブシステム(213)は、例えば、非圧縮のビデオサンプルストリーム(202)を生成するビデオソース(201)(例えば、デジタルカメラ)を含んでもよい。符号化ビデオビットストリームと比較したときに高いデータ量であることを強調するために太線として描かれるサンプルストリーム(202)は、カメラ(201)に結合されたエンコーダ(203)によって処理されてもよい。エンコーダ(203)は、以下により詳細に説明するように、開示の対象物の態様を可能にするため或いは実装するために、ハードウェア、ソフトウェア又はこれらの組み合わせを含んでもよい。サンプルストリームと比較したときにより低いデータ量であることを強調するために細線として描かれる符号化ビデオビットストリーム(204)は、将来の使用のためにストリーミングサーバ(205)に記憶されてもよい。1つ以上のストリーミングクライアント(206、208)は、ストリーミングサーバ(205)にアクセスして符号化ビデオビットストリーム(204)のコピー(207、209)を取得してもよい。クライアント(206)は、符号化ビデオビットストリームの入力コピー(207)を復号し、ディスプレイ(212)又は他のレンダリングデバイス(図示せず)上にレンダリングできる出力ビデオサンプルストリーム(211)を生成するビデオデコーダ(210)を含んでもよい。いくつかのストリーミングシステムでは、ビデオビットストリーム(204、207、209)は、特定のビデオ符号化/圧縮標準に従って符号化されてもよい。これらの標準の例は、ITU-T勧告H.265を含む。開発中のビデオ符号化標準は、VVC(Versatile Video Coding)として非公式に知られている。開示の対象物は、VVCの背景において使用されてもよい。

図３は、本開示の一実施形態によるビデオデコーダ(210)の機能ブロック図を示す。

受信機(310)は、デコーダ(210)によって復号されるべき1つ以上の符号化ビデオシーケンスを受信してもよく、同一又は他の実施形態では、一度に1つの符号化ビデオシーケンスを受信してもよく、各符号化ビデオシーケンスの復号は、他の符号化ビデオシーケンスとは独立している。符号化ビデオシーケンスは、チャネル(312)から受信されてもよく、当該チャネルは、符号化ビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンクでもよい。受信機(310)は、符号化ビデオデータを、他のデータ(例えば、符号化オーディオデータ及び/又は補助データストリーム)と共に受信してもよく、これらは、それぞれの使用エンティティ(図示せず)に転送されてもよい。受信機(310)は、符号化ビデオシーケンスを他のデータから分離してもよい。ネットワークジッタを防止するために、バッファメモリ(315)は、受信機(310)とエントロピーデコーダ/パーサ(320)(以下、「パーサ」という)との間に結合されてもよい。受信機(310)が、十分な帯域幅及び制御可能性を有する記憶/転送デバイスから、或いは、アイソクロナスネットワークからデータを受信している場合、バッファ(315)は必要なくてもよく或いは小さくすることができる。インターネットのようなベストエフォート型パケットネットワークでの使用については、バッファ(315)が必要とされてもよく、比較的大きくすることができ、有利には適応的なサイズとすることができる。

ビデオデコーダ(210)は、エントロピー符号化されたビデオシーケンスからシンボル(321)を復元するためのパーサ(320)を含んでもよい。これらのシンボルのカテゴリは、デコーダ(210)の動作を管理するために使用される情報を含み、ディスプレイ(212)のようなレンダリングデバイスを制御するための情報を潜在的に含む。当該レンダリングデバイスは、図２に示すように、デコーダの一体的な部分ではないが、デコーダに結合されてもよい。レンダリングデバイスの制御情報は、補足エンハンスメント情報(SEI, Supplementary Enhancement Information)(SEIメッセージ)又はビデオユーザビリティ情報(VUI, Video Usability Information)パラメータセットフラグメント(図示せず)の形式でもよい。パーサ(320)は、受信した符号化ビデオシーケンスを解析/エントロピー復号してもよい。符号化ビデオシーケンスの符号化は、ビデオ符号化技術又は標準に従ってもよく、可変長符号化、ハフマン符号化、コンテキスト感度を伴う或いは伴わない算術符号化等を含む、当業者に周知の原理に従ってもよい。パーサ(320)は、グループに対応する少なくとも1つのパラメータに基づいて、符号化ビデオシーケンスから、ビデオデコーダ内の画素のサブグループのうち少なくとも1つについてのサブグループパラメータのセットを抽出してもよい。サブグループは、グループオブピクチャ(GOP, Group of Picture)、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット(CU, Coding Unit)、ブロック、変換ユニット(TU, Transformation Unit)、予測ユニット(PU, Prediction Unit)等を含んでもよい。また、エントロピーデコーダ/パーサは、符号化ビデオシーケンスから、変換係数、量子化パラメータ値、動きベクトル等のような情報を抽出してもよい。

パーサ(320)は、シンボル(321)を生成するために、バッファ(315)から受信したビデオシーケンスに対してエントロピー復号/解析動作を実行してもよい。

シンボル(321)の復元には、符号化ビデオピクチャ又はその部分のタイプ(例えば、インターピクチャ及びイントラピクチャ、インターブロック及びイントラブロック)及び他の要因に依存して、複数の異なるユニットが関与してもよい。どのユニットがどのように関与するかは、パーサ(320)によって符号化ビデオシーケンスから解析されたサブグループ制御情報によって制御されてもよい。パーサ(320)と以下の複数ユニットとの間のこのようなサブグループ制御情報の流れは、明確にするために図示されていない。

上記の機能ブロックの他に、デコーダ(210)は、概念的に、以下に説明するような複数の機能ユニットに細分されてもよい。商用的な制約の下で動作する実用的な実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合されてもよい。しかし、開示の対象物を説明する目的で、以下の機能ユニットに概念的に細分することが適切である。

第1のユニットは、スケーラ/逆変換ユニット(351)である。スケーラ/逆変換ユニット(351)は、パーサ(320)からシンボル(321)として、制御情報(どの変換を使用するべきか、ブロックサイズ、量子化係数、量子化スケーリング行列等を含む)と共に、量子化された変換係数を受信する。スケーラ/逆変換ユニットは、アグリゲータ(355)に入力できるサンプル値を含むブロックを出力してもよい。

場合によっては、スケーラ/逆変換(351)の出力サンプルは、イントラ符号化ブロックに関連してもよく、すなわち、前に復元されたピクチャからの予測情報を使用していないが、カレントピクチャの前に復元された部分からの予測情報を使用できるブロックに関連してもよい。このような予測情報は、イントラピクチャ予測ユニット(352)によって提供されてもよい。場合によっては、イントラピクチャ予測ユニット(352)は、(部分的に復元された)カレントピクチャ(358)から取り出された周囲の既に復元された情報を使用して、復元中のブロックの同じサイズ及び形状のブロックを生成する。場合によっては、アグリゲータ(355)は、サンプル毎に、イントラ予測ユニット(352)が生成した予測情報を、スケーラ/逆変換ユニット(351)によって提供された出力サンプル情報に追加する。

他の場合には、スケーラ/逆変換ユニット(351)の出力サンプルは、インター符号化されて潜在的に動き補償されたブロックに関連してもよい。このような場合、動き補償予測ユニット(353)は、参照ピクチャメモリ(357)にアクセスして、予測に使用されるサンプルを取り出してもよい。ブロックに関連するシンボル(321)に従って、取り出されたサンプルを動き補償した後に、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ(355)によってスケーラ/逆変換ユニットの出力(この場合には、残差サンプル又は残差信号と呼ばれる)に追加されてもよい。動き補償ユニットに利用可能な、動き補償ユニットが予測サンプルを取り出す参照ピクチャメモリ内のアドレスは、例えば、X、Y及び参照ピクチャ成分を有することができるシンボル(321)の形式で、動きベクトルによって制御されてもよい。また、動き補償は、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリから取り出されるサンプル値の補間、動きベクトル予測メカニズム等を含んでもよい。

アグリゲータ(355)の出力サンプルは、ループフィルタユニット(356)内の様々なループフィルタリング技術を受けてもよい。ビデオ圧縮技術はループ内フィルタ技術を含んでもよく、当該ループ内フィルタ技術は、符号化ビデオビットストリームに含まれるパラメータによって制御され、パーサ(320)からシンボル(321)としてループフィルタユニット(356)に利用可能にされるが、符号化ピクチャ又は符号化ビデオシーケンスの(復号順に)前の部分の復号の間に取得されたメタ情報に応答すると共に、前に復元されてループフィルタリングされたサンプル値にも応答してもよい。

ループフィルタユニット(356)の出力はサンプルストリームでもよく、当該サンプルストリームは、レンダリングデバイス(212)に出力されると共に、将来のインターピクチャ予測に使用するために参照ピクチャメモリ(356)に記憶されてもよい。

特定の符号化ピクチャは、完全に復元されると、将来の予測のための参照ピクチャとして使用されてもよい。符号化ピクチャが完全に復元され、符号化ピクチャが(例えば、パーサ(320)によって)参照ピクチャとして識別されると、カレント参照ピクチャ(356)は参照ピクチャバッファ(357)の一部となってもよく、新たなカレントピクチャメモリが、後続の符号化ピクチャの復元を開始する前に再割り当てされてもよい。

ビデオデコーダ(320)は、ITU-T Rec. H.265のような標準に文書化され得る所定のビデオ圧縮技術に従って復号動作を実行してもよい。符号化ビデオシーケンスがビデオ圧縮技術文書又は標準において指定されており、特にこれらのプロファイル文書に指定されているビデオ圧縮技術又は標準のシンタックスに従うという意味で、符号化ビデオシーケンスは、使用されているビデオ圧縮技術又は標準によって指定されたシンタックスに適合してもよい。また、コンプライアンスのために必要なことは、符号化ビデオシーケンスの複雑さが、ビデオ圧縮技術又は標準のレベルによって定義される範囲内にあることである。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大復元サンプルレート(例えば、毎秒当たりのメガサンプル単位で測定される)、最大参照ピクチャサイズ等を制限する。場合によっては、レベルによって設定される制限は、仮想参照デコーダ(HRD, Hypothetical Reference Decoder)仕様及び符号化ビデオシーケンスで伝達されるHRDバッファ管理についてのメタデータを通じて更に制限されてもよい。

一実施形態では、受信機(310)は、符号化ビデオと共に更なる(冗長な)データを受信してもよい。更なるデータは、符号化ビデオシーケンスの一部として含まれてもよい。更なるデータは、データを適切に復号するために、及び/又は元のビデオデータをより正確に復元するために、ビデオデコーダ(320)によって使用されてもよい。更なるデータは、例えば、時間、空間又SNRエンハンスメント層、冗長スライス、冗長ピクチャ、前方誤り訂正コード等の形式でもよい。

図４は、本開示の一実施形態によるビデオエンコーダ(203)の機能ブロック図でもよい。

エンコーダ(203)は、ビデオソース(201)(エンコーダの一部ではない)からビデオサンプルを受信してもよく、当該ビデオソース(201)は、エンコーダ(203)によって符号化されるべきビデオ画像をキャプチャしてもよい。

ビデオソース(201)は、デジタルビデオサンプルストリームの形式でエンコーダ(203)によって符号化されるべきソースビデオシーケンスを提供してもよく、当該デジタルビデオサンプルストリームは、いずれかの適切なビット深度(例えば、8ビット、10ビット、12ビット等)、いずれかの色空間(例えば、BT.601 Y CrCB、RGB等)及びいずれかの適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)でもよい。メディア提供システムにおいて、ビデオソース(201)は、事前に準備されたビデオを記憶する記憶デバイスでもよい。テレビ会議システムでは、ビデオソース(203)は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラでもよい。ビデオデータは、順に見たときに動きを伝える複数の個々のピクチャとして提供されてもよい。ピクチャ自体は、画素の空間配列として構成されてもよく、各画素は、使用中のサンプリング構造、色空間等に依存して、1つ以上のサンプルを含んでもよい。当業者は、画素とサンプルとの関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てる。

一実施形態によれば、エンコーダ(203)は、リアルタイムで或いはアプリケーションによって要求されるいずれかの他の時間制約下で、ソースビデオシーケンスのピクチャを、符号化ビデオシーケンス(443)に符号化及び圧縮してもよい。適切な符号化速度を実現することは、コントローラ(450)の1つの機能である。コントローラは、以下に説明するように、他の機能ユニットを制御し、これらのユニットに機能的に結合される。結合は、明確にするために図示されていない。コントローラによって設定されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化、レート歪み最適化技術のラムダ値等)、ピクチャサイズ、グループオブピクチャ(GOP)のレイアウト、最大動きベクトル探索範囲等を含んでもよい。当業者は、特定のシステム設計のために最適化されたビデオエンコーダ(203)に関連し得るコントローラ(450)の他の機能を容易に認識できる。

いくつかのビデオエンコーダは、当業者が「符号化ループ(coding loop)」として容易に認識するもので動作する。非常に簡略化した説明として、符号化ループは、エンコーダ(430)の符号化部分(以下、「ソースコーダ」という)(符号化されるべき入力ピクチャ及び参照ピクチャに基づいて、シンボルを生成することを担う)と、エンコーダ(203)に埋め込まれた(ローカル)デコーダ(433)とで構成されてもよい。デコーダ(433)は、(リモート)デコーダが生成するのと同様に(シンボルと符号化ビデオビットストリームとの間のいずれかの圧縮が、開示の対象物において検討されるビデオ圧縮技術において可逆であるように)、サンプルデータを生成するようにシンボルを復元する。その復元されたサンプルストリームは、参照ピクチャメモリ(434)に入力される。シンボルストリームの復号は、デコーダの位置(ローカル又はリモート)と独立したビット単位の正確な結果をもたらすので、参照ピクチャバッファの内容も、ローカルエンコーダとリモートエンコーダとの間でビット単位で正確である。言い換えると、エンコーダの予測部分は、デコーダが復号中に予測を使用するときに「見る」のと全く同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期(例えば、チャネルエラーの理由で同期が維持できない場合の結果として生じるドリフトを含む)のこの基本原理は、当業者に周知である。

「ローカル」デコーダ(433)の動作は、「リモート」デコーダ(210)と同じでもよく、これは、図３に関連して上記において既に詳細に説明した。しかし、図３を簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ(445)及びパーサ(320)による符号化ビデオシーケンスへのシンボルの符号化/復号が可逆になり得るので、チャネル(312)、受信機(310)、バッファ(315)及びパーサ(320)を含むデコーダ(210)のエントロピー復号部分は、ローカルデコーダ(433)に完全には実装されなくてもよい。

この時点で行うことができる考察は、デコーダ内に存在する解析/エントロピー復号を除く如何なるデコーダ技術も、必然的に対応するエンコーダ内に実質的に同一の機能形式で存在する必要があることである。このため、開示の対象物はデコーダ動作に焦点を当てる。エンコーダ技術の説明は、包括的に記載されるデコーダ技術の逆であるので、省略できる。特定の領域においてのみ、より詳細な説明が必要であり、以下に提供される。

その動作の一部として、ソースコーダ(430)は、動き補償予測符号化を実行してもよく、当該動き補償予測符号化は、「参照フレーム」として指定されたビデオシーケンスからの1つ以上の前に符号化されたフレームを参照して入力フレームを予測的に符号化する。このように、符号化エンジン(432)は、入力フレームの画素ブロックと、入力フレームに対する予測参照として選択され得る参照フレームの画素ブロックとの間の差を符号化する。

ローカルビデオデコーダ(433)は、ソースコーダ(430)によって生成されたシンボルに基づいて、参照フレームとして指定され得るフレームの符号化ビデオデータを復号してもよい。符号化エンジン(432)の動作は、有利には、不可逆処理でもよい。符号化ビデオデータがビデオデコーダ(図４に図示せず)で復号され得る場合、復元されたビデオシーケンスは、典型的には、いくつかのエラーを伴うソースビデオシーケンスのレプリカになり得る。ローカルビデオデコーダ(433)は、参照フレームに対してビデオデコーダによって実行され得る復号処理を複製し、復元された参照フレームを参照ピクチャキャッシュ(434)に記憶させてもよい。このように、エンコーダ(203)は、遠端のビデオデコーダによって取得される(送信エラーのない)復元された参照フレームとして、共通の内容を有する復元された参照フレームのコピーをローカルに記憶してもよい。

予測器(435)は、符号化エンジン(432)のための予測探索を実行してもよい。すなわち、符号化されるべき新たなフレームについて、予測器(435)は、(候補参照画素ブロックとしての)サンプルデータ又は特定のメタデータ(参照ピクチャ動きベクトル、ブロック形状等)を求めて参照ピクチャメモリ(434)を検索してもよい。これらは、新たなピクチャについての適切な予測参照として機能してもよい。予測器(435)は、適切な予測参照を検出するために、サンプルブロック毎画素ブロック毎(sample block-by-pixel block)に動作してもよい。場合によっては、予測器(435)によって取得された検索結果によって決定された入力ピクチャは、参照ピクチャメモリ(434)に記憶された複数の参照ピクチャから引き出された予測参照を有してもよい。

コントローラ(450)は、例えば、ビデオデータを符号化するために使用されるパラメータ及びサブグループパラメータの設定を含む、ビデオコーダ(430)の符号化動作を管理してもよい。

全ての上記の機能ユニットの出力は、エントロピーコーダ(445)におけるエントロピー符号化を受けてもよい。エントロピーコーダは、例えば、ハフマン符号化、可変長符号化、算術符号化等のような当業者に既知の技術に従って、シンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルを符号化ビデオシーケンスに変換する。

送信機(440)は、エントロピーコーダ(445)によって生成された符号化ビデオシーケンスをバッファして、通信チャネル(460)を介した送信の準備をしてもよく、当該通信チャネル(460)は、符号化ビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンクでもよい。送信機(440)は、ビデオコーダ(430)からの符号化ビデオデータを、送信されるべき他のデータ(例えば、符号化オーディオデータ及び/又は補助データストリーム(図示せず))とマージしてもよい。

コントローラ(450)は、エンコーダ(203)の動作を管理してもよい。符号化中に、コントローラ(450)は、各符号化ピクチャに、特定の符号化ピクチャタイプを割り当ててもよい。当該符号化ピクチャタイプは、各ピクチャに適用され得る符号化技術に影響を与えてもよい。例えば、ピクチャは、しばしば、以下のフレームタイプのうち1つとして割り当てられてもよい。

イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内の他のピクチャを使用せずに、符号化及び復号され得るものでもよい。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ(IDR, Independent Decoder Refresh)ピクチャを含む、異なるタイプのイントラピクチャを許容する。当業者は、Iピクチャのこれらの変形例と、それぞれの用途及び特徴を認識する。

予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために、最大で1つの動きベクトル及び参照インデックスを使用して、イントラ予測又はインター予測を使用して符号化及び復号され得るものでもよい。

双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために、最大で2つの動きベクトル及び参照インデックスを使用して、イントラ予測又はインター予測を使用して符号化及び復号され得るものでもよい。同様に、複数の予測ピクチャは、単一のブロックの復元のために、2つより多くの参照ピクチャ及び関連するメタデータを使用してもよい。

一般的に、ソースピクチャは、空間的に複数のサンプルブロック(例えば、それぞれ4×4、8×8、4×8又は16×16のサンプルのブロック)に細分され、ブロック毎に符号化されてもよい。ブロックは、ブロックのそれぞれのピクチャに適用される符号化割り当てによって決定される通り、他の(既に符号化された)ブロックを参照して予測的に符号化されてもよい。例えば、Iピクチャのブロックは、非予測的に符号化されてもよく、或いは、同じピクチャの既に符号化されたブロックを参照して予測的に符号化されてもよい(空間予測又はイントラ予測)。Pピクチャの画素ブロックは、1つ前に符号化された参照ピクチャを参照して、空間予測又は時間予測を介して非予測的に符号化されてもよい。Bピクチャのブロックは、1つ又は2つ前に符号化された参照ピクチャを参照して、空間予測又は時間予測を介して予測的に符号化されてもよい。

ビデオコーダ(203)は、ITU-T Rec. H.265のような所定のビデオ符号化技術又は標準に従って符号化動作を実行してもよい。その動作において、ビデオコーダ(203)は、入力ビデオシーケンスにおける時間的及び空間的冗長性を利用する予測符号化動作を含む様々な圧縮動作を実行してもよい。したがって、符号化ビデオデータは、使用されているビデオ符号化技術又は標準によって指定されたシンタックスに適合してもよい。

一実施形態では、送信機(440)は、符号化ビデオと共に更なるデータを送信してもよい。ビデオコーダ(430)は、符号化ビデオシーケンスの一部としてこのようなデータを含んでもよい。更なるデータは、時間/空間/SNRエンハンスメント層、冗長ピクチャ及びスライス、補足エンハンスメント情報(SEI, Supplementary Enhancement Information)メッセージ、ビジュアルユーザビリティ情報(VUI, Visual Usability Information)パラメータセットフラグメント等のような他の形式の冗長データを含んでもよい。

開示の対象物の特定の態様をより詳細に説明する前に、本明細書の残りの部分で参照されるいくつかの用語を紹介する必要がある。

以下のサブピクチャは、場合によっては、サンプル、ブロック、マクロブロック、符号化ユニット、又は意味的にグループ化され且つ変化した解像度で独立に符号化され得る同様のエンティティの矩形配列を示す。1つ以上のサブピクチャはピクチャを形成してもよい。1つ以上の符号化サブピクチャは符号化ピクチャを形成してもよい。1つ以上のサブピクチャはピクチャに組み立てられてもよく、1つ以上のサブピクチャはピクチャから抽出されてもよい。特定の環境において、1つ以上の符号化サブピクチャは、サンプルレベルにトランスコーディングすることなく、圧縮ドメインにおいて符号化ピクチャに組み立てられてもよく、同じ場合又は特定の他の場合、1つ以上の符号化サブピクチャは、圧縮ドメインにおいて符号化ピクチャから抽出されてもよい。

以下の参照ピクチャリサンプリング(RPR, Reference Picture Resampling)又は適応解像度変更(ARC, Adaptive Resolution Change)は、例えば、参照ピクチャリサンプリングの手段によって、符号化ビデオシーケンス内のピクチャ又はサブピクチャの解像度の変更を可能にするメカニズムを示す。以下のRPR/ARCパラメータは、適応解像度変更を実行するために必要な制御情報を示し、これは、例えば、フィルタパラメータ、スケーリング係数、出力及び/又は参照ピクチャの解像度、様々な制御フラグ等を含んでもよい。

上記の説明は、意味的に独立した単一の符号化ビデオピクチャを符号化及び復号することに焦点を当てている。独立したRPR/ARCパラメータを有する複数のサブピクチャの符号化/復号の意味とその意味する更なる複雑性を説明する前に、RPR/ARCパラメータを伝達するためのオプションについて説明する。

図５を参照すると、RPR/ARCパラメータを伝達するためのいくつかの新たなオプションが示されている。オプションのそれぞれに記載のように、これらは、符号化効率、複雑性及びアーキテクチャの観点から、特定の利点及び特定の欠点を有する。ビデオ符号化標準又は技術は、RPR/ARCパラメータを伝達するために、これらのオプション又は従来技術から既知のオプションのうちの1つ以上を選択してもよい。オプションは互いに排他的ではなく、アプリケーションのニーズ、関与する標準技術又はエンコーダの選択に基づいて交換されてもよい。

RPR/ARCパラメータのクラスは以下を含んでもよい。
-アップサンプル/ダウンサンプル係数(X及びY次元において別々であるか或いは組み合わされる)
-所与の数のピクチャについて一定速度のズームイン/アウトを示す時間次元の追加を伴うアップサンプル/ダウンサンプル係数
-上記の2つのうちいずれかは、係数を含む表を指し示すことができる1つ以上のおそらく短いシンタックスエレメントの符号化を含んでもよい。
-入力ピクチャ、出力ピクチャ、参照ピクチャ、符号化ピクチャのサンプル、ブロック、マクロブロック、CU又は他のいずれか適切な粒度の単位のX又はY次元における、別々又は組み合わせの解像度(1つよりも多くの解像度(例えば、入力ピクチャについて1つ、参照ピクチャについて1つ等)が存在する場合、特定の場合には、1つのセットの値が他のセットの値から推測されてもよい。これは、例えば、フラグの使用によってゲート制御されてもよい。より詳細な例については、以下を参照する)
-H.263 Annex Pで使用されているものと同様の「ワーピング(warping)」座標(この場合も同様に上記のような適切な粒度である)(H.263 Annex Pは、このようなワーピング座標を符号化するための1つの効率的な方法を定義しているが、他の潜在的により効率的な方法も考えられる。例えば、実施形態によれば、例えば、Annex Pのワーピング座標の可変長の可逆的な「ハフマン」形式の符号化は、適切な長さのバイナリ符号化に置き換えられ、バイナリコードワードの長さは、例えば、最大ピクチャサイズから導出され、場合によっては特定の係数で乗算され、特定の値でオフセットされ、それにより、最大ピクチャサイズの境界の外部での「ワーピング」を可能にする)、及び/又は
-アップサンプル又はダウンサンプルフィルタパラメータ(最も簡単な場合には、アップサンプリング及び/又はダウンサンプリングのために単一のフィルタのみが存在してもよい。しかし、特定の場合、フィルタ設計においてより大きい柔軟性を可能にすることが有利になる可能性があり、これは、フィルタパラメータの伝達を必要とし得る。このようなパラメータは、可能なフィルタ設計のリスト内のインデックスを通じて選択されてもよく、フィルタは、完全に指定されてもよく(例えば、適切なエントロピー符号化技術を使用するフィルタ係数のリストを通じて行われる)、フィルタは、アップサンプル/ダウンサンプル比を通じて暗示的に選択されてもよく、これに従って、上述のメカニズムのうちいずれかに従って伝達される等)。

以下の説明では、コードワードを通じて示される、有限のセットのアップサンプル/ダウンサンプル係数(同じ係数がX及びY次元の双方で使用される)の符号化を仮定する。このコードワードは、有利には、例えば、H.264及びH.265のようなビデオ符号化仕様における特定のシンタックスエレメントに共通のExt-Golombコードを使用して可変長符号化されてもよい。アップサンプル/ダウンサンプル係数への値の1つの適切なマッピングは、例えば、以下の表１に従ってもよい。

多くの同様のマッピングが、アプリケーションのニーズ、及びビデオ圧縮技術又は標準で利用可能なアップスケール及びダウンスケールメカニズムの能力に従って考えられてもよい。表はより多くの値に拡張されてもよい。また、値は、例えば、バイナリ符号化を使用して、Ext-Golombコード以外のエントロピー符号化メカニズムによって表されてもよい。これは、例えば、MANEによって、リサンプリング係数がビデオ処理エンジン(主にエンコーダ及びデコーダ)自体の外部で関心のある場合に、特定の利点を有し得る。解像度の変更が必要とされない(おそらく)最も一般的な場合、短いExt-Golombコードが選択されてもよく、上記の表において1ビットのみでもよい点に留意すべきである。これは、最も一般的な場合にバイナリコードを使用するよりも優れた符号化効率を有し得る。

表の中のエントリの数及びこれらの意味は、完全に或いは部分的に設定可能でもよい。例えば、表の基本的な枠組みは、シーケンスパラメータセット又はデコーダパラメータセットのような「ハイ」パラメータセットで伝達されてもよい。代替として或いはさらに、1つ以上のこのような表がビデオ符号化技術又は標準で定義されてもよく、例えば、デコーダパラメータセット又はシーケンスパラメータセットを通じて選択されてもよい。

以下では、上記のように符号化されたアップサンプル/ダウンサンプル係数(ARC情報)が、ビデオ符号化技術又は標準のシンタックスにどのように含まれ得るかについて説明する。同様の考察は、アップサンプル/ダウンサンプルフィルタを制御する1つ又は数個のコードワードにも当てはまり得る。比較的大量のデータがフィルタ又は他のデータ構造に必要な場合の説明については、以下を参照する。

図５Ａの例に示すように、図(500A)は、H.263 Annex Pが、特にH.263 PLUSPTYPE(503)ヘッダ拡張において、ピクチャヘッダ(501)に4つのワーピング座標の形式でARC情報(502)を含むことを示す。これは、a)利用可能なピクチャヘッダが存在し、b)ARC情報の頻繁な変更が予想される場合に、賢明な設計選択となり得る。しかし、H.263形式の信号伝達を使用する場合のオーバヘッドは非常に高くなる可能性があり、ピクチャヘッダが一時的な性質のものである可能性があるので、スケーリング係数がピクチャ境界の間で関係しない可能性がある。さらに、図５Ｂの例に示すように、図(500B)は、JVET-M0135が、PPS情報(504)、ARC参照情報(505)、SPS情報(507)及びターゲット参照テーブル情報(506)を含むことを示す。

例示的な実施形態によれば、図５Ｃは、タイルグループヘッダ情報(508)及びARC情報(509)が示されている例(500C)を示し、図５Ｄは、タイルグループヘッダ情報(514)、ARC参照情報(513)、SPS情報(516)及びARC情報(515)が示されている例(500D)を示し、図５Ｅは、適応パラメータセット(APS, adaptation parameter set)情報(511)及びARC情報(512)が示されている例(500E)を示す。

図６は、適応解像度が使用されるときの表の例(600)を示しており、この例では、サンプル(613)の単位の出力解像度が符号化される。符号(613)は、出力ピクチャの解像度を一緒に定義することができるoutput_pic_width_in_luma_samples及びoutput_pic_height_in_luma_samplesの双方を示す。ビデオ符号化技術又は標準のどこかにおいて、いずれかの値に対する特定の制限が定義されてもよい。例えば、レベル定義は、これらの2つのシンタックスエレメントの値の積でもよい合計出力サンプルの数を制限してもよい。また、特定のビデオ符号化技術若しくは標準又は外部技術若しくは標準(例えば、システム標準等)は、数値範囲(例えば、一方又は双方の寸法が2の数のべき乗で割ることができなければならない)又はアスペクト比(例えば、幅及び高さが4:3又は16:9のような関係になければならない)を制限してもよい。このような制限は、ハードウェアの実装を容易にするために、或いは、本開示を考慮して当業者に理解される他の理由のために導入されてもよい。

特定のアプリケーションでは、参照ピクチャサイズが出力ピクチャサイズであると暗示的に仮定するのではなく、エンコーダがデコーダに特定の参照ピクチャサイズを使用するように命令することが望ましくなり得る。この例では、シンタックスエレメントreference_pic_size_present_flag(614)は、参照ピクチャ寸法(615)の条件付き存在をゲート制御する(この場合も同様に、数値は幅及び高さの双方を参照する)。

特定のビデオ符号化技術又は標準(例えばVP9)は、空間スケーラビリティを可能にするために、時間スケーラビリティと共に、特定の形式の参照ピクチャリサンプリング(開示の対象物とは非常に異なって伝達される)を実装することによって空間スケーラビリティをサポートする。特に、特定の参照ピクチャは、ARC形式の技術を使用して、より高い解像度にアップサンプリングされ、空間エンハンスメントレイヤの基礎を形成し得る。これらのアップサンプリングされたピクチャは、詳細を加えるために、高解像度での通常の予測メカニズムを使用して精緻化され得る。

開示の対象物は、実施形態に従ってこのような環境で使用することができ、また、使用される。特定の場合、同じ実施形態又は他の実施形態では、NALユニットヘッダ内の値(例えば、Temporal IDフィールド)が、時間レイヤのみならず、空間レイヤも示すために使用されてもよい。このようにすることは、特定のシステム設計にとって或る程度の利点を有する。例えば、NALユニットヘッダのTemporal ID値に基づく時間レイヤ選択転送のために作成及び最適化された既存の選択転送ユニット(SFU, Selected Forwarding Unit)は、スケーラブル環境のために変更なしで使用できる。これを可能にするために、符号化ピクチャサイズと時間レイヤとの間のマッピングの要件がNALユニットヘッダ内のTemporal IDフィールドによって示されてもよい。

実施形態では、レイヤ間従属性に関する情報は、VPS(又はDPS、SPS又はSEIメッセージ)で伝達されてもよい。レイヤ間従属性情報は、現在のレイヤを復号するためにどのレイヤが参照レイヤとして使用されるかを識別するために使用されてもよい。nuh_layer_idがmに等しい直接従属レイヤ内の復号されたピクチャpicAは、nがmよりも大きく、2つのピクチャpicA及びpicBが同じアクセスユニットに属する場合、nuh_layer_idがnに等しいピクチャpicBの参照ピクチャとして使用されてもよい。

同じ実施形態又は他の実施形態では、レイヤ間参照ピクチャ(ILRP, inter-layer reference picture)リストは、スライスヘッダ(又はパラメータセット)においてインター予測参照ピクチャ(IPRP, inter-prediction reference picture)リストと共に明示的に伝達されてもよい。ILRPリスト及びIPRPリストの双方は、順方向及び逆方向予測参照ピクチャリストの構築に使用されてもよい。

同じ実施形態又は他の実施形態では、VPS(又は他のパラメータセット)内のシンタックスエレメントは、各レイヤが従属であるか独立であるかを示してもよい。図７の例(700)を参照すると、シンタックスエレメントvps_max_layers_minus1(703)に1を加えたものは、VPS(701)を参照する1つ以上の(潜在的に全ての)CVSで許可されるレイヤの最大数を指定してもよい。1に等しいvps_all_independent_layers_flag(704)は、CVS内の全てのレイヤが独立して(すなわち、レイヤ間予測を使用せずに)符号化されることを指定してもよい。0に等しいvps_all_independent_layers_flag(704)は、CVS内のレイヤのうち1つ以上がレイヤ間予測を使用し得ることを指定してもよい。存在しない場合、vps_all_independent_layers_flagの値は1に等しいと推測されてもよい。vps_all_independent_layers_flagが1に等しい場合、vps_independent_layer_flag[i](706)の値は1に等しいと推定されてもよい。vps_all_independent_layers_flagが0に等しい場合、vps_independent_layer_flag[0]の値は1に等しいと推定される。図７を参照すると、1に等しいvps_independent_layer_flag[i](706)は、インデックスiを有するレイヤがレイヤ間予測を使用しないことを指定してもよい。0に等しいvps_independent_layer_flag[i]は、インデックスiを有するレイヤがレイヤ間予測を使用してもよく、vps_layer_dependency_flag[i]がVPSに存在することを指定してもよい。0に等しいvps_direct_dependency_flag[i][j](707)は、インデックスjを有するレイヤがインデックスiを有するレイヤの直接参照レイヤではないことを指定してもよい。1に等しいvps_direct_dependency_flag[i][j]は、インデックスjを有するレイヤがインデックスiを有するレイヤの直接参照レイヤであることを指定してもよい。vps_direct_dependency_flag[i][j]が0以上vps_max_layers_minus1以下の範囲のi及びjについて存在しない場合、これは0に等しいと推測されてもよい。第iのレイヤの第jの直接従属レイヤを指定する変数DirectDependentLayerIdx[i][j]は、以下のように導出される。
for(i=1;i<=vps_max_layers_minus1;i++)
if(!vps_independent_layer_flag[i])
for(j=i-1,k=0;j>=0;j--)
if(vps_direct_dependency_flag[i][j])
DirectDependentLayerIdx[i][k++]=j

vps_layer_id[i]に等しいnuh_layer_idを有するレイヤのレイヤインデックスを指定する変数GeneralLayerIdx[i]は、以下のように導出される。
for(i=0;i<=vps_max_layers_minus1;i++)
GeneralLayerIdx[vps_layer_id[i]]=i

同じ実施形態又は他の実施形態では、図７を参照すると、vps_max_layers_minus1が0よりも大きく、vps_all_independent_layers_flagの値が0に等しい場合、vps_output_layers_mode及びvps_output_layer_flags[i]が伝達されてもよい。0に等しいvps_output_layers_mode(708)は、最も高いレイヤのみが出力されることを指定してもよい。1に等しいvps_output_layer_modは、全てのレイヤが出力され得ることを指定する。2に等しいvps_output_layer_modeは、出力されるレイヤがvps_output_layer_flag[i](709)が1に等しいレイヤであることを指定してもよい。vps_output_layers_modeの値は、0～2の範囲とする。vps_output_layer_modeの値3は、将来の使用のために予約されてもよい。存在しない場合、vps_output_layers_modeの値は1に等しいと推測されてもよい。1に等しいvps_output_layer_flag[i]は、第iのレイヤが出力されることを指定してもよい。0に等しいvps_output_layer_flag[i]は、第iのレイヤが出力されないことを指定してもよい。リストOutputLayerFlag[i]は以下のように導出される。ここで、値1は第iのレイヤが出力されることを指定してもよく、値0は第iのレイヤが出力されないことを指定してもよい。
OutputLayerFlag[vps_max_layers_minus1]=1
for(i=0;i<vps_max_layers_minus1;i++)
if(vps_output_layer_mode==0)
OutputLayerFlag[i]=0
else if(vps_output_layer_mode==1)
OutputLayerFlag[i]=1
else if(vps_output_layer_mode==2)
OutputLayerFlag[i]=vps_output_layer_flag[i]

同じ実施形態又は他の実施形態では、カレントピクチャの出力は、以下のように指定されてもよい。
-PictureOutputFlagが1に等しく、DpbOutputTime[n]がCpbRemovalTime[n]に等しい場合、カレントピクチャが出力される。
-そうでなく、PictureOutputFlagが0に等しい場合、カレントピクチャは出力されず、条項で指定されるようにDPBに記憶される。
-そうでない場合(PictureOutputFlagが1に等しく、DpbOutputTime[n]がCpbRemovalTime[n]よりも大きい場合)、カレントピクチャは、後で出力され、(条項で指定されるように)DBPに記憶され、DpbOutputTime[n]より前の時点において1に等しいno_output_of_prior_pics_flagの復号又は推測によって出力されないことが示されない限り、時間DpbOutputTime[n]において出力される。
出力されるとき、ピクチャのPPSで指定されたコンフォーマンスクロッピングウィンドウを使用して、ピクチャがクロッピングされる。

同じ実施形態又は他の実施形態では、PictureOutputFlagは、以下のように設定されてもよい。
-以下の条件のうち1つが真である場合、PictureOutputFlagは0に等しく設定される。
-カレントピクチャがRASLピクチャであり、関連するIRAPピクチャのNoIncorrectPicOutputFlagが1に等しい。
-gdr_enabled_flagが1に等しく、カレントピクチャが、NoIncorrectPicOutputFlagが1に等しいGDRピクチャである。
-gdr_enabled_flagが1に等しく、カレントピクチャが、NoIncorrectPicOutputFlagが1に等しいGDRピクチャに関連しており、カレントピクチャのPicOrderCntValが関連するGDRピクチャのRpPicOrderCntValよりも小さい。
-vps_output_layer_modeが0又は2に等しく、OutputLayerFlag[GeneralLayerIdx[nuh_layer_id]]が0に等しい。
-そうでない場合、PictureOutputFlagはpic_output_flagに等しく設定される。

同じ実施形態又は他の実施形態では、代替として、PictureOutputFlagは、以下のように設定されてもよい。
-以下の条件のうち1つが真である場合、PictureOutputFlagは0に等しく設定される。
-カレントピクチャがRASLピクチャであり、関連するIRAPピクチャのNoIncorrectPicOutputFlagが1に等しい。
-gdr_enabled_flagが1に等しく、カレントピクチャが、NoIncorrectPicOutputFlagが1に等しいGDRピクチャである。
-gdr_enabled_flagが1に等しく、カレントピクチャが、NoIncorrectPicOutputFlagが1に等しいGDRピクチャに関連しており、カレントピクチャのPicOrderCntValが関連するGDRピクチャのRpPicOrderCntValよりも小さい。
-vps_output_layer_modeが0に等しく、現在のアクセスユニットが、1に等しいPictureOutputFlagを有しており、カレントピクチャよりも大きいnuh_layer_id nuhLidを有しており、出力レイヤに属するピクチャを含む(すなわち、OutputLayerFlag[GeneralLayerIdx[nuhLid]]が1に等しい)。

-vps_output_layer_modeが2に等しく、OutputLayerFlag[GeneralLayerIdx[nuh_layer_id]]が0に等しい。
-そうでない場合、PictureOutputFlagはpic_output_flagに等しく設定される。

同じ実施形態又は他の実施形態では、VPS(又は他のパラメータセット)内のフラグは、カレントスライス(又はピクチャ)についてILRPリストが伝達されるか否かを示してもよい。例えば、図８の例(800)を参照すると、0に等しいinter_layer_ref_pics_present_flagは、ILRPがCVSにおけるいずれの符号化ピクチャのインター予測にも使用されないことを指定してもよい。1に等しいinter_layer_ref_pics_flagは、ILRPがCVSにおける1つ以上の符号化ピクチャのインター予測に使用され得ることを指定してもよい。

同じ実施形態又は他の実施形態では、第kのレイヤが従属レイヤである場合、第kのレイヤ内のピクチャについてのレイヤ間参照ピクチャ(ILRP, inter-layer reference picture)リストは伝達されてもよく或いは伝達されなくてもよい。しかし、第kのレイヤが独立レイヤである場合、第kのレイヤ内のピクチャについてのILRPリストは伝達されないものとし、如何なるILRPも参照ピクチャリストに含まれないものとする。sps_video_parameter_set_idが0に等しい場合、nuh_layer_idが0に等しい場合、又はvps_independent_layer_flag[GeneralLayerIdx[nuh_layer_id]]が1に等しい場合、inter_layer_ref_pics_present_flagの値は0に等しく設定されてもよい。

同じ実施形態又は他の実施形態では、図９の例(900)を参照すると、参照ピクチャリストRefPicList[0]及びRefPicList[1]は、以下のように構成されてもよい。
for(i=0;i<2;i++){
for(j=0,k=0,pocBase=PicOrderCntVal;j<num_ref_entries[i][RplsIdx[i]];j++){
if(!(inter_layer_ref_pic_flag[i][RplsIdx[i]][j]&&GeneralLayerIdx[nuh_layer_id]))
{
if(st_ref_pic_flag[i][RplsIdx[i]][j]){
RefPicPocList[i][j]=pocBase-DeltaPocValSt[i][RplsIdx[i]][j]
if(there is a reference picture pica in the DPB with the same nuh_layer_id as the current picture and PicOrderCntVal equal to RefPicPocList[i][j])
RefPicList[i][j]=picA
else
RefPicList[i][j]="no reference picture"
pocBase=RefPicPocList[i][j]
}else{
if(!delta_poc_msb_cycle_lt[i][k]){
if(there is a reference pica in the DPB with the same nuh_layer_id as the current picture and PicOrderCntVal&(MaxPicOrderCntLsb-1) equal to PocLsbLt[i][k])
RefPicList[i][j]=picA
else
RefPicList[i][j]="no reference picture"
RefPicLtPocList[i][j]=PocLsbLt[i][k]
}else{
if(there is a reference pica in the DPB with the same nuh_layer_id as the current picture and PicOrderCntVal equal to FullPocLt[i][k])
RefPicList[i][j]=picA
else
RefPicList[i][j]="no reference picture"
RefPicLtPocList[i][j]=ullPocLt[i][k]
}
k++
}
}else{
layerIdx=DirectDependentLayerIdx[GeneralLayerIdx[nuh_layer_id]][ilrp_idc[i][RplsIdx[i]][j]]
refPicLayerId=vps_layer_id[layerIdx]
if(there is a reference picture pica in the DPB with nuh_layer_id equal to refPicLayerId and the same PicOrderCntVal as the current picture)
RefPicList[i][j]=picA
else
RefPicList[i][j]="no reference picture"
}
}
}

上記の適応解像度パラメータを伝達するための技術は、コンピュータ読み取り可能命令を使用してコンピュータソフトウェアとして実装されてもよく、1つ以上のコンピュータ読み取り可能媒体に物理的に記憶されてもよい。例えば、図１０は、開示の対象物の特定の実施形態を実装するのに適したコンピュータシステム(1000)を示す。

コンピュータソフトウェアは、いずれかの適切な機械コード又はコンピュータ言語を使用して符号化されてもよく、当該機械コード又はコンピュータ言語は、命令を含むコードを生成するために、アセンブリ、コンパイル、リンク又は類似のメカニズムを受けてもよく、当該命令は、コンピュータ中央処理装置(CPU, central processing unit)、グラフィックス処理ユニット(GPU, Graphics Processing Unit)等によって、直接的に或いはインタープリタ、マイクロコード実行等を通じて実行されてもよい。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットのデバイス等を含む様々なタイプのコンピュータ又はその構成要素上で実行されてもよい。

コンピュータシステム(1000)について図１０に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能に関する如何なる限定も示唆することを意図するものではない。また、構成要素の構成も、コンピュータシステム(1000)の例示的な実施形態に示される構成要素のいずれか1つ又は組み合わせに関する如何なる依存性又は要件も有するものとして解釈されるべきではない。

コンピュータシステム(1000)は、特定のヒューマンインタフェース入力デバイスを含んでもよい。このようなヒューマンインタフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動き等)、オーディオ入力(音声、拍手等)、視覚入力(ジェスチャ等)、嗅覚入力(図示せず)を通じて、1人以上の人間のユーザによる入力に応答してもよい。また、ヒューマンインタフェースデバイスは、オーディオ(例えば、会話、音楽、周辺音)、画像(スキャンされた画像、静止画カメラから取得された写真画像等)、ビデオ(2次元ビデオ、立体ピクチャを含む3次元ビデオ等)のような、人間による意識的入力に必ずしも直接関連しない特定のメディアをキャプチャするために使用されてもよい。

入力ヒューマンインタフェースデバイスは、キーボード(1001)、マウス(1002)、トラックパッド(1003)、タッチ画面(1010)、ジョイスティック(1005)、マイクロフォン(1006)、スキャナ(1007)、カメラ(1008)のうち1つ以上を含んでもよい。

また、コンピュータシステム(1000)は、特定のヒューマンインタフェース出力デバイスを含んでもよい。このようなヒューマンインタフェース出力デバイスは、例えば、触覚出力、音、光及び嗅覚/味覚を通じて、1人以上の人間のユーザの感覚を刺激してもよい。このようなヒューマンインタフェース出力デバイスは、触覚出力デバイス(例えば、タッチ画面(1010)又はジョイスティック(1005)による触覚フィードバック、ただし、入力デバイスとして機能しない触覚フィードバックデバイスが存在してもよい)と、オーディオ出力デバイス(スピーカ(1009)、ヘッドフォン(図示せず)等)と、視覚出力デバイス(それぞれがタッチ画面入力機能を有しても有さなくてもよく、それぞれが触覚フィードバック機能を有しても有さなくてもよく、いくつかが2次元視覚出力又は立体出力のような手段を通じた3次元以上の出力を出力可能でもよいCRT画面、LCD画面、プラズマ画面、OLED画面を含む画面(1010)、仮想現実メガネ(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず))と、プリンタ(図示せず)とを含んでもよい。

また、コンピュータシステム(1000)は、CD/DVD又は同様の媒体(1021)を有するCD/DVD ROM/RW(1020)を含む光媒体のような人間がアクセス可能な記憶デバイス及び関連する媒体、サムドライブ(1022)、取り外し可能ハードドライブ又はソリッドステートドライブ(1023)、テープ及びフロッピーディスク(図示せず)のようなレガシー磁気媒体、セキュリティドングル(図示せず)のような特殊なROM/ASIC/PLDに基づくデバイス等を含んでもよい。

また、当業者は、ここに開示の対象物に関連して使用される用語「コンピュータ読み取り可能媒体」が伝送媒体、搬送波又は他の非一時的な信号を含まないことを理解すべきである。

また、コンピュータシステム(1000)は、1つ以上の通信ネットワークへのインタフェースを含んでもよい。ネットワークは、例えば、無線、有線、光でもよい。ネットワークは、ローカル、広域、メトロポリタン、車両及び産業、リアルタイム、遅延耐性等でもよい。ネットワークの例は、イーサネット、無線LAN、セルラネットワーク(GSM、3G、4G、5G、LTE等を含む)、TV有線又は無線広域デジタルネットワーク(ケーブルTV、衛星TV、及び地上放送TVを含む)、車両及び産業(CANBusを含む)等を含む。特定のネットワークは、一般的に、特定の汎用データポート又は周辺バス(1049)に取り付けられる外部ネットワークインタフェースアダプタ(例えば、コンピュータシステム(1000)のUSBポート等)を必要とし、他のネットワークインタフェースアダプタは、一般的に、以下に説明するシステムバス(例えば、PCコンピュータシステムへのイーサネットインタフェース又はスマートフォンコンピュータシステムへのセルラネットワーク)に取り付けられることによって、コンピュータシステム(1000)のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム(1000)は、他のエンティティと通信することができる。このような通信は、一方向の受信のみ(例えば、放送TV)、一方向の送信のみ(例えば、特定のCANbusデバイスへのCANbus)でもよく、或いは、例えば、ローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの双方向でもよい。特定のプロトコル及びプロトコルスタックは、上記のようなネットワーク及びネットワークインタフェースのそれぞれにおいて使用されてもよい。

上記のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス及びネットワークインタフェースは、コンピュータシステム(1000)のコア(1040)に取り付けられてもよい。

コア(1040)は、1つ以上の中央処理装置(CPU)(1041)、グラフィックス処理ユニット(GPU)(1042)、フィールドプログラマブルゲートアレイ(FPGA, Field Programmable Gate Area)(1043)の形式の特殊なプログラム可能処理ユニット、特定のタスク用のハードウェアアクセラレータ(1044)等を含んでもよい。これらのデバイスは、読み取り専用メモリ(ROM)(1045)、ランダムアクセスメモリ(1046)、内部大容量記憶装置(内部のユーザアクセス不可能なハードドライブ、SSD等)(1047)と共に、システムバス(1048)を通じて接続されてもよい。いくつかのコンピュータシステムでは、システムバス(1048)は、更なるCPU、GPU等による拡張を可能にするために、1つ以上の物理プラグの形式でアクセス可能でもよい。周辺デバイスは、コアのシステムバス(1048)に直接取り付けられてもよく、或いは、周辺バス(1049)を通じて取り付けられてもよい。周辺バスのアーキテクチャは、PCI、USB等を含む。

CPU(1041)、GPU(1042)、FPGA(1043)及びアクセラレータ(1044)は特定の命令を実行してもよく、当該特定の命令は、組み合わせによって上記のコンピュータコードを構成してもよい。当該コンピュータコードは、ROM(1045)又はRAM(1046)に記憶されてもよい。また、一時的なデータは、RAM(1046)に記憶されてもよいが、永続的なデータは、例えば、内部大容量記憶装置(1047)に記憶されてもよい。1つ以上のCPU(1041)、GPU(1042)、大容量記憶装置(1047)、ROM(1045)、RAM(1046)等と密接に関連してもよいキャッシュメモリを使用することによって、メモリデバイスのいずれかへの高速記憶及び検索が可能になってもよい。

コンピュータ読み取り可能媒体は、様々なコンピュータに実装された動作を実行するためのコンピュータコードを有してもよい。媒体及びコンピュータコードは、本開示の目的のために特に設計及び構築されたものでよく、或いは、コンピュータソフトウェア分野における当業者に周知で入手可能なようなものでもよい。

限定ではなく一例として、アーキテクチャ(1000)、具体的には、コア(1040)を有するコンピュータシステムは、1つ以上の有形のコンピュータ読み取り可能媒体に具現されたソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、アクセラレータ等を含む)の結果として機能を提供できる。このようなコンピュータ読み取り可能媒体は、コア内部の大容量記憶装置(1047)又はROM(1045)のような非一時的な性質のコア(1040)の特定の記憶装置と同様に、上記のようなユーザがアクセス可能な大容量記憶装置に関連する媒体でもよい。本開示の様々な実施形態を実装するソフトウェアは、このようなデバイスに記憶されてコア(1040)によって実行されてもよい。コンピュータ読み取り可能媒体は、特定のニーズに従って、1つ以上のメモリデバイス又はチップを含んでもよい。ソフトウェアは、コア(1040)、具体的には、その中のプロセッサ(CPU、GPU、FPGA等を含む)に、RAM(1046)に記憶されたデータ構造を定義し、ソフトウェアによって定義された処理に従ってこのようなデータ構造を修正することを含む、本明細書に記載の特定の処理又は特定の処理の特定の部分を実行させてもよい。さらに或いは代替として、コンピュータシステムは、回路(例えば、アクセラレータ(1044))内に配線されたロジック又は他の方法で具現されたロジックの結果として、機能を提供してもよく、当該回路は、本明細書に記載の特定の処理又は特定の処理の特定の部分を実行するために、ソフトウェアの代わりに或いはソフトウェアと共に動作してもよい。ソフトウェアへの言及は、ロジックを含み、必要に応じて、その逆も可能である。コンピュータ読み取り可能媒体への言及は、必要に応じて、実行するためのソフトウェアを記憶する回路(集積回路(IC)等)、実行するためのロジックを具現する回路又はこれらの双方を含んでもよい。本開示は、ハードウェア及びソフトウェアのいずれかの適切な組み合わせを含む。

本開示は、いくつかの例示的な実施形態を記載しているが、本開示の範囲内に入る変更、置換及び様々な代替の等価物が存在する。したがって、当業者は、本明細書に明示的に図示又は記載されていないが、本開示の原理を具現し、したがって、本開示の真意及び範囲内にある多数のシステム及び方法を考案することができることが認識される。

Claims

デコーダが実行するスケーラブルビットストリームのビデオ復号のための方法であって、
前記スケーラブルビットストリームにおける少なくとも1つのレイヤが前記スケーラブルビットストリームの従属レイヤ及び前記スケーラブルビットストリームの独立レイヤのうち1つであるかを示す少なくとも1つのシンタックスエレメントを含む少なくとも1つのビデオパラメータセット(VPS)を解析するステップと、
レイヤ間参照ピクチャ(ILRP)リストを解析及び解釈することによって、従属レイヤ内のピクチャを復号するステップと、
前記ILRPリストを解析及び解釈することなく、独立レイヤ内のピクチャを復号するステップと
を含む方法。
前記独立レイヤ内の前記ピクチャを復号するステップは、
他のレイヤの復号されたピクチャを含まない参照ピクチャリストを解析及び解釈するステップを含む、請求項１に記載の方法。
前記レイヤ間参照ピクチャリストは、他のレイヤの復号されたピクチャを含む、請求項１又は２に記載の方法。
前記少なくとも1つのVPSを解析するステップは、
他のシンタックスエレメントがレイヤの最大数を示すか否かを決定するステップを更に含む、請求項１乃至３のうちいずれか１項に記載の方法。
前記少なくとも1つのVPSを解析するステップは、
前記スケーラブルビットストリームにおける他のレイヤが前記少なくとも1つのレイヤについての参照レイヤであるかを示すフラグを前記VPSが含むか否かを決定するステップを更に含む、請求項１乃至４のうちいずれか１項に記載の方法。
前記少なくとも1つのVPSを解析するステップは、
前記他のレイヤのインデックス及び前記少なくとも1つのレイヤのインデックスを指定することによって、前記フラグが前記他のレイヤを前記少なくとも1つのレイヤについての前記参照レイヤとして示すか否かを決定するステップを更に含む、請求項５に記載の方法。
前記少なくとも1つのVPSを解析するステップは、
前記他のレイヤのインデックス及び前記少なくとも1つのレイヤのインデックスを指定することによって、前記フラグが前記他のレイヤを前記少なくとも1つのレイヤについての前記参照レイヤではないものとして示すか否かを決定するステップを更に含む、請求項５に記載の方法。
前記少なくとも1つのVPSを解析するステップは、
前記少なくとも1つのレイヤを含む複数のレイヤが前記ILRPリストを解釈することによって復号されるべきであるかを示すフラグを前記VPSが含むか否かを決定するステップを更に含む、請求項１乃至７のうちいずれか１項に記載の方法。
前記少なくとも1つのVPSを解析するステップは、
前記少なくとも1つのレイヤを含む複数のレイヤが前記ILRPリストを解釈することなく復号されるべきであるかを示すフラグを前記VPSが含むか否かを決定するステップを更に含む、請求項１乃至７のうちいずれか１項に記載の方法。
スケーラブルビットストリームのビデオ復号のための装置であって、
コンピュータプログラムコードを記憶するように構成された少なくとも1つのメモリと、
前記コンピュータプログラムコードを実行することにより、請求項１乃至９のうちいずれか１項に記載の方法を実現する少なくとも1つのプロセッサと
を含む装置。
コンピュータに対して、
スケーラブルビットストリームにおける少なくとも1つのレイヤが前記スケーラブルビットストリームの従属レイヤ及び前記スケーラブルビットストリームの独立レイヤのうち1つであるかを示す少なくとも1つのシンタックスエレメントを含む少なくとも1つのビデオパラメータセット(VPS)を解析するステップと、
レイヤ間参照ピクチャ(ILRP)リストを解析及び解釈することによって、従属レイヤ内のピクチャを復号するステップと、
前記ILRPリストを解析及び解釈することなく、独立レイヤ内のピクチャを復号するステップと
を実行させるように構成されたプログラム。
エンコーダが実行するスケーラブルビットストリームのビデオ符号化のための方法であって、
レイヤ間参照ピクチャ(ILRP)リストを解析及び解釈することによって、従属レイヤ内のピクチャを符号化するステップと、
前記ILRPリストを解析及び解釈することなく、独立レイヤ内のピクチャを符号化するステップと、
前記スケーラブルビットストリームにおける少なくとも1つのレイヤが前記スケーラブルビットストリームの従属レイヤ及び前記スケーラブルビットストリームの独立レイヤのうち1つであるかを示す少なくとも1つのシンタックスエレメントを含む少なくとも1つのビデオパラメータセット(VPS)を送信するステップと
を含む方法。