JP2022517868A

JP2022517868A - ビデオ・ビットストリームにおけるスケーラビリティ・パラメータのシグナリング

Info

Publication number: JP2022517868A
Application number: JP2021547816A
Authority: JP
Inventors: チョイ，ビョンドゥ; ウェンジャー，ステファン; リィウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2019-09-20
Filing date: 2020-09-18
Publication date: 2022-03-10
Anticipated expiration: 2040-09-18
Also published as: US11109069B2; AU2020348402B2; EP4032285A1; JP7242926B2; US20210337236A1; CN113632482B; CA3134971A1; KR20210109629A; EP4032285A4; SG11202110568SA; JP7027619B1; CN113632482A; JP2022062252A; US20230283805A1; AU2020348402A1; US20210092446A1; US11743500B2; AU2023201466A1; KR102380591B1; WO2021055739A1

Abstract

少なくとも1つのプロセッサを利用して、符号化されたビデオ・ビットストリームを復号化する方法は、符号化されたビデオ・ビットストリームから、コーディングされたビデオ・シーケンスを取得し、コーディングされたビデオ・シーケンスに含まれる複数のレイヤの数を示す第1シンタックス要素を取得し、コーディングされたビデオ・シーケンスに含まれる複数のレイヤがすべて独立なレイヤであるかどうかを示す第2シンタックス要素を取得し、複数のレイヤの数が1より大きいことを示す第1シンタックス要素と、複数のレイヤがすべては独立なレイヤではないことを示す第2シンタックス要素とに基づいて、出力モードを示す第3シンタックス要素を取得し、第3シンタックス要素に基づいて出力モードを決定し、決定された出力モードに基づいて、複数のレイヤの内から1つ以上の出力レイヤを決定し、1つ以上の出力レイヤを出力するステップを含む。

Description

関連出願
本願は、2019年9月20日付で出願された米国仮特許出願第62/903,603号、及び2020年9月14日付で出願された米国特許出願第17/019,959号による優先権を主張しており、それらの全体は本願に組み込まれる。

技術分野
開示される対象事項は、ビデオ・コーディング及びデコーディングに関連し、特にビデオ・ビットストリームにおける空間的、品質的、及びマルチビュー・スケーラビリティのシグナリングに関連する。

背景技術
動き補償を伴うインター・ピクチャ予測を用いるビデオ・コーディング及びデコーディングが知られている。非圧縮化されたデジタル・ビデオは一連のピクチャから構成されることが可能であり、各ピクチャは、例えば1920×1080のルミナンス・サンプル及び関連するクロミナンス・サンプルの空間次元を有する。一連のピクチャは、例えば60ピクチャ/秒、即ち60Hzの固定された又は可変のピクチャ・レート(非公式に、フレーム・レートとして知られている)を有することが可能である。非圧縮化されたビデオは、かなりのビットレート要件を有する。例えば、サンプル当たり8ビットの1080p60 4：2：0ビデオ(60Hzのフレーム・レートで1920x1080のルミナンス・サンプル解像度)は、1.5Gbit/sに近い帯域幅を必要とする。このようなビデオの1時間は、600Gバイトを超える記憶スペースを必要とする。

ビデオ・コーディング及びデコーディングの目的の1つは、圧縮による入力ビデオ信号の冗長性の低減であるということができる。圧縮は、場合によっては、2桁以上の大きさで、前述の帯域幅又は記憶スペース要件を低減するのに役立つ可能性がある。ロスレス及び非ロスレス圧縮の両方、並びにそれらの組み合わせを用いることができる。ロスレス圧縮とは、元の信号の正確なコピーが、圧縮された元の信号から再構成することができる技術をいう。非ロスレス圧縮を使用する場合、再構成された信号は、元の信号と同一ではないかもしれないが、元の信号と再構成された信号との間の歪は、再構成された信号が、意図された用途にとって有用である程度に十分に小さい。ビデオの場合、非ロスレス圧縮が広く用いられている。許容される歪の量は、用途に依存し、例えば特定の消費者ストリーミング・アプリケーションのユーザーは、テレビ配信アプリケーションのユーザーよりも高い歪に耐え得る可能性がある。達成可能な圧縮比は、より高い許容可能な／耐え得る歪はより高い圧縮比をもたらし得ることを反映することが可能である。

ビデオ・エンコーダ及びデコーダは、動き補償、変換、量子化、エントロピー・コーディングを含む幾つもの幅広いカテゴリの内の技術を利用することが可能であり、そのうちの幾つかは以下で紹介される。

歴史的には、ビデオ・エンコーダ及びデコーダは、ほとんどの場合、コーディングされたビデオ・シーケンス(CVS)、グループ・オブ・ピクチャ(GOP)、又は類似のマルチピクチャ・タイムフレームに対して定義され且つ一定のままである所与のピクチャ・サイズで動作する傾向があった。例えば、MPEG-2では、システム設計は、シーンのアクティビティのような要因に依存して水平解像度(従って、ピクチャ・サイズ)を変化させること、但しIピクチャにおいてのみ、従って典型的にはGOPに対して行うことが知られている。CVS内で異なる解像度を使用するための参照ピクチャのリサンプリングは、例えば、ITU-T Rec．H．263Annex Pにより知られている。しかしながら、この場合、ピクチャ・サイズは変わらず、参照ピクチャのみがリサンプリングされ、その結果、使用されるピクチャ・キャンバスの部分のみ(ダウンサンプリングの場合)、又はキャプチャされるシーンの部分のみ(アップサンプリングの場合)におけるものとなる。更に、H．263Annex Qは、2の因子による個々のマクロブロックのリサンプリングを(各次元において)、上方又は下方に行うことを許容する。また、ピクチャ・サイズは同じままである。マクロブロックのサイズはH．263で固定されており、従ってシグナリングされることを必要としない。

予測されるピクチャにおけるピクチャ・サイズの変更は、現代のビデオ・コーディングでは、よりいっそう主流になっている。例えば、VP9は、ピクチャ全体に対する解像度の変更及び参照ピクチャ・リサンプリングを許容する。同様に、VVCに対してなされる或る提案(例えば、Hendry, et. al, “On adaptive resolution change (ARC) for VVC”, Joint Video Team document JVET-M0135-v1, Jan 9-19, 2019を含み、その全体が本願に組み込まれる）は、様々な－より高い又はより低い－解像度に対して、参照ピクチャ全体のリサンプリングを許容する。その文書では、様々な候補の解像度が、シーケンス・パラメータ・セットにおいてコーディングされ、ピクチャ・パラメータ・セットにおけるピクチャ毎のシンタックス要素によって参照されることが示唆されている。

実施形態において、少なくとも1つのプロセッサを利用して、符号化されたビデオ・ビットストリームを復号化する方法が提供され、本方法は：符号化されたビデオ・ビットストリームから、コーディングされたビデオ・シーケンスを取得するステップと、コーディングされたビデオ・シーケンスに含まれる複数のレイヤの数を示す第1シンタックス要素を取得するステップと、コーディングされたビデオ・シーケンスに含まれる複数のレイヤがすべて独立なレイヤであるかどうかを示す第2シンタックス要素を取得するステップと、複数のレイヤの数が1より大きいことを示す第1シンタックス要素と、複数のレイヤがすべては独立なレイヤではないことを示す第2シンタックス要素とに基づいて、出力モードを示す第3シンタックス要素を取得するステップと、第3シンタックス要素に基づいて出力モードを決定するステップと、決定された出力モードに基づいて、複数のレイヤの内から1つ以上の出力レイヤを決定するステップと、1つ以上の出力レイヤを出力するステップとを含む。

実施形態において、符号化されたビデオ・ビットストリームを復号化するデバイスが提供され、デバイスは、プログラム・コードを記憶するように構成された少なくとも1つのメモリと、プログラム・コードを読み込むように、且つプログラム・コードにより指示されるように動作するように構成された少なくとも1つのプロセッサとを含み、プログラム・コードは、符号化されたビデオ・ビットストリームから、コーディングされたビデオ・シーケンスを取得することを、少なくとも1つのプロセッサに行わせるように構成された第1取得コードと、コーディングされたビデオ・シーケンスに含まれる複数のレイヤの数を示す第1シンタックス要素を取得することを、少なくとも1つのプロセッサに行わせるように構成された第2取得コードと、コーディングされたビデオ・シーケンスに含まれる複数のレイヤがすべて独立なレイヤであるかどうかを示す第2シンタックス要素を取得することを、少なくとも1つのプロセッサに行わせるように構成された第3取得コードと、複数のレイヤの数が1より大きいことを示す第1シンタックス要素と、複数のレイヤがすべては独立なレイヤではないことを示す第2シンタックス要素とに基づいて、出力モードを示す第3シンタックス要素を取得することを、少なくとも1つのプロセッサに行わせるように構成された第4取得コードと、第3シンタックス要素に基づいて出力モードを決定することを、少なくとも1つのプロセッサに行わせるように構成された第1決定コードと、決定された出力モードに基づいて、複数のレイヤの内から1つ以上の出力レイヤを決定することを、少なくとも1つのプロセッサに行わせるように構成された第2決定コードと、1つ以上の出力レイヤを出力することを、少なくとも1つのプロセッサに行わせるように構成された出力コードとを含む。

実施形態において、命令を記憶する非一時的なコンピュータ読み取り可能な媒体が提供され、命令は、符号化されたビデオ・ビットストリームを復号化するデバイスの1つ以上のプロセッサにより実行されると、1つ以上のプロセッサに、符号化されたビデオ・ビットストリームから、コーディングされたビデオ・シーケンスを取得するステップと、コーディングされたビデオ・シーケンスに含まれる複数のレイヤの数を示す第1シンタックス要素を取得するステップと、コーディングされたビデオ・シーケンスに含まれる複数のレイヤがすべて独立なレイヤであるかどうかを示す第2シンタックス要素を取得するステップと、複数のレイヤの数が1より大きいことを示す第1シンタックス要素と、複数のレイヤがすべては独立なレイヤではないことを示す第2シンタックス要素とに基づいて、出力モードを示す第3シンタックス要素を取得するステップと、第3シンタックス要素に基づいて出力モードを決定するステップと、決定された出力モードに基づいて、複数のレイヤの内から1つ以上の出力レイヤを決定するステップと、1つ以上の出力レイヤを出力するステップとを行わせる。

開示される対象事項の更なる特徴、性質、及び種々の利点は、以下の詳細な説明及び添付図面から更に明らかになるであろう。

実施形態による通信システムの簡略化されたブロック図の概略図である。

実施形態によるデコーダの簡略化されたブロック図の概略図である。

実施形態によるエンコーダの簡略化されたブロック図の概略図である。

実施形態によるARC/RPRパラメータをシグナリングするためのオプションの概略図である。

実施形態によるシンタックス・テーブル例の概略図である。実施形態によるシンタックス・テーブル例の概略図である。

実施形態によるVPSにおけるシグナリング・レイヤ依存性の概略図である。

実施形態によるVPSにおける表現フォーマットのリストをシグナリングする概略図である。

実施形態によるSPSにおける表現フォーマットのインデックスをシグナリングする概略図である。

実施形態による符号化されたビデオ・ビットストリームを復号化するためのプロセス例のフローチャートである。

実施形態によるコンピュータ・システムの概略図である。

図1は、本開示の実施形態による通信システム(100)の簡略化されたブロック図を示す。システム(100)は、ネットワーク(150)を介して相互接続された少なくとも2つの端末(110-120)を含むことが可能である。データの一方向伝送の場合、第1端末(110)は、ネットワーク(150)を介する他の端末(120)への伝送のために、ローカルな位置でビデオ・データをコーディングすることができる。端末デバイス(120)は、他の端末のコーディングされたビデオ・データをネットワーク(150)から受信し、コーディングされたデータを復号化して、復元されたビデオ・データを表示することができる。一方向性データ伝送は、媒体サービング・アプリケーション等において一般的なものであってもよい。

図1は、例えば、ビデオ・カンファレンス中に発生する可能性があるコーディングされたビデオの双方向伝送をサポートするように提供される第2ペアの端末(130，140)を示す。データの双方向伝送に関し、各端末(130，140)は、ネットワーク(150)を介して他の端末へ伝送するために、ローカルな場所で捕捉されたビデオ・データをコーディングすることができる。各端末(130，140)はまた、他の端末によって送信されたコーディングされたビデオ・データを受信することが可能であり、コーディングされたデータを復号化し、復元されたビデオ・データを、ローカルなディスプレイ・デバイスで表示することが可能である。

図1では、端末(110-140)は、サーバー、パーソナル・コンピュータ、スマートフォンとして示されているが、本開示の原理はそのように限定されなくてよい。本開示の実施形態は、ラップトップ・コンピュータ、タブレット・コンピュータ、メディア・プレーヤ、及び/又は専用のビデオ・カンファレンス装置のアプリケーションを見出している。ネットワーク(150)は、例えば有線及び/又は無線通信ネットワークを含む、コーディングされたビデオ・データを端末(110-140)の間で運ぶ任意数のネットワークを表現する。通信ネットワーク(150)は、回線交換及び/又はパケット交換型のチャネルでデータを交換することができる。代表的なネットワークは、テレコミュニケーション・ネットワーク、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、及び/又はインターネットを含む。本開示の目的に関し、ネットワーク(150)のアーキテクチャ及びトポロジーは、以下において説明されない限り、本開示の動作にとって重要ではない可能性がある。

図3は、開示される対象事項の適用例として、ストリーミング環境におけるビデオ・エンコーダ及びビデオ・デコーダの配置を示す。開示される対象事項は、例えば、ビデオ・カンファレンス、デジタルTV、圧縮されたビデオのデジタル・メディア(CD、DVD、メモリ・スティック等を含む)への記憶などを含む、ビデオの利用が可能な他のアプリケーションにも等しく適用することが可能である。

ストリーミング・システムは、ビデオ・ソース(201)、例えばデジタル・カメラを含むことが可能であり、例えば非圧縮のビデオ・サンプル・ストリーム(202)を生成することが可能なキャプチャ・サブシステム(213)を含んでもよい。符号化されたビデオ・ビットストリームと比較した場合に多くのデータ量を強調するために太い線として描かれているサンプル・ストリーム(202)は、カメラ(201)に結合されたエンコーダ(203)によって処理されることが可能である。エンコーダ(203)は、ハードウェア、ソフトウェア、又はそれらの組み合わせを含み、以下で詳細に説明されるような開示される対象事項の態様を動作可能にする又は実現することが可能である。サンプル・ストリームと比較した場合に少ないデータ量を強調するために細い線として描かれている符号化されたビデオ・ビットストリーム(204)は、将来の使用のためにストリーミング・サーバー(205)に記憶されることが可能である。1つ以上のストリーミング・クライアント(206，208)は、ストリーミング・サーバー(205)にアクセスして、符号化されたビデオ・ビットストリーム(204)のコピー(207，209)を取り出すことができる。クライアント(206)はビデオ・デコーダ(210)を含むことが可能であり、ビデオ・デコーダ(210)は、符号化されたビデオ・ビットストリームの到来するコピー(207)を復号化し、ディスプレイ(212)又は他のレンダリング・デバイス(不図示)でレンダリングすることができる出力ビデオ・サンプル・ストリーム(211)を生成する。幾つかのストリーミング・システムでは、ビデオ・ビットストリーム(204，207，209)は、特定のビデオ・コーディング/圧縮規格に従って符号化することができる。これらの規格の例は、ITU-T勧告H.265を含む。開発中のビデオ・コーディング規格は、多用途ビデオ・コーディング(VVC)として非公式に知られている。開示される対象事項はVVCの状況で使用されてもよい。

図3は本開示の実施形態によるビデオ・デコーダ(210)の機能ブロック図を示すことが可能である。

受信機(310)は、デコーダ(210)によって復号化されるべき1つ以上のコーディングされたビデオ・シーケンスを受信することが可能であり；同じ又は別の実施形態において、各々のコーディングされたビデオ・シーケンスの復号化が、他のコーディングされたビデオ・シーケンスから独立している場合には、一度に1つのコーディングされたビデオ・シーケンスを受信することが可能である。コーディングされたビデオ・シーケンスは、チャネル(312)から受信することが可能であり、このチャネルは、符号化されたビデオ・データを記憶するストレージ・デバイスへのハードウェア/ソフトウェア・リンクであってもよい。受信機(310)は、符号化されたビデオ・データを、他のデータ、例えばコーディングされたオーディオ・データ及び/又は補助的なデータ・ストリームとともに受信することが可能であり、これらのデータは、それぞれエンティティ(不図示)を使用して個々に転送されることが可能である。受信機(310)は、コーディングされたビデオ・シーケンスを他のデータから分離することができる。ネットワーク・ジッタに対処するために、バッファ・メモリ(315)は、受信機(310)とエントロピー・デコーダ/パーサー(320)(以後「パーサー」と言及する)との間に結合されてもよい。受信機(310)が、十分な帯域幅及び制御可能性を有するストア/フォワード・デバイスから、又は同期ネットワークから、データを受信している場合、バッファ・メモリ(315)は不要である可能性があるか、又は小さくすることが可能である。インターネットのようなベスト・エフォート・パケット・ネットワークでの使用のために、バッファ(315)が必要とされるかもしれず、それは比較的大きい可能性があり、有利なことに適応的なサイズであるとすることが可能である。

ビデオ・デコーダ(210)は、エントロピー・コーディングされたビデオ・シーケンスからシンボル(321)を再構成するためにパーサー(320)を含むことができる。これらのシンボルのカテゴリは、デコーダ(210)の動作を管理するために使用される情報、及び潜在的には、図3に示されていたような、デコーダの不可欠な部分ではないがそれに結合されることが可能なディスプレイ(212)のようなレンダリング・デバイスを制御するための情報を含む。レンダリング・デバイスの制御情報は、サプルメンタル・エンハンスメント情報(SEIメッセージ)又はビデオ・ユーザビリティ情報(VUI)パラメータ・セット・フラグメント(不図示)の形態におけるものであってもよい。パーサー(320)は、受信されるコーディングされたビデオ・シーケンスを解析/エントロピー復号化することができる。コーディングされるビデオ・シーケンスのコーディングは、ビデオ・コーディング技術又は規格に従うことが可能であり、可変長コーディング、ハフマン・コーディング、コンテキストの影響を伴う又は伴わない算術コーディング等を含む、当業者に周知の原理に従うことが可能である。パーサー(320)は、グループに対応する少なくとも1つのパラメータに基づいて、ビデオ・デコーダ内のピクセルのサブグループの少なくとも1つに対するサブグループ・パラメータのセットを、コーディングされたビデオ・シーケンスから抽出することができる。サブグループは、グループ・オブ・ピクチャ(GOP)、ピクチャ、タイル、スライス、マクロブロック、コーディング・ツリー・ユニット(CTU)、コーディング・ユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)等を含むことが可能である。タイルは、ピクチャ内の特定のタイル列及び行の中のCU/CTUの矩形領域を示す可能性がある。ブリックは、特定のタイル内のCU/CTUの行による矩形領域を示すことが可能である。スライスは、NALユニットに含まれる、ピクチャの1つ以上のブリックを示すことが可能である。サブ・ピクチャは、ピクチャ内の1つ以上のスライスの矩形領域を示すことが可能である。エントロピー・デコーダ／パーサーはまた、変換係数、量子化パラメータ値、動きベクトル等のような情報を、コーディングされたビデオ・シーケンスから取り出すことが可能である。

パーサー(320)は、シンボル(321)を生成するために、バッファ・メモリ(315)から受信したビデオ・シーケンスに対してエントロピー復号化/解析処理を実行することが可能である。

シンボル(321)の再構成は、コーディングされたビデオ・ピクチャ又はその部分のタイプ(例えば、インター及びイントラ・ピクチャ、インター及びイントラ・ブロック)及び他の要因に応じて、複数の異なるユニットを含むことが可能である。どのユニットがどのように包含されるかは、コーディングされたビデオ・シーケンスからパーサー(320)によって解析されたサブグループ制御情報によって制御されることが可能である。パーサー(320)と以下の複数ユニットとの間のこのようなサブグループ制御情報の流れは、明確性のために描かれていない。

デコーダ(210)は、既に述べた機能ブロックを超えて、以下に説明するような複数の機能ユニットに概念的に細分されることが可能である。商業的制約の下で動作する実用的な実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合されることが可能である。しかしながら、開示される対象事項を説明する目的に関し、以下の機能ユニットへの概念的な細分は適切なことである。

第1ユニットは、スケーラ/逆変換ユニット(351)である。スケーラ/逆変換ユニット(351)は、量子化された変換係数だけでなく制御情報(使用する変換、ブロック・サイズ、量子化因子、量子化スケーリング行列などを含む)も、パーサー(320)からシンボル(321)として受信する。スケーラ/逆変換ユニット(351)は、アグリゲータ(355)に入力されることが可能なサンプル値を含むブロックを出力することが可能である。

場合によっては、スケーラ/逆変換(351)の出力サンプルは、イントラ・コーディングされたブロック：即ち、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックに関連する可能性がある。このような予測情報は、イントラ・ピクチャ予測ユニット(352)によって提供することが可能である。場合によっては、イントラ・ピクチャ予測ユニット(352)は、現在の(部分的に再構成された)ピクチャ(358)から取り出された既に再構成された周囲の情報を使用して、再構成中のブロックの同じサイズ及び形状のブロックを生成する。アグリゲータ(355)は、場合によっては、サンプル毎に、イントラ予測ユニット(352)が生成した予測情報を、スケーラ/逆変換ユニット(351)によって提供されるような出力サンプル情報に加える。

それ以外の場合には、スケーラ/逆変換ユニット(351)の出力サンプルは、インター・コーディングされた、動き補償される可能性のあるブロックに関連する可能性がある。このような場合において、動き補償予測ユニット(353)は、予測に使用されるサンプルを取り出すために、参照ピクチャ・メモリ(357)にアクセスすることが可能である。ブロックに関連するシンボル(321)に従って、取り出されたサンプルを動き補償した後に、これらのサンプルは、アグリゲータ(355)によって、スケーラ/逆変換ユニットの出力に加えられ(この場合は、残差サンプル又は残差信号と呼ばれる)、出力サンプル情報を生成する。動き補償予測ユニットが予測サンプルをフェッチする元である参照ピクチャ・メモリ内のアドレスは、例えばX、Y、及び参照ピクチャ成分を有することが可能であるシンボル(321)の形態で、動き補償ユニットにとって利用可能な動きベクトルによって制御されることが可能である。また、動き補償は、サブ・サンプルの正確な動きベクトルが使用される場合に、参照ピクチャ・メモリから取り出されるようなサンプル値の補間、動きベクトル予測メカニズム等を含むことが可能である。

アグリゲータ(355)の出力サンプルは、ループ・フィルタ・ユニット(356)内の様々なループ・フィルタリング技術の影響を受けることが可能である。ビデオ圧縮技術はループ内フィルタ技術を含むことが可能であり、その技術は、コーディングされたビデオ・シーケンスに含まれ、且つパーサー(320)からのシンボル(321)としてループ・フィルタ・ユニット(356)にとって利用可能にされるパラメータによって制御されるが、コーディングされたピクチャ又はコーディングされたビデオ・シーケンスの(復号化の順番で)以前の部分の復号化の間に取得されたメタ情報に応答することが可能であるとともに、以前に再構成されたループ・フィルタリングされたサンプル値にも応答することが可能である。

ループ・フィルタ・ユニット(356)の出力は、レンダリング・デバイス(212)に出力できるだけでなく、将来のインター・ピクチャ予測に使用するために参照ピクチャ・メモリに格納することも可能なサンプル・ストリームであるとすることが可能である。

所定のコーディングされたピクチャは、いったん完全に再構成されると、将来の予測のための参照ピクチャとして使用することが可能である。コーディングされたピクチャが完全に再構成され、コーディングされたピクチャが(例えば、パーサー(320)によって)参照ピクチャとして識別されると、現在の参照ピクチャ(358)は、参照ピクチャ・バッファ(357)の一部となることが可能であり、新しい現在のピクチャ・メモリは、以後のコーディングされたピクチャの再構成を開始する前に、再割り当てされることが可能である。

ビデオ・デコーダ(210)は、ITU-T Rec.H.265のような規格において文書化される所定のビデオ圧縮技術に従って復号化動作を実行することが可能である。コーディングされたビデオ・シーケンスは、コーディングされたビデオ・シーケンスが、ビデオ圧縮技術又は規格のシンタックスに、ビデオ圧縮技術文書又は規格において及び具体的にはそのプロファイル・ドキュメントで指定されているように従うという意味で、使用されているビデオ圧縮技術又は規格によって指定されたシンタックスに準拠することが可能である。また、コンプライアンスのために必要なことは、コーディングされたビデオ・シーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルによって定義される範囲内にあることである。場合によっては、そのレベルは、最大ピクチャ・サイズ、最大フレーム・レート、最大再構成サンプル・レート(例えば、毎秒当たりのメガサンプルで測定される)、最大参照ピクチャ・サイズ等を制限する。レベルによって設定される限界は、場合によっては、コーディングされたビデオ・シーケンスでシグナリングされるHRDバッファ管理のための仮想リファレンス・デコーダ(HRD)仕様及びメタデータによって更に制限される可能性がある。

実施形態では、受信機(310)は、符号化されたビデオとともに追加的(冗長的)なデータを受信する可能性がある。追加的なデータは、コーディングされたビデオ・シーケンスの一部として含まれる可能性がある。追加的なデータは、データを適切に復号化するため、及び/又は元のビデオ・データをより正確に再構成するために、ビデオ・デコーダ(210)によって使用されてもよい。追加的なデータは、例えば、時間、空間、又はSNRエンハンスメント・レイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正コード等の形態におけるものとすることが可能である。

図4は、本開示の実施形態によるビデオ・エンコーダ(203)の機能ブロック図を示すことが可能である。

ビデオ・エンコーダ(203)は、エンコーダ(203)によってコーディングされるべきビデオ画像を捕捉することが可能なビデオ・ソース(201)(エンコーダの一部ではない)から、ビデオ・サンプルを受信することが可能である。

ビデオ・ソース(201)は、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット、...)、任意の色空間(例えば、BT.601 YCrCB、RGB、...)、及び任意の適切なサンプリング構造(例えば、YCrCb 4：2：0、YCrCb 4：4：4)であるとすることが可能なデジタル・ビデオ・サンプル・ストリームの形態で、エンコーダ(203)によってコーディングされるソース・ビデオ・シーケンスを提供することが可能である。メディア・サービング・システムにおいて、ビデオ・ソース(201)は、事前に準備されたビデオを記憶するストレージ・デバイスであってもよい。ビデオ・カンファレンス・システムでは、ビデオ・ソース(203)は、ローカルな画像情報をビデオ・シーケンスとして捕捉するカメラであってもよい。ビデオ・データは、シーケンスで見た場合に動きを伝える複数の個々のピクチャとして提供されてもよい。ピクチャ自体は、ピクセルの空間アレイとして組織されることが可能であり、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、1つ以上のサンプルを含むことが可能である。当業者は、ピクセルとサンプルとの間の関係を容易に理解することが可能である。以下の説明は、サンプルに焦点を当てている。

実施形態によれば、エンコーダ(203)は、リアルタイムに、又はアプリケーションによって要求される他の任意の時間制約の下で、ソース・ビデオ・シーケンスのピクチャを、コーディングされたビデオ・シーケンス(443)にコーディングして圧縮することが可能である。適切なコーディング速度を強制することは、コントローラ(450)の1つの機能である。コントローラは、以下で説明されるように他の機能ユニットを制御し、それらのユニットに機能的に結合される。その結合は明確性のために描かれていない。コントローラによって設定されるパラメータは、レート制御関連パラメータ(ピクチャ・スキップ、量子化器、レート歪最適化技術のラムダ値、...)、ピクチャ・サイズ、グループ・オブ・ピクチャ(GOP)レイアウト、最大動きベクトル探索範囲などを含むことが可能である。当業者は、特定のシステム設計のために最適化されたビデオ・エンコーダ(203)に関連し得るように、コントローラ(450)の他の機能を適切に識別することが可能である。

一部のビデオ・エンコーダは、当業者が「コーディング・ループ」として容易に認識するものにおいて動作する。極端に単純化された説明として、コーディング・ループは、エンコーダ(430)(以下では「ソース・コーダ」)(コーディングされるべき入力ピクチャ及び参照ピクチャに基づいて、シンボルを生成する責任がある)と、エンコーダ(203)に組み込まれた(ローカル)デコーダ(433)とを含むことが可能であり、エンコーダは、(リモート)デコーダもまた生成するであろうサンプル・データを生成するためにシンボルを再構成する(シンボルとコーディングされたビデオ・ビットストリームとの間の任意の圧縮は、開示される対象事項で考慮されるビデオ圧縮技術ではロスレスであるからである)。再構成されたサンプル・ストリームは、参照ピクチャ・メモリ(434)に入力される。シンボル・ストリームの復号化は、デコーダの位置(ローカル又はリモート)に依存しないビット・イグザクト(bit-exact)な結果をもたらすので、参照ピクチャ・バッファの内容もまた、ローカル・エンコーダとリモート・エンコーダとの間でビット・イグザクトである。言い換えると、エンコーダの予測部は、デコーダが復号化中に予測を使用する場合に「見る(see)」ものと厳密に同じサンプル値を、参照ピクチャ・サンプルとして「見る」。参照ピクチャ同期のこの基本原理(及び、例えばチャネル・エラーに起因して同期性が維持できない場合には、結果としてドリフトが生じる)は、当業者によく知られている。

「ローカル」デコーダ(433)の動作は、図3に関連して上記で詳細に既に説明されている「リモート」デコーダ(210)のものと同じであるとすることが可能である。しかしながら、図4も簡単に参照すると、シンボルが利用可能であり、且つエントロピー・コーダー(445)及びパーサー(320)によるシンボルのコーディングされたビデオ・シーケンスへの符号化/復号化はロスレスであるとすることが可能であるので、チャネル(312)、受信機(310)、バッファ(315)、及びパーサー(320)を含むデコーダ(210)のエントロピー復号化部は、ローカル・デコーダ(433)では完全には実現されない可能性がある。

この時点で行うことが可能な観察は、デコーダに存在する解析/エントロピー復号化以外の如何なるデコーダ技術も、必然的に、実質的に同一の機能形態で、対応するエンコーダにも存在する必要があるということである。この理由のために、開示される対象事項はデコーダの動作に焦点を当てている。エンコーダ技術の説明は、包括的に説明されたデコーダ技術の逆であるので、省略することが可能である。特定のエリアにおいてのみ、より詳細な説明が必要であり、以下で与えられる。

動作の一部として、ソース・コーダ(430)は、「参照ピクチャ」として指定されたビデオ・シーケンスからの1つ以上の以前にコーディングされたフレームを参照して、入力フレームを予測的にコーディングする、動き補償された予測コーディングを実行することが可能である。このようにして、コーディング・エンジン(432)は、入力フレームのピクセル・ブロックと、入力フレームに対する予測参照として選択され得る参照フレームのピクセル・ブロックとの間の差分をコーディングする。

ローカル・ビデオ・デコーダ(433)は、ソース・コーダー(430)によって生成されたシンボルに基づいて、参照フレームとして指定されることが可能なフレームのコーディングされたビデオ・データを復号化することが可能である。コーディング・エンジン(432)の動作は、有利なことに、非ロスレス・プロセスであってもよい。コーディングされたビデオ・データがビデオ・デコーダ(図4には示されていない)で復号化される場合、再構成されたビデオ・シーケンスは、典型的には、幾らかのエラーを伴うソース・ビデオ・シーケンスのレプリカである可能性がある。ローカル・ビデオ・デコーダ(433)は、リファレンス・フレームにおいてビデオ・デコーダによって実行されることが可能な復号化プロセスを繰り返し、再構成された参照フレームが、参照ピクチャ・キャッシュ(434)に記憶されることを引き起こすことが可能である。このように、エンコーダ(203)は、遠方端のビデオ・デコーダによって得られる再構成された参照フレームとして、共通の内容を有する再構成された参照フレームのコピーを、局所的に記憶することが可能である(伝送エラーはないものとする)。

予測器(435)は、コーディング・エンジン(432)のために予測検索を行うことができる。即ち、コーディングされるべき新しいフレームについて、予測器(435)は、サンプル・データ(候補の参照ピクセル・ブロックとして)又は所定のメタデータ(参照ピクチャ動きベクトル、ブロック形状など)について、参照ピクチャ・メモリ(434)を検索することができ、これらは、新しいピクチャについての適切な予測参照として役立つ可能性がある。予測器(435)は、適切な予測参照を見出すために、サンプル・ブロック－ピクセル・ブロック・ベースで動作することが可能である。場合によっては、予測器(435)によって得られた探索結果によって決定されるように、入力ピクチャは、参照ピクチャ・メモリ(434)に記憶された複数の参照ピクチャから引き出される予測参照を有する可能性がある。

コントローラ(450)は、例えば、ビデオ・データを符号化するために使用されるパラメータ及びサブグループ・パラメータの設定を含む、ビデオ・コーダ(430)のコーディング動作を管理することが可能である。

前述の機能ユニットのすべての出力は、エントロピー・コーダー(445)におけるエントロピー・コーディングを受けることが可能である。エントロピー・コーダーは、ハフマン・コーディング、可変長コーディング、算術コーディング等のような当業者に知られている技術に従って、シンボルをロスレス圧縮することによって、種々の機能ユニットによって生成されたシンボルを、コーディングされたビデオ・シーケンスに変換する。

送信機(440)は、エントロピー・コーダー(445)によって作成されるようなコーディングされたビデオ・シーケンスをバッファリングして、通信チャネル(460)を介する送信の準備を行うことが可能であり、通信チャネルは、符号化されたビデオ・データを記憶する記憶デバイスへのハードウェア/ソフトウェア・リンクであってもよい。送信機(440)は、ビデオ・コーダ(430)からのコーディングされたビデオ・データを、例えばコーディングされたオーディオ・データ及び/又は補助的なデータ・ストリーム(ソースは不図示)のような送信されるべき他のデータとマージすることが可能である。

コントローラ(450)は、エンコーダ(203)の動作を管理することができる。コーディングの間に、コントローラ(450)は、コーディングされたピクチャの各々に、特定のコーディングされたピクチャ・タイプを割り当てることが可能であり、これは、各ピクチャに適用されることが可能なコーディング技術に影響を及ぼす可能性がある。例えば、ピクチャは、しばしば、次のフレーム・タイプの1つとして割り当てられてもよい。

イントラ・ピクチャ(Iピクチャ)は、シーケンス内の如何なる他のフレームも予測のソースとして使用せずに、符号化及び復号化されることが可能なものである。幾つかのビデオ・コーデックは、例えば、独立デコーダ・リフレッシュ・ピクチャを含む異なるタイプのイントラ・ピクチャを許容する。当業者は、Iピクチャのこれらの変形例、並びにそれら各自の用途及び特徴を認識している。

予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために、高々1つの動きベクトル及び参照インデックスを用いるイントラ予測又はインター予測を用いて符号化及び復号化されることが可能なものである。

双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために、高々2つの動きベクトル及び参照インデックスを用いるイントラ予測又はインター予測を用いて符号化及び復号化されることが可能なものである。同様に、複数の予測ピクチャは、1つのブロックの再構成のために、2つより多い参照ピクチャ及び関連するメタデータを使用することが可能である。

ソース・ピクチャは、一般に、複数のサンプル・ブロック(例えばそれぞれ、4×4、8×8、4×8、又は16×16サンプルのブロック)に空間的に細分され、ブロック毎にコーディングされることが可能である。ブロックは、ブロックそれぞれのピクチャに適用されるコーディング割り当てによって決定されるように、他の(既にコーディングされた)ブロックを参照して予測的にコーディングされることが可能である。例えば、Iピクチャのブロックは、非予測的にコーディングされてもよいし、又は、それらは同じピクチャの既にコーディングされたブロックを参照して予測的に符号化されてもよい(空間予測又はイントラ予測)。Pピクチャのピクセル・ブロックは、以前にコーディングされた1つの参照ピクチャを参照して、空間的な予測又は時間的な予測により非予測的にコーディングされてもよい。Bピクチャのブロックは、1つ又は2つの以前にコーディングされた参照ピクチャを参照して、空間的な予測又は時間的な予測により非予測的に符号化されてもよい。

ビデオ・エンコーダ(203)は、ITU-T Rec.H.265のような所定のビデオ・コーディング技術又は規格に従ってコーディング動作を行うことが可能である。この動作において、ビデオ・エンコーダ(203)は、入力ビデオ・シーケンスにおける時間的及び空間的な冗長性を活用する予測コーディング動作を含む種々の圧縮動作を実行することが可能である。コーディングされたビデオ・データは、従って、使用されているビデオ・コーディング技術又は規格によって指定されたシンタックスに準拠することが可能である。

実施形態において、送信機(440)は、符号化されたビデオとともに追加データを送信することが可能である。ビデオ・コーダ(430)は、そのようなデータを、コーディングされたビデオ・シーケンスの一部として含むことが可能である。追加データは、時間的/空間的/SNRエンハンスメント・レイヤ、他の形式の冗長データ(冗長ピクチャ及びスライス、補足エンハンスメント情報(SEI)メッセージ、ビジュアル・ユーザビリティ情報(VUI)パラメータ・セット・フラグメント等)を含む可能性がある。

最近では、複数の意味的に独立したピクチャ部分の単独ビデオ・ピクチャへの圧縮されたドメイン統合又は抽出が、幾らか注目を集めている。特に、例えば、360コーディング又は特定の監視アプリケーションの文脈において、複数の意味的に独立したソース・ピクチャ(例えば、キューブ投影360シーンの6つの立方体面、又はマルチ・カメラ監視セットアップの場合の個々のカメラ入力)は、所与の時点で、異なるシーン毎のアクティビティに対処するために、別々の適応的な解像度設定を必要とする可能性がある。言い換えれば、エンコーダは、所与の時点で、360度全体又は監視シーンを構成する意味的に異なる独立したピクチャに対して異なるリサンプリング因子を使用することを選択することができる。単一のピクチャに結合される場合、それは、参照ピクチャのリサンプリングが実行されること、及び適応的な解像度コーディング・シグナリングが利用可能であることを、コーディングされたピクチャの部分に対して必要とする。

以下、本説明の残りの部分で言及される幾つかの用語を紹介する。

サブ・ピクチャは、場合によっては、サンプル、ブロック、マクロブロック、コーディング・ユニット、又は、意味的にグループ化される類似のエンティティであって変更された解像度で独立にコーディングされる可能性があるもの、の矩形配列を指す可能性がある。1つ以上のサブ・ピクチャは、ピクチャを形成することが可能である。1つ以上のコーディングされたサブ・ピクチャは、コーディングされたピクチャを形成することが可能である。1つ以上のサブ・ピクチャは1つのピクチャに組み立てられることが可能であり、1つ以上のサブ・ピクチャは1つのピクチャから抽出されることが可能である。特定の環境において、1つ以上のコーディングされたサブ・ピクチャは、サンプル・レベルをコーディングされたピクチャにトランスコーディングすることなく、圧縮されたドメイン内で組み立てられることが可能であり、同じケース又は他のケースにおいて、1つ以上のコーディングされたサブ・ピクチャは、圧縮されたドメイン内のコーディングされたピクチャから抽出されることが可能である。

参照ピクチャ・リサンプリング(RPR)又は適応解像度変更(ARC)は、例えば参照ピクチャ・リサンプリングによって、コーディングされたビデオ・シーケンス内のピクチャ又はサブ・ピクチャの解像度の変更を可能にするメカニズムを指す場合がある。以降、RPR/ARCパラメータは、適応解像度変更を実行するために必要とされる制御情報を指し、それは、例えばフィルタ・パラメータ、スケーリング因子、出力及び/又は参照ピクチャの解像度、種々の制御フラグ等を含む可能性がある。

実施形態において、コーディング及びデコーディングは、単一の意味的に独立したコーディングされたビデオ・ピクチャに対して実行される可能性がある。独立したRPR/ARCパラメータを有する複数のサブ・ピクチャのコーディング／デコーディングの意味あい、及び含意される追加的なの複雑さを説明する前に、RPR/ARCパラメータをシグナリングするためのオプションを説明することとする。

図5を参照すると、RPR/ARCパラメータをシグナリングするための幾つかの実施形態が示されている。実施形態の各々で言及されるように、それらは、コーディングの効率、複雑性、及びアーキテクチャの観点から、特定の利点及び特定の欠点を有する可能性がある。ビデオ・コーディング規格又は技術は、RPR/ARCパラメータをシグナリングするために、これらのうちの1つ以上の実施形態又は関連技術から知られるオプションを選択することができる。実施形態は、相互に排他的ではない可能性があり、アプリケーションの必要性、関連する標準技術、又はエンコーダの選択に基づいて、考えられる限り可換である可能性がある。

RPR/ARCパラメータのクラスは以下を含む可能性がある：

－アップ/ダウンサンプル・ファクタ。X及びY次元で別々である又はコンバインされる。

－アップ/ダウンサンプル・ファクタ。時間の次元を追加しており、所定数のピクチャに対して一定速度のズーム・イン/アウトを示す。

－上記2つの内の何れかは、ファクタを含むテーブル内を指し示すことが可能なもっともらしい1つ以上の短いシンタックス要素をコーディングすることを含む可能性がある。

－入力ピクチャ、出力ピクチャ、参照ピクチャ、コーディングされたピクチャの、サンプル単位、ブロック単位、マクロブロック単位、コーディング・ユニット(CU)、又は適切な他の任意の粒度の単位のそれぞれ又はそれらの組み合わせにおけるX又はY次元における解像度。複数の解像度(例えば、入力ピクチャについて1つ、参照ピクチャについて1つ)が存在する場合、ある場合には、1組の値が別の組の値から推測されてもよい。このようなことは、例えば、フラグを使用することによってゲート制御されることが可能である。より詳細な例については、以下を参照されたい。

－「ワーピング（warping）」座標。これはH.263 Annex Pで使用されているようなものであり、前述のように適切な粒度である。H.263Annex Pは、このようなワーピング座標をコーディングするための効率的な方法の1つを定めているが、他の可能性のある更に効率的な方法が考え出される可能性がある。例えば、Annex Pのワーピング座標の可変長リバーシブルな「ハフマン」スタイルのコーディングは、適切な長さ等のバイナリ・コーディングで置換されることが可能であり、ここで、バイナリ・コード・ワードの長さは、例えば、最大ピクチャ・サイズから導出され、おそらくは、特定の因子を乗算され、特定の値だけオフセットされ、最大ピクチャ・サイズの境界の外で「ワーピング」を許容する。

－アップ又はダウンサンプル・フィルタ・パラメータ。実施形態では、アップ及び/又はダウンサンプリングのための単一のフィルタのみが存在する可能性がある。しかしながら、実施形態においては、フィルタ設計において、より柔軟性を可能にすることが望ましい可能性があり、それはフィルタ・パラメータのシグナリングを必要とする可能性がある。そのようなパラメータは、可能なフィルタ設計のリスト内のインデックスにより選択されることが可能であり、フィルタは、 (例えば、フィルタ係数のリストを通じて、適切なエントロピー・コーディング技術を用いて) 完全に指定されることが可能であり、フィルタは、上述の任意のメカニズム等に従ってシグナリングされるアップ/ダウンサンプル比を通じて暗黙的に選択されることが可能である。

以降、本説明は、コードワードによって示される、アップ/ダウンサンプル・ファクタ(X及びY次元の両方で使用されるのと同じファクタ)の有限セットのコーディングを仮定する。このコードワードは、例えばH.264及びH.265のようなビデオ・コーディング仕様における特定のシンタックス要素に共通のExt-Golombコードを使用して、可変長符号化されてもよい。値のアップ/ダウンサンプル・ファクタへの1つの適切なマッピングは、例えば、テーブル1によるものである可能性がある：
テーブル１：

アプリケーションのニーズと、ビデオ圧縮技術や規格で利用可能なアップ及びダウンスケールのメカニズムの能力に応じて、多くの同様なマッピングを考え出すことが可能である。テーブルは、より多くの値に拡張されることが可能である。値は、例えば、バイナリ・コーディングを使用して、Ext-Golombコード以外のエントロピー・コーディング・メカニズムによって表現されてもよい。これは、例えばMANEにより、ビデオ処理エンジン(主に、エンコーダ及びデコーダ)自体の外側で、リサンプリング・ファクタが興味深かった場合に、ある種の利点を有する可能性がある。解像度変化が要求されない状況では、Ext-Golombコードは短いものに選択されることが可能であり、上記のテーブルでは、1ビットのみであることに留意すべきである。これは、最も一般的な場合にバイナリ・コードを使用するものを上回るコーディング効率の利点を有する可能性がある。

テーブル内のエントリの数、及びそのセマンティクスは、完全に又は部分的に設定可能であってもよい。例えば、テーブルの基本的な概要は、シーケンス又はデコーダ・パラメータ・セットのような「ハイ」パラメータ・セットで伝達されてもよい。実施形態において、1つ以上のそのようなテーブルは、ビデオ・コーディング技術又は規格で定められてもよく、例えばデコーダ又はシーケンス・パラメータ・セットを通じて選択されてもよい。

以下、上記のようにコーディングされたアップサンプル/ダウンサンプル・ファクタ(ARC情報)が、ビデオ・コーディング技術又は規格のシンタックスにどのように含まれ得るかを説明する。同様な考察は、アップ/ダウンサンプル・フィルタを制御する1つ又は数個のコードワードに適用されてもよい。比較的大量のデータがフィルタ又は他のデータ構造に必要な場合には、以下の説明を参照されたい。

図5に示すように、H.263Annex Pは、ARC情報(502)を、ピクチャ・ヘッダ(501) への4つのワーピング座標の形式で、具体的にはH.263 PLUSPTYPE (503)ヘッダ拡張に含める。これは、a)利用可能なピクチャ・ヘッダが存在し、且つb)ARC情報の頻繁な変更が予想される場合に、賢明な設計選択肢となる可能性がある。しかしながら、H.263スタイル・シグナリングを使用する場合のオーバーヘッドは非常に大きく、スケーリング・ファクタは、ピクチャ・ヘッダが一時的な性質のものである可能性があるので、ピクチャ境界の中に属さない可能性がある。

同一又は別の実施形態において、ARCパラメータのシグナリングは、図6A－6Bで概説される詳細な例に従うことができる。図6A－図6Bは、例えば少なくとも1993年以降のビデオ・コーディング規格で使用されるように、概してCスタイルのプログラミングに従う表記法を使用するタイプの表現でシンタックス図を示す。ボールド体の線はビットストリームに存在するシンタックス要素を示し、ボールド体でない線はしばしば制御フロー又は変数の設定を示す。

図6Aに示すように、ピクチャの(おそらくは矩形の)部分に適用可能なヘッダの例示的なシンタックス構造としてのタイル・グループ・ヘッダ(601)は、条件付きで、可変長のExp-Golombコーディングされたシンタックス要素dec_pic_size_idx (602)(ボールド体で示されている)を含むことができる。タイル・グループ・ヘッダ中にこのシンタックス要素が存在することは、適応解像度(603)－ここではボールド体では示されていないフラグの値－の使用によってゲート制御されることが可能であり、これは、シンタックス要素がシンタックス・ダイアグラムに生じるポイントで、フラグがビットストリーム中に存在することを意味する。適応解像度がこのピクチャ又はその一部に対して使用されているか否かは、ビットストリームの内側又は外側で任意のハイ・レベル・シンタックス構造においてシグナリングされることが可能である。図示されている例では、以下に概説されるように、シーケンス・パラメータ・セットでシグナリングされる。

図6Bを参照すると、図示されているものは、シーケンス・パラメータ・セット(610)の抜粋でもある。示されている第1シンタックス要素はadaptive_pic_resolution_change_flag (611)である。Trueである場合、そのフラグは、適応解像度の使用を示すことが可能であり、今度はこれは特定の制御情報を必要とする可能性がある。この例では、このような制御情報は、パラメータ・セット(612)及びタイル・グループ・ヘッダ(601)におけるif()ステートメントに基づくフラグの値に基づいて、条件付きで存在する。

適応解像度が使用中である場合、この例では、コーディングされるものは、サンプル(613)の単位における出力解像度である。数字613は、output_pic_width_in_luma_samples及びoutput_pic_height_in_luma_samplesの両方を示し、これらはともに出力ピクチャの解像度を定めることが可能である。ビデオ・コーディング技術又は規格のどこかで、どちらかの値に対する特定の制限を定めることが可能である。例えば、レベル定義は、これらの2つのシンタックス要素の値の積である可能性がある、出力サンプルの数を制限する可能性がある。
また、特定のビデオ・コーディング技術若しくは規格、又は、例えばシステム規格のような外部技術若しくは規格は、ナンバリング範囲(例えば、一方又は両方の次元は2のべき乗数で割り切れる必要があること)又はアスペクト比(例えば、幅及び高さは、4：3又は16：9のような関係にある必要があること)を制限する可能性がある。このような制約は、ハードウェアの実装を容易にするために、又は他の理由のために導入されてもよく、当技術分野では周知である。

特定のアプリケーションでは、暗黙のうちにそのサイズを出力ピクチャ・サイズであるように仮定するのではなく、特定の参照ピクチャ・サイズを使用するように、エンコーダがデコーダに指示することが得策である。この例では、シンタックス要素reference_pic_size_present_flag(614)は、参照ピクチャ次元(615)の条件付き存在をゲート制御する(ここでも、数字は幅と高さの両方を指す)。

最終的に、示されるものは、可能な復号化ピクチャの幅と高さのテーブルである。このようなテーブルは、例えば、テーブル指示(num_dec_pic_size_in_luma_samples_minus1)(616)によって表現されることが可能である。「minus1」はそのシンタックス要素の値の解釈に関連することが可能である。
例えば、コーディングされた値がゼロである場合、1つのテーブル・エントリが存在する。値が5である場合、6つのテーブル・エントリが存在する。テーブル内の各「ライン」に対して、復号化されたピクチャの幅と高さがシンタックス(617)に含まれる。

提示されるテーブル・エントリ(617)は、タイル・グループ・ヘッダ内のシンタックス要素dec_pic_size_idx(602)を使用してインデックスで指定されることが可能であり、それにより、タイル・グループ毎に、異なる復号化されるサイズ－事実上、ズーム・ファクタを使用することができる。

特定のビデオ・コーディング技術又は規格、例えばVP9は、時間的スケーラビリティと併せて、特定の形式の参照ピクチャ・リサンプリングを実装することによって、空間的スケーラビリティをサポートし(開示される対象事項とは全く別様にシグナリングされる)、空間的スケーラビリティを可能にする。特に、特定の参照ピクチャは、ARCスタイルの技術を用いて、より高い解像度へアップサンプリングされ、空間的エンハンスメント・レイヤのベースを形成することができる。これらのアップサンプリングされたピクチャは、高解像度での通常の予測メカニズムを用いて、精緻化されることが可能であり、そのため詳細を加えることが可能である。

本願で説明される実施形態は、このような環境で使用されることが可能である。ある場合には、同一の又は別の実施形態において、NALユニット・ヘッダにおける値、例えばTemporal IDフィールドが、時間的だけでなく、空間的なレイヤをも示すために使用されることが可能である。そのようにすることは、特定のシステム設計に対して特定の利点を有する可能性がある；例えば、NALユニット・ヘッダのTemporal ID値に基づいて選択される時間的レイヤのために作成され最適化された既存の選択された転送ユニット(SFU)を、スケーラブルな環境のために、変更することなく使用することができる。これを可能にするために、コーディングされたピクチャ・サイズと時間レイヤとの間のマッピングに対して条件が存在してもよく、NALユニット・ヘッダのTemporal IDフィールドによって示される。

参照ピクチャ・リサンプリング(RPR)又は適応解像度変更(ARC)では、スケーラビリティ・サポートのための追加的な負担は、ハイ・レベル・シンタックス(HLS)の軽微な変更である可能性がある。実施形態において、インター・レイヤ予測がスケーラブル・システムで使用され、エンハンスメント・レイヤのコーディング効率を改善する。単一レイヤ・コーデックで利用可能な空間的及び時間的な動き補償予測に加えて、インター・レイヤ予測は、参照レイヤから再構成された参照ピクチャのリサンプリングされたビデオ・データを使用して、現在のエンハンスメント・レイヤを予測することができる。次いで、インター・レイヤ予測のためのリサンプリング・プロセスは、動き補償のための既存の補間プロセスを修正することによって、ブロック・レベルで実行されることが可能である。実施形態において、スケーラビリティをサポートするために、追加のリサンプリング・プロセスは必要とされない可能性がある。実施形態は、RPRを使用して空間的/品質的スケーラビリティをサポートするためのハイ・レベル・シンタックス要素に関する。

同一の又は別の実施形態において、図7を参照すると、シンタックス要素vps_max_layers_minus1(703)プラス1は、VPS (701)を参照する各CVSにおける最大許容層数を指定することができる。1に等しいvps_all_independent_layers_flag (704)は、CVS中のすべてのレイヤが、インター・レイヤ予測を使用せずに独立にコーディングされることを指定することができる。0に等しいvps_all_independent_layers_flag (704)は、CVS中の1つ以上のレイヤが、インター・レイヤ予測を使用することができることを指定することができる。存在しない場合、vps_all_independent_layers_flagの値は1に等しいと推測されてもよい。vps_all_independent_layers_flagが1に等しい場合、vps_independent_layer_flag[ i ] (706)の値は1に等しいと推測されてもよい。vps_all_independent_layers_flagが0に等しい場合、vps_independent_layer_flag[ 0 ]の値は1に等しいと推測されてもよい。

図7を参照すると、1に等しいvps_independent_layer_flag[i](706)は、インデックスiのレイヤがインター・レイヤ予測を使用しないことを指定することができる。0に等しいvps_independent_layer_flag[i]は、インデックスiのレイヤがインター・レイヤ予測を使用する可能性があること、及びvps_layer_dependency_flag[i]がVPSに存在することを指定することができる。0に等しいvps_direct_dependency_flag[ i ][ j ](707)は、インデックスjのレイヤが、インデックスiのレイヤに対する直接的な参照レイヤではないことを指定することができる。1に等しいvps_direct_dependency_flag [ i ][ j ]は、インデックスjのレイヤが、インデックスiのレイヤに対する直接的な参照レイヤであることを指定することができる。vps_direct_dependency_flag[ i ][ j ]が、両端を含む0からvps_max_layers_minus1の範囲内のiとjに対して存在しない場合、それは0に等しいと推測されてもよい。変数DirectDependentLayerIdx[ i ][ j ]は、i番目のレイヤのうちでj番目の直接的な従属レイヤを指定し、それは次のように導出されてもよい：
for( i = 1; i < vps_max_layers_minus1; i- -)
if( !vps_independent_layer_flag[ i ] )
for( j = i, k = 0; j >= 0; j- - )
if( vps_direct_dependency_flag[ i ][ j ] )
DirectDependentLayerIdx[ i ][ k++ ] = j

変数GeneralLayerIdx[ i ]は、vps_layer_id[ i ]に等しいnuh_layer_idを有するレイヤのレイヤ・インデックスを指定し、それは次のように導出されてもよい：
for( i = 0; i <= vps_max_layers_minus1; i++ )
GeneralLayerIdx[ vps_layer_id[ i ] ] = i

同一の又は別の実施形態において、図7を参照すると、vps_max_layers_minus1がゼロより大きく、vps_all_independent_layers_flagの値がゼロに等しい場合、vps_output_layers_mode及びvps_output_layer_flags[i]がシグナリングされる。0に等しいvps_output_layers_mode (708)は、最も高いレイヤのみが出力されることを指定することができる。1に等しいvps_output_layer_modeは、すべてのレイヤが出力されることを示すことができる。2に等しいvps_output_layer_modeは、出力されるレイヤがvps_output_layer_flag[i] (709)が1に等しいレイヤであることを指定することができる。vps_output_layers_modeの値は、0ないし2の範囲内であってもよい。vps_output_layer_modeの値3は、ITU-T｜ISO/IECによる将来的な使用のために予約されている。存在しない場合、vps_output_layers_modeの値は1に等しいと推測されてもよい。1に等しいvps_output_layer_flag[i]は、i番目のレイヤが出力されることを指定することができる。0に等しいvps_output_layer_flag[i]は、i番目のレイヤが出力されないことを指定することができる。値1はi番目のレイヤが出力されることを指定する可能性があり、値0はi番目のレイヤが出力されないことを指定する可能性があるリストOutputLayerFlag[i]は、次のように導出されてもよい：
OutputLayerFlag[ vps_max_layers_minus1 ] = 1
for( i = 0; i < vps_max_layers_minus1; i++ )
if( vps_output_layer_mode = = 0 )
OutputLayerFlag[ i ] = 0
else if( vps_output_layer_mode = = 1 )
OutputLayerFlag[ i ] = 1
else if( vps_output_layer_mode = = 2 )
OutputLayerFlag[ i ] = vps_output_layer_flag[ i ]

同一の又は別の実施形態において、図8を参照すると、vps_num_rep_formats_minus1プラス1は、VPSにおける後続のrep_format()シンタックス構造の数を指定することができる。vps_num_rep_formats_minus1の値は、両端を含む0ないし255の範囲内であってもよい。vps_rep_format_idx[i] は、iに等しいGeneralLayerIdx[ nuh_layer_id ]を有するレイヤに適用するrep_format()シンタックス構造の、VPSにおけるrep_format()シンタックス構造のリスト中のインデックスを指定することができる。vps_rep_format_idx[i]の値は、両端を含む0ないしvps_num_rep_formats_minus1の範囲内にある可能性がある。vps_rep_format_idx[i]の表現に使用されるビット数は、Ceil(Log2(vps_num_rep_formats_minus1 + 1)である。pic_width_max_vps_in_luma_samples，pic_height_max_vps_in_luma_samples，chroma_format_vps_idc，separate_colour_plane_vps_flag，bit_depth_vps_luma_minus8 及びbit_depth_vps_chroma_minus8はそれぞれ、pic_width_max_in_luma_samples， pic_height_max_in_luma_samples，chroma_format_idc，separate_colour_plane_flag， bit_depth_luma_minus8及びbit_depth_chroma_minus8のSPSシンタックス要素の値の推論のために、VPSを参照する各SPSについて使用される。pic_width_max_vps_in_luma_samplesは0に等しくない可能性があり、max(8，MinCbSizeY)の整数倍である可能性がある。pic_height_max_vps_in_luma_samplesは0に等しくない可能性があり、max(8， MinCbSizeY)の整数倍である可能性がある。chroma_format_vps_idcの値は、両端を含む0ないし3の範囲内にある可能性がある。bit_depth_vps_luma_minus8は、両端を含む0ないし8の範囲内にある可能性がある。bit_depth_vps_chroma_minus8は、両端を含む0ないし8の範囲内にある可能性がある。

1に等しいsubpics_vps_present_flagは、サブピクチャ・パラメータが現在のVPS RBSPシンタックスに存在することを示す。0に等しいsubpics_present_flagは、サブピクチャ・パラメータが、現在のVPS RBSPシンタックスに存在しないことを示す。max_subpics_vps_minus1，subpic_grid_vps_col_width_minus1， subpic_grid_vps_row_height_minus1，subpic_grid_vps_row_height_minus1， subpic_grid_vps_idx[ i ][ j ]，subpic_treated_as_pic_vps_flag[ i ]及び loop_filter_across_subpic_enabled_vps_flag[ i ]はそれぞれ、max_subpics_minus1， subpic_grid_col_width_minus1，subpic_grid_row_height_minus1， subpic_grid_row_height_minus1，subpic_grid_idx[ i ][ j ] ， subpic_treated_as_pic_flag[ i ]及びloop_filter_across_subpic_enabled_flag[ i ] のSPSシンタックス要素の値の推論のために、VPSを参照する各SPSについて使用される。

同一の又は別の実施形態において、図9を参照すると、1に等しいuse_rep_format_flagは、sps_rep_format_idxが存在することを指定することができる。0に等しいuse_rep_format_flagは、sps_rep_format_idxが存在しないこと、及びpic_width_max_in_luma_samples， pic_height_max_in_luma_samples，chroma_format_idc，separate_colour_plane_flag， bit_depth_luma_minus8，bit_depth_chroma_minus8，max_subpics_minus1， subpic_grid_col_width_minus1，subpic_grid_row_height_minus1， subpic_grid_row_height_minus1，subpic_grid_idx[ i ][ j ]， subpic_treated_as_pic_flag[ i ]及びloop_filter_across_subpic_enabled_flag[ i ] がSPSに存在することを指定することができる。sps_rep_format_idxは、参照されるVPSにおけるsps_rep_format_idx-th rep_format( )シンタックス構造が、そのSPSを示すレイヤに適用されることを指定することができる。存在する場合、pic_width_max_in_luma_samples， pic_height_max_in_luma_samples， chroma_format_idc， separate_colour_plane_flag， bit_depth_luma_minus8， bit_depth_chroma_minus8， max_subpics_minus1， subpic_grid_col_width_minus1 subpic_grid_row_height_minus1， subpic_grid_row_height_minus1， subpic_grid_idx[ i ][ j ]， subpic_treated_as_pic_flag[ i ]及び loop_filter_across_subpic_enabled_flag[ i ]はそれぞれ、参照されるVPSのsps_rep_format_idx-th rep_format( )シンタックス構造において、pic_width_max_vps_in_luma_samples， pic_height_max_vps_in_luma_samples， chroma_format_vps_idc， separate_colour_plane_vps_flag， bit_depth_vps_luma_minus8， bit_depth_vps_chroma_minus8， max_subpics_vps_minus1， subpic_grid_vps_col_width_minus1，subpic_grid_vps_row_height_minus1， subpic_grid_vps_row_height_minus1， subpic_grid_vps_idx[ i ][ j ]， subpic_treated_as_pic_vps_flag[ i ]及び loop_filter_across_subpic_enabled_vps_flag[ i ]の値に等しいと推測される。1に等しいsubpics_present_flagは、サブピクチャ・パラメータが、現在のSPS RBSPシンタックスに存在することを示す。0に等しいsubpics_present_flagは、サブピクチャ・パラメータが、現在のSPS RBSPシンタックスに存在しないことを示す。max_subpics_minus1プラス1は、CVSに存在し得るサブピクチャの最大数を示すことが可能である。max_subpics_minus1は0ないし254の範囲内にある可能性がある。subpic_grid_col_width_minus1プラス1は、サブピクチャ識別子グリッドの各要素の幅を、4サンプルの単位で指定することができる。シンタックス要素の長さはCeil( Log2( pic_width_max_in_luma_samples / 4) )ビットである。

変数NumSubPicGridColsは、次のようにして導出されてもよい：
NumSubPicGridCols = ( pic_width_max_in_luma_samples + subpic_grid_col_width_minus1 * 4 + 3 ) / ( subpic_grid_col_width_minus1 * 4 + 4 )

subpic_grid_row_height_minus1プラス1は、サブピクチャ識別子グリッドの各要素の高さを、4サンプルの単位で指定することができる。シンタックス要素の長さは、Ceil( Log2( pic_height_max_in_luma_samples / 4) )ビットである。

変数NumSubPicGridRowsは、次のようにして導出されてもよい：
NumSubPicGridRows = ( pic_height_max_in_luma_samples + subpic_grid_row_height_minus1 * 4 + 3 )/ ( subpic_grid_row_height_minus1 * 4 + 4 )

subpic_grid_idx[ i ][ j ] は、グリッド位置(i，j)のサブピクチャのインデックスを指定することができる。シンタックス要素の長さは、Ceil( Log2( max_subpics_minus1 + 1 ) )ビットである。

変数SubPicTop[ subpic_grid_idx[ i ][ j ] ]，SubPicLeft[ subpic_grid_idx[ i ][ j ] ]，SubPicWidth[ subpic_grid_idx [ i ][ j ] ]，SubPicHeight[ subpic_grid_idx[ i ][ j ] ]，及びNumSubPicsは、次のようにして導出されてもよい：
NumSubPics = 0
for( i = 0; i. < NumSubPicGridRows; i++ ) {
for( j = 0; j < NumSubPicGridCols; j++ ) {
if ( i = = 0)
SubPicTop[ subpic_grid_idx[ i ][ j ] ] = 0
else if( subpic_grid_idx[ i ][ j ] != subpic_grid_idx[ i － 1 ][ j ] ) {
SubPicTop[ subpic_grid_idx[ i ][ j ] ] = i
SubPicHeight[ subpic_grid_idx[ i - 1][ j ] ] = i - SubPicTop[ subpic_grid_idx[ i - 1 ][ j ] ]
}
if ( j = = 0)
SubPicLeft[ subpic_grid_idx[ i ][ j ] ] = 0
else if (subpic_grid_idx[ i ][ j ] != subpic_grid_idx[ i ][ j - 1 ] ) {
SubPicLeft[ subpic_grid_idx[ i ][ j ] ] = j
SubPicWidth[ subpic_grid_idx[ i ][ j ] ] = j - SubPicLeft[ subpic_grid_idx[ i ][ j - 1 ] ]
}
if ( i = = NumSubPicGridRows - 1)
SubPicHeight[ subpic_grid_idx[ i ][ j ] ] = i - SubPicTop[ subpic_grid_idx[ i - 1 ][ j ] ] + 1
if (j = = NumSubPicGridRows - 1)
SubPicWidth[ subpic_grid_idx[ i ][ j ] ] = j - SubPicLeft[ subpic_grid_idx[ i ][ j - 1 ] ] + 1
if( subpic_grid_idx[ i ][ j ] > NumSubPics)
NumSubPics = subpic_grid_idx[ i ][ j ]
}
}

1に等しいsubpic_treated_as_pic_flag[ i ]は、CVSの各コーディングされたピクチャのi番目のサブピクチャが、ループ内フィルタリング・オペレーションを除いて、復号化処理においてピクチャとして取り扱われることを指定することができる。0に等しいsubpic_treated_as_pic_flag[ i ]は、CVSの各コーディングされたピクチャのi番目のサブピクチャが、ループ内フィルタリング・オペレーションを除いて、復号化処理においてピクチャとして取り扱われないことを指定することができる。存在しない場合、subpic_treated_as_pic_flag[ i ]の値は、0に等しいと推測されてもよい。

1に等しいloop_filter_across_subpic_enabled_flag[ i ]は、ループ内フィルタリング・オペレーションが、CVS内の各コーディングされたピクチャのi番目のサブピクチャの境界を越えて実行されてもよいことを指定することができる。0に等しいloop_filter_across_subpic_enabled_flag[ i ]は、ループ内フィルタリング・オペレーションが、CVS内の各コーディングされたピクチャのi番目のサブピクチャの境界を越えては実行されないことを指定することができる。存在しない場合、loop_filter_across_subpic_enabled_pic_flag[ i ]の値は、1に等しいと推測されてもよい。

図10は、符号化されたビデオ・ビットストリームを復号化するための例示的なプロセス1000である。幾つかの実装において、図10の1つ以上のプロセス・ブロックは、デコーダ210によって実行されてもよい。幾つかの実装において、図10の1つ以上のプロセス・ブロックは、エンコーダ203のような、デコーダ210から分離されるか又はそれを含む別のデバイス又はデバイスのグループによって実行されてもよい。

図10に示されるように、プロセス1000は、符号化されたビデオ・ビットストリームから、符号化されたビデオ・シーケンスを取得することを含んでもよい(ブロック1001)。

図10に更に示されるように、プロセス1000は、コーディングされたビデオ・シーケンスに含まれる複数のレイヤの数を示す第1シンタックス要素と、コーディングされたビデオ・シーケンスに含まれる複数のレイヤがすべて独立なレイヤであるかどうかを示す第2シンタックス要素とを取得することを含んでもよい(ブロック1002)。

図10に更に示されるように、プロセス1000は、第1シンタックス要素に基づいて、CVSに含まれるレイヤの数が1より大きいかどうかを決定することを含んでもよい(ブロック1003)。

図10に更に示されるように、プロセス1000は、CVSに含まれるレイヤの数が1より大きくないことを示す第1シンタックス要素に基づいて(ブロック1003においてNO)、プロセス1000は、1つのレイヤが出力レイヤとして決定されるブロック1004に進み、次いで、出力レイヤが出力されるブロック1010に進むことができる。

図10に更に示されるように、CVSに含まれるレイヤの数が1より大きいことを示す第1シンタックス要素に基づいて(ブロック1003においてYES)、プロセス1000はブロック1005に進むことができる。

図10に更に示されるように、プロセス1000は、第2シンタックス要素に基づいて、コーディングされたビデオ・シーケンスに含まれる複数のレイヤがすべて独立なレイヤであるかどうかを決定することを含んでもよい(ブロック1005)。

図10に更に示されるように、プロセス1000は、コーディングされたビデオ・シーケンスに含まれる複数のレイヤがすべて独立なレイヤであることを示す第2シンタックス要素に基づく処理を含み(ブロック1005においてYES)、プロセス1000は、すべてのレイヤが出力レイヤとして決定されるブロック1006に進み、次いで出力レイヤが出力されるブロック1010に進むことができる。

図10に更に示されるように、コーディングされたビデオ・シーケンスに含まれる複数のレイヤがすべて独立なレイヤではないことを示す第2シンタックス要素に基づいて(ブロック1003においてNO)、プロセス1000はブロック1007に進むことができる。

図10に更に示されるように、プロセス1000は、出力モードを示す第3シンタックス要素を取得することを含んでもよい(ブロック1007)。

図10に更に示されるように、プロセス1000は、第3シンタックス要素に基づいて出力モードを決定することを含んでもよい(ブロック1008)。

図10に更に示されるように、プロセス1000は、決定された出力モードに基づいて、複数のレイヤの中から1つ以上の出力レイヤを決定することを含んでもよい(ブロック1009)。

図10に更に示されるように、プロセス1000は、1つ以上の出力レイヤを出力することを含んでもよい(ブロック1010)。

実施形態において、出力モードが第1モードであることを示す第3シンタックス要素に基づいて、1つ以上の出力レイヤは、複数のレイヤの内からの最も高いレイヤのみを含んでもよい。

実施形態において、出力モードが第2モードであることを示す第3シンタックス要素に基づいて、1つ以上の出力レイヤは、複数のレイヤを含んでもよい。

実施形態において、プロセス1000は、複数のレイヤの対応するレイヤが出力されるべきであることを示す第4シンタックス要素を取得することを更に含んでもよく、出力モードが第3モードであることを示す第3シンタックス要素に基づいて、1つ以上の出力レイヤは対応するレイヤを含むことが可能である。

実施形態において、第1シンタックス要素、第2シンタックス要素、及び第3シンタックス要素は、ビデオ・パラメータ・セット(VPS)においてシグナリングされてもよい。

実施形態において、VPSは、更に、VPSにおいてシグナリングされた複数のピクチャ・フォーマットの数を示す第5シンタックス要素と、複数のレイヤの内からのレイヤに適用されるべき複数のピクチャ・フォーマットの内からのピクチャ・フォーマットのインデックスを示す第6シンタックス要素とを含んでもよい。

実施形態において、VPSは更に、サブピクチャ・パラメータがVPSにおいてシグナリングされるかどうかを示す第7シンタックス要素を含んでもよい。

実施形態において、VPSを参照するシーケンス・パラメータ・セット(SPS)は、SPSが第9シンタックス要素を含むことを示す第8シンタックス要素を含んでもよく、第9シンタックス要素は、複数のレイヤの内からのレイヤに適用されるようにVPSでシグナリングされた複数のピクチャ・フォーマットの内からのピクチャ・フォーマットのインデックスを示す。

実施形態において、SPSは、更に、サブピクチャ・パラメータがSPSにおいてシグナリングされるかどうかを示す第6シンタックス要素を含んでもよい。

図10は、プロセス1000のブロック例を示すが、幾つかの実装においては、プロセス1000は、図10に示されているものに対して、追加のブロック、より少ないブロック、異なるブロック、又は別様に配置されたブロックを含んでもよい。追加的又は代替的に、プロセス1000のうちの2つ以上のブロックは、並行して実行されてもよい。

更に、提案される方法は、処理回路(例えば、1つ以上のプロセッサ又は1つ以上の集積回路)によって実装されてもよい。一例において、1つ以上のプロセッサは、1つ以上の提案された方法を実行するために、非一時的なコンピュータ読み取り可能な媒体に格納されたプログラムを実行する。

上述した技術は、コンピュータ読み取り可能な命令を用いてコンピュータ・ソフトウェアとして実装することが可能であり、1つ以上のコンピュータ読み取り可能な媒体に物理的に記憶することが可能である。例えば、図11は、開示される対象事項の特定の実施形態を実現するのに適したコンピュータ・システム(1100)を示す。

コンピュータ・ソフトウェアは、アセンブリ、コンパイル、リンク、又は類似のメカニズムの対象となり得る任意の適切なマシン・コード又はコンピュータ言語を使用してコーディングされて、コンピュータ中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)等によって、直接的に又は解釈やマイクロコード実行などを経由して実行可能な命令を含むコードを作成することが可能である。

命令は、例えば、パーソナル・コンピュータ、タブレット・コンピュータ、サーバー、スマートフォン、ゲーム・デバイス、モノのインターネット・デバイス等を含む、種々のタイプのコンピュータ又はそのコンポーネント上で実行されることが可能である。

コンピュータ・システム(1100)について図11に示されるコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実現するコンピュータ・ソフトウェアの使用範囲又は機能性に関する如何なる制限も示唆するようには意図されていない。また、コンポーネントの構成は、コンピュータ・システム1100の例示的な実施形態に示されるコンポーネントの任意の1つ又は組み合わせに関する何らかの従属性や要件を有するものとして解釈されてはならない。

コンピュータ・システム1100は、特定のヒューマン・インターフェース入力デバイスを含むことが可能である。このようなヒューマン・インターフェース入力デバイスは、例えば、触覚入力(例えば、キーストローク、スワイプ、データ・グローブの動き)、聴覚的な入力(例えば、声、拍手)、視覚的な入力(例えば、ジェスチャ)、嗅覚的な入力(図示されていない)を介して、1人以上の人間ユーザーによる入力に応答することが可能である。また、ヒューマン・インターフェース・デバイスは、オーディオ(例えば、会話、音楽、周囲音)、画像(例えば、スキャンされた画像、静止画像カメラから得られる写真画像)、ビデオ(例えば、2次元ビデオ、立体ピクチャを含む3次元ビデオ)のような、人間による意識的な入力に必ずしも直接的に関係しない特定のメディアを捕捉するために使用することが可能である。

入力ヒューマン・インターフェース・デバイスは、キーボード1101、マウス1102、トラックパッド1103、タッチ・スクリーン1110及び関連するグラフィックス・アダプタ1150、データ・グローブ、ジョイスティック1105、マイクロホン1106、スキャナ1107、カメラ1108のうちの(描かれているものはそれぞれ唯1つであるが)1つ以上を含む可能性がある。

コンピュータ・システム1100は、特定のヒューマン・インターフェース出力デバイスを含むことも可能である。このようなヒューマン・インターフェース出力デバイスは、例えば、触覚出力、音、光、及び嗅覚/味覚を通じて、1人以上の人間ユーザーの感覚を刺激することが可能である。
このようなヒューマン・インターフェース出力デバイスは、触覚出力デバイス(例えば、タッチ・スクリーン1110、データ・グローブ、ジョイスティック1105による触覚フィードバックであるが、入力として役立たない触覚フィードバック・デバイスが存在する可能性もある)、聴覚的な出力デバイス(例えば、スピーカー1109、ヘッドフォン(不図示せず))、視覚的な出力デバイス(例えば、陰極線管(CRT)スクリーン、液晶ディスプレイ(LCD)スクリーン、プラズマ・スクリーン、有機発光ダイオード(OLED)スクリーンを含むスクリーン1110であり、各々はタッチ・スクリーン入力機能を備えるか又は備えておらず、各々は触覚フィードバック機能を備えるか又は備えておらず、それらのうちの幾つかは、二次元的な視覚的な出力、又は立体出力のような手段による三次元以上の出力を出力することが可能であってもよい；仮想現実メガネ(図示せず)、ホログラフィック・ディスプレイ、及びスモーク・タンク(図示せず))、及びプリンタ(図示せず)を含むことが可能である。

コンピュータ・システム1100はまた、CD/DVD等の媒体1121を使うCD/DVD ROM/RW1120を含む光媒体、サム・ドライブ1122、リムーバブル・ハード・ドライブ又はソリッド・ステート・ドライブ1123、テープ及びフロッピー・ディスク(図示せず)等のレガシー磁気媒体(不図示)、セキュリティ・ドングル(不図示)等の特殊化されたROM/ASIC/PLDベースのデバイスのような、人間がアクセス可能な記憶デバイス及びそれらに関連する媒体を含むことも可能である。

当業者は、ここで開示される対象事項に関連して使用される用語「コンピュータ読み取り可能な媒体」は、伝送媒体、搬送波、又はその他の過渡的な信号を包含しないことも理解するはずである。

コンピュータ・システム1100は、1つ以上の通信ネットワーク1155へのインターフェースも含むことが可能である。ネットワークは、例えば、無線、有線、光であるとすることが可能である。ネットワークは、更に、ローカル、ワイド・エリア、メトロポリタン、車両及び工業、リアルタイム、遅延耐性などに関するものであるとすることが可能である。ネットワークの例は、イーサーネット、無線LAN、セルラー・ネットワーク(移動通信用グローバル・システム(GSM)、第3世代(3G)、第4世代(4G)、第5世代(5G)、ロング・ターム・エボリューション(LTE)等を含む)、TVの有線又は無線ワイド・エリア・デジタル・ネットワーク(ケーブルTV、衛星TV、及び地上放送TVを含む)、CANBusを含む車両及び産業などを含む。特定のネットワークは、一般に、特定の汎用データ・ポート又は周辺バス(1149)に取り付けられる外部ネットワーク・インターフェース・アダプタを必要とする(例えば、コンピュータ・システム1100のユニバーサル・シリアル・バス(USB)ポート)；その他は、一般に、以下に説明するようなシステム・バスに取り付けることによって、コンピュータ・システム1100のコアに統合される(例えば、イーサーネット・インターフェースはPCコンピュータ・システム内に、セルラー・ネットワーク・インターフェースはスマートフォン・コンピュータ・システム内に統合される)。一例として、ネットワーク1155は、ネットワーク・インターフェース1154を使用して周辺バス1149に接続されることが可能である。これらのうちの任意のネットワークを使用して、コンピュータ・システム1100は、他のエンティティと通信することが可能である。このような通信は、片方向受信専用(例えば、放送テレビ)、片方向送信専用(例えば、特定のCANbusデバイスに対するCANbus)、又は双方向、例えばローカル又はワイド・エリア・デジタル・ネットワークを使用する他のコンピュータ・システムに対するものであるとすることが可能である。特定のプロトコル及びプロトコル・スタックは、上述のように、それらのネットワーク及びネットワーク・インターフェース(1154)の各々で使用されることが可能である。

前述のヒューマン・インターフェース・デバイス、ヒューマン・アクセシブル・ストレージ・デバイス、及びネットワーク・インターフェースは、コンピュータ・システム1100のコア1140に取り付けられることが可能である。

コア1140は、1つ以上の中央処理ユニット(CPU)1141、グラフィックス処理ユニット(GPU)1142、フィールド・プログラマブル・ゲート・エリア(FPGA)1143の形式における特殊プログラマブル処理ユニット、特定のタスク用のハードウェア・アクセラレータ1144等を含むことが可能である。これらのデバイスは、リード・オンリ・メモリ(ROM)1145、ランダム・アクセス・メモリ(RAM)1146、内部大容量ストレージ・デバイス(例えば、内的な非ユーザー・アクセシブル・ハード・ドライブ、ソリッド・ステート・ドライブ(SSD)等)1147と共に、システム・バス1148を介して接続されることが可能である。幾つかのコンピュータ・システムでは、システム・バス1148は、追加のCPU、GPU等による拡張を可能にするために、1つ以上の物理的プラグの形態でアクセス可能である可能性がある。周辺デバイスは、コアのシステム・バス1148に直接取り付けられるか、又は周辺バス1149を介して取り付けられることが可能である。周辺バスのアーキテクチャは、ペリフェラル・コンポーネント相互接続(PCI)、USB等を含む。

CPU1141、GPU1142、FPGA1143、及びアクセラレータ1144は、組み合わされて、前述のコンピュータ・コードを構成することが可能な特定の命令を実行することが可能である。コンピュータ・コードは、ROM1145又はRAM1146に格納されることが可能である。一時的なデータはRAM1146に格納されることが可能である一方、永続的なデータは例えば内的な大容量ストレージ1147に格納されることが可能である。任意のメモリ・デバイスに対する高速な記憶及び検索は、キャッシュ・メモリを利用することで可能になる可能性があり、キャッシュ・メモリは、1つ以上のCPU1141、GPU1142、大容量ストレージ1147、ROM1145、RAM1146等と密接に関連付けることが可能である。

コンピュータ読み取り可能な媒体は、様々なコンピュータ実装済み動作を実行するためのコンピュータ・コードをその上に有することが可能である。媒体及びコンピュータ・コードは、本開示の目的のために特別に設計及び構築されたものであるとすることが可能であり、又はそれらは、コンピュータ・ソフトウェアの分野における当業者にとって周知であり且つ入手可能な種類のものであるとすることが可能である。

例示として、限定ではなく、アーキテクチャ1100、具体的にはコア1140を有するコンピュータ・システムは、プロセッサ(CPU、GPU、FPGA、アクセラレータ等を含む)の結果として、1つ以上の有形のコンピュータ読み取り可能な媒体に具現化されたソフトウェアを実行する機能を提供することが可能である。そのようなコンピュータ読み取り可能な媒体は、コア内部の大容量ストレージ1147又はROM1145のような非一時的な性質のコア1140の特定のストレージと同様に、上述したようなユーザー・アクセシブル大容量ストレージに関連する媒体であるとすることが可能である。本開示の様々な実施形態を実現するソフトウェアは、そのようなデバイスに記憶され、コア1140によって実行されることが可能である。コンピュータ読み取り可能な媒体は、特定のニーズに応じて、1つ以上のメモリ・デバイス又はチップを含むことが可能である。ソフトウェアは、RAM1146に記憶されたデータ構造を定めること、及びソフトウェアによって定められたプロセスに従ってそのようなデータ構造を修正することを含む、本願で説明された特定のプロセス又は特定のプロセスの特定の部分を、コア1140及び特にその中のプロセッサ(CPU、GPU、FPGA等を含む)に実行させることが可能である。更に又は代替として、コンピュータ・システムは、回路(例えば、アクセラレータ1144)内に配線された又は他の方法で具現化されたロジックの結果として機能を提供することが可能であり、その回路は、本願で説明された特定のプロセス又は特定のプロセスの特定の部分を実行することを、ソフトウェアの代わりに又はそれと共に実行することが可能である。ソフトウェアに対する言及はロジックを含み、必要に応じて、その逆も可能である。コンピュータ読み取り可能な媒体に対する言及は、実行のためのソフトウェアを記憶する(集積回路(IC)のような)回路、実行のためのロジックを具体化する回路、又は適切な場合にはその両方を包含することが可能である。本開示はハードウェア及びソフトウェアの適切な任意の組み合わせを包含する。

本開示は、幾つかの例示的な実施形態を説明してきたが、本開示の範囲内に該当する、変更、置換、及び種々の代替的な均等物が存在する。従って、本願で明示的には図示も説明もされていないが、本開示の原理を具体化し、従ってその精神及び範囲内にある多くのシステム及び方法を当業者は考え出すことが可能であることは理解されるであろう。

Claims

少なくとも1つのプロセッサを利用して、符号化されたビデオ・ビットストリームを復号化する方法であって：
前記符号化されたビデオ・ビットストリームから、コーディングされたビデオ・シーケンスを取得するステップと、
前記コーディングされたビデオ・シーケンスに含まれる複数のレイヤの数を示す第1シンタックス要素を取得するステップと、
前記コーディングされたビデオ・シーケンスに含まれる前記複数のレイヤがすべて独立なレイヤであるかどうかを示す第2シンタックス要素を取得するステップと、
前記複数のレイヤの数が1より大きいことを示す前記第1シンタックス要素と、前記複数のレイヤがすべては独立なレイヤではないことを示す前記第2シンタックス要素とに基づいて、出力モードを示す第3シンタックス要素を取得するステップと、
前記第3シンタックス要素に基づいて前記出力モードを決定するステップと、
決定された前記出力モードに基づいて、前記複数のレイヤの内から1つ以上の出力レイヤを決定するステップと、
前記1つ以上の出力レイヤを出力するステップと
を含む方法。
前記出力モードが第1モードであることを示す前記第3シンタックス要素に基づいて、前記1つ以上の出力レイヤは前記複数のレイヤの内からの最も高いレイヤのみを含む、請求項1に記載の方法。
前記出力モードが第2モードであることを示す前記第3シンタックス要素に基づいて、前記1つ以上の出力レイヤは前記複数のレイヤを含む、請求項1に記載の方法。
前記複数のレイヤの対応するレイヤが出力されるべきであることを示す第4シンタックス要素を取得するステップを更に含み、
前記出力モードが第3モードであることを示す前記第3シンタックス要素に基づいて、前記1つ以上の出力レイヤは前記対応するレイヤを含む、請求項1-3のうちの何れか1項に記載の方法。
前記第1シンタックス要素、前記第2シンタックス要素、及び前記第3シンタックス要素はビデオ・パラメータ・セット（VPS）でシグナリングされる、請求項1-4のうちの何れか1項に記載の方法。
前記VPSは、前記VPSでシグナリングされる複数のピクチャ・フォーマットの数を示す第5シンタックス要素と、前記複数のレイヤの内からのレイヤに適用されるべき前記複数のピクチャ・フォーマットの内からのピクチャ・フォーマットのインデックスを示す第6シンタックス要素とを更に含む、請求項5に記載の方法。
前記VPSは、サブピクチャ・パラメータが前記VPSでシグナリングされるかどうかを示す第7シンタックス要素を更に含む、請求項5又は6に記載の方法。
前記VPSを参照するシーケンス・パラメータ・セット（SPS）は、前記複数のレイヤの内からのレイヤに適用されるべき前記VPSでシグナリングされる複数のピクチャ・フォーマットの内からのピクチャ・フォーマットのインデックスを示す第9シンタックス要素を含む、請求項5-7のうちの何れか1項に記載の方法。
前記SPSは、サブピクチャ・パラメータが前記SPSでシグナリングされるかどうかを示す第6シンタックス要素を更に含む、請求項8に記載の方法。
符号化されたビデオ・ビットストリームを復号化するデバイスであって、
プログラム・コードを記憶するように構成された少なくとも1つのメモリと、
前記プログラム・コードを読み込むように、且つ前記プログラム・コードにより指示されるように動作するように構成された少なくとも1つのプロセッサとを含み、前記プログラム・コードは、
前記符号化されたビデオ・ビットストリームから、コーディングされたビデオ・シーケンスを取得することを、前記少なくとも1つのプロセッサに行わせるように構成された第1取得コードと、
前記コーディングされたビデオ・シーケンスに含まれる複数のレイヤの数を示す第1シンタックス要素を取得することを、前記少なくとも1つのプロセッサに行わせるように構成された第2取得コードと、
前記コーディングされたビデオ・シーケンスに含まれる前記複数のレイヤがすべて独立なレイヤであるかどうかを示す第2シンタックス要素を取得することを、前記少なくとも1つのプロセッサに行わせるように構成された第3取得コードと、
前記複数のレイヤの数が1より大きいことを示す前記第1シンタックス要素と、前記複数のレイヤがすべては独立なレイヤではないことを示す前記第2シンタックス要素とに基づいて、出力モードを示す第3シンタックス要素を取得することを、前記少なくとも1つのプロセッサに行わせるように構成された第4取得コードと、
前記第3シンタックス要素に基づいて前記出力モードを決定することを、前記少なくとも1つのプロセッサに行わせるように構成された第1決定コードと、
決定された前記出力モードに基づいて、前記複数のレイヤの内から1つ以上の出力レイヤを決定することを、前記少なくとも1つのプロセッサに行わせるように構成された第2決定コードと、
前記1つ以上の出力レイヤを出力することを、前記少なくとも1つのプロセッサに行わせるように構成された出力コードと
を含むデバイス。
前記出力モードが第1モードであることを示す前記第3シンタックス要素に基づいて、前記1つ以上の出力レイヤは前記複数のレイヤの内からの最も高いレイヤのみを含む、請求項10に記載のデバイス。
前記出力モードが第2モードであることを示す前記第3シンタックス要素に基づいて、前記1つ以上の出力レイヤは前記複数のレイヤを含む、請求項10に記載のデバイス。
前記プログラム・コードは、更に、
前記複数のレイヤの対応するレイヤが出力されるべきであることを示す第4シンタックス要素を取得する第5取得コードを更に含み、
前記出力モードが第3モードであることを示す前記第3シンタックス要素に基づいて、前記1つ以上の出力レイヤは前記対応するレイヤを含む、請求項10-12のうちの何れか1項に記載のデバイス。
前記第1シンタックス要素、前記第2シンタックス要素、及び前記第3シンタックス要素はビデオ・パラメータ・セット（VPS）でシグナリングされる、請求項10-13のうちの何れか1項に記載のデバイス。
前記VPSは、前記VPSでシグナリングされる複数のピクチャ・フォーマットの数を示す第5シンタックス要素と、前記複数のレイヤの内からのレイヤに適用されるべき前記複数のピクチャ・フォーマットの内からのピクチャ・フォーマットのインデックスを示す第6シンタックス要素とを更に含む、請求項14に記載のデバイス。
前記VPSは、サブピクチャ・パラメータが前記VPSでシグナリングされるかどうかを示す第7シンタックス要素を更に含む、請求項14又は15に記載のデバイス。
前記VPSを参照するシーケンス・パラメータ・セット（SPS）は、前記複数のレイヤの内からのレイヤに適用されるべき前記VPSでシグナリングされる複数のピクチャ・フォーマットの内からのピクチャ・フォーマットのインデックスを示す第9シンタックス要素を含む、請求項14-16のうちの何れか1項に記載のデバイス。
前記SPSは、サブピクチャ・パラメータが前記SPSでシグナリングされるかどうかを示す第6シンタックス要素を更に含む、請求項17に記載のデバイス。
符号化されたビデオ・ビットストリームを復号化するデバイスの1つ以上のプロセッサに、
前記符号化されたビデオ・ビットストリームから、コーディングされたビデオ・シーケンスを取得するステップと、
前記コーディングされたビデオ・シーケンスに含まれる複数のレイヤの数を示す第1シンタックス要素を取得するステップと、
前記コーディングされたビデオ・シーケンスに含まれる前記複数のレイヤがすべて独立なレイヤであるかどうかを示す第2シンタックス要素を取得するステップと、
前記複数のレイヤの数が1より大きいことを示す前記第1シンタックス要素と、前記複数のレイヤがすべては独立なレイヤではないことを示す前記第2シンタックス要素とに基づいて、出力モードを示す第3シンタックス要素を取得するステップと、
前記第3シンタックス要素に基づいて前記出力モードを決定するステップと、
決定された前記出力モードに基づいて、前記複数のレイヤの内から1つ以上の出力レイヤを決定するステップと、
前記1つ以上の出力レイヤを出力するステップと
を行わせるコンピュータ・プログラム。
前記第1シンタックス要素、前記第2シンタックス要素、及び前記第3シンタックス要素はビデオ・パラメータ・セット（VPS）でシグナリングされる、請求項19に記載のコンピュータ・プログラム。
ビデオ・ビットストリームを符号化して復号化装置へ送信する符号化方法であって：
符号化されたビデオ・ビットストリームは、コーディングされたビデオ・シーケンスを含み、
前記コーディングされたビデオ・シーケンスは、
前記コーディングされたビデオ・シーケンスに含まれる複数のレイヤの数を示す第1シンタックス要素と、
前記コーディングされたビデオ・シーケンスに含まれる前記複数のレイヤがすべて独立なレイヤであるかどうかを示す第2シンタックス要素と、
前記複数のレイヤの数が1より大きいことを示す前記第1シンタックス要素と、前記複数のレイヤがすべては独立なレイヤではないことを示す前記第2シンタックス要素とに基づいて、出力モードを決定するための第3シンタックス要素とを含み、
前記出力モードに基づいて、前記複数のレイヤの内の1つ以上の出力レイヤが前記復号化装置により出力される、方法。