JP7299345B2 - マルチレイヤビデオストリームにおける出力レイヤセットモードのための方法 - Google Patents

マルチレイヤビデオストリームにおける出力レイヤセットモードのための方法 Download PDF

Info

Publication number
JP7299345B2
JP7299345B2 JP2021562788A JP2021562788A JP7299345B2 JP 7299345 B2 JP7299345 B2 JP 7299345B2 JP 2021562788 A JP2021562788 A JP 2021562788A JP 2021562788 A JP2021562788 A JP 2021562788A JP 7299345 B2 JP7299345 B2 JP 7299345B2
Authority
JP
Japan
Prior art keywords
picture
layer
output
layers
vps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021562788A
Other languages
English (en)
Other versions
JP2022529802A (ja
Inventor
チョイ,ビョンドゥ
リィウ,シャン
ウェンジャー,ステファン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2022529802A publication Critical patent/JP2022529802A/ja
Priority to JP2023098552A priority Critical patent/JP2023107990A/ja
Application granted granted Critical
Publication of JP7299345B2 publication Critical patent/JP7299345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image-Pickup Tubes, Image-Amplification Tubes, And Storage Tubes (AREA)

Description

[関連出願]
本願は、参照により全体がここに組み込まれる、2020年3月27日に出願した米国仮出願番号第63/001,045号、及び2020年8月27日に出願した米国特許出願番号第17/000,018号、の優先権を主張する。
[技術分野]
本開示は、高度ビデオコーデックにおけるビデオ圧縮技術及びインター予測及びイントラ予測に関する。特に、本開示は、VVC(Versatile Video Coding (VVC))のような高効率ビデオコーディング(High Efficiency Video Coding (HEVC))以降のビデオコーディング/復号技術を含む次世代ビデオコーディング技術に関する。より具体的には、本開示の態様は、複数のレイヤを有するコーディングビデオストリーム内の高度ビデオコーディング技術により設計される出力レイヤ導出のセットを提供する方法、機器、及びコンピュータ可読媒体を対象とする。
動き補償と共にインターピクチャ又はイントラピクチャ予測を用いるビデオコーディング及び復号が数十年間、知られている。非圧縮デジタルビデオは、一連のピクチャで構成されることができ、各ピクチャは、例えば1920×1080個のルミナンスサンプル及び関連するクロミナンスサンプルの空間次元を有する。一連のピクチャは、例えば毎秒60ピクチャ又は60Hzの固定又は可変ピクチャレート(略式にフレームレートとしても知られている)を有し得る。非圧縮ビデオは、かなりのビットレート要件を有する。例えば、8ビット/サンプルの1080p60 4:2:0ビデオ(60Hzフレームレートで1920×1080ルミナンスサンプル解像度)は、1.5Gbit/sに近い帯域幅を必要とする。1時間のこのようなビデオは600Gbyteより多くの記憶空間を必要とすることがある。
ビデオコーディング及び復号の1つの目的は、圧縮を通じて、入力ビデオ信号の中の冗長性の削減であり得る。圧縮は、幾つかの場合には大きさで2桁以上も、前述の帯域幅又は記憶空間要件を軽減するのを助けることができる。損失又は無損失圧縮の両方、及びそれらの組み合わせが利用できる。無損失圧縮は、元の信号の正確なコピーが圧縮された元の信号から再構成可能である技術を表す。損失圧縮を用いると、再構成された信号は、元の信号と同一ではないが、元の信号と再構成された信号との間の歪みは、意図される用途のために有用な再構成された信号を生成するのに十分に小さい。ビデオの場合には、損失圧縮が広く利用される。耐えうる歪みの量は、アプリケーションに依存し、例えば、特定の消費者ストリーミングアプリケーションのユーザは、テレビジョン投稿アプリケーションのユーザよりも高い歪みに耐え得る。達成可能な圧縮比は、許容可能/耐性歪みが高いほど、高い圧縮比を生じ得ることを反映できる。
ビデオエンコーダ及びビデオデコーダは、例えば動き補償、変換、量子化、及びエントロピーコーディングを含む幾つかの広い分類からの技術を利用できる。このうちの幾つかが以下に紹介される。
歴史的に、ビデオエンコーダ及びデコーダは、多くの場合にコーディングビデオシーケンス(coded video sequence (CVS))、グループオブピクチャ(Group of Pictures (GOP))、又は同様のマルチピクチャ時間フレームについて定義され一定のままである所与のピクチャサイズで動作する傾向がある。例えば、動画専門家グループ(Motion Picture Experts Group (MPEG)-2では、システム設計は、イントラフレーム(又はiフレーム、又はiピクチャ)だけでなく、従って標準的にGOPについて、シーンのアクティビティのような要因に依存して水平方向の解像度(従って、ピクチャサイズ)を変更することが知られている。CVSの中の異なる解像度の使用のための参照ピクチャの再サンプリングは、例えばITU-T Rec. H.263 Annex P により知られている。しかしながら、ここで、ピクチャサイズは変化しないので、参照ピクチャのみが再サンプリングされ、結果として(ダウンサンプリングの場合には)ピクチャキャンバスの部分のみが使用され、(アップサンプリングの場合には)シーンの部分のみがキャプチャされる可能性がある。更に、H.263 Annex Qは、上方向又は下方向に、(各次元において)2の倍数で個々のマクロブロックの再サンプリングを許容する。ここでも、ピクチャサイズは同じままである。H.263ではマクロブロックのサイズは固定され、従ってシグナリングされる必要がない。
予測ピクチャにおけるピクチャサイズの変更は、近年のビデオコーディングにおいてより主流となっている。例えば、VP9は、参照ピクチャ再サンプリング及びピクチャ全体の解像度の変化を許容する。同様に、Versatile Video Coding (VVC)を対象としている特定の提案(例えば、参照によりここに全体が組み込まれる、Hendry, et. al, “On adaptive resolution change )(ARC) for VVC”, Joint Video Team document JVET-M0135-v1, Jan9-19, 2019を含む)は、異なる-より高い又はより低い-解像度への参照ピクチャ全体の再サンプリングを許容する。Hendryでは、シーケンスパラメータセットの中にコーディングされピクチャパラメータセットの中のピクチャ毎のシンタックス要素により参照されるべき異なる候補解像度が提案される。
種々の実施形態によるビデオビットストリームないの適応型ピクチャサイズのシグナリングのための技術が開示される。
本開示の態様によると、復号の方法は、
圧縮ビデオ/画像データを含むビットストリームを受信するステップであって、前記ビットストリームは複数のレイヤを含む、ステップと、
前記ビットストリームから、ビデオパラメータセット(VPS)内の出力レイヤセットモード指示子をパース又は導出するステップと、
前記出力レイヤセットモード指示子に基づき、出力レイヤセットグナリングを識別するステップと、前記識別した出力レイヤセットグナリングに基づき、1つ以上のピクチャ出力レイヤを識別するステップと、
前記識別した1つ以上のピクチャ出力レイヤを復号するステップと、
を含んでよい。
前記出力レイヤセットモード指示子に基づき、前記出力レイヤセットグナリングを識別する前記ステップは、
前記VPS内の前記出力レイヤセットモード指示子が第1値の場合に、前記ビットストリーム内の最高レイヤを前記1つ以上のピクチャ出力レイヤとして識別するステップと、
前記VPS内の前記出力レイヤセットモード指示子が第2値の場合に、前記ビットストリーム内の全部のレイヤを前記1つ以上のピクチャ出力レイヤとして識別するステップと、
前記VPS内の前記出力レイヤセットモード指示子が第3値の場合に、前記VPS内の明示的シグナリングに基づき前記1つ以上のピクチャ出力レイヤを識別するステップと、
を含んでよい。
前記第1値は、前記第2値と異なり、及び前記第3値と異なってよく、前記第2値は、前記第3値と異なってよい。
前記第1値は0であってよく、前記第2値は1であってよく、前記第3値は2であってよい。しかしながら、他の値が使用されてよく、本開示は上述のような0、1、2の使用に限定されない。
前記VPS内の前記明示的シグナリングにより前記1つ以上のピクチャ出力レイヤを識別する前記ステップは、(i)前記VPSから、出力レイヤフラグをパース又は導出するステップと、(ii)1に等しい前記出力レイヤフラグを有するレイヤを前記1つ以上のピクチャ出力レイヤに設定するステップと、を含んでよい。
前記出力レイヤセットモード指示子に基づき前記出力レイヤセットグナリングを識別する前記ステップは、
前記VPS内の前記出力レイヤセットモード指示子が所定値である場合に、前記出力レイヤセットグナリングは、前記VPS内の明示的シグナリングに基づき前記1つ以上のピクチャ出力レイヤを識別するステップを含んでよい。
前記VPS内の前記明示的シグナリングに基づき前記1つ以上のピクチャ出力レイヤを識別する前記ステップは、(i)前記VPSから、出力レイヤフラグをパース又は導出するステップと、(ii)1に等しい前記出力レイヤフラグを有するレイヤを前記1つ以上のピクチャ出力レイヤに設定するステップと、を含み、前記複数のレイヤの数は2より大きい。
前記出力レイヤセットグナリングは、前記出力レイヤセットモード指示子が2に等しく、前記複数のレイヤの数が2より大きいとき、前記VPS内の前記明示的シグナリングに基づき、前記1つ以上のピクチャ出力レイヤを識別するステップを含んでよい。
前記出力レイヤセットグナリングは、前記出力レイヤセットモード指示子が2より小さく、前記複数のレイヤの数が2であるとき、前記ビットストリーム内の最高レイヤ又は前記ビットストリーム内の全部のレイヤを、前記1つ以上のピクチャ出力レイヤとして識別するステップを含んでよく、
前記出力レイヤセットモード指示子は実際に2より小さく、前記複数のレイヤの数は実際に2である。
前記VPS内の出力レイヤセット数-1指示子は、前記出力レイヤの数を示す。
実施形態によると、前記VPS内のVPS最大レイヤ-1指示子は、前記ビットストリーム内のレイヤ数を示す。
実施形態によると、VPS内の出力レイヤセットモードフラグ[i][j]は、i番目の出力レイヤセットのj番目のレイヤが出力レイヤであるか否かを示す。
実施形態によると、前記複数のレイヤが独立レイヤであり、前記VPSのVPS全独立レイヤフラグが1に等しい場合、前記出力レイヤセットモード指示子はシグナリングされず、前記出力レイヤセットモード指示子の値は前記第2値であると推定される。
実施形態によると、各レイヤが出力レイヤセットである場合、前記出力レイヤセットモード指示子の値に拘わらず、前記VPSのピクチャ出力フラグはピクチャヘッダ内でシグナリングされたピクチャ出力フラグと等しく設定される。
注:出力レイヤ内のピクチャは、1に等しいPictureOutputFlagを有してよく又は有しなくてよい。非出力レイヤ内のピクチャは、0に等しいPictureOutputFlagを有する。1に等しいPictureOutputFlagを有するピクチャは、表示のために出力される。0に等しいPictureOutputFlagを有するピクチャは、表示のために出力されない。
実施形態によると、シーケンスパラメータセット(SPS)VSP識別子が0より大きく、1より多くのレイヤが前記ビットストリーム内に存在することを示すとき、ピクチャ出力フラグは0に等しく設定され、
各レイヤは前記VPSの出力レイヤセットモードフラグが0に等しく、前記ビットストリーム内の前記複数のレイヤが全部独立ではないことを示すとき、前記出力レイヤセットモード指示子は0に等しく、現在アクセスユニットは、以下:1に等しいピクチャ出力フラグを有すること、現在ピクチャのものより大きく前記出力レイヤセットの前記出力レイヤに属するnuhレイヤ識別子を有すること、を含む条件の全部を満たすピクチャを含む。
実施形態によると、前記VPSのシーケンスパラメータセット(SPS)が0より大きいとき、前記VPSのピクチャ出力フラグは0に等しく設定され、各レイヤは出力レイヤセットフラグが0に等しく、前記出力レイヤセットモード指示子は2に等しく、前記出力レイヤセット出力レイヤフラグ[Target OLS Index][General Layer Index [nuh layer identifier]]は0に等しい。
実施形態によると、前記方法は、前記復号された1つ以上のピクチャ出力レイヤを表示するようディスプレイを制御するステップ、を更に含んでよい。
本開示の態様によると、命令を格納している非一時的コンピュータ可読記憶媒体であって、前記命令は、実行されると、1つ以上のプロセッサを含むシステム又は装置に、
圧縮ビデオ/画像データを含むビットストリームを受信させ、前記ビットストリームは複数のレイヤを含み、
前記ビットストリームから、ビデオパラメータセット(VPS)内の出力レイヤセットモード指示子をパース又は導出させ、
前記出力レイヤセットモード指示子に基づき、出力レイヤセットグナリングを識別させ、前記識別した出力レイヤセットグナリングに基づき、1つ以上のピクチャ出力レイヤを識別させ、
前記識別した1つ以上のピクチャ出力レイヤを復号させる、
非一時的コンピュータ可読記憶媒体。
実施形態によると、前記命令は、前記1つ以上のプロセッサを含む前記システム又は装置に、前記復号された1つ以上のピクチャ出力レイヤを表示するようディスプレイを制御させるよう更に構成される。
本開示の態様によると、機器は、コンピュータプログラムコードを記憶する少なくとも1つのメモリと、前記少なくとも1つのメモリにアクセスして前記コンピュータプログラムコードに従い動作するよう構成される少なくとも1つのプロセッサと、を含んでよい。実施形態によると、前記コンピュータプログラムコードは、
前記少なくとも1つのプロセッサに圧縮ビデオ/画像データを含むビットストリームを受信させるよう構成される受信コードであって、前記ビットストリームは複数のレイヤを含む、受信コードと、
前記少なくとも1つのプロセッサに、前記ビットストリームから、ビデオパラメータセット(VPS)内の出力レイヤセットモード指示子をパース又は導出させるよう構成されるパース又は導出コードと、
前記少なくとも1つのプロセッサに、前記出力レイヤセットモード指示子に基づき出力レイヤセットグナリングを識別させるよう構成される出力レイヤシグナリング識別コードと、
前記少なくとも1つのプロセッサに、前記識別された出力レイヤセットグナリングに基づき、1つ以上のピクチャ出力レイヤを識別させるよう構成されるピクチャ出力レイヤ識別コードと、
前記少なくとも1つのプロセッサに、前記識別された1つ以上のピクチャ出力レイヤを復号させるよう構成される復号コードと、
を含んでよい。
実施形態によると、前記コンピュータプログラムコードは、
前記少なくとも1つのプロセッサに、前記1つ以上のピクチャ出力レイヤを表示させる表示制御コードを更に含んでよい。
本開示の態様によると、ビデオビットストリーム内の適応ピクチャサイズのシグナリングのための方法は、
圧縮ビデオ/画像データで構成されるビットストリームを受信するステップであって、前記ビットストリームは、複数のレイヤを含む、ステップと、
背景領域及び1つ以上の前景サブピクチャを識別するステップと、
特定のサブピクチャ領域が選択されているかどうかを決定するステップと、
特定のサブピクチャ領域が選択されていると決定することに基づき、以下:前記ビットストリームをパースし、エントロピーコーディングされたビットストリームを復号し、及び対応するブロックを逆量子化するこことを含む処理により、前記選択されたサブピクチャ領域に対応する逆量子化済みブロックを生成するステップと、
を含んでよい。
前記方法は、前記特定のサブピクチャ領域が選択されていない場合に、前記背景領域を復号し及び表示するステップを更に含んでよい。
前記ビットストリームは、どのレイヤがデコーダ側で出力され得るかを指定するシンタックス要素を含んでよい。
前記シンタックス要素は、可変長のExp-Golombコーディングされたシンタックス要素を含むピクチャのヘッダを含んでよい。
前記方法は、シーケンスパラメータの中のシグナリングに基づき、適応解像度がピクチャ又はその部分について使用されているか否かを決定するステップ、を更に含んでよい。
適応解像度がピクチャ又はその部分について使用されているか否かを決定する前記ステップは、フラグである第1シンタックス要素が適応解像度の使用を示すかどうかを決定するステップを含んでよい。
前記方法は、参照ピクチャ寸法の条件付き存在を制御するフラグを用いることにより、サイズが出力ピクチャサイズであると暗示的に想定するのではなく、エンコーダが前記デコーダに、特定の参照ピクチャサイズを使用するよう指示するステップ、を含んでよい。
前記シンタックス要素は、可能な復号ピクチャ幅及び高さのテーブルを含んでよい。
実施形態によると、ネットワーク抽象化レイヤ(Network Abstraction Layer (NAL))ユニットヘッダ内の値が、時間だけでなく空間レイヤの示すために使用されてよい。
前記NALユニットヘッダ内の値は、時間識別子(Temporal Identifier (ID))フィールドであってよい。
前記方法は、例えば、拡張可能な環境で、変更無しに、NALユニットヘッダTemporal ID値に基づき時間レイヤ選択フォワーディングのために生成され最適化された既存の選択フォワーディングユニット(Selected Forwarding Units (SFU))を使用するステップを更に含んでよい。
前記方法は、コーディングピクチャサイズとNALユニットヘッダ内のTenporal IDフィールドにより示される時間レイヤとの間でマッピングするステップを更に含んでよい。
前記方法は、
前記符号化ビデオと共に追加データを受信するステップであって、前記追加データは、前記コーディングビデオシーケンスの部分として含まれる、ステップと、
前記追加データを使用して、前記データを正確に復号し及び/又は元のビデオデータをより正確に再構成するステップと、を更に含んでよい。
前記追加データは:時間的、空間的、又はSNR拡張レイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号、のうちの1つ以上の形式であってよい。
態様によると、命令を格納している非一時的コンピュータ可読記憶媒体であって、前記命令は、実行されると、1つ以上のプロセッサを含むシステム又は装置に、
圧縮ビデオ/画像データで構成されるビットストリームを受信させ、前記ビットストリームは、複数のレイヤを含み、
背景領域及び1つ以上の前景サブピクチャを識別させ、
特定のサブピクチャ領域が選択されているかどうかを決定させ、
特定のサブピクチャ領域が選択されていると決定することに基づき、以下:前記ビットストリームをパースし、エントロピーコーディングされたビットストリームを復号し、及び対応するブロックを逆量子化するこことを含む処理により、前記選択されたサブピクチャ領域に対応する逆量子化済みブロックを生成させる、
非一時的コンピュータ可読記憶媒体。
実施形態によると、機器は、コンピュータプログラムコードを格納するよう構成される少なくとも1つのメモリと、前記少なくとも1つのメモリにアクセスし前記コンピュータプログラムコードに従い動作するよう構成される少なくとも1つのプロセッサと、を含み、前記コンピュータプログラムコードは、
前記少なくとも1つ以上のプロセッサに、圧縮ビデオ/画像データで構成されるビットストリームを受信させるよう構成される受信コードであって、前記ビットストリームは複数のレイヤを含む、受信コードと、
前記少なくとも1つ以上のプロセッサに、背景領域及び1つ以上の前景サブピクチャを識別させるよう構成される識別コードと、
前記少なくとも1つ以上のプロセッサに、特定のサブピクチャ領域が選択されたかどうかを決定させるよう構成される決定コードと、
前記少なくとも1つ以上のプロセッサに、特定のサブピクチャ領域が選択されていると決定することに基づき、限定ではないが、以下:前記ビットストリームをパースし、エントロピーコーディングビットストリームを復号し、及び対応するブロックを逆量子化する、ことを含む処理により、前記選択されたサブピクチャに対応する逆量子化済みブロックを生成させるよう構成される生成コードと、
を含む、機器。
開示の主題の更なる特徴、特性、及び種々の利点は、以下の詳細な説明及び添付の図面から一層明らかになるだろう。
実施形態による、通信システムの簡易ブロック図の概略図である。
実施形態による、通信システムの簡易ブロック図の概略図である。
実施形態による、デコーダの簡易ブロック図の概略図である。
実施形態による、エンコーダの簡易ブロック図の概略図である。
示されるように、従来技術又は実施形態によるARCパラメータをシグナリングするオプションの概略図である。
実施形態によるシンタックステーブルの例である。
一実施形態による、コンピュータシステムの概略図である。
適応型解像度変更によるスケーラビリティの予測構造の例である。
実施形態によるシンタックステーブルの例である。
アクセスユニット毎のPOCサイクル及びアクセスユニットカウント値のパース及び復号の簡易ブロック図の概略図である。
マルチレイヤサブピクチャを含むビデオビットストリームの概略図である。
拡張解像度を有する選択されたサブピクチャの表示の概略図である。
マルチレイヤサブピクチャを含むビデオビットストリームの復号及び表示処理のブロック図である。
サブピクチャの拡張レイヤを有する360ビデオディスプレイの概略図である。
サブピクチャ及び対応するレイヤ及びピクチャ予測構造のレイアウト情報の例である。
局所領域の空間スケーラビリティモダリティを有する、サブピクチャ及び対応するレイヤ及びピクチャ予測構造のレイアウト情報の例である。
サブピクチャレイアウト情報のシンタックステーブルの例である。
サブピクチャレイアウト情報のSEIメッセージのシンタックステーブルの例である。
各出力レイヤセットの出力レイヤ及びプロファイル/ティア/レベル情報を示すシンタックステーブルの例である。
各出力レイヤセットの出力レイヤモードを示すシンタックステーブルの例である。
各出力レイヤセットの各レイヤの予め送信されたサブピクチャを示すシンタックステーブルの例である。
ビデオパラメータセットRBSPのシンタックステーブルの例である。
出力レイヤセットモード指示子を有する出力レイヤセットを示すシンタックステーブルの例である。
出力レイヤセットモード指示子を有する出力レイヤセットを示すことを含むビットストリームの復号処理のブロック図である。
出力レイヤセットモード指示子を有する出力レイヤセットを示すことに関連する情報を示す。 出力レイヤセットモード指示子を有する出力レイヤセットを示すことに関連する情報を示す。 出力レイヤセットモード指示子を有する出力レイヤセットを示すことに関連する情報を示す。
ピクチャが、異なる品質を有する複数のレイヤで構成されるビットストリームに符号化されるとき、ビットストリームは、どのレイヤがデコーダ側で出力されてよいかを指定するシンタックス要素を有してよい。出力されるべきレイヤのセットは、出力レイヤセットとして定義される。複数レイヤ及びスケーラビリティをサポートする最新のビデオコーデックでは、1つ以上の出力レイヤセットが、ビデオパラメータセットの中でシグナリングされる。出力レイヤセット及びそれらの依存関係、プロファイル/ティア/レベル及び仮想デコーダ参照モデルパラメータを指定するそれらのシンタックス要素は、パラメータセットの中で効率的にシグナリングされる必要がある。
本開示の実施形態は、関連技術の1つ以上の問題を解決する。
図1は、本開示の実施形態による通信システム(100)の簡易ブロック図を示す。システム(100)は、ネットワーク(150)を介して相互接続される少なくとも2つの端末(110、120)を含んでよい。データの一方向送信では、第1端末(110)は、ネットワーク(150)を介して他の端末(120)へ送信するために、ビデオデータをローカル位置でコーディングしてよい。第2端末(120)は、ネットワーク(150)から他の端末のコーディングビデオデータを受信し、コーディングデータを復号して、復元したビデオデータを表示してよい。単方向データ伝送は、メディアサービングアプリケーション等で共通であってよい。
図1は、例えばビデオ会議中に生じ得る、コーディングビデオの双方向送信をサポートするために適用される第2の端末ペア(130、140)を示す。データの双方向送信では、各端末(130、140)は、ネットワーク(150)を介して他の端末へ送信するために、ローカルでキャプチャしたビデオデータをコーディングしてよい。各端末130、140は、また、他の端末により送信されたコーディングビデオデータを受信してよく、コーディングデータを復号してよく、及び復元したビデオデータをローカルディスプレイ装置で表示してよい。
図1では、端末(110~140)は、ラップトップ110、パーソナルコンピュータ(PC)120、及びモバイル端末130及び140として示されるが、端末(110~140)はそのように限定されず、端末(110~140)は、サーバ、パーソナルコンピュータ、モバイル装置、タブレット、スマートフォンのうちの1つ以上又は任意の組合せに対応してよい。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤ、及び/又は専用ビデオ会議設備による適用がある。ネットワーク(150)は、端末(110~140)の間でコーディングビデオデータを運ぶ任意の数のネットワークを表し、例えば有線及び/又は無線通信ネットワークを含む。通信ネットワーク(150)は、回線切り替え及び/又はパケット切り替えチャネルでデータを交換してよい。代表的なネットワークは、電子通信ネットワーク、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及び/又はインターネットを含む。本発明の議論の目的で、ネットワーク(150)のアーキテクチャ及びトポロジは、以下で特に断りの無い限り、本開示の動作にとって重要でないことがある。
図2は、開示の実施形態の適用の一例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。本開示は、例えばビデオ会議、デジタルテレビジョン(TV)、コンパクトディスク(CD)、デジタルバーサタイルディスク(DVD)、メモリスティック、等を含むデジタル媒体への圧縮ビデオの格納、他のビデオ可能アプリケーション、等に等しく適用可能である。
ストリーミングシステムは、例えば非圧縮ビデオサンプルストリーム(202)を生成するよう構成されるビデオソース(201)、例えばデジタルカメラを含み得るキャプチャサブシステム()213)を含んでよい。サンプルストリーム(202)は、符号化ビデオビットストリームと比べるとき高データ容量を強調するために図2で太線で示され、カメラ(201)に結合されるエンコーダ(203)により処理できる。エンコーダ(203)は、ハードウェア、ソフトウェア、又はそれらの組み合わせを含み、以下に詳述するように開示の主題の態様を可能にし又は実装することができる。符号化ビデオビットストリーム(204)は、サンプルストリーム(202)と比べたとき、低データ容量を強調するために図2で細線で示され、将来の使用のためにストリーミングサーバ(205)に格納できる。1つ以上のストリーミングクライアント(206、208)は、ストリーミングサーバ(205)にアクセスして、符号化ビデオビットストリーム(204)のコピー(207、209)を読み出すことができる。クライアント(206)は、ビデオデコーダ(210)を含むことができる。ビデオデコーダ(310)は、符号化ビットストリーム(207)の入来するコピーを復号し、ディスプレイ(212)又は他のレンダリング装置においてレンダリング可能な出力ビデオサンプルストリーム(211)を生成する。幾つかのストリーミングシステムでは、ビデオビットストリーム(204、207、209)は、特定のビデオコーディング/圧縮規格に従い符号化できる。これらの規格の例は、ITU-T Recommendation H.265を含む。策定中のビデオコーディング規格は、略式にVVC(Versatile Video Coding)として知られている。開示の主題は、VVCの文脈で使用されてよい。
図3は、本開示の実施形態によるビデオデコーダ(210)の機能ブロック図であり得る。
受信機(310)は、ビデオデコーダ(210)により復号されるべき1つ以上のコーディングビデオシーケンス、同じ又は別の実施形態では、一度に1つのコーディングビデオシーケンスを受信してよい。ここで、各コーディングビデオシーケンスの復号は、他のコーディングビデオシーケンスと独立している。コーディングビデオシーケンスは、符号化ビデオデータを格納する記憶装置へのハードウェア/ソフトウェアリンクであってよいチャネル(312)から受信されてよい。受信機(310)は、他のデータ、例えば、それぞれの使用エンティティ(図示しない)へと転送され得るコーディング音声データ及び/又は補助データストリームと共に、符号化ビデオデータを受信してよい。受信機(310)は、他のデータからコーディングビデオシーケンスを分離してよい。ネットワークジッタを除去するために、バッファメモリ(315)は、受信機(310)とエントロピーデコーダ/パーサ(320)(以後、「パーサ」)との間に接続されてよい。受信機(310)が、十分な帯域幅の記憶/転送装置から制御可能に、又はアイソクロナス(isosynchronous)ネットワークから、データを受信しているとき、バッファ(315)は、必要なくてよく又は小さくできる。インターネットのようなベストエフォート型パケットネットワークで使用する場合、バッファ(315)が必要であってよく、比較的大きくすることができ、有利なことに適応サイズにすることができる。
ビデオデコーダ(210)は、エントロピーコーディングビデオシーケンスからシンボル(321)を再構成するために、パーサ(320)を含んでよい。これらのシンボルのカテゴリは、ビデオデコーダ210の動作を管理するために使用される情報、および場合によっては図2に示したようにデコーダの統合部分ではないがデコーダに結合され得るディスプレイ212のようなレンダリング装置を制御するための情報を含む。レンダリング装置のための制御情報は、SEI(Supplementary Enhancement Information)メッセージ又はVUI(Video Usability Information)パラメータセットフラグメントの形式であってよい。パーサ(320)は、受信された符号かビデオシーケンスをパース/エントロピー復号してよい。コーディングビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト依存関係を有する又は有しない算術的コーディング、等を含む、当業者によく知られた原理に従うことができる。パーサ320は、符号化ビデオシーケンスから、ビデオデコーダの中のピクセルのサブグループのうちの少なくとも1つについて、該グループに対応する少なくとも1つのパラメータに基づき、サブグループパラメータのセットを抽出してよい。サブグループは、GOP(Groups of Picture)、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット(Coding Units:CU)、ブロック、変換ユニット(Transform Units:TU)、予測ユニット(Prediction Units:PU)、等を含み得る。エントロピーデコーダ/パーサは、コーディングビデオシーケンスから、変換係数、量子化パラメータ値、動きベクトル、等のような情報も抽出してよい。
パーサ(320)は、バッファ(315)から受信したビデオシーケンスに対してエントロピー復号/パース動作を実行して、シンボル(321)を生成してよい。
シンボル(321)の再構成は、コーディングビデオピクチャ又はその部分の種類(例えば、インター及びイントラピクチャ、インター及びイントラブロック)及び他の要因に依存して、複数の異なるユニットを含み得る。どのユニットがどのように含まれるかは、パーサ(320)によりコーディングビデオシーケンスからパースされたサブグループ制御情報により制御できる。サブグループ制御情報は、パーサ(320)と複数のユニットとの間を流れてよい。
既に言及した機能ブロックを超えて、デコーダ(210)は、後述のように、多数の機能ユニットに概念的に細分化できる。商用的制約の下で動作する実際の実装では、これらのユニットの多くは、互いに密に相互作用し、少なくとも部分的に互いに統合され得る。しかしながら、開示の主題を説明する目的で、機能ユニットへの以下の概念的細分化は適切である。
第1ユニットは、スケーラ/逆変換ユニット351である。スケーラ/逆変換ユニット(351)は、量子化された変換係数、及び、どの変換が使用されるべきか、ブロックサイズ、量子化係数、量子化スケーリングマトリクス、等を含む制御情報を、パーサ(320)からのシンボル(321)として受信する。これは、アグリゲータ(355)に入力され得るサンプル値を含むブロックを出力できる。
幾つかの例では、スケーラ/逆変換ユニット(351)の出力サンプルは、イントラコーディングブロック、つまり、前に再構成されたピクチャからの予測情報を使用しないが現在ピクチャの前に再構成された部分からの予測情報を使用可能なブロック、に属することができる。このような予測情報は、イントラピクチャ予測ユニット(352)により提供できる。幾つかの場合には、イントラピクチャ予測ユニット(352)は、再構成中のブロックと同じサイズ及び形状のブロックを、現在(部分的にさは再構成された)ピクチャ(358)からフェッチした周囲の既に再構成された情報を用いて、生成する。アグリゲータ(355)は、幾つかの場合には、サンプル毎に、イントラ予測ユニット(352)の生成した予測情報を、スケーラ/逆変換ユニット(351)により提供された出力サンプル情報に追加する。
他の場合には、スケーラ/逆変換ユニット(351)の出力サンプルは、インターコーディングされた、場合によっては動き補償されたブロックに関連し得る。このような場合には、動き補償予測ユニット(353)は、参照ピクチャメモリ(357)にアクセスして、予測のために使用されるサンプルをフェッチできる。ブロックに関連するシンボル(321)に従いフェッチしたサンプルを動き補償した後に、これらのサンプルは、アグリゲータ(355)により、出力サンプル情報を生成するために、スケーラ/逆変換ユニットの出力に追加され得る(この場合、残差サンプル又は残差信号と呼ばれる)。動き補償予測ユニットが予測サンプルをフェッチする参照ピクチャメモリ内のアドレスは、例えばX、Y及び参照ピクチャコンポーネントを有し得るシンボル(321)の形式で、動き補償予測ユニットの利用可能な動きベクトルにより制御できる。動き補償は、サブサンプルの正確な動きベクトルが使用中であるとき参照ピクチャメモリからフェッチされたサンプル値の補間、動きベクトル予測メカニズム、等も含み得る。
アグリゲータ(355)の出力サンプルは、ループフィルタユニット(356)において種々のループフィルタリング技術を受け得る。ビデオ圧縮技術は、コーディングビデオビットストリームに含まれ且つパーサ(320)からのシンボル(321)としてループフィルタユニット(356)に利用可能にされたパラメータにより制御されるが、コーディングピクチャ又はコーディングビデオシーケンスの(復号順序で)前の部分の復号中に取得されたメタ情報にも応答し、前に再構成されループフィルタリングされたサンプル値にも応答し得るインループフィルタ技術を含み得る。
ループフィルタユニット(356)の出力は、レンダー装置(212)へと出力でき及び将来のインターピクチャ予測で使用するために参照ピクチャメモリ(356)に格納され得るサンプルストリームであり得る。
特定のコーディングピクチャは、一旦完全に再構成されると、将来の予測のための参照ピクチャとして使用できる。符号化ピクチャが完全に再構成され、符号化ピクチャが(例えばパーサ320により)参照ピクチャとして識別されると、現在参照ピクチャ356は、参照ピクチャメモリ357の一部になることができ、後続の符号化ピクチャの再構成を開始する前に、新鮮な現在ピクチャメモリを再割り当てできる。
ビデオデコーダ(パーサ)320は、ITU-T Rec H.265のような規格で策定され得る所定のビデオ圧縮技術に従い復号動作を実行してよい。コーディングビデオシーケンスが、ビデオ圧縮技術又は規格で、具体的にはその中のプロファイル文書で指定された、ビデオ圧縮技術又は規格のシンタックスに従うという意味で、コーディングビデオシーケンスは、使用中のビデオ圧縮技術又は規格により指定されたシンタックスに従ってよい。また、遵守のために必要なことは、コーディングビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルにより定められる限界の範囲内であることであり得る。幾つかの場合には、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えばメガサンプル/秒で測定される)、最大参照ピクチャサイズ、等を制限する。レベルにより設定される限界は、幾つかの場合には、HDR(Hypothetical Reference Decoder)仕様及びコーディングビデオシーケンスの中でシグナリングされるHDRバッファ管理のためのメタデータを通じて更に制限され得る。
実施形態では、受信機(310)は、符号化ビデオと共に追加(冗長)データを受信してよい。追加データは、コーディングビデオシーケンスの部分として含まれてよい。追加データは、データを正しく復号するため及び/又は元のビデオデータをより正確に再構成するために、ビデオデコーダ320により使用されてよい。追加データは、例えば、時間的、空間的、又はSNR拡張レイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号、等の形式であり得る。
図4は、本開示の一実施形態によるビデオエンコーダ(203)の機能ブロック図であり得る。
エンコーダ(203)は、ビデオサンプルを、エンコーダ(203)によりコーディングされるべきビデオ画像をキャプチャし得るビデオソース(201)(エンコーダの部分ではない)から受信してよい。
ビデオソース(201)は、エンコーダ(203)によりコーディングされるべきソースビデオシーケンスを、任意の適切なビット深さ(例えば、8ビット、10ビット、12ビット、...)、任意の色空間(例えば、BT.601 Y CrCb, RGB,...)、及び任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0, Y CrCb 4:4:4)のデジタルビデオサンプルストリームの形式で、提供してよい。メディア提供システムでは、ビデオソース(201)は、前に準備されたビデオを格納する記憶装置であってよい。ビデオ会議システムでは、ビデオソース(203)は、ビデオシーケンスとしてローカル画像情報をキャプチャするカメラであってよい。ビデオデータは、続けて閲覧されると動きを与える複数の個別ピクチャとして提供されてよい。ピクチャ自体は、ピクセルの空間的配列として組織化されてよい。各ピクセルは、使用中のサンプリング構造、色空間、等に依存して、1つ以上のサンプルを含み得る。当業者は、ピクセルとサンプルとの間の関係を直ちに理解できる。以下の説明はサンプルに焦点を当てる。
実施形態によると、エンコーダ(203)は、ソースビデオシーケンスのピクチャを、コーディングビデオシーケンス(443)へと、リアルタイムに又はアプリケーションにより要求される任意の他の時間制約の下でコーディングし圧縮してよい。適切なコーディング速度の実施は、制御部(450)の1つの機能である。制御部(450)は、後述するように他の機能ユニットを制御してよく、他の機能ユニットに機能的に結合される。制御部(450)により設定されるパラメータ、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、...)、ピクチャサイズ、GOP(group of pictures)レイアウト、最大動きベクトル探索範囲、等を含んでよい。当業者は、特定のシステム設計のために最適化されたビデオエンコーダ(203)に関連し得るとき、制御部450の他の機能を直ちに識別できる。
幾つかのビデオエンコーダは、当業者が「コーディングループ」として直ちに認識する中で動作する。非常に簡略化した説明として、コーディングループは、エンコーダ(203)(以後、「ソースコーダ」)(コーディングされるべき入力ピクチャと参照ピクチャとに基づき、シンボルを生成する)及びエンコーダ(203)内に組み込まれ、シンボルを再構成して、(シンボルとコーディングビデオビットストリームとの間の任意の圧縮が開示の主題において考慮されるビデオ圧縮技術の中で無損失であるとき)(リモート)デコーダが生成し得るサンプルデータを生成する(ローカル)デコーダ(433)の符号化部分を含むことができる。再構成されたサンプルストリームは、参照ピクチャメモリ434に入力される。シンボルストリームの復号が、デコーダ位置(ローカル又はリモート)と独立にビット正確な結果をもたらすとき、参照ピクチャバッファの内容も、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えると、エンコーダの予測部分が、復号中に予測を用いるときデコーダが「見る」のと正確に同じサンプル値を、参照ピクチャサンプルとして「見る」。参照ピクチャ同期性のこの基本原理(及び、例えばチャネルエラーのために同期性が維持できない場合には、結果として生じるドリフト)は、当業者によく知られている。
「ローカル」デコーダ(433)の動作は、図3と関連して以上に詳述した「リモート」デコーダ(210)のものと同じであり得る。簡単に図3も参照すると、しかしながら、シンボルが利用可能であり、エントロピーコーダ(445)及びパーサ(320)によるコーディングビデオシーケンスへのシンボルの符号化/復号が無損失であり得るので、チャネル(312)、受信機(310)、バッファ(315)、及びパーサ(320)を含むデコーダ(210)のエントロピー復号部分は、ローカルデコーダ(433)に完全に実装されなくてよい。
この点で行われる考察は、デコーダ内に存在するパース/エントロピー復号を除く任意のデコーダ技術も、対応するエンコーダ内と実質的に同一の機能形式で存在する必要があるということである。この理由から、開示の主題は、デコーダ動作に焦点を当てる。エンコーダ技術の説明は、それらが包括的に説明されるデコーダ技術の逆であるので、省略できる。特定の領域においてのみ、より詳細な説明が必要であり、以下に提供される。
動作中、幾つかの例では、ソースコーダ(203)は、動き補償された予測コーディングを実行してよい。これは、「参照フレーム」として指定されたビデオシーケンスからの1つ以上の前にコーディングされたフレームを参照して予測的に入力フレームをコーディングする。この方法では、コーディングエンジン(432)は、入力フレームのピクセルブロックと、入力フレームに対する予測基準として選択されてよい参照フレームのピクセルブロックとの間の差分をコーディングする。
ローカルビデオデコーダ(433)は、ソースコーダ(430)により生成されたシンボルに基づき、参照フレームとして指定されてよいフレームのコーディングビデオデータを復号してよい。コーディングエンジン(432)の動作は、有利なことに、損失処理であってよい。コーディングビデオデータがビデオデコーダ(図4に図示されない)において復号され得るとき、再構成ビデオシーケンスは、標準的に、幾つかのエラーを有するソースビデオシーケンスの複製であってよい。ローカルビデオデコーダ(433)は、参照フレームに対してビデオデコーダにより実行され得る復号処理を複製し、参照ピクチャキャッシュ(434)に格納されるべき再構成参照フレームを生じ得る。このように、エンコーダ(203)は、(伝送誤りが無ければ)遠端ビデオデコーダにより取得される再構成参照フレームと共通の内容を有する再構成参照フレームのコピーをローカルに格納してよい。
予測器(435)は、コーディングエンジン(432)のために予測探索を実行してよい。つまり、コーディングされるべき新しいフレームについて、予測器(435)は、新しいピクチャのための適切な予測基準として機能し得る(候補参照ピクセルブロックのような)サンプルデータ又は参照ピクチャ動きベクトル、ブロック形状、等のような特定のメタデータについて、参照ピクチャメモリ(434)を検索してよい。予測器(435)は、適切な予測基準を見付けるために、サンプルブロック-ピクセルブロック毎に動作してよい。幾つかの例では、予測器(435)により取得された検索結果により決定されるように、入力ピクチャは、参照ピクチャメモリ(434)に格納された複数の参照ピクチャから引き出された予測基準を有してよい。
制御部(450)は、例えば、ビデオデータの符号化のために使用されるパラメータ及びサブグループパラメータの設定を含む、ビデオコーダ(203)のコーディング動作を管理してよい。
全ての前述の機能ユニットの出力は、エントロピーコーダ(445)におけるエントロピーコーディングを受けてよい。エントロピーコーダは、ハフマンコーディング、可変長コーディング、算術コーディング、等のような当業者によく知られた技術に従いシンボルを無損失圧縮することにより、種々の機能ユニットにより生成されたシンボルを、コーディングビデオシーケンスへと変換する。
送信機(440)は、コーディングビデオデータを格納し得る記憶装置へのハードウェア/ソフトウェアリンクであってよい通信チャネル(460)を介する伝送のために準備するために、エントロピーコーダ(445)により生成されたコーディングビデオシーケンスをバッファリングしてよい。送信機(440)は、ビデオコーダ(430)からのコーディングビデオデータを、送信されるべき他のデータ、例えばコーディング音声データ及び/又は補助データストリーム/ソースとマージ(merge)してよい。
制御部(450)は、エンコーダ(203)の動作を管理してよい。コーディング中、制御部(450)は、それぞれのピクチャに適用され得るコーディング技術に影響し得る特定のコーディングピクチャタイプを、各コーディングピクチャに割り当ててよい。例えば、ピクチャは、多くの場合、以下のピクチャタイプのうちの1つとして割り当てられてよい。
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内の任意の他のフレームを使用せずにコーディング及び復号され得るピクチャであってよい。幾つかのビデオコーデックは、例えばIDR(Independent Decoder Refresh)ピクチャを含む異なる種類のイントラピクチャを許容する。当業者は、Iピクチャの変形、及びそれらの個々の適用及び特徴を認識する。
予測ピクチャ(Pピクチャ)は、殆どの場合、各ブロックのサンプル値を予測するために1つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測を用いてコーディング及び復号され得るピクチャであってよい。
双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために最大2つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測を用いてコーディング及び復号され得るピクチャであってよい。同様に、マルチ予測ピクチャは、単一のブロックの再構成のために、2つより多くの参照ピクチャ及び関連付けられたメタデータを使用できる。
ソースピクチャは、共通に、複数のサンプルブロック(例えば、それぞれ4×4、8×8、4×8、又は16×16個のサンプルのブロック)に空間的に細分化され、ブロック毎にコーディングされてよい。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割り当てにより決定される他の(既にコーディングされた)ブロックへの参照により予測的にコーディングされてよい。例えば、Iピクチャのブロックは、非予測的にコーディングされてよく、又はそれらは同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされてよい(空間予測又はイントラ予測)。Pピクチャのピクセルブロックは、1つの前にコーディングされた参照ピクチャを参照して、空間予測を介して又は時間予測を介して、予測的にコーディングされてよい。Bピクチャのブロックは、1つ又は2つの前にコーディングされた参照ピクチャを参照して、空間予測を介して又は時間予測を介して、非予測的にコーディングされてよい。
ビデオコーダ(203)は、ITU-T Rec. H.265のような所定のビデオコーディング技術又は規格に従いコーディング動作を実行してよい。その動作において、ビデオコーダ(203)は、入力ビデオシーケンスの中の時間的及び空間的冗長性を利用する予測コーディング動作を含む種々の圧縮動作を実行してよい。コーディングビデオデータは、したがって、使用されているビデオコーディング技術又は規格により指定されたシンタックスに従ってよい。
一実施形態では、送信機(440)は、符号化ビデオと共に追加データを送信してよい。ビデオコーダ(430)は、このようなデータをコーディングビデオシーケンスの部分として含んでよい。追加データは、時間/空間/SNR拡張レイヤ、冗長ピクチャ及びスライスのような他の形式の冗長データ、SEI(Supplementary Enhancement Information)メッセージ、VUI(Visual Usability Information)パラメータセットフラグメント、等を含んでよい。
開示の主題の特定の態様を更に詳細に説明する前に、この記載の残りの部分で参照される幾つかの用語を紹介する必要がある。
サブピクチャは、以下では、幾つかの場合には、サンプル、ブロック、マクロブロック、コーディングユニット、又は意味論的にグループ化され変更された解像度で独立にコーディングされてよい同様のエンティティの長方形構成を表してよい。1つ以上のサブピクチャは、ピクチャのためであってよい。1つ以上のコーディングサブピクチャは、コーディングピクチャを形成してよい。1つ以上のサブピクチャは、ピクチャに組み立てられてよく、1つ以上のサブピクチャは、ピクチャから抽出されてよい。特定の環境では、1つ以上のコーディングサブピクチャは、サンプルレベルに変換することなく、圧縮ドメインにおいてコーディングピクチャへと組み立てられてよく、同じ又は特定の他の場合には、1つ以上のコーディングサブピクチャは、圧縮ドメインにおいてコーディングピクチャから抽出されてよい。
適応解像度変更(Adaptive Resolution Change (ARC))は、以下では、例えば参照ピクチャ再サンプリングにより、コーディングビデオシーケンス内のピクチャ又はサブピクチャの解像度の変更を許容するメカニズムを表す。ARCパラメータは、以下では、適応解像度変更を実行するために必要な制御情報を表す。これは、例えば、フィルタパラメータ、スケーリング因子、出力及び/又は参照ピクチャの解像度、種々の制御フラグ、等を含んでよい。
上述の説明は、種々の実施形態に従い、単一の意味的に独立したコーディングビデオピクチャをコーディング及び復号することに焦点を当てている。独立したARCパラメータによる複数のサブピクチャのコーディング/復号の意味、及びその暗示される追加の複雑さを説明する前にARCパラメータのシグナリングが説明され得る。
図5を参照すると、ARCパラメータをシグナリングする幾つかの新規な選択肢が示される。選択肢の各々と共に記されるように、それらは、コーディング効率、複雑さ、及びアーキテクチャの観点で、特定の利点及び特定の欠点を有するビデオコーディング規格又は技術はARCパラメータをシグナリングするために、これらの選択肢、又は従来技術から分かる選択肢、のうちの1つ以上を選択してよい。選択肢は、相互に排他的でなくてよく、或いは、アプリケーションの必要、技術的に関連する規格、又はエンコーダの選択に基づき、交換されてよい。
ARCパラメータのクラスは以下を含んでよい:
-X及びY次元において別個の又は結合された、アップ/ダウンサンプル因子;
-時間次元の追加に伴う、所与の数のピクチャについて一定速度ズームイン/アウトを示す、アップ/ダウンサンプル因子;
-上述の2つのうちのいずれかは、因子を含むテーブルを指してよい1つ以上のおそらく短いシンタックス要素のコーディングを含んでよい;
-X又はY次元における、結合された又は別個の、入力ピクチャ、出力ピクチャ、参照ピクチャ、コーディングピクチの、サンプル、ブロック、マクロブロック、CU、又は任意の他の適切な粒度のユニット内の解像度。1つより多くの解像度がある場合(例えば、入力ピクチャについて1つ、参照ピクチャについて1つ)、特定の場合には、値の1つのセットが、値の別のセットから推定されてよい。これは、例えば、フラグの使用により制御することができる。更に詳細な例については以下を参照する:
-「ワーピング(warping)」座標は、ここでも上述のような適切な粒度で、H.263 Annex P で使用されるものを含む。H.263 Annex Pは、このようなワーピング座標をコーディングするための1つの効率的な方法を定義するが、他の更に効率的な可能性のある方法も考案される可能性がある。例えば、Annex Pのワーピング座標の可変長リバーシブルHuffman型コーディングは、適切な長さのバイナリコーディングにより置き換えられる。ここで、バイナリコードワードの長さは、例えば、最大ピクチャサイズから導出され、場合によっては特定の係数により乗算され特定の値によりオフセットされ得、従って、最大ピクチャサイズの境界の外部での「ワーピング」を可能にする。
-アップ又はダウンサンプリングフィルタパラメータ。最も簡単な場合には、アップ及び/又はダウンサンプリングのための単一のフィルタのみがあってよい。しかしながら、特定の場合には、フィルタ設計において更なる柔軟性を可能にすることが有利であり、これは、フィルタパラメータのシグナリングを必要とする場合がある。このようなパラメータは、可能なフィルタ設計のリスト内のインデックスを通じて選択されてよい。フィルタは完全に指定されてよく(例えば、フィルタ係数のリストを通じて、適切なエントロピーコーディング技術を用いて)、フィルタは、アップ/ダウンサンプル比を通じて暗示的に選択されてよく、該アップ/ダウンサンプル比に従い上述のメカニズムのうちのいずれかに従いシグナリングされる、等である。
以下では、コードワードを通じて示される、アップ/ダウンサンプル因子(X及びY次元の両方で使用されるべき同じ因子)の有限セットのコーディングを想定する。そのコードワードは、有利なことに、例えばH.264及びH.265のようなビデオコーディング仕様における特定のシンタックス要素について共通のExt-Golombコードを使用する可変長コードワードであり得る。
アップ及び/又はダウンサンプル因子への値の1つの適切なマッピングは、例えば表1に従うことができる。
<表1>
Figure 0007299345000001
多くの同様のマッピングが、ビデオ圧縮技術又は規格において利用可能なアプリケーションの必要並びにアップ及びダウンスケールメカニズムの能力に従い、考案され得る。表は、より多くの値に拡張され得る。値は、Ext-Bolombコード以外のエントロピーコーディングメカニズムにより、例えばバイナリコーディングを用いて表されてもよい。それは、再サンプリング因子がビデオ処理エンジン(主にエンコーダ及びデコーダ)自体の外部で、例えばMANET(Mobile ad hoc network)により対象とされるとき、特定の利点を有してよい。留意すべきことに、解像度の変化が要求されない(おそらく)最も一般的な状況では、Ext-Golombコードは、短く、上述の表の中では、単一のビットのみになるよう選択できる。それは、最も一般的な場合にバイナリコードを使用することに勝るコーディング効率の利点を有し得る。
表中のエントリの数は、それらの意味と共に、完全に又は部分的に設定可能であってよい。例えば、表の基本的概要は、シーケンス又はデコーダパラメータセットのような「高(high)」パラメータセットの中で伝達されてよい。代替として又は実施形態では、1つ以上のこのような表が、ビデオコーディング技術又は規格の中で定義されてよく、例えばデコーダ又はシーケンスパラメータセットを通じて選択されてよい。
以下では、上述のようにコーディングされたアップサンプリング/ダウンサンプリング因子(ARC情報)がビデオコーディング技術又は規格シンタックスにどのように含まれるかを説明する。同様の検討は、1つ又は幾つかのコードワード制御アップ/ダウンサンプリングフィルタに適用され得る。フィルタ又は他のデータ構造のために比較的に大容量のデータが必要とされるときの議論については以下を参照する。
H.263 Annex Pは、ARC情報(502)を4個のワーピング座標の形式で、ピクチャヘッダ(501)に、具体的にはH.263 PLUSPTYPE(503)ヘッダ拡張に含める。これは、(a)利用可能なピクチャヘッダがあるとき、及び(b)ARC情報の頻繁な変更が期待されるとき、賢明な設計選択であり得る。しかしながら、H.263型のシグナリングを使用するときのオーバヘッドは非常に大きくなることがあり、ピクチャヘッダが過渡的特性であり得るので、スケーリング係数がピクチャ境界の間に属しないことがある。
先に引用されたJVCET-M135-v1は、ピクチャパラメータセット(504)内に位置するARC参照情報(505)(インデックス)、シーケンスパラメータセット(SPS)(507)内に位置する目標解像度を含むインデックステーブル(506)、を含む。シーケンスパラメータセット(507)内のテーブル(506)内の可能な解像度の配置は、著者により作成された言葉によると、能力交換中に相互運用交渉点としてSPSを用いて正当性を示すことができる。解像度は、適切なピクチャパラメータセット(504)を参照することにより、ピクチャ毎に、テーブル(506)内の値により設定された限度の範囲内で、変化できる。
図5に戻ると、ビデオビットストリームの中でARC情報を運ぶために、以下の追加の選択肢が存在し得る。これらの選択肢の各々は、上述のように、既存技術に勝る特定の利点を有する。選択肢は、同じコーディング技術又は規格の中に同時に存在してよい。
実施形態では、再サンプリング(ズーム)因子のようなARC情報(509)は、スライスヘッダ、GOB(group of block)ヘッダ、タイルヘッダ、又はタイルグループヘッダ(以後、タイルグループヘッダ)(508)の中に存在してよい。これは、例えば上述のように単一の可変長ue(v)又は数ビットの固定長コードワードのように、ARC情報が小さい場合に十分である。ARC情報をタイルグループヘッダ内に直接有することは、ARC情報が、ピクチャ全体ではなく例えばタイルグループにより表されるサブピクチャに適用可能であるという追加の利点を有する。以下も参照する。更に、ビデオ圧縮技術又は規格がピクチャ全体の適応解像度変化を想定する場合でも(例えば、適応解像度変化に基づくタイルグループとは対照的に)、ARC情報をタイルグループヘッダに入れることは、H.263形式のピクチャヘッダに入れることに対して、誤り回復の観点から特定の利点を有する。
同じ又は別の実施形態では、ARC情報(512)自体は、例えばピクチャパラメータセット(PPS)、ヘッダパラメータセット、タイルパラメータセット、適応パラメータセット、等(示された適応パラメータセット)のような適切なパラメータセット(511)内に存在してよい。そのパラメータセットの半は、有利なことに、ピクチャ、例えばタイルグループより大きくない。ARC情報の使用は、関連パラメータセットの活性化を通じて暗に示される。例えば、ビデオコーディング技術又は規格が、ピクチャに基づくARCを想定するとき、ピクチャパラメータセット又は均等物が適切であってよい。
同じ又は別の実施形態では、ARC参照情報(513)は、タイルグループヘッダ(514)又は同様のデータ構造内に存在してよい。該参照情報(513)は、単一のピクチャを超える範囲を有するパラメータセット(516)、例えばシーケンスパラメータセット、又はデコーダパラメータセット、の中で利用可能なARC情報のサブセット(515)を表し得る。
JVET-M0135-v1で使用されるように、タイルグループヘッダからのPPS、PPS、SPSの間接的に示唆された活性化の追加のレベルは、ピクチャパラメータセットのように、ちょうどシーケンスパラメータセットのように、能力交渉宣言のために使用できる(RFC3984のような特定の規格では有する)ので、不要と思われる。しかしながら、ARC情報が、例えばタイルグループによって表現されるサブピクチャにも適用可能でなければならない場合、適応パラメータセットまたはヘッダパラメータセットのようなタイルグループに限定された活性化範囲を有するパラメータセットは、適切な選択であり得る。また、ARC情報が無視できるより大きなサイズであり、例えば多数のフィルタ係数のようなフィルタ制御情報を含む場合、コーディング効率の観点から、ヘッダ(508)を直接使用するより、パラメータセットが適切な選択であり得る。これらの設定が、同じパラメータセットを参照することにより、将来のピクチャ又はサブピクチャにより再利用できるからである。
シーケンスパラメータセット又は複数のピクチャに渡る範囲を有する別の上位パラメータセットを使用するとき、特定の考察が当てはまる:
1.ARC情報テーブル(516)を格納するパラメータセットは、幾つかの場合には、シーケンスパラメータセットであり得るが、他の場合には、有利なことにデコーダパラメータセットである。デコーダパラメータセットは、複数のCVS、つまりコーディングビデオストリームの活性化範囲、つまり、セッション開始からセッション終了までの全てのコーディングビデオビット、を有することができる。このような範囲は、可能なARC因子が場合によってはハードウェアで実装されるデコーダの特徴であり、ハードウェア特徴はCVSであり、1秒以下の長さ)によって変化しない傾向があるので、より適切であり得る(少なくとも幾つかの娯楽システムでは、グループオブピクチャ(Group of Pictures)。つまり、テーブルをシーケンスパラメータセットに入れることは、ここに、特に以下の2と関連して記載される配置の選択肢に明示的に含まれる。
2.ARC情報(513)は、JVCET-M0135-v1におけるようなピクチャパラメータセットにではなく、有利なことに、ピクチャ/スライス/タイル/GOB/タイルグループヘッダ(以下ではタイルグループヘッダ)(514)に直接配置されてよい。理由は以下の通りである:エンコーダが、例えばARC参照情報のような、ピクチャパラメータセット内の単一の値を変更したいとき、エンコーダは新しいPPSを生成し、その新しいPPSを参照しなければならない。ARC参照情報だけが変化し、例えばPPS内の量子化マトリクス情報のような他の情報がそのままであると仮定する。このような情報は、相当なサイズであり、新しいPPSを完成させるために再送信される必要がある場合がある。
ARC参照情報は、テーブル(513)の中のインデックスのように、単一のコードワードであってよく、変化する唯一の値であり得るので、例えば量子化マトリクス情報の全部を再送信することは面倒であり無駄である。従って、コーディング効率の観点から、JVET-M0135-v1とは反対に、PPSを通じる遠回しなことを回避することが、非常に適切であり得る。同様に、ARC参照情報をPPSに入れることは、ピクチャパラメータセット活性化の範囲がピクチャであるので、ARC参照情報(513)により参照されるARC情報が、サブピクチャにではなく必ずピクチャ全体に適用されるという追加の欠点を有する。
同じ又は別の実施形態では、図6に概要が示されるように、ARCパラメータのシグナリングが以下に詳細に説明される。図6は、少なくとも1993年以来、ビデオコーディング規格で使用されるような表現でシンタックス図を示す。このようなシンタックス図の表記は、C形式のプログラミングにほぼ従う。図6は、太字体の行は、ビットストリーム内に現れるシンタックス要素を示す。太字ではない行は、制御フロー又は変数の設定を示すことがある。
(場合によっては長方形の)ピクチャ部分に適用可能なヘッダの例示的なシンタックス構造としてのタイルグループヘッダ(601)は、条件付きで、可変長のExt-Golombコーディングされたシンタックス要素dec_pic_size_idx(602)(太字で示される)を含み得る。タイルグループヘッダ内のこのシンタックス要素の存在は、適応解像度(603)、ここでは太字で示されないフラグの値の使用において制御できる。これは、フラグがビットストリーム内に、シンタックスダイアグラム内で生じるポイントで、存在することを意味する。
このピクチャ又は部分について適応解像度が使用されるか否かは、ビットストリーム内又は外の高レベルシンタックス構造の中でシグナリングできる。図6に示される例では、それは、以下に概説するシーケンスパラメータセットの中でシグナリングされる。
更に図6を参照すると、シーケンスパラメータセット(610)の抜粋も示される。示される最初のシンタックス要素は、adaptive_pic_resolution_change_flag(611)である。真のとき、そのフラグは、適応解像度の使用を示すことができ、それは特定の制御情報を必要とし得る。例では、このような制御情報は、パラメータセット(612)の中のif()文に基づくフラグの値及びタイルグループヘッダ(601)に基づき、条件付きで存在する。
適応解像度が使用されるとき、本例では、サンプルのユニットの中に出力解像度がコーディングされる(613)。参照符号613は、output_pic_width_in_luma_samples及びoutput_pic_height_in_luma_samplesの両方を表し、これらは出力ピクチャの解像度を一緒に定義し得る。その他の場合、ビデオコーディング技術又は規格では、どの値にも特定の制限が定義できる。例えば、レベル定義は、合計の出力サンプルの数を制限してよく、これは、それら2つのシンタックス要素の値の積であり得る。また、特定のビデオコーディング技術又は規格、又は例えばシステム規格のような外部技術又は規格は、番号付けの範囲(例えば、一方又は両方の次元が2のべき乗の数値により除算可能でなければならい)、又はアスペクト比(例えば、幅及び高さが4:3又は16:9のような関係になければならない)を制限してよい。このような制限は、ハードウェア実装を実現するため又は他の理由で導入されてよく、従来良く知られている。
特定のアプリケーションでは、エンコーダは、デコーダに、サイズが出力ピクチャサイズであることを暗示的に想定させるのではなく、特定の参照ピクチャサイズを使用するよう指示してよい。本例では、シンタックス要素reference_pic_size_present_flag(614)は、参照ピクチャ次元(615)(ここでも参照符号は幅及び高さの両方を表す)の条件付きの存在を制御する。
最終的に、図6に、幅及び高さを有する可能な復号ピクチャの表が示される。このような表は、例えば、テーブル指示(num_dec_pic_size_in_luma_samples_minus1)(616)により表現できる。「minus1」は、シンタックス要素の値の解釈を表し得る。例えば、コーディングされた値が0(ゼロ)である場合、1つのテーブルエントリが存在する。値が5である場合、6個のテーブルエントリが存在する。テーブル内の各「行」について、復号ピクチャの幅及び高さがシンタックス(617)に含まれる。
存在するテーブルエントリ(617)は、タイルグループヘッダ内のシンタックス要素dec_pic_size_idx(602)を用いてインデックス付けできる。それにより、タイルグループ毎に異なる復号サイズ、事実上のズーム倍率を可能にする。
特定のビデオコーディング技術又は規格、例えばVP9は、空間的スケーラビリティを有効にするために、時間スケーラビリティと関連して(開示の主題と全く異なる方法でシグナリングされる)特定の形式の参照ピクチャ再サンプリングを実施することにより、空間的スケーラビリティをサポートする。特に、特定の参照ピクチャは、空間拡張層の基礎を形成するために、ARC型の技術を用いて、より高い解像度へとアップサンプリングされてよい。これらのアップサンプリングされたピクチャは、詳細を追加するために、高解像度における通常の予測メカニズムを使用して、精緻化され得る。
開示の主題は、このような環境で使用できる。特定の場合には、同じ又は別の実施形態で、ネットワーク抽象化層(Network Abstraction Layer (NAL))ユニットヘッダ内の値、例えば時間識別子(Temporal Identifier (ID))フィールドが、時間だけでなく空間レイヤも示すために使用できる。そうすることで、特定のシステム設計に特定の利点がもたらされる可能性がある。例えば、NALユニットヘッダTemporal ID値に基づき時間レイヤ選択フォワーディングのために生成され最適化された既存の選択フォワーディングユニット(Selected Forwarding Units (SFU))は、拡張可能な環境で、変更無しに使用できる。それを有効にするために、コーディングピクチャサイズと時間レイヤとの間のマッピングがNALユニットヘッダ内のTenporal IDフィールドにより示されるという要件が存在し得る。
幾つかのビデオコーディング技術では、アクセスユニット(Access Unit (AU))は、コーディングピクチャ、スライス、タイル、NALユニット、等を表すことができ、これらはキャプチャされ、所与の時点でそれぞれのピクチャ/スライス/タイル/NALユニットビットストリームへと構成される。時点は、構成時間であり得る。
HEVC、及び特定の他のビデオコーディング技術では、ピクチャオーダカウント(picture order count (POC))値は、複合ピクチャバッファ(decoded picture buffer (DPB))に格納された複数の参照ピクチャの中の選択された参照ピクチャを示すために使用できる。アクセスユニット(AU)が1つ以上のピクチャ、スライス、又はタイルを含むとき、同じAUに属する各ピクチャ、スライス、又はタイルは、同じPOC値を運んでよく、その値から、それらが同じ構成時間のコンテンツから生成されたことが導出できる。言い換えると、2つのピクチャ/スライス/タイルが同じ所与のPOC値を運ぶシナリオでは、それは、同じAUに属し同じ構成時間を有する2つのピクチャ/スライス/タイルを示すことができる。反対に、2つのピクチャ/タイル/スライスが異なるPOC値を有することは、それらのピクチャ/スライス/タイルがことなるAUに属し異なる構成時間を有することを示すことができる。
開示の主題の実施形態では、前述の厳格な関係は緩和でき、アクセスユニットは、異なるPOC値を有するピクチャ、スライス、又はタイルを含むことができる。AU内で異なるPOC値を許容することにより、同一の提示時間を有する場合によっては独立に復号可能なピクチャ/スライス/タイルを識別するためにPOC値を使用することが可能になる。これは、一方で、以下の更に詳述されるように、参照ピクチャ選択シグナリング(例えば、参照ピクチャセットシグナリング、又は参照ピクチャリストシグナリング)の変更を伴わずに、複数のスケーラブルなレイヤのサポートを可能にできる。
しかしながら、POC値だけから、異なるPOC値を有するピクチャ/スライス/タイルに対して、ピクチャ/スライス/タイルが属するAUを識別できることが依然として望ましい。これは、後述するように達成できる。
同じ又は他の実施形態では、アクセスユニットカウント(access unit count (AUC))は、NALユニットヘッダ、スライスヘッダ、タイルグループヘッダ、SEIメッセージ、パラメータセット、又はAUデリミタのような上位シンタックス構造の中でシグナリングされてよい。AUCの値は、どのNALユニット、ピクチャ、スライス、又はタイルが所与のAUに属するかを識別するために使用されてよい。AUCの値は、異なる構成時点に対応してよい。AUC値は、POCの値の倍数と等しくてよい。POC値を整数値により除算することにより、AUC値が計算されてよい。特定の場合には、除算演算は、デコーダの実装に特定の負荷をかけ得る。そのような場合には、AUC値の番号付け空間における小さな制約が、除算演算をシフト演算により置き換えることを可能にする。例えば、AUC値は、POC値範囲の最上位ビット(Most Significant Bit (MSB))値に等しくてよい。
同じ実施形態では、AU毎のPOCサイクルの値(poc_cycle_au)は、NALユニットヘッダ、スライスヘッダ、タイルグループヘッダ、SEIメッセージ、パラメータセット、又はAUデリミタのような上位シンタックス構造の中でシグナリングされてよい。poc_cycle_auは、同じAUにどれだけ多くの異なる連続するPOC値が関連付けられ得るかを示してよい。例えば、poc_cycle_auの値が4に等しい場合、両端を含む0~3に等しいPOC値を有するピクチャ、スライス、又はタイルは、0に等しいAUC値を有するAUに関連付けられ、両端を含む4~7に等しいPOC値を有するピクチャ、スライス、又はタイルは、1に等しいAUC値を有するAUに関連付けられる。従って、AUCの値は、poc_cycle_auの値によりPOC値を除算することにより、推定されてよい。
同じ又は別の実施形態では、poc_cyle_auの値は、例えばビデオパラメータセット(video parameter set (VPS))内に位置する、コーディングビデオシーケンス内の空間又はSNRレイヤの数を識別する情報から導出されてよい。このような可能な関係は、以下に簡単に説明される。上述の様な導出はVPS内の少数のビットを節約することができ、従ってコーディング効率を向上し得るが、ピクチャのようなビットストリームの所与の小さな部分に対してpoc_cycle_auを最小化できるように、poc_cycle_auを、ビデオパラメータセットより階層的に下にある適切な上位シンタックス構造内に明示的にコーディングすることは有利である。この最適化は、POC値(及び/又はPOCを間接的に参照するシンタックス要素の値)が下位のシンタックス構造にコーディングされ得るので、上述の導出処理を通じて節約できるよりも多くのビットを節約できる。
同じ又は別の実施形態では、図9は、コーディングビデオシーケンスの中の全部のピクチャ/スライスについて使用されるpoc_cycle_auを示すVPS(又はSPS)の中のvps_poc_cycle_auのシンタックス要素、及びスライスヘッダの中の現在スライスのpoc_cycle_auを示すslice_poc_cycle_auのシンタックス要素をシグナリングするためのシンタックステーブルの例を示す。POC値がAU毎に一様に増大する場合、VPS内のvps_contant_poc_cycle_per_auは1に設定され、vps_poc_cycle_auはVPSの中でシグナリングされる。この場合には、slice_poc_cycle_auは明示的にシグナリングされず、各AUのAUCの値は、POCの値をvps_poc_cycle_auにより除算することにより計算される。POC値がAU毎に一様に増大しない場合、VPS内のvps_contant_poc_cycle_per_auは0に設定される。この場合、vps_access_unit_cntはシグナリングされないが、slice_access_unit_cntは、スライス又はピクチャ毎にスライスヘッダ内でシグナリングされる。各スライス又はピクチャは、slice_access_unit_cnt の異なる値を有してよい。各AUのAUCの値は、POCの値をslice_poc_cycle_auにより除算することにより計算される。図10は、関連するワークフローを示すブロック図を示す。
同じ又は別の実施形態では、ピクチャ、スライス、又はタイルのPOCの値が異なり得る場合でも、同じAUC値を有するAUに対応するピクチャ、スライス、又はタイルは、同じ復号又は出力時点に関連付けられてよい。従って、同じAU内のピクチャ、スライス、又はタイルに渡るインターパーシング/復号依存関係を有しないで、同じAUに関連付けられたピクチャ、スライス、又はタイルの全部又は一部は、並行して復号されてよく、同じ時点で出力されてよい。
同じ又は別の実施形態では、ピクチャ、スライス、又はタイルのPOCの値が異なってよい場合でも、同じAUC値を有するAUに対応するピクチャ、スライス、又はタイルは、同じ構成/表示時点に関連付けられてよい。構成時点がコンテナフォーマットに含まれるとき、ピクチャが異なるAUに対応しても、ピクチャが同じ構成時点を有するならば、ピクチャは同じ時点で表示できる。
同じ又は他の実施形態では、各ピクチャ、スライス、又はタイルは、同じAU内で同じ一時的識別子(temporal_id)を有してよい。ある時点に対応するピクチャ、スライス、又はタイルの全部又は一部は、同じ一時的サブレイヤに関連付けられてよい。同じ又は他の実施形態では、各ピクチャ、スライス、又はタイルは、同じAU内で異なる空間レイヤ識別子(layer_id)を有してよい。ある時点に対応するピクチャ、スライス、又はタイルの全部又は一部は、同じ又は異なる空間レイヤに関連付けられてよい。
POC図8は、適応型解像度変化によるtemporal_id、layer_id、POC、及びAUCの組合せを有するビデオシーケンス構造の例を示す。本例では、AUC=0を有する第1AUの中のピクチャ、スライス、又はタイルは、temporal_id=0及びlayer_id=0又は1を有してよく、一方で、AUC=1を有する第2AUの中のピクチャ、スライス、又はタイルは、temporal_id=1及びlayer_id=0又は1をそれぞれ有してよい。POCの値は、temporal_id及びlayer_id.の値と無関係に、ピクチャ当たり1だけ増大する。本例では、poc_cycle_auの値は、2に等しくなる。望ましくは、poc_cycle_auの値は、(空間スケーラビリティ)レイヤの数に等しく設定されてよい。本例では、従って、POCの値は2だけ増大され、AUCの値は1だけ増大される。
上述の実施形態では、参照ピクチャ指示及びインターピクチャ又はインターレイヤ予測構造の全部又は一部は、HEVCにおける既存の参照ピクチャセット(reference picture set (RPS))シグナリング又は参照ピクチャリスト(reference picture list (RPL))を用いてサポートされてよい。RPS又はRPLでは、選択された参照ピクチャが、POCの値又は現在ピクチャと選択された参照ピクチャとの間のPOCのデルタ値をシグナリングすることにより、示される。開示の主題では、RPS及びRPLは、シグナリングを変更せずに、インターピクチャ又はインターレイヤ予測構造を示すために使用できるが、以下の制約を伴う。参照ピクチャのtemporal_idの値が現在ピクチャのtemporal_idの値より大きい場合、現在ピクチャは、動き補償又は他の予測のために参照ピクチャを使用しなくてよい。参照ピクチャのlayer_idの値が現在ピクチャのlayer_idの値より大きい場合、現在ピクチャは、動き補償又は他の予測のために参照ピクチャを使用しなくてよい。
同じ又は他の実施形態では、時間的動きベクトル予測のためのPOC差に基づく動きベクトルスケーリングは、アクセスユニット内の複数のピクチャに渡り無効にされてよい。従って、各ピクチャはアクセスユニット内で異なるPOC値を有してよいが、動きベクトルは、アクセスユニット内の時間的動きベクトル予測のためにスケーリングされ使用されない。これは、同じAU内の異なるPOCを有する参照ピクチャは、同じ時点を有する参照ピクチャと考えられるからである。従って、実施形態では、参照ピクチャが現在ピクチャに関連付けられたAUに属するとき、動きベクトルスケーリング関数は1を返してよい。
同じ及び他の実施形態では、時間的動きベクトル予測のためのPOC差に基づく動きベクトルスケーリングは、任意的に、参照ピクチャの空間解像度が現在ピクチャの空間解像度と異なるとき、複数のピクチャに渡り無効にされてよい。動きベクトルスケーリングが許可されるとき、動きベクトルは、POC差、及び現在ピクチャと参照ピクチャとの間の空間解像度比に基づきスケーリングされる。
同じ又は別の実施形態では、特にpoc_cycle_auが一様でない値を有するとき(vps_contant_poc_cycle_per_au==0のとき)、動きベクトルは、時間的動きベクトル予測のために、POC差の代わりに、AUC差に基づきスケーリングされてよい。その他の場合(vps_contant_poc_cycle_per_au==1のとき)、AUC差に基づく動きベクトルスケーリングは、POC差に基づく動きベクトルスケーリングと同じであってよい。
同じ又は別の実施形態では、動きベクトルがAUC差に基づきスケーリングされるとき、現在ピクチャと同じAU内の(同じAUC値を有する)参照動きベクトルは、動きベクトル予測のためにAUC差に基づきスケーリングされ使用されず、現在ピクチャと参照ピクチャとの間の空間解像度比に基づくスケーリングを伴わないか又は伴う。
同じ及び他の実施形態では、AUC値は、AUの境界を識別するために使用され、AU粒度の入力及び出力タイミングを必要とする仮説参照デコーダ(hypothetical reference decoder (HDR))動作のために使用される。多くの場合に、AU内で最上位レイヤを有する復号ピクチャが、表示のために出力されてよい。AUC値及びlayer_id値は、出力ピクチャを識別するために使用できる。
実施形態では、ピクチャは1つ以上のサブピクチャで構成されてよい。各サブピクチャは、ピクチャの局所領域又は全体領域をカバーしてよい。サブピクチャによりサポートされる領域は、別のサブピクチャによりサポートされる領域と重なり合ってよく又はそうでなくてよい。1つ以上のサブピクチャにより構成される領域は、ピクチャの全体領域をカバーしてよく又はそうでなくてよい。ピクチャがサブピクチャで構成される場合、サブピクチャによりサポートされる領域は、ピクチャによりサポートされる領域と同一である。
同じ実施形態では、サブピクチャは、コーディングピクチャのために使用されたコーディング方法と同様のコーディング方法によりコーディングされてよい。サブピクチャは、独立にコーディングされてよく、又は別のサブピクチャ又はコーディングピクチャに依存してコーディングされてよい。サブピクチャは、別のサブピクチャ又はコーディングピクチャからのパーシング依存関係を有してよく又は有しなくてよい。
同じ実施形態では、コーディングサブピクチャは、1つ以上のレイヤに含まれてよい。レイヤ内のコーディングサブピクチャは、異なる空間解像度を有してよい。元のサブピクチャは、空間的に再サンプリング(アップサンプリング又はダウンサンプリング)され、異なる空間解像度パラメータによりコーディングされ、レイヤに対応するビットストリームに含まれてよい。
同じ又は別の実施形態では、(W,H)を有するサブピクチャは、コーディングされ、レイヤ0に対応するコーディングビットストリームに含まれてよい。ここで、Wはサブピクチャの幅を示し、Hはサブピクチャの高さをそれぞれ示す。一方で、元の空間解像度を有し、(W*Sw,k,H*Sh,k)を有するサブピクチャからアップサンプリング(又はダウンサンプリング)されたサブピクチャは、コーディングされ、レイヤkに対応するコーディングビットストリームに含まれてよい。ここで、Sw,k,Sh,kは、水平及び垂直方向の再サンプリング比を示す。Sw,k,Sh,kの値が1より大きい場合、再サンプリングはアップサンプリングに等しい。一方で、Sw,k,Sh,kの値が1より小さい場合、再サンプリングはダウンサンプリングに等しい。
同じ又は別の実施形態では、レイヤ内のコーディングサブピクチャは、同じサブピクチャ又は異なるサブピクチャ内の別のレイヤ内のコーディングサブピクチャと異なる視覚的品質を有し得る。例えば、レイヤn内のサブピクチャiは、量子化パラメータQi,nによりコーディングされ、レイヤm内のサブピクチャjは、量子化パラメータQj,m.によりコーディングされる。
同じ又別の実施形態では、レイヤ内のコーディングサブピクチャは、独立して復号可能であってよく、同じ局所領域の別のレイヤ内のコーディングサブピクチャからのパーシング又は復号依存関係を有しない。同じ局所領域の別のサブピクチャレイヤを参照することなく独立に復号可能なサブピクチャレイヤは、独立サブピクチャレイヤである。独立したサブピクチャレイヤ内のコーディングサブピクチャは、同じサブピクチャレイヤからの前のコーディングサブピクチャからの復号又はパーシング依存関係を有してよく又は有しなくてよいが、コーディングサブピクチャは、別のサブピクチャレイヤ内のコーディングピクチャからの依存関係を有しなくてよい。
同じ又別の実施形態では、レイヤ内のコーディングサブピクチャは、依存して復号可能であってよく、同じ局所領域の別のレイヤ内のコーディングサブピクチャからのパーシング又は復号依存関係を有する。同じ局所領域の別のサブピクチャレイヤを参照して依存して復号可能なサブピクチャレイヤは、依存サブピクチャレイヤである。依存サブピクチャ内のコーディングサブピクチャは、同じサブピクチャに属するコーディングサブピクチャ、同じサブピクチャレイヤ内の前のコーディングサブピクチャ、又は両方の参照サブピクチャを参照してよい。
同じ又別の実施形態では、コーディングサブピクチャは、1つ以上の独立サブピクチャレイヤ及び1つ以上の依存サブピクチャレイヤで構成される。しかしながら、コーディングサブピクチャについて、少なくとも1つの独立サブピクチャレイヤが存在してよい。独立サブピクチャレイヤは、NALユニットヘッダ又は別の上位シンタックス構造内に存在し得る、0に等しいレイヤ識別子(layer_id)の値を有してよい。0に等しいlayer_idを有するサブピクチャレイヤは、基本サブピクチャレイヤである。
同じ又別の実施形態では、ピクチャは、1つ以上の前景サブピクチャ及び1つ以上の背景サブピクチャで構成される。背景サブピクチャによりサポートされる領域は、ピクチャの領域と等しくてよい。前景サブピクチャによりサポートされる領域は、背景サブピクチャによりサポートされる領域と重なり合ってよい。背景サブピクチャは、基本サブピクチャレイヤであってよく、一方で、前景サブピクチャは、非基本(拡張)サブピクチャレイヤであってよい。1つ以上の非基本サブピクチャレイヤは、復号のために同じ基本レイヤを参照してよい。aに等しいlayer_idを有する各々の非基本サブピクチャレイヤは、bに等しいlayer_idを有する非基本サブピクチャレイヤを参照してよい。ここで、aはbより大きい。
同じ又別の実施形態では、ピクチャは、背景サブピクチャを有する又は有しない1つ以上の前景サブピクチャで構成されてよい。各サブピクチャは、それ自体の基本サブピクチャレイヤ及び1つ以上の非基本(拡張)レイヤを有してよい。各基本サブピクチャレイヤは、1つ以上の非基本サブピクチャレイヤにより参照されてよい。aに等しいlayer_idを有する各々の非基本サブピクチャレイヤは、bに等しいlayer_idを有する非基本サブピクチャレイヤを参照してよい。ここで、aはbより大きい。
同じ又別の実施形態では、ピクチャは、背景サブピクチャを有する又は有しない1つ以上の前景サブピクチャで構成されてよい。(基本又は非基本)サブピクチャレイヤ内の各コーディングサブピクチャは、同じサブピクチャに属する1つ以上の非基本レイヤのサブピクチャ、及び同じサブピクチャに属さない1つ以上の非基本レイヤのサブピクチャにより参照されてよい。
同じ又別の実施形態では、ピクチャは、背景サブピクチャを有する又は有しない1つ以上の前景サブピクチャで構成されてよい。レイヤa内のサブピクチャは、同じレイヤ内の複数のサブピクチャに更にパーティションされてよい。レイヤb内の1つ以上のコーディングサブピクチャは、レイヤa内のパーティションされたサブピクチャを参照してよい。
同じ又は別の実施形態では、コーディングビデオシーケンス(coded video sequence (CVS))は、コーディングピクチャのグループであってよい。CVSは、1つ以上のコーディングサブピクチャシーケンス(coded sub-picture sequences (CSPS))で構成されてよい。ここで、CSPSは、ピクチャの同じ局所領域をカバーするコーディングサブピクチャのグループであってよい。CSPSは、コーディングビデオシーケンスと同じ又は異なる時間解像度を有してよい。
同じ又は別の実施形態では、CSPSは、コーディングされ1つ以上のレイヤに含まれてよい。CSPSは、1つ以上のCSPSレイヤで構成されてよい。CSPSに対応する1つ以上のCSPSレイヤを復号することは、同じ局所領域に対応するサブピクチャのシーケンスを再構成してよい。
同じ又は別の実施形態では、CSPSに対応するCSPSレイヤの数は、別のCSPSに対応するCSPSレイヤの数と同じ又は異なってよい。
同じ又は別の実施形態では、CSPSレイヤは、別のCSPSレイヤと異なる時間解像度(例えば、フレームレート)を有してよい。元の(未圧縮)サブピクチャシーケンスは、時間的に再サンプリング(アップサンプリング又はダウンサンプリング)され、異なる時間解像度パラメータによりコーディングされ、レイヤに対応するビットストリームに含まれてよい。
同じ又別の実施形態では、フレームレートFを有するサブピクチャシーケンスは、コーディングされ、レイヤ0に対応するコーディングビットストリームに含まれてよい。一方で、F*St,kにより元のサブピクチャシーケンスから時間的にアップサンプリング(又はダウンサンプリング)されたサブピクチャシーケンスは、コーディングされ、レイヤkに対応するコーディングビットストリームに含まれてよい。ここで、St,kはレイヤkの時間サンプリング比を示す。St,kの値が1より大きい場合、時間再サンプリング処理は、フレームレートアップコンバージョンと等しい。一方で、St,kの値が1より小さい場合、時間再サンプリング処理は、フレームレートダウンコンバージョンと等しい。
同じ又は別の実施形態では、動き補償又は任意のインターレイヤ予測のために、CSPSレイヤaを有するサブピクチャがCSPSレイヤbを有するサブピクチャにより参照されるとき、CSPSレイヤaの空間解像度がCSPSレイヤbの空間解像度と異なる場合、CSPSレイヤaの復号ピクセルは、再サンプリングされ、参照のために使用される。再サンプリング処理は、アップサンプリングフィルタリング又はダウンサンプリングフィルタリングを必要としてよい。
図11は、0に等しいlayer_idを有する背景ビデオCSPS及び複数の前景CSPSレイヤを含む例示的なビデオストリームを示す。コーディングサブピクチャは1つ以上のCSPSレイヤで構成されてよいが、いずれの前景CSPSレイヤにも属さない背景領域は、基本レイヤを構成してよい。基本レイヤは、背景領域及び前景領域を含んでよく、拡張CSPSレイヤは前景領域を含んでよい。拡張CSPSレイヤは、同じ領域において、基本レイヤより良好な視覚的品質を有してよい。拡張CSPSレイヤは、同じ領域に対応する、基本レイヤの再構成ピクセル及び動きベクトルを参照してよい。
同じ又は別の実施形態では、基本レイヤに対応するビデオビットストリームは、トラックに含まれ、一方で、各サブピクチャに対応するCSPSレイヤは、ビデオファイル内の別のトラックに含まれる。
同じ又は別の実施形態では、基本レイヤに対応するビデオビットストリームは、トラックに含まれ、一方で、同じlayer_idに対応するCSPSレイヤは、別のトラックに含まれる。本例では、レイヤkに対応するトラックは、レイヤkに対応するCSPSレイヤのみを含む。
同じ又別の実施形態では、各サブピクチャの各CSPSレイヤは、別のトラックに格納される。各トラックは、1つ以上の他のトラックからのパーシング又は復号依存関係を有してよく又は有しなくてよい。
同じ又別の実施形態では、各トラックは、サブピクチャの全部又は一部のCSPSレイヤのレイヤi~レイヤjに対応するビットストリームを含んでよい。ここで、0<i=<j=<k、kはCSPSの最高レイヤである。
同じ又は別の実施形態では、ピクチャは、深さマップ、アルファマップ、3Dジオメトリデータ、占有マップ、等を含む1つ以上の関連付けられたメディアデータで構成される。このような関連する時限メディアデータは、1又は複数のデータサブストリームに分割でき、各データサブストリームは、1つのサブピクチャに対応する。
同じ又別の実施形態では、図12は、マルチレイヤサブピクチャ方法に基づくビデオ会議の例を示す。ビデオストリームには、背景ピクチャに対応する1つの基本レイヤビデビットストリーム、及び前景サブピクチャに対応する1つ以上の拡張レイヤビデオビットストリームが含まれる。各拡張レイヤビデオビットストリームは、CSPSレイヤに対応してよい。表示において、基本レイヤに対応するピクチャがデフォルトで表示される。それは、ピクチャ内の1つ以上のユーザのピクチャを含む(ピクチャインピクチャ(picture in a picture (PIP)))。特定のユーザがクライアントの制御により選択されると、選択されたユーザに対応する拡張CSPSレイヤが、拡張品質又は空間解像度により、復号され、表示される
図13は、実施形態による、マルチレイヤサブピクチャを含むビデオビットストリームの復号及び表示処理のブロック図を示す。例えば、処理は、以下の動作のうちの1つ以上を含んでよい。例えば、動作1301で、マルチレイヤを有するビデオビットストリームの復号が生じてよい。動作1302は、背景領域と1つ以上の前景サブピクチャとを識別するステップを含んでよい。動作1303は、特定のサブピクチャ領域が選択されているかどうかを決定するステップを含んでよい。動作1304は、特定のサブピクチャ領域が選択されている場合(つまり、1303=Yes)、拡張サブピクチャを復号し表示するステップを含んでよい。動作1305は、特定のサブピクチャ領域が選択されていない場合(つまり、1303=No)、背景領域を復号し及び表示するステップを含んでよい。
同じ又別の実施形態では、ネットワーク中間ボックス(例えばルータ)は、帯域幅に依存して、ユーザへ送信すべきレイヤのサブセットを選択してよい。ピクチャ/サブピクチャ編成は、帯域幅適応のために使用されてよい。例えば、ユーザが帯域幅を有しない場合、ルータはレイヤを削除するか、又はそれらの重要性により若しくはユーザ設定に基づき幾つかのサブピクチャを選択してよい。これは、帯域幅に適応するために動的に行うことができる。
図14は、360度ビデオの使用例を示す。球体の360度ピクチャが平面ピクチャに投影されるとき、投影360度ピクチャは、基本レイヤのような複数のサブピクチャにパーティションされてよい。特定のサブピクチャの拡張レイヤは、コーディングされ、クライアントへ送信されてよい。デコーダは、全部のサブピクチャを含む基本レイヤ、及び選択されたサブピクチャの拡張レイヤの両方を復号可能であってよい。現在の視点が選択されたサブピクチャと同じとき、表示されたピクチャは、拡張レイヤを有する復号サブピクチャにより、より高い品質を有してよい。或いは、基本レイヤを有する復号ピクチャは、低品質で表示できる。
同じ又別の実施形態では、表示のためのレイアウト情報は、ファイル内に、補助情報(例えば、SEIメッセージ又はメタデータ)として存在してよい。1つ以上の復号サブピクチャは、シグナリングされたレイアウト情報に従い、再配置され表示されてよい。レイアウト情報は、ストリーミングサーバ又はブロードキャスタによりシグナリングされてよく、又はネットワークエンティティ若しくはクラウドサーバにより再生成されてよく、又はユーザのカスタマイズされた設定により決定されてよい。
実施形態では、入力ピクチャは、1つ以上の(長方形)サブ領域に分割され、各サブ領域は独立レイヤとしてコーディングされてよい。局所領域に対応する各独立レイヤは、ユニークなlayer_id値を有してよい。独立レイヤ毎に、サブピクチャサイズ及び位置情報がシグナリングされてよい。例えば、ピクチャサイズ(幅、高さ)、左上角のオフセット情報(x_offset,y_offset)である。図15は、分割されたサブピクチャのレイアウト、そのサブピクチャサイズ及び位置情報、及びその対応するピクチャ予測構造の例を示す。サブピクチャサイズ及びサブピクチャ位置を含むレイアウト情報は、パラメータセット、スライス若しくはグループのヘッダ、又はSEIメッセージのような上位シンタックス構造の中でシグナリングされてよい。
同じ実施形態で、独立レイヤに対応する各サブピクチャは、AU内の自身のユニークなPOC値を有してよい。DBPに格納されたピクチャの中の参照ピクチャがRPS又はRPL構造内のシンタックス要素を用いて示される場合、レイヤに対応する各サブピクチャのPOC値が使用されてよい。
同じ又別の実施形態では、(インターレイヤ)予測構造を示すために、layer_idは使用されなくてよく、POC(デルタ)値が使用されてよい。
同じ実施形態では、レイヤ(又は局所領域)に対応するNに等しいPOC値を有するサブピクチャは、動き補償予測のために、同じレイヤ(又は同じ局所領域)に対応する、N+Kに等しいPOC値を有するサブピクチャの参照ピクチャとして使用さてよく又は使用されなくてよい。殆どの場合、数値Kの値は、サブ領域の数に等しくてよい、(独立)レイヤの最大数に等しくてよい。
同じ又別の実施形態では、図16は図15の拡張された場合を示す。入力ピクチャが複数の(例えば4個の)サブ領域に分割されるとき、各局所領域は、1つ以上のレイヤによりコーディングされてよい。この場合、独立レイヤの数は、サブ領域の数に等しくてよく、1つ以上のレイヤがサブ領域に対応してよい。従って、各サブ領域は、1つ以上の独立レイヤ及び0以上の従属レイヤによりコーディングされてよい。
同じ実施形態では、図16において、入力ピクチャは4個のサブ領域に分割されてよい。右上サブ領域は、2つのレイヤ、つまりレイヤ1及びレイヤ4としてコーディングされてよい。一方で、右下サブ領域は、2つのレイヤ、つまりレイヤ3及びレイヤ5としてコーディングされてよい。この場合、レイヤ4は、動き補償予測のためにレイヤ1を参照してよく、レイヤ5は、動き補償のためにレイヤ3を参照してよい。
同じ又別の実施形態では、レイヤ境界に跨がるインループフィルタ(例えば、デブロッキングフィルタ、適応型インループフィルタ、リシェーパ、バイラテラルフィルタ、又は任意の深層学習に基づくフィルタ)は、(任意的に)無効にされてよい。
同じ又別の実施形態では、レイヤ境界に跨がる動き補償予測又はイントラブロックコピーは、(任意的に)無効にされてよい。
同じ又別の実施形態では、サブピクチャの境界における動き補償予測又はインループフィルタのための境界パディングは、任意的に処理されてよい。境界パディングが処理されるか否かを示すフラグが、パラメータセット(VPS、SPS、PPS、又はAPS)又はスライス若しくはタイルグループヘッダ、又はSEIメッセージのような上位シンタックス構造の中でシグナリングされてよい。
同じ又別の実施形態では、サブ領域(又はサブピクチャ)のレイアウト情報は、VPS又はMPS内でシグナリングされてよい。図17は、VPS及びSPS内のシンタックス要素の例を示す。本例では、vps_sub_picture_dividing_flagがVPS内でシグナリングされる。フラグは、入力ピクチャが複数のサブ領域に分割されるか否かを示してよい。
vps_sub_picture_dividing_flagの値が0に等しいとき、現在VPSに対応するコーディングビデオシーケンスの中の入力ピクチャは、複数のサブ領域に分割されなくてよい。この場合、入力ピクチャサイズは、SPS内でシグナリングされる、コーディングピクチャサイズ(pic_width_in_luma_samples, pic_height_in_luma_samples)に等しくてよい。
vps_sub_picture_dividing_flagの値が1に等しいとき、入力ピクチャは、複数のサブ領域に分割されてよい。この場合、シンタックス要素vps_full_pic_width_in_luma_samples及びvps_full_pic_height_in_luma_samplesは、VPS内でシグナリングされる。vps_full_pic_width_in_luma_samples及びvps_full_pic_height_in_luma_samplesの値は、それぞれ入力ピクチャの幅及び高さに等しくてよい。
同じ実施形態で、vps_full_pic_width_in_luma_samples及びvps_full_pic_height_in_luma_samplesの値は、復号のために使用されなくてよいが、構成及び表示のために使用されてよい。
同じ実施形態で、vps_sub_picture_dividing_flagの値が1に等しいとき、シンタックス要素pic_offset_x及びpic_offset_yは、特定のレイヤに対応するSPS内でシグナリングされてよい。この場合、SPS内でシグナリングされるコーディングピクチャサイズ(pic_width_in_luma_samples, pic_height_in_luma_samples)は、特定のレイヤに対応するサブ領域の幅及び高さに等しくてよい。また、サブ領域の左上角の位置(pic_offset_x, pic_offset_y)は、SPS内でシグナリングされてよい。
同じ実施形態で、サブ領域の左上角の位置(pic_offset_x, pic_offset_y)は、復号のために使用されなくてよいが、構成及び表示のために使用されてよい。
同じ又別の実施形態では、入力ピクチャのサブ領域の全部又は一部のレイアウト情報(サイズ及び位置)、レイヤ間の依存情報は、パラメータセット又はSEIメッセージ内でシグナリングされてよい。
図18は、サブ領域のレイアウトの情報、レイヤ間の依存関係、及びサブ領域と1つ以上のレイヤとの間の関係を示すためのシンタックス要素の例を示す。本例では、シンタックス要素num_sub_regionは、現在コーディングビデオシーケンス内の(長方形)サブ領域の数を示す。実施形態によると、シンタックス要素num_layersは、現在コーディングビデオシーケンス内のレイヤ数を示してよい。num_layersの値は、num_sub_regionの値に等しいか又はそれより大きくてよい。任意のサブ領域が単一のレイヤとしてコーディングされるとき、num_layersの値はnum_sub_regionの値に等しくてよい。1つ以上のサブ領域が複数のレイヤとしてコーディングされるとき、num_layersの値はnum_sub_regionの値より大きくてよい。シンタックス要素direct_dependency_flag[i][j]は、j番目のレイヤからi番目のレイヤへの依存関係を示す。num_layers_for_region[i]は、i番目のサブ領域に関連付けられたレイヤの数を示す。sub_region_layer_id[i][j]は、i番目のサブ領域に関連付けられたj番目のレイヤのlayer_idを示す。sub_region_offset_x[i]及びsub_region_offset_y[i]は、それぞれi番目のサブ領域の左上角の水平及び垂直位置を示す。sub_region_width[i]及びsub_region_height[i]は、それぞれi番目のサブ領域の幅及び高さを示す。
一実施形態では、1つ以上のレイヤを示すために設定される出力レイヤがプロファイルティアレベル情報と共に又は伴わずに出力されるかを指定する1つ以上のシンタックス要素は、上位シンタックス構造、例えば、VPS、DPS、SPS、PPS、APS、又はSEIメッセージ内でシグナリングされてよい。図19を参照すると、VPSを参照するコーディングビデオシーケンス内の出力レイヤセット(output layer set (OLS))の数を示すシンタックス要素num_output_layer_setsは、VPS内でシグナリングされてよい。出力レイヤセット毎に、output_layer_flagが、出力レイヤの数と同数だけシグナリングされてよい。
同じ実施形態では、output_layer_flag[i]が1に等しいことは、i番目のレイヤが出力されることを指定する。0に等しいvps_output_layer_flag[i]は、i番目のレイヤが出力されないことを指定する。
同じ又別の実施形態では、出力レイヤセット毎のプロファイルティアレベル情報を指定する1つ以上のシンタックス要素は、上位シンタックス構造、例えば、VPS、DPS、SPS、PPS、APS、又はSEIメッセージ内でシグナリングされてよい。更に図19を参照すると、VPSを参照するコーディングビデオシーケンス内のOLS当たりのプロファイルティアレベル情報の数を示すシンタックス要素num_profile_tile_levelは、VPS内でシグナリングされてよい。出力レイヤセット毎に、プロファイルティアレベル情報のシンタックス要素のセット、又はプロファイルティアレベル情報内のエントリの中の特定のプロファイルティアレベル情報を示すインデックスが、出力レイヤの数だけシグナリングされてよい。
同じ実施形態では、profile_tier_level_idx[i][j]は、i番目のOLSのj番目のレイヤに適用されるprofile_tier_level()シンタックス構造のインデックスを、VPS内のprofile_tier_level()シンタックス構造のリストへと指定する。
同じ又別の実施形態では、図20を参照すると、シンタックス要素num_profile_tile_level及び/又はnum_output_layer_setsは、最大レイヤ数が1より大きいとき(vps_max_layers_minus1>0)、シグナリングされてよい。
同じ又別の実施形態では、図20を参照すると、i番目の出力レイヤセットについての出力レイヤシグナリングのモードを示すシンタックス要素vps_output_layers_mode[i]が、VPS内に存在してよい。
同じ実施形態では、vps_output_layers_mode[i]が0に等しいことは、i番目の出力レイヤセットと共に最高レイヤのみが出力されることを指定する。1に等しいvps_output_layer_mode[i]は、全部のレイヤが、i番目の出力レイヤセットと共に出力されることを指定する。2に等しいvps_output_layer_mode[i]は、出力されるレイヤが、i番目の出力レイヤセットと共に、1に等しいvps_output_layer_flag[i][j]を有するレイヤであることを指定する。より多くの値が予約されてよい。
同じ実施形態で、output_layer_flag[i][j]は、i番目の出力レイヤセットのvps_output_layers_mode[i]の値に依存してシグナリングされてよく又はされなくてよい。
同じ又別の実施形態では、図20を参照すると、flagvps_ptl_signal_flag[i]がi番目の出力レイヤセットについて存在してよい。vps_ptl_signal_flag[i]の値に依存して、i番目の出力レイヤセットのプロファイルティアレベル情報は、シグナリングされてよく又はされなくてよい。
同じ又別の実施形態では、図21を参照すると、現在CVS内のサブピクチャの数max_subpics_minus1は、上位シンタックス構造、例えば、VPS、DPS、SPS、PPS、APS、又はSEIメッセージ内でシグナリングされてよい。
同じ又別の実施形態では、図21を参照すると、i番目のサブピクチャのサブピクチャ識別子sub_pic_id[i]は、最大レイヤサブピクチャ数が1より大きいとき(max_subpics_minus1>0)、シグナリングされてよい。
同じ又別の実施形態では、各出力レイヤセットの各レイヤに属するサブピクチャ識別子を示す1つ以上のシンタックス要素が、VPS内でシグナリングされてよい。図22を参照すると、k番目のサブピクチャを示すsub_pic_id_layer[i][j][k]は、i番目の出力レイヤセットのj番目のレイヤ内に存在する。これらの情報により、デコーダは、特定の出力レイヤセットの各レイヤについて、どのサブピクチャが復号され出力され得るかを認識してよい。
実施形態では、ピクチャヘッダ(picture header (PH))は、コーディングピクチャの全部のスライスに適用されるシンタックス要素を含むシンタックス構造である。ピクチャユニット(picture unit (PU))は、指定された分類ルールに従い互いに関連付けられた、復号順で連続する、正確に1つのコーディングピクチャを含むNALユニットのセットである。PUは、ピクチャヘッダ(picture header (PH))と、コーディングピクチャに対応する1つ以上のVCL NALユニットとを含んでよい。
実施形態では、SPS(RBSP)は、参照され、0に等しいTemporalIdを有する少なくとも1つのAUに含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
実施形態では、SPS(RBSP)は、参照され、SPSを参照する1つ以上のPPSを含む、CVS内で0に等しいTemporalIdを有する少なくとも1つのAUに含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
実施形態では、SPS(RBSP)は、1つ以上のPPSにより参照され、SPSを参照する1つ以上のPPSを含む、CVS内でSPS NALユニットの最も低いnuh_layer_id値に等しいnuh_layer_idを有する少なくとも1つのPUに含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
実施形態では、SPS(RBSP)は、1つ以上のPPSにより参照され、0に等しいTemporalId及びSPS NALユニットを参照するPPS NALユニットの最低のnuh_layer_id値に等しいnuh_layer_idを有する1つ以上のPU内に含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
実施形態では、SPS(RBSP)は、1つ以上のPPSにより参照され、0に等しいTemporalId及びSPSを参照する1つ以上のPPSを含む、CVS内でSPS NALユニットの最も低いnuh_layer_id値に等しいnuh_layer_idを有する少なくとも1つのPUに含まれ、又は外部手段を通じて提供され又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
同じ又は別の実施形態では、pps_seq_parameter_set_idは、参照されるSPSのsps_seq_parameter_set_idの値を指定する。pps_seq_parameter_set_idの値は、CLVS内のコーディングピクチャにより参照される全部のPPSの中で同じであってよい。
同じ又別の実施形態では、CVS内で特定の値のsps_seq_parameter_set_idを有する全部のSPS NALユニットは同じコンテンツを有してよい。
同じ又別の実施形態では、nuh_layer_idの値に拘わらず、SPS NALユニットは、sps_seq_parameter_set_idの同じ値空間を共有してよい。
同じ又別の実施形態では、SPS NALユニットのnuh_layer_id値は、SPS NALユニットを参照するPPS NALユニットの最低のnuh_layer_id値に等しくてよい。
実施形態では、mに等しいnuh_layer_idを有するSPSが、nに等しいnuh_layer_idを有する1つ以上のPPSにより参照されるとき、mに等しいnuh_layer_idを有するレイヤは、nに等しいnuh_layer_idを有するレイヤ、又はmに等しいnuh_layer_idを有するレイヤの(直接又は間接)参照レイヤと同じであってよい。
実施形態では、PPS(RBSP)は、参照され、PPS NALユニットのTemporalIdに等しいTemporalIdを有する少なくとも1つのAUに含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
実施形態では、PPS(RBSP)は、参照され、PPSを参照する1つ以上のPH(又はコーディングスライスNALユニット)を含む、CVS内のPPS NALユニットのTemporalIdに等しいTemporalIdを有する少なくとも1つのAUに含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
実施形態では、PPS(RBSP)は、1つ以上のPH(又はコーディングスライスNALユニット)により参照され、PPSを参照する1つ以上のPH(又はコーディングスライスNALユニット)を含む、CVS内のPPS NALユニットを参照するコーディングスライスNALユニットの最も低いnuh_layer_id値に等しいnuh_layer_idを有する少なくとも1つのPUに含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
実施形態では、PPS(RBSP)は、1つ以上のPH(又はコーディングスライスNALユニット)により参照され、1つ以上のPH(又はコーディングスライスNALユニット)を含む、CVS内のPPS NALユニットを参照するコーディングスライスNALユニットの最も低いnuh_layer_id値に等しいnuh_layer_id及びPPS NALユニットのTemporalIdに等しいTemporalIdを有する少なくとも1つのPUに含まれ、又は外部手段を通じて提供され又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
同じ又は別の実施形態では、PH内のph_pic_parameter_set_idは、使用中の参照されるPPSのpps_pic_parameter_set_idの値を指定する。pps_seq_parameter_set_idの値は、CLVS内のコーディングピクチャにより参照される全部のPPSの中で同じであってよい。
同じ又別の実施形態では、PU内で特定の値のpps_pic_parameter_set_idを有する全部のPPS NALユニットは同じコンテンツを有してよい。
同じ又別の実施形態では、nuh_layer_idの値に拘わらず、PPS NALユニットは、pps_pic_parameter_set_idの同じ値空間を共有してよい。
同じ又別の実施形態では、PPS NALユニットのnuh_layer_id値は、PPS NALユニットを参照するNALユニットを参照するコーディングスライスNALユニットの最低のnuh_layer_id値に等しくてよい。
実施形態では、mに等しいnuh_layer_idを有するPPSが、nに等しいnuh_layer_idを有する1つ以上のコーディングスライスNALユニットにより参照されるとき、mに等しいnuh_layer_idを有するレイヤは、nに等しいnuh_layer_idを有するレイヤ、又はmに等しいnuh_layer_idを有するレイヤの(直接又は間接)参照レイヤと同じであってよい。
実施形態では、PPS(RBSP)は、参照され、PPS NALユニットのTemporalIdに等しいTemporalIdを有する少なくとも1つのAUに含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
実施形態では、PPS(RBSP)は、参照され、PPSを参照する1つ以上のPH(又はコーディングスライスNALユニット)を含む、CVS内のPPS NALユニットのTemporalIdに等しいTemporalIdを有する少なくとも1つのAUに含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
実施形態では、PPS(RBSP)は、1つ以上のPH(又はコーディングスライスNALユニット)により参照され、PPSを参照する1つ以上のPH(又はコーディングスライスNALユニット)を含む、CVS内のPPS NALユニットを参照するコーディングスライスNALユニットの最も低いnuh_layer_id値に等しいnuh_layer_idを有する少なくとも1つのPUに含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
実施形態では、PPS(RBSP)は、1つ以上のPH(又はコーディングスライスNALユニット)により参照され、1つ以上のPH(又はコーディングスライスNALユニット)を含む、CVS内のPPS NALユニットを参照するコーディングスライスNALユニットの最も低いnuh_layer_id値に等しいnuh_layer_id及びPPS NALユニットのTemporalIdに等しいTemporalIdを有する少なくとも1つのPUに含まれ、又は外部手段を通じて提供され又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。
同じ又は別の実施形態では、PH内のph_pic_parameter_set_idは、使用中の参照されるPPSのpps_pic_parameter_set_idの値を指定する。pps_seq_parameter_set_idの値は、CLVS内のコーディングピクチャにより参照される全部のPPSの中で同じであってよい。
同じ又別の実施形態では、PU内で特定の値のpps_pic_parameter_set_idを有する全部のPPS NALユニットは同じコンテンツを有してよい。
同じ又別の実施形態では、nuh_layer_idの値に拘わらず、PPS NALユニットは、pps_pic_parameter_set_idの同じ値空間を共有してよい。
同じ又別の実施形態では、PPS NALユニットのnuh_layer_id値は、PPS NALユニットを参照するNALユニットを参照するコーディングスライスNALユニットの最低のnuh_layer_id値に等しくてよい。
実施形態では、mに等しいnuh_layer_idを有するPPSは、nに等しいnuh_layer_idを有する1つ以上のコーディングスライスNALユニットにより参照される。mに等しいnuh_layer_idを有するレイヤは、nに等しいnuh_layer_idを有するレイヤ、又はmに等しいnuh_layer_idを有するレイヤの(直接又は間接)参照レイヤと同じであってよい。
出力レイヤは、出力される出力レイヤセットのレイヤを示す。出力レイヤセット(output layer set (OLS))は、指定されたレイヤセットで構成されるレイヤセットを示し、レイヤセットの中の1つ以上のレイヤは、出力レイヤとして指定される。出力レイヤセット(output layer set (OLS))レイヤインデックスは、OLS内のレイヤの、OLS内のレイヤのリストへの、インデックスである。
サブレイヤは、特定の値のTemporalId変数及び関連付けられた非VCL NALユニットを有するVCL NALユニットで構成される時間的にスケーラブルなビットストリームの時間的にスケーラブルなレイヤを示す。サブレイヤ表現は、特定のサブレイヤ及び下位のサブレイヤのNALユニットで構成されるビットストリームのサブセットを示す。
VPS RBSPは、参照され、0に等しいTemporalIdを有する少なくとも1つのAUに含まれ、又は外部手段を通じて提供される前に、復号処理に利用可能であってよい。CVS内で特定の値のvps_video_parameter_set_idを有する全部のVPS NALユニットは同じコンテンツを有してよい。
vps_video_parameter_set_idは、他のシンタックス要素による参照のためにVPSの識別子を提供する。vps_video_parameter_set_idの値は0より大きくてよい。
vps_max_sublayers_minus1に1を加えたものは、VPSを参照する各CVS内に存在し得る時間的サブレイヤの最大数を指定する。
vps_max_sublayers_minus1に1を加えたものは、VPSを参照する各CVS内に存在し得る時間的サブレイヤの最大数を指定する。vps_max_sublayers_minus1の値は、両端を含む0~6の範囲であってよい。
1に等しいvps_all_layers_same_num_sublayers_flagは、時間的サブレイヤの数がVPSを参照する各CVS内の全部のレイヤについて同じであることを指定する。
0に等しいvps_all_layers_same_num_sublayers_flagは、VPSを参照する各CVS内のレイヤが、同じ数の時間的サブレイヤを有してよいか又はそうでないかを指定する。存在しないとき、vps_all_layers_same_num_sublayers_flagの値は1に等しいと推定される。
1に等しいvps_all_independent_layers_flagは、CVS内の全部のレイヤが、インターレイヤ予測を使用しないで独立にコーディングされることを指定する。
0に等しいvps_all_independent_layers_flagは、CVS内のレイヤのうちの1つ以上がインターレイヤ予測を使用してよいことを指定する。存在しないとき、vps_all_independent_layers_flagの値は1に等しいと推定される。
vps_layer_id[i]は、i番目のレイヤのnuh_layer_id値を指定する。m及びnの任意の2つの負ではない整数値について、mがnより小さいとき、vps_layer_id[m]の値はvps_layer_id[n]より小さくてよい。
vps_independent_layer_flag[i]が1に等しいことは、インデックスiを有するレイヤがインターレイヤ予測を使用しないことを指定する。vps_independent_layer_flag[i]が0に等しいことは、インデックスiを有するレイヤがインターレイヤ予測及びシンタックス要素を使用してよいことを指定する。
両端を含む0~i-1の範囲内のjについて、vps_direct_ref_layer_flag[i][j]は、VPS内に存在する。存在しないとき、vps_independent_layer_flag[i]の値は1に等しいと推定される。0に等しいvps_direct_ref_layer_flag[i][j]は、インデックスjを有するレイヤが、インデックスiを有するレイヤの直接参照レイヤではないことを指定する。1に等しいvps_direct_ref_layer_flag[i][j]は、インデックスjを有するレイヤが、インデックスiを有するレイヤの直接参照レイヤであることを指定する。
両端を含む0~vps_max_layers_minus1の範囲内のi及びjについてvps_direct_ref_layer_flag[i][j]が存在しないとき、それは0に等しいと推定される。vps_independent_layer_flag[i]が0に等しいとき、両端を含む0~i-1の範囲内のjの少なくとも1つの値が存在してよく、その結果、vps_direct_ref_layer_flag[i][j]の値は1に等しい。
変数NumDirectRefLayers[i]、DirectRefLayerIdx[i][d]、NumRefLayers[i]、RefLayerIdx[i][r]、及びLayerUsedAsRefLayerFlag[j]は、以下のように導出される:
Figure 0007299345000002
vps_layer_id[i]に等しいnuh_layer_idを有するレイヤのレイヤインデックスを指定する変数GeneralLayerIdx[i]は、以下のように導出される:
Figure 0007299345000003
両端を含む0~vps_max_layers_minus1の範囲内のi及びjの両方の任意の2つの異なる値について、dependencyFlag[i][j]が1に等しいとき、i番目のレイヤに適用されるchroma_format_idc及びbit_depth_minus8の値が、それぞれj番目のレイヤに適用されるchroma_format_idc及びbit_depth_minus8の値に等しくなり得ることがビットストリーム規格適合性の要件である。
1に等しいmax_tid_ref_present_flag[i]は、シンタックス要素max_tid_il_ref_pics_plus1[i]が存在することを指定する。0に等しいmax_tid_ref_present_flag[i]は、シンタックス要素max_tid_il_ref_pics_plus1[i]が存在しないことを指定する。
0に等しいmax_tid_il_ref_pics_plus1[i]は、インターレイヤ予測が、i番目のレイヤの非IRAPピクチャにより使用されないことを指定する。0より大きいmax_tid_il_ref_pics_plus1[i]は、i番目のレイヤのピクチャを復号するために、max_tid_il_ref_pics_plus1[i]-1より大きいTemporalIdを有するピクチャが、ILRPとして使用されないことを指定する。存在しないとき、max_tid_il_ref_pics_plus1[i]の値は7に等しいと推定される。
1に等しいeach_layer_is_an_ols_flagは、各OLSが1つのレイヤのみを含み、VPSを参照するCVS内の各レイヤ自体が、含まれる単一のレイヤが出力レイヤのみであるOLSであることを指定する。0に等しいeach_layer_is_an_ols_flagは、1つより多くのレイヤを含んでよい。vps_max_layers_minus1が0に等しい場合、each_layer_is_an_ols_flagの値は1に等しいと推定される。その他の場合、vps_all_independent_layers_flagが0に等しいとき、each_layer_is_an_ols_flagの値は0に等しいと推定される。
0に等しいols_mode_idcは、VPSにより指定されるOLSの合計数がvps_max_layers_minus1+1に等しく、i番目のOLSは両端を含む0~iのレイヤインデックスを有するレイヤを含み、各OLSについて、OLS内の最上位レイヤのみが出力されることを指定する。
1に等しいols_mode_idcは、VPSにより指定されるOLSの合計数がvps_max_layers_minus1+1に等しく、i番目のOLSは両端を含む0~iのレイヤインデックスを有するレイヤを含み、各OLSについて、OLS内の全部のレイヤが出力されることを指定する。
2に等しいols_mode_idcは、VPSにより指定されるOLSの合計数が明示的にシグナリングされ、各OLSについて、出力レイヤが明示的にシグナリングされ、他のレイヤはOLSの出力レイヤの直接又は間接参照レイヤであるレイヤであることを指定する。
ols_mode_idcの値は、両端を含む0~2の範囲であってよい。値3のols_mode_idcは、ITU-T/ISO/IECによる将来の使用のために予約されている。
vps_all_independent_layers_flagが1に等しく、each_layer_is_an_ols_flagが0に等しいとき、ols_mode_idcの値は2に等しいと推定される。
num_output_layer_sets_minus1に1を加えたものは、ols_mode_idcが2に等しいとき、VPSにより指定されるOLSの合計数を指定する。
VPSにより指定されるPLSの合計数を指定する変数TotalNumOlssは、以下のように導出される:
Figure 0007299345000004
0に等しいvps_all_layers_same_num_sublayers_flagは、VPSを参照する各CVS内のレイヤが、同じ数の時間的サブレイヤを有してよいか又はそうでないかを指定する。存在しないとき、vps_all_layers_same_num_sublayers_flagの値は1に等しいと推定される。
1に等しいvps_all_independent_layers_flagは、CVS内の全部のレイヤが、インターレイヤ予測を使用しないで独立にコーディングされることを指定する。
1に等しいols_output_layer_flag[i][j]は、ols_mode_idcが2に等しいとき、vps_layer_id[j]に等しいnuh_layer_idを有するレイヤがi番目のOLSの出力レイヤであることを指定する。0に等しいols_output_layer_flag[i][j]は、ols_mode_idcが2に等しいとき、vps_layer_id[j]に等しいnuh_layer_idを有するレイヤがi番目のOLSの出力レイヤではないことを指定する。
i番目のOLS内の出力レイヤの数を指定する変数NumOutputLayersInOls[i]、i番目のOLS内のj番目のレイヤの中のサブレイヤの数を指定する変数NumSubLayersInLayerInOLS[i][j]、i番目のOLSの中のj番目の出力レイヤのnuh_layer_idを指定する変数OutputLayerIdInOls[i][j]、及び、k番目のレイヤが少なくとも1つのOLS内の出力レイヤとして使用されるかどうかを指定する変数LayerUsedAsOutputLayerFlag[k]は、以下のように導出される:
Figure 0007299345000005


Figure 0007299345000006


Figure 0007299345000007
両端を含む0~vps_max_layers_minus1の範囲のiの各値について、LayerUsedAsRefLayerFlag[i]及びLayerUsedAsOutputLayerFlag[i]の値は、両方とも0に等しくなくてよい。言い換えると、少なくとも1つのOLSの出力レイヤでも任意の他のレイヤの直接参照レイヤでもないレイヤは存在しなくてよい。
各OLSについて、出力レイヤである少なくとも1つのレイヤが存在してよい。言い換えると、両端を含む0~TotalNumOlss-1の範囲のiの任意の値について、NumOutputLayersInOls[i]の値は1以上であってよい。
i番目のOLS内のレイヤの数を指定する変数NumLayersInOls[i]、及びi番目のOLS内のj番目のレイヤのnuh_layer_id値を指定する変数LayerIdInOls[i][j]は、以下のように導出される:
Figure 0007299345000008
LayerIdInOls[i][j]に等しいnuh_layer_idequalを有するレイヤのOLSレイヤインデックスを指定する変数OlsLayerIdx[i][j]は、以下のように導出される:
Figure 0007299345000009
各OLS内の最下位レイヤは独立レイヤであってよい。言い換えると、両端を含む0~TotalNumOlss-1の範囲のiの各々について、vps_independent_layer_flag[GeneralLayerIdx[LayerIdInOls[i][0]]]の値は1に等しくてよい。
各レイヤは、VPSにより指定された少なくとも1つのOLSに含まれよい。言い換えると、両端を含む0~vps_max_layers_minus1の範囲のkについてvps_layer_id[k]のうちの1つに等しい特定の値のnuh_layer_idnuhLayerIdを有する各レイヤについて、値i及びjの少なくとも1つのペアが存在してよい。ここで、iは両端を含む0~TotalNumOlss-1の範囲にあり、jは端を含むNumLayersInOls[i]-1の範囲にあり、その結果、LayerIdInOls[i][j]の値はnuhLayerIdに等しい。
実施形態では、復号処理は、現在ピクチャCurrPicについて、以下のように動作する:
(1)PictureOutputFlagが以下のように設定される:
i)以下の条件のうちの1つ以上が真である場合、PictureOutputFlagは0に等しく設定される:
a)現在ピクチャがRASLピクチャであり、関連するIRAPピクチャのNoOutputBeforeRecoveryFlagが1に等しい。
b)gdr_enabled_flagが1に等しく、現在ピクチャが1に等しいNoOutputBeforeRecoveryFlagを有するGDRピクチャである。
d)gdr_enabled_flagが1に等しく、現在ピクチャが1に等しいNoOutputBeforeRecoveryFlagを有するGDRピクチャであり、現在ピクチャのPicOrderCntValが関連するGDRピクチャのRpPicOrderCntValより小さい。
e)sps_video_parameter_set_idが0より大きく、ols_mode_idcが0に等しく、現在AUが以下の条件の全部を満たすピクチャpicAを含む:
・PicAが1に等しいPictureOutputFlagを有する。
・PicAが現在ピクチャのものより大きいnuh_layer_idnuhLidを有する。
・PicAがOLSの出力レイヤに属する(つまり、OutputLayerIdInOls[TargetOlsIdx][0]がnuhLidに等しい)。
f)sps_video_parameter_set_idが0より大きく、ols_mode_idcが2に等しく、ols_output_layer_flag[TargetOlsIdx][GeneralLayerIdx[nuh_layer_id]]が0に等しい。
ii)その他の場合、PictureOutputFlagがpic_output_flagに等しく設定される。
現在ピクチャの全部のスライスが復号された後に、現在復号ピクチャは、「短期参照のために使用される」としてマークされ、RefPicList[0]又はRefPicList[1]内の各ILRPエントリは、「短期参照のために使用される」としてマークされる。
幾つかの又は別の実施形態では、各レイヤが出力レイヤセットであるとき、valueofols_mode_idcの値に拘わらず、PictureOutputFlagはpic_output_flagに等しく設定される。
同じ又は別の実施形態では、sps_video_parameter_set_idが0より大きく、each_layer_is_an_ols_flagが0に等しく、ols_mode_idcが0に等しく、及び現在AUが以下の条件の全部を満たすピクチャpicAを含むとき、PictureOutputFlagは0に等しく設定される:PicAが1に等しいPictureOutputFlagを有し、PicAが現在ピクチャのものより大きいnuh_layer_idnuhLidを有し、PicAがOLSの出力レイヤに属する(つまり、OutputLayerIdInOls[TargetOlsIdx][0]がnuhLidに等しい)。
同じ又は別の実施形態では、sps_video_parameter_set_idが0より大きく、each_layer_is_an_ols_flagが0に等しく、ols_mode_idcが2に等しく、及びols_output_layer_flag[TargetOlsIdx][GeneralLayerIdx[nuh_layer_id]]が0に等しいとき、PictureOutputFlagは0に等しく設定される。
図23は、実施形態による、出力レイヤセットモード指示子を有する出力レイヤセットを示すシンタックステーブルの例を示す。
図24は、本開示の実施態様による、ビットストリームの復号処理のブロック図を示す。特に、図24は、実施態様による、出力レイヤセットモードを有する出力レイヤセットを示すデコーダ側フローチャートを示す。
本開示の態様によると、復号の方法は、圧縮ビデオ/画像データを含むビットストリームを受信するステップを含んでよい(図24の動作1001)。ビットストリームは複数のレイヤを有してよい。
復号の方法は、ビットストリームから、ビデオパラメータセット(video parameter set (VPS))内の出力レイヤセットモード指示子(例えば、ols_mode_idc)をパースし又は導出する動作1002を更に含んでよい。
復号の方法は、出力レイヤセットモード指示子に基づく、出力レイヤセットシグナリングを識別する動作1003を更に含んでよい。
復号の方法は、識別された出力レイヤセットシグナリングに基づき1つ以上のピクチャ出力レイヤを識別する動作1004(例えば、動作1004A、1004B、又は1004C)を更に含んでよい。
復号の方法は、識別された1つ以上のピクチャ出力レイヤを復号する動作1005を更に含んでよい。復号された1つ以上のピクチャ出力レイヤが表示されてよい。
出力レイヤセットモード指示子に基づき、出力レイヤセットグナリングを識別するステップは、VPS内の出力レイヤセットモード指示子が第1値の場合に、ビットストリーム内の最高レイヤを1つ以上のピクチャ出力レイヤとして識別するステップと(例えば図25Aを参照)、VPS内の出力レイヤセットモード指示子が第2値の場合に、ビットストリーム内の全部のレイヤを1つ以上のピクチャ出力レイヤとして識別するステップと(例えば図25Bを参照)、VPS内の出力レイヤセットモード指示子が第3値の場合に、VPS内の明示的シグナリングに基づき1つ以上のピクチャ出力レイヤを識別するステップと(例えば図25Cを参照)、を含んでよい。
図25A~25Cは、出力ピクチャを下線を付して示す。図25A~25Cに示すように、ビットストリーム内に5個のレイヤがあってよく、特定のレイヤのみがディスプレイに出力される。例えば、レイヤ3が出力され得る(例えば図25Cを参照)。
実施形態によると、VPS内のOls_mode_idcは、出力レイヤセットをシグナリングする方法(メカニズム)を示してよい。例えば、0に等しい場合、ビットストリーム内の最高レイヤが唯一の出力レイヤであってよく、1に等しい場合、ビットストリーム内の全部のレイヤが出力レイヤであってよく、2に等しい場合、1つ以上の出力レイヤがVPS内で明示的にシグナリングされてよい。つまり、ピクチャ出力は、出力レイヤセットシグナリングにより決定されてよい。
例えば、各レイヤのピクチャ出力は、出力レイヤセットシグナリングにより決定されてよく、出力レイヤシグナリングの方法はols_mode_idcにより決定されてよい。
実施形態によると、各ビットストリームは、出力レイヤモードをシグナリングしてよく、出力レイヤモードは時間により変化し得る。
実施形態によると、図25Aに示すように、ビットストリーム内に5個のレイヤ(レイヤ4~レイヤ0)が存在してよい。図25Aに示すように、時間=Kで、出力レイヤセットモード指示子(ols_mode_idc)=0であり、最高レイヤが出力されてよい。従って、図25Aに示すように、時間=Kで、レイヤ4の出力ピクチャが出力される。時間=K+1で、最高レイヤであるレイヤ3が出力されよい、等であり、K+2及びK+3も同様である。
図25Bに示すように、出力レイヤセットモード指示子(ols_mode_idc)が1に等しく、K~K+3の各々におけるように、全部のレイヤが出力されてよい。
図25Cに示すように、明示的シグナリングが実行されてよい。例えば、図25Cに示すように、ピクチャレイヤ3(下線により出力として示される)は、例えばK~K+2の時間の間の出力レイヤである。
第1値は第2値と異なってよく、第3値と異なってよく、第2値は第3値と異なってよい。
第1値は0であってよく、第2値は1であってよく、第3値は2であってよい。しかしながら、他の値が使用されてよく、本開示は上述のような0、1、2の使用に限定されない。
VPS内の明示的シグナリングにより1つ以上のピクチャ出力レイヤを識別するステップは、以下:(i)VPSから、出力レイヤフラグをパース又は導出するステップと、(ii)1に等しい出力レイヤフラグを有するレイヤを1つ以上のピクチャ出力レイヤに設定するステップと、を含んでよい。
出力レイヤセットモード指示子に基づき出力レイヤセットモードシグナリングを識別するステップは、VPS内の出力レイヤセットモード指示子が所定値である場合に、出力レイヤセットモードシグナリングは、VPS内の明示的シグナリングに基づき1つ以上のピクチャ出力レイヤを識別するステップを含んでよい。
VPS内の明示的シグナリングに基づき1つ以上のピクチャ出力レイヤを識別するステップは、(i)VPSから、出力レイヤフラグをパース又は導出するステップと、(ii)1に等しい出力レイヤフラグを有するレイヤを1つ以上のピクチャ出力レイヤに設定するステップと、を含み、複数のレイヤの数は2より大きい。
出力レイヤセットモードシグナリングは、出力レイヤセットモード指示子が2に等しく、複数のレイヤの数が2より大きいとき、VPS内の前記明示的シグナリングに基づき、1つ以上のピクチャ出力レイヤを識別するステップを含んでよい。
出力レイヤセットモードシグナリングは、出力レイヤセットモード指示子が2より小さく、複数のレイヤの数が2であるとき、ビットストリーム内の最高レイヤ又はビットストリーム内の全部のレイヤを、1つ以上のピクチャ出力レイヤとして識別するステップを含んでよく、出力レイヤセットモード指示子は実際に2より小さく、複数のレイヤの数は実際に2である。
VPS内の出力レイヤセット数-1指示子は、出力レイヤの数を示す。
実施形態によると、前記VPS内のVPS最大レイヤ-1指示子は、前記ビットストリーム内のレイヤ数を示す。
実施形態によると、VPS内の出力レイヤセットモードフラグ[i][j]は、i番目の出力レイヤセットのj番目のレイヤが出力レイヤであるか否かを示す。
実施形態によると、複数のレイヤが独立レイヤであり、VPSのVPS全独立レイヤフラグが1に等しい場合、出力レイヤセットモード指示子はシグナリングされず、出力レイヤセットモード指示子の値は第2値であると推定される。
実施形態によると、各レイヤが出力レイヤセットである場合、出力レイヤセットモード指示子の値に拘わらず、VPSのピクチャ出力フラグはピクチャヘッダ内でシグナリングされたピクチャ出力フラグと等しく設定される。
注:出力レイヤ内のピクチャは、1に等しいPictureOutputFlagを有してよく又は有しなくてよい。非出力レイヤ内のピクチャは、0に等しいPictureOutputFlagを有する。1に等しいPictureOutputFlagを有するピクチャは、表示のために出力される。0に等しいPictureOutputFlagを有するピクチャは、表示のために出力されない。
実施形態によると、シーケンスパラメータセット(SPS)VSP識別子が0より大きく、1より多くのレイヤが前記ビットストリーム内に存在することを示すとき、ピクチャ出力フラグは0に等しく設定され、
各レイヤは前記VPSの出力レイヤセットモードフラグが0に等しく、前記ビットストリーム内の前記複数のレイヤが全部独立ではないことを示すとき、前記出力レイヤセットモード指示子は0に等しく、現在アクセスユニットは、以下:1に等しいピクチャ出力フラグを有すること、現在ピクチャのものより大きく前記出力レイヤセットの前記出力レイヤに属するnuhレイヤ識別子を有すること、を含む条件の全部を満たすピクチャを含む。
実施形態によると、前記VPSのシーケンスパラメータセット(SPS)が0より大きいとき、前記VPSのピクチャ出力フラグは0に等しく設定され、各レイヤは出力レイヤセットフラグが0に等しく、前記出力レイヤセットモード指示子は2に等しく、前記出力レイヤセット出力レイヤフラグ[Target OLS Index][General Layer Index [nuh layer identifier]]は0に等しい。
実施形態によると、方法は、復号された1つ以上のピクチャ出力レイヤを表示するようディスプレイを制御するステップ、を更に含んでよい。
本開示の態様によると、命令を格納している非一時的コンピュータ可読記憶媒体であって、命令は、実行されると、1つ以上のプロセッサを含むシステム又は装置に、圧縮ビデオ/画像データを含むビットストリームを受信させ、ビットストリームは複数のレイヤを含み、ビットストリームから、ビデオパラメータセット(VPS)内の出力レイヤセットモード指示子をパース又は導出させ、出力レイヤセットモード指示子に基づき、出力レイヤセットモードシグナリングを識別させ、識別した出力レイヤセットモードシグナリングに基づき、1つ以上のピクチャ出力レイヤを識別させ、識別した1つ以上のピクチャ出力レイヤを復号させる、非一時的コンピュータ可読記憶媒体。
実施形態によると、命令は、1つ以上のプロセッサを含むシステム又は装置に、復号された1つ以上のピクチャ出力レイヤを表示するようディスプレイを制御させるよう更に構成される。
本開示の態様によると、機器は、コンピュータプログラムコードを記憶する少なくとも1つのメモリと、少なくとも1つのメモリにアクセスしてコンピュータプログラムコードに従い動作するよう構成される少なくとも1つのプロセッサと、を含んでよい。実施形態によると、コンピュータプログラムコードは、少なくとも1つのプロセッサに圧縮ビデオ/画像データを含むビットストリームを受信させるよう構成される受信コードであって、ビットストリームは複数のレイヤを含む、受信コードと、少なくとも1つのプロセッサに、ビットストリームから、ビデオパラメータセット(VPS)内の出力レイヤセットモード指示子をパース又は導出させるよう構成されるパース又は導出コードと、少なくとも1つのプロセッサに、出力レイヤセットモード指示子に基づき出力レイヤセットモードシグナリングを識別させるよう構成される出力レイヤシグナリング識別コードと、少なくとも1つのプロセッサに、識別された出力レイヤセットモードシグナリングに基づき、1つ以上のピクチャ出力レイヤを識別させるよう構成されるピクチャ出力レイヤ識別コードと、少なくとも1つのプロセッサに、識別された1つ以上のピクチャ出力レイヤを復号させるよう構成される復号コードと、を含んでよい。
実施形態によると、コンピュータプログラムコードは、少なくとも1つのプロセッサに、1つ以上のピクチャ出力レイヤを表示させる表示制御コードを更に含んでよい。
上述の適応解像度パラメータを復号し、表示し、及びシグナリングする技術は、コンピュータ可読命令を用いてコンピュータソフトウェアとして実装でき、1つ以上のコンピュータ可読媒体に物理的に格納できる。例えば、図7は、本開示の主題の特定の実施形態を実装するのに適するコンピュータシステム700を示す。
コンピュータソフトウェアは、アセンブリ、コンパイル、リンク等のメカニズムにより処理されて、コンピュータ中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、等により直接又はインタープリット、マイクロコード実行、等を通じて実行可能な命令を含むコードを生成し得る、任意の適切な機械コード又はコンピュータ言語を用いてコーディングできる。
命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置、等を含む種々のコンピュータ又はそのコンポーネントで実行できる。
コンピュータシステム700の図7に示すコンポーネントは、本来例示であり、本開示の実施形態を実装するコンピュータソフトウェアの使用又は機能の範囲に対するようないかなる限定も示唆しない。さらに、コンポーネントの構成も、コンピュータシステム700の例示的な実施形態に示されたコンポーネントのうちのいずれか又は組み合わせに関連する任意の依存関係又は要件を有すると解釈されるべきではない。
コンピュータシステム700は、特定のヒューマンインタフェース入力装置を含んでよい。このようなヒューマンインタフェース入力装置は、例えば感覚入力(例えば、キーストローク、スワイプ、データグラブ動作)、音声入力(例えば、音声、クラッピング)、視覚的入力(例えば、ジェスチャ)、嗅覚入力(示されない)を通じた1人以上の人間のユーザによる入力に応答してよい。ヒューマンインタフェース装置は、必ずしも人間による意識的入力に直接関連する必要のない特定の媒体、例えば音声(例えば、会話、音楽、環境音)、画像(例えば、スキャンされた画像、デジタルカメラから取得された写真画像)、ビデオ(例えば、2次元ビデオ、3次元ビデオ、立体ビデオを含む)をキャプチャするためにも使用できる。
入力ヒューマンインタフェース装置は、キーボード701、マウス702、トラックパッド703、タッチスクリーン710、データグラブ704、ジョイスティック705、マイクロフォン706、スキャナ707、カメラ708、のうちの1つ以上を含んでよい(そのうちの1つのみが示される)。
コンピュータシステム700は、特定のヒューマンインタフェース出力装置も含んでよい。このようなヒューマンインタフェース出力装置は、例えば感覚出力、音声、光、及び匂い/味を通じて1人以上の人間のユーザの感覚を刺激してよい。このようなヒューマンインタフェース出力装置は、感覚出力装置を含んでよい(例えば、タッチスクリーン710、データグラブ704、又はジョイスティック705による感覚フィードバック、しかし入力装置として機能しない感覚フィードバック装置も存在し得る)、音声出力装置(例えば、スピーカ709、ヘッドフォン(図示しない)、視覚的出力装置(例えば、スクリーン710、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含み、それぞれタッチスクリーン入力能力を有し又は有さず、それぞれ感覚フィードバック能力を有し又は有さず、これらのうちの幾つかは例えば立体出力、仮想現実眼鏡(図示しない)、ホログラフィックディスプレイ、及び発煙剤タンク(図示しない)、及びプリンタ(図示しない)のような手段を通じて2次元視覚出力又は3次元以上の出力を出力可能であってよい))。
コンピュータシステム700は、人間のアクセス可能な記憶装置、及び、例えばCD/DVD等の媒体721を備えるCD/DVDROM/RW720のような光学媒体、サムドライブ722、取り外し可能ハードドライブ又は個体状態ドライブ723、テープ及びフロッピディスク(図示しない)のようなレガシー磁気媒体、セキュリティドングル(図示しない)等のような専用ROM/ASIC/PLDに基づく装置のような関連する媒体も含み得る。
当業者は、本開示の主題と関連して使用される用語「コンピュータ可読媒体」が伝送媒体、搬送波、又は他の一時的信号を包含しないことも理解すべきである。
コンピュータシステム700は、1つ以上の通信ネットワークへのインタフェースも含み得る。ネットワークは、例えば無線、有線、光であり得る。ネットワークへは、更に、ローカル、広域、都市域、車両及び産業、リアルタイム、耐遅延性、等であり得る。ネットワークの例は、イーサネットのようなローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTE等を含むセルラネットワーク、ケーブルTV、衛星TV、地上波放送TVを含むTV有線又は無線広域デジタルネットワーク、CANBusを含む車両及び産業、等を含む。特定のネットワークは、一般に、特定の汎用データポート又は周辺機器バス(749)(例えば、コンピュータシステム700のUSBポート)に取り付けられる外部ネットワークインタフェースを必要とする。他のものは、一般に、後述するようなシステムバスへの取り付けによりコンピュータシステム700のコアに統合される(例えば、イーサネットインタフェースをPCコンピュータシステムへ、又はセルラネットワークインタフェースをスマートフォンコンピュータシステムへ)。これらのネットワークを用いて、コンピュータシステム700は、他のエンティティと通信できる。このような通信は、単方向受信のみ(例えば、放送TV)、単方向送信のみ(例えば、特定のCANBus装置へのCANBus)、又は例えばローカル又は広域デジタルネットワークを用いて他のコンピュータシステムへの双方向であり得る。特定のプロトコル及びプロトコルスタックが、上述のネットワーク及びネットワークインタフェースの各々で使用され得る。
前述のヒューマンインタフェース装置、人間のアクセス可能な記憶装置、及びネットワークインタフェースは、コンピュータシステム700のコア740に取り付け可能である。
コア740は、1つ以上の中央処理ユニット(CPU)741、グラフィック処理ユニット(GPU)742、FPGAの形式の専用プログラマブル処理ユニット743、特定タスクのためのハードウェアアクセラレータ744、等を含み得る。これらの装置は、読み出し専用メモリ(ROM)745、ランダムアクセスメモリ746、内部のユーザアクセス不可能なハードドライブ、SSD、等のような内蔵大容量記憶装置747と共に、システムバス748を通じて接続されてよい。幾つかのコンピュータシステムでは、追加CPU、GPU、等による拡張を可能にするために、システムバス748は、1つ以上の物理プラグの形式でアクセス可能である。周辺機器は、コアのシステムバス748に直接に、又は周辺機器バス749を通じて、取り付け可能である。周辺機器バスのアーキテクチャは、PCI、USB、等を含む。
CPU741、GPU742、FPGA743、及びアクセラレータ744は、結合されて前述のコンピュータコードを生成可能な特定の命令を実行できる。該コンピュータコードは、ROM745又はRAM746に格納できる。一時的データもRAM746に格納でき、一方で、永久的データは例えば内蔵大容量記憶装置747に格納できる。メモリ装置のうちのいずれかへの高速記憶及び読み出しは1つ以上のCPU741、GPU742、大容量記憶装置747、ROM745、RAM746等に密接に関連付けられ得るキャッシュメモリの使用を通じて可能にできる。
コンピュータ可読媒体は、種々のコンピュータにより実施される動作を実行するためのコンピュータコードを有し得る。媒体及びコンピュータコードは、本開示の目的のために特別に設計され構成されたものであり得、又は、コンピュータソフトウェア分野の当業者によく知られ利用可能な種類のものであり得る。
例として及び限定ではなく、アーキテクチャを有するコンピュータシステム700、及び具体的にはコア740は、プロセッサ(CPU、GPU、FPGA、アクセラレータ、等を含む)が1つ以上の有形コンピュータ可読媒体内に具現化されたソフトウェアを実行した結果として、機能を提供できる。このようなコンピュータ可読媒体は、コア内蔵大容量記憶装置747又はROM745のような非一時的特性のコア740の特定の記憶装置、及び上述のようなユーザアクセス可能な大容量記憶装置と関連付けられた媒体であり得る。本開示の種々の実施形態を実装するソフトウェアは、このような装置に格納されコア740により実行できる。コンピュータ可読媒体は、特定の必要に従い、1つ以上のメモリ装置又はチップを含み得る。ソフトウェアは、コア740及び具体的にはその中のプロセッサ(CPU、GPU、FPGA、等を含む)に、ソフトウェアにより定義された処理に従うRAM746に格納されたデータ構造の定義及び該データ構造の変更を含む、ここに記載した特定の処理又は特定の処理の特定の部分を実行させることができる。追加又は代替として、コンピュータシステムは、ここに記載の特定の処理又は特定の処理の特定の部分を実行するためにソフトウェアと一緒に又はそれに代わって動作可能な論理ハードワイヤド又は他の回路内の実装(例えば、アクセラレータ744)の結果として機能を提供できる。ソフトウェアへの言及は、ロジックを含み、適切な場合にはその逆も同様である。コンピュータ可読媒体への言及は、適切な場合には、実行のためにソフトウェアを格納する(集積回路(IC)のような)回路、実行のためにロジックを実装する回路、又はそれらの両方を含み得る。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを含む。
本開示は、幾つかの例示的な実施形態を記載したが、代替、置換、及び種々の代用の均等物が存在し、それらは本開示の範囲に包含される。当業者に明らかなことに、ここに明示的に示され又は説明されないが、本開示の原理を実施し、したがって、本開示の精神及び範囲に含まれる多数のシステム及び方法を考案可能である。

Claims (18)

  1. デコーダにより実行される復号方法であって、前記方法は、
    圧縮ビデオ/画像データを含むビットストリームを受信するステップであって、前記ビットストリームは複数のレイヤを含む、ステップと、
    前記ビットストリームから、ビデオパラメータセット(VPS)内の出力レイヤセットモード指示子をパース又は導出するステップであって、前記出力レイヤセットモード指示子は時間により変化する、ステップと、
    前記出力レイヤセットモード指示子に基づき、出力レイヤセットグナリングを識別するステップと、
    前記識別した出力レイヤセットグナリングに基づき、1つ以上のピクチャ出力レイヤを識別するステップであって、前記出力レイヤセットモード指示子が2より小さく、前記複数のレイヤの数が2であるとき、前記ビットストリーム内の最高レイヤ又は前記ビットストリーム内の全部のレイヤを、前記1つ以上のピクチャ出力レイヤとして識別する、ステップと、
    前記識別した1つ以上のピクチャ出力レイヤを復号するステップと、
    を含む方法。
  2. 前記出力レイヤセットモード指示子に基づき、前記出力レイヤセットシグナリングを識別する前記ステップは、
    前記VPS内の前記出力レイヤセットモード指示子が第1値の場合に、前記ビットストリーム内の最高レイヤを前記1つ以上のピクチャ出力レイヤとして識別するステップと、
    前記VPS内の前記出力レイヤセットモード指示子が第2値の場合に、前記ビットストリーム内の全部のレイヤを前記1つ以上のピクチャ出力レイヤとして識別するステップと、
    前記VPS内の前記出力レイヤセットモード指示子が第3値の場合に、前記VPS内の明示的シグナリングに基づき前記1つ以上のピクチャ出力レイヤを識別するステップと、
    を含み、
    前記第1値は、前記第2値と異なり、及び前記第3値と異なり、
    前記第2値は、前記第3値と異なる、請求項1に記載の方法。
  3. 前記第1値は0であり、前記第2値は1であり、前記第3値は2である、請求項2に記載の方法。
  4. 前記VPS内の前記明示的シグナリングに基づき前記1つ以上のピクチャ出力レイヤを識別する前記ステップは、(i)前記VPSから、出力レイヤフラグをパース又は導出するステップと、(ii)1に等しい前記出力レイヤフラグを有するレイヤを前記1つ以上のピクチャ出力レイヤに設定するステップと、を含む、請求項2又は3に記載の方法。
  5. 前記出力レイヤセットモード指示子に基づき前記出力レイヤセットグナリングを識別する前記ステップは、
    前記VPS内の前記出力レイヤセットモード指示子が所定値である場合に、前記出力レイヤセットグナリングは、前記VPS内の明示的シグナリングに基づき、前記1つ以上のピクチャ出力レイヤを識別するステップを含む、請求項1~4のいずれか一項に記載の方法。
  6. 前記VPS内の前記明示的シグナリングに基づき前記1つ以上のピクチャ出力レイヤを識別する前記ステップは、(i)前記VPSから、出力レイヤフラグをパース又は導出するステップと、(ii)1に等しい前記出力レイヤフラグを有するレイヤを前記1つ以上のピクチャ出力レイヤに設定するステップと、を含み、前記複数のレイヤの数は2より大きい、請求項5に記載の方法。
  7. 前記出力レイヤセットグナリングは、前記出力レイヤセットモード指示子が2に等しく、前記複数のレイヤの数が2より大きいとき、前記VPS内の前記明示的シグナリングに基づき、前記1つ以上のピクチャ出力レイヤを識別するステップを含む、請求項5又は6に記載の方法。
  8. 前記VPS内の出力レイヤセット数-1指示子は、出力レイヤの数を示す、請求項1~のいずれか一項に記載の方法。
  9. 前記VPS内のVPS最大レイヤ-1指示子は、前記ビットストリーム内のレイヤ数を示す、請求項1~のいずれか一項に記載の方法。
  10. VPS内の出力レイヤセットモードフラグ[i][j]は、i番目の出力レイヤセットのj番目のレイヤが出力レイヤであるか否かを示す、請求項1~のいずれか一項に記載の方法。
  11. 前記ビットストリーム内の前記複数のレイヤは、別のレイヤに対するパース及び復号依存性を有しない独立レイヤであり、前記VPSのVPS全独立レイヤフラグが1に等しい場合、前記出力レイヤセットモード指示子はシグナリングされず、前記出力レイヤセットモード指示子の値は前記第2値であると推定される、請求項2~4のいずれか一項に記載の方法。
  12. 各レイヤが出力レイヤセットである場合、前記出力レイヤセットモード指示子の値に拘わらず、前記各レイヤに含まれるピクチャ出力フラグはピクチャヘッダ内でシグナリングされたピクチャ出力フラグと等しく設定される、請求項1~11のいずれか一項に記載の方法。
  13. 前記複数のレイヤの各々は、前記ビットストリームにより表されるピクチャに含まれる複数のサブピクチャの各々に対応する、請求項2~12のいずれかに記載の方法。
  14. 各出力レイヤセットの各レイヤに属するサブピクチャ識別子を示すシンタックス要素sub_pic_id_layer[i][j][k]が、VPS内でシグナリングされ、前記シンタックス要素sub_pic_id_layer[i][j][k]は、i番目の出力レイヤセットのj番目のレイヤ内に存在するk番目のサブピクチャを示す、請求項2~13のいずれかに記載の方法。
  15. 前記復号された1つ以上のピクチャ出力レイヤを表示するようディスプレイを制御するステップ、を更に含む請求項1~14のいずれか一項に記載の方法。
  16. 機器に請求項1~15のいずれか一項に記載の方法を実行させるコンピュータプログラム。
  17. 機器であって、
    コンピュータプログラムコードを格納するよう構成される少なくとも1つのメモリと、
    前記少なくとも1つのメモリにアクセスし、前記コンピュータプログラムコードに従い動作するよう構成される少なくとも1つのプロセッサと、
    を含み、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサにより実行されると、前記機器に請求項1~15のいずれか一項に記載の方法を実行させる、機器。
  18. エンコーダにより実行される符号化方法であって、前記方法は、
    圧縮ビデオ/画像データを含むビットストリームを符号化するステップであって、前記ビットストリームは複数のレイヤを含む、ステップと、
    符号化された前記ビットストリームから、ビデオパラメータセット(VPS)内の出力レイヤセットモード指示子をパース又は導出するステップであって、前記出力レイヤセットモード指示子は時間により変化する、ステップと、
    前記出力レイヤセットモード指示子に基づき、出力レイヤセットグナリングを識別するステップと、
    前記識別した出力レイヤセットグナリングに基づき、1つ以上のピクチャ出力レイヤを識別するステップであって、前記出力レイヤセットモード指示子が2より小さく、前記複数のレイヤの数が2であるとき、前記ビットストリーム内の最高レイヤ又は前記ビットストリーム内の全部のレイヤを、前記1つ以上のピクチャ出力レイヤとして識別する、ステップと、
    前記識別した1つ以上のピクチャ出力レイヤを復号するステップと、
    を含む方法。
JP2021562788A 2020-03-27 2020-11-09 マルチレイヤビデオストリームにおける出力レイヤセットモードのための方法 Active JP7299345B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023098552A JP2023107990A (ja) 2020-03-27 2023-06-15 マルチレイヤビデオストリームにおける出力レイヤセットモードのための方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063001045P 2020-03-27 2020-03-27
US63/001,045 2020-03-27
US17/000,018 US11228776B1 (en) 2020-03-27 2020-08-21 Method for output layer set mode in multilayered video stream
US17/000,018 2020-08-21
PCT/US2020/059702 WO2021194558A1 (en) 2020-03-27 2020-11-09 Method for output layer set mode in multilayered video stream

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023098552A Division JP2023107990A (ja) 2020-03-27 2023-06-15 マルチレイヤビデオストリームにおける出力レイヤセットモードのための方法

Publications (2)

Publication Number Publication Date
JP2022529802A JP2022529802A (ja) 2022-06-24
JP7299345B2 true JP7299345B2 (ja) 2023-06-27

Family

ID=77892477

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021562788A Active JP7299345B2 (ja) 2020-03-27 2020-11-09 マルチレイヤビデオストリームにおける出力レイヤセットモードのための方法
JP2023098552A Pending JP2023107990A (ja) 2020-03-27 2023-06-15 マルチレイヤビデオストリームにおける出力レイヤセットモードのための方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023098552A Pending JP2023107990A (ja) 2020-03-27 2023-06-15 マルチレイヤビデオストリームにおける出力レイヤセットモードのための方法

Country Status (9)

Country Link
US (3) US11228776B1 (ja)
EP (1) EP3977624A4 (ja)
JP (2) JP7299345B2 (ja)
KR (1) KR20210142737A (ja)
CN (1) CN114586364A (ja)
AU (2) AU2020437690B2 (ja)
CA (1) CA3137353A1 (ja)
SG (1) SG11202111529VA (ja)
WO (1) WO2021194558A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116828176A (zh) * 2019-06-11 2023-09-29 Lg电子株式会社 解码设备、编码设备和发送设备
WO2021049582A1 (ja) * 2019-09-11 2021-03-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法、および復号方法
US11109069B2 (en) * 2019-09-20 2021-08-31 Tencent America LLC Signaling of scalability parameters in video bitstream
US11818398B2 (en) * 2020-05-06 2023-11-14 Sharp Kabushiki Kaisha Systems and methods for signaling video parameter information in video coding
US11451789B2 (en) * 2020-05-20 2022-09-20 Sharp Kabushiki Kaisha Systems and methods for signaling buffering period information in video coding
US11758195B2 (en) 2020-09-17 2023-09-12 Lemon Inc. Dependency information signaling in coded video

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100679035B1 (ko) * 2005-01-04 2007-02-06 삼성전자주식회사 인트라 bl 모드를 고려한 디블록 필터링 방법, 및 상기방법을 이용하는 다 계층 비디오 인코더/디코더
EP2642755B1 (en) * 2012-03-20 2018-01-03 Dolby Laboratories Licensing Corporation Complexity scalable multilayer video coding
US9936196B2 (en) 2012-10-30 2018-04-03 Qualcomm Incorporated Target output layers in video coding
EP3457700A1 (en) 2013-04-07 2019-03-20 Dolby International AB Signaling coded picture buffer removal delay
US20140307803A1 (en) * 2013-04-08 2014-10-16 Qualcomm Incorporated Non-entropy encoded layer dependency information
US10187662B2 (en) 2013-10-13 2019-01-22 Sharp Kabushiki Kaisha Signaling parameters in video parameter set extension and decoder picture buffer operation
US10284858B2 (en) * 2013-10-15 2019-05-07 Qualcomm Incorporated Support of multi-mode extraction for multi-layer video codecs
WO2015137237A1 (ja) * 2014-03-14 2015-09-17 シャープ株式会社 画像復号装置
US10390087B2 (en) * 2014-05-01 2019-08-20 Qualcomm Incorporated Hypothetical reference decoder parameters for partitioning schemes in video coding
AU2020319903A1 (en) * 2019-10-07 2022-05-19 Huawei Technologies Co., Ltd. Avoidance of redundant signaling in multi-layer video bitstreams
US11546623B2 (en) * 2020-03-10 2023-01-03 Qualcomm Incorporated Coded video sequence start access unit in video coding
CA3136556A1 (en) * 2020-06-10 2021-12-10 Tencent America LLC Techniques for bitstream extraction for subpicture in coded video stream

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Benjamin Bross, Jianle Chen, Shan Liu, and Ye-Kui Wang,Versatile Vi deo Coding (Draft 8),Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11,JVET-Q2001 (version 15),17th Meeting: Brussels, BE,2020年03月12日,pp.37-39,94-99
Byeongdoo Choi, Stephan Wenger, and Shan Liu,AHG8: Output layer set and PTL signaling,Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11,JVET-P0225-v3,6th Meeting: Geneva, CH,2019年10月,pp.1-3
Sachin Deshpande,On VPS and Output Layer Set Signalling,Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11,JVET-Q0220-v1,17th Meeting: Brussels, BE,2020年01月,pp.1-8
Ye-Kui Wang,AHG8: Scalability - general and output layer sets,Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11,JVET-P0115-v2,16th Meeting: Geneva, CH,2019年10月,pp.1-6

Also Published As

Publication number Publication date
EP3977624A1 (en) 2022-04-06
US11706431B2 (en) 2023-07-18
US11228776B1 (en) 2022-01-18
CN114586364A (zh) 2022-06-03
JP2022529802A (ja) 2022-06-24
EP3977624A4 (en) 2022-09-14
SG11202111529VA (en) 2021-11-29
AU2020437690A1 (en) 2021-11-25
CA3137353A1 (en) 2021-09-30
AU2023203449A1 (en) 2023-06-29
KR20210142737A (ko) 2021-11-25
AU2020437690B2 (en) 2023-03-02
JP2023107990A (ja) 2023-08-03
US20220094959A1 (en) 2022-03-24
WO2021194558A1 (en) 2021-09-30
US20230308672A1 (en) 2023-09-28

Similar Documents

Publication Publication Date Title
JP7299345B2 (ja) マルチレイヤビデオストリームにおける出力レイヤセットモードのための方法
JP2023118794A (ja) 出力レイヤセットをサブピクチャでシグナリングするための方法
JP7297919B2 (ja) 符号化ビデオストリームにおける適応パラメータセット参照および制約のための方法
JP7358508B2 (ja) マルチレイヤビデオストリームのレイヤセット出力のための方法
JP7447147B2 (ja) 符号化ビデオ・ストリームにおけるサブ画像のビットストリーム抽出のための技術
JP7223169B2 (ja) 符号化ビデオストリームにおけるレイヤ間のアライメントのための方法、コンピュータシステム、及びコンピュータプログラム
JP2024023661A (ja) コーディングビデオシーケンスを復号/符号化する方法、装置、コンピュータプログラム
JP2022526439A (ja) 複数のレイヤにパーティション化されたビデオデータを含むコーディングされたビデオストリームをデコードする方法、システム、及びコンピュータプログラム
JP2023065565A (ja) 符号化映像ストリームを復号する方法、装置、及びコンピュータプログラム
JP7322178B2 (ja) マルチレイヤ化映像ストリームにおけるサブレイヤ番号の指示のための方法、装置、及びコンピュータプログラム
RU2787579C1 (ru) Указание точки произвольного доступа и вывод изображения в кодированном видеопотоке
JP7297929B2 (ja) 符号化映像ストリームにおける長方形スライス分割を信号送信する方法、コンピュータシステム、およびコンピュータプログラム
RU2803890C1 (ru) Способ выравнивания по слоям в кодированном видеопотоке
RU2809562C1 (ru) Способ выведения на основе набора выходных слоев по субслою
RU2804274C1 (ru) Способ вывода изображения с набором выходных слоев
JP7280973B2 (ja) ビデオデータをコーディングする方法、コンピュータシステム、及びコンピュータプログラム
JP2022537244A (ja) 符号化されたビデオストリームを復号するための方法、装置およびコンピュータプログラム
JP2023129535A (ja) ビデオデータをコーディングするための方法、装置、およびコンピュータプログラム
JP2024074922A (ja) ビデオコーディングのための方法、装置及びコンピュータプログラム
JPWO2021202001A5 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230201

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230615

R150 Certificate of patent or registration of utility model

Ref document number: 7299345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150