JP7322170B2

JP7322170B2 - 混合されたｎａｌユニットタイプを有するピクチャ

Info

Publication number: JP7322170B2
Application number: JP2021555264A
Authority: JP
Inventors: イェ－クイ・ワン; フヌ・ヘンドリー
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2019-03-11
Filing date: 2020-03-11
Publication date: 2023-08-07
Anticipated expiration: 2040-03-11
Also published as: CN114007071A; HUE063045T2; US20210409780A1; EP3925213B9; CA3133079C; JP2022525329A; CN114007072B; CN115022640B; HUE065459T2; DK3925213T3; ES2965445T3; KR20210132195A; CN113615170B; MX2021011048A; CN115442595A; EP3925213A4; EP4307680A3; CN115022640A; EP4246980A3; EP3925213B1

Description

関連出願の相互参照
本特許出願は、Ye-Kui Wangらによって2019年3月11日に出願された、「Support Of Mixed NAL Unit Types Within One Picture In Video Coding」と題する米国仮特許出願第62/816,749号と、Ye-Kui Wangらによって2019年4月10日に出願された、「Support Of Mixed NAL Unit Types Within One Picture In Video Coding」と題する米国仮特許出願第62/832,132号との利益を主張するものであり、これらの仮特許出願は、参照により本明細書に組み込まれる。

本開示は、概して、ビデオコーディングに関し、特に、ビデオコーディングにおいてピクチャのサブピクチャをコーディングすることに関する。

比較的短いビデオでさえも描くために必要とされるビデオデータの量はかなり多くなり得、それが、データが限られた帯域幅の容量を有する通信ネットワークを介してストリーミングされるかまたはそれ以外の方法で伝達されるべきであるときに困難をもたらしてもよい。したがって、ビデオデータは、概して、現代の通信ネットワークを介して伝達される前に圧縮される。メモリリソースが限られている可能性があるので、ビデオがストレージデバイスに記憶されるとき、ビデオのサイズも問題となる可能性がある。多くの場合、ビデオ圧縮デバイスは、送信または記憶の前にビデオデータをコーディングするために送信元においてソフトウェアおよび/またはハードウェアを使用し、それによって、デジタルビデオ画像を表現するために必要とされるデータの量を削減する。次いで、圧縮されたデータが、ビデオデータを復号するビデオ解凍デバイスによって送信先において受信される。限られたネットワークリソースおよびより高いビデオ品質のますます増加する需要によって、画像品質をほとんどまたはまったく犠牲にせずに圧縮比を高める改善された圧縮および解凍技術が、望ましい。

実施形態において、本開示は、デコーダにおいて実施される方法であって、ピクチャに関連する複数のサブピクチャおよびフラグを含むビットストリームをデコーダの受信機によって受信するステップであって、サブピクチャが、ビデオコーディングレイヤ(VCL: video coding layer)ネットワーク抽象化レイヤ(NAL: network abstraction layer)ユニットに含まれる、ステップと、フラグが第1の値に設定されているとき、第1のNALユニットタイプの値がピクチャに関連するVCL NALユニットのすべてに関して同じであるとプロセッサによって判定するステップと、フラグが第2の値に設定されているとき、ピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第1のNALユニットタイプの値がピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第2のNALユニットタイプの値と異なるプロセッサによって判定するステップと、第1のNALユニットタイプの値または第2のNALユニットタイプの値に基づいてサブピクチャのうちの1つ以上をプロセッサによって復号するステップとを含む、方法を含む。

ピクチャが、複数のサブピクチャに区分けされ得る。そのようなサブピクチャは、別々のサブビットストリームにコーディングされることが可能であり、次いで、それらのサブビットストリームは、デコーダに送信するためのビットストリームに合併され得る。たとえば、サブピクチャは、仮想現実(VR)アプリケーションのために使用されてもよい。特定の例において、ユーザは、常にVRピクチャの一部のみを見てもよい。したがって、表示される可能性が高いサブピクチャにより多くの帯域幅が割り振られることが可能であり、表示される可能性が低いサブピクチャがコーディング効率を高めるために圧縮されることが可能であるように、異なるサブピクチャが異なる解像度で送信されてもよい。さらに、ビデオストリームは、イントラランダムアクセスポイント(IRAP: intra-random access point)ピクチャを使用することによって符号化されてもよい。IRAPピクチャは、イントラ予測によってコーディングされ、その他のピクチャの参照なしに復号されることが可能である。非IRAPピクチャは、インター予測によってコーディングされてもよく、その他のピクチャを参照することによって復号され得る。非IRAPピクチャは、IRAPピクチャよりも大幅に凝縮される。しかし、IRAPピクチャがその他のピクチャを参照することなく復号されるのに十分なだけのデータを含むので、ビデオシーケンスは、IRAPピクチャから復号を開始しなければならない。IRAPピクチャは、サブピクチャ内で使用されることが可能であり、動的な解像度の変更を可能にし得る。したがって、ビデオシステムは、(たとえば、ユーザの現在のビューポートに基づいて)見られる可能性がより高いサブピクチャに関してより多くのIRAPピクチャを送信し、コーディング効率をさらに高めるために、見られる可能性の低いサブピクチャに関してより少ないIRAPピクチャを送信してもよい。しかし、サブピクチャは、同じピクチャの一部である。したがって、この方式は、IRAPサブピクチャと非IRAPサブピクチャとの両方を含むピクチャをもたらしてもよい。一部のビデオシステムは、IRAP領域と非IRAP領域との両方を有する混合ピクチャを扱う備えがない。本開示は、ピクチャが混合であり、したがって、IRAP構成要素と非IRAP構成要素との両方を含むかどうかを示すフラグを含む。このフラグに基づいて、デコーダは、ピクチャ/サブピクチャを適切に復号し、表示するために、復号するときに異なるサブピクチャを異なるように処理し得る。このフラグは、PPSに記憶されてもよく、mixed_nalu_types_in_pic_flagと呼ばれてもよい。したがって、開示されるメカニズムは、追加的な機能の実装を可能にする。さらに、開示されるメカニズムは、サブピクチャのビットストリームを使用するときに動的な解像度の変更を可能にする。したがって、開示されるメカニズムは、ユーザエクスペリエンスを著しく損なうことなく、VRビデオをストリーミングするときにより低い解像度のサブピクチャのビットストリームが送信されることを可能にする。したがって、開示されるメカニズムは、コーディング効率を高め、したがって、エンコーダおよびデコーダにおけるネットワークリソース、メモリリソース、および/または処理リソースの使用を削減する。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、ビットストリームがフラグを含むピクチャパラメータセット(PPS)を含むと規定する。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、第1のNALユニットタイプの値が、ピクチャがイントラランダムアクセスポイント(IRAP)サブピクチャを含むことを示し、第2のNALユニットタイプの値が、ピクチャが非IRAPサブピクチャを含むことを示すと規定する。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、第1のNALユニットタイプの値が、ランダムアクセス復号可能リーディングピクチャ(random access decodable leading picture)を有する瞬時復号リフレッシュ(IDR: Instantaneous Decoding Refresh)(IDR_W_RADL)、リーディングピクチャを持たないIDR(IDR_N_LP)、またはクリーンランダムアクセス(CRA: clean random access)NALユニットタイプ(CRA_NUT)に等しいと規定する。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、第2のNALユニットタイプの値が、トレーリングピクチャ(trailing picture)NALユニットタイプ(TRAIL_NUT)、ランダムアクセス復号可能リーディングピクチャNALユニットタイプ(RADL_NUT)、またはランダム・アクセス・スキップ・リーディング・ピクチャ(RASL: random access skipped leading picture)NALユニットタイプ(RASL_NUT)に等しいと規定する。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、フラグがmixed_nalu_types_in_pic_flagであると規定する。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、PPSを参照するピクチャがVCL NALユニットのうちの2つ以上を有し、VCL NALユニットがNALユニットタイプ(nal_unit_type)の同じ値を持たないことを指定するとき、mixed_nalu_types_in_pic_flagが1に等しく、PPSを参照するピクチャがVCL NALユニットのうちの1つ以上を有し、VCL NALユニットがnal_unit_typeの同じ値を有することを指定するとき、mixed_nalu_types_in_pic_flagが0に等しいと規定する。

実施形態において、本開示は、エンコーダにおいて実施される方法であって、ピクチャが異なるタイプの複数のサブピクチャを含むかどうかをプロセッサによって判定するステップと、ピクチャのサブピクチャをビットストリーム内の複数のVCL NALユニットに符号化するステップと、第1のNALユニットタイプの値がピクチャに関連するすべてのVCL NALユニットに関して同じであるときに第1の値に設定され、ピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第1のNALユニットタイプの値がピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第2のNALユニットタイプの値と異なるときに第2の値に設定されたフラグをプロセッサによってビットストリームに符号化するステップと、デコーダに伝達するためのビットストリームを、プロセッサに結合されたメモリによって記憶するステップとを含む、方法を含む。

ピクチャが、複数のサブピクチャに区分けされ得る。そのようなサブピクチャは、別々のサブビットストリームにコーディングされることが可能であり、次いで、それらのサブビットストリームは、デコーダに送信するためのビットストリームに合併され得る。たとえば、サブピクチャは、仮想現実(VR)アプリケーションのために使用されてもよい。特定の例において、ユーザは、常にVRピクチャの一部のみを見てもよい。したがって、表示される可能性が高いサブピクチャにより多くの帯域幅が割り振られることが可能であり、表示される可能性が低いサブピクチャがコーディング効率を高めるために圧縮されることが可能であるように、異なるサブピクチャが異なる解像度で送信されてもよい。さらに、ビデオストリームは、イントラランダムアクセスポイント(IRAP)ピクチャを使用することによって符号化されてもよい。IRAPピクチャは、イントラ予測によってコーディングされ、その他のピクチャの参照なしに復号されることが可能である。非IRAPピクチャは、インター予測によってコーディングされてもよく、その他のピクチャを参照することによって復号され得る。非IRAPピクチャは、IRAPピクチャよりも大幅に凝縮される。しかし、IRAPピクチャがその他のピクチャを参照することなく復号されるのに十分なだけのデータを含むので、ビデオシーケンスは、IRAPピクチャから復号を開始しなければならない。IRAPピクチャは、サブピクチャ内で使用されることが可能であり、動的な解像度の変更を可能にし得る。したがって、ビデオシステムは、(たとえば、ユーザの現在のビューポートに基づいて)見られる可能性がより高いサブピクチャに関してより多くのIRAPピクチャを送信し、コーディング効率をさらに高めるために、見られる可能性の低いサブピクチャに関してより少ないIRAPピクチャを送信してもよい。しかし、サブピクチャは、同じピクチャの一部である。したがって、この方式は、IRAPサブピクチャと非IRAPサブピクチャとの両方を含むピクチャをもたらしてもよい。一部のビデオシステムは、IRAP領域と非IRAP領域との両方を有する混合ピクチャを扱う備えがない。本開示は、ピクチャが混合であり、したがって、IRAP構成要素と非IRAP構成要素との両方を含むかどうかを示すフラグを含む。このフラグに基づいて、デコーダは、ピクチャ/サブピクチャを適切に復号し、表示するために、復号するときに異なるサブピクチャを異なるように処理し得る。このフラグは、PPSに記憶されてもよく、mixed_nalu_types_in_pic_flagと呼ばれてもよい。したがって、開示されるメカニズムは、追加的な機能の実装を可能にする。さらに、開示されるメカニズムは、サブピクチャのビットストリームを使用するときに動的な解像度の変更を可能にする。したがって、開示されるメカニズムは、ユーザエクスペリエンスを著しく損なうことなく、VRビデオをストリーミングするときにより低い解像度のサブピクチャのビットストリームが送信されることを可能にする。したがって、開示されるメカニズムは、コーディング効率を高め、したがって、エンコーダおよびデコーダにおけるネットワークリソース、メモリリソース、および/または処理リソースの使用を削減する。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、PPSをビットストリームに符号化するステップであって、フラグが、PPSに符号化される、ステップをさらに含む。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、第1のNALユニットタイプの値が、ピクチャがIRAPサブピクチャを含むことを示し、第2のNALユニットタイプの値が、ピクチャが非IRAPサブピクチャを含むことを示すと規定する。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、第1のNALユニットタイプの値がIDR_W_RADL、IDR_N_LP、またはCRA_NUTに等しいと規定する。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、第2のNALユニットタイプの値がTRAIL_NUT、RADL_NUT、またはRASL_NUTに等しいと規定する。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、PPSを参照するピクチャがVCL NALユニットのうちの2つ以上を有し、VCL NALユニットがnal_unit_typeの同じ値を持たないことを指定するとき、mixed_nalu_types_in_pic_flagが1に等しく、PPSを参照するピクチャがVCL NALユニットのうちの1つ以上を有し、VCL NALユニットがnal_unit_typeの同じ値を有することを指定するとき、mixed_nalu_types_in_pic_flagが0に等しいと規定する。

実施形態において、本開示は、プロセッサと、プロセッサに結合された受信機と、プロセッサに結合されたメモリと、プロセッサに結合された送信機とを含み、プロセッサ、受信機、メモリ、および送信機が、上述の態様のいずれかの方法を実行するように構成される、ビデオコーディングデバイスを含む。

実施形態において、本開示は、ビデオコーディングデバイスによって使用するためのコンピュータプログラム製品を含む非一時的コンピュータ可読媒体であって、コンピュータプログラム製品が、プロセッサによって実行されるときにビデオコーディングデバイスに上述の態様のいずれかの方法を実行させる、非一時的コンピュータ可読媒体に記憶されたコンピュータ実行可能な命令を含む、非一時的コンピュータ可読媒体を含む。

実施形態において、本開示は、ピクチャに関連する複数のサブピクチャおよびフラグを含むビットストリームを受信するための受信手段であって、サブピクチャが、複数のVCL NALユニットに含まれる、受信手段と、判定手段であって、フラグが第1の値に設定されているとき、第1のNALユニットタイプの値がピクチャに関連するすべてのVCL NALユニットに関して同じであると判定し、フラグが第2の値に設定されているとき、ピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第1のNALユニットタイプの値がピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第2のNALユニットタイプの値と異なると判定するための、判定手段と、第1のNALユニットタイプの値または第2のNALユニットタイプの値に基づいてサブピクチャのうちの1つ以上を復号するための復号手段とを含むデコーダを含む。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、デコーダが、上述の態様のいずれかの方法を実行するようにさらに構成されると規定する。

実施形態において、本開示は、ピクチャが異なるタイプの複数のサブピクチャを含むかどうかを判定するための判定手段と、符号化手段であって、ピクチャのサブピクチャをビットストリーム内の複数のVCL NALユニットに符号化し、第1のNALユニットタイプの値がピクチャに関連するすべてのVCL NALユニットに関して同じであるときに第1の値に設定され、ピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第1のNALユニットタイプの値がピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第2のNALユニットタイプの値と異なるときに第2の値に設定されたフラグをビットストリームに符号化するための、符号化手段と、デコーダに伝達するためのビットストリームを記憶するための記憶手段とを含むエンコーダを含む。

任意選択で、上記態様のうちのいずれかにおいて、態様の別の実装は、エンコーダが、上述の態様のいずれかの方法を実行するようにさらに構成されると規定する。

明瞭にする目的で、上述の実施形態の任意の1つが、本開示の範囲内の新しい実施形態を生成するためにその他の上述の実施形態のうちの任意の1つ以上と組み合わされてもよい。

これらのおよびその他の特徴は、以下の詳細な説明を添付の図面および請求項と併せて理解することによってより明瞭に理解されるであろう。

本開示をより完全に理解するために、同様の参照番号が同様の部分を表す添付の図面および詳細な説明に関連して解釈される以下の簡単な説明がここで参照される。

ビデオ信号をコーディングする例示的な方法の流れ図である。ビデオコーディングのための例示的なコーディングおよび復号(コーデック)システムの概略図である。例示的なビデオエンコーダを示す概略図である。例示的なビデオデコーダを示す概略図である。例示的なコーディングされたビデオシーケンスを示す概略図である。仮想現実(VR)ピクチャビデオストリームから分割された複数のサブピクチャビデオストリームを示す概略図である。混合されたネットワーク抽象化レイヤ(NAL)ユニットタイプを有するピクチャを含む例示的なビットストリームを示す概略図である。例示的なビデオコーディングデバイスの概略図である。ビットストリームに混合されたNALユニットタイプを有するピクチャを含むビデオシーケンスを符号化する例示的な方法の流れ図である。ビットストリームから混合されたNALユニットタイプを有するピクチャを含むビデオシーケンスを復号する例示的な方法の流れ図である。ビットストリームに混合されたNALユニットタイプを有するピクチャを含むビデオシーケンスをコーディングする例示的なシステムの概略図である。

1つ以上の実施形態の例示的な実装が以下で与えられるが、開示されるシステムおよび/または方法は、現在知られているのかまたは存在しているのかにかかわらず任意の数の技術を使用して実装されてもよいことを最初に理解されたい。本開示は、本明細書において例示され、説明される例示的な設計および実装を含む、以下で示される例示的な実装、図面、および技術にまったく限定されるべきでなく、添付の請求項の均等物の全範囲と併せたそれらの請求項の範囲内で修正されてもよい。

以下の頭字語、コーディングされたビデオシーケンス(CVS: Coded Video Sequence)、復号ピクチャバッファ(DPB)、瞬時復号リフレッシュ(IDR)、イントラランダムアクセスポイント(IRAP)、最下位ビット(LSB)、最上位ビット(MSB)、ネットワーク抽象化レイヤ(NAL)、ピクチャ順序カウント(POC: Picture Order Count)、生バイトシーケンスペイロード(RBSP: Raw Byte Sequence Payload)、シーケンスパラメータセット(SPS)、および作業草案(WD)が、本明細書において使用される。

多くのビデオ圧縮技術が、データの最小限の損失でビデオファイルのサイズを削減するために使用され得る。たとえば、ビデオ圧縮技術は、ビデオシーケンスのデータの冗長性を減らすかまたは取り除くために空間(たとえば、イントラピクチャ)予測および時間(インターピクチャ)予測を実行することを含み得る。ブロックに基づくビデオコーディングのために、ビデオスライス(たとえば、ビデオピクチャまたはビデオピクチャの一部)が、ビデオブロックに区分けされてもよく、ビデオブロックは、ツリーブロック、コーディングツリーブロック(CTB)、コーディングツリーユニット(CTU)、コーディングユニット(CU)、および/またはコーディングノードとも呼ばれてもよい。ピクチャのイントラコーディングされる(I)スライス内のビデオブロックは、同じピクチャ内の近隣のブロック内の参照サンプルに関連する空間予測を使用してコーディングされる。ピクチャのインターコーディングされる片方向予測(P)または両方向予測(B)スライス内のビデオブロックは、同じピクチャ内の近隣のブロック内の参照サンプルに関連する空間予測またはその他の参照ピクチャ内の参照サンプルに関連する時間予測を使用することによってコーディングされてもよい。ピクチャは、フレームおよび/または画像と呼ばれてもよく、参照ピクチャは、参照フレームおよび/または参照画像と呼ばれてもよい。空間または時間予測は、画像ブロックを表す予測ブロックをもたらす。残差データは、元のブロックと予測ブロックとの間のピクセルの差を表す。したがって、インターコーディングされるブロックは、予測ブロックを形成する参照サンプルのブロックを指す動きベクトルと、コーディングされるブロックと予測ブロックとの間の差を示す残差データとによって符号化される。イントラコーディングされるブロックは、イントラコーディングモードおよび残差データによって符号化される。さらなる圧縮のために、残差データが、ピクセル領域から変換領域に変換されてもよい。これらは、残差変換係数をもたらし、残差変換係数は、量子化されてもよい。最初に、量子化された変換係数は、二次元配列に配列されてもよい。量子化された変換係数は、変換係数の一次元ベクトルを生成するためにスキャンされてもよい。エントロピーコーディングが、より一層の圧縮を実現するために適用されてもよい。そのようなビデオ圧縮技術は、下で処理詳細に検討される。

符号化されたビデオが正確に復号され得ることを保証するために、ビデオは、対応するビデオコーディング規格に従って符号化され、復号される。ビデオコーディング規格は、国際電気通信連合(ITU)標準化セクター(ITU-T)H.261、国際標準化機構/国際電気標準会議(ISO/IEC)動画専門家グループ(MPEG)-1パート2、ITU-T H.262またはISO/IEC MPEG-2パート2、ITU-T H.263、ISO/IEC MPEG-4パート2、ITU-T H.264またはISO/IEC MPEG-4パート10としても知られる、高度ビデオコーディング(AVC: Advanced Video Coding)、ITU-T H.265またはMPEG-Hパート2としても知られる高効率ビデオコーディング(HEVC)を含む。AVCは、拡張可能なビデオコーディング(SVC: Scalable Video Coding)、多視点ビデオコーディング(MVC: Multiview Video Coding)および多視点ビデオコーディングプラス深度(MVC+D: Multiview Video Coding plus Depth)、ならびに三次元(3D)AVC(3D-AVC)などの拡張を含む。HEVCは、拡張可能なHEVC(SHVC)、多視点HEVC(MV-HEVC)、および3D HEVC(3D-HEVC)などの拡張を含む。ITU-TおよびISO/IECの合同ビデオ専門家チーム(JVET: joint video experts team)は、多目的ビデオコーディング(VVC: Versatile Video Coding)と呼ばれるビデオコーディング規格の開発を開始した。VVCは、アルゴリズムの説明、VVC作業草案(WD)のエンコーダ側の説明、および参照ソフトウェアを提供するJVET-M1001-v6を含むWDに含まれる。

ビデオコーディングシステムは、IRAPピクチャおよび非IRAPピクチャを使用することによってビデオを符号化してもよい。IRAPピクチャは、ビデオシーケンスに関するランダムアクセスポイントとして働く、イントラ予測によってコーディングされるピクチャである。イントラ予測においては、ピクチャのブロックが、同じピクチャ内のその他のブロックの参照によってコーディングされる。これは、インター予測を使用する非IRAPピクチャとは対照的である。インター予測においては、現在のピクチャのブロックが、現在のピクチャとは異なる参照ピクチャ内のその他のブロックの参照によってコーディングされる。IRAPピクチャは、その他のピクチャの参照なしにコーディングされるので、最初にいかなるその他のピクチャも復号せずに復号され得る。したがって、デコーダは、任意のIRAPピクチャにおいてビデオシーケンスの復号を開始することができる。対照的に、非IRAPピクチャは、その他のピクチャを参照してコーディングされ、したがって、概して、デコーダは、非IRAPピクチャにおいてビデオシーケンスの復号を開始することができない。また、IRAPピクチャは、DPBをリフレッシュする。これは、IRAPピクチャがCVSの開始点であり、CVS内のピクチャが前のCVS内のピクチャを参照しないからである。したがって、IRAPピクチャは、さらに、インター予測に関連するコーディングエラーがIRAPピクチャを通して伝搬することができないのでそのようなエラーを止めることができる。しかし、IRAPピクチャは、データサイズの観点で非IRAPピクチャよりも著しく大きい。したがって、概して、ビデオシーケンスは、コーディング効率と機能性との釣り合いを取るために、多くの非IRAPピクチャとそれらの間に散らばったより少数のIRAPピクチャとを含む。たとえば、60フレームのCVSが、1つのIRAPピクチャと59個の非IRAPピクチャとを含んでもよい。

場合によっては、ビデオコーディングシステムは、360度ビデオとも呼ばれることがある仮想現実(VR)ビデオをコーディングするために使用されてもよい。VRビデオは、ユーザが球の中心にいるかのように表示されるビデオコンテンツの球を含んでもよい。ビューポートと呼ばれる球の一部分のみが、ユーザに対して表示される。たとえば、ユーザが、ユーザの頭の動きに基づいて球のビューポートを選択し、表示するヘッドマウントディスプレイ(HMD)を使用してもよい。これは、ビデオによって描かれた仮想空間内に物理的に存在している印象を与える。この結果を達成するために、ビデオシーケンスの各ピクチャは、対応する瞬間のビデオデータの球全体を含む。しかし、ピクチャの小さな部分(たとえば、単一のビューポート)のみが、ユーザに対して表示される。ピクチャの残りは、レンダリングされずに破棄される。ユーザの頭の動きに応じて異なるビューポートが動的に選択され、表示され得るように、概して、ピクチャ全体が送信される。この手法は、非常に大きなビデオファイルサイズにつながってもよい。

コーディング効率を改善するために、一部のシステムは、ピクチャをサブピクチャに分割する。サブピクチャは、ピクチャの定義された空間的な領域である。各サブピクチャは、ピクチャの対応するビューポートを含む。ビデオは、2つ以上の解像度で符号化され得る。各解像度は、異なるサブビットストリームに符号化される。ユーザがVRビデオをストリーミングするとき、コーディングシステムは、ユーザによって使用されている現在のビューポートに基づいて送信のためにサブビットストリームをビットストリームへと合併することができる。特に、現在のビューポートは、高解像度のサブビットストリームから得られ、見られていないビューポートは、低解像度のビットストリームから得られる。このようにして、最も高い品質のビデオが、ユーザに対して表示され、より低い品質のビデオは、破棄される。ユーザが新しいビューポートを選択する場合、より低い解像度のビデオが、ユーザに対して提示される。デコーダは、新しいビューポートがより高い解像度のビデオを受け取ることを要求し得る。次いで、エンコーダは、それに応じて合併プロセスを変更し得る。IRAPピクチャに達すると、デコーダは、新しいビューポートのより高い解像度のビデオシーケンスの復号を開始することができる。この手法は、ユーザの視聴体験に悪影響を与えることなくビデオ圧縮を大幅に向上させる。

上述の手法に対する1つの懸念は、解像度を変更するために必要とされる時間の長さがIRAPピクチャに達するまでの時間の長さに基づくことである。これは、上述のようにデコーダが非IRAPピクチャにおいて異なるビデオシーケンスの復号を開始することができないからである。そのようなレイテンシーを削減するための1つの手法は、より多くのIRAPピクチャを含めることである。しかし、これは、ファイルサイズの増大を招く。機能性とコーディング効率との釣り合いを取るために、異なるビューポート/サブピクチャは、異なる頻度でIRAPピクチャを含んでもよい。たとえば、見られる可能性がより高いビューポートが、その他のビューポートよりも多くのIRAPピクチャを有してもよい。たとえば、バスケットボールの文脈で、スタンドまたは天井を見るビューポートはユーザによって見られる可能性がより低いので、そのようなビューポートよりもバスケットおよび/またはセンターコートに関連するビューポートの方がより頻繁にIRAPピクチャを含んでもよい。

この手法は、その他の問題につながる。特に、ビューポートを含むサブピクチャは、単一のピクチャの一部である。異なるサブピクチャが異なる頻度でIRAPピクチャを有するとき、ピクチャの一部は、IRAPサブピクチャと非IRAPサブピクチャとの両方を含む。これは、ピクチャがNALユニットを使用することによってビットストリームに記憶されるので問題である。NALユニットは、ピクチャのパラメータセットまたはスライスおよび対応するスライスヘッダを含む記憶単位である。アクセスユニットは、ピクチャ全体を含む単位である。したがって、アクセスユニットは、ピクチャに関連するNALユニットのすべてを含む。NALユニットは、スライスを含むピクチャのタイプを示すタイプも含む。一部のビデオシステムにおいては、(たとえば、同じアクセスユニットに含まれる)単一のピクチャに関連するすべてのNALユニットが、同じタイプであることを求められる。したがって、NALユニットの記憶メカニズムは、ピクチャがIRAPサブピクチャと非IRAPサブピクチャとの両方を含むとき、正しく動作しなくなる可能性がある。

本明細書において開示されるのは、IRAPサブピクチャと非IRAPサブピクチャとの両方を含むピクチャをサポートするようにNALの記憶方式を調整するためのメカニズムである。これは、ひいては、異なるビューポートに関して異なるIRAPサブピクチャの頻度を含むVRビデオを可能にする。第1の例において、本明細書で開示されるのは、ピクチャが混合であるかどうかを示すフラグである。たとえば、フラグは、ピクチャがIRAPサブピクチャと非IRAPサブピクチャとの両方を含むことを示してもよい。このフラグに基づいて、デコーダは、ピクチャ/サブピクチャを適切に復号し、表示するために、復号するときに異なるタイプのサブピクチャを異なるように処理し得る。このフラグは、ピクチャパラメータセット(PPS)に記憶されてもよく、mixed_nalu_types_in_pic_flagと呼ばれてもよい。

第2の例において、本明細書で開示されるのは、ピクチャが混合であるかどうかを示すフラグである。たとえば、フラグは、ピクチャがIRAPサブピクチャと非IRAPサブピクチャとの両方を含むことを示してもよい。さらに、フラグは、混合ピクチャが1つのIRAPのタイプおよび1つの非IRAPのタイプを含む丁度2つのNALユニットタイプを含むようにピクチャを制約する。たとえば、ピクチャは、ランダムアクセス復号可能リーディングピクチャを有する瞬時復号リフレッシュ(IDR)(IDR_W_RADL)、リーディングピクチャを持たないIDR(IDR_N_LP)、またはクリーンランダムアクセス(CRA)NALユニットタイプ(CRA_NUT)のうちの1つだけを含むIRAP NALユニットを含んでもよい。さらに、ピクチャは、トレーリングピクチャNALユニットタイプ(TRAIL_NUT)、ランダムアクセス復号可能リーディングピクチャNALユニットタイプ(RADL_NUT)、またはランダム・アクセス・スキップ・リーディング・ピクチャ(RASL)NALユニットタイプ(RASL_NUT)のうちの1つだけを含む非IRAP NALユニットを含んでもよい。このフラグに基づいて、デコーダは、ピクチャ/サブピクチャを適切に復号し、表示するために、復号するときに異なるサブピクチャを異なるように処理し得る。このフラグは、PPSに記憶されてもよく、mixed_nalu_types_in_pic_flagと呼ばれてもよい。

図1は、ビデオ信号をコーディングする例示的な動作方法100の流れ図である。特に、ビデオ信号は、エンコーダにおいて符号化される。符号化プロセスは、様々なメカニズムを使用してビデオファイルサイズを削減することによってビデオ信号を圧縮する。より小さなファイルサイズは、関連する帯域幅のオーバーヘッドを削減しながら、圧縮されたビデオファイルがユーザに送信されることを可能にする。次いで、デコーダは、圧縮されたビデオファイルを復号して、エンドユーザに対して表示するために元のビデオ信号を再構築する。概して、復号プロセスは、デコーダがビデオ信号を矛盾なく再構築することを可能にするために符号化プロセスを忠実にまねる。

ステップ101において、ビデオ信号が、エンコーダに入力される。たとえば、ビデオ信号は、メモリに記憶された未圧縮のビデオファイルであってもよい。別の例として、ビデオファイルは、ビデオカメラなどビデオキャプチャデバイスによってキャプチャされ、ビデオのライブストリーミングをサポートするために符号化されてもよい。ビデオファイルは、オーディオコンポーネントとビデオコンポーネントとの両方を含んでもよい。ビデオコンポーネントは、順番に見られるときに動きの視覚的な印象を与える一連の画像フレームを含む。フレームは、本明細書においてルマ成分(またはルマサンプル)と呼ばれる光と、クロマ成分(またはカラーサンプル)と呼ばれる色とによって表されるピクセルを含む。一部の例において、フレームは、三次元の視聴をサポートするための深度値も含んでもよい。

ステップ103において、ビデオが、ブロックに区分けされる。区分けは、各フレームのピクセルを圧縮のために正方形および/または長方形のブロックに下位分割することを含む。たとえば、高効率ビデオコーディング(HEVC)(H.265およびMPEG-Hパート2としても知られる)において、フレームは、まず、予め定義されたサイズ(たとえば、64ピクセル×64ピクセル)のブロックであるコーディングツリーブロックに分割され得る。CTUは、ルマサンプルとクロマサンプルとの両方を含む。CTUをブロックに分割し、次いで、さらなる符号化をサポートする構成が実現されるまでブロックを繰り返し下位分割するためにコーディングツリーが使用されてもよい。たとえば、フレームのルマ成分は、個々のブロックが比較的均一なライティングの値を含むまで下位分割されてもよい。たとえば、フレームのクロマ成分は、個々のブロックが比較的均一な色の値を含むまで下位分割されてもよい。したがって、区分けのメカニズムは、ビデオフレームの内容に応じて変わる。

ステップ105においては、ステップ103において区分けされた画像ブロックを圧縮するために様々な圧縮メカニズムが使用される。たとえば、インター予測および/またはイントラ予測が、使用されてもよい。インター予測は、普通のシーン内の物体が連続したフレームに現れる傾向があるという事実を利用するように設計される。したがって、参照フレームにおいて物体を描くブロックは、近隣のフレームにおいて繰り返し示される必要がない。特に、テーブルなどの物体は、複数のフレームにわたって一定の位置にとどまってもよい。したがって、テーブルは、一回示され、隣接するフレームは、参照フレームを振り返って参照することができる。パターンマッチングメカニズムが、複数のフレームにわたって物体をマッチングするために使用されてもよい。さらに、移動する物体が、たとえば、物体の移動またはカメラの移動が原因で複数のフレームにまたがって表されてもよい。特定の例として、ビデオは、複数のフレームにわたって画面を横切って移動する自動車を示してもよい。動きベクトルが、そのような移動を示すために使用され得る。動きベクトルは、フレーム内の物体の座標から参照フレーム内の物体の座標までのオフセットを与える二次元ベクトルである。したがって、インター予測は、現在のフレーム内の画像ブロックを、参照フレーム内の対応するブロックからのオフセットを示す動きベクトルの組として符号化し得る。

イントラ予測は、共通のフレーム内のブロックを符号化する。イントラ予測は、ルマ成分およびクロマ成分がフレーム内で塊になる傾向があるという事実を利用する。たとえば、木の一部の緑の区域は、同様の緑の区域の近隣の位置にある傾向がある。イントラ予測は、複数の方向性予測モード(たとえば、HEVCにおいては33個)、平面モード、および直流(DC)モードを使用する。方向性モードは、現在のブロックが対応する方向の近隣のブロックのサンプルと同様/同じであることを示す。平面モードは、行/列に沿った一連のブロック(たとえば、平面)が、行の端の近隣のブロックに基づいて補間され得ることを示す。実際に、平面モードは、変化する値の比較的一定の勾配を使用することによって行/列間の光/色の滑らかな遷移を示す。DCモードは、境界の平滑化のために使用され、ブロックが方向性予測モードの角度方向に関連するすべての近隣のブロックのサンプルに関連する平均値と同様/同じであることを示す。したがって、イントラ予測ブロックは、画像ブロックを実際の値の代わりに様々な関係予測モードの値として表し得る。さらに、インター予測ブロックは、画像ブロックを実際の値の代わりに動きベクトルの値として表し得る。どちらにせよ、予測ブロックは、場合によっては画像ブロックを正確に表さない可能性がある。すべての差が、残差ブロックに記憶される。ファイルをさらに圧縮するために、残差ブロックに変換が適用されてもよい。

ステップ107において、様々なフィルタリング技術が、適用されてもよい。HEVCにおいては、フィルタが、ループ内フィルタリング方式によって適用される。上で検討されたブロックに基づく予測は、デコーダにおいてブロックノイズのある画像の生成をもたらしてもよい。さらに、ブロックに基づく予測方式は、ブロックを符号化し、次いで、符号化されたブロックを参照ブロックとして後で使用するために再構築してもよい。ループ内フィルタリング方式は、ノイズ抑制フィルタ、デブロッキングフィルタ、適応ループフィルタ、およびサンプル適応オフセット(SAO)フィルタをブロック/フレームに反復的に適用する。これらのフィルタは、符号化されたファイルが正確に再構築され得るようにそのようなブロッキングアーティファクトを軽減する。さらに、これらのフィルタは、アーティファクトが再構築された参照ブロックに基づいて符号化される後続のブロックにおいてさらなるアーティファクトを生じる可能性がより低くなるように、再構築された参照ブロック内のアーティファクトを軽減する。

ビデオ信号が区分けされ、圧縮され、フィルタリングされると、結果として得られるデータが、ステップ109においてビットストリームに符号化される。ビットストリームは、上で検討されたデータと、デコーダにおいて適切なビデオ信号の再構築をサポートするために望ましい任意のシグナリングデータとを含む。たとえば、そのようなデータは、区画データ、予測データ、残差ブロック、およびデコーダにコーディングの命令を与える様々なフラグを含んでもよい。ビットストリームは、要求に応じてデコーダに送信するためにメモリに記憶されてもよい。ビットストリームはまた、複数のデコーダにブロードキャストおよび/またはマルチキャストされてもよい。ビットストリームの生成は、反復的なプロセスである。したがって、ステップ101、103、105、107、および109は、多くのフレームおよびブロックにわたって継続的におよび/または同時に行われてもよい。図1に示された順序は、検討の明瞭さおよび容易さのために提示されており、ビデオコーディングプロセスを特定の順序に限定するように意図されていない。

デコーダは、ビットストリームを受信し、ステップ111において復号プロセスを開始する。特に、デコーダは、エントロピー復号方式を使用して、ビットストリームを対応するシンタックスおよびビデオデータに変換する。デコーダは、ステップ111において、ビットストリームからのシンタックスデータを使用してフレームに関する区画を決定する。区分けは、ステップ103におけるブロックの区分けの結果と一致するべきである。ステップ111において使用されるエントロピーコーディング/復号が、以降で説明される。エンコーダは、入力画像内の値の空間的な位置取りに基づいていくつかの可能な選択肢からブロック区分け方式を選択するなど、圧縮プロセス中に多くの選択を行う。厳密にそのままの選択をシグナリングすることは、多数のビンを使用してもよい。本明細書において使用されるとき、ビンは、変数として扱われる2進値(たとえば、状況に応じて変わってもよいビット値)である。エントロピーコーディングは、エンコーダが特定の場合に明らかにうまくいかないすべての選択肢を破棄し、許容可能な選択肢の組を残すことを可能にする。次いで、それぞれの許容可能な選択肢は、コードワードを割り当てられる。コードワードの長さは、許容可能な選択肢の数に基づく(たとえば、2つの選択肢のために1つのビン、4つの選択肢のために2つのビンなど)。次いで、エンコーダは、選択された選択肢に関するコードワードを符号化する。この方式は、コードワードが、すべての可能な選択肢の潜在的に大きな組からの選択を一意に示すのとは対照的に許容可能な選択肢の小さなサブセットからの選択を一意に示すために望ましいだけの大きさであるので、コードワードのサイズを削減する。次いで、デコーダは、エンコーダと同様にして許容可能な選択肢の組を決定することによって選択を復号する。許容可能な選択肢の組を決定することによって、デコーダは、コードワードを読み、エンコーダによってなされた選択を決定することができる。

ステップ113において、デコーダが、ブロックの復号を実行する。特に、デコーダは、逆変換を使用して残差ブロックを生成する。次いで、デコーダは、残差ブロックおよび対応する予測ブロックを使用して、区分けに従って画像ブロックを再構築する。予測ブロックは、ステップ105においてエンコーダで生成されたイントラ予測ブロックとインター予測ブロックとの両方を含んでもよい。次いで、再構築された画像ブロックは、ステップ111において決定された区分けデータに従って再構築されたビデオ信号のフレーム内に位置付けられる。ステップ113のためのシンタックスも、上で検討されたエントロピーコーディングによってビットストリーム内でシグナリングされてもよい。

ステップ115において、エンコーダのステップ107と同様にして、再構築されたビデオ信号のフレームに対してフィルタリングが実行される。たとえば、ノイズ抑制フィルタ、デブロッキングフィルタ、適応ループフィルタ、およびSAOフィルタが、ブロッキングアーティファクトを取り除くためにフレームに適用されてもよい。フレームがフィルタリングされると、ビデオ信号が、エンドユーザによる視聴のためにステップ117においてディスプレイに出力され得る。

図2は、ビデオコーディングのための例示的なコーディングおよび復号(コーデック)システム200の概略図である。特に、コーデックシステム200は、動作方法100の実装をサポートするための機能を提供する。コーデックシステム200は、エンコーダとデコーダとの両方において使用される構成要素を描くように一般化される。コーデックシステム200は、動作方法100のステップ101および103に関連して検討されたようにビデオ信号を受信し、区分けし、その結果、区分けされたビデオ信号201を生じる。次いで、コーデックシステム200は、方法100のステップ105、107、および109に関連して検討されたように、エンコーダとして働くとき、区分けされたビデオ信号201をコーディングされたビットストリームへと圧縮する。デコーダとして働くとき、コーデックシステム200は、動作方法100のステップ111、113、115、および117に関連して検討されたように、ビットストリームから出力ビデオ信号を生成する。コーデックシステム200は、全般的コーダ制御構成要素211、変換・スケーリングおよび量子化構成要素213、イントラピクチャ推定構成要素215、イントラピクチャ予測構成要素217、動き補償構成要素219、動き推定構成要素221、スケーリングおよび逆変換構成要素229、フィルタ制御分析構成要素227、ループ内フィルタ構成要素225、復号ピクチャバッファ構成要素223、ならびにヘッダフォーマットおよびコンテキスト適応2値算術コーディング(CABAC: context adaptive binary arithmetic coding)構成要素231を含む。そのような構成要素が、示されるように結合される。図2において、黒い線は、符号化される/復号されるデータの動きを示し、一方、破線は、その他の構成要素の動作を制御する制御データの動きを示す。コーデックシステム200の構成要素は、エンコーダにすべて存在してもよい。デコーダは、コーデックシステム200の構成要素のサブセットを含んでもよい。たとえば、デコーダは、イントラピクチャ予測構成要素217、動き補償構成要素219、スケーリングおよび逆変換構成要素229、ループ内フィルタ構成要素225、ならびに復号ピクチャバッファ構成要素223を含んでもよい。これらの構成要素が、以降で説明される。

区分けされたビデオ信号201は、コーディングツリーによってピクセルのブロックに区分けされたキャプチャされたビデオシーケンスである。コーディングツリーは、様々な分割モードを使用してピクセルのブロックをピクセルのより小さなブロックに下位分割する。次いで、これらのブロックは、より小さなブロックに下位分割され得る。ブロックは、コーディングツリーのノードと呼ばれてもよい。より大きな親ノードが、より小さな子ノードに分割される。ノードが下位分割される回数は、ノード/コーディングツリーの深さと呼ばれる。分割されたブロックは、場合によってはコーディングユニット(CU)に含まれ得る。たとえば、CUは、ルマブロック、赤色差(red difference chroma)(Cr)ブロック、および青色差(blue difference chroma)(Cb)ブロックをCUに関する対応するシンタックス命令とともに含むCTUの下位部分であり得る。分割モードは、使用される分割モードに応じて変化する形状の2つ、3つ、または4つの子ノードにノードをそれぞれ区分けするために使用される二分木(BT)、三分木(TT)、および四分木(QT)を含んでもよい。区分けされたビデオ信号201は、圧縮のために全般的コーダ制御構成要素211、変換・スケーリングおよび量子化構成要素213、イントラピクチャ推定構成要素215、フィルタ制御分析構成要素227、ならびに動き推定構成要素221に転送される。

全般的コーダ制御構成要素211は、応用の制約に従ってビットストリームへのビデオシーケンスの画像のコーディングに関連する判断を行うように構成される。たとえば、全般的コーダ制御構成要素211は、ビットレート/ビットストリームサイズ対再構築の品質の最適化を管理する。そのような判断は、ストレージ空間/帯域幅の可用性および画像解像度の要求に基づいてなされてもよい。また、全般的コーダ制御構成要素211は、バッファアンダーランおよびオーバーランの問題を軽減するために、送信速度を踏まえてバッファの利用を管理する。これらの問題を管理するために、全般的コーダ制御構成要素211は、その他の構成要素による区分け、予測、およびフィルタリングを管理する。たとえば、全般的コーダ制御構成要素211は、解像度を上げ、帯域幅の使用を増やすために圧縮の複雑さを動的に高くするか、または解像度を下げ、帯域幅の使用を減らすために圧縮の複雑さを動的に低くしてもよい。したがって、全般的コーダ制御構成要素211は、ビデオ信号の再構築の品質とビットレートの懸念との釣り合いを取るためにコーデックシステム200のその他の構成要素を制御する。全般的コーダ制御構成要素211は、その他の構成要素の動作を制御する制御データを生成する。制御データも、デコーダにおける復号のためのパラメータをシグナリングするためにビットストリームに符号化されるようにヘッダフォーマットおよびCABAC構成要素231に転送される。

区分けされたビデオ信号201は、インター予測のために動き推定構成要素221および動き補償構成要素219にも送信される。区分けされたビデオ信号201のフレームまたはスライスは、複数のビデオブロックに分割されてもよい。動き推定構成要素221および動き補償構成要素219は、時間予測を提供するために1つ以上の参照フレーム内の1つ以上のブロックに対する受信されたビデオブロックのインター予測コーディングを実行する。コーデックシステム200は、たとえば、ビデオデータの各ブロックに関する適切なコーディングモードを選択するために複数のコーディングパス(coding pass)を実行してもよい。

動き推定構成要素221および動き補償構成要素219は、高度に一体化されてもよいが、概念的な目的のために別々に示される。動き推定構成要素221によって実行される動き推定は、ビデオブロックに関する動きを推定する動きベクトルを生成するプロセスである。動きベクトルは、たとえば、予測ブロックに対するコーディングされるオブジェクトの変位を示してもよい。予測ブロックは、ピクセルの差の観点でコーディングされるブロックによく一致することが分かっているブロックである。予測ブロックは、参照ブロックとも呼ばれてもよい。そのようなピクセルの差は、差分絶対値和(SAD)、差分二乗和(SSD)、またはその他の差の測定基準によって決定されてもよい。HEVCは、CTU、コーディングツリーブロック(CTB)、およびCUを含むいくつかのコーディングされるオブジェクトを使用する。たとえば、CTUが、CTBに分割されることが可能であり、次いで、CTBが、CUに含めるためにCBに分割されることが可能である。CUは、CUのための予測データを含む予測ユニット(PU)および/または変換された残差データを含む変換ユニット(TU)として符号化され得る。動き推定構成要素221は、レート歪み最適化プロセスの一部としてレート歪み分析を使用することによって動きベクトル、PU、およびTUを生成する。たとえば、動き推定構成要素221は、現在のブロック/フレームに関する複数の参照ブロック、複数の動きベクトルなどを決定してもよく、最良のレート歪みの特性を有する参照ブロック、動きベクトルなどを選択してもよい。最良のレート歪みの特性は、ビデオの再構築の品質(たとえば、圧縮によるデータ損失の量)とコーディング効率(たとえば、最終的な符号化のサイズ)との両方の釣り合いを取る。

一部の例において、コーデックシステム200は、復号ピクチャバッファ構成要素223に記憶された参照ピクチャの整数よりも細かいピクセル位置の値を計算してもよい。たとえば、ビデオコーデックシステム200は、参照ピクチャの4分の1ピクセル位置、8分の1ピクセル位置、またはその他の分数ピクセル(fractional pixel)位置の値を補間してもよい。したがって、動き推定構成要素221は、フルピクセル(full pixel)位置および分数ピクセル位置に関連する動き探索を実行し、分数ピクセルの精度で動きベクトルを出力してもよい。動き推定構成要素221は、PUの位置を参照ピクチャの予測ブロックの位置と比較することによってインターコーディングされるスライス内のビデオブロックのPUに関する動きベクトルを計算する。動き推定構成要素221は、計算された動きベクトルを符号化のためにヘッダフォーマットおよびCABAC構成要素231に動きデータとして出力し、動きを動き補償構成要素219に出力する。

動き補償構成要素219によって実行される動き補償は、動き推定構成要素221によって決定された動きベクトルに基づいて予測ブロックを取り出すことまたは生成することを含んでもよい。やはり、動き推定構成要素221および動き補償構成要素219は、一部の例において、機能的に統合されてもよい。現在のビデオブロックのPUに関する動きベクトルを受信すると、動き補償構成要素219は、動きベクトルが指す予測ブロックを見つけてもよい。次いで、コーディングされている現在のビデオブロックのピクセル値から予測ブロックのピクセル値を引き、ピクセル差分値を形成することによって残差ビデオブロックが形成される。概して、動き推定構成要素221は、ルマ成分に関連する動き推定を実行し、動き補償構成要素219は、クロマ成分とルマ成分との両方のためにルマ成分に基づいて計算された動きベクトルを使用する。予測ブロックおよび残差ブロックは、変換・スケーリングおよび量子化構成要素213に転送される。

区分けされたビデオ信号201は、イントラピクチャ推定構成要素215およびイントラピクチャ予測構成要素217にも送信される。動き推定構成要素221および動き補償構成要素219と同様に、イントラピクチャ推定構成要素215およびイントラピクチャ予測構成要素217は、高度に一体化されてもよいが、概念的な目的のために別々に示される。イントラピクチャ推定構成要素215およびイントラピクチャ予測構成要素217は、上述のようにフレーム間で動き推定構成要素221および動き補償構成要素219によって実行されるインター予測の代替として現在のフレーム内のブロックに対して現在のブロックをイントラ予測する。特に、イントラピクチャ推定構成要素215は、現在のブロックを符号化するために使用するイントラ予測モードを決定する。一部の例において、イントラピクチャ推定構成要素215は、複数のテストされたイントラ予測モードから現在のブロックを符号化するための適切なイントラ予測モードを選択する。次いで、選択されたイントラ予測モードは、符号化のためにヘッダフォーマットおよびCABAC構成要素231に転送される。

たとえば、イントラピクチャ推定構成要素215は、様々なテストされたイントラ予測モードに関するレート歪み分析を使用してレート歪み値を計算し、テストされたモードの中で最良のレート歪みの特性を有するイントラ予測モードを選択する。レート歪み分析は、概して、符号化されたブロックと、符号化されたブロックを生成するために符号化された元の符号化されていないブロックとの間の歪み(または誤差)の量と、符号化されたブロックを生成するために使用されたビットレート(たとえば、ビット数)とを決定する。イントラピクチャ推定構成要素215は、どのイントラ予測モードがブロックに関して最良のレート歪み値を示すかを判定するために、様々な符号化されたブロックに関する歪みおよびレートから比率を計算する。さらに、イントラピクチャ推定構成要素215は、レート歪み最適化(RDO)に基づいて深度モデリングモード(DMM)を使用して深度マップの深度ブロックをコーディングするように構成されてもよい。

イントラピクチャ予測構成要素217は、エンコーダに実装されるとき、イントラピクチャ推定構成要素215によって決定された選択されたイントラ予測モードに基づいて予測ブロックから残差ブロックを生成し、またはデコーダに実装されるとき、ビットストリームから残差ブロックを読んでもよい。残差ブロックは、行列として表された、予測ブロックと元のブロックとの間の値の差を含む。次いで、残差ブロックは、変換・スケーリングおよび量子化構成要素213に転送される。イントラピクチャ推定構成要素215およびイントラピクチャ予測構成要素217は、ルマ成分とクロマ成分との両方に対して動作してもよい。

変換・スケーリングおよび量子化構成要素213は、残差ブロックをさらに圧縮するように構成される。変換・スケーリングおよび量子化構成要素213は、残差ブロックに離散コサイン変換(DCT)、離散サイン変換(DST)、または似た概念の変換などの変換を適用し、残差変換係数値を含むビデオブロックを生成する。ウェーブレット変換、整数変換、サブバンド変換、またはその他の種類の変換も、使用され得る。変換は、残差情報をピクセル値領域から周波数領域などの変換領域に変換してもよい。変換・スケーリングおよび量子化構成要素213は、たとえば、周波数に基づいて変換された残差情報をスケーリングするようにさらに構成される。そのようなスケーリングは、異なる周波数情報が異なる粒度で量子化されるように残差情報にスケール因子を適用することを含み、これは、再構築されたビデオの最終的な視覚的品質に影響を与えてもよい。変換・スケーリングおよび量子化構成要素213は、ビットレートをさらに下げるために変換係数を量子化するようにさらに構成される。量子化プロセスは、係数の一部またはすべてに関連するビット深度を削減してもよい。量子化の度合いは、量子化パラメータを調整することによって修正されてもよい。一部の例において、変換・スケーリングおよび量子化構成要素213は、次いで、量子化された変換係数を含む行列のスキャンを実行してもよい。量子化された変換係数は、ビットストリームに符号化するためにヘッダフォーマットおよびCABAC構成要素231に転送される。

スケーリングおよび逆変換構成要素229は、動き推定をサポートするために変換・スケーリングおよび量子化構成要素213の逆演算を適用する。スケーリングおよび逆変換構成要素229は、たとえば、別の現在のブロックに関する予測ブロックになってもよい参照ブロックとして後で使用するために、ピクセル領域の残差ブロックを再構築するために逆スケーリング、逆変換、および/または逆量子化を適用する。動き推定構成要素221および/または動き補償構成要素219は、後のブロック/フレームの動き推定において使用するために対応する予測ブロックに残差ブロックを足して戻すことによって参照ブロックを計算してもよい。スケーリング、量子化、および変換中に生じたアーティファクトを軽減するために、再構築された参照ブロックにフィルタが適用される。そうでなければ、そのようなアーティファクトは、後続のブロックが予測されるときに不正確な予測をもたらす(およびさらなるアーティファクトを生じる)。

フィルタ制御分析構成要素227およびループ内フィルタ構成要素225は、残差ブロックおよび/または再構築された画像ブロックにフィルタを適用する。たとえば、スケーリングおよび逆変換構成要素229からの変換された残差ブロックが、元の画像ブロックを再構築するためにイントラピクチャ予測構成要素217および/または動き補償構成要素219からの対応する予測ブロックと組み合わされてもよい。次いで、再構築された画像ブロックにフィルタが適用されてもよい。一部の例において、フィルタは、その代わりに残差ブロックに適用されてもよい。図2のその他の構成要素と同様に、フィルタ制御分析構成要素227およびループ内フィルタ構成要素225は、高度に一体化され、一緒に実装されてもよいが、概念的な目的のために別々に示される。再構築された参照ブロックに適用されるフィルタは、特定の空間的な領域に適用され、そのようなフィルタがどのように適用されるかを調整するための複数のパラメータを含む。フィルタ制御分析構成要素227は、そのようなフィルタがどこに適用されるべきかを判定するために再構築された参照ブロックを分析し、対応するパラメータを設定する。そのようなデータは、符号化のためにフィルタ制御データとしてヘッダフォーマットおよびCABAC構成要素231に転送される。ループ内フィルタ構成要素225は、フィルタ制御データに基づいてそのようなフィルタを適用する。フィルタは、デブロッキングフィルタ、ノイズ抑制フィルタ、SAOフィルタ、および適応ループフィルタを含んでもよい。そのようなフィルタは、例に依存して、(たとえば、再構築されたピクセルブロックに対して)空間/ピクセル領域において、または周波数領域において適用されてもよい。

エンコーダとして動作しているとき、フィルタリングされた再構築された画像ブロック、残差ブロック、および/または予測ブロックは、上で検討されたように、動き推定において後で使用するために復号ピクチャバッファ構成要素223に記憶される。デコーダとして動作しているとき、復号ピクチャバッファ構成要素223は、再構築され、フィルタリングされたブロックを記憶し、出力ビデオ信号の一部としてディスプレイに転送する。復号ピクチャバッファ構成要素223は、予測ブロック、残差ブロック、および/または再構築された画像ブロックを記憶することができる任意のメモリデバイスであってもよい。

ヘッダフォーマットおよびCABAC構成要素231は、コーデックシステム200の様々な構成要素からデータを受信し、そのようなデータをデコーダに送信するためにコーディングされたビットストリームに符号化する。特に、ヘッダフォーマットおよびCABAC構成要素231は、全般的な制御データおよびフィルタ制御データなどの制御データを符号化するための様々なヘッダを生成する。さらに、イントラ予測および動きデータを含む予測データならびに量子化された変換係数の形態の残差データは、すべてビットストリームに符号化される。最終的なビットストリームは、元の区分けされたビデオ信号201を再構築するためにデコーダによって望まれるすべての情報を含む。そのような情報は、イントラ予測モードのインデックステーブル(コードワードマッピングテーブルとも呼ばれる)、様々なブロックに関する符号化コンテキストの定義、最も可能性が高いイントラ予測モードのインジケーション、区画情報のインジケーションなども含んでもよい。そのようなデータは、エントロピーコーディングを使用することによって符号化されてもよい。たとえば、情報は、コンテキスト適応可変長コーディング(CAVLC: context adaptive variable length coding)、CABAC、シンタックスに基づくコンテキスト適応2値算術コーディング(SBAC: syntax-based context-adaptive binary arithmetic coding)、確率間隔区分エントロピー(PIPE: probability interval partitioning entropy) コーディング、または別のエントロピーコーディング技術を使用して符号化されてもよい。エントロピーコーディングの後、コーディングされたビットストリームが、別のデバイス(たとえば、ビデオデコーダ)に送信されるか、または後で送信するかもしくは取り出すためにアーカイブされてもよい。

図3は、例示的なビデオエンコーダ300を示すブロック図である。ビデオエンコーダ300は、コーデックシステム200の符号化機能を実施する、ならびに/または動作方法100のステップ101、103、105、107、および/もしくは109を実施するために使用されてもよい。エンコーダ300は、入力ビデオ信号を区分けし、区分けされたビデオ信号201と実質的に同様である区分けされたビデオ信号301を生じる。次いで、区分けされたビデオ信号301は、エンコーダ300の構成要素によって圧縮され、ビットストリームに符号化される。

特に、区分けされたビデオ信号301は、イントラ予測のためにイントラピクチャ予測構成要素317に転送される。イントラピクチャ予測構成要素317は、イントラピクチャ推定構成要素215およびイントラピクチャ予測構成要素217と実質的に同様であってもよい。区分けされたビデオ信号301は、復号ピクチャバッファ構成要素323内の参照ブロックに基づくインター予測のために動き補償構成要素321にも転送される。動き補償構成要素321は、動き推定構成要素221および動き補償構成要素219と実質的に同様であってもよい。イントラピクチャ予測構成要素317および動き補償構成要素321からの予測ブロックおよび残差ブロックは、残差ブロックの変換および量子化のために変換および量子化構成要素313に転送される。変換および量子化構成要素313は、変換・スケーリングおよび量子化構成要素213と実質的に同様であってもよい。変換され、量子化された残差ブロックおよび対応する予測ブロックは、ビットストリームにコーディングするためにエントロピーコーディング構成要素331に(関連する制御データと一緒に)転送される。エントロピーコーディング構成要素331は、ヘッダフォーマットおよびCABAC構成要素231と実質的に同様であってもよい。

また、変換され、量子化された残差ブロックおよび/または対応する予測ブロックは、動き補償構成要素321による使用のために参照ブロックに再構築するために変換および量子化構成要素313から逆変換および量子化構成要素329に転送される。逆変換および量子化構成要素329は、スケーリングおよび逆変換構成要素229と実質的に同様であってもよい。ループ内フィルタ構成要素325のループ内フィルタが、例に依存して残差ブロックおよび/または再構築された参照ブロックにやはり適用される。ループ内フィルタ構成要素325は、フィルタ制御分析構成要素227およびループ内フィルタ構成要素225と実質的に同様であってもよい。ループ内フィルタ構成要素325は、ループ内フィルタ構成要素225に関連して検討されたように複数のフィルタを含んでもよい。次いで、フィルタリングされたブロックが、動き補償構成要素321によって参照ブロックとして使用するために復号ピクチャバッファ構成要素323に記憶される。復号ピクチャバッファ構成要素323は、復号ピクチャバッファ構成要素223と実質的に同様であってもよい。

図4は、例示的なビデオデコーダ400を示すブロック図である。ビデオデコーダ400は、コーデックシステム200の復号機能を実施する、ならびに/または動作方法100のステップ111、113、115、および/もしくは117を実施するために使用されてもよい。デコーダ400は、たとえば、エンコーダ300からビットストリームを受信し、エンドユーザに対して表示するためにビットストリームに基づいて再構築された出力ビデオ信号を生成する。

ビットストリームは、エントロピー復号構成要素433によって受信される。エントロピー復号構成要素433は、CAVLC、CABAC、SBAC、PIPEコーディング、またはその他のエントロピーコーディング技術などのエントロピー復号方式を実施するように構成される。たとえば、エントロピー復号構成要素433は、ビットストリームにコードワードとして符号化されたさらなるデータを解釈するためのコンテキストを与えるためにヘッダ情報を使用してもよい。復号された情報は、全般的な制御データ、フィルタ制御データ、区画情報、動きデータ、予測データ、および残差ブロックからの量子化された変換係数などの、ビデオ信号を復号するための任意の所望の情報を含む。量子化された変換係数は、残差ブロックへの再構築のために逆変換および量子化構成要素429に転送される。逆変換および量子化構成要素429は、逆変換および量子化構成要素329と同様であってもよい。

再構築された残差ブロックおよび/または予測ブロックは、イントラ予測動作に基づいて画像ブロックに再構築するためにイントラピクチャ予測構成要素417に転送される。イントラピクチャ予測構成要素417は、イントラピクチャ推定構成要素215およびイントラピクチャ予測構成要素217と実質的に同様であってもよい。特に、イントラピクチャ予測構成要素417は、予測モードを使用してフレーム内の参照ブロックを特定し、イントラ予測された画像ブロックを再構築するために結果に残差ブロックを適用する。再構築されたイントラ予測された画像ブロックおよび/または残差ブロックならびに対応するインター予測データは、ループ内フィルタ構成要素425を介して復号ピクチャバッファ構成要素423に転送され、これらは、それぞれ、復号ピクチャバッファ構成要素223およびループ内フィルタ構成要素225と実質的に同様であってもよい。ループ内フィルタ構成要素425は、再構築された画像ブロック、残差ブロック、および/または予測ブロックをフィルタリングし、そのような情報は、復号ピクチャバッファ構成要素423に記憶される。復号ピクチャバッファ構成要素423からの再構築された画像ブロックは、インター予測のために動き補償構成要素421に転送される。動き補償構成要素421は、動き推定構成要素221および/または動き補償構成要素219と実質的に同様であってもよい。特に、動き補償構成要素421は、参照ブロックからの動きベクトルを使用して予測ブロックを生成し、画像ブロックを再構築するために結果に残差ブロックを適用する。結果として得られる再構築されたブロックは、ループ内フィルタ構成要素425を介して復号ピクチャバッファ構成要素423にやはり転送されてもよい。復号ピクチャバッファ構成要素423は、さらなる再構築された画像ブロックの記憶を続け、それらの再構築された画像ブロックは、区画情報によってフレームに再構築され得る。また、そのようなフレームは、シーケンスに配置されてもよい。シーケンスは、再構築された出力ビデオ信号としてディスプレイに出力される。

図5は、例示的なCVS 500を示す概略図である。たとえば、CVS 500は、方法100に係るコーデックシステム200および/またはエンコーダ300などのエンコーダによって符号化されてもよい。さらに、CVS 500は、コーデックシステム200および/またはデコーダ400などのデコーダによって復号されてもよい。CVS 500は、復号順508でコーディングされたピクチャを含む。復号順508は、ピクチャがビットストリーム内に位置付けられる順序である。次いで、CVS 500のピクチャは、提示順510で出力される。提示順510は、結果として得られるビデオを適切に表示するためにピクチャがデコーダによって表示されるべき順序である。たとえば、CVS 500のピクチャは、概して、提示順510で位置付けられてもよい。しかし、特定のピクチャは、たとえば、インター予測をサポートするために似たピクチャをより近接して配置することによってコーディング効率を上げるために異なる位置に移動されてもよい。このようにしてそのようなピクチャを移動させることは、復号順508をもたらす。示された例において、ピクチャは、0から4まで復号順508でインデックス付けされる。提示順510では、インデックス2およびインデックス3のピクチャが、インデックス0のピクチャの前に移動されている。

CVS 500は、IRAPピクチャ502を含む。IRAPピクチャ502は、CVS 500に関するランダムアクセスポイントとして働く、イントラ予測によってコーディングされるピクチャである。特に、IRAPピクチャ502のブロックは、IRAPピクチャ502のその他のブロックの参照によってコーディングされる。IRAPピクチャ502は、その他のピクチャの参照なしにコーディングされるので、最初にいかなるその他のピクチャも復号せずに復号され得る。したがって、デコーダは、IRAPピクチャ502においてCVS 500の復号を開始することができる。さらに、IRAPピクチャ502は、DPBをリフレッシュさせてもよい。たとえば、IRAPピクチャ502の後に提示されるピクチャは、インター予測のためにIRAPピクチャ502(たとえば、ピクチャインデックス0)の前のピクチャに頼らなくてもよい。したがって、ピクチャバッファは、IRAPピクチャ502が復号されるとリフレッシュされ得る。これは、インター予測に関連するコーディングエラーがIRAPピクチャ502を通して伝搬することができないのですべてのそのようなエラーを止める効果を有する。IRAPピクチャ502は、様々なタイプのピクチャを含んでもよい。たとえば、IRAPピクチャは、IDRまたはCRAとしてコーディングされてもよい。IDRは、新しいCVS 500を開始し、ピクチャバッファをリフレッシュするイントラコーディングされたピクチャである。CRAは、新しいCVS 500を開始することまたはピクチャバッファをリフレッシュすることなくランダムアクセスポイントとして働くイントラコーディングされたピクチャである。このようにして、CRAに関連するリーディングピクチャ504は、CRAの前のピクチャを参照してもよい一方、IDRに関連するリーディングピクチャ504は、IDRの前のピクチャを参照しなくてもよい。

CVS 500は、様々な非IRAPピクチャも含む。これらは、リーディングピクチャ504およびトレーリングピクチャ506を含む。リーディングピクチャ504は、復号順508でIRAPピクチャ502の後に位置付けられるが、提示順510ではIRAPピクチャ502の前に位置付けられるピクチャである。トレーリングピクチャ506は、復号順508と提示順510との両方でIRAPピクチャ502の後に位置付けられる。リーディングピクチャ504およびトレーリングピクチャ506は、両方ともインター予測によってコーディングされる。トレーリングピクチャ506は、IRAPピクチャ502またはIRAPピクチャ502の後に位置付けられたピクチャを参照してコーディングされる。したがって、トレーリングピクチャ506は、常に、IRAPピクチャ502が復号されると復号され得る。リーディングピクチャ504は、ランダムアクセススキップリーディング(RASL)およびランダムアクセス復号可能リーディング(RADL)ピクチャを含んでもよい。RASLピクチャは、IRAPピクチャ502の前のピクチャの参照によってコーディングされるが、IRAPピクチャ502の後の位置においてコーディングされる。RASLピクチャは、前のピクチャに依拠するので、デコーダがIRAPピクチャ502において復号を開始するときに復号され得ない。したがって、RASLピクチャは、IRAPピクチャ502がランダムアクセスポイントとして使用されるとき、スキップされ、復号されない。しかし、RASLピクチャは、デコーダが(図示されないインデックス0よりも前の)前のIRAPピクチャをランダムアクセスポイントとして使用するとき、復号され、表示される。RADLピクチャは、IRAPピクチャ502および/またはIRAPピクチャ502に続くピクチャを参照してコーディングされるが、提示順510でIRAPピクチャ502の前に位置付けられる。RADLピクチャは、IRAPピクチャ502の前のピクチャに依拠しないので、IRAPピクチャ502がランダムアクセスポイントであるときに復号され、表示され得る。

CVS 500からのピクチャは、アクセスユニットにそれぞれ記憶されてもよい。さらに、ピクチャは、スライスへと区分けされてもよく、スライスは、NALユニットに含められてもよい。NALユニットは、ピクチャのパラメータセットまたはスライスおよび対応するスライスヘッダを含む記憶単位である。NALユニットは、NALユニットに含まれるデータのタイプをデコーダに示すためにタイプを割り当てられる。たとえば、IRAPピクチャ502からのスライスは、RADLを有するIDR(IDR_W_RADL)NALユニット、リーディングピクチャを持たないIDR(IDR_N_LP)NALユニット、CRA NALユニットなどに含まれてもよい。IDR_W_RADL NALユニットは、IRAPピクチャ502がRADLリーディングピクチャ504に関連付けられるIDRピクチャであることを示す。IDR_N_LP NALユニットは、IRAPピクチャ502がいかなるリーディングピクチャ504にも関連付けられないIDRピクチャであることを示す。CRA NALユニットは、IRAPピクチャ502がリーディングピクチャ504に関連付けられてもよいCRAピクチャであることを示す。非IRAPピクチャのスライスがまた、NALユニットに配置されてもよい。たとえば、トレーリングピクチャ506のスライスは、トレーリングピクチャ506がインター予測コーディングされたピクチャであることを示すトレーリングピクチャNALユニットタイプ(TRAIL_NUT)に配置されてもよい。リーディングピクチャ504のスライスは、対応するピクチャが対応するタイプのインター予測コーディングされたリーディングピクチャ504であることを示すRASL NALユニットタイプ(RASL_NUT)および/またはRADL NALユニットタイプ(RADL_NUT)に含まれてもよい。対応するNALユニット内でピクチャのスライスをシグナリングすることによって、デコーダは、各ピクチャ/スライスに適用する適切な復号メカニズムを容易に決定することができる。

図6は、VRピクチャビデオストリーム600から分割された複数のサブピクチャビデオストリーム601、602、および603を示す概略図である。たとえば、サブピクチャビデオストリーム601～603の各々および/またはVRピクチャビデオストリーム600は、CVS 500にコーディングされてもよい。したがって、サブピクチャビデオストリーム601～603および/またはVRピクチャビデオストリーム600は、方法100に係るコーデックシステム200および/またはエンコーダ300などのエンコーダによって符号化されてもよい。さらに、サブピクチャビデオストリーム601～603および/またはVRピクチャビデオストリーム600は、コーデックシステム200および/またはデコーダ400などのデコーダによって復号されてもよい。

VRピクチャビデオストリーム600は、経時的に提示される複数のピクチャを含む。特に、VRは、ユーザが球の中心にいるかのように表示され得るビデオコンテンツの球をコーディングすることによって動作する。各ピクチャは、球全体を含む。一方、ビューポートとして知られるピクチャの一部のみが、ユーザに対して表示される。たとえば、ユーザが、ユーザの頭の動きに基づいて球のビューポートを選択し、表示するヘッドマウントディスプレイ(HMD)を使用してもよい。これは、ビデオによって描かれた仮想空間内に物理的に存在している印象を与える。この結果を達成するために、ビデオシーケンスの各ピクチャは、対応する瞬間のビデオデータの球全体を含む。しかし、ピクチャの小さな部分(たとえば、単一のビューポート)のみが、ユーザに対して表示される。ピクチャの残りは、レンダリングされずに破棄される。ユーザの頭の動きに応じて異なるビューポートが動的に選択され、表示され得るように、概して、ピクチャ全体が送信される。

示された例において、VRピクチャビデオストリーム600のピクチャは利用可能なビューポートに基づいてサブピクチャにそれぞれ下位分割され得る。したがって、各ピクチャおよび対応するサブピクチャは、時間的な提示の一部として時間的位置(たとえば、ピクチャの順序)を含む。サブピクチャビデオストリーム601～603は、下位分割が経時的に一貫して適用されるときに生成される。そのような一貫した下位分割は、サブピクチャビデオストリーム601～603を生成し、各ストリームは、所定のサイズ、形状、およびVRピクチャビデオストリーム600内の対応するピクチャに対する空間的位置の1組のサブピクチャを含む。さらに、サブピクチャビデオストリーム601～603内の1組のサブピクチャは、提示時間上の時間的位置が異なる。したがって、サブピクチャビデオストリーム601～603のサブピクチャは、時間的位置に基づいて時間領域において位置合わせされ得る。次いで、各時間的位置のサブピクチャビデオストリーム601～603からのサブピクチャは、表示するためのVRピクチャビデオストリーム600を再構築するために予め定義された空間的位置に基づいて空間領域において合併され得る。特に、サブピクチャビデオストリーム601～603は、別々のサブビットストリームにそれぞれ符号化され得る。そのようなサブビットストリームは、一緒に合併されるとき、経時的にピクチャの組全体を含むビットストリームをもたらす。結果として得られるビットストリームは、ユーザの現在選択されているビューポートに基づいて復号し、表示するためにデコーダに送信され得る。

VRビデオの問題のうちの1つは、サブピクチャビデオストリーム601～603のすべてが高品質(たとえば、高解像度)でユーザに送信されてもよいことである。これは、デコーダがユーザの現在のビューポートを動的に選択し、対応するサブピクチャビデオストリーム601～603からのサブピクチャをリアルタイムで表示することを可能にする。しかし、ユーザは、たとえば、サブピクチャビデオストリーム601からの単一のビューポートのみを見る可能性があり、一方、サブピクチャビデオストリーム602～603は、破棄される。したがって、高品質でサブピクチャビデオストリーム602～603を送信することは、多大な量の帯域幅を無駄にしてもよい。コーディング効率を改善するために、VRビデオは、複数のビデオストリーム600に符号化されてもよく、各ビデオストリーム600が、異なる品質/解像度で符号化される。このようにして、デコーダは、現在のサブピクチャビデオストリーム601の要求を送信することができる。それに応じて、エンコーダ(または中間スライサ(intermediate slicer)またはその他のコンテンツサーバ)は、より高い品質のビデオストリーム600からのより高い品質のサブピクチャビデオストリーム601およびより低い品質のビデオストリーム600からのより低い品質のサブピクチャビデオストリーム602～603を選択し得る。次いで、エンコーダは、デコーダに送信するためにそのようなサブビットストリームを完全な符号化されたビットストリームに合併することができる。このようにして、デコーダは、一連のピクチャを受信し、現在のビューポートがより高い品質であり、その他のビューポートがより低い品質である。さらに、最も高い品質のサブピクチャが、(頭の動きがないとき)概してユーザに対して表示され、より低い品質のサブピクチャは、概して破棄され、これは、機能性とコーディング効率との釣り合いを取る。

ユーザがサブピクチャビデオストリーム601からサブピクチャビデオストリーム602に目を移す場合、デコーダは、新しい現在のサブピクチャビデオストリーム602がより高い品質で送信されることを要求する。次いで、エンコーダは、それに応じて合併メカニズムを変更し得る。上述のように、デコーダは、IRAPピクチャ502においてのみ新しいCVS 500の復号を開始し得る。したがって、サブピクチャビデオストリーム602は、IRAPピクチャ/サブピクチャに達するまでより低い品質で表示される。次いで、IRAPピクチャが、サブピクチャビデオストリーム602のより高い品質のバージョンの復号を開始するためにより高い品質で復号され得る。この手法は、ユーザの視聴体験に悪影響を与えることなくビデオ圧縮を大幅に向上させる。

上述の手法に対する1つの懸念は、解像度を変更するために必要とされる時間の長さがビデオストリーム内でIRAPピクチャに達するまでの時間の長さに基づくことである。これは、デコーダが非IRAPピクチャにおいて異なるバージョンのサブピクチャビデオストリーム602の復号を開始することができないからである。そのようなレイテンシーを削減するための1つの手法は、より多くのIRAPピクチャを含めることである。しかし、これは、ファイルサイズの増大を招く。機能性とコーディング効率との釣り合いを取るために、異なるビューポート/サブピクチャビデオストリーム601～603は、異なる頻度でIRAPピクチャを含んでもよい。たとえば、見られる可能性がより高いビューポート/サブピクチャビデオストリーム601～603が、その他のビューポート/サブピクチャビデオストリーム601～603よりも多くのIRAPピクチャを有してもよい。たとえば、バスケットボールの文脈で、スタンドまたは天井を見るビューポート/サブピクチャビデオストリーム601～603はユーザによって見られる可能性がより低いので、そのようなビューポート/サブピクチャビデオストリーム601～603よりもバスケットおよび/またはセンターコートに関連するビューポート/サブピクチャビデオストリーム601～603の方がより頻繁にIRAPピクチャを含んでもよい。

この手法は、さらなる問題につながる。特に、POCを共有するサブピクチャビデオストリーム601～603からのサブピクチャは、単一のピクチャの一部である。上述のように、ピクチャからのスライスは、ピクチャタイプに基づいてNALユニットに含まれる。一部のビデオコーディングシステムにおいて、単一のピクチャに関連するすべてのNALユニットは、同じNALユニットタイプを含むように制約される。異なるサブピクチャビデオストリーム601～603が異なる頻度でIRAPピクチャを有するとき、ピクチャの一部は、IRAPサブピクチャと非IRAPサブピクチャとの両方を含む。これは、それぞれの単一のピクチャが同じタイプのNALユニットのみを使用すべきであるという制約に違反する。

本開示は、ピクチャ内のスライスに関するすべてのNALユニットが同じNALユニットタイプを使用するという制約を取り除くことによってこの問題に対処する。たとえば、ピクチャは、アクセスユニットに含まれる。この制約を取り除くことによって、アクセスユニットは、IRAP NALユニットタイプと非IRAP NALユニットタイプとの両方を含んでもよい。さらに、ピクチャ/アクセスユニットがIRAP NALユニットタイプと非IRAP NALユニットタイプとの混合を含むときを示すためのフラグが、符号化され得る。一部の例において、フラグは、ピクチャ内混合NALユニットタイプフラグ(mixed NAL unit types in picture flag)(mixed_nalu_types_in_pic_flag)である。さらに、単一の混合ピクチャ/アクセスユニットが1つのタイプのIRAP NALユニットおよび1つのタイプの非IRAP NALユニットのみを含んでもよいことを必要とする制約が、適用されてもよい。これは、意図しないNALユニットタイプの混合が発生することを防止する。そのような混合が許されるのならば、デコーダは、そのような混合を管理するように設計されなければならない。これは、コーディングプロセスにさらなる利益をもたらすことなく必要とされるハードウェアの複雑さを不必要に高める。たとえば、混合ピクチャは、IDR_W_RADL、IDR_N_LP、またはCRA_NUTから選択された1つのタイプのIRAP NALユニットを含んでもよい。さらに、混合ピクチャは、TRAIL_NUT、RADL_NUT、およびRASL_NUTから選択された1つのタイプの非IRAP NALユニットを含んでもよい。この方式の例示的な実装が、下でより詳細に検討される。

図7は、混合されたNALユニットタイプを有するピクチャを含む例示的なビットストリーム700を示す概略図である。たとえば、ビットストリーム700は、方法100に係るコーデックシステム200および/またはデコーダ400による復号のためにコーデックシステム200および/またはエンコーダ300によって生成され得る。さらに、ビットストリーム700は、複数のビデオ解像度の複数のサブピクチャビデオストリーム601～603から合併されたVRピクチャビデオストリーム600を含んでもよく、各サブピクチャビデオストリームは、異なる空間的位置のCVS 500を含む。

ビットストリーム700は、シーケンスパラメータセット(SPS)710、複数のピクチャパラメータセット(PPS)711、複数のスライスヘッダ715、および画像データ720を含む。SPS 710は、ビットストリーム700に含まれるビデオシーケンス内のすべてのピクチャに共通のシーケンスデータを含む。そのようなデータは、ピクチャのサイズ設定、ビット深度、コーディングツールのパラメータ、ビットレートの制約などを含み得る。PPS 711は、ピクチャ全体に適用されるパラメータを含む。したがって、ビデオシーケンス内の各ピクチャは、PPS 711を参照してもよい。各ピクチャはPPS 711を参照するが、一部の例においては、単一のPPS 711が複数のピクチャに関するデータを含み得ることに留意されたい。たとえば、複数の同様のピクチャは、同様のパラメータによってコーディングされてもよい。そのような場合、単一のPPS 711が、そのような同様のピクチャに関するデータを含んでもよい。PPS 711は、対応するピクチャ内のスライスのために利用可能なコーディングツール、量子化パラメータ、オフセットなどを示し得る。スライスヘッダ715は、ピクチャ内の各スライスに固有のパラメータを含む。したがって、ビデオシーケンス内のスライス毎に1つのスライスヘッダ715があってもよい。スライスヘッダ715は、スライスタイプ情報、ピクチャ順序カウント(POC)、参照ピクチャリスト、予測の重み、タイルエントリポイント(tile entry point)、デブロッキングパラメータなどを含んでもよい。スライスヘッダ715は、文脈によってはタイルグループヘッダとも呼ばれてもよいことに留意されたい。

画像データ720は、インター予測および/またはイントラ予測によって符号化されたビデオデータならびに対応する変換され、量子化された残差データを含む。たとえば、ビデオシーケンスは、画像データ720としてコーディングされた複数のピクチャ721を含む。ピクチャ721は、ビデオシーケンスの単一のフレームであり、したがって、概して、ビデオシーケンスを表示するときに単一の単位として表示される。しかし、サブピクチャ723は、仮想現実などの特定のテクノロジーを実施するために表示されてもよい。ピクチャ721は、PPS 711をそれぞれ参照する。ピクチャ721は、サブピクチャ723、タイル、および/またはスライスに分割されてもよい。サブピクチャ723は、コーディングされたビデオシーケンスに一貫して適用されるピクチャ721の空間的な領域である。したがって、サブピクチャ723は、VRの文脈でHMDによって表示されてもよい。さらに、指定されたPOCを有するサブピクチャ723が、対応する解像度のサブピクチャビデオストリーム601～603から取得されてもよい。サブピクチャ723は、SPS 710を参照してもよい。一部のシステムにおいて、スライス725は、タイルを含むタイルグループと呼ばれる。スライス725および/またはタイルのタイルグループは、スライスヘッダ715を参照する。スライス725は、単一のNALユニットに排他的に含まれるピクチャ721の整数個の完全なタイルまたはタイル内の整数個の連続する完全なCTUの行として定義されてもよい。したがって、スライス725は、CTUおよび/またはCTBにさらに分割される。CTU/CTBは、コーディングツリーに基づいてコーディングブロックにさらに分割される。次いで、コーディングブロックが、予測メカニズムによって符号化/復号され得る。

パラメータセットおよび/またはスライス725は、NALユニットにコーディングされる。NALユニットは、後に続くデータのタイプのインジケーションを含むシンタックス構造、および必要に応じてエミュレーション防止バイト(emulation prevention byte)を所々に挿入されたRBSPの形態でそのデータを含むバイトとして定義されてもよい。より詳細には、NALユニットは、ピクチャ721のパラメータセットまたはスライス725および対応するスライスヘッダ715を含む記憶単位である。特に、VCL NALユニット740は、ピクチャ721のスライス725および対応するスライスヘッダ715を含むNALユニットである。さらに、非VCL NALユニット730は、SPS 710およびPPS 711などのパラメータセットを含む。いくつかのタイプのNALユニットが、使用されてもよい。たとえば、SPS 710およびPPS 711は、両方とも非VCL NALユニット730であるSPS NALユニットタイプ(SPS_NUT)731およびPPS NALユニットタイプ(PPS_NUT)732にそれぞれ含まれてもよい。

上述のように、IRAPピクチャ502などのIRAPピクチャは、IRAP NALユニット745に含まれ得る。リーディングピクチャ504およびトレーリングピクチャ506などの非IRAPピクチャは、非IRAP NALユニット749に含まれ得る。特に、IRAP NALユニット745は、IRAPピクチャまたはサブピクチャから取得されたスライス725を含む任意のNALユニットである。非IRAP NALユニット749は、IRAPピクチャまたはサブピクチャではない任意のピクチャ(たとえば、リーディングピクチャおよびトレーリングピクチャ)から取得されたスライス725を含む任意のNALユニットである。IRAP NALユニット745および非IRAP NALユニット749は、両方ともスライスデータを含むので両方ともVCL NALユニット740である。例示的な実施形態において、IRAP NALユニット745は、リーディングピクチャのないIDRピクチャまたはRADLピクチャに関連するIDRからのスライス725をIDR_N_LP NALユニット741またはIDR_w_RADL NALユニット742にそれぞれ含んでもよい。さらに、IRAP NALユニット745は、CRAピクチャからのスライス725をCRA_NUT 743に含んでもよい。例示的な実施形態において、非IRAP NALユニット749は、RASLピクチャ、RADLピクチャ、またはトレーリングピクチャからのスライス725をRASL_NUT 746、RADL_NUT 747、またはTRAIL_NUT 748にそれぞれ含まれてもよい。例示的な実施形態において、可能なNALユニットの完全なリストが、NALユニットタイプによってソートされて下に示される。

上述のように、VRビデオストリームは、異なる頻度でIRAPピクチャを有するサブピクチャ723を含んでもよい。これは、ユーザが見る可能性が低い空間的な領域に関してはより少ないIRAPピクチャが使用され、ユーザが頻繁に見る可能性が高い空間的な領域に関してはより多くのIRAPピクチャが使用されることを可能にする。このようにして、ユーザがたびたび戻る可能性が高い空間的な領域が、より高い解像度に迅速に調整され得る。この手法がIRAP NALユニット745と非IRAP NALユニット749との両方を含むピクチャ721をもたらすとき、ピクチャ721は、混合ピクチャと呼ばれる。この状態が、ピクチャ内混合NALユニットタイプフラグ(mixed_nalu_types_in_pic_flag)727によってシグナリングされ得る。mixed_nalu_types_in_pic_flag 727は、PPS 711に設定されてもよい。さらに、mixed_nalu_types_in_pic_flag 727は、PPS 711を参照する各ピクチャ721が2つ以上のVCL NALユニット740を有し、VCL NALユニット740がNALユニットタイプ(nal_unit_type)の同じ値を持たないことを指定するとき、1に等しいように設定されてもよい。さらに、mixed_nalu_types_in_pic_flag 727は、PPS 711を参照する各ピクチャ721が1つ以上のVCL NALユニット740を有し、PPS 711を参照する各ピクチャ721のVCL NALユニット740がすべてnal_unit_typeの同じ値を有するとき、0に等しいように設定されてもよい。

さらに、mixed_nalu_types_in_pic_flag 727が設定されるとき、ピクチャ721のサブピクチャ723のうちの1つ以上のVCL NALユニット740がすべてNALユニットタイプの第1の特定の値を有し、ピクチャ721内のその他のVCL NALユニット740がすべてNALユニットタイプの異なる第2の特定の値を有するような制約が使用されてもよい。たとえば、制約は、混合ピクチャ721が単一のタイプのIRAP NALユニット745および単一のタイプの非IRAP NALユニット749を含むことを必要としてもよい。たとえば、ピクチャ721は、1つもしくは複数のIDR_N_LP NALユニット741、1つもしくは複数のIDR_w_RADL NALユニット742、または1つもしくは複数のCRA_NUT 743を含み得るが、そのようなIRAP NALユニット745のいかなる組み合わせも含み得ない。さらに、ピクチャ721は、1つもしくは複数のRASL_NUT 746、1つもしくは複数のRADL_NUT 747、または1つもしくは複数のTRAIL_NUT 748を含み得るが、そのようなIRAP NALユニット745のいかなる組み合わせも含み得ない。

例示的な実装においては、復号プロセスを定義するためにピクチャタイプが使用される。そのようなプロセスは、たとえば、ピクチャ順序カウント(POC)によるピクチャの識別情報の導出、復号ピクチャバッファ(DPB)内の参照ピクチャのステータスのマーキング、DPBからのピクチャの出力などを含む。ピクチャは、コーディングされたピクチャのすべてまたはその下位部分を含むNALユニットタイプに基づくタイプによって特定され得る。一部のビデオコーディングシステムにおいて、ピクチャタイプは、瞬時復号リフレッシュ(IDR)ピクチャおよび非IDRピクチャを含んでもよい。その他のビデオコーディングシステムにおいて、ピクチャタイプは、トレーリングピクチャ、時間サブレイヤアクセス(TSA: temporal sub-layer)ピクチャ、段階的時間サブレイヤアクセス(STSA: step-wise temporal sub-layer access)ピクチャ、ランダムアクセス復号可能リーディング(RADL)ピクチャ、ランダムアクセススキップリーディング(RASL)ピクチャ、ブロークンリンクアクセス(BLA: broken-link access)ピクチャ、瞬時ランダムアクセスピクチャ、およびクリーンランダムアクセスピクチャを含んでもよい。そのようなピクチャタイプは、ピクチャがサブレイヤ参照ピクチャ(sub-layer referenced picture)であるのかまたはサブレイヤ非参照ピクチャ(sub-layer non-referenced picture)であるのかに基づいてさらに区別されてもよい。BLAピクチャは、リーディングピクチャを有するBLA、RADLピクチャを有するBLA、およびリーディングピクチャを持たないBLAとしてさらに区別されてもよい。IDRピクチャは、RADLピクチャを有するIDRおよびリーディングピクチャを持たないIDRとしてさらに区別されてもよい。

そのようなピクチャタイプは、様々なビデオに関連する機能を実装するために使用されてもよい。たとえば、IDR、BLA、および/またはCRAピクチャは、IRAPピクチャを実装するために使用されてもよい。IRAPピクチャは、以下の機能/利点を提供してもよい。IRAPピクチャの存在は、復号プロセスがそのピクチャから開始され得ることを示してもよい。この機能は、IRAPピクチャがその位置に存在する限り復号プロセスがビットストリーム内の指定された位置で開始するランダムアクセスの特徴の実装を可能にする。そのような位置は、必ずしもビットストリームの始めではない。また、IRAPピクチャの存在は、RASLピクチャを除いてIRAPピクチャで始まるコーディングされたピクチャがIRAPピクチャの前に位置付けられたピクチャをまったく参照せずにコーディングされるように復号プロセスをリフレッシュする。したがって、ビットストリーム内に位置付けられたIRAPピクチャは、復号エラーの伝搬を止める。したがって、IRAPピクチャの前に位置付けられたコーディングされたピクチャの復号エラーは、IRAPピクチャを通して、復号順でIRAPピクチャの後に続くピクチャに伝搬し得ない。

IRAPピクチャは、様々な機能を提供するが、圧縮効率に対する不利益を生じる。したがって、IRAPピクチャの存在は、ビットレートの急上昇を引き起こす可能性がある。圧縮効率に対するこの不利益は、様々な原因がある。たとえば、IRAPピクチャは、非IRAPピクチャとして使用されるインター予測されたピクチャよりも著しく多いビットによって表されるイントラ予測されたピクチャである。さらに、IRAPピクチャの存在は、インター予測において使用される時間予測を損なう。特に、IRAPピクチャは、DPBから前の参照ピクチャを取り除くことによって復号プロセスをリフレッシュする。前の参照ピクチャを取り除くことは、復号順でIRAPピクチャの後に続くピクチャのコーディングに使用するための参照ピクチャの可用性を低下させ、したがって、このプロセスの効率を下げる。

IDRピクチャは、その他のIRAPピクチャタイプとは異なるシグナリングおよび導出プロセスを使用してもよい。たとえば、IDRに関連するシグナリングおよび導出プロセスは、前のキーピクチャから最上位ビット(MSB)を導出する代わりにPOCのMSB部分を0に設定してもよい。さらに、IDRピクチャのスライスヘッダは、参照ピクチャの管理を支援するために使用される情報を含まなくてもよい。一方、CRA、トレーリング、TSAなどのその他のピクチャタイプは、参照ピクチャのマーキングプロセスを実施するために使用され得る参照ピクチャセット(RPS: reference picture set)または参照ピクチャリストなどの参照ピクチャ情報を含んでもよい。参照ピクチャのマーキングプロセスは、DPB内の参照ピクチャのステータスが参照のために使用されるのかまたは参照のために使用されないのかどちらなのかを決定するプロセスである。IDRの存在は復号プロセスが単にDPB内のすべての参照ピクチャを参照のために使用されないものとしてマーキングすることを示すので、IDRピクチャに関して、そのような情報はシグナリングされなくてもよい。

ピクチャタイプに加えて、POCによるピクチャの識別情報も、インター予測における参照ピクチャの使用管理のため、DPBからのピクチャの出力のため、動きベクトルのスケーリングのため、重み付けされた予測のためなど、複数の目的で使用される。たとえば、一部のビデオコーディングシステムにおいては、DPB内のピクチャが、短期的参照のために使用される、長期的参照のために使用される、または参照のために使用されないものとしてマーキングされ得る。ピクチャが参照のために使用されないものとしてマーキングされると、ピクチャは、もはや予測のために使用され得ない。そのようなピクチャがもはや出力のために必要とされないとき、ピクチャは、DPBから削除され得る。その他のビデオコーディングシステムにおいて、参照ピクチャは、短期および長期としてマーキングされてもよい。参照ピクチャは、ピクチャがもはや予測の参照のために必要とされないとき、参照のために使用されないものとしてマーキングされてもよい。これらのステータスの間の転換は、復号された参照ピクチャのマーキングプロセスによって制御されてもよい。暗黙的なスライディングウィンドウプロセスおよび/または明示的なメモリ管理制御動作(MMCO)プロセスが、復号された参照ピクチャのマーキングメカニズムとして使用されてもよい。スライディングウィンドウプロセスは、参照フレームの数がSPS内でmax_num_ref_framesと表記される指定された最大数に等しいとき、短期参照ピクチャを参照のために使用されないものとしてマーキングする。短期参照ピクチャは、最も新しく復号された短期ピクチャがDPBに保有されるように先入れ先出しで記憶されてもよい。明示的なMMCOプロセスは、複数のMMCOコマンドを含んでもよい。MMCOコマンドは、1つもしくは複数の短期または長期参照ピクチャを参照のために使用されないものとしてマーキングしてもよく、すべてのピクチャを参照のために使用されないものとしてマーキングしてもよく、または現在の参照ピクチャもしくは既存の短期参照ピクチャを長期としてマーキングし、それから、その長期参照ピクチャに長期ピクチャインデックスを割り当ててもよい。

一部のビデオコーディングシステムにおいては、参照ピクチャのマーキング動作ならびにDPBからのピクチャの出力および削除のためのプロセスが、ピクチャが復号された後に実行される。その他のビデオコーディングシステムは、参照ピクチャの管理のためにRPSを使用する。RPSメカニズムとMMCO/スライディングウィンドウプロセスとの間の最も抜本的な違いは、それぞれの特定のスライスに関して、RPSが現在のピクチャまたは任意の後続のピクチャによって使用される参照ピクチャの完全な組を提供することである。したがって、現在のまたは将来のピクチャによる使用のためにDPBに保有されるべきすべてのピクチャの完全な組が、RPSにおいてはシグナリングされる。これは、DPBに対する相対的な変更のみがシグナリングされるMMCO/スライディングウィンドウ方式と異なる。RPSメカニズムによれば、DPB内の参照ピクチャの正しいステータスを維持するために、復号順で先のピクチャからの情報が必要とされない。ピクチャの復号の順序およびDPBの動作は、RPSの利点を活かし、誤り耐性を高めるために一部のビデオコーディングシステムにおいて変更される。一部のビデオコーディングシステムにおいて、ピクチャのマーキング、およびDPBからの復号されたピクチャの出力と削除との両方を含むバッファの動作は、現在のピクチャが復号された後に適用されてもよい。その他のビデオコーディングシステムにおいては、まず、RPSが、現在のピクチャのスライスヘッダから復号され、次いで、ピクチャのマーキングおよびバッファの動作が、現在のピクチャを復号する前に適用されてもよい。

VVCにおいて、参照ピクチャの管理手法は、以下のように要約されてもよい。リスト0およびリスト1と表記される2つの参照ピクチャリストが、直接シグナリングされ、導出される。それらは、上で検討されたRPSまたはスライディングウィンドウ+MMCOプロセスに基づかない。参照ピクチャのマーキングは、参照ピクチャリストのアクティブなエントリと非アクティブなエントリとの両方を利用して参照ピクチャリスト0および1に直接基づくが、アクティブなエントリのみが、CTUのインター予測において参照インデックスとして使用されてもよい。2つの参照ピクチャリストの導出のための情報は、SPS、PPS、およびスライスヘッダ内のシンタックス要素およびシンタックス構造によってシグナリングされる。予め定義されたRPL構造が、スライスヘッダ内で参照することによって使用するためにSPS内でシグナリングされる。2つの参照ピクチャリストは、両方向インター予測(B)スライス、片方向インター予測(P)スライス、およびイントラ予測(I)スライスを含むすべてのタイプのスライスに関して生成される。2つの参照ピクチャリストは、参照ピクチャリスト初期化プロセスまたは参照ピクチャリスト修正プロセスを使用することなく構築されてもよい。長期参照ピクチャ(LTRP)は、POC LSBによって特定される。デルタPOC MSBサイクル(delta POC MSB cycle)が、ピクチャ毎に決められたようにLTRPに関してシグナリングされてもよい。

ビデオ画像をコーディングするために、画像はまず区分けされ、区画がビットストリームにコーディングされる。様々なピクチャ区分け方式が、利用可能である。たとえば、画像は、通常のスライス(regular slice)に、従属スライス(dependent slice)に、タイルに、および/または波面並列処理(WPP)によって区分けされ得る。簡単にするために、HEVCは、ビデオコーディングのためにスライスをCTBのグループに区分けするときに通常のスライス、従属スライス、タイル、WPP、およびこれらの組み合わせのみが使用され得るようにエンコーダを制約する。そのような区分けは、最大転送単位(MTU)のサイズマッチング、並列処理、および削減されたエンドツーエンドの遅延をサポートするために適用され得る。MTUは、単一のパケットで送信され得るデータの最大量を表す。パケットのペイロードがMTUを超えている場合、そのペイロードは、フラグメンテーションと呼ばれるプロセスによって2つのパケットに分割される。

単にスライスとも呼ばれる通常のスライスは、ループフィルタリング動作が原因であるいくつかの相互依存性があるにもかかわらず同じピクチャ内のその他の通常のスライスとは独立して再構築され得る画像の区分けされた部分である。それぞれの通常のスライスは、送信のために独自のネットワーク抽象化レイヤ(NAL)ユニットにカプセル化される。さらに、スライスの境界をまたぐピクチャ内予測(イントラサンプル予測、動き情報予測、コーディングモード予測)およびエントロピーコーディングの相互依存性は、独立した再構築をサポートするために使用不可にされてもよい。そのような独立した再構築は、並列化をサポートする。たとえば、通常のスライスに基づく並列化は、最小限のプロセッサ間またはコア間通信を使用する。しかし、それぞれの通常のスライスが独立しているので、それぞれのスライスは、別々のスライスヘッダに関連付けられる。通常のスライスの使用は、各スライスに関するスライスヘッダのビットコストが原因でおよびスライスの境界をまたぐ予測を欠くことが原因で多大なコーディングのオーバーヘッドを招き得る。さらに、通常のスライスは、MTUのサイズの要件に関するマッチングをサポートするために使用されてもよい。特に、通常のスライスが別個のNALユニットにカプセル化され、独立してコーディングされ得るとき、それぞれの通常のスライスは、スライスを複数のパケットに分割することを避けるためにMTU方式のMTUよりも小さいものであるべきである。したがって、並列化の目的およびMTUのサイズマッチングの目的は、ピクチャ内のスライスのレイアウトに矛盾する要求を課してもよい。

従属スライスは、通常のスライスに似ているが、短縮されたスライスヘッダを有し、ピクチャ内予測を損なうことなく画像ツリーブロックの境界の区分けを可能にする。したがって、従属スライスは、通常のスライスが複数のNALユニットにフラグメンテーションされることを可能にし、これは、通常のスライスの一部が通常のスライス全体の符号化が完了する前に送出されることを可能にすることによって削減されたエンドツーエンドの遅延をもたらす。

ピクチャは、タイルグループ/スライスおよびタイルに分割されてもよい。タイルは、ピクチャの長方形の領域をカバーするCTUのシーケンスである。タイルグループ/スライスは、ピクチャのいくつかのタイルを含む。ラスタスキャンタイルグループモードおよび長方形タイルグループモードが、タイルを生成するために使用されてもよい。ラスタスキャンタイルグループモードにおいて、タイルグループは、ピクチャのタイルのラスタスキャンのタイルのシーケンスを含む。長方形タイルグループモードにおいて、タイルグループは、ピクチャの長方形の領域を集合的に形成するピクチャのいくつかのタイルを含む。長方形タイルグループ内のタイルは、タイルグループのラスタスキャンの順になっている。たとえば、タイルは、タイルの列および行を生成する水平方向の境界および垂直方向の境界によって生成される画像の区分けされた部分であってもよい。タイルは、ラスタスキャン順(右から左および上から下)にコーディングされてもよい。CTBのスキャン順は、タイル内に限られる。したがって、第1のタイル内のCTBは、次のタイル内のCTBに進む前にラスタスキャン順にコーディングされる。通常のスライスと同様に、タイルは、ピクチャ内予測の相互依存性およびエントロピー復号の相互依存性を損なう。しかし、タイルは、個々のNALユニットに含まれなくてもよく、したがって、タイルは、MTUのサイズマッチングのために使用されなくてもよい。各タイルは、1つのプロセッサ/コアによって処理されることが可能であり、近隣のタイルを復号する処理ユニット間でピクチャ内予測のために使用されるプロセッサ間/コア間通信は、(近隣のタイルが同じスライス内にあるときに)共有されたスライスヘッダを運ぶことならびに再構築されたサンプルおよびメタデータのループフィルタリングに関連する共有を実行することに限られてもよい。2つ以上のタイルがスライスに含まれるとき、スライスの初めのエントリポイントのオフセット以外の各タイルに関するエントリポイントのバイトオフセットが、スライスヘッダ内でシグナリングされてもよい。各スライスおよびタイルに関して、以下の条件、すなわち、1)スライス内のすべてのコーディングされたツリーブロックが同じタイルに属すること、および2)タイル内のすべてのコーディングされたツリーブロックが同じスライスに属することのうちの少なくとも1つが満たされるべきである。

WPPにおいて、画像はCTBの単一の行に区分けされる。エントロピー復号および予測メカニズムは、その他の行のCTBからのデータを使用してもよい。CTBの行の並列的な復号によって、並列処理が可能にされる。たとえば、現在の行は、前の行と並列に復号されてもよい。しかし、現在の行の復号は、前の行の復号プロセスから2CTBだけ遅らされる。この遅延は、現在のCTBがコーディングされる前に現在の行内の現在のCTBの上のCTBおよび右上のCTBに関連するデータが利用可能であることを保証する。この手法は、グラフィカルに表現されるとき、波面に見える。このずらされた開始は、最大で画像が含むCTBの行と同じ数のプロセッサ/コアまでの並列化を可能にする。ピクチャ内の近隣のツリーブロックの行の間のピクチャ内予測が許されるので、ピクチャ内予測を可能にするためのプロセッサ間/コア間通信は、かなり多くなり得る。WPPの区分けは、NALユニットのサイズを考慮する。したがって、WPPは、MTUのサイズマッチングをサポートしない。しかし、要望通りにMTUのサイズマッチングを実施するために、通常のスライスが、特定のコーディングのオーバーヘッドを伴いながらWPPと併せて使用され得る。最後に、波面セグメント(wavefront segment)は、丁度1つのCTBの行を含んでもよい。さらに、WPPを使用するときおよびスライスがCTBの行内で始まるとき、スライスは、同じCTBの行内で終わるべきである。

タイルはまた、動き制約タイルセット(motion constrained tile set)を含んでもよい。動き制約タイルセット(MCTS)は、関連する動きベクトルがMCTS内のフルサンプル(full-sample)位置を指し、補間のためにMCTS内のフルサンプル位置のみを必要とする分数サンプル(fractional-sample)を指すように制約されるように設計されたタイルセットである。さらに、MCTS外のブロックから導出された時間的動きベクトル予測のための動きベクトル候補の使用は、許されない。このようにして、各MCTSは、MCTSに含まれないタイルの存在なしに独立して復号されてもよい。時間的MCTS補足拡張情報(SEI: supplemental enhancement information)メッセージが、ビットストリーム内のMCTSの存在を示し、MCTSをシグナリングするために使用されてもよい。MCTS SEIメッセージは、MCTSの組に関して適合するビットストリームを生成するために(SEIメッセージのセマンティクスの一部として指定された)MCTSサブビットストリーム抽出において使用され得る補足情報を提供する。情報は、それぞれがいくつかのMCTSの組を定義し、MCTSサブビットストリーム抽出プロセス中に使用される代替ビデオパラメータセット(VPS)、シーケンスパラメータセット(SPS)、およびピクチャパラメータセット(PPS)の生バイトシーケンスペイロード(RBSP)のバイトを含むいくつかの抽出情報セットを含む。MCTSサブビットストリーム抽出プロセスによってサブビットストリームを抽出するとき、パラメータセット(VPS、SPS、およびPPS)は、書き換えられるかまたは置き換えられてもよく、スライスヘッダは、(first_slice_segment_in_pic_flagおよびslice_segment_addressを含む)スライスアドレスに関連するシンタックス要素のうちの1つまたはすべてが抽出されたサブビットストリームにおいて異なる値を使用してもよいので更新されてもよい。

360度ビデオアプリケーションとも呼ばれるVRアプリケーションは、完全な球の一部のみおよび結果としてピクチャ全体のサブセットのみを表示してもよい。ハイパーテキスト転送プロトコル上の動的適応ストリーミング(DASH: dynamic adaptive streaming over hypertext transfer protocol)を介したビューポートに依存する360配信のメカニズムが、ビットレートを下げ、ストリーミングメカニズムによる360度ビデオの配信をサポートするために使用されてもよい。このメカニズムは、たとえば、キューブマップ投影(CMP: cubemap projection)を使用することによって球/投影されるピクチャを複数のMCTSに分割する。2つ以上のビットストリームが、異なる空間解像度または品質で符号化されてもよい。データをデコーダに配信するときは、より高い解像度/品質のビットストリームからのMCTSが、表示されるビューポート(たとえば、正面ビューポート)のために送信される。より低い解像度/品質のビットストリームからのMCTSは、その他のビューポートのために送信される。これらのMCTSは、特定の方法でパッキングされ、次いで、復号されるために受信機に送信される。ユーザによってみられるビューポートが、肯定的な視聴体験を生み出すために高い解像度/品質のMCTSによって表されることが期待される。ユーザの頭が別のビューポート(たとえば、左または右ビューポート)を見るために向きを変えるとき、表示される内容は、システムが新しいビューポートのために高解像度/品質のMCTSをフェッチしている短い期間の間、より低い解像度/品質のビューポートから来る。ユーザの頭が別のビューポートを見るために向きを変えるとき、ユーザの頭の向きが変わるときとビューポートのより高い解像度/品質の表現が見られるときとの間に遅延がある。この遅延は、システムがそのビューポートのためのより高解像度/品質のMCTSをどれだけ速くフェッチすることができるかに依存し、さらに、どれだけ速くフェッチすることができるかは、IRAPの周期に依存する。IRAPの周期は、2つのIRAPの発生の間の間隔である。この遅延は、新しいビューポートのMCTSがIRAPピクチャからのみ復号可能であり得るので、IRAPの周期に関連する。

たとえば、IRAPの周期が1秒毎にコーディングされる場合、次いで、以下が当てはまる。遅延の最良のシナリオは、システムが新しいセグメント/IRAPの周期をフェッチし始める直前にユーザの頭が新しいビューポートを見るために向きを変える場合のネットワーク往復遅延と同じである。このシナリオにおいて、システムは、新しいビューポートのためのより高い解像度/品質のMCTSを直ぐに要求することができ、したがって、最小のバッファリング遅延がほぼゼロに設定されることが可能であり、センサー遅延が小さく、無視できると仮定すると、唯一の遅延は、ネットワーク往復遅延であり、ネットワーク往復遅延は、フェッチ要求の遅延に要求されたMCTSの送信時間を足したものである。ネットワーク往復遅延は、たとえば、約200ミリ秒であることが可能である。遅延の最悪のシナリオは、システムが既に次のセグメントの要求を行った後でユーザの頭が新しいビューポートを見るために向きを変える場合のIRAPの周期+ネットワーク往復遅延である。ビットストリームは、上の最悪のシナリオを改善するためにIRAPの周期がより短くなるようにより頻繁なIRAPピクチャを用いて符号化されることが可能であり、それは、これが全体的な遅延を減らすからである。しかし、この手法は、圧縮効率が低下するので帯域幅の要件が大きくなる。

例示的な実装においては、同じコーディングされたピクチャのサブピクチャが、異なるnal_unit_typeの値を含むことを可能にされる。このメカニズムは、以下のように説明される。ピクチャは、サブピクチャに分割されてもよい。サブピクチャは、0に等しいtile_group_addressを有するタイルグループから始まるタイルグループ/スライスの長方形の組である。各サブピクチャは、対応するPPSを参照してもよく、したがって、別個のタイルの区分けを有してもよい。サブピクチャの存在は、PPS内で示されてもよい。各サブピクチャは、復号プロセスにおいてピクチャのように扱われる。サブピクチャの境界をまたぐループ内フィルタリングは、常に無効化されてもよい。サブピクチャの幅および高さは、ルマCTUサイズを単位として指定されてもよい。ピクチャ内のサブピクチャの位置は、シグナリングされなくてもよいが、以下のルールを使用して導出されてもよい。サブピクチャは、ピクチャの境界内のサブピクチャを含むのに十分なだけ大きい、ピクチャ内のCTUのラスタスキャン順で次の占有されていない位置を取る。各サブピクチャを復号するための参照ピクチャは、復号ピクチャバッファ内の参照ピクチャから現在のサブピクチャとコロケートされるエリアを抽出することによって生成される。抽出されるエリアは復号されたサブピクチャであり、したがって、同じサイズおよびピクチャ内の同じ位置のサブピクチャの間でインター予測が行われる。そのような場合、コーディングされるピクチャ内で異なるnal_unit_typeの値を許すことは、ランダムアクセスピクチャに由来するサブピクチャと非ランダムアクセスピクチャに由来するサブピクチャとが大きな困難なしに(たとえば、VCLレベルの修正なしに)同じコーディングされたピクチャに合併されることを可能にする。そのような利点は、MCTSに基づくコーディングに関しても当てはまる。

コーディングされるピクチャ内で異なるnal_unit_typeの値を許すことは、その他のシナリオにおいて有益であってもよい。たとえば、ユーザは、360度ビデオコンテンツの一部のエリアをその他のエリアよりも頻繁に見てもよい。MCTS/サブピクチャに基づくビューポートに依存する360度ビデオ配信におけるコーディング効率と平均的な同等の品質のビューポート切り替えレイテンシーとの間のより良いトレードオフを生むために、その他のエリアよりもよく見られるエリアに関してはより頻繁なIRAPピクチャがコーディングされ得る。同等の品質のビューポート切り替えレイテンシーは、第1のビューポートから第2のビューポートに切り替えるときに、第2のビューポートの提示品質が第1のビューポートと同等の提示品質に達するまでにユーザによって体験されるレイテンシーである。

別の実装は、POCの導出および参照ピクチャの管理を含む、ピクチャ内の混合されたNALユニットタイプのサポートのための以下の解決策を使用する。混合されたIRAPサブピクチャおよび非IRAPサブピクチャを有するピクチャが存在してもよいか否かを指定するために、タイルグループによって直接的にまたは間接的に参照されるフラグ(sps_mixed_tile_groups_in_pic_flag)が、パラメータセット内に存在する。IDRタイルグループを含むNALユニットに関しては、ピクチャに関するPOCの導出の際にPOC MSBがリセットされるか否かを指定するために、対応するタイルグループヘッダ内にフラグ(poc_msb_reset_flag)が存在する。PicRefreshFlagと呼ばれる変数が、定義され、ピクチャに関連付けられる。このフラグは、ピクチャを復号するときにPOCの導出およびDPBの状態がリフレッシュされるべきであるかどうかを指定する。PicRefreshFlagの値は、以下のように導出される。現在のタイルグループがビットストリームの第1のアクセスユニットに含まれる場合、PicRefreshFlagは、1に等しいように設定される。そうではなく、現在のタイルグループがIDRタイルグループである場合、PicRefreshFlagは、sps_mixed_tile_groups_in_pic_flag ? poc_msb_reset_flag : 1に等しいように設定される。そうではなく、現在のタイルグループがCRAタイルグループである場合、以下が当てはまる。現在のアクセスユニットがコーディングされるシーケンスの第1のアクセスユニットである場合、PicRefreshFlagは、1に等しいように設定される。アクセスユニットがエンドオブシーケンス(end of sequence)NALユニットの直後に続くかまたは関連する変数HandleCraAsFirstPicInCvsFlagが1に等しいように設定されるとき、現在のアクセスユニットは、コーディングされるシーケンスの第1のアクセスユニットである。それ以外の場合、PicRefreshFlagは、0に等しいように設定される(たとえば、現在のタイルグループは、ビットストリームの第1のアクセスユニットに属さず、IRAPタイルグループ
ではない)。

PicRefreshFlagが1に等しいとき、POC MSB(PicOrderCntMsb)の値は、ピクチャに関するPOCの導出中に0に等しいようにリセットされる。参照ピクチャセット(RPS)または参照ピクチャリスト(RPL)などの参照ピクチャ管理のために使用される情報は、対応するNALユニットタイプに関係なくタイルグループ/スライスヘッダ内でシグナリングされる。参照ピクチャリストは、NALユニットタイプに関係なく各タイルグループの復号の始めに構築される。参照ピクチャリストは、RPLの手法のためのRefPicList[ 0 ]およびRefPicList[ 1 ]、RPSの手法のためのRefPicList0[ ]およびRefPicList1[ ]、またはピクチャに関するインター予測動作のための参照ピクチャを含む同様のリストを含んでもよい。PicRefreshFlagが1に等しいときは、参照ピクチャのマーキングプロセス中に、DPB内のすべての参照ピクチャが、参照のために使用されないものとしてマーキングされる。

そのような実装は、特定の問題に関連付けられる。たとえば、ピクチャ内のnal_unit_typeの値の混合が許されないとき、ならびにピクチャがIRAPピクチャであるかどうかの導出および変数NoRaslOutputFlagの導出がピクチャレベルで記述されるとき、デコーダは、任意のピクチャの第1のVCL NALユニットを受信した後、これらの導出を実行し得る。しかし、ピクチャ内の混合されたNALユニットタイプのサポートが原因で、デコーダは、上の導出を実行する前にその他のVCL NALユニットの到着を待たなくてはならない。最悪の場合、デコーダは、ピクチャの最後のVCL NALユニットの到着を待たなくてはならない。さらに、そのようなシステムは、ピクチャのためのPOCの導出の際にPOC MSBがリセットされるか否かを指定するために、IDR NALユニットのタイルグループヘッダ内でフラグをシグナリングしてもよい。このメカニズムは、以下の問題を有する。混合されたCRA NALユニットタイプおよび非IRAP NALユニットタイプの場合は、このメカニズムによってサポートされない。さらに、VCL NALユニットのタイルグループ/スライスヘッダ内でこの情報をシグナリングすることは、IRAP(IDRまたはCRA) NALユニットがピクチャ内で非IRAP NALユニットと混合されるかどうかのステータスに変更があるとき、ビットストリームの抽出または合併中に値が変更されることを必要とする。スライスヘッダのそのような書き換えは、ユーザがビデオを要求するときにはいつも発生し、したがって、多大なハードウェアリソースを必要とする。さらに、特定のIRAP NALユニットタイプおよび特定の非IRAP NALユニットタイプの混合以外のピクチャ内の異なるNALユニットタイプのいくつかのその他の混合が、許される。そのような柔軟性は、実用的なユースケースのサポートを提供しない一方、それらは、コーデックの設計を複雑にし、それは、デコーダの複雑さを不必要に高め、したがって、関連する実装のコストを上げる。

概して、本開示は、ビデオコーディングにおけるサブピクチャまたはMCTSに基づくランダムアクセスのサポートのための技術を説明する。より詳細には、本開示は、サブピクチャまたはMCTSに基づくランダムアクセスをサポートするために使用される、ピクチャ内の混合されたNALユニットタイプのサポートのための改善された設計を説明する。技術の説明は、VVC規格に基づくが、その他のビデオ/メディアコーデック仕様にも当てはまる。

上の問題を解決するために、以下の例示的な実装が開示される。そのような実装は、個々にまたは組み合わせて適用され得る。一例において、各ピクチャは、ピクチャが混合されたnal_unit_typeの値を含むかどうかのインジケーションに関連付けられる。このインジケーションは、PPS内でシグナリングされる。このインジケーションは、すべての参照ピクチャを参照のために使用されないものとしてマーキングすることによってPOC MSBをリセットすべきかどうかおよび/またはDPBをリセットすべきかどうかの判定をサポートする。インジケーションがPPS内でシグナリングされるとき、PPS内の値の変更は、合併または別個の抽出中に行われてもよい。しかし、これは、そのようなビットストリームの抽出または合併中にPPSがその他のメカニズムによって書き換えられ、置き換えられるときに許容され得る。

代替的に、このインジケーションは、タイルグループヘッダ内でシグナリングされるが、ピクチャのすべてのタイルグループに関して同じであることを求められてもよい。しかし、この場合、値が、MCTS/サブピクチャのシーケンスのサブビットストリームの抽出中に変更される必要がある可能性がある。代替的に、このインジケーションは、NALユニットヘッダ内でシグナリングされるが、ピクチャのすべてのタイルグループに関して同じであることを求められてもよい。しかし、この場合、値が、MCTS/サブピクチャのシーケンスのサブビットストリームの抽出中に変更される必要がある可能性がある。代替的に、このインジケーションは、ピクチャのために使用されるときにピクチャのすべてのVCL NALユニットが同じNALユニットタイプの値を持つような追加的なVCL NALユニットタイプを定義することによってシグナリングされてもよい。しかし、この場合、VCL NALユニットのNALユニットタイプの値が、MCTS/サブピクチャのシーケンスのサブビットストリームの抽出中に変更される必要がある可能性がある。代替的に、このインジケーションは、ピクチャのために使用されるときにピクチャのすべてのVCL NALユニットが同じNALユニットタイプの値を持つような追加的なIRAP VCL NALユニットタイプを定義することによってシグナリングされてもよい。しかし、この場合、VCL NALユニットのNALユニットタイプの値が、MCTS/サブピクチャのシーケンスのサブビットストリームの抽出中に変更される必要がある可能性がある。代替的に、IRAP NALユニットタイプのいずれかの少なくとも1つのVCL NALユニットを有する各ピクチャが、ピクチャが混合されたNALユニットタイプの値を含むかどうかのインジケーションに関連付けられてもよい。

さらに、混合されたIRAP NALユニットタイプおよび非IRAP NALユニットタイプのみを許すことによって限られた方法でピクチャ内のnal_unit_typeの値の混合が可能にされるような制約が、適用されてもよい。任意の特定のピクチャに関して、すべてのVCL NALユニットが同じNALユニットタイプを有するか、または一部のVCL NALユニットが特定のIRAP NALユニットタイプを有し、残りが特定の非IRAP VCL NALユニットタイプを有するかのどちらかである。言い換えると、任意の特定のピクチャのVCL NALユニットは、2つ以上のIRAP NALユニットタイプを持つことができず、2つ以上の非IRAP NALユニットタイプを持つことができない。ピクチャは、ピクチャが混合されたnal_unit_typeの値を含まず、VCL NALユニットがIRAP NALユニットタイプを有する場合にのみIRAPピクチャとみなされてもよい。IRAP ピクチャに属さない(IDRを含む)すべてのIRAP NALユニットに関して、POC MSBは、リセットされなくてもよい。IRAPピクチャに属さない(IDRを含む)すべてのIRAP NALユニットに関して、DPBは、リセットされず、したがって、すべての参照ピクチャを参照のために使用されないものとしてマーキングすることは、実行されない。TemporalIdは、ピクチャの少なくとも1つのVCL NALユニットがIRAP NALユニットである場合、ピクチャに関して0に等しいように設定されてもよい。

以下は、上述の態様のうちの1つ以上の特定の実装である。IRAPピクチャは、mixed_nalu_types_in_pic_flagの値が0に等しく、各VCL NALユニットがIDR_W_RADLおよびRSV_IRAP_VCL13を含んでIDR_W_RADLからRSV_IRAP_VCL13までの範囲内のnal_unit_typeを有するコーディングされたピクチャとして定義されてもよい。例示的なPPSのシンタックスおよびセマンティクスは、以下の通りである。

mixed_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが複数のVCL NALユニットを有し、これらのNALユニットがnal_unit_typeの同じ値を持たないことを指定するために0に等しいように設定される。mixed_nalu_types_in_pic_flagは、PPSを参照する各ピクチャのVCL NALユニットがnal_unit_typeの同じ値を有することを指定するために0に等しいように設定される。

例示的なタイルグループ/スライスヘッダのシンタックスは、以下の通りである。

例示的なNALユニットヘッダのセマンティクスは、以下の通りである。任意の特定のピクチャのVCL NALユニットに関して、以下の2つの条件のうちのどちらかが満たされる。すべてのVCL NALユニットが、nal_unit_typeの同じ値を有する。VCL NALユニットの一部が、特定のIRAP NALユニットタイプの値(つまり、IDR_W_RADLおよびRSV_IRAP_VCL13を含んでIDR_W_RADLからRSV_IRAP_VCL13までの範囲内のnal_unit_typeの値)を有する一方、すべてのその他のVCL NALユニットは、特定の非IRAP VCL NALユニットタイプ(つまり、TRAIL_NUTおよびRSV_VCL_7を含んでTRAIL_NUTからRSV_VCL_7までの範囲内またはRSV_VCL14およびRSV_VCL15を含んでRSV_VCL14からRSV_VCL15までの範囲内のnal_unit_typeの値)を有する。nuh_temporal_id_plus1から1を引いた値は、NALユニットに関する時間識別子(temporal identifier)を指定する。nuh_temporal_id_plus1の値は、0に等しくない。

変数TemporalIdは、以下のように導出される。
TemporalId = nuh_temporal_id_plus1 - 1 (7-1)

nal_unit_typeがピクチャのVCL NALユニットに関してIDR_W_RADLおよびRSV_IRAP_VCL13を含んでIDR_W_RADLからRSV_IRAP_VCL13までの範囲内にあるとき、ピクチャのその他のVCL NALユニットのnal_unit_typeの値と無関係に、TemporalIdは、ピクチャのすべてのVCL NALユニットに関して0に等しい。TemporalIdの値は、アクセスユニットのすべてのVCL NALユニットに関して同じである。コーディングされたピクチャまたはアクセスユニットのTemporalIdの値は、コーディングされたピクチャまたはアクセスユニットのVCL NALユニットのTemporalIdの値である。

コーディングされたピクチャのための例示的な復号プロセスは、以下の通りである。復号プロセスは、現在のピクチャCurrPicに関して以下のように動作する。NALユニットの復号が、本明細書において詳細に示される。以下の復号プロセスは、タイルグループヘッダのレイヤおよびそれよりも上位のレイヤのシンタックス要素を使用する。ピクチャ順序カウントに関連する変数および関数が、本明細書において詳細に示されるように導出される。これは、ピクチャの最初のタイルグループ/スライスに関してのみ呼び出される。各タイルグループ/スライスに関する復号プロセスの初めに、参照ピクチャリストの構築のための復号プロセスが、参照ピクチャリスト0(RefPicList[ 0 ])および参照ピクチャリスト1(RefPicList[ 1 ])の導出のために呼び出される。現在のピクチャがIDRピクチャである場合、次いで、参照ピクチャリストの構築のための復号プロセスが、ビットストリームの適合性を検査する目的で呼び出されてもよいが、現在のピクチャまたは復号順で現在のピクチャに続くピクチャの復号のためには必要でなくてもよい。

参照ピクチャリストの構築のための復号プロセスは、以下の通りである。このプロセスは、各タイルグループに関する復号プロセスの初めに呼び出される。参照ピクチャは、参照インデックスによってアドレス指定される。参照インデックスは、参照ピクチャリストへのインデックスである。Iタイルグループを復号するとき、参照ピクチャリストは、タイルグループデータの復号において使用されない。Pタイルグループを復号するときは、参照ピクチャリスト0(RefPicList[ 0 ])のみが、タイルグループデータの復号において使用される。Bタイルグループを復号するときは、参照ピクチャリスト0と参照ピクチャリスト1(RefPicList[ 1 ])との両方が、タイルグループデータの復号において使用される。各タイルグループに関する復号プロセスの初めに、参照ピクチャリストRefPicList[ 0 ]およびRefPicList[ 1 ]が、導出される。参照ピクチャリストは、参照ピクチャのマーキングにおいてまたはタイルグループデータの復号において使用される。IDRピクチャのすべてのタイルグループまたは非IDRピクチャのIタイルグループに関しては、RefPicList[ 0 ]およびRefPicList[ 1 ]が、ビットストリームの適合性を検査する目的で導出されてもよいが、それらの導出は、現在のピクチャまたは復号順で現在のピクチャに続くピクチャの復号のために必要ではない。Pタイルグループに関しては、RefPicList[ 1 ]が、ビットストリームの適合性を検査する目的で導出されてもよいが、導出は、現在のピクチャまたは復号順で現在のピクチャに続くピクチャの復号のために必要ではない。

図8は、例示的なビデオコーディングデバイス800の概略図である。ビデオコーディングデバイス800は、本明細書において説明されるように開示される例/実施形態を実装するのに好適である。ビデオコーディングデバイス800は、ダウンストリームポート820、アップストリームポート850、ならびに/またはネットワークを介して上流におよび/もしくは下流にデータを伝達するための送信機および/もしくは受信機を含むトランシーバユニット(Tx/Rx)810を含む。ビデオコーディングデバイス800は、データを処理するための論理ユニットおよび/または中央演算処理装置(CPU)を含むプロセッサ830と、データを記憶するためのメモリ832とをさらに含む。ビデオコーディングデバイス800は、電気、光、またはワイヤレス通信ネットワークを介したデータの通信のためにアップストリームポート850および/またはダウンストリームポート820に結合された電気、光-電気(OE)構成要素、電気-光(EO)構成要素、および/またはワイヤレス通信構成要素も含んでもよい。ビデオコーディングデバイス800は、ユーザにおよびユーザからデータを伝達するための入力および/または出力(I/O)デバイス860も含んでもよい。I/Oデバイス860は、ビデオデータを表示するためのディスプレイ、オーディオデータを出力するためのスピーカなどの出力デバイスを含んでもよい。I/Oデバイス860は、キーボード、マウス、トラックボールなどの入力デバイス、および/またはそのような出力デバイスとインタラクションするための対応するインターフェースも含んでもよい。

プロセッサ830は、ハードウェアおよびソフトウェアによって実装される。プロセッサ830は、1つ以上のCPUチップ、コア(たとえば、マルチコアプロセッサとして)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、およびデジタル信号プロセッサ(DSP)として実装されてもよい。プロセッサ830は、ダウンストリームポート820、Tx/Rx 810、アップストリームポート850、およびメモリ832と通信する。プロセッサ830は、コーディングモジュール814を含む。コーディングモジュール814は、CVS 500、VRピクチャビデオストリーム600、および/またはビットストリーム700を使用してもよい、方法100、900、および1000などの本明細書において説明される開示される実施形態を実装する。コーディングモジュール814は、本明細書において説明される任意のその他の方法/メカニズムも実装してもよい。さらに、コーディングモジュール814は、コーデックシステム200、エンコーダ300、および/またはデコーダ400を実装してもよい。たとえば、コーディングモジュール814は、ピクチャがIRAP NALユニットと非IRAP NALユニットとの両方を含むときを示し、単一のタイプのIRAP NALユニットおよび単一のタイプの非IRAP NALユニットのみを含むようにそのようなピクチャを制約するためのPPS内のフラグを設定し得る。したがって、コーディングモジュール814は、ビデオデータをコーディングするときにビデオコーディングデバイス800に追加的な機能および/またはコーディング効率を提供させる。したがって、コーディングモジュール814は、ビデオコーディングデバイス800の機能性を高め、ビデオコーディング技術に固有の問題に対処する。さらに、コーディングモジュール814は、異なる状態へのビデオコーディングデバイス800の転換をもたらす。代替的に、コーディングモジュール814は、メモリ832に記憶され、プロセッサ830によって実行される命令として(たとえば、非一時的媒体に記憶されたコンピュータプログラム製品として)実装され得る。

メモリ832は、ディスク、テープドライブ、ソリッドステートドライブ、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、フラッシュメモリ、3値連想メモリ(TCAM: ternary content-addressable memory)、スタティックランダムアクセスメモリ(SRAM)などの1つ以上のメモリを含む。メモリ832は、プログラムが実行するために選択されるときにそのようなプログラムを記憶するためならびにプログラムの実行中に読まれる命令およびデータを記憶するためのオーバーフローデータストレージデバイス(over-flow data storage device)として使用されてもよい。

図9は、複数のビデオ解像度の複数のサブピクチャビデオストリーム601～603から合併されたVRピクチャビデオストリーム600を含むビットストリーム700などのビットストリームに混合されたNALユニットタイプを有するピクチャを含むCVS 500などのビデオシーケンスを符号化する例示的な方法900の流れ図である。方法900は、方法100を実行しているときにコーデックシステム200、エンコーダ300、および/またはビデオコーディングデバイス800などのエンコーダによって使用されてもよい。

方法900は、エンコーダがVRピクチャなどの複数のピクチャを含むビデオシーケンスを受信し、たとえば、ユーザ入力に基づいてそのビデオシーケンスをビットストリームに符号化すると決定するときに始まってもよい。ステップ901において、現在のピクチャが異なるタイプの複数のサブピクチャを含むかどうかをエンコーダが判定する。そのようなタイプは、IRAPサブピクチャの一部を含むピクチャの少なくとも1つのスライスおよび非IRAP NALサブピクチャの一部を含むピクチャの少なくとも1つのスライスを含んでもよい。ステップ903において、エンコーダが、ピクチャのサブピクチャのスライスをビットストリーム内の複数のVCL NALユニットに符号化する。そのようなVCL NALユニットは、1つ以上のIRAP NALユニットおよび1つ以上の非IRAP NALユニットを含んでもよい。たとえば、符号化ステップは、デコーダに伝達するために異なる解像度のサブビットストリームを単一のビットストリームに合併することを含んでもよい。

ステップ905において、エンコーダが、PPSをビットストリームに符号化し、フラグをビットストリーム内のPPSに符号化する。特定の例として、PPSを符号化することは、たとえば、サブビットストリームの合併に応じて、既に符号化されたPPSをフラグの値を含むように変更することを含んでもよい。フラグは、NALユニットタイプの値がピクチャに関連するすべてのVCL NALユニットに関して同じであるとき、第1の値に設定されてもよい。また、フラグは、ピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第1のNALユニットタイプの値がピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第2のNALユニットタイプの値と異なるとき、第2の値に設定されてもよい。たとえば、第1のNALユニットタイプの値は、ピクチャがIRAPサブピクチャを含むことを示してもよく、第2のNALユニットタイプの値は、ピクチャが非IRAPサブピクチャも含むことを示してもよい。さらに、第1のNALユニットタイプの値は、IDR_W_RADL、IDR_N_LP、またはCRA_NUTのうちの1つに等しくてもよい。さらに、第2のNALユニットタイプの値は、TRAIL_NUT、RADL_NUT、またはRASL_NUTのうちの1つに等しくてもよい。特定の例として、フラグは、mixed_nalu_types_in_pic_flagであってもよい。特定の例において、mixed_nalu_types_in_pic_flagは、フラグを含むPPSを参照する各ピクチャが2つ以上のVCL NALユニットを有することを指定するために1に等しいように設定されてもよい。さらには、フラグは、対応するピクチャに関連するVCL NALユニットがすべてNALユニットタイプ(nal_unit_type)の同じ値を持つわけではないことを指定する。別の特定の例において、mixed_nalu_types_in_pic_flagは、フラグを含むPPSを参照する各ピクチャが1つ以上のVCL NALユニットを有することを指定するために0に等しいように設定されてもよい。さらに、フラグは、対応するピクチャのすべてのVCL NALユニットがnal_unit_typeの同じ値を有することを指定する。

ステップ907において、エンコーダが、デコーダに伝達するためのビットストリームを記憶してもよい。

図10は、複数のビデオ解像度の複数のサブピクチャビデオストリーム601～603から合併されたVRピクチャビデオストリーム600を含むビットストリーム700などのビットストリームから混合されたNALユニットタイプを有するピクチャを含むCVS 500などのビデオシーケンスを復号する例示的な方法1000の流れ図である。方法1000は、方法100を実行しているときにコーデックシステム200、デコーダ400、および/またはビデオコーディングデバイス800などのデコーダによって使用されてもよい。

方法1000は、たとえば、方法900の結果としてビデオシーケンスを表すコーディングされたデータのビットストリームをデコーダが受信し始めるときに開始してもよい。ステップ1001において、デコーダが、ビットストリームを受信する。ビットストリームは、ピクチャに関連する複数のサブピクチャおよびフラグを含む。特定の例において、ビットストリームは、フラグを含むPPSを含んでもよい。さらに、サブピクチャは、複数のVCL NALユニットに含まれる。たとえば、サブピクチャに関連するスライスが、VCL NALユニットに含まれる。

ステップ1003において、フラグが第1の値に設定されているとき、デコーダが、NALユニットタイプの値がピクチャに関連するすべてのVCL NALユニットに関して同じであると判定する。さらに、フラグが第2の値に設定されているとき、デコーダは、ピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第1のNALユニットタイプの値がピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第2のNALユニットタイプの値と異なると判定する。たとえば、第1のNALユニットタイプの値は、ピクチャがIRAPサブピクチャを含むことを示してもよく、第2のNALユニットタイプの値は、ピクチャが非IRAPサブピクチャも含むことを示してもよい。さらに、第1のNALユニットタイプの値は、IDR_W_RADL、IDR_N_LP、またはCRA_NUTのうちの1つに等しくてもよい。さらに、第2のNALユニットタイプの値は、TRAIL_NUT、RADL_NUT、またはRASL_NUTのうちの1つに等しくてもよい。特定の例として、フラグは、mixed_nalu_types_in_pic_flagであってもよい。mixed_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが2つ以上のVCL NALユニットを有し、VCL NALユニットがNALユニットタイプ(nal_unit_type)の同じ値を持たないことを指定するとき、1に等しいように設定されてもよい。また、mixed_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが1つ以上のVCL NALユニットを有し、PPSを参照する各ピクチャのVCL NALユニットがnal_unit_typeの同じ値を有するとき、0に等しいように設定されてもよい。

ステップ1005において、デコーダが、NALユニットタイプの値に基づいてサブピクチャのうちの1つ以上を復号してもよい。また、デコーダは、ステップ1007において、復号されたビデオシーケンスの一部として表示するためにサブピクチャのうちの1つ以上を転送してもよい。

図11は、複数のビデオ解像度の複数のサブピクチャビデオストリーム601～603から合併されたVRピクチャビデオストリーム600を含むビットストリーム700などのビットストリームに混合されたNALユニットタイプを有するピクチャを含むCVS 500などのビデオシーケンスをコーディングするための例示的なシステム1100の概略図である。システム1100は、コーデックシステム200、エンコーダ300、デコーダ400、および/またはビデオコーディングデバイス800などのエンコーダおよびデコーダによって実装されてもよい。さらに、システム1100は、方法100、900、および/または1000を実施するときに使用されてもよい。

システム1100は、ビデオエンコーダ1102を含む。ビデオエンコーダ1102は、ピクチャが異なるタイプの複数のサブピクチャを含むかどうかを判定するための判定モジュール1101を含む。ビデオエンコーダ1102は、ピクチャのサブピクチャをビットストリーム内の複数のVCL NALユニットに符号化するための符号化モジュール1103をさらに含む。さらに、符号化モジュール1103は、NALユニットタイプの値がピクチャに関連するすべてのVCL NALユニットに関して同じであるときに第1の値に設定され、ピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第1のNALユニットタイプの値がピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第2のNALユニットタイプの値と異なるときに第2の値に設定されたフラグをビットストリームに符号化するためのものである。ビデオエンコーダ1102は、デコーダに伝達するためのビットストリームを記憶するための記憶モジュール1105をさらに含む。ビデオエンコーダ1102は、ビットストリームをビデオデコーダ1110に送信するための送信モジュール1107をさらに含む。ビデオエンコーダ1102は、方法900のステップのいずれかを実行するようにさらに構成されてもよい。

システム1100は、ビデオデコーダ1110も含む。ビデオデコーダ1110は、ピクチャに関連する複数のサブピクチャおよびフラグを含むビットストリームを受信するための受信モジュール1111を含む、サブピクチャは、複数のVCL NALユニットに含まれる。ビデオデコーダ1110は、フラグが第1の値に設定されているとき、NALユニットタイプの値がピクチャに関連するすべてのVCL NALユニットに関して同じであると判定する判定モジュール1113をさらに含む。さらに、判定モジュール1113は、フラグが第2の値に設定されているとき、ピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第1のNALユニットタイプの値がピクチャのサブピクチャのうちの1つ以上を含むVCL NALユニットに関する第2のNALユニットタイプの値と異なると判定するためのものである。ビデオデコーダ1110は、NALユニットタイプの値に基づいてサブピクチャのうちの1つ以上を復号するための復号モジュール1115をさらに含む。ビデオデコーダ1110は、復号されたビデオシーケンスの一部として表示するためのサブピクチャのうちの1つ以上を転送するための転送モジュール1117をさらに含む。ビデオデコーダ1110は、方法1000のステップのいずれかを実行するようにさらに構成されてもよい。

第1の構成要素は、第1の構成要素と第2の構成要素との間の回線、トレース、または別の媒体を除いて仲介構成要素がないとき、第2の構成要素に直接結合される。第1の構成要素は、第1の構成要素と第2の構成要素との間の回線、トレース、または別の媒体以外の仲介構成要素があるとき、第2の構成要素に間接的に結合される。用語「結合される」およびその変化形は、直接的に結合されると間接的に結合されるとの両方を含む。用語「約」の使用は、そうでないことが述べられない限り、その後の数の±10%を含む範囲を意味する。

本明細書において説明された例示的な方法のステップは、必ずしも説明された順序で実行されることを求められず、そのような方法のステップの順序は、例示的であるに過ぎないと理解されるべきであることも理解されたい。同様に、さらなるステップが、そのような方法に含まれてもよく、特定のステップが、本開示の様々な実施形態に一致する方法においては省略されるかまたは組み合わされてもよい。

いくつかの実施形態が本開示において与えられたが、開示されたシステムおよび方法は、本開示の精神または範囲を逸脱することなく多くのその他の特定の形態で具現化されてもよいことが理解されるであろう。これらの例は、例示的であって限定的でないと考えられるべきであり、意図は、本明細書において与えられた詳細に限定されるべきでない。たとえば、様々な要素もしくは構成要素が、組み合わされるかもしくは別のシステムに統合されてもよく、または特定の特徴が、省略されるかもしくは実装されなくてもよい。

加えて、様々な実施形態において分離しているまたは別々であるものとして説明され、図示された技術、システム、サブシステム、および方法は、本開示の範囲を逸脱することなくその他のシステム、構成要素、技術、または方法と組み合わされるかまたは統合されてもよい。変更、置き換え、および改変のその他の例が、当業者によって突き止められる可能性があり、本明細書において開示された精神および範囲を逸脱することなくなされる可能性がある。

100 動作方法
200 符号化および復号(コーデック)システム
201 区分けされたビデオ信号
211 全般的コーダ制御構成要素
213 変換・スケーリングおよび量子化構成要素
215 イントラピクチャ推定構成要素
217 イントラピクチャ予測構成要素
219 動き補償構成要素
221 動き推定構成要素
223 復号ピクチャバッファ構成要素
225 ループ内フィルタ構成要素
227 フィルタ制御分析構成要素
229 スケーリングおよび逆変換構成要素
231 ヘッダフォーマットおよびコンテキスト適応2値算術コーディング(CABAC)構成要素
300 ビデオエンコーダ
301 区分けされたビデオ信号
313 変換および量子化構成要素
317 イントラピクチャ予測構成要素
321 動き補償構成要素
323 復号ピクチャバッファ構成要素
325 ループ内フィルタ構成要素
329 逆変換および量子化構成要素
331 エントロピーコーディング構成要素
400 ビデオデコーダ
417 イントラピクチャ予測構成要素
421 動き補償構成要素
423 復号ピクチャバッファ構成要素
425 ループ内フィルタ構成要素
429 逆変換および量子化構成要素
433 エントロピー復号構成要素
500 CVS
502 IRAPピクチャ
504 リーディングピクチャ
506 トレーリングピクチャ
508 復号順
510 提示順
600 VRピクチャビデオストリーム
601 サブピクチャビデオストリーム
602 サブピクチャビデオストリーム
603 サブピクチャビデオストリーム
700 ビットストリーム
710 シーケンスパラメータセット(SPS)
711 ピクチャパラメータセット(PPS)
715 スライスヘッダ
720 画像データ
721 ピクチャ
723 サブピクチャ
725 スライス
727 ピクチャ内混合NALユニットタイプフラグ(mixed_nalu_types_in_pic_flag)
730 非VCL NALユニット
731 SPS NALユニットタイプ(SPS_NUT)
732 PPS NALユニットタイプ(PPS_NUT)
740 VCL NALユニット
741 IDR_N_LP NALユニット
742 IDR_w_RADL NALユニット
743 CRA_NUT
745 IRAP NALユニット
746 RASL_NUT
747 RADL_NUT
748 TRAIL_NUT
749 非IRAP NALユニット
800 ビデオコーディングデバイス
810 トランシーバユニット(Tx/Rx)
814 コーディングモジュール
820 ダウンストリームポート
830 プロセッサ
832 メモリ
850 アップストリームポート
860 入力および/または出力(I/O)デバイス
900 方法
1000 方法
1100 システム
1101 判定モジュール
1102 ビデオエンコーダ
1103 符号化モジュール
1105 記憶モジュール
1107 送信モジュール
1110 ビデオデコーダ
1111 受信モジュール
1113 判定モジュール
1115 復号モジュール
1117 転送モジュール

Claims

デコーダにおいて実施される方法であって、
ピクチャに関連する複数のサブピクチャおよびフラグを含むビットストリームを前記デコーダの受信機によって受信するステップであって、前記サブピクチャが、複数のビデオコーディングレイヤ(VCL)ネットワーク抽象化レイヤ(NAL)ユニットに含まれ、前記フラグが、mixed_nalu_types_in_pic_flagである、ステップと、
前記フラグが第1の値に設定されているとき、第1のNALユニットタイプの値が前記ピクチャに関連する前記VCL NALユニットのすべてに関して同じであると前記デコーダのプロセッサによって判定するステップと、
前記フラグが第2の値に設定されているとき、前記ピクチャの前記サブピクチャのうちの1つ以上を含む前記VCL NALユニットのうちの第1の組のVCL NALユニットに関する第1のNALユニットタイプの値が前記ピクチャの前記サブピクチャのうちの1つ以上を含む前記VCL NALユニットのうちの第2の組のVCL NALユニットに関する第2のNALユニットタイプの値と異なると前記プロセッサによって判定するステップと、
前記第1のNALユニットタイプの値または前記第2のNALユニットタイプの値に基づいて前記サブピクチャのうちの1つ以上を前記プロセッサによって復号するステップとを含む、方法。
前記ビットストリームが、前記フラグを含むピクチャパラメータセット(PPS)を含む請求項1に記載の方法。
前記第1のNALユニットタイプの値が、前記ピクチャがイントラランダムアクセスポイント(IRAP)サブピクチャを含むことを示し、前記第2のNALユニットタイプの値が、前記ピクチャが非IRAPサブピクチャを含むことを示す請求項1または2に記載の方法。
前記第1のNALユニットタイプの値が、ランダムアクセス復号可能リーディングピクチャを有する瞬時復号リフレッシュ(IDR)(IDR_W_RADL)、リーディングピクチャを持たないIDR(IDR_N_LP)、またはクリーンランダムアクセス(CRA)NALユニットタイプ(CRA_NUT)に等しい請求項1から3のいずれか一項に記載の方法。
前記第2のNALユニットタイプの値が、トレーリングピクチャNALユニットタイプ(TRAIL_NUT)、ランダムアクセス復号可能リーディングピクチャNALユニットタイプ(RADL_NUT)、またはランダム・アクセス・スキップ・リーディング・ピクチャ(RASL)NALユニットタイプ(RASL_NUT)に等しい請求項1から4のいずれか一項に記載の方法。
PPSを参照する前記ピクチャが前記VCL NALユニットのうちの2つ以上を有し、前記VCL NALユニットがNALユニットタイプ(nal_unit_type)の同じ値を持たないことを指定するとき、mixed_nalu_types_in_pic_flagが1に等しく、前記PPSを参照する前記ピクチャが前記VCL NALユニットのうちの1つ以上を有し、前記VCL NALユニットがnal_unit_typeの同じ値を有することを指定するとき、mixed_nalu_types_in_pic_flagが0に等しい請求項1から5のいずれか一項に記載の方法。
エンコーダにおいて実施される方法であって、
ピクチャが異なるタイプの複数のサブピクチャを含むかどうかを前記エンコーダのプロセッサによって判定するステップと、
前記ピクチャの前記サブピクチャをビットストリーム内の複数のビデオコーディングレイヤ(VCL)ネットワーク抽象化レイヤ(NAL)ユニットに前記プロセッサによって符号化するステップと、
第1のNALユニットタイプの値が前記ピクチャに関連する前記VCL NALユニットのすべてに関して同じであるときに第1の値に設定され、前記ピクチャの前記サブピクチャのうちの1つ以上を含む前記VCL NALユニットのうちの第1の組のVCL NALユニットに関する第1のNALユニットタイプの値が前記ピクチャの前記サブピクチャのうちの1つ以上を含む前記VCL NALユニットのうちの第2の組のVCL NALユニットに関する第2のNALユニットタイプの値と異なるときに第2の値に設定されたフラグを前記プロセッサによって前記ビットストリームに符号化し、前記フラグが、mixed_nalu_types_in_pic_flagである、ステップと、
デコーダに伝達するための前記ビットストリームを、前記プロセッサに結合されたメモリによって記憶するステップとを含む、方法。
ピクチャパラメータセット(PPS)を前記ビットストリームに符号化するステップであって、前記フラグが、前記PPSに符号化される、ステップをさらに含む請求項7に記載の方法。
前記第1のNALユニットタイプの値が、前記ピクチャがイントラランダムアクセスポイント(IRAP)サブピクチャを含むことを示し、前記第2のNALユニットタイプの値が、前記ピクチャが非IRAPサブピクチャを含むことを示す請求項7または8に記載の方法。
前記第1のNALユニットタイプの値が、ランダムアクセス復号可能リーディングピクチャを有する瞬時復号リフレッシュ(IDR)(IDR_W_RADL)、リーディングピクチャを持たないIDR(IDR_N_LP)、またはクリーンランダムアクセス(CRA)NALユニットタイプ(CRA_NUT)に等しい請求項7から9のいずれか一項に記載の方法。
前記第2のNALユニットタイプの値が、トレーリングピクチャNALユニットタイプ(TRAIL_NUT)、ランダムアクセス復号可能リーディングピクチャNALユニットタイプ(RADL_NUT)、またはランダム・アクセス・スキップ・リーディング・ピクチャ(RASL)NALユニットタイプ(RASL_NUT)に等しい請求項7から10のいずれか一項に記載の方法。
PPSを参照する前記ピクチャが前記VCL NALユニットのうちの2つ以上を有し、前記VCL NALユニットがNALユニットタイプ(nal_unit_type)の同じ値を持たないことを指定するとき、mixed_nalu_types_in_pic_flagが1に等しく、前記PPSを参照する前記ピクチャが前記VCL NALユニットのうちの1つ以上を有し、前記VCL NALユニットがnal_unit_typeの同じ値を有することを指定するとき、mixed_nalu_types_in_pic_flagが0に等しい請求項7から11のいずれか一項に記載の方法。
プロセッサと、プロセッサに結合された受信機と、前記プロセッサに結合されたメモリと、前記プロセッサに結合された送信機とを含み、前記プロセッサ、前記受信機、前記メモリ、および前記送信機が、請求項1から6のいずれか一項に記載の方法を実行するように構成される、ビデオコーディングデバイス。
プロセッサと、プロセッサに結合された受信機と、前記プロセッサに結合されたメモリと、前記プロセッサに結合された送信機とを含み、前記プロセッサ、前記受信機、前記メモリ、および前記送信機が、請求項7から12のいずれか一項に記載の方法を実行するように構成される、ビデオコーディングデバイス。
ビデオコーディングデバイスによって使用するためのコンピュータプログラム製品を含む非一時的コンピュータ可読媒体であって、前記コンピュータプログラム製品が、プロセッサによって実行されるときに前記ビデオコーディングデバイスに請求項1から6のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読媒体に記憶されたコンピュータが実行可能な命令を含む、非一時的コンピュータ可読媒体。
ビデオコーディングデバイスによって使用するためのコンピュータプログラム製品を含む非一時的コンピュータ可読媒体であって、前記コンピュータプログラム製品が、プロセッサによって実行されるときに前記ビデオコーディングデバイスに請求項7から12のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読媒体に記憶されたコンピュータが実行可能な命令を含む、非一時的コンピュータ可読媒体。
ピクチャに関連する複数のサブピクチャおよびフラグを含むビットストリームを受信するための受信手段であって、前記サブピクチャが、複数のビデオコーディングレイヤ(VCL)ネットワーク抽象化レイヤ(NAL)ユニットに含まれ、前記フラグが、mixed_nalu_types_in_pic_flagである、受信手段と、
判定手段であって、
前記フラグが第1の値に設定されているとき、第1のNALユニットタイプの値が前記ピクチャに関連する前記VCL NALユニットのすべてに関して同じであると判定し、
前記フラグが第2の値に設定されているとき、前記ピクチャの前記サブピクチャのうちの1つ以上を含む前記VCL NALユニットのうちの第1の組のVCL NALユニットに関する第1のNALユニットタイプの値が前記ピクチャの前記サブピクチャのうちの1つ以上を含む前記VCL NALユニットのうちの第2の組のVCL NALユニットに関する第2のNALユニットタイプの値と異なると判定するための、判定手段と、
前記第1のNALユニットタイプの値または前記第2のNALユニットタイプの値に基づいて前記サブピクチャのうちの1つ以上を復号するための復号手段とを含む、デコーダ。
請求項1から6のいずれか一項に記載の方法を実行するようにさらに構成される請求項17に記載のデコーダ。
ピクチャが異なるタイプの複数のサブピクチャを含むかどうかを判定するための判定手段と、
符号化手段であって、
前記ピクチャの前記サブピクチャをビットストリーム内の複数のビデオコーディングレイヤ(VCL)ネットワーク抽象化レイヤ(NAL)ユニットに符号化し、
第1のNALユニットタイプの値が前記ピクチャに関連する前記VCL NALユニットのすべてに関して同じであるときに第1の値に設定され、前記ピクチャの前記サブピクチャのうちの1つ以上を含む前記VCL NALユニットのうちの第1の組のVCL NALユニットに関する第1のNALユニットタイプの値が前記ピクチャの前記サブピクチャのうちの1つ以上を含む前記VCL NALユニットのうちの第2の組のVCL NALユニットに関する第2のNALユニットタイプの値と異なるときに第2の値に設定されたフラグを前記ビットストリームに符号化するための、符号化手段と、
デコーダに伝達するための前記ビットストリームを記憶するための記憶手段とを含み、
前記フラグが、mixed_nalu_types_in_pic_flagである、エンコーダ。
請求項7から12のいずれか一項に記載の方法を実行するようにさらに構成される請求項19に記載のエンコーダ。