JP2024028361A - ビデオコーディングにおける回復ポイントシグナリング - Google Patents

ビデオコーディングにおける回復ポイントシグナリング Download PDF

Info

Publication number
JP2024028361A
JP2024028361A JP2023222920A JP2023222920A JP2024028361A JP 2024028361 A JP2024028361 A JP 2024028361A JP 2023222920 A JP2023222920 A JP 2023222920A JP 2023222920 A JP2023222920 A JP 2023222920A JP 2024028361 A JP2024028361 A JP 2024028361A
Authority
JP
Japan
Prior art keywords
picture
gdr
poc
bitstream
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023222920A
Other languages
English (en)
Inventor
イェ-クイ・ワン
Ye-Kui Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2024028361A publication Critical patent/JP2024028361A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】ビデオコーディングメカニズムが開示される。【解決手段】本メカニズムは、漸次復号リフレッシュ(GDR)ピクチャ、復号順においてGDRピクチャの後に続く回復ポイントピクチャ、およびGDRピクチャに関連付けられたヘッダーを含むビットストリームを受信することを含む。ヘッダーは、回復ピクチャ順序カウント(POC)値より前にコーディングされた、POC最下位ビット(LSB)値を含む。GDRピクチャのPOCは、POC LSB値に基づいて決定される。回復POC値は、GDRピクチャのPOCに基づいて決定される。回復POC値は、回復ポイントピクチャのPOCを示す。ビットストリームは、GDRピクチャおよび回復ポイントピクチャに基づいて、GDRに従って復号される。【選択図】図8

Description

本開示は、一般的にはビデオコーディングに関し、具体的にはビデオコーディングにおいて、仮想参照復号器が漸次復号リフレッシュを支援できるように改善することに関する。
たとえ比較的短いビデオであっても、これを表すのに必要なビデオデータはかなりの量となるため、データのストリーミングが行われたり、帯域幅容量に限りがある通信ネットワークにまたがってデータが伝達されたりする場合には困難が生じることがある。このため、ビデオデータは通常、今日の通信ネットワークにまたがって伝達される前に圧縮される。ビデオがストレージ装置に保管される場合は、メモリリソースが乏しい場合もあるため、ビデオのサイズが問題になることもある。ビデオ圧縮装置は多くの場合、伝送や保管に先立ち供給元でソフトウェアおよび/またはハードウェアを使ってビデオデータをコーディングし、そうすることでデジタルビデオ画像を表すのに必要なデータの量を減らす。その後、圧縮されたデータは、供給先でビデオデータを復号するビデオ解凍装置によって受け取られる。ネットワークリソースには限りがあり、より高いビデオ品質を求める要求が増大しているため、画質をほとんど犠牲にしないかまったく犠牲にせずに圧縮率を高める改善された圧縮・解凍技法が望まれている。
一実施形態において、本開示は復号器で実施される方法を含み、方法は、復号器の受信器によって、漸次復号リフレッシュ(GDR)ピクチャと、復号順においてGDRピクチャの後に続く回復ポイントピクチャと、GDRピクチャに関連付けられたヘッダーとを含むビットストリームを受信するステップであって、ヘッダーは、回復ピクチャ順序カウント値より前にコーディングされたピクチャ順序カウント(POC)最下位ビット(LSB)値を含む、ステップと、復号器のプロセッサによって、POC LSB値に基づいてGDRピクチャのPOCを決定するステップと、プロセッサによって、GDRピクチャのPOCおよび回復ピクチャ順序カウント値に基づいて、回復ポイントピクチャPOCを決定するステップと、プロセッサによって、GDRピクチャ、および回復ポイントピクチャPOCに基づいて、ビットストリームをGDRに従って復号するステップと、プロセッサによって、復号済みビデオシーケンスの一部として表示するために、回復ポイントピクチャの後に続く1つ以上のピクチャを転送するステップとを含む。
GDRは、ビットストリームをコーディングするためのメカニズムである。GDRピクチャは、イントラ予測コーディングされたビデオデータの垂直領域と、インター予測コーディングされたビデオデータの1つ以上の垂直領域とを含む。イントラ予測コーディングされた領域の位置は、クリーン領域を生成する一連の関連ピクチャにわたって移動する。クリーン領域を含むピクチャは、別のピクチャのクリーン領域を参照するイントラ予測データまたはインター予測データのみを使用して、かかるクリーン領域をコーディングする。この結果、復号器は最初のGDRピクチャからビットストリームの復号を開始し、各ピクチャを順に復号することができる。回復ポイントより前にある最後のピクチャに到達すると、復号器は同期状態になり、クリーンで有効なデータに基づき、インター予測を使用して任意の別のピクチャを復号することができる。ビデオコーディングシステムは、ピクチャヘッダー/スライスヘッダーなどのヘッダー内の、関連ピクチャのピクチャ順序カウントをシグナリングし得る。かかるシグナリングは、GDRピクチャのPOCと、回復ポイントピクチャのPOCとの差分を示す、回復ピクチャ順序カウント値を含み得る。しかしながら、復号器は、回復ポイントピクチャのPOCを決定するために、GDRピクチャのPOCを決定しなければならない。本実施形態は、GDRピクチャのPOC LSB値を含む。GDR POC LSB値は、回復POC値とともにヘッダーに含まれる。さらに、GDR POC LSB値は回復POC値より前にヘッダーにコーディングされる。このようにして、復号器は、回復POC値をパースする前に、GDR POC LSB値をパースすることができる。このように、GDRピクチャのPOCが決定されると、回復POC値は、解決するためにメモリに配置されるのではなく、直ちに得ることができる。このように、本開示はエンコーダおよび/または復号器における、プロセッサおよび/またはメモリリソースの使用率を低減する。
任意選択で、前述の態様のいずれかにおいて、GDRピクチャに関連付けられるヘッダーがピクチャヘッダーである、態様の別の実装が提供される。
任意選択で、前述の態様のいずれかにおいて、POC LSB値が、ph_pic_order_cnt_lsb値としてヘッダーに含まれ、ph_pic_order_cnt_lsb値は、現在ピクチャに対するピクチャ順序カウントモジュロ最大ピクチャ順序カウントLSBを指定し、GDRピクチャが現在ピクチャである、態様の別の実装が提供される。
任意選択で、前述の態様のいずれかにおいて、回復ピクチャ順序カウント値が、recovery_poc_cnt値としてヘッダーに含まれ、recovery_poc_cnt値が、復号済みピクチャの回復ポイントを出力順に指定する、態様の別の実装が提供される。
任意選択で、前述の態様のいずれかにおいて、現在ピクチャがGDRピクチャのときは、先行ピクチャの出力なしフラグがヘッダー内に設定される、態様の別の実装が提供される。
任意選択で、前述の態様のいずれかにおいて、GDRピクチャが、インター予測に従ってコーディングされた領域と、イントラ予測に従ってコーディングされた領域とを含む、態様の別の実装が提供される。
任意選択で、前述の態様のいずれかにおいて、GDRピクチャがGDRアクセスユニット(AU)に含まれ、ビットストリームが、GDR AUに関連付けられたバッファリング期間(BP)付加拡張情報(SEI)メッセージをさらに含み、BP SEIメッセージが、復号順におけるGDR AUの位置で、仮想参照復号器(HRD)の初期化に対して初期コーディング済みピクチャバッファ(CPB)除去遅延を提供する、態様の別の実装が提供される。
一実施形態において、本開示はエンコーダで実施される方法を含み、方法は、エンコーダのプロセッサによって、GDRピクチャ、および復号順においてGDRピクチャの後に続く回復ポイントピクチャをビットストリームにエンコードするステップと、プロセッサによって、GDRピクチャのPOC LSB値、および回復ポイントピクチャの回復ピクチャ順序カウント値を決定するステップと、プロセッサによって、GDRピクチャに関連付けられたヘッダーをビットストリームにエンコードするステップであって、ヘッダーは、回復ピクチャ順序カウント値より前にコーディングされたPOC LSB値を含む、ステップと、プロセッサに結合されたメモリによって、復号器に向けて通信するためのビットストリームを保管するステップとを含む。
GDRは、ビットストリームをコーディングするためのメカニズムである。GDRピクチャは、イントラ予測コーディングされたビデオデータの垂直領域と、インター予測コーディングされたビデオデータの1つ以上の垂直領域とを含む。イントラ予測コーディングされた領域の位置は、クリーン領域を生成する一連の関連ピクチャにわたって移動する。クリーン領域を含むピクチャは、別のピクチャのクリーン領域を参照するイントラ予測データまたはインター予測データのみを使用して、かかるクリーン領域をコーディングする。この結果、復号器は最初のGDRピクチャからビットストリームの復号を開始し、各ピクチャを順に復号することができる。回復ポイントより前にある最後のピクチャに到達すると、復号器は同期状態になり、クリーンで有効なデータに基づき、インター予測を使用して任意の別のピクチャを復号することができる。ビデオコーディングシステムは、ピクチャヘッダー/スライスヘッダーなどのヘッダー内の、関連ピクチャのピクチャ順序カウントをシグナリングし得る。かかるシグナリングは、GDRピクチャのPOCと、回復ポイントピクチャのPOCとの差分を示す、回復ピクチャ順序カウント値を含み得る。しかしながら、復号器は、回復ポイントピクチャのPOCを決定するために、GDRピクチャのPOCを決定しなければならない。この例は、GDRピクチャのPOC LSB値を含む。GDR POC LSB値は、回復POC値とともにヘッダーに含まれる。さらに、GDR POC LSB値は回復POC値より前にヘッダーにコーディングされる。このようにして、復号器は、回復POC値をパースする前に、GDR POC LSB値をパースすることができる。このように、GDRピクチャのPOCが決定されると、回復POC値は、解決するためにメモリに配置されるのではなく、直ちに得ることができる。このように、本開示はエンコーダおよび/または復号器における、プロセッサおよび/またはメモリリソースの使用率を低減する。
任意選択で、前述の態様のいずれかにおいて、GDRピクチャに関連付けられるヘッダーがピクチャヘッダーである、態様の別の実装が提供される。
任意選択で、前述の態様のいずれかにおいて、POC LSB値が、ph_pic_order_cnt_lsb値としてヘッダーに含まれ、ph_pic_order_cnt_lsb値は、現在ピクチャに対するピクチャ順序カウントモジュロ最大ピクチャ順序カウントLSBを指定し、GDRピクチャが現在ピクチャである、態様の別の実装が提供される。
任意選択で、前述の態様のいずれかにおいて、回復ピクチャ順序カウント値が、recovery_poc_cnt値としてヘッダーに含まれ、recovery_poc_cnt値が、復号済みピクチャの回復ポイントを出力順に指定する、態様の別の実装が提供される。
任意選択で、前述の態様のいずれかにおいて、現在ピクチャがGDRピクチャのときは、先行ピクチャの出力なしフラグをヘッダー内に設定するステップをさらに含む、態様の別の実装が提供される。
任意選択で、前述の態様のいずれかにおいて、GDRピクチャが、インター予測に従ってコーディングされた領域と、イントラ予測に従ってコーディングされた領域とを含む、態様の別の実装が提供される。
任意選択で、前述の態様のいずれかにおいて、プロセッサによって、GDR AU内のGDRピクチャをエンコードするステップと、プロセッサによって、GDR AUに関連付けられたBP SEI)メッセージをビットストリームにエンコードするステップであって、BP SEIメッセージが、復号順におけるGDR AUの位置で、HRDの初期化に対してCPB除去遅延を提供する、ステップとをさらに含む、態様の別の実装が提供される。
一実施形態において、本開示は、プロセッサと、プロセッサに結合された受信器と、プロセッサに結合されたメモリと、プロセッサに結合された送信器とを備え、プロセッサ、受信器、メモリ、および送信器は、前述の態様の方法を遂行するように構成される、ビデオコーディング装置を含む。
一実施形態において、本開示は、ビデオコーディング装置によって使用されるコンピュータプログラム製品を含む非一時的コンピュータ可読媒体を含み、コンピュータプログラム製品は非一時的コンピュータ可読媒体に保管されたコンピュータ実行可能命令を含み、プロセッサによって実行されると、ビデオコーディング装置に前述の態様のいずれかの方法を遂行させる。
一実施形態において、本開示は、漸次復号リフレッシュ(GDR)ピクチャと、復号順においてGDRピクチャの後に続く回復ポイントピクチャと、GDRピクチャに関連付けられたヘッダーとを含むビットストリームを受信する受信手段であって、ヘッダーは、回復ピクチャ順序カウント値より前にコーディングされたピクチャ順序カウント(POC)最下位ビット(LSB)値を含む、受信手段と、POC LSB値に基づいてGDRピクチャのPOCを決定し、GDRピクチャのPOCおよび回復ピクチャ順序カウント値に基づいて、回復ポイントピクチャPOCを決定する決定手段と、GDRピクチャおよび回復ポイントピクチャPOCに基づいて、ビットストリームをGDRに従って復号する復号手段と、復号済みビデオシーケンスの一部として表示するための、回復ポイントピクチャの後に続く1つ以上のピクチャを転送する転送手段とを含む、復号器を含む。
任意選択で、前述の態様のいずれかにおいて、復号器は、前述の態様のいずれかの方法を遂行するようにさらに構成される、態様の別の実装が提供される。
一実施形態において、本開示は、GDRピクチャ、および復号順で前記GDRピクチャの後に続く回復ポイントピクチャをビットストリームにエンコードし、GDRピクチャに関連付けられたヘッダーをビットストリームにエンコードし、ヘッダーは、回復ピクチャ順序カウント値より前にコーディングされたPOC LSB値を含む、エンコード手段と、GDRピクチャのPOC LSB値、および前記回復ポイントピクチャの回復ピクチャ順序カウント値を決定する決定手段と、復号器に向けて通信するためのビットストリームを保管する保管手段とを含む、エンコーダを含む。
任意選択で、前述の態様のいずれかにおいて、エンコーダは、前述の態様のいずれかの方法を遂行するようにさらに構成される、態様の別の実装が提供される。
明確にするために、前述の実施の形態のいずれか1つを他の前述の実施の形態のいずれか1つ以上と組み合わせて、本開示の範囲内で新しい実施の形態を設けてもよい。
添付の図面および請求項とともに設けた以下の詳細な説明からこれらの特徴および他の特徴はより明確に理解される。
本開示をより完全に理解するために、添付の図面および詳細な説明(同様の参照符号は同様の部分を表す)に関して設けた以下の簡単な説明をここに示す。
ビデオ信号をコーディングする例示的な方法の流れ図である。 ビデオコーディングのための例示的なコーディング・復号(コーデック)システムの概略図である。 例示的なビデオエンコーダを示す概略図である。 例示的なビデオ復号器を示す概略図である。 例示的な仮想参照復号器(HRD)を示す概略図である。 ビデオシーケンスで漸次復号リフレッシュ(GDR)を実行する例示的なメカニズムを示す概略図である。 望ましくない動き探索を示す概略図である。 GDRが使用されているときにHRDの初期化に使用するための、例示的なビットストリームを示す概略図である。 例示的なビデオコーディング装置の概略図である。 GDRを使用するビデオシーケンスをビットストリームにエンコードするときに、回復ポイントピクチャのピクチャ順序カウント(POC)をシグナリングする、例示的な方法の流れ図である。 シグナリングされた回復ポイントピクチャPOCに基づいて、GDRを使用するビデオシーケンスをビットストリームから復号する、例示的な方法の流れ図である。 シグナリングされた回復ポイントピクチャPOCに基づいて、GDRを使用するビデオシーケンスをビットストリームにコーディングする、例示的なシステムの概略図である。
1つまたは複数の実施形態の例示的な実装形態が以下に提供されるが、本開示のシステムおよび/または方法は、現在公知であるかまたは実在するかどうかにかかわらず、任意の数の技法を使用して実施されてもよいことが最初に理解されるべきである。本開示は、いかなる点でも、本明細書に例示および記載された例示的な設計および実装形態を含む、以下に例示される例示的な実装形態、図面、および技法に限定されるべきではなく、添付の特許請求の範囲およびそれらの均等物の全範囲内で修正されてもよい。
以下の用語は、本明細書で反対の文脈で使用されない限り、次のように定義される。具体的に述べると、以下の定義は本開示をさらに明確にすることを意図している。しかしながら、用語は、異なる文脈では異なって記載される場合がある。したがって、以下の定義は補助的なものとみなされるべきであり、本明細書でかかる用語に与えられている説明の他の定義を制限するものと考えられるべきではない。
ビットストリームは、エンコーダと復号器との間で送信するために圧縮されたビデオデータを含む、一連のビットである。エンコーダは、ビデオデータを圧縮してビットストリームにするために、エンコーディングプロセスを使用するように構成された装置である。復号器は、表示用にビットストリームからビデオデータを復元するために、復号プロセスを使用するように構成された装置である。ピクチャは、ビデオシーケンス内の対応する瞬間に、完全にまたは部分的にユーザーに表示することが意図される、完全な画像である。ピクチャはスライスに区分けされ、スライスは任意選択でタイルに区分けされ、スライスおよび/またはタイルは、コーディングツリーユニット(CTU)および/またはコーディングツリーブロック(CTB)に区分けされ、CTU/CTBはコーディングブロックに区分けされてよく、コーディングブロックは予測メカニズムに従ってコーディングすることができる。アクセスユニット(AU)は、単一のコーディングされたピクチャと、任意選択で1つ以上のヘッダーとを保管するように構成されたコーディングユニットであり、ヘッダーは、コーディングされたピクチャをコーディングするために使用される、コーディングメカニズムを記述したパラメータを含んでいる。ヘッダーは、コーディングされたビデオデータの対応する部分に適用されるシンタクス要素を含む、シンタクス構造である。ヘッダーは、ピクチャヘッダーとスライスヘッダーとを含み得る。ピクチャヘッダーは、コーディングされたピクチャの全スライスに適用されるシンタクス要素を含む、シンタクス構造である。スライスヘッダーは、全タイル、またはスライスで表されたタイル内のCTU行に関するデータ要素を含む、コーディングされたスライスの一部である。インターコーディングとしても知られるインター予測は、現在ピクチャとは異なる参照ピクチャ内にある、参照ブロック内の対応するサンプルを参照して、現在ピクチャ内の現在ブロックのサンプルをコーディングするメカニズムである。イントラコーディングとしても知られるイントラ予測は、現在ピクチャ内にある参照ブロック内の対応するサンプルを参照して(すなわち現在ブロックと参照ブロックとが同じピクチャ内にある)、現在ピクチャ内の現在ブロックのサンプルをコーディングするメカニズムである。GDRは、コーディング済みビデオシーケンスが、完全にイントラコーディングされた単一のピクチャで初期化されるのを避けるために、それぞれがインターコーディングされた領域およびイントラコーディングされた領域の両方を含む、一連のピクチャをコーディングするメカニズムである。GDR AUは、一連のGDR関連ピクチャの最初のGDRピクチャを含むAUである。回復ポイントピクチャは一連のGDRの後に続くピクチャであり、これにより一連のGDRの最初のGDRピクチャより前にあるピクチャのデータを参照することなく、ピクチャを完全に復号することができる。ピクチャ順序カウント(POC)は、各ピクチャに関連付けられ、コーディング済みビデオシーケンス内の全ピクチャの中で、関連ピクチャを一意に識別する変数/値である。さらに、関連ピクチャが復号済みピクチャバッファ(DPB)から出力されるときは、これもDPBから出力される、同じコーディング済みビデオシーケンス内の他のピクチャの出力順の位置に対する、関連ピクチャの位置をPOCが出力順に示す。回復POCは、回復ポイントピクチャのPOCである。POC最下位ビット(LSB)は、POC値における1つ以上の最下位のビットである。HRDは、特定の制約条件に対する適合性を検証するために、エンコーディングプロセスで生成されたビットストリームの可変性を検査する、エンコーダで動作する復号器モデルである。HRD適合性テストは、エンコードされたビットストリームが、VVCなどの標準に準拠しているかどうかを判定するテストである。HRDパラメータは、HRDの動作条件を初期化および/または定義するシンタクス要素である。付加拡張情報(SEI)メッセージは、復号済みピクチャ内のサンプルの値を決定するために、復号プロセスで必要とされない情報を伝達する、特定のセマンティクスを有するシンタクス構造である。バッファリング期間(BP)SEIメッセージは、コーディング済みピクチャバッファ(CPB)を管理するために、HRDを初期化するためのHRDパラメータを含むSEIメッセージである。CPBは、ビットストリーム適合性検証中に使用するために、コーディングされたピクチャを復号順に含む、HRD内の先入先出バッファである。復号順は、復号プロセスによってシンタクス要素が処理される順序である。CPB除去遅延は、現在ピクチャが、除去される前にCPB内に残存できる期間である。先行ピクチャの出力なしフラグは、DPB内で以前に復号されたピクチャが出力されてはならないことを示すために使用されるフラグである。
本明細書では、コーディングツリーブロック(CTB)、コーディングツリーユニット(CTU)、コーディングユニット(CU)、クリーンランダムアクセス(CRA)、コーディング済みビデオシーケンス(CVS)、漸次復号リフレッシュ(GDR)、漸次ランダムアクセス(GRA)、仮想参照復号器(HRD)、即時復号リフレッシュ(IDR)、合同ビデオ専門家チーム(JVET)、動き制限タイルセット(MCTS)、最大送信単位(MTU)、ネットワーク抽象化層(NAL)、漸進的イントラリフレッシュ(PIR)、ピクチャ順序カウント(POC)、生のバイトシーケンスペイロード(RBSP)、付加拡張情報(SEI)、シーケンスパラメータセット(SPS)、汎用ビデオコーディング(VVC)といった頭字語が使用される。
データ損失を最小にしながらビデオファイルのサイズを縮小するために、多くのビデオ圧縮技法を使用することができる。例えば、ビデオ圧縮技法は、ビデオシーケンスにおけるデータ冗長性を低減または除去するために、空間(例えば、イントラピクチャ)予測および/または時間(例えば、インターピクチャ)予測を実行することを含むことができる。ブロックベースのビデオコーディングでは、ビデオスライス(例えば、ビデオピクチャまたはビデオピクチャの一部)はビデオブロックに区分けされてよく、ビデオブロックは、ツリーブロック、コーディングツリーブロック(CTB)、コーディングツリーユニット(CTU)、コーディングユニット(CU)、および/または、符号化ノードとも称されてよい。ピクチャのイントラコーディンされた(I)スライス内のビデオブロックは、同じピクチャ内の近傍ブロックにおける、参照サンプルに対する空間予測を使用してコーディンされる。ピクチャのインターコーディンされた片方向予測(P)または双方向予測(B)スライス内のビデオブロックは、同じピクチャ内の近傍ブロックにおける、参照サンプルに対する空間予測、または他の参照ピクチャにおける、参照サンプルに対する時間予測を使用してコーディンされてよい。ピクチャはフレームおよび/または画像と称されてもよく、参照ピクチャはフレームおよび/または参照画像と称されてよい。空間予測または時間予測は、画像ブロックを表す予測ブロックになる。残余データは、元の画像ブロックと予測ブロックとの画素差を表す。したがって、インターコーディングブロックは、予測ブロックを形成する参照サンプルのブロックを指し示す動きベクトルと、コーディングブロックと予測ブロックとの差分を示す残余データとに従ってエンコードされる。イントラコーディングブロックは、イントラコーディングモードと残余データとに従って符号化される。さらに圧縮するために、残余データは、画素領域から変換領域に変換されてよい。これらは残余変換係数になり、量子化され得る。量子化された変換係数は、最初は二次元配列で配置されてよい。量子化された変換係数は、変換係数の一次元ベクトルを生成するためにスキャンされ得る。さらなる圧縮を実現するために、エントロピコーディングが適用される場合がある。かかるビデオ圧縮技法は、以下でより詳細に説明される。
エンコードされたビデオを正確に復号できるように、ビデオは、対応するビデオコーディング標準に従ってエンコードされ復号される。ビデオコーディング標準には、国際電気通信連合(ITU)標準化部門(ITU-T)H.261、国際標準化機構/国際電気標準会議(ISO/IEC)動画専門家グループ(MPEG)-1パート2、ITU-T H.262またはISO/IEC MPEG-2パート2、ITU-T H.263、ISO/IEC MPEG-4パート2、ITU-T H.264またはISO/IEC MPEG-4パート10としても知られる高度ビデオコーディング(AVC)、およびITU-T H.265またはMPEG-Hパート2としても知られる高効率ビデオコーディング(HEVC)が含まれる。AVCは、スケーラブルビデオコーディング(SVC)、マルチビュービデオコーディング(MVC)、マルチビュービデオコーディングプラス深度(MVC+D)、および三次元(3D)AVC(3D-AVC)などの拡張を含む。HEVCは、スケーラブルHEVC(SHVC)、マルチビューHEVC(MV-HEVC)、および3D HEVC(3D-HEVC)などの拡張を含む。ITU-TおよびISO/IECの合同ビデオ専門家チーム(JVET)は、汎用ビデオコーディング(VVC)と称されるビデオコーディング標準の開発に着手した。VVCは草案(WD)に含まれており、JVET-N1001-v3を含む。
エンコーダは、HRDなど多くのコンポーネントを使用する。エンコーダは、ビットストリームをエンコードするために、様々なコンポーネントを使用する。その後、エンコーディングが標準に適合していることを保証するために、HRDが、エンコードされたビットストリームを検査する。例えば、HRDは、復号器がビットストリームを復号可能なものであることを検証するために、ビットストリームを検査することができる。また、エンコーダは、ビットストリームをエンコードするために多くのメカニズムを使用する。GDRは、ビットストリームをコーディングするためにエンコーダによって使用される、例示的なコーディングメカニズムである。GDRピクチャは、イントラ予測コーディングされたビデオデータの垂直領域と、インター予測コーディングされたビデオデータの1つ以上の垂直領域とを含む。イントラ予測コーディングされた領域の位置は、クリーン領域を生成する一連の関連ピクチャにわたって移動する。クリーン領域を含むピクチャは、別のピクチャのクリーン領域を参照するイントラ予測データまたはインター予測データのみを使用して、かかるクリーン領域をコーディングする。これにより、復号器は最初のGDRピクチャからビットストリームの復号を開始し、各ピクチャを順に復号することができる。回復ポイントより前にある最後のピクチャに到達すると、復号器は同期状態になり、クリーンで有効なデータに基づき、インター予測を使用して任意の別のピクチャを復号することができる。エンコーダ内のHRDは、イントラ予測データのみを含むイントラランダムアクセスポイント(IRAP)ピクチャに基づいて、ビットストリームの適合性を検査するように構成され得る。しかしながら、GDRが使用されるときは、いくつかのビデオコーディングシステムは、ビットストリームの適合性を検査するように構成されていないHRDを使用する場合がある。例えば、いくつかのHRDは、IRAPピクチャから始まるビットストリームの適合性の検査を開始するように構成され、GDRベースのランダムアクセスポイントを含むビットストリームシーケンスを検査しない場合がある。
第1の例において、本明細書で開示されるのは、ビットストリームがGDRピクチャをランダムアクセスポイントとして使用しているときに、ビットストリーム適合性検査を実行するようにHRDを構成するメカニズムである。エンコーダは、ビットストリームにGDRピクチャが含まれているときは、HRDパラメータを含むBP SEIメッセージを含むことができる。HRDは、初期化パラメータを取得するために、BP SEIメッセージを読み取ることができ、BP SEIメッセージに関連付けられたGDRピクチャから始まる、ビットストリームの適合性の検査を開始し得る。さらに、復号器は、ビットストリームが適合していることを検証するために、BP SEIメッセージを検査して、ビットストリームが復号可能と判定することができる。このように、GDRピクチャにBP SEIメッセージを含めることにより、エンコーダおよび復号器の両方で追加機能を支援する。さらに、GDRは、ネットワーク通信中に、帯域幅内のスパイクの削減を支援し得る。このように、ここで開示されているメカニズムは、エンコーダおよび復号器の両方で、プロセッサ、メモリ、および/またはネットワークリソースの使用率を低減し得る。
さらに、ビデオコーディングシステムは、ヘッダー内の関連ピクチャのピクチャ順序カウント(POC)をシグナリングし得る。かかるヘッダーは、例によって、ピクチャおよび/またはスライスヘッダーを含み得る。場合によっては、シグナリングは、GDRピクチャのPOCと、回復ポイントピクチャのPOCとの差分を示す、回復POC差分値を含み得る。しかしながら、回復ポイントピクチャの実際のPOC値を決定するために、復号器は、まずGDRピクチャのPOCを決定する必要がある。したがって復号器は、メモリに回復POC差分値を保管する。復号器はその後、GDRピクチャのPOCが受信され決定されると、回復ポイントピクチャPOC値を決定することができる。
第2の例において、本明細書で開示されるのは、GRDが使用されるときのコーディングプロセスの効率を向上させるメカニズムである。例では、GDRピクチャのPOC LSB値は、スライス/ピクチャヘッダーでシグナリングされる。POC LSB値は、回復ピクチャ順序カウント値とともにヘッダーに含まれる。さらに、POC LSB値は、回復ピクチャ順序カウントより前の位置で、ヘッダーにコーディングされる。このようにして、復号器は、回復ピクチャ順序カウントをパースする前に、POC LSB値をパースすることができる。このように、GDRピクチャのPOCが決定されると、回復ピクチャ順序カウントは、解決するためにメモリに配置されるのではなく、直ちに決定することができる。このように本開示は、エンコーダおよび復号器の両方で追加機能を支援する。さらに、本開示は、エンコーダおよび/または復号器におけるプロセッサ、メモリ、および/またはネットワーク通信リソースの使用率を低減する。
図1は、ビデオ信号のコーディングの例示的な動作方法100の流れ図である。具体的に述べると、ビデオ信号はエンコーダでエンコードされる。エンコーディングプロセスは、ビデオファイルのサイズを減じる様々なメカニズムを用いてビデオ信号を圧縮する。ファイルのサイズが小さければ、圧縮されたビデオファイルをユーザーへ伝送し、これに伴う帯域幅オーバーヘッドを減らすことが可能となる。その後、復号器は圧縮されたビデオファイルを復号し、エンドユーザーに向けて表示するため元のビデオ信号を復元する。復号器でビデオ信号を着実に復元することを可能にするため、復号プロセスは通常、エンコーディングプロセスを反映する。
ステップ101では、ビデオ信号がエンコーダに入力される。例えば、ビデオ信号はメモリに保管された圧縮されていないビデオファイルであってよい。もうひとつの例として、ビデオカメラなどのビデオキャプチャ装置によってビデオファイルがキャプチャされ、ビデオのライブストリーミングを支援するためエンコードされてもよい。ビデオファイルはオーディオ成分とビデオ成分の両方を含むことがある。ビデオ成分は一連の画像フレームを含み、これが連続して見られると、視覚的な動きの印象を与える。フレームは画素を含み、画素は、ここでルマ成分(またはルマサンプル)と呼ばれる光と、クロマ成分(または色サンプル)と呼ばれる色とによって表される。いくつかの例では、三次元閲覧を支援するため、フレームが深度値を含むこともある。
ステップ103では、ビデオがブロックに区分けされる。区分けは、各フレーム内の画素を圧縮のために正方形および/または長方形のブロックに細分することを含む。例えば、高効率ビデオコーディング(HEVC)(H.265およびMPEG-Hパート2としても知られている)では、フレームは、まずコーディングツリーユニット(CTU)に細分化でき、これは所定のサイズ(例えば、64画素×64画素)のブロックである。CTUはルマおよびクロマの両方のサンプルを含む。コーディングツリーを使ってCTUをブロックに分割し、その後、さらなるエンコーディングを支援する構成が達成されるまでブロックを再帰的に細分することができる。例えば、フレームのルマ成分は、個々のブロックが比較的均一な照明値を含むようになるまで細分されてよい。さらに、フレームのクロマ成分は、個々のブロックが比較的均一な色値を含むようになるまで細分されてよい。したがって、区分けメカニズムはビデオフレームの内容に応じて異なる。
ステップ105では、ステップ103で区分けされた画像ブロックを様々な圧縮メカニズムを用いて圧縮する。例えば、インター予測および/またはイントラ予測が使われてよい。インター予測は、一般的なシーンの中の物体が連続するフレームに現れる傾向があるという事実を利用するようになっている。したがって、参照フレーム内の物体を表すブロックは、隣接するフレームで繰り返し記述される必要はない。具体的に述べると、机などの物体は複数のフレームにわたって一定の位置にとどまることがある。それ故、机は一度記述され、隣接するフレームは参照フレームを参照できる。パターンマッチングのメカニズムを用いることで、複数のフレームにわたって物体を整合させることができる。さらに、例えば物体の動きやカメラの動きにより、複数のフレームにわたって動く物体が表されることがある。個別の一例として、ビデオは複数のフレームにわたって画面を横切る自動車を表示することがある。このような動きは動きベクトルを使って記述できる。動きベクトルは、或るフレーム内の或る物体の座標から参照フレーム内の当該物体の座標までのオフセットを提供する二次元ベクトルである。このため、インター予測は、現在フレーム内の画像ブロックを、参照フレーム内の対応するブロックからのオフセットを示す1組の動きベクトルとしてエンコードできる。
イントラ予測は一般的なフレーム内のブロックをエンコードする。イントラ予測は、ルマ成分とクロマ成分がフレームの中で群がる傾向があるという事実を利用する。例えば、木の一部分にある緑のパッチは、同様の緑のパッチに隣接して位置する傾向がある。イントラ予測は、複数の方向予測モード(例えばHEVCで33)、平面モード、およびダイレクトカレント(DC)モードを使用する。方向モードは、現在ブロックが対応する方向で隣接ブロックのサンプルと同様/同じであることを指示する。平面モードは、行/列(例えば平面)沿いの一連のブロックを、行のエッジの隣接ブロックに基づいて補間できることを指示する。平面モードは、実際には、変化する値の比較的一定のスロープを使うことによって、行/列にわたる光/色の滑らかな遷移を示す。DCモードは境界平滑化に使われ、ブロックが、方向予測モードの角度方向と関連するすべての隣接ブロックのサンプルと関連する平均値と同様/同じであることを指示する。したがって、イントラ予測ブロックは、実際の値の代わりに様々な関係予測モード値として画像ブロックを表すことができる。さらに、インター予測ブロックは、実際の値の代わりに動きベクトル値として画像ブロックを表すことができる。いずれの場合でも、予測ブロックは場合によっては画像ブロックを正確に表さないことがある。差異は残余ブロックに保管される。ファイルをさらに圧縮するため、残余ブロックには変換が適用できる。
ステップ107では、様々なフィルタリング技法が適用される。HEVCではインループフィルタリング方式に従ってフィルタが適用される。上述したブロックに基づく予測は、復号器でブロック状の画像を作ることがある。さらに、ブロックに基づく予測方式はブロックをエンコードし、エンコードされたブロックを後ほど参照ブロックとして使用するため復元することができる。インループフィルタリング方式は、ノイズ抑制フィルタ、デブロッキングフィルタ、適応型ループフィルタ、およびサンプル適応型オフセット(SAO)フィルタをブロック/フレームに繰り返し適用する。これらのフィルタはそのようなブロッキングアーチファクトを軽減するため、エンコードされたファイルは正確に復元できる。さらに、これらのフィルタは復元された参照ブロックでアーチファクトを軽減するため、復元された参照ブロックに基づいてエンコードされる後続のブロックでさらなるアーチファクトが発生する見込みは少なくなる。
ビデオ信号が区分けされ、圧縮され、フィルタされたら、できあがったデータがステップ109にてビットストリームでエンコードされる。このビットストリームは上述したデータを含む他、復号器での適切なビデオ信号復元を支援するにあたって望ましいシグナリングデータを含む。例えば、かかるデータは、区分データ、予測データ、残余ブロック、および復号器にコーディング指図を提供する様々なフラグを含み得る。ビットストリームは、要求に応じて復号器へ伝送できるようにメモリに保管されてよい。ビットストリームはまた、複数の復号器に向けてブロードキャストおよび/またはマルチキャストされてもよい。ビットストリームの作成は繰り返し作業である。したがって、ステップ101、103、105、107、および109は、多数のフレームおよびブロックにわたって連続的に、および/または同時に、行われてよい。図1に示された順序は説明を明瞭かつ平易にするために提示されており、ビデオコーディングプロセスを特定の順序に限定することを意図するものではない。
復号器はビットストリームを受け取り、ステップ111で復号プロセスを開始する。具体的に述べると、復号器はエントロピ復号方式を用いてビットストリームを対応するシンタクスデータとビデオデータに変換する。復号器はステップ111で、ビットストリームからのシンタクスデータを使ってフレームの区分を判断する。区分けはステップ103におけるブロック区分けの結果に整合しなければならない。これより、ステップ111で使われるエントロピエンコーディング/復号を説明する。エンコーダは、入力画像における値の空間的配置に基づいて数通りの選択肢からブロック区分け方式を選択するなど、圧縮過程で多数の選択を行う。ぴったりの選択肢を伝えるため、多数のビンを使用することがある。ここで使われるビンは、変数として扱われる2進値である(例えば、状況に応じて変わり得るビット値)。エントロピコーディングでは、エンコーダはある特定の状況で明らかに成り立たないオプションを破棄し、許容可能なオプションからなる集合を残すことができる。その後、それぞれの許容可能オプションには符号語が割り当てられる。符号語の長さは許容可能オプションの数に基づいている(例えば、2つのオプションに対し1ビン、3乃至4つのオプションに対し2ビンなど)。その後、エンコーダは選択されたオプションの符号語をエンコードする。符号語は、すべての可能なオプションからなる大きい集合からの選択を一意に指示するのに対し、許容可能オプションからなる小さい部分集合からの選択を一意に指示する場合に所望の大きさになるため、この方式は符号語のサイズを縮小する。その後、復号器は、エンコーダと同様に許容可能オプションからなる集合を割り出すことによって選択を復号する。復号器は、許容可能オプションからなる集合を割り出すことによって符号語を読み取り、エンコーダによって行われた選択を割り出すことができる。
ステップ113では、復号器がブロック復号を行う。具体的に述べると、復号器は逆変換を用いて残余ブロックを生成する。その後、復号器は残余ブロックと対応する予測ブロックを使用し、区分けに基づいて画像ブロックを復元する。予測ブロックは、ステップ105においてエンコーダで生成されたイントラ予測ブロックとインター予測ブロックの両方を含み得る。その後、復元された画像ブロックは、ステップ111で判断された区分けデータに基づいて復元されたビデオ信号のフレームの中に配置される。ステップ113のシンタクスも上述したエントロピコーディングによりビットストリームでシグナリングされてよい。
ステップ115では、エンコーダにおけるステップ107と同様に復元されたビデオ信号のフレームに対してフィルタリングが行われる。ブロッキングアーチファクトを除去するため、例えばノイズ抑制フィルタ、デブロッキングフィルタ、適応型ループフィルタ、およびSAOフィルタをフレームに適用できる。フレームがフィルタされたら、ステップ117でビデオ信号をエンドユーザーによる閲覧のためディスプレイへ出力できる。
図2は、ビデオコーディングのための例示的なコーディングおよび復号(コーデック)システム200の概略図である。具体的に述べると、コーデックシステム200は動作方法100の実施を支援する機能を提供する。エンコーダと復号器の両方で使われるコンポーネントを描くため、コーデックシステム200は概括されている。コーデックシステム200は動作方法100のステップ101および103に関して述べたようにビデオ信号を受け取り、これを区分けし、その結果、区分けされたビデオ信号201が得られる。コーデックシステム200はその後、方法100のステップ105、107、および109に関して述べたようにエンコーダとして機能する場合に、区分けされたビデオ信号201をコーディングされたビットストリームに圧縮する。コーデックシステム200は、復号器として機能する場合に、動作方法100のステップ111、113、115、および117に関して述べたように、ビットストリームから出力ビデオ信号を生成する。コーデックシステム200は、総合コーダー制御コンポーネント211、変換スケーリング量子化コンポーネント213、イントラピクチャ推定コンポーネント215、イントラピクチャ予測コンポーネント217、動き補償コンポーネント219、動き推定コンポーネント221、スケーリング逆変換コンポーネント229、フィルタ制御解析コンポーネント227、インループフィルタコンポーネント225、復号済みピクチャバッファコンポーネント223、およびヘッダーフォーマッティング・コンテキスト適応型バイナリ算術コーディング(CABAC)コンポーネント231を含む。かかるコンポーネントは図示された通りに結合されている。図2で、黒い線はエンコード/復号されるデータの動きを示しており、破線は他のコンポーネントの動作を制御する制御データの動きを示している。コーデックシステム200のコンポーネントはどれもエンコーダ内に存在してよい。復号器はコーデックシステム200のコンポーネントの部分集合を含んでよい。例えば、復号器は、イントラピクチャ予測コンポーネント217、動き補償コンポーネント219、スケーリング逆変換コンポーネント229、インループフィルタコンポーネント225、および復号済みピクチャバッファコンポーネント223を含んでよい。これよりこれらのコンポーネントを説明する。
区分けされたビデオ信号201は、コーディングツリーによって画素からなるブロックに区分けされたキャプチャ済みビデオシーケンスである。コーディングツリーは様々なスプリットモードを用いて画素からなるブロックをより小さい画素からなるブロックに細分する。その後、これらのブロックはより小さいブロックにさらに細分できる。ブロックはコーディングツリー上でノードと呼ばれることがある。大きい親ノードは小さい子ノードにスプリットされる。ノードが細分される回数はノード/コーディングツリーの深度と呼ばれる。分割されたブロックは、場合によってはコーディングユニット(CU)に含まれる可能性がある。例えば、CUは、対応するCUのシンタクス命令とともに、ルマブロック、(1つまたは複数の)赤差のクロマ(Cr)ブロック、および(1つまたは複数の)青差のクロマ(Cb)ブロックを含む、CTUのサブ部分であってもよい。スプリットモードは、バイナリツリー(BT)、トリプルツリー(TT)、およびクアドツリー(QT)を含み、これらのモードは、使用するスプリットモードに応じて形が異なる2つ、3つ、または4つの子ノードにノードを区分けするために使われる。区分けされたビデオ信号201は、圧縮のため、総合コーダー制御コンポーネント211、変換スケーリング量子化コンポーネント213、イントラピクチャ推定コンポーネント215、フィルタ制御解析コンポーネント227、および動き推定コンポーネント221へ転送される。
総合コーダー制御コンポーネント211は、用途の制約条件に応じてビデオシーケンスの画像をビットストリームにコーディングすることに関係する決定を下すように構成される。例えば、総合コーダー制御コンポーネント211はビットレート/ビットストリームサイズと復元品質との最適化を管理する。そのような決定は、使用できるストレージ空間/帯域幅と画像の解像度要求に基づいて下されてよい。総合コーダー制御コンポーネント211はまた、バッファのアンダーラン問題とオーバーラン問題を軽減するため、伝送速度を踏まえてバッファの使用状況を管理する。これらの問題を管理するため、総合コーダー制御コンポーネント211は、他のコンポーネントによる区分けと予測とフィルタリングを管理する。例えば、総合コーダー制御コンポーネント211は、解像度を上げて帯域幅使用を増大させるために圧縮の複雑度を動的に増大させることができ、あるいは解像度と帯域幅使用を低下させるために圧縮の複雑度を低下させることができる。それ故、総合コーダー制御コンポーネント211はコーデックシステム200の他のコンポーネントを制御することで、ビデオ信号の復元品質とビットレート問題のバランスをとる。総合コーダー制御コンポーネント211は、他のコンポーネントの動作を制御する制御データを生成する。制御データはまた、復号器での復号のためのパラメータをシグナリングするため、ヘッダーフォーマッティングCABACコンポーネント231へ転送されてビットストリームでエンコードされる。
区分けされたビデオ信号201は、インター予測のため、動き推定コンポーネント221と動き補償コンポーネント219にも送信される。区分けされたビデオ信号201のフレームまたはスライスは複数のビデオブロックに分割できる。動き推定コンポーネント221と動き補償コンポーネント219は、時間予測を提供するため、1つ以上の参照フレーム内の1つ以上のブロックを基準にして受信したビデオブロックのインター予測コーディングを行う。コーデックシステム200は、例えばビデオデータのブロックごとに適切なコーディングモードを選択するために、複数のコーディング工程を実行できる。
動き推定コンポーネント221と動き補償コンポーネント219は高度に一体化されてもよいが、概念的な目的のため別々に示されている。動き推定コンポーネント221によって行われる動き推定は、ビデオブロックの動きを推定する動きベクトルを生成するプロセスである。動きベクトルは、例えば、予測ブロックに対するコーディングされた物体の移動を示すことができる。予測ブロックとは、画素差の観点から、コーディングされたブロックによく一致することが分かっているブロックである。予測ブロックは参照ブロックとも称されてよい。かかる画素差は、絶対差の和(SAD)、二乗差の和(SSD)、またはその他の差指標によって割り出すことができる。HEVCは、CTU、コーディングツリーブロック(CTB)、およびCUを含むいくつかのコーディングされた物体を使用する。例えば、CTUはCTBに分割でき、その後CTBは、CUに含めるためにCBに分割することができる。CUは、予測データを含む予測ユニット(PU)として、および/またはCUの変換された残余データを含む変換ユニット(TU)として、エンコードできる。動き推定コンポーネント221は、レート歪み最適化プロセスの一部としてレート歪み解析を用いることによって動きベクトル、PU、およびTUを生成する。例えば、動き推定コンポーネント221は、現在ブロック/フレームについて複数の参照ブロック、複数の動きベクトルなどを割り出すことができ、最良のレート歪み特性を有する参照ブロック、動きベクトルなどを選択できる。最良のレート歪み特性とは、ビデオ復元の質(例えば、圧縮によるデータ損失量)とコーディング効率(例えば、最終的なエンコーディングのサイズ)とのバランスをとるものである。
いくつかの例において、コーデックシステム200は、復号済みピクチャバッファコンポーネント223に保管された参照ピクチャのサブ整数画素位置の値を計算できる。例えば、ビデオコーデックシステム200は、参照ピクチャの4分の1画素位置、8分の1画素位置、またはその他の小数画素位置の値を補間できる。したがって、動き推定コンポーネント221は全画素位置と小数画素位置を基準にして動き探索を行い、小数画素精度の動きベクトルを出力できる。動き推定コンポーネント221は、PUの位置を参照ピクチャの予測ブロックの位置に比較することによって、インターコーディングされたスライス内のビデオブロックのPUについて動きベクトルを計算する。動き推定コンポーネント221は、計算した動きベクトルを動きデータとしてヘッダーフォーマッティングCABACコンポーネント231にエンコーディングのため出力し、動き補償コンポーネント219に動きを出力する。
動き補償コンポーネント219によって行われる動き補償では、動き推定コンポーネント221によって割り出された動きベクトルに基づいて予測ブロックを取得または生成できる。繰り返しになるが、いくつかの例において、動き推定コンポーネント221と動き補償コンポーネント219は機能的に一体化されてもよい。現在ビデオブロックのPUの動きベクトルを受け取った動き補償コンポーネント219は、動きベクトルが指し示す予測ブロックの位置を特定できる。その後、符号化される現在ビデオブロックの画素値から予測ブロックの画素値を引いて画素差の値を形成することによって、残余ビデオブロックが形成される。通常、動き推定コンポーネント221はルマ成分について動き推定を行い、動き補償コンポーネント219はルマ成分に基づいて計算された動きベクトルをクロマ成分とルマ成分の両方に使用する。予測ブロックと残余ブロックは変換スケーリング量子化コンポーネント213へ転送される。
区分けされたビデオ信号201はイントラピクチャ推定コンポーネント215とイントラピクチャ予測コンポーネント217にも送信される。動き推定コンポーネント221ならびに動き補償コンポーネント219と同様、イントラピクチャ推定コンポーネント215とイントラピクチャ予測コンポーネント217も高度に一体化されてよいが、概念的な目的のため別々に示されている。イントラピクチャ推定コンポーネント215とイントラピクチャ予測コンポーネント217は、上述したように、動き推定コンポーネント221と動き補償コンポーネント219によってフレームからフレームにかけて行われるインター予測の代わりに、現在フレーム内のブロックを基準にして現在ブロックをイントラ予測する。具体的に述べると、イントラピクチャ推定コンポーネント215は現在ブロックをエンコードするために使うイントラ予測モードを決定する。いくつかの例において、イントラピクチャ推定コンポーネント215は複数の実証済みイントラ予測モードから現在ブロックをエンコードする適切なイントラ予測モードを選択する。その後、選択されたイントラ予測モードはエンコーディングのためヘッダーフォーマッティングCABACコンポーネント231へ転送される。
例えば、イントラピクチャ推定コンポーネント215は様々な実証済みイントラ予測モードについてレート歪み解析を用いてレート歪み値を計算し、実証済みモードの中から最良のレート歪み特性を有するイントラ予測モードを選択する。レート歪み解析は通常、エンコード済みブロックと、エンコード済みブロックを生成するためにエンコードされた元のエンコードされていないブロックとの歪み(または誤差)の量と、エンコード済みブロックの生成に使われたビットレート(例えばビット数)を割り出す。イントラピクチャ推定コンポーネント215は様々なエンコード済みブロックの歪みとレートから比率を計算することで、ブロックで最良のレート歪み値を示すイントラ予測モードがどれかを判断する。加えて、イントラピクチャ推定コンポーネント215は、レート歪み最適化(RDO)に基づく深度モデリングモード(DMM)を使って深度マップの深度ブロックをコーディングするように構成されてよい。
イントラピクチャ予測コンポーネント217は、エンコーダ上で実行される場合は、イントラピクチャ推定コンポーネント215によって決定された選択済みのイントラ予測モードに基づいて予測ブロックから残余ブロックを生成でき、あるいは復号器上で実行される場合は、ビットストリームから残余ブロックを読み取る。残余ブロックは、行列として表現される、予測ブロックと元のブロックとの値の差を含む。その後、残余ブロックは変換スケーリング量子化コンポーネント213へ転送される。イントラピクチャ推定コンポーネント215とイントラピクチャ予測コンポーネント217はルマ成分とクロマ成分の両方に作用できる。
変換スケーリング量子化コンポーネント213は、残余ブロックをさらに圧縮するように構成される。変換スケーリング量子化コンポーネント213は、離散コサイン変換(DCT)、離散サイン変換(DST)、または概念的に類似する変換などの変換を残余ブロックに適用し、残余変換係数値を含むビデオブロックを生成する。ウェーブレット変換、整数変換、サブバンド変換、または他種変換を用いることもできる。変換は、画素値領域から周波数領域などの変換領域に残余情報を変換できる。変換スケーリング量子化コンポーネント213はまた、例えば周波数に基づいて、変換された残余情報をスケールするように構成される。かかるスケーリングでは残余情報にスケール率を適用し、これにより様々な周波数情報が様々な粒度で量子化され、これにより、復元されたビデオの最終的な視覚的品質が左右され得る。変換スケーリング量子化コンポーネント213はまた、ビットレートをさらに低減するため、変換係数を量子化するように構成される。量子化プロセスは係数の一部または全部に関連するビット深度を減らすことができる。量子化の度合いは量子化パラメータを調節することによって変更できる。いくつかの例において、変換スケーリング量子化コンポーネント213はその後、量子化された変換係数を含む行列のスキャンを行うことができる。量子化された変換係数は、ビットストリームでエンコードされるため、ヘッダーフォーマッティングCABACコンポーネント231へ転送される。
スケーリング逆変換コンポーネント229は、動き推定を支援するため、変換スケーリング量子化コンポーネント213の逆の操作を適用する。スケーリング逆変換コンポーネント229は、逆スケーリング、変換、および/または量子化を適用することで、例えば、別の現在ブロックの予測ブロックになり得る参照ブロックとして後ほど使用するため、残余ブロックを画素領域で復元する。動き推定コンポーネント221および/または動き補償コンポーネント219は、残余ブロックを、後のブロック/フレームの動き推定で使用する対応する予測ブロックに加えることによって、参照ブロックを計算できる。スケーリングと量子化と変換のときに生じるアーチファクトを軽減するため、復元された参照ブロックにはフィルタが適用される。さもないと、後続のブロックが予測されるときに、そのようなアーチファクトによって予測が不正確になる(また、さらなるアーチファクトが生じる)可能性がある。
フィルタ制御解析コンポーネント227とインループフィルタコンポーネント225は、残余ブロックに、および/または復元された画像ブロックに、フィルタを適用する。例えば、元の画像ブロックを復元するため、スケーリング逆変換コンポーネント229からの変換済み残余ブロックを、イントラピクチャ予測コンポーネント217および/または動き補償コンポーネント219からの対応する予測ブロックに組み合わせることができる。その後、復元された画像ブロックにフィルタを適用できる。いくつかの例において、フィルタは、代わりに、残余ブロックに適用できる。図2の他のコンポーネントと同様、フィルタ制御解析コンポーネント227とインループフィルタコンポーネント225は高度に一体化されてともに実行されてもよいが、概念的な目的のため別々に描かれている。復元された参照ブロックに適用されるフィルタは特定の空間領域に適用され、かかるフィルタがどのように適用されるかを調整する複数のパラメータを含む。フィルタ制御解析コンポーネント227は復元された参照ブロックを解析することで、かかるフィルタが適用されるべき状況を判断し、該当するパラメータを設定する。かかるデータは、エンコーディングのため、フィルタ制御データとしてヘッダーフォーマッティングCABACコンポーネント231へ転送される。インループフィルタコンポーネント225はフィルタ制御データに基づいてかかるフィルタを適用する。フィルタは、デブロッキングフィルタ、ノイズ抑制フィルタ、SAOフィルタ、および適応型ループフィルタを含み得る。かかるフィルタは、例に応じて空間/画素領域(例えば、復元された画素ブロック上)で、または周波数領域で、適用されてよい。
エンコーダとして作動する場合、フィルタされた復元済み画像ブロック、残余ブロック、および/または予測ブロックは、上述した動き推定で後ほど使用するため復号済みピクチャバッファコンポーネント223に保管される。復号器として作動する場合、復号済みピクチャバッファコンポーネント223は復元されフィルタされたブロックを保管し、出力ビデオ信号の一部としてディスプレイへ転送する。復号済みピクチャバッファコンポーネント223は、予測ブロック、残余ブロック、および/または復元済み画像ブロックを保管できる何らかのメモリ装置であってよい。
ヘッダーフォーマッティングCABACコンポーネント231はコーデックシステム200の様々なコンポーネントからデータを受信し、かかるデータを復号器へ伝送するためコーディングされたビットストリームにエンコードする。具体的に述べると、ヘッダーフォーマッティングCABACコンポーネント231は、一般制御データやフィルタ制御データなどの制御データをエンコードするため、様々なヘッダーを生成する。さらに、イントラ予測および動きデータを含む予測データ、ならびに量子化された変換係数データの形をとる残余データは、いずれもビットストリームでエンコードされる。最終的なビットストリームは、復号器が元の区分けされたビデオ信号201を復元するにあたって必要となる全情報を含んでいる。かかる情報は、イントラ予測モードインデックステーブル(符号語マッピングテーブルとも呼ばれる)、様々なブロックのエンコーディングコンテキストの定義、最も可能性の高いイントラ予測モードの指示、区分情報の指示なども含み得る。かかるデータは、エントロピ符号化を使用してエンコードされ得る。例えば、情報は、コンテキスト適応型可変長コーディング(CAVLC)、CABAC、シンタクス方式コンテキスト適応型バイナリ算術コーディング(SBAC)、確率区間区分エントロピ(PIPE)コーディング、または他のエントロピコーディング技法を用いてエンコードできる。エントロピコーディングの後には、コーディングされたビットストリームを別の装置(例えばビデオ復号器)へ伝送でき、あるいは後ほど伝送したり取り出したりするため保管できる。
図3は、例示的なビデオエンコーダ300を示すブロック図である。ビデオエンコーダ300は、コーデックシステム200のエンコーディング機能を実施するため、および/または動作方法100のステップ101、103、105、107、および/または109を実施するために使われてよい。エンコーダ300は入力ビデオ信号を区分けし、その結果として得られる区分けされたビデオ信号301は区分けされたビデオ信号201と実質的に同様である。その後、区分けされたビデオ信号301はエンコーダ300のコンポーネントによって圧縮され、ビットストリームにエンコードされる。
具体的に述べると、区分けされたビデオ信号301はイントラ予測のためイントラピクチャ予測コンポーネント317へ転送される。イントラピクチャ予測コンポーネント317はイントラピクチャ推定コンポーネント215およびイントラピクチャ予測コンポーネント217と実質的に同様であってよい。区分けされたビデオ信号301は、復号済みピクチャバッファコンポーネント323内の参照ブロックに基づくインター予測のため、動き補償コンポーネント321にも転送される。動き補償コンポーネント321は動き推定コンポーネント221および動き補償コンポーネント219と実質的に同様であってよい。イントラピクチャ予測コンポーネント317と動き補償コンポーネント321からの予測ブロックと残余ブロックは、残余ブロックの変換と量子化のため、変換量子化コンポーネント313へ転送される。変換量子化コンポーネント313は変換スケーリング量子化コンポーネント213と実質的に同様であってよい。変換され量子化された残余ブロックと対応する予測ブロックは(関連制御データとともに)、ビットストリームへのコーディングのため、エントロピコーディングコンポーネント331へ転送される。エントロピコーディングコンポーネント331はヘッダーフォーマッティングCABACコンポーネント231と実質的に同様であってよい。
変換され量子化された残余ブロックおよび/または対応する予測ブロックは、動き補償コンポーネント321によって使用される参照ブロックへの復元のため、変換量子化コンポーネント313から逆変換量子化コンポーネント329にも転送される。逆変換量子化コンポーネント329はスケーリング逆変換コンポーネント229と実質的に同様であってよい。例によっては、残余ブロックおよび/または復元された参照ブロックにインループフィルタコンポーネント325内のインループフィルタも適用される。インループフィルタコンポーネント325はフィルタ制御解析コンポーネント227およびインループフィルタコンポーネント225と実質的に同様であってよい。インループフィルタコンポーネント325はインループフィルタコンポーネント225に関して述べた複数のフィルタを含んでよい。フィルタされたブロックはその後、動き補償コンポーネント321によって参照ブロックとして使用されるため、復号済みピクチャバッファコンポーネント323に保管される。復号済みピクチャバッファコンポーネント323は復号済みピクチャバッファコンポーネント223と実質的に同様であってよい。
図4は、例示的なビデオ復号器400を示すブロック図である。ビデオ復号器400は、コーデックシステム200のデコーディング機能を実施するため、および/または動作方法100のステップ111、113、115、および/または117を実施するために使われてよい。復号器400は、例えばエンコーダ300から、ビットストリームを受信し、エンドユーザー向けの表示のため、ビットストリームに基づいて復元された出力ビデオ信号を生成する。
ビットストリームはエントロピ復号コンポーネント433によって受信される。エントロピ復号コンポーネント433は、CAVLC、CABAC、SBAC、PIPEコーディング、またはその他のエントロピコーディング技法など、エントロピ復号方式を実施するように構成される。例えば、エントロピ復号コンポーネント433はヘッダー情報を使用して、ビットストリームで符号語としてエンコードされる追加データを解釈するためのコンテキストを提供できる。復号された情報は、一般制御データ、フィルタ制御データ、区分情報、動きデータ、予測データ、残余ブロックからの量子化変換係数など、ビデオ信号の復号にあたって望ましい情報を含む。量子化変換係数は残余ブロックへの復元のため逆変換量子化コンポーネント429へ転送される。逆変換量子化コンポーネント429は逆変換量子化コンポーネント329と同様であってよい。
復元された残余ブロックおよび/または予測ブロックは、イントラ予測操作に基づく画像ブロックへの復元のためイントラピクチャ予測コンポーネント417へ転送される。イントラピクチャ予測コンポーネント417はイントラピクチャ推定コンポーネント215およびイントラピクチャ予測コンポーネント217と同様であってよい。具体的に述べると、イントラピクチャ予測コンポーネント417は予測モードを使ってフレーム内で参照ブロックの位置を特定し、その結果に残余ブロックを適用してイントラ予測された画像ブロックを復元する。復元されたイントラ予測済み画像ブロックおよび/または残余ブロックと対応するインター予測データは、インループフィルタコンポーネント425を経由して復号済みピクチャバッファコンポーネント423へ転送され、これらのコンポーネントはそれぞれ復号済みピクチャバッファコンポーネント223およびインループフィルタコンポーネント225と実質的に同様であってよい。インループフィルタコンポーネント425は復元済みの画像ブロック、残余ブロック、および/または予測ブロックをフィルタし、かかる情報は復号済みピクチャバッファコンポーネント423に保管される。復元済み画像ブロックはインター予測のため復号済みピクチャバッファコンポーネント423から動き補償コンポーネント421へ転送される。動き補償コンポーネント421は動き推定コンポーネント221および/または動き補償コンポーネント219と実質的に同様であってよい。具体的に述べると、動き補償コンポーネント421は参照ブロックからの動きベクトルを使って予測ブロックを生成し、その結果に残余ブロックを適用して画像ブロックを復元する。そうして得られた復元済みブロックはまた、インループフィルタコンポーネント425を経由して復号済みピクチャバッファコンポーネント423へ転送されてもよい。復号済みピクチャバッファコンポーネント423はさらなる復元済み画像ブロックを引き続き保管し、これらの復元済み画像ブロックは区分情報によってフレームに復元できる。かかるフレームはシーケンスにも並べられてもよい。このシーケンスは復元された出力ビデオ信号としてディスプレイへ出力される。
図5は、例示的なHRD 500を示す概略図である。HRD 500は、コーデックシステム200および/またはエンコーダ300などのエンコーダで使用されてよい。HRD 500は、ビットストリームが復号器400などの復号器に転送される前に、方法100のステップ109で生成されたビットストリームを検査し得る。いくつかの例において、ビットストリームがエンコードされると、ビットストリームはHRD 500を介して継続的に転送され得る。ビットストリームの一部が関連する制約条件に適合しない場合、HRD 500は、エンコーダがビットストリームの対応部分を別のメカニズムで再エンコードするように、このような異常をエンコーダに示すことができる。
HRD 500は、仮想ストリームスケジューラ(HSS)541を備える。HSS 541は、仮想配信メカニズムを実行するように構成されたコンポーネントである。仮想配信メカニズムは、HRD 500に入力されるビットストリーム551のタイミングおよびデータフローに関して、ビットストリームまたは復号器の適合性を検査するために使用される。例えば、HSS 541は、エンコーダから出力されたビットストリーム551を受信し、ビットストリーム551の適合性テストのプロセスを管理し得る。個別の一例において、HSS 541は、コーディングされたピクチャがHRD 500を通過するレートを制御し、ビットストリーム551が不適合データを含んでいないことを検証することができる。
HSS 541は、CPB 543にビットストリーム551を所定のレートで転送し得る。HRD 500の目的のために、AUおよび/またはNALユニットなどの、ビットストリーム551内にコーディングされたビデオを含んでいる任意のユニットが、復号可能ユニット(DU)553と称されてよい。CPB 543は、HRD 500の先入先出バッファである。CPB 543は、コーディングされたピクチャを含むDU 553、またはそのサブ部分(例えば、スライス)を復号順に含む。CPB 543は、ビットストリーム適合性検証中に使用するために、かかるピクチャを保管する。
CPB 543は、DU 553を復号プロセスコンポーネント545に転送する。復号プロセスコンポーネント545は、VVC標準に適合したコンポーネントである。例えば、復号プロセスコンポーネント545は、エンドユーザーによって使用される復号器400をエミュレートしてよい。復号プロセスコンポーネント545は、例示的なエンドユーザー復号器で達成できるレートでDU 553を復号する。復号プロセスコンポーネント545が、CPB 543のオーバーフローを防止するほど充分な速さでDU 553を復号できない場合は、ビットストリーム551は標準に適合しておらず、再エンコードが必要になる。
復号プロセスコンポーネント545はDU 553を復号し、復号済みDU 555を生成する。復号済みDU 555は、復号済みピクチャを含む。復号済みDU 555は、DPB 547に転送される。DPB 547は、復号済みピクチャバッファコンポーネント223、323、および/または423と実質的に同様であってよい。インター予測を支援する目的で、復号済みDU 555から取得された、参照ピクチャ556として使用するためにマーキングされたピクチャは、さらなる復号を支援するために、復号プロセスコンポーネント545に戻される。DPB 547は、復号済みビデオシーケンスを一連のピクチャ557として出力する。ピクチャ557は、通常はエンコーダによってビットストリーム551にエンコードされたピクチャを反映した、復元されたピクチャである。
ピクチャ557は、出力クロッピングコンポーネント549に転送される。出力クロッピングコンポーネント549は、ピクチャ557に適合性クロッピングウィンドウを適用するように構成される。これにより、出力クロッピング済みピクチャ559が得られる。出力クロッピング済みピクチャ559は、完全に復元されたピクチャである。したがって、出力クロッピング済みピクチャ559は、ビットストリーム551を復号したときにエンドユーザーが見ることになるものを模倣している。このようにエンコーダは、エンコードが良好なことを確認するために、出力クロッピング済みピクチャ559を検討することができる。
図6は、ビデオシーケンスでGDR 600を実行する例示的なメカニズムを示す概略図である。GDR 600は、コーデックシステム200および/またはエンコーダ300などのエンコーダでエンコードされ、かつコーデックシステム200および/または復号器400などの復号器で復号されたビットストリームで使用され得る。さらに、本明細書で説明する技法を使用して、エンコーダにおけるHRD 500は、GDR 600を使用したビットストリームに、ビットストリーム適合性検査を実行することができる。
一実施形態において、GDR 600は、CVS 608などのCVSにランダムアクセスポイントを生成するために使用することができる。GDR 600は、コーディング済みビデオシーケンス608が、IRAPピクチャなどの、完全にイントラコーディングされた単一のピクチャで初期化されるのを避けるために、それぞれがインターコーディングされた領域およびイントラコーディングされた領域の両方を含む、一連のピクチャをコーディングするメカニズムである。具体的に述べると、ビデオシーケンス内のほとんどのピクチャがインター予測に従ってコーディングされ、それ故、他のピクチャを参照して復号される。復号器は、参照ピクチャが使用可能でない場合は、インターコーディングされたピクチャを復号できない場合がある。GDR 600は、これ以降の全ピクチャを正しく復号できる、回復ポイントを生成するメカニズムを提供する。
一実施形態において、CVS 608は、GDRピクチャ602と、1つ以上の後続ピクチャ604と、回復ポイントピクチャ606とを含む。一実施形態において、GDRピクチャ602は、CVS開始(CVSS)ピクチャと称される。さらに、GDRピクチャ602はGDR AUに含めることが可能であり、GDR AUは、一連のGDR関連ピクチャのうち最初のGDRピクチャを含むAUである。CVS 608は、ビデオビットストリーム内の各コーディング済みレイヤワイズビデオシーケンス(CLVS)に対する、コーディング済みビデオシーケンスであってよい。特に、ビデオビットストリームが含むレイヤが1つのときは、CVSとCLVSとは同じである。ビデオビットストリームが複数のレイヤを含むときのみ、CVSとCLVSとは相違する。一実施形態において、後続ピクチャ604は、GDR期間内の回復ポイントピクチャ606より前にあるので、GDRピクチャの一形態とみなされてよい。
一実施形態において、GDRピクチャ602と、後続ピクチャ604と、回復ポイントピクチャ606とは、CVS 608のGDR期間を画定し得る。一実施形態において、復号順は、GDRピクチャ602から開始し、後続ピクチャ604に続き、その後、回復ピクチャ606に進む。CVS 608は、GDRピクチャ602から始まってすべてのピクチャ(またはその一部)までを含む一連のピクチャ(またはその一部)であるが、次のGDRピクチャ、またはビットストリームの最後までは含まない。GDR期間は、GDRピクチャ602から始まってすべてのピクチャまでを含む一連のピクチャであり、回復ポイントピクチャ606を含む。CVS 608の復号プロセスは、GDRピクチャ602がビデオの中のランダムアクセスポイントとして使用されるときは、GDRピクチャ602から始まる。ランダムアクセスポイントは、有効なビデオデータを得るために復号器が復号を開始できる、ビットストリーム内の任意の位置である。
図6に示すように、GDR 600は、GDRピクチャ602から始まって回復ポイントピクチャ606で終わる、一連のピクチャにわたって動作する。GDRピクチャ602は、すべてイントラ予測を使用してコーディングされたブロック(すなわちイントラ予測ブロック)を含むリフレッシュ済み/クリーン領域610と、すべてインター予測を使用してコーディングされたブロック(すなわちインター予測ブロック)を含む未リフレッシュ/ダーティ領域612とを含む。イントラ予測ブロックは、他のピクチャを参照せずに復号することができる。しかしながら、ダーティ領域のインター予測ブロックは、GDRピクチャ602より前にあるピクチャを参照しないと復号できないので、GDRピクチャ602がランダムアクセスポイントとして使用されないときのみ復号することができる。
後続ピクチャ604は、GDRピクチャ602のすぐ隣にあり、イントラ予測を使用してコーディングされた第1の領域610Aと、インター予測を使用してコーディングされた第2の領域610Bとを有する、リフレッシュ済み/クリーン領域610を含む。第2の領域610Bは、例えば、CVS 608のGDR期間内の先行するピクチャの、リフレッシュ済み/クリーン領域610を参照してコーディングされる。図示されているように、後続ピクチャ604のリフレッシュ済み/クリーン領域610は、コーディングプロセスが一定の方向へ(例えば、左から右へ)移動または進行するにつれて拡大し、これに対応して、未リフレッシュ/ダーティ領域612が縮小する。最終的に、コーディングプロセスによって、リフレッシュ済み/クリーン領域610のみを含む回復ポイントピクチャ606に到達する。特に、リフレッシュ済み/クリーン領域610の第2の領域610Bは、インター予測ブロックとしてコーディングされ、参照ピクチャのリフレッシュ済み領域/クリーン領域610のみを参照してよい。この制限により、リフレッシュ済み領域/クリーン領域610にダーティデータが導入されないことが保証される。
したがって、回復ポイントピクチャ606は一連のGDRの後に続くピクチャであり、回復ポイントピクチャ606は、一連のGDRの最初のGDRピクチャ602より前にあるピクチャのデータを参照することなく、完全に復号することが可能になる。例えば、回復ポイントピクチャ606は、先行するピクチャの任意のクリーン領域610を参照して、インター予測によってコーディングされてよい。図6に見られるように、復号器は、どのピクチャが回復ポイントピクチャ606かを速やかに決定したい場合があり、それは、回復ポイントピクチャ606に到達したら、復号器はピクチャの表示を開始したいためである。例えば、GDRピクチャ602に関連付けられるピクチャヘッダーまたはスライスヘッダーなどのヘッダーに、先行ピクチャの出力なしフラグが設定されてよい。このフラグが設定されると、回復ポイントピクチャ606に到達するまで、ユーザーにピクチャが出力されない。これにより、表示用に適切に復号できない未リフレッシュ/ダーティ領域612を含む、GDRピクチャ602および後続ピクチャ604が表示されるのを防止し得る。
このプロセスは、POC値を使用して管理することができる。POCは、各ピクチャに関連付けられ、CVS 608内の全ピクチャの中で、関連ピクチャを一意に識別する変数/値である。さらに、関連ピクチャがDPBから出力されるときは、これもDPBから出力される、同じCVS 608内の他のピクチャの出力順の位置に対する、関連ピクチャの位置をPOCが出力順に示す。このように、GDRピクチャ602はGDR POC621を有し、後続ピクチャ604はPOC623を有し、回復ポイントピクチャ606は回復POC622を有する。このように、GDR POC621はGDRピクチャ602のPOCであり、回復POC622は、回復ポイントピクチャ606のPOCである。復号器は、GDR期間に関する復号の詳細を決定するために、POC値を使用することができる。例えば、ヘッダーは、GDRピクチャ602に関連付けられるPOC LSBを示すために使用することができる。POC LSBは、POC値における1つ以上の最下位のビットである。復号器は、GDR POC621を決定するために、他のシンタクス要素とともに、GDRピクチャ602のPOC LSBを使用することができる。この手法は、GDR POC621を表すために使用されるビット数を削減し得る。回復POC622は、GDR POC621と回復POC622との差分で表すことができる。このように、復号器は、ヘッダーのPOC LSB値に基づいて、GDRピクチャ602のPOCを決定することができる。復号器は、次に、ヘッダーから回復POC622の値を取得し、GDRピクチャ602のGDR POC621に基づいて、回復POC622の値を解決することができる。回復POC622の値は、解決/決定されると、回復ポイントピクチャ606のPOCを示す。復号器は、次に、回復ポイントピクチャ606から始まる、復元されたピクチャの表示を開始することができる。
図7は、GDR 600を支援するためにエンコーダ制限を使用するときの、望ましくない動き探索700を示す概略図である。図示されているように、動き探索700は、現在ピクチャ702と参照ピクチャ704とを表す。現在ピクチャ702および参照ピクチャ704は、イントラ予測でコーディングされたリフレッシュ済み領域706と、インター予測でコーディングされたリフレッシュ済み領域705と、未リフレッシュ領域708とをそれぞれ含む。リフレッシュ済み領域705、リフレッシュ済み領域706、および未リフレッシュ領域708は、図6における、リフレッシュ済み/クリーン領域610の第1の領域610A、リフレッシュ済み/クリーン領域610の第2の領域610B、および未リフレッシュ/ダーティ領域612とそれぞれ同様である。
動き探索プロセス中に、エンコーダは、リフレッシュ済み領域705~706の外部に配置されたサンプルを含む参照ブロック712を指し示す、動きベクトル710の選択を制約または防止される。これは、現在ピクチャ702内の現在ブロック714を予測するときに、参照ブロック712が最良のレート歪みコスト基準を提供するときであっても生じる。しかしながら、この制約条件を使用することによって、リフレッシュ済み領域705~706がダーティデータを参照しないことが保証され、それ故、関連するGDRピクチャがランダムアクセスポイントとして使用されるときに復号不能にならない。
図8は、GDR 600などのGDRが使用されているときに、HRD 500などのHRDの初期化に使用するための、例示的なビットストリーム800を示す概略図である。例えば、ビットストリーム800は、方法100に従って、コーデックシステム200および/または復号器400で復号するために、コーデックシステム200および/またはエンコーダ300で生成することができる。
ビットストリーム800は、SPS810と、複数のピクチャパラメータセット(PPS)811と、複数のスライスヘッダー815と、画像データ820とを含む。SPS810は、ビットストリーム800に含まれるコーディング済みビデオシーケンス内の全ピクチャに共通するシーケンスデータを含む。かかるデータは、ピクチャのサイズ調整、ビット深度、コーディングツールパラメータ、ビットレート制限などを含むことができる。PPS811は、ピクチャ全体に適用されるパラメータを含む。それ故、ビデオシーケンス内の各ピクチャは、PPS811を参照してよい。いくつかの例において、各ピクチャがPPS811を参照する一方で、単一のPPS811が、複数のピクチャのデータを含むことが可能なことに留意されたい。例えば、複数の類似したピクチャが、類似したパラメータに従ってコーディングされてよい。このような場合は、単一のPPS811が、かかる類似したピクチャのデータを含み得る。PPS811は、対応するピクチャ内のスライスに使用できるコーディングツール、量子化パラメータ、オフセットなどを示すことができる。スライスヘッダー815は、ピクチャ内の各スライスに固有のパラメータを含む。それ故、ビデオシーケンスにおいて、スライスごとに1つのスライスヘッダー815があってよい。スライスヘッダー815は、スライス種別情報、POC、参照ピクチャリスト、予測重み付け、タイルエントリポイント、デブロッキングパラメータなどを含み得る。スライスヘッダー815は、いくつかのコンテキストではタイルグループヘッダーとも称されてもよいことに留意されたい。いくつかの例において、ビットストリーム800は、ピクチャヘッダーも含んでもよく、これは、単一のピクチャ内の全スライスに適用されるパラメータを含む、シンタクス構造であることに留意されたい。この理由により、いくつかのコンテキストでは、ピクチャヘッダーとスライスヘッダー815とは、同じように使用されてよい。例えば、いくつかのパラメータは、かかるパラメータがピクチャ内の全スライスに共通しているかどうかに応じて、スライスヘッダー815とピクチャヘッダーとの間を移動してよい。
画像データ820は、インター予測および/またはイントラ予測に従ってエンコードされたビデオデータ、ならびに対応する変換され量子化された残余データを含む。例えば、ビデオシーケンスは、複数のピクチャ823を含む。ピクチャ823は、ビデオシーケンス内の対応する瞬間に、完全にまたは部分的にユーザーに表示することが意図される、完全な画像である。ピクチャ823は、単一のAU 821に含まれ得る。AU 821は、単一のコーディングされたピクチャ823と、任意選択でスライスヘッダー815などの1つ以上のヘッダーとを保管するように構成されたコーディングユニットであり、ヘッダーは、コーディングされたピクチャ823をコーディングするために使用される、コーディングメカニズムを記述したパラメータを含んでいる。ピクチャ823は、1つ以上のスライス825を含む。スライス825は、単一のNALユニットに排他的に含まれるピクチャ823の完全なタイルの整数、または(例えば、タイル内の)連続する完全なCTU行の整数で定義され得る。スライス825は、CTUおよび/またはコーディングツリーブロック(CTB)にさらに分割される。CTUは、コーディングツリーで区分けできる、所定のサイズの一群のサンプルである。CTBは、CTUのサブセットであり、CTUのルマ成分またはクロマ成分を含む。CTU/CTBは、コーディングツリーに基づいて、コーディングブロックにさらに分割される。コーディングブロックは、次に、予測メカニズムに従ってエンコード/復号することができる。
上記のように、いくつかのビデオコーディングシステムは、ビットストリーム800がGDR 600に従ってコーディングされたピクチャ823を含むときは、HRD 500を実行するように構成されなくてよい。これは、HRD 500が、IRAPピクチャで適合性テストの実行を開始するように構成される場合があるためである。この問題に対処するために、BP SEIメッセージ817が使用され得る。BP SEIメッセージ817は、GDR AUに関連付けられ得る。例えば、BP SEIメッセージ817は、GDRピクチャ(例えば、GDR期間における最初のピクチャ)を含む各AU 821のビットストリーム800に含まれてよい。SEIメッセージは、復号済みピクチャ内のサンプルの値を決定するために、復号プロセスで必要とされない情報を伝達する、特定のセマンティクスを有するシンタクス構造である。それ故、SEIメッセージは、ビットストリーム800の復号に直接関係しないパラメータをシグナリングするために使用される。BP SEIメッセージ817は、CPB 543などのCPBを管理するために、HRDを初期化するためのHRDパラメータ836を含むSEIメッセージである。CPBは指定された期間、ピクチャを保持/バッファし得る。このように、BP SEIメッセージ817は、CPBにおけるバッファリング期間を指定するように構成され得る。HRDパラメータ836は、HRDの初期化を支援する任意のパラメータを含む。例えば、HRDパラメータ836は、初期CPB除去遅延を含み得る。CPB除去遅延は、現在ピクチャが、除去される前にCPB内に残存できる期間である。CPB除去遅延は、GDR AUの位置で、HRDを復号順に初期化するために使用され得る。このように、BP SEIメッセージ817は、GDRピクチャでHRDを初期化するために使用されてよく、それ故、ビットストリーム800がGDRピクチャを含むときに、ビットストリーム適合性テストの適用を支援する。さらに、BP SEIメッセージ817内のHRDパラメータ836は、ビットストリームが適合性テストにかけられていることを復号器に示し得る。したがって、BP SEIメッセージ817内のHRDパラメータ836は、復号器に対し、復号器がビットストリーム800を復号できることを示し得る。
ビットストリーム800は、GDRの使用を支援するための他のメカニズムも備えていてもよい。例えば、スライスヘッダー815または対応するピクチャヘッダーは、先行ピクチャの出力なしフラグ831を含み得る。先行ピクチャの出力なしフラグ831は、GDRピクチャのヘッダー内に設定されてよく、GDR AUに含まれている。先行ピクチャの出力なしフラグ831は、GDR期間内のピクチャは、回復ピクチャに到達するまで出力してはならないことを復号器に示すように設定することができる。回復ピクチャはその後、一部はダーティデータに基づいて復元された、部分的に復号されたピクチャを表示することなく、表示することができる。
さらに、ビットストリーム800は、例えば、スライスヘッダー815、または対応するピクチャヘッダーに、POC LSB値833および回復POC値835を含み得る。POC LSB値833は、POC値における1つ以上の最下位のビットを含む。POC LSB値833はGDRピクチャに関連付けられてよく、それ故、GDRピクチャに対してPOCのLSBを示し得る。例では、POC LSB値833は、ph_pic_order_cnt_lsb値としてヘッダーに含めることができる。ph_pic_order_cnt_lsb値は、現在ピクチャに対してPOCモジュロ最大POC LSBを指定してよく、現在ピクチャはGDRピクチャである。回復POC値835は、GDRピクチャに関連付けられた回復ポイントピクチャのPOCを示す。例えば、回復POC値835は、POC LSB値833として同じヘッダーに含めることができる。さらに、回復POC値835は、回復POCカウント(recovery_poc_cnt)値としてシグナリングすることができる。recovery_poc_cnt値は、復号済みピクチャの回復ポイントを、GDR POCと回復ポイントピクチャPOCとのPOCカウントの差分として、出力順に指定する。さらに、POC LSB値833は、回復POC値835よりも前にヘッダーにリストされてよい。このようにして、復号器は、POC LSB値833を取得してGDR POCを決定するために、ヘッダーをパースすることができる。復号器は、回復POC値835を取得するために、ヘッダーをパースすることができる。GDR POCは、POC LSB値833に基づいてすでに決定されているので、回復POC値835は直ちに解決することができ、その結果、回復ポイントピクチャPOCを決定することができる。これにより、復号器は、GDRピクチャのPOC LSB値833がパースされ解決されるまで、メモリに未解決の回復POC値835が保管されることを回避できるようになる。このように、ビットストリーム800は、例えば、HRDに対して、および/または復号器に対して、向上したGDR機能を支援する様々なメカニズムを備えている。このように、ビットストリーム800に対して説明したメカニズムは、エンコーダおよび/または復号器の機能を向上させ得る。さらに、ビットストリーム800に対して説明したメカニズムは、向上したコーディング効率を支援し、かつ/またはエンコーダおよび/または復号器における、プロセッサ、メモリ、および/またはネットワーク通信リソースの削減を支援し得る。
ここで、前述した情報が以下でより詳細に説明される。高効率ビデオコーディング(HEVC)を実施するビデオコーディングシステムは、複数のIRAPピクチャを使用し得る。具体的に述べると、HEVCでは、IDR、リンク切れアクセス(BLA)、およびCRAピクチャは、ともにIRAPピクチャとみなされる。VVCを使用するビデオコーディングシステムは、IDRおよびCRAピクチャをIRAPピクチャとして使用する場合がある。IRAPピクチャは、次の機能/利点を提供し得る。IRAPピクチャの存在は、そのピクチャから復号プロセスを開始できることを示す。この機能は、その位置にIRAPピクチャが存在する限り、必ずしもビットストリームの起点でないビットストリーム内の位置から復号プロセスを開始できる、ランダムアクセス機能を支援する。また、IRAPピクチャの存在によって、復号順においてIRAPピクチャの後にコーディングされたピクチャが、ランダムアクセススキップリーディング(RASL)ピクチャを除き、IRAPピクチャより前にあるどのピクチャも参照せずにコーディングされるように、復号プロセスをリフレッシュし得る。したがって、IRAPピクチャより前にあるピクチャを復号するときに生じ得るコーディングエラーが、IRAPピクチャを介して伝播し、復号順においてIRAPピクチャの後に続くピクチャに及ぶことがなくなり得る。
IRAPピクチャは、圧縮効率に対するペナルティという代償を払って、様々な機能を提供する。例えば、IRAPピクチャが存在することにより、ビットレートにサージが生じる。圧縮効率に対するこのペナルティには2つの原因がある。第1に、IRAPピクチャはイントラ予測ピクチャである。したがって、IRAPを表すために、他のインター予測されたピクチャよりも多くのビットが使用される場合がある。第2に、IRAPピクチャの存在が、時間予測を遮断する場合がある。これは、IRAPピクチャが復号プロセスをリフレッシュし、以前の参照ピクチャをDPBから除去する場合があるためである。このように、復号順においてIRAPピクチャの後に続くピクチャのコーディング効率は低下する場合があり、これは、インター予測コーディングの実行時に、かかるピクチャが選択のために有する参照ピクチャが少ないためである。
IRAPピクチャとみなされるピクチャ種別の中で、IDRピクチャは、他のピクチャ種別と比較すると異なるシグナリングおよび導出を使用する場合がある。相違の一部は以下の通りである。IDRピクチャのPOC値のシグナリングおよび導出については、POCの一部である最上位ビット(MSB)は、以前のキーピクチャから導出されなくてよい代わりにゼロに設定され得る。参照ピクチャ管理用に使用されるシグナリング情報については、IDRピクチャのスライスヘッダーは、参照ピクチャ管理を補助するための情報を含まなくてよい。CRAおよび後続ピクチャなどの他のピクチャ種別は、参照ピクチャマーキングプロセスを支援するために、参照ピクチャセット(RPS)または参照ピクチャリスト情報などの情報を含み得る。参照ピクチャマーキングプロセスは、DPB内の参照ピクチャの状態について、参照用に使用されるか、参照用に使用されないかのいずれかを決定するプロセスである。しかしながら、IDRピクチャの場合は、復号プロセスがDPB内の全参照ピクチャを参照に使用しないものとしてマーキングすべきことをIDRの存在が示しているので、このような情報はシグナリングされなくてよい。
リーディングピクチャが存在するときは、IRAPピクチャに関連付けられる。リーディングピクチャは、復号順において、関連付けられたIRAPピクチャの後に続くピクチャであるが、提示順/出力順ではIRAPピクチャに先行する。コーディング構成およびピクチャ参照構造に応じて、リーディングピクチャはさらに2種類に識別される。第1の種別は、関連するIRAPピクチャから復号プロセスが始まるときは、正しく復号されない場合があるリーディングピクチャである。かかるピクチャは、ランダムアクセススキップリーディング(RASL)ピクチャとして知られる。この事例ではRASLピクチャが復号可能でない場合があり、それはRASLピクチャが、復号順においてIRAPピクチャに先行するピクチャを参照してコーディングされるためである。第2の種別は、関連するIRAPピクチャから復号プロセスが始まるときであっても、正しく復号できるリーディングピクチャである。このようなピクチャは、ランダムアクセス復号可能リーディング(RADL)ピクチャとして知られる。RADLピクチャを復号できるのは、RADLピクチャが、復号順においてIRAPピクチャに先行するピクチャを、直接的に、または間接的に参照せずにコーディングされるためである。いくつかのビデオコーディングシステムは、RASLおよびRADLピクチャが同じIRAPピクチャに関連付けられているときは、出力順においてRASLピクチャがRADLピクチャに先行しなければならない、などの制約を設けている。
IRAPピクチャおよびリーディングピクチャは、システムレベルのアプリケーションによる識別を支援するために、別のNALユニット種別に割り当てられる。例えば、ビデオスプライサは、コーディングされたビットストリーム内の詳細なシンタクス要素を検討することなく、コーディングピクチャ種別を決定するように構成され得る。例えば、ビデオスプライサは、非IRAPピクチャからIRAPピクチャを識別し、かつRASLおよびRADLピクチャを決定することを含めて、後続ピクチャからリーディングピクチャを識別し得る。後続ピクチャは、IRAPピクチャに関連付けられたピクチャであり、出力順においてIRAPピクチャの後に続く。ピクチャが復号順において特定のIRAPピクチャの後に続き、復号順において任意の他のIRAPピクチャに先行するときは、ピクチャは特定のIRAPピクチャに関連付けられる。したがって、IRAPおよびリーディングピクチャを異なるNALユニット種別に割り当てることによって、かかるアプリケーションを支援する。
ピクチャ種別に対するいくつかの例示的なNALユニット種別は、以下の通りである。リーディングピクチャを含むBLA(BLA_W_LP)は、復号順において1つ以上のリーディングピクチャが後に続き得る、リンク切れアクセス(BLA)ピクチャのNALユニットである。RADLを含むBLA(BLA_W_RADL)は、復号順において、1つ以上のRADLピクチャが後に続き得るがRASLピクチャは含まない、BLAピクチャのNALユニットである。リーディングピクチャを含まないBLA(BLA_N_LP)は、復号順においてリーディングピクチャが後に続かない、BLAピクチャのNALユニットである。RADLを含むIDR(IDR_W_RADL)は、復号順において、1つ以上のRADLピクチャが後に続き得るがRASLピクチャは含まない、IDRピクチャのNALユニットである。リーディングピクチャを含まないIDR(IDR_N_LP)は、復号順においてリーディングピクチャが後に続かない、IDRピクチャのNALユニットである。CRAは、RASLピクチャ、RADLピクチャ、またはその両方などのリーディングピクチャが後に続き得る、CRAピクチャのNALユニットである。RADLは、RADLピクチャのNALユニットである。RASLは、RASLピクチャのNALユニットである。
低遅延アプリケーションの場合、IRAPピクチャを回避すると有利な場合があり、これは、IRAPピクチャコーディングのビットレート要件が、非IRAPピクチャコーディングと比較すると比較的大きいためで、このようにビットレート要件が大きいと、レイテンシおよび/または遅延の増大を引き起こす。しかしながら、すべての低遅延アプリケーションでランダムアクセスポイントの使用を全面的に回避することは不可能であろう。例えば、多人数遠隔会議などの対話型アプリケーションでは、新しいユーザーが遠隔会議に参加できる一定のポイントを提供しなければならない場合がある。
漸進的イントラリフレッシュ(PIR)は、IRAPピクチャを使用せずにビットストリームにランダムアクセスポイントを提供するために使用され得る、例示的なメカニズムである。この手法により、IRAPに関連するビットレートのピーク上昇を回避しながら、新しいユーザーが、多人数遠隔会議アプリケーションに参加できるようになる。PIRは、漸次復号リフレッシュ(GDR)および/または漸次ランダムアクセス(GRA)とも呼ばれてもよい。図6は、GDRを実行する例示的なメカニズムを示している。GDR技法は、GDRピクチャから始まり、複数のピクチャにわたって動作する。GDRピクチャは1つの領域を含み、そこでは領域内の全コーディング済みブロックがイントラ予測ブロックとしてコーディングされる。この領域は、リフレッシュ済み領域/クリーン領域と呼ばれてもよい。GDRピクチャの残りのブロックは、インター予測ブロックとしてコーディングされ得る。この領域は、未リフレッシュ領域/ダーティ領域と称されてもよい。GDRピクチャの後に続く後続のピクチャにおいて、イントラ予測ブロックでコーディングされた領域は、一定の方向へ(例えば、左から右へ)移動する。このメカニズムにより、インター予測ブロックを含むダーティ領域を縮小する。各後続ピクチャに対し、前のピクチャのクリーン領域とコロケートされる領域はインター予測に従ってコーディングでき、クリーン/リフレッシュ済み領域のサイズが大きくなる。現在ピクチャのクリーン領域は、参照ピクチャ内のクリーン領域のブロックを参照するためにのみインター予測を使用し得る。
HEVCを採用しているビデオシステムは、回復ポイントSEIメッセージ、および領域リフレッシュ情報SEIメッセージを使用して、規範に従わずにGDRを支援し得る。かかるSEIメッセージは、GDRの実行方法を定義しなくてよいが、(例えば、回復ポイントSEIメッセージにおける)GDR期間の最初および最後のピクチャと、(例えば、領域リフレッシュ情報SEIメッセージにおける)リフレッシュされた領域とを示すメカニズムを提供し得る。GDRは、制約イントラ予測(CIP)、および動きベクトルに対するエンコーダ制約を使用して実行され得る。イントラコーディングされた領域が、未リフレッシュ領域のサンプルを参照しないことをCIPが保証するので、CIPはイントラコーディング済み領域をコーディングするために使用することができる。CIPは、リフレッシュ済み領域のイントラコーディングブロック、およびピクチャ内のすべてのイントラコーディングブロックの両方に関連する制約が適用されるため、コーディング性能の低下を引き起こす場合がある。動きベクトルに対するエンコーダ制約は、リフレッシュ済み領域の外部に配置された参照ピクチャ内のサンプルをエンコーダが使用しないように、制限することによって適用され得る。このような制約により、動き探索が最適ではなくなる場合がある。図7は、GDRを支援するためにエンコーダ制限を使用したことによって生じた、例示的な最適でない動き探索を示す。動き探索プロセス中に、エンコーダは、リフレッシュ済み領域の外部に配置された参照ブロックの任意のサンプルを参照する、動きベクトルの選択を妨げられる。レート歪みコスト基準によるとその参照ブロックが最良の参照ブロックであっても、この条件は維持される。
CIPおよびエンコーダ制約手法の使用に基づくGDRの例示的な実施については、以下の通りに要約することができる。イントラ予測モードは、列に基づいてコーディングユニットに強制される。イントラ予測されたコーディングユニットの復元を保証するために、制約されたイントラ予測が使用可能にされる。動きベクトルは、フィルタの誤差が広がることを避けるために、6画素などの追加マージンを考慮に入れながら、リフレッシュ済みのエリア内を指し示すように制約される。イントラ予測列が再ループしているときは、前の参照ピクチャは除去されてよい。GDRの別の例示的な実施が、GDR期間の最初および最後のピクチャとして使用されるピクチャを示すために使用され得る。この例は以下のように要約することができる。NALユニット種別回復ポイント指示を伴うNALユニットは、非ビデオコーディングレイヤ(VCL)NALユニットとして使用することができる。NALユニットのペイロードは、GDR期間内の最後のピクチャのPOC値を導出するために使用できる情報を指定するために、シンタクス要素を含む。種別回復ポイント指示を伴う非VCL NALユニットを含むアクセスユニットは、回復ポイント開始(RBP)アクセスユニットと呼ばれてもよい。RBPアクセスユニット内のピクチャは、RBPピクチャと称される。復号プロセスは、RBP AUから始めることができる。RBP AUから復号が始まると、GDR期間内のピクチャは、最後のピクチャを除き、表示用に出力されない。
例示的な実施において、GRAを実施するためにVVCを使用するビデオコーディングシステムは、コーディング済みビデオシーケンス(CVS)が、完全にイントラコーディングされていないGRAピクチャから開始できるようにするために、次の要素を使用し得る。SPS内のgra_enabled_flagは、GRAピクチャが存在し得るか否かを指定し得る。GRA_NUTは、GRAピクチャを示すNALユニット種別である。スライスヘッダー内のrecovery_poc_cntは、対応するピクチャが回復ピクチャであり、それ故、ピクチャは新しいCVSを開始し、回復ピクチャおよび後続のピクチャは、GRA期間内のピクチャに基づいて正しく復号され得ることを指定し得る。CVSは、CRAピクチャの後でCVSを始めるのと同様に、GRAピクチャから始めてよい。
前述した態様には、いくつか問題がある。例えば、GRAピクチャを使用したVVCの実施は、HRDパラメータの指定、およびGRAピクチャを含むビットストリームに対するHRD適合性動作の定義を支援しない場合がある。結果として、例えば、GRAピクチャから始まるビットストリームについては、かかるビットストリームの復号能力要件が明確にならない場合がある。
一般に、本開示は、GDRピクチャを含むビデオビットストリームに対する、ビットストリーム適合性メカニズムの仕様を支援する方法について述べる。例えば、かかる支援は、かかるビデオビットストリームのHRDを管理するためのメカニズムを定義することによって達成され得る。本明細書で使用される技法の説明は、VVCの実施に基づいているが、他のビデオコーデック仕様にも適用されてもよい。
上述した1つ以上の問題が、以下の通り解決され得る。例えば、本開示は、HRDパラメータを指定し、HRD適合性動作の定義を可能にする手法を含み、これは、GRAピクチャを含むビットストリームに対して実行することができる。例えば、CVSにHRDパラメータがいつ存在しているかを示すために、NalHrdBpPresentFlagを1に設定したり、VclHrdBpPresentFlagを1に設定したりすることができる。このような事例では、バッファリング期間SEIメッセージは、各GRAアクセスユニットに関連付けられてよい。さらに、バッファリング期間SEIメッセージは、HRDパラメータを含んでよい。したがって、GRAアクセスユニットに対してHRDパラメータが使用可能になり、任意のGRAアクセスユニットでHRD動作を初期化することができる。例えば、複数のGRAアクセスユニットを含むビデオビットストリームは、それぞれがGRAピクチャを含むことができる。ビットストリームは、復号器で復号することができる。GRAアクセスユニットはそれぞれ、バッファリング期間SEIメッセージに関連付けることができる。復号器は、少なくともGRAアクセスユニットに関連付けられたバッファリング期間SEIメッセージに基づいて、GRAアクセスユニットの1つから始まるビデオビットストリームを復号することができる。別の例において、エンコーダは、ビデオビットストリームをエンコードすることができる。例えば、エンコーダは、各GRAピクチャを1つのアクセスユニットにエンコードすることによって、複数のGRAピクチャをエンコードすることができる。各GRAピクチャに対して、エンコーダは、関連するバッファリング期間SEIメッセージをエンコードすることができる。1つ以上の例示的な実施が、以下に記載されている。
例示的な汎用スライスヘッダーのシンタクスは、以下の通りである。
例示的なシーケンス終端RBSPセマンティクスは以下の通りである。存在するときは、シーケンス終端RBSPは、現在のアクセスユニットが、復号順において、コーディング済みビデオシーケンス内の最後のアクセスユニットであり、復号順において、ビットストリーム内の次の後続のアクセスユニット(ある場合)が、IRAPまたはGRAアクセスユニットであることを指定する。データビット記号列(SODB)のシンタクスコンテンツ、およびシーケンス終端RBSPのRBSPは空である。
例示的な汎用スライスヘッダーのセマンティクスは、以下の通りである。存在するときは、各スライスヘッダーシンタクス要素の値slice_pic_parameter_set_id、slice_pic_order_cnt_lsb、no_output_of_prior_pics_flag、および slice_temporal_mvp_enabled_flagは、コーディングされたピクチャのすべてのスライスヘッダーで同じであってよい。no_output_of_prior_pics_flagは、ビットストリーム内の最初のピクチャではない、コーディング済みビデオシーケンス開始(CVSS)ピクチャの復号後に、復号済みピクチャバッファ内で以前に復号されたピクチャの出力に影響する場合がある。
現在ピクチャを復号する前に、DPBからピクチャを除去する例示的なメカニズムは以下の通りである。現在ピクチャが、ピクチャゼロでないCVSSピクチャのときは、以下の順序のステップが適用され得る。テスト対象の復号器に対し、変数NoOutputOfPriorPicsFlagが以下の通りに得られる。アクティブSPSから得られたpic_width_in_luma_samples、pic_height_in_luma_samples、chroma_format_idc、separate_colour_plane_flag、bit_depth_luma_minus8、bit_depth_chroma_minus8、または sps_max_dec_pic_buffering_minus1[ HighestTid ]の値が、先行するピクチャに対してアクティブなSPSから得られた pic_width_in_luma_samples、pic_height_in_luma_samples、chroma_format_idc、separate_colour_plane_flag、bit_depth_luma_minus8、bit_depth_chroma_minus8、または sps_max_dec_pic_buffering_minus1[ HighestTid ]の値とそれぞれ異なるときは、NoOutputOfPriorPicsFlagは、no_output_of_prior_pics_flagの値にかかわらず、テスト対象の復号器によって1に設定される場合がある(ただし、設定されるべきではない)。このような条件下では、NoOutputOfPriorPicsFlagをno_output_of_prior_pics_flagと同じに設定することが好ましい場合があるが、この場合は、テスト対象の復号器が、NoOutputOfPriorPicsFlagを1に設定することが可能になっている。そうでない場合は、NoOutputOfPriorPicsFlagは、no_output_of_prior_pics_flagと同じに設定してよい。テスト対象の復号器に対して得られたNoOutputOfPriorPicsFlagの値がHRDに適用され、その結果、NoOutputOfPriorPicsFlagの値が1のときは、DPB内のすべてのピクチャストレージバッファが、含んでいるピクチャを出力することなく空にされ、DPBフルネスがゼロに設定される。
例示的なビットストリーム適合性は、以下の通りである。ビットストリーム内の最初のコーディングされたピクチャは、IRAPピクチャ(例えば、IDRピクチャまたはCRAピクチャ)、あるいはGRAピクチャでなければならない。
例示的なDPBからのピクチャの出力または除去は、以下の通りである。現在ピクチャが、ピクチャゼロでないCVSSピクチャの場合は、以下の順序のステップが適用され得る。テスト対象の復号器に対し、変数NoOutputOfPriorPicsFlagが以下の通りに導かれ得る。アクティブSPSから得られたpic_width_in_luma_samples、pic_height_in_luma_samples、chroma_format_idc、separate_colour_plane_flag、bit_depth_luma_minus8、bit_depth_chroma_minus8、またはsps_max_dec_pic_buffering_minus1[ HighestTid ]の値が、先行するピクチャに対してアクティブなSPSから得られたpic_width_in_luma_samples、pic_height_in_luma_samples、chroma_format_idc、separate_colour_plane_flag、bit_depth_luma_minus8、bit_depth_chroma_minus8、またはsps_max_dec_pic_buffering_minus1[ HighestTid ]の値とそれぞれ異なるときは、NoOutputOfPriorPicsFlagは、no_output_of_prior_pics_flagの値にかかわらず、テスト対象の復号器によって1に設定される場合がある(ただし、設定されるべきではない)。このような条件下では、NoOutputOfPriorPicsFlagをno_output_of_prior_pics_flagと同じに設定することが好ましいが、この場合は、テスト対象の復号器が、NoOutputOfPriorPicsFlagを1に設定することが可能になっている。そうでない場合は、NoOutputOfPriorPicsFlagは、no_output_of_prior_pics_flagと同じに設定してよい。
テスト対象の復号器に対して得られたNoOutputOfPriorPicsFlagの値は、以下の通りにHRDに適合されてよい。NoOutputOfPriorPicsFlagの値が1のときは、DPB内のすべてのピクチャストレージバッファが、含んでいるピクチャを出力することなく空にされ、DPBフルネスがゼロに設定され得る。そうでない場合(NoOutputOfPriorPicsFlagの値が0のとき)は、出力する必要がなく、参照用に使用されないものとしてマーキングされた、ピクチャを含むすべてのピクチャストレージバッファが(出力することなく)空にされてよく、かつバンピングプロセスを繰り返し呼び出すことによって、DPB内の空でないピクチャストレージバッファがすべて空にされ、DPBフルネスがゼロに設定され得る。
例示的なバッファリング期間SEIメッセージのセマンティクスは、以下の通りである。バッファリング期間SEIメッセージの存在は、以下の通りに指定され得る。NalHrdBpPresentFlagが1、またはVclHrdBpPresentFlagが1であれば、CVSにおいて、各アクセスユニットに以下が適用されてよい。アクセスユニットがIRAPまたはGRAアクセスユニットであれば、動作ポイントに適用可能なバッファリング期間SEIメッセージは、アクセスユニットに関連付けられてよい。あるいは、アクセスユニットがnotDiscardablePicを含む場合は、動作ポイントに適用可能なバッファリング期間SEIメッセージは、アクセスユニットに関連付けられても関連付けられなくてもよい。あるいは、アクセスユニットは、動作ポイントに適用可能なバッファリング期間SEIメッセージに関連付けられなくてよい。そうでない場合(NalHrdBpPresentFlagおよびVclHrdBpPresentFlagが両方ともゼロの場合)は、バッファリング期間SEIメッセージに関連付けられるCVS内のアクセスユニットはなくてよい。現在ピクチャがバッファリング期間SEIメッセージを含み、かつconcatenation_flagが1のときは、現在ピクチャのcpb_removal_delay_minus1は使用されない場合がある。上記で指定した制約は、ある状況下では、IRAPまたはGRAピクチャに対するバッファリング期間SEIメッセージ内のconcatenation_flagの値をゼロから1まで変化させることによって、スプライシングポイントでの(参照構造を使用した)ビットストリームのスプライシングを可能にする。concatenation_flagがゼロのときは、上記で指定した制約によって、制約がピクチャprevNonDiscardablePicの損失の検出方法として充分かどうかを復号器が検査することが可能になる。
例示的なピクチャタイミングSEIメッセージのセマンティクスは、以下の通りである。復号順において、1であるかまたは1になると推測されるno_output_of_prior_pics_flagを有するCVSSピクチャに先行しているために、バンピングプロセスによって出力されないピクチャの場合、dpb_output_delayから得られる出力回数は、同じCVS内のすべてのピクチャに対するPicOrderCntValの値が増加するにつれて、増加する場合がある。
図9は、例示的なビデオコーディング装置900の概略図である。ビデオコーディング装置900は、ここで説明されているように、開示される例/実施形態を実施するのに適している。ビデオコーディング装置900は、ダウンストリームポート920、アップストリームポート950、および/またはネットワークにわたってデータをアップストリームおよび/またはダウンストリームに伝達する送信器および/または受信器を含むトランシーバユニット(Tx/Rx)910を含む。ビデオコーディング装置900はまた、データを処理するために論理装置および/または中央処理装置(CPU)を含むプロセッサ930と、データを保管するメモリ932とを含む。ビデオコーディング装置900はまた、電気、光-電気(OE)コンポーネント、電気-光(EO)コンポーネント、および/または電気、光または無線通信ネットワークを介したデータ通信のためにアップストリームポート950および/またはダウンストリームポート920に結合された無線通信コンポーネントを含んでよい。ビデオコーディング装置900はまた、ユーザーとデータをやり取りする入力および/または出力(I/O)デバイス960を含んでよい。I/Oデバイス960は、ビデオデータを表示するためのディスプレイ、オーディオデータを出力するためのスピーカなどの出力デバイスを含んでもよい。I/Oデバイス960はまた、キーボード、マウス、トラックボールなどの入力デバイス、および/またはそのような出力デバイスと対話するための対応するインターフェースを含んでもよい。
プロセッサ930は、ハードウェアおよびソフトウェアによって実装される。プロセッサ930は、1つまたは複数のCPUチップ、コア(例えば、マルチコアプロセッサとして)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、およびデジタル信号プロセッサ(DSP)として実装されてもよい。プロセッサ930は、ダウンストリームポート920、Tx/Rx 910、アップストリームポート950、およびメモリ932と通信する。プロセッサ930はコーディングモジュール914を備える。コーディングモジュール914は、方法100、1000、および1100などの本明細書で開示される実施形態を実装し、これらはGDR 600および/またはビットストリーム800を使用し得る。コーディングモジュール914は、本明細書で説明する他の任意の方法/メカニズムも実装してもよい。さらに、コーディングモジュール914は、コーデックシステム200、エンコーダ300、復号器400、および/またはHRD 500を実装し得る。例えば、コーディングモジュール914は、GDRピクチャを含むBP SEIメッセージに関連付けられてよい。さらに、コーディングモジュール914は、ピクチャに関連付けられたヘッダー内で、回復ピクチャ順序カウント値の前にPOC LSB値を配置することができる。それ故、コーディングモジュール914により、ビデオコーディング装置900は、ビデオデータをコーディングするときに、追加機能および/またはコーディング効率を提供する。このように、コーディングモジュール914は、ビデオコーディング装置900の機能を向上させるとともに、ビデオコーディング技術固有の問題に対処する。さらに、コーディングモジュール914はビデオコーディング装置900の変換を異なる状態まで達成する。あるいは、コーディングモジュール914はメモリ932に保管された命令として実施でき、(例えば、非一時的媒体に保管されたコンピュータプログラム製品として)プロセッサ930によって実行できる。
メモリ932は、ディスク、テープドライブ、ソリッドステートドライブ、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、フラッシュメモリ、3値連想メモリ(TCAM)、スタティックランダムアクセスメモリ(SRAM)などの1つ以上のメモリ種別を含む。メモリ932は、かかるプログラムが実行のために選択されたときにそのようなプログラムを保管するため、かつプログラムの実行中に読み取られる命令およびデータを保管するために、オーバーフローデータストレージ装置として使用されてもよい。
図10は、GDR 600などのGDRを使用するビデオシーケンスをビットストリーム800などのビットストリームにエンコードするときに、回復ポイントピクチャPOCをシグナリングする、例示的な方法1000の流れ図である。方法1000は、方法100を実行するときに、コーデックシステム200、エンコーダ300、および/またはビデオコーディング装置900などのエンコーダで使用されてよい。かかるエンコーダは、HRD 500も使用してもよい。
方法1000は、例えば、ユーザーの入力に基づいて、エンコーダが複数のピクチャを含むビデオシーケンスを受信し、そのビデオシーケンスをビットストリームにエンコードすることを決定したときに開始し得る。ステップ1001において、エンコーダは、図6に記載されているように、GDRピクチャ602などのGDRピクチャを含むGDR期間、および後続ピクチャ604などの1つ以上の後続ピクチャを、ビットストリームにエンコードする。具体的に述べると、GDRピクチャおよび関連する後続ピクチャは、第2の領域610B、および/または未リフレッシュ/ダーティ領域612などの、インター予測に従ってコーディングされた1つ以上の領域と、第1の領域610Aなどの、イントラ予測に従ってコーディングされた領域とをそれぞれ含む。いくつかの例において、インター予測に従ってコーディングされた領域と、イントラ予測に従ってコーディングされた領域とは、図6に示すように、それぞれ幅よりも高さのほうが大きい場合がある。エンコーダは、回復ポイントピクチャ606などの回復ポイントピクチャも、ビットストリームにエンコードする。回復ポイントピクチャは、復号順において、GDR期間内のGDRピクチャ、および関連する後続ピクチャの両方の後に続く。GDRピクチャは、GDR AUにエンコードされてよい。後続ピクチャおよび回復ポイントピクチャは、後続AUにエンコードされてよい。
ステップ1003において、エンコーダは、GDR AUに関連付けられたBP SEIメッセージをビットストリームにエンコードすることができる。BP SEIメッセージは、初期CPB除去遅延および/または他のHRDパラメータを提供する。これらのパラメータは、復号順におけるビットストリーム内のGDR AUの位置で、HRD 500などのHRDの初期化に使用されてよい。
ステップ1005において、エンコーダは、GDRピクチャのPOC LSB値を決定する。POC LSB値は、GDRピクチャをビットストリーム内の他のピクチャから識別するのに使用され得る。復号器はまた、回復ポイントピクチャを識別する回復ピクチャ順序カウント値を決定する。いくつかの例において、回復ピクチャ順序カウント値は、GDRピクチャに対する回復ポイントピクチャの位置を示す。例えば、回復ピクチャ順序カウント値は、GDRピクチャのPOCと、回復ポイントピクチャのPOCとの差分を示し得る。回復ピクチャPOCと、GDR POCとの差分は、回復ピクチャPOCよりも小さい値になり得ることに留意されたい。このように、回復ピクチャPOCを差分値としてシグナリングすることにより、シグナリングされるデータを圧縮して、コーディング効率を高める。
ステップ1007において、エンコーダは、GDRピクチャに関連付けられたヘッダーをビットストリームにエンコードする。さらに、エンコーダは、POC LSB値および回復ピクチャ順序カウント値をヘッダーにエンコードする。具体的に述べると、コーディングされたPOC LSB値は、ヘッダー内で、回復ピクチャ順序カウント値の前にエンコードされる。このようにして、復号器は、回復ピクチャ順序カウント値をパースする前に、ヘッダーをパースして、POC LSBに基づいてGDR POCを解決することができる。このようにして、回復ピクチャ順序カウント値がパースされたときに、回復ピクチャ順序カウント値を直ちに解決することができる。これは、GDR POCを決定できるまで回復ピクチャ順序カウント値をメモリに保管するより効率的であろう。様々な例において、GDRピクチャに関連付けられるヘッダーは、ピクチャヘッダーおよび/またはスライスヘッダーである。したがって、POC LSB値および回復ピクチャ順序カウント値は、ピクチャヘッダーおよび/またはスライスヘッダーに含まれてよい。例では、POC LSB値は、ピクチャヘッダーピクチャ順序カウントLSB(ph_pic_order_cnt_lsb)値としてヘッダーに含まれる。ph_pic_order_cnt_lsb値は、現在ピクチャに対してピクチャ順序カウントモジュロ最大ピクチャ順序カウントLSBを指定し、GDRピクチャが現在ピクチャである。例では、回復ピクチャ順序カウント値は、回復POCカウント(recovery_poc_cnt)値としてヘッダーに含まれる。recovery_poc_cnt値は、復号済みピクチャの回復ポイントを出力順に指定する。例では、エンコーダは、現在ピクチャがGDRピクチャのときは、先行ピクチャの出力なしフラグをヘッダーにさらに設定することができる。このフラグは、完全に復号されていない場合があるダーティデータを含むピクチャの出力を避けるために、GDRピクチャおよび関連する後続ピクチャを回復ポイントピクチャより前に出力しないように、復号器に命令する。
ステップ1009において、エンコーダは、復号器に向けて通信するためにビットストリームを保管することができる。
図11は、シグナリングされた回復ポイントピクチャPOCに基づいて、GDR 600などのGDRを使用したビデオシーケンスをビットストリーム800などのビットストリームから復号する、例示的な方法1100の流れ図である。方法1100は、方法100を実行するときに、コーデックシステム200、復号器400、および/またはビデオコーディング装置900などの復号器で使用されてよい。
方法1100は、例えば、HRD 500を使用するエンコーダにおける方法1000の結果として、復号器が、ビデオシーケンスを表すコーディング済みデータのビットストリームの受信を開始するときに開始し得る。ステップ1101において、復号器はビットストリームを受信する。ビットストリームは、図6に記載されているように、GDRピクチャ602などのGDRピクチャを含むGDR期間、および後続ピクチャ604などの1つ以上の後続ピクチャを含む。具体的に述べると、GDRピクチャおよび関連する後続ピクチャは、第2の領域610B、および/または未リフレッシュ/ダーティ領域612などの、インター予測に従ってコーディングされた1つ以上の領域と、第1の領域610Aなどの、イントラ予測に従ってコーディングされた領域とをそれぞれ含む。いくつかの例において、インター予測に従ってコーディングされた領域と、イントラ予測に従ってコーディングされた領域とは、図6に示すように、それぞれ幅よりも高さのほうが大きい場合がある。ビットストリームは、回復ポイントピクチャ606などの回復ポイントピクチャをビットストリームの中にさらに含む。回復ポイントピクチャは、復号順において、GDR期間内のGDRピクチャ、および関連する後続ピクチャの両方の後に続く。GDRピクチャは、GDR AUにエンコードされてよい。後続ピクチャおよび回復ポイントピクチャは、後続AUにエンコードされてよい。
ビットストリームは、GDRピクチャに関連付けられたヘッダーも含んでもよい。様々な例において、GDRピクチャに関連付けられるヘッダーは、ピクチャヘッダーおよび/またはスライスヘッダーである。ヘッダーは、POC LSB値および回復ピクチャ順序カウント値を含む。具体的に述べると、コーディングされたPOC LSB値は、ヘッダー内で、回復ピクチャ順序カウント値の前にコーディングされる。このようにして、復号器は、回復ピクチャ順序カウント値をパースする前に、ヘッダーをパースして、POC LSBに基づいてGDR POCを解決することができる。このようにして、回復ピクチャ順序カウント値がパースされたときに、回復ピクチャ順序カウント値を直ちに解決することができる。これは、GDR POCを決定できるまで回復ピクチャ順序カウント値をメモリに保管するより効率的であろう。例では、POC LSB値は、ph_pic_order_cnt_lsb値としてヘッダーに含まれる。ph_pic_order_cnt_lsb値は、現在ピクチャに対してピクチャ順序カウントモジュロ最大ピクチャ順序カウントLSBを指定し、GDRピクチャが現在ピクチャである。例では、回復ピクチャ順序カウント値は、recovery_poc_cnt値としてヘッダーに含まれる。recovery_poc_cnt値は、復号済みピクチャの回復ポイントを出力順に指定する。いくつかの例において、現在ピクチャがGDRピクチャのときは、先行ピクチャの出力なしフラグがヘッダー内に設定される。このフラグは、完全に復号されていない場合があるダーティデータを含むピクチャの出力を避けるために、GDRピクチャおよび関連する後続ピクチャを回復ポイントピクチャより前に出力しないように、復号器に命令する。
いくつかの例において、ビットストリームは、GDR AUに関連付けられたBP SEIメッセージをさらに含む。BP SEIメッセージは、復号順においてGDR AUの位置でHRDを初期化するために、初期CPB除去遅延を提供する。さらに、復号器は、BP SEIメッセージの存在に基づいて、ビットストリームが適合していて復号可能であると判定することができる。例えば、ビットストリーム内にBP SEIメッセージが存在することは、HRDがビットストリームに適合性テストを実行したことを示している。
ステップ1103において、復号器は、POC LSB値に基づいてGDRピクチャのPOCを決定する。例えば、ヘッダーは、現在ピクチャのPOCの最上位ビット(MSB)を含む値も含んでもよい。復号器は、それ故、MSBおよびLSBに基づいてGDRのPOCを決定することができる。
ステップ1105において、復号器は、GDRピクチャのPOCおよび回復ピクチャ順序カウント値に基づいて、回復ポイントピクチャPOCを決定する。例えば、回復ピクチャ順序カウント値は、GDR POCと、回復ポイントピクチャPOCとの差分を含み得る。
ステップ1107において、復号器は、GDRピクチャおよび回復ポイントピクチャPOCに基づいて、GDRに従ってビットストリームを復号する。例えば、ビットストリームは、対応するコーディングピクチャ、および関連する後続ピクチャをビットストリームから取得するために、GDR POC、および回復ポイントピクチャPOCを使用し得る。復号器はその後、GDRに従って、GDRピクチャ、関連する後続ピクチャ、および回復ポイントピクチャを復号することができる。復号器はまた、先行ピクチャの出力なしフラグに基づいて、回復ポイントピクチャの前にあるGDRピクチャおよび後続ピクチャを抑制することもできる。
ステップ1109において、復号器は、復号済みビデオシーケンスの一部として表示するために、回復ポイントピクチャの後に続く1つ以上のピクチャを転送することができる。
図12は、シグナリングされた回復ポイントピクチャPOCに基づいて、GDR 600などのGDRを使用するビデオシーケンスをビットストリーム800などのビットストリームにコーディングする、例示的なシステム1200の概略図である。システム1200は、コーデックシステム200、エンコーダ300、復号器400、および/またはビデオコーディング装置900などのエンコーダおよび復号器で実施されてよく、これらはHRD 500を使用し得る。さらに、システム1200は、方法100、1000、および/または1100を実施するときに使用され得る。
システム1200は、ビデオエンコーダ1202を含む。ビデオエンコーダ1202は、GDRピクチャ、および復号順においてGDRピクチャの後に続く回復ポイントピクチャをビットストリームにエンコードするエンコーディングモジュール1203を備える。エンコーディングモジュール1203はさらに、GDRピクチャに関連付けられたヘッダーをビットストリームにエンコードするためのものであり、ヘッダーは、回復ピクチャ順序カウント値より前にコーディングされたPOC LSB値を含む。ビデオエンコーダ1202は、GDRピクチャのPOC LSB値、および回復ポイントピクチャの回復ピクチャ順序カウント値を決定する決定モジュール1205をさらに備える。ビデオエンコーダ1202は、復号器に向けて通信するためのビットストリームを保管する保管モジュール1206をさらに備える。ビデオエンコーダ1202は、ビデオシーケンスに復元するために、復号器に向けてビットストリームを伝送する送信モジュール1207をさらに備える。ビデオエンコーダ1202は、方法1000の任意のステップを実行するようにさらに構成され得る。
システム1200は、ビデオ復号器1210をさらに含む。ビデオ復号器1210は、GDRピクチャ、復号順においてGDRピクチャの後に続く回復ポイントピクチャ、およびGDRピクチャに関連付けられたヘッダーを含むビットストリームを受信する受信モジュール1211を備え、ヘッダーは、回復ピクチャ順序カウント値より前にコーディングされたPOC LSB値を含む。ビデオ復号器1210は、POC LSB値に基づいてGDRピクチャのPOCを決定する決定モジュール1213を備える。決定モジュール1213はさらに、GDRピクチャのPOCおよび回復ピクチャ順序カウント値に基づいて、回復ポイントピクチャPOCを決定するためのものである。ビデオ復号器1210は、GDRピクチャおよび回復ポイントピクチャに基づいて、GDRに従ってビットストリームを復号する復号モジュール1215をさらに備える。ビデオ復号器1210は、復号済みビデオシーケンスの一部として表示するために、回復ポイントピクチャの後に続く1つ以上のピクチャを転送する転送モジュール1217をさらに備える。ビデオ復号器1210は、方法1100の任意のステップを実行するようにさらに構成され得る。
第1のコンポーネントは、第1のコンポーネントと第2のコンポーネントとの間の線、トレース、またはその他の媒介物を除いて介在するコンポーネントがない場合は、第2のコンポーネントに直接的に結合される。第1のコンポーネントは、第1のコンポーネントと第2のコンポーネントとの間の線、トレース、またはその他の媒介物以外に介在するコンポーネントがある場合は、第2のコンポーネントに間接的に結合される。用語「結合」とその変化形は直接的な結合と間接的な結合の両方を含む。用語「約」の使用は、別段の記載がない限り、後続する数値の±10%を含む範囲を意味する。
本明細書に記載されている例示的な方法のステップは、記載されている順に実行することを必ずしも必要としていないことも理解されたく、かかる方法のステップの順序は、単なる例と理解されるべきである。同様に、本開示の様々な実施形態と合致する方法において、かかる方法には追加のステップが含まれてよく、いくつかのステップが省略されたり組み合わされたりしてよい。
本開示ではいくつかの実施形態が提供されているが、開示されたシステムおよび方法は、本開示の趣旨または範囲から逸脱することなく、多くの他の特定の形態で具現化されてもよいことが理解されよう。本開示の例は、限定ではなく例示とみなされるべきであり、その意図は、本明細書に与えられた詳細に限定されるべきではない。例えば、様々な要素または構成要素が別のシステムにおいて結合もしくは統合されてもよく、または特定の機能が省略されるか、もしくは実装されなくてもよい。
加えて、様々な実施形態において個別または別個のものとして記載および例示された技法、システム、サブシステム、および方法は、本開示の範囲から逸脱することなく、他のシステム、構成要素、技法、または方法と結合または統合されてもよい。変更、代用、および改変の他の例は当業者によって解明可能であり、本明細書に開示された趣旨および範囲から逸脱することなく行われてもよい。
100 動作方法
200 コーデックシステム
201 区分けされたビデオ信号
211 総合コーダー制御コンポーネント
213 変換スケーリング量子化コンポーネント
215 イントラピクチャ推定コンポーネント
217 イントラピクチャ予測コンポーネント
219 動き補償コンポーネント
221 動き推定コンポーネント
223 復号済みピクチャバッファコンポーネント
225 インループフィルタコンポーネント
227 フィルタ制御解析コンポーネント
229 スケーリング逆変換コンポーネント
231 ヘッダーフォーマッティングコンテキスト適応型バイナリ算術コーディング(CABAC)コンポーネント
300 ビデオエンコーダ
301 区分けされたビデオ信号
313 変換量子化コンポーネント
317 イントラピクチャ予測コンポーネント
321 動き補償コンポーネント
323 復号済みピクチャバッファコンポーネント
325 インループフィルタコンポーネント
329 逆変換量子化コンポーネント
331 エントロピコーディングコンポーネント
400 ビデオ復号器
417 イントラピクチャ予測コンポーネント
421 動き補償コンポーネント
423 復号済みピクチャバッファコンポーネント
425 インループフィルタコンポーネント
429 逆変換量子化コンポーネント
433 エントロピ復号コンポーネント
500 仮想参照復号器(HRD)
541 仮想ストリームスケジューラ(HSS)
543 コーディング済みピクチャバッファ(CPB)
545 復号プロセスコンポーネント
547 復号済みピクチャバッファ(DPB)
549 出力クロッピングコンポーネント
551 ビットストリーム
553 復号可能ユニット(DU)
555 復号済み復号可能ユニット
556 参照ピクチャ
557 ピクチャ
559 出力クロッピング済みピクチャ
600 漸次復号リフレッシュ(GDR)
602 GDRピクチャ
604 後続ピクチャ
606 回復ポイントピクチャ
608 コーディング済みビデオシーケンス
610 クリーン領域
610A 第1の領域
610B 第2の領域
612 ダーティ領域
621 GDR POC
622 回復POC
623 POC
700 動き探索
702 現在ピクチャ
704 参照ピクチャ
705 インター予測でコーディングされたリフレッシュ済み領域
706 イントラ予測でコーディングされたリフレッシュ済み領域
708 未リフレッシュ領域
710 動きベクトル
712 参照ブロック
714 現在ブロック
800 ビットストリーム
810 シーケンスパラメータセット(SPS)
811 ピクチャパラメータセット(PPS)
815 スライスヘッダー
817 BP SEIメッセージ
820 画像データ
821 アクセスユニット(AU)
823 ピクチャ
825 スライス
831 先行ピクチャの出力なしフラグ
833 POC LSB値
835 回復POC値
836 HRDパラメータ
900 ビデオコーディング装置
910 トランシーバユニット(Tx/Rx)
914 コーディングモジュール
920 ダウンストリームポート
930 プロセッサ
932 メモリ
950 アップストリームポート
960 入力および/または出力(I/O)デバイス
1000 方法
1100 方法
1200 システム
1202 ビデオエンコーダ
1203 エンコーディングモジュール
1205 決定モジュール
1206 保管モジュール
1207 送信モジュール
1210 ビデオ復号器
1211 受信モジュール
1213 決定モジュール
1215 復号モジュール
1217 転送モジュール

Claims (20)

  1. 復号器で実施される方法であって、前記方法は、
    前記復号器の受信器によって、漸次復号リフレッシュ(GDR)ピクチャと、復号順において前記GDRピクチャの後に続く回復ポイントピクチャと、前記GDRピクチャに関連付けられたヘッダーとを含むビットストリームを受信するステップであって、前記ヘッダーは、回復ピクチャ順序カウント値より前にコーディングされたピクチャ順序カウント(POC)最下位ビット(LSB)値を含む、ステップと、
    前記復号器のプロセッサによって、前記GDRピクチャのPOCを決定するステップと、
    前記プロセッサによって、前記GDRピクチャの前記POCおよび前記回復ピクチャ順序カウント値に基づいて、回復ポイントピクチャPOCを決定するステップと、
    前記プロセッサによって、前記GDRピクチャおよび前記回復ポイントピクチャPOCに基づいて、前記ビットストリームをGDRに従って復号するステップと
    を含む、方法。
  2. 前記GDRピクチャに関連付けられた前記ヘッダーが、ピクチャヘッダーである、請求項1に記載の方法。
  3. 前記POC LSB値が、ph_pic_order_cnt_lsb値として前記ヘッダーに含まれ、前記ph_pic_order_cnt_lsb値は、現在ピクチャに対するピクチャ順序カウントモジュロ最大ピクチャ順序カウントLSBを指定し、前記GDRピクチャが前記現在ピクチャである、請求項1または2に記載の方法。
  4. 前記回復ピクチャ順序カウント値が、recovery_poc_cnt値として前記ヘッダーに含まれ、前記recovery_poc_cnt値が、復号済みピクチャの回復ポイントを出力順に指定する、請求項1から3のいずれか一項に記載の方法。
  5. 現在ピクチャが前記GDRピクチャのときは、先行ピクチャの出力なしフラグが前記ヘッダー内に設定される、請求項1から3のいずれか一項に記載の方法。
  6. 前記GDRピクチャが、インター予測に従ってコーディングされた領域と、イントラ予測に従ってコーディングされた領域とを含む、請求項1から5のいずれか一項に記載の方法。
  7. 前記GDRピクチャがGDRアクセスユニット(AU)に含まれ、前記ビットストリームが、前記GDR AUに関連付けられたバッファリング期間(BP)付加拡張情報(SEI)メッセージをさらに含み、前記BP SEIメッセージが、復号順における前記GDR AUの位置で、仮想参照復号器(HRD)の初期化に対して初期コーディング済みピクチャバッファ(CPB)除去遅延を提供する、請求項1から6のいずれか一項に記載の方法。
  8. エンコーダで実施される方法であって、前記方法は、
    前記エンコーダのプロセッサによって、漸次復号リフレッシュ(GDR)ピクチャ、および復号順において前記GDRピクチャの後に続く回復ポイントピクチャをビットストリームにエンコードするステップと、
    前記プロセッサによって、前記GDRピクチャのピクチャ順序カウント(POC)最下位ビット(LSB)値、および前記回復ポイントピクチャの回復ピクチャ順序カウント値を決定するステップと、
    前記プロセッサによって、前記GDRピクチャに関連付けられたヘッダーを前記ビットストリームにエンコードするステップであって、前記ヘッダーは、前記回復ピクチャ順序カウント値より前にコーディングされた前記POC LSB値を含む、ステップと、
    前記プロセッサに結合されたメモリによって、復号器に向けて通信するための前記ビットストリームを保管するステップと
    を含む、方法。
  9. 前記GDRピクチャに関連付けられた前記ヘッダーが、ピクチャヘッダーである、請求項8に記載の方法。
  10. 前記POC LSB値が、ph_pic_order_cnt_lsb値として前記ヘッダーに含まれ、前記ph_pic_order_cnt_lsb値は、現在ピクチャに対するピクチャ順序カウントモジュロ最大ピクチャ順序カウントLSBを指定し、前記GDRピクチャが前記現在ピクチャである、請求項8または9に記載の方法。
  11. 前記回復ピクチャ順序カウント値が、recovery_poc_cnt値として前記ヘッダーに含まれ、前記recovery_poc_cnt値が、復号済みピクチャの回復ポイントを出力順に指定する、請求項8から10のいずれか一項に記載の方法。
  12. 現在ピクチャが前記GDRピクチャのときは、先行ピクチャの出力なしフラグを前記ヘッダー内に設定するステップをさらに含む、請求項8から11のいずれか一項に記載の方法。
  13. 前記GDRピクチャが、インター予測に従ってコーディングされた領域と、イントラ予測に従ってコーディングされた領域とを含む、請求項8から12のいずれか一項に記載の方法。
  14. 前記プロセッサによって、GDRアクセスユニット(AU)内の前記GDRピクチャをエンコードするステップと、
    前記プロセッサによって、前記GDR AUに関連付けられたバッファリング期間(BP)付加拡張情報(SEI)メッセージを前記ビットストリームにエンコードするステップであって、前記BP SEIメッセージが、復号順における前記GDR AUの位置で、仮想参照復号器(HRD)の初期化に対して初期コーディング済みピクチャバッファ(CPB)除去遅延を提供する、ステップと
    をさらに含む、請求項8から13のいずれか一項に記載の方法。
  15. プロセッサと、前記プロセッサに結合された受信器と、前記プロセッサに結合されたメモリと、前記プロセッサに結合された送信器とを備え、前記プロセッサ、受信器、メモリ、および送信器は、請求項1から14のいずれか一項に記載の方法を遂行するように構成される、
    ビデオコーディング装置。
  16. ビデオコーディング装置によって使用されるコンピュータプログラムを含む非一時的コンピュータ可読媒体であって、前記コンピュータプログラムは前記非一時的コンピュータ可読媒体に保管されたコンピュータ実行可能命令を含み、プロセッサによって実行されると、前記ビデオコーディング装置に請求項1から14のいずれか一項に記載の方法を遂行させる、非一時的コンピュータ可読媒体。
  17. 漸次復号リフレッシュ(GDR)ピクチャと、復号順において前記GDRピクチャの後に続く回復ポイントピクチャと、前記GDRピクチャに関連付けられたヘッダーとを含むビットストリームを受信する受信手段であって、前記ヘッダーは、回復ピクチャ順序カウント値より前にコーディングされたピクチャ順序カウント(POC)最下位ビット(LSB)値を含む、受信手段と、
    前記GDRピクチャのPOCを決定し、
    前記GDRピクチャの前記POCおよび前記回復ピクチャ順序カウント値に基づいて、回復ポイントピクチャPOCを決定する
    決定手段と、
    前記GDRピクチャおよび前記回復ポイントピクチャPOCに基づいて、前記ビットストリームをGDRに従って復号する復号手段と、
    復号済みビデオシーケンスの一部として表示するための、前記回復ポイントピクチャの後に続く1つ以上のコーディングされたピクチャを転送する転送手段と
    を含む、復号器。
  18. 前記復号器が請求項1から7のいずれか一項に記載の方法を遂行するようにさらに構成される、請求項17に記載の復号器。
  19. 漸次復号リフレッシュ(GDR)ピクチャ、および復号順において前記GDRピクチャの後に続く回復ポイントピクチャをビットストリームにエンコードし、
    前記GDRピクチャに関連付けられたヘッダーを前記ビットストリームにエンコードし、前記ヘッダーは、回復ピクチャ順序カウント値より前にコーディングされたピクチャ順序カウント(POC)最下位ビット(LSB)値を含む、
    エンコード手段と、
    前記GDRピクチャの前記POC LSB値、および前記回復ポイントピクチャの回復ピクチャ順序カウント値を決定する決定手段と、
    復号器に向けて通信するための前記ビットストリームを保管する保管手段と
    を含む、エンコーダ。
  20. 前記エンコーダが、請求項8から14のいずれか一項に記載の方法を遂行するようにさらに構成される、請求項19に記載のエンコーダ。
JP2023222920A 2019-05-06 2023-12-28 ビデオコーディングにおける回復ポイントシグナリング Pending JP2024028361A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962843999P 2019-05-06 2019-05-06
US62/843,999 2019-05-06
PCT/US2020/030641 WO2020226992A1 (en) 2019-05-06 2020-04-30 Recovery point signaling in video coding
JP2021566077A JP7462679B2 (ja) 2019-05-06 2020-04-30 ビデオ符号化における回復ポイントシグナリング

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021566077A Division JP7462679B2 (ja) 2019-05-06 2020-04-30 ビデオ符号化における回復ポイントシグナリング

Publications (1)

Publication Number Publication Date
JP2024028361A true JP2024028361A (ja) 2024-03-04

Family

ID=73051697

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2021566077A Active JP7462679B2 (ja) 2019-05-06 2020-04-30 ビデオ符号化における回復ポイントシグナリング
JP2021566076A Active JP7443398B2 (ja) 2019-05-06 2020-04-30 漸次復号リフレッシュのための仮想参照デコーダ
JP2023222920A Pending JP2024028361A (ja) 2019-05-06 2023-12-28 ビデオコーディングにおける回復ポイントシグナリング

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2021566077A Active JP7462679B2 (ja) 2019-05-06 2020-04-30 ビデオ符号化における回復ポイントシグナリング
JP2021566076A Active JP7443398B2 (ja) 2019-05-06 2020-04-30 漸次復号リフレッシュのための仮想参照デコーダ

Country Status (7)

Country Link
US (1) US20220060694A1 (ja)
EP (2) EP3959890A4 (ja)
JP (3) JP7462679B2 (ja)
KR (2) KR20220003618A (ja)
CN (2) CN113796085A (ja)
MX (2) MX2021013535A (ja)
WO (2) WO2020226992A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020032049A1 (ja) * 2018-08-06 2020-02-13 シャープ株式会社 動画像復号装置、および動画像符号化装置
BR112022012708A2 (pt) 2019-12-26 2022-09-06 Bytedance Inc Métodos para processamento de vídeo e para armazenar fluxo contínuo de bits, aparelhos de decodificação e de codificação de vídeo, mídias de armazenamento e de gravação legíveis por computador não transitórias, e, método, aparelho ou sistema
JP7431330B2 (ja) 2019-12-26 2024-02-14 バイトダンス インコーポレイテッド ビデオコーディングにおけるプロファイル、層及びレイヤの指示
EP4066387A4 (en) 2019-12-27 2023-02-15 ByteDance Inc. SUBPICTURE SIGNALING IN PARAMETER SETS
JP2023509779A (ja) 2020-01-09 2023-03-09 バイトダンス インコーポレイテッド レイヤ間参照ピクチャの存在のシグナリング
EP4300957A1 (en) * 2022-06-30 2024-01-03 Nokia Technologies Oy A method, an apparatus and a computer program product for implementing gradual decoding refresh

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7266147B2 (en) * 2003-03-31 2007-09-04 Sharp Laboratories Of America, Inc. Hypothetical reference decoder
US20130170561A1 (en) * 2011-07-05 2013-07-04 Nokia Corporation Method and apparatus for video coding and decoding
US9237356B2 (en) * 2011-09-23 2016-01-12 Qualcomm Incorporated Reference picture list construction for video coding
US20140079138A1 (en) * 2012-09-14 2014-03-20 Sony Corporation Simplifiication of pic_order_cnt_lsb calculation in hm8
US9571847B2 (en) * 2013-01-07 2017-02-14 Qualcomm Incorporated Gradual decoding refresh with temporal scalability support in video coding
JP6209772B2 (ja) * 2013-01-15 2017-10-11 華為技術有限公司Huawei Technologies Co.,Ltd. シグナリングを用いたビデオデコーダ
US9854270B2 (en) * 2013-12-19 2017-12-26 Qualcomm Incorporated Device and method for scalable coding of video information

Also Published As

Publication number Publication date
EP3957069A4 (en) 2022-06-22
JP7443398B2 (ja) 2024-03-05
KR20220003618A (ko) 2022-01-10
CN113796081A (zh) 2021-12-14
MX2021013535A (es) 2022-01-31
JP2022531482A (ja) 2022-07-06
WO2020226991A1 (en) 2020-11-12
MX2021013536A (es) 2022-01-31
EP3959890A4 (en) 2022-07-06
US20220060694A1 (en) 2022-02-24
WO2020226992A1 (en) 2020-11-12
JP2022531481A (ja) 2022-07-06
KR20220003084A (ko) 2022-01-07
EP3959890A1 (en) 2022-03-02
US20220060693A1 (en) 2022-02-24
CN113796085A (zh) 2021-12-14
JP7462679B2 (ja) 2024-04-05
EP3957069A1 (en) 2022-02-23

Similar Documents

Publication Publication Date Title
JP7416921B2 (ja) 解像度変更のためのデコードされたピクチャバッファ動作
JP7462679B2 (ja) ビデオ符号化における回復ポイントシグナリング
JP2022550713A (ja) レイヤベースの適合性試験のためのhrdパラメータ
JP7436641B2 (ja) 時間スケーラビリティのためのピクチャタイミング及び復号ユニット情報
EP3939290B1 (en) Interlaced video coding with leading pictures
JP7419507B2 (ja) Olsのためのスケーラブルネスティングseiメッセージ
KR20210105980A (ko) 비디오 인코더, 비디오 디코더 및 상응하는 방법들
CN114424527A (zh) 用于指定层的可伸缩嵌套式sei消息
KR20210104900A (ko) 비디오 인코더, 비디오 디코더 및 상응하는 방법들
US12022064B2 (en) Recovery point signaling in video coding
JP2024020325A (ja) ビデオコーディングにおけるalf aps制約

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240126

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240126