JP7250934B2 - ビデオ符号化のための復号されたピクチャバッファ管理 - Google Patents

ビデオ符号化のための復号されたピクチャバッファ管理 Download PDF

Info

Publication number
JP7250934B2
JP7250934B2 JP2021540209A JP2021540209A JP7250934B2 JP 7250934 B2 JP7250934 B2 JP 7250934B2 JP 2021540209 A JP2021540209 A JP 2021540209A JP 2021540209 A JP2021540209 A JP 2021540209A JP 7250934 B2 JP7250934 B2 JP 7250934B2
Authority
JP
Japan
Prior art keywords
picture
pictures
value
buffer
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021540209A
Other languages
English (en)
Other versions
JP2022515557A (ja
Inventor
ビョンドゥ・チェ
シャン・リュウ
ステファン・ヴェンガー
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2022515557A publication Critical patent/JP2022515557A/ja
Priority to JP2023045837A priority Critical patent/JP2023088998A/ja
Application granted granted Critical
Publication of JP7250934B2 publication Critical patent/JP7250934B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/15Data rate or code amount at the encoder output by monitoring actual compressed data size at the memory before deciding storage at the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

関連出願の相互参照
本出願は、2019年3月15日に出願された米国仮特許出願第62/819460号および2020年3月11日に出願された米国特許出願第16/815710号の優先権を主張し、これらの開示はその全体が参照により本明細書に組み込まれる。
本開示は、高度なビデオ符号化技術のセットに関する。より具体的には、復号されたピクチャバッファ管理である。
復号のためのシステムは、復号において参照として使用されるピクチャを記憶するための復号されたピクチャバッファを含む。
本開示のいくつかの実施形態は、例えば、時間的サブレイヤ適応に対応することによって、復号されたピクチャバッファ管理を改善する。
いくつかの実施形態では、方法が提供される。本方法は、同じ時間的サブレイヤの第1の複数のピクチャを含む、ビデオストリームの以前に復号されたピクチャを、ピクチャバッファに記憶するステップであって、第1の複数のピクチャは、ビデオストリームの現在のピクチャを予測するための少なくとも1つのサブレイヤ参照ピクチャを含む、ステップと、スライスヘッダとピクチャヘッダのうちの少なくとも1つにおいて提示されたインジケータに基づいて、第1の複数のピクチャのうちのピクチャがサブレイヤ非参照(「SLNR」)ピクチャであるかどうかを決定するステップと、ピクチャがSLNRピクチャであると決定されたことに基づいて、ピクチャバッファからSLNRピクチャを除去するステップと、ピクチャバッファからSLNRピクチャを除去した後にピクチャバッファ内に記憶されている少なくとも1つのサブレイヤ参照ピクチャのうちの1つまたは複数を使用して現在のピクチャを予測するステップとを含む。
一実施形態では、第1の複数のピクチャのうちのピクチャがSLNRピクチャであるかどうかを決定するステップは、ピクチャのネットワーク抽象レイヤ(NAL)ユニットタイプを識別するステップと、識別されたNALユニットタイプに基づいてピクチャがSLNRピクチャであるかどうかを決定するステップとを含む。
一実施形態では、本方法は、ピクチャがSLNRピクチャであると決定されたことに基づいて、SLNRピクチャであると決定されたピクチャの識別子を提供するステップをさらに含み、除去するステップが、識別子に基づいてピクチャをfpictureバッファから除去するステップを含む。一実施形態では、本方法は、第1の複数のピクチャの各々のエントリを含む参照ピクチャリストを形成するステップをさらに含み、識別子を提供するステップが、SLNRピクチャであると決定されたピクチャに対応する参照ピクチャリストのエントリに識別子を提供するステップを含む。
一実施形態では、ピクチャバッファに記憶されている以前に復号されたピクチャは、参照ピクチャである第2のピクチャを含み、本方法は、第2のピクチャの時間的サブレイヤの値が所定の値より大きいかどうかを決定するステップと、第2のピクチャの時間的サブレイヤの値が所定の値より大きいと決定することに基づいて、ピクチャバッファから第2のピクチャを除去するステップとをさらに含む。一実施形態では、本方法は、第2のピクチャの時間的サブレイヤの値が所定の値より大きいと決定することに基づいて、第2のピクチャの識別子を提供するステップをさらに含み、第2のピクチャを除去するステップが、識別子に基づいてピクチャバッファから第2のピクチャを除去するステップを含む。一実施形態では、本方法は、所定の値を最高の時間的サブレイヤ識別番号に対応する値と比較するステップをさらに含み、第2のピクチャの時間的サブレイヤの値が所定の値より大きいかどうか決定するステップは、所定の値が最高の時間的サブレイヤ識別番号に対応する値と等しくないと決定されることに基づいて生じる。一実施形態では、本方法は、現在のピクチャがイントラ・ランダム・アクセス・ポイント(IRAP)ピクチャであるかどうかを決定するステップと、ランダム・アクセス・スキップ・リーディング(「RASL」)ピクチャの出力がないことをフラグが示すかどうかを決定するステップと、現在のピクチャがIRAPピクチャであると決定されるかどうか、およびフラグがRASLピクチャの出力がないことを示すと決定されるかどうかに基づいて、ピクチャバッファに記憶されている各参照ピクチャにそれぞれの識別子を設定するかどうかを決定するステップであって、各参照ピクチャのそれぞれの識別子は、各参照ピクチャがピクチャバッファから除去されるべきかどうかを示す、ステップとをさらに含む。
一実施形態では、第2のピクチャの時間的サブレイヤの値は、ピクチャバッファに記憶されている第1の複数のピクチャの時間的サブレイヤの値よりも大きい。
一実施形態では、本方法は、参照ピクチャリストによって参照されていないピクチャに基づいて、参照ピクチャリストによって参照されないピクチャをピクチャバッファから除去するステップをさらに含む。
いくつかの実施形態では、ビデオストリームを復号するためのデコーダが提供される。デコーダは、コンピュータプログラムコードを記憶するように構成されたメモリと、コンピュータプログラムコードにアクセスし、コンピュータプログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサとを備え、コンピュータプログラムコードは、少なくとも1つのプロセッサに、同じ時間的サブレイヤの第1の複数のピクチャを含む、ビデオストリームの以前に復号されたピクチャを、ピクチャバッファに記憶させるように構成された記憶コードであって、第1の複数のピクチャは、ビデオストリームの現在のピクチャを予測するための少なくとも1つのサブレイヤ参照ピクチャを含む、記憶コードと、少なくとも1つのプロセッサに、スライスヘッダとピクチャヘッダのうちの少なくとも1つにおいて提示されたインジケータに基づいて、第1の複数のピクチャのうちのピクチャがサブレイヤ非参照(「SLNR」)ピクチャであるかどうかを決定させるように構成された決定コードと、少なくとも1つのプロセッサに、ピクチャがSLNRピクチャであると決定されたことに基づいて、ピクチャバッファからSLNRピクチャを除去させるように構成された除去コードと、少なくとも1つのプロセッサに、ピクチャバッファからSLNRピクチャを除去した後にピクチャバッファ内に記憶されている少なくとも1つのサブレイヤ参照ピクチャのうちの1つまたは複数を使用して現在のピクチャを予測させるように構成された予測コードとを含む。
一実施形態では、決定コードは、少なくとも1つのプロセッサに、ピクチャのネットワーク抽象レイヤ(NAL)ユニットタイプを識別させ、識別されたNALユニットタイプに基づいてピクチャがSLNRピクチャであるかどうか決定させるように構成される。
一実施形態では、コンピュータプログラムコードは、ピクチャがSLNRピクチャであると決定されたことに基づいて、少なくとも1つのプロセッサに、SLNRピクチャであると決定されたピクチャの識別子を提供させるように構成された提供コードをさらに含み、除去コードは、識別子に基づいて、少なくとも1つのプロセッサに、ピクチャをピクチャバッファから除去させるように構成される。一実施形態では、コンピュータプログラムコードは、少なくとも1つのプロセッサに、第1の複数のピクチャの各々のエントリを含む参照ピクチャリストを形成させるように構成された形成コードをさらに含み、提供コードは、少なくとも1つのプロセッサに、SLNRピクチャであると決定されたピクチャに対応する参照ピクチャリストのエントリの識別子を提供させるように構成される。
一実施形態では、ピクチャバッファに記憶されている以前に復号されたピクチャは、参照ピクチャである第2のピクチャを含み、決定コードは、少なくとも1つのプロセッサに、第2のピクチャの時間的サブレイヤの値が所定の値より大きいかどうかを決定させるように構成され、除去コードは、第2のピクチャの時間的サブレイヤの値が所定の値より大きいと決定したことに基づいて、少なくとも1つのプロセッサに、ピクチャバッファから第2のピクチャを除去させるように構成される。
一実施形態では、提供コードは、第2のピクチャの時間的サブレイヤの値が所定の値より大きいと決定したことに基づいて、少なくとも1つのプロセッサに、第2のピクチャの識別子を提供させるように構成され、除去コードは、識別子に基づいて、少なくとも1つのプロセッサに、ピクチャバッファから第2のピクチャを除去させるように構成される。一実施形態では、決定コードは、少なくとも1つのプロセッサに、所定の値を最高の時間的サブレイヤ識別番号に対応する値と比較させ、所定の値が最高の時間的サブレイヤ識別番号に対応する値に等しくないと決定されることに基づいて、第2のピクチャの時間的サブレイヤの値が所定の値より大きいかどうかを決定させるように構成される。一実施形態では、決定コードは、少なくとも1つのプロセッサに、現在のピクチャがイントラ・ランダム・アクセス・ポイント(IRAP)ピクチャであるかどうかを決定させ、ランダム・アクセス・スキップ・リーディング(「RASL」)ピクチャの出力がないことをフラグが示すかどうかを決定させるように構成され、コンピュータプログラムコードは、現在のピクチャがIRAPピクチャであると決定され、フラグがRASLピクチャの出力がないことを示すと決定された場合に、少なくとも1つのプロセッサに、ピクチャバッファに記憶されている各参照ピクチャにそれぞれの識別子を設定させるように構成された提供コードであって、各参照ピクチャのそれぞれの識別子は、各参照ピクチャがピクチャバッファから除去されるべきかどうかを示す、提供コードをさらに含む。
一実施形態では、第2のピクチャの時間的サブレイヤの値は、ピクチャバッファに記憶されている第1の複数のピクチャの時間的サブレイヤの値よりも大きい。
いくつかの実施形態では、コンピュータ命令を記憶する非一時的コンピュータ可読媒体が提供される。コンピュータ命令は、少なくとも1つのプロセッサによって実行されるとき、少なくとも1つのプロセッサに、同じ時間的サブレイヤの第1の複数のピクチャを含む、ビデオストリームの以前に復号されたピクチャを、ピクチャバッファに記憶させ、第1の複数のピクチャは、ビデオストリームの現在のピクチャを予測するための少なくとも1つのサブレイヤ参照ピクチャを含み、スライスヘッダとピクチャヘッダのうちの少なくとも1つにおいて提示されたインジケータに基づいて、第1の複数のピクチャのうちのピクチャがサブレイヤ非参照(「SLNR」)ピクチャであるかどうかを決定させ、ピクチャがSLNRピクチャであると決定されたことに基づいて、ピクチャバッファからSLNRピクチャを除去させ、ピクチャバッファからSLNRピクチャを除去した後にピクチャバッファ内に記憶されている少なくとも1つのサブレイヤ参照ピクチャのうちの1つまたは複数を使用して現在のピクチャを予測させる。
開示された主題のさらなる特徴、性質、および様々な利点は、次の詳細な説明および添付の図面からより明らかになるであろう。
一実施形態による通信システムの簡略化されたブロック図の概略図である。 一実施形態によるストリーミングシステムの簡略化されたブロック図の概略図である。 一実施形態によるビデオデコーダおよびディスプレイの簡略化されたブロック図の概略図である。 一実施形態によるビデオエンコーダおよびビデオソースの簡略化されたブロック図の概略図である。 一実施形態によって実行されるプロセスを示す流れ図である。 一実施形態によって実行されるプロセスを示す流れ図である。 一実施形態のデバイスを示す図である。 実施形態を実施するのに適したコンピュータシステムの図である。
図1は、本開示の一実施形態による通信システム100の簡略化されたブロック図を示している。システム100は、ネットワーク150を介して相互接続された少なくとも2つの端末110、120を含み得る。データの単方向伝送の場合、第1の端末110は、ネットワーク150を介して他の端末120に伝送するために、ローカルロケーションでビデオデータを符号化することができる。第2の端末120は、ネットワーク150から他の端末の符号化されたビデオデータを受信し、符号化されたデータを復号し、復元されたビデオデータを表示し得る。単方向データ伝送は、メディアサービングアプリケーションなどで一般的であり得る。
図1は、例えば、ビデオ会議中に生じ得る符号化されたビデオの双方向伝送をサポートするために提供される第2のペアの端末130、140を示している。データの双方向伝送の場合、各端末130、140は、ネットワーク150を介して他の端末に伝送するために、ローカルロケーションでキャプチャされたビデオデータを符号化することができる。各端末130、140はまた、他の端末によって送信された符号化されたビデオデータを受信し、符号化されたデータを復号し、復元されたビデオデータをローカルディスプレイデバイスに表示し得る。
図1では、端末110~140は、例えば、サーバ、パーソナルコンピュータ、およびスマートフォン、ならびに/または任意の他のタイプの端末であってもよい。例えば、端末(110~140)は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤー、および/または専用のビデオ会議機器であってもよい。ネットワーク150は、例えば、有線および/または無線通信ネットワークを含む、端末110~140間で符号化されたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク150は、回線交換および/またはパケット交換チャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および/またはインターネットを含む。本解説の目的のために、ネットワーク150のアーキテクチャおよびトポロジーは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない場合がある。
図2は、開示された主題の用途の一例として、ストリーミング環境でのビデオエンコーダおよびデコーダの配置を示している。開示された主題は、例えば、ビデオ会議、デジタルTV、CD、DVD、メモリスティックなどを含むデジタルメディアへの圧縮ビデオの記憶を含む、他のビデオ対応アプリケーションで使用され得る。
図2に示すように、ストリーミングシステム200は、ビデオソース201およびエンコーダ203を含むキャプチャサブシステム213を含むことができる。ストリーミングシステム200は、少なくとも1つのストリーミングサーバ205および/または少なくとも1つのストリーミングクライアント206をさらに含んでもよい。
ビデオソース201は、例えば、非圧縮ビデオサンプルストリーム202を作成することができる。ビデオソース201は、例えば、デジタルカメラであってもよい。そのサンプルストリーム202は、符号化されたビデオビットストリームと比較したときに大量のデータを強調するために太線として図示され、カメラ201に結合されたエンコーダ203によって処理され得る。エンコーダ203は、ハードウェア、ソフトウェア、またはそれらの組み合わせを含み、以下により詳細に説明されるように、開示された主題の態様を可能に、または実装し得る。エンコーダ203は、符号化されたビデオビットストリーム204も生成し得る。非圧縮ビデオサンプルストリーム202と比較するとき、より少ないデータ量を強調するために細い線として図示されている符号化されたビデオビットストリーム204は、将来の使用のためにストリーミングサーバ205に記憶され得る。1つまたは複数のストリーミングクライアント206は、ストリーミングサーバ205にアクセスして、符号化されたビデオビットストリーム204のコピーであり得るビデオビットストリーム209を取得することができる。
ストリーミングクライアント206は、ビデオデコーダ210およびディスプレイ212を含むことができる。ビデオデコーダ210は、例えば、符号化されたビデオビットストリーム204の着信コピーである、ビデオビットストリーム209を復号し、ディスプレイ212または別のレンダリングデバイス(図示せず)上にレンダリングされ得る発信ビデオサンプルストリーム211を生成することができる。いくつかのストリーミングシステムでは、ビデオビットストリーム204、209は特定のビデオ符号化/圧縮規格により符号化され得る。そのような規格の例は、ITU-T勧告H.265を含むが、これに限定されない。多用途ビデオ符号化(VVC)として非公式に知られているビデオ符号化規格が開発中である。本開示の実施形態は、VVCの文脈で使用され得る。
図3は、本開示の一実施形態による、ディスプレイ212に取り付けられたビデオデコーダ210の機能ブロック図の一例を示す。
ビデオデコーダ210は、チャネル312、受信器310、バッファメモリ315、エントロピーデコーダ/パーサー320、スケーラー/逆変換ユニット351、イントラ予測ユニット352、動き補償予測ユニット353、アグリゲータ355、ループフィルタユニット356、参照ピクチャメモリ357、および現在のピクチャメモリ358を含み得る。少なくとも一実施形態では、ビデオデコーダ210は、集積回路、一連の集積回路、および/または他の電子回路を含み得る。ビデオデコーダ210はまた、関連するメモリを伴う1つまたは複数のCPU上で実行されるソフトウェアに部分的または全体的に具現化されてもよい。
この実施形態、および他の実施形態では、受信器310は、一度に1つの符号化されたビデオシーケンスがデコーダ210によって復号される1つまたは複数の符号化されたビデオシーケンスを受信することができ、各符号化されたビデオシーケンスの復号は、他の符号化されたビデオシーケンスから独立している。符号化されたビデオシーケンスは、チャネル312から受信することができ、それは、符号化されたビデオデータを記憶するストレージデバイスへのハードウェア/ソフトウェアリンクであり得る。受信器310は、他のデータ、例えば、符号化されたオーディオデータおよび/または補助データストリームを伴い符号化されたビデオデータを受信することができ、それは、それぞれの使用エンティティ(図示せず)に転送され得る。受信器310は、符号化されたビデオシーケンスを他のデータから分離することができる。ネットワークジッターを抑制するために、バッファメモリ315は、受信器310とエントロピーデコーダ/パーサー320(以降、「パーサー」)の間に結合され得る。受信器310が十分な帯域幅および制御可能性のストア/フォワードデバイスから、または等同期ネットワークからデータを受信しているとき、バッファ315は使用されない場合、または小さい場合がある。インターネットなどのベストエフォートパケットネットワークで使用するには、バッファ315が必要になり得、比較的大きくすることができ、適応サイズにすることができる。
ビデオデコーダ210は、エントロピー符号化されたビデオシーケンスからシンボル321を再構築するためのパーサー320を含み得る。これらのシンボルのカテゴリは、例えば、デコーダ210の動作を管理するために使用される情報、および図2に示されるようにデコーダに結合され得るディスプレイ212などのレンダリングデバイスを制御するための潜在的な情報を含む。レンダリングデバイスの制御情報は、例えば、補足拡張情報(SEI)メッセージまたはビデオユーザビリティ情報(VUI)パラメータセットフラグメント(図示せず)の形式であり得る。パーサー320は、受信した符号化されたビデオシーケンスを解析/エントロピー復号することができる。符号化されたビデオシーケンスの符号化は、ビデオ符号化技術または規格に従うことができ、可変長符号化、ハフマン符号化、コンテキスト依存の有無にかかわらず算術符号化などを含む当業者によく知られた原則に従うことができる。パーサー320は、グループに対応する少なくとも1つのパラメータに基づいて、符号化されたビデオシーケンスから、ビデオデコーダのピクセルのサブグループの少なくとも1つのサブグループパラメータのセットを抽出することができる。サブグループは、ピクチャのグループ(GOP)、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含み得る。パーサー320はまた、変換係数、量子化パラメータ値、動きベクトルなどのような符号化されたビデオシーケンス情報から抽出することができる。
パーサー320は、バッファ315から受信したビデオシーケンスに対してエントロピー復号/構文解析動作を実行して、シンボル321を作成することができる。
シンボル321の再構成は、符号化されたビデオピクチャまたはその一部のタイプ(例えば、インターピクチャおよびイントラピクチャ、インターブロックおよびイントラブロック)、および他の要因に応じて、複数の異なるユニットを含み得る。どのユニットが関与し、どのように関与するかは、パーサー320によって符号化されたビデオシーケンスから解析されたサブグループ制御情報によって制御され得る。パーサー320と以下で説明される複数のユニットとのそのようなサブグループ制御情報の流れは、分かりやすくするために図示されていない。
すでに言及した機能ブロックを超えて、デコーダ210は、以下で説明されるように、概念的にいくつかの機能ユニットに細分され得る。商業的制約の下で動作する実際の実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的には互いに統合され得る。しかしながら、開示された主題を説明するために、以下の機能ユニットへの概念的な細分化が適切である。
1つのユニットは、スケーラー/逆変換ユニット351であってもよい。スケーラー/逆変換ユニット351は、量子化された変換係数、ならびに使用する変換、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報を、パーサー320からシンボル321として受信し得る。スケーラー/逆変換ユニット351は、アグリゲータ355に入力され得るサンプル値を含むブロックを出力できる。
場合によっては、スケーラー/逆変換351の出力サンプルは、イントラ符号化されたブロックに関係する場合があり、すなわち、それは、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用できるブロックである。そのような予測情報は、イントラピクチャ予測ユニット352によって提供され得る。場合によっては、イントラピクチャ予測ユニット352は、現在のピクチャメモリ358の現在の(部分的に再構成された)ピクチャからフェッチされた周囲のすでに再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ355は、場合によっては、サンプルごとに、イントラ予測ユニット352が生成した予測情報を、スケーラー/逆変換ユニット351によって提供される出力サンプル情報に追加する。
他の場合では、スケーラー/逆変換ユニット351の出力サンプルは、インター符号化され、潜在的に動き補償されたブロックに関係する場合がある。このような場合、動き補償予測ユニット353は、参照ピクチャメモリ357にアクセスして、予測に使用されるサンプルをフェッチすることができる。ブロックに関連するシンボル321によりフェッチされたサンプルを動き補償した後、これらのサンプルは、アグリゲータ355によってスケーラー/逆変換ユニット351の出力に追加され得(この場合、残差サンプルまたは残差信号と呼ばれる)、出力サンプル情報を生成する。動き補償予測ユニット353が予測サンプルをフェッチする箇所から、参照ピクチャメモリ357内のアドレスは、動きベクトルによって制御され得る。動きベクトルは、例えば、x、Y、および参照ピクチャコンポーネントを有し得るシンボル321の形式で、動き補償予測ユニット353に利用可能であり得る。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ357からフェッチされたサンプル値の補間、動きベクトル予測メカニズムなどを含むことができる。
アグリゲータ355の出力サンプルは、ループフィルタユニット356で様々なループフィルタリング技術に依存する場合がある。ビデオ圧縮技術は、符号化されたビデオビットストリームに含まれるパラメータによって制御され、パーサー320からのシンボル321としてループフィルタユニット356に利用可能になるインループフィルタ技術を含むことができるが、符号化されたピクチャまたは符号化されたビデオシーケンスの前の(復号順序の)部分の復号中に取得されたメタ情報に応答することもできるほか、以前に再構築およびループフィルタリングされたサンプル値に応答することもできる。
ループフィルタユニット356の出力は、ディスプレイ212などのレンダリングデバイスに出力され得るほか、将来のインターピクチャ予測で使用するために参照ピクチャメモリ357にも記憶され得るサンプルストリームであり得る。
特定の符号化されたピクチャは、十分に再構成されると、将来の予測のための参照ピクチャとして使用され得る。符号化されたピクチャが完全に再構築され、符号化されたピクチャが参照ピクチャとして識別されると(例えば、パーサー320によって)、現在のピクチャメモリ358に記憶されている現在の参照ピクチャは、参照ピクチャバッファ357の一部になることができ、次の符号化されたピクチャの再構成を開始する前に、新しい現在のピクチャメモリは再割り当てされ得る。
ビデオデコーダ210は、ITU-T Rec.H.265などの規格に文書化され得る所定のビデオ圧縮技術により復号動作を実行することができる。ビデオ圧縮技術文書または規格および特にその中のプロファイル文書で指定されているように、ビデオ圧縮技術または規格の構文に準拠しているという意味で、符号化されたビデオシーケンスは、ビデオ圧縮技術のドキュメントまたは使用されている規格で指定された構文に準拠し得る。また、いくつかのビデオ圧縮技術または規格に準拠するために、符号化されたビデオシーケンスの複雑さは、ビデオ圧縮技術または規格のレベルによって定義される範囲内であり得る。場合によっては、レベルが、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えば、1秒あたりのメガサンプル数で測定)、最大参照ピクチャサイズなどを制限する。レベルによって設定される制限は、場合によっては、仮想参照デコーダ(HRD)の仕様、および符号化されたビデオシーケンスで通知されるHRDバッファ管理のメタデータによってさらに制限される場合がある。
一実施形態では、受信器310は、符号化されたビデオとともに追加の(冗長な)データを受信することができる。追加のデータは、符号化されたビデオシーケンスの一部として含まれ得る。追加のデータは、データを適切に復号するため、および/または元のビデオデータをより正確に再構築するために、ビデオデコーダ210によって使用され得る。追加のデータは、例えば、時間的、空間的、またはSNR強化層、冗長スライス、冗長ピクチャ、順方向エラー訂正コードなどの形式であり得る。
図4は、本開示の一実施形態によるビデオソース201に関連付けられたビデオエンコーダ203の機能ブロック図の一例を示す。
ビデオエンコーダ203は、例えば、ソースコーダ430であるエンコーダ、符号化エンジン432、(ローカル)デコーダ433、参照ピクチャメモリ434、予測器435、送信器440、エントロピーコーダ445、コントローラ450、およびチャネル460を含むことができる。
エンコーダ203は、エンコーダ203によって符号化されるビデオ画像をキャプチャすることができるビデオソース201(エンコーダの一部ではない)からビデオサンプルを受信することができる。
ビデオソース201は、エンコーダ203によって符号化されるソースビデオシーケンスを、任意の適切なビット深度(例えば、xビット、10ビット、12ビット、…)、任意の色空間(例えば、BT.601 Y CrCB、RGB、…)、および任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)からであり得るデジタルビデオサンプルストリームの形式で提供することができる。メディアサービングシステムでは、ビデオソース201は、以前に準備されたビデオを記憶するストレージデバイスであり得る。ビデオ会議システムでは、ビデオソース203は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラであり得る。ビデオデータは、順番に見たときに動きを与える複数の個別のピクチャとして提供され得る。ピクチャ自体は、ピクセルの空間配列として編成され得るものであって、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、1つまたは複数のサンプルを含むことができる。当業者は、ピクセルとサンプルとの関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。
一実施形態によれば、エンコーダ203は、リアルタイムで、またはアプリケーションによって必要とされる他の任意の時間制約の下で、ソースビデオシーケンスのピクチャを符号化して符号化されたビデオシーケンス443に圧縮することができる。適切な符号化速度を実行することは、コントローラ450の一機能であってもよい。コントローラ450はまた、以下で説明されるように他の機能ユニットを制御してもよく、これらのユニットに機能的に結合されてもよい。分かりやすくするために、カップリングは図示されていない。コントローラ450によって設定されるパラメータは、レート制御関連のパラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値など)、ピクチャサイズ、グループオブピクチャ(GOP)レイアウト、最大動きベクトル検索範囲などを含み得る。当業者は、特定のシステム設計用に最適化されたビデオエンコーダ203に関係し得るので、コントローラ450の他の機能を容易に識別することができる。
いくつかのビデオエンコーダは、熟練した人が「符号化ループ」として容易に認識するように動作する。単純化された説明として、符号化ループは、シンボルと符号化されたビデオビットストリームとの圧縮が、特定のビデオ圧縮技術では可逆であるとき、ソースコーダ430の符号化部分(符号化される入力ピクチャ、および参照ピクチャに基づいてシンボルを作成する役割)、およびシンボルを再構築して、(リモート)デコーダも作成する、サンプルデータを作成するエンコーダ203に埋め込まれた(ローカル)デコーダ433からなり得る。その再構成されたサンプルストリームは、参照ピクチャメモリ434に入力され得る。シンボルストリームの復号により、デコーダのロケーション(ローカルまたはリモート)に関係なくビットが正確な結果が得られるため、参照ピクチャメモリの内容もローカルエンコーダとリモートエンコーダの間でビットが正確になる。言い換えると、エンコーダの予測部分は、復号中に予測を使用するときにデコーダが「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性(および、例えばチャネルエラーのために同期性を維持できない場合に生じるドリフト)のこの基本原理は、当業者に知られている。
「ローカル」デコーダ433の動作は、「リモート」デコーダ210の動作と実質的に同じであり得、これは、図3に関連して上部ですでに詳細に説明されている。しかしながら、シンボルが利用可能であり、エントロピーコーダ445およびパーサー320による符号化されたビデオシーケンスへのシンボルのエンコード/復号は可逆であり得るため、チャネル312、受信器310、バッファ315、およびパーサー320を含む、デコーダ210のエントロピー復号部分は、ローカルデコーダ433に十分実装されていない場合がある。
現時点で行うことができる観察は、デコーダに存在する解析/エントロピー復号以外のデコーダ技術も、対応するエンコーダに実質的に同一の機能形式で存在する必要があり得るということである。このため、開示された主題は、デコーダ動作に焦点を合わせている。エンコーダ技術の説明は、包括的に説明されているデコーダ技術の逆であり得るため、省略され得る。特定の領域でのみ、より詳細な説明が必要であり、以下に提供される。
その動作の一部として、ソースコーダ430は、動き補償予測符号化を実行することができ、これは、「参照フレーム」として指定されたビデオシーケンスからの1つまたは複数の以前に符号化されたフレームを参照して入力フレームを予測的に符号化する。このようにして、符号化エンジン432は、入力フレームのピクセルブロックと、入力フレームへの予測参照として選択され得る参照フレームのピクセルブロックとの差異を符号化する。
ローカルビデオデコーダ433は、ソースコーダ430によって作成されたシンボルに基づいて、参照フレームとして指定され得るフレームの符号化されたビデオデータを復号することができる。符号化エンジン432の動作は、有利には、非可逆プロセスであり得る。符号化されたビデオデータがビデオデコーダ(図4には示されていない)で復号されるとき、再構築されたビデオシーケンスは、通常、いくつかのエラーを有するソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ433は、参照フレーム上でビデオデコーダによって実行され得る復号プロセスを複製し、再構成された参照フレームを参照ピクチャメモリ434に記憶させ得る。このようにして、エンコーダ203は、遠端ビデオデコーダによって取得される(伝送エラーがない)再構成された参照フレームとして共通の内容を有する再構成された参照フレームのコピーをローカルに記憶することができる。
予測器435は、符号化エンジン432の予測検索を実行することができる。すなわち、符号化される新しいフレームについて、予測器435は、参照ピクチャメモリ434を検索して、サンプルデータ(候補参照ピクセルブロックとして)または参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータを探すことができ、それは新しいピクチャの適切な予測参照として機能し得る。予測器435は、適切な予測参照を見つけるために、ピクセルブロックごとにサンプルブロック上で動作することができる。場合によっては、予測器435によって取得された検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ434に記憶されている複数の参照ピクチャから引き出された予測参照を有することができる。
コントローラ450は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ビデオコーダ430の符号化動作を管理することができる。
前述のすべての機能ユニットの出力は、エントロピーコーダ445でエントロピー符号化を受けさせ得る。エントロピーコーダは、例えばハフマン符号化、可変長符号化、算術符号化などの当業者に知られているテクノロジによりシンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルを符号化されたビデオシーケンスに変換する。
送信器440は、エントロピーコーダ445によって作成された符号化されたビデオシーケンスをバッファリングして、通信チャネル460を介した伝送のためにそれを準備することができ、これは、符号化されたビデオデータを記憶するストレージデバイスへのハードウェア/ソフトウェアリンクであり得る。送信器440は、ビデオコーダ430からの符号化されたビデオデータを、送信される他のデータ、例えば、符号化されたオーディオデータおよび/または補助データストリーム(ソースは示されていない)とマージすることができる。
コントローラ450は、エンコーダ203の動作を管理することができる。符号化中に、コントローラ450は、各符号化されたピクチャに特定の符号化されたピクチャタイプを割り当てることができ、これは、それぞれのピクチャに適用され得る符号化技術に影響を及ぼし得る。例えば、ピクチャは通常、イントラピクチャ(Iピクチャ)、予測ピクチャ(Pピクチャ)、または双方向予測ピクチャ(Bピクチャ)として割り当てられ得る。
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンスの他のフレームを使用せずに符号化および復号され得るものであり得る。いくつかのビデオコーデックでは、例えば独立デコーダリフレッシュ(IDR)ピクチャなど、様々なタイプのイントラピクチャを使用できる。当業者は、Iピクチャのそれらの変形およびそれらのそれぞれの用途および特徴に気付いている。
予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために、最大で1つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して符号化および復号され得るものであり得る。
双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために、最大2つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して符号化および復号され得るものであり得る。同様に、複数の予測ピクチャは、単一のブロックの再構築のために3つ以上の参照ピクチャおよび関連するメタデータを使用できる。
ソースピクチャは、通常、空間的に複数のサンプルブロック(例えば、それぞれ4x4、8x8、4x8、または16x16サンプルのブロック)に細分され、ブロックごとに符号化され得る。ブロックは、ブロックのそれぞれのピクチャに適用される符号化割り当てによって決定されるように、他の(すでに符号化された)ブロックを参照して予測的に符号化され得る。例えば、Iピクチャのブロックは、非予測的に符号化され得るか、またはそれらは、同じピクチャのすでに符号化されたブロックを参照して予測的に符号化され得る(空間予測またはイントラ予測)。Pピクチャのピクセルブロックは、空間予測を介して、または以前に符号化された1つの参照ピクチャを参照する時間予測を介して、非予測的に符号化され得る。Bピクチャのピクセルブロックは、空間予測を介して、または以前に符号化された1つまたは2つの参照ピクチャを参照する時間予測を介して、非予測的に符号化され得る。
ビデオコーダ203は、ITU-T Rec.H.265などの所定のビデオ符号化技術または規格により符号化動作を実行することができる。その動作において、ビデオコーダ203は、入力ビデオシーケンスでの時間的および空間的冗長性を利用する予測符号化動作を含む、様々な圧縮動作を実行することができる。したがって、符号化されたビデオデータは、使用されているビデオ符号化技術または規格によって指定された構文に準拠し得る。
一実施形態では、送信器440は、符号化されたビデオとともに追加のデータを送信することができる。ビデオコーダ430は、符号化されたビデオシーケンスの一部としてそのようなデータを含み得る。追加データは、時間的/空間的/SNR強化層、冗長なピクチャおよびスライスなどの他の形式の冗長なデータ、補足拡張情報(SEI)メッセージ、視覚的ユーザビリティ情報(VUI)パラメータセットフラグメントなどを含み得る。
本開示のエンコーダおよびデコーダは、例えば、参照ピクチャメモリ357および参照ピクチャメモリ434などの復号されたピクチャバッファ(DPB)に関して本開示の復号されたピクチャバッファ管理を実施することができる。
復号されたピクチャバッファは、復号プロセスにおいて後続のピクチャを再構築するための参照に利用可能な復号されたピクチャを記憶することができる。例えば、復号されたピクチャバッファに記憶されているピクチャは、1つまたは複数の後続のピクチャの予測プロセスにおける参照として使用されるために利用可能であり得る。
本開示のエンコーダおよびデコーダは、各々が復号されたピクチャバッファに記憶されているピクチャをそれぞれリスト化する1つまたは複数の参照ピクチャリスト(例えば、シンタックス要素 「RefPicList[ i ]」)を構築および/または使用し得る。例えば、参照ピクチャリストの各インデックスは、復号されたピクチャバッファのそれぞれのピクチャに対応し得る。参照ピクチャリストは、例えば、インター予測に使用され得る参照ピクチャのリストを指し得る。
本開示の復号されたピクチャバッファ管理のいくつかの態様が以下で説明される。
本開示のいくつかの実施形態は、時間的サブレイヤ適応に対応することによって、復号されたピクチャバッファ管理を改善する。「サブレイヤ」という用語は、TemporalId変数の特定の値を有するVCL NALユニットおよび関連する非VCL NALユニットを含む、時間的スケーラブルなビットストリームの時間的スケーラブルなレイヤを指すことができる。
例えば、一実施形態では、ネットワーク抽象化レイヤ(NAL)ユニット「TRAIL_NUT」、「STSA_NUT」、「RASL_NUT」、および「RADL_NUT」は、同じ時間的サブレイヤのピクチャが参照ピクチャであるか非参照ピクチャであるかを示すために、それぞれ(「TRAIL_N」、「TRAIL_R」)、(「STSA_N」、「STSA_R」)、(「RASL_N、RASL_R」)、および(「RADL_N、RASL_R」)として再指定される。RefPicList[ i ]には、復号される現在のピクチャと同じ時間的識別子を有する非参照ピクチャが含まれてもよい。
一実施形態では、「sps_max_dec_pic_buffering_minus1」は、シーケンスパラメータセット(「SPS」)の最高の時間的識別子ごとに通知される。
一実施形態では、各最高の時間的識別子の未使用の参照ピクチャのリストがタイルグループヘッダで通知される。
一実施形態では、指定された最高の時間的識別子(例えば、シンタックス要素「HighestTid」)の値が「sps_max_sub_layers_minus1」と等しくないとき、指定された最高の時間的識別子より大きい時間的識別子(例えば、シンタックス要素「TemporalId」)を有するすべての参照ピクチャが「参照用に未使用」としてマークされる。
本開示のいくつかの実施形態によると、同じ時間的サブレイヤで後続する他のNALユニットを予測および再構築するために使用されないNALユニットは、ネットワークの目標ビットレートまたは利用可能なビットレートに応じて、復号されたピクチャバッファから廃棄されてもされなくてもよい。
例えば、図5は、本開示のエンコーダおよびデコーダがNALユニットタイプを解析および解釈することによってどのように対応するNALユニットを処理することができるかを示す流れ図である。図5に示されるように、デコーダ(またはエンコーダ)はプロセス500を実行することができる。プロセス500は、NALユニットのNALユニットヘッダを解析すること(501)および現在のNALユニットのNALユニットタイプを識別すること(502)を含むことができる。続いて、デコーダ(またはエンコーダ)は、現在のNALユニットが同じ時間的サブレイヤの後続のNALユニットを予測および再構成するために使用されるかどうかを決定することができる(503)。この決定に基づいて、デコーダ(またはエンコーダ)は、現在のNALユニットを使用して後続のNALユニットを再構成/転送してもよく(504)、または代替的に、後続のNALユニットを予測および再構成するためのNALユニットを使用せずに、復号されたピクチャバッファから現在のNALユニットを廃棄してもよい(505)。例えば、現在のNALユニットが同じ時間的サブレイヤの後続のNALユニットを予測および再構成するために使用されると決定された場合、デコーダ(またはエンコーダ)は、復号されたピクチャバッファに記憶されている現在のNALユニットを使用して後続のNALユニットを再構成/転送することができる(504)。後続のNALユニットを予測および再構築するためにNALが使用されない場合、デコーダ(またはエンコーダ)は、後続のNALユニットを予測および再構築するためにNALユニットを使用せずに、復号されたピクチャバッファから現在のNALユニットを廃棄することができる(505)。後続のNALユニットの予測および再構成は、復号されたピクチャバッファを使用して、現在のピクチャを予測および再構成することによって現在のピクチャを復号することを指すことができる。
本開示の実施形態は、別々に使用されてもよく、任意の順序で組み合わされてもよい。さらに、本開示の方法、エンコーダ、およびデコーダの各々は、処理回路(例えば、1つまたは複数のプロセッサあるいは1つまたは複数の集積回路)によって実施されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行して、本開示に記載された方法、エンコーダ、およびデコーダの機能を実行する。
上述したように、NALユニットタイプ「TRAIL_NUT」、「STSA_NUT」、「RASL_NUT」、および「RADL_NUT」は分割され、同じサブレイヤの非参照ピクチャを示すために、(「TRAIL_N」、「TRAIL_R」)、(「STSA_N」、「STSA_R」)、(「RASL_N」、「RASL_R」)、および(「RADL_N」、「RASL_R」)として定義される。したがって、本開示のエンコーダおよびデコーダは、例えば、以下の表1に記載されたNALユニットを使用し得る。
Figure 0007250934000001
サブレイヤのピクチャは、上記のNALユニットタイプの1つを有し得る。ピクチャが「TRAIL_N」、「TSA_N」、「STSA_N」、「RADL_N」、または「RASL_N」に等しいNALユニットタイプ(例えば、シンタックス要素「nal_unit_type」)を有する場合、そのピクチャは、サブレイヤ非参照(SLNR)ピクチャである。そうでない場合、そのピクチャはサブレイヤ参照ピクチャである。SLNRピクチャは、同じサブレイヤの後続ピクチャの復号処理でインター予測に使用され得ないサンプルを復号順に含むピクチャであってもよい。サブレイヤ参照ピクチャは、同じサブレイヤの後続ピクチャの復号処理でインター予測に使用され得るサンプルを復号順に含むピクチャであってもよい。サブレイヤ参照ピクチャは、復号順で上位のサブレイヤの後続ピクチャの復号処理でインター予測にも使用され得る。
非参照ピクチャを示すNALユニット(例えば、VCL NALユニットなど)を提供することによって、不要なNALユニットは、ビットレート適応のために廃棄され得る。RefPicList[ i ]には、現在のピクチャと同じ時間的ID(ピクチャが属する時間的サブレイヤを示す)を有する非参照ピクチャが含まれてもよい。これに関連して、一実施形態では、非参照ピクチャは、「未使用の参照ピクチャ」としてマークされてもよく、復号されたピクチャバッファから迅速に除去され得る。
例えば、一実施形態では、デコーダ(またはエンコーダ)は、ピクチャに関連付けられたNALユニットに基づいてピクチャがSLNRピクチャであるかどうかを決定し、ピクチャがSLNRピクチャである場合、そのピクチャを「未使用の参照ピクチャ」としてマークすることができる。復号されたピクチャバッファに記憶され得るピクチャは、参照ピクチャリストのピクチャのエントリに識別子を入力することによってマークされ得、識別子は、例えば、「参照ピクチャなし」または「未使用の参照ピクチャ」である。デコーダ(またはエンコーダ)は、図5に示されるように、プロセス500のステップ503の一部としてそのような態様を実行することができる。その後、デコーダ(またはエンコーダ)は、ピクチャがマークされたことに基づいて、復号されたピクチャバッファからピクチャを除去し得る。デコーダ(またはエンコーダ)は、図5に示されるように、プロセス500のステップ505の一部としてそのような態様を実行することができる。
一実施形態では、参照ピクチャリスト「RefPicList[ 0 ]」および「RefPicList[ 1 ]」は、以下のように構成され得る。
for(i=0;i < 2;i++){
for(j=0,k=0,pocBase=PicOrderCntVal;j < num_ref_entries[ i ][ RplsIdx[ i ] ];j++){
if(st_ref_pic_flag[ i ][ RplsIdx[ i ] ][ j ]){
RefPicPocList[ i ][ j ]=pocBase-DeltaPocSt[ i ][ RplsIdx[ i ] ][ j ]
if(RefPicPocList[ i ][ j ]に等しいPicOrderCntValを有する参照ピクチャpicAがDPBに存在する
&&参照picAは現在のピクチャのそれに等しいTemporalIdを有するSLNRピクチャではない)
RefPicList[ i ][ j ]=picA
else
RefPicList[ i ][ j ]=“参照ピクチャなし”(8-5)
pocBase=RefPicPocList[ i ][ j ]
}else{
if(!delta_poc_msb_cycle_lt[ i ][ k ]){
if(poc_lsb_lt[ i ][ RplsIdx[ i ] ][ j ]に等しいPicOrderCntVal&(MaxPicOrderCntLsb-1)を有する参照picAがDPBに存在する
&&参照picAは現在のピクチャのそれに等しいTemporalIdを有するSLNRピクチャではない)
RefPicList[ i ][ j ]=picA
else
RefPicList[ i ][ j ]=“参照ピクチャなし”
}else{
if(FullPocLt[ i ][ RplsIdx[ i ] ][ j ]
に等しいPicOrderCntValを有する参照picAがDPBに存在する
&&参照picAは現在のピクチャのそれに等しいTemporalIdを有するSLNRピクチャではない)
RefPicList[ i ][ j ]=picA
else
RefPicList[ i ][ j ]=“参照ピクチャなし”

k+++


一実施形態では、ビットストリーム適合性に制約を適用することができる。例えば、以下の1つまたは複数が当てはまるRefPicList[ 0 ]またはRefPicList[ 1 ]にアクティブなエントリが存在しないように、エンコーダまたはデコーダが制約され得る、すなわち、(1)エントリは「参照ピクチャなし」に等しい。(2)このエントリは、SLNRピクチャであり、現在のピクチャと同じ「TemporalId」を有する。
上述したように、一実施形態では、シンタックス要素「sps_max_dec_pic_buffering_minus1」は、SPSの最高の時間的識別子(例えば、シンタックス要素「HighestTid」)ごとに通知され得る。
変数「HighestTid」の値は、外部手段が利用可能な場合、外部手段によって決定され得る。そうでない場合、「HighestTid」は、シンタックス要素「sps_max_sub_layers_minus1」と等しく設定され得る。次に、デコーダは、所与の「HighestTid」値に対して復号されたピクチャバッファの最大必要サイズを推定することができる。
実施形態では、SPSは、表2に示される以下の例示的なシンタックスを含むことができる。
Figure 0007250934000002
「sps_max_dec_pic_buffering_minus1[ i ]」プラス1は、「HighestTid」がiに等しいときの、ピクチャストレージバッファのユニットの符号化されたビデオシーケンス(「CVS」)用の復号されたピクチャバッファの最大必要サイズを指定する。「sps_max_dec_pic_buffering_minus1 [ i ]」 の値は、0以上「MaxDpbSize」-1以下の範囲であってもよく、「MaxDpbSize」は他の場所で指定される。
上述したように、一実施形態では、各最高の時間的IDの未使用の参照ピクチャのリストは、タイルグループヘッダで通知され得る。
「HighestTid」の値に応じて、各時間的サブレイヤの一部の参照ピクチャが、後続ピクチャの参照として使用されない場合がある。一実施形態では、タイルグループヘッダの各「HighestTid」値に対応する未使用の参照ピクチャが明示的に通知され得る。タイルグループヘッダの各「HighestTid」値に対応する未使用の参照ピクチャを明示的に通知することによって、未使用の復号された参照ピクチャがDPBから迅速に除去され得る。
実施形態では、SPSは、表3に示される以下の例示的なシンタックスを含むことができる。
Figure 0007250934000003
0に等しい「unused_ref_pic_signaling_enabled_flag」は、タイルグループヘッダに「num_unused_ref_pic」および「delta_poc_unused_ref_pic[ i ]」が存在しないことを明示し、DPBからの復号されたピクチャの除去タイミングが暗黙的に決定される。1に等しい「unused_ref_pic_signaling_enabled_flag」は、タイルグループヘッダに「num_unused_ref_pic」および「delta_poc_unused_ref_pic[ i ]」が存在し、「delta_poc_unused_ref_pic[ i ]」を解析することによって、DPBからの復号されたピクチャの除去タイミングが明示的に決定されることを明示する。
実施形態では、タイルグループヘッダは、表4に示される以下の例示的なシンタックスを含むことができる。
Figure 0007250934000004
「num_unused_ref_pic」は、未使用の参照ピクチャエントリの数を指定する。存在しない場合、このフィールドの値は0に等しく設定され得る。
「delta_poc_unused_ref_pic [ i ]」は、現在のピクチャと第iのエントリが参照される未使用の復号されたピクチャの間のピクチャ順序カウント値の絶対差を指定する。「delta_poc_unused_ref_pic [ i ]」の値は、0以上215-1以下であってもよい。
「unused_ref_pic_signaling_enabled_flag」が1に等しい場合、以下が適用される、すなわち、
for(i=0;i < num_unused_ref_pic[ HighestTid ];i++)
if((現在のピクチャPicOrderCntVal-delta_poc_unused_ref_pic [ HighestTid ][ i ])に等しいPicOrderCntVal を有する参照ピクチャpicXがDPBに存在する
picXは「参照用に未使用」としてマークされている。
一実施形態では、デコーダ(またはエンコーダ)は、上記の決定に基づいてピクチャが「未使用の参照ピクチャ」としてマークされるべきかどうかを決定することができる。デコーダ(またはエンコーダ)は、図5に示される、プロセス500のステップ503の一部としてそのような態様を実行することができる。その後、デコーダ(またはエンコーダ)は、ピクチャがマークされたことに基づいて、復号されたピクチャバッファからピクチャを除去し得る。デコーダ(またはエンコーダ)は、図5に示される、プロセス500のステップ505の一部としてそのような態様を実行することができる。
一実施形態の一態様によれば、「HighestTid」の値が「sps_max_sub_layers_minus1」に等しくないとき、「TemporalId」がHighestTidより大きいすべての参照ピクチャは「参照用に未使用」としてマークされ得る。
「HighestTid」の値は、外部の手段によって瞬時に変更され得る。この「HighestTid」を入力として、サブビットストリームの抽出処理が行われるようにしてもよい。
例えば、プロセスは、タイルグループヘッダの復号およびタイルグループの参照ピクチャリスト構築のための復号プロセスの後であるが、タイルグループデータの復号の前に、ピクチャごとに1回呼び出されてもよい。このプロセスにより、DPBの1つまたは複数の参照ピクチャが「参照用に未使用」または「長期参照用に使用」としてマークされ得る。
一実施形態では、DPBの復号されたピクチャは、「参照用に未使用」、「短期参照用に使用」、または「長期参照用に使用」としてマークされ得るが、復号プロセスの動作中の任意の所与の瞬間にこれら3つの1つのみである。これらのマーキングの1つをピクチャに割り当てることは、適用可能なとき、これらのマーキングの別のものを暗黙的に除去することができる。ピクチャが「参照用に使用」とマークされていると言及されるとき、これは、「短期参照用に使用」または「長期参照用に使用」(しかし、両方ではない)とマークされているピクチャを総称する。
DPBの復号されたピクチャは、そのマーキングに基づいてDPB内で異なるように識別(例えば、インデックス付けされる)または異なるように記憶され得る。例えば、短期参照ピクチャ(「STRP」)は、それらの「PicOrderCntVal」値によって識別され得る。長期参照ピクチャ(「LTRP」)は、それらの「PicOrderCntVal」 値のLog2(MaxLtPicOrderCntLsb)LSBによって識別され得る。
現在のピクチャが「NoRaslOutputFlag」が1に等しいIRAPピクチャである場合、(もしあれば)DPBに現在あるすべての参照ピクチャは「参照用に未使用」としてマークされる。1に等しい「NoRaslOutputFlag」は、デコーダによるRASLピクチャの出力がないことを示し得る。
「HighestTid」の値が「sps_max_sub_layers_minus1」に等しくないとき、「TemporalId」が「HighestTid」より大きいすべての参照ピクチャは「参照用に未使用」としてマークされる。
一例として、図6を参照すると、本開示のデコーダおよびエンコーダはプロセス600を実行することができる。プロセス600は、「HighestTid」の値が「sps_max_sub_layers_minus1」に等しくないという決定に基づいて実行され得る。図6に示されるように、デコーダ(またはエンコーダ)は、参照ピクチャの時間的ID値を決定し得る(601)。例えば、DPBにリストされた第1の参照ピクチャまたは参照ピクチャリストである。続いて、デコーダ(またはエンコーダ)は、参照ピクチャの時間的ID値を所定の値(例えば、「HighestTid」の値)と比較し得る(602)。時間的ID値が所定の値より大きい場合、デコーダ(またはエンコーダ)は、参照ピクチャを「参照用に未使用」としてマークし得る(603)。一実施形態では、デコーダ(またはエンコーダ)は、DPBまたは参照ピクチャリストにマークを提供することができる。
時間的ID値が所定の値より大きいかどうかにかかわらず、デコーダ(またはエンコーダ)は、次に、ステップ602(604)において、所定の値と比較された時間的ID値を有していない別の参照ピクチャがDPB(または参照ピクチャリスト)に存在するかどうかを決定し得る。ステップ602で、デコーダ(またはエンコーダ)が、DPB(または参照ピクチャリスト)に、所定の値と比較して時間的ID値を有していない別の参照ピクチャがあると決定した場合、デコーダ(またはエンコーダ)は、DPB(または参照ピクチャリスト)のすべての参照ピクチャについてステップ601~604を繰り返すことができる。ステップ602で、デコーダ(またはエンコーダ)が、DPB(または参照ピクチャリスト)のすべての参照ピクチャが、所定の値と比較して、それぞれの時間的ID値を有していると決定すると、デコーダ(またはエンコーダ)は、「参照用に未使用」としてマークされた参照ピクチャをDPBから除去し得る(605)。デコーダ(またはエンコーダ)は、DPBから除去された任意の数のピクチャを伴うDPBを使用して現在のピクチャを復号し得る(606)。
実施形態では、デコーダ(およびエンコーダ)はまた、DPBを使用して現在のピクチャを復号するための他の機能を実行することもできる。例えば、デコーダ(およびエンコーダ)は、代替的または付加的に以下を適用することができる、すなわち、(1)RefPicList[ 0 ]またはRefPicList[ 1 ]の各LTRPエントリについて、参照されるピクチャがSTRPであるとき、デコーダ(またはエンコーダ)は、ピクチャを「長期参照用に使用」としてマークすることができる。(2)デコーダ(またはエンコーダ)は、RefPicList[ 0 ]またはRefPicList[ 1 ]のいずれのエントリによっても参照されないDPBの各参照ピクチャを「参照用に未使用」としてマークしてもよい。
一実施形態では、デコーダ(またはエンコーダ)は、DPBを使用して現在のピクチャを復号する前に、「参照用に未使用」とマークされたDPBのすべての参照ピクチャを削除するか、またはそのような参照ピクチャをDPBに保持し、DPBを使用して現在のピクチャを復号するときに参照ピクチャを無視することができる。
実施形態では、デバイス800は、少なくとも1つのプロセッサによって実行されるとき、少なくとも1つのプロセッサに上述のデコーダおよびエンコーダの機能を実行させ得るコンピュータプログラムコードを記憶するメモリを備えることができる。
例えば、図7を参照すると、デバイス800のコンピュータプログラムコードは、記憶コード810、決定コード820、除去コード830、および復号コード840を含むことができる。
記憶コード810は、少なくとも1つのプロセッサに、同じ時間的サブレイヤの複数の第1のピクチャを含む、ビデオストリームの以前に復号されたピクチャを、復号されたピクチャバッファに記憶させるように構成されてもよく、複数の第1のピクチャは、ビデオストリームの現在のピクチャを予測するための少なくとも1つのサブレイヤ参照ピクチャを含む。
決定コード820は、少なくとも1つのプロセッサに、上述した技術の1つまたは複数により決定を行わせるように構成されてもよい。例えば、決定コード820は、少なくとも1つのプロセッサに、複数の第1のピクチャのうちのピクチャがサブレイヤ非参照(「SLNR」)ピクチャであるかどうかを決定させるように構成されてもよい。代替的または付加的に、決定コード820は、少なくとも1つのプロセッサに、ピクチャのネットワーク抽象レイヤ(NAL)ユニットタイプを識別させ、識別されたNALユニットタイプに基づいてピクチャがSLNRピクチャであるかどうか決定させるように構成されてもよい。代替的にまたは付加的に、決定コード820は、少なくとも1つのプロセッサに、ピクチャの時間的サブレイヤの値が所定の値(例えば、「HighestTid」の値)より大きいかどうかを決定させるように構成されてもよい。代替的にまたは付加的に、決定コード820は、少なくとも1つのプロセッサに、所定の値(例えば、「HighestTid」の値)を最高の時間的サブレイヤ識別番号に対応する値と比較させるように構成されてもよい。代替的にまたは付加的に、決定コード820は、所定の値が最高の時間的サブレイヤ識別番号に対応する値に等しくないと決定されたとき、少なくとも1つのプロセッサに、ピクチャの時間的サブレイヤの値が所定の値(例えば、「HighestTid」の値)より大きいかどうかを決定させるように構成されてもよい。代替的にまたは付加的に、決定コード820は、少なくとも1つのプロセッサに、現在のピクチャがイントラ・ランダム・アクセス・ポイント(IRAP)ピクチャであるかどうかを決定させ、フラグが、ランダム・アクセス・スキップ・リーディング(「RASL」)ピクチャの出力がないことを示すかどうかを決定させるように構成されてもよい。
除去コード830は、上述した技術の1つまたは複数により、少なくとも1つのプロセッサに、復号されたピクチャバッファから1つまたは複数のピクチャを除去させるように構成されてもよい。例えば、除去コード830は、少なくとも1つのプロセッサに、ピクチャがSLNRピクチャであると決定されたことに基づいて、復号されたピクチャバッファからSLNRピクチャを除去させるように構成されてもよい。代替的にまたは付加的に、除去コード830は、少なくとも1つのプロセッサに、ピクチャの時間的サブレイヤの値が所定の値(例えば、「HighestTid」の値)よりも大きいと決定したことに基づいて、復号されたピクチャバッファからピクチャを除去させるように構成されてもよい。実施形態では、除去コード830は、少なくとも1つのプロセッサに、識別子(例えば、「参照用に未使用」または「参照なし」などのマーキング)に基づいて復号されたピクチャバッファからピクチャを除去させるように構成されてもよい。
復号コード840は、少なくとも1つのプロセッサに、上述した技術の1つまたは複数により、復号されたピクチャバッファを使用して現在のピクチャを復号させるように構成されてもよい。例えば、一実施形態では、復号コード840は、復号されたピクチャバッファからピクチャを除去した後(例えば、SLNRピクチャ、または「参照用に未使用」または「参照なし」などの識別子でマークされたピクチャ)、少なくとも1つのプロセッサに、復号されたピクチャバッファ内に記憶されている少なくとも1つのサブレイヤ参照ピクチャのうちの1つまたは複数を使用して現在のピクチャを予測させるように構成された予測コードを含む。
一実施形態では、コンピュータプログラムコードは、提供コード850および形成コード860をさらに含むことができる。
提供コード850は、上述した技術の1つまたは複数により、少なくとも1つのプロセッサに識別子を提供させるように構成されてもよい。識別子は、例えば、指定されたピクチャが「参照用に未使用」、「短期参照用に使用」、または「長期参照用に使用」であることを示してもよい。例えば、提供コード850は、ピクチャがSLNRピクチャであると決定されたことに基づいて、少なくとも1つのプロセッサに、SLNRピクチャであると決定されたピクチャの識別子(例えば、「参照用に未使用」または「参照なし」などのマーキング)を提供させるように構成されてもよい。代替的にまたは付加的に、提供コード850は、少なくとも1つのプロセッサに、SLNRピクチャであると決定されたピクチャに対応する参照ピクチャリストのエントリの識別子を提供させるように構成されてもよい。代替的にまたは付加的に、提供コード850は、少なくとも1つのプロセッサに、ピクチャの時間的サブレイヤの値が所定の値(例えば、「HighestTid」の値)よりも大きいと決定したことに基づいて、ピクチャの識別子を提供させるように構成されてもよい。代替的にまたは付加的に、提供コード850は、現在のピクチャがIRAPピクチャであると決定され、フラグがRASLピクチャの出力がないことを示すと決定された場合、少なくとも1つのプロセッサに、現在記憶されている各参照ピクチャがDPBから除去されるべきであることを示す識別子を、DPBに現在記憶されている各参照ピクチャについて設定させるように構成されてもよい。
形成コード860は、上述した技術の1つまたは複数により、少なくとも1つのプロセッサに、1つまたは複数の参照ピクチャリストを形成させるように構成されてもよい。例えば、形成コード860は、少なくとも1つのプロセッサに、DPBの1つまたは複数のピクチャのエントリを含む参照ピクチャリストを形成させるように構成されてもよい。
上述した技術は、コンピュータ可読命令を使用し、1つまたは複数のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして実装され得る。例えば、図8は、開示の特定の実施形態を実装するのに適したコンピュータシステム900を示している。
コンピュータソフトウェアは、アセンブリ、コンパイル、リンク、または同様のメカニズムに依存し得る任意の適切なマシンコードまたはコンピュータ言語を使用して符号化され、コンピュータ中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)などによって、直接、または解釈、マイクロコード実行などを通して実行され得る命令を含むコードを作成することができる。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータまたはそのコンポーネント上で実行され得る。
コンピュータシステム900について図8に示されるコンポーネントは、例であり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲または機能に関する制限を示唆することを意図するものではない。コンポーネントの構成も、コンピュータシステム900の非制限的実施形態に示されるコンポーネントのいずれか1つまたは組み合わせに関連する依存関係または要件を有すると解釈されるべきではない。
コンピュータシステム900は、特定のヒューマンインターフェース入力デバイスを含み得る。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、音声入力(音声、拍手など)、視覚入力(ジェスチャーなど)、嗅覚入力(図示せず)を介して、1人または複数の人間ユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、オーディオ(音声、音楽、周囲の音など)、画像(スキャン画像、静止画像カメラから取得された写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、人間による意識的な入力に必ずしも直接関連しない特定の媒体をキャプチャするためにも使用され得る。
入力ヒューマンインターフェースデバイスは、キーボード901、マウス902、トラックパッド903、タッチスクリーン910、データグローブ、ジョイスティック905、マイク906、スキャナ907、カメラ908の1つまたは複数(それぞれの1つのみを図示)を含み得る。
コンピュータシステム900は、特定のヒューマンインターフェース出力デバイスも含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および嗅覚/味覚を通して、1人または複数の人間のユーザの感覚を刺激し得る。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン910、データグローブ、またはジョイスティック905による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスも存在し得る)を含むことができる。例えば、そのようなデバイスは、音声出力デバイス(スピーカ909、ヘッドホン(図示せず)など)、視覚出力デバイス(CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン910など、それぞれタッチスクリーン入力機能の有無にかかわらず、それぞれ触覚フィードバック機能の有無にかかわらず、そのいくつかはステレオグラフィック出力などの手段を通して、2次元視覚出力または3次元を超える出力を出力できるものもある、仮想現実ガラス(図示せず)、ホログラフィックディスプレイ、およびスモークタンク(図示せず))、およびプリンタ(図示せず)であり得る。
コンピュータシステム900は、人間がアクセス可能なストレージデバイスおよびそれらに関連する媒体、例えば、CD/DVDなどの媒体921を伴うCD/DVD ROM/RW 920を含む光学媒体、サムドライブ922、リムーバブルハードドライブまたはソリッドステートドライブ923、テープやフロッピーディスク(図示せず)などのレガシー磁気媒体、セキュリティドングル(図示せず)などの特殊なROM/ASIC/PLDベースのデバイスなどを含み得る。
当業者は、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波、または他の一時的な信号を含まないことも理解されたい。
コンピュータシステム900は、1つまたは複数の通信ネットワークへのインターフェースを含むこともできる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両および産業、リアルタイム、遅延耐性などにし得る。ネットワークの例は、イーサネットなどのローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、地上波放送TVを含むTV有線または無線ワイドエリアデジタルネットワーク、およびCANBusを含む車両および産業用などを含む。特定のネットワークは一般に、特定の汎用データポートまたは周辺バス949に接続された外部ネットワークインターフェースアダプタを必要とする(例えば、コンピュータシステム900のUSBポートなど、他のものは一般に、以下に説明するようにシステムバスへの接続によってコンピュータシステム900のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム900は他のエンティティと通信することができる。このような通信は、単方向、受信のみ(例えば、TVの放送)、単方向の送信のみ(例えば、特定のCANbusデバイスへのCANbus)、または双方向、例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステム向けであり得る。そのような通信は、クラウドコンピューティング環境955への通信を含むことができる。上述のように、特定のプロトコルとプロトコルスタックはそれらのネットワークとネットワークインターフェースのそれぞれで使用され得る。
前述のヒューマンインターフェースデバイス、ヒューマンアクセス可能なストレージデバイス、およびネットワークインターフェース954は、コンピュータシステム900のコア940に接続され得る。
コア940は、1つまたは複数の中央処理ユニット(CPU)941、グラフィックス処理ユニット(GPU)942、フィールドプログラマブルゲートエリア(FPGA)943の形式の特殊なプログラム可能な処理ユニット、特定のタスクのためのハードウェアアクセラレータ944などを含み得る。これらのデバイスは、読み取り専用メモリ(ROM)945、ランダムアクセスメモリ946、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量ストレージ947と共に、システムバス948を通して接続され得る。いくつかのコンピュータシステムでは、システムバス948は、1つまたは複数の物理プラグの形でアクセス可能であり、追加のCPU、GPUなどによる拡張を可能にする。周辺デバイスは、コアのシステムバス948に直接接続されることも、周辺バス949を介して接続されることもできる。周辺バスのアーキテクチャは、PCI、USBなどを含む。グラフィックスアダプタ950は、コア940に含まれてもよい。
CPU 941、GPU 942、FPGA 943、およびアクセラレータ944は、組み合わせて、前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ROM 945またはRAM 946に記憶され得る。移行データはまた、RAM 946に記憶され得るが、永久データは、例えば、内部大容量ストレージ947に記憶され得る。1つまたは複数のCPU 941、GPU 942、大容量ストレージ947、ROM 945、RAM 946などと密接に関連付けられ得るキャッシュメモリを使用することにより、任意のメモリデバイスへの高速ストレージおよびリトリーブが有効にされ得る。
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードをその上に有し得る。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであり得るか、またはそれらは、コンピュータソフトウェア技術のスキルを有する人々に良く知られ、利用可能な種類のものであり得る。
一例として、限定としてではなく、アーキテクチャ900、具体的にはコア940を有するコンピュータシステムは、1つまたは複数の有形のコンピュータ可読媒体で具体化されたソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)の結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上部で紹介したようにユーザがアクセス可能な大容量ストレージのほか、コア内部大容量ストレージ947またはROM 945などの非一時的性質のコア940の特定のストレージにも関連する媒体であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア940によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含み得る。ソフトウェアは、コア940、特にその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM 946に記憶されたデータ構造の定義およびソフトウェアによって定義されたプロセスによる、そのようなデータ構造の変更を含む、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりにまたは一緒に動作することができる回路(例えば、アクセラレータ944)に配線されたまたはそうでなければ具体化されたロジックの結果として機能を提供することができる。ソフトウェアへの参照にはロジックを含めることができ、必要に応じてその逆も可能である。コンピュータ可読媒体への参照は、必要に応じて、実行のためのソフトウェアを記憶する回路(集積回路(IC)など)、実行のためのロジックを具体化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。
本開示は、いくつかの非限定的な実施形態を説明しているが、本開示の範囲内にある変更、順列、および様々な代替の同等物が存在する。したがって、当業者は、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具体化し、したがってその趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。
100 通信システム
110 端末
120 端末
130 端末
140 端末
150 ネットワーク
200 ストリーミングシステム
201 ビデオソース
202 非圧縮ビデオサンプルストリーム
203 エンコーダ
204 符号化されたビデオビットストリーム
205 ストリーミングサーバ
206 ストリーミングクライアント
209 符号化されたビデオビットストリーム
210 ビデオデコーダ
211 ビデオサンプルストリーム
212 ディスプレイ
213 キャプチャサブシステム
310 受信器
312 チャネル
315 バッファメモリ
320 パーサー
321 シンボル
351 スケーラー/逆変換ユニット
352 イントラ予測ユニット
353 動き補償予測ユニット
355 アグリゲータ
356 ループフィルタユニット
357 参照ピクチャメモリ
358 現在の画面
430 ソースコーダ
432 符号化エンジン
433 デコーダ
434 参照ピクチャメモリ
435 予測器
440 送信器
443 符号化されたビデオシーケンス
445 エントロピーコーダ
450 コントローラ
460 チャネル
500 プロセス
600 プロセス
800 デバイス
810 記憶コード
820 決定コード
830 除去コード
840 復号コード
850 提供コード
860 形成コード
900 コンピュータシステム
901 キーボード
902 マウス
903 トラックパッド
905 ジョイスティック
906 マイク
907 スキャナ
908 カメラ
909 スピーカ
910 タッチスクリーン
920 CD/DVD ROM/RW
921 CD/DVDなどの媒体
922 サムドライブ
923 リムーバブルハードドライブまたはソリッドステートドライブ
940 コア
941 中央処理ユニット(CPU)
942 グラフィックス処理ユニット(GPU)
943 フィールドプログラマブルゲートエリア(FPGA)
944 アクセラレータ
945 読み取り専用メモリ(ROM)
946 ランダムアクセスメモリ(RAM)
947 大容量ストレージ
948 システムバス
949 周辺バス
950 グラフィックスアダプタ
954 ネットワークインターフェース
955 クラウドコンピューティング環境

Claims (10)

  1. ビデオストリームを復号するための方法であって、
    同じ時間的サブレイヤの第1の複数のピクチャを含む、前記ビデオストリームの以前に復号されたピクチャを、ピクチャバッファに記憶するステップであって、前記第1の複数のピクチャは、前記ビデオストリームの現在のピクチャを予測するための少なくとも1つのサブレイヤ参照ピクチャを含前記ピクチャバッファに記憶されている前記以前に復号されたピクチャは、参照ピクチャである第2のピクチャを含む、ステップと、
    ネットワーク抽象レイヤ(NAL)ユニットタイプに基づいて、前記第1の複数のピクチャのうちのピクチャがサブレイヤ非参照(「SLNR」)ピクチャであるかどうかを決定するステップと、
    前記ピクチャが前記SLNRピクチャであると決定されたことに基づいて、前記ピクチャバッファから前記SLNRピクチャを除去するステップと、
    前記第2のピクチャの前記時間的サブレイヤの値が所定の値より大きいかどうかを決定するステップと、
    前記所定の値を最高の時間的サブレイヤ識別番号に対応する値と比較するステップと、
    前記ピクチャバッファから前記SLNRピクチャを除去した後に前記ピクチャバッファ内に記憶されている前記少なくとも1つのサブレイヤ参照ピクチャのうちの1つまたは複数を使用して前記現在のピクチャを予測するステップと
    を含み、
    前記第2のピクチャの前記時間的サブレイヤの前記値が前記所定の値より大きいかどうか決定する前記ステップは、前記所定の値が前記最高の時間的サブレイヤ識別番号に対応する前記値と等しくないと決定されることに基づいて生じる、方法。
  2. 前記ピクチャが前記SLNRピクチャであると決定されたことに基づいて、前記SLNRピクチャであると決定された前記ピクチャの識別子を提供するステップ
    をさらに含み、
    除去する前記ステップが、前記識別子に基づいて前記ピクチャを前記ピクチャバッファから除去するステップを含む、
    請求項1に記載の方法。
  3. 前記第1の複数のピクチャの各々のエントリを含む参照ピクチャリストを形成するステップ
    をさらに含み、
    前記識別子を提供する前記ステップが、前記SLNRピクチャであると決定された前記ピクチャに対応する前記参照ピクチャリストの前記エントリに前記識別子を提供するステップを含む、
    請求項2に記載の方法。
  4. 記方法が、
    記第2のピクチャの前記時間的サブレイヤの前記値が前記所定の値より大きいと決定することに基づいて、前記ピクチャバッファから前記第2のピクチャを除去するステッ
    をさらに含む、請求項1から3のいずれか一項に記載の方法。
  5. 前記第2のピクチャの前記時間的サブレイヤの前記値が前記所定の値より大きいと決定することに基づいて、前記第2のピクチャの識別子を提供するステップ
    をさらに含み、
    前記第2のピクチャを除去する前記ステップが、前記識別子に基づいて前記ピクチャバッファから前記第2のピクチャを除去するステップを含む、
    請求項4に記載の方法。
  6. 前記現在のピクチャがイントラ・ランダム・アクセス・ポイント(IRAP)ピクチャであるかどうかを決定するステップと、
    ランダム・アクセス・スキップ・リーディング(「RASL」)ピクチャの出力がないことをフラグが示すかどうかを決定するステップと、
    前記現在のピクチャが前記IRAPピクチャであると決定されるかどうか、および前記フラグが前記RASLピクチャの出力がないことを示すと決定されるかどうかに基づいて、前記ピクチャバッファに記憶されている各参照ピクチャにそれぞれの識別子を設定するかどうかを決定するステップであって、前記各参照ピクチャの前記それぞれの識別子は、前記各参照ピクチャが前記ピクチャバッファから除去されるべきかどうかを示す、ステップと
    をさらに含む、請求項5に記載の方法。
  7. 前記第2のピクチャの前記時間的サブレイヤの前記値が、前記ピクチャバッファに記憶されている前記第1の複数のピクチャの前記時間的サブレイヤの値よりも大きい、
    請求項4に記載の方法。
  8. 参照ピクチャリストによって参照されていないピクチャに基づいて、前記参照ピクチャリストによって参照されない前記ピクチャを前記ピクチャバッファから除去するステップ
    をさらに含む、請求項4に記載の方法。
  9. 請求項1から8のいずれか一項に記載の方法を実行するように構成されたデコーダ。
  10. 少なくとも1つのプロセッサに請求項1から8のいずれか一項に記載の方法を実行させるプログラム。
JP2021540209A 2019-03-15 2020-03-12 ビデオ符号化のための復号されたピクチャバッファ管理 Active JP7250934B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023045837A JP2023088998A (ja) 2019-03-15 2023-03-22 ビデオ符号化のための復号されたピクチャバッファ管理

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962819460P 2019-03-15 2019-03-15
US62/819,460 2019-03-15
US16/815,710 2020-03-11
US16/815,710 US10986353B2 (en) 2019-03-15 2020-03-11 Decoded picture buffer management for video coding
PCT/US2020/022264 WO2020190616A1 (en) 2019-03-15 2020-03-12 Decoded picture buffer management for video coding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023045837A Division JP2023088998A (ja) 2019-03-15 2023-03-22 ビデオ符号化のための復号されたピクチャバッファ管理

Publications (2)

Publication Number Publication Date
JP2022515557A JP2022515557A (ja) 2022-02-18
JP7250934B2 true JP7250934B2 (ja) 2023-04-03

Family

ID=72422814

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021540209A Active JP7250934B2 (ja) 2019-03-15 2020-03-12 ビデオ符号化のための復号されたピクチャバッファ管理
JP2023045837A Pending JP2023088998A (ja) 2019-03-15 2023-03-22 ビデオ符号化のための復号されたピクチャバッファ管理

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023045837A Pending JP2023088998A (ja) 2019-03-15 2023-03-22 ビデオ符号化のための復号されたピクチャバッファ管理

Country Status (9)

Country Link
US (3) US10986353B2 (ja)
EP (1) EP3939299A4 (ja)
JP (2) JP7250934B2 (ja)
KR (2) KR102569959B1 (ja)
CN (2) CN113545066B (ja)
AU (2) AU2020241507B2 (ja)
CA (2) CA3132986A1 (ja)
SG (1) SG11202109670QA (ja)
WO (1) WO2020190616A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4336832A3 (en) 2018-08-17 2024-05-22 Huawei Technologies Co., Ltd. Reference picture management in video coding
US20220224927A1 (en) * 2021-01-14 2022-07-14 Samsung Electronics Co., Ltd. Video decoding apparatus and video decoding method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015137432A1 (ja) 2014-03-14 2015-09-17 シャープ株式会社 画像復号装置、及び画像復号方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070086521A1 (en) * 2005-10-11 2007-04-19 Nokia Corporation Efficient decoded picture buffer management for scalable video coding
CN104919803B (zh) * 2013-01-15 2017-09-12 华为技术有限公司 一种用于解码视频比特流的方法
PL3119089T3 (pl) * 2013-01-16 2018-11-30 Telefonaktiebolaget Lm Ericsson (Publ) Dekoder i koder do kodowania sekwencji wideo
KR102383006B1 (ko) * 2013-04-07 2022-04-04 돌비 인터네셔널 에이비 출력 계층 세트들에서의 시그널링 변경
US10212435B2 (en) * 2013-10-14 2019-02-19 Qualcomm Incorporated Device and method for scalable coding of video information
WO2015082763A1 (en) * 2013-12-02 2015-06-11 Nokia Technologies Oy Video encoding and decoding
US20170026655A1 (en) * 2014-01-02 2017-01-26 Sharp Kabushiki Kaisha Parameter set signaling
JP2017522792A (ja) * 2014-06-18 2017-08-10 シャープ株式会社 スライス・タイプおよびデコーダ適合性
CN111432220B (zh) 2014-06-19 2022-05-06 Vid拓展公司 采用块向量导出的帧内块复制编码的方法和系统
US9866851B2 (en) * 2014-06-20 2018-01-09 Qualcomm Incorporated Full picture order count reset for multi-layer codecs
GB2534591A (en) 2015-01-29 2016-08-03 Nokia Technologies Oy Video encoding and decoding
CN108322754A (zh) 2017-01-16 2018-07-24 联发科技股份有限公司 编码方法与相对应的编码器以及解码器
US11012686B2 (en) 2019-03-08 2021-05-18 Tencent America LLC Unified block vector prediction for intra picture block compensation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015137432A1 (ja) 2014-03-14 2015-09-17 シャープ株式会社 画像復号装置、及び画像復号方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BROSS, Benjamin et al.,Versatile Video Coding (Draft 4),Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 13th Meeting: Marrakech, MA, 9-18 Jan. 2019, [JVET-M1001-v6],JVET-M1001 (version 6),ITU-T,2019年03月09日,<URL:http://phenix.it-sudparis.eu/jvet/doc_end_user/documents/13_Marrakech/wg11/JVET-M1001-v6.zip>: JVET-M1001-v6.docx: pp. 99-101
CHOI, Byeongdoo et al.,AHG17: On decoded picture buffer management,Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 March 2019, [JVET-N0058],JVET-N0058 (version 1),ITU-T,2019年03月16日,<URL:http://phenix.it-sudparis.eu/jvet/doc_end_user/documents/14_Geneva/wg11/JVET-N0058-v1.zip>: JVET-N0058.docx: pp. 1-5
CHOI, Byeongdoo et al.,MV-HEVC/SHVC HLS: On inter-layer dependency signalling,Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 15th Meeting: Geneva, CH, 23 Oct. - 1 Nov. 2013, [JCTVC-O0138r1],JCTVC-O0138 (version 2),ITU-T,2013年10月21日,<URL:http://phenix.it-sudparis.eu/jct/doc_end_user/documents/15_Geneva/wg11/JCTVC-O0138-v2.zip>: JCTVC-O0138r1.doc.doc: pp.1-7
SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMS Infrastructure of audiovisual services - Coding of moving video,Recommendation ITU-T H.265 (04/2015) High efficiency video coding,ITU-T,2015年07月09日,pp.12,62-65,110-114,253,<URL:https://www.itu.int/rec/dologin.asp?lang=e&id=T-REC-H.265-201504-S!!PDF-E&type=items>
SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMS Infrastructure of audiovisual services - Coding of moving video,Recommendation ITU-T H.265 (04/2015) High efficiency video coding,pp. 62-65, 253,ITU-T,2015年07月09日,<URL:https://www.itu.int/rec/dologin.asp?lang=e&id=T-REC-H.265-201504-S!!PDF-E&type=items>

Also Published As

Publication number Publication date
JP2022515557A (ja) 2022-02-18
CN113545066B (zh) 2024-03-08
KR20210107893A (ko) 2021-09-01
JP2023088998A (ja) 2023-06-27
US20210203962A1 (en) 2021-07-01
EP3939299A4 (en) 2023-01-11
US11516486B2 (en) 2022-11-29
SG11202109670QA (en) 2021-10-28
CN113545066A (zh) 2021-10-22
KR20230125347A (ko) 2023-08-29
US20230013580A1 (en) 2023-01-19
AU2023285834A1 (en) 2024-01-18
US20200296392A1 (en) 2020-09-17
EP3939299A1 (en) 2022-01-19
AU2020241507B2 (en) 2023-09-28
CN118075456A (zh) 2024-05-24
CA3223378A1 (en) 2020-09-24
WO2020190616A1 (en) 2020-09-24
CA3132986A1 (en) 2020-09-24
AU2020241507A1 (en) 2021-09-30
US10986353B2 (en) 2021-04-20
KR102569959B1 (ko) 2023-08-23

Similar Documents

Publication Publication Date Title
KR102648248B1 (ko) 랜덤 액세스 포인트 및 픽처 유형의 식별 방법
CN115499653A (zh) 一种视频编解码方法和相关装置
JP7177179B2 (ja) 簡略化された最確モードリスト生成スキーム
JP7297089B2 (ja) コード化ピクチャにおける混合nalユニット・タイプをサポートする方法、システム及びコンピュータ・プログラム
JP7177270B2 (ja) ネットワーク抽象化ユニットヘッダからのタイルの識別化
US20230013580A1 (en) Decoded picture buffer management for video coding
JP7254188B2 (ja) 点群符号化のためのパラメータセット設計の方法並びにその装置及びプログラム
US20230075516A1 (en) System and method for decoding including network abstraction layer unit structure with picture header
JP7237410B2 (ja) ビデオビットストリームにおけるピクチャサイズおよび分割情報の効率的なシグナリングのための方法、装置、およびコンピュータプログラム
CN113491128B (zh) 已解码图片存储器管理的方法和相关装置
RU2787711C1 (ru) Управление буфером декодированных изображений для кодирования видеосигналов
JP2022553055A (ja) 推定ビデオ・パラメータ・セットに基づく復号化のためのシステム及び方法
JP2024516010A (ja) Dashにおけるvvcサブピクチャに注釈を付ける方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210709

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210709

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230322

R150 Certificate of patent or registration of utility model

Ref document number: 7250934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150