JP6301467B2 - Cross-layer parallel processing and offset delay parameters for video coding - Google Patents

Cross-layer parallel processing and offset delay parameters for video coding Download PDF

Info

Publication number
JP6301467B2
JP6301467B2 JP2016527021A JP2016527021A JP6301467B2 JP 6301467 B2 JP6301467 B2 JP 6301467B2 JP 2016527021 A JP2016527021 A JP 2016527021A JP 2016527021 A JP2016527021 A JP 2016527021A JP 6301467 B2 JP6301467 B2 JP 6301467B2
Authority
JP
Japan
Prior art keywords
location
layer
video
block
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016527021A
Other languages
Japanese (ja)
Other versions
JP2016530774A (en
JP2016530774A5 (en
Inventor
ラパカ、クリシュナカンス
ワン、イェ−クイ
ラマスブラモニアン、アダルシュ・クリシュナン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2016530774A publication Critical patent/JP2016530774A/en
Publication of JP2016530774A5 publication Critical patent/JP2016530774A5/ja
Application granted granted Critical
Publication of JP6301467B2 publication Critical patent/JP6301467B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

[0001] 本出願は、その内容全体が参照により本明細書に組み込まれる、2013年7月15日に出願された米国仮出願第61/846,570号の利益を主張する。   [0001] This application claims the benefit of US Provisional Application No. 61 / 846,570, filed July 15, 2013, the entire contents of which are hereby incorporated by reference.

[0002] 本開示は、ビデオコーディングに関する。   [0002] The present disclosure relates to video coding.

[0003] デジタルビデオ機能は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末(PDA)、ラップトップコンピュータまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、携帯電話または衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、広範囲にわたるデバイスに組み込まれ得る。デジタルビデオデバイスは、MPEG−2、MPEG−4、ITU−T H.263、ITU−T H.264/MPEG−4、Part 10、アドバンストビデオコーディング(AVC:Advanced Video Coding)、現在開発中の高効率ビデオコーディング(HEVC)規格によって定義された規格、およびそのような規格の拡張に記載されているビデオ圧縮技法など、ビデオ圧縮技法を実装する。ビデオデバイスは、そのようなビデオコーディング技法を実装することによって、デジタルビデオ情報をより効率的に送信、受信、符号化、復号、および/または記憶し得る。   [0003] Digital video functions include digital television, digital direct broadcast system, wireless broadcast system, personal digital assistant (PDA), laptop computer or desktop computer, tablet computer, electronic book reader, digital camera, digital recording device, digital It can be incorporated into a wide range of devices, including media players, video game devices, video game consoles, cell phones or satellite radio phones, so-called “smartphones”, video teleconferencing devices, video streaming devices, and the like. Digital video devices are MPEG-2, MPEG-4, ITU-T H.264, and so on. 263, ITU-TH. H.264 / MPEG-4, Part 10, Advanced Video Coding (AVC), standards defined by the currently developing High Efficiency Video Coding (HEVC) standard, and extensions of such standards Implement video compression techniques, such as video compression techniques. A video device may more efficiently transmit, receive, encode, decode, and / or store digital video information by implementing such video coding techniques.

[0004] ビデオコーディング技法は、ビデオシーケンスに固有の冗長性を低減または除去するための空間的(イントラピクチャ)予測および/または時間的(インターピクチャ)予測を含む。ブロックベースのビデオコーディングの場合、ビデオスライス(たとえば、ビデオフレームまたはビデオフレームの一部分)が、ツリーブロック、コーディングユニット(CU)および/またはコーディングノードと呼ばれることもあるビデオブロックに区分され得る。ピクチャのイントラコーディングされた(I)スライス内のビデオブロックは、同じピクチャにおける隣接ブロック内の参照サンプルに対する空間的予測を使用して符号化される。ピクチャのインターコード化(PまたはB)スライス内のビデオブロックは、同じピクチャの中の隣接ブロック内の参照サンプルに対する空間的予測、または他の参照ピクチャ(reference picture)の中の参照サンプルに対する時間的予測を使用することができる。ピクチャはフレームと呼ばれることがあり、参照ピクチャは参照フレームと呼ばれることがある。   [0004] Video coding techniques include spatial (intra-picture) prediction and / or temporal (inter-picture) prediction to reduce or remove redundancy inherent in video sequences. For block-based video coding, a video slice (eg, a video frame or a portion of a video frame) may be partitioned into video blocks, sometimes referred to as tree blocks, coding units (CUs) and / or coding nodes. Video blocks within an intra-coded (I) slice of a picture are encoded using spatial prediction on reference samples in adjacent blocks in the same picture. A video block in an inter-coded (P or B) slice of a picture can be spatially predicted for reference samples in neighboring blocks in the same picture, or temporal in reference to reference samples in other reference pictures. Prediction can be used. A picture may be referred to as a frame, and a reference picture may be referred to as a reference frame.

[0005] 空間的予測または時間的予測は、コーディングされるべきブロックの予測ブロックを生じる。残差データは、コーディングされるべき元のブロックと予測ブロックとの間のピクセル差分を表す。インターコーディングされたブロックは、予測ブロックを形成する参照サンプルのブロックを指す動きベクトル、およびコーディングされたブロックと予測ブロックとの間の差分(difference)を示す残差データ(residual data)に従って符号化される。イントラコード化ブロックは、イントラコーディングモードと残差データとに従って符号化される。さらなる圧縮のために、残差データは、ピクセル領域から変換領域に変換されて残差変換係数をもたらすことができ、その残差変換係数が、次いで量子化され得る。最初に2次元アレイで構成される量子化変換係数は、変換係数の1次元ベクトルを生成するために走査されてよく、なお一層の圧縮を達成するためにエントロピーコーディングが適用されてよい。   [0005] Spatial or temporal prediction results in a predictive block of a block to be coded. The residual data represents the pixel difference between the original block to be coded and the prediction block. The intercoded block is encoded according to a motion vector that points to the block of reference samples that form the prediction block, and residual data that indicates the difference between the coded block and the prediction block. The The intra-coded block is encoded according to the intra-coding mode and residual data. For further compression, the residual data can be transformed from the pixel domain to the transform domain to yield residual transform coefficients, which can then be quantized. The quantized transform coefficients initially composed of a two-dimensional array may be scanned to generate a one-dimensional vector of transform coefficients and entropy coding may be applied to achieve even further compression.

[0006] 概して、本開示は、ビデオコーディングの並列処理ための技法を説明する。たとえば、本開示は、高効率ビデオコーディング(HEVC)規格のマルチレイヤ拡張を含む、マルチレイヤビデオコーディング処理における並列処理のための技法を説明する。本開示の技法はまた、マルチビューHEVC(MV−HEVC)などの他のマルチレイヤビデオコーディング規格およびそのような規格の拡張に適用され得る。いくつかの例では、技法は、オフセット遅延情報(offset delay information)などの、複数のレイヤを並列に処理するための情報をビデオパラメータセット(VPS:video parameter set)の中でシグナリングすることを含む。技法はまた、タイル整列情報(tile alignment information)などの、複数のレイヤを並列に処理するための情報をシグナリングすることを、または含み得る。態様はまた、マルチレイヤビデオコーディングにおいて、配列されたブロックのロケーションを決定するための技法に関し得る。   [0006] In general, this disclosure describes techniques for parallel processing of video coding. For example, this disclosure describes techniques for parallel processing in a multi-layer video coding process, including multi-layer extensions of the High Efficiency Video Coding (HEVC) standard. The techniques of this disclosure may also be applied to other multi-layer video coding standards such as multi-view HEVC (MV-HEVC) and extensions to such standards. In some examples, the techniques include signaling information in a video parameter set (VPS) for processing multiple layers in parallel, such as offset delay information. . The technique may also include or include signaling information for processing multiple layers in parallel, such as tile alignment information. Aspects can also relate to techniques for determining the location of arranged blocks in multi-layer video coding.

[0007] 一例では、ビデオデータを復号する方法は、マルチレイヤビットストリーム(multi-layer bitstream)のビデオパラメータセット(VPS)から、マルチレイヤビットストリームの任意のレイヤがレイヤ間予測制約(inter-layer prediction restriction)を有するかどうかを示すデータ、またはタイル境界(tile boundary)がマルチレイヤビットストリームのレイヤのうちの少なくとも2つの間で整列されている(aligned)かどうかを示すデータのうちの、少なくとも1つを復号することと、VPSから復号されたデータに従って、マルチレイヤビットストリームを復号することとを含む。   [0007] In one example, a method of decoding video data includes a multi-layer bitstream video parameter set (VPS), wherein any layer of the multi-layer bitstream is subject to inter-layer prediction constraints (inter-layer at least of data indicating whether there is a prediction restriction, or data indicating whether a tile boundary is aligned between at least two of the layers of the multi-layer bitstream Decoding one and decoding the multi-layer bitstream according to the data decoded from the VPS.

[0008] 別の例では、ビデオデータを符号化する方法は、マルチレイヤビットストリームのビデオパラメータセット(VPS)の中で、マルチレイヤビットストリームの任意のレイヤがレイヤ間予測制約を有するかどうかを示すデータ、またはタイル境界がマルチレイヤビットストリームのレイヤのうちの少なくとも2つの間で整列されているかどうかを示すデータのうちの、少なくとも1つを符号化することと、VPSの中で符号化されるデータに従って、マルチレイヤビットストリームを符号化することとを含む。   [0008] In another example, a method for encoding video data includes determining whether any layer of a multi-layer bitstream has inter-layer prediction constraints within a multi-layer bitstream video parameter set (VPS). Encoding at least one of the indicating data, or data indicating whether the tile boundary is aligned between at least two of the layers of the multi-layer bitstream, and encoded in the VPS Encoding the multi-layer bitstream according to the data to be transmitted.

[0009] 別の例では、ビデオコーディングを実行する装置は、ビデオデータを記憶するメモリと、マルチレイヤビットストリームの任意のレイヤがレイヤ間予測制約を有するかどうかを示すデータ、またはタイル境界がマルチレイヤビットストリームのレイヤのうちの少なくとも2つの間で整列されているかどうかを示すデータのうちの、少なくとも1つをコーディングすることを含む、マルチレイヤビットストリームのビデオパラメータセット(VPS)のデータをコーディングすることと、VPSのデータに従って、マルチレイヤビットストリームをコーディングすることとを行うように構成されたビデオコーダとを含む。   [0009] In another example, an apparatus that performs video coding includes a memory that stores video data, data indicating whether any layer of the multi-layer bitstream has inter-layer prediction constraints, or multi-tile boundaries. Coding video parameter set (VPS) data of a multi-layer bitstream comprising coding at least one of data indicating whether it is aligned between at least two of the layers of the layer bitstream And a video coder configured to code the multi-layer bitstream according to the VPS data.

[0010] 別の例では、ビデオコーディングを実行する装置は、マルチレイヤビットストリームの任意のレイヤがレイヤ間予測制約を有するかどうかを示すデータ、またはタイル境界がマルチレイヤビットストリームのレイヤのうちの少なくとも2つの間で整列されているかどうかを示すデータのうちの少なくとも1つを含む、マルチレイヤビットストリームのビデオパラメータセット(VPS)のデータをコーディングするための手段と、VPSのデータに従って、マルチレイヤビットストリームをコーディングするための手段とを含む。   [0010] In another example, an apparatus that performs video coding includes data indicating whether any layer of a multi-layer bitstream has inter-layer prediction constraints, or a tile boundary of layers of a multi-layer bitstream Means for coding video parameter set (VPS) data of a multi-layer bitstream comprising at least one of data indicating whether or not aligned between at least two and multi-layer according to the data of the VPS Means for coding the bitstream.

[0011] 別の例では、非一時的コンピュータ可読媒体は、実行されたとき、ビデオコーダに、マルチレイヤビットストリームの任意のレイヤがレイヤ間予測制約を有するかどうかを示すデータ、またはタイル境界がマルチレイヤビットストリームのレイヤのうちの少なくとも2つの間で整列されているかどうかを示すデータのうちの、少なくとも1つをコーディングすることを含む、マルチレイヤビットストリームのビデオパラメータセット(VPS)のデータをコーディングすることと、VPSのデータに従って、マルチレイヤビットストリームをコーディングすることとを行わせる命令を記憶する。   [0011] In another example, a non-transitory computer readable medium, when executed, has data indicating to a video coder whether any layer of a multi-layer bitstream has inter-layer prediction constraints, or tile boundaries. Video parameter set (VPS) data for a multi-layer bitstream comprising coding at least one of data indicating whether it is aligned between at least two of the layers of the multi-layer bitstream Instructions that cause coding and coding of the multi-layer bitstream according to the VPS data are stored.

[0012] 別の例では、ビデオデータを復号する方法は、ビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを、1つまたは複数のスケーリングされたオフセット値に基づいて決定することと、ここにおいて、参照ピクチャは、マルチレイヤビットストリームの第1のレイヤの中に含まれ、1つまたは複数のスケーリングされたオフセット値は、第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す、第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを、参照サンプルのロケーションに基づいて決定することと、前記配列された参照ブロックに関連して第2のレイヤの中のビデオデータの現在のブロックを復号することとを含む。   [0012] In another example, a method of decoding video data includes determining a location of a reference sample associated with a reference picture of video data based on one or more scaled offset values; The reference picture is included in the first layer of the multi-layer bitstream, and the one or more scaled offset values are the difference in scale between the first layer and the second different layer Determining the location of the arranged reference block of video data in the first layer based on the location of the reference sample, and in the second layer in relation to the arranged reference block Decoding a current block of video data.

[0013] 別の例では、ビデオデータを符号化する方法は、ビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを、1つまたは複数のスケーリングされたオフセット値に基づいて決定することと、ここにおいて、参照ピクチャは、マルチレイヤビットストリームの第1のレイヤの中に含まれ、1つまたは複数のスケーリングされたオフセット値は、第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す、第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを、参照サンプルのロケーションに基づいて決定することと、前記配列された参照ブロックに関連して第2のレイヤの中のビデオデータの現在のブロックを符号化することとを含む。   [0013] In another example, a method of encoding video data includes determining a location of a reference sample associated with a reference picture of video data based on one or more scaled offset values; Here, the reference picture is included in the first layer of the multi-layer bitstream and the one or more scaled offset values are scaled between the first layer and the second different layer. Determining a location of an arrayed reference block of video data in the first layer indicative of the difference based on a location of the reference sample; and in a second layer relative to the arrayed reference block Encoding the current block of video data therein.

[0014] 別の例では、ビデオコーディングを実行する装置は、ビデオデータを記憶するメモリと、ビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを、1つまたは複数のスケーリングされたオフセット値に基づいて決定することと、ここにおいて、参照ピクチャは、マルチレイヤビットストリームの第1のレイヤの中に含まれ、1つまたは複数のスケーリングされたオフセット値は、第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す、参照サンプルのロケーションに基づいて第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを決定することと、配列された参照ブロックに関連して第2のレイヤの中のビデオデータの現在のブロックをコーディングすることとを行うように構成されたビデオコーダとを含む。   [0014] In another example, an apparatus that performs video coding includes a memory that stores video data and a location of reference samples associated with a reference picture of the video data to one or more scaled offset values. And determining, where the reference picture is included in the first layer of the multi-layer bitstream, and the one or more scaled offset values are second different from the first layer Determining the location of the arranged reference block of video data in the first layer based on the location of the reference sample, indicating a scale difference from the layer, and in relation to the arranged reference block Coding a current block of video data in the second layer. It has been and a video coder.

[0015] 別の例では、ビデオコーディングを実行する装置は、ビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを、1つまたは複数のスケーリングされたオフセット値に基づいて決定するための手段と、ここにおいて、参照ピクチャは、マルチレイヤビットストリームの第1のレイヤの中に含まれ、1つまたは複数のスケーリングされたオフセット値は、第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す、第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを、参照サンプルのロケーションに基づいて決定するための手段と、前記配列された参照ブロックに対して第2のレイヤの中のビデオデータの現在のブロックをコーディングするための手段とを含む。   [0015] In another example, an apparatus for performing video coding comprises: means for determining a location of a reference sample associated with a reference picture of video data based on one or more scaled offset values; , Where the reference picture is included in the first layer of the multi-layer bitstream, and the one or more scaled offset values are scaled between the first layer and the second different layer. Means for determining an arrayed reference block location of the video data in the first layer based on the location of the reference sample, indicating a difference between the second layer with respect to the arrayed reference block Means for coding a current block of video data in the layer.

[0016] 別の例では、非一時的コンピュータ可読媒体は、実行されたとき、ビデオコーダに、ビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを、1つまたは複数のスケーリングされたオフセット値に基づいて決定することと、ここにおいて、参照ピクチャは、マルチレイヤビットストリームの第1のレイヤの中に含まれ、1つまたは複数のスケーリングされたオフセット値は、第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す、第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを、参照サンプルのロケーションに基づいて決定することと、前記配列された参照ブロックに対して第2のレイヤの中のビデオデータの現在のブロックをコーディングすることとを行わせる命令を記憶する。   [0016] In another example, a non-transitory computer readable medium, when executed, causes a video coder to transmit a reference sample location associated with a reference picture of video data to one or more scaled offset values. And wherein the reference picture is included in the first layer of the multi-layer bitstream, and the one or more scaled offset values are determined by the first layer and the second layer Determining an arrayed reference block location of the video data in the first layer, indicating a scale difference between different layers, based on the location of the reference sample; Instructions for coding the current block of video data in the second layer Memory to.

[0017] 本開示の1つまたは複数の例の詳細が、添付の図面および以下の説明に記載されている。本開示の他の特徴、目的、および利点は、その説明および図面から、ならびに特許請求の範囲から明らかになろう。   [0017] The details of one or more examples of the disclosure are set forth in the accompanying drawings and the description below. Other features, objects, and advantages of the disclosure will be apparent from the description and drawings, and from the claims.

[0018] ビデオデータを並列に処理するための技法を利用し得る例示的なビデオ符号化および復号システムを示すブロック図。[0018] FIG. 1 is a block diagram illustrating an example video encoding and decoding system that may utilize techniques for processing video data in parallel. [0019] ビデオデータを並列に処理するための技法を実装し得るビデオエンコーダの一例を示すブロック図。[0019] FIG. 7 is a block diagram illustrating an example of a video encoder that may implement techniques for processing video data in parallel. [0020] ビデオデータを並列に処理するための技法を実装し得るビデオデコーダの一例を示すブロック図。[0020] FIG. 7 is a block diagram illustrating an example of a video decoder that may implement techniques for processing video data in parallel. [0021] スケーラブルビデオコーディング(SVC)のための様々なスケーラブルな次元を示す概念図。[0021] FIG. 7 is a conceptual diagram illustrating various scalable dimensions for scalable video coding (SVC). [0022] SVCコーディング構造の一例を示す概念図。[0022] FIG. 3 is a conceptual diagram illustrating an example of an SVC coding structure. [0023] 例示的なアクセスユニット(AU)を示す概念図。[0023] FIG. 5 is a conceptual diagram illustrating an example access unit (AU). [0024] 高効率ビデオコーディング(HEVC)規格による例示的なタイルを示す概念図。[0024] FIG. 5 is a conceptual diagram illustrating an example tile according to the High Efficiency Video Coding (HEVC) standard. [0025] 波面並列処理(WPP:wavefront parallel processing)に対する波面を示す概念図。[0025] FIG. 5 is a conceptual diagram showing a wavefront for wavefront parallel processing (WPP). [0026] 配列された参照レイヤ領域を有しないエンハンスメントレイヤ領域を示す概念図。[0026] FIG. 5 is a conceptual diagram showing an enhancement layer region that does not have an arrayed reference layer region. [0027] 配列された参照レイヤ領域を有しないエンハンスメントレイヤ領域を示す別の概念図。[0027] FIG. 10 is another conceptual diagram showing an enhancement layer region that does not have an arranged reference layer region. [0028] マルチレイヤビデオコーディングにおいてオフセット遅延情報を決定するための例示的なプロセスを示す流れ図。[0028] FIG. 7 is a flow diagram illustrating an example process for determining offset delay information in multi-layer video coding. マルチレイヤビデオコーディングにおいてオフセット遅延情報を決定するための例示的なプロセスを示す流れ図。6 is a flow diagram illustrating an example process for determining offset delay information in multi-layer video coding. [0029] マルチレイヤビデオコーディングにおいてビデオデータの配列されたブロックを決定するための例示的なプロセスを示す流れ図。[0029] FIG. 7 is a flow diagram illustrating an example process for determining an ordered block of video data in multi-layer video coding. [0030] マルチレイヤビデオコーディングにおいてタイル整列情報を決定するための例示的なプロセスを示す流れ図。[0030] FIG. 7 is a flow diagram illustrating an example process for determining tile alignment information in multi-layer video coding.

[0031] 本開示の態様は、ビデオコーディングにおけるクロスレイヤ並列処理およびオフセット遅延パラメータと関連した様々な技法に関し得る。いくつかの事例では、技法は、HEVCに対するマルチビュービデオコーディング拡張(MV−HEVC)またはHEVCに対するスケーラブルビデオコーディング(SVC)拡張(SHVC)などの、高効率ビデオコーディング(HEVC)規格に対するマルチレイヤ拡張とともに実行され得る。技法はまた、HEVCに対する他の拡張、他のスケーラブルコーディング規格、他のマルチビューコーディング規格(深度コンポーネントを伴う、または伴わない)および/または他のマルチレイヤビデオコーデックとともに使用され得る。本開示の技法がいかなる特定のビデオコーディング規格にも限定されないことを理解されたい。加えて、本開示の技法のいずれかが、独立にまたは組み合わせて適用され得ることを理解されたい。   [0031] Aspects of the disclosure may relate to various techniques associated with cross-layer parallel processing and offset delay parameters in video coding. In some cases, the technique is in conjunction with a multi-layer extension to a high efficiency video coding (HEVC) standard, such as a multi-view video coding extension for HEVC (MV-HEVC) or a scalable video coding (SVC) extension for HEVC (SHVC). Can be executed. The techniques may also be used with other extensions to HEVC, other scalable coding standards, other multi-view coding standards (with or without depth components) and / or other multi-layer video codecs. It should be understood that the techniques of this disclosure are not limited to any particular video coding standard. In addition, it should be understood that any of the techniques of this disclosure may be applied independently or in combination.

[0032] 以下でより詳細に説明するように、本開示の態様は、クロスレイヤ並列処理のオフセット遅延パラメータのシグナリングに関する改善を含み得る。「オフセット遅延(offset delay)」は、一般に、複数のレイヤを並列に処理(たとえば、符号化または復号)することと関連した遅延を指す場合がある。たとえば、ビデオデコーダは、マルチレイヤビットストリームの2つ以上のレイヤを並列に復号し得る(すなわち、ビデオデコーダは、マルチレイヤビットストリームの複数のレイヤを同時にまたは同期的に復号し得る)。しかしながら、現在のレイヤを復号するためにレイヤ間予測技法を使用するとき、ビデオデコーダは、現在のレイヤと異なる参照レイヤ(reference layer)の参照データにアクセスすることがある。現在のレイヤを復号するためのレイヤ間の参照として使用されるために、参照データが利用可能で(たとえば、復号され)なければならない。したがって、一般に、ビデオデコーダは、参照レイヤのうちの1つまたは複数を参照するレイヤを復号する前に、マルチレイヤ復号方式におけるすべての参照レイヤの復号を確定する。   [0032] As described in more detail below, aspects of this disclosure may include improvements related to signaling of offset delay parameters for cross-layer parallel processing. “Offset delay” may generally refer to the delay associated with processing (eg, encoding or decoding) multiple layers in parallel. For example, a video decoder may decode two or more layers of a multi-layer bitstream in parallel (ie, the video decoder may decode multiple layers of the multi-layer bitstream simultaneously or synchronously). However, when using inter-layer prediction techniques to decode the current layer, the video decoder may access reference data in a reference layer that is different from the current layer. Reference data must be available (eg, decoded) to be used as a reference between layers for decoding the current layer. Thus, in general, a video decoder determines decoding of all reference layers in a multi-layer decoding scheme before decoding a layer that references one or more of the reference layers.

[0033] いくつかの事例では、並列性は、オフセット遅延情報と呼ばれる情報を実装することによって増大させることができる。すなわち、参照レイヤ全体が確定(たとえば、復号)されるのを待つのではなく、ビデオデコーダは、参照レイヤのうちの少なくともいくつかが復号されるまで、現在のレイヤの復号の開始を遅延させればよい。オフセット遅延は、一般に、ビデオデコーダが現在のレイヤの復号を開始する前に復号されるべき参照レイヤの最低限の量を示し得る。オフセット遅延を実装することは、参照レイヤおよび現在のレイヤの少なくとも部分が並列に復号されることを依然として可能にしながら、レイヤ間参照データが参照として使用されるために、確実に利用可能にさせる助けとなり得る。たとえば、並列デコーダは、規定された参照レイヤのオフセット遅延が達成されるとすぐに、エンハンスメントレイヤの復号を開始し得る。上記の例はビデオ復号(並列デコーダによって実行されるような)に関して説明されるが、類似の技法が並列な符号化の間にビデオエンコーダによって適用され得ることを理解されたい。   [0033] In some cases, parallelism can be increased by implementing information called offset delay information. That is, rather than waiting for the entire reference layer to be finalized (eg, decoded), the video decoder can delay the start of decoding the current layer until at least some of the reference layers are decoded. That's fine. The offset delay may generally indicate a minimum amount of reference layer that should be decoded before the video decoder starts decoding the current layer. Implementing offset delay helps to ensure that the inter-layer reference data is available for use as a reference, while still allowing at least a portion of the reference layer and the current layer to be decoded in parallel. Can be. For example, the parallel decoder may begin decoding the enhancement layer as soon as a defined reference layer offset delay is achieved. Although the above example is described with respect to video decoding (as performed by a parallel decoder), it should be understood that similar techniques can be applied by a video encoder during parallel encoding.

[0034] 一般的な意味では、テクスチャビューコンポーネント、深度ビューコンポーネント、ならびに様々な時間レイヤ、空間レイヤ、および品質レイヤは、本開示に関していくらか互換性があるものとして考えられ得る。たとえば、いくつかの事例では、コーディングされているマルチレイヤビットストリームが、テクスチャビューコンポーネント、深度ビューコンポーネント、または典型的にはスケーラブルビデオコーディングと関連したスケーラブルコンポーネント(たとえば、時間レイヤ、空間レイヤおよび/または品質レイヤ)を含むかどうかにかかわらず、ビデオコーダは、類似または同一のレイヤ間ビデオコーディング技法を実行し得る。したがって、本開示の技法は、一般的な意味で「レイヤ」に適用可能であると考えられ得、その場合、レイヤは、テクスチャビューコンポーネント、深度ビューコンポーネント、時間スケーラブルレイヤ、空間スケーラブルレイヤ、または品質スケーラブルレイヤのいずれかであり得る。すなわち、本明細書で説明される技法は、上述された用語として一般的な「レイヤ」に広く適用可能であることを理解されたい。   [0034] In a general sense, texture view components, depth view components, and various temporal, spatial, and quality layers may be considered somewhat compatible with this disclosure. For example, in some cases, a multi-layer bitstream being coded may be a texture view component, a depth view component, or a scalable component typically associated with scalable video coding (eg, temporal layer, spatial layer and / or Whether or not it includes a quality layer), the video coder may perform similar or identical inter-layer video coding techniques. Thus, the techniques of this disclosure may be considered applicable to a “layer” in a general sense, where a layer is a texture view component, a depth view component, a temporal scalable layer, a spatial scalable layer, or quality It can be any of the scalable layers. That is, it should be understood that the techniques described herein are widely applicable to the general “layer” as the term described above.

[0035] オフセット遅延のシグナリングのための1つの方式が、Skupinらへの文書「Inter−Layer Delay Indication in VUI」,JCTVC−M0463,Incheon,KR,2013年4月18〜26日(以後、JCTVC−M0463)の中で提案された。方式は、各レイヤについて最低限必要とされる復号遅延を伝達するシーケンスパラメータセット(SPS: sequence parameter set)のビデオユーザビリティ情報(VUI: video usability information)の中でオフセット遅延シンタックス要素(offset delay syntax element)をシグナリングすることによって、レイヤにわたって並列に復号する際の助けとなるように設計された。この方式のもとで、オフセット遅延によって規定された参照レイヤの中の領域が復号されるとすぐに、特定のレイヤの復号は開始することができる。   [0035] One scheme for offset delay signaling is the document "Inter-Layer Delay Indication in VUI" to Skupin et al., JCTVC-M0463, Incheon, KR, April 18-26, 2013 (hereinafter JCTVC -M0463). The method uses an offset delay syntax element (offset delay syntax element) in video usability information (VUI) of a sequence parameter set (SPS) that conveys a minimum required decoding delay for each layer. It was designed to aid in decoding in parallel across layers by signaling element). Under this scheme, decoding of a particular layer can begin as soon as a region in the reference layer defined by the offset delay is decoded.

[0036] しかしながら、JCTVC−M0463に開示された方式は、いくつかの欠点を有することがある。たとえば、SPSは、異なる識別値(たとえば、nuh_layer_idシンタックス要素によって示されるような)を有する複数のレイヤに関連付けられ得る。シンタックス要素num_ilp_restricted_ref_layersの提案されたセマンティック(JCTVC−M0463で導入された)は、SPSを参照する各レイヤについて、そのシンタックス要素の値がNumDirectRefLayersパラメータに等しくなるように制限する(ここで、NumDirectRefLayersパラメータは特定の直接参照レイヤを示す)。直接参照レイヤは、予測のために別のレイヤによって直接参照される。たとえば、参照としてレイヤBを使用する現在のレイヤAを仮定すると、参照レイヤBは直接参照レイヤと呼ばれてよい。参照としてレイヤCを使用するレイヤAを仮定し、レイヤCがレイヤBを参照する場合、レイヤBは間接参照レイヤと呼ばれてよい。   [0036] However, the scheme disclosed in JCTVC-M0463 may have several drawbacks. For example, an SPS may be associated with multiple layers having different identification values (eg, as indicated by the nuh_layer_id syntax element). The proposed semantic of the syntax element num_ilp_restricted_ref_layers (introduced in JCTVC-M0463) restricts the value of the syntax element for each layer that references the SPS to be equal to the NumDirectRefLayers parameter, where NumDirectRefRe parameters Indicates a specific direct reference layer). A direct reference layer is directly referenced by another layer for prediction. For example, assuming current layer A using layer B as a reference, reference layer B may be referred to as a direct reference layer. Assuming layer A that uses layer C as a reference, and layer C refers to layer B, layer B may be referred to as an indirect reference layer.

[0037] いずれの場合も、異なる値のNumDirectRefLayersパラメータを有する(所与のSPSを参照する)レイヤ(すなわち、シンタックス要素num_ilp_restricted_ref_layersのそれぞれの値が互いの間で異なるレイヤ)、またはわずかに異なるオフセット値を有し得る(所与のSPSを参照する)レイヤについて、シンタックス要素の提案されたシンタックス構造num_ilp_restricted_ref_layersは、SPS内の情報をこれらのレイヤ間で共有することを厳しく制限する。言い換えれば、別個のSPSは、異なる値のNumDirectRefLayersパラメータを所有するような各レイヤ、または所与のSPSを参照する他のレイヤに対してわずかに異なるオフセット値を有し得るような各レイヤのいずれかについて、シグナリングされる必要がある場合がある。したがって、オフセット遅延情報をSPSの中でシグナリングすることは、理想的でない場合がある。   [0037] In any case, layers with different values of NumDirectRefLayers parameter (referring to a given SPS) (ie, layers where each value of the syntax element num_ilp_restricted_ref_layers differs between each other) or slightly different offsets For layers that may have values (referring to a given SPS), the proposed syntax structure of syntax elements, num_ilp_restricted_ref_layers, severely limits the sharing of information in SPS between these layers. In other words, either a separate SPS may have each layer that has a different value of the NumDirectRefLayers parameter, or each layer that may have a slightly different offset value relative to other layers that reference a given SPS. May need to be signaled. Therefore, it may not be ideal to signal the offset delay information in the SPS.

[0038] 加えて、SPSの中のビデオパラメータセット(VPS)のパーシング依存性を回避するために、num_ilp_restricted_ref_layers(レイヤ間予測制約を有する特定の参照レイヤを示す)は、num_ilp_restricted_ref_layersの値がNumDirectRefLayers[nuh_layer_id]に等しくなければならないという制約を伴ってSPSの中でシグナリングされ、ここで、nuh_layer_idは、SPSを参照する任意のピクチャのnuh_layer_idである。言い換えれば、いくつかの参照レイヤは、異なるレイヤが場合によってはオフセット遅延に影響を及ぼし得る異なる特性を有するにもかかわらず、SPSの中に含まれる同じオフセット遅延情報を共有することを強制されることがある。   [0038] In addition, to avoid the parsing dependency of the video parameter set (VPS) in the SPS, num_ilp_restricted_ref_layers (indicating a specific reference layer with inter-layer prediction constraints) has a value of num_ilp_restricted_ref_layers with NumDirtyRefRefLyrefRef [ ], Where nuh_layer_id is the nuh_layer_id of any picture that references the SPS. In other words, some reference layers are forced to share the same offset delay information contained in the SPS, even though different layers have different characteristics that can potentially affect the offset delay. Sometimes.

[0039] 本開示の態様によれば、オフセット遅延情報は、2つ以上のレイヤによって参照され得るビデオパラメータセット(VPS)の中に含まれ得る。VPSは、サブレイヤ間の依存性を含む、コーディングされたビデオシーケンスの全特性を記述するデータを含み得る。VPSの1つの目的は、システムレイヤにおけるシグナリングに関して、特定の規格の互換性のある拡張性を可能にすることであり得る。VPSは、通常、復号されるべきビットストリームのためのマルチレイヤビットストリームの中に含まれなければならない。   [0039] According to aspects of this disclosure, offset delay information may be included in a video parameter set (VPS) that may be referenced by more than one layer. The VPS may include data that describes all characteristics of the coded video sequence, including dependencies between sublayers. One purpose of the VPS may be to allow compatible extensibility of certain standards for signaling at the system layer. The VPS must usually be included in a multi-layer bitstream for the bitstream to be decoded.

[0040] オフセット遅延情報をVPSの中に含めることによって、オフセット遅延情報は、各参照レイヤについて別個に規定され得る。そのようなシグナリングは、異なる特性を有する参照レイヤが同じオフセット遅延情報を共有することを強制されないので、効率を増大させ得る。加えて、オフセット遅延情報をVPSの中に含めることによって、シンタックス要素num_ilp_restricted_ref_layersの値は、復号の間に(以下でより詳細に説明するように)推測され得る(すなわち、明示的なシグナリングなしにデコーダによって決定され得る)。したがって、制約を有する参照レイヤの数のシグナリング(たとえば、上述したnum_ilp_restricted_ref_layersシンタックス要素)が、回避され得る。   [0040] By including the offset delay information in the VPS, the offset delay information may be defined separately for each reference layer. Such signaling may increase efficiency because reference layers with different characteristics are not forced to share the same offset delay information. In addition, by including offset delay information in the VPS, the value of the syntax element num_ilp_restricted_ref_layers can be inferred (ie, without explicit signaling) during decoding (as described in more detail below). Can be determined by the decoder). Accordingly, signaling of the number of reference layers with constraints (eg, the num_ilp_restricted_ref_layers syntax element described above) may be avoided.

[0041] 本開示の技法はまた、拡張された空間スケーラビリティマルチレイヤビデオコーディングを使用するときにビデオデータの配列されたブロックのロケーションを決定すること、および配列されたブロックと関連したオフセット遅延を決定することに、適用可能であり得る。以下でより詳細に説明するように、得られたサブストリームが、ターゲットにするデコーダによって復号可能な別の有効なビットストリームを形成する方法で、ストリームの部分が除去され得る場合、ビデオビットストリームは「スケーラブル(scalable)」であると呼ばれることがある。空間スケーラビリティに関して、ビットストリームのサブセットは、異なるピクチャサイズ(空間解像度)を有するソースコンテンツを表す。各空間レイヤでは、ビデオコーダは、動き補償された予測とイントラ予測とを、シングルレイヤコーディングのためのものと同じ方式で実施し得る。ただし、異なる空間解像度を同時放送することと比較してコーディング効率を改善するために、ビデオコーダは、レイヤ間予測のメカニズムを組み込み得る。空間スケーラブルビデオコーディングの最もフレキシブルなタイプは、連続したレイヤ間の2つの部分から成る関係(たとえば、2:1の解像度比)に厳密に忠実であるとは限らず、拡張された空間スケーラビリティ(ESS:Extended Spatial Scalability)と呼ばれることがある。H.264/AVCのSVC拡張とHEVCのSVC拡張の両方に対して、SVCに関するいくつかの詳細が、図4〜図9に関して以下で説明される。   [0041] The techniques of this disclosure also determine the location of the ordered block of video data when using enhanced spatial scalability multi-layer video coding, and determine the offset delay associated with the ordered block To be applicable. As described in more detail below, if a portion of the stream can be removed in a way that the resulting substream forms another valid bitstream that can be decoded by the targeted decoder, the video bitstream is Sometimes referred to as being “scalable”. With respect to spatial scalability, a subset of the bitstream represents source content with different picture sizes (spatial resolution). At each spatial layer, the video coder may perform motion compensated prediction and intra prediction in the same manner as for single layer coding. However, in order to improve coding efficiency compared to broadcasting different spatial resolutions simultaneously, the video coder may incorporate an inter-layer prediction mechanism. The most flexible type of spatial scalable video coding is not necessarily strictly faithful to a two-part relationship between successive layers (eg, a 2: 1 resolution ratio), but extended spatial scalability (ESS : Sometimes called Extended Spatial Scalability. For both the H.264 / AVC SVC extension and the HEVC SVC extension, some details regarding SVC are described below with respect to FIGS.

[0042] 拡張された空間スケーラビリティは、いくつかの事例では、オフセット遅延を決定するときに課題を与えることがある。たとえば、ビデオコーダが、拡張された空間スケーラビリティを使用するとき、現在復号されているレイヤの空間セグメントA(たとえば、スライス(slice)、タイル(tile)、コーディングツリーユニット(CTU:coding tree unit)またはCTU行)が、参照レイヤの中に存在する配列された空間セグメントB(たとえば、参照として使用するために利用可能な)を有し得ないことが起こり得る。オフセット遅延は配列された空間セグメントに基づいて決定され得るので、配列された空間セグメントが存在しない空間セグメントについてのオフセット遅延をどのようにして導出するかは明らかでない。   [0042] Enhanced spatial scalability may present challenges in determining offset delay in some cases. For example, when a video coder uses extended spatial scalability, the spatial segment A (eg, slice, tile, coding tree unit (CTU) or layer of the currently decoded layer is used. It may happen that a CTU row) may not have an ordered spatial segment B (eg, available for use as a reference) present in the reference layer. Since the offset delay can be determined based on the arranged spatial segments, it is not clear how to derive the offset delay for a spatial segment for which no arranged spatial segment exists.

[0043] 本開示の技法は、ビデオデータの配列されたブロック(たとえば、CTU)のロケーションを決定するために実施され得る。たとえば、本開示の態様は、ビデオデータの参照ピクチャと関連した参照サンプルのロケーションを、1つまたは複数のスケーリングされたオフセット値に基づいて決定することを含む。スケーリングされたオフセット値は、ベースレイヤとスケーリングされたエンハンスメントレイヤとの間のスケールの差分(たとえば、スケーリングすることに起因するロケーションの差分)を表し得る。参照サンプルのロケーションを決定した後、ビデオコーダ(たとえば、ビデオエンコーダまたはビデオデコーダ)は、配列された参照ブロック(collocated reference block)(たとえば、コロケートCTU)のロケーションを、参照サンプルのロケーションに基づいて決定し得る。   [0043] The techniques of this disclosure may be implemented to determine the location of an ordered block (eg, CTU) of video data. For example, aspects of this disclosure include determining a location of a reference sample associated with a reference picture of video data based on one or more scaled offset values. The scaled offset value may represent a scale difference (eg, a location difference due to scaling) between the base layer and the scaled enhancement layer. After determining the location of the reference sample, the video coder (eg, video encoder or video decoder) determines the location of the aligned reference block (eg, collocated CTU) based on the location of the reference sample. Can do.

[0044] 一例として、ベースレイヤは、アップスケールされたエンハンスメントレイヤ(たとえば、ベースレイヤよりも空間解像度が相対的に高いレイヤ)のための参照として使用され得る。エンハンスメントレイヤピクチャとベースレイヤピクチャとの間のサイズの差分のために、エンハンスメントレイヤピクチャの中で現在コーディングされているブロックは、ベースレイヤ参照ピクチャの境界の外側にある配列された参照ブロックに位置することがある。そのような配列されたブロックは、エンハンスメントレイヤピクチャによる参照にとって利用可能でない。いくつかの例では、本開示の態様によれば、ベースレイヤの中に配列される参照ブロックのロケーションを決定する前に、ビデオコーダは、ベースレイヤの中の参照ピクチャ(すなわち、ベースレイヤ参照ピクチャ)の境界内に配置されるべき参照サンプルのロケーションを調整し得る。   [0044] As an example, the base layer may be used as a reference for an upscaled enhancement layer (eg, a layer with a higher spatial resolution than the base layer). Due to the size difference between the enhancement layer picture and the base layer picture, the currently coded block in the enhancement layer picture is located in an aligned reference block outside the boundary of the base layer reference picture Sometimes. Such arranged blocks are not available for reference by enhancement layer pictures. In some examples, according to aspects of this disclosure, prior to determining the location of reference blocks arranged in a base layer, a video coder may perform reference picture in the base layer (ie, base layer reference picture). ) To adjust the location of the reference sample to be placed.

[0045] したがって、本開示の態様によれば、参照レイヤの中に配列されたブロック(たとえば、配列されたCTU(collocated CTU))が、現在コーディングされているレイヤの中の特定のブロックにとって存在しない場合、調整されたアドレスが参照レイヤの中に存在するブロックに対応するように、配列されたブロックのアドレスは、対応する参照レイヤ境界内に入るように調整され得る。上述されたオフェスト遅延(offest delay)などの、現在のレイヤの中のCTUのためのレイヤ間予測制約は、次いで、境界CTUとともに参照として適用される。   [0045] Thus, according to aspects of this disclosure, blocks arranged in a reference layer (eg, arranged CTUs (collocated CTUs)) exist for a particular block in the currently coded layer. If not, the addresses of the arranged blocks can be adjusted to fall within the corresponding reference layer boundaries so that the adjusted address corresponds to a block present in the reference layer. Inter-layer prediction constraints for CTUs in the current layer, such as the offset delay described above, are then applied as a reference along with the boundary CTU.

[0046] 本開示の態様はまた、レイヤ間でのタイルの整列を示すための技法を含み得る。たとえば、タイルは、ピクチャのパーティションを含み得、並列コーディングのために使用され得る。HEVC規格に記載されるように、タイルは、ピクチャの中の特定のタイル列内および特定のタイル行内の、矩形領域のコーディングツリーブロック(以下に記載されるような、CTB)として定義され得る。タイル列は、ピクチャの高さに等しい高さと、ピクチャパラメータセット(PPS:picture parameter set)の中のシンタックス要素によって規定される幅とを有する矩形領域のCTBとして定義され得る。加えて、タイル行は、PPSピクチャパラメータセットの中のシンタックス要素によって規定される高さと、ピクチャの幅に等しい幅を有する矩形領域のCTBとして定義され得る。タイル境界は、スライス境界と同様に、タイルが単独で処理され得るようにパースおよび予測の依存性を分断するが、ループ内フィルタ(デブロッキングおよびサンプル適応オフセット(SAO:sample adaptive offset))は依然としてタイル境界を横切ることができる(すなわち、複数のタイルに適用され得る)。タイルベースの構造を実装することは、並列処理を可能にし得、スライスの使用と比較してCTUの復号順序を変えさせることによってコーディング効率を改善し得る。   [0046] Aspects of the present disclosure may also include techniques for indicating alignment of tiles between layers. For example, a tile can include a partition of a picture and can be used for parallel coding. As described in the HEVC standard, a tile may be defined as a rectangular area coding tree block (CTB, as described below) within a particular tile column and a particular tile row in a picture. A tile column may be defined as a CTB of a rectangular area having a height equal to the height of the picture and a width defined by syntax elements in a picture parameter set (PPS). In addition, a tile row may be defined as a CTB of a rectangular area having a height defined by syntax elements in the PPS picture parameter set and a width equal to the width of the picture. Tile boundaries, like slice boundaries, decouple the parsing and prediction dependencies so that tiles can be processed alone, but the in-loop filter (deblocking and sample adaptive offset (SAO)) is still Can cross tile boundaries (ie can be applied to multiple tiles). Implementing a tile-based structure may allow parallel processing and may improve coding efficiency by changing the decoding order of CTUs compared to the use of slices.

[0047] タイルの数およびタイルの境界のロケーションは、全体のシーケンスに対して定義されてもよく、またはピクチャごとに変更されてもよい。タイル境界がレイヤ間で整列されているかどうか(レイヤ間予測に影響を及ぼし得る)を示すための1つの方式が、Suhringらへの文書「Tile Boundary Alignment and Inter−Layer Prediction Constraints for SHVC and MV−HEVC」,JCTVC−M0464,Incheon,KR,2013年4月18〜26日(以後、JCTVC−M0464)の中で提案された。その方式は、タイル境界が整列されているかどうかの指示を、(たとえば、tile_boundaries_aligned_flagシンタックス要素を用いて)VUIの中で各レイヤについてシグナリングすることを含んでいた。しかしながら、タイル境界の整列がレイヤ固有でないので、タイル境界が整列されているかどうかを、各レイヤについてVUIの中でシグナリングすることは非効率であり得る。したがって、そのような情報をVUIの中でシグナリングすることは、不必要な複雑さを加えることがある。   [0047] The number of tiles and the location of tile boundaries may be defined for the entire sequence or may vary from picture to picture. One scheme for indicating whether tile boundaries are aligned between layers (which may affect inter-layer prediction) is the document to Suhring et al. HEVC ", JCTVC-M0464, Incheon, KR, April 18-26, 2013 (hereinafter JCTVC-M0464). The scheme included signaling for each layer in the VUI (eg, using the tile_boundaries_aligned_flag syntax element) whether the tile boundaries are aligned. However, because tile boundary alignment is not layer specific, it may be inefficient to signal in the VUI for each layer whether the tile boundary is aligned. Therefore, signaling such information in the VUI can add unnecessary complexity.

[0048] 本開示の態様によれば、タイル境界が整列されているかどうかの指示は、VPSの中で提供され得る。たとえば、タイルがマルチレイヤビットストリームのレイヤ間で整列されているかどうかを示す1つまたは複数のシンタックス要素が、VPSの中に含まれ得る。このようにして、VPSの中でシグナリングされるような、タイル境界の整列された情報は、マルチレイヤビットストリームのレイヤのためのクロスレイヤの範囲を有する。   [0048] According to aspects of the present disclosure, an indication of whether tile boundaries are aligned may be provided in the VPS. For example, one or more syntax elements that indicate whether tiles are aligned between layers of a multi-layer bitstream may be included in the VPS. In this way, tile boundary aligned information as signaled in the VPS has a cross-layer extent for the layers of the multi-layer bitstream.

[0049] 図1は、ビデオデータを並列に処理するための技法を利用し得る例示的なビデオ符号化および復号システム10を示すブロック図である。図1に示すように、システム10は、宛先デバイス14によって後で復号されるべき符号化ビデオデータを与えるソースデバイス12を含む。特に、ソースデバイス12は、コンピュータ可読媒体16を介してビデオデータを宛先デバイス14に与える。ソースデバイス12および宛先デバイス14は、デスクトップコンピュータ、ノートブック(すなわち、ラップトップ)コンピュータ、タブレットコンピュータ、セットトップボックス、いわゆる「スマート」フォンなどの電話ハンドセット、いわゆる「スマート」パッド、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイスなどを含む、広範囲にわたるデバイスのいずれかを備え得る。場合によっては、ソースデバイス12および宛先デバイス14は、ワイヤレス通信のために装備され得る。   [0049] FIG. 1 is a block diagram illustrating an example video encoding and decoding system 10 that may utilize techniques for processing video data in parallel. As shown in FIG. 1, the system 10 includes a source device 12 that provides encoded video data to be decoded later by a destination device 14. In particular, source device 12 provides video data to destination device 14 via computer readable medium 16. The source device 12 and the destination device 14 may be a desktop computer, a notebook (ie laptop) computer, a tablet computer, a set top box, a telephone handset such as a so-called “smart” phone, a so-called “smart” pad, a television, a camera, Any of a wide range of devices may be provided, including display devices, digital media players, video game consoles, video streaming devices, and the like. In some cases, source device 12 and destination device 14 may be equipped for wireless communication.

[0050] 宛先デバイス14は、コンピュータ可読媒体16を介して復号されるべき符号化ビデオデータを受信し得る。コンピュータ可読媒体16は、符号化されたビデオデータをソースデバイス12から宛先デバイス14に移動することが可能な任意のタイプの媒体またはデバイスを備え得る。一例では、コンピュータ可読媒体16は、ソースデバイス12が、符号化されたビデオデータをリアルタイムで宛先デバイス14に直接送信することを可能にするための通信媒体を備え得る。符号化されたビデオデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、宛先デバイス14に送信され得る。通信媒体は、高周波(RF)スペクトルあるいは1つまたは複数の物理伝送線路など、任意のワイヤレスまたは有線通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなど、パケットベースネットワークの一部を形成し得る。通信媒体は、ソースデバイス12から宛先デバイス14への通信を可能にするために有用であり得るルータ、スイッチ、基地局、または任意の他の機器を含み得る。   [0050] Destination device 14 may receive encoded video data to be decoded via computer readable medium 16. The computer readable medium 16 may comprise any type of medium or device capable of moving encoded video data from the source device 12 to the destination device 14. In one example, the computer readable medium 16 may comprise a communication medium to allow the source device 12 to send encoded video data directly to the destination device 14 in real time. The encoded video data may be modulated according to a communication standard such as a wireless communication protocol and transmitted to the destination device 14. The communication medium may comprise any wireless or wired communication medium, such as a radio frequency (RF) spectrum or one or more physical transmission lines. The communication medium may form part of a packet-based network, such as a local area network, a wide area network, or a global network such as the Internet. Communication media may include routers, switches, base stations, or any other equipment that may be useful for enabling communication from source device 12 to destination device 14.

[0051] いくつかの例では、符号化されたデータは、出力インターフェース22からストレージデバイスに出力され得る。同様に、符号化されたデータは、入力インターフェースによってストレージデバイスからアクセスされ得る。ストレージデバイスは、ハードドライブ、Blu−ray(登録商標)ディスク、DVD、CD−ROM、フラッシュメモリ、揮発性または不揮発性のメモリ、あるいは符号化されたビデオデータを記憶するための任意の他の好適なデジタル記憶媒体のような、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のいずれかを含み得る。さらなる一例では、ストレージデバイスは、ソースデバイス12によって生成された符号化されたビデオを記憶し得る、ファイルサーバまたは別の中間ストレージデバイスに対応し得る。宛先デバイス14は、ストリーミングまたはダウンロードを介して、ストレージデバイスから記憶されたビデオデータにアクセスし得る。ファイルサーバは、符号化されたビデオデータを記憶し、その符号化されたビデオデータを宛先デバイス14に送信することができる任意のタイプのサーバであり得る。例示的なファイルサーバとしては、(たとえば、ウェブサイト用の)ウェブサーバ、FTPサーバ、ネットワーク接続ストレージ(NAS)デバイス、またはローカルディスクドライブがある。宛先デバイス14は、インターネット接続を含むいずれかの標準データ接続を通して符号化ビデオデータにアクセスし得る。これは、ファイルサーバに記憶された符号化されたビデオデータにアクセスするのに適しているワイヤレスチャネル(たとえば、Wi−Fi(登録商標)接続)、ワイヤード接続(たとえば、DSL、ケーブルモデムなど)、または両方の組合せを含むことができる。ストレージデバイスからの符号化されたビデオデータの送信は、ストリーミング送信、ダウンロード送信、またはそれらの組合せであり得る。   [0051] In some examples, the encoded data may be output from the output interface 22 to a storage device. Similarly, encoded data can be accessed from a storage device by an input interface. The storage device is a hard drive, Blu-ray® disk, DVD, CD-ROM, flash memory, volatile or non-volatile memory, or any other suitable for storing encoded video data Any of a variety of distributed or locally accessed data storage media may be included, such as various digital storage media. In a further example, the storage device may correspond to a file server or another intermediate storage device that may store the encoded video generated by the source device 12. Destination device 14 may access the video data stored from the storage device via streaming or download. The file server can be any type of server that can store the encoded video data and send the encoded video data to the destination device 14. Exemplary file servers include web servers (eg, for websites), FTP servers, network attached storage (NAS) devices, or local disk drives. Destination device 14 may access the encoded video data through any standard data connection, including an Internet connection. This can be a wireless channel (eg, Wi-Fi® connection), a wired connection (eg, DSL, cable modem, etc.), suitable for accessing encoded video data stored on a file server, Or a combination of both can be included. The transmission of encoded video data from the storage device may be a streaming transmission, a download transmission, or a combination thereof.

[0052] 本開示の技法は、必ずしもワイヤレス適用例または設定に限定されるとは限らない。本技法は、オーバージエアテレビジョン放送、ケーブルテレビジョン送信、衛星テレビジョン送信、dynamic adaptive streaming over HTTP(DASH)などのインターネットストリーミングビデオ送信、データ記憶媒体上に符号化されたデジタルビデオ、データ記憶媒体に記憶されたデジタルビデオの復号、または他の用途のような、種々のマルチメディア用途のいずれかをサポートするビデオコーディングに適用され得る。いくつかの例では、システム10は、ビデオストリーミング、ビデオ再生、ビデオブロードキャスティング、および/またはビデオテレフォニーなどの用途をサポートするために、一方向または双方向のビデオ送信をサポートするように構成され得る。   [0052] The techniques of this disclosure are not necessarily limited to wireless applications or settings. The technique includes over-the-air television broadcasting, cable television transmission, satellite television transmission, Internet streaming video transmission such as dynamic adaptive streaming over HTTP (DASH), digital video encoded on a data storage medium, data storage It can be applied to video coding that supports any of a variety of multimedia applications, such as decoding digital video stored on a medium, or other applications. In some examples, system 10 may be configured to support one-way or two-way video transmission to support applications such as video streaming, video playback, video broadcasting, and / or video telephony. .

[0053] 図1の例では、ソースデバイス12は、ビデオソース18と、ビデオエンコーダ20と、出力インターフェース22とを含む。宛先デバイス14は、入力インターフェース28と、ビデオデコーダ30と、ディスプレイデバイス32とを含む。本開示によれば、ソースデバイス12のビデオエンコーダ20は、ビデオデータを並列に処理するための技法を適用するように構成され得る。他の例では、ソースデバイスおよび宛先デバイスは、他の構成要素または構成を含み得る。たとえば、ソースデバイス12は、外部カメラなどの外部ビデオソース18からビデオデータを受信し得る。同様に、宛先デバイス14は、一体型ディスプレイデバイスを含むのではなく、外部ディスプレイデバイスとインターフェースをとり得る。   In the example of FIG. 1, the source device 12 includes a video source 18, a video encoder 20, and an output interface 22. The destination device 14 includes an input interface 28, a video decoder 30, and a display device 32. In accordance with this disclosure, video encoder 20 of source device 12 may be configured to apply techniques for processing video data in parallel. In other examples, the source device and destination device may include other components or configurations. For example, the source device 12 may receive video data from an external video source 18 such as an external camera. Similarly, destination device 14 may interface with an external display device rather than including an integrated display device.

[0054] 図1の図示のシステム10は一例にすぎない。ビデオデータを並列に処理するための技法は、任意のデジタルビデオ符号化および/または復号デバイスによって実行され得る。概して、本開示の技法はビデオ符号化デバイスによって実行されるが、本技法は、一般に「コーデック」と呼ばれるビデオエンコーダ/デコーダによっても実行され得る。その上、本開示の技法は、ビデオプリプロセッサによっても実行され得る。ソースデバイス12および宛先デバイス14は、ソースデバイス12が、宛先デバイス14に送信するためのコーディングされたビデオデータを生成するような、コーディングデバイスの例にすぎない。いくつかの例では、デバイス12、14の各々がビデオ符号化コンポーネントとビデオ復号コンポーネントとを含むように、デバイス12、14は、実質的に対称的な方式で動作することができる。したがって、システム10は、たとえば、ビデオストリーミング、ビデオ再生、ビデオブロードキャスト、またはビデオテレフォニーのためのビデオデバイス12とビデオデバイス14の間の一方向または双方向のビデオ送信をサポートし得る。   [0054] The illustrated system 10 of FIG. 1 is merely an example. Techniques for processing video data in parallel may be performed by any digital video encoding and / or decoding device. In general, the techniques of this disclosure are performed by a video encoding device, but the techniques may also be performed by a video encoder / decoder, commonly referred to as a “codec”. Moreover, the techniques of this disclosure may also be performed by a video preprocessor. Source device 12 and destination device 14 are only examples of coding devices such that source device 12 generates coded video data for transmission to destination device 14. In some examples, devices 12, 14 can operate in a substantially symmetric manner, such that each of devices 12, 14 includes a video encoding component and a video decoding component. Thus, system 10 may support one-way or two-way video transmission between video device 12 and video device 14 for video streaming, video playback, video broadcast, or video telephony, for example.

[0055] ソースデバイス12のビデオソース18は、ビデオカメラなどのビデオキャプチャデバイス、以前にキャプチャされたビデオを含んでいるビデオアーカイブ、および/またはビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェースを含み得る。さらなる代替として、ビデオソース18は、ソースビデオとしてのコンピュータグラフィックスベースのデータ、またはライブビデオとアーカイブされたビデオとコンピュータにより生成されたビデオとの組合せを生成し得る。場合によっては、ビデオソース18がビデオカメラである場合、ソースデバイス12および宛先デバイス14は、いわゆるカメラフォンまたはビデオフォンを形成し得る。しかしながら、上で言及されたように、本開示で説明される技法は、一般にビデオコーディングに適用可能であり、ワイヤレスおよび/または有線の用途に適用され得る。各々の場合において、キャプチャされたビデオ、以前にキャプチャされたビデオ、またはコンピュータにより生成されたビデオは、ビデオエンコーダ20によって符号化され得る。次いで、符号化されたビデオ情報は、出力インターフェース22によってコンピュータ可読媒体16に出力され得る。   [0055] The video source 18 of the source device 12 includes a video capture device, such as a video camera, a video archive containing previously captured video, and / or a video feed interface for receiving video from a video content provider. May be included. As a further alternative, video source 18 may generate computer graphics-based data as the source video, or a combination of live video, archived video, and computer generated video. In some cases, if video source 18 is a video camera, source device 12 and destination device 14 may form a so-called camera phone or video phone. However, as mentioned above, the techniques described in this disclosure are generally applicable to video coding and may be applied to wireless and / or wired applications. In each case, captured video, previously captured video, or computer generated video may be encoded by video encoder 20. The encoded video information may then be output to computer readable medium 16 by output interface 22.

[0056] コンピュータ可読媒体16は、ワイヤレスブロードキャストもしくはワイヤードネットワーク送信などの一時媒体、または、ハードディスク、フラッシュドライブ、コンパクトディスク、デジタルビデオディスク、Blu−rayディスク、もしくは他のコンピュータ可読媒体などの記憶媒体(すなわち、非一時的記憶媒体)を含み得る。いくつかの例では、ネットワークサーバ(図示せず)は、たとえば、ネットワーク送信を介して、ソースデバイス12から符号化されたビデオデータを受信し、宛先デバイス14に符号化されたビデオデータを与え得る。同様に、ディスクスタンピング設備など、媒体製造設備のコンピューティングデバイスは、ソースデバイス12から符号化されたビデオデータを受信し、その符号化されたビデオデータを含んでいるディスクを生成し得る。したがって、コンピュータ可読媒体16は、様々な例において、様々な形態の1つまたは複数のコンピュータ可読媒体を含むことが理解されよう。   [0056] The computer readable medium 16 may be a temporary medium such as wireless broadcast or wired network transmission, or a storage medium such as a hard disk, flash drive, compact disk, digital video disk, Blu-ray disk, or other computer readable medium ( That is, it may include a non-transitory storage medium. In some examples, a network server (not shown) may receive encoded video data from source device 12 and provide encoded video data to destination device 14, for example, via a network transmission. . Similarly, a computing device of a media manufacturing facility, such as a disk stamping facility, may receive encoded video data from source device 12 and generate a disk that includes the encoded video data. Accordingly, it will be appreciated that the computer readable medium 16 includes various forms of one or more computer readable media in various examples.

[0057] 宛先デバイス14の入力インターフェース28は、コンピュータ可読媒体16から情報を受信する。コンピュータ可読媒体16の情報は、ビデオエンコーダ20によって定義され、またビデオデコーダ30によって使用される、ブロックおよび他のコーディングされたユニット、たとえば、GOPの特性および/または処理を記述するシンタックス要素を含む、シンタックス情報を含み得る。ディスプレイデバイス32は、復号されたビデオデータをユーザに対して表示し、陰極線管(CRT)、液晶ディスプレイ(LCD)、プラズマディスプレイ、有機発光ダイオード(OLED)ディスプレイ、または別のタイプのディスプレイデバイスのような、様々なディスプレイデバイスのいずれかを備え得る。   [0057] The input interface 28 of the destination device 14 receives information from the computer-readable medium 16. The information on computer readable medium 16 includes blocks and other coded units, eg, syntax elements that describe the characteristics and / or processing of the GOP, as defined by video encoder 20 and used by video decoder 30. , Syntax information may be included. Display device 32 displays the decoded video data to the user, such as a cathode ray tube (CRT), liquid crystal display (LCD), plasma display, organic light emitting diode (OLED) display, or another type of display device. Any of a variety of display devices may be provided.

[0058] ビデオエンコーダ20およびビデオデコーダ30はそれぞれ、1つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せなどの様々な適切なエンコーダ回路のいずれかとして実装され得る。本技法が部分的にソフトウェアで実装されるとき、デバイスは、好適な非一時的コンピュータ可読媒体にソフトウェアの命令を記憶し、本開示の技法を実行するために1つまたは複数のプロセッサを使用してハードウェアでその命令を実行し得る。ビデオエンコーダ20およびビデオデコーダ30の各々は1つまたは複数のエンコーダまたはデコーダ中に含まれてよく、そのいずれも、それぞれのデバイスにおいて複合エンコーダ/デコーダ(コーデック)の一部として統合されてよい。ビデオエンコーダ20および/またはビデオデコーダ30を含むデバイスは、集積回路、マイクロプロセッサ、および/またはセルラー電話などのワイヤレス通信デバイスを備え得る。   [0058] Each of video encoder 20 and video decoder 30 includes one or more microprocessors, digital signal processors (DSPs), application specific integrated circuits (ASICs), field programmable gate arrays (FPGAs), discrete logic, software, It can be implemented as any of a variety of suitable encoder circuits, such as hardware, firmware, or any combination thereof. When the technique is partially implemented in software, the device stores the software instructions in a suitable non-transitory computer readable medium and uses one or more processors to perform the techniques of this disclosure. The instructions can be executed in hardware. Each of video encoder 20 and video decoder 30 may be included in one or more encoders or decoders, either of which may be integrated as part of a combined encoder / decoder (codec) at the respective device. A device that includes video encoder 20 and / or video decoder 30 may comprise an integrated circuit, a microprocessor, and / or a wireless communication device such as a cellular telephone.

[0059] 本開示では、概して、ビデオエンコーダ20が、ある種の情報をビデオデコーダ30などの別のデバイスに「シグナリング」することに言及することがある。しかしながら、ビデオエンコーダ20は、いくつかのシンタックス要素をビデオデータの符号化される様々な部分に関連付けることによって、情報をシグナリングできることを理解されたい。すなわち、ビデオエンコーダ20は、ビデオデータの符号化される様々な部分のヘッダにいくつかのシンタックス要素を格納することによって、データを「シグナリング」することができる。場合によっては、そのようなシンタックス要素は、ビデオデコーダ30によって受信および復号される前に、符号化および格納され得る。したがって、「シグナリング」という用語は全般に、そのような通信がリアルタイムで発生するか、ほぼリアルタイムで発生するか、それともある期間にわたって発生するかにかかわらず、圧縮されたビデオデータを復号するためのシンタックスまたは他のデータの通信を指すことがあり、ある期間にわたる通信は、シンタックス要素を符号化の時点で媒体に記憶し、次いで、シンタックス要素がこの媒体に記憶された後の任意の時点で復号デバイスによって取り出され得るときに発生し得る。   [0059] This disclosure may generally refer to video encoder 20 "signaling" certain information to another device, such as video decoder 30. However, it should be understood that video encoder 20 can signal information by associating several syntax elements with the various portions of the video data that are encoded. That is, video encoder 20 can “signal” the data by storing several syntax elements in the headers of the various parts of the video data that are encoded. In some cases, such syntax elements may be encoded and stored before being received and decoded by video decoder 30. Thus, the term “signaling” generally refers to decoding compressed video data regardless of whether such communication occurs in real time, near real time, or over a period of time. May refer to communication of syntax or other data, where communication over a period of time stores the syntax element on the medium at the time of encoding, and then any arbitrary after the syntax element is stored on this medium Occurs when it can be retrieved by a decoding device at a point in time.

[0060] いくつかの例では、ビデオエンコーダ20およびビデオデコーダ30は、それのスケーラブルビデオコーディング(SVC)拡張、マルチビュービデオコーディング(MVC)拡張、およびMVCベースの3次元ビデオ(3DV)拡張を含む、ISO/IEC MPEG−4 Visualおよび(ISO/IEC MPEG−4 AVCとしても知られる)ITU−T H.264などのビデオ圧縮規格に従って動作する。SVCとMVCとのジョイントドラフトは、「Advanced video coding for generic audiovisual services」、ITU−T勧告H.264、2010年3月に記載されている。   [0060] In some examples, video encoder 20 and video decoder 30 include its scalable video coding (SVC) extension, multi-view video coding (MVC) extension, and MVC-based 3D video (3DV) extension. ISO / IEC MPEG-4 Visual and ITU-T H.264 (also known as ISO / IEC MPEG-4 AVC). Operates according to video compression standards such as H.264. The joint draft of SVC and MVC is described in “Advanced video coding for generic audiovisual services”, ITU-T recommendation H.264. H.264, March 2010.

[0061] 加えて、高効率ビデオコーディング(HEVC)規格は、ITU−T Video Coding Experts Group(VCEG)およびISO/IEC Motion Picture Experts Group(MPEG)のJoint Collaboration Team on Video Coding(JCT−VC)によって開発された。簡単のため本明細書でHEVC WD10として参照される最近のHEVCテキスト仕様ドラフトは、http://phenix.int−evry.fr/jct/doc_end_user/documents/13_Incheon/wg11/JCTVC−M0432−v3.zipから入手可能である。MV−HEVCと呼ばれるHEVCに対するマルチビュー拡張が、JCT−3Vによって開発されている。以下でのMV−HEVC WD4の最近のワーキングドラフト(WD)は、http://phenix.int−evry.fr/jct2/doc_end_user/documents/4_Incheon/wg11/JCT3V−D1004−v2.zipから入手可能である。一方、HEVCに基づく、より進歩した3Dビデオコーディング(3D−HEVC)およびスケーラブルビデオコーディングのための2つの規格トラックも開発中である。3D−HEVCの最近のテストモデルの説明は、http://phenix.it−sudparis.eu/jct2/doc_end_user/documents/3_Geneva/wg11/JCT3V−D1005−v2.zipから入手可能である。SHVCの最近のテストモデルの説明は、http://phenix.int−evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC−M1007−v3.zipから入手可能である。   [0061] In addition, the High Efficiency Video Coding (HEVC) standard was developed by the ITU-T Video Coding Experts Group (VCEG) and ISO / IEC Motion Picture Experts Group (MPEG) Joint Collation TeamJVV It has been developed. A recent HEVC text specification draft referred to herein as HEVC WD10 for simplicity is http: // phenix. int-evry. fr / jct / doc_end_user / documents / 13_Incheon / wg11 / JCTVC-M0432-v3. available from zip. A multi-view extension to HEVC called MV-HEVC has been developed by JCT-3V. The recent working draft (WD) of MV-HEVC WD4 below is http: // phenix. int-evry. fr / jct2 / doc_end_user / documents / 4_Incheon / wg11 / JCT3V-D1004-v2. available from zip. Meanwhile, two standards tracks for more advanced 3D video coding (3D-HEVC) and scalable video coding based on HEVC are also under development. A description of recent test models for 3D-HEVC can be found at http: // phenix. it-sudparis. eu / jct2 / doc_end_user / documents / 3_Geneva / wg11 / JCT3V-D1005-v2. available from zip. A description of the recent test model of SHVC can be found at http: // phenix. int-evry. fr / jct / doc_end_user / documents / 12_Geneva / wg11 / JCTVC-M1007-v3. available from zip.

[0062] HEVCおよび他のビデオコーディング規格では、ビデオシーケンスは一般に一連のピクチャを含む。ピクチャは「フレーム(frame)」と呼ばれることもある。ピクチャは、SL、SCb、およびSCrと表示される3つのサンプルアレイを含み得る。SLは、ルーマサンプル(luma sample)の2次元アレイ(すなわち、ブロック)である。SCbは、Cbクロミナンスサンプルの2次元アレイである。SCrは、Crクロミナンスサンプルの2次元アレイである。クロミナンスサンプルは、本明細書では「クロマ(chroma)」サンプルと呼ばれることもある。他の事例では、ピクチャは、モノクロームであってよく、ルーマサンプルのアレイのみを含み得る。 [0062] In HEVC and other video coding standards, a video sequence typically includes a series of pictures. A picture is sometimes called a “frame”. A picture may include three sample arrays denoted S L , S Cb , and S Cr . S L is a two-dimensional array (ie, block) of luma samples. S Cb is a two-dimensional array of Cb chrominance samples. S Cr is a two-dimensional array of Cr chrominance samples. A chrominance sample may also be referred to herein as a “chroma” sample. In other cases, the picture may be monochrome and may include only an array of luma samples.

[0063] ビデオエンコーダ20は、別個のルーマ成分およびクロマ成分のコーディングツリーブロック(CTB)を有し得るコーディングツリーユニット(CTU)のセットを生成し得る。たとえば、CTUの各々は、ルーマサンプルのCTBと、クロマサンプルの2つの対応するCTBと、それらのCTBのサンプルをコーディングするために使用されるシンタックス構造とを備え得る。3つの別個のカラープレーンを有するモノクロームピクチャまたはピクチャでは、CTUは、単一のCTBと、そのCTBのサンプルをコーディングするために使用されるシンタックス構造とを備え得る。CTBは、N×Nブロックのサンプルであり得る。CTUは、「ツリーブロック」または「最大コーディングユニット」(LCU:largest coding unit)と呼ばれることもある。HEVCのCTUは、H.264/AVCなどの他のビデオコーディング規格のマクロブロックに広い意味で類似し得る。しかしながら、CTUは、必ずしも特定のサイズに限定されるとは限らず、1つまたは複数のコーディングユニット(CU:coding unit)を含み得る。スライスは、ラスタ走査において連続的に順序付けられた整数個のCTUを含み得る。   [0063] Video encoder 20 may generate a set of coding tree units (CTUs) that may have separate luma and chroma component coding tree blocks (CTBs). For example, each CTU may comprise a luma sample CTB, two corresponding CTBs of chroma samples, and a syntax structure used to code the samples of those CTBs. For a monochrome picture or picture with three separate color planes, a CTU may comprise a single CTB and a syntax structure used to code the samples of that CTB. The CTB may be a sample of N × N blocks. A CTU is sometimes referred to as a “tree block” or “largest coding unit” (LCU). HEVC's CTU is H.264. It may be broadly similar to macroblocks of other video coding standards such as H.264 / AVC. However, a CTU is not necessarily limited to a specific size and may include one or more coding units (CUs). A slice may include an integer number of CTUs sequentially ordered in a raster scan.

[0064] 本開示は、サンプルおよびサンプルの1つまたは複数のブロックのサンプルをコーディングするために使用されるシンタックス構造の1つまたは複数のブロックを指すために、「ビデオユニット」または「ビデオブロック」という用語を使用することがある。例示的なタイプのビデオユニットは、CTUと、CTBと、CUと、PUと、変換ユニット(TU)と、マクロブロックと、マクロブロックパーティションと、ピクチャの他の類似のパーティションとを含み得る。   [0064] This disclosure refers to "video unit" or "video block" to refer to one or more blocks of a syntax structure used to code samples and samples of one or more blocks of samples. May be used. Exemplary types of video units may include CTUs, CTBs, CUs, PUs, transform units (TUs), macroblocks, macroblock partitions, and other similar partitions of pictures.

[0065] コーディングされたCTUを生成するために、ビデオエンコーダ20は、CTBをコーディングブロックに分割するように、CTUのCTBに対して4分木区分を再帰的に実行することができ、したがって「コーディングツリーユニット」という名称がある。コーディングブロックは、N×Nブロックのサンプルである。CUは、ルーマサンプルアレイとCbサンプルアレイとCrサンプルアレイとを有するピクチャの、ルーマサンプルのコーディングブロックと、クロマサンプルの2つの対応するコーディングブロックと、それらのコーディングブロックのサンプルをコーディングするために使用されるシンタックス構造とを備え得る。3つの別個のカラープレーンを有するモノクロームピクチャまたはピクチャでは、CUは、単一のコーディングブロックと、そのコーディングブロックのサンプルをコーディングするために使用されるシンタックス構造とを備え得る。   [0065] To generate a coded CTU, video encoder 20 may recursively perform quadtree partitioning on the CTU's CTB to divide the CTB into coding blocks. There is a name "Coding Tree Unit". A coding block is a sample of N × N blocks. The CU is used to code a luma sample coding block, two corresponding coding blocks of chroma samples, and a sample of those coding blocks of a picture having a luma sample array, a Cb sample array, and a Cr sample array. Syntax structure. For a monochrome picture or picture with three separate color planes, the CU may comprise a single coding block and a syntax structure used to code samples of that coding block.

[0066] ビデオエンコーダ20は、CUのコーディングブロックを1つまたは複数の予測ブロックに区分し得る。予測ブロックは、同じ予測が適用されるサンプルの矩形(すなわち、正方形または非正方形)ブロックであり得る。CUの予測ユニット(PU)は、ルーマサンプルの予測ブロックと、ピクチャのクロマサンプルの2つの対応する予測ブロックと、予測ブロックサンプルを予測するために使用されるシンタックス構造とを備え得る。3つの別個のカラープレーンを有するモノクロームピクチャまたはピクチャでは、PUは、単一の予測ブロックと、その予測ブロックサンプルを予測するために使用されるシンタックス構造とを備え得る。ビデオエンコーダ20は、CUの各PUのルーマ予測ブロック、Cb予測ブロック、およびCr予測ブロックのための、予測ルーマブロックと、予測Cbブロックと、予測Crブロックとを生成し得る。   [0066] Video encoder 20 may partition a coding block of a CU into one or more prediction blocks. A prediction block may be a rectangular (ie, square or non-square) block of samples to which the same prediction is applied. A prediction unit (PU) of a CU may comprise a prediction block of luma samples, two corresponding prediction blocks of chroma samples of a picture, and a syntax structure used to predict the prediction block samples. For a monochrome picture or picture with three separate color planes, the PU may comprise a single prediction block and a syntax structure used to predict the prediction block samples. Video encoder 20 may generate a prediction luma block, a prediction Cb block, and a prediction Cr block for the luma prediction block, Cb prediction block, and Cr prediction block of each PU of the CU.

[0067] ビデオエンコーダ20は、PUのための予測ブロックを生成するために、イントラ予測またはインター予測を使用することができる。ビデオエンコーダ20がPUの予測ブロックを生成するためにイントラ予測を使用する場合、ビデオエンコーダ20は、PUに関連付けられたピクチャの復号されたサンプルに基づいて、PUの予測ブロックを生成することができる。   [0067] Video encoder 20 may use intra prediction or inter prediction to generate a prediction block for the PU. When video encoder 20 uses intra prediction to generate a predicted block for PU, video encoder 20 may generate a predicted block for PU based on decoded samples of pictures associated with the PU. .

[0068] ビデオエンコーダ20がPUの予測ブロックを生成するためにインター予測を使用する場合、ビデオエンコーダ20は、PUに関連付けられたピクチャ以外の1つまたは複数のピクチャの復号されたサンプルに基づいて、PUの予測ブロックを生成することができる。インター予測は、単方向インター予測(すなわち、単予測)または双方向インター予測(すなわち、双予測)であり得る。単予測または双予測を実行するために、ビデオエンコーダ20は、現在のスライスに対して、第1の参照ピクチャリスト(RefPicList0)と第2の参照ピクチャリスト(RefPicList1)とを生成し得る。参照ピクチャリストの各々は、1つまたは複数の参照ピクチャを含み得る。単予測を使用するとき、ビデオエンコーダ20は、参照ピクチャ内の参照ロケーションを決定するために、RefPicList0とRefPicList1のいずれかまたは両方の中の参照ピクチャを探索し得る。さらに、単予測を使用するとき、ビデオエンコーダ20は、参照ロケーションに対応するサンプルに少なくとも部分的に基づいて、PUのための予測サンプルブロックを生成し得る。さらに、単予測を使用するとき、ビデオエンコーダ20は、PUの予測ブロックと参照ロケーションとの間の空間変位を示す単一の動きベクトルを生成し得る。PUの予測ブロックと参照ロケーションとの間の空間変位を示すために、動きベクトルは、PUの予測ブロックと参照ロケーションとの間の水平変位を規定する水平成分を含み得、PUの予測ブロックと参照ロケーションとの間の垂直変位を規定する垂直成分を含み得る。   [0068] When video encoder 20 uses inter prediction to generate a prediction block for a PU, video encoder 20 may be based on decoded samples of one or more pictures other than the picture associated with the PU. , PU prediction blocks can be generated. The inter prediction may be unidirectional inter prediction (ie, uni prediction) or bi-directional inter prediction (ie, bi prediction). To perform uni-prediction or bi-prediction, video encoder 20 may generate a first reference picture list (RefPicList0) and a second reference picture list (RefPicList1) for the current slice. Each of the reference picture lists may include one or more reference pictures. When using uni-prediction, video encoder 20 may search for reference pictures in either or both of RefPicList0 and RefPicList1 to determine a reference location in the reference picture. Further, when using single prediction, video encoder 20 may generate a prediction sample block for the PU based at least in part on samples corresponding to the reference location. Further, when using single prediction, video encoder 20 may generate a single motion vector that indicates the spatial displacement between the prediction block of the PU and the reference location. To indicate the spatial displacement between the predicted block of the PU and the reference location, the motion vector may include a horizontal component that defines the horizontal displacement between the predicted block of the PU and the reference location, and the predicted block and reference of the PU It may include a vertical component that defines a vertical displacement between the locations.

[0069] PUを符号化するために双予測を使用するとき、ビデオエンコーダ20は、RefPicList0中の参照ピクチャ中の第1の参照ロケーションと、RefPicList1中の参照ピクチャ中の第2の参照ロケーションとを決定し得る。ビデオエンコーダ20は、次いで、第1および第2の参照ロケーションに対応するサンプルに少なくとも部分的に基づいて、PUのための予測ブロックを生成し得る。さらに、PUを符号化するために双予測を使用するとき、ビデオエンコーダ20は、PUのサンプルブロックと第1の参照ロケーションとの間の空間変位を示す第1の動きと、PUの予測ブロックと第2の参照ロケーションとの間の空間変位を示す第2の動きとを生成し得る。   [0069] When using bi-prediction to encode the PU, the video encoder 20 determines the first reference location in the reference picture in RefPicList0 and the second reference location in the reference picture in RefPicList1. Can be determined. Video encoder 20 may then generate a prediction block for the PU based at least in part on the samples corresponding to the first and second reference locations. Further, when using bi-prediction to encode the PU, the video encoder 20 includes a first motion indicative of a spatial displacement between the PU sample block and the first reference location, a PU prediction block, and A second motion indicative of a spatial displacement with respect to the second reference location may be generated.

[0070] ビデオエンコーダ20がCUの1つまたは複数のPUのための、予測ルーマブロックと、予測Cbブロックと、予測Crブロックとを生成した後、ビデオエンコーダ20は、CUのためのルーマ残差ブロックを生成し得る。CUのルーマ残差ブロック中の各サンプルは、CUの予測ルーマブロックのうちの1つの中のルーマサンプルと、CUの元のルーマコーディングブロック中の対応するサンプルとの間の差分を示す。さらに、ビデオエンコーダ20は、CUのためのCb残差ブロックを生成し得る。CUのCb残差ブロック中の各サンプルは、CUの予測Cbブロックのうちの1つの中のCbサンプルと、CUの元のCbコーディングブロック中の対応するサンプルとの間の差分を示し得る。ビデオエンコーダ20はまた、CUのためのCr残差ブロックを生成し得る。CUのCr残差ブロック中の各サンプルは、CUの予測Crブロックのうちの1つの中のCrサンプルと、CUの元のCrコーディングブロック中の対応するサンプルとの間の差分を示し得る。   [0070] After video encoder 20 generates a predicted luma block, a predicted Cb block, and a predicted Cr block for one or more PUs of a CU, video encoder 20 may generate a luma residual for the CU. Blocks can be generated. Each sample in the CU's luma residual block indicates the difference between the luma sample in one of the CU's predicted luma blocks and the corresponding sample in the CU's original luma coding block. Further, video encoder 20 may generate a Cb residual block for the CU. Each sample in the CU's Cb residual block may indicate a difference between a Cb sample in one of the CU's predicted Cb blocks and a corresponding sample in the CU's original Cb coding block. Video encoder 20 may also generate a Cr residual block for the CU. Each sample in the CU's Cr residual block may indicate a difference between a Cr sample in one of the CU's predicted Cr blocks and a corresponding sample in the CU's original Cr coding block.

[0071] さらに、ビデオエンコーダ20は、CUのルーマ残差ブロックと、Cb残差ブロックと、Cr残差ブロックとを、1つまたは複数のルーマ変換ブロック、Cb変換ブロック、およびCr変換ブロックに分解するために、4分木区分を使用し得る。変換ブロックは、同じ変換が適用されるサンプルの矩形ブロックであってもよい。CUの変換ユニット(TU)は、ルーマサンプルの変換ブロックと、クロマサンプルの2つの対応する変換ブロックと、それらの変換ブロックサンプルを変換するために使用されるシンタックス構造とを備え得る。3つの別個のカラープレーンを有するモノクロームピクチャまたはピクチャでは、TUは、単一の変換ブロックと、その変換ブロックサンプルを変換するために使用されるシンタックス構造とを備え得る。したがって、CUの各TUは、ルーマ変換ブロック、Cb変換ブロック、およびCr変換ブロックに関連付けられ得る。TUに関連付けられたルーマ変換ブロックは、CUのルーマ残差ブロックのサブブロックであってもよい。Cb変換ブロックは、CUのCb残差ブロックのサブブロックであってもよい。Cr変換ブロックは、CUのCr残差ブロックのサブブロックであってもよい。   [0071] Furthermore, the video encoder 20 decomposes the CU luma residual block, Cb residual block, and Cr residual block into one or more luma transform blocks, Cb transform blocks, and Cr transform blocks. To do this, a quadtree partition can be used. The transform block may be a rectangular block of samples to which the same transform is applied. The transform unit (TU) of a CU may comprise a luma sample transform block, two corresponding transform blocks of chroma samples, and a syntax structure used to transform those transform block samples. For a monochrome picture or picture with three separate color planes, a TU may comprise a single transform block and a syntax structure used to transform the transform block samples. Thus, each TU of a CU can be associated with a luma transform block, a Cb transform block, and a Cr transform block. The luma transform block associated with the TU may be a sub-block of the CU's luma residual block. The Cb transform block may be a sub-block of the Cb Cb residual block. The Cr transform block may be a sub-block of the CU's Cr residual block.

[0072] ビデオエンコーダ20は、TUのためのルーマ係数ブロックを生成するために、TUのルーマ変換ブロックに1回または複数回の変換を適用し得る。係数ブロックは、変換係数の2次元アレイであり得る。変換係数は、スカラー量であってよい。ビデオエンコーダ20は、TUのためのCb係数ブロックを生成するために、TUのCb変換ブロックに1回または複数回の変換を適用し得る。ビデオエンコーダ20は、TUのためのCr係数ブロックを生成するために、TUのCr変換ブロックに1回または複数回の変換を適用し得る。   [0072] Video encoder 20 may apply one or more transforms to a TU's luma transform block to generate a luma coefficient block for the TU. The coefficient block can be a two-dimensional array of transform coefficients. The conversion factor may be a scalar quantity. Video encoder 20 may apply one or more transforms to the TU's Cb transform block to generate a Cb coefficient block for the TU. Video encoder 20 may apply one or more transforms to the TU Cr transform block to generate a Cr coefficient block for the TU.

[0073] 係数ブロック(たとえば、ルーマ係数ブロック、Cb係数ブロックまたはCr係数ブロック)を生成した後、ビデオエンコーダ20は、係数ブロックを量子化し得る。量子化は、一般に、変換係数を表すために使用されるデータの量をできるだけ低減するために変換係数が量子化され、さらなる圧縮を実現するプロセスを指す。さらに、ビデオエンコーダ20は、ピクチャのCUのTUの変換ブロックを再構成(reconstruct)するために、変換係数を逆量子化し変換係数に逆変換(inverse transform)を適用し得る。ビデオエンコーダ20は、CUのコーディングブロックを再構成するために、CUのTUの再構成された変換ブロックと、CUのPUの予測ブロックとを使用することができる。ピクチャの各CUのコーディングブロックを再構成することによって、ビデオエンコーダ20は、ピクチャを再構成することができる。ビデオエンコーダ20は、復号ピクチャバッファ(DPB)に再構成されたピクチャを記憶し得る。ビデオエンコーダ20は、DPB中の再構成されたピクチャを、インター予測およびイントラ予測のために使用し得る。   [0073] After generating a coefficient block (eg, luma coefficient block, Cb coefficient block, or Cr coefficient block), video encoder 20 may quantize the coefficient block. Quantization generally refers to a process in which transform coefficients are quantized to achieve as much compression as possible to reduce as much as possible the amount of data used to represent the transform coefficients. In addition, video encoder 20 may inverse quantize the transform coefficients and apply an inverse transform to the transform coefficients to reconstruct the transform block of the CU of the CU of the picture. Video encoder 20 may use the reconstructed transform block of the CU TU and the prediction block of the PU of the CU to reconstruct the coding block of the CU. By reconstructing the coding block for each CU of the picture, video encoder 20 can reconstruct the picture. Video encoder 20 may store the reconstructed picture in a decoded picture buffer (DPB). Video encoder 20 may use the reconstructed pictures in the DPB for inter prediction and intra prediction.

[0074] ビデオエンコーダ20が係数ブロックを量子化した後、ビデオエンコーダ20は、量子化変換係数を示すシンタックス要素をエントロピー符号化し得る。たとえば、ビデオエンコーダ20は、量子化変換係数を示すシンタックス要素に対して、コンテキスト適応型バイナリ算術コーディング(CABAC:Context-Adaptive Binary Arithmetic Coding)を実施し得る。ビデオエンコーダ20は、エントロピー符号化シンタックス要素をビットストリーム中に出力し得る。   [0074] After video encoder 20 quantizes the coefficient block, video encoder 20 may entropy encode syntax elements indicative of the quantized transform coefficients. For example, the video encoder 20 may perform context-adaptive binary arithmetic coding (CABAC) on syntax elements indicating quantized transform coefficients. Video encoder 20 may output entropy encoded syntax elements in the bitstream.

[0075] ビデオエンコーダ20は、コード化ピクチャおよび関連するデータの表現を形成する一連のビットを含むビットストリームを出力し得る。ビットストリームは、一連のネットワークアブストラクションレイヤ(NAL:network abstraction layer)ユニットを備え得る。NALユニットの各々は、NALユニットヘッダを含み、ローバイトシーケンスペイロード(RBSP:raw byte sequence payload)をカプセル化する。NALユニットヘッダは、NALユニットタイプコードを示すシンタックス要素を含み得る。NALユニットのNALユニットヘッダによって規定されるNALユニットタイプコードは、NALユニットのタイプを示す。RBSPは、NALユニット内にカプセル化された整数個のバイトを含むシンタックス構造であり得る。いくつかの事例では、RBSPは0ビットを含む。   [0075] Video encoder 20 may output a bitstream that includes a series of bits that form a representation of the coded picture and associated data. The bitstream may comprise a series of network abstraction layer (NAL) units. Each NAL unit includes a NAL unit header and encapsulates a raw byte sequence payload (RBSP). The NAL unit header may include a syntax element indicating a NAL unit type code. The NAL unit type code defined by the NAL unit header of the NAL unit indicates the type of the NAL unit. An RBSP may be a syntax structure that includes an integer number of bytes encapsulated within a NAL unit. In some cases, the RBSP includes 0 bits.

[0076] 異なるタイプのNALユニットは、異なるタイプのRBSPをカプセル化し得る。たとえば、第1のタイプのNALユニットはピクチャパラメータセット(PPS)のためのRBSPをカプセル化し得、第2のタイプのNALユニットはコード化スライスのためのRBSPをカプセル化し得、第3のタイプのNALユニットは補助強化情報(SEI:supplemental enhancement information)のためのRBSPをカプセル化し得、以下同様である。PPSは、0個以上のコード化ピクチャ全体に適用されるシンタックス要素を含み得るシンタックス構造である。ビデオコーディングデータのためのRBSPをカプセル化するNALユニットは(パラメータセットおよびSEIメッセージのためのRBSPとは対照的に)、ビデオコーディングレイヤ(VCL)NALユニットと呼ばれることがある。コード化スライスをカプセル化するNALユニットは、本明細書ではコード化スライスNALユニットと呼ばれることがある。コード化スライスのためのRBSPは、スライスヘッダとスライスデータとを含み得る。   [0076] Different types of NAL units may encapsulate different types of RBSPs. For example, a first type of NAL unit may encapsulate an RBSP for a picture parameter set (PPS), a second type of NAL unit may encapsulate an RBSP for a coded slice, The NAL unit may encapsulate RBSP for supplemental enhancement information (SEI), and so on. PPS is a syntax structure that may contain syntax elements that apply to zero or more coded pictures as a whole. A NAL unit that encapsulates an RBSP for video coding data (as opposed to an RBSP for parameter sets and SEI messages) may be referred to as a video coding layer (VCL) NAL unit. A NAL unit that encapsulates a coded slice may be referred to herein as a coded slice NAL unit. An RBSP for a coded slice may include a slice header and slice data.

[0077] MV−HEVC、3D−HEVCおよびSHVCでは、ビデオエンコーダ20は、一連のネットワークアブストラクションレイヤ(NAL)ユニットを備えるビットストリームを生成し得る。ビットストリームの異なるNALユニットが、ビットストリームの異なるレイヤに関連付けられ得る。レイヤは、同じレイヤ識別子を有するビデオコーディングレイヤ(VCL)NALユニットおよび関連する非VCL NALユニットのセットとして定義され得る。レイヤは、マルチビュービデオコーディングにおけるビューと等価であり得る。マルチビュービデオコーディングでは、レイヤは、異なる時間インスタンスを伴う同じレイヤのすべてのビューコンポーネントを含むことができる。各ビューコンポーネントは、特定の時間インスタンスにおける特定のビューに属するビデオシーンのコード化ピクチャであり得る。   [0077] In MV-HEVC, 3D-HEVC and SHVC, video encoder 20 may generate a bitstream comprising a series of network abstraction layer (NAL) units. Different NAL units of the bitstream may be associated with different layers of the bitstream. A layer may be defined as a set of video coding layer (VCL) NAL units and associated non-VCL NAL units that have the same layer identifier. A layer may be equivalent to a view in multi-view video coding. In multi-view video coding, a layer can include all view components of the same layer with different time instances. Each view component may be a coded picture of a video scene belonging to a particular view at a particular time instance.

[0078] ビデオデコーダ30は、ビットストリームを受信し得る。加えて、ビデオデコーダ30は、ビットストリームからシンタックス要素を復号するために、ビットストリームを解析(parse)し得る。ビデオデコーダ30は、ビットストリームから復号されたシンタックス要素に少なくとも部分的に基づいて、ビデオデータのピクチャを再構成し得る。ビデオデータを再構成するための処理は、全般に、ビデオエンコーダ20によって実行される処理の逆であり得る。たとえば、ビデオデコーダ30は、現在のCUのPUのための予測ブロックを決定するために、PUの動きベクトルを使用し得る。ビデオデコーダ30は、PUのための予測ブロックを生成するために、PUの1つまたは複数の動きベクトルを使用し得る。   [0078] Video decoder 30 may receive a bitstream. In addition, video decoder 30 may parse the bitstream to decode syntax elements from the bitstream. Video decoder 30 may reconstruct pictures of the video data based at least in part on syntax elements decoded from the bitstream. The process for reconstructing the video data can generally be the reverse of the process performed by video encoder 20. For example, video decoder 30 may use the motion vector of the PU to determine a prediction block for the PU of the current CU. Video decoder 30 may use one or more motion vectors of the PU to generate a prediction block for the PU.

[0079] さらに、ビデオデコーダ30は、現在のCUのTUに関連付けられた係数ブロックを逆量子化し得る。ビデオデコーダ30は、現在のCUのTUに関連付けられた変換ブロックを再構成するために、係数ブロックに対して逆変換を実行し得る。ビデオデコーダ30は、現在のCUのPUのための予測サンプルブロックのサンプルを現在のCUのTUの変換ブロックの対応するサンプルに加算することによって、現在のCUのコーディングブロックを再構成し得る。ピクチャの各CUのコーディングブロックを再構成することによって、ビデオデコーダ30は、ピクチャを再構成し得る。ビデオデコーダ30は、出力のためにおよび/または他のピクチャを復号する際に使用するために、復号されたピクチャを復号ピクチャバッファに記憶し得る。   [0079] Further, video decoder 30 may inverse quantize the coefficient block associated with the TU of the current CU. Video decoder 30 may perform an inverse transform on the coefficient block to reconstruct the transform block associated with the TU of the current CU. Video decoder 30 may reconstruct the current CU coding block by adding the sample of the predicted sample block for the PU of the current CU to the corresponding sample of the transform block of the current CU TU. By reconstructing the coding block for each CU of the picture, video decoder 30 may reconstruct the picture. Video decoder 30 may store the decoded pictures in a decoded picture buffer for use in output and / or for use in decoding other pictures.

[0080] 3Dビデオコーディングでは、レイヤは、特定のビューのすべてのコーディングされた深度ピクチャ、または特定のビューのコーディングされたテクスチャピクチャのいずれかを含み得る。同様に、スケーラブルビデオコーディングのコンテキストにおいて、レイヤは、通常、他のレイヤの中のコード化ピクチャと異なるビデオ特性を有するコード化ピクチャに対応する。そのようなビデオ特性は、通常、空間解像度と品質レベル(信号対雑音比)とを含む。HEVCおよびそれの拡張では、時間スケーラビリティは、特定の時間レベルを伴うピクチャのグループをサブレイヤと定義することによって、1つのレイヤ内で達成され得る。   [0080] In 3D video coding, a layer may include either all coded depth pictures of a particular view or coded texture pictures of a particular view. Similarly, in the context of scalable video coding, a layer typically corresponds to a coded picture that has different video characteristics than coded pictures in other layers. Such video characteristics typically include spatial resolution and quality level (signal to noise ratio). In HEVC and its extensions, temporal scalability can be achieved within one layer by defining a group of pictures with a particular temporal level as a sub-layer.

[0081] ビットストリームのそれぞれの各レイヤについて、低いレイヤの中のデータは、高いレイヤの中のデータと無関係に復号され得る。スケーラブルビデオコーディングでは、たとえば、ベースレイヤの中のデータは、エンハンスメントレイヤの中のデータと無関係に復号され得る。NALユニットは、単一のレイヤのデータをカプセル化するだけである。したがって、ビットストリームの残りの最高レイヤのデータをカプセル化するNALユニットは、ビットストリームの残りのレイヤの中のデータの復号可能性に影響を及ぼすことなくビットストリームから除去され得る。マルチビューコーディングおよび3D−HEVCでは、より高いレイヤは、さらなるビューコンポーネントを含み得る。SHVCでは、より高いレイヤは、信号対雑音比(SNR)エンハンスメントデータ、空間エンハンスメントデータ、および/または時間エンハンスメントデータを含み得る。MV−HEVC、3D−HEVCおよびSHVCでは、ビデオデコーダが、あるビューの中のピクチャをいかなる他のレイヤのデータとも無関係に復号できる場合、そのビューは「ベースレイヤ」と呼ばれ得る。ベースレイヤは、HEVCベース仕様に準拠し得る。   [0081] For each layer of the bitstream, the data in the lower layer may be decoded independently of the data in the higher layer. In scalable video coding, for example, data in the base layer may be decoded independently of data in the enhancement layer. A NAL unit only encapsulates a single layer of data. Thus, the NAL unit that encapsulates the remaining highest layer data of the bitstream can be removed from the bitstream without affecting the decodability of the data in the remaining layers of the bitstream. For multi-view coding and 3D-HEVC, higher layers may include additional view components. In SHVC, higher layers may include signal to noise ratio (SNR) enhancement data, spatial enhancement data, and / or temporal enhancement data. In MV-HEVC, 3D-HEVC and SHVC, a view may be referred to as a “base layer” if the video decoder can decode the pictures in a view independently of any other layer of data. The base layer may be compliant with the HEVC base specification.

[0082] ビデオエンコーダ20および/またはビデオデコーダ30は、本開示の技法の任意の組合せを実行するように構成され得る。たとえば、上述のように、本開示の態様は、クロスレイヤ並列処理のオフセット遅延パラメータのシグナリングに関する改善を含む。「オフセット遅延(offset delay)」は、一般に、複数のレイヤを並列に復号することと関連した遅延を指す場合がある。たとえば、参照レイヤ全体が復号されるのを待つのではなく、ビデオデコーダ30は、参照レイヤのうちの少なくともいくつかが復号されるまで、現在のレイヤの復号を遅延させればよい。オフセット遅延は、一般に、ビデオデコーダが現在のレイヤの復号を開始する前に復号される参照レイヤの最低限の量を示し得る。   [0082] Video encoder 20 and / or video decoder 30 may be configured to perform any combination of the techniques of this disclosure. For example, as described above, aspects of the present disclosure include improvements related to cross-layer parallel processing offset delay parameter signaling. “Offset delay” may generally refer to the delay associated with decoding multiple layers in parallel. For example, rather than waiting for the entire reference layer to be decoded, video decoder 30 may delay decoding of the current layer until at least some of the reference layers are decoded. The offset delay may generally indicate the minimum amount of reference layer that is decoded before the video decoder begins decoding the current layer.

[0083] 本開示の態様によれば、オフセット遅延を示すデータは、VPSの中に含まれ得る。たとえば、ビデオエンコーダ20は、オフセット遅延情報を示すデータ(たとえば、1つまたは複数のシンタックス要素)をVPSの中で符号化し得る。同様に、ビデオデコーダ30は、符号化されたビットストリームから、オフセット遅延情報を示すデータを復号し得る。オフセット遅延情報は、2つ以上のレイヤによって参照され得る。たとえば、本開示の態様によれば、ビデオエンコーダ20および/またはビデオデコーダ30は、以下の表1に従ってオフセット遅延情報をシグナリング/復号し得る。   [0083] According to aspects of the present disclosure, data indicating offset delay may be included in the VPS. For example, video encoder 20 may encode data (eg, one or more syntax elements) indicating offset delay information in a VPS. Similarly, video decoder 30 may decode data indicating offset delay information from the encoded bitstream. Offset delay information may be referenced by more than one layer. For example, according to aspects of this disclosure, video encoder 20 and / or video decoder 30 may signal / decode offset delay information according to Table 1 below.

Figure 0006301467
Figure 0006301467

[0084] 上の表1において、0に等しいシンタックス要素ilp_restricted_ref_layers_flagは、VPSを参照するいかなるレイヤの直接参照レイヤのいずれについても、レイヤ間予測に対する制約がシグナリングされていないことを示す。しかしながら、1に等しいシンタックス要素ilp_restricted_ref_layers_flagは、レイヤ間予測に対する制約が、VPSを参照する1つまたは複数のレイヤの直接参照レイヤのいずれかにとって適用され得ることを規定する。   [0084] In Table 1 above, the syntax element ilp_restricted_ref_layers_flag equal to 0 indicates that no constraint on inter-layer prediction is signaled for any of the direct reference layers of any layer that reference the VPS. However, the syntax element ilp_restricted_ref_layers_flag equal to 1 specifies that the constraint on inter-layer prediction can be applied to either the direct reference layer of one or more layers that reference the VPS.

[0085] 別の例では、上の表1において、0に等しいシンタックス要素ilp_restricted_ref_layers_flagは、レイヤ間予測に対する制約が適用されてもされなくてもよいことを示し得る。この例では、しかしながら、1に等しいシンタックス要素ilp_restricted_ref_layers_flagは、VPSを参照する任意のレイヤの直接参照レイヤのいずれかについて、レイヤ間予測に対する制約がシグナリングされていることを示し得る。   [0085] In another example, in Table 1 above, a syntax element ilp_restricted_ref_layers_flag equal to 0 may indicate that constraints on inter-layer prediction may or may not be applied. In this example, however, a syntax element ilp_restricted_ref_layers_flag equal to 1 may indicate that the constraint for inter-layer prediction is signaled for any of the direct reference layers of any layer that references the VPS.

[0086] 加えて、シンタックス要素min_spatial_segment_offset_plus1、ctu_based_offset_enabled_flag、およびmin_horizontal_ctu_offset_plus1は、JCTVC−M0463に記載されるものと類似であり得るが、SPSからVPSへ移動され得る。たとえば、min_spatial_segment_offset_plus1[i][j]は、それ自体によって、または以下で規定されるmin_horizontal_ctu_offset_plus1[i][j]と一緒に、j番目の直接参照レイヤの各ピクチャの中の、レイヤインデックスiを有しVPSを参照するピクチャの復号のためのレイヤ間予測について使用されない空間エリアを示し得る。min_spatial_segment_offset_plus1[i][j]の値は、両端値を含む0〜refPicWidthInCtbsY[j]*refPicHeightInCtbsY[j]の範囲の中になければならない。存在しないとき、min_spatial_segment_offset_plus1[i][j]の値は0に等しいと推測され得る。いくつかの例では、最低限の空間セグメントは、CTU、スライス、またはタイルなどの様々な単位のビデオデータに関連付けられ得る。   [0086] In addition, the syntax elements min_spatial_segment_offset_plus1, ctu_based_offset_enabled_flag, and min_horizontal_ctu_offset_plus1 can be similar to those described in JCTVC-M0463. For example, min_spatial_segment_offset_plus1 [i] [j] has a layer index i in each picture of the jth direct reference layer by itself or together with min_horizontal_ctu_offset_plus1 [i] [j] defined below. And may indicate a spatial area that is not used for inter-layer prediction for decoding pictures that reference VPS. The value of min_spatial_segment_offset_plus1 [i] [j] must be in the range of 0 to refPicWidthInCtbsY [j] * refPicHeightInCtbsY [j] including both end values. When not present, the value of min_spatial_segment_offset_plus1 [i] [j] can be inferred to be equal to zero. In some examples, a minimal spatial segment may be associated with various units of video data such as CTUs, slices, or tiles.

[0087] 加えて、1に等しいシンタックス要素ctu_based_offset_enabled_flag[i][j]は、CTUを単位として、j番目の直接参照レイヤの各ピクチャの中の、レイヤインデックスiを有しVPSを参照するピクチャの復号のためのレイヤ間予測について使用されない空間エリアが、min_spatial_segment_offset_plus1[i][j]およびmin_horizontal_ctu_offset_plus1[i][j]によって一緒に示されることを規定する。しかしながら、0に等しいシンタックス要素ctu_based_offset_enabled_flag[i][j]は、スライスセグメント、タイル、またはCTU行を単位として、j番目の直接参照レイヤの各ピクチャの中の、SPSを参照するピクチャの復号のためのレイヤ間予測について使用されない空間エリアが、min_spatial_segment_offset_plus1[i][j]のみによって示されることを規定する。存在しないとき、ctu_based_offset_enabled_flag[i][j]の値は0に等しいと推測される。   [0087] In addition, the syntax element ctu_baseded_offset_enabled_flag [i] [j] equal to 1 is a picture having a layer index i and referring to the VPS in each picture of the jth direct reference layer in units of CTUs. The spatial area that is not used for inter-layer prediction for the decoding of is specified together by min_spatial_segment_offset_plus1 [i] [j] and min_horizontal_ctu_offset_plus1 [i] [j]. However, the syntax element ctu_based_offset_enabled_flag [i] [j] equal to 0 is used to decode a picture that references an SPS in each picture of the jth direct reference layer in units of slice segments, tiles, or CTU rows. A spatial area that is not used for inter-layer prediction is indicated by only min_spatial_segment_offset_plus1 [i] [j]. When not present, the value of ctu_based_offset_enabled_flag [i] [j] is assumed to be equal to 0.

[0088] 加えて、シンタックス要素min_horizontal_ctu_offset_plus1[i][j]は、シンタックス要素ctu_based_offset_enabled_flag[i][j]が1に等しいとき、j番目の直接参照レイヤの各ピクチャの中の、レイヤインデックスiを有しVPSを参照するピクチャの復号のためのレイヤ間予測について使用されない空間エリアを、以下で規定されるようにmin_spatial_segment_offset_plus1[i][j]と一緒に示す。min_horizontal_ctu_offset_plus1[i][j]の値は、両端値を含む0〜refPicWidthInCtbsY[j]の範囲の中になければならない。   [0088] In addition, the syntax element min_horizontal_ctu_offset_plus1 [i] [j] is a layer index i in each picture of the jth direct reference layer when the syntax element ctu_based_offset_enabled_flag [i] [j] is equal to 1. The spatial area that is not used for inter-layer prediction for decoding pictures that have VPS and refer to VPS is indicated together with min_spatial_segment_offset_plus1 [i] [j] as specified below. The value of min_horizontal_ctu_offset_plus1 [i] [j] must be in the range of 0 to refPicWidthInCtbsY [j] including both end values.

[0089] したがって、上記の例では、ビデオエンコーダ20および/またはビデオデコーダ30は、マルチレイヤビットストリームのいずれかのレイヤがレイヤ間予測制約を有するかどうかを示すデータをコーディングすることができ、そのデータは、VPSの中に含まれ得る。たとえば、ビデオエンコーダ20は、現在符号化されているレイヤのための少なくとも1つの参照レイヤが、関連付けられたオフセット遅延を有することを示すための、ilp_restricted_ref_layers_flagシンタックス要素を符号化し得る。同様に、ビデオデコーダ30は、ilp_restricted_ref_layers_flagシンタックス要素をVPSから復号し得る。この例では、ビデオデコーダ30は、現在コーディングされているレイヤのための1つまたは複数の参照レイヤが、関連付けられたオフセット遅延を有するかどうかを決定し得る。そのような遅延が示される場合、ビデオデコーダ30は、オフセット遅延情報と一致する量のデータが1つまたは複数の参照レイヤから復号されるまで、現在のレイヤを復号することを待ってもよい。   [0089] Thus, in the above example, video encoder 20 and / or video decoder 30 may code data indicating whether any layer of the multi-layer bitstream has inter-layer prediction constraints, Data may be included in the VPS. For example, video encoder 20 may encode an ilp_restricted_ref_layers_flag syntax element to indicate that at least one reference layer for the currently encoded layer has an associated offset delay. Similarly, video decoder 30 may decode the ilp_restricted_ref_layers_flag syntax element from the VPS. In this example, video decoder 30 may determine whether one or more reference layers for the currently coded layer have an associated offset delay. If such a delay is indicated, video decoder 30 may wait to decode the current layer until an amount of data consistent with the offset delay information is decoded from one or more reference layers.

[0090] 別の例では、ビデオエンコーダ20および/またはビデオデコーダ30は、補助強化情報(SEI)メッセージの中のオフセット遅延パラメータを示すデータ(たとえば、1つまたは複数のシンタックス要素)をコーディングし得る。たとえば、本開示の態様によれば、ビデオエンコーダ20および/またはビデオデコーダ30は、以下の表2に従ってオフセット遅延情報をシグナリング/復号し得る。   [0090] In another example, video encoder 20 and / or video decoder 30 code data (eg, one or more syntax elements) indicating an offset delay parameter in a supplemental enhancement information (SEI) message. obtain. For example, according to aspects of this disclosure, video encoder 20 and / or video decoder 30 may signal / decode offset delay information according to Table 2 below.

Figure 0006301467
Figure 0006301467

[0091] 表2の例では、シンタックス要素lp_sei_active_vps_idは、コーディングされたビデオシーケンス(CVS:coded video sequence)の中のレイヤについての情報を含むアクティブなVPSを識別する。シンタックス要素lp_sei_active_vps_idの値は、SEIメッセージを含むアクセスユニットのVCL NALユニットのためのアクティブなVPSのシンタックス要素vps_video_parameter_set_idの値に等しくなければならない。シンタックス要素ilp_restricted_ref_layers_flag、min_spatial_segment_offset_plus1、ctu_based_offset_enabled_flag、min_horizontal_ctu_offset_plus1のセマンティックは、表1に関して上述されたものと同じであり得る。さらに別の例では、シンタックス要素lp_sei_active_vps_idのシグナリングは省略されてもよい。   [0091] In the example of Table 2, the syntax element lp_sei_active_vps_id identifies an active VPS that includes information about a layer in a coded video sequence (CVS). The value of the syntax element lp_sei_active_vps_id must be equal to the value of the syntax element vps_video_parameter_set_id of the active VPS for the VCL NAL unit of the access unit containing the SEI message. The syntax elements ilp_restricted_ref_layers_flag, min_spatial_segment_offset_plus1, ctu_based_offset_enabled_flag, and min_horizontal_ctu_offset_plus are the same as the above, and the same as the above table is the same as the above table. In yet another example, signaling of the syntax element lp_sei_active_vps_id may be omitted.

[0092] 上述のように、本開示の技法はまた、拡張された空間スケーラビリティ、たとえば、拡張された空間スケーラビリティを使用するときに、配列されたCTUのロケーションと、関連付けられたオフセット遅延とを決定することに関する。表1および表2に関して上述したように、シンタックス要素min_spatial_segment_offset_plus1およびmin_horizontal_ctu_offset_plus1は、空間セグメントに関して、対応する参照レイヤに対するコーディングの依存性によってもたらされる、現在のレイヤの復号遅延を示し得る。特定のCTUのオフセット遅延の指示を受信した後、ビデオデコーダ30は、オフセット遅延を実現するように、配列されたCTUを配置し得る。すなわち、ビデオデコーダ30は、どのCTUが現在コーディングされているレイヤの中のレイヤ間予測のために利用可能であるかを決定するとともに、そのCTUを参照レイヤの中の配列されたCTUにマッピングし得る。   [0092] As described above, the techniques of this disclosure also determine the location of the aligned CTUs and the associated offset delay when using enhanced spatial scalability, eg, enhanced spatial scalability. About doing. As described above with respect to Tables 1 and 2, the syntax elements min_spatial_segment_offset_plus1 and min_horizontal_ctu_offset_plus1 may indicate the decoding delay of the current layer, due to the coding dependence on the corresponding reference layer, for the spatial segment. After receiving an indication of the offset delay for a particular CTU, video decoder 30 may place the arranged CTUs to achieve the offset delay. That is, video decoder 30 determines which CTUs are available for inter-layer prediction in the currently coded layer and maps that CTU to the ordered CTU in the reference layer. obtain.

[0093] 本開示の態様によれば、ビデオエンコーダ20および/またはビデオデコーダ30は、配列されたサンプル(たとえば、配列された参照サンプル)と、配列されたCTUとを導出し得る。配列されたCTUのロケーションは、配列されたサンプルに基づき得る。   [0093] According to aspects of this disclosure, video encoder 20 and / or video decoder 30 may derive arranged samples (eg, arranged reference samples) and arranged CTUs. The location of the arranged CTUs can be based on the arranged samples.

[0094] 例示のための一例では、第1のレイヤ(たとえば、エンハンスメントレイヤ)の中で現在コーディングされているサンプルが、第2の異なるレイヤ(たとえば、ベースレイヤ)の中の参照サンプルに関連してコーディングされることを想定する。ビデオエンコーダ20および/またはビデオデコーダ30は、ベースレイヤの中の参照サンプルを、ベースレイヤに関連付けられたスケーリングされたオフセットに基づいて配置し得る。スケーリングされたオフセットは、ベースレイヤとエンハンスメントレイヤとの間の空間的な差分に基づいて定義され得る。本開示の態様によれば、ビデオエンコーダ20および/またはビデオデコーダ30は、ベースレイヤの中の配列されたCTUを、配置された参照サンプルに基づいて配置し得る。たとえば、ビデオエンコーダ20および/またはビデオデコーダ30は、配列されたCTUを、以下の式に基づいて配置し得る。   [0094] In an example for illustration, a sample that is currently coded in a first layer (eg, enhancement layer) is associated with a reference sample in a second different layer (eg, base layer). Is assumed to be coded. Video encoder 20 and / or video decoder 30 may place reference samples in the base layer based on a scaled offset associated with the base layer. A scaled offset may be defined based on the spatial difference between the base layer and the enhancement layer. According to aspects of the present disclosure, video encoder 20 and / or video decoder 30 may arrange arranged CTUs in the base layer based on the arranged reference samples. For example, video encoder 20 and / or video decoder 30 may arrange the arranged CTUs based on the following equation:

Figure 0006301467
Figure 0006301467

ここで、xColCtbはCTUのx成分(たとえば、ルーマCTB、またはCTUのクロマCTBのうちの1つ)を表し、xRefは配列されたサンプルのx座標を表し、yColCtbは配列されたCTUのy成分を表し、yRefは配列されたサンプルのy座標を表し、colCtbAddr[i]は配列されたCTUのアドレスを表す。加えて、変数refCtbLog2SizeY[i][j]、refPicWidthInCtbsY[i][j]、およびrefPicHeightInCtbsY[i][j]は、i番目のレイヤのj番目の直接参照レイヤの、それぞれ、CtbLog2SizeY、PicWidthInCtbsY、およびPicHeightInCtbsYに等しく設定され得る。 Where xColCtb represents the x component of the CTU (eg, luma CTB or one of the CTU's chroma CTB), xRef represents the x coordinate of the arranged sample, and yColCtb represents the y component of the arranged CTU. YRef represents the y coordinate of the arranged sample, and colCtbAddr [i] represents the address of the arranged CTU. In addition, the variables refCtbLog2SizeY [i] [j], refPicWidthInCtbsY [i] [j], and refPicHeightInCtbsY [i] [j] are CtbLog2SizeYC, tcLog2SizeYC, tcLog2SizeYC, tcLog2SizeYC Can be set equal to PicHeightInCtbsY.

[0095] 加えて、本開示の態様によれば、配列されたCTUが現在のレイヤの中の特定のCTUのための参照レイヤの境界内に存在しないとき、ビデオエンコーダ20および/またはビデオデコーダ30は、調整されたアドレスが参照レイヤの中に存在するCTUに対応するように、CTUアドレスの値を対応する参照レイヤ境界に調整し得る。コロケートCTUが参照ピキュア内にある場合、調整は必要とされなくてよい。   [0095] Additionally, according to aspects of this disclosure, video encoder 20 and / or video decoder 30 when the aligned CTUs are not within the boundary of the reference layer for a particular CTU in the current layer. May adjust the value of the CTU address to the corresponding reference layer boundary such that the adjusted address corresponds to a CTU present in the reference layer. If the collocated CTU is in the reference picure, no adjustment may be required.

[0096] ビデオエンコーダ20および/またはビデオデコーダ30は、サンプルのロケーションxRefおよびyRef(たとえば、配列されたサンプルのx座標およびy座標)を、配列されたCTUのアドレスを導出する前の対応する参照レイヤ境界に以下の式に基づいてクリップすることによって、ロケーションを調整し得る。   [0096] Video encoder 20 and / or video decoder 30 may refer to sample locations xRef and yRef (eg, x and y coordinates of the arrayed samples) and corresponding references prior to deriving the addresses of the arrayed CTUs. The location can be adjusted by clipping to the layer boundary based on the following equation:

Figure 0006301467
Figure 0006301467

ここで、xRef[i]は配列されたサンプルのxコオディネイトを表し、yRef[i]は配列されたサンプルのyコオディネイトを表し、leftStartは現在のレイヤ(たとえば、エンハンスメントレイヤ)に関連する参照レイヤ(たとえば、ベースレイヤ)の左端を表し、rightEndは現在のレイヤに関連する参照レイヤの右端を表し、topStartは現在のレイヤに関連する参照レイヤの上端を表し、bottomEndは現在のレイヤに関連する参照レイヤの下端を表す。関数Clip3(x,y,z)は、z<xの場合はxを出力し、z>yの場合はyを出力し、他の場合はzを出力し得る。 Where xRef [i] represents the x coordinator of the arranged samples, yRef [i] represents the y coordinator of the arranged samples, and leftStart is the reference layer (eg, enhancement layer) associated with the current layer. For example, the left edge of the base layer), rightEnd represents the right edge of the reference layer associated with the current layer, topStart represents the top edge of the reference layer associated with the current layer, and bottomEnd is the reference layer associated with the current layer Represents the lower end of The function Clip3 (x, y, z) can output x when z <x, output y when z> y, and output z in other cases.

[0097] 上の式は、参照レイヤ内に配置されるように、配列されたサンプルの値を制限する。たとえば、参照サンプルの水平ロケーションが左の参照ピクチャ境界(reference picture boundary)の左側に配置されるとき、ビデオコーダは、水平ロケーションを左の参照ピクチャ境界のロケーションと取り換え得る。同様に、参照サンプルの水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、ビデオコーダは、水平ロケーションを右の参照ピクチャ境界のロケーションと取り換え得る。参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、ビデオコーダは、垂直ロケーションを上の参照ピクチャ境界のロケーションと取り換え得る。参照サンプルの垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、ビデオコーダは、垂直ロケーションを下の参照ピクチャ境界のロケーションと取り換え得る。ビデオエンコーダ20および/またはビデオデコーダ30、次いで、決定された境界のCTUを参照として、現在のレイヤの中のCTUのためのレイヤ間予測制約(inter-layer prediction constraint)(たとえば、オフェスト遅延)を適用し得る。   [0097] The above equation restricts the values of the arranged samples to be placed in the reference layer. For example, when the horizontal location of the reference sample is placed to the left of the left reference picture boundary, the video coder may replace the horizontal location with the location of the left reference picture boundary. Similarly, when the horizontal location of the reference sample is placed to the right of the right reference picture boundary, the video coder may replace the horizontal location with the location of the right reference picture boundary. When the vertical location of the reference sample is placed above the upper reference picture boundary, the video coder may replace the vertical location with the location of the upper reference picture boundary. When the vertical location of the reference sample is placed below the lower reference picture boundary, the video coder may replace the vertical location with the location of the lower reference picture boundary. With reference to video encoder 20 and / or video decoder 30 and then the determined boundary CTU, an inter-layer prediction constraint (e.g., offensive delay) for the CTU in the current layer Applicable.

[0098] このようにして、ビデオエンコーダ20および/またはビデオデコーダ30は、境界の参照レイヤ内に存在する配列されたCTUのロケーションを決定し得、レイヤ間予測制約(たとえば、オフセット遅延)を適切に適用し得る。   [0098] In this manner, video encoder 20 and / or video decoder 30 may determine the location of arranged CTUs that exist within the reference layer of the boundary, and appropriate inter-layer prediction constraints (eg, offset delay). Applicable to.

[0099] 本開示のさらに他の技法は、CTUオフセットが可能にされている(enabled)こと(たとえば、表1および表2で上述したctu_based_offset_enabled_flagシンタックス要素)をシグナリングする際の改善に関する。たとえば、ctu_based_offset_enabled_flagシンタックス要素は、シグナリングされているオフセット遅延がCTUを単位としていることを規定するために使用され得る。言い換えれば、ctu_based_offset_enabled_flagシンタックス要素の値が1に等しいとき、CTUを単位として、i番目の直接参照レイヤの各ピクチャの中の、SPSを参照するピクチャの復号のためのレイヤ間予測について使用されない空間エリアは、シンタックス要素min_spatial_segment_offset_plus1[i]およびシンタックス要素min_horizontal_ctu_offset_plus1[i]によって一緒に示される。   [0099] Still other techniques of this disclosure relate to improvements in signaling that CTU offsets are enabled (eg, the ctu_based_offset_enabled_flag syntax element described above in Tables 1 and 2). For example, the ctu_based_offset_enabled_flag syntax element may be used to specify that the offset delay being signaled is in CTUs. In other words, when the value of the ctu_based_offset_enabled_flag syntax element is equal to 1, the space that is not used for inter-layer prediction for decoding the picture that refers to the SPS in each picture of the i-th direct reference layer in units of CTU. The area is indicated together by the syntax element min_spatial_segment_offset_plus1 [i] and the syntax element min_horizontal_ctu_offset_plus1 [i].

[0100] JCTVC−M0463に記載されるものなどの、HEVC拡張のためのctu_based_offset_enabled_flagシグナリングについての現在の設計は、いくつかの欠点を有することがある。たとえば、CTUベースのオフセット遅延を1つのレイヤに対してシグナリングし、スライスベース、タイルベース、またはCTU行ベースのオフセット遅延を別のレイヤ(たとえば、CTUベースのオフセット遅延がない)に対してシグナリングすることは、比較的複雑であり得る。たとえば、たいていの場合、オフセット遅延を示すために使用される空間セグメントは、すべてのレイヤについて同じであり得、別個のシグナリングを不必要に複雑にさせる。この意味において、ctu_based_offset_enabled_flagシンタックス要素を、すべてのレイヤおよびそれらの直接参照レイヤに適用可能なグローバルフラグにさせることが望ましいことがある。   [0100] Current designs for ctu_based_offset_enabled_flag signaling for HEVC extensions, such as those described in JCTVC-M0463, may have several drawbacks. For example, CTU-based offset delay is signaled to one layer and slice-based, tile-based, or CTU row-based offset delay is signaled to another layer (eg, no CTU-based offset delay) Things can be relatively complex. For example, in most cases, the spatial segment used to indicate the offset delay may be the same for all layers, making separate signaling unnecessarily complicated. In this sense, it may be desirable to make the ctu_based_offset_enabled_flag syntax element a global flag applicable to all layers and their direct reference layers.

[0101] 加えて、現在のレイヤまたは現在のレイヤの直接参照レイヤ(現在のレイヤが直接参照する先の参照レイヤ)のいずれかの中に2つ以上のタイルが存在するとき、min_horizontal_ctu_offset_plus1シンタックス要素は有用でないことがある。たとえば、タイルが整列されていないとき、min_horizontal_ctu_offset_plus1シンタックス要素の値は、異なるタイルに属する空間セグメントを指すことがある。このことは、コーディングの間に異なるタイルのデータを参照する必要を潜在的にもたらし得、それは並列コーディングのために受け入れられ得ない。   [0101] In addition, the min_horizontal_ctu_offset_plus1 syntax element when there are two or more tiles in either the current layer or the direct reference layer of the current layer (the reference layer that the current layer directly references) May not be useful. For example, when tiles are not aligned, the value of the min_horizontal_ctu_offset_plus1 syntax element may refer to spatial segments belonging to different tiles. This can potentially lead to the need to reference different tiles of data during coding, which is not acceptable for parallel coding.

[0102] 本開示の態様によれば、ビデオエンコーダ20および/またはビデオデコーダ30は、下の表3に示すVPSを実装し得る(ここで、テキスト[削除:]はJCTVC−M0463からの削除を示す)。   [0102] According to aspects of this disclosure, video encoder 20 and / or video decoder 30 may implement the VPS shown in Table 3 below (where the text [deletion:] deletes from JCTVC-M0463. Show).

Figure 0006301467
Figure 0006301467

[0103] 表3の例では、1に等しいシンタックス要素ctu_based_offset_enabled_flagは、CTUを単位として、すべての直接参照レイヤピクチャについての[JCTVC−M0463から削除:i番目の直接参照レイヤの各ピクチャの中の]、[JCTVC−M0463から削除:SPS]VPSを参照するピクチャの復号のためのレイヤ間予測について使用されない空間エリアが、シンタックス要素min_spatial_segment_offset_plus1[i]およびシンタックス要素min_horizontal_ctu_offset_plus1[i]によって一緒に示されることを規定する。0に等しいシンタックス要素ctu_based_offset_enabled_flagは、スライスセグメント、タイル、またはCTU行を単位として、[JCTVC−M0463から削除:i番目の直接参照レイヤの各ピクチャの中の]すべての直接参照レイヤピクチャについての、VPSを参照するピクチャの復号のためのレイヤ間予測について使用されない空間エリアが、min_spatial_segment_offset_plus1[i]のみによって示されることを規定する。存在しないとき、ctu_based_offset_enabled_flag[i]の値は0に等しいと推測される。本開示の態様によれば、すべてのレイヤのアクティブなPPSについてシンタックス要素tiles_enabled_flagが1に等しい場合に、シンタックス要素ctu_based_offset_enabled_flagが0に等しくなければならないことは、ビットストリーム準拠の要件であり得る。   [0103] In the example of Table 3, the syntax element ctu_baseded_offset_enabled_flag equal to 1 is set to [Delete from JCTVC-M0463: in each picture of the i-th direct reference layer for all direct reference layer pictures in units of CTUs. ], [Deleted from JCTVC-M0463: SPS] Spatial areas not used for inter-layer prediction for decoding pictures that reference VPS are indicated in syntax element min_spatial_segment_offset_plus1 [i] and syntax element min_horizontal_ctu_offset_plus1 [i] Stipulate that The syntax element ctu_baseded_offset_enabled_flag equal to 0, in units of slice segments, tiles, or CTU rows, is deleted from [JCTVC-M0463: in each picture of the i th direct reference layer] for all direct reference layer pictures. Specifies that the spatial area not used for inter-layer prediction for decoding pictures that reference VPS is indicated only by min_spatial_segment_offset_plus1 [i]. When not present, the value of ctu_based_offset_enabled_flag [i] is assumed to be equal to 0. According to aspects of this disclosure, it may be a bitstream compliant requirement that the syntax element ctu_based_offset_enabled_flag must be equal to 0 when the syntax element tiles_enabled_flag is equal to 1 for active PPS of all layers.

[0104] 別の例では、ビデオエンコーダ20および/またはビデオデコーダ30は、下の表4に示すVPSを実装し得る(ここで、テキスト[削除:]はJCTVC−M0463からの削除を示す)。   [0104] In another example, video encoder 20 and / or video decoder 30 may implement the VPS shown in Table 4 below (where text [deletion:] indicates deletion from JCTVC-M0463).

Figure 0006301467
Figure 0006301467

[0105] 表4の例では、1に等しいシンタックス要素ctu_based_offset_enabled_flag[i]は、CTUを単位として、すべての直接参照レイヤピクチャについての[JCTVC−M0463から削除:i番目の直接参照レイヤの各ピクチャの中の]、レイヤインデックスiを有しVPS[JCTVC−M0463から削除:SPS]を参照するピクチャの復号のためのレイヤ間予測について使用されない空間エリアが、シンタックス要素min_spatial_segment_offset_plus1[i]およびシンタックス要素min_horizontal_ctu_offset_plus1[i]によって一緒に示されることを規定する。0に等しいシンタックス要素ctu_based_offset_enabled_flag[i]は、スライスセグメント、タイル、またはCTU行を単位として、すべての直接参照レイヤピクチャについての[JCTVC−M0463から削除:i番目の直接参照レイヤの各ピクチャの中の]、レイヤインデックスiを有しVPSを参照するピクチャの復号のためのレイヤ間予測について使用されない空間エリアが、min_spatial_segment_offset_plus1[i]のみによって示されることを規定する。存在しないとき、シンタックス要素ctu_based_offset_enabled_flag[i]の値は0に等しいと推測される。本開示の態様によれば、すべてのレイヤのアクティブなPPSについてシンタックス要素tiles_enabled_flagが1に等しい場合に、シンタックス要素ctu_based_offset_enabled_flagが0に等しくなければならないことは、ビットストリーム準拠の要件であり得る。上記のシンタックス要素は、SPS、PPS、スライスヘッダまたはそれの拡張の中でシグナリングされ得る。上のシンタックスはまた、SEIメッセージとしてまたはVUIメッセージとしてシグナリングされ得る。   In the example of Table 4, the syntax element ctu_based_offset_enabled_flag [i] equal to 1 is [Deleted from JCTVC-M0463: each picture of the i-th direct reference layer for all direct reference layer pictures in units of CTUs. ], A spatial area that is not used for inter-layer prediction for decoding a picture with layer index i and that references VPS [deleted from JCTVC-M0463: SPS] includes syntax element min_spatial_segment_offset_plus1 [i] and syntax Specifies that they are indicated together by the element min_horizontal_ctu_offset_plus1 [i]. The syntax element ctu_based_offset_enabled_flag [i] equal to 0 is for [directly removed from JCTVC-M0463: in each picture of the i th direct reference layer for all direct reference layer pictures in units of slice segments, tiles, or CTU rows. ] Specifies that the spatial area not used for inter-layer prediction for decoding of a picture with layer index i and referring to VPS is indicated only by min_spatial_segment_offset_plus1 [i]. When not present, the value of the syntax element ctu_based_offset_enabled_flag [i] is assumed to be equal to 0. According to aspects of this disclosure, it may be a bitstream compliant requirement that the syntax element ctu_based_offset_enabled_flag must be equal to 0 when the syntax element tiles_enabled_flag is equal to 1 for active PPS of all layers. The above syntax elements may be signaled in SPS, PPS, slice header or extensions thereof. The above syntax can also be signaled as a SEI message or as a VUI message.

[0106] 本開示のさらに他の技法は、レイヤ間でのタイルの整列を示すことに関する。たとえば、上述のように、タイルは、ピクチャのパーティションを含み得、並列コーディングのために使用され得る。タイル境界は、スライス境界と同様に、タイルが単独で処理され得るようにパースおよび予測の依存性を分断するが、ループ内フィルタ(デブロッキングおよびサンプル適応オフセット(SAO:sample adaptive offset))は依然としてタイル境界を横切ることができる。タイルベースの構造を実装することは、並列処理を可能にし得、スライスの使用と比較してCTUの復号順序を変えさせることによってコーディング効率を改善し得る。   [0106] Yet another technique of the present disclosure relates to indicating tile alignment between layers. For example, as described above, a tile may include a partition of a picture and may be used for parallel coding. Tile boundaries, like slice boundaries, decouple the parsing and prediction dependencies so that tiles can be processed alone, but the in-loop filter (deblocking and sample adaptive offset (SAO)) is still Can cross tile boundaries. Implementing a tile-based structure may allow parallel processing and may improve coding efficiency by changing the decoding order of CTUs compared to the use of slices.

[0107] たとえば、一般性を喪失することなく、4つのタイルが参照レイヤおよびエンハンスメントレイヤについて使用されると想定する。この場合、ビデオエンコーダ20および/またはビデオデコーダ30は、4つのプロセッサコアを用いてコーディングを実行し得、プロセッサコアの各々は、タイルのうちのそれぞれの1つに専用される。レイヤ間でのタイルの整列は、タイルが処理される方式と密接な関係があり得る。たとえば、4つのタイルが並列に処理され得ることを確実にするために、ビデオエンコーダ20および/またはビデオデコーダ30は、いくつかの制約を強いることがある。たとえば、レイヤ間フィルタリングのアップサンプリングは、参照レイヤの中のタイル境界を横切ることを許され得ない。エンハンスメントタイルについて、参照レイヤサンプルがこのエンハンスメントタイルに整列されていないタイルに属する(すなわち、その中に含まれる)場合、参照レイヤの配列されたサンプルは、利用不可能であると見なされる。   [0107] For example, assume that four tiles are used for the reference layer and the enhancement layer without loss of generality. In this case, video encoder 20 and / or video decoder 30 may perform coding using four processor cores, each of which is dedicated to a respective one of the tiles. The alignment of tiles between layers can be closely related to the manner in which the tiles are processed. For example, video encoder 20 and / or video decoder 30 may impose some constraints to ensure that four tiles can be processed in parallel. For example, upsampling of inter-layer filtering may not be allowed to cross tile boundaries in the reference layer. For an enhancement tile, if a reference layer sample belongs to (ie, is contained in) a tile that is not aligned with this enhancement tile, the ordered sample of the reference layer is considered unavailable.

[0108] 本開示の態様によれば、タイル境界が整列されているかどうかの指示は、VPSの中で提供され得る。たとえば、ビデオエンコーダ20は、マルチレイヤビットストリームのレイヤが整列されるように制約されているかどうかを示す、1つまたは複数のシンタックス要素をVPSの中で符号化し得る(また、ビデオデコーダ30は解析および復号し得る)。VPSの中でシグナリングされるような、タイル境界の整列された情報は、ビットストリームのすべてのレイヤに適用されるクロスレイヤの範囲を有し得る。   [0108] According to aspects of this disclosure, an indication of whether tile boundaries are aligned may be provided in the VPS. For example, video encoder 20 may encode one or more syntax elements in the VPS that indicate whether the layers of the multi-layer bitstream are constrained to be aligned (and video decoder 30 may also Can be parsed and decoded). Tiled boundary aligned information, as signaled in a VPS, may have a cross-layer range that applies to all layers of the bitstream.

[0109] 一例では、ビデオエンコーダ20および/またはビデオデコーダ30は、以下の表5に示すVPSを実装し得る。   [0109] In one example, video encoder 20 and / or video decoder 30 may implement the VPS shown in Table 5 below.

Figure 0006301467
Figure 0006301467

[0110] 表5の例では、1に等しいシンタックス要素tile_boundaries_aligned_flagは、アクセスユニットの中の1つのピクチャのいずれか2つのサンプルが1つのタイルに属するとき、もしあれば、同じアクセスユニットの中の別のピクチャの中の配列されたサンプルは1つのタイルに属し、アクセスユニットの中の1つのピクチャのいずれか2つのサンプルが異なるタイルに属するとき、同じアクセスユニットの中の別のピクチャの中の配列されたサンプルは異なるタイルに属さなければならないことを示す。0に等しいシンタックス要素tile_boundaries_aligned_flagは、そのような制約が適用されてもされなくてもよいことを示す。たとえば、0に等しいシンタックス要素tile_boundaries_aligned_flagは、タイルが整列されてもよいが、整列されるように厳密に制約されるとは限らないことを示し得る。   [0110] In the example of Table 5, the syntax element tile_boundaries_aligned_flag equal to 1 indicates that if any two samples of one picture in an access unit belong to one tile, if any, An ordered sample in another picture belongs to one tile, and when any two samples of one picture in an access unit belong to different tiles, in another picture in the same access unit Indicates that the arranged samples must belong to different tiles. The syntax element tile_boundaries_aligned_flag equal to 0 indicates that such a constraint may or may not be applied. For example, the syntax element tile_boundaries_aligned_flag equal to 0 may indicate that tiles may be aligned, but are not strictly constrained to be aligned.

[0111] したがって、技法は、ビデオデコーダ30が、現在復号されているレイヤについて、現在のレイヤのタイル境界が現在のレイヤのいずれかの参照レイヤと整列されているかどうかを、VPSを復号することによって決定できるようにし得る。たとえば、ビデオデコーダ30は、各直接参照レイヤ(たとえば、直接依存性フラグによって示される)が、現在のレイヤのタイルと整列されているタイル境界を有するかどうかを決定し得る。   [0111] Thus, the technique is for the video decoder 30 to decode the VPS for the currently decoded layer, whether the tile boundary of the current layer is aligned with any reference layer of the current layer. Can be determined by. For example, video decoder 30 may determine whether each direct reference layer (eg, indicated by a direct dependency flag) has a tile boundary that is aligned with the tile of the current layer.

[0112] 図2は、ビデオデータを並列に処理するための技法を実装し得るビデオエンコーダ20の一例を示すブロック図である。ビデオエンコーダ20は、ビデオスライス内のビデオブロックのイントラコーディングとインターコーディングとを実施することができる。イントラコーディングは、空間的予測を利用して、所与のビデオフレームまたはピクチャ内のビデオの空間的冗長性を低減または除去する。インターコーディングは、時間的予測を利用して、ビデオシーケンスの隣接フレームまたはピクチャ内のビデオの時間的冗長性を低減または除去する。イントラモード(Iモード)は、いくつかの空間ベースのコーディングモードのいずれかを指す場合がある。単方向予測(Pモード)または双方向予測(Bモード)などのインターモードは、いくつかの時間ベースのコーディングモードのいずれかを指す場合がある。   [0112] FIG. 2 is a block diagram illustrating an example of a video encoder 20 that may implement techniques for processing video data in parallel. Video encoder 20 may perform intra-coding and inter-coding of video blocks within a video slice. Intra coding utilizes spatial prediction to reduce or remove the spatial redundancy of video within a given video frame or picture. Intercoding utilizes temporal prediction to reduce or remove temporal redundancy of video in adjacent frames or pictures of the video sequence. Intra mode (I mode) may refer to any of several spatial based coding modes. Inter modes such as unidirectional prediction (P mode) or bidirectional prediction (B mode) may refer to any of several time-based coding modes.

[0113] 上述のように、ビデオエンコーダ20は、マルチビューおよび/またはスケーラブルビデオコーディングを実行するように構成され得る。たとえば、ビデオエンコーダ20は、SHVC、MV−HEVC、または3D−HEVCなどの1つまたは複数のビデオコーディング規格の拡張に準拠するビットストリームを符号化するように構成され得る。ただし、特定のコーディング規格が参照されるが、本技法は、任意の1つのコーディング規格に固有のものではなく、将来のおよび/またはまだ開発されていない規格とともに実装され得ることを理解されたい。   [0113] As described above, video encoder 20 may be configured to perform multi-view and / or scalable video coding. For example, video encoder 20 may be configured to encode a bitstream that conforms to an extension of one or more video coding standards such as SHVC, MV-HEVC, or 3D-HEVC. However, although specific coding standards are referenced, it should be understood that the techniques are not specific to any one coding standard and may be implemented with future and / or standards that have not yet been developed.

[0114] 図2に示されたように、ビデオエンコーダ20は、符号化されるべきビデオフレーム内の現在ビデオブロックを受信する。図2の例では、ビデオエンコーダ20は、ビデオデータメモリ38と、モード選択ユニット40と、参照ピクチャメモリ64と、加算器50と、変換処理ユニット52と、量子化ユニット54と、エントロピー符号化ユニット56とを含む。モード選択ユニット40は、今度は、動き補償ユニット44と、動き推定ユニット42と、イントラ予測ユニット46と、区分ユニット48とを含む。ビデオブロック再構成のために、ビデオエンコーダ20はまた、逆量子化ユニット58と、逆変換ユニット60と、加算器62とを含む。ブロック境界をフィルタ処理して復元されたビデオからブロッキネスアーティファクトを除去するために、デブロッキングフィルタ(図2に示されず)が含まれる場合もある。所望される場合、デブロッキングフィルタは、一般に、加算器62の出力をフィルタリングすることになる。追加のフィルタ(ループ内またはループ後)もデブロッキングフィルタに加えて使用され得る。そのようなフィルタは簡潔のために示されていないが、必要な場合、(ループ内フィルタとして)加算器50の出力をフィルタ処理することができる。   [0114] As shown in FIG. 2, video encoder 20 receives a current video block in a video frame to be encoded. In the example of FIG. 2, the video encoder 20 includes a video data memory 38, a mode selection unit 40, a reference picture memory 64, an adder 50, a transform processing unit 52, a quantization unit 54, and an entropy coding unit. 56. The mode selection unit 40 now includes a motion compensation unit 44, a motion estimation unit 42, an intra prediction unit 46, and a partition unit 48. For video block reconstruction, video encoder 20 also includes an inverse quantization unit 58, an inverse transform unit 60, and an adder 62. A deblocking filter (not shown in FIG. 2) may be included to filter block boundaries and remove blockiness artifacts from the recovered video. If desired, the deblocking filter will generally filter the output of adder 62. Additional filters (in or after the loop) can also be used in addition to the deblocking filter. Such a filter is not shown for brevity, but the output of adder 50 can be filtered (as an in-loop filter) if necessary.

[0115] ビデオデータメモリ38は、ビデオエンコーダ20の構成要素によって符号化されるべきビデオデータを記憶し得る。ビデオデータメモリ38に記憶されるビデオデータは、たとえば、ビデオソース18から取得され得る。参照ピクチャメモリ64は、たとえば、イントラコーディングモードまたはインターコーディングモードで、ビデオエンコーダ20によってビデオデータを符号化する際に使用するための参照ビデオデータを記憶する、復号ピクチャバッファと呼ばれることがある。ビデオデータメモリ38および参照ピクチャメモリ64は、同期DRAM(SDRAM)、磁気抵抗RAM(MRAM)、抵抗RAM(RRAM(登録商標))、または他のタイプのメモリデバイスを含む、ダイナミックランダムアクセスメモリ(DRAM)など、様々なメモリデバイスのいずれかによって形成され得る。ビデオデータメモリ38および参照ピクチャメモリ64は、同じメモリデバイスまたは別個のメモリデバイスによって設けられ得る。様々な例では、ビデオデータメモリ38は、ビデオエンコーダ20の他の構成要素とともにオンチップであってよく、またはそれらの構成要素に対してオフチップであってもよい。   [0115] The video data memory 38 may store video data to be encoded by the components of the video encoder 20. Video data stored in the video data memory 38 may be obtained from the video source 18, for example. Reference picture memory 64 may be referred to as a decoded picture buffer that stores reference video data for use in encoding video data by video encoder 20 in, for example, intra coding mode or inter coding mode. Video data memory 38 and reference picture memory 64 may include dynamic random access memory (DRAM), including synchronous DRAM (SDRAM), magnetoresistive RAM (MRAM), resistive RAM (RRAM®), or other types of memory devices. ), Etc., may be formed by any of a variety of memory devices. Video data memory 38 and reference picture memory 64 may be provided by the same memory device or separate memory devices. In various examples, video data memory 38 may be on-chip with other components of video encoder 20 or may be off-chip with respect to those components.

[0116] 符号化プロセス中に、ビデオエンコーダ20は、コーディングされるべきビデオフレームまたはスライスを受信する。フレームまたはスライスは、複数のビデオブロックに分割され得る。動き推定ユニット42および動き補償ユニット44は、時間予測を行うために、1つまたは複数の参照フレーム中の1つまたは複数のブロックに対して受信されたビデオブロックのインター予測コーディングを実行する。イントラ予測ユニット46は、代替として、空間予測を実現するために、コーディングされるべきブロックと同じフレームまたはスライス内の1つまたは複数の隣接ブロックに対して受信されたビデオブロックのイントラ予測コーディングを実行することができる。ビデオエンコーダ20は、たとえば、ビデオデータのブロックごとに適切なコーディングモードを選択するために、複数のコーディングパスを実行することができる。   [0116] During the encoding process, video encoder 20 receives a video frame or slice to be coded. A frame or slice may be divided into multiple video blocks. Motion estimation unit 42 and motion compensation unit 44 perform inter-prediction coding of received video blocks for one or more blocks in one or more reference frames to perform temporal prediction. Intra-prediction unit 46 alternatively performs intra-predictive coding of the received video block for one or more neighboring blocks in the same frame or slice as the block to be coded to achieve spatial prediction can do. Video encoder 20 may perform multiple coding passes, for example, to select an appropriate coding mode for each block of video data.

[0117] その上、パーティションユニット48は、以前のコーディングパスにおける以前の区分方式の評価に基づいて、ビデオデータのブロックをサブブロックに区分することができる。たとえば、パーティションユニット48は、最初にフレームまたはスライスをLCUに区分し、レートひずみ分析(たとえば、レートひずみ最適化)に基づいてLCUの各々をサブCUに区分することができる。モード選択ユニット40は、LCUをサブCUに区分することを示す4分木データ構造をさらに生成し得る。4分木のリーフノードCUは、1つまたは複数のPUと1つまたは複数のTUとを含む場合がある。   [0117] Moreover, the partition unit 48 can partition the block of video data into sub-blocks based on the evaluation of the previous partitioning scheme in the previous coding pass. For example, partition unit 48 may first partition a frame or slice into LCUs and partition each of the LCUs into sub-CUs based on rate distortion analysis (eg, rate distortion optimization). Mode selection unit 40 may further generate a quadtree data structure that indicates partitioning the LCU into sub-CUs. A quadtree leaf node CU may include one or more PUs and one or more TUs.

[0118] モード選択ユニット40は、たとえば、誤差結果に基づいてコーディングモード、すなわち、イントラまたはインターのうちの1つを選択し、残差ブロックデータを生成するために、得られたイントラコード化ブロックまたはインターコード化ブロックを加算器50に与え、参照フレームとして使用するための符号化ブロックを再構成するために、得られたイントラコード化ブロックまたはインターコード化ブロックを加算器62に与え得る。モード選択ユニット40はまた、動きベクトル、イントラモードインジケータ、パーティション情報、および他のそのようなシンタックス情報などのシンタックス要素をエントロピー符号化ユニット56に与える。   [0118] The mode selection unit 40 selects, for example, a coding mode, ie, one of intra or inter, based on the error result, and generates the residual block data to generate residual block data. Alternatively, an inter-coded block may be provided to adder 50 and the resulting intra-coded block or inter-coded block may be provided to adder 62 for reconstructing a coded block for use as a reference frame. Mode selection unit 40 also provides syntax elements such as motion vectors, intra mode indicators, partition information, and other such syntax information to entropy encoding unit 56.

[0119] 動き推定ユニット42と動き補償ユニット44とは、高度に統合され得るが、概念的な目的のために別々に示してある。動き推定ユニット42によって実施される動き推定は、ビデオブロックの動きを推定する動きベクトルを生成するプロセスである。動きベクトルは、たとえば、現在フレーム(または他のコード化ユニット)内でコーディングされている現在ブロックに対する参照フレーム(または他のコード化ユニット)内の予測ブロックに対する現在ビデオフレームまたはピクチャ内のビデオブロックのPUの変位を示し得る。予測ブロックは、絶対値差分和(SAD:sum of absolute difference)、2乗差分和(SSD:sum of square difference)、または他の差分メトリックによって決定され得るピクセル差分に関して、コーディングされるべきブロックにぴったり一致することがわかるブロックである。いくつかの例では、ビデオエンコーダ20は、参照ピクチャメモリ64に記憶された参照ピクチャのサブ整数ピクセル位置の値を計算し得る。たとえば、ビデオエンコーダ20は、参照ピクチャの1/4ピクセル位置、1/8ピクセル位置、または他の分数ピクセル位置の値を補間し得る。したがって、動き推定ユニット42は、フルピクセル位置と分数ピクセル位置とに対する動き探索を実施し、分数ピクセル精度で動きベクトルを出力し得る。   [0119] Motion estimation unit 42 and motion compensation unit 44 may be highly integrated, but are shown separately for conceptual purposes. Motion estimation performed by motion estimation unit 42 is a process that generates a motion vector that estimates the motion of a video block. The motion vector is, for example, the current video frame or the video block in the picture for the predicted block in the reference frame (or other coding unit) for the current block being coded in the current frame (or other coding unit). It may indicate the displacement of the PU. Predictive blocks are perfect for blocks to be coded with respect to pixel differences that can be determined by sum of absolute difference (SAD), sum of square difference (SSD), or other difference metrics. This block is known to match. In some examples, video encoder 20 may calculate a sub-integer pixel position value for a reference picture stored in reference picture memory 64. For example, video encoder 20 may interpolate values for 1/4 pixel position, 1/8 pixel position, or other fractional pixel position of the reference picture. Accordingly, motion estimation unit 42 may perform a motion search for full pixel positions and fractional pixel positions and output a motion vector with fractional pixel accuracy.

[0120] 動き推定ユニット42は、PUの位置を参照ピクチャの予測ブロックの位置と比較することによって、インターコード化スライスにおけるビデオブロックのPUのための動きベクトルを計算する。参照ピクチャは、第1の参照ピクチャリスト(リスト0)または第2の参照ピクチャリスト(リスト1)から選択されてよく、それらの参照ピクチャリストの各々は、参照ピクチャメモリ64に記憶された1つまたは複数の参照ピクチャを識別する。動き推定ユニット42は、計算された動きベクトルをエントロピー符号化ユニット56と動き補償ユニット44とに送る。   [0120] The motion estimation unit 42 calculates a motion vector for the PU of the video block in the inter-coded slice by comparing the position of the PU with the position of the prediction block of the reference picture. The reference pictures may be selected from a first reference picture list (List 0) or a second reference picture list (List 1), each of these reference picture lists being stored in one reference picture memory 64. Or, identify multiple reference pictures. Motion estimation unit 42 sends the calculated motion vector to entropy encoding unit 56 and motion compensation unit 44.

[0121] 動き補償ユニット44によって実施される動き補償は、動き推定ユニット42によって決定された動きベクトルに基づいて予測ブロックをフェッチまたは生成することに関与し得る。この場合も、いくつかの例では、動き推定ユニット42と動き補償ユニット44とは機能的に統合され得る。現在ビデオブロックのPUについての動きベクトルを受信すると、動き補償ユニット44は、動きベクトルが参照ピクチャリストのうちの1つにおいて指す予測ブロックの位置を特定し得る。加算器50は、以下で説明されるように、コーディングされている現在ビデオブロックのピクセル値から予測ブロックのピクセル値を減算し、ピクセル差分値を形成することによって、残差ビデオブロックを形成する。一般に、動き推定ユニット42はルーマ成分に対して動き推定を実行し、動き補償ユニット44は、クロマ成分とルーマ成分の両方のためにルーマ成分に基づいて計算された動きベクトルを使用する。モード選択ユニット40はまた、ビデオスライスのビデオブロックを復号する際にビデオデコーダ30が使用するためのビデオブロックとビデオスライスとに関連するシンタックス要素を生成し得る。   [0121] Motion compensation performed by motion compensation unit 44 may involve fetching or generating a prediction block based on a motion vector determined by motion estimation unit 42. Again, in some examples, motion estimation unit 42 and motion compensation unit 44 may be functionally integrated. Upon receiving a motion vector for the PU of the current video block, motion compensation unit 44 may locate the predicted block that the motion vector points to in one of the reference picture lists. Adder 50 forms a residual video block by subtracting the pixel value of the prediction block from the pixel value of the current video block being coded, as described below, to form a pixel difference value. In general, motion estimation unit 42 performs motion estimation on luma components, and motion compensation unit 44 uses motion vectors calculated based on luma components for both chroma and luma components. The mode selection unit 40 may also generate syntax elements associated with the video blocks and video slices for use by the video decoder 30 in decoding the video blocks of the video slice.

[0122] イントラ予測ユニット46は、前述のように、動き推定ユニット42と動き補償ユニット44とによって実行されるインター予測の代替として、現在のブロックをイントラ予測し得る。特に、イントラ予測ユニット46は、現在のブロックを符号化するために使用するようにイントラ予測モードを決定することができる。いくつかの例では、イントラ予測ユニット46は、たとえば、別個の符号化パスにおいて、様々なイントラ予測モードを使用して現在のブロックを符号化することができ、イントラ予測ユニット46(または、いくつかの例では、モード選択ユニット40)は、テストされたモードから使用するのに適切なイントラ予測モードを選択することができる。   [0122] Intra-prediction unit 46 may intra-predict the current block as an alternative to the inter-prediction performed by motion estimation unit 42 and motion compensation unit 44, as described above. In particular, intra prediction unit 46 may determine an intra prediction mode to use to encode the current block. In some examples, intra-prediction unit 46 may encode the current block using various intra-prediction modes, eg, in a separate coding pass, and intra-prediction unit 46 (or several In this example, the mode selection unit 40) can select an appropriate intra prediction mode to use from the tested modes.

[0123] たとえば、イントラ予測ユニット46は、様々なテストされたイントラ予測モードのためのレートひずみ分析を使用してレートひずみ値を計算し、テストされたモードの中で最良のレートひずみ特性を有するイントラ予測モードを選択し得る。レートひずみ分析は、概して、符号化されたブロックと、符号化されたブロックを生成するために符号化された元の符号化されていないブロックとの間のひずみ(または誤差)の量、ならびに符号化されたブロックを生成するために使用されるビットレート(すなわち、ビット数)を決定する。イントラ予測ユニット46は、どのイントラ予測モードがブロックについて最良のレートひずみ値を呈するかを決定するために、様々な符号化されたブロックのひずみおよびレートから比率を計算し得る。   [0123] For example, the intra prediction unit 46 calculates rate distortion values using rate distortion analysis for various tested intra prediction modes and has the best rate distortion characteristics among the tested modes. An intra prediction mode may be selected. Rate distortion analysis generally involves the amount of distortion (or error) between the encoded block and the original unencoded block that was encoded to produce the encoded block, as well as the code Determine the bit rate (ie, the number of bits) used to generate the normalized block. Intra-prediction unit 46 may calculate a ratio from the various encoded block distortions and rates to determine which intra-prediction mode exhibits the best rate distortion value for the block.

[0124] ブロックのためのイントラ予測モードを選択した後に、イントラ予測ユニット46は、ブロックのための選択されたイントラ予測モードを示す情報をエントロピー符号化ユニット56に与え得る。エントロピー符号化ユニット56は、選択されたイントラ予測モードを示す情報を符号化し得る。ビデオエンコーダ20は、送信ビットストリーム中に、複数のイントラ予測モードインデックステーブルおよび複数の変更されたイントラ予測モードインデックステーブル(コードワードマッピングテーブルとも呼ばれる)と、様々なブロックの符号化コンテキストの定義と、コンテキストの各々について使用すべき、最確イントラ予測モード、イントラ予測モードインデックステーブル、および変更されたイントラ予測モードインデックステーブルの指示とを含み得る、構成データを含め得る。   [0124] After selecting an intra prediction mode for the block, intra prediction unit 46 may provide information indicating the selected intra prediction mode for the block to entropy encoding unit 56. Entropy encoding unit 56 may encode information indicative of the selected intra prediction mode. The video encoder 20 includes a plurality of intra prediction mode index tables and a plurality of modified intra prediction mode index tables (also referred to as codeword mapping tables) in the transmitted bitstream, definitions of encoding contexts of various blocks, Configuration data may be included, which may include the most probable intra prediction mode, intra prediction mode index table, and modified intra prediction mode index table indications to be used for each of the contexts.

[0125] ビデオエンコーダ20は、コーディングされている元のビデオブロックから、モード選択ユニット40からの予測データを減算することによって、残差ビデオブロックを形成する。加算器50は、この減算演算を実行する1つまたは複数の構成要素を表す。変換処理ユニット52は、離散コサイン変換(DCT)または概念的に同様の変換などの変換を残差ブロックに適用し、残差変換係数値を含むビデオブロックを生成する。変換処理ユニット52は、DCTと概念的に同様である他の変換を実行することができる。ウェーブレット変換、整数変換、サブバンド変換または他のタイプの変換も使用され得る。いずれの場合も、変換処理ユニット52は、変換を残差ブロックに適用し、残差変換係数のブロックを生成する。変換は、残差情報をピクセル値領域から周波数領域などの変換領域に変換し得る。変換処理ユニット52は、得られた変換係数を量子化ユニット54に送ることができる。量子化ユニット54は、ビットレートをさらに低減するために変換係数を量子化する。量子化プロセスは、係数の一部または全部に関連するビット深度を低減し得る。量子化の程度は、量子化パラメータを調整することによって修正され得る。いくつかの例では、量子化ユニット54は、次いで、量子化変換係数を含む行列の走査を実行することができる。代替的に、エントロピー符号化ユニット56が走査を実行してよい。   [0125] Video encoder 20 forms a residual video block by subtracting the prediction data from mode selection unit 40 from the original video block being coded. Adder 50 represents one or more components that perform this subtraction operation. Transform processing unit 52 applies a transform, such as a discrete cosine transform (DCT) or a conceptually similar transform, to the residual block to generate a video block that includes residual transform coefficient values. The conversion processing unit 52 can perform other conversions that are conceptually similar to DCT. Wavelet transforms, integer transforms, subband transforms or other types of transforms may also be used. In either case, transform processing unit 52 applies the transform to the residual block and generates a block of residual transform coefficients. The transformation may transform residual information from a pixel value domain to a transform domain such as a frequency domain. The transform processing unit 52 can send the obtained transform coefficients to the quantization unit 54. The quantization unit 54 quantizes the transform coefficient to further reduce the bit rate. The quantization process may reduce the bit depth associated with some or all of the coefficients. The degree of quantization can be modified by adjusting the quantization parameter. In some examples, quantization unit 54 may then perform a scan of the matrix that includes the quantized transform coefficients. Alternatively, entropy encoding unit 56 may perform the scan.

[0126] 量子化の後、エントロピー符号化ユニット56は、量子化された変換係数をエントロピーコーディングする。たとえば、エントロピー符号化ユニット56は、コンテキスト適応型可変長コーディング(CAVLC)、コンテキスト適応型バイナリ算術コーディング(CABAC)、シンタックスベースコンテキスト適応型バイナリ算術コーディング(SBAC)、確率間隔区分エントロピー(PIPE)コーディングまたは別のエントロピーコーディング技法を実行し得る。コンテキストベースエントロピーコーディングの場合、コンテキストは隣接ブロックに基づき得る。エントロピー符号化ユニット56によるエントロピーコーディングの後に、符号化されたビットストリームは、別のデバイス(たとえば、ビデオデコーダ30)に送信されるか、または後で送信するかまたは取り出すためにアーカイブされ得る。   [0126] After quantization, entropy encoding unit 56 entropy codes the quantized transform coefficients. For example, the entropy encoding unit 56 includes context adaptive variable length coding (CAVLC), context adaptive binary arithmetic coding (CABAC), syntax-based context adaptive binary arithmetic coding (SBAC), probability interval partitioned entropy (PIPE) coding. Or another entropy coding technique may be performed. For context-based entropy coding, the context may be based on neighboring blocks. After entropy coding by entropy encoding unit 56, the encoded bitstream may be transmitted to another device (eg, video decoder 30) or archived for later transmission or retrieval.

[0127] 逆量子化ユニット58および逆変換ユニット60は、それぞれ逆量子化および逆変換を適用して、たとえば、参照ブロックとして後で使用するために、ピクセル領域中で残差ブロックを再構築する。動き補償ユニット44は、残差ブロックを参照ピクチャメモリ64のフレームのうちの1つの予測ブロックに加算することによって参照ブロックを計算し得る。動き補償ユニット44はまた、動き推定において使用するためのサブ整数ピクセル値を計算するために、再構成された残差ブロックに1つまたは複数の補間フィルタを適用し得る。加算器62は、再構築された残差ブロックを、動き補償ユニット44によって生成された動き補償予測ブロックに加算して、参照ピクチャメモリ64に記憶するための再構築されたビデオブロックを生成する。再構築されたビデオブロックは、後続のビデオフレーム中のブロックをインターコーディングするために動き推定ユニット42および動き補償ユニット44によって参照ブロックとして使用され得る。   [0127] Inverse quantization unit 58 and inverse transform unit 60 apply inverse quantization and inverse transform, respectively, to reconstruct the residual block in the pixel domain, eg, for later use as a reference block. . Motion compensation unit 44 may calculate a reference block by adding the residual block to one predicted block of frames of reference picture memory 64. Motion compensation unit 44 may also apply one or more interpolation filters to the reconstructed residual block to calculate sub-integer pixel values for use in motion estimation. Adder 62 adds the reconstructed residual block to the motion compensated prediction block generated by motion compensation unit 44 to generate a reconstructed video block for storage in reference picture memory 64. The reconstructed video block may be used as a reference block by motion estimation unit 42 and motion compensation unit 44 to intercode blocks in subsequent video frames.

[0128] ビデオエンコーダ20は、本開示の技法のいずれかを、単独でまたは任意の組合せで実行するように構成され得るビデオエンコーダの一例を表す。たとえば、ビデオエンコーダ20は、マルチレイヤビットストリームの任意のレイヤがレイヤ間予測制約を有するかどうかを示すデータ、およびタイル境界がマルチレイヤビットストリームのレイヤのうちの少なくとも2つの間で整列されているかどうかを示すデータのうちの、少なくとも1つを含むマルチレイヤビットストリームをVPSの中で符号化するとともに、VPSのデータに従って、マルチレイヤビットステラムを符号化するように構成され得る。付加的または代替的には、ビデオエンコーダ20は、ビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを1つまたは複数のスケーリングされたオフセット値に基づいて決定し得、その場合、参照ピクチャはマルチレイヤビットストリームの第1のレイヤに含まれ、1つまたは複数のスケーリングされたオフセット値は第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す。ビデオエンコーダ20はまた、第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを、参照サンプルのロケーションに基づいて決定し得、配列された参照ブロックに関連して第2のレイヤの中のビデオデータの現在のブロックを符号化し得る。   [0128] Video encoder 20 represents an example of a video encoder that may be configured to perform any of the techniques of this disclosure, either alone or in any combination. For example, video encoder 20 may indicate whether any layer of the multi-layer bitstream has inter-layer prediction constraints, and whether tile boundaries are aligned between at least two of the layers of the multi-layer bitstream A multi-layer bitstream including at least one of the data indicating whether or not is encoded in the VPS, and may be configured to encode the multi-layer bit steral according to the VPS data. Additionally or alternatively, video encoder 20 may determine the location of reference samples associated with the reference picture of the video data based on one or more scaled offset values, where the reference picture is Included in the first layer of the multi-layer bitstream, the one or more scaled offset values indicate a scale difference between the first layer and the second different layer. Video encoder 20 may also determine the location of the aligned reference block of the video data in the first layer based on the location of the reference sample, and the second layer relative to the aligned reference block. The current block of video data in may be encoded.

[0129] 図3は、ビデオデータを並列に処理するための技法を実装し得るビデオデコーダ30の一例を示すブロック図である。上述のように、ビデオデコーダ30は、マルチビューおよび/またはスケーラブルビデオコーディングを実行するように構成され得る。たとえば、ビデオデコーダ30は、SHVC、MV−HEVC、または3D−HEVCなどの1つまたは複数のビデオコーディング規格の拡張に準拠するビットストリームを復号するように構成され得る。ただし、特定のコーディング規格が参照されるが、本技法は、任意の1つのコーディング規格に固有のものではなく、将来のおよび/またはまだ開発されていない規格とともに実装され得ることを理解されたい。   [0129] FIG. 3 is a block diagram illustrating an example of a video decoder 30 that may implement techniques for processing video data in parallel. As described above, video decoder 30 may be configured to perform multi-view and / or scalable video coding. For example, video decoder 30 may be configured to decode a bitstream that conforms to an extension of one or more video coding standards such as SHVC, MV-HEVC, or 3D-HEVC. However, although specific coding standards are referenced, it should be understood that the techniques are not specific to any one coding standard and may be implemented with future and / or standards that have not yet been developed.

[0130] 図3の例では、ビデオデコーダ30は、ビデオデータメモリ68と、エントロピー復号ユニット70と、動き補償ユニット72と、イントラ予測ユニット74と、逆量子化ユニット76と、逆変換ユニット78と、参照ピクチャメモリ82と、加算器80とを含む。ビデオデコーダ30は、いくつかの例では、ビデオエンコーダ20(図2)に関して説明された符号化パスとは概して逆の復号パスを実行し得る。動き補償ユニット72は、エントロピー復号ユニット70から受信された動きベクトルに基づいて予測データを生成し得、イントラ予測ユニット74は、エントロピー復号ユニット70から受信されたイントラ予測モードインジケータに基づいて予測データを生成し得る。   In the example of FIG. 3, the video decoder 30 includes a video data memory 68, an entropy decoding unit 70, a motion compensation unit 72, an intra prediction unit 74, an inverse quantization unit 76, and an inverse transform unit 78. , A reference picture memory 82 and an adder 80. Video decoder 30 may perform a decoding pass that is generally opposite to the coding pass described with respect to video encoder 20 (FIG. 2) in some examples. Motion compensation unit 72 may generate prediction data based on the motion vector received from entropy decoding unit 70, and intra prediction unit 74 may generate prediction data based on the intra prediction mode indicator received from entropy decoding unit 70. Can be generated.

[0131] ビデオデータメモリ68は、ビデオデコーダ30の構成要素によって復号されるべき、符号化されたビデオビットストリームなどのビデオデータを記憶し得る。ビデオデータメモリ68に記憶されるビデオデータは、たとえば、コンピュータ可読媒体16から、たとえば、カメラなどのローカルビデオソースから、ビデオデータの有線もしくはワイヤレスネットワーク通信を介して、または物理データ記憶媒体にアクセスすることによって取得され得る。ビデオデータメモリ68は、符号化されたビデオビットストリームからの符号化されたビデオデータを記憶する、コード化ピクチャバッファ(CPB)を形成し得る。参照ピクチャメモリ82は、たとえば、イントラコーディングモードまたはインターコーディングモードで、ビデオデコーダ30によってビデオデータを復号する際に使用するための参照ビデオデータを記憶する、復号ピクチャバッファと呼ばれることがある。ビデオデータメモリ68および参照ピクチャメモリ82は、同期DRAM(SDRAM)、磁気抵抗RAM(MRAM)、抵抗RAM(RRAM)、または他のタイプのメモリデバイスを含む、ダイナミックランダムアクセスメモリ(DRAM)など、様々なメモリデバイスのいずれかによって形成され得る。ビデオデータメモリ68および参照ピクチャメモリ82は、同じメモリデバイスまたは別個のメモリデバイスによって設けられ得る。様々な例では、ビデオデータメモリ68は、ビデオデコーダ30の他の構成要素とともにオンチップであってよく、またはそれらの構成要素に対してオフチップであってもよい。   [0131] Video data memory 68 may store video data, such as an encoded video bitstream, to be decoded by components of video decoder 30. Video data stored in the video data memory 68 is accessed from, for example, a computer readable medium 16, from a local video source such as a camera, via a wired or wireless network communication of the video data, or to a physical data storage medium. Can be obtained. Video data memory 68 may form a coded picture buffer (CPB) that stores the encoded video data from the encoded video bitstream. The reference picture memory 82 may be referred to as a decoded picture buffer that stores reference video data for use in decoding video data by the video decoder 30, for example, in intra coding mode or inter coding mode. Video data memory 68 and reference picture memory 82 may vary, such as dynamic random access memory (DRAM), including synchronous DRAM (SDRAM), magnetoresistive RAM (MRAM), resistive RAM (RRAM), or other types of memory devices. It can be formed by any memory device. Video data memory 68 and reference picture memory 82 may be provided by the same memory device or separate memory devices. In various examples, video data memory 68 may be on-chip with other components of video decoder 30 or may be off-chip with respect to those components.

[0132] 復号プロセス中に、ビデオデコーダ30は、ビデオエンコーダ20から、符号化されたビデオスライスのビデオブロックと、関連付けられるシンタックス要素とを表す符号化されたビデオビットストリームを受信する。ビデオデコーダ30のエントロピー復号ユニット70は、量子化係数、動きベクトルまたはイントラ予測モードインジケータ、および他のシンタックス要素を生成するためにビットストリームをエントロピー復号する。エントロピー復号ユニット70は、動きベクトルと他のシンタックス要素とを動き補償ユニット72に転送する。ビデオデコーダ30は、ビデオスライスレベルおよび/またはビデオブロックレベルでシンタックス要素を受信し得る。   [0132] During the decoding process, video decoder 30 receives from video encoder 20 an encoded video bitstream representing video blocks of the encoded video slice and associated syntax elements. Entropy decoding unit 70 of video decoder 30 entropy decodes the bitstream to generate quantized coefficients, motion vectors or intra prediction mode indicators, and other syntax elements. Entropy decoding unit 70 forwards the motion vectors and other syntax elements to motion compensation unit 72. Video decoder 30 may receive syntax elements at the video slice level and / or the video block level.

[0133] ビデオスライスがイントラコード化(I)スライスとしてコーディングされるとき、イントラ予測ユニット74は、シグナリングされたイントラ予測モードと、現在フレームまたはピクチャの、前に復号されたブロックからのデータとに基づいて、現在ビデオスライスのビデオブロックのための予測データを生成し得る。ビデオフレームがインターコード化(すなわち、B、P、またはGPB)スライスとしてコーディングされるとき、動き補償ユニット72は、エントロピー復号ユニット70から受信された動きベクトルと他のシンタックス要素とに基づいて、現在ビデオスライスのビデオブロック用の予測ブロックを生成する。予測ブロックは、参照ピクチャリストの1つの中の参照ピクチャのうち1つから生成され得る。ビデオデコーダ30は、参照ピクチャメモリ82に記憶された参照ピクチャに基づいて、デフォルトの構成技法を使用して、参照フレームリスト、すなわち、リスト0とリスト1とを構成し得る。動き補償ユニット72は、動きベクトルと他のシンタックス要素とを解析することによって現在のビデオスライスのビデオブロックについての予測情報を決定し、復号されている現在のビデオブロックのための予測ブロックを生成するために予測情報を使用する。たとえば、動き補償ユニット72は、ビデオスライスのビデオブロックをコーディングするために使用される予測モード(たとえば、イントラまたはインター予測)と、インター予測スライスタイプ(たとえば、Bスライス、Pスライス、またはGPBスライス)と、スライスの参照ピクチャリストのうちの1つまたは複数のための構成情報と、スライスの各インター符号化ビデオブロックのための動きベクトルと、スライスの各インターコーディングビデオブロックのためのインター予測ステータスと、現在ビデオスライス中のビデオブロックを復号するための他の情報とを決定するために、受信されたシンタックス要素のいくつかを使用する。   [0133] When a video slice is coded as an intra-coded (I) slice, intra-prediction unit 74 is in signaled intra-prediction mode and data from a previously decoded block of the current frame or picture. Based on this, prediction data for the video block of the current video slice may be generated. When the video frame is coded as an inter-coded (ie, B, P, or GPB) slice, motion compensation unit 72 is based on the motion vector received from entropy decoding unit 70 and other syntax elements, Generate a prediction block for the video block of the current video slice. A prediction block may be generated from one of the reference pictures in one of the reference picture lists. Video decoder 30 may construct reference frame lists, List 0 and List 1, using default construction techniques based on the reference pictures stored in reference picture memory 82. Motion compensation unit 72 determines prediction information for the video block of the current video slice by analyzing the motion vector and other syntax elements and generates a prediction block for the current video block being decoded. Use prediction information to For example, motion compensation unit 72 may use a prediction mode (eg, intra or inter prediction) used to code a video block of a video slice and an inter prediction slice type (eg, B slice, P slice, or GPB slice). Configuration information for one or more of the reference picture lists of the slice, a motion vector for each inter-coded video block of the slice, and an inter prediction status for each inter-coded video block of the slice Use some of the received syntax elements to determine other information for decoding the video block in the current video slice.

[0134] 動き補償ユニット72はまた、補間フィルタに基づいて補間を実行し得る。動き補償ユニット72は、参照ブロックのサブ整数ピクセルのための補間された値を計算するために、ビデオブロックの符号化中にビデオエンコーダ20によって使用された補間フィルタを使用し得る。この場合、動き補償ユニット72は、受信されたシンタックス要素からビデオエンコーダ20によって使用された補間フィルタを決定し、その補間フィルタを使用して予測ブロックを生成し得る。   [0134] Motion compensation unit 72 may also perform interpolation based on an interpolation filter. Motion compensation unit 72 may use the interpolation filter used by video encoder 20 during encoding of the video block to calculate interpolated values for the sub-integer pixels of the reference block. In this case, motion compensation unit 72 may determine an interpolation filter used by video encoder 20 from the received syntax elements and use the interpolation filter to generate a prediction block.

[0135] 逆量子化ユニット76は、ビットストリーム中で与えられ、エントロピー復号ユニット70によって復号された量子化変換係数を逆量子化(inverse quantize)、すなわち、逆量子化(de-quantize)する。逆量子化プロセスは、量子化の程度を決定し、同様に、適用されるべき逆量子化の程度を決定するための、ビデオスライス中のビデオブロックごとにビデオデコーダ30によって計算される量子化パラメータQPYの使用を含み得る。 [0135] The inverse quantization unit 76 performs inverse quantization, that is, de-quantize, the quantized transform coefficient given in the bitstream and decoded by the entropy decoding unit 70. The inverse quantization process determines the degree of quantization and likewise the quantization parameters calculated by the video decoder 30 for each video block in the video slice to determine the degree of inverse quantization to be applied. May include the use of QP Y.

[0136] 逆変換ユニット78は、ピクセル領域において残差ブロックを生成するために、逆変換、たとえば逆DCT、逆整数変換、または概念的に同様の逆変換プロセスを変換係数に適用する。   [0136] Inverse transform unit 78 applies an inverse transform, eg, an inverse DCT, an inverse integer transform, or a conceptually similar inverse transform process to the transform coefficients to generate a residual block in the pixel domain.

[0137] 動き補償ユニット72が、動きベクトルと他のシンタックス要素とに基づいて現在ビデオブロックのための予測ブロックを生成した後、ビデオデコーダ30は、逆変換ユニット78からの残差ブロックを動き補償ユニット72によって生成された対応する予測ブロックと加算することによって、復号されたビデオブロックを形成する。加算器80は、この加算演算を実行する1つまたは複数の構成要素を表す。所望される場合、ブロッキネスアーティファクトを除去するために復号されたブロックをフィルタ処理するデブロッキングフィルタも適用され得る。ピクセル遷移を平滑化するために、または場合によってはビデオ品質を改善するために、(コーディングループ内またはコーディングループ後のいずれかの)他のループフィルタも使用され得る。所与のフレームまたはピクチャ中の復号されたビデオブロックは、次いで、その後の動き補償のために使用される参照ピクチャを記憶する参照ピクチャメモリ82に記憶される。参照ピクチャメモリ82はまた、図1のディスプレイデバイス32などのディスプレイデバイス上での後の提示のために、復号されたビデオを記憶する。   [0137] After motion compensation unit 72 generates a prediction block for the current video block based on the motion vector and other syntax elements, video decoder 30 moves the residual block from inverse transform unit 78. A decoded video block is formed by adding with the corresponding prediction block generated by the compensation unit 72. Adder 80 represents one or more components that perform this addition operation. If desired, a deblocking filter that filters the decoded block to remove blockiness artifacts may also be applied. Other loop filters (either in the coding loop or after the coding loop) may also be used to smooth pixel transitions or possibly improve video quality. The decoded video block in a given frame or picture is then stored in a reference picture memory 82 that stores a reference picture that is used for subsequent motion compensation. Reference picture memory 82 also stores the decoded video for later presentation on a display device, such as display device 32 of FIG.

[0138] ビデオデコーダ30は、本開示の技法のいずれかまたはすべてを、単独で、または任意の組合せで実施するように構成され得る。たとえば、ビデオデコーダ30は、マルチレイヤビットストリームの任意のレイヤがレイヤ間予測制約を有するかどうかを示すデータ、およびタイル境界がマルチレイヤビットストリームのレイヤのうちの少なくとも2つの間で整列されているかどうかを示すデータのうちの、少なくとも1つをマルチレイヤビットストリームのビデオパラメータセット(VPS)から復号するとともに、VPSから取得されたデータに従って、マルチレイヤビットステラムを復号するように構成され得る。付加的または代替的には、ビデオデコーダ30は、ビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを1つまたは複数のスケーリングされたオフセット値に基づいて決定し得、その場合、参照ピクチャはマルチレイヤビットストリームの第1のレイヤに含まれ、1つまたは複数のスケーリングされたオフセット値は第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す。ビデオデコーダ30はまた、第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを、参照サンプルのロケーションに基づいて決定し得、配列された参照ブロックに関連して第2のレイヤの中のビデオデータの現在のブロックを復号し得る。   [0138] Video decoder 30 may be configured to implement any or all of the techniques of this disclosure, either alone or in any combination. For example, video decoder 30 may provide data indicating whether any layer of the multi-layer bitstream has inter-layer prediction constraints, and whether tile boundaries are aligned between at least two of the layers of the multi-layer bitstream It may be configured to decode at least one of the data indicating whether from the video parameter set (VPS) of the multi-layer bitstream and to decode the multi-layer bit steral according to the data obtained from the VPS. Additionally or alternatively, video decoder 30 may determine the location of reference samples associated with a reference picture of video data based on one or more scaled offset values, where the reference picture is Included in the first layer of the multi-layer bitstream, the one or more scaled offset values indicate a scale difference between the first layer and the second different layer. Video decoder 30 may also determine the location of the aligned reference block of video data in the first layer based on the location of the reference sample, and in the second layer relative to the aligned reference block. The current block of video data in may be decoded.

[0139] 図4は、スケーラブルビデオコーディング(SVC)のための様々なスケーラブルな次元を示す概念図である。図4は、SVCのスケーラビリティ構造の一例を示す。特に、異なる次元におけるスケーラビリティの一例が図4に示される。この例では、スケーラビリティが3つの次元において使用可能である。時間次元では、7.5Hz、15Hzまたは30Hzをもつフレームレートが時間スケーラビリティ(T)によってサポートされ得る。空間スケーラビリティ(S)がサポートされるとき、QCIF、CIFおよび4CIFなどの異なる解像度が使用可能である。特定の空間解像度およびフレームレートごとに、ピクチャ品質を改善するために信号対雑音(SNR)(Q)レイヤが追加され得る。   FIG. 4 is a conceptual diagram illustrating various scalable dimensions for scalable video coding (SVC). FIG. 4 shows an example of an SVC scalability structure. In particular, an example of scalability in different dimensions is shown in FIG. In this example, scalability can be used in three dimensions. In the time dimension, frame rates with 7.5 Hz, 15 Hz, or 30 Hz can be supported by temporal scalability (T). When spatial scalability (S) is supported, different resolutions such as QCIF, CIF and 4CIF can be used. For each specific spatial resolution and frame rate, a signal to noise (SNR) (Q) layer may be added to improve picture quality.

[0140] ビデオコンテンツがそのようなスケーラブルな方法で符号化されると、たとえば、クライアントまたは送信チャネルに依存し得るアプリケーション要件に従って、実際の配信されたコンテンツを適応させるために、抽出器ツールが使用され得る。図4に示された例では、各体積、すなわち立方体は、同じフレームレート(時間レベル)、空間解像度およびSNRレイヤをもつピクチャを含んでいる。それらの立方体(ピクチャ)を任意の次元で追加することによって、より良い表現が達成され得る。使用可能な2つ、3つまたはさらに多くのスケーラビリティがあるとき、複合スケーラビリティがサポートされ得る。   [0140] Once the video content is encoded in such a scalable manner, the extractor tool is used to adapt the actual delivered content according to application requirements that may depend, for example, on the client or transmission channel Can be done. In the example shown in FIG. 4, each volume, or cube, contains pictures with the same frame rate (time level), spatial resolution and SNR layer. By adding those cubes (pictures) in any dimension, a better representation can be achieved. Complex scalability may be supported when there are two, three, or even more scalability available.

[0141] SVCの仕様によれば、最も低い空間レイヤおよび品質レイヤを有するピクチャは、H.264/AVCと互換性があり、最低の時間レベルにあるピクチャは、より高い時間レベルにあるピクチャで強調され得る時間ベースレイヤを形成する。H.264/AVC互換レイヤに加えて、空間スケーラビリティおよび/または品質スケーラビリティを実現するために、いくつかの空間エンハンスメントレイヤおよび/またはSNRエンハンスメントレイヤが追加され得る。SNRスケーラビリティは品質スケーラビリティと呼ばれることもある。各空間またはSNRエンハンスメントレイヤ自体は、H.264/AVC適合レイヤと同じ時間スケーラビリティ構造で、時間的にスケーラブルになり得る。1つの空間またはSNRエンハンスメントレイヤについて、それが依存するより低いレイヤは、その特定の空間またはSNRエンハンスメントレイヤのベースレイヤと呼ばれることもある。   [0141] According to the SVC specification, a picture having the lowest spatial layer and quality layer is H.264. A picture that is compatible with H.264 / AVC and is at the lowest temporal level forms a temporal base layer that can be enhanced with a picture at a higher temporal level. H. In addition to the H.264 / AVC compatibility layer, several spatial enhancement layers and / or SNR enhancement layers may be added to achieve spatial scalability and / or quality scalability. SNR scalability is sometimes referred to as quality scalability. Each space or SNR enhancement layer itself is H.264. It can be scalable in time with the same temporal scalability structure as the H.264 / AVC conformance layer. For a space or SNR enhancement layer, the lower layer on which it depends may be referred to as the base layer of that particular space or SNR enhancement layer.

[0142] 図5は、SVCコーディング構造の一例を示す概念図である。この例では、最低空間および品質レイヤをもつピクチャ(QCIF解像度をもつ、レイヤ0およびレイヤ1中のピクチャ)は、H.264/AVCに適合する。それらの中で、最低時間レベルのピクチャは、図5のレイヤ0に示されているように、時間ベースレイヤを形成する。この時間ベースレイヤ(レイヤ0)は、より高い時間レベル(レイヤ1)のピクチャを用いて拡張され得る。H.264/AVC互換レイヤに加えて、空間スケーラビリティおよび/または品質スケーラビリティを実現するために、いくつかの空間エンハンスメントレイヤおよび/またはSNRエンハンスメントレイヤが追加され得る。たとえば、エンハンスメントレイヤは、レイヤ2と同じ解像度をもつCIF表現であり得る。この例では、レイヤ3はSNRエンハンスメントレイヤである。この例に示されているように、各空間またはSNRエンハンスメントレイヤ自体は、H.264/AVC適合レイヤと同じ時間スケーラビリティ構造で、時間的にスケーラブルになり得る。また、エンハンスメントレイヤは空間解像度とフレームレートの両方を向上させことができる。たとえば、レイヤ4は、フレームレートを15Hzから30Hzにさらに増加させる4CIFエンハンスメントレイヤを与える。   [0142] FIG. 5 is a conceptual diagram illustrating an example of an SVC coding structure. In this example, pictures with the lowest space and quality layers (pictures in layers 0 and 1 with QCIF resolution) are H.264. H.264 / AVC. Among them, the lowest time level picture forms the time base layer, as shown in layer 0 of FIG. This time base layer (layer 0) may be extended with pictures of higher time levels (layer 1). H. In addition to the H.264 / AVC compatibility layer, several spatial enhancement layers and / or SNR enhancement layers may be added to achieve spatial scalability and / or quality scalability. For example, the enhancement layer may be a CIF representation with the same resolution as layer 2. In this example, layer 3 is an SNR enhancement layer. As shown in this example, each space or SNR enhancement layer itself is H.264. It can be scalable in time with the same temporal scalability structure as the H.264 / AVC conformance layer. Also, the enhancement layer can improve both spatial resolution and frame rate. For example, layer 4 provides a 4CIF enhancement layer that further increases the frame rate from 15 Hz to 30 Hz.

[0143] 図6は、例示的なアクセスユニット(AU)を示す概念図である。各AUは、ネットワークアブストラクションレイヤ(NAL)ユニット内にカプセル化された、1つまたは複数のスライスを含む。レイヤごとのアクセスユニット当たりにゼロまたはそれ以上のNALユニットが存在し得る。1つのアクセスユニット内の1つのレイヤに対応するNALユニットのセットは、「レイヤ成分」と呼ばれることがある。図6の例は、図5のレイヤ成分に対応するレイヤ成分を描いている。図6の例に示されているように、同じ時間インスタンス中(すなわち、共通のAUの中)のコード化スライスは、ビットストリーム順序で連続しており、SVCのコンテキストにおける1つのアクセスユニットを形成する。それらのSVCアクセスユニットは、次いで、表示順序とは異なり得る、たとえば、時間予測関係によって決定され得る、復号順序に従う。   [0143] FIG. 6 is a conceptual diagram illustrating an example access unit (AU). Each AU includes one or more slices encapsulated within a network abstraction layer (NAL) unit. There may be zero or more NAL units per access unit per layer. A set of NAL units corresponding to one layer in one access unit may be referred to as a “layer component”. The example of FIG. 6 depicts a layer component corresponding to the layer component of FIG. As shown in the example of FIG. 6, coded slices in the same time instance (ie, in a common AU) are contiguous in bitstream order and form one access unit in the context of SVC. To do. Those SVC access units then follow a decoding order that may be different from the display order, eg, determined by a temporal prediction relationship.

[0144] H.264/AVC(アドバンストビデオコーディング)のスケーラブルな拡張が、以下で説明される。SVCのいくつかの機能はH.264/AVCから引き継がれている。以前のスケーラブルな規格と比較すると、H.264/AVCに対するSVC拡張の最大の利点のいくつか、すなわちレイヤ間予測およびシングルループ復号が、以下で考察される。   [0144] A scalable extension of H.264 / AVC (Advanced Video Coding) is described below. Some functions of SVC are described in H.264. H.264 / AVC. Compared to previous scalable standards, some of the greatest benefits of the SVC extension over H.264 / AVC are discussed below: inter-layer prediction and single loop decoding.

[0145] H.264/AVCのSVC拡張は、シングルループ復号をサポートする。低複雑度デコーダを保持するために、SVCではシングルループ復号が必須である。シングルループ復号で、各々のサポートされるレイヤは、単一の動き補償ループで復号され得る。これを達成するために、レイヤ間イントラ予測の使用は、配列された参照レイヤ信号がそのためにイントラコーディングされるエンハンスメントレイヤマクロブロックのためにのみ可能にされる。より高いレイヤをレイヤ間予測するために使用されるすべてのレイヤが、制約付きイントラ予測を使用してコーディングされることがさらに必要である。   [0145] The SVC extension of H.264 / AVC supports single loop decoding. In order to maintain a low complexity decoder, single loop decoding is essential in SVC. With single loop decoding, each supported layer may be decoded with a single motion compensation loop. To achieve this, the use of inter-layer intra prediction is only enabled for enhancement layer macroblocks for which the ordered reference layer signal is intra-coded. It is further necessary that all layers used to inter-layer predict higher layers are coded using constrained intra prediction.

[0146] H.264/AVCのSVC拡張もまた、レイヤ間予測をサポートする。SVCは、テクスチャ、残差および動きに基づいて、空間スケーラビリティおよびSNRスケーラビリティのためのレイヤ間予測を導入する。SVCにおける空間スケーラビリティは、2つのレイヤ間の任意の解像度比に一般化されている。SNRスケーラビリティは、粗粒度スケーラビリティ(CGS)または中粒度スケーラビリティ(MGS)によって実現され得る。SVCでは、2つの空間レイヤまたはCGSレイヤは、(NALユニットヘッダ内でシンタックス要素dependency_idによって示される)異なる依存性レイヤに属するが、2つのMGSレイヤは同じ依存性レイヤ内にあり得る。1つの依存性レイヤは、品質エンハンスメントレイヤに対応する、0からより高い値までのシンタックス要素quality_idの値を有する品質レイヤを含む。SVCでは、レイヤ間の冗長性を低減するために、レイヤ間予測方法が利用される。それらは以下の段落で簡単に紹介される。   [0146] H. The H.264 / AVC SVC extension also supports inter-layer prediction. SVC introduces inter-layer prediction for spatial and SNR scalability based on texture, residual and motion. Spatial scalability in SVC is generalized to an arbitrary resolution ratio between two layers. SNR scalability may be achieved by coarse grain scalability (CGS) or medium grain scalability (MGS). In SVC, the two spatial layers or CGS layers belong to different dependency layers (indicated by the syntax element dependency_id in the NAL unit header), but the two MGS layers can be in the same dependency layer. One dependency layer includes a quality layer having a value of the syntax element quality_id from 0 to a higher value corresponding to the quality enhancement layer. In SVC, an inter-layer prediction method is used to reduce redundancy between layers. They are briefly introduced in the following paragraphs.

[0147] レイヤ間イントラ予測を使用するコーディングモードは、SVCでは「イントラBL」モードと呼ばれる。シングルループ復号を使用可能にするために、制約付きイントラモードとしてコーディングされるベースレイヤ中の配列されたマクロブロック(MB)を有するMBのみが、レイヤ間イントラ予測モードを使用することができる。制約付きイントラモードのMBは、隣接するインターコーディングされたMBからのいかなるサンプルも参照せずにイントラコーディングされる。   [0147] The coding mode using inter-layer intra prediction is called "intra BL" mode in SVC. To enable single loop decoding, only MBs with ordered macroblocks (MBs) in the base layer that are coded as constrained intra modes can use the inter-layer intra prediction mode. Constrained intra mode MBs are intracoded without reference to any samples from neighboring intercoded MBs.

[0148] MBが残差予測を使用するように指示された場合、レイヤ間予測用のベースレイヤ内で配列されたMBは、インターMBであるに違いなく、その残差は空間解像度比に従ってアップサンプリングされる場合がある。エンハンスメントレイヤの残差とベースレイヤの残差との間の差分がコーディングされる。すなわち、エンハンスメントレイヤの現在のフレーム   [0148] When an MB is instructed to use residual prediction, the MBs arranged in the base layer for inter-layer prediction must be inter MBs, and the residuals increase according to the spatial resolution ratio. May be sampled. The difference between the enhancement layer residual and the base layer residual is coded. That is, the current frame of the enhancement layer

Figure 0006301467
Figure 0006301467

の再構成は、以下に示すように、エンハンスメントレイヤの逆量子化係数re、エンハンスメントレイヤからの時間的予測Pe、およびベースレイヤの量子化正規化残差係数rbの合計に等しい。 Is equal to the sum of the enhancement layer inverse quantization coefficient r e , the temporal prediction P e from the enhancement layer, and the base layer quantization normalized residual coefficient r b , as shown below.

Figure 0006301467
Figure 0006301467

[0149] 配列されたベースレイヤの動きベクトルは、MBの動きベクトル用の予測子またはエンハンスメントレイヤ内のMBパーティションを生成するためにスケーリングされる場合がある。加えて、MBごとに1つのフラグを送る、基本モードと命名された1つのMBタイプが存在する。このフラグが真であり、対応するベースレイヤのMBがイントラでない場合、動きベクトル、区分モード、および参照インデックスは、すべてベースレイヤから導出される。   [0149] The aligned base layer motion vectors may be scaled to generate predictors for MB motion vectors or MB partitions in the enhancement layer. In addition, there is one MB type named basic mode that sends one flag per MB. If this flag is true and the corresponding base layer MB is not intra, the motion vector, partition mode, and reference index are all derived from the base layer.

[0150] 上述のように、H.264/AVCと同様に、HEVCもまた、少なくとも時間スケーラビリティと、SNRスケーラビリティと、空間スケーラビリティとを提供する、SHVCと現在呼ばれるスケーラブルビデオコーディング拡張を有する。SHVCにおいて、レイヤ間テクスチャ予測を達成するために、参照レイヤの解像度がエンハンスメントレイヤの解像度より低いときに、参照レイヤの再構成されたサンプルが最初にアップサンプリングされる。SNRスケーラビリティの場合でさえ、参照レイヤサンプルは、より高いコーディング効率を得るために、レイヤ間予測のために使用される前にフィルタリングされることがある。アップサンプリングまたはレイヤ間フィルタリング処理が、レイヤ成分または単にピクチャと呼ばれることもあるレイヤピクチャ全体について実行され得る。SHVCでは、マルチループ復号構造が使用され得、ビデオデコーダ(ビデオデコーダ30などの)は、異なるレイヤを並列に処理し得る。   [0150] As described above, H.P. Like H.264 / AVC, HEVC also has a scalable video coding extension, now called SHVC, that provides at least temporal scalability, SNR scalability, and spatial scalability. In SHVC, to achieve inter-layer texture prediction, the reconstructed samples of the reference layer are first upsampled when the resolution of the reference layer is lower than the resolution of the enhancement layer. Even in the case of SNR scalability, the reference layer samples may be filtered before being used for inter-layer prediction to obtain higher coding efficiency. Upsampling or inter-layer filtering may be performed on the entire layer picture, sometimes referred to as a layer component or simply a picture. In SHVC, a multi-loop decoding structure may be used, and a video decoder (such as video decoder 30) may process different layers in parallel.

[0151] 本開示の態様によれば、マルチレイヤビデオコーディングのためのオフセット遅延情報が、ビデオパラメータセット(VPS)の中に含まれ得る。上述のように、オフセット遅延情報は、参照データを確実に利用可能にするための、別のレイヤに関連するあるレイヤをコーディング(符号化または復号)する間の遅延を示し得る。本開示の態様によれば、ビデオエンコーダ20は、オフセット遅延情報を示すデータをVPSの中で符号化し得る。同様に、ビデオデコーダ30は、符号化されたビットストリームから、オフセット遅延情報を示すデータを復号し得る。   [0151] According to aspects of this disclosure, offset delay information for multi-layer video coding may be included in a video parameter set (VPS). As described above, the offset delay information may indicate a delay while coding (encoding or decoding) one layer relative to another layer to ensure that reference data is available. According to aspects of this disclosure, video encoder 20 may encode data indicating offset delay information in a VPS. Similarly, video decoder 30 may decode data indicating offset delay information from the encoded bitstream.

[0152] いくつかの例では、ビデオコーダ(ビデオエンコーダ20および/またはビデオデコーダ30などの)は、マルチレイヤビットストリームのいずれかのレイヤがレイヤ間予測制約を有するかどうかを示すVPSのデータをコーディングし得る。たとえば、現在コーディングされているレイヤのための少なくとも1つの参照レイヤが、関連付けられたオフセット遅延を有することを示すためのフラグが、VPSの中に含まれ得る。少なくとも1つのレイヤが、関連付けられたオフセット遅延を有すると決定すると、ビデオコーダは、どの参照レイヤがオフセット遅延を有するのか、およびそのようなレイヤに関連付けられたオフセット遅延を決定し得る。すなわち、オフセット遅延情報は、オフセット遅延を有する参照レイヤについてのみ提供され得る。   [0152] In some examples, a video coder (such as video encoder 20 and / or video decoder 30) uses VPS data to indicate whether any layer of the multi-layer bitstream has inter-layer prediction constraints. Can be coded. For example, a flag may be included in the VPS to indicate that at least one reference layer for the currently coded layer has an associated offset delay. If at least one layer determines that it has an associated offset delay, the video coder may determine which reference layer has an offset delay and the offset delay associated with such layer. That is, offset delay information can be provided only for reference layers with offset delay.

[0153] 図7は、高効率ビデオコーディング(HEVC)規格による例示的なタイルを示す概念図である。HEVCは、タイルおよび波面並列処理(WPP)を含む、コーデックをより並列に順応させるためのいくつかの提案を含む。HEVC WD10は、タイルのCTBラスタ走査において連続的に順序付けられた、1つの列および1つの行内で同時に発生する整数個のCTBとしてタイルを定義する。各ピクチャをタイルに分割することは、区分と呼ばれ得る。ピクチャ内のタイルは、図7に示すように、ピクチャのタイルラスタ走査において連続的に順序付けられる。   [0153] FIG. 7 is a conceptual diagram illustrating exemplary tiles according to the High Efficiency Video Coding (HEVC) standard. HEVC includes several proposals for adapting codecs more in parallel, including tile and wavefront parallel processing (WPP). HEVC WD 10 defines tiles as an integer number of CTBs that occur simultaneously in one column and one row, sequentially ordered in the CTB raster scan of the tile. Dividing each picture into tiles may be referred to as a partition. The tiles in the picture are sequentially ordered in the tile raster scan of the picture, as shown in FIG.

[0154] たとえば、図7は、複数のタイル92A、92B、92C、92D、92E、92F、92G、92H、92I、および92J(まとめて、「タイル92」)に区分されるピクチャ90のための例示的なCTBのコーディング順序を示し、タイル境界が太線によって示されている。ピクチャ90における各正方形ブロックは、CTBに関連付けられたピクセルブロックを表す。ピクセルブロックにおける数字は、ピクチャ90についてのタイルのコーディング順序で対応するCTB(たとえば、LCU)の位置を示す。図11の例に示すように、タイル92AのCTBが最初にコーディングされ、続いてタイル92BのCTB、続いてタイル92CのCTB、続いてタイル92DのCTB、続いてタイル92EのCTB、続いてタイル92FのCTB、続いてタイル92GのCTB、続いてタイル92HのCTB、続いてタイル92IのCTB、続いてタイル92JのCTBが、コーディングされる。タイル92の各々の中で、ラスタ走査順序に従ってCTBがコーディングされる。   [0154] For example, FIG. 7 is for a picture 90 that is partitioned into a plurality of tiles 92A, 92B, 92C, 92D, 92E, 92F, 92G, 92H, 92I, and 92J (collectively “tiles 92”). An exemplary CTB coding order is shown, with tile boundaries indicated by bold lines. Each square block in picture 90 represents a pixel block associated with the CTB. The numbers in the pixel block indicate the position of the corresponding CTB (eg, LCU) in the tile coding order for picture 90. As shown in the example of FIG. 11, the CTB of tile 92A is coded first, followed by the CTB of tile 92B, followed by the CTB of tile 92C, followed by the CTB of tile 92D, followed by the CTB of tile 92E, followed by the tile. A CTB of 92F, followed by a CTB of tile 92G, followed by a CTB of tile 92H, followed by a CTB of tile 92I, followed by a CTB of tile 92J is coded. Within each of the tiles 92, the CTB is coded according to the raster scan order.

[0155] タイルの数およびそれらの境界のロケーションは、全体のシーケンスに対して定義されてもよく、またはピクチャごとに変更されてもよい。スライス境界と同様に、タイル境界は、タイルが単独で処理され得るように、パースと予測依存性とを分割する。しかしながら、いくつかの事例では、ループ内フィルタ(たとえば、デブロッキングまたはサンプル適応オフセット(SAO)フィルタ)は、依然としてタイル境界を横切ることができる。たとえば、HEVCワーキングドラフト10は、PPSの中に規定されるloop_filter_across_tiles_enabled_flagシンタックス要素を提供する。loop_filter_across_tiles_enabled_flagシンタックス要素の値が1に等しいとき、ループ内フィルタリング動作は、PPSを参照するピクチャの中のタイル境界を横切って実行され得る。0に等しいloop_filter_across_tiles_enabled_flagシンタックス要素は、ループ内フィルタリング動作がPPSを参照するピクチャの中のタイル境界を横切って実行されないことを規定する。   [0155] The number of tiles and the location of their boundaries may be defined for the entire sequence or may vary from picture to picture. Similar to slice boundaries, tile boundaries divide parsing and prediction dependencies so that tiles can be processed alone. However, in some cases, in-loop filters (eg, deblocking or sample adaptive offset (SAO) filters) can still cross tile boundaries. For example, the HEVC working draft 10 provides a loop_filter_cross_tiles_enabled_flag syntax element defined in the PPS. When the value of the loop_filter_cross_tiles_enabled_flag syntax element is equal to 1, an in-loop filtering operation may be performed across tile boundaries in pictures that reference the PPS. The loop_filter_cross_tiles_enabled_flag syntax element equal to 0 specifies that no in-loop filtering operations are performed across tile boundaries in pictures that reference PPS.

[0156] エントロピー復号および動き補償再構成のためにプロセッサまたはプロセッサコアの間で通信が必要とされない(または、比較的少量ですむ)ので、タイルの使用は並列性を向上させることができる。加えて、タイルがスライスよりも潜在的に高い相関を有するサンプルを含むピクチャパーティション形状を可能にするので、タイルは、スライスと比較したときに比較的良好なコーディング効率を示し得る。タイルはまた、スライスヘッダのオーバーヘッドを低減し得る。   [0156] The use of tiles can improve parallelism because no communication is required (or relatively little) between the processors or processor cores for entropy decoding and motion compensated reconstruction. In addition, tiles may exhibit relatively good coding efficiency when compared to slices because tiles allow picture partition shapes that contain samples that have a potentially higher correlation than slices. Tiles may also reduce slice header overhead.

[0157] タイルがシングルレイヤコーディングにおいて使用されるとき、シンタックス要素min_spatial_segmentation_idcは、1つの処理スレッドによって処理されるべきルーマサンプルの最大数を計算するためにビデオデコーダ(ビデオデコーダ30などの)によって使用され得、ビデオデコーダ30は並列復号情報を最大限に利用することが想定される。0に等しくないとき、min_spatial_segmentation_idcシンタックス要素は、コーディングされたビデオシーケンスのピクチャの中で、異なるコーディングされた空間セグメント化領域の最大可能なサイズで境界を確立する助けとなり得る。HEVC WD10では、たとえば、エントロピーコーディング同期、またはタイル境界もしくはスライス境界を横切るデブロッキングフィルタリングに起因して、異なるスレッド間に何らかのピクチャ相互依存性が存在し得る。   [0157] When a tile is used in single layer coding, the syntax element min_spatial_segmentation_idc is used by a video decoder (such as video decoder 30) to calculate the maximum number of luma samples to be processed by one processing thread. It can be assumed that the video decoder 30 makes the best use of the parallel decoding information. When not equal to 0, the min_spatial_segmentation_idc syntax element may help to establish boundaries at the maximum possible size of different coded spatial segmentation regions within a picture of a coded video sequence. In HEVC WD10, there may be some picture interdependence between different threads due to, for example, entropy coding synchronization or deblocking filtering across tile or slice boundaries.

[0158] 図8は、波面並列処理(WPP)に対する波面を示す概念図である。HEVCは、WPP技法を定義する。WPPが可能にされるとき、ピクチャのCTU行の各々は、分離されたパーティションである。しかしながら、スライスおよびタイルと比較すると、コーディング依存性は、CTU行の境界において分割されない。加えて、CABAC確率は、以前の行の第2のCTUから伝搬され、コーディングロスをさらに低減する。同じく、WPPは、通常のラスタ走査順序を変更しない。依存性は分割されないので、WPPビットストリームのレートひずみロスは、非並列ビットストリーム(nonparallel bitstream)と比較して小さい。   [0158] FIG. 8 is a conceptual diagram showing a wavefront for wavefront parallel processing (WPP). HEVC defines the WPP technique. When WPP is enabled, each of the picture's CTU rows is a separate partition. However, compared to slices and tiles, coding dependencies are not split at CTU row boundaries. In addition, the CABAC probability is propagated from the second CTU in the previous row, further reducing coding loss. Similarly, WPP does not change the normal raster scan order. Since the dependency is not divided, the rate distortion loss of the WPP bitstream is small compared to the nonparallel bitstream.

[0159] WPPが可能にされると、CTU行の数までの数のプロセッサが、CTU行(またはライン)を処理するために並列に働き得る。しかしながら、波面依存性は、ピクチャのはじめにおいて、すべてのCTU行が復号を開始することを許容しない。したがって、CTU行は、同じく、ピクチャの終わりにおいて、同時に復号を終了することができない。これは、多数のプロセッサが使用されるときにより明白になる、並列化の非効率性をもたらす。図8は、WPPが、どのようにしてCTBの行を並列に処理するかを示しており、各行は、上の行の第2のCTBを処理した後、利用可能なCABAC確率から開始する。   [0159] Once WPP is enabled, as many processors as the number of CTU rows may work in parallel to process CTU rows (or lines). However, the wavefront dependency does not allow all CTU rows to start decoding at the beginning of a picture. Therefore, the CTU line cannot finish decoding at the end of the picture at the same time. This results in parallel inefficiencies that become more apparent when multiple processors are used. FIG. 8 shows how WPP processes rows of CTB in parallel, with each row starting from the available CABAC probability after processing the second CTB of the top row.

[0160] 図9は、参照レイヤピクチャ104から予測される例示的なエンハンスメントレイヤピクチャ100を示す概念図である。この例では、エンハンスメントレイヤピクチャ100がタイル102A〜102Dを含む一方で、参照レイヤピクチャ104は、タイル106A、106Bを含む。図9の点線で示すように、エンハンスメントレイヤピクチャ100のタイル102Bが、参照レイヤピクチャ104のタイル106Aに対応する一方で、エンハンスメントレイヤピクチャ100のタイル102Cは、参照レイヤピクチャ104のタイル106Bに対応する。   FIG. 9 is a conceptual diagram illustrating an example enhancement layer picture 100 predicted from the reference layer picture 104. In this example, enhancement layer picture 100 includes tiles 102A-102D, while reference layer picture 104 includes tiles 106A, 106B. As shown by the dotted line in FIG. 9, the tile 102 </ b> B of the enhancement layer picture 100 corresponds to the tile 106 </ b> A of the reference layer picture 104, while the tile 102 </ b> C of the enhancement layer picture 100 corresponds to the tile 106 </ b> B of the reference layer picture 104. .

[0161] この例では、エンハンスメントレイヤピクチャ100は、参照レイヤピクチャ104と異なるアスペクト比を有する。たとえば、参照レイヤピクチャ104は4:3のアスペクト比を有し得、一方、エンハンスメントレイヤピクチャ100は16:9のアスペクト比を有し得る。したがって、エンハンスメントレイヤピクチャ100のタイル102A、102Dは、参照レイヤピクチャ104内に対応するタイルをもたない。たとえば、エンハンスメントレイヤピクチャ100のタイル102Aは、サンプル108を含む。垂直のハッシングで示すように、サンプル108は、参照レイヤピクチャ104内に利用可能な配列された参照レイヤ(RL)サンプルをもたない。同様に、エンハンスメントレイヤピクチャ100のタイル102Dのサンプル114は、利用可能な配列されたRLサンプルをもたない。しかしながら、サンプル110、112は、参照レイヤピクチャ104内に利用可能な配列された参照レイヤサンプル(クロスハッチングで示す)を有する。特に、サンプル110、112は、参照レイヤピクチャ104のサンプル116、118に対応する。   [0161] In this example, the enhancement layer picture 100 has an aspect ratio different from that of the reference layer picture 104. For example, reference layer picture 104 may have an aspect ratio of 4: 3, while enhancement layer picture 100 may have an aspect ratio of 16: 9. Therefore, the tiles 102 </ b> A and 102 </ b> D of the enhancement layer picture 100 do not have a corresponding tile in the reference layer picture 104. For example, tile 102A of enhancement layer picture 100 includes sample 108. As shown by vertical hashing, the sample 108 does not have an aligned reference layer (RL) sample available in the reference layer picture 104. Similarly, sample 114 of tile 102D of enhancement layer picture 100 does not have available ordered RL samples. However, samples 110, 112 have arranged reference layer samples (shown as cross-hatching) that are available within reference layer picture 104. In particular, samples 110 and 112 correspond to samples 116 and 118 of reference layer picture 104.

[0162] 図9は、タイル102B、102Cのタイル境界がタイル106A、106Bのタイル境界と整列されていると言われてよい一例を示す。いくつかの例では、同じエンハンスメントレイヤタイル内にある任意の2つのエンハンスメントレイヤピクチャサンプルに対して、配列された参照レイヤサンプルが、利用可能な場合、対応する参照レイヤタイル内にあるとき、および、コレスポンディングレファレンスレイヤタイル内にある任意の2つの参照レイヤピクチャサンプルに対して、配列されたエンハンスメントレイヤサンプルが、利用可能な場合、対応するエンハンスメントレイヤタイル内にあるときに、タイル境界は、整列されていると言われてよい。タイル102B内の任意の2つのサンプルは106A内の配列されたサンプルに対応し、同様に、タイル106A内の任意の2つのサンプルはタイル102B内の配列されたサンプルに対応するので、タイル102Bの境界は、タイル106Aの境界と整列されていると言われてよい。同様に、タイル102C内の任意の2つのサンプルはタイル106B内の配列されたサンプルに対応し、同様に、タイル106C内の任意の2つのサンプルはタイル102C内の配列されたサンプルに対応するので、タイル102Cの境界は、タイル106Bの境界と整列されていると言われてよい。   [0162] FIG. 9 shows an example where the tile boundaries of tiles 102B, 102C may be said to be aligned with the tile boundaries of tiles 106A, 106B. In some examples, for any two enhancement layer picture samples that are in the same enhancement layer tile, when the aligned reference layer samples are available, they are in the corresponding reference layer tile, and For any two reference layer picture samples that are in the correspondent reference layer tile, if aligned enhancement layer samples are available, the tile boundaries are aligned when they are in the corresponding enhancement layer tile. You may be told that Since any two samples in tile 102B correspond to the aligned samples in 106A, and similarly any two samples in tile 106A correspond to the aligned samples in tile 102B, The boundary may be said to be aligned with the boundary of tile 106A. Similarly, any two samples in tile 102C correspond to the arranged samples in tile 106B, and similarly any two samples in tile 106C correspond to the arranged samples in tile 102C. The boundary of tile 102C may be said to be aligned with the boundary of tile 106B.

[0163] タイル境界の整列は、ビデオコーダ(ビデオエンコーダ20またはビデオデコーダ30などの)がピクチャ(または、タイル)をコーディングする方式に影響を及ぼし得る。たとえば、いくつかの事例では、ビデオコーダは、タイル境界が整列されていない事例におけるレイヤ間予測または何らかのフィルタリング動作を制約することがある。   [0163] The alignment of tile boundaries may affect the manner in which a video coder (such as video encoder 20 or video decoder 30) codes a picture (or tile). For example, in some cases, a video coder may constrain inter-layer prediction or some filtering behavior in cases where tile boundaries are not aligned.

[0164] 本開示の態様によれば、タイル境界が整列されているかどうかの指示は、VPSの中で提供され得る。たとえば、VPSを参照するレイヤのタイルが互いに整列されているかどうかを示す1つまたは複数のシンタックス要素が、VPSの中に含まれ得る。たとえば、1に等しいシンタックス要素tile_boundaries_aligned_flag[i][j]は、VPSによって規定されるi番目のレイヤの1つのピクチャのいずれか2つのサンプルが1つのタイルに属するとき、2つの配列されたサンプルは、両方がi番目のレイヤのj番目の直接参照レイヤのピクチャの中に存在する場合に1つのタイルに属し、i番目のレイヤの1つのピクチャのいずれか2つのサンプルが異なるタイルに属するとき、2つの配列されたサンプルは、両方がi番目のレイヤのj番目の直接参照レイヤのピクチャの中に存在する場合に異なるタイルに属することを示し得る。0に等しいシンタックス要素tile_boundaries_aligned_flagは、そのような制約が適用されてもされなくてもよいことを示す。存在しないとき、tile_boundaries_aligned_flag[i][j]の値は0に等しいと推測される。   [0164] According to aspects of this disclosure, an indication of whether tile boundaries are aligned may be provided in the VPS. For example, one or more syntax elements may be included in the VPS that indicate whether the tiles of the layers that reference the VPS are aligned with each other. For example, the syntax element tile_boundaries_aligned_flag [i] [j] equal to 1 means that two arranged samples when any two samples of one picture of the i-th layer defined by the VPS belong to one tile Belongs to one tile if both exist in the picture of the jth direct reference layer of the i-th layer, and any two samples of one picture of the i-th layer belong to different tiles Two ordered samples may indicate that both belong to different tiles when present in the picture of the jth direct reference layer of the ith layer. The syntax element tile_boundaries_aligned_flag equal to 0 indicates that such a constraint may or may not be applied. When not present, the value of tile_boundaries_aligned_flag [i] [j] is assumed to be equal to 0.

[0165] いくつかの例では、タイル境界の整列情報は、上の表5に示す方式で提供され得る。そのような例では、ビデオデコーダ30は、各直接参照レイヤ(たとえば、直接依存性フラグによって示されるような)が現在のレイヤのタイルと整列されているタイル境界を有するかどうかを決定し得る。   [0165] In some examples, tile boundary alignment information may be provided in the manner shown in Table 5 above. In such an example, video decoder 30 may determine whether each direct reference layer (eg, as indicated by the direct dependency flag) has a tile boundary that is aligned with the tile of the current layer.

[0166] このようにして、ビデオエンコーダ(ビデオエンコーダ20などの)は、タイル境界がマルチレイヤビットストリームのレイヤのうちの少なくとも2つの間で整列されているかどうかを示すデータを、VPSの中で符号化し得る。同様に、ビデオデコーダ(ビデオデコーダ30などの)は、タイル境界がマルチレイヤビットストリームのレイヤのうちの少なくとも2つの間で整列されているかどうかを示すデータを、VPSから復号し得る。   [0166] In this manner, a video encoder (such as video encoder 20) can transmit data in the VPS that indicates whether tile boundaries are aligned between at least two of the layers of the multi-layer bitstream. Can be encoded. Similarly, a video decoder (such as video decoder 30) may decode data from the VPS that indicates whether tile boundaries are aligned between at least two of the layers of the multi-layer bitstream.

[0167] 図10は、配列された参照レイヤ領域を有しないエンハンスメントレイヤ領域を示す概念図である。図10の例は、エンハンスメントレイヤ130とベースレイヤ132とを含む。ベースレイヤ132は、エンハンスメントレイヤ130をコーディングするためのレイヤ間参照(参照レイヤ)におけるものとして使用され得る。ベースレイヤ132のスケーリング/アップサンプリングされたバージョンが、エンハンスメントレイヤ130内で破線134によって示される。   FIG. 10 is a conceptual diagram showing an enhancement layer region that does not have an arrayed reference layer region. The example of FIG. 10 includes an enhancement layer 130 and a base layer 132. Base layer 132 may be used as in an inter-layer reference (reference layer) for coding enhancement layer 130. A scaled / upsampled version of the base layer 132 is indicated by a dashed line 134 in the enhancement layer 130.

[0168] 図10の例に示すように、エンハンスメントレイヤ134はまた、ベースレイヤ134の中に含まれない領域136を含む。領域136は、概して、スケーリングされたオフセット値scaled_ref_layer_left_offset、scaled_ref_layer_top_offset、scaled_ref_layer_right_offset、およびscaled_ref_layer_bottom_offsetによって示されるように、スケーリング/アップサンプリングされたベースレイヤ134とエンハンスメントレイヤ130の境界との間のエリアを含む。すなわち、シンタックス要素scaled_ref_layer_left_offsetの値は、エンハンスメントレイヤ130の左端とスケーリング/アップサンプリングされたベースレイヤ134の左端との間のロケーションの差分を示す。同様に、scaled_ref_layer_top_offsetはエンハンスメントレイヤ130の上端とスケーリング/アップサンプリングされたベースレイヤ134の上端との間のロケーションの差分を示し、scaled_ref_layer_right_offsetはエンハンスメントレイヤ130の右端とスケーリング/アップサンプリングされたベースレイヤ134の右端との間のロケーションの差分を示し、シンタックス要素scaled_ref_layer_bottom_offsetの値はエンハンスメントレイヤ130の下端とスケーリング/アップサンプリングされたベースレイヤ134の下端との間のロケーションの差分を示す。いくつかの事例では、オフセットによって示されるスケーリング/アップサンプリングされたベースレイヤ134とエンハンスメントレイヤ130の境界との間のエリアは、テキストまたは他のスクリーンコンテンツ(たとえば、ビデオデータでない)を含み得る。   As shown in the example of FIG. 10, enhancement layer 134 also includes a region 136 that is not included in base layer 134. The region 136 generally includes the scaled offset values scaled_ref_layer_offset, the scaled_ref_layer_right_offset, and the scaled-to-scaled 130-layered area with a scale of 130 and scaled to the base / layer of the scaled_ref_layer_offset. That is, the value of the syntax element scaled_ref_layer_left_offset indicates the location difference between the left end of the enhancement layer 130 and the left end of the scaled / upsampled base layer 134. Similarly, scaled_ref_layer_top_offset indicates the location difference between the top edge of enhancement layer 130 and the top edge of scaled / upsampled base layer 134, and scaled_ref_layer_right_offset is the right edge of enhancement layer 130 and scaled / upsampled base layer 134. The value of the syntax element scaled_ref_layer_bottom_offset indicates the location difference between the lower end of the enhancement layer 130 and the lower end of the scaled / upsampled base layer 134. In some cases, the area between the scaled / upsampled base layer 134 indicated by the offset and the boundary of the enhancement layer 130 may include text or other screen content (eg, not video data).

[0169] 本開示の態様によれば、ビデオコーダ(ビデオエンコーダ20および/またはビデオデコーダ30などの)は、配列されたサンプル(たとえば、参照サンプル)のロケーションを決定し得る。ビデオコーダはまた、配列されたCTUのロケーションを、決定された配列されたサンプルに基づいて決定し得る。配列されたCTUは、エンハンスメントレイヤ130とベースレイヤ132(たとえば、ここでベースレイヤ132が参照レイヤである)との間でのレイヤ間予測のために使用され得る。   [0169] According to aspects of this disclosure, a video coder (such as video encoder 20 and / or video decoder 30) may determine the location of the arranged samples (eg, reference samples). The video coder may also determine the location of the ordered CTUs based on the determined ordered samples. The ordered CTU may be used for inter-layer prediction between enhancement layer 130 and base layer 132 (eg, where base layer 132 is the reference layer).

[0170] 例示のための一例では、ビデオコーダは、i番目の直接参照レイヤの配列されたサンプルにとっての変数xRef[i]とyRef[i]とを、以下の式に従って決定し得る。   [0170] In one example for illustration, the video coder may determine the variables xRef [i] and yRef [i] for the arranged samples of the i th direct reference layer according to the following equations:

Figure 0006301467
Figure 0006301467

ここで、xRef[i]は配列されたサンプルのx座標を表し、yRef[i]は配列されたサンプルのy座標を表す。加えて、xPおよびyPはピクチャの左上のサンプルに対するピクチャPの中の中のサンプルのロケーションであり得、シンタックス要素ScaledRefLayerLeftOffsetの値はエンハンスメントレイヤ130の左端とスケーリング/アップサンプリングされたベースレイヤ134の左端との間の距離の指示であり得、シンタックス要素ScaledRefLayerTopOffsetの値はエンハンスメントレイヤ130の右端とスケーリング/アップサンプリングされたベースレイヤ134の右端との間の距離の指示であり得る。加えて、ScaleFactorXおよびScaleFactorY(参照ピクチャおよびスケーリングされた参照ピクチャのサイズに基づくスケーリングファクタ)は、上述のSHVC文書(JCTVC−M1007)のセクションG.8.1.4に従って、エンハンスメントレイヤ130とベースレイヤ132との間でのスケールの差分に基づいて決定され得る。 Here, xRef [i] represents the x coordinate of the arranged sample, and yRef [i] represents the y coordinate of the arranged sample. In addition, xP and yP may be the location of the sample in picture P relative to the upper left sample of the picture, and the value of the syntax element ScaledRefLayerLeftOffset is the left edge of enhancement layer 130 and the scaled / upsampled base layer 134 value. The value of the syntax element ScaledRefLayerTopOffset can be an indication of the distance between the right end of the enhancement layer 130 and the right end of the scaled / upsampled base layer 134. In addition, ScaleFactorX and ScaleFactorY (a scaling factor based on the size of the reference picture and the scaled reference picture) are described in section G.1 of the above-mentioned SHVC document (JCTVC-M1007). According to 8.1.4, it can be determined based on the difference in scale between enhancement layer 130 and base layer 132.

[0171] 上記の例では、本開示の態様によれば、ビデオコーダは、配列されたサンプルxRef、yRefをオフセット値に基づいて調整する。たとえば、ビデオコーダは、参照サンプルのロケーションを、2つのレイヤ間でのスケールの差分を示すスケーリングされたオフセットに基づいて決定し得る。したがって、エンハンスメントレイヤ130のサンプルをベースレイヤ132の中の対応するロケーションに直接マッピングするのではなく、ビデオコーダは、スケールおよびオフセットの差分に起因するロケーションの相対的な差分を説明し得る。   [0171] In the above example, according to an aspect of the present disclosure, the video coder adjusts the arranged samples xRef and yRef based on the offset value. For example, the video coder may determine the location of the reference sample based on a scaled offset that indicates the difference in scale between the two layers. Thus, rather than mapping the enhancement layer 130 samples directly to corresponding locations in the base layer 132, the video coder may account for the relative differences in location due to scale and offset differences.

[0172] 配列されたサンプルのロケーションを決定した後、ビデオコーダは、配列されたCTUのロケーションを決定し得る。いくつかの事例では、ビデオコーダは、所与のCTUのそれぞれの配列されたCTB(ルーマおよびクロマCTB)のロケーションを別個に決定し得る。例示のための一例では、本開示の態様によれば、ビデオコーダは、配列されたCTUのロケーションを以下の式に基づいて決定し得る。   [0172] After determining the location of the aligned samples, the video coder may determine the location of the aligned CTUs. In some cases, the video coder may determine the location of each arranged CTB (Luma and Chroma CTB) for a given CTU separately. In one example for illustration, according to aspects of this disclosure, a video coder may determine the location of the arranged CTUs based on the following equation:

Figure 0006301467
Figure 0006301467

ここで、xColCtbはCTUのx成分(たとえば、ルーマCTB、またはCTUのクロマCTBのうちの1つ)を表し、xRefは配列されたサンプルのx座標を表し、yColCtbは配列されたCTUのy成分を表し、yRefは配列されたサンプルのy座標を表し、colCtbAddr[i]は配列されたCTUのアドレスを表す。加えて、変数refCtbLog2SizeY[i][j]、refPicWidthInCtbsY[i][j]、およびrefPicHeightInCtbsY[i][j]は、i番目のレイヤのj番目の直接参照レイヤの、それぞれ、CtbLog2SizeY、PicWidthInCtbsY、およびPicHeightInCtbsYに等しく設定され得る。したがって、変数colCtbAddr[i]は、ctbAddrに等しいラスタ走査アドレスを有するCTUの、i番目の直接参照レイヤの中のピクチャの中の、配列されたCTUのラスタ走査アドレス(raster scan address)を表示する。 Where xColCtb represents the x component of the CTU (eg, luma CTB or one of the CTU's chroma CTB), xRef represents the x coordinate of the arranged sample, and yColCtb represents the y component of the arranged CTU. YRef represents the y coordinate of the arranged sample, and colCtbAddr [i] represents the address of the arranged CTU. In addition, the variables refCtbLog2SizeY [i] [j], refPicWidthInCtbsY [i] [j], and refPicHeightInCtbsY [i] [j] are CtbLog2SizeYC, tcLog2SizeYC, tcLog2SizeYC, tcLog2SizeYC Can be set equal to PicHeightInCtbsY. Thus, the variable colCtbAddr [i] displays the raster scan address of the arranged CTUs in the picture in the i th direct reference layer of the CTU having a raster scan address equal to ctbAddr. .

[0173] 本開示の態様によれば、配列されたCTUは、配列されたCTUがオフセット遅延を満足するエリアの中に配置される場合のみ、使用され得る。たとえば、上述のように、シンタックス要素min_spatial_segment_offset_plus1、およびmin_horizontal_ctu_offset_plus1は、現在のレイヤの復号遅延を示すために使用され得る。しかしながら、拡張された空間スケーラビリティが使用されるとき、現在のレイヤの中の空間セグメントA(スライス、タイル、CTU行またはCTU)にとって、配列された空間セグメントBが直接参照レイヤの中に存在し得ないことが起こり得る。たとえば、図10の例に示すように、エンハンスメントレイヤ130の中に含まれる空間セグメントの配列された空間セグメントが、ベースレイヤ132の中に含まれないことがある(たとえば、空間セグメントが、対応するエリアをベースレイヤ132の中に有しないエリア136の中に含まれ得る)。そのような例では、オフセット遅延は、正確に決定されないことがある。   [0173] According to an aspect of the present disclosure, the arranged CTUs can be used only when the arranged CTUs are arranged in an area that satisfies the offset delay. For example, as described above, the syntax elements min_spatial_segment_offset_plus1 and min_horizontal_ctu_offset_plus1 may be used to indicate the decoding delay of the current layer. However, when extended spatial scalability is used, for spatial segment A (slice, tile, CTU row or CTU) in the current layer, an ordered spatial segment B may exist directly in the reference layer. It is possible that nothing will happen. For example, as shown in the example of FIG. 10, an ordered spatial segment of spatial segments included in enhancement layer 130 may not be included in base layer 132 (eg, a spatial segment corresponding to May be included in an area 136 that does not have an area in the base layer 132). In such an example, the offset delay may not be accurately determined.

[0174] 本開示の態様によれば、参照レイヤの中の配列されたCTUが現在のレイヤの中の特定のCTUにとって存在しないとき、ビデオコーダ(ビデオエンコーダ20および/またはビデオデコーダ30などの)は、調整されたアドレスが参照レイヤの中に存在するCTUに対応するように、CTUアドレス(x成分およびy成分)の値を、対応する参照レイヤ境界に調整し得る。図10の例では、ビデオコーダは、配列されたCTUがベースレイヤ132の境界内のCTUに対応するように、アドレスをアドジャストし得る。   [0174] According to aspects of this disclosure, a video coder (such as video encoder 20 and / or video decoder 30) when an ordered CTU in the reference layer does not exist for a particular CTU in the current layer. May adjust the value of the CTU address (x component and y component) to the corresponding reference layer boundary such that the adjusted address corresponds to a CTU present in the reference layer. In the example of FIG. 10, the video coder may adjust the address so that the aligned CTUs correspond to CTUs within the boundary of the base layer 132.

[0175] 例示のための一例では、ビデオコーダは、コルコーテッド(collcoated)CTUを決定する前に、配列されたサンプルのアドレスを調整するために、クリッピング関数を適用し得る。たとえば、ビデオコーダは、以下の式を適用し得る。   [0175] In one example for illustration, the video coder may apply a clipping function to adjust the address of the arranged samples before determining the collcoated CTU. For example, a video coder may apply the following formula:

Figure 0006301467
Figure 0006301467

ここで、xRef[i]は配列されたサンプルのxコオディネイト(coodinate)を表し、yRef[i]は配列されたサンプルのyコオディネイト(coodinate)を表す。いくつかの例では、ビデオコーダは、変数leftStartC、rightEndC、topStartC、およびbottomEndC(ここで、下付き文字Cはクロマサンプルを表す)を、図10の例に示すオフセットに対応するスケーリングされたオフセット(たとえば、ScaledRefLayerOffse)を用いて、以下の式に基づいて決定し得る。
leftStartC=ScaledRefLayerLeftOffset/SubWidthC
Here, xRef [i] represents the x coordinate (coodinate) of the arranged sample, and yRef [i] represents the y coordinate (coodinate) of the arranged sample. In some examples, the video coder may scale the variables leftStart C , rightEnd C , topStart C , and bottomEnd C (where subscript C represents the chroma sample) corresponding to the offset shown in the example of FIG. Can be determined based on the following equation using the offset offset (eg, ScaledRefLayerOffse):
leftStartC = ScaledRefLayerLeftOffset / SubWidthC

Figure 0006301467
Figure 0006301467

上記の例はクロマサンプルについて示されるが、ビデオコーダは類似の式をルーマCTBについて適用し得る。 Although the above example is shown for chroma samples, a video coder may apply a similar formula for luma CTB.

[0176] 上記の例では、ビデオコーダは、参照サンプルが参照ピクチャの外側に配置される場合には、オフセットを参照ピクチャの相対的な境界に調整し、他の場合には、ビデオコーダは、参照サンプルのロケーションを調整しない。たとえば、参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、ビデオコーダは、水平ロケーションを左の参照ピクチャ境界のロケーションと取り換え得る。同様に、参照サンプルの水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、ビデオコーダは、水平ロケーションを右の参照ピクチャ境界のロケーションと取り換え得る。参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、ビデオコーダは、垂直ロケーションを上の参照ピクチャ境界のロケーションと取り換え得る。参照サンプルの垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、ビデオコーダは、垂直ロケーションを下の参照ピクチャ境界のロケーションと取り換え得る。   [0176] In the above example, the video coder adjusts the offset to the relative boundary of the reference picture if the reference sample is placed outside the reference picture, otherwise the video coder Do not adjust the location of the reference sample. For example, when the horizontal location of the reference sample is placed to the left of the left reference picture boundary, the video coder may replace the horizontal location with the location of the left reference picture boundary. Similarly, when the horizontal location of the reference sample is placed to the right of the right reference picture boundary, the video coder may replace the horizontal location with the location of the right reference picture boundary. When the vertical location of the reference sample is placed above the upper reference picture boundary, the video coder may replace the vertical location with the location of the upper reference picture boundary. When the vertical location of the reference sample is placed below the lower reference picture boundary, the video coder may replace the vertical location with the location of the lower reference picture boundary.

[0177] 配列されたCTUをベースレイヤ130の中に配置する前に、配列されたサンプルのロケーションを、スケーリングされたオフセット値に基づいて調整することによって、ビデオコーダは、ベースレイヤ130の境界内に配置されるように、配列されたCTUを調整し得る。   [0177] Prior to placing the arranged CTUs in the base layer 130, the video coder can adjust the location of the arranged samples based on the scaled offset value within the boundary of the base layer 130. The arranged CTUs can be adjusted so that

[0178] このようにして、オフセット遅延が、参照レイヤ(ベースレイヤ132などの)の中に存在しない空間的なロケーションを示す場合、ビデオコーダは、いつ現在のレイヤ(エンハンスメントレイヤ130などの)のコーディングを開始するべきかを、依然として決定し得る。すなわち、参照レイヤ内に配置されるように、配列されたCTUを調整することによって、ビデオコーダはまた、オフセット遅延を参照レイヤの有効なロケーションの中に配置されるように調整し得る。   [0178] In this way, if the offset delay indicates a spatial location that does not exist in the reference layer (such as base layer 132), then the video coder may be in the current layer (such as enhancement layer 130). It can still be decided whether to start coding. That is, by adjusting the arranged CTUs to be placed in the reference layer, the video coder may also adjust the offset delay to be placed in a valid location in the reference layer.

[0179] 別の例では、アドレスcolCtbAddrを有するCTUがi番目の直接参照レイヤの中に存在しないとき、ビデオコーダは、その空間セグメントにとってのシンタックス要素min_spatial_segment_offset_plus1[i]の値が0であると推測されることを推測し得る。この例では、ビデオコーダはまた、JCTVC−M0464に関連するいくつかの他の変更を適用し得る。たとえば、ctu_based_offset_enabled[i]シンタックス要素が0に等しいとき、ビデオコーダは、以下の制約を適用し得る。すなわち、CTU行Aを、SPSを参照する任意のピクチャpicAの中の任意のCTU行とし、ctbAddrを、CTU行Aの中の最後のCTUのラスタ走査アドレスとする;CTU行Bを、picAと同じアクセスユニットに属するとともにi番目の直接参照レイヤに属するピクチャpicBの中にある、ラスタ走査アドレスcolCtbAddr[i]を有するCTUを含むCTU行とする;CTU行Cを、同様にpicBの中にあり復号順序でCTU行Bに続くCTU行とし、CTU行BとそのCTU行との間に、min_spatial_segment_offset_plus1[i]−1個のCTU行が復号順序で存在する;CTU行Cが存在するとき、CTU行Aのシンタックス要素は、CTU行CまたはCに続く同じピクチャの行の中のサンプルまたはシンタックス要素の値が、CTU行A内の任意のサンプルの復号プロセスにおけるレイヤ間予測のために使用されないように、制約される。加えて、CTU行Bが存在しないとき、その空間セグメントにとってのシンタックス要素min_spatial_segment_offset_plus1[i]の値は、0であると推測される。   [0179] In another example, when the CTU with the address colCtbAddr is not present in the i th direct reference layer, the video coder determines that the value of the syntax element min_spatial_segment_offset_plus1 [i] for the spatial segment is 0. You can guess what is guessed. In this example, the video coder may also apply some other changes related to JCTVC-M0464. For example, when the ctu_based_offset_enabled [i] syntax element is equal to 0, the video coder may apply the following constraints: That is, CTU row A is any CTU row in any picture picA that references SPS, and ctbAddr is the raster scan address of the last CTU in CTU row A; CTU row B is picA Let CTU row containing CTU with raster scan address colCtbAddr [i] in picture picB belonging to the same access unit and belonging to the i th direct reference layer; CTU row C is also in picB The CTU row follows CTU row B in decoding order, and min_spatial_segment_offset_plus1 [i] -1 CTU rows exist in decoding order between CTU row B and the CTU row; when CTU row C exists, CTU row C The syntax element for row A is the same pico that follows CTU row C or C. The value of the sample or the syntax elements in the tea rows, so that it can not be used for inter-layer prediction in any sample of the decoding process in the CTU line A, is constrained. In addition, when CTU row B does not exist, the value of the syntax element min_spatial_segment_offset_plus1 [i] for that spatial segment is assumed to be zero.

[0180] ビデオコーダは、スライスおよびタイルのような他の空間セグメントについて同じ制約を適用し得る。たとえば、スライスセグメントBが存在しないとき、その空間セグメントにとってのシンタックス要素min_spatial_segment_offset_plus1[i]の値は、0であると推測され得る。別の例として、タイルBが存在しないとき、その空間セグメントにとってのシンタックス要素min_spatial_segment_offset_plus1[i]の値は、0であると推測され得る。   [0180] The video coder may apply the same constraints for other spatial segments such as slices and tiles. For example, when slice segment B does not exist, the value of the syntax element min_spatial_segment_offset_plus1 [i] for that spatial segment can be assumed to be zero. As another example, when tile B does not exist, the value of the syntax element min_spatial_segment_offset_plus1 [i] for that spatial segment can be assumed to be zero.

[0181] 図11Aは、ビデオデータのためのオフセット遅延情報を含むマルチレイヤビデオデータを符号化するための例示的なプロセスを示す流れ図である。図11Aのプロセスは、概して、例示のためにビデオエンコーダ20によって実行されるものとして説明されるが、様々な他のプロセッサも図11Aに示すプロセスを実行し得る。   [0181] FIG. 11A is a flow diagram illustrating an exemplary process for encoding multi-layer video data including offset delay information for video data. The process of FIG. 11A is generally described as being performed by video encoder 20 for purposes of illustration, but various other processors may also perform the process shown in FIG. 11A.

[0182] 図11Aの例では、ビデオエンコーダ20は、現在符号化されているマルチレイヤビットストリームにとって任意のレイヤ間予測制約が存在するかどうかを決定し得る(150)。たとえば、ビデオエンコーダ20は、並列に復号され得る複数のレイヤを符号化するとき、レイヤ間予測制約を適用し得る。特定のオフセット遅延パラメータは、ビデオエンコーダ20の特定のアーキテクチャ(たとえば、処理コアの数など)に依存し得る。   [0182] In the example of FIG. 11A, video encoder 20 may determine whether there are any inter-layer prediction constraints for the currently encoded multi-layer bitstream (150). For example, video encoder 20 may apply inter-layer prediction constraints when encoding multiple layers that may be decoded in parallel. The particular offset delay parameter may depend on the particular architecture of video encoder 20 (eg, the number of processing cores, etc.).

[0183] レイヤ間制約(inter-layer restriction)が存在する場合(150の「はい」分岐)、ビデオエンコーダ20は、オフセット遅延指示と各参照レイヤにとってのオフセット遅延とを符号化し得る(152)。本開示の態様によれば、ビデオエンコーダ20は、そのような情報をVPSの中で符号化し得る。たとえば、ビデオエンコーダ20は、任意のレイヤ間予測制約が存在するかどうかを示すデータをVPSの中で符号化し得る。データは、いくつかの事例では、少なくとも1つの参照レイヤが、関連付けられたオフセット遅延を有するかどうかを示す1つまたは複数のシンタックス要素を含み得る。ビデオエンコーダ20はまた、遅延を有する各参照レイヤにとってのオフセット遅延(たとえば、オフセット遅延の空間エリア)を示すデータを符号化し得る。   [0183] If there is an inter-layer restriction (150 "yes" branch), video encoder 20 may encode the offset delay indication and the offset delay for each reference layer (152). According to aspects of this disclosure, video encoder 20 may encode such information in a VPS. For example, video encoder 20 may encode data in the VPS that indicates whether any inter-layer prediction constraints exist. The data may include, in some cases, one or more syntax elements that indicate whether at least one reference layer has an associated offset delay. Video encoder 20 may also encode data indicating the offset delay (eg, the spatial area of the offset delay) for each reference layer having a delay.

[0184] ビデオエンコーダ20は、次いで、VPSのデータに従ってレイヤを符号化し得る(154)。いくつかの事例では、ビデオエンコーダ20は、レイヤを並列に符号化し得る。   [0184] Video encoder 20 may then encode the layer according to the VPS data (154). In some cases, video encoder 20 may encode layers in parallel.

[0185] 図11Bは、ビデオデータのためのオフセット遅延情報を含むマルチレイヤビデオデータを復号するための例示的なプロセスを示す流れ図である。図11Bのプロセスは、概して、例示のためにビデオデコーダ30によって実行されるものとして説明されるが、様々な他のプロセッサも図11Bに示すプロセスを実行し得る。   [0185] FIG. 11B is a flow diagram illustrating an example process for decoding multi-layer video data including offset delay information for video data. The process of FIG. 11B is generally described as being performed by video decoder 30 for purposes of illustration, but various other processors may also perform the process shown in FIG. 11B.

[0186] 図11Bの例では、ビデオデコーダ30は、現在符号化されているマルチレイヤビットストリームにとって任意のレイヤ間予測制約が存在するかどうかを決定し得る(158)。たとえば、ビデオデコーダ30は、現在のレイヤのための任意の直接参照レイヤ(この場合、直接参照レイヤはレイヤ間予測のために現在のレイヤによって参照される)が、関連付けられたオフセット遅延を有するかどうかを決定し得る。本開示の態様によれば、ビデオデコーダ30は、VPSの中に含まれるデータに基づいて、レイヤ間予測制約の決定を行い得る。データは、いくつかの事例では、少なくとも1つの参照レイヤが、関連付けられたオフセット遅延を有するかどうかを示す1つまたは複数のシンタックス要素を含み得る。ビデオデコーダ30はまた、遅延を有する各参照レイヤにとってのオフセット遅延(たとえば、オフセット遅延の空間エリア)を示すデータを復号し得る。   [0186] In the example of FIG. 11B, video decoder 30 may determine whether there are any inter-layer prediction constraints for the currently encoded multi-layer bitstream (158). For example, video decoder 30 may determine whether any direct reference layer for the current layer (in this case, the direct reference layer is referenced by the current layer for inter-layer prediction) has an associated offset delay. You can decide. According to aspects of this disclosure, video decoder 30 may perform inter-layer prediction constraint determination based on data included in the VPS. The data may include, in some cases, one or more syntax elements that indicate whether at least one reference layer has an associated offset delay. Video decoder 30 may also decode data indicating the offset delay (eg, the spatial area of the offset delay) for each reference layer having a delay.

[0187] ビデオデコーダ30は、次いで、VPSのデータに従ってレイヤを復号し得る(162)。たとえば、いくつかの事例では、ビデオデコーダ30は、別のレイヤに関連してあるレイヤを復号し得る。加えて、ビデオデコーダ30は、複数のレイヤを並列に復号するとき、決定されたオフセットパラメータ(上述されたVPSの中で規定されるような)に忠実であり得る。すなわち、ビデオデコーダ30は、参照レイヤからの規定された量のビデオデータが復号されるまで(オフセット遅延によって規定されるように)、現在のレイヤを復号することを待ってもよい。   [0187] Video decoder 30 may then decode the layer according to the VPS data (162). For example, in some cases, video decoder 30 may decode one layer relative to another layer. In addition, video decoder 30 may be faithful to the determined offset parameter (as defined in the VPS described above) when decoding multiple layers in parallel. That is, video decoder 30 may wait to decode the current layer until a defined amount of video data from the reference layer is decoded (as defined by the offset delay).

[0188] 図12は、マルチレイヤビデオコーディングにおいてビデオデータの配列されたブロックを決定するための例示的なプロセスを示す流れ図である。配列されたブロックは、レイヤ間予測のために使用され得、オフセット遅延を実現するときに決定され得る。図12の方法は、概して、ビデオコーダによって実行されるものとして説明される。ビデオコーダは、たとえば、ビデオエンコーダ20またはビデオデコーダ30、あるいは他のそのようなビデオコーディングデバイス(たとえば、ビデオトランスコーディングデバイス)に対応し得る。   [0188] FIG. 12 is a flow diagram illustrating an example process for determining an ordered block of video data in multi-layer video coding. The arranged blocks can be used for inter-layer prediction and can be determined when implementing offset delay. The method of FIG. 12 is generally described as being performed by a video coder. A video coder may correspond to, for example, video encoder 20 or video decoder 30, or other such video coding device (eg, video transcoding device).

[0189] 図12の例では、ビデオコーダは、配列された参照サンプルのロケーションを決定し得る(170)。たとえば、マルチレイヤビデオコーディングにおいて、ビデオコーダは、最初に、現在コーディングされているレイヤの中のサンプルのロケーションを決定し得る。ビデオコーダは、次いで、サンプルのケーションを参照レイヤの中の対応する配列されたロケーションにマッピングし得る。   [0189] In the example of FIG. 12, the video coder may determine 170 the location of the aligned reference samples. For example, in multi-layer video coding, the video coder may first determine the location of the sample in the currently coded layer. The video coder may then map the sample application to the corresponding ordered location in the reference layer.

[0190] ビデオコーダは、参照ピクチャ内に配置されるように、参照サンプルのロケーションを調整し得る(172)。たとえば、いくつかの事例では、現在のピクチャの中のブロック(たとえば、現在のCTU)は、たとえば、図9および図10の例に示すように、参照ピクチャの中の対応するブロック(たとえば、配列されたCTU)を有しないことがある。配列されたブロックが参照ピクチャの中で利用可能でない場合、いくつかの例では、ビデオコーダは、参照レイヤに関連付けられたオフセット遅延を適切に適用することができない。たとえば、ビデオコーダは、現在のレイヤの中の遅延によって示される空間セグメントを配置すること、および空間セグメントを参照レイヤの中の配列された位置にマッピングすることによって、オフセット遅延を実現することができる。配列された空間セグメントが利用可能でない場合、ビデオコーダは、オフセット遅延を適切に実現できない場合がある。   [0190] The video coder may adjust the location of the reference samples to be placed in the reference picture (172). For example, in some cases, a block in the current picture (eg, the current CTU) is a corresponding block (eg, an array) in the reference picture, eg, as shown in the examples of FIGS. CTU) may not be included. If the ordered block is not available in the reference picture, in some examples, the video coder may not properly apply the offset delay associated with the reference layer. For example, a video coder can achieve an offset delay by placing a spatial segment indicated by a delay in the current layer and mapping the spatial segment to an ordered location in the reference layer. . If the ordered spatial segment is not available, the video coder may not be able to properly achieve the offset delay.

[0191] 本開示の態様によれば、ビデオコーダは、参照ピクチャのエリア内にあるサンプルのロケーションを決定することによって、参照サンプルのロケーションを調整し得る。たとえば、現在のピクチャに関連付けられたスケーリングされたオフセット値(たとえば、図10に示すような)は、参照ピクチャの境界を示し得る。ビデオコーダは、これらの境界内となるように、配列されたサンプルのロケーションを調整し得る。いくつかの例では、本開示の態様によれば、ビデオコーダは、参照サンプルが参照ピクチャ内になるように、たとえば、クリッピング関数を使用して、参照サンプルのロケーションをクリップし得る。参照サンプルが参照ピクチャの境界にすでに含まれている場合、ビデオコーダは上述された調整を実行し得ない。   [0191] According to aspects of this disclosure, a video coder may adjust the location of the reference samples by determining the location of the samples that are within the area of the reference picture. For example, a scaled offset value associated with the current picture (eg, as shown in FIG. 10) may indicate a reference picture boundary. The video coder may adjust the location of the arranged samples to be within these boundaries. In some examples, according to aspects of this disclosure, a video coder may clip the location of a reference sample, eg, using a clipping function, such that the reference sample is in a reference picture. If the reference sample is already included at the boundary of the reference picture, the video coder cannot perform the adjustment described above.

[0192] ビデオコーダは、次いで、配列されたブロックのロケーションを参照サンプルに基づいて決定し得る(174)。たとえば、ビデオコーダは、配列されたブロックのサイズを決定するとともに、その適切にサイズ決定されたブロックを、参照サンプルのロケーションに配置し得る。いくつかの例では、ビデオコーダは、レイヤ間予測のためのオフセット遅延を適用するとき、配列されたブロックを決定し得る。ビデオコーダは、配列されたブロックに関連して現在のブロックをコーディングし得る(176)。   [0192] The video coder may then determine the location of the arranged blocks based on the reference samples (174). For example, the video coder may determine the size of the arranged block and place the appropriately sized block at the location of the reference sample. In some examples, the video coder may determine the arranged blocks when applying an offset delay for inter-layer prediction. The video coder may code the current block in relation to the arranged blocks (176).

[0193] 図13は、マルチレイヤビデオコーディングにおいてタイル整列情報を決定するための例示的なプロセスを示す流れ図である。図13の方法は、概して、ビデオコーダによって実行されるものとして説明される。ビデオコーダは、たとえば、ビデオエンコーダ20またはビデオデコーダ30、あるいは他のそのようなビデオコーディングデバイス(たとえば、ビデオトランスコーディングデバイス)に対応し得る。   FIG. 13 is a flow diagram illustrating an example process for determining tile alignment information in multi-layer video coding. The method of FIG. 13 is generally described as being performed by a video coder. A video coder may correspond to, for example, video encoder 20 or video decoder 30, or other such video coding device (eg, video transcoding device).

[0194] この例では、ビデオコーダは、1つまたは複数の参照レイヤタイルをコーディングする(180)。次いでビデオコーダは、エンハンスメントレイヤのタイル境界が整列されているかどうかを決定する(182)。たとえば、ビデオエンコーダ20は、参照レイヤピクチャを整列させるかどうかを決定し、タイル境界が整列されているかどうかを示す、tile_boundaries_aligned_flagシンタックス要素などのシンタックス要素に対する値を符号化し得る一方で、ビデオデコーダ30は、たとえば、tile_boundaries_aligned_flagなどのシンタックス要素の値に基づいて、参照レイヤの境界が整列されているかどうかを決定し得る。同じエンハンスメントレイヤタイル内にある任意の2つのエンハンスメントレイヤピクチャサンプルに対して、配列された参照レイヤサンプルもまた、利用可能な場合、同じ参照レイヤタイル内にあるとき、および、同じ参照レイヤタイル内にある任意の2つの参照レイヤピクチャサンプルに対して、配列されたエンハンスメントレイヤサンプルもまた、利用可能な場合、同じエンハンスメントレイヤタイル内にあるときに、エンハンスメントレイヤピクチャのタイル境界は、参照レイヤピクチャのタイル境界と整列されていると言われてよい。   [0194] In this example, the video coder codes (180) one or more reference layer tiles. The video coder then determines (182) whether the enhancement layer tile boundaries are aligned. For example, video encoder 20 may encode a value for a syntax element, such as a tile_boundaries_aligned_flag syntax element that determines whether to align a reference layer picture and indicates whether the tile boundary is aligned, while the video decoder 30 may determine whether the boundary of the reference layer is aligned based on the value of a syntax element such as, for example, tile_boundaries_aligned_flag. For any two enhancement layer picture samples that are in the same enhancement layer tile, the aligned reference layer samples are also available when they are in the same reference layer tile and in the same reference layer tile For any two reference layer picture samples, if the ordered enhancement layer sample is also available, the tile boundary of the enhancement layer picture is the tile of the reference layer picture when it is within the same enhancement layer tile. It may be said that it is aligned with the boundary.

[0195] 本開示の態様によれば、ビデオエンコーダ20は、タイル境界が整列されているかどうかを示すデータを、VPSの中で符号化し得る。同様に、ビデオデコーダ30は、タイル境界が整列されているかどうかを示すデータを、VPSから復号し得る。タイル境界が整列されているかどうかを示すデータは、レイヤ固有でなくてもよく、タイル境界が整列されるように制約されるかどうかのクロスレイヤ指示を提供し得る。   [0195] According to aspects of this disclosure, video encoder 20 may encode data in a VPS that indicates whether tile boundaries are aligned. Similarly, video decoder 30 may decode data from the VPS that indicates whether the tile boundaries are aligned. Data indicating whether tile boundaries are aligned may not be layer specific and may provide a cross-layer indication of whether the tile boundaries are constrained to be aligned.

[0196] エンハンスメントレイヤピクチャのタイル境界が、参照レイヤピクチャのタイル境界と整列されていないとき(182の「いいえ」分岐)、ビデオコーダは、それに応じてビデオデータをコーディングし得る(184)。たとえば、ビデオコーダは、いくつかの事例では、レイヤ間予測、フィルタリングなどに制約を適用し得る。一方で、エンハンスメントレイヤピクチャのタイル境界が、参照レイヤピクチャのタイル境界と整列されているとき(182の「はい」分岐)、ビデオコーダは、それに応じてビデオデータをコーディングし得る(186)。たとえば、ビデオコーダは、レイヤ間予測、フィルタリング、または整列されたタイル境界を用いる他の技法を使用することができる。   [0196] When the tile boundary of the enhancement layer picture is not aligned with the tile boundary of the reference layer picture ("No" branch of 182), the video coder may code the video data accordingly (184). For example, a video coder may apply constraints to inter-layer prediction, filtering, etc. in some cases. On the other hand, when the tile boundary of the enhancement layer picture is aligned with the tile boundary of the reference layer picture (“Yes” branch of 182), the video coder may code the video data accordingly (186). For example, a video coder may use inter-layer prediction, filtering, or other techniques that use aligned tile boundaries.

[0197] 本開示のいくつかの態様が、説明のためにHEVC規格およびHEVC規格の拡張に関して説明された。ただし、本開示で説明する技法は、他の規格またはまだ開発されていないプロプライエタリなビデオコーディング処理を含む、他のビデオコーディング処理にとって有用であり得る。   [0197] Certain aspects of the present disclosure have been described with respect to the HEVC standard and extensions to the HEVC standard for purposes of illustration. However, the techniques described in this disclosure may be useful for other video coding processes, including other standards or proprietary video coding processes that have not yet been developed.

[0198] 本開示に記載されたビデオコーダは、ビデオエンコーダまたはビデオデコーダを指す場合がある。同様に、ビデオコーディングユニットは、ビデオエンコーダまたはビデオデコーダを指す場合がある。同様に、ビデオコーディングは、適用可能な場合、ビデオ符号化またはビデオ復号を指す場合がある。   [0198] A video coder described in this disclosure may refer to a video encoder or a video decoder. Similarly, a video coding unit may refer to a video encoder or video decoder. Similarly, video coding may refer to video encoding or video decoding where applicable.

[0199] 例によるが、本明細書で説明した技法のうちいずれかの、いくつかの作用またはイベントは、異なるシーケンスで実行される可能性があり、追加されるか、併合されるか、または完全に除外される場合がある(たとえば、すべての説明した作用またはイベントが、本技法の実施のために必要であるとは限らない)ことは認識されたい。その上、いくつかの例では、動作またはイベントは、連続的にではなく、同時に、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサを通じて実行され得る。   [0199] Depending on the example, some actions or events of any of the techniques described herein may be performed in different sequences, added, merged, or It will be appreciated that some may be completely excluded (eg, not all described actions or events are required for implementation of the present technique). Moreover, in some examples, operations or events may be performed simultaneously, eg, through multithreaded processing, interrupt processing, or multiple processors, rather than continuously.

[0200] 1つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実現され得る。ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されてよく、あるいは、コンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行されてよい。コンピュータ可読媒体は、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を支援する任意の媒体を含む、データ記憶媒体または通信媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。このようにして、コンピュータ可読媒体は、一般に、(1)非一時的である有形コンピュータ可読記憶媒体、あるいは(2)信号または搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明された技法を実装するための命令、コードおよび/またはデータ構造を取り出すために、1つもしくは複数のコンピュータ、または1つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含む場合がある。   [0200] In one or more examples, the functions described may be implemented in hardware, software, firmware, or any combination thereof. If implemented in software, the functions may be stored on the computer-readable medium as one or more instructions or code, or transmitted over the computer-readable medium and executed by a hardware-based processing unit. Good. The computer-readable medium is a computer-readable storage medium corresponding to a tangible medium such as a data storage medium or a communication medium, including any medium that supports transfer of a computer program from one place to another according to a communication protocol. May be included. In this manner, computer-readable media generally may correspond to (1) tangible computer-readable storage media which is non-transitory or (2) a communication medium such as a signal or carrier wave. Any data storage medium may be accessed by one or more computers, or one or more processors, to retrieve instructions, code and / or data structures for implementing the techniques described in this disclosure. It can be an available medium. A computer program product may include a computer-readable medium.

[0201] 限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージ、または他の磁気ストレージデバイス、フラッシュメモリ、あるいは、命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用されコンピュータによってアクセスされ得る、任意の他の媒体を備え得る。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まないが、代わりに非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびBlu−rayディスク(disc)を含み、この場合、ディスク(disk)は、通常、データを磁気的に再生し、一方、ディスク(disc)は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。   [0201] By way of example, and not limitation, such computer-readable storage media include RAM, ROM, EEPROM®, CD-ROM or other optical disk storage, magnetic disk storage, or other magnetic storage device, flash memory Alternatively, it may comprise any other medium that can be used to store the desired program code in the form of instructions or data structures and accessed by a computer. Any connection is also properly termed a computer-readable medium. For example, instructions are sent from a website, server, or other remote source using coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), or wireless technologies such as infrared, wireless, and microwave Where included, coaxial technology, fiber optic cable, twisted pair, DSL, or wireless technologies such as infrared, radio, and microwave are included in the definition of media. However, it should be understood that computer-readable storage media and data storage media do not include connections, carrier waves, signals, or other temporary media, but instead are directed to non-transitory tangible storage media. As used herein, a disk and a disc are a compact disc (CD), a laser disc (registered trademark) (disc), an optical disc (disc), a digital versatile disc (DVD). ), Floppy disk and Blu-ray disc, in which case the disk normally reproduces the data magnetically, while the disc is the data Is optically reproduced with a laser. Combinations of the above should also be included within the scope of computer-readable media.

[0202] 命令は、1つもしくは複数のデジタルシグナルプロセッサ(DSP)などの1つもしくは複数のプロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、または他の等価な集積回路もしくはディスクリート論理回路によって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または本明細書で説明された技法の実施に適した任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成された専用のハードウェアおよび/またはソフトウェアモジュール内に設けられる場合があるか、または複合コーデックに組み込まれる場合がある。また、本技法は、1つまたは複数の回路または論理要素に完全に実装され得る。   [0202] The instructions may be one or more processors, such as one or more digital signal processors (DSPs), general purpose microprocessors, application specific integrated circuits (ASICs), field programmable logic arrays (FPGAs), or other It can be implemented by an equivalent integrated circuit or a discrete logic circuit. Thus, as used herein, the term “processor” can refer to either the structure described above or any other structure suitable for implementation of the techniques described herein. In addition, in some aspects, the functionality described herein may be provided in dedicated hardware and / or software modules configured for encoding and decoding, or composite codecs May be incorporated into. The technique may also be fully implemented in one or more circuits or logic elements.

[0203] 本開示の技法は、ワイヤレスハンドセット、集積回路(IC)、またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置の中に実装される場合がある。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットが説明されたが、それらの構成要素、モジュール、またはユニットは、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、前述のように、適切なソフトウェアおよび/またはファームウェアとともに、様々なユニットがコーデックハードウェアユニットにおいて組み合わせられ得るか、または前述のような1つもしくは複数のプロセッサを含む、相互動作可能なハードウェアユニットの集合体によって設けられ得る。   [0203] The techniques of this disclosure may be implemented in a wide variety of devices or apparatuses, including a wireless handset, an integrated circuit (IC), or a set of ICs (eg, a chipset). Although this disclosure has described various components, modules, or units to emphasize functional aspects of a device configured to perform the disclosed techniques, those components, modules, or units have been described. Are not necessarily realized by different hardware units. Rather, as described above, various units can be combined in a codec hardware unit, with appropriate software and / or firmware, or interoperable hardware including one or more processors as described above. It can be provided by a collection of units.

[0204] 種々の例が記載された。これらおよび他の例は、以下の特許請求の範囲内である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1]
ビデオデータを復号する方法であって、
1つまたは複数のスケーリングされたオフセット値に基づいて、ビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを決定することと、ここにおいて、前記参照ピクチャは、マルチレイヤビットストリームの第1のレイヤの中に含まれ、前記1つまたは複数のスケーリングされたオフセット値は、前記第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す、
前記参照サンプルの前記ロケーションに基づいて、前記第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを決定することと、
前記配列された参照ブロックに関連して前記第2のレイヤの中のビデオデータの現在のブロックを復号することと
を備える、方法。
[C2]
前記配列された参照ブロックは、配列されたコーディングツリーユニット(CTU)を備え、それにより前記配列された参照ブロックの前記ロケーションを決定することが、前記配列されたCTUのロケーションを決定することを備える、C1に記載の方法。
[C3]
前記配列されたCTUの前記ロケーションを決定することは、前記配列されたCTUのラスタ走査アドレスを決定することを備える、C2に記載の方法。
[C4]
前記マルチレイヤビットストリームから前記1つまたは複数のスケーリングされたオフセット値を復号することをさらに備える、C1に記載の方法。
[C5]
前記配列された参照ブロックの前記ロケーションを決定する前に、前記参照サンプルが前記参照ピクチャ内に配置されるように、前記参照サンプルの前記ロケーションを調整することをさらに備える、C1に記載の方法。
[C6]
前記参照サンプルの前記ロケーションを調整することは、前記1つまたは複数のスケーリングされたオフセット値に基づいて前記参照サンプルのロケーションをクリップすることを備える、C5に記載の方法。
[C7]
前記参照サンプルの前記ロケーションをクリップすることは、
前記参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、前記水平ロケーションを前記左の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、前記水平ロケーションを前記右の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、前記垂直ロケーションを前記上の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、前記垂直ロケーションを前記下の参照ピクチャ境界のロケーションと取り換えることと
を備える、C6に記載の方法。
[C8]
前記マルチレイヤビットストリームはスケーラブルなビットストリームであり、第1のレイヤは前記スケーラブルなビットストリームのベースレイヤであり、前記第2のレイヤは前記スケーラブルなビットストリームのエンハンスメントレイヤである、C1に記載の方法。
[C9]
ビデオデータを符号化する方法であって、
1つまたは複数のスケーリングされたオフセット値に基づいて、ビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを決定することと、ここにおいて、前記参照ピクチャは、マルチレイヤビットストリームの第1のレイヤの中に含まれ、前記1つまたは複数のスケーリングされたオフセット値は、前記第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す、
前記参照サンプルの前記ロケーションに基づいて、前記第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを決定することと、
前記配列された参照ブロックに関連して前記第2のレイヤの中のビデオデータの現在のブロックを符号化することと
を備える、方法。
[C10]
前記配列された参照ブロックは、配列されたコーディングツリーユニット(CTU)を備え、それにより前記配列された参照ブロックの前記ロケーションを決定することが、前記配列されたCTUのロケーションを決定することを備える、C9に記載の方法。
[C11]
前記配列されたCTUの前記ロケーションを決定することは、前記配列されたCTUのラスタ走査アドレスを決定することを備える、C10に記載の方法。
[C12]
前記マルチレイヤビットストリームの中で前記1つまたは複数のスケーリングされたオフセット値を符号化することをさらに備える、C9に記載の方法。
[C13]
前記配列された参照ブロックの前記ロケーションを決定する前に、前記参照サンプルが前記参照ピクチャ内に配置されるように、前記参照サンプルの前記ロケーションを調整することをさらに備える、C9に記載の方法。
[C14]
前記参照サンプルの前記ロケーションを調整することは、前記1つまたは複数のスケーリングされたオフセット値に基づいて前記参照サンプルのロケーションをクリップすることを備える、C13に記載の方法。
[C15]
前記参照サンプルの前記ロケーションをクリップすることは、
前記参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、前記水平ロケーションを前記左の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、前記水平ロケーションを前記右の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、前記垂直ロケーションを前記上の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、前記垂直ロケーションを前記下の参照ピクチャ境界のロケーションと取り換えることとを備える、C14に記載の方法。
[C16]
前記マルチレイヤビットストリームはスケーラブルなビットストリームであり、第1のレイヤは前記スケーラブルなビットストリームのベースレイヤであり、前記第2のレイヤは前記スケーラブルなビットストリームのエンハンスメントレイヤである、C9に記載の方法。
[C17]
ビデオコーディングを実行する装置であって、
ビデオデータを記憶するメモリと、
1つまたは複数のスケーリングされたオフセット値に基づいてビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを決定することと、ここにおいて、前記参照ピクチャは、マルチレイヤビットストリームの第1のレイヤの中に含まれ、前記1つまたは複数のスケーリングされたオフセット値は、前記第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す、
前記参照サンプルの前記ロケーションに基づいて前記第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを決定することと、
前記配列された参照ブロックに関連して前記第2のレイヤの中のビデオデータの現在のブロックを、コーディングすることと
を行うように構成されたビデオコーダと
を備える、装置。
[C18]
前記配列された参照ブロックは、配列されたコーディングツリーユニット(CTU)を備え、それにより前記配列された参照ブロックの前記ロケーションを決定するために、前記ビデオコーダが、前記配列されたCTUのロケーションを決定するように構成される、C17に記載の装置。
[C19]
前記配列されたCTUの前記ロケーションを決定するために、前記ビデオコーダは、前記配列されたCTUのラスタ走査アドレスを決定するように構成される、C18に記載の装置。
[C20]
前記ビデオコーダは、前記マルチレイヤビットストリームの中で前記1つまたは複数のスケーリングされたオフセット値をコーディングするようにさらに構成される、C17に記載の装置。
[C21]
前記ビデオコーダは、前記配列された参照ブロックの前記ロケーションを決定する前に、前記参照サンプルが前記参照ピクチャ内に配置されるように、前記参照サンプルの前記ロケーションを調整するようにさらに構成される、C17に記載の装置。
[C22]
前記参照サンプルの前記ロケーションを調整するために、前記ビデオコーダは、前記1つまたは複数のスケーリングされたオフセット値に基づいて前記参照サンプルのロケーションをクリップするように構成される、C21に記載の装置。
[C23]
前記参照サンプルの前記ロケーションをクリップするために、前記ビデオコーダは、
前記参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、前記水平ロケーションを前記左の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、前記水平ロケーションを前記右の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、前記垂直ロケーションを前記上の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、前記垂直ロケーションを前記下の参照ピクチャ境界のロケーションと取り換えることとを行うように構成される、C22に記載の装置。
[C24]
前記マルチレイヤビットストリームはスケーラブルなビットストリームであり、第1のレイヤは前記スケーラブルなビットストリームのベースレイヤであり、前記第2のレイヤは前記スケーラブルなビットストリームのエンハンスメントレイヤである、C17に記載の装置。
[C25]
前記ビデオデータをコーディングするために、前記ビデオコーダは、
前記マルチレイヤビットストリームの少なくとも1つのレイヤについての残差ビデオデータを決定することと、
前記残差データを変換することと、
前記マルチレイヤビットストリームの中で前記変換された残差データを表すデータを符号化することとを備える、前記ビデオデータを符号化することを行うように構成される、C17に記載の装置。
[C26]
前記ビデオデータをコーディングするために、前記ビデオコーダは、
前記マルチレイヤビットストリームから、前記マルチレイヤビットストリームの少なくとも1つのレイヤについての残差ビデオデータを表すデータを解析することと、
前記残差データを逆変換することと、
前記逆変換された残差データに基づいてビデオデータの前記少なくとも1つのレイヤを再構成することとを備える、前記ビデオデータを復号することを行うように構成される、C17に記載の装置。
[C27]
前記ビデオデータを提示するように構成されたディスプレイデバイスをさらに備える、C17に記載の装置。
[C28]
前記ビデオデータを受信するように構成されたワイヤレスモデムをさらに備える、C17に記載の装置。
[C29]
ビデオコーディングを実行する装置であって、
1つまたは複数のスケーリングされたオフセット値に基づいて、ビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを決定するための手段と、ここにおいて、前記参照ピクチャは、マルチレイヤビットストリームの第1のレイヤの中に含まれ、前記1つまたは複数のスケーリングされたオフセット値は、前記第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す、
前記参照サンプルの前記ロケーションに基づいて、前記第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを決定するための手段と、
前記配列された参照ブロックに関連して前記第2のレイヤの中のビデオデータの現在のブロックをコーディングするための手段とを備える、装置。
[C30]
前記配列された参照ブロックは、配列されたコーディングツリーユニット(CTU)を備え、それにより前記配列された参照ブロックの前記ロケーションを決定するための前記手段が、前記配列されたCTUのロケーションを決定するための手段を備える、C29に記載の装置。
[C31]
前記配列されたCTUの前記ロケーションを決定するための前記手段は、前記配列されたCTUのラスタ走査アドレスを決定するための手段を備える、C30に記載の装置。
[C32]
前記マルチレイヤビットストリームの中で前記1つまたは複数のスケーリングされたオフセット値をコーディングするための手段をさらに備える、C29に記載の装置。
[C33]
前記配列された参照ブロックの前記ロケーションを決定する前に、前記参照サンプルが前記参照ピクチャ内に配置されるように、前記参照サンプルの前記ロケーションを調整するための手段をさらに備える、C29に記載の装置。
[C34]
前記参照サンプルの前記ロケーションを調整するための前記手段は、前記1つまたは複数のスケーリングされたオフセット値に基づいて前記参照サンプルのロケーションをクリップするための手段を備える、C33に記載の装置。
[C35]
前記参照サンプルの前記ロケーションをクリップするための前記手段は、
前記参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、前記水平ロケーションを前記左の参照ピクチャ境界のロケーションと取り換えるための手段と、
前記参照サンプルの前記水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、前記水平ロケーションを前記右の参照ピクチャ境界のロケーションと取り換えるための手段と、
前記参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、前記垂直ロケーションを前記上の参照ピクチャ境界のロケーションと取り換えるための手段と、
前記参照サンプルの前記垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、前記垂直ロケーションを前記下の参照ピクチャ境界のロケーションと取り換えるための手段とを備える、C34に記載の装置。
[C36]
前記マルチレイヤビットストリームはスケーラブルなビットストリームであり、第1のレイヤは前記スケーラブルなビットストリームのベースレイヤであり、前記第2のレイヤは前記スケーラブルなビットストリームのエンハンスメントレイヤである、C29に記載の装置。
[C37]
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令が、実行されたとき、ビデオコーダに、
1つまたは複数のスケーリングされたオフセット値に基づいてビデオデータの参照ピクチャに関連付けられた参照サンプルのロケーションを決定することと、ここにおいて、前記参照ピクチャは、マルチレイヤビットストリームの第1のレイヤの中に含まれ、前記1つまたは複数のスケーリングされたオフセット値は、前記第1のレイヤと第2の異なるレイヤとの間のスケールの差分を示す、
前記参照サンプルの前記ロケーションに基づいて前記第1のレイヤの中のビデオデータの配列された参照ブロックのロケーションを、決定することと、
前記配列された参照ブロックに対して前記第2のレイヤの中のビデオデータの現在のブロックを符号化することとを行わせる、非一時的コンピュータ可読媒体。
[C38]
前記配列された参照ブロックは、配列されたコーディングツリーユニット(CTU)を備え、それにより前記配列された参照ブロックの前記ロケーションを決定するために、前記命令が、前記ビデオコーダに、前記配列されたCTUのロケーションを決定させる、C37に記載の非一時的コンピュータ可読媒体。
[C39]
前記配列されたCTUの前記ロケーションを決定するために、前記命令は、前記ビデオコーダに、前記配列されたCTUのラスタ走査アドレスを決定させる、C38に記載の非一時的コンピュータ可読媒体。
[C40]
前記命令は、前記ビデオコーダに、前記1つまたは複数のスケーリングされたオフセット値を、前記マルチレイヤビットストリームの中でコーディングさせる、C37に記載の非一時的コンピュータ可読媒体。
[C41]
前記命令は、前記ビデオコーダに、前記配列された参照ブロックの前記ロケーションを決定する前に、前記参照サンプルが前記参照ピクチャ内に配置されるように、前記参照サンプルの前記ロケーションを調整させる、C37に記載の非一時的コンピュータ可読媒体。
[C42]
前記参照サンプルの前記ロケーションを調整するために、前記命令は、前記ビデオコーダに、前記1つまたは複数のスケーリングされたオフセット値に基づいて前記参照サンプルのロケーションをクリップさせる、C41に記載の非一時的コンピュータ可読媒体。
[C43]
前記参照サンプルの前記ロケーションをクリップするために、前記命令は、前記ビデオコーダに、
前記参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、前記水平ロケーションを前記左の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、前記水平ロケーションを前記右の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、前記垂直ロケーションを前記上の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、前記垂直ロケーションを前記下の参照ピクチャ境界のロケーションと取り換えることとを行わせる、C42に記載の非一時的コンピュータ可読媒体。
[C44]
前記マルチレイヤビットストリームはスケーラブルなビットストリームであり、第1のレイヤは前記スケーラブルなビットストリームのベースレイヤであり、前記第2のレイヤは前記スケーラブルなビットストリームのエンハンスメントレイヤである、C37に記載の非一時的コンピュータ可読媒体。
[0204] Various examples have been described. These and other examples are within the scope of the following claims.
Hereinafter, the invention described in the scope of claims of the present application will be appended.
[C1]
A method for decoding video data, comprising:
Determining a location of a reference sample associated with a reference picture of video data based on one or more scaled offset values, wherein the reference picture is a first layer of a multi-layer bitstream And the one or more scaled offset values indicate a scale difference between the first layer and a second different layer;
Determining an arrayed reference block location of video data in the first layer based on the location of the reference sample;
Decoding a current block of video data in the second layer in relation to the arranged reference blocks;
A method comprising:
[C2]
The arranged reference block comprises an arranged coding tree unit (CTU), whereby determining the location of the arranged reference block comprises determining the location of the arranged CTU. , C1.
[C3]
The method of C2, wherein determining the location of the arranged CTU comprises determining a raster scan address of the arranged CTU.
[C4]
The method of C1, further comprising decoding the one or more scaled offset values from the multilayer bitstream.
[C5]
The method of C1, further comprising adjusting the location of the reference samples such that the reference samples are placed in the reference picture before determining the location of the arranged reference blocks.
[C6]
The method of C5, wherein adjusting the location of the reference sample comprises clipping the location of the reference sample based on the one or more scaled offset values.
[C7]
Clipping the location of the reference sample is
Replacing the horizontal location with the location of the left reference picture boundary when the horizontal location of the reference sample is located to the left of the left reference picture boundary;
Replacing the horizontal location with the location of the right reference picture boundary when the horizontal location of the reference sample is located to the right of the right reference picture boundary;
Replacing the vertical location with the location of the upper reference picture boundary when the vertical location of the reference sample is located above the upper reference picture boundary;
Replacing the vertical location with the location of the lower reference picture boundary when the vertical location of the reference sample is located below the lower reference picture boundary;
A method according to C6, comprising:
[C8]
The multi-layer bitstream is a scalable bitstream, the first layer is a base layer of the scalable bitstream, and the second layer is an enhancement layer of the scalable bitstream Method.
[C9]
A method for encoding video data, comprising:
Determining a location of a reference sample associated with a reference picture of video data based on one or more scaled offset values, wherein the reference picture is a first layer of a multi-layer bitstream And the one or more scaled offset values indicate a scale difference between the first layer and a second different layer;
Determining an arrayed reference block location of video data in the first layer based on the location of the reference sample;
Encoding a current block of video data in the second layer in relation to the arranged reference blocks;
A method comprising:
[C10]
The arranged reference block comprises an arranged coding tree unit (CTU), whereby determining the location of the arranged reference block comprises determining the location of the arranged CTU. , C9.
[C11]
The method of C10, wherein determining the location of the arranged CTU comprises determining a raster scan address of the arranged CTU.
[C12]
The method of C9, further comprising encoding the one or more scaled offset values in the multilayer bitstream.
[C13]
The method of C9, further comprising adjusting the location of the reference samples such that the reference samples are placed in the reference picture before determining the location of the arranged reference blocks.
[C14]
The method of C13, wherein adjusting the location of the reference sample comprises clipping the location of the reference sample based on the one or more scaled offset values.
[C15]
Clipping the location of the reference sample is
Replacing the horizontal location with the location of the left reference picture boundary when the horizontal location of the reference sample is located to the left of the left reference picture boundary;
Replacing the horizontal location with the location of the right reference picture boundary when the horizontal location of the reference sample is located to the right of the right reference picture boundary;
Replacing the vertical location with the location of the upper reference picture boundary when the vertical location of the reference sample is located above the upper reference picture boundary;
The method of C14, comprising replacing the vertical location with the location of the lower reference picture boundary when the vertical location of the reference sample is located below the lower reference picture boundary.
[C16]
The multi-layer bitstream is a scalable bitstream, the first layer is a base layer of the scalable bitstream, and the second layer is an enhancement layer of the scalable bitstream Method.
[C17]
An apparatus for performing video coding,
A memory for storing video data;
Determining a location of a reference sample associated with a reference picture of video data based on one or more scaled offset values, wherein the reference picture is of a first layer of a multi-layer bitstream Included in, the one or more scaled offset values indicate a difference in scale between the first layer and a second different layer;
Determining an arrayed reference block location of video data in the first layer based on the location of the reference sample;
Coding a current block of video data in the second layer in relation to the arranged reference blocks;
With a video coder configured to do
An apparatus comprising:
[C18]
The ordered reference block comprises an ordered coding tree unit (CTU), whereby the video coder determines the location of the ordered CTU to determine the location of the ordered reference block. The apparatus according to C17, configured to determine.
[C19]
The apparatus of C18, wherein to determine the location of the arranged CTUs, the video coder is configured to determine a raster scan address of the arranged CTUs.
[C20]
The apparatus of C17, wherein the video coder is further configured to code the one or more scaled offset values in the multi-layer bitstream.
[C21]
The video coder is further configured to adjust the location of the reference sample such that the reference sample is placed in the reference picture before determining the location of the arranged reference block. , C17.
[C22]
The apparatus of C21, wherein the video coder is configured to clip the location of the reference sample based on the one or more scaled offset values to adjust the location of the reference sample. .
[C23]
In order to clip the location of the reference sample, the video coder
Replacing the horizontal location with the location of the left reference picture boundary when the horizontal location of the reference sample is located to the left of the left reference picture boundary;
Replacing the horizontal location with the location of the right reference picture boundary when the horizontal location of the reference sample is located to the right of the right reference picture boundary;
Replacing the vertical location with the location of the upper reference picture boundary when the vertical location of the reference sample is located above the upper reference picture boundary;
The apparatus of C22, configured to replace the vertical location with the location of the lower reference picture boundary when the vertical location of the reference sample is located below the lower reference picture boundary. .
[C24]
The multi-layer bitstream is a scalable bitstream, the first layer is a base layer of the scalable bitstream, and the second layer is an enhancement layer of the scalable bitstream apparatus.
[C25]
In order to code the video data, the video coder
Determining residual video data for at least one layer of the multi-layer bitstream;
Transforming the residual data;
The apparatus of C17, comprising: encoding the video data comprising encoding data representing the transformed residual data in the multi-layer bitstream.
[C26]
In order to code the video data, the video coder
Analyzing from the multi-layer bitstream data representing residual video data for at least one layer of the multi-layer bitstream;
Inverse transforming the residual data;
The apparatus of C17, comprising: decoding the video data comprising reconstructing the at least one layer of video data based on the inverse transformed residual data.
[C27]
The apparatus of C17, further comprising a display device configured to present the video data.
[C28]
The apparatus of C17, further comprising a wireless modem configured to receive the video data.
[C29]
An apparatus for performing video coding,
Means for determining a location of a reference sample associated with a reference picture of video data based on one or more scaled offset values, wherein the reference picture is a first of a multi-layer bitstream Wherein the one or more scaled offset values indicate a scale difference between the first layer and a second different layer;
Means for determining a location of an ordered reference block of video data in the first layer based on the location of the reference sample;
Means for coding a current block of video data in the second layer in association with the arranged reference blocks.
[C30]
The arranged reference block comprises an arranged coding tree unit (CTU), whereby the means for determining the location of the arranged reference block determines the location of the arranged CTU. The apparatus of C29, comprising means for:
[C31]
The apparatus of C30, wherein the means for determining the location of the arranged CTUs comprises means for determining a raster scan address of the arranged CTUs.
[C32]
The apparatus of C29, further comprising means for coding the one or more scaled offset values in the multi-layer bitstream.
[C33]
The method of C29, further comprising means for adjusting the location of the reference samples such that the reference samples are placed in the reference picture before determining the location of the arranged reference blocks. apparatus.
[C34]
The apparatus of C33, wherein the means for adjusting the location of the reference sample comprises means for clipping the location of the reference sample based on the one or more scaled offset values.
[C35]
The means for clipping the location of the reference sample comprises:
Means for replacing the horizontal location with the location of the left reference picture boundary when the horizontal location of the reference sample is located to the left of the left reference picture boundary;
Means for replacing the horizontal location with the location of the right reference picture boundary when the horizontal location of the reference sample is located to the right of the right reference picture boundary;
Means for replacing the vertical location with the location of the upper reference picture boundary when the vertical location of the reference sample is located above the upper reference picture boundary;
The apparatus of C34, comprising means for replacing the vertical location with the location of the lower reference picture boundary when the vertical location of the reference sample is located below the lower reference picture boundary.
[C36]
The multi-layer bitstream is a scalable bitstream, the first layer is a base layer of the scalable bitstream, and the second layer is an enhancement layer of the scalable bitstream apparatus.
[C37]
A non-transitory computer readable medium for storing instructions, wherein when the instructions are executed, a video coder
Determining a location of a reference sample associated with a reference picture of video data based on one or more scaled offset values, wherein the reference picture is of a first layer of a multi-layer bitstream Included in, the one or more scaled offset values indicate a difference in scale between the first layer and a second different layer;
Determining an arrayed reference block location of video data in the first layer based on the location of the reference sample;
A non-transitory computer-readable medium that causes the arranged reference blocks to be encoded with a current block of video data in the second layer.
[C38]
The arranged reference block comprises an arranged coding tree unit (CTU), whereby the instructions are arranged in the video coder to determine the location of the arranged reference block. The non-transitory computer readable medium of C37, which causes the location of the CTU to be determined.
[C39]
The non-transitory computer-readable medium of C38, wherein the instructions cause the video coder to determine a raster scan address of the arranged CTUs to determine the location of the arranged CTUs.
[C40]
The non-transitory computer readable medium of C37, wherein the instructions cause the video coder to code the one or more scaled offset values in the multi-layer bitstream.
[C41]
The instructions cause the video coder to adjust the location of the reference sample such that the reference sample is placed in the reference picture before determining the location of the arranged reference block, C37 A non-transitory computer readable medium according to claim 1.
[C42]
The non-transitory of C41, wherein the instructions cause the video coder to clip the location of the reference sample based on the one or more scaled offset values to adjust the location of the reference sample. Computer-readable medium.
[C43]
In order to clip the location of the reference sample, the instructions send the video coder:
Replacing the horizontal location with the location of the left reference picture boundary when the horizontal location of the reference sample is located to the left of the left reference picture boundary;
Replacing the horizontal location with the location of the right reference picture boundary when the horizontal location of the reference sample is located to the right of the right reference picture boundary;
Replacing the vertical location with the location of the upper reference picture boundary when the vertical location of the reference sample is located above the upper reference picture boundary;
The non-transitory computer readable medium of C42, wherein when the vertical location of the reference sample is located below a lower reference picture boundary, the vertical location is replaced with the location of the lower reference picture boundary. Medium.
[C44]
The multi-layer bitstream is a scalable bitstream, the first layer is a base layer of the scalable bitstream, and the second layer is an enhancement layer of the scalable bitstream Non-transitory computer readable medium.

Claims (27)

ビデオデータを復号する方法であって、
1つまたは複数のプロセッサが、第1のレイヤと異なるマルチレイヤビットストリームのビデオデータの第2のレイヤの中のサンプルのロケーションおよび1つまたは複数のスケーリングされたオフセット値に基づいて、前記マルチレイヤビットストリームのビデオデータの前記第1のレイヤの中に含まれる参照ピクチャに関連付けられた参照サンプルのロケーションを決定することと、ここにおいて、前記1つまたは複数のスケーリングされたオフセット値は、前記第1のレイヤと前記第2のレイヤとの間のスケールの差分を示す、
前記1つまたは複数のプロセッサが、前記参照ピクチャ内に配置される前記参照サンプルのための調整されたロケーションを決定するために、前記参照サンプルの前記ロケーションを調整することと、
前記参照サンプルの前記ロケーションを調整した後に、前記1つまたは複数のプロセッサが、前記参照サンプルの前記調整されたロケーションに基づいて、前記第1のレイヤの中のビデオデータの参照ブロックのロケーションを決定することと、
前記1つまたは複数のプロセッサが、前記第1のレイヤの中の前記参照ブロックの参照データに関連して前記第2のレイヤの中のビデオデータの現在のブロックを復号することと、ここにおいて、前記参照データに関連して前記現在のブロックを復号することは、前記現在のブロックのための残差データを復号することと、前記残差データおよび前記参照ブロックの前記参照データの組合せに基づいて前記現在のブロックを再構成することとを備え
前記参照ブロックは、コーディングツリーユニット(CTU)を備え、それにより前記参照ブロックの前記ロケーションを決定することが、前記CTUのロケーションを決定することを備え
前記CTUの前記ロケーションを決定することは、前記CTUのラスタ走査アドレスを決定することを備える、
を備える、方法。
A method for decoding video data, comprising:
Based on the location of the sample in the second layer of the video data of the multi-layer bitstream different from the first layer and the one or more scaled offset values, the one or more processors Determining a location of reference samples associated with a reference picture included in the first layer of video data of a bitstream, wherein the one or more scaled offset values are the first A scale difference between one layer and the second layer;
The one or more processors adjust the location of the reference samples to determine an adjusted location for the reference samples located in the reference picture;
After adjusting the location of the reference sample, the one or more processors determine a location of a reference block of video data in the first layer based on the adjusted location of the reference sample. To do
The one or more processors decoding a current block of video data in the second layer in association with reference data of the reference block in the first layer; Decoding the current block relative to the reference data is based on decoding residual data for the current block and a combination of the residual data and the reference data of the reference block. Reconfiguring the current block ;
The reference block comprises a coding tree unit (CTU), whereby determining the location of the reference block comprises determining the location of the CTU ;
Determining the location of the CTU comprises determining a raster scan address of the CTU;
A method comprising:
前記マルチレイヤビットストリームから前記1つまたは複数のスケーリングされたオフセット値を復号することをさらに備える、請求項1に記載の方法。   The method of claim 1, further comprising decoding the one or more scaled offset values from the multilayer bitstream. 前記参照サンプルの前記ロケーションを調整することは、前記1つまたは複数のスケーリングされたオフセット値に基づいて前記参照サンプルのロケーションをクリップすることを備える、請求項1に記載の方法。   The method of claim 1, wherein adjusting the location of the reference sample comprises clipping the location of the reference sample based on the one or more scaled offset values. 前記参照サンプルの前記ロケーションをクリップすることは、
前記参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、前記水平ロケーションを前記左の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、前記水平ロケーションを前記右の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、前記垂直ロケーションを前記上の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、前記垂直ロケーションを前記下の参照ピクチャ境界のロケーションと取り換えることと
を備える、請求項に記載の方法。
Clipping the location of the reference sample is
Replacing the horizontal location with the location of the left reference picture boundary when the horizontal location of the reference sample is located to the left of the left reference picture boundary;
Replacing the horizontal location with the location of the right reference picture boundary when the horizontal location of the reference sample is located to the right of the right reference picture boundary;
Replacing the vertical location with the location of the upper reference picture boundary when the vertical location of the reference sample is located above the upper reference picture boundary;
4. The method of claim 3 , comprising replacing the vertical location with the location of the lower reference picture boundary when the vertical location of the reference sample is located below a lower reference picture boundary.
前記第1のレイヤについてのオフセット遅延を示すデータを復号することをさらに備え、前記オフセット遅延は、前記マルチレイヤビットストリームの前記第2のレイヤを復号する前に復号されるべき前記第1のレイヤからのビデオデータの最低限の量を示し、
前記参照ブロックの前記ロケーションを決定することは、前記参照ブロックの前記決定されたロケーションに基づいて前記オフセット遅延を調整することを備える、請求項1に記載の方法。
Further comprising decoding data indicative of an offset delay for the first layer, wherein the offset delay is to be decoded before decoding the second layer of the multi-layer bitstream Shows the minimum amount of video data from
The method of claim 1, wherein determining the location of the reference block comprises adjusting the offset delay based on the determined location of the reference block.
ビデオデータを符号化する方法であって、
1つまたは複数のプロセッサが、第1のレイヤと異なるマルチレイヤビットストリームのビデオデータの第2のレイヤの中のサンプルのロケーションおよび1つまたは複数のスケーリングされたオフセット値に基づいて、前記マルチレイヤビットストリームのビデオデータの前記第1のレイヤの中に含まれる参照ピクチャに関連付けられた参照サンプルのロケーションを決定することと、ここにおいて、前記1つまたは複数のスケーリングされたオフセット値は、前記第1のレイヤと前記第2のレイヤとの間のスケールの差分を示す、
前記1つまたは複数のプロセッサが、前記参照ピクチャ内に配置される前記参照サンプルのための調整されたロケーションを決定するために、前記参照サンプルの前記ロケーションを調整することと、
前記参照サンプルの前記ロケーションを調整した後に、前記1つまたは複数のプロセッサが、前記参照サンプルの前記調整されたロケーションに基づいて、前記第1のレイヤの中のビデオデータの参照ブロックのロケーションを決定することと、
1つまたは複数のプロセッサが、前記第1のレイヤの中の前記参照ブロックの参照データに関連して前記第2のレイヤの中のビデオデータの現在のブロックを符号化することと、ここにおいて、前記参照データに関連して前記現在のブロックを符号化することは、前前記現在のブロックと前記参照ブロックとの間の差分に基づいて、前記現在のブロックのための残差データを決定することと、符号化されたビットストリームの中の前記残差データを符号化することとを備え
前記参照ブロックは、コーディングツリーユニット(CTU)を備え、それにより前記参照ブロックの前記ロケーションを決定することが、前記CTUのロケーションを決定することを備え
前記CTUの前記ロケーションを決定することは、前記CTUのラスタ走査アドレスを決定することを備える、
備える、方法。
A method for encoding video data, comprising:
Based on the location of the sample in the second layer of the video data of the multi-layer bitstream different from the first layer and the one or more scaled offset values, the one or more processors Determining a location of reference samples associated with a reference picture included in the first layer of video data of a bitstream, wherein the one or more scaled offset values are the first A scale difference between one layer and the second layer;
The one or more processors adjust the location of the reference samples to determine an adjusted location for the reference samples located in the reference picture;
After adjusting the location of the reference sample, the one or more processors determine a location of a reference block of video data in the first layer based on the adjusted location of the reference sample. To do
One or more processors encode a current block of video data in the second layer in association with reference data of the reference block in the first layer, wherein Encoding the current block in association with the reference data determines residual data for the current block based on a difference between the previous current block and the reference block. And encoding the residual data in the encoded bitstream ,
The reference block comprises a coding tree unit (CTU), whereby determining the location of the reference block comprises determining the location of the CTU ;
Determining the location of the CTU comprises determining a raster scan address of the CTU;
A method of providing.
前記マルチレイヤビットストリームの中で前記1つまたは複数のスケーリングされたオフセット値を符号化することをさらに備える、請求項に記載の方法。 The method of claim 6 , further comprising encoding the one or more scaled offset values in the multi-layer bitstream. 前記参照サンプルの前記ロケーションを調整することは、前記1つまたは複数のスケーリングされたオフセット値に基づいて前記参照サンプルのロケーションをクリップすることを備える、請求項に記載の方法。 The method of claim 6 , wherein adjusting the location of the reference sample comprises clipping the location of the reference sample based on the one or more scaled offset values. 前記参照サンプルの前記ロケーションをクリップすることは、
前記参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、前記水平ロケーションを前記左の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、前記水平ロケーションを前記右の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、前記垂直ロケーションを前記上の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、前記垂直ロケーションを前記下の参照ピクチャ境界のロケーションと取り換えることとを備える、請求項に記載の方法。
Clipping the location of the reference sample is
Replacing the horizontal location with the location of the left reference picture boundary when the horizontal location of the reference sample is located to the left of the left reference picture boundary;
Replacing the horizontal location with the location of the right reference picture boundary when the horizontal location of the reference sample is located to the right of the right reference picture boundary;
Replacing the vertical location with the location of the upper reference picture boundary when the vertical location of the reference sample is located above the upper reference picture boundary;
9. The method of claim 8 , comprising replacing the vertical location with the location of the lower reference picture boundary when the vertical location of the reference sample is located below the lower reference picture boundary.
前記第1のレイヤについてのオフセット遅延を示すデータを符号化することをさらに備え、前記オフセット遅延は、前記マルチレイヤビットストリームの前記第2のレイヤを符号化する前に符号化されるべき前記第1のレイヤからのビデオデータの最低限の量を示し、
前記参照ブロックの前記ロケーションを決定することは、前記参照ブロックの前記決定されたロケーションに基づいて前記オフセット遅延を調整することを備える、請求項に記載の方法。
Encoding data indicating an offset delay for the first layer, the offset delay being encoded before encoding the second layer of the multi-layer bitstream. Indicates the minimum amount of video data from one layer,
The method of claim 6 , wherein determining the location of the reference block comprises adjusting the offset delay based on the determined location of the reference block.
ビデオ復号を実行する装置であって、
ビデオデータを記憶するメモリと、
第1のレイヤと異なるマルチレイヤビットストリームのビデオデータの第2のレイヤの中のサンプルのロケーションおよび1つまたは複数のスケーリングされたオフセット値に基づいて前記マルチレイヤビットストリームのビデオデータの前記第1のレイヤの中に含まれる参照ピクチャに関連付けられた参照サンプルのロケーションを決定することと、ここにおいて、前記1つまたは複数のスケーリングされたオフセット値は、前記第1のレイヤと前記第2のレイヤとの間のスケールの差分を示す、
前記参照ピクチャ内に配置される前記参照サンプルのための調整されたロケーションを決定するために、前記参照サンプルの前記ロケーションを調整することと、
前記参照サンプルの前記ロケーションを調整した後に、前記参照サンプルの前記調整されたロケーションに基づいて前記第1のレイヤの中のビデオデータの参照ブロックのロケーションを決定することと、
前記第1のレイヤの中の前記参照ブロックの参照データに関連して前記第2のレイヤの中のビデオデータの現在のブロックを復号することと、ここにおいて、前記参照データに関連して前記現在のブロックを復号するために、ビデオデコーダは、前記現在のブロックのための残差データを復号することと、前記残差データおよび前記参照ブロックの前記参照データの組合せに基づいて前記現在のブロックを再構成することとを行うように構成される、
を行うように構成された前記ビデオデコーダとを備え、
前記参照ブロックは、コーディングツリーユニット(CTU)を備え、それにより前記参照ブロックの前記ロケーションを決定するために、前記ビデオデコーダが、前記CTUのロケーションを決定するように構成され、
前記CTUの前記ロケーションを決定するために、前記ビデオデコーダは、前記CTUのラスタ走査アドレスを決定するように構成される、
装置。
An apparatus for performing video decoding,
A memory for storing video data;
The first of the video data of the multi-layer bitstream based on the location of the sample in the second layer of video data of the multi-layer bitstream different from the first layer and one or more scaled offset values Determining a location of a reference sample associated with a reference picture included in a layer of the first layer, wherein the one or more scaled offset values are the first layer and the second layer The scale difference between and
Adjusting the location of the reference sample to determine an adjusted location for the reference sample placed in the reference picture;
After adjusting the location of the reference sample, determining a location of a reference block of video data in the first layer based on the adjusted location of the reference sample;
Decoding a current block of video data in the second layer in relation to reference data of the reference block in the first layer, wherein the current block in relation to the reference data A decoder for decoding the residual data for the current block and decoding the current block based on a combination of the residual data and the reference data of the reference block. Configured to reconfigure,
The video decoder configured to perform:
The reference block comprises a coding tree unit (CTU), whereby the video decoder is configured to determine the location of the CTU to determine the location of the reference block;
In order to determine the location of the CTU, the video decoder is configured to determine a raster scan address of the CTU.
apparatus.
前記ビデオデコーダは、前記マルチレイヤビットストリームの中で前記1つまたは複数のスケーリングされたオフセット値を復号するようにさらに構成される、請求項11に記載の装置。 The apparatus of claim 11 , wherein the video decoder is further configured to decode the one or more scaled offset values in the multi-layer bitstream. 前記参照サンプルの前記ロケーションを調整するために、前記ビデオデコーダは、前記1つまたは複数のスケーリングされたオフセット値に基づいて前記参照サンプルのロケーションをクリップするように構成される、請求項11に記載の装置。 To adjust the location of the reference sample, wherein the video decoder, wherein configured to clip the location of the reference sample on the basis of one or more scaled offset value, according to claim 11 Equipment. 前記参照サンプルの前記ロケーションをクリップするために、前記ビデオデコーダは、
前記参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、前記水平ロケーションを前記左の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、前記水平ロケーションを前記右の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、前記垂直ロケーションを前記上の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、前記垂直ロケーションを前記下の参照ピクチャ境界のロケーションと取り換えることとを行うように構成される、請求項13に記載の装置。
In order to clip the location of the reference sample, the video decoder
Replacing the horizontal location with the location of the left reference picture boundary when the horizontal location of the reference sample is located to the left of the left reference picture boundary;
Replacing the horizontal location with the location of the right reference picture boundary when the horizontal location of the reference sample is located to the right of the right reference picture boundary;
Replacing the vertical location with the location of the upper reference picture boundary when the vertical location of the reference sample is located above the upper reference picture boundary;
The configuration of claim 13 , wherein when the vertical location of the reference sample is located below a lower reference picture boundary, the vertical location is replaced with a location of the lower reference picture boundary. Equipment.
前記ビデオデコーダは、
前記第1のレイヤについてのオフセット遅延を示すデータを復号するようにさらに構成され、前記オフセット遅延は、前記マルチレイヤビットストリームの前記第2のレイヤを復号する前に復号されるべき前記第1のレイヤからのビデオデータの最低限の量を示し、
前記参照ブロックの前記ロケーションを決定するために、前記1つまたは複数のプロセッサは、前記参照ブロックの前記決定されたロケーションに基づいて前記オフセット遅延を調整するように構成される、請求項11に記載の装置。
The video decoder
Further configured to decode data indicative of an offset delay for the first layer, wherein the offset delay is to be decoded before decoding the second layer of the multi-layer bitstream. Indicates the minimum amount of video data from the layer,
To determine the location of the reference block, wherein the one or more processors are configured to adjust the offset delay based on the determined location of the reference block, according to claim 11 Equipment.
前記ビデオデータを提示するように構成されたディスプレイデバイスをさらに備える、請求項11に記載の装置。 The apparatus of claim 11 , further comprising a display device configured to present the video data. 前記ビデオデータを受信するように構成されたワイヤレスモデムをさらに備える、請求項11に記載の装置。 The apparatus of claim 11 , further comprising a wireless modem configured to receive the video data. ビデオ復号を実行する装置であって、
第1のレイヤと異なるマルチレイヤビットストリームのビデオデータの第2のレイヤの中のサンプルのロケーションおよび1つまたは複数のスケーリングされたオフセット値に基づいて、前記マルチレイヤビットストリームのビデオデータの前記第1のレイヤの中に含まれる参照ピクチャに関連付けられた参照サンプルのロケーションを決定するための手段と、ここにおいて、前記1つまたは複数のスケーリングされたオフセット値は、前記第1のレイヤと前記第2のレイヤとの間のスケールの差分を示す、
前記参照ピクチャ内に配置される前記参照サンプルのための調整されたロケーションを決定するために、前記参照サンプルの前記ロケーションを調整するための手段と、
前記参照サンプルの前記ロケーションを調整した後に、前記参照サンプルの前記調整されたロケーションに基づいて、前記第1のレイヤの中のビデオデータの参照ブロックのロケーションを決定するための手段と、
前記第1のレイヤの中の前記参照ブロックの参照データに関連して前記第2のレイヤの中のビデオデータの現在のブロックを復号するための手段と、ここにおいて、前記参照データに関連して前記現在のブロックを復号するための前記手段は、前記現在のブロックのための残差データを復号するための手段と、前記残差データおよび前記参照ブロックの前記参照データの組合せに基づいて前記現在のブロックを再構成するための手段とを備え、
前記参照ブロックは、コーディングツリーユニット(CTU)を備え、それにより前記参照ブロックの前記ロケーションを決定するための前記手段が、前記CTUのロケーションを決定するための手段を備え
前記CTUの前記ロケーションを決定するための前記手段は、前記CTUのラスタ走査アドレスを決定するための手段を備える、
を備える、装置。
An apparatus for performing video decoding,
Based on the location of the sample in the second layer of video data of the multi-layer bitstream different from the first layer and one or more scaled offset values, the second of the video data of the multi-layer bitstream. Means for determining a location of a reference sample associated with a reference picture included in one layer, wherein the one or more scaled offset values are the first layer and the first The scale difference between the two layers,
Means for adjusting the location of the reference sample to determine an adjusted location for the reference sample placed in the reference picture;
Means for determining a location of a reference block of video data in the first layer based on the adjusted location of the reference sample after adjusting the location of the reference sample;
Means for decoding a current block of video data in the second layer in relation to the reference data of the reference block in the first layer, wherein in relation to the reference data The means for decoding the current block includes means for decoding residual data for the current block and the current based on a combination of the residual data and the reference data of the reference block Means for reconstructing a block of
The reference block comprises a coding tree unit (CTU), whereby the means for determining the location of the reference block comprises means for determining the location of the CTU ;
The means for determining the location of the CTU comprises means for determining a raster scan address of the CTU;
An apparatus comprising:
前記マルチレイヤビットストリームの中で前記1つまたは複数のスケーリングされたオフセット値を復号するための手段をさらに備える、請求項18に記載の装置。 The apparatus of claim 18 , further comprising means for decoding the one or more scaled offset values in the multi-layer bitstream. 前記参照サンプルの前記ロケーションを調整するための前記手段は、前記1つまたは複数のスケーリングされたオフセット値に基づいて前記参照サンプルのロケーションをクリップするための手段を備える、請求項18に記載の装置。 The apparatus of claim 18 , wherein the means for adjusting the location of the reference sample comprises means for clipping the location of the reference sample based on the one or more scaled offset values. . 前記参照サンプルの前記ロケーションをクリップするための前記手段は、
前記参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、前記水平ロケーションを前記左の参照ピクチャ境界のロケーションと取り換えるための手段と、
前記参照サンプルの前記水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、前記水平ロケーションを前記右の参照ピクチャ境界のロケーションと取り換えるための手段と、
前記参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、前記垂直ロケーションを前記上の参照ピクチャ境界のロケーションと取り換えるための手段と、
前記参照サンプルの前記垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、前記垂直ロケーションを前記下の参照ピクチャ境界のロケーションと取り換えるための手段とを備える、請求項20に記載の装置。
The means for clipping the location of the reference sample comprises:
Means for replacing the horizontal location with the location of the left reference picture boundary when the horizontal location of the reference sample is located to the left of the left reference picture boundary;
Means for replacing the horizontal location with the location of the right reference picture boundary when the horizontal location of the reference sample is located to the right of the right reference picture boundary;
Means for replacing the vertical location with the location of the upper reference picture boundary when the vertical location of the reference sample is located above the upper reference picture boundary;
21. The apparatus of claim 20 , comprising means for replacing the vertical location with the location of the lower reference picture boundary when the vertical location of the reference sample is located below the lower reference picture boundary.
前記第1のレイヤについてのオフセット遅延を示すデータを復号するための手段をさらに備え、前記オフセット遅延は、前記マルチレイヤビットストリームの前記第2のレイヤを復号する前に復号されるべき前記第1のレイヤからのビデオデータの最低限の量を示し、
前記参照ブロックの前記ロケーションを決定するための前記手段は、前記参照ブロックの前記決定されたロケーションに基づいて前記オフセット遅延を調整するための手段を備える、請求項18に記載の装置。
Means for decoding data indicative of an offset delay for the first layer, wherein the offset delay is to be decoded before decoding the second layer of the multi-layer bitstream. Indicates the minimum amount of video data from any layer,
The apparatus of claim 18 , wherein the means for determining the location of the reference block comprises means for adjusting the offset delay based on the determined location of the reference block.
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令が、実行されたとき、ビデオデコーダに、
第1のレイヤと異なるマルチレイヤビットストリームのビデオデータの第2のレイヤの中のサンプルのロケーションおよび1つまたは複数のスケーリングされたオフセット値に基づいて前記マルチレイヤビットストリームのビデオデータの前記第1のレイヤの中に含まれる参照ピクチャに関連付けられた参照サンプルのロケーションを決定することと、ここにおいて、前記1つまたは複数のスケーリングされたオフセット値は、前記第1のレイヤと前記第2のレイヤとの間のスケールの差分を示す、
前記参照ピクチャ内に配置される前記参照サンプルのための調整されたロケーションを決定するために、前記参照サンプルの前記ロケーションを調整することと、
前記参照サンプルの前記ロケーションを調整した後に、前記参照サンプルの前記調整されたロケーションに基づいて前記第1のレイヤの中のビデオデータの参照ブロックのロケーションを決定することと、
前記第1のレイヤの中の前記参照ブロックの参照データに関連して前記第2のレイヤの中のビデオデータの現在のブロックを復号することと、ここにおいて、前記参照データに関連して前記現在のブロックを復号するために、前記命令が、前記ビデオデコーダに、前記現在のブロックのための残差データを復号することと、前記残差データおよび前記参照ブロックの前記参照データの組合せに基づいて前記現在のブロックを再構成することとを行わせ、
前記参照ブロックは、コーディングツリーユニット(CTU)を備え、それにより前記参照ブロックの前記ロケーションを決定するために、前記命令が、前記ビデオデコーダに、前記CTUのロケーションを決定させ
前記CTUの前記ロケーションを決定するために、前記命令は、前記ビデオデコーダに、前記CTUのラスタ走査アドレスを決定させる、
を行わせる、非一時的コンピュータ可読媒体。
A non-transitory computer readable medium for storing instructions, wherein when the instructions are executed, a video decoder
The first of the video data of the multi-layer bitstream based on the location of the sample in the second layer of video data of the multi-layer bitstream different from the first layer and one or more scaled offset values Determining a location of a reference sample associated with a reference picture included in a layer of the first layer, wherein the one or more scaled offset values are the first layer and the second layer The scale difference between and
Adjusting the location of the reference sample to determine an adjusted location for the reference sample placed in the reference picture;
After adjusting the location of the reference sample, determining a location of a reference block of video data in the first layer based on the adjusted location of the reference sample;
Decoding a current block of video data in the second layer in relation to reference data of the reference block in the first layer, wherein the current block in relation to the reference data To decode the residual data for the current block and based on a combination of the residual data and the reference data of the reference block. Reconstructing the current block;
The reference block comprises a coding tree unit (CTU), whereby the instructions cause the video decoder to determine the location of the CTU to determine the location of the reference block ;
In order to determine the location of the CTU, the instructions cause the video decoder to determine a raster scan address for the CTU.
A non-transitory computer readable medium
前記命令は、前記ビデオデコーダに、前記1つまたは複数のスケーリングされたオフセット値を、前記マルチレイヤビットストリームの中で復号させる、請求項23に記載の非一時的コンピュータ可読媒体。 24. The non-transitory computer readable medium of claim 23 , wherein the instructions cause the video decoder to decode the one or more scaled offset values in the multilayer bitstream. 前記参照サンプルの前記ロケーションを調整するために、前記命令は、前記ビデオデコーダに、前記1つまたは複数のスケーリングされたオフセット値に基づいて前記参照サンプルのロケーションをクリップさせる、請求項23に記載の非一時的コンピュータ可読媒体。 24. The instructions of claim 23 , wherein the instructions cause the video decoder to clip the location of the reference sample based on the one or more scaled offset values to adjust the location of the reference sample. Non-transitory computer readable medium. 前記参照サンプルの前記ロケーションをクリップするために、前記命令は、前記ビデオデコーダに、
前記参照サンプルの水平ロケーションが左の参照ピクチャ境界の左側に配置されるとき、前記水平ロケーションを前記左の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記水平ロケーションが右の参照ピクチャ境界の右側に配置されるとき、前記水平ロケーションを前記右の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの垂直ロケーションが上の参照ピクチャ境界の上方に配置されるとき、前記垂直ロケーションを前記上の参照ピクチャ境界のロケーションと取り換えることと、
前記参照サンプルの前記垂直ロケーションが下の参照ピクチャ境界の下方に配置されるとき、前記垂直ロケーションを前記下の参照ピクチャ境界のロケーションと取り換えることとを行わせる、請求項25に記載の非一時的コンピュータ可読媒体。
In order to clip the location of the reference sample, the instruction sends to the video decoder:
Replacing the horizontal location with the location of the left reference picture boundary when the horizontal location of the reference sample is located to the left of the left reference picture boundary;
Replacing the horizontal location with the location of the right reference picture boundary when the horizontal location of the reference sample is located to the right of the right reference picture boundary;
Replacing the vertical location with the location of the upper reference picture boundary when the vertical location of the reference sample is located above the upper reference picture boundary;
26. The non-transitory of claim 25 , wherein when the vertical location of the reference sample is located below a lower reference picture boundary, the vertical location is replaced with a location of the lower reference picture boundary. Computer readable medium.
前記命令がさらに、前記ビデオデコーダに、
前記第1のレイヤについてのオフセット遅延を示すデータを復号させ、前記オフセット遅延は、前記マルチレイヤビットストリームの前記第2のレイヤを復号する前に復号されるべき前記第1のレイヤからのビデオデータの最低限の量を示し、
前記参照ブロックの前記ロケーションを決定するために、前記命令は、前記1つまたは複数のプロセッサに、前記参照ブロックの前記決定されたロケーションに基づいて前記オフセット遅延を調整することを行わせる、請求項23に記載の非一時的コンピュータ可読媒体。
The instructions further to the video decoder;
Decoding data indicative of an offset delay for the first layer, the offset delay being video data from the first layer to be decoded before decoding the second layer of the multi-layer bitstream Indicates the minimum amount of
The instruction causes the one or more processors to adjust the offset delay based on the determined location of the reference block to determine the location of the reference block. 24. A non-transitory computer readable medium according to 23 .
JP2016527021A 2013-07-15 2014-07-15 Cross-layer parallel processing and offset delay parameters for video coding Active JP6301467B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361846570P 2013-07-15 2013-07-15
US61/846,570 2013-07-15
US14/331,004 2014-07-14
US14/331,004 US9578328B2 (en) 2013-07-15 2014-07-14 Cross-layer parallel processing and offset delay parameters for video coding
PCT/US2014/046602 WO2015009665A1 (en) 2013-07-15 2014-07-15 Cross-layer parallel processing and offset delay parameters for video coding

Publications (3)

Publication Number Publication Date
JP2016530774A JP2016530774A (en) 2016-09-29
JP2016530774A5 JP2016530774A5 (en) 2017-07-06
JP6301467B2 true JP6301467B2 (en) 2018-03-28

Family

ID=52277082

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016527020A Active JP6290399B2 (en) 2013-07-15 2014-07-15 Cross-layer parallel processing and offset delay parameters for video coding
JP2016527021A Active JP6301467B2 (en) 2013-07-15 2014-07-15 Cross-layer parallel processing and offset delay parameters for video coding

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016527020A Active JP6290399B2 (en) 2013-07-15 2014-07-15 Cross-layer parallel processing and offset delay parameters for video coding

Country Status (9)

Country Link
US (2) US9628792B2 (en)
EP (2) EP3022925B1 (en)
JP (2) JP6290399B2 (en)
KR (2) KR101811968B1 (en)
CN (2) CN105359526B (en)
BR (2) BR112016000858B1 (en)
CA (2) CA2913618C (en)
TW (2) TWI631851B (en)
WO (2) WO2015009665A1 (en)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2805313T3 (en) 2011-08-11 2021-02-11 Sun Patent Trust Image coding method, image decoding method, image coding apparatus, image decoding apparatus and image coding / decoding apparatus
JP6048941B2 (en) 2012-01-27 2016-12-27 サン パテント トラスト Image encoding method, image decoding method, image encoding device, and image decoding device
US10085017B2 (en) * 2012-11-29 2018-09-25 Advanced Micro Devices, Inc. Bandwidth saving architecture for scalable video coding spatial mode
US9628792B2 (en) 2013-07-15 2017-04-18 Qualcomm Incorporated Cross-layer parallel processing and offset delay parameters for video coding
WO2015037920A1 (en) * 2013-09-10 2015-03-19 주식회사 케이티 Method and apparatus for encoding/decoding scalable video signal
US10225567B2 (en) * 2013-10-08 2019-03-05 Sharp Kabushiki Kaisha Image decoder, image encoder, and encoded data converter
KR102290091B1 (en) * 2013-10-14 2021-08-18 한국전자통신연구원 Method and apparatus for video encoding/decoding based on multi-layer
WO2015060614A1 (en) * 2013-10-22 2015-04-30 주식회사 케이티 Method and device for encoding/decoding multi-layer video signal
US10045019B2 (en) * 2013-10-22 2018-08-07 Kt Corporation Method and device for encoding/decoding multi-layer video signal
CN105684446B (en) * 2013-10-29 2020-01-07 株式会社Kt Multi-layer video signal encoding/decoding method and apparatus
KR20150075041A (en) * 2013-12-24 2015-07-02 주식회사 케이티 A method and an apparatus for encoding/decoding a multi-layer video signal
US10212441B2 (en) * 2014-02-12 2019-02-19 Chips & Media, Inc. Method and apparatus for processing video
WO2015147426A1 (en) * 2014-03-24 2015-10-01 주식회사 케이티 Multilayer video signal encoding/decoding method and device
US10277913B2 (en) * 2014-10-22 2019-04-30 Samsung Electronics Co., Ltd. Application processor for performing real time in-loop filtering, method thereof and system including the same
PT3217672T (en) * 2014-11-07 2021-04-19 Sony Corp Transmission device, transmission method, reception device, and reception method
EP3485643B1 (en) 2016-07-14 2023-09-06 Koninklijke KPN N.V. Video coding
WO2019225934A1 (en) * 2018-05-21 2019-11-28 엘지전자 주식회사 Method and apparatus for decoding image related to ctu address within tile in image coding system
EP3813373A1 (en) * 2018-05-28 2021-04-28 InterDigital VC Holdings, Inc. Data dependency in coding/ decoding
EP3821600A1 (en) * 2018-07-09 2021-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder and decoder, encoding method and decoding method for versatile spatial partitioning of coded pictures
TWI818064B (en) * 2018-08-21 2023-10-11 大陸商北京字節跳動網絡技術有限公司 Quantized difference used for weighting parameters derivation in bilateral filters
US11487702B2 (en) 2018-11-02 2022-11-01 International Business Machines Corporation Object mining and recognition system
WO2020125755A1 (en) 2018-12-21 2020-06-25 Beijing Bytedance Network Technology Co., Ltd. Motion vector range based on motion vector precision
CN115426491A (en) * 2018-12-21 2022-12-02 华为技术有限公司 Encoder, decoder and corresponding methods using history-based motion vector prediction
WO2020185471A1 (en) * 2019-03-08 2020-09-17 Beijing Dajia Internet Information Technology Co., Ltd. Video coding for handling different picture sizes
CN113994671B (en) 2019-06-14 2024-05-10 北京字节跳动网络技术有限公司 Processing video cell boundaries and virtual boundaries based on color formats
CN114424539B (en) 2019-06-14 2024-07-12 北京字节跳动网络技术有限公司 Processing video unit boundaries and virtual boundaries
US11659201B2 (en) * 2019-08-16 2023-05-23 Qualcomm Incorporated Systems and methods for generating scaling ratios and full resolution pictures
CN114424529A (en) 2019-09-18 2022-04-29 北京字节跳动网络技术有限公司 Two-part signaling of adaptive loop filter in video coding and decoding
BR112022005293A2 (en) 2019-09-19 2022-09-20 Beijing Bytedance Network Tech Co Ltd VIDEO PROCESSING METHOD, APPARATUS FOR PROCESSING VIDEO DATA AND COMPUTER-READABLE NON-TRANSITORY STORAGE AND RECORDING MEDIA
KR20210034536A (en) * 2019-09-20 2021-03-30 한국전자통신연구원 Method and apparatus for encoding/decoding image and recording medium for storing bitstream
CN114430902B (en) 2019-09-22 2023-11-10 北京字节跳动网络技术有限公司 Filling process in adaptive loop filtering
WO2021057946A1 (en) 2019-09-27 2021-04-01 Beijing Bytedance Network Technology Co., Ltd. Adaptive loop filtering between different video units
WO2021066508A1 (en) * 2019-09-30 2021-04-08 현대자동차주식회사 Inter prediction method and device for pictures having different resolutions
JP7454042B2 (en) 2019-10-10 2024-03-21 北京字節跳動網絡技術有限公司 Padding process at unavailable sample positions in adaptive loop filtering
KR102707834B1 (en) 2019-10-29 2024-09-19 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 Cross-component adaptive loop filter using luma difference
MX2022006734A (en) 2019-12-11 2022-06-09 Beijing Bytedance Network Tech Co Ltd Sample padding for cross-component adaptive loop filtering.
BR112022012807A2 (en) 2019-12-27 2022-09-27 Beijing Bytedance Network Tech Co Ltd VIDEO PROCESSING METHOD, APPARATUS FOR PROCESSING VIDEO DATA AND COMPUTER-READable NON-TRANSITORY MEDIA
US11425388B2 (en) * 2020-04-05 2022-08-23 Mediatek Inc. Methods and apparatuses of coding pictures with CTU based slice partitions in video coding system
GB2595696B (en) * 2020-06-04 2022-12-28 Envisics Ltd Forming a hologram of a target image for projection using data streaming
KR20230029670A (en) 2020-06-30 2023-03-03 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 Boundary location for adaptive loop filtering

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100679018B1 (en) 2004-09-07 2007-02-05 삼성전자주식회사 Method for multi-layer video coding and decoding, multi-layer video encoder and decoder
US7961963B2 (en) * 2005-03-18 2011-06-14 Sharp Laboratories Of America, Inc. Methods and systems for extended spatial scalability with picture-level adaptation
WO2006108863A2 (en) * 2005-04-13 2006-10-19 Thomson Licensing Process for scalable coding of images
TWI355204B (en) * 2006-11-17 2011-12-21 Lg Electronics Inc Method and apparatus for decoding/encoding a vide
EP3182708B1 (en) * 2007-01-04 2019-03-06 InterDigital Madison Patent Holdings Methods and apparatus for multi-view information conveyed in high level syntax
US8665942B2 (en) * 2007-01-23 2014-03-04 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction signaling
CN101572817B (en) * 2009-05-26 2011-01-05 北京邮电大学 Coding mode selection method applied to gradable spatial video coding
US20120063515A1 (en) * 2010-09-09 2012-03-15 Qualcomm Incorporated Efficient Coding of Video Parameters for Weighted Motion Compensated Prediction in Video Coding
EP2490403A1 (en) 2011-02-17 2012-08-22 Alcatel Lucent Network communication node comprising a plurality of processors for processing layers of communication and associated node
CN103109534B (en) 2011-02-22 2016-11-16 太阳专利托管公司 Method for encoding images, picture decoding method, picture coding device, picture decoding apparatus and arrangement for encoding
HUE061192T2 (en) * 2011-07-15 2023-05-28 Ge Video Compression Llc Sample array coding for low-delay
US10070152B2 (en) 2011-08-24 2018-09-04 Texas Instruments Incorporated Sample adaptive offset (SAO) parameter signaling
US20130101033A1 (en) 2011-10-14 2013-04-25 Qualcomm Incorporated Coding non-symmetric distributions of data
US10708622B2 (en) * 2011-12-20 2020-07-07 Texas Instruments Incorporated Adaptive loop filtering (ALF) for video coding
TWI645715B (en) 2012-01-20 2018-12-21 Ge影像壓縮有限公司 Encoder/decoder allowing parallel processing, transport demultiplexer, system, storage medium, method and computer program
TWI616087B (en) * 2012-01-31 2018-02-21 Vid衡器股份有限公司 Reference picture set (rps) signaling for scalable high efficiency video coding (hevc)
GB2505643B (en) * 2012-08-30 2016-07-13 Canon Kk Method and device for determining prediction information for encoding or decoding at least part of an image
EP2642755B1 (en) * 2012-03-20 2018-01-03 Dolby Laboratories Licensing Corporation Complexity scalable multilayer video coding
US9066108B2 (en) 2012-04-20 2015-06-23 Technische Universitat Berlin System, components and method for parametric motion vector prediction for hybrid video coding
KR101678321B1 (en) * 2012-07-02 2016-11-21 노키아 테크놀로지스 오와이 Method and apparatus for video coding
KR102169058B1 (en) 2012-09-26 2020-10-23 벨로스 미디어 인터내셔널 리미티드 Image encoding method, image decoding method, image encoding device, image decoding device, and image encoding/decoding device
KR102539065B1 (en) 2013-01-04 2023-06-01 지이 비디오 컴프레션, 엘엘씨 Efficient scalable coding concept
US9628792B2 (en) 2013-07-15 2017-04-18 Qualcomm Incorporated Cross-layer parallel processing and offset delay parameters for video coding
CN105393537B (en) * 2014-03-04 2019-08-27 微软技术许可有限责任公司 Hash table building and availability inspection for the Block- matching based on hash

Also Published As

Publication number Publication date
JP6290399B2 (en) 2018-03-07
CN105359526B (en) 2019-08-30
EP3022925A1 (en) 2016-05-25
BR112016000850B1 (en) 2023-04-18
JP2016530774A (en) 2016-09-29
US20150016520A1 (en) 2015-01-15
US20150016540A1 (en) 2015-01-15
US9628792B2 (en) 2017-04-18
EP3022924A1 (en) 2016-05-25
US9578328B2 (en) 2017-02-21
TW201515443A (en) 2015-04-16
CN105359527B (en) 2019-05-28
CA2913618C (en) 2018-08-21
KR101770928B1 (en) 2017-08-23
CA2913618A1 (en) 2015-01-22
WO2015009661A1 (en) 2015-01-22
KR20160032179A (en) 2016-03-23
EP3022924B1 (en) 2020-11-25
TWI618398B (en) 2018-03-11
KR20160032180A (en) 2016-03-23
CA2913813A1 (en) 2015-01-22
TW201511530A (en) 2015-03-16
BR112016000850A2 (en) 2017-07-25
WO2015009665A1 (en) 2015-01-22
JP2016530773A (en) 2016-09-29
KR101811968B1 (en) 2017-12-22
BR112016000858B1 (en) 2023-04-25
CN105359526A (en) 2016-02-24
BR112016000858A2 (en) 2017-07-25
CA2913813C (en) 2018-08-21
TWI631851B (en) 2018-08-01
CN105359527A (en) 2016-02-24
EP3022925B1 (en) 2022-09-21

Similar Documents

Publication Publication Date Title
JP6301467B2 (en) Cross-layer parallel processing and offset delay parameters for video coding
JP6400691B2 (en) Signaling for sub-decoded picture buffer (sub-DPB) based DPB operation in video coding
US9578339B2 (en) Parallel processing for video coding
JP6297670B2 (en) Inter-layer reference picture restriction for scalable video coding with high-level syntax only
JP6542251B2 (en) Derivation of SPS Temporal ID Nesting Information for Multilayer Bitstreams
JP2019176483A (en) Three-dimensional lookup table based color gamut scalability in multi-layer video coding
JP6158422B2 (en) Cross-layer POC alignment of multi-layer bitstreams that may include unaligned IRAP pictures
JP6573879B2 (en) Device and method for scalable coding of video information
JP6430394B2 (en) Apparatus and method for scalable coding of video information based on high efficiency video coding
JP2019509669A (en) Weighted prediction for screen content coding and multi-layer coding
JP2016508011A (en) Apparatus and method for scalable coding of video information
JP2015532553A (en) Motion field upsampling for scalable coding based on high efficiency video coding
JP2017515383A (en) Signaling bit depth values for 3D color prediction for gamut scalability

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170525

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170525

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170525

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170912

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180228

R150 Certificate of patent or registration of utility model

Ref document number: 6301467

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250