JP2021093742A

JP2021093742A - ピクチャ復号化方法およびピクチャ符号化方法

Info

Publication number: JP2021093742A
Application number: JP2021023559A
Authority: JP
Inventors: カン、ジョン、ウォン; Jung Won Kang; リー、ハ、ヒョン; Ha Hyun Lee; リー、ジン、ホ; Jin-Ho Lee; チェ、ジン、ス; Jin Soo Choi; キム、ジン、ウン; Jin Woong Kim
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2013-01-07
Filing date: 2021-02-17
Publication date: 2021-06-17
Anticipated expiration: 2034-01-06
Also published as: US20190089965A1; JP6841877B2; US20200007876A1; JP7371181B2; EP4274232A2; CN104969554A; US10455241B2; KR20140093577A; CN104969554B; JP2022160676A; US20150365686A1; CN109462764B; US10116946B2; KR20220113668A; US20180063535A1; CN109462764A; US9843814B2; EP4274232A3; EP2942964B1; EP2942964A4

Abstract

【課題】多様な種類のスケーラビリティ情報を柔軟に表現することができる映像符号化及び復号方法を提供する。【解決手段】映像復号方法は、復号化装置が、複数の階層を含むビットストリームを受信するステップと、映像パラメータ拡張情報でシグナリングされるサブレイヤの最大個数がシグナリングされる個数に等しいかどうかを表すフラグを取得するステップと、そのフラグに基づいて複数の時間サブレイヤの最大個数を示す第１の映像情報を取得するステップと、第１の映像情報に基づいて最大ＤＰＢサイズ情報及び最大遅延時間情を含む第２の映像情報を取得するステップとを含む。【選択図】図６

Description

本発明は、ピクチャ符号化及び復号化に関し、より詳しくは、スケーラブルビデオコーディング（ＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ；ＳＶＣ）を基盤とするピクチャ符号化及び復号化に関する。

最近、マルチメディア（ｍｕｌｔｉｍｅｄｉａ）環境が構築されつつ、多様な端末とネットワークが利用されており、これによるユーザの要求も多様化している。

例えば、端末の性能とコンピューティング能力（ｃｏｍｐｕｔｉｎｇｃａｐａｂｉｌｉｔｙ）が多様になるに伴い、支援する性能も機器別に多様になっている。また、情報が転送されるネットワークもまた、有無線ネットワークのような外形的な構造だけでなく、転送する情報の形態、情報量と速度などの機能別にも多様になっている。ユーザは所望の機能に従って使用する端末とネットワークを選択し、また企業がユーザに提供する端末とネットワークのスペクトラムも多様になっている。

これに関して、最近、ＨＤ（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎ）解像度を有する放送が国内だけでなく、世界的に拡がってサービスされながら、多くのユーザが高解像度、高画質のピクチャに慣れてきている。これによって多くのピクチャサービス関連機関等が次世代映像機器に対する開発に多くの努力をしている。

また、ＨＤＴＶとともに、ＨＤＴＶの４倍以上の解像度を有するＵＨＤ（ＵｌｔｒａＨｉｇｈＤｅｆｉｎｉｔｉｏｎ）に対する関心が増大されるにつれて、より高い解像度、高画質のピクチャを圧縮して処理する技術に対する要求はさらに高まっている。

ピクチャを圧縮して処理するため、時間的に以前及び／または以後のピクチャから、現在ピクチャに含まれている画素値を予測するインター（ｉｎｔｅｒ）予測技術、現在ピクチャ内の画素情報を用いて現在ピクチャに含まれている他の画素値を予測するイントラ（ｉｎｔｒａ）予測技術、出現頻度の高いシンボル（ｓｙｍｂｏｌ）に短い符号を割り当て、出現頻度の低いシンボルに長い符号を割り当てるエントロピーエンコーディング技術などが用いられ得る。

前述したように、支援する機能が異なる各端末とネットワーク、そして多様化されたユーザの要求を考慮すると、支援されるピクチャの品質、大きさ、フレームなどもこれによって多様化される必要がある。

このように、異種の通信網と多様な機能及び種類の端末によって、ピクチャの画質、解像度、大きさ、フレームレートなどを多様に支援するスケーラビリティ（ｓｃａｌａｂｉｌｉｔｙ）は、ビデオフォーマットの重要な機能となっている。

したがって、高効率のビデオ符号化方法を基盤に多様な環境でユーザが要求するサービスを提供するため、時間、空間、画質などの側面で効率的なビデオ符号化と復号化が可能となるようにスケーラビリティ機能を提供するのが必要である。

本発明は、ピクチャ符号化／復号化効率を向上させることができるピクチャ符号化／復号化方法及び装置を提供する。

本発明は、符号化／復号化効率を向上させることができるスケーラブルビデオコーディングで階層間の転換を行う方法及び装置を提供する。

本発明は、ピクチャ符号化／復号化効率を向上させることができるスケーラブルビットストリームのスケーラビリティ情報を表現してシグナリングする方法及び装置を提供する。

本発明は、ピクチャ符号化／復号化効率を向上させることができるスケーラブル階層のサブレイヤ情報を表現してシグナリングする方法及び装置を提供する。

本発明の一実施例によれば、複数の階層を支援するピクチャ復号化方法が提供される。前記複数の階層を支援するピクチャ復号化方法は、前記複数の階層を含むビットストリームを受信する段階、及び前記ビットストリームをデコーディングして、前記複数の階層それぞれに対するサブレイヤの最大個数情報を獲得する段階を含む。

本発明の他の実施例によれば、複数の階層を支援するピクチャ符号化方法が提供される。前記複数の階層を支援するピクチャ符号化方法は、前記複数の階層それぞれに対するサブレイヤの最大個数情報を決定する段階、及び前記サブレイヤの最大個数情報をエンコーディングして前記サブレイヤの最大個数情報を含むビットストリームを転送する段階を含む。

本発明のまた他の実施例によれば、複数の階層を支援するピクチャ復号化装置が提供される。前記複数の階層を支援するピクチャ復号化装置は、既に複数の階層を含むビットストリームを受信し、前記ビットストリームをデコーディングして前記複数の階層それぞれに対するサブレイヤの最大個数情報を獲得するデコーディング部を含む。

本発明のまた他の実施例によれば、複数の階層を支援するピクチャ符号化装置が提供される。前記複数の階層を支援するピクチャ符号化装置は、前記複数の階層それぞれに対するサブレイヤの最大個数情報を決定し、前記サブレイヤの最大個数情報をエンコーディングして前記サブレイヤの最大個数情報を含むビットストリームを転送するエンコーディング部を含む。

階層的ビットストリーム内の抽出及びスケーラビリティ情報を記述する方法を提供することにより、多様な種類のビットストリームのスケーラビリティ情報を柔軟に表現することができ、パッケージレベルでの効率的な適応変換を可能にする。

また、階層的ビデオ符号化を用いて符号化されたビットストリームの多様なスケーラビリティ情報を効率的に表現することにより、ビットストリーム抽出器が容易に所望の階層を抽出できるようにする。

発明が適用されるピクチャ符号化装置の一実施例に係る構成を示すブロック図である。本発明が適用されるピクチャ復号化装置の一実施例に係る構成を示すブロック図である。本発明が適用され得る複数階層を利用したスケーラブルビデオコーディング構造の一例を概略的に示す概念図である。本発明の実施例に係るスケーラブルビットストリーム（階層的ビットストリーム）を支援するピクチャ符号化方法を概略的に示すフローチャートである。本発明の実施例に係るスケーラブルビットストリーム（階層的ビットストリーム）を支援するピクチャ復号化方法を概略的に示すフローチャートである。本発明の実施例に係るスケーラブルビットストリーム（階層的ビットストリーム）を支援するピクチャ符号化／復号化構造において、スケーラブル階層に対するサブレイヤ情報をシグナリングする方法を概略的に示すフローチャートである。

以下、図面を参照して本発明の実施例に対して具体的に説明する。本明細書の実施例を説明するにおいて、関連する公知構成または機能に対する具体的な説明が本明細書の要旨をぼやかし得ると判断される場合には、当該説明を略することもできる。

本明細書である構成要素が他の構成要素に「連結されて」いるか「接続されて」いると言及された時には、その他の構成要素に直接的に連結されているか接続されていることを意味することもあり、中間に他の構成要素が存在することを意味することもある。さらに、本明細書で特定の構成を「含む」と記述する内容は、当該構成以外の構成を排除することではなく、追加の構成が本発明の実施または本発明の技術的思想の範囲に含まれ得ることを意味する。

第１、第２などの用語は、多様な構成を説明するのに用いられ得るが、前記構成等は前記用語によって限定されない。前記用語は、一つの構成を他の構成から区別する目的として用いられる。例えば、本発明の権利範囲を外れることなく、第１構成は第２構成に命名され得、同様に第２構成も第１構成に命名され得る。

また、本発明の実施例に表される構成部等は、互いに異なる特徴的な機能を表わすために独立的に示されるものであって、各構成部が分離されたハードウェアや一つのソフトウェア構成単位でなることを意味しない。すなわち、各構成部は説明の便宜上、それぞれの構成部として並べて含むものであって、各構成部のうち少なくとも二つの構成部が一つの構成部を成すか、一つの構成部が複数個の構成部に分けられて機能を行うことができる。各構成部の統合された実施例及び分離された実施例もまた、本発明の本質から外れない限り、本発明の権利範囲に含まれる。

また、一部の構成要素は、本発明で本質的な機能を行う必須の構成要素ではなく、単に性能を向上させるための選択的構成要素であり得る。本発明は、単に性能向上のために用いられる構成要素を除いた本発明の本質を具現するのに必須の構成部のみを含んで具現され得、単に性能向上のために用いられる選択的構成要素を除いた必須の構成要素のみを含む構造もまた、本発明の権利範囲に含まれる。

図１は、発明が適用されるピクチャ符号化装置の一実施例に係る構成を示すブロック図である。

スケーラブル（ｓｃａｌａｂｌｅ）ビデオ符号化／復号化方法または装置は、スケーラビリティ（ｓｃａｌａｂｉｌｉｔｙ）を提供しない一般的なピクチャ符号化／復号化方法または装置の拡張（ｅｘｔｅｎｓｉｏｎ）によって具現され得、図１のブロック図はスケーラブルビデオ符号化装置の基礎となり得るピクチャ符号化装置の一実施例を示す。

図１を参照すれば、ピクチャ符号化装置１００は、動き予測部１１１、動き補償部１１２、イントラ予測部１２０、スイッチ１１５、減算器１２５、変換部１３０、量子化部１４０、エントロピー符号化部１５０、逆量子化部１６０、逆変換部１７０、加算器１７５、フィルタ部１８０及びデコーディングされたピクチャバッファ１９０を含む。

ピクチャ符号化装置１００は、入力ピクチャに対してイントラ（ｉｎｔｒａ）モードまたはインター（ｉｎｔｅｒ）モードで符号化を行い、ビットストリームを出力することができる。イントラモードの場合、スイッチ１１５がイントラに転換され、インターモードの場合、スイッチ１１５がインターに転換され得る。イントラ予測は画面内予測、インター予測は画面間予測を意味する。
ピクチャ符号化装置１００は、入力ピクチャの入力ブロックに対する予測ブロックを生成した後、入力ブロックと予測ブロックの差分（ｒｅｓｉｄｕａｌ）を符号化することができる。このとき、入力ピクチャは原ピクチャ（ｏｒｉｇｉｎａｌｐｉｃｔｕｒｅ）を意味することができる。

イントラモードの場合、イントラ予測部１２０は現在ブロック周辺の既に符号化／復号化されたブロックのピクセル値を用いて空間的予測を行って予測ブロックを生成することができる。

インターモードの場合、動き予測部１１１は、動き予測過程でデコーディングされたピクチャバッファ１９０に貯蔵されている参照ピクチャで入力ブロックと最もよくマッチできる領域を探して動きベクトルを求めることができる。動き補償部１１２は、動きベクトルを用いて動き補償を行うことにより、予測ブロックを生成することができる。ここで、動きベクトルはインター予測に用いられる２次元ベクトルであり、現在符号化／復号化対象ピクチャと参照ピクチャとの間のオフセットを示すことができる。

減算器１２５は、入力ブロックと生成された予測ブロックの差分により残差ブロック（ｒｅｓｉｄｕａｌｂｌｏｃｋ）を生成することができる。

変換部１３０は、残差ブロックに対して変換（ｔｒａｎｓｆｏｒｍ）を行って変換係数（ｔｒａｎｓｆｏｒｍｃｏｅｆｆｉｃｉｅｎｔ）を出力することができる。ここで、変換係数は、残差ブロック及び／または残差信号に対する変換を行うことにより生成された係数値を意味することができる。以下、本明細書では変換係数に量子化が適用されて生成された、量子化された変換係数レベル（ｔｒａｎｓｆｏｒｍｃｏｅｆｆｉｃｉｅｎｔｌｅｖｅｌ）も変換係数と呼ばれることがある。

量子化部１４０は、入力された変換係数を量子化パラメータ（ｑｕａｎｔｉｚａｔｉｏｎｐａｒａｍｅｔｅｒ、または量子化媒介変数）によって量子化し、量子化された係数（ｑｕａｎｔｉｚｅｄｃｏｅｆｆｉｃｉｅｎｔ）を出力することができる。量子化された係数は、量子化された変換係数レベル（ｑｕａｎｔｉｚｅｄｔｒａｎｓｆｏｒｍｃｏｅｆｆｉｃｉｅｎｔｌｅｖｅｌ）と呼ばれることもある。このとき、量子化部１４０では量子化行列を用いて入力された変換係数を量子化することができる。

エントロピー符号化部１５０は、量子化部１４０で算出された値又は符号化過程で算出された符号化パラメータ値などに基づいてエントロピー符号化を行って、ビットストリーム(ｂｉｔｓｔｒｅａｍ)を出力することができる。

エントロピー符号化が適用される場合、高い発生確率を有するシンボル(ｓｙｍｂｏｌ)に少ない数のビットが割り当てられ、低い発生確率を有するシンボルに多くの数のビットが割り当てられてシンボルが表現されることにより、符号化対象シンボル等に対するビット列の大きさが減少され得る。したがって、エントロピー符号化を介してピクチャ符号化の圧縮性能が高まることができる。エントロピー符号化部１５０は、エントロピー符号化のために、指数ゴロム（Ｅｘｐｏｎｅｎｔｉａｌ−Ｇｏｌｏｍｂ）、ＣＡＶＬＣ（Ｃｏｎｔｅｘｔ−ＡｄａｐｔｉｖｅＶａｒｉａｂｌｅＬｅｎｇｔｈＣｏｄｉｎｇ）、ＣＡＢＡＣ（Ｃｏｎｔｅｘｔ−ＡｄａｐｔｉｖｅＢｉｎａｒｙＡｒｉｔｈｍｅｔｉｃＣｏｄｉｎｇ）のような符号化方法を使用することができる。

図１の実施例に係るピクチャ符号化装置１００は、インター予測符号化、即ち、画面間予測符号化を行うため、現在符号化されたピクチャは、参照ピクチャとして用いられるために復号化されて貯蔵される必要がある。したがって、量子化された係数は、逆量子化部１６０で逆量子化され、逆変換部１７０で逆変換される。逆量子化、逆変換された係数は、加算器１７５を介して予測ブロックと加えられて復元ブロック（ＲｅｃｏｎｓｔｒｕｃｔｅｄＢｌｏｃｋ）が生成される。

復元ブロックは、フィルタ部１８０を経て、フィルタ部１８０は、デブロッキングフィルタ（ｄｅｂｌｏｃｋｉｎｇｆｉｌｔｅｒ）、ＳＡＯ（ＳａｍｐｌｅＡｄａｐｔｉｖｅＯｆｆｓｅｔ）、ＡＬＦ（ＡｄａｐｔｉｖｅＬｏｏｐＦｉｌｔｅｒ）のうち少なくとも一つ以上を復元ブロック又は復元ピクチャに適用することができる。フィルタ部１８０は、適応的インループ(ｉｎ−ｌｏｏｐ)フィルタと呼ばれることもある。デブロッキングフィルタは、ブロック間の境界に発生したブロック歪曲を除去することができる。ＳＡＯは、コーディングエラーを補償するために、ピクセル値に適正オフセット(ｏｆｆｓｅｔ)値を加えることができる。ＡＬＦは、復元されたピクチャと元来のピクチャを比較した値に基づいてフィルタリングを行うことができる。フィルタ部１８０を経た復元ブロックは、デコーディングされたピクチャバッファ１９０に貯蔵され得る。

図２は、本発明が適用されるピクチャ復号化装置の一実施例に係る構成を示すブロック図である。

図１で前述したように、スケーラブルビデオ符号化／復号化方法または装置は、スケーラビリティを提供しない一般的なピクチャ符号化／復号化方法または装置の拡張により具現され得、図２のブロック図はスケーラブルビデオ復号化装置の基礎となり得るピクチャ復号化装置の一実施例を示す。

図２を参照すると、ピクチャ復号化装置２００は、エントロピー復号化部２１０、逆量子化部２２０、逆変換部２３０、イントラ予測部２４０、動き補償部２５０、加算器２５５、フィルタ部２６０及びデコーディングされたピクチャバッファ２７０を含む。

ピクチャ復号化装置２００は、符号化器で出力されたビットストリームの入力を受けてイントラモード又はインターモードに復号化を行って再構成されたピクチャ、すなわち復元ピクチャを出力することができる。イントラモードの場合、スイッチがイントラに転換され、インターモードの場合、スイッチがインタに転換され得る。

ピクチャ復号化装置２００は入力を受けたビットストリームから復元された残差ブロック（ｒｅｃｏｎｓｔｒｕｃｔｅｄｒｅｓｉｄｕａｌｂｌｏｃｋ）を得て予測ブロックを生成した後、復元された残差ブロックと予測ブロックを加えて再構成されたブロック、すなわち復元ブロックを生成することができる。

エントロピー復号化部２１０は、入力されたビットストリームを確率分布によってエントロピー復号化し、量子化された係数（ｑｕａｎｔｉｚｅｄｃｏｅｆｆｉｃｉｅｎｔ）形態のシンボルを含むシンボル等を生成することができる。

エントロピー復号化方法が適用される場合、高い発生確率を有するシンボルに少ない数のビットが割り当てられ、低い発生確率を有するシンボルに多くの数のビットが割り当てられてシンボルが表現されることによって、各シンボルに対するビット列の大きさが減少され得る。

量子化された係数は、逆量子化部２２０で逆量子化されて逆変換部２３０で逆変換され、量子化された係数が逆量子化／逆変換された結果、復元された残差ブロックが生成され得る。このとき、逆量子化部２２０では量子化された係数に量子化行列を適用することができる。

イントラモードの場合、イントラ予測部２４０は現在ブロック周辺の既に符号化されたブロックのピクセル値を利用して空間的予測を行って、予測ブロックを生成することができる。インターモードの場合、動き補償部２５０は、動きベクトル及びデコーディングされたピクチャバッファ２７０に貯蔵されている参照ピクチャを用いて動き補償を行うことにより予測ブロックを生成することができる。

残差ブロックと予測ブロックは、加算器２５５を介して加えられ、加えられたブロックは、フィルタ部２６０を経ることができる。フィルタ部２６０は、デブロッキングフィルタ、ＳＡＯ、ＡＬＦのうち少なくとも一つ以上を復元ブロック又は復元ピクチャに適用することができる。フィルタ部２６０は、再構成されたピクチャ、即ち、復元ピクチャを出力することができる。復元ピクチャは、デコーディングされたピクチャバッファ２７０に貯蔵されてインター予測に用いられ得る。

前述したピクチャ復号化装置２００に含まれているエントロピー復号化部２１０、逆量子化部２２０、逆変換部２３０、イントラ予測部２４０、動き補償部２５０、フィルタ部２６０及びデコーディングされたピクチャバッファ２７０のうちピクチャの復号化に直接的に係る構成要素、例えば、エントロピー復号化部２１０、逆量子化部２２０、逆変換部２３０、イントラ予測部２４０、動き補償部２５０、フィルタ部２６０などを他の構成要素と区分して復号化部またはデコーディング部で表現することができる。

また、ピクチャ復号化装置２００は、ビットストリームに含まれているエンコーディングされたピクチャに係る情報をパッシングするパッシング部（図示せず）をさらに含むことができる。パッシング部は、エントロピー復号化部２１０を含むこともあり、エントロピー復号化部２１０に含まれることもある。
このようなパッシング部はまた、デコーディング部の一つの構成要素として具現されることもある。

図３は、本発明が適用され得る複数階層を利用したスケーラブルビデオコーディング構造の一例を概略的に示す概念図である。図３でＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅ）はピクチャ群、すなわち、ピクチャのグループを示す。

ピクチャデータを転送するためには伝送媒体が必要であり、その性能は多様なネットワーク環境によって伝送媒体別に差がある。このような多様な伝送媒体またはネットワーク環境への適用のためにスケーラブルビデオコーディング方法が提供され得る。

スケーラビリティを支援するビデオコーディング方法（以下、「スケーラブルコーディング」あるいは「スケーラブルビデオコーディング」という）は、階層（ｌａｙｅｒ）間のテクスチャ情報、動き情報、残余信号などを活用して階層間の重複性を除去してエンコーディング及びデコーディング性能を高めるコーディング方法である。スケーラブルビデオコーディング方法は、転送ビットレート、転送エラーレート、システム資源などの周辺条件によって、空間的（ｓｐａｔｉａｌ）、時間的（ｔｅｍｐｏｒａｌ）、画質的（あるいは品質的、ｑｕａｌｉｔｙ）、視点（ｖｉｅｗ）観点で多様なスケーラビリティを提供することができる。

スケーラブルビデオコーディングは、多様なネットワーク状況に適用可能なビットストリームを提供できるように、複数階層（ｍｕｌｔｉｐｌｅｌａｙｅｒｓ）構造を用いて行われ得る。例えば、スケーラブルビデオコーディング構造は、一般的なピクチャデコーディング方法を用いてピクチャデータを圧縮して処理する基本階層を含むことができ、基本階層のデコーディング情報及び一般的なピクチャデコーディング方法を共に用いて、ピクチャデータを圧縮処理する向上階層を含むことができる。

ここで、階層（ｌａｙｅｒ）は、空間（ｓｐａｔｉａｌ、例えば、ピクチャの大きさ）、時間（ｔｅｍｐｏｒａｌ、例えば、デコーディングの順序、ピクチャ出力の順序、フレームレート）、画質、複雑度、視点（ｖｉｅｗ）などを基準に区分されるピクチャ及びビットストリーム（ｂｉｔｓｔｒｅａｍ）の集合を意味する。

基本階層（Ｂａｓｅｌａｙｅｒ）は、ベースレイヤと称することもあり、下位階層（ｌｏｗｅｒｌａｙｅｒ）と称することもある。向上階層（Ｅｎｈａｎｃｅｍｅｎｔｌａｙｅｒ）は、エンハンスメントレイヤあるいは上位階層（ｈｉｇｈｅｒｌａｙｅｒ）と称することもある。このとき、下位階層は特定階層より低いスケーラビリティを支援する階層を意味することがあり、上位階層は特定階層より高いスケーラビリティを支援する階層を意味することがある。特定階層が符号化あるいは復号化時に参照する階層は、参照階層（あるいは参照レイヤ）と称することができる。

図３を参照すれば、例えば基本階層はＳＤ（ｓｔａｎｄａｒｄｄｅｆｉｎｉｔｉｏｎ）、１５Ｈｚのフレームレート、１Ｍｂｐｓビットレートに定義されることがあり、第１向上階層はＨＤ（ｈｉｇｈｄｅｆｉｎｉｔｉｏｎ）、３０Ｈｚのフレームレート、３．９Ｍｂｐｓビットレートに定義されることがあり、第２向上階層は４Ｋ−ＵＨＤ（ｕｌｔｒａｈｉｇｈｄｅｆｉｎｉｔｉｏｎ）、６０Ｈｚのフレームレート、２７．２Ｍｂｐｓビットレートに定義されることがある。

前記フォーマット（ｆｏｒｍａｔ）、フレームレート、ビットレートなどは一つの実施例であって、必要に応じて異に定められ得る。また、用いられる階層の数も本実施例に限定されず、状況に応じて異に定められ得る。例えば、伝送帯域幅が４Ｍｂｐｓであれば、前記第１向上階層ＨＤのフレームレートを減らして１５Ｈｚ以下に転送することができる。

スケーラブルビデオコーディング方法は、前記図３の実施例で前述した方法によって時間的、空間的、画質的、視点スケーラビリティを提供することができる。

本明細書でスケーラブルビデオコーディングは、エンコーディング観点ではスケーラブルビデオエンコーディング、デコーディング観点ではスケーラブルビデオデコーディングと同じ意味を有する。

前述したように、スケーラビリティは、異種の通信網及び多様な端末によって現在ビデオフォーマットの重要な機能となった。コンテンツ伝達経路（ｃｏｎｔｅｎｔｄｅｌｉｖｅｒｙｐａｔｈ）で全てのノードがビットストリームを効果的かつ効率的に変換するためには、ビットストリームのスケーラビリティ情報が非常に重要である。現在、ＨＥＶＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）標準でビットストリームに係る重要な情報は、ビデオパラメータセット（ＶＰＳ：ＶｉｄｅｏＰａｒａｍｅｔｅｒＳｅｔ）で記述するようになっている。また、スケーラビリティを提供するためのＨＥＶＣを確張したビデオ標準でも、ビットストリームに係る重要な情報、例えば抽出情報（ｅｘｔｒａｃｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）及び階層的情報（ｓｃａｌａｂｉｌｉｔｙｉｎｆｏｒｍａｔｉｏｎ）を記述することが非常に重要である。

以下、本発明では、階層的ビデオ符号化を用いて符号化されたビットストリームの多様なスケーラビリティ情報を効率的に表現する方法を提供し、これを介してビットストリーム抽出器が容易に所望の階層を抽出できるようにする方法を提供する。

ビットストリームの特性表現（Ｂｉｔｓｔｒｅａｍｃｈａｒａｃｔｅｒｉｓｔｉｃｓ）
ＨＥＶＣ標準化でスケーラブルビットストリーム（ｓｃａｌａｂｌｅｂｉｔｓｔｒｅａｍ、あるいは階層的ビットストリーム）の特性を表わすための技術（ｄｅｓｃｒｉｐｔｉｏｎ）が定義されており、本発明ではスケーラブルビデオコーディング構造で適用できるようにスケーラブルビットストリームの特性表現を次のように改善しようとする。

１）最大ビットレートの定義（Ｍａｘ．ｂｉｔｒａｔｅｄｅｆｉｎｉｔｉｏｎ）のためのタイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）
現在、階層的表現（ｓｃａｌａｂｌｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ、スケーラブルにデコーディング可能な復元ピクチャをいう）で最大ビットレート（ｍａｘ．ｂｉｔｒａｔｅ）は、１秒間のタイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）内でのビットレートの上限（ｕｐｐｅｒｂｏｕｎｄ）を示す。

しかし、アプリケーションによって異なるタイムスケール（ｔｉｍｅｓｃａｌｅ）での最大値ビットレート（ｐｅａｋｂｉｔｒａｔｅ）やピクチャレート（ｐｉｃｔｕｒｅｒａｔｅ）情報が必要となり得る。例えば、あるアプリケーションは、３０秒のタイムウィンドウ内での情報のみ必要となり得、その反面、あるアプリケーションは、１０秒のタイムウィンドウ内での最大値ビットレート（ｐｅａｋｂｉｔｒａｔｅ）あるいは最大バースト（ｌａｒｇｅｓｔ−ｂｕｒｓｔ）情報が必要となり得る。そこで、このような目的のために最小一つの（一つ以上の）タイムウィンドウを表現することができる方案を次のように提案する。

表１は、一つ以上のタイムウィンドウ内でビットレート情報を示すシンタックスの一実施例である。

表１に示されたシンタックスの意味は次の通りである。
− ｎｕｍ＿ｍａｘ＿ｂｉｔ＿ｒａｔｅ＿ｗｉｎｄｏｗｓ＿ｍｉｎｕｓ１＋１は、最大ビットレート（ｍａｘ．ｂｉｔｒａｔｅ）を計算するために用いられたタイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）の数を示す。
− ｎｕｍ＿ｍａｘ＿ｐｉｃ＿ｒａｔｅ＿ｗｉｎｄｏｗｓ＿ｍｉｎｕｓ１＋１は、最大ピクチャレート（ｍａｘ．ｐｉｃｔｕｒｅｒａｔｅ）を計算するために用いられたタイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）の数を示す。
− ｍａｘ＿ｂｉｔ＿ｒａｔｅ＿ｃａｌｃ＿ｗｉｎｄｏｗ［ｊ］は、１／１００秒単位でサブレイヤ等（ｓｕｂ−ｌａｙｅｒｓ）の表現等（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）のビットレート（ｂｉｔｒａｔｅ）に対する上限（ｕｐｐｅｒｂｏｕｎｄｓ）を計算するために用いられるｊ番目タイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）の大きさを示す。
ｍａｘ＿ｂｉｔ＿ｒａｔｅ＿ｃａｌｃ＿ｗｉｎｄｏｗ［０］のデフォルト（ｄｅｆａｕｌｔ）値は１００である。
− ｍａｘ＿ｐｉｃ＿ｒａｔｅ＿ｃａｌｃ＿ｗｉｎｄｏｗ［ｊ］は、１／１００秒単位でサブレイヤ（ｓｕｂ−ｌａｙｅｒｓ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）等のピクチャレート（ｐｉｃｔｕｒｅｒａｔｅ）に対する上限（ｕｐｐｅｒｂｏｕｎｄｓ）を計算するために用いられるｊ番目タイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）の大きさを示す。ｍａｘ＿ｐｉｃ＿ｒａｔｅ＿ｃａｌｃ＿ｗｉｎｄｏｗ［０］のデフォルト（ｄｅｆａｕｌｔ）値は２５６００である。
− ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］が「１」の場合は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）のビットレート（ｂｉｔｒａｔｅ）に対する技術が存在することを示し、ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］が「０」の場合は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）のビットレート（ｂｉｔｒａｔｅ）に対する技術が存在しないことを示す。ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］のデフォルト（ｄｅｆａｕｌｔ）値は「１」である。
− ｐｉｃ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］が「１」の場合は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）のピクチャレート（ｐｉｃｔｕｒｅｒａｔｅ）に対する技術が存在することを示し、ｐｉｃ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］が「０」の場合は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）のピクチャレート（ｐｉｃｔｕｒｅｒａｔｅ）に対する技術が存在しないことを示す。ｐｉｃ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］のデフォルト（ｄｅｆａｕｌｔ）値は「１」である。
− ａｖｇ＿ｂｉｔ＿ｒａｔｅ［ｉ］は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）の平均ビットレート（ａｖｅｒａｇｅｂｉｔｒａｔｅ）を示す。ａｖｇ＿ｂｉｔ＿ｒａｔｅ［ｉ］はＳＶＣ標準で記述された内容と同一である。
− ｍａｘ＿ｂｉｔ＿ｒａｔｅ［ｉ］［ｊ］は、ｍａｘ＿ｂｉｔ＿ｒａｔｅ＿ｃａｌｃ＿ｗｉｎｄｏｗ［ｊ］によって表現されたタイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）を用いてＳＶＣ標準で記述された通り計算した値であって、ｉ番目サブレイヤ（ｓｕｂｌａｙｅｒ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）のビットレート（ｂｉｔｒａｔｅ）に対する上限（ｕｐｐｅｒｂｏｕｎｄ）を示す。
− ａｖｇ＿ｐｉｃ＿ｒａｔｅ［ｉ］は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）の平均ピクチャレート（ａｖｅｒａｇｅｐｉｃｔｕｒｅｒａｔｅ）を示す（２５６秒間のピクチャ単位）。ａｖｇ＿ｐｉｃ＿ｒａｔｅ［ｉ］は、ＳＶＣ標準で記述された内容と同一である。
− ｍａｘ＿ｐｉｃ＿ｒａｔｅ［ｉ］［ｊ］は、ｍａｘ＿ｐｉｃ＿ｒａｔｅ＿ｃａｌｃ＿ｗｉｎｄｏｗ［ｊ］によって表現されたタイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）を用いてＳＶＣ標準で記述された通り計算した値であって、ｉ番目サブレイヤ（ｓｕｂｌａｙｅｒ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）のピクチャレート（ｐｉｃｔｕｒｅｒａｔｅ）に対する上限（ｕｐｐｅｒｂｏｕｎｄ）を示す。

２）最大ビットレートの定義（Ｍａｘ．ｂｉｔｒａｔｅｄｅｆｉｎｉｔｉｏｎ）のためのバケットサイズ（ｂｕｃｋｅｔｓｉｚｅ）
ビットレート情報を記述する他の方法は、リーキーバケットモデル（ｌｅａｋｙｂｕｃｋｅｔｍｏｄｅｌ）を用いることができる。リーキーバケットモデルは固定された時間間隔に代えて固定されたデータの量を用いてそれぞれのビットレート値を計算する方式である。この方式を用いる場合の実施例は、次表２の通りである。

表２に示されたシンタックス等の意味は次の通りである。
− ｎｕｍ＿ｍａｘ＿ｂｉｔ＿ｒａｔｅ＿ｖａｌｕｅｓ＿ｍｉｎｕｓ１＋１は、当該シンタックス構造で明示される最大ビットレート（ｍａｘ．ｂｉｔｒａｔｅ）の数を意味する。
− ｍａｘ＿ｐｉｃ＿ｒａｔｅ＿ｃａｌｃ＿ｂｕｃｋｅｔ＿ｓｉｚｅ［ｊ］は、サブレイヤ（ｓｕｂ−ｌａｙｅｒ）等の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）等のビットレートに対する上限（ｕｐｐｅｒ−ｂｏｕｎｄ）を計算するために用いられるｊ番目リーキーバケット（ｌｅａｋｙｂｕｃｋｅｔ）の大きさをキロビット（ｋｉｌｏｂｉｔｓ）単位で明示する。
− ｎｕｍ＿ｍａｘ＿ｐｉｃ＿ｒａｔｅ＿ｗｉｎｄｏｗｓ＿ｍｉｎｕｓ１はサブレイヤ（Ｓｕｂ−ｌａｙｅｒ）等のためのビットレート（ｂｉｔｒａｔｅ）情報が定義されない場合、０の値を有する。
− ｍａｘ＿ｐｉｃ＿ｒａｔｅ＿ｃａｌｃ＿ｗｉｎｄｏｗ［ｊ］は、１／１００秒単位でサブレイヤ等（ｓｕｂ−ｌａｙｅｒｓ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）等のビットレート（ｂｉｔｒａｔｅ）に対する上限（ｕｐｐｅｒｂｏｕｎｄｓ）を計算するために用いられるｊ番目タイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）の大きさを示す。
ｍａｘ＿ｐｉｃ＿ｒａｔｅ＿ｃａｌｃ＿ｗｉｎｄｏｗ［０］のデフォルト（ｄｅｆａｕｌｔ）値は２５６００である。
− ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］が「１」の場合は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）のビットレート（ｂｉｔｒａｔｅ）に対する技術が存在することを示し、ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］が「０」の場合は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）のビットレート（ｂｉｔｒａｔｅ）に対する技術が存在しないことを示す。ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］のデフォルト（ｄｅｆａｕｌｔ）値は「１」である。
− ｐｉｃ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］が「１」の場合は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）のピクチャレート（ｐｉｃｔｕｒｅｒａｔｅ）に対する技術が存在することを示し、ｐｉｃ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］が「０」の場合は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）のピクチャレート（ｐｉｃｔｕｒｅｒａｔｅ）に対する技術が存在しないことを示す。ｐｉｃ＿ｒａｔｅ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］のデフォルト（ｄｅｆａｕｌｔ）値は「１」である。
− ａｖｇ＿ｂｉｔ＿ｒａｔｅ［ｉ］は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）の平均ビットレート（ａｖｅｒａｇｅｂｉｔｒａｔｅ）を示す。ａｖｇ＿ｂｉｔ＿ｒａｔｅ［ｉ］はＳＶＣ標準で記述された内容と同一である。
− ｍａｘ＿ｂｉｔ＿ｒａｔｅ［ｉ］［ｊ］は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）のビットレートに対する上限（ｕｐｐｅｒ
ｂｏｕｎｄ）を示す。ｍａｘ＿ｐｉｃ＿ｒａｔｅ＿ｃａｌｃ＿ｂｕｃｋｅｔ＿ｓｉｚｅ［ｊ］によって表現されたタイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）を用いてＳＶＣ標準で記述された通り計算した値であって、ｉ番目サブレイヤ（ｓｕｂｌａｙｅｒ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）のビットレート（ｂｉｔｒａｔｅ）に対する上限（ｕｐｐｅｒｂｏｕｎｄ）を示す。最大ビットレート（Ｍａｘ．ｂｉｔｒａｔｅ）は次のように計算することができる。
ｍａｘ＿ｂｉｔ＿ｒａｔｅ［ｉ］［ｊ］＝ｍａｘ＿ｂｉｔ＿ｒａｔｅ＿ｃａｌｃ＿ｂｕｃｋｅｔ＿ｓｉｚｅ［ｊ］／ＳｍａｌｌｅｓｔＩｎｔｅｒｖａｌ［ｉ］［ｊ］
− ａｖｇ＿ｐｉｃ＿ｒａｔｅ［ｉ］は、ｉ番目サブレイヤ（ｓｕｂ−ｌａｙｅｒ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）の平均ピクチャレート（ａｖｅｒａｇｅｐｉｃｔｕｒｅｒａｔｅ）を示す（２５６秒間のピクチャ単位）。ａｖｇ＿ｐｉｃ＿ｒａｔｅ［ｉ］は、ＳＶＣ標準で記述された内容と同一である。
− ｍａｘ＿ｐｉｃ＿ｒａｔｅ［ｉ］［ｊ］は、ｍａｘ＿ｐｉｃ＿ｒａｔｅ＿ｃａｌｃ＿ｗｉｎｄｏｗ［ｊ］によって表現されたタイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）を用いてＳＶＣ標準で記述された通り計算した値であって、ｉ番目サブレイヤ（ｓｕｂｌａｙｅｒ）の表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）のピクチャレート（ｐｉｃｔｕｒｅｒａｔｅ）に対する上限（ｕｐｐｅｒｂｏｕｎｄ）を示す。

前記表１及び２に示されたシンタックスは、ビデオパラメータセット（以下、ＶＰＳ）拡張（ｅｘｔｅｎｓｉｏｎ）に追加されることもでき、ＳＥＩ（ｓｕｐｐｌｅｍｅｎｔａｌｅｎｈａｎｃｅｍｅｎｔｉｎｆｏｒｍａｔｉｏｎ）メッセージ（ｍｅｓｓａｇｅ）の形態に定義されることもできる。

表３は、ビットレート情報をＳＥＩメッセージ形態で定義したシンタックスの一実施例を示す。

表３で、ｓａｍｅ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｆｌａｇ［ｉ］とｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１［ｉ］は、後述する同一名称のシンタックスと意味が同一であり得る。

ｓａｍｅ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｆｌａｇ［ｉ］は、ｉ番目サブレイヤの最大数が、ＶＰＳで定義されたｉ番目サブレイヤの最大数と同一であるのか否かを示す情報であり得る。

ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１［ｉ］＋１は、ｉ番目レイヤに対するサブレイヤの最大数を示す。

３）他の時間間隔のためのビットレートとフレームレート情報（ｂｉｔｒａｔｅａｎｄｐｉｃｔｕｒｅｒａｔｅｉｎｆｏｒｍａｔｉｏｎｆｏｒｄｉｆｆｅｒｅｎｔｔｅｍｐｏｒａｌｐｅｒｉｏｄｓ）
現在ビットレートとピクチャレート情報は、ＶＰＳでのみ記述されるようになっている。しかし、符号化されたビデオ信号は、他の時間間隔（ｔｅｍｐｏｒａｌｐｅｒｉｏｄ）で他のビットレートとピクチャレートを有することもできる。よって、本発明では時間間隔に対するビットレートとピクチャレートの技術方案を提案する。下記表４で提案された追加情報は、ビデオコンテンツの部分的な特性を表わすために用いられることもある。一方、ＶＰＳでのビットレートとピクチャレートは、全体符号化されたシーケンスに対してのみ有効である。

このような目的のため、表４は、新しいＳＥＩメッセージ（例えば、「ｐｅｒｉｏｄ＿ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ」）を用いて、他の時間間隔のためのビットレートとフレームレート情報を記述したシンタックスである。

表４で新たに定義されたＳＥＩメッセージ「ｐｅｒｉｏｄ＿ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ」は、ビデオシーケンスの時間間隔（ｔｅｍｐｏｒａｌｐｅｒｉｏｄ）の特性を現わし、「ｐｅｒｉｏｄ＿ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ」のＳＥＩメッセージは、当該ＳＥＩメッセージが適用される間隔（ｐｅｒｉｏｄ）の復号化順序上、最も一番目のＡＵ（ａｃｃｅｓｓｕｎｉｔ）に含まれなければならない。

表４で新たに定義されたＳＥＩメッセージの意味は、次の通りである。
− ｄｕｒａｔｉｏｎ＿ｆｌａｇが「０」であれば、対象時間間隔（ｔａｒｇｅｔｔｅｍｐｏｒａｌｐｅｒｉｏｄ）の長さが記述されていないことを意味する。
− ｐｅｒｉｏｄ＿ｄｕｒａｔｉｏｎは、９０−ＫＨｚクロック（ｃｌｏｃｋ）のクロックティック（ｃｌｏｃｋｔｉｃｋ）単位で対象時間間隔（ｔａｒｇｅｔｔｅｍｐｏｒａｌｐｅｒｉｏｄ）の長さを示す。

階層参照方式（Ｌａｙｅｒｒｅｆｅｒｅｎｃｉｎｇ）
現在ＨＥＶＣで記述された階層参照方式は、特定階層が直接的に参照する階層を全て記述できるようにする。しかし、特定次元（ｄｉｍｅｎｓｉｏｎ（ｓ）、あるいは階層）において、特定階層（例えば、品質階層（ｑｕａｌｉｔｙｌａｙｅｒ）「３」）は真下位階層（例えば、品質階層（ｑｕａｌｉｔｙｌａｙｅｒ）「２」）を直接的に参照することが明白であり得る。

このような目的で、本発明では基本参照（ｄｅｆａｕｌｔｄｉｒｅｃｔｄｅｐｅｎｄｅｎｃｙ）を有する次元（等）を記述し、基本参照を有しない次元（等）に対してのみスケーラブルレイヤ（ｓｃａｌａｂｌｅｌａｙｅｒ）の技術（ｄｅｓｃｒｉｐｔｉｏｎｌｏｏｐ）で別に階層参照を記述する方案を提案する。

表５は、本発明によって階層参照方式をＶＰＳ＿ｅｘｔｅｎｓｉｏｎで記述したシンタックスの一例である。

表５で新たに定義または修正されたシンタックス要素等（ｅｌｅｍｅｎｔｓ）の意味は、次の通りである。
− ｄｅｆａｕｌｔ＿ｄｅｐｅｎｄｅｎｃｙ＿ｆｌａｇ［ｉ］が「１」を有する場合は、スケーラビリティ次元（ｓｃａｌａｂｉｌｉｔｙｄｉｍｅｎｓｉｏｎ、あるいはスケーラビリティ階層）ｉが基本参照（ｄｅｆａｕｌｔｄｅｐｅｎｄｅｎｃｙ）を有することを示す。これは次元（ｄｉｍｅｎｓｉｏｎ、あるいは階層）ｉに対して、基本的にｄｉｍｅｎｓｉｏｎ＿ｉｄ［ｉ］＝ｎである階層は、ｄｉｍｅｎｓｉｏｎ＿ｉｄ［ｉ］＝ｎ−１である階層を直接的に参照することを意味する。非基本参照（ｎｏｎ−ｄｅｆａｕｌｔｄｅｐｅｎｄｅｎｃｉｅｓ）の場合には、ｓｐｅｃｉｆｉｃ＿ｄｅｐｅｎｄｅｎｃｙ＿ｆｌａｇによって参照階層をシグナリングすることができる。
− ｄｅｆａｕｌｔ＿ｔｅｍｐ＿ｄｅｐｅｎｄｅｎｃｙ＿ｆｌａｇが「１」を有する場合は、時間次元（ｔｅｍｐｏｒａｌｄｉｍｅｎｓｉｏｎ）が基本参照（ｄｅｆａｕｌｔｄｅｐｅｎｄｅｎｃｙ）を有することを意味する。
− ｓｐｅｃｉｆｉｃ＿ｄｅｐｅｎｄｅｎｃｙ＿ｆｌａｇ［ｉ］が「１」を有する場合は、参照（階層）関係が以後に記述されることを示す。ｓｐｅｃｉｆｉｃ＿ｄｅｐｅｎｄｅｎｃｙ＿ｆｌａｇ［ｉ］が「０」の値を有する場合は、階層（次元）ｉが基本参照（ｄｅｆａｕｌｔｄｅｐｅｎｄｅｎｃｙ）を有するか、間接的な参照（ｄｅｐｅｎｄｅｎｃｙ、あるいは従属性）を有するか、参照階層が存在しない（ｎｏｄｅｐｅｎｄｅｎｃｙｌａｙｅｒ）ことを意味する。
− ｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒｓ［ｉ］は、ｉ番目階層が直接的に参照する階層の数を明示する。明示されていない階層等は、基本参照（ｄｅｆａｕｌｔｄｅｐｅｎｄｅｎｃｙ）を有するか、間接的な参照（ｄｅｐｅｎｄｅｎｃｙ）を有するか、参照階層が存在しない（ｎｏｄｅｐｅｎｄｅｎｃｙｌａｙｅｒ）ことを意味する。
− ｔｅｍｐｏｒａｌ＿ｄｉｍ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｆｌａｇ［ｉ］［ｊ］が「１」を有する場合は、スケーラブル階層（ｓｃａｌａｂｌｅｌａｙｅｒ）のｒｅｆ＿ｌａｙｅｒ＿ｉｄ［ｉ］［ｊ］の時間サブレイヤ（ｔｅｍｐｏｒａｌｓｕｂｌａｙｅｒ）に対する詳しい参照関係を示すことを意味する。
− ｎｕｍ＿ｕｎｒｅｆ＿ｔｅｍｐ＿ｌａｙｅｒｓ［ｉ］［ｊ］は、スケーラブル階層（ｓｃａｌａｂｌｅｌａｙｅｒ）ｉのために参照階層として用いられない時間サブレイヤ（ｔｅｍｐｏｒａｌｓｕｂｌａｙｅｒ）の数を示す。
− ｕｎｒｅｆ＿ｔｅｍｐ＿ｌａｙｅｒ＿ｉｄ［ｉ］［ｊ］［ｋ］は、スケーラブル階層（ｓｃａｌａｂｌｅｌａｙｅｒ）ｉのために参照階層として用いられない時間サブレイヤ（ｔｅｍｐｏｒａｌｓｕｂｌａｙｅｒ）のｉｄ値を示す。

ここで、階層Ｃ（ｌａｙｅｒＣ）が階層Ｂを直接的に参照するとのことは、階層Ｃを復号化するため、デコーダは階層Ｂのデータ（ｎｏｎ−ｄｅｃｏｄｅｄあるいはｄｅｃｏｄｅｄ）を使用しなければならないとのことを意味する。さらに、もし階層Ｂが階層Ａのデータを直接的に使用すれば、階層Ｃは階層Ａを直接的に参照するとは言えない。

前記で提案した方法は、時間レベル（ｔｅｍｐｏｒａｌｌｅｖｅｌ）（すなわち、サブレイヤ）毎に異なる参照階層構造を表現し難い。時間レベル毎に異なる参照階層構造ができるように参照階層を表現することが必要である。

次の表６は、本発明によって時間レベル毎に異なる参照階層構造ができるように参照階層を記述したシンタックスの一例である。それぞれのスケーラブル階層がｌａｙｅｒ＿ｉｄとｔｅｍｐｏｒａｌ＿ｉｄ値によって識別される。

表６を参照すれば、ｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｓｃａｌ＿ｌａｙｅｒｓ［ｉ］［ｔ］は、現在スケーラブル階層が（ｌａｙｅｒ＿ｉｄ＝ｉとｔｅｍｐｏｒａｌ＿ｉｄ＝ｔと識別される）直接的に参照する参照階層の数を明示する。ここで、明示されていない階層等は、基本参照（ｄｅｆａｕｌｔｄｅｐｅｎｄｅｎｃｙ）を有するか、間接的な参照階層を有することができる。

ｒｅｆ＿ｌａｙｅｒ＿ｉｄ［ｉ］［ｔ］［ｊ］とｒｅｆ＿ｔｅｍｐｏｒａｌ＿ｉｄ［ｉ］［ｔ］［ｊ］は、現在階層が直接的に参照するスケーラブル階層（ｌａｙｅｒ＿ｉｄ＝ｒｅｆ＿ｌａｙｅｒ＿ｉｄ［ｉ］［ｔ］［ｊ］と、ｔｅｍｐｏｒａｌ＿ｉｄ＝ｒｅｆ＿ｌａｙｅｒ＿ｉｄ［ｉ］［ｔ］［ｊ］によって識別される）を示す。

ＨＥＶＣバージョン１のＶＰＳで定義された全てのオペレーションポイント（ｏｐｅｒａｔｉｏｎｐｏｉｎｔ）に明示された全ての階層等（固有のｌａｙｅｒｉｄを有する）が相互間に直接的あるいは間接的な参照関係があれば、ｄｉｒｅｃｔ＿ｄｅｐｅｎｄｅｎｃｙ＿ｆｌａｇによって記述される内容をオペレーションポイントが含むのでｄｉｒｅｃｔ＿ｄｅｐｅｎｄｅｎｃｙ＿ｆｌａｇによるシグナリングを略することができ、これをｌａｙｅｒ＿ｄｅｐｅｎｄｅｎｃｙ＿ｉｎｆｏ＿ｆｌａｇに報知することができる。

表７は、本発明によってＶＰＳ拡張から階層間の参照関係が存在するのか否かをシグナリングする方法を示すシンタックスの一例である。

表７を参照すれば、ｌａｙｅｒ＿ｄｅｐｅｎｄｅｎｃｙ＿ｉｎｆｏ＿ｆｌａｇが１の場合、階層参照（ｌａｙｅｒｄｅｐｅｎｄｅｎｃｙ）関連情報がＶＰＳｅｘｔｅｎｓｉｏｎに記述されていることを示し、ｌａｙｅｒ＿ｄｅｐｅｎｄｅｎｃｙ＿ｉｎｆｏ＿ｆｌａｇが０の場合、階層参照関連情報がＶＰＳｅｘｔｅｎｓｉｏｎに記述されていないことを示す。

また、現在記述されているスケーラビリティ次元（ｓｃａｌａｂｉｌｉｔｙｄｉｍｅｎｓｉｏｎ）の基本タイプに特定スケーラビリティ次元を追加することができる。すなわち、表８でのように、スケーラビリティ次元の基本タイプで、エンコーディング時あるいはエンコーディングした以後に選定された優先順位（ｐｒｉｏｒｉｔｙ）順にコンテンツを抽出して消費できるようにするｐｒｉｏｒｉｔｙＩＤと特定領域のみを抽出してみることができるようにするｒｅｇｉｏｎＩＤを追加することができる。

ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ（階層に対するプロファイル、ティア、レベル情報表現）
現在、ＶＰＳの拡張部分（ｅｘｔｅｎｓｉｏｎｐａｒｔ）でそれぞれの階層（ｌａｙｅｒ＿ｉｄ値を有する階層）に対して、ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ（プロファイル、ティア、レベル情報）をビットストリームで最大サブレイヤ（あるいは時間サブレイヤ）の数（すなわち、ｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１）ほどシグナリングするようになっている。しかし、それぞれの階層は、互いに異なる数のサブレイヤを有することができ、ミドルボックス（ｍｉｄｄｌｅｂｏｘ）のために、各階層でサブレイヤの個数を記述するのがより良いことがある。そこで、ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌに対するシグナリングを前記表５に記述されたｖｐｓ＿ｅｘｔｅｎｓｉｏｎ（）のシンタックスで、陰影で示された部分のように修正することができ、修正されたシンタックス要素等の意味は次の通りである。

表５を参照すれば、ｓａｍｅ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｆｌａｇ［ｉ］が「１」の場合は、階層（ｌａｙｅｒ）ｉの時間サブレイヤ（ｔｅｍｐｏｒａｌｓｕｂ−ｌａｙｅｒ）の最大数（ｍａｘ．ｓｕｂ−ｌａｙｅｒ値）がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１であることを示す。

ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１［ｉ］＋１は、階層（ｌａｙｅｒ）ｉの最大時間サブレイヤの数（ｍａｘ．ｓｕｂ−ｌａｙｅｒ値）を示す。

ｓａｍｅ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｆｌａｇ［ｉ］とｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１［ｉ］は、前記表５の実施例のようにｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌと共にシグナリングされることもあり、次の表９の実施例のように別にシグナリングされることもある。

前述したように、各階層毎に最大サブレイヤの個数（時間サブレイヤの最大個数）をシグナリングすることにより、性能交渉（ｃａｐａｂｉｌｉｔｙｎｅｇｏｔｉａｔｉｏｎ）または抽出器（ｅｘｔｒａｃｔｏｒ）に役立つことができる。

また、階層等が他のフレームレートを有する場合、そしてｍａｘ＿ｏｎｅ＿ａｃｔｉｖｅ＿ｒｅｆ＿ｌａｙｅｒ＿ｆｌａｇが１であるか、ＮｕｍＤｉｒｅｃｔＲｅｆＬａｙｅｒｓ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］が１であるか、ａｌｌ＿ｒｅｆ＿ｌａｙｅｒｓ＿ａｃｔｉｖｅ＿ｆｌａｇが１の場合、デコーダは次２つの場合を区別することができない。
ｉ）ＡＵ（ＡｃｃｅｓｓＵｎｉｔ）が、ビットストリームに存在しないピクチャであるため（例えば、他のフレームレートを有する参照階層によって）、現在階層が直接的に参照する参照階層に対するコーディング（エンコーディング／デコーディング）されたピクチャを有していない場合
ｉｉ）現在階層が直接的に参照する参照階層に対するコーディング（エンコーディング／デコーディング）されたピクチャが転送する間、損失された（ｌｏｓｔ）場合

本発明では、前述したｉ）とｉｉ）の場合を区別するための方法を提案する。
すなわち、本発明ではＶＰＳで各階層毎に最大サブレイヤの個数をシグナリングすることにより、デコーダあるいはミドルボックスで上位サブレイヤＡＵに対する下位階層ピクチャが意図的に消えられた（ｍｉｓｓｉｎｇ）ものなのか、損失された（ｌｏｓｔ）ものなのかを判断できるようにする。

向上階層（ｅｎｈａｎｃｅｍｅｎｔｌａｙｅｒ、すなわち、ｌａｙｅｒ＿ｉｄ＞０である階層）毎に最大サブレイヤの値（個数）を記述する方法は、前記で提示したようにＶＰＳ（ｖｉｄｅｏｐａｒａｍｅｔｅｒｓｅｔ）でシグナリングされるｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と異なる最大サブレイヤの値を有する階層（ｌａｙｅｒ）に対してのみ、当該階層の最大サブレイヤ値をシグナリングする方式があり、または次の実施例のような方式等が存在することができる。

Ａ．それぞれの向上階層（ｅｎｈａｎｃｅｍｅｎｔｌａｙｅｒ、すなわち、ｌａｙｅｒ＿ｉｄ＞０である階層）に対応されるＳＰＳ（Ｓｅｑｕｅｎｃｅｐａｒａｍｅｔｅｒｓｅｔ）毎に当該階層（ｌａｙｅｒ）の最大サブレイヤ値をシグナリングする方式
表１０は、ＳＰＳで当該階層の最大サブレイヤ値をシグナリングする方法を示すシンタックスの一例である。

Ｂ．ＶＰＳ（Ｖｉｄｅｏｐａｒａｍｅｔｅｒｓｅｔ）ｅｘｔｅｎｓｉｏｎでそれぞれの向上階層（ｅｎｈａｎｃｅｍｅｎｔｌａｙｅｒ、すなわち、ｌａｙｅｒ＿ｉｄ＞０である階層）の最大サブレイヤ値をシグナリングする方式
表１１は、ＶＰＳｅｘｔｅｎｓｉｏｎで時間サブレイヤの最大個数をシグナリングする方法を示すシンタックスの一例である。

表１１を参照すれば、ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１［ｉ］＋１は、ｉ番目階層（ｌａｙｅｒ）が有する最大サブレイヤ値（時間サブレイヤの最大個数）を示す。

Ｃ．ＶＰＳでシグナリングされるｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と特定階層の最大サブレイヤ値が異なる場合にのみ、当該階層のＳＰＳで最大サブレイヤ値をシグナリングする方式
一般的なＶＰＳシンタックスは、次の表１２のように全体ビットストリームで最大サブレイヤ値をｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１の値を用いてシグナリングする。

このとき、ＶＰＳでシグナリングされたｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１値と同一でない最大サブレイヤ値を有する階層が存在する場合、このような階層の最大サブレイヤ値を表１３でのように向上階層のＳＰＳでシグナリングすることができる。

表１３を参照すれば、ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｐｒｅｄｉｃｔ＿ｆｌａｇは、ｎｕｈ＿ｌａｙｅｒ＿ｉｄ値が０より大きい場合（すなわち、向上階層の場合）にシグナリングされる。ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｐｒｅｄｉｃｔ＿ｆｌａｇの値が１の場合、ｓｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１はｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１に類推され得（ｉｎｆｅｒ）、ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｐｒｅｄｉｃｔ＿ｆｌａｇの値が０の場合、ｓｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓは明示的に（ｅｘｐｌｉｃｉｔ）ＳＰＳにシグナリングされる。

各階層（ｌａｙｅｒ）毎に最大サブレイヤ値が当該階層に対応されるＳＰＳでシグナリングされる場合、最大サブレイヤ値によってシグナリングされる最大ＤＰＢサイズ（ｍａｘ．ＤＰＢｓｉｚｅ）及び最大遅延時間（ｍａｘ．ｌａｔｅｎｃｙ）情報がＳＰＳでシグナリングされることもある。または、各階層毎に最大サブレイヤ値をＶＰＳｅｘｔｅｎｓｉｏｎでシグナリングする場合、ＶＰＳとＳＰＳとの間のパッシング従属性（ｐａｒｓｉｎｇｄｅｐｅｎｄｅｎｃｙ）を無くすため、ＳＰＳでシグナリングされている最大ＤＰＢサイズと最大遅延時間情報であるｓｐｓ＿ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１、ｓｐｓ＿ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ、ｓｐｓ＿ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１の値等をＳＰＳでないＶＰＳｅｘｔｅｎｓｉｏｎでシグナリングされることもある。

Ａ．それぞれの向上階層（ｅｎｈａｎｃｅｍｅｎｔｌａｙｅｒ、すなわち、ｌａｙｅｒ＿ｉｄ＞０である階層）に対応されるＳＰＳ（Ｓｅｑｕｅｎｃｅｐａｒａｍｅｔｅｒｓｅｔ）毎に当該階層（ｌａｙｅｒ）の最大サブレイヤ値をシグナリングする方式の場合、表１４のようにＳＰＳで最大ＤＰＢサイズと最大遅延時間情報をシグナリングすることができる。

Ｂ．ＶＰＳ（Ｖｉｄｅｏｐａｒａｍｅｔｅｒｓｅｔ）ｅｘｔｅｎｓｉｏｎでそれぞれの向上階層（ｅｎｈａｎｃｅｍｅｎｔｌａｙｅｒ、すなわち、ｌａｙｅｒ＿ｉｄ＞０である階層）の最大サブレイヤ値を独立的にシグナリングする方式の場合、表１５及び表１６のようにＶＰＳｅｘｔｅｎｓｉｏｎで最大ＤＰＢサイズと最大遅延時間情報をシグナリングすることができる。

Ｃ．ＶＰＳ（Ｖｉｄｅｏｐａｒａｍｅｔｅｒｓｅｔ）ｅｘｔｅｎｓｉｏｎでそれぞれの向上階層（ｅｎｈａｎｃｅｍｅｎｔｌａｙｅｒ、すなわち、ｌａｙｅｒ＿ｉｄ＞０である階層）の最大サブレイヤ値がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と異なる場合にのみシグナリングする方式の場合、次の実施例Ｃ−１からＣ−４のようにＶＰＳｅｘｔｅｎｓｉｏｎで最大ＤＰＢサイズと最大遅延時間情報をシグナリングすることができる。

実施例Ｃ−１及びＣ−２は全ての階層の最大ＤＰＢサイズと最大遅延時間情報をＶＰＳｅｘｔｅｎｓｉｏｎでシグナリングする方式である。

実施例Ｃ−３及びＣ−４は、最大サブレイヤ値とｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１値が異なるか、最大サブレイヤ値とｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１値は同じだが、ＶＰＳでシグナリングされる全体ビットストリームの最大ＤＰＢサイズと最大遅延時間情報が同一でない場合にのみ、当該階層の最大ＤＰＢサイズと最大遅延時間情報をＶＰＳｅｘｔｅｎｓｉｏｎでシグナリングする方式である。

実施例Ｃ−１

実施例Ｃ−２

実施例Ｃ−３
表１９は、ＶＰＳで最大ＤＰＢサイズと最大遅延時間情報をシグナリングすることを示したものであり、表２０はＶＰＳｅｘｔｅｎｓｉｏｎで最大ＤＰＢサイズと最大遅延時間情報をシグナリングすることを示したものである。

表２０を参照すれば、ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］は、ｉ番目階層（ｌａｙｅｒ）の最大サブレイヤ値がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と同一である場合、ｉ番目階層の最大ＤＰＢサイズ及び最大遅延時間情報がＶＰＳでシグナリングされる全体ビットストリームの最大ＤＰＢサイズ及び最大遅延時間情報と同一であるのか否かを示す。

ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］が「１」の値を有する場合は同一であることを示し、ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］が「０」の値を有する場合は同一でないことを示す。

ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］が「０」の値を有する場合、あるいは最大サブレイヤ値がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と同一でない場合にのみ、当該階層の最大ＤＰＢサイズ及び最大遅延時間情報がシグナリングされ得る。ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］がシグナリングされない場合にその値は「０」に設定する。

実施例Ｃ−３．１
実施例Ｃ−３．１は、前記実施例Ｃ−３を異に表現したものであって、表２１はＶＰＳで最大ＤＰＢサイズと最大遅延時間情報をシグナリングすることを示したものであり、表２２はＶＰＳｅｘｔｅｎｓｉｏｎで最大ＤＰＢサイズと最大遅延時間情報をシグナリングすることを示したものである。

表２２で追加されたシンタックス等の意味は、前述した同一名称のシンタックスと同一である。例えば、ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］は、表２０を参照して説明したところと同一である。

実施例Ｃ−４

表２３を参照すれば、ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］は、ｉ番目階層（ｌａｙｅｒ）の最大サブレイヤ値がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と同一である場合、ｉ番目階層の最大ＤＰＢサイズ及び最大遅延時間情報がＶＰＳでシグナリングされる全体ビットストリームの最大ＤＰＢサイズ及び最大遅延時間情報と同一であるのか否かを示す。

実施例Ｃ−４．１
実施例Ｃ−４．１は、前記実施例Ｃ−４を異に表現したものである。

表２４で追加されたシンタックス等の意味は、前述した同一名称のシンタックスと同一である。例えば、ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］は、表２３を参照して説明したところと同一である。

Ｄ．ＶＰＳでシグナリングされるｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と特定階層の最大サブレイヤ値が異なる場合にのみ当該階層のＳＰＳで最大サブレイヤ個数をシグナリングする方式の場合、次の実施例Ｄ−１からＤ−３のようにＳＰＳあるいはＶＰＳｅｘｔｅｎｓｉｏｎで最大ＤＰＢサイズと最大遅延時間情報をシグナリングすることができる。

一般的なＶＰＳシンタックスは、次の表２５のように全体ビットストリームで最大サブレイヤ値をｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１の値を用いてシグナリングする。

このとき、向上階層のＳＰＳで当該階層の最大サブレイヤ値がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と同一でないとき、最大サブレイヤ値をシグナリングする場合、当該階層の最大ＤＰＢサイズと最大遅延時間情報をＳＰＳでシグナリングする実施例は、次の表２６の通りである。

実施例Ｄ−１

次の二つの実施例は、向上階層のうちｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と同一である最大サブレイヤ値を有する階層（ｌａｙｅｒ）の最大ＤＰＢサイズと最大遅延時間情報をシグナリングする実施例である。

実施例Ｄ−２は、ｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と同一である最大サブレイヤ値を有する全ての階層（ｌａｙｅｒ）の最大ＤＰＢサイズと最大遅延時間情報をシグナリングする実施例を示す。

実施例Ｄ−３は、ｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と同一である最大サブレイヤ値を有する階層（ｌａｙｅｒ）の最大ＤＰＢサイズと最大遅延時間情報がＶＰＳでシグナリングされる全体ビットストリームの最大ＤＰＢサイズと最大遅延時間情報と同一でない場合にのみ、当該階層の最大ＤＰＢサイズと最大遅延時間情報をＶＰＳｅｘｔｅｎｓｉｏｎでシグナリングする方式である。

実施例Ｄ−２

表２７を参照すれば、ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｖｐｓ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］が「１」の値を有する場合は、ｉ番目階層（ｌａｙｅｒ）の最大（時間）サブレイヤの値がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１の場合であり、ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｖｐｓ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］が「０」の値を有する場合は、ｉ番目階層（ｌａｙｅｒ）の最大（時間）サブレイヤの値が当該階層のＳＰＳ（当該階層と同一であるｎｕｈ＿ｌａｙｅｒ＿ｉｄ値を有するＳＰＳ）でシグナリングされるｓｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１の値を有することを意味する。

ｖｐｓ＿ｅｘｔｅｎｓｉｏｎでは、最大（時間）サブレイヤの値がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１値を有する階層の最大ＤＰＢサイズ及び遅延時間関連情報をシグナリングして、最大（時間）サブレイヤの値がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１値と異なる値を有する階層の場合は、実施例Ｄ−１のように当該階層のＳＰＳで最大ＤＰＢサイズと遅延時間関連情報をシグナリングする。

実施例Ｄ−３

表２８を参照すれば、ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｖｐｓ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］が「１」の値を有する場合は、ｉ番目階層（ｌａｙｅｒ）の最大（時間）サブレイヤの値がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１の場合であり、ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｖｐｓ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］が「０」の値を有する場合は、ｉ番目階層（ｌａｙｅｒ）の最大（時間）サブレイヤの値が当該階層のＳＰＳ（当該階層と同一であるｎｕｈ＿ｌａｙｅｒ＿ｉｄ値を有するＳＰＳ）でシグナリングされるｓｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１の値を有することを意味する。

ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］は、ｉ番目階層（ｌａｙｅｒ）の最大サブレイヤ値がｖｐｓ＿ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１＋１と同一である場合、最大ＤＰＢサイズと最大遅延時間情報がＶＰＳでシグナリングされる全体ビットストリームの最大ＤＰＢサイズと最大遅延時間情報と同一であるのか否かを示す。

ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］が「１」の値を有する場合は同一であることを示し、ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］が「０」の値を有する場合は同一でないことを示す。ｓｕｂ＿ｌａｙｅｒ＿ｖｐｓ＿ｂｕｆ＿ｏｒｄｅｒｉｎｇ＿ｉｎｆｏ＿ｐｒｅｄｉｃｔ＿ｆｌａｇ［ｉ］が「０」の値を有する場合にのみ、当該階層の最大ＤＰＢサイズと最大遅延時間情報がシグナリングされる。

前記全ての場合に、ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［０］［ｊ］、ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［０］［ｊ］、ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［０］［ｊ］は、ｎｕｈ＿ｌａｙｅｒ＿ｉｄ値が０である基本階層のＳＰＳでシグナリングされるｓｐｓ＿ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｊ］、ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｊ］、ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｊ］値を用いる。

前述したところのようなシグナリングされたＤＰＢ関連シンタックス情報を用いて、各階層別ＤＰＢを管理することができる。

（１）特定階層の復号化されたピクチャが復号化器から出力されてディスプレーされる階層の場合には（すなわち、ＶＰＳｅｘｔｅｎｓｉｏｎでシグナリングされるｌａｙｅｒ＿ｏｕｔｐｕｔ＿ｆｌａｇが「１」である階層）、次のように当該階層に対する最大ＤＰＢサイズを定めることができる。

ＭａｘＤＰＢｓｉｚｅ［ｉ］［ｊ］は、ｉ番目階層がｔｅｍｐｏｒａｌ＿ｉｄがｊである時間サブレイヤ（ｔｅｍｐｏｒａｌｓｕｂ−ｌａｙｅｒ）までデコーディングする場合の最大ＤＰＢサイズを示す。

デコーディングしようとするビットストリーム全体で最大（時間）サブレイヤの値あるいはデコーダからディスプレーに出力される階層の最大（時間）サブレイヤの値をＨｉｇｈｅｓｔＴｉｄとする場合、ｉ番目階層（このとき、ｉの範囲は１＜＝ｉ＜＝ｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１であり得る）の最大（時間）サブレイヤの値がＡであり、Ａ＜ＨｉｇｈｅｓｔＴｉｄの場合、当該階層のｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］［ｊ］値はＡ＜ｊ＜＝ＨｉｇｈｅｓｔＴｉｄに対して、ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］［Ａ］の値を適用することができる。ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］［ｊ］及びｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅｓａｓｅ＿ｐｌｕｓ１［ｉ］［ｊ］も同様に、Ａ＜ｊ＜＝ＨｉｇｈｅｓｔＴｉｄに対して、ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］［Ａ］とｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］［Ａ］の値を適用することができる。

また、特定時間サブレイヤ範囲内のｉ番目階層（このとき、ｉの範囲は１＜＝ｉ＜＝ｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１であり得る）が他の階層の参照階層として用いられる場合（下記のシンタックステーブルでｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［ｉ］は、時間サブレイヤを示すｔｅｍｐｏｒａｌ＿ｉｄ値がｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［ｉ］−１値より小さいか同一であるｉ番目階層が、他の階層の参照階層として用いられることを意味）、ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［ｉ］−１＜ｊ＜＝ＨｉｇｈｅｓｔＴｉｄ範囲に属するｊに対して、ＭａｘＤＰＢｓｉｚｅ［ｉ］［ｊ］値はｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］［ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［ｉ］−１］＋１値を適用することができる。０＜＝ｊ＜＝ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［ｉ］−１の場合のＭａｘＤＰＢｓｉｚｅ［ｉ］［ｊ］値はｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］［ｊ］＋１値を適用することができる。

ＭａｘＲｅｏｒｄｅｒＰｉｃｓ［ｉ］［ｊ］及びＭａｘＬａｔｅｎｃｙＩｎｃｒｅａｓｅＰｌｕｓ１［ｉ］［ｊ］も同様に、ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１−１［ｉ］＜ｊ＜＝ＨｉｇｈｅｓｔＴｉｄ範囲に属するｊに対して、ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］［ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［ｉ］−１］とｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］［ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［ｉ］−１］の値を適用することができ、０＜＝ｊ＜＝ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［ｉ］−１の場合にｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］［ｊ］と、ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］［ｊ］の値を適用することもできる。あるいは、０＜＝ｊ＜＝ＨｉｇｈｅｓｔＴｉｄの場合のＭａｘＲｅｏｒｄｅｒＰｉｃｓ［ｉ］［ｊ］及びＭａｘＬａｔｅｎｃｙＩｎｃｒｅａｓｅＰｌｕｓ１［ｉ］［ｊ］も、ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］［ｊ］とｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］［ｊ］の値を適用することもできる。

表２９は、前述したシンタックス情報を用いて各階層別ＤＰＢを管理するためのＶＰＳｅｘｔｅｎｓｉｏｎの一例を示したものである。

（２）特定階層の復号化されたピクチャが復号化器から出力されてディスプレーされない階層の場合には（すなわち、ＶＰＳｅｘｔｅｎｓｉｏｎでシグナリングされるｌａｙｅｒ＿ｏｕｔｐｕｔ＿ｆｌａｇが「０」である階層）、次のように当該階層に対する最大ＤＰＢサイズを決定することができる。

デコーディングしようとするビットストリーム全体で最大（時間）サブレイヤの値あるいはデコーダからディスプレーに出力される階層の最大（時間）サブレイヤの値をＨｉｇｈｅｓｔＴｉｄとする場合に、ｉ番目階層（このとき、ｉの範囲は１＜＝ｉ＜＝ｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１であり得る）の最大（時間）サブレイヤの値がＡであり、Ａ＜ＨｉｇｈｅｓｔＴｉｄの場合、当該階層のｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］［ｊ］値はＡ＜ｊ＜＝ＨｉｇｈｅｓｔＴｉｄに対して、ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］［Ａ］の値を適用することができる。ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］［ｊ］及びｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅｓａｓｅ＿ｐｌｕｓ１［ｉ］［ｊ］も同様に、Ａ＜ｊ＜＝ＨｉｇｈｅｓｔＴｉｄに対して、ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］［Ａ］と、ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］［Ａ］の値を適用することができる。

０＜＝ｊ＜＝ＨｉｇｈｅｓｔＴｉｄの場合のＭａｘＤＰＢｓｉｚｅ［ｉ］［ｊ］値は、ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］［ｊ］＋１値を適用することができる。０＜＝ｊ＜＝ＨｉｇｈｅｓｔＴｉｄの場合のＭａｘＲｅｏｒｄｅｒＰｉｃｓ［ｉ］［ｊ］及びＭａｘＬａｔｅｎｃｙＩｎｃｒｅａｓｅＰｌｕｓ１［ｉ］［ｊ］も、ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］［ｊ］とｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］［ｊ］の値を適用することもできる。

（３）前記で記述されたところと類似するが、次のように最大ＤＰＢサイズ管理も可能である。

ＭａｘＤｅｃＰｉｃｂｕｆｆｅｒｉｎｇ［ｉ］［ｊ］［ｋ］は、ｉ番目出力階層セット（ｏｕｔｐｕｔｌａｙｅｒｓｅｔ）に含まれたｎｕｈ＿ｌａｙｅｒ＿ｉｄ値がｊであり、デコーディングされる最大ｔｅｍｐｏｒａｌ＿ｉｄ値がである場合の最大ＤＰＢサイズを示す。

ＭａｘＤｅｃＰｉｃｂｕｆｆｅｒｉｎｇ［ｉ］［ｊ］［ｋ］を用いて、次の表３０のように最大ＤＰＢサイズを決定することができる。

表３０を参照すれば、ｎｕｍＯｕｔｐｕｔＬａｙｅｒＳｅｔｓはビットストリームが支援可能な出力階層セット（ｏｕｔｐｕｔｌａｙｅｒｓｅｔ）の個数を示す。

ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘ＿ｍｉｎｕｓ１［ｉ］＋１は、ｉ番目出力階層セットに該当する階層セット（ｌａｙｅｒｓｅｔ）を示すインデックス（ｉｎｄｅｘ）値を意味する。

ｌａｙｅｒｓｅｔは、サブビットストリーム抽出過程（ｓｕｂ−ｂｉｔｓｔｒｅａｍｅｘｔｒａｃｔｉｏｎｐｒｏｃｅｓｓ）を介して生成されたビットストリーム内に含まれる階層等の集合を意味する。

ＬａｙｅｒＳｅｔＬａｙｅｒＩｄＬｉｓｔ［ＩｓＩｄｘ］［ｊ］は、ｉ番目ｌａｙｅｒｓｅｔに含まれたｊ番目階層のｎｕｈ＿ｌａｙｅｒ＿ｉｄを意味する。

０＜＝ｉ＜＝ｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１に対して、ＬａｙｅｒＩｄｘＩｎＶｐｓ［ｌａｙｅｒ＿ｉｄ＿ｉｎ＿ｎｕｈ［ｉ］］＝ｉであり得る。このとき、ｌａｙｅｒ＿ｉｄ＿ｉｎ＿ｎｕｈ［ｉ］は、ｉ番目階層のＶＣＬＮＡＬｕｎｉｔでシグナリングされるｎｕｈ＿ｌａｙｅｒ＿ｉｄ値を示す。

ｍａｘ＿ｓｕｂ＿ｌａｙｅｒｓ＿ｖｐｓ＿ｍｉｎｕｓ１［ｍ］は、ｍ番目階層が有する最大時間サブレイヤ（ｔｅｍｐｏｒａｌｓｕｂ−ｌａｙｅｒ）のｔｅｍｐｏｒａｌ＿ｉｄ −１値を示す。

ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［ｍ］は、ｍ番目階層が上位階層の参照階層として用いられるとき、ｍ個の階層のうちｔｅｍｐｏｒａｌ＿ｉｄ値がｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［ｉ］−１値より小さいか、同一である場合にのみ参照ピクチャとして用いられることを示す。

あるいは、前記のようにパラメータ等を管理するために次の表３１及び表３２のようにシンタックス等をシグナリングすることもできる。

優先順位情報（Ｐｒｉｏｒｉｔｙｉｎｆｏｒｍａｔｉｏｎ）表現
ビットストリームのそれぞれのスケーラブル階層（ｓｃａｌａｂｌｅｌａｙｅｒ）の優先順位（ｐｒｉｏｒｉｔｙ）を示すための方法を提案する。前記で記述したように、ＶＰＳあるいはＳＥＩメッセージ（例えば、下記のようにｌａｙｅｒ＿ｐｒｉｏｒｉｔｙ＿ｉｎｆｏｍｅｓｓａｇｅ）に記述され得、一例として次の表３３及び表３４のように階層に対する優先順位をシグナリングすることができる。

表３３及び表３４で新たに定義または修正されたシンタックス要素等（ｅｌｅｍｅｎｔｓ）の意味は次の通りである。
− ｐｒｉｏｒｉｔｙ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｆｌａｇが「１」の場合は、スケーラブル階層（ｓｃａｌａｂｌｅｌａｙｅｒ）の優先順位（ｐｒｉｏｒｉｔｙ）情報が提供されることを意味する。
− ｎｕｍ＿ｐｒｉｏｒｉｔｙ＿ｐｏｌｉｃｉｅｓ＿ｍｉｎｕｓ１＋１は、優先順位政策（ｐｒｉｏｒｉｔｙｓｅｔｔｉｎｇｐｏｌｉｃｙ）の数を示す。
− ｐｒｉｏｒｉｔｙ＿ｉｄ［ｉ］［ｊ］は、ｌａｙｅｒ＿ｉｄがｉであり、ｔｅｍｐｏｒａｌ＿ｉｄがｊである階層の優先順位値を示す。この要素（ｅｌｅｍｅｎｔ）の値が低いほど優先順位が高いことを意味する。
− ｐｒｉｏｒｉｔｙ＿ｉｄ＿ｓｅｔｔｉｎｇ＿ｕｒｉ［ＰｒｉｏｒｉｔｙＩｄＳｅｔｔｉｎｇＵｒｉＩｄｘ］は、対象アクセスユニットセット（ｔａｒｇｅｔａｃｃｅｓｓｕｎｉｔｓｅｔ）のためのＮＡＬユニットヘッダー（ＮＡＬｕｎｉｔｈｅａｄｅｒ）で、ｐｒｉｏｒｉｔｙ＿ｉｄ値を計算するために用いられた方法を記述するＵＲＩ（ｕｎｉｖｅｒｓａｌｒｅｓｏｕｒｃｅｉｄｅｎｔｉｆｉｅｒ）を示すものであって、ＵＴＦ−８ｃｈａｒａｃｔｅｒでエンコーディングされたｎｕｌｌ−ｔｅｒｍｉｎａｔｅｄｓｔｒｉｎｇのＰｒｉｏｒｉｔｙＩｄＳｅｔｔｉｎｇＵｒｉＩｄｘ番目バイトである。

もし、ｌａｙｅｒ＿ｐｒｉｏｒｉｔｙ＿ｉｎｆｏのメッセージ（ｍｅｓｓａｇｅ）が存在すれば、このメッセージはメッセージが適用される周期のデコーディング順序上、一番目のアクセスユニット（ａｃｃｅｓｓｕｎｉｔ）に含まれなければならない。

図４は、本発明の実施例に係るスケーラブルビットストリーム（階層的ビットストリーム）を支援するピクチャ符号化方法を概略的に示すフローチャートである。図４の方法は、前述した図１のピクチャ符号化装置によって行われ得る。

図４を参照すれば、符号化装置はビットストリームのスケーラビリティ情報をエンコーディングする（Ｓ４００）。

ビットストリームのスケーラビリティ情報は、スケーラブルビットストリーム（スケーラブル階層）を支援するビデオコーディング構造でビットストリームのスケーラブルな特性を効率的にコーディング（エンコーディング／デコーディング）するために必要な情報をいう。

例えば、前述したように、ビットストリームのスケーラビリティ情報は、ビットストリームの特性情報、ビットストリームに含まれる階層（等）に対する階層参照情報、ビットストリームに含まれる階層（等）に対するプロファイル、ティア、レベル情報、ビットストリームに含まれる階層（等）に対する優先順位情報を含むことができる。

ビットストリームの特性情報は、固定された時間間隔（例えば、タイムウィンドウ）あるいは固定されたデータ量（例えば、バケットサイズ）を用いて計算されたビットレートあるいはピクチャレートに対する情報、異なる時間間隔を用いて計算されたビットレートあるいはピクチャレートに対する情報を含むことができる。

階層参照情報は、ビットストリームに含まれる各階層に対する参照関係情報（基本参照関係を有するか否かによる階層参照情報）、時間サブレイヤに対する参照関係情報を含むことができる。

プロファイル、ティア、レベル情報は、ビットストリームに含まれる各階層に対するプロファイル、ティア、レベルのような情報をいい、各階層の最大サブレイヤ数ほどシグナリングされ得る。

優先順位情報は、ビットストリームに含まれる階層（等）に対して優先順位政策を適用するための各階層別優先順位値情報を含むことができる。例えば、優先順位によってコンテンツを抽出して消費できるようにする優先順位ＩＤ情報、または特定領域を抽出してみることができるようにする領域ＩＤ情報などがあり得る。

また、ビットストリームのスケーラビリティ情報は、ビットストリームに含まれる階層（等）に対するサブレイヤ情報を含むことができる。すなわち、各階層が有し得る最大サブレイヤの個数に対する情報を含むことができる。また、各階層あるいは各サブレイヤに対する最大ＤＰＢサイズ及び最大遅延時間情報を含むことができる。

符号化装置は、前述したビットストリームのスケーラビリティ情報をＶＰＳ、ＶＰＳ拡張（ｅｘｔｅｎｔｉｏｎ）、ＳＰＳ、ＳＥＩメッセージなどのシンタックスを介して記述し、記述されたシンタックス情報をエンコーディングすることができる。

ここで、ＶＰＳ、ＶＰＳ拡張（ｅｘｔｅｎｔｉｏｎ）、ＳＰＳ、ＳＥＩメッセージなどのシンタックスを介してスケーラビリティ情報を記述する方法に対しては、表１から表３４を参照して具体的に前述したところがあるので、本実施例ではこれに対する説明を略する。

符号化装置は、エンコーディングされたスケーラビリティ情報を含むビットストリームを転送する（Ｓ４１０）。

図５は、本発明の実施例に係るスケーラブルビットストリーム（階層的ビットストリーム）を支援するピクチャ復号化方法を概略的に示すフローチャートである。図５の方法は、前述した図２のピクチャ復号化装置によって行われ得る。

図５を参照すれば、復号化装置は、スケーラビリティ情報を含むビットストリームを受信する（Ｓ５００）。

復号化装置は、受信されたビットストリームをデコーディングしてビットストリームに対するスケーラビリティ情報を獲得する（Ｓ５１０）。

このとき、ビットストリームをデコーディングしてビットストリームに対するスケーラビリティ情報を獲得する過程は、エントロピーデコーディングあるいはパッシング過程とみることができ、このような過程を介してスケーラビリティ情報のシンタックス要素値等が出力され得る。

ビットストリームに対するスケーラビリティ情報は、前述したようにビットストリームの特性情報、ビットストリームに含まれる階層（等）に対する階層参照情報、ビットストリームに含まれる階層（等）に対するプロファイル、ティア、レベル情報、ビットストリームに含まれる階層（等）に対する優先順位情報を含むことができる。

また、ビットストリームに対するスケーラビリティ情報は、ビットストリームに含まれる階層（等）に対するサブレイヤ情報を含むことができる。すなわち、各階層が有し得る最大サブレイヤの個数に対する情報を含むことができる。また、各階層あるいは各サブレイヤに対する最大ＤＰＢサイズ及び最大遅延時間情報を含むことができる。

一方、符号化装置は前述したように、ビットストリームに対するスケーラビリティ情報をＶＰＳ、ＶＰＳ拡張（ｅｘｔｅｎｔｉｏｎ）、ＳＰＳ、ＳＥＩメッセージなどのシンタックスを介して記述し、記述されたシンタックス情報をエンコーディングしてシグナリングする。

よって、復号化装置は、ＶＰＳ、ＶＰＳ拡張（ｅｘｔｅｎｔｉｏｎ）、ＳＰＳ、ＳＥＩメッセージなどのシンタックス要素等をデコーディングし、ビットストリームに対するスケーラビリティ情報を獲得することができる。

図６は、本発明の実施例に係るスケーラブルビットストリーム（階層的ビットストリーム）を支援するピクチャ符号化／復号化構造で、スケーラブル階層に対するサブレイヤ情報をシグナリングする方法を概略的に示すフローチャートである。

図６の方法は、前述した図１のピクチャ符号化装置または前述した図２のピクチャ復号化装置によって行われ得る。図６では、説明の便宜上、復号化装置で行われるスケーラブル階層に対するサブレイヤ情報をシグナリングする過程に対して記述した。

図６を参照すれば、復号化装置は、複数の階層を含むビットストリームを受信する（Ｓ６００）。

このとき、複数の階層は、基本階層及び少なくとも一つの向上階層を含むことができる。

復号化装置は、受信したビットストリームをデコーディングして複数の階層それぞれに対するサブレイヤの最大個数情報を獲得する（Ｓ６１０）。

サブレイヤの最大個数情報は、ビデオパラメータセット拡張情報（ＶｉｄｅｏＰａｒａｍｅｔｅｒＳｅｔｅｘｔｅｎｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）、ビデオパラメータセット（ＶｉｄｅｏＰａｒａｍｅｔｅｒＳｅｔ）及びシーケンスパラメータセット（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）のうち少なくとも一つに含まれてシグナリングされ得る。ビデオパラメータセット拡張情報は、ＶＰＳｅｘｔｅｎｓｉｏｎのシンタックスであり得る。

サブレイヤの最大個数情報をビデオパラメータセット拡張情報、ビデオパラメータセット、シーケンスパラメータセットを用いてシグナリングする方法に対しては、表５、表９から表１３を参照して具体的に詳述したところがある。

一例として、復号化装置は、複数の階層それぞれに対するサブレイヤの最大個数情報をビデオパラメータセット拡張情報（ＶＰＳｅｘｔｅｎｓｉｏｎ）から獲得することができる。このとき、復号化装置は、ビデオパラメータセット拡張情報にサブレイヤの最大個数情報が存在するのか否かを示すフラッグ情報を獲得することにより、複数の階層それぞれに対するサブレイヤの最大個数が分かる。

他の例として、復号化装置は、ビデオパラメータセット拡張情報でシグナリングされるサブレイヤの最大個数と、ビデオパラメータセットでシグナリングされるサブレイヤの最大個数が異なる値を有する階層に対して、当該階層のサブレイヤの最大個数情報をビデオパラメータセット拡張情報から獲得することができる。このとき、復号化装置は、ビデオパラメータセット拡張情報でシグナリングされるサブレイヤの最大個数とビデオパラメータセットでシグナリングされるサブレイヤの最大個数が同一であるか否かを示すフラッグ情報を獲得することにより、当該階層に対するサブレイヤの最大個数を把握することができる。

また他の例として、復号化装置は、複数の階層それぞれに対するサブレイヤの最大個数情報をシーケンスパラメータセットから獲得することができる。すなわち、復号化装置は、基本階層あるいは向上階層それぞれに対応されるシーケンスパラメータセットから当該階層のサブレイヤの最大個数情報を獲得することができる。

また他の例として、復号化装置は、ビデオパラメータセットでシグナリングされるサブレイヤの最大個数と複数の階層（基本階層あるいは向上階層）それぞれのシーケンスパラメータセットでシグナリングされるサブレイヤの最大個数が同一でない場合に、当該階層のサブレイヤの最大個数情報をシーケンスパラメータセットから獲得することができる。このとき、復号化装置は、ビデオパラメータセットでシグナリングされるサブレイヤの最大個数と、シーケンスパラメータセットでシグナリングされるサブレイヤの最大個数が同一であるか否かを示すフラッグ情報を獲得することにより、当該階層のサブレイヤの最大個数を把握することができる。前記フラッグ情報は、向上階層の場合にシグナリングされ得る。

例えば、前記フラッグ情報がビデオパラメータセットでシグナリングされるサブレイヤの最大個数と、シーケンスパラメータセットでシグナリングされるサブレイヤの最大個数が同一であるものと示される場合、当該階層（向上階層）に対するサブレイヤの最大個数は、ビデオパラメータセットでシグナリングされるサブレイヤ最大個数で決定され得る。一方、前記フラッグ情報がビデオパラメータセットでシグナリングされるサブレイヤの最大個数と、シーケンスパラメータセットでシグナリングされるサブレイヤの最大個数が同一でないものと示される場合、当該階層（向上階層）に対するサブレイヤの最大個数はシーケンスパラメータセットでシグナリングされる情報で決定され得る。

前述した段階Ｓ６００〜Ｓ６１０は、復号化装置のエントロピー復号化部あるいはパッシング部あるいはデコーディング部によって行われ得る。

また、前述した本発明の実施例に係るスケーラブルビットストリーム（階層的ビットストリーム）を支援するピクチャ符号化／復号化構造で、スケーラブル階層に対するサブレイヤ情報をシグナリングする方法を符号化装置で行う場合、復号化装置で行った逆の手続きで進行され得る。

例えば、符号化装置は、複数の階層それぞれに対するサブレイヤの最大個数情報を決定してエンコーディングし、エンコーディングされたサブレイヤの最大個数情報を含むビットストリームを転送することができる。このとき、前述したように、サブレイヤの最大個数情報はビデオパラメータセット拡張情報、ビデオパラメータセット及びシーケンスパラメータセットのうち少なくとも一つに貯蔵されてシグナリングされ得る。このようなサブレイヤの最大個数情報は符号化装置のエントロピー符号化部あるいはエンコーディング部によって符号化されて復号化装置に転送され得る。

前述した本発明の実施例でのようにサブレイヤの最大個数情報を各階層毎にシグナリングすることにより、ミドルボックスの性能及び効率性を向上させることができ、性能交渉あるいはビットストリーム抽出過程に役立つことができる。

前述した実施例等において、方法等は一連の段階またはブロックとしてフローチャートに基づいて説明されているが、本発明は段階等の順序に限定されるものではなく、ある段階は前述したところと異なる段階と異なる順序で、または同時に発生することができる。また、当該技術分野で通常の知識を有するた者であればフローチャートに示された段階等が排他的ではなく、他の段階が含まれるか、フローチャートの一つまたはそれ以上の段階が本発明の範囲に影響を及ぼさずに削除され得ることを理解できるものである。

以上の説明は、本発明の技術思想を例示的に説明したことに過ぎないものであって、本発明の属する技術分野で通常の知識を有する者であれば本発明の本質的な特性から外れない範囲で多様な修正及び変形が可能である。よって、本発明に開示された実施例等は、本発明の技術思想を限定するためではなく、説明するためのものであり、このような実施例によって本発明の技術思想の範囲が限定されるものではない。本発明の保護範囲は、特許請求範囲によって解釈されなければならず、それと同等な範囲内にある全ての技術思想は、本発明の権利範囲に含まれるものと解釈されなければならない。

Claims

映像を復号化する方法であって、
ビットストリームを受信するステップと、
前記ビットストリームから、前記映像に対する複数の時間サブレイヤの最大個数を示す第１の映像情報を取得するステップと、
第２の映像情報に対する複数の時間サブレイヤの個数が前記第１の映像情報により示される前記映像に対する複数の時間サブレイヤの最大個数に等しいと決定された場合、前記ビットストリームから、前記第１の映像情報に基づいて、前記映像に適用される最大ＤＰＢサイズ情報および最大遅延時間情報を含む前記第２の映像情報を取得するステップと、
前記ビットストリームを復号化することによって現在ブロックの残差ブロックを取得するステップと、
前記残差ブロックを用いて前記現在ブロックの復元ブロックを生成するステップと、を含み、
映像パラメータセットは前記第１の映像情報を含む、映像復号化方法。
映像復号化方法。
前記第１の映像情報は、前記第１の映像情報が存在するか否かを表すフラグ情報に従って取得される、請求項１に記載の映像復号化方法。
前記第１の映像情報を取得するステップは、映像パラメータ拡張情報でシグナリングされるサブレイヤの最大個数が映像パラメータセットでシグナリングされるサブレイヤの最大個数とは異なるレイヤに対するサブレイヤの最大個数に関する情報を取得する、請求項１に記載の映像復号化方法。
前記第１の映像情報を取得するステップは、さらに、前記映像パラメータ拡張情報でシグナリングされるサブレイヤの最大個数が前記映像パラメータセットでシグナリングされるサブレイヤの最大個数に等しいかどうかを表すフラグ情報に基づいて前記第１の映像情報を取得する、請求項３に記載の映像復号化方法。
映像を符号化する方法であって、
前記映像に対する複数の時間サブレイヤの最大個数を示す第１の映像情報を決定するステップと、
第２の映像情報に対する複数の時間サブレイヤの個数が前記第１の映像情報により示される前記映像に対する複数の時間サブレイヤの最大個数に等しいと決定された場合、前記第１の映像情報に基づいて、前記映像に適用される最大ＤＰＢサイズ情報および最大遅延時間情報を含む前記第２の映像情報を決定するステップと、
現在ブロックの復元ブロックを取得するステップと、
前記復元ブロックを用いて前記現在ブロックの残差ブロックを取得するステップと、
前記第１の映像情報、前記第２の映像情報、および前記残差ブロックを符号化することによる前記残差ブロックに関する情報を含むビットストリームを送信するステップと、を含み、
映像パラメータセットは前記第１の映像情報を含む、映像符号化方法。
前記第１の映像情報が存在するか否かを表すフラグ情報を決定するステップをさらに含む、請求項５に記載の映像符号化方法。
前記第１の映像情報を決定するステップは、映像パラメータ拡張情報でシグナリングされるサブレイヤの最大個数が映像パラメータセットでシグナリングされるサブレイヤの最大個数とは異なる前記第１の映像情報を決定する、請求項５に記載の映像符号化方法。
ビットストリームを格納した非一時的コンピュータ読取可能記憶媒体であって、
前記ビットストリームは映像に対する映像符号化方法によって生成されるものであり、
前記方法は、
前記映像に対する複数の時間サブレイヤの最大個数を示す第１の映像情報を決定するステップと、
前記映像に適用される最大ＤＰＢサイズ情報および最大遅延時間情報を含む第２の映像情報を決定するステップと、
現在ブロックの残差ブロックに関する情報を取得するステップと、を含み、
前記第２の映像情報に対する複数の時間サブレイヤの個数が前記映像に対する複数の時間サブレイヤの最大個数に等しいと決定された場合、前記第１の映像情報に基づいて前記第２の映像情報が決定され、
前記現在ブロックの前記残差ブロックに関する前記情報は前記残差ブロックを符号化することにより決定され、
映像パラメータセットは前記第１の映像情報を含む、
非一時的コンピュータ読取可能記憶媒体。