JP6495261B2

JP6495261B2 - Ｍｐｅｇ−２システムを使用したビデオコーディング規格拡張ビットストリームデータの搬送

Info

Publication number: JP6495261B2
Application number: JP2016523960A
Authority: JP
Inventors: チェン、イン; ヘンドリー、フヌ; ワン、イェ−クイ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-10-23
Filing date: 2014-10-23
Publication date: 2019-04-03
Anticipated expiration: 2034-10-23
Also published as: KR102315232B1; MX2016005100A; KR20160075586A; US20150110167A1; US10205954B2; CN105794212A; EP3061251A1; CN105794212B; WO2015061585A1; MX364539B; JP2016538760A

Description

[0001]本出願は、その内容全体が参照により本明細書に組み込まれる、２０１３年１０月２３日に出願された米国仮出願第６１／８９４，８２９号の利益を主張する。

[0002]本開示は、ビデオコーディングに関し、より詳細には、コード化されたビデオデータのトランスポートに関する。

[0003]デジタルビデオ能力は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップコンピュータもしくはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダー、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲーム機、セルラー電話機もしくは衛星無線電話機、いわゆる「スマートフォン」、ビデオ会議デバイス、ビデオストリーミングデバイス、および類似物を含む広範囲のデバイスに組み込まれ得る。デジタルビデオデバイスは、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵ−ＴＨ．２６３、ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４、Ｐａｒｔ１０、アドバンストビデオコーディング（ＡＶＣ：Advanced Video Coding）、現在開発中の高効率ビデオコーディング（ＨＥＶＣ：High Efficiency Video Coding）標準規格、およびそのような標準規格の拡張によって定められた規格に記載されたものなどのビデオコーディング技法を実装する。ビデオデバイスは、そのようなビデオコーディング技法を実装することによって、デジタルビデオ情報をより効率的に送信、受信、符号化、復号、および／または記憶し得る。

[0004]ビデオコーディング技法は、ビデオシーケンスに固有の冗長性を低減または除去するための空間的（イントラピクチャ）予測および／または時間的（ピクチャ間）予測を含む。ブロックベースのビデオコーディングでは、ビデオスライス（たとえば、ビデオフレームまたはビデオフレームの一部分）は、ツリーブロック、コーディングユニット（ＣＵ）、および／またはコーディングノードと呼ばれることもあるビデオブロックに区分され得る。ピクチャのイントラコード化（Ｉ）スライスにおけるビデオブロックは、同じピクチャ中の隣接ブロックにおける参照サンプルに対する空間的予測を使用して符号化される。ピクチャのインターコード化（ＰまたはＢ）スライスにおけるビデオブロックは、同じピクチャ中の隣接ブロックにおける参照サンプルに対する空間的予測、または他の参照ピクチャ中の参照サンプルに対する時間的予測を使用し得る。ピクチャはフレームと呼ばれることがあり、参照ピクチャは参照フレームと呼ばれることがある。

[0005]空間的予測または時間的予測により、コーディングされるべきブロックのための予測ブロックが生じる。残差データは、コーディングされるべき元のブロックと予測ブロックとの間のピクセル差分を表す。インターコーディングされたブロックは、予測ブロックを形成する参照サンプルのブロックを指す動きベクトルに従って符号化され、残差データは、コーディングされたブロックと予測ブロックとの差分を示す。イントラコード化ブロックは、イントラコーディングモードおよび残差データに従って符号化される。さらなる圧縮のために、残差データは、ピクセル領域から変換領域に変換され、残差変換係数が生じ得、その残差変換係数は、次いで量子化され得る。最初に２次元アレイで構成される量子化変換係数は、変換係数の１次元ベクトルを生成するために走査され得、なお一層の圧縮を達成するためにエントロピーコーディングが適用され得る。

[0006]概して、本開示は、たとえば、ＭＰＥＧ−２（ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔｓＧｒｏｕｐ）システムに従って、コード化されたビデオデータをトランスポートするための技法について説明する。コード化されたビデオデータのトランスポートは、コード化されたビデオデータの搬送と呼ばれることもある。本開示の技法は、ビデオコーディング規格の拡張またはマルチレイヤ拡張、たとえば、高効率ビデオコーディング（ＨＥＶＣ）規格の拡張についてのコード化されたビデオデータのトランスポートのために使用され得る。そのような拡張は、マルチビュー拡張（たとえば、ＭＶ−ＨＥＶＣ）と、スケーラブル拡張（たとえば、ＳＨＶＣ）と、３次元拡張（たとえば、３Ｄ−ＨＥＶＣ）とを含み得る。したがって、本開示の技法は、ビデオコーディング規格の多層拡張、たとえば、ＨＥＶＣのマルチレイヤ拡張のために使用され得る。

[0007]一例では、本方法は、ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤビデオデータを含むエレメンタリストリームのための階層拡張記述子を復号することと、ここにおいて、階層拡張記述子は、エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、ここにおいて、２つ以上のエンハンスメントレイヤが、第１のスケーラビリティ次元に準拠する第１のエンハンスメントレイヤと、第２のスケーラビリティ次元に準拠する第２のエンハンスメントレイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、２つ以上のエンハンスメントレイヤを表すデータに少なくとも部分的に基づいてビデオデータを処理することとを含む。

[0008]別の例では、デバイスは、ビデオコーディング規格の拡張に従ってコーディングされたビデオデータのエンハンスメントレイヤを記憶するためのメモリと、エンハンスメントレイヤを含むエレメンタリストリームのための階層拡張記述子を復号することと、ここにおいて、階層拡張記述子は、エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、ここにおいて、２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、２つ以上の参照レイヤを表すデータに少なくとも部分的に基づいてビデオデータを処理することとを行うように構成された１つまたは複数のプロセッサとを含む。

[0009]別の例では、本デバイスは、ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤビデオデータを含むエレメンタリストリームのための階層拡張記述子を復号するための手段と、ここにおいて、階層拡張記述子は、エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、ここにおいて、２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１のエンハンスメントレイヤと、第２のスケーラビリティ次元に準拠する第２のエンハンスメントレイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、２つ以上の参照レイヤを表すデータに少なくとも部分的に基づいてビデオデータを処理するための手段とを含む。

[0010]別の例では、本コンピュータ可読記憶媒体は、実行されたときに、プロセッサに、ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤビデオデータを含むエレメンタリストリームのための階層拡張記述子を復号することと、ここにおいて、階層拡張記述子は、エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、ここにおいて、２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１のエンハンスメントレイヤと、第２のスケーラビリティ次元に準拠する第２のエンハンスメントレイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、２つ以上の参照レイヤを表すデータに少なくとも部分的に基づいてビデオデータを処理することとを行わせる命令を記憶している。

[0011]別の例では、本方法は、ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤとエンハンスメントレイヤが依存する２つ以上の参照レイヤとを含むビデオデータを受信することと、ここにおいて、２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、階層拡張記述子を符号化することと、ここにおいて、階層拡張記述子が、エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、を含む。

[0012]別の例では、本デバイスは、ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤとエンハンスメントレイヤが依存する２つ以上の参照レイヤとを含むビデオデータを記憶するためのメモリと、ここにおいて、２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、階層拡張記述子を符号化することを行うように構成された１つまたは複数のプロセッサと、ここにおいて、階層拡張記述子が、エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、を含む。

[0013]１つまたは複数の例の詳細が以下の添付の図面および説明において記載されている。他の特徴、目的、および利点は、説明および図面、ならびに特許請求の範囲から明らかになろう。

[0014]ビデオコーディング規格の拡張に従ってコーディングされたビデオデータをトランスポートするための技法を利用し得る例示的なビデオ符号化および復号システムを示すブロック図。 [0015]ビデオコーディング規格の拡張に従ってコーディングされたビデオデータをトランスポートするための技法を実装し得るビデオエンコーダの一例を示すブロック図。 [0016]ビデオコーディング規格の拡張に従ってコーディングされたビデオデータをトランスポートするための技法を実装し得るビデオデコーダの一例を示すブロック図。 [0017]オーディオ／ビデオ（Ａ／Ｖ）ソースデバイスがオーディオおよびビデオデータをＡ／Ｖ宛先デバイスにトランスポートする例示的なシステムを示すブロック図。 [0018]本開示の技法による、ビデオデータを処理するための例示的な方法を示すフローチャート。 [0019]本開示の技法による、ビデオデータを処理するための例示的な方法を示すフローチャート。

[0020]概して、本開示は、メディアデータについてのＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）−２システムレベルデータに関する技法について説明する。ＭＰＥＧ−２システムは、概して、単一のデータストリームを形成するために２つ以上のデータストリームをどのように一緒に多重化するかを記述する。本開示は、マルチレイヤビデオデータについてのＭＰＥＧ−２システムデータに関する技法について説明する。より詳細には、本開示は、ＭＰＥＧ−２システムデータストリームのマルチレイヤビデオデータを記述するために使用され得る階層拡張記述子について説明する。たとえば、階層拡張記述子は、空間スケーラビリティ、ピーク信号対雑音比（ＰＳＮＲ）スケーラビリティ、クロミナンスビット深度スケーラビリティなど、複数の可能なスケーラビリティ次元のいずれかについてのデータが存在するかどうかを示し得る。デバイスは、多重分離またはサブビットストリーム抽出を正しく実行するためにこのデータを使用し得る。

[0021]本開示はまた、ＭＰＥＧ−２システムの高効率ビデオコーディング（ＨＥＶＣ）ビデオ記述子に対する変更について説明する。特に、これらの技法によれば、ＨＥＶＣビデオ記述子は、ＨＥＶＣ拡張記述子がＨＥＶＣビデオ記述子の一部として存在するかどうかを示すＨＥＶＣ拡張存在シンタックス要素（たとえば、フラグ）を含み得る。ＨＥＶＣ拡張記述子は、ＨＥＶＣビデオデータのための動作点を記述するデータ、たとえば、プロファイル、ティア、およびレベルインジケータ、フレームパッキング情報、時間スケーラビリティ情報、動作点の特定のレイヤが出力の対象とされるのかどうか、ビットレート情報、フレームレート情報を含み得る。

[0022]本開示の技法は、概して、ビデオコーディング規格の拡張（たとえば、ＩＴＵ−ＴＨ．２６５とも呼ばれる、高効率ビデオコーディング（ＨＥＶＣ）規格の拡張）に従ってコーディングされたビデオデータの搬送（たとえば、トランスポート）を対象とする。そのような拡張は、マルチビュー拡張、３次元拡張、および／またはスケーラブル拡張を含み得る。したがって、本開示の技法は、マルチビューＨＥＶＣ（ＭＶ−ＨＥＶＣ）、３次元ＨＥＶＣ（３Ｄ−ＨＥＶＣ）、およびスケーラブルＨＥＶＣ（ＳＨＶＣ）に適用され得る。

[0023]マルチレイヤビデオデータ、たとえば、マルチビュービデオデータおよび／または複数のスケーラブルレイヤをもつビデオデータは、指定された動作点を含み得る。概して、動作点は、マルチレイヤビデオデータのレイヤのフルセットのうちのレイヤ（たとえば、ビュー）のサブセットを記述する。動作点はまた、ターゲット出力レイヤ、すなわち、データが出力されるべきレイヤを識別し得る。いくつかの事例では、レイヤのデータは、参照レイヤとして使用するためだけに動作点中に含まれ得、したがって、そのようなレイヤは、ターゲット出力レイヤと見なされないことがある。

[0024]スケーラブル次元の１つのタイプは時間次元である。たとえば、時間スケーラビリティでは、ビデオデータのセットは、様々なフレームレートまたは再生速度、たとえば、１５フレーム毎秒（ＦＰＳ）、３０ＦＰＳ、６０ＦＰＳ、および１２０ＦＰＳをサポートし得る。所与の時間レベルは、そのレベルと下位のレベルとにあるすべてのピクチャを含み得る。たとえば、前の例を続けると、０の時間レベルは、１５ＦＰＳに対応し得、１の時間レベルは、時間レベル０のピクチャならびに３０ＦＰＳをサポートするために時間レベル１にあるピクチャを含み得、２の時間レベルは、時間レベル０および１のピクチャならびに６０ＦＰＳをサポートするために時間レベル２にあるピクチャを含み得、以下同様である。時間識別子またはＴｅｍｐｏｒａｌＩＤは、特定のピクチャが属する時間レベルを表すようにシグナリングされ得る。

[0025]宛先デバイスは、復号され、最終的にユーザに提示（たとえば、表示）されるべき動作点のうちの１つを選択するために、ビットストリーム中に含まれる動作点記述子を使用し得る。受信時にビューの全部のデータをビデオデコーダに渡すのではなく、宛先デバイスは、選択された動作点のビューのみをビデオデコーダに送り得る。このようにして、宛先デバイスは、復号されないビューのデータを廃棄し得る。宛先デバイスは、ビットストリームの動作点のうち、最高品質をサポートする動作点に基づいておよび／またはネットワーク帯域幅の利用可能な量に基づいて動作点を選択し得る。追加または代替として、中間ネットワークデバイスは、たとえば、帯域幅をより良く利用するために、要求された動作点に対応しないビューについてのデータを破棄し、抽出されたデータを宛先デバイスに転送し得る。

[0026]ビデオデータはまた、プロファイル、レイヤおよびティアによって記述され得る。「プロファイル」は、適用可能なビデオコーディング規格によって指定されるビットストリームシンタックス全体のサブセットである。「レベル」は、たとえば、ピクチャの解像度、ビットレート、およびブロック処理レートに関連するデコーダメモリおよび計算などの、デコーダリソース消費の制限に対応する。

[0027]ビデオコーディング規格は、ＩＴＵ−ＴＨ．２６１と、ＩＳＯ／ＩＥＣＭＰＥＧ−１Ｖｉｓｕａｌと、ＩＴＵ−ＴＨ．２６２またはＩＳＯ／ＩＥＣＭＰＥＧ−２Ｖｉｓｕａｌと、ＩＴＵ−ＴＨ．２６３と、ＩＳＯ／ＩＥＣＭＰＥＧ−４Ｖｉｓｕａｌと、そのスケーラブルビデオコーディング（ＳＶＣ）拡張およびマルチビュービデオコーディング（ＭＶＣ）拡張を含む（ＩＳＯ／ＩＥＣＭＰＥＧ−４ＡＶＣとしても知られる）ＩＴＵ−ＴＨ．２６４とを含む。

[0028]最近、新しいビデオコーディング規格、すなわち高効率ビデオコーディング（ＨＥＶＣ）の設計が、ＩＴＵ−ＴＶｉｄｅｏＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ（ＶＣＥＧ）およびＩＳＯ／ＩＥＣＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）のＪｏｉｎｔＣｏｌｌａｂｏｒａｔｉｏｎＴｅａｍｏｎＶｉｄｅｏＣｏｄｉｎｇ（ＪＣＴ−ＶＣ）によって確定された。以下でＨＥＶＣＷＤと呼ぶ、ＨＥＶＣドラフト仕様が、ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｎｔ−ｅｖｒｙ．ｆｒ／ｊｃｔ／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｄｏｃｕｍｅｎｔｓ／１４＿Ｖｉｅｎｎａ／ｗｇ１１／ＪＣＴＶＣ−Ｎ１００３−ｖ１．ｚｉｐから入手可能である。また、ＨＥＶＣのマルチビュー拡張、すなわちＭＶ−ＨＥＶＣがＪＣＴ−３Ｖによって開発されている。以下でＭＶ−ＨＥＶＣＷＤ５と呼ぶ、ＭＶ−ＨＥＶＣのワーキングドラフト（ＷＤ）は、ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｔ−ｓｕｄｐａｒｉｓ．ｅｕ／ｊｃｔ２／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｄｏｃｕｍｅｎｔｓ／５＿Ｖｉｅｎｎａ／ｗｇ１１／ＪＣＴ３Ｖ−Ｅ１００４−ｖ６．ｚｉｐから入手可能である。ＳＨＶＣと称するＨＥＶＣのスケーラブル拡張も、ＪＣＴ−ＶＣによって開発されている。以下でＳＨＶＣＷＤ３と呼ばれる、ＳＨＶＣの最近のワーキングドラフト（ＷＤ）は、ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｔ−ｓｕｄｐａｒｉｓ．ｅｕ／ｊｃｔ／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｄｏｃｕｍｅｎｔｓ／１４＿Ｖｉｅｎｎａ／ｗｇ１１／ＪＣＴＶＣ−Ｎ１００８−ｖ３．ｚｉｐから入手可能である。

[0029]ＨＥＶＣの範囲拡張のワーキングドラフト（ＷＤ）は、ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｎｔ−ｅｖｒｙ．ｆｒ／ｊｃｔ／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｄｏｃｕｍｅｎｔｓ／１４＿Ｖｉｅｎｎａ／ｗｇ１１／ＪＣＴＶＣ−Ｎ１００５−ｖ３．ｚｉｐから入手可能である。ＨＥＶＣの３Ｄ拡張、すなわち３Ｄ−ＨＥＶＣのワーキングドラフト（ＷＤ）は、ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｎｔ−ｅｖｒｙ．ｆｒ／ｊｃｔ２／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｄｏｃｕｍｅｎｔｓ／５＿Ｖｉｅｎｎａ／ｗｇ１１／ＪＣＴ３Ｖ−Ｅ１００１−ｖ３．ｚｉｐから入手可能である。

[0030]ＭＰＥＧ−２システム（ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔｓＧｒｏｕｐ）技術は、ビデオデータをトランスポートするために採用され得る。ＭＰＥＧ−２システムは、ＭＰＥＧ−２ＴＳと呼ばれることがある。ＭＰＥＧ−２ＴＳの仕様は、ＩＴＵ−ＴＨ．２６４／ＡＶＣ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）およびＡＶＣ拡張のサポートを提供するＩＴＵ−Ｔ勧告Ｈ．２２２．０、２０１２年６月バージョンである。

[0031]最近、ＨＥＶＣについてのＭＰＥＧ−２ＴＳの改正が開発された。ＨＥＶＣについてのＭＰＥＧ−２ＴＳの改正を記載する１つの文献は、２０１３年７月のＭＰＥＧ文献ｗ１３６５６中の「ＴｅｘｔｏｆＩＳＯ／ＩＥＣ１３８１８−１：２０１３／ＦｉｎａｌＤｒａｆｔＡｍｅｎｄｍｅｎｔ３−ＴｒａｎｓｐｏｒｔｏｆＨＥＶＣｖｉｄｅｏｏｖｅｒＭＰＥＧ−２Ｓｙｓｔｅｍｓ」である。

[0032]ＭＰＥＧ−２システム仕様には、デジタル送信または記憶に好適な単一のデータストリームを形成するために、圧縮マルチメディア（ビデオおよびオーディオ）データストリームが他のデータとともにどのように多重化され得るかが記載されている。ＭＰＥＧ−２システムは、プログラム（ｐｒｏｇｒａｍ）（「プログラム（ｐｒｏｇｒａｍｍｅ）」とつづられることもある）の単一の、デジタル的にコーディングされた（場合によってはＭＰＥＧ圧縮された）構成要素であるエレメンタリストリームについて記載する。たとえば、プログラムのコーディングされたビデオまたはオーディオ部分はエレメンタリストリームであり得る。エレメンタリストリームは、第一に、プログラムストリームまたはトランスポートストリームに多重化される前に、パケット化エレメンタリストリーム（ＰＥＳ）に変換される。同じプログラム内では、１つのエレメンタリストリームに属するＰＥＳパケットを別のものと区別するためにｓｔｒｅａｍ＿ｉｄシンタックス要素が使用される。

[0033]プログラムストリームとトランスポートストリームとは、異なるアプリケーションをターゲットにする２つの代替多重化である。プログラムストリームは、デジタルストレージサービスからの単一のプログラムの記憶および表示のためにバイアスされ、プログラムストリームは、誤りが起こりやすいので、誤りのない環境での使用を目的とする。プログラムストリームは、それに属するエレメンタリストリームを含み、通常、可変長のパケットをもつパケットを含んでいる。プログラムストリームでは、寄与しているエレメンタリストリームから導出されたＰＥＳパケットが「パック」に編成される。パックは、パックヘッダと、随意のシステムヘッダと、寄与しているエレメンタリストリームのいずれかから取られる任意の数のＰＥＳパケットとを任意の順序で含む。システムヘッダは、プログラムストリームの最大データレート、寄与しているビデオおよびオーディオエレメンタリストリームの数、さらなるタイミング情報など、プログラムストリームの特性の概要を含んでいる。デコーダは、デコーダがプログラムストリームを復号することが可能であるか否かを決定するために、システムヘッダ中に含まれている情報を使用し得る。

[0034]トランスポートストリームは、潜在的に誤りを起こしやすいチャネルを介したいくつかのプログラムの同時配信を目的とする。それは、単一のトランスポートストリームが多くの独立したプログラムに適応することができるように、ブロードキャストなどのマルチプログラムアプリケーションのために考案された多重化である。

[0035]トランスポートストリームは、トランスポートパケットの連続を含み、トランスポートパケットの各々は、１８８バイトの長さがある。短い、固定長パケットの使用は、トランスポートストリームはプログラムストリームよりも誤りが起こりにくいことを意味する。さらに、各長さ１８８バイトのトランスポートパケットは、リードソロモン符号化などの標準誤り防止プロセスを通してそれを処理することによって追加の誤り保護を容易に与えられる。トランスポートストリームの誤り耐性の改善は、たとえば、ブロードキャスト環境において発見されるべき、誤りを起こしやすいチャネルを克服する可能性がより高いことを意味する。

[0036]トランスポートストリームは、それの誤り耐性の向上と多くの同時プログラムを搬送する能力との点で２つの多重化のうち明らかにより良いものであるように見えることがある。ただし、トランスポートストリームは、プログラムストリームよりもさらに高度な多重化であり、したがって、作成および多重分離を行うのがより困難である。

[0037]トランスポートパケットの最初のバイトは同期バイトであり、０ｘ４７（すなわち、１６進値の４７または０１０００１１１）である。単一のトランスポートストリームは、各々が多くのパケット化エレメンタリストリームを備える多くの異なるプログラムを搬送し得る。１つのエレメンタリストリームのデータを含んでいるトランスポートパケットを、他のエレメンタリストリームのデータを搬送しているものと区別するために、１３ビットパケット識別子（ＰＩＤ）フィールドが使用される。各エレメンタリストリームが一意のＰＩＤ値を与えられることを保証することは、マルチプレクサの責任である。トランスポートパケットの最後のバイトは連続性カウントフィールドである。それは、同じエレメンタリストリームに属する連続するトランスポートパケットの間に増分される。これにより、デコーダが、トランスポートパケットの損失または利得を検出し、そうでない場合そのようなイベントから生じ得る誤りをうまくいけば隠匿することが可能になる。

[0038]トランスポートパケットがどのエレメンタリストリームに属するかをＰＩＤ値が明らかにするが、デコーダはまた、どのエレメンタリストリームがどのプログラムに属するかを決定することが可能でなければならない。プログラム固有情報は、プログラムと構成要素エレメンタリストリームとの関係を明示的に指定するために使用される。プログラム固有情報は、プログラムマップテーブル（ＰＭＴ：program map table）、プログラムストリームマップ（ＰＳＭ：program stream map）、プログラム関連付けテーブル（ＰＡＴ：program association table）、ネットワーク情報テーブル（ＮＩＴ：network information table）、および／または限定アクセステーブル（ＣＡＴ：conditional access table）を含み得る。

[0039]トランスポートストリーム中で搬送されるあらゆるプログラムは、それに関連するプログラムマップテーブルを有する。このテーブルは、プログラムとプログラムを形成するエレメンタリストリームとに関する詳細を与える。たとえば、ＰＩＤ３３をもつビデオと、ＰＩＤ５７をもつ英語のオーディオと、ＰＩＤ６０をもつ中国語のオーディオとを含んでいる、番号３をもつプログラムがあり得る。ＰＭＴが２つ以上のプログラムを含むことが許可される。基本プログラムマップテーブルは、ＭＰＥＧ−２システム仕様内で指定された多くの記述子のうちのいくつかで装飾され得る。記述子は、プログラムまたはそれの構成要素エレメンタリストリームに関するさらなる情報を搬送する。記述子は、たとえば、ビデオ符号化パラメータ、オーディオ符号化パラメータ、言語識別情報、パンアンドスキャン情報、限定アクセス詳細、著作権情報などを含み得る。放送事業者または他のユーザは、必要な場合、追加のプライベート記述子を定義し得る。ビデオに関する構成要素エレメンタリストリーム中には、階層的コード化ビデオ、オーディオ、およびプライベートストリームの構成要素を含んでいるプログラム要素を識別する情報を与える階層記述子もある。

[0040]ＰＳＭは、プログラムストリーム中のエレメンタリストリームと、互いのそれらの関係の説明とを与える。トランスポートストリーム中で搬送されるとき、この構造は、ＭＰＥＧ−２システム仕様に従って変更されないことになる。ＰＳＭは、ｓｔｒｅａｍ＿ｉｄ値が０ｘＢＣ（１６進値ＢＣまたは１０１１１１００）であるときにＰＥＳパケットとして存在する。

[0041]トランスポートストリーム中で利用可能なすべてのプログラムの完全なリストは、プログラム関連付けテーブル中に維持される。このテーブルは、ＰＩＤ値０を常に有するので、容易に発見され得る。各プログラムは、それのプログラムマップテーブルを含んでいるトランスポートパケットのＰＩＤ値とともにリストされる。上述の同じ例を使用して、プログラム番号３のエレメンタリストリームを指定するＰＭＴはＰＩＤ１００１を有し、別のＰＭＴは別のＰＩＤ１００２を有する。情報のこのセットは、ＰＡＴ中に含まれる。

[0042]ＰＡＴ中に指定されるプログラム番号０は特殊な意味を有する。このプログラムは、ネットワーク情報テーブルへの順路をポイントするために使用される。ＮＩＴは、随意である。存在するとき、ＮＩＴは、チャネル周波数、衛星トランスポンダ詳細、変調特性、サービス発信者、サービス名称、および利用可能な代替ネットワークの詳細など、トランスポートストリームを搬送する物理ネットワークに関する情報を与えることを目的とする。

[0043]トランスポートストリーム内のいずれかのエレメンタリストリームがスクランブルされた場合、限定アクセステーブルは、ＭＰＥＧ−２システム仕様に従って存在しなければならない。ＣＡＴは、使用中の（１つまたは複数の）スクランブリングシステムの詳細を与え、限定アクセス管理および資格情報を含んでいるトランスポートパケットのＰＩＤ値を与える。この情報のフォーマットは、ＭＰＥＧ−２システム仕様内で規定されていない。

[0044]ＭＰＥＧ−２ＴＳでは、階層記述子は、異なるエレメンタリストリーム中でサブビットストリームの階層をシグナリングするように設計されている。階層記述子は、階層的コード化ビデオ、オーディオ、およびプライベートストリームの構成要素を含んでいるプログラム要素を識別する情報を与える。ＭＰＥＧ−２システム仕様の表２−４９を以下に再現する。

[0045]ＭＰＥＧ−２システムの表２−４９のシンタックス要素についてのセマンティクスを以下に与える。

[0046]ｔｅｍｐｏｒａｌ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇ−１ビットフラグは、「０」に設定されると、関連するプログラム要素が、ｈｉｅｒａｒｃｈｙ＿ｅｍｂｅｄｄｅｄ＿ｌａｙｅｒ＿ｉｎｄｅｘによって参照されるプログラム要素から生じるビットストリームのフレームレートを拡張することを示す。このフラグの「１」の値は予約済みである。

[0047]ｓｐａｔｉａｌ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇ−１ビットフラグは、「０」に設定されると、関連するプログラム要素が、ｈｉｅｒａｒｃｈｙ＿ｅｍｂｅｄｄｅｄ＿ｌａｙｅｒ＿ｉｎｄｅｘによって参照されるプログラム要素から生じるビットストリームの空間解像度を拡張することを示す。このフラグの「１」の値は予約済みである。

[0048]ｑｕａｌｉｔｙ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇ−１ビットフラグは、「０」に設定されると、関連するプログラム要素が、ｈｉｅｒａｒｃｈｙ＿ｅｍｂｅｄｄｅｄ＿ｌａｙｅｒ＿ｉｎｄｅｘによって参照されるプログラム要素から生じるビットストリームのＳＮＲ品質または忠実度を拡張することを示す。このフラグの「１」の値は予約済みである。

[0049]ｈｉｅｒａｒｃｈｙ＿ｔｙｐｅ−関連する階層レイヤとそれの階層埋め込み済みレイヤの階層関係が表２−５０において定義されている。スケーラビリティが２つ以上の次元に適用される場合、このフィールドは、「８」の値（「合成スケーラビリティ」）に設定されることになり、フラグｔｅｍｐｏｒａｌ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇ、ｓｐａｔｉａｌ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇおよびｑｕａｌｉｔｙ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇはそれに応じて設定されることになる。ＭＶＣビデオサブビットストリームの場合、このフィールドは、「９」の値（「ＭＶＣビデオサブビットストリーム」）に設定されることになり、フラグｔｅｍｐｏｒａｌ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇ、ｓｐａｔｉａｌ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇおよびｑｕａｌｉｔｙ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇは、「１」に設定されることになる。ＭＶＣベースビューサブビットストリームの場合、このフィールドは、「１５」の値に設定されることになり、フラグｔｅｍｐｏｒａｌ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇ、ｓｐａｔｉａｌ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇおよびｑｕａｌｉｔｙ＿ｓｃａｌａｂｉｌｉｔｙ＿ｆｌａｇは、「１」に設定されることになる。

[0050]ｈｉｅｒａｒｃｈｙ＿ｌａｙｅｒ＿ｉｎｄｅｘ−ｈｉｅｒａｒｃｈｙ＿ｌａｙｅｒ＿ｉｎｄｅｘは、コーディングレイヤ階層のテーブルにおいて関連するプログラム要素の一意のインデックスを定義する６ビットフィールドである。インデックスは、シングルプログラム定義内で一意になることになる。Ｒｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０の付属書類Ｇにおいて規定されている１つまたは複数のプロファイルに準拠するＡＶＣビデオストリームのビデオサブビットストリームの場合、これは、同じアクセスユニットのビデオサブビットストリームの関連するＳＶＣ依存性表現がｈｉｅｒａｒｃｈｙ＿ｌａｙｅｒ＿ｉｎｄｅｘの昇順で再アセンブルされた場合にビットストリーム順序が正しくなるように割り当てられるプログラム要素インデックスである。Ｒｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０の付属書類Ｈにおいて規定されている１つまたは複数のプロファイルに準拠するＡＶＣビデオストリームのＭＶＣビデオサブビットストリームの場合、これは、同じアクセスユニットのＭＶＣビデオサブビットストリームの関連するＭＶＣビュー構成要素サブセットがｈｉｅｒａｒｃｈｙ＿ｌａｙｅｒ＿ｉｎｄｅｘの昇順で再アセンブルされた場合にビットストリーム順序が正しくなるように割り当てられるプログラム要素インデックスである。

[0051]ｔｒｅｆ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ−１ビットフラグは、「０」に設定されると、ＴＲＥＦフィールドが関連するエレメンタリストリーム中のＰＥＳパケットヘッダ中に存在し得ることを示す。このフラグの「１」の値は予約済みである。

[0052]ｈｉｅｒａｒｃｈｙ＿ｅｍｂｅｄｄｅｄ＿ｌａｙｅｒ＿ｉｎｄｅｘ−ｈｉｅｒａｒｃｈｙ＿ｅｍｂｅｄｄｅｄ＿ｌａｙｅｒ＿ｉｎｄｅｘは、復号順序でこのｈｉｅｒａｒｃｈｙ＿ｄｅｓｃｒｉｐｔｏｒに関連するエレメンタリストリームの復号の前にアクセスされ、存在する必要があるプログラム要素のｈｉｅｒａｒｃｈｙ＿ｌａｙｅｒ＿ｉｎｄｅｘを定義する６ビットフィールドである。ｈｉｅｒａｒｃｈｙ＿ｔｙｐｅ値が１５である場合、このフィールドは未定義になる。

[0053]ｈｉｅｒａｒｃｈｙ＿ｃｈａｎｎｅｌ−ｈｉｅｒａｒｃｈｙ＿ｃｈａｎｎｅｌは、送信チャネルの順序セットにおいて関連するプログラム要素のための意図されたチャネル番号を示す６ビットフィールドである。最もロバストな送信チャネルは、全体的な送信階層定義に関して、このフィールドの最低値によって定義される。所与のｈｉｅｒａｒｃｈｙ＿ｃｈａｎｎｅｌは、いくつかのプログラム要素に同時に割り当てられ得る。

[0054]ＭＰＥＧ−２システム仕様の表２−５０を以下に再現する。

[0055]ＭＰＥＧ−２ＴＳでは、ＳＶＣ拡張記述子とＭＶＣ拡張記述子との２つの記述子が、それぞれＳＶＣとＭＶＣとのためのサブビットリームの特性をシグナリングするように設計されている。ＳＶＣおよびＭＶＣは、ＩＴＵ−ＴＨ．２６４／ＡＶＣのスケーラブルビデオコーディングおよびマルチビュービデオコーディング拡張である。さらに、ＭＰＥＧ−２ＴＳでは、動作点の特性を記述するＭＶＣ動作点記述子がある。３つの記述子のシンタックスおよびセマンティクスを以下に与える。

[0056]以下の表２−９６に、ＭＰＥＧ−２システムのＳＶＣ拡張記述子のためのシンタックス要素を示す。Ｒｅｃ．ＩＴＵＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０の付属書類Ｇにおいて規定されている１つまたは複数のプロファイルに準拠するＡＶＣビデオストリームのビデオサブビットストリームの場合、表２−９６のＳＶＣ拡張記述子は、（最大）関連するビデオサブビットストリームを再アセンブルすることから生じるＡＶＣビデオストリームに関する情報を与え、関連するビデオサブビットストリームのスケーラビリティおよび再アセンブリに関する情報を与える。Ｒｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０の付属書類Ｇにおいて規定されている１つまたは複数のプロファイルに準拠するＡＶＣビデオストリームのビデオサブビットストリームのいずれかに関連する１つのＳＶＣ拡張記述子があり得る。

[0057]ＭＰＥＧ−２システム仕様による表２−９６のシンタックス要素についてのセマンティクスを以下に与える。

[0058]ｗｉｄｔｈ−この１６ビットフィールドは、再アセンブルされたＡＶＣビデオストリームのピクセル単位での最大画像幅解像度を示す。

[0059]ｈｅｉｇｈｔ−この１６ビットフィールドは、再アセンブルされたＡＶＣビデオストリームのピクセル単位での最大画像高さ解像度を示す。

[0060]ｆｒａｍｅ＿ｒａｔｅ−この１６ビットフィールドは、再アセンブルされたＡＶＣビデオストリームのフレーム／２５６秒単位での最大フレームレートを示す。

[0061]ａｖｅｒａｇｅ＿ｂｉｔｒａｔｅ−この１６ビットフィールドは、再アセンブルされたＡＶＣビデオストリームのキロビット毎秒単位での平均ビットレートを示す。

[0062]ｍａｘｉｍｕｍ＿ｂｉｔｒａｔｅ−この１６ビットフィールドは、再アセンブルされたＡＶＣビデオストリームのキロビット毎秒単位での最大ビットレートを示す。

[0063]ｄｅｐｅｎｄｅｎｃｙ＿ｉｄ−この３ビットフィールドは、ビデオサブビットストリームに関連するｄｅｐｅｎｄｅｎｃｙ＿ｉｄの値を示す。

[0064]ｑｕａｌｉｔｙ＿ｉｄ＿ｓｔａｒｔ−この４ビットフィールドは、関連するビデオサブビットストリーム中に含まれているすべてのネットワークアブストラクションレイヤ（ＮＡＬ）ユニットのＮＡＬユニットヘッダシンタックス要素のｑｕａｌｉｔｙ＿ｉｄの最小値を示す。

[0065]ｑｕａｌｉｔｙ＿ｉｄ＿ｅｎｄ−この４ビットフィールドは、関連するビデオサブビットストリーム中に含まれているすべてのＮＡＬユニットのＮＡＬユニットヘッダシンタックス要素のｑｕａｌｉｔｙ＿ｉｄの最大値を示す。

[0066]ｔｅｍｐｏｒａｌ＿ｉｄ＿ｓｔａｒｔ−この３ビットフィールドは、関連するビデオサブビットストリーム中に含まれているすべてのＮＡＬユニットのＮＡＬユニットヘッダシンタックス要素のｔｅｍｐｏｒａｌ＿ｉｄの最小値を示す。

[0067]ｔｅｍｐｏｒａｌ＿ｉｄ＿ｅｎｄ−この３ビットフィールドは、関連するビデオサブビットストリーム中に含まれているすべてのＮＡＬユニットのＮＡＬユニットヘッダシンタックス要素のｔｅｍｐｏｒａｌ＿ｉｄの最大値を示す。

[0068]ｎｏ＿ｓｅｉ＿ｎａｌ＿ｕｎｉｔ＿ｐｒｅｓｅｎｔ−この１ビットフラグは、「１」に設定されると、ＳＥＩＮＡＬユニットが関連するビデオサブビットストリーム中に存在しないことを示す。ｎｏ＿ｓｅｉ＿ｎａｌ＿ｕｎｉｔ＿ｐｒｅｓｅｎｔフラグが、すべてのＳＶＣビデオサブビットストリームについて「１」に設定され、ＳＶＣのＡＶＣビデオサブビットストリームについて「１」に設定されていないか、または存在しない場合、存在する場合は任意のＳＥＩＮＡＬユニットがＳＶＣのＡＶＣビデオサブビットストリーム中に含まれる。すべてのビデオサブビットストリームについてＳＶＣ拡張記述子がない場合、ＳＥＩＮＡＬユニットは、ＳＶＣビデオサブビットストリームのいずれかのＳＶＣ依存表現中に存在し得、アクセスユニットが再アセンブルする前にＲｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０において規定されているようにアクセスユニット内でＮＡＬユニットの順序に並べ替えることを必要とし得る。

[0069]以下の表２−９７は、ＭＰＥＧ−２システム仕様のＭＶＣ拡張記述子についてのシンタックスを与える。Ｒｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０の付属書類Ｈにおいて規定されている１つまたは複数のプロファイルに準拠するＡＶＣビデオストリームのＭＶＣビデオサブビットストリームの場合、ＭＶＣ拡張記述子は、（最大）関連するＭＶＣビデオサブビットストリームを再アセンブルすることから生じるＡＶＣビデオストリームに関する情報を与え、含まれているＭＶＣビデオサブビットストリームに関する情報と関連するＭＶＣビデオサブビットストリームの再アセンブリについてのと情報を与える。Ｒｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６１０の付属書類Ｈにおいて規定されている１つまたは複数のプロファイルに準拠するＡＶＣビデオストリームの（ｓｔｒｅａｍ＿ｔｙｐｅが０ｘ２０に等しい）ＭＶＣビデオサブビットストリームのいずれかに関連する１つのＭＶＣ拡張記述子があり得る。ＭＶＣビデオサブビットストリームがＭＶＣベースビューサブビットストリームであるとき、ＭＶＣ拡張記述子は、０ｘ１Ｂに等しいｓｔｒｅａｍ＿ｔｙｐｅについて、関連するＰＭＴまたはＰＳＭ中に存在することになる。

[0070]ＭＰＥＧ−２システム仕様による表２−９７のシンタックス要素についてのセマンティクスを以下に与える。

[0071]ａｖｅｒａｇｅ＿ｂｉｔｒａｔｅ−この１６ビットフィールドは、再アセンブルされたＡＶＣビデオストリームのキロビット毎秒単位での平均ビットレートを示す。０に設定されたときに、平均ビットレートは示されない。

[0072]ｍａｘｉｍｕｍ＿ｂｉｔｒａｔｅ−この１６ビットフィールドは、再アセンブルされたＡＶＣビデオストリームのキロビット毎秒単位での最大ビットレートを示す。０に設定されたときに、最大ビットレートは示されない。

[0073]ｖｉｅｗ＿ｏｒｄｅｒ＿ｉｎｄｅｘ＿ｍｉｎ−この１０ビットフィールドは、関連するＭＶＣビデオサブビットストリーム中に含まれているすべてのＮＡＬユニットのビュー順序インデックスの最小値を示す。

[0074]ｖｉｅｗ＿ｏｒｄｅｒ＿ｉｎｄｅｘ＿ｍａｘ−この１０ビットフィールドは、関連するＭＶＣビデオサブビットストリーム中に含まれているすべてのＮＡＬユニットのビュー順序インデックスの最大値を示す。

[0075]ｔｅｍｐｏｒａｌ＿ｉｄ＿ｓｔａｒｔ−この３ビットフィールドは、関連するＭＶＣビデオサブビットストリーム中に含まれているすべてのＮＡＬユニットのＮＡＬユニットヘッダシンタックス要素のｔｅｍｐｏｒａｌ＿ｉｄの最小値を示す。

[0076]ｔｅｍｐｏｒａｌ＿ｉｄ＿ｅｎｄ−この３ビットフィールドは、関連するＭＶＣビデオサブビットストリーム中に含まれているすべてのＮＡＬユニットのＮＡＬユニットヘッダシンタックス要素のｔｅｍｐｏｒａｌ＿ｉｄの最大値を示す。

[0077]ｎｏ＿ｓｅｉ＿ｎａｌ＿ｕｎｉｔ＿ｐｒｅｓｅｎｔ−この１ビットフラグは、「１」に設定されると、ＳＥＩＮＡＬユニットが関連するビデオサブビットストリーム中に存在しないことを示す。ｎｏ＿ｓｅｉ＿ｎａｌ＿ｕｎｉｔ＿ｐｒｅｓｅｎｔフラグが、すべてのＭＶＣビデオサブビットストリームについて「１」に設定され、ＭＶＣのＡＶＣビデオサブビットストリームについて「１」に設定されていないか、または存在しない場合、存在する場合、任意のＳＥＩＮＡＬユニットがＭＶＣのＡＶＣビデオサブビットストリーム中に含まれる。すべてのＭＶＣビデオサブビットストリームについてＭＶＣ拡張記述子がない場合、ＳＥＩＮＡＬユニットは、ＭＶＣビデオサブビットストリームのいずれかのＭＶＣビュー構成要素サブセット中に存在し得、アクセスユニットが再アセンブルする前にＲｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０において規定されているようにアクセスユニット内でＮＡＬユニットの順序に並べ替えることを必要とし得る。

[0078]ｎｏ＿ｐｒｅｆｉｘ＿ｎａｌ＿ｕｎｉｔ＿ｐｒｅｓｅｎｔ−この１ビットフラグは、「１」に設定されると、プレフィックスＮＡＬユニットがＭＶＣのＡＶＣビデオサブビットストリームまたはＭＶＣビデオサブビットストリームのいずれかの中に存在しないことを示す。このビットが「０」に設定されると、プレフィックスＮＡＬユニットがＭＶＣのＡＶＣビデオサブビットストリーム中にのみ存在することを示す。

[0079]以下の表２−１００は、ＭＰＥＧ−２システム仕様のＭＶＣ動作点記述子についてのシンタックスを与える。ＭＶＣ動作点記述子（表２−１００を参照）は、各々が１つまたは複数のＭＶＣビデオサブビットストリームのセットによって構成される１つまたは複数の動作点のためのプロファイルおよびレベルを示す方法を与える。存在する場合、ＭＶＣ動作点記述子は、ｐｒｏｇｒａｍ＿ｍａｐ＿ｓｅｃｔｉｏｎ中のｐｒｏｇｒａｍ＿ｉｎｆｏ＿ｌｅｎｇｔｈフィールドの直後のデータ要素のグループ中に含まれることになる。ＭＶＣ動作点記述子がプログラム記述内に存在する場合、同じプログラム中に存在するＭＶＣビデオサブビットストリームごとに少なくとも１つの階層記述子が存在することになる。ＭＰＥＧ−２システム仕様によれば、異なるプロファイルを示すために、プロファイルごとに１つのＭＶＣ動作点記述子が使用される。

[0080]ＭＰＥＧ−２システム仕様による表２−１００のシンタックス要素についてのセマンティクスを以下に与える。

[0081]ｐｒｏｆｉｌｅ＿ｉｄｃ−この８ビットフィールドは、Ｒｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０において規定されているように、ＭＶＣビットストリームについてこの記述子内で記述されるすべての動作点のプロファイルを示す。

[0082]ｃｏｎｓｔｒａｉｎｔ＿ｓｅｔ０＿ｆｌａｇ、ｃｏｎｓｔｒａｉｎｔ＿ｓｅｔ１＿ｆｌａｇ、ｃｏｎｓｔｒａｉｎｔ＿ｓｅｔ２＿ｆｌａｇ、ｃｏｎｓｔｒａｉｎｔ＿ｓｅｔ３＿ｆｌａｇ、ｃｏｎｓｔｒａｉｎｔ＿ｓｅｔ４＿ｆｌａｇ、ｃｏｎｓｔｒａｉｎｔ＿ｓｅｔ５＿ｆｌａｇ−これらのフィールドは、Ｒｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０において規定されているこれらのフィールドについてのセマンティクスに従ってコーディングされることになる。

[0083]ＡＶＣ＿ｃｏｍｐａｔｉｂｌｅ＿ｆｌａｇｓ−ＡＶＣ＿ｃｏｍｐａｔｉｂｌｅ＿ｆｌａｇｓのセマンティクスは、Ｒｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０において規定されているように、シーケンスパラメータセット中のｃｏｎｓｔｒａｉｎｔ＿ｓｅｔ２フラグとｌｅｖｅｌ＿ｉｄｃフィールドとの間の２ビットに対して定義されるフィールドのセマンティクスに正確に等しくなる。

[0084]ｌｅｖｅｌ＿ｃｏｕｎｔ−この８ビットフィールドは、動作点が記述されるレベルの数を示す。

[0085]ｌｅｖｅｌ＿ｉｄｃ−この８ビットフィールドは、Ｒｅｃ．ＩＴＵ−ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０において規定されているように、データ要素の以下のグループによって記述される動作点のためのＭＶＣビットストリームのレベルを示す。

[0086]ｏｐｅｒａｔｉｏｎ＿ｐｏｉｎｔｓ＿ｃｏｕｎｔ−この８ビットフィールドは、データ要素の以下のグループ中に含まれるリストによって記述される動作点の数を示す。

[0087]ａｐｐｌｉｃａｂｌｅ＿ｔｅｍｐｏｒａｌ＿ｉｄ−この３ビットフィールドは、再アセンブルされたＡＶＣビデオストリーム中のＶＣＬＮＡＬユニットのｔｅｍｐｏｒａｌ＿ｉｄの最高値を示す。

[0088]ｎｕｍ＿ｔａｒｇｅｔ＿ｏｕｔｐｕｔ＿ｖｉｅｗｓ−この８ビットフィールドは、関連する動作点のための出力の対象とされるビューの数の値を示す。

[0089]ＥＳ＿ｃｏｕｎｔ−この８ビットフィールドは、データ要素の以下のグループ中に含まれるＥＳ＿ｒｅｆｅｒｅｎｃｅ値の数を示す。データ要素の以下のグループ中で示されるエレメンタリストリームは一緒に、ＭＶＣビデオビットストリームの動作点を形成する。値０ｘｆｆは予約済みである。

[0090]ＥＳ＿ｒｅｆｅｒｅｎｃｅ−この６ビットフィールドは、ビデオサブビットストリームを識別する階層記述子中に存在する階層レイヤインデックス値を示す。単一の動作点のためのプロファイルおよびレベル、たとえば、ＭＶＣビデオビットストリーム全体は、ＡＶＣビデオ記述子を使用してシグナリングされ得る。その上、ＭＶＣは、異なるプロファイルおよび／またはレベルを必要とすることができる異なるビューサブセットを復号することを可能にする。ＭＶＣ動作点記述子の仕様は、複数の動作点のための異なるプロファイルおよびレベルの指示をサポートする。

[0091]以下の表Ｘ−１は、ＭＰＥＧ−２システム仕様によるＨＥＶＣビデオ記述子についてのシンタックスを与える。ＨＥＶＣビデオストリームの場合、ＨＥＶＣビデオ記述子は、そのＨＥＶＣビデオストリームの、プロファイルおよびレベルパラメータなどのコーディングパラメータを識別するための基本情報を与える。ＨＥＶＣ時間ビデオサブビットストリームまたはＨＥＶＣ時間ビデオサブセットの場合、ＨＥＶＣビデオ記述子は、それが適用されるエレメンタリストリーム中に含まれている関連するＨＥＶＣ最高時間サブレイヤ表現などの情報を与える。

[0092]ＭＰＥＧ−２システム仕様による表Ｘ−１のシンタックス要素についてのセマンティクスを以下に与える。

[0093]ｐｒｏｆｉｌｅ＿ｓｐａｃｅ、ｔｉｅｒ＿ｆｌａｇ、ｐｒｏｆｉｌｅ＿ｉｄｃ、ｐｒｏｆｉｌｅ＿ｃｏｍｐａｔｉｂｉｌｉｔｙ＿ｉｎｄｉｃａｔｉｏｎ、ｐｒｏｇｒｅｓｓｉｖｅ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｉｎｔｅｒｌａｃｅｄ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｎｏｎ＿ｐａｃｋｅｄ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｆｒａｍｅ＿ｏｎｌｙ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿４４ｂｉｔｓ、ｌｅｖｅｌ＿ｉｄｃ−ＨＥＶＣビデオ記述子が、ＨＥＶＣビデオストリームまたはＨＥＶＣ完全時間表現に適用されるとき、これらのフィールドは、対応するＨＥＶＣビデオストリームまたはＨＥＶＣ完全時間表現について、それぞれ、ｇｅｎｅｒａｌ＿ｐｒｏｆｉｌｅ＿ｓｐａｃｅ、ｇｅｎｅｒａｌ＿ｔｉｅｒ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｐｒｏｆｉｌｅ＿ｉｄｃ、ｇｅｎｅｒａｌ＿ｐｒｏｆｉｌｅ＿ｃｏｍｐａｔｉｂｉｌｉｔｙ＿ｆｌａｇ［ｉ］、ｇｅｎｅｒａｌ＿ｐｒｏｇｒｅｓｓｉｖｅ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｉｎｔｅｒｌａｃｅｄ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｎｏｎ＿ｐａｃｋｅｄ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｆｒａｍｅ＿ｏｎｌｙ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿４４ｂｉｔｓ、ｇｅｎｅｒａｌ＿ｌｅｖｅｌ＿ｉｄｃについてＲｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において規定されているセマンティクスに従ってコーディングされたることになり、ＨＥＶＣビデオ記述子が関連付けられるＨＥＶＣビデオストリームまたはＨＥＶＣ完全時間表現全体は、これらのフィールドによってシグナリングされる情報に準拠することになる。

[0094]ＨＥＶＣビデオ記述子は、対応するＨＥＶＣ最高時間サブレイヤ表現がＨＥＶＣ完全時間表現でないＨＥＶＣ時間ビデオサブビットストリームまたはＨＥＶＣ時間ビデオサブセットに適用されるとき、これらのフィールドは、対応するＨＥＶＣ最高時間サブレイヤ表現について、それぞれ、ｓｕｂ＿ｌａｙｅｒ＿ｐｒｏｆｉｌｅ＿ｓｐａｃｅ、ｓｕｂ＿ｌａｙｅｒ＿ｔｉｅｒ＿ｆｌａｇ、ｓｕｂ＿ｌａｙｅｒ＿ｐｒｏｆｉｌｅ＿ｉｄｃ、ｓｕｂ＿ｌａｙｅｒ＿ｐｒｏｆｉｌｅ＿ｃｏｍｐａｔｉｂｉｌｉｔｙ＿ｆｌａｇ［ｉ］、ｓｕｂ＿ｌａｙｅｒ＿ｐｒｏｇｒｅｓｓｉｖｅ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｓｕｂ＿ｌａｙｅｒ＿ｉｎｔｅｒｌａｃｅｄ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｓｕｂ＿ｌａｙｅｒ＿ｎｏｎ＿ｐａｃｋｅｄ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｓｕｂ＿ｌａｙｅｒ＿ｆｒａｍｅ＿ｏｎｌｙ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｓｕｂ＿ｌａｙｅｒ＿ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿４４ｂｉｔｓ、ｓｕｂ＿ｌａｙｅｒ＿ｌｅｖｅｌ＿ｉｄｃについてＲｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において規定セマンティクスに従ってコーディングされることになり、ＨＥＶＣビデオ記述子が関連付けられるＨＥＶＣ最高時間サブレイヤ表現全体は、これらのフィールドによってシグナリングされる情報に準拠することになる。

[0095]ＨＥＶＣビデオストリーム中の１つまたは複数のシーケンスにおいて、レベルは、ＨＥＶＣビデオ記述子中でシグナリングされるレベルよりも低くなり得、一方、ＨＥＶＣビデオ記述子中でシグナリングされるプロファイルのサブセットであるプロファイルも生じ得る。ただし、ＨＥＶＣビデオストリーム全体において、存在する場合、ＨＥＶＣビデオ記述子中でシグナリングされるプロファイル中に含まれる、ビットストリームシンタックス全体のサブセットのみが使用されることになる。ＨＥＶＣビデオストリーム中のシーケンスパラメータセットが異なるプロファイルをシグナリンスし、追加の制約がシグナリングされない場合、ストリームは、ストリーム全体が、もしあれば、どのプロファイルに準拠するかを決定する審査を必要とし得る。ＨＥＶＣビデオ記述子が、単一のプロファイルに準拠しないＨＥＶＣビデオストリームに関連付けられるべきである場合、ＨＥＶＣビデオストリームは、２つ以上のサブストリームに区分されるべきであり、したがって、ＨＥＶＣビデオ記述子は、そのようなサブストリームごとに単一のプロファイルをシグナリングすることができる。

[0096]ｔｅｍｐｏｒａｌ＿ｌａｙｅｒ＿ｓｕｂｓｅｔ＿ｆｌａｇ−この１ビットフラグは、「１」に設定されると、時間レイヤのサブセットを記述するシンタックス要素がこの記述子中に含まれることを示す。このフィールドは、ＨＥＶＣ時間ビデオサブセットについて、およびＨＥＶＣ時間ビデオサブビットストリームについて１に設定されることになる。「０」に設定されると、シンタックス要素ｔｅｍｐｏｒａｌ＿ｉｄ＿ｍｉｎおよびｔｅｍｐｏｒａｌ＿ｉｄ＿ｍａｘは、この記述子中に含まれない。

[0097]ＨＥＶＣ＿ｓｔｉｌｌ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ−この１ビットフィールドは、「１」に設定されると、ＨＥＶＣビデオストリームまたはＨＥＶＣ最高時間サブレイヤ表現がＨＥＶＣ静止ピクチャを含み得ることを示す。「０」に設定されると、関連するＨＥＶＣビデオストリームはＨＥＶＣ静止ピクチャを含んでいないことになる。Ｒｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２によれば、ＩＤＲピクチャが常に０に等しいＴｅｍｐｏｒａｌＩｄ値に関連付けられ、したがって、ＨＥＶＣビデオ記述子が、ＨＥＶＣ時間ビデオサブセットに適用される場合、ＨＥＶＣ静止ピクチャは、関連するＨＥＶＣ時間ビデオサブビットストリーム中にのみ存在することができる。

[0098]ＨＥＶＣ＿２４＿ｈｏｕｒ＿ｐｉｃｔｕｒｅ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ−この１ビットフラグは、「１」に設定されると、関連するＨＥＶＣビデオストリームまたはＨＥＶＣ最高時間サブレイヤ表現がＨＥＶＣ２４時間ピクチャを含み得ることを示す。ＨＥＶＣ２４時間ピクチャの定義については、２．１．９７を参照されたい。このフラグが「０」に設定される場合、関連するＨＥＶＣビデオストリームは、いかなるＨＥＶＣ２４時間ピクチャをも含んでいないことになる。

[0099]ｔｅｍｐｏｒａｌ＿ｉｄ＿ｍｉｎ−この３ビットフィールドは、関連するエレメンタリストリーム中のすべてのＨＥＶＣアクセスユニットの、Ｒｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において規定されているＴｅｍｐｏｒａｌＩｄの最小値を示す。

[0100]ｔｅｍｐｏｒａｌ＿ｉｄ＿ｍａｘ−この３ビットフィールドは、関連するエレメンタリストリーム中のすべてのＨＥＶＣアクセスユニットの、Ｒｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において規定されているＴｅｍｐｏｒａｌＩｄの最大値を示す。

[0101]本開示は、ＨＥＶＣ規格の拡張に従って符号化されたビデオデータをトランスポートしようと試みるときに遭遇し得るいくつかの問題を認識する。すなわち、ＭＰＥＧ−２システム仕様におけるＨＥＶＣ拡張ビットストリームのサポートがない。階層記述子は直線的にレイヤを拡張するために使用され得、１つのレイヤが１つの直接依存レイヤしか有することができないことを意味する。しかしながら、現在、ＭＰＥＧ−２システムにおいて複数の直接依存レイヤをシグナリングする方法はない。さらに、ｈｉｅｒａｒｃｈｙ＿ｔｙｐｅによってシグナリングされるスケーラビリティのタイプは制限され、現在の設計は十分に一般的でない。さらに、ＭＶＣ拡張記述子、ＳＶＣ拡張記述子およびＭＶＣ動作点記述子は、系統的に設計されておらず、ＨＥＶＣまたはＨ．２６４／ＡＶＣの先の他のビデオコーディング規格の拡張にとって意味がないことがある。

[0102]図１は、ビデオコーディング規格の拡張に従ってコーディングされたビデオデータをトランスポートするための技法を利用し得る例示的なビデオ符号化および復号システム１０を示すブロック図である。図１に示すように、システム１０は、宛先デバイス１４によって後で復号されるべき符号化ビデオデータを提供するソースデバイス１２を含む。特に、ソースデバイス１２は、コンピュータ可読媒体１６を介してビデオデータを宛先デバイス１４に提供する。ソースデバイス１２および宛先デバイス１４は、デスクトップコンピュータ、ノートブック（すなわち、ラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、いわゆる「スマート」フォンなどの電話ハンドセット、タブレット、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイスなどを含む、広範囲にわたるデバイスのいずれかを備え得る。場合によっては、ソースデバイス１２および宛先デバイス１４は、ワイヤレス通信に対する機能を備え得る。

[0103]宛先デバイス１４は、コンピュータ可読媒体１６を介して、復号されるべき符号化ビデオデータを受信し得る。コンピュータ可読媒体１６は、符号化ビデオデータをソースデバイス１２から宛先デバイス１４に移動することが可能な、任意のタイプの媒体またはデバイスを備え得る。一例では、コンピュータ可読媒体１６は、ソースデバイス１２が符号化ビデオデータを宛先デバイス１４にリアルタイムで直接送信するのを可能にするための通信媒体を備え得る。符号化ビデオデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、宛先デバイス１４に送信され得る。通信媒体は、無線周波（ＲＦ）スペクトルあるいは１つもしくは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなどのパケットベースのネットワークの一部を形成し得る。通信媒体は、ソースデバイス１２から宛先デバイス１４への通信を容易にするために有用であり得る、ルータ、スイッチ、基地局、または任意の他の機器を含み得る。

[0104]いくつかの例では、符号化データは、出力インターフェース２２からストレージデバイスへ出力され得る。同様に、符号化データは、ストレージデバイスから入力インターフェースによってアクセスされ得る。ストレージデバイスは、ハードドライブ、Ｂｌｕｅ−ｒａｙディスク、ＤＶＤ、ＣＤ−ＲＯＭ、フラッシュメモリ、揮発性もしくは不揮発性のメモリ、または符号化ビデオデータを記憶するための任意の他の適切なデジタル記憶媒体など、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のいずれをも含み得る。さらなる例では、ストレージデバイスは、ソースデバイス１２によって生成された符号化ビデオを記憶することができるファイルサーバまたは別の中間ストレージデバイスに対応し得る。宛先デバイス１４は、ストリーミングまたはダウンロードを介して、ストレージデバイスから記憶されたビデオデータにアクセスし得る。ファイルサーバは、符号化ビデオデータを記憶し、その符号化ビデオデータを宛先デバイス１４に送信することが可能な任意のタイプのサーバであり得る。例示的なファイルサーバは、（たとえば、ウェブサイト用の）ウェブサーバ、ＦＴＰサーバ、ネットワークアタッチドストレージ（ＮＡＳ）デバイス、またはローカルディスクドライブを含む。宛先デバイス１４は、インターネット接続を含む任意の標準的なデータ接続を通じて、符号化ビデオデータにアクセスし得る。これは、ワイヤレスチャネル（たとえば、Ｗｉ−Ｆｉ（登録商標）接続）、ワイヤード接続（たとえば、ＤＳＬ、ケーブルモデムなど）、または、ファイルサーバに記憶された符号化ビデオデータにアクセスするのに適した、両方の組合せを含み得る。ストレージデバイスからの符号化ビデオデータの送信は、ストリーミング送信、ダウンロード送信、またはそれらの組合せであり得る。

[0105]本開示の技法は、ワイヤレスの適用例または設定に必ずしも限定されるとは限らない。本技法は、無線テレビジョンブロードキャスト、ケーブルテレビジョン送信、衛星テレビジョン送信、ＨＴＴＰ上の動的適応ストリーミング（ＤＡＳＨ：dynamic adaptive streaming over HTTP）などのインターネットストリーミングビデオ送信、データ記憶媒体上に符号化されたデジタルビデオ、データ記憶媒体上に記憶されたデジタルビデオの復号、または他の応用例など、様々なマルチメディア応用のいずれかをサポートするビデオコーディングに適用され得る。いくつかの例では、システム１０は、ビデオストリーミング、ビデオ再生、ビデオブロードキャスト、および／もしくはビデオ電話などの応用をサポートするために一方向または両方向のビデオ送信をサポートするように構成され得る。

[0106]図１の例では、ソースデバイス１２は、ビデオソース１８と、ビデオエンコーダ２０と、マルチプレクサ２１と、出力インターフェース２２とを含む。宛先デバイス１４は、入力インターフェース２８と、デマルチプレクサ２９と、ビデオデコーダ３０と、ディスプレイデバイス３２とを含む。本開示によれば、ソースデバイス１２のマルチプレクサ２１は、ビデオコーディング規格の拡張に従ってコーディングされたビデオデータをトランスポートするための技法を適用するように構成され得、一方、デマルチプレクサ２９は、処理のためにそのようなデータを受信し、処理されたビデオデータを、たとえば、ビデオデコーダ３０に転送し得る。他の例では、ソースデバイスおよび宛先デバイスは、他の構成要素または構成を含み得る。たとえば、ソースデバイス１２は、外部カメラなどの外部のビデオソース１８からビデオデータを受信し得る。同様に、宛先デバイス１４は、内蔵ディスプレイデバイスを含むのではなく、外部ディスプレイデバイスとインターフェースし得る。

[0107]図１の図示のシステム１０は一例にすぎない。ビデオコーディング規格の拡張に従ってコーディングされたビデオデータをトランスポートするための技法は、任意のデジタルビデオ符号化および／または復号デバイスによって実行され得る。一般に、本開示の技法は、ビデオ符号化デバイスによって実行されるが、これらの技法は、通常は「コーデック」と呼ばれるビデオエンコーダ／デコーダによっても実行され得る。その上、本開示の技法は、ビデオプリプロセッサによっても実行され得る。ソースデバイス１２および宛先デバイス１４は、ソースデバイス１２が、宛先デバイス１４に送信するためのコーディングされたビデオデータを生成するコーディングデバイスの例にすぎない。いくつかの例では、デバイス１２、１４は、デバイス１２、１４の各々がビデオ符号化構成要素と復号構成要素とを含むように、実質的に対称的な方式で動作し得る。したがって、システム１０は、たとえば、ビデオストリーミング、ビデオ再生、ビデオ放送、もしくはビデオ電話のためのビデオデバイス１２とビデオデバイス１４の間の一方向または双方向のビデオ送信をサポートし得る。

[0108]ソースデバイス１２のビデオソース１８は、ビデオカメラなどのビデオキャプチャデバイス、前にキャプチャされたビデオを含んでいるビデオアーカイブ、および／またはビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェースを含み得る。さらなる代わりとして、ビデオソース１８は、ソースビデオとしてコンピュータグラフィックスベースのデータ、または、ライブビデオ、アーカイブされたビデオ、およびコンピュータ生成のビデオの組合せを生成し得る。場合によっては、ビデオソース１８がビデオカメラである場合、ソースデバイス１２および宛先デバイス１４は、いわゆるカメラ付き電話またはビデオ付き電話を形成し得る。しかしながら、上記で述べたように、本開示で説明する技法は、一般にビデオコーディングに適用可能であり、ワイヤレスおよび／またはワイヤード用途に適用され得る。各場合において、キャプチャされたビデオ、以前にキャプチャされたビデオ、またはコンピュータ生成ビデオは、ビデオエンコーダ２０によって符号化され得る。次いで、符号化ビデオ情報は、出力インターフェース２２によってコンピュータ可読媒体１６に出力され得る。

[0109]コンピュータ可読媒体１６は、ワイヤレスブロードキャストまたはワイヤードネットワーク送信などの一時媒体、あるいはハードディスク、フラッシュドライブ、コンパクトディスク、デジタルビデオディスク、Ｂｌｕ−ｒａｙ（登録商標）ディスク、または他のコンピュータ可読媒体などの記憶媒体（すなわち、非一時的記憶媒体）を含み得る。いくつかの例では、ネットワークサーバ（図示せず）は、ソースデバイス１２から符号化ビデオデータを受信し、たとえば、ネットワーク送信を介して、その符号化ビデオデータを宛先デバイス１４に与え得る。同様に、ディスクスタンピング設備など、媒体製造設備のコンピューティングデバイスは、ソースデバイス１２から符号化ビデオデータを受信し、その符号化ビデオデータを含んでいるディスクを生成し得る。したがって、コンピュータ可読媒体１６は、様々な例において、様々な形態の１つまたは複数のコンピュータ可読媒体を含むことが理解されよう。

[0110]宛先デバイス１４の入力インターフェース２８は、コンピュータ可読媒体１６から情報を受信する。コンピュータ可読媒体１６の情報は、ビデオエンコーダ２０によって定義されビデオデコーダ３０によっても使用される、ブロックおよび他のコード化ユニット、たとえば、ピクチャグループ（ＧＯＰ）の特性および／または処理を記述するシンタックス要素を含む、シンタックス情報を含み得る。ディスプレイデバイス３２は、ユーザに復号ビデオデータを表示し、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなど、様々なディスプレイデバイスのいずれかを備え得る。

[0111]ビデオエンコーダ２０およびビデオデコーダ３０は、高効率ビデオコーディング（ＨＥＶＣ）規格などのビデオコーディング規格に従って動作し得、ＨＥＶＣテストモデル（ＨＭ）に準拠し得る。代替的に、ビデオエンコーダ２０およびビデオデコーダ３０は、代替的にＭＰＥＧ−４，Ｐａｒｔ１０，アドバンストビデオコーディング（ＡＶＣ）と呼ばれるＩＴＵ−ＴＨ．２６４規格など、他のプロプライエタリ規格または業界規格、またはそのような規格の拡張に従って動作し得る。ただし、本開示の技法は、いかなる特定のコーディング規格にも限定されない。ビデオコーディング規格の他の例としては、ＭＰＥＧ−２およびＩＴＵ−ＴＨ．２６３がある。

[0112]ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４（ＡＶＣ）規格は、ジョイントビデオチーム（ＪＶＴ）として知られる共同パートナーシップの成果として、ＩＳＯ／ＩＥＣムービングピクチャエキスパートグループ（ＭＰＥＧ）とともにＩＴＵ−Ｔビデオコーディングエキスパートグループ（ＶＣＥＧ）によって策定された。いくつかの態様では、本開示で説明する技法は、Ｈ．２６４規格に概して準拠するデバイスに適用され得る。Ｈ．２６４規格は、ＩＴＵ−ＴＳｔｕｄｙＧｒｏｕｐによる２００５年３月付のＩＴＵ−Ｔ勧告Ｈ．２６４、ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇｆｏｒｇｅｎｅｒｉｃａｕｄｉｏｖｉｓｕａｌｓｅｒｖｉｃｅｓに記載されており、本明細書ではＨ．２６４規格もしくはＨ．２６４仕様、またはＨ．２６４／ＡＶＣ規格もしくは仕様と呼ばれることがある。ジョイントビデオチーム（ＪＶＴ）は、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣへの拡張に取り組み続けている。

[0113]ビデオエンコーダ２０およびビデオデコーダ３０は、それぞれ、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアまたはそれらの任意の組合せなど、様々な好適なエンコーダ回路のいずれかとして実装され得る。本技法がソフトウェアで部分的に実装されるとき、デバイスは、好適な非一時的コンピュータ可読媒体にソフトウェアのための命令を記憶し、本開示の技法を実行するために１つまたは複数のプロセッサを使用してハードウェアで命令を実行し得る。ビデオエンコーダ２０およびビデオデコーダ３０の各々は、１つもしくは複数のエンコーダまたはデコーダの中に含まれ得、そのいずれかが、それぞれのデバイスにおいて複合エンコーダ／デコーダ（コーデック）の一部として統合され得る。

[0114]ＪＣＴ−ＶＣは、ＨＥＶＣ規格の開発に取り組んでいる。ＨＥＶＣ規格化の取り組みは、ＨＥＶＣテストモデル（ＨＭ）と呼ばれるビデオコーディングデバイスの発展的モデルに基づく。ＨＭは、たとえば、ＩＴＵ−ＴＨ．２６４／ＡＶＣに従う既存のデバイスに対してビデオコーディングデバイスのいくつかの追加の機能を仮定する。たとえば、Ｈ．２６４は、９つのイントラ予測符号化モードを提供するが、ＨＭは、３３ものイントラ予測符号化モードを提供し得る。

[0115]概して、ＨＭの作業モデルは、ビデオフレームまたはピクチャが、ルーマサンプルとクロマサンプルの両方を含む一連のツリーブロックまたは（「コーディングツリーユニット」とも呼ばれる）最大コーディングユニット（ＬＣＵ）に分割され得ることを記述する。ビットストリーム内のシンタックスデータは、ピクセルの数の点で最大のコーディングユニットであるＬＣＵにとってのサイズを定義し得る。スライスは、コーディング順序でいくつかの連続するツリーブロックを含む。ビデオフレームまたはピクチャは、１つまたは複数のスライスに区分され得る。各ツリーブロックは、４分木に従って、コーディングユニット（ＣＵ）に分割され得る。概して、４分木データ構造はＣＵごとに１つのノードを含み、ルートノードはツリーブロックに対応する。ＣＵが４つのサブＣＵに分割される場合、ＣＵに対応するノードは４つのリーフノードを含み、その各々はサブＣＵのうちの１つに対応する。

[0116]４分木データ構造の各ノードは、対応するＣＵのためのシンタックスデータを与え得る。たとえば、４分木中のノードは、そのノードに対応するＣＵがサブＣＵに分割されるかどうかを示すスプリットフラグを含み得る。ＣＵのためのシンタックス要素は、再帰的に定義され得、ＣＵがサブＣＵに分割されるかどうかに依存し得る。ＣＵがさらに分割されない場合、そのＣＵはリーフＣＵと呼ばれる。本開示では、元のリーフＣＵの明示的分割が存在しない場合でも、リーフＣＵの４つのサブＣＵはリーフＣＵとも呼ばれる。たとえば、１６×１６サイズのＣＵがさらに分割されない場合、この１６×１６ＣＵが決して分割されなくても、４つの８×８サブＣＵをリーフＣＵとも呼ぶ。

[0117]ＣＵは、ＣＵがサイズ差異を有しないことを除いて、Ｈ．２６４規格のマクロブロックと同様の目的を有する。たとえば、ツリーブロックは、（サブＣＵとも呼ばれる）４つの子ノードに分割され得、各子ノードは、今度は親ノードとなり、別の４つの子ノードに分割され得る。４分木のリーフノードと呼ばれる、最後の分割されていない子ノードは、リーフＣＵとも呼ばれるコーディングノードを備える。コーディングされたビットストリームに関連するシンタックスデータは、最大ＣＵ深度と呼ばれる、ツリーブロックが分割され得る最大回数を定義し得、また、コーディングノードの最小サイズを定義し得る。したがって、ビットストリームはまた、最小コーディングユニット（ＳＣＵ：smallest coding unit）を定義し得る。本開示は、「ブロック」という用語を、ＨＥＶＣのコンテキストにおいてＣＵ、ＰＵ、またはＴＵのうちのいずれか、または他の規格のコンテキストにおいて類似のデータ構造（たとえば、Ｈ．２６４／ＡＶＣのマクロブロックおよびそのサブブロック）を参照するために使用する。

[0118]ＣＵは、コーディングノードと、コーディングノードに関連付けられた予測ユニット（ＰＵ）および変換ユニット（ＴＵ）とを含む。ＣＵのサイズは、コーディングノードのサイズに対応し、形状が正方形でなければならない。ＣＵのサイズは、８×８ピクセルから最大６４×６４ピクセル以上をもつツリーブロックのサイズにまでわたり得る。各ＣＵは、１つまたは複数のＰＵと、１つまたは複数のＴＵとを含み得る。ＣＵに関連するシンタックスデータは、たとえば、ＣＵの１つまたは複数のＰＵへの区分を記述し得る。区分モードは、ＣＵがスキップであるのか、または直接モード符号化されるのか、イントラ予測モード符号化されるのか、またはインター予測モード符号化されるのかの間で異なり得る。ＰＵは、形状が非正方形に区分され得る。ＣＵに関連するシンタックスデータはまた、たとえば、４分木に従うＣＵの１つまたは複数のＴＵへの区分を記述し得る。ＴＵは、形状が正方形または非正方形（たとえば、矩形）であり得る。

[0119]ＨＥＶＣ規格は、ＣＵごとに異なり得る、ＴＵに従う変換を可能にする。ＴＵは、通常、区分されたＬＣＵのために定義された、所与のＣＵ内のＰＵのサイズに基づいてサイズ決定されるが、これは常にそうであるとは限らない。ＴＵは、一般に、ＰＵと同じサイズであるか、またはＰＵよりも小さい。いくつかの例では、ＣＵに対応する残差サンプルは、「残差４分木」（ＲＱＴ：residual quad tree）と呼ばれる４分木構造を使用して、より小さいユニットに再分割され得る。ＲＱＴのリーフノードは変換ユニット（ＴＵ）と呼ばれ得る。ＴＵに関連するピクセル差分値は、変換係数を生成するために変換され、その変換係数は量子化され得る。

[0120]リーフＣＵは、１つまたは複数の予測ユニット（ＰＵ）を含み得る。概して、ＰＵは、対応するＣＵのすべてまたは一部分に対応する空間エリアを表し、そのＰＵの参照サンプルを取り出すためのデータを含み得る。その上、ＰＵは、予測に関係するデータを含む。たとえば、ＰＵがイントラモードで符号化されるとき、ＰＵに関するデータは、残差４分木（ＲＱＴ）に含まれ、残差４分木は、ＰＵに対応するＴＵに関するイントラ予測モードを記述するデータを含め得る。別の例として、ＰＵがインターモードで符号化されるとき、ＰＵは、ＰＵのための１つまたは複数の動きベクトルを定義するデータを含み得る。ＰＵのための動きベクトルを定義するデータは、たとえば、動きベクトルの水平成分、動きベクトルの垂直成分、動きベクトルに関する解像度（たとえば、１／４ピクセル精度または１／８ピクセル精度）、動きベクトルが指す参照ピクチャ、および／または動きベクトルの参照ピクチャリスト（たとえば、リスト０、リスト１、またはリストＣ）を記述し得る。

[0121]１つまたは複数のＰＵを有するリーフＣＵは、１つまたは複数の変換ユニット（ＴＵ）をも含み得る。変換ユニットは、上記で説明したように、（ＴＵ４分木構造とも呼ばれる）ＲＱＴを使用して指定され得る。たとえば、分割フラグは、リーフＣＵが４つの変換ユニットに分割されるかどうかを示し得る。次いで、各変換ユニットは、さらなるサブＴＵにさらに分割され得る。ＴＵがさらに分割されないとき、そのＴＵはリーフＴＵと呼ばれることがある。概して、イントラコーディングの場合、リーフＣＵに属するすべてのリーフＴＵは同じイントラ予測モードを共有する。すなわち、同じイントラ予測モードが、概して、リーフＣＵのすべてのＴＵのための予測値を計算するために適用される。イントラコーディングの場合、ビデオエンコーダは、イントラ予測モードを使用して各リーフＴＵの残差値を、ＴＵに対応するＣＵの部分と元のブロックとの間の差分として計算し得る。ＴＵは、必ずしもＰＵのサイズに制限されるとは限らない。したがって、ＴＵは、ＰＵよりも大きいことも小さいこともある。イントラコーディングの場合、ＰＵは、同じＣＵの対応するリーフＴＵとコロケートされ得る。いくつかの例では、リーフＴＵの最大サイズは、対応するリーフＣＵのサイズに対応し得る。

[0122]その上、リーフＣＵのＴＵはまた、残差４分木（ＲＱＴ）と呼ばれる、それぞれの４分木データ構造に関連し得る。すなわち、リーフＣＵは、リーフＣＵがどのようにＴＵに区分されるかを示す４分木を含み得る。ＴＵ４分木のルートノードは一般にリーフＣＵに対応し、ＣＵ４分木のルートノードは一般にツリーブロック（またはＬＣＵ）に対応する。分割されないＲＱＴのＴＵはリーフＴＵと呼ばれる。概して、本開示では、別段に明記されていない限り、リーフＣＵおよびリーフＴＵに言及するためにそれぞれＣＵおよびＴＵという用語を使用する。

[0123]ビデオシーケンスは、通常、一連のビデオフレームまたはピクチャを含む。ピクチャグループ（ＧＯＰ）は、一般に、ビデオピクチャのうちの一連の１つまたは複数を備える。ＧＯＰは、ＧＯＰに含まれるいくつかのピクチャを記述するシンタックスデータを、ＧＯＰのヘッダ中、ピクチャのうちの１つもしくは複数のヘッダ中、または他の場所に含み得る。ピクチャの各スライスは、それぞれのスライスの符号化モードを記述するスライスシンタックスデータを含み得る。ビデオエンコーダ２０は、一般に、ビデオデータを符号化するために、個々のビデオスライス内のビデオブロックに作用する。ビデオブロックは、ＣＵ内のコーディングノードに対応し得る。ビデオブロックは、固定されたサイズまたは変化するサイズを有することができ、規定されたコーディング規格に従ってサイズが異なり得る。

[0124]一例として、ＨＭは、様々なＰＵサイズでの予測をサポートする。特定のＣＵのサイズが２Ｎ×２Ｎであると仮定すると、ＨＭは、２Ｎ×２ＮまたはＮ×ＮのＰＵサイズでのイントラ予測と、２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、またはＮ×Ｎの対称ＰＵサイズでのインター予測とをサポートする。ＨＭは、また、２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２Ｎ、およびｎＲ×２ＮのＰＵサイズでのインター予測のための、非対称な区分をサポートする。非対称な区分では、ＣＵの一方向は区分されず、他の方向は２５％および７５％に区分される。ＣＵのうちで２５％区分に対応する部分は、「ｎ」とそれに続く「Ｕｐ（上）」、「Ｄｏｗｎ（下）」、「Ｌｅｆｔ（左）」、または「Ｒｉｇｈｔ（右）」の表示とによって示される。したがって、たとえば、「２Ｎ×ｎＵ」は、上部で２Ｎ×０．５ＮＰＵ、および下部で２Ｎ×１．５ＮＰＵに水平に区分される２Ｎ×２ＮＣＵを指す。

[0125]本開示では、「Ｎ×Ｎ（ＮｘＮ）」および「Ｎ×Ｎ（ＮｂｙＮ）」は、垂直寸法および水平寸法の観点からビデオブロックのピクセル寸法、たとえば、１６×１６（１６ｘ１６）ピクセルまたは１６×１６（１６ｂｙ１６）ピクセルを指すために互換的に使用され得る。概して、１６×１６ブロックは、垂直方向に１６ピクセル（ｙ＝１６）、および水平方向に１６ピクセル（ｘ＝１６）を有する。同様に、Ｎ×Ｎブロックは、概して、垂直方向にＮピクセル、および水平方向にＮピクセルを有し、ここでＮは、非負の整数値を表す。ブロック中のピクセルは、行および列に配列され得る。さらに、ブロックは、必ずしも、水平方向において垂直方向と同じ数のピクセルを有するとは限らない。たとえば、ブロックはＮ×Ｍピクセルを備え得、この場合、Ｍは必ずしもＮに等しいとは限らない。

[0126]ＣＵのＰＵを使用したイントラ予測コーディングまたはインター予測コーディングに続いて、ビデオエンコーダ２０は、ＣＵのＴＵのための残差データを計算し得る。ＰＵは、空間領域（ピクセル領域とも呼ばれる）において予測ピクセルデータを生成する方法またはモードを記述するシンタックスデータを備え、ＴＵは、変換、たとえば、残差ビデオデータへの離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、または概念的に同様の変換の適用後に、変換領域において係数を備え得る。残差データは、符号化されていないピクチャのピクセルと、ＰＵに対応する予測値との間のピクセル差分に対応し得る。ビデオエンコーダ２０は、ＣＵのための残差データを含むＴＵを形成し、次いで、ＣＵのための変換係数を生成するために、ＴＵを変換し得る。

[0127]変換係数を生成するための任意の変換の後で、ビデオエンコーダ２０は、変換係数の量子化を実行し得る。量子化は、概して、係数を表すために使用されるデータの量をできるだけ低減するために変換係数が量子化され、さらなる圧縮を行うプロセスを指す。量子化プロセスは、係数の一部または全部に関連付けられたビット深度を低減し得る。たとえば、ｎビット値は、量子化中にｍビット値に切り捨てられ得、ここで、ｎはｍよりも大きい。

[0128]量子化の後に、ビデオエンコーダは、変換係数を走査し、量子化された変換係数を含む２次元行列から１次元ベクトルを生成し得る。走査は、アレイの前部により高いエネルギー（したがって、より低い周波数）係数を配置し、アレイの後部により低いエネルギー（したがって、より高い周波数）係数を配置するように設計され得る。いくつかの例では、ビデオエンコーダ２０は、エントロピー符号化され得るシリアル化ベクトルを生成するために、量子化変換係数を走査するために所定の走査順序を利用し得る。他の例では、ビデオエンコーダ２０は適応走査を実施し得る。量子化変換係数を走査して１次元ベクトルを形成した後に、ビデオエンコーダ２０は、たとえば、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ：context-adaptive variable length coding）、コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ：context-adaptive binary arithmetic coding）、シンタックスベースコンテキスト適応型バイナリ算術コーディング（ＳＢＡＣ：syntax-based context-adaptive binary arithmetic coding）、確率間隔区分エントロピー（ＰＩＰＥ：Probability Interval Partitioning Entropy）コーディング、または別のエントロピー符号化方法に従って、１次元ベクトルをエントロピー符号化し得る。ビデオエンコーダ２０はまた、ビデオデータを復号する際のビデオデコーダ３０による使用のために、符号化ビデオデータに関連付けられたシンタックス要素をエントロピー符号化し得る。

[0129]ＣＡＢＡＣを実施するために、ビデオエンコーダ２０は、コンテキストモデル内のコンテキストを、送信されるべきシンボルに割り当て得る。コンテキストは、たとえば、シンボルの隣接する値がゼロ以外であるか否かに関係し得る。ＣＡＶＬＣを実施するために、ビデオエンコーダ２０は、送信されるべきシンボルのための可変長コードを選択し得る。ＶＬＣ中のコードワードは、比較的より短いコードが優勢シンボルに対応し、より長いコードが劣勢シンボルに対応するように構成され得る。このようにして、ＶＬＣの使用は、たとえば、送信されるべき各シンボルのための等長コードワードを使用することに勝るビット節約を達成し得る。確率決定は、シンボルに割り当てられたコンテキストに基づき得る。

[0130]本開示は、ＨＥＶＣ拡張ビットストリームの搬送のための技法について説明する。すなわち、本開示の技法によれば、マルチプレクサ２１および／またはデマルチプレクサ２９は、ＨＥＶＣまたは他のまだ開発されていないビデオコーディング規格などのビデオコーディング規格の拡張に従ってコーディングされたビデオデータをトランスポートすること（すなわち、ビデオデータを送信または受信すること）を行うように構成され得る。概して、マルチプレクサ２１は、たとえば、ＭＰＥＧ−２システムおよび本開示の技法に実質的に従って、ビットストリームを形成するために、符号化されたビデオデータをカプセル化し得、一方、デマルチプレクサ２９は、カプセル化されたデータ、たとえば、ＨＥＶＣなどのビデオコーディング規格の拡張に従って符号化されたビデオデータを受信し、カプセル化解除し得る。

[0131]本開示は、ＨＥＶＣレイヤ（エレメンタリストリーム）についてのデータをシグナリングするために使用され得る階層拡張記述子を提案する。マルチプレクサ２１は、階層拡張記述子を形成するように構成され得、一方、デマルチプレクサ２９は、たとえば、ビデオデコーダ３０によって使用され得る形態にビデオデータをアセンブルするために、受信されたビデオデータを処理するために階層拡張記述子を使用し得る。図１の例には示されていないが、中間デバイスはまた、たとえば、サブビットストリーム抽出を実行するために、階層拡張記述子を使用し得る。たとえば、メディアアウェアネットワーク要素（ＭＡＮＥ：media aware network element）は、階層拡張記述子を使用してサブビットストリーム抽出を実行し得る。階層拡張記述子は、以下の項目の情報のうちの１つまたは複数を含み得る。

ａ．各々が１つの特定のスケーラブル次元の拡張を示す一連のスケーラビリティビット。

ｉ．このビットは、現在、時間スケーラビリティに割り当てられておらず、時間サブレイヤのアセンブルは階層記述子によって達成される。

ｉｉ．代替的に、時間スケーラビリティは、スケーラビリティビットの一部としてシグナリングされ得る。

ｂ．このサブビットストリームに対応するＴｅｍｐｏｒａｌＩｄ、ここにおいて、ＴｅｍｐｏｒａｌＩｄは、完全な復号可能なビットストリームを形成するために依存レイヤがアセンブルされた後の最高のＴｅｍｐｏｒａｌＩｄである。

ｉ．代替的に、ＴｅｍｐｏｒａｌＩｄ範囲（最低のＴｅｍｐｏｒａｌＩｄおよび最高のＴｅｍｐｏｒａｌＩｄ）が指定される。

ｃ．現在のエレメンタリストリームへのインデックス。

ｄ．現在のエレメンタリストリームのレイヤ識別子。

ｉ．代替的に、多重レイヤ識別子が指定され得、そのようなサブビットストリームは、複数のレイヤを含んでいるエレメンタリストリームに対応する。

ｅ．１つまたは複数のレイヤおよび１つまたは複数のレイヤのうちの１つに対応する各エレメンタリストリームへのインデックス。

ｆ．代替的に、階層拡張記述子は、各可能なＴｅｍｐｏｒａｌＩｄと組み合わせて各レイヤについての上述の情報を含み得る。

[0132]一例として、階層拡張記述子は、各々が特定のタイプのスケーラビリティ次元に対応するビットのセットを含み得る。各ビットの値は、そのスケーラビリティ次元がビットストリーム中に存在するかどうかを示し得る。このようにして、階層拡張記述子は、様々なタイプの複数のスケーラビリティ次元のいずれか（たとえば、空間、ＰＳＮＲ、クロマビット深度、色フォーマット、色域フォーマットなど）についてビデオデータが存在するかどうかを表すデータを含み得る。したがって、階層拡張記述子は、同じベースレイヤに異なるスケーラビリティ次元に準拠する２つ以上のエンハンスメントレイヤがあることを示すために使用され得る。いくつかの例では、時間スケーラビリティデータは、階層拡張記述子とは別個のものであり得る。たとえば、階層記述子は、時間スケーラビリティのための時間サブレイヤを示し得、階層拡張記述子は、他のスケーラビリティ次元についてのデータを示し得る。

[0133]追加または代替として、マルチプレクサ２１および／またはデマルチプレクサ２９は、ＭＰＥＧ−２システム仕様の階層記述子の拡張のシンタックス要素をコーディングするように構成され得る。拡張部分は、他の参照エレメンタリストリームにインデックスをシグナリングし得る。

[0134]本開示はまた、マルチプレクサ２１および／またはデマルチプレクサ２９がコーディング（それぞれ、符号化または復号）し得るＨＥＶＣ拡張記述子について説明する。ＨＥＶＣ拡張記述子は、サービスプロバイダによって利用可能で、推奨される動作点を形成するためにエレメンタリストリームがどのように組み合わせられ得るかを記述し得る。ＨＥＶＣ拡張記述子は、いくつかの例では、ＨＥＶＣ記述子中に条件付きで存在し得る。本開示の技法によれば、マルチプレクサ２１およびデマルチプレクサ２９は、ＨＥＶＣ拡張記述子が存在するかどうかを示すＨＥＶＣ記述子のシンタックス要素をコーディングするように構成され得る。動作点ごとに、以下のいくつかの情報のうちの１つまたは複数が、存在するとき、ＨＥＶＣ拡張記述子中でシグナリングされ得る。

ａ．ターゲット出力レイヤに属するレイヤ。

ｉ．追加または代替として、ターゲット出力レイヤの数のみが存在する。

ｉｉ．追加または代替として、すべてのエレメンタリストリームへのインデックス値がシグナリングされる。

ｂ．各動作点についてのプロファイル、レベル、およびティア情報。

ｃ．ビットレート情報。

ｄ．フレームレート情報。

ｅ．最高のＴｅｍｐｏｒａｌＩｄ。

ｆ．１）すべてのターゲット出力レイヤの最高の空間解像度、２）最高のターゲット出力レイヤの空間解像度または３）各ターゲット出力レイヤの空間解像度などの空間解像度情報。

ｇ．１）すべてのターゲット出力レイヤの最高のビット深度、２）最高のターゲット出力レイヤのビット深度、または３）各ターゲット出力レイヤのビット深度などのビット深度情報。

ｈ．１）すべてのターゲット出力レイヤの最高の色フォーマット、２）最高のターゲット出力レイヤの色フォーマット、または３）各ターゲット出力レイヤの色フォーマットなどの色フォーマット（たとえば、４：０：０、４：２：０、４：２：２、または４：４：４）。

ｉ．１）すべてのターゲット出力レイヤの最高の色域フォーマット、２）最高のターゲット出力レイヤの色域フォーマット、または３）各ターゲット出力レイヤの色域フォーマットなどの色域フォーマット（たとえば、ＢＴ７０９またはＢＴ２０２０）。

ｊ．時間サブレイヤアップ切替えがエレメンタリストリームの各アクセスユニットにおいて可能であるかどうかを示すフラグ。

[0135]本開示の様々な技法のためのシンタックスおよびセマンティクスについて以下で説明し、ここで、イタリック体のテキストは、ＭＰＥＧ−２システム仕様への追加を表す。

[0136]ＨＥＶＣビデオサブビットストリーム：ビデオサブビットストリームは、ｎｕｈ＿ｌａｙｅｒ＿ｉｄの同じ値に関連するすべてのＶＣＬＮＡＬユニットになるように定義され、Ｒｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において定義されている復号順序のＲｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２付属書類Ａ、Ｇ．１１またはＨ．１１ａｎｄすべて関連する非ＶＣＬＮＡＬユニットにおいて定義されている１つまたは複数のプロファイルに準拠するＨＥＶＣビデオストリーム。０に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄから始まり任意の値のｎｕｈ＿ｌａｙｅｒ＿ｉｄまでのｎｕｈ＿ｌａｙｅｒ＿ｉｄの連続順序でビデオサブビットストリームを再アセンブルすることがＨＥＶＣビデオストリームを生じる。ビデオサブビットストリームは、Ｒｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２の付属書類Ｂにおいて定義されているＨＥＶＣバイトストリームフォーマットを有することになる。

[0137]ＨＥＶＣ拡張ビデオストリーム：Ｒｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２Ｇ．１１またはＨ．１１において定義されている１つまたは複数のプロファイルに確認するビデオビットストリーム。

[0138]ＨＥＶＣビデオシーケンス（システム）：Ｒｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において定義されているコード化ビデオシーケンス。

[0139]（たとえば、以下の表２−４９による）階層拡張記述子は、階層的コード化ビデオ、オーディオ、およびプライベートストリームの構成要素を含んでいるプログラム要素を識別する情報を与える。

[0140]階層拡張記述子についての例示的なセマンティクスを以下に与える。

[0141]階層拡張記述子は、存在するとき、異なるエレメンタリストリーム中に存在するレイヤの依存を指定するために使用される。しかしながら、時間サブレイヤのアグリゲーションは、ＩＳＯ／ＩＥＣ１３８１８−１の改定３中に指定されているように階層記述子によって実現される。

[0142]ｅｘｔｅｎｓｉｏｎ＿ｄｉｍｅｎｓｉｏｎ＿ｂｉｔｓ−０に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄをもつレイヤのプログラム要素から生じるベースレイヤからの関連するプログラム要素の可能な拡張を示す１６ビットフィールド。

[0143]エンハンスメント次元へのビットの割当ては、以下の通りであり得る。

[0144]１に等しいｉ番目のビットは、対応するエンハンスメント次元が存在することを示し得る。

[0145]ｈｉｅｒａｒｃｈｙ＿ｌａｙｅｒ＿ｉｎｄｅｘ−ｈｉｅｒａｒｃｈｙ＿ｌａｙｅｒ＿ｉｎｄｅｘは、コーディングレイヤ階層のテーブルにおいて関連するプログラム要素の一意のインデックスを定義する６ビットフィールドである。インデックスは、シングルプログラム定義内で一意になることになる。Ｒｅｃ．ＩＴＵＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２の付属書類ＧまたはＨにおいて規定されている１つまたは複数のプロファイルに準拠するＨＥＶＣビデオストリームのビデオサブビットストリームの場合、これは、同じアクセスユニットのビデオサブビットストリームの関連する依存レイヤがｈｉｅｒａｒｃｈｙ＿ｌａｙｅｒ＿ｉｎｄｅｘの昇順で再アセンブルされた場合にビットストリーム順序が正しくなるように割り当てられるプログラム要素インデックスである。

[0146]ｔｒｅｆ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ−１ビットフラグは、「０」に設定されると、ＴＲＥＦフィールドが関連するエレメンタリストリーム中のＰＥＳパケットヘッダ中に存在し得ることを示す。このフラグの「１」の値は予約済みである。

[0147]ｎｕｈ＿ｌａｙｅｒ＿ｉｄ−６ビットフィールドは、このｈｉｅｒａｒｃｈｙ＿ｅｘｔｅｎｓｉｏｎ＿ｄｅｓｃｒｉｐｔｏｒ（）に関連するエレメンタリストリーム中のＮＡＬユニットの最高のｎｕｈ＿ｌａｙｅｒ＿ｉｄを指定する。

[0148]ｔｅｍｐｏｒａｌ＿ｉｄ−３ビットフィールドは、このｈｉｅｒａｒｃｈｙ＿ｅｘｔｅｎｓｉｏｎ＿ｄｅｓｃｒｉｐｔｏｒ（）に関連するエレメンタリストリーム中のＮＡＬユニットの最高のＴｅｍｐｏｒａｌＩｄを指定する。

[0149]ｎｕｍ＿ｅｍｂｅｄｄｅｄ＿ｌａｙｅｒｓ−アクセスされ、復号順序でこのｈｉｅｒａｒｃｈｙ＿ｅｘｔｅｎｓｉｏｎ＿ｄｅｓｃｒｉｐｔｏｒ（）に関連するエレメンタリストリームの復号の前に存在する必要がある直接依存プログラム要素の数を指定する６ビットフィールド。

[0150]ｈｉｅｒａｒｃｈｙ＿ｅｘｔ＿ｅｍｂｅｄｄｅｄ＿ｌａｙｅｒ＿ｉｎｄｅｘ−ｈｉｅｒａｒｃｈｙ＿ｅｘｔ＿ｅｍｂｅｄｄｅｄ＿ｌａｙｅｒ＿ｉｎｄｅｘは、アクセスされ、復号順序でこのｈｉｅｒａｒｃｈｙ＿ｅｘｔｅｎｓｉｏｎ＿ｄｅｓｃｒｉｐｔｏｒに関連するエレメンタリストリームの復号の前に存在する必要があるプログラム要素のｈｉｅｒａｒｃｈｙ＿ｌａｙｅｒ＿ｉｎｄｅｘを定義する６ビットフィールドである。ｈｉｅｒａｒｃｈｙ＿ｔｙｐｅ値が１５である場合、このフィールドは未定義になる。

[0151]ｈｉｅｒａｒｃｈｙ＿ｃｈａｎｎｅｌ−ｈｉｅｒａｒｃｈｙ＿ｃｈａｎｎｅｌは、送信チャネルの順序セットにおいて関連するプログラム要素のための意図されたチャネル番号を示す６ビットフィールドである。最もロバストな送信チャネルは、全体的な送信階層定義に関して、このフィールドの最低値によって定義される。所与のｈｉｅｒａｒｃｈｙ＿ｃｈａｎｎｅｌは、いくつかのプログラム要素に同時に割り当てられ得る。

[0152]追加または代替として、複数のレイヤは、１つのエレメンタリストリーム中に存在し得る。エレメンタリストリーム中の複数のレイヤがサポートされるとき、階層拡張記述子は、次のように設計され、追加は、イタリック体のテキストで強調され、削除は、［削除：””］によって表される。

[0153]この例では、６４ｌａｙｅｒ＿ｐｒｅｓｅｎｔ＿ｆｌａｇｓが、ＭＰＥＧ−２システムの階層拡張記述子に追加され、ｎｕｈ＿ｌａｙｅｒ＿ｉｄ要素が、ＭＰＥＧ−２システムの階層拡張記述子から除去されている。ｌａｙｅｒ＿ｐｒｅｓｅｎｔ＿ｆｌａｇについてのセマンティクスは、次のように定義され得る。

[0154]ｌａｙｅｒ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ−１ビットフィールドは、値「１」を割り当てられると、ｉに等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄをもつレイヤのＮＡＬユニットが、ｈｉｅｒａｒｃｈｙ＿ｌａｙｅｒ＿ｉｎｄｅｘのエレメンタリストリームへのインデックスをもつエレメンタリストリーム中に存在することを示す。ｌａｙｅｒ＿ｐｒｅｓｅｎｔ＿ｆｌａｇビットのセットは、各々が、複数のエンハンスメントレイヤの各々に対応する複数のスケーラビリティビットの一例を表し、ここにおいて、スケーラビリティビットの各々の値は、それぞれのエンハンスメントレイヤが、階層拡張記述子に対応するエレメンタリストリーム中に含まれるかどうかを示す。

[0155]追加または代替として、ある範囲の時間サブレイヤをもつ複数のレイヤが、１つのエレメンタリストリーム中に存在し得る。それがサポートされるとき、階層拡張記述子は、次のように設計され得、追加は、イタリック体のテキストを使用して強調される。

[0156]この例では、前の例に対して、ｍｉｎ＿ｔｅｍｐｏｒａｌ＿ｉｄおよびｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄシンタックス要素がさらに追加されている。これらのシンタックス要素についてのセマンティクスは、次のようになり得る。

[0157]ｍｉｎ＿ｔｅｍｐｏｒａｌ＿ｉｄ−このｈｉｅｒａｒｃｈｙ＿ｅｘｔｅｎｓｉｏｎ＿ｄｅｓｃｒｉｐｔｏｒ（）に関連するエレメンタリストリーム中のＮＡＬユニットの最低のＴｅｍｐｏｒａｌＩｄを指定する３ビットフィールド。

[0158]ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ−このｈｉｅｒａｒｃｈｙ＿ｅｘｔｅｎｓｉｏｎ＿ｄｅｓｃｒｉｐｔｏｒ（）に関連するエレメンタリストリーム中のＮＡＬユニットの最高のＴｅｍｐｏｒａｌＩｄを指定する３ビットフィールド。

[0159]ＨＥＶＣビデオストリームの場合、ＨＥＶＣビデオ記述子は、そのＨＥＶＣビデオストリームの、プロファイルおよびレベルパラメータなどのコーディングパラメータを識別するための基本情報を与える。ＨＥＶＣ時間ビデオサブビットストリームまたはＨＥＶＣ時間ビデオサブセットの場合、ＨＥＶＣビデオ記述子は、それが適用されるエレメンタリストリーム中に含まれている関連するＨＥＶＣ最高時間サブレイヤ表現などの情報を与える。表Ｘ−１のシンタックスを以下に示し、ここで、イタリック体のテキストは、ＭＰＥＧ−２システムに対する追加を表す。

[0160]表Ｘ−１についてのセマンティクスは、次のように定義され得る。

[0161]ｐｒｏｆｉｌｅ＿ｓｐａｃｅ、ｔｉｅｒ＿ｆｌａｇ、ｐｒｏｆｉｌｅ＿ｉｄｃ、ｐｒｏｆｉｌｅ＿ｃｏｍｐａｔｉｂｉｌｉｔｙ＿ｉｎｄｉｃａｔｉｏｎ、ｐｒｏｇｒｅｓｓｉｖｅ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｉｎｔｅｒｌａｃｅｄ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｎｏｎ＿ｐａｃｋｅｄ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｆｒａｍｅ＿ｏｎｌｙ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿４４ｂｉｔｓ、ｌｅｖｅｌ＿ｉｄｃ−ＨＥＶＣビデオ記述子が、ＨＥＶＣビデオストリームまたはＨＥＶＣ完全時間表現に適用されるとき、これらのフィールドは、対応するＨＥＶＣビデオストリームまたはＨＥＶＣ完全時間表現について、それぞれ、ｇｅｎｅｒａｌ＿ｐｒｏｆｉｌｅ＿ｓｐａｃｅ、ｇｅｎｅｒａｌ＿ｔｉｅｒ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｐｒｏｆｉｌｅ＿ｉｄｃ、ｇｅｎｅｒａｌ＿ｐｒｏｆｉｌｅ＿ｃｏｍｐａｔｉｂｉｌｉｔｙ＿ｆｌａｇ［ｉ］、ｇｅｎｅｒａｌ＿ｐｒｏｇｒｅｓｓｉｖｅ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｉｎｔｅｒｌａｃｅｄ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｎｏｎ＿ｐａｃｋｅｄ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｆｒａｍｅ＿ｏｎｌｙ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿４４ｂｉｔｓ、ｇｅｎｅｒａｌ＿ｌｅｖｅｌ＿ｉｄｃについてＲｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において規定されているセマンティクスに従ってコーディングされることになり、ＨＥＶＣビデオ記述子が関連付けられるＨＥＶＣビデオストリームまたはＨＥＶＣ完全時間表現全体は、これらのフィールドによってシグナリングされる情報に準拠することになる。

[0162]ＨＥＶＣビデオ記述子は、対応するＨＥＶＣ最高時間サブレイヤ表現がＨＥＶＣ完全時間表現でないＨＥＶＣ時間ビデオサブビットストリームまたはＨＥＶＣ時間ビデオサブセットに適用されるとき、これらのフィールドは、対応するＨＥＶＣ最高時間サブレイヤ表現について、それぞれ、ｓｕｂ＿ｌａｙｅｒ＿ｐｒｏｆｉｌｅ＿ｓｐａｃｅ、ｓｕｂ＿ｌａｙｅｒ＿ｔｉｅｒ＿ｆｌａｇ、ｓｕｂ＿ｌａｙｅｒ＿ｐｒｏｆｉｌｅ＿ｉｄｃ、ｓｕｂ＿ｌａｙｅｒ＿ｐｒｏｆｉｌｅ＿ｃｏｍｐａｔｉｂｉｌｉｔｙ＿ｆｌａｇ［ｉ］、ｓｕｂ＿ｌａｙｅｒ＿ｐｒｏｇｒｅｓｓｉｖｅ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｓｕｂ＿ｌａｙｅｒ＿ｉｎｔｅｒｌａｃｅｄ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｓｕｂ＿ｌａｙｅｒ＿ｎｏｎ＿ｐａｃｋｅｄ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｓｕｂ＿ｌａｙｅｒ＿ｆｒａｍｅ＿ｏｎｌｙ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｓｕｂ＿ｌａｙｅｒ＿ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿４４ｂｉｔｓ、ｓｕｂ＿ｌａｙｅｒ＿ｌｅｖｅｌ＿ｉｄｃについてＲｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において規定されるセマンティクスに従ってコーディングされることになり、ＨＥＶＣビデオ記述子が関連付けられるＨＥＶＣ最高時間サブレイヤ表現全体は、これらのフィールドによってシグナリングされる情報に準拠することになる。

[0163]ＨＥＶＣビデオストリーム中の１つまたは複数のシーケンスにおいて、レベルは、ＨＥＶＣビデオ記述子中でシグナリングされるレベルよりも低くなり得、一方、ＨＥＶＣビデオ記述子中でシグナリングされるプロファイルのサブセットであるプロファイルも生じ得る。ただし、ＨＥＶＣビデオストリーム全体において、存在する場合、ＨＥＶＣビデオ記述子中でシグナリングされるプロファイル中に含まれる、ビットストリームシンタックス全体のサブセットのみが使用されることになる。ＨＥＶＣビデオストリーム中のシーケンスパラメータセットが異なるプロファイルをシグナリングし、追加の制約がシグナリングされない場合、ストリームは、ストリーム全体が、もしあれば、どのプロファイルに準拠するかを決定する審査を必要とし得る。ＨＥＶＣビデオ記述子が、単一のプロファイルに準拠しないＨＥＶＣビデオストリームに関連付けられるべきである場合、ＨＥＶＣビデオストリームは、２つ以上のサブストリームに区分されるべきであり、したがって、ＨＥＶＣビデオ記述子は、そのようなサブストリームごとに単一のプロファイルをシグナリングすることができる。

[0164]ｔｅｍｐｏｒａｌ＿ｌａｙｅｒ＿ｓｕｂｓｅｔ＿ｆｌａｇ−この１ビットフラグは、「１」に設定されると、時間レイヤのサブセットを記述するシンタックス要素がこの記述子中に含まれることを示す。このフィールドは、ＨＥＶＣ時間ビデオサブセットについて、およびＨＥＶＣ時間ビデオサブビットストリームについて１に設定されることになる。「０」に設定されると、シンタックス要素ｔｅｍｐｏｒａｌ＿ｉｄ＿ｍｉｎおよびｔｅｍｐｏｒａｌ＿ｉｄ＿ｍａｘは、この記述子中に含まれない。

[0165]ＨＥＶＣ＿ｓｔｉｌｌ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ−この１ビットフィールドは、「１」に設定されると、ＨＥＶＣビデオストリームまたはＨＥＶＣ最高時間サブレイヤ表現がＨＥＶＣ静止ピクチャを含み得ることを示す。「０」に設定されると、関連するＨＥＶＣビデオストリームはＨＥＶＣ静止ピクチャを含んでいないことになる。Ｒｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２によれば、ＩＤＲピクチャが常に０に等しいＴｅｍｐｏｒａｌＩｄ値に関連付けられ、したがって、ＨＥＶＣビデオ記述子が、ＨＥＶＣ時間ビデオサブセットに適用される場合、ＨＥＶＣ静止ピクチャは、関連するＨＥＶＣ時間ビデオサブビットストリーム中にのみ存在することができる。

[0166]ＨＥＶＣ＿２４＿ｈｏｕｒ＿ｐｉｃｔｕｒｅ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ−この１ビットフラグは、「１」に設定されると、関連するＨＥＶＣビデオストリームまたはＨＥＶＣ最高時間サブレイヤ表現がＨＥＶＣ２４時間ピクチャを含み得ることを示す。ＨＥＶＣ２４時間ピクチャの定義については、２．１．９７を参照されたい。このフラグが「０」に設定される場合、関連するＨＥＶＣビデオストリームは、いかなるＨＥＶＣ２４時間ピクチャをも含んでいないことになる。

[0167]ｔｅｍｐｏｒａｌ＿ｉｄ＿ｍｉｎ−この３ビットフィールドは、関連するエレメンタリストリーム中のすべてのＨＥＶＣアクセスユニットの、Ｒｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において規定されているＴｅｍｐｏｒａｌＩｄの最小値を示す。

[0168]ｔｅｍｐｏｒａｌ＿ｉｄ＿ｍａｘ−この３ビットフィールドは、関連するエレメンタリストリーム中のすべてのＨＥＶＣアクセスユニットの、Ｒｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において規定されているＴｅｍｐｏｒａｌＩｄの最大値を示す。

[0169]ｈｅｖｃ＿ｅｘｔｅｎｓｉｏｎ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ−この１ビットフラグは、「１」に設定されると、ＨＥＶＣ拡張記述子がＨＥＶＣ記述子の一部として存在することを示す。「０」に設定されると、ＨＥＶＣ拡張記述子は存在しない。ｈｅｖｃ＿ｅｘｔｅｎｓｉｏｎ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、ＨＥＶＣビデオ記述子のＨＥＶＣ拡張存在シンタックス要素の一例を表し、ここで、ＨＥＶＣ拡張存在シンタックス要素は、ＨＥＶＣ記述子の一部としてＨＥＶＣ拡張記述子が存在するかどうかを示す。

[0170]追加または代替として、ＨＥＶＣ拡張記述子は、ＰＭＴおよびＰＳＭなどの他の場所中に存在し得る。

[0171]表Ｘの以下のＨＥＶＣ拡張記述子が、ＭＰＥＧ−２システム仕様に追加され得、マルチプレクサ２１およびデマルチプレクサ２９は、ＨＥＶＣ拡張記述子のデータをそれに応じてコーディングするように構成され得る。

[0172]表Ｘのシンタックス要素についてのセマンティクスは、次のように定義され得る。

[0173]ｎｕｍ＿ｏｐｅｒａｔｉｏｎ＿ｐｏｉｎｔｓ−８ビットフィールドは、この記述子中の指定された動作点の数を指定する。

[0174]ｐｒｏｆｉｌｅ＿ｓｐａｃｅ−２ビットフィールドは、両端値を含む０〜３１の範囲内のｉのすべての値についてｐｒｏｆｉｌｅ＿ｉｄｃの解釈についてのコンテキストを指定する。ｐｒｏｆｉｌｅ＿ｓｐａｃｅには、Ｒｅｃ．ＩＴＵＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２の付属書類Ａまたは項Ｇ．１１あるいは項Ｈ．１１中に指定されている値以外の値は割り当てられないことになる。ｐｒｏｆｉｌｅ＿ｉｄｃの他の値は、ＩＴＵ−Ｔ｜ＩＳＯ／ＩＥＣによる将来の使用のために予約済みである。

[0175]ｔｉｅｒ＿ｆｌａｇ−１ビットフィールドは、Ｒｅｃ．ＩＴＵＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２の付属書類Ａまたは項Ｇ．１１あるいは項Ｈ．１１中に指定されているようにｌｅｖｅｌ＿ｉｄｃの解釈についてのティアコンテキストを指定する。

[0176]ｐｒｏｆｉｌｅ＿ｉｄｃ−５ビットフィールドは、ｐｒｏｆｉｌｅ＿ｓｐａｃｅが０に等しくなると、Ｒｅｃ．ＩＴＵＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２の付属書類Ａオア中に指定されているようにＣＶＳが準拠するプロファイルを示す。ｐｒｏｆｉｌｅ＿ｉｄｃには、Ｒｅｃ．ＩＴＵＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２の付属書類ＡまたはＧ．１１またはＨ．１１中に指定されている値以外の値は割り当てられないことになる。ｐｒｏｆｉｌｅ＿ｉｄｃの他の値は、ＩＴＵ−Ｔ｜ＩＳＯ／ＩＥＣによる将来の使用のために予約済みである。

[0177]ｐｒｏｆｉｌｅ＿ｃｏｍｐａｔｉｂｉｌｉｔｙ＿ｉｎｄｉｃａｔｉｏｎ、ｐｒｏｇｒｅｓｓｉｖｅ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｉｎｔｅｒｌａｃｅｄ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｎｏｎ＿ｐａｃｋｅｄ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｆｒａｍｅ＿ｏｎｌｙ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿４４ｂｉｔｓ、ｌｅｖｅｌ＿ｉｄｃ−ＨＥＶＣ拡張ビデオ記述子が、ＨＥＶＣ拡張ビデオストリームに適用されるとき、これらのフィールドは、対応するＨＥＶＣビデオストリームまたはＨＥＶＣ拡張ビデオストリームまたはＨＥＶＣ完全時間表現について、それぞれ、ｇｅｎｅｒａｌ＿ｐｒｏｆｉｌｅ＿ｓｐａｃｅ、ｇｅｎｅｒａｌ＿ｔｉｅｒ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｐｒｏｆｉｌｅ＿ｉｄｃ、ｇｅｎｅｒａｌ＿ｐｒｏｆｉｌｅ＿ｃｏｍｐａｔｉｂｉｌｉｔｙ＿ｆｌａｇ［ｉ］、ｇｅｎｅｒａｌ＿ｐｒｏｇｒｅｓｓｉｖｅ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｉｎｔｅｒｌａｃｅｄ＿ｓｏｕｒｃｅ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｎｏｎ＿ｐａｃｋｅｄ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｆｒａｍｅ＿ｏｎｌｙ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ、ｇｅｎｅｒａｌ＿ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿４４ｂｉｔｓ、ｇｅｎｅｒａｌ＿ｌｅｖｅｌ＿ｉｄｃについてＲｅｃ．ＩＴＵ−ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２において規定されているセマンティクスに従ってコーディングされることになり、ＨＥＶＣビデオ記述子が関連付けられるＨＥＶＣビデオストリームまたはＨＥＶＣ完全時間表現全体は、これらのフィールドによってシグナリングされる情報に準拠することになる。

[0178]ｌｅｖｅｌ＿ｉｄｃ−８ビットフィールドは、Ｒｅｃ．ＩＴＵＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２の付属書類Ａ、Ｇ．１１またはＨ．１１中に指定されているようにＣＶＳが準拠するレベルを示す。ｌｅｖｅｌ＿ｉｄｃには、Ｒｅｃ．ＩＴＵＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８−２の付属書類Ａ、Ｇ．１１またはＨ．１１中に指定されている値以外のｌｅｖｅｌ＿ｉｄｃの値は割り当てられないことになる。ｌｅｖｅｌ＿ｉｄｃの他の値は、ＩＴＵ−Ｔ｜ＩＳＯ／ＩＥＣによる将来の使用のために予約済みである。

[0179]ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ−５ｂｉｔｓ−値「０」の予約された５ビットフィールド。

[0180]ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ−３ビットフィールドは、ｉ番目の動作点中のレイヤのＮＡＬユニットの最高のＴｅｍｐｏｒａｌＩｄを指定する。

[0181]ｈｅｖｃ＿ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｆｌａｇ−１ビットフィールドは、値「１」が割り当てられると、ｉに等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄをもつレイヤが、出力レイヤセットに属し、ｉ番目の動作点が復号されるときに出力のために必要とされることを示す。値「０」が割り当てられると、ｉに等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄをもつレイヤは出力レイヤセットに属しない。ｉ番目のｈｅｖｃ＿ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｆｌａｇが「１」に等しくなるとき、ｉ番目のｈｅｖｃ＿ｌａｙｅｒ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は「１」に等しくなることになる。

[0182]ａｖｅｒａｇｅ＿ｂｉｔｒａｔｅ−１６ビットフィールドは、ｉ番目の動作点に対応するＨＥＶＣ拡張ビデオストリームのキロビット毎秒単位での平均ビットレートを示す。

[0183]ｍａｘｉｍｕｍ＿ｂｉｔｒａｔｅ−１６ビットフィールドは、ｉ番目の動作点に対応するＨＥＶＣ拡張ビデオストリームのキロビット毎秒単位での最大ビットレートを示す。

[0184]ｆｒａｍｅ＿ｒａｔｅ−１６ビットフィールドは、ｉ番目の動作点に対応するＨＥＶＣ拡張ビデオストリームのフレーム／２５６秒単位での最大フレームレートを示す。

[0185]追加または代替として、ｎｕｈ＿ｌａｙｅｒ＿ｉｄ値は、出力レイヤセットのレイヤごとに直接存在する。

[0186]追加または代替として、各々が動作点中に存在するレイヤを示すフラグの異なるループがさらにシグナリングされる。

[0187]ｈｅｖｃ＿ｌａｙｅｒ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ−１ビットフィールドは、値「１」を割り当てられると、ｉに等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄをもつレイヤのＮＡＬユニットが、この記述子において定義されているｉ番目の動作点に対応するＨＥＶＣ拡張ビデオストリーム中に存在することを示す。値「０」が割り当てられると、それは、ｉに等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄをもつレイヤのＮＡＬユニットが存在しないことを示す。

[0188]追加または代替として、存在するレイヤがシグナリングされないとき、復号されるべきレイヤの数がシグナリングされ得る。

[0189]マルチプレクサ２１、デマルチプレクサ２９、ビデオエンコーダ２０およびビデオデコーダ３０はそれぞれ、適用可能なとき、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、離散論理回路、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せなどの、様々な好適なエンコーダまたはデコーダ回路のいずれかとして実装され得る。ビデオエンコーダ２０およびビデオデコーダ３０の各々は、１つまたは複数のエンコーダまたはデコーダ中に含まれ得、そのいずれも複合ビデオエンコーダ／デコーダ（コーデック）の一部として統合され得る。ビデオエンコーダ２０および／またはビデオデコーダ３０を含むデバイスは、集積回路、マイクロプロセッサ、および／または携帯電話のようなワイヤレス通信デバイスを備え得る。

[0190]このようにしてマルチプレクサ２１は、ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤとエンハンスメントレイヤが依存する２つ以上の参照レイヤとを含むビデオデータを記憶するためのメモリと、ここにおいて、２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、階層拡張記述子を符号化することを行うように構成された１つまたは複数のプロセッサと、ここにおいて、階層拡張記述子が、エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、を含むデバイスの一例を表す。

[0191]同様に、デマルチプレクサ２９は、ビデオコーディング規格の拡張に従ってコーディングされたビデオデータのエンハンスメントレイヤを記憶するためのメモリと、エンハンスメントレイヤを含むエレメンタリストリームのための階層拡張記述子を復号することと、ここにおいて、階層拡張記述子は、エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、ここにおいて、２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、２つ以上の参照レイヤを表すデータに少なくとも部分的に基づいてビデオデータを処理することとを行うように構成された１つまたは複数のプロセッサとを含むデバイスの一例を表す。

[0192]図２は、ビデオコーディング規格の拡張に従ってコーディングされたビデオデータをトランスポートするための技法を実装し得るビデオエンコーダ２０の一例を示すブロック図である。ビデオデータは、ベースレイヤに複数の（たとえば、２つ以上の）エンハンスメントレイヤを含み得、ここで、エンハンスメントレイヤは、異なるスケーラビリティ次元に対応し得る。ビデオエンコーダ２０は、ビデオスライス内のビデオブロックのイントラコーディングとインターコーディングとを実行し得る。イントラコーディングは、所与のビデオフレームまたはピクチャ内のビデオの空間的冗長性を低減または除去するために空間的予測に依拠する。インターコーディングは、ビデオシーケンスまたは参照レイヤ（たとえば、参照ビュー）のフレームまたはピクチャ内のビデオの冗長性を低減または除去するために時間的予測またはレイヤ間予測に依拠する。イントラモード（Ｉモード）は、いくつかの空間ベースコーディングモードのいずれかを指すことがある。単方向予測（Ｐモード）または双予測（Ｂモード）などのインターモードは、いくつかの時間ベースコーディングモードのいずれかを指すことがある。

[0193]図２に示されているように、ビデオエンコーダ２０は、符号化されるべきビデオフレーム内の現在ビデオブロックを受信する。図２の例では、ビデオエンコーダ２０は、モード選択ユニット４０と、参照ピクチャメモリ６４と、加算器５０と、変換処理ユニット５２と、量子化ユニット５４と、エントロピー符号化ユニット５６とを含む。モード選択ユニット４０は、動き補償ユニット４４と、動き推定ユニット４２と、イントラ予測ユニット４６と、パーティションユニット４８とを含む。ビデオブロック再構築のために、ビデオエンコーダ２０はまた、逆量子化ユニット５８と、逆変換ユニット６０と、加算器６２とを含む。再構築されたビデオからブロッキネスアーティファクトを除去するためにブロック境界をフィルタリングするための、デブロッキングフィルタ（図２に示されず）も含まれ得る。所望される場合、デブロッキングフィルタは、通常、加算器６２の出力をフィルタ処理することになる。デブロッキングフィルタに加えて、（ループ内またはループ後の）追加のフィルタも使用され得る。そのようなフィルタは、簡約のために図示されないが、必要な場合、加算器５０の出力を（インループフィルタとして）フィルタリングし得る。

[0194]符号化プロセス中に、ビデオエンコーダ２０は、コーディングされるべきビデオフレームまたはスライスを受信する。フレームまたはスライスは、複数のビデオブロックに分割され得る。動き推定ユニット４２および動き補償ユニット４４は、時間的予測を行うために、１つまたは複数の参照フレーム中の１つまたは複数のブロックに対する受信されたビデオブロックのインター予測コーディングを実行する。イントラ予測ユニット４６は、代替的に、空間予測を行うために、コーディングされるべきブロックと同じフレームまたはスライス中の１つまたは複数の近隣ブロックに対する受信されたビデオブロックのイントラ予測コーディングを実行し得る。ビデオエンコーダ２０は、たとえば、ビデオデータの各ブロックに適切なコーディングモードを選択するために、複数のコーディングパスを実施し得る。

[0195]その上、分割ユニット４８は、前のコーディングパスでの前の区分化方式の評価に基づいて、ビデオデータのブロックを、サブブロックに区分し得る。たとえば、区分ユニット４８は、最初は、レートひずみ分析（たとえば、レートひずみ最適化）に基づいて、フレームまたはスライスをＬＣＵに区分し、ＬＣＵの各々をサブＣＵに区分し得る。モード選択ユニット４０は、さらに、ＬＣＵのサブＣＵへの区分を示す４分木データ構造を生成し得る。４分木のリーフノードＣＵは、１つまたは複数のＰＵと、１つまたは複数のＴＵとを含み得る。

[0196]モード選択ユニット４０は、たとえば誤差結果に基づいて、コーディングモード、すなわち、イントラまたはインターのうちの１つを選択し得、残差ブロックデータを生成するために、得られたイントラ予測ブロックまたはインター予測ブロックを加算器５０に与え、参照フレーム中で使用するための符号化ブロックを再構成するために、得られたイントラ予測ブロックまたはインター予測ブロックを加算器６２に与える。モード選択ユニット４０はまた、動きベクトル、イントラモードインジケータ、パーティション情報、および他のそのようなシンタックス情報など、シンタックス要素をエントロピー符号化ユニット５６に与える。

[0197]動き推定ユニット４２および動き補償ユニット４４は、高度に統合され得るが、概念上の目的から別々に図示されている。動き推定ユニット４２によって実行される動き推定は、ビデオブロックに関する動きを推定する動きベクトルを生成するプロセスである。動きベクトルは、たとえば、現在フレーム（または他のコード化ユニット）内でコーディングされている現在ブロックに対する参照フレーム（または他のコード化ユニット）内の予測ブロックに対する現在ビデオフレームまたはピクチャ内のビデオブロックのＰＵの変位を示し得る。予測ブロックは、絶対差の合計（ＳＡＤ：sum of absolute difference）、二乗差の合計（ＳＳＤ：sum of square difference）、または他の差分基準によって決定され得るピクセル差に関する、コーディングされるべきブロックとよく一致することがわかったブロックである。いくつかの例では、ビデオエンコーダ２０は、参照ピクチャメモリ６４に記憶された参照ピクチャのサブ整数ピクセル位置の値を計算し得る。たとえば、ビデオエンコーダ２０は、参照ピクチャの、４分の１ピクセル位置、８分の１ピクセル位置、または他の分数のピクセル位置の値を補間し得る。したがって、動き推定ユニット４２は、完全なピクセル位置および分数ピクセル位置に対して動き探索を実行し、分数ピクセル精度で動きベクトルを出力し得る。

[0198]動き推定ユニット４２は、ＰＵの位置を参照ピクチャの予測ブロックの位置と比較することによって、インターコード化スライス中のビデオブロックに関するＰＵの動きベクトルを計算する。参照ピクチャは、第１の参照ピクチャリスト（リスト０）または第２の参照ピクチャリスト（リスト１）から選択され得、それらの参照ピクチャリストの各々は、参照ピクチャメモリ６４に記憶された１つまたは複数の参照ピクチャを識別する。動き推定ユニット４２は、計算された動きベクトルをエントロピー符号化ユニット５６と動き補償ユニット４４とに送る。

[0199]動き補償ユニット４４によって実行される動き補償は、動き推定ユニット４２によって決定された動きベクトルに基づいて予測ブロックをフェッチまたは生成することに関与し得る。同様に、動き推定ユニット４２および動き補償ユニット４４は、いくつかの例では、機能的に統合され得る。現在ビデオブロックのＰＵのための動きベクトルを受信すると、動き補償ユニット４４は、動きベクトルが参照ピクチャリストのうちの１つにおいてそれを指す予測ブロックの位置を特定し得る。加算器５０は、下で論じるように、コーディングされている現在ビデオブロックのピクセル値から予測ブロックのピクセル値を減算し、ピクセル差分値を形成することによって、残差ビデオブロックを形成する。一般に、動き推定ユニット４２は、ルーマ成分に対して動き推定を実行し、動き補償ユニット４４は、クロマ成分とルーマ成分の両方に関して、ルーマ成分に基づいて計算された動きベクトルを使用する。モード選択ユニット４０は、また、ビデオデコーダ３０によるビデオスライスのビデオブロックの復号での使用のために、ビデオブロックおよびビデオスライスと関連したシンタックス要素を生成する。

[0200]代替的に、動き推定ユニット４２は、依存レイヤ中のピクチャのブロックに対してレイヤ間（たとえば、ビュー間）予測を実行し得る。たとえば、動き推定ユニット４２は、従属ビュー中のピクチャのビュー間予測を実行するときに視差動きベクトルを計算するように構成され得る。他の例では、動き補償ユニット４４は、レイヤ間予測を実行するとき、たとえば、エンハンスメントレイヤ中のブロックが拡張されているベースレイヤ中のブロックと同じまたは実質的に同じ位置にあるスケーラビリティ次元にエンハンスメントレイヤが対応するとき、ブロックの０動きベクトル予測を実行し得る。そのようなスケーラビリティ次元は、たとえば、クロマビット深度、色フォーマット、色域、ＰＳＮＲなどを含み得る。

[0201]イントラ予測ユニット４６は、上記で説明したように、動き推定ユニット４２と動き補償ユニット４４とによって実施されるインター予測の代替として、現在ブロックをイントラ予測し得る。特に、イントラ予測ユニット４６は、現在ブロックを符号化するために使用すべきイントラ予測モードを決定し得る。いくつかの例では、イントラ予測ユニット４６は、たとえば、別個の符号化パス中に様々なイントラ予測モードを使用して現在ブロックを符号化し、イントラ予測ユニット４６（または、いくつかの例では、モード選択ユニット４０）は、使用するのに適切なイントラ予測モードを、テストされたモードから選択し得る。

[0202]たとえば、イントラ予測ユニット４６は、様々なテストされたイントラ予測モードのためのレートひずみ分析を使用してレートひずみ値を計算し、テストされたモードの中で最良のレートひずみ特性を有するイントラ予測モードを選択し得る。レートひずみ分析は、概して、符号化されたブロックと、符号化されたブロックを生成するために符号化された元の符号化されていないブロックとの間のひずみ（または誤差）の量、ならびに符号化されたブロックを生成するために使用されるビットレート（すなわち、ビット数）を決定する。イントラ予測ユニット４６は、どのイントラ予測モードがブロックについて最良のレートひずみ値を呈するかを決定するために、様々な符号化されたブロックのひずみおよびレートから比を計算し得る。

[0203]イントラ予測ユニット４６は、ブロックに関するイントラ予測モードを選択した後、ブロックに関して選択されたイントラ予測モードを示す情報を、エントロピー符号化ユニット５６に提供し得る。エントロピー符号化ユニット５６は、選択されたイントラ予測モードを示す情報を符号化し得る。ビデオエンコーダ２０は、送信されるビットストリーム中に構成データを含む場合があり、構成データは、コンテキストの各々に関して使用する、複数のイントラ予測モードのインデックステーブルおよび複数の修正されたイントラ予測モードのインデックステーブル（コードワードマッピングテーブルとも呼ばれる）と、様々なブロックに関する符号化コンテキストの定義と、最も起こりそうなイントラ予測モードの表示と、イントラ予測モードのインデックステーブルと、修正されたイントラ予測モードのインデックステーブルとを含み得る。

[0204]ビデオエンコーダ２０は、モード選択ユニット４０からの予測データを、コーディングされている元のビデオブロックから減算することによって、残差ビデオブロックを形成する。合計器５０は、この減算演算を実行する、１つまたは複数の構成要素を表す。変換処理ユニット５２は、離散コサイン変換（ＤＣＴ）または概念的に類似する変換などの変換を残差ブロックに適用し、残差変換係数値を備えるビデオブロックを生成する。変換処理ユニット５２は、ＤＣＴと概念的に同様である他の変換を実施し得る。ウェーブレット変換、整数変換、サブバンド変換または他のタイプ変換も使用され得る。

[0205]いずれの場合でも、変換処理ユニット５２は、変換を残差ブロックに適用し、残差変換係数のブロックを生成する。変換は、ピクセル値領域からの残差情報を、周波数領域などの変換領域に転換し得る。変換処理ユニット５２は、得られた変換係数を量子化ユニット５４に送り得る。量子化ユニット５４は、ビットレートをさらに低減させるために変換係数を量子化する。量子化プロセスは、係数の一部または全部に関連付けられたビット深度を低減し得る。量子化プロセスは「スケーリング」プロセスと呼ばれることもあり、したがって、量子化変換係数は「スケーリングされた変換係数」と呼ばれることもある。量子化（またはスケーリング）の程度は、量子化パラメータを調整することによって変更され得る。いくつかの例では、エントロピー符号化ユニット５６は、次いで、量子化変換係数を含む行列の走査を実行し得る。

[0206]量子化に続いて、エントロピー符号化ユニット５６は、スキャンされた量子化変換係数をエントロピーコーディングする。たとえば、エントロピー符号化ユニット５６は、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）、コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ）、シンタックスベースコンテキスト適応型バイナリ算術コーディング（ＳＢＡＣ）、確率間隔区分エントロピー（ＰＩＰＥ）コーディングまたは別のエントロピーコーディング技法を実行し得る。コンテキストベースのエントロピーコーディングの場合、コンテキストは、隣接ブロックに基づき得る。エントロピー符号化ユニット５６によるエントロピーコーディングに続いて、符号化されたビットストリームは、別のデバイス（たとえば、ビデオデコーダ３０）に送信され、または後の送信もしくは取出のためにアーカイブされ得る。

[0207]逆量子化ユニット５８および逆変換ユニット６０は、たとえば、参照ブロックとして後で使用できるように、ピクセル領域で残差ブロックを再構築するために、それぞれ、逆量子化と、逆変換とを適用する。動き補償ユニット４４は、残差ブロックを参照ピクチャメモリ６４のフレームのうちの１つの予測ブロックに加算することによって参照ブロックを計算し得る。動き補償ユニット４４はまた、再構成された残差ブロックに１つまたは複数の補間フィルタを適用して、動き推定において使用するためのサブ整数ピクセル値を計算し得る。加算器６２は、再構成された残差ブロックを、動き補償ユニット４４によって生成された動き補償予測ブロックに加算して、参照ピクチャメモリ６４に記憶するための再構成されたビデオブロックを生成する。再構成されたビデオブロックは、動き推定ユニット４２および動き補償ユニット４４によって、後続のビデオフレーム中のブロックをインターコーディングするために参照ブロックとして使用され得る。

[0208]図３は、ビデオコーディング規格の拡張に従ってコーディングされたビデオデータをトランスポートするための技法を実装し得るビデオデコーダ３０の一例を示すブロック図である。図３の例では、ビデオデコーダ３０は、エントロピー復号ユニット７０と、動き補償ユニット７２と、イントラ予測ユニット７４と、逆量子化ユニット７６と、逆変換ユニット７８と、参照ピクチャメモリ８２と、加算器８０とを含む。ビデオデコーダ３０は、いくつかの例では、ビデオエンコーダ２０（図２）に関して説明した符号化パスとは概して逆の復号パスを実施し得る。動き補償ユニット７２は、エントロピー復号ユニット７０から受信された動きベクトルに基づいて、予測データを生成し得、イントラ予測ユニット７４は、エントロピー復号ユニット７０から受信されたイントラ予測モードインジケータに基づいて、予測データを生成し得る。

[0209]復号プロセスの間、ビデオデコーダ３０は、符号化ビデオスライスのビデオブロックおよび関連付けられたシンタックス要素を表す符号化ビットストリームをビデオエンコーダ２０から受信する。ビデオデコーダ３０のエントロピー復号ユニット７０は、量子化された係数と、動きベクトルまたはイントラ予測モードインジケータと、他のシンタックス要素とを生成するために、ビットストリームをエントロピー復号する。エントロピー復号ユニット７０は、動きベクトルと他のシンタックス要素とを動き補償ユニット７２に転送する。ビデオデコーダ３０は、ビデオスライスレベルおよび／またはビデオブロックレベルでシンタックス要素を受信し得る。

[0210]ビデオスライスがイントラコード化（Ｉ）スライスとしてコーディングされるとき、イントラ予測ユニット７４は、シグナリングされたイントラ予測モードと、現在フレームまたはピクチャの、前に復号されたブロックからのデータとに基づいて、現在ビデオスライスのビデオブロックのための予測データを生成し得る。ビデオフレームがインターコード化（すなわち、Ｂ、Ｐ、またはＧＰＢ）スライスとしてコーディングされるとき、動き補償ユニット７２は、エントロピー復号ユニット７０から受信された動きベクトルと他のシンタックス要素とに基づいて、現在ビデオスライスのビデオブロックに関する予測ブロックを生成する。予測ブロックは、参照ピクチャリストのうちの１つの中の参照ピクチャのうちの１つから生成され得る。ビデオデコーダ３０は、参照ピクチャメモリ８２に記憶された参照ピクチャに基づくデフォルトの構成技法を使用して参照フレームリストのリスト０およびリスト１を構成し得る。

[0211]動き補償ユニット７２は、動きベクトルと他のシンタックス要素とをパースすることによって現在ビデオスライスのビデオブロックについての予測情報を決定し、復号されている現在ビデオブロックのための予測ブロックを生成するために予測情報を使用する。たとえば、動き補償ユニット７２は、ビデオスライスのビデオブロックをコーディングするために使用される予測モード（たとえば、イントラ予測またはインター予測）と、インター予測スライスタイプ（たとえば、Ｂスライス、Ｐスライス、またはＧＰＢスライス）と、スライスの参照ピクチャリストのうちの１つまたは複数のための構成情報と、スライスの各インター符号化ビデオブロックのための動きベクトルと、スライスの各インターコード化ビデオブロックのためのインター予測ステータスと、現在ビデオスライス中のビデオブロックを復号するための他の情報とを決定するために、受信されたシンタックス要素のいくつかを使用する。

[0212]動き補償ユニット７２はまた、補間フィルタに基づいて補間を実行し得る。動き補償ユニット７２は、参照ブロックのサブ整数ピクセルのための補間された値を計算するために、ビデオブロックの符号化中にビデオエンコーダ２０によって使用された補間フィルタを使用し得る。この場合、動き補償ユニット７２は、受信されたシンタックス要素からビデオエンコーダ２０によって使用された補間フィルタを決定し、その補間フィルタを使用して予測ブロックを生成し得る。

[0213]いくつかの例では、動き補償ユニット７２は、レイヤ間予測を実行するとき、たとえば、エンハンスメントレイヤ中のブロックが拡張されているベースレイヤ中のブロックと同じまたは実質的に同じ位置にあるスケーラビリティ次元にエンハンスメントレイヤが対応するとき、ブロックの０動きベクトル予測を実行し得る。そのようなスケーラビリティ次元は、たとえば、クロマビット深度、色フォーマット、色域、ＰＳＮＲなどを含み得る。代替的に、動き補償ユニット７２は、１つまたは複数の参照ビュー（たとえば、ベースビュー）から従属ビューのブロックを予測するために視差動きベクトルを使用し得る。ビューがレイヤの一例であることを理解されたい。すなわち、エンハンスメントレイヤがビューであるとき、スケーラビリティ次元は、（たとえば、閲覧者に３次元効果を生成するためのデータを与えるために）ビュー次元に対応し得る。

[0214]逆量子化ユニット７６は、ビットストリーム内で提供され、エントロピー復号ユニット７０によって復号された、量子化変換係数を逆量子化（inverse quantize）、すなわち、逆量子化（de-quantize）する。逆量子化プロセスは、量子化の程度を決定し、同様に、適用されるべき逆量子化の程度を決定するための、ビデオスライス中の各ビデオブロックに関してビデオデコーダ３０によって計算される量子化パラメータＱＰ_Yの使用を含み得る。逆変換ユニット７８は、ピクセル領域において残差ブロックを生成するために、逆変換、たとえば、逆ＤＣＴ、逆整数変換、または概念的に同様の逆変換プロセスを変換係数に適用する。

[0215]動き補償ユニット７２が、動きベクトルおよび他のシンタックス要素に基づいて現在のビデオブロックのための予測ブロックを生成した後、ビデオデコーダ３０は、逆変換ユニット７８からの残差ブロックを動き補償ユニット７２によって生成された対応する予測ブロックと加算することによって、復号されたビデオブロックを形成する。加算器８０は、この加算演算を実施する１つまたは複数の構成要素を表す。所望される場合、ブロッキネスアーティファクトを削除するために、復号ブロックをフィルタ処理するためのデブロッキングフィルタも適用され得る。他のループフィルタ（コーディングループの中、またはコーディングループの後のいずれかにおける）も、ピクセルの遷移を平滑化し、または場合によってはビデオ品質を改善するために使用され得る。その後、所与のフレームまたはピクチャ内の復号されたビデオブロックは、参照ピクチャメモリ８２内に記憶され、参照ピクチャメモリ８２は、後続の動き補償のために使用される参照ピクチャを記憶する。参照ピクチャメモリ８２はまた、図１のディスプレイデバイス３２などのディスプレイデバイス上で後で提示するために復号ビデオを記憶する。

[0216]図４は、オーディオ／ビデオ（Ａ／Ｖ）ソースデバイス１２０がオーディオおよびビデオデータをＡ／Ｖ宛先デバイス１４０にトランスポートする例示的なシステム１００を示すブロック図である。図４のシステム１００は、ビデオ通信会議システム、サーバ／クライアントシステム、放送事業者／受信機システム、またはＡ／Ｖソースデバイス１２０などのソースデバイスからＡ／Ｖ宛先デバイス１４０などの宛先デバイスにビデオデータが送られる任意の他のシステムに対応し得る。いくつかの例では、Ａ／Ｖソースデバイス１２０およびＡ／Ｖ宛先デバイス１４０は双方向情報交換を実行し得る。すなわち、Ａ／Ｖソースデバイス１２０およびＡ／Ｖ宛先デバイス１４０は、オーディオおよびビデオデータの符号化と復号（および、送信と受信）の両方が可能であり得る。いくつかの例では、オーディオエンコーダ１２６は、ボコーダとも呼ばれるボイスエンコーダを備え得る。

[0217]Ａ／Ｖソースデバイス１２０は、図４の例では、オーディオソース１２２とビデオソース１２４とを備える。オーディオソース１２２は、たとえば、オーディオエンコーダ１２６によって符号化されるべき、キャプチャされたオーディオデータを表す電気信号を生成するマイクロフォンを備え得る。代替的に、オーディオソース１２２は、前に記録されたオーディオデータを記憶する記憶媒体、コンピュータシンセサイザなどのオーディオデータ生成器、またはオーディオデータの任意の他のソースを備え得る。ビデオソース１２４は、ビデオエンコーダ１２８によって符号化されるべきビデオデータを生成するビデオカメラ、前に記録されたビデオデータで符号化された記憶媒体、ビデオデータ生成ユニット、またはビデオデータの任意の他のソースを備え得る。

[0218]未加工オーディオおよびビデオデータは、アナログまたはデジタルデータを備え得る。アナログデータは、オーディオエンコーダ１２６および／またはビデオエンコーダ１２８によって符号化される前にデジタル化され得る。オーディオソース１２２は、通話参加者が話している間、通話参加者からオーディオデータを取得し得、同時に、ビデオソース１２４は、通話参加者のビデオデータを取得し得る。他の例では、オーディオソース１２２は、記憶されたオーディオデータを備えるコンピュータ可読記憶媒体を備え得、ビデオソース１２４は、記憶されたビデオデータを備えるコンピュータ可読記憶媒体を備え得る。このようにして、本開示で説明する技法は、ライブ、ストリーミング、リアルタイムオーディオおよびビデオデータ、またはアーカイブされた、あらかじめ記録されたオーディオおよびビデオデータに適用され得る。

[0219]ビデオフレームに対応するオーディオフレームは、概して、ビデオフレーム内に含まれているビデオソース１２４によってキャプチャされたビデオデータと同時に、オーディオソース１２２によってキャプチャされたオーディオデータを含むオーディオフレームである。たとえば、通話参加者が概して話すことによってオーディオデータを生成する間、オーディオソース１２２はオーディオデータをキャプチャし、同時に、すなわちオーディオソース１２２がオーディオデータをキャプチャしている間、ビデオソース１２４は通話参加者のビデオデータをキャプチャする。したがって、オーディオフレームは、１つまたは複数の特定のビデオフレームに時間的に対応し得る。したがって、ビデオフレームに対応するオーディオフレームは、一般に、オーディオデータとビデオデータとが同時にキャプチャされる状況、およびオーディオフレームとビデオフレームとが、それぞれ、同時にキャプチャされたオーディオデータとビデオデータとを備える状況に対応する。

[0220]いくつかの例では、オーディオエンコーダ１２６は、符号化オーディオフレームのオーディオデータが記録された時間を表す、各符号化オーディオフレームにおけるタイムスタンプを符号化し得、同様に、ビデオエンコーダ１２８は、符号化ビデオフレームのビデオデータが記録された時間を表す、各符号化ビデオフレームにおけるタイムスタンプを符号化し得る。そのような例では、ビデオフレームに対応するオーディオフレームは、タイムスタンプを備えるオーディオフレームと、同じタイムスタンプを備えるビデオフレームとを備え得る。Ａ／Ｖソースデバイス１２０は、オーディオエンコーダ１２６および／またはビデオエンコーダ１２８がそこからタイムスタンプを生成し得るか、あるいはオーディオソース１２２およびビデオソース１２４がオーディオおよびビデオデータをそれぞれタイムスタンプに関連付けるために使用し得る、内部クロックを含み得る。

[0221]いくつかの例では、オーディオソース１２２は、オーディオデータが記録された時間に対応するデータをオーディオエンコーダ１２６に送り得、ビデオソース１２４は、ビデオデータが記録された時間に対応するデータをビデオエンコーダ１２８に送り得る。いくつかの例では、オーディオエンコーダ１２６は、必ずしもオーディオデータが記録された絶対時刻を示すことなしに、符号化オーディオデータの相対的時間順序を示すために、符号化オーディオデータ中のシーケンス識別子を符号化し得、同様に、ビデオエンコーダ１２８も、符号化ビデオデータの相対的時間順序を示すためにシーケンス識別子を使用し得る。同様に、いくつかの例では、シーケンス識別子は、タイムスタンプにマッピングされるか、または他の方法でタイムスタンプと相関させられ得る。

[0222]本開示の技法は、概して、符号化マルチメディア（たとえば、オーディオおよびビデオ）データのトランスポートと、トランスポートされたマルチメディアデータの受信ならびに後続の解釈および復号とを対象とする。本開示の技法は、特にマルチビュービデオコーディング（ＭＶＣ）データ、すなわち複数のビューを備えるビデオデータのトランスポートに適用可能である。図４の例に示すように、ビデオソース１２４はシーンの複数のビューをビデオエンコーダ１２８に与え得る。ＭＶＣは、立体視または自動立体視３次元ディスプレイなど、３次元ディスプレイによって使用されるべき３次元ビデオデータを生成するために有用であり得る。

[0223]Ａ／Ｖソースデバイス１２０は、Ａ／Ｖ宛先デバイス１４０に「サービス」を提供し得る。サービスは、概して、ＭＶＣデータの利用可能なビューのサブセットに対応する。たとえば、ＭＶＣデータは、０から７まで順序付けられた８つのビューについて利用可能であり得る。あるサービスは、２つのビューを有するステレオビデオに対応し得るが、別のサービスは４つのビューに対応し得、さらに別のサービスは８つのビューすべてに対応し得る。概して、サービスは、利用可能なビューの任意の組合せ（すなわち、任意のサブセット）に対応する。サービスはまた、利用可能なビューならびにオーディオデータの組合せに対応し得る。Ａ／Ｖソースデバイス１２０が、Ａ／Ｖソースデバイス１２０によって提供されるサービスごとに動作点記述子をさらに与え得るように、動作点がサービスに対応し得る。

[0224]Ａ／Ｖソースデバイス１２０は、本開示の技法に従って、ビューのサブセットに対応するサービスを提供することができる。概して、ビューは、「ｖｉｅｗ＿ｉｄ」とも呼ばれるビュー識別子によって表される。ビュー識別子は、概して、ビューを識別するために使用され得るシンタックス要素を備える。ビューが符号化されるとき、ＭＶＣエンコーダはビューのｖｉｅｗ＿ｉｄを与える。ｖｉｅｗ＿ｉｄは、ＭＶＣデコーダによってビュー間予測（inter-view prediction）のために使用されるか、または他のユニットによって他の目的、たとえばレンダリングのために使用され得る。

[0225]ビュー間予測は、フレームのＭＶＣビデオデータを、共通の時間ロケーションにおける１つまたは複数のフレームを参照して、異なるビューの符号化フレームとして符号化するための技法である。概して、ＭＶＣビデオデータの符号化フレームは、空間的に、時間的に、および／または共通の時間ロケーションにおける他のビューのフレームを参照して、予測符号化され得る。したがって、他のビューがそこから予測される参照ビューは、概して、参照ビューを復号するときに、復号された参照ビューが参照のために使用され得るように、参照ビューが参照として働くビューの前に復号される。復号順序は必ずしもｖｉｅｗ＿ｉｄの順序に対応しない。したがって、ビューの復号順序はビュー順序インデックスを使用して記述される。ビュー順序インデックスは、アクセスユニット中の対応するビュー構成要素の復号順序を示すインデックスである。

[0226]各個のデータストリームは（オーディオかビデオかにかかわらず）エレメンタリストリームと呼ばれる。エレメンタリストリームは、デジタル的にコーディングされた（場合によっては圧縮された）プログラムの単一の構成要素である。たとえば、プログラムのコーディングされたビデオまたはオーディオ部分はエレメンタリストリームであり得る。エレメンタリストリームは、プログラムストリームまたはトランスポートストリームに多重化される前に、パケット化エレメンタリストリーム（ＰＥＳ）に変換され得る。同じプログラム内では、１つのエレメンタリストリームに属するＰＥＳパケットを他のものから区別するためにストリームＩＤが使用される。エレメンタリストリームの基本データ単位はパケット化されたエレメンタリストリーム（ＰＥＳ）パケットである。したがって、ＭＶＣビデオデータの各ビューはそれぞれのエレメンタリストリームに対応する。同様に、オーディオデータは１つまたは複数のそれぞれのエレメンタリストリームに対応する。

[0227]ＭＶＣコード化ビデオシーケンスは、各々がエレメンタリストリームであるいくつかのサブビットストリームに分離され得る。各サブビットストリームは、ＭＶＣｖｉｅｗ＿ｉｄサブセットを使用して識別され得る。各ＭＶＣｖｉｅｗ＿ｉｄサブセットの概念に基づいて、ＭＶＣビデオサブビットストリームが定義される。ＭＶＣビデオサブビットストリームは、ＭＶＣｖｉｅｗ＿ｉｄサブセットに記載されているビューのＮＡＬユニットを含んでいる。プログラムストリームは、概して、エレメンタリストリームのものであるＮＡＬユニットのみを含んでいる。それはまた、２つのエレメンタリストリームが同じビューを含んでいることができないように設計されている。

[0228]図４の例では、マルチプレクサ１３０は、ビデオエンコーダ１２８からビデオデータを備えるエレメンタリストリームを受信し、オーディオエンコーダ１２６からオーディオデータを備えるエレメンタリストリームを受信する。いくつかの例では、ビデオエンコーダ１２８およびオーディオエンコーダ１２６は各々、符号化データからＰＥＳパケットを形成するためのパケッタイザを含み得る。他の例では、ビデオエンコーダ１２８およびオーディオエンコーダ１２６はそれぞれ、符号化データからＰＥＳパケットを形成するためのそれぞれのパケッタイザとインターフェースし得る。さらに他の例では、マルチプレクサ１３０は、符号化オーディオデータと符号化ビデオデータとからＰＥＳパケットを形成するためのパケッタイザを含み得る。

[0229]本開示で使用する「プログラム」は、オーディオデータとビデオデータとの組合せ、たとえば、Ａ／Ｖソースデバイス１２０のサービスによって配信されたオーディオエレメンタリストリームと利用可能なビューのサブセットとを備え得る。各ＰＥＳパケットは、ＰＥＳパケットが属するエレメンタリストリームを識別するｓｔｒｅａｍ＿ｉｄを含む。マルチプレクサ１３０は、エレメンタリストリームを構成プログラムストリームまたはトランスポートストリームにアセンブルすることを担当する。プログラムストリームとトランスポートストリームとは、異なるアプリケーションをターゲットにする２つの代替多重である。

[0230]概して、プログラムストリームは１つのプログラムのデータを含み、トランスポートストリームは１つまたは複数のプログラムのデータを含み得る。マルチプレクサ１３０は、提供されているサービス、ストリームが渡される媒体、送られるべきプログラムの数、または他の考慮事項に基づいて、プログラムストリームまたはトランスポートストリームのいずれかあるいは両方を符号化し得る。たとえば、記憶媒体中のビデオデータが符号化されるべきであるときは、マルチプレクサ１３０はプログラムストリームを形成する可能性がより高くなり得、ビデオデータがネットワークを介してストリーミングされるか、ブロードキャストされるか、またはビデオテレフォニーの一部として送られるべきであるときは、マルチプレクサ１３０はトランスポートストリームを使用する可能性がより高くなり得る。

[0231]マルチプレクサ１３０は、デジタルストレージサービスからの単一のプログラムの記憶および表示のためにプログラムストリームを使用することのほうを優先してバイアスされ得る。プログラムストリームはむしろ誤りが起こりやすいので、プログラムストリームは、誤りのない環境、または誤りがより起こりにくい環境での使用を対象とする。プログラムストリームは、それに属するエレメンタリストリームを備えるにすぎず、通常、可変長さのパケットを含んでいる。プログラムストリームでは、寄与しているエレメンタリストリームから導出されたＰＥＳパケットが「パック」に編成される。パックは、パックヘッダと、随意のシステムヘッダと、寄与しているエレメンタリストリームのいずれかから取られる任意の数のＰＥＳパケットとを任意の順序で備える。システムヘッダは、プログラムストリームの最大データレート、寄与しているビデオおよびオーディオエレメンタリストリームの数、さらなるタイミング情報、または他の情報など、プログラムストリームの特性の概要を含んでいる。デコーダは、デコーダがプログラムストリームを復号することが可能か否かを決定するために、システムヘッダ中に含まれている情報を使用し得る。

[0232]マルチプレクサ１３０は、潜在的に誤りを起こしやすいチャネルを介した複数のプログラムの同時配信のためにトランスポートストリームを使用し得る。トランスポートストリームは、単一のトランスポートストリームが多くの独立したプログラムに適応することができるように、ブロードキャストなどのマルチプログラムアプリケーションのために考案された多重である。トランスポートストリームは、トランスポートパケットの各々が長さ１８８バイトである、トランスポートパケットの連続を備え得る。短い、固定長パケットの使用により、トランスポートストリームはプログラムストリームよりも誤りが起こりにくくなる。さらに、各長さ１８８バイトのトランスポートパケットは、リードソロモン符号化などの標準誤り防止プロセスを通してパケットを処理することによって追加の誤り保護を与えられ得る。トランスポートストリームの誤り耐性の改善は、たとえば、ブロードキャスト環境において発見されるべき、誤りを起こしやすいチャネルを克服する可能性がより高いことを意味する。

[0233]トランスポートストリームは、その誤り耐性の向上と多くの同時プログラムを搬送する能力とにより、プログラムストリームよりも良好であるように見えることがある。ただし、トランスポートストリームは、プログラムストリームよりもさらに高度な多重であり、したがって、プログラムストリームよりも作成がより困難であり、多重分離がより複雑である。トランスポートパケットの最初のバイトは、０ｘ４７の値（１６進値４７、２進値「０１０００１１１」、１０進値７１）を有する同期バイトであり得る。単一のトランスポートストリームは多くの異なるプログラムを搬送し得、各プログラムは多くのパケット化エレメンタリストリームを備える。マルチプレクサ１３０は、１つのエレメンタリストリームのデータを含んでいるトランスポートパケットを、他のエレメンタリストリームのデータを搬送しているものと区別するために１３ビットパケット識別子（ＰＩＤ）フィールドを使用し得る。各エレメンタリストリームが一意のＰＩＤ値を与えられることを保証することは、マルチプレクサの責任である。トランスポートパケットの最後のバイトは連続性カウントフィールドであり得る。マルチプレクサ１３０は、同じエレメンタリストリームに属する連続するトランスポートパケット間で連続性カウントフィールドの値を増分する。これは、Ａ／Ｖ宛先デバイス１４０など、宛先デバイスのデコーダまたは他のユニットがトランスポートパケットの損失または利得を検出し、他の場合はそのようなイベントから生じ得る誤りを願わくは隠匿することを可能にする。

[0234]マルチプレクサ１３０は、オーディオエンコーダ１２６とビデオエンコーダ１２８とからプログラムのエレメンタリストリームのＰＥＳパケットを受信し、ＰＥＳパケットから対応するネットワークアブストラクションレイヤ（ＮＡＬ）ユニットを形成する。Ｈ．２６４／ＡＶＣ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）の例では、コード化ビデオセグメントは、ビデオテレフォニー、ストレージ、ブロードキャスト、またはストリーミングなどの適用例に対処する「ネットワークフレンドリーな」ビデオ表現を与えるＮＡＬユニットに編成される。ＮＡＬユニットは、ビデオコーディングレイヤ（ＶＣＬ）ＮＡＬユニットと非ＶＣＬＮＡＬユニットとに分類され得る。ＶＣＬユニットは、コア圧縮エンジンを含んでおり、ブロック、マクロブロック、および／またはスライスレベルを備え得る。他のＮＡＬユニットは非ＶＣＬＮＡＬユニットである。

[0235]マルチプレクサ１３０は、ＮＡＬが属するプログラムを識別するヘッダ、ならびにペイロード、たとえば、オーディオデータ、ビデオデータ、あるいはＮＡＬユニットが対応するトランスポートまたはプログラムストリームを記述するデータを備えるＮＡＬユニットを形成し得る。たとえば、Ｈ．２６４／ＡＶＣでは、ＮＡＬユニットは１バイトのヘッダと変動するサイズのペイロードとを含む。一例では、ＮＡＬユニットヘッダは、ｐｒｉｏｒｉｔｙ＿ｉｄ要素と、ｔｅｍｐｏｒａｌ＿ｉｄ要素と、ａｎｃｈｏｒ＿ｐｉｃ＿ｆｌａｇ要素と、ｖｉｅｗ＿ｉｄ要素と、ｎｏｎ＿ｉｄｒ＿ｆｌａｇ要素と、ｉｎｔｅｒ＿ｖｉｅｗ＿ｆｌａｇ要素とを備える。従来のＭＶＣでは、４バイトのＭＶＣＮＡＬユニットヘッダとＮＡＬユニットペイロードとを含む、プレフィックスＮＡＬユニットとＭＶＣコード化スライスＮＡＬユニットとを除いて、Ｈ．２６４によって定義されたＮＡＬユニットが保持される。

[0236]ＮＡＬヘッダのｐｒｉｏｒｉｔｙ＿ｉｄ要素は、単純なワンパス（one-path）ビットストリーム適合プロセスのために使用され得る。ｔｅｍｐｏｒａｌ＿ｉｄ要素は、異なる時間レベルが異なるフレームレートに対応する場合、対応するＮＡＬユニットの時間レベルを指定するために使用され得る。

[0237]ａｎｃｈｏｒ＿ｐｉｃ＿ｆｌａｇ要素は、ピクチャがアンカーピクチャであるか非アンカーピクチャであるかを示し得る。アンカーピクチャと出力順序（すなわち、表示順序）でそれに続くすべてのピクチャとは、復号順序（すなわち、ビットストリーム順序）で前のピクチャを復号することなしに正しく復号され得、したがってランダムアクセスポイントとして使用され得る。アンカーピクチャと非アンカーピクチャとは異なる依存性を有することができ、その両方はシーケンスパラメータセット中でシグナリングされる。他のフラグについては、本章の以下のセクションで説明され、使用される。そのようなアンカーピクチャは、開いたＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅｓ）アクセスポイントと呼ばれることもあり、ｎｏｎ＿ｉｄｒ＿ｆｌａｇ要素が０に等しいとき、閉じたＧＯＰアクセスポイントもサポートされる。ｎｏｎ＿ｉｄｒ＿ｆｌａｇ要素は、ピクチャが瞬時デコーダリフレッシュ（ＩＤＲ：instantaneous decoder refresh）であるかビューＩＤＲ（Ｖ−ＩＤＲ）ピクチャであるかを示す。概して、ＩＤＲピクチャと出力順序またはビットストリーム順序でそれに続くすべてのピクチャとは、復号順序または表示順序のいずれかで前のピクチャを復号することなしに正しく復号され得る。

[0238]ｖｉｅｗ＿ｉｄ要素は、ＭＶＣデコーダ内でデータ対話性のために、たとえば、ビュー間予測のために、およびデコーダ外で、たとえば、レンダリングのために使用され得る、ビューを識別するために使用され得るシンタックス情報を備え得る。ｉｎｔｅｒ＿ｖｉｅｗ＿ｆｌａｇ要素は、対応するＮＡＬユニットが他のビューによってビュー間予測のために使用されるかどうかを指定し得る。ＡＶＣに準拠し得る、ベースビューの４バイトＮＡＬユニットヘッダ情報を搬送するために、ＭＶＣにおいてプレフィックスＮＡＬユニットが定義される。ＭＶＣのコンテキストにおいて、ベースビューアクセスユニットは、ビューの現在時間インスタンスのＶＣＬＮＡＬユニット、ならびにＮＡＬユニットヘッドのみを含んでいるプレフィックスＮＡＬユニットを含む。Ｈ．２６４／ＡＶＣデコーダはプレフィックスＮＡＬユニットを無視し得る。

[0239]そのペイロード中にビデオデータを含むＮＡＬユニットは、様々なグラニュラリティレベルのビデオデータを備え得る。たとえば、ＮＡＬユニットは、ビデオデータのブロック、マクロブロック、複数のマクロブロック、ビデオデータのスライス、またはビデオデータのフレーム全体を備え得る。マルチプレクサ１３０は、ビデオエンコーダ１２８から符号化ビデオデータをエレメンタリストリームのＰＥＳパケットの形態で受信し得る。マルチプレクサ１３０は、ｓｔｒｅａｍ＿ｉｄを、たとえば、データベース中の、あるいはプログラムマップテーブル（ＰＭＴ）またはプログラムストリームマップ（ＰＳＭ）など、他のデータ構造中の対応するプログラムにマッピングすることによって、各エレメンタリストリームを対応するプログラムに関連付け得る。

[0240]マルチプレクサ１３０はまた、複数のＮＡＬユニットからアクセスユニットをアセンブルし得る。概して、アクセスユニットは、ビデオデータのフレームを表すための１つまたは複数のＮＡＬユニット、そのフレームに対応するオーディオデータが利用可能なとき、そのようなオーディオデータも備え得る。アクセスユニットは、概して、１つの出力時間インスタンスにわたるすべてのＮＡＬユニット、たとえば１つの時間インスタンスにわたるすべてのオーディオおよびビデオデータを含む。たとえば、各ビューが１２０フレーム毎秒（ｆｐｓ）のフレームレートを有する場合、各時間インスタンスは０．０５秒の時間間隔に対応し得る。この時間間隔中に、同じアクセスユニット（同じ時間インスタンス）のすべてのビューの固有のフレームは同時にレンダリングされ得る。Ｈ．２６４／ＡＶＣに対応する例では、アクセスユニットは、１次コード化ピクチャとして提示され得る、１つの時間インスタンス中のコード化ピクチャを備え得る。したがって、アクセスユニットは、共通の時間インスタンスのすべてのオーディオおよびビデオフレーム、たとえば、時間Ｘに対応するすべてのビューを備え得る。本開示はまた、特定のビューの符号化ピクチャを「ビュー構成要素」と呼ぶ。すなわち、ビュー構成要素は、特定の時間における特定のビューの符号化ピクチャ（またはフレーム）を備え得る。したがって、アクセスユニットは、共通の時間インスタンスのすべてのビュー構成要素を備えるものと定義され得る。アクセスユニットの復号順序は、必ずしも出力または表示順序と同じである必要はない。

[0241]マルチプレクサ１３０はまた、プログラムに関するデータをＮＡＬユニット中に埋め込み得る。たとえば、マルチプレクサ１３０は、プログラムマップテーブル（ＰＭＴ）またはプログラムストリームマップ（ＰＳＭ）を備えるＮＡＬユニットを作成し得る。概して、ＰＭＴはトランスポートストリームを記述するために使用され、ＰＳＭはプログラムストリームを記述するために使用される。図２の例に関して以下でより詳細に説明するように、マルチプレクサ１３０は、オーディオエンコーダ１２６とビデオエンコーダ１２８とから受信されたエレメンタリストリームをプログラムに関連付け、それに応じてそれぞれのトランスポートストリームおよび／またはプログラムストリームに関連付けるデータストレージユニットを備えるかあるいはそれと対話し得る。

[0242]多くのビデオコーディング規格の場合と同様に、Ｈ．２６４／ＡＶＣおよびＨＥＶＣは、誤りのないビットストリームのシンタックスと、セマンティクスと、復号プロセスとを定義し、そのいずれも特定のプロファイルまたはレベルに準拠する。これらの規格は、エンコーダを指定しないが、エンコーダは、生成されたビットストリームがデコーダの規格に準拠することを保証することを課される。ビデオコーディング規格のコンテキストでは、「プロファイル」は、アルゴリズム、機能、またはツール、およびそれらに適用される制約のサブセットに対応する。たとえば、Ｈ．２６４規格によって定義される「プロファイル」は、Ｈ．２６４規格によって指定されたビットストリームシンタックス全体のサブセットである。「レベル」は、たとえば、ピクチャの解像度、ビットレート、およびマクロブロック（ＭＢ）処理レートに関係するデコーダメモリおよび計算など、デコーダリソース消費の制限に対応する。

[0243]Ｈ．２６４規格は、たとえば、所与のプロファイルのシンタックスによって課される限界内で、復号ピクチャの指定されたサイズなど、ビットストリーム中のシンタックス要素がとる値に応じて、エンコーダおよびデコーダのパフォーマンスの大きい変動を必要とする可能性が依然としてあることを認識している。Ｈ．２６４規格は、多くの適用例において、特定のプロファイル内でシンタックスのすべての仮定的使用を処理することが可能なデコーダを実装することが現実的でもなく、経済的でもないことをさらに認める。したがって、Ｈ．２６４規格は、ビットストリーム中のシンタックス要素の値に課された制約の規定されたセットとして「レベル」を定義する。これらの制約は、値に関する単純な制限であり得る。代替的に、これらの制約は、値の演算の組合せ（たとえば、ピクチャの幅×ピクチャの高さ×毎秒復号されるピクチャの数）に関する制約の形態をとり得る。Ｈ．２６４規格は、個々の実装形態が、サポートされるプロファイルごとに異なるレベルをサポートし得ることをさらに規定する。

[0244]プロファイルに準拠するデコーダは、通常、プロファイル中で定義されたすべての機能をサポートする。たとえば、コーディング機能として、Ｂピクチャコーディングは、Ｈ．２６４／ＡＶＣのベースラインプロファイルではサポートされないが、Ｈ．２６４／ＡＶＣの他のプロファイルではサポートされる。レベルに準拠するデコーダは、レベルにおいて定義された制限を超えてリソースを必要としない任意のビットストリームを復号することが可能である必要がある。プロファイルおよびレベルの定義は、解釈可能性のために役立ち得る。たとえば、ビデオ送信中に、プロファイル定義とレベル定義のペアが全送信セッションについてネゴシエートされ、同意され得る。より具体的には、Ｈ．２６４／ＡＶＣでは、レベルは、たとえば、処理される必要があるマクロブロックの数に関する制限と、復号されたピクチャバッファ（ＤＰＢ）のサイズと、コーディングされたピクチャバッファ（ＣＰＢ）のサイズと、垂直方向の動きベクトルの範囲と、２つの連続するＭＢごとの動きベクトルの最大数と、Ｂブロックが８×８ピクセル未満のサブマクロブロックパーティションを有することができるかどうかとを定義し得る。このようにして、デコーダは、デコーダがビットストリームを適切に復号することが可能であるかどうかを決定し得る。

[0245]パラメータセットは、一般に、シーケンスパラメータセット（ＳＰＳ）中のシーケンスレイヤヘッダ情報とピクチャパラメータセット（ＰＰＳ）中のまれに変化するピクチャレイヤヘッダ情報とを含む。パラメータセットがある場合、このまれに変化する情報をシーケンスごとまたはピクチャごとに繰り返す必要はなく、したがってコーディング効率が改善され得る。さらに、パラメータセットの使用はヘッダ情報の帯域外送信を可能にし、誤り耐性を達成するための冗長送信の必要を回避し得る。帯域外送信では、他のＮＡＬユニットとは異なるチャネル上でパラメータセットＮＡＬユニットが送信される。

[0246]ＭＰＥＧ−２システム規格は、「記述子」によってシステムの拡張を可能にする。ＰＭＴとＰＳＭの両方は、１つまたは複数の記述子が挿入され得る記述子ループを含む。概して、記述子は、プログラムおよび／またはプログラム要素の定義を拡張するために使用され得るデータ構造を備え得る。本開示は、本開示の技法を実行するための動作点記述子について説明する。概して、本開示の動作点記述子は、動作点のレンダリング能力と、復号能力と、ビットレートとを記述することによって、従来のＭＶＣ拡張記述子を拡張する。Ａ／Ｖ宛先デバイス１４０などの宛先デバイスは、復号されるべきビットストリームの動作点のうちの１つを選択するために、動作点ごとに動作点記述子を使用し得る。

[0247]各ＰＭＴまたはＰＳＭは、動作点の特性を記述する動作点記述子を含み得る。たとえば、ソースデバイス１２０は、宛先デバイス１４０（たとえば、クライアントデバイス）のレンダリング能力を記述するレンダリング能力値を与えるために動作点記述子を与え得る。宛先デバイス１４０が動作点のビデオデータを適切にレンダリング（たとえば、表示）するために、宛先デバイス１４０は、レンダリング能力値によってシグナリングされたレンダリング能力を満たす必要がある。レンダリング能力値は、たとえば、表示されるべきビューの数（たとえば、レンダリングの対象となるビューの数）および／またはビューのビデオデータのフレームレートを記述し得る。したがって、宛先デバイス１４０は、宛先デバイス１４０のビデオ出力１４４が、動作点記述子によって指定されたフレームレートで、動作点のその数のビューを表示することができるとき、レンダリング能力が満たされると決定し得る。

[0248]マルチプレクサ１３０が、受信したデータからＮＡＬユニットおよび／またはアクセスユニットをアセンブルした後、マルチプレクサ１３０はユニットを出力のために出力インターフェース１３２に渡す。出力インターフェース１３２は、たとえば、送信機、トランシーバ、たとえば、オプティカルドライブ、磁気メディアドライブ（たとえば、フロッピー（登録商標）ドライブ）など、コンピュータ可読媒体にデータを書き込むためのデバイス、ユニバーサルシリアルバス（ＵＳＢ）ポート、ネットワークインターフェース、または他の出力インターフェースを備え得る。出力インターフェース１３２は、ＮＡＬユニットまたはアクセスユニットを、たとえば、送信信号、磁気メディア、光メディア、メモリ、フラッシュドライブ、または他のコンピュータ可読媒体など、コンピュータ可読媒体１３４に出力する。

[0249]最終的に、入力インターフェース１３６はコンピュータ可読媒体１３４からデータを取り出す。入力インターフェース１３６は、たとえば、オプティカルドライブ、磁気メディアドライブ、ＵＳＢポート、受信機、トランシーバ、または他のコンピュータ可読媒体インターフェースを備え得る。入力インターフェース１３６は、ＮＡＬユニットまたはアクセスユニットをデマルチプレクサ１３８に与え得る。デマルチプレクサ１３８は、トランスポートストリームまたはプログラムストリームを構成ＰＥＳストリームに多重分離し、符号化データを取り出すためにＰＥＳストリームをパケット化解除し、たとえば、ストリームのＰＥＳパケットヘッダによって示されるように、符号化データがオーディオまたはビデオストリームの一部であるかどうかに応じて、符号化データをオーディオデコーダ１４６またはビデオデコーダ１４８に送り得る。オーディオデコーダ１４６は、符号化オーディオデータを復号し、復号オーディオデータをオーディオ出力１４２に送り、ビデオデコーダ１４８は、符号化ビデオデータを復号し、ストリームの複数のビューを含み得る復号ビデオデータをビデオ出力１４４に送る。ビデオ出力１４４は、シーンの複数のビュー、たとえばシーンの各ビューを同時に提示する立体視または自動立体視ディスプレイを使用するディスプレイを備え得る。

[0250]特に、デマルチプレクサ１３８は、受信したビットストリームの動作点を選択し得る。たとえば、デマルチプレクサ１３８は、Ａ／Ｖ宛先デバイス１４０によって使用されるべき適切な動作点を選択するために、ビットストリームの動作点の特性を比較し得る。概して、デマルチプレクサ１３８は、ビデオデコーダ１４８によって復号され得る、ユーザにとって最高品質の閲覧エクスペリエンスを与える動作点の１つを選択しようと試み得る。たとえば、デマルチプレクサ１３８は、ビデオデコーダ１４８のレンダリング能力および復号能力を、ビットストリームの動作点記述子によってシグナリングされた、示唆されたレンダリング能力および復号能力と比較し得る。デマルチプレクサ１３８が決定するオブザ動作点はビデオデコーダ１４８によって適切に復号され得、デマルチプレクサ１３８は最高品質ビデオデータ（たとえば、最高フレームレートおよび／またはビットレート）を与える動作点を選択し得る。他の例では、デマルチプレクサ１３８は、たとえば、電力消費量など、他の考慮事項に基づいて、サポートされる動作点の１つを選択し得る。

[0251]概して、システム１００は、図１のシステム１０に実質的に対応し得る。同様に、マルチプレクサ１３０は、図１のマルチプレクサ２１に実質的に対応し得、デマルチプレクサ１３８は、図１のデマルチプレクサ２９に実質的に対応し得、システム１００の他の同様に名前がつけられた構成要素は、図１の同様に名前がつけられた構成要素に実質的に対応し得る。したがって、マルチプレクサ１３０およびデマルチプレクサ１３８は、本開示で説明する様々な技法のいずれかを、単独でまたは任意の組合せで実行するように構成され得る。

[0252]したがって、マルチプレクサ２１、マルチプレクサ１３０、デマルチプレクサ２９、および／またはデマルチプレクサ１３８は、ビデオコーディング規格に従ってコーディングされたビデオデータを含むエレメンタリストリームのレイヤのための階層拡張記述子をコーディングすることと、ここにおいて、階層拡張記述子は、ビデオコーディング規格の少なくとも１つの拡張を表すデータを含む、少なくとも１つの拡張を表すデータに少なくとも部分的に基づいてエレメンタリストリームのビデオデータを処理することとを行うように構成され得る。

[0253]階層拡張記述子は、ベースレイヤに従属し、異なるスケーラビリティ次元に対応する２つ以上のエンハンスメントレイヤを表すデータを含み得る。すなわち、２つ以上のエンハンスメントレイヤは、第１のスケーラビリティ次元に準拠する第１のエンハンスメントレイヤと第２のスケーラビリティ次元に準拠する第２のエンハンスメントレイヤとを含み得、ここで、第１のスケーラビリティ次元は、第２のスケーラビリティ次元とは異なる。マルチプレクサ１３０は、複数の可能なスケーラビリティ次元のうちのどれにエンハンスメントレイヤデータが存在するのかを示す情報のセット（たとえば、上記で説明した例示的な表のｅｘｔｅｎｓｉｏｎ＿ｄｉｍｅｎｓｉｏｎ＿ｂｉｔｓ）を含めるために階層拡張記述子を生成し得、ここで、エンハンスメントレイヤデータは、ベースレイヤ（すなわち、０に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄをもつレイヤ）に関連付けられ得る。

[0254]このようにしてマルチプレクサ１３０は、ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤとエンハンスメントレイヤが依存する２つ以上の参照レイヤとを含むビデオデータを記憶するためのメモリと、ここにおいて、２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、階層拡張記述子を符号化することを行うように構成された１つまたは複数のプロセッサと、ここにおいて、階層拡張記述子が、エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、を含むデバイスの一例を表す。

[0255]デマルチプレクサ１３８は、ビデオデータを適切に多重分離するために、様々なエンハンスメントレイヤが存在するかどうかを決定するために階層拡張記述子を使用し得る。したがって、デマルチプレクサ１３８は、ビデオコーディング規格の拡張に従ってコーディングされたビデオデータのエンハンスメントレイヤを記憶するためのメモリと、エンハンスメントレイヤを含むエレメンタリストリームのための階層拡張記述子を復号することと、ここにおいて、階層拡張記述子は、エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、ここにおいて、２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、２つ以上の参照レイヤを表すデータに少なくとも部分的に基づいてビデオデータを処理することとを行うように構成された１つまたは複数のプロセッサとを含むデバイスの一例を表す。

[0256]さらに、マルチプレクサ１３０は、ＨＥＶＣ拡張記述子が存在するかどうかを示すシンタックス要素を含むＨＥＶＣビデオ記述子を生成し得る。ＨＥＶＣベースレイヤが１つまたは複数のエンハンスメントレイヤを使用して拡張されるとき、マルチプレクサ１３０は、ＨＥＶＣ拡張記述子を生成し得、同様に、ＨＥＶＣ拡張記述子が存在することを示す値にシンタックス要素を設定し得る。ＨＥＶＣ拡張記述子は、上記の表ＸのＨＥＶＣ拡張記述子に準拠し得る。

[0257]追加または代替として、マルチプレクサ２１、マルチプレクサ１３０、デマルチプレクサ２９、および／またはデマルチプレクサ１３８は、１つまたは複数の追加の参照エレメンタリストリームへのインデックスを含む第１のエレメンタリストリームのための階層記述子をコーディングすること、インデックスに少なくとも部分的に基づいて第１のエレメンタリストリームのビデオデータを処理することとを行うように構成され得る。

[0258]追加または代替として、マルチプレクサ２１、マルチプレクサ１３０、デマルチプレクサ２９、および／またはデマルチプレクサ１３８は、２つ以上の動作点を形成するために２つ以上のエレメンタリストリームがどのように組み合わせられ得るかを示すデータコーディングすることと、データを使用してエレメンタリストリームのうちの２つ以上のビデオデータを処理することとを行うように構成され得る。

[0259]図５は、本開示の技法による、ビデオデータを処理するための例示的な方法を示すフローチャートである。図５の方法について、図４のビデオエンコーダ１２８およびマルチプレクサ１３０に関して説明する。ただし、図１のビデオエンコーダ２１およびマルチプレクサ２１などの他のデバイスが図５の方法を実行するように構成され得ることを理解されたい。

[0260]最初に、ビデオエンコーダ１２８は、ベースレイヤのビデオデータを符号化する（１５０）。ベースレイヤのビデオデータは、たとえば、ＨＥＶＣまたは別のビデオコーディング規格に準拠し得る。ビデオエンコーダ１２８は、次いで、１つまたは複数のエンハンスメントレイヤのビデオデータを符号化し得る（１５２）。エンハンスメントレイヤのビデオデータは、上記で説明したように、様々な異なるスケーラビリティ次元に対応し得る。すなわち、ビデオエンコーダ１２８は、異なるスケーラビリティ次元に対応する２つ以上のエンハンスメントレイヤが同じベースレイヤに従属するようにエンハンスメントレイヤを符号化し得る。

[0261]ビデオエンコーダ１２８は、次いで、ビデオデータのための動作点を形成し得る（１５４）。各動作点は、ビデオデータの様々なレイヤのすべてまたはサブセットを含み得る。特に、各動作点は、ベースレイヤと様々なエンハンスメントレイヤの任意の組合せとを含み得る。さらに、ビデオエンコーダ１２８は、動作点のいくつかのレイヤのみを出力の対象とされるものに指定し得る。

[0262]ビデオエンコーダ１２８は、マルチプレクサ１３０に符号化ビデオデータ（ベースレイヤおよびエンハンスメントレイヤ）を与え得る。マルチプレクサ１３０は、ベースレイヤおよびエンハンスメントレイヤを多重化し得る（１５６）。すなわち、マルチプレクサ１３０は、各エレメンタリストリームが特定のレイヤに対応する複数のエレメンタリストリームを受信し、エレメンタリストリームを単一のビットストリームにアセンブルし得る。

[0263]マルチプレクサ１３０はまた、時間スケーラビリティデータを含むＨＥＶＣビデオ記述子を符号化し得る（１５８）。たとえば、ＨＥＶＣビデオ記述子は、時間レイヤサブセットがビデオデータ中に含まれるかどうかを示す時間レイヤサブセットシンタックス要素（たとえば、フラグ）を含み得る。時間レイヤサブセットは、概して、異なるフレームレートで再生され得るビデオデータのサブセットに対応する。たとえば、フルビデオデータは、２４０フレーム毎秒（ｆｐｓ）でビデオデータを含み得るが、ビデオデータはまた、１２０ｆｐｓ、６０ｆｐｓ、３０ｆｐｓ、および１５ｆｐｓでの再生をサポートし得る。時間レイヤ情報を示すために、マルチプレクサ１３０は、最小時間識別子シンタックス要素と最大時間レイヤ識別子シンタックス要素との値をシグナリングし得る。ＨＥＶＣビデオ記述子はまた、ＨＥＶＣ拡張記述子が存在するかどうかを示すＨＥＶＣ拡張存在シンタックス要素を含み得る。

[0264]マルチプレクサ１３０はまた、他のスケーラビリティデータ、すなわち、時間スケーラビリティ以外のスケーラビリティ次元についてのスケーラビリティデータを含む階層拡張記述子を符号化し得る（１６０）。たとえば、そのような他のスケーラビリティ次元は、ＰＳＮＲ、クロマビット深度、色フォーマット、色域、空間解像度などを含み得る。階層拡張記述子は、複数のエンハンスメントレイヤのうちのどれがベースレイヤについてのビデオデータ中に存在するかを概して示す、上記で説明したｅｘｔｅｎｓｉｏｎ＿ｄｉｍｅｎｓｉｏｎ＿ｂｉｔｓシンタックス要素を含み得る。

[0265]マルチプレクサ１３０は、さらに、動作点データを含むＨＥＶＣ拡張記述子を符号化し得る（１６２）。すなわち、エンハンスメントレイヤがビデオデータ中に存在するとマルチプレクサ１３０が決定したと仮定すると、マルチプレクサ１３０は、ＨＥＶＣ拡張記述子が存在することを示すようにＨＥＶＣ拡張存在シンタックス要素の値を設定し、さらに、ＨＥＶＣ拡張記述子を符号化し得る。ＨＥＶＣ拡張記述子は、レイヤのうちのどれがビデオデータの様々な動作点の各々のための出力の対象とされるのかを示すデータを含み得る。

[0266]このようにして、図５の方法は、ビデオコーディング規格に従ってコーディングされたベースレイヤとベースレイヤに従属する２つ以上のエンハンスメントレイヤとを含むビデオデータを受信することと、ここにおいて、２つ以上のエンハンスメントレイヤが、第１のスケーラビリティ次元に準拠する第１のエンハンスメントレイヤと、第２のスケーラビリティ次元に準拠する第２のエンハンスメントレイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、階層拡張記述子を符号化することと、ここにおいて、階層拡張記述子が、ベースレイヤに従属する２つ以上のエンハンスメントレイヤを表すデータを含む、を備えるビデオデータを処理するための方法の一例を表す。

[0267]図６は、本開示の技法による、ビデオデータを処理するための例示的な方法を示すフローチャートである。説明のために、図６の例示的な方法について、図４のデマルチプレクサ１３８およびビデオデコーダ１４８に関して説明する。ただし、図１のデマルチプレクサ２９およびビデオデコーダ３０などの他のデバイスが図６の技法を実行するように構成され得ることを理解されたい。

[0268]最初に、デマルチプレクサ１３８は、処理され、最終的に、表示されるべきビデオデータの動作点を決定し得る（１８０）。たとえば、デマルチプレクサ１３８は、動作点を決定（たとえば、選択）したいという要求をユーザから受信する、および／または動作点を決定（たとえば、選択）するために宛先デバイス１４０の復号およびレンダリング能力を決定し得る。

[0269]デマルチプレクサ１３８は、次いで、時間スケーラビリティデータを含むＨＥＶＣビデオ記述子を復号し得る（１８２）。デマルチプレクサ１３８は、たとえば、ビデオデータのフレームレートを低減したバージョンを達成するために、ビデオデータのフルセットを使用すべきか、またはビデオデータのサブセットを使用すべきかを決定し得る。たとえば、ビデオ出力１４４のディスプレイデバイスは、フルフレームレートでビデオデータを表示することが可能でないことがあり、したがって、デマルチプレクサ１３８は、ディスプレイデバイスが表示することが可能であるフレームレートのために必要とされるビデオデータのみを抽出し得る。ＨＥＶＣビデオ記述子はまた、ＨＥＶＣ拡張記述子が存在するかどうか示すＨＥＶＣ拡張存在シンタックス要素を含み得る。

[0270]ＨＥＶＣ拡張記述子が存在することをＨＥＶＣ拡張存在シンタックス要素が示すと仮定すると、デマルチプレクサ１３８は、動作点データを含み得るＨＥＶＣ拡張記述子を復号し得る（１８４）。動作点データは、たとえば、レイヤのうちのどれが各動作点中に含まれるのか、ならびに、レイヤのうちのどれが各動作点のための出力の対象とされるのかを示し得る。このようにして、デマルチプレクサ１３８は、どのレイヤが抽出され、ビデオデコーダ１４８に送られるべきか、およびどのレイヤが省略され得るかを決定し得る。

[0271]デマルチプレクサ１８６は、さらに、他のスケーラビリティデータ、すなわち、時間スケーラビリティ以外のスケーラビリティ次元についてのスケーラビリティデータを含む階層拡張記述子を復号し得る（１８６）。たとえば、そのような他のスケーラビリティ次元は、ＰＳＮＲ、クロマビット深度、色フォーマット、色域、空間解像度などを含み得る。階層拡張記述子は、複数のエンハンスメントレイヤのうちのどれがベースレイヤについてのビデオデータ中に存在するかを概して示す、上記で説明したｅｘｔｅｎｓｉｏｎ＿ｄｉｍｅｎｓｉｏｎ＿ｂｉｔｓシンタックス要素を含み得る。選択された動作点およびＨＥＶＣ拡張記述子の動作点データとともにこのデータを使用して、デマルチプレクサ１３８は、どのスケーラビリティレイヤが存在し、出力されるべきかを決定し得、したがって、デマルチプレクサ１３８は、ビットストリームを対応するエレメンタリストリームに適切に多重分離することができる。

[0272]デマルチプレクサ１３８が、ビットストリームを決定された動作点のためのベースレイヤとエンハンスメントレイヤとのための対応するエレメンタリストリームに多重分離した後（１８８）、デマルチプレクサ１３８は、ビデオデコーダ１４８に、決定された動作点のためのエレメンタリストリームのビデオデータを与える。ビデオデコーダ１４８は、次いで、ベースレイヤを復号し（１９０）、エンハンスメントレイヤを復号し得る（１９２）。

[0273]このようにして、図６の方法は、ビデオコーディング規格に従ってコーディングされたビデオデータを含むベースレイヤのための階層拡張記述子を復号することと、ここにおいて、階層拡張記述子は、ベースレイヤに従属する２つ以上のエンハンスメントレイヤを表すデータを含む、ここにおいて、２つ以上のエンハンスメントレイヤが、第１のスケーラビリティ次元に準拠する第１のエンハンスメントレイヤと、第２のスケーラビリティ次元に準拠する第２のエンハンスメントレイヤとを含む、ここにおいて、第１のスケーラビリティ次元が第２のスケーラビリティ次元とは異なる、２つ以上のエンハンスメントレイヤを表すデータに少なくとも部分的に基づいてビデオデータを処理することとを含む方法の一例を表す。

[0274]例によっては、本明細書で説明された技法のうちのいずれかの、いくつかの動作またはイベントは、異なる順序で実行され得、追加、統合、または完全に除外され得る（たとえば、すべての説明された動作またはイベントが、本技法の実施のために必要であるとは限らない）ことを認識されたい。その上、いくつかの例では、行為またはイベントは、連続的にではなく、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサを通して同時に実施され得る。

[0275]１つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実施される場合、機能は、コンピュータ可読媒体上の１つもしくは複数の命令またはコード上に記憶され、あるいはこれを介して伝送され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形の媒体に対応するコンピュータ可読記憶媒体、または、たとえば、通信プロトコルに従う、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、一般に、（１）非一時的である有形のコンピュータ可読記憶媒体、または（２）信号もしくはキャリア波のような通信媒体に対応し得る。データ記憶媒体は、本開示で説明する技法の実装のための命令、コードおよび／またはデータ構造を取り出すために１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0276]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。また、任意の接続が、コンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、ウェブサイト、サーバ、または他の遠隔ソースから、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、マイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピーディスク（disk）、およびＢｌｕ−ｒａｙディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲の中に含まれるべきである。

[0277]命令は、１つもしくは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは他の同等の集積回路またはディスクリート論理回路などの１つもしくは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明する技法の実装に好適な他の構造のいずれかを指すことがある。加えて、いくつかの態様では、本明細書で説明した機能は、符号化および復号のために構成されるか、または複合コーデックに組み込まれる、専用のハードウェアモジュールおよび／もしくはソフトウェアモジュール内で提供され得る。また、本技法は、１つもしくは複数の回路または論理要素で十分に実装され得る。

[0278]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）もしくはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置で実装され得る。本開示では、開示する技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットについて説明したが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。そうではなく、上記で説明したように、様々なユニットは、コーデックハードウェアユニット中で組み合わせられるか、または上記で説明した１つもしくは複数のプロセッサを含む、適切なソフトウェアおよび／またはファームウェアとともに相互動作可能なハードウェアユニットの集合によって提供され得る。

[0279]様々な例が、説明された。これらおよび他の例は、以下の特許請求の範囲に含まれる。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
ビデオデータを処理する方法であって、
ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤビデオデータを含むエレメンタリストリームのための階層拡張記述子を復号することと、ここにおいて、前記階層拡張記述子は、前記エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、ここにおいて、前記２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、前記第１のスケーラビリティ次元が前記第２のスケーラビリティ次元とは異なる、
前記２つ以上の参照レイヤを表す前記データに少なくとも部分的に基づいて前記ビデオデータを処理することと
を備える方法。
［Ｃ２］
前記階層拡張記述子を復号することは、各々が、複数のエンハンスメントレイヤの各々に対応する複数のスケーラビリティビットを復号することを備える、ここにおいて、前記スケーラビリティビットの各々の値は、前記それぞれのエンハンスメントレイヤが前記エレメンタリストリーム中に含まれるかどうかを示す、Ｃ１に記載の方法。
［Ｃ３］
高効率ビデオコーディング（ＨＥＶＣ）ビデオ記述子のＨＥＶＣ拡張存在シンタックス要素の値を復号すること、ここにおいて、前記ＨＥＶＣ拡張存在シンタックス要素は、ＨＥＶＣ記述子の一部としてＨＥＶＣ拡張記述子が存在するかどうかを示す、をさらに備える、Ｃ１に記載の方法。
［Ｃ４］
複数の動作点の各々について、前記動作点のための出力のために必要とされるレイヤを表す高効率ビデオコーディング（ＨＥＶＣ）拡張記述子の情報を復号することをさらに備える、Ｃ１に記載の方法。
［Ｃ５］
前記エンハンスメントレイヤの時間サブレイヤを表すデータを含む階層記述子を復号すること、ここにおいて、前記階層拡張記述子が、前記エンハンスメントレイヤの時間サブレイヤを表すデータを含まない、をさらに備える、Ｃ１に記載の方法。
［Ｃ６］
前記階層拡張記述子を復号することは、前記ビデオデータが複数のレイヤを含んでいるときに複数のレイヤ識別子を復号することを備える、Ｃ１に記載の方法。
［Ｃ７］
前記階層拡張記述子を復号することが、１つまたは複数のレイヤと、前記１つまたは複数のレイヤのうちの１つに対応するエレメンタリストリームのためのインデックスとを示す情報を復号することを備える、Ｃ１に記載の方法。
［Ｃ８］
前記ビデオコーディング規格が、高効率ビデオコーディング（ＨＥＶＣ）を備える、ここにおいて、前記拡張が、マルチビューＨＥＶＣ（ＭＶ−ＨＥＶＣ）と、３次元ＨＥＶＣ（３Ｄ−ＨＥＶＣ）と、スケーラブルＨＥＶＣ（ＳＨＶＣ）とのうちの１つを備える、Ｃ１に記載の方法。
［Ｃ９］
前記スケーラビリティ次元が、ピーク信号対雑音比（ＰＳＮＲ）スケーラビリティ次元、クロマビット深度スケーラビリティ次元、色フォーマットスケーラビリティ次元、色域フォーマットスケーラビリティ次元、または空間解像度スケーラビリティ次元のうちの少なくとも１つを備える、Ｃ１に記載の方法。
［Ｃ１０］
前記階層拡張記述子をコーディングすることが、ＭＰＥＧ−２システム規格に実質的に従って前記階層拡張記述子の一部をコーディングすることを備える、Ｃ１に記載の方法。
［Ｃ１１］
処理することが、前記２つ以上の参照レイヤを表す前記データに少なくとも部分的に基づいて前記エンハンスメントレイヤと前記参照レイヤとを多重分離することを備える、Ｃ１に記載の方法。
［Ｃ１２］
処理することが、
出力されるべき、前記エンハンスメントレイヤを含む動作点を決定することと、
前記決定された動作点に基づいて出力されるべきである前記第１の参照レイヤまたは前記第２の参照レイヤのうちの少なくとも１つを決定することと、
前記２つ以上の参照レイヤを表す前記データと前記決定された動作点とに少なくとも部分的に基づいてサブビットストリーム抽出を実行することと
を備える、Ｃ１に記載の方法。
［Ｃ１３］
ビデオデータを処理するためのデバイスであって、
ビデオコーディング規格の拡張に従ってコーディングされたビデオデータのエンハンスメントレイヤを記憶するためのメモリと、
前記エンハンスメントレイヤを含むエレメンタリストリームのための階層拡張記述子を復号することと、ここにおいて、前記階層拡張記述子は、前記エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、ここにおいて、前記２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、前記第１のスケーラビリティ次元が前記第２のスケーラビリティ次元とは異なる、前記２つ以上の参照レイヤを表す前記データに少なくとも部分的に基づいて前記ビデオデータを処理することとを行うように構成された１つまたは複数のプロセッサと
を備えるデバイス。
［Ｃ１４］
前記１つまたは複数のプロセッサは、各々が、複数のエンハンスメントレイヤの各々に対応する複数のスケーラビリティビットを復号することを行うように構成された、ここにおいて、前記スケーラビリティビットの各々の値は、前記それぞれのエンハンスメントレイヤが前記エレメンタリストリーム中に含まれるかどうかを示す、Ｃ１３に記載のデバイス。
［Ｃ１５］
前記１つまたは複数のプロセッサが、高効率ビデオコーディング（ＨＥＶＣ）ビデオ記述子のＨＥＶＣ拡張存在シンタックス要素の値を復号すること、ここにおいて、前記ＨＥＶＣ拡張存在シンタックス要素は、ＨＥＶＣ記述子の一部としてＨＥＶＣ拡張記述子が存在するかどうかを示す、を行うように構成された、Ｃ１３に記載のデバイス。
［Ｃ１６］
前記１つまたは複数のプロセッサが、複数の動作点の各々について、前記動作点のための出力のために必要とされるレイヤを表す高効率ビデオコーディング（ＨＥＶＣ）拡張記述子の情報を復号することを行うように構成された、Ｃ１３に記載のデバイス。
［Ｃ１７］
前記１つまたは複数のプロセッサが、前記エンハンスメントレイヤの時間サブレイヤを表すデータを含む階層記述子を復号すること、ここにおいて、前記階層拡張記述子が、前記エンハンスメントレイヤの時間サブレイヤを表すデータを含まない、を行うように構成された、Ｃ１３に記載のデバイス。
［Ｃ１８］
前記１つまたは複数のプロセッサは、前記ビデオデータが複数のレイヤを含んでいるときに複数のレイヤ識別子を復号することを行うように構成された、Ｃ１３に記載のデバイス。
［Ｃ１９］
前記１つまたは複数のプロセッサが、１つまたは複数のレイヤと、前記１つまたは複数のレイヤのうちの１つに対応するエレメンタリストリームのためのインデックスとを示す情報を復号することを行うように構成された、Ｃ１３に記載のデバイス。
［Ｃ２０］
前記１つまたは複数のプロセッサが、前記２つ以上の参照レイヤを表す前記データに少なくとも部分的に基づいて前記エンハンスメントレイヤと前記参照レイヤとを多重分離することを行うように構成された、Ｃ１３に記載のデバイス。
［Ｃ２１］
前記デバイスが、
集積回路、
マイクロプロセッサ、または
ワイヤレス通信デバイス
のうちの少なくとも１つを備える、Ｃ１３に記載のデバイス。
［Ｃ２２］
ビデオデータを処理するためのデバイスであって、
ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤビデオデータを含むエレメンタリストリームのための階層拡張記述子を復号するための手段と、ここにおいて、前記階層拡張記述子は、前記エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、ここにおいて、前記２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、前記第１のスケーラビリティ次元が前記第２のスケーラビリティ次元とは異なる、
前記２つ以上の参照レイヤを表す前記データに少なくとも部分的に基づいて前記ビデオデータを処理するための手段と
を備える、デバイス。
［Ｃ２３］
実行されたときに、プロセッサに、
ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤビデオデータを含むエレメンタリストリームのための階層拡張記述子を復号することと、ここにおいて、前記階層拡張記述子は、前記エンハンスメントレイヤが依存する２つ以上の参照レイヤを表すデータを含む、ここにおいて、前記２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、前記第１のスケーラビリティ次元が前記第２のスケーラビリティ次元とは異なる、
前記２つ以上の参照レイヤを表す前記データに少なくとも部分的に基づいて前記ビデオデータを処理することと
を行わせる命令を記憶したコンピュータ可読記憶媒体。
［Ｃ２４］
前記階層拡張記述子を復号することを前記プロセッサに行わせる前記命令は、各々が、複数のエンハンスメントレイヤの各々に対応する複数のスケーラビリティビットを復号することを前記プロセッサに行わせる命令を備える、ここにおいて、前記スケーラビリティビットの各々の値は、前記それぞれのエンハンスメントレイヤが前記エレメンタリストリーム中に含まれるかどうかを示す、Ｃ２３に記載のコンピュータ可読記憶媒体。
［Ｃ２５］
高効率ビデオコーディング（ＨＥＶＣ）ビデオ記述子のＨＥＶＣ拡張存在シンタックス要素の値を復号すること、ここにおいて、前記ＨＥＶＣ拡張存在シンタックス要素は、ＨＥＶＣ記述子の一部としてＨＥＶＣ拡張記述子が存在するかどうかを示す、を前記プロセッサに行わせる命令をさらに備える、Ｃ２３に記載のコンピュータ可読記憶媒体。
［Ｃ２６］
複数の動作点の各々について、前記動作点のための出力のために必要とされるレイヤを表す高効率ビデオコーディング（ＨＥＶＣ）拡張記述子の情報を復号することを前記プロセッサに行わせる命令をさらに備える、Ｃ２３に記載のコンピュータ可読記憶媒体。
［Ｃ２７］
前記エンハンスメントレイヤの時間サブレイヤを表すデータを含む階層記述子を復号すること、ここにおいて、前記階層拡張記述子が、前記エンハンスメントレイヤの時間サブレイヤを表すデータを含まない、を前記プロセッサに行わせる命令をさらに備える、Ｃ２３に記載のコンピュータ可読記憶媒体。
［Ｃ２８］
前記階層拡張記述子を復号することを前記プロセッサに行わせる前記命令が、前記ビデオデータが複数のレイヤを含んでいるときに複数のレイヤ識別子を復号することを前記プロセッサに行わせる命令を備える、Ｃ２３に記載のコンピュータ可読記憶媒体。
［Ｃ２９］
前記階層拡張記述子を復号することを前記プロセッサに行わせる前記命令が、１つまたは複数のレイヤと、前記１つまたは複数のレイヤのうちの１つに対応するエレメンタリストリームのためのインデックスとを示す情報を復号することを前記プロセッサに行わせる命令を備える、Ｃ２３に記載のコンピュータ可読記憶媒体。
［Ｃ３０］
処理することを前記プロセッサに行わせる前記命令が、前記２つ以上の参照レイヤを表す前記データに少なくとも部分的に基づいて前記エンハンスメントレイヤと前記参照レイヤとを多重分離することを前記プロセッサに行わせる命令を備える、Ｃ２３に記載のコンピュータ可読記憶媒体。
［Ｃ３１］
ビデオデータを処理する方法であって、
ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤと前記エンハンスメントレイヤが依存する２つ以上の参照レイヤとを含むビデオデータを受信することと、ここにおいて、前記２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、前記第１のスケーラビリティ次元が前記第２のスケーラビリティ次元とは異なる、
階層拡張記述子を符号化することと、ここにおいて、前記階層拡張記述子が、前記エンハンスメントレイヤが依存する前記２つ以上の参照レイヤを表すデータを含む、
を備える方法。
［Ｃ３２］
ビデオデータを処理するためのデバイスであって、
ビデオコーディング規格の拡張に従ってコーディングされたエンハンスメントレイヤと前記エンハンスメントレイヤが依存する２つ以上の参照レイヤとを含むビデオデータを記憶するためのメモリと、ここにおいて、前記２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含む、ここにおいて、前記第１のスケーラビリティ次元が前記第２のスケーラビリティ次元とは異なる、
階層拡張記述子を符号化することを行うように構成された１つまたは複数のプロセッサと、ここにおいて、前記階層拡張記述子が、前記エンハンスメントレイヤが依存する前記２つ以上の参照レイヤを表すデータを含む、
を備えるデバイス。

Claims

１つまたは複数のアクセスユニットを備えるマルチレイヤビデオデータを処理する方法であって、各アクセスユニットは、単一の時間インスタンスにわたるビデオデータを含み、
高効率ビデオコーディング（ＨＥＶＣ）の拡張に従ってコーディングされたエンハンスメントレイヤビデオデータを含むエレメンタリストリームのための第１の記述子を復号することと、ここにおいて、前記第１の記述子は、エンハンスメントレイヤが依存する２つ以上の参照レイヤを示すデータを含み、前記２つ以上の参照レイヤは、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、前記第１のスケーラビリティ次元とは異なる第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含み、前記エンハンスメントレイヤの少なくとも１つのエンハンスメントピクチャは、前記第１の参照レイヤの第１の参照ピクチャおよび前記第２の参照レイヤの第２の参照ピクチャから予測され、、前記エンハンスメントピクチャ、前記第１の参照ピクチャ、および前記第２の参照ピクチャは、共通のアクセスユニットに含まれる、
前記２つ以上の参照レイヤを示す前記データに少なくとも部分的に基づいて前記ビデオデータを処理することと
を備え、前記処理することは、前記２つ以上の参照レイヤを表す前記データに少なくとも部分的に基づいて前記エンハンスメントレイヤと前記参照レイヤとを多重分離することを備え、
前記第１及び第２のスケーラビリティ次元のうちの少なくとも１つは、ピーク信号対雑音比（ＰＳＮＲ）スケーラビリティ次元、クロマビット深度スケーラビリティ次元、色フォーマットスケーラビリティ次元、色域フォーマットスケーラビリティ次元、ビュー次元、または空間解像度スケーラビリティ次元である、方法。
前記第１の記述子を復号することは、各々が、複数のエンハンスメントレイヤの各々に対応する複数のスケーラビリティビットを復号することを備える、ここにおいて、前記スケーラビリティビットの各々の値は、前記それぞれのエンハンスメントレイヤが前記エレメンタリストリーム中に含まれるかどうかを示す、請求項１に記載の方法。
複数の動作点の各々について、前記動作点のための出力のために必要とされるレイヤを示すさらなる記述子の情報を復号することをさらに備える、請求項１に記載の方法。
前記エンハンスメントレイヤの時間サブレイヤを示す表すデータを含むさらなる記述子を復号すること、ここにおいて、前記第１の記述子が、前記エンハンスメントレイヤの時間サブレイヤを表すデータを含まない、をさらに備える、請求項１に記載の方法。
前記第１の記述子を復号することは、前記ビデオデータが複数のレイヤを含んでいるときに複数のレイヤ識別子を復号することを備える、請求項１に記載の方法。
前記第１の記述子を復号することが、１つまたは複数のレイヤと、前記１つまたは複数のレイヤのうちの１つに対応するエレメンタリストリームのためのインデックスとを示す情報を復号することを備える、請求項１に記載の方法。
前記拡張が、マルチビューＨＥＶＣ（ＭＶ−ＨＥＶＣ）と、３次元ＨＥＶＣ（３Ｄ−ＨＥＶＣ）と、スケーラブルＨＥＶＣ（ＳＨＶＣ）とのうちの１つを備える、請求項１に記載の方法。
処理することが、
出力されるべき、前記エンハンスメントレイヤを含む動作点を決定することと、
前記決定された動作点に基づいて出力されるべきである前記第１の参照レイヤまたは前記第２の参照レイヤのうちの少なくとも１つを決定することと、
前記２つ以上の参照レイヤを示す前記データと前記決定された動作点とに少なくとも部分的に基づいてサブビットストリーム抽出を実行することと
を備える、請求項１に記載の方法。
１つまたは複数のアクセスユニットを備えるマルチレイヤビデオデータを処理するためのデバイスであって、各アクセスユニットは、単一の時間インスタンスにわたるビデオデータを含み、
高効率ビデオコーディング（ＨＥＶＣ）の拡張に従ってコーディングされたエンハンスメントレイヤビデオデータを記憶するためのメモリと、
エンハンスメントレイヤを含むエレメンタリストリームのための第１の記述子を復号することと、ここにおいて、前記第１の記述子は、エンハンスメントレイヤが依存する２つ以上の参照レイヤを示すデータを含み、前記２つ以上の参照レイヤは、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、前記第１のスケーラビリティ次元とは異なる第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含み、前記エンハンスメントレイヤの少なくとも１つのエンハンスメントピクチャは、前記第１の参照レイヤの第１の参照ピクチャおよび前記第２の参照レイヤの第２の参照ピクチャから予測され、前記エンハンスメントピクチャ、前記第１の参照ピクチャ、および前記第２の参照ピクチャは、共通のアクセスユニットに含まれる、
前記２つ以上の参照レイヤを示す前記データに少なくとも部分的に基づいて前記ビデオデータを処理することとを行うように構成された１つまたは複数のプロセッサと
を備え、前記１つまたは複数のプロセッサは、前記２つ以上の参照レイヤを示す前記データに少なくとも部分的に基づいて前記エンハンスメントレイヤと前記参照レイヤとを多重分離することを行うように構成され、
前記第１及び第２のスケーラビリティ次元のうちの少なくとも１つは、ピーク信号対雑音比（ＰＳＮＲ）スケーラビリティ次元、クロマビット深度スケーラビリティ次元、色フォーマットスケーラビリティ次元、色域フォーマットスケーラビリティ次元、ビュー次元、または空間解像度スケーラビリティ次元である、デバイス。
前記１つまたは複数のプロセッサは、各々が、複数のエンハンスメントレイヤの各々に対応する複数のスケーラビリティビットを復号することを行うように構成された、ここにおいて、前記スケーラビリティビットの各々の値は、前記それぞれのエンハンスメントレイヤが前記エレメンタリストリーム中に含まれるかどうかを示す、請求項９に記載のデバイス。
前記デバイスが、
集積回路、または
ワイヤレス通信デバイス
のうちの少なくとも１つを備える、請求項９に記載のデバイス。
１つまたは複数のアクセスユニットを備えるマルチレイヤビデオデータを処理する方法であって、各アクセスユニットは、単一の時間インスタンスにわたるビデオデータを含み、
高効率ビデオコーディング（ＨＥＶＣ）の拡張に従ってコーディングされたエンハンスメントレイヤと前記エンハンスメントレイヤが依存する２つ以上の参照レイヤとを含むビデオデータを受信することと、ここにおいて、前記２つ以上の参照レイヤが、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、前記第１のスケーラビリティ次元とは異なる第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含み、前記エンハンスメントレイヤの少なくとも１つのエンハンスメントピクチャは、前記第１の参照レイヤの第１の参照ピクチャおよび前記第２の参照レイヤの第２の参照ピクチャから予測され、、前記エンハンスメントピクチャ、前記第１の参照ピクチャ、および前記第２の参照ピクチャは、共通のアクセスユニットに含まれ、前記２つ以上の参照レイヤは、ベースレイヤに含まれる、
前記エンハンスメントレイヤと、前記２つ以上の参照レイヤとを多重化することと、
第１の記述子を符号化することと、ここにおいて、前記第１の記述子が、前記エンハンスメントレイヤが依存する前記２つ以上の参照レイヤを示すデータを含む、を備え、
前記第１及び第２のスケーラビリティ次元のうちの少なくとも１つは、ピーク信号対雑音比（ＰＳＮＲ）スケーラビリティ次元、クロマビット深度スケーラビリティ次元、色フォーマットスケーラビリティ次元、色域フォーマットスケーラビリティ次元、ビュー次元、または空間解像度スケーラビリティ次元である方法。
１つまたは複数のアクセスユニットを備えるマルチレイヤビデオデータを処理するためのデバイスであって、各アクセスユニットは、単一の時間インスタンスにわたるビデオデータを含み、
高効率ビデオコーディング（ＨＥＶＣ）の拡張に従ってコーディングされたエンハンスメントレイヤと前記エンハンスメントレイヤが依存する２つ以上の参照レイヤとを含むビデオデータを記憶するためのメモリと、ここにおいて、前記２つ以上の参照レイヤは、第１のスケーラビリティ次元に準拠する第１の参照レイヤと、前記第１のスケーラビリティ次元とは異なる第２のスケーラビリティ次元に準拠する第２の参照レイヤとを含み、前記エンハンスメントレイヤの少なくとも１つのエンハンスメントピクチャは、前記第１の参照レイヤの第１の参照ピクチャおよび前記第２の参照レイヤの第２の参照ピクチャから予測され、前記エンハンスメントピクチャ、前記第１の参照ピクチャ、および前記第２の参照ピクチャは、共通のアクセスユニットに含まれ、前記２つ以上の参照レイヤは、ベースレイヤに含まれる、
前記エンハンスメントレイヤと、前記ベースレイヤとを多重化することと、
第１の記述子を符号化することと
を行うように構成された１つまたは複数のプロセッサと、ここにおいて、前記第１の記述子は、前記エンハンスメントレイヤが依存する前記２つ以上の参照レイヤを示すデータを含む、を備え、
前記第１及び第２のスケーラビリティ次元のうちの少なくとも１つは、ピーク信号対雑音比（ＰＳＮＲ）スケーラビリティ次元、クロマビット深度スケーラビリティ次元、色フォーマットスケーラビリティ次元、色域フォーマットスケーラビリティ次元、ビュー次元、または空間解像度スケーラビリティ次元であるデバイス。
実行されたときに、プロセッサに、請求項１から８、及び請求項１２のいずれか一項に記載の方法を実行させる命令を記憶したコンピュータ可読記憶媒体。