JP6341228B2

JP6341228B2 - 符号化装置、符号化方法、送信装置、送信方法、受信装置および受信方法

Info

Publication number: JP6341228B2
Application number: JP2016103835A
Authority: JP
Inventors: 塚越　郁夫; 郁夫塚越
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-05-25
Filing date: 2016-05-25
Publication date: 2018-06-13
Anticipated expiration: 2033-09-24
Also published as: JP2016174397A

Description

本技術は、符号化装置、符号化方法、送信装置、送信方法、受信装置および受信方法に関する。詳しくは、本技術は、動画像データを構成する各ピクチャの画像データを階層符号化する符号化装置等に関する。

圧縮動画を、放送、ネット等でサービスする際、受信機のデコード能力によって再生可能なフレーム周波数の上限が制限される。従って、サービス側は普及している受信機の再生能力を考慮して、低フレーム周波数のサービスのみに制限したり、高低複数のフレーム周波数のサービスを同時提供したりする必要がある。

受信機は、高フレーム周波数のサービスに対応するには、高コストとなり、早期普及の阻害要因となる。初期に低フレーム周波数のサービス専用の安価な受信機のみ普及していて、将来サービス側が高フレーム周波数のサービスを開始する場合、新たな受信機が無いと全く視聴不可能であり、新規サービスの普及の阻害要因となる。

例えば、Ｈ．２６５／ＨＥＶＣ（High Efficiency Video Coding）において、動画像データを構成する各ピクチャの画像データを階層符号化することによる時間方向スケーラビリティが提案されている（非特許文献１参照）。受信側では、ＮＡＬ（Network Abstraction Layer）ユニットのヘッダに挿入されているテンポラルＩＤ（temporal_id）に基づき、各ピクチャの階層を識別でき、デコード能力に対応した階層までの選択的なデコードが可能となる。

Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand, "Overview of the High Efficiency Video Coding (HEVC) Standard" IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECNOROGY, VOL. 22, NO. 12, pp. 1649-1668, DECEMBER 2012

本技術の目的は、受信側において良好なデコード処理を可能とすることにある。

本技術の概念は、
動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
上記画像符号化部は、
少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する
送信装置にある。

本技術において、画像符号化部により、動画像データを構成する各ピクチャの画像データが符号化されて所定数のビデオストリームが生成される。この場合、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化される。そして、この複数の階層が所定数の階層組に分割され、この分割された各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが生成される。

画像符号化部では、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化される。例えば、画像符号化部は、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化する、ようにされてもよい。これにより、例えば、受信側では、最下位の階層組だけでなく、それよりも上位に位置する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。

また、例えば、画像符号化部は、最下位の階層組に複数の階層を含み、この最下位の階層組より上位に位置する階層組には１つの階層を含むように、複数の階層を所定数の階層組に分割する、ようにされてもよい。これにより、例えば、受信側では、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、この最下位の階層組のピクチャの符号化画像データを持つビデオストリームだけを選択してバッファに取り込んでデコード処理を行う構成で済み、複数のビデオストリームの結合処理などを行うなどの複雑な構成が不要となる。

送信部により、上述の所定数のビデオストリームを含む所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ−２ＴＳ）であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるＭＰ４、あるいはそれ以外のフォーマットのコンテナであってもよい。

このように本技術においては、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化されるものである。そのため、例えば、受信側が、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことが可能となる。

また、本技術の他の概念は、
動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記コンテナのレイヤに、上記所定数のビデオストリームのそれぞれが、上記最下位の階層組のピクチャの符号化画像データを持つベースストリームであるか、該最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報を挿入する識別情報挿入部を備える
送信装置にある。

例えば、画像符号化部は、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する、ようにされてもよい。この場合、例えば、画像符号化部は、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化する、ようにされてもよい。

識別情報挿入部により、コンテナのレイヤに、識別情報が挿入される。この識別情報は、
所定数のビデオストリームのそれぞれが、最下位の階層組のピクチャの符号化画像データを持つベースストリームであるか、この最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報である。

例えば、エンハンスストリームが複数存在するとき、識別情報は、それぞれのエンハンスストリームをさらに識別可能とする、ようにされてもよい。また、例えば、コンテナはトランスポートストリームであり、識別情報挿入部は、識別情報を、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にストリームタイプとして挿入する、ようにされてもよい。

このように本技術においては、コンテナのレイヤに、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報が挿入されるものである。そのため、受信側においては、この識別情報を利用することで、例えば、ベースストリームだけを選択し、低階層組のピクチャの符号化画像データを選択的にデコードすることが容易に可能となる。

また、本技術の他の概念は、
動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記コンテナのレイヤに、該コンテナに含まれる所定数のビデオストリームのそれぞれに対応して、該ビデオストリームの構成情報を挿入する構成情報挿入部を備える
送信装置にある。

本技術において、画像符号化部により、動画像データを構成する各ピクチャの画像データが符号化されて所定数のビデオストリームが生成される。この場合、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化される。そして、この複数の階層が所定数の階層組に分割され、この分割された各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが生成される。そして、送信部により、この所定数のビデオストリームを含む所定フォーマットのコンテナが送信される。

構成情報挿入部により、コンテナのレイヤに、このコンテナに含まれる所定数のビデオストリームのそれぞれに対応して、このビデオストリームの構成情報が挿入される。例えば、コンテナはトランスポートストリームであり、構成情報挿入部は、この構成情報を、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にデスクリプタとして挿入する、ようにされてもよい。

例えば、構成情報には、ビデオストリームが属するサービスグループを示す情報が含まれる、ようにされてもよい。また、例えば、構成情報には、最下位の階層組のピクチャの符号化画像データを持つベースストリームから始まるストリーム間の依存関係を示す情報が含まれる、ようにされてもよい。また、例えば、構成情報には、画像符号化部で分類される複数の階層の階層数を示す情報が含まれる、ようにされてもよい。

このように本技術においては、コンテナのレイヤに、このコンテナに含まれる所定数のビデオストリームのそれぞれに対応して、このビデオストリームの構成情報が挿入されるものである。そのため、例えば、受信側では、コンテナに含まれる各ビデオストリームにつき、どのグループに属するのか、どのようなストリーム依存関係にあるのか、階層数がいくらの階層符号化に係るものであるか、などを容易に把握可能となる。

また、本技術の他の概念は、
動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、上記複数の階層が所定数の階層組に分割されて得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを受信する受信部と、
上記受信された所定数のビデオストリームを処理する処理部を備え、
上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている
受信装置にある。

本技術において、受信部により、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、この複数の階層が所定数の階層組に分割されて得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが受信される。そして、処理部により、その受信された所定数のビデオストリームが処理される。

この場合、所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている。そのため、例えば、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことが可能となる。

なお、本技術において、例えば、所定数のビデオストリームは、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化されている、ようにされていてもよい。これにより、例えば、最下位の階層組だけでなく、それよりも上位に位置する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。

また、本技術の他の概念は、
動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、上記複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
上記受信されたコンテナに含まれる上記所定数のビデオストリームからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データを選択的にバッファに取り込み、該バッファに取り込まれた各ピクチャの符号化画像データをデコードして、上記所定階層以下の階層のピクチャの画像データを得る画像復号化部を備え、
上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている
受信装置にある。

本技術において、受信部により、所定フォーマットのコンテナが受信される。このコンテナには、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、この複数の階層が所定数の階層組に分割されて得られた、一つ以上の階層のピクチャの符号化画像データを持つ所定数のビデオストリームが含まれている。

画像復号化部により、受信されたコンテナに含まれる所定数のビデオストリームからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データが選択的にバッファに取り込まれ、このバッファに取り込まれた各ピクチャの符号化画像データがデコードされて、所定階層以下の階層のピクチャの画像データが得られる。例えば、画像復号化部は、所定階層組のピクチャの符号化画像データが複数のビデオストリームに含まれている場合、各ピクチャの符号化画像データをデコードタイミング情報に基づいて１つのストリームにしてデコードする、ようにされてもよい。

なお、本技術において、例えば、コンテナのレイヤに、所定数のビデオストリームのそれぞれが、最下位の階層組のピクチャの符号化画像データを含むベースストリームであるか、この最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報が挿入されており、画像復号化部は、この識別情報に基づいて、ベースストリームを含む所定数のビデオストリームからデコード能力に応じた所定階層組のピクチャの符号化画像データをバッファに取り込んでデコードする、ようにされてもよい。この場合、識別情報を利用することで、例えば、ベースストリームだけを選択し、低階層組のピクチャの符号化画像データを選択的にデコードすることが容易に可能となる。

また、本技術において、例えば、画像復号化部で得られる各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理部をさらに備える、ようにされてもよい。この場合、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。

本技術によれば、受信側において良好なデコード処理が可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。送信装置の構成例を示すブロック図である。エンコーダで行われる階層符号化の一例を示す図である。ＮＡＬユニットヘッダの構造例およびその構造例における主要なパラメータの内容を示す図である。ＨＥＶＣによる各ピクチャの符号化画像データの構成を説明するための図である。階層符号化の際のエンコード、デコード、表示順序と遅延の一例を示す図である。階層符号化の符号化ストリームと、指定階層における表示期待（表示順）を示す図である。所定数のビデオストリーム（２ストリーム）のピクチャの符号化タイミング（デコードタイミング）を説明するための図である。ベースストリームとエンハンスストリームの２つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング（デコードタイミング）の一例を示す図である。ベースストリームとエンハンスストリームの２つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング（デコードタイミング）の他の一例を示す図である。所定数のビデオストリーム（３ストリーム）のピクチャの符号化タイミング（デコードタイミング）を説明するための図である。ベースストリームと２つのエンハンスストリームの３つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング（デコードタイミング）の一例を示す図である。ベースストリームと２つのエンハンスストリームの３つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング（デコードタイミング）の他の一例を示す図である。エンコーダのＨＲＤ（Hypothetical Reference Decoder）制御の一例を示す図である。エンコーダの構成例を示すブロック図である。エンコーダの処理フローの一例を示す図である。ＨＥＶＣデスクリプタ（HEVC_descriptor）の構造例を示す図である。マルチストリーム・デスクリプタ（multistream_descriptor）の構造例を示す図である。マルチストリーム・デスクリプタ（multistream_descriptor）の構造例における主要な情報の内容を示す図である。トランスポートストリームＴＳに、例えば、サービス１，２のビデオストリーム群が含まれている場合における「Stream_type」、「Group_id」、「max/min layer」、「max_layer_in_group」、「Stream_dependency_ordering」の一例を示す図である。マルチプレクサの構成例を示すブロック図である。マルチプレクサの処理フローの一例を示す図である。２ストリーム配信におけるトランスポートストリームＴＳの構成例を示す図である。３ストリーム配信におけるトランスポートストリームＴＳの構成例を示す図である。受信装置の構成例を示すブロック図である。デマルチプレクサの構成例を示すブロック図である。ストリーム選択の一例を示す図である。デマルチプレクサの処理フローの一例を示す図である。デコーダの構成例を示すブロック図である。ストリーム結合の一例を示す図である。ポスト処理部の構成例を示す図である。デコーダ、ポスト処理部の処理フローの一例を示す図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［送受信システム］
図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、送信装置１００と、受信装置２００とを有する構成となっている。

送信装置１００は、コンテナとしてのトランスポートストリームＴＳを放送波に載せて送信する。このトランスポートストリームＴＳには、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、この複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが含まれる。この場合、例えば、Ｈ．２６４／ＡＶＣ、Ｈ．２６５／ＨＥＶＣなどの符号化が施され、被参照ピクチャが自己階層および／または自己階層よりも低い階層に所属するように符号化される。

この実施の形態において、複数の階層を所定数の階層組に分割する場合、最下位の階層組に複数の階層を含み、この最下位の階層組より上位に位置する階層組には１つの階層を含むようにされる。このような分割により、受信側では、例えば、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、この最下位の階層組のピクチャの符号化画像データを持つビデオストリームだけを選択してバッファに取り込んでデコード処理を行うことが可能となる。

各階層のピクチャの符号化画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。この実施の形態においては、各ピクチャのＮＡＬユニット（nal_unit）のヘッダ部分に、階層識別情報（temporal_idを意味する“nuh_temporal_id_plus1”）が配置される。このように階層識別情報が付加されることで、受信側では、ＮＡＬユニットのレイヤにおいて各ピクチャの階層識別が可能となり、所定階層以下の階層の符号化画像データを選択的に取り出してデコード処理を行うことができる。

この実施の形態において、所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化される。この符号化により、受信側では、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことが可能となる。

この実施の形態において、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化される。この符号化により、受信側では、最下位の階層組だけでなく、それよりも上位に位置する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。

この実施の形態において、トランスポートストリームＴＳのレイヤに、所定数のビデオストリームのそれぞれが、最下位の階層組のピクチャの符号化画像データを持つベースストリームであるか、この最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報が挿入される。この識別情報は、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にストリームタイプとして挿入される。この識別情報により、受信側では、ベースストリームだけを選択し、低階層組のピクチャの符号化画像データを選択的にデコードすることが容易に可能となる。

この実施の形態において、トランスポートストリームＴＳのレイヤに、それに含まれる所定数のビデオストリームのそれぞれに対応して、ビデオストリームの構成情報が挿入される。この構成情報は、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にデスクリプタとして挿入される。この構成情報により、受信側では、コンテナに含まれる各ビデオストリームにつき、どのグループに属するのか、どのようなストリーム依存関係にあるのか、階層数がいくらの階層符号化に係るものであるか、などを容易に把握可能となる。

受信装置２００は、送信装置１００から放送波に載せて送られてくる上述のトランスポートストリームＴＳを受信する。受信装置２００は、このトランスポートストリームＴＳに含まれる所定数のビデオストリームからデコード能力に応じて選択された所定階層以下の階層のピクチャの符号化画像データを選択的にバッファに取り込んでデコードし、各ピクチャの画像データを取得して、画像再生を行う。

上述したように、トランスポートストリームＴＳのレイヤに、所定数のビデオストリームがベースストリームであるかエンハンスストリームであるかを識別する識別情報が含まれている。この識別情報に基づいて、ベースストリームを含む所定数のビデオストリームからデコード能力に応じた所定階層組の符号化画像データがバッファに取り込まれて処理される。

また、受信装置２００は、上述のようにデコードして得られた各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理を行う。このポスト処理により、例えば、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。

「送信装置の構成」
図２は、送信装置１００の構成例を示している。この送信装置１００は、ＣＰＵ（Central Processing Unit）１０１と、エンコーダ１０２と、圧縮データバッファ（ｃｐｂ：coded picture buffer）１０３と、マルチプレクサ１０４と、送信部１０５を有している。ＣＰＵ１０１は、制御部であり、送信装置１００の各部の動作を制御する。

エンコーダ１０２は、非圧縮の動画像データを入力して、階層符号化を行う。エンコーダ１０２は、この動画像データを構成する各ピクチャの画像データを複数の階層に分類する。そして、エンコーダ１０２は、この分類された各階層のピクチャの画像データを符号化し、各階層のピクチャの符号化画像データを持つビデオストリームを生成する。エンコーダ１０２は、例えば、Ｈ．２６４／ＡＶＣ、Ｈ．２６５／ＨＥＶＣなどの符号化を行う。この際、エンコーダ１０２は、参照するピクチャ（被参照ピクチャ）が、自己階層および／または自己階層よりも下位の階層に所属するように、符号化する。

図３は、エンコーダ１０２で行われる階層符号化の一例を示している。この例は、０から４までの５階層に分類され、各階層のピクチャの画像データに対して符号化が施された例である。

縦軸は階層を示している。階層０から４のピクチャの符号化画像データを構成するＮＡＬユニット（nal_unit）のヘッダ部分に配置されるtemporal_id（階層識別情報）として、それぞれ、０から４が設定される。一方、横軸は表示順（ＰＯＣ：picture order of composition）を示し、左側は表示時刻が前で、右側は表示時刻が後になる。

図４（ａ）は、ＮＡＬユニットヘッダの構造例（Syntax）を示し、図４（ｂ）は、その構造例における主要なパラメータの内容（Semantics）を示している。「Forbidden_zero_bit」の１ビットフィールドは、０が必須である。「Nal_unit_type」の６ビットフィールドは、ＮＡＬユニットタイプを示す。「Nuh_layer_id」の６ビットフィールドは、０を前提とする。「Nuh_temporal_id_plus1」の３ビットフィールドは、temporal_idを示し、１を加えた値（１〜７）をとる。

図３に戻って、矩形枠のそれぞれがピクチャを示し、数字は、符号化されているピクチャの順、つまりエンコード順（受信側ではデコード順）を示している。例えば、「２」から「１７」の１６個のピクチャによりサブ・ピクチャグループ（Sub group of pictures）が構成されており、「２」はそのサブ・ピクチャグループの先頭のピクチャとなる。「１」は前のサブ・ピクチャグループのピクチャである。このサブ・ピクチャグループがいくつか集まってＧＯＰ（Group Of Pictures）となる。

ＧＯＰの先頭ピクチャの符号化画像データは、図５に示すように、ＡＵＤ、ＶＰＳ、ＳＰＳ、ＰＰＳ、ＰＳＥＩ、ＳＬＩＣＥ、ＳＳＥＩ、ＥＯＳのＮＡＬユニットにより構成される。一方、ＧＯＰの先頭ピクチャ以外のピクチャは、ＡＵＤ、ＰＰＳ、ＰＳＥＩ、ＳＬＩＣＥ、ＳＳＥＩ、ＥＯＳのＮＡＬユニットにより構成される。ＶＰＳはＳＰＳと共に、シーケンス（ＧＯＰ）に一度、ＰＰＳは毎ピクチャで伝送可能とされている。

図３に戻って、実線矢印は、符号化におけるピクチャの参照関係を示している。例えば、「２」のピクチャは、Ｐピクチャであり、「１」のピクチャを参照して符号化される。また、「３」のピクチャは、Ｂピクチャであり、「１」、「３」のピクチャを参照して符号化される。同様に、その他のピクチャは、表示順で近くのピクチャを参照して符号化される。なお、階層４のピクチャは、他のピクチャからの参照がない。

エンコーダ１０２は、複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームを生成する。例えば、エンコーダ１０２は、最下位の階層組に複数の階層を含み、この最下位の階層組より上位に位置する階層組には１つの階層を含むように分割する。

例えば、図３の階層符号化の例において、エンコーダ１０２は、一点鎖線で区切るように、階層０から３を最下位の階層組とし、階層４をその上位に位置する階層組として、２つの階層組に分割する。この場合、エンコーダ１０２は、各階層組のピクチャの符号化画像データをそれぞれ持つ２つのビデオストリーム（符号化ストリーム）を生成することになる。

また、例えば、図３の階層符号化の例において、エンコーダ１０２は、一点鎖線および２点鎖線で区切るように、階層０から２を最下位の階層組とし、階層３をその上位に位置する階層組とし、さらに階層４をその上位に位置する階層組として、３つの階層組に分割する。この場合、エンコーダ１０２は、各階層組のピクチャの符号化画像データをそれぞれ持つ３つのビデオストリーム（符号化ストリーム）を生成することになる。

この場合、最下位の階層組のピクチャの符号化画像データを持つビデオストリームはベースストリームとされ、そのストリームタイプは“０ｘ２４”とされる。また、この最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むビデオストリームはエンハンスストリームとされ、そのストリームタイプは、新規定義する“０ｘ２５”とされる。

なお、エンハンスストリームが複数存在する場合、全てのエンハンスストリームのストリームタイプを“０ｘ２５”とするのではなく、各エンハンスストリームの識別が可能となるように、ストリームタイプを新規定義することも考えられる。例えば、エンハンスストリームが２つある場合、第１のエンハンスストリームのストリームタイプは“０ｘ２５”とされ、第２のエンハンスストリームのストリームタイプは“０ｘ２６”とされる。

このストリームタイプは、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報を構成する。このストリームタイプは、トランスポートストリームＴＳのレイヤに挿入される。すなわち、このストリームタイプは、プログラムマップテーブル（ＰＭＴ：Program Map Table）の配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループ（Video ES loop）の中に挿入される。

図６は、階層符号化の際のエンコード、デコード、表示順序と遅延の一例を示している。この例は、上述の図３の階層符号化例に対応している。この例は、全階層（全レイヤ）を、フル時間解像度で階層符号化する場合を示している。図６（ａ）はエンコーダ入力を示す。図６（ｂ）に示すように、１６ピクチャ分の遅延をもって、各ピクチャがエンコード順にエンコードされて、符号化ストリームが得られる。また、図６（ｂ）はデコーダ入力を示し、各ピクチャがデコード順にデコードされる。そして、図６（ｃ）に示すように、４ピクチャの遅延をもって、各ピクチャの画像データが表示順に得られる。

図７（ａ）は、上述の図６（ｂ）に示す符号化ストリームと同様の符号化ストリームを、階層０から２、階層３、階層４の３段階に分けて示している。ここで、「Ｔｉｄ」は、temporal_idを示している。図７（ｂ）は、階層０から２、つまりＴｉｄ＝０〜２の部分階層の各ピクチャを選択的にデコードする場合の表示期待（表示順）を示している。また、図７（ｃ）は、階層０から３、つまりＴｉｄ＝０〜３の部分階層の各ピクチャを選択的にデコードする場合の表示期待（表示順）を示している。さらに、図７（ｄ）は、階層０から４、つまりＴｉｄ＝０〜４の全階層の各ピクチャを選択的にデコードする場合の表示期待（表示順）を示している。

図７（ａ）の符号化ストリームをデコード能力別にデコード処理するには、時間解像度がフルレートのデコード能力が必要となる。しかし、Ｔｉｄ＝０〜２のデコードを行う場合、符号化されたフルの時間解像度に対して、１/４のデコード能力をもつデコーダが処理可能とすべきである。また、Ｔｉｄ＝０〜３のデコードを行う場合、符号化されたフルの時間解像度に対して、１/２のデコード能力をもつデコーダが処理可能とすべきである。

しかし、階層符号化において参照される低階層に属するピクチャが連続し、それらが時間解像度でフルなタイミングで符号化されると、部分デコードするデコーダの能力が追い付かないことになる。図７（ａ）のＡの期間がそれに該当する。Ｔｉｄ＝０〜２、あるいはＴｉｄ＝０〜３の部分的な階層をデコードするデコーダは、表示の例で示すような、時間軸が１/４あるいは１/２の能力でデコード・表示を行うため、Ａの期間符号化された時間解像度がフルで連続するピクチャのデコードはできない。

ＴａはＴｉｄ＝０〜２をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。ＴｂはＴｉｄ＝０〜３をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。ＴｃはＴｉｄ＝０〜４（全階層）をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。これらの各時間の関係は、Ｔａ＞Ｔｂ＞Ｔｃとなる。

この実施の形態において、エンコーダ１０２は、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように、符号化する。図８（ａ）は、図３の階層符号化の例において、各ピクチャが時間解像度でフルな１２０Ｈｚタイミングで符号化される場合であって、階層０から３がベースストリーム（B stream）を構成する最下位の階層組とされ、階層４がその上位に位置するエンハンスストリーム（E stream）を構成する階層組とされて、２つの階層組に分割される場合を示している。

この場合、最下位の階層組のピクチャの時間解像度は６０ｆｐｓであるが、１２０Ｈｚのタイミングで連続して符号化されるピクチャが存在し、６０ｆｐｓのデコード能力を備えるデコーダでは連続して安定したデコード処理が不可能となる。そのため、図８（ｂ）に示すように、ベースストリームを構成する最下位の階層組のピクチャの符号化タイミングが６０Ｈｚとなるように調整され、この最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化される。これにより、６０ｆｐｓのデコード能力を備えるデコーダにより、ベースストリームを構成する最下位の階層組のピクチャの符号化画像データに対して連続して安定したデコード処理が可能となる。

また、図８（ｂ）に示すように、エンハンスストリーム（E stream）を構成する階層組のピクチャの符号化タイミング、従ってそのピクチャの符号化画像データのデコードタイミングは、ベースストリーム（B stream）を構成する最下位の階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化される。これにより、受信側で、ベースストリームだけでなく、エンハンスストリームを構成する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。

図９は、図３の階層符号化の例において、ベースストリーム（B stream）と、エンハンスストリーム（E stream）の２つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング（デコードタイミング）の一例を示している。この例は、エンハンスストリームのデコード遅延がベースストリームに対して最小となる例である。この場合のデコード遅延は、フル時間解像度の符号化間隔（ベースストリームの符号化間隔の１/２）で８ピクチャ分である。

この例では、ベースストリーム（B stream）のピクチャの符号化タイミングは偶数タイミングとされ、エンハンスストリーム（E stream）の符号化タイミングは奇数タイミングとされる。そして、この例では、エンハンスストリーム（E stream）は、ベースストリーム（B stream）の最上位層の符号化順のすぐ後に符号化される。すなわち、エンハンスストリーム（E stream）の「９」のピクチャは、ベースストリーム（B stream）の「８」のピクチャの直後に符号化される。

図１０は、図３の階層符号化の例において、ベースストリーム（B stream）と、エンハンスストリーム（E stream）の２つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング（デコードタイミング）の他の一例を示している。この例は、エンハンスストリームのデコード遅延がベースストリームに対して大きくなる例である。この場合のデコード遅延は、フル時間解像度の符号化間隔（ベースストリームの符号化間隔の１/２）で１６ピクチャ分である。このようにデコード遅延が大きくなる場合には、ｄｐｂ（非圧縮データバッファ：decoded picture buffer）内部の参照メモリが多く必要となる。

この例では、ベースストリーム（B stream）のピクチャの符号化タイミングは偶数タイミングとされ、エンハンスストリーム（E stream）の符号化タイミングは奇数タイミングとされる。そして、この例では、エンハンスストリーム（E stream）は、ベースストリーム（B stream）の最上位層の符号化が終了した後に符号化される。すなわち、エンハンスストリーム（E stream）の「１７」のピクチャは、ベースストリーム（B stream）の「１６」のピクチャの直後に符号化される。

図１１（ａ）は、図３の階層符号化の例において、各ピクチャが時間解像度でフルな１２０Ｈｚタイミングで符号化される場合であって、階層０から２がベースストリーム（B stream）を構成する最下位の階層組とされ、階層３がその上位に位置するエンハンスストリーム（E stream1）を構成する階層組とされ、さらに階層４がその上位に位置するエンハンスストリーム（E stream2）を構成する階層組とされて、３つの階層組に分割される場合を示している。

この場合、最下位の階層組のピクチャの時間解像度は３０ｆｐｓであるが、１２０Ｈｚのタイミングで連続して符号化されるピクチャが存在し、３０ｆｐｓのデコード能力を備えるデコーダでは連続して安定したデコード処理が不可能となる。そのため、図１１（ｂ）に示すように、ベースストリームを構成する最下位の階層組のピクチャの符号化タイミングが３０Ｈｚとなるように調整され、この最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化される。これにより、３０ｆｐｓのデコード能力を備えるデコーダにより、ベースストリームを構成する最下位の階層組のピクチャの符号化画像データに対して連続して安定したデコード処理が可能となる。

また、図１１（ｂ）に示すように、エンハンスストリーム（E stream1）を構成する階層組のピクチャの符号化タイミング、従ってそのピクチャの符号化画像データのデコードタイミングは、ベースストリーム（B stream）を構成する最下位の階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化される。さらに、図１１（ｂ）に示すように、エンハンスストリーム（E stream2）を構成する階層組のピクチャの符号化タイミング、従ってそのピクチャの符号化画像データのデコードタイミングは、ベースストリーム（B stream）およびエンハンスストリーム（E stream1）を構成する階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化される。これにより、受信側で、ベースストリームだけでなく、２つのエンハンスストリームを構成する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。

図１２は、図３の階層符号化の例において、ベースストリーム（B stream）と、エンハンスストリーム（E stream1）と、エンハンスストリーム（E stream2）の３つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング（デコードタイミング）の一例を示している。この例は、エンハンスストリームのデコード遅延がベースストリームに対して最小となる例である。この場合のデコード遅延は、フル時間解像度の符号化間隔（ベースストリームの符号化間隔の１/４）で１２ピクチャ分である。

この例では、ベースストリーム（B stream）のピクチャの符号化タイミングは４の倍数のタイミングとされ、エンハンスストリーム（E stream1）の符号化タイミングは４の倍数のタイミングで、ベースストリーム（B stream）のピクチャの符号化タイミングの中間のタイミングとされる。また、エンハンスストリーム（E stream1）の符号化タイミングは奇数タイミングとされる。

そして、この例では、エンハンスストリーム（E stream1）は、ベースストリーム（B stream）の最上位層の符号化順のすぐ後に符号化される。すなわち、エンハンスストリーム（E stream1）の「１０」のピクチャは、ベースストリーム（B stream）の「８」のピクチャの直後に符号化される。また、この例では、エンハンスストリーム（E stream2）は、エンハンスストリーム（E stream1）の符号化順のすぐ後に符号化される。すなわち、エンハンスストリーム（E stream2）の「１１」のピクチャは、エンハンスストリーム（E stream1）の「１０」のピクチャの直後に符号化される。

図１３は、図３の階層符号化の例において、ベースストリーム（B stream）と、エンハンスストリーム（E stream1）と、エンハンスストリーム（E stream2）の３つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング（デコードタイミング）の他の一例を示している。この例は、エンハンスストリームのデコード遅延がベースストリームに対して大きくなる例である。この場合のデコード遅延は、フル時間解像度の符号化間隔（ベースストリームの符号化間隔の１/４）で２７ピクチャ分である。このようにデコード遅延が大きくなる場合には、ｄｐｂ（非圧縮データバッファ：decoded picture buffer）内部の参照メモリが多く必要となる。

そして、この例では、エンハンスストリーム（E stream1）は、ベースストリーム（B stream）の最上位層の符号化が終了した後に符号化される。すなわち、エンハンスストリーム（E stream1）の「１４」のピクチャは、ベースストリーム（B stream）の「１２」のピクチャの直後に符号化される。また、この例では、エンハンスストリーム（E stream2）は、エンハンスストリーム（E stream1）の符号化が終了した後に符号化される。すなわち、エンハンスストリーム（E stream2）の「２７」のピクチャは、エンハンスストリーム（E stream1）の「２６」のピクチャの直後に符号化される。

図１４は、エンコーダ１０２のＨＲＤ（Hypothetical Reference Decoder）制御の一例を示している。この例は、ベースストリーム（B stream）と、エンハンスストリーム（E stream）の２つのビデオストリームを生成する場合の例である。ここでは、ベースストリームをサブストリーム１（Substream1）とし、エンハンスストリームをサブストリーム２（Substream2）として説明する。

階段状の実線ａ１は、エンコード（符号化）により発生するサブストリーム１のデータ量の推移を示しており、各段がそれぞれ一つのピクチャの単位に対応している。段の高さは、エンコードにより発生するデータ量を示している。

タイミングＰ01は、最初のピクチャの符号化画像データの最初のバイトがｃｐｂ１（coded picture buffer 1:圧縮データバッファ）に入るタイミングを示している。Ｒ１は、最初のピクチャの符号化画像データのｃｐｂ１への入力ビットレートを示している。ここで、Ｔ１の時間をもってｃｐｂ１に入力される符号化データ量がＱ１であるとき、Ｒ１＝Ｑ１/Ｔ１となる。なお、図示の例では、その他のピクチャの符号化画像データのｃｐｂ１への入力ビットレートもＲ１である場合を示している。

階段状の実線ｂ１は、デコード（復号化）により消費するｃｐｂ１におけるデータ量の推移を示しており、各段がそれぞれ一つのピクチャの単位に対応している。段の高さは、デコードにより消費するデータ量を示している。Ｑcpb1は、ｃｐｄ１の占有量を示している。この占有量が、どのタイミングにおいてもｃｐｂ１のサイズ（メモリ容量）に収まるようにエンコードされる。

また、階段状の実線ａ２は、エンコード（符号化）により発生するサブストリーム２のデータ量の推移を示しており、各段がそれぞれ一つのピクチャの単位に対応している。段の高さは、エンコードにより発生するデータ量を示している。

タイミングＰ02は、最初のピクチャの符号化画像データの最初のバイトがｃｐｂ２（coded picture buffer 2:圧縮データバッファ）に入るタイミングを示している。Ｒ２は、最初のピクチャの符号化画像データのｃｐｂ２への入力ビットレートを示している。ここで、Ｔ２の時間をもってｃｐｂ２に入力される符号化データ量がＱ２であるとき、Ｒ２＝Ｑ２/Ｔ２となる。なお、図示の例では、その他のピクチャの符号化画像データのｃｐｂ２への入力ビットレートもＲ２である場合を示している。

階段状の実線ｂ２は、デコード（復号化）により消費するｃｐｂ２におけるデータ量の推移を示しており、各段がそれぞれ一つのピクチャの単位に対応している。段の高さは、デコードにより消費するデータ量を示している。Ｑcpb2は、ｃｐｄ２の占有量を示している。この占有量が、どのタイミングにおいてもｃｐｂ２のサイズ（メモリ容量）に収まるようにエンコードされる。

図示の例では、サブストリーム１に関しては「１−０」、「１−１」、「１−２」、「１−３」・・・のピクチャ順にデコードされ、サブストリーム２に関しては「２−０」、「２−１」、「２−２」、「２−３」・・・のピクチャ順にデコードされる。このようにサブストリーム１のピクチャとサブストリーム２のピクチャが交互にデコードされる。デコードされた各ピクチャの画像データは、ｄｐｂ（decoded picture buffer:非圧縮データバッファ）に入力される。この例において、デコードが行われてから表示が開始されるまでの遅延ピクチャ数は４ピクチャとされている。

なお、上述では、Ｒ１，Ｒ２とも、固定ビットレート（constant_bit_rate）の例を示しているが、これに限定せずとも、可変ビットレート（variable_bit_rate）でも考え方は同じである。

図１５は、エンコーダ１０２の構成例を示している。このエンコーダ１０２は、テンポラルＩＤ発生部１２１と、バッファ遅延制御部１２２と、ＨＲＤ（Hypothetical Reference Decoder）設定部１２３と、パラメータセット/ＳＥＩエンコード部１２４と、スライスエンコード部１２５と、ＮＡＬパケット化部１２６を有している。

テンポラルＩＤ発生部１２１には、ＣＰＵ１０１から、階層数（Number of layers）の情報が供給される。テンポラルＩＤ発生部１２１は、この階層数の情報に基づいて、階層数に応じたtemporal_idを発生する。例えば、図３の階層符号例においては、temporal_id＝０〜４が発生される。

バッファ遅延制御部１２２には、ＣＰＵ１０１から、ミニマムデコード能力（minimum_target_decoder_level_idc）の情報が供給されると共に、テンポラルＩＤ発生部１２１で発生されるtemporal_idが供給される。バッファ遅延制御部１２２は、ビデオストリーム毎に、ｃｐｂバッファリング（buffering）初期値である、“initial_cpb_removal_delay ”と、ピクチャ毎の“cpb_removal_delay”、“ dpb_output_delay”を計算する。

バッファ遅延制御部１２２は、サブストリーム（Sub-stream）ごとのｃｐｂバッファにおいて“Cpb_removal_delay”を制御する。バッファ遅延制御部１２２は、ｄｐｂバッファにおいてデコーダのデコードタイミングと表示タイミングの間でバッファ破綻がないよう制御する。この場合、最下位の階層組のピクチャのデコードタイミングが等間隔となるように、“cpb_removal_delay”を制御する。また、この場合、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのエンコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのエンコードタイミングの中間タイミングとなるように、“cpb_removal_delay”を制御する。また、ｃｐｂバッファの破たんを招かないように、“dpb_output_delay”を制御する。なお、エンコードタイミングは、受信側で圧縮データバッファ（ｃｐｂ：coded picture buffer）から読み出されるデコードタイミングと同じ意味を示す。

ＨＲＤ（Hypothetical Reference Decoder）設定部１２３には、バッファ遅延制御部１２２で計算された各ビデオストリームのピクチャの「cpb_removal_delay」、「dpb_output_delay」が供給されると共に、ＣＰＵ１０１からストリーム数（Number of streams）の情報が供給される。ＨＲＤ設定部１２３は、これらの情報に基づいてＨＲＤ設定を行う。

パラメータセット/ＳＥＩエンコード部１２４には、ＨＲＤ設定情報と共に、temporal_idが供給される。パラメータセット/ＳＥＩエンコード部１２４は、符号化するストリーム数に応じて、各階層のピクチャのＶＰＳ、ＳＰＳ、ＰＰＳなどのパラメータセットとＳＥＩを生成する。

例えば、「cpb_removal_delay」と「dpb_output_delay」を含むピクチャ・タイミング・ＳＥＩ（Picture timing SEI）が生成される。また、例えば、「initial_cpb_removal_time」を含むバッファリング・ピリオド・ＳＥＩ（Buffereing Perifod SEI）が生成される。バッファリング・ピリオド・ＳＥＩは、ＧＯＰの先頭のピクチャ（アクセスユニット）に対応して生成される。

「initial cpb removal time」は、圧縮データバッファ（ｃｐｂ）からＧＯＰ（Group Of Picture）の先頭のピクチャの符号化画像データをデコードする際に取り出す時刻（初期時刻）を示す。「cpb_removal_delay」は、各ピクチャの符号化画像データを圧縮データバッファ（ｃｐｂ）から取り出す時間であり、「initial_cpb_removal_time」と合わせて時刻が決まる。また、「dpb_output_delay」は、デコードして非圧縮データバッファ（ｄｐｂ）に入ってから取り出す時間を示す。

スライスエンコード部１２５は、各階層のピクチャの画像データをエンコードしてスライスデータ（slice segment header, slice segment data）を得る。スライスエンコード部１２５は、フレームバッファにより、時間方向の予測の状態を表す情報として、「Prediction Unit」の予測先ピクチャのインデックスを示す「ref_idx_l0_active(ref_idx_l1_active)を、「slice segment header」に挿入する。これにより、デコード時には、temporal_idで示される階層レベルと共に、被参照ピクチャが決定される。また、スライスエンコード部１２５は、現在のスライス（slice）のインデックスを、「short_term_ref_pic_set_idx」、あるいは「it_idx_sps」として、「slice segment header」に挿入する。

ＮＡＬパケット化部１２６は、パラメータセット/ＳＥＩエンコード部１２４で生成されたパラメータセットおよびＳＥＩと、スライスエンコード部１２５で生成されるスライスデータに基づき、各階層のピクチャの符号化画像データを生成し、ストリーム数に応じた数のビデオストリーム（符号化ストリーム）を出力する。

その際、ピクチャごとに、その階層を示すtemporal_idがＮＡＬユニットヘッダに付される（図４参照）。また、temporal_idで示される階層に属するピクチャは、サブレイヤ（sub_layer）として括られ、サブレイヤごとのビットレートのレベル指定値「Level_idc」が「sublayer_level_idc」とされて、ＶＰＳやＳＰＳに挿入される。

図１６は、エンコーダ１０２の処理フローを示す。エンコーダ１０２は、ステップＳＴ１において、処理を開始し、その後に、ステップＳＴ２の処理に移る。このステップＳＴ２において、エンコーダ１０２は、階層符号化における階層数Ｎを設定する。次に、エンコーダ１０２は、ステップＳＴ３において、各階層のピクチャのtemporal_idを０〜（Ｎ−１）とする。

次に、エンコーダ１０２は、ステップＳＴ４において、対象デコーダのうち、最小能力のデコーダがデコードできる階層レベルＫを、０〜Ｎ−１の範囲内に設定する。そして、エンコーダ１０２は、ステップＳＴ５において、バッファ遅延制御部１２２で、各階層組におけるピクチャエンコード間隔およびエンコードタイミングを設定する。

次に、エンコーダ１０２は、ステップＳＴ６において、ステップＳＴ５で求めた各階層組のピクチャエンコード間隔およびエンコードタイミングを「cpb_removal_delay」、「dpb_output_delay」に反映し、ＨＲＤ設定、パラメータセット/ＳＥＩのエンコード、スライスエンコードを行い、ＮＡＬユニットとして多重化ブロックへ転送する。その後、エンコーダ１０２は、ステップＳＴ７において、処理を終了する。

図２に戻って、圧縮データバッファ(ｃｐｂ)１０３は、エンコーダ１０２で生成された、各階層のピクチャの符号化データを含むビデオストリームを、一時的に蓄積する。マルチプレクサ１０４は、圧縮データバッファ１０３に蓄積されているビデオストリームを読み出し、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。

トランスポートストリームＴＳには、上述したように、複数の階層が分割されて得られた各階層組のピクチャの符号化画像データを持つ所定数のビデオストリームが含まれる。マルチプレクサ１０４は、トランスポートストリームＴＳに、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報を挿入する。この場合、識別情報は、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループ（Video ES loop）の中にストリームタイプとして挿入する。

この場合、ベースストリームのストリームタイプは“０ｘ２４”とされる。また、エンハンスストリームのストリームタイプは新規定義される、例えば“０ｘ２５”とされる。なお、エンハンスストリームが複数存在する場合、全てのエンハンスストリームのストリームタイプが同じくされるのではなく、各エンハンスストリームの識別が可能となるようにエンハンスストリームのストリームタイプとして複数のストリームタイプが新規定義されてもよい。例えば、エンハンスストリームが２つある場合、第１のエンハンスストリームのストリームタイプは“０ｘ２５”とされ、第２のエンハンスストリームのストリームタイプは“０ｘ２６”とされる。

マルチプレクサ１０４は、トランスポートストリームＴＳのレイヤに、所定数のビデオストリームのそれぞれに対応して、ビデオストリームの構成情報を挿入する。マルチプレクサ１０４は、この構成情報を、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にデスクリプタとして挿入する。

マルチプレクサ１０４は、ＨＥＶＣデスクリプタ（HEVC_descriptor）と共に、新規定義するマルチストリーム・デスクリプタ（multistream_descriptor）を挿入する。図１７は、ＨＥＶＣデスクリプタ（HEVC_descriptor）の構造例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、ＨＥＶＣデスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

「level_idc」の８ビットフィールドは、ビットレートのレベル指定値を示す。また、「temporal_layer_subset_flag = 1」であるとき、「temporal_id_min」の５ビットフィールドと、「temporal_id_max」の５ビットフィールドが存在する。「temporal_id_min」は、対応するビデオストリームに含まれる階層符号化データの最も低い階層のtemporal_idの値を示す。「temporal_id_max」は、対応するビデオストリームが持つ階層符号化データの最も高い階層のtemporal_idの値を示す。

図１８は、マルチストリーム・デスクリプタ（multistream_descriptor）の構造例（Syntax）を示している。また、図１９は、その構造例における主要な情報の内容（Semantics）を示している。

「multistream_descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、マルチストリーム・デスクリプタであることを示す。「multistream_descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。ここでは、２バイトを示す。「group_id」の４ビットフィールドは、一連のサービスで関連付けられるグループのＩＤを示す。この場合、ベースストリーム（base stream）と、それを基本とするすべてのノンベースストリーム（non-base stream＝enhanced stream）が同じＩＤを持つ。

「stream_dependency_ordering」の４ビットフィールドは、ベースストリーム（base stream）から始まるストリーム間の依存関係を昇順で定義する。“０００１”は、基本ストリームを示す。“００１０”は、基本ストリームから２番目のストリーム（エンハンスストリーム）を示す。“００１１”は、基本ストリームから３番目のストリームを示す。「max_layer_in_group」は、グループの中で符号化される階層の最大値を示す。

図２０は、トランスポートストリームＴＳに、例えば、サービス１（SERVICE 1）と、サービス２（SERVICE 2）のビデオストリーム群が含まれている場合における「Stream_type」、「Group_id」、「max/min layer」、「max_layer_in_group」、「Stream_dependenncy ordering」の一例を示している。

この例で、サービス１のビデオストリームとして、ベースストリーム（Base stream）、エンハンスストリーム（Enhanced stream 1）、エンハンスストリーム（Enhanced stream 2
）の３つのビデオストリームが含まれている。このサービス１は、「Group_id」の値は「０」になっている。また、このサービス１は、例えば、図３に示す階層符号化の例と同様に、階層数は５階層であり、「max/min layer」の値は、「４」となっている。

また、このサービス１は、３つの階層組に分割されている。ベースストリームの「Stream_type」の値は「０ｘ２４」に設定されており、ＨＥＶＣデスクリプタの「max/min layer」は階層０から２のピクチャを含むことを示す。また、エンハンスストリーム（Enhanced stream 1）の「Stream_type」の値は「０ｘ２５」に設定されており、ＨＥＶＣデスクリプタの「max/min layer」は階層３のピクチャを含むことを示す。さらに、エンハンスストリーム（Enhanced stream 2）の「Stream_type」の値は「０ｘ２５」に設定されており、ＨＥＶＣデスクリプタの「max/min layer」は階層４のピクチャを含むことを示す。

また、この例で、サービス２のビデオストリームとして、ベースストリーム（Base stream）、エンハンスストリーム（Enhanced stream 1）、エンハンスストリーム（Enhanced stream 2
）の３つのビデオストリームが含まれている。このサービス２は、「Group_id」の値は「１」になっている。また、このサービス２は、例えば、階層数は４階層であり、「max/min layer」の値は、「３」となっている。

また、このサービス２は、３つの階層組に分割されている。ベースストリームの「Stream_type」の値は「０ｘ２４」に設定されており、ＨＥＶＣデスクリプタの「max/min layer」は階層０から１のピクチャを含むことを示す。また、エンハンスストリーム（Enhanced stream 1）の「Stream_type」の値は「０ｘ２５」に設定されており、ＨＥＶＣデスクリプタの「max/min layer」は階層２のピクチャを含むことを示す。さらに、エンハンスストリーム（Enhanced stream 2）の「Stream_type」の値は「０ｘ２５」に設定されており、ＨＥＶＣデスクリプタの「max/min layer」は階層３のピクチャを含むことを示す。

図２１は、マルチプレクサ１０４の構成例を示している。マルチプレクサ１０４は、セクションコーディング部１４２と、ＰＥＳパケット化部１４３-1〜１４３-Nと、スイッチ部１４４と、トランスポートパケット化部１４５を有している。

ＰＥＳパケット化部１４３-1〜１４３-Nは、それぞれ、圧縮データバッファ１０３に蓄積されているビデオストリーム１〜Ｎを読み込み、ＰＥＳパケットを生成する。ここで、ビデオストリーム１〜Ｎには、１つのベースストリームと、１つ以上のエンハンスストリームが含まれている。

この際、ＰＥＳパケット化部１４３-1〜１４３-Nは、ビデオストリーム１〜ＮのＨＲＤ情報を元にＤＴＳ（Decoding Time Stamp）、ＰＴＳ（Presentation Time Stamp）のタイムスタンプをＰＥＳヘッダに付与する。この場合、各ピクチャの「cpu_removal_delay」、「dpb_output_delay」が参照されて、ＳＴＣ（System Time Clock）時刻に同期した精度で、各々ＤＴＳ、ＰＴＳが生成され、ＰＥＳヘッダの所定位置に配置される。

スイッチ部１４４は、ＰＥＳパケット化部１４３-1〜１４３-Nで生成されたＰＥＳパケットを、パケット識別子（ＰＩＤ）に基づいて選択的に取り出し、トランスポートパケット化部１４５に送る。トランスポートパケット化部１４５は、ＰＥＳパケットをペイロードに含むＴＳパケットを生成し、トランスポートストリームＴＳを得る。

セクションコーディング部１４２は、トランスポートストリームＴＳに挿入すべき各種のセクションデータを生成する。セクションコーディング部１４２には、ＣＰＵ１０１から、階層数（Number of layers）と、ストリーム数（Number of streams）などの情報が供給される。セクションコーディング部１４２は、これら情報に基づいて、上述したＨＥＶＣデスクリプタ（HEVC_descriptor）、マルチストリーム・デスクリプタ（multistream_descriptor）を生成する。

セクションコーディング部１４２は、各種セクションデータを、トランスポートパケット化部１４５に送る。トランスポートパケット化部１４５は、このセクションデータを含むＴＳパケットを生成し、トランスポートストリームＴＳに挿入する。なお、この際、各ビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループ（Video ES loop）の中に、ストリームタイプも挿入される。この場合、ベースストリームのストリームタイプは“０ｘ２４”とされ、エンハンスストリームのストリームタイプは、例えば新規定義する“０ｘ２５”とされる。

図２２は、マルチプレクサ１０４の処理フローを示す。マルチプレクサ１０４は、ステップＳＴ１１において、処理を開始し、その後に、ステップＳＴ１２の処理に移る。このステップＳＴ１２において、マルチプレクサ１０４は、ＨＲＤ情報（cpu_removal_delay、dpb_output_delay）を参照して、ＤＴＳ、ＰＴＳを決め、ＰＥＳヘッダの所定位置に挿入する。

次に、マルチプレクサ１０４は、ステップＳＴ１３において、マルチストリームか否か、つまりＮが複数であるか否かを判断する。マルチストリームであるとき、マルチプレクサ１０４は、ステップＳＴ１４において、複数のＰＩＤで多重化処理を進めることとする。そして、マルチプレクサ１０４は、ステップＳＴ１５において、ベースストリームか否かを判断する。

ベースストリームであるとき、マルチプレクサ１０４は、ステップＳＴ１６において、ストリームタイプを“０ｘ２４”に設定し、その後にステップＳＴ１８の処理に進む。一方、エンハンスストリームであるとき、マルチプレクサ１０４は、ステップＳＴ１７において、ストリームタイプを、エンハンスストリームを示す値、例えば新規定義する“０ｘ２５”に設定し、その後にステップＳＴ１８の処理に進む。

なお、ステップＳＴ１３でマルチストリームでないとき、マルチプレクサ１０４は、ステップＳＴ１９において、１つのＰＩＤで多重化処理をすることとし、その後にステップＳＴ１８の処理に進む。

ステップＳＴ１８において、マルチプレクサ１０４は、ＨＥＶＣデスクリプタ、マルチストリーム・デスクリプタなどをセクションコーディングし、また、符号化ストリーム（ビデオエレメンタリストリーム）をＰＥＳペイロードに挿入してＰＥＳパケット化する。そして、マルチプレクサ１０４は、ステップＳＴ２０においてトランスポートパケット化し、トランスポートストリームＴＳを得る。その後、マルチプレクサ１０４は、ステップＳＴ２１において、処理を終了する。

図２３は、あるサービスを２ストリームで配信する場合のトランスポートストリームＴＳの構成例を示している。このトランスポートストリームＴＳには、ベースストリームとエンハンスストリームの２つのビデオストリームが含まれている。すなわち、この構成例では、ベースストリームのＰＥＳパケット「video PES1」が存在すると共に、エンハンスストリームのＰＥＳパケット「video PES2」が存在する。

また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）の一つとして、ＰＭＴ（Program Map Table）が含まれている。このＰＳＩは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。

ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・ループ（Program loop）が存在する。また、ＰＭＴには、各ビデオストリームに関連した情報を持つエレメンタリストリーム・ループが存在する。この構成例では、ベースストリームに対応したビデオエレメンタリストリームループ「video ES1 loop」が存在すると共に、エンハンスストリームに対応したビデオエレメンタリストリームループ「video ES2 loop」が存在する。

「video ES1 loop」には、ベースストリーム（video PES1）に対応して、ストリームタイプ、パケット識別子（PID）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このストリームタイプは、ベースストリームを示す“０ｘ２４”とされる。また、デスクリプタの一つとして、上述したＨＥＶＣデスクリプタ、マルチストリーム・デスクリプタが挿入される。

また、「video ES2 loop」には、エンハンスストリーム（video PES2）に対応して、ストリームタイプ、パケット識別子（PID）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このストリームタイプは、エンハンスストリームを示す、例えば新規定義する“０ｘ２５”とされる。また、デスクリプタの一つとして、上述したＨＥＶＣデスクリプタ、マルチストリーム・デスクリプタが挿入される。

図２４は、あるサービスを３ストリームで配信する場合のトランスポートストリームＴＳの構成例を示している。このトランスポートストリームＴＳには、ベースストリームと２つのエンハンスストリームの３つのビデオストリームが含まれている。すなわち、この構成例では、ベースストリームのＰＥＳパケット「video PES1」が存在すると共に、エンハンスストリームのＰＥＳパケット「video PES2」、「video PES3」が存在する。

また、ＰＭＴには、各ビデオストリームに関連した情報を持つエレメンタリストリーム・ループが存在する。この構成例では、ベースストリームに対応したビデオエレメンタリストリームループ「video ES1 loop」が存在すると共に、２つのエンハンスストリームに対応したビデオエレメンタリストリームループ「video ES2 loop」およびビデオエレメンタリストリームループ「video ES3 loop」が存在する。

また、「video ES3 loop」には、エンハンスストリーム（video PES3）に対応して、ストリームタイプ、パケット識別子（PID）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このストリームタイプは、エンハンスストリームを示す、例えば新規定義する“０ｘ２５”あるいは“０ｘ２６”とされる。また、デスクリプタの一つとして、上述したＨＥＶＣデスクリプタ、マルチストリーム・デスクリプタが挿入される。

図２に戻って、送信部１０５は、トランスポートストリームＴＳを、例えば、ＱＰＳＫ／ＯＦＤＭ等の放送に適した変調方式で変調し、ＲＦ変調信号を送信アンテナから送信する。

図２に示す送信装置１００の動作を簡単に説明する。エンコーダ１０２には、非圧縮の動画像データが入力される。エンコーダ１０２では、この動画像データに対して、階層符号化が行われる。すなわち、エンコーダ１０２では、この動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化され、各階層のピクチャの符号化画像データを持つビデオストリームが生成される。この際、参照するピクチャが、自己階層および／または自己階層よりも下位の階層に所属するように、符号化される。

エンコーダ１０２では、複数の階層が所定数の階層組に分割され、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが生成される。この場合、最下位の階層組のピクチャの符号化画像データを持つベースストリームが生成されると共に、この最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを持つ所定数のエンハンスストリームが生成される。

エンコーダ１０２で生成された所定数のビデオストリームは、圧縮データバッファ（ｃｐｂ）１０３に供給され、一時的に蓄積される。マルチプレクサ１０４では、圧縮データバッファ１０３に蓄積されている各ビデオストリームが読み出され、ＰＥＳパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームＴＳが得られる。

また、マルチプレクサ１０４では、トランスポートストリームＴＳのレイヤに、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報が挿入される。この識別情報は、例えば、各ビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループ（Video ES loop）の中に挿入されるストリームタイプである。この場合、ベースストリームのストリームタイプは“０ｘ２４”とされ、エンハンスストリームのストリームタイプは、例えば新規定義する“０ｘ２５”とされる。

また、マルチプレクサ１０４では、トランスポートストリームＴＳのレイヤに、所定数のビデオストリームのそれぞれに対応して、ビデオストリームの構成情報が挿入される。すなわち、マルチプレクサ１０４では、各ビデオストリームに対応したビデオエレメンタリストリームループに、ＨＥＶＣデスクリプタ、マルチストリーム・デスクリプタが挿入される。

マルチプレクサ１０４で生成されるトランスポートストリームＴＳは、送信部１０５に送られる。送信部１０５では、このトランスポートストリームＴＳが、例えば、ＱＰＳＫ／ＯＦＤＭ等の放送に適した変調方式で変調され、ＲＦ変調信号が送信アンテナから送信される。

「受信装置の構成」
図２５は、受信装置２００の構成例を示している。この受信装置２００は、ＣＰＵ（Central Processing Unit）２０１と、受信部２０２と、デマルチプレクサ２０３と、圧縮データバッファ（ｃｐｂ：coded picture buffer）２０４を有している。また、この受信装置２００は、デコーダ２０５と、非圧縮データバッファ（ｄｐｂ：decoded picture buffer）２０６と、ポスト処理部２０７を有している。ＣＰＵ２０１は、制御部を構成し、受信装置２００の各部の動作を制御する。

受信部２０２は、受信アンテナで受信されたＲＦ変調信号を復調し、トランスポートストリームＴＳを取得する。デマルチプレクサ２０３は、トランスポートストリームＴＳから、デコード能力（Decoder temporal layer capability）に応じた階層組のピクチャの符号化画像データを選択的に取り出し、圧縮データバッファ（ｃｐｂ：coded picture buffer）２０４に送る。

図２６は、デマルチプレクサ２０３の構成例を示している。デマルチプレクサ２０３は、ＴＳアダプテーションフィールド抽出部２３１と、クロック情報抽出部２３２と、ＴＳペイロード抽出部２３３と、セクション抽出部２３４と、ＰＳＩテーブル/デスクリプタ抽出部２３５と、ＰＥＳパケット抽出部２３６を有している。また、デマルチプレクサ２０３は、ＰＥＳヘッダ抽出部２３７と、タイムスタンプ抽出部２３８と、ＰＥＳペイロード抽出部２４０と、ストリーム構成部（ストリームコンポーザ）２４１を有している。

ＴＳアダプテーションフィールド抽出部２３１は、トランスポートストリームＴＳのアダプテーションフィールドを持つＴＳパケットから当該アダプテーションフィールドを抽出する。クロック情報抽出部２３２は、ＰＣＲ（Program Clock Reference）が含まれるアダプテーションフィールドから当該ＰＣＲを抽出し、ＣＰＵ２０１に送る。

ＴＳペイロード抽出部２３３は、トランスポートストリームＴＳのＴＳペイロードを持つＴＳパケットから当該ＴＳペイロードを抽出する。セクション抽出部２３４は、セクションデータが含まれるＴＳペイロードから当該セクションデータを抽出する。ＰＳＩテーブル/デスクリプタ抽出部２３５は、セクション抽出部２３４で抽出されたセクションデータを解析し、ＰＳＩテーブルやデスクリプタを抽出する。そして、ＰＳＩテーブル/デスクリプタ抽出部２３５は、temporal_idの最小値（min）と最大値（max）、最大階層数、ストリーム依存関係、グループＩＤなどを、ＣＰＵ２０１に送ると共に、ストリーム構成部２４１に送る。

ＰＥＳパケット抽出部２３６は、ＰＥＳパケットが含まれるＴＳペイロードから当該ＰＥＳパケットを抽出する。ＰＥＳヘッダ抽出部２３７は、ＰＥＳパケット抽出部２３６で抽出されたＰＥＳパケットからＰＥＳヘッダを抽出する。タイムスタンプ抽出部２３８は、ピクチャ毎にＰＥＳヘッダに挿入されているタイムスタンプ（ＤＴＳ、ＰＴＳ）を抽出し、ＣＰＵ２０１に送ると共に、ストリーム構成部２４１に送る。

ＰＥＳペイロード抽出部２４０は、ＰＥＳパケット抽出部２３６で抽出されたＰＥＳパケットからＰＥＳペイロード、つまり、各階層のピクチャの符号化画像データを抽出する。ストリーム構成部２４１は、ＰＥＳペイロード抽出部２４０で取り出される各階層のピクチャの符号化画像データから、デコード能力（Decoder temporal layer capability）に応じてベースストリームのみ、あるいはベースストリームと所定数のエンハンスストリームのピクチャの符号化画像データを選択的に取り出し、圧縮データバッファ（ｃｐｂ：coded picture buffer）２０４に送る。この場合、ストリーム構成部２４１は、ＰＳＩテーブル/デスクリプタ抽出部２３５で得られる階層情報などを参照する。

例えば、トランスポートストリームＴＳに含まれる所定数のビデオストリーム（符号化ストリーム）のフレームレートが１２０ｆｐｓである場合を考える。例えば、複数の階層が低階層側の階層組と高階層側の階層組とに２分され、各階層組のピクチャのフレームレートがそれぞれ６０ｆｐｓであるとする。例えば、上述の図３に示す階層符号化例では、階層０から３は低階層側の階層組とされ、６０ｆｐｓのlevel_idc対応のデコーダがデコード可能となる。また、階層４は高階層側の階層組とされ、１２０ｆｐｓのlevel_idc対応のデコーダがデコード可能となる。

ストリーム構成部２４１は、デコード能力が、１２０ｆｐｓに対応している場合、パケットＩＤ（ＰＩＤ）に基づいて、ベースストリームおよびエンハンスストリームの双方のピクチャの符号化画像データを取り出し、圧縮データバッファ（ｃｐｂ）２０４に送る。一方、ストリーム構成部２４１は、デコード能力が、１２０ｆｐｓに対応していないが６０ｆｐｓに対応している場合、パケットＩＤ（ＰＩＤ）に基づいて、ベースストリームのピクチャの符号化画像データのみを取り出し、圧縮データバッファ（ｃｐｂ）２０４に送る。

図２７は、トランスポートストリームＴＳにベースストリームとエンハンスストリームの２つのビデオストリーム（符号化ストリーム）が含まれている場合におけるストリーム構成部２４１のピクチャ（スライス）選択の一例を示している。ベースストリームのパケット識別子（ＰＩＤ）はＰＩＤＡであり、エンハンスストリームのパケット識別子（ＰＩＤ）はＰＩＤＢであるとする。図示の例は、上述の図９に示す例に対応しており、第ｎのサブ・ピクチャグループ（Sub group of pictures）の部分のみを示しており、矩形枠で示されている各ピクチャに付されている数字はデコード順（送信側ではエンコード順）を示している。

デコード能力が、１２０ｆｐｓに対応している場合、ストリーム構成部２４１は、パケット識別子（ＰＩＤ）に基づくフィルタリングを行って、ＰＩＤＡであるベースストリームおよびＰＩＤＢであるエンハンスストリームの双方のピクチャの符号化画像データを取り出し、圧縮データバッファ（ｃｐｂ）２０４に送る。この場合、ベースストリームのピクチャの符号化画像データは領域１（cpb_1）に蓄積し、エンハンスストリームのピクチャの符号化画像データは領域２（cpb_2）に蓄積する。

一方、デコード能力が、１２０ｆｐｓに対応していないが６０ｆｐｓに対応している場合、ストリーム構成部２４１は、パケット識別子（ＰＩＤ）に基づくフィルタリングを行って、ＰＩＤＡであるベースストリームのピクチャの符号化画像データだけを取り出し、圧縮データバッファ（ｃｐｂ）２０４に送り、領域１（cpb_1）に蓄積する。

図２８は、デマルチプレクサ２０３の処理フローの一例を示している。この処理フローは、トランスポートストリームＴＳに、最下位の階層組のピクチャの符号化画像データを持つベースストリームと、この最下位の階層組の上位に位置する所定数の階層組のピクチャの符号化画像データをそれぞれ持つ所定数のエンハンスストリームが含まれている場合を示している。

デマルチプレクサ２０３は、ステップＳＴ４１において、処理を開始し、その後に、ステップＳＴ４２の処理に移る。このステップＳＴ４２おいて、ＣＰＵ２０１から、デコード能力（Decoder temporal layer capability）が設定される。次に、デマルチプレクサ２０３は、ステップＳＴ４３おいて、全階層（レイヤ）をデコードする能力があるか否かを判断する。

全階層をデコードする能力があるとき、デマルチプレクサ２０３は、ステップＳＴ４４において、ＰＩＤフィルタにより全階層を構成する全てのストリームを選択し、セクションパーシング（Section parsing）を行う。その後、デマルチプレクサ２０３は、ステップＳＴ４５の処理に移る。

ステップＳＴ４３で全階層をデコードする能力がないとき、デマルチプレクサ２０３は、ステップＳＴ４６において、デコード可能な低階層を構成するベースストリームを含む所定数のストリームを選択し、また、関連するセクションパーシング（Section parsing）を行う。その後、デマルチプレクサ２０３は、ステップＳＴ４５の処理に移る。

ステップＳＴ４５において、デマルチプレクサ２０３は、対象となるＰＩＤのセクションの中で、ＨＥＶＣデスクリプタ、マルチストリーム・デスクリプタを読み、グループ内のストリームの依存関係、最大階層数、temporal_idの最大、最小値を得る。

次に、デマルチプレクサ２０３は、ステップＳＴ４７で、ステップＳＴ４４あるいはステップＳＴ４６で選択されたストリームのピクチャの符号化画像データを圧縮データバッファ（ｃｐｂ）２０４へ転送する。デマルチプレクサ２０３は、ステップＳＴ４７の処理の後、ステップＳＴ４８において、処理を終了する。

図２５に戻って、圧縮データバッファ(ｃｐｂ)２０４は、デマルチプレクサ２０３で取り出されるビデオストリーム（符号化ストリーム）を、一時的に蓄積する。デコーダ２０５は、圧縮データバッファ２０４に蓄積されているビデオストリームから、デコードすべき階層として指定された階層のピクチャの符号化画像データを取り出す。そして、デコーダ２０５は、取り出された各ピクチャの符号化画像データを、それぞれ、そのピクチャのデコードタイミングでデコードし、非圧縮データバッファ（ｄｐｂ）２０６に送る。

ここで、デコーダ２０５には、ＣＰＵ２０１からデコードすべき階層がtemporal_idで指定される。この指定階層は、デマルチプレクサ２０３で取り出されるビデオストリーム（符号化ストリーム）に含まれる全階層、あるいは低階層側の一部の階層とされ、ＣＰＵ２０１により自動的に、あるいはユーザ操作に応じて設定される。また、デコーダ２０５には、ＣＰＵ２０１から、ＤＴＳ（Decoding Time stamp）に基づいて、デコードタイミングが与えられる。なお、デコーダ２０５は、各ピクチャの符号化画像データをデコードする際に、必要に応じて、非圧縮データバッファ２０６から被参照ピクチャの画像データを読み出して利用する。

図２９は、デコーダ２０５の構成例を示している。このデコーダ２０５は、テンポラルＩＤ解析部２５１と、対象階層選択部２５２と、ストリーム結合部２５３と、デコード部２５４を有している。テンポラルＩＤ解析部２５１は、圧縮データバッファ２０４に蓄積されているビデオストリーム（符号化ストリーム）を読み出し、各ピクチャの符号化画像データのＮＡＬユニットヘッダに挿入されているtemporal_idを解析する。

対象階層選択部２５２は、圧縮データバッファ２０４から読み出された各ビデオストリームから、テンポラルＩＤ解析部２５１の解析結果に基づいて、デコードすべき階層として指定された階層のピクチャの符号化画像データを取り出す。この場合、対象階層選択部２５２からは、圧縮データバッファ２０４から読み出されたビデオストリームの数および指定階層に応じて、単一または複数のビデオストリーム（符号化ストリーム）が出力される。

ストリーム結合部２５３は、対象階層選択部２５２から出力される各ビデオストリーム（符号化ストリーム）を一つに結合する。なお、図示とは異なるが、ストリーム結合部２５３は、ｃｐｂバッファ２０４から出力される、各ビデオストリーム（符号化ストリーム）を一つに結合してもよい。この場合、ストリーム結合部２５３は、対象階層選択をテンポラルＩＤ解析と共に実行することとなる。ストリーム結合部２５３は、各ピクチャの符号化画像データをデコードタイミング情報に基づいて１つのストリームにする。図３０は、ストリーム結合の一例を示している。

この例は、上述の図９に示す例に対応しており、６０Ｈｚ間隔のベースストリームのピクチャと、６０Ｈｚ間隔のエンハンスストリームのピクチャとを結合した例である。この場合、各ピクチャは１２０Ｈｚのタイムスタンプの１つのストリームとされる。

なお、この１つのストリームはデコード部２５４に送られ、後述するように、各ピクチャの符号化画像データはそれぞれデコードタイミングでデコードされ、ｄｐｂ（非圧縮データバッファ）２０６に蓄積される。その後、非圧縮データバッファ２０６から各ピクチャの画像データが、ピクチャのリオーダが行われて順次１２０Ｈｚで読み出される。図示の例では、まず、あるサブ・ピクチャグループのピクチャ（右下がりのハッチングで示す）が読み出され、その次に、次のサブ・ピクチャグループのピクチャ（左下がりのハッチングで示す）が読み出される。デコード後、あるサブ・ピクチャグループのピクチャの表示がなされている間、次のサブ・ピクチャグループのピクチャは非圧縮データバッファ２０６に蓄積されていて、その後の参照ピクチャとなる。

なお、複数のストリームのピクチャのまとめ処理自体は、上述のデマルチプレクサ２０３において、選択された複数のストリームに対して行って、圧縮データバッファ（ｃｐｂ）２０４に１つのストリームとして転送するようにしてもよい。その際の結合処理も、同様に、デコードタイミング情報に基づいて行われる。この場合、デコーダにおける結合処理は不要となる。

デコード部２５４は、ストリーム結合部２５３で結合されたビデオストリーム（符号化ストリーム）が持つ各ピクチャの符号化画像データを、順次デコードタイミングでデコードし、非圧縮データバッファ（ｄｐｂ）２０６に送る。

この場合、デコード部２５４は、ＶＰＳ、ＳＰＳの解析を行って、例えば、サブレイヤごとのビットレートのレベル指定値「sublayer_level_idc」を把握し、デコード能力内でデコードし得るものかどうかを確認する。また、この場合、デコード部２５４は、ＳＥＩの解析を行って、例えば、「initial_cpb_removal_time」、「cpb_removal_delay」を把握し、ＣＰＵ２０１からのデコードタイミングが適切か確認する。

デコード部２５４は、スライス（Slice）のデコードを行う際に、スライスヘッダ（Slice header）から、時間方向の予測先を表す情報として、「ref_idx_l0_active(ref_idx_l1_active)を取得し、時間方向の予測を行う。なお、デコード後のピクチャは、スライスヘッダ（slice header）から得られる「short_term_ref_pic_set_idx」、あるいは「it_idx_sps」が指標とされて、他のピクチャによる被参照として処理される。

図２５に戻って、非圧縮データバッファ（ｄｐｂ）２０６は、デコーダ２０５でデコードされた各ピクチャの画像データを、一時的に蓄積する。ポスト処理部２０７は、非圧縮データバッファ（ｄｐｂ）２０６から表示タイミングで順次読み出された各ピクチャの画像データに対して、そのフレームレートを、表示能力に合わせる処理を行う。この場合、ＣＰＵ２０１から、ＰＴＳ（Presentation Time stamp）に基づいて、表示タイミングが与えられる。

例えば、デコード後の各ピクチャの画像データのフレームレートが１２０ｆｐｓであって、表示能力が１２０ｆｐｓであるとき、ポスト処理部２０７は、デコード後の各ピクチャの画像データをそのままディスプレイに送る。また、例えば、デコード後の各ピクチャの画像データのフレームレートが１２０ｆｐｓであって、表示能力が６０ｆｐｓであるとき、ポスト処理部２０７は、デコード後の各ピクチャの画像データに対して時間方向解像度が１/２倍となるようにサブサンプル処理を施し、６０ｆｐｓの画像データとしてディスプレイに送る。

また、例えば、デコード後の各ピクチャの画像データのフレームレートが６０ｆｐｓであって、表示能力が１２０ｆｐｓであるとき、ポスト処理部２０７は、デコード後の各ピクチャの画像データに対して時間方向解像度が２倍となるように補間処理を施し、１２０ｆｐｓの画像データとしてディスプレイに送る。また、例えば、デコード後の各ピクチャの画像データのフレームレートが６０ｆｐｓであって、表示能力が６０ｆｐｓであるとき、ポスト処理部２０７は、デコード後の各ピクチャの画像データをそのままディスプレイに送る。

図３１は、ポスト処理部２０７の構成例を示している。この例は、上述したようにデコード後の各ピクチャの画像データのフレームレートが１２０ｆｐｓあるいは６０ｆｐｓであって、表示能力が１２０ｆｐｓあるいは６０ｆｐｓである場合に対処可能とした例である。

ポスト処理部２０７は、補間部２７１と、サブサンプル部２７２と、スイッチ部２７３を有している。非圧縮データバッファ２０６からのデコード後の各ピクチャの画像データは、直接スイッチ部２７３に入力され、あるいは補間部２７１で２倍のフレームレートとされた後にスイッチ部２７３に入力され、あるいはサブサンプル部２７２で１/２倍のフレームレートとされた後にスイッチ部２７３に入力される。

スイッチ部２７３には、ＣＰＵ２０１から、選択情報が供給される。この選択情報は、ＣＰＵ２０１が、表示能力を参照して自動的に、あるいは、ユーザ操作に応じて発生する。スイッチ部２７３は、選択情報に基づいて、入力のいずれかを選択的に出力とする。これにより、非圧縮データバッファ（ｄｐｂ）２０６から表示タイミングで順次読み出された各ピクチャの画像データのフレームレートは、表示能力に合ったものとされる。

図３２は、デコーダ２０５、ポスト処理部２０７の処理フローの一例を示している。デコーダ２０５、ポスト処理部２０７は、ステップＳＴ５１において、処理を開始し、その後に、ステップＳＴ５２の処理に移る。このステップＳＴ５２において、デコーダ２０５は、圧縮データバッファ（ｃｐｂ）２０４に蓄積されているデコード対象のビデオストリームを読み出し、temporal_idに基づいて、ＣＰＵ２０１からデコード対象として指定される階層のピクチャを選択する。

次に、デコーダ２０５は、ステップＳＴ５３において、選択された各ピクチャの符号化画像データをデコードタイミングで順次デコードし、デコード後の各ピクチャの画像データを非圧縮データバッファ（ｄｐｂ）２０６に転送して、一時的に蓄積する。次に、ポスト処理部２０７は、ステップＳＴ５４において、非圧縮データバッファ（ｄｐｂ）２０６から、表示タイミングで各ピクチャの画像データを読み出す。

次に、ポスト処理部２０７は、読み出された各ピクチャの画像データのフレームレートが表示能力にあっているか否かを判断する。フレームレートが表示能力に合っていないとき、ポスト処理部２０７は、ステップＳＴ５６において、フレームレートを表示能力に合わせて、ディスプレイに送り、その後、ステップＳＴ５７において、処理を終了する。一方、フレームレートが表示能力に合っているとき、ポスト処理部２０７は、ステップＳＴ５８において、フレームレートそのままでディスプレイに送り、その後、ステップＳＴ５７において、処理を終了する。

図２５に示す受信装置２００の動作を簡単に説明する。受信部２０２では、受信アンテナで受信されたＲＦ変調信号が復調され、トランスポートストリームＴＳが取得される。このトランスポートストリームＴＳは、デマルチプレクサ２０３に送られる。デマルチプレクサ２０３では、トランスポートストリームＴＳから、デコード能力（Decoder temporal layer capability）に応じて全部あるいは一部のビデオストリームが、ＰＩＤフィルタリングされる。

例えば、デコード能力が高い場合には、ベースストリームおよびエンハンスストリームの全てのビデオストリームが選択される。また、例えば、デコード能力が低い場合には、デコード可能な階層を含む、ベースストリームを含む所定数のビデオストリームが選択される。そして、デマルチプレクサ２０３からは、選択されたビデオストリームのピクチャの符号化画像データが圧縮データバッファ（ｃｐｂ）２０４に送られ、一時的に蓄積される。

デコーダ２０５では、圧縮データバッファ２０４に蓄積されているビデオストリームから、デコードすべき階層として指定された階層のピクチャの符号化画像データが取り出される。そして、デコーダ２０５では、取り出された各ピクチャの符号化画像データが、それぞれ、そのピクチャのデコードタイミングでデコードされ、非圧縮データバッファ（ｄｐｂ）２０６に送られ、一時的に蓄積される。この場合、各ピクチャの符号化画像データがデコードされる際に、必要に応じて、非圧縮データバッファ２０６から被参照ピクチャの画像データが読み出されて利用される。

非圧縮データバッファ（ｄｐｂ）２０６から表示タイミングで順次読み出された各ピクチャの画像データは、ポスト処理部２０７に送られる。ポスト処理部２０７では、各ピクチャの画像データに対して、そのフレームレートを、表示能力に合わせるための補間あるいはサブサンプルが行われる。このポスト処理部２０７で処理された各ピクチャの画像データは、ディスプレイに供給され、その各ピクチャの画像データによる動画像の表示が行われる。

以上説明したように、図１に示す送受信システム１０においては、送信側において、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化されるものである。そのため、例えば、受信側が、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことが可能となる。

また、図１に示す送受信システム１０においては、送信側において、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化されるものである。そのため、例えば、受信側では、最下位の階層組だけでなく、それよりも上位に位置する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。

また、図１に示す送受信システム１０においては、送信側において、複数の階層を所定数の階層組に分割する際、最下位の階層組に複数の階層を含み、この最下位の階層組より上位に位置する階層組には１つの階層を含むようにされるものである。そのため、例えば、受信側では、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、この最下位の階層組のピクチャの符号化画像データを持つビデオストリームだけを選択してバッファに取り込んでデコード処理を行う構成で済み、複数のビデオストリームの結合処理などを行うなどの複雑な構成が不要となる。

また、図１に示す送受信システム１０においては、送信側において、トランスポートストリームＴＳのレイヤに、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報が挿入されるものである。そのため、受信側では、この識別情報を利用することで、例えば、ベースストリームだけを選択し、低階層組のピクチャの符号化画像データを選択的にデコードすることが容易に可能となる。

また、図１に示す送受信システム１０においては、送信側において、トランスポートストリームＴＳのレイヤに、このトランスポートストリームＴＳに含まれる所定数のビデオストリームのそれぞれに対応して、このビデオストリームの構成情報が挿入されるものである。そのため、例えば、受信側では、トランスポートストリームＴＳに含まれる各ビデオストリームにつき、どのグループに属するのか、どのようなストリーム依存関係にあるのか、階層数がいくらの階層符号化に係るものであるか、などを容易に把握可能となる。

また、図１に示す送受信システム１０においては、受信側において、受信されたビデオストリームからデコード能力（Decoder temporal layer capability）に応じた所定階層以下の階層のピクチャの符号化画像データが選択的に圧縮データバッファ２０４に取り込まれてデコードされるものである。そのため、例えば、デコード能力に応じた適切なデコード処理が可能となる。

また、図１に示す送受信システム１０においては、受信側において、復号化後の各ピクチャの画像データのフレームレートをポスト処理部２０７で表示能力に合わせるものである。そのため、例えば、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。

＜２．変形例＞
なお、上述実施の形態においては、マルチストリーム・デスクリプタ（図１８参照）に階層最大値の情報である「Max_layer_in_group」を記述して受信側に送っている。しかし、階層最大値の情報をデスクリプタに記述して受信側に供給する代わりに、ファイルあるいは紙の規格書の文面で“最大のレイヤを指定する”という表記が行われ、受信装置に予め階層最大値が指定あるいは設定されることも考えられる。この場合にも、受信側では、上述したように送信側からデスクリプタで供給される場合と同様に、この階層最大値の情報を参照して、自己のデコード能力に応じた階層を含むストリームをフィルタリングして、デコード処理を行うこととなる。

また、上述実施の形態においては、時間的スケーラビリティ（temporal scalability）の例を示し、マルチストリーム・デスクリプタを用いて、各ストリームの構成情報を受信側に送信している。しかし、詳細説明は省略するが、空間的スケーラビリティ、あるいはビットレートスケーラビリティなどのスケーラビリティに関しても、基本ストリーム（ベースストリーム）と拡張ストリーム（エンハンスストリーム）とが共存するサービスにおいては、上述のマルチストリーム・デスクリプタを応用することが可能である。すなわち、上述のマルチストリーム・デスクリプタは、マルチストリーム符号化を行う際に有用なシグナリング方法である。

また、上述実施の形態においては、送信装置１００と受信装置２００からなる送受信システム１０を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、受信装置２００の部分が、例えば、（ＨＤＭＩ（High-Definition Multimedia Interface）などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。なお、「ＨＤＭＩ」は、登録商標である。

また、上述実施の形態においては、コンテナがトランスポートストリーム（ＭＰＥＧ−２ＴＳ）である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、ＭＰ４やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ−２ＴＳ）、インターネット配信で使用されているＭＰ４などの種々のフォーマットのコンテナが該当する。

また、本技術は、以下のような構成を取ることもできる。
（１）動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部を備え、
上記画像符号化部は、
少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する
符号化装置。
（２）上記画像符号化部は、
上記最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、該階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化する
前記（１）に記載の符号化装置。
（３）上記画像符号化部は、
上記最下位の階層組に複数の階層を含み、該最下位の階層組より上位に位置する階層組には１つの階層を含むように、上記複数の階層を所定数の階層組に分割する
前記（１）または（２）に記載の符号化装置。
（４）画像符号化部により、動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成し、
上記画像符号化部は、
少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する
符号化方法。
（５）動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
上記画像符号化部は、
少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する
送信装置。
（６）動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記コンテナのレイヤに、上記所定数のビデオストリームのそれぞれが、上記最下位の階層組のピクチャの符号化画像データを持つベースストリームであるか、該最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報を挿入する識別情報挿入部を備える
送信装置。
（７）上記コンテナはトランスポートストリームであり、
上記識別情報挿入部は、
上記識別情報を、プログラムマップテーブルの配下に上記所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にストリームタイプとして挿入する
前記（６）に記載の送信装置。
（８）上記画像符号化部は、
少なくとも、上記最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する
前記（６）または（７）に記載の送信装置。
（９）上記画像符号化部は、
上記最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、該階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化する
前記（８）に記載の送信装置。
（１０）動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記コンテナのレイヤに、該コンテナに含まれる所定数のビデオストリームのそれぞれに対応して、該ビデオストリームの構成情報を挿入する構成情報挿入部を備える
送信装置。
（１１）上記構成情報には、ビデオストリームが属するサービスグループを示す情報が含まれる
前記（１０）に記載の送信装置。
（１２）上記構成情報には、上記最下位の階層組のピクチャの符号化画像データを持つベースストリームから始まるストリーム間の依存関係を示す情報が含まれる
前記（１０）または（１１）に記載の送信装置。
（１３）上記構成情報には、上記画像符号化部で分類される上記複数の階層の階層数を示す情報が含まれる
前記（１０）から（１２）のいずれかに記載の送信装置。
（１４）上記コンテナはトランスポートストリームであり、
上記構成情報挿入部は、
上記構成情報を、プログラムマップテーブルの配下に上記所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にデスクリプタとして挿入する
前記（１０）から（１３）のいずれかに記載の送信装置。
（１５）動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、上記複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを受信する受信部と、
上記受信された所定数のビデオストリームを処理する処理部を備え、
上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている
受信装置。
（１６）上記所定数のビデオストリームは、
上記最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、該階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化されている
前記（１５）に記載の受信装置。
（１７）動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、上記複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
上記受信されたコンテナに含まれる上記所定数のビデオストリームからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データを選択的にバッファに取り込み、該バッファに取り込まれた各ピクチャの符号化画像データをデコードして、上記所定階層以下の階層のピクチャの画像データを得る画像復号化部を備え、
上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている
受信装置。
（１８）上記コンテナのレイヤに、上記所定数のビデオストリームのそれぞれが、上記最下位の階層組のピクチャの符号化画像データを持つベースストリームであるか、該最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報が挿入されており、
上記画像復号化部は、上記識別情報に基づいて、上記ベースストリームを含む所定数のビデオストリームから上記デコード能力に応じた所定階層組のピクチャの符号化画像データを上記バッファに取り込んでデコードする
前記（１７）に記載の受信装置。
（１９）上記画像復号化部は、
上記所定階層組のピクチャの符号化画像データが複数のビデオストリームに含まれている場合、各ピクチャの符号化画像データをデコードタイミング情報に基づいて１つのストリームにしてデコードする
前記（１７）または（１８）に記載の受信装置。
（２０）上記画像復号化部で得られる各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理部をさらに備える
前記（１７）から（１９）のいずれかに記載の受信装置。

本技術の主な特徴は、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化することで、受信側が、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことを可能にしたことである（図８、図１１参照）。

また、本技術の主な特徴は、トランスポートストリームＴＳのレイヤに、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報を挿入することで、受信側において、この識別情報を利用することで、例えば、ベースストリームだけを選択的にデコードすることを容易に可能としたことである（図２０、図２３参照）。

また、本技術の主な特徴は、トランスポートストリームＴＳのレイヤに、このトランスポートストリームＴＳに含まれる所定数のビデオストリームのそれぞれに対応して、このビデオストリームの構成情報を挿入することで、トランスポートストリームＴＳに含まれる各ビデオストリームにつき、どのグループに属するのか、どのようなストリーム依存関係にあるのか、階層数がいくらの階層符号化に係るものであるか、などを容易に把握可能としたことである（図２０、図２３参照）。

１０・・・送受信システム
１００・・・送信装置
１０１・・・ＣＰＵ
１０２・・・エンコーダ
１０３・・・圧縮データバッファ（ｃｐｂ）
１０４・・・マルチプレクサ
１０５・・・送信部
１２１・・・テンポラルＩＤ発生部
１２２・・・バッファ遅延制御部
１２３・・・ＨＲＤ設定部
１２４・・・パラメータセット/ＳＥＩエンコード部
１２５・・・スライスエンコード部
１２６・・・ＮＡＬパケット化部
１４２・・・セクションコーディング部
１４３-1〜１４３-N・・・ＰＥＳパケット化部
１４４・・・スイッチ部
１４５・・・トランスポートパケット化部
２００・・・受信装置
２０１・・・ＣＰＵ
２０２・・・受信部
２０３・・・デマルチプレクサ
２０４・・・圧縮データバッファ（ｃｐｂ）
２０５・・・デコーダ
２０６・・・非圧縮データバッファ（ｄｐｂ）
２０７・・・ポスト処理部
２３１・・・ＴＳアダプテーションフィールド抽出部
２３２・・・クロック情報抽出部
２３３・・・ＴＳペイロード抽出部
２３４・・・セクション抽出部
２３５・・・ＰＳＩテーブル／デスクリプタ抽出部
２３６・・・ＰＥＳパケット抽出部
２３７・・・ＰＥＳヘッダ抽出部
２３８・・・タイムスタンプ抽出部
２４０・・・ＰＥＳペイロード抽出部
２４１・・・ストリーム構成部
２５１・・・テンポラルＩＤ解析部
２５２・・・対象階層選択部
２５３・・・ストリーム結合部
２５４・・・デコード部
２７１・・・補間部
２７２・・・サブサンプル部
２７３・・・スイッチ部

Claims

動画像データを構成する各ピクチャの画像データが複数の階層に分類されてデコード順番と表示順番が異なるように符号化されると共に、上記複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを受信する受信部と、
上記所定数のビデオストリームを処理する処理部を備え、
上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化され、
上記所定数のビデオストリームは、上記最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、該階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化されており、
上記処理部は、デコード能力に応じて、上記所定数のビデオストリームのうち、下位の階層組側から選択された所定数のビデオストリームにデコード処理をすると共に、該デコード処理で得られた各ピクチャの画像データのフレームレートを表示能力に合わせる処理をする
受信装置。
受信部が、動画像データを構成する各ピクチャの画像データが複数の階層に分類されてデコード順番と表示順番が異なるように符号化されると共に、上記複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを受信する受信ステップと、
処理部が、上記所定数のビデオストリームを処理する処理ステップを有し、
上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化され、
上記所定数のビデオストリームは、上記最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、該階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化されており、
上記処理ステップでは、デコード能力に応じて、上記所定数のビデオストリームのうち、下位の階層組側から選択された所定数のビデオストリームにデコード処理をすると共に、該デコード処理で得られた各ピクチャの画像データのフレームレートを表示能力に合わせる処理をする
受信方法。