JP6341228B2 - 符号化装置、符号化方法、送信装置、送信方法、受信装置および受信方法 - Google Patents

符号化装置、符号化方法、送信装置、送信方法、受信装置および受信方法 Download PDF

Info

Publication number
JP6341228B2
JP6341228B2 JP2016103835A JP2016103835A JP6341228B2 JP 6341228 B2 JP6341228 B2 JP 6341228B2 JP 2016103835 A JP2016103835 A JP 2016103835A JP 2016103835 A JP2016103835 A JP 2016103835A JP 6341228 B2 JP6341228 B2 JP 6341228B2
Authority
JP
Japan
Prior art keywords
stream
image data
picture
decoding
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016103835A
Other languages
English (en)
Other versions
JP2016174397A (ja
Inventor
塚越 郁夫
郁夫 塚越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2016103835A priority Critical patent/JP6341228B2/ja
Publication of JP2016174397A publication Critical patent/JP2016174397A/ja
Application granted granted Critical
Publication of JP6341228B2 publication Critical patent/JP6341228B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本技術は、符号化装置、符号化方法、送信装置、送信方法、受信装置および受信方法に関する。詳しくは、本技術は、動画像データを構成する各ピクチャの画像データを階層符号化する符号化装置等に関する。
圧縮動画を、放送、ネット等でサービスする際、受信機のデコード能力によって再生可能なフレーム周波数の上限が制限される。従って、サービス側は普及している受信機の再生能力を考慮して、低フレーム周波数のサービスのみに制限したり、高低複数のフレーム周波数のサービスを同時提供したりする必要がある。
受信機は、高フレーム周波数のサービスに対応するには、高コストとなり、早期普及の阻害要因となる。初期に低フレーム周波数のサービス専用の安価な受信機のみ普及していて、将来サービス側が高フレーム周波数のサービスを開始する場合、新たな受信機が無いと全く視聴不可能であり、新規サービスの普及の阻害要因となる。
例えば、H.265/HEVC(High Efficiency Video Coding)において、動画像データを構成する各ピクチャの画像データを階層符号化することによる時間方向スケーラビリティが提案されている(非特許文献1参照)。受信側では、NAL(Network Abstraction Layer)ユニットのヘッダに挿入されているテンポラルID(temporal_id)に基づき、各ピクチャの階層を識別でき、デコード能力に対応した階層までの選択的なデコードが可能となる。
Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand, "Overview of the High Efficiency Video Coding (HEVC) Standard" IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECNOROGY, VOL. 22, NO. 12, pp. 1649-1668, DECEMBER 2012
本技術の目的は、受信側において良好なデコード処理を可能とすることにある。
本技術の概念は、
動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
上記画像符号化部は、
少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する
送信装置にある。
本技術において、画像符号化部により、動画像データを構成する各ピクチャの画像データが符号化されて所定数のビデオストリームが生成される。この場合、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化される。そして、この複数の階層が所定数の階層組に分割され、この分割された各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが生成される。
画像符号化部では、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化される。例えば、画像符号化部は、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化する、ようにされてもよい。これにより、例えば、受信側では、最下位の階層組だけでなく、それよりも上位に位置する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。
また、例えば、画像符号化部は、最下位の階層組に複数の階層を含み、この最下位の階層組より上位に位置する階層組には1つの階層を含むように、複数の階層を所定数の階層組に分割する、ようにされてもよい。これにより、例えば、受信側では、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、この最下位の階層組のピクチャの符号化画像データを持つビデオストリームだけを選択してバッファに取り込んでデコード処理を行う構成で済み、複数のビデオストリームの結合処理などを行うなどの複雑な構成が不要となる。
送信部により、上述の所定数のビデオストリームを含む所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG−2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。
このように本技術においては、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化されるものである。そのため、例えば、受信側が、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことが可能となる。
また、本技術の他の概念は、
動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記コンテナのレイヤに、上記所定数のビデオストリームのそれぞれが、上記最下位の階層組のピクチャの符号化画像データを持つベースストリームであるか、該最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報を挿入する識別情報挿入部を備える
送信装置にある。
本技術において、画像符号化部により、動画像データを構成する各ピクチャの画像データが符号化されて所定数のビデオストリームが生成される。この場合、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化される。そして、この複数の階層が所定数の階層組に分割され、この分割された各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが生成される。
例えば、画像符号化部は、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する、ようにされてもよい。この場合、例えば、画像符号化部は、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化する、ようにされてもよい。
送信部により、上述の所定数のビデオストリームを含む所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG−2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。
識別情報挿入部により、コンテナのレイヤに、識別情報が挿入される。この識別情報は、
所定数のビデオストリームのそれぞれが、最下位の階層組のピクチャの符号化画像データを持つベースストリームであるか、この最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報である。
例えば、エンハンスストリームが複数存在するとき、識別情報は、それぞれのエンハンスストリームをさらに識別可能とする、ようにされてもよい。また、例えば、コンテナはトランスポートストリームであり、識別情報挿入部は、識別情報を、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にストリームタイプとして挿入する、ようにされてもよい。
このように本技術においては、コンテナのレイヤに、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報が挿入されるものである。そのため、受信側においては、この識別情報を利用することで、例えば、ベースストリームだけを選択し、低階層組のピクチャの符号化画像データを選択的にデコードすることが容易に可能となる。
また、本技術の他の概念は、
動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記コンテナのレイヤに、該コンテナに含まれる所定数のビデオストリームのそれぞれに対応して、該ビデオストリームの構成情報を挿入する構成情報挿入部を備える
送信装置にある。
本技術において、画像符号化部により、動画像データを構成する各ピクチャの画像データが符号化されて所定数のビデオストリームが生成される。この場合、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化される。そして、この複数の階層が所定数の階層組に分割され、この分割された各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが生成される。そして、送信部により、この所定数のビデオストリームを含む所定フォーマットのコンテナが送信される。
構成情報挿入部により、コンテナのレイヤに、このコンテナに含まれる所定数のビデオストリームのそれぞれに対応して、このビデオストリームの構成情報が挿入される。例えば、コンテナはトランスポートストリームであり、構成情報挿入部は、この構成情報を、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にデスクリプタとして挿入する、ようにされてもよい。
例えば、構成情報には、ビデオストリームが属するサービスグループを示す情報が含まれる、ようにされてもよい。また、例えば、構成情報には、最下位の階層組のピクチャの符号化画像データを持つベースストリームから始まるストリーム間の依存関係を示す情報が含まれる、ようにされてもよい。また、例えば、構成情報には、画像符号化部で分類される複数の階層の階層数を示す情報が含まれる、ようにされてもよい。
このように本技術においては、コンテナのレイヤに、このコンテナに含まれる所定数のビデオストリームのそれぞれに対応して、このビデオストリームの構成情報が挿入されるものである。そのため、例えば、受信側では、コンテナに含まれる各ビデオストリームにつき、どのグループに属するのか、どのようなストリーム依存関係にあるのか、階層数がいくらの階層符号化に係るものであるか、などを容易に把握可能となる。
また、本技術の他の概念は、
動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、上記複数の階層が所定数の階層組に分割されて得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを受信する受信部と、
上記受信された所定数のビデオストリームを処理する処理部を備え、
上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている
受信装置にある。
本技術において、受信部により、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、この複数の階層が所定数の階層組に分割されて得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが受信される。そして、処理部により、その受信された所定数のビデオストリームが処理される。
この場合、所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている。そのため、例えば、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことが可能となる。
なお、本技術において、例えば、所定数のビデオストリームは、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化されている、ようにされていてもよい。これにより、例えば、最下位の階層組だけでなく、それよりも上位に位置する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。
また、本技術の他の概念は、
動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、上記複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
上記受信されたコンテナに含まれる上記所定数のビデオストリームからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データを選択的にバッファに取り込み、該バッファに取り込まれた各ピクチャの符号化画像データをデコードして、上記所定階層以下の階層のピクチャの画像データを得る画像復号化部を備え、
上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている
受信装置にある。
本技術において、受信部により、所定フォーマットのコンテナが受信される。このコンテナには、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、この複数の階層が所定数の階層組に分割されて得られた、一つ以上の階層のピクチャの符号化画像データを持つ所定数のビデオストリームが含まれている。
画像復号化部により、受信されたコンテナに含まれる所定数のビデオストリームからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データが選択的にバッファに取り込まれ、このバッファに取り込まれた各ピクチャの符号化画像データがデコードされて、所定階層以下の階層のピクチャの画像データが得られる。例えば、画像復号化部は、所定階層組のピクチャの符号化画像データが複数のビデオストリームに含まれている場合、各ピクチャの符号化画像データをデコードタイミング情報に基づいて1つのストリームにしてデコードする、ようにされてもよい。
この場合、所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている。そのため、例えば、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことが可能となる。
なお、本技術において、例えば、コンテナのレイヤに、所定数のビデオストリームのそれぞれが、最下位の階層組のピクチャの符号化画像データを含むベースストリームであるか、この最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報が挿入されており、画像復号化部は、この識別情報に基づいて、ベースストリームを含む所定数のビデオストリームからデコード能力に応じた所定階層組のピクチャの符号化画像データをバッファに取り込んでデコードする、ようにされてもよい。この場合、識別情報を利用することで、例えば、ベースストリームだけを選択し、低階層組のピクチャの符号化画像データを選択的にデコードすることが容易に可能となる。
また、本技術において、例えば、画像復号化部で得られる各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理部をさらに備える、ようにされてもよい。この場合、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。
本技術によれば、受信側において良好なデコード処理が可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
実施の形態としての送受信システムの構成例を示すブロック図である。 送信装置の構成例を示すブロック図である。 エンコーダで行われる階層符号化の一例を示す図である。 NALユニットヘッダの構造例およびその構造例における主要なパラメータの内容を示す図である。 HEVCによる各ピクチャの符号化画像データの構成を説明するための図である。 階層符号化の際のエンコード、デコード、表示順序と遅延の一例を示す図である。 階層符号化の符号化ストリームと、指定階層における表示期待(表示順)を示す図である。 所定数のビデオストリーム(2ストリーム)のピクチャの符号化タイミング(デコードタイミング)を説明するための図である。 ベースストリームとエンハンスストリームの2つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング(デコードタイミング)の一例を示す図である。 ベースストリームとエンハンスストリームの2つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング(デコードタイミング)の他の一例を示す図である。 所定数のビデオストリーム(3ストリーム)のピクチャの符号化タイミング(デコードタイミング)を説明するための図である。 ベースストリームと2つのエンハンスストリームの3つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング(デコードタイミング)の一例を示す図である。 ベースストリームと2つのエンハンスストリームの3つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング(デコードタイミング)の他の一例を示す図である。 エンコーダのHRD(Hypothetical Reference Decoder)制御の一例を示す図である。 エンコーダの構成例を示すブロック図である。 エンコーダの処理フローの一例を示す図である。 HEVCデスクリプタ(HEVC_descriptor)の構造例を示す図である。 マルチストリーム・デスクリプタ(multistream_descriptor)の構造例を示す図である。 マルチストリーム・デスクリプタ(multistream_descriptor)の構造例における主要な情報の内容を示す図である。 トランスポートストリームTSに、例えば、サービス1,2のビデオストリーム群が含まれている場合における「Stream_type」、「Group_id」、「max/min layer」、「max_layer_in_group」、「Stream_dependency_ordering」の一例を示す図である。 マルチプレクサの構成例を示すブロック図である。 マルチプレクサの処理フローの一例を示す図である。 2ストリーム配信におけるトランスポートストリームTSの構成例を示す図である。 3ストリーム配信におけるトランスポートストリームTSの構成例を示す図である。 受信装置の構成例を示すブロック図である。 デマルチプレクサの構成例を示すブロック図である。 ストリーム選択の一例を示す図である。 デマルチプレクサの処理フローの一例を示す図である。 デコーダの構成例を示すブロック図である。 ストリーム結合の一例を示す図である。 ポスト処理部の構成例を示す図である。 デコーダ、ポスト処理部の処理フローの一例を示す図である。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.変形例
<1.実施の形態>
[送受信システム]
図1は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、送信装置100と、受信装置200とを有する構成となっている。
送信装置100は、コンテナとしてのトランスポートストリームTSを放送波に載せて送信する。このトランスポートストリームTSには、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、この複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが含まれる。この場合、例えば、H.264/AVC、H.265/HEVCなどの符号化が施され、被参照ピクチャが自己階層および/または自己階層よりも低い階層に所属するように符号化される。
この実施の形態において、複数の階層を所定数の階層組に分割する場合、最下位の階層組に複数の階層を含み、この最下位の階層組より上位に位置する階層組には1つの階層を含むようにされる。このような分割により、受信側では、例えば、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、この最下位の階層組のピクチャの符号化画像データを持つビデオストリームだけを選択してバッファに取り込んでデコード処理を行うことが可能となる。
各階層のピクチャの符号化画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。この実施の形態においては、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_idを意味する“nuh_temporal_id_plus1”)が配置される。このように階層識別情報が付加されることで、受信側では、NALユニットのレイヤにおいて各ピクチャの階層識別が可能となり、所定階層以下の階層の符号化画像データを選択的に取り出してデコード処理を行うことができる。
この実施の形態において、所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化される。この符号化により、受信側では、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことが可能となる。
この実施の形態において、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化される。この符号化により、受信側では、最下位の階層組だけでなく、それよりも上位に位置する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。
この実施の形態において、トランスポートストリームTSのレイヤに、所定数のビデオストリームのそれぞれが、最下位の階層組のピクチャの符号化画像データを持つベースストリームであるか、この最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報が挿入される。この識別情報は、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にストリームタイプとして挿入される。この識別情報により、受信側では、ベースストリームだけを選択し、低階層組のピクチャの符号化画像データを選択的にデコードすることが容易に可能となる。
この実施の形態において、トランスポートストリームTSのレイヤに、それに含まれる所定数のビデオストリームのそれぞれに対応して、ビデオストリームの構成情報が挿入される。この構成情報は、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にデスクリプタとして挿入される。この構成情報により、受信側では、コンテナに含まれる各ビデオストリームにつき、どのグループに属するのか、どのようなストリーム依存関係にあるのか、階層数がいくらの階層符号化に係るものであるか、などを容易に把握可能となる。
受信装置200は、送信装置100から放送波に載せて送られてくる上述のトランスポートストリームTSを受信する。受信装置200は、このトランスポートストリームTSに含まれる所定数のビデオストリームからデコード能力に応じて選択された所定階層以下の階層のピクチャの符号化画像データを選択的にバッファに取り込んでデコードし、各ピクチャの画像データを取得して、画像再生を行う。
上述したように、トランスポートストリームTSのレイヤに、所定数のビデオストリームがベースストリームであるかエンハンスストリームであるかを識別する識別情報が含まれている。この識別情報に基づいて、ベースストリームを含む所定数のビデオストリームからデコード能力に応じた所定階層組の符号化画像データがバッファに取り込まれて処理される。
また、受信装置200は、上述のようにデコードして得られた各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理を行う。このポスト処理により、例えば、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。
「送信装置の構成」
図2は、送信装置100の構成例を示している。この送信装置100は、CPU(Central Processing Unit)101と、エンコーダ102と、圧縮データバッファ(cpb:coded picture buffer)103と、マルチプレクサ104と、送信部105を有している。CPU101は、制御部であり、送信装置100の各部の動作を制御する。
エンコーダ102は、非圧縮の動画像データを入力して、階層符号化を行う。エンコーダ102は、この動画像データを構成する各ピクチャの画像データを複数の階層に分類する。そして、エンコーダ102は、この分類された各階層のピクチャの画像データを符号化し、各階層のピクチャの符号化画像データを持つビデオストリームを生成する。エンコーダ102は、例えば、H.264/AVC、H.265/HEVCなどの符号化を行う。この際、エンコーダ102は、参照するピクチャ(被参照ピクチャ)が、自己階層および/または自己階層よりも下位の階層に所属するように、符号化する。
図3は、エンコーダ102で行われる階層符号化の一例を示している。この例は、0から4までの5階層に分類され、各階層のピクチャの画像データに対して符号化が施された例である。
縦軸は階層を示している。階層0から4のピクチャの符号化画像データを構成するNALユニット(nal_unit)のヘッダ部分に配置されるtemporal_id(階層識別情報)として、それぞれ、0から4が設定される。一方、横軸は表示順(POC:picture order of composition)を示し、左側は表示時刻が前で、右側は表示時刻が後になる。
図4(a)は、NALユニットヘッダの構造例(Syntax)を示し、図4(b)は、その構造例における主要なパラメータの内容(Semantics)を示している。「Forbidden_zero_bit」の1ビットフィールドは、0が必須である。「Nal_unit_type」の6ビットフィールドは、NALユニットタイプを示す。「Nuh_layer_id」の6ビットフィールドは、0を前提とする。「Nuh_temporal_id_plus1」の3ビットフィールドは、temporal_idを示し、1を加えた値(1〜7)をとる。
図3に戻って、矩形枠のそれぞれがピクチャを示し、数字は、符号化されているピクチャの順、つまりエンコード順(受信側ではデコード順)を示している。例えば、「2」から「17」の16個のピクチャによりサブ・ピクチャグループ(Sub group of pictures)が構成されており、「2」はそのサブ・ピクチャグループの先頭のピクチャとなる。「1」は前のサブ・ピクチャグループのピクチャである。このサブ・ピクチャグループがいくつか集まってGOP(Group Of Pictures)となる。
GOPの先頭ピクチャの符号化画像データは、図5に示すように、AUD、VPS、SPS、PPS、PSEI、SLICE、SSEI、EOSのNALユニットにより構成される。一方、GOPの先頭ピクチャ以外のピクチャは、AUD、PPS、PSEI、SLICE、SSEI、EOSのNALユニットにより構成される。VPSはSPSと共に、シーケンス(GOP)に一度、PPSは毎ピクチャで伝送可能とされている。
図3に戻って、実線矢印は、符号化におけるピクチャの参照関係を示している。例えば、「2」のピクチャは、Pピクチャであり、「1」のピクチャを参照して符号化される。また、「3」のピクチャは、Bピクチャであり、「1」、「3」のピクチャを参照して符号化される。同様に、その他のピクチャは、表示順で近くのピクチャを参照して符号化される。なお、階層4のピクチャは、他のピクチャからの参照がない。
エンコーダ102は、複数の階層を2以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームを生成する。例えば、エンコーダ102は、最下位の階層組に複数の階層を含み、この最下位の階層組より上位に位置する階層組には1つの階層を含むように分割する。
例えば、図3の階層符号化の例において、エンコーダ102は、一点鎖線で区切るように、階層0から3を最下位の階層組とし、階層4をその上位に位置する階層組として、2つの階層組に分割する。この場合、エンコーダ102は、各階層組のピクチャの符号化画像データをそれぞれ持つ2つのビデオストリーム(符号化ストリーム)を生成することになる。
また、例えば、図3の階層符号化の例において、エンコーダ102は、一点鎖線および2点鎖線で区切るように、階層0から2を最下位の階層組とし、階層3をその上位に位置する階層組とし、さらに階層4をその上位に位置する階層組として、3つの階層組に分割する。この場合、エンコーダ102は、各階層組のピクチャの符号化画像データをそれぞれ持つ3つのビデオストリーム(符号化ストリーム)を生成することになる。
この場合、最下位の階層組のピクチャの符号化画像データを持つビデオストリームはベースストリームとされ、そのストリームタイプは“0x24”とされる。また、この最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むビデオストリームはエンハンスストリームとされ、そのストリームタイプは、新規定義する“0x25”とされる。
なお、エンハンスストリームが複数存在する場合、全てのエンハンスストリームのストリームタイプを“0x25”とするのではなく、各エンハンスストリームの識別が可能となるように、ストリームタイプを新規定義することも考えられる。例えば、エンハンスストリームが2つある場合、第1のエンハンスストリームのストリームタイプは“0x25”とされ、第2のエンハンスストリームのストリームタイプは“0x26”とされる。
このストリームタイプは、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報を構成する。このストリームタイプは、トランスポートストリームTSのレイヤに挿入される。すなわち、このストリームタイプは、プログラムマップテーブル(PMT:Program Map Table)の配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループ(Video ES loop)の中に挿入される。
図6は、階層符号化の際のエンコード、デコード、表示順序と遅延の一例を示している。この例は、上述の図3の階層符号化例に対応している。この例は、全階層(全レイヤ)を、フル時間解像度で階層符号化する場合を示している。図6(a)はエンコーダ入力を示す。図6(b)に示すように、16ピクチャ分の遅延をもって、各ピクチャがエンコード順にエンコードされて、符号化ストリームが得られる。また、図6(b)はデコーダ入力を示し、各ピクチャがデコード順にデコードされる。そして、図6(c)に示すように、4ピクチャの遅延をもって、各ピクチャの画像データが表示順に得られる。
図7(a)は、上述の図6(b)に示す符号化ストリームと同様の符号化ストリームを、階層0から2、階層3、階層4の3段階に分けて示している。ここで、「Tid」は、temporal_idを示している。図7(b)は、階層0から2、つまりTid=0〜2の部分階層の各ピクチャを選択的にデコードする場合の表示期待(表示順)を示している。また、図7(c)は、階層0から3、つまりTid=0〜3の部分階層の各ピクチャを選択的にデコードする場合の表示期待(表示順)を示している。さらに、図7(d)は、階層0から4、つまりTid=0〜4の全階層の各ピクチャを選択的にデコードする場合の表示期待(表示順)を示している。
図7(a)の符号化ストリームをデコード能力別にデコード処理するには、時間解像度がフルレートのデコード能力が必要となる。しかし、Tid=0〜2のデコードを行う場合、符号化されたフルの時間解像度に対して、1/4のデコード能力をもつデコーダが処理可能とすべきである。また、Tid=0〜3のデコードを行う場合、符号化されたフルの時間解像度に対して、1/2のデコード能力をもつデコーダが処理可能とすべきである。
しかし、階層符号化において参照される低階層に属するピクチャが連続し、それらが時間解像度でフルなタイミングで符号化されると、部分デコードするデコーダの能力が追い付かないことになる。図7(a)のAの期間がそれに該当する。Tid=0〜2、あるいはTid=0〜3の部分的な階層をデコードするデコーダは、表示の例で示すような、時間軸が1/4あるいは1/2の能力でデコード・表示を行うため、Aの期間符号化された時間解像度がフルで連続するピクチャのデコードはできない。
TaはTid=0〜2をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。TbはTid=0〜3をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。TcはTid=0〜4(全階層)をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。これらの各時間の関係は、Ta>Tb>Tcとなる。
この実施の形態において、エンコーダ102は、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように、符号化する。図8(a)は、図3の階層符号化の例において、各ピクチャが時間解像度でフルな120Hzタイミングで符号化される場合であって、階層0から3がベースストリーム(B stream)を構成する最下位の階層組とされ、階層4がその上位に位置するエンハンスストリーム(E stream)を構成する階層組とされて、2つの階層組に分割される場合を示している。
この場合、最下位の階層組のピクチャの時間解像度は60fpsであるが、120Hzのタイミングで連続して符号化されるピクチャが存在し、60fpsのデコード能力を備えるデコーダでは連続して安定したデコード処理が不可能となる。そのため、図8(b)に示すように、ベースストリームを構成する最下位の階層組のピクチャの符号化タイミングが60Hzとなるように調整され、この最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化される。これにより、60fpsのデコード能力を備えるデコーダにより、ベースストリームを構成する最下位の階層組のピクチャの符号化画像データに対して連続して安定したデコード処理が可能となる。
また、図8(b)に示すように、エンハンスストリーム(E stream)を構成する階層組のピクチャの符号化タイミング、従ってそのピクチャの符号化画像データのデコードタイミングは、ベースストリーム(B stream)を構成する最下位の階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化される。これにより、受信側で、ベースストリームだけでなく、エンハンスストリームを構成する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。
図9は、図3の階層符号化の例において、ベースストリーム(B stream)と、エンハンスストリーム(E stream)の2つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング(デコードタイミング)の一例を示している。この例は、エンハンスストリームのデコード遅延がベースストリームに対して最小となる例である。この場合のデコード遅延は、フル時間解像度の符号化間隔(ベースストリームの符号化間隔の1/2)で8ピクチャ分である。
この例では、ベースストリーム(B stream)のピクチャの符号化タイミングは偶数タイミングとされ、エンハンスストリーム(E stream)の符号化タイミングは奇数タイミングとされる。そして、この例では、エンハンスストリーム(E stream)は、ベースストリーム(B stream)の最上位層の符号化順のすぐ後に符号化される。すなわち、エンハンスストリーム(E stream)の「9」のピクチャは、ベースストリーム(B stream)の「8」のピクチャの直後に符号化される。
図10は、図3の階層符号化の例において、ベースストリーム(B stream)と、エンハンスストリーム(E stream)の2つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング(デコードタイミング)の他の一例を示している。この例は、エンハンスストリームのデコード遅延がベースストリームに対して大きくなる例である。この場合のデコード遅延は、フル時間解像度の符号化間隔(ベースストリームの符号化間隔の1/2)で16ピクチャ分である。このようにデコード遅延が大きくなる場合には、dpb(非圧縮データバッファ:decoded picture buffer)内部の参照メモリが多く必要となる。
この例では、ベースストリーム(B stream)のピクチャの符号化タイミングは偶数タイミングとされ、エンハンスストリーム(E stream)の符号化タイミングは奇数タイミングとされる。そして、この例では、エンハンスストリーム(E stream)は、ベースストリーム(B stream)の最上位層の符号化が終了した後に符号化される。すなわち、エンハンスストリーム(E stream)の「17」のピクチャは、ベースストリーム(B stream)の「16」のピクチャの直後に符号化される。
図11(a)は、図3の階層符号化の例において、各ピクチャが時間解像度でフルな120Hzタイミングで符号化される場合であって、階層0から2がベースストリーム(B stream)を構成する最下位の階層組とされ、階層3がその上位に位置するエンハンスストリーム(E stream1)を構成する階層組とされ、さらに階層4がその上位に位置するエンハンスストリーム(E stream2)を構成する階層組とされて、3つの階層組に分割される場合を示している。
この場合、最下位の階層組のピクチャの時間解像度は30fpsであるが、120Hzのタイミングで連続して符号化されるピクチャが存在し、30fpsのデコード能力を備えるデコーダでは連続して安定したデコード処理が不可能となる。そのため、図11(b)に示すように、ベースストリームを構成する最下位の階層組のピクチャの符号化タイミングが30Hzとなるように調整され、この最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化される。これにより、30fpsのデコード能力を備えるデコーダにより、ベースストリームを構成する最下位の階層組のピクチャの符号化画像データに対して連続して安定したデコード処理が可能となる。
また、図11(b)に示すように、エンハンスストリーム(E stream1)を構成する階層組のピクチャの符号化タイミング、従ってそのピクチャの符号化画像データのデコードタイミングは、ベースストリーム(B stream)を構成する最下位の階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化される。さらに、図11(b)に示すように、エンハンスストリーム(E stream2)を構成する階層組のピクチャの符号化タイミング、従ってそのピクチャの符号化画像データのデコードタイミングは、ベースストリーム(B stream)およびエンハンスストリーム(E stream1)を構成する階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化される。これにより、受信側で、ベースストリームだけでなく、2つのエンハンスストリームを構成する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。
図12は、図3の階層符号化の例において、ベースストリーム(B stream)と、エンハンスストリーム(E stream1)と、エンハンスストリーム(E stream2)の3つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング(デコードタイミング)の一例を示している。この例は、エンハンスストリームのデコード遅延がベースストリームに対して最小となる例である。この場合のデコード遅延は、フル時間解像度の符号化間隔(ベースストリームの符号化間隔の1/4)で12ピクチャ分である。
この例では、ベースストリーム(B stream)のピクチャの符号化タイミングは4の倍数のタイミングとされ、エンハンスストリーム(E stream1)の符号化タイミングは4の倍数のタイミングで、ベースストリーム(B stream)のピクチャの符号化タイミングの中間のタイミングとされる。また、エンハンスストリーム(E stream1)の符号化タイミングは奇数タイミングとされる。
そして、この例では、エンハンスストリーム(E stream1)は、ベースストリーム(B stream)の最上位層の符号化順のすぐ後に符号化される。すなわち、エンハンスストリーム(E stream1)の「10」のピクチャは、ベースストリーム(B stream)の「8」のピクチャの直後に符号化される。また、この例では、エンハンスストリーム(E stream2)は、エンハンスストリーム(E stream1)の符号化順のすぐ後に符号化される。すなわち、エンハンスストリーム(E stream2)の「11」のピクチャは、エンハンスストリーム(E stream1)の「10」のピクチャの直後に符号化される。
図13は、図3の階層符号化の例において、ベースストリーム(B stream)と、エンハンスストリーム(E stream1)と、エンハンスストリーム(E stream2)の3つのビデオストリームを生成する場合における、各ピクチャの符号化タイミング(デコードタイミング)の他の一例を示している。この例は、エンハンスストリームのデコード遅延がベースストリームに対して大きくなる例である。この場合のデコード遅延は、フル時間解像度の符号化間隔(ベースストリームの符号化間隔の1/4)で27ピクチャ分である。このようにデコード遅延が大きくなる場合には、dpb(非圧縮データバッファ:decoded picture buffer)内部の参照メモリが多く必要となる。
この例では、ベースストリーム(B stream)のピクチャの符号化タイミングは4の倍数のタイミングとされ、エンハンスストリーム(E stream1)の符号化タイミングは4の倍数のタイミングで、ベースストリーム(B stream)のピクチャの符号化タイミングの中間のタイミングとされる。また、エンハンスストリーム(E stream1)の符号化タイミングは奇数タイミングとされる。
そして、この例では、エンハンスストリーム(E stream1)は、ベースストリーム(B stream)の最上位層の符号化が終了した後に符号化される。すなわち、エンハンスストリーム(E stream1)の「14」のピクチャは、ベースストリーム(B stream)の「12」のピクチャの直後に符号化される。また、この例では、エンハンスストリーム(E stream2)は、エンハンスストリーム(E stream1)の符号化が終了した後に符号化される。すなわち、エンハンスストリーム(E stream2)の「27」のピクチャは、エンハンスストリーム(E stream1)の「26」のピクチャの直後に符号化される。
図14は、エンコーダ102のHRD(Hypothetical Reference Decoder)制御の一例を示している。この例は、ベースストリーム(B stream)と、エンハンスストリーム(E stream)の2つのビデオストリームを生成する場合の例である。ここでは、ベースストリームをサブストリーム1(Substream1)とし、エンハンスストリームをサブストリーム2(Substream2)として説明する。
階段状の実線a1は、エンコード(符号化)により発生するサブストリーム1のデータ量の推移を示しており、各段がそれぞれ一つのピクチャの単位に対応している。段の高さは、エンコードにより発生するデータ量を示している。
タイミングP01は、最初のピクチャの符号化画像データの最初のバイトがcpb1(coded picture buffer 1:圧縮データバッファ)に入るタイミングを示している。R1は、最初のピクチャの符号化画像データのcpb1への入力ビットレートを示している。ここで、T1の時間をもってcpb1に入力される符号化データ量がQ1であるとき、R1=Q1/T1となる。なお、図示の例では、その他のピクチャの符号化画像データのcpb1への入力ビットレートもR1である場合を示している。
階段状の実線b1は、デコード(復号化)により消費するcpb1におけるデータ量の推移を示しており、各段がそれぞれ一つのピクチャの単位に対応している。段の高さは、デコードにより消費するデータ量を示している。Qcpb1は、cpd1の占有量を示している。この占有量が、どのタイミングにおいてもcpb1のサイズ(メモリ容量)に収まるようにエンコードされる。
また、階段状の実線a2は、エンコード(符号化)により発生するサブストリーム2のデータ量の推移を示しており、各段がそれぞれ一つのピクチャの単位に対応している。段の高さは、エンコードにより発生するデータ量を示している。
タイミングP02は、最初のピクチャの符号化画像データの最初のバイトがcpb2(coded picture buffer 2:圧縮データバッファ)に入るタイミングを示している。R2は、最初のピクチャの符号化画像データのcpb2への入力ビットレートを示している。ここで、T2の時間をもってcpb2に入力される符号化データ量がQ2であるとき、R2=Q2/T2となる。なお、図示の例では、その他のピクチャの符号化画像データのcpb2への入力ビットレートもR2である場合を示している。
階段状の実線b2は、デコード(復号化)により消費するcpb2におけるデータ量の推移を示しており、各段がそれぞれ一つのピクチャの単位に対応している。段の高さは、デコードにより消費するデータ量を示している。Qcpb2は、cpd2の占有量を示している。この占有量が、どのタイミングにおいてもcpb2のサイズ(メモリ容量)に収まるようにエンコードされる。
図示の例では、サブストリーム1に関しては「1−0」、「1−1」、「1−2」、「1−3」・・・のピクチャ順にデコードされ、サブストリーム2に関しては「2−0」、「2−1」、「2−2」、「2−3」・・・のピクチャ順にデコードされる。このようにサブストリーム1のピクチャとサブストリーム2のピクチャが交互にデコードされる。デコードされた各ピクチャの画像データは、dpb(decoded picture buffer:非圧縮データバッファ)に入力される。この例において、デコードが行われてから表示が開始されるまでの遅延ピクチャ数は4ピクチャとされている。
なお、上述では、R1,R2とも、固定ビットレート(constant_bit_rate)の例を示しているが、これに限定せずとも、可変ビットレート(variable_bit_rate)でも考え方は同じである。
図15は、エンコーダ102の構成例を示している。このエンコーダ102は、テンポラルID発生部121と、バッファ遅延制御部122と、HRD(Hypothetical Reference Decoder)設定部123と、パラメータセット/SEIエンコード部124と、スライスエンコード部125と、NALパケット化部126を有している。
テンポラルID発生部121には、CPU101から、階層数(Number of layers)の情報が供給される。テンポラルID発生部121は、この階層数の情報に基づいて、階層数に応じたtemporal_idを発生する。例えば、図3の階層符号例においては、temporal_id=0〜4が発生される。
バッファ遅延制御部122には、CPU101から、ミニマムデコード能力(minimum_target_decoder_level_idc)の情報が供給されると共に、テンポラルID発生部121で発生されるtemporal_idが供給される。バッファ遅延制御部122は、ビデオストリーム毎に、cpbバッファリング(buffering)初期値である、“initial_cpb_removal_delay ”と、ピクチャ毎の“cpb_removal_delay”、“ dpb_output_delay”を計算する。
バッファ遅延制御部122は、サブストリーム(Sub-stream)ごとのcpbバッファにおいて“Cpb_removal_delay”を制御する。バッファ遅延制御部122は、dpbバッファにおいてデコーダのデコードタイミングと表示タイミングの間でバッファ破綻がないよう制御する。この場合、最下位の階層組のピクチャのデコードタイミングが等間隔となるように、“cpb_removal_delay”を制御する。また、この場合、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのエンコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのエンコードタイミングの中間タイミングとなるように、“cpb_removal_delay”を制御する。また、cpbバッファの破たんを招かないように、“dpb_output_delay”を制御する。なお、エンコードタイミングは、受信側で圧縮データバッファ(cpb:coded picture buffer)から読み出されるデコードタイミングと同じ意味を示す。
HRD(Hypothetical Reference Decoder)設定部123には、バッファ遅延制御部122で計算された各ビデオストリームのピクチャの「cpb_removal_delay」、「dpb_output_delay」が供給されると共に、CPU101からストリーム数(Number of streams)の情報が供給される。HRD設定部123は、これらの情報に基づいてHRD設定を行う。
パラメータセット/SEIエンコード部124には、HRD設定情報と共に、temporal_idが供給される。パラメータセット/SEIエンコード部124は、符号化するストリーム数に応じて、各階層のピクチャのVPS、SPS、PPSなどのパラメータセットとSEIを生成する。
例えば、「cpb_removal_delay」と「dpb_output_delay」を含むピクチャ・タイミング・SEI(Picture timing SEI)が生成される。また、例えば、「initial_cpb_removal_time」を含むバッファリング・ピリオド・SEI(Buffereing Perifod SEI)が生成される。バッファリング・ピリオド・SEIは、GOPの先頭のピクチャ(アクセスユニット)に対応して生成される。
「initial cpb removal time」は、圧縮データバッファ(cpb)からGOP(Group Of Picture)の先頭のピクチャの符号化画像データをデコードする際に取り出す時刻(初期時刻)を示す。「cpb_removal_delay」は、各ピクチャの符号化画像データを圧縮データバッファ(cpb)から取り出す時間であり、「initial_cpb_removal_time」と合わせて時刻が決まる。また、「dpb_output_delay」は、デコードして非圧縮データバッファ(dpb)に入ってから取り出す時間を示す。
スライスエンコード部125は、各階層のピクチャの画像データをエンコードしてスライスデータ(slice segment header, slice segment data)を得る。スライスエンコード部125は、フレームバッファにより、時間方向の予測の状態を表す情報として、「Prediction Unit」の予測先ピクチャのインデックスを示す「ref_idx_l0_active(ref_idx_l1_active)を、「slice segment header」に挿入する。これにより、デコード時には、temporal_idで示される階層レベルと共に、被参照ピクチャが決定される。また、スライスエンコード部125は、現在のスライス(slice)のインデックスを、「short_term_ref_pic_set_idx」、 あるいは「it_idx_sps」として、「slice segment header」に挿入する。
NALパケット化部126は、パラメータセット/SEIエンコード部124で生成されたパラメータセットおよびSEIと、スライスエンコード部125で生成されるスライスデータに基づき、各階層のピクチャの符号化画像データを生成し、ストリーム数に応じた数のビデオストリーム(符号化ストリーム)を出力する。
その際、ピクチャごとに、その階層を示すtemporal_idがNALユニットヘッダに付される(図4参照)。また、temporal_idで示される階層に属するピクチャは、サブレイヤ(sub_layer)として括られ、サブレイヤごとのビットレートのレベル指定値「Level_idc」が「sublayer_level_idc」とされて、VPSやSPSに挿入される。
図16は、エンコーダ102の処理フローを示す。エンコーダ102は、ステップST1において、処理を開始し、その後に、ステップST2の処理に移る。このステップST2において、エンコーダ102は、階層符号化における階層数Nを設定する。次に、エンコーダ102は、ステップST3において、各階層のピクチャのtemporal_idを0〜(N−1)とする。
次に、エンコーダ102は、ステップST4において、対象デコーダのうち、最小能力のデコーダがデコードできる階層レベルKを、0〜N−1の範囲内に設定する。そして、エンコーダ102は、ステップST5において、バッファ遅延制御部122で、各階層組におけるピクチャエンコード間隔およびエンコードタイミングを設定する。
次に、エンコーダ102は、ステップST6において、ステップST5で求めた各階層組のピクチャエンコード間隔およびエンコードタイミングを「cpb_removal_delay」、「dpb_output_delay」に反映し、HRD設定、パラメータセット/SEIのエンコード、スライスエンコードを行い、NALユニットとして多重化ブロックへ転送する。その後、エンコーダ102は、ステップST7において、処理を終了する。
図2に戻って、圧縮データバッファ(cpb)103は、エンコーダ102で生成された、各階層のピクチャの符号化データを含むビデオストリームを、一時的に蓄積する。マルチプレクサ104は、圧縮データバッファ103に蓄積されているビデオストリームを読み出し、PESパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームTSを得る。
トランスポートストリームTSには、上述したように、複数の階層が分割されて得られた各階層組のピクチャの符号化画像データを持つ所定数のビデオストリームが含まれる。マルチプレクサ104は、トランスポートストリームTSに、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報を挿入する。この場合、識別情報は、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループ(Video ES loop)の中にストリームタイプとして挿入する。
この場合、ベースストリームのストリームタイプは“0x24”とされる。また、エンハンスストリームのストリームタイプは新規定義される、例えば“0x25”とされる。なお、エンハンスストリームが複数存在する場合、全てのエンハンスストリームのストリームタイプが同じくされるのではなく、各エンハンスストリームの識別が可能となるようにエンハンスストリームのストリームタイプとして複数のストリームタイプが新規定義されてもよい。例えば、エンハンスストリームが2つある場合、第1のエンハンスストリームのストリームタイプは“0x25”とされ、第2のエンハンスストリームのストリームタイプは“0x26”とされる。
マルチプレクサ104は、トランスポートストリームTSのレイヤに、所定数のビデオストリームのそれぞれに対応して、ビデオストリームの構成情報を挿入する。マルチプレクサ104は、この構成情報を、プログラムマップテーブルの配下に所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にデスクリプタとして挿入する。
マルチプレクサ104は、HEVCデスクリプタ(HEVC_descriptor)と共に、新規定義するマルチストリーム・デスクリプタ(multistream_descriptor)を挿入する。図17は、HEVCデスクリプタ(HEVC_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、HEVCデスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。
「level_idc」の8ビットフィールドは、ビットレートのレベル指定値を示す。また、「temporal_layer_subset_flag = 1」であるとき、「temporal_id_min」の5ビットフィールドと、「temporal_id_max」の5ビットフィールドが存在する。「temporal_id_min」は、対応するビデオストリームに含まれる階層符号化データの最も低い階層のtemporal_idの値を示す。「temporal_id_max」は、対応するビデオストリームが持つ階層符号化データの最も高い階層のtemporal_idの値を示す。
図18は、マルチストリーム・デスクリプタ(multistream_descriptor)の構造例(Syntax)を示している。また、図19は、その構造例における主要な情報の内容(Semantics)を示している。
「multistream_descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示す。ここでは、マルチストリーム・デスクリプタであることを示す。「multistream_descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。ここでは、2バイトを示す。「group_id」の4ビットフィールドは、一連のサービスで関連付けられるグループのIDを示す。この場合、ベースストリーム(base stream)と、それを基本とするすべてのノンベースストリーム(non-base stream=enhanced stream)が同じIDを持つ。
「stream_dependency_ordering」の4ビットフィールドは、ベースストリーム(base stream)から始まるストリーム間の依存関係を昇順で定義する。“0001”は、基本ストリームを示す。“0010”は、基本ストリームから2番目のストリーム(エンハンスストリーム)を示す。“0011”は、基本ストリームから3番目のストリームを示す。「max_layer_in_group」は、グループの中で符号化される階層の最大値を示す。
図20は、トランスポートストリームTSに、例えば、サービス1(SERVICE 1)と、サービス2(SERVICE 2)のビデオストリーム群が含まれている場合における「Stream_type」、「Group_id」、「max/min layer」、「max_layer_in_group」、「Stream_dependenncy ordering」の一例を示している。
この例で、サービス1のビデオストリームとして、ベースストリーム(Base stream)、エンハンスストリーム(Enhanced stream 1)、エンハンスストリーム(Enhanced stream 2
)の3つのビデオストリームが含まれている。このサービス1は、「Group_id」の値は「0」になっている。また、このサービス1は、例えば、図3に示す階層符号化の例と同様に、階層数は5階層であり、「max/min layer」の値は、「4」となっている。
また、このサービス1は、3つの階層組に分割されている。ベースストリームの「Stream_type」の値は「0x24」に設定されており、HEVCデスクリプタの「max/min layer」は階層0から2のピクチャを含むことを示す。また、エンハンスストリーム(Enhanced stream 1)の「Stream_type」の値は「0x25」に設定されており、HEVCデスクリプタの「max/min layer」は階層3のピクチャを含むことを示す。さらに、エンハンスストリーム(Enhanced stream 2)の「Stream_type」の値は「0x25」に設定されており、HEVCデスクリプタの「max/min layer」は階層4のピクチャを含むことを示す。
また、この例で、サービス2のビデオストリームとして、ベースストリーム(Base stream)、エンハンスストリーム(Enhanced stream 1)、エンハンスストリーム(Enhanced stream 2
)の3つのビデオストリームが含まれている。このサービス2は、「Group_id」の値は「1」になっている。また、このサービス2は、例えば、階層数は4階層であり、「max/min layer」の値は、「3」となっている。
また、このサービス2は、3つの階層組に分割されている。ベースストリームの「Stream_type」の値は「0x24」に設定されており、HEVCデスクリプタの「max/min layer」は階層0から1のピクチャを含むことを示す。また、エンハンスストリーム(Enhanced stream 1)の「Stream_type」の値は「0x25」に設定されており、HEVCデスクリプタの「max/min layer」は階層2のピクチャを含むことを示す。さらに、エンハンスストリーム(Enhanced stream 2)の「Stream_type」の値は「0x25」に設定されており、HEVCデスクリプタの「max/min layer」は階層3のピクチャを含むことを示す。
図21は、マルチプレクサ104の構成例を示している。マルチプレクサ104は、セクションコーディング部142と、PESパケット化部143-1〜143-Nと、スイッチ部144と、トランスポートパケット化部145を有している。
PESパケット化部143-1〜143-Nは、それぞれ、圧縮データバッファ103に蓄積されているビデオストリーム1〜Nを読み込み、PESパケットを生成する。ここで、ビデオストリーム1〜Nには、1つのベースストリームと、1つ以上のエンハンスストリームが含まれている。
この際、PESパケット化部143-1〜143-Nは、ビデオストリーム1〜NのHRD情報を元にDTS(Decoding Time Stamp)、PTS(Presentation Time Stamp)のタイムスタンプをPESヘッダに付与する。この場合、各ピクチャの「cpu_removal_delay」、「dpb_output_delay」が参照されて、STC(System Time Clock)時刻に同期した精度で、各々DTS、PTSが生成され、PESヘッダの所定位置に配置される。
スイッチ部144は、PESパケット化部143-1〜143-Nで生成されたPESパケットを、パケット識別子(PID)に基づいて選択的に取り出し、トランスポートパケット化部145に送る。トランスポートパケット化部145は、PESパケットをペイロードに含むTSパケットを生成し、トランスポートストリームTSを得る。
セクションコーディング部142は、トランスポートストリームTSに挿入すべき各種のセクションデータを生成する。セクションコーディング部142には、CPU101から、階層数(Number of layers)と、ストリーム数(Number of streams)などの情報が供給される。セクションコーディング部142は、これら情報に基づいて、上述したHEVCデスクリプタ(HEVC_descriptor)、マルチストリーム・デスクリプタ(multistream_descriptor)を生成する。
セクションコーディング部142は、各種セクションデータを、トランスポートパケット化部145に送る。トランスポートパケット化部145は、このセクションデータを含むTSパケットを生成し、トランスポートストリームTSに挿入する。なお、この際、各ビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループ(Video ES loop)の中に、ストリームタイプも挿入される。この場合、ベースストリームのストリームタイプは“0x24”とされ、エンハンスストリームのストリームタイプは、例えば新規定義する“0x25”とされる。
図22は、マルチプレクサ104の処理フローを示す。マルチプレクサ104は、ステップST11において、処理を開始し、その後に、ステップST12の処理に移る。このステップST12において、マルチプレクサ104は、HRD情報(cpu_removal_delay、dpb_output_delay)を参照して、DTS、PTSを決め、PESヘッダの所定位置に挿入する。
次に、マルチプレクサ104は、ステップST13において、マルチストリームか否か、つまりNが複数であるか否かを判断する。マルチストリームであるとき、マルチプレクサ104は、ステップST14において、複数のPIDで多重化処理を進めることとする。そして、マルチプレクサ104は、ステップST15において、ベースストリームか否かを判断する。
ベースストリームであるとき、マルチプレクサ104は、ステップST16において、ストリームタイプを“0x24”に設定し、その後にステップST18の処理に進む。一方、エンハンスストリームであるとき、マルチプレクサ104は、ステップST17において、ストリームタイプを、エンハンスストリームを示す値、例えば新規定義する“0x25”に設定し、その後にステップST18の処理に進む。
なお、ステップST13でマルチストリームでないとき、マルチプレクサ104は、ステップST19において、1つのPIDで多重化処理をすることとし、その後にステップST18の処理に進む。
ステップST18において、マルチプレクサ104は、HEVCデスクリプタ、マルチストリーム・デスクリプタなどをセクションコーディングし、また、符号化ストリーム(ビデオエレメンタリストリーム)をPESペイロードに挿入してPESパケット化する。そして、マルチプレクサ104は、ステップST20においてトランスポートパケット化し、トランスポートストリームTSを得る。その後、マルチプレクサ104は、ステップST21において、処理を終了する。
図23は、あるサービスを2ストリームで配信する場合のトランスポートストリームTSの構成例を示している。このトランスポートストリームTSには、ベースストリームとエンハンスストリームの2つのビデオストリームが含まれている。すなわち、この構成例では、ベースストリームのPESパケット「video PES1」が存在すると共に、エンハンスストリームのPESパケット「video PES2」が存在する。
また、トランスポートストリームTSには、PSI(Program Specific Information)の一つとして、PMT(Program Map Table)が含まれている。このPSIは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。
PMTには、プログラム全体に関連する情報を記述するプログラム・ループ(Program loop)が存在する。また、PMTには、各ビデオストリームに関連した情報を持つエレメンタリストリーム・ループが存在する。この構成例では、ベースストリームに対応したビデオエレメンタリストリームループ「video ES1 loop」が存在すると共に、エンハンスストリームに対応したビデオエレメンタリストリームループ「video ES2 loop」が存在する。
「video ES1 loop」には、ベースストリーム(video PES1)に対応して、ストリームタイプ、パケット識別子(PID)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このストリームタイプは、ベースストリームを示す“0x24”とされる。また、デスクリプタの一つとして、上述したHEVCデスクリプタ、マルチストリーム・デスクリプタが挿入される。
また、「video ES2 loop」には、エンハンスストリーム(video PES2)に対応して、ストリームタイプ、パケット識別子(PID)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このストリームタイプは、エンハンスストリームを示す、例えば新規定義する“0x25”とされる。また、デスクリプタの一つとして、上述したHEVCデスクリプタ、マルチストリーム・デスクリプタが挿入される。
図24は、あるサービスを3ストリームで配信する場合のトランスポートストリームTSの構成例を示している。このトランスポートストリームTSには、ベースストリームと2つのエンハンスストリームの3つのビデオストリームが含まれている。すなわち、この構成例では、ベースストリームのPESパケット「video PES1」が存在すると共に、エンハンスストリームのPESパケット「video PES2」、「video PES3」が存在する。
また、PMTには、各ビデオストリームに関連した情報を持つエレメンタリストリーム・ループが存在する。この構成例では、ベースストリームに対応したビデオエレメンタリストリームループ「video ES1 loop」が存在すると共に、2つのエンハンスストリームに対応したビデオエレメンタリストリームループ「video ES2 loop」およびビデオエレメンタリストリームループ「video ES3 loop」が存在する。
「video ES1 loop」には、ベースストリーム(video PES1)に対応して、ストリームタイプ、パケット識別子(PID)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このストリームタイプは、ベースストリームを示す“0x24”とされる。また、デスクリプタの一つとして、上述したHEVCデスクリプタ、マルチストリーム・デスクリプタが挿入される。
また、「video ES2 loop」には、エンハンスストリーム(video PES2)に対応して、ストリームタイプ、パケット識別子(PID)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このストリームタイプは、エンハンスストリームを示す、例えば新規定義する“0x25”とされる。また、デスクリプタの一つとして、上述したHEVCデスクリプタ、マルチストリーム・デスクリプタが挿入される。
また、「video ES3 loop」には、エンハンスストリーム(video PES3)に対応して、ストリームタイプ、パケット識別子(PID)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このストリームタイプは、エンハンスストリームを示す、例えば新規定義する“0x25”あるいは“0x26”とされる。また、デスクリプタの一つとして、上述したHEVCデスクリプタ、マルチストリーム・デスクリプタが挿入される。
図2に戻って、送信部105は、トランスポートストリームTSを、例えば、QPSK/OFDM等の放送に適した変調方式で変調し、RF変調信号を送信アンテナから送信する。
図2に示す送信装置100の動作を簡単に説明する。エンコーダ102には、非圧縮の動画像データが入力される。エンコーダ102では、この動画像データに対して、階層符号化が行われる。すなわち、エンコーダ102では、この動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化され、各階層のピクチャの符号化画像データを持つビデオストリームが生成される。この際、参照するピクチャが、自己階層および/または自己階層よりも下位の階層に所属するように、符号化される。
エンコーダ102では、複数の階層が所定数の階層組に分割され、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが生成される。この場合、最下位の階層組のピクチャの符号化画像データを持つベースストリームが生成されると共に、この最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを持つ所定数のエンハンスストリームが生成される。
エンコーダ102で生成された所定数のビデオストリームは、圧縮データバッファ(cpb)103に供給され、一時的に蓄積される。マルチプレクサ104では、圧縮データバッファ103に蓄積されている各ビデオストリームが読み出され、PESパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームTSが得られる。
また、マルチプレクサ104では、トランスポートストリームTSのレイヤに、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報が挿入される。この識別情報は、例えば、各ビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループ(Video ES loop)の中に挿入されるストリームタイプである。この場合、ベースストリームのストリームタイプは“0x24”とされ、エンハンスストリームのストリームタイプは、例えば新規定義する“0x25”とされる。
また、マルチプレクサ104では、トランスポートストリームTSのレイヤに、所定数のビデオストリームのそれぞれに対応して、ビデオストリームの構成情報が挿入される。すなわち、マルチプレクサ104では、各ビデオストリームに対応したビデオエレメンタリストリームループに、HEVCデスクリプタ、マルチストリーム・デスクリプタが挿入される。
マルチプレクサ104で生成されるトランスポートストリームTSは、送信部105に送られる。送信部105では、このトランスポートストリームTSが、例えば、QPSK/OFDM等の放送に適した変調方式で変調され、RF変調信号が送信アンテナから送信される。
「受信装置の構成」
図25は、受信装置200の構成例を示している。この受信装置200は、CPU(Central Processing Unit)201と、受信部202と、デマルチプレクサ203と、圧縮データバッファ(cpb:coded picture buffer)204を有している。また、この受信装置200は、デコーダ205と、非圧縮データバッファ(dpb:decoded picture buffer)206と、ポスト処理部207を有している。CPU201は、制御部を構成し、受信装置200の各部の動作を制御する。
受信部202は、受信アンテナで受信されたRF変調信号を復調し、トランスポートストリームTSを取得する。デマルチプレクサ203は、トランスポートストリームTSから、デコード能力(Decoder temporal layer capability)に応じた階層組のピクチャの符号化画像データを選択的に取り出し、圧縮データバッファ(cpb:coded picture buffer)204に送る。
図26は、デマルチプレクサ203の構成例を示している。デマルチプレクサ203は、TSアダプテーションフィールド抽出部231と、クロック情報抽出部232と、TSペイロード抽出部233と、セクション抽出部234と、PSIテーブル/デスクリプタ抽出部235と、PESパケット抽出部236を有している。また、デマルチプレクサ203は、PESヘッダ抽出部237と、タイムスタンプ抽出部238と、PESペイロード抽出部240と、ストリーム構成部(ストリームコンポーザ)241を有している。
TSアダプテーションフィールド抽出部231は、トランスポートストリームTSのアダプテーションフィールドを持つTSパケットから当該アダプテーションフィールドを抽出する。クロック情報抽出部232は、PCR(Program Clock Reference)が含まれるアダプテーションフィールドから当該PCRを抽出し、CPU201に送る。
TSペイロード抽出部233は、トランスポートストリームTSのTSペイロードを持つTSパケットから当該TSペイロードを抽出する。セクション抽出部234は、セクションデータが含まれるTSペイロードから当該セクションデータを抽出する。PSIテーブル/デスクリプタ抽出部235は、セクション抽出部234で抽出されたセクションデータを解析し、PSIテーブルやデスクリプタを抽出する。そして、PSIテーブル/デスクリプタ抽出部235は、temporal_idの最小値(min)と最大値(max)、最大階層数、ストリーム依存関係、グループIDなどを、CPU201に送ると共に、ストリーム構成部241に送る。
PESパケット抽出部236は、PESパケットが含まれるTSペイロードから当該PESパケットを抽出する。PESヘッダ抽出部237は、PESパケット抽出部236で抽出されたPESパケットからPESヘッダを抽出する。タイムスタンプ抽出部238は、ピクチャ毎にPESヘッダに挿入されているタイムスタンプ(DTS、PTS)を抽出し、CPU201に送ると共に、ストリーム構成部241に送る。
PESペイロード抽出部240は、PESパケット抽出部236で抽出されたPESパケットからPESペイロード、つまり、各階層のピクチャの符号化画像データを抽出する。ストリーム構成部241は、PESペイロード抽出部240で取り出される各階層のピクチャの符号化画像データから、デコード能力(Decoder temporal layer capability)に応じてベースストリームのみ、あるいはベースストリームと所定数のエンハンスストリームのピクチャの符号化画像データを選択的に取り出し、圧縮データバッファ(cpb:coded picture buffer)204に送る。この場合、ストリーム構成部241は、PSIテーブル/デスクリプタ抽出部235で得られる階層情報などを参照する。
例えば、トランスポートストリームTSに含まれる所定数のビデオストリーム(符号化ストリーム)のフレームレートが120fpsである場合を考える。例えば、複数の階層が低階層側の階層組と高階層側の階層組とに2分され、各階層組のピクチャのフレームレートがそれぞれ60fpsであるとする。例えば、上述の図3に示す階層符号化例では、階層0から3は低階層側の階層組とされ、60fpsのlevel_idc対応のデコーダがデコード可能となる。また、階層4は高階層側の階層組とされ、120fpsのlevel_idc対応のデコーダがデコード可能となる。
ストリーム構成部241は、デコード能力が、120fpsに対応している場合、パケットID(PID)に基づいて、ベースストリームおよびエンハンスストリームの双方のピクチャの符号化画像データを取り出し、圧縮データバッファ(cpb)204に送る。一方、ストリーム構成部241は、デコード能力が、120fpsに対応していないが60fpsに対応している場合、パケットID(PID)に基づいて、ベースストリームのピクチャの符号化画像データのみを取り出し、圧縮データバッファ(cpb)204に送る。
図27は、トランスポートストリームTSにベースストリームとエンハンスストリームの2つのビデオストリーム(符号化ストリーム)が含まれている場合におけるストリーム構成部241のピクチャ(スライス)選択の一例を示している。ベースストリームのパケット識別子(PID)はPID Aであり、エンハンスストリームのパケット識別子(PID)はPID Bであるとする。図示の例は、上述の図9に示す例に対応しており、第nのサブ・ピクチャグループ(Sub group of pictures)の部分のみを示しており、矩形枠で示されている各ピクチャに付されている数字はデコード順(送信側ではエンコード順)を示している。
デコード能力が、120fpsに対応している場合、ストリーム構成部241は、パケット識別子(PID)に基づくフィルタリングを行って、PIDAであるベースストリームおよびPIDBであるエンハンスストリームの双方のピクチャの符号化画像データを取り出し、圧縮データバッファ(cpb)204に送る。この場合、ベースストリームのピクチャの符号化画像データは領域1(cpb_1)に蓄積し、エンハンスストリームのピクチャの符号化画像データは領域2(cpb_2)に蓄積する。
一方、デコード能力が、120fpsに対応していないが60fpsに対応している場合、ストリーム構成部241は、パケット識別子(PID)に基づくフィルタリングを行って、PIDAであるベースストリームのピクチャの符号化画像データだけを取り出し、圧縮データバッファ(cpb)204に送り、領域1(cpb_1)に蓄積する。
図28は、デマルチプレクサ203の処理フローの一例を示している。この処理フローは、トランスポートストリームTSに、最下位の階層組のピクチャの符号化画像データを持つベースストリームと、この最下位の階層組の上位に位置する所定数の階層組のピクチャの符号化画像データをそれぞれ持つ所定数のエンハンスストリームが含まれている場合を示している。
デマルチプレクサ203は、ステップST41において、処理を開始し、その後に、ステップST42の処理に移る。このステップST42おいて、CPU201から、デコード能力(Decoder temporal layer capability)が設定される。次に、デマルチプレクサ203は、ステップST43おいて、全階層(レイヤ)をデコードする能力があるか否かを判断する。
全階層をデコードする能力があるとき、デマルチプレクサ203は、ステップST44において、PIDフィルタにより全階層を構成する全てのストリームを選択し、セクションパーシング(Section parsing)を行う。その後、デマルチプレクサ203は、ステップST45の処理に移る。
ステップST43で全階層をデコードする能力がないとき、デマルチプレクサ203は、ステップST46において、デコード可能な低階層を構成するベースストリームを含む所定数のストリームを選択し、また、関連するセクションパーシング(Section parsing)を行う。その後、デマルチプレクサ203は、ステップST45の処理に移る。
ステップST45において、デマルチプレクサ203は、対象となるPIDのセクションの中で、HEVCデスクリプタ、マルチストリーム・デスクリプタを読み、グループ内のストリームの依存関係、最大階層数、temporal_idの最大、最小値を得る。
次に、デマルチプレクサ203は、ステップST47で、ステップST44あるいはステップST46で選択されたストリームのピクチャの符号化画像データを圧縮データバッファ(cpb)204へ転送する。デマルチプレクサ203は、ステップST47の処理の後、ステップST48において、処理を終了する。
図25に戻って、圧縮データバッファ(cpb)204は、デマルチプレクサ203で取り出されるビデオストリーム(符号化ストリーム)を、一時的に蓄積する。デコーダ205は、圧縮データバッファ204に蓄積されているビデオストリームから、デコードすべき階層として指定された階層のピクチャの符号化画像データを取り出す。そして、デコーダ205は、取り出された各ピクチャの符号化画像データを、それぞれ、そのピクチャのデコードタイミングでデコードし、非圧縮データバッファ(dpb)206に送る。
ここで、デコーダ205には、CPU201からデコードすべき階層がtemporal_idで指定される。この指定階層は、デマルチプレクサ203で取り出されるビデオストリーム(符号化ストリーム)に含まれる全階層、あるいは低階層側の一部の階層とされ、CPU201により自動的に、あるいはユーザ操作に応じて設定される。また、デコーダ205には、CPU201から、DTS(Decoding Time stamp)に基づいて、デコードタイミングが与えられる。なお、デコーダ205は、各ピクチャの符号化画像データをデコードする際に、必要に応じて、非圧縮データバッファ206から被参照ピクチャの画像データを読み出して利用する。
図29は、デコーダ205の構成例を示している。このデコーダ205は、テンポラルID解析部251と、対象階層選択部252と、ストリーム結合部253と、デコード部254を有している。テンポラルID解析部251は、圧縮データバッファ204に蓄積されているビデオストリーム(符号化ストリーム)を読み出し、各ピクチャの符号化画像データのNALユニットヘッダに挿入されているtemporal_idを解析する。
対象階層選択部252は、圧縮データバッファ204から読み出された各ビデオストリームから、テンポラルID解析部251の解析結果に基づいて、デコードすべき階層として指定された階層のピクチャの符号化画像データを取り出す。この場合、対象階層選択部252からは、圧縮データバッファ204から読み出されたビデオストリームの数および指定階層に応じて、単一または複数のビデオストリーム(符号化ストリーム)が出力される。
ストリーム結合部253は、対象階層選択部252から出力される各ビデオストリーム(符号化ストリーム)を一つに結合する。なお、図示とは異なるが、ストリーム結合部253は、cpbバッファ204から出力される、各ビデオストリーム(符号化ストリーム)を一つに結合してもよい。この場合、ストリーム結合部253は、対象階層選択をテンポラルID解析と共に実行することとなる。ストリーム結合部253は、各ピクチャの符号化画像データをデコードタイミング情報に基づいて1つのストリームにする。図30は、ストリーム結合の一例を示している。
この例は、上述の図9に示す例に対応しており、60Hz間隔のベースストリームのピクチャと、60Hz間隔のエンハンスストリームのピクチャとを結合した例である。この場合、各ピクチャは120Hzのタイムスタンプの1つのストリームとされる。
なお、この1つのストリームはデコード部254に送られ、後述するように、各ピクチャの符号化画像データはそれぞれデコードタイミングでデコードされ、dpb(非圧縮データバッファ)206に蓄積される。その後、非圧縮データバッファ206から各ピクチャの画像データが、ピクチャのリオーダが行われて順次120Hzで読み出される。図示の例では、まず、あるサブ・ピクチャグループのピクチャ(右下がりのハッチングで示す)が読み出され、その次に、次のサブ・ピクチャグループのピクチャ(左下がりのハッチングで示す)が読み出される。デコード後、あるサブ・ピクチャグループのピクチャの表示がなされている間、次のサブ・ピクチャグループのピクチャは非圧縮データバッファ206に蓄積されていて、その後の参照ピクチャとなる。
なお、複数のストリームのピクチャのまとめ処理自体は、上述のデマルチプレクサ203において、選択された複数のストリームに対して行って、圧縮データバッファ(cpb)204に1つのストリームとして転送するようにしてもよい。その際の結合処理も、同様に、デコードタイミング情報に基づいて行われる。この場合、デコーダにおける結合処理は不要となる。
デコード部254は、ストリーム結合部253で結合されたビデオストリーム(符号化ストリーム)が持つ各ピクチャの符号化画像データを、順次デコードタイミングでデコードし、非圧縮データバッファ(dpb)206に送る。
この場合、デコード部254は、VPS、SPSの解析を行って、例えば、サブレイヤごとのビットレートのレベル指定値「sublayer_level_idc」を把握し、デコード能力内でデコードし得るものかどうかを確認する。また、この場合、デコード部254は、SEIの解析を行って、例えば、「initial_cpb_removal_time」、「cpb_removal_delay」を把握し、CPU201からのデコードタイミングが適切か確認する。
デコード部254は、スライス(Slice)のデコードを行う際に、スライスヘッダ(Slice header)から、時間方向の予測先を表す情報として、「ref_idx_l0_active(ref_idx_l1_active)を取得し、時間方向の予測を行う。なお、デコード後のピクチャは、スライスヘッダ(slice header)から得られる「short_term_ref_pic_set_idx」、あるいは「it_idx_sps」が指標とされて、他のピクチャによる被参照として処理される。
図25に戻って、非圧縮データバッファ(dpb)206は、デコーダ205でデコードされた各ピクチャの画像データを、一時的に蓄積する。ポスト処理部207は、非圧縮データバッファ(dpb)206から表示タイミングで順次読み出された各ピクチャの画像データに対して、そのフレームレートを、表示能力に合わせる処理を行う。この場合、CPU201から、PTS(Presentation Time stamp)に基づいて、表示タイミングが与えられる。
例えば、デコード後の各ピクチャの画像データのフレームレートが120fpsであって、表示能力が120fpsであるとき、ポスト処理部207は、デコード後の各ピクチャの画像データをそのままディスプレイに送る。また、例えば、デコード後の各ピクチャの画像データのフレームレートが120fpsであって、表示能力が60fpsであるとき、ポスト処理部207は、デコード後の各ピクチャの画像データに対して時間方向解像度が1/2倍となるようにサブサンプル処理を施し、60fpsの画像データとしてディスプレイに送る。
また、例えば、デコード後の各ピクチャの画像データのフレームレートが60fpsであって、表示能力が120fpsであるとき、ポスト処理部207は、デコード後の各ピクチャの画像データに対して時間方向解像度が2倍となるように補間処理を施し、120fpsの画像データとしてディスプレイに送る。また、例えば、デコード後の各ピクチャの画像データのフレームレートが60fpsであって、表示能力が60fpsであるとき、ポスト処理部207は、デコード後の各ピクチャの画像データをそのままディスプレイに送る。
図31は、ポスト処理部207の構成例を示している。この例は、上述したようにデコード後の各ピクチャの画像データのフレームレートが120fpsあるいは60fpsであって、表示能力が120fpsあるいは60fpsである場合に対処可能とした例である。
ポスト処理部207は、補間部271と、サブサンプル部272と、スイッチ部273を有している。非圧縮データバッファ206からのデコード後の各ピクチャの画像データは、直接スイッチ部273に入力され、あるいは補間部271で2倍のフレームレートとされた後にスイッチ部273に入力され、あるいはサブサンプル部272で1/2倍のフレームレートとされた後にスイッチ部273に入力される。
スイッチ部273には、CPU201から、選択情報が供給される。この選択情報は、CPU201が、表示能力を参照して自動的に、あるいは、ユーザ操作に応じて発生する。スイッチ部273は、選択情報に基づいて、入力のいずれかを選択的に出力とする。これにより、非圧縮データバッファ(dpb)206から表示タイミングで順次読み出された各ピクチャの画像データのフレームレートは、表示能力に合ったものとされる。
図32は、デコーダ205、ポスト処理部207の処理フローの一例を示している。デコーダ205、ポスト処理部207は、ステップST51において、処理を開始し、その後に、ステップST52の処理に移る。このステップST52において、デコーダ205は、圧縮データバッファ(cpb)204に蓄積されているデコード対象のビデオストリームを読み出し、temporal_idに基づいて、CPU201からデコード対象として指定される階層のピクチャを選択する。
次に、デコーダ205は、ステップST53において、選択された各ピクチャの符号化画像データをデコードタイミングで順次デコードし、デコード後の各ピクチャの画像データを非圧縮データバッファ(dpb)206に転送して、一時的に蓄積する。次に、ポスト処理部207は、ステップST54において、非圧縮データバッファ(dpb)206から、表示タイミングで各ピクチャの画像データを読み出す。
次に、ポスト処理部207は、読み出された各ピクチャの画像データのフレームレートが表示能力にあっているか否かを判断する。フレームレートが表示能力に合っていないとき、ポスト処理部207は、ステップST56において、フレームレートを表示能力に合わせて、ディスプレイに送り、その後、ステップST57において、処理を終了する。一方、フレームレートが表示能力に合っているとき、ポスト処理部207は、ステップST58において、フレームレートそのままでディスプレイに送り、その後、ステップST57において、処理を終了する。
図25に示す受信装置200の動作を簡単に説明する。受信部202では、受信アンテナで受信されたRF変調信号が復調され、トランスポートストリームTSが取得される。このトランスポートストリームTSは、デマルチプレクサ203に送られる。デマルチプレクサ203では、トランスポートストリームTSから、デコード能力(Decoder temporal layer capability)に応じて全部あるいは一部のビデオストリームが、PIDフィルタリングされる。
例えば、デコード能力が高い場合には、ベースストリームおよびエンハンスストリームの全てのビデオストリームが選択される。また、例えば、デコード能力が低い場合には、デコード可能な階層を含む、ベースストリームを含む所定数のビデオストリームが選択される。そして、デマルチプレクサ203からは、選択されたビデオストリームのピクチャの符号化画像データが圧縮データバッファ(cpb)204に送られ、一時的に蓄積される。
デコーダ205では、圧縮データバッファ204に蓄積されているビデオストリームから、デコードすべき階層として指定された階層のピクチャの符号化画像データが取り出される。そして、デコーダ205では、取り出された各ピクチャの符号化画像データが、それぞれ、そのピクチャのデコードタイミングでデコードされ、非圧縮データバッファ(dpb)206に送られ、一時的に蓄積される。この場合、各ピクチャの符号化画像データがデコードされる際に、必要に応じて、非圧縮データバッファ206から被参照ピクチャの画像データが読み出されて利用される。
非圧縮データバッファ(dpb)206から表示タイミングで順次読み出された各ピクチャの画像データは、ポスト処理部207に送られる。ポスト処理部207では、各ピクチャの画像データに対して、そのフレームレートを、表示能力に合わせるための補間あるいはサブサンプルが行われる。このポスト処理部207で処理された各ピクチャの画像データは、ディスプレイに供給され、その各ピクチャの画像データによる動画像の表示が行われる。
以上説明したように、図1に示す送受信システム10においては、送信側において、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化されるものである。そのため、例えば、受信側が、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことが可能となる。
また、図1に示す送受信システム10においては、送信側において、最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、この階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化されるものである。そのため、例えば、受信側では、最下位の階層組だけでなく、それよりも上位に位置する階層組のピクチャの符号化画像データまでもデコードする能力がある場合に、各ピクチャのデコード処理を順次スムーズに進めることが可能となる。
また、図1に示す送受信システム10においては、送信側において、複数の階層を所定数の階層組に分割する際、最下位の階層組に複数の階層を含み、この最下位の階層組より上位に位置する階層組には1つの階層を含むようにされるものである。そのため、例えば、受信側では、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、この最下位の階層組のピクチャの符号化画像データを持つビデオストリームだけを選択してバッファに取り込んでデコード処理を行う構成で済み、複数のビデオストリームの結合処理などを行うなどの複雑な構成が不要となる。
また、図1に示す送受信システム10においては、送信側において、トランスポートストリームTSのレイヤに、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報が挿入されるものである。そのため、受信側では、この識別情報を利用することで、例えば、ベースストリームだけを選択し、低階層組のピクチャの符号化画像データを選択的にデコードすることが容易に可能となる。
また、図1に示す送受信システム10においては、送信側において、トランスポートストリームTSのレイヤに、このトランスポートストリームTSに含まれる所定数のビデオストリームのそれぞれに対応して、このビデオストリームの構成情報が挿入されるものである。そのため、例えば、受信側では、トランスポートストリームTSに含まれる各ビデオストリームにつき、どのグループに属するのか、どのようなストリーム依存関係にあるのか、階層数がいくらの階層符号化に係るものであるか、などを容易に把握可能となる。
また、図1に示す送受信システム10においては、受信側において、受信されたビデオストリームからデコード能力(Decoder temporal layer capability)に応じた所定階層以下の階層のピクチャの符号化画像データが選択的に圧縮データバッファ204に取り込まれてデコードされるものである。そのため、例えば、デコード能力に応じた適切なデコード処理が可能となる。
また、図1に示す送受信システム10においては、受信側において、復号化後の各ピクチャの画像データのフレームレートをポスト処理部207で表示能力に合わせるものである。そのため、例えば、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。
<2.変形例>
なお、上述実施の形態においては、マルチストリーム・デスクリプタ(図18参照)に階層最大値の情報である「Max_layer_in_group」を記述して受信側に送っている。しかし、階層最大値の情報をデスクリプタに記述して受信側に供給する代わりに、ファイルあるいは紙の規格書の文面で“最大のレイヤを指定する”という表記が行われ、受信装置に予め階層最大値が指定あるいは設定されることも考えられる。この場合にも、受信側では、上述したように送信側からデスクリプタで供給される場合と同様に、この階層最大値の情報を参照して、自己のデコード能力に応じた階層を含むストリームをフィルタリングして、デコード処理を行うこととなる。
また、上述実施の形態においては、時間的スケーラビリティ(temporal scalability)の例を示し、マルチストリーム・デスクリプタを用いて、各ストリームの構成情報を受信側に送信している。しかし、詳細説明は省略するが、空間的スケーラビリティ、あるいはビットレートスケーラビリティなどのスケーラビリティに関しても、基本ストリーム(ベースストリーム)と拡張ストリーム(エンハンスストリーム)とが共存するサービスにおいては、上述のマルチストリーム・デスクリプタを応用することが可能である。すなわち、上述のマルチストリーム・デスクリプタは、マルチストリーム符号化を行う際に有用なシグナリング方法である。
また、上述実施の形態においては、送信装置100と受信装置200からなる送受信システム10を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、受信装置200の部分が、例えば、(HDMI(High-Definition Multimedia Interface)などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。なお、「HDMI」は、登録商標である。
また、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG−2 TS)である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、MP4やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム(MPEG−2 TS)、インターネット配信で使用されているMP4などの種々のフォーマットのコンテナが該当する。
また、本技術は、以下のような構成を取ることもできる。
(1)動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部を備え、
上記画像符号化部は、
少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する
符号化装置。
(2)上記画像符号化部は、
上記最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、該階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化する
前記(1)に記載の符号化装置。
(3)上記画像符号化部は、
上記最下位の階層組に複数の階層を含み、該最下位の階層組より上位に位置する階層組には1つの階層を含むように、上記複数の階層を所定数の階層組に分割する
前記(1)または(2)に記載の符号化装置。
(4)画像符号化部により、動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成し、
上記画像符号化部は、
少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する
符号化方法。
(5)動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
上記画像符号化部は、
少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する
送信装置。
(6)動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記コンテナのレイヤに、上記所定数のビデオストリームのそれぞれが、上記最下位の階層組のピクチャの符号化画像データを持つベースストリームであるか、該最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報を挿入する識別情報挿入部を備える
送信装置。
(7)上記コンテナはトランスポートストリームであり、
上記識別情報挿入部は、
上記識別情報を、プログラムマップテーブルの配下に上記所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にストリームタイプとして挿入する
前記(6)に記載の送信装置。
(8)上記画像符号化部は、
少なくとも、上記最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化する
前記(6)または(7)に記載の送信装置。
(9)上記画像符号化部は、
上記最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、該階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化する
前記(8)に記載の送信装置。
(10)動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化すると共に、上記複数の階層を所定数の階層組に分割し、該分割された各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する画像符号化部と、
上記生成された所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記コンテナのレイヤに、該コンテナに含まれる所定数のビデオストリームのそれぞれに対応して、該ビデオストリームの構成情報を挿入する構成情報挿入部を備える
送信装置。
(11)上記構成情報には、ビデオストリームが属するサービスグループを示す情報が含まれる
前記(10)に記載の送信装置。
(12)上記構成情報には、上記最下位の階層組のピクチャの符号化画像データを持つベースストリームから始まるストリーム間の依存関係を示す情報が含まれる
前記(10)または(11)に記載の送信装置。
(13)上記構成情報には、上記画像符号化部で分類される上記複数の階層の階層数を示す情報が含まれる
前記(10)から(12)のいずれかに記載の送信装置。
(14)上記コンテナはトランスポートストリームであり、
上記構成情報挿入部は、
上記構成情報を、プログラムマップテーブルの配下に上記所定数のビデオストリームにそれぞれ対応して配置されたビデオエレメンタリストリームループの中にデスクリプタとして挿入する
前記(10)から(13)のいずれかに記載の送信装置。
(15)動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、上記複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを受信する受信部と、
上記受信された所定数のビデオストリームを処理する処理部を備え、
上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている
受信装置。
(16)上記所定数のビデオストリームは、
上記最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、該階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化されている
前記(15)に記載の受信装置。
(17)動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されると共に、上記複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
上記受信されたコンテナに含まれる上記所定数のビデオストリームからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データを選択的にバッファに取り込み、該バッファに取り込まれた各ピクチャの符号化画像データをデコードして、上記所定階層以下の階層のピクチャの画像データを得る画像復号化部を備え、
上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化されている
受信装置。
(18)上記コンテナのレイヤに、上記所定数のビデオストリームのそれぞれが、上記最下位の階層組のピクチャの符号化画像データを持つベースストリームであるか、該最下位の階層組より上位に位置する階層組のピクチャの符号化画像データを含むエンハンスストリームであるかを識別するための識別情報が挿入されており、
上記画像復号化部は、上記識別情報に基づいて、上記ベースストリームを含む所定数のビデオストリームから上記デコード能力に応じた所定階層組のピクチャの符号化画像データを上記バッファに取り込んでデコードする
前記(17)に記載の受信装置。
(19)上記画像復号化部は、
上記所定階層組のピクチャの符号化画像データが複数のビデオストリームに含まれている場合、各ピクチャの符号化画像データをデコードタイミング情報に基づいて1つのストリームにしてデコードする
前記(17)または(18)に記載の受信装置。
(20)上記画像復号化部で得られる各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理部をさらに備える
前記(17)から(19)のいずれかに記載の受信装置。
本技術の主な特徴は、少なくとも、最下位の階層組のピクチャの符号化画像データのデコード間隔が等間隔となるように符号化することで、受信側が、最下位の階層組に含まる複数の階層のピクチャの符号化画像データを処理可能なデコード能力がある場合、各ピクチャの符号化画像データのデコード処理を無理なく連続して行うことを可能にしたことである(図8、図11参照)。
また、本技術の主な特徴は、トランスポートストリームTSのレイヤに、所定数のビデオストリームのそれぞれが、ベースストリームであるかエンハンスストリームであるかを識別するための識別情報を挿入することで、受信側において、この識別情報を利用することで、例えば、ベースストリームだけを選択的にデコードすることを容易に可能としたことである(図20、図23参照)。
また、本技術の主な特徴は、トランスポートストリームTSのレイヤに、このトランスポートストリームTSに含まれる所定数のビデオストリームのそれぞれに対応して、このビデオストリームの構成情報を挿入することで、トランスポートストリームTSに含まれる各ビデオストリームにつき、どのグループに属するのか、どのようなストリーム依存関係にあるのか、階層数がいくらの階層符号化に係るものであるか、などを容易に把握可能としたことである(図20、図23参照)。
10・・・送受信システム
100・・・送信装置
101・・・CPU
102・・・エンコーダ
103・・・圧縮データバッファ(cpb)
104・・・マルチプレクサ
105・・・送信部
121・・・テンポラルID発生部
122・・・バッファ遅延制御部
123・・・HRD設定部
124・・・パラメータセット/SEIエンコード部
125・・・スライスエンコード部
126・・・NALパケット化部
142・・・セクションコーディング部
143-1〜143-N・・・PESパケット化部
144・・・スイッチ部
145・・・トランスポートパケット化部
200・・・受信装置
201・・・CPU
202・・・受信部
203・・・デマルチプレクサ
204・・・圧縮データバッファ(cpb)
205・・・デコーダ
206・・・非圧縮データバッファ(dpb)
207・・・ポスト処理部
231・・・TSアダプテーションフィールド抽出部
232・・・クロック情報抽出部
233・・・TSペイロード抽出部
234・・・セクション抽出部
235・・・PSIテーブル/デスクリプタ抽出部
236・・・PESパケット抽出部
237・・・PESヘッダ抽出部
238・・・タイムスタンプ抽出部
240・・・PESペイロード抽出部
241・・・ストリーム構成部
251・・・テンポラルID解析部
252・・・対象階層選択部
253・・・ストリーム結合部
254・・・デコード部
271・・・補間部
272・・・サブサンプル部
273・・・スイッチ部

Claims (2)

  1. 動画像データを構成する各ピクチャの画像データが複数の階層に分類されてデコード順番と表示順番が異なるように符号化されると共に、上記複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを受信する受信部と、
    記所定数のビデオストリームを処理する処理部を備え、
    上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化され
    上記所定数のビデオストリームは、上記最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、該階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化されており、
    上記処理部は、デコード能力に応じて、上記所定数のビデオストリームのうち、下位の階層組側から選択された所定数のビデオストリームにデコード処理をすると共に、該デコード処理で得られた各ピクチャの画像データのフレームレートを表示能力に合わせる処理をす
    受信装置。
  2. 受信部、動画像データを構成する各ピクチャの画像データが複数の階層に分類されてデコード順番と表示順番が異なるように符号化されると共に、上記複数の階層が所定数の階層組に分割されることで得られた、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを受信する受信ステップと、
    処理部が、記所定数のビデオストリームを処理する処理ステップを有し、
    上記所定数のビデオストリームのうち、少なくとも、最下位の階層組のピクチャの符号化画像データを持つビデオストリームは、各ピクチャのデコード間隔が等間隔となるように符号化され
    上記所定数のビデオストリームは、上記最下位の階層組より上位に位置する階層組のピクチャの符号化画像データのデコードタイミングが、該階層組より下位側に位置するすべての階層組のピクチャの符号化画像データのデコードタイミングの中間タイミングとなるように符号化されており、
    上記処理ステップでは、デコード能力に応じて、上記所定数のビデオストリームのうち、下位の階層組側から選択された所定数のビデオストリームにデコード処理をすると共に、該デコード処理で得られた各ピクチャの画像データのフレームレートを表示能力に合わせる処理をす
    受信方法。
JP2016103835A 2016-05-25 2016-05-25 符号化装置、符号化方法、送信装置、送信方法、受信装置および受信方法 Active JP6341228B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016103835A JP6341228B2 (ja) 2016-05-25 2016-05-25 符号化装置、符号化方法、送信装置、送信方法、受信装置および受信方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016103835A JP6341228B2 (ja) 2016-05-25 2016-05-25 符号化装置、符号化方法、送信装置、送信方法、受信装置および受信方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016026595A Division JP5954508B2 (ja) 2016-02-16 2016-02-16 符号化装置、符号化方法、送信装置および受信装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018091095A Division JP6614275B2 (ja) 2018-05-10 2018-05-10 受信装置、受信方法、送信装置および送信方法

Publications (2)

Publication Number Publication Date
JP2016174397A JP2016174397A (ja) 2016-09-29
JP6341228B2 true JP6341228B2 (ja) 2018-06-13

Family

ID=57009326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016103835A Active JP6341228B2 (ja) 2016-05-25 2016-05-25 符号化装置、符号化方法、送信装置、送信方法、受信装置および受信方法

Country Status (1)

Country Link
JP (1) JP6341228B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007024232A1 (en) * 2005-08-26 2007-03-01 Thomson Licensing Trick play using temporal layering
CN102150432A (zh) * 2008-09-17 2011-08-10 夏普株式会社 可分级视频流解码装置以及可分级视频流生成装置
JP5928118B2 (ja) * 2012-04-16 2016-06-01 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Also Published As

Publication number Publication date
JP2016174397A (ja) 2016-09-29

Similar Documents

Publication Publication Date Title
JP7192910B2 (ja) 送信方法および送信装置
JP5789004B2 (ja) 送信装置、送信方法、受信装置、受信方法、符号化装置および符号化方法
JP5947269B2 (ja) 符号化装置、符号化方法、送信装置および受信装置
WO2015064287A1 (ja) 送信装置、送信方法、受信装置および受信方法
JP7338745B2 (ja) 受信装置
JP6614275B2 (ja) 受信装置、受信方法、送信装置および送信方法
JP6508270B2 (ja) 送信装置、送信方法、受信装置および受信方法
JP6341228B2 (ja) 符号化装置、符号化方法、送信装置、送信方法、受信装置および受信方法
JP5954508B2 (ja) 符号化装置、符号化方法、送信装置および受信装置
JP5954509B2 (ja) 符号化装置、符号化方法、送信装置および受信装置
JP7230981B2 (ja) 受信装置および受信方法
JP2019062566A (ja) 送信装置、送信方法、受信装置および受信方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180430

R151 Written notification of patent or utility model registration

Ref document number: 6341228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151