JP2022090106A

JP2022090106A - 復号装置

Info

Publication number: JP2022090106A
Application number: JP2022071720A
Authority: JP
Inventors: 芳美守屋; Yoshimi Moriya; 彰峯澤; Akira Minesawa; 一之宮澤; Kazuyuki Miyazawa; 亮史服部; Akifumi Hattori; 俊一関口; Shunichi Sekiguchi; 幸成松田; Yukinari Matsuda; 大樹工藤; Daiki Kudo
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-08-22
Filing date: 2022-04-25
Publication date: 2022-06-16
Anticipated expiration: 2034-05-30
Also published as: JP7306527B2

Abstract

【課題】復号装置において各アクセスユニットの復号タイミングに基づいて時間階層符号化されたビットストリームを再構成し復号することができる復号装置を得る。【解決手段】１つのプログラムを構成する１以上のコンポーネントに関し、コンポーネント毎に異なる伝送形式によりデータの伝送が可能なＭＭＴにおける映像信号の符号化データを復号する復号装置であって、符号化データのＭＭＴＰペイロードに含まれる記述子から、１以上のＧＯＰにおける、提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報と、当該アクセスユニットとは異なり符号化順で先頭のアクセスユニットの復号時刻と提示時刻との時間差情報と、アクセスユニットの単位で符号化する提示時刻情報及び表示時刻情報を表す単位と、を得る制御情報復号手段と、各アクセスユニットの提示時刻および復号時刻を算出し、符号化データに含まれる映像信号を復号する復号手段とを備える。【選択図】図１

Description

この発明は、映像信号や音声信号が符号化されたビットストリームに多重化されている
符号化データを復号する復号装置に関するものである。

日本のディジタル放送では、以下の非特許文献１に記載されているように、映像信号や音声信号の符号化データである映像ストリームと音声ストリームは、ＭＰＥＧ－２（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＰｈａｓｅ－２）のシステム規格であるトランスポートストリーム（ＴＳ）形式で多重化されて伝送される。このとき、符号化装置は、映像ストリーム及び音声ストリームに関連するメタデータの符号化データについても、映像ストリーム及び音声ストリームと一緒に多重化して伝送する。

ＭＰＥＧ－２でのトランスポートストリーム（ＴＳ）の他に、ＭＰＥＧで標準化が進められている新しいトランスポート方式として、ＭＭＴ（ＭＰＥＧＭｅｄｉａＴｒａｎｓｐｏｒｔ）があり、ＭＭＴは、１つのプログラムを構成する１以上の映像コンポーネント（映像ストリーム）と音声コンポーネント（音声ストリーム）を伝送する際、コンポーネント毎に、異なる伝送形態（例えば、放送、通信など）での伝送を可能にしている。

ここで、ＨＥＶＣ／Ｈ．２６５（以下、「ＨＥＶＣ」と称する）は、ＭＰＥＧ及びＩＴＵ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ）で標準化された新しい映像符号化方式である。
ＨＥＶＣでは、時間階層符号化（時間方向にスケーラブルな符号化）が導入されており、アクセスユニット（１ピクチャを復号するために必要な符号化データを含む単位）を構成する符号化単位のＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニット毎に階層レベルを指定することができる。

図９はＨＥＶＣでの時間階層符号化例を示す説明図である。
図９において、ＴｅｍｐｏｒａｌＩＤは各アクセスユニット（ＡＵ）の階層レベルを示す識別情報である。
ＩＲＡＰは、ＨＥＶＣで規定されているＩＲＡＰ（Ｉｎｔｒａｒａｎｄｏｍａｃｃｅｓｓｐｏｉｎｔ）ピクチャのことであり、ビットストリームの途中から復号を開始するときに、表示順でＩＲＡＰピクチャ以降のピクチャについては正常に復号されることが保証される。
ＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅｓ）は、１以上のアクセスユニット（ＡＵ）の映像信号がフレーム間予測符号化方式で符号化された場合に、前記１以上のアクセスユニットの映像信号の全てを復号することが可能な複数のアクセスユニット（ＡＵ）の集合である。即ち、符号化順で先頭のアクセスユニット（ＡＵ）であるＩＲＡＰピクチャと、そのＩＲＡＰピクチャに続くアクセスユニット（ＡＵ）（ＩＲＡＰピクチャ以外のピクチャ）との集合である。

時間階層符号化の内容は公知であるため詳細な説明を省略するが、時間階層符号化の制約として、符号化対象のアクセスユニット（ＡＵ）が有する階層レベルより大きい階層レベルを有するアクセスユニット（ＡＵ）は参照することができないというものがある。
このような制約を設けることで、例えば図１１の例で階層レベル２以下（ＴｅｍｐｏｒａｌＩＤ≦２）のアクセスユニット（ＡＵ）は、復号時に階層レベル３（ＴｅｍｏｒａｌＩＤ＝３）のアクセスユニット（ＡＵ）を参照しないため、階層レベル３のアクセスユニット（ＡＵ）を復号することなく階層レベル２以下（ＴｅｍｐｏｒａｌＩＤ≦２）のアクセスユニット（ＡＵ）を復号することが可能である。
なお、ＨＥＶＣでは、最大階層が６までの参照構造による時間階層符号化が可能である。

図１０は図９のピクチャ構造で符号化される各ピクチャの符号化順及び表示順を示す説明図である。
図１０に示すように、階層レベル３のアクセスユニットと階層レベル２以下のアクセスユニットが表示順で交互になるように符号化されていれば、階層レベル０から階層レベル３のすべてのアクセスユニットを復号した場合の表示フレームレートが２Ｎ（Ｈｚ）であったときに、階層レベル２以下のアクセスユニットのみを復号した場合には表示フレームレートＮ（Ｈｚ）で再生することができる。従って、表示フレームレートがＮ（Ｈｚ）以下に対応している復号装置で再生する場合には階層レベル２以下のアクセスユニットのみを復号装置に渡せばよい。

例えばＭＭＴでは、図１０のように構成された映像のビットストリームを多重化して配信するときに、階層レベル２以下のアクセスユニットのみで構成されるアクセスユニットの集合と階層レベル３のアクセスユニットのみで構成されるアクセスユニットの集合に対し、それぞれ異なる値の識別子を付与して配信することができる。なおＭＭＴでは、同一の識別子を付与したアクセスユニットの集合をアセットと呼ぶ。階層レベル２以下のアクセスユニットで構成されるアセットの識別子をＡ_０、階層レベル３のアクセスユニットで構成されるアセットの識別子をＡ_１として、アセットごとに異なる伝送形態で伝送することも可能であり、例えばアセットＡ_０を放送で伝送し、アセットＡ_１を通信で伝送することも可能である。
ＭＭＴでは、アセット間で提示時刻の同期をとるために、ＧＯＰ単位に表示順で先頭のアクセスユニットの提示時刻をＮＴＰ（ＮｅｔｗｏｒｋＴｉｍｅＰｒｏｔｏｃｏｌ）形式で記述する記述子を用意しており、ＧＯＰ単位に本記述子を多重化して伝送することができる。またアセットが異なる場合にはアセットごとに先頭のアクセスユニットの提示時刻を伝送することができ、異なる伝送形態で伝送された複数のアセットを受信側で受け取った場合も提示時刻で同期をとって再生(提示)することができる。

ＳＴＤ－Ｂ３２（ＡＲＩＢ（一般社団法人電波産業会）で策定されたディジタル放送に関する標準規格）

従来の符号化装置は以上のように構成されているので、図９のように時間階層符号化された映像のビットストリームを各アクセスユニットの階層レベルに応じて異なるアセットを構成し、アセットごとに異なる伝送形態を用いて伝送した場合には、復号装置において各アクセスユニットの復号タイミングに基づき、図１０に示すような符号化順と同じ順番のビットストリームを再構成する必要があるが、ＭＭＴでは各アクセスユニットの復号時刻を伝送することができないため、ビットストリームを再構成できないという課題があった。

この発明は上記のような課題を解決するためになされたもので、時間階層符号化された映像のビットストリームを各アクセスユニットの階層レベルに応じて異なるアセットを構成し伝送する場合でも、復号装置において各アクセスユニットの復号タイミングに基づいて時間階層符号化されたビットストリームを再構成し復号することができる復号装置を得ることを目的とする。

この発明に係る復号装置は、１つのプログラムを構成する１以上のコンポーネントに関し、コンポーネント毎に異なる伝送形式によりデータの伝送が可能なＭＭＴにおける映像信号の符号化データを復号する復号装置であって、符号化データのＭＭＴＰペイロードに含まれる記述子から、フレーム間予測符号化方式で符号化された複数のアクセスユニットの集合である１以上のＧＯＰにおける、提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報と、当該アクセスユニットとは異なり符号化順で先頭のアクセスユニットの復号時刻と提示時刻との時間差情報と、アクセスユニットの単位で符号化する提示時刻情報及び表示時刻情報を表す単位と、を得る制御情報復号手段と、制御情報復号手段が取得した、提示時刻情報、時間差情報、および単位を用いて、各アクセスユニットの提示時刻および復号時刻を算出し、符号化データに含まれる映像信号を復号する復号手段とを備えたものである。

この発明によれば、時間階層符号化された映像のビットストリームを各アクセスユニットの階層レベルに応じて異なるアセットを構成し伝送する場合でも、復号装置において各アクセスユニットの復号タイミングに基づいて時間階層符号化されたビットストリームを再構成し復号することができる効果がある。

この発明の実施の形態１による符号化装置を示す構成図である。この発明の実施の形態１による符号化装置の処理内容（符号化方法）を示すフローチャートである。この発明の実施の形態１による復号装置を示す構成図である。この発明の実施の形態１による復号装置の処理内容（復号方法）を示すフローチャートである。ＭＭＴでビットストリームを伝送する場合の符号化データの概要を示す説明図である。ＭＰＵの構成例を示す説明図である。ＨＥＶＣピクチャ構造記述子を示す説明図である。ＨＥＶＣでの時間階層符号化例を示す説明図である。ピクチャ構造の一例を示す説明図である。図９のピクチャ構造で符号化される各ピクチャの符号化順及び提示順を示す説明図である。ＰＡメッセージの構成を示す説明図である。分離前のビットストリームと分離後のビットストリームの一例を示す説明図である。

実施の形態１．
図１はこの発明の実施の形態１による符号化装置を示す構成図である。
図１において、音声符号化部１はディジタルの音声信号が与えられると、音声のアクセスユニット（ＡＵ）単位に、例えば、ＭＰＥＧ－４オーディオなどの方式によって当該音声信号を符号化して、その音声信号の符号化データである音声ストリームを生成するとともに、その音声ストリームに関するメタデータを符号化する処理を実施する。また符号化されたアクセスユニットの提示時刻（ＰＴＳ）を音声ＭＭＴＰパケット生成部８へ出力する。
音声ＭＭＴＰペイロード生成部２は音声符号化部１により符号化されたメタデータとアクセスユニット（ＡＵ）単位の音声信号の符号化データからなる音声ＭＭＴＰペイロードを生成する処理を実施する。

ＨＥＶＣ符号化部３はディジタルの映像信号が与えられると、映像のアクセスユニット（ＡＵ）単位に、ＨＥＶＣ方式によって当該映像信号を符号化して、その映像信号の符号化データである映像ストリームを生成するとともに、その映像ストリームに関するメタデータを符号化する処理を実施する。
映像ＭＭＴＰペイロード生成部４はＨＥＶＣ符号化部３により符号化されたメタデータとアクセスユニット（ＡＵ）単位の映像信号の符号化データからなる映像ＭＭＴＰペイロードを生成する処理を実施する。なお、ＨＥＶＣ符号化部３及び映像ＭＭＴＰペイロード生成部４から映像符号化手段が構成されている。

制御情報符号化部５は音声符号化部１により生成された音声ストリーム及びＨＥＶＣ符号化部３により生成された映像ストリームに関する制御情報として、ＭＭＴで規定されているＰＡメッセージと呼ばれる制御情報を符号化する処理を実施する。
図１１にＰＡメッセージの構成を示す。ＰＡメッセージは１個以上のテーブルから構成される。
ＰＡメッセージに含まれる１つのテーブルには、１つのプログラム（ＭＭＴでは、パッケージと称する）を構成する１以上の映像コンポーネント（映像ストリーム）や音声コンポーネント（音声ストリーム）に関する情報が記述されている。ＭＭＴでは、映像コンポーネント及び音声コンポーネントがアセットと呼ばれる。

具体的には、アセットを識別するアセットＩＤ、アセットの種類（ＨＥＶＣ形式の映像ストリームやＭＰＥＧ－４オーディオ形式の音声ストリームなどの種類）を識別するアセットタイプ、各アセットの符号化データやメタデータを格納しているＭＭＴＰパケットを示すパケットＩＤあるいはＩＰ配信される場合のＩＰアドレスなどアセットの取得先に関する情報、各アセットに関するメタ情報を記述するための各種記述子が、パッケージを構成するアセットの数分だけテーブルに含まれている。
記述子には、各アセットのＭＰＵ（ＭｅｄｉａＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を構成しているアクセスユニット（ＡＵ）の中で、提示順（表示順）で先頭のアクセスユニット（ＡＵ）の提示時刻（表示時刻）を示すＭＰＵタイムスタンプ記述子（提示時刻情報）などＭＭＴ規格で定義されている記述子の他に、ユーザーが独自に新たな記述子を定義することも可能であり、独自記述子としてＭＰＵ時刻情報記述子が含まれる。

なお、ＭＰＵは、１以上のアクセスユニット（ＡＵ）から構成されており、ＭＰＵ単体で映像や音声の復号処理を行うことができる単位となる。また、ＭＰＵは、１以上のアクセスユニット（ＡＵ）の映像信号がフレーム間予測符号化方式で符号化される場合には、前記１以上のアクセスユニット（ＡＵ）の映像信号の全てを復号することが可能な複数のアクセスユニット（ＡＵ）の集合であるＧＯＰと同じ単位になる。

ＭＰＵ時刻情報記述子には、復号時刻（ＤＴＳ）や提示時刻（ＰＴＳ）などの時刻情報を記述する単位を示す情報（ｔｉｍｅｓｃａｌｅ）やＭＰＵを構成しているアクセスユニット（ＡＵ）の中で、符号化順で先頭のアクセスユニット（ＡＵ）の復号時刻を算出するための情報（ｉｎｉｔｉａｌ＿ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｄｅｌａｙ)、ＭＰＵを構成している各アクセスユニットの復号時刻や提示時刻を算出するための情報が符号化されているか否かを示すフラグ（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ，ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ）、各アクセスユニットの復号時刻や提示時刻を算出するための情報を符号化するときの符号長を示す情報（ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｌｅｎｇｔｈ＿ｍｉｎｕｓ１）などが記述されている。

制御ＭＭＴＰペイロード生成部６は制御情報符号化部５により符号化された制御情報の符号化データからなる制御ＭＭＴＰペイロードを生成する処理を実施する。
なお、制御情報符号化部５の一部及び制御ＭＭＴＰペイロード生成部６から制御情報符号化手段が構成されている。また、制御情報符号化部５の他の一部は時刻情報符号化手段を構成している。

映像ＭＭＴＰパケット生成部９は、映像ＭＭＴＰペイロード生成部４により生成された映像ＭＭＴＰペイロードに所定のＭＭＴＰヘッダを付与してビットストリームを構成する映像ＭＭＴＰパケットを生成する。ＭＭＴＰヘッダは、必須で符号化する情報を含む必須ヘッダとオプショナルで符号化する情報を含む拡張ヘッダから構成される。必須ヘッダにはＭＭＴＰペイロードに含まれる符号化データの種別に応じて割り当てられるパケットＩＤなどが含まれる。
拡張ヘッダは、ＭＭＴＰペイロードに含まれる符号化データのアクセスユニット単位に提示時刻や復号時刻を算出するための情報（提示時刻情報や復号時刻情報）を符号化するか否かを示すフラグの値に応じて、提示時刻情報（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）や復号時刻情報（ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）が含まれる。

音声ＭＭＴＰパケット生成部８は、音声ＭＭＴＰペイロード生成部２により生成された音声ＭＭＴＰペイロードに所定のＭＭＴＰヘッダを付与してビットストリームを構成する音声ＭＭＴＰパケットを生成する。ＭＭＴＰヘッダは、必須で符号化する情報を含む必須ヘッダとオプショナルで符号化する情報を含む拡張ヘッダから構成される。拡張ヘッダの内容については、映像ＭＭＴＰパケット生成部にて符号化される拡張ヘッダと同じである。

制御ＭＭＴＰパケット生成部１０は、制御ＭＭＴＰペイロード生成部６により生成された制御ＭＭＴＰペイロードに所定のＭＭＴＰヘッダを付与し、ビットストリームを構成する制御ＭＭＴＰパケットを生成する。

ＭＭＴＰパケット多重化部７は、音声ＭＭＴＰパケット生成部により生成された音声ＭＭＴＰパケットと、制御ＭＭＴＰパケット生成部により生成された制御ＭＭＴＰパケットと、映像ＭＭＴＰパケット生成部により生成された映像ＭＭＴＰパケットとを多重化してビットストリームを構成する処理を実施する。
ＭＭＴＰパケット多重化部７は、アセットごとに異なるビットストリームを構成することもできる。例えば図９に示すように時間階層符号化された映像ビットストリームの階層レベル２以下のアクセスユニットを含むアセットのＭＭＴＰパケットから構成されるビットストリーム１と、階層レベル３のアクセスユニットを含むアセットのＭＭＴＰパケットから構成されるビットストリーム２として、それぞれのビットストリームを異なる伝送形態で送ることも可能である。
なお、ＭＭＴＰパケット多重化部７は多重化手段を構成している。

図１の例では、符号化装置の構成要素である音声符号化部１、音声ＭＭＴＰペイロード生成部２、ＨＥＶＣ符号化部３、映像ＭＭＴＰペイロード生成部４、制御情報符号化部５、制御ＭＭＴＰペイロード生成部６及び制御ＭＭＴＰパケット生成部１０等のそれぞれが専用のハードウェア（例えば、ＣＰＵを実装している半導体集積回路、あるいは、ワンチップマイコンなど）で構成されているものを想定しているが、符号化装置がコンピュータで構成されていてもよい。
符号化装置をコンピュータで構成する場合、音声符号化部１、音声ＭＭＴＰペイロード生成部２、ＨＥＶＣ符号化部３、映像ＭＭＴＰペイロード生成部４、制御情報符号化部５、制御ＭＭＴＰペイロード生成部６及び制御ＭＭＴＰパケット生成部１０等の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのＣＰＵが当該メモリに格納されているプログラムを実行するようにすればよい。

図２はこの発明の実施の形態１による符号化装置の処理内容（符号化方法）を示すフローチャートである。

図３はこの発明の実施の形態１による復号装置を示す構成図である。
図３において、ＭＭＴＰパケット解析部１２は、符号化装置（図１の符号化装置、あるいは、図１の符号化装置に相当する符号化装置）から出力された１以上のアセットを含む１以上のビットストリームが入力する。ＭＭＴＰパケット解析部１２は、ビットストリームを構成しているＭＭＴＰパケットのＭＭＴＰヘッダを解析して、そのＭＭＴＰヘッダに含まれているパケットＩＤを取得し、そのパケットＩＤがＭＭＴＰペイロードに含まれている符号化データが制御情報（ＰＡメッセージ）である旨を示していれば、そのＭＭＴＰパケットに含まれているＭＭＴＰペイロードである制御ＭＭＴＰペイロードを制御ＭＭＴＰペイロード処理部１３に出力する。

制御ＭＭＴＰペイロード処理部１３はＭＭＴＰパケット解析部１２から出力された制御ＭＭＴＰペイロードに含まれている符号化データの復号処理を実施して、制御情報であるＰＡメッセージを復号する。
また、制御ＭＭＴＰペイロード処理部１３はＰＡメッセージに記述されているテーブルからパッケージを構成するアセットに関する情報、各アセットの符号化データやメタデータを格納しているＭＭＴＰパケットを示すパケットＩＤあるいはＩＰ配信される場合のＩＰアドレスなどアセットの取得先に関する情報を復号する。パケットＩＤやアセットの取得先に関する情報はＭＭＴＰパケット解析部へ出力する。
また、制御ＭＭＴＰペイロード処理部１３はＰＡメッセージに記述されているテーブルからパッケージを構成するアセットに関するＭＰＵタイムスタンプ記述子とＭＰＵ時刻情報記述子を復号する。

ＭＭＴＰパケット解析部１２は、ＭＭＴＰヘッダに含まれているパケットＩＤを取得し、取得したパケットＩＤと制御ＭＭＴＰペイロード処理部１３より出力された各アセットのパケットＩＤとを照合し、そのパケットＩＤがＭＭＴＰペイロードに含まれている符号化データが音声信号または映像信号である旨を示していれば、そのＭＭＴＰパケットをアセット分離部１４に出力する処理を実施する。

また、ＭＭＴＰパケット解析部１２は、制御ＭＭＴＰペイロード処理部１３により復号されたＭＰＵ時刻情報記述子に記述されているＭＰＵを構成している各アクセスユニットの復号時刻や提示時刻を算出するための情報が符号化されているか否かを示すフラグ（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ，ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ）の値に応じて、ＭＭＴＰ拡張ヘッダより提示時刻情報（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）や復号時刻情報（ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）を復号し、ＭＰＵタイムスタンプ記述子に記述されている提示順で先頭のアクセスユニット（ＡＵ）の提示時刻とＭＰＵ時刻情報記述子に記述されている符号化順で先頭のアクセスユニット（ＡＵ）の復号時刻を算出するための情報（ｉｎｉｔｉａｌ＿ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｄｅｌａｙ)を復号して得られる符号化順で先頭のアクセスユニット（ＡＵ）の復号時刻とから各アクセスユニット（ＡＵ）の提示時刻および復号時刻を算出する処理を実施する。算出された提示時刻および復号時刻は、アクセスユニットに含まれる符号化データの種別に応じて、音声ＭＭＴＰペイロード処理部１５および映像ＭＭＴＰペイロード処理部１９へ出力される。

アセット分離部１４は制御ＭＭＴＰペイロード処理部１３により復号されたＰＡメッセージのテーブルに記述されているアセットＩＤ、アセットタイプ及びパケットＩＤを参照して、ＭＭＴＰパケット解析部１２から出力されたＭＭＴＰパケットに含まれているＭＭＴＰペイロードが音声ＭＭＴＰペイロードであるのか、映像ＭＭＴＰペイロードであるのかを特定し、音声ＭＭＴＰペイロードであれば、そのＭＭＴＰパケットに含まれている音声ＭＭＴＰペイロードを抽出して、その音声ＭＭＴＰペイロードを音声ＭＭＴＰペイロード処理部１５に出力し、映像ＭＭＴＰペイロードであれば、そのＭＭＴＰパケットに含まれている映像ＭＭＴＰペイロードを抽出して、その映像ＭＭＴＰペイロードを映像ＭＭＴＰペイロード処理部１９に出力する処理を実施する。

音声ＭＭＴＰペイロード処理部１５はアセット分離部１４から出力された音声ＭＭＴＰペイロードから音声ストリームのＭＦＵ（ＭｅｄｉａＦｒａｇｍｅｎｔＵｎｉｔ）又はＭＰＵを再構成することで、後段の音声ストリーム復号部１７で復号可能な形式の音声エレメンタリーストリーム（音声ＥＳ）を生成し、その音声ＥＳを音声ＥＳバッファ１６に格納する処理を実施する。ＭＦＵは、ＭＰＵよりも小さな単位であり、１アクセスユニット（ＡＵ）または１ＮＡＬユニットを１ＭＦＵと定義することができる。
また、音声ＭＭＴＰペイロード処理部１５はアセット分離部１４から出力された音声ＭＭＴＰペイロードに含まれている音声ストリームに関するメタデータを抽出し、そのメタデータを音声ＥＳバッファ１６に格納する処理を実施する。音声ＥＳバッファ１６は音声ＥＳ及びメタデータを一時的に格納するメモリである。

音声ストリーム復号部１７は、各アクセスユニット（ＡＵ）のＤＴＳ（復号時刻）になると、音声ＥＳバッファ１６から音声ＥＳを取り出して、当該アクセスユニット（ＡＵ）の音声信号を復号し、その復号した音声信号とＰＴＳ（提示時刻）を音声データバッファ１８に格納する処理を実施する。
音声データバッファ１８は音声ストリーム復号部１７により復号された音声信号とＰＴＳ（提示時刻）を一時的に格納するメモリである。

映像ＭＭＴＰペイロード処理部１９はアセット分離部１４から出力された映像ＭＭＴＰペイロードから映像ストリームのＭＦＵ又はＭＰＵを再構成することで、後段のＨＥＶＣＥＳ復号部２１で復号可能な形式のＨＥＶＣエレメンタリーストリーム（ＨＥＶＣＥＳ）を生成し、そのＨＥＶＣエレメンタリーストリームをＨＥＶＣＥＳバッファ２０に格納する処理を実施する。
また、映像ＭＭＴＰペイロード処理部１９はアセット分離部１４から出力された映像ＭＭＴＰペイロードに含まれている映像ストリームに関するメタデータを抽出し、そのメタデータをＨＥＶＣＥＳバッファ２０に格納する処理を実施する。
ＨＥＶＣＥＳバッファ２０はＨＥＶＣエレメンタリーストリーム及びメタデータを一時的に格納するメモリである。

ＨＥＶＣＥＳ復号部２１は各アクセスユニット（ＡＵ）のＤＴＳ（復号時刻）になると、ＨＥＶＣＥＳバッファ２０からＨＥＶＣエレメンタリーストリームを取り出して、当該アクセスユニット（ＡＵ）の映像信号を復号し、その復号した映像信号である復号画像とＰＴＳ（提示時刻）を復号画像バッファ２２に格納する処理を実施する。
復号画像バッファ２２はＨＥＶＣＥＳ復号部２１により復号された各アクセスユニット（ＡＵ）の復号画像とＰＴＳ（提示時刻）を一時的に格納するメモリである。
なお、映像ＭＭＴＰペイロード処理部１９、ＨＥＶＣＥＳバッファ２０、ＨＥＶＣＥＳ復号部２１及び復号画像バッファ２２から映像復号手段が構成されている。

図３の例では、復号装置の構成要素であるＭＭＴＰパケット解析部１２、制御ＭＭＴＰペイロード処理部１３、アセット分離部１４、音声ＭＭＴＰペイロード処理部１５、音声ＥＳバッファ１６、音声ストリーム復号部１７、音声データバッファ１８、映像ＭＭＴＰペイロード処理部１９、ＨＥＶＣＥＳバッファ２０、ＨＥＶＣＥＳ復号部２１及び復号画像バッファ２２のそれぞれが専用のハードウェア（バッファ以外は、例えば、ＣＰＵを実装している半導体集積回路、あるいは、ワンチップマイコンなど）で構成されているものを想定しているが、復号装置がコンピュータで構成されていてもよい。
復号装置をコンピュータで構成する場合、音声ＥＳバッファ１６、音声データバッファ１８、ＨＥＶＣＥＳバッファ２０及び復号画像バッファ２２をコンピュータの内部メモリ又は外部メモリ上に構成するとともに、ＭＭＴＰパケット解析部１２、制御ＭＭＴＰペイロード処理部１３、アセット分離部１４、音声ＭＭＴＰペイロード処理部１５、音声ストリーム復号部１７、映像ＭＭＴＰペイロード処理部１９及びＨＥＶＣＥＳ復号部２１の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのＣＰＵが当該メモリに格納されているプログラムを実行するようにすればよい。

図４はこの発明の実施の形態１による復号装置の処理内容（復号方法）を示すフローチャートである。

次に動作について説明する。
最初の符号化装置の処理内容を説明する。
音声符号化部１は、ディジタルの音声信号が与えられると、音声のアクセスユニット（ＡＵ）単位に、例えば、ＭＰＥＧ－４オーディオなどの方式によって当該音声信号を符号化して、その音声信号の符号化データである音声ストリームを生成するとともに、その音声ストリームに関するメタデータを符号化する（図２のステップＳＴ１）。
ＨＥＶＣ符号化部３は、ディジタルの映像信号が与えられると、映像のアクセスユニット（ＡＵ）単位に、ＨＥＶＣ方式によって当該映像信号を符号化して、その映像信号の符号化データである映像ストリームを生成するとともに、その映像ストリームに関するメタデータを符号化する（ステップＳＴ２）。

ここで、図５はＭＭＴでビットストリームを伝送する場合の符号化データの概要を示す説明図である。
図５において、アクセスユニット（ＡＵ）は、映像であれば、１ピクチャを復号するために必要な符号化データを含む単位であり、音声であれば、符号化単位となる１以上のサンプルから構成されるフレームである。
ＮＡＬユニットはＨＥＶＣの符号化単位であり、１アクセスユニット（ＡＵ）は、１以上のＮＡＬユニットから構成される。
ＭＰＵは、１以上のアクセスユニットから構成され、ＭＰＵ単体で映像や音声の復号処理を行うことができる単位となる。また、ＭＰＵは、１以上のアクセスユニット（ＡＵ）の映像信号がフレーム間予測符号化方式で符号化される場合には、前記１以上のアクセスユニット（ＡＵ）の映像信号の全てを復号することが可能な複数のアクセスユニット（ＡＵ）の集合であるＧＯＰと同じ単位になる。
ＭＦＵは、ＭＰＵよりも小さな単位であり、１アクセスユニット（ＡＵ）又は１ＮＡＬユニットを１ＭＦＵと定義することができる。

図６はＭＰＵの構成例を示す説明図である。
図６において、ＭＰＵメタデータは、ＭＰＵに関連するメタデータが記述されるものである。なおＭＰＵメタデータは符号化しなくてもよい。
ムービーフラグメントメタデータ（ＭＦメタ）は、１アクセスユニット（ＡＵ）の符号化データ（サンプルデータ）に付随するメタデータが記述されるものである。例えば、アクセスユニット（ＡＵ）の符号化データがファイル形式で格納される場合、アクセスユニット（ＡＵ）毎に、符号化データが格納されているアドレスや符号化データのデータ長、当該アクセスユニット（ＡＵ）の時間長に関する情報が含まれる。なおムービーフラグメントメタデータは符号化しなくてもよい。
ＭＰＵメタデータ、ムービーフラグメントメタデータ、ＭＦＵ及びＭＭＴの制御情報は、ＭＭＴＰパケット化されて伝送される。ＭＭＴＰパケットはＭＭＴＰヘッダとＭＭＴＰペイロードから構成される。

音声ＭＭＴＰペイロード生成部２は、音声符号化部１からメタデータ（ＭＰＵメタデータ、ＭＦメタなど）の符号化データと、アクセスユニット（ＡＵ）単位の音声信号の符号化データとを受けると、ＭＰＵ単位のＭＰＵメタデータの符号化データと、アクセスユニット（ＡＵ）単位のＭＦメタの符号化データ及び音声信号の符号化データ（サンプルデータ）からなる音声ＭＭＴＰペイロードを生成する（ステップＳＴ３）。
映像ＭＭＴＰペイロード生成部４は、ＨＥＶＣ符号化部３からメタデータ（ＭＰＵメタデータ、ＭＦメタなど）の符号化データと、アクセスユニット（ＡＵ）単位の映像信号の符号化データとを受けると、ＭＰＵ単位のＭＰＵメタデータの符号化データと、アクセスユニット（ＡＵ）単位のＭＦメタの符号化データ及び映像信号の符号化データ（サンプルデータ）からなる映像ＭＭＴＰペイロードを生成する（ステップＳＴ４）。

制御情報符号化部５は、音声符号化部１により生成された音声ストリーム及びＨＥＶＣ符号化部３により生成された映像ストリームに関する制御情報を符号化する（ステップＳＴ５）。
音声ストリーム及び映像ストリームに関する制御情報として、例えば、ＭＭＴで規定されているＰＡメッセージやＭＰＵ時刻情報記述子などを符号化する。
ＰＡメッセージには、上述したように、１つのプログラム（ＭＭＴでは、パッケージと称する）を構成する１以上の映像コンポーネント（映像ストリーム）や音声コンポーネント（音声ストリーム）に関する情報が記述されている。
即ち、ＰＡメッセージには、音声符号化部１及びＨＥＶＣ符号化部３により生成されたアセット（映像ストリーム、音声ストリーム）を識別するアセットＩＤ、アセットの種類を識別するアセットタイプ、各アセットのＭＰＵを構成しているアクセスユニット（ＡＵ）の中で、提示順で先頭のアクセスユニット（ＡＵ）の提示時刻を示すＭＰＵタイムスタンプ記述子、各アセットの符号化データやメタデータを格納しているＭＭＴＰパケットを示すパケットＩＤなどが記述されている。

図７はＭＰＵ時刻情報記述子を示す説明図である。
ＭＰＵ時刻情報記述子には、図７に示すように、どのＭＰＵに関連する情報を含むかを識別するためのシーケンス番号（ｍｐｕ＿ｓｅｑｕｅｎｃｅ＿ｎｕｍｂｅｒ）と、符号化順でＭＰＵ先頭のアクセスユニットの復号時刻と提示順でＭＰＵ先頭のアクセスユニットの提示時刻の時間差（ｉｎｉｔｉａｌ＿ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｄｅｌａｙ）と、アクセスユニットの単位で符号化する提示時刻情報及び表示時刻情報を表す単位（ｔｉｍｅｓｃａｌｅ）（１／ｔｉｍｅｓｌｃａｌｅ秒）、アクセスユニットの単位で提示時刻情報を符号化するか否かを示すフラグ（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ）、アクセスユニットの単位で復号時刻情報を符号化するか否かを示すフラグ（ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ）、アクセスユニットの単位で符号化する提示時刻情報及び表示時刻情報の符号長（ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｌｅｎｇｔｈ＿ｍｉｎｕｓ１）などが記述されている。なお、ｔｉｍｅｓｃａｌｅ、ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ、ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ、ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｌｅｎｇｔｈ＿ｍｉｎｕｓ１は常に固定値を用いるようにすれば、符号化しなくてもよい。

制御ＭＭＴＰペイロード生成部６は、制御情報符号化部５から制御情報の符号化データを受けると、その制御情報の符号化データからなる制御ＭＭＴＰペイロードを生成する（ステップＳＴ６）。
映像ＭＭＴＰパケット生成部は、映像ＭＭＴＰペイロード生成部により生成された映像ＭＭＴＰペイロードに所定のＭＭＴＰヘッダを付与してビットストリームを構成する映像ＭＭＴＰパケットを生成する。ＭＭＴＰヘッダは、必須で符号化する情報を含む必須ヘッダとオプショナルで符号化する情報を含む拡張ヘッダから構成される。必須ヘッダにはＭＭＴＰペイロードに含まれる符号化データの種別に応じて割り当てられるパケットＩＤなどが含まれる。

拡張ヘッダは、ＭＭＴＰペイロードに含まれる符号化データのアクセスユニット単位に提示時刻や復号時刻を算出するための情報（提示時刻情報や復号時刻情報）を符号化するか否かを示すフラグの値に応じて、提示時刻情報（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）や復号時刻情報（ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）が含まれる。
提示時刻情報（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）は、ＭＭＴＰペイロードに含まれる符号化データのアクセスユニットの提示時刻と提示順でＭＰＵ先頭アクセスユニットの提示時刻の差である。
復号時刻情報（ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）は、ＭＭＴＰペイロードに含まれる符号化データのアクセスユニットの復号時刻と符号化順でＭＰＵ先頭アクセスユニットの復号時刻の差である。
なお提示時刻情報（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）は、復号時刻情報（ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）を復号して算出されるアクセスユニットの復号時刻からの差を符号化するようにしてもよい。

音声ＭＭＴＰパケット生成部８は、音声ＭＭＴＰペイロード生成部２により生成された音声ＭＭＴＰペイロードに所定のＭＭＴＰヘッダを付与してビットストリームを構成する音声ＭＭＴＰパケットを生成する。ＭＭＴＰヘッダは、必須で符号化する情報を含む必須ヘッダとオプショナルで符号化する情報を含む拡張ヘッダから構成される。

制御ＭＭＴＰパケット生成部１０は、制御ＭＭＴＰペイロード生成部６により生成された制御ＭＭＴＰペイロードに所定のＭＭＴＰヘッダを付与し、ビットストリームを構成する制御ＭＭＴＰパケットを生成する。
このＭＭＴＰパケットを生成する際、所定のＭＭＴＰヘッダを付与するが、このＭＭＴＰヘッダには、ＭＭＴＰペイロードに含まれている符号化データの種別に応じて割り当てられるパケットＩＤが含まれる。

ＭＭＴＰパケット多重化部７は、音声ＭＭＴＰパケット生成部８により生成された音声ＭＭＴＰパケットと、制御ＭＭＴＰパケット生成部１０により生成された制御ＭＭＴＰパケットと、映像ＭＭＴＰパケット生成部９により生成された映像ＭＭＴＰパケットとを多重化してビットストリームを構成する。（ステップＳＴ７）

次に復号装置の処理内容を説明する。
ＭＭＴＰパケット解析部１２は、符号化装置（図１の符号化装置、あるいは、図１の符号化装置に相当する符号化装置）から出力された１以上のアセットを含む１以上のビットストリームを入力して、そのビットストリームを構成しているＭＭＴＰパケットのＭＭＴＰヘッダを解析して、そのＭＭＴＰヘッダに含まれているパケットＩＤを取得する。
ＭＭＴＰパケット解析部１２は、そのパケットＩＤがＭＭＴＰペイロードに含まれている符号化データが制御情報（ＰＡメッセージ、ＨＥＶＣピクチャ構造記述子）である旨を示していれば、そのＭＭＴＰパケットに含まれているＭＭＴＰペイロードである制御ＭＭＴＰペイロードを制御ＭＭＴＰペイロード処理部１３に出力する。

一方、そのパケットＩＤがＭＭＴＰペイロードに含まれている符号化データが音声信号又は映像信号である旨を示していれば、そのＭＭＴＰパケットをアセット分離部１４に出力する。
また、ＭＭＴＰパケット解析部１２は、制御ＭＭＴＰペイロード処理部１３により復号されたＭＰＵ時刻情報記述子に記述されているＭＰＵを構成している各アクセスユニットの復号時刻や提示時刻を算出するための情報が符号化されているか否かを示すフラグ（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ，ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ）の値に応じて、ＭＭＴＰ拡張ヘッダより提示時刻情報（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）や復号時刻情報（ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）を復号し、ＭＰＵタイムスタンプ記述子に記述されている提示順で先頭のアクセスユニット（ＡＵ）の提示時刻とＭＰＵ時刻情報記述子に記述されている符号化順で先頭のアクセスユニット（ＡＵ）の復号時刻とから各アクセスユニット（ＡＵ）の提示時刻および復号時刻を算出する処理を実施する。算出された提示時刻および復号時刻は、アクセスユニットに含まれる符号化データの種別に応じて、音声ＭＭＴＰペイロード処理部１５および映像ＭＭＴＰペイロード処理部１９へ出力される。

アセット分離部１４は、制御ＭＭＴＰペイロード処理部１３がＰＡメッセージを復号すると、そのＰＡメッセージのテーブルに記述されているアセットＩＤ、アセットタイプ及びパケットＩＤを参照して、ＭＭＴＰパケット解析部１２から出力されたＭＭＴＰパケットに含まれているＭＭＴＰペイロードが音声ＭＭＴＰペイロードであるのか、映像ＭＭＴＰペイロードであるのかを特定する。

アセット分離部１４は、ＭＭＴＰパケット解析部１２から出力されたＭＭＴＰパケットに含まれているＭＭＴＰペイロードが音声ＭＭＴＰペイロードであれば、そのＭＭＴＰパケットに含まれている音声ＭＭＴＰペイロードを抽出して、その音声ＭＭＴＰペイロードを音声ＭＭＴＰペイロード処理部１５に出力する。
アセット分離部１４は、ＭＭＴＰパケット解析部１２から出力されたＭＭＴＰパケットに含まれているＭＭＴＰペイロードが映像ＭＭＴＰペイロードであれば、そのＭＭＴＰパケットに含まれている映像ＭＭＴＰペイロードを抽出して、その映像ＭＭＴＰペイロードを映像ＭＭＴＰペイロード処理部１９に出力する。

音声ＭＭＴＰペイロード処理部１５は、アセット分離部１４から音声ＭＭＴＰペイロードを受けると、その音声ＭＭＴＰペイロードから音声ストリームのＭＦＵ又はＭＰＵを再構成することで、後段の音声ストリーム復号部１７で復号可能な形式の音声エレメンタリーストリーム（音声ＥＳ）を生成し、その音声ＥＳを音声ＥＳバッファ１６に格納する。
音声ＭＭＴＰペイロードから音声ＥＳを生成する処理自体は公知の技術であるため詳細な説明を省略する。
また、音声ＭＭＴＰペイロード処理部１５は、アセット分離部１４から出力された音声ＭＭＴＰペイロードに含まれている音声ストリームに関するメタデータを抽出し、そのメタデータを音声ＥＳバッファ１６に格納する。

音声ストリーム復号部１７は、ＭＭＴＰパケット解析部にて復号したＤＴＳを参照して、各アクセスユニット（ＡＵ）の復号時刻を把握し、各アクセスユニット（ＡＵ）の復号時刻になると、音声ＥＳバッファ１６から音声ＥＳを取り出して、当該アクセスユニット（ＡＵ）の音声信号を復号し、その復号した音声信号とＭＭＴＰパケット解析部にて復号したＰＴＳ（提示時刻）を音声データバッファ１８に格納する。
これにより、外部の再生装置（図示せず）は、音声データバッファ１８に格納されている音声信号とＰＴＳ（提示時刻）を取り出せば、その提示時刻に音声信号を再生することができる。

映像ＭＭＴＰペイロード処理部１９は、アセット分離部１４から映像ＭＭＴＰペイロードを受けると、その映像ＭＭＴＰペイロードから映像ストリームのＭＦＵ又はＭＰＵを再構成することで、後段のＨＥＶＣＥＳ復号部２１で復号可能な形式のＨＥＶＣエレメンタリーストリーム（ＨＥＶＣＥＳ）を生成し、そのＨＥＶＣエレメンタリーストリームをＨＥＶＣＥＳバッファ２０に格納する。
映像ＭＭＴＰペイロードからＨＥＶＣエレメンタリーストリームを生成する処理自体は公知の技術であるため詳細な説明を省略する。
また、映像ＭＭＴＰペイロード処理部１９は、アセット分離部１４から出力された映像ＭＭＴＰペイロードに含まれている映像ストリームに関するメタデータを抽出し、そのメタデータをＨＥＶＣＥＳバッファ２０に格納する。

ＨＥＶＣＥＳ復号部２１は、ＭＭＴＰパケット解析部にて復号したＤＴＳを参照して、各アクセスユニット（ＡＵ）の復号時刻を把握し、各アクセスユニット（ＡＵ）の復号時刻になると、ＨＥＶＣＥＳバッファ２０からＨＥＶＣエレメンタリーストリームを取り出して、当該アクセスユニット（ＡＵ）の映像信号を復号し、その復号した映像信号である復号画像とＭＭＴＰパケット解析部にて復号したＰＴＳ（提示時刻）を復号画像バッファ２２に格納する。
これにより、外部の再生装置（図示せず）は、復号画像バッファ２２に格納されている復号画像とＰＴＳ（提示時刻）を取り出せば、その提示時刻に復号画像を再生することができる。
ＴｅｍｐｏｒａｌＩＤが０からＭのアクセスユニットから構成される時間階層符号化された映像ビットストリームを、ＴｅｍｐｏｒａｌＩＤが０から（Ｍ－１）のアクセスユニットから構成されるビットストリームとＴｅｍｐｏｒａｌＩＤがＭのアクセスユニットから構成されるビットストリームに分離して、それぞれのビットストリームが異なる伝送路を用いて伝送されるときの処理について説明する。
図１２に分離前のビットストリームと分離後のビットストリームの一例を示す。

ＭＭＴＰパケット解析部１２は、入力されたビットストリームを構成しているＭＭＴＰパケットに含まれている制御ＭＭＴＰペイロードを制御ＭＭＴＰペイロード処理部１３に出力し、そのビットストリームを構成しているＭＭＴＰパケットに含まれている音声ＭＭＴＰペイロード又は映像ＭＭＴＰペイロードをアセット分離部１４に出力する。

制御ＭＭＴＰペイロード処理部１３は、ＭＭＴＰパケット解析部１２から制御ＭＭＴＰペイロードを受けると、その制御ＭＭＴＰペイロードに含まれている符号化データの復号処理を実施して、制御情報であるＰＡメッセージを復号する（ステップＳＴ１５）。
制御ＭＭＴＰペイロード処理部１３は、ＰＡメッセージに記述されているアセットに関する情報などから、映像ビットストリームが時間階層符号化されていて、時間階層レベル（ＴｅｍｐｏｒａｌＩＤ）によって２以上のアセット（例えばアセット１、アセット２）に分離されてアセットごとに異なる伝送路から取得していること、アセット間の依存関係（アセット２はアセット１と依存関係にあること）などの情報を取得する。

アセット分離部１４は、ＭＭＴＰパケット解析部１２からＭＭＴＰパケットを受け取ると、ＰＡメッセージに記述された映像アセットに関する情報に基づいて、パケットＩＤを参照して、そのＭＭＴＰパケットに含まれている映像ＭＭＴＰペイロードを映像ＭＭＴＰペイロード処理部１９に出力する。例えば映像アセットがアセット１とアセット２から構成されている場合には、それぞれのアセットに関する映像ＭＭＴＰペイロードが映像ＭＭＴＰペイロード処理部へ出力される。

映像ＭＭＴＰペイロード処理部１９は、アセット分離部１４から２以上の映像アセットに係る映像ＭＭＴＰペイロードを受けるとそれぞれの映像ＭＭＴＰペイロードからＨＥＶＣエレメンタリーストリームを生成して、そのＨＥＶＣエレメンタリーストリームをＨＥＶＣＥＳバッファ２０に格納するとともに、各々の映像ＭＭＴＰペイロードに含まれているアクセスユニットの復号時刻と提示時刻をＨＥＶＣＥＳバッファ２０に格納する（ステップＳＴ１９）。

ＨＥＶＣＥＳ復号部２１は、例えばアセット１とアセット２の依存関係に基づき、アセット１のアクセスユニットのＤＴＳとアセット２のアクセスユニットのＤＴＳを比較することによって、分離前のＨＥＶＣエレメンタリーストリームの符号化順を特定することができ、異なるビットストリームに分離して入力されたＨＥＶＣエレメンタリーストリームを正しい復号時刻でＨＥＶＣＥＳバッファ２０から取り出して、当該アクセスユニット（ＡＵ）の映像信号を復号することができる。

以上で明らかなように、この実施の形態１によれば、１以上のアクセスユニット（ＡＵ）の映像信号が時間階層符号化された場合に、各アクセスユニットの階層レベルに応じて異なるアセットを構成する場合に、各アセットを構成するＭＰＵの単位にＭＰＵ時刻情報記述子を符号化し、ＭＰＵ時刻情報記述子に含まれるＭＭＴＰペイロードに含まれる符号化データのアクセスユニット単位に提示時刻や復号時刻を算出するための情報（提示時刻情報や復号時刻情報）を符号化するか否かを示すフラグの値に応じて、ＭＰＵを構成するアクセスユニットの単位に、提示時刻情報（ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）や復号時刻情報（ｄｅｃｏｄｉｎｇ＿ｔｉｍｅ＿ｏｆｆｓｅｔ）を符号化するように構成したので、時間階層符号化された映像のビットストリームを各アクセスユニットの階層レベルに応じて異なるアセットを構成し伝送する場合でも、復号装置において各アクセスユニットの復号タイミングに基づいて時間階層符号化されたビットストリームを再構成し復号することができる符号化装置、復号装置が得られる効果がある。

なお、本願発明はその発明の範囲内において、実施の形態の自由な組み合わせ、あるいは実施の形態の任意の構成要素の変形、もしくは実施の形態において任意の構成要素の省略が可能である。

１音声符号化部、２音声ＭＭＴＰペイロード生成部、３ＨＥＶＣ符号化部（映像符号化手段）、４映像ＭＭＴＰペイロード生成部（映像符号化手段）、５制御情報符号化部（制御情報符号化手段、時刻情報符号化手段）、６制御ＭＭＴＰペイロード生成部（制御情報符号化手段）、７ＭＭＴＰパケット多重化部（多重化手段）、８音声ＭＭＴＰパケット生成部、９映像ＭＭＴＰパケット生成部、１０制御ＭＭＴＰパケット生成部、１２ＭＭＴＰパケット解析部、１３制御ＭＭＴＰペイロード処理部（提示時刻算出手段）、１４アセット分離部、１５音声ＭＭＴＰペイロード処理部、１６音声ＥＳバッファ、１７音声ストリーム復号部、１８音声データバッファ、１９映像ＭＭＴＰペイロード処理部（映像復号手段）、２０ＨＥＶＣＥＳバッファ（映像復号手段）、２１ＨＥＶＣＥＳ復号部（映像復号手段）、２２復号画像バッファ（映像復号手段）。

Claims

１つのプログラムを構成する１以上のコンポーネントに関し、前記コンポーネント毎に異なる伝送形式によりデータの伝送が可能なＭＭＴにおける映像信号の符号化データを復号する復号装置であって、
前記符号化データのＭＭＴＰペイロードに含まれる記述子から、フレーム間予測符号化方式で符号化された複数のアクセスユニットの集合である１以上のＧＯＰにおける、提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報と、当該アクセスユニットとは異なり符号化順で先頭のアクセスユニットの復号時刻と前記提示時刻との時間差情報と、アクセスユニットの単位で符号化する提示時刻情報及び表示時刻情報を表す単位と、を復号する制御情報復号手段と、
前記制御情報復号手段が取得した、前記提示時刻情報、前記時間差情報、および前記単位を用いて、各アクセスユニットの前記提示時刻および前記復号時刻を算出し、前記符号化データに含まれる前記映像信号を復号する復号手段と
を備えた復号装置。