JP6501127B2

JP6501127B2 - 情報処理装置および方法

Info

Publication number: JP6501127B2
Application number: JP2016531239A
Authority: JP
Inventors: 平林　光浩; 光浩平林; 央二中神
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-06-30
Filing date: 2015-06-16
Publication date: 2019-04-17
Anticipated expiration: 2035-06-16
Also published as: WO2016002494A1; US20170163980A1; JPWO2016002494A1

Description

本技術は、情報処理装置および方法に関し、特に、複数階層の画像が階層符号化された符号化データの復号タイミングを制御することができるようにした情報処理装置および方法に関する。

従来、画像の符号化・復号方式として様々な方式が提案された。例えば、複数階層に階層化された画像を、階層間の予測等を用いて効率よく符号化する階層符号化等が考えられた。このような階層化された画像として、例えば、静止画像をベースレイヤとし、動画像をエンハンスメントレイヤとし、動画像を符号化する際に静止画像を参照する予測を行うものが考えられた。

ところで、画像データ等のコンテンツ配信技術として、MPEG-DASH（Moving Picture Experts Group - Dynamic Adaptive Streaming over HTTP）がある（例えば、非特許文献１参照）。MPEG-DASHでは、所定の符号化方式で符号化された画像データのビットストリームが、例えばMP4ファイルフォーマット等のような所定のファイルフォーマットでファイル化されて配信される。

MPEG-DASH(Dynamic Adaptive Streaming over HTTP)（URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1）

ところで、上述したように階層符号化された動画像の符号化データを復号する場合、復号済みの静止画像を参照する必要がある。したがって、MPEG-DASHのようなデータ配信（特にストリーミング配信）の場合、静止画像を適切なタイミングで復号する必要がある。

しかしながら、静止画像には時間の概念が無く、その符号化データの復号タイミングを制御することは困難であった。また、このようなデータ配信に用いられる例えばMP4ファイルフォーマット等のような従来のファイルフォーマットも、１つのタイムラインに基づくタイミング制御しか行うことができず、時間の概念を持たない静止画像と、時間の概念を持つ動画像とを階層符号化した符号化データの復号タイミングを適切に制御する機能を有していなかった。

本技術は、このような状況に鑑みて提案されたものであり、複数階層の画像が階層符号化された符号化データの復号タイミングを制御することができるようにすることを目的とする。

本技術の一側面は、静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成するファイル生成部と、前記ファイルの前記動画像符号化データを格納するトラックに、各フレームの復号タイミングを指定する時刻情報を設定し、前記ファイルの前記静止画像符号化データを格納するトラックに、前記静止画像の復号タイミングを指定する時刻情報を、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの前記時刻情報を用いて設定する時刻情報設定部とを備える情報処理装置である。

前記ファイル生成部は、前記ファイルに、前記静止画像符号化データの代わりに、前記静止画像符号化データの格納先を示す情報を格納することができる。

本技術の一側面は、また、静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成し、前記ファイルの前記動画像符号化データを格納するトラックに、各フレームの復号タイミングを指定する時刻情報を設定し、前記ファイルの前記静止画像符号化データを格納するトラックに、前記静止画像の復号タイミングを指定する時刻情報を、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの前記時刻情報を用いて設定する情報処理方法である。

本技術の他の側面は、静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出するファイル再生部と、前記ファイルから抽出された前記静止画像符号化データを、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報を用いて設定された、前記静止画像の復号タイミングを指定する時刻情報に基づくタイミングで復号する静止画像復号部と、前記ファイルから抽出された前記動画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報に基づくタイミングで、前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する動画像復号部とを備える情報処理装置である。

本技術の他の側面は、また、静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出し、前記ファイルから抽出された前記静止画像符号化データを、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報を用いて設定された、前記静止画像の復号タイミングを指定する時刻情報に基づくタイミングで復号し、前記ファイルから抽出された前記動画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報に基づくタイミングで、前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する情報処理方法である。

本技術のさらに他の側面は、静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成するファイル生成部と、前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報を生成し、前記ファイルに格納するテーブル情報生成部とを備える情報処理装置である。

前記ファイル生成部は、前記静止画像の表示タイミングを示す時刻情報を前記ファイルに格納することができる。

本技術のさらに他の側面は、また、静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成し、前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報を生成し、前記ファイルに格納する情報処理方法である。

本技術のさらに他の側面は、静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出するファイル再生部と、前記ファイルから抽出された前記静止画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報と、前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報とに基づくタイミングにおいて復号する静止画像復号部と、前記ファイルから抽出された前記動画像符号化データの各フレームを、前記時刻情報に基づくタイミングにおいて、前記静止画像復号部により前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する動画像復号部とを備える情報処理装置である。

本技術のさらに他の側面は、また、静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出し、前記ファイルから抽出された前記静止画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報と、前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報とに基づくタイミングにおいて復号し、前記ファイルから抽出された前記動画像符号化データの各フレームを、前記時刻情報に基づくタイミングにおいて、前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する情報処理方法である。

本技術のさらに他の側面は、静止画像が符号化された静止画像符号化データの復号タイミングを示す時刻情報と、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データの各フレームの復号タイミングを示す時刻情報とを、所定のタイムラインを用いて生成する時刻情報生成部と、前記時刻情報を用いて、前記静止画像符号化データと前記動画像符号化データとの提供に利用されるメタデータである、MPEG-DASH（Moving Picture Experts Group - Dynamic Adaptive Streaming over HTTP）に準拠したMPD（Media Presentation Description）を生成するメタデータ生成部とを備える情報処理装置である。

本技術のさらに他の側面は、また、静止画像が符号化された静止画像符号化データの復号タイミングを示す時刻情報と、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データの各フレームの復号タイミングを示す時刻情報とを、所定のタイムラインを用いて生成し、前記時刻情報を用いて、前記静止画像符号化データと前記動画像符号化データとの提供に利用されるメタデータである、MPEG-DASH（Moving Picture Experts Group - Dynamic Adaptive Streaming over HTTP）に準拠したMPD（Media Presentation Description）を生成する情報処理方法である。

本技術の一側面においては、静止画像が符号化された静止画像符号化データと、動画像が静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルが生成され、ファイルの動画像符号化データを格納するトラックに、各フレームの復号タイミングを指定する時刻情報が設定され、ファイルの静止画像符号化データを格納するトラックに、静止画像の復号タイミングを指定する時刻情報が、予測のための静止画像と動画像との参照関係に基づいて動画像符号化データの時刻情報を用いて設定される。

本技術の他の側面においては、静止画像が符号化された静止画像符号化データと、動画像が静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルが再生され、静止画像符号化データと動画像符号化データとが抽出され、ファイルから抽出された静止画像符号化データが、予測のための静止画像と動画像との参照関係に基づいて動画像符号化データの各フレームの復号タイミングを指定する時刻情報を用いて設定された、静止画像の復号タイミングを指定する時刻情報に基づくタイミングで復号され、ファイルから抽出された動画像符号化データが、動画像符号化データの各フレームの復号タイミングを指定する時刻情報に基づくタイミングで、静止画像符号化データが復号されて得られた静止画像が参照されて復号される。

本技術のさらに他の側面においては、静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルが生成され、前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報が生成され、前記ファイルに格納される。

本技術のさらに他の側面においては、静止画像が符号化された静止画像符号化データと、動画像が静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルが再生され、静止画像符号化データと動画像符号化データとが抽出され、ファイルから抽出された静止画像符号化データが、動画像符号化データの各フレームの復号タイミングを指定する時刻情報と、予測のための静止画像と動画像との参照関係を示すテーブル情報とに基づくタイミングにおいて復号され、ファイルから抽出された動画像符号化データの各フレームが、時刻情報に基づくタイミングにおいて、静止画像符号化データが復号されて得られた静止画像を参照して復号される。

本技術のさらに他の側面においては、静止画像が符号化された静止画像符号化データの復号タイミングを示す時刻情報と、動画像が静止画像を参照する予測を用いて符号化された動画像符号化データの各フレームの復号タイミングを示す時刻情報とが、所定のタイムラインを用いて生成され、時刻情報を用いて、静止画像符号化データと動画像符号化データとの提供に利用されるメタデータである、MPEG-DASH（Moving Picture Experts Group - Dynamic Adaptive Streaming over HTTP）に準拠したMPD（Media Presentation Description）が生成される。

本技術によれば、情報を処理することが出来る。また本技術によれば、複数階層の画像が階層符号化された符号化データの復号タイミングを制御することができる。

MP4ファイルフォーマットの構成例を示す図である。 MP4ファイルの主な構成例を示す図である。 MP4ファイル生成装置の主な構成例を示すブロック図である。 MP4ファイル生成処理の流れの例を説明するフローチャートである。 MP4ファイル再生装置の主な構成例を示すブロック図である。 MP4ファイル再生処理の流れの例を説明するフローチャートである。 MP4ファイルの主な構成例を示す図である。ベースレイヤPOCサンプルエントリのシンタクスの例を示す図である。 MP4ファイル生成装置の主な構成例を示すブロック図である。 MP4ファイル生成処理の流れの例を説明するフローチャートである。 MP4ファイル再生装置の主な構成例を示すブロック図である。 MP4ファイル再生処理の流れの例を説明するフローチャートである。 MP4ファイルの主な構成例を示す図である。 MP4ファイル生成装置の主な構成例を示すブロック図である。 MP4ファイル生成処理の流れの例を説明するフローチャートである。 MP4ファイル再生装置の主な構成例を示すブロック図である。 MP4ファイル再生処理の流れの例を説明するフローチャートである。 MPDの構成例を示す図である。補正情報の例を説明する図である。補正情報の例を説明する図である。補正情報の例を説明する図である。 MP4ファイルの主な構成例を示す図である。 MPDの構成例を示す図である。 MPDの構成例を示す図である。ファイル生成装置の主な構成例を示すブロック図である。ファイル生成処理の流れの例を説明するフローチャートである。ファイル再生装置の主な構成例を示すブロック図である。ファイル再生処理の流れの例を説明するフローチャートである。配信システムの主な構成例を示すブロック図である。コンピュータの主な構成例を示すブロック図である。

以下、本開示を実施するための形態（以下実施の形態とする）について説明する。なお、説明は以下の順序で行う。
１．第１の実施の形態（MP4のDTSを利用する場合）
２．第２の実施の形態（POC参照テーブルを生成して利用する場合）
３．第３の実施の形態（静止画像が独立している場合）
４．第４の実施の形態（MPDタイムラインを利用する場合）
５．第５の実施の形態（配信システム）
６．第６の実施の形態（コンピュータ）

＜１．第１の実施の形態＞
＜静止画像と動画像の階層化＞
画像の符号化・復号方式として、複数階層に階層化された画像を、階層間の予測等を用いて効率よく符号化する階層符号化・階層復号方式がある。このような階層化された画像として、例えば、静止画像をベースレイヤとし動画像をエンハンスメントレイヤとして階層化するものがある。つまり階層符号化においては、動画像の符号化の際に、静止画像を参照する予測が行われる。

このように階層符号化された符号化データを階層復号する場合、動画像を復号するために静止画像を参照する必要がある。したがって、MPEG-DASHのようなデータ配信（特にストリーミング配信）の場合、静止画像を適切なタイミングで復号する必要がある。

しかしながら、静止画像には時間の概念が無く、その符号化データの復号タイミングを制御することは困難であった。また、このようなデータ配信に用いられる例えばMP4ファイルフォーマット等のような従来のファイルフォーマットも、１つのタイムラインに基づくタイミング制御しか行うことができなかった。つまり、時間の概念を持たない静止画像と、時間の概念を持つ動画像とを階層符号化した符号化データの復号タイミングを適切に制御する機能を有していなかった。

そこで、このような配信データに用いるファイルフォーマットにおいて、静止画像の復号タイミングを、動画像の各フレームの復号タイミングを指定する時刻情報であるDTS（Decoding Time Stamp）を用いて指定するようにする。つまり、静止画像と動画像のフレームの対応関係を、DTSを用いて表現し、その情報をファイルに格納するようにする。

つまり、静止画像が符号化された静止画像符号化データと、動画像が静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成し、そのファイルの動画像符号化データを格納するトラックに、各フレームの復号タイミングを指定する時刻情報（DTS）を設定し、そのファイルの静止画像符号化データを格納するトラックに、静止画像の復号タイミングを指定する時刻情報を、予測のための静止画像と動画像との参照関係に基づいて動画像符号化データの時刻情報を用いて設定するようにする。

このようにすることにより、動画像と静止画像の復号タイミングを１つのタイムラインで制御することができる。つまり、複数階層の画像が階層符号化された符号化データの復号タイミングを制御することができる。

＜ユースケース＞
以下においては、静止画像のベースレイヤと、動画像のエンハンスメントレイヤとからなる２階層の画像データを、レイヤ間の予測を用いて階層符号化する場合を例に用いて本技術を説明する。

なお、もちろん、画像データの階層数は任意であり、３層以上であってもよい。例えば、静止画像のレイヤが複数存在するようにしてもよいし、動画像のレイヤが複数存在するようにしてもよい。また、各画像の解像度は任意である。静止画像が動画像より高解像度であってもよいし、低解像度であってもよいし、互いに同一の解像度であってもよい。同様に、各画像のビット深度や色域等、その他のパラメータの値も任意である。

まず、このような階層符号化の用途の例について説明する。例えば、デジタルスチルカメラ、デジタルビデオカメラ、携帯電話機、スマートフォン、ノート型パーソナルコンピュータ、タブレット型パーソナルコンピュータ等の撮像素子を備える電子機器において、動画像とともに静止画像を撮影する機能を有するものがある。例えば、動画像撮影中の任意のタイミングにおいてユーザがシャッタボタンを押下し、静止画像を撮像する機能がある。また、例えば、ユーザがシャッタボタンを押下して静止画像を撮影する際、その静止画像だけでなく、その撮影タイミングの前後の動画像を保存する機能がある。

電子機器は、このようにして保存した動画像と静止画像を用いて様々なサービスをユーザに提供することができる。例えば、電子機器は、動画像のデータと静止画像のデータとを、それぞれ、ユーザに提供することができる。また、例えば、電子機器は、静止画像を利用して動画像を画像処理して高画質化したり、動画像を利用して撮影された静止画像と異なるタイミングの静止画像を作成したり（つまり撮影タイミングを擬似的にずらす）することができる。

このような場合、動画像と静止画像は、略同様の画像であり、互いに類似性が高い。つまり、動画像データと静止画像データの冗長性が高い。したがって、電子機器が、静止画像をベースレイヤとし、動画像をエンハンスメントレイヤとし、動画像の符号化の際に静止画像を参照する予測（レイヤ間予測）を用いる階層符号化を行うようにする。このようにすることにより、動画像データの符号化効率を向上させることができ、保存時のデータ量を低減することができ、コストの増大を抑制することができる。

また、例えば放送番組を録画する電子機器等において、動画像を記録中にその動画像の一部のフレームの画像を、定期的若しくは不定期に静止画像（サムネイル画像）として抽出し、動画像とともに記録する機能がある。このように保存された静止画像は、例えばシーン検索等の機能においてGUI（Graphical User Interface）等として利用される。

このような場合も、動画像と静止画像は、略同様の画像であり、互いに類似性が高い。つまり、動画像データと静止画像データの冗長性が高い。そこで、電子機器が、静止画像をベースレイヤとし、動画像をエンハンスメントレイヤとし、動画像の符号化の際に静止画像を参照する予測（レイヤ間予測）を用いる階層符号化を行うようにする。このようにすることにより、動画像データの符号化効率を向上させることができ、保存時のデータ量を低減することができ、コストの増大を抑制することができる。

もちろん、用途は任意であり、これらのケースに限定されない。

また、階層符号化における静止画像や動画像の符号化方式は任意である。以下においては、静止画像をJPEG（Joint Photographic Experts Group）方式で符号化し、動画像をSHVC（Scalable High Efficiency Video Coding）方式で符号化するものとして説明するが、もちろん、これ以外のどのような符号化方式であってもよい。

本技術は、このように階層符号化された符号化データを所定の伝送用のフォーマットで伝送する場合に適用される技術である。以下においては、このように階層符号化された符号化データを、MP4ファイルフォーマットでファイル化する場合を例にして、本技術について説明する。

＜MP4ファイルフォーマット＞
次に、MP4ファイルフォーマットの概要について説明する。図１に示されるように、MPEG-DASHに準拠したMP4ファイル（MP4 file）は、ftyp、moov、およびmdatを含む。

図１に示されるように、HEVCの各サンプル（ピクチャ）のデータは、AVデータとして、mdatに格納される。

また、moovには、サンプル（例えばピクチャ）毎に管理情報がサンプルテーブルボックス（Sample Table Box（stbl））に格納される。

図１に示されるように、サンプルテーブルボックス（Sample Table Box）には、サンプルディスクリプションボックス（Sample Description Box）、タイムトゥーサンプルボックス（Time To Sample Box）、サンプルサイズボックス（Sample Size Box）、サンプルトゥーチャンクボックス（Sample to Chunk Box）、チャンクオフセットボックス（Chunk Offset Box）、およびサブサンプルインフォメーションボックス（Subsample Information Box）が設置されている。

サンプルディスクリプションボックスには、コーデックや画サイズ等に関する情報が格納される。例えば、符号化パラメータ等の情報は、このサンプルディスクリプションボックス内のHEVCサンプルエントリ（HEVC sample entry）に格納される。

サンプルサイズボックスには、サンプルのサイズに関する情報が格納される。サンプルトゥーチャンクボックスには、サンプルのデータの位置に関する情報が格納される。チャンクオフセットボックスには、データのオフセットに関する情報が格納される。サブサンプルインフォメーションボックスには、サブサンプルに関する情報が格納される。

また、タイムトゥーサンプルボックスには、サンプルの時刻に関する情報が格納される。つまり、このタイムトゥーサンプルボックスには、例えば、上述したDTSが設定される。

＜階層符号化された符号化データを格納するMP4ファイル＞
上述したように静止画像と動画像が階層符号化された符号化データを格納するMP4ファイルの主な構成例を図２に示す。

図２に示されるMPEG-DASHに準拠したMP4ファイル（MP4 file）は、符号化データを階層ごとにトラックに分けて格納する。図２の例の場合、トラック１（Track1）には、ベースレイヤ（すなわち静止画像）のサンプル毎の符号化データ（JPG/BL sample）が格納され、トラック２（Track2）には、エンハンスメントレイヤ（すなわち動画像）のサンプル毎の符号化データ（SHVC/EL sample）が格納されている。このベースレイヤやエンハンスメントレイヤのサンプルは、例えばピクチャのような、各レイヤの符号化データ（動画像または静止画像）の所定の単位である。

トラック１のサンプルエントリには、符号化方式がJPEGであることを示す識別情報が設定されている（Sample Entry = 'jpeg'）。また、このサンプルエントリは、JPEG符号化データのデコードに必要なコンフィギュレーション（configuration）情報を格納するjpgCボックス（jpgC box）を有している。

トラック２のサンプルエントリには、符号化方式がSHVCであることを示す識別情報が設定されている（Sample Entry = 'lhv1'）。また、このサンプルエントリは、SHVC符号化データのデコードに必要なコンフィギュレーション（configuration）情報を格納するlhvCボックス（lhvc box）を有している。このlhvCボックスには、ベースレイヤの符号化方式がHEVC（High Efficiency Video Coding）方式であるか否かを示すフラグ情報（hevc_baselayer_flag）が格納されている。図２の例の場合、ベースレイヤの静止画像は、JPEG方式で符号化されるので、lhvCボックスには、「hevc_baselayer_flag = 0」が設定されている。

また、このlhvCボックスには、SHVC符号化データの、拡張ビデオパラメータセット（VPS EXT）の情報が格納されている。また、トラック２には、参照先のトラックを指定するトラックリファレンス（Track Reference）が設定されている。図２の例の場合、トラック１がベースレイヤであり、トラック２の参照先であるので、トラック２にトラックリファレンス（Track Reference）として「sbas = 1」が設定されている。

また、トラック２のサンプルテーブルボックス（Sample Table Box）のタイムトゥーサンプルボックス（Time To Sample Box）には、各SHVCサンプル（SHVC/EL Sample）のDTSが設定される。

そして、トラック１のサンプルテーブルボックス（Sample Table Box）のタイムトゥーサンプルボックス（Time To Sample Box）には、各JPEGサンプル（JPEG/BL Sample）のDTSが設定される。この各JPEGサンプル（JPEG/BL Sample）のDTSは、トラック１のSHVCサンプルのDTSと同一のタイムライン上で設定されている。つまり、図２の矢印で示されるように、各JPEGサンプル（JPEG/BL Sample）のDTSには、それぞれを参照先とするSHVCサンプル（SHVC/EL Sample）（つまり、そのJPEGサンプルを用いてレイヤ間予測が行われるSHVCサンプル）のDTSと同一の値が設定されている。

換言するに、このようにDTSを用いて、JPEGのタイムラインとSHVCのタイムラインとを揃えることにより、ベースレイヤとエンハンスメントレイヤの参照関係（つまり、エンハンスメントレイヤのどのサンプルにおいて、ベースレイヤのどのサンプルが参照されるか）が示されている。

したがって、この符号化データの復号の際に、この時間情報（DTS）に基づいて静止画像の符号化データを適切なタイミングでの復号が可能になる。さらに、動画像の符号化データの復号の際に、この時間情報（DTS）に基づいてどのサンプルの時にベースレイヤのどのサンプルを参照するかを正しく把握することが可能になる。つまり、動画像を正しく復号することができる。

＜MP4ファイル生成装置＞
次に、このようなMP4ファイルを生成する装置について説明する。図３は、本技術を適用した情報処理装置の一実施の形態であるMP4ファイル生成装置の主な構成例を示すブロック図である。図３において、MP4ファイル生成装置１００は、静止画像と動画像とを、静止画像をベースレイヤとし、動画像をエンハンスメントレイヤとして階層符号化し、得られた各階層の符号化データをファイル化してMP4ファイルを生成する装置である。

図３に示されるように、MP4ファイル生成装置１００は、ベースレイヤ符号化部１０１、エンハンスメントレイヤ符号化部１０２、時刻情報生成部１０３、およびMP4ファイル生成部１０４を有する。

＜MP4ファイル生成処理の流れ＞
図３のMP4ファイル生成装置１００は、MP4ファイル生成処理を実行することにより、入力される静止画像および動画像を階層符号化し、MP4ファイルを生成する。図４のフローチャートを参照して、このMP4ファイル生成処理の流れの例を説明する。

静止画像および動画像が入力されると、MP4ファイル生成装置１００は、MP4ファイル生成処理を開始する。なお、入力される静止画像および動画像は、互いに相関性の高い画像（絵柄の類似性が高い画像）であることが望ましい（相関性が高い程、符号化効率を向上させることができる）。

MP4ファイル生成処理が開始されると、ベースレイヤ符号化部１０１は、ステップＳ１０１において、入力された静止画像をベースレイヤとして符号化する。ベースレイヤ符号化部１０１は、静止画像を例えばJPEG方式で符号化し、符号化データ（JPEG）を生成する。ベースレイヤ符号化部１０１は、生成したベースレイヤの符号化データ（JPEG）をMP4ファイル生成部１０４に供給する。

また、ベースレイヤ符号化部１０１は、静止画像を参照画像としてエンハンスメントレイヤ符号化部１０２に供給する。この静止画像は、符号化データ（JPEG）を復号した復号画像であってもよい。また、ベースレイヤ符号化部１０１は、この静止画像の符号化に関する情報である符号化情報をエンハンスメントレイヤ符号化部１０２に供給する。

ステップＳ１０２において、エンハンスメントレイヤ符号化部１０２は、入力された動画像をエンハンスメントレイヤとして符号化する。エンハンスメントレイヤ符号化部１０２は、動画像を例えばSHVC方式で符号化し、符号化データ（SHVC）を生成する。その際、エンハンスメントレイヤ符号化部１０２は、必要に応じて、ベースレイヤ符号化部１０１から供給されるベースレイヤの参照画像を用いてレイヤ間予測を行う。また、エンハンスメントレイヤ符号化部１０２は、ベースレイヤ符号化部１０１から供給されるベースレイヤの符号化情報、または、その符号化情報に基づいて生成した情報を、適宜、生成したエンハンスメントレイヤの符号化データ（SHVC）に格納する。

レイヤ間予測は任意のフレームにおいて行うことができ、全てのフレームにおいて行わなくてもよい。SHVC方式では、ベースレイヤを参照するレイヤ間予測と、エンハンスメントレイヤの他のフレームを参照するフレーム間予測（時間方向予測）とが併用される。エンハンスメントレイヤ符号化部１０２は、生成したエンハンスメントレイヤの符号化データ（SHVC）をMP4ファイル生成部１０４に供給する。

また、エンハンスメントレイヤ符号化部１０２は、レイヤ間予測における参照に関する情報である参照情報を時刻情報生成部１０３に供給する。この参照情報には、例えば、画像の参照元と参照先を示す情報を含む。

ステップＳ１０３において、時刻情報生成部１０３は、供給された参照情報に基づいて、ベースレイヤとエンハンスメントレイヤの時刻情報、すなわち、DTSを生成する。時刻情報生成部１０３は、エンハンスメントレイヤの動画像の各フレームについてDTSを生成し、参照情報が示すベースレイヤとエンハンスメントレイヤの参照関係に基づいて、ベースレイヤの各静止画像のDTSを、そのエンハンスメントレイヤのDTSを用いて生成する。つまり、時刻情報生成部１０３は、ベースレイヤの各静止画像のDTSを、その静止画像を参照するエンハンスメントレイヤの動画像のフレームのDTSと同じ値（同時刻）に設定する。時刻情報生成部１０３は、生成したDTSをMP4ファイル生成部１０４に供給する。

ステップＳ１０４において、MP4ファイル生成部１０４は、レイヤ毎にトラックを生成し、各レイヤのDTSを各トラックに適用してMP4ファイルを生成する。つまり、MP4ファイル生成部１０４は、ベースレイヤ符号化部１０１から供給される（ステップＳ１０１において生成された）ベースレイヤの符号化データ（JPEG）と、エンハンスメントレイヤ符号化部１０２から供給される（ステップＳ１０２において生成された）エンハンスメントレイヤの符号化データ（SHVC）とを互いに異なるトラックに格納するMP4ファイルを生成する。

そして、MP4ファイル生成部１０４は、時刻情報生成部１０３から供給される（ステップＳ１０３において生成された）ベースレイヤのDTSをベースレイヤの符号化データ（JPEG）を格納するトラック（図２の例の場合トラック１）のタイムトゥーサンプルボックスに格納する。また、MP4ファイル生成部１０４は、時刻情報生成部１０３から供給される（ステップＳ１０３において生成された）エンハンスメントレイヤのDTSをエンハンスメントレイヤの符号化データ（SHVC）を格納するトラック（図２の例の場合トラック２）のタイムトゥーサンプルボックスに格納する。

なお、図２を参照して説明したように、MP4ファイル生成部１０４は、ベースレイヤのトラック（トラック１）のサンプルエントリに識別情報「jpeg」を設定する。また、MP4ファイル生成部１０４は、エンハンスメントレイヤのトラック（トラック２）のサンプルエントリに識別情報「lhv1」を設定する。さらに、MP4ファイル生成部１０４は、lhvCボックスの「hevc_baselayer_flag」の値を「０」に設定する。さらに、MP4ファイル生成部１０４は、エンハンスメントレイヤのトラック（トラック２）にトラックリファレンス（Track Reference）として「sbas = 1」を設定する。もちろん、MP4ファイル生成部１０４は、その他必要な情報も適宜設定する。

ステップＳ１０５において、MP4ファイル生成部１０４は、ステップＳ１０４において生成したMP4ファイルを出力する。

以上のようにMP4ファイル生成処理を実行することにより、MP4ファイル生成装置１００は、ベースレイヤの（静止画像）の復号タイミングを、エンハンスメントレイヤ（動画像の各フレーム）のDTSを用いて指定することができる。つまり、復号側に、各レイヤの符号化データの復号タイミングを１つのタイムラインで示すことができる。また、ベースレイヤが時刻情報を持たない静止画像であっても復号タイミングを示すことができる。換言するに、このような時刻情報（DTS）を用いて、ベースレイヤとエンハンスメントレイヤの参照関係を復号側に示すことができる。

つまり、MP4ファイル生成装置１００は、複数階層の画像が階層符号化された符号化データの復号タイミングを制御することができる。

＜MP4ファイル再生装置＞
次に、このように生成されたMP4ファイルを再生する装置について説明する。図５は、本技術を適用した情報処理装置の一実施の形態であるMP4ファイル再生装置の主な構成例を示すブロック図である。図５において、MP4ファイル再生装置１５０は、図３のMP4ファイル生成装置１００により上述したように生成されたMP4ファイルを再生し、ベースレイヤおよびエンハンスメントレイヤのいずれか一方または両方の復号画像を生成し、出力する装置である。

図５に示されるように、MP4ファイル再生装置１５０は、MP4ファイル再生部１５１、時刻情報解析部１５２、ベースレイヤ復号部１５３、およびエンハンスメントレイヤ復号部１５４を有する。

＜MP4ファイル再生処理の流れ＞
図５のMP4ファイル再生装置１５０は、MP4ファイル再生処理を実行することにより、入力されるMP4ファイルを再生し、任意のレイヤの復号画像を生成する。図６のフローチャートを参照して、このMP4ファイル再生処理の流れの例を説明する。なお、図６においては、エンハンスメントレイヤの復号画像を得る場合の処理について説明する。

図２の例のような静止画像の符号化データ（JPEG）をベースレイヤとして格納し、動画像の符号化データ（SHVC）をエンハンスメントレイヤとして格納するMP4ファイルが入力されると、MP4ファイル再生装置１５０は、MP4ファイル再生処理を開始する。

MP4ファイル再生処理が開始されると、ステップＳ１５１において、MP4ファイル再生部１５１は、MP4ファイル（図２の例の場合、トラック２）から、エンハンスメントレイヤの処理対象のサンプルを抽出する。MP4ファイル再生部１５１は、抽出したエンハンスメントレイヤのサンプル（SHVC）をエンハンスメントレイヤ復号部１５４に供給する。また、MP4ファイル再生部１５１は、MP4ファイルから各トラック（階層符号化の各レイヤ）の時刻情報（DTS）を抽出し、時刻情報解析部１５２に供給する。

ステップＳ１５２において、時刻情報解析部１５２は、MP4ファイル再生部１５１から供給されたDTSに基づいて、ステップＳ１５１において抽出されたエンハンスメントレイヤのサンプルとDTSが同じ値（同時刻）のベースレイヤのサンプルが存在するか否かを判定する。存在すると判定された場合、処理はステップＳ１５３に進む。なお、時刻情報解析部１５２は、各レイヤのDTSからベースレイヤとエンハンスメントレイヤのレイヤ間予測の参照関係（エンハンスメントレイヤのどのサンプルがベースレイヤのどのサンプルを参照するか等）を解析し、その参照関係を示す参照情報をエンハンスメントレイヤ復号部１５４に供給する。

ステップＳ１５３において、MP4ファイル再生部１５１は、そのベースレイヤのサンプル（つまり、ステップＳ１５２において、ステップＳ１５１において抽出されたエンハンスメントレイヤのサンプルと同時刻のDTSを持つと判定されたベースレイヤのサンプル）を、MP4ファイル（図２の例の場合、トラック１）から抽出する。MP4ファイル再生部１５１は、抽出したベースレイヤのサンプル（JPEG）をベースレイヤ復号部１５３に供給する。

ステップＳ１５４において、ベースレイヤ復号部１５３は、MP4ファイル再生部１５１から供給された（ステップＳ１５３において抽出された）ベースレイヤのサンプルを、そのサンプルのDTSにより指定されるタイミングにおいて、その符号化方式に対応する復号方式（例えばJPEG方式）で復号し、復号画像を生成する。ベースレイヤ復号部１５３は、生成した復号画像を参照画像としてエンハンスメントレイヤ復号部１５４に供給する。

ステップＳ１５５において、エンハンスメントレイヤ復号部１５４は、時刻情報解析部１５２から供給される参照情報に基づいて、ベースレイヤ復号部１５３から供給された（ステップＳ１５４において生成された）参照画像、つまり、ベースレイヤの復号画像を用いてレイヤ間の動き補償を行い、MP4ファイル再生部１５１から供給された（ステップＳ１５１において抽出された）エンハンスメントレイヤのサンプルを復号し、エンハンスメントレイヤの復号画像を生成する。

ステップＳ１５６において、ベースレイヤ復号部１５３は、ステップＳ１５４において生成したベースレイヤの復号画像を出力する。また、エンハンスメントレイヤ復号部１５４は、ステップＳ１５５において生成したエンハンスメントレイヤの復号画像を出力する。ステップＳ１５６の処理が終了すると処理はステップＳ１５９に進む。

また、ステップＳ１５２において、ステップＳ１５１において抽出されたエンハンスメントレイヤのサンプルとDTSが同じ値（同時刻）のベースレイヤのサンプルが存在しないと判定された場合、処理はステップＳ１５７に進む。

ステップＳ１５７において、エンハンスメントレイヤ復号部１５４は、MP4ファイル再生部１５１から供給された（ステップＳ１５１において抽出された）エンハンスメントレイヤのサンプルを復号し、エンハンスメントレイヤの復号画像を生成する。

ステップＳ１５８において、エンハンスメントレイヤ復号部１５４は、ステップＳ１５７において生成したエンハンスメントレイヤの復号画像を出力する。ステップＳ１５８の処理が終了すると処理はステップＳ１５９に進む。

ステップＳ１５９において、MP4ファイル再生部１５１は、全てのサンプルを処理したか否かを判定する。未処理のサンプルが存在する場合、処理はステップＳ１５１に戻り、それ以降の処理が繰り返される。各サンプルについてステップＳ１５１乃至ステップＳ１５９の処理が繰り返され、ステップＳ１５９において、全てのサンプルが処理されたと判定された場合、MP4ファイル再生処理が終了する。

なお、ベースレイヤのみ復号する場合、MP4ファイル再生装置１５０は、上述したステップＳ１５３とステップＳ１５４の処理を行えばよい。

以上のようにMP4ファイル再生処理を実行することにより、MP4ファイル再生装置１５０は、ベースレイヤ（静止画像）を適切なタイミングで復号することができる。つまり、MP4ファイル再生装置１５０は、複数階層の画像が階層符号化された符号化データを正しく復号することができる。特に、ベースレイヤが時間情報を持たない静止画像の場合であっても、正しく復号することができる。

＜２．第２の実施の形態＞
＜POC参照テーブル＞
DTSの代わりにベースレイヤとエンハンスメントレイヤの参照関係を示すPOC参照テーブルを別途格納するようにしてもよい。

図７にその場合のMP4ファイルの主な構成例を示す。図７の例の場合、ベースレイヤの符号化データを格納する第１トラック（Track1）に、エンハンスメントレイヤとベースレイヤの参照関係をPOC（Picture Order Count）を用いて示すPOC参照テーブル（BaseLayerPOCSampleEntry）を格納する。つまり、この（BaseLayerPOCSampleEntry）には、参照するエンハンスメントレイヤのサンプル（SHVC/EL Sample）と参照されるベースレイヤのサンプル（JPG/BL Sample）がPOCを用いて示されている。

したがってこのテーブルを参照することにより、エンハンスメントレイヤのどのサンプルが、ベースレイヤのどのサンプルを参照するかを把握することができる。つまり、エンハンスメントレイヤのどのサンプルがレイヤ間予測を行うかを把握することができる。換言するに、ベースレイヤの各サンプルの復号タイミング（DTS）をエンハンスメントレイヤのどのサンプルの復号タイミング（DTS）に合わせればよいかを把握することができる。

このようにすることにより、トラック１のDTSには、レイヤ間予測には依存しない復号タイミング、つまり、ベースレイヤのみ復号する場合に利用することができる復号タイミングを格納することができる。例えば、ベースレイヤの静止画像を用いてスライドショー再生を行う場合、エンハンスメントレイヤの動画像は不要であるので、ベースレイヤのみ復号すればよい。このような場合にトラック１のDTSに、そのスライドショーとしての再生タイミングに応じた復号タイミングを格納することができる。

つまり、POC参照テーブルに基づくタイミングでベースレイヤの各サンプルを復号することにより、エンハンスメントレイヤの動画像の再生に対して適切なタイミングでの復号が可能になり、トラック１のDTSに基づくタイミングでベースレイヤの各サンプルを復号することにより、スライドショーに対して適切なタイミングでの復号が可能になる。このように、複数の用途に対して適切なタイミングでの復号が可能になる。

POC参照テーブル（BaseLayerPOCSampleEntry）の生成は、例えば、図８に示されるようなシンタクスに従って行うようにしてもよい。この例の場合、ベースレイヤの各サンプルのPOCにそのサンプルを参照するエンハンスメントレイヤのPOCを対応付けている。もちろん、POC参照テーブルのフォーマットは任意であり、この例に限定されない。

＜MP4ファイル生成装置＞
次に、このようなMP4ファイルを生成する装置について説明する。図９は、本技術を適用した情報処理装置の一実施の形態であるMP4ファイル生成装置の主な構成例を示すブロック図である。図９において、MP4ファイル生成装置２００は、MP4ファイル生成装置１００（図３）と同様の装置であり、基本的にMP4ファイル生成装置１００と同様の構成を有する。ただし、MP4ファイル生成装置２００は、MP4ファイル生成装置１００における時刻情報生成部１０３の代わりに時刻情報生成部２０３を有する。また、MP4ファイル生成装置２００は、MP4ファイル生成装置１００におけるMP4ファイル生成部１０４の代わりにMP4ファイル生成部２０４を有する。

時刻情報生成部２０３は、参照情報に基づいてDTSを生成する代わりにPOC参照テーブルを生成し、それをMP4ファイル生成部２０４に供給する。MP4ファイル生成部２０４は、DTSをMP4ファイルに格納する代わりに、そのPOC参照テーブルをMP4ファイルに格納する。

＜MP4ファイル生成処理の流れ＞
図９のMP4ファイル生成装置１００により実行されるMP4ファイル生成処理の流れの例を、図１０のフローチャートを参照して説明する。

ステップＳ２０１およびステップＳ２０２の各処理は、図４のステップＳ１０１およびステップＳ１０２の各処理と同様に行われる。なお、ベースレイヤ符号化部１０１は、生成したベースレイヤの符号化データ（JPEG）をMP4ファイル生成部２０４に供給する。また、エンハンスメントレイヤ符号化部１０２は、生成したエンハンスメントレイヤの符号化データ（SHVC）をMP4ファイル生成部２０４に供給し、レイヤ間予測における参照に関する情報である参照情報を時刻情報生成部２０３に供給する。

ステップＳ２０３において、時刻情報生成部２０３は、供給された参照情報に基づいて、POC参照テーブル（BaseLayerPOCSampleEntry）を生成する。時刻情報生成部２０３は、生成したPOC参照テーブル（BaseLayerPOCSampleEntry）をMP4ファイル生成部２０４に供給する。

ステップＳ２０４において、MP4ファイル生成部２０４は、レイヤ毎にトラックを生成し、各レイヤのDTSを各トラックに適用してMP4ファイルを生成する。つまり、MP4ファイル生成部２０４は、ベースレイヤ符号化部１０１から供給される（ステップＳ１０１において生成された）ベースレイヤの符号化データ（JPEG）と、エンハンスメントレイヤ符号化部１０２から供給される（ステップＳ１０２において生成された）エンハンスメントレイヤの符号化データ（SHVC）とを互いに異なるトラックに格納するMP4ファイルを生成する。

そして、MP4ファイル生成部２０４は、時刻情報生成部２０３から供給される（ステップＳ２０３において生成された）POC参照テーブルを、ベースレイヤの符号化データ（JPEG）を格納するトラック（図７の例の場合トラック１）に格納する。

また、MP4ファイル生成部２０４は、エンハンスメントレイヤの符号化データ（SHVC）を格納するトラック（図７の例の場合トラック２）のDTSを設定する。さらに、MP4ファイル生成部２０４は、ベースレイヤの符号化データ（JPEG）を格納するトラック（図７の例の場合トラック１）のDTSを適宜設定する。

なお、第１の実施の形態の場合と同様に、MP4ファイル生成部２０４は、その他の必要な情報を適宜設定する。

ステップＳ２０５において、MP4ファイル生成部２０４は、ステップＳ２０４において生成したMP4ファイルを出力する。

以上のようにMP4ファイル生成処理を実行することにより、MP4ファイル生成装置２００は、ベースレイヤの（静止画像）の復号タイミングを、POC参照テーブルを用いて指定することができる。つまり、復号側に、各レイヤの符号化データの復号タイミングを１つのタイムラインで示すことができる。また、ベースレイヤが時刻情報を持たない静止画像であっても復号タイミングを示すことができる。

つまり、MP4ファイル生成装置２００は、複数階層の画像が階層符号化された符号化データの復号タイミングを制御することができる。

＜MP4ファイル再生装置＞
次に、このように生成されたMP4ファイルを再生する装置について説明する。図１１は、本技術を適用した情報処理装置の一実施の形態であるMP4ファイル再生装置の主な構成例を示すブロック図である。図１１において、MP4ファイル再生装置２５０は、図９のMP4ファイル生成装置２００により上述したように生成されたMP4ファイルを再生し、ベースレイヤおよびエンハンスメントレイヤのいずれか一方または両方の復号画像を生成し、出力する装置である。

図１１に示されるように、MP4ファイル再生装置２５０は、基本的にMP4ファイル再生装置１５０（図５）と同様の構成を有する。ただし、MP4ファイル再生装置２５０は、MP4ファイル再生装置１５０における時刻情報解析部１５２の代わりに時刻情報解析部２５２を有する。

＜MP4ファイル再生処理の流れ＞
図１１のMP4ファイル再生装置２５０により実行されるMP4ファイル再生処理の流れの例を、図１２のフローチャートを参照して説明する。なお、図１２においては、エンハンスメントレイヤの復号画像を得る場合の処理について説明する。

MP4ファイル再生処理が開始されると、ステップＳ２５１において、MP4ファイル再生部１５１は、MP4ファイル（図７の例の場合、トラック２）から、エンハンスメントレイヤの処理対象のサンプルを抽出する。MP4ファイル再生部１５１は、抽出したエンハンスメントレイヤのサンプル（SHVC）をエンハンスメントレイヤ復号部１５４に供給する。また、MP4ファイル再生部１５１は、MP4ファイル（図７の例の場合、トラック１）からPOC参照テーブル（BaseLayerPOCSampleEntry）を抽出し、時刻情報解析部２５２に供給する。

ステップＳ２５２において、時刻情報解析部２５２は、MP4ファイル再生部１５１から供給されたPOC参照テーブル（BaseLayerPOCSampleEntry）に基づいて、MP4ファイル再生部１５１により抽出された（ステップＳ２５１において抽出された）エンハンスメントレイヤのサンプル（のPOC）に対応するベースレイヤのサンプル（のPOC）を特定する。

ステップＳ２５３において、時刻情報解析部２５２は、レイヤ間予測を行うか否かを判定する。ステップＳ２５２においてエンハンスメントレイヤのサンプルに対応するベースレイヤのサンプルが特定された場合（存在する場合）、時刻情報解析部２５２は、レイヤ間予測を行うと判定する。その場合、処理はステップＳ２５４に進む。

なお、時刻情報解析部２５２は、POC参照テーブルからベースレイヤとエンハンスメントレイヤのレイヤ間予測の参照関係（エンハンスメントレイヤのどのサンプルがベースレイヤのどのサンプルを参照するか等）を解析し、その参照関係を示す参照情報をエンハンスメントレイヤ復号部１５４に供給する。

ステップＳ２５４乃至ステップＳ２５７の各処理は、図６のステップＳ１５３乃至ステップＳ１５６の各処理と同様に実行される。ステップＳ２５７の処理が終了すると、処理はステップＳ２６０に進む。

また、ステップＳ２５２においてエンハンスメントレイヤのサンプルに対応するベースレイヤのサンプルが特定されなかった場合（存在しない場合）、ステップＳ２５３において時刻情報解析部２５２は、レイヤ間予測を行わないと判定する。その場合、処理はステップＳ２５８に進む。

ステップＳ２５８およびステップＳ２５９の各処理は、図６のステップＳ１５７およびステップＳ１５８の各処理と同様に実行される。ステップＳ２５９の処理が終了すると、処理はステップＳ２６０に進む。

ステップＳ２６０において、MP4ファイル再生部１５１は、全てのサンプルを処理したか否かを判定する。未処理のサンプルが存在する場合、処理はステップＳ２５１に戻り、それ以降の処理が繰り返される。各サンプルについてステップＳ２５１乃至ステップＳ２６０の処理が繰り返され、ステップＳ２６０において、全てのサンプルが処理されたと判定された場合、MP4ファイル再生処理が終了する。

なお、ベースレイヤのみ復号する場合、MP4ファイル再生装置２５０は、上述したステップＳ２５４とステップＳ２５５の処理を行えばよい。

以上のようにMP4ファイル再生処理を実行することにより、MP4ファイル再生装置２５０は、ベースレイヤ（静止画像）を適切なタイミングで復号することができる。つまり、MP4ファイル再生装置２５０は、複数階層の画像が階層符号化された符号化データを正しく復号することができる。特に、ベースレイヤが時間情報を持たない静止画像の場合であっても、正しく復号することができる。

＜３．第３の実施の形態＞
＜JPEGデータのリンク＞
ベースレイヤの符号化データ（JPEGファイル）の実体は、MP4ファイルの外部にあってもよい。その場合、MP4ファイルにはJPEGファイルの実体の格納場所を示すリンク情報が格納されていればよい。

図１３にその場合のMP4ファイルの主な構成例を示す。図１３の例の場合、MP4ファイルの構成は、基本的に図２の例と同様であり、ベースレイヤとエンハンスメントレイヤの参照関係はDTSにより表現されている。ただし、図１３の例の場合、ベースレイヤのトラック（トラック１）には、符号化データのサンプル（JPG/BL sample1, JPG/BL sample2等）として、JPEGファイルの実体（JPG File For sample1, JPG File For sample2等）へのリンク情報が格納されている。

ベースレイヤを復号する場合は、このリンク情報を基にJPEGファイルの実体を読み出せばよい。それ以外は、第１の実施の形態の場合と同様である。

＜MP4ファイル生成装置＞
次に、このようなMP4ファイルを生成する装置について説明する。図１４は、本技術を適用した情報処理装置の一実施の形態であるMP4ファイル生成装置の主な構成例を示すブロック図である。図１４において、MP4ファイル生成装置３００は、MP4ファイル生成装置１００（図３）と同様の装置であり、基本的にMP4ファイル生成装置１００と同様の構成を有する。ただし、MP4ファイル生成装置３００は、MP4ファイル生成装置１００におけるベースレイヤ符号化部１０１の代わりにベースレイヤ符号化部３０１を有する。また、MP4ファイル生成装置３００は、MP4ファイル生成装置１００におけるMP4ファイル生成部１０４の代わりにMP4ファイル生成部３０４を有する。

ベースレイヤ符号化部３０１は、生成したベースレイヤの符号化データ（JPEG）の実体を出力するとともに、その符号化データ（JPEG）の格納先をMP4ファイル生成部３０４に通知する（例えば、JPEG格納先情報としてMP4ファイル生成部３０４に供給する）。MP4ファイル生成部３０４は、ベースレイヤの符号化データ（JPEG）の実体をMP4ファイル（のトラック１）に格納する代わりに、そのベースレイヤの符号化データ（JPEG）の実体のリンク情報（JPEG格納先情報）を格納する。

＜MP4ファイル生成処理の流れ＞
図１４のMP4ファイル生成装置１００により実行されるMP4ファイル生成処理の流れの例を、図１５のフローチャートを参照して説明する。

MP4ファイル生成処理が開始されると、ベースレイヤ符号化部３０１は、ステップＳ３０１において、入力された静止画像をベースレイヤとして符号化する。ベースレイヤ符号化部３０１は、静止画像を例えばJPEG方式で符号化し、符号化データ（JPEG）を生成する。

ステップＳ３０２において、ベースレイヤ符号化部３０１は、生成したベースレイヤの符号化データ（JPEG）を出力し、所定の格納先に保存させる。ベースレイヤ符号化部３０１は、その符号化データ（JPEG）の格納先を示すJPEG格納先情報をMP4ファイル生成部３０４に供給する。また、ベースレイヤ符号化部３０１は、ベースレイヤ符号化部１０１の場合と同様に、参照画像（静止画像）や符号化情報をエンハンスメントレイヤ符号化部１０２に供給する。

ステップＳ３０３およびステップＳ３０４の各処理は、図４のステップＳ１０２およびステップＳ１０３の各処理と同様に実行される。なお、エンハンスメントレイヤ符号化部１０２は、生成したエンハンスメントレイヤの符号化データ（SHVC）をMP4ファイル生成部３０４に供給する。

ステップＳ３０５において、MP4ファイル生成部３０４は、レイヤ毎にトラックを生成し、各レイヤのDTSを各トラックに適用してMP4ファイルを生成する。つまり、MP4ファイル生成部３０４は、ベースレイヤ符号化部１０１から供給されるJPEG格納先情報をベースレイヤのトラック（図１３の例の場合トラック１）に格納し、エンハンスメントレイヤ符号化部１０２から供給される（ステップＳ３０４において生成された）エンハンスメントレイヤの符号化データ（SHVC）をエンハンスメントレイヤのトラック（図１３の例の場合トラック２）に格納する。

そして、MP4ファイル生成部３０４は、時刻情報生成部１０３から供給される（ステップＳ３０４において生成された）ベースレイヤのDTSをベースレイヤの符号化データ（JPEG）を格納するトラック（図１３の例の場合トラック１）のタイムトゥーサンプルボックスに格納する。また、MP4ファイル生成部３０４は、時刻情報生成部１０３から供給される（ステップＳ３０４において生成された）エンハンスメントレイヤのDTSをエンハンスメントレイヤの符号化データ（SHVC）を格納するトラック（図１３の例の場合トラック２）のタイムトゥーサンプルボックスに格納する。

なお、第１の実施の形態の場合と同様に、MP4ファイル生成部３０４は、その他の必要な情報を適宜設定する。

ステップＳ３０６において、MP4ファイル生成部３０４は、ステップＳ３０５において生成したMP4ファイルを出力する。

以上のようにMP4ファイル生成処理を実行することにより、MP4ファイル生成装置３００は、ベースレイヤの（静止画像）の復号タイミングを、エンハンスメントレイヤ（動画像の各フレーム）のDTSを用いて指定することができる。つまり、復号側に、各レイヤの符号化データの復号タイミングを１つのタイムラインで示すことができる。また、ベースレイヤが時刻情報を持たない静止画像であっても復号タイミングを示すことができる。換言するに、このような時刻情報（DTS）を用いて、ベースレイヤとエンハンスメントレイヤの参照関係を復号側に示すことができる。

つまり、MP4ファイル生成装置３００は、ベースレイヤの符号化データ（JPEGファイル）の実体がMP4ファイルの外部にある場合であっても、複数階層の画像が階層符号化された符号化データの復号タイミングを制御することができる。

＜MP4ファイル再生装置＞
次に、このように生成されたMP4ファイルを再生する装置について説明する。図１６は、本技術を適用した情報処理装置の一実施の形態であるMP4ファイル再生装置の主な構成例を示すブロック図である。図１６において、MP4ファイル再生装置３５０は、図１４のMP4ファイル生成装置３００により上述したように生成されたMP4ファイルを再生し、ベースレイヤおよびエンハンスメントレイヤのいずれか一方または両方の復号画像を生成し、出力する装置である。

図１６に示されるように、MP4ファイル再生装置３５０は、基本的にMP4ファイル再生装置１５０（図５）と同様の構成を有する。ただし、MP4ファイル再生装置３５０は、MP4ファイル再生装置１５０におけるMP4ファイル再生部１５１の代わりに、MP4ファイル再生部３５１を有する。また、MP4ファイル再生装置３５０は、MP4ファイル再生装置１５０におけるベースレイヤ復号部１５３の代わりに、ベースレイヤ復号部３５３を有する。

＜MP4ファイル再生処理の流れ＞
図１６のMP4ファイル再生装置２５０により実行されるMP4ファイル再生処理の流れの例を、図１７のフローチャートを参照して説明する。なお、図１７においては、エンハンスメントレイヤの復号画像を得る場合の処理について説明する。

MP4ファイル再生処理が開始されると、ステップＳ３５１において、MP4ファイル再生部３５１は、MP4ファイル（図１３の例の場合、トラック２）から、エンハンスメントレイヤの処理対象のサンプルを抽出する。MP4ファイル再生部３５１は、抽出したエンハンスメントレイヤのサンプル（SHVC）をエンハンスメントレイヤ復号部１５４に供給する。また、MP4ファイル再生部３５１は、MP4ファイルから各トラック（階層符号化の各レイヤ）の時刻情報（DTS）を抽出し、時刻情報解析部１５２に供給する。

ステップＳ３５２において、時刻情報解析部１５２は、MP4ファイル再生部３５１から供給されたDTSに基づいて、ステップＳ３５１において抽出されたエンハンスメントレイヤのサンプルとDTSが同じ値（同時刻）のベースレイヤのサンプルが存在するか否かを判定する。存在すると判定された場合、処理はステップＳ３５３に進む。なお、時刻情報解析部１５２は、各レイヤのDTSからベースレイヤとエンハンスメントレイヤのレイヤ間予測の参照関係（エンハンスメントレイヤのどのサンプルがベースレイヤのどのサンプルを参照するか等）を解析し、その参照関係を示す参照情報をエンハンスメントレイヤ復号部１５４に供給する。

ステップＳ３５３において、MP4ファイル再生部３５１は、そのベースレイヤのサンプルの格納先情報（JPEG格納先情報）をMP4ファイル（図１３の例の場合、トラック１）から抽出する。MP4ファイル再生部３５１は、抽出した格納先情報（JPEG格納先情報）をベースレイヤ復号部３５３に供給する。

ステップＳ３５４において、ベースレイヤ復号部３５３は、そのベースレイヤのサンプルの格納先情報（JPEG格納先情報）に基づいてベースレイヤの符号化データ（JPEG）の実体を取得する。

ステップＳ３５５乃至ステップＳ３５７の各処理は、図６のステップＳ１５４乃至ステップＳ１５６の各処理と同様に実行される。ステップＳ３５７の処理が終了すると、処理はステップＳ３６０に進む。

また、ステップＳ３５２において、ステップＳ３５１において抽出されたエンハンスメントレイヤのサンプルとDTSが同じ値（同時刻）のベースレイヤのサンプルが存在しないと判定された場合、処理はステップＳ３５８に進む。

ステップＳ３５８およびステップＳ３５９の各処理は、図６のステップＳ１５７およびステップＳ１５８の各処理と同様に実行される。ステップＳ３５９の処理が終了すると、処理はステップＳ３６０に進む。

ステップＳ３６０において、MP4ファイル再生部３５１は、全てのサンプルを処理したか否かを判定する。未処理のサンプルが存在する場合、処理はステップＳ３５１に戻り、それ以降の処理が繰り返される。各サンプルについてステップＳ３５１乃至ステップＳ３６０の処理が繰り返され、ステップＳ３６０において、全てのサンプルが処理されたと判定された場合、MP4ファイル再生処理が終了する。

なお、ベースレイヤのみ復号する場合、MP4ファイル再生装置３５０は、上述したステップＳ３５３乃至ステップＳ３５５の処理を行えばよい。

以上のようにMP4ファイル再生処理を実行することにより、MP4ファイル再生装置３５０は、ベースレイヤ（静止画像）を適切なタイミングで復号することができる。つまり、MP4ファイル再生装置３５０は、複数階層の画像が階層符号化された符号化データを正しく復号することができる。特に、ベースレイヤが時間情報を持たない静止画像の場合であっても、また、その符号化データの実体がMP4ファイルに格納されていない場合であっても、正しく復号することができる。

＜４．第４の実施の形態＞
＜MPDによる制御＞
ベースレイヤの符号化データ（JPEGファイル）の復号タイミングの制御は、MPEG-DASH（Moving Picture Experts Group - Dynamic Adaptive Streaming over HTTP）のMPD（Media Presentation Description）において行うようにしてもよい。

MPDは、例えば図１８に示されるような構成を有する。MPDの解析（パース）においては、クライアントは、MPD（図１８のMedia Presentation）のピリオド（Period）に含まれるリプレゼンテーション（Representation）の属性から最適なものを選択する。

クライアントは、選択したリプレゼンテーション（Representation）の先頭のセグメント（Segment）を読んでイニシャライズセグメント（Initialization Segment）を取得し、処理する。続いて、クライアントは、後続のセグメント（Segment）を取得し、再生する。

なお、MPDにおける、ピリオド（Period）、リプレゼンテーション（Representation）、およびセグメント（Segment）の関係は、図１９のようになる。つまり、１つのメディアコンテンツは、時間方向のデータ単位であるピリオド（Period）毎に管理することができ、各ピリオド（Period）は、時間方向のデータ単位であるセグメント（Segment）毎に管理することができる。また、各ピリオド（Period）について、ビットレート等の属性の異なる複数のリプレゼンテーション（Representation）を構成することができる。

したがって、このMPDのファイル（MPDファイルとも称する）は、ピリオド（Period）以下において、図２０に示されるような階層構造を有する。また、このMPDの構造を時間軸上に並べると図２１の例のようになる。図２１の例から明らかなように、同一のセグメント（Segment）に対して複数のリプレゼンテーション（Representation）が存在している。クライアントは、これらのうちのいずれかを適応的に選択することにより、通信環境や自己のデコード能力などに応じて適切なストリームデータを取得し、再生することができる。

このようなMPDを用いてベースレイヤの符号化データ（JPEGファイル）の復号タイミングを制御する場合の、各ファイルの構成例を図２２に示す。図２２の例においては、ベースレイヤの符号化データがJPEGファイル（JPG File）として構成され（JPG File For sample1, JPG File For sample2）、エンハンスメントレイヤの符号化データがMP4ファイル（MP4 File）として構成され、それらのファイルがMPDファイル（MPD File）により管理されている。

この場合、MP4ファイルのトラックとしては、エンハンスメントレイヤの符号化データを格納するトラック２があればよい。このトラック２の構成は、他の実施の形態において説明した通りである。

MPDファイルでは、レイヤ毎にアダプテーションセットが設定され、セグメントインフォによって符号化データの実体へのリンクが設定される。ベースレイヤの符号化データの各サンプル（JPG/BL sample1, JPG/BL sample2）や、エンハンスメントレイヤの符号化データの各サンプル（SHVC/EL sample）の時刻情報は、MPDのタイムラインを用いて管理される。つまり、各レイヤの復号タイミングが、MPDタイムラインで合わせられる。

このようなMPDの記述例を図２３および図２４に示す。図２３の角丸四角で示される部分には、エンハンスメントレイヤのアダプテーションセットの設定が記述されており、符号化データ（SHVC）の復号タイミングが、MPDのタイムラインで表現されている。図２４の角丸四角で示される部分には、ベースレイヤのアダプテーションセットの設定が記述されており、符号化データ（JPEG）の復号タイミングが、MPDのタイムラインで表現されている。

このように、MPDのタイムラインを用いることにより、複数階層の画像が階層符号化された符号化データの復号タイミングを制御することができる。

＜ファイル生成装置＞
次に、このようなMPDやMP4ファイルを生成する装置について説明する。図２５は、本技術を適用した情報処理装置の一実施の形態であるファイル生成装置の主な構成例を示すブロック図である。図２５において、ファイル生成装置４００は、静止画像と動画像とを、静止画像をベースレイヤとし、動画像をエンハンスメントレイヤとして階層符号化し、JPEGファイル、MP4ファイル、MPD等を生成し出力する。

ファイル生成装置４００は、基本的にMP4ファイル生成装置３００（図１４）と同様の構成を有する。ただし、ファイル生成装置４００は、MP4ファイル生成装置３００における時刻情報生成部１０３の代わりに時刻情報生成部４０３を有する。さらに、ファイル生成装置４００は、MP4ファイル生成装置３００におけるMP4ファイル生成部３０４の代わりにMP4ファイル生成部４０４を有する。さらに、ファイル生成装置４００は、MPD生成部４０５を有する。

ベースレイヤ符号化部３０１は、第３の実施の形態において説明した通りであるが、JPEG格納先情報をMP4ファイル生成部３０４ではなく、MPD生成部４０５に供給する。また、エンハンスメントレイヤ符号化部１０２は、符号化データ（SHVC）をMP4ファイル生成部４０４に供給し、参照情報を時刻情報生成部４０３に供給する。時刻情報生成部４０３は、その参照情報に基づいて時刻情報（DTS）を生成し、それをMPD生成部４０５に供給する。MP4ファイル生成部４０４は、エンハンスメントレイヤの符号化データ（SHVC）を格納するMP4ファイルを生成し、出力する。また、MP4ファイル生成部４０４は、生成したMP4ファイルをMPD生成部４０５に供給する。

MPD生成部４０５は、エンハンスメントレイヤのMP4ファイルやベースレイヤのJPEGファイルの再生を制御するMPDを生成する。そして、MPD生成部４０５は、各レイヤの時刻情報（DTS）をMPDのタイムラインに変換してMPDに記述する。MPD生成部４０５は、生成したMPDを出力する。

＜ファイル生成処理の流れ＞
図２５のファイル生成装置４００により実行されるファイル生成処理の流れの例を、図２６のフローチャートを参照して説明する。

ステップＳ４０１乃至ステップＳ４０３の各処理は、図１５のステップＳ３０１乃至ステップＳ３０３の各処理と同様に行われる。なお、ベースレイヤ符号化部３０１は、生成したベースレイヤの符号化データ（JPEG）を出力し、所定の格納先に保存させる。また、ベースレイヤ符号化部３０１は、その符号化データ（JPEG）の格納先を示すJPEG格納先情報をMPD生成部４０５に供給する。さらに、ベースレイヤ符号化部３０１は、参照画像（静止画像）や符号化情報をエンハンスメントレイヤ符号化部１０２に供給する。

また、エンハンスメントレイヤ符号化部１０２は、生成したエンハンスメントレイヤの符号化データ（SHVC）をMP4ファイル生成部４０４に供給し、レイヤ間予測における参照に関する情報である参照情報を時刻情報生成部４０３に供給する。

ステップＳ４０４において、MP4ファイル生成部４０４は、供給されたエンハンスメントレイヤの符号化データ（SHVC）を格納するMP4ファイルを生成する。

ステップＳ４０５において、MP4ファイル生成部４０４は、生成したMP4ファイルを出力する。また、MP4ファイル生成部４０４は、生成したMP4ファイルをMPD生成部４０５に供給する。

ステップＳ４０６において、時刻情報生成部４０３は、エンハンスメントレイヤ符号化部１０２から供給された参照情報（すなわち、ベースレイヤとエンハンスメントレイヤの各サンプルの参照関係）に基づいて、ベースレイヤとエンハンスメントレイヤの各サンプルの時刻（復号タイミング）をMPDのタイムライン上で表現する。時刻情報生成部４０３は、MPDのタイムライン上で示されるベースレイヤとエンハンスメントレイヤの各サンプルの時刻を時刻情報としてMPD生成部４０５に供給する。

ステップＳ４０７において、MPD生成部４０５は、ベースレイヤとエンハンスメントレイヤを制御するMPDを生成する。つまり、MPD生成部４０５は、レイヤ毎にアダプテーションセットを生成する。そして、MPD生成部４０５は、ベースレイヤのアダプテーションセットのセグメントインフォにベースレイヤの符号化データであるJPEGファイルの格納先を示すリンク情報（各サンプルのリンク情報）を記述する。また、MPD生成部４０５は、エンハンスメントレイヤのアダプテーションセットのセグメントインフォにエンハンスメントレイヤの符号化データを含むMP4ファイルの格納先を示すリンク情報を記述する。

さらに、MPD生成部４０５は、ステップＳ４０６において生成された時刻情報をMPDに格納する。つまり、MPD生成部４０５は、MPDのタイムライン上で表現した、各レイヤの各サンプルの復号タイミングをMPDに記述する。

ステップＳ４０８において、MPD生成部４０５は、以上のように生成したMPDを出力する。MPDが出力されると、ファイル生成処理が終了する。

以上のようにファイル生成処理を実行することにより、ファイル生成装置４００は、各レイヤの各サンプルの復号タイミングを、MPDのタイムライン上で制御することができる。つまり、復号側に、各レイヤの符号化データの復号タイミングを１つのタイムラインで示すことができる。また、ベースレイヤが時刻情報を持たない静止画像であっても復号タイミングを示すことができる。換言するに、このような時刻情報を用いて、ベースレイヤとエンハンスメントレイヤの参照関係を復号側に示すことができる。

つまり、ファイル生成装置４００は、複数階層の画像が階層符号化された符号化データの復号タイミングを制御することができる。

＜ファイル再生装置＞
次に、このように生成されたMPD、MP4ファイル、JPEGファイル等を再生する装置について説明する。図２７は、本技術を適用した情報処理装置の一実施の形態であるファイル再生装置の主な構成例を示すブロック図である。図２７において、ファイル再生装置４５０は、図２５のファイル生成装置４００により上述したように生成されたMPD、MP4ファイル、JPEGファイルを再生し、ベースレイヤおよびエンハンスメントレイヤのいずれか一方または両方の復号画像を生成し、出力する装置である。

図２７に示されるように、ファイル再生装置４５０は、基本的にMP4ファイル再生装置３５０（図１６）と同様の構成を有する。ただし、ファイル再生装置４５０は、MPD解析部４５１を有する。また、ファイル再生装置４５０は、MP4ファイル再生装置３５０におけるMP4ファイル再生部３５１の代わりに、MP4ファイル再生部４５２を有する。また、ファイル再生装置４５０は、MP4ファイル再生装置３５０におけるエンハンスメントレイヤ復号部１５４の代わりに、エンハンスメントレイヤ復号部４５４を有する。なお、ファイル再生装置４５０は、MP4ファイル再生装置３５０が有する時刻情報解析部１５２は有していない。

MPD解析部４５１は、入力されるMPDを解析し、MP4ファイルの再生やJPEGファイルの再生を制御する。MPD解析部４５１は、MPDのタイムライン上で指定される復号タイミングにおいて復号できるように、ベースレイヤ復号部３５３に対して、JPEGファイルの格納先を示すJPEG格納先情報を供給し、MP4ファイル再生部４５２に対して、MP4ファイルの格納先を示すMP4ファイル格納先情報を供給する。

MP4ファイル再生部４５２は、MPD解析部４５１の制御に従って、MP4ファイル格納先情報により指定される場所からMP4ファイルを取得し、そのMP4ファイルを再生して、エンハンスメントレイヤの符号化データ（SHVC）のサンプルを抽出する。MP4ファイル再生部４５２は、抽出したMP4ファイルをエンハンスメントレイヤ復号部４５４に供給する。

また、ベースレイヤ復号部３５３は、第３の実施の形態において説明した通りであるが、参照画像と符号化情報をエンハンスメントレイヤ復号部１５４ではなく、エンハンスメントレイヤ復号部４５４に供給する。

エンハンスメントレイヤ復号部４５４は、必要に応じて参照画像や符号化情報を用いて、エンハンスメントレイヤの符号化データ（SHVC）を復号し、動画像の復号画像を生成する。エンハンスメントレイヤ復号部４５４は、その動画像（復号画像）を出力する。

＜ファイル再生処理の流れ＞
図２７のファイル再生装置４５０により実行されるファイル再生処理の流れの例を、図２８のフローチャートを参照して説明する。なお、図２８においては、エンハンスメントレイヤの復号画像を得る場合の処理について説明する。

ファイル再生処理が開始されると、ステップＳ４５１において、MPD解析部４５１は、入力されたMPDを解析する。

ステップＳ４５２において、MPD解析部４５１は、MPDに記述された各レイヤの時刻情報に基づいて、処理対象の時刻に対応するベースレイヤのサンプルがあるか否かを判定する。つまり、MPD解析部４５１は、ベースレイヤにおいて、復号タイミングが、処理対象とするエンハンスメントレイヤのサンプルの時刻（復号タイミング）と同時刻のサンプルが存在するか否かを判定する。換言するに、MPD解析部４５１は、符号化の際に、処理対象とするエンハンスメントレイヤのサンプルに対してレイヤ間予測が行われたか否かを判定する。存在する（レイヤ間予測が行われた）と判定された場合、処理は、ステップＳ４５３に進む。

ステップＳ４５３乃至ステップＳ４５５の各処理は、図１７のステップＳ３５３乃至ステップＳ３５５の各処理と同様に実行される。

ベースレイヤ復号部３５３は、復号して得られた静止画像を参照画像としてエンハンスメントレイヤ復号部４５４に供給する。また、ベースレイヤ復号部３５３は、符号化情報をエンハンスメントレイヤ復号部４５４に供給する。

ステップＳ４５６において、MPD解析部４５１は、MPDに記述されたMP4ファイル格納先情報（MP4ファイルの実体へのリンク情報）を抽出し、MP4ファイル再生部４５２に供給する。

ステップＳ４５７において、MP4ファイル再生部４５２は、そのMP4ファイル格納先情報に基づいてMP4ファイルを取得する。

ステップＳ４５８において、MP4ファイル再生部４５２は、取得したMP4ファイルからエンハンスメントレイヤの処理対象のサンプルを抽出し、エンハンスメントレイヤ復号部４５４に供給する。

ステップＳ４５９およびステップＳ４６０の各処理は、図１７のステップＳ３５６およびステップＳ３５７の各処理と同様に実行される。ステップＳ４６０の処理が終了すると、処理はステップＳ４６３に進む。

また、ステップＳ４５２において、処理対象時刻に対応するベースレイヤのサンプルが存在しない（レイヤ間予測が行われていない）と判定された場合、処理は、ステップＳ４６１に進む。

ステップＳ４６１およびステップＳ４６２の各処理は、図１７のステップＳ３５８およびステップＳ３５９の各処理と同様に実行される。ステップＳ４６２の処理が終了すると、処理はステップＳ４６３に進む。

ステップＳ４６３において、MPD解析部４５１は、全てのサンプルを処理したか否かを判定する。未処理のサンプルが存在する場合、処理はステップＳ４５１に戻り、それ以降の処理が繰り返される。各サンプルについてステップＳ４５１乃至ステップＳ４６３の処理が繰り返され、ステップＳ４６３において、全てのサンプルが処理されたと判定された場合、ファイル再生処理が終了する。

なお、ベースレイヤのみ復号する場合、ファイル再生装置４５０は、上述したステップＳ４５３乃至ステップＳ５５５、並びに、ステップＳ４６０の各処理を行えばよい。

以上のようにファイル再生処理を実行することにより、ファイル再生装置４５０は、ベースレイヤ（静止画像）を適切なタイミングで復号することができる。つまり、ファイル再生装置４５０は、複数階層の画像が階層符号化された符号化データを正しく復号することができる。特に、ベースレイヤが時間情報を持たない静止画像の場合であっても、また、その符号化データの実体がMP4ファイルに格納されていない場合であっても、正しく復号することができる。

＜５．第５の実施の形態＞
＜配信システム＞
各実施の形態において上述した各装置は、例えば、静止画像や動画像を配信する配信システムに利用することができる。以下において、その場合について説明する。

図２９は、本技術を適用した配信システムの主な構成例を示す図である。図２９に示される配信システム５００は、静止画像および動画像を配信するシステムである。図２９に示されるように、配信システム５００は、配信データ生成装置５０１、配信サーバ５０２、ネットワーク５０３、端末装置５０４、および端末装置５０５を有する。

配信データ生成装置５０１は、配信する静止画像や動画像のデータから配信用のフォーマットの配信データを生成する。配信データ生成装置５０１は、生成した配信データを配信サーバ５０２に供給する。配信サーバ５０２は、配信データ生成装置５０１が生成した配信データを記憶部などに記憶して管理し、ネットワーク５０３を介して端末装置５０４や端末装置５０５に対して、その配信データの配信サービスを提供する。

ネットワーク５０３は、通信媒体となる通信網である。ネットワーク５０３は、どのような通信網であってもよく、有線通信網であってもよいし、無線通信網であってもよいし、それらの両方であってもよい。例えば、有線LAN（Local Area Network）、無線LAN、公衆電話回線網、所謂3G回線や4G回線等の無線移動体用の広域通信網、またはインターネット等であってもよいし、それらの組み合わせであってもよい。また、ネットワーク５０３は、単数の通信網であってもよいし、複数の通信網であってもよい。また、例えば、ネットワーク５０３は、その一部若しくは全部が、例えばUSB（Universal Serial Bus）ケーブルやHDMI（登録商標）（High-Definition Multimedia Interface）ケーブル等のような、所定の規格の通信ケーブルにより構成されるようにしてもよい。

配信サーバ５０２、端末装置５０４、および端末装置５０５は、このネットワーク５０３に接続されており、互いに通信可能な状態になされている。これらのネットワーク５０３への接続方法は任意である。例えば、これらの装置が、ネットワーク５０３に、有線通信により接続されるようにしてもよいし、無線通信により接続されるようにしてもよい。また、例えば、これらの装置が、アクセスポイント、中継装置、基地局等、任意の通信装置（通信設備）を介してネットワーク５０３に接続されるようにしてもよい。

端末装置５０４および端末装置５０５は、それぞれ、例えば、携帯型電話機、スマートフォン、タブレット型コンピュータ、ノート型コンピュータのような、通信機能を有する任意の電子機器である。端末装置５０４や端末装置５０５は、例えばユーザ等の指示に基づいて、配信ファイルの配信を配信サーバ５０２に対して要求する。

配信サーバ５０２は、要求された配信データを要求元に送信する。配信を要求した端末装置５０４若しくは端末装置５０５は、その配信データを受信し、再生する。

このような配信システム５００において、配信データ生成装置５０１として、各実施の形態において上述した本技術を適用する。すなわち、上述したMP4ファイル生成装置１００、MP4ファイル生成装置２００、MP4ファイル生成装置３００、またはファイル生成装置４００を、配信データ生成装置５０１として用いるようにする。

また、端末装置５０４や端末装置５０５として、各実施の形態において上述した本技術を適用する。すなわち、上述したMP4ファイル再生装置１５０、MP4ファイル再生装置２５０、MP4ファイル再生装置３５０、またはファイル再生装置４５０を、端末装置５０４や端末装置５０５として用いるようにする。

このようにすることにより、配信データ生成装置５０１、端末装置５０４、および端末装置５０５は、上述した各実施の形態と同様の効果を得ることができる。つまり、配信システム５００は、複数階層の画像が階層符号化された符号化データの復号タイミングを制御することができ、例えば、第１の実施の形態において説明したユースケースの機能やサービスを実現することができる。

＜６．第６の実施の形態＞
＜コンピュータ＞
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。

図３０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

図３０に示されるコンピュータ６００において、CPU（Central Processing Unit）６０１、ROM（Read Only Memory）６０２、RAM（Random Access Memory）６０３は、バス６０４を介して相互に接続されている。

バス６０４にはまた、入出力インタフェース６１０も接続されている。入出力インタフェース６１０には、入力部６１１、出力部６１２、記憶部６１３、通信部６１４、およびドライブ６１５が接続されている。

入力部６１１は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部６１２は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部６１３は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部６１４は、例えば、ネットワークインタフェースよりなる。ドライブ６１５は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア６２１を駆動する。

以上のように構成されるコンピュータでは、CPU６０１が、例えば、記憶部６１３に記憶されているプログラムを、入出力インタフェース６１０およびバス６０４を介して、RAM６０３にロードして実行することにより、上述した一連の処理が行われる。RAM６０３にはまた、CPU６０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

コンピュータ（CPU６０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア６２１に記録して適用することができる。その場合、プログラムは、リムーバブルメディア６２１をドライブ６１５に装着することにより、入出力インタフェース６１０を介して、記憶部６１３にインストールすることができる。

また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部６１４で受信し、記憶部６１３にインストールすることができる。

その他、このプログラムは、ROM６０２や記憶部６１３に、あらかじめインストールしておくこともできる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、上述した各ステップの処理は、上述した各装置、若しくは、上述した各装置以外の任意の装置において、実行することができる。その場合、その処理を実行する装置が、上述した、その処理を実行するのに必要な機能（機能ブロック等）を有するようにすればよい。また、処理に必要な情報を、適宜、その装置に伝送するようにすればよい。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

また、以上において、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本技術は、これに限らず、このような装置またはシステムを構成する装置に搭載するあらゆる構成、例えば、システムLSI（Large Scale Integration）等としてのプロセッサ、複数のプロセッサ等を用いるモジュール、複数のモジュール等を用いるユニット、ユニットにさらにその他の機能を付加したセット等（すなわち、装置の一部の構成）として実施することもできる。

なお、本技術は以下のような構成も取ることができる。
（１）静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成するファイル生成部と、
前記ファイルの前記動画像符号化データを格納するトラックに、各フレームの復号タイミングを指定する時刻情報を設定し、前記ファイルの前記静止画像符号化データを格納するトラックに、前記静止画像の復号タイミングを指定する時刻情報を、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの前記時刻情報を用いて設定する時刻情報設定部と
を備える情報処理装置。
（２）前記ファイル生成部は、前記ファイルに、前記静止画像符号化データの代わりに、前記静止画像符号化データの格納先を示す情報を格納する
（１）に記載の情報処理装置。
（３）静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成し、
前記ファイルの前記動画像符号化データを格納するトラックに、各フレームの復号タイミングを指定する時刻情報を設定し、
前記ファイルの前記静止画像符号化データを格納するトラックに、前記静止画像の復号タイミングを指定する時刻情報を、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの前記時刻情報を用いて設定する
情報処理方法。
（４）静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出するファイル再生部と、
前記ファイルから抽出された前記静止画像符号化データを、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報を用いて設定された、前記静止画像の復号タイミングを指定する時刻情報に基づくタイミングで復号する静止画像復号部と、
前記ファイルから抽出された前記動画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報に基づくタイミングで、前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する動画像復号部と
を備える情報処理装置。
（５）静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出し、
前記ファイルから抽出された前記静止画像符号化データを、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報を用いて設定された、前記静止画像の復号タイミングを指定する時刻情報に基づくタイミングで復号し、
前記ファイルから抽出された前記動画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報に基づくタイミングで、前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する
情報処理方法。
（６）静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成するファイル生成部と、
前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報を生成し、前記ファイルに格納するテーブル情報生成部と
を備える情報処理装置。
（７）前記ファイル生成部は、前記静止画像の表示タイミングを示す時刻情報を前記ファイルに格納する
（６）に記載の情報処理装置。
（８）静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成し、
前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報を生成し、前記ファイルに格納する
情報処理方法。
（９）静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出するファイル再生部と、
前記ファイルから抽出された前記静止画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報と、前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報とに基づくタイミングにおいて復号する静止画像復号部と、
前記ファイルから抽出された前記動画像符号化データの各フレームを、前記時刻情報に基づくタイミングにおいて、前記静止画像復号部により前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する動画像復号部と
を備える情報処理装置。
（１０）静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出し、
前記ファイルから抽出された前記静止画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報と、前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報とに基づくタイミングにおいて復号し、
前記ファイルから抽出された前記動画像符号化データの各フレームを、前記時刻情報に基づくタイミングにおいて、前記静止画像復号部により前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する
情報処理方法。
（１１）静止画像が符号化された静止画像符号化データの復号タイミングを示す時刻情報と、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データの各フレームの復号タイミングを示す時刻情報とを、所定のタイムラインを用いて生成する時刻情報生成部と、
前記時刻情報を用いて、前記静止画像符号化データと前記動画像符号化データとの提供に利用されるメタデータを生成するメタデータ生成部と
を備える情報処理装置。
（１２）静止画像が符号化された静止画像符号化データの復号タイミングを示す時刻情報と、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データの各フレームの復号タイミングを示す時刻情報とを、所定のタイムラインを用いて生成し、
前記時刻情報を用いて、前記静止画像符号化データと前記動画像符号化データとの提供に利用されるメタデータを生成する
情報処理方法。

１００ MP4ファイル生成装置，１０１ベースレイヤ符号化部，１０２エンハンスメントレイヤ符号化部，１０３時刻情報生成部，１０４ MP4ファイル生成部，１５０ MP4ファイル再生装置，１５１ MP4ファイル再生部，１５２時刻情報解析部，１５３ベースレイヤ復号部，１５４エンハンスメントレイヤ復号部，２００ MP4ファイル生成装置，２０３時刻情報生成部，２０４ MP4ファイル生成部，２５０ MP4ファイル再生装置，２５２時刻情報解析部，３００ MP4ファイル生成装置，３０１ベースレイヤ符号化部，３０４ MP4ファイル生成部，３５０ MP4ファイル再生装置，３５１ MP4ファイル再生部，３５３ベースレイヤ復号部，４００ファイル生成装置，４０３時刻情報生成部，４０４ MP4ファイル生成部，４０５ MPD生成部，４５０ファイル再生装置，４５１ MPD解析部，４５２ MP4ファイル再生部，４５４エンハンスメントレイヤ復号部，５００配信システム，５０１配信データ生成装置，５０２配信サーバ，５０３ネットワーク，５０４および５０５端末装置，６００コンピュータ

Claims

静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成するファイル生成部と、
前記ファイルの前記動画像符号化データを格納するトラックに、各フレームの復号タイミングを指定する時刻情報を設定し、前記ファイルの前記静止画像符号化データを格納するトラックに、前記静止画像の復号タイミングを指定する時刻情報を、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの前記時刻情報を用いて設定する時刻情報設定部と
を備える情報処理装置。
前記ファイル生成部は、前記ファイルに、前記静止画像符号化データの代わりに、前記静止画像符号化データの格納先を示す情報を格納する
請求項１に記載の情報処理装置。
静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成し、
前記ファイルの前記動画像符号化データを格納するトラックに、各フレームの復号タイミングを指定する時刻情報を設定し、
前記ファイルの前記静止画像符号化データを格納するトラックに、前記静止画像の復号タイミングを指定する時刻情報を、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの前記時刻情報を用いて設定する
情報処理方法。
静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出するファイル再生部と、
前記ファイルから抽出された前記静止画像符号化データを、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報を用いて設定された、前記静止画像の復号タイミングを指定する時刻情報に基づくタイミングで復号する静止画像復号部と、
前記ファイルから抽出された前記動画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報に基づくタイミングで、前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する動画像復号部と
を備える情報処理装置。
静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出し、
前記ファイルから抽出された前記静止画像符号化データを、前記予測のための前記静止画像と前記動画像との参照関係に基づいて前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報を用いて設定された、前記静止画像の復号タイミングを指定する時刻情報に基づくタイミングで復号し、
前記ファイルから抽出された前記動画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報に基づくタイミングで、前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する
情報処理方法。
静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成するファイル生成部と、
前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報を生成し、前記ファイルに格納するテーブル情報生成部と
を備える情報処理装置。
前記ファイル生成部は、前記静止画像の表示タイミングを示す時刻情報を前記ファイルに格納する
請求項６に記載の情報処理装置。
静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとを、互いに異なるトラックに格納するファイルを生成し、
前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報を生成し、前記ファイルに格納する
情報処理方法。
静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出するファイル再生部と、
前記ファイルから抽出された前記静止画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報と、前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報とに基づくタイミングにおいて復号する静止画像復号部と、
前記ファイルから抽出された前記動画像符号化データの各フレームを、前記時刻情報に基づくタイミングにおいて、前記静止画像復号部により前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する動画像復号部と
を備える情報処理装置。
静止画像が符号化された静止画像符号化データと、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データとが、互いに異なるトラックに格納されたファイルを再生し、前記静止画像符号化データと前記動画像符号化データとを抽出し、
前記ファイルから抽出された前記静止画像符号化データを、前記動画像符号化データの各フレームの復号タイミングを指定する時刻情報と、前記予測のための前記静止画像と前記動画像との参照関係を示すテーブル情報とに基づくタイミングにおいて復号し、
前記ファイルから抽出された前記動画像符号化データの各フレームを、前記時刻情報に基づくタイミングにおいて、前記静止画像符号化データが復号されて得られた前記静止画像を参照して復号する
情報処理方法。
静止画像が符号化された静止画像符号化データの復号タイミングを示す時刻情報と、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データの各フレームの復号タイミングを示す時刻情報とを、所定のタイムラインを用いて生成する時刻情報生成部と、
前記時刻情報を用いて、前記静止画像符号化データと前記動画像符号化データとの提供に利用されるメタデータである、MPEG-DASH（Moving Picture Experts Group - Dynamic Adaptive Streaming over HTTP）に準拠したMPD（Media Presentation Description）を生成するメタデータ生成部と
を備える情報処理装置。
静止画像が符号化された静止画像符号化データの復号タイミングを示す時刻情報と、動画像が前記静止画像を参照する予測を用いて符号化された動画像符号化データの各フレームの復号タイミングを示す時刻情報とを、所定のタイムラインを用いて生成し、
前記時刻情報を用いて、前記静止画像符号化データと前記動画像符号化データとの提供に利用されるメタデータである、MPEG-DASH（Moving Picture Experts Group - Dynamic Adaptive Streaming over HTTP）に準拠したMPD（Media Presentation Description）を生成する
情報処理方法。