JP7321991B2

JP7321991B2 - メディアファイルの生成装置、メディアファイルの再生装置、メディアファイルの生成方法、メディアファイルの再生方法、プログラム、記憶媒体

Info

Publication number: JP7321991B2
Application number: JP2020210739A
Authority: JP
Inventors: 昌敬深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-09-28
Filing date: 2020-12-18
Publication date: 2023-08-07
Anticipated expiration: 2040-12-18
Also published as: JP2022055278A

Description

本発明は、メディアファイルの生成装置、メディアファイルの再生装置、メディアファイルの生成方法、メディアファイルの再生方法、プログラム、記憶媒体に関する。

従来より、ＨＥＩＦ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）に準拠した画像ファイル内に画像等のアイテムや動画、音声等のトラックを格納する技術が知られている（特許文献１参照）。

米国特許出願公開第２０２０／１４５７０５号

本発明が解決しようとする課題は、複数の画像を音声付で連続的に表示させるために必要な情報を格納したメディアファイルを生成・再生することである。

本発明の一態様に係るメディアファイルの生成装置は、画像データ及び音声データを格納するデータ領域と、前記画像データ及び前記音声データに関するメタデータを格納するメタデータ領域とを有する所定のファイルフォーマットに従ったメディアファイルを生成するメディアファイルの生成装置であって、前記データ領域から、スライドショーグループの対象の複数の画像データと音声データとを選択する選択手段と、選択された前記複数の画像データのグループを識別するグループ識別情報と、選択された前記音声データの識別情報と前記グループ識別情報とを関連付ける関連付け情報と、前記複数の画像データ及び前記音声データの前記データ領域における位置を示す位置情報と、前記複数の画像データを連続的に表示させている途中で前記音声データの再生が終了した場合に前記音声データの再生を繰り返すか否かを示すフラグ情報と、を前記メタデータ領域に格納するメタデータ処理手段と、前記メタデータと前記複数の画像データと前記音声データとが格納された単一のメディアファイルを生成する生成手段と、を有し、前記選択手段は、複数のスライドショーグループのそれぞれの対象の複数の画像データと音声データとを選択し、前記メタデータ処理手段は、前記複数のスライドショーグループのそれぞれに対して、前記グループ識別情報と、前記関連付け情報と、前記位置情報と、前記フラグ情報と、を前記メタデータ領域に格納し、前記生成手段は、前記複数のスライドショーグループのそれぞれに対する前記メタデータと前記複数の画像データと前記音声データが格納された単一のメディアファイルを生成する。

メディアファイルの生成装置の構成を示すブロック図である。メディアファイルの生成装置のオーディオ付きスライドショー生成処理のフローチャートである。実施形態１におけるメディアファイルの生成装置のオーディオ付きスライドショーのメタデータ生成処理のフローチャートである。実施形態１におけるメディアファイルの生成装置のスライドショー再生処理のフローチャートの一例である。生成されるＨＥＩＦファイルの構造を示す図である。実施形態１におけるＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＧｒｏｕｐＢｏｘのデータフォーマットの一例を示す図である。ＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのデータフォーマットを示す図である。実施形態１において出力されるＨＥＩＦファイルの一例を示す図である。実施形態１におけるメディアファイルの生成装置のオーディオ付きスライドショーのメタデータ生成処理のフローチャートの別例である。実施形態１において出力されるＨＥＩＦファイルの別例を示す図である。ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＧｒｏｕｐＢｏｘのデータフォーマットを示す図である。実施形態２におけるメディアファイルの生成装置のオーディオ付きスライドショーのメタデータ生成処理のフローチャートである。実施形態２におけるＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＧｒｏｕｐＢｏｘのデータフォーマットの一例を示す図である。実施形態２におけるＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＧｒｏｕｐＢｏｘのデータフォーマットの別例を示す図である。実施形態２において出力されるＨＥＩＦファイルの一例を示す図である。実施形態２におけるメディアファイルの生成装置のスライドショー再生処理のフローチャートの一例である。実施形態１において出力されるＨＥＩＦファイルの別例を示す図である。

以下、図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

＜実施形態１＞
［ハードウェア構成］
図１は、メディアファイル生成装置１００の構成の一例を示す。メディアファイル生成装置１００では、システムバス１０１にＣＰＵ１０２、システムプログラム実行時の一時記憶装置であるＲＡＭ１０３、システムプログラムが格納される不揮発性記憶装置であるＲＯＭ１０４が接続されている。システムプログラムやアプリケーションプログラムが、ＲＯＭ１０４からＲＡＭ１０３に読み込まれ、ＣＰＵ１０２によって実行される。また、システムバス１０１には、符号化／復号化部１０５、メタデータ処理部１０６、表示部１０７、ユーザーインターフェース部１０８、通信制御部１０９、音声復号化処理部１１０、音声出力部１１１が接続されている。システムバス１０１は、これらの各ブロック間でデータを伝達する。またＲＡＭ１０３は、出力バッファを有し、メディアファイルの生成処理のデータバッファや、メディアファイルに格納するデータの出力先としても使用される。

画像符号化／復号化処理部１０５は、Ｈ．２６５（ＨＥＶＣ）、Ｈ．２６４（ＡＶＣ）、ＡＶ１、ＪＰＥＧなどに従う動画や静止画のビデオコーデックであり、静止画や動画のデータの符号化および復号化の処理を実行する。音声符号化・復号化処理部１１０はＭＰ３、ＡＡＣ、ＡＣ－３、ＦＬＡＣ、ＬＰＣＭ、ＷＭＡなどに従う音声コーデックであり、音声データの符号化および復号化の処理を実行する。メタデータ処理部１０６は、画像符号化／復号化処理部１０５によって符号化されたデータ（符号化データ）及び音声符号化／復号化処理部１１０によって符号化されたデータを取得する。そして、所定のファイルフォーマット（例えばＨＥＩＦ）に準拠したメディアファイルを生成する。具体的には、メタデータ処理部１０６は、静止画や動画、オーディオ等を含むメディアファイルに格納されるメタデータの解析処理を実行し、静止画や動画、オーディオに関する情報の生成や、符号化データに関するパラメータ情報の取得を行う。そして、メタデータ処理部１０６は、これらの情報をメタデータとして、符号化データと共にファイルに格納する処理を実行する。なお、取得する符号化データはあらかじめＲＯＭ１０４に格納されたデータや通信制御部１０９を介して取得しＲＡＭ１０３のバッファに保存されたデータでもよい。また、メタデータ処理部１０６は、ファイルに格納されたメタデータを解析し静止画や動画、音声の再生時のメタデータ処理を行う。

表示部１０７は、メディアファイル生成装置１００のアプリケーションを表示する画面を意図しており、例えば液晶ディスプレイ装置である。また、表示部１０７は、ユーザーによるＧＵＩ（ＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ）によるアプリケーションの操作を可能にするように、画面タッチセンサを備えてもよい。また、表示部１０７は、生成されたファイルの確認を行うためのファイルの再生を行ってもよい。ユーザーインターフェース部１０８は、ユーザーによるメディアファイル生成装置１００への操作（入力）を受け付けるためのインターフェースであり、例えば、ボタンやスイッチ等の物理的な操作インターフェースで構成される。

通信制御部１０９は、ネットワークに接続して伝送フレームの送受信を行うネットワークインタフェースである。通信制御部１０９は、例えば、有線ＬＡＮのイーサネット（登録商標）のＰＨＹおよびＭＡＣ（伝送メディア制御処理）である。あるいは、メディアファイル生成装置１００が無線ＬＡＮに接続可能な場合、通信制御部１０９にはＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎ／ａｃ／ａｘ等の無線ＬＡＮ制御を実行するコントローラ、ＲＦ回路、アンテナが含まれる。

音声出力部１１１はメディアファイル生成装置１００の音声出力先デバイスへの制御を行う処理部を意図しており、例えばヘッドホンやスピーカー等への音声出力制御を行う。本実施形態では画像及び音声の入力部を備えない構成として記載したが、別途入力手段を設けてもよい。

［メディアファイル生成処理］
次に、メディアファイル生成装置１００のメディアファイル生成処理の流れについて、図２、図５、図８を参照しながら説明する。図２は、メディアファイル生成処理のフローチャートである。具体的には、ＨＥＩＦファイルフォーマットに従って１つ以上の静止画を格納するファイルを生成する処理の流れを示している。図２のフローチャートの各ステップは、ＣＰＵ１０２によるソフトウェア、画像符号化／復号化処理部１０５、メタデータ処理部１０６、音声符号化／復号化処理部１１０の何れかによって実行される処理を示す。なお、以下の説明において、ＣＰＵ１０２という記述はＣＰＵ１０２で実行するソフトウェア処理であるものとする。図５は、本実施形態においてメディアファイル生成装置１００が生成するＨＥＩＦファイルの一例であるＨＥＩＦファイル５００の構造を示している。ＨＥＩＦファイル５００は、メタデータ格納領域５１０、メタデータ領域５３０及び符号化データ格納領域５５０を有する。メタデータ格納領域５１０（ＭｅｔａＢｏｘ（ｍｅｔａ））は、アンタイムドなメタデータ（主に静止画）に関するメタデータ領域である。また、メタデータ領域５３０（ＭｏｏｖｉｅＢｏｘ（ｍｏｏｖ））は、動画や音声等のプレゼンテーションに関するメタデータに関するメタデータ領域である。また、符号化データ格納領域５５０（ＭｅｄｉａＤａｔａＢｏｘ（ｍｄａｔ））は、符号化データ等のデータを格納するデータ領域である。

また、図８は、本実施形態で出力されるＨＥＩＦファイルの例を示す図である。図８は、ＨＥＩＦファイルフォーマットに従って、１つ以上の静止画と、１つのオーディオと、スライドショーを構成するグループとを格納した例を示している。

メディアファイル生成処理は、Ｓ２０１から開始し、まずＳ２０２において、ＣＰＵ１０２が、ＲＡＭ１０３もしくはＲＯＭ１０４上で記憶している画像データの中から、ＨＥＩＦファイルに格納する画像データを取得（選択）する。当該取得処理は、予めメディアファイル生成装置１００に対して設定された情報や、ユーザーインターフェース部１０８を介するユーザーによる操作等に基づいて行われてもよい。画像データは、１つの静止画が格納されたＨＥＩＦファイルでもよいし、ＪＰＥＧなど他の静止画のファイルであってもよい。または複数の静止画が格納されてＨＥＩＦファイル内の１つの画像データであってもよいし、符号化されていないＲＡＷ画像データであってもよい。あるいは、静止画データであればファイルとして記憶していなくてもよい。さらには別途画像撮像手段を設けて取得した画像データであってもよい。次にＳ２０３において、ＣＰＵ１０２は、Ｓ２０２で取得した画像データを解析して画像属性情報を取得する。画像属性情報には、例えば画像の幅と高さ、色コンポーネントの個数およびビット長等が含まれる。Ｓ２０４では、画像符号化／復号化処理部１０５は、画像データをＨＥＶＣ符号化し符号化データを、ＲＡＭ１０３上の出力バッファに転送して保存しておく。ＨＥＶＣ符号化済みの符号化データの場合は符号化データのままバッファへ転送してもよいし、指定のパラメータで再符号化を行ってもよい。

なお、他の符号化形式で符号化済みの符号化データであった場合はＨＥＶＣ符号化データとなるようにトランスコードを行ってもよい。当該符号化データは、符号化データ格納領域５５０に格納される符号化データの１つである。なお、以降の説明において、Ｓ２０４で保存した（ＨＥＩＦファイルに格納する）画像データ／符号化データを総称して画像データとも称するものとする。

次にＳ２０５では、ＨＥＩＦファイルに格納する画像データに関するメタデータを生成する処理であり、メタデータ処理部１０６により実行される。メタデータ処理部１０６は、Ｓ２０５で生成された符号化データの復号化において必要なパラメータセットを取得する。当該パラメータセットは、具体的には、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ），ピクチャパラメータセット（ＰＰＳ）等である。さらに、Ｓ２０５で生成されるメタデータは、画像アイテム情報や画像属性情報等である。

画像アイテム情報は、図５の領域５１４（ＩｔｅｍＩｎｆｏＢｏｘ（ｉｉｎｆ））に格納されるエントリデータである。ｉｉｎｆのエントリデータは、画像データをファイル内で識別するためのアイテムＩＤ（識別情報）と、ＨＥＶＣ符号化画像であることを示すアイテムタイプを設定する。

一方、画像属性情報は、図５の領域５１６（ＩｔｅｍＰｒｏｐｅｒｔｉｅｓＢｏｘ（ｉｐｒｐ））に格納されるデータである。すなわち、領域５１７（ＩｔｅｍＰｒｏｐｅｔｙＣｏｎｔａｉｎｅｒＢｏｘ（ｉｐｃｏ））のエントリデータと、領域５１８（ＩｔｅｍＰｒｏｐｅｒｔｙＡｓｓｏｃｉａｔｉｏｎＢｏｘ（ｉｐｍａ））のエントリデータである。ｉｐｃｏには、取得したＨＥＶＣのパラメータセットを示すエントリデータや、選択した画像の幅と高さを示すエントリデータ等の属性情報が格納される。そして、ｉｐｍａには、アイテムＩＤとｉｐｃｏのエントリデータへの関連付けを示すエントリデータが生成される。Ｓ２０５にて生成された画像属性情報のデータは、図５のメタデータ格納領域５１０（ＭｅｔａＤａｔａＢｏｘ（ｍｅｔａ））に格納するメタデータの一部として、ＲＡＭ１０３上の出力バッファに保存される。また、サムネイル画像や取得した画像のＥＸＩＦ等のメタデータ構造、また取得した画像が派生画像等の場合領域５１５（ＩｔｅｍＲｅｆｅｒｅｎｃｅＢｏｘ（ｉｒｅｆ））に示す画像データ間の関連付けを示すｉｒｅｆのエントリデータを生成する。ＥＸＩＦ等のメタデータの場合は画像アイテムに関連するメタデータアイテムとしてアイテム情報を生成する。また派生画像の場合格納される符号化データが複数のサブ画像として構成される場合が有り得、その場合は派生画像を示す画像に関する画像アイテム情報及び、画像属性情報に加え、サブ画像個別にも画像アイテム情報及び画像属性情報を生成する。

処理がＳ２０５の後Ｓ２０６に進むと、ＣＰＵ２０１は、生成するＨＥＩＦファイルに、まだ他の画像データを格納するかどうかを確認する。もし他に格納する画像データがあれば、処理はＳ２０２に戻り、そうでなければ処理はＳ２０７に進む。処理がＳ２０６からＳ２０２に戻った場合は、ＣＰＵ２０１は他の画像データを取得（選択）して、前述したようなＳ２０３からＳ２０９までの処理を実行する。

Ｓ２０７では、ＣＰＵ１０２が、生成中のＨＥＩＦファイルにオーディオ付きのスライドショー（音声再生と共に画像の連続的な表示処理）の設定を格納するどうかを判定する。当該判定処理は、予めメディアファイル生成装置１００に対して設定された情報や、ユーザーインターフェース部１０８を介するユーザーによる操作等に基づいて行われてもよい。オーディオ付きスライドショーの設定をＨＥＩＦファイルに格納する場合は（Ｓ２０７でＹＥＳ）、Ｓ２０８の処理に進む。

Ｓ２０８では、ＣＰＵ１０２が、ＲＡＭ１０３もしくはＲＯＭ１０４上で記憶しているオーディオ（音声）データの中から、ＨＥＩＦファイルに格納するオーディオ（音声）データを取得（選択）する。当該取得処理は、予めメディアファイル生成装置１００に対して設定された情報や、ユーザーインターフェース部１０８を介するユーザーによる操作等に基づいて行われてもよい。オーディオデータは、１つのオーディオが格納されたＭＰ３ファイルやＡＡＣファイル等の音声ファイルでもよいし、ＭＰ４等の動画ファイルに格納されたオーディオデータであってもよい。またその他オーディオデータを格納可能なファイルであってもよい。または複数のオーディオが格納されてファイル内の１つのオーディオデータであってもよい。あるいは、オーディオ（音声）データであればファイルとして記憶していなくてもよい。また、別途マイク等の音声入力手段を用いて取得した音声データであってもよい。

Ｓ２０９では、音声符号化／復号化処理部１１０は、オーディオデータを符号化し符号化データを、ＲＡＭ１０３上の出力バッファに転送して保存しておく。なお、符号化済みの音声データであった場合そのままの形式でバッファに転送してもよい。当該符号化データは、符号化データ格納領域５５０に格納される符号化データの１つである。なお、以降の説明において、Ｓ２０９で保存した（ＨＥＩＦファイルに格納する）音声データ／符号化データを総称して音声データとも称するものとする。

次にＳ２１０では、ＨＥＩＦファイルに格納するオーディオ（音声）データに関するメタデータを生成する処理であり、メタデータ処理部１０６により実行される。

メタデータ処理部１０６は、図５の領域５３０（ＭｏｏｖｉｅＢｏｘ（ｍｏｏｖ））に格納する領域５３１（ＭｏｏｖｉｅＨｅａｄｅｒＢｏｘ（ｍｖｈｄ））および領域５３２（ＴｒａｃｋＢｏｘ（ｔｒａｋ））を生成する。

次に、領域５３２（ＴｒａｃｋＢｏｘ（ｔｒａｋ）に格納する領域５３３（ＴｒａｃｋＨｅａｄｅｒＢｏｘ（ｔｋｈｄ））および領域５３４（ＭｅｄｉａＢｏｘ（ｍｄｉａ））を生成する。

さらに、領域５３４（ＭｅｄｉａＢｏｘ（ｍｄｉａ）に格納するＭｅｄｉａＨｅａｄｅｒＢｏｘ（ｍｄｈｄ）、ＨａｎｄｌｅｒＢｏｘ（ｈｄｌｒ）および、ＭｅｄｉａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ｍｉｎｆ）を生成する。

図８に示すように、ｈｄｌｒに指定するＭｅｄｉａＢｏｘ（ｍｄｉａ）のハンドラタイプは‘ｓｏｕｎ’であり得る。

次に、領域５３７ＭｅｄｉａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ｍｉｎｆ）に格納する領域５３８、領域５３９及び領域５４０を生成する。ここで、領域５３８は、ＳｏｕｎｄＭｅｄｉａＨｅａｄｅｒＢｏｘ（ｓｍｈｄ）を示す。また、領域５３９は、ＤａｔａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ｄｉｎｆ）を示す。また、領域５４０は、ＳａｍｐｌｅＴａｂｌｅＢｏｘ（ｓｔｂｌ）を示す。

さらに、領域５４０には、不図示のＳａｍｐｌｅＤｅｓｃｒｉｐｔｉｏｎＢｏｘ（ｓｔｓｄ）やＳａｍｐｌｅＳｉｚｅＢｏｘ（ｓｔｓｚ）、ＴｉｍｅＴｏＳａｍｐｌｅＢｏｘ（ｓｔｔｓ）、ＳａｍｐｌｅＴｏＣｈｕｎｋＢｏｘ（ｓｔｓｃ）を格納する。

Ｓ２１０にて生成されたオーディオデータに関するメタデータは、図５の動画や音声等のプレゼンテーションに関するメタデータに関するメタデータ領域５３０に格納するメタデータの一部として、ＲＡＭ１０３上の出力バッファに保存される。

次に、Ｓ２１１では、オーディオ付きスライドショーのメタデータ生成処理が実行される。なお、Ｓ２１１の処理については後述する。

Ｓ２１２では、メタデータ処理部１０６は、ＨＥＩＦファイルに格納される画像の中から代表画像を決定して、主要画像アイテム情報のメタデータを生成する（メタデータに主要画像アイテム情報を設定する）。当該代表画像の決定処理は、予めメディアファイル生成装置１００に対して設定された情報や、ユーザーインターフェース部１０８を介するユーザーによる操作等に基づいて行われてもよい。Ｓ２１２で生成されたメタデータは、図５の領域５１２（ＰｒｉｍａｒｙＩｔｅｍＢｏｘ（ｐｉｔｍ））に格納される。ｐｉｔｍのデータフォーマットは、単純に代表とする画像のアイテムＩＤを指定するものである。Ｓ２１２で生成されたメタデータは、ＲＡＭ１０３上の出力バッファに保存される。

最後のＳ２１３の処理は、メタデータ処理部１０６により実行される。Ｓ２１３では、メタデータ処理部１０６は、図５の領域５０１（ＦｉｌｅＴｙｐｅＢｏｘ（ｆｔｙｐ））と、領域５１１（ＨａｎｄｌｅｒＢｏｘ（ｈｄｌｒ））に格納するデータを生成する。なお、図８に示すように、ｈｄｌｒに指定するＭｅｔａＤａｔａＢｏｘ（ｍｅｔａ）のハンドラタイプは‘ｐｉｃｔ’であり得る。

そして、メタデータ処理部１０６は、生成したｆｔｙｐとｈｄｌｒのメタデータと、ＲＡＭ１０３に保存しておいたメタデータ格納領域５１０に格納されるメタデータと、符号化データ格納領域５５０に格納される符号化データと結合する。

さらに、符号化データの位置を識別するためのメタデータとして領域５１３に示すＩｔｅｍＬｏｃａｔｉｏｎＢｏｘ（ｉｌｏｃ）を生成する。

また、オーディオデータを格納した場合（Ｓ２０７でＹＥＳ）においてもオーディオ符号化データの位置を識別するためのメタデータとして、領域５４０に、不図示のＣｈｕｎｋＯｆｆｓｅｔＢｏｘ（ｓｔｃｏ）を生成しオフセット情報を格納する。

そして、メタデータ処理部１０６は、図５に示すような構造のデータをＲＡＭ１０３上に形成し、ＨＥＩＦファイルとして完成して出力する。その後、処理はＳ２１４に進んで本処理フローが終了する（Ｓ２１４）。生成されたＨＥＩＦファイルのデータは、ＣＰＵ１０２によりＲＡＭ１０３からＲＯＭ１０４に書き込んで保存され得る。

なお、Ｓ２０８からＳ２１１のオーディオ付きのスライドショーの設定を格納する処理がスキップされた場合は（Ｓ２０７でＮＯ）、図５の領域５３０（ＭｏｏｖｉｅＢｏｘ（ｍｏｏｖ））が生成されない。そのため、その中に格納される領域５３１から領域５４０の各種メタデータも生成されず、ＨＥＩＦファイルのメタデータに含まれないことも有り得る。

しかし、例えばスライドショー以外の目的でイメージシーケンスを格納する場合や、関連するオーディオデータを格納する場合においては領域５３０（ＭｏｏｖｉｅＢｏｘ（ｍｏｏｖ））を生成する。そして、最終的に生成されるＨＥＩＦファイルのメタデータに、ｍｏｏｖが含まれ得る。

なお、本実施形態ではオーディオ付きスライドショーの設定を格納する／しないの判定のみに着目したフローを行ったが、別途オーディオなしのスライドショー設定を格納するフローを実施してもよい。またその他ＨＥＩＦに格納する各種メタデータを設定する処理を含めてもよい。例えば静止画とオーディオの紐づけのみを行う設定を含むＨＥＩＦファイルを生成する場合や、ブラケット撮影した画像をグループ化して格納する処理などＨＥＩＦで指定し得る各種メタデータを考慮したフローであってもよい。

以上に示したフロー従ってＨＥＩＦファイルの内部構造に格納した値（データ）の例を、図８を参照して説明する。図８は、本実施形態で出力されるＨＥＩＦファイルの例を示す図である。図８の記述８０１に示すＰｒｉｍａｒｙＩｔｅｍＢｏｘ（ｐｉｔｍ）（領域５１２に対応）には、ｉｔｅｍ＿ＩＤとして２０４９が格納されている。なお、ＰｒｉｍａｒｙＩｔｅｍＢｏｘの拡張を行い本Ｂｏｘに指定するＩＤとしてオーディオ付きスライドショーを識別するグループのグループＩＤを指定するようにしてもよい。具体的には後述するＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐ（ｓｌｄａ）（領域５２０に対応）を識別するグループＩＤを指定する。その場合はＩＤとして後述するｇｒｏｕｐ＿ｉｄである１００１を指定する。記述８０２に示すＩｔｅｍＩｎｆｏＢｏｘ（領域５１４に対応）は、各画像アイテムをｉｔｅｍ＿ＩＤで識別可能とし、ｉｔｅｍ＿ＩＤで識別される画像アイテムがどのような種類の画像アイテムであるかを示す。ｉｔｅｍ＿ＩＤが２００１である画像アイテムは‘ｈｖｃ１’であり、ＨＥＶＣ符号化イメージであることを示す。同様にしてｉｔｅｍ＿ＩＤ２０４８である画像アイテムまですべておよびｉｔｅｍ＿ＩＤ２０５０の画像アイテムがＨＥＶＣ符号化イメージとして格納されている。またｉｔｅｍ＿ＩＤ２０４９である画像アイテムは‘ｇｒｉｄ’であり、グリッド派生画像アイテムであることを示す。グリッド派生画像アイテムは複数の画像アイテムを組み合わせて１つの画像アイテムとして構成する画像アイテムである。構成情報については後述するＩｔｅｍＲｅｆｅｒｅｎｃｅＢｏｘ（領域５１５に対応）およびＩｔｅｍＤａｔａＢｏｘを参照する。記述８０３に示すＩｔｅｍＬｏｃａｔｉｏｎＢｏｘ（ｉｌｏｃ）（領域５１３に対応）は、各画像データビットストリームのファイル内の格納位置を示している。ｉｔｅｍ＿ＩＤが２０４９の画像アイテムはｃｏｎｓｔｒｕｃｔｉｏｎ＿ｍｅｔｈｏｄが１を示しており、記述８０７に示すＩｔｅｍＤａｔａＢｏｘ（ｉｄａｔ）内にデータが存在することを示している。また、その他の画像は、記述８１０に示すＭｅｄｉａＤａｔａＢｏｘ（符号化データ格納領域５５０に対応）内のどの位置にデータが存在するかを特定することが可能となっている。記述８０４に示すＩｔｅｍＲｅｆｅｒｅｎｃｅＢｏｘ（ｉｒｅｆ）（領域５１５に対応）は、画像アイテム間の参照関係を示した領域である。ここで、ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ‘ｄｉｍｇ‘は派生画像、すなわちｉｔｅｍ＿ＩＤ２０４９のグリッド派生画像アイテムを構成する複数の画像を参照するための参照先の画像アイテムＩＤを示している。また、ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ‘ｄｉｍｇ‘の派生画像は、派生画像アイテムであるｉｔｅｍ＿ＩＤ２０４９からｉｔｅｍ＿ＩＤ２０４５から２０４８までの画像アイテムが参照されていることを示している。次にｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ‘ｔｈｍｂ‘はサムネイル画像、すなわちｉｔｅｍ＿ＩＤ２０５０の画像アイテムがｉｔｅｍ＿ＩＤ２０４９のサムネイル画像であることを示している。

記述８０５に示すＩｔｅｍＰｒｏｐｅｒｔｉｅｓＢｏｘ（ｉｐｒｐ）（領域５１６に対応）内のＩｔｅｍＰｒｏｐｅｒｔｙＣｏｎｔａｉｎｅｒＢｏｘ（ｉｐｃｏ）（領域５１７に対応）には、画像の属性情報を示すＩｔｅｍＰｒｏｐｅｒｔｙが格納されている。ｈｖｃＣはＨＥＶＣ符号化パラメータを示し、ｉｓｐｅは画像のサイズを示す属性情報である。記述８０６は各画像アイテムと属性情報との関連を示したＩｔｅｍＰｒｏｐｅｒｔｙＡｓｓｏｃｉａｔｉｏｎＢｏｘ（ｉｐｍａ）（領域５１８に対応）を示す。各画像アイテムが順にｉｐｃｏ内の属性情報と関連づけが行われる。例えばｉｔｅｍ＿ＩＤ２００１およびｉｔｅｍ＿ＩＤ２０４９には共通ｉｓｐｅが関連づけられており共通の画像サイズであることが示されている。一方でｉｔｅｍ＿ＩＤ２０５０は異なる‘ｉｓｐｅ’が適応されており異なる画像サイズであることがわかる。

記述８０８は、ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ（ｓｌｄａ）（領域５２０に対応）である。ｇｒｏｕｐ＿ｉｄは１００１、グループのエントリ数は４６個が指定されている。最初に指定されたｅｎｔｉｔｙ＿ｉｄ１は後述する音声トラックのトラックＩＤを示しており、以降に指定されたｅｎｔｉｔｙ＿ｉｄはスライドショー表示の順に各画像のアイテムＩＤが２００１から２０４４、２０４９まで指定されている。これにより音声付スライドショー再生表示するための情報が格納されている。

記述８０９は、ＭｏｖｉｅＢｏｘ（ｍｏｏｖ）（領域５３０に対応）であり、ＭｏｏｖｉｅＨｅａｄｅｒＢｏｘ（ｍｖｈｄ）（領域５３１に対応）とＴｒａｃｋＢｏｘ（ｔｒａｋ）（領域５３２に対応）が格納されている。本Ｂｏｘ構造を用いて音声のプレゼンテーションに関する情報が格納されている。ＴｒａｃｋＢｏｘにはさらにＴｒａｃｋＨｅａｄｅｒＢｏｘ（ｔｋｈｄ）（領域５３３に対応）とＭｅｄｉａＢｏｘ（ｍｄｉａ）（領域５３４に対応）が格納されている。ＴｒａｃｋＨｅａｄｅｒＢｏｘのｆｌａｇｓは３を示しており、本トラックに音声が格納されていることを示す。またＴｒａｃｋＩＤ１は音声トラックを識別するＩＤを示しており、前述したＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのｅｎｔｉｔｙ＿ｉｄに示したＩＤ値である。

さらに、ＭｅｄｉａＢｏｘ（ｍｄｉａ）には、ＭｅｄｉａＨｅａｄｅｒＢｏｘ（ｍｄｈｄ）、ＨａｎｄｌｅｒＢｏｘ（ｈｄｌｒ）、ＭｅｄｉａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ｍｉｎｆ）が格納されている。ＭｏｏｖｉｅＨｅａｄｅｒＢｏｘ、ＴｒａｃｋＨｅａｄｅｒＢｏｘ、ＭｅｄｉａＨｅａｄｅｒＢｏｘにはそれぞれ生成時間、編集時間、タイムスケール、デュレーションに関する情報が格納されている。

ＨａｎｄｌｅｒＢｏｘ（ｈｄｌｒ）には音声トラックを識別するためのｈｄｌｒＴｙｐｅとして‘ｓｏｕｎ’が指定されている。またＭｅｄｉａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ｍｉｎｆ）には音声トラックであるためＳｏｕｎｄＭｅｄｉａＨｅａｄｅｒＢｏｘ（ｓｍｈｄ）（領域５３８に対応）が格納されている。またＤａｔａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ｄｉｎｆ）（領域５３９に対応）には音声符号化データの格納位置を示す情報が格納されている。また詳細については図示していないが、ＳａｍｐｌｅＴａｂｌｅＢｏｘ（ｓｔｂｌ）（領域５４０に対応）には各音声サンプルに関する情報が格納されている。具体的にはＳａｍｐｌｅＤｅｓｃｒｉｐｔｉｏｎＢｏｘ（ｓｔｓｄ）を用いて音声符号化に関する情報等が格納されている。また各サンプルのサイズを示す情報がＳａｍｐｌｅＳｉｚｅＢｏｘ（ｓｔｓｚ）内に格納されている。またその他ＴｉｍｅＴｏＳａｍｐｌｅＢｏｘ（ｓｔｔｓ）やＳａｍｐｌｅＴｏＣｈｕｎｋＢｏｘ（ｓｔｓｃ）、ＣｈｕｎｋＯｆｆｓｅｔＢｏｘ（ｓｔｃｏ）を用いて音声サンプルに関する情報が格納されている。

本実施形態では以上の構成でオーディオ付きのスライドショーを再生表示するための音声及び画像をグループ化し、スライドショー表示の際の各画像の属性情報を各画像に適応する方法で構成した。しかし、音声と画像をグループ化し、関連する属性をプロパティないしグループのパラメータとして保持する方法であれば異なる構成であってもよい。

［スライドショーのメタデータ生成処理］
次に、図２のＳ２１１のスライドショーのメタデータ生成処理について、図３、図５、図６、図７、図８、図９、図１０及び図１１を参照しながら説明する。本実施形態では、音声付スライドショーを構成する音声及び画像をグループ（ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐ）としてＨＥＩＦファイルに格納する。図３は、本実施形態におけるメタデータの生成処理のフローチャートを示す。この処理はＳ３０１から開始し、はじめにＳ３０２において、ＣＰＵ１０２が、ＨＥＩＦファイルに格納する画像データの中からスライドショーで表示する１つ以上の画像データを選択し、且つそれらの表示順序を決定する。本実施形態では、ＨＥＩＦファイルに格納するスライドショー表示する画像を表示する時間（期間）に関する情報は指定しない構成とした。つまり、ファイル生成時には値を指定せず、再生時に任意の値を決定して再生する。一方で、別途表示時間を決定し、ファイルに格納するようにしてもよい。次に、Ｓ３０３において、ＣＰＵ１０２は、スライドショー表示の際に再生する音声データを選択し、メタデータから音声トラックＩＤを取得する。Ｓ３０２とＳ３０３選択処理は、予めメディアファイル生成装置１００に対して設定された情報や、ユーザーインターフェース部１０８を介するユーザーによる操作等に基づいて行われてもよい。

次にＳ３０４において、メタデータ処理部１０６は、オーディオ付きスライドショーの再生画像及び音声のグループを設定する。具体的には、メタデータ処理部１０６は、スライドショーで表示する画像及び再生する音声をグループ化するための情報（グループ情報）を生成する。このグループ情報は、図５の領域５１９（ＧｒｏｕｐｓＬｉｓｔＢｏｘ（ｇｒｐｌ））に格納するメタデータである。ＨＥＩＦでは、ｇｒｐｌに画像データなどのアイテムやトラックのグループ情報が格納される。グループ情報には、グループ識別情報としてのグループＩＤと、グループタイプが付与され、ＨＥＩＦファイル内において識別される。本実施形態では、Ｓ３０４において、メタデータ処理部１０６は、グループ情報として音声付スライドショーグループ情報（ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ）を生成する。図６に、ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのデータフォーマットを示す。また図７にＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘの派生元となるＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのデータフォーマットを示す。

メタデータ処理部１０６は、図６に示すデータフォーマットのデータを生成し、ｇｒｐｌに格納する（図５の領域５２０を参照）。本ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘは複数の画像イメージセットを音声付でスライドショー表示することを目的としたｅｎｔｉｔｙのグループを識別するためのＢｏｘである。このＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループタイプは記述６０１に示す‘ｓｌｄａ’であり、音声付スライドショーに使用するトラック及びアイテムのグループであることを意味する。

図６のデータフォーマットは、ＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘからの拡張である。そのため、図７の記述７０１に示すｇｒｏｕｐ＿ｉｄ、記述７０２に示すｎｕｍ＿ｅｎｔｒｉｅｓ＿ｉｎ＿ｇｒｏｕｐは別途指定される。ここで、ｇｒｏｕｐ＿ｉｄは、グループＩＤを示す。また、ｎｕｍ＿ｅｎｔｒｉｅｓ＿ｉｎ＿ｇｒｏｕｐは、グループに含むトラック及びアイテムの個数を示す。

また、記述７０３に示すｅｎｔｉｔｙ＿ｉｄはトラックＩＤまたはアイテムＩＤを示し、最初に指定したｅｎｔｉｔｙ＿ｉｄは音声トラックを示すトラックＩＤを指す。Ｓ３０４では選択した音声のトラックＩＤを先頭のｅｎｔｉｔｙ＿ｉｄに設定する。

そして、Ｓ３０５において、以降のｅｎｔｉｔｙ＿ｉｄにスライドショーで表示する選択画像のアイテムＩＤを表示順序通りに指定する。なお、本実施形態ではＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘを別途定義してオーディオ付きのスライドショーグループを格納可能とする構成とした。

しかしながら、図１１に示すようにＩＳＯ／ＩＥＣ２３００８－１２：２０１７ＣＤＡＭ３で定義されたｓｌｉｄエンティティグループを拡張して構成してもよい。

例えば、記述１１０１が示すｆｌａｇｓを用いて音声付のスライドショーグループであるか、音声がついていないスライドショーグループであるかを識別する方法である。具体的には、ｗｉｔｈ＿ａｕｄｉｏを定義（例えば値１）し、ｆｌａｇｓ＆ｗｉｔｈ＿ａｕｄｉｏが正（ｔｒｕｅ）となる場合は音声付スライドショーグループを示す。一方でｆｌａｇｓ＆ｗｉｔｈ＿ａｕｄｉｏが負（ｆａｌｓｅ）となる場合は音声なしのスライドショーグループを示す。つまり、ｆｌａｇｓ＆ｗｉｔｈ＿ａｕｄｉｏが正（ｔｒｕｅ）となる場合は最初のｅｎｔｉｔｙ＿ｉｄは音声トラックＩＤのみを示すものとする。

この方法の場合、ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに限らず、他のｇｒｏｕｐｉｎｇ＿ｔｙｐｅのＥｎｔｉｔｙＴｏＧｒｏｕｐにもｉａｕｇグループを用いて画像アイテムと音声トラックを関連づけることが可能となる。

次にＳ３０６において選択した画像の画像属性情報に個別指定する切り替え効果をそれぞれ設定してＳ３０７で処理を終了する。なお、ＨＥＩＦファイルに格納するオーディオ付きスライドショーグループは格納された画像を再生表示する時間（期間）に関する情報を格納しない構成とした。これにより、スライドショー表示する画像の表示時間をアプリケーションが決定して再生することとなる。この際に、ＨＥＩＦファイルに格納された音声トラックは時間情報を持ったプレゼンテーション情報であるため音声トラックの再生が先に終了してしまう可能性が考えられる。そのため、記述６０２に示すｆｌａｇｓを用いてスライドショー再生中に音声トラックデータの再生が終了した際のふるまいを識別する情報を指定する。具体的には、ａｕｄｉｏ＿ｐｌａｙ＿ｌｏｏｐを定義（例えば値２）し、ｆｌａｇｓ＆ａｕｄｉｏ＿ｐｌａｙ＿ｌｏｏｐが正（ｔｒｕｅ）となる場合は音声トラックの再生を繰り返し行う。一方でｆｌａｇｓ＆ａｕｄｉｏ＿ｐｌａｙ＿ｌｏｏｐが負（ｆａｌｓｅ）となる場合は音声トラックの再生を最後まで行った後はスライドショー表示が続いていたとしてもオーディオの再生は行われないことを示す。なお、ＩＳＯＢＭＦＦではＴｒａｃｋＢｏｘ（ｔｒａｋ）内のＥｄｉｔＢｏｘ（ｅｄｔｓ）内にＥｄｉｔＬｉｓｔＢｏｘ（ｅｌｓｔ）が規定されている。このＢｏｘではプレゼンテーション時間とメディア時間とのマッピングを示すＢｏｘ構造である。本Ｂｏｘにも同様にｆｌａｇｓが規定されており、ｅｄｉｔｌｉｓｔを繰り返し再生するか否かを指定できる。つまり音声トラックを繰り返すかを規定可能である。一方で前述したｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに設けたｆｌａｇｓを用いて音声トラックの再生を繰り返し行うか否かを設定可能とする。これにより、同一音声トラックが複数のｉａｕｇグループに指定されていた場合でも個別のグループ毎に音声の繰り返しを行うか否かを指定可能となる。この場合ＥｄｉｔＬｉｓｔＢｏｘを用いて指定された繰り返し設定は無視（上書き）され、ｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘで指定されたｆｌａｇｓ設定のみが有効となることが望ましい。一方でそれぞれのｆｌａｇｓ設定を考慮した動作としてもよい。具体的にはいずれか一方が繰り返し設定となっていた場合はグループに指定された画像の表示が続く限り音声の再生を繰り返し行う。または両方のｆｌａｇｓが繰り返し設定になっていた場合にのみ繰り返し再生を行うといったことが考えられる。

またその他、あらかじめ指定された音声トラックの情報からスライドショー再生する全体時間を決定して、指定された画像数で割った時間分画像を表示させるようにしてもよい。具体的には、ＴｒａｃｋＨｅａｄｅｒＢｏｘに指定されたＤｕｒａｔｉｏｎとＴｉｍｅＳｃａｌｅに指定された値をスライドショー再生の全体時間とする。そして、オーディオトラックの再生が１回または複数回終了するまでの間画像をスライドショー表示するようにアプリケーションが制御を行う。つまり、ＴｒａｃｋＨｅａｄｅｒＢｏｘに指定された再生時間をスライドショーグループに指定されたｎｕｍ＿ｅｎｔｉｔｉｅｓ＿ｉｎ＿ｇｒｏｕｐ－１で割った時間が１枚あたりの画像のスライドショー表示時間となるようにしてもよい。なお、本フラグを用いることなくデフォルト動作として規定してもよい。例えば、オーディオトラックのデュレーションに指定された長さよりも長い間スライドショー表示を行う場合スライドショーの表示が継続されている場合、オーディオトラックを繰り返し再生する。一方で、スライドショーグループに指定された画像の表示が終了した後もオーディオトラックの再生を継続するようにしてもよい。具体的にはオーディオの繰り返し設定ようのｆｌａｇｓと同様にａｕｄｉｏ＿ｐｌａｙ＿ｃｏｍｐｌｅｔｅｌｙを定義（例えば値４）する。そして、ｆｌａｇｓ＆ａｕｄｉｏ＿ｐｌａｙ＿ｃｏｍｐｌｅｔｅｌｙが正（ｔｒｕｅ）となる場合はオーディオをスライドショー画像表示が終わった後も継続して再生する。ｆｌａｇｓ＆ａｕｄｉｏ＿ｐｌａｙ＿ｃｏｍｐｌｅｔｅｌｙが負（ｆａｌｓｅ）となる場合はスライドショー画像の表示が終了するとオーディオトラックの再生が途中であっても再生を終了する。

なお、ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘはＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘの拡張であるため、トラックについてもグループとして制限なく格納可能である。しかしながら、本実施形態では最初のｅｎｔｉｔｙ＿ｉｄのみをトラックＩＤに限定し、以降のｅｎｔｉｔｙ＿ｉｄを画像アイテムのみに限定する。これによりトラックＩＤとアイテムＩＤが一意に識別できない場合であってもｅｎｔｉｔｙ＿ｉｄに指定された格納位置によってトラックＩＤとアイテムＩＤそれぞれが識別可能となる。また、トラックＩＤとアイテムＩＤが一意に識別できた場合であったとしも、あらかじめ１番目のＩＤをトラックＩＤと限定しておくことで再生処理時にＩＤ検索の範囲を限定することができ処理効率が向上する。ただし、別の形態では任意の位置にトラックＩＤを含める構成としてもよく、例えばトラックＩＤが指定された以降に音声の再生を開始し、以降のアイテムＩＤをスライドショー表示する際にオーディオ付きの再生となるようにしてもよい。この場合アイテムＩＤとトラックＩＤを一意に識別する必要があるためアイテムＩＤやトラックＩＤ、グループＩＤのＩＤを一意に識別できることが求められる。例えば、ｍｅｔａＢｏｘをファイルのトップレベル（ｍｏｏｖＢｏｘ内のｍｅｔａＢｏｘではない）に格納し、その中にＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘを格納する場合は一意に識別可能となる。また同様にＩＳＯＢＭＦＦで定義されている、ｕｎｉｆブランド定義がＦｉｌｅＴｙｐｅＢｏｘ（ｆｔｙｐ）（領域５０１に対応）に指定されたファイルであればこれが保証可能となる。またその他、音声データをアイテムとして定義してｅｎｔｉｔｙ＿ｉｄに指定する方法であってもよい。この場合別途音声アイテムと実際の音声データを紐づけるための定義を行って格納する必要がある。

また、本実施形態では音声付のスライドショーグループのタイプを定義してスライドショーグループを拡張してオーディオトラックＩＤを格納可能とした。しかしながら同様の拡張を行うことでスライドショーのみならず他のＥｎｔｉｔｙグループにおいても音声の再生を付加することが可能となる。つまり、例えば、パノラマエンティティグループやステレオエンティティグループなどにおいてもオーディオ付きのエンティティグループタイプを定義する。そして、同様に特定の格納位置のｅｎｔｉｔｙ＿ｉｄをオーディオトラックとすることでオーディオの紐づけを可能とする。

また、音声付スライドショーグループの格納方法として、ＩＳＯ／ＩＥＣ２３００８－１２：２０１７ＦＤＡＭ２で定義されたｉａｕｇエンティティグループを拡張した形態であってもよい。具体的にはＩＳＯ／ＩＥＣ２３００８－１２：２０１７ＣＤＡＭ３で定義されたｓｌｉｄエンティティグループとｉａｕｇエンティティグループを拡張した構成で格納を行う。本形態の音声付スライドショーグループを格納した値（データ）の例を、図１０を参照して説明する。図１０は、本実施形態で出力されるＨＥＩＦファイルの例を示す図である。図１０の記述１００１に示すＦｉｌｅＴｙｐｅＢｏｘ（ｆｔｙｐ）にはアイテムＩＤやトラックＩＤ、グループＩＤが一意に識別可能なブランド定義であるｕｎｉｆブランドが格納されている。また記述１００２に示すＰｒｉｍａｒｙＩｔｅｍＢｏｘ（ｐｉｔｍ）には、ｉｔｅｍ＿ＩＤとして２００１が格納されている。なお、ＰｒｉｍａｒｙＩｔｅｍＢｏｘの拡張を行い本Ｂｏｘに指定するＩＤとしてオーディオ付きスライドショーを識別するグループのグループＩＤを指定するようにしてもよい。具体的には後述するｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ（ｉａｕｇ）を識別するグループＩＤまたは、ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ（ｓｌｉｄ）を識別するグループＩＤを指定する。その場合はＩＤとして後述するｇｒｏｕｐ＿ｉｄである１００２または１００１を指定する。記述１００３に示すＩｔｅｍＩｎｆｏＢｏｘは、各画像アイテムをｉｔｅｍ＿ＩＤで識別可能とし、ｉｔｅｍ＿ＩＤで識別される画像アイテムがどのような種類の画像アイテムであるかを示す。ｉｔｅｍ＿ＩＤが２００１である画像アイテムは‘ｈｖｃ１’であり、ＨＥＶＣ符号化イメージであることを示す。同様にしてｉｔｅｍ＿ＩＤ２０４８である画像アイテムまですべての画像アイテムがＨＥＶＣ符号化イメージとして格納されている。記述１００４に示すＩｔｅｍＬｏｃａｔｉｏｎＢｏｘ（ｉｌｏｃ）は、各画像データビットストリームのファイル内の格納位置を示している。各画像データビットストリームは記述１０１０に示すＭｅｄｉａＤａｔａＢｏｘ内のどの位置にデータが存在するかを特定することが可能となっている。記述１００５に示すＩｔｅｍＰｒｏｐｅｒｔｉｅｓＢｏｘ（ｉｐｒｐ）内のＩｔｅｍＰｒｏｐｅｒｔｙＣｏｎｔａｉｎｅｒＢｏｘ（ｉｐｃｏ）には、画像の属性情報を示すＩｔｅｍＰｒｏｐｅｒｔｙが格納されている。ｈｖｃＣはＨＥＶＣ符号化パラメータを示し、ｉｓｐｅは画像のサイズを示す属性情報である。またｗｉｐｅはスライドショー表示の際が画像間の表示切り替えを行う際の効果を示している。記述１００６は各画像アイテムと属性情報との関連を示したＩｔｅｍＰｒｏｐｅｒｔｙＡｓｓｏｃｉａｔｉｏｎＢｏｘ（ｉｐｍａ）を示す。各画像アイテムが順にｉｐｃｏ内の属性情報と関連づけが行われる。例えばｉｔｅｍ＿ＩＤ２００１からｉｔｅｍ＿ＩＤ２０４８には共通ｉｓｐｅが関連づけられており共通の画像サイズであることが示されている。またｉｔｅｍ＿ＩＤ２００１には画像切り替え効果としてｗｉｐｅが指定されている。アイテムＩＤ２００１の画像を他の画像に切り替える際にはｗｉｐｅ効果を適応して表示の切り替えを行うことを示している。記述１００７は、ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ（ｓｌｉｄ）である。ｇｒｏｕｐ＿ｉｄは１００１、グループのエントリ数は４８個が指定されている。ｅｎｔｉｔｙ＿ｉｄにはスライドショー表示の順に各画像のアイテムＩＤが２００１から２０４８まで指定されている。記述１００８はｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ（ｉａｕｇ）である。ｇｒｏｕｐ＿ｉｄは１００２、グループのエントリ数は２個が指定されている。ｅｎｔｉｔｙ＿ｉｄには音声トラックＩＤを示すｅｎｔｉｔｙ＿ｉｄ１とスライドショーグループを示すグループＩＤ１００１が格納されている。ＩＳＯ／ＩＥＣ２３００８－１２：２０１７ＦＤＡＭ２で定義されたｉａｕｇエンティティグループでは、ｎｕｍ＿ｅｎｔｉｔｉｅｓ＿ｉｎ＿ｇｒｏｕｐは２であり、そのうち１つは画像アイテムを示し、もう一方は音声トラックを示す。一方で本実施形態では画像アイテムを指定する部分を拡張し、他のＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤを指定可能とするものである。これによりＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤをｉａｕｇグループのｅｎｔｉｔｙ＿ｉｄに指定可能とする。そして、ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに格納したスライドショーを表示する際に音声データを再生可能とする。これにより音声付スライドショー再生表示するための情報が格納される。

記述１００９は、ＭｏｖｉｅＢｏｘ（ｍｏｏｖ）であり、図８の記述８０９に示した構成と同じである。また同様にして、音声付スライドショーグループの格納方法として、ＩＳＯ／ＩＥＣ２３００８－１２：２０１７ＦＤＡＭ２で定義されたｉａｕｇエンティティグループを拡張した別の形態を示す。本形態の音声付スライドショーグループを格納した値（データ）の例を、図１７を参照して説明する。図１０に示した音声付スライドショーグループを格納した値（データ）の例では、音声を関連づける画像グループのグループＩＤをｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘで指定した。一方で図１７に示した格納した例では関連づける音声のトラックもＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘを用いてグループ化した上でｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのｅｎｔｉｔｙ＿ｉｄの音声のグループＩＤを指定可能とする。図１７における記述１７０１から記述１７０７は図１０における記述１００１から記述１００７と共通である。記述１７０８はｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ（ｉａｕｇ）である。ｇｒｏｕｐ＿ｉｄは１００２、グループのエントリ数は２個が指定されている。ｅｎｔｉｔｙ＿ｉｄには後述する代替可能な音声トラックを示すａｌｔｒＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤを示すｅｎｔｉｔｙ＿ｉｄ１００３とスライドショーグループを示すグループＩＤ１００１が格納されている。ＩＳＯ／ＩＥＣ２３００８－１２：２０１７ＦＤＡＭ２で定義されたｉａｕｇエンティティグループでは、ｎｕｍ＿ｅｎｔｉｔｉｅｓ＿ｉｎ＿ｇｒｏｕｐは２であり、そのうち１つは画像アイテムを示し、もう一方は音声トラックを示す。一方で本実施形態では画像アイテムを指定する部分を拡張し、他のＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤを指定可能とする。さらに音声トラックを指定する部分を拡張し、他のＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤを指定可能とするものである。これによりＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤをｉａｕｇグループのｅｎｔｉｔｙ＿ｉｄに指定可能とする。さらに、複数の音声トラックを含むａｌｔｒＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤをｉａｕｇグループのｅｎｔｉｔｙ＿ｉｄに指定可能とする。記述１７０９はａｌｔｒＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ（ａｌｔｒ）である。ｇｒｏｕｐ＿ｉｄは１００３、グループのエントリ数は２個が指定されている。ｅｎｔｉｔｙ＿ｉｄには記述１７１０の音声トラックのＩＤである１及び記述１７１１の音声トラックのＩＤである２が格納されている。ａｌｔｒＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに指定されたｅｎｔｉｔｙ＿ｉｄは代替可能なｅｎｔｉｔｙのＩＤが指定されており、その再生においてアプリケーションのニーズ等に合わせていずれかを選択して再生を行うことが可能となっている。なお、ｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘの音声のためのｅｎｔｉｔｙ＿ｉｄにＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤを指定する場合はそのグループに指定されたｅｎｔｉｔｙ＿ｉｄはすべて音声トラックＩＤが指定されていることが望ましい。

なお音声トラックのグループ化はグループタイプａｌｔｒに限らず、スライドショーのように音声用のプレイリストを示すグループタイプを定義して指定することも可能である。これによりｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘは音声と画像を関連づける情報として利用可能となる。つまり音声トラックと画像グループ、音声グループと画像、音声グループと画像グループいずれの組み合わせであってもよい。なお、ＩＳＯ／ＩＥＣ２３００８－１２：２０１７ＦＤＡＭ２で定義されたｉａｕｇエンティティグループでは、音声トラックＩＤと画像アイテムＩＤのみを指定可能であった。この際指定された音声トラックＩＤが別のグループとして指定したａｌｔｒＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのｅｎｔｉｔｙ＿ｉｄに指定されている場合は、いずれかを選択して音声を再生することが規定されている。一方で本形態によれば直接ａｌｔｒグループＩＤが指定可能となり再生時の処理が簡素化可能である。つまりこれまではｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに指定された音声トラックＩＤが別のａｌｔｒグループに指定されているか否かをパースしたうえで再生する音声を決定しなければならなかったが、グループＩＤを直接指定可能としてことになる。これにより、ｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘをパースした時点で代替可能なオーディオトラックがあるかどうかを判別可能となる。

これによりＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに格納したスライドショーを表示する際に音声グループに指定された音声データを指定されたグループに応じた音声再生方法によって再生可能とする。これにより音声付スライドショー再生表示するための情報が格納される。

なお、複数のｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘを１つのファイルに格納することも可能となっている。そのため、同一の音声トラックＩＤが複数のｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに指定された場合、グループ毎に音声データを先頭から再生することを想定する。一方で表示する画像グループまたは画像の表示を切り替える際にｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに指定された音声トラックが再生中であった場合は、音声トラックの再生は継続したまま画像表示を切り替えるようにしてもよい。また、個別のｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘにおいて画像アイテムと音声トラックとが関連づけられていたとしても画像グループの生成時には個別に関連づけられた音声トラック情報は無視する。本実施形態ではｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに指定するｅｎｔｉｔｙ＿ｉｄに他のＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤを指定可能とした。しかし、指定するグループＩＤはｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤは指定してはならない。つまりネストによるループを避ける必要がある。

次に、図９を用いて本実施形態におけるメタデータの生成処理を説明する。図９は、本実施形態におけるスライドショーのメタデータ生成処理の流れの別例を表すフローチャートである。図９において、スライドショーのメタデータ生成処理は、Ｓ９０１から開始し、はじめにＳ９０２において、ＣＰＵ１０２が、スライドショーで表示する画像を選択し、表示順序を決定する。本形態では、再生装置が表示時間（期間）を決定する格納方法のため表示時間に関するパラメータは格納しない。つまり、ファイル再生時に任意の時間（期間）をアプリケーションで指定して再生処理を行う。次にＳ９０３においてメタデータ処理部１０６は、ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのメタデータを生成し、スライドショーの表示画像のグループを設定する。具体的には、メタデータ処理部１０６は、スライドショーで表示する画像をグループ化するための情報（グループ情報）を生成する。このグループ情報は、ＧｒｏｕｐｓＬｉｓｔＢｏｘ（ｇｒｐｌ）に格納する図１０の記述１００７のメタデータである。ＨＥＩＦでは、ｇｒｐｌに画像データなどのアイテムのグループ情報が格納される。グループ情報には、グループ識別情報としてのグループＩＤと、グループタイプが付与され、ＨＥＩＦファイル内において識別される。本実施形態では、Ｓ９０３において、メタデータ処理部１０６は、グループ情報としてスライドショーグループ情報（ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ）を生成する。図１１に、ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのデータフォーマットを示す。メタデータ処理部１０６は、図１１に示すデータフォーマットのデータを生成し、ｇｒｐｌに格納する。本ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘは複数の画像イメージセットをスライドショー表示することを目的としたｅｎｔｉｔｙのグループを識別するためのＢｏｘである。このＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループタイプは‘ｓｌｉｄ’であり、スライドショーに使用するアイテムのグループであることを意味する。図１１のデータフォーマットは、ＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘからの拡張であるため、グループＩＤを格納するｇｒｏｕｐ＿ｉｄ、グループに含むアイテムの個数を示すｎｕｍ＿ｅｎｔｒｉｅｓ＿ｉｎ＿ｇｒｏｕｐは別途指定される。また、アイテムＩＤは、スライドショーで表示する選択画像のアイテムＩＤを表示順序通りに指定する。

次にＳ９０４において、スライドショー画像表示の際に再生するオーディオを選択し、メタデータから音声トラックＩＤを取得する。なお音声トラックを別途グループ化した場合には音声トラックＩＤを複数取得してグループ化した上で、グループＩＤを取得する。Ｓ９０２とＳ９０４の選択処理は、予めメディアファイル生成装置１００に対して設定された情報や、ユーザーインターフェース部１０８を介するユーザーによる操作等に基づいて行われてもよい。

次にＳ９０５において、メタデータ処理部１０６は、オーディオ付きスライドショーを構成するためのメタデータを生成する。具体的には、メタデータ処理部１０６は、グループ情報として、ｉａｕｇエンティティグループを生成する。このグループ情報は、ＧｒｏｕｐｓＬｉｓｔＢｏｘ（ｇｒｐｌ）に格納する図１０の記述１００８のメタデータである。グループ情報には、グループ識別情報としてのグループＩＤと、グループタイプが付与され、ＨＥＩＦファイル内において識別される。本実施形態では、Ｓ９０５において、メタデータ処理部１０６は、グループ情報としてｉａｕｇエンティティグループを生成する。本ｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘは１つの音声トラックと画像アイテムまたはエンティティグループを関連づけることを目的としたｅｎｔｉｔｙのグループを識別するためのＢｏｘである。このｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループタイプは‘ｉａｕｇ’であり、音声とアイテムまたはグループのグループであることを意味する。

次にＳ９０６において、ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに選択して格納した画像の画像属性情報に個別指定する切り替え効果をそれぞれ設定し、Ｓ９０７において処理を終了する。本実施形態に示したようにｉａｕｇエンティティグループに格納するｅｎｔｉｔｙ＿ｉｄの１つを音声トラックＩＤ、もう一方を画像アイテムＩＤまたはエンティティグループのグループＩＤを指定可能な構成とした。本形態によればスライドショーグループに音声トラックを関連づけるだけでなく、他のエンティティグループ（例えばパノラマエンティティグループやバーストエンティティグループなど）においてもエンティティグループと音声トラックを関連づけ可能となる。本形態でも同様にｉａｕｇエンティティグループにフラグを追加して、音声トラックのデュレーションよりも長い間画像が表示されている場合にプレーヤーが音声の再生を繰り返し行う必要があるかを指定してもよい。また同様に、本フラグを用いることなくデフォルト動作として規定してもよい。例えば、オーディオトラックのデュレーションに指定された長さよりも長い間スライドショー表示を行う場合スライドショーの表示が継続されている場合、オーディオトラックを繰り返し再生する。

また、その他の形態として、ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに格納するアイテムＩＤが音声トラックと関連づけられていた場合にその音声をグループ全体に関連づけることも可能である。つまりｉａｕｇエンティティグループで画像アイテムと音声トラックが関連づけられており、そのアイテムＩＤがＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに格納されていた場合である。この場合、ｉａｕｇエンティティグループで指定した音声トラックを、関連付けられた画像アイテムだけでなく、その画像アイテムを含むＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙグループのスライドショーを再生する際にグループ全体に適応して再生する。また、このようなｉａｕｇグループが複数あった場合には、いずれか１つを選ぶという方法や、そのアイテムＩＤを再生する際に音声の再生を開始し、次の音声と関連づけられた画像アイテムを再生するときに音声を切り替える方法などが考えられる。この場合、音声と関連づけられた画像アイテムを最初に表示する場合に音声の再生を始めるようにしてもよいし、スライドショー再生の先頭から該当の音声を再生するようにしてもよい。またその他、ＰｒｉｍａｒｙＩｔｅｍＢｏｘに指定されたアイテムＩＤがｉａｕｇグループでかつ、ＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに格納されていた場合にのみオーディオ付きスライドショーの再生を行うといったことも考えられる。また、その他の形態としてＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘの拡張を行い、１つ目のｅｎｔｉｔｙ＿ｉｄを音声トラック用のＩＤとし、音声を紐づける場合は１つ目のｅｎｔｉｔｙ＿ｉｄに音声トラックＩＤを指定する。音声の紐づけを行わない場合は１つ目のｅｎｔｉｔｙ＿ｉｄに０などのファイル内で使用していない値を指定し、音声なしのスライドショーグループであることを示すようにしてもよい。

［スライドショーの再生処理］
次に、メディアファイルに格納したスライドショーの再生処理について図４を用いて説明する。図４は、メディアファイルのスライドショー再生処理のフローチャートである。具体的には、図４は、ＨＥＩＦファイルフォーマットに従って１つ以上の静止画をスライドショーとして格納したファイルを再生する処理の流れを示している。図４のフローチャートの各ステップは、ＣＰＵ１０２によるソフトウェア、画像符号化／復号化処理部１０５、メタデータ処理部１０６、音声符号化／復号化処理部１１０の何れかによって実行される処理を示す。なお、以下の説明において、ＣＰＵ１０２という記述はＣＰＵ１０２で実行するソフトウェア処理であるものとする。

メディアファイル再生でのスライドショー再生処理は、Ｓ４０１から開始する。そして、まずＳ４０２において、ＣＰＵ１０２が、ＲＡＭ１０３もしくはＲＯＭ１０４上で記憶しているＨＥＩＦファイルの中から、メタデータ格納領域５１０（ＭｅｔａＢｏｘ（ｍｅｔａ））に格納してあるメタデータを取得する。次にＳ４０３において、ＣＰＵ１０２は、Ｓ４０２で取得したメタデータを解析し、Ｓ４０４において、ＣＰＵ１０２は、解析の結果、メタデータ中にスライドショーに関するメタデータが格納されているかを判定する。メタデータ中にスライドショーに関するメタデータが格納されている場合は（Ｓ４０４でＹＥＳ）、処理はＳ４０５へ進み、そうでなければ（Ｓ４０４でＮＯ）、処理はＳ４１９へ進む。Ｓ４１９へ進む場合、メディアファイル生成装置１００は、ＨＥＩＦファイルに格納された代表画像の再生処理を実行する。Ｓ４１９、Ｓ４２０において、代表画像に指定された画像の符号化データを取得し復号化処理を行い、画像データをバッファに保存する。Ｓ４２１において代表画像を表示し、Ｓ４２２で処理を終了する。

Ｓ４０５において、さらにスライドショーに関するメタデータにオーディオが紐づけられているかを判定する。スライドショーのメタデータにオーディオが紐づけられている場合は（Ｓ４０５でＹＥＳ）Ｓ４０６へ進み、そうでなければ（Ｓ４０５でＮＯ）、処理はＳ４１５へ進む。Ｓ４１５に進む場合、メディアファイル生成装置１００は、ＨＥＩＦファイルに格納されたオーディオなしのスライドショー再生処理を実行する。Ｓ４１５において、画像符号化／復号化処理部１０５は、スライドショー表示する順に画像データを取得する。画像データはメタデータに格納されたメディアファイル内の位置情報から符号化データ格納領域５５０（ＭｅｄｉａＤａｔａＢｏｘ（ｍｄａｔ））内の位置を特定して取得する。Ｓ４１６において画像符号化／復号化処理部１０５は、表示する画像データを復号化し、Ｓ４１７において復号化した画像データをいったんバッファに保存する。続いてＳ４１８では、ＣＰＵ１０２は、メタデータに記載されている属性情報とアプリケーションで決定した表示時間に従い画像を表示部１０７に表示する。Ｓ４１５からＳ４１８までの処理を繰り返し実行してＨＥＩＦファイルに格納された画像を表示部１０７に順次表示する。なお、本実施形態では図示していないが、ＣＰＵ１０２は、スライドショーとして格納された画像すべてを表示し終わった場合、先頭の画像から繰り返し表示するように、または、スライドショー表示を終了するように表示部１０７を制御してもよい。

Ｓ４０６においてＣＰＵ１０２が、ＲＡＭ１０３もしくはＲＯＭ１０４上で記憶しているＨＥＩＦファイルの中から、スライドショーのメタデータに紐づけられたオーディオのメタデータを取得する。具体的には格納領域５３０（ＭｏｏｖｉｅＢｏｘ（ｍｏｏｖ））に格納してあるメタデータからオーディオトラックに関するメタデータを取得する。Ｓ４０７において、ＣＰＵ１０２は、Ｓ４０６で取得したメタデータを解析し、音声符号化／復号化処理部１１０は、再生するオーディオ符号化データを取得する。オーディオ符号化データはメタデータに格納されたメディアファイル内の位置情報から符号化データ格納領域５５０（ＭｅｄｉａＤａｔａＢｏｘ（ｍｄａｔ））内の位置を特定して取得する。Ｓ４０８において音声符号化／復号化処理部１１０は、再生する音声データを復号化し、Ｓ４０９において復号化した音声データをいったんバッファに保存する。Ｓ４１０において、画像符号化／復号化処理部１０５は、スライドショー表示する順に画像データを取得する。画像データはメタデータに格納されたメディアファイル内の位置情報から符号化データ格納領域５５０（ＭｅｄｉａＤａｔａＢｏｘ（ｍｄａｔ））内の位置を特定して取得する。Ｓ４１１において画像符号化／復号化処理部１０５は、表示する画像データを復号化し、Ｓ４１２において復号化した画像データをいったんバッファに保存する。Ｓ４１３においてメディアファイル生成装置（再生装置）の音声出力が有効であるかを判定する。これは音声出力部１１１の設定がミュート設定になっているか、デバイスが有効になっているかといったソフトウェアの設定を判定する。さらに音声出力デバイスを備えているかのハードウェア接続の判定も含む。例えばヘッドホンやスピーカーが接続されているかといった判定である。再生装置の音声出力が有効の場合（Ｓ４１３でＹＥＳ）Ｓ４１４へ進み、そうでない場合（Ｓ４１３でＮＯ）Ｓ４１８へ進む。Ｓ４１４においてバッファに保存したオーディオデータの再生を開始する。続いてＳ４１８では、ＣＰＵ１０２は、メタデータに記載されている属性情報とアプリケーションで決定した表示時間に従い画像を表示部１０７に表示する。Ｓ４１０からＳ４１２およびＳ４１８までの処理を繰り返し実行してＨＥＩＦファイルに格納された画像を表示部１０７に順次表示する。なお、本実施形態では図示していないが、ＣＰＵ１０２は、スライドショーとして格納された画像すべてを表示し終わった場合、先頭の画像から繰り返し表示するように、または、スライドショー表示を終了するように表示部１０７を制御してもよい。またオーディオデータの再生が終了した場合（格納されたサンプルの最後まで再生を行った場合）、オーディオデータの最初から繰り返し再生するように制御してもよいし、オーディオ再生のみを終了してもよい。また前述したオーディオ付きスライドショーのメタデータに含まれるｆｌａｇｓ等で指定されたようにオーディオ再生を行ってもよい。またオーディオデータの再生を特定の画像データの表示以降に開始するメタデータ格納であった場合は、そのように制御するフローとしてもよい。

以上、本実施形態によればスライドショー再生の音声及び画像をグループ化することでＨＥＩＦファイルに格納された複数の画像と音声を効果的に関連づけたスライドショー表示を意図する格納をすることが可能となる。またその格納において動画形式として格納することなく画像および音声のグループとして格納することで容易に識別、格納することが可能となる。

また、スライドショーグループに格納する画像として派生画像を音声付でスライドショーとして表示することが可能となる。派生画像とは、例えば、アイデンティティ（ｉｄｅｎ）やグリッド（ｇｒｉｄ）イメージやオーバーレイ（ｉｏｖｌ）イメージである。

また、１つのファイル内に複数のスライドショーグループを異なるグループＩＤを用いて格納することも可能であり、１ファイル内に複数のスライドショー表現を格納することも可能である。またスライドショー再生を行う複数の画像、音声、プレイリストとなる情報が１つのファイルに格納することでスライドショー再生を意図した情報を１ファイルとして扱うことができ可搬性が向上する。

＜実施形態２＞
実施形態１ではスライドショーに１つのオーディオ（音声）を関連づける方法を説明した。実施形態２では複数のオーディオを関連づけ、スライドショーの途中でオーディオを切り替える方法について説明する。実施形態２におけるメディアファイル生成装置は、実施形態１において図１で説明した構成と同一の構成を有する。また、図２で示されるメディアファイル生成処理も本実施形態に同様に適用できる。但し、図２のＳ２０８からＳ２１０のオーディオデータを格納する処理を指定するオーディオデータの個数分格納する。オーディオ付きスライドショーのメタデータ生成処理（Ｓ２１１）および、再生フローが実施形態１と異なる。したがって本実施形態では、主にＳ２１１の処理および再生フローについて、図１２、図１３、図１４、図１５、及び図１６を参照しながら説明する。

図１２は、本実施形態におけるオーディオ付きスライドショーのメタデータ生成処理の流れを表すフローチャートである。この処理はＳ１２０１から開始し、はじめにＳ１２０２において、ＣＰＵ１０２が、ＨＥＩＦファイルに格納する画像データの中からスライドショーで表示する１つ以上の画像データを選択し、且つそれらの表示順序を決定する。本実施形態では、ＨＥＩＦファイルに格納するスライドショー表示する画像を表示する時間（期間）に関する情報は指定しない構成とした。つまり、ファイル生成時には値を指定せず、再生時に任意の値を決定して再生する。一方で、別途表示時間を決定し、ファイルに格納するようにしてもよい。次に、Ｓ１２０３において、ＣＰＵ１０２は、スライドショー表示の際に再生する音声データを選択し、メタデータからオーディオトラックＩＤを取得する。本処理では複数の音声データを選択してもよいし、１つだけを選択するようにしてもよい。Ｓ１２０２とＳ１２０３選択処理は、予めメディアファイル生成装置１００に対して設定された情報や、ユーザーインターフェース部１０８を介するユーザーによる操作等に基づいて行われてもよい。次にＳ１２０４において、選択したオーディオの再生を開始するスライドショー表示画像を決定する。本処理は複数のオーディオデータを選択した場合、オーディオデータ毎に決定する。ここで決定した画像をスライドショー再生する際に選択したオーディオの再生を開始することとなる。

次にＳ１２０５において、メタデータ処理部１０６は、オーディオ付きスライドショーグループのメタデータを生成し、決定した表示順に画像アイテムＩＤを設定する。次にＳ１２０６において、決定したオーディオ再生開始画像に対応するオーディオ付きスライドショーグループに格納した画像アイテムＩＤの１つ前にオーディオトラックＩＤを挿入する。具体的には、メタデータ処理部１０６は、スライドショーで表示する画像及び再生する音声をグループ化するための情報（グループ情報）を生成する。このグループ情報は、図５の領域５１９（ＧｒｏｕｐｓＬｉｓｔＢｏｘ（ｇｒｐｌ））に格納するメタデータである。ＨＥＩＦでは、ｇｒｐｌに画像データなどのアイテムやトラックのグループ情報が格納される。グループ情報には、グループ識別情報としてのグループＩＤと、グループタイプが付与され、ＨＥＩＦファイル内において識別される。本実施形態では、Ｓ１２０５及びＳ１２０６において、メタデータ処理部１０６は、グループ情報として音声付スライドショーグループ情報（ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ）を生成する。図１３に、ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのデータフォーマットを示す。ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘの派生元となるＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのデータフォーマットは図７に示したものと共通である。なお、トラックＩＤが連続して設定することはできないものとする。トラックＩＤを連続して格納されたファイルであった場合、いずれか一方のトラックＩＤを無視して再生する。またその他、連続する２つ（またはそれ以上）のトラックＩＤに対応する音声データを１連の音声データとして扱って再生処理を行うようにしてもよい。この場合１つ目のトラックＩＤの再生が終わると続くトラックＩＤの再生を行うようにする。さらに後続する画像アイテムＩＤの後にトラックＩＤが現れた場合は新たに表れたトラックＩＤの音声を再生対象とする。

メタデータ処理部１０６は、図１３に示すデータフォーマットのデータを生成し、ｇｒｐｌに格納する（図５の領域５２０を参照）。本ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘは複数の画像イメージセットを音声付でスライドショー表示することを目的としたｅｎｔｉｔｙのグループを識別するためのＢｏｘである。このＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループタイプは記述１３０１に示す‘ｓｌｄａ’であり、音声付スライドショーに使用するトラック及びアイテムのグループであることを意味する。

図１３のデータフォーマットは、ＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘからの拡張である。そのため、図７の記述７０１に示すｇｒｏｕｐ＿ｉｄ、記述７０２に示すｎｕｍ＿ｅｎｔｒｉｅｓ＿ｉｎ＿ｇｒｏｕｐは別途指定される。

記述１３０３に示すｎｕｍ＿ｅｎｔｒｉｅｓ＿ｉｎ＿ｇｒｏｕｐは記述７０２で指定した値と同じ値である。また、記述７０３に示すｅｎｔｉｔｙ＿ｉｄはトラックＩＤまたはアイテムＩＤを示す。Ｓ１２０５ではｅｎｔｉｔｙ＿ｉｄにスライドショーで表示する選択画像のアイテムＩＤを表示順序通りに指定する。次にＳ１２０６ではＳ１２０５で指定したアイテムＩＤに挿入する形でトラックＩＤを指定する。そして音声トラックであるか画像アイテムであるかを識別可能とするため記述１３０４のｆｌａｇｓに設定を行う。これは例えば、ａｕｄｉｏ＿ｆｌａｇを定義する（例えば１）。ｆｌａｇｓ＆ａｕｄｉｏ＿ｆｌａｇが正（ｔｒｕｅ）である格納順のｅｎｔｉｔｙ＿ｉｄがオーディオトラックＩＤであることを示す。また、ｆｌａｇｓ＆ａｕｄｉｏ＿ｆｌａｇが負（ｆａｌｓｅ）である格納順のｅｎｔｉｔｙ＿ｉｄは画像アイテムであることを示す。なお、ＨＥＩＦファイルに格納するオーディオ付きスライドショーグループは格納された画像を再生表示する時間（期間）に関する情報を格納しない構成とした。一方でＨＥＩＦファイルに格納された音声トラックは時間情報を持ったプレゼンテーション情報であるため音声トラックの再生が先に終了してしまう可能性が考えられる。そのため記述１３０２のｆｌａｇｓを用いてスライドショー再生中（次の音声トラックＩＤが指定されるまで）に音声トラックデータの再生が終了した際のふるまいを識別する情報を指定する。具体的にはａｕｄｉｏ＿ｐｌａｙ＿ｌｏｏｐを定義（例えば値１）し、ｆｌａｇｓ＆ａｕｄｉｏ＿ｐｌａｙ＿ｌｏｏｐが正（ｔｒｕｅ）となる場合は音声トラックの再生を繰り返し行う。一方でｆｌａｇｓ＆ａｕｄｉｏ＿ｐｌａｙ＿ｌｏｏｐが負（ｆａｌｓｅ）となる場合は音声トラックの再生を最後まで行った後はスライドショー表示が続いていたとしてもオーディオの再生は行われないことを示す。なお、本フラグを用いることなくデフォルト動作として規定してもよい。ＩＳＯＢＭＦＦではＴｒａｃｋＢｏｘ（ｔｒａｋ）内のＥｄｉｔＢｏｘ（ｅｄｔｓ）内にＥｄｉｔＬｉｓｔＢｏｘ（ｅｌｓｔ）が規定されている。このＢｏｘではプレゼンテーション時間とメディア時間とのマッピングを示すＢｏｘ構造である。本Ｂｏｘにも同様にｆｌａｇｓが規定されており、ｅｄｉｔｌｉｓｔを繰り返し再生するか否かを指定できる。つまり音声トラックを繰り返すかを規定可能である。一方で前述したｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに設けたｆｌａｇｓを用いて音声トラックの再生を繰り返し行うか否かを設定可能とする。これにより、同一音声トラックが複数のｉａｕｇグループに指定されていた場合でも個別のグループ毎に音声の繰り返しを行うか否かを指定可能となる。この場合ＥｄｉｔＬｉｓｔＢｏｘを用いて指定された繰り返し設定は無視（上書き）され、ｉａｕｇＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘで指定されたｆｌａｇｓ設定のみが有効となることが望ましい。一方でそれぞれのｆｌａｇｓ設定を考慮した動作としてもよい。具体的にはいずれか一方が繰り返し設定となっていた場合はグループに指定された画像の表示が続く限り音声の再生を繰り返し行う。または両方のｆｌａｇｓが繰り返し設定になっていた場合にのみ繰り返し再生を行うといったことが考えられる。例えば、オーディオトラックのデュレーションに指定された長さよりも長い間スライドショー表示を行う場合スライドショーの表示が継続されている場合、オーディオトラックを繰り返し再生する。本実施形態では図１３の記述１３０４に示したｆｌａｇｓに音声トラックＩＤであるか画像アイテムＩＤであるかを指定可能とした、つまり本ｆｌａｇｓは１ｂｉｔで十分であるため図１４に示したフォーマットとすることも可能である。具体的には記述１３０４のｆｌａｇｓを１ｂｉｔ構成とした記述１４０１に示すｆｌａｇとし、同様に音声トラックＩＤであるか画像アイテムＩＤであるかを識別可能とする。この場合、ｂｉｔサイズのアライメントがとれなくなってしまうためそれを調整するために記述１４０２に指名したパディングデータを含むデータフォーマットである。一方で、スライドショーグループに指定された画像の表示が終了した後もオーディオトラックの再生を継続するようにしてもよい。具体的にはオーディオの繰り返し設定ようのｆｌａｇｓと同様にａｕｄｉｏ＿ｐｌａｙ＿ｃｏｍｐｌｅｔｅｌｙを定義（例えば値４）する。そして、ｆｌａｇｓ＆ａｕｄｉｏ＿ｐｌａｙ＿ｃｏｍｐｌｅｔｅｌｙが正（ｔｒｕｅ）となる場合はオーディオをスライドショー画像表示が終わった後も継続して再生する。ｆｌａｇｓ＆ａｕｄｉｏ＿ｐｌａｙ＿ｃｏｍｐｌｅｔｅｌｙが負（ｆａｌｓｅ）となる場合はスライドショー画像の表示が終了するとオーディオトラックの再生が途中であっても再生を終了する。

次に、Ｓ１２０７において選択した画像の画像属性情報に個別指定する切り替え効果をそれぞれ設定してＳ１２０８で処理を終了する。

本実施形態では、ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに格納するｅｎｔｉｔｙ＿ｉｄが音声トラックＩＤであるか画像アイテムＩＤであるかを識別可能とするためｆｌａｇｓを用いて指定可能とした。一方でトラックＩＤとアイテムＩＤが一意に識別可能であれば、本ｆｌａｇｓは不要となる。具体的には、ｕｎｉｆブランドが指定されたＨＥＩＦファイルの場合や、ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘがトップレベルのＭｅｔａＢｏｘ内に格納されている（ｍｏｏｖＢｏｘ内のｍｅｔａＢｏｘではない）場合である。一方でｆｌａｇによってアイテムＩＤなのかトラックＩＤなのかを識別可能とすることで再生処理時にＩＤ値を取得する範囲を限定することができるため処理を効率化可能となる。またその他、音声データをアイテムとして定義してｅｎｔｉｔｙ＿ｉｄに指定する方法であってもよい。この場合別途音声アイテムと実際の音声データを紐づけるための定義を行って格納する必要がある。以上に示したフロー従ってＨＥＩＦファイルの内部構造に格納した値（データ）の例を、図１５を参照して説明する。図１５は、本実施形態で出力されるＨＥＩＦファイルの例を示す図である。図１５の記述１５０１に示すＰｒｉｍａｒｙＩｔｅｍＢｏｘ（ｐｉｔｍ）には、ｉｔｅｍ＿ＩＤとして１が格納されている。なお、ＰｒｉｍａｒｙＩｔｅｍＢｏｘの拡張を行い本Ｂｏｘに指定するＩＤとしてオーディオ付きスライドショーを識別するグループのグループＩＤを指定するようにしてもよい。具体的には後述するＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐ（ｓｌｄａ）を識別するグループＩＤを指定する。その場合はＩＤとして後述するｇｒｏｕｐ＿ｉｄである１００１を指定する。ただし、その場合はＩＤ値がアイテムＩＤとグループＩＤ値で一意に識別可能とする必要がある。記述１５０２に示すＩｔｅｍＩｎｆｏＢｏｘは、各画像アイテムをｉｔｅｍ＿ＩＤで識別可能とし、ｉｔｅｍ＿ＩＤで識別される画像アイテムがどのような種類の画像アイテムであるかを示す。ｉｔｅｍ＿ＩＤが１である画像アイテムは‘ｈｖｃ１’であり、ＨＥＶＣ符号化イメージであることを示す。同様にしてｉｔｅｍ＿ＩＤ４８である画像アイテムまですべての画像アイテムがＨＥＶＣ符号化イメージとして格納されている。記述１５０３に示すＩｔｅｍＬｏｃａｔｉｏｎＢｏｘ（ｉｌｏｃ）は、各画像データビットストリームのファイル内の格納位置を示している。記述１５０４に示すＩｔｅｍＰｒｏｐｅｒｔｉｅｓＢｏｘ（ｉｐｒｐ）内のＩｔｅｍＰｒｏｐｅｒｔｙＣｏｎｔａｉｎｅｒＢｏｘ（ｉｐｃｏ）には、画像の属性情報を示すＩｔｅｍＰｒｏｐｅｒｔｙが格納されている。ｈｖｃＣはＨＥＶＣ符号化パラメータを示し、ｉｓｐｅは画像のサイズを示す属性情報である。記述１５０５は各画像アイテムと属性情報との関連を示したＩｔｅｍＰｒｏｐｅｒｔｙＡｓｓｏｃｉａｔｉｏｎＢｏｘ（ｉｐｍａ）を示す。各画像アイテムが順にｉｐｃｏ内の属性情報と関連づけが行われる。例えばｉｔｅｍ＿ＩＤ１からｉｔｅｍ＿ＩＤ４８には共通ｉｓｐｅが関連づけられており共通の画像サイズであることが示されている。記述１５０６は、ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ（ｓｌｄａ）である。ｇｒｏｕｐ＿ｉｄは１００１、グループのエントリ数は５０個が指定されている。指定されたｅｎｔｉｔｙ＿ｉｄは音声トラックのトラックＩＤまたは画像アイテムのアイテムＩＤを示しており、ｆｌａｇ＝１のｅｎｔｉｔｙ＿ｉｄはトラックＩＤを、ｆｌａｇ＝０のｅｎｔｉｔｙ＿ｉｄはアイテムＩＤを示す。このｆｌａｇが１の場合は後述するＴｒａｃｋＢｏｘ内のＴｒａｃｋＨｅａｄｅｒＢｏｘに示すトラックＩＤを参照する。一方でｆｌａｇが０の場合は前述した記述１５０２のＩｔｅｍＩｎｆｏＢｏｘに示すアイテムＩＤを参照する。これによりＩＤ値が一意に識別できない場合であっても、アイテムＩＤを参照するかトラックＩＤを参照するかが決定可能となる。このように構成することで音声付スライドショー再生表示するための情報が格納されている。

記述１５０７、１５０８はそれぞれ、ＭｏｖｉｅＢｏｘ（ｍｏｏｖ）に格納されたＴｒａｃｋＢｏｘ（ｔｒａｋ）である。本Ｂｏｘ構造を用いて音声のプレゼンテーションに関する情報が格納されている。ＴｒａｃｋＢｏｘにはさらにＴｒａｃｋＨｅａｄｅｒＢｏｘ（ｔｋｈｄ）とＭｅｄｉａＢｏｘ（ｍｄｉａ）が格納されている。ＴｒａｃｋＨｅａｄｅｒＢｏｘのｆｌａｇｓは３を示しており、本トラックに音声が格納されていることを示す。また記述１５０７はＴｒａｃｋＩＤ１を、記述１５０８はＴｒａｃｋＩＤ２であり、これは音声トラックを識別するＩＤを示している。このＩＤ値は前述したＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのｆｌａｇ＝１であるｅｎｔｉｔｙ＿ｉｄに示したＩＤ値である。さらにＭｅｄｉａＢｏｘ（ｍｄｉａ）にはＭｅｄｉａＨｅａｄｅｒＢｏｘ（ｍｄｈｄ）、ＨａｎｄｌｅｒＢｏｘ（ｈｄｌｒ）、ＭｅｄｉａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ｍｉｎｆ）が格納されている。ＭｏｏｖｉｅＨｅａｄｅｒＢｏｘ、ＴｒａｃｋＨｅａｄｅｒＢｏｘ、ＭｅｄｉａＨｅａｄｅｒＢｏｘにはそれぞれ生成時間、編集時間、タイムスケール、デュレーションに関する情報が格納されている。

ＨａｎｄｌｅｒＢｏｘ（ｈｄｌｒ）には音声トラックを識別するためのｈｄｌｒＴｙｐｅとして‘ｓｏｕｎ’が指定されている。またＭｅｄｉａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ｍｉｎｆ）には音声トラックであるためＳｏｕｎｄＭｅｄｉａＨｅａｄｅｒＢｏｘ（ｓｍｈｄ）が格納されている。またＤａｔａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ｄｉｎｆ）には音声符号化データの格納位置を示す情報が格納されている。また詳細については図示していないが、ＳａｍｐｌｅＴａｂｌｅＢｏｘ（ｓｔｂｌ）には各音声サンプルに関する情報が格納されている。具体的にはＳａｍｐｌｅＤｅｓｃｒｉｐｔｉｏｎＢｏｘ（ｓｔｓｄ）を用いて音声符号化に関する情報等が格納されている。また各サンプルのサイズを示す情報がＳａｍｐｌｅＳｉｚｅＢｏｘ（ｓｔｓｚ）内に格納されている。またその他ＴｉｍｅＴｏＳａｍｐｌｅＢｏｘ（ｓｔｔｓ）やＳａｍｐｌｅＴｏＣｈｕｎｋＢｏｘ（ｓｔｓｃ）、ＣｈｕｎｋＯｆｆｓｅｔＢｏｘ（ｓｔｃｏ）を用いて音声サンプルに関する情報が格納されている。

本実施形態では、以上の構成で複数のオーディオ付きのスライドショーを再生表示するための音声及び画像をグループ化し、スライドショー表示の際の各画像の属性情報を各画像に適応する方法で構成した。しかし、複数の音声と複数の画像をグループ化して保持する方法であれば異なる構成であってもよい。例えば、実施形態１に示した１つの音声が付いたスライドショーグループを複数構成し、さらにこれらをグループ化することで複数の音声付のスライドショーグループを構成するようにしてもよい。具体的には図６に示したＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに１つの音声付のスライドショーを構成する。そして図１１に示したＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘにＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのグループＩＤをｅｎｔｉｔｙ＿ｉｄとして格納する。また同様にして実施形態１に示したｉａｕｇエンティティグループを用いた音声付スライドショーを複数構成して、同様にＳｌｉｄｅｓｈｏｗＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのｅｎｔｉｔｙ＿ｉｄにグループＩＤを格納してもよい。これにより、複数の音声付スライドショーグループが格納されたＨＥＩＦファイルにおいて、それらグループの再生順序を指定可能となり、より効果的なスライドショー再生が可能となる。また本実施形態ではスライドショーグループの拡張を行うことでオーディオトラックＩＤを格納可能とした。しかしながら同様の拡張を行うことでスライドショーのみならず他のＥｎｔｉｔｙグループにおいてもトラックＩＤとアイテムＩＤの混在が可能となる。またその他の形態として、ＳｌｉｄｅｓｈｏｗＷｉｔｈＡｕｄｉｏＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘのデータフォーマットとして、ｅｎｔｉｔｙ＿ｉｄとして画像アイテムを表示順に指定し、別のリストとして音声トラックＩＤを指定する。音声トラックＩＤのリストには再生を開始する画像アイテムＩＤを指定することで複数のオーディオを切り替えながら構成するグループとしてもよい。さらに別のデータフォーマットとして１つのリストとして音声トラックＩＤと画像アイテムＩＤを指定し、別途音声トラックＩＤに対応するＩＤに再生を開始する画像アイテムのインデックス情報を指定するようにしてもよい。

［スライドショーの再生処理］
次に、メディアファイルに格納したスライドショーの再生処理について図１６を用いて説明する。なお、図１６の再生処理フローでは、オーディオ付きスライドショーグループが格納されている前提の処理フローである。すなわち図４のＳ４０４、Ｓ４０５における処理およびそれぞれの判定においてＮＯとなった処理については図４の処理と共通であるため省略する。図１６は、メディアファイルのスライドショー再生処理のフローチャートである。具体的には、図１６は、ＨＥＩＦファイルフォーマットに従って１つ以上の静止画と１つ以上の音声をスライドショーとして格納したファイルを再生する処理の流れを示している。図１６のフローチャートの各ステップは、ＣＰＵ１０２によるソフトウェア、画像符号化／復号化処理部１０５、メタデータ処理部１０６、音声符号化／復号化処理部１１０の何れかによって実行される処理を示す。なお、以下の説明において、ＣＰＵ１０２という記述はＣＰＵ１０２で実行するソフトウェア処理であるものとする。

メディアファイル再生でのスライドショー再生処理は、Ｓ１６０１から開始する。そして、まずＳ１６０２において、ＣＰＵ１０２が、ＲＡＭ１０３もしくはＲＯＭ１０４上で記憶しているＨＥＩＦファイルの中から、メタデータ格納領域５１０（ＭｅｔａＢｏｘ（ｍｅｔａ））に格納してあるメタデータを取得する。次にＳ１６０３において、ＣＰＵ１０２は、Ｓ１６０２で取得したメタデータを解析する。Ｓ１６０４において、オーディオ付きスライドショーグループに格納されたエンティティＩＤを格納順に取得し解析を行う。

Ｓ１６０５において解析したエンティティＩＤがオーディオトラックＩＤであるかを判定する。具体的には図１３に示したｆｌａｇｓの値を判定しオーディオを示すフラグ値であるかを判定する。オーディオトラックＩＤを示す場合（Ｓ１６０５でＹＥＳ）Ｓ１６０６へ進み、そうでない場合（Ｓ１６０６でＮＯ）Ｓ１６０９へ進む。Ｓ１６０９へ進む場合、メディアファイル生成装置１００は、ＨＥＩＦファイルに格納された画像符号化データの副業処理を実行する。Ｓ１６０９、Ｓ１６１０において、アイテムＩＤに対応する画像の符号化データを取得し復号化処理を行い、Ｓ１６０８へ進む。

Ｓ１６０６においてエンティティＩＤに対応するオーディオトラックＩＤのメタデータを取得する。具体的には格納領域５３０（ＭｏｏｖｉｅＢｏｘ（ｍｏｏｖ））に格納してあるメタデータからオーディオトラックに関するメタデータを取得する。取得したメタデータを解析し、音声符号化／復号化処理部１１０は、再生するオーディオ符号化データを取得する。オーディオ符号化データはメタデータに格納されたメディアファイル内の位置情報から符号化データ格納領域５５０（ＭｅｄｉａＤａｔａＢｏｘ（ｍｄａｔ））内の位置を特定して取得する。Ｓ１６０７において音声符号化／復号化処理部１１０は、再生する音声データを復号化しＳ１６０８へ進む。

Ｓ１６０８において復号化した画像データまたは音声データを取得順にいったんバッファに保存する。

Ｓ１６１１において音声付スライドショーグループに格納されたエンティティＩＤをすべて取得し、対応する画像またはオーディオ符号化データの復号処理が終わったかを判定する。すべてのエンティティＩＤに対応する処理が完了していない場合（Ｓ１６１１でＮＯ）、Ｓ１６０４へ進みＳ１６１１までの処理を繰り返し行う。完了した場合（Ｓ１６１１でＹＥＳ）Ｓ１６１２へ進む。なお、本実施形態ではすべてのエンティティＩＤに対応する符号化データの復号処理を行い、復号データをバッファにすべて保存するフローを示したが、並列に処理してもよい。その場合、以降の表示、再生処理と復号処理を並列に行うこととなる。さらにこの場合、表示、再生するまでに次のデータの復号処理が完了している必要があるが、バッファ容量を削減可能となる。

次にＳ１６１２においてＳ１６１１までの処理でバッファに格納した画像データおよびオーディオデータを格納順に復号データを取得する。Ｓ１６１３において、取得した復号データがオーディオデータである場合（Ｓ１６１３でＹＥＳ）Ｓ１６１４へ進み、そうでない場合（Ｓ１６１３でＮＯ）Ｓ１６１６へ進む。Ｓ１６１４において、メディアファイル生成装置（再生装置）の音声出力が有効であるかを判定する。これは音声出力部１１１の設定がミュート設定になっているか、デバイスが有効になっているかといったソフトウェアの設定を判定する。さらに音声出力デバイスを備えているかのハードウェア接続の判定も含む。例えばヘッドホンやスピーカーが接続されているかといった判定である。再生装置の音声出力が有効の場合（Ｓ１６１４でＹＥＳ）Ｓ１６１５へ進み、そうでない場合（Ｓ１６１４でＮＯ）Ｓ１６１２へ進み処理を繰り返す。Ｓ１６１５においてバッファに保存したオーディオデータの再生を開始する。すでにオーディオデータの再生が行われている場合は、再生中のオーディオから、取得したオーディオデータに再生を切り替える。そしてＳ１６１２へ進み処理を繰り返す。

続いてＳ１６１６では、ＣＰＵ１０２は、メタデータに記載されている属性情報とアプリケーションで決定した表示時間に従い画像を表示部１０７に表示する。そしてＳ１６１７においてバッファに保存されたスライドショーグループのすべての画像を表示したかを判定する。すべての画像を表示した場合Ｓ１６１８へ進み処理を終了する。そうでない場合Ｓ１６１２へ進み処理を繰り返す。

なお、本実施形態では図示していないが、ＣＰＵ１０２は、スライドショーとして格納された画像すべてを表示し終わった場合、先頭の画像から繰り返し表示するように、または、スライドショー表示を終了するように表示部１０７を制御してもよい。またオーディオデータの再生が終了した場合（格納されたサンプルの最後まで再生を行った場合）、オーディオデータの最初から繰り返し再生するように制御してもよいし、オーディオ再生のみを終了してもよい。また前述したオーディオ付きスライドショーのメタデータに含まれるｆｌａｇｓ等で指定されたようにオーディオ再生を行ってもよい。またオーディオデータの再生を特定の画像データの表示以降に開始するメタデータ格納であった場合は、そのように制御するフローとしてもよい。

本実施形態では以上の構成でオーディオ付きのスライドショー表示をするための１以上の画像及び１以上の音声をグループ化し、音声付スライドショー表示の際の各画像の属性情報を各画像に適応する方法で構成した。

以上、本実施形態によればスライドショー再生の音声及び画像をグループ化することでＨＥＩＦファイルに格納された複数の画像と音声を効果的に関連づけたスライドショー表示を意図する格納をすることが可能となる。またその格納において動画形式として格納することなく画像および音声のグループとして格納することで容易に識別、格納することが可能となる。また、スライドショーグループに格納する画像として派生画像を音声付でスライドショーとして表示することが可能となる。派生画像とは、アイデンティティ（ｉｄｅｎ）やグリッド（ｇｒｉｄ）イメージやオーバーレイ（ｉｏｖｌ）イメージ等である。また、１つのファイル内に複数のスライドショーグループを異なるグループＩＤを用いて格納することも可能であり、１ファイル内に複数のスライドショー表現を格納することも可能である。また複数の音声を１つのスライドショーに適応可能となりより柔軟な音声付のスライドショー再生が可能となる。またスライドショー再生を行う複数の画像、音声、プレイリストとなる情報が１つのファイルに格納することでスライドショー再生を意図した情報を１ファイルとして扱うことができ可搬性が向上する。

以上、各実施形態において、メディアファイル生成処理とメディアファイルに格納する音声付スライドショーのメタデータ生成処理の実施形態について説明した。各実施形態で生成されるＨＥＩＦのメディアファイルは、図５に示すように、最上位の階層にｆｔｙｐとｍｅｔａとｍｏｏｖとｍｄａｔが並ぶ構造となる。但し、メディアファイル生成装置が生成するＨＥＩＦファイルがこの内部構造に限定するものではない。例えば、以上の何れかの実施形態を実施し、さらに動画データも一緒に格納してＨＥＩＦファイルを生成可能にしてもよい。

ＨＥＩＦでは、時間的に連続する静止画としてのイメージシーケンスを持つＨＥＩＦファイルは、画像を表示するアプリケーションが連続的な表示処理をできるように、連続する静止画をＨＥＩＦファイルの中にビデオトラックとして定義する必要がある。ファイル構造としては、ｍｅｔａ以外に動画のためのｍｏｏｖのメタデータも必要となり得る。上記に説明した各実施形態では、複数の画像データのスライドショーの情報をｍｅｔａの中に収めたＨＥＩＦファイルを生成する。これにより、イメージシーケンスを格納するＨＥＩＦファイルの生成に比べ、より効率的にＨＥＩＦファイルを生成することが可能になる。

また、以上の実施形態ではファイルフォーマットとしてＨＥＩＦを例に説明したが、１ファイル内に複数画像データ及び１つ以上の音声データを格納でき、それらのメディアファイルに関するメタデータを保持可能なファイルであれば他の形式に適用してもよい。

また、上述した実施形態における制御の一部または全部を実施形態の機能を実現するコンピュータプログラム（ソフトウェア）をネットワーク又は各種記憶媒体を介して撮像装置や情報処理装置に供給するようにしてもよい。そして、その撮像装置や情報処理装置におけるコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行するようにしてもよい。

１００メディアファイル生成装置
１０１システムバス
１０２ＣＰＵ
１０３ＲＡＭ
１０４ＲＯＭ
１０５画像符号化／復号化処理部
１０６メタデータ処理部
１０７表示部
１０８通信制御部
１０９ユーザーインターフェース部
１１０音声符号化／復号化処理部
１１１音声出力部

Claims

画像データ及び音声データを格納するデータ領域と、前記画像データ及び前記音声データに関するメタデータを格納するメタデータ領域とを有する所定のファイルフォーマットに従ったメディアファイルを生成するメディアファイルの生成装置であって、
前記データ領域から、スライドショーグループの対象の複数の画像データと音声データとを選択する選択手段と、
選択された前記複数の画像データのグループを識別するグループ識別情報と、選択された前記音声データの識別情報と前記グループ識別情報とを関連付ける関連付け情報と、前記複数の画像データ及び前記音声データの前記データ領域における位置を示す位置情報と、前記複数の画像データを連続的に表示させている途中で前記音声データの再生が終了した場合に前記音声データの再生を繰り返すか否かを示すフラグ情報と、を前記メタデータ領域に格納するメタデータ処理手段と、
前記メタデータと前記複数の画像データと前記音声データとが格納された単一のメディアファイルを生成する生成手段と、
を有し、
前記選択手段は、複数のスライドショーグループのそれぞれの対象の複数の画像データと音声データとを選択し、
前記メタデータ処理手段は、前記複数のスライドショーグループのそれぞれに対して、前記グループ識別情報と、前記関連付け情報と、前記位置情報と、前記フラグ情報と、を前記メタデータ領域に格納し、
前記生成手段は、前記複数のスライドショーグループのそれぞれに対する前記メタデータと前記複数の画像データと前記音声データが格納された単一のメディアファイルを生成する
ことを特徴とするメディアファイルの生成装置。
前記メタデータ処理手段は、前記複数の画像データをグループ化するための情報を生成し、前記複数の画像データの表示順序を示す情報を、前記グループ化するための情報に格納した前記識別情報の格納順によって示すことを特徴とする請求項１に記載のメディアファイルの生成装置。
前記複数の画像データのうち、１つ以上の画像データは、複数のサブ画像によって構成された派生画像データであることを特徴とする請求項１又は２に記載のメディアファイルの生成装置。
前記メタデータ処理手段は、前記複数の画像データのグループの表示タイプがスライドショーであることを示すタイプ情報を、前記メタデータ領域に格納することを特徴とする請求項１から３のいずれか一項に記載のメディアファイルの生成装置。
前記選択手段は、複数の音声データを選択し、
前記メタデータ処理手段は、選択された前記複数の音声データのグループを識別するグループ識別情報を、前記メタデータ領域に格納することを特徴とする請求項１から４のいずれか一項に記載のメディアファイルの生成装置。
前記関連付け情報に格納された識別情報は、あらかじめ決定した特定の順序で格納された識別情報が音声を識別し、その他の順序で格納された識別情報が画像データないし画像データのグループを示すことを特徴とする請求項１から４のいずれか一項に記載のメディアファイルの生成装置。
前記メタデータ処理手段は、前記複数の画像データ及び前記音声データそれぞれに対する識別情報を一意に識別可能な情報として格納し、
前記関連付け情報に、前記音声データの識別情報を任意の格納順で格納し、
前記複数の画像データを格納順に表示する際に前記音声データの再生を行うことを特徴とする請求項１から４のいずれか一項に記載のメディアファイルの生成装置。
前記所定のファイルフォーマットは、ＨＥＩＦ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）であることを特徴とする請求項１から７のいずれか１項に記載のメディアファイルの生成装置。
前記関連付け情報は、ＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに４文字コード“ｉａｕｇ”で記述されることを特徴とする請求項８に記載のメディアファイルの生成装置。
前記タイプ情報は、ＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘに４文字コード“ｓｌｉｄ”で記述されることを特徴とする請求項４に記載のメディアファイルの生成装置。
画像データ及び音声データを格納するデータ領域と、前記画像データ及び前記音声データに関するメタデータを格納するメタデータ領域とを有する所定のファイルフォーマットに従ったメディアファイルを再生するメディアファイル再生装置であって、
スライドショーグループの対象の複数の画像データのグループを識別するグループ識別情報と、スライドショーで再生する音声データの識別情報と前記グループ識別情報とを関連付ける関連付け情報と、前記複数の画像データ及び前記音声データの前記データ領域における位置を示す位置情報と、前記複数の画像データを連続的に表示させている途中で前記音声データの再生が終了した場合に前記音声データの再生を繰り返すか否かを示すフラグ情報と、を含む前記メタデータを処理するメタデータ処理手段と、
前記メタデータ処理手段による処理結果に基づいて、前記複数の画像データ及び前記音声データを取得する取得手段と、
取得された前記複数の画像データ及び前記音声データを再生する再生手段と、
を有し、
前記メタデータ処理手段は、複数のスライドショーグループのそれぞれに対して格納された、前記グループ識別情報と、前記関連付け情報と、前記位置情報と、前記フラグ情報と、を含む前記メタデータを処理し、
前記取得手段は、前記複数のスライドショーグループのそれぞれに対する前記複数の画像データ及び前記音声データを取得し、
前記再生手段は、前記複数のスライドショーグループのそれぞれに対して取得された前記複数の画像データ及び前記音声データを再生する
ことを特徴とするメディアファイルの再生装置。
前記複数の画像データを連続的に表示させている途中で前記音声データの再生が終了した場合に前記音声データの再生を繰り返すことを示す情報が、前記メタデータに含まれている場合に、
前記再生手段は、前記複数の画像データを連続的に表示させている途中で前記音声データの再生が終了した場合に前記音声データの再生を繰り返すことを特徴とする請求項１１に記載のメディアファイルの再生装置。
画像データ及び音声データを格納するデータ領域と、前記画像データ及び前記音声データに関するメタデータを格納するメタデータ領域とを有する所定のファイルフォーマットに従ったメディアファイルの生成方法であって、
前記データ領域から、スライドショーグループの対象の複数の画像データと音声データとを選択する選択工程と、
選択された前記複数の画像データのグループを識別するグループ識別情報と、選択された前記音声データの識別情報と前記グループ識別情報とを関連付ける関連付け情報と、前記複数の画像データ及び前記音声データの前記データ領域における位置を示す位置情報と、前記複数の画像データを連続的に表示させている途中で前記音声データの再生が終了した場合に前記音声データの再生を繰り返すか否かを示すフラグ情報と、を前記メタデータ領域に格納するメタデータ処理工程と、
前記メタデータと前記複数の画像データと前記音声データとが格納された単一のメディアファイルを生成する生成工程と、
を有し、
前記選択工程では、複数のスライドショーグループのそれぞれの対象の複数の画像データと音声データとを選択し、
前記メタデータ処理工程では、前記複数のスライドショーグループのそれぞれに対して、前記グループ識別情報と、前記関連付け情報と、前記位置情報と、前記フラグ情報と、を前記メタデータ領域に格納し、
前記生成工程では、前記複数のスライドショーグループのそれぞれに対する前記メタデータと前記複数の画像データと前記音声データが格納された単一のメディアファイルを生成する
ことを特徴とするメディアファイルの生成方法。
画像データ及び音声データを格納するデータ領域と、前記画像データ及び前記音声データに関するメタデータを格納するメタデータ領域とを有する所定のファイルフォーマットに従ったメディアファイルの再生方法であって、
スライドショーグループの対象の複数の画像データのグループを識別するグループ識別情報と、スライドショーで再生する音声データの識別情報と前記グループ識別情報とを関連付ける関連付け情報と、前記複数の画像データ及び前記音声データの前記データ領域における位置を示す位置情報と、前記複数の画像データを連続的に表示させている途中で前記音声データの再生が終了した場合に前記音声データの再生を繰り返すか否かを示すフラグ情報と、を含む前記メタデータを処理するメタデータ処理工程と、
前記メタデータの処理結果に基づいて、前記複数の画像データ及び前記音声データを取得する取得工程と、
取得された前記複数の画像データ及び前記音声データを再生する再生工程と、
を有し、
前記メタデータ処理工程では、複数のスライドショーグループのそれぞれに対して格納された、前記グループ識別情報と、前記関連付け情報と、前記位置情報と、前記フラグ情報と、を含む前記メタデータを処理し、
前記取得工程では、前記複数のスライドショーグループのそれぞれに対する前記複数の画像データ及び前記音声データを取得し、
前記再生工程では、前記複数のスライドショーグループのそれぞれに対して取得された前記複数の画像データ及び前記音声データを再生する
ことを特徴とするメディアファイルの再生方法。
コンピュータに、画像データ及び音声データを格納するデータ領域と、前記画像データ及び前記音声データに関するメタデータを格納するメタデータ領域とを有する所定のファイルフォーマットに従ったメディアファイルの生成方法を実行させるためのプログラムであって、前記生成方法は、
前記データ領域から、スライドショーグループの対象の複数の画像データと音声データとを選択する選択工程と、
選択された前記複数の画像データのグループを識別するグループ識別情報と、選択された前記音声データの識別情報と前記グループ識別情報とを関連付ける関連付け情報と、前記複数の画像データ及び前記音声データの前記データ領域における位置を示す位置情報と、前記複数の画像データを連続的に表示させている途中で前記音声データの再生が終了した場合に前記音声データの再生を繰り返すか否かを示すフラグ情報と、を前記メタデータ領域に格納するメタデータ処理工程と、
前記メタデータと前記複数の画像データと前記音声データとが格納された単一のメディアファイルを生成する生成工程と、
を有し、
前記選択工程では、複数のスライドショーグループのそれぞれの対象の複数の画像データと音声データとを選択し、
前記メタデータ処理工程では、前記複数のスライドショーグループのそれぞれに対して、前記グループ識別情報と、前記関連付け情報と、前記位置情報と、前記フラグ情報と、を前記メタデータ領域に格納し、
前記生成工程では、前記複数のスライドショーグループのそれぞれに対する前記メタデータと前記複数の画像データと前記音声データが格納された単一のメディアファイルを生成する
ことを特徴とするプログラム。
コンピュータに、画像データ及び音声データを格納するデータ領域と、前記画像データ及び前記音声データに関するメタデータを格納するメタデータ領域とを有する所定のファイルフォーマットに従ったメディアファイルの再生方法を実行させるためのプログラムであって、前記再生方法は、
スライドショーグループの対象の複数の画像データのグループを識別するグループ識別情報と、スライドショーで再生する音声データの識別情報と前記グループ識別情報とを関連付ける関連付け情報と、前記複数の画像データ及び前記音声データの前記データ領域における位置を示す位置情報と、前記複数の画像データを連続的に表示させている途中で前記音声データの再生が終了した場合に前記音声データの再生を繰り返すか否かを示すフラグ情報と、を含む前記メタデータを処理するメタデータ処理工程と、
前記メタデータの処理結果に基づいて前記複数の画像データ及び前記音声データを取得する取得工程と、
取得された前記複数の画像データ及び前記音声データを再生する再生工程と、
を有し、
前記メタデータ処理工程では、複数のスライドショーグループのそれぞれに対して格納された、前記グループ識別情報と、前記関連付け情報と、前記位置情報と、前記フラグ情報と、を含む前記メタデータを処理し、
前記取得工程では、前記複数のスライドショーグループのそれぞれに対する前記複数の画像データ及び前記音声データを取得し、
前記再生工程では、前記複数のスライドショーグループのそれぞれに対して取得された前記複数の画像データ及び前記音声データを再生する
ことを特徴とするプログラム。
請求項１５又は１６に記載のプログラムを記憶したコンピュータで読み取り可能な記憶媒体。