JP4982570B2

JP4982570B2 - オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの生成、編集、および再生方法と、オーディオプリセット生成方法

Info

Publication number: JP4982570B2
Application number: JP2009549534A
Authority: JP
Inventors: ジャン、イン‐ソン; リー、テ‐ジン; リー、ヨン‐ジュ; ヨー、ジェ‐ヒュン; ジャン、テ‐ヤン; ホン、ジン‐ウー
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2007-02-16
Filing date: 2008-02-18
Publication date: 2012-07-25
Anticipated expiration: 2028-02-18
Also published as: US9135953B2; KR100868475B1; JP2012168552A; JP5840560B2; US20100076577A1; EP2113112B1; WO2008100119A1; KR20080095928A; EP2113112A1; JP2010519802A; EP2113112A4

Description

本発明は、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの生成、編集、および再生方法と、オーディオプリセット生成方法に関し、より詳細には、オブジェクト基盤オーディオサービスの機能を増大させてオーディオコンテンツファイルの各オブジェクトへのアクセスの容易性を増加させるための、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの生成、編集、および再生方法と、オーディオプリセット生成方法に関する。

ＴＶ放送、ラジオ放送、ＤＭＢなどのような放送サービスを介して提供されるオーディオ信号は、様々な音源から取得されたオーディオ信号が合成されて１つのオーディオ信号として格納／送信されるものである。

このような環境では、視聴者が全体オーディオ信号の強度などを調節することは可能であるが、オーディオ信号内に含まれた各音源別にオーディオ信号の強度を調節するなどのような、音源別のオーディオ信号の特性制御は不可能である。

しかしながら、オーディオコンテンツを著作するときに、各音源別にオーディオ信号を合成せずに独立的に格納するとすれば、コンテンツ再生端末では各音源別のオーディオ信号に対する強度などを制御しながら該当のコンテンツを視聴できるようになる。このように、格納／送信端で複数のオーディオ信号を独立的に格納／送信し、視聴者が受信機（コンテンツ再生端末）でそれぞれのオーディオ信号を適切に制御しながら聴取できるようにするオーディオサービスを「オブジェクト基盤オーディオサービス」と言う。

このようなオブジェクト基盤オーディオコンテンツには、既存のＭＰ３、ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）などの音楽ファイルとは異なり、複数のオーディオオブジェクトが含まれている。ＭＰＥＧ−４システム規格（ＩＳＯ／ＩＥＣ１４４９６−１）では、複数のオブジェクトを含むコンテンツのファイル構造に対して定義しており、オブジェクト基盤オーディオコンテンツの格納に活用することができる。

一般的なマルチメディアサービスの場合、１つのオーディオオブジェクトと１つのビデオオブジェクトでサービスがなされる場合が大部分であるが、ＭＰＥＧ−４システム規格では、複数のオブジェクトを含むマルチメディアサービスに対して定義している。オブジェクト基盤オーディオサービスの場合にも、ＭＰＥＧ−４システムの定義と類似するように、複数のオブジェクトを含むマルチメディアコンテンツサービスであると言える。

しかしながら、ＭＰＥＧ−４システム規格では、オーディオ、ビデオ、静止画などの多様な形態のメディアをすべて含む形態のファイル構造を定義していることに比べ、オブジェクト基盤オーディオコンテンツの場合には、同種類の多数のオブジェクトを含む特徴があり、既存のＭＰＥＧ−４システムで定義しているファイル構造よりも効率的にコンテンツを格納して各オブジェクトに対するアクセスの容易性を高めることができる可能性がある。

一方、ＭＰＥＧ−４システム規格（ＩＳＯ／ＩＥＣ１４４９６−１）では、複数のオブジェクトを含むコンテンツのファイル構造に対して定義しているが、このようなＭＰＥＧ−４システム規格によるファイルフォーマットには、オブジェクトの３次元場面情報である「ＢＩＦＳ」とオブジェクトに対する情報である「ＯＤ」、およびそれぞれのオブジェクトのストリームにアクセスすることができる「索引情報」が含まれ、ＢＩＦＳ、ＯＤなどと各オブジェクトストリームデータが含まれる。ここで、各オブジェクトデータは、ファイル内部に存在することもできるし、他のファイルとして存在することもできる。このとき、それぞれのオブジェクトストリームに対する「索引情報」は、各オブジェクト別に区分されて生成されて格納され、それぞれのオブジェクトストリームもストリーム別に区分されて格納される。

上述したような従来のＭＰＥＧ−４システム規格によるオブジェクト基盤オーディオコンテンツサービスを「オブジェクトへのアクセスの容易性」側面において詳察すれば、多数のオブジェクトを格納する場合、オブジェクト別にフレームを格納したり全体オブジェクトデータを順に格納する方式を採用していたため、オブジェクトへのアクセス性が著しく低下するという問題点があった。

また、上述したような従来のオブジェクト基盤オーディオコンテンツサービスでは、コンテンツファイルの各オブジェクトに対するアクセスの容易性のために（すなわち、ランダムアクセス（ＲａｎｄｏｍＡｃｃｅｓｓ）を容易にするために）、各フレームの位置情報、大きさ情報などを「索引（ｉｎｄｅｘ）情報」として用いる。しかしながら、このような従来の索引情報生成方法は、各メディアの最小再生単位（オーディオの場合はフレーム単位）を基盤として生成するため、すなわち、フレーム別に索引情報を生成しなければならないため、生成される索引情報量が大きく、索引情報を求める演算量も多く、これによってランダムアクセス速度が遅くなるという問題点があった。

一方、ＭＰＥＧ−４システムでは、ＢＩＦＳデータおよびＢＩＦＳコマンド（ｃｏｍｍａｎｄ）を用いてユーザインタラクションを介した３次元場面情報を変更することができるが、著作段階ではこのような変更された３次元場面情報を考慮してＢＩＦＳデータを適切に生成しなければならず、コンテンツ再生端末ではＢＩＦＳコマンドを解釈できなければならない。このように、ＭＰＥＧ−４システムでは、多様なユーザインタラクションのための機能を含んでいるが、このような機能のためには、著作段階やコンテンツ再生端末で多少複雑な動作の実行が求められる特徴がある。

しかしながら、オブジェクト基盤オーディオサービスでは、ユーザが各オーディオオブジェクトの位置、音の大きさなどを制御すれば、新たな３次元オーディオ場面情報（プリセット）を容易に生成することができるであろう。

このように、ユーザによってオーディオプリセットを自由に生成できるようにしたり、またはオブジェクト基盤オーディオコンテンツファイルのオブジェクトに対してオブジェクト追加／削除／変更が可能なようにすれば、ユーザインタラクションを機能を介してオブジェクト基盤オーディオサービスの機能を増大させることができるであろう。

すなわち、オブジェクト基盤オーディオコンテンツサービスの提供において、オブジェクト基盤オーディオサービスの機能を増大させ、各オブジェクトに対するアクセスの容易性を高めることができる効率的なコンテンツファイル構造が切に求められている。

本発明は、上述したような要求に応じるために提案されたものであって、オブジェクト基盤オーディオサービスの機能を増大させてオーディオコンテンツファイルの各オブジェクトへのアクセスの容易性を増加させるための、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの生成、編集、および再生方法と、オーディオプリセット生成方法を提供することを目的とする。

本発明の他の目的および長所は、下記の説明によって理解することができ、本発明の実施形態によってより明確に理解できるであろう。また、本発明の目的および長所は、特許請求の範囲に示した手段およびその組み合わせによって実現できることを容易に理解できるであろう。

上述した目的を達成するために、本発明は、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイル生成方法において、オーディオコンテンツを構成するそれぞれのオブジェクトに対して複数のフレームを生成するフレーム化ステップと、前記生成されたフレームを再生時刻を基準としてグループ化して格納することによって多重オブジェクトオーディオコンテンツファイルを生成するコンテンツファイル生成ステップとを含む。また、前記本発明は、フレームグループ別に索引情報を生成して前記多重オブジェクトオーディオコンテンツファイルのヘッダに格納する索引情報生成ステップと、前記オーディオコンテンツのオブジェクトを用いてオーディオプリセットを生成するプリセット生成ステップと、前記生成されたオーディオプリセットに対する個数およびプリセット名を含むプリセット関連情報を生成するステップとをさらに含む。

また、本発明は、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイル生成方法において、オーディオコンテンツを構成するそれぞれのオブジェクトに対して複数のフレームを生成するフレーム化ステップと、前記生成されたフレームをオブジェクト別に格納して多重オブジェクトオーディオコンテンツファイルを生成するが、同じ再生時刻を有するフレームに対する位置情報を索引情報として前記多重オブジェクトオーディオコンテンツファイルのヘッダに格納するコンテンツファイル生成ステップとを含む。また、前記本発明は、前記オーディオコンテンツのオブジェクトを用いてオーディオプリセットを生成するプリセット生成ステップと、前記生成されたオーディオプリセットに対する個数およびプリセット名を含むプリセット関連情報を生成するステップをさらに含む。

また、本発明は、多重オブジェクトオーディオコンテンツファイルに対するオーディオプリセット生成方法において、編集者またはユーザから前記多重オブジェクトオーディオコンテンツファイルに対するオーディオオブジェクトのうちでオーディオプリセットの生成に必要なオーディオオブジェクトが選択されるオブジェクト選択ステップと、前記編集者または前記ユーザから前記選択されたそれぞれのオーディオオブジェクトに対するプリセット設定情報が入力される設定情報入力ステップと、前記プリセット設定情報によって該当のオーディオオブジェクトを設定してオーディオプリセットを生成するプリセット生成ステップとを含む。前記本発明は、前記生成されたオーディオプリセットに対する全体個数およびプリセット名を含むプリセット関連情報を生成するステップをさらに含む。

また、本発明は、多重オブジェクトオーディオコンテンツファイルの編集方法において、多重オブジェクトオーディオコンテンツファイルに対するオブジェクト情報およびプリセット情報をユーザに提供するステップと、前記ユーザの要求に応じて前記多重オブジェクトオーディオコンテンツファイルに対するオブジェクトまたはプリセットを変更するステップとを含む。

また、本発明は、多重オブジェクトオーディオコンテンツファイルの再生方法において、多重オブジェクトオーディオコンテンツファイルを分析するステップと、分析結果から前記多重オブジェクトオーディオコンテンツファイルのオブジェクトフレームの位置に対する索引情報を取得するステップと、前記索引情報を用いて再生時刻が同じであるオブジェクトフレームを検索して前記多重オブジェクトオーディオコンテンツファイルを再生するステップとを含む。また、前記本発明は、前記多重オブジェクトオーディオコンテンツに対するオーディオプリセットの種類を出力するステップと、ユーザから選択されたオーディオプリセットの設定情報を用いて該当のオーディオ場面を構成するステップとをさらに含む。

まず、本発明について簡略に説明すれば次のとおりとなる。本発明では、複数のプリセットオーディオ場面情報をオーディオコンテンツファイルの内部に格納することにより、オブジェクト基盤オーディオサービスのユーザ選択機能を可能とし、さらにユーザが定義したプリセットオーディオ場面情報をオブジェクト基盤オーディオコンテンツファイル内部に格納できるようにして、ユーザが新たなオーディオ場面を生成することを可能にする。このとき、ユーザが新たなオーディオ場面を生成し、独立的なファイルで格納することも可能である。

また、本発明は、オブジェクト基盤オーディオコンテンツのオブジェクトアクセスの容易性のために、オブジェクト別にフレームを格納するのではなく、同じ再生時刻またはデコーディング時刻を有するオブジェクトのフレームをグループで束ねてファイルに格納する。すなわち、複数のオブジェクトをファイルで格納するとき、全体のオブジェクトデータを順に格納するのではなく、同じ再生時刻を有するフレームを束ねて格納する方式を用いる。

また、本発明は、ファイルにおける各オブジェクトに対するアクセスの容易性のために、索引情報をフレーム別に格納せずに、任意のフレーム単位または時間単位で格納して用いる。

さらに、本発明は、多数のプリセット情報（プリセットおよびプリセット関連情報）を生成してオーディオコンテンツファイル内部に格納したり、または別途の独立したファイルに格納する。このように独立したファイルで格納されたプリセット情報は、以後、ユーザ側の処理を介して該当のオーディオコンテンツファイル内部に格納されることができる。

上述したような本発明は、オブジェクト基盤オーディオコンテンツを効率的に格納して送信することにより、オブジェクト基盤オーディオサービスの提供時に帯域幅を節減させる効果がある。

また、本発明は、オブジェクト別にフレームを格納せずに、同じ再生時刻を有するオブジェクトのフレームをグループで束ねて該当のオーディオコンテンツファイルに格納し、また索引情報もフレーム別に格納せずに任意のフレーム単位または時間単位で索引情報を格納することにより、オブジェクト基盤オーディオコンテンツのオブジェクトへのアクセスを容易にする効果がある。

また、本発明は、オブジェクト基盤オーディオコンテンツを格納するとき、オブジェクト基盤オーディオサービスの機能を増大させ、各オブジェクトに対するアクセスの容易性を高めることができる効率的なオーディオコンテンツファイルの構造を提供することにより、一般的なファイル構造よりも効率的にオブジェクト基盤オーディオサービスを再生できるようにする効果がある。

また、本発明は、各オブジェクトの位置、音の強度などのような特徴に基づいて設定されたプリセット（Ｐｒｅｓｅｔ）を多重オブジェクトオーディオコンテンツファイル内部に格納したり、または別途の独立したファイルで格納してユーザに提供することにより、オブジェクト基盤オーディオサービスをより効率的に再生できるようにする効果がある。

さらに、本発明は、デジタル放送、ラジオ放送、ＤＭＢ、インターネット放送、デジタル映画、ＤＶＤ、動画コンテンツ、レコードなどのようにオブジェクト基盤オーディオサービスが提供されるすべての放送サービスおよびマルチメディアサービスに適用され、効率的にオブジェクト基盤オーディオコンテンツを送信、格納、および再生できるようにする効果がある。

従来のＭＰＥＧ−４システム規格による複数のオブジェクトを含むオーディオコンテンツファイルを示す構成図である。本発明に係るオブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図である。本発明に係る編集者プリセット情報を含む多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図である。本発明に係るユーザプリセット情報を含む多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図である。本発明に係るオブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイル生成方法に対する一実施形態を示すフローチャートである。本発明に係るオブジェクト基盤オーディオサービスのためのオーディオプリセット生成方法に対する一実施形態を示すフローチャートである。本発明に係る編集者側のオーディオエンコーディング装置の画面構成図である。本発明に係るユーザのコンテンツ再生端末の画面構成図である。本発明に係る多重オブジェクトオーディオコンテンツファイルの編集方法に対する一実施形態を示すフローチャートである。本発明に係る多重オブジェクトオーディオコンテンツファイルの再生方法に対する一実施形態を示すフローチャートである。

上述した目的、特徴、および長所は、添付の図面と関連した後述する詳細な説明を介してより明確になるはずであり、これによって本発明が属する技術分野において通常の知識を有する者によって、本発明の技術的思想を容易に実施することができるであろう。さらに、本発明の説明において、本発明と関連した公知技術に対する具体的な説明が本発明の要旨を不必要に不明確にし得ると判断される場合には、その詳細な説明は省略する。以下、添付の図面を参照しながら、本発明に係る好ましい一実施形態について詳しく説明する。

図１は、ＭＰＥＧ−４システム規格による複数のオブジェクトを含むオーディオコンテンツファイルを示す構成図であり、図２は、本発明に係るオブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図である。

本発明と関連するオブジェクト基盤オーディオサービスの場合も、複数のオブジェクトを含むコンテンツに関するものであるため、基本的にはＭＰＥＧ−４システムで定義しているコンテンツファイル構造に従うことが可能である。

しかしながら、オブジェクト基盤オーディオサービスの場合は、必要に応じては１つ程度のビデオオブジェクトを含むこともあるが、大部分はオーディオオブジェクトのみを含み、各オーディオオブジェクトは同じ符号化方式を用い、同じフレーム大きさ（１フレームがデコーディングされて再生される時間）と同じフレーム率を有し、同じ再生時刻情報を有することが一般的である。このようなオブジェクト基盤オーディオコンテンツの特徴は、ＭＰＥＧ−４システム規格で定義しているファイル構造よりも一層効率的なファイル構造を有することを可能にする。

ＭＰＥＧ−４システム規格による多重オブジェクトオーディオコンテンツファイル１０は、「ヘッダ」１１と「オブジェクトデータ」１２〜１４で構成されることができ、このうち「オブジェクトデータ」が、図１に示すように各オブジェクト別１２〜１４に複数のフレームで格納されている場合には、同じ時間に再生されなければならないフレームを取得するために各オブジェクト別に該当のフレームを探さなければならないが、もしオブジェクトの数が多ければ、それだけファイル内部でオブジェクト別の該当のフレームを探さなければならない回数も多くなるという問題が生じるようになる。

しかしながら、本発明によって、図２に示すようなファイル（多重オブジェクトオーディオコンテンツファイル）２０〜２２の構造を有すれば、同じ再生時刻を有するフレームが一緒に集まっているため、たとえオブジェクトの数が多くても、１度の検索で同じ再生時刻を有するフレームを１度に探すことができるようになる。

したがって、本発明では、オブジェクト基盤オーディオサービスを提供するために多数のオブジェクトをファイルで格納するとき、図１に示すように全体オブジェクトデータを順に格納する方式を採用せずに、図２に示すように同じ「再生時刻」を有するフレームを束ねて格納する方式を用いる（すなわち、オーディオコンテンツを構成するそれぞれのオブジェクトに対する複数のフレームを、「再生時刻」を基準としてグループ化して格納することによってオーディオコンテンツファイルを生成する）２２。

図３は、本発明に係る編集者プリセット情報を含む多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図であり、図４は、本発明に係るユーザプリセット情報を含む多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図である。

ＭＰＥＧ−４システムでは、ＢＩＦＳデータおよびＢＩＦＳコマンドを用いてユーザインタラクションを介した３次元場面情報を変更することができるが、このためには、著作段階で３次元場面情報変更を考慮してＢＩＦＳデータを適切に生成しなければならず、また、ユーザ端末（オーディオコンテンツ再生端末）でもＢＩＦＳコマンドを解釈できなければならない。このように、ＭＰＥＧ−４システムでは、多様なユーザインタラクションのための機能を含んでいるが、このような機能のためには、著作段階やコンテンツ再生端末で多少複雑な動作が求められる。

しかしながら、オブジェクト基盤オーディオサービスの場合には、サービス提供者側では各オブジェクトの位置、音の強度などのような特徴を定義した３次元オーディオ場面情報をプリセットとして定義して提供し、コンテンツ再生端末では、プリセットを制御する機能などのような比較的簡単な制御機能を含まなければならないが、このような機能は端末で容易に制御することができる機能であるため、ＭＰＥＧ−４システムのような多少複雑な構造を有さなくても端末で容易に実現することができる。

したがって、オブジェクト基盤オーディオコンテンツ提供者側では、複数のオーディオオブジェクトで構成された３次元オーディオ場面情報のみを提供し、これを制御することは純然に端末で実現するようにすることが効率的である。

このために、本発明では、オブジェクト基盤オーディオコンテンツに単純に複数の既に設定された３次元オーディオ場面情報を含む方法を用いる。このとき、既に著作された３次元オーディオ場面情報は、１次的にはコンテンツ著作者が生成するものである。

すなわち、本発明では、図３に示すように、ファイル（オブジェクト基盤オーディオコンテンツファイル）内部３０（より正確には、ファイルヘッダ３１）に、全体プリセットの個数、プリセット名などのようなプリセットと関連する情報（「プリセット関連情報」）３１１と、各オーディオオブジェクトの３次元空間上の位置、音の大きさ（信号レベル）、反響（Ｅｃｈｏ）情報などのようなオーディオオブジェクトの特性を含む「プリセット」３１２〜３１５を格納する。このようなプリセット情報（編集者プリセット情報）をオブジェクト基盤オーディオコンテンツファイルに格納して提供せずに、別途の独立したファイルで格納してユーザに提供することもできる。

図３に示すような構造を有するオーディオコンテンツファイルを受信して再生する端末（例えば、視聴者の受信機など）では、プリセット関連情報３１１と各プリセット３１２〜３１５から各オブジェクトのオーディオ特性を取得して適切にオブジェクトを制御して、３次元オーディオを再生できるようになる。

一方、オブジェクト基盤オーディオサービスでは、コンテンツ再生端末のユーザが各オーディオオブジェクトの位置、音の大きさ（信号レベル）などを制御することにより、新たな３次元オーディオ場面情報を生成することもできるが、これを格納すれば、図４に示すような「ユーザプリセット」（すなわち、オブジェクト基盤オーディオサービス提供者側の編集者の生成したプリセットではなく、ユーザが生成したプリセット）となる。

本発明では、オブジェクト基盤オーディオコンテンツファイル４０内にユーザが著作したプリセット情報４１を格納できるようにする構造を有する。したがって、オブジェクト基盤オーディオサービスが提供されたユーザは、提供されたオーディオコンテンツファイル４０内に自身が著作した「ユーザプリセット情報」４１を含む（格納する）ことができる。これとは異なり、ユーザ（ユーザ１）は、ユーザプリセット情報を該当のオーディオコンテンツファイルとは別途の独立的なファイルで格納して他のユーザ（ユーザ２）に提供することもできる。このように独立的なファイルで提供される「ユーザプリセット情報」４１は、ユーザ２の後処理過程を介して事後的に該当のオブジェクト基盤オーディオコンテンツファイルに含まれることができる。

すなわち、本発明は、図４に示すように、多重オブジェクトオーディオコンテンツファイル４０にユーザプリセット情報４１を格納できるようにすることにより、ユーザがそれぞれのオーディオオブジェクトを制御して生成した３次元オーディオ場面を新たな１つのプリセットとして設定できるようにする。このとき、ユーザが定義したプリセット情報は、図４に示すようにファイル内部に格納されることもできるし、図に示してはいないが、独立したファイルで格納されることもできる。独立したファイルで格納されたユーザプリセット情報は、後処理過程を介して事後的に該当のファイルに含まれることもできるが、このような点は、図３の「編集者プリセット情報」の場合と同じである。

図５は、本発明に係るオブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイル生成方法に対する一実施形態を示すフローチャートであり、オブジェクト基盤オーディオサービスを提供するオーディオエンコーディング装置で実行される。

一般的なオーディオ圧縮アルゴリズムは、フレーム別に圧縮するため、データを格納するときはフレーム単位で格納されている。フレーム別に格納されている複数のオブジェクトオーディオ信号を有して多重オブジェクトオーディオコンテンツを生成するとき、各オブジェクトを順次に格納せずに、同じ再生時刻を有するオブジェクトのフレームはグループ化して格納することにより、インターネットを介した送信時に効率的な送信が可能となる。また、多重オブジェクトコンテンツファイル内で特定の再生時刻を有するフレームに対する情報を探して索引情報として格納しておけば、以後にコンテンツ再生端末における効率的な任意位置再生をなすことができるようになる。

オーディオエンコーディング装置は、オーディオコンテンツを構成する複数のオーディオオブジェクトの入力を受け（５００）、それぞれのオブジェクトをフレーム化することによってそれぞれのオブジェクトに対して複数のフレームを生成する（５０２）。

その後、オーディオエンコーディング装置は、生成された多数のフレームを再生時刻を基準としてグループ化し（５０４）、フレームグループ別に該当の索引情報を生成する（５０６）。

次に、オーディオエンコーディング装置は、グループ化されたフレームはオブジェクトデータ（図２の２２）として格納し、該当の索引情報はヘッダ２１に格納されることにより、多重オブジェクトオーディオコンテンツファイル（図２参照）を生成する（５０８）。

以下、段階５０６の索引情報生成過程について詳しく説明すれば、次のとおりとなる。

一般的なメディアファイルでは、ファイルにおけるランダムアクセスを容易にするために、各フレームの位置情報、大きさ情報などを索引（ｉｎｄｅｘ）情報として提供する方法を用いる。このとき、索引情報は、各メディアの最小再生単位（オーディオの場合はフレーム単位）を基盤として生成することが一般的である。

しかしながら、本発明では、このような索引情報をメディアの最小再生単位ではない複数の最小再生単位をグループ化した任意の単位で生成する方法を用いる。本発明に係る方法で索引情報を生成する場合、索引情報の大きさが一般的な場合よりも小さくなり、索引情報の大きさの調節も可能となり、さらにランダムアクセス速度を向上させることができ、ランダムアクセスのための演算量を減らすことができるようになる。

本発明に係る場合、直接的なメディアデータのアクセスは、グループ化した単位でのみなされることにより、直接的なアクセスに対する分解能（Ｒｅｓｏｌｕｔｉｏｎ）は低下することがあるが、直接アクセスした後に再びメディアデータを追跡してフレーム単位でアクセスすることが可能であるため、実際の分解能は一般的なフレーム単位インデキシングと差がなくなる。特に、一般的に秒（ｓｅｃｏｎｄ）単位程度のインデキシングが可能となるときにマルチメディアをランダムアクセスすれば、視聴には大きい問題点がないという点を勘案すれば、本発明の効果は極めて大きいと言える。

例えば、秒あたり約４３個のフレームを有する１分の長さのオーディオオブジェクトがあるとし、１つの索引情報は８バイトであるとする。これを既存の一般的な索引方法によって索引をするようになれば、フレーム別に索引情報を生成しなければならないため、下記の数式１のように２０，６４０バイトが所要される。

一方、本発明の実施形態によって、フレームグループ別に索引情報を生成すれば、例えば、２０個のフレームあたり１つの索引情報を生成するとすれば、下記の数式２のように約１，３２０バイトが所要される。１フレームごとに生成した索引情報を２０個のフレームごとに生成するため、１／２０程度のバイトの節約が可能となる。ここで、フレームグループ別に生成される索引情報には、該当のグループに属する１番目のフレームの位置情報が含まれる。また、このように生成された索引情報は、多重オブジェクトオーディオコンテンツファイルのヘッダに格納される。

本発明によれば、直接的なアクセスに対する分解能は２０倍に増えたが、これは約０．５秒に該当するものであるため、実際にメディアを任意でアクセスして再生するときにも視聴に影響を及ぼさない水準であると言える。

上述した例では、２０個のフレームを１つにグループ化したが、コンテンツに応じてグループ化するフレームの個数を自由に調整することが可能である。したがって、コンテンツに応じて分解能を適切に制御すれば、直接的なアクセスによる分解能の問題も解決することができる。

一方、他の実施形態として、オーディオコンテンツを構成するそれぞれのオブジェクトに対して生成されたフレームを「オブジェクト別」に整列して格納することにより、多重オブジェクトオーディオコンテンツファイルを生成する場合には、「同じ再生時刻を有するフレームに対する個別的な位置情報」を索引情報として該当の多重オブジェクトオーディオコンテンツファイルのヘッダに格納することもできる。

図６は、本発明に係るオブジェクト基盤オーディオサービスのためのオーディオプリセット生成方法に対する一実施形態を示すフローチャートである。

オーディオエンコーディング装置は、多重オブジェクトオーディオコンテンツの構成に用いられる複数のオーディオオブジェクト（オブジェクト信号）の入力を受け（６００）、編集者に提供する。

この後、編集者は、多重オブジェクトオーディオコンテンツの構成に用いられるオブジェクトを選択するようになる。すなわち、オーディオエンコーディング装置は、編集者からオーディオプリセットの生成に必要なオーディオオブジェクトの選択を受けるようになる（６０２）。

次に、オーディオエンコーディング装置は、編集者から選択されたそれぞれのオーディオオブジェクトに対するプリセット設定情報（例えば、３次元プリセットを生成する場合には、それぞれのオブジェクト信号のレベルおよび３次元空想における位置情報が該当し、２次元プリセットを生成する場合には、それぞれのオブジェクト信号のレベル情報が該当する）の入力を受ける（６０４）。

この後、オーディオエンコーディング装置は、編集者から入力された設定情報によって該当のオーディオオブジェクトの信号レベルまたは３次元空間上の位置を設定してオーディオプリセットを生成する（６０６）。

このような過程を介して生成されたオーディオプリセットに対する全体個数およびプリセット名（Ｐｒｅｓｅｔｎａｍｅ）を含む「プリセット関連情報」を生成する（６０８）。

すなわち、編集者は、それぞれのオブジェクト信号の大きさと位置情報などを相違させながら複数のプリセット情報を生成した後、これに対する情報を多重オブジェクトオーディオコンテンツファイルのビットストリームに格納してユーザに提供することにより、ユーザがこのうちのいずれか１つを自身の趣向によって選択できるようにする。

図６によるプリセット生成過程を具体的に説明すれば、次のとおりとなる。すなわち、歌手の声（ボーカル）、その他、ピアノ、ドラム、キーボードなどのオーディオオブジェクトを用いて複数のプリセットを生成する場合について説明する。

□プリセット１（ボーカルモード）：ボーカル（レベル９）、その他（レベル０）、ピアノ（レベル０）、ドラム（レベル０）、キーボード（レベル０）
□プリセット２（ＭＲモード）：ボーカル（レベル８）、その他（レベル８）、ピアノ（レベル８）、ドラム（レベル８）、キーボード（レベル８）
□プリセット３（カラオケモード）：ボーカル（レベル０）、その他（レベル９）、ピアノ（レベル９）、ドラム（レベル９）、キーボード（レベル９）

上述したように３つのプリセットを設定した後、設定されたプリセット、プリセットの数、プリセット名などは、該当の多重オブジェクトオーディオコンテンツファイルのビットストリームに格納される。

以後、ユーザは、１つの音楽コンテンツからボーカル（Ｖｏｃａｌ）モード、ＭＲモード、カラオケ（Ｋａｒａｏｋｅ）モードのうちのいずれか１つを選択して聴取できるようになる。

以上、編集者側のオーディオエンコーディング装置に適用されるオーディオプリセット（編集者定義プリセット）生成方法について説明したが、これはユーザのコンテンツ再生端末に適用されるオーディオプリセット（ユーザ定義プリセット）生成方法にも同じように適用される。

図７は、本発明に係る編集者側オーディオエンコーディング装置の画面構成図であり、入力されたオーディオオブジェクトを介して多様なオーディオプリセットを生成する場合を示す。図７において、プリセット１（フル（Ｆｕｌｌ））と関連した１（−１００）（０．９）において、「１」はオブジェクト、「（−１００）」は３次元空間上の位置、「（０．９）」はオブジェクト信号のレベルを示す。

図８は、本発明に係るユーザのコンテンツ再生端末の画面構成図である。

ユーザのコンテンツ再生端末では、プリセット名をユーザに示し、ユーザが特定のプリセットを選択すれば、該当のプリセット情報による該当のオブジェクトのレベル、位置情報を用いてオーディオ場面を構成する。

ユーザがプリセットを設定する場合、オーディオオブジェクト名（ＴＡＧＮａｍｅ）をユーザに示し、該当のオブジェクトのレベルおよび位置をユーザが設定できるようにした後、ユーザが設定した情報を格納してユーザプリセット（ユーザが定義したプリセット）を生成する。

図９は、本発明に係る多重オブジェクトオーディオコンテンツファイルの編集方法に対する一実施形態を示すフローチャートであり、ユーザのコンテンツ再生端末における多重オブジェクトオーディオコンテンツファイルの編集過程を示す。

ユーザのコンテンツ再生端末は、多重オブジェクトオーディオコンテンツファイルに対するオブジェクト情報およびオーディオプリセット情報を出力する（９００）。このとき、ユーザは、オブジェクトまたは／およびプリセットを変更しようとする場合には、所望する変更要求事項を入力する。そして、オーディオプリセット情報には、オーディオプリセット、プリセット関連情報などが含まれるが、これは多重オブジェクトオーディオコンテンツファイル内に格納されていたり、または多重オブジェクトオーディオコンテンツファイルとは別途の独立ファイルに格納されている。

この後、コンテンツ再生端末は、ユーザの要求に応じて多重オブジェクトオーディオコンテンツファイルに対するオブジェクトまたは／およびプリセットを変更する（９０２）。

図には示していないが、オーディオプリセット情報が別途の独立ファイルに格納されている場合には、ユーザの要求に応じて事後的に該当の多重オブジェクトオーディオコンテンツファイルに格納することができる。

このような編集方法を介して、ユーザは、既存のオブジェクト基盤オーディオコンテンツファイルにおいて特定のオーディオオブジェクトを除去、変更（新たなオーディオオブジェクトに交換）したり、新なたオーディオオブジェクトを追加して新たなコンテンツファイルを生成することができる。例えば、音楽コンテンツに自身が直接歌った歌を１つのオブジェクトとして追加して他人に配布することができる。また、ユーザは、それぞれのオブジェクトのレベルおよび位置などの情報を自身の趣向によって新たに定義した後、この情報を該当のコンテンツファイル内部や外部の別途のファイルに格納することができる。

図１０は、本発明に係る多重オブジェクトオーディオコンテンツファイルの再生方法に対する一実施形態を示すフローチャートであり、ユーザのコンテンツ再生端末で実行される多重オブジェクトオーディオコンテンツファイルの再生過程を示す。

ます、ユーザの要請に応じて、コンテンツ再生端末は、多重オブジェクトオーディオコンテンツファイルを分析した後（１０００）、この分析結果から多重オブジェクトオーディオコンテンツファイルのオブジェクトフレームの位置に対する索引情報を取得する（１００２）。ここで、多重オブジェクトオーディオコンテンツファイルは、再生時刻が同じフレームが同じフレームグループに格納されているファイルとすることができ、この場合には、該当のフレームグループに属する１番目のフレームの位置情報が該当の索引情報となるであろう。これとは異なり、多重オブジェクトオーディオコンテンツファイルがオブジェクトフレームがオブジェクト別に格納されているファイルである場合には、再生時刻が同じフレームに対する個別位置情報が該当の索引情報となる。

この後、コンテンツ再生端末は、取得した索引情報を用いて再生時刻が同じオブジェクトフレームを検索して多重オブジェクトオーディオコンテンツファイルを再生する（１００４）。

図１０には示していないが、コンテンツ再生端末は、ユーザの要請に応じて多重オブジェクトオーディオコンテンツに対するオーディオプリセットの種類を出力し、これによってユーザから選択されたオーディオプリセットの設定情報を用いて該当のオーディオ場面を構成する機能をさらに実行する。ここで、オーディオプリセット情報は、多重オブジェクトオーディオコンテンツファイル内に格納されていたり、または多重オブジェクトオーディオコンテンツファイルとは別途の独立ファイルに格納されている。

上述したような本発明の方法は、プログラムで実現されてコンピュータで読み取ることができる形態であり、記録媒体（ＣＤ−ＲＯＭ、ＲＡＭ、ＲＯＭ、フロッピーディスク、ハードディスク、光磁気ディスクなど）に格納されることができる。このような過程は、本発明が属する技術分野において通常の知識を有する者が容易に実施することができるため、これ以上の詳しい説明は省略することにする。

以上で説明した本発明は、本発明が属する技術分野において通常の当業者によって、本発明の技術的思想を逸脱しない範囲内で多様な置換、変形、および変更が可能であるため、上述した実施形態および添付の図面によって制限されるものではない。

Claims

オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイル生成方法であって、
オーディオコンテンツを構成するそれぞれのオブジェクトに対して複数のフレームを生成するフレーム化ステップと、
前記生成されたフレームを再生時刻を基準としてグループ化して格納することによって多重オブジェクトオーディオコンテンツファイルを生成するコンテンツファイル生成ステップと、
を含む多重オブジェクトオーディオコンテンツファイル生成方法。
フレームグループ別に索引情報を生成して前記多重オブジェクトオーディオコンテンツファイルのヘッダに格納する索引情報生成ステップ、
をさらに含む請求項１に記載の多重オブジェクトオーディオコンテンツファイル生成方法。
前記索引情報は、
フレームグループ別に該当のグループに属する１番目のフレームの位置情報を含むことを特徴とする請求項２に記載の多重オブジェクトオーディオコンテンツファイル生成方法。
オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイル生成方法であって、
オーディオコンテンツを構成するそれぞれのオブジェクトに対して複数のフレームを生成するフレーム化ステップと、
前記生成されたフレームをオブジェクト別に格納して多重オブジェクトオーディオコンテンツファイルを生成するが、同じ再生時刻を有するフレームに対する位置情報を索引情報として前記多重オブジェクトオーディオコンテンツファイルのヘッダに格納するコンテンツファイル生成ステップと、
を含む多重オブジェクトオーディオコンテンツファイル生成方法。
前記オーディオコンテンツのオブジェクトの信号レベルまたは３次元空間上の位置を設定してオーディオプリセットを生成するプリセット生成ステップ、
をさらに含むことを特徴とする請求項４に記載の多重オブジェクトオーディオコンテンツファイル生成方法。
前記生成されたオーディオプリセットに対する個数およびプリセット名を含むプリセット関連情報を生成するステップ、
をさらに含む請求項５に記載の多重オブジェクトオーディオコンテンツファイル生成方法。
多重オブジェクトオーディオコンテンツファイルに対するオーディオプリセット生成方法であって、
編集者またはユーザから前記多重オブジェクトオーディオコンテンツファイルに対するオーディオオブジェクトのうちでオーディオプリセットの生成に必要なオーディオオブジェクトが選択されるオブジェクト選択ステップと、
前記編集者または前記ユーザから前記選択されたそれぞれのオーディオオブジェクトに対するプリセット設定情報が入力される設定情報入力ステップと、
前記プリセット設定情報によって該当のオーディオオブジェクトを設定してオーディオプリセットを生成するプリセット生成ステップと、
を含むオブジェクト基盤オーディオサービスのためのオーディオプリセット生成方法。
前記プリセット設定情報は、
オーディオオブジェクトに対する信号レベルまたは３次元空間上の位置情報であることを特徴とする請求項７に記載のオブジェクト基盤オーディオサービスのためのオーディオプリセット生成方法。
前記生成されたオーディオプリセットに対する全体個数およびプリセット名を含むプリセット関連情報を生成するステップ、
をさらに含む請求項７に記載のオブジェクト基盤オーディオサービスのためのオーディオプリセット生成方法。
多重オブジェクトオーディオコンテンツファイルの編集方法であって、
多重オブジェクトオーディオコンテンツファイルに対するオブジェクト情報およびオーディオプリセット情報をユーザに提供するステップと、
前記ユーザの要求に応じて前記多重オブジェクトオーディオコンテンツファイルに対するオブジェクトまたはオーディオプリセットを変更するステップと、
を含む多重オブジェクトオーディオコンテンツファイルの編集方法。
前記変更ステップは、
前記多重オブジェクトオーディオコンテンツファイルに格納されたオブジェクトを削除／変更したり、他のオブジェクトを追加することを特徴とする請求項１０に記載の多重オブジェクトオーディオコンテンツファイルの編集方法。
前記変更ステップは、
前記多重オブジェクトオーディオコンテンツファイルに対するオーディオプリセットの設定情報を変更することを特徴とする請求項１０に記載の多重オブジェクトオーディオコンテンツファイルの編集方法。
前記オーディオプリセット情報は、
前記多重オブジェクトオーディオコンテンツファイルまたは別途の独立ファイルに格納されていることを特徴とする請求項１０に記載の多重オブジェクトオーディオコンテンツファイルの編集方法。
前記オーディオプリセット情報が別途の独立ファイルに格納されている場合、
ユーザの要求に応じて前記多重オブジェクトオーディオコンテンツファイルに前記オーディオプリセット情報を格納するステップをさらに含むことを特徴とする請求項１３に記載の多重オブジェクトオーディオコンテンツファイルの編集方法。
多重オブジェクトオーディオコンテンツファイルの再生方法であって、
多重オブジェクトオーディオコンテンツファイルを分析するステップと、
分析結果から前記多重オブジェクトオーディオコンテンツファイルのオブジェクトフレームの位置に対する索引情報を取得するステップと、
前記索引情報を用いて再生時刻が同じオブジェクトフレームを検索して前記多重オブジェクトオーディオコンテンツファイルを再生するステップと、
を含む多重オブジェクトオーディオコンテンツファイルの再生方法。
前記多重オブジェクトオーディオコンテンツファイルは、
再生時刻が同じフレームが同じフレームグループに格納されていることを特徴とする請求項１５に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
前記索引情報は、
該当のフレームグループに属する１番目のフレームの位置情報であることを特徴とする請求項１６に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
前記多重オブジェクトオーディオコンテンツファイルは、
オブジェクトフレームがオブジェクト別に格納されていることを特徴とする請求項１５に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
前記索引情報は、
再生時刻が同じフレームに対する個別位置情報であることを特徴とする請求項１８に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
前記多重オブジェクトオーディオコンテンツに対するオーディオプリセットの種類を出力するステップと、
ユーザから選択されたオーディオプリセットの設定情報を用いて該当のオーディオ場面を構成するステップと、
をさらに含む請求項１５ないし１９のうちのいずれか一項に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。