JP7314929B2

JP7314929B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7314929B2
Application number: JP2020509660A
Authority: JP
Inventors: 充勝股; 俊也浜田; 尚尊小代
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-03-29
Filing date: 2018-12-26
Publication date: 2023-07-26
Anticipated expiration: 2038-12-26
Also published as: WO2019187434A1; CN111903136A; KR20200136394A; EP3780627A1; TW201942713A; EP3780627A4; JPWO2019187434A1; US20210021656A1; US11533348B2

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、インターネット上のストリーミングサービスの基盤技術として、MPEG-DASH（Moving Picture Experts Group phase － Dynamic Adaptive Streaming over HTTP）が普及しつつある（例えば、非特許文献１参照）。

MPEG-DASHを用いて行われるオーディオコンテンツの配信においては、配信サーバがオブジェクト毎にオーディオデータを用意し（当該データを「オブジェクトオーディオデータ」と呼称する）、クライアントが伝送路の状況等に応じて最適なオブジェクトオーディオデータを要求することにより、適応型のストリーミング配信が実現される。

また、従来の5.1チャネルサラウンド再生を超える、より高臨場感な再生や複数のオブジェクトオーディオデータを伝送するための符号化技術としてMPEG-H 3D Audioが知られている（例えば、非特許文献２参照）。

ISO/IEC 23009-1:2014 Information technology － Dynamic adaptive streaming over HTTP (DASH) ISO/IEC 23008-3:2015 Information technology － High efficiency coding and media delivery in heterogeneous environments

しかし、上記のような非特許文献１に示されているMPEG-DASHの規格においては、再生されるオブジェクトオーディオデータを表示状態ごとに選択することができなかった。

そこで、本開示では、オブジェクトオーディオデータを表示状態に応じて選択することが可能な、新規かつ改良された情報処理装置、情報処理方法およびプログラムを提案する。

本開示によれば、画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成する生成部を備え、前記生成部は、前記コンテンツファイルに含まれるメタデータファイルに前記オブジェクト選択情報を格納し、前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、情報処理装置が提供される。
また、本開示によれば、画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成する生成部を備え、前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、情報処理装置が提供される。

また、本開示によれば、画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成することを含み、前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、情報処理装置によって実行される情報処理方法が提供される。

また、本開示によれば、コンピュータに、画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成する機能を実現させ、前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、プログラムが提供される。
また、本開示によれば、画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成する生成部を備え、前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、情報処理装置が提供される。
また、本開示によれば、画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルに基づいて再生を開始する再生部、を備え、前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、情報処理装置が提供される。
また、本開示によれば、画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルに基づいて再生を開始することを含み、前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、従属装置によって実行される情報処理方法が提供される。
また、本開示によれば、コンピュータに、画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルに基づいて再生を開始する機能を実行させ、前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、プログラムが提供される。

以上説明したように本開示によれば、オブジェクトオーディオデータを表示状態に応じて選択することが可能である。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の背景を説明するための説明図である。本開示の背景を説明するための説明図である。画像の表示状態とオブジェクトオーディオデータの関係を説明するための説明図である。第１の比較手法によるオーディオデータの配信を説明するための説明図である。第２の比較手法によるオーディオデータの配信を説明するための説明図である。本開示の一実施形態にかかる提案手法の概要を説明するための説明図である。表示状態が変化しなくても、時刻によって利用するオブジェクトオーディオデータの組合せが変化する例を説明するための説明図である。同実施形態にかかる情報処理システムのシステム構成例を示すブロック図である。同実施形態にかかるサーバ１００の機能構成例を示すブロック図である。同実施形態にかかるクライアント２００の機能構成例を示すブロック図である。復号画像を表示部２６０にそのまま表示させた場合に利用するオブジェクトオーディオデータについて説明するための説明図である。復号画像を切り出して得られる切り出し画像を表示部２６０に表示させた場合に利用するオブジェクトオーディオデータについて説明するための説明図である。視聴時の画角の違いによる、利用するオブジェクトオーディオデータの違いについて説明するための説明図である。オブジェクト選択情報に基づいて利用するオブジェクトオーディオデータをクライアント２００が選択して取得する方法を示すフローチャート図である。オブジェクト間の角度について説明するための説明図である。オブジェクト選択情報に基づいて利用するオブジェクトオーディオデータをクライアント２００が選択して取得する方法を示すフローチャート図である。ファイル化の流れを示すフローチャート図である。ファイル化の具体例について説明するための説明図である。ファイル化の具体例について説明するための説明図である。ファイル化の具体例について説明するための説明図である。シグナリングされるvalueと各valueの詳細説明(description)を示す表である。ＭＰＤファイル生成部１１４が生成するＭＰＤファイルの一例を示す図である。図２０に示したＭＰＤファイルにおける各情報を示す表である。クライアント２００が取得するAdaptationSetを選択する方法の一例を示すフローチャート図である。ＭＰＤファイル生成部１１４が生成するＭＰＤファイルの一例を示す図である。シグナリングされるvalueと各valueの詳細説明(description)を示す表である。ＭＰＤファイル生成部１１４が生成するＭＰＤファイルの一例を示す図である。図２５に示したＭＰＤファイルにおける各情報を示す表である。クライアント２００が取得するAdaptationSetを選択する方法の一例を示すフローチャート図である。ＭＰＤファイル生成部１１４が生成するＭＰＤファイルの一例を示す図である。メタデータファイルの構造について説明するための説明図である。メタデータファイルの構造について説明するための説明図である。図２９、図３０に示したメタデータファイルのsyntaxを示す図である。拡張されたメタデータファイルの一例を示す図である。拡張されたメタデータファイルのsyntaxを示す図である。オブジェクト選択メタデータファイルの一例を示す図である。オブジェクト選択メタデータファイルのsyntaxを示す図である。 objectSelectionMetadataConfigurationBoxの一例を示す図である。図３６に示したobjectSelectionMetadataConfigurationBoxのvalueと、各valueの詳細説明を示す表である。 objectSelectionMetadataの一例を示す図である。図３８に示したobjectSelectionMetadataのvalueと、各valueの詳細説明を示す表である。 objectSelectionMetadataの変形例を示す図である。図４０に示した各valueの詳細説明を示す表である。 objectSelectionMetadataConfigurationBoxの一例を示す図である。図４２に示したobjectSelectionMetadataConfigurationBoxのvalueと、各valueの詳細説明を示す表である。 objectSelectionMetadataの一例を示す図である。図４４に示したobjectSelectionMetadataのvalueと、各valueの詳細説明を示す表である。 objectSelectionMetadataの一例を示す図である。図４６に示したobjectSelectionMetadataのvalueと、各valueの詳細説明を示す表である。 objectSelectionMetadataの変形例を示す図である。図４８に示した各valueの詳細説明を示す表である。 objectSelectionMetadataConfigurationBoxの一例を示す図である。図５０に示したobjectSelectionMetadataConfigurationBoxのvalueと、各valueの詳細説明を示す表である。生成されるＭＰＤファイルの一例を示す図である。生成されるＭＰＤファイルの一例を示す図である。生成されるＭＰＤファイルの他の例を示す図である。クライアントが取得するファイルを選択する方法の一例を示すフローチャート図である。応用例について説明するための説明図である。応用例について説明するための説明図である。応用例について説明するための説明図である。視聴位置によって利用するオブジェクトオーディオデータが異なる場合に生成されるＭＰＤファイルの一例を示す図である。ハードウェア構成例を示す説明図である。 MHAMultiStreamBoxの構造を示す図である。 3da_meta_data()の構造を示す図である。 DSEの構造を示す図である。 DSEにおけるdata_stream_byteに格納される3da_ancillary_dataの構造を示す図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

なお、説明は以下の順序で行うものとする。
＜＜１．はじめに＞＞
＜＜２．構成例＞＞
＜＜３．オブジェクト選択情報の例（実施例１）＞＞
＜＜４．表示状態を考慮したファイル化の例（実施例２）＞＞
＜＜５．時間変化しない場合のシグナリング例（実施例３）＞＞
＜＜６．時間変化する場合のシグナリング例（実施例４）＞＞
＜＜７．応用例＞＞
＜＜８．ハードウェア構成例＞＞
＜＜９．むすび＞＞

＜＜１．はじめに＞＞
＜１－１．背景＞
まず、本開示の背景について説明する。

MPEG-H 3D Audioは、オブジェクトごとに生成されたオーディオデータであるオブジェクトオーディオデータを扱うことができる規格である。オーディオコンテンツは、音源の波形データである複数のオブジェクトオーディオデータと、オブジェクトの位置、音の広がり、もしくは、各種エフェクト等に関する情報を含むオブジェクトメタデータによって構成される。

図１は、本開示の背景を説明するための説明図である。例えば、図１に示すように、オブジェクトメタデータと複数のオブジェクトオーディオデータ（図１においては、オブジェクトオーディオデータ１～オブジェクトオーディオデータｎが示されている）がサーバ等によってクライアントへ提供される。クライアントのオブジェクトレンダラーは、オブジェクトメタデータとオブジェクトオーディオデータを受信すると、再生環境情報（例えば、スピーカの位置または数等）に基づいてレンダリングを行い、スピーカ等の再生環境に対して波形データを提供することで、オーディオコンテンツの再生を実現する。

オーディオコンテンツが提供される場合、オブジェクトオーディオデータは、オーディオファイルに格納されてクライアントへ伝送される。ここで、図２を参照して具体例を説明する。図２は、本開示の背景を説明するための説明図である。図２のＤ１０に示すように、オブジェクトオーディオデータ１～オブジェクトオーディオデータ３と、これらのデータに対応するオブジェクトメタデータが存在する場合、オーディオファイルに格納する態様はファイル化例Ｆ１１～Ｆ１３に示すように大きく３通りが考えられる。

より具体的には、ファイル化例Ｆ１１に示すように、全てのデータが１つのオーディオファイルに格納されてもよいし、ファイル化例Ｆ１２に示すように、１または２以上のオブジェクトオーディオデータとそれらに対応するオブジェクトメタデータがそれぞれオーディオファイルに格納されてもよい。また、ファイル化例Ｆ１３に示すように、１つのオブジェクトオーディオデータとそれに対応するオブジェクトメタデータが１つのオーディオファイルに格納されてもよい。

ここで、画像の表示状態とオブジェクトオーディオデータの関係について、図３を参照して説明を行う。図３は、画像の表示状態とオブジェクトオーディオデータの関係を説明するための説明図である。

図３には、２人のボーカルＨ２、Ｈ３が歌っている画像が２つの表示状態Ｖ１１、及び表示状態Ｖ１２で表示される例が示されている。表示状態Ｖ１１と表示状態Ｖ１２とは、ズームイン、ズームアウトにより相互に移行可能であり、表示状態Ｖ１１において中央部をズームインすると表示状態Ｖ１２となり、表示状態Ｖ１２においてズームアウトすると表示状態Ｖ１２となる。なお、ズームイン、ズームアウトは、例えばクライアントによる画像の切り出し処理により行われてもよい。

表示状態Ｖ１１の場合、２人のボーカルＨ２、Ｈ３が中央に小さくまとまって表示されているため、どちらのボーカルが歌っていたとしても、あるいは両方のボーカルが歌っていたとしても、中央の１方向から音が聞こえれば十分であると考えられる。一方、表示状態Ｖ１２の場合は、ユーザには２人のボーカルが離れて見え、それぞれのボーカルの位置が明確に区別できるため、左側のボーカルＨ２が歌っているときは左の方向から音が聞こえ、右側のボーカルＨ３が歌っているときは右の方向から音が聞こえることが望ましい。このような状態を音の定位がわかる状態という。

ストリーミングサービスを行うための規格であるMPEG-DASHでは、上述したような表示状態に応じたオブジェクトオーディオデータの伝送は考慮されておらず、表示状態に関係なくオブジェクトオーディオデータが伝送されている。

例えば、図３のような画像とオーディオデータを含むコンテンツをMPEG-DASHで配信する場合、図４を参照して説明する以下のような２つの手法（それぞれ、第１の比較手法、及び第２の比較手法と呼ぶ）が採用され得る。

図４Ａは、第１の比較手法によるオーディオデータの配信を説明するための説明図である。第１の比較手法は、表示状態Ｖ１１に合わせて１つのオブジェクトオーディオデータＡＤ１を配信する手法である。図４Ａに示されるように、第１の比較手法によれば、表示状態Ｖ１１の場合だけでなく、表示状態Ｖ１２の場合も、音が中央の１方向のみから聞こえるため、図３を参照して説明したように、それぞれのボーカルの位置に応じた方向から音を聞くことができない。

図４Ｂは、第２の比較手法によるオーディオデータの配信を説明するための説明図である。第２の既存手法は、表示状態Ｖ１２に合わせて２つのオブジェクトオーディオデータＡＤ２、ＡＤ３を配信する手法である。図４Ｂに示されるように、第２の比較手法によれば、表示状態Ｖ１２において、それぞれのボーカルの位置に応じた方向から音を聞くことが可能であるが、表示状態Ｖ１１では、２つのオブジェクトオーディオデータがレンダリングされ、結果的に１方向から音が聞こえる。つまり、第２の比較手法では、表示状態Ｖ１１の場合に、１方向から聞こえれば十分にも関わらず、２つのオブジェクトオーディオデータが必要であるため、第１の比較手法と比べると伝送帯域、及びレンダリング処理が余計に必要となってしまう。

＜１－２．概要＞
そこで、以下に説明する本開示の一実施形態では、表示状態に応じて利用するオブジェクトオーディオデータを選択して取得する手法（以下、提案手法と呼ぶ）が採用される。例えばサーバが表示状態ごとに必要となるオブジェクトオーディオデータを予め全て記憶しておき、クライアントが表情状態に応じたオブジェクトオーディオデータを選択して取得することにより、かかる提案手法が実現され得る。

図５は、本開示の一実施形態にかかる提案手法の概要を説明するための説明図である。提案手法では、表示状態Ｖ１１では１つのオブジェクトオーディオデータＡＤ１が配信され、表示状態Ｖ１２では２つのオブジェクトオーディオデータＡＤ２、ＡＤ３が配信される。提案手法によれば、余計な伝送帯域、及びレンダリング処理を発生させることなく、より適切な位置から音が聞こえるようにオブジェクトオーディオデータを配信することが可能となる。

ところで、上述したように、既存のMPEG-DASHでは、表示状態に応じたオブジェクトオーディオデータの伝送は考慮されていない。そこで、上述したような提案手法によるオブジェクトオーディオデータの配信を実現するため、本開示では、以下の４つの仕組みが提供される。

第１に、画像の表示状態に応じたオブジェクトオーディオデータを選択するための情報と、その情報を利用してオブジェクトオーディオデータを選択する仕組みが提供される。例えば、図５に示した例では、表示状態Ｖ１１の場合にはオブジェクトオーディオデータＡＤ１、表示状態Ｖ１２の場合にはオブジェクトオーディオデータＡＤ２、ＡＤ３を選択するためのメタ情報（以下、オブジェクト選択情報とも称する）が新たに必要となる。かかるオブジェクト選択情報、及びオブジェクト選択情報を用いたオブジェクトオーディオデータ選択の例については、＜＜３．オブジェクト選択情報の例（実施例１）＞＞において説明を行う。

第２に、表示状態を考慮してオブジェクトオーディオデータをファイル化する仕組みが提供される。図２を参照して説明したように、既存のMPEG-DASHでは、オブジェクトオーディオデータはオーディオファイルに格納され、クライアントはファイルを選択して取得する。

例えば、表示状態ごとに利用するオブジェクトオーディオデータを図２に示したファイル化例Ｆ１１のように全て１つのオーディオファイルに格納されるようにファイル化すると、常に１つのオーディオファイルを表示状態に応じて選択して取得すればよいという利点がある。しかし、表示状態と同一数のファイルを準備する必要があり、また、共通のオブジェクトオーディオデータを利用する表示状態が複数存在する場合、サーバは同一のオブジェクトオーディオデータを含む複数のオーディオファイルを記憶することとなり、記憶容量の無駄が発生し得る。

一方で、図２に示したファイル化例Ｆ１３のように１つのオブジェクトオーディオデータが１つのオーディオファイルに格納されるようにファイル化すると、サーバは必要なオブジェクトオーディオデータ分のオーディオファイルのみを記憶すればよいという利点がある。しかし、クライアントがファイルを取得する際、表示状態に応じたオブジェクトオーディオデータの数だけオーディオファイルを取得する必要があるため、HTTPコネクション数が多くなりサーバの処理負荷が大きくなる恐れがある。

そこで、様々な表示状態に対応可能であると共に、サーバが記憶するデータ量と、クライアントが取得するファイル数との両方が抑制されるようにファイル化する仕組みが望まれる。このような表示状態を考慮したオブジェクトオーディオデータをファイル化する仕組みの例については、＜＜４．表示状態を考慮したファイル化の例（実施例２）＞＞において説明を行う。

第３に、利用するオブジェクトオーディオデータの組合せが時間変化しない場合に、オブジェクト選択情報をシグナリングする仕組みが提供される。利用するオブジェクトオーディオデータの組合せが時間変化しない場合、同一のオブジェクト選択情報を全ての時刻で共通利用可能である。しかし、かかるオブジェクト選択情報をシグナリングする仕組みが既存のMPEG-DASHには用意されていないため、シグナリングするための新たな仕組みが必要となる。利用するオブジェクトオーディオデータの組合せが時間変化しない場合に、オブジェクト選択情報をシグナリングする仕組みの例については、＜＜５．時間変化しない場合のシグナリング例（実施例３）＞＞において説明を行う。

第４に、利用するオブジェクトオーディオデータが時間変化する場合に、オブジェクト選択情報をシグナリングする仕組みが提供される。上述したオブジェクト選択情報が時間変化する場合が考えらえれる。例えば同一の表示状態であっても、時刻によって利用するオブジェクトオーディオデータが変化する場合がある。かかる場合について、図６を参照して説明する。

図６は、表示状態が変化しなくても、時刻によって利用するオブジェクトオーディオデータの組合せが変化する例を説明するための説明図である。図６に示す例では、時刻ｔ１から時刻ｔ２の間にズーム変化はなく、時刻ｔ１の表示状態Ｖ２１と、時刻ｔ２の表示状態Ｖ２２は同一の表示状態であるが、時刻ｔ１から時刻ｔ２の間に、２人のボーカルＨ１，Ｈ２が手前に近づいてきている。なお、本明細書では、例えば画角等の表示状態を決定し得る要素に変化がない場合には同一の表示状態であると表現される。

時刻ｔ１では、２人のボーカルＨ１，Ｈ２が遠くにまとまって見えるため、１つのオブジェクトオーディオデータＡＤ１を利用することが望ましい。一方、時刻ｔ２では２人のボーカルＨ１，Ｈ２が近づいたことにより、それぞれのボーカルの位置が明確に区別できるため、２つのオブジェクトオーディオデータＡＤ２、ＡＤ３を利用することが望ましい。このように、時刻ごとに画像に映っている音源が移動する場合には、利用するオブジェクトオーディオデータの組合せが時間変化し得る。また、時刻ごとに映っている音源が変化する場合にも、利用するオブジェクトオーディオデータの組合せが時間変化し得る。

このように利用するオブジェクトオーディオデータの組合せが時間変化する場合、時刻ごとに異なるオブジェクト選択情報をシグナリングすることが望ましい。時刻ごとに異なるオブジェクト選択情報をファイルに格納する仕組み、及びそれをシグナリングするための仕組みは既存のMPEG-DASHには用意されていない。利用するオブジェクトオーディオデータの組合せが時間変化する場合に、時刻ごとにオブジェクト選択情報をファイルに格納し、シグナリングする仕組みの例については、＜＜６．時間変化する場合のシグナリング例（実施例４）＞＞において説明を行う。

以上、本開示の背景、及び本開示の一実施形態の概要について説明した。以降では、本開示の一実施形態についてより詳細に説明を行う。

＜＜２．構成例＞＞
＜２－１．システム構成例＞
まず、図７を参照して、本実施形態にかかる情報処理システムのシステム構成例について説明する。図７は、本実施形態にかかる情報処理システムのシステム構成例を示すブロック図である。

図７を参照すると、本実施形態にかかる情報処理システムは、サーバ１００と、クライアント２００と、を備える。そして、サーバ１００とクライアント２００は、通信網３００によって互いに接続されている。

サーバ１００は、MPEG-DASHに基づいて、オーディオコンテンツに用いられるオブジェクトオーディオデータをクライアント２００にストリーミング配信（送信）する情報処理装置（送信装置）である。より具体的には、サーバ１００は、オーディオコンテンツに用いられるオーディオデータをオブジェクト毎に取得し、オブジェクト単位で当該データを符号化することでストリームデータを生成する。そして、サーバ１００は、セグメントと呼ばれる数秒から１０秒程度の時間単位ごとに、もしくはコンテンツすべてについて、当該ストリームデータをファイル化することでオーディオファイルを生成する。

なお、オブジェクトとは、音源であり、各オブジェクトのオーディオデータ（オブジェクトオーディオデータ）は、例えば各オブジェクトに取り付けられたマイクロフォン等により取得される。オブジェクトは、固定されたマイクスタンド等の物体であってもよいし、人物等の動体であってもよい。

また、本実施形態において、１つの音源が１つのオブジェクトであってもよいし、複数の音源が１つのオブジェクトであってもよい。またある音源に対応するオブジェクトが複数存在してもよい。例えば、図５に示す例では、音源であるボーカルＨ２に対応するオブジェクトは、表示状態によって異なり、ボーカルＨ２の歌声はオブジェクトオーディオデータＡＤ１にもオブジェクトオーディオデータＡＤ２にも含まれ得る。

また、サーバ１００は、各オブジェクトの位置情報等を含むオブジェクトメタデータを符号化する。サーバ１００は、オブジェクトメタデータの符号化データをセグメント単位でファイル化することでメタデータファイルを生成する。

さらに、サーバ１００は、オーディオファイルを管理する管理ファイルを生成する。本実施形態において、管理ファイルは、ISO/IEC 23009-1で規格定義されるＭＰＤ（Media Presentation Description）ファイルであってよい。

そして、サーバ１００は、クライアント２００からの要求に応じて、上記のオーディオファイル、メタデータファイル、または、ＭＰＤファイル等をクライアント２００に送信する。

クライアント２００は、オーディオコンテンツを再生する情報処理装置（受信装置）である。より具体的には、クライアント２００は、サーバ１００からＭＰＤファイルを取得し、当該ＭＰＤファイルに基づいてサーバ１００からメタデータファイルおよびオーディオファイルを取得する。そして、クライアント２００は、サーバ１００から取得されたオーディオファイルを復号し、合成して出力することでオーディオコンテンツの再生を実現する。

以上、本実施形態に係る情報処理システムのシステム構成例について説明した。なお、図７を参照して説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、サーバ１００の機能の一部は、クライアント２００またはその他の外部装置に備えられてもよい。例えば、サーバ１００の機能の一部を提供するソフトウェア（例えば、所定のＡＰＩ（Application Programming Interface）が使用されたＷＥＢアプリケーション等）がクライアント２００上で実行されてもよい。また、逆に、クライアント２００の機能の一部は、サーバ１００またはその他の外部装置に備えられてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

＜２－２．サーバの機能構成例＞
上記では、本実施形態に係る情報処理システムのシステム構成例について説明した。続いて、図８を参照して、サーバ１００の機能構成例について説明する。図８は、本実施形態にかかるサーバ１００の機能構成例を示すブロック図である。図８に示すように、サーバ１００は、生成部１１０と、制御部１２０と、通信部１３０と、記憶部１４０と、を備える。

生成部１１０は、オーディオコンテンツの提供に関する処理を行う機能構成である。図８に示すように、生成部１１０は、データ取得部１１１と、符号化処理部１１２と、セグメントファイル生成部１１３と、ＭＰＤファイル生成部１１４と、を備える。

データ取得部１１１は、画像、及びオーディオデータをオブジェクト毎に取得する（換言すると、オブジェクトオーディオデータを取得する）。データ取得部１１１は、サーバ１００内から当該画像と当該オブジェクトオーディオデータを取得してもよいし、サーバ１００に接続している外部装置から当該画像と当該オブジェクトオーディオデータを取得してもよい。データ取得部１１１は、取得した画像とオブジェクトオーディオデータを符号化処理部１１２に提供する。

符号化処理部１１２は、データ取得部１１１から提供される画像、及び各オブジェクトのオブジェクトオーディオデータを符号化することで画像ストリームデータ、及びオーディオストリームデータを生成する。また、符号化処理部１１２は、外部から入力される各オブジェクトのオブジェクト位置情報等を含むオブジェクトメタデータを符号化する。符号化処理部１１２は画像ストリームデータ、各オブジェクトのオーディオストリームデータ、及びオブジェクトメタデータの符号化データをセグメントファイル生成部１１３に提供する。

セグメントファイル生成部１１３は、コンテンツとして配信可能な単位のデータであるセグメントファイルを生成する機能構成である。例えば、セグメントファイル生成部１１３は、符号化処理部１１２から提供される各オブジェクトのオーディオストリームデータをセグメント単位でファイル化することでオーディオファイルを生成する。オーディオファイルの生成（ファイル化とも称する）については様々な態様が存在する。例えば、セグメントファイル生成部１１３は、表示状態に応じたオブジェクトオーディオデータの組合せに基づいて、同一のオブジェクトオーディオデータが複数のオーディオファイルに含まれないように、１または２以上のオブジェクトオーディオデータを１つのオーディオファイルに格納することでオーディオファイルを生成する。表示状態に応じたオブジェクトオーディオデータの組合せに基づくオーディオファイルの生成の詳細については後述する。

また、セグメントファイル生成部１１３は、符号化処理部１１２から提供される、オブジェクトメタデータの符号化データをセグメント単位でファイル化することで、オブジェクトメタデータのみを格納するメタデータファイルを生成することもできる。かかるメタデータファイルが生成されるケースについては後述する。

また、セグメントファイル生成部は、符号化処理部１１２から提供される画像ストリームデータをセグメント単位でファイル化することで画像ファイルを生成する。

ＭＰＤファイル生成部１１４は、ＭＰＤファイルを生成する機能構成である。本実施形態において、ＭＰＤファイル生成部１１４は、オブジェクト選択情報を含むメタデータファイルへアクセスするためのメタデータファイルアクセス情報を含むＭＰＤファイルを生成する。ＭＰＤファイル生成部１１４により生成されるＭＰＤファイルの詳細については後述する。

制御部１２０は、サーバ１００が行う処理全般を統括的に制御する機能構成である。例えば、制御部１２０は、通信部１３０を介して受信されるクライアント２００からの要求情報等に基づいて各構成の起動や停止を制御することができる。なお、制御部１２０の制御内容は特に限定されない。例えば、制御部１２０は、汎用コンピュータ、ＰＣ、タブレットＰＣ等において一般的に行われる処理を制御してもよい。

通信部１３０は、クライアント２００との各種通信を行う。例えば、通信部１３０は、クライアント２００からの要求情報を受信する。また、通信部１３０は、送信部としても機能し、当該要求情報への応答としてＭＰＤファイル、メタデータファイル、オーディオファイル、または画像ファイル等をクライアント２００へ送信する。なお、通信部１３０の通信内容はこれらに限定されない。

記憶部１４０は、各種情報を記憶する機能構成である。例えば、記憶部１４０は、オーディオファイル、画像ファイル、メタデータファイル、ＭＰＤファイル等を記憶したり、サーバ１００の各機能構成によって使用されるプログラムまたはパラメータ等を記憶したりする。なお、記憶部１４０が記憶する情報はこれらに限定されない。

以上、サーバ１００の機能構成例について説明した。なお、図８を用いて説明した上記の機能構成はあくまで一例であり、サーバ１００の機能構成は係る例に限定されない。例えば、サーバ１００は、図８に示す機能構成の全てを必ずしも備えなくてもよい。また、サーバ１００の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜２－３．クライアントの機能構成例＞
上記では、サーバ１００の機能構成例について説明した。続いて、図９を参照して、クライアント２００の機能構成例について説明する。図９は、本実施形態にかかるクライアント２００の機能構成例を示すブロック図である。図９に示すように、クライアント２００は、処理部２１０と、制御部２２０と、通信部２３０と、記憶部２４０と、センサ部２５０と、表示部２６０と、スピーカ２７０と、を備える。

処理部２１０は、コンテンツの再生に関する処理を行う機能構成である。図９に示すように、処理部２１０は、ＭＰＤファイル取得部２１１と、ＭＰＤファイル処理部２１２と、セグメントファイル選択部２１３と、セグメントファイル取得部２１４と、復号処理部２１５と、合成処理部２１６と、を備える。

ＭＰＤファイル取得部２１１は、コンテンツの再生に先立ってサーバ１００からＭＰＤファイルを取得する機能構成である。より具体的には、ＭＰＤファイル取得部２１１は、ユーザ操作等に基づいてＭＰＤファイルの要求情報を生成し、通信部２３０を介して当該要求情報をサーバ１００へ提供することで、ＭＰＤファイルをサーバ１００から取得する。ＭＰＤファイル取得部２１１は、取得したＭＰＤファイルをＭＰＤファイル処理部２１２に提供する。

ＭＰＤファイル処理部２１２は、ＭＰＤファイル取得部２１１から提供されるＭＰＤファイルに関する処理を行う機能構成である。より具体的には、ＭＰＤファイル処理部２１２は、ＭＰＤファイルの解析に基づき、オーディオファイル、メタデータファイル等の取得に必要な情報（例えば、URL等）を認識する。また、本実施形態にかかるＭＰＤファイル処理部２１２は、ＭＰＤファイルの解析に基づき、オブジェクト選択情報を取得する。ＭＰＤファイル処理部２１２は、これらの情報をセグメントファイル選択部２１３に提供する。

セグメントファイル選択部２１３は、取得対象となるセグメントファイルを選択する機能構成である。より具体的には、セグメントファイル選択部２１３は、ＭＰＤファイル処理部２１２から提供される上記の各種情報に基づいて取得対象となるオーディオファイルまたはメタデータファイルを選択する。例えば、本実施形態にかかるセグメントファイル選択部２１３は、オブジェクト選択情報に基づいて利用するオブジェクトオーディオデータを選択し、選択されたオブジェクトオーディオデータを含むオーディオファイルを選択する。

セグメントファイル取得部２１４は、セグメントファイルの取得を行う機能構成である。より具体的には、セグメントファイル取得部２１４は、セグメントファイル選択部２１３から提供される各種情報に基づいて、画像ファイル、オーディオファイル、またはメタデータファイルの要求情報を生成し、通信部２３０を介して当該要求情報をサーバ１００へ送信させることで、これらのファイルをサーバ１００から取得する。セグメントファイル取得部２１４は、取得したこれらのファイルを復号処理部２１５に提供する。

復号処理部２１５は、セグメントファイル取得部２１４から提供される画像ファイル、オーディオファイル、またはメタデータファイルに含まれるデータを復号する機能構成である。復号処理部２１５は、復号処理によって得られる画像（以下、復号画像とも称する）を制御部２２０に提供する。また、復号処理部２１５は、復号処理によって得られるオブジェクトオーディオデータ等を合成処理部２１６に提供する。

合成処理部２１６は、復号処理部２１５から提供される複数のオブジェクトオーディオデータを合成し、出力する機能構成である。合成処理部２１６は、合成後のデータを制御部２２０に提供する。

制御部２２０は、クライアント２００が行う処理全般を統括的に制御する機能構成である。例えば、制御部２２０は、表示部２６０の表示を制御する。制御部２２０は、復号処理部２１５から提供される復号画像をそのまま表示部２６０に表示させてもよいし、復号処理部２１５から提供される復号画像に対して処理を施して表示部２６０に表示させてもよい。例えば、制御部２２０は、センサ部２５０から提供されるセンサデータに基づいて、復号処理部２１５から提供される復号画像から一部の領域を切り出す処理（切り出し処理）を施してもよい。そして、制御部２２０は切り出し処理により切り出された画像（以下、切り出し画像とも称する）を表示部２６０に表示させてもよい。なお、センサデータに基づく復号画像の切り出し処理は、例えば所謂３６０度画像の再生において行われる切り出し処理と同様であってよい。また、制御部２２０は、スピーカ２７０を制御し、合成処理部２１６から提供される合成後のデータを出力することで、オーディオコンテンツをユーザに提供する。また、制御部２２０は、ユーザによってマウス、キーボード等の入力部（図示なし）を用いて行われる入力に基づいて各種処理を制御してもよい。なお、制御部２２０の制御内容は特に限定されない。例えば、制御部２２０は、汎用コンピュータ、ＰＣ、タブレットＰＣ等において一般的に行われる処理を制御してもよい。

通信部２３０は、サーバ１００との各種通信を行う。例えば、通信部２３０は、処理部２１０から提供される要求情報をサーバ１００へ送信する。また、通信部２３０は、受信部としても機能し、当該要求情報への応答としてＭＰＤファイル、メタデータファイルオーディオファイル、画像ファイル等をサーバ１００から受信する。なお、通信部２３０の通信内容はこれらに限定されない。

記憶部２４０は、各種情報を記憶する機能構成である。例えば、記憶部２４０は、サーバ１００から取得した画像ファイル、オーディオファイル、オブジェクトメタデータ、メタデータファイルまたはＭＰＤファイル等を記憶したり、クライアント２００の各機能構成によって使用されるプログラムまたはパラメータ等を記憶したりする。なお、記憶部２４０が記憶する情報はこれらに限定されない。

センサ部２５０は、センシングによりユーザに関するセンサデータを取得する。例えば、センサ部２５０は、加速度センサ、角速度センサ等のセンサを含んでよく、ユーザの姿勢や位置に関するセンサデータを取得してもよい。センサ部２５０は、取得したセンサデータを制御部２２０へ提供する。

表示部２６０は、制御部２２０の制御に従い、画像を表示する。なお、上述したように表示部２６０により表示される画像は、復号処理部２１５から提供される復号画像そのものであってもよいし、制御部２２０の切り出し処理により切り出された切り出し画像であってもよい。

スピーカ２７０は、制御部２２０の制御に従い、オーディオ出力を行う。

以上、クライアント２００の機能構成例について説明した。なお、図９を用いて説明した上記の機能構成はあくまで一例であり、クライアント２００の機能構成はかかる例に限定されない。例えば、クライアント２００は、図９に示す機能構成の全てを必ずしも備えなくてもよい。また、クライアント２００の機能構成は、仕様や運用に応じて柔軟に変形可能である。例えば、図９に示したセンサ部２５０、表示部２６０、スピーカ２７０の機能構成は、クライアント２００に接続された他の装置に備えられていてもよい。

＜＜３．オブジェクト選択情報の例（実施例１）＞＞
以上、本実施形態の構成例について説明した。続いて、本実施形態において、表示状態に応じて利用されるオブジェクトオーディオデータを選択するためのオブジェクト選択情報、及び当該オブジェクト選択情報を用いたオブジェクトオーディオデータ選択に関し、２つの実施例（実施例１－１、実施例１－２）を説明する。

＜３－１．画角を用いたオブジェクト選択情報の例（実施例１－１）＞
まず、実施例１－１として、画角を用いたオブジェクト選択情報の例について説明する。上述したように、クライアント２００の制御部２２０は、処理部２１０から提供された復号画像を表示部２６０にそのまま表示させてもよいし、切り出し処理により切り出された切り出し画像を表示部２６０に表示させてもよい。ここで、復号画像がそのまま表示される場合と、切り出された切り出し画像が表示される場合とで、表示状態が異なり、クライアント２００が取得すべきオブジェクトオーディオデータが異なり得る。このような切り出し処理による、取得すべきオブジェクトオーディオデータの違いについて、図１０を参照して説明を行う。なお、以下の説明では、主に水平画角について説明するが垂直画角についても同様である。

図１０Ａは、復号画像を表示部２６０にそのまま表示させた場合に利用するオブジェクトオーディオデータについて説明するための説明図である。図１０Ａに示される復号画像Ｄ３１は、画角θ_ａでの撮像に基づく画像であり、復号画像Ｄ３１には２人のボーカルＨ１，Ｈ２が映っている。

このような復号画像Ｄ３１をそのまま表示し、かつ撮像時の画角と同一の画角θ_ａで視聴した場合、図１０Ａに示す表示状態Ｖ３２のように２人のボーカルＨ２、Ｈ３が中央に小さくまとまって表示される。そのため表示状態Ｖ３２では、１方向から音が聞こえれば十分であると考えられ、かかる場合クライアント２００は１つのオブジェクトオーディオデータを選択して取得すればよい。

なお、図１０Ａに示した例は、撮像時の画角と同一の画角θ_ａで復号画像の全体を切り出し画像として切り出して表示した例であると解釈することも可能である。

図１０Ｂは、復号画像を切り出して得られる切り出し画像を表示部２６０に表示させた場合に利用するオブジェクトオーディオデータについて説明するための説明図である。図１０Ｂに示される復号画像Ｄ３３は、図１０Ａに示した復号画像Ｄ３１と同様に画角θ_ａでの撮像に基づく画像であり、復号画像Ｄ３３には２人のボーカルＨ１，Ｈ２が映っている。

ここで、このような復号画像Ｄ３３から、画角θ_ｂで切り出した切り出し画像Ｄ３３１を表示し、かつ画角θ_ａで視聴した場合、図１０Ｂに示す表示状態Ｖ３４のようにユーザには２人のボーカルが離れて見え、それぞれのボーカルの位置が明確に区別できる。そのため表示状態Ｖ３４では、２方向から別々に音が聞こえることが望ましく、かかる場合クライアント２００は２つのオブジェクトオーディオデータを選択して取得する必要がある。

上述したように、復号画像がそのまま表示される場合と、切り出された切り出し画像が表示される場合とで、表示状態が異なり、利用するオブジェクトオーディオデータが異なり得る。また、切り出し画像が表示される場合であっても、切り出し画像が切り出される画角（例えば図１０Ｂに示した例ではθ_ｂ）や方向（位置）によって表示状態が異なり、利用するオブジェクトオーディオデータが異なり得る。

また、表示される切り出し画像が同一であっても、視聴時の画角（以下、視聴画角とも称する）によって表示状態が異なり、利用するオブジェクトオーディオデータが異なり得る。このような視聴時の画角による利用するオブジェクトオーディオデータの違いについて、図１１を参照して説明を行う。なお、以下の説明では、主に水平画角について説明するが垂直画角についても同様である。

図１１は、視聴時の画角の違いによる、利用するオブジェクトオーディオデータの違いについて説明するための説明図である。図１１に示す表示状態Ｖ３４は、図１０Ｂに示した表示状態Ｖ３４と同一である。つまり、図１１に示す表示状態Ｖ３４において表示される画像は図１０Ｂに示した切り出し画像Ｄ３３１であり、ユーザは画角θ_ａの視聴画角で視聴している。かかる表示状態Ｖ３４では、上述したように、２方向から別々に音が聞こえることが望ましく、クライアント２００は２つのオブジェクトオーディオデータを選択して取得する必要がある。

また、図１１に示す表示状態Ｖ３５において表示される画像は、表示状態Ｖ３４において表示される画像と同一であり、図１０Ｂに示した切り出し画像Ｄ３３１であってよい。ただし、図１１に示す表示状態Ｖ３５において、ユーザは画角θ_ａよりも小さい画角θ_ｃの視聴画角で視聴している。表示状態Ｖ３５のように、小さな視聴画角で視聴する場合、ユーザには、２人のボーカルＨ２、Ｈ３がまとまって見え、中央の１方向から音が聞こえれば十分であると考えられる。したがって、かかる場合クライアント２００は１つのオブジェクトオーディオデータを選択して取得すればよい。

以上をまとめると、切り出した画像の方向及び画角、並びに視聴時の画角の組合せにより、クライアント２００が利用する（取得すべき）オブジェクトオーディオデータの組合せが異なり得る。なお、復号画像が所謂３６０度画像である場合であっても、上述した例と同様に、３６０度画像から切り出した画像の方向及び画角、並びに視聴時の画角の組合せにより、利用するオブジェクトオーディオデータの組合せが異なり得る。本実施例では、これらの情報を用いることで、表示状態が特定され、利用するオブジェクトオーディオデータの組合せを特定することが可能である。

本実施例において、オブジェクトオブジェクトオーディオデータを選択するためのオブジェクト選択情報は、以下に示す情報を含んでもよい。
・切り出した画像の方向に関する方向情報
・切り出した画像の画角に関する切り出し画角情報
・表示された画像に対する視聴時の画角に関する視聴画角情報
・利用するオブジェクトオーディオデータに関する利用情報
なお、上記の情報うち、切り出し画角情報、及び視聴画角情報をまとめて単に画角情報と呼ぶ場合もある。

方向情報は、例えば水平方向の角度の情報と垂直方向の角度の情報とを含んでもよい。あるいは、方向情報は、水平方向の角度の情報と垂直方向の角度の情報とに加え、かかる水平方向の角度と垂直方向の角度により特定される切り出した方向ベクトルからの角度範囲の情報を含んでもよい。あるいは、方向情報は、水平方向の角度の範囲の情報と、垂直方向の角度の範囲の情報とを含んでもよい。

切り出し画角情報は、例えば切り出した画像の水平画角の範囲の情報と、垂直画角の範囲の情報を含んでもよい。あるいは、基準となる表示状態における切り出した画像の水平画角と垂直画角が予め基準画角として決められている場合、切り出し画角情報は、基準画角に対する倍率の範囲の情報を含んでもよい。

視聴画角情報は、例えば表示された画像に対する視聴時の水平画角の範囲の情報と、垂直画角の範囲の情報を含んでもよい。あるいは、基準となる表示状態における表示された画像に対する視聴時の水平画角と垂直画角が予め基準画角として決められている場合、視聴画角情報は、基準画角に対する倍率の範囲の情報を含んでもよい。

利用情報は、利用するオブジェクトオーディオデータの組合せを全て示す情報を含んでもよい。あるいは、利用情報は、予め決められた既定（default）のオブジェクトオーディオデータの組合せに対する、利用するオブジェクトオーディオデータの組合せの差分を示す情報を含んでもよい。

なお、利用情報が既定のオブジェクトオーディオデータの組合せを含むか否かによらず、既定のオブジェクトオーディオデータの組合せが予め決められていてもよい。例えば、該当するオブジェクト選択情報が準備されていない表示状態においては既定のオブジェクトオーディオデータを利用することにより、全ての表示状態が表現されるようにオブジェクト選択情報を準備する手間が省かれる。

上述した本実施例にかかるオブジェクト選択情報に基づいて利用するオブジェクトオーディオデータをクライアント２００の処理部２１０が選択して取得する方法について、図１２を参照して説明する。図１２は、本実施例にかかるオブジェクト選択情報に基づいて利用するオブジェクトオーディオデータをクライアント２００が選択して取得する方法を示すフローチャート図である。なお、図１２に示す例では、既定のオブジェクトオーディオデータの組合せが予め決められており、かつクライアント２００が既に複数のオブジェクト選択情報を取得し、例えば記憶部２４０に記憶されているものとする

まず、図１２に示すように、処理部２１０は、クライアント２００が表示する切り出し画像の切り出し方向、切り出し画角、及び現在の視聴画角の情報を取得する（Ｓ１０２）。ここで、クライアント２００が表示する切り出し画像の切り出し方向、及び切り出し画角の情報は、例えば切り出し処理を行う制御部２２０により決定されて、制御部２２０から処理部２１０へ提供されてもよい。また、現在の視聴画角の情報は、センサ部２５０により取得されたセンサデータに基づいて、制御部２２０により特定され、制御部２２０から処理部２１０へ提供されてもよい。

続いて、処理部２１０は、ステップＳ１０２で取得された情報に基づいて、記憶部２４０に記憶された複数のオブジェクト選択情報の中から、現在の表示状態に該当するオブジェクト選択情報を特定する。

例えば、処理部２１０はステップＳ１０２で取得された情報と一致する、または範囲に含む１つのオブジェクト選択情報を特定してもよい。具体的には、各オブジェクト選択情報に含まれる方向情報と、表示される切り出し画像の切り出し方向とを比較し、一致する、または表示される切り出し画像の切り出し方向を含む範囲の方向情報を有するオブジェクト選択情報を抽出する。そして、処理部２１０は抽出されたオブジェクト選択情報を対象に、各オブジェクト選択情報に含まれる画角情報と、表示される切り出し画像の切り出し画角及び現在の視聴画角の情報を比較する。そして、切り出し画像の切り出し画角及び現在の視聴画角を含む画角情報を含む１つのオブジェクト選択情報を特定してもよい。

なお、ステップＳ１０２で取得された情報と一致する、または範囲に含むオブジェクト選択情報が記憶部２４０に記憶された中から見つからない場合、ステップＳ１０４において処理部２１０はオブジェクト選択情報を特定しなくてもよい。

現在の表示状態に該当するオブジェクト選択情報が特定された場合（Ｓ１０６においてＹＥＳ）、処理部２１０は、特定されたオブジェクト選択情報に含まれる利用情報に基づいて、取得するオブジェクトオーディオデータの組合せを選択する（Ｓ１０８）。例えば、利用情報として、利用するオブジェクトオーディオデータの組合せを全て示す情報が当該オブジェクト選択情報に含まれている場合、処理部２１０は利用情報により示されるオブジェクトオーディオデータをそのまま選択すればよい。あるいは、利用情報として、既定のオブジェクトオーディオデータの組合せに対する、利用するオブジェクトオーディオデータの組合せの差分を示す情報が当該オブジェクト選択情報に含まれている場合、処理部２１０は既定のオブジェクトオーディオデータの組合せに基づいて、取得するオブジェクトオーディオデータを選択すればよい。

続いて、処理部２１０は、ステップＳ１０８において選択されたオブジェクトオーディオデータをサーバ１００から取得する。なお、選択されたオブジェクトオーディオデータを取得する方法の詳細については後述する。

一方、現在の表示状態に該当するオブジェクト選択情報が特定されなかった場合（Ｓ１０６においてＮＯ）、処理部２１０は、既定のオブジェクトオーディオデータを取得する（Ｓ１１０）。

なお、上述した処理のうち、ステップＳ１０４～Ｓ１０８の処理は、例えばセグメントファイル選択部２１３により実行され、ステップＳ１１０、Ｓ１１２の処理は、例えばセグメントファイル取得部２１４によって実行され得る。

＜３－２．オブジェクト間の角度を用いたオブジェクト選択情報の例（実施例１－２）＞
以上、実施例１－１として、画角を用いたオブジェクト選択情報の実施例について説明した。続いて、実施例１－２として、オブジェクト間の角度を用いたオブジェクト選択情報の例について説明する。以下に説明する実施例１－２では、視聴時の２つのオブジェクトの位置とユーザの視聴位置から、当該２つのオブジェクト間の角度を算出し、オブジェクト間の角度に基づいて利用するオブジェクトオーディオデータが選択される。

図１３は、オブジェクト間の角度について説明するための説明図である。図１３に示すように、表示状態Ｖ４４では、オブジェクトオーディオデータＡＤ２にかかるオブジェクト（ボーカルＨ２に対応するオブジェクト）と、オブジェクトオーディオデータＡＤ３にかかるオブジェクト（ボーカルＨ３に対応するオブジェクト）との間の角度は角度θ_ｄである。表示状態Ｖ４４のように、この角度θ_ｄが小さい場合、２つのオブジェクトの位置の差はユーザには認識されないため、中央の１方向から音が聞こえれば十分である。したがって、表示状態Ｖ４４では、オブジェクトオーディオデータＡＤ２、及びオブジェクトオーディオデータＡＤ３がミックスされたオブジェクトオーディオデータＡＤ１が利用される。

一方、図１３に示すように、表示状態Ｖ４５では、オブジェクトオーディオデータＡＤ２にかかるオブジェクトと、オブジェクトオーディオデータＡＤ３にかかるオブジェクトとの間の角度は角度θ_ｅ（θ_ｅ＞θ_ｄ）である。表示状態Ｖ４５のように、この角度θ_ｅが大きい場合、２つのオブジェクトの位置が別々にユーザに認識されるため、２方向から別々に音が聞こえることが望ましい。したがって、表示状態Ｖ４５では、オブジェクトオーディオデータＡＤ２、及びオブジェクトオーディオデータＡＤ３が利用される。

以上のように、２つのオブジェクト間の角度の大きさにより、クライアント２００が利用する（取得すべき）オブジェクトオーディオデータの組合せが異なり得る。本実施例では、２つのオブジェクト間の角度の大きさにより、表示状態が特定され、利用するオブジェクトオーディオデータの組合せを特定することが可能である。

本実施例において、オブジェクトオブジェクトオーディオデータを選択するためのオブジェクト選択情報は、以下に示す情報を含んでもよい。
・角度を算出する２つのオブジェクトの位置情報
・２つのオブジェクト間の角度に関する角度情報
・利用するオブジェクトオーディオデータに関する利用情報

角度を算出する２つのオブジェクトの位置情報は、上述したオブジェクトメタデータに含まれるオブジェクトの位置情報と同様の情報であってもよい。ただし、オブジェクト選択情報ごとに、角度を算出する２つのオブジェクトが定められており、それら２つのオブジェクトの位置情報がオブジェクト選択情報に含まれる。

角度情報は、例えば角度の範囲の情報を含んでもよい。後述するように角度情報は閾値として用いられ得る。

本実施例にかかる利用情報は、実施例１の利用情報と同様であってよい。つまり、利用情報は、利用するオブジェクトオーディオデータの組合せを全て示す情報を含んでもよい。あるいは、利用情報は、予め決められた既定のオブジェクトオーディオデータの組合せに対する、利用するオブジェクトオーディオデータの組合せの差分を示す情報を含んでもよい。

上述した本実施例にかかるオブジェクト選択情報に基づいて利用するオブジェクトオーディオデータをクライアント２００の処理部２１０が選択して取得する方法について、図１４を参照して説明する。図１４は、本実施例にかかるオブジェクト選択情報に基づいて利用するオブジェクトオーディオデータをクライアント２００が選択して取得する方法を示すフローチャート図である。なお、図１４に示す例では、既定のオブジェクトオーディオデータの組合せが予め決められており、かつクライアント２００が既に複数のオブジェクト選択情報を取得し、例えば記憶部２４０に記憶されているものとする。

まず、図１４に示すように、処理部２１０は、オブジェクト間の角度を算出する（Ｓ１２２）。ステップＳ１２２において、処理部２１０は、記憶部２４０に記憶されたオブジェクト選択情報に含まれる角度を算出する２つのオブジェクトの位置情報と、ユーザの視聴位置の情報とに基づいて、オブジェクト間の角度を算出してよい。なお、ユーザの視聴位置の情報は、例えばセンサ部２５０により取得されたセンサデータに基づいて、制御部２２０により特定され、制御部２２０から処理部２１０へ提供されてもよい。

続いて、処理部２１０は、ステップＳ１２２で算出されたオブジェクト間の角度に基づいて、記憶部２４０に記憶された複数のオブジェクト選択情報の中から、現在の表示状態に該当するオブジェクト選択情報を特定する。

例えば、処理部２１０は、ステップＳ１２２で算出されたオブジェクト間の角度を含む角度範囲の角度情報を含むようなオブジェクト選択情報を抽出する。そして、１つのオブジェクト選択情報のみが抽出された場合、処理部２１０は、抽出された１つのオブジェクト選択情報を現在の表示状態に該当するオブジェクト選択情報として特定してもよい。複数のオブジェクト選択情報が抽出された場合、処理部２１０は、抽出された複数のオブジェクト選択情報のうち、角度を求める２つのオブジェクトの位置がユーザの視聴方向に最も近いオブジェクト選択情報を特定してもよい。

なお、ステップＳ１２２で算出されたオブジェクト間の角度を含む角度範囲の角度情報を含むようなオブジェクト選択情報が存在しない場合、ステップＳ１２４において処理部２１０はオブジェクト選択情報を特定しなくてもよい。

現在の表示状態に該当するオブジェクト選択情報が特定された場合（Ｓ１２６においてＹＥＳ）、処理部２１０は、特定されたオブジェクト選択情報に含まれる利用情報に基づいて、取得するオブジェクトオーディオデータの組合せを選択する（Ｓ１２８）。例えば、利用情報として、利用するオブジェクトオーディオデータの組合せを全て示す情報が当該オブジェクト選択情報に含まれている場合、処理部２１０は利用情報により示されるオブジェクトオーディオデータをそのまま選択すればよい。あるいは、利用情報として、既定のオブジェクトオーディオデータの組合せに対する、利用するオブジェクトオーディオデータの組合せの差分を示す情報が当該オブジェクト選択情報に含まれている場合、処理部２１０は既定のオブジェクトオーディオデータの組合せに基づいて、取得するオブジェクトオーディオデータを選択すればよい。

続いて、処理部２１０は、ステップＳ１２８において選択されたオブジェクトオーディオデータをサーバ１００から取得する。

一方、現在の表示状態に該当するオブジェクト選択情報が特定されなかった場合（Ｓ１２６においてＮＯ）、処理部２１０は、既定のオブジェクトオーディオデータを取得する（Ｓ１２０）。

なお、上述した処理のうち、ステップＳ１２４～Ｓ１２８の処理は、例えばセグメントファイル選択部２１３により実行され、ステップＳ１３０、Ｓ１３２の処理は、例えばセグメントファイル取得部２１４によって実行され得る。

＜＜４．表示状態を考慮したファイル化の例（実施例２）＞＞
以上、オブジェクト選択情報、及びオブジェクト選択情報を用いたオブジェクトオーディオデータ選択の例として、２つの実施例（実施例１－１、実施例１－２）を説明した。続いて、実施例２として、複数の表示状態を考慮してオブジェクトオーディオデータをファイル化する実施例について説明を行う。なお、以下に説明する実施例２は、上述した実施例と任意に組合せることが可能であり、実施例１－１、実施例１－２のいずれと組み合わされてもよい。

MPEG-DASHによるストリーミング配信では、オブジェクトオーディオデータを取得する場合にはオーディオファイルごとに取得を行う。以下に説明する本実施例にかかるファイル化により、オブジェクトごとではなく、オーディオファイルごとに取得を行うことが可能になる。また、本実施例によれば、サーバ１００が記憶するデータ量と、クライアント２００が取得するファイル数との両方が抑制されるように、オブジェクトオーディオデータをファイル化することができる。

以下では、図１５を参照して、本実施例にかかるファイル化の流れについて説明した後、図１６～図１８を参照してファイル化の具体例について説明する。なお、以下に説明するオブジェクトオーディオデータのファイル化は、サーバ１００の生成部１１０により実行され、例えば生成部１１０のセグメントファイル生成部１１３により実行され得る。

図１５は、本実施例にかかるファイル化の流れを示すフローチャート図である。まず、図１５に示すように、セグメントファイル生成部１１３は、ある１つの表示状態におけるオブジェクトオーディオデータの組合せをグループ化する（Ｓ２０２）。ステップＳ２０２において、表示状態におけるオブジェクトオーディオデータの組合せは、例えば表示状態に対応するオブジェクト選択情報に基づいて特定され得る。

続いて、セグメントファイル生成部１１３は、ステップＳ２０２でグループ化されたグループと、他の表示状態（ステップＳ２０２で用いられた１つの表示状態以外の表示状態）におけるオブジェクトオーディオデータの組合せとの差分をグループ化する（Ｓ２０４）。ステップＳ２０４において、セグメントファイル生成部１１３は、ステップＳ２０２で用いられた１つの表示状態から各表示状態へ遷移した際に、新たに利用されるようになるオブジェクトオーディオデータの組合せと、利用されなくなるオブジェクトオーディオデータの組合せをそれぞれ別々にグループ化する。

続いて、セグメントファイル生成部１１３は、ステップＳ２０２、Ｓ２０４でグループ化されたグループのうち、含まれるオブジェクトオーディオデータの数が最も少ないグループを選択する（Ｓ２０６）。なお、含まれるオブジェクトオーディオデータの数が最も少ないグループが複数ある場合は、複数のうちいずれか一つが選択されればよい。また、後述するようにステップＳ２０６は複数回繰り返し実行されてよく、ステップＳ２０６が２回目以降に実行される場合、セグメントファイル生成部１１３は、選択されていないグループのうち、含まれるオブジェクトオーディオデータの数が最も少ないグループを選択する。

続いて、セグメントファイル生成部１１３は、選択されていないグループに含まれるオブジェクトオーディオデータから、直前に選択されたグループに含まれるオブジェクトオーディオデータを除去する（Ｓ２０８）。

選択されていないグループが存在する場合（Ｓ２１０においてＹＥＳ）、ステップＳ２０６に戻り、全てのグループが選択されるまでステップＳ２０６～Ｓ２１０が繰り返される。選択されていないグループが存在しなくなるまで繰り返されると（Ｓ２１０においてＮＯ）、セグメントファイル生成部１１３は、選択されたグループをグループごとにファイル化する（Ｓ２１２）。ステップＳ２１２において、セグメントファイル生成部１１３は、各グループに含まれる１または２以上のオブジェクトオーディオデータを１つのオーディオファイルに格納して、オーディオファイルを生成する

なお、上述したステップＳ２０２～Ｓ２１２の処理は、例えばセグメントファイル生成部１１３によって実行され得る。

以上、本実施例にかかるファイル化の流れについて説明した。続いて、上述したファイル化の具体例について説明する。図１６～図１８は、本実施例にかかるファイル化の具体例について説明するための説明図である。

以下では、図１６に示される３つの表示状態Ｖ５１、Ｖ５２、Ｖ５３がある場合に生成部１１０がファイルを生成する具体例について説明する。図１６に示すように、表示状態Ｖ５１、Ｖ５２、Ｖ５３のいずれにおいても、４人のボーカルＨ１１～Ｈ１４が含まれる画像が表示される。また、表示状態Ｖ５１では、３つのオブジェクトオーディオデータＡＤ１１、ＡＤ１２、ＡＤ１５が利用される。また、表示状態Ｖ５２では、４つのオブジェクトオーディオデータＡＤ１１、ＡＤ１２、ＡＤ１３、ＡＤ１４が利用される。また、表示状態Ｖ５３では、１つのオブジェクトオーディオデータＡＤ１６が利用される。

図１５のステップＳ２０２～Ｓ２０４を、図１６に示される表示状態Ｖ５１～Ｖ５３について実行した場合の動作について、図１７を参照して説明する。表示状態Ｖ５１についてステップＳ２０２を実行すると、図１７のステップＳ２２２に示されるようにグループＧ１１が得られる。続いて、表示状態Ｖ５１から表示状態Ｖ５２への遷移、及び表示状態Ｖ５１から表示状態Ｖ５３への遷移についてステップＳ２０４を実行すると、図１７のステップＳ２２４に示されるようにグループＧ１２～Ｇ１５が得られる。

図１５のステップＳ２０６～Ｓ２１２を、図１７に示される５つのグループＧ１１～Ｇ１５について実行した場合の動作について、図１８を参照して説明する。まず、１回目にステップＳ２０６が実行される前においては、図１８のステップＳ２２６に示されるように、全てのグループＧ１１～Ｇ１５が未選択の状態である。ステップＳ２２６の状態でステップＳ２０６を実行すると、例えばグループＧ１２が選択される。さらに、ステップＳ２０８を実行すると、図１８のステップＳ２２８に示されるように、直前に選択されたグループＧ１２に含まれるオブジェクトオーディオデータＡＤ１５が、グループＧ１１、Ｇ１４から除去される。ステップＳ２２８の状態においては、未選択のグループが存在するため、ステップＳ２１０においてＹＥＳと判定され、ステップＳ２０６が再度実行される。

ステップＳ２２８の状態でステップＳ２０６を実行すると、例えばグループＧ１５が選択される。ここで、ステップＳ２２８の状態において、グループＧ１５に含まれるオブジェクトオーディオデータＡＤ１６は、他のグループには含まれない。したがって、ステップＳ２０８を実行しても、図１８のステップＳ２３０に示されるように、各グループに含まれるオブジェクトオーディオデータに変化はない。ステップＳ２３０の状態においては、未選択のグループが存在するため、ステップＳ２１０においてＹＥＳと判定され、ステップＳ２０６が再度実行される。

ステップＳ２３０の状態でステップＳ２０６を実行すると、例えばグループＧ１１が選択される。ここで、ステップＳ２３０の状態で、グループＧ１１に含まれるオブジェクトオーディオデータとグループＧ１４に含まれるオブジェクトオーディオデータとは同一である。したがって、ステップＳ２０８を実行すると、図１８のステップＳ２３２に示されるように、直前に選択されたグループＧ１１に含まれるオブジェクトオーディオデータＡＤ１１、ＡＤ１２が、グループＧ１４から除去され、グループＧ１４が消滅する。ステップＳ２３２の状態においては、未選択のグループが存在するため、ステップＳ２１０においてＹＥＳと判定され、ステップＳ２０６が再度実行される。

ステップＳ２３２の状態でステップＳ２０６を実行すると、グループＧ１３が選択される。ここで、ステップＳ２３０の状態で、グループＧ１３が選択されると、未選択のグループが存在しなくなる。したがって、ステップＳ２０８を実行しても、図１８のステップＳ２３４に示されるように、各グループに含まれるオブジェクトオーディオデータに変化はない。ステップＳ２３４の状態においては、未選択のグループが存在しないため、ステップＳ２１０においてＮＯと判定され、ステップＳ２１２が実行される。

ステップＳ２３４の状態でステップＳ２１２を実行すると、図１８のステップＳ２３６に示されるように、グループＧ１２、Ｇ１５、Ｇ１１、Ｇ１３のそれぞれに含まれるオブジェクトオーディオデータを格納したオーディオファイルＡＦ１～ＡＦ４が生成される。

図１８に示されるように、オブジェクトオーディオデータＡＤ１１～ＡＤ１６の各々は、オーディオファイルＡＦ１～ＡＦ４のいずれか１つに格納されるため、サーバ１００は、同一のオブジェクトオーディオデータを複数記憶する必要がない。したがって、サーバ１００が記憶するオブジェクトオーディオデータのデータ量は最小限に抑えられ得る。

また、図１８に示されるようにファイル化することで、図１６に示される表示状態Ｖ５１～Ｖ５３の各表示状態においてクライアント２００が取得するファイル数も抑制され得る。例えば、図１６に示される表示状態Ｖ５１では、オーディオファイルＡＦ１とオーディオファイルＡＦ３の２つのオーディオファイルを取得すればよい。また、図１６に示される表示状態Ｖ５２では、オーディオファイルＡＦ３とオーディオファイルＡＦ４の２つのオーディオファイルを取得すればよい。また、図１６に示される表示状態Ｖ５３では、オーディオファイルＡＦ２の１つのオーディオファイルを取得すればよい。

一方、１つのオブジェクトオーディオデータが１つのファイルに格納されるようにファイル化された場合、表示状態Ｖ５１では３つ、表示状態Ｖ５２では４つ、表示状態Ｖ５１では１つ、のオーディオファイルを取得する必要がある。

したがって、図１８に示されるようにファイル化することで、１つのオブジェクトオーディオデータが１つのファイルに格納されるようにファイル化された場合と比べ、表示状態Ｖ５１、及び表示状態Ｖ５２において取得するオーディオファイルの数が抑制される。

上述したように、本実施例によれば、サーバ１００が記憶するデータ量と、クライアント２００が取得するファイル数との両方が抑制されるように、オーディオファイルを生成することができる。

＜＜５．時間変化しないオブジェクト選択情報のシグナリング例（実施例３）＞＞
以上、実施例２として、複数の表示状態を考慮してオブジェクトオーディオデータをファイル化する実施例について説明した。続いて、利用するオブジェクトオーディオデータの組合せが時間変化しない場合のオブジェクト選択情報のシグナリング例について説明する。

なお、シグナリングされる情報は、オブジェクト選択情報が実施例１－１で説明した画角を用いた情報であるか、実施例１－２で説明したオブジェクト間の角度を用いた情報であるか、によって異なり得る。そこで、以下では、実施例１－１に対応する実施例３－１と、実施例１－２に対応する実施例３－２を順に説明する。

＜５－１．画角を用いたオブジェクト選択情報のシグナリング例（実施例３－１）＞
まず、実施例３－１として、実施例１－１で説明した画角を用いたオブジェクト選択情報をシグナリングする実施例について説明する。本実施例では、実施例１－１で説明した利用情報がファイルレベルでシグナリングされ、MPEG-DASHで実現する場合、利用情報をAdaptationSetレベルでシグナリングすればよい。

なお、以下では、オブジェクト選択情報が以下に示す情報を含む例について説明する。
・水平方向の角度の情報と垂直方向の角度の情報を含む方向情報
・切り出した画像の水平画角の範囲の情報と、垂直画角の範囲の情報を含む切り出し画角情報
・表示された画像に対する視聴時の水平画角の範囲の情報と、垂直画角の範囲の情報を含む視聴画角情報
・利用するオブジェクトオーディオデータを含むAdaptationSetをすべて示す利用情報

本実施例では、SupplementalPropertyで新しく表示状態のための情報がシグナリングされる。schemeIdUriは“urn:mpeg:dash:objectAudio:objectSelection”を指定し、valueで、コンマ区切りで”direction_azimuth, direction_elevation, clipping_azimuth_range, clipping_elevation_range, viewing_azimuth_range, viewing_elevation_range, AdaptationSet_list”が順にシグナリングされる。図１９は、本実施例においてシグナリングされるvalueと各valueの詳細説明(description)を示す表である。

本実施例では、上述したオブジェクト選択情報がＭＰＤファイルに格納され得る。本実施例において、サーバ１００のＭＰＤファイル生成部１１４が生成するＭＰＤファイルの一例について、図２０、図２１を参照して説明する。図２０は、本実施例においてＭＰＤファイル生成部１１４が生成するＭＰＤファイルの一例を示す図である。また、図２１は、図２０に示したＭＰＤファイルにおける各情報を示す表である。図２１の表には、方向情報、切り出し画角情報、視聴画角情報、利用情報、及び図２０に示したＭＰＤファイルにおいて対応するSupplementalPropertyが示されている。

図２０のＭＰＤファイルでは、３行目に示されるようにPreselectionのpreselectionComponentsで既定(default)のAdaptationSetの組合せは”o2 o3”である。また、図２０のＭＰＤファイルでは、既定の組合せとは異なる組合せになる４パターンのSupplementalPropertyが４行目～７行目に示されている。このように、既定のAdaptationSetの組合せを予め決めておくことで、各表示状態で利用するオブジェクトオーディオデータが異なるものについてのみSupplementalPropertyを用意すればよい。

図２０に示すＭＰＤファイルの例において、取得するAdaptationSetをクライアント２００の処理部２１０が選択する方法について、図２２を参照して説明する。図２２は、クライアント２００が取得するAdaptationSetを選択する方法の一例を示すフローチャート図である。

まず、図２２に示すように、処理部２１０は、クライアント２００が表示する切り出し画像の切り出し方向、切り出し画角、及び現在の視聴画角の情報を取得する（Ｓ３０２）。

続いて、処理部２１０は、PreselectionのSupplementalPropertyでschemeIdUriが“urn:mpeg:dash:objectAudio:objectSelection”であるものを全て取得する（Ｓ３０４）。

続いて、処理部２１０は、ステップＳ３０２で取得された情報に基づいて、ステップＳ３０４で取得されたSupplementalPropertyの中から、現在の表示状態に該当するSupplementalPropertyを特定する（Ｓ３０６）。例えば、ステップＳ３０６において特定されるSupplementalPropertyは、クライアント２００が表示する切り出し画像の切り出し方向とdirection_azimuth、direction_elevationの値が近いSupplementalPropertyであってもよい。また、ステップＳ３０６において特定されるSupplementalPropertyは、クライアント２００が表示する切り出し画像の切り出し画角がclipping_azimuth_range、clipping_elevation_rangeに含まれるSupplementalPropertyであってもよい。さらに、ステップＳ３０６において特定されるSupplementalPropertyは、現在の視聴画角がviewing_azimuth_range、viewing_elevation_rangeに含まれるSupplementalPropertyであってもよい。なお、上記の条件にあてはまるSupplementalPropertyが存在しない場合、ステップＳ３０６において処理部２１０はいずれのSupplementalPropertyをも特定しなくてよい。

現在の表示状態に該当するSupplementalPropertyが特定された場合（Ｓ３０８においてＹＥＳ）、処理部２１０は、特定されたSupplementalPropertyのAdaptationSet_listに示されているAdaptationSetを選択する。（Ｓ３１０）。

一方、現在の表示状態に該当するSupplementalPropertyが特定されなかった場合（Ｓ３０８においてＮＯ）、処理部２１０は、Preselection@ preselectionComponentsに示されている既定（default）のAdaptationSetを選択する（Ｓ３１２）。

なお、図２２に示したステップＳ３０２～Ｓ３１２の処理は、例えばセグメントファイル選択部２１３により実行され得る。

以上、本実施例にかかるＭＰＤファイルの一例について説明した。ただし、本実施例において、生成されるＭＰＤファイルは、図２０に示した例に限定されない。

例えば、Preselectionを用いる場合のＭＰＤファイルの変形例として、SupplementalPropertyのvalueのAdaptationSet_listがpreselectionComponentsでシグナリングされてもよい。図２３は、かかる変形例においてＭＰＤファイル生成部１１４が生成するＭＰＤファイルの一例を示す図である。図２３のＭＰＤファイルでは、３行目、７行目、８行目に示されるようにPreselectionが分離され、AdaptationSet_listになる部分は、preselectionComponentsとして示される。図２３に示したＭＰＤファイルのそれ以外の部分については、図２０に示したＭＰＤファイルと同様である。

他の変形例としては、ＭＰＤファイルにviewing_azimuth_range、viewing_elevation_rangeを含めず（設定せず）ともよい。かかる場合、図２２のステップＳ３０６において、direction_azimuth、direction_elevation、clipping_azimuth_range、clipping_elevation_rangeのみを用いてAdaptationSetを選択すればよい。ただし、かかる場合には視聴画角が考慮されないので、最も適切なAdaptationSetでないかもしれない。

さらなる他の変形例としては、方向情報としてdirection_azimuth、direction_elevationに加え、direction_angleをＭＰＤファイルに含めてもよい。ここで、direction_angleは、実施例１－１で説明した切り出した方向ベクトルからの角度を示す。

さらなる他の変形例としては、方向情報としてdirection_azimuth、direction_elevationに代えて、direction_azimuth_range、direction_elevation_rangeを、ＭＰＤファイルに含めてもよい。ここで、direction_azimuth_rangeは、実施例１－１で説明した水平方向の角度の範囲、direction_elevation_rangeは実施例１－１で説明した垂直方向の角度の範囲をそれぞれ示す。

さらなる他の変形例としては、切り出し画角情報、及び視聴画角情報として、clipping_azimuth_range、clipping_elevation_range、viewing_azimuth_range、viewing_elevation_rangeに代えて、clipping_magnification_range、viewing_magnification_rangeを含めてもよい。ここで、clipping_magnification_rangeは、実施例１－１で説明した切り出し時の画角の倍率の範囲、viewing_magnification_rangeは実施例１－１で説明した視聴画角の倍率の範囲をそれぞれ示す。

さらなる他の変形例としては、AdaptationSet_listを、preselectionComponentsとの差分リストに代えてもよい。例えば、AdaptationSet_listを、AdaptationSet_del_listとAdaptationSet_add_listに代えてもよい。AdaptationSet_del_listはpreselectionComponentsから削除するAdaptationSetのリストであり、AdaptationSet@idをスペース区切りで記述する。また、AdaptationSet_add_listはpreselectionComponentsに追加するAdaptationSetのリストであり、AdaptationSet@idをスペース区切りで記述する。なお、AdaptationSet_del_listとAdaptationSet_add_listは、実施例１－１で説明した、既定のオブジェクトオーディオデータの組合せに対する、利用するオブジェクトオーディオデータの組合せの差分を示す情報に相当する。

さらなる他の変形例としては、SupplementalPropertyがAdaptationSetでシグナリングされてもよい。オブジェクトオーディオデータの組合せが１つのファイルに格納されている場合(オブジェクトオーディオデータが複数ファイルに格納されていない場合)、Preselectionは利用されないため、SupplementalPropertyを、AdaptationSetでシグナリングをすることで、利用するAdaptationSetを選択することができる。

＜５－２．オブジェクト間の角度を用いたオブジェクト選択情報のシグナリング例（実施例３－２）＞
以上、実施例３－１として、画角を用いたオブジェクト選択情報をシグナリングする実施例について説明した。続いて、実施例３－２として、実施例１－２で説明したオブジェクト間の角度を用いたオブジェクト選択情報をシグナリングする実施例について説明する。本実施例では、実施例１－２で説明した利用情報がファイルレベルでシグナリングされ、MPEG-DASHで実現する場合、利用情報をAdaptationSetレベルでシグナリングすればよい。

なお、以下では、オブジェクト選択情報が以下に示す情報を含む例について説明する。
・角度を算出する２つのオブジェクトの位置情報
・閾値となるオブジェクト間の角度の範囲の情報を含む角度情報
・利用するオブジェクトオーディオデータを含むAdaptationSetをすべて示す利用情報

本実施例では、SupplementalPropertyで新しく表示状態のための情報がシグナリングされる。schemeIdUriは“urn:mpeg:dash:objectAudio:objectSelectionAngle”を指定し、valueで、コンマ区切りで“object1_azimuth, object1_elevation, object2_azimuth, object2_elevation, threshold_range, AdaptationSet_list”が順にシグナリングされる。図２４は、本実施例においてシグナリングされるvalueと各valueの詳細説明を示す表である。

本実施例において、サーバ１００のＭＰＤファイル生成部１１４が生成するＭＰＤファイルの一例について、図２５、図２６を参照して説明する。図２５は、本実施例においてＭＰＤファイル生成部１１４が生成するＭＰＤファイルの一例を示す図である。また、図２６は、図２５に示したＭＰＤファイルにおける各情報を示す表である。図２５の表には、１つ目のオブジェクトの位置情報、及び２つ目のオブジェクトの位置情報、角度情報、利用情報、及び図２５に示したＭＰＤファイルにおいて対応するSupplementalPropertyが示されている。
図２５のＭＰＤファイルでは、３行目に示されるようにPreselectionのpreselectionComponentsで既定(default)のAdaptationSetの組合せは”o2 o3”である。また、図２５のＭＰＤファイルでは、既定の組合せとは異なる組合せになる２パターンのSupplementalPropertyが４行目～５行目に示されている。このように、既定のAdaptationSetの組合せを予め決めておくことで、各表示状態で利用するオブジェクトオーディオデータが異なるものについてのみSupplementalPropertyを用意すればよい。

図２５に示すＭＰＤファイルの例において、取得するAdaptationSetをクライアント２００の処理部２１０が選択する方法について、図２７を参照して説明する。図２７は、クライアント２００が取得するAdaptationSetを選択する方法の一例を示すフローチャート図である。

まず、図２７に示すように、処理部２１０は、Preselection@preselectionComponentsからAdaptationSetのリストを取得する（Ｓ３２２）。続いて、処理部２１０は、PreselectionのSupplementalPropertyでschemeIdUriが“urn:mpeg:dash:objectAudio:objectSelectionAngle”であるものを全て取得する（Ｓ３２４）。

続いて、処理部２１０は、ステップＳ３２４で取得された全てのSupplementalPropertyについて、視聴時のオブジェクト間の角度を算出する（Ｓ３２６）。ステップＳ３２６において、処理部２１０は、各SupplementalPropertyにおけるobject1_azimuth、object1_elevation、object2_azimuth、object2_elevationに基づいて視聴時のオブジェクトの位置を算出し、視聴時のオブジェクト間の角度を算出する。

続いて、処理部２１０は、ステップＳ３２６で算出されたオブジェクト間の角度に基づいて、ステップＳ３２４で取得されたSupplementalPropertyの中から、現在の表示状態に該当するSupplementalPropertyを特定する（Ｓ３２８）。例えば、ステップＳ３２８において、処理部２１０は、ステップＳ３２４で取得されたSupplementalPropertyのうち、ステップＳ３２６で算出されたオブジェクト間の角度がthreshold_rangeに含まれているSupplementalPropertyを特定してもよい。なお、上記の条件にあてはまるSupplementalPropertyが存在しない場合、ステップＳ３２８において処理部２１０はいずれのSupplementalPropertyをも特定しなくてよい。

現在の表示状態に該当するSupplementalPropertyが特定された場合（Ｓ３３０においてＹＥＳ）、処理部２１０は、特定されたSupplementalPropertyのAdaptationSet_listに示されているAdaptationSetを選択する。（Ｓ３３２）。

一方、現在の表示状態に該当するSupplementalPropertyが特定されなかった場合（Ｓ３３０においてＮＯ）、処理部２１０は、Preselection@ preselectionComponentsに示されている既定（default）のAdaptationSetを選択する（Ｓ３３４）。

なお、図２７に示したステップＳ３２２～Ｓ３３４の処理は、例えばセグメントファイル選択部２１３により実行され得る。

以上、本実施例にかかるＭＰＤファイルの一例について説明した。ただし、本実施例において、生成されるＭＰＤファイルは、図２５に示した例に限定されない。

例えば、変形例として、オブジェクトの位置情報をメタデータファイルから取得してもよい。例えば、全てのオブジェクトの位置情報を含むオブジェクトメタデータのみを格納するメタデータファイルが存在する場合、かかるメタデータファイルへアクセスするためのリンク（メタデータファイルアクセス情報の一例）がシグナリングされてもよい。なお、かかるメタデータファイルは、オブジェクト選択情報（の一部）を含むメタデータファイルであると解釈され得る。また、かかるメタデータファイルは、例えば、サーバ１００のセグメントファイル生成部１１３により生成されて、サーバ１００の記憶部１４０に記憶されてもよい。

図２８は、かかる変形例においてＭＰＤファイル生成部１１４が生成するＭＰＤファイルの一例を示す図である。図２８のＭＰＤファイルでは、object1_azimuth、object1_elevation、object2_azimuth、object2_elevationが含まれない。その代り、図２８のＭＰＤファイルでは、４行目、及び１４行目に示されるように、AdaptationSetのSupplementalPropertyにメタデータファイルへのリンク（メタデータファイルアクセス情報の一例）が格納される。また、図２８のＭＰＤファイルでは、５行目、及び６行目に示されるように、メタデータファイルのAdaptationSetのid（object_metadata_AdaptationSet）と、その中のオブジェクトメタデータの番号２つ（object1_num, object2_num）によって、角度を算出する２つのオブジェクトが示されている。

クライアント２００のセグメントファイル取得部２１４は、オブジェクトの位置情報を得るために、かかるメタデータファイルへのリンクに基づいてメタデータファイルの要求情報を生成し、メタデータファイルをサーバ１００から取得する。そして、セグメントファイル取得部２１４は、メタデータファイルの中から該当するオブジェクトのazimuth情報とelevation情報を位置情報として取得する。

他の変形例としては、AdaptationSet_listではなく、threshold_rangeに含まれる場合に置き換える前のAdaptationSetのリスト（before_AdaptationSet_list）と置き換えた後のAdaptationSetのリスト(after_AdaptationSet_list)をＭＰＤファイルに含めてもよい。例えば、３つ以上のオブジェクトオーディオデータが１つのオブジェクトオーディオデータに統合（ミックス）されるような場合においてもこの手法は利用可能である。

また、上記では、２つのオブジェクト位置から角度を算出する例を説明したが、オブジェクトメタデータに含まれているspread情報を用いて、spreadも含めた角度情報が用いられてもよい。SupplementalPropertyのvalueでシグナリングする場合は、object1、object2それぞれに、spread情報を追加する。具体的にはspread_width、spread_height、spread_radiusをスペース区切りでＭＰＤファイルに含めてもよい。スペースで区切られていない場合は、spread_widthのみとすればよい。

また、threshold_rangeは、水平方向（threshold_azimuth_range）と、垂直方向（threshold_elevation_range）が別々にＭＰＤファイルに含まれてもよい。クライアント２００の処理部２１０は、水平方向のみ、垂直方向のみ、両方のいずれを利用してもよい。また、水平方向のみ、垂直方向のみ、両方のいずれを利用するかを指定する情報がＭＰＤファイルに含まれてもよい。

＜＜６．時間変化するオブジェクト選択情報のシグナリング例（実施例４）＞＞
以上、利用するオブジェクトオーディオデータの組合せが時間変化しない場合のオブジェクト選択情報のシグナリング例について説明した。続いて、利用するオブジェクトオーディオデータの組合せが時間変化する場合のオブジェクト選択情報のシグナリング例について説明する。なお、利用するオブジェクトオーディオデータの組合せが時間変化するか否かは、例えばコンテンツの制作者が適宜選択し得る。

MPEG-DASHによるストリーミング配信では、時刻ごとに利用するオブジェクトオーディオデータの組み合わせ、もしくは必要なファイルの組み合わせが、コンテンツファイルに格納されて伝送され得る。ここで、コンテンツファイルは、例えばISO/IEC 14496-12で規格定義されるISO base media file format（ISOBMFF）ファイル（MP4ファイルの一例）であってよい。

利用するオブジェクトオーディオデータの組合せが時間変化する場合、クライアント２００は、このISOBMFFファイルを予め取得し、取得すべきファイルを時刻に応じて決定すればよい。以下では、時間変化するオブジェクト選択情報のシグナリングに関し、７つの実施例（実施例４－１～実施例４－７）を説明する。以下に説明する実施例４－１～実施例４－７では、オブジェクト選択情報が、ISOBMFFファイルに含まれるメタデータファイルに格納される例を説明する。

＜６－１．拡張されたメタデータファイルの実施例（実施例４－１）＞
まず、実施例４－１として、拡張されたメタデータファイルをセグメントファイル生成部１１３が生成する例を説明する。

まず、拡張前のメタデータファイルの構造の一例について、図２９、図３０を参照して説明する。図２９、図３０は、メタデータファイルの構造について説明するための説明図である。図２９に示すオーディオファイル１（file1）は、図３０に示すように、オブジェクトオーディオデータ１(obj1)とオブジェクトオーディオデータ２(obj2)を含んでいる。このオーディオファイル１には、MHAMultiStreamBox(‘maeM’)にファイルの識別子であるstreamIDが格納されており、”1”を示している。図２９に示すオーディオファイル２（file2）は、図３０に示すようにオブジェクトオーディオデータ３(obj3)を含んでおり、streamIDは”2”を示している。

図２９に示すメタデータファイル（metadata file）は、オーディオファイル１とオーディオファイル２に含まれるオブジェクトメタデータ（metadata）を含んでいる。図３０に示すようにメタデータファイル（metadata file）は、sampleEntry(‘a3am’)のreference_streamIDで、どのファイルのオブジェクトメタデータを含んでいるかを示している。このメタデータファイルでは、sampleEntry（サンプルエントリ）から、２つのファイルのオブジェクトメタデータを含んでおり（num_reference_streamID=2）、sampleに含まれるオブジェクトメタデータの１つ目がstreamID=1のファイルのオブジェクトメタデータ(reference_streamID=1)、２つ目がstreamID=2のファイルのオブジェクトメタデータ(reference_streamID=2)であることを示している。図３１は、図２９、図３０に示したメタデータファイルのsyntaxを示す図である。

なお、MHAMultiStreamBoxの構造は図６１に示すものであり、3da_meta_data()の構造は図６２に示すものであり、DSEの構造は図６３に示すものである。なお、図６３に示す、DSEにおけるdata_stream_byteに格納される3da_ancillary_dataの構造は図６４に示すものである。ただし、DSEのdata_stream_byteの最大サイズより3da_meta_data()のサイズが大きい場合においては、3da_meta_data()は分割されて複数のDSEに格納される。

本実施例では、図２９～図３１を参照して説明したメタデータファイルを拡張する。本実施例において、セグメントファイル生成部１１３は、オブジェクトオーディオデータを選択するためのオブジェクト選択情報を格納する、拡張されたメタデータファイルを生成する。以下、図３２、図３３を参照して、本実施例において生成される拡張されたメタデータファイルの一例について説明する。

図３２は、本実施例にかかる拡張されたメタデータファイルの一例を示す図である。また、図３３は、本実施例にかかる拡張されたメタデータファイルのsyntaxを示す図である。

図３２、図３３に示すように、拡張されたメタデータファイルでは、moovボックスのSampleEntry(‘a3am’)に、objectSelectionMetadataConfigurationBox()が、mdatのsampleにはobjectSelectionMetadata()が追加で格納されている。かかるobjectSelectionMetadataConfigurationBox()とobjectSelectionMetadata()に、オブジェクト選択情報が格納され得る。また、図３３に示すように拡張されたメタデータファイルにおいて、objectSelectionMetadata()には、各時刻の利用するオブジェクトオーディオデータもしくはファイルの組合せが示されている。また、図３３に示すように拡張されたメタデータファイルにおいて、objectSelectionMetadataConfigurationBox()は、objectSelectionMetadata()で示されているオブジェクトオーディオデータがどのファイルに格納されているか等の情報を格納する。なお、objectSelectionMetadataConfigurationBox()とobjectSelectionMetadata()の詳細については後述する。

なお、図３２、図３３を参照して説明したメタデータファイルの拡張は、MPEG-H 3D Audioのメタデータファイルにおいても同様に可能である。

＜６－２．オブジェクト選択メタデータファイルの実施例（実施例４－２）＞
以上、実施例４－１として、拡張されたメタデータファイルについて説明した。続いて、実施例４－２として、オブジェクト選択のための専用のメタデータファイル（以下、オブジェクト選択メタデータファイルと称する）を生成する例について、図３４、図３５を参照して説明する。本実施例において、オブジェクト選択メタデータファイルは、セグメントファイル生成部１１３により生成され、オブジェクト選択情報のみを含むファイルであってよい。

図３４は、本実施例にかかるオブジェクト選択メタデータファイルの一例を示す図である。また、図３５は、本実施例にかかるオブジェクト選択メタデータファイルのsyntaxを示す図である。

図３４、図３５に示すように、オブジェクト選択メタデータファイルにおいて、moovボックスのSampleEntryには、上述した拡張されたメタデータファイルと同様にobjectSelectionMetadataConfigurationBox()が格納される。また、図３４、図３５示すように、オブジェクト選択メタデータファイルにおいてmdatのsampleには上述した拡張されたメタデータファイルと同様にobjectSelectionMetadata()が格納される。なお、objectSelectionMetadataConfigurationBox()とobjectSelectionMetadata()の詳細については後述する。

なお、図３４、図３５を参照して説明したオブジェクト選択メタデータファイルは、MPEG-H 3D Audioにおいても同様に生成可能である。

＜６－３．画角を用いたオブジェクト選択情報の格納例（実施例４－３）＞
続いて、実施例４－３として、実施例１－１で説明した画角を用いたオブジェクト選択情報を上述したメタデータファイルに格納する実施例について説明する。本実施例は、上述した実施例４－１、実施例４－２のいずれと組み合わされてもよい。以下では、本実施例にかかるobjectSelectionMetadataConfigurationBoxとobjectSelectionMetadataについて説明する。

図３６は、本実施例にかかるobjectSelectionMetadataConfigurationBoxの一例を示す図である。また、図３７は、図３６に示したobjectSelectionMetadataConfigurationBoxのvalueと、各valueの詳細説明を示す表である。図３７に示すように、図３６に示すobjectSelectionMetadataConfigurationBoxでは、objectSelectionMetadataで示されるobject_idが含まれるオーディオファイルをstream_idで示し、その何番目のオブジェクトオーディオデータであるかをobject_num_in_streamで示している。本実施例において、streamID(stream_id)は、オブジェクトオーディオデータが格納されているオーディオファイルへアクセスするための情報（以下、オーディオファイルアクセス情報とも称する）である。また、既定（default）の利用するオブジェクトオーディオデータがdefault_object_idで示されている。

図３８は、本実施例にかかるobjectSelectionMetadataの一例を示す図である。また、図３９は、図３８に示したobjectSelectionMetadataのvalueと、各valueの詳細説明を示す表である。図３８に示すobjectSelectionMetadataでは、実施例３－１におけるSupplementalPropertyの数をmixed_object_list_numで示している。また、他のパラメータは実施例３－１においてAdaptationSetのリストを表していた部分を、オブジェクトオーディオデータのid（object_id）のリスト(以下、オブジェクトリストとも称する)で示したものである。本実施例を上述した実施例４－１、あるいは実施例４－２と組み合わせることで、取得するオブジェクトオーディオデータの組合せを示すことが可能となる。

なお、本実施例にかかるobjectSelectionMetadataは、図３８、図３９に示した例に限定されない。例えば、変形例として、図３８に示したobjectSelectionMetadataの１４～１７行目に代えて、objectSelectionMetadataConfigurationBoxに示されているdefault objectからの差分を示すようにしてもよい。図４０は、かかるobjectSelectionMetadataの変形例を示す図である。なお、図４０には、図３８に示したobjectSelectionMetadataの１４～１７行目に代えられる部分のみが示されている。また、図４１は、図４０に示した各valueの詳細説明を示す表である。

他の変形例としては、方向情報として、direction_azimuth、direction_elevationに加え、direction_angleをobjectSelectionMetadataに含めてもよい。ここで、direction_angleは、実施例１－１で説明した切り出した方向ベクトルからの角度を示す。

さらなる他の変形例としては、方向情報として、direction_azimuth、direction_elevationに代えて、min_direction_azimuth_range、maz_direction_azimuth_range、min_direction_elevation_range、max_direction_elevation_rangeを、objectSelectionMetadataに含めてもよい。ここで、
min_direction_azimuth_range、maz_direction_azimuth_rangeは実施例１－１で説明した水平方向の角度の範囲を、min_direction_elevation_range、max_direction_elevation_rangeは実施例１－１で説明した垂直方向の角度の範囲をそれぞれ示す。

さらなる他の変形例としては、切り出し画角情報、及び視聴画角情報として、min_clipping_azimuth_range、max_clipping_azimuth_range、min_clipping_elevation_range、max_clipping_elevation_range、max_viewing_azimuth_range、min_viewing_elevation_range、min_viewing_elevation_rangeに代えて、min_clipping_magnification_range、max_clipping_magnification_range、min_viewing_magnification_range,
max_viewing_magnification_rangeをobjectSelectionMetadataに含めてもよい。ここで、min_clipping_magnification_range、max_clipping_magnification_rangeは実施例１－１で説明した切り出し時の画角の倍率の範囲、min_viewing_magnification_range, max_viewing_magnification_rangeは、実施例１－１で説明した視聴画角の倍率の範囲をそれぞれ示す。

さらなる他の変形例としては、objectSelectionMetadataConfigurationBoxとobjectSelectionMetadataにおいて、オブジェクトオーディオデータの組合せではなく、ファイルの組合せを示すようにしてもよい。かかる変形例について、図４２～図４５を参照して説明する。

図４２は、本変形例にかかるobjectSelectionMetadataConfigurationBoxの一例を示す図である。また、図４３は、図４２に示したobjectSelectionMetadataConfigurationBoxのvalueと、各valueの詳細説明を示す表である。図４２に示すobjectSelectionMetadataConfigurationBoxでは、オブジェクトオーディオデータがどのファイルに含まれているかの情報と、既定の利用するオブジェクトオーディオデータの情報を含まない。そして、図４２に示すobjectSelectionMetadataConfigurationBoxでは、default_stream_idとして、stream_idを用いて既定（default）の状態で利用するオーディオファイルの組合せを示す。図４４は、本変形例にかかるobjectSelectionMetadataの一例を示す図である。また、図４５は、図４４に示したobjectSelectionMetadataのvalueと、各valueの詳細説明を示す表である。図４４に示すobjectSelectionMetadataにおいても、オブジェクトオーディオデータの組合せではなく、stream_idを用いてオーディオファイルの組合せを示す。本変形例においても、stream_idは、オブジェクトオーディオデータが格納されているオーディオファイルへアクセスするためのオーディオファイルアクセス情報である。

図４２～図４５を参照して説明した本変形例によれば、クライアント２００が、取得するオブジェクトオーディオデータが含まれるファイルの決定を行わなくてよいという利点がある。

＜６－４．オブジェクト間の角度を用いたオブジェクト選択情報の格納例（実施例４－４）＞
以上、実施例４－３として、画角を用いたオブジェクト選択情報の格納例について説明した。続いて、実施例４－４として、実施例１－２で説明したオブジェクト間の角度を用いたオブジェクト選択情報を上述したメタデータファイルに格納する実施例について説明する。本実施例は、上述した実施例４－１、実施例４－２のいずれと組み合わされてもよい。

本実施例において、objectSelectionMetadataConfigurationBoxは、上述した実施例４－３のobjectSelectionMetadataConfigurationBoxと同様であってもよい。以下では、本実施例にかかるobjectSelectionMetadataについて説明する。

図４６は、本実施例にかかるobjectSelectionMetadataの一例を示す図である。また、図４７は、図４６に示したobjectSelectionMetadataのvalueと、各valueの詳細説明を示す表である。図４６に示すobjectSelectionMetadataでは、実施例３－２におけるSupplementalPropertyの数をmixed_object_list_numで示している。また、他のパラメータは実施例３－２においてAdaptationSetのリストを表していた部分を、オブジェクトオーディオデータのid（object_id）のリストで示したものである。本実施例を上述した実施例４－１、あるいは実施例４－２と組み合わせることで、取得するオブジェクトオーディオデータの組合せを示すことが可能となる。

なお、本実施例にかかるobjectSelectionMetadataは、図４６、図４７に示した例に限定されない。例えば、変形例として、図４６に示したobjectSelectionMetadataの１０～１３行目に代えて、objectSelectionMetadataConfigurationBoxに示されているdefault objectを置き換える前のオブジェクトのリストと置き換えた後のオブジェクトのリストを含むようにしてもよい。図４８は、かかるobjectSelectionMetadataの変形例を示す図である。なお、図４８には、図４６に示したobjectSelectionMetadataの１０～１３行目に代えられる部分のみが示されている。また、図４９は、図４８に示した各valueの詳細説明を示す表である。

他の変形例としては、オブジェクトの位置情報をオブジェクトメタデータから取得するようにしてもよい。例えば、本変形例にかかるobjectSelectionMetadataは、object1_azimuth、object1_elevation、object2_azimuth、object2_elevationに代えて、object1_id、object2_idを含んでもよい。そして、クライアント２００の処理部２１０が、オブジェクトメタデータからazimuth、elevationを取得してもよい。オブジェクトメタデータにobjectSelectionMetadataが含まれない場合は、track referenceを拡張し、reference_type ’obmt’を設定し、オブジェクトメタデータのトラックを指定し、そのトラックのオブジェクトメタデータを利用できるようにシグナリングすればよい。

＜６－５．オブジェクト選択情報を選択可能なシグナリング例（実施例４－５）＞
続いて、実施例４－５として、実施例４－３、実施例４－４で説明したobjectSelectionMetadataConfigurationBoxにおいて、追加の情報を含めることで様々な構造を実現可能とする例を説明する。例えば、本実施例では、図３６を参照して説明したように、オブジェクトオーディオファイルのリストで示すか、図４２を参照して説明したようファイル(stream)のリストで示すか、を示す情報をシグナリングすることが可能である。

図５０は、本実施例にかかるobjectSelectionMetadataConfigurationBoxの一例を示す図である。また、図５１は、図５０に示したobjectSelectionMetadataConfigurationBoxのvalueと、各valueの詳細説明を示す表である。

図５０に示すobjectSelectionMetadataConfigurationBoxは、図３６と図４２のどちらのタイプのobjectSelectionMetadataConfigurationBoxのシグナリングであるかを示すフラグであるlist_is_objectと、objectSelectionMetadataの構造を示すsample_typeを含む。かかる構成により、様々な構造を実現可能である。

＜６－６．ＭＰＤファイルでのシグナリング例（実施例４－６）＞
続いて、実施例４－６として、オブジェクト選択情報を含むISOBMFFファイルをＭＰＤファイルでシグナリングする例について説明する。本実施例で説明されるＭＰＤファイルは、サーバ１００のＭＰＤファイル生成部１１４により生成され得る。また、本実施例において生成されるＭＰＤファイルには、オブジェクト選択情報を含むメタデータファイルへアクセスするためのメタデータファイルアクセス情報が格納される。

まず、実施例４－１として上述した拡張されたメタデータファイルにオブジェクト選択情報を格納される場合にサーバ１００のＭＰＤファイル生成部１１４が生成するＭＰＤファイルの例について、図５２を参照して説明する。図５２は、本実施例において生成されるＭＰＤファイルの一例を示す図である。

図５２のＭＰＤファイルでは、３行目に示すようにPreselectionの、SupplementalPropertyでschemeIdUriがurn:mpeg:dash:objectAudio:objectMetadataFileを指定し、メタデータファイルのAdaptationSet@idをvalueで指定する。また、図５２のＭＰＤファイルでは１２行目に示すように、メタデータファイルを含むAdaptationSetでは、SupplementalPropertyでschemeIdUriがurn:mpeg:dash:objectAudio:objectMetadataStreamIDを指定し、streamIDとAdaptationSetとの関連を示すことができる。

つづいて、実施例４－２として上述したオブジェクト選択メタデータファイルにオブジェクト選択情報を格納する場合にサーバ１００のＭＰＤファイル生成部１１４が生成するＭＰＤファイルの例について、図５３を参照して説明する。図５３は、本実施例において生成されるＭＰＤファイルの一例を示す図である。

図５３のＭＰＤファイルでは、４行目に示すようにPreselectionのSupplementalPropertyでschemeIdUriがurn:mpeg:dash:objectAudio:objectSelectionMetadataFileを指定し、オブジェクト選択メタデータファイルのAdaptationSet@idをvalueで指定する。図５３のＭＰＤファイルでは、AdaptationSet@id=”m2”を示している。また、図５３のＭＰＤファイルでは、１９行目に示すように、オブジェクト選択メタデータファイルのAdaptationSet（AdaptationSet@id=”m2”）では、SupplementalPropertyでschemeIdUriがurn:mpeg:dash:objectAudio:objectMetadataFileをシグナリングしている。これは、objectSelectionMetadataで、「表示時の２つのオブジェクト間の角度を用いたオブジェクト選択情報を格納」している場合に、２つのオブジェクト間の角度を求めるためにメタデータファイルを参照する必要がある場合に必要となる。SupplementalPropertyでschemeIdUriがurn:mpeg:dash:objectAudio:objectMetadataStreamIDのシグナリングは、オブジェクト選択メタデータファイル内でシグナリングされているstream_idが、どのAdaptationSetのファイルであるかを示すために利用される。

なお、PreselectionのSupplementalPropertyでschemeIdUriがurn:mpeg:dash:objectAudio:objectSelectionMetadataFileをシグナリングすることは、図５２を参照して説明した拡張されたメタデータファイルにオブジェクト選択情報が格納される場合にも適用可能である。

また、オブジェクト選択メタデータファイルのAdaptationSet（AdaptationSet@id=”m2”）では、SupplementalPropertyでschemeIdUriがurn:mpeg:dash:objectAudio:objectMetadataFileをシグナリングしている部分は、RepresentationのassociationIdで示してもよい。かかる例について、図５４を参照して説明する。図５４は、本実施例において生成されるＭＰＤファイルの他の例を示す図である。

図５４に示すＭＰＤファイルでは、図５３に示すＭＰＤファイルの２１行目の<Representation id=“op2”>に代えて、<Representation id=“op2” associationId=“op1”>が示されている。図５４に示すＭＰＤファイルでは、オブジェクト選択メタデータファイルのAdaptationSet（AdaptationSet@id=”m2”）の、SupplementalPropertyでschemeIdUriがurn:mpeg:dash:objectAudio:objectMetadataFileをシグナリングに利用しない。

＜６－７．クライアントが取得するファイルの選択例（実施例４－７）＞
続いて、実施例４－７として、クライアント２００の処理部２１０が取得するファイルを選択する方法について説明する。図５５は、クライアントが取得するファイルを選択する方法の一例を示すフローチャート図である。なお、図５５には、図３２～図３３を参照して説明した拡張されたメタデータファイルに、図３６～図３９を参照して説明したようにオブジェクト選択情報を格納し、図５２を参照して説明したＭＰＤファイルでシグナリングした場合の選択方法の例が示されている。また、図５５に示した

まず、図５５に示すように、処理部２１０は、MPDファイルのPreselectionのSupplementalPropertyでschemeIdUriが“urn:mpeg:dash:objectAudio:objectMetadataFile”のvalueから、メタデータファイルのAdaptationSetを特定し、サーバ１００からメタデータファイルを取得する（Ｓ４０２）。続いて、処理部２１０は、クライアント２００が表示する切り出し画像の切り出し方向、切り出し画角、及び現在の視聴画角の情報を取得する（Ｓ４０４）。続いて、処理部２１０は、ステップＳ４０２で取得されたメタデータファイルから、現在のobjectSelectionMetadataを取得する（Ｓ４０６）。

さらに、処理部２１０は、ステップＳ４０６で取得されたobjectSelectionMetadataに基づいて、現在の表示状態に該当するオブジェクトリストを特定する（Ｓ４０８）。例えば、ステップＳ４０８において特定されるオブジェクトリストは、クライアント２００が表示する切り出し画像の切り出し方向とdirection_azimuth、direction_elevationの値が近いオブジェクトリストであってもよい。また、ステップＳ４０８において特定されるオブジェクトリストは、クライアント２００が表示する切り出し画像の切り出し画角がmin_clipping_azimuth_range、man_clipping_azimuth_range、min_clipping_elevation_range、min_clipping_elevation_rangeで示される画角範囲に含まれるオブジェクトリストであってもよい。さらに、ステップＳ４０８において特定されるオブジェクトリストは、現在の視聴画角がmin_viewing_azimuth_range、max_viewing_azimuth_range、min_viewing_elevation_range、max_viewing_elevation_rangeで示される画角範囲に含まれるオブジェクトリストであってもよい。なお、上記の条件にあてはまるオブジェクトリストが存在しない場合、ステップＳ４０８において処理部２１０はいずれのオブジェクトリストをも特定しなくてもよい。

現在の表示状態に該当するオブジェクトリストが特定された場合（Ｓ４１０においてＹＥＳ）、処理部２１０は、特定されたオブジェクトリストのobject_idを取得する。（Ｓ４１２）。一方、現在の表示状態に該当するオブジェクトリストが特定されなかった場合（Ｓ４１０においてＮＯ）、処理部２１０は、sampleEntryのdefault_object_idを取得する。（Ｓ４１４）。

続いて、処理部２１０は、sampleEntryのobjectSelectionMetadataConfigurationBoxから、各object_idが属しているstreamのstream_idを取得する（Ｓ４１６）。さらに、処理部２１０は、urn:mpeg:dash:objectAudio:objectMetadataStreamIDのstream_idに基づき、取得するAdaptationSet（ファイル）を選択する（Ｓ４１８）。

なお、図５５に示したステップＳ４０２～Ｓ４１８の処理は、例えばセグメントファイル選択部２１３により実行され得る。

＜＜７．応用例＞＞
以上、本開示の一実施形態について説明した。本開示において上述した技術（本技術）は、様々なコンテンツへ応用することが可能であり、例えば複数視聴位置で視聴可能なMulti Viewコンテンツへ応用することも可能である。以下では、本技術をMulti Viewコンテンツへ応用した場合の応用例について説明する。

図５６～図５８は、本応用例について説明するための説明図である。以下では、図５６に示すように、３つのオブジェクトオーディオデータＡＤ２１～ＡＤ２３が存在し、２カ所の視聴位置ＶＰ１、ＶＰ２が存在する場合について説明する。

図５７に示すように、視聴位置ＶＰ１で視聴した場合、オブジェクトオーディオデータＡＤ２１とオブジェクトオーディオデータＡＤ２２とが重なって見え得る。そこで、オブジェクトオーディオデータＡＤ２１とオブジェクトオーディオデータＡＤ２２を統合したオブジェクトオーディオデータＡＤ２４を準備する。そして、表示状態に合わせて３つのオブジェクトオーディオデータＡＤ２１～ＡＤ２３を利用する場合と、２つのオブジェクトオーディオデータＡＤ２３、ＡＤ２４を利用する場合があり得る。

一方、図５８に示すように、視聴位置ＶＰ２で視聴した場合、オブジェクトオーディオデータＡＤ２２とオブジェクトオーディオデータＡＤ２３とが重なって見え得る。そこで、オブジェクトオーディオデータＡＤ２２とオブジェクトオーディオデータＡＤ２３を統合したオブジェクトオーディオデータＡＤ２５を準備する。そして、表示状態に合わせて３つのオブジェクトオーディオデータＡＤ２１～ＡＤ２３を利用する場合と、２つのオブジェクトオーディオデータＡＤ２２、ＡＤ２５を利用する場合があり得る。

図５６～図５８を参照して説明したように、視聴位置によって利用するオブジェクトオーディオデータが異なる場合が考えられる。このような場合も、上記実施形態と同様に、視聴位置ごとに利用するオブジェクトオーディオデータを指定すればよい。かかる場合に生成されるＭＰＤファイルの一例について図５９を参照して説明する。図５９は、視聴位置によって利用するオブジェクトオーディオデータが異なる場合に生成されるＭＰＤファイルの一例を示す図である。なお、図５９では利用するオブジェクトオーディオデータが時間変化しない場合に生成されるＭＰＤファイルの例について示している。

図５９に示す例では、Viewpoint（Multi Viewコンテンツで利用される既存のElement）を用いて視聴位置を識別する。Viewpointの各々は、表示状態ごとのAdaptationSetの組合せを示す。視聴位置ＶＰ１に対応するview1はPreselection@id=”1”で示されており、既定のオブジェクトオーディオデータの組合せはo1,o2,o3で、その他の組合せとしてo3、o4がSupplementalPropertyで示されている。視聴位置ＶＰ２に対応するview2はPreselection@id=”2”で示されており、既定のオブジェクトオーディオデータの組合せはo1,o2,o3で、その他の組合せとしてo2、o5がSupplementalPropertyで示されている。

また、上述した手法は、自由視点コンテンツにも応用することが可能である。自由視点コンテンツは、ある空間内で自由な位置での視聴が可能なコンテンツである。まず、Multi Viewコンテンツを準備し、複数の視聴位置で利用するオブジェクトオーディオデータの組合せを決定する。その際に、Viewpointのvalueで位置座標をシグナリングする等して、各視点位置を示しておく。再生時には、視聴したい視点位置から、Viewpointに含まれる視点位置のうち、最も近いViewpointのPreselectionを選択し、そのPreselectionにあるメタ情報から利用するオブジェクトを決定すればよい。

＜＜８．ハードウェア構成例＞＞
以上、本開示の実施形態を説明した。最後に、図６０を参照して、本開示の実施形態にかかる情報処理装置のハードウェア構成について説明する。図６０は、本開示の実施形態にかかる情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図６０に示す情報処理装置９００は、例えば、図８、図９にそれぞれ示したサーバ１００、クライアント２００を実現し得る。本開示の実施形態にかかるサーバ１００、クライアント２００による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

図６０に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１、通信装置９１３、及びセンサ９１５を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、生成部１１０、制御部１２０、処理部２１０、制御部２２０を形成し得る。

ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置９０７は、例えば表示部２６０、スピーカ２７０を形成し得る。

ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。上記ストレージ装置９０８は、例えば、記憶部１４０、記憶部２４０を形成し得る。

ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。

通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。通信装置９１３は、例えば、通信部１３０、通信部２３０を形成し得る。

センサ９１５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ、力センサ等の各種のセンサである。センサ９１５は、情報処理装置９００の姿勢、移動速度等、情報処理装置９００自身の状態に関する情報や、情報処理装置９００の周辺の明るさや騒音等、情報処理装置９００の周辺環境に関する情報を取得する。また、センサ９１５は、ＧＰＳ信号を受信して装置の緯度、経度及び高度を測定するＧＰＳセンサを含んでもよい。センサ９１５は、例えば、センサ部２５０を形成し得る。

なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ－ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ－ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

以上、本開示の実施形態にかかる情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本開示の実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本開示の実施形態にかかる情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

＜＜９．むすび＞＞
以上説明したように、本開示の実施形態によれば、オブジェクトオーディオデータを表示状態に応じて選択することが可能である。例えば、オブジェクトオーディオデータをMPEG-DASHによりストリーミング配信する際に、視聴環境にあったより適切な位置からの音を聞くことができるようになる。また、ズームインやズームアウトしたなど、表示状態が変わった場合に、その時の映像にあわせて、適切な位置からの音が聞こえる体験をすることができるようになる。さらに、サーバが記憶するデータ量と、クライアントが取得するファイル数との両方が抑制されるようにオブジェクトオーディオデータをファイル化することが可能である。そのため、伝送量が低減され、例えばその他の取得するデータのビットレートを上げることも可能となり得る。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示にかかる技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成する生成部を備え、
前記生成部は、前記コンテンツファイルに含まれるメタデータファイルに前記オブジェクト選択情報を格納する、情報処理装置。
（２）
前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるファイルである、前記（１）に記載の情報処理装置。
（３）
前記オブジェクト選択情報は、前記メタデータファイルのmoovボックスにおけるsampleEntryに格納される、前記（２）に記載の情報処理装置。
（４）
前記オブジェクト選択情報は、前記sampleEntryに含まれるobjectSelectionMetadataConfigurationBoxに格納される、前記（３）に記載の情報処理装置。
（５）
前記オブジェクト選択情報は、前記オブジェクトオーディオデータが格納されているオーディオファイルへアクセスするためのオーディオファイルアクセス情報を含む、前記（４）に記載の情報処理装置。
（６）
前記オーディオファイルアクセス情報は、streamIDを含む、前記（５）に記載の情報処理装置。
（７）
前記オブジェクト選択情報は、切り出した画像の方向に関する方向情報を含む、前記（１）～（６）のいずれか一項に記載の情報処理装置。
（８）
前記方向情報は、水平方向の角度の情報と垂直方向の角度の情報とを含む、前記（７）に記載の情報処理装置。
（９）
前記方向情報は、切り出した方向ベクトルからの角度範囲の情報をさらに含む、前記（８）に記載の情報処理装置。
（１０）
前記方向情報は、水平方向の角度の範囲の情報と垂直方向の角度の範囲の情報とを含む、前記（７）に記載の情報処理装置。
（１１）
前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、前記（１）～（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記画角情報は、水平画角の範囲の情報と垂直画角の範囲の情報とを含む、前記（１１）に記載の情報処理装置。
（１３）
前記画角情報は、基準画角に対する倍率の範囲の情報を含む、前記（１１）に記載の情報処理装置。
（１４）
前記オブジェクト選択情報は、角度を算出する２つのオブジェクトの位置情報を含む、前記（１）～（６）のいずれか一項に記載の情報処理装置。
（１５）
前記オブジェクト選択情報は、前記２つのオブジェクト間の角度に関する角度情報をさらに含む、前記（１４）に記載の情報処理装置。
（１６）
前記オブジェクト選択情報は、利用する前記オブジェクトオーディオデータに関する情報を含む、前記（１）～（１５）のいずれか一項に記載の情報処理装置。
（１７）
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成することを含み、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納される、情報処理装置によって実行される情報処理方法。
（１８）
コンピュータに、
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成する機能を実現させ、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納される、プログラム。
（１９）
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを取得する処理部を備え、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納される、情報処理装置。
（２０）
前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるファイルである、前記（１９）に記載の情報処理装置。
（２１）
前記オブジェクト選択情報は、前記メタデータファイルのmoovボックスにおけるsampleEntryに格納される、前記（２０）に記載の情報処理装置。
（２２）
前記オブジェクト選択情報は、前記sampleEntryに含まれるobjectSelectionMetadataConfigurationBoxに格納される、前記（２１）に記載の情報処理装置。
（２３）
前記オブジェクト選択情報は、前記オブジェクトオーディオデータが格納されているオーディオファイルへアクセスするためのオーディオファイルアクセス情報を含む、前記（２２）に記載の情報処理装置。
（２４）
前記オーディオファイルアクセス情報は、streamIDを含む、前記（２３）に記載の情報処理装置。
（２５）
前記オブジェクト選択情報は、切り出した画像の方向に関する方向情報を含む、前記（１９）～（２４）のいずれか一項に記載の情報処理装置。
（２６）
前記方向情報は、水平方向の角度の情報と垂直方向の角度の情報とを含む、前記（２５）に記載の情報処理装置。
（２７）
前記方向情報は、切り出した方向ベクトルからの角度範囲の情報をさらに含む、前記（２６）に記載の情報処理装置。
（２８）
前記方向情報は、水平方向の角度の範囲の情報と垂直方向の角度の範囲の情報とを含む、前記（２５）に記載の情報処理装置。
（２９）
前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、前記（１９）～（２８）のいずれか一項に記載の情報処理装置。
（３０）
前記画角情報は、水平画角の範囲の情報と垂直画角の範囲の情報とを含む、前記（２９）に記載の情報処理装置。
（３１）
前記画角情報は、基準画角に対する倍率の範囲の情報を含む、前記（２９）に記載の情報処理装置。
（３２）
前記オブジェクト選択情報は、角度を算出する２つのオブジェクトの位置情報を含む、前記（１９）～（２４）のいずれか一項に記載の情報処理装置。
（３３）
前記オブジェクト選択情報は、前記２つのオブジェクト間の角度に関する角度情報をさらに含む、前記（３２）に記載の情報処理装置。
（３４）
前記オブジェクト選択情報は、利用する前記オブジェクトオーディオデータに関する情報を含む、前記（１９）～（３３）のいずれか一項に記載の情報処理装置。
（３５）
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを取得することを含み、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納される、情報処理装置によって実行される情報処理方法。
（３６）
コンピュータに、
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを取得する機能を実現させ、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納される、プログラム。

１００サーバ
１１０生成部
１１１データ取得部
１１２符号化処理部
１１３セグメントファイル生成部
１１４ファイル生成部
１２０制御部
１３０通信部
１４０記憶部
２００クライアント
２１０処理部
２１１ファイル取得部
２１２ファイル処理部
２１３セグメントファイル選択部
２１４セグメントファイル取得部
２１５復号処理部
２１６合成処理部
２２０制御部
２３０通信部
２４０記憶部
２５０センサ部
２６０表示部
２７０スピーカ

Claims

画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成する生成部を備え、
前記生成部は、前記コンテンツファイルに含まれるメタデータファイルに前記オブジェクト選択情報を格納し、
前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、
前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、
情報処理装置。
前記オブジェクト選択情報は、前記メタデータファイルのmoovボックスにおけるsampleEntryに格納される、請求項１に記載の情報処理装置。
前記オブジェクト選択情報は、前記sampleEntryに含まれるobjectSelectionMetadataConfigurationBoxに格納される、請求項２に記載の情報処理装置。
前記オブジェクト選択情報は、前記オブジェクトオーディオデータが格納されているオーディオファイルへアクセスするためのオーディオファイルアクセス情報を含む、請求項３に記載の情報処理装置。
前記オーディオファイルアクセス情報は、streamIDを含む、請求項４に記載の情報処理装置。
前記オブジェクト選択情報は、切り出した画像の方向に関する方向情報を含む、請求項１に記載の情報処理装置。
前記方向情報は、水平方向の角度の情報と垂直方向の角度の情報とを含む、請求項６に記載の情報処理装置。
前記方向情報は、切り出した方向ベクトルからの角度範囲の情報をさらに含む、請求項７に記載の情報処理装置。
前記方向情報は、水平方向の角度の範囲の情報と垂直方向の角度の範囲の情報とを含む、請求項６に記載の情報処理装置。
前記画角情報は、水平画角の範囲の情報と垂直画角の範囲の情報とを含む、請求項１に記載の情報処理装置。
前記画角情報は、基準画角に対する倍率の範囲の情報を含む、請求項１に記載の情報処理装置。
前記オブジェクト選択情報は、角度を算出する２つのオブジェクトの位置情報を含む、請求項１に記載の情報処理装置。
前記オブジェクト選択情報は、前記２つのオブジェクト間の角度に関する角度情報をさらに含む、請求項１２に記載の情報処理装置。
前記オブジェクト選択情報は、利用する前記オブジェクトオーディオデータに関する情報を含む、請求項１に記載の情報処理装置。
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成する生成部を備え、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、
前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、
前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、
情報処理装置。
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成することを含み、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、
前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、
前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、
情報処理装置によって実行される情報処理方法。
コンピュータに、
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルを生成する機能を実現させ、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、
前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、
前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、
プログラム。
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルに基づいて再生を開始する再生部、
を備え、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、
前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、
前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、
情報処理装置。
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルに基づいて再生を開始することを含み、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、
前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、
前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、
情報処理装置によって実行される情報処理方法。
コンピュータに、
画像の表示状態に応じたオブジェクトオーディオデータを選択するためのオブジェクト選択情報を含むコンテンツファイルに基づいて再生を開始する機能を実行させ、
前記オブジェクト選択情報は、前記コンテンツファイルに含まれるメタデータファイルに格納され、
前記メタデータファイルは、ISO/IEC 14496-12で規格定義されるISO base media file formatファイルであり、
前記オブジェクト選択情報は、切り出した画像の画角、または表示された画像に対する視聴時の画角、に関する画角情報を含む、
プログラム。