JP6697695B2

JP6697695B2 - 情報処理装置および情報処理方法

Info

Publication number: JP6697695B2
Application number: JP2018236424A
Authority: JP
Inventors: 平林　光浩; 光浩平林; 徹知念; 優樹山本; 潤宇史
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-05-30
Filing date: 2018-12-18
Publication date: 2020-05-27
Anticipated expiration: 2035-05-22
Also published as: US20170127118A1; EP3151242A1; WO2015182492A1; EP3151242B1; CN106463148B; JP6459006B2; JP2019061276A; JPWO2015182492A1; CN106463148A; EP3151242A4; US10375439B2

Description

本開示は、情報処理装置および情報処理方法に関し、特に、複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることができるようにした情報処理装置および情報処理方法に関する。

近年、インターネット上のストリーミングサービスの主流がOTT−V（Over The Top Video）となっている。この基盤技術として普及し始めているのがMPEG−DASH（Moving Picture Experts Group phase − Dynamic Adaptive Streaming over HTTP）である（例えば、非特許文献１参照）。

MPEG−DASHでは、配信サーバが１本の動画コンテンツ用に画面サイズと符号化速度が異なる動画データ群を用意し、再生端末が伝送路の状況に応じて最適な画面サイズと符号化速度の動画データ群を要求することにより、適応型のストリーミング配信が実現される。

MPEG−DASH(Dynamic Adaptive Streaming over HTTP)（URL:http://mpeg.chiariglione.org/standards/mpeg−dash/media−presentation−description−and−segment−formats/text−isoiec−23009−12012−dam−1）

しかしながら、動画コンテンツの複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることは考えられていない。

本開示は、このような状況に鑑みてなされたものであり、複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることができるようにするものである。

本開示の一側面の情報処理装置は、複数の３Ｄオーディオに関するデータから生成された前記３ＤオーディオのデータごとにTrack単位で分割された構造を有する１のオーディオストリームが配置されたファイルであって、前記Trackに対応する前記オーディオストリームの部分について、所定の時間分だけ前記Trackごとに連続して格納されて生成されたセグメントファイルにおいて、所定の前記Trackに対応する前記オーディオストリームを取得する取得部を備える。

本開示の一側面の情報処理方法は、本開示の一側面の情報処理装置に対応する。

本開示の一側面においては、複数の３Ｄオーディオに関するデータから生成された前記３ＤオーディオのデータごとにTrack単位で分割された構造を有する１のオーディオストリームが配置されたファイルであって、前記Trackに対応する前記オーディオストリームの部分について、所定の時間分だけ前記Trackごとに連続して格納されて生成されたセグメントファイルにおいて、所定の前記Trackに対応する前記オーディオストリームが取得される。

なお、一側面の情報処理装置は、コンピュータにプログラムを実行させることにより実現することができる。

また、一側面の情報処理装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本開示を適用した情報処理システムの第１の例の概要を説明する図である。タイルの例を示す図である。オブジェクトを説明する図である。オブジェクト位置情報を説明する図である。画枠サイズ情報を説明する図である。 MPDファイルの構造を示す図である。「Period」、「Representation」、および「Segment」の関係を示す図である。 MPDファイルの階層構造を示す図である。 MPDファイルの構造と時間軸との関係を示す図である。 MPDファイルの記述例を説明する図である。ファイル生成装置の構成例を示すブロック図である。ファイル生成装置のファイル生成処理を説明するフローチャートである。ストリーミング再生部の構成例を示すブロック図である。ストリーミング再生部のストリーミング再生処理を説明するフローチャートである。 MPDファイルの他の記述例を説明する図である。 MPDファイルのさらに他の記述例を説明する図である。オーディオストリームの配置例を示す図である。 gsixの記述例を示す図である。 Sample group entryとオブジェクトＩＤの対応関係を示す情報の例を示す図である。 AudioObjectSampleGroupEntryの記述例を示す図である。 type assignment boxの記述例を示す図である。本開示を適用した情報処理システムの第２の例の概要を説明する図である。本開示を適用した情報処理システムのストリーミング再生部の構成例を示すブロック図である。オブジェクトの位置の決定方法を説明する図である。オブジェクトの位置の決定方法を説明する図である。オブジェクトの位置の決定方法を説明する図である。水平角度θ_Aiと水平角度θ_Ai´の関係を表す図である。図２３のストリーミング再生部のストリーミング再生処理を説明するフローチャートである。図２８の位置決定処理の詳細を説明するフローチャートである。図２９の水平角度θ_Ai´推定処理の詳細を説明するフローチャートである。ＭＰ４の３Ｄオーディオファイルフォーマットのトラックの概要を説明する図である。 moovボックスの構造を示す図である。本開示を適用した第１実施の形態におけるトラックの概要を説明する図である。図３３のベーストラックのサンプルエントリのシンタクスの例を示す図である。図３３のチャネルオーディオトラックのサンプルエントリのシンタクスの例を示す図である。図３３のオブジェクトオーディオトラックのサンプルエントリのシンタクスの例を示す図である。図３３のHOAオーディオトラックのサンプルエントリのシンタクスの例を示す図である。図３３のオブジェクトメタデータトラックのサンプルエントリのシンタクスの例を示す図である。セグメント構造の第１の例を示す図である。セグメント構造の第２の例を示す図である。 level assignmentボックスの記述例を示す図である。本開示を適用した第１実施の形態におけるMPDファイルの記述例を示す図である。 essential Propertyの定義を示す図である。本開示を適用した第１実施の形態における情報処理システムの概要を説明する図である。図４４のファイル生成装置の構成例を示すブロック図である。図４５のファイル生成装置のファイル生成処理を説明するフローチャートである。図４４の動画再生端末により実現されるストリーミング再生部の構成例を示すブロック図である。図４７のストリーミング再生部のチャネルオーディオ再生処理を説明するフローチャートである。図４７のストリーミング再生部のオブジェクト特定処理を説明するフローチャートである。図４７のストリーミング再生部の特定オブジェクトオーディオ再生処理を説明するフローチャートである。本開示を適用した第２実施の形態におけるトラックの概要を説明する図である。図５１のベーストラックのサンプルエントリのシンタクスの例を示す図である。ベースサンプルの構造を示す図である。ベースのサンプルのシンタクスの例を示す図である。 extractorのデータの例を示す図である。本開示を適用した第３実施の形態におけるトラックの概要を説明する図である。本開示を適用した第４実施の形態におけるトラックの概要を説明する図である。本開示を適用した第４実施の形態におけるMPDファイルの記述例を示す図である。本開示を適用した第４実施の形態における情報処理システムの概要を説明する図である。図５９のファイル生成装置の構成例を示すブロック図である。図６０のファイル生成装置のファイル生成処理を説明するフローチャートである。図５９の動画再生端末により実現されるストリーミング再生部の構成例を示すブロック図である。図６２のストリーミング再生部のチャネルオーディオ再生処理の例を説明するフローチャートである。図６２のストリーミング再生部のオブジェクトオーディオ再生処理の第１の例を説明するフローチャートである。図６２のストリーミング再生部のオブジェクトオーディオ再生処理の第２の例を説明するフローチャートである。図６２のストリーミング再生部のオブジェクトオーディオ再生処理の第３の例を説明するフローチャートである。プライオリティに基づいて選択されたオブジェクトの例を示す図である。本開示を適用した第５実施の形態におけるトラックの概要を説明する図である。本開示を適用した第６実施の形態におけるトラックの概要を説明する図である。コンピュータのハードウエアの構成例を示すブロック図である。

以下、本開示の前提および本開示を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
０．本開示の前提（図１乃至図３０）
１．第１実施の形態（図３１乃至図５０）
２．第２実施の形態（図５１乃至図５５）
３．第３実施の形態（図５６）
４．第４実施の形態（図５７乃至図６７）
５．第５実施の形態（図６８）
６．第６実施の形態（図６９）
７．第７実施の形態（図７０）

＜本開示の前提＞
（情報処理システムの第１の例の概要）
図１は、本開示を適用した情報処理システムの第１の例の概要を説明する図である。

図１の情報処理システム１０は、ファイル生成装置１１と接続されるWebサーバ１２と動画再生端末１４が、インターネット１３を介して接続されることにより構成される。

情報処理システム１０では、MPEG−DASHに準ずる方式で、Webサーバ１２が動画コンテンツの画像データをタイル単位で動画再生端末１４に配信（タイルドストリーミング）する。

具体的には、ファイル生成装置１１は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置１１は、各タイルのビデオストリームを、セグメントと呼ばれる数秒から10秒程度の時間単位ごとにファイル化する。ファイル生成装置１１は、その結果得られる各タイルの画像ファイルをWebサーバ１２にアップロードする。

また、ファイル生成装置１１は、動画コンテンツの音声データをオブジェクト（詳細は後述する）ごとに取得し、オブジェクト単位で符号化してオーディオストリームを生成する。ファイル生成装置１１は、各オブジェクトのオーディオストリームをセグメント単位でファイル化し、その結果得られる各オブジェクトの音声ファイルをWebサーバ１２にアップロードする。

なお、オブジェクトとは、音源であり、各オブジェクトの音声データは、そのオブジェクトに取り付けられたマイクロフォンなどにより取得される。オブジェクトは、固定されたマイクスタンドなどの物体であってもよいし、人物などの動体であってもよい。

ファイル生成装置１１は、各オブジェクトの位置（音声データの取得位置）を表すオブジェクト位置情報（音声位置情報）、オブジェクトに固有のＩＤであるオブジェクトＩＤ等を含むオーディオメタデータを符号化する。ファイル生成装置１１は、オーディオメタデータの符号化データをセグメント単位でファイル化し、その結果得られる音声メタファイルをWebサーバ１２にアップロードする。

また、ファイル生成装置１１は、動画コンテンツの画像の画枠サイズを表す画枠サイズ情報、各タイルの画像上の位置を表すタイル位置情報等を含む、画像ファイルや音声ファイルを管理するMPD（Media Presentation Description）ファイル（制御情報）を生成する。ファイル生成装置１１は、MPDファイルをWebサーバ１２にアップロードする。

Webサーバ１２は、ファイル生成装置１１からアップロードされた画像ファイル、音声ファイル、音声メタファイル、およびMPDファイルを格納する。

図１の例では、Webサーバ１２には、タイルＩＤ「１」のタイルの複数のセグメントの画像ファイルからなるセグメント群と、タイルＩＤ「２」のタイルの複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ１２には、オブジェクトＩＤ「１」のオブジェクトの複数のセグメントの音声ファイルからなるセグメント群と、オブジェクトＩＤ「２」のオブジェクトの複数のセグメントの音声ファイルからなるセグメント群とが格納されている。図示は省略するが、音声メタファイルのセグメント群も同様に格納されている。

なお、以下では、タイルＩＤがｉであるタイルをタイル＃ｉといい、オブジェクトＩＤがｉのオブジェクトをオブジェクト＃ｉという。

Webサーバ１２は、伝送部として機能し、動画再生端末１４からの要求に応じて、格納している画像ファイル、音声ファイル、音声メタファイル、MPDファイル等を動画再生端末１４に送信する。

動画再生端末１４は、ストリーミングデータの制御用ソフトウエア（以下、制御用ソフトウエアという）２１、動画再生ソフトウエア２２、HTTP（HyperText Transfer Protocol）アクセス用のクライアント・ソフトウエア(以下、アクセス用ソフトウエアという)２３などを実行する。

制御用ソフトウエア２１は、Webサーバ１２からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア２１は、動画再生端末１４にWebサーバ１２からMPDファイルを取得させる。

また、制御用ソフトウエア２１は、動画再生ソフトウエア２２から指示される動画コンテンツの画像内の表示する領域である表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア２１は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア２３に指令する。

また、制御用ソフトウエア２１は、アクセス用ソフトウエア２３に音声メタファイルの送信要求を指令する。そして、制御用ソフトウエア２１は、表示領域、MPDファイルに含まれる画枠サイズ情報、および音声メタファイルに含まれるオブジェクト位置情報に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア２１は、そのオブジェクトの音声ファイルの送信要求をアクセス用ソフトウエア２３に指令する。

動画再生ソフトウエア２２は、Webサーバ１２から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア２２は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア２１に指示する。また、動画再生ソフトウエア２２は、その指示に応じてWebサーバ１２から取得された画像ファイルと音声ファイルを復号し、合成して出力する。

アクセス用ソフトウエア２３は、HTTPを用いたインターネット１３を介したWebサーバ１２との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア２３は、制御用ソフトウエア２１の指令に応じて、画像ファイル、音声ファイル、および音声メタファイルの送信要求を動画再生端末１４に送信させる。また、アクセス用ソフトウエア２３は、その送信要求に応じて、Webサーバ１２から送信されてくる画像ファイル、音声ファイル、および音声メタファイルを動画再生端末１４に受信させる。

（タイルの例）
図２は、タイルの例を示す図である。

図２に示すように、動画コンテンツの画像は、複数のタイルに分割され、各タイルに１から順にタイルＩＤが付与される。図２の例では、動画コンテンツの画像は、４つのタイル＃１乃至タイル＃４に分割されている。

（オブジェクトの説明）
図３は、オブジェクトを説明する図である。

図３の例では、動画コンテンツの音声として、画像内の８つのオブジェクトの音声が取得されており、各オブジェクトには１から順にオブジェクトＩＤが付与されている。オブジェクト＃１乃至オブジェクト＃５は、それぞれ、動体であり、オブジェクト＃６乃至オブジェクト＃８は、固定された物体である。また、図３の例では、動画コンテンツの画像は、５（縦）×７（横）のタイルに分割されている。

この場合、図３に示すように、ユーザにより２（縦）×３（横）個のタイルからなる表示領域３１が指定されると、表示領域３１には、オブジェクト＃１、オブジェクト＃２、およびオブジェクト＃６のみが含まれる。従って、動画再生端末１４は、例えば、オブジェクト＃１、オブジェクト＃２、およびオブジェクト＃６の音声ファイルのみをWebサーバ１２から取得し、再生する。

表示領域３１内のオブジェクトは、以下に説明するように、画枠サイズ情報およびオブジェクト位置情報に基づいて特定することができる。

（オブジェクト位置情報の説明）
図４は、オブジェクト位置情報を説明する図である。

図４に示すように、オブジェクト位置情報は、オブジェクト４０の水平角度θ_A（−180°≦θ_A≦180°）,垂直角度γ_A（−90°≦γ_A≦90°）、および距離ｒ_A（0<ｒ_A）からなる。水平角度θ_Aは、例えば、画像の中心の撮影位置を原点（基点）Ｏとし、画像の水平方向をＸ方向、垂直方向をＹ方向、XY平面に垂直な奥行き方向をＺ方向としたときの、オブジェクト４０と原点Ｏを結ぶ直線とYZ平面との水平方向の角度である。垂直角度γ_Aは、オブジェクト４０と原点Ｏを結ぶ直線とXZ平面との垂直方向の角度であり、距離ｒ_Aは、オブジェクト４０と原点Ｏの距離である。

なお、本明細書では、左回転および上回転の角度を正の角度とし、右回転および下回転の角度を負の角度とする。

（画枠サイズ情報の説明）
図５は、画枠サイズ情報を説明する図である。

図５に示すように、画枠サイズ情報は、画枠の左端の水平角度θ_v1、右端の水平角度θ_v2、画枠の上端の垂直角度γ_v1、下端の垂直角度γ_v2、および距離ｒ_vにより構成される。

水平角度θ_v1は、例えば、画像の中心の撮影位置を原点Ｏとし、画像の水平方向をＸ方向、垂直方向をＹ方向、XY平面に垂直な奥行き方向をＺ方向としたときの、画枠の左端と原点Ｏを結ぶ直線とYZ平面との水平方向の角度である。水平角度θ_v2は、画枠の右端と原点Ｏを結ぶ直線とYZ平面との水平方向の角度である。従って、水平角度θ_v1と水平角度θ_v2とを合わせた角度は、水平方向の画角である。

垂直角度γ_V1，γ_v2は、それぞれ、画枠の上端、下端と原点Ｏを結ぶ直線とXZ平面との角度であり、垂直角度γ_V1と垂直角度γ_v2とを合わせた角度は、垂直方向の画角である。距離ｒ_vは、原点Ｏと画像の平面との距離である。

以上のように、オブジェクト位置情報と画枠サイズ情報は、それぞれ、オブジェクト４０、画枠と、原点Ｏとの位置関係を表している。従って、オブジェクト位置情報と画枠サイズ情報に基づいて、各オブジェクトの画像上の位置を検出（認識）することができる。その結果、表示領域３１内のオブジェクトを特定することができる。

(MPDファイルの構造の説明）
図６は、MPDファイルの構造を示す図である。

MPDファイルの解析（パース）においては、動画再生端末１４は、MPDファイル（図６のMedia Presentation）の「Period」に含まれる「Representation」の属性から最適なものを選択する。

動画再生端末１４は、選択した「Representation」の先頭の「Initialization Segment」のURL（Uniform Resource Locator）等を参照してファイルを取得し、処理する。続いて、動画再生端末１４は、後続の「Media Segment」のURL等を参照してファイルを取得し、再生する。

なお、MPDファイルにおける、「Period」、「Representation」、および「Segment」の関係は、図７のようになる。つまり、１つの動画コンテンツは、「Period」により、セグメントより長い時間単位で管理することができ、各「Period」において、「Segment」によりセグメント単位で管理することができる。また、各「Period」において、「Representation」により、動画コンテンツをストリームの属性単位で管理することができる。

したがって、MPDファイルは、「Period」以下において、図８に示す階層構造を有する。また、このMPDファイルの構造を時間軸上に並べると図９の例のようになる。図９から明らかなように、同一のセグメントに対して複数の「Representation」が存在している。動画再生端末１４は、これらのうちのいずれかを適応的に選択することにより、ユーザにより選択された表示領域の画像ファイルと音声ファイルを取得し、再生することができる。

（MPDファイルの記述の説明）
図１０は、MPDファイルの記述を説明する図である。

上述したように、情報処理システム１０では、動画再生端末１４において表示領域内のオブジェクトを特定可能にするため、MPDファイルに画枠サイズ情報が含まれる。この画枠サイズ情報は、図１０に示すように、ViewpointのDescriptorType elementを活用して新たに画枠サイズ情報（Viewing Angle）を定義するためのScheme(urn:mpeg:DASH:viewingAngle:2013)を拡張することにより、音声用の「Adaptation Set」と画像用の「Adaptation Set」に配置される。画枠サイズ情報は、画像用の「Adaptation Set」にのみ配置されるようにしてもよい。

また、MPDファイルの音声用の「Adaptation Set」には、音声メタファイル用の「Representation」が記述され、その「Representation」の「Segment」には、音声メタファイル（audionmetadata.mp4）を特定する情報としてのURL等が記述される。このとき、Role elementを活用して、「Segment」で指定されるファイルが音声メタファイルであること（objectaudiometadata）が記述される。

MPDファイルの音声用の「Adaptation Set」にはまた、各オブジェクトの音声ファイル用の「Representation」が記述され、その「Representation」の「Segment」には、各オブジェクトの音声ファイル（audioObje1.mp4, audioObje5.mp4）を特定する情報としてのURL等が記述される。このとき、Viewpointを拡張することにより、音声ファイルに対応するオブジェクトのオブジェクトＩＤ（1,5）も記述される。

なお、図示は省略するが、タイル位置情報は、画像用の「Adaptation Set」に配置される。

（ファイル生成装置の構成例）
図１１は、図１のファイル生成装置１１の構成例を示すブロック図である。

図１１のファイル生成装置１１は、画面分割処理部５１、画像符号化処理部５２、画像ファイル生成部５３、画像情報生成部５４、音声符号化処理部５５、音声ファイル生成部５６、MPD生成部５７、およびサーバアップロード処理部５８により構成される。

ファイル生成装置１１の画面分割処理部５１は、外部から入力される動画コンテンツの画像データをタイル単位に分割する。画面分割処理部５１は、タイル位置情報を画像情報生成部５４に供給する。また、画面分割処理部５１は、タイル単位の画像データを画像符号化処理部５２に供給する。

画像符号化処理部５２は、画面分割処理部５１から供給されるタイル単位の画像データをタイルごとに符号化し、ビデオストリームを生成する。画像符号化処理部５２は、各タイルのビデオストリームを画像ファイル生成部５３に供給する。

画像ファイル生成部５３は、画像符号化処理部５２から供給される各タイルのビデオストリームをセグメント単位でファイル化し、その結果得られる各タイルの画像ファイルをMPD生成部５７に供給する。

画像情報生成部５４は、画面分割処理部５１から供給されるタイル位置情報と外部から入力される画枠サイズ情報とを画像情報としてMPD生成部５７に供給する。

音声符号化処理部５５は、外部から入力される動画コンテンツのオブジェクト単位の音声データをオブジェクトごとに符号化し、オーディオストリームを生成する。また、音声符号化処理部５５は、外部から入力される各オブジェクトのオブジェクト位置情報、オブジェクトＩＤ等を含むオーディオメタデータを符号化し、符号化データを生成する。音声符号化処理部５５は、各オブジェクトのオーディオストリームとオーディオメタデータの符号化データとを音声ファイル生成部５６に供給する。

音声ファイル生成部５６は、音声ファイル生成部として機能し、音声符号化処理部５５から供給される各オブジェクトのオーディオストリームをセグメント単位でファイル化し、その結果得られる各オブジェクトの音声ファイルをMPD生成部５７に供給する。

また、音声ファイル生成部５６は、メタファイル生成部として機能し、音声符号化処理部５５から供給されるオーディオメタデータの符号化データをセグメント単位でファイル化し、その結果得られる音声メタファイルをMPD生成部５７に供給する。

MPD生成部５７は、画像ファイル生成部５３から供給される各タイルの画像ファイルを格納するWebサーバ１２のURL等を決定する。また、MPD生成部５７は、音声ファイル生成部５６から供給される各オブジェクトの音声ファイルと音声メタファイルを格納するWebサーバ１２のURL等を決定する。

MPD生成部５７は、画像情報生成部５４から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部５７は、画像情報のうちの画枠サイズ情報をMPDファイルの音声用の「AdaptationSet」に配置する。MPD生成部５７は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。

MPD生成部５７は、各オブジェクトの音声ファイルのURL等を、そのオブジェクトの音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部５７は、情報生成部として機能し、音声メタファイルを特定する情報としてのURL等を音声メタファイル用の「Representation」の「Segment」に配置する。MPD生成部５７は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイル、音声ファイル、および音声メタファイルをサーバアップロード処理部５８に供給する。

サーバアップロード処理部５８は、MPD生成部５７から供給される各タイルの画像ファイル、各オブジェクトの音声ファイル、音声メタファイル、およびMPDファイルを、Webサーバ１２にアップロードする。

（ファイル生成装置の処理の説明）
図１２は、図１１のファイル生成装置１１のファイル生成処理を説明するフローチャートである。

図１２のステップＳ１１において、ファイル生成装置１１の画面分割処理部５１は、外部から入力される動画コンテンツの画像データをタイル単位に分割する。画面分割処理部５１は、タイル位置情報を画像情報生成部５４に供給する。また、画面分割処理部５１は、タイル単位の画像データを画像符号化処理部５２に供給する。

ステップＳ１２において、画像符号化処理部５２は、画面分割処理部５１から供給されるタイル単位の画像データをタイルごとに符号化し、各タイルのビデオストリームを生成する。画像符号化処理部５２は、各タイルのビデオストリームを画像ファイル生成部５３に供給する。

ステップＳ１３において、画像ファイル生成部５３は、画像符号化処理部５２から供給される各タイルのビデオストリームをセグメント単位でファイル化し、各タイルの画像ファイルを生成する。画像ファイル生成部５３は、各タイルの画像ファイルをMPD生成部５７に供給する。

ステップＳ１４において、画像情報生成部５４は、外部から画枠サイズ情報を取得する。ステップＳ１５において、画像情報生成部５４は、画面分割処理部５１から供給されるタイル位置情報と画枠サイズ情報とを含む画像情報を生成し、MPD生成部５７に供給する。

ステップＳ１６において、音声符号化処理部５５は、外部から入力される動画コンテンツのオブジェクト単位の音声データをオブジェクトごとに符号化し、各オブジェクトのオーディオストリームを生成する。また、音声符号化処理部５５は、外部から入力される各オブジェクトのオブジェクト位置情報、オブジェクトＩＤ等を含むオーディオメタデータを符号化し、符号化データを生成する。音声符号化処理部５５は、各オブジェクトのオーディオストリームとオーディオメタデータの符号化データとを音声ファイル生成部５６に供給する。

ステップＳ１７において、音声ファイル生成部５６は、音声符号化処理部５５から供給される各オブジェクトのオーディオストリームをセグメント単位でファイル化し、各オブジェクトの音声ファイルを生成する。また、音声ファイル生成部５６は、音声符号化処理部５５から供給されるオーディオメタデータの符号化データをセグメント単位でファイル化し、音声メタファイルを生成する。音声ファイル生成部５６は、各オブジェクトの音声ファイルと音声メタファイルをMPD生成部５７に供給する。

ステップＳ１８において、MPD生成部５７は、画像情報生成部５４から供給される画像情報、各ファイルのURL等を含むMPDファイルを生成する。MPD生成部５７は、MPDファイル、各タイルの画像ファイル、各オブジェクトの音声ファイル、および音声メタファイルをサーバアップロード処理部５８に供給する。

ステップＳ１９において、サーバアップロード処理部５８は、MPD生成部５７から供給される各タイルの画像ファイル、各オブジェクトの音声ファイル、音声メタファイル、およびMPDファイルを、Webサーバ１２にアップロードする。そして、処理は終了する。

（動画再生端末の機能的構成例）
図１３は、図１の動画再生端末１４が制御用ソフトウエア２１、動画再生ソフトウエア２２、およびアクセス用ソフトウエア２３を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。

図１３のストリーミング再生部９０は、MPD取得部９１、MPD処理部９２、メタファイル取得部９３、音声選択部９４、音声ファイル取得部９５、音声復号処理部９６、音声合成処理部９７、画像選択部９８、画像ファイル取得部９９、画像復号処理部１００、および画像合成処理部１０１により構成される。

ストリーミング再生部９０のMPD取得部９１は、受け取り部として機能し、Webサーバ１２からMPDファイルを取得し、MPD処理部９２に供給する。

MPD処理部９２は、MPD取得部９１から供給されるMPDファイルから音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。また、MPD処理部９２は、MPDファイルから画像用の「AdaptationSet」に記述される画枠サイズ情報を抽出し、音声選択部９４に供給する。MPD処理部９２は、MPDファイルから、音声選択部９４から要求されるオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声選択部９４に供給する。

MPD処理部９２は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部９８に供給する。MPD処理部９２は、MPDファイルから、画像選択部９８から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。

メタファイル取得部９３は、MPD処理部９２から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ１２に要求し、取得する。メタファイル取得部９３は、音声メタファイルに含まれるオブジェクト位置情報を音声選択部９４に供給する。

音声選択部９４は、位置決定部として機能し、MPD処理部９２から供給される画枠サイズ情報とメタファイル取得部９３から供給されるオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部９４は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部９４は、選択されたオブジェクトの音声ファイルのURL等の情報をMPD処理部９２に要求する。音声選択部９４は、その要求に応じてMPD処理部９２から供給されるURL等の情報を音声ファイル取得部９５に供給する。

音声ファイル取得部９５は、受け取り部として機能し、音声選択部９４から供給されるURL等の情報に基づいて、そのURLで特定されるオブジェクト単位の音声ファイルをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部９６に供給する。

音声復号処理部９６は、音声ファイル取得部９５から供給されるオブジェクト単位の音声ファイルに含まれるオーディオストリームを復号し、オブジェクト単位の音声データを生成する。音声復号処理部９６は、そのオブジェクト単位の音声データを音声合成処理部９７に供給する。

音声合成処理部９７は、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成し、出力する。

画像選択部９８は、MPD処理部９２から供給されるタイル位置情報に基づいて、ユーザにより指定される表示領域内のタイルを選択する。画像選択部９８は、選択されたタイルの画像ファイルのURL等の情報をMPD処理部９２に要求する。画像選択部９８は、その要求に応じてMPD処理部９２から供給されるURL等の情報を画像ファイル取得部９９に供給する。

画像ファイル取得部９９は、画像選択部９８から供給されるURL等の情報に基づいて、そのURLで特定されるタイル単位の画像ファイルをWebサーバ１２に要求し、取得する。画像ファイル取得部９９は、取得されたタイル単位の画像ファイルを画像復号処理部１００に供給する。

画像復号処理部１００は、画像ファイル取得部９９から供給されるタイル単位の画像ファイルに含まれるビデオストリームを復号し、タイル単位の画像データを生成する。画像復号処理部１００は、そのタイル単位の画像データを画像合成処理部１０１に供給する。

画像合成処理部１０１は、画像復号処理部１００から供給されるタイル単位の画像データを合成し、出力する。

（動画再生端末の処理の説明）
図１４は、動画再生端末１４のストリーミング再生部９０（図１３）のストリーミング再生処理を説明するフローチャートである。

図１４のステップＳ３１において、ストリーミング再生部９０のMPD取得部９１は、Webサーバ１２からMPDファイルを取得し、MPD処理部９２に供給する。

ステップＳ３２において、MPD処理部９２は、MPD取得部９１から供給されるMPDファイルから、画像用の「AdaptationSet」に記述される画枠サイズ情報とタイル位置情報を取得する。MPD処理部９２は、画枠サイズ情報を音声選択部９４に供給し、タイル位置情報を画像選択部９８に供給する。また、MPD処理部９２は、音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。

ステップＳ３３において、メタファイル取得部９３は、MPD処理部９２から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ１２に要求し、取得する。メタファイル取得部９３は、音声メタファイルに含まれるオブジェクト位置情報を音声選択部９４に供給する。

ステップＳ３４において、音声選択部９４は、MPD処理部９２から供給される画枠サイズ情報とメタファイル取得部９３から供給されるオブジェクト位置情報とに基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部９４は、選択されたオブジェクトの音声ファイルのURL等の情報をMPD処理部９２に要求する。

MPD処理部９２は、MPDファイルから、音声選択部９４から要求されるオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声選択部９４に供給する。音声選択部９４は、MPD処理部９２から供給されるURL等の情報を音声ファイル取得部９５に供給する。

ステップＳ３５において、音声ファイル取得部９５は、音声選択部９４から供給されるURL等の情報に基づいて、そのURLで特定される、選択されたオブジェクトの音声ファイルをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部９６に供給する。

ステップＳ３６において、画像選択部９８は、MPD処理部９２から供給されるタイル位置情報に基づいて、ユーザにより指定される表示領域内のタイルを選択する。画像選択部９８は、選択されたタイルの画像ファイルのURL等の情報をMPD処理部９２に要求する。

MPD処理部９２は、MPDファイルから、画像選択部９８から要求されるオブジェクトの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。画像選択部９８は、MPD処理部９２から供給されるURL等の情報を画像ファイル取得部９９に供給する。

ステップＳ３７において、画像ファイル取得部９９は、画像選択部９８から供給されるURL等の情報に基づいて、そのURLで特定される、選択されたタイルの画像ファイルをWebサーバ１２に要求し、取得する。画像ファイル取得部９９は、取得されたタイル単位の画像ファイルを画像復号処理部１００に供給する。

ステップＳ３８において、音声復号処理部９６は、音声ファイル取得部９５から供給されるオブジェクト単位の音声ファイルに含まれるオーディオストリームを復号し、オブジェクト単位の音声データを生成する。音声復号処理部９６は、そのオブジェクト単位の音声データを音声合成処理部９７に供給する。

ステップＳ３９において、画像復号処理部１００は、画像ファイル取得部９９から供給されるタイル単位の画像ファイルに含まれるビデオストリームを復号し、タイル単位の画像データを生成する。画像復号処理部１００は、そのタイル単位の画像データを画像合成処理部１０１に供給する。

ステップＳ４０において、音声合成処理部９７は、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成し、出力する。ステップＳ４１において、画像合成処理部１０１は、画像復号処理部１００から供給されるタイル単位の画像データを合成し、出力する。そして、処理は終了する。

以上のように、Webサーバ１２は画枠サイズ情報とオブジェクト位置情報を伝送する。従って、動画再生端末１４は、例えば、表示領域内のオブジェクトを特定し、そのオブジェクトの音声ファイルを、表示領域内の画像に対応する音声ファイルとして選択的に取得することができる。このように、動画再生端末１４は必要な音声ファイルのみを取得することができるので、伝送効率は向上する。

なお、図１５に示すように、MPDファイルの画像用の「AdaptationSet」には、その画像と同時に再生したい音声に対応するオブジェクトを特定する情報としてのオブジェクトＩＤ（オブジェクト特定情報）が、記述されるようにしてもよい。この記述は、例えば、ViewpointのDescriptorType elementを活用して新たにオブジェクトＩＤ情報（audioObj）を定義するためのScheme(urn:mpeg:DASH:audioObj:2013)を拡張することにより、行われる。この場合、動画再生端末１４は、画像用の「AdaptationSet」に記述されたオブジェクトＩＤに対応するオブジェクトの音声ファイルを選択し、取得して再生する。

また、オブジェクト単位で音声ファイルが生成されるのではなく、全てのオブジェクトの符号化データが１本のオーディオストリームに多重化され、１つの音声ファイルが生成されるようにしてもよい。

この場合、図１６に示すように、MPDファイルの音声用の「AdaptationSet」には、音声ファイル用の「Representation」が１つ設けられ、「Segment」に、全てのオブジェクトの符号化データを含む音声ファイル（audioObje.mp4）のURL等が記述される。このとき、Viewpointを拡張することにより、音声ファイルに対応する全てのオブジェクトのオブジェクトＩＤ(1,2,3,4,5)も記述される。

また、この場合、図１７に示すように、MPDファイルの「Media Segment」を参照して取得される音声ファイル（以下、適宜、音声メディアファイルともいう）のmdat boxには、サブサンプルとして、各オブジェクトの符号化データ（Audio object）が配置される。

具体的には、音声メディアファイルには、セグメントより短い任意の時間であるサブセグメント単位でデータが配置される。このサブセグメント単位のデータの位置は、sidx boxにより指定される。また、サブセグメント単位のデータは、moof boxとmdat boxにより構成される。mdat boxは、複数のサンプルにより構成されるが、そのサンプルの各サブサンプルとして、各オブジェクトの符号化データが配置される。

また、音声メディアファイルのsidx boxの後には、サンプルの情報を記述するgsix boxが配置される。このように、サンプルの情報を記述するgsix boxが、moof boxとは別に設けられるので、動画再生端末１４は、サンプルの情報を素早く取得することができる。

gsix boxには、図１８に示すように、このgsix boxで管理する１以上のサンプルまたはサブサンプルからなるSample group entryの種別を表すgrouping_typeが記述される。例えば、Sample group entryが、オブジェクト単位の符号化データのサブサンプルである場合、図１７に示すように、Sample group entryの種別は「obja」である。音声メディアファイルには、複数のgrouping_typeのgsix boxが配置される。

また、図１８に示すように、gsix boxには、各Sample group entryのインデックス（entry_index）と、音声メディアファイル内の位置を表すデータ位置情報としてのバイトレンジ（range_size）とが記述される。なお、インデックス（entry_index）が０である場合、対応するバイトレンジは、moof boxのバイトレンジ（図１７の例ではa1）を表している。

MPDファイルの「Initialization Segment」を参照して取得される音声ファイル（以下、適宜、音声初期化ファイルともいう）には、各Sample group entryが、どのオブジェクトの符号化データのサブサンプルであるかを表す情報が記述される。

具体的には、図１９に示すように、音声初期化ファイルのsbtl boxのsample group description box(sgpd)のAudioObjectSampleGroupEntryと対応付けられる、mvex boxのtype assignment box（typa）を用いて、その情報が表される。

即ち、図２０のＡに示すように、AudioObjectSampleGroupEntryには、サンプルに含まれる符号化データに対応するオブジェクトＩＤ（audio_object_id）が１つずつ記述される。例えば、図２０のＢに示すように、４つのAudioObjectSampleGroupEntryのそれぞれに、オブジェクトＩＤとして、1,2,3,4が記述される。

一方、図２１に示すように、type assignment boxには、AudioObjectSampleGroupEntryごとに、そのAudioObjectSampleGroupEntryに対応するSample group entryのパラメータ（grouping_type_parameter）として、インデックスが記述される。

以上のように音声メディアファイルと音声初期化ファイルが構成される。従って、動画再生端末１４が、表示領域内のオブジェクトとして選択されたオブジェクトの符号化データを取得する際、音声初期化ファイルのstbl boxから、選択されたオブジェクトのオブジェクトＩＤが記述されたAudioObjectSampleGroupEntryが検索される。そして、mvex boxから、検索されたAudioObjectSampleGroupEntryに対応するSample group entryのインデックスが読み出される。そして、音声ファイルのsidxからサブセグメント単位のデータの位置が読み出され、gsixから、読み出されたインデックスのSample group entryのバイトレンジが読み出される。そして、サブセグメント単位のデータの位置とバイトレンジとに基づいて、mdat内に配置されている符号化データが取得される。これにより、選択されたオブジェクトの符号化データが取得される。

なお、上述した説明では、Sample group entryのインデックスとAudioObjectSampleGroupEntryのオブジェクトＩＤが、mvex boxを介して対応付けられたが、直接対応付けられるようにしてもよい。この場合、Sample group entryのインデックスが、AudioObjectSampleGroupEntryに記述される。

また、音声ファイルが複数のtrackから構成される場合、sgpdをmvexに格納すると、track間でsgpdを共用できる。

（情報処理システムの第２の例の概要）
図２２は、本開示を適用した情報処理システムの第２の例の概要を説明する図である。

なお、図２２において、図３と同一のものには、同一の符号を付してある。

図２２の例では、図３の場合と同様に、動画コンテンツの画像は、５（縦）×７（横）のタイルに分割されており、動画コンテンツの音声として、オブジェクト＃１乃至＃８の音声が取得されている。

この場合に、ユーザにより、２（縦）×３（横）個のタイルからなる表示領域３１が指定されると、第２の例では、図２２に示すように、その表示領域３１が、動画コンテンツの画像のサイズと同一のサイズに変換(拡大)され、表示画像１１１とされる。そして、表示画像１１１におけるオブジェクト＃１乃至＃８の位置に基づいて、オブジェクト＃１乃至＃８の音声が合成され、表示画像１１１とともに出力される。即ち、表示領域３１内のオブジェクト＃１、オブジェクト＃２、およびオブジェクト＃６だけでなく、表示領域３１外のオブジェクト＃３乃至＃５、オブジェクト＃７、およびオブジェクト＃８の音声も出力される。

（ストリーミング再生部の構成例）
本開示を適用した情報処理システムの第２の例の構成は、ストリーミング再生部の構成を除いて、図１の情報処理システム１０の構成と同一であるので、以下では、ストリーミング再生部についてのみ説明する。

図２３は、本開示を適用した情報処理システムのストリーミング再生部の構成例を示すブロック図である。

図２３に示す構成のうち、図１３の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図２３のストリーミング再生部１２０の構成は、MPD処理部９２、音声合成処理部９７、画像合成処理部１０１の代わりに、MPD処理部１２１、音声合成処理部１２３、画像合成処理部１２４が設けられる点、および、位置決定部１２２が新たに設けられる点が図１３のストリーミング再生部９０の構成と異なる。

ストリーミング再生部１２０のMPD処理部１２１は、MPD取得部９１から供給されるMPDファイルから音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。また、MPD処理部１２１は、MPDファイルから画像用の「AdaptationSet」に記述される動画コンテンツの画像の画枠サイズ情報（以下、コンテンツ画枠サイズ情報という）を抽出し、位置決定部１２２に供給する。MPD処理部１２１は、MPDファイルから全てのオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部９５に供給する。

MPD処理部１２１は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部９８に供給する。MPD処理部１２１は、MPDファイルから、画像選択部９８から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。

位置決定部１２２は、メタファイル取得部９３により取得された音声メタファイルに含まれるオブジェクト位置情報と、MPD処理部１２１から供給されるコンテンツ画枠サイズ情報を取得する。また、位置決定部１２２は、ユーザにより指定される表示領域の画枠サイズ情報である表示領域画枠サイズ情報を取得する。位置決定部１２２は、オブジェクト位置情報、コンテンツ画枠サイズ情報、および表示領域画枠サイズ情報に基づいて、表示画像におけるオブジェクトの位置を決定（認識）する。位置決定部１２２は、決定されたオブジェクトの位置を音声合成処理部１２３に供給する。

音声合成処理部１２３は、位置決定部１２２から供給されるオブジェクトの位置に基づいて、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成する。具体的には、音声合成処理部１２３は、オブジェクトの位置と音声を出力する各スピーカの位置とに基づいて、オブジェクトごとに、各スピーカに割り当てる音声データを決定する。そして、音声合成処理部１２３は、スピーカごとに、各オブジェクトの音声データを合成し、各スピーカの音声データとして出力する。オブジェクトの位置に基づいて各オブジェクトの音声データを合成する方法の詳細は、例えば、Ville Pulkki,“Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456−466, 1997に記載されている。

画像合成処理部１２４は、画像復号処理部１００から供給されるタイル単位の画像データを合成する。画像合成処理部１２４は、変換部として機能し、合成後の画像データに対応する画像のサイズを動画コンテンツのサイズに変換して、表示画像を生成する。画像合成処理部１２４は、表示画像を出力する。

（オブジェクトの位置の決定方法の説明）
図２４乃至図２６は、図２３の位置決定部１２２によるオブジェクトの位置の決定方法を説明する図である。

表示画像１１１は、動画コンテンツ内の表示領域３１を抽出し、その表示領域３１のサイズを動画コンテンツのサイズに変換することにより生成される。従って、表示画像１１１は、図２４に示すように、表示領域３１の中心Cを表示画像１１１の中心C´に移動させた後、図２５に示すように、表示領域３１のサイズを動画コンテンツのサイズに変換したものと等価である。

よって、まず、位置決定部１２２は、以下の式（１）により、表示領域３１の中心０を表示画像１１１の中心０´に移動させるときの水平方向の移動量θ_shiftを算出する。

式（１）において、θ_v1´は、表示領域３１の表示領域画枠サイズ情報のうちの左端の水平角度であり、θ_V2´は、右端の水平角度である。また、θ_v1は、コンテンツ画枠サイズ情報のうちの左端の水平角度であり、θ_v2は、右端の水平角度である。

次に、位置決定部１２２は、移動量θ_shiftを用いて、以下の式（２）により、表示領域３１の中心０を表示画像１１１の中心０´に移動させた後の表示領域３１の左端の水平角度θ_{v1_shift}´と右端の水平角度θ_{v2_shift}´を求める。

式（２）によれば、水平角度θ_{v1_shift}´と水平角度θ_{v2_shift}´は、−180°から180°までの範囲を超えないように求められる。

なお、上述したように、表示画像１１１は、表示領域３１の中心０を表示画像１１１の中心０´に移動させた後、表示領域３１のサイズを動画コンテンツのサイズに変換したものと等価である。従って、水平角度θ_V1およびθ_V2については、以下の式（３）が成立する。

位置決定部１２２は、以上のようにして移動量θ_shift、水平角度θ_{v1_shift}´、および水平角度θ_{v2_shift}´を求めた後、表示画像１１１におけるオブジェクトの水平角度を求める。具体的には、位置決定部１２２は、以下の式（４）により、移動量θ_shiftを用いて、表示領域３１の中心Cを表示画像１１１の中心C´に移動させた後のオブジェクト＃ｉの水平角度θ_{Ai_shift}を求める。

式（４）において、θ_Aiは、オブジェクト＃ｉのオブジェクト位置情報のうちの水平角度である。また、式（４）によれば、水平角度θ_{Ai_shift}は、−180°から180°までの範囲を超えないように求められる。

次に、オブジェクト＃ｉが表示領域３１内に存在する場合、即ちθ_{v2_shif}´＜θ_{Ai_shift}＜θ_{v1_shift}´である場合、位置決定部１２２は、以下の式（５）により、表示画像１１１におけるオブジェクト＃ｉの水平角度θ_A1´を求める。

式（５）によれば、表示領域３１のサイズと表示画像１１１のサイズの比に応じて、表示画像１１１におけるオブジェクト＃ｉの位置と表示画像１１１の中心C´との距離を拡大することにより、水平角度θ_A1´が求められる。

一方、オブジェクト＃ｉが表示領域３１内に存在しない場合、即ち、−180°≦θ_{Ai_shift}≦θ_{v2_shift}´、または、θ_{v1_shift}´≦θ_{Ai_shift}≦180°である場合、位置決定部１２２は、以下の式（６）により、表示画像１１１におけるオブジェクト＃ｉの水平角度θ_Ai´を求める。

式（６）によれば、図２６に示すように、オブジェクト＃ｉが表示領域３１の右側の位置１５１に存在する（−180°≦θ_{Ai_shift}≦θ_{v2_shift}´）場合、角度Ｒ１と角度Ｒ２の比に応じて水平角度θ_{Ai_shift}を拡大することにより、水平角度θ_Ai´が求められる。なお、角度Ｒ１は、表示画像１１１の右端から視聴者１５３の真後ろの位置１５４までの角度であり、角度Ｒ２は、中心の移動後の表示領域３１の右端から位置１５４までの角度である。

また、式（６）によれば、オブジェクト＃ｉが表示領域３１の左側の位置１５５に存在する（θ_{v1_shift}´≦θ_{Ai_shift}≦180°）場合、角度Ｒ３と角度Ｒ４の比に応じて水平角度θ_{Ai_shift}を拡大することにより、水平角度θ_Ai´が求められる。なお、角度Ｒ３は、表示画像１１１の左端から位置１５４までの角度であり、角度Ｒ４は、中心の移動後の表示領域３１の左端から位置１５４までの角度である。

また、位置決定部１２２は、水平角度θ_Ai´と同様に、垂直角度γ_Ai´を求める。即ち、以下の式（７）により、表示領域３１の中心Cを表示画像１１１の中心C´に移動させるときの垂直方向の移動量γ_shiftを算出する。

式（７）において、γ_v1´は、表示領域３１の表示領域画枠サイズ情報のうちの上端の垂直角度であり、γ_V2´は、下端の垂直角度である。また、γ_v1は、コンテンツ画枠サイズ情報のうちの上端の垂直角度であり、γ_v2は、下端の垂直角度である。

次に、位置決定部１２２は、移動量γ_shiftを用いて、以下の式（８）により、表示領域３１の中心Cを表示画像１１１の中心C´に移動させた後の表示領域３１の上端の垂直角度γ_{v1_shift}´と下端の垂直角度γ_{v2_shift}´を求める。

式（８）によれば、垂直角度γ_{v1_shift}´と垂直角度γ_{v2_shift}´は、−90°から90°までの範囲を超えないように求められる。

位置決定部１２２は、以上のようにして移動量γ_shift、垂直角度γ_{v1_shift}´、および垂直角度γ_{v2_shift}´を求めた後、表示画像１１１におけるオブジェクトの位置を求める。具体的には、位置決定部１２２は、以下の式（９）により、移動量γ_shiftを用いて、表示領域３１の中心Cを表示画像１１１の中心C´に移動させた後のオブジェクト＃ｉの垂直角度γ_{Ai_shift}を求める。

式（９）において、γ_Aiは、オブジェクト＃ｉのオブジェクト位置情報のうちの垂直角度である。また、式（９）によれば、垂直角度γ_{Ai_shift}は、−90°から90°までの範囲を超えないように求められる。

次に、位置決定部１２２は、以下の式（１０）により、表示画像１１１におけるオブジェクト＃ｉの垂直角度γ_A1´を求める。

また、位置決定部１２２は、表示画像１１１におけるオブジェクト＃ｉの距離ｒ_A1´を、オブジェクト＃ｉのオブジェクト位置情報のうちの距離ｒ_A1に決定する。位置決定部１２２は、以上のようにして求められるオブジェクト＃ｉの水平角度θ_Ai´、垂直角度γ_A1´、および距離ｒ_A1を、オブジェクト＃iの位置として、音声合成処理部１２３に供給する。

図２７は、水平角度θ_Aiと水平角度θ_Ai´の関係を表す図である。

図２７のグラフにおいて、横軸は、水平角度θ_Aiを表し、縦軸は、水平角度θ_Ai´を表す。

図２７に示すように、θ_V2´＜θ_Ai＜θ_V1´である場合、水平角度θ_Aiは、移動量θ_shiftだけ移動され、拡大されることにより、水平角度θ_Ai´になる。また、−180°≦θ_Ai≦θ_v2´、または、θ_v1´≦θ_Ai≦180°である場合、水平角度θ_Aiは、移動量θ_shiftだけ移動され、縮小されることにより、水平角度θ_Ai´になる。

（ストリーミング再生部の処理の説明）
図２８は、図２３のストリーミング再生部１２０のストリーミング再生処理を説明するフローチャートである。

図２８のステップＳ１３１において、ストリーミング再生部１２０のMPD取得部９１は、Webサーバ１２からMPDファイルを取得し、MPD処理部１２１に供給する。

ステップＳ１３２において、MPD処理部１２１は、MPD取得部９１から供給されるMPDファイルから、画像用の「AdaptationSet」に記述されるコンテンツ画枠サイズ情報とタイル位置情報を取得する。MPD処理部１２１は、画枠サイズ情報を位置決定部１２２に供給し、タイル位置情報を画像選択部９８に供給する。また、MPD処理部１２１は、音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。

ステップＳ１３３において、メタファイル取得部９３は、MPD処理部１２１から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ１２に要求し、取得する。メタファイル取得部９３は、音声メタファイルに含まれるオブジェクト位置情報を位置決定部１２２に供給する。

ステップＳ１３４において、位置決定部１２２は、オブジェクト位置情報、コンテンツ画枠サイズ情報、および表示領域画枠サイズ情報に基づいて、表示画像におけるオブジェクトの位置を決定する位置決定処理を行う。この位置決定処理の詳細は、後述する図２９を参照して説明する。

ステップＳ１３５において、MPD処理部１２１は、MPDファイルから全てのオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部９５に供給する。

ステップＳ１３６において、音声ファイル取得部９５は、MPD処理部１２１から供給されるURL等の情報に基づいて、そのURLで特定される全てのオブジェクトの音声ファイルをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部９６に供給する。

ステップＳ１３７乃至Ｓ１４０の処理は、図１４のステップＳ３６乃至Ｓ３９の処理と同様であるので、説明は省略する。

ステップＳ１４１において、音声合成処理部１２３は、位置決定部１２２から供給されるオブジェクトの位置に基づいて、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成し、出力する。

ステップＳ１４２において、画像合成処理部１２４は、画像復号処理部１００から供給されるタイル単位の画像データを合成する。

ステップＳ１４３において、画像合成処理部１２４は、合成後の画像データに対応する画像のサイズを動画コンテンツのサイズに変換し、表示画像を生成する。そして、画像合成処理部１２４は、表示画像を出力し、処理を終了する。

図２９は、図２８のステップＳ１３４の位置決定処理の詳細を説明するフローチャートである。この位置決定処理は、例えば、オブジェクトごとに行われる。

図２９のステップＳ１５１において、位置決定部１２２は、表示画像における水平角度θ_Ai´を推定する水平角度θ_Ai´推定処理を行う。この水平角度θ_Ai´推定処理の詳細は、後述する図３０を参照して説明する。

ステップＳ１５２において、位置決定部１２２は、表示画像における垂直角度γ_Ai´を推定する垂直角度γ_Ai´推定処理を行う。この垂直角度γ_Ai´推定処理の詳細は、水平方向が垂直方向に代わる点を除いて、ステップＳ１５１の水平角度θ_Ai´推定処理と同様であるので、詳細な説明は省略する。

ステップＳ１５３において、位置決定部１２２は、表示画像における距離ｒ_Ai´を、メタファイル取得部９３から供給されるオブジェクト位置情報のうちの距離ｒ_Aiに決定する。

ステップＳ１５４において、位置決定部１２２は、水平角度θ_Ai´、垂直角度γ_Ai´、および距離ｒ_Aiを、オブジェクト＃ｉの位置として音声合成処理部１２３に出力する。そして、処理は、図２８のステップＳ１３４に戻り、ステップＳ１３５に進む。

図３０は、図２９のステップＳ１５１の水平角度θ_Ai´推定処理の詳細を説明するフローチャートである。

図３０のステップＳ１７１において、位置決定部１２２は、メタファイル取得部９３から供給されるオブジェクト位置情報のうちの水平角度θ_Aiを取得する。

ステップＳ１７２において、位置決定部１２２は、MPD処理部１２１から供給されるコンテンツ画枠サイズ情報と、ユーザにより指定される表示領域画枠サイズ情報を取得する。

ステップS１７３において、位置決定部１２２は、コンテンツ画枠サイズ情報と表示領域画枠サイズ情報に基づいて、上述した式（１）により、移動量θ_shiftを算出する。

ステップS１７４において、位置決定部１２２は、移動量θ_shiftと表示領域画枠サイズを用いて、上述した式（２）により、水平角度θ_{v1_shift}´およびθ_{v2_shift}´を算出する。

ステップＳ１７５において、位置決定部１２２は、水平角度θ_Aiと移動量θ_shiftを用いて、上述した式（４）により、水平角度θ_{Ai_shift}を求める。

ステップＳ１７６において、位置決定部１２２は、オブジェクト＃ｉが表示領域３１内に存在する（オブジェクト＃ｉの水平角度が表示領域３１の両端の水平角度の間である）かどうか、即ちθ_{v2_shift}´＜θ_{Ai_shift}＜θ_{v1_shift}´であるかどうかを判定する。

ステップＳ１７６でオブジェクト＃ｉが表示領域３１内に存在すると判定された場合、即ちθ_{v2_shift}´＜θ_{Ai_shift}＜θ_{v1_shift}´である場合、処理はステップＳ１７７に進む。ステップＳ１７７において、位置決定部１２２は、コンテンツ画枠サイズ情報、水平角度θ_{v1_shift}´およびθ_{v2_shift}´、並びに水平角度θ_{Ai_shift}に基づいて、上述した式（５）により水平角度θ_A1´を算出する。

一方、ステップＳ１７６でオブジェクト＃ｉが表示領域３１内に存在しないと判定された場合、即ち、−180°≦θ_{Ai_shift}≦θ_{v2_shift}´、または、θ_{v1_shift}´≦θ_{Ai_shift}≦180°である場合、処理はステップＳ１７８に進む。ステップＳ１７８において、位置決定部１２２は、コンテンツ画枠サイズ情報、水平角度θ_{v1_shift}´またはθ_{v2_shift}´、および水平角度θ_{Ai_shift}に基づいて、上述した式（６）により水平角度θ_Ai´を算出する。

ステップＳ１７７またはステップＳ１７８の処理後、処理は、図２９のステップＳ１５１に戻り、処理はステップＳ１５２に進む。

なお、第２の例では、表示画像のサイズが動画コンテンツのサイズと同一であるようにしたが、異なっていてもよい。

また、第２の例において、全てのオブジェクトの音声データが合成されて出力されるのではなく、一部のオブジェクト(例えば、表示領域内のオブジェクト、表示領域から所定の範囲内のオブジェクト等)の音声データのみが合成されて出力されるようにしてもよい。出力する音声データのオブジェクトの選択方法は、予め決定されていてもよいし、ユーザにより指定されるようにしてもよい。

さらに、上述した説明では、音声データは、オブジェクト単位の音声データのみであったが、音声データには、チャネルオーディオの音声データ、HOA（Higher−Order Ambisonics）オーディオの音声データ、SAOC(Spatial Audio Object Coding)の音声データ、音声データのメタデータ(scene情報、動的・静的metadata)などが含まれるようにしてもよい。この場合、例えば、サブサンプルとして、各オブジェクトの符号化データだけでなく、これらのデータの符号化データも配置される。

＜第１実施の形態＞
（３Ｄオーディオファイルフォーマットの概要）
本開示を適用した第１実施の形態を説明する前に、まず、図３１を参照して、ＭＰ４の３Ｄオーディオファイルフォーマットのトラックの概要を説明する。

ＭＰ４ファイルでは、トラックごとに、動画コンテンツのコーデック情報やファイル内の位置を示す位置情報を管理することができる。ＭＰ４の３Ｄオーディオファイルフォーマットでは、３Ｄオーディオ（Channel audio/Object audio/HOA audio/metadata）のオーディオストリーム（ES（Elementary Stream））の全てが、サンプル（フレーム）単位で１つのトラックとして記録される。また、３Ｄオーディオのコーデック情報（Profile/level/audio configuration）が、サンプルエントリ（sample entry）として格納される。

３Ｄオーディオを構成するChannel audioは、チャネル単位の音声データであり、Object audioは、オブジェクト単位の音声データであり、HOA audioは、球状の音声データであり、metadataは、Channel audio/Object audio/HOA audioのメタデータである。ここでは、Object audioは、オブジェクト単位の音声データであるものとするが、SAOCの音声データであってもよい。

（moovボックスの構造）
図３２は、ＭＰ４ファイルのmoovボックスの構造を示す図である。

図３２に示すように、ＭＰ４ファイルでは、画像データと音声データが異なるトラックとして記録される。図３２では、音声データのトラックの詳細は記述していないが、画像データのトラックと同様である。sample entryは、moovボックス内のstsdボックスに配置されるsample descriptionに含まれる。

ところで、放送やローカルストレージ再生では、Webサーバ側が、すべてのオーディオストリームを送出し、動画再生端末（クライアント）側は、すべてのオーディオストリーム（stream）をパースしながら、必要な３Ｄオーディオのオーディオストリームを復号（decode）し、出力（rendering）する。ビットレート（Bitrate）が高い場合や、ローカルストレージの読み込みのrateに制約がある場合、必要な３Ｄオーディオのオーディオストリームのみを取得することにより、decode処理の負荷を軽減することが望まれている。

また、ストリーム再生では、動画再生端末（クライアント）側で、必要な３Ｄオーディオの符号化データだけを取得することにより、再生環境に最適な符号化速度のオーディオストリームを取得可能にすることが望まれている。

従って、本開示では、３Ｄオーディオの符号化データを種類に応じてトラックに分割して音声ファイルに配置することにより、所定の種類の符号化データのみを効率良く取得可能にする。これにより、放送やローカルストレージ再生では、システムの負荷を軽減することができる。また、ストリーム再生では、帯域に応じて、必要な３Ｄオーディオの符号化データの最も品質の高いものを再生することができる。さらに、音声ファイル内の３Ｄオーディオのオーディオストリームの位置情報をサブセグメントのトラック単位で記録すれば済むので、オブジェクト単位の符号化データがサブサンプルに配置される場合に比べて、位置情報の情報量を削減することができる。

（トラックの概要）
図３３は、本開示を適用した第１実施の形態におけるトラックの概要を説明する図である。

図３３に示すように、第１実施の形態では、３Ｄオーディオを構成するChannel audio/Object audio/HOA audio/metadataが、それぞれ、異なるトラック(Channel audio track/Object audio track(s)/HOA audio track/Object metadata track)のオーディオストリームとされる。object metadata trackには、オーディオメタデータのオーディオストリームが配置される。

また、３Ｄオーディオ全体に関する情報を配置するためのトラックとして、ベーストラック（Base Track）が設けられる。図３３のベーストラックには、３Ｄオーディオ全体に関する情報がサンプルエントリに配置されるが、サンプルとしては何も配置されない。また、Base track,Channel audio track,Object audio track(s),HOA audio track、およびObject metadata trackは、同一の音声ファイル（3dauio.mp4）として記録される。

Track Referenceは、例えばtrackボックスに配置され、対応するトラックの他のトラックとの参照関係を表す。具体的には、Track Referenceは、参照関係にある他のトラックのトラックに固有のＩＤ（以下、トラックＩＤという）を表す。図３３の例では、Base track,Channel audio track,HOA audio track，Object metadata track、Object audio track(s)のトラックＩＤが、1,2,3,4,10...となっている。また、Base trackのTrack Referenceは2,3,4,10...であり、Channel audio track/HOA audio track/Object metadata track/Object audio track(s)のTrack Referenceは、Base trackのトラックＩＤである１である。

従って、Base trackと、Channel audio track/HOA audio track/Object metadata track/Object audio track(s)とは、参照関係にある。即ち、Base trackは、Channel audio track/HOA audio track/Object metadata track/Object audio track(s)の再生時に参照される。

（ベーストラックのサンプルエントリのシンタクスの例）
図３４は、図３３のベーストラックのサンプルエントリのシンタクスの例を示す図である。

図３４のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、３Ｄオーディオ全体に関する情報として、それぞれ、３Ｄオーディオのオーディオストリーム全体（通常の３Ｄオーディオのオーディオストリーム）のconfig情報、profile情報、level情報を表す。また、図３４のwidthとheightは、３Ｄオーディオ全体に関する情報として、それぞれ、動画コンテンツの水平方向の画素数、垂直方向の画素数を表す。theta1,theta2,gamma1、およびgamma2は、３Ｄオーディオ全体に関する情報として、それぞれ、動画コンテンツの画枠サイズ情報のうちの画枠の左端の水平角度θ_v1、右端の水平角度θ_v2、画枠の上端の垂直角度γ_v1、下端の垂直角度γ_v2を表す。

（チャネルオーディオトラックのサンプルエントリのシンタクスの例）
図３５は、図３３のチャネルオーディオトラック（Channel audio track）のサンプルエントリのシンタクスの例を示す図である。

図３５のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、それぞれ、Channel Audioのconfig情報、profile情報、level情報を表す。

（オブジェクトオーディオトラックのサンプルエントリのシンタクスの例）
図３６は、図３３のオブジェクトオーディオトラック（Object audio track）のサンプルエントリのシンタクスの例を示す図である。

図３６のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、それぞれ、オブジェクトオーディオトラックに含まれる１以上のObject audioのconfig情報、profile情報、level情報を表す。object_is_fixedは、オブジェクトオーディオトラックに含まれる１以上のObject audioのオブジェクトが固定されているかどうかを表す。object_is_fixedが１である場合、オブジェクトが固定されていることを表し、０である場合、オブジェクトが移動することを表す。mpegh3daConfigは、オブジェクトオーディオトラックに含まれる１以上のObject audioのオブジェクトの識別情報のconfigを表す。

また、objectTheta1/objectTheta2/objectGamma1/objectGamma2/objectRengthは、オブジェクトオーディオトラックに含まれる１以上のObject audioのオブジェクト情報を表す。このオブジェクト情報は、Object_is_fixed=1の時に有効な情報である。

maxobjectTheta1,maxobjectTheta2,maxobjectGamma1,maxobjectGamma2/、およびmaxobjectRengthは、オブジェクトオーディオトラックに含まれる１以上のObject audioのオブジェクトが移動する場合のオブジェクト情報の最大値を表す。

（HOAオーディオトラックのサンプルエントリのシンタクスの例）
図３７は、図３３のHOAオーディオトラック（HOA audio track）のサンプルエントリのシンタクスの例を示す図である。

図３７のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、HOA audioのconfig情報、profile情報、level情報を表す。

（オブジェクトメタデータトラックのサンプルエントリのシンタクスの例）
図３８は、図３３のオブジェクトメタデータトラック（Object metadata track）のサンプルエントリのシンタクスの例を示す図である。

図３８のconfigurationVersionは、metadataのconfig情報を表す。

（３Ｄオーディオの音声ファイルのセグメント構造の第１の例）
図３９は、本開示を適用した第１実施の形態における３Ｄオーディオの音声ファイルのセグメント構造の第１の例を示す図である。

図３９のセグメント構造では、Initial segmentが、ftypボックスとmoovボックスにより構成される。moovボックスには、音声ファイルに含まれるトラックごとにtrak boxが配置される。また、moovボックスには、各トラックのトラックＩＤと、media segment内のssixボックスで用いられるlevelとの対応関係を表す情報などを含むmvexボックスが配置される。

また、media segmentは、sidxボックス、ssixボックス、および、１以上のsubsegmentにより構成される。sidxボックスには、各subsegmentの音声ファイル内の位置を示す位置情報が配置される。ssixボックスには、mdatボックスに配置される各レベルのオーディオストリームの位置情報が含まれる。なお、レベルは、トラックに対応するものである。また、最初のトラックの位置情報は、moofボックスと最初のトラックのオーディオストリームからなるデータの位置情報である。

subsegmentは、任意の時間長ごとに設けられ、subsegmentには、全てのトラックに共通の１組のmoofボックスとmdatボックスのペアが設けられる。mdatボックスには、全てのtrackのオーディオストリームが、任意の時間長分だけまとめて配置され、moofボックスには、そのオーディオストリームの管理情報が配置される。mdatボックスに配置される各trackのオーディオストリームは、track毎に連続している。

図３９の例では、トラックＩＤが1であるTrack1はbase Trackであり、トラックＩＤが2乃至NであるTrack2乃至trackNは、それぞれ、Channel Audio Track,Object audio track(s), HOA audio track, object metadata trackである。このことは、後述する図４０においても同様である。

（３Ｄオーディオの音声ファイルのセグメント構造の第２の例）
図４０は、本開示を適用した第１実施の形態における３Ｄオーディオの音声ファイルのセグメント構造の第２の例を示す図である。

図４０のセグメント構造は、トラックごとにmoofボックスとmdatボックスが設けられる点が、図３９のセグメント構造と異なっている。

即ち、図４０のInitial segmentは、図３９のInitial segmentと同様である。また、図４０のmedia segmentは、図３９のmedia segmentと同様に、sidxボックス、ssixボックス、および、１以上のsubsegmentにより構成される。sidxボックスには、図３９のsidxボックスと同様に、各subsegmentの位置情報が配置される。ssixボックスには、moofボックスとmdatボックスからなる各レベルのデータの位置情報が含まれる。

subsegmentは、任意の時間長ごとに設けられ、subsegmentには、トラックごとにmoofボックスとmdatボックスのペアが設けられる。即ち、各トラックのmdatボックスには、そのトラックのオーディオストリームが、任意の時間長分だけまとめて配置（インターリーブ格納）され、moofボックスには、そのオーディオストリームの管理情報が配置される。

図３９および図４０に示すように、各トラックのオーディオストリームは、任意の時間長分まとめて配置されるため、サンプル単位でまとめて配置される場合に比べて、HTTP等を介したオーディオストリームの取得効率が改善する。

（mvexボックスの記述例）
図４１は、図３９および図４０のmvexボックスに配置されるlevel assignmentボックスの記述例を示す図である。

level assignmentボックスは、各トラックのトラックＩＤとssixボックスで用いられるレベル（level）を対応付けるボックスである。図４１の例では、トラックＩＤが１であるベーストラックがレベル０に対応付けられ、トラックＩＤが２であるチャネルオーディオトラックがレベル１に対応付けられている。また、トラックＩＤが３であるHOAオーディオトラックがレベル２に対応付けられ、トラックＩＤが４であるオブジェクトメタデータトラックがレベル３に対応付けられている。さらに、トラックＩＤが１０であるオブジェクトオーディオトラックがレベル４に対応付けられている。

（MPDファイルの記述例）
図４２は、本開示を適用した第１実施の形態におけるMPDファイルの記述例を示す図である。

図４２に示すように、MPDファイルには、３Ｄオーディオの音声ファイル(3daudio.mp4)のセグメントを管理する「Representation」、そのセグメントに含まれるトラックを管理する「SubRepresentation」等が記述される。

「Representation」と「SubRepresentation」には、対応するセグメントまたはトラックのcodecの種類を、3D audio file formatで定義されるコードで表す「codecs」が含まれる。また、「Representation」には、「id」、「associationId」、および「assciationType」が含まれる。

「id」は、それを含む「Representation」のＩＤである。「associationId」は、対応するトラックと他のトラックとの参照関係を表す情報であり、参照トラックの「id」である。「assciationType」は、参照トラックとの参照関係（依存関係）の意味を表すコードであり、例えばMP4のtrack referenceの値と同じものが用いられる。

また、「SubRepresentation」には、対応するトラックと対応するレベルを表す値としてlevel assignmentボックスで設定されている値である「level」が含まれる。「SubRepresentation」には、参照関係を有する（依存する）他のトラック（以下、参照トラックという）に対応するレベルを表す値である「dependencyLevel」が含まれる。

さらに、「SubRepresentation」には、３Ｄオーディオの選択に必要な情報として、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>が含まれる。

また、Object audio trackの「SubRepresentation」には、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:viewingAngle:2014” value=“θ,γ,r”>が含まれる。このθ,γ,rは、「SubRepresentation」に対応するオブジェクトが固定されている場合、それぞれ、オブジェクト位置情報のうちの水平角度、垂直角度、距離である。一方、オブジェクトが移動する場合、このθ,γ,rは、それぞれ、オブジェクト位置情報の最大値のうちの水平角度の最大値、垂直角度の最大値、距離の最大値である。

図４３は、図４２のEssential Propertyの定義を示す図である。

図４３の左上側は、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>のAudioTypeの定義を示している。AudioTypeは、対応するトラックの３Ｄオーディオの種類を表す。

図４３の例では、AudioTypeが１である場合、対応するトラックの音声データが、３ＤオーディオのうちのChannel audioであることを表し、AudioTypeが２である場合、対応するトラックの音声データが、HOA audioであることを表す。また、AudioTypeが３である場合、対応するトラックの音声データが、Object audioであることを表し、AudioTypeが４である場合、対応するトラックの音声データが、metadataであることを表す。

また、図４３の右側は、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>のcontentkindの定義を示している。contentkindは、対応する音声の内容を表す。図４３の例では、例えば、contentkindが３である場合、対応する音声が音楽(music)である。

図４３の左下に示すように、Priorityは23008−3で定義されているものであり、対応するObjectの処理優先度を表す。Priorityとしては、オーディオストリームの途中で変更されない場合にのみObjectの処理優先度を表す値が記述され、変更される場合には0が記述される。

（情報処理システムの概要）
図４４は、本開示を適用した第１実施の形態における情報処理システムの概要を説明する図である。

図４４に示す構成のうち、図１の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図４４の情報処理システム１４０は、ファイル生成装置１４１と接続されるWebサーバ１４２と動画再生端末１４４が、インターネット１３を介して接続されることにより構成される。

情報処理システム１４０では、MPEG−DASHに準ずる方式で、Webサーバ１４２が、動画コンテンツのビデオストリームをタイル単位で動画再生端末１４４に配信（タイルドストリーミング）する。また、情報処理システム１４０では、Webサーバ１４２が、再生対象のタイルに対応するObject audio,Channel audio、またはHOA audioのオーディオストリームを動画再生端末１４４に配信する。

情報処理システム１４０のファイル生成装置１４１は、音声ファイル生成部５６が第１実施の形態における音声ファイルを生成し、ＭＰＤ生成部５７が第１実施の形態におけるＭＰＤファイルを生成する点等を除いて、図１１のファイル生成装置１１と同様である。

具体的には、ファイル生成装置１４１は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置１４１は、各タイルのビデオストリームを、セグメントごとにファイル化する。ファイル生成装置１４１は、その結果得られる各タイルの画像ファイルをWebサーバ１４２にアップロードする。

また、ファイル生成装置１４１は、動画コンテンツの３Ｄオーディオを取得し、３Ｄオーディオの種類（Channel audio/Object audio/HOA audio/metadata）ごとに符号化してオーディオストリームを生成する。ファイル生成装置１４１は、オーディオストリームに対して、３Ｄオーディオの種類ごとにトラックを割り当てる。ファイル生成装置１４１は、各トラックのオーディオストリームがサブセグメント単位で配置される図３９または図４０のセグメント構造の音声ファイルを生成し、Webサーバ１４２にアップロードする。

ファイル生成装置１４１は、画枠サイズ情報、タイル位置情報、オブジェクト位置情報等を含むMPDファイルを生成する。ファイル生成装置１４１は、MPDファイルをWebサーバ１４２にアップロードする。

Webサーバ１４２は、ファイル生成装置１４１からアップロードされた画像ファイル、音声ファイル、およびMPDファイルを格納する。

図４４の例では、Webサーバ１４２には、タイル＃１の複数のセグメントの画像ファイルからなるセグメント群と、タイル＃２の複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ１４２には、３Ｄオーディオの音声ファイルからなるセグメント群が格納されている。

Webサーバ１４２は、動画再生端末１４４からの要求に応じて、格納している画像ファイル、音声ファイル、MPDファイル等を動画再生端末１４４に送信する。

動画再生端末１４４は、制御用ソフトウエア１６１、動画再生ソフトウエア１６２、アクセス用ソフトウエア１６３などを実行する。

制御用ソフトウエア１６１は、Webサーバ１４２からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア１６１は、動画再生端末１４４にWebサーバ１４２からMPDファイルを取得させる。

また、制御用ソフトウエア１６１は、動画再生ソフトウエア１６２から指示される表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア１６１は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア１６３に指令する。

制御用ソフトウエア１６１は、Object audioを再生対象とする場合、音声ファイル内の画枠サイズ情報の送信要求をアクセス用ソフトウエア１６３に指令する。また、制御用ソフトウエア１６１は、metadataのオーディオストリームの送信要求をアクセス用ソフトウエア１６３に指令する。制御用ソフトウエア１６１は、その指令に応じてWebサーバ１４２から送信されてくる画枠サイズ情報およびmetadataのオーディオストリームに含まれるオブジェクト位置情報、並びに、表示領域に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア１６１は、そのオブジェクトのオーディオストリームの送信要求をアクセス用ソフトウエア１６３に指令する。

また、制御用ソフトウエア１６１は、Channel audioまたはHOA audioを再生対象とする場合、Channel audioまたはHOA audioのオーディオストリームの送信要求をアクセス用ソフトウエア１６３に指令する。

動画再生ソフトウエア１６２は、Webサーバ１４２から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア１６２は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア１６１に指示する。また、動画再生ソフトウエア１６２は、その指示に応じてWebサーバ１４２から取得された画像ファイルと音声ファイルを復号する。動画再生ソフトウエア１６２は、復号の結果得られるタイル単位の画像データを合成して出力する。また、動画再生ソフトウエア１６２は、復号の結果得られるObject audio、Channel audio、またはHOA audioを必要に応じて合成し、出力する。

アクセス用ソフトウエア１６３は、HTTPを用いたインターネット１３を介したWebサーバ１４２との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア１６３は、制御用ソフトウエア１６１の指令に応じて、画像ファイル、音声ファイル内の画枠サイズ情報や所定のオーディオストリームの送信要求を、動画再生端末１４４に送信させる。また、アクセス用ソフトウエア１６３は、その送信要求に応じて、Webサーバ１４２から送信されてくる画像ファイル、音声ファイル内の画枠サイズ情報や所定のオーディオストリームを動画再生端末１４４に受信させる。

（ファイル生成装置の構成例）
図４５は、図４４のファイル生成装置１４１の構成例を示すブロック図である。

図４５に示す構成のうち、図１１の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図４５のファイル生成装置１４１の構成は、音声符号化処理部５５、音声ファイル生成部５６、MPD生成部５７、サーバアップロード処理部５８の代わりに、音声符号化処理部１７１、音声ファイル生成部１７２、MPD生成部１７３、サーバアップロード処理部１７４が設けられる点が、図１１のファイル生成装置１１の構成と異なる。

具体的には、ファイル生成装置１４１の音声符号化処理部１７１は、外部から入力される動画コンテンツの３Ｄオーディオを種類（Channel audio/Object audio/HOA audio/metadata）ごとに符号化し、オーディオストリームを生成する。音声符号化処理部１７１は、３Ｄオーディオの種類ごとのオーディオストリームを音声ファイル生成部１７２に供給する。

音声ファイル生成部１７２は、音声符号化処理部１７１から供給されるオーディオストリームに対して、３Ｄオーディオの種類ごとにトラックを割り当てる。音声ファイル生成部１７２は、各トラックのオーディオストリームがサブセグメント単位で配置される図３９または図４０のセグメント構造の音声ファイルを生成する。このとき、音声ファイル生成部１７２は、外部から入力される画枠サイズ情報をサンプルエントリに格納する。音声ファイル生成部１７２は、生成された音声ファイルをMPD生成部１７３に供給する。

MPD生成部１７３は、画像ファイル生成部５３から供給される各タイルの画像ファイルを格納するWebサーバ１４２のURL等を決定する。また、MPD生成部１７３は、音声ファイル生成部１７２から供給される音声ファイルを格納するWebサーバ１４２のURL等を決定する。

MPD生成部１７３は、画像情報生成部５４から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部１７３は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。

MPD生成部１７３は、音声ファイルのURL等を、その音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部１７３は、外部から入力される各オブジェクトのオブジェクト位置情報等を、そのオブジェクトのObject metadata track用の「Sub Representation」に配置する。MPD生成部１７３は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイルおよび音声ファイルをサーバアップロード処理部１７４に供給する。

サーバアップロード処理部１７４は、MPD生成部１７３から供給される各タイルの画像ファイル、音声ファイル、およびMPDファイルを、Webサーバ１４２にアップロードする。

（ファイル生成装置の処理の説明）
図４６は、図４５のファイル生成装置１４１のファイル生成処理を説明するフローチャートである。

図４６のステップＳ１９１乃至Ｓ１９５の処理は、図１２のステップＳ１１乃至Ｓ１５の処理と同様であるので、説明は省略する。

ステップＳ１９６において、音声符号化処理部１７１は、外部から入力される動画コンテンツの３Ｄオーディオを種類（Channel audio/Object audio/HOA audio/metadata）ごとに符号化し、オーディオストリームを生成する。音声符号化処理部１７１は、３Ｄオーディオの種類ごとのオーディオストリームを音声ファイル生成部１７２に供給する。

ステップＳ１９７において、音声ファイル生成部１７２は、音声符号化処理部１７１から供給されるオーディオストリームに対して、３Ｄオーディオの種類ごとにトラックを割り当てる。

ステップＳ１９８において、音声ファイル生成部１７２は、各トラックのオーディオストリームがサブセグメント単位で配置される図３９または図４０のセグメント構造の音声ファイルを生成する。このとき、音声ファイル生成部１７２は、外部から入力される画枠サイズ情報をサンプルエントリに格納する。音声ファイル生成部１７２は、生成された音声ファイルをMPD生成部１７３に供給する。

ステップＳ１９９において、MPD生成部１７３は、画像情報生成部５４から供給される画像情報、各ファイルのURL、オブジェクト位置情報等を含むMPDファイルを生成する。MPD生成部１７３は、画像ファイル、音声ファイル、およびMPDファイルをサーバアップロード処理部１７４に供給する。

ステップＳ２００において、サーバアップロード処理部１７４は、MPD生成部１７３から供給される画像ファイル、音声ファイル、およびMPDファイルを、Webサーバ１４２にアップロードする。そして、処理は終了する。

（動画再生端末の機能的構成例）
図４７は、図４４の動画再生端末１４４が制御用ソフトウエア１６１、動画再生ソフトウエア１６２、およびアクセス用ソフトウエア１６３を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。

図４７に示す構成のうち、図１３の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図４７のストリーミング再生部１９０の構成は、MPD処理部９２、音声選択部９４、音声ファイル取得部９５、音声復号処理部９６、音声合成処理部９７の代わりに、MPD処理部１９１、音声選択部１９３、音声ファイル取得部１９２、音声復号処理部１９４、音声合成処理部１９５が設けられる点、および、メタファイル取得部９３が設けられない点が、図１３のストリーミング再生部９０の構成と異なる。

ストリーミング再生部１９０は、選択されたオブジェクトの再生対象の音声データを取得する方法等が異なる点等を除いて、図１３のストリーミング再生部９０と同様である。

具体的には、ストリーミング再生部１９０のMPD処理部１９１は、MPD取得部９１から供給されるMPDファイルから音声ファイル用の「Segment」に記述される再生対象のセグメントの音声ファイルのURL等の情報を抽出し、音声ファイル取得部１９２に供給する。

MPD処理部１９１は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部９８に供給する。MPD処理部１９１は、MPDファイルから、画像選択部９８から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。

音声ファイル取得部１９２は、Object audioを再生対象とする場合、MPD処理部１９１から供給されるURL等の情報に基づいて、そのURLで特定される音声ファイル内のBase trackのInitial SegmentをWebサーバ１４２に要求し、取得する。

また、音声ファイル取得部１９２は、音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイル内のobject metadata trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部１９２は、object metadata trackのオーディオストリームに含まれるオブジェクト位置情報、Base trackのInitial Segmentに含まれる画枠サイズ情報、および音声ファイルのURL等の情報を音声選択部１９３に供給する。

また、Channel audioを再生対象とする場合、音声ファイル取得部１９２は、音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイル内のChannel audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部１９２は、取得されたChannel audio trackのオーディオストリームを音声復号処理部１９４に供給する。

HOA audioを再生対象とする場合、音声ファイル取得部１９２は、Channel audioを再生対象とする場合と同様の処理を行う。その結果、HOA audio trackのオーディオストリームが音声復号処理部１９４に供給される。

なお、Object audio,Channel audio、およびHOA audioのいずれを再生対象とするかは、例えば、ユーザからの指令により決定される。

音声選択部１９３は、音声ファイル取得部１９２から供給される画枠サイズ情報とオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部１９３は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部１９３は、音声ファイル取得部１９２から供給される音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイル内の、選択されたオブジェクトのObject audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声選択部１９３は、取得されたObject audio trackのオーディオストリームを音声復号処理部１９４に供給する。

音声復号処理部１９４は、音声ファイル取得部１９２から供給されるChannel audio trackまたはHOA audio trackのオーディオストリーム、もしくは、音声選択部１９３からObject audio trackのオーディオストリームを復号する。音声復号処理部１９４は、復号の結果得られるChannel audio,HOA audio、またはObject audioを音声合成処理部１９５に供給する。

音声合成処理部１９５は、音声復号処理部１９４から供給されるObject audio,Channel audio、またはHOA audioを必要に応じて合成し、出力する。

（動画再生端末の処理の説明）
図４８は、図４７のストリーミング再生部１９０のチャネルオーディオ再生処理を説明するフローチャートである。このチャネルオーディオ再生処理は、例えば、ユーザによりChannel audioが再生対象として選択される場合に行われる。

図４８のステップＳ２２１において、MPD処理部１９１は、MPD取得部９１から供給されるMPDファイルを解析し、「SubRepresentation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのChannel audioの「SubRepresentation」を特定する。また、MPD処理部１９１は、MPDファイルから、再生対象のセグメントの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部１９２に供給する。

ステップＳ２２２において、MPD処理部１９１は、ステップＳ２２１で特定された「SubRepresentation」のdependencyLevelに基づいて、参照トラックであるBase trackのレベルを特定し、音声ファイル取得部１９２に供給する。

ステップＳ２２３において、音声ファイル取得部１９２は、MPD処理部１９１から供給されるURL等の情報に基づいて、再生対象のセグメントのInitial SegmentをWebサーバ１４２に要求し、取得する。

ステップＳ２２４において、音声ファイル取得部１９２は、Initial Segment内のLevel assignmentボックスから、channel audio trackと参照トラックであるBase trackのレベルに対応するトラックＩＤを取得する。

ステップＳ２２５において、音声ファイル取得部１９２は、channel audio trackと参照トラックであるBase trackのトラックＩＤに基づいて、Initial Segmentの、そのトラックＩＤに対応するtrakボックス内のサンプルエントリを取得する。音声ファイル取得部１９２は、取得されたサンプルエントリに含まれるコーデック情報を音声復号処理部１９４に供給する。

ステップＳ２２６において、音声ファイル取得部１９２は、MPD処理部１９１から供給されるURL等の情報に基づいて、Webサーバ１４２に要求し、再生対象のセグメントの音声ファイルの先頭からsidxボックスとssixボックスを取得する。

ステップＳ２２７において、音声ファイル取得部１９２は、ステップＳ２２３で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントのchannel audio trackと参照トラックの位置情報を取得する。なお、ここでは、参照トラックであるBase trackにはオーディオストリームが含まれないため、参照トラックの位置情報はない。

ステップＳ２２８において、音声ファイル取得部１９２は、channel audio trackの位置情報と再生対象のセグメントの音声ファイルのURL等の情報に基づいて、mdatボックスに配置されるchannel audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部１９２は、取得されたchannel audio trackのオーディオストリームを音声復号処理部１９４に供給する。

ステップＳ２２９において、音声復号処理部１９４は、音声ファイル取得部１９２から供給されるコーデック情報に基づいて、channel audio trackのオーディオストリームに対して復号を行う。音声ファイル取得部１９２は、その結果得られるchannel audioを音声合成処理部１９５に供給する。

ステップＳ２３０において、音声合成処理部１９５は、channel audioを出力し、処理を終了する。

なお、図示は省略するが、ストリーミング再生部１９０によるHOA audioを再生するHOAオーディオ再生処理は、図４８のチャネルオーディオ再生処理と同様に行われる。

図４９は、図４７のストリーミング再生部１９０のオブジェクト特定処理を説明するフローチャートである。このオブジェクト特定処理は、例えば、ユーザによりObject audioが再生対象として選択されており、再生領域が変化したときに行われる。

図４９のステップＳ２５１において、音声選択部１９３は、ユーザ操作などにより、ユーザにより指定された表示領域を取得する。

ステップＳ２５２において、MPD処理部１９１は、MPD取得部９１から供給されるMPDファイルを解析し、「SubRepresentation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのmetadataの「SubRepresentation」を特定する。また、MPD処理部１９１は、MPDファイルから音声ファイル用の「Segment」に記述される再生対象のセグメントの音声ファイルのURL等の情報を抽出し、音声ファイル取得部１９２に供給する。

ステップＳ２５３において、MPD処理部１９１は、ステップＳ２５２で特定された「SubRepresentation」のdependencyLevelに基づいて、参照トラックであるBase trackのレベルを特定し、音声ファイル取得部１９２に供給する。

ステップＳ２５４において、音声ファイル取得部１９２は、MPD処理部１９１から供給されるURL等の情報に基づいて、再生対象のセグメントのInitial SegmentをWebサーバ１４２に要求し、取得する。

ステップＳ２５５において、音声ファイル取得部１９２は、Initial Segment内のLevel assignmentボックスから、object metadata trackと参照トラックであるBase trackのレベルに対応するトラックＩＤを取得する。

ステップＳ２５６において、音声ファイル取得部１９２は、object metadata trackと参照トラックであるBase trackのトラックＩＤに基づいて、Initial Segmentの、そのトラックＩＤに対応するtrakボックス内のサンプルエントリを取得する。音声ファイル取得部１９２は、参照トラックであるBase trackのサンプルエントリに含まれる画枠サイズ情報を音声選択部１９３に供給する。また、音声ファイル取得部１９２は、Initial Segmentを音声選択部１９３に供給する。

ステップＳ２５７において、音声ファイル取得部１９２は、MPD処理部１９１から供給されるURL等の情報に基づいて、Webサーバ１４２に要求し、再生対象のセグメントの音声ファイルの先頭からsidxボックスとssixボックスを取得する。

ステップＳ２５８において、音声ファイル取得部１９２は、ステップＳ２５７で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントのobject metadata trackと参照トラックの位置情報を取得する。なお、ここでは、参照トラックであるBase trackにはオーディオストリームが含まれないため、参照トラックの位置情報はない。音声ファイル取得部１９２は、sidxボックスとssixボックスを音声選択部１９３に供給する。

ステップＳ２５９において、音声ファイル取得部１９２は、object metadata trackの位置情報と再生対象のセグメントの音声ファイルのURL等の情報に基づいて、mdatボックスに配置されるobject metadata trackのオーディオストリームをWebサーバ１４２に要求し、取得する。

ステップＳ２６０において、音声ファイル取得部１９２は、ステップＳ２５６で取得されたサンプルエントリに含まれるコーデック情報に基づいて、ステップＳ２５９で取得されたobject metadata trackのオーディオストリームを復号する。音声ファイル取得部１９２は、復号の結果得られるmetadataに含まれるオブジェクト位置情報を音声選択部１９３に供給する。また、音声ファイル取得部１９２は、MPD処理部１９１から供給される音声ファイルのURL等の情報を音声選択部１９３に供給する。

ステップＳ２６１において、音声選択部１９３は、音声ファイル取得部１９２から供給される画枠サイズ情報およびオブジェクト位置情報、並びに、ユーザにより指定される表示領域に基づいて、表示領域内のオブジェクトを選択する。そして、処理は終了する。

図５０は、図４９のオブジェクト特定処理後にストリーミング再生部１９０により行われる特定オブジェクトオーディオ再生処理を説明するフローチャートである。

図５０のステップＳ２８１において、MPD処理部１９１は、MPD取得部９１から供給されるMPDファイルを解析し、「SubRepresentation」に記述されるessential property とcodecに基づいて、選択されたオブジェクトのobject audioの「SubRepresentation」を特定する。

ステップＳ２８２において、MPD処理部１９１は、ステップＳ２８１で特定された「SubRepresentation」のdependencyLevelに基づいて、参照トラックであるBase trackのレベルを特定し、音声ファイル取得部１９２に供給する。

ステップＳ２８３において、音声ファイル取得部１９２は、Initial Segment内のLevel assignmentボックスから、object audio trackと参照トラックであるBase trackのレベルに対応するトラックＩＤを取得し、音声選択部１９３に供給する。

ステップＳ２８４において、音声選択部１９３は、object audio trackと参照トラックであるBase trackのトラックＩＤに基づいて、Initial Segmentの、そのトラックＩＤに対応するtrakボックス内のサンプルエントリを取得する。このInitial Segmentは、図４９のステップＳ２５６で音声ファイル取得部１９２から供給されたものである。音声選択部１９３は、取得されたサンプルエントリに含まれるコーデック情報を音声復号処理部１９４に供給する。

ステップＳ２８５において、音声選択部１９３は、ステップＳ２５８で音声ファイル取得部１９２から供給されるsidxボックスとssixボックスから、再生対象のサブセグメントの選択されたオブジェクトのobject audio trackと参照トラックの位置情報を取得する。なお、ここでは、参照トラックであるBase trackにはオーディオストリームが含まれないため、参照トラックの位置情報はない。

ステップＳ２８６において、音声選択部１９３は、object audio trackの位置情報と再生対象のセグメントの音声ファイルのURL等の情報に基づいて、mdatボックスに配置される、選択されたオブジェクトのobject audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声選択部１９３は、取得されたobject audio trackのオーディオストリームを音声復号処理部１９４に供給する。

ステップＳ２８７において、音声復号処理部１９４は、音声選択部１９３から供給されるコーデック情報に基づいて、object audio trackのオーディオストリームを復号する。音声選択部１９３は、復号の結果得られるobject audioを音声合成処理部１９５に供給する。

ステップＳ２８８において、音声合成処理部１９５は、音声復号処理部１９４から供給されるobject audioを合成して出力する。そして、処理は終了する。

以上のように、情報処理システム１４０では、ファイル生成装置１４１が、３Ｄオーディオが３Ｄオーディオの種類に応じて複数のトラックに分割されて配置される音声ファイルを生成する。そして、動画再生端末１４４は、その音声ファイルのうちの所定の種類の３Ｄオーディオのトラックのオーディオストリームを取得する。従って、動画再生端末１４４は、所定の種類の３Ｄオーディオのオーディオストリームを効率良く取得することができる。よって、ファイル生成装置１４１は、所定の種類の３Ｄオーディオのオーディオストリームの取得効率を向上させる音声ファイルを生成しているといえる。

＜第２実施の形態＞
（トラックの概要）
図５１は、本開示を適用した第２実施の形態におけるトラックの概要を説明する図である。

図５１に示すように、第２実施の形態では、Base trackのサンプルとして、ベースサンプルが記録される点が、第１実施の形態と異なる。ベースサンプルは、Channel audio/Object audio/HOA audio/metadataのsampleヘの参照情報により構成される。

（ベーストラックのサンプルエントリのシンタクスの例）
図５２は、図５１のベーストラックのサンプルエントリのシンタクスの例を示す図である。

図５２のシンタクスは、サンプルエントリが、図３３のBase trackのサンプルエントリであることを表す「mha1」の代わりに、図５１のBase trackのサンプルエントリであることを表す「mha2」が記述される点を除いて、図３４のシンタクスと同一である。

（ベースサンプルの構造例）
図５３は、ベースサンプルの構造例を示す図である。

図５３に示すように、ベースサンプルは、サブサンプル単位のChannel audio/Object audio/HOA audio/metadataのextractorをサブサンプルとして構成される。 Channel audio/Object audio/HOA audio/metadataのextractorは、extractorの種別、並びに、対応するChannel audio track/Object audio track(s)/HOA audio track/Object metadata trackのサブサンプルのoffsetおよびsizeにより構成される。このoffsetは、ベースサンプルのサブサンプルのファイル内の位置と、Channel audio track/Object audio track(s)/HOA audio track/Object metadata trackのサブサンプルのファイル内の位置の差分である。即ち、offsetは、それを含むベースサンプルのサブサンプルに対応する他のトラックのサブサンプルのファイル内の位置を示す情報である。

図５４は、ベースサンプルのシンタクスの例を示す図である。

図５４に示すように、ベースサンプルでは、Object audio trackのサンプルにおいてobject audioが格納されるSCEエレメントが、extractorを格納するEXTエレメントに入れ換えられる。

図５５は、extractorのデータの例を示す図である。

図５５に示すように、extractorには、extractorの種別、並びに、対応するChannel audio track/Object audio track(s)/HOA audio track/Object metadata trackのサブサンプルのoffsetおよびsizeが記述される。

なお、AVC(Advanced Video Coding)/HEVC(High Efficiency Video Coding)で定義している、NAL(Network Abstraction Layer)の構造を活用して、audio elementaryやconfig情報を格納できるように拡張してもよい。

第２実施の形態における情報処理システムおよび情報処理システムによる処理は、第１実施の形態と同様であるので、説明は省略する。

＜第３実施の形態＞
（トラックの概要）
図５６は、本開示を適用した第３実施の形態におけるトラックの概要を説明する図である。

図５６に示すように、第３実施の形態では、Base trackのサンプルとして、ベースサンプルとmetadataのサンプルが記録され、Object metadata trackが設けられない点が、第１実施の形態と異なっている。

第３実施の形態における情報処理システムおよび情報処理システムによる処理は、オブジェクト位置情報を取得するために、Object metadata trackの代わりにBase trackのオーディオストリームが取得される点を除いて、第１実施の形態と同様であるので、説明は省略する。

＜第４実施の形態＞
（トラックの概要）
図５７は、本開示を適用した第４実施の形態におけるトラックの概要を説明する図である。

図５７に示すように、第４実施の形態では、各トラックが異なるファイル（3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4）として記録される点が、第１実施の形態と異なっている。この場合、所望のトラックのファイルを、HTTPを介して取得することにより、所望のトラックの音声データのみを取得することができる。従って、HTTPを介した所望のトラックの音声データの取得を効率的に行うことができる。

（MPDファイルの記述例）
図５８は、本開示を適用した第４実施の形態におけるMPDファイルの記述例を示す図である。

図５８に示すように、MPDファイルには、３Ｄオーディオの各音声ファイル（3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4）のセグメントを管理する「Representation等が記述される。

「Representation」には、「codecs」、「id」、「associationId」、および「assciationType」が含まれる。また、Channel audio track/Object audio track(s)/HOA audio track/Object metadata trackの「Representation」には、「<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>」も含まれる。さらに、Object audio track(s) の「Representation」には、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:viewingAngle:2014” value=“θ,γ,r”>が含まれる。

（情報処理システムの概要）
図５９は、本開示を適用した第４実施の形態における情報処理システムの概要を説明する図である。

図５９に示す構成のうち、図１の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図５９の情報処理システム２１０は、ファイル生成装置２１１と接続されるWebサーバ２１２と動画再生端末２１４が、インターネット１３を介して接続されることにより構成される。

情報処理システム２１０では、MPEG−DASHに準ずる方式で、Webサーバ２１２が、動画コンテンツのビデオストリームをタイル単位で動画再生端末２１４に配信（タイルドストリーミング）する。また、情報処理システム２１０では、Webサーバ２１２が、再生対象のタイルに対応するObject audio,Channel audio、またはHOA audioの音声ファイルを動画再生端末２１４に配信する。

具体的には、ファイル生成装置２１１は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置２１１は、各タイルのビデオストリームを、セグメントごとにファイル化する。ファイル生成装置２１１は、その結果得られる各タイルの画像ファイルをWebサーバ２１２にアップロードする。

また、ファイル生成装置２１１は、動画コンテンツの３Ｄオーディオを取得し、３Ｄオーディオの種類（Channel audio/Object audio/HOA audio/metadata）ごとに符号化してオーディオストリームを生成する。ファイル生成装置２１１は、オーディオストリームに対して、３Ｄオーディオの種類ごとにトラックを割り当てる。ファイル生成装置２１１は、トラックごとに、オーディオストリームを配置した音声ファイルを生成し、Webサーバ２１２にアップロードする。

ファイル生成装置２１１は、画枠サイズ情報、タイル位置情報、オブジェクト位置情報等を含むMPDファイルを生成する。ファイル生成装置２１１は、MPDファイルをWebサーバ２１２にアップロードする。

Webサーバ２１２は、ファイル生成装置２１１からアップロードされた画像ファイル、３Ｄオーディオの種類ごとの音声ファイル、およびMPDファイルを格納する。

図５９の例では、Webサーバ２１２には、タイル＃１の複数のセグメントの画像ファイルからなるセグメント群と、タイル＃２の複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ２１２には、Channel audioの音声ファイルからなるセグメント群と、オブジェクト＃１の音声ファイルからなるセグメント群とが格納されている。

Webサーバ２１２は、動画再生端末２１４からの要求に応じて、格納している画像ファイル、３Ｄオーディオの所定の種類の音声ファイル、MPDファイル等を動画再生端末２１４に送信する。

動画再生端末２１４は、制御用ソフトウエア２２１、動画再生ソフトウエア２２２、アクセス用ソフトウエア２２３などを実行する。

制御用ソフトウエア２２１は、Webサーバ２１２からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア２２１は、動画再生端末２１４にWebサーバ２１２からMPDファイルを取得させる。

また、制御用ソフトウエア２２１は、動画再生ソフトウエア２２２から指示される表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア２２１は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア２２３に指令する。

制御用ソフトウエア２２１は、Object audioを再生対象とする場合、Base trackの音声ファイルの送信要求をアクセス用ソフトウエア２２３に指令する。また、制御用ソフトウエア２２１は、Object metadata trackの音声ファイルの送信要求をアクセス用ソフトウエア２２３に指令する。制御用ソフトウエア２２１は、その指令に応じてWebサーバ１４２から送信されてくるBase trackの音声ファイル内の画枠サイズ情報とmetadataの音声ファイルに含まれるオブジェクト位置情報を取得する。制御用ソフトウエア２２１は、画枠サイズ情報、オブジェクト位置情報、および表示領域に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア２２１は、そのオブジェクトの音声ファイルの送信要求をアクセス用ソフトウエア２２３に指令する。

また、制御用ソフトウエア２２１は、Channel audioまたはHOA audioを再生対象とする場合、Channel audioまたはHOA audioの音声ファイルの送信要求をアクセス用ソフトウエア２２３に指令する。

動画再生ソフトウエア２２２は、Webサーバ２１２から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア２２２は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア２２１に指示する。また、動画再生ソフトウエア２２２は、その指示に応じてWebサーバ２１２から取得された画像ファイルと音声ファイルを復号する。動画再生ソフトウエア２２２は、復号の結果得られるタイル単位の画像データを合成して出力する。また、動画再生ソフトウエア２２２は、復号の結果得られるObject audio、Channel audio、またはHOA audioを必要に応じて合成し、出力する。

アクセス用ソフトウエア２２３は、HTTPを用いたインターネット１３を介したWebサーバ２１２との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア２２３は、制御用ソフトウエア２２１の指令に応じて、画像ファイルや所定の音声ファイルの送信要求を、動画再生端末２１４に送信させる。また、アクセス用ソフトウエア２２３は、その送信要求に応じて、Webサーバ２１２から送信されてくる画像ファイルや所定の音声ファイルを動画再生端末２１４に受信させる。

（ファイル生成装置の構成例）
図６０は、図５９のファイル生成装置２１１の構成例を示すブロック図である。

図６０に示す構成のうち、図４５の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図６０のファイル生成装置２１１の構成は、音声ファイル生成部１７２、MPD生成部１７３、サーバアップロード処理部１７４の代わりに、音声ファイル生成部２４１、MPD生成部２４２、サーバアップロード処理部２４３が設けられる点が、図４５のファイル生成装置１４１の構成と異なる。

具体的には、ファイル生成装置２１１の音声ファイル生成部２４１は、音声符号化処理部１７１から供給されるオーディオストリームに対して、３Ｄオーディオの種類ごとにトラックを割り当てる。音声ファイル生成部２４１は、トラックごとに、オーディオストリームを配置した音声ファイルを生成する。このとき、音声ファイル生成部２４１は、外部から入力される画枠サイズ情報を、Base trackの音声ファイルのサンプルエントリに格納する。音声ファイル生成部２４１は、３Ｄオーディオの種類ごとの音声ファイルをMPD生成部２４２に供給する。

MPD生成部２４２は、画像ファイル生成部５３から供給される各タイルの画像ファイルを格納するWebサーバ２１２のURL等を決定する。また、MPD生成部２４２は、３Ｄオーディオの種類ごとに、音声ファイル生成部２４１から供給される音声ファイルを格納するWebサーバ２１２のURL等を決定する。

MPD生成部２４２は、画像情報生成部５４から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部２４２は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。

MPD生成部２４２は、３Ｄオーディオの種類ごとに、音声ファイルのURL等を、その音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部２４２は、外部から入力される各オブジェクトのオブジェクト位置情報等を、そのオブジェクトのObject metadata track用の「Representation」に配置する。MPD生成部２４２は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイルおよび３Ｄオーディオの種類ごとの音声ファイルを、サーバアップロード処理部２４３に供給する。

サーバアップロード処理部２４３は、MPD生成部２４２から供給される各タイルの画像ファイル、３Ｄオーディオの種類ごとの音声ファイル、およびMPDファイルを、Webサーバ２１２にアップロードする。

（ファイル生成装置の処理の説明）
図６１は、図６０のファイル生成装置２１１のファイル生成処理を説明するフローチャートである。

図６１のステップＳ３０１乃至Ｓ３０７の処理は、図４６のステップＳ１９１乃至Ｓ１９７の処理と同様であるので、説明は省略する。

ステップＳ３０８において、音声ファイル生成部２４１は、トラックごとに、オーディオストリームが配置された音声ファイルを生成する。このとき、音声ファイル生成部２４１は、外部から入力される画枠サイズ情報をBase trackの音声ファイル内のサンプルエントリに格納する。音声ファイル生成部２４１は、生成された３Ｄオーディオの種類ごとの音声ファイルをMPD生成部２４２に供給する。

ステップＳ３０９において、MPD生成部２４２は、画像情報生成部５４から供給される画像情報、各ファイルのURL、オブジェクト位置情報等を含むMPDファイルを生成する。MPD生成部２４２は、画像ファイル、３Ｄオーディオの種類ごとの音声ファイル、およびMPDファイルをサーバアップロード処理部２４３に供給する。

ステップＳ３１０において、サーバアップロード処理部２４３は、MPD生成部２４２から供給される画像ファイル、３Ｄオーディオの種類ごとの音声ファイル、およびMPDファイルを、Webサーバ２１２にアップロードする。そして、処理は終了する。

（動画再生端末の機能的構成例）
図６２は、図５９の動画再生端末２１４が制御用ソフトウエア２２１、動画再生ソフトウエア２２２、およびアクセス用ソフトウエア２２３を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。

図６２に示す構成のうち、図１３や図４７の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図６２のストリーミング再生部２６０の構成は、MPD処理部９２、メタファイル取得部９３、音声選択部９４、音声ファイル取得部９５、音声復号処理部９６、音声合成処理部９７の代わりに、MPD処理部２６１、メタファイル取得部２６２、音声選択部２６３、音声ファイル取得部２６４、音声復号処理部１９４、音声合成処理部１９５が設けられる点が、図１３のストリーミング再生部９０の構成と異なる。

具体的には、ストリーミング再生部２６０のMPD処理部２６１は、Object audioを再生対象とする場合、MPD取得部９１から供給されるMPDファイルから、再生対象のセグメントのobject metadata trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部２６２に供給する。また、MPD処理部２６１は、MPDファイルから、音声選択部２６３から要求されるオブジェクトのobject audio trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出し、音声選択部２６３に供給する。さらに、MPD処理部２６１は、MPDファイルから、再生対象のセグメントのBase trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部２６２に供給する。

また、MPD処理部２６１は、Channel audioまたはHOA audioを再生対象とする場合、MPDファイルから、再生対象のセグメントのChannel audio trackまたはHOA audio trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出する。MPD処理部２６１は、そのURL等の情報を、音声選択部２６３を介して音声ファイル取得部２６４に供給する。

MPD処理部２６１は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部９８に供給する。MPD処理部２６１は、MPDファイルから、画像選択部９８から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。

メタファイル取得部２６２は、MPD処理部２６１から供給されるURL等の情報に基づいて、そのURLで特定されるobject metadata trackの音声ファイルをWebサーバ２１２に要求し、取得する。メタファイル取得部９３は、object metadata trackの音声ファイルに含まれるオブジェクト位置情報を音声選択部２６３に供給する。

また、メタファイル取得部２６２は、音声ファイルのURL等の情報に基づいて、そのURLで特定されるBase trackの音声ファイルのInitial SegmentをWebサーバ１４２に要求し、取得する。メタファイル取得部２６２は、Initial Segmentのサンプルエントリに含まれる画枠サイズ情報を音声選択部２６３に供給する。

音声選択部２６３は、メタファイル取得部２６２から供給される画枠サイズ情報とオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部２６３は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部２６３は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部２６１に要求する。音声選択部２６３は、その要求に応じてMPD処理部２６１から供給されるURL等の情報を音声ファイル取得部２６４に供給する。

音声ファイル取得部２６４は、音声選択部２６３から供給される、object audio track,Channel audio track、またはHOA audio trackの音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイルをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部１９４に供給する。

音声ファイル取得部２６４は、音声選択部２６３から供給される画枠サイズ情報とオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声ファイル取得部２６４は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声ファイル取得部２６４は、音声選択部２６３から供給される音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイル内の、選択されたオブジェクトのObject audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部２６４は、取得されたObject audio trackのオーディオストリームを音声復号処理部１９４に供給する。

（動画再生端末の処理の説明）
図６３は、図６２のストリーミング再生部２６０のチャネルオーディオ再生処理を説明するフローチャートである。このチャネルオーディオ再生処理は、例えば、ユーザによりChannel audioが再生対象として選択される場合に行われる。

図６３のステップＳ３３１において、MPD処理部２６１は、MPD取得部９１から供給されるMPDファイルを解析し、「Representation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのChannel audioの「Representation」を特定する。また、MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される再生対象のセグメントのChannel audio trackの音声ファイルのURL等の情報を抽出し、音声選択部２６３を介して音声ファイル取得部２６４に供給する。

ステップＳ３３２において、MPD処理部２６１は、ステップＳ３３１で特定された「Representation」のassociationIdに基づいて、参照トラックであるBase trackの「Representation」を特定する。MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される参照トラックの音声ファイルのURL等の情報を抽出し、音声選択部２６３を介して音声ファイル取得部２６４に供給する。

ステップＳ３３３において、音声ファイル取得部２６４は、音声選択部２６３から供給されるURL等の情報に基づいて、再生対象のセグメントのChannel audio trackおよび参照トラックの音声ファイルのInitial SegmentをWebサーバ２１２に要求し、取得する。

ステップＳ３３４において、音声ファイル取得部２６４は、取得されたInitial Segmentのtrakボックス内のサンプルエントリを取得する。音声ファイル取得部２６４は、取得されたサンプルエントリに含まれるコーデック情報を音声復号処理部１９４に供給する。

ステップＳ３３５において、音声ファイル取得部２６４は、音声選択部２６３から供給されるURL等の情報に基づいて、Webサーバ１４２に要求し、再生対象のセグメントのChannel audio trackの音声ファイルの先頭からsidxボックスとssixボックスを取得する。

ステップＳ３３６において、音声ファイル取得部２６４は、ステップＳ３３３で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントの位置情報を取得する。

ステップＳ３３７において、音声選択部２６３は、ステップＳ３３７で取得された位置情報と再生対象のセグメントのchannel audio trackの音声ファイルのURL等の情報に基づいて、その音声ファイル内のmdatボックスに配置されるchannel audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声選択部２６３は、取得されたchannel audio trackのオーディオストリームを音声復号処理部１９４に供給する。

ステップＳ３３８において、音声復号処理部１９４は、音声ファイル取得部２６４から供給されるコーデック情報に基づいて、音声選択部２６３から供給されるchannel audio trackのオーディオストリームに対して復号を行う。音声選択部２６３は、その結果得られるchannel audioを音声合成処理部１９５に供給する。

ステップＳ３３９において、音声合成処理部１９５は、channel audioを出力し、処理を終了する。

なお、図示は省略するが、ストリーミング再生部２６０によるHOA audioを再生するHOAオーディオ再生処理は、図６３のチャネルオーディオ再生処理と同様に行われる。

図６４は、図６２のストリーミング再生部２６０のオブジェクトオーディオ再生処理のを説明するフローチャートである。このオブジェクトオーディオ再生処理は、例えば、ユーザによりObject audioが再生対象として選択されており、再生領域が変化したときに行われる。

図６４のステップＳ３５１において、音声選択部２６３は、ユーザ操作などにより、ユーザにより指定された表示領域を取得する。

ステップＳ３５２において、MPD処理部２６１は、MPD取得部９１から供給されるMPDファイルを解析し、「Representation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのmetadataの「Representation」を特定する。また、MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される再生対象のセグメントのobject metadata trackの音声ファイルのURL等の情報を抽出し、メタファイル取得部２６２に供給する。

ステップＳ３５３において、MPD処理部２６１は、ステップＳ３５２で特定された「Representation」のassociationIdに基づいて、参照トラックであるBase trackの「Representation」を特定する。MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される参照トラックの音声ファイルのURL等の情報を抽出し、メタファイル取得部２６２に供給する。

ステップＳ３５４において、メタファイル取得部２６２は、MPD処理部２６１から供給されるURL等の情報に基づいて、再生対象のセグメントのobject metadata trackおよび参照トラックの音声ファイルのInitial SegmentをWebサーバ２１２に要求し、取得する。

ステップＳ３５５において、メタファイル取得部２６２は、取得されたInitial Segmentのtrakボックス内のサンプルエントリを取得する。メタファイル取得部２６２は、参照トラックであるBase trackのサンプルエントリに含まれる画枠サイズ情報を音声ファイル取得部２６４に供給する。

ステップＳ３５６において、メタファイル取得部２６２は、MPD処理部２６１から供給されるURL等の情報に基づいて、Webサーバ１４２に要求し、再生対象のセグメントのobject metadata trackの音声ファイルの先頭からsidxボックスとssixボックスを取得する。

ステップＳ３５７において、メタファイル取得部２６２は、ステップＳ３５６で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントの位置情報を取得する。

ステップＳ３５８において、メタファイル取得部２６２は、ステップＳ３５７で取得された位置情報と再生対象のセグメントのobject metadata trackの音声ファイルのURL等の情報に基づいて、その音声ファイル内のmdatボックスに配置されるobject metadata trackのオーディオストリームをWebサーバ１４２に要求し、取得する。

ステップＳ３５９において、メタファイル取得部２６２は、ステップＳ３５５で取得されたサンプルエントリに含まれるコーデック情報に基づいて、ステップＳ３５８で取得されたobject metadata trackのオーディオストリームを復号する。メタファイル取得部２６２は、復号の結果得られるmetadataに含まれるオブジェクト位置情報を音声選択部２６３に供給する。

ステップＳ３６０において、音声選択部２６３は、メタファイル取得部２６２から供給される画枠サイズ情報およびオブジェクト位置情報、並びに、ユーザにより指定される表示領域に基づいて、表示領域内のオブジェクトを選択する。音声選択部２６３は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部２６１に要求する。

ステップＳ３６１において、MPD処理部２６１は、MPD取得部９１から供給されるMPDファイルを解析し、「Representation」に記述されるessential property とcodecに基づいて、選択されたオブジェクトのobject audioの「Representation」を特定する。また、MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される、再生対象のセグメントの選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報を抽出し、音声選択部２６３を介して音声ファイル取得部２６４に供給する。

ステップＳ３６２において、MPD処理部２６１は、ステップＳ３６１で特定された「Representation」のassociationIdに基づいて、参照トラックであるBase trackの「Representation」を特定する。MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される参照トラックの音声ファイルのURL等の情報を抽出し、音声選択部２６３を介して音声ファイル取得部２６４に供給する。

ステップＳ３６３において、音声ファイル取得部２６４は、音声選択部２６３から供給されるURL等の情報に基づいて、再生対象のセグメントのobject audio trackおよび参照トラックの音声ファイルのInitial SegmentをWebサーバ２１２に要求し、取得する。

ステップＳ３６４において、音声ファイル取得部２６４は、取得されたInitial Segmentのtrakボックス内のサンプルエントリを取得する。音声ファイル取得部２６４は、そのサンプルエントリに含まれるコーデック情報を音声復号処理部１９４に供給する。

ステップＳ３６５において、音声ファイル取得部２６４は、音声選択部２６３から供給されるURL等の情報に基づいて、Webサーバ１４２に要求し、再生対象のセグメントのobject audio trackの音声ファイルの先頭からsidxボックスとssixボックスを取得する。

ステップＳ３６６において、音声ファイル取得部２６４は、ステップＳ３６５で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントの位置情報を取得する。

ステップＳ３６７において、音声ファイル取得部２６４は、ステップＳ３６６で取得された位置情報と再生対象のセグメントのobject audio trackの音声ファイルのURL等の情報に基づいて、その音声ファイル内のmdatボックスに配置されるobject audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部２６４は、取得されたobject audio trackのオーディオストリームを音声復号処理部１９４に供給する。

ステップＳ３６８およびＳ３６９の処理は、図５０のステップＳ２８７およびＳ２８８の処理と同様であるので、説明は省略する。

なお、上述した説明では、音声選択部２６３は、表示領域内の全てのオブジェクトを選択したが、表示領域内のオブジェクトのうちの処理優先度が高いもののみを選択したり、所定の内容の音声のオブジェクトのみを選択するようにしてもよい。

図６５は、音声選択部２６３が表示領域内のオブジェクトのうちの処理優先度が高いもののみを選択する場合のオブジェクトオーディオ再生処理を説明するフローチャートである。

図６５のオブジェクトオーディオ再生処理は、図６４のステップＳ３６０の代わりに図６５のステップＳ３９０の処理が行われる点を除いて、図６４のオブジェクトオーディオ再生処理と同様である。即ち、図６５のステップＳ３８１乃至Ｓ３８９およびＳ３９１乃至Ｓ３９９の処理は、図６４のステップＳ３５１乃至Ｓ３５９およびＳ３６１乃至Ｓ３６９の処理と同様である。従って、以下では、ステップＳ３９０の処理についてのみ説明する。

図６５のステップＳ３９０において、音声ファイル取得部２６４は、画枠サイズ情報、オブジェクト位置情報、表示領域、および、各オブジェクトのpriorityに基づいて、表示領域内の処理優先度が高いオブジェクトを選択する。具体的には、音声ファイル取得部２６４は、画枠サイズ情報、オブジェクト位置情報、および表示領域に基づいて、表示領域内のオブジェクトを特定する。そして、音声ファイル取得部２６４は、特性されたオブジェクトのうちの、priorityが所定値以上であるオブジェクトを選択する。なお、priorityは、例えば、MPD処理部２６１がMPDファイルを解析することにより、特定されたオブジェクトのobject audioの「Representation」から取得される。音声選択部２６３は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部２６１に要求する。

図６６は、音声選択部２６３が表示領域内のオブジェクトのうちの、処理優先度が高い所定の内容の音声のオブジェクトのみを選択する場合のオブジェクトオーディオ再生処理を説明するフローチャートである。

図６６のオブジェクトオーディオ再生処理は、図６４のステップＳ３６０の代わりに図６６のステップＳ４２０の処理が行われる点を除いて、図６４のオブジェクトオーディオ再生処理と同様である。即ち、図６６のステップＳ３８１乃至Ｓ３８９およびＳ３９１乃至Ｓ３９９の処理は、図６４のステップＳ４１１乃至Ｓ４１９およびＳ４２１乃至Ｓ４２９の処理と同様である。従って、以下では、ステップＳ４２０の処理についてのみ説明する。

図６６のステップＳ４２０において、音声ファイル取得部２６４は、画枠サイズ情報、オブジェクト位置情報、表示領域、並びに、各オブジェクトのpriorityおよびcontentkindに基づいて、表示領域内の処理優先度が高い所定の内容の音声のオブジェクトを選択する。具体的には、音声ファイル取得部２６４は、画枠サイズ情報、オブジェクト位置情報、および表示領域に基づいて、表示領域内のオブジェクトを特定する。そして、音声ファイル取得部２６４は、特性されたオブジェクトのうちの、priorityが所定値以上であり、かつ、contentkindが所定値であるオブジェクトを選択する。

なお、priorityおよびcontentkindは、例えば、MPD処理部２６１がMPDファイルを解析することにより、特定されたオブジェクトのobject audioの「Representation」から取得される。音声選択部２６３は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部２６１に要求する。

図６７は、priority（プライオリティ）に基づいて選択されたオブジェクトの例を示す図である。

図６７の例では、オブジェクト＃１(object1)乃至オブジェクト＃４(object4)が、表示領域内のオブジェクトであり、表示領域内のオブジェクトのうちのpriorityが２以下であるオブジェクトが選択される。なお、priorityは、数字が小さいほど、処理優先度が高いものとする。また、図６７において、丸付き数字は、対応するオブジェクトのpriorityの値を表している。

図６７の例では、オブジェクト＃１乃至オブジェクト＃４のpriorityが、それぞれ、1,2,3,4である場合、オブジェクト＃１とオブジェクト＃２が選択される。また、オブジェクト＃１乃至オブジェクト＃４のpriorityが、それぞれ、3,2,1,4に変更されると、オブジェクト＃２とオブジェクト＃３が選択される。さらに、オブジェクト＃１乃至オブジェクト＃４のpriorityが、それぞれ、3,4,1,2に変更されると、オブジェクト＃３とオブジェクト＃４が選択される。

以上のように、表示領域内のオブジェクトのうちの、処理優先度の高いオブジェクトのobject audioのオーディオストリームのみを選択的に取得することで、Webサーバ１４２（２１２）と動画再生端末１４４（２１４）間の帯域を効率的に利用できる。contentkindに基づいてオブジェクトを選択する場合も同様である。

＜第５実施の形態＞
（トラックの概要）
図６８は、本開示を適用した第５実施の形態におけるトラックの概要を説明する図である。

図６８に示すように、第５実施の形態では、各トラックが異なるファイル（3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4）として記録される点が、第２実施の形態と異なっている。

第５実施の形態における情報処理システムおよび情報処理システムによる処理は、第４実施の形態と同様であるので、説明は省略する。

＜第６実施の形態＞
図６９は、本開示を適用した第６実施の形態におけるトラックの概要を説明する図である。

図６９に示すように、第６実施の形態では、各トラックが異なるファイル（3da_basemeta.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4）として記録される点が、第３実施の形態と異なっている。

第６実施の形態における情報処理システムおよび情報処理システムによる処理は、オブジェクト位置情報を取得するために、Object metadata trackの代わりにBase trackのオーディオストリームが取得される点を除いて、第４実施の形態と同様であるので、説明は省略する。

なお、第１乃至第３実施の形態、第５実施の形態、および第６実施の形態においても、priorityやcontentkindに基づいて表示領域内のオブジェクトを選択することは可能である。

また、第１乃至第６実施の形態において、ストリーミング再生部は、図２３のストリーミング再生部１２０のように、表示領域外のオブジェクトのオーディオストリームも取得し、そのオブジェクトのobject audioも合成して出力するようにしてもよい。

さらに、第１乃至第６実施の形態では、metadataからオブジェクト位置情報を取得したが、MPDファイルからオブジェクト位置情報を取得するようにしてもよい。

＜第７実施の形態＞
（本開示を適用したコンピュータの説明）
上述したWebサーバ１４２（２１２）の一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図７０は、上述したWebサーバ１４２（２１２）の一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）６０１，ROM（Read Only Memory）６０２，RAM（Random Access Memory）６０３は、バス６０４により相互に接続されている。

バス６０４には、さらに、入出力インタフェース６０５が接続されている。入出力インタフェース６０５には、入力部６０６、出力部６０７、記憶部６０８、通信部６０９、及びドライブ６１０が接続されている。

入力部６０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部６０７は、ディスプレイ、スピーカなどよりなる。記憶部６０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部６０９は、ネットワークインタフェースなどよりなる。ドライブ６１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア６１１を駆動する。

以上のように構成されるコンピュータでは、CPU６０１が、例えば、記憶部６０８に記憶されているプログラムを、入出力インタフェース６０５及びバス６０４を介して、RAM６０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU６０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア６１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア６１１をドライブ６１０に装着することにより、入出力インタフェース６０５を介して、記憶部６０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部６０９で受信し、記憶部６０８にインストールすることができる。その他、プログラムは、ROM６０２や記憶部６０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、動画再生端末１４４（２１４）のハードウエア構成は、図７０のコンピュータと同様の構成にすることができる。この場合、例えば、CPU６０１が、制御用ソフトウエア１６１（２２１）、動画再生ソフトウエア１６２（２２２）、およびアクセス用ソフトウエア１６３（２２３）を実行する。動画再生端末１４４（２１４）の処理は、ハードウエアにより実行することもできる。

本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、ファイル生成装置１４１（２１１）は、タイル単位で画像ファイルを生成するのではなく、全てのタイルの符号化データを多重化してビデオストリームを生成し、１つの画像ファイルを生成するようにしてもよい。

本開示は、MPEG−H 3D audioだけでなく、Object毎にstreamを作成することのできるaudio codec全般に適応可能である。

また、本開示は、ストリーミング再生ではなく、放送やローカルストレージ再生を行う情報処理システムにも適用することができる。

さらに、本開示は、以下のような構成もとることができる。

（１）
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置される１つのファイルであって、各トラックの前記音声データが所定の時間分だけ連続して配置されるファイルのうちの、所定の前記トラックの音声データを取得する取得部
を備える情報処理装置。
（２）
前記ファイルには、各トラックの前記音声データがサブセグメント分だけ連続して配置される
ように構成された
前記（１）に記載の情報処理装置。
（３）
前記ファイルには、前記トラックごとに、moofボックスとmdatボックスが設けられ、
各トラックのサブセグメント分の前記音声データは、そのトラックの前記mdatボックスに配置される
ように構成された
前記（２）に記載の情報処理装置。
（４）
前記ファイルは、前記mdatボックスの前記ファイル内の位置を示す位置情報を含む
ように構成された
前記（３）に記載の情報処理装置。
（５）
前記ファイルには、全ての前記トラックに共通のmoofボックスとmdatボックスが設けられ、
全ての前記トラックのサブセグメント分の前記音声データは、前記mdatボックスに配置される
ように構成された
前記（２）に記載の情報処理装置。
（６）
前記ファイルは、前記mdatボックス内の各トラックのサブセグメント分の前記音声データの前記ファイル内の位置を示す位置情報を含む
ように構成された
前記（５）に記載の情報処理装置。
（７）
前記取得部は、前記ファイルとは異なるファイルに配置される、前記トラックの参照関係を表す情報を取得する
ように構成された
前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記取得部は、前記ファイルとは異なるファイルに配置される、前記音声データの優先度を表す情報を取得する
ように構成された
前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
前記取得部は、前記ファイルとは異なるファイルに配置される、前記音声データの内容を表す情報を取得する
ように構成された
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
情報処理装置が、
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置される１つのファイルであって、各トラックの前記音声データが所定の時間分だけ連続して配置されるファイルのうちの、所定の前記トラックの音声データを取得する取得ステップ
を含む情報処理方法。
（１１）
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置される１つのファイルであって、各トラックの前記音声データが所定の時間分だけ連続して配置されるファイルを生成する生成部
を備える情報処理装置。
（１２）
情報処理装置が、
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置される１つのファイルであって、各トラックの前記音声データが所定の時間分だけ連続して配置されるファイルを生成する生成ステップ
を含む情報処理方法。

１４１ファイル生成装置，１４４動画再生端末，１７２音声ファイル生成部，１９２音声ファイル取得部，１９３音声選択部，２１１ファイル生成装置，２１４動画再生端末，２４１音声ファイル生成部，２６４音声ファイル取得部

Claims

複数の３Ｄオーディオに関するデータから生成された前記３ＤオーディオのデータごとにTrack単位で分割された構造を有する１のオーディオストリームが配置されたファイルであって、前記Trackに対応する前記オーディオストリームの部分について、所定の時間分だけ前記Trackごとに連続して格納されて生成されたセグメントファイルにおいて、所定の前記Trackに対応する前記オーディオストリームを取得する取得部
を備える情報処理装置。
前記オーディオストリームに関する情報が、前記複数のTrackのうち一つのTrackとして、更に配置されている
請求項１に記載の情報処理装置。
前記オーディオストリームに関する情報が、前記複数のTrackとは異なるTrackであるベーストラックとして、更に配置されている
請求項１に記載の情報処理装置。
前記取得部は、前記３Ｄオーディオの種類ごとに生成された複数の前記オーディオストリームが配置されたオーディオファイルへのアクセス情報及び前記オーディオストリームに関する情報が、MPD（Media Presentation Description）のSubRepresentationにそれぞれ格納されて生成されたMPDファイルを取得する
請求項２または３に記載の情報処理装置。
前記オーディオストリームに関する情報には、一つの参照元と複数の参照先が含まれる
請求項４に記載の情報処理装置。
前記オーディオストリームに関する情報には、外部から入力される各オブジェクトのオブジェクト位置情報が含まれる
請求項５に記載の情報処理装置。
前記３Ｄオーディオの種類は、Channel audio, Object audio, HOA audio、またはmetadataである
請求項１乃至６のいずれかに記載の情報処理装置。
前記セグメントファイルには、前記Trackごとに、moofボックスとmdatボックスが設けられ、
各Trackのサブセグメント分の前記３Ｄオーディオに関するデータは、そのTrackの前記mdatボックスに配置され、
前記セグメントファイルは、前記mdatボックスの前記セグメントファイル内の位置を示す位置情報を含む
請求項１乃至７のいずれかに記載の情報処理装置。
前記セグメントファイルには、全ての前記Trackに共通のmoofボックスとmdatボックスが設けられ、
全ての前記Trackのサブセグメント分の前記３Ｄオーディオに関するデータは、前記mdatボックスに配置され、
前記セグメントファイルは、前記mdatボックス内の各Trackのサブセグメント分の前記３Ｄオーディオに関するデータの前記セグメントファイル内の位置を示す位置情報を含む
請求項１乃至７のいずれかに記載の情報処理装置。
前記取得部は、前記Trackの参照関係を表す情報が配置されるように生成された制御ファイルを取得する
請求項１乃至９のいずれかに記載の情報処理装置。
情報処理装置が、
複数の３Ｄオーディオに関するデータから生成された前記３ＤオーディオのデータごとにTrack単位で分割された構造を有する１のオーディオストリームが配置されたファイルであって、前記Trackに対応する前記オーディオストリームの部分について、所定の時間分だけ前記Trackごとに連続して格納されて生成されたセグメントファイルにおいて、所定の前記Trackに対応する前記オーディオストリームを取得すること
を含む情報処理方法。