JP7517500B2

JP7517500B2 - 再生装置、再生方法、およびプログラム

Info

Publication number: JP7517500B2
Application number: JP2023045329A
Authority: JP
Inventors: 実辻; 徹知念; 光浩平林; 圭一青山
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2016-11-25
Filing date: 2023-03-22
Publication date: 2024-07-17
Anticipated expiration: 2037-11-10
Also published as: CN109983786A; WO2018096954A1; CN109983786B; US20200053499A1; US20220159400A1; CN114466279A; US11259135B2; JP2022009071A; JP2023075334A; EP4322551A2; US11785410B2; JPWO2018096954A1; JP7251592B2; EP3547718A4; JP2024120982A; EP4322551A3; JP7014176B2; EP3547718A1

Description

本技術は、再生装置、再生方法、およびプログラムに関し、特に、コンテンツ制作者の意図を反映しつつ、再生時の自由度の高いオーディオデータの再生を実現できるようにした再生装置、再生方法、およびプログラムに関する。

楽器演奏の教則ビデオなどに含まれる映像は、一般的に、コンテンツ制作者によりあらかじめカット編集などが行われた映像になっている。また、その音は、解説音声や楽器の演奏音などの複数の音源が、2chや5.1chなどにコンテンツ制作者により適度にミックスされた音になっている。従って、ユーザは、コンテンツ制作者の意図した視点での映像と音でしか、そのコンテンツを視聴することができない。

ところで、近年、オブジェクトベースのオーディオ技術が注目されている。オブジェクトベースのオーディオデータは、オブジェクトの音声の波形信号と、基準となる視点からの相対位置により表される定位情報を示すメタデータとから構成される。

オブジェクトベースのオーディオデータの再生は、波形信号を、再生側のシステムに合わせた所望のチャンネル数の信号にメタデータに基づいてレンダリングするようにして行われる。レンダリングの手法には、例えばVBAP(Vector Based Amplitude Panning)がある（例えば、非特許文献１，２）。

ISO/IEC 23008-3 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997

オブジェクトベースのオーディオデータにおいても、音の定位は、各オブジェクトのメタデータにより決定される。従って、ユーザは、あらかじめ用意されたメタデータに従ったレンダリング結果の音でしか、言い換えると、決められた視点(想定聴取位置)とそれに対する定位での音でしか、コンテンツを視聴することができない。

そこで、想定聴取位置を任意に選択することができるようにし、ユーザにより選択された想定聴取位置に合わせてメタデータの補正を行い、補正後のメタデータを用いて定位を修正したレンダリング再生を行うことが考えられる。

しかしながら、この場合、再生される音は、各オブジェクトの相対的な位置関係の変化を機械的に反映した音となり、コンテンツ制作者からすると、満足する音、すなわち表現したい音になるとは限らない。

本技術はこのような状況に鑑みてなされたものであり、コンテンツ制作者の意図を反映しつつ、再生時の自由度の高いオーディオデータの再生を実現できるようにするものである。

本技術の一側面の再生装置は、それぞれのオーディオオブジェクトの音声データと、複数の想定聴取位置のそれぞれに対する、前記音声データのレンダリングパラメータとを含むコンテンツを取得する取得部と、前記レンダリングパラメータが用意されていない前記想定聴取位置に対する前記レンダリングパラメータを、前記レンダリングパラメータが用意されている複数の前記想定聴取位置に対する前記レンダリングパラメータに基づいて生成する生成部と、前記生成部により生成された前記レンダリングパラメータに基づいて前記音声データのレンダリングを行うレンダリング部とを備える。前記レンダリングパラメータは、前記オーディオオブジェクトの定位情報、ゲイン情報、イコライザ情報、コンプレッサー情報、リバーブ情報、の少なくともいずれかを含む。

本技術の一側面においては、それぞれのオーディオオブジェクトの音声データと、複数の想定聴取位置のそれぞれに対する、前記音声データのレンダリングパラメータとを含むコンテンツが取得され、前記レンダリングパラメータが用意されていない前記想定聴取位置に対する前記レンダリングパラメータが、前記レンダリングパラメータが用意されている複数の前記想定聴取位置に対する前記レンダリングパラメータに基づいて生成される。また、生成された前記レンダリングパラメータに基づいて前記音声データのレンダリングが行われる。前記レンダリングパラメータには、前記オーディオオブジェクトの定位情報、ゲイン情報、イコライザ情報、コンプレッサー情報、リバーブ情報、の少なくともいずれかが含まれる。

本技術によれば、コンテンツ制作者の意図を反映しつつ、再生時の自由度の高いオーディオデータの再生を実現することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

コンテンツの１シーンを示す図である。オーディオオブジェクトと視点の例を示す図である。視点＃１に対するレンダリングパラメータの例を示す図である。各オーディオオブジェクトの定位のイメージを示す図である。各オーディオオブジェクトのゲイン配分の例を示す図である。視点＃２乃至＃５に対するレンダリングパラメータの例を示す図である。再生装置の構成例を示すブロック図である。再生装置の機能構成例を示すブロック図である。図８のオーディオ再生部の構成例を示すブロック図である。再生装置のオーディオ再生処理について説明するフローチャートである。オーディオ再生部の他の構成例を示すブロック図である。オーディオ再生部のさらに他の構成例を示すブロック図である。レンダリングパラメータの他の例を示す図である。オーディオ再生部の構成例を示すブロック図である。視点＃６と視点＃７に対するレンダリングパラメータの例を示す図である。視点＃６の各オーディオオブジェクトの定位のイメージを示す図である。視点＃７の各オーディオオブジェクトの定位のイメージを示す図である。任意視点＃Ｘに対する疑似レンダリングパラメータの例を示す図である。疑似レンダリングパラメータを用いた各オーディオオブジェクトの定位のイメージを示す図である。オーディオ再生部の構成例を示すブロック図である。再生装置の他のオーディオ再生処理について説明するフローチャートである。コンテンツ生成装置の機能構成例を示すブロック図である。コンテンツ生成装置のコンテンツ生成処理について説明するフローチャートである。配信システムの構成例を示す図である。再生装置とコンテンツ生成装置の構成例を示すブロック図である。メタデータデコーダの構成例を示すブロック図である。パラメータ推定器の入出力の例を示す図である。各オブジェクトの配置例を示す図である。会場を斜め方向から見た図である。視点１～５のレンダリングパラメータを示す図である。視点１～５のレンダリングパラメータを示す、図３０に続く図である。視点６の位置を示す図である。視点２Ａと視点３Ａの位置を示す図である。視点２Ａと視点３Ａのレンダリングパラメータを示す図である。視点６のレンダリングパラメータを示す図である。配信システムの他の構成例を示す図である。再生装置とコンテンツ生成装置の構成例を示すブロック図である。図３７のパラメータ推定器学習部の構成例を示すブロック図である。配信システムのさらに他の構成例を示すブロック図である。

以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
・第１の実施の形態
１．コンテンツについて
２．再生装置の構成と動作
３．再生装置の他の構成例
４．レンダリングパラメータの例
５．自由視点の例
６．コンテンツ生成装置の構成と動作
７．変形例
・第２の実施の形態
１．配信システムの構成例
２．レンダリングパラメータの生成例
３．配信システムの他の構成例

＜＜第１の実施の形態＞＞
＜１．コンテンツについて＞
図１は、本技術の一実施形態に係る再生装置が再生するコンテンツの１シーンを示す図である。

再生装置が再生するコンテンツの映像は、視点を切り替えることが可能な映像である。
コンテンツには、複数の視点の映像を表示するのに用いられるビデオデータが含まれる。

また、再生装置が再生するコンテンツの音声も、例えば映像の視点の位置を聴取位置とするように、視点（想定聴取位置）を切り替えることが可能な音声である。視点が切り替えられた場合、音の定位が切り替わる。

コンテンツの音声は、オブジェクトベースのオーディオとして用意される。コンテンツに含まれるオーディオデータには、それぞれのオーディオオブジェクトの波形データと、各オーディオオブジェクトの音源を定位させるためのメタデータとが含まれる。

このようなビデオデータとオーディオデータからなるコンテンツは、MPEG-Hなどの所定の方式で多重化された形で再生装置に提供される。

以下においては、再生の対象となるコンテンツが楽器演奏の教則ビデオであるものとして説明するが、本技術は、オブジェクトベースのオーディオデータを含む各種のコンテンツに適用可能である。そのようなコンテンツとして、例えば、多視点映像と、セリフ、背景音、効果音、BGMなどをオーディオオブジェクトで構成した音声とを含む多視点ドラマなどが考えられる。

図１に示す横長長方形の領域（スクリーン）が、再生装置のディスプレイに表示される。図１の例においては、左から順に、ベースを演奏する人物Ｈ１、ドラムを演奏する人物Ｈ２、メインギターを演奏する人物Ｈ３、およびサイドギターを演奏する人物Ｈ４からなるバンドによる演奏が映っている。図１に示す映像は、バンド全体を正面から見る位置を視点とした映像である。

コンテンツには、図２のＡに示すように、ベース、ドラム、メインギター、サイドギターによる演奏、および、教示者による解説音声をそれぞれオーディオオブジェクトとして、それぞれの独立した波形データが収録されている。

以下においては、教則の対象がメインギターの演奏であるものとして説明する。サイドギター、ベース、およびドラムによる演奏は伴奏となる。メインギターの演奏を教則の対象とする教則ビデオの視点の例を図２のＢに示す。

図２のＢに示すように、視点＃１は、バンド全体を正面から見る位置を視点とするものである（図１）。視点＃２は、メインギターを演奏する人物Ｈ３のみを正面から見る位置を視点とするものである。

視点＃３は、メインギターを演奏する人物Ｈ３の左手付近をアップに見る位置を視点とするものである。視点＃４は、メインギターを演奏する人物Ｈ３の右手付近をアップに見る位置を視点とするものである。視点＃５は、メインギターを演奏する人物Ｈ３の位置を視点とするものである。コンテンツには、各視点における映像の表示に用いられるビデオデータが収録される。

図３は、視点＃１に対する各オーディオオブジェクトのレンダリングパラメータの例を示す図である。

図３の例においては、オーディオオブジェクト毎のレンダリングパラメータとして、定位情報とゲイン情報が示されている。定位情報には、方位角を示す情報と仰角を示す情報が含まれる。方位角と仰角は正中面及び水平面をそれぞれ０°として表される。

図３のレンダリングパラメータは、メインギターの音を右に１０°、サイドギターの音を右に３０°、ベースの音を左に３０°、ドラムの音を左に１５°、解説音声を０°に定位させ、ゲインを全て１．０とすることを示している。

図４は、図３に示すパラメータを用いて実現される、視点＃１に対する各オーディオオブジェクトの定位のイメージを示す図である。

図４に円で囲んで示す位置Ｐ１乃至Ｐ５が、それぞれ、ベースによる演奏、ドラムによる演奏、解説音声、メインギターによる演奏、サイドギターによる演奏が定位した位置を示す。

図３に示すパラメータを用いて各オーディオオブジェクトの波形データがレンダリングされることにより、図４に示すように定位した各演奏と解説音声をユーザは聴くことになる。図５は、視点＃１に対する各オーディオオブジェクトのL/Rのゲイン配分の例を示す図である。この例においては、音声の出力に用いられるスピーカは2chのスピーカシステムである。

このような各オーディオオブジェクトのレンダリングパラメータが、図６に示すように、視点＃２乃至＃５のそれぞれに対しても用意される。

視点＃２に対するレンダリングパラメータは、メインギターに注目する視点映像に合わせて、メインギターの音を中心に再生するためのパラメータである。各オーディオオブジェクトのゲイン情報については、サイドギター、ベース、ドラムのゲインが、メインギターと解説音声のゲインより抑えられている。

視点＃３及び＃４に対するレンダリングパラメータは、ギターの指捌きに集中する映像に合わせて、視点＃２の場合よりもメインギターに集中した音を再生するためのパラメータである。

視点＃５は、ユーザが、メインギターの演奏者である人物Ｈ３になりきる視点映像にあわせて、演奏者視点の定位で音を再生するためのパラメータである。

このように、再生装置が再生するコンテンツのオーディオデータには、各オーディオオブジェクトのレンダリングパラメータが、視点毎に用意される。各視点に対するレンダリングパラメータがコンテンツ制作者によってあらかじめ決定され、メタデータとして、オーディオオブジェクトの波形データと共に伝送または保持されることになる。

＜２．再生装置の構成と動作＞
図７は、再生装置の構成例を示すブロック図である。

図７の再生装置１は、視点毎のレンダリングパラメータが用意されたオブジェクトベースのオーディオデータを含む多視点コンテンツの再生に用いられる装置である。再生装置１は、例えばパーソナルコンピュータであり、コンテンツの視聴者により操作される。

図７に示すように、CPU(Central Processing Unit)１１、ROM(Read Only Memory)１２、RAM(Random Access Memory)１３は、バス１４により相互に接続される。バス１４には、さらに、入出力インタフェース１５が接続される。入出力インタフェース１５には、入力部１６、ディスプレイ１７、スピーカ１８、記憶部１９、通信部２０、およびドライブ２１が接続される。

入力部１６は、キーボード、マウスなどにより構成される。入力部１６は、ユーザの操作の内容を表す信号を出力する。

ディスプレイ１７は、LCD(Liquid Crystal Display)、有機ELディスプレイなどのディスプレイである。ディスプレイ１７は、視点の選択に用いられる選択画面、再生されたコンテンツの映像などの各種の情報を表示する。ディスプレイ１７が、再生装置１と一体のディスプレイであってもよいし、再生装置１に接続された外部のディスプレイであってもよい。

スピーカ１８は、再生されたコンテンツの音声を出力する。スピーカ１８は、例えば、再生装置１に接続されるスピーカである。

記憶部１９は、ハードディスクや不揮発性のメモリなどにより構成される。記憶部１９は、CPU１１により実行されるプログラム、再生の対象となるコンテンツなどの各種のデータを記憶する。

通信部２０は、ネットワークインタフェースなどより構成され、インターネットなどのネットワークを介して外部の装置と通信を行う。ネットワークを介して配信されたコンテンツが通信部２０により受信され、再生されるようにしてもよい。

ドライブ２１は、装着されたリムーバブルメディア２２に対するデータの書き込み、リムーバブルメディア２２に記録されたデータの読み出しを行う。再生装置１においては、適宜、ドライブ２１によりリムーバブルメディア２２から読み出されたコンテンツが再生される。

図８は、再生装置１の機能構成例を示すブロック図である。

図８に示す構成のうちの少なくとも一部は、図７のCPU１１により所定のプログラムが実行されることによって実現される。再生装置１においては、コンテンツ取得部３１、分離部３２、オーディオ再生部３３、およびビデオ再生部３４が実現される。

コンテンツ取得部３１は、ビデオデータとオーディオデータを含む、上述した教則ビデオのようなコンテンツを取得する。

再生装置１に対するコンテンツの提供がリムーバブルメディア２２を介して行われる場合、コンテンツ取得部３１は、ドライブ２１を制御し、リムーバブルメディア２２に記録されているコンテンツを読み出して取得する。また、再生装置１に対するコンテンツの提供がネットワークを介して行われる場合、コンテンツ取得部３１は、外部の装置から送信され、通信部２０において受信されたコンテンツを取得する。コンテンツ取得部３１は、取得したコンテンツを分離部３２に出力する。

分離部３２は、コンテンツ取得部３１から供給されたコンテンツに含まれるビデオデータとオーディオデータを分離する。分離部３２は、コンテンツのビデオデータをビデオ再生部３４に出力し、オーディオデータをオーディオ再生部３３に出力する。

オーディオ再生部３３は、分離部３２から供給されたオーディオデータを構成する波形データをメタデータに基づいてレンダリングし、コンテンツの音声をスピーカ１８から出力させる。

ビデオ再生部３４は、分離部３２から供給されたビデオデータをデコードし、コンテンツの所定の視点の映像をディスプレイ１７に表示させる。

図９は、図８のオーディオ再生部３３の構成例を示すブロック図である。

オーディオ再生部３３は、レンダリングパラメータ選択部５１、オブジェクトデータ記憶部５２、視点情報表示部５３、およびレンダリング部５４から構成される。

レンダリングパラメータ選択部５１は、入力された選択視点情報に従って、ユーザにより選択された視点に対するレンダリングパラメータをオブジェクトデータ記憶部５２から選択し、レンダリング部５４に出力する。視点＃１乃至＃５の中から所定の視点がユーザにより選択された場合、レンダリングパラメータ選択部５１に対しては、選択された視点を表す選択視点情報が入力される。

オブジェクトデータ記憶部５２は、各オーディオオブジェクトの波形データ、視点情報、および、視点＃１乃至＃５の各視点に対する各オーディオオブジェクトのレンダリングパラメータを記憶する。

オブジェクトデータ記憶部５２に記憶されているレンダリングパラメータはレンダリングパラメータ選択部５１により読み出され、各オーディオオブジェクトの波形データはレンダリング部５４により読み出される。視点情報は視点情報表示部５３により読み出される。なお、視点情報は、コンテンツの視点として、視点＃１乃至＃５が用意されていることを表す情報である。

視点情報表示部５３は、オブジェクトデータ記憶部５２から読み出した視点情報に従って、再生する視点の選択に用いられる画面である視点選択画面をディスプレイ１７に表示させる。視点選択画面には、視点＃１乃至＃５の複数の視点があらかじめ用意されていることが示される。

視点選択画面おいては、複数の視点があることがアイコンや文字によって示されるようにしてもよいし、各視点を表すサムネイル画像によって示されるようにしてもよい。ユーザは、入力部１６を操作し、複数の視点の中から所定の視点を選択する。視点選択画面を用いてユーザにより選択された視点を表す選択視点情報が、レンダリングパラメータ選択部５１に入力される。

レンダリング部５４は、各オーディオオブジェクトの波形データをオブジェクトデータ記憶部５２から読み出して取得する。また、レンダリング部５４は、レンダリングパラメータ選択部５１から供給された、ユーザにより選択された視点に対するレンダリングパラメータを取得する。

レンダリング部５４は、レンダリングパラメータ選択部５１から取得したレンダリングパラメータに従って各オーディオオブジェクトの波形データをレンダリングし、各チャンネルのオーディオ信号をスピーカ１８に出力する。

例えば、スピーカ１８が、左右に３０°ずつ開かれた2chスピーカシステムであり、視点＃１が選択されているものとする。この場合、レンダリング部５４は、図３のレンダリングパラメータに基づいて図５に示すゲイン配分を求め、求めたゲイン配分に従って、各オーディオオブジェクトのオーディオ信号をＬＲの各チャンネルに割り当てるようにして再生を行う。スピーカ１８においては、レンダリング部５４から供給されたオーディオ信号に基づいてコンテンツの音声が出力され、これにより、図４に示すような定位での再生が実現される。

スピーカ１８が、5.1chや22.2chのような三次元のスピーカシステムにより構成される場合、レンダリング部５４は、VBAP等のレンダリング手法を用いて、それぞれのスピーカシステムに応じた各チャンネルのオーディオ信号を生成することになる。

ここで、図１０のフローチャートを参照して、以上のような構成を有する再生装置１のオーディオ再生処理について説明する。

図１０の処理は、再生対象とするコンテンツが選択され、視聴する視点が視点選択画面を用いてユーザにより選択されたときに開始される。ユーザにより選択された視点を表す選択視点情報はレンダリングパラメータ選択部５１に入力される。なお、ビデオの再生については、ユーザにより選択された視点の映像を表示するための処理がビデオ再生部３４により行われる。

ステップＳ１において、レンダリングパラメータ選択部５１は、入力された選択視点情報に従って、選択された視点に対するレンダリングパラメータをオブジェクトデータ記憶部５２から選択する。レンダリングパラメータ選択部５１は、選択したレンダリングパラメータをレンダリング部５４に出力する。

ステップＳ２において、レンダリング部５４は、各オーディオオブジェクトの波形データをオブジェクトデータ記憶部５２から読み出して取得する。

ステップＳ３において、レンダリング部５４は、レンダリングパラメータ選択部５１から供給されたレンダリングパラメータに従って各オーディオオブジェクトの波形データのレンダリングを行う。

ステップＳ４において、レンダリング部５４は、レンダリングを行うことによって得られた各チャンネルのオーディオ信号をスピーカ１８に出力し、各オーディオオブジェクトの音声を出力させる。

コンテンツの再生が行われている間、以上の処理が繰り返し行われる。例えば、コンテンツの再生中にユーザにより視点が切り替えられた場合、レンダリングに用いられるレンダリングパラメータも、新たに選択された視点に対するレンダリングパラメータに切り替えられる。

以上のように、各オーディオオブジェクトのレンダリングパラメータが視点毎に用意され、それを用いて再生が行われるため、ユーザは、複数の視点の中から好みの視点を選択し、選択した視点に合った音でコンテンツを視聴することができる。ユーザが選択した視点用として用意されたレンダリングパラメータを用いて再生された音は、コンテンツ制作者によって作り込まれた音楽性の高い音ということができる。

仮に、全ての視点に共通のものとして１つのレンダリングパラメータが用意されており、視点が選択された場合に、選択された視点の位置関係の変化を機械的に反映するようにレンダリングパラメータを補正して再生に用いるとしたとき、その音は、コンテンツ制作者が意図していない音になる可能性があるが、そのようなことを防ぐことができる。

すなわち、以上の処理により、コンテンツ制作者の意図を反映しつつ、視点を選択することができるという点で自由度の高いオーディオデータの再生を実現することができる。

＜３．再生装置の他の構成例＞
図１１は、オーディオ再生部３３の他の構成例を示すブロック図である。

図１１に示すオーディオ再生部３３は、図９の構成と同様の構成を有する。重複する説明については適宜省略する。

図１１の構成を有するオーディオ再生部３３においては、視点によって定位を変更したくないオーディオオブジェクトを指定することができるようになっている。上述したオーディオオブジェクトのうち、例えば、解説音声については、視点の位置に関わらず定位を固定させた方が好ましいことがある。

定位を固定させるオーディオオブジェクトである固定オブジェクトを表す情報が、固定オブジェクト情報としてレンダリングパラメータ選択部５１に入力される。固定オブジェクトは、ユーザにより指定されるようにしてもよいし、コンテンツ制作者により指定されるようにしてもよい。

図１１のレンダリングパラメータ選択部５１は、固定オブジェクト情報により指定された固定オブジェクトのレンダリングパラメータとして、デフォルトのレンダリングパラメータをオブジェクトデータ記憶部５２から読み出し、レンダリング部５４に出力する。

デフォルトのレンダリングパラメータとして、例えば、視点＃１に対するレンダリングパラメータが用いられるようにしてもよいし、専用のレンダリングパラメータが用意されるようにしてもよい。

また、レンダリングパラメータ選択部５１は、固定オブジェクト以外のオーディオオブジェクトについては、ユーザにより選択された視点に対するレンダリングパラメータをオブジェクトデータ記憶部５２から読み出し、レンダリング部５４に出力する。

レンダリング部５４は、レンダリングパラメータ選択部５１から供給されたデフォルトのレンダリングパラメータと、ユーザにより選択された視点に対するレンダリングパラメータに基づいて、各オーディオオブジェクトのレンダリングを行う。レンダリング部５４は、レンダリングを行うことによって得られた各チャンネルのオーディオ信号をスピーカ１８に出力する。

全てのオーディオオブジェクトについて、選択された視点に応じたレンダリングパラメータではなく、デフォルトのレンダリングパラメータを用いてレンダリングが行われるようにしてもよい。

図１２は、オーディオ再生部３３のさらに他の構成例を示すブロック図である。

図１２に示すオーディオ再生部３３の構成は、オブジェクトデータ記憶部５２とレンダリング部５４の間にスイッチ６１が設けられている点で、図９の構成と異なる。

図１２の構成を有するオーディオ再生部３３においては、再生するオーディオオブジェクト、または再生しないオーディオオブジェクトを指定することができるようになっている。再生に必要なオーディオオブジェクトを表す情報が、再生オブジェクト情報としてスイッチ６１に入力される。再生に必要なオブジェクトは、ユーザにより指定されるようにしてもよいし、コンテンツ制作者により指定されるようにしてもよい。

図１２のスイッチ６１は、再生オブジェクト情報により指定されたオーディオオブジェクトの波形データをレンダリング部５４に出力する。

レンダリング部５４は、レンダリングパラメータ選択部５１から供給された、ユーザにより選択された視点に対するレンダリングパラメータに基づいて、再生に必要なオーディオオブジェクトの波形データのレンダリングを行う。すなわち、レンダリング部５４は、再生に必要のないオーディオオブジェクトについては、レンダリングを行わないことになる。

レンダリング部５４は、レンダリングを行うことによって得られた各チャンネルのオーディオ信号をスピーカ１８に出力する。

これにより、ユーザは、例えば、再生に必要のないオーディオオブジェクトとしてメインギターを指定することにより、手本となるメインギターの音をミュートさせ、教則ビデオを視聴しながら自分の演奏を重畳させるといったことが可能となる。この場合、メインギター以外のオーディオオブジェクトの波形データだけが、オブジェクトデータ記憶部５２からレンダリング部５４に供給されることになる。

レンダリング部５４に対する波形データの出力を制御するのではなく、ゲインを制御することによってミュートが実現されるようにしてもよい。この場合、再生オブジェクト情報はレンダリング部５４に入力される。レンダリング部５４は、再生オブジェクト情報に従って例えばメインギターのゲインを０とし、他のオーディオオブジェクトのゲインを、レンダリングパラメータ選択部５１から供給されたレンダリングパラメータに従って調整してレンダリングを行う。

このように、選択した視点に依らずに定位を固定させたり、必要な音だけを再生させたりして、ユーザが、嗜好に合わせてコンテンツを再生することができるようにしてもよい。

＜４．レンダリングパラメータの例＞
特に音楽コンテンツの制作において、各楽器の音作りは、定位やゲインによる調整以外にも、例えばイコライザによって音質を調整したり、リバーブによって残響成分を付加したりして行われる。音作りに用いられるこのようなパラメータについても、定位情報やゲイン情報と共にメタデータとしてオーディオデータに付加され、レンダリングに用いられるようにしてもよい。

定位情報やゲイン情報に付加される他のパラメータについても、視点毎に用意される。

図１３は、レンダリングパラメータの他の例を示す図である。

図１３の例においては、レンダリングパラメータとして、定位情報とゲイン情報のほか、イコライザ情報、コンプレッサー情報、およびリバーブ情報が含まれる。

イコライザ情報は、イコライザによる音響調整に用いるフィルタタイプ、フィルタの中心周波数、尖鋭度、ゲイン、およびプリゲインの各情報から構成される。コンプレッサー情報は、コンプレッサーによる音響調整に用いる周波数帯域幅、スレッショルド、レシオ、ゲイン、アタック時間、およびリリース時間の各情報から構成される。リバーブ情報は、リバーブによる音響調整に用いる初期反射時間、初期反射ゲイン、残響時間、残響ゲイン、Dumping、およびDry/Wet係数の各情報から構成される。

レンダリングパラメータに含めるパラメータを、図１３に示す情報以外の情報とすることも可能である。

図１４は、図１３に示す情報を含むレンダリングパラメータの処理に対応したオーディオ再生部３３の構成例を示すブロック図である。

図１４に示すオーディオ再生部３３の構成は、レンダリング部５４が、イコライザ部７１、残響成分付加部７２、コンプレッション部７３、およびゲイン調整部７４から構成されている点で、図９の構成と異なる。

レンダリングパラメータ選択部５１は、入力された選択視点情報に従って、ユーザにより選択された視点に対するレンダリングパラメータをオブジェクトデータ記憶部５２から読み出し、レンダリング部５４に出力する。

レンダリングパラメータ選択部５１から出力されたレンダリングパラメータに含まれるイコライザ情報、コンプレッサー情報、リバーブ情報は、それぞれ、イコライザ部７１、残響成分付加部７２、コンプレッション部７３に供給される。また、レンダリングパラメータに含まれる定位情報とゲイン情報はゲイン調整部７４に供給される。

オブジェクトデータ記憶部５２は、各オーディオオブジェクトの波形データ、視点情報とともに、各視点に対する各オーディオオブジェクトのレンダリングパラメータを記憶する。オブジェクトデータ記憶部５２が記憶するレンダリングパラメータには、図１３に示す各情報が含まれる。オブジェクトデータ記憶部５２が記憶する各オーディオオブジェクトの波形データはレンダリング部５４に供給される。

レンダリング部５４は、各オーディオオブジェクトの波形データに対して、レンダリングパラメータ選択部５１から供給された各レンダリングパラメータに従ってそれぞれの音質調整処理を行う。レンダリング部５４は、音質調整処理を行うことによって得られた波形データに対してゲイン調整を行い、オーディオ信号をスピーカ１８に出力する。

すなわち、レンダリング部５４のイコライザ部７１は、各オーディオオブジェクトの波形データに対して、イコライザ情報に基づいたイコライジング処理を行い、イコライジング処理によって得られた波形データを残響成分付加部７２に出力する。

残響成分付加部７２は、残響成分を付加する処理をリバーブ情報に基づいて行い、残響成分を付加した波形データをコンプレッション部７３に出力する。

コンプレッション部７３は、残響成分付加部７２から供給された波形データに対して、コンプレッサー情報に基づいたコンプレッション処理を行い、コンプレッション処理によって得られた波形データをゲイン調整部７４に出力する。

ゲイン調整部７４は、コンプレッション部７３から供給された波形データのゲイン調整を定位情報とゲイン情報に基づいて行い、ゲイン調整を行うことによって得られた、各チャンネルのオーディオ信号をスピーカ１８に出力する。

以上のようなレンダリングパラメータを用いることにより、コンテンツ制作者は、各視点に対するオーディオオブジェクトのレンダリング再生に自身の音作りをより反映させることが可能になる。例えば、音の指向性によって、視点毎に音の音色が変わる様子をこれらのパラメータによって再現することができる。また、ある視点ではギターの音が意図的に抑えられるような、コンテンツ制作者の意図的な音のミキシング構成の制御も可能となる。

＜５．自由視点の例＞
以上においては、視点の選択が、レンダリングパラメータが用意された複数の視点を対象として行うことができるものとしたが、任意の視点を自由に選択することができるようにしてもよい。ここでいう任意の視点は、レンダリングパラメータが用意されていない視点である。

この場合、選択された任意の視点のレンダリングパラメータは、その任意の視点に隣接する２つ視点に対するレンダリングパラメータを利用して疑似的に生成される。生成されたレンダリングパラメータを任意の視点のレンダリングパラメータとして適用することで、その任意の視点に対する音をレンダリング再生することが可能になる。

疑似的なレンダリングパラメータの生成に用いるレンダリングパラメータの数は２つに限られるものではなく、３以上の視点のレンダリングパラメータを用いて、任意の視点のレンダリングパラメータが生成されるようにしてもよい。また、隣接する視点のレンダリングパラメータに限らず、任意の視点の近傍にある複数の視点のレンダリングパラメータであれば、どの視点のレンダリングパラメータを用いて疑似的なレンダリングパラメータが生成されるようにしてもよい。

図１５は、２つの視点である視点＃６と視点＃７に対するレンダリングパラメータの例を示す図である。

図１５の例においては、メインギター、サイドギター、ベース、ドラム、および解説音声の各オーディオオブジェクトのレンダリングパラメータとして、定位情報とゲイン情報が含まれる。図１５に示すレンダリングパラメータとして、図１３に示す情報を含むレンダリングパラメータを用いることも可能である。

また、図１５の例において、視点＃６に対するレンダリングパラメータは、メインギターの音を右に１０°、サイドギターの音を右に３０°、ベースの音を左に３０°、ドラムの音を左に１５°、解説音声を０°に定位させることを表す。

一方、視点＃７に対するレンダリングパラメータは、メインギターの音を右に５°、サイドギターの音を右に１０°、ベースの音を左に１０°、ドラムの音を左に８°、解説音声を０°に定位させることを表す。

視点＃６と視点＃７のそれぞれの視点に対する各オーディオオブジェクトの定位イメージを図１６と図１７に示す。図１６に示すように、視点＃６は正面からの視点を想定し、視点＃７は、右手からの視点を想定するものである。

ここで、視点＃６と視点＃７の中間、すなわち、正面やや右の視点が任意視点＃Ｘとして選択されたものとする。任意視点＃Ｘに対して、視点＃６と視点＃７は隣接する視点となる。任意視点＃Ｘは、レンダリングパラメータが用意されていない視点である。

この場合、オーディオ再生部３３においては、視点＃６と視点＃７に対する上述したレンダリングパラメータを用いて、任意視点＃Ｘに対する疑似レンダリングパラメータが生成される。疑似レンダリングパラメータは、例えば、視点＃６と視点＃７に対するレンダリングパラメータに基づく線形補間などの補間処理によって生成される。

図１８は、任意視点＃Ｘに対する疑似レンダリングパラメータの例を示す図である。

図１８の例においては、任意視点＃Ｘに対するレンダリングパラメータは、メインギターの音を右に７．５°、サイドギターの音を右に２０°、ベースの音を左に２０°、ドラムの音を左に１１．５°、解説音声を０°に定位させることを表す。図１８に示す各値は、図１５に示す視点＃６と視点＃７のレンダリングパラメータの各値の中間値であり、線形補間処理により求められたものである。

図１８に示す疑似レンダリングパラメータを用いた各オーディオオブジェクトの定位イメージを図１９に示す。図１９に示すように、任意視点＃Ｘは、図１６に示す視点＃６に対してやや右から見た視点である。

図２０は、以上のようにして疑似レンダリングパラメータを生成する機能を有するオーディオ再生部３３の構成例を示すブロック図である。

図２０に示すオーディオ再生部３３の構成は、レンダリングパラメータ選択部５１とレンダリング部５４の間にレンダリングパラメータ生成部８１が設けられている点で、図９の構成と異なる。任意視点＃Ｘを表す選択視点情報はレンダリングパラメータ選択部５１とレンダリングパラメータ生成部８１に入力される。

レンダリングパラメータ選択部５１は、入力された選択視点情報に従って、ユーザにより選択された任意視点＃Ｘに隣接する複数の視点に対するレンダリングパラメータをオブジェクトデータ記憶部５２から読み出す。レンダリングパラメータ選択部５１は、隣接する複数の視点に対するレンダリングパラメータをレンダリングパラメータ生成部８１に出力する。

レンダリングパラメータ生成部８１は、選択視点情報に基づいて、例えば、任意視点＃Ｘと、レンダリングパラメータが用意されている隣接する複数の視点との相対的な位置関係を特定する。レンダリングパラメータ生成部８１は、特定した位置関係に応じた補間処理を行うことによって、レンダリングパラメータ選択部５１から供給されたレンダリングパラメータに基づいて疑似レンダリングパラメータを生成する。レンダリングパラメータ生成部８１は、生成した疑似レンダリングパラメータを、任意視点＃Ｘに対するレンダリングパラメータとしてレンダリング部５４に出力する。

レンダリング部５４は、レンダリングパラメータ生成部８１から供給された疑似レンダリングパラメータに従って、各オーディオオブジェクトの波形データをレンダリングする。レンダリング部５４は、レンダリングによって得られた各チャンネルのオーディオ信号をスピーカ１８に出力し、任意視点＃Ｘの音声として出力させる。

ここで、図２１のフローチャートを参照して、図２０の構成を有するオーディオ再生部３３によるオーディオ再生処理について説明する。

図２１の処理は、例えば視点情報表示部５３により表示された視点選択画面を用いて、ユーザにより任意視点＃Ｘが選択されたときに開始される。任意視点＃Ｘを表す選択視点情報はレンダリングパラメータ選択部５１とレンダリングパラメータ生成部８１に入力される。

ステップＳ１１において、レンダリングパラメータ選択部５１は、選択視点情報に従って、任意視点＃Ｘに隣接する複数の視点に対するレンダリングパラメータをオブジェクトデータ記憶部５２から選択する。レンダリングパラメータ選択部５１は、選択したレンダリングパラメータをレンダリングパラメータ生成部８１に出力する。

ステップＳ１２において、レンダリングパラメータ生成部８１は、任意視点＃Ｘと、レンダリングパラメータが用意されている隣接する複数の視点との位置関係に応じた補間処理を行うことによって、疑似レンダリングパラメータを生成する。

ステップＳ１３において、レンダリング部５４は、各オーディオオブジェクトの波形データをオブジェクトデータ記憶部５２から読み出して取得する。

ステップＳ１４において、レンダリング部５４は、レンダリングパラメータ生成部８１により生成された疑似レンダリングパラメータに従って各オーディオオブジェクトの波形データのレンダリングを行う。

ステップＳ１５において、レンダリング部５４は、レンダリングを行うことによって得られた各チャンネルのオーディオ信号をスピーカ１８に出力し、各オーディオオブジェクトの音声を出力させる。

以上の処理により、再生装置１は、レンダリングパラメータが用意されていない任意視点＃Ｘに対して定位したオーディオの再生が可能になる。ユーザとしては、任意に自由な視点を選択してコンテンツを視聴することができる。

＜６．コンテンツ生成装置の構成と動作＞
図２２は、以上のような教則ビデオなどのコンテンツを生成するコンテンツ生成装置１０１の機能構成例を示すブロック図である。

コンテンツ生成装置１０１は、例えばコンテンツ制作者により操作される情報処理装置である。コンテンツ生成装置１０１は、基本的に、図７に示す再生装置１と同様のハードウェア構成を有する。

以下、適宜、図７に示す構成をコンテンツ生成装置１０１の構成として引用して説明する。図２２に示す各構成は、コンテンツ生成装置１０１のCPU１１（図７）により所定のプログラムが実行されることによって実現される。

図２２に示すように、コンテンツ生成装置１０１は、ビデオ生成部１１１、メタデータ生成部１１２、オーディオ生成部１１３、多重化部１１４、記録制御部１１５、および送信制御部１１６から構成される。

ビデオ生成部１１１は、外部から入力された映像信号を取得し、多視点の映像信号を所定の符号化方式で符号化することによってビデオデータを生成する。ビデオ生成部１１１は、生成したビデオデータを多重化部１１４に出力する。

メタデータ生成部１１２は、コンテンツ制作者による操作に従って、各オーディオオブジェクトのレンダリングパラメータを、視点毎に生成する。メタデータ生成部１１２は、生成したレンダリングパラメータをオーディオ生成部１１３に出力する。

また、メタデータ生成部１１２は、コンテンツの視点に関する情報である視点情報をコンテンツ制作者による操作に従って生成し、オーディオ生成部１１３に出力する。

オーディオ生成部１１３は、外部から入力された音声信号を取得し、各オーディオオブジェクトの波形データを生成する。オーディオ生成部１１３は、各オーディオオブジェクトの波形データと、メタデータ生成部１１２により生成されたレンダリングパラメータとを対応付けることによってオブジェクトベースのオーディオデータを生成する。

オーディオ生成部１１３は、生成したオブジェクトベースのオーディオデータを、視点情報とともに多重化部１１４に出力する。

多重化部１１４は、ビデオ生成部１１１から供給されたビデオデータとオーディオ生成部１１３から供給されたオーディオデータをMPEG-Hなどの所定の方式で多重化し、コンテンツを生成する。コンテンツを構成するオーディオデータには視点情報も含まれる。多重化部１１４は、オブジェクトベースのオーディオデータを含むコンテンツを生成する生成部として機能する。

多重化部１１４は、コンテンツの提供が記録媒体を介して行われる場合、生成したコンテンツを記録制御部１１５に出力し、ネットワークを介して行われる場合、生成したコンテンツを送信制御部１１６に出力する。

記録制御部１１５は、ドライブ２１を制御し、多重化部１１４から供給されたコンテンツをリムーバブルメディア２２に記録する。記録制御部１１５によりコンテンツが記録されたリムーバブルメディア２２は再生装置１に提供される。

送信制御部１１６は、通信部２０を制御し、多重化部１１４から供給されたコンテンツを再生装置１に送信する。

ここで、図２３のフローチャートを参照して、以上のような構成を有するコンテンツ生成装置１０１のコンテンツ生成処理について説明する。

ステップＳ１０１において、ビデオ生成部１１１は、外部から入力された映像信号を取得し、多視点の映像信号を含むビデオデータを生成する。

ステップＳ１０２において、メタデータ生成部１１２は、コンテンツ制作者による操作に従って、各オーディオオブジェクトのレンダリングパラメータを視点毎に生成する。

ステップＳ１０３において、オーディオ生成部１１３は、外部から入力された音声信号を取得し、各オーディオオブジェクトの波形データを生成する。また、オーディオ生成部１１３は、各オーディオオブジェクトの波形データとメタデータ生成部１１２により生成されたレンダリングパラメータとを対応付けることによってオブジェクトベースのオーディオデータを生成する。

ステップＳ１０４において、多重化部１１４は、ビデオ生成部１１１により生成されたビデオデータとオーディオ生成部１１３により生成されたオーディオデータを多重化し、コンテンツを生成する。

以上の処理により生成されたコンテンツは、所定の経路を介して再生装置１に提供され、再生装置１において再生される。

＜７．変形例＞
再生装置１により再生されるコンテンツが、ビデオデータと、オブジェクトベースのオーディオデータとを含むものであるとしたが、ビデオデータを含まずに、オブジェクトベースのオーディオデータからなるコンテンツであってもよい。レンダリングパラメータが用意されている聴取位置の中から所定の聴取位置が選択された場合、選択された聴取位置に対するレンダリングパラメータを用いて、各オーディオオブジェクトの再生が行われる。

以上においては、レンダリングパラメータがコンテンツ制作者により決定されるものとしたが、コンテンツを視聴するユーザ自身が決定することができるようにしてもよい。また、ユーザ自身が決定した視点毎のレンダリングパラメータを、インターネット等を経由して他のユーザに提供することができるようにしてもよい。

そのようにして提供されたレンダリングパラメータを用いたレンダリング再生により、他のユーザが意図した音が再生されることになる。なお、ユーザが設定可能なパラメータの種類や値をコンテンツ制作者が制限することができるようにしてもよい。

上述した各実施の形態は、その２つ以上を適宜組み合わせて用いることが可能である。
例えば、図１１を参照して説明したように、定位を変更したくないオーディオオブジェクトを指定することができる場合において、図１２を参照して説明したように、再生に必要なオーディオオブジェクトを指定することができるようにしてもよい。

＜＜第２の実施の形態＞＞
＜１．配信システムの構成例＞
図２４は、レンダリングパラメータが視点毎に用意される上述したようなオブジェクトオーディオを含むコンテンツを配信する配信システムの構成例を示す図である。

図２４の配信システムにおいては、コンテンツの制作者により管理されるコンテンツ生成装置１０１は、音楽ライブが行われている会場＃１に設置される。一方、再生装置１はユーザの自宅に設置される。再生装置１とコンテンツ生成装置１０１は、インターネット２０１を介して接続される。

コンテンツ生成装置１０１は、多視点の映像を含むビデオデータと、複数の視点のそれぞれのレンダリングパラメータを含むオブジェクトオーディオからなるコンテンツを生成する。コンテンツ生成装置１０１により生成されたコンテンツは、例えば図示せぬサーバに送信され、サーバを介して、再生装置１に提供される。

再生装置１は、コンテンツ生成装置１０１から送信されたコンテンツを受信し、ユーザにより選択された視点のビデオデータを再生する。また、再生装置１は、ユーザにより選択された視点のレンダリングパラメータを用いて、オブジェクトオーディオのレンダリングを行い、音楽ライブの音声を出力する。

例えば、コンテンツ生成装置１０１によるコンテンツの生成と送信は、音楽ライブの進行に追従してリアルタイムで行われる。再生装置１のユーザは、音楽ライブを遠隔においてほぼリアルタイムで視聴することができる。

図２４の例においては、コンテンツの配信を受ける再生装置として再生装置１のみが示されているが、実際には多くの再生装置がインターネット２０１に接続される。

再生装置１のユーザは、任意の視点を自由に選択し、オブジェクトオーディオを聞くことができるようになされている。ユーザにより選択された視点のレンダリングパラメータがコンテンツ生成装置１０１から送信されてきていない場合、再生装置１は、選択された視点のレンダリングパラメータを生成し、オブジェクトオーディオのレンダリングを行う。

上述した例においては、レンダリングパラメータが線形補間により生成されるものとしたが、図２４の再生装置１においては、ニューラルネットワークにより構成されるパラメータ推定器を用いて生成される。再生装置１は、会場＃１において行われた音楽ライブのオーディオデータを用いて学習を行うことによって生成されたパラメータ推定器を有している。パラメータ推定器を用いたレンダリングパラメータの生成については後述する。

図２５は、再生装置１とコンテンツ生成装置１０１の構成例を示すブロック図である。

図２５には、再生装置１とコンテンツ生成装置１０１の一部の構成のみが示されているが、再生装置１は図８に示す構成を有している。また、コンテンツ生成装置１０１は図２２に示す構成を有している。

コンテンツ生成装置１０１は、オーディオエンコーダ２１１とメタデータエンコーダ２１２を有する。オーディオエンコーダ２１１はオーディオ生成部１１３（図２２）に対応し、メタデータエンコーダ２１２はメタデータ生成部１１２に対応する。

オーディオエンコーダ２１１は、音楽ライブ中の音声信号を取得し、各オーディオオブジェクトの波形データを生成する。

メタデータエンコーダ２１２は、コンテンツ制作者による操作に従って、各オーディオオブジェクトのレンダリングパラメータを視点毎に生成する。

オーディオエンコーダ２１１により生成された波形データとメタデータエンコーダ２１２により生成されたレンダリングパラメータは、オーディオ生成部１１３において対応付けられることによって、オブジェクトベースのオーディオデータが生成される。オブジェクトベースのオーディオデータは、多重化部１１４においてビデオデータと多重化された後、送信制御部１１６により、再生装置１に対して送信される。

再生装置１は、オーディオデコーダ２２１、メタデータデコーダ２２２、および再生部２２３を有する。オーディオデコーダ２２１、メタデータデコーダ２２２、および再生部２２３は、オーディオ再生部３３（図８）を構成する。再生装置１のコンテンツ取得部３１においては、コンテンツ生成装置１０１から送信されてきたコンテンツが取得され、オブジェクトベースのオーディオデータとビデオデータが分離部３２により分離される。

オーディオデコーダ２２１に対しては、オブジェクトベースのオーディオデータが入力される。また、メタデータデコーダ２２２に対しては、各視点のレンダリングパラメータが入力される。

オーディオデコーダ２２１は、オーディオデータをデコードし、各オーディオオブジェクトの波形データを再生部２２３に出力する。

メタデータデコーダ２２２は、ユーザにより選択された視点に応じたレンダリングパラメータを再生部２２３に出力する。

再生部２２３は、メタデータデコーダ２２２から供給されたレンダリングパラメータに従って各オーディオオブジェクトの波形データのレンダリングを行い、各チャンネルのオーディオ信号に応じた音声をスピーカから出力させる。

介在する構成を省略して示した場合、図２５に示すように、オーディオエンコーダ２１１により生成された各オーディオオブジェクトの波形データがオーディオデコーダ２２１に供給されることになる。また、メタデータエンコーダ２１２により生成されたレンダリングパラメータがメタデータデコーダ２２２に供給されることになる。

図２６は、メタデータデコーダ２２２の構成例を示すブロック図である。

図２６に示すように、メタデータデコーダ２２２は、メタデータ取得部２３１、レンダリングパラメータ選択部２３２、レンダリングパラメータ生成部２３３、および蓄積部２３４から構成される。

メタデータ取得部２３１は、オーディオデータに含める形で送信されてきた視点毎のレンダリングパラメータを受信し、取得する。メタデータ取得部２３１により取得されたレンダリングパラメータは、レンダリングパラメータ選択部２３２、レンダリングパラメータ生成部２３３、および蓄積部２３４に供給される。

レンダリングパラメータ選択部２３２は、入力された選択視点情報に基づいて、ユーザにより選択された視点を特定する。レンダリングパラメータ選択部２３２は、メタデータ取得部２３１から供給されたレンダリングパラメータの中に、ユーザにより選択された視点のレンダリングパラメータがある場合、ユーザにより選択された視点のレンダリングパラメータを出力する。

また、レンダリングパラメータ選択部２３２は、ユーザにより選択された視点のレンダリングパラメータがない場合、選択視点情報をレンダリングパラメータ生成部２３３に出力し、レンダリングパラメータの生成を行わせる。

レンダリングパラメータ生成部２３３は、パラメータ推定器を有する。レンダリングパラメータ生成部２３３は、パラメータ推定器を用いて、ユーザにより選択された視点のレンダリングパラメータを生成する。レンダリングパラメータの生成には、メタデータ取得部２３１から供給された現在のレンダリングパラメータと、蓄積部２３４から読み出した過去のレンダリングパラメータがパラメータ推定器の入力として用いられる。レンダリングパラメータ生成部２３３は、生成したレンダリングパラメータを出力する。レンダリングパラメータ生成部２３３が生成するレンダリングパラメータは、上述した疑似レンダリングパラメータに相当する。

このように、レンダリングパラメータ生成部２３３によるレンダリングパラメータの生成は、コンテンツ生成装置１０１から過去に送信されてきたレンダリングパラメータをも用いて行われる。例えば、会場＃１において音楽ライブが毎日行われており、そのコンテンツの配信が毎日行われている場合、コンテンツ生成装置１０１（メタデータエンコーダ２１２）からは、レンダリングパラメータが毎日送信されてくる。

図２７は、レンダリングパラメータ生成部２３３が有するパラメータ推定器の入出力の例を示す図である。

矢印Ａ１乃至Ａ３に示すように、パラメータ推定器２３３Ａに対しては、ユーザにより選択された視点の情報の他に、メタデータエンコーダ２１２から送信されてきた現在（直近）のレンダリングパラメータ、および過去のレンダリングパラメータが入力される。

ここで、レンダリングパラメータには、パラメータ情報とレンダリング情報が含まれる。パラメータ情報は、オーディオオブジェクトの種類を示す情報、オーディオオブジェクトの位置情報、視点位置情報、および日付と時刻の情報を含む情報である。一方、レンダリング情報は、利得などの、波形データの特性に関する情報である。レンダリングパラメータを構成する情報の詳細については後述する。

このような各情報が入力された場合、矢印Ａ４に示すように、パラメータ推定器２３３Ａからは、ユーザにより選択された視点のレンダリング情報が出力される。

レンダリングパラメータ生成部２３３は、メタデータエンコーダ２１２から送信されてきたレンダリングパラメータを用いて、適宜、パラメータ推定器２３３Ａの学習を行う。
パラメータ推定器２３３Ａの学習は、新たなレンダリングパラメータが送信されてきたときなどの所定のタイミングで行われる。

蓄積部２３４は、メタデータ取得部２３１から供給されたレンダリングパラメータを記憶する。蓄積部２３４には、メタデータエンコーダ２１２から送信されてくるレンダリングパラメータが蓄積される。

＜２．レンダリングパラメータの生成例＞
ここで、レンダリングパラメータ生成部２３３によるレンダリングパラメータの生成について説明する。

（１）複数のオーディオオブジェクトがあると仮定する。
オブジェクトのオーディオデータは下のように定義される。
x(n,i) i=0,1,2,…,L-1

nは時間インデックスである。また、iはオブジェクトの種類を表す。ここでは、オブジェクトの数はLである。

（２）複数の視点があると仮定する。
各視点に対応するオブジェクトのレンダリング情報は下のように定義される。
r(i,j) j=0,1,2,…,M-1

jは視点の種類を表す。視点の数はMである。

（３）各視点に対応するオーディオデータy(n,j)は下式（１）により表される。

ここでは、レンダリング情報rは利得（ゲイン情報）であると仮定する。この場合、レンダリング情報rの値域は0～1である。各視点のオーディオデータは、各オブジェクトのオーディオデータに利得をかけ、全オブジェクトのオーディオデータを加算したものとして表される。式（１）に示すような演算が、再生部２２３により行われる。

（４）ユーザが指定する視点がj=0,1,2,…,M-1のいずれの視点でもない場合、過去のレンダリングパラメータ、現在のレンダリングパラメータを用いて、ユーザが指定する視点のレンダリングパラメータが生成される。

（５）各視点に対応するオブジェクトのレンダリング情報は、オブジェクトの種類、オブジェクトの位置、視点の位置、および時刻によって下のように定義される。
r(obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_z, date_time)

obj_typeは、オブジェクトの種類を示す情報であり、例えば楽器の種類を示す。

obj_loc_x, obj_loc_y, obj_loc_zは、三次元空間上のオブジェクトの位置を示す情報である。

lis_loc_x, lis_loc_y, lis_loc_zは、三次元空間上の視点の位置を示す情報である。

date_timeは、演奏が行われた日付と時刻を表す情報である。

メタデータエンコーダ２１２からは、このような、obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_z, date_timeから構成されるパラメータ情報が、レンダリング情報rとともに送信されてくる。

以下、具体的に説明する。

（６）例えば、ベース、ドラム、ギター、ボーカルの各オブジェクトが、図２８に示すように配置されるものとする。図２８は、会場＃１にあるステージ＃１１を真上から見た図である。

（７）会場＃１に対して、図２９に示すようにＸＹＺの各軸が設定される。図２９は、ステージ＃１１と観覧席を含む会場＃１全体を斜め方向から見た図である。原点Ｏはステージ＃１１上の中心位置である。観覧席には、視点１～５が設定されている。

各オブジェクトの座標が以下のように表されるものとする。単位はメートルである。
ベースの座標：x=-20, y=0, z=0
ドラムの座標：x=0, y=-10, z=0
ギターの座標：x=20, y=0, z=0
ボーカルの座標：x=0, y=10, z=0

（８）各視点の座標が以下のように表されるものとする。
視点１：x=0, y=50, z=-1
視点２：x=-20, y=30, z=-1
視点３：x=20, y=30, z=-1
視点４：x=-20, y=70, z=-1
視点５：x=20, y=70, z=-1

（９）このとき、例えば視点１の各オブジェクトのレンダリング情報は、以下のように表される。
ベースのレンダリング情報
：r(0, -20, 0, 0, 0, 50, -1, 2014.11.5.18.34.50)
ドラムのレンダリング情報
：r(1, 0, -10, 0, 0, 50, -1, 2014.11.5.18.34.50)
ギターのレンダリング情報
：r(2, 20, 0, 0, 0, 50, -1, 2014.11.5.18.34.50)
ボーカルのレンダリング情報
：r(3, 0, 10, 0, 0, 50, -1, 2014.11.5.18.34.50)

音楽ライブが行われた日付と時刻は、2014年11月5日18時34分50秒であるものとする。
また、各オブジェクトのobj_typeは以下の値をとるものとする。
ベース：obj_type=0
ドラム：obj_type=1
ギター：obj_type=2
ボーカル：obj_type=3

視点１～５の各視点について、以上のようにして表されるパラメータ情報とレンダリング情報を含むレンダリングパラメータがメタデータエンコーダ２１２から送信されてくる。視点１～５の各視点のレンダリングパラメータを図３０、図３１に示す。

（１０）このとき、上式（１）から、視点１を選択した場合のオーディオデータは下式（２）のように表される。

ただし、x(n,i)について、iは以下のオブジェクトを表すものとする。
i=0：ベースのオブジェクト
i=1：ドラムのオブジェクト
i=2：ギターのオブジェクト
i=3：ボーカルのオブジェクト

（１１）視聴位置として、図３２に破線で示す視点６がユーザにより指定されたものとする。視点６のレンダリングパラメータはメタデータエンコーダ２１２から送信されてきていない。視点６の座標は以下のように表されるものとする。
視点６：x=0, y=30, z=-1

この場合、現在（2014.11.5.18.34.50）の視点１～５のレンダリングパラメータ、および過去（2014.11.5.18.34.50よりも前）に送られてきた、近接する視点のレンダリングパラメータを用いて、現在の視点６のレンダリングパラメータが生成される。過去のレンダリングパラメータは蓄積部２３４から読み出される。

（１２）例えば、図３３に示す視点２Ａと視点３Ａのレンダリングパラメータが過去に送られてきているものとする。視点２Ａは、視点２と視点４の間の位置にあり、視点３Ａは、視点３と視点５の間の位置にある。視点２Ａと視点３Ａの座標は以下のように表されるものとする。
視点２Ａ：x=-20, y=40, z=-1
視点３Ａ：x=20, y=40, z=-1

視点２Ａ，３Ａの各視点のレンダリングパラメータを図３４に示す。図３４においても、各オブジェクトのobj_typeは以下の値をとる。
ベース：obj_type=0
ドラム：obj_type=1
ギター：obj_type=2
ボーカル：obj_type=3

このように、メタデータエンコーダ２１２からレンダリングパラメータが送信されてくる視点の位置は、常に固定の位置ではなく、そのときによって異なる位置となる。蓄積部２３４には、会場＃１の様々な位置を視点としたときのレンダリングパラメータが記憶されている。

なお、ベース、ドラム、ギター、ボーカルの各オブジェクトの構成や位置は、推定に用いる現在のレンダリングパラメータと過去のレンダリングパラメータにおいて同じであることが望ましいが、異なっていてもよい。

（１３）視点６のレンダリング情報の推定方法
パラメータ推定器２３３Ａに対しては、以下の情報が入力される。
・視点１～５のパラメータ情報とレンダリング情報（図３０、図３１）
・視点２Ａ，３Ａのパラメータ情報とレンダリング情報（図３４）
・視点６のパラメータ情報（図３５）

図３５において、lis_loc_x, lis_loc_y, lis_loc_zは、ユーザにより選択された視点６の位置を表す。また、data_timeとして、現在の日付と時刻を表す2014.11.5.18.34.50が用いられる。

パラメータ推定器２３３Ａの入力として用いられる視点６のパラメータ情報は、例えば、視点１～５のパラメータ情報やユーザにより選択された視点の位置に基づいて、レンダリングパラメータ生成部２３３により生成される。

このような各情報が入力された場合、パラメータ推定器２３３Ａからは、図３５の右端列に示すような、視点６の各オブジェクトのレンダリング情報が出力される。
ベース（obj_type=0）のレンダリング情報
：r(0, -20, 0, 0, 0, 30, -1, 2014.11.5.18.34.50)
ドラム（obj_type=1）のレンダリング情報
：r(1, 0, -10, 0, 0, 30, -1, 2014.11.5.18.34.50)
ギター（obj_type=2）のレンダリング情報
：r(2, 20, 0, 0, 0, 30, -1, 2014.11.5.18.34.50)
ボーカル（obj_type=3）のレンダリング情報
：r(3, 0, 10, 0, 0, 30, -1, 2014.11.5.18.34.50)

パラメータ推定器２３３Ａから出力されたレンダリング情報は、視点６のパラメータ情報とともに再生部２２３に供給され、レンダリングに用いられる。このように、パラメータ生成部２３３は、レンダリングパラメータが用意されていない視点のパラメータ情報と、パラメータ推定器２３３Ａを用いて推定したレンダリング情報からなるレンダリングパラメータを生成し、出力する。

（１４）パラメータ推定器２３３Ａの学習
レンダリングパラメータ生成部２３３は、メタデータエンコーダ２１２から送信され、蓄積部２３４に蓄積されたレンダリングパラメータを学習用データとして用いて、パラメータ推定器２３３Ａの学習を行う。

パラメータ推定器２３３Ａの学習は、メタデータエンコーダ２１２から送信されてきたレンダリング情報ｒを教師データとして行われる。例えば、レンダリングパラメータ生成部２３３は、レンダリング情報ｒと、ニューラルネットワークの出力r＾との誤差（r＾-r）が小さくなるように係数を調整することによって、パラメータ推定器２３３Ａの学習を行う。

コンテンツ生成装置１０１から送信されてきたレンダリングパラメータを用いた学習が行われることにより、パラメータ推定器２３３Ａは、会場＃１の所定の位置を視点としたときのレンダリングパラメータの生成に用いられる、会場＃１用の推定器となる。

以上においては、レンダリング情報rが0から1の値をとる利得であるものとしたが、図１３を参照して説明したような、イコライザ情報、コンプレッサー情報、リバーブ情報が含まれるようにしてもよい。すなわち、レンダリング情報rについては、利得、イコライザ情報、コンプレッサー情報、リバーブ情報のうちの少なくともいずれかを表す情報とすることが可能である。

また、パラメータ推定器２３３Ａが、図２７に示す各情報を入力とするものとしたが、単に、視点６のパラメータ情報を入力としたときに、レンダリング情報rを出力するようなニューラルネットワークとして構成されるようにしてもよい。

＜３．配信システムの他の構成例＞
図３６は、配信システムの他の構成例を示す図である。上述した構成と同じ構成には同じ符号を付してある。重複する説明については省略する。図３７以降についても同様である。

図３６の例においては、音楽ライブが行われている会場として会場＃１－１乃至＃１－３がある。会場＃１－１乃至＃１－３にはそれぞれコンテンツ生成装置１０１－１乃至１０１－３が設置される。コンテンツ生成装置１０１－１乃至１０１－３を区別する必要がない場合、まとめてコンテンツ生成装置１０１という。

コンテンツ生成装置１０１－１乃至１０１－３は、それぞれ、図２４のコンテンツ生成装置１０１と同様の機能を有する。すなわち、コンテンツ生成装置１０１－１乃至１０１－３は、それぞれの会場で行われている音楽ライブを収録したコンテンツを、インターネット２０１を介して配信する。

再生装置１は、ユーザにより選択された音楽ライブが行われている会場に設置されたコンテンツ生成装置１０１が配信するコンテンツを受信し、上述したようにして、オブジェクトベースのオーディオデータの再生などを行う。再生装置１のユーザは、所定の会場で行われている音楽ライブを、視点を選択して視聴することができる。

上述した例においては、レンダリングパラメータの生成に用いられるパラメータ推定器が再生装置１において生成されるものとしたが、図３６の例においては、コンテンツ生成装置１０１側で生成されるようになっている。

すなわち、コンテンツ生成装置１０１－１乃至１０１－３は、それぞれ、上述したように過去のレンダリングパラメータを学習用データとして用いるなどしてパラメータ推定器を生成する。

コンテンツ生成装置１０１－１が生成するパラメータ推定器は、会場＃１－１の音響特性や各視聴位置に応じた、会場＃１－１用のパラメータ推定器となる。コンテンツ生成装置１０１－２が生成するパラメータ推定器は会場＃１－２用のパラメータ推定器となり、コンテンツ生成装置１０１－３が生成するパラメータ推定器は会場＃１－３用のパラメータ推定器となる。

再生装置１は、例えば、コンテンツ生成装置１０１－１が生成するコンテンツを再生する場合、会場＃１－１用のパラメータ推定器を取得する。再生装置１は、レンダリングパラメータが用意されていない視点がユーザにより選択された場合、上述したように、現在と過去のレンダリングパラメータを会場＃１－１用のパラメータ推定器に入力し、レンダリングパラメータを生成する。

このように、図３６の配信システムにおいては、会場毎のパラメータ推定器がコンテンツ生成装置１０１側で用意され、再生装置１に提供される。各会場用のパラメータ推定器を用いて任意の視点のレンダリングパラメータが生成されるから、再生装置１のユーザは、各会場の音楽ライブを任意の視点を選択して視聴することができる。

図３７は、再生装置１とコンテンツ生成装置１０１の構成例を示すブロック図である。

図３７に示すコンテンツ生成装置１０１の構成は、パラメータ推定器学習部２１３が設けられている点で、図２５に示す構成と異なる。図３７に示すコンテンツ生成装置１０１の構成と同じ構成を、図３６のコンテンツ生成装置１０１－１乃至１０１－３はそれぞれ有している。

パラメータ推定器学習部２１３は、メタデータエンコーダ２１２により生成されたレンダリングパラメータを学習用データとして用いて、パラメータ推定器の学習を行う。パラメータ推定器学習部２１３は、コンテンツの配信を開始する前などの所定のタイミングで、再生装置１に対してパラメータ推定器を送信する。

再生装置１のメタデータデコーダ２２２のメタデータ取得部２３１は、コンテンツ生成装置１０１から送信されてきたパラメータ推定器を受信し、取得する。メタデータ取得部２３１は、会場に応じたパラメータ推定器を取得する取得部として機能する。

メタデータ取得部２３１により取得されたパラメータ推定器はメタデータデコーダ２２２のレンダリングパラメータ生成部２３３に設定され、適宜、レンダリングパラメータの生成に用いられる。

図３８は、図３７のパラメータ推定器学習部２１３の構成例を示すブロック図である。

パラメータ推定器学習部２１３は、学習部２５１、推定器DB２５２、および推定器提供部２５３から構成される。

学習部２５１は、メタデータエンコーダ２１２により生成されたレンダリングパラメータを学習用データとして用いて、推定器DB２５２に格納されたパラメータ推定器の学習を行う。

推定器提供部２５３は、送信制御部１１６（図２２）を制御し、推定器DB２５２に格納されたパラメータ推定器を再生装置１に送信する。推定器提供部２５３は、パラメータ推定器を再生装置１に提供する提供部として機能する。

このように、会場毎のパラメータ推定器がコンテンツ生成装置１０１側で用意され、コンテンツの再生開始前などの所定のタイミングで再生装置１に提供されるようにすることが可能である。

図３６の例においては、各会場に設置されたコンテンツ生成装置１０１において各会場用のパラメータ推定器が生成されるものとしたが、インターネット２０１に接続されたサーバにおいて生成されるようにすることも可能である。

図３９は、配信システムのさらに他の構成例を示すブロック図である。

図３９の管理サーバ３０１は、会場＃１－１乃至＃１－３に設置されたコンテンツ生成装置１０１－１乃至１０１－３から送信されてきたレンダリングパラメータを受信し、各会場用のパラメータ推定器を学習する。すなわち、図３８のパラメータ推定器学習部２１３を、管理サーバ３０１は有している。

管理サーバ３０１は、所定の会場の音楽ライブのコンテンツを再生装置１が再生する場合、その会場用のパラメータ推定器を再生装置１に送信する。再生装置１は、管理サーバ３０１から送信されてきたパラメータ推定器を適宜用いて、オーディオの再生を行う。

このように、インターネット２０１に接続された管理サーバ３０１を介して、パラメータ推定器の提供が行われるようにしてもよい。なお、パラメータ推定器の学習がコンテンツ生成装置１０１側で行われ、生成されたパラメータ推定器が管理サーバ３０１に提供されるようにしてもよい。

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

・プログラムについて
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。

インストールされるプログラムは、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)等）や半導体メモリなどよりなる図７に示されるリムーバブルメディア２２に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM１２や記憶部１９に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

・組み合わせについて
本技術は、以下のような構成をとることもできる。
（１）
それぞれのオーディオオブジェクトの音声データと、複数の想定聴取位置のそれぞれに対する、前記音声データのレンダリングパラメータとを含むコンテンツを取得する取得部と、
選択された所定の前記想定聴取位置に対する前記レンダリングパラメータに基づいて前記音声データのレンダリングを行い、音声信号を出力するレンダリング部と
を備える再生装置。
（２）
前記コンテンツには、あらかじめ設定された前記想定聴取位置に関する情報がさらに含まれ、
前記想定聴取位置に関する情報に基づいて、前記想定聴取位置の選択に用いられる画面を表示させる表示制御部をさらに備える
前記（１）に記載の再生装置。
（３）
それぞれの前記想定聴取位置に対する前記レンダリングパラメータには、前記オーディオオブジェクトを定位させる位置を表す定位情報と、前記音声データのゲイン調整用のパラメータであるゲイン情報が含まれる
前記（１）または（２）に記載の再生装置。
（４）
前記レンダリング部は、音源位置を固定させる前記オーディオオブジェクトとして選択された前記オーディオオブジェクトの前記音声データのレンダリングを、選択された前記想定聴取位置に対する前記レンダリングパラメータとは異なる前記レンダリングパラメータに基づいて行う
前記（１）乃至（３）のいずれかに記載の再生装置。
（５）
前記レンダリング部は、前記コンテンツの音声を構成する複数の前記オーディオオブジェクトのうち、所定の前記オーディオオブジェクトの前記音声データのレンダリングを行わない
前記（１）乃至（４）のいずれかに記載の再生装置。
（６）
前記想定聴取位置に対する前記レンダリングパラメータに基づいて、それぞれの前記オーディオオブジェクトの、前記レンダリングパラメータが用意されていない前記想定聴取位置に対する前記レンダリングパラメータを生成する生成部をさらに備え、
前記レンダリング部は、それぞれの前記オーディオオブジェクトの前記音声データのレンダリングを、前記生成部により生成された前記レンダリングパラメータを用いて行う
前記（１）乃至（５）のいずれかに記載の再生装置。
（７）
前記生成部は、前記レンダリングパラメータが用意されている近傍の複数の前記想定聴取位置に対する前記レンダリングパラメータに基づいて、前記レンダリングパラメータが用意されていない前記想定聴取位置に対する前記レンダリングパラメータを生成する
前記（６）に記載の再生装置。
（８）
前記生成部は、過去に取得された前記コンテンツに含まれる前記レンダリングパラメータに基づいて、前記レンダリングパラメータが用意されていない前記想定聴取位置に対する前記レンダリングパラメータを生成する
前記（６）に記載の再生装置。
（９）
前記生成部は、前記レンダリングパラメータが用意されていない前記想定聴取位置に対する前記レンダリングパラメータを、推定器を用いて生成する
前記（６）に記載の再生装置。
（１０）
前記取得部は、前記コンテンツの収録が行われる会場に応じた前記推定器を取得し、
前記生成部は、前記取得部により取得された前記推定器を用いて前記レンダリングパラメータを生成する
前記（９）に記載の再生装置。
（１１）
前記推定器は、少なくとも過去に取得された前記コンテンツに含まれる前記レンダリングパラメータを用いた学習によって構成される
前記（９）または（１０）に記載の再生装置。
（１２）
前記コンテンツには、前記想定聴取位置を視点位置とした映像の表示に用いられるビデオデータがさらに含まれ、
前記ビデオデータを再生し、選択された所定の前記想定聴取位置を視点位置とする映像を表示させるビデオ再生部をさらに備える
前記（１）乃至（１１）のいずれかに記載の再生装置。
（１３）
それぞれのオーディオオブジェクトの音声データと、複数の想定聴取位置のそれぞれに対する、前記音声データのレンダリングパラメータとを含むコンテンツを取得し、
選択された所定の前記想定聴取位置に対する前記レンダリングパラメータに基づいて前記音声データのレンダリングを行い、音声信号を出力する
ステップを含む再生方法。
（１４）
コンピュータに、
それぞれのオーディオオブジェクトの音声データと、複数の想定聴取位置のそれぞれに対する、前記音声データのレンダリングパラメータとを含むコンテンツを取得し、
選択された所定の前記想定聴取位置に対する前記レンダリングパラメータに基づいて前記音声データのレンダリングを行い、音声信号を出力する
ステップを含む処理を実行させるプログラム。
（１５）
複数の想定聴取位置のそれぞれに対する、それぞれのオーディオオブジェクトの音声データのレンダリングパラメータを生成するパラメータ生成部と、
それぞれの前記オーディオオブジェクトの前記音声データと、生成された前記レンダリングパラメータとを含むコンテンツを生成するコンテンツ生成部と
を備える情報処理装置。
（１６）
前記パラメータ生成部は、あらかじめ設定された前記想定聴取位置に関する情報をさらに生成し、
前記コンテンツ生成部は、前記想定聴取位置に関する情報をさらに含む前記コンテンツを生成する
前記（１５）に記載の情報処理装置。
（１７）
前記想定聴取位置を視点位置とした映像の表示に用いられるビデオデータを生成するビデオ生成部をさらに備え、
前記コンテンツ生成部は、前記ビデオデータをさらに含む前記コンテンツを生成する
前記（１５）または（１６）に記載の情報処理装置。
（１８）
前記レンダリングパラメータが生成された複数の前記想定聴取位置以外の位置を聴取位置としたときの前記レンダリングパラメータの生成に用いられる推定器を生成する学習部をさらに備える
前記（１５）乃至（１７）のいずれかに記載の情報処理装置。
（１９）
前記コンテンツの再生を行う再生装置に前記推定器を提供する提供部をさらに備える
前記（１８）に記載の情報処理装置。
（２０）
複数の想定聴取位置のそれぞれに対する、それぞれのオーディオオブジェクトの音声データのレンダリングパラメータを生成し、
それぞれの前記オーディオオブジェクトの前記音声データと、生成された前記レンダリングパラメータとを含むコンテンツを生成する
ステップを含む情報処理方法。

１再生装置，３３オーディオ再生部，５１レンダリングパラメータ選択部，５２オブジェクトデータ記憶部，５３視点情報表示部，５４レンダリング部

Claims

それぞれのオーディオオブジェクトの音声データと、複数の想定聴取位置のそれぞれに対する、前記音声データのレンダリングパラメータとを含むコンテンツを取得する取得部と、
前記レンダリングパラメータが用意されていない前記想定聴取位置に対する前記レンダリングパラメータを、前記レンダリングパラメータが用意されている複数の前記想定聴取位置に対する前記レンダリングパラメータに基づいて生成する生成部と、
前記生成部により生成された前記レンダリングパラメータに基づいて前記音声データのレンダリングを行うレンダリング部と
を備え、
前記レンダリングパラメータは、前記オーディオオブジェクトの定位情報、ゲイン情報、イコライザ情報、コンプレッサー情報、リバーブ情報、の少なくともいずれかを含む
再生装置。
前記コンテンツには、あらかじめ設定された前記想定聴取位置に関する情報がさらに含まれ、
前記想定聴取位置に関する情報に基づいて、前記想定聴取位置の選択に用いられる画面を表示させる表示制御部をさらに備える
請求項１に記載の再生装置。
前記定位情報は、前記オーディオオブジェクトを定位させる位置を表す情報であり、
前記ゲイン情報は、前記音声データのゲイン調整用のパラメータである
請求項１または２に記載の再生装置。
前記レンダリング部は、音源位置を固定させる前記オーディオオブジェクトとして選択された前記オーディオオブジェクトの前記音声データのレンダリングを、選択された前記想定聴取位置に対する前記レンダリングパラメータとは異なる前記レンダリングパラメータに基づいて行う
請求項１乃至３のいずれかに記載の再生装置。
前記レンダリング部は、前記コンテンツの音声を構成する複数の前記オーディオオブジェクトのうち、所定の前記オーディオオブジェクトの前記音声データのレンダリングを行わない
請求項１乃至４のいずれかに記載の再生装置。
前記コンテンツには、前記想定聴取位置を視点位置とした映像の表示に用いられるビデオデータがさらに含まれ、
前記ビデオデータを再生し、選択された所定の前記想定聴取位置を視点位置とする映像を表示させるビデオ再生部をさらに備える
請求項１乃至５のいずれかに記載の再生装置。
再生装置が、
それぞれのオーディオオブジェクトの音声データと、複数の想定聴取位置のそれぞれに対する、前記音声データのレンダリングパラメータとを含むコンテンツを取得し、
前記レンダリングパラメータが用意されていない前記想定聴取位置に対する前記レンダリングパラメータを、前記レンダリングパラメータが用意されている複数の前記想定聴取位置に対する前記レンダリングパラメータに基づいて生成し、
生成した前記レンダリングパラメータに基づいて前記音声データのレンダリングを行う
再生方法であって、
前記レンダリングパラメータは、前記オーディオオブジェクトの定位情報、ゲイン情報、イコライザ情報、コンプレッサー情報、リバーブ情報、の少なくともいずれかを含む
再生方法。
コンピュータに、
それぞれのオーディオオブジェクトの音声データと、複数の想定聴取位置のそれぞれに対する、前記音声データのレンダリングパラメータとを含むコンテンツを取得し、
前記レンダリングパラメータが用意されていない前記想定聴取位置に対する前記レンダリングパラメータを、前記レンダリングパラメータが用意されている複数の前記想定聴取位置に対する前記レンダリングパラメータに基づいて生成し、
生成した前記レンダリングパラメータに基づいて前記音声データのレンダリングを行う
処理を実行させるプログラムであって、
前記レンダリングパラメータは、前記オーディオオブジェクトの定位情報、ゲイン情報、イコライザ情報、コンプレッサー情報、リバーブ情報、の少なくともいずれかを含む
プログラム。