JP7468359B2

JP7468359B2 - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP7468359B2
Application number: JP2020558243A
Authority: JP
Inventors: 優樹山本; 徹知念; 実辻; 芳明及川
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-11-20
Filing date: 2019-11-06
Publication date: 2024-04-16
Anticipated expiration: 2039-11-06
Also published as: US20250087220A1; WO2020105423A1; BR112021009306A2; KR20210092728A; US20220020381A1; CN113016032A; JPWO2020105423A1; JP2024079768A; US12198704B2; CN113016032B; EP3886089A1

Description

本技術は、情報処理装置および方法、並びにプログラムに関し、特に、音質に与える影響を抑えつつ、オブジェクトの総数を削減することができるようにした情報処理装置および方法、並びにプログラムに関する。

従来、MPEG（Moving Picture Experts Group）-H 3D Audio規格が知られている（例えば、非特許文献１および非特許文献２参照）。

MPEG-H 3D Audio規格等で扱われる3D Audioでは、３次元的な音の方向や距離、拡がりなどを再現することができ、従来のステレオ再生に比べ、より臨場感のあるオーディオ再生が可能となる。

ISO/IEC 23008-3, MPEG-H 3D Audio ISO/IEC 23008-3:2015/AMENDMENT3, MPEG-H 3D Audio Phase 2

しかしながら3D Audioでは、コンテンツを構成するオブジェクトの数が多い場合、コンテンツ全体のデータサイズが大きくなり、複数の各オブジェクトのデータの復号処理やレンダリング処理などの計算量も多くなってしまう。さらに、例えば運用等でオブジェクト数の上限が定められている場合には、その運用等においては上限を超えるオブジェクト数のコンテンツを取り扱うことができなくなってしまう。

そこで、コンテンツを構成するオブジェクトのなかのいくつかを破棄することで、オブジェクトの総数を削減することも考えられる。しかしながら、そのような場合、オブジェクトの破棄によってコンテンツ全体の音の音質が低下してしまうおそれがある。

本技術は、このような状況に鑑みてなされたものであり、音質に与える影響を抑えつつ、オブジェクトの総数を削減することができるようにするものである。

本技術の一側面の情報処理装置は、空間におけるL個のオーディオオブジェクトのデータを取得し、前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択するパススルーオブジェクト選択部と、前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における（L-M）個よりも少ないN個の新たなオーディオオブジェクトの前記データをレンダリング処理により生成するオブジェクト生成部とを備える。

本技術の一側面の情報処理方法またはプログラムは、空間におけるL個のオーディオオブジェクトのデータを取得し、前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択し、前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における（L-M）個よりも少ないN個の新たなオーディオオブジェクトの前記データをレンダリング処理により生成するステップを含む。

本技術の一側面においては、空間におけるL個のオーディオオブジェクトのデータが取得され、前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトが選択され、前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における（L-M）個よりも少ないN個の新たなオーディオオブジェクトの前記データがレンダリング処理により生成される。

仮想スピーカの位置の決定について説明する図である。プリレンダリング処理装置の構成例を示す図である。オブジェクト出力処理を説明するフローチャートである。符号化装置の構成例を示す図である。符号化装置の構成例を示す図である。復号装置の構成例を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
本技術は、複数のオブジェクトをパススルーオブジェクトと非パススルーオブジェクトに分別し、非パススルーオブジェクトに基づいて新たなオブジェクトを生成することで、音質に与える影響を抑えつつ、オブジェクトの総数を削減できるようにするものである。

なお、本技術においては、オブジェクトはオーディオオブジェクトや画像オブジェクトなど、オブジェクトのデータをもつものであれば、どのようなものであってもよい。

ここでいうオブジェクトのデータとは、例えばオブジェクトのオブジェクト信号およびメタデータである。

具体的には、例えばオブジェクトがオーディオオブジェクトであれば、オブジェクト信号としてのオーディオ信号と、メタデータとがオーディオオブジェクトのデータであり、オブジェクトが画像オブジェクトであれば、オブジェクト信号としての画像信号と、メタデータとが画像オブジェクトのデータである。

以下では、オブジェクトがオーディオオブジェクトである場合を例として説明を行う。

オブジェクトがオーディオオブジェクトである場合、オブジェクトのデータとして、オブジェクトのオーディオ信号とメタデータが扱われる。

ここで、メタデータには、例えば３次元空間におけるオブジェクトの位置を示す位置情報、オブジェクトの優先度を示す優先度情報、オブジェクトのオーディオ信号のゲイン情報、オブジェクトの音の音像の広がりを示すスプレッド情報などが含まれている。

また、オブジェクトの位置情報は、例えば基準となる位置からオブジェクトまでの距離を示す半径、オブジェクトの水平方向の位置を示す水平角度、およびオブジェクトの垂直方向の位置を示す垂直角度からなる。

本技術は、例えばコンテンツを構成する複数のオブジェクト、より詳細にはオブジェクトのデータを入力とし、その入力に応じて適切な数のオブジェクト、より詳細にはオブジェクトのデータを出力するプリレンダリング処理装置に適用することができる。

以下では、入力時のオブジェクト数をnobj_inとし、出力時のオブジェクト数をnobj_outとする。特に、ここではnobj_out＜nobj_inである。つまり、入力されるオブジェクトの数よりも出力されるオブジェクトの数が少なくなるようにされる。

本技術では、入力されたnobj_in個のオブジェクトのうちのいくつかが、何ら変更されることなくそのままデータが出力される、つまりパススルーされるオブジェクトとされる。以下では、そのようなパススルーされるオブジェクトをパススルーオブジェクトと称する。

また、入力されたnobj_in個のオブジェクトのうちのパススルーオブジェクトとされなかったオブジェクトが、パススルーオブジェクトではない非パススルーオブジェクトとされる。本技術では、非パススルーオブジェクトのデータは、新たなオブジェクトのデータの生成に用いられる。

このようにnobj_in個のオブジェクトが入力されると、それらのオブジェクトがパススルーオブジェクトと非パススルーオブジェクトとに分別される。

そして、非パススルーオブジェクトとされたオブジェクトに基づいて、それらの非パススルーオブジェクトの総数よりも少ない数の新たなオブジェクトが生成され、生成された新たなオブジェクトのデータと、パススルーオブジェクトのデータとが出力される。

このようにすることで、本技術では、入力のnobj_in個よりも少ないnobj_out個のオブジェクトが出力されることになり、オブジェクトの総数の削減が実現される。

以下では、パススルーオブジェクトとされるオブジェクトの数をnobj_dynamic個とすることとする。例えばパススルーオブジェクトの個数nobj_dynamicは、以下の式（１）に示される条件を満たす範囲でユーザ等が設定できるものとする。

式（１）に示される条件から、パススルーオブジェクトの個数nobj_dynamicは、０以上で、かつnobj_out個未満とされる。

例えばパススルーオブジェクトの個数nobj_dynamicは、予め定められた個数やユーザの入力操作等により指定された個数とすることができる。しかし、コンテンツ全体のデータ量（データサイズ）や復号時の処理の計算量などに基づいて、予め定められた最大個数以下となるようにパススルーオブジェクトの個数nobj_dynamicが動的に決定されてもよい。この場合、予め定められた最大個数は、nobj_out個未満の個数とされる。

なお、コンテンツ全体のデータ量とは、パススルーオブジェクトのメタデータおよびオーディオ信号と、新たに生成されるオブジェクトのメタデータおよびオーディオ信号との合計のデータ量（データサイズ）である。また、個数nobj_dynamicの決定時に考慮する復号時の処理の計算量は、オブジェクトの符号化されたデータ（メタデータおよびオーディオ信号）の復号処理のみの計算量であってもよいし、復号処理の計算量とレンダリング処理の計算量の合計であってもよい。

その他、パススルーオブジェクトの個数nobj_dynamicだけでなく、最終的に出力されるオブジェクトの個数nobj_outについてもコンテンツ全体のデータ量や復号時の処理の計算量に基づいて定められてもよいし、ユーザ等により個数nobj_outが指定されてもよい。さらに個数nobj_outが予め定められていてもよい。

ここで、パススルーオブジェクトの選択方法の具体例について説明する。

まず、以下においてオーディオ信号の時間フレームを示すインデックスをifrmとし、オブジェクトを示すインデックスをiobjとする。なお、以下では、インデックスがifrmである時間フレームを時間フレームifrmとも記し、インデックスがiobjであるオブジェクトをオブジェクトiobjとも記すこととする。

また、各オブジェクトについてメタデータに優先度情報が含まれており、オブジェクトiobjの時間フレームifrmにおけるメタデータに含まれている優先度情報をpriority_raw[ifrm][iobj]と記すとする。すなわち、オブジェクトに対して予め付与されているメタデータに優先度情報priority_raw[ifrm][iobj]が含まれているとする。

このような場合、例えば本技術では、各オブジェクトについて時間フレームごとに次式（２）に示される優先度情報priority[ifrm][iobj]の値が求められる。

なお、式（２）においてpriority_gen[ifrm][iobj]は、priority_raw[ifrm][iobj]以外の情報に基づいて求められた、オブジェクトiobjの時間フレームifrmの優先度情報である。

例えば優先度情報priority_gen[ifrm][iobj]の算出には、メタデータに含まれているゲイン情報や位置情報、スプレッド情報の他、オブジェクトのオーディオ信号などを単独でまたは任意に組み合わせて用いることができる。さらに、現時間フレームのゲイン情報や位置情報、スプレッド情報、オーディオ信号だけでなく、現時間フレームの直前の時間フレームなど、時間的に前の時間フレームのゲイン情報や位置情報、スプレッド情報、オーディオ信号も用いて現時間フレームの優先度情報priority_gen[ifrm][iobj]を算出するようにしてもよい。

優先度情報priority_gen[ifrm][iobj]の算出の具体的な方法は、例えば国際公開第2018/198789号などに記載された方法を利用すればよい。

すなわち、例えばユーザに近いオブジェクトほど優先度が高くなるように、メタデータに含まれている位置情報を構成する半径の逆数を優先度情報priority_gen[ifrm][iobj]とすることができる。また、例えばユーザの正面にあるオブジェクトほど優先度が高くなるように、メタデータに含まれている位置情報を構成する水平角度の絶対値の逆数を優先度情報priority_gen[ifrm][iobj]とすることができる。

さらに、互いに異なる時間フレームのメタデータに含まれる位置情報に基づいて、オブジェクトの移動速度を優先度情報priority_gen[ifrm][iobj]としてもよいし、メタデータに含まれるゲイン情報そのものを優先度情報priority_gen[ifrm][iobj]としてもよい。

その他、例えばメタデータに含まれているスプレッド情報の二乗値などを優先度情報priority_gen[ifrm][iobj]としてもよいし、オブジェクトの属性情報に基づいて優先度情報priority_gen[ifrm][iobj]を算出してもよい。

さらに式（２）において、weightは優先度情報priority[ifrm][iobj]の算出における、優先度情報priority_raw[ifrm][iobj]と優先度情報priority_gen[ifrm][iobj]の割合を決めるパラメータであり、例えば0.5などと設定される。

なお、MPEG-H 3D Audio規格では、オブジェクトに対して優先度情報priority_raw[ifrm][iobj]が付与されない場合もあるので、そのような場合には優先度情報priority_raw[ifrm][iobj]の値は０とされて式（２）の計算が行われるようにすればよい。

式（２）により各オブジェクトについて優先度情報priority[ifrm][iobj]が求められると、時間フレームifrmごとに、各オブジェクトの優先度情報priority[ifrm][iobj]が、それらの値が大きい順にソートされる。そして、優先度情報priority[ifrm][iobj]の値が大きい上位nobj_dynamic個のオブジェクトが、時間フレームifrmにおけるパススルーオブジェクトとして選択され、残りのオブジェクトが非パススルーオブジェクトとされる。

換言すれば、優先度情報priority[ifrm][iobj]の大きい順にnobj_dynamic個のオブジェクトを選択することで、nobj_in個のオブジェクトがnobj_dynamic個のパススルーオブジェクトと、（nobj_in-nobj_dynamic）個の非パススルーオブジェクトとに分別される。

分別が行われると、nobj_dynamic個のパススルーオブジェクトについては、それらのパススルーオブジェクトのメタデータとオーディオ信号が、そのまま後段に出力される。

一方、（nobj_in-nobj_dynamic）個の非パススルーオブジェクトについては、それらの非パススルーオブジェクトについてレンダリング処理、すなわちプリレンダリング処理が行われる。これにより、新たな（nobj_out-nobj_dynamic）個のオブジェクトのメタデータおよびオーディオ信号が生成される。

具体的には、例えば各非パススルーオブジェクトについて、VBAP（Vector Base Amplitude Panning）によるレンダリング処理が行われ、非パススルーオブジェクトが（nobj_out-nobj_dynamic）個の仮想スピーカにレンダリングされる。ここでは仮想スピーカが新たなオブジェクトに対応し、それらの仮想スピーカの３次元空間内における配置位置は互いに異なる位置となるようにされる。

例えば仮想スピーカを示すインデックスをspkとし、インデックスspkにより示される仮想スピーカを仮想スピーカspkと記すとする。また、インデックスがiobjである非パススルーオブジェクトの時間フレームifrmにおけるオーディオ信号をsig[ifrm][iobj]と記すこととする。

この場合、各非パススルーオブジェクトiobjについて、メタデータに含まれる位置情報と仮想スピーカの３次元空間における位置とに基づいてVBAPが行われる。これにより、非パススルーオブジェクトiobjごとに、（nobj_out-nobj_dynamic）個の各仮想スピーカspkのゲインgain[ifrm][iobj][spk]が得られる。

そして、仮想スピーカspkごとに、各非パススルーオブジェクトiobjについての仮想スピーカspkのゲインgain[ifrm][iobj][spk]が乗算されたオーディオ信号sig[ifrm][iobj]の和が求められ、その結果得られたオーディオ信号がその仮想スピーカspkに対応する新たなオブジェクトのオーディオ信号とされる。

例えば新たなオブジェクトに対応する仮想スピーカの位置は、k-means手法により決定される。すなわち、時間フレームごとに非パススルーオブジェクトのメタデータに含まれている位置情報がk-means手法により（nobj_out-nobj_dynamic）個のクラスタに分割され、それらの各クラスタの重心の位置が仮想スピーカの位置とされる。

したがってnobj_in＝24、nobj_dynamic＝5、nobj_out＝10である場合には、例えば図１に示すように仮想スピーカの位置が求められる。この場合、時間フレームによって仮想スピーカの位置は変化することもある。

図１では、ハッチ（斜線）が施されていない円が非パススルーオブジェクトを表しており、それらの非パススルーオブジェクトは３次元空間におけるメタデータに含まれる位置情報により示される位置に配置されている。

この例では時間フレームごとに上述の分別が行われ、nobj_dynamic（＝5）個のパススルーオブジェクトが選択され、残りの（nobj_in-nobj_dynamic（＝24-5＝19））個のオブジェクトが非パススルーオブジェクトとされる。

ここでは、仮想スピーカの個数（nobj_out-nobj_dynamic）は10-5＝5であるので、19個の非パススルーオブジェクトの位置情報が５個のクラスタに分割され、それらの各クラスタの重心位置が仮想スピーカSP11-1乃至仮想スピーカSP11-5の位置とされる。

図１では、仮想スピーカSP11-1乃至仮想スピーカSP11-5は、それらの仮想スピーカに対応するクラスタの重心位置に配置されている。なお、以下、仮想スピーカSP11-1乃至仮想スピーカSP11-5を特に区別する必要のない場合、単に仮想スピーカSP11とも称することとする。

レンダリング処理では、19個の非パススルーオブジェクトがこのようにして得られた５個の仮想スピーカSP11にレンダリングされる。

なお、レンダリング処理によって仮想スピーカSP11に対応する新たなオブジェクトのオーディオ信号が求められるが、新たなオブジェクトのメタデータに含まれる位置情報は、新たなオブジェクトに対応する仮想スピーカSP11の位置を示す情報とされる。

また、新たなオブジェクトのメタデータに含まれる位置情報以外の情報、すなわち例えば優先度情報やゲイン情報、スプレッド情報などは、その新たなオブジェクトに対応するクラスタに含まれる非パススルーオブジェクトのメタデータの情報の平均値や最大値などとされる。すなわち、例えばクラスタに属す非パススルーオブジェクトのゲイン情報の平均値や最大値が、そのクラスタに対応する新たなオブジェクトのメタデータに含まれるゲイン情報とされる。

以上のようにして（nobj_out-nobj_dynamic＝5）個の新たなオブジェクトのオーディオ信号とメタデータが生成されると、それらの新たなオブジェクトのオーディオ信号およびメタデータが後段に出力される。

したがって、この例では、結果として（nobj_dynamic＝5）個のパススルーオブジェクトのオーディオ信号およびメタデータと、（nobj_out-nobj_dynamic＝5）個の新たなオブジェクトのオーディオ信号およびメタデータとが後段に出力されることになる。

換言すれば、合計で（nobj_out＝10）個のオブジェクトのオーディオ信号とメタデータが出力されることになる。

このようにすれば、入力されたnobj_in個のオブジェクトよりも少ないnobj_out個のオブジェクトが出力されるようになり、オブジェクトの総数を削減することができる。

これにより、複数のオブジェクトからなるコンテンツ全体のデータサイズを削減するとともに、後段におけるオブジェクトについての復号処理やレンダリング処理の計算量も削減することができる。さらに入力のオブジェクトの個数nobj_inが運用等で定められるオブジェクト数を超える場合であっても、出力を運用等で定められるオブジェクト数とすることができるので、出力されたオブジェクトのデータからなるコンテンツを運用等で取り扱うことができるようになる。

しかも、本技術では優先度情報priority[ifrm][iobj]が高いオブジェクトはパススルーオブジェクトとされてオーディオ信号とメタデータがそのまま出力されるので、パススルーオブジェクトについてはコンテンツの音声の音質の劣化は発生しない。

また、非パススルーオブジェクトについては、それらの非パススルーオブジェクトに基づいて新たなオブジェクトが生成されるので、コンテンツの音声の音質に与える影響を最小限に抑えることができる。特に、非パススルーオブジェクトを用いて新たなオブジェクトを生成すれば、コンテンツの音声には全てのオブジェクトの音の成分が含まれることになる。

したがって、例えば取り扱うことが可能な数のオブジェクトのみを残して他のオブジェクトは破棄してしまう場合と比較して、コンテンツの音声の音質に与える影響を低く抑えることが可能である。

以上のように、本技術によれば音質に与える影響を抑えつつオブジェクトの総数を削減することができる。

なお、以上においてはk-means手法により仮想スピーカの位置を決定する例について説明したが、仮想スピーカの位置はどのようにして定めてもよい。

例えば３次元空間内における非パススルーオブジェクトの集中度合いに応じて、k-means手法以外の手法で非パススルーオブジェクトのグループ化（クラスタリング）が行われ、各グループの重心位置や、グループに属す非パススルーオブジェクトの位置の平均位置などが仮想スピーカの位置とされてもよい。なお、３次元空間内におけるオブジェクトの集中度合いとは、３次元空間においてオブジェクトがどの程度集中（密集）して配置されているかを示すものである。

また、グループ化時のグループ数は、（nobj_in-nobj_dynamic）個より少ない所定の個数となるように非パススルーオブジェクトの集中度合いに応じて定められてもよい。

その他、k-means手法が用いられる場合であっても、非パススルーオブジェクトの位置の集中度合いやユーザによる個数指定操作、コンテンツ全体のデータ量（データサイズ）や復号時の処理の計算量に応じて、予め定められた最大の個数以下となるように、新たに生成されるオブジェクトの個数が定められてもよい。そのような場合、新たに生成されるオブジェクトの個数は、（nobj_in-nobj_dynamic）個よりも少ない個数であればよく、そうすれば上述した式（１）の条件が満たされる。

また、仮想スピーカの位置は予め定められた固定の位置とされてもよい。この場合、例えば各仮想スピーカの位置を、22チャンネルのスピーカ配置における各スピーカの配置位置などとすれば、後段において新たなオブジェクトの取り扱いが容易になる。その他、複数の仮想スピーカのうちのいくつかの仮想スピーカの位置は予め定められた固定の位置とされ、残りの仮想スピーカの位置はk-means手法などにより決定されてもよい。

さらに、ここではパススルーオブジェクトとされなかったオブジェクトが全て非パススルーオブジェクトとされる例について説明するが、パススルーオブジェクトともされず、非パススルーオブジェクトともされずに破棄されるオブジェクトがあってもよい。そのような場合、例えば優先度情報priority[ifrm][iobj]の値が小さい下位の所定個数のオブジェクトが破棄されるようにしてもよいし、優先度情報priority[ifrm][iobj]の値が所定の閾値以下であるオブジェクトが破棄されるようにしてもよい。

例えば複数のオブジェクトからなるコンテンツが映画の音声等である場合、オブジェクトのなかには重要性が低く、破棄しても最終的に得られるコンテンツの音声の音質に殆ど影響のないものもある。したがって、そのような場合には、パススルーオブジェクトとされなかったオブジェクトの一部のみを非パススルーオブジェクトとしても殆ど音質に影響は生じない。

これに対して、例えば複数のオブジェクトからなるコンテンツが音楽等であるときには、殆どの場合、重要性の低いオブジェクトは含まれていないので、パススルーオブジェクトとされなかったオブジェクトを全て非パススルーオブジェクトとすることは、音質に与える影響を抑えるためにも重要である。

その他、以上においては優先度情報に基づいてパススルーオブジェクトを選択する例について説明したが、３次元空間内におけるオブジェクトの集中度合い（密集度合い）に基づいてパススルーオブジェクトを選択してもよい。

そのような場合、例えば各オブジェクトのメタデータに含まれる位置情報に基づいてオブジェクトのグループ化が行われる。そして、グループ化の結果に基づいて、オブジェクトの分別が行われる。

具体的には、例えば他のどのオブジェクトからの距離も所定値以上となるオブジェクトはパススルーオブジェクトとし、他のオブジェクトからの距離が所定値未満となるオブジェクトは非パススルーオブジェクトとすることができる。

さらに、各オブジェクトのメタデータに含まれる位置情報に基づいてk-means手法などによりクラスタリング（グループ化）が行われ、クラスタに１つのオブジェクトのみが属す場合に、そのクラスタに属すオブジェクトがパススルーオブジェクトとされてもよい。

この場合、複数のオブジェクトが属すクラスタについては、そのクラスタに属す全てのオブジェクトが非パススルーオブジェクトとされてもよいし、クラスタに属すオブジェクトのうちの優先度情報により示される優先度が最も高いオブジェクトがパススルーオブジェクトとされ、残りのオブジェクトが非パススルーオブジェクトとされてもよい。

このように集中度合い等によりパススルーオブジェクトが選択される場合においても、グループ化やクラスタリングの結果、コンテンツ全体のデータ量（データサイズ）、復号時の処理の計算量などに応じてパススルーオブジェクトの個数nobj_dynamicが動的に決定されてもよい。

また、新たなオブジェクトをVBAP等によるレンダリング処理により生成する他、非パススルーオブジェクトのオーディオ信号の平均値や線形結合値などを、新たなオブジェクトのオーディオ信号としてもよい。平均値等により新たなオブジェクトを生成する手法は、新たに生成されるオブジェクトが１つである場合などに特に有用である。

〈プリレンダリング処理装置の構成例〉
続いて、以上において説明した本技術を適用したプリレンダリング処理装置について説明する。そのようなプリレンダリング処理装置は、例えば図２に示すように構成される。

図２に示すプリレンダリング処理装置１１は、複数のオブジェクトのデータを入力とし、入力よりも少ないオブジェクトのデータを出力する情報処理装置であり、優先度算出部２１、パススルーオブジェクト選択部２２、およびオブジェクト生成部２３を有している。

このプリレンダリング処理装置１１では、優先度算出部２１にnobj_in個のオブジェクトのデータ、すなわちオブジェクトのメタデータとオーディオ信号が供給される。

また、パススルーオブジェクト選択部２２およびオブジェクト生成部２３には、入力のオブジェクトの個数nobj_in、出力のオブジェクトの個数nobj_out、およびパススルーオブジェクトの個数nobj_dynamicを示す情報である個数情報が供給される。

優先度算出部２１は、供給されたオブジェクトのメタデータおよびオーディオ信号に基づいて、各オブジェクトの優先度情報priority[ifrm][iobj]を算出し、それらの各オブジェクトの優先度情報priority[ifrm][iobj]、メタデータ、およびオーディオ信号をパススルーオブジェクト選択部２２に供給する。

パススルーオブジェクト選択部２２には、優先度算出部２１からオブジェクトのメタデータ、オーディオ信号、および優先度情報priority[ifrm][iobj]が供給されるとともに、外部から個数情報も供給される。換言すれば、パススルーオブジェクト選択部２２は優先度算出部２１からオブジェクトのデータと優先度情報priority[ifrm][iobj]を取得するとともに、外部から個数情報も取得する。

パススルーオブジェクト選択部２２は、供給された個数情報と、優先度算出部２１から供給された優先度情報priority[ifrm][iobj]とに基づいてパススルーオブジェクトを選択する。パススルーオブジェクト選択部２２は、優先度算出部２１から供給されたパススルーオブジェクトのメタデータおよびオーディオ信号をそのまま後段に出力するとともに、優先度算出部２１から供給された非パススルーオブジェクトのメタデータおよびオーディオ信号をオブジェクト生成部２３に供給する。

オブジェクト生成部２３は、供給された個数情報と、パススルーオブジェクト選択部２２から供給された非パススルーオブジェクトのメタデータおよびオーディオ信号とに基づいて、新たなオブジェクトのメタデータおよびオーディオ信号を生成し、後段に出力する。

〈オブジェクト出力処理の説明〉
次に、プリレンダリング処理装置１１の動作について説明する。すなわち、以下、図３のフローチャートを参照して、プリレンダリング処理装置１１によるオブジェクト出力処理について説明する。

ステップＳ１１において優先度算出部２１は、供給された所定の時間フレームの各オブジェクトのメタデータおよびオーディオ信号に基づいて、各オブジェクトの優先度情報priority[ifrm][iobj]を算出する。

例えば優先度算出部２１は、オブジェクトごとにメタデータやオーディオ信号に基づいて優先度情報priority_gen[ifrm][iobj]を算出するとともに、メタデータに含まれている優先度情報priority_raw[ifrm][iobj]と、算出された優先度情報priority_gen[ifrm][iobj]とに基づいて式（２）の計算を行い、優先度情報priority[ifrm][iobj]を算出する。

優先度算出部２１は、各オブジェクトの優先度情報priority[ifrm][iobj]、メタデータ、およびオーディオ信号をパススルーオブジェクト選択部２２に供給する。

ステップＳ１２においてパススルーオブジェクト選択部２２は、供給された個数情報と、優先度算出部２１から供給された優先度情報priority[ifrm][iobj]とに基づいて、nobj_in個のオブジェクトのなかからnobj_dynamic個のパススルーオブジェクトを選択する。すなわち、オブジェクトの分別が行われる。

具体的にはパススルーオブジェクト選択部２２は、各オブジェクトの優先度情報priority[ifrm][iobj]をソートし、優先度情報priority[ifrm][iobj]の値が大きい上位nobj_dynamic個のオブジェクトをパススルーオブジェクトとして選択する。この場合、入力されたnobj_in個のオブジェクトのうちのパススルーオブジェクトとされなかったオブジェクトは、全て非パススルーオブジェクトとされるが、パススルーオブジェクトではない一部のオブジェクトのみが非パススルーオブジェクトとされてもよい。

ステップＳ１３においてパススルーオブジェクト選択部２２は、優先度算出部２１から供給された各オブジェクトのメタデータとオーディオ信号のうち、ステップＳ１２の処理で選択されたパススルーオブジェクトのメタデータとオーディオ信号を後段に出力する。

また、パススルーオブジェクト選択部２２は、オブジェクトの分別により得られた（nobj_in-nobj_dynamic）個の非パススルーオブジェクトのメタデータおよびオーディオ信号をオブジェクト生成部２３に供給する。

なお、ここでは優先度情報に基づいてオブジェクトの分別が行われる例について説明するが、上述したようにオブジェクトの位置の集中度合い等に基づいてパススルーオブジェクトが選択されるようにしてもよい。

ステップＳ１４においてオブジェクト生成部２３は、パススルーオブジェクト選択部２２から供給された非パススルーオブジェクトのメタデータおよびオーディオ信号と、供給された個数情報とに基づいて（nobj_out-nobj_dynamic）個の仮想スピーカの位置を決定する。

例えばオブジェクト生成部２３は、k-means手法により非パススルーオブジェクトの位置情報のクラスタリングを行い、その結果得られた（nobj_out-nobj_dynamic）個の各クラスタの重心位置を、それらのクラスタに対応する仮想スピーカの位置とする。

なお、仮想スピーカの位置の決定手法は、k-means手法に限らず他の手法により決定されてもよいし、予め定められた固定位置が仮想スピーカの位置とされてもよい。

ステップＳ１５においてオブジェクト生成部２３は、パススルーオブジェクト選択部２２から供給された非パススルーオブジェクトのメタデータおよびオーディオ信号と、ステップＳ１４で得られた仮想スピーカの位置とに基づいてレンダリング処理を行う。

例えばオブジェクト生成部２３は、レンダリング処理としてVBAPを行うことで各仮想スピーカのゲインgain[ifrm][iobj][spk]を求める。また、オブジェクト生成部２３は仮想スピーカごとにゲインgain[ifrm][iobj][spk]が乗算された非パススルーオブジェクトのオーディオ信号sig[ifrm][iobj]の和を求め、その結果得られたオーディオ信号を仮想スピーカに対応する新たなオブジェクトのオーディオ信号とする。

さらにオブジェクト生成部２３は、仮想スピーカの位置の決定時に得られたクラスタリングの結果と、非パススルーオブジェクトのメタデータとに基づいて、新たなオブジェクトのメタデータを生成する。

これにより、（nobj_out-nobj_dynamic）個の新たなオブジェクトについてメタデータとオーディオ信号が得られる。なお、新たなオブジェクトのオーディオ信号の生成手法は、VBAP以外のレンダリング処理などであってもよい。

ステップＳ１６においてオブジェクト生成部２３は、ステップＳ１５の処理で得られた（nobj_out-nobj_dynamic）個の新たなオブジェクトのメタデータとオーディオ信号を後段に出力する。

これにより、１つの時間フレームについて、nobj_dynamic個のパススルーオブジェクトのメタデータおよびオーディオ信号と、（nobj_out-nobj_dynamic）個の新たなオブジェクトのメタデータおよびオーディオ信号とが出力されたことになる。

すなわち、合計nobj_out個のオブジェクトのメタデータとオーディオ信号がプリレンダリング処理後のオブジェクトのメタデータとオーディオ信号として出力されたことになる。

ステップＳ１７においてプリレンダリング処理装置１１は、全時間フレームについて処理を行ったか否かを判定する。

ステップＳ１７において、まだ全時間フレームについて処理を行っていないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。すなわち、次の時間フレームについて処理が行われる。

これに対して、ステップＳ１７において全時間フレームについて処理を行ったと判定された場合、プリレンダリング処理装置１１の各部は行っている処理を停止して、オブジェクト出力処理は終了する。

以上のようにしてプリレンダリング処理装置１１は、優先度情報に基づいてオブジェクトの分別を行い、優先度の高いパススルーオブジェクトについてはそのままメタデータとオーディオ信号を出力し、非パススルーオブジェクトについてはレンダリング処理を行って新たなオブジェクトのメタデータとオーディオ信号を生成し、出力する。

したがって、コンテンツの音声の音質に与える影響が大きい優先度情報の高いオブジェクトについてはそのままメタデータとオーディオ信号が出力され、その他のオブジェクトについてはレンダリング処理により新たなオブジェクトが生成されて、音質に与える影響が抑えられつつオブジェクトの総数が削減される。

なお、以上においては時間フレームごとにオブジェクトの分別が行われる例について説明したが、時間フレームによらず同じオブジェクトが常にパススルーオブジェクトとされるようにしてもよい。

そのような場合、例えば優先度算出部２１は、オブジェクトについて全時間フレームの優先度情報priority[ifrm][iobj]を求め、それらの全時間フレームについて得られた優先度情報priority[ifrm][iobj]の総和をオブジェクトの優先度情報priority[iobj]とする。そして優先度算出部２１は、各オブジェクトの優先度情報priority[iobj]をソートし、優先度情報priority [iobj]の値が大きい上位nobj_dynamic個のオブジェクトをパススルーオブジェクトとして選択する。

その他、複数の連続する時間フレームからなる区間ごとに、オブジェクトの分別を行うようにしてもよい。そのような場合においても優先度情報priority[iobj]と同様にして区間ごとの各オブジェクトの優先度情報を求めるようにすればよい。

〈本技術の符号化装置への適用例１〉
〈符号化装置の構成例〉
ところで、以上において説明した本技術は、3D Audioの符号化を行う3D Audio符号化部を有する符号化装置に適用することが可能である。そのような符号化装置は、例えば図４に示すように構成される。

図４に示す符号化装置５１は、プリレンダリング処理部６１および3D Audio符号化部６２を有している。

プリレンダリング処理部６１は、図２に示したプリレンダリング処理装置１１に対応し、プリレンダリング処理装置１１と同様の構成となっている。すなわち、プリレンダリング処理部６１は、上述の優先度算出部２１、パススルーオブジェクト選択部２２、およびオブジェクト生成部２３を有している。

プリレンダリング処理部６１には、複数のオブジェクトのメタデータとオーディオ信号が供給される。プリレンダリング処理部６１は、プリレンダリング処理を行ってオブジェクトの総数を削減し、削減後の各オブジェクトのメタデータとオーディオ信号を3D Audio符号化部６２に供給する。

3D Audio符号化部６２は、プリレンダリング処理部６１から供給されたオブジェクトのメタデータおよびオーディオ信号を符号化し、その結果得られた3D Audio符号列を出力する。

例えば、プリレンダリング処理部６１にnobj_in個のオブジェクトのメタデータとオーディオ信号が供給されたとする。

この場合、プリレンダリング処理部６１は、図３を参照して説明したオブジェクト出力処理と同様の処理を行い、nobj_dynamic個のパススルーオブジェクトのメタデータおよびオーディオ信号と、（nobj_out-nobj_dynamic）個の新たなオブジェクトのメタデータおよびオーディオ信号とを3D Audio符号化部６２に供給する。

したがって、この例では3D Audio符号化部６２においては、合計nobj_out個のオブジェクトのメタデータおよびオーディオ信号が符号化されて出力されることになる。

このように、符号化装置５１ではオブジェクトの総数が削減され、削減後の各オブジェクトについて符号化が行われる。そのため、出力となる3D Audio符号列のサイズ（符号量）を削減することができるとともに、符号化の処理の計算量やメモリ量も削減することができる。また、3D Audio符号列の復号側においても、3D Audio符号列の復号を行う3D Audio復号部およびその後続のレンダリング処理部での計算量とメモリ量も削減することができる。

なお、ここではプリレンダリング処理部６１が符号化装置５１の内部に配置される例について説明した。しかし、これに限らず、プリレンダリング処理部６１は符号化装置５１の外部、すなわち符号化装置５１の前段に配置されてもよいし、3D Audio符号化部６２内部の最前段に配置されるようにしてもよい。

〈本技術の符号化装置への適用例２〉
〈符号化装置の構成例〉
また、本技術を符号化装置に適用する場合、オブジェクトがパススルーオブジェクトであるか、または新たに生成されたオブジェクトであるかを示すプリレンダリング処理フラグも3D Audio符号列に含められるようにしてもよい。

そのような場合、符号化装置は、例えば図５に示すように構成される。なお、図５において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図５に示す符号化装置９１は、プリレンダリング処理部１０１および3D Audio符号化部６２を有している。

プリレンダリング処理部１０１は、図２に示したプリレンダリング処理装置１１に対応し、プリレンダリング処理装置１１と同様の構成となっている。すなわち、プリレンダリング処理部１０１は、上述の優先度算出部２１、パススルーオブジェクト選択部２２、およびオブジェクト生成部２３を有している。

但し、プリレンダリング処理部１０１においては、パススルーオブジェクト選択部２２およびオブジェクト生成部２３は、各オブジェクトについてプリレンダリング処理フラグを生成し、オブジェクトごとにメタデータ、オーディオ信号、およびプリレンダリング処理フラグを出力する。

プリレンダリング処理フラグは、パススルーオブジェクトであるか、または新たに生成されたオブジェクトであるか、つまりプリレンダリング処理されたオブジェクトであるか否かを示すフラグ情報である。

例えばオブジェクトがパススルーオブジェクトである場合、そのオブジェクトのプリレンダリング処理フラグの値は０と設定される。これに対して、オブジェクトが新たに生成されたオブジェクトである場合、そのオブジェクトのプリレンダリング処理フラグの値は１と設定される。

したがって、例えばプリレンダリング処理部１０１は、図３を参照して説明したオブジェクト出力処理と同様の処理を行ってオブジェクトの総数を削減するとともに、総数削減後の各オブジェクトについてプリレンダリング処理フラグを生成する。

そしてプリレンダリング処理部１０１は、nobj_dynamic個のパススルーオブジェクトについては、メタデータと、オーディオ信号と、値が０であるプリレンダリング処理フラグとを3D Audio符号化部６２に供給する。

これに対して、プリレンダリング処理部１０１は（nobj_out-nobj_dynamic）個の新たなオブジェクトについては、メタデータと、オーディオ信号と、値が１であるプリレンダリング処理フラグとを3D Audio符号化部６２に供給する。

3D Audio符号化部６２は、プリレンダリング処理部１０１から供給された合計nobj_out個のオブジェクトのメタデータ、オーディオ信号、およびプリレンダリング処理フラグを符号化し、その結果得られた3D Audio符号列を出力する。

〈復号装置の構成例〉
また、符号化装置９１から出力された、プリレンダリング処理フラグが含まれる3D Audio符号列を入力として復号を行う復号装置は、例えば図６に示すように構成される。

図６に示す復号装置１３１は、3D Audio復号部１４１およびレンダリング処理部１４２を有している。

3D Audio復号部１４１は、符号化装置９１から出力された3D Audio符号列を受信等により取得するとともに、取得した3D Audio符号列を復号し、その結果得られたオブジェクトのメタデータ、オーディオ信号、およびプリレンダリング処理フラグをレンダリング処理部１４２に供給する。

レンダリング処理部１４２は、3D Audio復号部１４１から供給されたメタデータ、オーディオ信号、およびプリレンダリング処理フラグに基づいてレンダリング処理を行って、コンテンツの再生に用いるスピーカごとにスピーカ駆動信号を生成し、出力する。このスピーカ駆動信号は、コンテンツを構成する各オブジェクトの音をスピーカにより再生するための信号である。

このような構成の復号装置１３１では、プリレンダリング処理フラグを用いることで、3D Audio復号部１４１やレンダリング処理部１４２における処理の計算量やメモリ量を削減することができる。特に、この例では、図４に示した符号化装置５１における場合と比較して、復号時の計算量やメモリ量をさらに削減することができる。

ここで、3D Audio復号部１４１やレンダリング処理部１４２におけるプリレンダリング処理フラグの利用の具体例について説明する。

まず、3D Audio復号部１４１におけるプリレンダリング処理フラグの利用例について説明する。

3D Audio符号列には、オブジェクトのメタデータ、オーディオ信号、およびプリレンダリング処理フラグが含まれている。上述したようにメタデータには優先度情報などが含まれているが、場合によってはメタデータに優先度情報が含まれていないこともある。ここでいう優先度情報とは、上述した優先度情報priority_raw[ifrm][iobj]である。

プリレンダリング処理フラグの値は、3D Audio符号化部６２の前段のプリレンダリング処理部１０１において計算された優先度情報priority[ifrm][iobj]に基づいて設定されるものである。そのため、例えばプリレンダリング処理フラグの値が０であるパススルーオブジェクトは、優先度が高いオブジェクトであるということができ、プリレンダリング処理フラグの値が１である新たに生成されたオブジェクトは、優先度が低いオブジェクトであるということができる。

そこで、3D Audio復号部１４１では、メタデータに優先度情報が含まれていない場合、プリレンダリング処理フラグを優先度情報の代わりに用いることができる。

具体的には、例えば3D Audio復号部１４１において優先度の高いオブジェクトのみ復号を行うとする。

このとき、例えば3D Audio復号部１４１は、オブジェクトのプリレンダリング処理フラグの値が１である場合、そのオブジェクトの優先度情報の値は０であるとし、そのオブジェクトについては3D Audio符号列に含まれているオーディオ信号等の復号は行わない。

これに対して、3D Audio復号部１４１は、オブジェクトのプリレンダリング処理フラグの値が０である場合、そのオブジェクトの優先度情報の値は１であるとし、そのオブジェクトについて3D Audio符号列に含まれているメタデータやオーディオ信号の復号を行う。

このようにすることで、復号の処理が省略されたオブジェクトの分だけ、復号の計算量とメモリ量を削減することができる。なお、符号化装置９１のプリレンダリング処理部１０１において、プリレンダリング処理フラグ、つまりパススルーオブジェクトの選択結果に基づいてメタデータの優先度情報が生成されるようにしてもよい。

次に、レンダリング処理部１４２でのプリレンダリング処理フラグの利用例について説明する。

レンダリング処理部１４２では、メタデータに含まれるスプレッド情報に基づいてスプレッド処理が行われることがある。

ここで、スプレッド処理はオブジェクトごとのメタデータに含まれるスプレッド情報の値に基づいてオブジェクトの音の音像を広げる処理であり、臨場感を高めるために用いられる。

一方で、プリレンダリング処理フラグの値が１であるオブジェクトは、符号化装置９１のプリレンダリング処理部１０１において新たに生成されたオブジェクト、すなわち非パススルーオブジェクトとされた複数のオブジェクトが混合したオブジェクトとなっている。そして、そのような新たに生成されたオブジェクトのスプレッド情報の値は、複数の非パススルーオブジェクトのスプレッド情報の平均値などにより求められた１つの値となっている。

そのため、プリレンダリング処理フラグの値が１であるオブジェクトに対してスプレッド処理を行うと、元々は複数であったオブジェクトに対して、適切であるとは限らない１つのスプレッド情報に基づいてスプレッド処理が行われることになり、臨場感が低くなってしまうことがある。

そこで、レンダリング処理部１４２では、プリレンダリング処理フラグの値が０であるオブジェクトについてはスプレッド情報に基づくスプレッド処理を行い、プリレンダリング処理フラグの値が１であるオブジェクトについてはスプレッド処理を行わないようにすることができる。そうすれば、臨場感が低下してしまうことを防止し、かつ不要なスプレッド処理を行わずに、その分だけ計算量とメモリ量を削減することができる。

その他、本技術を適用したプリレンダリング処理装置は、複数のオブジェクトからなるコンテンツの再生や編集を行う装置、復号側の装置などに設けられるようにしてもよい。例えばオブジェクトに対応するトラックを編集するアプリケーションプログラムでは、トラック数が多すぎると編集が煩雑になるため、編集時にトラック数、つまりオブジェクト数を削減できる本技術を適用すると効果的である。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
L個のオブジェクトのデータを取得し、前記L個の前記オブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択するパススルーオブジェクト選択部と、
前記L個の前記オブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、（L-M）個よりも少ないN個の新たなオブジェクトの前記データを生成するオブジェクト生成部と
を備える情報処理装置。
（２）
前記オブジェクト生成部は、（L-M）個の前記非パススルーオブジェクトの前記データに基づいて、前記新たなオブジェクトの前記データを生成する
（１）に記載の情報処理装置。
（３）
前記オブジェクト生成部は、前記複数の前記非パススルーオブジェクトの前記データに基づいて、レンダリング処理により、互いに異なる位置に配置される前記N個の前記新たなオブジェクトの前記データを生成する
（１）または（２）に記載の情報処理装置。
（４）
前記オブジェクト生成部は、前記複数の前記非パススルーオブジェクトの前記データに含まれる位置情報に基づいて、前記N個の前記新たなオブジェクトの位置を決定する
（３）に記載の情報処理装置。
（５）
前記オブジェクト生成部は、前記位置情報に基づいてk-means手法により前記N個の前記新たなオブジェクトの位置を決定する
（４）に記載の情報処理装置。
（６）
前記N個の前記新たなオブジェクトの位置は予め定められた位置とされる
（３）に記載の情報処理装置。
（７）
前記データは、前記オブジェクトのオブジェクト信号およびメタデータである
（３）乃至（６）の何れか一項に記載の情報処理装置。
（８）
前記オブジェクトはオーディオオブジェクトである
（７）に記載の情報処理装置。
（９）
前記オブジェクト生成部は、前記レンダリング処理としてVBAPを行う
（８）に記載の情報処理装置。
（１０）
前記パススルーオブジェクト選択部は、前記L個の前記オブジェクトの優先度情報に基づいて、前記M個の前記パススルーオブジェクトを選択する
（１）乃至（９）の何れか一項に記載の情報処理装置。
（１１）
前記パススルーオブジェクト選択部は、前記L個の前記オブジェクトの空間内における集中度合いに基づいて、前記M個の前記パススルーオブジェクトを選択する
（１）乃至（９）の何れか一項に記載の情報処理装置。
（１２）
前記パススルーオブジェクトの個数Mは、指定された個数である
（１）乃至（１１）の何れか一項に記載の情報処理装置。
（１３）
前記パススルーオブジェクト選択部は、前記パススルーオブジェクトの前記データおよび前記新たなオブジェクトの前記データの合計のデータサイズに基づいて、前記パススルーオブジェクトの個数Mを決定する
（１）乃至（１１）の何れか一項に記載の情報処理装置。
（１４）
前記パススルーオブジェクト選択部は、前記パススルーオブジェクトの前記データおよび前記新たなオブジェクトの前記データの復号時の処理の計算量に基づいて、前記パススルーオブジェクトの個数Mを決定する
（１）乃至（１１）の何れか一項に記載の情報処理装置。
（１５）
情報処理装置が、
L個のオブジェクトのデータを取得し、
前記L個の前記オブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択し、
前記L個の前記オブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、（L-M）個よりも少ないN個の新たなオブジェクトの前記データを生成する
情報処理方法。
（１６）
L個のオブジェクトのデータを取得し、
前記L個の前記オブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択し、
前記L個の前記オブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、（L-M）個よりも少ないN個の新たなオブジェクトの前記データを生成する
ステップを含む処理をコンピュータに実行させるプログラム。

１１プリレンダリング処理装置，２１優先度算出部，２２パススルーオブジェクト選択部，２３オブジェクト生成部

Claims

空間におけるL個のオーディオオブジェクトのデータを取得し、前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択するパススルーオブジェクト選択部と、
前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における（L-M）個よりも少ないN個の新たなオーディオオブジェクトの前記データをレンダリング処理により生成するオブジェクト生成部と
を備える情報処理装置。
前記オブジェクト生成部は、（L-M）個の前記非パススルーオブジェクトの前記データに基づいて、前記新たなオーディオオブジェクトの前記データを生成する
請求項１に記載の情報処理装置。
前記オブジェクト生成部は、前記複数の前記非パススルーオブジェクトの前記データに基づいて、前記レンダリング処理により、前記空間における互いに異なる位置に配置される前記N個の前記新たなオーディオオブジェクトの前記データを生成する
請求項１に記載の情報処理装置。
前記オブジェクト生成部は、前記複数の前記非パススルーオブジェクトの前記データに含まれる位置情報に基づいて、前記N個の前記新たなオーディオオブジェクトの位置を決定する
請求項３に記載の情報処理装置。
前記オブジェクト生成部は、前記位置情報に基づいてk-means手法により前記N個の前記新たなオーディオオブジェクトの位置を決定する
請求項４に記載の情報処理装置。
前記N個の前記新たなオーディオオブジェクトの位置は予め定められた位置とされる
請求項３に記載の情報処理装置。
前記データは、前記オーディオオブジェクトのオーディオ信号およびメタデータである
請求項３に記載の情報処理装置。
前記オブジェクト生成部は、前記レンダリング処理としてVBAPを行う
請求項１に記載の情報処理装置。
前記パススルーオブジェクト選択部は、前記L個の前記オーディオオブジェクトの優先度情報に基づいて、前記M個の前記パススルーオブジェクトを選択する
請求項１に記載の情報処理装置。
前記パススルーオブジェクト選択部は、前記L個の前記オーディオオブジェクトの前記空間内における集中度合いに基づいて、前記M個の前記パススルーオブジェクトを選択する
請求項１に記載の情報処理装置。
前記パススルーオブジェクトの個数Mは、指定された個数である
請求項１に記載の情報処理装置。
前記パススルーオブジェクト選択部は、前記パススルーオブジェクトの前記データおよび前記新たなオーディオオブジェクトの前記データの合計のデータサイズに基づいて、前記パススルーオブジェクトの個数Mを決定する
請求項１に記載の情報処理装置。
前記パススルーオブジェクト選択部は、前記パススルーオブジェクトの前記データおよび前記新たなオーディオオブジェクトの前記データの復号時の処理の計算量に基づいて、前記パススルーオブジェクトの個数Mを決定する
請求項１に記載の情報処理装置。
情報処理装置が、
空間におけるL個のオーディオオブジェクトのデータを取得し、
前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択し、
前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における（L-M）個よりも少ないN個の新たなオーディオオブジェクトの前記データをレンダリング処理により生成する
情報処理方法。
空間におけるL個のオーディオオブジェクトのデータを取得し、
前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択し、
前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における（L-M）個よりも少ないN個の新たなオーディオオブジェクトの前記データをレンダリング処理により生成する
ステップを含む処理をコンピュータに実行させるプログラム。