JP7468359B2 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP7468359B2
JP7468359B2 JP2020558243A JP2020558243A JP7468359B2 JP 7468359 B2 JP7468359 B2 JP 7468359B2 JP 2020558243 A JP2020558243 A JP 2020558243A JP 2020558243 A JP2020558243 A JP 2020558243A JP 7468359 B2 JP7468359 B2 JP 7468359B2
Authority
JP
Japan
Prior art keywords
objects
pass
data
audio
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020558243A
Other languages
English (en)
Other versions
JPWO2020105423A1 (ja
Inventor
優樹 山本
徹 知念
実 辻
芳明 及川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020105423A1 publication Critical patent/JPWO2020105423A1/ja
Priority to JP2024047716A priority Critical patent/JP2024079768A/ja
Application granted granted Critical
Publication of JP7468359B2 publication Critical patent/JP7468359B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Description

本技術は、情報処理装置および方法、並びにプログラムに関し、特に、音質に与える影響を抑えつつ、オブジェクトの総数を削減することができるようにした情報処理装置および方法、並びにプログラムに関する。
従来、MPEG(Moving Picture Experts Group)-H 3D Audio規格が知られている(例えば、非特許文献1および非特許文献2参照)。
MPEG-H 3D Audio規格等で扱われる3D Audioでは、3次元的な音の方向や距離、拡がりなどを再現することができ、従来のステレオ再生に比べ、より臨場感のあるオーディオ再生が可能となる。
ISO/IEC 23008-3, MPEG-H 3D Audio ISO/IEC 23008-3:2015/AMENDMENT3, MPEG-H 3D Audio Phase 2
しかしながら3D Audioでは、コンテンツを構成するオブジェクトの数が多い場合、コンテンツ全体のデータサイズが大きくなり、複数の各オブジェクトのデータの復号処理やレンダリング処理などの計算量も多くなってしまう。さらに、例えば運用等でオブジェクト数の上限が定められている場合には、その運用等においては上限を超えるオブジェクト数のコンテンツを取り扱うことができなくなってしまう。
そこで、コンテンツを構成するオブジェクトのなかのいくつかを破棄することで、オブジェクトの総数を削減することも考えられる。しかしながら、そのような場合、オブジェクトの破棄によってコンテンツ全体の音の音質が低下してしまうおそれがある。
本技術は、このような状況に鑑みてなされたものであり、音質に与える影響を抑えつつ、オブジェクトの総数を削減することができるようにするものである。
本技術の一側面の情報処理装置は、空間におけるL個のオーディオオブジェクトのデータを取得し、前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択するパススルーオブジェクト選択部と、前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における(L-M)個よりも少ないN個の新たなオーディオオブジェクトの前記データをレンダリング処理により生成するオブジェクト生成部とを備える。
本技術の一側面の情報処理方法またはプログラムは、空間におけるL個のオーディオオブジェクトのデータを取得し、前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択し、前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における(L-M)個よりも少ないN個の新たなオーディオオブジェクトの前記データをレンダリング処理により生成するステップを含む。
本技術の一側面においては、空間におけるL個のオーディオオブジェクトのデータが取得され、前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトが選択され、前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における(L-M)個よりも少ないN個の新たなオーディオオブジェクトの前記データがレンダリング処理により生成される。
仮想スピーカの位置の決定について説明する図である。 プリレンダリング処理装置の構成例を示す図である。 オブジェクト出力処理を説明するフローチャートである。 符号化装置の構成例を示す図である。 符号化装置の構成例を示す図である。 復号装置の構成例を示す図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、複数のオブジェクトをパススルーオブジェクトと非パススルーオブジェクトに分別し、非パススルーオブジェクトに基づいて新たなオブジェクトを生成することで、音質に与える影響を抑えつつ、オブジェクトの総数を削減できるようにするものである。
なお、本技術においては、オブジェクトはオーディオオブジェクトや画像オブジェクトなど、オブジェクトのデータをもつものであれば、どのようなものであってもよい。
ここでいうオブジェクトのデータとは、例えばオブジェクトのオブジェクト信号およびメタデータである。
具体的には、例えばオブジェクトがオーディオオブジェクトであれば、オブジェクト信号としてのオーディオ信号と、メタデータとがオーディオオブジェクトのデータであり、オブジェクトが画像オブジェクトであれば、オブジェクト信号としての画像信号と、メタデータとが画像オブジェクトのデータである。
以下では、オブジェクトがオーディオオブジェクトである場合を例として説明を行う。
オブジェクトがオーディオオブジェクトである場合、オブジェクトのデータとして、オブジェクトのオーディオ信号とメタデータが扱われる。
ここで、メタデータには、例えば3次元空間におけるオブジェクトの位置を示す位置情報、オブジェクトの優先度を示す優先度情報、オブジェクトのオーディオ信号のゲイン情報、オブジェクトの音の音像の広がりを示すスプレッド情報などが含まれている。
また、オブジェクトの位置情報は、例えば基準となる位置からオブジェクトまでの距離を示す半径、オブジェクトの水平方向の位置を示す水平角度、およびオブジェクトの垂直方向の位置を示す垂直角度からなる。
本技術は、例えばコンテンツを構成する複数のオブジェクト、より詳細にはオブジェクトのデータを入力とし、その入力に応じて適切な数のオブジェクト、より詳細にはオブジェクトのデータを出力するプリレンダリング処理装置に適用することができる。
以下では、入力時のオブジェクト数をnobj_inとし、出力時のオブジェクト数をnobj_outとする。特に、ここではnobj_out<nobj_inである。つまり、入力されるオブジェクトの数よりも出力されるオブジェクトの数が少なくなるようにされる。
本技術では、入力されたnobj_in個のオブジェクトのうちのいくつかが、何ら変更されることなくそのままデータが出力される、つまりパススルーされるオブジェクトとされる。以下では、そのようなパススルーされるオブジェクトをパススルーオブジェクトと称する。
また、入力されたnobj_in個のオブジェクトのうちのパススルーオブジェクトとされなかったオブジェクトが、パススルーオブジェクトではない非パススルーオブジェクトとされる。本技術では、非パススルーオブジェクトのデータは、新たなオブジェクトのデータの生成に用いられる。
このようにnobj_in個のオブジェクトが入力されると、それらのオブジェクトがパススルーオブジェクトと非パススルーオブジェクトとに分別される。
そして、非パススルーオブジェクトとされたオブジェクトに基づいて、それらの非パススルーオブジェクトの総数よりも少ない数の新たなオブジェクトが生成され、生成された新たなオブジェクトのデータと、パススルーオブジェクトのデータとが出力される。
このようにすることで、本技術では、入力のnobj_in個よりも少ないnobj_out個のオブジェクトが出力されることになり、オブジェクトの総数の削減が実現される。
以下では、パススルーオブジェクトとされるオブジェクトの数をnobj_dynamic個とすることとする。例えばパススルーオブジェクトの個数nobj_dynamicは、以下の式(1)に示される条件を満たす範囲でユーザ等が設定できるものとする。
Figure 0007468359000001
式(1)に示される条件から、パススルーオブジェクトの個数nobj_dynamicは、0以上で、かつnobj_out個未満とされる。
例えばパススルーオブジェクトの個数nobj_dynamicは、予め定められた個数やユーザの入力操作等により指定された個数とすることができる。しかし、コンテンツ全体のデータ量(データサイズ)や復号時の処理の計算量などに基づいて、予め定められた最大個数以下となるようにパススルーオブジェクトの個数nobj_dynamicが動的に決定されてもよい。この場合、予め定められた最大個数は、nobj_out個未満の個数とされる。
なお、コンテンツ全体のデータ量とは、パススルーオブジェクトのメタデータおよびオーディオ信号と、新たに生成されるオブジェクトのメタデータおよびオーディオ信号との合計のデータ量(データサイズ)である。また、個数nobj_dynamicの決定時に考慮する復号時の処理の計算量は、オブジェクトの符号化されたデータ(メタデータおよびオーディオ信号)の復号処理のみの計算量であってもよいし、復号処理の計算量とレンダリング処理の計算量の合計であってもよい。
その他、パススルーオブジェクトの個数nobj_dynamicだけでなく、最終的に出力されるオブジェクトの個数nobj_outについてもコンテンツ全体のデータ量や復号時の処理の計算量に基づいて定められてもよいし、ユーザ等により個数nobj_outが指定されてもよい。さらに個数nobj_outが予め定められていてもよい。
ここで、パススルーオブジェクトの選択方法の具体例について説明する。
まず、以下においてオーディオ信号の時間フレームを示すインデックスをifrmとし、オブジェクトを示すインデックスをiobjとする。なお、以下では、インデックスがifrmである時間フレームを時間フレームifrmとも記し、インデックスがiobjであるオブジェクトをオブジェクトiobjとも記すこととする。
また、各オブジェクトについてメタデータに優先度情報が含まれており、オブジェクトiobjの時間フレームifrmにおけるメタデータに含まれている優先度情報をpriority_raw[ifrm][iobj]と記すとする。すなわち、オブジェクトに対して予め付与されているメタデータに優先度情報priority_raw[ifrm][iobj]が含まれているとする。
このような場合、例えば本技術では、各オブジェクトについて時間フレームごとに次式(2)に示される優先度情報priority[ifrm][iobj]の値が求められる。
Figure 0007468359000002
なお、式(2)においてpriority_gen[ifrm][iobj]は、priority_raw[ifrm][iobj]以外の情報に基づいて求められた、オブジェクトiobjの時間フレームifrmの優先度情報である。
例えば優先度情報priority_gen[ifrm][iobj]の算出には、メタデータに含まれているゲイン情報や位置情報、スプレッド情報の他、オブジェクトのオーディオ信号などを単独でまたは任意に組み合わせて用いることができる。さらに、現時間フレームのゲイン情報や位置情報、スプレッド情報、オーディオ信号だけでなく、現時間フレームの直前の時間フレームなど、時間的に前の時間フレームのゲイン情報や位置情報、スプレッド情報、オーディオ信号も用いて現時間フレームの優先度情報priority_gen[ifrm][iobj]を算出するようにしてもよい。
優先度情報priority_gen[ifrm][iobj]の算出の具体的な方法は、例えば国際公開第2018/198789号などに記載された方法を利用すればよい。
すなわち、例えばユーザに近いオブジェクトほど優先度が高くなるように、メタデータに含まれている位置情報を構成する半径の逆数を優先度情報priority_gen[ifrm][iobj]とすることができる。また、例えばユーザの正面にあるオブジェクトほど優先度が高くなるように、メタデータに含まれている位置情報を構成する水平角度の絶対値の逆数を優先度情報priority_gen[ifrm][iobj]とすることができる。
さらに、互いに異なる時間フレームのメタデータに含まれる位置情報に基づいて、オブジェクトの移動速度を優先度情報priority_gen[ifrm][iobj]としてもよいし、メタデータに含まれるゲイン情報そのものを優先度情報priority_gen[ifrm][iobj]としてもよい。
その他、例えばメタデータに含まれているスプレッド情報の二乗値などを優先度情報priority_gen[ifrm][iobj]としてもよいし、オブジェクトの属性情報に基づいて優先度情報priority_gen[ifrm][iobj]を算出してもよい。
さらに式(2)において、weightは優先度情報priority[ifrm][iobj]の算出における、優先度情報priority_raw[ifrm][iobj]と優先度情報priority_gen[ifrm][iobj]の割合を決めるパラメータであり、例えば0.5などと設定される。
なお、MPEG-H 3D Audio規格では、オブジェクトに対して優先度情報priority_raw[ifrm][iobj]が付与されない場合もあるので、そのような場合には優先度情報priority_raw[ifrm][iobj]の値は0とされて式(2)の計算が行われるようにすればよい。
式(2)により各オブジェクトについて優先度情報priority[ifrm][iobj]が求められると、時間フレームifrmごとに、各オブジェクトの優先度情報priority[ifrm][iobj]が、それらの値が大きい順にソートされる。そして、優先度情報priority[ifrm][iobj]の値が大きい上位nobj_dynamic個のオブジェクトが、時間フレームifrmにおけるパススルーオブジェクトとして選択され、残りのオブジェクトが非パススルーオブジェクトとされる。
換言すれば、優先度情報priority[ifrm][iobj]の大きい順にnobj_dynamic個のオブジェクトを選択することで、nobj_in個のオブジェクトがnobj_dynamic個のパススルーオブジェクトと、(nobj_in-nobj_dynamic)個の非パススルーオブジェクトとに分別される。
分別が行われると、nobj_dynamic個のパススルーオブジェクトについては、それらのパススルーオブジェクトのメタデータとオーディオ信号が、そのまま後段に出力される。
一方、(nobj_in-nobj_dynamic)個の非パススルーオブジェクトについては、それらの非パススルーオブジェクトについてレンダリング処理、すなわちプリレンダリング処理が行われる。これにより、新たな(nobj_out-nobj_dynamic)個のオブジェクトのメタデータおよびオーディオ信号が生成される。
具体的には、例えば各非パススルーオブジェクトについて、VBAP(Vector Base Amplitude Panning)によるレンダリング処理が行われ、非パススルーオブジェクトが(nobj_out-nobj_dynamic)個の仮想スピーカにレンダリングされる。ここでは仮想スピーカが新たなオブジェクトに対応し、それらの仮想スピーカの3次元空間内における配置位置は互いに異なる位置となるようにされる。
例えば仮想スピーカを示すインデックスをspkとし、インデックスspkにより示される仮想スピーカを仮想スピーカspkと記すとする。また、インデックスがiobjである非パススルーオブジェクトの時間フレームifrmにおけるオーディオ信号をsig[ifrm][iobj]と記すこととする。
この場合、各非パススルーオブジェクトiobjについて、メタデータに含まれる位置情報と仮想スピーカの3次元空間における位置とに基づいてVBAPが行われる。これにより、非パススルーオブジェクトiobjごとに、(nobj_out-nobj_dynamic)個の各仮想スピーカspkのゲインgain[ifrm][iobj][spk]が得られる。
そして、仮想スピーカspkごとに、各非パススルーオブジェクトiobjについての仮想スピーカspkのゲインgain[ifrm][iobj][spk]が乗算されたオーディオ信号sig[ifrm][iobj]の和が求められ、その結果得られたオーディオ信号がその仮想スピーカspkに対応する新たなオブジェクトのオーディオ信号とされる。
例えば新たなオブジェクトに対応する仮想スピーカの位置は、k-means手法により決定される。すなわち、時間フレームごとに非パススルーオブジェクトのメタデータに含まれている位置情報がk-means手法により(nobj_out-nobj_dynamic)個のクラスタに分割され、それらの各クラスタの重心の位置が仮想スピーカの位置とされる。
したがってnobj_in=24、nobj_dynamic=5、nobj_out=10である場合には、例えば図1に示すように仮想スピーカの位置が求められる。この場合、時間フレームによって仮想スピーカの位置は変化することもある。
図1では、ハッチ(斜線)が施されていない円が非パススルーオブジェクトを表しており、それらの非パススルーオブジェクトは3次元空間におけるメタデータに含まれる位置情報により示される位置に配置されている。
この例では時間フレームごとに上述の分別が行われ、nobj_dynamic(=5)個のパススルーオブジェクトが選択され、残りの(nobj_in-nobj_dynamic(=24-5=19))個のオブジェクトが非パススルーオブジェクトとされる。
ここでは、仮想スピーカの個数(nobj_out-nobj_dynamic)は10-5=5であるので、19個の非パススルーオブジェクトの位置情報が5個のクラスタに分割され、それらの各クラスタの重心位置が仮想スピーカSP11-1乃至仮想スピーカSP11-5の位置とされる。
図1では、仮想スピーカSP11-1乃至仮想スピーカSP11-5は、それらの仮想スピーカに対応するクラスタの重心位置に配置されている。なお、以下、仮想スピーカSP11-1乃至仮想スピーカSP11-5を特に区別する必要のない場合、単に仮想スピーカSP11とも称することとする。
レンダリング処理では、19個の非パススルーオブジェクトがこのようにして得られた5個の仮想スピーカSP11にレンダリングされる。
なお、レンダリング処理によって仮想スピーカSP11に対応する新たなオブジェクトのオーディオ信号が求められるが、新たなオブジェクトのメタデータに含まれる位置情報は、新たなオブジェクトに対応する仮想スピーカSP11の位置を示す情報とされる。
また、新たなオブジェクトのメタデータに含まれる位置情報以外の情報、すなわち例えば優先度情報やゲイン情報、スプレッド情報などは、その新たなオブジェクトに対応するクラスタに含まれる非パススルーオブジェクトのメタデータの情報の平均値や最大値などとされる。すなわち、例えばクラスタに属す非パススルーオブジェクトのゲイン情報の平均値や最大値が、そのクラスタに対応する新たなオブジェクトのメタデータに含まれるゲイン情報とされる。
以上のようにして(nobj_out-nobj_dynamic=5)個の新たなオブジェクトのオーディオ信号とメタデータが生成されると、それらの新たなオブジェクトのオーディオ信号およびメタデータが後段に出力される。
したがって、この例では、結果として(nobj_dynamic=5)個のパススルーオブジェクトのオーディオ信号およびメタデータと、(nobj_out-nobj_dynamic=5)個の新たなオブジェクトのオーディオ信号およびメタデータとが後段に出力されることになる。
換言すれば、合計で(nobj_out=10)個のオブジェクトのオーディオ信号とメタデータが出力されることになる。
このようにすれば、入力されたnobj_in個のオブジェクトよりも少ないnobj_out個のオブジェクトが出力されるようになり、オブジェクトの総数を削減することができる。
これにより、複数のオブジェクトからなるコンテンツ全体のデータサイズを削減するとともに、後段におけるオブジェクトについての復号処理やレンダリング処理の計算量も削減することができる。さらに入力のオブジェクトの個数nobj_inが運用等で定められるオブジェクト数を超える場合であっても、出力を運用等で定められるオブジェクト数とすることができるので、出力されたオブジェクトのデータからなるコンテンツを運用等で取り扱うことができるようになる。
しかも、本技術では優先度情報priority[ifrm][iobj]が高いオブジェクトはパススルーオブジェクトとされてオーディオ信号とメタデータがそのまま出力されるので、パススルーオブジェクトについてはコンテンツの音声の音質の劣化は発生しない。
また、非パススルーオブジェクトについては、それらの非パススルーオブジェクトに基づいて新たなオブジェクトが生成されるので、コンテンツの音声の音質に与える影響を最小限に抑えることができる。特に、非パススルーオブジェクトを用いて新たなオブジェクトを生成すれば、コンテンツの音声には全てのオブジェクトの音の成分が含まれることになる。
したがって、例えば取り扱うことが可能な数のオブジェクトのみを残して他のオブジェクトは破棄してしまう場合と比較して、コンテンツの音声の音質に与える影響を低く抑えることが可能である。
以上のように、本技術によれば音質に与える影響を抑えつつオブジェクトの総数を削減することができる。
なお、以上においてはk-means手法により仮想スピーカの位置を決定する例について説明したが、仮想スピーカの位置はどのようにして定めてもよい。
例えば3次元空間内における非パススルーオブジェクトの集中度合いに応じて、k-means手法以外の手法で非パススルーオブジェクトのグループ化(クラスタリング)が行われ、各グループの重心位置や、グループに属す非パススルーオブジェクトの位置の平均位置などが仮想スピーカの位置とされてもよい。なお、3次元空間内におけるオブジェクトの集中度合いとは、3次元空間においてオブジェクトがどの程度集中(密集)して配置されているかを示すものである。
また、グループ化時のグループ数は、(nobj_in-nobj_dynamic)個より少ない所定の個数となるように非パススルーオブジェクトの集中度合いに応じて定められてもよい。
その他、k-means手法が用いられる場合であっても、非パススルーオブジェクトの位置の集中度合いやユーザによる個数指定操作、コンテンツ全体のデータ量(データサイズ)や復号時の処理の計算量に応じて、予め定められた最大の個数以下となるように、新たに生成されるオブジェクトの個数が定められてもよい。そのような場合、新たに生成されるオブジェクトの個数は、(nobj_in-nobj_dynamic)個よりも少ない個数であればよく、そうすれば上述した式(1)の条件が満たされる。
また、仮想スピーカの位置は予め定められた固定の位置とされてもよい。この場合、例えば各仮想スピーカの位置を、22チャンネルのスピーカ配置における各スピーカの配置位置などとすれば、後段において新たなオブジェクトの取り扱いが容易になる。その他、複数の仮想スピーカのうちのいくつかの仮想スピーカの位置は予め定められた固定の位置とされ、残りの仮想スピーカの位置はk-means手法などにより決定されてもよい。
さらに、ここではパススルーオブジェクトとされなかったオブジェクトが全て非パススルーオブジェクトとされる例について説明するが、パススルーオブジェクトともされず、非パススルーオブジェクトともされずに破棄されるオブジェクトがあってもよい。そのような場合、例えば優先度情報priority[ifrm][iobj]の値が小さい下位の所定個数のオブジェクトが破棄されるようにしてもよいし、優先度情報priority[ifrm][iobj]の値が所定の閾値以下であるオブジェクトが破棄されるようにしてもよい。
例えば複数のオブジェクトからなるコンテンツが映画の音声等である場合、オブジェクトのなかには重要性が低く、破棄しても最終的に得られるコンテンツの音声の音質に殆ど影響のないものもある。したがって、そのような場合には、パススルーオブジェクトとされなかったオブジェクトの一部のみを非パススルーオブジェクトとしても殆ど音質に影響は生じない。
これに対して、例えば複数のオブジェクトからなるコンテンツが音楽等であるときには、殆どの場合、重要性の低いオブジェクトは含まれていないので、パススルーオブジェクトとされなかったオブジェクトを全て非パススルーオブジェクトとすることは、音質に与える影響を抑えるためにも重要である。
その他、以上においては優先度情報に基づいてパススルーオブジェクトを選択する例について説明したが、3次元空間内におけるオブジェクトの集中度合い(密集度合い)に基づいてパススルーオブジェクトを選択してもよい。
そのような場合、例えば各オブジェクトのメタデータに含まれる位置情報に基づいてオブジェクトのグループ化が行われる。そして、グループ化の結果に基づいて、オブジェクトの分別が行われる。
具体的には、例えば他のどのオブジェクトからの距離も所定値以上となるオブジェクトはパススルーオブジェクトとし、他のオブジェクトからの距離が所定値未満となるオブジェクトは非パススルーオブジェクトとすることができる。
さらに、各オブジェクトのメタデータに含まれる位置情報に基づいてk-means手法などによりクラスタリング(グループ化)が行われ、クラスタに1つのオブジェクトのみが属す場合に、そのクラスタに属すオブジェクトがパススルーオブジェクトとされてもよい。
この場合、複数のオブジェクトが属すクラスタについては、そのクラスタに属す全てのオブジェクトが非パススルーオブジェクトとされてもよいし、クラスタに属すオブジェクトのうちの優先度情報により示される優先度が最も高いオブジェクトがパススルーオブジェクトとされ、残りのオブジェクトが非パススルーオブジェクトとされてもよい。
このように集中度合い等によりパススルーオブジェクトが選択される場合においても、グループ化やクラスタリングの結果、コンテンツ全体のデータ量(データサイズ)、復号時の処理の計算量などに応じてパススルーオブジェクトの個数nobj_dynamicが動的に決定されてもよい。
また、新たなオブジェクトをVBAP等によるレンダリング処理により生成する他、非パススルーオブジェクトのオーディオ信号の平均値や線形結合値などを、新たなオブジェクトのオーディオ信号としてもよい。平均値等により新たなオブジェクトを生成する手法は、新たに生成されるオブジェクトが1つである場合などに特に有用である。
〈プリレンダリング処理装置の構成例〉
続いて、以上において説明した本技術を適用したプリレンダリング処理装置について説明する。そのようなプリレンダリング処理装置は、例えば図2に示すように構成される。
図2に示すプリレンダリング処理装置11は、複数のオブジェクトのデータを入力とし、入力よりも少ないオブジェクトのデータを出力する情報処理装置であり、優先度算出部21、パススルーオブジェクト選択部22、およびオブジェクト生成部23を有している。
このプリレンダリング処理装置11では、優先度算出部21にnobj_in個のオブジェクトのデータ、すなわちオブジェクトのメタデータとオーディオ信号が供給される。
また、パススルーオブジェクト選択部22およびオブジェクト生成部23には、入力のオブジェクトの個数nobj_in、出力のオブジェクトの個数nobj_out、およびパススルーオブジェクトの個数nobj_dynamicを示す情報である個数情報が供給される。
優先度算出部21は、供給されたオブジェクトのメタデータおよびオーディオ信号に基づいて、各オブジェクトの優先度情報priority[ifrm][iobj]を算出し、それらの各オブジェクトの優先度情報priority[ifrm][iobj]、メタデータ、およびオーディオ信号をパススルーオブジェクト選択部22に供給する。
パススルーオブジェクト選択部22には、優先度算出部21からオブジェクトのメタデータ、オーディオ信号、および優先度情報priority[ifrm][iobj]が供給されるとともに、外部から個数情報も供給される。換言すれば、パススルーオブジェクト選択部22は優先度算出部21からオブジェクトのデータと優先度情報priority[ifrm][iobj]を取得するとともに、外部から個数情報も取得する。
パススルーオブジェクト選択部22は、供給された個数情報と、優先度算出部21から供給された優先度情報priority[ifrm][iobj]とに基づいてパススルーオブジェクトを選択する。パススルーオブジェクト選択部22は、優先度算出部21から供給されたパススルーオブジェクトのメタデータおよびオーディオ信号をそのまま後段に出力するとともに、優先度算出部21から供給された非パススルーオブジェクトのメタデータおよびオーディオ信号をオブジェクト生成部23に供給する。
オブジェクト生成部23は、供給された個数情報と、パススルーオブジェクト選択部22から供給された非パススルーオブジェクトのメタデータおよびオーディオ信号とに基づいて、新たなオブジェクトのメタデータおよびオーディオ信号を生成し、後段に出力する。
〈オブジェクト出力処理の説明〉
次に、プリレンダリング処理装置11の動作について説明する。すなわち、以下、図3のフローチャートを参照して、プリレンダリング処理装置11によるオブジェクト出力処理について説明する。
ステップS11において優先度算出部21は、供給された所定の時間フレームの各オブジェクトのメタデータおよびオーディオ信号に基づいて、各オブジェクトの優先度情報priority[ifrm][iobj]を算出する。
例えば優先度算出部21は、オブジェクトごとにメタデータやオーディオ信号に基づいて優先度情報priority_gen[ifrm][iobj]を算出するとともに、メタデータに含まれている優先度情報priority_raw[ifrm][iobj]と、算出された優先度情報priority_gen[ifrm][iobj]とに基づいて式(2)の計算を行い、優先度情報priority[ifrm][iobj]を算出する。
優先度算出部21は、各オブジェクトの優先度情報priority[ifrm][iobj]、メタデータ、およびオーディオ信号をパススルーオブジェクト選択部22に供給する。
ステップS12においてパススルーオブジェクト選択部22は、供給された個数情報と、優先度算出部21から供給された優先度情報priority[ifrm][iobj]とに基づいて、nobj_in個のオブジェクトのなかからnobj_dynamic個のパススルーオブジェクトを選択する。すなわち、オブジェクトの分別が行われる。
具体的にはパススルーオブジェクト選択部22は、各オブジェクトの優先度情報priority[ifrm][iobj]をソートし、優先度情報priority[ifrm][iobj]の値が大きい上位nobj_dynamic個のオブジェクトをパススルーオブジェクトとして選択する。この場合、入力されたnobj_in個のオブジェクトのうちのパススルーオブジェクトとされなかったオブジェクトは、全て非パススルーオブジェクトとされるが、パススルーオブジェクトではない一部のオブジェクトのみが非パススルーオブジェクトとされてもよい。
ステップS13においてパススルーオブジェクト選択部22は、優先度算出部21から供給された各オブジェクトのメタデータとオーディオ信号のうち、ステップS12の処理で選択されたパススルーオブジェクトのメタデータとオーディオ信号を後段に出力する。
また、パススルーオブジェクト選択部22は、オブジェクトの分別により得られた(nobj_in-nobj_dynamic)個の非パススルーオブジェクトのメタデータおよびオーディオ信号をオブジェクト生成部23に供給する。
なお、ここでは優先度情報に基づいてオブジェクトの分別が行われる例について説明するが、上述したようにオブジェクトの位置の集中度合い等に基づいてパススルーオブジェクトが選択されるようにしてもよい。
ステップS14においてオブジェクト生成部23は、パススルーオブジェクト選択部22から供給された非パススルーオブジェクトのメタデータおよびオーディオ信号と、供給された個数情報とに基づいて(nobj_out-nobj_dynamic)個の仮想スピーカの位置を決定する。
例えばオブジェクト生成部23は、k-means手法により非パススルーオブジェクトの位置情報のクラスタリングを行い、その結果得られた(nobj_out-nobj_dynamic)個の各クラスタの重心位置を、それらのクラスタに対応する仮想スピーカの位置とする。
なお、仮想スピーカの位置の決定手法は、k-means手法に限らず他の手法により決定されてもよいし、予め定められた固定位置が仮想スピーカの位置とされてもよい。
ステップS15においてオブジェクト生成部23は、パススルーオブジェクト選択部22から供給された非パススルーオブジェクトのメタデータおよびオーディオ信号と、ステップS14で得られた仮想スピーカの位置とに基づいてレンダリング処理を行う。
例えばオブジェクト生成部23は、レンダリング処理としてVBAPを行うことで各仮想スピーカのゲインgain[ifrm][iobj][spk]を求める。また、オブジェクト生成部23は仮想スピーカごとにゲインgain[ifrm][iobj][spk]が乗算された非パススルーオブジェクトのオーディオ信号sig[ifrm][iobj]の和を求め、その結果得られたオーディオ信号を仮想スピーカに対応する新たなオブジェクトのオーディオ信号とする。
さらにオブジェクト生成部23は、仮想スピーカの位置の決定時に得られたクラスタリングの結果と、非パススルーオブジェクトのメタデータとに基づいて、新たなオブジェクトのメタデータを生成する。
これにより、(nobj_out-nobj_dynamic)個の新たなオブジェクトについてメタデータとオーディオ信号が得られる。なお、新たなオブジェクトのオーディオ信号の生成手法は、VBAP以外のレンダリング処理などであってもよい。
ステップS16においてオブジェクト生成部23は、ステップS15の処理で得られた(nobj_out-nobj_dynamic)個の新たなオブジェクトのメタデータとオーディオ信号を後段に出力する。
これにより、1つの時間フレームについて、nobj_dynamic個のパススルーオブジェクトのメタデータおよびオーディオ信号と、(nobj_out-nobj_dynamic)個の新たなオブジェクトのメタデータおよびオーディオ信号とが出力されたことになる。
すなわち、合計nobj_out個のオブジェクトのメタデータとオーディオ信号がプリレンダリング処理後のオブジェクトのメタデータとオーディオ信号として出力されたことになる。
ステップS17においてプリレンダリング処理装置11は、全時間フレームについて処理を行ったか否かを判定する。
ステップS17において、まだ全時間フレームについて処理を行っていないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。すなわち、次の時間フレームについて処理が行われる。
これに対して、ステップS17において全時間フレームについて処理を行ったと判定された場合、プリレンダリング処理装置11の各部は行っている処理を停止して、オブジェクト出力処理は終了する。
以上のようにしてプリレンダリング処理装置11は、優先度情報に基づいてオブジェクトの分別を行い、優先度の高いパススルーオブジェクトについてはそのままメタデータとオーディオ信号を出力し、非パススルーオブジェクトについてはレンダリング処理を行って新たなオブジェクトのメタデータとオーディオ信号を生成し、出力する。
したがって、コンテンツの音声の音質に与える影響が大きい優先度情報の高いオブジェクトについてはそのままメタデータとオーディオ信号が出力され、その他のオブジェクトについてはレンダリング処理により新たなオブジェクトが生成されて、音質に与える影響が抑えられつつオブジェクトの総数が削減される。
なお、以上においては時間フレームごとにオブジェクトの分別が行われる例について説明したが、時間フレームによらず同じオブジェクトが常にパススルーオブジェクトとされるようにしてもよい。
そのような場合、例えば優先度算出部21は、オブジェクトについて全時間フレームの優先度情報priority[ifrm][iobj]を求め、それらの全時間フレームについて得られた優先度情報priority[ifrm][iobj]の総和をオブジェクトの優先度情報priority[iobj]とする。そして優先度算出部21は、各オブジェクトの優先度情報priority[iobj]をソートし、優先度情報priority [iobj]の値が大きい上位nobj_dynamic個のオブジェクトをパススルーオブジェクトとして選択する。
その他、複数の連続する時間フレームからなる区間ごとに、オブジェクトの分別を行うようにしてもよい。そのような場合においても優先度情報priority[iobj]と同様にして区間ごとの各オブジェクトの優先度情報を求めるようにすればよい。
〈本技術の符号化装置への適用例1〉
〈符号化装置の構成例〉
ところで、以上において説明した本技術は、3D Audioの符号化を行う3D Audio符号化部を有する符号化装置に適用することが可能である。そのような符号化装置は、例えば図4に示すように構成される。
図4に示す符号化装置51は、プリレンダリング処理部61および3D Audio符号化部62を有している。
プリレンダリング処理部61は、図2に示したプリレンダリング処理装置11に対応し、プリレンダリング処理装置11と同様の構成となっている。すなわち、プリレンダリング処理部61は、上述の優先度算出部21、パススルーオブジェクト選択部22、およびオブジェクト生成部23を有している。
プリレンダリング処理部61には、複数のオブジェクトのメタデータとオーディオ信号が供給される。プリレンダリング処理部61は、プリレンダリング処理を行ってオブジェクトの総数を削減し、削減後の各オブジェクトのメタデータとオーディオ信号を3D Audio符号化部62に供給する。
3D Audio符号化部62は、プリレンダリング処理部61から供給されたオブジェクトのメタデータおよびオーディオ信号を符号化し、その結果得られた3D Audio符号列を出力する。
例えば、プリレンダリング処理部61にnobj_in個のオブジェクトのメタデータとオーディオ信号が供給されたとする。
この場合、プリレンダリング処理部61は、図3を参照して説明したオブジェクト出力処理と同様の処理を行い、nobj_dynamic個のパススルーオブジェクトのメタデータおよびオーディオ信号と、(nobj_out-nobj_dynamic)個の新たなオブジェクトのメタデータおよびオーディオ信号とを3D Audio符号化部62に供給する。
したがって、この例では3D Audio符号化部62においては、合計nobj_out個のオブジェクトのメタデータおよびオーディオ信号が符号化されて出力されることになる。
このように、符号化装置51ではオブジェクトの総数が削減され、削減後の各オブジェクトについて符号化が行われる。そのため、出力となる3D Audio符号列のサイズ(符号量)を削減することができるとともに、符号化の処理の計算量やメモリ量も削減することができる。また、3D Audio符号列の復号側においても、3D Audio符号列の復号を行う3D Audio復号部およびその後続のレンダリング処理部での計算量とメモリ量も削減することができる。
なお、ここではプリレンダリング処理部61が符号化装置51の内部に配置される例について説明した。しかし、これに限らず、プリレンダリング処理部61は符号化装置51の外部、すなわち符号化装置51の前段に配置されてもよいし、3D Audio符号化部62内部の最前段に配置されるようにしてもよい。
〈本技術の符号化装置への適用例2〉
〈符号化装置の構成例〉
また、本技術を符号化装置に適用する場合、オブジェクトがパススルーオブジェクトであるか、または新たに生成されたオブジェクトであるかを示すプリレンダリング処理フラグも3D Audio符号列に含められるようにしてもよい。
そのような場合、符号化装置は、例えば図5に示すように構成される。なお、図5において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図5に示す符号化装置91は、プリレンダリング処理部101および3D Audio符号化部62を有している。
プリレンダリング処理部101は、図2に示したプリレンダリング処理装置11に対応し、プリレンダリング処理装置11と同様の構成となっている。すなわち、プリレンダリング処理部101は、上述の優先度算出部21、パススルーオブジェクト選択部22、およびオブジェクト生成部23を有している。
但し、プリレンダリング処理部101においては、パススルーオブジェクト選択部22およびオブジェクト生成部23は、各オブジェクトについてプリレンダリング処理フラグを生成し、オブジェクトごとにメタデータ、オーディオ信号、およびプリレンダリング処理フラグを出力する。
プリレンダリング処理フラグは、パススルーオブジェクトであるか、または新たに生成されたオブジェクトであるか、つまりプリレンダリング処理されたオブジェクトであるか否かを示すフラグ情報である。
例えばオブジェクトがパススルーオブジェクトである場合、そのオブジェクトのプリレンダリング処理フラグの値は0と設定される。これに対して、オブジェクトが新たに生成されたオブジェクトである場合、そのオブジェクトのプリレンダリング処理フラグの値は1と設定される。
したがって、例えばプリレンダリング処理部101は、図3を参照して説明したオブジェクト出力処理と同様の処理を行ってオブジェクトの総数を削減するとともに、総数削減後の各オブジェクトについてプリレンダリング処理フラグを生成する。
そしてプリレンダリング処理部101は、nobj_dynamic個のパススルーオブジェクトについては、メタデータと、オーディオ信号と、値が0であるプリレンダリング処理フラグとを3D Audio符号化部62に供給する。
これに対して、プリレンダリング処理部101は(nobj_out-nobj_dynamic)個の新たなオブジェクトについては、メタデータと、オーディオ信号と、値が1であるプリレンダリング処理フラグとを3D Audio符号化部62に供給する。
3D Audio符号化部62は、プリレンダリング処理部101から供給された合計nobj_out個のオブジェクトのメタデータ、オーディオ信号、およびプリレンダリング処理フラグを符号化し、その結果得られた3D Audio符号列を出力する。
〈復号装置の構成例〉
また、符号化装置91から出力された、プリレンダリング処理フラグが含まれる3D Audio符号列を入力として復号を行う復号装置は、例えば図6に示すように構成される。
図6に示す復号装置131は、3D Audio復号部141およびレンダリング処理部142を有している。
3D Audio復号部141は、符号化装置91から出力された3D Audio符号列を受信等により取得するとともに、取得した3D Audio符号列を復号し、その結果得られたオブジェクトのメタデータ、オーディオ信号、およびプリレンダリング処理フラグをレンダリング処理部142に供給する。
レンダリング処理部142は、3D Audio復号部141から供給されたメタデータ、オーディオ信号、およびプリレンダリング処理フラグに基づいてレンダリング処理を行って、コンテンツの再生に用いるスピーカごとにスピーカ駆動信号を生成し、出力する。このスピーカ駆動信号は、コンテンツを構成する各オブジェクトの音をスピーカにより再生するための信号である。
このような構成の復号装置131では、プリレンダリング処理フラグを用いることで、3D Audio復号部141やレンダリング処理部142における処理の計算量やメモリ量を削減することができる。特に、この例では、図4に示した符号化装置51における場合と比較して、復号時の計算量やメモリ量をさらに削減することができる。
ここで、3D Audio復号部141やレンダリング処理部142におけるプリレンダリング処理フラグの利用の具体例について説明する。
まず、3D Audio復号部141におけるプリレンダリング処理フラグの利用例について説明する。
3D Audio符号列には、オブジェクトのメタデータ、オーディオ信号、およびプリレンダリング処理フラグが含まれている。上述したようにメタデータには優先度情報などが含まれているが、場合によってはメタデータに優先度情報が含まれていないこともある。ここでいう優先度情報とは、上述した優先度情報priority_raw[ifrm][iobj]である。
プリレンダリング処理フラグの値は、3D Audio符号化部62の前段のプリレンダリング処理部101において計算された優先度情報priority[ifrm][iobj]に基づいて設定されるものである。そのため、例えばプリレンダリング処理フラグの値が0であるパススルーオブジェクトは、優先度が高いオブジェクトであるということができ、プリレンダリング処理フラグの値が1である新たに生成されたオブジェクトは、優先度が低いオブジェクトであるということができる。
そこで、3D Audio復号部141では、メタデータに優先度情報が含まれていない場合、プリレンダリング処理フラグを優先度情報の代わりに用いることができる。
具体的には、例えば3D Audio復号部141において優先度の高いオブジェクトのみ復号を行うとする。
このとき、例えば3D Audio復号部141は、オブジェクトのプリレンダリング処理フラグの値が1である場合、そのオブジェクトの優先度情報の値は0であるとし、そのオブジェクトについては3D Audio符号列に含まれているオーディオ信号等の復号は行わない。
これに対して、3D Audio復号部141は、オブジェクトのプリレンダリング処理フラグの値が0である場合、そのオブジェクトの優先度情報の値は1であるとし、そのオブジェクトについて3D Audio符号列に含まれているメタデータやオーディオ信号の復号を行う。
このようにすることで、復号の処理が省略されたオブジェクトの分だけ、復号の計算量とメモリ量を削減することができる。なお、符号化装置91のプリレンダリング処理部101において、プリレンダリング処理フラグ、つまりパススルーオブジェクトの選択結果に基づいてメタデータの優先度情報が生成されるようにしてもよい。
次に、レンダリング処理部142でのプリレンダリング処理フラグの利用例について説明する。
レンダリング処理部142では、メタデータに含まれるスプレッド情報に基づいてスプレッド処理が行われることがある。
ここで、スプレッド処理はオブジェクトごとのメタデータに含まれるスプレッド情報の値に基づいてオブジェクトの音の音像を広げる処理であり、臨場感を高めるために用いられる。
一方で、プリレンダリング処理フラグの値が1であるオブジェクトは、符号化装置91のプリレンダリング処理部101において新たに生成されたオブジェクト、すなわち非パススルーオブジェクトとされた複数のオブジェクトが混合したオブジェクトとなっている。そして、そのような新たに生成されたオブジェクトのスプレッド情報の値は、複数の非パススルーオブジェクトのスプレッド情報の平均値などにより求められた1つの値となっている。
そのため、プリレンダリング処理フラグの値が1であるオブジェクトに対してスプレッド処理を行うと、元々は複数であったオブジェクトに対して、適切であるとは限らない1つのスプレッド情報に基づいてスプレッド処理が行われることになり、臨場感が低くなってしまうことがある。
そこで、レンダリング処理部142では、プリレンダリング処理フラグの値が0であるオブジェクトについてはスプレッド情報に基づくスプレッド処理を行い、プリレンダリング処理フラグの値が1であるオブジェクトについてはスプレッド処理を行わないようにすることができる。そうすれば、臨場感が低下してしまうことを防止し、かつ不要なスプレッド処理を行わずに、その分だけ計算量とメモリ量を削減することができる。
その他、本技術を適用したプリレンダリング処理装置は、複数のオブジェクトからなるコンテンツの再生や編集を行う装置、復号側の装置などに設けられるようにしてもよい。例えばオブジェクトに対応するトラックを編集するアプリケーションプログラムでは、トラック数が多すぎると編集が煩雑になるため、編集時にトラック数、つまりオブジェクト数を削減できる本技術を適用すると効果的である。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図7は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
L個のオブジェクトのデータを取得し、前記L個の前記オブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択するパススルーオブジェクト選択部と、
前記L個の前記オブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、(L-M)個よりも少ないN個の新たなオブジェクトの前記データを生成するオブジェクト生成部と
を備える情報処理装置。
(2)
前記オブジェクト生成部は、(L-M)個の前記非パススルーオブジェクトの前記データに基づいて、前記新たなオブジェクトの前記データを生成する
(1)に記載の情報処理装置。
(3)
前記オブジェクト生成部は、前記複数の前記非パススルーオブジェクトの前記データに基づいて、レンダリング処理により、互いに異なる位置に配置される前記N個の前記新たなオブジェクトの前記データを生成する
(1)または(2)に記載の情報処理装置。
(4)
前記オブジェクト生成部は、前記複数の前記非パススルーオブジェクトの前記データに含まれる位置情報に基づいて、前記N個の前記新たなオブジェクトの位置を決定する
(3)に記載の情報処理装置。
(5)
前記オブジェクト生成部は、前記位置情報に基づいてk-means手法により前記N個の前記新たなオブジェクトの位置を決定する
(4)に記載の情報処理装置。
(6)
前記N個の前記新たなオブジェクトの位置は予め定められた位置とされる
(3)に記載の情報処理装置。
(7)
前記データは、前記オブジェクトのオブジェクト信号およびメタデータである
(3)乃至(6)の何れか一項に記載の情報処理装置。
(8)
前記オブジェクトはオーディオオブジェクトである
(7)に記載の情報処理装置。
(9)
前記オブジェクト生成部は、前記レンダリング処理としてVBAPを行う
(8)に記載の情報処理装置。
(10)
前記パススルーオブジェクト選択部は、前記L個の前記オブジェクトの優先度情報に基づいて、前記M個の前記パススルーオブジェクトを選択する
(1)乃至(9)の何れか一項に記載の情報処理装置。
(11)
前記パススルーオブジェクト選択部は、前記L個の前記オブジェクトの空間内における集中度合いに基づいて、前記M個の前記パススルーオブジェクトを選択する
(1)乃至(9)の何れか一項に記載の情報処理装置。
(12)
前記パススルーオブジェクトの個数Mは、指定された個数である
(1)乃至(11)の何れか一項に記載の情報処理装置。
(13)
前記パススルーオブジェクト選択部は、前記パススルーオブジェクトの前記データおよび前記新たなオブジェクトの前記データの合計のデータサイズに基づいて、前記パススルーオブジェクトの個数Mを決定する
(1)乃至(11)の何れか一項に記載の情報処理装置。
(14)
前記パススルーオブジェクト選択部は、前記パススルーオブジェクトの前記データおよび前記新たなオブジェクトの前記データの復号時の処理の計算量に基づいて、前記パススルーオブジェクトの個数Mを決定する
(1)乃至(11)の何れか一項に記載の情報処理装置。
(15)
情報処理装置が、
L個のオブジェクトのデータを取得し、
前記L個の前記オブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択し、
前記L個の前記オブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、(L-M)個よりも少ないN個の新たなオブジェクトの前記データを生成する
情報処理方法。
(16)
L個のオブジェクトのデータを取得し、
前記L個の前記オブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択し、
前記L個の前記オブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、(L-M)個よりも少ないN個の新たなオブジェクトの前記データを生成する
ステップを含む処理をコンピュータに実行させるプログラム。
11 プリレンダリング処理装置, 21 優先度算出部, 22 パススルーオブジェクト選択部, 23 オブジェクト生成部

Claims (15)

  1. 空間におけるL個のオーディオオブジェクトのデータを取得し、前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択するパススルーオブジェクト選択部と、
    前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における(L-M)個よりも少ないN個の新たなオーディオオブジェクトの前記データをレンダリング処理により生成するオブジェクト生成部と
    を備える情報処理装置。
  2. 前記オブジェクト生成部は、(L-M)個の前記非パススルーオブジェクトの前記データに基づいて、前記新たなオーディオオブジェクトの前記データを生成する
    請求項1に記載の情報処理装置。
  3. 前記オブジェクト生成部は、前記複数の前記非パススルーオブジェクトの前記データに基づいて、前記レンダリング処理により、前記空間における互いに異なる位置に配置される前記N個の前記新たなオーディオオブジェクトの前記データを生成する
    請求項1に記載の情報処理装置。
  4. 前記オブジェクト生成部は、前記複数の前記非パススルーオブジェクトの前記データに含まれる位置情報に基づいて、前記N個の前記新たなオーディオオブジェクトの位置を決定する
    請求項3に記載の情報処理装置。
  5. 前記オブジェクト生成部は、前記位置情報に基づいてk-means手法により前記N個の前記新たなオーディオオブジェクトの位置を決定する
    請求項4に記載の情報処理装置。
  6. 前記N個の前記新たなオーディオオブジェクトの位置は予め定められた位置とされる
    請求項3に記載の情報処理装置。
  7. 前記データは、前記オーディオオブジェクトオーディオ信号およびメタデータである
    請求項3に記載の情報処理装置。
  8. 前記オブジェクト生成部は、前記レンダリング処理としてVBAPを行う
    請求項1に記載の情報処理装置。
  9. 前記パススルーオブジェクト選択部は、前記L個の前記オーディオオブジェクトの優先度情報に基づいて、前記M個の前記パススルーオブジェクトを選択する
    請求項1に記載の情報処理装置。
  10. 前記パススルーオブジェクト選択部は、前記L個の前記オーディオオブジェクト前記空間内における集中度合いに基づいて、前記M個の前記パススルーオブジェクトを選択する
    請求項1に記載の情報処理装置。
  11. 前記パススルーオブジェクトの個数Mは、指定された個数である
    請求項1に記載の情報処理装置。
  12. 前記パススルーオブジェクト選択部は、前記パススルーオブジェクトの前記データおよび前記新たなオーディオオブジェクトの前記データの合計のデータサイズに基づいて、前記パススルーオブジェクトの個数Mを決定する
    請求項1に記載の情報処理装置。
  13. 前記パススルーオブジェクト選択部は、前記パススルーオブジェクトの前記データおよび前記新たなオーディオオブジェクトの前記データの復号時の処理の計算量に基づいて、前記パススルーオブジェクトの個数Mを決定する
    請求項1に記載の情報処理装置。
  14. 情報処理装置が、
    空間におけるL個のオーディオオブジェクトのデータを取得し、
    前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択し、
    前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における(L-M)個よりも少ないN個の新たなオーディオオブジェクトの前記データをレンダリング処理により生成する
    情報処理方法。
  15. 空間におけるL個のオーディオオブジェクトのデータを取得し、
    前記L個の前記オーディオオブジェクトのなかから、前記データをそのまま出力するM個のパススルーオブジェクトを選択し、
    前記L個の前記オーディオオブジェクトのうちの前記パススルーオブジェクトではない複数の非パススルーオブジェクトの前記データに基づいて、前記空間における(L-M)個よりも少ないN個の新たなオーディオオブジェクトの前記データをレンダリング処理により生成する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2020558243A 2018-11-20 2019-11-06 情報処理装置および方法、並びにプログラム Active JP7468359B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024047716A JP2024079768A (ja) 2018-11-20 2024-03-25 情報処理装置および方法、プログラム、並びに情報処理システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018217180 2018-11-20
JP2018217180 2018-11-20
PCT/JP2019/043360 WO2020105423A1 (ja) 2018-11-20 2019-11-06 情報処理装置および方法、並びにプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024047716A Division JP2024079768A (ja) 2018-11-20 2024-03-25 情報処理装置および方法、プログラム、並びに情報処理システム

Publications (2)

Publication Number Publication Date
JPWO2020105423A1 JPWO2020105423A1 (ja) 2021-10-14
JP7468359B2 true JP7468359B2 (ja) 2024-04-16

Family

ID=70773982

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020558243A Active JP7468359B2 (ja) 2018-11-20 2019-11-06 情報処理装置および方法、並びにプログラム
JP2024047716A Pending JP2024079768A (ja) 2018-11-20 2024-03-25 情報処理装置および方法、プログラム、並びに情報処理システム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024047716A Pending JP2024079768A (ja) 2018-11-20 2024-03-25 情報処理装置および方法、プログラム、並びに情報処理システム

Country Status (6)

Country Link
US (1) US20220020381A1 (ja)
JP (2) JP7468359B2 (ja)
KR (1) KR20210092728A (ja)
CN (1) CN113016032B (ja)
BR (1) BR112021009306A2 (ja)
WO (1) WO2020105423A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110537220B (zh) * 2017-04-26 2024-04-16 索尼公司 信号处理设备和方法及程序
CN115497485B (zh) * 2021-06-18 2024-10-18 华为技术有限公司 三维音频信号编码方法、装置、编码器和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120230497A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
WO2015056383A1 (ja) 2013-10-17 2015-04-23 パナソニック株式会社 オーディオエンコード装置及びオーディオデコード装置
JP2016522911A (ja) 2013-05-24 2016-08-04 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
JP2016525699A (ja) 2013-05-24 2016-08-25 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
WO2018047667A1 (ja) 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法
JP2018510532A (ja) 2015-02-06 2018-04-12 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応オーディオ・コンテンツのためのハイブリッドの優先度に基づくレンダリング・システムおよび方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5883976A (en) * 1994-12-28 1999-03-16 Canon Kabushiki Kaisha Selectively utilizing multiple encoding methods
JP2004093771A (ja) * 2002-08-30 2004-03-25 Sony Corp 情報処理方法および情報処理装置、記録媒体、並びにプログラム
CN101542597B (zh) * 2007-02-14 2013-02-27 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
US9516446B2 (en) * 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
JP6439296B2 (ja) * 2014-03-24 2018-12-19 ソニー株式会社 復号装置および方法、並びにプログラム
CN106162500B (zh) * 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
CN107925837B (zh) * 2015-08-31 2020-09-22 杜比国际公司 对压缩hoa信号逐帧组合解码和渲染的方法以及对压缩hoa信号逐帧组合解码和渲染的装置
US9913061B1 (en) * 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
CN110537220B (zh) 2017-04-26 2024-04-16 索尼公司 信号处理设备和方法及程序

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120230497A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
JP2016522911A (ja) 2013-05-24 2016-08-04 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
JP2016525699A (ja) 2013-05-24 2016-08-25 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
WO2015056383A1 (ja) 2013-10-17 2015-04-23 パナソニック株式会社 オーディオエンコード装置及びオーディオデコード装置
JP2018510532A (ja) 2015-02-06 2018-04-12 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応オーディオ・コンテンツのためのハイブリッドの優先度に基づくレンダリング・システムおよび方法
WO2018047667A1 (ja) 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法

Also Published As

Publication number Publication date
CN113016032B (zh) 2024-08-20
JP2024079768A (ja) 2024-06-11
BR112021009306A2 (pt) 2021-08-10
CN113016032A (zh) 2021-06-22
JPWO2020105423A1 (ja) 2021-10-14
WO2020105423A1 (ja) 2020-05-28
KR20210092728A (ko) 2021-07-26
EP3886089A1 (en) 2021-09-29
US20220020381A1 (en) 2022-01-20

Similar Documents

Publication Publication Date Title
EP2936485B1 (en) Object clustering for rendering object-based audio content based on perceptual criteria
JP2024079768A (ja) 情報処理装置および方法、プログラム、並びに情報処理システム
JP7509190B2 (ja) 復号装置および方法、並びにプログラム
JP7459913B2 (ja) 信号処理装置および方法、並びにプログラム
US10277997B2 (en) Processing object-based audio signals
KR101985185B1 (ko) 메타데이터 보존 오디오 객체 클러스터링
US11743646B2 (en) Signal processing apparatus and method, and program to reduce calculation amount based on mute information
CN114747232A (zh) 音频场景变化信令
CN117501362A (zh) 音频渲染系统、方法和电子设备
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
US20240119946A1 (en) Audio rendering system and method and electronic device
US20230360665A1 (en) Method and apparatus for processing audio for scene classification
CN110998724B (zh) 基于位置元数据的音频对象分类
JP3466507B2 (ja) 音声符号化方式、音声符号化装置、及びデータ記録媒体
WO2024226952A1 (en) A method, device, system, and software for a computer-implemented method for playback of game audio by use of representative audio objects at runtime
KR20210004737A (ko) 관심영역 기반 잔차 영상 생성 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240318

R150 Certificate of patent or registration of utility model

Ref document number: 7468359

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150