JP2017055149A

JP2017055149A - 音声処理装置および方法、符号化装置、並びにプログラム

Info

Publication number: JP2017055149A
Application number: JP2015175388A
Authority: JP
Inventors: 辻　実; Minoru Tsuji; 実辻; 徹知念; Toru Chinen; 本間　弘幸; Hiroyuki Honma; 弘幸本間; 優樹山本; Yuki Yamamoto
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-09-07
Filing date: 2015-09-07
Publication date: 2017-03-16
Also published as: WO2017043309A1

Abstract

【課題】より自由度の高いオーディオ再生を行うことができるようにする。
【解決手段】抽出部は、オブジェクトの位置情報と、Diffuseness情報とが含まれるオブジェクトメタデータを取得する。判定部は、オブジェクトメタデータに含まれるDiffuseness情報と、Diffuseness閾値とを比較して、Diffuseness情報がDiffuseness閾値以下である場合、オブジェクトオーディオデータをレンダリング部に供給させ、Diffuseness情報がDiffuseness閾値より大きい場合、オブジェクトオーディオデータをゲイン制御部に供給させる。本技術は音声処理装置に適用することができる。
【選択図】図２

Description

本技術は音声処理装置および方法、符号化装置、並びにプログラムに関し、特に、より自由度の高いオーディオ再生を行うことができるようにした音声処理装置および方法、符号化装置、並びにプログラムに関する。

従来、ISO/IEC 23008-3 “3D Audio”規格において、オブジェクトオーディオが採用されており、各オブジェクト音源が、そのオブジェクトの位置情報等のメタ情報に従ってレンダリング処理され、再生される（例えば、非特許文献１参照）。

一方、実空間において聞こえる音には、音源から直接耳に届く直接音だけでなく、音源からの音が壁などに反射して耳に届く反射音が存在する場合がある。具体的には、例えば人の前方で花火がなったとき、その人の前方から直接音が聞こえるだけでなく、その人の後方の壁から反射音が聞こえるようなケースがある。

ISO/IEC DIS 23008-3 "Information technology-High efficiency coding and media delivery in heterogeneous environments-Part 3: 3D audio"

ところで、オブジェクトオーディオにおいては、直接音と反射音をそれぞれ別のオブジェクトで表現することで、実空間における音の聞こえ方を再現する場合がある。

ここで、直接音と反射音はそれぞれ独立したオブジェクトとして存在しているが、それぞれのオブジェクトが直接音であるか反射音であるかの区別がないため、再生側では全てのオブジェクトの音声がレンダリング再生されることになる。

そのため、例えば直接音だけを再生したり、反射音のゲインを調整したりするなど、直接音のオブジェクトと反射音のオブジェクトを別々に制御することができず、自由度の高いオーディオ再生を行うことができなかった。

本技術は、このような状況に鑑みてなされたものであり、より自由度の高いオーディオ再生を行うことができるようにするものである。

本技術の第１の側面の音声処理装置は、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する制御部とを備える。

音声処理装置には、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理としてゲイン調整を行うゲイン制御部をさらに設けることができる。

音声処理装置には、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理として音像を広げる処理を行うレンダリング部をさらに設けることができる。

前記Diffuseness情報の最大値は、前記オーディオオブジェクトの音声が反射音であることを示しており、前記Diffuseness情報の最小値は、前記オーディオオブジェクトの音声が直接音であることを示しているようにすることができる。

本技術の第１の側面の音声処理方法またはプログラムは、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御するステップを含む。

本技術の第１の側面においては、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータが取得され、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御される。

本技術の第２の側面の符号化装置は、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを符号化し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを符号化しない符号化部とを備える。

本技術の第２の側面においては、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータが取得され、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータが符号化され、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータが符号化されない。

本技術の第１の側面および第２の側面によれば、より自由度の高いオーディオ再生を行うことができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

オブジェクトメタデータの一例を示す図である。音声処理装置の構成例を示す図である。再生処理を説明するフローチャートである。音声処理装置の構成例を示す図である。再生処理を説明するフローチャートである。エンコーダの構成例を示す図である。エンコード処理を説明するフローチャートである。音声処理装置の構成例を示す図である。再生処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈オブジェクトメタデータについて〉
本技術は、オーディオオブジェクトのオブジェクトオーディオデータおよびオブジェクトメタデータに基づいて、そのオーディオオブジェクトの音声を再生する場合に、より自由度の高いオーディオ再生を実現することができるようにするものである。なお、以下では、オーディオオブジェクトを単にオブジェクトとも称することとする。

より具体的には、本技術は直接音のオブジェクトと反射音のオブジェクトとで、オーディオ再生時の制御を別々に行うことができるようにすることで、より自由度の高いオーディオ再生を実現することができるようにするものである。

オブジェクトの音声の再生時には、オブジェクトの音声を再生するためのオーディオ信号であるオブジェクトオーディオデータと、オブジェクトに関するメタデータであるオブジェクトメタデータとに基づいて音声再生のための処理が行われる。

ここで、オブジェクトメタデータには、例えば図１に示すように位置情報、ゲイン情報、およびDiffuseness情報が含まれている。

位置情報は、再生空間における基準となる音声の聴取位置から見たオブジェクトの位置を示す情報である。例えば位置情報は、聴取位置から見たオブジェクト位置の水平方向角度および垂直方向角度と、聴取位置からオブジェクト位置までの距離とからなる。

また、ゲイン情報は、オブジェクトオーディオデータに対するゲイン調整を行うときに用いられるオブジェクトごとのゲイン値などとされる。

さらにDiffuseness情報は、オブジェクトの音声が直接音であるか、または反射音であるかを示す拡散性情報である。

例えばDiffuseness情報は、直接音であるか、または反射音であるかを示すフラグ情報とされてもよいし、オブジェクトの音に含まれる反射成分の割り合いを示す情報などとされてもよい。

以下では、Diffuseness情報は、反射成分の割り合いを示す情報、すなわち反射音らしさの度合いを示す情報であるものとし、Diffuseness情報が0.0乃至1.0の間の値とされる場合を例として説明する。

ここで、Diffuseness情報が最小値である0.0である場合には、オブジェクトの音声に反射成分は含まれておらず、オブジェクトの音声は直接音であるとされる。これに対して、Diffuseness情報が最大値である1.0である場合には、オブジェクトの音声は反射成分のみからなり、オブジェクトの音声は反射音であるとされる。

具体的には、例えば音源にマイクロホンを取り付けて収音することで得られたオーディオデータをオブジェクトのオブジェクトオーディオデータとする場合には、そのオブジェクトオーディオデータに含まれる成分は音源からの直接音の成分が殆どとなる。このような場合、オブジェクトのDiffuseness情報は0.0などとされる。

これに対して、例えば音源からある程度離れた位置にあるマイクロホンで収音して得られたオーディオデータをオブジェクトオーディオデータとする場合には、そのオブジェクトオーディオデータには音源からの直接音の成分だけでなく、その反射音の成分も含まれているはずである。そこで、このような場合、オブジェクトのDiffuseness情報は音源とマイクロホンとの距離に応じて1.0や0.5などとされる。特にこの場合には音源とマイクロホンとの距離が短いほどDiffuseness情報の値が小さくなるようにすればよい。また、明らかに音源とは異なる方向から聞こえてくる音をマイクロホンで収音して得られたオーディオデータをオブジェクトオーディオデータとする場合には、そのオブジェクトオーディオデータは反射音であるはずである。そこで、このような場合、オブジェクトのDiffuseness情報は1.0とすればよい。

さらに他の具体例として、例えば音像の広がりを示す領域内の各位置をオブジェクトの位置とし、それらのオブジェクトのオブジェクトオーディオデータによって、１つの音源から発せられた音声を表現する場合なども考えられる。

そのような場合、音像の広がりを示す領域の中心位置にあるオブジェクトのオブジェクトオーディオデータには、音源からの直接音の成分のみが含まれているものとされ、Diffuseness情報の値は0.0とされる。これに対して、音像の広がりを示す領域の中心位置から遠い位置にあるオブジェクトほど、そのオブジェクトのオブジェクトオーディオデータに含まれる反射音の成分が多くなるものとされる。すなわち、そのオブジェクトのDiffuseness情報の値は、音像の広がりを示す領域の中心位置からの距離に応じて、0.5や0.7、1.0などとされる。

さらに、人工的に生成された音声のオブジェクトについては、音声の制作者の意図に応じてDiffuseness情報の値を定めればよい。

なお、ここではDiffuseness情報の最大値である1.0が反射音を示しており、最小値である0.0が直接音を示している例について説明したが、0.0が反射音を示し、1.0が直接音を示すようにしてもよい。

また、以下では１つのオブジェクトに対して１つのDiffuseness情報が定められる例について説明するが、複数のオブジェクトに対して１つのDiffuseness情報が定められるようにしてもよい。

〈音声処理装置の構成例〉
次に、オブジェクトメタデータと、オブジェクトオーディオデータとを入力としてオーディオ再生を行う音声処理装置に本技術を適用した実施の形態について説明する。

図２は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。

音声処理装置１１には、コンテンツのオーディオデータである１または複数のオブジェクトのオブジェクトオーディオデータと、それらのオブジェクトのオブジェクトメタデータとが供給される。音声処理装置１１は、それらのオブジェクトオーディオデータとオブジェクトメタデータとに基づいてレンダリング処理を行い、複数のチャンネルのスピーカからなるスピーカアレイ１２にオーディオデータを供給してコンテンツを再生させる。

音声処理装置１１は、抽出部２１、判定部２２、切替部２３、ゲイン制御部２４、およびレンダリング部２５を有している。

抽出部２１は、外部からオブジェクトのオブジェクトメタデータを取得し、そのオブジェクトメタデータからDiffuseness情報を抽出して判定部２２に供給するとともに、オブジェクトメタデータをレンダリング部２５に供給する。

判定部２２は、抽出部２１から供給されたDiffuseness情報と、外部から供給されたDiffuseness閾値th1とを比較することで、オブジェクトの音声が反射音らしいか否かを判定し、その判定結果に応じて切替部２３を制御する。すなわち、判定部２２では、オブジェクトの音声に含まれる反射成分の割り合いが所定値より大きいか否かが判定される。

ここでは、Diffuseness情報がDiffuseness閾値th1より大きい場合に、オブジェクトの音声は反射音らしいとされ、そのオブジェクトに対して反射音向けの処理が行われる。

また、Diffuseness閾値th1は、後段において反射音向けの処理を行うべきオブジェクトであるか、つまり反射音であるかを判別するための閾値であり、例えばDiffuseness閾値th1はユーザ等により指定される。例えばDiffuseness閾値th1が0.0である場合、Diffuseness情報が0.0以外の全てのオブジェクトに対して反射音向けの処理が行われることになる。

切替部２３は、判定部２２の制御に応じて、外部から供給されたオブジェクトオーディオデータの出力先を切り替える。

具体的には、切替部２３はスイッチ３１を有しており、スイッチ３１をノード３２またはノード３３の何れかに接続することで、オブジェクトオーディオデータの出力先を切り替える。例えばスイッチ３１がノード３２に接続された場合には、オブジェクトオーディオデータはレンダリング部２５に供給され、スイッチ３１がノード３３に接続された場合には、オブジェクトオーディオデータがゲイン制御部２４に供給される。

ここでは、反射音向けの処理が行われる場合に、オブジェクトオーディオデータがゲイン制御部２４に供給され、そうでない場合、つまり直接音向けの処理が行われる場合には、オブジェクトオーディオデータは、直接、レンダリング部２５に供給される。

ゲイン制御部２４は、外部から供給された反射成分ゲインに基づいて、切替部２３から供給されたオブジェクトオーディオデータに対するゲイン制御処理、つまりゲイン調整を行い、ゲイン調整されたオブジェクトオーディオデータをレンダリング部２５に供給する。

ここで、反射成分ゲインは、ユーザ等により指定されたものとしてもよいし、予め定められた定数としてもよい。例えば反射成分ゲインが0.0とされた場合には、反射音向けの処理を行うとされたオブジェクト、つまりDiffuseness情報がDiffuseness閾値th1より大きいオブジェクトについては、オブジェクトオーディオデータは無音信号となる。そのため、そのようなオブジェクトについては、実質的にレンダリング再生が行われないことになる。

また、反射成分ゲインは、Diffuseness情報の値に応じて判定部２２により定められるようにしてもよい。そのような場合、例えば判定部２２は、Diffuseness情報の値が大きいほど反射成分ゲインが小さくなるようにする。具体的には、例えばDiffuseness情報の値に応じて反射成分ゲインが線形に変化していくようにすればよい。

レンダリング部２５は、抽出部２１から供給されたオブジェクトメタデータに基づいて、切替部２３またはゲイン制御部２４から供給されたオブジェクトオーディオデータに対してレンダリング処理を行う。また、レンダリング部２５は、レンダリング処理の結果として得られた各チャンネルのオーディオデータを、それらのチャンネルに対応するスピーカアレイ１２の各スピーカに供給し、音声を再生させる。

〈再生処理の説明〉
次に、図２に示した音声処理装置１１の動作について説明する。すなわち、以下、図３のフローチャートを参照して、音声処理装置１１による再生処理について説明する。なお、この再生処理はオブジェクトごとに行われる。

ステップＳ１１において、抽出部２１は、外部からオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部２２に供給するとともに、オブジェクトメタデータをレンダリング部２５に供給する。

ステップＳ１２において、判定部２２は、抽出部２１から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th1以下であるか否かを判定する。

ステップＳ１２においてDiffuseness閾値th1以下でないと判定された場合、つまり処理対象のオブジェクトの音声は反射音らしいため、そのオブジェクトが反射音向けの処理を行うべきものであると判定された場合、処理はステップＳ１３へと進む。

ステップＳ１３において、切替部２３は、外部から供給されたオブジェクトオーディオデータをゲイン制御部２４に供給する。

すなわち、判定部２２は、ステップＳ１２の判定処理の結果に応じて切替部２３を制御し、切替部２３は判定部２２の制御に応じてスイッチ３１をノード３３に接続し、外部から供給されたオブジェクトオーディオデータをゲイン制御部２４に供給する。

ステップＳ１４において、ゲイン制御部２４は外部から供給された反射成分ゲインに基づいて、切替部２３から供給されたオブジェクトオーディオデータに対するゲイン制御処理を行い、その結果得られたオブジェクトオーディオデータをレンダリング部２５に供給する。

例えばゲイン制御処理では、反射成分ゲインに基づいてオブジェクトオーディオデータのゲインが調整、つまり減衰される。したがって、例えば反射成分ゲインを0.0とすれば、反射音のオブジェクトについてはコンテンツ再生時にその音声が使用されず、直接音のみが再生に使用されることになる。

このように反射音のオブジェクトオーディオデータのゲイン調整を行うことで、反射成分のない、または反射成分の少ない、クリアな音声を再生することができるようになる。

これに対して、反射成分ゲインをそれなりに大きい値とすれば、反射音のオブジェクトについてもコンテンツ再生時にその音声が十分な音量で再生されるので、反射成分を含む臨場感のあるコンテンツ再生が行われることになる。なお、反射成分ゲインにより、反射音が強調されるようにしてもよい。

また、ステップＳ１２において、Diffuseness閾値th1以下であると判定された場合、つまり処理対象のオブジェクトが直接音向けの処理を行うべきものであると判定された場合、処理はステップＳ１５へと進む。

ステップＳ１５において、切替部２３は、外部から供給されたオブジェクトオーディオデータをレンダリング部２５に供給する。

すなわち、判定部２２は、ステップＳ１２の判定処理の結果に応じて切替部２３を制御し、切替部２３は判定部２２の制御に応じてスイッチ３１をノード３２に接続し、外部から供給されたオブジェクトオーディオデータをレンダリング部２５に供給する。

ステップＳ１４においてゲイン制御処理が行われたか、またはステップＳ１５においてオブジェクトオーディオデータがレンダリング部２５に供給されると、ステップＳ１６において、レンダリング部２５はレンダリング処理を行う。

具体的には、レンダリング部２５は、抽出部２１から供給されたオブジェクトメタデータに含まれている位置情報に基づいて、オブジェクトの音像が再生空間における位置情報により示される位置に定位するように、VBAP（Vector Base Amplitude Panning）等によりスピーカアレイ１２の各スピーカ、つまり各チャンネルのゲイン値を算出する。

そして、レンダリング部２５は、スピーカごとに算出したゲイン値と、オブジェクトメタデータに含まれているゲイン情報により示されるオブジェクトごとのゲイン値とを、切替部２３またはゲイン制御部２４から供給されたオブジェクトオーディオデータに乗算する。レンダリング部２５は、ゲイン値の乗算処理の結果得られたオーディオデータを、それらの各スピーカに供給するオーディオデータとする。

なお、VBAPについては、例えば「Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997」などに詳細に記載されている。

ステップＳ１７において、レンダリング部２５は、レンダリング処理により得られた各スピーカのオーディオデータを、スピーカアレイ１２の対応するスピーカに供給して音声を再生させ、再生処理は終了する。これにより、反射音が適切に減衰されたコンテンツの音声が再生されることになる。このとき、オブジェクトの音像は、オブジェクトメタデータに含まれる位置情報により示される位置に定位することになる。

以上のようにして音声処理装置１１は、Diffuseness情報とDiffuseness閾値th1とを比較し、その比較結果に応じてオブジェクトオーディオデータに対してゲイン制御処理を行う。つまり、直接音らしいオブジェクトオーディオデータについては、そのまま音声の再生に使用され、反射音らしいオブジェクトオーディオデータについては、再生に使用されないか、または直接音とは異なる処理が施されて再生に使用されるように制御される。

これにより、適宜反射成分を減衰させて反射成分のない、または反射成分の少ないクリアなコンテンツ再生を実現したり、反射成分を適切に残して、反射成分が含まれる臨場感のあるコンテンツ再生を実現したりすることができる。

すなわち、反射音と直接音とを区別してオブジェクトオーディオデータを処理することができるようにすることで、より自由度の高いコンテンツ再生を実現することができる。その結果、ユーザは自身の好みに応じてコンテンツを再生させることができる。

〈第２の実施の形態〉
〈音声処理装置の構成例〉
また、コンテンツ再生時に反射音のオブジェクトについて、音の広がりを再現する処理を制御できるようにしてもよい。

例えばISO/IEC 23008-3 “3D Audio”規格では、オブジェクトのレンダリングにおいて、音の広がりを再現するSpread処理が採用されている。このSpread処理は、オブジェクトのレンダリングの際に、音の広がりを再現するために加えられる処理であるが、反射音は定位が明確でない方が臨場感がある場合がある。そこで、反射音のオブジェクトのレンダリングにおいてSpread処理を加えるようにすることで、より臨場感のある反射音を再現できるようにしもてよい。

そのような場合、音声処理装置は、例えば図４に示すように構成される。なお、図４において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図４に示す音声処理装置６１は、抽出部２１、判定部２２、切替部２３、およびレンダリング部２５を有している。

この例では、オブジェクトメタデータが抽出部２１を介して切替部２３に供給され、切替部２３は、判定部２２の制御に応じてオブジェクトメタデータの出力先を切り替える。

また、判定部２２には、レンダリング部２５においてSpread処理を行うオブジェクトであるか否かを判別するためのDiffuseness閾値th2が供給され、判定部２２は、このDiffuseness閾値th2とDiffuseness情報とを比較して切替部２３を制御する。

ここで、Diffuseness閾値th2は、ユーザ等により指定されたものとしてもよいし、予め定められた定数とされるようにしてもよい。また、Diffuseness閾値th2は、別途、オブジェクトオーディオデータやオブジェクトメタデータが含まれるビットストリームにオーディオメタデータとして記録されているものであってもよい。

判定部２２では、Diffuseness情報がDiffuseness閾値th2より大きい場合に、Spread処理が行われるオブジェクトであるとされる。つまり、オブジェクトの音声は反射音であるとされる。具体的には、例えばDiffuseness閾値th2が0.0である場合、Diffuseness情報が0.0以外である全てのオブジェクトについて、Spread処理が行われることになる。

レンダリング部２５は、ベクトル算出部７１、ゲイン算出部７２、およびゲイン調整部７３を有している。

レンダリング部２５では、Diffuseness情報がDiffuseness閾値th2より大きい場合には、切替部２３からベクトル算出部７１およびゲイン算出部７２にオブジェクトメタデータが供給される。これに対して、Diffuseness情報がDiffuseness閾値th2以下である場合には、切替部２３からゲイン算出部７２にオブジェクトメタデータが供給される。

ベクトル算出部７１は、外部から供給されたスプレッドパラメタと、切替部２３から供給されたオブジェクトメタデータとに基づいて、オブジェクト位置からの音像の広がりを示す領域内の位置を終点位置とする複数のSpreadベクトルを算出し、ゲイン算出部７２に供給する。

ここで、音像の広がりを示す領域とは、オブジェクトの音像が広がる範囲を示す領域である。この音像の広がりを示す領域の中心位置はオブジェクトメタデータに含まれる位置情報により示される位置とされ、また音像の広がりを示す領域の範囲（大きさ）、すなわち音像の広がり度合いがスプレッドパラメタにより指定される。つまり、スプレッドパラメタの値が大きいほど、音像が広がる範囲が広くなる。

ベクトル算出部７１は、再生空間における基準となる音声の聴取位置を始点とし、オブジェクトメタデータとスプレッドパラメタにより定まる音像の広がりを示す領域内の上下左右対称な複数の各位置を終点とする複数のSpreadベクトルを算出する。

なお、スプレッドパラメタは、ユーザ等により指定されたものであってもよいし、予め定められた定数であってもよい。また、スプレッドパラメタは、別途、オブジェクトオーディオデータやオブジェクトメタデータが含まれるビットストリームにオーディオメタデータとして記録されているものであってもよい。

さらに、スプレッドパラメタの値は、Diffuseness情報に応じて判定部２２により定められるようにしてもよい。例えばスプレッドパラメタの値は、Diffuseness情報が小さい、つまり0.0に近いほど小さくなり、逆にDiffuseness情報が大きいほど、つまり1.0に近いほど大きくなるように定められてもよい。この場合、オブジェクトの音声の反射成分が多いほど音像の広がりを示す領域が大きくなるので、より臨場感のあるコンテンツ再生を実現することができる。

ゲイン算出部７２は、必要に応じてベクトル算出部７１から供給されたSpreadベクトルと、切替部２３から供給されたオブジェクトメタデータとに基づいて、VBAPによりスピーカアレイ１２のスピーカごとにゲイン値を算出し、ゲイン調整部７３に供給する。

具体的には、ゲイン算出部７２は、Spreadベクトルが供給された場合、Spreadベクトルにより示される位置のそれぞれ、つまりSpreadベクトルの終点位置のそれぞれと、オブジェクトメタデータに含まれる位置情報により示される位置とについて、それらの位置ごとにVBAPによりスピーカごとのゲイン値を算出する。そして、ゲイン算出部７２は、同じスピーカについて算出したゲイン値を加算して１つのゲイン値とし、各スピーカごとに得られたゲイン値を正規化し、正規化されたゲイン値にオブジェクトメタデータに含まれるゲイン情報により示されるオブジェクトごとのゲイン値を乗算して、最終的な各スピーカのゲイン値とする。

また、ゲイン算出部７２は、Spreadベクトルが供給されなかった場合、オブジェクトメタデータに含まれる位置情報により示される位置について、VBAPによりスピーカごとのゲイン値を算出する。さらに、ゲイン算出部７２は、VBAPにより求めたスピーカごとのゲイン値と、オブジェクトメタデータに含まれているゲイン情報により示されるオブジェクトごとのゲイン値とを乗算して、最終的な各スピーカのゲイン値とする。

ゲイン調整部７３は、ゲイン算出部７２から供給された各スピーカのゲイン値を、外部から供給されたオブジェクトオーディオデータに乗算し、その結果得られたオーディオデータを、それらの各スピーカに供給するオーディオデータとする。ゲイン調整部７３は、各スピーカのオーディオデータを、スピーカアレイ１２を構成する各スピーカに供給して音声を再生させる。

〈再生処理の説明〉
次に、図４に示した音声処理装置６１の動作について説明する。すなわち、以下、図５のフローチャートを参照して、音声処理装置６１による再生処理について説明する。なお、この再生処理はオブジェクトごとに行われる。

ステップＳ４１において、抽出部２１は、外部からオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部２２に供給するとともに、オブジェクトメタデータを切替部２３に供給する。

ステップＳ４２において、判定部２２は、抽出部２１から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th2以下であるか否かを判定する。

ステップＳ４２においてDiffuseness閾値th2以下でないと判定された場合、つまり処理対象のオブジェクトの音声が反射音であり、そのオブジェクトはSpread処理を行うべきものであると判定された場合、処理はステップＳ４３へと進む。

ステップＳ４３において、切替部２３は、抽出部２１から供給されたオブジェクトメタデータをベクトル算出部７１およびゲイン算出部７２に供給する。

すなわち、判定部２２は、ステップＳ４２の判定処理の結果に応じて切替部２３を制御し、切替部２３は判定部２２の制御に応じてスイッチ３１をノード３３に接続することで、オブジェクトメタデータをベクトル算出部７１およびゲイン算出部７２に供給する。

ステップＳ４４において、ベクトル算出部７１は、外部から供給されたスプレッドパラメタと、切替部２３から供給されたオブジェクトメタデータとに基づいて複数のSpreadベクトルを算出し、ゲイン算出部７２に供給する。

例えばオブジェクトメタデータに含まれる位置情報により示される位置を中心とし、スプレッドパラメタにより定まる大きさの領域が音像の広がりを示す領域とされ、その領域内の上下左右対称な複数の各位置を示すSpreadベクトルが算出される。

ステップＳ４５において、ゲイン算出部７２は、切替部２３から供給されたオブジェクトメタデータと、ベクトル算出部７１から供給されたSpreadベクトルとに基づいて各スピーカ、つまり各チャンネルのゲイン値を算出し、ゲイン調整部７３に供給する。

例えば各Spreadベクトルにより示される位置と、オブジェクトメタデータに含まれる位置情報により示される位置とについて、それらの位置ごとにVBAPによりスピーカごとのゲイン値が算出される。そして、同じスピーカについて算出したゲイン値が加算されて１つのゲイン値とされた後、各スピーカのゲイン値が正規化され、さらに正規化されたゲイン値に、オブジェクトメタデータに含まれるゲイン情報により示されるオブジェクトごとのゲイン値が乗算されて最終的な各スピーカのゲイン値とされる。

このようにして得られるゲイン値を用いれば、オブジェクトの音像を１点ではなく広がりのある領域全体に定位させることができる。

このようにDiffuseness情報がDiffuseness閾値th2よりも大きく、オブジェクトの音声に含まれる反射成分がある程度多い場合には、Spreadベクトルを求めて各スピーカのゲイン値を算出するSpread処理、つまり音像を広げる処理が行われる。

ステップＳ４５の処理が行われてゲイン値が算出されると、その後、処理はステップＳ４８に進む。

これに対して、ステップＳ４２においてDiffuseness閾値th2以下であると判定された場合、ステップＳ４６において切替部２３は、抽出部２１から供給されたオブジェクトメタデータをゲイン算出部７２に供給する。

すなわち、判定部２２は、ステップＳ４２の判定処理の結果に応じて切替部２３を制御し、切替部２３は判定部２２の制御に応じてスイッチ３１をノード３２に接続することで、オブジェクトメタデータをゲイン算出部７２に供給する。

ステップＳ４７において、ゲイン算出部７２は、切替部２３から供給されたオブジェクトメタデータに基づいて各スピーカのゲイン値を算出し、ゲイン調整部７３に供給する。すなわち、オブジェクトメタデータに含まれる位置情報により示される位置について、VBAPによりスピーカごとのゲイン値が算出され、さらにそれらのゲイン値にオブジェクトメタデータに含まれるゲイン情報により示されるオブジェクトごとのゲイン値が乗算されて最終的な各スピーカのゲイン値とされる。

このようにDiffuseness情報がDiffuseness閾値th2以下であり、オブジェクトの音声に含まれる反射成分が少ない場合には、音像を広げる処理は行われず、通常通りゲイン値が算出される。このようにして得られるゲイン値を用いると、オブジェクトの音像は、位置情報により示される位置に定位する。

ステップＳ４７の処理が行われてゲイン値が算出されると、その後、処理はステップＳ４８に進む。

ステップＳ４５またはステップＳ４７の処理が行われてゲイン値が算出されると、ステップＳ４８において、ゲイン調整部７３は、ゲイン算出部７２から供給されたゲイン値に基づいて、外部から供給されたオブジェクトオーディオデータのゲイン調整を行う。

すなわち、ゲイン調整部７３は、スピーカごとに、それらのスピーカのゲイン値をオブジェクトオーディオデータに乗算し、その結果得られたオーディオデータを、それらの各スピーカに供給するオーディオデータとする。

ステップＳ４９において、ゲイン調整部７３は、各スピーカのオーディオデータを、スピーカアレイ１２の対応するスピーカに供給して音声を再生させ、再生処理は終了する。これにより、反射音の音像は適切に広げられ、直接音の音像はその音源となるオブジェクト位置に定位するようにコンテンツの音声が再生されることになる。

以上のようにして音声処理装置６１は、Diffuseness情報とDiffuseness閾値th2とを比較し、その比較結果に応じてSpread処理を行って、反射音のオブジェクトに音の広がりを加える。つまり、直接音らしいオブジェクトオーディオデータについては、そのまま音声の再生に使用され、反射音らしいオブジェクトオーディオデータについては、直接音には施されないSpread処理が施されて再生に使用されるように制御される。これにより、より臨場感のあるコンテンツ再生を実現することができる。

すなわち、音声処理装置６１では、反射音と直接音とを区別してオブジェクトオーディオデータを処理することができるようにすることで、より自由度の高いコンテンツ再生を実現することができる。

〈第３の実施の形態〉
〈エンコーダの構成例〉
ところで、コンテンツを再生するためのオーディオデータとして、複数のオブジェクトのオーディオデータがある場合、コンテンツを再生するために必要となるデータの伝送量が多くなる。そこで、Diffuseness情報に基づいてオブジェクトの重要度を特定し、データ伝送量を抑制するようにしてもよい。

一般的に反射成分、つまり反射音のオブジェクトは、直接成分、つまり直接音のオブジェクトに比べて重要度は低いと考えられる。そこで、データ伝送の帯域が十分に確保されていない場合に、オブジェクトメタデータに含まれているDiffuseness情報に基づいて、伝送するオブジェクトを間引くようにすれば、データ伝送量を抑制することができる。

そのような場合、本技術を適用したエンコーダは、例えば図６に示すように構成される。

図６に示すエンコーダ１０１は、送出データ間引き部１１１、エンコード部１１２、および送出部１１３を有している。

エンコーダ１０１では、複数個、ここではＮ個のオブジェクトについて、それらのオブジェクトのオブジェクトオーディオデータとオブジェクトメタデータが送出データ間引き部１１１に供給される。すなわち、Ｎ個のオブジェクトオーディオデータと、Ｎ個のオブジェクトメタデータとが送出データ間引き部１１１に供給される。

送出データ間引き部１１１は、これらのオブジェクトオーディオデータとオブジェクトメタデータを、外部から供給されたDiffuseness閾値th3に基づいて間引きして、エンコード部１１２に供給する。

送出データ間引き部１１１は、抽出部１２１、判定部１２２、選択部１２３、および選択部１２４を有している。

抽出部１２１は、外部からオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部１２２に供給するとともに、オブジェクトメタデータを選択部１２４に供給する。

判定部１２２は、抽出部１２１から供給されたDiffuseness情報と、外部から供給されたDiffuseness閾値th3とを比較することで、オブジェクトのデータをエンコード対象とするか否かを判定し、その判定結果に応じて選択部１２３および選択部１２４を制御する。

具体的には、Diffuseness情報がDiffuseness閾値th3以下である場合、オブジェクトのデータがエンコード対象とされる。これは、Diffuseness情報が小さく反射成分が少ない音声のオブジェクト、つまり直接音らしいオブジェクトは重要度が高いオブジェクトである可能性が高いからである。

これに対してDiffuseness情報がDiffuseness閾値th3より大きく、反射成分の多い音声のオブジェクトは、重要度が低いオブジェクトである可能性が高いため、そのオブジェクトのデータはエンコード対象とされず、破棄される。すなわち、反射音らしいオブジェクトはコンテンツ再生には使用されずに破棄される。

ここで、Diffuseness閾値th3は、例えばデータ伝送の帯域幅の状況や、伝送されるデータの受信側のユーザ等により決定されたものとされる。

より具体的には、例えばユーザが反射音のないクリアなコンテンツ再生を要求した場合、反射成分の多い音声のオブジェクトは再生に不要なオブジェクトとなるので、Diffuseness閾値th3は0.0とされる。この場合、直接音のオブジェクトのデータのみが伝送されることになり、データ伝送量を抑制することができるとともに、再生側においても自由度の高いコンテンツ再生を実現することができる。

選択部１２３は、例えばスイッチからなり、判定部１２２の制御に従ってオンまたはオフし、外部から供給されたオブジェクトオーディオデータを、自身のオンまたはオフの状態に応じてエンコード部１１２に供給する。すなわち選択部１２３は、供給されたオブジェクトオーディオデータのなかから、エンコード対象とするものだけを選択して出力する。

選択部１２４は、例えばスイッチからなり、判定部１２２の制御に従ってオンまたはオフし、抽出部１２１から供給されたオブジェクトメタデータを、自身のオンまたはオフの状態に応じてエンコード部１１２に供給する。すなわち選択部１２４は、供給されたオブジェクトメタデータのなかから、エンコード対象とするものだけを選択して出力する。

ここでは、選択部１２３および選択部１２４は、自身がオンとなっている状態であるときにのみ、入力されたデータを後段へと出力するようになされている。

エンコード部１１２は、選択部１２３から供給されたオブジェクトオーディオデータと、選択部１２４から供給されたオブジェクトメタデータとをエンコード（符号化）してビットストリームを生成し、送出部１１３に供給する。

送出部１１３は、エンコード部１１２から供給されたビットストリームを、通信網を介して他の装置に送出する。

〈エンコード処理の説明〉
次に、図６に示したエンコーダ１０１の動作について説明する。すなわち、以下、図７のフローチャートを参照して、エンコーダ１０１によるエンコード処理について説明する。

ステップＳ８１において、抽出部１２１は、Ｎ個のオブジェクトのなかから処理対象とするオブジェクトを１つ選択する。

ステップＳ８２において、抽出部１２１は、外部から処理対象のオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部１２２に供給するとともに、そのオブジェクトメタデータを選択部１２４に供給する。

ステップＳ８３において、判定部１２２は、抽出部１２１から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th3以下であるか否かを判定する。

ステップＳ８３においてDiffuseness閾値th3以下であると判定された場合、ステップＳ８４において、判定部１２２は処理対象のオブジェクトのデータをエンコード対象とする。この場合、判定部１２２は、選択部１２３および選択部１２４を制御して、それらの選択部１２３および選択部１２４をオンさせる。

これにより、選択部１２３は外部から供給された処理対象のオブジェクトのオブジェクトオーディオデータをエンコード部１１２に供給し、選択部１２４は抽出部１２１から供給された処理対象のオブジェクトのオブジェクトメタデータをエンコード部１１２に供給する。

このようにしてオブジェクトオーディオデータとオブジェクトメタデータが出力されると、その後、処理はステップＳ８５へと進む。

これに対して、ステップＳ８３においてDiffuseness閾値th3以下でないと判定された場合、ステップＳ８４の処理はスキップされて処理はステップＳ８５へと進む。

この場合、判定部１２２は、処理対象のオブジェクトのデータはエンコード対象ではないとして、選択部１２３および選択部１２４を制御し、それらの選択部１２３および選択部１２４をオフさせる。

この場合、処理対象のオブジェクトのオブジェクトオーディオデータは、選択部１２３からエンコード部１１２へは供給されず、また処理対象のオブジェクトのオブジェクトメタデータも選択部１２４からエンコード部１１２へは供給されない。

このような処理により、Diffuseness情報がDiffuseness閾値th3よりも大きく、重要度の低いオブジェクトのデータはエンコード対象とされずに間引かれることになる。

ステップＳ８４の処理が行われたか、またはステップＳ８３においてDiffuseness閾値th3以下でないと判定されると、ステップＳ８５において、抽出部１２１は、Ｎ個の全てのオブジェクトを処理したか否かを判定する。

ステップＳ８５においてまだ全てのオブジェクトを処理していないと判定された場合、処理はステップＳ８１に戻り、上述した処理が繰り返し行われる。すなわち、次のオブジェクトが処理対象のオブジェクトとされて、エンコード対象とするかが決定される。

これに対して、ステップＳ８５において全てのオブジェクトを処理したと判定された場合、ステップＳ８６においてエンコード部１１２はエンコード処理を行う。

すなわち、エンコード部１１２は、選択部１２３から供給されたオブジェクトオーディオデータと、選択部１２４から供給されたオブジェクトメタデータとをエンコードし、その結果得られたデータを多重化してビットストリームを生成する。エンコード部１１２は、このようにして得られたビットストリームを送出部１１３に供給する。

ステップＳ８７において、送出部１１３は、エンコード部１１２から供給されたビットストリームを送出し、エンコード処理は終了する。

以上のようにしてエンコーダ１０１は、オブジェクトごとにDiffuseness情報とDiffuseness閾値th3とを比較し、その比較結果に応じてオブジェクトのオブジェクトオーディオデータとオブジェクトメタデータとをエンコードする。すなわち、直接音らしいオブジェクトはコンテンツ再生に使用され、反射音らしいオブジェクトはコンテンツ再生に使用されずに破棄されるように制御される。

このようにDiffuseness情報とDiffuseness閾値th3とを比較し、重要度が低いと考えられる反射音らしいオブジェクトのデータを間引くことで、ビットストリームの伝送量を低減させることができる。特にエンコーダ１０１によれば、データ伝送帯域幅が十分に確保されていない場合などに、オブジェクトの音声の反射性（拡散性）、つまり反射音らしさの度合いに応じてデータを伝送するオブジェクトの取捨選択を行うことで、データ伝送量を抑制することができる。また、オブジェクトの取捨選択をすることによって、より自由度の高いオーディオ再生を実現することができる。

〈第４の実施の形態〉
〈音声処理装置の構成例〉
なお、第３の実施の形態ではエンコーダ１０１側においてオブジェクトの取捨選択を行い、データ伝送量を低減させる例について説明したが、コンテンツの再生側においてオブジェクトの取捨選択を行い、再生時の処理の演算量を抑制するようにしてもよい。

上述したように、一般的に反射成分のオブジェクトは、直接成分のオブジェクトに比べて重要度は低いと考えられる。そこで、再生側の装置の処理能力が十分高くない場合に、オブジェクトメタデータに含まれるDiffuseness情報に基づいて、レンダリング再生するオブジェクトを間引くことで、再生時、つまりレンダリング処理時の演算量を低減させることが可能となる。

そのような場合、本技術を適用した音声処理装置は、例えば図８に示すように構成される。なお、図８において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図８に示す音声処理装置１５１は、オブジェクト間引き部１６１およびレンダリング部２５を有している。

音声処理装置１５１では、複数個、ここではＮ個のオブジェクトについて、それらのオブジェクトのオブジェクトオーディオデータとオブジェクトメタデータがオブジェクト間引き部１６１に供給される。すなわち、Ｎ個のオブジェクトオーディオデータと、Ｎ個のオブジェクトメタデータとがオブジェクト間引き部１６１に供給される。

オブジェクト間引き部１６１は、抽出部２１、判定部２２、選択部１７１、および選択部１７２を有している。

抽出部２１は、外部からオブジェクトのオブジェクトメタデータを取得し、そのオブジェクトメタデータからDiffuseness情報を抽出して判定部２２に供給するとともに、オブジェクトメタデータを選択部１７２に供給する。

判定部２２は、抽出部２１から供給されたDiffuseness情報と、外部から供給されたDiffuseness閾値th4とを比較することで、オブジェクトのデータをレンダリング対象とするか否かを判定し、その判定結果に応じて選択部１７１および選択部１７２を制御する。

具体的には、Diffuseness情報がDiffuseness閾値th4以下である場合、オブジェクトのデータがレンダリング対象とされる。これは、Diffuseness情報が小さく反射成分が少ない音声のオブジェクトは重要度が高いオブジェクトである可能性が高いからである。

これに対してDiffuseness情報がDiffuseness閾値th4より大きく、反射成分の多い音声のオブジェクトは、重要度が低いオブジェクトである可能性が高いため、そのオブジェクトのデータはレンダリング対象とされず、破棄される。つまり、反射音らしいオブジェクトはコンテンツの再生には使用されない。

ここで、Diffuseness閾値th4は、例えば再生装置である音声処理装置１５１の処理負荷の状況や、ユーザ等により決定されたものとされる。

より具体的には、例えば音声処理装置１５１の処理負荷が高くなっており、直接音のオブジェクトのみを再生することで処理負荷を抑制したい場合には、Diffuseness閾値th4は0.0とされる。この場合、直接音のオブジェクトのデータのみがレンダリング処理されることになり、レンダリング処理時の演算量、つまり処理負荷を低減させることができる。

選択部１７１は、例えばスイッチからなり、判定部２２の制御に従ってオンまたはオフし、外部から供給されたオブジェクトオーディオデータを、自身のオンまたはオフの状態に応じてレンダリング部２５に供給する。すなわち選択部１７１は、供給されたオブジェクトオーディオデータのなかから、レンダリング対象とするものだけを選択して出力する。

選択部１７２は、例えばスイッチからなり、判定部２２の制御に従ってオンまたはオフし、抽出部２１から供給されたオブジェクトメタデータを、自身のオンまたはオフの状態に応じてレンダリング部２５に供給する。すなわち選択部１７２は、供給されたオブジェクトメタデータのなかから、レンダリング対象とするものだけを選択して出力する。

ここでは、選択部１７１および選択部１７２は、自身がオンとなっている状態であるときにのみ、入力されたデータを後段へと出力するようになされている。

〈再生処理の説明〉
次に、図８に示した音声処理装置１５１の動作について説明する。すなわち、以下、図９のフローチャートを参照して、音声処理装置１５１による再生処理について説明する。

ステップＳ１１１において、抽出部２１は、Ｎ個のオブジェクトのなかから処理対象とするオブジェクトを１つ選択する。

ステップＳ１１２において、抽出部２１は、外部から処理対象のオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部２２に供給するとともに、そのオブジェクトメタデータを選択部１７２に供給する。

ステップＳ１１３において、判定部２２は、抽出部２１から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th4以下であるか否かを判定する。

ステップＳ１１３においてDiffuseness閾値th4以下であると判定された場合、ステップＳ１１４において、判定部２２は処理対象のオブジェクトのデータをレンダリング対象とする。この場合、判定部２２は、選択部１７１および選択部１７２を制御して、それらの選択部１７１および選択部１７２をオンさせる。

これにより、選択部１７１は外部から供給された処理対象のオブジェクトのオブジェクトオーディオデータをレンダリング部２５に供給し、選択部１７２は抽出部２１から供給された処理対象のオブジェクトのオブジェクトメタデータをレンダリング部２５に供給する。

このようにしてオブジェクトオーディオデータとオブジェクトメタデータが出力されると、その後、処理はステップＳ１１５へと進む。

これに対して、ステップＳ１１３においてDiffuseness閾値th4以下でないと判定された場合、ステップＳ１１４の処理はスキップされて処理はステップＳ１１５へと進む。

この場合、判定部２２は、処理対象のオブジェクトのデータはレンダリング対象ではないとして、選択部１７１および選択部１７２を制御し、それらの選択部１７１および選択部１７２をオフさせる。

この場合、処理対象のオブジェクトのオブジェクトオーディオデータは、選択部１７１からレンダリング部２５へは供給されず、また処理対象のオブジェクトのオブジェクトメタデータも選択部１７２からレンダリング部２５へは供給されない。

このような処理により、Diffuseness情報がDiffuseness閾値th4よりも大きく、重要度の低いオブジェクトのデータはレンダリング対象とされずに間引かれることになる。

ステップＳ１１４の処理が行われたか、またはステップＳ１１３においてDiffuseness閾値th4以下でないと判定されると、ステップＳ１１５において、抽出部２１は、Ｎ個の全てのオブジェクトを処理したか否かを判定する。

ステップＳ１１５においてまだ全てのオブジェクトを処理していないと判定された場合、処理はステップＳ１１１に戻り、上述した処理が繰り返し行われる。すなわち、次のオブジェクトが処理対象のオブジェクトとされて、レンダリング対象とするかが決定される。

これに対して、ステップＳ１１５において全てのオブジェクトを処理したと判定された場合、ステップＳ１１６においてレンダリング部２５はレンダリング処理を行う。

すなわち、レンダリング部２５は、図３のステップＳ１６と同様の処理を行うことで、レンダリング対象とされたオブジェクトごとに、選択部１７１から供給されたオブジェクトオーディオデータと、選択部１７２から供給されたオブジェクトメタデータとに基づいて、各スピーカのオーディオデータを生成する。そして、レンダリング部２５は、オブジェクトごとに求めた各スピーカのオーディオデータについて、同じスピーカのオーディオデータを加算して、そのスピーカの最終的なオーディオデータとする。

ステップＳ１１７において、レンダリング部２５は、レンダリング処理により得られた各スピーカのオーディオデータを、スピーカアレイ１２の対応するスピーカに供給して音声を再生させ、再生処理は終了する。これにより、レンダリング対象とされたオブジェクトの音声が、それらのオブジェクトの位置に定位するようにコンテンツの音声が再生されることになる。

以上のようにして音声処理装置１５１は、オブジェクトごとにDiffuseness情報とDiffuseness閾値th4とを比較し、その比較結果に応じてオブジェクトのオブジェクトオーディオデータのレンダリング処理を行う。すなわち、直接音らしいオブジェクトはコンテンツ再生に使用され、反射音らしいオブジェクトはコンテンツ再生に使用されずに破棄されるように制御される。

このようにDiffuseness情報とDiffuseness閾値th4とを比較し、重要度が低いと考えられる反射音らしいオブジェクトをレンダリング対象から除外することで、つまり間引きを行うことで、レンダリング処理時の演算量（処理量）を低減させることができる。

特に音声処理装置１５１の処理能力が十分高くない場合などに、オブジェクトの音声の反射性、つまり反射音らしさの度合いに応じて、レンダリング再生するオブジェクトの取捨選択を行うことで、演算量を低減させることができる。換言すれば、オブジェクトの取捨選択をすることによって、より自由度の高いオーディオ再生を実現することができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する制御部と
を備える音声処理装置。
（２）
前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理としてゲイン調整を行うゲイン制御部をさらに備える
（１）に記載の音声処理装置。
（３）
前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理として音像を広げる処理を行うレンダリング部をさらに備える
（１）に記載の音声処理装置。
（４）
前記Diffuseness情報の最大値は、前記オーディオオブジェクトの音声が反射音であることを示しており、前記Diffuseness情報の最小値は、前記オーディオオブジェクトの音声が直接音であることを示している
（１）乃至（３）の何れか一項に記載の音声処理装置。
（５）
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む音声処理方法。
（６）
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む処理をコンピュータに実行させるプログラム。
（７）
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを符号化し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを符号化しない符号化部と
を備える符号化装置。

１１音声処理装置，２１抽出部，２２判定部，２３切替部，２４ゲイン制御部，２５レンダリング部，７１ベクトル算出部，７２ゲイン算出部，７３ゲイン調整部，１０１エンコーダ，１１１送出データ間引き部，１１２エンコード部，１１３送出部，１６１オブジェクト間引き部

Claims

オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する制御部と
を備える音声処理装置。
前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理としてゲイン調整を行うゲイン制御部をさらに備える
請求項１に記載の音声処理装置。
前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理として音像を広げる処理を行うレンダリング部をさらに備える
請求項１に記載の音声処理装置。
前記Diffuseness情報の最大値は、前記オーディオオブジェクトの音声が反射音であることを示しており、前記Diffuseness情報の最小値は、前記オーディオオブジェクトの音声が直接音であることを示している
請求項１に記載の音声処理装置。
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む音声処理方法。
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む処理をコンピュータに実行させるプログラム。
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを符号化し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを符号化しない符号化部と
を備える符号化装置。