JP2023083502A

JP2023083502A - 信号処理装置および方法、並びにプログラム

Info

Publication number: JP2023083502A
Application number: JP2023070102A
Authority: JP
Inventors: 弘幸本間; Hiroyuki Honma; 実辻; Minoru Tsuji; 徹知念; Toru Chinen
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2017-10-20
Filing date: 2023-04-21
Publication date: 2023-06-15
Also published as: JP7272269B2; WO2019078035A1; JPWO2019078035A1; US11109179B2; CN117475983A; US11805383B2; CN111164673B; KR20230162143A; US20230126927A1; CN117479077A; EP3699905A1; KR20200075826A; CN111164673A; RU2020112483A3; EP3699905A4; RU2020112483A; KR102615550B1; US20210377691A1; US20210195363A1

Abstract

【課題】符号化効率を向上させることができるようにする。【解決手段】信号処理装置は、オーディオオブジェクトの周囲の空間に固有の空間リバーブ情報と、オーディオオブジェクトに固有のオブジェクトリバーブ情報との少なくとも何れか一方を含むリバーブ情報、およびオーディオオブジェクトのオーディオオブジェクト信号を取得する取得部と、リバーブ情報およびオーディオオブジェクト信号に基づいて、オーディオオブジェクトのリバーブ成分の信号を生成するリバーブ処理部とを備える。本技術は信号処理装置に適用することができる。【選択図】図１

Description

本技術は、信号処理装置および方法、並びにプログラムに関し、特に、符号化効率を向上させることができるようにした信号処理装置および方法、並びにプログラムに関する。

従来、映画やゲーム等でオブジェクトオーディオ技術が使われ、オブジェクトオーディオを扱える符号化方式も開発されている。具体的には、例えば国際標準規格であるMPEG（Moving Picture Experts Group）-H Part 3:3D audio規格などが知られている（例えば、非特許文献１参照）。

このような符号化方式では、従来の２チャネルステレオ方式や５．１チャネル等のマルチチャネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクトとして扱い、オーディオオブジェクトの信号データとともにオブジェクトの位置情報をメタデータとして符号化することが可能である。

このようにすることで、スピーカ数の異なる様々な視聴環境で再生を行うことができる。また、従来の符号化方式では困難であった特定の音源の音の音量調整や、特定の音源の音に対するエフェクトの追加など、特定の音源の音を再生時に加工することが容易にできる。

例えば非特許文献１の規格では、レンダリング処理に３次元VBAP（Vector Based Amplitude Panning）（以下、単にVBAPと称する）と呼ばれる方式が用いられる。

これは一般的にパニングと呼ばれるレンダリング手法の１つで、視聴位置を原点とする球表面上に存在するスピーカのうち、同じく球表面上に存在するオーディオブジェクトに最も近い３個のスピーカに対しゲインを分配することでレンダリングを行う方式である。

このようなパニングによるオーディオブジェクトのレンダリングは、全てのオーディオオブジェクトが視聴位置を原点とする球表面上にあることを前提としている。そのため、オーディオブジェクトが視聴位置に近い場合や、視聴位置から遠い場合の距離感はオーディオオブジェクトに対するゲインの大小のみで制御することになる。

ところが、実際には周波数成分によって減衰率が異なることや、オーディオオブジェクトが存在する空間の反射等を加味しないと、距離感の表現は実際の体験とは程遠いものとなってしまう。

こうした影響を試聴体験に反映させるために、空間の反射や減衰を物理的に計算して最終的な出力オーディオ信号とする事がまず考えられる。しかし、こうした手法は、非常に長い計算時間をかけて制作することが可能な映画等の動画コンテンツに対しては有効であるが、オーディオオブジェクトをリアルタイムにレンダリングするような場合には困難である。

また、空間の反射や減衰を物理的に計算して得られる最終出力は、コンテンツ制作者の意図を反映させにくく、特にミュージッククリップなどの音楽作品では、ボーカルトラックなどに好みのリバーブ処理をかけるなど、コンテンツ制作者の意図を反映させやすいフォーマットが求められる。

INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

そこで、オーディオオブジェクト個々に空間の反射や減衰を加味したリバーブ処理に必要な係数などのデータを、オーディオオブジェクトの位置情報とともにファイルや伝送ストリームに格納し、それらを用いて最終的な出力オーディオ信号を得ることがリアルタイム再生をする上で望ましい。

しかし、ファイルや伝送ストリームに、オーディオオブジェクト個々に必要なリバーブ処理のデータを毎フレーム格納することは伝送レートの増大を招くことになり、符号化効率の高いデータ伝送が求められる。

本技術は、このような状況に鑑みてなされたものであり、符号化効率を向上させることができるようにするものである。

本技術の一側面の信号処理装置は、オーディオオブジェクトの周囲の空間に固有の空間リバーブ情報と、前記オーディオオブジェクトに固有のオブジェクトリバーブ情報との少なくとも何れか一方を含むリバーブ情報、および前記オーディオオブジェクトのオーディオオブジェクト信号を取得する取得部と、前記リバーブ情報および前記オーディオオブジェクト信号に基づいて、前記オーディオオブジェクトのリバーブ成分の信号を生成するリバーブ処理部と、VBAPによるレンダリング処理を行うレンダリング部とを備える。

本技術の一側面の信号処理方法またはプログラムは、オーディオオブジェクトの周囲の空間に固有の空間リバーブ情報と、前記オーディオオブジェクトに固有のオブジェクトリバーブ情報との少なくとも何れか一方を含むリバーブ情報、および前記オーディオオブジェクトのオーディオオブジェクト信号を取得し、前記リバーブ情報および前記オーディオオブジェクト信号に基づいて、前記オーディオオブジェクトのリバーブ成分の信号を生成し、VBAPによるレンダリング処理を行うステップを含む。

本技術の一側面においては、オーディオオブジェクトの周囲の空間に固有の空間リバーブ情報と、前記オーディオオブジェクトに固有のオブジェクトリバーブ情報との少なくとも何れか一方を含むリバーブ情報、および前記オーディオオブジェクトのオーディオオブジェクト信号が取得され、前記リバーブ情報および前記オーディオオブジェクト信号に基づいて、前記オーディオオブジェクトのリバーブ成分の信号が生成され、VBAPによるレンダリング処理が行われる。

本技術の一側面によれば、符号化効率を向上させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

信号処理装置の構成例を示す図である。レンダリング処理部の構成例を示す図である。オーディオオブジェクト情報のシンタックス例を示す図である。オブジェクトリバーブ情報および空間リバーブ情報のシンタックス例を示す図である。リバーブ成分の定位位置について説明する図である。インパルス応答について説明する図である。オーディオオブジェクトと視聴位置の関係を説明する図である。直接音成分、初期反射音成分、および後部残響成分について説明する図である。オーディオ出力処理を説明するフローチャートである。符号化装置の構成例を示す図である。符号化処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈信号処理装置の構成例〉
本技術は、オーディオブジェクトと視聴位置との関係によって適応的にリバーブパラメータの符号化方式を選択することで、符号化効率の高いリバーブパラメータの伝送を可能とするものである。

図１は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。

図１に示す信号処理装置１１は、コアデコード処理部２１およびレンダリング処理部２２を有している。

コアデコード処理部２１は、送信されてきた入力ビットストリームを受信して復号（デコード）し、その結果得られたオーディオオブジェクト情報およびオーディオオブジェクト信号をレンダリング処理部２２に供給する。換言すれば、コアデコード処理部２１は、オーディオオブジェクト情報およびオーディオオブジェクト信号を取得する取得部として機能する。

ここで、オーディオオブジェクト信号は、オーディオオブジェクトの音を再生するためのオーディオ信号である。

また、オーディオオブジェクト情報は、オーディオオブジェクト、つまりオーディオオブジェクト信号のメタデータである。このオーディオオブジェクト情報には、レンダリング処理部２２において行われる処理に必要となる、オーディオオブジェクトに関する情報が含まれている。

具体的には、オーディオオブジェクト情報には、オブジェクト位置情報、直接音ゲイン、オブジェクトリバーブ情報、オブジェクトリバーブ音ゲイン、空間リバーブ情報、および空間リバーブゲインが含まれている。

ここで、オブジェクト位置情報は、オーディオオブジェクトの３次元空間上の位置を示す情報である。例えばオブジェクト位置情報は、基準となる視聴位置から見たオーディオオブジェクトの水平方向の位置を示す水平角度、視聴位置から見たオーディオオブジェクトの垂直方向の位置を示す垂直角度、および視聴位置からオーディオオブジェクトまでの距離を示す半径からなる。

また、直接音ゲインは、オーディオオブジェクトの音の直接音成分を生成するときのゲイン調整に用いられるゲイン値である。

例えばレンダリング処理部２２では、オーディオオブジェクト、つまりオーディオオブジェクト信号のレンダリング時には、オーディオオブジェクトからの直接音成分の信号と、オブジェクト固有リバーブ音の信号と、空間固有リバーブ音の信号とが生成される。

特に、オブジェクト固有リバーブ音や空間固有リバーブ音の信号は、オーディオオブジェクトからの音の反射音や残響音などの成分の信号、つまりオーディオオブジェクト信号に対してリバーブ処理を行うことにより得られるリバーブ成分の信号である。

オブジェクト固有リバーブ音はオーディオオブジェクトの音の初期反射音成分であり、オーディオオブジェクトの３次元空間上の位置など、オーディオオブジェクトの状態の寄与率が大きい音である。つまり、オブジェクト固有リバーブ音は、視聴位置とオーディオオブジェクトの相対的な位置関係により大きく変化する、オーディオオブジェクトの位置に依存するリバーブ音である。

これに対して、空間固有リバーブ音はオーディオオブジェクトの音の後部残響成分であり、オーディオオブジェクトの状態の寄与率は小さく、オーディオオブジェクトの周囲の環境、つまりオーディオオブジェクトの周囲の空間の状態の寄与率が大きい音である。

すなわち、空間固有リバーブ音は、オーディオオブジェクトの周囲の空間における視聴位置と壁等の相対的な位置関係、壁や床の材質などにより大きく変化するが、視聴位置とオーディオオブジェクトとの相対的な位置関係によっては殆ど変化しない。したがって、空間固有リバーブ音は、オーディオオブジェクトの周囲の空間に依存する音であるということができる。

レンダリング処理部２２におけるレンダリング処理時には、このようなオーディオオブジェクトからの直接音成分、オブジェクト固有リバーブ音成分、および空間固有リバーブ音成分が、オーディオオブジェクト信号に対するリバーブ処理により生成される。直接音ゲインは、このような直接音成分の信号の生成に用いられる。

オブジェクトリバーブ情報は、オブジェクト固有リバーブ音に関する情報である。例えばオブジェクトリバーブ情報には、オブジェクト固有リバーブ音の音像の定位位置を示すオブジェクトリバーブ位置情報や、リバーブ処理時にオブジェクト固有リバーブ音成分の生成に用いられる係数情報が含まれている。

オブジェクト固有リバーブ音はオーディオオブジェクト固有の成分であるから、オブジェクトリバーブ情報は、リバーブ処理時においてオブジェクト固有リバーブ音成分の生成に用いられる、オーディオオブジェクトに固有のリバーブ情報であるということができる。

なお、以下、オブジェクトリバーブ位置情報により示される３次元空間上のオブジェクト固有リバーブ音の音像の定位位置を、オブジェクトリバーブ成分位置とも称することとする。このオブジェクトリバーブ成分位置は、３次元空間上におけるオブジェクト固有リバーブ音を出力する実スピーカまたは仮想スピーカの配置位置であるともいえる。

また、オーディオオブジェクト情報に含まれるオブジェクトリバーブ音ゲインは、オブジェクト固有リバーブ音のゲイン調整に用いられるゲイン値である。

空間リバーブ情報は、空間固有リバーブ音に関する情報である。例えば空間リバーブ情報には空間固有リバーブ音の音像の定位位置を示す空間リバーブ位置情報や、リバーブ処理時に空間固有リバーブ音成分の生成に用いられる係数情報が含まれている。

空間固有リバーブ音はオーディオオブジェクトの寄与率の低い空間固有の成分であるから、空間リバーブ情報はリバーブ処理時において空間固有リバーブ音成分の生成に用いられる、オーディオオブジェクトの周囲の空間に固有のリバーブ情報であるということができる。

なお、以下、空間リバーブ位置情報により示される３次元空間上の空間固有リバーブ音の音像の定位位置を、空間リバーブ成分位置とも称することとする。この空間リバーブ成分位置は、３次元空間上における空間固有リバーブ音を出力する実スピーカまたは仮想スピーカの配置位置であるともいえる。

また、空間リバーブゲインは、オブジェクト固有リバーブ音のゲイン調整に用いられるゲイン値である。

コアデコード処理部２１から出力されるオーディオオブジェクト情報には、オブジェクト位置情報、直接音ゲイン、オブジェクトリバーブ情報、オブジェクトリバーブ音ゲイン、空間リバーブ情報、および空間リバーブゲインのうちの少なくともオブジェクト位置情報が含まれている。

レンダリング処理部２２は、コアデコード処理部２１から供給されたオーディオオブジェクト情報およびオーディオオブジェクト信号に基づいて、出力オーディオ信号を生成し、後段のスピーカや記録部などに供給する。

すなわち、レンダリング処理部２２は、オーディオオブジェクト情報に基づいてリバーブ処理を行い、１または複数の各オーディオオブジェクトの直接音の信号、オブジェクト固有リバーブ音の信号、および空間固有リバーブ音の信号を生成する。

そして、レンダリング処理部２２は、得られた直接音、オブジェクト固有リバーブ音、および空間固有リバーブ音の信号ごとにVBAPによりレンダリング処理を行い、出力先となるスピーカシステムやヘッドフォン等の再生装置に応じたチャネル構成の出力オーディオ信号を生成する。さらに、レンダリング処理部２２は、信号ごとに生成した出力オーディオ信号の同じチャネルの信号を加算して、最終的な１つの出力オーディオ信号とする。

このようにして得られた出力オーディオ信号に基づいて音を再生すると、オーディオオブジェクトの直接音の音像がオブジェクト位置情報により示される位置に定位し、オブジェクト固有リバーブ音の音像がオブジェクトリバーブ成分位置に定位し、空間固有リバーブ音の音像が空間リバーブ成分位置に定位する。これにより、オーディオオブジェクトの距離感が適切に制御された、より臨場感のあるオーディオ再生が実現される。

〈レンダリング処理部の構成例〉
次に、図１に示した信号処理装置１１のレンダリング処理部２２のより詳細な構成例について説明する。

ここでは、具体的な例として、オーディオオブジェクトが２つ存在する場合について説明を行う。なお、オーディオオブジェクトの数はいくつであってもよく、計算資源の許す限りの数のオーディオオブジェクトを扱うことが可能である。

以下では、２つの各オーディオオブジェクトを区別する場合には、一方のオーディオオブジェクトをオーディオオブジェクトOBJ1とも記し、そのオーディオオブジェクトOBJ1のオーディオオブジェクト信号をオーディオオブジェクト信号OA1とも記すこととする。また、他方のオーディオオブジェクトをオーディオオブジェクトOBJ2とも記し、そのオーディオオブジェクトOBJ2のオーディオオブジェクト信号をオーディオオブジェクト信号OA2とも記すこととする。

さらに、以下、オーディオオブジェクトOBJ1についてのオブジェクト位置情報、直接音ゲイン、オブジェクトリバーブ情報、オブジェクトリバーブ音ゲイン、および空間リバーブゲインを、特にオブジェクト位置情報OP1、直接音ゲインOG1、オブジェクトリバーブ情報OR1、オブジェクトリバーブ音ゲインRG1、および空間リバーブゲインSG1とも記すこととする。

同様に、以下、オーディオオブジェクトOBJ2についてのオブジェクト位置情報、直接音ゲイン、オブジェクトリバーブ情報、オブジェクトリバーブ音ゲイン、および空間リバーブゲインを、特にオブジェクト位置情報OP2、直接音ゲインOG2、オブジェクトリバーブ情報OR2、オブジェクトリバーブ音ゲインRG2、および空間リバーブゲインSG2とも記すこととする。

このようにオーディオオブジェクトが２つ存在する場合、レンダリング処理部２２は、例えば図２に示すように構成される。

図２に示す例では、レンダリング処理部２２は、増幅部５１－１、増幅部５１－２、増幅部５２－１、増幅部５２－２、オブジェクト固有リバーブ処理部５３－１、オブジェクト固有リバーブ処理部５３－２、増幅部５４－１、増幅部５４－２、空間固有リバーブ処理部５５、およびレンダリング部５６を有している。

増幅部５１－１および増幅部５１－２は、コアデコード処理部２１から供給されたオーディオオブジェクト信号OA1およびオーディオオブジェクト信号OA2に対して、コアデコード処理部２１から供給された直接音ゲインOG1および直接音ゲインOG2を乗算することでゲイン調整を行い、その結果得られたオーディオオブジェクトの直接音の信号をレンダリング部５６に供給する。

なお、以下、増幅部５１－１および増幅部５１－２を特に区別する必要のない場合、単に増幅部５１とも称することとする。

増幅部５２－１および増幅部５２－２は、コアデコード処理部２１から供給されたオーディオオブジェクト信号OA1およびオーディオオブジェクト信号OA2に対して、コアデコード処理部２１から供給されたオブジェクトリバーブ音ゲインRG1およびオブジェクトリバーブ音ゲインRG2を乗算してゲイン調整を行う。このゲイン調整により、各オブジェクト固有リバーブ音の大きさが調整される。

増幅部５２－１および増幅部５２－２は、ゲイン調整されたオーディオオブジェクト信号OA1およびオーディオオブジェクト信号OA2を、オブジェクト固有リバーブ処理部５３－１およびオブジェクト固有リバーブ処理部５３－２に供給する。

なお、以下、増幅部５２－１および増幅部５２－２を特に区別する必要のない場合、単に増幅部５２とも称することとする。

オブジェクト固有リバーブ処理部５３－１は、コアデコード処理部２１から供給されたオブジェクトリバーブ情報OR1に基づいて、増幅部５２－１から供給されたゲイン調整後のオーディオオブジェクト信号OA1に対してリバーブ処理を行う。

このリバーブ処理により、オーディオオブジェクトOBJ1についてのオブジェクト固有リバーブ音の信号が１または複数生成される。

また、オブジェクト固有リバーブ処理部５３－１は、コアデコード処理部２１から供給されたオブジェクト位置情報OP1と、オブジェクトリバーブ情報OR1に含まれるオブジェクトリバーブ位置情報とに基づいて、３次元空間上における各オブジェクト固有リバーブ音の音像の絶対的な定位位置を示す位置情報を生成する。

上述したようにオブジェクト位置情報OP1は、３次元空間上における視聴位置を基準とするオーディオオブジェクトOBJ1の絶対的な位置を示す水平角度、垂直角度、および半径からなる情報である。

これに対して、オブジェクトリバーブ位置情報は、３次元空間上における視聴位置から見た絶対的なオブジェクト固有リバーブ音の音像の位置（定位位置）を示す情報とすることもできるし、３次元空間上におけるオーディオオブジェクトOBJ1に対する相対的なオブジェクト固有リバーブ音の音像の位置（定位位置）を示す情報とすることもできる。

例えばオブジェクトリバーブ位置情報が、３次元空間上における視聴位置から見た絶対的なオブジェクト固有リバーブ音の音像の位置を示す情報である場合、オブジェクトリバーブ位置情報は、３次元空間上における視聴位置を基準とするオブジェクト固有リバーブ音の音像の絶対的な定位位置を示す水平角度、垂直角度、および半径からなる情報とされる。

この場合、オブジェクト固有リバーブ処理部５３－１は、オブジェクトリバーブ位置情報を、そのままオブジェクト固有リバーブ音の音像の絶対的な位置を示す位置情報とする。

一方、オブジェクトリバーブ位置情報が、オーディオオブジェクトOBJ1に対する相対的なオブジェクト固有リバーブ音の音像の位置を示す情報である場合、オブジェクトリバーブ位置情報は、３次元空間上における視聴位置から見たオブジェクト固有リバーブ音の音像のオーディオオブジェクトOBJ1に対する相対的な位置を示す水平角度、垂直角度、および半径からなる情報とされる。

この場合、オブジェクト固有リバーブ処理部５３－１は、オブジェクト位置情報OP1とオブジェクトリバーブ位置情報に基づいて、３次元空間上における視聴位置を基準とするオブジェクト固有リバーブ音の音像の絶対的な定位位置を示す水平角度、垂直角度、および半径からなる情報を、オブジェクト固有リバーブ音の音像の絶対的な位置を示す位置情報として生成する。

オブジェクト固有リバーブ処理部５３－１は、このようにして１または複数のオブジェクト固有リバーブ音ごとに得られた、オブジェクト固有リバーブ音の信号と、そのオブジェクト固有リバーブ音の位置情報のペアをレンダリング部５６に供給する。

このように、リバーブ処理により、オブジェクト固有リバーブ音の信号と位置情報を生成することにより、各オブジェクト固有リバーブ音の信号を、独立したオーディオオブジェクトの信号として扱うことができるようになる。

同様に、オブジェクト固有リバーブ処理部５３－２は、コアデコード処理部２１から供給されたオブジェクトリバーブ情報OR2に基づいて、増幅部５２－２から供給されたゲイン調整後のオーディオオブジェクト信号OA2に対してリバーブ処理を行う。

このリバーブ処理により、オーディオオブジェクトOBJ2についてのオブジェクト固有リバーブ音の信号が１または複数生成される。

また、オブジェクト固有リバーブ処理部５３－２は、コアデコード処理部２１から供給されたオブジェクト位置情報OP2と、オブジェクトリバーブ情報OR2に含まれるオブジェクトリバーブ位置情報とに基づいて、３次元空間上における各オブジェクト固有リバーブ音の音像の絶対的な定位位置を示す位置情報を生成する。

そして、オブジェクト固有リバーブ処理部５３－２は、このようにして得られたオブジェクト固有リバーブ音の信号と、そのオブジェクト固有リバーブ音の位置情報のペアをレンダリング部５６に供給する。

なお、以下、オブジェクト固有リバーブ処理部５３－１およびオブジェクト固有リバーブ処理部５３－２を特に区別する必要のない場合、単にオブジェクト固有リバーブ処理部５３とも称することとする。

増幅部５４－１および増幅部５４－２は、コアデコード処理部２１から供給されたオーディオオブジェクト信号OA1およびオーディオオブジェクト信号OA2に対して、コアデコード処理部２１から供給された空間リバーブゲインSG1および空間リバーブゲインSG2を乗算してゲイン調整を行う。このゲイン調整により、各空間固有リバーブ音の大きさが調整される。

また、増幅部５４－１および増幅部５４－２は、ゲイン調整されたオーディオオブジェクト信号OA1およびオーディオオブジェクト信号OA2を、空間固有リバーブ処理部５５に供給する。

なお、以下、増幅部５４－１および増幅部５４－２を特に区別する必要のない場合、単に増幅部５４とも称することとする。

空間固有リバーブ処理部５５は、コアデコード処理部２１から供給された空間リバーブ情報に基づいて、増幅部５４－１および増幅部５４－２から供給されたゲイン調整後のオーディオオブジェクト信号OA1およびオーディオオブジェクト信号OA2に対してリバーブ処理を行う。また、空間固有リバーブ処理部５５は、オーディオオブジェクトOBJ1およびオーディオオブジェクトOBJ2についてのリバーブ処理により得られた信号を加算することで、空間固有リバーブ音の信号を生成する。空間固有リバーブ処理部５５では、空間固有リバーブ音の信号が１または複数生成される。

さらに、空間固有リバーブ処理部５５は、オブジェクト固有リバーブ処理部５３における場合と同様にして、コアデコード処理部２１から供給された空間リバーブ情報に含まれる空間リバーブ位置情報と、オブジェクト位置情報OP1と、オブジェクト位置情報OP2とに基づいて、空間固有リバーブ音の音像の絶対的な定位位置を示す位置情報として生成する。

この位置情報は、例えば３次元空間上における視聴位置を基準とする空間固有リバーブ音の音像の絶対的な定位位置を示す水平角度、垂直角度、および半径からなる情報とされる。

空間固有リバーブ処理部５５は、このようにして得られた１または複数の空間固有リバーブ音についての空間固有リバーブ音の信号と位置情報のペアをレンダリング部５６に供給する。なお、これらの空間固有リバーブ音もオブジェクト固有リバーブ音と同様に、位置情報を有することから独立したオーディオオブジェクトの信号として扱うことができる。

以上の増幅部５１乃至空間固有リバーブ処理部５５は、レンダリング部５６の前段に設けられた、オーディオオブジェクト情報およびオーディオオブジェクト信号に基づいてリバーブ処理を行うリバーブ処理部を構成する処理ブロックとして機能する。

レンダリング部５６は、供給された各音の信号と、それらの音の信号の位置情報とに基づいてVBAPによりレンダリング処理を行い、所定のチャネル構成の各チャネルの信号からなる出力オーディオ信号を生成し、出力する。

すなわち、レンダリング部５６は、コアデコード処理部２１から供給されたオブジェクト位置情報と、増幅部５１から供給された直接音の信号とに基づいてVBAPによりレンダリング処理を行い、オーディオオブジェクトOBJ1およびオーディオオブジェクトOBJ2のそれぞれについての各チャネルの出力オーディオ信号を生成する。

また、レンダリング部５６は、オブジェクト固有リバーブ処理部５３から供給されたオブジェクト固有リバーブ音の信号と位置情報のペアに基づいて、ペアごとにVBAPによりレンダリング処理を行い、オブジェクト固有リバーブ音ごとに各チャネルの出力オーディオ信号を生成する。

さらに、レンダリング部５６は、空間固有リバーブ処理部５５から供給された空間固有リバーブ音の信号と位置情報のペアに基づいて、ペアごとにVBAPによりレンダリング処理を行い、空間固有リバーブ音ごとに各チャネルの出力オーディオ信号を生成する。

そして、レンダリング部５６は、オーディオオブジェクトOBJ1、オーディオオブジェクトOBJ2、オブジェクト固有リバーブ音、および空間固有リバーブ音のそれぞれについて得られた出力オーディオ信号の同じチャネルの信号同士を加算して、最終的な出力オーディオ信号とする。

〈入力ビットストリームのフォーマット例〉
ここで、信号処理装置１１に供給される入力ビットストリームのフォーマット例について説明する。

例えば入力ビットストリームのフォーマット（シンタックス）は、図３に示すようになる。図３に示す例では、文字「object_metadata()」の部分がオーディオオブジェクトのメタデータ、つまりオーディオオブジェクト情報の部分となっている。

このオーディオオブジェクト情報の部分には、文字「num_objects」により示されるオーディオオブジェクト数分だけ、オーディオオブジェクトについてのオブジェクト位置情報が含まれている。この例では、i番目のオーディオオブジェクトのオブジェクト位置情報として、水平角度position_azimuth[i]、垂直角度position_elevation[i]、および半径position_radius[i]が格納されている。

また、オーディオオブジェクト情報には、文字「flag_obj_reverb」により示される、オブジェクトリバーブ情報や空間リバーブ情報などのリバーブ情報が含まれているか否かを示すリバーブ情報フラグが含まれている。

ここでは、リバーブ情報フラグflag_obj_reverbの値が「１」である場合、オーディオオブジェクト情報にリバーブ情報が含まれていることを示している。

換言すれば、リバーブ情報フラグflag_obj_reverbの値が「１」である場合、空間リバーブ情報とオブジェクトリバーブ情報の少なくとも何れか一方を含むリバーブ情報がオーディオオブジェクト情報に格納されているということができる。

なお、より詳細には後述する再利用フラグuse_prevの値によっては、オーディオオブジェクト情報にリバーブ情報として過去のリバーブ情報を識別する識別情報、すなわち後述するリバーブIDが含まれており、オブジェクトリバーブ情報や空間リバーブ情報は含まれていないこともある。

これに対して、リバーブ情報フラグflag_obj_reverbの値が「０」である場合、オーディオオブジェクト情報にはリバーブ情報が含まれていないことを示している。

リバーブ情報フラグflag_obj_reverbの値が「１」である場合、オーディオオブジェクト情報には、リバーブ情報として文字「dry_gain[i]」により示される直接音ゲイン、文字「wet_gain[i]」により示されるオブジェクトリバーブ音ゲイン、および文字「room_gain[i]」により示される空間リバーブゲインが、それぞれオーディオオブジェクト数分だけ格納されている。

これらの直接音ゲインdry_gain[i]、オブジェクトリバーブ音ゲインwet_gain[i]、および空間リバーブゲインroom_gain[i]によって、出力オーディオ信号における直接音、オブジェクト固有リバーブ音、および空間固有リバーブ音の混合比率が定まる。

さらに、オーディオオブジェクト情報には、リバーブ情報として文字「use_prev」により示される再利用フラグが格納されている。

この再利用フラグuse_prevは、i番目のオーディオオブジェクトのオブジェクトリバーブ情報として、リバーブIDにより特定される過去のオブジェクトリバーブ情報を再利用するか否かを示すフラグ情報である。

ここでは、入力ビットストリームで伝送された各オブジェクトリバーブ情報に対して、それらのオブジェクトリバーブ情報を識別（特定）する識別情報としてリバーブIDが付与されている。

例えば再利用フラグuse_prevの値が「１」であるときには、過去のオブジェクトリバーブ情報を再利用することを示しており、この場合にはオーディオオブジェクト情報には文字「reverb_data_id[i]」により示される、再利用するオブジェクトリバーブ情報を示すリバーブIDが格納されている。

これに対して再利用フラグuse_prevの値が「０」であるときには、オブジェクトリバーブ情報を再利用しないことを示しており、この場合にはオーディオオブジェクト情報には文字「obj_reverb_data(i)」により示されるオブジェクトリバーブ情報が格納されている。

また、オーディオオブジェクト情報には、リバーブ情報として文字「flag_room_reverb」により示される空間リバーブ情報フラグが格納されている。

この空間リバーブ情報フラグflag_room_reverbは、空間リバーブ情報の有無を示すフラグである。例えば空間リバーブ情報フラグflag_room_reverbの値が「１」である場合、空間リバーブ情報があることを示しており、オーディオオブジェクト情報には文字「room_reverb_data(i)」により示される空間リバーブ情報が格納されている。

これに対して、空間リバーブ情報フラグflag_room_reverbの値が「０」である場合、空間リバーブ情報がないことを示しており、この場合にはオーディオオブジェクト情報には空間リバーブ情報は格納されていない。なお、空間リバーブ情報についてもオブジェクトリバーブ情報における場合と同様に、再利用フラグが格納されて、適宜、空間リバーブ情報の再利用が行われるようにしてもよい。

また、入力ビットストリームのオーディオオブジェクト情報における、オブジェクトリバーブ情報obj_reverb_data(i)および空間リバーブ情報room_reverb_data(i)の部分のフォーマット（シンタックス）は、例えば図４に示すようになる。

図４に示す例では、オブジェクトリバーブ情報として文字「reverb_data_id」により示されるリバーブIDと、文字「num_out」により示される、生成するオブジェクト固有リバーブ音成分の数と、文字「len_ir」により示されるタップ長とが含まれている。

なお、この例ではオブジェクト固有リバーブ音成分の生成に用いられる係数情報として、インパルス応答の係数が格納されているものとし、タップ長len_irは、そのインパルス応答のタップ長、つまりインパルス応答の係数の個数を示しているとする。

また、オブジェクトリバーブ情報として、生成するオブジェクト固有リバーブ音成分の個数num_outの分だけ、それらのオブジェクト固有リバーブ音のオブジェクトリバーブ位置情報が含まれている。

すなわち、i番目のオブジェクト固有リバーブ音成分のオブジェクトリバーブ位置情報として、水平角度position_azimuth[i]、垂直角度position_elevation[i]、および半径position_radius[i]が格納されている。

さらに、i番目のオブジェクト固有リバーブ音成分の係数情報として、タップ長len_irの個数分だけインパルス応答の係数impulse_response[i][j]が格納されている。

一方、空間リバーブ情報として文字「num_out」により示される、生成する空間固有リバーブ音成分の数と、文字「len_ir」により示されるタップ長とが含まれている。このタップ長len_irは、空間固有リバーブ音成分の生成に用いられる係数情報としてのインパルス応答のタップ長である。

また、空間リバーブ情報として、生成する空間固有リバーブ音成分の個数num_outの分だけ、それらの空間固有リバーブ音の空間リバーブ位置情報が含まれている。

すなわち、i番目の空間固有リバーブ音成分の空間リバーブ位置情報として、水平角度position_azimuth[i]、垂直角度position_elevation[i]、および半径position_radius[i]が格納されている。

さらに、i番目の空間固有リバーブ音成分の係数情報として、タップ長len_irの個数分だけインパルス応答の係数impulse_response[i][j]が格納されている。

なお、図３および図４に示した例では、オブジェクト固有リバーブ音成分や空間固有リバーブ音成分の生成に用いられる係数情報として、インパルス応答を用いる例について説明した。つまり、サンプリングリバーブを利用したリバーブ処理が行われる例について説明した。しかし、これに限らず、その他、パラメトリックリバーブなどが利用されてリバーブ処理が行われるようにしてもよい。また、これらの係数情報は、ハフマン符号等の可逆符号化技術が用いられて圧縮されるようにしてもよい。

以上のように入力ビットストリームでは、リバーブ処理に必要となる情報が、直接音に関する情報（直接音ゲイン）と、オブジェクトリバーブ情報等のオブジェクト固有リバーブ音に関する情報と、空間リバーブ情報等の空間固有リバーブ音に関する情報とに分けられて伝送される。

したがって、それらの直接音に関する情報や、オブジェクト固有リバーブ音に関する情報、空間固有リバーブ音に関する情報などの情報ごとに、適切な伝送頻度で情報を混合出力することができる。すなわち、オーディオオブジェクト信号の各フレームにおいて、オーディオオブジェクトと視聴位置との関係等に基づいて、直接音に関する情報等の各情報のうちの必要なものだけを選択的に伝送することができる。これにより、入力ビットストリームのビットレートを抑え、より効率的な情報伝送を実現することができる。つまり、符号化効率を向上させることができる。

〈出力オーディオ信号について〉
続いて、出力オーディオ信号に基づいて再生されるオーディオオブジェクトの直接音、オブジェクト固有リバーブ音、および空間固有リバーブ音について説明する。

オーディオオブジェクトの位置と、オブジェクトリバーブ成分位置との関係は、例えば図５に示すようになる。

ここでは、１つのオーディオオブジェクトの位置OBJ11の周囲に、そのオーディオオブジェクトについての４つのオブジェクト固有リバーブ音のオブジェクトリバーブ成分位置RVB11乃至オブジェクトリバーブ成分位置RVB14がある。

ここでは、図中、上側にはオブジェクトリバーブ成分位置RVB11乃至オブジェクトリバーブ成分位置RVB14を示す水平角度（azimuth）と垂直角度（elevation）が示されている。この例では、視聴位置である原点Oを中心として４つのオブジェクト固有リバーブ音成分が配置されていることが分かる。

オブジェクト固有リバーブ音の定位位置や、オブジェクト固有リバーブ音がどのような音となるかは、オーディオオブジェクトの３次元空間上の位置によって大きく異なる。したがって、オブジェクトリバーブ情報は、オーディオオブジェクトの空間上の位置に依存するリバーブ情報であるということができる。

そこで、入力ビットストリームでは、オブジェクトリバーブ情報がオーディオオブジェクトに紐付けられておらず、リバーブIDにより管理されている。

コアデコード処理部２１では、入力ビットストリームからオブジェクトリバーブ情報が読み出されると、その読み出されたオブジェクトリバーブ情報が一定期間保持される。つまり、コアデコード処理部２１では、過去の所定期間分のオブジェクトリバーブ情報が常に保持されている。

例えば、所定時刻において再利用フラグuse_prevの値が「１」であり、オブジェクトリバーブ情報の再利用が指示されているとする。

この場合、コアデコード処理部２１は、入力ビットストリームから所定のオーディオオブジェクトについてのリバーブIDを取得する。すなわち、リバーブIDが読み出される。

そしてコアデコード処理部２１は、自身が保持している過去のオブジェクトリバーブ情報のうち、読み出したリバーブIDにより特定されるオブジェクトリバーブ情報を読み出して、そのオブジェクトリバーブ情報を、所定時刻の所定オーディオオブジェクトについてのオブジェクトリバーブ情報として再利用する。

このようにオブジェクトリバーブ情報をリバーブIDで管理することで、例えばオーディオオブジェクトOBJ1についてのものとして伝送されたオブジェクトリバーブ情報を、オーディオオブジェクトOBJ2についてのものとしても再利用することができる。したがって、コアデコード処理部２１に一時的に保持しておくオブジェクトリバーブ情報の数、つまりデータ量をより少なくすることができる。

ところで、一般的に空間上にインパルスが放出された場合、例えば図６に示すように直接音の他に、周囲の空間に存在する床や壁などの反射によって初期反射音が発生し、また反射が繰り返されることによって発生する後部残響成分が発生する。

ここでは、矢印Q11に示す部分が直接音成分を示しており、この直接音成分が増幅部５１で得られる直接音の信号に対応する。

また、矢印Q12に示す部分が初期反射音成分を示しており、この初期反射音成分がオブジェクト固有リバーブ処理部５３で得られるオブジェクト固有リバーブ音の信号に対応する。さらに、矢印Q13に示す部分が後部残響成分を示しており、この後部残響成分が空間固有リバーブ処理部５５で得られる空間固有リバーブ音の信号に対応する。

このような直接音、初期反射音、および後部残響成分の関係を２次元平面上で説明すると、例えば図７および図８に示すようになる。なお、図７および図８において、互いに対応する部分には同一の符号を付してあり、その説明は適宜省略する。

例えば図７に示すように、四角形の枠により表される壁に囲まれた室内空間上に２つのオーディオオブジェクトOBJ21とオーディオオブジェクトOBJ22があるとする。また、基準となる視聴位置に視聴者U11がいるとする。

ここで、視聴者U11からオーディオオブジェクトOBJ21までの距離がR_OBJ21であり、視聴者U11からオーディオオブジェクトOBJ22までの距離がR_OBJ22であるとする。

このような場合、図８に示すように図中、一点鎖線の矢印で描かれた、オーディオオブジェクトOBJ21で発生し、視聴者U11へと直接向かってくる音がオーディオオブジェクトOBJ21の直接音D_OBJ21となる。同様に、図中、一点鎖線の矢印で描かれた、オーディオオブジェクトOBJ22で発生し、視聴者U11へと直接向かってくる音がオーディオオブジェクトOBJ22の直接音D_OBJ22となる。

また、図中、点線の矢印で描かれた、オーディオオブジェクトOBJ21で発生し、室内の壁等で一度反射してから視聴者U11へと向かってくる音がオーディオオブジェクトOBJ21の初期反射音E_OBJ21となる。同様に、図中、点線の矢印で描かれた、オーディオオブジェクトOBJ22で発生し、室内の壁等で一度反射してから視聴者U11へと向かってくる音がオーディオオブジェクトOBJ22の初期反射音E_OBJ22となる。

さらに、オーディオオブジェクトOBJ21で発生し、何度も繰り返し室内の壁等で反射されて視聴者U11に到達する音S_OBJ21と、オーディオオブジェクトOBJ22で発生し、何度も繰り返し室内の壁等で反射されて視聴者U11に到達する音S_OBJ22とからなる音の成分が後部残響成分となる。ここでは、後部残響成分は実線の矢印により描かれている。

ここで、距離R_OBJ22は距離R_OBJ21よりも短く、オーディオオブジェクトOBJ22はオーディオオブジェクトOBJ21よりも視聴者U11に近い位置にある。

そのため、オーディオオブジェクトOBJ22については、視聴者U11に聞こえる音として初期反射音E_OBJ22よりも直接音D_OBJ22が支配的である。したがって、オーディオオブジェクトOBJ22のリバーブについては、直接音ゲインが大きい値とされ、オブジェクトリバーブ音ゲインと空間リバーブゲインは小さい値とされて、それらのゲインが入力ビットストリームに格納される。

これに対して、オーディオオブジェクトOBJ21はオーディオオブジェクトOBJ22よりも視聴者U11から遠い位置にある。

そのため、オーディオオブジェクトOBJ21については、視聴者U11に聞こえる音として直接音D_OBJ21よりも初期反射音E_OBJ21や後部残響成分の音S_OBJ21が支配的である。したがって、オーディオオブジェクトOBJ21のリバーブについては、直接音ゲインが小さい値とされ、オブジェクトリバーブ音ゲインと空間リバーブゲインは大きい値とされて、それらのゲインが入力ビットストリームに格納される。

また、オーディオオブジェクトOBJ21やオーディオオブジェクトOBJ22が移動する場合、それらのオーディオオブジェクトの位置と周囲の空間である部屋の壁や床との位置関係によって初期反射音成分が大きく変化する。

そのため、オーディオオブジェクトOBJ21やオーディオオブジェクトOBJ22のオブジェクトリバーブ情報については、オブジェクト位置情報と同じ頻度で伝送する必要がある。このようなオブジェクトリバーブ情報は、オーディオオブジェクトの位置に大きく依存する情報である。

一方で、後部残響成分は壁や床などの空間の材質等に大きく依存するため、空間リバーブ情報は必要最低限の低頻度で伝送し、オーディオオブジェクトの位置に応じてその大小関係のみを制御することで充分主観的な品質を確保することができる。

したがって、例えば空間リバーブ情報は、オブジェクトリバーブ情報よりも低い頻度で信号処理装置１１に伝送される。換言すれば、コアデコード処理部２１は、オブジェクトリバーブ情報の取得頻度よりも、より低い頻度で空間リバーブ情報を取得する。

本技術では、リバーブ処理に必要な情報を直接音、オブジェクト固有リバーブ音、および空間固有リバーブ音といった音成分ごとに分割することで、リバーブ処理に必要となる情報（データ）のデータ量を削減することができる。

一般的に、サンプリングリバーブでは１秒程度の長いインパルス応答のデータが必要となるが、本技術のように必要な情報を音成分ごとに分割することで、インパルス応答を固定ディレイと短いインパルス応答データの組み合わせとして実現することができ、データ量を削減することができる。これは、サンプリングリバーブだけでなく、パラメトリックリバーブでも同様にバイクアッドフィルタの段数を削減することが可能である。

しかも本技術では、リバーブ処理に必要な情報を音成分ごとに分割して伝送することで、必要な情報を必要な頻度で伝送することができ、符号化効率を向上させることができる。

以上のように、本技術によれば、VBAP等のパニングベースのレンダリング手法に対して距離感を制御するためのリバーブ情報を伝送する場合に、オーディオオブジェクトが多数存在する場合でも、高い伝送効率を実現することが可能となる。

〈オーディオ出力処理の説明〉
次に、信号処理装置１１の具体的な動作について説明する。すなわち、以下、図９のフローチャートを参照して、信号処理装置１１によるオーディオ出力処理について説明する。

ステップＳ１１において、コアデコード処理部２１は、受信した入力ビットストリームを復号（データ）する。

コアデコード処理部２１は、復号により得られたオーディオオブジェクト信号を増幅部５１、増幅部５２、および増幅部５４に供給するとともに、復号により得られた直接音ゲイン、オブジェクトリバーブ音ゲイン、および空間リバーブゲインを、それぞれ増幅部５１、増幅部５２、および増幅部５４に供給する。

また、コアデコード処理部２１は、復号により得られたオブジェクトリバーブ情報および空間リバーブ情報をオブジェクト固有リバーブ処理部５３および空間固有リバーブ処理部５５に供給する。さらにコアデコード処理部２１は、復号により得られたオブジェクト位置情報を、オブジェクト固有リバーブ処理部５３、空間固有リバーブ処理部５５、およびレンダリング部５６に供給する。

なお、このときコアデコード処理部２１は、入力ビットストリームから読み出されたオブジェクトリバーブ情報を一時的に保持する。

また、より詳細にはコアデコード処理部２１は、再利用フラグuse_prevの値が「１」であるときには、自身が保持しているオブジェクトリバーブ情報のうち、入力ビットストリームから読み出されたリバーブIDにより特定されるものを、オーディオオブジェクトのオブジェクトリバーブ情報としてオブジェクト固有リバーブ処理部５３に供給する。

ステップＳ１２において増幅部５１は、コアデコード処理部２１から供給されたオーディオオブジェクト信号に対して、コアデコード処理部２１から供給された直接音ゲインを乗算してゲイン調整を行うことで直接音の信号を生成し、レンダリング部５６に供給する。

ステップＳ１３において、オブジェクト固有リバーブ処理部５３は、オブジェクト固有リバーブ音の信号を生成する。

すなわち、増幅部５２は、コアデコード処理部２１から供給されたオーディオオブジェクト信号に対して、コアデコード処理部２１から供給されたオブジェクトリバーブ音ゲインを乗算してゲイン調整を行い、オブジェクト固有リバーブ処理部５３に供給する。

また、オブジェクト固有リバーブ処理部５３は、コアデコード処理部２１から供給されたオブジェクトリバーブ情報に含まれるインパルス応答の係数に基づいて、増幅部５２から供給されたオーディオオブジェクト信号に対してリバーブ処理を行う。すなわち、インパルス応答の係数とオーディオオブジェクト信号との畳み込み処理が行われて、オブジェクト固有リバーブ音の信号が生成される。

さらにオブジェクト固有リバーブ処理部５３は、コアデコード処理部２１から供給されたオブジェクト位置情報と、オブジェクトリバーブ情報に含まれるオブジェクトリバーブ位置情報とに基づいて、オブジェクト固有リバーブ音の位置情報を生成し、得られた位置情報とオブジェクト固有リバーブ音の信号とをレンダリング部５６に供給する。

ステップＳ１４において、空間固有リバーブ処理部５５は、空間固有リバーブ音の信号を生成する。

すなわち、増幅部５４は、コアデコード処理部２１から供給されたオーディオオブジェクト信号に対して、コアデコード処理部２１から供給された空間リバーブゲインを乗算してゲイン調整を行い、空間固有リバーブ処理部５５に供給する。

また、空間固有リバーブ処理部５５はコアデコード処理部２１から供給された空間リバーブ情報に含まれるインパルス応答の係数に基づいて、増幅部５４から供給されたオーディオオブジェクト信号に対してリバーブ処理を行う。すなわち、インパルス応答の係数とオーディオオブジェクト信号との畳み込み処理が行われて、畳み込み処理によりオーディオオブジェクトごとに得られた信号が加算され、空間固有リバーブ音の信号が生成される。

さらに空間固有リバーブ処理部５５は、コアデコード処理部２１から供給されたオブジェクト位置情報と、空間リバーブ情報に含まれる空間リバーブ位置情報とに基づいて、空間固有リバーブ音の位置情報を生成し、得られた位置情報と空間固有リバーブ音の信号とをレンダリング部５６に供給する。

ステップＳ１５において、レンダリング部５６はレンダリング処理を行い、得られた出力オーディオ信号を出力する。

すなわち、レンダリング部５６は、コアデコード処理部２１から供給されたオブジェクト位置情報と増幅部５１から供給された直接音の信号とに基づいてレンダリング処理を行う。また、レンダリング部５６は、オブジェクト固有リバーブ処理部５３から供給されたオブジェクト固有リバーブ音の信号と位置情報とに基づいてレンダリング処理を行うとともに、空間固有リバーブ処理部５５から供給された空間固有リバーブ音の信号と位置情報とに基づいてレンダリング処理を行う。

そして、レンダリング部５６は、各音成分のレンダリング処理により得られた信号をチャネルごとに加算して、最終的な出力オーディオ信号を生成する。レンダリング部５６は、このようにして得られた出力オーディオ信号を後段に出力し、オーディオ出力処理は終了する。

以上のようにして信号処理装置１１は、直接音、オブジェクト固有リバーブ音、および空間固有リバーブ音の成分ごとに分割された情報が含まれるオーディオオブジェクト情報に基づいてリバーブ処理やレンダリング処理を行い、出力オーディオ信号を生成する。このようにすることで、入力ビットストリームの符号化効率を向上させることができる。

〈符号化装置の構成例〉
次に、以上において説明した入力ビットストリームを出力ビットストリームとして生成し、出力する符号化装置について説明する。

そのような符号化装置は、例えば図１０に示すように構成される。

図１０に示す符号化装置１０１は、オブジェクト信号符号化部１１１、オーディオオブジェクト情報符号化部１１２、およびパッキング部１１３を有している。

オブジェクト信号符号化部１１１は、供給されたオーディオオブジェクト信号を所定の符号化方式により符号化し、符号化されたオーディオオブジェクト信号をパッキング部１１３に供給する。

オーディオオブジェクト情報符号化部１１２は、供給されたオーディオオブジェクト情報を符号化し、パッキング部１１３に供給する。

パッキング部１１３は、オブジェクト信号符号化部１１１から供給された、符号化されたオーディオオブジェクト信号と、オーディオオブジェクト情報符号化部１１２から供給された、符号化されたオーディオオブジェクト情報とをビットストリームに格納して、出力ビットストリームとする。パッキング部１１３は、得られた出力ビットストリームを信号処理装置１１に送信する。

〈符号化処理の説明〉
続いて、符号化装置１０１の動作について説明する。すなわち、以下、図１１のフローチャートを参照して、符号化装置１０１による符号化処理について説明する。例えばこの符号化処理は、オーディオオブジェクト信号のフレームごとに行われる。

ステップＳ４１において、オブジェクト信号符号化部１１１は、供給されたオーディオオブジェクト信号を所定の符号化方式により符号化し、パッキング部１１３に供給する。

ステップＳ４２において、オーディオオブジェクト情報符号化部１１２は、供給されたオーディオオブジェクト情報を符号化し、パッキング部１１３に供給する。

ここでは、例えば空間リバーブ情報がオブジェクトリバーブ情報よりも低い頻度で信号処理装置１１に伝送されるように、オブジェクトリバーブ情報や空間リバーブ情報が含まれるオーディオオブジェクト情報の供給および符号化が行われる。

ステップＳ４３において、パッキング部１１３は、オブジェクト信号符号化部１１１から供給された、符号化されたオーディオオブジェクト信号をビットストリームに格納する。

ステップＳ４４において、パッキング部１１３は、オーディオオブジェクト情報符号化部１１２から供給された、符号化されたオーディオオブジェクト情報に含まれているオブジェクト位置情報をビットストリームに格納する。

ステップＳ４５において、パッキング部１１３は、オーディオオブジェクト情報符号化部１１２から供給された、符号化されたオーディオオブジェクト情報にリバーブ情報があるか否かを判定する。

ここでは、リバーブ情報として、オブジェクトリバーブ情報も空間リバーブ情報も含まれていない場合、リバーブ情報がないと判定される。

ステップＳ４５においてリバーブ情報がないと判定された場合、その後、処理はステップＳ４６へと進む。

ステップＳ４６において、パッキング部１１３は、リバーブ情報フラグflag_obj_reverbの値を「０」として、そのリバーブ情報フラグflag_obj_reverbをビットストリームに格納する。これにより、リバーブ情報が含まれていない出力ビットストリームが得られたことになる。出力ビットストリームが得られると、その後、処理はステップＳ５４へと進む。

これに対して、ステップＳ４５においてリバーブ情報があると判定された場合、その後、処理はステップＳ４７へと進む。

ステップＳ４７において、パッキング部１１３は、リバーブ情報フラグflag_obj_reverbの値を「１」として、そのリバーブ情報フラグflag_obj_reverbと、オーディオオブジェクト情報符号化部１１２から供給された、符号化されたオーディオオブジェクト情報に含まれているゲイン情報とをビットストリームに格納する。ここではゲイン情報として、上述した直接音ゲインdry_gain[i]、オブジェクトリバーブ音ゲインwet_gain[i]、および空間リバーブゲインroom_gain[i]がビットストリームに格納される。

ステップＳ４８において、パッキング部１１３は、オブジェクトリバーブ情報の再利用を行うか否かを判定する。

例えばオーディオオブジェクト情報符号化部１１２から供給された、符号化されたオーディオオブジェクト情報にオブジェクトリバーブ情報が含まれておらず、リバーブIDが含まれている場合、再利用を行うと判定される。

ステップＳ４８において再利用を行うと判定された場合、その後、処理はステップＳ４９へと進む。

ステップＳ４９において、パッキング部１１３は、再利用フラグuse_prevの値を「１」とし、その再利用フラグuse_prevと、オーディオオブジェクト情報符号化部１１２から供給された、符号化されたオーディオオブジェクト情報に含まれているリバーブIDとをビットストリームに格納する。リバーブIDが格納されると、その後、処理はステップＳ５１へと進む。

一方、ステップＳ４８において再利用を行わないと判定された場合、その後、処理はステップＳ５０へと進む。

ステップＳ５０において、パッキング部１１３は、再利用フラグuse_prevの値を「０」とし、その再利用フラグuse_prevと、オーディオオブジェクト情報符号化部１１２から供給された、符号化されたオーディオオブジェクト情報に含まれているオブジェクトリバーブ情報とをビットストリームに格納する。オブジェクトリバーブ情報が格納されると、その後、処理はステップＳ５１へと進む。

ステップＳ４９またはステップＳ５０の処理が行われると、その後、ステップＳ５１の処理が行われる。

すなわち、ステップＳ５１において、パッキング部１１３は、オーディオオブジェクト情報符号化部１１２から供給された、符号化されたオーディオオブジェクト情報に空間リバーブ情報があるか否かを判定する。

ステップＳ５１において空間リバーブ情報があると判定された場合、その後、処理はステップＳ５２へと進む。

ステップＳ５２において、パッキング部１１３は、空間リバーブ情報フラグflag_room_reverbの値を「１」とし、その空間リバーブ情報フラグflag_room_reverbと、オーディオオブジェクト情報符号化部１１２から供給された、符号化されたオーディオオブジェクト情報に含まれている空間リバーブ情報とをビットストリームに格納する。

これにより、空間リバーブ情報が含まれている出力ビットストリームが得られたことになる。出力ビットストリームが得られると、その後、処理はステップＳ５４へと進む。

一方、ステップＳ５１において空間リバーブ情報がないと判定された場合、その後、処理はステップＳ５３へと進む。

ステップＳ５３において、パッキング部１１３は、空間リバーブ情報フラグflag_room_reverbの値を「０」とし、その空間リバーブ情報フラグflag_room_reverbをビットストリームに格納する。これにより、空間リバーブ情報が含まれていない出力ビットストリームが得られたことになる。出力ビットストリームが得られると、その後、処理はステップＳ５４へと進む。

ステップＳ４６、ステップＳ５２、またはステップＳ５３の処理が行われて出力ビットストリームが得られると、その後、ステップＳ５４の処理が行われる。なお、これらの処理により得られた出力ビットストリームは、例えば図３および図４に示したフォーマットのビットストリームである。

ステップＳ５４において、パッキング部１１３は、得られた出力ビットストリームを出力し、符号化処理は終了する。

以上のようにして、符号化装置１０１は、直接音、オブジェクト固有リバーブ音、および空間固有リバーブ音の成分ごとに分割された情報が適宜含まれるオーディオオブジェクト情報をビットストリームに格納して出力する。このようにすることで、出力ビットストリームの符号化効率を向上させることができる。

なお、以上においては、直接音ゲインやオブジェクトリバーブ音ゲイン、空間リバーブゲインなどのゲイン情報がオーディオオブジェクト情報として与えられる例について説明したが、これらのゲイン情報が復号側で生成されるようにしてもよい。

そのような場合、例えば信号処理装置１１は、オーディオオブジェクト情報に含まれるオブジェクト位置情報やオブジェクトリバーブ位置情報、空間リバーブ位置情報などに基づいて、直接音ゲインやオブジェクトリバーブ音ゲイン、空間リバーブゲインを生成する。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
オーディオオブジェクトの周囲の空間に固有の空間リバーブ情報と、前記オーディオオブジェクトに固有のオブジェクトリバーブ情報との少なくとも何れか一方を含むリバーブ情報、および前記オーディオオブジェクトのオーディオオブジェクト信号を取得する取得部と、
前記リバーブ情報および前記オーディオオブジェクト信号に基づいて、前記オーディオオブジェクトのリバーブ成分の信号を生成するリバーブ処理部と
を備える信号処理装置。
（２）
前記空間リバーブ情報は、前記オブジェクトリバーブ情報よりも低い頻度で取得される
（１）に記載の信号処理装置。
（３）
前記リバーブ処理部は、過去の前記リバーブ情報を示す識別情報が前記取得部により取得された場合、前記識別情報により示される前記リバーブ情報と、前記オーディオオブジェクト信号とに基づいて前記リバーブ成分の信号を生成する
（１）または（２）に記載の信号処理装置。
（４）
前記識別情報は、前記オブジェクトリバーブ情報を示す情報であり、
前記リバーブ処理部は、前記識別情報により示される前記オブジェクトリバーブ情報、前記空間リバーブ情報、および前記オーディオオブジェクト信号に基づいて前記リバーブ成分の信号を生成する
（３）に記載の信号処理装置。
（５）
前記オブジェクトリバーブ情報は、前記オーディオオブジェクトの位置に依存する情報である
（１）乃至（４）の何れか一項に記載の信号処理装置。
（６）
前記リバーブ処理部は、
前記空間リバーブ情報および前記オーディオオブジェクト信号に基づいて前記空間に固有の前記リバーブ成分の信号を生成し、
前記オブジェクトリバーブ情報および前記オーディオオブジェクト信号に基づいて前記オーディオオブジェクトに固有の前記リバーブ成分の信号を生成する
（１）乃至（５）の何れか一項に記載の信号処理装置。
（７）
信号処理装置が、
オーディオオブジェクトの周囲の空間に固有の空間リバーブ情報と、前記オーディオオブジェクトに固有のオブジェクトリバーブ情報との少なくとも何れか一方を含むリバーブ情報、および前記オーディオオブジェクトのオーディオオブジェクト信号を取得し、
前記リバーブ情報および前記オーディオオブジェクト信号に基づいて、前記オーディオオブジェクトのリバーブ成分の信号を生成する
信号処理方法。
（８）
オーディオオブジェクトの周囲の空間に固有の空間リバーブ情報と、前記オーディオオブジェクトに固有のオブジェクトリバーブ情報との少なくとも何れか一方を含むリバーブ情報、および前記オーディオオブジェクトのオーディオオブジェクト信号を取得し、
前記リバーブ情報および前記オーディオオブジェクト信号に基づいて、前記オーディオオブジェクトのリバーブ成分の信号を生成する
ステップを含む処理をコンピュータに実行させるプログラム。

１１信号処理装置，２１コアデコード処理部，２２レンダリング処理部，５１－１，５１－２，５１増幅部，５２－１，５２－２，５２増幅部，５３－１，５３－２，５３オブジェクト固有リバーブ処理部，５４－１，５４－２，５４増幅部，５５空間固有リバーブ処理部，５６レンダリング部，１０１符号化装置，１１１オブジェクト信号符号化部，１１２オーディオオブジェクト情報符号化部，１１３パッキング部

Claims

オーディオオブジェクトの周囲の空間に固有の空間リバーブ情報と、前記オーディオオブジェクトに固有のオブジェクトリバーブ情報との少なくとも何れか一方を含むリバーブ情報、および前記オーディオオブジェクトのオーディオオブジェクト信号を取得する取得部と、
前記リバーブ情報および前記オーディオオブジェクト信号に基づいて、前記オーディオオブジェクトのリバーブ成分の信号を生成するリバーブ処理部と、
VBAPによるレンダリング処理を行うレンダリング部と
を備える信号処理装置。
前記空間リバーブ情報は、前記オブジェクトリバーブ情報よりも低い頻度で取得される
請求項１に記載の信号処理装置。
前記リバーブ処理部は、過去の前記リバーブ情報を示す識別情報が前記取得部により取得された場合、前記識別情報により示される前記リバーブ情報と、前記オーディオオブジェクト信号とに基づいて前記リバーブ成分の信号を生成する
請求項１に記載の信号処理装置。
前記識別情報は、前記オブジェクトリバーブ情報を示す情報であり、
前記リバーブ処理部は、前記識別情報により示される前記オブジェクトリバーブ情報、前記空間リバーブ情報、および前記オーディオオブジェクト信号に基づいて前記リバーブ成分の信号を生成する
請求項３に記載の信号処理装置。
前記オブジェクトリバーブ情報は、前記オーディオオブジェクトの位置に依存する情報である
請求項１に記載の信号処理装置。
前記リバーブ処理部は、
前記空間リバーブ情報および前記オーディオオブジェクト信号に基づいて前記空間に固有の前記リバーブ成分の信号を生成し、
前記オブジェクトリバーブ情報および前記オーディオオブジェクト信号に基づいて前記オーディオオブジェクトに固有の前記リバーブ成分の信号を生成する
請求項１に記載の信号処理装置。
信号処理装置が、
オーディオオブジェクトの周囲の空間に固有の空間リバーブ情報と、前記オーディオオブジェクトに固有のオブジェクトリバーブ情報との少なくとも何れか一方を含むリバーブ情報、および前記オーディオオブジェクトのオーディオオブジェクト信号を取得し、
前記リバーブ情報および前記オーディオオブジェクト信号に基づいて、前記オーディオオブジェクトのリバーブ成分の信号を生成し、
VBAPによるレンダリング処理を行う
信号処理方法。
オーディオオブジェクトの周囲の空間に固有の空間リバーブ情報と、前記オーディオオブジェクトに固有のオブジェクトリバーブ情報との少なくとも何れか一方を含むリバーブ情報、および前記オーディオオブジェクトのオーディオオブジェクト信号を取得し、
前記リバーブ情報および前記オーディオオブジェクト信号に基づいて、前記オーディオオブジェクトのリバーブ成分の信号を生成し、
VBAPによるレンダリング処理を行う
ステップを含む処理をコンピュータに実行させるプログラム。