JP6376127B2

JP6376127B2 - オーディオ信号出力装置および方法、並びにプログラム

Info

Publication number: JP6376127B2
Application number: JP2015519804A
Authority: JP
Inventors: 潤宇史; 徹知念; 優樹山本; 光行畠中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-05-31
Filing date: 2014-05-21
Publication date: 2018-08-22
Anticipated expiration: 2034-05-21
Also published as: BR112015029344A2; TW201505455A; CN105247893A; EP3007469A4; EP3007469A1; US9866985B2; RU2015149206A; US20160127847A1; JPWO2014192603A1; KR20160013861A; RU2668113C2; WO2014192603A1; TWI634798B

Description

本技術はオーディオ信号出力装置および方法、並びにプログラムに関し、特に、より臨場感のあるオーディオ再生を行なうことができるようにしたオーディオ信号出力装置および方法、並びにプログラムに関する。

マルチチャンネルのオーディオ再生において、再生側のスピーカ配置は、音源の位置と完全に一致することが望ましいが、現実では再生側のスピーカ位置と音源の位置とが異なることが多い。

再生側のスピーカの配置位置と音源の位置が異なると、スピーカの位置にない音源が生じるので、このような音源の音声をどのように再生するかは重要な事項である。

また、任意の位置にある音源の音声を、任意の位置のスピーカから再生する方法としてVBAP（Vector Base Amplitude Pannning）と呼ばれる技術が提案されている（例えば、非特許文献１参照）。

VBAPでは、目標となる音像の定位位置が、その定位位置の周囲にある２つまたは３つのスピーカの方向を向くベクトルの線形和で表現される。そして、その線形和において各ベクトルに乗算されている係数が、各スピーカから出力されるオーディオ信号のゲインとして用いられてゲイン調整が行なわれ、目標となる位置に音像が定位するようになされる。

Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997

ところで、従来では音源のチャンネル数およびスピーカ配置と、再生側のスピーカのチャンネル数およびスピーカ配置が、それぞれ予め決められたチャンネル数とスピーカ配置となる場合、例えばいくつかの国際標準会議で推奨された7.1チャンネル配置と5.1チャンネル配置、5.1チャンネル配置と2.1チャンネル配置、または22.2チャンネル配置と5.1チャンネル配置のような場合については、音声の再生方法が提案されている。このような場合、ダウンミックス処理により各スピーカから適切なゲインで音声が出力され、臨場感のあるオーディオ再生を実現することができる。

しかしながら、上記以外の場合や、音源位置またはスピーカ配置位置が、予め定められた位置からずれた位置にある場合には、提案されている再生方法では、音声を再生することができなかったり、再生はできるものの音質と音像定義が大きく劣化してしまったりすることになる。

また、上述したVBAPではチャンネルベースの音源を再生する場合、チャンネルベースの音源の音像と音源が再生される理想のスピーカの位置が異なることがほとんどであるので、音像定義が大きく劣化することになる。

以上のように上述した技術では、臨場感のあるオーディオ再生を実現することが困難であった。

本技術は、このような状況に鑑みてなされたものであり、より臨場感のあるオーディオ再生を行なうことができるようにするものである。

本技術の一側面のオーディオ信号出力装置は、オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離を計算する距離計算部と、前記距離に基づいて前記オーディオ信号の再生ゲインを計算するゲイン計算部と、入力された前記オーディオ信号に基づく入力音声の音圧の期待値、および前記再生ゲインに基づいて、前記再生ゲインによりゲイン調整された前記オーディオ信号に基づく出力音声の全体のパワーと、前記入力音声の全体のパワーとの比を算出し、前記比に基づいて前記再生ゲインを補正する全体ゲイン補正部と、補正された前記再生ゲインに基づいて前記オーディオ信号のゲイン調整を行なうゲイン調整部とを備える。

前記ゲイン計算部には、各前記距離に対する前記再生ゲインを得るためのカーブ情報に基づいて、前記再生ゲインを計算させることができる。

前記カーブ情報を、折れ線カーブまたは関数カーブを示す情報とすることができる。

前記ゲイン調整部には、前記理想的なスピーカが所定の基準点を中心とする単位円上にない場合、前記基準点から前記理想的なスピーカまでの距離と前記単位円の半径とに基づいて定められたゲインにより前記オーディオ信号のゲイン調整をさらに行なわせることができる。

前記ゲイン調整部には、前記基準点から前記理想的なスピーカまでの距離と前記単位円の半径とに基づいて定められた遅延時間に基づいて前記オーディオ信号を遅延させるようにすることができる。

前記ゲイン調整部には、前記実際のスピーカが所定の基準点を中心とする単位円上にない場合、前記基準点から前記実際のスピーカまでの距離と前記単位円の半径とに基づいて定められたゲインにより前記オーディオ信号のゲイン調整をさらに行なわせることができる。

前記ゲイン調整部には、前記基準点から前記実際のスピーカまでの距離と前記単位円の半径とに基づいて定められた遅延時間に基づいて前記オーディオ信号を遅延させるようにすることができる。

オーディオ信号出力装置には、理想的なセンタースピーカの位置と、前記実際のスピーカの位置との距離に基づいて、前記再生ゲインを補正するゲイン補正部をさらに設けることができる。

オーディオ信号出力装置には、前記再生ゲインが予め定められた下限値よりも小さい場合、前記再生ゲインを補正する下限値補正部をさらに設けることができる。

本技術の一側面のオーディオ信号出力方法またはプログラムは、オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離を計算し、前記距離に基づいて前記オーディオ信号の再生ゲインを計算し、入力された前記オーディオ信号に基づく入力音声の音圧の期待値、および前記再生ゲインに基づいて、前記再生ゲインによりゲイン調整された前記オーディオ信号に基づく出力音声の全体のパワーと、前記入力音声の全体のパワーとの比を算出し、前記比に基づいて前記再生ゲインを補正し、補正された前記再生ゲインに基づいて前記オーディオ信号のゲイン調整を行なうステップを含む。

本技術の一側面においては、オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離が計算され、前記距離に基づいて前記オーディオ信号の再生ゲインが計算され、入力された前記オーディオ信号に基づく入力音声の音圧の期待値、および前記再生ゲインに基づいて、前記再生ゲインによりゲイン調整された前記オーディオ信号に基づく出力音声の全体のパワーと、前記入力音声の全体のパワーとの比が算出され、前記比に基づいて前記再生ゲインが補正され、補正された前記再生ゲインに基づいて前記オーディオ信号のゲイン調整が行なわれる。

本技術の一側面によれば、より臨場感のあるオーディオ再生を行なうことができる。

本技術の概要について説明する図である。折れ線カーブについて説明する図である。関数カーブについて説明する図である。再生ゲインについて説明する図である。再生装置の構成例を示す図である。ダウンミックス処理を説明するフローチャートである。オーディオシステムの構成例を示す図である。メタデータについて説明する図である。符号化処理を説明するフローチャートである。復号処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術の概要について〉
本技術は、任意のチャンネルの音源を任意の数のスピーカで再生する再生方法と、その再生方法の実現に必要な情報（メタデータ）の符号化および復号技術に関するものである。

まず、本技術の概要について説明する。

例えば、複数の各チャンネルのオーディオ信号と、それらのオーディオ信号のメタデータとが再生装置に供給され、再生装置において、メタデータとオーディオ信号に基づいて、音声の再生を制御するものとする。

ここで、各チャンネルのオーディオ信号は、メタデータにより示される理想的な位置に配置されたスピーカにより再生されるものとして生成された信号であるものとする。以下では、メタデータにより示される位置にある、各チャンネルのオーディオ信号を再生する仮想のスピーカを、理想スピーカと称することとする。また、再生装置から出力されたオーディオ信号に基づいて音声を出力する実際のスピーカを再生スピーカと称することとする。

本技術では、全チャンネルのオーディオ信号が、LFE（Low Frequency Effect）用のオーディオ信号と、LFE用でないオーディオ信号とに分類される。すなわち、全理想スピーカがLFE用のスピーカと、LFE用でないスピーカとに分類される。同様に、再生スピーカも、LFE用のスピーカと、LFE用でないスピーカとに分類される。

まず、LFE用ではないチャンネルのオーディオ信号の再生について説明する。

LFE用ではないチャンネルのオーディオ信号の再生では、例えば図１に示すように、理想スピーカと再生スピーカとの距離に基づいて、オーディオ信号のゲイン調整が行なわれる。

図１では、視聴者であるユーザＵ１１の位置を中心とする半径ｒ_ｕの球ＰＨ１１の表面上に理想スピーカＶＳＰ１と、再生スピーカＲＳＰ１１−１乃至再生スピーカＲＳＰ１１−３とが配置されている。理想スピーカＶＳＰ１および再生スピーカＲＳＰ１１−１乃至再生スピーカＲＳＰ１１−３はLFE用ではないスピーカである。

なお、以下、再生スピーカＲＳＰ１１−１乃至再生スピーカＲＳＰ１１−３を特に区別する必要のない場合、単に再生スピーカＲＳＰ１１とも称する。また、この例では、１つの理想スピーカおよび３つの再生スピーカだけが図示されているが、実際には他の理想スピーカや再生スピーカも存在する。

例えば、理想スピーカＶＳＰ１に対応するチャンネルのオーディオ信号に基づく音声は、理想スピーカＶＳＰ１の位置に音像を定位させることが理想的である。

そこで、本技術では、理想スピーカＶＳＰ１と再生スピーカＲＳＰ１１との距離に応じて各再生スピーカＲＳＰ１１の再生ゲインを定め、それらの再生ゲインでオーディオ信号に基づく音声を各再生スピーカＲＳＰ１１から出力させることで、理想スピーカＶＳＰ１の位置に音像を定位させる。

具体的には、理想スピーカＶＳＰ１と再生スピーカＲＳＰ１１の距離は、ユーザＵ１１を始点とし、理想スピーカＶＳＰ１方向を向くベクトルと、ユーザＵ１１を始点とし、再生スピーカＲＳＰ１１方向を向くベクトルとのなす角度とされる。

換言すれば、球ＰＨ１１の表面上における理想スピーカＶＳＰ１と再生スピーカＲＳＰ１１との距離、つまり２つのスピーカを結ぶ弧の長さが、理想スピーカＶＳＰ１と再生スピーカＲＳＰ１１の距離とされる。

図１の例では、矢印Ａ１１と矢印Ａ１２とがなす角度が、理想スピーカＶＳＰ１と再生スピーカＲＳＰ１１−１との距離DistM1とされている。同様に、矢印Ａ１１と矢印Ａ１３とがなす角度が、理想スピーカＶＳＰ１と再生スピーカＲＳＰ１１−２との距離DistM2とされ、矢印Ａ１１と矢印Ａ１４とがなす角度が、理想スピーカＶＳＰ１と再生スピーカＲＳＰ１１−３との距離DistM3とされている。

そして、例えば理想スピーカＶＳＰ１のチャンネルのオーディオ信号が、距離DistM1に基づいてゲイン調整されて再生スピーカＲＳＰ１１−１で再生される。また、理想スピーカＶＳＰ１のチャンネルのオーディオ信号は、それぞれ距離DistM2および距離DistM3に基づいてゲイン調整され、再生スピーカＲＳＰ１１−２および再生スピーカＲＳＰ１１−３で再生される。

これにより、理想スピーカＶＳＰ１と再生スピーカＲＳＰ１１との位置にずれがある場合であっても、それによって生じた音像のずれを軽減することができ、より臨場感のあるオーディオ再生を実現することができる。

次に、LFE用でないチャンネルのオーディオ信号の再生について、さらに詳細に説明していく。

ここでは、例えば具体的に、LFE用でないＭ個の理想スピーカ、つまりＭチャンネルのオーディオ信号をダウンミックスしてＮチャンネルのオーディオ信号とし、それらのＮチャンネルのオーディオ信号をLFE用でないＮ個の再生スピーカにより再生する例について説明する。

ダウンミックス処理では、主に以下に示す６つの処理ＳＴＥ１乃至処理ＳＴＥ６が順番に行なわれる。

（処理ＳＴＥ１）：理想スピーカと再生スピーカの距離を求める
（処理ＳＴＥ２）：求めた距離と予め定めた減衰カーブに基づいて、理想スピーカごとに各再生スピーカの再生ゲインを求める
（処理ＳＴＥ３）：再生スピーカの配置位置に応じて再生ゲインを補正する
（処理ＳＴＥ４）：下限値に基づいて再生ゲインを補正する
（処理ＳＴＥ５）：出力音声全体のエネルギが、入力音声全体のエネルギと近くなるように再生ゲインを補正する
（処理ＳＴＥ６）：再生ゲインをオーディオ信号に適用し、ゲイン調整を行なう

続いて、これらの処理ＳＴＥ１乃至処理ＳＴＥ６について、さらに説明する。

〈処理ＳＴＥ１について〉
まず、処理ＳＴＥ１では、スピーカ間の距離が求められるが、各スピーカの位置は、水平方向角度θ（-180°≦θ≦+180°）、垂直方向角度γ（-90°≦γ≦+90°）、およびユーザからスピーカまでの距離ｒ（0≦ｒ≦+∞）により表現されるものとする。

例えば図１において、ユーザＵ１１の位置を原点とし、ｘ軸、ｙ軸、およびｚ軸からなる３次元座標系を考えるとする。

ここで、図中、奥行き方向の直線と、図中、横方向の直線とを含む平面をｘｙ平面とすると、ｘｙ平面において基準となる方向の直線、例えばｙ軸と、ユーザＵ１１を始点とするスピーカ方向のベクトルとがｘｙ平面上においてなす角度が水平方向角度θとされる。つまり、水平方向角度θは、図１中、水平方向の角度である。

また、ユーザＵ１１を始点とするスピーカ方向のベクトルと、ｘｙ平面とがなす角度が垂直方向角度γとされ、ユーザＵ１１とスピーカとを結ぶ直線の長さが距離ｒとされる。

各理想スピーカの位置を示す水平方向角度θ、垂直方向角度γ、および距離ｒは、オーディオ信号のメタデータとして再生装置に供給される。また、再生装置には、各再生スピーカの位置を示す水平方向角度θ、垂直方向角度γ、および距離ｒも供給される。

なお、以下では、特にＭ個の理想スピーカのうちのｍ番目の理想スピーカの水平方向角度θ、垂直方向角度γ、および距離ｒを、それぞれθ_ｉｍ、γ_ｉｍ、およびｒ_ｉｍで表すこととする。同様に、以下、Ｎ個の再生スピーカのうちのｎ番目の再生スピーカの水平方向角度θ、垂直方向角度γ、および距離ｒを、それぞれθ_ｏｎ、γ_ｏｎ、およびｒ_ｏｎで表すこととする。

再生装置では、Ｍ個の理想スピーカごとに、それらの理想スピーカと、Ｎ個の各再生スピーカとの距離が求められる。

例えば、ｍ番目の理想スピーカと、ｎ番目の再生スピーカとの距離Dist(m,n)は、次式（１）により求められる。

再生装置では、Ｍ個の理想スピーカとＮ個の再生スピーカの組み合わせごとに式（１）の計算が行なわれ、合計でＭ×Ｎ個の距離Dist(m,n)が計算される。

ところで、各理想スピーカや再生スピーカが半径ｒ_ｕの単位円上、つまり図１に示した球ＰＨ１１上に配置されていれば、各スピーカから出力された音声は、同時にユーザＵ１１に到達する。しかし、一部のスピーカが球ＰＨ１１上にない場合には、そのスピーカからの音声は、他のスピーカからの音声と比べてユーザＵ１１に早くまたは遅く到達することになるだけでなく、ユーザに聞こえる音声の音圧も変化してしまう。

そこで、再生装置では、距離ｒ_ｉｍ≠ｒ_ｕである理想スピーカのオーディオ信号に対して、補正値SoundPressureCorrection_imにより音圧の補正が行なわれ、遅延時間Delay_imにより遅延処理が施される。

これにより、理想スピーカが球ＰＨ１１上に位置するものとして扱うことができるようになる。

具体的には、距離ｒ_ｉｍと半径ｒ_ｕに基づいて次式（２）の計算が行なわれて、補正値SoundPressureCorrection_imが算出される。

式（２）により求まる補正値SoundPressureCorrection_imは、理想スピーカ側、つまり再生装置に入力されたチャンネルｍのオーディオ信号に対する補正に用いられる。以下、特に、再生装置に入力されたオーディオ信号を入力オーディオ信号とも称し、再生装置から出力されるオーディオ信号を出力オーディオ信号とも称することとする。

また、理想スピーカの入力オーディオ信号に対する遅延処理のための遅延時間Delay_imは、距離ｒ_ｉｍと半径ｒ_ｕに基づいて次式（３）により算出される。なお、ｒ_ｉｍ＞ｒ_ｕの場合には遅延時間Delay_imは負の値となり、遅延処理ではオーディオ信号が負の方向に遅延される、つまりオーディオ信号が時間的に前の方向にシフトされることになる。

これらの補正値SoundPressureCorrection_imと遅延時間Delay_imは、距離ｒ_ｉｍ≠ｒ_ｕである理想スピーカについて算出される。同様に、距離ｒ_ｏｎ≠ｒ_ｕである再生スピーカについても補正値SoundPressureCorrection_onと遅延時間Delay_onが算出される。

すなわち、次式（４）により補正値SoundPressureCorrection_onが算出され、式（５）により遅延時間Delay_onが算出される。

このようにして求められた補正値SoundPressureCorrection_onと遅延時間Delay_onは、再生スピーカ側、つまり出力オーディオ信号に対する音圧の補正値と遅延時間である。再生装置では、距離ｒ_ｏｎ≠ｒ_ｕである再生スピーカに供給されるオーディオ信号に対して、補正値SoundPressureCorrection_onにより音圧の補正が行なわれ、遅延時間Delay_onにより遅延処理が施される。

〈処理ＳＴＥ２について〉
続いて、処理ＳＴＥ２では、理想スピーカごとに各再生スピーカの再生ゲインが求められる。

まずは、Ｍ個の各理想スピーカについて、その理想スピーカとの距離Dist(m,n)が「０」となる再生スピーカが存在するか否かが特定され、各理想スピーカが、再生スピーカ位置にあるスピーカ、または再生スピーカ位置にないスピーカの何れかに分類される。

そして、再生スピーカ位置にあるスピーカとされたｍ番目の理想スピーカについては、そのｍ番目の理想スピーカに対応するチャンネルｍのオーディオ信号についてのｎ番目の再生スピーカの再生ゲインMixGain(m,n)が次式（６）により算出される。

式（６）では、距離Dist(m,n)が「０」である再生スピーカ、つまりｍ番目の理想スピーカと同じ位置にある再生スピーカの再生ゲインMixGain(m,n)は0dBとされる。また、距離Dist(m,n)が「０」でない再生スピーカ、つまりｍ番目の理想スピーカと異なる位置にある再生スピーカの再生ゲインMixGain(m,n)は-∞dBとされる。

これにより、ｍ番目の理想スピーカに対応するチャンネルｍのオーディオ信号は、その理想スピーカと同じ位置にある再生スピーカにおいて再生されることになる。つまり、他の再生スピーカからは、チャンネルｍの音声成分は出力されない。

これに対して、再生スピーカ位置にないスピーカとされたｍ番目の理想スピーカについては、折れ線カーブか、または関数カーブの何れかの減衰カーブが用いられて、その理想スピーカについての各再生スピーカの再生ゲインMixGain(m,n)が求められる。

具体的には、再生装置に供給されるメタデータには、折れ線カーブ、または関数カーブの何れのカーブを用いて再生ゲインを求めるかを示すカーブ情報が含まれており、再生装置はメタデータに含まれるカーブ情報に示される種類のカーブを用いて再生ゲインを算出する。

また、メタデータにはカーブ情報に示される種類のカーブのうちの具体的にどのカーブを用いるかを示すカーブインデックスも含まれている。カーブインデックスは、再生装置には記録されていない新たなカーブを示す情報であることもある。

再生装置は、カーブインデックスが予め定められたカーブを示す情報である場合には、予め記録されている、係数等のカーブを得るための情報を用いて再生ゲインの算出を行なう。一方、カーブインデックスが新たなカーブを示す情報である場合には、再生装置は、メタデータから、新たなカーブを得るための情報を読み出し、その情報から得られるカーブを用いて再生ゲインを算出する。

例えば、再生ゲインの算出に用いられる折れ線カーブは、各距離Dist(m,n)に対する再生ゲインの値から構成される数列により表現される。

具体的には、再生ゲインの値の数列として、［0,-1.5,-4.5,-6,-9,-10.5,-12,-13.5,-15,-15,-16.5,-16.5,-18,-18,-18,-19.5,-19.5,-21,-21,-21,-∞,-∞,-∞,-∞,-∞,-∞］（dB）が、再生ゲインを得るための情報とされているとする。

そのような場合、数列の始点の値が距離Dist(m,n)＝0°のときの再生ゲインとされ、数列の終点の値が距離Dist(m,n)＝180°のときの再生ゲインとされる。また、数列のｋ番目の点の値が、次式（７）に示す距離Dist(m,n)のときの再生ゲインとされる。

また、数列の隣接する点の間は、距離Dist(m,n)によって再生ゲインが線形に変化するとされる。このような数列により得られる折れ線カーブは、再生ゲインMixGain(m,n)と、距離Dist(m,n)のマッピングを表すカーブである。

例えば、上述した数列によって図２に示す折れ線カーブが得られる。

図２では、縦軸は再生ゲインの値を示しており、横軸は理想スピーカと再生スピーカとの間の距離を示している。また、折れ線ＣＶ１１が折れ線カーブを表しており、折れ線カーブ上の四角形は、再生ゲインの値の数列を構成する１つの数値を示している。

この例では、ｎ番目の再生スピーカとｍ番目の理想スピーカとの距離Dist(m,n)がDistM1である場合には、そのｎ番目の再生スピーカの再生ゲインMixGain(m,n)は、折れ線カーブ上のDistM1におけるゲインの値である-3.5dBとされる。

また、距離Dist(m,n)がDistM2である再生スピーカの再生ゲインMixGain(m,n)は、折れ線カーブ上のDistM2におけるゲインの値である-8dBとされ、距離Dist(m,n)がDistM3である再生スピーカの再生ゲインMixGain(m,n)は、折れ線カーブ上のDistM3におけるゲインの値である-16.5dBとされる。

一方、再生ゲインの算出に用いられる関数カーブは、３つの係数coef1、係数coef2、および係数coef3と、予め定められた下限となるゲイン値MinGainにより表現される。

この場合、再生装置は係数coef1乃至係数coef3、ゲイン値MinGain、および距離Dist(m,n)により表現される、次式（８）に示す関数f(Dist(m,n))を用いて、以下の式（９）を計算し、ｍ番目の理想スピーカについての各再生スピーカの再生ゲインMixGain(m,n)を算出する。

なお、式（９）において、Cut_threは、次式（１０）を満たす最小値である。

このような関数f(Dist(m,n))等により表される関数カーブは、例えば図３に示すカーブとなる。なお、図３において縦軸は再生ゲインの値を示しており、横軸は理想スピーカと再生スピーカとの間の距離を示している。また、曲線ＣＶ２１が関数カーブを表している。

図３に示す関数カーブでは、関数f(Dist(m,n))により示される再生ゲインの値が始めて下限となるゲイン値MinGainより小さくなると、それ以降の各距離Dist(m,n)における再生ゲインの値は「-∞」とされている。なお、図中の点線は、各距離Dist(m,n)におけるもとの関数f(Dist(m,n))の値を示している。

この例では、ｎ番目の再生スピーカとｍ番目の理想スピーカとの距離Dist(m,n)がDistM1である場合には、そのｎ番目の再生スピーカの再生ゲインMixGain(m,n)は、関数カーブ上のDistM1におけるゲインの値である-6dBとされる。

また、距離Dist(m,n)がDistM2である再生スピーカの再生ゲインMixGain(m,n)は、関数カーブ上のDistM2におけるゲインの値である-12dBとされ、距離Dist(m,n)がDistM3である再生スピーカの再生ゲインMixGain(m,n)は、関数カーブ上のDistM3におけるゲインの値である-18dBとされる。

なお、関数カーブにより再生ゲインMixGain(m,n)を求める場合、係数coef1乃至係数coef3の組み合わせ［coef1,coef2,coef3］は、例えば［8,-12,6］や、［1,-3,3］、［2,-5.3,4.2］などとされる。

以上の処理によって、Ｍ個の理想スピーカごとに、Ｎ個の各再生スピーカの再生ゲインMixGain(m,n)が得られることになる。これらの再生スピーカの再生ゲインの値は、理想スピーカとの距離Dist(m,n)が近いほど大きい値となり、その音声の音量も大きくなる。なお、再生ゲインMixGain(m,n)は、Ｍ＞Ｎとなる場合にはミックスゲインとなる。

〈処理ＳＴＥ３について〉
さらに、処理ＳＴＥ３では、処理ＳＴＥ２で得られたＭ×Ｎ個の再生ゲインMixGain(m,n)に対して、ｎ番目の再生スピーカの配置位置に応じて補正が行なわれる。

例えば、ユーザの前方に位置する音源からの音声が、ユーザの後方から聞こえると違和感が生じてしまう。これに対して、ユーザの後方に位置する音源からの音声が、ユーザの前方から聞こえても大きな違和感は生じない。

そこで、Ｎ個の各再生スピーカがユーザに対して前方や後方など、どこに位置しているかに応じて、各再生スピーカの再生ゲインを補正し、再生スピーカの位置によって出力される音声に違和感が生じないようになされる。すなわち、理想スピーカとの距離Dist(m,n)が同じである、ユーザの前方と後方にある２つの再生スピーカで、この理想スピーカのオーディオ信号を再生する場合、ユーザの後方にある再生スピーカの再生ゲインは、前方の再生スピーカの再生ゲインより小さくなるように補正が行なわれる。

具体的には、まず再生装置は、メタデータから再生スピーカの配置位置に応じた再生ゲインの補正が必要か否かを示す情報を取得し、取得した情報が、再生ゲインの補正が不要である旨の情報である場合には、処理ＳＴＥ３を行なわない。すなわち、処理ＳＴＥ２の後、処理ＳＴＥ３はスキップされて処理ＳＴＥ４が行なわれる。

一方、メタデータから取得した情報が、再生ゲインの補正が必要である旨の情報である場合には、再生装置は、式（１）と同様の計算を行なってＮ個の各再生スピーカと、空間原点Ｃとの距離Dist(n,C)を求める。

ここで、空間原点Ｃとは、再生スピーカが配置される空間上の基準となる位置であり、例えば空間原点Ｃの位置は、水平方向角度θ＝0、垂直方向角度γ＝0、および距離ｒ＝ｒ_ｕにより表現される位置とされる。この場合、空間原点Ｃの位置は単位円、つまり図１の球ＰＨ１１上にあり、かつユーザＵ１１の正面に位置することになる。このような空間原点Ｃの位置は、理想的なセンタースピーカの位置である。

Ｎ個の再生スピーカについて空間原点Ｃとの距離Dist(n,C)が求められると、次式（１１）の計算によりＮ個の各再生スピーカの補正係数spkr_pos_correction_coeffcient(n)が求められる。

なお、式（１１）において、Max_spkr_pos_correction_coeffcientは、距離Dist(n,C)が最大（180°）となるときの補正係数を示している。

さらに、求められた補正係数spkr_pos_correction_coeffcient(n)が、ｍ番目の理想スピーカについてのｎ番目の再生スピーカの再生ゲインMixGain(m,n)に乗算されて、補正後の再生ゲインMixGain_pos_corr(m,n)とされる。すなわち、次式（１２）の計算が行なわれる。

なお、式（１２）において、MaxMixGain(n)は、ｎ番目の再生スピーカについてのＭ個の再生ゲイン、つまりｎの値が同じである再生ゲインMixGain(m,n)の最大値である。式（１２）において、MaxMixGain(n)が含まれる項は、spkr_pos_correction_coeffcient(n)による補正が行なわれ過ぎないようにするための逆補正の項である。

以上の処理により、再生スピーカの配置位置に応じて適宜補正された、Ｍ×Ｎ個の再生ゲインMixGain_pos_corr(m,n)が得られる。

なお、再生スピーカの配置位置に応じた再生ゲインの補正が行なわれない場合には、再生ゲインMixGain(m,n)がそのまま再生ゲインMixGain_pos_corr(m,n)とされる。

〈処理ＳＴＥ４について〉
また、処理ＳＴＥ３の後に行なわれる処理ＳＴＥ４では、全ての再生スピーカの再生ゲインが小さい値となっている理想スピーカのオーディオ信号に対して、少なくとも１つの再生スピーカにおいて、予め定められた再生ゲインの下限値でオーディオ信号が再生されるように再生ゲインが補正される。

すなわち、処理ＳＴＥ３で得られた理想スピーカごとの再生ゲイン、つまりｍの値が同じであるＮ個の再生ゲインMixGain_pos_corr(m,n)の最大値MaxMixGain_i(m)が求められ、その最大値MaxMixGain_i(m)と下限値MixGain_MinThreとが比較される。

そして、所定のｍ番目の理想スピーカについて、最大値MaxMixGain_i(m)が下限値MixGain_MinThreより小さい場合、そのｍ番目の理想スピーカについてのＮ個の再生ゲインMixGain_pos_corr(m,n)に対して、補正値MinGain_correctioni(m)が加算される。ここで、補正値MinGain_correctioni(m)は、次式（１３）に示すように最大値MaxMixGain_i(m)と下限値MixGain_MinThreとの差分である。

このような補正によって、少なくとも１つの再生スピーカによりチャンネルｍのオーディオ信号が所定の最低再生ゲインで再生されることになり、特定チャンネルの音声が聞こえなくなってしまうことを防止することができる。

〈処理ＳＴＥ５について〉
また、処理ＳＴＥ５では、出力音声全体のエネルギが、入力音声全体のエネルギと近くなるように再生ゲインMixGain_pos_corr(m,n)が補正される。

まず、再生装置は、メタデータから理想スピーカの各チャンネル間の相対音圧の期待値SPR_i(m)を読み出し、そのうちの一番音圧の大きい理想スピーカの絶対音圧を0dBFSと仮定し、理想スピーカごとの各期待値SPR_i(m)から各チャンネルのオーディオ信号の音声の音圧を計算し、入力オーディオ信号の音声全体のパワー値pow_iを求める。

ここで、パワー値pow_iは、Ｍ個の各チャンネルのオーディオ信号を再生することで理想スピーカから出力される音声（以下、入力音声とも称する）の全体のパワーである。また、以下、Ｎ個の各チャンネルのオーディオ信号を再生することで再生スピーカから出力される音声を出力音声とも称することとする。

次に、再生装置は処理ＳＴＥ４で得られた再生ゲインMixGain_pos_corr(m,n)に対して、期待値SPR_i(m)を乗算することで、各再生スピーカの出力音声の音圧の期待値SPR_o(n)を求め、期待値SPR_o(n)から出力音声全体のパワー値pow_oを求める。

そして、再生装置は処理ＳＴＥ４で得られた全ての再生ゲインMixGain_pos_corr(m,n)に、入力音声と出力音声のパワー値の比（pow_o／pow_i）を乗算して、出力音声全体の音圧補正を行なう。このようにして得られた再生ゲインが、理想スピーカごとの各再生スピーカの最終的な再生ゲインとなる。

ここで、一番音圧の大きい理想スピーカの絶対音圧を0dBと仮定して、入力音声と出力音声のパワー値の比（pow_o／pow_i）を求めたが、その値は実際の絶対音圧を用いて求めた入力音声と出力音声のパワー値の比（pow_o／pow_i）と同じ値となる。このように入力音声の絶対音圧を仮定すれば、実際の入力音声の絶対音圧が分からない場合でも、入力音声と出力音声のパワー値の比（pow_o／pow_i）を求めることが可能となる。なお、仮定した音圧値を0dBではなく、他の任意の値としても、結果として得られるパワー値の比は同じ値となる。

〈LFE用のスピーカについて〉
さらに、LFE用のチャンネルのオーディオ信号の再生について説明する。

例えば、LFE用の理想スピーカの数は、０個、１個、または２個のうちの何れかとなり、同様にLFE用の再生スピーカの数も０個、１個、または２個のうちの何れかとなる。

LFE用の理想スピーカの数、またはLFE用の再生スピーカの数の何れかが０個である場合には、LFE用のチャンネルのオーディオ信号は再生不可能であり、そのオーディオ信号のゲインは−∞とされる。

これに対して、LFE用の理想スピーカや再生スピーカの数が１個または２個である場合には、再生装置では例えば図４に示す再生ゲインにより、LFE用の各チャンネルのオーディオ信号が生成される。

すなわち、LFE用の理想スピーカとLFE用の再生スピーカがともに１つまたは２つである場合には、LFE用の理想スピーカのオーディオ信号が、そのままLFE用の再生スピーカのオーディオ信号とされて再生される。

また、LFE用の理想スピーカが１つであり、LFE用の再生スピーカが２つである場合、またはLFE用の理想スピーカが２つであり、LFE用の再生スピーカが１つである場合には、各チャンネルのオーディオ信号が均等に分配される。

すなわち、LFE用の理想スピーカ１つに対して、LFE用の再生スピーカが２つである場合、理想スピーカのオーディオ信号が同じ再生ゲインでゲイン調整され、それぞれ２つの再生スピーカで再生される。また、LFE用の理想スピーカ２つに対して、LFE用の再生スピーカが１つである場合、理想スピーカのオーディオ信号が同じ再生ゲインで足し合わされて１つのオーディオ信号とされ、再生スピーカで再生される。

〈再生装置の構成例〉
続いて、以上において説明した再生装置の具体的な実施の形態について説明する。

再生装置は、例えば図５に示すように構成される。

図５に示す再生装置１１は、図示せぬデコーダ等からメタデータとオーディオ信号の供給を受けて、メタデータに基づいてオーディオ信号のゲイン調整を行い、その結果得られたオーディオ信号をスピーカ１２−１乃至スピーカ１２−Ｎに供給する。

なお、図５では再生装置１１のうちのLFE用でないチャンネルのオーディオ信号を再生するための機能ブロックのみが図示されており、LFE用のチャンネルのオーディオ信号を再生するための機能ブロックの図示は省略されている。

また、図５では、LFE用でないＭ個の各理想スピーカに対応するＭチャンネルのオーディオ信号が供給され、それらのＭチャンネルのオーディオ信号がＮチャンネルのオーディオ信号に変換されて出力されるものとする。さらに、スピーカ１２−１乃至スピーカ１２−Ｎは、以上において説明したLFE用でない再生スピーカに対応する。

以下、スピーカ１２−１乃至スピーカ１２−Ｎを特に区別する必要のない場合、単にスピーカ１２とも称することとする。また、各スピーカ１２は、以上において説明した再生スピーカＲＳＰ１１に対応するスピーカであるので、スピーカ１２を再生スピーカ１２とも称することとする。

図５に示す再生装置１１には、距離計算部２１、再生ゲイン計算部２２、補正部２３、下限値補正部２４、全体ゲイン補正部２５、およびゲイン調整部２６が設けられている。また、ゲイン調整部２６は、増幅部３１、増幅部３２、および増幅部３３を備えている。

距離計算部２１には、メタデータに含まれているLFE用ではない各理想スピーカの位置情報と、各再生スピーカ１２の位置情報とが供給される。距離計算部２１は、理想スピーカの位置情報と再生スピーカ１２の位置情報に基づいて距離Dist(m,n)を算出し、再生ゲイン計算部２２に供給する。

ここで、各スピーカの位置情報とは水平方向角度θ、垂直方向角度γ、および距離ｒからなる情報である。

また、距離計算部２１は、必要に応じて理想スピーカ側の補正値SoundPressureCorrection_imおよび遅延時間Delay_imを算出して増幅部３１に供給するとともに、再生スピーカ１２側の補正値SoundPressureCorrection_onおよび遅延時間Delay_onを算出して増幅部３３に供給する。つまり、距離計算部２１では処理ＳＴＥ１が行なわれる。

再生ゲイン計算部２２には、メタデータに含まれているカーブ情報とカーブインデックスが供給され、再生ゲイン計算部２２は、カーブ情報やカーブインデックスと、距離計算部２１から供給された距離とを用いて再生ゲインMixGain(m,n)を算出し、補正部２３に供給する。すなわち、再生ゲイン計算部２２では処理ＳＴＥ２が行なわれる。

補正部２３には、再生スピーカ１２の位置情報と、メタデータに含まれている、再生スピーカ１２の配置位置に応じた再生ゲインの補正が必要か否かを示す情報、および補正係数Max_spkr_pos_correction_coeffcientとが供給される。

補正部２３は、これらの供給された情報に基づいて、再生ゲイン計算部２２から供給された再生ゲインに対して再生スピーカ１２の配置位置に応じた補正を行い、その結果得られた再生ゲインMixGain_pos_corr(m,n)を下限値補正部２４に供給する。すなわち、補正部２３では処理ＳＴＥ３が行なわれる。

下限値補正部２４には、メタデータに含まれている、再生ゲインの下限値MixGain_MinThreが供給される。下限値補正部２４は、下限値MixGain_MinThreに基づいて補正部２３から供給された再生ゲインの補正を行い、全体ゲイン補正部２５に供給する。すなわち、下限値補正部２４では、処理ＳＴＥ４が行なわれる。

全体ゲイン補正部２５には、メタデータに含まれている理想スピーカの各チャンネル間の相対音圧の期待値SPR_i(m)が供給される。全体ゲイン補正部２５は、期待値SPR_i(m)に基づいて、下限値補正部２４から供給された再生ゲインの補正を行い、その結果得られた最終的な再生ゲインを増幅部３２に供給する。全体ゲイン補正部２５では、処理ＳＴＥ５が行なわれる。

ゲイン調整部２６は、図示せぬデコーダから供給されたＭ個の理想スピーカのオーディオ信号に対してゲイン調整を行なってＮチャンネルのオーディオ信号を生成し、各チャンネルのオーディオ信号を再生スピーカ１２に供給して音声を再生させる。ゲイン調整部２６では、処理ＳＴＥ６が行なわれる。

すなわち、増幅部３１は、距離計算部２１から供給された補正値および遅延時間に基づいて、供給されたＭチャンネルのオーディオ信号に対して、適宜、ゲイン補正および遅延処理を施して増幅部３２に供給する。

増幅部３２は、増幅部３１から供給されたＭチャンネルのオーディオ信号に、全体ゲイン補正部２５から供給された再生ゲインを乗算する。また、増幅部３２は、再生ゲインが乗算された各理想スピーカのオーディオ信号を加算することでＮチャンネルのオーディオ信号を生成し、増幅部３３に供給する。

増幅部３３は、距離計算部２１から供給された補正値および遅延時間に基づいて、増幅部３２から供給されたＮチャンネルのオーディオ信号に対して、適宜、ゲイン補正および遅延処理を施して再生スピーカ１２に供給する。

〈ダウンミックス処理の説明〉
続いて、再生装置１１の動作について説明する。

再生装置１１に各理想スピーカのオーディオ信号とメタデータが供給されると、再生装置１１は、LFE用のオーディオ信号と、LFE用ではないオーディオ信号とに対してそれぞれ再生スピーカに供給するオーディオ信号を生成し、出力する。

以下、図６のフローチャートを参照して、再生装置１１がLFE用ではないオーディオ信号に対して行なうダウンミックス処理について説明する。

ステップＳ１１において、距離計算部２１は、メタデータに含まれているLFE用でない理想スピーカの位置情報と、LFE用でない再生スピーカ１２の位置情報に基づいて、理想スピーカと再生スピーカ１２の距離Dist(m,n)を求め、再生ゲイン計算部２２に供給する。具体的には、理想スピーカと再生スピーカ１２の組み合わせごとに式（１）の計算が行なわれ、Ｍ×Ｎ個の距離Dist(m,n)が求められる。

ステップＳ１２において、距離計算部２１は必要に応じて、理想スピーカ側と再生スピーカ１２側の補正値および遅延時間を求める。

具体的には距離計算部２１は、距離ｒ_ｉｍ≠ｒ_ｕである理想スピーカについて、理想スピーカの位置情報としての距離ｒ_ｉｍに基づいて式（２）および式（３）の計算を行い、補正値SoundPressureCorrection_imおよび遅延時間Delay_imを算出して増幅部３１に供給する。

また、距離計算部２１は、距離ｒ_ｏｎ≠ｒ_ｕである再生スピーカについて、再生スピーカ１２の位置情報としての距離ｒ_ｏｎに基づいて式（４）および式（５）の計算を行い、補正値SoundPressureCorrection_onおよび遅延時間Delay_onを算出して増幅部３３に供給する。

ステップＳ１３において、再生ゲイン計算部２２は、距離計算部２１から供給された距離Dist(m,n)に基づいて、理想スピーカごとに各再生スピーカ１２の再生ゲインを求める。

例えば、再生ゲイン計算部２２は、理想スピーカと再生スピーカ１２との距離Dist(m,n)が「０」となる再生スピーカ１２が存在する理想スピーカについては、式（６）の計算を行なって、その理想スピーカについての各再生スピーカ１２の再生ゲインMixGain(m,n)を算出する。

また、再生ゲイン計算部２２は、距離Dist(m,n)＝０となる再生スピーカ１２が存在しない理想スピーカについては、メタデータに含まれているカーブ情報に示されるカーブ、すなわち折れ線カーブまたは関数カーブを得る。このとき、再生ゲイン計算部２２は、カーブインデックスを参照し、必要に応じてメタデータから折れ線カーブまたは関数カーブを読み出す。

再生ゲイン計算部２２は、折れ線カーブまたは関数カーブが得られると、得られたカーブに基づいて距離Dist(m,n)に対応するゲイン値を求め、求めたゲイン値を理想スピーカの再生スピーカ１２についての再生ゲインMixGain(m,n)とする。このとき、必要に応じて式（７）や式（９）の計算が行なわれる。

再生ゲイン計算部２２は、各理想スピーカについて、再生スピーカ１２ごとの再生ゲインMixGain(m,n)が得られると、再生ゲインMixGain(m,n)を補正部２３に供給する。

ステップＳ１４において、補正部２３は、メタデータに含まれている再生ゲインの補正が必要か否かを示す情報に基づいて、必要に応じて再生ゲイン計算部２２から供給された再生ゲインを再生スピーカ１２の配置位置に応じて補正し、下限値補正部２４に供給する。

具体的には、補正部２３は、各再生スピーカ１２の位置情報と、メタデータに含まれている補正係数Max_spkr_pos_correction_coeffcientとを用いて、式（１１）および式（１２）を計算することで、再生ゲインMixGain_pos_corr(m,n)を算出する。

ステップＳ１５において、下限値補正部２４は必要に応じて、メタデータに含まれている下限値MixGain_MinThreに基づいて、補正部２３から供給された再生ゲインを補正し、全体ゲイン補正部２５に供給する。具体的には、必要に応じて式（１３）が計算され、再生ゲインMixGain_pos_corr(m,n)に補正値MinGain_correctioni(m)が加算される。

ステップＳ１６において、全体ゲイン補正部２５は出力音声全体の音圧補正を行なう。

すなわち、全体ゲイン補正部２５は、メタデータに含まれている期待値SPR_i(m)と、下限値補正部２４から供給された再生ゲインMixGain_pos_corr(m,n)とに基づいて、入力音声と出力音声の全体のパワー値の比（pow_o／pow_i）を算出する。そして、全体ゲイン補正部２５は、パワー値の比（pow_o／pow_i）を、再生ゲインMixGain_pos_corr(m,n)に乗算して最終的な再生ゲインとし、増幅部３２に供給する。

ステップＳ１７において、増幅部３１は、距離計算部２１から供給された理想スピーカ側の補正値および遅延値に基づいて、オーディオ信号のゲイン調整を行なう。

具体的には増幅部３１は、補正値と遅延値が供給されたチャンネルｍのオーディオ信号について、オーディオ信号に補正値SoundPressureCorrection_imを乗算し、その結果得られたオーディオ信号を遅延時間Delay_imだけ時間方向に遅延させて増幅部３２に供給する。

ステップＳ１８において、増幅部３２は、全体ゲイン補正部２５から供給された再生ゲインと、増幅部３１から供給されたオーディオ信号とに基づいて、各再生スピーカ１２のオーディオ信号を生成し、増幅部３３に供給する。

具体的には、増幅部３２は、再生スピーカ１２に対応するＮ個のチャンネルのうちの１つを注目チャンネルｎｃとすると、注目チャンネルｎｃについての各理想スピーカの再生ゲインを、それらの理想スピーカのオーディオ信号に乗算する。そして、増幅部３２は、再生ゲインが乗算された各理想スピーカのオーディオ信号、つまりＭ個のオーディオ信号を足し合わせて得られる１つのオーディオ信号を、注目チャンネルｎｃのオーディオ信号とする。Ｎ個の各チャンネルを注目チャンネルとして同様の処理を行なうことで、Ｍ個の各理想スピーカのオーディオ信号が、Ｎ個の各再生スピーカ１２のオーディオ信号へと変換される。

ステップＳ１９において、増幅部３３は、距離計算部２１から供給された再生スピーカ１２側の補正値および遅延値に基づいて、増幅部３２から供給されたオーディオ信号のゲイン調整を行なう。

具体的には増幅部３３は、補正値と遅延値が供給されたチャンネルｎのオーディオ信号について、オーディオ信号に補正値SoundPressureCorrection_onを乗算し、その結果得られたオーディオ信号を遅延時間Delay_onだけ時間方向に遅延させて再生スピーカ１２に供給する。

各チャンネルのオーディオ信号が再生スピーカ１２に出力されると、ダウンミックス処理は終了する。また、再生スピーカ１２では、再生装置１１から供給されたオーディオ信号に基づいて音声が再生される。

以上のようにして、再生装置１１は、理想スピーカの位置と実際の再生スピーカ１２の配置位置との距離に応じてオーディオ信号のゲイン調整（ゲイン補正）を行なう。これにより、理想スピーカと再生スピーカ１２との位置にずれがある場合であっても、出力音声の音質と音像定義の劣化を抑制することができ、より臨場感のあるオーディオ再生を行なうことができる。

以上において説明した処理によって、入力された任意の１以上のチャンネルのオーディオ信号を、１以上の任意の個数の任意の位置に配置された再生スピーカで再生することができるようになる。また、入力される各チャンネルのオーディオ信号が各オブジェクトを音源とするオーディオ信号である場合であっても、同様のダウンミックス処理により、正しい音像位置でのオーディオ再生を行なうことができる。

〈エンコーダとデコーダについて〉
次に、再生装置１１に供給されるメタデータを符号化するエンコーダと、符号化されたメタデータを復号するデコーダについて説明する。

例えば図７に示すように、本技術を適用したオーディオシステムでは、エンコーダ６１からデコーダ６２にメタデータが供給され、さらにデコーダ６２から再生装置１１へとメタデータが供給される。

エンコーダ６１は、外部からメタデータを得るために必要な情報と、Ｍ個の各理想スピーカのオーディオ信号とを取得して、符号化されたメタデータとオーディオ信号とからなるビットストリームを生成する。

エンコーダ６１は、メタデータ生成部７１、オーディオ信号符号化部７２、および出力部７３を備えている。

メタデータ生成部７１は、外部から必要な情報を取得するとともに、取得した情報を必要に応じて符号化し、符号化されたメタデータを生成する。

例えば、メタデータには、各理想スピーカの位置情報、理想スピーカのうちのLFE用の理想スピーカの数（チャンネル数）、およびカーブ情報、カーブインデックスが含まれている。また、メタデータには、再生スピーカ１２の配置位置に応じた再生ゲインの補正が必要か否かを示す情報、再生スピーカ１２の配置による補正係数Max_spkr_pos_correction_coeffcient、ゲインの下限値MixGain_MinThre、およびチャンネル間の相対音圧の期待値SPR_i(m)も含まれている。

オーディオ信号符号化部７２は、外部から供給されたオーディオ信号を符号化する。出力部７３は、符号化されたメタデータと、符号化されたオーディオ信号とが含まれるビットストリームを生成し、デコーダ６２に出力する。

また、デコーダ６２は、抽出部８１、オーディオ信号復号部８２、および出力部８３を備えている。デコーダ６２は、エンコーダ６１から送信されてきたビットストリームを受信し、抽出部８１は、受信されたビットストリームからメタデータとオーディオ信号を抽出する。このとき、抽出部８１は必要に応じてメタデータの復号を行なう。

オーディオ信号復号部８２は、抽出部８１により抽出されたオーディオ信号を復号する。出力部８３は、抽出部８１により抽出されたメタデータと、オーディオ信号復号部８２により復号されたオーディオ信号とを再生装置１１に供給する。

さらに、エンコーダ６１からデコーダ６２に出力されるビットストリームに記述されるメタデータの一部は、例えば図８に示すようになる。すなわち、図８はメタデータの一部のシンタックスを示している。

図８の例では、ヘッダの先頭には、ダウンミックスに必要な情報がメタデータに含まれているか否かを示す情報として「down mix coef exist flag」が配置されている。

また、メタデータにはカーブ情報として「down mix coef mode」が配置されており、その下には、カーブインデックスとしての「polyline curve idx」または「function curve idx」が配置される。

「polyline curve idx」は、折れ線カーブを示しており、この値が２進数「111」である場合には、新たな折れ線カーブであることを示している。この場合、新たな折れ線カーブを得るための情報として「polyline curve coeffcient[j]」が記述されている。

新たな折れ線カーブを得るための情報は、例えば図２に示した折れ線ＣＶ１１上の四角形の各点（以下、記述点と称する）、つまり数列を構成する各値を特定する情報とされる。

具体的には、例えば再生ゲイン軸（縦軸）が１６分割されるとし、１６本の分割線が定義される。各記述点は、縦軸の各分割線上に順次配置されるとする。

メタデータ内では、記述点が「０」で表され、各記述点がどの分割線上に配置されるかを示す情報は「１」で表されることとする。

図２中、左から順番に記述点を記述することとし、まず、左から１番目の記述点が上から何本下の分割線上に位置するかを示す情報が「１」の数で記述され、その後、記述点を表す「０」が記述される。ここでは、左から１番目の記述点は最上位の分割線上に位置するため、記述点を表す「０」だけが記述される。

また、それ以降においては、その記述点が、直前の記述点が位置する分割線からＱ本下の分割線上に位置することを示す情報がＱ個の「１」で記述され、その後に記述点を表す「０」が記述される。

例えば、左から３番目の記述点は２番目の記述点より２本下の分割線上に位置するため、２個の「１」が記述され、その後、１個の「０」が記述される。また、左から１０番目の記述点は９番目の記述点と同じ分割線上に位置する、すなわち０本下の分割線上に位置するので、「１」が記述されず、１個の「０」だけが記述される。

上記の方法により記述が行なわれ、全ての記述点の記述が完了した場合、１個の「１」が記述され、折れ線カーブの情報の記述が終了したことが表される。但し、記述点の数が多く、合わせて６４個の「１」と「０」を用いても記述しきれない場合には、「１」と「０」の数が６４に達するまで記述が行なわれ、その後は記述終了とされる。

したがって、折れ線カーブを得るための情報をメタデータから読み出す場合には、１６個の「１」、または合計で６４個の「１」と「０」（すなわち、「１」と「０」が合計で６４個）が読み出されるまで、順番に各記述点を得るための情報が読み出され、折れ線カーブが生成される。

また、「function curve idx」は、関数カーブを示しており、この値が２進数の「111」である場合には、新たな関数カーブであることを示している。この場合、新たな関数カーブの係数として「function_curve_coeffcient[i]」が記述されている。

また、メタデータに記述されている「minimun_gain_threshold_idx」は、ゲインの下限値MixGain_MinThreを示すインデックスである。さらに、メタデータに記述されている「gain_correction_coeffcient」は再生スピーカ１２の配置位置に応じた再生ゲインの補正に必要な補正係数Max_spkr_pos_correction_coeffcientである。ここで、Max_spkr_pos_correction_coeffcientの値が「１」である場合には、再生スピーカ１２の配置位置に応じた再生ゲインの補正は必要ないことを示していることになる。

さらに、メタデータには、チャンネル間の相対音圧の期待値SPR_i(m)がメタデータ内に記述されているか否かを示す情報である「sound_level_exist_flag」が記述されており、この「sound_level_exist_flag」の値に応じて「channel sound level[i]」が記述される。「channel sound level[i]」は、期待値SPR_i(m)である。

〈符号化処理の説明〉
さらに、エンコーダ６１とデコーダ６２の動作について説明する。

まず、図９のフローチャートを参照して、エンコーダ６１による符号化処理について説明する。

ステップＳ４１において、メタデータ生成部７１は、外部から必要な情報を取得するとともに、取得した情報の符号化を行なうことで、符号化されたメタデータを生成する。例えば、メタデータ生成部７１は、図８に示したシンタックスに対応するメタデータを生成する。

ステップＳ４２において、オーディオ信号符号化部７２は、外部から供給されたオーディオ信号を符号化する。

ステップＳ４３において、出力部７３は、符号化されたメタデータと、符号化されたオーディオ信号とが含まれるビットストリームを生成し、デコーダ６２に出力する。そして、ビットストリームが出力されると、符号化処理は終了する。

以上のようにしてエンコーダ６１は、理想スピーカの位置情報や、カーブ情報などが含まれるメタデータを生成し、出力する。このように理想スピーカの位置情報やカーブ情報などからなる情報をメタデータとして生成することで、再生装置１１において、理想スピーカの位置と実際の再生スピーカ１２の配置位置との距離に応じたゲイン補正など、適切なゲイン補正を行なうことができるようになる。その結果、より臨場感のあるオーディオ再生を行なうことができる。

〈復号処理の説明〉
続いて、図１０のフローチャートを参照して、デコーダ６２により行なわれる復号処理について説明する。

ステップＳ７１において、デコーダ６２はエンコーダ６１から送信されてきたビットストリームを受信し、抽出部８１は、受信されたビットストリームからメタデータとオーディオ信号を抽出する。また、抽出部８１は、メタデータの復号も行なう。

ステップＳ７２において、オーディオ信号復号部８２は、抽出部８１により抽出されたオーディオ信号を復号する。

ステップＳ７３において、出力部８３は、復号されたメタデータと、復号されたオーディオ信号とを再生装置１１に出力し、復号処理は終了する。

以上のようにしてデコーダ６２は、メタデータとオーディオ信号を復号し、理想スピーカの位置情報や、カーブ情報などが含まれるメタデータとオーディオ信号を再生装置１１に出力する。このように理想スピーカの位置情報やカーブ情報などからなる情報をメタデータとして出力することで、再生装置１１において、理想スピーカの位置と実際の再生スピーカ１２の配置位置との距離に応じたゲイン補正など、適切なゲイン補正を行なうことができるようになる。その結果、より臨場感のあるオーディオ再生を行なうことができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

図１１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、ＣＰＵ５０１，ＲＯＭ５０２，ＲＡＭ５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

［１］
オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離を計算する距離計算部と、
前記距離に基づいて前記オーディオ信号の再生ゲインを計算するゲイン計算部と、
前記再生ゲインに基づいて前記オーディオ信号のゲイン調整を行なうゲイン調整部と
を備えるオーディオ信号出力装置。
［２］
前記ゲイン計算部は、各前記距離に対する前記再生ゲインを得るためのカーブ情報に基づいて、前記再生ゲインを計算する
［１］に記載のオーディオ信号出力装置。
［３］
前記カーブ情報は、折れ線カーブまたは関数カーブを示す情報である
［２］に記載のオーディオ信号出力装置。
［４］
前記ゲイン調整部は、前記理想的なスピーカが所定の基準点を中心とする単位円上にない場合、前記基準点から前記理想的なスピーカまでの距離と前記単位円の半径とに基づいて定められたゲインにより前記オーディオ信号のゲイン調整をさらに行う
［１］または［２］に記載のオーディオ信号出力装置。
［５］
前記ゲイン調整部は、前記基準点から前記理想的なスピーカまでの距離と前記単位円の半径とに基づいて定められた遅延時間に基づいて前記オーディオ信号を遅延させる
［４］に記載のオーディオ信号出力装置。
［６］
前記ゲイン調整部は、前記実際のスピーカが所定の基準点を中心とする単位円上にない場合、前記基準点から前記実際のスピーカまでの距離と前記単位円の半径とに基づいて定められたゲインにより前記オーディオ信号のゲイン調整をさらに行う
［１］または［２］に記載のオーディオ信号出力装置。
［７］
前記ゲイン調整部は、前記基準点から前記実際のスピーカまでの距離と前記単位円の半径とに基づいて定められた遅延時間に基づいて前記オーディオ信号を遅延させる
［６］に記載のオーディオ信号出力装置。
［８］
理想的なセンタースピーカの位置と、前記実際のスピーカの位置との距離に基づいて、前記再生ゲインを補正するゲイン補正部をさらに備える
［１］乃至［７］の何れかに記載のオーディオ信号出力装置。
［９］
前記再生ゲインが予め定められた下限値よりも小さい場合、前記再生ゲインを補正する下限値補正部をさらに備える
［１］乃至［８］の何れかに記載のオーディオ信号出力装置。
［１０］
入力された前記オーディオ信号に基づく入力音声の音圧の期待値、および前記再生ゲインに基づいて、前記再生ゲインによりゲイン調整された前記オーディオ信号に基づく出力音声の全体のパワーと、前記入力音声の全体のパワーとの比を算出し、前記比に基づいて前記再生ゲインを補正する全体ゲイン補正部をさらに備える
［１］乃至［９］の何れかに記載のオーディオ信号出力装置。
［１１］
オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離を計算し、
前記距離に基づいて前記オーディオ信号の再生ゲインを計算し、
前記再生ゲインに基づいて前記オーディオ信号のゲイン調整を行なう
ステップを含むオーディオ信号出力方法。
［１２］
オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離を計算し、
前記距離に基づいて前記オーディオ信号の再生ゲインを計算し、
前記再生ゲインに基づいて前記オーディオ信号のゲイン調整を行なう
ステップを含む処理をコンピュータに実行させるプログラム。
［１３］
オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離に応じて前記オーディオ信号のゲインを補正するための補正情報を生成する補正情報生成部と、
前記オーディオ信号を符号化する符号化部と、
前記補正情報および符号化された前記オーディオ信号を含むビットストリームを出力する出力部と
を備える符号化装置。
［１４］
オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離に応じて前記オーディオ信号のゲインを補正するための補正情報を生成し、
前記オーディオ信号を符号化し、
前記補正情報および符号化された前記オーディオ信号を含むビットストリームを出力する
ステップを含む符号化方法。
［１５］
オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離に応じて前記オーディオ信号のゲインを補正するための補正情報、および符号化された前記オーディオ信号をビットストリームから抽出する抽出部と、
前記符号化された前記オーディオ信号を復号する復号部と、
復号された前記オーディオ信号および前記補正情報を出力する出力部と
を備える復号装置。
［１６］
前記補正情報は、前記理想的なスピーカの位置情報である
［１５］に記載の復号装置。
［１７］
前記補正情報は、各前記距離に対するゲインを得るためのカーブ情報である
［１５］または［１６］に記載の復号装置。
［１８］
前記カーブ情報は、折れ線カーブまたは関数カーブを示す情報である
［１７］に記載の復号装置。
［１９］
オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離に応じて前記オーディオ信号のゲインを補正するための補正情報、および符号化された前記オーディオ信号をビットストリームから抽出し、
前記符号化された前記オーディオ信号を復号し、
復号された前記オーディオ信号および前記補正情報を出力する
ステップを含む復号方法。

１１再生装置，２１距離計算部，２２再生ゲイン計算部，２３補正部，２４下限値補正部，２５全体ゲイン補正部，２６ゲイン調整部，６１エンコーダ，６２デコーダ，７１メタデータ生成部，７２オーディオ信号符号化部，７３出力部，８１抽出部，８２オーディオ信号復号部，８３出力部

Claims

オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離を計算する距離計算部と、
前記距離に基づいて前記オーディオ信号の再生ゲインを計算するゲイン計算部と、
入力された前記オーディオ信号に基づく入力音声の音圧の期待値、および前記再生ゲインに基づいて、前記再生ゲインによりゲイン調整された前記オーディオ信号に基づく出力音声の全体のパワーと、前記入力音声の全体のパワーとの比を算出し、前記比に基づいて前記再生ゲインを補正する全体ゲイン補正部と、
補正された前記再生ゲインに基づいて前記オーディオ信号のゲイン調整を行なうゲイン調整部と
を備えるオーディオ信号出力装置。
前記ゲイン計算部は、各前記距離に対する前記再生ゲインを得るためのカーブ情報に基づいて、前記再生ゲインを計算する
請求項１に記載のオーディオ信号出力装置。
前記カーブ情報は、折れ線カーブまたは関数カーブを示す情報である
請求項２に記載のオーディオ信号出力装置。
前記ゲイン調整部は、前記理想的なスピーカが所定の基準点を中心とする単位円上にない場合、前記基準点から前記理想的なスピーカまでの距離と前記単位円の半径とに基づいて定められたゲインにより前記オーディオ信号のゲイン調整をさらに行う
請求項１または請求項２に記載のオーディオ信号出力装置。
前記ゲイン調整部は、前記基準点から前記理想的なスピーカまでの距離と前記単位円の半径とに基づいて定められた遅延時間に基づいて前記オーディオ信号を遅延させる
請求項４に記載のオーディオ信号出力装置。
前記ゲイン調整部は、前記実際のスピーカが所定の基準点を中心とする単位円上にない場合、前記基準点から前記実際のスピーカまでの距離と前記単位円の半径とに基づいて定められたゲインにより前記オーディオ信号のゲイン調整をさらに行う
請求項１または請求項２に記載のオーディオ信号出力装置。
前記ゲイン調整部は、前記基準点から前記実際のスピーカまでの距離と前記単位円の半径とに基づいて定められた遅延時間に基づいて前記オーディオ信号を遅延させる
請求項６に記載のオーディオ信号出力装置。
理想的なセンタースピーカの位置と、前記実際のスピーカの位置との距離に基づいて、前記再生ゲインを補正するゲイン補正部をさらに備える
請求項１乃至請求項７の何れか一項に記載のオーディオ信号出力装置。
前記再生ゲインが予め定められた下限値よりも小さい場合、前記再生ゲインを補正する下限値補正部をさらに備える
請求項１乃至請求項８の何れか一項に記載のオーディオ信号出力装置。
オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離を計算し、
前記距離に基づいて前記オーディオ信号の再生ゲインを計算し、
入力された前記オーディオ信号に基づく入力音声の音圧の期待値、および前記再生ゲインに基づいて、前記再生ゲインによりゲイン調整された前記オーディオ信号に基づく出力音声の全体のパワーと、前記入力音声の全体のパワーとの比を算出し、前記比に基づいて前記再生ゲインを補正し、
補正された前記再生ゲインに基づいて前記オーディオ信号のゲイン調整を行なう
ステップを含むオーディオ信号出力方法。
オーディオ信号を再生する理想的なスピーカの位置と、前記オーディオ信号を再生する実際のスピーカの位置との距離を計算し、
前記距離に基づいて前記オーディオ信号の再生ゲインを計算し、
入力された前記オーディオ信号に基づく入力音声の音圧の期待値、および前記再生ゲインに基づいて、前記再生ゲインによりゲイン調整された前記オーディオ信号に基づく出力音声の全体のパワーと、前記入力音声の全体のパワーとの比を算出し、前記比に基づいて前記再生ゲインを補正し、
補正された前記再生ゲインに基づいて前記オーディオ信号のゲイン調整を行なう
ステップを含む処理をコンピュータに実行させるプログラム。