JP6669289B2

JP6669289B2 - 音声処理装置および方法、並びにプログラム

Info

Publication number: JP6669289B2
Application number: JP2019026451A
Authority: JP
Inventors: 優樹山本; 徹知念; 潤宇史; 光行畠中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-04-26
Filing date: 2019-02-18
Publication date: 2020-03-18
Anticipated expiration: 2034-04-11
Also published as: BR112015026504A2; BR112015026504B1; EP2991384A4; EP3860155B1; EP4329338A2; JP2024075689A; EP3860155A1; JP6515802B2; KR20220070342A; JP2020099093A; TW201507493A; KR20230163585A; EP2991384B1; CN105144753B; RU2018131347A3; US10225677B2; KR20160003658A; RU2667377C2; JP2022160599A; EP4329338A3

Description

本技術は、音声処理装置および方法、並びにプログラムに関し、特に、音像の定位をより安定させることができるようにした音声処理装置および方法、並びにプログラムに関する。

従来、複数のスピーカを用いて音像の定位を制御する技術として、VBAP（Vector Base Amplitude Pannning）が知られている（例えば、非特許文献１参照）。

VBAPでは、目標となる音像の定位位置が、その定位位置の周囲にある２つまたは３つのスピーカの方向を向くベクトルの線形和で表現される。そして、その線形和において各ベクトルに乗算されている係数が、各スピーカから出力される音声のゲインとして用いられてゲイン調整が行なわれ、目標となる位置に音像が定位するようになされる。

Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997

しかしながら、上述した技術では、目標とする位置に音像を定位させることはできるが、その定位位置によっては、音像の定位が不安定となってしまうことがあった。

例えば、３つのスピーカを用いてVBAPを行なう３次元VBAPでは、目標とする音像の定位位置によっては、３つのスピーカのうち、２つのスピーカのみから音声が出力され、残りの１つのスピーカからは音声が出力されないように制御される場合がある。

そのような場合、音声を聴いているときにユーザが移動すると、その移動方向とは異なる方向に音像が移動し、音像の定位が不安定であると知覚されてしまうことがある。このように音像の定位が不安定となると、最適な視聴位置であるスイートスポットの範囲が狭くなってしまう。

本技術は、このような状況に鑑みてなされたものであり、音像の定位をより安定させることができるようにするものである。

本技術の一側面の音声処理装置は、目標とする音像定位位置近傍に位置する４個の音声出力部の位置に基づいて、仮想的な音声出力部の位置を決定する位置決定部と、前記４個の音声出力部のうちの２つの前記音声出力部と、前記仮想的な音声出力部とに関して、３次元VBAPを行うことにより、前記仮想的な音声出力部のゲインを計算するゲイン算出部と、前記仮想的な音声出力部の前記ゲインに基づいて、少なくとも２つの前記音声出力部から出力させる音声のゲイン調整を行うゲイン調整部とを備える。

本技術の一側面の音声処理方法またはプログラムは、目標とする音像定位位置近傍に位置する４個の音声出力部の位置に基づいて、仮想的な音声出力部の位置を決定し、前記４個の音声出力部のうちの２つの前記音声出力部と、前記仮想的な音声出力部とに関して、３次元VBAPを行うことにより、前記仮想的な音声出力部のゲインを計算し、前記仮想的な音声出力部の前記ゲインに基づいて、少なくとも２つの前記音声出力部から出力させる音声のゲイン調整を行うステップを含む。

本技術の一側面においては、目標とする音像定位位置近傍に位置する４個の音声出力部の位置に基づいて、仮想的な音声出力部の位置が決定され、前記４個の音声出力部のうちの２つの前記音声出力部と、前記仮想的な音声出力部とに関して、３次元VBAPを行うことにより、前記仮想的な音声出力部のゲインが計算され、前記仮想的な音声出力部の前記ゲインに基づいて、少なくとも２つの前記音声出力部から出力させる音声のゲイン調整が行われる。

本技術の一側面によれば、音像の定位をより安定させることができる。

２次元VBAPについて説明する図である。３次元VBAPについて説明する図である。スピーカ配置について説明する図である。４つのスピーカが配置されている場合におけるゲイン算出方法について説明する図である。音像の移動について説明する図である。本技術を適用した場合における音像の移動について説明する図である。本技術によるゲインの算出について説明する図である。本技術によるゲインの算出について説明する図である。音声処理装置の構成例を示す図である。ゲイン算出部の構成例を示す図である。音像定位制御処理を説明するフローチャートである。スピーカのゲインの他の算出方法について説明する図である。ゲイン算出部の他の構成例を示す図である。音像定位制御処理を説明するフローチャートである。スピーカのゲインの算出方法について説明する図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術の概要について〉
まず、図１乃至図８を参照して、本技術の概要について説明する。なお、図１乃至図８において、対応する部分には同一の符号を付してあり、その説明は適宜省略する。

例えば、図１に示すように、音声付の動画像や楽曲などのコンテンツを視聴するユーザＵ１１が、２つのスピーカＳＰ１およびスピーカＳＰ２から出力される２チャンネルの音声をコンテンツの音声として聴いているとする。

このような場合に、各チャンネルの音声を出力する２つのスピーカＳＰ１とスピーカＳＰ２の位置情報を用いて、仮想音源ＶＳＰ１の位置に音像を定位させることを考える。

例えば、ユーザＵ１１の頭部の位置を原点Ｏとし、図中、縦方向および横方向をｘ軸方向およびｙ軸方向とする２次元座標系における仮想音源ＶＳＰ１の位置を、原点Ｏを始点とするベクトルＰにより表すこととする。

ベクトルＰは２次元のベクトルであるため、原点Ｏを始点とし、それぞれスピーカＳＰ１およびスピーカＳＰ２の位置の方向を向くベクトルＬ₁およびベクトルＬ₂の線形和によってベクトルＰを表すことができる。すなわち、ベクトルＰは、ベクトルＬ₁およびベクトルＬ₂を用いて次式（１）により表すことができる。

式（１）においてベクトルＬ₁およびベクトルＬ₂に乗算されている係数ｇ₁および係数ｇ₂を算出し、これらの係数ｇ₁および係数ｇ₂を、スピーカＳＰ１およびスピーカＳＰ２のそれぞれから出力する音声のゲインとすれば、仮想音源ＶＳＰ１の位置に音像を定位させることができる。すなわち、ベクトルＰにより示される位置に音像を定位させることができる。

このようにして、２つのスピーカＳＰ１とスピーカＳＰ２の位置情報を用いて係数ｇ₁および係数ｇ₂を求め、音像の定位位置を制御する手法は、２次元VBAPと呼ばれている。

図１の例では、スピーカＳＰ１とスピーカＳＰ２を結ぶ円弧ＡＲ１１上の任意の位置に音像を定位させることができる。ここで、円弧ＡＲ１１は、原点Ｏを中心とし、スピーカＳＰ１およびスピーカＳＰ２の各位置を通る円の一部分である。

なお、ベクトルＰは２次元ベクトルであるので、ベクトルＬ₁とベクトルＬ₂のなす角度が０度より大きく、１８０度未満である場合、ゲインとされる係数ｇ₁および係数ｇ₂は一意に求まる。これらの係数ｇ₁および係数ｇ₂の算出方法については、上述した非特許文献１に詳細に記載されている。

これに対して、３チャンネルの音声を再生しようとする場合には、例えば図２に示すように、音声を出力するスピーカの数は３つになる。

図２の例では、３つのスピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ３から各チャンネルの音声が出力される。

このような場合においても、スピーカＳＰ１乃至スピーカＳＰ３から出力される各チャンネルの音声のゲイン、つまりゲインとして求める係数が３つになるだけで、考え方は上述した２次元VBAPと同様である。

すなわち、仮想音源ＶＳＰ２の位置に音像を定位させようとする場合に、ユーザＵ１１の頭部の位置を原点Ｏとする３次元座標系において、仮想音源ＶＳＰ２の位置を、原点Ｏを始点とする３次元のベクトルＰにより表すこととする。

また、原点Ｏを始点とし、各スピーカＳＰ１乃至スピーカＳＰ３の位置の方向を向く３次元のベクトルをベクトルＬ₁乃至ベクトルＬ₃とすると、ベクトルＰは次式（２）に示すように、ベクトルＬ₁乃至ベクトルＬ₃の線形和によって表すことができる。

式（２）においてベクトルＬ₁乃至ベクトルＬ₃に乗算されている係数ｇ₁乃至係数ｇ₃を算出し、これらの係数ｇ₁乃至係数ｇ₃を、スピーカＳＰ１乃至スピーカＳＰ３のそれぞれから出力する音声のゲインとすれば、仮想音源ＶＳＰ２の位置に音像を定位させることができる。

このようにして、３つのスピーカＳＰ１乃至スピーカＳＰ３の位置情報を用いて係数ｇ₁乃至係数ｇ₃を求め、音像の定位位置を制御する手法は、３次元VBAPと呼ばれている。

図２の例では、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ３の位置を含む球面上の三角形の領域ＴＲ１１内の任意の位置に音像を定位させることができる。ここで、領域ＴＲ１１は、原点Ｏを中心とし、スピーカＳＰ１乃至スピーカＳＰ３の各位置を含む球の表面上の領域であって、スピーカＳＰ１乃至スピーカＳＰ３により囲まれる球面上の三角形の領域である。

このような３次元VBAPを用いれば、空間上の任意の位置に音像を定位させることができるようになる。

例えば図３に示すように、音声を出力させるスピーカの数を増やして、図２に示した三角形の領域ＴＲ１１に相当する領域を空間上に複数設ければ、それらの領域上の任意の位置に音像を定位させることができる。

図３に示す例では、５つのスピーカＳＰ１乃至スピーカＳＰ５が配置されており、それらのスピーカＳＰ１乃至スピーカＳＰ５から各チャンネルの音声が出力される。ここで、スピーカＳＰ１乃至スピーカＳＰ５は、ユーザＵ１１の頭部の位置にある原点Ｏを中心とする球面上に配置されている。

この場合、原点Ｏを始点とし、各スピーカＳＰ１乃至スピーカＳＰ５の位置の方向を向く３次元のベクトルをベクトルＬ₁乃至ベクトルＬ₅として、上述した式（２）を解く計算と同様の計算を行い、各スピーカから出力される音声のゲインを求めればよい。

ここで、原点Ｏを中心とする球面上の領域のうち、スピーカＳＰ１、スピーカＳＰ４、およびスピーカＳＰ５により囲まれる三角形の領域を領域ＴＲ２１とする。同様に、原点Ｏを中心とする球面上の領域のうち、スピーカＳＰ３、スピーカＳＰ４、およびスピーカＳＰ５により囲まれる三角形の領域を領域ＴＲ２２とし、スピーカＳＰ２、スピーカＳＰ３、およびスピーカＳＰ５により囲まれる三角形の領域を領域ＴＲ２３とする。

これらの領域ＴＲ２１乃至領域ＴＲ２３は、図２に示した領域ＴＲ１１に対応する領域である。いま、音像を定位させたい位置を示す３次元のベクトルをベクトルＰとすると、図３の例では、ベクトルＰは領域ＴＲ２１上の位置を示している。

そこで、この例ではスピーカＳＰ１、スピーカＳＰ４、およびスピーカＳＰ５の位置を示すベクトルＬ₁、ベクトルＬ₄、およびベクトルＬ₅が用いられて式（２）を解く計算と同様の計算が行なわれ、スピーカＳＰ１、スピーカＳＰ４、およびスピーカＳＰ５の各スピーカから出力される音声のゲインが算出される。また、この場合、他のスピーカＳＰ２およびスピーカＳＰ３から出力される音声のゲインは０とされる。つまり、これらのスピーカＳＰ２およびスピーカＳＰ３からは、音声は出力されない。

このように空間上に５つのスピーカＳＰ１乃至スピーカＳＰ５を配置すれば、領域ＴＲ２１乃至領域ＴＲ２３からなる領域上の任意の位置に音像を定位させることが可能となる。

ところで、図４に示すように空間上に４つのスピーカＳＰ１乃至スピーカＳＰ４が配置されており、それらのスピーカＳＰ１乃至スピーカＳＰ４の中心位置にある仮想音源ＶＳＰ３の位置に音像を定位させるとする。

図４の例では、スピーカＳＰ１乃至スピーカＳＰ４は、図示せぬ原点Ｏを中心とする球の表面に配置されており、その表面上の領域であって、スピーカＳＰ１乃至スピーカＳＰ３により囲まれる三角形の領域が領域ＴＲ３１となっている。また、原点Ｏを中心とする球の表面上の領域であって、スピーカＳＰ２乃至スピーカＳＰ４により囲まれる三角形の領域が領域ＴＲ３２となっている。

そして、仮想音源ＶＳＰ３は、領域ＴＲ３１の右下側の辺上に位置している。また、仮想音源ＶＳＰ３は、領域ＴＲ３２の左上側の辺上にも位置している。

したがって、この場合、スピーカＳＰ１乃至スピーカＳＰ３について３次元VBAPを行なうか、またはスピーカＳＰ２乃至スピーカＳＰ４について３次元VBAPを行なえばよいことになる。何れの場合にしても３次元VBAPの計算結果は同じとなり、２つのスピーカＳＰ２およびスピーカＳＰ３のみから音声が出力され、残りのスピーカＳＰ１およびスピーカＳＰ４からは音声が出力されないようなゲインが求まる。

３次元VBAPでは、音像を定位させようとする位置が、３つのスピーカを結ぶ球面上の三角形の領域の境界線上、つまり球面上の三角形の辺上にある場合、その辺の両端に位置する２つのスピーカからのみ音声が出力されることになる。

このように２つのスピーカＳＰ２およびスピーカＳＰ３のみから音声が出力される場合に、例えば図５に示すように、最適な視聴位置であるスイートスポットにいるユーザＵ１１が、矢印Ａ１１に示すように図中、左側に移動したとする。

すると、ユーザＵ１１の頭部はスピーカＳＰ３に近付くため、このスピーカＳＰ３から出力されている音声がより大きく聴こえるようになるので、ユーザＵ１１には、矢印Ａ１２に示すように仮想音源ＶＳＰ３、つまり音像が図中、左下に移動したように知覚される。

３次元VBAPでは、図５に示すように２つのスピーカのみから音声が出力される場合には、ユーザＵ１１がスイートスポットから少し移動するだけで、ユーザＵ１１の移動方向に対して垂直な方向に音像が移動してしまう。そのような場合、ユーザＵ１１は自身の移動方向とは異なる方向に音像が移動したように知覚されるので違和感が生じてしまう。つまり、ユーザＵ１１にとって音像の定位が不安定であると知覚されてしまい、スイートスポットの範囲が狭くなってしまう。

そこで、本技術では、上述したVBAPとは異なり、３つより多い数のスピーカ、つまり４以上のスピーカから音声を出力させることにより、音像の定位をより安定させ、これによりスイートスポットの範囲がより広くなるようにする。

なお、音声を出力させるスピーカの数は４以上であればいくつでもよいが、以下では４つのスピーカから音声を出力させる場合を例として説明を続ける。

例えば図４に示した例と同様に、４つのスピーカＳＰ１乃至スピーカＳＰ４の中心位置にある仮想音源ＶＳＰ３の位置に音像を定位させるとする。

そのような場合、本技術では２つまたは３つのスピーカが選択されて１つの組み合わせとされ、互いに異なる複数の組み合わせについてVBAPが行なわれて、４つのスピーカＳＰ１乃至スピーカＳＰ４から出力される音声のゲインが算出される。

したがって、本技術では、例えば図６に示すように４つの全てのスピーカＳＰ１乃至スピーカＳＰ４から音声が出力されることになる。

そのような場合には図６中、矢印Ａ２１に示すようにユーザＵ１１がスイートスポットから図中、左方向に移動しても仮想音源ＶＳＰ３の位置、つまり音像の定位位置は矢印Ａ２２に示すように図中、左方向に移動するだけである。すなわち、図５に示した例のように、音像が下方向、つまりユーザＵ１１の移動方向と垂直な方向に移動することはなく、ユーザＵ１１の移動方向と同じ方向にのみ移動する。

これは、ユーザＵ１１が左方向に移動すると、スピーカＳＰ３に近付くことになるが、そのスピーカＳＰ３の上側にはスピーカＳＰ１も位置しているからである。この場合、ユーザＵ１１の耳には、ユーザＵ１１から見て左上側からも左下側からも音声が到達するので、音像が図中、下方向に移動したと知覚されにくくなる。

そのため、従来のVBAP手法と比較して、より音像の定位を安定させることができ、その結果、スイートスポットの範囲を拡大させることができる。

次に、本技術による音像定位の制御について、より具体的に説明する。

本技術では、音像を定位させようとする位置を示すベクトルを、３次元座標系の図示せぬ原点Ｏを始点とするベクトルＰとして、次式（３）によりベクトルＰを表現する。

なお、式（３）において、ベクトルＬ₁乃至ベクトルＬ₄は、音像の定位位置近傍にあり、その音像定位位置を囲むように配置されたスピーカＳＰ１乃至スピーカＳＰ４の位置の方向を向く３次元のベクトルを示している。また、ｇ₁乃至ｇ₄は、これから求めようとする、スピーカＳＰ１乃至スピーカＳＰ４から出力させる各チャンネルの音声のゲインとなる係数を示している。

式（３）においては、ベクトルＰが４つのベクトルＬ₁乃至ベクトルＬ₄の線形和によって表されている。ここで、ベクトルＰは３次元ベクトルであるため、４つの係数ｇ₁乃至係数ｇ₄は一意に求まらない。

そこで、本技術では、以下の方法により、ゲインとなる各係数ｇ₁乃至係数ｇ₄が算出される。

いま、図４に示した４つのスピーカＳＰ１乃至スピーカＳＰ４に囲まれる球面上の四角形の中心位置、つまり仮想音源ＶＳＰ３の位置に音像を定位させるとする。

ここでは、まず、スピーカＳＰ１乃至スピーカＳＰ４を頂点とする球面上の四角形の任意の１つの辺を選択し、その辺上に仮想的なスピーカ（以下、仮想スピーカと称する）があるものと仮定する。

例えば、図７に示すように、スピーカＳＰ１乃至スピーカＳＰ４を頂点とする球面上の四角形のうち、図中、左下と右下に位置するスピーカＳＰ３とスピーカＳＰ４を結ぶ辺が選択されたとする。そして、例えば仮想音源ＶＳＰ３の位置から、スピーカＳＰ３とスピーカＳＰ４を結ぶ辺におろした垂線の交点位置に、仮想スピーカＶＳＰ’があるものとされる。

続いて、この仮想スピーカＶＳＰ’と、図中、左上および右上にあるスピーカＳＰ１およびスピーカＳＰ２との合計３つのスピーカについて、３次元VBAPが行なわれる。すなわち、上述した式（２）と同様の式を解くことにより、スピーカＳＰ１、スピーカＳＰ２、および仮想スピーカＶＳＰ’のそれぞれから出力される音声のゲインとなる係数ｇ₁、係数ｇ₂、および係数ｇ’が求められる。

図７では、原点Ｏを始点とする３つのベクトル、すなわちスピーカＳＰ１の方向を向くベクトルＬ₁、スピーカＳＰ２の方向を向くベクトルＬ₂、および仮想スピーカＶＳＰ’の方向を向くベクトルＬ’の線形和によりベクトルＰが表される。すなわち、Ｐ＝ｇ₁Ｌ₁＋ｇ₂Ｌ₂＋ｇ’Ｌ’とされる。

ここで、仮想音源ＶＳＰ３の位置に音像を定位させるためには、仮想スピーカＶＳＰ’からゲインｇ’で音声が出力されねばならないが、仮想スピーカＶＳＰ’は実在しない。そこで、本技術では、図８に示すように仮想スピーカＶＳＰ’が位置する四角形の辺の両端に位置する２つのスピーカＳＰ３およびスピーカＳＰ４を用いて、仮想スピーカＶＳＰ’の位置に音像を定位させることにより、仮想スピーカＶＳＰ’が実現される。

具体的には、仮想スピーカＶＳＰ’が位置する球面上の辺の、その両端に位置する２つのスピーカＳＰ３およびスピーカＳＰ４について、２次元VBAPが行なわれる。すなわち、上述した式（１）と同様の式を解くことにより、スピーカＳＰ３およびスピーカＳＰ４のそれぞれから出力される音声のゲインとなる係数ｇ₃’および係数ｇ₄’が算出される。

図８の例では、仮想スピーカＶＳＰ’の方向を向くベクトルＬ’が、スピーカＳＰ３の方向を向くベクトルＬ₃、およびスピーカＳＰ４の方向を向くベクトルＬ₄の線形和により表される。つまり、Ｌ’＝ｇ₃’Ｌ₃＋ｇ₄’Ｌ₄とされる。

そして、求められた係数ｇ₃’に係数ｇ’を乗算して得られる値ｇ’ｇ₃’が、スピーカＳＰ３から出力させる音声のゲインとされ、係数ｇ₄’に係数ｇ’を乗算して得られる値ｇ’ｇ₄’が、スピーカＳＰ４から出力させる音声のゲインとされる。これにより、スピーカＳＰ３とスピーカＳＰ４によって、ゲインｇ’で音声を出力する仮想スピーカＶＳＰ’が実現されることになる。

なお、ここで、ゲイン値とされるｇ’ｇ₃’の値が、上述した式（３）における係数ｇ₃の値となり、ゲイン値とされるｇ’ｇ₄’の値が、上述した式（３）における係数ｇ₄の値となる。

以上のようにして得られた０ではない値ｇ₁、ｇ₂、ｇ’ｇ₃’、およびｇ’ｇ₄’を、スピーカＳＰ１乃至スピーカＳＰ４から出力される各チャンネルの音声のゲインとすれば、４つのスピーカから音声を出力させて、目標とする位置に音像を定位させることができる。

このように４つのスピーカから音声を出力させて音像を定位させれば、従来のVBAP手法で音像を定位させるよりも、音像の定位をより安定させることができ、これによりスイートスポットの範囲を拡大させることができる。

〈音声処理装置の構成例〉
次に、以上において説明した本技術を適用した具体的な実施の形態について説明する。図９は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。

音声処理装置１１は、外部から供給されたモノラルの音声信号に対してチャンネルごとのゲイン調整を行なうことで、Ｎチャンネル（但し、Ｎ≧５）の音声信号を生成し、Ｎ個の各チャンネルに対応するスピーカ１２−１乃至スピーカ１２−Ｎに音声信号を供給する。

スピーカ１２−１乃至スピーカ１２−Ｎは、音声処理装置１１から供給された音声信号に基づいて、各チャンネルの音声を出力する。すなわち、スピーカ１２−１乃至スピーカ１２−Ｎは、各チャンネルの音声を出力する音源となる音声出力部である。なお、以下、スピーカ１２−１乃至スピーカ１２−Ｎを特に区別する必要のない場合、単にスピーカ１２とも称することとする。なお、図９では、スピーカ１２が音声処理装置１１に含まれていない構成とされているが、スピーカ１２が音声処理装置１１に含まれるようにしてもよい。また、音声処理装置１１を構成する各部とスピーカ１２を、例えばいくつかの装置に分けて設ける等して、音声処理装置１１の各部とスピーカ１２からなる音声処理システムとするようにしてもよい。

スピーカ１２は、コンテンツ等を視聴するときにユーザが位置すると想定される位置（以下、単にユーザの位置とも称する）を囲むように配置されている。例えば、各スピーカ１２は、ユーザの位置を中心とする球の表面上の位置に配置されている。換言すれば、各スピーカ１２は、ユーザから等距離の位置に配置される。また、音声処理装置１１からスピーカ１２への音声信号の供給は有線により行なわれてもよいし、無線により行なわれてもよい。

音声処理装置１１は、スピーカ選択部２１、ゲイン算出部２２、ゲイン決定部２３、ゲイン出力部２４、およびゲイン調整部２５から構成される。

音声処理装置１１には、例えば移動物体などのオブジェクトに取り付けられたマイクロホンにより収音された音声の音声信号と、そのオブジェクトの位置情報とが供給される。

スピーカ選択部２１は、外部から供給されたオブジェクトの位置情報に基づいて、スピーカ１２が配置されている空間上において、オブジェクトから発せられる音声の音像を定位させるべき位置（以下、目標音像位置とも称する）を特定し、その特定結果をゲイン算出部２２に供給する。

また、スピーカ選択部２１は、目標音像位置に基づいて、Ｎ個のスピーカ１２のなかから、音声を出力させるべき４つのスピーカ１２を処理対象のスピーカ１２として選択し、その選択結果を示す選択情報をゲイン算出部２２、ゲイン決定部２３、およびゲイン出力部２４に供給する。

ゲイン算出部２２は、スピーカ選択部２１から供給された選択情報と、目標音像位置とに基づいて、処理対象のスピーカ１２のゲインを算出し、ゲイン出力部２４に供給する。ゲイン決定部２３は、スピーカ選択部２１から供給された選択情報に基づいて、処理対象とされていないスピーカ１２のゲインを決定し、ゲイン出力部２４に供給する。例えば、処理対象ではないスピーカ１２のゲインは「０」とされる。つまり、処理対象ではないスピーカ１２からはオブジェクトの音声が出力されないように制御される。

ゲイン出力部２４は、ゲイン算出部２２およびゲイン決定部２３から供給されたＮ個のゲインをゲイン調整部２５に供給する。このとき、ゲイン出力部２４は、スピーカ選択部２１から供給された選択情報に基づいて、ゲイン算出部２２およびゲイン決定部２３から供給されたＮ個の各ゲインのゲイン調整部２５内での供給先を定める。

ゲイン調整部２５は、ゲイン出力部２４から供給された各ゲインに基づいて、外部から供給されたオブジェクトの音声信号に対するゲイン調整を行なって、その結果得られたＮ個の各チャンネルの音声信号をスピーカ１２に供給して音声を出力させる。

ゲイン調整部２５は、増幅部３１−１乃至増幅部３１−Ｎを備えている。増幅部３１−１乃至増幅部３１−Ｎは、ゲイン出力部２４から供給されたゲインに基づいて、外部から供給された音声信号のゲイン調整を行い、その結果得られた音声信号をスピーカ１２−１乃至スピーカ１２−Ｎに供給する。

なお、以下、増幅部３１−１乃至増幅部３１−Ｎを個々に区別する必要がない場合、単に増幅部３１とも称する。

〈ゲイン算出部の構成例〉
また、図９に示したゲイン算出部２２は、例えば図１０に示すように構成される。

図１０に示すゲイン算出部２２は、仮想スピーカ位置決定部６１、３次元ゲイン算出部６２、２次元ゲイン算出部６３、乗算部６４、および乗算部６５から構成される。

仮想スピーカ位置決定部６１は、スピーカ選択部２１から供給された目標音像位置を示す情報および選択情報に基づいて仮想スピーカの位置を決定する。仮想スピーカ位置決定部６１は、目標音像位置を示す情報、選択情報、および仮想スピーカの位置を示す情報を３次元ゲイン算出部６２に供給するとともに、選択情報および仮想スピーカの位置を示す情報を２次元ゲイン算出部６３に供給する。

３次元ゲイン算出部６２は、仮想スピーカ位置決定部６１から供給された各情報に基づいて、処理対象のスピーカ１２のうちの２つのスピーカ１２と、仮想スピーカとについて、３次元VBAPを行なう。そして、３次元ゲイン算出部６２は、３次元VBAPにより得られた２つのスピーカ１２のゲインをゲイン出力部２４に供給するとともに、仮想スピーカのゲインを乗算部６４および乗算部６５に供給する。

２次元ゲイン算出部６３は、仮想スピーカ位置決定部６１から供給された各情報に基づいて、処理対象のスピーカ１２のうちの２つのスピーカ１２について２次元VBAPを行い、その結果得られたスピーカ１２のゲインを乗算部６４および乗算部６５に供給する。

乗算部６４は、２次元ゲイン算出部６３から供給されたゲインに、３次元ゲイン算出部６２から供給されたゲインを乗算して最終的なスピーカ１２のゲインとし、ゲイン出力部２４に供給する。乗算部６５は、２次元ゲイン算出部６３から供給されたゲインに、３次元ゲイン算出部６２から供給されたゲインを乗算して最終的なスピーカ１２のゲインとし、ゲイン出力部２４に供給する。

〈音像定位制御処理の説明〉
ところで、音声処理装置１１にオブジェクトの位置情報と音声信号が供給され、オブジェクトの音声の出力が指示されると、音声処理装置１１は音像定位制御処理を開始して、オブジェクトの音声を出力させ、その音像を適切な位置に定位させる。

以下、図１１のフローチャートを参照して、音声処理装置１１による音像定位制御処理について説明する。

ステップＳ１１において、スピーカ選択部２１は、外部から供給されたオブジェクトの位置情報に基づいて処理対象とするスピーカ１２を選択する。

具体的には、例えばスピーカ選択部２１は、オブジェクトの位置情報に基づいて目標音像位置を特定し、Ｎ個のスピーカ１２のうち、目標音像位置近傍にあり、かつ目標音像位置を囲むように配置されている４つのスピーカ１２を処理対象のスピーカ１２とする。

例えば、図７に示した仮想音源ＶＳＰ３の位置が目標音像位置とされた場合、仮想音源ＶＳＰ３を囲む４つのスピーカＳＰ１乃至スピーカＳＰ４に対応するスピーカ１２が処理対象のスピーカ１２として選択される。

スピーカ選択部２１は、目標音像位置を示す情報を仮想スピーカ位置決定部６１に供給するとともに、処理対象の４つのスピーカ１２を示す選択情報を仮想スピーカ位置決定部６１、ゲイン決定部２３、およびゲイン出力部２４に供給する。

ステップＳ１２において、仮想スピーカ位置決定部６１は、スピーカ選択部２１から供給された目標音像位置を示す情報および選択情報に基づいて仮想スピーカの位置を決定する。例えば、図７に示した例と同様に、処理対象のスピーカ１２のうちのユーザからみて左下および右下に位置するスピーカ１２を結ぶ球面上の辺と、目標音像位置からその辺におろした垂線との交点の位置が、仮想スピーカの位置とされる。

仮想スピーカの位置が決定されると、仮想スピーカ位置決定部６１は、目標音像位置を示す情報、選択情報、および仮想スピーカの位置を示す情報を３次元ゲイン算出部６２に供給するとともに、選択情報および仮想スピーカの位置を示す情報を２次元ゲイン算出部６３に供給する。

なお、仮想スピーカの位置は、処理対象とされた４つのスピーカ１２を各頂点とする、球面上の四角形の辺上の位置であれば、どの位置とされてもよい。また、処理対象とされるスピーカ１２が５以上である場合でも、それらのスピーカ１２を各頂点とする球面上の多角形の辺上の任意の位置を仮想スピーカの位置とすればよい。

ステップＳ１３において３次元ゲイン算出部６２は、仮想スピーカ位置決定部６１から供給された目標音像位置を示す情報、選択情報、および仮想スピーカの位置を示す情報に基づいて、仮想スピーカと、処理対象の２つのスピーカ１２とについてゲインを算出する。

具体的には３次元ゲイン算出部６２は、目標音像位置を示す３次元ベクトルをベクトルＰとするとともに、仮想スピーカを向く３次元ベクトルをベクトルＬ’とする。また、３次元ゲイン算出部６２は、処理対象となっているスピーカ１２のうち、図７に示したスピーカＳＰ１と同じ位置関係にあるスピーカ１２を向くベクトルをベクトルＬ₁とし、スピーカＳＰ２と同じ位置関係にあるスピーカ１２を向くベクトルをベクトルＬ₂とする。

そして、３次元ゲイン算出部６２は、ベクトルＰをベクトルＬ’、ベクトルＬ₁、およびベクトルＬ₂の線形和で表す式を求め、その式を解くことにより、ベクトルＬ’、ベクトルＬ₁、およびベクトルＬ₂の係数ｇ’、係数ｇ₁、および係数ｇ₂をゲインとして算出する。すなわち、上述した式（２）を解く演算と同様の演算が行なわれる。

３次元ゲイン算出部６２は、計算の結果得られたスピーカＳＰ１およびスピーカＳＰ２と同じ位置関係にあるスピーカ１２の係数ｇ₁および係数ｇ₂を、それらのスピーカ１２から出力する音声のゲインとしてゲイン出力部２４に供給する。

また、３次元ゲイン算出部６２は、計算の結果得られた仮想スピーカの係数ｇ’を、仮想スピーカから出力する音声のゲインとして乗算部６４および乗算部６５に供給する。

ステップＳ１４において、２次元ゲイン算出部６３は、仮想スピーカ位置決定部６１から供給された選択情報、および仮想スピーカの位置を示す情報に基づいて、処理対象の２つのスピーカ１２についてゲインを算出する。

具体的には２次元ゲイン算出部６３は、仮想スピーカの位置を示す３次元ベクトルをベクトルＬ’とする。また、２次元ゲイン算出部６３は、処理対象となっているスピーカ１２のうち、図８に示したスピーカＳＰ３と同じ位置関係にあるスピーカ１２を向くベクトルをベクトルＬ₃とし、スピーカＳＰ４と同じ位置関係にあるスピーカ１２を向くベクトルをベクトルＬ₄とする。

そして、２次元ゲイン算出部６３はベクトルＬ’を、ベクトルＬ₃、およびベクトルＬ₄の線形和で表す式を求め、その式を解くことにより、ベクトルＬ₃およびベクトルＬ₄の係数ｇ₃’および係数ｇ₄’をゲインとして算出する。すなわち、上述した式（１）を解く演算と同様の演算が行なわれる。

２次元ゲイン算出部６３は、計算の結果得られたスピーカＳＰ３およびスピーカＳＰ４と同じ位置関係にあるスピーカ１２の係数ｇ₃’および係数ｇ₄’を、それらのスピーカ１２から出力する音声のゲインとして乗算部６４および乗算部６５に供給する。

ステップＳ１５において、乗算部６４および乗算部６５は、２次元ゲイン算出部６３から供給されたゲインｇ₃’およびゲインｇ₄’に対して、３次元ゲイン算出部６２から供給された仮想スピーカのゲインｇ’を乗算し、ゲイン出力部２４に供給する。

したがって、処理対象となっている４つのスピーカ１２のうち、図８のスピーカＳＰ３と同じ位置関係にあるスピーカ１２の最終的なゲインとしてｇ₃＝ｇ’ｇ₃’がゲイン出力部２４に供給されることになる。同様に、処理対象となっている４つのスピーカ１２のうち、図８のスピーカＳＰ４と同じ位置関係にあるスピーカ１２の最終的なゲインとしてｇ₄＝ｇ’ｇ₄’がゲイン出力部２４に供給される。

ステップＳ１６において、ゲイン決定部２３は、スピーカ選択部２１から供給された選択情報に基づいて、処理対象とされていないスピーカ１２のゲインを決定し、ゲイン出力部２４に供給する。例えば、処理対象ではない全てのスピーカ１２のゲインは「０」とされる。

ゲイン出力部２４にゲイン算出部２２からのゲインｇ₁、ゲインｇ₂、ゲインｇ’ｇ₃’、およびゲインｇ’ｇ₄’と、ゲイン決定部２３からのゲイン「０」とが供給されると、ゲイン出力部２４は、スピーカ選択部２１からの選択情報に基づいて、それらのゲインをゲイン調整部２５の増幅部３１に供給する。

具体的には、ゲイン出力部２４は、処理対象の各スピーカ１２、つまり図７のスピーカＳＰ１乃至スピーカＳＰ４のそれぞれに対応するスピーカ１２に対して音声信号を供給する増幅部３１に、ゲインｇ₁、ゲインｇ₂、ゲインｇ’ｇ₃’、およびゲインｇ’ｇ₄’を供給する。例えば、スピーカＳＰ１に対応するスピーカ１２がスピーカ１２−１である場合、ゲイン出力部２４は、ゲインｇ₁を増幅部３１−１に供給する。

また、ゲイン出力部２４は、処理対象ではないスピーカ１２に音声信号を供給する増幅部３１に対して、ゲイン決定部２３から供給されたゲイン「０」を供給する。

ステップＳ１７において、ゲイン調整部２５の増幅部３１は、ゲイン出力部２４から供給されたゲインに基づいて、外部から供給されたオブジェクトの音声信号のゲイン調整を行い、その結果得られた音声信号をスピーカ１２に供給し、音声を出力させる。

各スピーカ１２は、増幅部３１から供給された音声信号に基づいて音声を出力する。より詳細には、処理対象とされた４つのスピーカ１２のみから音声が出力される。これにより、目標とする位置に音像を定位させることができる。スピーカ１２から音声が出力されると、音像定位制御処理は終了する。

以上のようにして、音声処理装置１１は、オブジェクトの位置情報から処理対象とする４つのスピーカ１２を選択し、それらのスピーカ１２と仮想スピーカのうちの２つまたは３つのスピーカの組み合わせについてVBAPを行なう。そして、音声処理装置１１は、複数の異なる組み合わせについてVBAPを行なうことで得られた、処理対象の各スピーカ１２のゲインに基づいて音声信号のゲイン調整を行なう。

これにより、目標とする音像位置の周囲に位置する４つのスピーカ１２から音声が出力されるようになり、音像の定位をより安定させることができるようになる。その結果、スイートスポットの範囲をより拡大させることができる。

〈第２の実施の形態〉
〈ゲインの算出について〉
なお、以上においては、仮想スピーカを含む５つのスピーカのうちの２または３のスピーカを選択して１つのスピーカの組み合わせとし、複数の組み合わせについてVBAPを行なうことで、処理対象のスピーカ１２のゲインを算出する例について説明した。しかし、本技術では、仮想スピーカを定めずに、処理対象の４つのスピーカ１２から複数の組み合わせを選択し、それらの組み合わせごとにVBAPを行なうことでもゲインを算出することが可能である。

そのような場合、例えば図１２に示すように、目標音像位置によってVBAPを行なうべき回数が変化する。なお、図１２において図７における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

例えば、仮想音源の位置、つまり目標音像位置が矢印Ｑ１１に示す位置にある場合、矢印Ｑ１１に示す位置は、球面上のスピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ４により囲まれる三角形の領域内にある。そのため、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ４からなるスピーカの組（以下、第１組とも称する）について、３次元VBAPを行なえば、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ４の３つのスピーカから出力される音声のゲインが求まる。

一方で、矢印Ｑ１１に示す位置は、球面上のスピーカＳＰ２、スピーカＳＰ３、およびスピーカＳＰ４により囲まれる三角形の領域内の位置でもある。そのため、スピーカＳＰ２、スピーカＳＰ３、およびスピーカＳＰ４からなるスピーカの組（以下、第２組とも称する）について、３次元VBAPを行なえば、スピーカＳＰ２、スピーカＳＰ３、およびスピーカＳＰ４の３つのスピーカから出力される音声のゲインが求まる。

ここで、第１組と第２組において、それぞれ用いられなかったスピーカのゲインを「０」とすれば、この例では、第１組と第２組とで、４つのスピーカＳＰ１乃至スピーカＳＰ４の各ゲインとして、合計２通りのゲインが得られる。

そこで、各スピーカについて、第１組と第２組で得られたスピーカのゲインの和がゲイン和として求められる。例えば、第１組について得られたスピーカＳＰ１のゲインがｇ₁（１）であり、第２組について得られたスピーカＳＰ１のゲインがｇ₁（２）であれば、スピーカＳＰ１のゲイン和ｇ_s1は、ゲイン和ｇ_s1＝ｇ₁（１）＋ｇ₁（２）となる。

ここで、第２組の組み合わせにはスピーカＳＰ１が含まれていないのでｇ₁（２）は０となるが、第１組のスピーカの組み合わせにはスピーカＳＰ１が含まれているのでｇ₁（１）は０ではない値となり、結局、スピーカＳＰ１のゲイン和ｇ_s1は０にはならない。このことは、他のスピーカＳＰ２乃至スピーカＳＰ４のゲイン和についても同様である。

このようにして各スピーカのゲイン和が求まると、それらのゲイン和の二乗和で、各スピーカのゲイン和を正規化して得られた値を、それらのスピーカの最終的なゲイン、より詳細にはスピーカから出力される音声のゲインとすればよい。

このようにして各スピーカＳＰ１乃至スピーカＳＰ４のゲインを求めれば、必ず０ではないゲインが得られるので、４つのスピーカＳＰ１乃至スピーカＳＰ４のそれぞれから音声を出力させて、所望の位置に音像を定位させることができる。

なお、以下、第ｍ組（但し、１≦ｍ≦４）について得られた、スピーカＳＰｋ（但し、１≦ｋ≦４）のゲインをｇ_k（ｍ）と表すこととする。また、スピーカＳＰｋ（但し、１≦ｋ≦４）のゲイン和をｇ_skと表すこととする。

さらに、矢印Ｑ１２に示す位置、つまり球面上において、スピーカＳＰ２およびスピーカＳＰ３を結ぶ線と、スピーカＳＰ１およびスピーカＳＰ４を結ぶ線との交点位置に目標音像位置がある場合、３つのスピーカの組み合わせは４通りとなる。

すなわち、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ３の組み合わせ（以下、第１組と称する）と、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ４の組み合わせ（以下、第２組と称する）とが考えられる。また、その他に、スピーカＳＰ１、スピーカＳＰ３、およびスピーカＳＰ４の組み合わせ（以下、第３組と称する）と、スピーカＳＰ２、スピーカＳＰ３、およびスピーカＳＰ４の組み合わせ（以下、第４組と称する）とが考えられる。

この場合には、第１組から第４組までの各組み合わせについて、それぞれ３次元VBAPを行なって、各スピーカのゲインを求めればよい。そして、同じスピーカについて求まった４つのゲインの和をゲイン和とし、スピーカごとに求めた４つのゲイン和の二乗和で、各スピーカのゲイン和を正規化して得られる値を、それらのスピーカの最終的なゲインとすればよい。

なお、目標音像位置が矢印Ｑ１２に示す位置にある場合、スピーカＳＰ１乃至スピーカＳＰ４からなる球面上の四角形が長方形等である場合には、例えば第１組と第４組とで、３次元VBAPとして同じ計算結果が得られる。そのため、このような場合には、第１組と第２組など、適切な２通りの組み合わせについて３次元VBAPを行なえば、各スピーカのゲインを得ることができる。しかし、スピーカＳＰ１乃至スピーカＳＰ４からなる球面上の四角形が長方形等ではない、非対称な四角形である場合には、４つの各組み合わせについて３次元VBAPを行なう必要がある。

〈ゲイン算出部の構成例〉
以上において説明したように、仮想スピーカを定めずに、処理対象の４つのスピーカ１２から複数の組み合わせを選択し、それらの組み合わせごとにVBAPを行なってゲインを算出する場合、図９に示したゲイン算出部２２は、例えば図１３に示すように構成される。

図１３に示すゲイン算出部２２は、選択部９１、３次元ゲイン算出部９２−１、３次元ゲイン算出部９２−２、３次元ゲイン算出部９２−３、３次元ゲイン算出部９２−４、および加算部９３から構成される。

選択部９１は、スピーカ選択部２１から供給された目標音像位置を示す情報および選択情報に基づいて、処理対象とされた４つのスピーカ１２のなかから、目標音像位置を囲む３つのスピーカ１２の組み合わせを決定する。選択部９１は、スピーカ１２の組み合わせを示す情報と、目標音像位置を示す情報とを３次元ゲイン算出部９２−１乃至３次元ゲイン算出部９２−４に供給する。

３次元ゲイン算出部９２−１乃至３次元ゲイン算出部９２−４は、選択部９１から供給されたスピーカ１２の組み合わせを示す情報と、目標音像位置を示す情報とに基づいて３次元VBAPを行い、その結果得られた各スピーカ１２のゲインを加算部９３に供給する。なお、以下、３次元ゲイン算出部９２−１乃至３次元ゲイン算出部９２−４を特に区別する必要のない場合、単に３次元ゲイン算出部９２とも称する。

加算部９３は、３次元ゲイン算出部９２−１乃至３次元ゲイン算出部９２−４から供給された処理対象の各スピーカ１２のゲインに基づいてゲイン和を求め、さらにそれらのゲイン和を正規化することで処理対象の各スピーカ１２の最終的なゲインを算出し、ゲイン出力部２４に供給する。

〈音像定位制御処理の説明〉
次に、図１４のフローチャートを参照して、ゲイン算出部２２が図１３に示す構成とされる場合に行なわれる音像定位制御処理について説明する。

なお、ステップＳ４１の処理は、図１１のステップＳ１１の処理と同様であるので、その説明は省略する。

ステップＳ４２において、選択部９１は、スピーカ選択部２１から供給された目標音像位置を示す情報および選択情報に基づいてスピーカ１２の組み合わせを決定し、スピーカ１２の組み合わせを示す情報と目標音像位置を示す情報を３次元ゲイン算出部９２に供給する。

例えば目標音像位置が、図１２に示した矢印Ｑ１１に示す位置にある場合、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ４に対応する３つのスピーカ１２からなるスピーカ１２の組み合わせ（第１組）が決定される。また、スピーカＳＰ２、スピーカＳＰ３、およびスピーカＳＰ４に対応する３つのスピーカ１２からなるスピーカ１２の組み合わせ（第２組）が決定される。

この場合、例えば選択部９１は、第１組のスピーカ１２の組み合わせを示す情報と、目標音像位置を示す情報とを３次元ゲイン算出部９２−１に供給し、第２組のスピーカ１２の組み合わせを示す情報と、目標音像位置を示す情報とを３次元ゲイン算出部９２−２に供給する。また、この場合には、３次元ゲイン算出部９２−３と３次元ゲイン算出部９２−４には、スピーカ１２の組み合わせを示す情報等は供給されず、３次元ゲイン算出部９２−３と３次元ゲイン算出部９２−４では、３次元VBAPの計算も行なわれない。

ステップＳ４３において、３次元ゲイン算出部９２は、選択部９１から供給されたスピーカ１２の組み合わせを示す情報と、目標音像位置を示す情報とに基づいて、スピーカ１２の組み合わせについて処理対象の各スピーカ１２のゲインを算出し、加算部９３に供給する。

具体的には、３次元ゲイン算出部９２は、スピーカ１２の組み合わせを示す情報により示される３つのスピーカ１２について、上述した図１１のステップＳ１３と同様の処理を行なって、各スピーカ１２のゲインを求める。すなわち、上述した式（２）を解く演算と同様の演算が行なわれる。また、処理対象の４つのスピーカ１２のうち、スピーカ１２の組み合わせを示す情報により示される３つのスピーカ１２ではない、残りの１つのスピーカ１２のゲインは「０」とされる。

例えば、ステップＳ４２において第１組と第２組との２通りの組み合わせが求められた場合、３次元ゲイン算出部９２−１では第１組について３次元VBAPにより各スピーカ１２のゲインが算出される。また、３次元ゲイン算出部９２−２では第２組について３次元VBAPにより各スピーカ１２のゲインが算出される。

具体的には、第１組として図１２に示したスピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ４に対応する３つのスピーカ１２からなるスピーカ１２の組み合わせが決定されたとする。この場合、３次元ゲイン算出部９２−１では、スピーカＳＰ１に対応するスピーカ１２のゲインｇ₁（１）、スピーカＳＰ２に対応するスピーカ１２のゲインｇ₂（１）、およびスピーカＳＰ４に対応するスピーカ１２のゲインｇ₄（１）が算出される。また、スピーカＳＰ３に対応するスピーカ１２のゲインｇ₃（１）は「０」とされる。

ステップＳ４４において、加算部９３は、３次元ゲイン算出部９２から供給された各スピーカ１２のゲインに基づいて、処理対象のスピーカ１２の最終的なゲインを算出し、ゲイン出力部２４に供給する。

例えば、加算部９３は、３次元ゲイン算出部９２から供給されたスピーカＳＰ１に対応するスピーカ１２のゲインｇ₁（１）、ゲインｇ₁（２）、ゲインｇ₁（３）、およびゲインｇ₁（４）の和を求めることで、そのスピーカ１２のゲイン和ｇ_s1を算出する。同様にして、加算部９３は、スピーカＳＰ２に対応するスピーカ１２のゲイン和ｇ_s2、スピーカＳＰ３に対応するスピーカ１２のゲイン和ｇ_s3、およびスピーカＳＰ４に対応するスピーカ１２のゲイン和ｇ_s4も算出する。

そして、加算部９３は、スピーカＳＰ１に対応するスピーカ１２のゲイン和ｇ_s1を、ゲイン和ｇ_s1乃至ゲイン和ｇ_s4の二乗和で正規化することにより、スピーカＳＰ１に対応するスピーカ１２の最終的なゲインｇ₁（係数ｇ₁）を求める。また加算部９３は、同様の計算によりスピーカＳＰ２乃至スピーカＳＰ４に対応するスピーカ１２の最終的なゲインｇ₂乃至ゲインｇ₄も求める。

こうのようにして処理対象のスピーカ１２のゲインが求められると、その後、ステップＳ４５およびステップＳ４６の処理が行なわれて、音像定位制御処理は終了するが、これらの処理は図１１のステップＳ１６およびステップＳ１７の処理と同様であるので、その説明は省略する。

以上のようにして、音声処理装置１１は、オブジェクトの位置情報から処理対象とする４つのスピーカ１２を選択し、それらのスピーカ１２のうちの３つのスピーカ１２からなるスピーカ１２の組み合わせについてVBAPを行なう。そして、音声処理装置１１は、複数の異なる組み合わせについてVBAPを行なうことで得られた同じスピーカ１２のゲインの和を求めることで、処理対象の各スピーカ１２の最終的なゲインを求め、音声信号のゲイン調整を行なう。

なお、この実施の形態では、目標音像位置を囲む４つのスピーカ１２が処理対象のスピーカ１２とされる例について説明したが、処理対象とされるスピーカ１２の数は４以上であればよい。

例えば、５つのスピーカ１２が処理対象のスピーカ１２として選択される場合には、それらの５つのスピーカ１２のうち、目標音像位置を囲む任意の３つのスピーカ１２からなるスピーカ１２の組が、１つの組み合わせとして選択される。

具体的には、図１５に示すように５つのスピーカＳＰ１乃至スピーカＳＰ５に対応するスピーカ１２が処理対象のスピーカ１２として選択され、目標音像位置が矢印Ｑ２１に示す位置とされたとする。

この場合、第１組として、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ３からなる組み合わせが選択され、第２組として、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ４からなる組み合わせが選択される。また、第３組として、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ５からなる組み合わせが選択される。

そして、これらの第１組乃至第３組について、各スピーカのゲインが求められ、各スピーカのゲイン和から、最終的なゲインが算出される。つまり、第１組乃至第３組について、図１４のステップＳ４３の処理が行なわれ、その後、ステップＳ４４乃至ステップＳ４６の処理が行なわれる。

このように、５以上のスピーカ１２を処理対象のスピーカ１２として選択する場合においても、処理対象とする全てのスピーカ１２から音声を出力させて音像を定位させることができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、ＣＰＵ８０１，ＲＯＭ８０２，ＲＡＭ８０３は、バス８０４により相互に接続されている。

バス８０４には、さらに、入出力インターフェース８０５が接続されている。入出力インターフェース８０５には、入力部８０６、出力部８０７、記録部８０８、通信部８０９、及びドライブ８１０が接続されている。

入力部８０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部８０７は、ディスプレイ、スピーカなどよりなる。記録部８０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部８０９は、ネットワークインターフェースなどよりなる。ドライブ８１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア８１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ８０１が、例えば、記録部８０８に記録されているプログラムを、入出力インターフェース８０５及びバス８０４を介して、ＲＡＭ８０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ８０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア８１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア８１１をドライブ８１０に装着することにより、入出力インターフェース８０５を介して、記録部８０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部８０９で受信し、記録部８０８にインストールすることができる。その他、プログラムは、ＲＯＭ８０２や記録部８０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

［１］
目標とする音像定位位置近傍に位置する４以上の音声出力部のうちの２または３の前記音声出力部の組み合わせについて、互いに異なる複数の前記組み合わせごとに、前記音声出力部の位置関係に基づいて前記音声出力部から出力させる音声のゲインを算出することで、前記音像定位位置に音像を定位させるための、前記４以上の前記音声出力部から出力させる音声の出力ゲインを求めるゲイン算出部と、
前記出力ゲインに基づいて、前記音声出力部から出力させる音声のゲイン調整を行なうゲイン調整部と
を備える音声処理装置。
［２］
少なくとも４以上の前記出力ゲインの値が０でない値とされる
［１］に記載の音声処理装置。
［３］
前記ゲイン算出部は、
仮想的な音声出力部および２つの前記音声出力部と、前記音像定位位置との位置関係に基づいて、前記仮想的な音声出力部および前記２つの前記音声出力部の前記出力ゲインを算出する第１のゲイン算出部と、
前記２つの前記音声出力部とは異なる他の２つの前記音声出力部と、前記仮想的な音声出力部との位置関係に基づいて、前記仮想的な音声出力部の位置に音像を定位させるための前記他の２つの前記音声出力部のゲインを算出する第２のゲイン算出部と、
前記他の２つの前記音声出力部のゲインと、前記仮想的な音声出力部の前記出力ゲインとに基づいて、前記他の２つの前記音声出力部の前記出力ゲインを算出する演算部と
を備える
［１］または［２］に記載の音声処理装置。
［４］
前記演算部は、前記他の２つの前記音声出力部のゲインに前記仮想的な音声出力部の前記出力ゲインを乗算することにより、前記他の２つの前記音声出力部の前記出力ゲインを算出する
［３］に記載の音声処理装置。
［５］
前記仮想的な音声出力部の位置は、前記４以上の前記音声出力部を頂点とする多角形の辺上に位置するように定められる
［３］または［４］に記載の音声処理装置。
［６］
前記ゲイン算出部は、
３つの前記音声出力部と、前記音像定位位置との位置関係に基づいて、前記３つの前記音声出力部の前記出力ゲインを算出する仮ゲイン算出部と、
互いに異なる前記組み合わせについて前記出力ゲインを算出する複数の前記仮ゲイン算出部により算出された前記出力ゲインに基づいて、前記音声出力部の最終的な前記出力ゲインを算出する演算部と
を備える
［１］または［２］に記載の音声処理装置。
［７］
前記演算部は、同じ前記音声出力部について求められた前記出力ゲインの和を求めることで、前記音声出力部の最終的な前記出力ゲインを算出する
［６］に記載の音声処理装置。

１１音声処理装置，１２−１乃至１２−Ｎ，１２スピーカ，２１スピーカ選択部，２２ゲイン算出部，２５ゲイン調整部，６１仮想スピーカ位置決定部，６２３次元ゲイン算出部，６３２次元ゲイン算出部，６４乗算部，６５乗算部，９１選択部，９２−１乃至９２−４，９２３次元ゲイン算出部，９３加算部

Claims

目標とする音像定位位置近傍に位置する４個の音声出力部の位置に基づいて、仮想的な音声出力部の位置を決定する位置決定部と、
前記４個の音声出力部のうちの２つの前記音声出力部と、前記仮想的な音声出力部とに関して、３次元VBAPを行うことにより、前記仮想的な音声出力部のゲインを計算するゲイン算出部と、
前記仮想的な音声出力部の前記ゲインに基づいて、少なくとも２つの前記音声出力部から出力させる音声のゲイン調整を行うゲイン調整部と
を備える音声処理装置。
音声処理装置が、
目標とする音像定位位置近傍に位置する４個の音声出力部の位置に基づいて、仮想的な音声出力部の位置を決定し、
前記４個の音声出力部のうちの２つの前記音声出力部と、前記仮想的な音声出力部とに関して、３次元VBAPを行うことにより、前記仮想的な音声出力部のゲインを計算し、
前記仮想的な音声出力部の前記ゲインに基づいて、少なくとも２つの前記音声出力部から出力させる音声のゲイン調整を行う
音声処理方法。
目標とする音像定位位置近傍に位置する４個の音声出力部の位置に基づいて、仮想的な音声出力部の位置を決定し、
前記４個の音声出力部のうちの２つの前記音声出力部と、前記仮想的な音声出力部とに関して、３次元VBAPを行うことにより、前記仮想的な音声出力部のゲインを計算し、
前記仮想的な音声出力部の前記ゲインに基づいて、少なくとも２つの前記音声出力部から出力させる音声のゲイン調整を行う
ステップを含む処理をコンピュータに実行させるプログラム。