JP6369465B2

JP6369465B2 - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP6369465B2
Application number: JP2015528227A
Authority: JP
Inventors: 潤宇史; 徹知念; 優樹山本; 光行畠中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-07-24
Filing date: 2014-07-11
Publication date: 2018-08-08
Anticipated expiration: 2034-07-11
Also published as: CN105379311A; EP3026936A4; WO2015012122A1; JPWO2015012122A1; EP3026936B1; US20160165374A1; EP3026936A1; CN105379311B; US9998845B2

Description

本技術は情報処理装置および方法、並びにプログラムに関し、特に、より高精度に音像を定位させることができるようにした情報処理装置および方法、並びにプログラムに関する。

従来、複数のスピーカを用いて音像の定位を制御する技術として、VBAP（Vector Base Amplitude Pannning）が知られている（例えば、非特許文献１参照）。

VBAPでは、目標となる音像の定位位置が、その定位位置の周囲にある２つまたは３つのスピーカの方向を向くベクトルの線形和で表現される。そして、その線形和において各ベクトルに乗算されている係数が、各スピーカから出力される音声信号のゲインとして用いられてゲイン調整が行なわれ、目標となる位置に音像が定位するようになされる。

Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997

しかしながら上述した技術では、高精度に音像を定位させることができない場合があった。

すなわち、VBAPでは、球面上または円弧上に配置されたスピーカで囲まれるメッシュ外の位置には音像を定位させることができないので、メッシュ外の音像を再生するときには、その音像位置をメッシュの範囲内に移動させる必要がある。ところが、上述した技術ではメッシュ内の適切な位置に音像を移動させることが困難であった。

本技術は、このような状況に鑑みてなされたものであり、より高精度に音像を定位させることができるようにするものである。

本技術の一側面の情報処理装置は、複数のスピーカにより囲まれる領域であるメッシュのうちの水平方向において対象音像の水平方向位置を包含するメッシュを少なくとも一つ検出し、前記メッシュにおける前記対象音像の移動目標となるメッシュの境界を少なくとも一つ特定する検出部と、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上にある２つの前記スピーカの位置と、前記対象音像の前記水平方向位置とに基づいて、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上の前記対象音像の移動位置を算出する算出部とを備える。

前記移動位置を、前記水平方向において前記対象音像の前記水平方向位置と同じ位置にある前記境界上の位置とすることができる。

前記検出部には、前記メッシュを構成する前記スピーカの前記水平方向の位置と、前記対象音像の前記水平方向位置とに基づいて、前記水平方向において前記対象音像の前記水平方向位置を包含する前記メッシュを検出させることができる。

情報処理装置には、前記メッシュを構成する前記スピーカの位置関係、または前記対象音像と前記移動位置の垂直方向の位置の少なくとも何れかに基づいて、前記対象音像の移動が必要であるか否かを判定する判定部をさらに設けることができる。

情報処理装置には、前記対象音像の移動が必要であると判定された場合、前記移動位置に音声の音像が定位するように、前記移動位置と前記メッシュの前記スピーカの位置とに基づいて前記音声の音声信号のゲインを算出するゲイン算出部をさらに設けることができる。

前記ゲイン算出部には、前記対象音像の位置と前記移動位置との差に基づいて前記ゲインを調整させることができる。

前記ゲイン算出部には、前記対象音像の位置からユーザまでの距離と、前記移動位置から前記ユーザまでの距離とに基づいてさらに前記ゲインを調整させることができる。

情報処理装置には、前記対象音像の移動が必要ではないと判定された場合、前記水平方向において前記対象音像の前記水平方向位置を包含する前記メッシュについて、前記対象音像の位置に音声の音像が定位するように、前記対象音像の位置と前記メッシュの前記スピーカの位置とに基づいて前記音声の音声信号のゲインを算出するゲイン算出部をさらに設けることができる。

前記判定部には、垂直方向において、前記メッシュごとに求めた前記移動位置のうちの最も高い位置が前記対象音像の位置よりも低い位置にある場合、前記対象音像の移動が必要であると判定させることができる。

前記判定部には、垂直方向において、前記メッシュごとに求めた前記移動位置のうちの最も低い位置が前記対象音像の位置よりも高い位置にある場合、前記対象音像の移動が必要であると判定させることができる。

前記判定部には、垂直方向の位置として取り得る最も高い位置に前記スピーカがある場合、前記対象音像の上から下方向への移動が必要でないと判定させることができる。

前記判定部には、垂直方向の位置として取り得る最も低い位置に前記スピーカがある場合、前記対象音像の下から上方向への移動が必要でないと判定させることができる。

前記判定部には、垂直方向の位置として取り得る最も高い位置を包含する前記メッシュがある場合、前記対象音像の上から下方向への移動が必要でないと判定させることができる。

前記判定部には、垂直方向の位置として取り得る最も低い位置を包含する前記メッシュがある場合、前記対象音像の下から上方向への移動が必要でないと判定させることができる。

前記算出部には、前記水平方向位置ごとに予め前記移動位置の最大値および最小値を算出させて記録させ、情報処理装置には、記録されている前記移動位置の最大値および最小値と、前記対象音像の位置とに基づいて、前記対象音像の最終的な前記移動位置を求める判定部をさらに設けることができる。

本技術の一側面の情報処理方法またはプログラムは、複数のスピーカにより囲まれる領域であるメッシュのうちの水平方向において対象音像の水平方向位置を包含するメッシュを少なくとも一つ検出し、前記メッシュにおける前記対象音像の移動目標となるメッシュの境界を少なくとも一つ特定し、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上にある２つの前記スピーカの位置と、前記対象音像の前記水平方向位置とに基づいて、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上の前記対象音像の移動位置を算出するステップを含む。

本技術の一側面においては、複数のスピーカにより囲まれる領域であるメッシュのうちの水平方向において対象音像の水平方向位置を包含するメッシュを少なくとも一つ検出し、前記メッシュにおける前記対象音像の移動目標となるメッシュの境界が少なくとも一つ特定され、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上にある２つの前記スピーカの位置と、前記対象音像の前記水平方向位置とに基づいて、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上の前記対象音像の移動位置が算出される。

本技術の一側面によれば、より高精度に音像を定位させることができる。

２次元VBAPについて説明する図である。３次元VBAPについて説明する図である。スピーカ配置について説明する図である。音像の移動先について説明する図である。音像の位置情報について説明する図である。音声処理装置の構成例を示す図である。位置算出部の構成を示す図である。２次元位置算出部の構成を示す図である。３次元位置算出部の構成を示す図である。音像定位制御処理を説明するフローチャートである。２次元VBAPにおける移動目的位置算出処理を説明するフローチャートである。３次元VBAPにおける移動目的位置算出処理を説明するフローチャートである。２次元メッシュにおける移動目的候補位置の算出処理を説明するフローチャートである。３次元メッシュにおける移動目的候補位置の算出処理を説明するフローチャートである。音像の移動の要否の判定と移動目的位置の算出について説明する図である。位置算出部の他の構成を示す図である。対象音像の移動距離について説明する図である。折れ線カーブについて説明する図である。関数カーブについて説明する図である。音声処理装置の構成例を示す図である。位置算出部の構成を示す図である。音像定位制御処理を説明するフローチャートである。本技術のダウンミックス技術への適用について説明する図である。本技術のダウンミックス技術への適用について説明する図である。本技術のダウンミックス技術への適用について説明する図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術の概要について〉
まず、図１乃至図５を参照して、本技術の概要について説明する。なお、図１乃至図５において、対応する部分には同一の符号を付してあり、その説明は適宜省略する。

例えば、図１に示すように、音声付の動画像や楽曲などのコンテンツを視聴するユーザＵ１１が、２つのスピーカＳＰ１およびスピーカＳＰ２から出力される２チャンネルの音声をコンテンツの音声として聴いているとする。

このような場合に、各チャンネルの音声を出力する２つのスピーカＳＰ１とスピーカＳＰ２の位置情報を用いて、音像位置ＶＳＰ１に音像を定位させることを考える。

例えば、ユーザＵ１１の頭部の位置を原点Ｏとし、図中、縦方向および横方向をｘ軸方向およびｙ軸方向とする２次元座標系における音像位置ＶＳＰ１を、原点Ｏを始点とするベクトルｐにより表すこととする。

ベクトルｐは２次元のベクトルであるため、原点Ｏを始点とし、それぞれスピーカＳＰ１およびスピーカＳＰ２の位置の方向を向くベクトルｌ_１およびベクトルｌ_２の線形和によってベクトルｐを表すことができる。すなわち、ベクトルｐは、ベクトルｌ_１およびベクトルｌ_２を用いて次式（１）により表すことができる。

式（１）においてベクトルｌ_１およびベクトルｌ_２に乗算されている係数ｇ_１および係数ｇ_２を算出し、これらの係数ｇ_１および係数ｇ_２を、スピーカＳＰ１およびスピーカＳＰ２のそれぞれから出力する音声のゲインとすれば、音像位置ＶＳＰ１に音像を定位させることができる。すなわち、ベクトルｐにより示される位置に音像を定位させることができる。

このようにして、２つのスピーカＳＰ１とスピーカＳＰ２の位置情報を用いて係数ｇ_１および係数ｇ_２を求め、音像の定位位置を制御する手法は、２次元VBAPと呼ばれている。

図１の例では、スピーカＳＰ１とスピーカＳＰ２を結ぶ円弧ＡＲ１１上の任意の位置に音像を定位させることができる。ここで、円弧ＡＲ１１は、原点Ｏを中心とし、スピーカＳＰ１およびスピーカＳＰ２の各位置を通る円の一部分である。このような円弧ＡＲ１１が２次元VBAPにおける１つのメッシュ（以下、２次元メッシュとも称する）とされる。

なお、ベクトルｐは２次元ベクトルであるので、ベクトルｌ_１とベクトルｌ_２のなす角度が０度より大きく、１８０度未満である場合、ゲインとされる係数ｇ_１および係数ｇ_２は一意に求まる。これらの係数ｇ_１および係数ｇ_２の算出方法については、上述した非特許文献１に詳細に記載されている。

これに対して、３チャンネルの音声を再生しようとする場合には、例えば図２に示すように、音声を出力するスピーカの数は３つになる。

図２の例では、３つのスピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ３から各チャンネルの音声が出力される。

このような場合においても、スピーカＳＰ１乃至スピーカＳＰ３から出力される各チャンネルの音声のゲイン、つまりゲインとして求める係数が３つになるだけで、考え方は上述した２次元VBAPと同様である。

すなわち、音像位置ＶＳＰ２に音像を定位させようとする場合に、ユーザＵ１１の頭部の位置を原点Ｏとする３次元座標系において、音像位置ＶＳＰ２を、原点Ｏを始点とする３次元のベクトルｐにより表すこととする。

また、原点Ｏを始点とし、各スピーカＳＰ１乃至スピーカＳＰ３の位置の方向を向く３次元のベクトルをベクトルｌ_１乃至ベクトルｌ_３とすると、ベクトルｐは次式（２）に示すように、ベクトルｌ_１乃至ベクトルｌ_３の線形和によって表すことができる。

式（２）においてベクトルｌ_１乃至ベクトルｌ_３に乗算されている係数ｇ_１乃至係数ｇ_３を算出し、これらの係数ｇ_１乃至係数ｇ_３を、スピーカＳＰ１乃至スピーカＳＰ３のそれぞれから出力する音声のゲインとすれば、音像位置ＶＳＰ２に音像を定位させることができる。

このようにして、３つのスピーカＳＰ１乃至スピーカＳＰ３の位置情報を用いて係数ｇ_１乃至係数ｇ_３を求め、音像の定位位置を制御する手法は、３次元VBAPと呼ばれている。

図２の例では、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ３の位置を含む球面上の三角形の領域ＴＲ１１内の任意の位置に音像を定位させることができる。ここで、領域ＴＲ１１は、原点Ｏを中心とし、スピーカＳＰ１乃至スピーカＳＰ３の各位置を通る球の表面上の領域であって、スピーカＳＰ１乃至スピーカＳＰ３により囲まれる３角形の領域である。３次元VBAPでは、領域ＴＲ１１が１つのメッシュ（以下、３次元メッシュとも称する）とされる。

このような３次元VBAPを用いれば、空間上の任意の位置に音像を定位させることができるようになる。

例えば図３に示すように、音声を出力させるスピーカの数を増やして、図２に示した三角形の領域ＴＲ１１に相当する領域を空間上に複数設ければ、それらの領域上の任意の位置に音像を定位させることができる。

図３に示す例では、５つのスピーカＳＰ１乃至スピーカＳＰ５が配置されており、それらのスピーカＳＰ１乃至スピーカＳＰ５から各チャンネルの音声が出力される。ここで、スピーカＳＰ１乃至スピーカＳＰ５は、ユーザＵ１１の頭部の位置にある原点Ｏを中心とする球面上に配置されている。

この場合、原点Ｏを始点とし、各スピーカＳＰ１乃至スピーカＳＰ５の位置の方向を向く３次元のベクトルをベクトルｌ_１乃至ベクトルｌ_５として、上述した式（２）を解く計算と同様の計算を行い、各スピーカから出力される音声のゲインを求めればよい。

ここで、原点Ｏを中心とする球面上の領域のうち、スピーカＳＰ１、スピーカＳＰ４、およびスピーカＳＰ５により囲まれる三角形の領域を領域ＴＲ２１とする。同様に、原点Ｏを中心とする球面上の領域のうち、スピーカＳＰ３、スピーカＳＰ４、およびスピーカＳＰ５により囲まれる三角形の領域を領域ＴＲ２２とし、スピーカＳＰ２、スピーカＳＰ３、およびスピーカＳＰ５により囲まれる三角形の領域を領域ＴＲ２３とする。

これらの領域ＴＲ２１乃至領域ＴＲ２３は、図２に示した領域ＴＲ１１に対応する領域である。すなわち、図３の例では、領域ＴＲ２１乃至領域ＴＲ２３のそれぞれがメッシュとされる。いま、音像を定位させたい位置を示す３次元のベクトルをベクトルｐとすると、図３の例では、ベクトルｐは領域ＴＲ２１上の位置を示している。

そこで、この例ではスピーカＳＰ１、スピーカＳＰ４、およびスピーカＳＰ５の位置を示すベクトルｌ_１、ベクトルｌ_４、およびベクトルｌ_５が用いられて式（２）を解く計算と同様の計算が行なわれ、スピーカＳＰ１、スピーカＳＰ４、およびスピーカＳＰ５の各スピーカから出力される音声のゲインが算出される。また、この場合、他のスピーカＳＰ２およびスピーカＳＰ３から出力される音声のゲインは０とされる。つまり、これらのスピーカＳＰ２およびスピーカＳＰ３からは、音声は出力されない。

このように空間上に５つのスピーカＳＰ１乃至スピーカＳＰ５を配置すれば、領域ＴＲ２１乃至領域ＴＲ２３からなる領域上の任意の位置に音像を定位させることが可能となる。

ところで、空間上に複数のメッシュがあり、全てのメッシュの範囲外にある音像の係数を式（２）によりそのまま計算すると、係数ｇ_１乃至係数ｇ_３のうちの少なくとも１つが負の値となり、VBAPでの音像定位ができなくなってしまう。

しかし、音像を何れかのメッシュの範囲内に移動させれば、従来通りにVBAPで音像を定位させることができるようになる。

但し、音像を移動させると、もともと音像を定位させたい移動前の位置と離れてしまうので、音像の移動は最小限にすべきである。

例えば図４に示すように、再生しようとする音像位置ＲＳＰ１１にある音像を、スピーカＳＰ１乃至スピーカＳＰ３を囲むメッシュとしての領域ＴＲ１１内に移動させることを考える。

このとき、移動させる音像の水平方向位置、つまり図中、横方向の位置を固定させ、音像を音像位置ＲＳＰ１１から垂直方向にのみ動かして、スピーカＳＰ１とスピーカＳＰ２とを結ぶ弧上に移動させれば、音像の移動量を最小限に抑えることができる。

この例では、音像位置ＲＳＰ１１にあった音像の移動先は、音像位置ＶＳＰ１１となる。一般的に人の聴覚は、音像の垂直方向への移動に比べて水平方向への移動に対して敏感である。したがって、音像位置を水平方向に固定して垂直方向にのみ移動させれば、音像の移動による音質の劣化も抑制することができる。

しかし、従来の技術においては音像を移動させようとすると膨大な演算が必要であるだけでなく、音像位置ＶＳＰ１１などのメッシュの境界上に音像を移動させることができなかった。

具体的には、従来の技術（例えばhttp://www.acoustics.hut.fi/research/cat/vbap/参照）では、まずメッシュごとに対象となる位置に音像を定位させるためのVBAPの計算が行われる。そして、ゲインとなる係数が全て正の値となるメッシュがあれば、音像の位置はそのメッシュ内にあるとされ、音像の移動は不要であるとされる。

一方、音像の位置が何れのメッシュ内にもない場合には、音像が垂直方向に移動される。音像を垂直方向に移動させる場合、予め定められた定量値だけ音像が垂直方向に移動され、移動後の音像位置についてメッシュごとにVBAPの計算が行われ、ゲインとなる係数が求められる。そして、メッシュについて算出された係数が全て正の値となるメッシュがある場合、そのメッシュが移動後の音像位置を含むメッシュとされて、算出された係数により音声信号に対するゲイン調整が行われる。

これに対して、全ての係数が正の値となるメッシュがない場合には、音像の位置がさらに定量値だけ移動され、音像位置が何れかのメッシュ内に移動されるまで上述した処理が繰り返し行われる。

したがって、移動後の音像位置がメッシュの境界上に位置することはほとんどなく、音像の移動量を最小限に抑えることができなかった。その結果、音像の移動量も大きくなって移動前のもとの音像位置からも大きく離れてしまうことになる。

また、音像の移動時には移動後の音像がメッシュ内に位置するか否かの演算を、音像を移動させるたびに各メッシュに対して行わなければならないので、演算量が膨大になってしまうおそれがあった。

そこで、本技術では、まずVBAPの計算を行う前に、定位させたい音像が全メッシュの範囲外にあるか否かを特定する。そして、音像がメッシュ外にある場合には、その音像を垂直方向の最も近いメッシュの境界上に移動させることにより、音像の移動量を最小限に抑えるとともに、音像の定位に必要な演算量を削減できるようにする。

以下、本技術について説明していく。

本技術では、音像位置や、音声を再生するスピーカの位置は、例えば図５に示すように水平方向角度θ、垂直方向角度γ、および視聴者までの距離ｒで表されるものとする。

例えば、図示せぬスピーカから出力される各オブジェクトの音声を聴いている視聴者の位置を原点Ｏとし、図中、右上方向、左上方向、および上方向を互いに垂直なｘ軸、ｙ軸、およびｚ軸の方向とする３次元座標系を考える。このとき、１つのオブジェクトに対応する音像（音源）の位置を音像位置ＲＳＰ２１とすると、３次元座標系における音像位置ＲＳＰ２１に音像を定位させればよい。

また、音像位置ＲＳＰ２１と原点Ｏとを結ぶ直線を直線Ｌとすると、ｘｙ平面上において直線Ｌとｘ軸とがなす図中、水平方向の角度（方位角）が、音像位置ＲＳＰ２１の水平方向の位置を示す水平方向角度θとなり、水平方向角度θは-180°≦θ≦180°を満たす任意の値とされる。

例えばｘ軸方向の正の方向がθ＝０°とされ、ｘ軸方向の負の方向がθ＝+180°＝-180°とされる。また、原点Ｏを中心に反時計回りの方向がθの＋方向とされ、原点Ｏを中心に時計回りの方向がθの−方向とされる。

さらに、直線Ｌとｘｙ平面とがなす角度、つまり図中、垂直方向の角度（仰角）が、音像位置ＲＳＰ２１の垂直方向の位置を示す垂直方向角度γとなり、垂直方向角度γは-90°≦γ≦90°を満たす任意の値とされる。例えばｘｙ平面の位置がγ＝０°とされ、図中、上方向が垂直方向角度γの＋方向とされ、図中、下方向が垂直方向角度γの−方向とされる。

また、直線Ｌの長さ、つまり原点Ｏから音像位置ＲＳＰ２１までの距離が視聴者までの距離ｒとされ、距離ｒは０以上の値とされる。すなわち、距離ｒは、０≦ｒ≦∞を満たす値とされる。但し、VBAPでは、全てのスピーカと音像から視聴者までの距離ｒが同一であり、距離ｒを１に正規化して計算を行うのが一般的な方式であるので、以下では各スピーカや音像の位置は距離ｒ＝１であるものとして説明を続ける。

また、以下ではVBAPに用いられるメッシュがＮ個あるものとし、ｎ番目（但し、１≦ｎ≦Ｎ）のメッシュを構成する３つのスピーカの各位置を、水平方向角度θと垂直方向角度γを用いて（θ_ｎ１，γ_ｎ１）、（θ_ｎ２，γ_ｎ２）、および（θ_ｎ３，γ_ｎ３）と定義することとする。すなわち、例えばｎ番目のメッシュを構成する１つ目のスピーカの水平方向角度θがθ_ｎ１で表され、そのスピーカの垂直方向角度γがγ_ｎ１で表される。

なお、２次元VBAPの場合は、メッシュを構成する２つのスピーカの各位置が、水平方向角度θと垂直方向角度γが用いられて（θ_ｎ１，γ_ｎ１）、および（θ_ｎ２，γ_ｎ２）と定義される。

まず、本技術により移動対象となる音像（以下、対象音像とも称することとする）を、所定のメッシュの境界線上、つまりメッシュ境界の円弧上に移動させる方法について説明する。

上述した３次元VBAPでは、次式（３）によって、三角形状のメッシュの逆行列Ｌ_１２３ ^−１と対象音像の位置ｐから３つの係数ｇ_１乃至係数ｇ_３を計算により得ることができる。

なお、式（３）においてｐ_１、ｐ_２、およびｐ_３は、対象音像の位置を示す直交座標系、すなわち図５に示したｘｙｚ座標系上のｘ軸、ｙ軸、およびｚ軸の座標を示している。

またｌ_１１、ｌ_１２、およびｌ_１３は、メッシュを構成する１つ目のスピーカへ向くベクトルｌ_１をｘ軸、ｙ軸、およびｚ軸の成分に分解した場合におけるｘ成分、ｙ成分、およびｚ成分の値であり、１つ目のスピーカのｘ座標、ｙ座標、およびｚ座標に相当する。

同様に、ｌ_２１、ｌ_２２、およびｌ_２３は、メッシュを構成する２つ目のスピーカへ向くベクトルｌ_２をｘ軸、ｙ軸、およびｚ軸の成分に分解した場合におけるｘ成分、ｙ成分、およびｚ成分の値である。また、ｌ_３１、ｌ_３２、およびｌ_３３は、メッシュを構成する３つ目のスピーカへ向くベクトルｌ_３をｘ軸、ｙ軸、およびｚ軸の成分に分解した場合におけるｘ成分、ｙ成分、およびｚ成分の値である。

また、以下、メッシュの逆行列Ｌ_１２３ ^−１の各要素を次式（４）に示すように記すこととする。

さらに、ｘｙｚ座標系から球座標系の座標θ、γ、およびｒへの変換は、ｒ＝１である場合には次式（５）に示すように定義されている。

VBAPでは、メッシュの境界である１つの弧上に音像を定位させる場合、その弧上にないスピーカのゲイン（係数）の値は０となる。そのため、対象音像をメッシュの１つの境界上に移動させると、移動後の位置に音像を定位させるための各スピーカのゲイン、より詳細には各スピーカで再生される音声信号のゲインのうちの１つのゲインは０となる。

このことから、音像をメッシュの境界上に移動させることは、メッシュを構成する３つのスピーカのうちの１つのスピーカのゲインが０となる位置に、音像を移動させることであるということができる。

例えば、対象音像の水平方向角度θを固定したまま、３つのスピーカのうち、ｉ番目（但し、１≦ｉ≦３）のスピーカのゲインｇ_ｉが０となる位置に対象音像を移動させたとすると、式（３）から式変形により得られる次式（６）が成立する。

この式（６）で表される方程式を解くと、次式（７）が得られる。

式（７）では、垂直方向角度γが対象音像の移動先の位置の垂直方向角度である。また、式（７）では、水平方向角度θが対象音像の移動先の水平方向角度であるが、対象音像を水平方向に移動させないので、この水平方向角度θは、対象音像の移動前の水平方向角度θの値と同じである。

したがって、メッシュの逆行列Ｌ_１２３ ^−１、対象音像の移動前の水平方向角度θ、およびメッシュを構成する、ゲイン（係数）が０となるスピーカが分かれば、対象音像の移動先の位置の垂直方向角度γを得ることができる。なお、以下では、対象音像の移動先の位置を移動目的位置とも称することとする。

なお、以上においては、３次元VBAPが行われる場合について移動目的位置の算出方法を説明したが、２次元VBAPが行われる場合においても、３次元VBAPの場合と同様の計算により移動目的位置を算出することができる。

具体的には、２次元VBAPの場合、メッシュを構成する２つのスピーカの他に、その２つのスピーカを通る大円上にない任意の位置に仮想的なスピーカを１つ追加すれば、２次元VBAPの問題を３次元VBAPの問題の場合と同じ考えで解くことが可能となる。すなわち、メッシュを構成する２つのスピーカと、追加された仮想的なスピーカについて上述した式（７）を計算すれば、対象音像の移動目的位置を求めることができる。この場合、追加した仮想的な１つのスピーカのゲイン（係数）が０となる位置が対象音像を移動させるべき位置となる。

なお、３次元VBAPの場合においても、メッシュの１つの境界の両端に位置する２つのスピーカの他に、その２つのスピーカを通る大円上にない任意の位置に仮想的なスピーカを１つ追加して式（７）を計算しても移動目的位置を求めることが可能である。

したがって、式（７）では、少なくとも対象音像の移動先となる、メッシュの境界の両端に位置する２つのスピーカの位置情報と、対象音像の水平方向角度θとが分かれば、対象音像の移動目的位置を求めることができる。

また、メッシュの逆行列Ｌ_１２３ ^−１を求める計算方法は、VBAPにより各スピーカのゲイン（係数）を導く場合と同じであり、その計算方法は上述した非特許文献１に記載されている。したがって、ここでは逆行列の計算方法の詳細な説明は省略する。

続いて、音像の移動が必要な場合に、視聴者であるユーザがいる空間において、ユーザを囲むように配置された全メッシュのうち、音像の移動先となる位置にあるメッシュと、そのメッシュを構成するスピーカのうちのゲインが０となるスピーカを検出する方法について説明する。また、音像の移動が必要ない場合に、その音像位置が含まれている可能性のあるメッシュを検出する方法についても説明する。

まず、後段で各オブジェクトの音声に対して３次元VBAPが行われるか、または２次元VBAPが行われるかが特定され、その特定結果に応じた処理が行われる。

例えば、ユーザがいる空間にあるメッシュが全て２次元メッシュ、つまり２つのスピーカから構成されるメッシュである場合には、２次元VBAPが行われるとされる。これに対して、全メッシュのうち１つでも３次元メッシュ、つまり３つのスピーカから構成されるメッシュが含まれている場合には、３次元VBAPが行われるとされる。

〈２次元VBAPの場合の処理〉
後段で２次元VBAPが行われるとされた場合、以下の処理２Ｄ（１）乃至処理２Ｄ（４）が行われて、音像の移動が必要か否かと、その移動先とが求められる。

（処理２Ｄ（１））
まず、処理２Ｄ（１）として、ｎ番目の２次元メッシュの両端の位置、つまり２つのスピーカを結ぶメッシュ境界である弧の両端の位置を左限位置および右限位置とし、左限位置の水平方向角度である左限値θ_ｎｌと、右限位置の水平方向角度である右限値θ_ｎｒが次式（８）により求められる。

一般的には、ｎ番目の２次元メッシュを構成する１つ目のスピーカの水平方向角度θ_ｎ１と２つ目のスピーカの水平方向角度θ_ｎ２のうち、角度θが小さい方が左限値θ_ｎｌとされ、大きい方が右限値θ_ｎｒとされる。つまり、より水平方向角度が小さい方のスピーカ位置が左限位置とされ、より水平方向角度が大きい方のスピーカ位置が右限位置とされる。

但し、メッシュ境界である弧が球座標系におけるθ＝180°の点を包含する場合、すなわち、２つのスピーカの水平方向角度の差分が180°を超える場合には、より水平方向角度が大きい方のスピーカ位置が左限位置とされる。

式（８）の計算により左限値と右限値を定める処理がＮ個のメッシュについて行われる。

（処理２Ｄ（２））
続いて、処理２Ｄ（２）では、全てのメッシュについて左限値と右限値が定められると、次式（９）の演算により、全メッシュのなかから、対象音像の水平方向角度θにより示される水平方向位置を包含するメッシュが検出される。すなわち、水平方向において、左限位置と右限位置の間に対象音像が位置するようなメッシュが検出される。

但し、対象音像の水平方向位置を包含するメッシュが１つも検出されなかった場合には、対象音像の位置に最も近い左限位置または右限位置を有するメッシュが検出され、その結果検出されたメッシュの左限位置または右限位置となるスピーカ位置が対象音像の移動先の位置とされる。この場合、検出されたメッシュを示す情報が出力され、後述する処理２Ｄ（３）および処理２Ｄ（４）は不要となる。

（処理２Ｄ（３））
処理２Ｄ（２）により、対象音像の水平方向位置を包含するメッシュが検出されると、処理２Ｄ（３）が行われ、検出された各メッシュについて、そのメッシュについての対象音像の移動目的位置の候補である移動目的候補位置が算出される。

なお、移動目的候補位置は、水平方向角度θと垂直方向角度γにより特定されるが、水平方向角度は固定されたままとされるので、以下では移動目的候補位置を示す垂直方向角度を、単に移動目的候補位置とも称することとする。

処理２Ｄ（３）では、まずは処理対象であるｎ番目のメッシュの左限値と右限値が同じであるか否かが特定される。

そして、左限値と右限値が同じである場合には、左限位置の垂直方向角度と、右限位置の垂直方向角度のうち、より対象音像の垂直方向角度γに近い垂直方向角度、つまり差分がより小さい方の垂直方向角度が移動目的候補位置γ_ｎＤとされる。すなわち、より詳細には右限位置と左限位置のうち、より対象音像に近い方の垂直方向角度が、ｎ番目のメッシュについて求められた移動目的候補位置を示す垂直方向角度γ_ｎＤとされる。

これに対して、左限値と右限値が異なる場合、２次元のメッシュにさらに１つの仮想的なスピーカが追加され、その仮想的なスピーカと、右限位置および左限位置にあるスピーカとからなる三角形状の３次元メッシュが構成される。例えば、仮想的なスピーカとして、ユーザの真上、つまり垂直方向角度γ＝９０°の位置（以下、トップ位置とも称する）に配置されたトップスピーカが追加される。

そして、この３次元メッシュの逆行列Ｌ_１２３ ^−１が計算により求められ、上述した式（７）によって、追加された仮想的なスピーカの係数（ゲイン）が０となる場合における垂直方向角度が、対象音像の移動目的候補位置γ_ｎＤとして求められる。

式（７）では、左限位置と右限位置にあるスピーカの位置情報と、対象音像の水平方向角度θとが分かれば、移動目的候補位置γ_ｎＤを求めることができる。

（処理２Ｄ（４））
処理２Ｄ（３）によりメッシュごとに移動目的候補位置γ_ｎＤが求められると、処理２Ｄ（４）では求めた移動目的候補位置γ_ｎＤに基づいて、対象音像の移動が必要であるか否かが判定され、その判定結果に応じて音像位置の移動が行われる。

具体的には、求められた移動目的候補位置γ_ｎＤのなかから、移動前の対象音像の垂直方向角度γと最も垂直方向角度が近いものが検出され、検出により得られた移動目的候補位置γ_ｎＤが対象音像の垂直方向角度γと一致するか否かが判定される。

このとき、移動目的候補位置γ_ｎＤが対象音像の垂直方向角度γと一致する場合には、移動目的候補位置γ_ｎＤにより特定される位置は、移動前の対象音像の位置そのものであるから、対象音像の移動は必要ないとされる。この場合、処理２Ｄ（２）で検出された、対象音像の水平方向位置を包含する各メッシュを示す情報（以下、識別情報とも称する）が出力され、２次元VBAPの計算が行われるメッシュを示す情報として利用される。

なお、対象音像の垂直方向角度γと一致する移動目的候補位置γ_ｎＤを算出したメッシュが、対象音像が位置しているメッシュであるので、そのメッシュを示す識別情報のみが出力されるようにしてもよい。

これに対して、移動目的候補位置γ_ｎＤが対象音像の垂直方向角度γと一致しない場合、対象音像の移動が必要であるとされ、その移動目的候補位置γ_ｎＤが対象音像の最終的な移動目的位置とされる。より詳細には移動目的候補位置γ_ｎＤが対象音像の移動目的位置を示す垂直方向角度とされる。そして、対象音像の移動先を示す情報として移動目的位置と、その移動目的位置とされた移動目的候補位置γ_ｎＤを算出したメッシュの識別情報とが出力され、これらの移動目的位置と識別情報が、２次元VBAPの計算に利用される。

〈３次元VBAPの場合の処理〉
また、後段で３次元VBAPが行われるとされた場合、以下の処理３Ｄ（１）乃至処理３Ｄ（６）が行われて、音像の移動が必要か否かと、その移動先とが求められる。

（処理３Ｄ（１））
まず、処理３Ｄ（１）ではユーザの周囲に配置されているスピーカのなかに、トップスピーカとボトムスピーカが存在するかが確認される。ここで、ボトムスピーカとは、ユーザの真下にあるスピーカであり、具体的には垂直方向角度γ＝−９０°の位置（以下、ボトム位置とも称する）に配置されたスピーカである。

したがって、トップスピーカがある場合とは、垂直方向の位置として最も高い位置、つまり垂直方向角度γの取り得る値の最大値となる位置にスピーカがある場合である。同様に、ボトムスピーカがある場合とは、垂直方向の位置として最も低い位置、つまり垂直方向角度γの取り得る値の最小値となる位置にスピーカがある場合である。

対象音像を垂直方向に移動させる場合、下から上方向への移動、つまり垂直方向角度が大きくなる方向への移動と、上から下方向への移動、つまり垂直方向角度が小さくなる方向への移動との２通りの移動が考えられる。

また、VBAPのメッシュは、隣接するメッシュとメッシュの間に隙間がない状態と仮定されているので、トップスピーカが存在する場合には、音像の上から下方向への移動は不要である。同様に、ボトムスピーカが存在する場合には、音像の下から上方向への移動は不要である。したがって、処理３Ｄ（１）では、音像の移動が必要であるか否かを特定するためにトップスピーカとボトムスピーカが存在するかが特定される。

（処理３Ｄ（２））
続いて、処理３Ｄ（２）では各メッシュの左限値θ_ｎｌおよび右限値θ_ｎｒと、メッシュにおいて水平方向の左限位置と右限位置の間に位置するスピーカの水平方向角度である中間値θ_nmidとが計算される。さらにメッシュがトップ位置またはボトム位置を包含しているかが特定される。なお、以下、左限位置と右限位置の間にある、中間値θ_nmidにより示される位置を中間位置とも称することとする。

処理３Ｄ（２）では、メッシュが３次元メッシュであるか２次元メッシュであるかによって、異なる処理が行われる。

例えばメッシュが３次元メッシュである場合には、処理３Ｄ（２）として以下の処理３Ｄ（２．１）−１乃至処理３Ｄ（２．４）−１の処理が行われる。

すなわち、処理３Ｄ（２．１）−１ではｎ番目のメッシュを構成する３つのスピーカの水平方向角度θ_ｎ１、水平方向角度θ_ｎ２、および水平方向角度θ_ｎ３が小さい順に並べ替えられて水平方向角度θ_nlow1、水平方向角度θ_nlow2、および水平方向角度θ_nlow3とされる。ここで、θ_nlow1≦θ_nlow2≦θ_nlow3である。

次に、処理３Ｄ（２．２）−１では、次式（１０）により水平方向角度θの差分diff_n1、差分diff_n2、および差分diff_n3が求められる。

そして処理３Ｄ（２．３）−１では次式（１１）が計算され、左限値θ_ｎｌ、右限値θ_ｎｒ、および中間値θ_nmidの各値として、処理対象となっているメッシュの水平方向角度θ_nlow1乃至水平方向角度θ_nlow3の何れかの値が選択される。

すなわち、式（１１）では、処理３Ｄ（２．２）−１で求めた差分diff_n1乃至差分diff_n3のなかに、差分の値が１８０°以上であるものがあるか否かが特定される。

そして、１８０°以上である差分がある場合には、処理対象のメッシュはトップ位置もボトム位置も包含していないメッシュとされ、水平方向角度θ_nlow1乃至水平方向角度θ_nlow3に基づいて、左限値θ_ｎｌ、右限値θ_ｎｒ、および中間値θ_nmidが定められる。

これに対して、１８０°以上である差分がない場合には、処理対象のメッシュは、トップ位置またはボトム位置を包含しているメッシュとされる。つまり、処理対象のメッシュ内には、トップ位置またはボトム位置が含まれている。

処理３Ｄ（２．４）−１では、処理３Ｄ（２．３）−１でトップ位置またはボトム位置を包含しているとされたメッシュについて、３次元VBAPの計算が行われる。すなわち、メッシュの逆行列Ｌ_１２３ ^−１が用いられて、トップ位置を定位させようとする音像の位置、つまりベクトルｐが示す位置とした場合における各スピーカの係数（ゲイン）が上述した式（３）により求められる。

その結果、得られた係数ｇ_１乃至係数ｇ_３が全て非負であれば、処理対象のメッシュはトップ位置を包含するメッシュであるので、この場合には対象音像の上から下方向への移動は不要となる。すなわち、垂直方向の位置として取り得る最も高い位置を包含するメッシュがある場合には、対象音像の上から下方向への移動は不要となる。

逆に、得られた係数ｇ_１乃至係数ｇ_３に負の値が含まれていれば、メッシュはボトム位置を包含するメッシュであるので、この場合には対象音像の下から上方向への移動が不要となる。すなわち、垂直方向の位置として取り得る最も低い位置を包含するメッシュがある場合には、対象音像の下から上方向への移動は不要となる。

また、処理対象となっているメッシュが２次元メッシュである場合には、処理３Ｄ（２）として処理３Ｄ（２．１）−２が行われる。

処理３Ｄ（２．１）−２では、処理２Ｄ（１）と同様の処理が行われ、各メッシュについて式（８）により左限値θ_ｎｌと右限値θ_ｎｒが求められる。

（処理３Ｄ（３））
続いて、処理３Ｄ（３）では全メッシュのなかから、水平方向において対象音像の水平方向角度θにより示される水平方向位置を包含するメッシュが検出される。なお、処理３Ｄ（３）ではメッシュが２次元メッシュであるか３次元メッシュであるかによらず、同じ処理が行われる。

具体的には、処理対象のメッシュに左限位置と右限位置がある場合、次式（１２）により、水平方向において左限位置と右限位置の間に対象音像が位置するようなメッシュが検出される。

また、左限位置と右限位置がないメッシュ、つまりトップ位置またはボトム位置の何れか一方を包含しているメッシュは、水平方向において対象音像の水平方向位置を必ず包含している。

なお、対象音像の水平方向位置を包含するメッシュが１つも検出されなかった場合には、水平方向において対象音像に最も近い左限位置または右限位置を有するメッシュが検出され、検出されたメッシュの左限位置または右限位置に対象音像が移動されるものとする。この場合、検出されたメッシュの識別情報が出力され、以降の処理３Ｄ（４）乃至処理３Ｄ（６）を行う必要がなくなる。

また、対象音像の水平方向位置を包含するメッシュのうち、３次元メッシュが少なくとも１つ検出された場合、対象音像の上から下方向への移動、および下から上方向への移動がともに不要であるとされたときには、以降の処理３Ｄ（４）乃至処理３Ｄ（６）を行う必要がなくなる。この場合には、対象音像の移動は行われないものとし、検出されたメッシュの識別情報が出力され、以降の処理３Ｄ（４）乃至処理３Ｄ（６）を行う必要がなくなる。

（処理３Ｄ（４））
処理３Ｄ（３）で対象音像の水平方向位置を包含するメッシュが検出されると、処理３Ｄ（４）において、検出されたメッシュについて、対象音像の移動の目標となるメッシュの境界線、つまりメッシュの弧が特定される。

ここで、メッシュの移動の目標となる境界線とは、対象音像を垂直方向に移動させていったときに到達し得る境界線である。つまり、水平方向において、対象音像の水平方向角度θの位置を含む境界線である。

なお、処理対象のメッシュが２次元メッシュである場合には、その２次元メッシュがそのまま対象音像の移動目標となる弧とされる。

処理対象のメッシュが３次元メッシュである場合には、対象音像の移動の目標となる弧を特定することは、VBAPにおいて移動目的位置に音像を定位させるための係数（ゲイン）が０となるスピーカを特定することと等価である。

例えば、処理対象のメッシュが左限位置と右限位置を有するメッシュである場合、次式（１３）によって係数が０となるスピーカが特定される。

式（１３）では、まずメッシュの左限値θ_ｎｌ、右限値θ_ｎｒ、および中間値θ_nmidがθ_ｎｌ≦θ_nmid≦θ_ｎｒとなるように必要に応じてそれらの値と、対象音像の水平方向角度θが修正される。

そして、対象音像の水平方向角度θが中間値θ_nmidより小さい場合には、type1とされる。type1とされた場合、右限位置と中間位置にあるスピーカが、係数が０となるスピーカとなり得る。この場合、右限位置にあるスピーカが、係数が０となるスピーカとされて移動目的候補位置が算出される処理とともに、中間位置にあるスピーカが、係数が０となるスピーカとされて移動目的候補位置が算出される処理も行われる。

水平方向角度θが中間値θ_nmidより小さい場合、対象音像は中間位置よりも左限位置側に位置しているので、中間位置と左限位置とを結ぶ弧、および左限位置と右限位置とを結ぶ弧が対象音像の移動先となり得る。

また、式（１３）では、対象音像の水平方向角度θが中間値θ_nmid以上である場合には、type2とされる。type2とされた場合、左限位置と中間位置にあるスピーカが、係数が０となるスピーカとなり得る。

さらに、左限位置と右限位置がないメッシュ、つまりトップ位置またはボトム位置を包含するメッシュについては、以下の式（１４）によって係数が０となるスピーカが特定される。

式（１４）では、処理対象のメッシュの各スピーカの水平方向角度と、対象音像の水平方向角度θとの関係によって、type3乃至type5の何れかとされる。

type3とされた場合、水平方向角度θ_nlow3となる位置のスピーカ、すなわち最も水平方向角度が大きいスピーカが、係数が０となるスピーカとされる。

また、type4とされた場合、水平方向角度θ_nlow1となる位置のスピーカ、すなわち最も水平方向角度が小さいスピーカが、係数が０となるスピーカとされる。type5とされた場合、水平方向角度θ_nlow2となる位置のスピーカ、すなわち水平方向角度が２番目に小さいスピーカが、係数が０となるスピーカとされる。

（処理３Ｄ（５））
処理３Ｄ（４）において、対象音像の移動の目標となるメッシュの弧が特定されると、処理３Ｄ（５）では、対象音像の移動目的候補位置γ_ｎＤが算出される。この処理３Ｄ（５）では、処理対象となるメッシュが２次元メッシュであるか、または３次元メッシュであるかによって異なる処理が行われる。

例えば処理対象となるメッシュが３次元メッシュである場合、処理３Ｄ（５）として処理３Ｄ（５）−１が行われる。

処理３Ｄ（５）−１では、処理３Ｄ（４）で特定された係数が０となるスピーカの情報、対象音像の水平方向角度θ、およびメッシュの逆行列Ｌ_１２３ ^−１に基づいて上述した式（７）の計算が行われ、得られた垂直方向角度γが移動目的候補位置γ_ｎＤとされる。すなわち、対象音像は、水平方向の位置が固定されたまま、水平方向において対象音像の水平方向位置と同じ位置にあるメッシュの境界線上の位置まで垂直方向に移動される。ここで、メッシュの逆行列は、スピーカの位置情報から得ることができる。

なお、処理対象となるメッシュがtype1またはtype2のように、処理３Ｄ（４）で特定された、係数が０となり得るスピーカが２つあるメッシュである場合には、それらの２つのスピーカごとに移動目的候補位置γ_ｎＤが求められる。

また、処理対象となるメッシュが２次元メッシュである場合、処理３Ｄ（５）として処理３Ｄ（５）−２が行われる。処理３Ｄ（５）−２では、上述した処理２Ｄ（３）と同様の処理が行われて移動目的候補位置γ_ｎＤが求められる。

（処理３Ｄ（６））
最後に処理３Ｄ（６）では、対象音像の移動が必要であるか否かが判定され、その判定結果に応じて音像が移動される。

通常、VBAPのメッシュ配置では、３次元メッシュと２次元メッシュが混在していたとしても３次元メッシュについての移動目的候補位置γ_ｎＤか、２次元メッシュについての移動目的候補位置γ_ｎＤかの何れか一方のみが得られる。

３次元メッシュについて移動目的候補位置γ_ｎＤが得られた場合、対象音像の上から下方向への移動が必要であるかと、下から上方向への移動が必要であるかの判定が行われる。

すなわち、処理３Ｄ（１）でトップスピーカが存在しないとされ、かつ処理３Ｄ（２．４）−１の結果、トップ位置を包含するメッシュがなかった場合、対象音像の上から下方向への移動が必要であるとされる。

この場合、処理３Ｄ（５）−１で求められた移動目的候補位置γ_ｎＤのうちの最大値が移動目的候補位置γ_{ｎＤ_ｍａｘ}とされ、移動目的候補位置γ_{ｎＤ_ｍａｘ}が対象音像の垂直方向角度γより小さい場合には、移動目的候補位置γ_{ｎＤ_ｍａｘ}が最終的な移動目的位置とされる。

換言すれば、垂直方向において最も高い位置にある移動目的候補位置γ_ｎＤが、対象音像の垂直方向の位置よりも低い位置にある場合、対象音像の移動が必要であるとされ、対象音像が移動目的位置とされた移動目的候補位置γ_ｎＤに移動される。

対象音像が移動される場合には、対象音像の移動先を示す情報として移動目的位置、より詳細には移動目的位置を示す垂直方向角度とされた移動目的候補位置γ_{ｎＤ_ｍａｘ}と、その移動目的候補位置を算出したメッシュの識別情報とが出力される。

また、処理３Ｄ（１）でボトムスピーカが存在しないとされ、かつ処理３Ｄ（２．４）−１の結果、ボトム位置を包含するメッシュがなかった場合、対象音像の下から上方向への移動が必要であるとされる。

この場合、処理３Ｄ（５）−１で求められた移動目的候補位置γ_ｎＤのうちの最小値が移動目的候補位置γ_{ｎＤ_ｍｉｎ}とされ、移動目的候補位置γ_{ｎＤ_ｍｉｎ}が対象音像の垂直方向角度γより大きい場合には、移動目的候補位置γ_{ｎＤ_ｍｉｎ}が最終的な移動目的位置とされる。

換言すれば、垂直方向において最も低い位置にある移動目的候補位置γ_ｎＤが、対象音像の垂直方向の位置よりも高い位置にある場合、対象音像の移動が必要であるとされ、対象音像が移動目的位置とされた移動目的候補位置γ_ｎＤに移動される。

対象音像が移動される場合には、対象音像の移動先を示す情報として移動目的位置、より詳細には移動目的位置を示す垂直方向角度とされた移動目的候補位置γ_{ｎＤ_ｍｉｎ}と、その移動目的候補位置を算出したメッシュの識別情報とが出力される。

これに対して、以上の処理で対象音像の移動目的位置が得られなかった場合、例えば上から下方向への移動も下から上方向への移動も必要ないとされた場合、対象音像は何れかのメッシュ内にある。そのような場合には、対象音像が位置する可能性のあるメッシュとして、処理３Ｄ（３）で検出された、対象音像の水平方向位置を包含する各メッシュを示す識別情報が出力される。

また、２次元メッシュについての移動目的候補位置γ_ｎＤが得られた場合、処理２Ｄ（４）と同様の処理が行われる。

なお、トップスピーカやボトムスピーカの有無や、トップ位置またはボトム位置を包含するメッシュの有無は、メッシュを構成するスピーカの位置関係により定まる。したがって、処理３Ｄ（６）では、メッシュを構成するスピーカの位置関係、または移動目的候補位置と対象音像の垂直方向角度の少なくとも何れかに基づいて、対象音像の移動が必要であるか否か、つまり対象音像がメッシュ外にあるか否かが判定されるということができる。

以上のように、処理２Ｄ（１）乃至処理２Ｄ（４）や、処理３Ｄ（１）乃至処理３Ｄ（６）を行うことで、簡単な演算で対象音像がVBAPのメッシュ外にあるか否かを判定することができるとともに、対象音像の移動目的位置を求めることができる。

特に、対象音像の移動目的位置として、メッシュの境界上の位置を求めることができるので、適切な位置へと対象音像を移動させることができる。すなわち、より高精度に音像を定位させることができる。これにより、音像の移動により生じる音像位置のずれを最小限に抑え、より高品質な音声を得ることができる。

しかも、以上において説明した処理では、対象音像についてVBAPの計算をすべきメッシュ、つまり対象音像の位置を包含する可能性のあるメッシュを特定することが可能であるので、後段におけるVBAPの計算量も大幅に削減することができる。

VBAPでは、音像がどのメッシュの内部にあるかを直接特定することができないため、全てのメッシュについて係数（ゲイン）を求める計算が行われ、得られた全ての係数が非負であるメッシュが、音像が位置しているメッシュであるとされる。

したがって、この場合には、全てのメッシュについてVBAPの計算を行わなければならないので、メッシュの数が多い場合には、膨大な計算量が必要となる。

しかし、本技術では対象音像の移動が必要である場合には、その移動先である移動目的位置が属すメッシュを示す識別情報が出力されるので、そのメッシュについてのみVBAPの計算を行えばよく、VBAPの計算量を大幅に削減することができる。

また、対象音像の移動が必要でない場合でも、対象音像の位置を包含する可能性のあるメッシュを示す識別情報が出力されるので、それらのメッシュ以外については、VBAPの計算を行う必要がない。したがって、この場合にもVBAPの計算量を大幅に削減することができる。

〈音声処理装置の構成例〉
次に、本技術を適用した具体的な実施の形態について説明する。

図６は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。

音声処理装置１１は、外部から供給されたモノラルの音声信号に対してチャンネルごとのゲイン調整を行なうことで、Ｍチャンネルの音声信号を生成し、Ｍ個の各チャンネルに対応するスピーカ１２−１乃至スピーカ１２−Ｍに音声信号を供給する。

スピーカ１２−１乃至スピーカ１２−Ｍは、音声処理装置１１から供給された音声信号に基づいて、各チャンネルの音声を出力する。すなわち、スピーカ１２−１乃至スピーカ１２−Ｍは、各チャンネルの音声を出力する音源となる音声出力部である。なお、以下、スピーカ１２−１乃至スピーカ１２−Ｍを特に区別する必要のない場合、単にスピーカ１２とも称することとする。

スピーカ１２は、コンテンツ等を視聴するユーザを囲むように配置されている。例えば、各スピーカ１２は、ユーザの位置を中心とする球の表面上の位置に配置されている。これらのＭ個のスピーカ１２が、ユーザを囲むメッシュを構成するスピーカである。

音声処理装置１１は、位置算出部２１、ゲイン算出部２２、およびゲイン調整部２３から構成される。

音声処理装置１１には、例えば移動物体などのオブジェクトに取り付けられたマイクロホンにより収音された音声の音声信号、そのオブジェクトの位置情報、およびメッシュ情報が供給される。

ここで、オブジェクトの位置情報とは、オブジェクトの音声の音像位置を示す水平方向角度および垂直方向角度である。

また、メッシュ情報には、各スピーカ１２についての位置情報と、メッシュを構成するスピーカ１２の情報とが含まれている。具体的には、各スピーカ１２を特定するインデックスと、スピーカ１２の位置を特定するための水平方向角度および垂直方向角度とが、スピーカ１２についての位置情報としてメッシュ情報に含まれている。また、メッシュ情報には、メッシュを構成するスピーカ１２の情報として、メッシュを識別する情報と、そのメッシュを構成するスピーカ１２のインデックスとが含まれている。

位置算出部２１は、供給されたオブジェクトの位置情報とメッシュ情報に基づいて、オブジェクトの音像の移動目的位置を算出し、移動目的位置とメッシュの識別情報とをゲイン算出部２２に供給する。

ゲイン算出部２２は、位置算出部２１から供給された移動目的位置および識別情報と、供給されたオブジェクトの位置情報とに基づいて各スピーカ１２のゲインを算出し、ゲイン調整部２３に供給する。

ゲイン調整部２３は、ゲイン算出部２２から供給された各ゲインに基づいて、外部から供給されたオブジェクトの音声信号に対するゲイン調整を行なって、その結果得られたＭ個の各チャンネルの音声信号をスピーカ１２に供給して出力させる。

ゲイン調整部２３は、増幅部３１−１乃至増幅部３１−Ｍを備えている。増幅部３１−１乃至増幅部３１−Ｍは、ゲイン算出部２２から供給されたゲインに基づいて、外部から供給された音声信号のゲイン調整を行い、その結果得られた音声信号をスピーカ１２−１乃至スピーカ１２−Ｍに供給する。

なお、以下、増幅部３１−１乃至増幅部３１−Ｍを個々に区別する必要がない場合、単に増幅部３１とも称する。

〈位置算出部の構成例〉
また、図６の音声処理装置１１における位置算出部２１は図７に示すように構成される。

位置算出部２１は、メッシュ情報取得部６１、２次元位置算出部６２、３次元位置算出部６３、および移動判定部６４から構成される。

メッシュ情報取得部６１は、外部からメッシュ情報を取得して、スピーカ１２から構成されるメッシュに３次元メッシュが含まれるか否かを特定し、その特定結果に応じてメッシュ情報を２次元位置算出部６２または３次元位置算出部６３に供給する。すなわち、メッシュ情報取得部６１では、ゲイン算出部２２で２次元VBAPが行われるか、または３次元VBAPが行われるかが特定される。

２次元位置算出部６２は、メッシュ情報取得部６１から供給されたメッシュ情報および外部から供給されたオブジェクトの位置情報に基づいて、処理２Ｄ（１）乃至処理２Ｄ（３）を行って対象音像の移動目的候補位置を算出し、移動判定部６４に供給する。

３次元位置算出部６３は、メッシュ情報取得部６１から供給されたメッシュ情報および外部から供給されたオブジェクトの位置情報に基づいて、処理３Ｄ（１）乃至処理３Ｄ（５）を行って対象音像の移動目的候補位置を算出し、移動判定部６４に供給する。

移動判定部６４は、２次元位置算出部６２から供給された移動目的候補位置、または３次元位置算出部６３から供給された移動目的候補位置と、供給されたオブジェクトの位置情報とに基づいて対象音像の移動目的位置を求め、ゲイン算出部２２に供給する。

〈２次元位置算出部の構成例〉
さらに、図７の２次元位置算出部６２は、図８に示すように構成される。

２次元位置算出部６２は、端算出部９１、メッシュ検出部９２、および候補位置算出部９３から構成される。

端算出部９１は、メッシュ情報取得部６１から供給されたメッシュ情報に基づいて、各メッシュの左限値θ_ｎｌと右限値θ_ｎｒを算出し、メッシュ検出部９２に供給する。

メッシュ検出部９２は、供給されたオブジェクトの位置情報と、端算出部９１から供給された左限値および右限値とに基づいて、対象音像の水平方向位置を包含するメッシュを検出する。メッシュ検出部９２は、メッシュの検出結果と、検出されたメッシュの左限値および右限値とを候補位置算出部９３に供給する。

候補位置算出部９３は、メッシュ情報取得部６１からのメッシュ情報、供給されたオブジェクトの位置情報、並びにメッシュ検出部９２からの検出結果、左限値、および右限値に基づいて、対象音像の移動目的候補位置γ_ｎＤを算出し、移動判定部６４に供給する。なお、候補位置算出部９３が、例えばメッシュ情報に含まれるスピーカ１２の位置情報から、予めメッシュの逆行列Ｌ_１２３ ^−１を算出して保持しておくようにしてもよい。

〈３次元位置算出部の構成例〉
また、図７の３次元位置算出部６３は、図９に示すように構成される。

３次元位置算出部６３は、特定部１３１、端算出部１３２、メッシュ検出部１３３、候補位置算出部１３４、端算出部１３５、メッシュ検出部１３６、および候補位置算出部１３７から構成される。

特定部１３１は、メッシュ情報取得部６１から供給されたメッシュ情報に基づいて、スピーカ１２のなかにトップスピーカおよびボトムスピーカがあるかを特定し、その特定結果を移動判定部６４に供給する。

端算出部１３２乃至候補位置算出部１３４は、図８の端算出部９１乃至候補位置算出部９３と同様であるため、その説明は省略する。

端算出部１３５は、メッシュ情報取得部６１から供給されたメッシュ情報に基づいて、各メッシュの左限値、右限値、および中間値を算出するとともに、メッシュがトップ位置またはボトム位置を包含しているかを特定し、算出結果と特定結果をメッシュ検出部１３６に供給する。

メッシュ検出部１３６は、供給されたオブジェクトの位置情報と、端算出部１３５から供給された算出結果および特定結果とに基づいて、対象音像の水平方向位置を包含するメッシュを検出し、そのメッシュにおける音像の移動先となる弧を特定し、候補位置算出部１３７に供給する。

候補位置算出部１３７は、メッシュ情報取得部６１からのメッシュ情報、供給されたオブジェクトの位置情報、およびメッシュ検出部１３６からの弧の検出結果に基づいて、対象音像の移動目的候補位置γ_ｎＤを算出し、移動判定部６４に供給する。また、候補位置算出部１３７は、メッシュ検出部１３６から供給されたトップ位置またはボトム位置を包含しているメッシュの特定結果を移動判定部６４に供給する。なお、候補位置算出部１３７が、例えばメッシュ情報に含まれるスピーカ１２の位置情報から、予め逆行列Ｌ_１２３ ^−１を算出して保持しておくようにしてもよい。

〈音像定位制御処理の説明〉
ところで、音声処理装置１１にメッシュ情報、オブジェクトの位置情報、および音声信号が供給され、オブジェクトの音声の出力が指示されると、音声処理装置１１は音像定位制御処理を開始してオブジェクトの音声を出力させ、その音像を適切な位置に定位させる。

以下、図１０のフローチャートを参照して、音声処理装置１１による音像定位制御処理について説明する。

ステップＳ１１において、メッシュ情報取得部６１は、外部から供給されたメッシュ情報に基づいて、後段のゲイン算出部２２において行われるVBAPの計算が、２次元VBAPであるか否かを判定し、その判定結果に応じてメッシュ情報を２次元位置算出部６２または３次元位置算出部６３に供給する。例えばメッシュ情報に、メッシュを構成するスピーカ１２の情報として、３つのスピーカ１２のインデックスが含まれているものが１つでもある場合、２次元VBAPでないと判定される。

ステップＳ１１において２次元VBAPであると判定された場合、ステップＳ１２において位置算出部２１は２次元VBAPにおける移動目的位置算出処理を行って、移動目的位置およびメッシュの識別情報をゲイン算出部２２に供給し、処理はステップＳ１４に進む。なお、２次元VBAPにおける移動目的位置算出処理の詳細は後述する。

また、ステップＳ１１において２次元VBAPでないと判定された場合、すなわち３次元VBAPであると判定された場合、処理はステップＳ１３へと進む。

ステップＳ１３において位置算出部２１は３次元VBAPにおける移動目的位置算出処理を行って、移動目的位置およびメッシュの識別情報をゲイン算出部２２に供給し、処理はステップＳ１４に進む。なお、３次元VBAPにおける移動目的位置算出処理の詳細は後述する。

ステップＳ１２またはステップＳ１３において移動目的位置が求められると、ステップＳ１４の処理が行われる。

ステップＳ１４において、ゲイン算出部２２は、位置算出部２１から供給された移動目的位置および識別情報と、供給されたオブジェクトの位置情報とに基づいて各スピーカ１２のゲインを算出し、ゲイン調整部２３に供給する。

具体的には、ゲイン算出部２２は、オブジェクトの位置情報に含まれる音像の水平方向角度θと、位置算出部２１から供給された移動目的位置である垂直方向角度とにより定まる位置を、音声の音像を定位させる位置であるベクトルｐの位置とする。そして、ゲイン算出部２２は、ベクトルｐを用いてメッシュの識別情報により示されるメッシュについて式（１）または式（３）を計算し、メッシュを構成する２つまたは３つのスピーカ１２のゲイン（係数）を求める。

また、ゲイン算出部２２は、識別情報により示されるメッシュを構成するスピーカ１２以外のスピーカ１２のゲインを０とする。

なお、対象音像の移動が不要な場合には、対象音像の移動目的位置が算出されず、ゲイン算出部２２には対象音像の位置を含む可能性のあるメッシュの識別情報が供給される。そのような場合には、ゲイン算出部２２は、オブジェクトの位置情報に含まれる音像の水平方向角度θと垂直方向角度γにより定まる位置を、音声の音像を定位させる位置であるベクトルｐの位置とする。そして、ゲイン算出部２２は、ベクトルｐを用いてメッシュの識別情報により示されるメッシュについて式（１）または式（３）を計算し、メッシュを構成する２つまたは３つのスピーカ１２のゲイン（係数）を求める。

さらに、ゲイン算出部２２はゲインを求めたメッシュのうち、全てのゲインが非負となるメッシュを選択し、選択したメッシュを構成するスピーカ１２のゲインをVBAPにより求めたゲインとし、他のスピーカ１２のゲインを０とする。

これにより、少ない演算で各スピーカ１２のゲインを求めることができる。なお、ゲイン算出部２２においてVBAPの計算に用いられるメッシュの逆行列は、候補位置算出部９３や候補位置算出部１３７から取得されて保持されるようにしてもよい。そのようにすることで計算量を削減し、より迅速に処理結果を得ることができるようになる。

ステップＳ１５において、ゲイン調整部２３の増幅部３１は、ゲイン算出部２２から供給されたゲインに基づいて、外部から供給されたオブジェクトの音声信号のゲイン調整を行い、その結果得られた音声信号をスピーカ１２に供給し、音声を出力させる。

各スピーカ１２は、増幅部３１から供給された音声信号に基づいて音声を出力する。これにより、目標とする位置に音像を定位させることができる。スピーカ１２から音声が出力されると、音像定位制御処理は終了する。

以上のようにして、音声処理装置１１は、対象音像の移動目的位置を算出し、その算出結果に応じた各スピーカ１２のゲインを求めて音声信号のゲイン調整を行なう。これにより、目標とする位置に音像を定位させることができ、より高品質な音声を得ることができる。

〈２次元VBAPにおける移動目的位置算出処理の説明〉
次に、図１１のフローチャートを参照して、図１０のステップＳ１２の処理に対応する２次元VBAPにおける移動目的位置算出処理について説明する。

ステップＳ４１において、端算出部９１は、メッシュ情報取得部６１から供給されたメッシュ情報に基づいて、各メッシュの左限値θ_ｎｌと右限値θ_ｎｒを算出し、メッシュ検出部９２に供給する。すなわち、上述した処理２Ｄ（１）が行われて、式（８）によりＮ個のメッシュごとに左限値と右限値が求められる。

ステップＳ４２において、メッシュ検出部９２は、供給されたオブジェクトの位置情報と、端算出部９１から供給された左限値および右限値とに基づいて、対象音像の水平方向位置を包含するメッシュを検出する。

すなわち、メッシュ検出部９２は、上述した処理２Ｄ（２）を行って、式（９）の計算により対象音像の水平方向位置を包含するメッシュを検出し、メッシュの検出結果と、検出されたメッシュの左限値および右限値とを候補位置算出部９３に供給する。

ステップＳ４３において、候補位置算出部９３は、メッシュ情報取得部６１からのメッシュ情報、供給されたオブジェクトの位置情報、並びにメッシュ検出部９２からの検出結果、左限値、および右限値に基づいて、対象音像の移動目的候補位置γ_ｎＤを算出し、移動判定部６４に供給する。すなわち、上述した処理２Ｄ（３）が行われる。

ステップＳ４４において、移動判定部６４は、候補位置算出部９３から供給された移動目的候補位置と、供給されたオブジェクトの位置情報とに基づいて、対象音像の移動が必要であるか否かを判定する。

すなわち、上述した処理２Ｄ（４）が行われる。具体的には、移動目的候補位置γ_ｎＤのなかから、対象音像の垂直方向角度γと最も垂直方向角度が近いものが検出され、検出により得られた移動目的候補位置γ_ｎＤが対象音像の垂直方向角度γと一致する場合、移動が不要であると判定される。

ステップＳ４４において移動が必要であると判定された場合、ステップＳ４５において、移動判定部６４は、対象音像の移動目的位置と、メッシュの識別情報とをゲイン算出部２２に出力し、２次元VBAPにおける移動目的位置算出処理は終了する。２次元VBAPにおける移動目的位置算出処理が終了すると、その後、処理は図１０のステップＳ１４へと進む。

例えば、対象音像の垂直方向角度γと最も近い移動目的候補位置γ_ｎＤが移動目的位置とされ、移動目的位置と、その移動目的位置を算出したメッシュの識別情報とが出力される。

一方、ステップＳ４４において移動が必要ないと判定された場合、ステップＳ４６において、移動判定部６４は、移動目的候補位置γ_ｎＤを算出したメッシュの識別情報をゲイン算出部２２に出力し、２次元VBAPにおける移動目的位置算出処理は終了する。すなわち、対象音像の水平方向位置を包含しているとされた全てのメッシュの識別情報が出力される。２次元VBAPにおける移動目的位置算出処理が終了すると、その後、処理は図１０のステップＳ１４へと進む。

以上のようにして、位置算出部２１は、水平方向において対象音像の位置を包含するメッシュを検出し、そのメッシュの位置情報と対象音像の水平方向角度θとに基づいて、対象音像の移動先となる移動目的位置を算出する。

これにより、少ない演算量で対象音像がメッシュ外にあるか否かを特定することができるとともに、対象音像の適切な移動目的位置を高精度に求めることができる。その結果、音像の移動により生じる音像位置のずれを最小限に抑え、より高品質な音声を得ることができる。特に位置算出部２１によれば、垂直方向において対象音像の位置から最も近いメッシュの境界上の位置を、移動目的位置として求めることができるので、音像の移動により生じる音像位置のずれを最小限に抑えることができる。

〈３次元VBAPにおける移動目的位置算出処理の説明〉
続いて、図１２のフローチャートを参照して、図１０のステップＳ１３の処理に対応する３次元VBAPにおける移動目的位置算出処理について説明する。

ステップＳ７１において、特定部１３１は、メッシュ情報取得部６１から供給されたメッシュ情報に基づいて、スピーカ１２のなかにトップスピーカおよびボトムスピーカがあるかを特定し、その特定結果を移動判定部６４に供給する。すなわち、上述した処理３Ｄ（１）が行われる。

ステップＳ７２において、３次元位置算出部６３は、２次元メッシュにおける移動目的候補位置の算出処理を行い、２次元メッシュについての移動目的候補位置を算出し、その算出結果を移動判定部６４に供給する。すなわち、２次元メッシュについて、上述した処理３Ｄ（２）乃至処理３Ｄ（５）が行われる。なお、２次元メッシュにおける移動目的候補位置の算出処理の詳細は後述する。

ステップＳ７３において、３次元位置算出部６３は、３次元メッシュにおける移動目的候補位置の算出処理を行い、３次元メッシュについての移動目的候補位置を算出し、その算出結果を移動判定部６４に供給する。すなわち、３次元メッシュについて、上述した処理３Ｄ（２）乃至処理３Ｄ（５）が行われる。なお、３次元メッシュにおける移動目的候補位置の算出処理の詳細は後述する。

ステップＳ７４において、移動判定部６４は、３次元位置算出部６３から供給された移動目的候補位置、供給されたオブジェクトの位置情報、特定部１３１からの特定結果、および候補位置算出部１３７を介してメッシュ検出部１３６から供給されたトップ位置またはボトム位置を含むメッシュの情報に基づいて、対象音像の移動が必要であるか否かを判定する。すなわち、上述した処理３Ｄ（６）が行われる。

ステップＳ７４において移動が必要であると判定された場合、ステップＳ７５において、移動判定部６４は、対象音像の移動目的位置と、メッシュの識別情報とをゲイン算出部２２に出力し、３次元VBAPにおける移動目的位置算出処理は終了する。３次元VBAPにおける移動目的位置算出処理が終了すると、その後、処理は図１０のステップＳ１４へと進む。

一方、ステップＳ７４において移動が必要ないと判定された場合、ステップＳ７６において、移動判定部６４は、移動目的候補位置γ_ｎＤを算出したメッシュの識別情報をゲイン算出部２２に出力し、３次元VBAPにおける移動目的位置算出処理は終了する。すなわち、対象音像の水平方向位置を包含しているとされた全てのメッシュの識別情報が出力される。３次元VBAPにおける移動目的位置算出処理が終了すると、その後、処理は図１０のステップＳ１４へと進む。

以上のようにして、位置算出部２１は、水平方向において対象音像の位置を包含するメッシュを検出し、そのメッシュの位置情報と対象音像の水平方向角度θとに基づいて、対象音像の移動先となる移動目的位置を算出する。これにより、少ない演算量で対象音像がメッシュ外にあるか否かを特定することができるとともに、対象音像の適切な移動目的位置を高精度に求めることができる。

〈２次元メッシュにおける移動目的候補位置の算出処理の説明〉
続いて、図１３のフローチャートを参照して、図１２のステップＳ７２の処理に対応する２次元メッシュにおける移動目的候補位置の算出処理について説明する。

ステップＳ１１１において、端算出部１３２は、メッシュ情報取得部６１から供給されたメッシュ情報に基づいて、各メッシュの左限値θ_ｎｌと右限値θ_ｎｒを算出し、メッシュ検出部１３３に供給する。すなわち、上述した処理３Ｄ（２．１）−２が行われて、式（８）によりＮ個のメッシュごとに左限値と右限値が求められる。

ステップＳ１１２において、メッシュ検出部１３３は、供給されたオブジェクトの位置情報と、端算出部１３２から供給された左限値および右限値とに基づいて、対象音像の水平方向位置を包含するメッシュを検出する。すなわち、上述した処理３Ｄ（３）が行われる。

ステップＳ１１３において、メッシュ検出部１３３は、ステップＳ１１２において検出された、対象音像の水平方向位置を包含する各メッシュについて、対象音像の移動目標となる弧を特定する。具体的には、メッシュ検出部１３３は、ステップＳ１１２において検出された２次元メッシュの境界線である弧を、そのまま移動目標となる弧とする。

メッシュ検出部１３３は、対象音像の水平方向位置を包含するメッシュの検出結果と、検出されたメッシュの左限値および右限値とを候補位置算出部１３４に供給する。

ステップＳ１１４において、候補位置算出部１３４は、メッシュ情報取得部６１からのメッシュ情報、供給されたオブジェクトの位置情報、並びにメッシュ検出部１３３からの検出結果、左限値、および右限値に基づいて、対象音像の移動目的候補位置γ_ｎＤを算出し、移動判定部６４に供給する。すなわち、上述した処理３Ｄ（５）−２が行われる。

対象音像の移動目的候補位置が算出されると、２次元メッシュにおける移動目的候補位置の算出処理は終了し、その後、処理は図１２のステップＳ７３へと進む。

以上のようにして３次元位置算出部６３は、水平方向において対象音像の位置を包含する２次元メッシュを検出し、その２次元メッシュの位置情報と対象音像の水平方向角度θとに基づいて、対象音像の移動先となる移動目的候補位置を算出する。これにより、簡単な計算で、より高精度に対象音像の適切な移動先を算出することができる。

〈３次元メッシュにおける移動目的候補位置の算出処理の説明〉
さらに、図１４のフローチャートを参照して、図１２のステップＳ７３の処理に対応する３次元メッシュにおける移動目的候補位置の算出処理について説明する。

ステップＳ１４１において、端算出部１３５は、メッシュ情報取得部６１から供給されたメッシュ情報に基づいて、メッシュを構成する３つのスピーカの水平方向角度を並び替える。すなわち、上述した処理３Ｄ（２．１）−１が行われる。

ステップＳ１４２において、端算出部１３５は、並び替えた水平方向角度に基づいて、水平方向角度の差分を求める。すなわち、上述した処理３Ｄ（２．２）−１が行われる。

ステップＳ１４３において、端算出部１３５は、求めた差分に基づいて、トップ位置またはボトム位置を包含しているメッシュを特定するとともに、トップ位置またはボトム位置を包含していないメッシュの左限値、右限値、および中間値を算出する。すなわち、上述した処理３Ｄ（２．３）−１および処理３Ｄ（２．４）−１が行われる。

端算出部１３５は、トップ位置またはボトム位置を包含しているメッシュの特定結果と、トップ位置またはボトム位置を包含しているメッシュの水平方向角度θ_nlow1乃至水平方向角度θ_nlow3とをメッシュ検出部１３６に供給する。また、端算出部１３５は、トップ位置またはボトム位置を包含していないメッシュの左限値、右限値、および中間値をメッシュ検出部１３６に供給する。

ステップＳ１４４において、メッシュ検出部１３６は、供給されたオブジェクトの位置情報と、端算出部１３５から供給された算出結果および特定結果とに基づいて、対象音像の水平方向位置を包含するメッシュを検出する。すなわち、上述した処理３Ｄ（３）が行われる。

ステップＳ１４５において、メッシュ検出部１３６は、供給されたオブジェクトの位置情報と、端算出部１３５から供給されたメッシュの左限値、右限値、および中間値、メッシュの水平方向角度θ_nlow1乃至水平方向角度θ_nlow3、および特定結果に基づいて、対象音像の移動目標となる弧を特定する。すなわち、上述した処理３Ｄ（４）が行われる。

メッシュ検出部１３６は、移動目標となる弧の特定結果、つまり係数が０となるスピーカの特定結果を候補位置算出部１３７に供給するとともに、トップ位置またはボトム位置を包含しているメッシュの特定結果を、候補位置算出部１３７を介して移動判定部６４に供給する。

ステップＳ１４６において、候補位置算出部１３７は、メッシュ情報取得部６１からのメッシュ情報、供給されたオブジェクトの位置情報、およびメッシュ検出部１３６からの弧の特定結果に基づいて、対象音像の移動目的候補位置γ_ｎＤを算出し、移動判定部６４に供給する。すなわち、上述した処理３Ｄ（５）−１が行われる。

対象音像の移動目的候補位置が算出されると、３次元メッシュにおける移動目的候補位置の算出処理は終了し、その後、処理は図１２のステップＳ７４へと進む。

以上のようにして３次元位置算出部６３は、水平方向において対象音像の位置を包含する３次元メッシュを検出し、その３次元メッシュの位置情報と対象音像の水平方向角度θとに基づいて、対象音像の移動先となる移動目的候補位置を算出する。これにより、簡単な計算で、より高精度に対象音像の適切な移動先を算出することができる。

〈第１の実施の形態の変形例１〉
〈音像の移動の要否と移動目的位置の算出について〉
なお、以上においては、３次元メッシュと２次元メッシュが混在していたとしても３次元メッシュの移動目的候補位置γ_ｎＤか、２次元メッシュの移動目的候補位置γ_ｎＤかの何れか一方のみが得られる場合について説明した。しかし、メッシュの配置によっては、３次元メッシュの移動目的候補位置γ_ｎＤと、２次元メッシュの移動目的候補位置γ_ｎＤの両方が得られることもある。

そのような場合、移動判定部６４は、図１５に示す処理を行って、対象音像の移動が必要であるかを判定するとともに、移動目的位置を求める。

すなわち、移動判定部６４は、２次元メッシュの移動目的候補位置γ_ｎＤと、３次元メッシュの移動目的候補位置γ_{ｎＤ_ｍａｘ}とを比較する。そして、γ_ｎＤ＞γ_{ｎＤ_ｍａｘ}が成立する場合、移動判定部６４は、さらに対象音像の垂直方向角度γが、移動目的候補位置γ_{ｎＤ_ｍａｘ}よりも大きいか否かを判定する。すなわち、γ＞γ_{ｎＤ_ｍａｘ}が成立するかが判定される。

ここで、γ＞γ_{ｎＤ_ｍａｘ}が成立するのであれば、対象音像を２次元メッシュの移動目的候補位置γ_ｎＤと、移動目的候補位置γ_{ｎＤ_ｍａｘ}とのうちのより近い方に移動させればよい。

そこで、移動判定部６４は｜γ−γ_{ｎＤ_ｍａｘ}｜＜｜γ−γ_ｎＤ｜が成立する場合には、移動目的候補位置γ_{ｎＤ_ｍａｘ}を対象音像の最終的な移動目的位置とする。逆に、移動判定部６４は｜γ−γ_{ｎＤ_ｍａｘ}｜＜｜γ−γ_ｎＤ｜が成立しない場合には、２次元メッシュの移動目的候補位置γ_ｎＤを対象音像の最終的な移動目的位置とする。

また、移動判定部６４はγ_ｎＤ＞γ_{ｎＤ_ｍａｘ}は成立するがγ＞γ_{ｎＤ_ｍａｘ}が成立せず、対象音像の垂直方向角度γが移動目的候補位置γ_{ｎＤ_ｍｉｎ}より小さいとき、つまりγ＜γ_{ｎＤ_ｍｉｎ}であるとき、移動目的候補位置γ_{ｎＤ_ｍｉｎ}を対象音像の最終的な移動目的位置とする。

さらに、移動判定部６４はγ_ｎＤ＜γ_{ｎＤ_ｍｉｎ}が成立するとき、対象音像の垂直方向角度γと移動目的候補位置γ_{ｎＤ_ｍｉｎ}とを比較する。

ここで、γ＜γ_{ｎＤ_ｍｉｎ}が成立するのであれば、対象音像を２次元メッシュの移動目的候補位置γ_ｎＤと、移動目的候補位置γ_{ｎＤ_ｍｉｎ}とのうちのより近い方に移動させればよい。

そこで、移動判定部６４はγ＜γ_{ｎＤ_ｍｉｎ}が成立するとき、さらに｜γ−γ_{ｎＤ_ｍｉｎ}｜＜｜γ−γ_ｎＤ｜が成立するか否かを判定する。

そして移動判定部６４は、｜γ−γ_{ｎＤ_ｍｉｎ}｜＜｜γ−γ_ｎＤ｜であれば、移動目的候補位置γ_{ｎＤ_ｍｉｎ}を対象音像の最終的な移動目的位置とする。逆に、移動判定部６４は｜γ−γ_{ｎＤ_ｍｉｎ}｜＜｜γ−γ_ｎＤ｜が成立しない場合には、２次元メッシュの移動目的候補位置γ_ｎＤを対象音像の最終的な移動目的位置とする。

また、移動判定部６４はγ_ｎＤ＜γ_{ｎＤ_ｍｉｎ}は成立するがγ＜γ_{ｎＤ_ｍｉｎ}が成立せず、γ＞γ_{ｎＤ_ｍａｘ}が成立するとき、移動目的候補位置γ_{ｎＤ_ｍａｘ}を対象音像の最終的な移動目的位置とする。

さらに、以上の何れにも該当しない場合には、移動判定部６４は上述した処理３Ｄ（６）に従って対象音像の最終的な移動目的位置を定める。

〈第２の実施の形態〉
〈位置算出部の構成例〉
また、以上において説明した実施の形態では、定位音像の位置が変化するたびに、音像の移動が必要か否かの判定および移動目的位置の算出と、その後のVBAPの計算とが必要であった。しかし、音像の水平方向角度の取り得る値が有限個（離散値）である場合、これらの計算は重複となる可能性が大きいため、無駄な計算が大量に発生しているということができる。

そこで、音像の水平方向角度の取り得る値が有限個（離散）である場合には、それらの全ての値について、予め対象音像の移動が必要となる場合における移動目的候補位置の計算を行っておき、各水平方向角度θに対して移動目的候補位置を対応付けて記録しておいてもよい。この場合、例えば水平方向角度θに対して、２次元メッシュの移動目的候補位置γ_ｎＤと、３次元メッシュの移動目的候補位置γ_{ｎＤ_ｍａｘ}および移動目的候補位置γ_{ｎＤ_ｍｉｎ}とが対応付けられてメモリに記録される。

これにより、実際にVBAPによって音像を定位させる場合に、メモリに記録されている移動目的候補位置と、対象音像の垂直方向角度γとを比較すればよいので、音像の移動が必要か否かを特定するための計算は不要となり、計算量を大幅に削減することができる。

さらに、この場合、音像の移動が必要となるときにVBAPで計算された各スピーカ１２のゲインもメモリに記録しておくとともに、音像の移動が必要ないときにVBAPでゲイン計算が必要なメッシュの識別情報をメモリに記録しておけば、さらに計算量を削減することができる。

この場合、各水平方向角度θに対して、２次元メッシュの移動目的候補位置γ_ｎＤ、３次元メッシュの移動目的候補位置γ_{ｎＤ_ｍａｘ}、および移動目的候補位置γ_{ｎＤ_ｍｉｎ}のそれぞれについてのVBAPの係数（ゲイン）がメモリに記録される。また、各水平方向角度θに対して、VBAPでゲイン計算が必要となる１または複数のメッシュの識別情報がメモリに記録される。

このように、水平方向角度θに対して移動目的候補位置が対応付けられて記録される場合、位置算出部２１は例えば図１６に示すように構成される。なお、図１６において図７における場合と対応する部分には、同一の符号を付してあり、その説明は適宜省略する。

図１６に示す位置算出部２１はメッシュ情報取得部６１、２次元位置算出部６２、３次元位置算出部６３、移動判定部６４、生成部１８１、およびメモリ１８２から構成される。

生成部１８１は、水平方向角度θとして取り得る全ての値を順番に生成し、生成した水平方向角度を２次元位置算出部６２および３次元位置算出部６３に供給する。

２次元位置算出部６２および３次元位置算出部６３は、生成部１８１から供給された水平方向角度ごとに、メッシュ情報取得部６１から供給されたメッシュ情報に基づいて移動目的候補位置を算出してメモリ１８２に供給し、記録させる。

このとき、メモリ１８２には、音像の移動が必要となる場合における２次元メッシュの移動目的候補位置γ_ｎＤと、３次元メッシュの移動目的候補位置γ_{ｎＤ_ｍａｘ}、および移動目的候補位置γ_{ｎＤ_ｍｉｎ}とがそれぞれ供給される。

メモリ１８２は、２次元位置算出部６２および３次元位置算出部６３から供給された水平方向角度θごとの移動目的候補位置を記録し、必要に応じて移動判定部６４に供給する。

また、移動判定部６４は、外部からオブジェクトの位置情報が供給されると、メモリ１８２に記録されている、オブジェクトの音像の水平方向角度θに応じた移動目的候補位置を参照し、音像の移動が必要であるかを判定するとともに音像の移動目的位置を求めてゲイン算出部２２に出力する。すなわち、対象音像の垂直方向角度γと、メモリ１８２に記録されている移動目的候補位置が比較されて音像の移動の要否が判定されるとともに、必要に応じてメモリ１８２に記録されている移動目的候補位置が、移動目的位置とされる。

〈第３の実施の形態〉
〈ゲインの変更について〉
なお、上述した第１の実施の形態または第２の実施の形態において、音像の移動が必要であると判定された場合、音像を移動させる度合いに応じてゲインをさらに変更すれば、音像の移動により生じる音像の実際の再現位置と、本来再現したい音像位置とのずれを低減させることができる。

例えば移動判定部６４は、音像の移動が必要であると判定された場合、次式（１５）により移動目的位置の垂直方向角度γ_ｎＤと、対象音像の移動前の元の垂直方向角度γとの差Ｄ_moveを算出し、ゲイン算出部２２に供給する。

ゲイン算出部２２は、移動判定部６４から供給された差Ｄ_moveに応じて音像の再生ゲインを変化させる。すなわち、ゲイン算出部２２は、差Ｄ_moveに応じた値を、VBAPにより求めた各スピーカ１２の係数（ゲイン）のうち、音像の移動目的位置があるメッシュの弧の両端に位置するスピーカ１２の係数に乗算して、ゲインをさらに調整する。

このように移動前後の音像の位置の差に応じてゲインを変化させることにより、例えば差Ｄ_moveが大きい場合にはゲインを小さくして、音像がメッシュから遠い位置にあるような感覚を与えるようにすることができる。また、差Ｄ_moveが小さい場合にはゲインを殆ど変化させず、音像がメッシュから近い位置にあるような感覚を与えるようにすることができる。

なお、音像が垂直方向だけでなく水平方向にも移動する場合には、次式（１６）により差Ｄ_moveを求めればよい。

なお、式（１６）において、γ_ｎＤおよびθ_ｎＤは、それぞれ音像の移動先の垂直方向角度および水平方向角度を示している。

以下、このように対象音像の移動前の元の位置と移動先の位置との差（以下、移動距離と称する）に基づいてゲインを調整する例について、より詳細に説明する。

例えば図１７に示すように、再生しようとする音像位置ＲＳＰ１１にある音像を、スピーカＳＰ１乃至スピーカＳＰ３を囲むメッシュとしての領域ＴＲ１１内に移動させたとき、その移動先の位置が領域ＴＲ１１の境界上にある音像位置ＶＳＰ１１であったとする。なお、図１７において、図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

この場合、ユーザＵ１１から元の音像位置ＲＳＰ１１までの距離ｒ＝ｒ_ｓと、ユーザＵ１１から移動先の音像位置ＶＳＰ１１までの距離ｒ＝ｒ_ｔとが同じであるとする。そのような場合、音像位置ＲＳＰ１１と音像位置ＶＳＰ１１の間の距離、つまり対象音像の移動量は、半径ｒ_ｓ＝ｒ_ｔの円上における、音像位置ＲＳＰ１１と音像位置ＶＳＰ１１とを結ぶ弧の長さで表現することができる。

図１７の例では、ユーザＵ１１および音像位置ＲＳＰ１１を結ぶ直線Ｌ２１と、ユーザＵ１１および音像位置ＶＳＰ１１を結ぶ直線Ｌ２２とがなす角度を対象音像の移動距離とすることができる。

具体的には、音像位置ＲＳＰ１１と音像位置ＶＳＰ１１の水平方向角度θが同じであれば、対象音像の移動は垂直方向のみであるので、上述した式（１５）により求まる差Ｄ_ｍｏｖｅが、対象音像の移動距離Ｄ_ｍｏｖｅとなる。

一方、音像位置ＲＳＰ１１と音像位置ＶＳＰ１１の水平方向角度θが同じでなく、対象音像の移動が水平方向にもある場合には、上述した式（１６）により求まる差Ｄ_ｍｏｖｅが、対象音像の移動距離Ｄ_ｍｏｖｅとなる。

移動判定部６４は、音像定位制御処理時において、対象音像の移動目的位置とメッシュの識別情報だけでなく、式（１５）または式（１６）を計算して得られた対象音像の移動距離Ｄ_ｍｏｖｅもゲイン算出部２２に供給する。

また、移動判定部６４から移動距離Ｄ_ｍｏｖｅの供給を受けたゲイン算出部２２は、上位の制御装置等から供給された情報に基づいて、折れ線カーブまたは関数カーブの何れかを用いて、各スピーカ１２のゲインを補正するための移動距離Ｄ_ｍｏｖｅに応じたゲインGain_move（以下、移動距離補正ゲインとも称する）を算出する。

例えば、移動距離補正ゲインの算出に用いられる折れ線カーブは、各移動距離Ｄ_ｍｏｖｅに対する移動距離補正ゲインの値から構成される数列により表現される。

具体的には、移動距離補正ゲインGain_moveの値の数列として、［0,-1.5,-4.5,-6,-9,-10.5,-12,-13.5,-15,-15,-16.5,-16.5,-18,-18,-18,-19.5,-19.5,-21,-21,-21］（dB）が、移動距離補正ゲインを得るための情報とされているとする。

そのような場合、数列の始点の値が移動距離Ｄ_ｍｏｖｅ＝0°のときの移動距離補正ゲインとされ、数列の終点の値が移動距離Ｄ_ｍｏｖｅ＝180°のときの移動距離補正ゲインとされる。また、数列のｋ番目の点の値が、次式（１７）に示す移動距離Ｄ_ｍｏｖｅのときの移動距離補正ゲインとされる。

なお、式（１７）において、length_of_Curveは数列の長さ、つまり数列を構成する点の個数を示している。

また、数列の隣接する点の間は、移動距離Ｄ_ｍｏｖｅによって移動距離補正ゲインが線形に変化するとされる。このような数列により得られる折れ線カーブは、移動距離補正ゲインと移動距離Ｄ_ｍｏｖｅのマッピングを表すカーブである。

例えば、上述した数列によって図１８に示す折れ線カーブが得られる。

図１８では、縦軸は移動距離補正ゲインの値を示しており、横軸は移動距離Ｄ_ｍｏｖｅを示している。また、折れ線ＣＶ１１が折れ線カーブを表しており、折れ線カーブ上の円は、移動距離補正ゲインの値の数列を構成する１つの数値を示している。

この例では、移動距離Ｄ_ｍｏｖｅがＤＭＶ１である場合には、移動距離補正ゲインは、折れ線カーブ上のDMV1におけるゲインの値であるGain1とされる。

一方、移動距離補正ゲインの算出に用いられる関数カーブは、３つの係数coef1、係数coef2、および係数coef3と、予め定められた下限となるゲイン値MinGainにより表現される。

この場合、ゲイン算出部２２は係数coef1乃至係数coef3、ゲイン値MinGain、および移動距離Ｄ_ｍｏｖｅにより表現される、次式（１８）に示す関数f(D_move)を用いて、以下の式（１９）を計算し、移動距離補正ゲインGain_moveを算出する。

なお、式（１９）において、Cut_Threは、次式（２０）を満たす移動距離Ｄ_ｍｏｖｅの最小値である。

このような関数f(D_move)等により表される関数カーブは、例えば図１９に示すカーブとなる。なお、図１９において縦軸は移動距離補正ゲインの値を示しており、横軸は移動距離Ｄ_ｍｏｖｅを示している。また、曲線ＣＶ２１が関数カーブを表している。

図１９に示す関数カーブでは、関数f(D_move)により示される移動距離補正ゲインの値が始めて下限となるゲイン値MinGainより小さくなると、それ以降の各移動距離Ｄ_ｍｏｖｅにおける移動距離補正ゲインの値はゲイン値MinGainとされている。すなわち、移動距離Ｄ_ｍｏｖｅ＝Cut_Thre以降の各移動距離Ｄ_ｍｏｖｅにおける移動距離補正ゲインの値はゲイン値MinGainとされている。なお、図中の点線は、各移動距離Ｄ_ｍｏｖｅにおけるもとの関数f(D_move)の値を示している。

この例では、移動距離Ｄ_ｍｏｖｅがDMV2である場合には、その移動距離補正ゲインGain_moveは、関数カーブ上のDMV2におけるゲインの値であるGain2とされる。

なお、関数カーブにより移動距離補正ゲインを求める場合、係数coef1乃至係数coef3の組み合わせ［coef1,coef2,coef3］は、例えば［8,-12,6］や、［1,-3,3］、［2,-5.3,4.2］などとされる。

以上のように、ゲイン算出部２２は、折れ線カーブまたは関数カーブの何れか一方を用いて、移動距離Ｄ_ｍｏｖｅに応じた移動距離補正ゲインGain_moveを算出する。

また、ゲイン算出部２２は、ユーザ（視聴者）までの距離に応じて移動距離補正ゲインGain_moveがさらに補正（調整）された補正ゲインGain_corrを算出する。

この補正ゲインGain_corrは、対象音像の移動距離Ｄ_ｍｏｖｅと、移動前の対象音像からユーザ（視聴者）までの距離ｒ_ｓとに応じて、各スピーカ１２のゲイン（係数）を補正するためのゲインである。

例えばVBAPが行われる場合、距離ｒは常に１であるが、他のパニングベースの手法を用いた場合や、実際の環境が理想のVBAP環境ではない場合など、対象音像の移動の前後で距離ｒが異なるときには、距離ｒの違いによる補正が行われる。すなわち、対象音像の移動先の位置からユーザまでの距離ｒ_ｔは常に１とされるので、対象音像の移動前の位置からユーザまでの距離ｒ_ｓが１でないときに補正が行われる。具体的には、ゲイン算出部２２は補正ゲインGain_corrと遅延処理により補正を行う。

ここで、補正ゲインGain_corrと、遅延処理時の遅延量Delayの算出について説明する。

まず、ゲイン算出部２２は、距離ｒ_ｓと距離ｒ_ｔの違いに応じて各スピーカ１２のゲインを補正するための視聴距離補正ゲインGain_distを次式（２１）により算出する。

さらに、ゲイン算出部２２は、このようにして求めた視聴距離補正ゲインGain_distと、上述した移動距離補正ゲインGain_moveとから次式（２２）を計算し、補正ゲインGain_corrを算出する。

式（２２）では、視聴距離補正ゲインGain_distと、移動距離補正ゲインGain_moveとの和が補正ゲインGain_corrとされている。

また、ゲイン算出部２２は、移動前の対象音像の距離ｒ_ｓと、移動後の対象音像の距離ｒ_ｔとから次式（２３）を計算し、音声信号の遅延量Delayを算出する。

そして、ゲイン算出部２２は、遅延量Delayだけ音声信号を遅延または早着させるとともに、補正ゲインGain_corrに基づいて各スピーカ１２のゲイン（係数）を補正して音声信号のゲイン調整を行う。これにより、音量調整と遅延処理によって、対象音像の移動や距離ｒの違いにより生じる音声再生時の違和感を低減させることができる。

ここで、図１０のステップＳ１４の処理で求まるゲイン（係数）をGain_spkとすると、次式（２４）の計算によってゲインGain_spkが補正ゲインGain_corrだけ補正され、最終的なゲイン（係数）である適応ゲインGain_{spk_corr}とされる。

式（２４）においてゲインGain_spkは、図１０のステップＳ１４で式（１）または式（３）の計算により得られた各スピーカ１２のゲイン（係数）である。

ゲイン算出部２２は、式（２４）の計算により得られた適応ゲインGain_{spk_corr}を増幅部３１に供給し、スピーカ１２についての音声信号に乗算させる。

以上のように移動距離Ｄ_ｍｏｖｅに応じて各スピーカ１２のゲインを補正することにより、対象音像の移動度合いが大きい場合はゲインが小さくなり、実際の音像位置がメッシュから遠い位置にあるような感覚を与えることができる。一方、対象音像の移動度合いが小さい場合には、対象音像のゲインは殆ど補正されず、実際の音像位置がメッシュから近い位置にあるような感覚を与えることができる。

〈音声処理装置の構成例〉
次に、以上において説明したように移動距離Ｄ_ｍｏｖｅに応じて各スピーカ１２のゲインを補正する場合における音声処理装置の構成と動作について説明する。

そのような場合、音声処理装置は例えば図２０に示すように構成される。なお、図２０において、図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２０に示す音声処理装置２１１は、位置算出部２１、ゲイン算出部２２、ゲイン調整部２３、および遅延処理部２２１を有している。音声処理装置２１１の構成は、遅延処理部２２１が設けられるとともに、ゲイン算出部２２に新たに補正部２３１が設けられている点で、図６の音声処理装置１１と異なり、他の点では音声処理装置１１と同じ構成とされている。なお、後述するように、より詳細には音声処理装置２１１の位置算出部２１の内部の構成も音声処理装置１１の位置算出部２１の内部の構成と異なる。

音声処理装置２１１では、位置算出部２１は、対象音像の移動目的位置および移動距離Ｄ_ｍｏｖｅを算出し、移動目的位置、移動距離Ｄ_ｍｏｖｅ、およびメッシュの識別情報をゲイン算出部２２に供給する。

ゲイン算出部２２は、位置算出部２１から供給された移動目的位置、移動距離Ｄ_ｍｏｖｅ、およびメッシュの識別情報に基づいて、各スピーカ１２の適応ゲインを算出して増幅部３１に供給するとともに、遅延量を算出して遅延処理部２２１に遅延を指示する。また、ゲイン算出部２２は、補正部２３１を備えており、補正部２３１は、移動距離Ｄ_ｍｏｖｅに基づいて、補正ゲインGain_corrや適応ゲインGain_{spk_corr}を算出する。

遅延処理部２２１は、ゲイン算出部２２の指示に従って、供給された音声信号に対する遅延処理を行い、遅延量により定まるタイミングで音声信号を増幅部３１に供給する。

〈位置算出部の構成例〉
また、音声処理装置２１１の位置算出部２１は、例えば図２１に示すように構成される。なお、図２１において図７における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２１に示す位置算出部２１は、図７に示した位置算出部２１の移動判定部６４に、さらに移動距離算出部２６１が設けられた構成とされている。

移動距離算出部２６１は、対象音像の移動前の垂直方向角度等と、対象音像の移動目的位置の垂直方向角度等とに基づいて移動距離Ｄ_ｍｏｖｅを算出する。

〈音像定位制御処理の説明〉
次に、図２２のフローチャートを参照して、音声処理装置２１１により行われる音像定位制御処理について説明する。なお、ステップＳ１８１乃至ステップＳ１８３の処理は、図１０のステップＳ１１乃至ステップＳ１３の処理と同様であるので、その説明は省略する。

ステップＳ１８４において、移動距離算出部２６１は、対象音像の移動目的位置の垂直方向角度γ_ｎＤと、対象音像の移動前の元の垂直方向角度γとに基づいて上述した式（１５）を計算して移動距離Ｄ_ｍｏｖｅを算出し、ゲイン算出部２２に供給する。

なお、対象音像が垂直方向だけでなく水平方向にも移動している場合には、移動距離算出部２６１は、対象音像の移動目的位置の垂直方向角度γ_ｎＤおよび水平方向角度θ_ｎＤと、対象音像の移動前の元の垂直方向角度γおよび水平方向角度θとに基づいて上述した式（１６）を計算し、移動距離Ｄ_ｍｏｖｅを算出する。

また、移動目的位置とメッシュの識別情報が移動距離Ｄ_ｍｏｖｅと同時にゲイン算出部２２に供給されるようにしてもよい。

ステップＳ１８５において、ゲイン算出部２２は、位置算出部２１から供給された移動目的位置および識別情報と、供給されたオブジェクトの位置情報とに基づいて各スピーカ１２のゲインであるゲインGain_spkを算出する。なお、ステップＳ１８５では図１０のステップＳ１４の処理と同様の処理が行われる。

ステップＳ１８６において、ゲイン算出部２２の補正部２３１は、移動距離算出部２６１から供給された移動距離Ｄ_ｍｏｖｅに基づいて移動距離補正ゲインを算出する。

例えば、補正部２３１は上位の制御装置等から供給された情報に基づいて、折れ線カーブまたは関数カーブの何れかを選択する。

折れ線カーブが選択された場合、補正部２３１は予め用意された数列に基づいて折れ線カーブを求め、折れ線カーブから移動距離Ｄ_ｍｏｖｅに対応する移動距離補正ゲインGain_moveを求める。

一方、関数カーブが選択された場合、補正部２３１は予め用意された係数coef1乃至係数coef3、ゲイン値MinGain、および移動距離Ｄ_ｍｏｖｅに基づいて関数カーブ、つまり式（１８）に示した関数の値を求め、その値から式（１９）の演算を行って移動距離補正ゲインGain_moveを求める。

ステップＳ１８７において、補正部２３１は、対象音像の移動目的位置の距離ｒ_ｔと、対象音像の移動前の元の距離ｒ_ｓとに基づいて、補正ゲインGain_corrおよび遅延量Delayを算出する。

具体的には、補正部２３１は距離ｒ_ｔおよび距離ｒ_ｓと、移動距離補正ゲインGain_moveとに基づいて式（２１）および式（２２）を計算し、補正ゲインGain_corrを求める。また、補正部２３１は距離ｒ_ｔおよび距離ｒ_ｓに基づいて式（２３）を計算し、遅延量Delayを求める。なお、この例では距離ｒ_ｔ＝１であるが、距離ｒ_ｔ＝１でない場合には必要に応じて距離ｒ_ｔの値が与えられる。

ステップＳ１８８において、補正部２３１は、補正ゲインGain_corrと、ステップＳ１８５で算出したゲインGain_spkとに基づいて式（２４）を計算し、適応ゲインGain_{spk_corr}を算出する。なお、対象音像の移動目的位置がある、識別情報により示されるメッシュの弧の両端に位置するスピーカ１２以外のスピーカ１２の適応ゲインGain_{spk_corr}は０とされる。また、以上において説明したステップＳ１８４乃至ステップＳ１８７の処理はどのような順番で行われてもよい。

このようにして適応ゲインGain_{spk_corr}が得られると、ゲイン算出部２２は、算出された適応ゲインGain_{spk_corr}を各増幅部３１に供給するとともに、遅延量Delayを遅延処理部２２１に供給し、音声信号に対する遅延処理を指示する。

ステップＳ１８９において、遅延処理部２２１は、ゲイン算出部２２から供給された遅延量Delayに基づいて、供給された音声信号に対する遅延処理を行う。

すなわち、遅延処理部２２１は、遅延量Delayが正の値である場合、供給された音声信号を遅延量Delayに示される時間だけ遅延させてから増幅部３１に供給する。また、遅延処理部２２１は、遅延量Delayが負の値である場合、遅延量Delayの絶対値に示される時間だけ音声信号の出力タイミングを早めて、音声信号を増幅部３１に供給する。

ステップＳ１９０において、増幅部３１は、ゲイン算出部２２から供給された適応ゲインGain_{spk_corr}に基づいて、遅延処理部２２１から供給されたオブジェクトの音声信号のゲイン調整を行い、その結果得られた音声信号をスピーカ１２に供給し、音声を出力させる。

以上のようにして音声処理装置２１１は、対象音像の移動目的位置を算出し、その算出結果に応じた各スピーカ１２のゲインを求め、さらにそのゲインを対象音像の移動距離やユーザまでの距離に応じて補正した後、音声信号のゲイン調整を行なう。これにより、目標とする位置を音量調整により適切に補正し、その補正後の位置に音像を定位させることができる。その結果、より高品質な音声を得ることができる。

このように音声処理装置２１１によれば、音像が定位させたい場所からずれた位置で再生される場合に、音像位置の移動量に応じて音源の再生音量を調整することにより音像の移動量を表現し、音像の移動により生じた音像の実際の再現位置と本来の再現したい位置とのずれを低減させることができる。

ところで、以上において説明した本技術は、マルチチャンネルのオーディオ再生において、入力信号のチャンネル数およびスピーカ配置が、実際のチャンネル数およびスピーカ配置と違う場合、入力信号を実際のチャンネル数やスピーカ配置で再生可能な形式に変換するダウンミックス技術にも適用可能である。

以下、図２３乃至図２５を参照して、本技術をダウンミックス技術に適用する場合について説明する。なお、図２３乃至図２５において対応する部分には同じ符号を付してあり、その説明は省略する。

例えば図２３に示すように、７つの仮想スピーカＶＳＰ３１乃至仮想スピーカＶＳＰ３７の各位置で再生されるべき音声信号を、３つの実際のスピーカＳＰ３１乃至スピーカＳＰ３３で再生する場合について考える。

この場合、各仮想スピーカＶＳＰ３１乃至仮想スピーカＶＳＰ３７の位置を音源の音像位置として仮定すれば、上述したVBAPを用いて実在する３つのスピーカＳＰ３１乃至スピーカＳＰ３３で、その音源位置が再現可能となる。

しかし、従来のVBAPでは、図２４に示すように、実在する３つのスピーカＳＰ３１乃至スピーカＳＰ３３に囲まれたメッシュＴＲ３１内にある仮想スピーカＶＳＰ３１の位置にしか音源を再現することができない。

ここで、メッシュＴＲ３１は、各スピーカが配置されている球面において、スピーカＳＰ３１乃至スピーカＳＰ３３により囲まれる領域である。

スピーカＳＰ３１乃至スピーカＳＰ３３から音声を出力させる場合、従来のVBAPではメッシュＴＲ３１外の位置を、音源の音像位置とすることができないので、メッシュＴＲ３１内にある仮想スピーカＶＳＰ３１の位置のみ、音源の音像位置とすることができる。

一方、本技術を用いれば、例えば図２５に示すように、実在する３つのスピーカＳＰ３１乃至スピーカＳＰ３３に囲まれた範囲、つまりメッシュＴＲ３１外にあるスピーカ位置も音源の音像位置として表現可能となる。

この例では、メッシュＴＲ３１外にある仮想スピーカＶＳＰ３２の音像位置を、上述した本技術を用いて、メッシュＴＲ３１内の位置、つまりメッシュＴＲ３１の境界線上の位置に移動すればよい。つまり、本技術を用いて、メッシュＴＲ３１外にある仮想スピーカＶＳＰ３２の音像位置を、メッシュＴＲ３１内にある仮想スピーカＶＳＰ３２’の音像位置に移動させれば、VBAPにより仮想スピーカＶＳＰ３２’の位置に音像を定位させることができる。

この仮想スピーカＶＳＰ３２と同様に、メッシュＴＲ３１外にある他の仮想スピーカＶＳＰ３３乃至仮想スピーカＶＳＰ３７についても、メッシュＴＲ３１の境界上に音像位置を移動させれば、それらの音像をVBAPにより定位させることができる。

これにより、実在する３つのスピーカＳＰ３１乃至スピーカＳＰ３３から、仮想スピーカＶＳＰ３１乃至仮想スピーカＶＳＰ３７の位置で再生されるべき音声信号を再生することができるようになる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

図２６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、ＣＰＵ５０１，ＲＯＭ５０２，ＲＡＭ５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

［１］
複数のスピーカにより囲まれる領域であるメッシュのうちの水平方向において対象音像の水平方向位置を包含するメッシュを少なくとも一つ検出し、前記メッシュにおける前記対象音像の移動目標となるメッシュの境界を少なくとも一つ特定する検出部と、
前記移動目標となる前記特定された少なくとも一つのメッシュの境界上にある２つの前記スピーカの位置と、前記対象音像の前記水平方向位置とに基づいて、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上の前記対象音像の移動位置を算出する算出部と
を備える情報処理装置。
［２］
前記移動位置は、前記水平方向において前記対象音像の前記水平方向位置と同じ位置にある前記境界上の位置である
［１］に記載の情報処理装置。
［３］
前記検出部は、前記メッシュを構成する前記スピーカの前記水平方向の位置と、前記対象音像の前記水平方向位置とに基づいて、前記水平方向において前記対象音像の前記水平方向位置を包含する前記メッシュを検出する
［１］または［２］に記載の情報処理装置。
［４］
前記メッシュを構成する前記スピーカの位置関係、または前記対象音像と前記移動位置の垂直方向の位置の少なくとも何れかに基づいて、前記対象音像の移動が必要であるか否かを判定する判定部をさらに備える
［１］乃至［３］の何れか一項に記載の情報処理装置。
［５］
前記対象音像の移動が必要であると判定された場合、前記移動位置に音声の音像が定位するように、前記移動位置と前記メッシュの前記スピーカの位置とに基づいて前記音声の音声信号のゲインを算出するゲイン算出部をさらに備える
［４］に記載の情報処理装置。
［６］
前記ゲイン算出部は、前記対象音像の位置と前記移動位置との差に基づいて前記ゲインを調整する
［５］に記載の情報処理装置。
［７］
前記ゲイン算出部は、前記対象音像の位置からユーザまでの距離と、前記移動位置から前記ユーザまでの距離とに基づいてさらに前記ゲインを調整する
［６］に記載の情報処理装置。
［８］
前記対象音像の移動が必要ではないと判定された場合、前記水平方向において前記対象音像の前記水平方向位置を包含する前記メッシュについて、前記対象音像の位置に音声の音像が定位するように、前記対象音像の位置と前記メッシュの前記スピーカの位置とに基づいて前記音声の音声信号のゲインを算出するゲイン算出部をさらに備える
［４］に記載の情報処理装置。
［９］
前記判定部は、垂直方向において、前記メッシュごとに求めた前記移動位置のうちの最も高い位置が前記対象音像の位置よりも低い位置にある場合、前記対象音像の移動が必要であると判定する
［４］乃至［８］の何れか一項に記載の情報処理装置。
［１０］
前記判定部は、垂直方向において、前記メッシュごとに求めた前記移動位置のうちの最も低い位置が前記対象音像の位置よりも高い位置にある場合、前記対象音像の移動が必要であると判定する
［４］乃至［９］の何れか一項に記載の情報処理装置。
［１１］
前記判定部は、垂直方向の位置として取り得る最も高い位置に前記スピーカがある場合、前記対象音像の上から下方向への移動が必要でないと判定する
［４］乃至［１０］の何れか一項に記載の情報処理装置。
［１２］
前記判定部は、垂直方向の位置として取り得る最も低い位置に前記スピーカがある場合、前記対象音像の下から上方向への移動が必要でないと判定する
［４］乃至［１１］の何れか一項に記載の情報処理装置。
［１３］
前記判定部は、垂直方向の位置として取り得る最も高い位置を包含する前記メッシュがある場合、前記対象音像の上から下方向への移動が必要でないと判定する
［４］乃至［１２］の何れか一項に記載の情報処理装置。
［１４］
前記判定部は、垂直方向の位置として取り得る最も低い位置を包含する前記メッシュがある場合、前記対象音像の下から上方向への移動が必要でないと判定する
［４］乃至［１３］の何れか一項に記載の情報処理装置。
［１５］
前記算出部は、前記水平方向位置ごとに予め前記移動位置の最大値および最小値を算出して記録させ、
記録されている前記移動位置の最大値および最小値と、前記対象音像の位置とに基づいて、前記対象音像の最終的な前記移動位置を求める判定部をさらに備える
［１］乃至［３］の何れか一項に記載の情報処理装置。
［１６］
複数のスピーカにより囲まれる領域であるメッシュのうちの水平方向において対象音像の水平方向位置を包含するメッシュを少なくとも一つ検出し、前記メッシュにおける前記対象音像の移動目標となるメッシュの境界を少なくとも一つ特定し、
前記移動目標となる前記特定された少なくとも一つのメッシュの境界上にある２つの前記スピーカの位置と、前記対象音像の前記水平方向位置とに基づいて、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上の前記対象音像の移動位置を算出する
ステップを含む情報処理方法。
［１７］
複数のスピーカにより囲まれる領域であるメッシュのうちの水平方向において対象音像の水平方向位置を包含するメッシュを少なくとも一つ検出し、前記メッシュにおける前記対象音像の移動目標となるメッシュの境界を少なくとも一つ特定し、
前記移動目標となる前記特定された少なくとも一つのメッシュの境界上にある２つの前記スピーカの位置と、前記対象音像の前記水平方向位置とに基づいて、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上の前記対象音像の移動位置を算出する
ステップを含む処理をコンピュータに実行させるプログラム。

１１音声処理装置，１２−１乃至１２−Ｍ，１２スピーカ，２１位置算出部，２２ゲイン算出部，６２２次元位置算出部，６３３次元位置算出部，６４移動判定部，９１端算出部，９２メッシュ検出部，９３候補位置算出部，１３１特定部，１３２端算出部，１３３メッシュ検出部，１３４候補位置算出部，１３５端算出部，１３６メッシュ検出部，１３７候補位置算出部，１８２メモリ

Claims

複数のスピーカにより囲まれる領域であるメッシュのうちの水平方向において対象音像の水平方向位置を包含するメッシュを少なくとも一つ検出し、前記メッシュにおける前記対象音像の移動目標となるメッシュの境界を少なくとも一つ特定する検出部と、
前記移動目標となる前記特定された少なくとも一つのメッシュの境界上にある２つの前記スピーカの位置と、前記対象音像の前記水平方向位置とに基づいて、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上の前記対象音像の移動位置を算出する算出部と
を備える情報処理装置。
前記移動位置は、前記水平方向において前記対象音像の前記水平方向位置と同じ位置にある前記境界上の位置である
請求項１に記載の情報処理装置。
前記検出部は、前記メッシュを構成する前記スピーカの前記水平方向の位置と、前記対象音像の前記水平方向位置とに基づいて、前記水平方向において前記対象音像の前記水平方向位置を包含する前記メッシュを検出する
請求項１または請求項２に記載の情報処理装置。
前記メッシュを構成する前記スピーカの位置関係、または前記対象音像と前記移動位置の垂直方向の位置の少なくとも何れかに基づいて、前記対象音像の移動が必要であるか否かを判定する判定部をさらに備える
請求項１乃至請求項３の何れか一項に記載の情報処理装置。
前記対象音像の移動が必要であると判定された場合、前記移動位置に音声の音像が定位するように、前記移動位置と前記メッシュの前記スピーカの位置とに基づいて前記音声の音声信号のゲインを算出するゲイン算出部をさらに備える
請求項４に記載の情報処理装置。
前記ゲイン算出部は、前記対象音像の位置と前記移動位置との差に基づいて前記ゲインを調整する
請求項５に記載の情報処理装置。
前記ゲイン算出部は、前記対象音像の位置からユーザまでの距離と、前記移動位置から前記ユーザまでの距離とに基づいてさらに前記ゲインを調整する
請求項６に記載の情報処理装置。
前記対象音像の移動が必要ではないと判定された場合、前記水平方向において前記対象音像の前記水平方向位置を包含する前記メッシュについて、前記対象音像の位置に音声の音像が定位するように、前記対象音像の位置と前記メッシュの前記スピーカの位置とに基づいて前記音声の音声信号のゲインを算出するゲイン算出部をさらに備える
請求項４に記載の情報処理装置。
前記判定部は、垂直方向において、前記メッシュごとに求めた前記移動位置のうちの最も高い位置が前記対象音像の位置よりも低い位置にある場合、前記対象音像の移動が必要であると判定する
請求項４乃至請求項８の何れか一項に記載の情報処理装置。
前記判定部は、垂直方向において、前記メッシュごとに求めた前記移動位置のうちの最も低い位置が前記対象音像の位置よりも高い位置にある場合、前記対象音像の移動が必要であると判定する
請求項４乃至請求項９の何れか一項に記載の情報処理装置。
前記判定部は、垂直方向の位置として取り得る最も高い位置に前記スピーカがある場合、前記対象音像の上から下方向への移動が必要でないと判定する
請求項４乃至請求項１０の何れか一項に記載の情報処理装置。
前記判定部は、垂直方向の位置として取り得る最も低い位置に前記スピーカがある場合、前記対象音像の下から上方向への移動が必要でないと判定する
請求項４乃至請求項１１の何れか一項に記載の情報処理装置。
前記判定部は、垂直方向の位置として取り得る最も高い位置を包含する前記メッシュがある場合、前記対象音像の上から下方向への移動が必要でないと判定する
請求項４乃至請求項１２の何れか一項に記載の情報処理装置。
前記判定部は、垂直方向の位置として取り得る最も低い位置を包含する前記メッシュがある場合、前記対象音像の下から上方向への移動が必要でないと判定する
請求項４乃至請求項１３の何れか一項に記載の情報処理装置。
前記算出部は、前記水平方向位置ごとに予め前記移動位置の最大値および最小値を算出して記録させ、
記録されている前記移動位置の最大値および最小値と、前記対象音像の位置とに基づいて、前記対象音像の最終的な前記移動位置を求める判定部をさらに備える
請求項１乃至請求項３の何れか一項に記載の情報処理装置。
複数のスピーカにより囲まれる領域であるメッシュのうちの水平方向において対象音像の水平方向位置を包含するメッシュを少なくとも一つ検出し、前記メッシュにおける前記対象音像の移動目標となるメッシュの境界を少なくとも一つ特定し、
前記移動目標となる前記特定された少なくとも一つのメッシュの境界上にある２つの前記スピーカの位置と、前記対象音像の前記水平方向位置とに基づいて、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上の前記対象音像の移動位置を算出する
ステップを含む情報処理方法。
複数のスピーカにより囲まれる領域であるメッシュのうちの水平方向において対象音像の水平方向位置を包含するメッシュを少なくとも一つ検出し、前記メッシュにおける前記対象音像の移動目標となるメッシュの境界を少なくとも一つ特定し、
前記移動目標となる前記特定された少なくとも一つのメッシュの境界上にある２つの前記スピーカの位置と、前記対象音像の前記水平方向位置とに基づいて、前記移動目標となる前記特定された少なくとも一つのメッシュの境界上の前記対象音像の移動位置を算出する
ステップを含む処理をコンピュータに実行させるプログラム。