本発明に係る音声信号変換装置は、5チャネル以上のマルチチャネル再生方式用の音声信号を、波面合成再生方式などの再生方式でスピーカ群から適切な音像を提供できるような音声信号に変換する装置である。このような変換により、5つ以上のチャネルの入力音声信号が、上記スピーカ群により再生させるための音声信号になる。
以下、5つ以上のチャネルの入力音声信号を、仮想的に存在する音源である仮想音源に対する音像としてスピーカ群(複数のスピーカ)により再生させるための音声信号に変換する場合を例に挙げて説明する。しかし、例えば仮想音源の数と同数の出力スピーカを用意して、各仮想音源から出力すべき音声信号を、一対一で対応する出力スピーカから再生するような場合にも、同様に適用できる。すなわち、本発明では、5つのチャネルの入力音声信号が、仮想ではない実在する音源(複数のスピーカ)に対する音像として各スピーカにより再生させるための音声信号になるような変換も採用可能である。
以下、図面を参照しながら、本発明に係る音声信号変換装置の構成例及び処理例について説明する。また、以下の説明では、本発明に係る音声信号変換装置が、5.1chサラウンド音響信号を変換し、波面合成再生方式用の音声信号を生成する例を挙げる。以下では、図2の各スピーカ21L、21R、21C、22LFE、21LS、21RSに対応する音声信号をそれぞれ、L、R、C、LFE、LS、RSと表す。
図4は、本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図で、図5は、図4の音声データ再生装置における音声信号処理部(本発明に係る音声信号変換装置)の一構成例を示すブロック図である。
図4で例示する音声データ再生装置40は、デコーダ41、音声信号抽出部42、音声信号処理部43を備えるとともに、D/Aコンバータ44、増幅器群45、及びスピーカ群46を備える。さらに、音声データ再生装置40は、LFE音声信号用の遅延処理部47、LFE音声信号用の増幅器48、及びサブウーファー(サブウーファースピーカ)49を備える。
デコーダ41は、音声のみあるいは音声付き映像のコンテンツを復号化し、信号処理可能な形式に変換し音声信号抽出部42に出力する。そのコンテンツは、放送局から送信されたデジタル放送のコンテンツや、ネットワークを介してディジタルコンテンツを配信するサーバからインターネットからダウンロードしたり、あるいは外部記憶装置等の記録媒体から読み込んだりすることによって取得する。このように、図4では図示しないが、音声データ再生装置40は、マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部を備える。デコーダ41は、ここで入力されたディジタルコンテンツを復号化することになる。
音声信号抽出部42では、得られた信号から音声信号を分離、抽出する。ここでは得られた信号は5.1chとし、そのうちのL、R、C、LS、RSの5つのチャネルの音声信号を音声信号処理部43に出力する。残りのLFEのチャネルの音声信号は、遅延処理部47で前述の信号L、R、C、LS、RSを音声信号処理部43で処理するのに要する時間分遅延させ、D/Aコンバータ44に出力する。
音声信号処理部43は、マルチチャネル再生方式の5つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換装置の一例である。ここでスピーカ群46は、より適切な音像を表現できるようにするため、その入力音声信号のチャネル数以上の数のスピーカでなることが好ましい。この場合、スピーカ群46は、例えば5.1chのうちの5chを入力音声信号とした場合には、そのチャネル数が後述のダウンミックス処理により1つ少なくなり、その少なくなったチャネル数より多い数(換言すれば入力音声信号のチャネルの数と同じかそれより多い数)のスピーカでなる。
具体的に説明すると、音声信号処理部43では、得られた5チャネル信号から、入力音声信号とは異なるマルチチャネルの音声信号を生成する。つまり、音声信号処理部43では、入力音声信号を別のマルチチャネルの音声信号に変換する。入力音声信号のチャネル数以上のスピーカから出力させるためには、変換後のマルチチャネルのチャネル数は、入力されたチャネル数(この例では5つ)以上とすることが好ましい。ただし、仮想音源用のチャネルとすることで入力されたチャネル数より小さくてもスピーカ群46への割り当てはできる。以下の例では、仮想音源の数分の信号を生成するものとして説明する。
音声信号処理部43は、その音声信号をD/Aコンバータ44に出力する。仮想音源の数は、ある一定以上の数があれば予め決めておいても性能上差し支えはないが、仮想音源数が多くなるほど演算量も多くなる。そのため実装する装置の性能を考慮してその数を決定することが望ましい。ここで説明する例では、その数を16として、後述の図18のように円周上に仮想音源を配置する場合について説明するが、この例に限ったものではない。
D/Aコンバータ44では得られた信号をアナログ信号に変換し、それぞれの信号を増幅器45及び増幅器48に出力する。各増幅器45では入力されたアナログ信号を拡声し各スピーカ46に伝送し、この拡声されたアナログ信号が各スピーカ46から空間中に音として出力される。増幅器48では入力されたLFE用のアナログ信号を拡声しサブウーファー49に伝送し、この拡声されたアナログ信号がサブウーファー49から空間中に音として出力される。
図4における音声信号処理部43の詳細な構成例を、図5を参照しながら説明する。音声信号処理部43は、C信号ダウンミックス部51、変換部52、分離抽出部53、逆変換部54、及び音声出力信号生成部55を備える。
C信号ダウンミックス部51は、入力音声信号である5つ以上のチャネルのうち1つの特定チャネルを、その1つの特定チャネルに隣合う2つのチャネルにダウンミックスするダウンミックス部の一例であり、特定チャネルとしてCチャネルの信号を採用した例である。C信号ダウンミックス部51は、Cの信号のゲインにダウンミックス係数をかけたものを、RとLの2チャネルの信号それぞれに加算し、それを変換部52に出力する。ダウンミックス係数は時間的に変化しない、0より大きい実数であり、例えば1/2や1/√2などの値をとる。
変換部52は、C信号ダウンミックス部51より入力された2つのチャネルと、LS、RSとを合わせた4つの入力信号それぞれを、1セグメントの1/4の長さの音声データ分読み出す。ここで、音声データとは、例えば48kHzなどの標本化周波数で標本化された離散音声信号波形を指すものとする。そして、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとし、処理セグメントとも呼ぶ。その値は例えば1024とする。この例では、1セグメントの1/4の長さである256点の音声データが読み出し対象となる。
読み出した256点の音声データはバッファに蓄えられる。このバッファは、直前の1セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の3/4セグメント分のデータ(768点)と最新の1/4セグメント分のデータ(256点)を繋げて1セグメント分の音声データを作成し、窓関数を乗算する。すなわち、全ての標本データは窓関数演算に4回読み込まれることになる。
ここで、窓関数の乗算とは、従来提案されている次のHann窓を1セグメント分の音声データに乗算する窓関数演算処理を実行する。
ここで、mは自然数、Mは1セグメント長で偶数とする。変換部52への入力信号をそれぞれx
L(m)、x
R(m)、x
LS(m)、x
RS(m)とすると、窓関数乗算後の音声信号x′
L(m)、x′
R(m)、x′
LS(m)、x′
RS(m)は、
x′
L(m)=w(m)x
L(m)、
x′
R(m)=w(m)x
R(m)、
x′
LS(m)=w(m)x
LS(m)、
x′
RS(m)=w(m)x
RS(m) (2)
と計算される。
変換部52は、そうして得られた音声データを、次の数式(3)のように離散フーリエ変換し、周波数領域の音声データを得る。つまり、変換部52は、上記特定チャネルを除いた、ダウンミックス後の2つのチャネルと残りのチャネル(の音声データ)に対し、離散フーリエ変換を施す。ここで、DFTは離散フーリエ変換を表し、kは自然数で、0<k≦M/2である。XL(k)、XR(k)、XLS(k)、XRS(k)は複素数となる。
XL(k)=DFT(x′L(m))、
XR(k)=DFT(x′R(m))、
XLS(k)=DFT(x′LS(m))、
XRS(k)=DFT(x′RS(m)) (3)
分離抽出部53は、線スペクトル毎に、変換部52で変換された4つ以上のチャネルにおける隣合う2つのチャネルの組み合わせのうち着目した組み合わせについて、相関信号と無相関信号を分離、抽出する。ここで相関信号とは、周波数について相関する信号を指し、無相関信号とは周波数について相関しない信号を指す。
本発明の主たる特徴として、分離抽出部53は、線スペクトル毎に(つまり周波数毎に)、上記隣合う2つのチャネルの組み合わせのうち、どの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定する。分離抽出部53においては、線スペクトル毎でなくても周波数領域(小帯域)毎に分離、抽出してもよく、その場合には判定も小帯域毎に行う。つまり、ここでは線スペクトル毎に相関係数を取得するなどの処理を行う例を挙げて説明するが、特許文献1に記載のように、Equivalent Rectangular Band(ERB)を用いて分割した帯域(周波数領域であり、小帯域とも呼ぶ)毎に相関係数を取得するなどの処理を実行してもよい。
分離抽出部53における分離抽出処理の具体的な内容を、図6を用いて説明する。ここで説明する5.1chの例では、離散フーリエ変換が数式(3)のように4つのチャネルに対して施されている。よって、分離抽出部53は、変換部52で離散フーリエ変換後の4つのチャネルの音声信号について、各線スペクトル毎にステップS62〜S65の処理を実行する(ステップS61a,S61b)。具体的に個々の処理について説明する。
ステップS62では、元のマルチチャンネル再生方式で再生を想定しているスピーカ群のうち、スピーカ配置が隣合う2つの入力信号のいずれに着目するかを判定する処理(着目ペア判定処理)を実行する。
ここで、隣合うスピーカ配置の定義について、図7及び図8を参照して説明する。図7は、5.1chサラウンドシステムのスピーカ群のうちLFEを除いた5つのスピーカの配置例を示す図で、図8は、図7の配置例におけるダウンミックス後の出力対象スピーカの配置例を示す図である。
図7で示すように、5.1chサラウンドシステムでは、LFE用のスピーカを除き、左フロントスピーカ71、右フロントスピーカ72、センタースピーカ73、左サラウンドスピーカ74、右サラウンドスピーカ75が存在する。上述の、スピーカ配置が隣合うか否かを判定する際、上述のC信号ダウンミックス部51でLとRそれぞれに加算されたCの信号は、対象から外す。すなわち、C信号ダウンミックス部51で他の信号に加算される対象となったC信号に係るセンタースピーカ73を除き、図8に示す4つのスピーカ(左フロントスピーカ71、右フロントスピーカ72、左サラウンドスピーカ74、右サラウンドスピーカ75)の配置を考える。
図8に示すように、左フロントスピーカ71と隣合うのは右フロントスピーカ72と左サラウンドスピーカ74となる。同様に、左サラウンドスピーカ74と隣合うのは左フロントスピーカ71と右サラウンドスピーカ75、右フロントスピーカ72と隣合うのは左フロントスピーカ71と右サラウンドスピーカ75、右サラウンドスピーカ75と隣合うのは右フロントスピーカ72と左サラウンドスピーカ74、となる。したがって、この場合、図8中に両矢印で示したように組合せ(ペア)が4つ存在する。
ステップS62では、これらの各ペアのうち、どのペアに着目するかの判定を図9で例示するように行う。図9は、図6の分離抽出処理における着目ペア判定処理の一例を説明するためのフロー図である。
まず、各ペアについて、線スペクトル毎に、次の数式(4)のように電力の和P1〜P4を算出する(ステップS91)。ここで、対象となる線スペクトルの音声信号Xのゲイン(振幅)をGとすると、P(X)は、音声信号Xの電力(音圧に相当)を表し、ゲインGの二乗値で表現できる。
P1(k)=P(XL(k))+P(XR(k))、
P2(k)=P(XLS(k))+P(XL(k))、
P3(k)=P(XRS(k))+P(XLS(k))、
P4(k)=P(XR(k))+P(XRS(k)) (4)
次に、各ペアの線スペクトルに対し、両方のチャネル間の正規化相関係数を次の数式(5)で求めることで、相関係数を取得する(ステップS92)。なお、Re{BB}、Im{CC}はそれぞれ「BB」の実部、「CC」の虚部を表す。
この正規化相関係数d(k) 1〜d(k) 4は両方のチャネルの音声信号にどれだけ相関があるかを表すものであり、0から1の間の実数の値をとる。全く同じ信号同士であれば1、そして全く無相関の信号同士であれば0となる。ここで、両方のチャネルの音声信号の電力が0である場合、その線スペクトルに関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の線スペクトルの処理に移ることとする。また、いずれか片方の電力が0である場合、数式(5)では演算不可能であるが、正規化相関係数d(k) r=0とし、その線スペクトルの処理を続行する。ただし、r=1〜4である。
次に、各ペアに対し、数式(4)と数式(5)で求めた値を乗算したσr(k)を、次のように計算する。
σ1(k)=P1(k)×d(k) 1、
σ2(k)=P2(k)×d(k) 2、
σ3(k)=P3(k)×d(k) 3、
σ4(k)=P4(k)×d(k) 4 (6)
そして、σr(k)が最大値となる場合のrであるrmaxを求め、着目すべきペアを決定する(ステップS93)。例えば、rmax=1の場合、図8における左フロントスピーカ71と右フロントスピーカ72が着目すべきペアとなる。以下では、ステップS93の判定の結果(すなわち図6におけるステップS62の結果)が、左フロントスピーカ71と右フロントスピーカ72が着目すべきペアであった場合を例に挙げて説明するが、他のペアが着目すべきペアであっても同様である。
このように、分離抽出部53は、線スペクトル毎に、隣合う2つのチャネルの組み合わせのうち、どの組み合わせに着目するかを、隣合う2つのチャネルの組み合わせについての電力の大きさと相関係数との乗算結果に基づいて判定することが好ましい。無論、分離、抽出を小帯域毎に行う場合にはこの判定も小帯域毎に行うことになる。
また、数式(6)において、σr(k)の計算の際、d(k) r=1として、相関係数の計算を省略することもできる。d(k) r=1として相関係数の計算を省略することは、隣合う2つのチャネルの電力の大きさの和に基づいて、その和が大きいものを着目すべきペアに決定することを意味する。このように分離抽出部53では、相関係数を用いなくても、線スペクトル毎に、隣合う2つのチャネルの電力の大きさに基づいて判定を行えばよい。但し、相関係数も併せて判定に用いることにより、判定の精度を上げることができる。
その他の判定の例を挙げる。最終的にσr(k)の最大値を求めることができればよいため、d(k) r=1との省略を行う場合もその省略を行わない場合にも、Pr(k)として、隣合う2つのチャネルの電力の積を採用することができる。さらに別の例として、一番大きな電力をもつチャネルと、それに隣合う2つのチャネルのうち大きい電力をもつチャネルとで構成されるペアに着目するように判定することもできる。
ステップS62の結果、電力が最大となり、なおかつ相関係数が大きいペアについてのみ、つまり着目ペアについてのみ、後述するように相関信号・無相関信号に分離した上での仮想音源への割り当てを行う(ステップ63〜S65)。この処理は、同じ線スペクトルあるいは小帯域に属する音像は1つである、という仮定を置くことを意味しており、その仮定において、ステップS63〜S65は正確な音像位置を再現するための変換処理であると言える。なお、上記の判定を電力の大きさのみ実行した場合にも同様に、着目ペアについてのみステップ63〜S65の処理を行えばよい。
まず、上述の正規化相関係数d(k) 1を用いて、両方のチャネルの音声信号から相関信号と無相関信号をそれぞれ分離抽出するための変換係数を求め(ステップS63)、ステップS63で取得したそれぞれの変換係数を用いて、両方のチャネルの音声信号から相関信号と無相関信号を分離抽出する(ステップS64)。相関信号及び無相関信号は、いずれも推定した音声信号として抽出すればよい。以下では簡単のため、d(k) 1をd(k)とおき説明する。
ステップS63,S64の処理例を説明する。ここで、特許文献1に記載の技術と同様、両方のチャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については、両方のチャネルからゲインのみ異なる信号波形(つまり同じ周波数成分からなる信号波形)が出力されるものとするモデルを採用する。ここで、ゲインは、信号波形の振幅に相当し、音圧に関連する値である。そして、このモデルでは、両方のチャネル信号から出力される相関信号によって合成される音像は、その相関信号の両方それぞれの音圧のバランスによって方向が決定されるものとする。
そのモデルに従うと、C信号ダウンミックス部51から変換部52への入力信号でもある分離抽出部53への入力信号xL(m)、xR(m)は、
xL(m)=s(m)+nL(m)、
xR(m)=αs(m)+nR(m) (7)
と表される。ここで、s(m)は両方の相関信号、nL(m)は左チャネルの音声信号から相関信号s(m)を減算したものであって(左チャネルの)無相関信号として定義できるもの、nR(m)は右チャネルの音声信号から相関信号s(m)にαを乗算したものを減算したものであって(右チャネルの)無相関信号として定義できるものである。また、αは相関信号の両方の音圧バランスの程度を表す正の実数である。
数式(7)により、数式(2)で前述した窓関数乗算後の音声信号x′L(m)、x′R(m)は、次の数式(8)で表される。ただし、s′(m)、n′L(m)、n′R(m)はそれぞれs(m)、nL(m)、nR(m)に窓関数を乗算したものである。
x′L(m)=w(m){s(m)+nL(m)}=s′(m)+n′L(m)、
x′R(m)=w(m){αs(m)+nR(m)}=αs′(m)+n′R(m)
(8)
数式(8)を離散フーリエ変換することによって、次の数式(9)を得る。ただし、S(k)、NL(k)、NR(k)はそれぞれs′(m)、n′L(m)、n′R(m)を離散フーリエ変換したものである。
XL(k)= S(k)+NL(k)、
XR(k)=αS(k)+NR(k) (9)
したがって、k番目の線スペクトルにおける音声信号XL(k)、XR(k)は、
XL(k)=S(k)+NL(k)、
XR(k)=α(k)S(k)+NR(k) (10)
と表現される。ここで、α(k)はk番目の線スペクトルにおけるαを表す。
数式(4)の音圧P(X
L(k))とP(X
R(k))をそれぞれP
L (k)、P
R (k)とおくと、数式(10)から、P
L (k)、P
R (k)は、
P
L (k)=P
S (k)+P
N (k)、
P
R (k)=[α
(k)]
2P
S (k)+P
N (k) (11)
と表される。ここで、P
S (k)、P
N (k)はk番目の線スペクトルにおけるそれぞれ相関信号、無相関信号の電力であり、
と表される。ここで、両方のチャネル間の無相関信号の音圧は等しいと仮定している。
また、数式(5)と数式(10)より、d
(k)は、次の数式(13)で表すことができる。ただし、この算出においてはS(k)、N
L(k)、N
R(k)が互いに直交し、かけ合わされたときの電力は0と仮定している。
数式(11)と数式(13)を解くことにより、次の式が得られる。
これらの値を用いて、各線スペクトルにおける相関信号と無相関信号を推定する。k番目の線スペクトルにおける相関信号S(k)の推定値est(S(k))を、媒介変数μ1、μ2を用いて、
est(S(k))=μ1XL(k)+μ2XR(k) (16)
とおくと、推定誤差εは、
ε=est(S(k))−S(k) (17)
と表される。ここで、est(A)はAの推定値を表すものとする。そして二乗誤差ε2が最少になるとき、εとXL(k)、XR(k)はそれぞれ直交するという性質を利用すると、
E[ε・XL(k)]=0、E[ε・XR(k)]=0 (18)
という関係が成り立つ。数式(10)、(12)、(14)〜(17)を利用すると、数式(18)から次の連立方程式が導出できる。
(1−μ1−μ2α(k))PS (k)−μ1PN (k)=0
α(k)(1−μ1−μ2α(k))PS (k)−μ2PN (k)=0
(19)
この数式(19)を解くことによって、各媒介変数が次のように求まる。
ここで、このようにして求まる推定値est(S(k))の電力P
est(S) (k)が、数式(16)の両辺を二乗して求まる次の式
P
est(S) (k)=(μ
1+α
(k)μ
2)
2P
S (k)+(μ
1 2+μ
2 2)P
N (k) (21)
を満たす必要があるため、この式から推定値を次式のようにスケーリングする。なお、est′(A)はAの推定値をスケーリングしたものを表す。
そして、k番目の線スペクトルにおける両方のチャネルの無相関信号N
L(k)、N
R(k)に対する推定値est(N
L(k))、est(N
R(k))はそれぞれ、
est(N
L(k))=μ
3X
L(k)+μ
4X
R(k) (23)
est(N
R(k))=μ
5X
L(k)+μ
6X
R(k) (24)
とおくことにより、上述の求め方と同様にして、媒介変数μ
3〜μ
6は、
と求めることができる。このようにして求めた推定値est(N
L(k))、est(N
R(k))も上述と同様に、次の式によってそれぞれスケーリングする。
数式(20)、(25)、(26)で示した各媒介変数μ1〜μ6及び数式(22)、(27)、(28)で示したスケーリングの係数が、ステップS63で求める変換係数に該当する。そして、ステップS64では、これらの変換係数を用いた演算(数式(16)、(23)、(24))により推定することで、相関信号と無相関信号(右チャネルの無相関信号、左チャネルの無相関信号)とを分離抽出する。
次に、仮想音源への割り当て処理を行う(ステップS65)。まず、この割り当て処理では前処理として、線スペクトル毎に推定した相関信号によって生成される合成音像の方向を推定する。この推定処理について、図10〜図12に基づき説明する。図10は、受聴者と左右のスピーカと合成音像との位置関係の一例を説明するための模式図、図11は、波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の一例を説明するための模式図、図12は、図11の仮想音源と受聴者及び合成音像との位置関係の一例を説明するための模式図である。
いま、図10に示す位置関係100のように、受聴者から左右のスピーカ101L、101Rの中点にひいた線と、同じく受聴者103からいずれかのスピーカ101L/101Rの中心までひいた線がなす見開き角をθ0、受聴者103から推定合成音像102の位置までひいた線がなす見開き角をθとする。ここで、左右のスピーカ101L、101Rから同じ音声信号を、音圧バランスを変えて出力した場合、その出力音声によって生じる合成音像102の方向は、音圧バランスを表す前述のパラメータαを用いて次の式で近似できることが一般的に知られている(以下、立体音響におけるサインの法則と呼ぶ)。
ここで、2chステレオの音声信号を波面合成再生方式で再生できるようにするために、図5に示す分離抽出部53が2chの信号を複数チャネルの信号に変換する。例えば変換後のチャネル数を5つとした場合、それを図11で示す位置関係110のように、波面合成再生方式における仮想音源112a〜112eと見做し、スピーカ群(スピーカアレイ)111の後方に配置する。なお、仮想音源112a〜112eにおける隣合う仮想音源との間隔は均等とする。したがって、ここでの変換は、2chの音声信号を仮想音源数の音声信号に変換することになる。既に説明したように、分離抽出部53は、まず2chの音声信号を、線スペクトル毎に1つの相関信号と2つの無相関信号に分離する。分離抽出部53では、さらにそれらの信号をどのように仮想音源数の仮想音源(ここでは5つの仮想音源)に割り当てるかを事前に決めておかなければならない。なお、割り当ての方法については複数の方法の中からユーザ設定可能にしておいてもよいし、仮想音源数に応じて選択可能な方法を変えてユーザに提示するようにしてもよい。
割り当て方法の1つの例として、次のような方法を採る。それは、まず、左右の無相関信号については、5つの仮想音源の両端(仮想音源112a、112e)にそれぞれ割り当てる。次に、相関信号によって生じる合成音像については、5つのうちの隣接する2つの仮想音源に割り当てる。隣接するどの2つの仮想音源に割り当てるかについては、まず、前提として、相関信号によって生じる合成音像が5つの仮想音源の両端(仮想音源112a、112e)より内側になるものとし、すなわち、2chステレオ再生時の2つのスピーカによってなす見開き角内におさまるように5つの仮想音源112a〜112eを配置するものとする。そして、合成音像の推定方向から、その合成音像を挟むような隣接する2つの仮想音源を決定し、その2つの仮想音源への音圧バランスの割り当てを調整して、その2つの仮想音源によって合成音像を生じさせるように再生する、という割り当て方法を採る。
そこで、図12で示す位置関係120のように、受聴者123から両端の仮想音源112a、112eの中点にひいた線と端の仮想音源112eにひいた線とがなす見開き角をθ0′、上記中点にひいた線と受聴者123から合成音像121にひいた線とがなす見開き角をθ′とする。さらに、受聴者123から合成音像121を挟む2つの仮想音源112c、112dの中点にひいた線と、受聴者123から仮想音源112dとがなす見開き角をφ0、受聴者113から合成音像111にひいた線とがなす見開き角をφとする。ここで、φ0は正の実数である。数式(29)で説明したようにして方向を推定した図10の合成音像102(図12における合成音像121に対応)を、これらの変数を用いて仮想音源に割り当てる方法について説明する。
まず、k番目の合成音像の方向θ(k)が数式(29)によって推定され、例えばθ(k)=π/15[rad]であったとする。そして、仮想音源が5つの場合、図12に示すように合成音像121は左から数えて3番目の仮想音源112cと4番目の仮想音源112dの間に位置することになる。また、仮想音源が5つである場合、3番目の仮想音源112cと4番目の仮想音源112dの間について、三角関数を用いた単純な幾何的計算により、φ0≒0.121[rad]となり、k番目の線スペクトルにおけるφをφ(k)とすると、φ(k)=θ(k)−φ0≒0.088[rad]となる。このようにして、各線スペクトルにおける相関信号によって生じる合成音像の方向を、それを挟む2つの仮想音源の方向からの相対的な角度で表す。そして上述したように、その2つの仮想音源112c、112dでその合成音像を生じさせることを考える。そのためには、2つの仮想音源112c、112dからの出力音声信号の音圧バランスを調整すればよく、その調整方法については、再び数式(29)として利用した立体音響におけるサインの法則を用いる。
ここで、k番目の線スペクトルにおける相関信号によって生じる合成音像を挟む2つの仮想音源112c、112dのうち、3番目の仮想音源112cに対するスケーリング係数をg
1、4番目の仮想音源112dに対するスケーリング係数をg
2とすると、3番目の仮想音源112cからはg
1・est′(S(k))、4番目の仮想音源112dからはg
2・est′(S(k))の音声信号を出力することになる。そして、g
1、g
2は立体音響におけるサインの法則により、
を満たせばよい。
一方、3番目の仮想音源112cと4番目の仮想音源112dからの電力の合計が、元の2chステレオの相関信号の電力と等しくなるようにg1、g2を正規化すると、
g1 2+g2 2=1+[α(k)]2 (31)
となる。
これらを連立させることで、数式(32)が求められる。
この数式(32)に上述のφ(k)、φ0を代入することによって、g1、g2を算出する。このようにして算出したスケーリング係数に基づき、上述したように3番目の仮想音源112cにはg1・est′(S(k))の音声信号を、4番目の仮想音源112dからはg2・est′(S(k))の音声信号を割り当てる。そして、これも上述したように、無相関信号は両端の仮想音源112a、112eに割り当てられる。すなわち、1番目の仮想音源112aにはest′(NL(k))を、5番目の仮想音源112eにはest′(NR(k))を割り当てる。
この例とは異なり、もし合成音像の推定方向が1番目と2番目の仮想音源の間であった場合には、1番目の仮想音源にはg1・est′(S(k))とest′(NL(k))の両方が割り当てられることになる。また、もし合成音像の推定方向が4番目と5番目の仮想音源の間であった場合には、5番目の仮想音源にはg2・est′(S(k))とest′(NR(k))の両方が割り当てられることになる。
なお、ここでは、仮想音源が図11のように直線上に並んでいる場合について説明したが、図13で受聴者と左右のスピーカと仮想音源との位置関係の他の例を示すように、仮想音源131a〜131eを、図7におけるスピーカ配置の円(図13注の破線で示す円)と同心円の円弧上に並べた場合についても、例えばその中心点に受聴者132を配置することによって、上述した場合と同様に、仮想音源への信号割り当てが可能である。
以上、図6のステップS62における判定処理で図8における左フロントスピーカ71と右フロントスピーカ72のペアに着目した場合について、説明してきた。この仮想音源割り当てにより、左フロントスピーカ71と右フロントスピーカ72の音声信号のk番目の線スペクトルについては図11の仮想音源112a〜112e、あるいは、図13の仮想音源131a〜131eに割り当てられたが、図8における左サラウンドスピーカ74と右サラウンドスピーカ75の音声信号それぞれのk番目の線スペクトルについては、まだ割り当てが行われていない。
それらの割り当てについて図14を参照して説明する。図14は、受聴者と左右のスピーカ及び左右のサラウンドスピーカと仮想音源との位置関係の例を説明するための模式図である。それらの割り当ては、図14に示すように、左サラウンドスピーカ74の音声信号のk番目の線スペクトルは、受聴者142から見たときの左サラウンドスピーカ74と同じ方向の仮想音源141aに割り当てる。同様に、右サラウンドスピーカ75の音声信号のk番目の線スペクトルは、受聴者142から見たときの右サラウンドスピーカ75と同じ方向の仮想音源141bに割り当てる。
以上のようにして、ステップS65における、k番目の線スペクトルについて、4つのチャネルの、仮想音源への割り当てが行われる。ここでは、図6におけるステップS62の判定処理の結果、図8における左フロントスピーカ71と右フロントスピーカ72に着目して相関信号と無相関信号の分離処理を行ったが、ステップS62の判定処理の結果、着目する対象が異なることもある。そのような場合について、図15〜図17を参照して説明する。図15〜図17は、受聴者と左右のスピーカ及び左右のサラウンドスピーカと仮想音源との位置関係の他の例を説明するための模式図である。
ステップS62の判定処理の結果、例えば左フロントスピーカ71と左サラウンドスピーカ74に着目するという結果になった場合は、図15に示すように、左フロントスピーカ71と左サラウンドスピーカ74についてのk番目の線スペクトルの相関信号と無相関信号が仮想音源151a〜151eに割り当てられ、右フロントスピーカ72のk番目の線スペクトルが仮想音源151fに、右サラウンドスピーカ75のk番目の線スペクトルが仮想音源151gに、それぞれ割り当てられる。
着目するペアが他のペアとなった場合にも同様である。左サラウンドスピーカ74と右サラウンドスピーカ75に着目するという結果になった場合、図16に示すように、左サラウンドスピーカ74と右サラウンドスピーカ75についてのk番目の線スペクトルの相関信号と無相関信号が仮想音源161a〜161eに割り当てられ、左フロントスピーカ71のk番目の線スペクトルが仮想音源161fに、右サラウンドスピーカ75のk番目の線スペクトルが仮想音源161gに、それぞれ割り当てられる。また、右サラウンドスピーカ75と右フロントスピーカ72に着目するという結果になった場合、図17に示すように、右サラウンドスピーカ75と右フロントスピーカ72についてのk番目の線スペクトルの相関信号と無相関信号が仮想音源171a〜171eに割り当てられ、左サラウンドスピーカ74のk番目の線スペクトルが仮想音源161fに、左フロントスピーカ71のk番目の線スペクトルが仮想音源161gに、それぞれ割り当てられる。
上述のような処理を、ステップS61a,S61bのループにより全ての線スペクトルについて行う。例えば、256点の離散フーリエ変換を行った場合は1〜127番目の線スペクトルまで、512点の離散フーリエ変換を行った場合は1〜255番目の線スペクトルまで、セグメントの全点(1024点)について離散フーリエ変換を行った場合は1〜511番目の線スペクトルまで、となる。
その結果、図18に示すような仮想音源181の数をJ(この例ではJ=16)とすると、各仮想音源(出力チャネル)に対する周波数領域の出力音声信号Y1(k)、・・・、YJ(k)が求まる。これら出力が、図5における分離抽出部53の出力結果となる。
ここで、図18は、左右のスピーカ及び左右のサラウンドスピーカと全ての仮想音源との位置関係の例を説明するための模式図で、図19は図18とは異なる例を説明するための模式図である。図18の例では、16個の仮想音源181を図7における各スピーカ71〜75を結ぶ円と同心円周上に配置したが、図19の例のように、16個の仮想音源191を四角形(この例では台形)上に並ぶように配置してもよい。図19の例は、4つの辺のそれぞれにおいて仮想音源191が直線上に並ぶような配置例であり、図11における仮想音源配置の場合を各辺毎に組み合わせたものである。
また、ここでは例として5.1chサラウンドシステムの信号の変換処理について説明したが、6.1chや7.1chサラウンドシステムでも、同様に変換処理が可能である。この点について図20及び図21を参照して説明する。図20は、6.1chサラウンドシステムのスピーカ群において、LFEを除いた6つのスピーカのうち、ダウンミックス後の出力対象スピーカの配置例を示す図である。図21は、7.1chサラウンドシステムのスピーカ群において、LFEを除いた7つのスピーカのうち、ダウンミックス後の出力対象スピーカの配置例を示す図である。
6.1chシステムにおいても、センター(C)チャネルをLチャネルとRチャネルにダウンミックスし、L/R/LS/RS/CBの5chのうち、図20において矢印で示すような各チャネルのペアを考慮して、前述と同様の処理を行えばよい。7.1chシステムにおいても、センター(C)チャネルをLチャネルとRチャネルにダウンミックスし、L/R/LS/RS/LB/RBの6chのうち、図21において矢印で示すような各チャネルのペアを考慮して、前述と同様の処理を行えばよい。
このように、入力音声信号は、5.1chあるいは6.1chあるいは7.1chサラウンド音響信号であり、ダウンミックスする1つのチャネルは前方中央のチャネルの入力音声信号であることが好ましい。これは、前方中央のチャネルは上述したように左右のフロントチャネルとの間で音圧パニングを行っており、本発明の効果が顕著に得られるためである。なお、サブウーファーの音声信号は通常、別に処理されるため、図5等で説明したように入力音声信号はそれらのいずれかのサラウンド音響信号からサブウーファーのチャネルを除いた音響信号と捉えることもできる。そして、このようなサラウンド音声信号を、センターチャネルをダウンミックスした上で、線スペクトル毎または小帯域毎に、隣合うチャネルのペアのうち、着目するペアを判定し、着目するペアについてのみ相関信号/無相関信号分離を行うことにより、左右のフロントチャネルとの間で音圧パニングを行っていたとしても、サラウンド音響信号を、波面合成再生方式で適切な音像として再生することができる。また、これらのサラウンド音響信号に限らず、9.1chなどのサラウンド音響信号を入力音声信号として適用することもできる。
以上のようにして図5における分離抽出部53の処理がなされる。
次に、逆変換部54の処理がなされる。逆変換部54は、分離抽出部53で抽出された上記着目した組み合わせについての相関信号(またはその相関信号及び無相関信号)に対して、もしくはその相関信号から生成された音声信号に対して、もしくはその相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す。また、逆変換部54は、上記着目した組み合わせ以外のチャネルについて変換部52で変換された音声信号に対しても、離散フーリエ逆変換を施す。
具体的には、逆変換部54では、分離抽出部53から出力された各出力チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号y′J(m)を求める。ここで、DFT−1は離散フーリエ逆変換を表す。なお、ここでは、上記着目した組み合わせについての相関信号及び無相関信号に対して離散フーリエ逆変換を施すとともに、上記着目した組み合わせ以外のチャネルについて変換部52で変換された音声信号に対して離散フーリエ逆変換を施す例を挙げているが、他の場合も同様である。
y′J(m)=DFT−1(YJ(k)) (1≦j≦J) (33)
ここで、数式(2)、(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号y′J(m)も窓関数が乗算された状態になっている。したがって、そうして得られた信号に、数式(1)に示す窓関数を再度乗算し、1つ前に処理したセグメントの先頭から1/4セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。
次に、図22〜図25を参照して各スピーカに対する音声信号の生成について説明する。図22は、非特許文献1に記載の技術において、1つの直線上に並べたスピーカ群の背後に仮想音源を設けた場合に、各仮想音源に対応する音を出力するスピーカについて説明するための模式図である。図23〜図25は、図4の音声データ再生装置におけるスピーカ群の配置例を説明するための模式図である。
図5における音声出力信号生成部55では、逆変換部54で生成した各仮想音源の音声信号を、上述の非特許文献1に記載の技術に則って、各スピーカに対する音声信号を生成する。ただし、非特許文献1に記載の技術では、図22に示すように、1つの直線上に並べたスピーカ群(スピーカアレイ)221の背後に仮想音源222a〜222eがある場合に、「どのスピーカが、どの仮想音源に対応する音を出力するか」を判定するために、仮想音源(仮想音源222bについて図示)からスピーカアレイ221の配列方向を示す直線に下ろした垂線と、仮想音源222bとスピーカを結んだ線とがなす角度ψが、ある一定値より小さい場合に、そのスピーカはその仮想音源222bの音を出力する、という方法が採用されている。
しかし、図13〜図17で適用した仮想音源の配置例や図18や図19で説明した仮想音源の配置例では、少なくとも一部で一直線上に並ばないように配列させたスピーカ群が必要であり、例えば図23で例示するような各仮想音源232と各スピーカ231の配置が必要となる。そのため、非特許文献1に記載の方法では、ある仮想音源(例えば仮想音源232a)の音が、それと対面するスピーカ群231bからも出力されてしまい、音像定位に悪影響を及ぼす。
したがって、例えば図23の仮想音源232aの音を、スピーカ群231のうちどのスピーカが出力するかどうかの判定には、各仮想音源232を配置した円の中心点234と仮想音源232aとを結んだ直線と、判定するスピーカ(例えば図23のスピーカ231a)と中心点234とを結んだ直線とがなす角度ψaが、ある一定値より小さい場合に、スピーカ231aは、仮想音源232aの音を出力すると判定する。これを全てのスピーカと全ての仮想音源の組み合わせに対して行うことによって、図23のような配置をする場合でも各スピーカの出力する音声信号を決定することが可能となる。
このようにして、音声信号処理部43は、マルチチャネル再生方式の5つ以上のチャネルの入力音声信号を、仮想的に存在する音源である仮想音源に対する音像としてスピーカ群により再生させるために変換することができる。ここで、図23で例示し後述の図24、図25で例示するように、スピーカ群は、少なくとも一部で一直線上に並ばないように配列されており、仮想音源とスピーカそれぞれと中心点とを結んだ直線がなす角度によって、出力対象とするスピーカを決定する。
また、図24で例示するように、スピーカ群241を円周上に並べた場合についても、同じ方法を用いることによって、各仮想音源242に対する音声信号を決定することが可能となる。
また、例えば図8における左サラウンドスピーカ74と右サラウンドスピーカ75のペアには着目しないという制約をつけた上で、前述の処理を行うと、音声信号が割り当てられる仮想音源は、図25に示すような仮想音源252(この例では13個の仮想音源252)に限定され、それらの仮想音源252を、全周囲ではなく図25に示すように三方のみを囲う配置のスピーカ群251で出力することも可能である。
以上、説明したように、音声信号処理部43でなした処理は、着目ペアについてのみ相関信号・無相関信号に分離した上で仮想音源(または実在のスピーカ)への割り当てを行う処理であり、この処理は、同じ線スペクトルあるいは小帯域に属する音像は1つであるといった仮定を置くことを意味している。そして、その仮定では正確な音像位置を再現するための変換処理が可能となる。よって、このような変換処理により、マルチチャネル再生方式の5つ以上のチャネルの入力音声信号を、スピーカ群を用いて再生する際に適切な音像を提供できる音声信号に変換することができる。
特に、本発明では着目ペアの判定を、電力の大きさを用いて、もしくは電力の大きさ及び相関係数(つまり相関係数の大きさ)を用いて行っている。そのため、ダウンミックス元のチャネルの信号(この例ではC信号)に含まれる周波数成分については、ダウンミックス先のペアの電力が他のペアの電力に比べて大きくなり、ダウンミックス先のペアが着目ペアに決定される。したがって、センターチャネル信号と左フロントチャネル信号との間、あるいは、センターチャネル信号と右フロントチャネル信号との間で、音圧パニングを行っている場合にも、適切な音像に変換することができる。無論、他の周波数成分(この例では、C信号に含まれない周波数成分であって、元のL、R、LS、RSの信号に含まれる周波数成分)については、他のペアが選択された結果、同様に適切な音像に変換することができる。
次に、本発明の実装について簡単に説明する。本発明は、例えばホームシアターシステムやミニシアターシステムなど、映像の伴う装置に利用できる。図26は、図4の音声データ再生装置を備えた映像表示システムの構成例を示す図である。図26で示す部屋260のように、本発明に係る音声データ再生装置は、部屋の壁の三方(あるいは四方)にスピーカ群261〜263を並べて取り付けたスピーカシステムに適用することができる。そして、図26で例示するように、テレビ装置等の映像表示装置264にこのスピーカシステムを接続し、映像表示装置264で表示させた映像に対応する音声をスピーカ群261〜263から出力することもできる。
さらに、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、カーオーディオに適用することもできる。図27は、図4の音声データ再生装置を備えた自動車の構成例を示す図である。図27で示す自動車270のように、車内のダッシュボード273や側方274、あるいは図示しないが後方に、スピーカを曲線状に並べたスピーカ群271やスピーカ群272を埋め込むこともできる。
また、本発明で適用可能な波面合成再生方式としては、上述したようにスピーカアレイ(複数のスピーカ)を備えて仮想音源に対する音像としてそれらのスピーカから出力するようにする方式であればよく、非特許文献1に記載のWFS方式の他、人間の音像知覚に関する現象としての先行音効果(ハース効果)を利用した方式など様々な方式が挙げられる。ここで、先行音効果とは、同一の音声を複数の音源から再生し、音源それぞれから聴取者に到達する各音声に小さな時間差がある場合、先行して到達した音声の音源方向に音像が定位する効果を指し示したものである。この効果を利用すれば、仮想音源位置に音像を知覚させることが可能となる。ただし、その効果だけで音像を明確に知覚させることは難しい。ここで、人間は音圧を最も高く感じる方向に音像を知覚するという性質も持ち合わせている。したがって、音声データ再生装置において、上述の先行音効果と、この最大音圧方向知覚の効果とを組み合わせ、これにより、少ない数のスピーカでも仮想音源の方向に音像を知覚させることが可能になる。
以上、本発明に係る音声信号変換装置について、主にマルチチャネル再生方式用の音声信号に対して波面合成再生方式で再生させるための音声信号に変換することを前提にして説明したが、本発明は、最初に記述したのように、仮想ではない実在する音源(複数のスピーカ)に対する音像として各スピーカにより再生させるための音声信号に変換する場合などにも同様に適用できる。
また、例えば図5で例示した音声信号処理部43における各構成要素など、本発明に係る音声信号変換装置の各構成要素やその装置を備えた音声データ再生装置の各構成要素は、例えばマイクロプロセッサ(またはDSP:Digital Signal Processor)、メモリ、バス、インターフェイス、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路/IC(Integrated Circuit)チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路/ICチップセットとして搭載することも可能である。
また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、音声信号変換装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはDSPによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体(外部記録媒体や内部記憶装置)であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばCD−ROMまたはDVD−ROMなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。
以上、本発明に係る音声信号変換装置について説明したが、処理の流れをフロー図で例示したように、本発明は、マルチチャネル再生方式の5つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換方法としての形態も採り得る。
この音声信号変換方法は、次のダウンミックスステップ、変換ステップ、分離抽出ステップ、及び逆変換ステップを有する。ダウンミックスステップは、ダウンミックス部が、上記5つ以上のチャネルのうち1つの特定チャネルを、その1つの特定チャネルに隣合う2つのチャネルにダウンミックスするステップである。変換ステップは、変換部が、上記特定チャネルを除いた、ダウンミックス後の2つのチャネルと残りのチャネルに対し、離散フーリエ変換を施すステップである。分離抽出ステップは、分離抽出部が、周波数毎または周波数領域毎に、変換ステップで変換された4つ以上のチャネルにおける隣合う2つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出するステップである。逆変換ステップは、逆変換部が、分離抽出ステップで抽出された上記着目した組み合わせについての相関信号またはその相関信号及び無相関信号に対して、もしくはその相関信号から生成された音声信号に対して、もしくはその相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、上記着目した組み合わせ以外のチャネルについて変換ステップで変換された音声信号に対して、離散フーリエ逆変換を施すステップである。そして、分離抽出ステップは、周波数毎または周波数領域毎に、隣合う2つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定する。その他の応用例については、音声信号変換装置について説明した通りであり、その説明を省略する。
なお、上記プログラムコード自体は、換言すると、この音声信号変換方法をコンピュータに実行させるためのプログラムである。すなわち、このプログラムは、コンピュータに、上記5つ以上のチャネルのうち1つの特定チャネルを、その1つの特定チャネルに隣合う2つのチャネルにダウンミックスするダウンミックスステップと、上記特定チャネルを除いた、ダウンミックス後の2つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換ステップと、周波数毎または周波数領域毎に、変換ステップで変換された4つ以上のチャネルにおける隣合う2つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出ステップと、分離抽出ステップで抽出された上記着目した組み合わせについての相関信号またはその相関信号及び無相関信号に対して、もしくはその相関信号から生成された音声信号に対して、もしくはその相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、上記着目した組み合わせ以外のチャネルについて変換ステップで変換された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、を実行させるためのプログラムである。ここで、分離抽出ステップは、周波数毎または周波数領域毎に、隣合う2つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定する。その他の応用例については、音声信号変換装置について説明した通りであり、その説明を省略する。
以上説明したように、本発明に係る音声信号変換装置は、マルチチャネル再生方式の5つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換装置であって、前記5つ以上のチャネルのうち1つの特定チャネルを、該1つの特定チャネルに隣合う2つのチャネルにダウンミックスするダウンミックス部と、前記特定チャネルを除いた、ダウンミックス後の前記2つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換部と、周波数毎または周波数領域毎に、前記変換部で変換された4つ以上のチャネルにおける隣合う2つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出部と、該分離抽出部で抽出された前記着目した組み合わせについての相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、前記着目した組み合わせ以外のチャネルについて前記変換部で変換された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、を備え、前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う2つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定することを特徴としたものである。これにより、マルチチャネル再生方式の5つ以上のチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に適切な音像を提供できる音声信号に変換することができる。
前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う2つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさの和または積に基づいて、和または積が大きい組み合わせに着目するように判定するようにしてもよい。電力の大きさの和に基づいて判定すればよく、もしくは電力の大きさの積に基づいて判定してもよい。これにより、電力の大きさに基づく判定が可能になる。
前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う2つのチャネルの組み合わせのうちどの組み合わせに着目するかを、一番大きな電力をもつチャネルと、該チャネルに隣合う2つのチャネルのうち大きい電力をもつチャネルとの組み合わせに着目するように判定するようにしてもよい。これにより、電力の基づく判定が可能になる。
前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う2つのチャネルの組み合わせのうちどの組み合わせに着目するかを、前記隣合う2つのチャネルの組み合わせについての電力の大きさと相関係数との乗算結果に基づいて判定するようにしてもよい。このように相関係数も併せて判定に用いることにより、判定の精度を上げることができる。
前記5つ以上のチャネルの入力音声信号は、5.1chあるいは6.1chあるいは7.1chのサラウンド音響信号であり、前記ダウンミックス部で前記ダウンミックスする1つのチャネルは前方中央のチャネルの入力音声信号であってもよい。これにより、左右のフロントチャネルとの間で音圧パニングを行っていたとしても、サラウンド音響信号を、波面合成再生方式で適切な音像として再生することができる。
本発明の第4の技術手段は、第1〜第3のいずれか1項の技術手段において、前記音声信号変換装置は、前記5つ以上のチャネルの入力音声信号を、仮想的に存在する音源である仮想音源に対する音像として前記スピーカ群により再生させるために変換し、該スピーカ群は、少なくとも一部で一直線上に並ばないように配列されており、前記仮想音源と前記スピーカそれぞれと中心点とを結んだ直線がなす角度によって、出力対象とするスピーカを決定するようにしてもよい。これにより、マルチチャネル再生方式の5つ以上のチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式で再生する際に適切な音像を提供できる音声信号に変換することができる。
本発明に係る音声信号変換方法は、マルチチャネル再生方式の5つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換方法であって、ダウンミックス部が、前記5つ以上のチャネルのうち1つの特定チャネルを、該1つの特定チャネルに隣合う2つのチャネルにダウンミックスするダウンミックスステップと、変換部が、前記特定チャネルを除いた、ダウンミックス後の前記2つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換ステップと、分離抽出部が、周波数毎または周波数領域毎に、前記変換ステップで変換された4つ以上のチャネルにおける隣合う2つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出ステップと、逆変換部が、前記分離抽出ステップで抽出された前記着目した組み合わせについての相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、前記着目した組み合わせ以外のチャネルについて前記変換ステップで変換された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、を含み、前記分離抽出ステップは、周波数毎または周波数領域毎に、前記隣合う2つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定することを特徴としたものである。これにより、マルチチャネル再生方式の5つ以上のチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に適切な音像を提供できる音声信号に変換することができる。
本発明に係るプログラムは、マルチチャネル再生方式の5つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換するプログラムであって、該プログラムは、コンピュータに、前記5つ以上のチャネルのうち1つの特定チャネルを、該1つの特定チャネルに隣合う2つのチャネルにダウンミックスするダウンミックスステップと、前記特定チャネルを除いた、ダウンミックス後の前記2つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換ステップと、周波数毎または周波数領域毎に、前記変換ステップで変換された4つ以上のチャネルにおける隣合う2つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出ステップと、該分離抽出ステップで抽出された前記着目した組み合わせについての相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、前記着目した組み合わせ以外のチャネルについて前記変換ステップで変換された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、を実行させるためのプログラムであり、前記分離抽出ステップは、周波数毎または周波数領域毎に、前記隣合う2つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定することを特徴とする。これにより、本発明の機能をプログラムとして提供することができる。
本発明に係る記録媒体は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。これにより、上記プログラムを記録媒体で流通させることができる。