以下、図面を参照して、本発明の実施の形態について説明する。
図3は、本発明を適用した信号処理装置の一実施の形態の構成例を示すブロック図である。
図3の信号処理装置では、入力信号から、その入力信号に付加するノイズの大きさを表すゲイン情報が求められ、入力信号に、ゲイン情報に応じた大きさ(レベル)のノイズを付加したノイズ付加信号の自己相関が、入力信号の特徴量として求められる。
すなわち、図3において、信号処理装置は、音響信号変換部11、フレーム処理部12、正規化自己相関計算部13,Rmax計算部14、フレームパワー計算部15、ゲイン計算部16、ガウスノイズ生成部17、ノイズミックス部18、正規化自己相関計算部19、及びRmax計算部20から構成される。
音響信号変換部11は、例えば、マイク(マイクロフォン)とA/D(Analog/Digital)コンバータ等で構成され、音声を、ディジタルの音声信号に変換し、フレーム処理部12に供給する。
すなわち、音響信号変換部11は、そこに入力される空気振動としての音(人間の音声や、信号処理装置が設置されている環境に存在する音)を、マイクによってアナログの音声信号に変換する。さらに、音響信号変換部11は、マイクで得られたアナログの音声信号を、A/Dコンバータによってディジタルの音声信号に変換し、その音声信号を、入力信号として、フレーム処理部12に、時系列に供給する。ここで、時刻tにおける入力信号のサンプル値を、X(t)と表す。
フレーム処理部12は、音響信号変換部11から供給される入力信号X(t)を、Tサンプルのサンプル値で構成されるフレームにフレーム化するフレーム処理を行い、すなわち、例えば、時刻t-T+1から時刻tまでの入力信号のT個のサンプル値X(t-T+1),X(t-T+2),・・・,X(t)を1フレームとし、時刻t-T+1から所定のフレームシフト時間だけ後の時刻を先頭とする時刻からT個の入力信号のサンプル値を1フレームとし、以下、同様にして、音響信号変換部11から供給される入力信号X(t)からフレームを構成して、正規化自己相関計算部13、フレームパワー計算部15、及びノイズミックス部18に供給する。
ここで、以下、適宜、入力信号(t)の先頭からn番目のフレーム(フレーム番号がnのフレーム)を、フレームx(n)という。
正規化自己相関計算部13は、フレーム処理部12から供給されるフレームx(n)の自己相関R’(x(n),τ)を、例えば、前述の式(1)にしたがって求め、さらに、その自己相関R’(x(n),τ)を正規化することにより、正規化自己相関R(x(n),τ)を求める。
ここで、正規化自己相関R(x(n),τ)も、その正規化自己相関R(x(n),τ)に正規化される前の自己相関R’(x(n),τ)も、「自己相関」である。なお、正規化される前の自己相関R’(x(n),τ)を、以下、適宜、正規化前自己相関という。
正規化自己相関R(x(n),τ)は、前述したように、正規化前自己相関R’(x(n),τ)を、ラグτが0の正規化前自己相関R’(x(n),0)で正規化することにより、すなわち、式R(x(n),τ)=R’(x(n),τ)/R’(x(n),0)を演算することにより求めることができる。
正規化自己相関計算部13は、フレームx(n)の正規化自己相関R(x(n),τ)を求めると、その正規化自己相関R(x(n),τ)を、Rmax計算部14に供給する。
Rmax計算部14は、例えば、80Hzから400Hzまでの周波数の範囲を、基本周波数範囲とし、正規化自己相関計算部13から供給される正規化自己相関R(x(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値であるラグ範囲最大相関Rmax(x(n))を求めて、ゲイン計算部16に供給する。
ここで、上述したように、基本周波数範囲が、80Hzから400Hzまでの周波数の範囲である場合、音響信号変換部11での入力信号X(t)のサンプリング周波数が、例えば16kHzであれば、基本周波数範囲に相当するラグτの範囲は、40サンプル(=16kHz/400Hz)から200サンプル(=16kHz/80Hz)までの範囲となる。この場合、Rmax計算部14は、ラグτが40から200までの範囲で、最大の正規化自己相関R(x(n),τ)を求め、ラグ範囲最大相関Rmax(x(n))とする。
フレームパワー計算部15は、フレーム処理部12から供給されるフレームx(n)のパワー(以下、適宜、フレームパワーという)p(n)を求め、ゲイン計算部16に供給する。
ここで、フレームパワー計算部15は、例えば、フレームx(n)のT個のサンプル値それぞれの自乗の総和や、その総和の平方根を計算し、その計算結果を、フレームパワーp(n)とする。
ゲイン計算部16は、Rmax計算部14から供給される、入力信号X(t)の自己相関としての、フレームx(n)のラグ範囲最大相関Rmax(x(n))と、フレームパワー計算部15から供給される、入力信号X(t)のパワーとしての、フレームx(n)のフレームパワーp(n)とに基づき、入力信号X(t)のフレームx(n)(の各サンプル値)に付加するノイズの大きさを表すゲイン情報であるゲインgain(n)を求め、ノイズミックス部18に供給する。
すなわち、ゲイン計算部16は、例えば、Rmax計算部14からのフレームx(n)のラグ範囲最大相関Rmax(x(n))と、フレームパワー計算部15からのフレームx(n)のフレームパワーp(n)とを引数とする所定の関数F(p(n),Rmax(x(n)))を演算し、その演算結果を、ゲインgain(n)として、ノイズミックス部18に供給する。
ここで、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))としては、例えば、フレームx(n)を含む連続するNフレーム(Nは2以上の整数)のそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))の最小値(Nフレームそれぞれについての積p(n)×Rmax(x(n))の中で、最小の値の積p(n)×Rmax(x(n)))を求める関数などを採用することができる。
ガウスノイズ生成部17は、入力信号X(t)のフレームx(n)に付加するノイズgとして、1フレームのサンプル数と同一のTサンプルのガウスノイズを生成し、ノイズミックス部18に供給する。
なお、ガウスノイズ生成部17において生成するノイズgは、ガウスノイズに限定されるものではなく、ノイズgのラグ範囲最大相関Rmax(g)が、0又は0に近い値となるノイズであれば、どのようなノイズであっても良い。
ノイズミックス部18は、フレーム処理部12からの入力信号X(t)のフレームx(n)に、ゲイン計算部16からのゲインgain(n)に応じた大きさのノイズを付加したノイズ付加信号を求め、正規化自己相関計算部19に供給する。
すなわち、ノイズミックス部18は、ガウスノイズ生成部17からのノイズgを、ゲイン計算部16からのゲインgain(n)に応じた大きさのノイズ(以下、適宜、レベル変換ノイズという)に変換し、フレーム処理部12からの入力信号X(t)のフレームx(n)に、レベル変換ノイズを付加したノイズ付加信号Y(t)のフレームy(n)を求め、正規化自己相関計算部19に供給する。
ここで、時刻tのレベル変換ノイズをB(t)と表すとともに、時刻tのノイズ付加信号をY(t)と表すと、入力信号X(t)に、レベル変換ノイズB(t)を付加(加算)した信号X(t)+B(t)が、ノイズ付加信号Y(t)となる。
また、ノイズ付加信号Y(t)の先頭からn番目のフレーム(のT個のサンプル値の時系列)を、y(n)と表すこととすると、ノイズミックス部18は、Cを所定の適切な定数として、例えば、式y(n)=x(n)+C×gain(n)×gにしたがって、ノイズ付加信号Y(t)のフレームy(n)を求める。
正規化自己相関計算部19は、上述した正規化自己相関計算部13と同様にして、ノイズミックス部18からのノイズ付加信号Y(t)のフレームy(n)の正規化前自己相関R’(y(n),τ)を求め、さらに、その正規化前自己相関R’(y(n),τ)を正規化することにより、正規化自己相関R(y(n),τ)を求めて、Rmax計算部20に供給する。
Rmax計算部20は、上述したRmax計算部14と同様にして、例えば、80Hzから400Hzまでの周波数の範囲を、基本周波数範囲とし、正規化自己相関計算部19から供給されるノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(y(n),τ)の最大値であるラグ範囲最大相関Rmax(y(n))を求めて、入力信号X(t)のフレームx(n)から抽出された特徴量として出力する。
なお、図3の信号処理装置において、正規化自己相関計算部13,Rmax計算部14、フレームパワー計算部15、ゲイン計算部16、ガウスノイズ生成部17、ノイズミックス部18、正規化自己相関計算部19、及びRmax計算部20は、フレームx(n)から、そのフレームx(n)の特徴量として、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求めるノイズミックスRmax計算部を構成する。ノイズミックスRmax計算部において行われる、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求める処理を、以下、適宜、ノイズミックスRmax計算処理という。
ここで、前述したように、入力信号X(t)にガウスノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求め、そのラグ範囲最大相関Rmax(y(n))を用いて、音声区間の検出等を行う場合には、入力信号X(t)に付加するガウスノイズのレベルを、適切に調整すること、すなわち、入力信号X(t)の音声が存在しない部分に付加するガウスノイズのレベルは大きくし、入力信号X(t)の音声が存在する部分に付加するガウスノイズのレベルは小さくすることが重要である。
一方、図3の信号処理装置では、上述したように、ノイズミックス部18において、式y(n)=x(n)+C×gain(n)×gにしたがって、ノイズ付加信号Y(t)のフレームy(n)が求められる。すなわち、ノイズミックス部18では、入力信号X(t)のフレームに、ゲインgain(n)に比例する大きさのノイズC×gain(n)×gを加算することにより、ノイズ付加信号Y(t)のフレームy(n)が求められる。
したがって、入力信号X(t)のフレームx(n)が音声区間のフレームでない場合には、ゲインgain(n)を大きくし、入力信号X(t)のフレームx(n)が音声区間のフレームである場合には、ゲインgain(n)を小さくする必要があり、ゲイン計算部16において、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))としては、以上のようなゲインgain(n)が得られる関数が採用される。
ここで、例えば、文献CONSTRUCTION AND EVALUATION OF A ROBUST MULTIFEATURE SPEECH/MUSICDISCRIMINATOR Eric Scheirer Malcolm Slaneyy ICASSP'97, pp. 1331-1334に記載されているように、人間の音声については、例えば、音楽(楽曲)に比較して、フレームパワーが、1秒程度の区間のフレームパワーの平均値(平均フレームパワー)より小さいフレームの比率が高いこと、つまり、多くのフレームが、平均フレームパワーよりも小さいフレームパワーのフレームであることが知られている。
さらに、上記の文献に記載されているように、人間の音声のスペクトルは4Hz(0.25秒)程度で変化することが知られている。
以上から、音声については、数百ミリ秒(0.数秒)から1秒程度の時間内において、パワーや正規化自己相関に変化があることを期待することができる。
すなわち、音声については、数百ミリ秒から1秒程度の時間に、パワーが大きく変動する部分と、自己相関が大きく変動する部分とが存在することを期待することができる。したがって、音声については、パワーと自己相関とから計算される値である、例えば、フレームパワーp(n)と正規化自己相関Rmax(x(n))との積p(n)×Rmax(x(n))が、数百ミリ秒から1秒程度の時間に大きく変動し、小さい値が存在することを期待することができる。
一方、音楽その他の定常的なノイズについては、数百ミリ秒から1秒程度の時間に、パワーが大きく変動する部分が存在することは期待できない。さらに、定常的なノイズの自己相関は、一律に大きい。したがって、定常的なノイズについては、例えば、上述したフレームパワーp(n)と正規化自己相関Rmax(x(n))との積p(n)×Rmax(x(n))が、数百ミリ秒から1秒程度の時間に大きく変動することは期待できないし、さらに、特に、正規化自己相関Rmax(x(n))の影響によって、比較的大きな値となることを期待することができる。
そこで、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))としては、例えば、フレームパワーp(n)と正規化自己相関Rmax(x(n))との積p(n)×Rmax(x(n))の、数百ミリ秒から1秒程度の時間内での最小値を採用することにより、音声(のフレームx(n))については、値の小さいゲインgain(n)が求められ、定常的なノイズ(のフレームx(n))については、値の大きなゲインgain(n)が求められることを期待することができる。
なお、ゲインgain(n)を求める関数F()は、上述した関数に限定されるものではない。すなわち、ゲインgain(n)を求める関数F()は、Rmax計算部20において、音声区間のフレームに対して求められるラグ範囲最大相関Rmax(y(n))を大にし、非音声区間のフレームに対して求められるラグ範囲最大相関Rmax(y(n))を小にする関数であれば、どのような関数であっても良い。
また、ノイズミックス部18において、式y(n)=x(n)+C×gain(n)×gにしたがって、ノイズ付加信号Y(t)のフレームy(n)を求めるときに用いられる定数Cとしては、例えば、その定数Cの値を変えて、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求め、そのラグ範囲最大相関Rmax(y(n))を用いて、音声区間を検出する実験を行い、より正確に音声区間を検出することができたときの定数Cの値を採用することができる。
また、ノイズミックス部18でにおいて用いられる定数Cとしては、その定数Cの値を変えて、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求め、そのラグ範囲最大相関Rmax(y(n))をプロットして目視で確認し、音声区間において値が大きく、かつ、非音声区間において値が小さいラグ範囲最大相関Rmax(y(n))を得られたときの定数Cの値を採用することができる。
次に、図4のフローチャートを参照して、図3の信号処理装置の動作について説明する。
図3の信号処理装置では、音響信号変換部11からフレーム処理部12に対して、入力信号X(t)としての音声信号が供給される。
フレーム処理部12は、ステップS11において、音響信号変換部11から供給される入力信号X(t)を、Tサンプルのサンプル値で構成されるフレームにフレーム化するフレーム処理を行い、その結果得られるフレームx(n)を、正規化自己相関計算部13、フレームパワー計算部15、及びノイズミックス部18に供給する。
正規化自己相関計算部13は、ステップS13において、フレーム処理部12からのフレームx(n)の正規化自己相関R(x(n),τ)を求め、Rmax計算部14に供給する。
Rmax計算部14は、ステップS14において、正規化自己相関計算部13からの正規化自己相関R(x(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値であるラグ範囲最大相関Rmax(x(n))を求めて、ゲイン計算部16に供給する。
また、フレームパワー計算部15は、ステップS15において、フレーム処理部12からのフレームx(n)のフレームパワーp(n)を求め、ゲイン計算部16に供給する。
ゲイン計算部16は、ステップS16において、Rmax計算部14からのフレームx(n)のラグ範囲最大相関Rmax(x(n))と、フレームパワー計算部15からのフレームx(n)のフレームパワーp(n)とに基づき、ゲインgain(n)を求め、ノイズミックス部18に供給する。
すなわち、ゲイン計算部16は、例えば、フレームx(n)を中心として、数百ミリ秒から1秒程度の時間内に存在するNフレームについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))のうちの最小値を、ゲインgain(n)として求め、ノイズミックス部18に供給する。
一方、ガウスノイズ生成部17は、ステップS12において、1フレームのサンプル数と同一のTサンプルのガウスノイズgを生成し、ノイズミックス部18に供給する。
ノイズミックス部18は、ステップS17において、式y(n)=x(n)+C×gain(n)×gにしたがい、定数Cと、ゲイン計算部16からのゲインgain(n)との積C×gain(n)を求め、ガウスノイズ生成部17からのガウスノイズgを、積C×gain(n)倍したノイズC×gain(n)×gを求める。さらに、ステップS17では、ノイズミックス部18は、式y(n)=x(n)+C×gain(n)×gにしたがい、フレーム処理部12からのフレームx(n)に、ノイズC×gain(n)×gを付加することにより、ノイズ付加信号Y(t)のフレームy(n)を求め、正規化自己相関計算部19に供給する。
正規化自己相関計算部19は、ステップS18において、ノイズミックス部18からのノイズ付加信号Y(t)のフレームy(n)の正規化自己相関R(y(n),τ)を求めて、Rmax計算部20に供給する。
Rmax計算部20は、ステップS19において、正規化自己相関計算部19からの正規化自己相関R(y(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(y(n),τ)の最大値であるラグ範囲最大相関Rmax(y(n))を求める。そして、Rmax計算部20は、ステップS20において、そのラグ範囲最大相関Rmax(y(n))を、入力信号X(t)のフレームx(n)から抽出された特徴量として出力する。
次に、図5は、図3の信号処理装置を応用した音声区間検出装置の一実施の形態の構成例を示している。
図5の音声区間検出装置では、入力信号X(t)としての音声信号の特徴量として、その入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を用いて、入力信号X(t)の音声区間が検出される。
すなわち、図5の音声区間検出装置では、音響信号変換部41が、図3の音響信号変換部11と同様に、そこに入力される空気振動としての音を、アナログの音声信号に変換し、さらに、そのアナログの音声信号を、ディジタルの音声信号に変換して、入力信号X(t)として、フレーム処理部42に供給する。
フレーム処理部42では、図3のフレーム処理部12と同様に、音響信号変換部41からの入力信号X(t)を、Tサンプルのサンプル値で構成されるフレームにフレーム化するフレーム処理が行われ、その結果得られるフレームx(n)が、ノイズミックスRmax計算部43、及びフレームパワー計算部44に供給される。
ノイズミックスRmax計算部43は、図3のノイズミックスRmax計算部、すなわち、正規化自己相関計算部13,Rmax計算部14、フレームパワー計算部15、ゲイン計算部16、ガウスノイズ生成部17、ノイズミックス部18、正規化自己相関計算部19、及びRmax計算部20と同様に構成され、ノイズミックスRmax計算処理を行うことによって、フレーム処理部42から供給されるフレームx(n)から、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求め、複数フレーム処理部45に供給する。
一方、フレームパワー計算部44では、フレーム処理部42からのフレームx(n)から、そのフレームx(n)のフレームログパワーが求められ、さらに、そのフレームログパワーを正規化した正規化ログパワーlogp(n)が求められて、複数フレーム処理部45に供給される。
すなわち、フレームパワー計算部44は、フレームx(n)のT個のサンプル値それぞれの自乗の総和のlogをとることで、フレームログパワーFP(n)を求める。
さらに、フレームパワー計算部44は、例えば、忘却係数ffを用いた式FPave(n)=ff×FPave(n-1)+(1-ff)×FP(n)を演算することにより、FPave(n)を、フレームログパワーFP(n)の平均値として求める。
そして、フレームパワー計算部44は、フレームログパワーFP(n)から、平均値FPave(n)を減算し、その減算値FP(n)-FPave(n)を、正規化ログパワーlogp(n)として、複数フレーム処理部45に供給する。
ここで、フレームログパワーFP(n)を、そのフレームログパワーFP(n)から平均値FPave(n)を減算して、正規化ログパワーlogp(n)とすることにより、その正規化ログパワーlogp(n)の平均は、ほぼ0となる。すなわち、フレームパワー計算部44において、フレームログパワーFP(n)の正規化は、その平均を0とするために行われる。
複数フレーム処理部45は、ノイズミックスRmax計算部43からのラグ範囲最大相関Rmax(y(n))と、フレームパワー計算部44からの正規化ログパワーlogp(n)とをまとめて(統合して)、入力信号X(t)の注目フレームの特徴量(統合特徴量)を求める。
すなわち、いま、入力信号X(t)の先頭からn番目のフレームx(n)を、注目フレームということとすると、複数フレーム処理部45は、注目フレームと、その前後の幾つかのフレームのラグ範囲最大相関Rmax(y(n))、及び正規化ログパワーlogp(n)をコンポーネントとするベクトルを、注目フレームの特徴量として求める。
具体的には、複数フレーム処理部45は、例えば、注目フレームのラグ範囲最大相関Rmax(y(n))と、その前後の8フレームそれぞれのラグ範囲最大相関Rmax(y(n))との、合計で17個のラグ範囲最大相関Rmax(y(n))を昇順にソートするとともに、注目フレームの正規化ログパワーlogp(n)と、その前後の8フレームそれぞれの正規化ログパワーlogp(n)との、合計で17個の正規化ログパワーlogp(n)を昇順にソートし、ソート後の17個のラグ範囲最大相関Rmax(y(n))と、ソート後の17個の正規化ログパワーlogp(n)とをコンポーネントとする34次元のベクトルを、注目フレームの特徴量として求める。
そして、複数フレーム処理部45は、注目フレームの特徴量としての34次元のベクトルを、線形判別分析部46に供給する。
線形判別分析部46は、複数フレーム処理部45からのフレームx(n)の特徴量としてのベクトルの次元を圧縮し、識別処理部47に供給する。
すなわち、線形判別分析部46は、複数フレーム処理部45からのフレームx(n)の特徴量としての34次元のベクトルを、例えば、線形判別分析(LDA(Linear Discriminant Analysis))によって、2次元のベクトルに圧縮し、フレームx(n)の特徴量として、識別処理部47に供給する。
識別処理部47は、線形判別分析部46からの特徴量としての2次元のベクトルに基づき、フレームx(n)が、音声区間のフレームであるか、または非音声区間のフレームであるかの識別を行い、その識別結果を、音声区間情報として出力する。
すなわち、識別処理部47は、例えば、音声区間の検出用に学習がされたHMM(Hidden Markov Model)を記憶しており、そのHMMにおいて、線形判別分析部46からの特徴量が観測される尤度に基づき、フレームx(n)が、音声区間のフレームであるか、または非音声区間のフレームであるかの識別を行い、その識別結果を、音声区間情報として出力する。
なお、非特許文献2には、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))ではなく、入力信号X(t)のラグ範囲最大相関Rmax(x(n))と、正規化ログパワーlogP(n)を特徴量とし、5状態のtied-state HMMを用いて、音声区間の検出を行う方法が記載されている。ここでのtied-state HMMとは、音声HMMと非音声HMMとのそれぞれが5状態(state)を持つが、音声HMMと非音声とのそれぞれの5状態が同じ混合ガウス分布(GMM:Gaussian Mixture Model)を共有(tied)するものである。
図5の音声区間検出装置で行われる音声区間の検出は、特徴量として、入力信号X(t)のラグ範囲最大相関Rmax(x(n))に代えて、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が用いられる点と、音声区間の識別に、5状態のtied-state HMMに代えて、tied-stateではない通常の5状態のHMMが用いられる点において、非特許文献2に記載の方法と異なる。
次に、図6ないし図14を参照して、図5の音声区間検出装置を用いて行った音声区間の検出の実験の結果について説明する。
実験では、ソニー株式会社が開発した二足歩行ロボットであるQRIO(R)に採用されているマイクによって得られたアナログの音声信号を、16kHzのサンプリング周波数でサンプリングすることにより、ディジタルの音声信号に変換し、入力信号X(t)として用いた。
さらに、実験では、フレームの長さ(サンプル数)Tを、1024サンプルとして、160サンプルずつシフトしながら、入力信号X(t)から、フレームx(n)を抽出した。
また、実験では、正規化ログパワーlogp(n)を求めるのに用いる平均値FPave(n)を、式FPave(n)=ff×FPave(n-1)+(1-ff)×FP(n)にしたがって求めるのにあたり、忘却係数ffとして、0.99を採用した。
さらに、音声区間の識別に用いるHMMの確率密度関数としては、混合ガウス分布を採用した。また、音声区間用のHMMと、非音声区間用のHMMとを用意するとともに、HMMの学習用の入力信号X(t)を用意し、その学習用の入力信号X(t)から、線形判別分析部46で得られるのと同様の2次元ベクトルを、特徴量として得て、学習用の入力信号X(t)の音声区間から得られた特徴量を、音声区間用のHMMに与えるとともに、学習用の入力信号X(t)の非音声区間から得られた特徴量を、非音声区間用のHMMに与えることによって、音声区間用のHMMと、非音声区間用のHMMとの学習を行った。
また、実験では、実験用の入力信号X(t)に対して、人が、音声区間の開始と終了のフレームをラベリングし、識別処理部47が出力した音声区間情報が表す音声区間と、人が開始と終了のフレームをラベリングした音声区間とを比較することにより、識別処理部47が出力した音声区間情報が表す音声区間の正否を判断した。
具体的には、人がラベリングした音声区間の開始と終了のフレームを、それぞれ、第Tsフレームと、第Teフレームとするとともに、識別処理部47が出力した音声区間情報が表す音声区間の開始と終了のフレームを、それぞれ、第Ssフレームと、第Seフレームとすると、Ssが、式Ts-40<=Ss<=Tsを満たし、かつ、Seが、式Te<=Se<=Te+40を満たす場合に、識別処理部47が出力した音声区間情報が表す音声区間が、正解であるとした。
なお、その他、実験では、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))として、フレームx(n)を含む連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))の最小値を求める関数(以下、適宜、積最小値関数という)の他に、フレームx(n)を含む連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))の平均値を求める関数(以下、適宜、積平均値関数という)と、フレームx(n)を含む連続するNフレームのそれぞれについてのフレームパワーp(n)の最小値を求める関数(以下、適宜、パワー最小値関数という)とを用いた。
また、関数F(p(n),Rmax(x(n)))を定義するNフレームとしては、40フレームを採用した。
図6は、実験において、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
すなわち、図6上半分側は、音楽が流れている環境(音楽環境)で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示しており、図6下半分側は、エアコン(エアコンディショナ)が稼働している環境(エアコン環境)で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図6上半分側の上から1番目は、音楽環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、その入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図6上半分側の上から3番目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図6下半分側も、その上から1番目は、エアコン環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、1番目の入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図6上半分側の上から3番目は、1番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
なお、図6において、縦長の長方形で囲んである部分が、音声区間を表す。後述する図7においても同様である。
図7は、実験において、図6と同様に、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
但し、図6では、ノイズ付加信号Y(t)を求めるのに用いられる式y(n)=x(n)+C×gain(n)×gを定義する定数Cとして、0.4が採用されているのに対して、図7では、定数Cとして、0.2が採用されている。図7のその他の点は、図6と同様である。
図6及び図7の入力信号X(t)のラグ範囲最大相関Rmax(x(n))と、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))とを比較すると、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、音声区間では、入力信号X(t)のラグ範囲最大相関Rmax(x(n))の値を維持し、非音声区間では、入力信号X(t)のラグ範囲最大相関Rmax(x(n))よりも小さい値になっている。
したがって、図3のゲイン計算部16において、入力信号X(t)に付加されるノイズのレベルが、適切に調整され、その結果、ノイズミックス部18において、入力信号X(t)の音声が存在しない部分には、大きなレベルのノイズが付加され、入力信号X(t)の音声が存在する部分には、小さなレベルのノイズが付加されていることが分かる。
図8は、実験において、関数F(p(n),Rmax(x(n)))として、積平均値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
すなわち、図8上半分側は、上述の図6上半分と同様に、音楽環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示しており、図8下半分側は、上述の図6下半分と同様に、エアコン環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
但し、図8では、上述したように、関数F(p(n),Rmax(x(n)))として、積最小値関数ではなく、積平均値関数が採用されている。
図8上半分側の上から1番目は、音楽環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、その入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図8上半分側の上から3番目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図8下半分側も、その上から1番目は、エアコン環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、1番目の入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図8上半分側の上から3番目は、1番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
なお、図8において、縦長の長方形で囲んである部分が、音声区間を表す。後述する図9においても同様である。
図9は、実験において、図8と同様に、関数F(p(n),Rmax(x(n)))として、積平均値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
但し、図8では、ノイズ付加信号Y(t)を求めるのに用いられる式y(n)=x(n)+C×gain(n)×gを定義する定数Cとして、0.1が採用されているのに対して、図9では、定数Cとして、0.05が採用されている。図9のその他の点は、図8と同様である。
図8において、A81で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値になっており、これは、入力信号X(t)に、十分な大きさのノイズが付加されていないことを表す。
また、図8において、A82で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、音声区間であるにもかかわらず、入力信号X(t)のラグ範囲最大相関Rmax(x(n))の値よりも小さくなっており、これは、入力信号X(t)に付加されたノイズのレベルが大きすぎることを表す。
定数Cを大きくすれば、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))の非音声区間での値、すなわち、例えば、図8のA81で示す部分の値を小さくすることができる。しかしながら、定数Cを大きくすると、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))の音声区間での値、すなわち、例えば、図8のA82で示す部分の値は、さらに小さくなる。
一方、定数Cを小さくすることにより、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))の音声区間での値、すなわち、例えば、図8のA82で示す部分の値を大きくして、入力信号X(t)のラグ範囲最大相関Rmax(x(n))の値と同程度にすることができる。
しかしながら、定数Cを小さくすると、定数Cが0.1の図8と、定数Cが0.1より小さい0.05の図9とを比較して分かるように、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))の非音声区間での値を小さくすることができなくなる。
すなわち、定数Cを小さくすると、図9において、A91やA92で示すように、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値に大きくなる。
図10は、実験において、関数F(p(n),Rmax(x(n)))として、パワー最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
すなわち、図10上半分側は、上述の図6上半分と同様に、音楽環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示しており、図10下半分側は、上述の図6下半分と同様に、エアコン環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
但し、図10では、上述したように、関数F(p(n),Rmax(x(n)))として、積最小値関数ではなく、パワー最小値関数が採用されている。
図10上半分側の上から1番目は、音楽環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、1番目の入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図10上半分側の上から3番目は、1番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図10下半分側も、その上から1番目は、エアコン環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、1番目の入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図10上半分側の上から3番目は、1番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
なお、図10において、縦長の長方形で囲んである部分が、音声区間を表す。後述する図11及び図12においても同様である。
図11及び図12は、実験において、図10と同様に、関数F(p(n),Rmax(x(n)))として、パワー最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
但し、図10では、ノイズ付加信号Y(t)を求めるのに用いられる式y(n)=x(n)+C×gain(n)×gを定義する定数Cとして、0.2が採用されているのに対して、図11では、定数Cとして、0.1が採用されており、図12では、定数Cとして、0.05が採用されている。
定数Cの大小に関しては、関数F(p(n),Rmax(x(n)))として、パワー最小値関数を採用した図10ないし図12においても、関数F(p(n),Rmax(x(n)))として、積平均値関数を採用した図8及び図9の場合と基本的に同様の傾向がある。
例えば、定数Cが0.2の図10において、A101とA102で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、音声区間であるにもかかわらず、入力信号X(t)のラグ範囲最大相関Rmax(x(n))の値よりも小さくなっており、これは、A101とA102で示す部分については、入力信号X(t)に付加されたノイズのレベルが大きすぎることを表す。
また、定数Cが0.1の図11において、A111で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値になっており、これは、A111で示す部分については、入力信号X(t)に、十分な大きさのノイズが付加されていないことを表す。
さらに、図11において、A112で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、音声区間であるにもかかわらず、入力信号X(t)のラグ範囲最大相関Rmax(x(n))の値よりも小さくなっており、これは、A112で示す部分については、入力信号X(t)に付加されたノイズのレベルが大きすぎることを表す。
また、定数Cが0.05の図12において、A121とA122で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値になっており、これは、A121とA122で示す部分については、入力信号X(t)に、十分な大きさのノイズが付加されていないことを表す。
次に、図13及び図14は、図5の音声区間検出装置を用いた実験において得られた音声区間の正解率を示している。
実験では、音楽環境で集音した音声信号、エアコン環境で集音した音声信号、及びソニー株式会社が開発した二足歩行ロボットであるQRIO(R)が動作している環境(ロボット環境)で集音した音声信号のそれぞれを入力信号X(t)として、定数Cを変えながら、音声区間を検出した。
図13は、音楽環境で集音した音声信号を入力信号X(t)として音声区間を検出した場合に、高い正解率が得られる定数Cを採用したときの正解率を示しており、図14は、エアコン環境で集音した音声信号と、ロボット環境で集音した音声信号とを、それぞれ入力信号X(t)として音声区間を検出した場合に、高い正解率が得られる定数Cを採用したときの正解率を示している。
図13及び図14の1行目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を用いずに、入力信号X(t)のラグ範囲最大相関Rmax(x(n))と正規化ログパワーlogp(n)とのセットを特徴量として、その特徴量を、図5の線形判別分析部46を介して、識別処理部47に与えた場合(以下、適宜、ベースラインの場合という)の、音楽環境、エアコン環境、及びロボット環境で集音した音声信号それぞれについての正解率を示している。
また、図13及び図14の2行目ないし4行目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))と、入力信号X(t)の正規化ログパワーlogp(n)とのセットを特徴量として、その特徴量を、図5の線形判別分析部46を介して、識別処理部47に与えた場合(以下、適宜、ノイズレベル調整方式の場合という)の、音楽環境、エアコン環境、及びロボット環境で集音した音声信号それぞれについての正解率を示している。
但し、図13及び図14の2行目ないし4行目のうちの2行目では、関数F(p(n),Rmax(x(n)))として、積最小値関数が採用されており、3行目では、関数F(p(n),Rmax(x(n)))として、積平均値関数が採用されている。また、図13及び図14の2行目ないし4行目のうちの4行目では、関数F(p(n),Rmax(x(n)))として、パワー最小値関数が採用されている。
なお、定数Cを、音楽環境で集音した音声信号に対する正解率が高くなるように調整した図13では、その2行目の、関数F(p(n),Rmax(x(n)))が、積最小値関数である場合の定数Cとして、0.4が採用されている。
また、図13の3行目の、関数F(p(n),Rmax(x(n)))が、積平均値関数である場合の定数Cとして、0.1が採用されており、その4行目の、関数F(p(n),Rmax(x(n)))が、パワー最小値関数である場合の定数Cとして、0.2が採用されている。
一方、定数Cを、エアコン環境やロボット環境で集音した音声信号に対する正解率が高くなるように調整した図14では、その2行目の、関数F(p(n),Rmax(x(n)))が、積最小値関数である場合の定数Cとして、0.2が採用されている。
また、図14の3行目の、関数F(p(n),Rmax(x(n)))が、積平均値関数である場合の定数Cとして、0.025が採用されており、その4行目の、関数F(p(n),Rmax(x(n)))が、パワー最小値関数である場合の定数Cとして、0.05が採用されている。
音楽環境、エアコン環境、及びロボット環境の中では、特に、音楽環境に、周期性の高いノイズ(音楽)が存在する。
このため、ベースラインの場合には、入力信号X(t)のラグ範囲最大相関Rmax(x(n))が、音声区間のみならず、非音声区間でも大きな値となり、その結果、図13及び図14の1行目に示すように、音楽環境で集音した音声信号に対する正解率が、他のエアコン環境やロボット環境で集音した音声信号に対する正解率よりも著しく低くなっている。
すなわち、ベースラインの場合では、図13及び図14の1行目に示すように、ロボット環境で集音した音声信号に対する正解率が94.63%で、エアコン環境で集音した音声信号に対する正解率が93.12%であり、高い正解率であるのに対して、音楽環境で集音した音声信号に対する正解率は、8.75%と著しく低い正解率になっている。
また、定数Cを、音楽環境で集音した音声信号に対する正解率が高くなるように調整した図13のノイズレベル調整方式の場合においては、図13の2行目ないし4行目に示すように、音楽環境で集音した音声信号に対する正解率は、関数F(p(n),Rmax(x(n)))として、積最小値関数、積平均値関数、又はパワー最小値関数が採用されたときに、それぞれ、45.00%,46.25%、又は45.00%であり、いずれも、ベースラインの場合の正解率である8.75%から飛躍的に向上している。
また、図13の2行目ないし4行目のノイズレベル調整方式の場合では、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、図13の2行目に示すように94.12%であり、ベースラインの場合のロボット環境で集音した音声信号に対する正解率(94.63%)と同程度になっている。
さらに、図13のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率は、図13の2行目に示すように96.25%であり、ベースラインの場合のエアコン環境で集音した音声信号に対する正解率(93.12%)よりも向上している。
但し、図13のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、それぞれ、図13の3行目と4行目に示すように84.94%と89.80%であり、2行目に示した、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの正解率(94.12%)と比較して、多少低下している。
さらに、図13のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率も、それぞれ、図13の3行目と4行目に示すように88.12%と93.12%であり、2行目に示した、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの正解率(96.25%)と比較して、多少低下している。
一方、定数Cを、ロボット環境やエアコン環境で集音した音声信号に対する正解率が高くなるように調整した図14のノイズレベル調整方式の場合においては、図14の2行目ないし4行目に示すように、音楽環境で集音した音声信号に対する正解率は、関数F(p(n),Rmax(x(n)))として、積最小値関数、積平均値関数、又はパワー最小値関数が採用されたときに、それぞれ、42.50%,17.50%、又は13.75%であり、いずれも、ベースラインの場合の正解率である8.75%から向上している。
但し、図14のノイズレベル調整方式の場合において、音楽環境で集音した音声信号に対する正解率は、関数F(p(n),Rmax(x(n)))として、積最小値関数が採用されたときには、42.50%であり、関数F(p(n),Rmax(x(n)))として、積平均値関数が採用されたとき(17.50%)や、パワー最小値関数が採用されたとき(13.75%)と比較して、著しく向上している。
また、図14の2行目ないし4行目のノイズレベル調整方式の場合では、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、図14の2行目に示すように94.78%であり、ベースラインの場合のロボット環境で集音した音声信号に対する正解率(94.63%)と同程度になっている。
さらに、図14のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率は、、図14の2行目に示すように96.25%であり、ベースラインの場合のエアコン環境で集音した音声信号に対する正解率(93.12%)よりも向上している。
また、図14のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、それぞれ、図14の3行目と4行目に示すように94.84%と93.98%であり、2行目に示した、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの正解率(94.78%)と同程度になっている。
さらに、図14のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率も、それぞれ、図14の3行目と4行目に示すように93.12%と96.25%であり、2行目に示した、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの正解率(96.25%)と同程度になっている。
以上のように、ノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときには、定数Cを、例えば、音楽環境といった特定の環境に適した値に固定すると、その特定の環境(例えば、音楽環境)で集音した音声信号に対する正解率は高くなるが、例えば、ロボット環境やエアコン環境などの別の環境で集音した音声信号に対する正解率は低くなる。したがって、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときには、入力信号X(t)としての音声信号に含まれるノイズの種類によって、正解率が比較的変動するので、ノイズロバストネス(noise robustness)が低いということができる。
一方、ノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときには、定数Cを、特定の環境に適した値に固定しても、音楽環境、ロボット環境、又はエアコン環境のうちのいずれの環境で集音した音声信号に対する正解率も、高い値を維持することができる。したがって、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときには、入力信号X(t)としての音声信号に含まれているノイズの種類によらず、高い正解率を得ることができる。
ここで、積最小値関数は、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))のうちの最小値を求める関数であり、積平均値関数は、連続するNフレームのそれぞれについての積p(n)×Rmax(x(n))の平均値を求める関数であるから、積p(n)×Rmax(x(n))の最小値を用いる場合には、その積p(n)×Rmax(x(n))の平均値を用いる場合に比較して、例えば、音声区間の検出において高い正解率が得られるといったように、効果的であるいうことができる。
また、積最小値関数は、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))の最小値を求める関数であり、パワー最小値関数は、連続するNフレームのそれぞれについてのフレームパワーp(n)の最小値を求める関数であるから、フレームパワーp(n)のみならず、ラグ範囲最大相関Rmax(x(n))を用いる場合には、フレームパワーp(n)だけを用いる場合に比較して、やはり、例えば、音声区間の検出において高い正解率が得られるといったように、効果的であるいうことができる。
なお、入力信号X(t)としての音声信号にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を、音声信号の特徴量として用いて行う音声処理は、音声区間の検出に限られるものではない。すなわち、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、例えば、音声認識や、韻律認識、さらには、非特許文献7に記載されているような基本周波数の検出(ピッチの検出)等の音声処理において、音声信号の特徴量として用いることができる。
以上のように、入力信号X(t)の自己相関としてのラグ範囲自己相関Rmax(x(n))と、パワーとしてのフレームパワーp(n)とに基づき、入力信号X(t)に付加するノイズgの大きさを表すゲイン情報としてのゲインgain(n)を求め、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)の自己相関としてのラグ範囲自己相関Rmax(y(n))を、入力信号X(t)の特徴量として求めるノイズミックスRmax計算処理によれば、入力信号X(t)の周期性がある区間、すなわち、例えば、特に、有声音等の音声区間を精度良く検出すること等ができる自己相関としてのラグ範囲自己相関Rmax(y(n))を求めることができる。
また、例えば、前述した非特許文献6に記載の方法では、第1段階の処理として、入力信号の自己相関を用いた特徴量を求め、その特徴量に基づき入力信号全体に対して、大まかに、音声区間と非音声区間の判定を行い、非音声区間と判定された区間の入力信号の分散を利用して、入力信号に付加するガウスノイズのレベルの決定を行い、第2段階の処理として、入力信号に、第1段階の処理で決定したレベルのガウスノイズを付加したノイズ付加信号の自己相関を用いた特徴量として、ラグ範囲最大相関を求める。
すなわち、非特許文献6に記載の方法では、第1段階の処理において、入力信号全体を処理して入力信号の自己相関を求め、入力信号に付加するガウスノイズのレベルを決定する。
したがって、非特許文献6に記載の方法では、入力信号全体を処理してその自己相関を求めるまでは、第2段階の処理によって特徴量を求めることができないため、特徴量を求めるまでに、大きな時間遅れが生じる。そして、特徴量を用いて行われる、例えば、音声認識や音声区間の検出等の音声処理には、一般に、実時間性が要求されるため、大きな時間遅れが生じることは、好ましくない。
一方、ノイズミックスRmax計算処理では、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))によって、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))のうちの最小値を求めるときに、そのNフレーム分の遅延が生じるが、入力信号X(t)全体を処理するような大きな時間遅れは生じないので、音声認識や音声区間の検出等の実時間性が要求される音声処理に用いられる特徴量を求める処理として、ノイズミックスRmax計算処理を採用しても、実時間性にほとんど影響しない。
また、非特許文献6に記載の方法は、第1段階の処理において、入力信号全体から、入力信号に付加するガウスノイズのレベルを決定するので、入力信号に含まれる音声成分や周期ノイズのレベルが時間とともに変化する入力信号の処理には不向きである。
これに対して、ノイズミックスRmax計算処理によれば、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))によって、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))のうちの最小値を求めるときに、そのNフレームの区間が参照されるだけなので、入力信号に含まれる音声成分や周期ノイズのレベルが時間とともに変化する入力信号についても、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関Rmax(y(n))を求めることができる。
以上、周期性を表す周期性情報として自己相関を用いた場合について説明したが、YIN等を用いても同様の処理が可能である。
次に、上述したように、ノイズミックスRmax計算処理では、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)のラグ範囲自己相関Rmax(y(n))が求められるが、入力信号X(t)に付加するノイズとしての、例えば、ガウスノイズには、その特性にばらつきがある。
そして、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関Rmax(y(n))を求めるには、入力信号X(t)に付加するガウスノイズとして、適切な特性のガウスノイズを採用することが重要である。
すなわち、図3のガウスノイズ生成部17では、入力信号X(t)に付加するガウスノイズとして、入力信号X(t)のフレーム長Tと同一のサンプル数Tのガウスノイズgが生成されるが、いま、サンプル数Tのガウスノイズgの正規化自己相関R(g,τ)の、基本周波数範囲に相当するラグτの範囲での最大値Rmax(g)である、ガウスノイズgのラグ範囲最大相関Rmax(g)は、0に近い値であることが望ましい。
つまり、ラグ範囲自己相関Rmax(y(n))が、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関Rmax(y(n))であるためには、ラグ範囲自己相関Rmax(y(n))が、非音声区間において、0に近い値(理想的には、0)となる必要がある。
ラグ範囲自己相関Rmax(y(n))が、非音声区間において、0に近い値となるには、入力信号X(t)に付加するガウスノイズgのラグ範囲最大相関Rmax(g)が、0に近い値でなければならない。
しかしながら、ガウスノイズgのサンプル数Tが十分大である場合には、ガウスノイズgのラグ範囲最大相関Rmax(g)は0に近い値となるが、ガウスノイズgのサンプル数Tが十分大でない場合には、ガウスノイズgのラグ範囲最大相関Rmax(g)は、その値にばらつきが生じ、0に近い値にならないことがある。
ここで、図15は、ガウスノイズgのラグ範囲最大相関Rmax(g)を示している。
すなわち、図15は、サンプル数Tが1024の、異なる時系列のガウスノイズgを1000回生成し、その結果得られた1000個のガウスノイズgのラグ範囲最大相関Rmax(g)を昇順に並べたものを示している。
なお、図15において、横軸は、1000個のガウスノイズgのラグ範囲最大相関Rmax(g)を昇順に並べたときの順位を表し、縦軸は、ガウスノイズgのラグ範囲最大相関Rmax(g)を表す。
1000個のガウスノイズgそれぞれのラグ範囲最大相関Rmax(g)は、0.07ないし0.2程度の範囲に分布しており、ばらつきがあることが分かる。
図16及び図17は、1000個のガウスノイズgのうちの、ラグ範囲最大相関Rmax(g)が最大のガウスノイズgmaxを入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))と、ラグ範囲最大相関Rmax(g)が最小のガウスノイズgminを入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))とを示している。
なお、図16及び図17において、横軸は、時間(横軸の1単位は0.01秒に相当する)を表す。また、図16及び図17において、縦長の長方形で囲んである部分が、音声区間を表す。
図16上から1番目は、入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。
図16上から2番目は、上述の1000個のガウスノイズgのうちの、ラグ範囲最大相関Rmax(g)が最大(ここでは、図15で説明した0.2)のガウスノイズgmaxを、1番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示しており、図16上から3番目は、ラグ範囲最大相関Rmax(g)が最小(ここでは、図15で説明した0.07)のガウスノイズgminを、1番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図17上から1番目は、図16とは異なる入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。
図17上から2番目は、図16上から2番目と同様に、ラグ範囲最大相関Rmax(g)が最大のガウスノイズgmaxを、1番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示しており、図17上から3番目は、図16上から3番目と同様に、ラグ範囲最大相関Rmax(g)が最小のガウスノイズgminを、1番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図16及び図17から、入力信号X(t)に付加するガウスノイズgのラグ範囲最大相関Rmax(g)が、入力信号x(t)にガウスノイズgを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))に大きく影響することが分かる。
すなわち、入力信号X(t)に、ラグ範囲最大相関Rmax(g)が最大のガウスノイズgmaxを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、図16及び図17の上から2番目に示すように、非音声区間で、0.2程度と大になる。
これに対して、入力信号X(t)に、ラグ範囲最大相関Rmax(g)が最小のガウスノイズgminを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、図16及び図17の上から3番目に示すように、非音声区間で、0.07程度と小になる。
したがって、入力信号X(t)に対しては、ラグ範囲最大相関Rmax(g)がより小さいガウスノイズgを付加することにより、非音声区間で値が小さくなる、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))、すなわち、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関Rmax(y(n))を求めることができる。
そこで、図3のガウスノイズ生成部17では、ラグ範囲最大相関Rmax(g)がより小さいガウスノイズgを、ノイズミックス部18に供給させるようにすることができる。
すなわち、図18は、ラグ範囲最大相関Rmax(g)がより小さいガウスノイズgを、ノイズミックス部18に供給するガウスノイズ生成部17の構成例を示している。
ノイズ生成部71は、サンプル数がフレーム長Tに等しく、複数であるM個の、異なる時系列のガウスノイズg(1),g(2),・・・,g(M)を生成し、正規化自己相関計算部72とノイズ選択部74に供給する。
正規化自己相関計算部72は、ノイズ生成部71から供給されるM個のガウスノイズg(m)それぞれについて(m=1,2,・・・,M)、正規化自己相関R(g(m),τ)を求め、Rmax計算部73に供給する。
Rmax計算部73は、正規化自己相関計算部72から供給される、M個のガウスノイズg(m)の正規化自己相関R(g(m),τ)それぞれについて、基本周波数範囲に相当するラグτの範囲での最大値であるラグ範囲最大相関Rmax(g(m))を求め、ノイズ選択部74に供給する。
ノイズ選択部74は、ノイズ生成部71から供給されるM個のガウスノイズg(m)の中から、その自己相関としての、Rmax計算部73から供給されるラグ範囲最大相関Rmax(g(m))が最小のガウスノイズを選択し、入力信号X(t)に付加するガウスノイズgとして、ノイズミックス部18(図3)に供給する。
次に、図19のフローチャートを参照して、図18に示した構成の図3のガウスノイズ生成部17が、図4のステップS12で行う処理について説明する。
ステップS51において、ノイズ生成部71は、M個のガウスノイズg(m)を生成し、正規化自己相関計算部72とノイズ選択部74に供給して、ステップS52に進む。
ステップS52では、正規化自己相関計算部72は、ノイズ生成部71からのM個のガウスノイズg(m)それぞれについて、正規化自己相関R(g(m),τ)を求め、Rmax計算部73に供給して、ステップS53に進む。
ステップS53では、Rmax計算部73は、正規化自己相関計算部72からのM個のガウスノイズg(m)の正規化自己相関R(g(m),τ)それぞれのラグ範囲最大相関Rmax(g(m))を求め、ノイズ選択部74に供給して、ステップS54に進む。
ステップS54では、ノイズ選択部74は、ノイズ生成部71からのM個のガウスノイズg(m)の中から、Rmax計算部73からのラグ範囲最大相関Rmax(g(m))が最小のガウスノイズを選択し、入力信号X(t)に付加するガウスノイズgとして、ノイズミックス部18(図3)に供給してリターンする。
なお、ガウスノイズ生成部17では、ステップS51ないしS54の処理を一度行えば良く、その後は、ステップS54で選択したガウスノイズgを、ノイズミックス部18に供給するようにすれば良い。
また、図18及び図19では、ガウスノイズg(m)のラグ範囲最大相関Rmax(g(m))に基づいて、M個のガウスノイズg(m)の中から、ノイズミックス部18に供給するガウスノイズgを選択するようにしたが、M個のガウスノイズg(m)の中からの、ノイズミックス部18に供給するガウスノイズgの選択は、その他、例えば、入力信号X(t)にM個のガウスノイズg(m)それぞれを付加したM個のノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))に基づいて行うことが可能である。
すなわち、例えば、ノイズミックス部18に供給するガウスノイズgを選択するのに用いる選択用の入力信号X(t)を、あらかじめ用意しておき、その選択用の入力信号X(t)に、M個のガウスノイズg(m)をそれぞれ付加したM個のノイズ付加信号Ym(t)それぞれについて、M個のラグ範囲最大相関Rmax(ym(n))を求める。
そして、そのM個のノイズ付加信号Ym(t)のラグ範囲最大相関Rmax(ym(n))それぞれに基づき、選択用の入力信号X(t)について、音声区間の検出を行い、M個のガウスノイズg(m)の中から、正解率が最も高いラグ範囲最大相関Rmax(ym(n))が求められたノイズ付加信号Ym(t)に付加されたガウスノイズg(m)を、ノイズミックス部18に供給するガウスノイズgとして選択することができる。
次に、図3の信号処理装置で行われるノイズミックスRmax計算処理では、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))として、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))のうちの最小値を求める積最小値関数や、その積p(n)×Rmax(x(n))の平均値を求める積平均値関数を採用した場合には、正規化自己相関計算部13において、入力信号X(t)の正規化自己相関R(x(n),τ)を求め、さらに、正規化自己相関計算部19において、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)を求める必要があるから、自己相関の計算を2回行う必要がある。
このように、ノイズミックスRmax計算処理では、処理を、いわば忠実に行う場合には、自己相関の計算を2回行う必要があるが、近似を行うことにより、自己相関の計算を1回で済まし、これにより、計算量を低減することができる。
すなわち、入力信号X(t)のn番目のフレームx(n)のラグ範囲最大相関Rmax(x(n))は、次式で求められる。
ここで、式(2)において、R'(x(n),τ)は、フレームx(n)の正規化前自己相関であり、R'(x(n),0)は、ラグτが0のときの正規化前自己相関であるから、R'(x(n),τ)/R'(x(n),0)は、フレームx(n)の正規化自己相関である。
さらに、式(2)において、ラグτが下にあるargmax{}は、基本周波数範囲に相当するラグτの範囲での、かっこ{}内の最大値を表す。
また、ノイズ付加信号Y(t)のn番目のフレームy(n)のラグ範囲最大相関Rmax(y(n))は、フレームy(n)の正規化前自己相関R'(y(n),τ)と、ラグτが0のときの正規化前自己相関R'(y(n),0)とを用いて、上述の式(2)と同様の次式で求められる。
ところで、図3のノイズミックス部18において、ノイズ付加信号Y(t)のフレームy(n)を得るために、入力信号X(t)のフレームx(n)に付加される、フレーム長Tと同一のサンプル数Tのノイズを、g(n)と表すと、ノイズ付加信号Y(t)のフレームy(n)は、式y(n)=x(n)+g(n)で表される。
さらに、フレーム長がTのフレームx(n)の先頭のサンプル値を、x[t]と表すと、フレームx(n)の、例えば、最後のサンプル値は、x[t+T-1]と表すことができる。同様に、サンプル数がTのノイズg(n)の先頭のサンプル値を、g[t]と表すと、ノイズg(n)の、例えば、最後のサンプル値は、g[t+T-1]と表すことができる。
この場合、式(3)右辺における正規化前自己相関R'(y(n),τ)は、式(4)で表される。
ここで、式(2)及び式(3)のargmax{}を求めるにあたって用いられる基本周波数範囲に相当するラグτの範囲は大きいので、式(4)右辺の2行目の第2項である、ノイズg(n)の正規化前自己相関R'(g(n),τ)は、0に近似することができる。
また、ノイズg(n)と入力信号X(t)のフレームx(n)との間に、相関はない(と仮定することができる)ので、式(4)右辺の2行目の第3項の、ノイズg(n)とフレームx(n)との相互相関(1/T)Σ{x[i]g[i+τ]+x[i+τ]g(i)}は、0に近似することができる。
したがって、式(4)左辺の正規化前自己相関R'(y(n),τ)は、式R'(y(n),τ)=R'(x(n),τ)で近似することができる。すなわち、ノイズ付加信号Y(t)のフレームy(n)の正規化前自己相関R'(y(n),τ)は、入力信号X(t)のフレームx(n)の正規化前自己相関R'(x(n),τ)で近似することができる。
以上のように、ノイズ付加信号Y(t)のフレームy(n)の正規化前自己相関R'(y(n),τ)を、入力信号X(t)のフレームx(n)の正規化前自己相関R'(x(n),τ)で近似することにより、ノイズ付加信号Y(t)のフレームy(n)の正規化自己相関R(y(n),τ)、つまり、式(3)右辺のargmax{}内の正規化自己相関R'(y(n),τ)/R'(y(n),0)(=R'(y(n),τ)/R'(x(n)+g(n),0))は、次式で表される。
上述したように、ノイズg(n)と入力信号X(t)のフレームx(n)との間に、相関はないので、式(5)右辺の2行目の分母における第3項の、ノイズg(n)とフレームx(n)との相互相関(1/T)Σ{x[i]g[i+τ]+x[i+τ]g(i)}は、0に近似することができる。
この場合、式(5)のノイズ付加信号Y(t)のフレームy(n)の正規化自己相関R(y(n),τ)は、式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}で近似することができる。
この式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}における分母にあるR'(g(n),0)は、ラグτが0のときのノイズg(n)の正規化前自己相関であるが、このラグτが0のときの正規化前自己相関R'(g(n),0)は、ノイズg(n)の各サンプル値の自乗の総和(自乗パワー)に等しいので、ノイズg(n)の正規化前自己相関R'(g(n),τ)を計算しなくても求めることができる。
以上のように、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)は、式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}で近似することができ、この式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}を、式(3)のargmax{}のかっこ{}内のR'(y(n),τ)/R'(y(n),0)、つまり、正規化自己相関R(y(n),τ)に代入することにより、式(3)のノイズ付加信号Y(t)のフレームy(n)のラグ範囲最大相関Rmax(y(n))は、式Rmax(y(n))=Rmax(x(n))/{R'(x(n),0)+R'(g(n),0)}にしたがい、入力信号X(t)のフレームx(n)のラグ範囲最大相関Rmax(x(n))、フレームx(n)の自乗パワーに等しいラグτが0のときの正規化前自己相関R'(x(n),0)、及びノイズg(n)の自乗パワーに等しいラグτが0のときの正規化前自己相関R'(g(n),0)から求めることができる。
すなわち、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、ノイズg(n)の自己相関、及び入力信号X(t)とノイズg(n)との相互相関が0であると近似することにより、入力信号X(t)の自己相関としてのラグ範囲最大相関Rmax(x(n))、及びラグτが0のときの正規化前自己相関R'(x(n),0)、並びにラグが0のノイズg(n)の自己相関としてのラグτが0のときの正規化前自己相関R'(g(n),0)とを用い、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)を計算せずに求めることができる。
いま、上述のように、近似によって、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求めるノイズミックスRmax計算処理を、近似ノイズミックスRmax計算処理ということとすると、近似ノイズミックスRmax計算処理では、自己相関の計算としては、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)の計算を行う必要がなく、入力信号X(t)の正規化自己相関R(x(n),τ)の計算だけを行えば良いので、計算量を低減することができる。
ここで、図3の信号処理装置によって行われるノイズミックスRmax計算処理を、近似ノイズミックスRmax計算処理と区別するために、以下、適宜、通常ノイズミックスRmax計算処理という。
図20は、近似ノイズミックスRmax計算処理によって、入力信号X(t)の特徴量としての、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求める信号処理装置の一実施の形態の構成例を示している。
なお、図中、図3の信号処理装置と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。すなわち、図20の信号処理装置は、ガウスノイズ生成部17に代えて、ガウスノイズパワー計算部91が設けられているとともに、Rmax計算部20に代えて、Rmax近似計算部92が設けられ、ノイズミックス部18及び正規化自己相関計算部19が設けられていない他は、図3の信号処理装置と同様に構成されている。
また、図20の信号処理装置では、正規化自己相関計算部13、Rmax計算部14、フレームパワー計算部15、ゲイン計算部16、ガウスノイズパワー計算部91、及びRmax近似計算部92が、ノイズミックスRmax計算処理としての近似ノイズミックスRmax計算処理を行うノイズミックスRmax計算部を構成する。
ガウスノイズパワー計算部91は、例えば、図3のガウスノイズ生成部17と同様にして、入力信号X(t)に付加する、サンプル数がTのノイズgを生成し、そのノイズgについて、ラグτが0のときの正規化前自己相関R'(g,0)、つまり、ノイズgの各サンプル値の自乗の総和である自乗パワーを求め、Rmax近似計算部92に供給する。
Rmax近似計算部92には、上述したように、ガウスノイズパワー計算部91から、ノイズgについての、ラグτが0のときの正規化前自己相関R'(g,0)に等しい自乗パワーが供給される他、Rmax計算部14から、入力信号X(t)のフレームx(n)のラグ範囲最大自己相関Rmax(x(n))が供給されるとともに、ゲイン計算部16から、ゲインgain(n)が供給される。
さらに、Rmax近似計算部92には、フレームパワー計算部15から、入力信号X(t)のフレームx(n)のフレームパワーp(n)、すなわち、入力信号X(t)のフレームx(n)についての、ラグτが0のときの正規化前自己相関R'(x(n),0)に等しい自乗パワーが供給される。
Rmax近似計算部92は、Rmax計算部14からの入力信号X(t)のフレームx(n)のラグ範囲最大自己相関Rmax(x(n))、フレームパワー計算部15からの入力信号X(t)のフレームx(n)についてのラグτが0のときの正規化前自己相関R'(x(n),0)、ゲイン計算部16からのゲインgain(n)、及びガウスノイズパワー計算部91からの、ノイズgについてのラグτが0のときの正規化前自己相関R'(g,0)を用い、上述の式Rmax(y(n))=Rmax(x(n))/{R'(x(n),0)+R'(g(n),0)}に相当する式Rmax(x(n))/{R'(x(n),0)+{C×gain(n)}2×R'(g,0)}にしたがい、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)のラグ範囲自己相関Rmax(y(n))を求める。
次に、図21のフローチャートを参照して、図20の信号処理装置の動作について説明する。
図20の信号処理装置では、ステップS91,S93ないしS96において、図4のステップS11,S13ないしS16とそれぞれ同様の処理が行われる。
これにより、Rmax計算部14では、入力信号X(t)のフレームx(n)のラグ範囲最大相関Rmax(x(n))が求められ、フレームパワー計算部15では、入力信号X(t)のフレームパワーp(n)が求められる。また、ゲイン計算部16では、ゲインgain(n)が求められる。
そして、Rmax計算部14において求められた入力信号X(t)のフレームx(n)のラグ範囲最大相関Rmax(x(n))、フレームパワー計算部15において求められた入力信号X(t)のフレームx(n)のフレームパワーp(n)、及び、ゲイン計算部16で求められたゲインgain(n)が、Rmax近似計算部92に供給される。
一方、ステップS92において、ガウスノイズパワー計算部91は、1フレームのサンプル数と同一のTサンプルのノイズgとして、例えばガウスノイズを生成し、そのノイズgについて、ラグτが0のときの正規化前自己相関R'(g,0)、つまり、ノイズgの自乗パワーを求め、Rmax近似計算部92に供給する。
そして、ステップS97において、Rmax近似計算部92は、Rmax計算部14からの入力信号X(t)のフレームx(n)のラグ範囲最大自己相関Rmax(x(n))、フレームパワー計算部15からの入力信号X(t)のフレームx(n)についてのラグτが0のときの正規化前自己相関R'(x(n),0)に等しいフレームパワーp(n)、ゲイン計算部16からのゲインgain(n)、及びガウスノイズパワー計算部91からの、ノイズgについてのラグτが0のときの正規化前自己相関R'(g,0)に等しい自乗パワーを用い、式Rmax(y(n))=Rmax(x(n))/{R'(x(n),0)+{C×gain(n)}2×R'(g,0)}にしたがい、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)のラグ範囲自己相関Rmax(y(n))を求める。
さらに、Rmax近似計算部92は、ステップS98において、ステップS97で求めたラグ範囲最大相関Rmax(y(n))を、入力信号X(t)のフレームx(n)から抽出された特徴量として出力する。
次に、図22ないし図25は、近似ノイズミックスRmax計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
なお、図22ないし図25において、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))を定義するNフレームとしては、40フレームを採用し、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求めるのに用いる定数Cとしては、0.2を採用した。
また、図22ないし図25において、矩形で囲んである部分は、音声区間を表している。
図22ないし図25それぞれの上から1番目は、入力信号X(t)としての音声信号を示している。
なお、図22の入力信号X(t)としての音声信号は、音楽環境で集音した音声信号であり、図23の入力信号X(t)としての音声信号は、エアコン環境で集音した音声信号である。また、図24の入力信号X(t)としての音声信号は、ソニー株式会社が開発した二足歩行ロボットであるQRIO(R)が歩行動作をしている環境で集音した音声信号であり、図25の入力信号X(t)としての音声信号は、QRIO(R)が高速でダンスをしている環境で集音した音声信号である。
図22ないし図25それぞれの上から2番目は、1番目に示した入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示しており、上から3番目は、1番目に示した入力信号X(t)から、通常ノイズミックスRmax計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
さらに、図22ないし図25それぞれの上から4番目は、1番目に示した入力信号X(t)から、近似ノイズミックスRmax計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図22ないし図25それぞれの上から4番目の、近似ノイズミックスRmax計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、上から3番目の、通常ノイズミックスRmax計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))とほぼ一致しており、したがって、近似ノイズミックスRmax計算処理が有効であることが分かる。
なお、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))としては、フレームx(n)を含む連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))の最小値や、平均値を求める関数の他、その積p(n)×Rmax(x(n))の、例えばメディアン等を求める関数を採用することが可能である。
次に、上述したノイズミックスRmax計算処理等の一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図26は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部107が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
すなわち、本実施の形態では、周期性を表す周期性情報として、自己相関を採用した場合について説明したが、周期性情報としては、その他、例えば、YINを採用することができる。そして、周期性情報として、YINを採用する場合には、上述の正規化自己相関に代えて1-YINを使用するか、又は、正規化自己相関の最大値をYINの最小値に、正規化自己相関の最小値をYINの最大値に、それぞれ読み替えればよい。