JP4182444B2

JP4182444B2 - 信号処理装置、信号処理方法、及びプログラム

Info

Publication number: JP4182444B2
Application number: JP2006160578A
Authority: JP
Inventors: 等本田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-06-09
Filing date: 2006-06-09
Publication date: 2008-11-19
Anticipated expiration: 2026-06-09
Also published as: JP2007328228A; US7908137B2; US20080015853A1

Description

本発明は、信号処理装置、信号処理方法、及びプログラムに関し、特に、例えば、入力信号の周期性がある区間を精度良く検出すること等ができる特徴量、例えば自己相関やYINを求めることができるようにする信号処理装置、信号処理方法、及びプログラムに関する。

音声信号の周期性を表す周期性情報としては、例えば、自己相関がある。自己相関は、音声認識や音声区間の検出等において、音声の有声音を捉えるための特徴量として利用されている（例えば、特許文献１及び非特許文献１ないし６を参照）。また、音声信号の自己相関は、例えば、音声の基本周波数（ピッチ周波数）の検出にも利用されている（例えば、非特許文献７を参照）。

また、周期性情報としては、自己相関の他に、例えば、近年提案されたYINがある（例えば、非特許文献８を参照）。YINは、音声の基本周波数の検出に利用されている。

ここで、自己相関は、周期性が高い場合に値が大となり、周期性がない場合に値が０になる。これに対して、YINは、自己相関とは逆に、周期性が高い場合に値が０となり、周期性がない場合に値が大(1)になる。以降では、周期性情報として、自己相関を採用した場合について説明するが、周期性情報として、YINを採用する場合には、後述する正規化自己相関に代えて1-YINを使用するか、又は、正規化自己相関の最大値をYINの最小値に、正規化自己相関の最小値をYINの最大値に、それぞれ読み替えればよい。

自己相関の計算方法にはいくつかの種類があるが、そのうちの１つについて、以下説明する。

いま、所定のサンプリング周波数でサンプリングされた時系列の入力信号の時刻tにおけるサンプル値を、X(t)と表す。また、一定の時間T、つまり、ある時刻tから時刻t+T-1の間のT個のサンプルの範囲を、フレームといい、入力信号の先頭からn番目のフレーム（第nフレーム）のT個のサンプル値の時系列を、フレーム（またはフレームデータ）x(n)と表す。

入力信号X(t)のフレームx(n)の自己相関R'(x(n),τ)は、例えば、式（１）で計算することができる。

・・・（１）

ここで、信号の自己相関とは、その信号と、その信号と同一の信号を時間τだけずらした信号との相関を表す値であり、時間τは、ラグと呼ばれる。

また、フレームx(n)の自己相関R'(x(n),τ)は、フレームx(n)のT個のサンプル値X(t),X(t+1),・・・,X(t+T-1)から、そのT個の平均値を減算し、その結果得られる、T個の平均値が0になる減算結果を用いて求められることがある。

式（１）で求められる自己相関R’(x(n),τ)を、正規化した自己相関は、正規化自己相関と呼ばれる。

いま、式（１）で求められる自己相関R’(x(n),τ)を正規化して得られる自己相関を、R(x(n),τ)と表すと、正規化自己相関R(x(n),τ)は、例えば、式（１）の自己相関R’(x(n),τ)を、ラグτが0の自己相関R’(x(n),0)で正規化することにより、すなわち、式R(x(n),τ)=R’(x(n),τ)/R’(x(n),0)を演算することにより求められる。

正規化自己相関R(x(n),τ)の、ラグτを変化させたときの大きさの最大値は、入力信号X(t)が、完全な周期性を有し、つまり、ある周期T₀の時系列であり、かつ、その周期T₀が、フレームの時間長（フレーム長）T以下であれば、1になる。

また、正規化自己相関R(x(n),τ)は、入力信号X(t)が、周期性を有しなければ、ラグτの大きさが0より十分大きくなると、0に近い値になる。なお、正規化自己相関R(x(n),τ)は、ラグτが0のときには、1となる。

以上から、正規化自己相関R(x(n),τ)は、-1から+1までの値をとり得る。

ところで、人間の有声音は、完全ではないにしろ高い周期性を有する。

すなわち、図１は、人間の有声音の音声信号の波形図である。図１において、横軸は、時刻を表し、縦軸は、音声信号の振幅（レベル）を表す。

図１から、人間の有声音の音声信号が周期性を有することが分かる。なお、図１の音声信号は、16kHzのサンプリング周波数でサンプリングされている。また、図１の音声信号の基本周波数は、約260Hz（約60サンプル(≒16kHz/260Hz)）である。

人間の有声音の周期（の逆数）は、基本周波数（ピッチ周波数）と呼ばれ、基本周波数は、おおよそ60Hzから400Hz程度の範囲に存在することが一般に知られている。

いま、この、人間の有声音の基本周波数が存在する範囲を、基本周波数範囲ということとし、入力信号X(t)として、人間の音声信号（人間の音声の音声信号）を採用して、正規化自己相関R(x(n),τ)を求めた場合、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値R_max(x(n))は、周期性を有する有声音の音声信号の区間では、1に近い値となる。

ここで、入力信号X(t)のサンプリング周波数が、例えば、16kHzであり、基本周波数範囲を、例えば、上述した60Hzから400Hzまでの範囲とすると、60Hzは、約266サンプル(=16kHz/60Hz)に相当し、400Hzは、40サンプル(=16kHz/400Hz)に相当する。

したがって、基本周波数範囲に相当するラグτの範囲は0より十分大きいから、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値R_max(x(n))は、周期性がない区間では、0に近い値となる。

以上のように、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値R_max(x(n))は、理論的には、周期性がある区間とない区間とで、値が顕著にことなるから、入力信号X(t)としての音声信号の特徴量として、音声区間の検出や音声認識等の音声処理に用いることができる。

ここで、図２は、入力信号X(t)としての音声信号と、その音声信号を処理して得られる各種の信号（情報）とを示している。

図２上から１番目は、入力信号X(t)としての音声信号の波形図である。図２上から１番目において、横軸は時刻（サンプル点）を表し、縦軸は振幅を表す。

なお、図２上から１番目の音声信号X(t)は、16kHzのサンプリング周波数でサンプリングされている。

図２上から２番目は、１番目の音声信号X(t)をFFT(Fast Fourier Transform)することにより求められた周波数スペクトルを示している。図２上から２番目において、横軸は時刻（フレーム）を表し、縦軸はFFTの、いわゆるビン(bin)(周波数成分)を特定する番号を表す。

なお、FFTとしては、512点（サンプル）のFFTを行ったので、１つのビンは、おおよそ32Hzに相当する。また、図２上から２番目では、各周波数成分の大小が、濃淡で表されている。

図２上から３番目は、１番目の音声信号X(t)（から得られたフレームx(n)）の、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値R_max(x(n))を示している。図２上から３番目において、横軸は時刻（フレーム）を表し、縦軸は、最大値R_max(x(n))を表す。

ここで、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値R_max(x(n))を、以下、適宜、ラグ範囲最大相関R_max(x(n))という。

図２上から４番目は、１番目の音声信号X(t)（から得られたフレームx(n)）のパワー、つまり、フレームx(n)のT個のサンプル値それぞれの自乗の総和のlog（対数）をとった値（以下、適宜、フレームログパワーという）を示している。図２上から４番目において、横軸は時刻（フレーム）を表し、縦軸はフレームログパワーを表す。

図２において、矩形で囲んである部分は、音声区間を表している。すなわち、図２において、左から１番目、２番目、３番目の矩形で囲んである部分は、それぞれ、「停止」、「緊急停止」、「フリーズ」の発話がされた区間を表す。

図２上から１番目の音声信号X(t)や、２番目の周波数スペクトル、４番目のフレームログパワーには、音声区間と、そうでない区間とで、顕著な相違が見られないため、音声信号X(t)や、周波数スペクトル、フレームログパワーを用いることによっては、音声区間を検出することが難しいことが分かる。

一方、図２上から３番目のラグ範囲最大相関R_max(x(n))は、音声区間では、1に近い値になっており、そうでない区間では、比較的1より十分小さい、０に近い値になっている。

したがって、ラグ範囲最大相関R_max(x(n))は、音声区間の検出に有効な特徴量であることが分かる。

米国特許第6,055,499号明細書 Using of voicing features in HMM-based speech Recognition, D.L.Thomson, Chengalvarayan, Lucent, 2002 Speech Communication Robust Speech Recognition in Noisy Environments: The 2001 IBM Spine Evaluation System, B.Kingsbury, G. Saon, L. Mangu, M. Padmanabhan and R. Sarikaya, IBM, ICASSP2002 Extraction Methods for Voicing Feature for Robust Speech Recognition, Andras Zolnay, Ralf Schluter, and Hermann Ney, RWTH Aachen, EUROSPEECH2003 USING SPEECH/NON-SPEECH DETECTION TO BIAS RECOGNITION SEARCH ON NOISY DATA, Francoise Beaufays, Daniel Boies, Mitch Weintraub, Qifeng Zhu, Nuance Communications, ICASSP2003 VOICING FEATURE INTEGRATION IN SRI'S DECIPHER LVCSR SYSTEM, Martin Graciarena, Horacio Franco, Jing Zheng, Dimitra Vergyri, Andreas Stolcke, SRI, ICASSP2004 A LINKED-HMM MODEL FOR ROBUST VOICING AND SPEECH DETECTION, Sumit Basu, Microsoft Research, ICASSP2003 Analysis, enhancement and evaluation of five pitch determination techniques, Peter Vepre, Michael S. Scordilis, Pansonic, Univ. Miami, Speech Communication 37(2002), pp249-270 YIN, a fundamental frequency estimator for speech and music, Alain de Cheveigne´ , Hideki Kawahara, Japan Acoustic Society Am. 111 (4), April 2002

ところで、入力信号X(t)のラグ範囲最大相関R_max(x(n))は、人間の有声音以外の音、すなわち、例えば、周期性を持つ音（周期ノイズ）に対しても１に近い値となることがある。

したがって、入力信号X(t)のラグ範囲最大相関R_max(x(n))によっては、入力信号X(t)における周期ノイズの部分と、有声音の部分とを区別することが難しいことがある。

そこで、非特許文献６には、入力信号にガウスノイズを付加し、そのガウスノイズを付加した入力信号であるノイズ付加信号のラグ範囲最大相関を用いて、音声区間を検出する方法が記載されている。

すなわち、ガウスノイズのラグ範囲最大相関は、0に近いため、入力信号が周期ノイズを含んでいても、その周期ノイズよりも十分大きなレベルのガウスノイズを、入力信号に付加することで、その結果得られるノイズ付加信号のうちの、周期ノイズのみの部分のラグ範囲最大相関は、ガウスノイズの影響により0に近い値となる。

したがって、理想的には、入力信号の周期ノイズのみの部分（音声が存在しない部分）に、レベルの大きなガウスノイズを付加することにより、そのガウスノイズが付加された入力信号であるノイズ付加信号については、音声が存在しない部分（周期ノイズのみの部分）では0に近い値になり、音声が存在する部分では1に近い値になるラグ範囲最大相関を得ることができる。

ところで、入力信号の、音声が存在しない部分のみならず、音声が存在する部分にも、レベルの大きなガウスノイズを付加すると、そのガウスノイズが付加されたノイズ付加信号のラグ範囲最大相関は、音声が存在しない部分だけでなく、音声が存在する部分でも、0に近い値になり、周期ノイズの部分と、音声の部分（音声区間）とを区別することが困難となる。

したがって、入力信号にガウスノイズを付加したノイズ付加信号のラグ範囲最大相関を求め、そのラグ範囲最大相関を用いて、音声区間の検出等を行う場合には、入力信号に付加するガウスノイズのレベルを、適切に調整すること、すなわち、入力信号の音声が存在しない部分に付加するガウスノイズのレベルは大きくし、入力信号の音声が存在する部分に付加するガウスノイズのレベルは小さくすることが重要である。

そこで、非特許文献６では、第１段階の処理として、入力信号の自己相関を用いた特徴量を求め、その特徴量に基づき入力信号全体に対して、大まかに、音声区間と、そうでない区間である非音声区間の判定を行い、非音声区間と判定された区間の入力信号の分散を利用して、入力信号に付加するガウスノイズのレベルの決定を行い、第２段階の処理として、入力信号に、第１段階の処理で決定したレベルのガウスノイズを付加したノイズ付加信号の自己相関を用いた特徴量を、入力信号の特徴量として求め、その特徴量に基づき、最終的な音声区間と非音声区間の判定を行う方法が記載されている。

しかしながら、第１の段階の処理において、入力信号の自己相関を用いた特徴量によっては、入力信号全体に対しての、音声区間と非音声区間の判定を、高精度に行うことができないことがある。

そして、非特許文献６に記載の方法では、第１段階の処理において、入力信号の自己相関を用いた特徴量に基づいて行われる、音声区間と非音声区間の判定を誤った場合には、入力信号に付加するガウスノイズのレベルとして、不適切なレベルが決定され、その結果、第２段階の処理において、ノイズ付加信号の自己相関を用いた特徴量に基づいて行われる、最終的な音声区間と非音声区間の判定も不正確になって、音声区間、特に、有声音の部分などの周期性がある区間を精度良く検出することが困難となる。

本発明は、このような状況に鑑みてなされたものであり、入力信号の周期性がある区間を精度良く検出すること等ができる自己相関を求めることができるようにするものである。

本発明の一側面の信号処理装置は、入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値を、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が０または０に近い値となるノイズの大きさを表すゲイン情報として求めるゲイン計算手段と、前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報を、前記入力信号の特徴量として求める特徴量計算手段とを備える。

本発明の一側面の信号処理方法、又はプログラムは、入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値を、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が０または０に近い値となるノイズの大きさを表すゲイン情報として求め、前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報を、前記入力信号の特徴量として求めるステップを含む。

本発明の一側面においては、入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値が、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が０または０に近い値となるノイズの大きさを表すゲイン情報として求められ、前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報が、前記入力信号の特徴量として求められる。

本発明の一側面によれば、例えば、入力信号の周期性がある区間を精度良く検出すること等ができる周期性情報を求めることができる。

以下、図面を参照して、本発明の実施の形態について説明する。

図３は、本発明を適用した信号処理装置の一実施の形態の構成例を示すブロック図である。

図３の信号処理装置では、入力信号から、その入力信号に付加するノイズの大きさを表すゲイン情報が求められ、入力信号に、ゲイン情報に応じた大きさ（レベル）のノイズを付加したノイズ付加信号の自己相関が、入力信号の特徴量として求められる。

すなわち、図３において、信号処理装置は、音響信号変換部１１、フレーム処理部１２、正規化自己相関計算部１３，R_max計算部１４、フレームパワー計算部１５、ゲイン計算部１６、ガウスノイズ生成部１７、ノイズミックス部１８、正規化自己相関計算部１９、及びR_max計算部２０から構成される。

音響信号変換部１１は、例えば、マイク（マイクロフォン）とA/D(Analog/Digital)コンバータ等で構成され、音声を、ディジタルの音声信号に変換し、フレーム処理部１２に供給する。

すなわち、音響信号変換部１１は、そこに入力される空気振動としての音（人間の音声や、信号処理装置が設置されている環境に存在する音）を、マイクによってアナログの音声信号に変換する。さらに、音響信号変換部１１は、マイクで得られたアナログの音声信号を、A/Dコンバータによってディジタルの音声信号に変換し、その音声信号を、入力信号として、フレーム処理部１２に、時系列に供給する。ここで、時刻tにおける入力信号のサンプル値を、X(t)と表す。

フレーム処理部１２は、音響信号変換部１１から供給される入力信号X(t)を、Tサンプルのサンプル値で構成されるフレームにフレーム化するフレーム処理を行い、すなわち、例えば、時刻t-T+1から時刻tまでの入力信号のT個のサンプル値X(t-T+1),X(t-T+2),・・・,X(t)を１フレームとし、時刻t-T+1から所定のフレームシフト時間だけ後の時刻を先頭とする時刻からT個の入力信号のサンプル値を１フレームとし、以下、同様にして、音響信号変換部１１から供給される入力信号X(t)からフレームを構成して、正規化自己相関計算部１３、フレームパワー計算部１５、及びノイズミックス部１８に供給する。

ここで、以下、適宜、入力信号(t)の先頭からn番目のフレーム（フレーム番号がnのフレーム）を、フレームx(n)という。

正規化自己相関計算部１３は、フレーム処理部１２から供給されるフレームx(n)の自己相関R’(x(n),τ)を、例えば、前述の式（１）にしたがって求め、さらに、その自己相関R’(x(n),τ)を正規化することにより、正規化自己相関R(x(n),τ)を求める。

ここで、正規化自己相関R(x(n),τ)も、その正規化自己相関R(x(n),τ)に正規化される前の自己相関R’(x(n),τ)も、「自己相関」である。なお、正規化される前の自己相関R’(x(n),τ)を、以下、適宜、正規化前自己相関という。

正規化自己相関R(x(n),τ)は、前述したように、正規化前自己相関R’(x(n),τ)を、ラグτが0の正規化前自己相関R’(x(n),0)で正規化することにより、すなわち、式R(x(n),τ)=R’(x(n),τ)/R’(x(n),0)を演算することにより求めることができる。

正規化自己相関計算部１３は、フレームx(n)の正規化自己相関R(x(n),τ)を求めると、その正規化自己相関R(x(n),τ)を、R_max計算部１４に供給する。

R_max計算部１４は、例えば、80Hzから400Hzまでの周波数の範囲を、基本周波数範囲とし、正規化自己相関計算部１３から供給される正規化自己相関R(x(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値であるラグ範囲最大相関R_max(x(n))を求めて、ゲイン計算部１６に供給する。

ここで、上述したように、基本周波数範囲が、80Hzから400Hzまでの周波数の範囲である場合、音響信号変換部１１での入力信号X(t)のサンプリング周波数が、例えば16kHzであれば、基本周波数範囲に相当するラグτの範囲は、40サンプル(=16kHz/400Hz)から200サンプル(=16kHz/80Hz)までの範囲となる。この場合、Rmax計算部１４は、ラグτが40から200までの範囲で、最大の正規化自己相関R(x(n),τ)を求め、ラグ範囲最大相関R_max(x(n))とする。

フレームパワー計算部１５は、フレーム処理部１２から供給されるフレームx(n)のパワー（以下、適宜、フレームパワーという）p(n)を求め、ゲイン計算部１６に供給する。

ここで、フレームパワー計算部１５は、例えば、フレームx(n)のT個のサンプル値それぞれの自乗の総和や、その総和の平方根を計算し、その計算結果を、フレームパワーp(n)とする。

ゲイン計算部１６は、R_max計算部１４から供給される、入力信号X(t)の自己相関としての、フレームx(n)のラグ範囲最大相関R_max(x(n))と、フレームパワー計算部１５から供給される、入力信号X(t)のパワーとしての、フレームx(n)のフレームパワーp(n)とに基づき、入力信号X(t)のフレームx(n)（の各サンプル値）に付加するノイズの大きさを表すゲイン情報であるゲインgain(n)を求め、ノイズミックス部１８に供給する。

すなわち、ゲイン計算部１６は、例えば、R_max計算部１４からのフレームx(n)のラグ範囲最大相関R_max(x(n))と、フレームパワー計算部１５からのフレームx(n)のフレームパワーp(n)とを引数とする所定の関数F(p(n),R_max(x(n)))を演算し、その演算結果を、ゲインgain(n)として、ノイズミックス部１８に供給する。

ここで、ゲインgain(n)を求める関数F(p(n),R_max(x(n)))としては、例えば、フレームx(n)を含む連続するNフレーム（Nは２以上の整数）のそれぞれについての、フレームパワーp(n)とラグ範囲最大相関R_max(x(n))との積p(n)×R_max(x(n))の最小値（Nフレームそれぞれについての積p(n)×R_max(x(n))の中で、最小の値の積p(n)×R_max(x(n))）を求める関数などを採用することができる。

ガウスノイズ生成部１７は、入力信号X(t)のフレームx(n)に付加するノイズgとして、１フレームのサンプル数と同一のTサンプルのガウスノイズを生成し、ノイズミックス部１８に供給する。

なお、ガウスノイズ生成部１７において生成するノイズgは、ガウスノイズに限定されるものではなく、ノイズgのラグ範囲最大相関R_max(g)が、０又は０に近い値となるノイズであれば、どのようなノイズであっても良い。

ノイズミックス部１８は、フレーム処理部１２からの入力信号X(t)のフレームx(n)に、ゲイン計算部１６からのゲインgain(n)に応じた大きさのノイズを付加したノイズ付加信号を求め、正規化自己相関計算部１９に供給する。

すなわち、ノイズミックス部１８は、ガウスノイズ生成部１７からのノイズgを、ゲイン計算部１６からのゲインgain(n)に応じた大きさのノイズ（以下、適宜、レベル変換ノイズという）に変換し、フレーム処理部１２からの入力信号X(t)のフレームx(n)に、レベル変換ノイズを付加したノイズ付加信号Y(t)のフレームy(n)を求め、正規化自己相関計算部１９に供給する。

ここで、時刻tのレベル変換ノイズをB(t)と表すとともに、時刻tのノイズ付加信号をY(t)と表すと、入力信号X(t)に、レベル変換ノイズB(t)を付加（加算）した信号X(t)+B(t)が、ノイズ付加信号Y(t)となる。

また、ノイズ付加信号Y(t)の先頭からn番目のフレーム（のT個のサンプル値の時系列）を、y(n)と表すこととすると、ノイズミックス部１８は、Cを所定の適切な定数として、例えば、式y(n)=x(n)+C×gain(n)×gにしたがって、ノイズ付加信号Y(t)のフレームy(n)を求める。

正規化自己相関計算部１９は、上述した正規化自己相関計算部１３と同様にして、ノイズミックス部１８からのノイズ付加信号Y(t)のフレームy(n)の正規化前自己相関R’(y(n),τ)を求め、さらに、その正規化前自己相関R’(y(n),τ)を正規化することにより、正規化自己相関R(y(n),τ)を求めて、R_max計算部２０に供給する。

R_max計算部２０は、上述したR_max計算部１４と同様にして、例えば、80Hzから400Hzまでの周波数の範囲を、基本周波数範囲とし、正規化自己相関計算部１９から供給されるノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(y(n),τ)の最大値であるラグ範囲最大相関R_max(y(n))を求めて、入力信号X(t)のフレームx(n)から抽出された特徴量として出力する。

なお、図３の信号処理装置において、正規化自己相関計算部１３，R_max計算部１４、フレームパワー計算部１５、ゲイン計算部１６、ガウスノイズ生成部１７、ノイズミックス部１８、正規化自己相関計算部１９、及びR_max計算部２０は、フレームx(n)から、そのフレームx(n)の特徴量として、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を求めるノイズミックスRmax計算部を構成する。ノイズミックスRmax計算部において行われる、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を求める処理を、以下、適宜、ノイズミックスRmax計算処理という。

ここで、前述したように、入力信号X(t)にガウスノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を求め、そのラグ範囲最大相関R_max(y(n))を用いて、音声区間の検出等を行う場合には、入力信号X(t)に付加するガウスノイズのレベルを、適切に調整すること、すなわち、入力信号X(t)の音声が存在しない部分に付加するガウスノイズのレベルは大きくし、入力信号X(t)の音声が存在する部分に付加するガウスノイズのレベルは小さくすることが重要である。

一方、図３の信号処理装置では、上述したように、ノイズミックス部１８において、式y(n)=x(n)+C×gain(n)×gにしたがって、ノイズ付加信号Y(t)のフレームy(n)が求められる。すなわち、ノイズミックス部１８では、入力信号X(t)のフレームに、ゲインgain(n)に比例する大きさのノイズC×gain(n)×gを加算することにより、ノイズ付加信号Y(t)のフレームy(n)が求められる。

したがって、入力信号X(t)のフレームx(n)が音声区間のフレームでない場合には、ゲインgain(n)を大きくし、入力信号X(t)のフレームx(n)が音声区間のフレームである場合には、ゲインgain(n)を小さくする必要があり、ゲイン計算部１６において、ゲインgain(n)を求める関数F(p(n),R_max(x(n)))としては、以上のようなゲインgain(n)が得られる関数が採用される。

ここで、例えば、文献CONSTRUCTION AND EVALUATION OF A ROBUST MULTIFEATURE SPEECH/MUSICDISCRIMINATOR Eric Scheirer Malcolm Slaneyy ICASSP'97, pp. 1331-1334に記載されているように、人間の音声については、例えば、音楽（楽曲）に比較して、フレームパワーが、１秒程度の区間のフレームパワーの平均値（平均フレームパワー）より小さいフレームの比率が高いこと、つまり、多くのフレームが、平均フレームパワーよりも小さいフレームパワーのフレームであることが知られている。

さらに、上記の文献に記載されているように、人間の音声のスペクトルは4Hz（0.25秒）程度で変化することが知られている。

以上から、音声については、数百ミリ秒（0.数秒）から１秒程度の時間内において、パワーや正規化自己相関に変化があることを期待することができる。

すなわち、音声については、数百ミリ秒から１秒程度の時間に、パワーが大きく変動する部分と、自己相関が大きく変動する部分とが存在することを期待することができる。したがって、音声については、パワーと自己相関とから計算される値である、例えば、フレームパワーp(n)と正規化自己相関R_max(x(n))との積p(n)×R_max(x(n))が、数百ミリ秒から１秒程度の時間に大きく変動し、小さい値が存在することを期待することができる。

一方、音楽その他の定常的なノイズについては、数百ミリ秒から１秒程度の時間に、パワーが大きく変動する部分が存在することは期待できない。さらに、定常的なノイズの自己相関は、一律に大きい。したがって、定常的なノイズについては、例えば、上述したフレームパワーｐ（n）と正規化自己相関R_max（x（n））との積ｐ（n）×R_max（x（n））が、数百ミリ秒から１秒程度の時間に大きく変動することは期待できないし、さらに、特に、正規化自己相関R_max（x（n））の影響によって、比較的大きな値となることを期待することができる。

そこで、ゲインgain(n)を求める関数F(p(n),R_max(x(n)))としては、例えば、フレームパワーp(n)と正規化自己相関R_max(x(n))との積p(n)×R_max(x(n))の、数百ミリ秒から１秒程度の時間内での最小値を採用することにより、音声（のフレームx(n)）については、値の小さいゲインgain(n)が求められ、定常的なノイズ（のフレームx(n)）については、値の大きなゲインgain(n)が求められることを期待することができる。

なお、ゲインgain(n)を求める関数F()は、上述した関数に限定されるものではない。すなわち、ゲインgain(n)を求める関数F()は、R_max計算部２０において、音声区間のフレームに対して求められるラグ範囲最大相関R_max(y(n))を大にし、非音声区間のフレームに対して求められるラグ範囲最大相関R_max(y(n))を小にする関数であれば、どのような関数であっても良い。

また、ノイズミックス部１８において、式y(n)=x(n)+C×gain(n)×gにしたがって、ノイズ付加信号Y(t)のフレームy(n)を求めるときに用いられる定数Cとしては、例えば、その定数Cの値を変えて、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を求め、そのラグ範囲最大相関R_max(y(n))を用いて、音声区間を検出する実験を行い、より正確に音声区間を検出することができたときの定数Cの値を採用することができる。

また、ノイズミックス部１８でにおいて用いられる定数Cとしては、その定数Cの値を変えて、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を求め、そのラグ範囲最大相関R_max(y(n))をプロットして目視で確認し、音声区間において値が大きく、かつ、非音声区間において値が小さいラグ範囲最大相関R_max(y(n))を得られたときの定数Cの値を採用することができる。

次に、図４のフローチャートを参照して、図３の信号処理装置の動作について説明する。

図３の信号処理装置では、音響信号変換部１１からフレーム処理部１２に対して、入力信号X(t)としての音声信号が供給される。

フレーム処理部１２は、ステップＳ１１において、音響信号変換部１１から供給される入力信号X(t)を、Tサンプルのサンプル値で構成されるフレームにフレーム化するフレーム処理を行い、その結果得られるフレームx(n)を、正規化自己相関計算部１３、フレームパワー計算部１５、及びノイズミックス部１８に供給する。

正規化自己相関計算部１３は、ステップＳ１３において、フレーム処理部１２からのフレームx(n)の正規化自己相関R(x(n),τ)を求め、R_max計算部１４に供給する。

R_max計算部１４は、ステップＳ１４において、正規化自己相関計算部１３からの正規化自己相関R(x(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値であるラグ範囲最大相関R_max(x(n))を求めて、ゲイン計算部１６に供給する。

また、フレームパワー計算部１５は、ステップＳ１５において、フレーム処理部１２からのフレームx(n)のフレームパワーp(n)を求め、ゲイン計算部１６に供給する。

ゲイン計算部１６は、ステップＳ１６において、R_max計算部１４からのフレームx(n)のラグ範囲最大相関R_max(x(n))と、フレームパワー計算部１５からのフレームx(n)のフレームパワーp(n)とに基づき、ゲインgain(n)を求め、ノイズミックス部１８に供給する。

すなわち、ゲイン計算部１６は、例えば、フレームx(n)を中心として、数百ミリ秒から１秒程度の時間内に存在するNフレームについての、フレームパワーp(n)とラグ範囲最大相関R_max(x(n))との積p(n)×R_max(x(n))のうちの最小値を、ゲインgain(n)として求め、ノイズミックス部１８に供給する。

一方、ガウスノイズ生成部１７は、ステップＳ１２において、１フレームのサンプル数と同一のTサンプルのガウスノイズgを生成し、ノイズミックス部１８に供給する。

ノイズミックス部１８は、ステップＳ１７において、式y(n)=x(n)+C×gain(n)×gにしたがい、定数Cと、ゲイン計算部１６からのゲインgain(n)との積C×gain(n)を求め、ガウスノイズ生成部１７からのガウスノイズgを、積C×gain(n)倍したノイズC×gain(n)×gを求める。さらに、ステップＳ１７では、ノイズミックス部１８は、式y(n)=x(n)+C×gain(n)×gにしたがい、フレーム処理部１２からのフレームx(n)に、ノイズC×gain(n)×gを付加することにより、ノイズ付加信号Y(t)のフレームy(n)を求め、正規化自己相関計算部１９に供給する。

正規化自己相関計算部１９は、ステップＳ１８において、ノイズミックス部１８からのノイズ付加信号Y(t)のフレームy(n)の正規化自己相関R(y(n),τ)を求めて、R_max計算部２０に供給する。

R_max計算部２０は、ステップＳ１９において、正規化自己相関計算部１９からの正規化自己相関R(y(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(y(n),τ)の最大値であるラグ範囲最大相関R_max(y(n))を求める。そして、Rmax計算部２０は、ステップＳ２０において、そのラグ範囲最大相関R_max(y(n))を、入力信号X(t)のフレームx(n)から抽出された特徴量として出力する。

次に、図５は、図３の信号処理装置を応用した音声区間検出装置の一実施の形態の構成例を示している。

図５の音声区間検出装置では、入力信号X(t)としての音声信号の特徴量として、その入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を用いて、入力信号X(t)の音声区間が検出される。

すなわち、図５の音声区間検出装置では、音響信号変換部４１が、図３の音響信号変換部１１と同様に、そこに入力される空気振動としての音を、アナログの音声信号に変換し、さらに、そのアナログの音声信号を、ディジタルの音声信号に変換して、入力信号X(t)として、フレーム処理部４２に供給する。

フレーム処理部４２では、図３のフレーム処理部１２と同様に、音響信号変換部４１からの入力信号X(t)を、Tサンプルのサンプル値で構成されるフレームにフレーム化するフレーム処理が行われ、その結果得られるフレームx(n)が、ノイズミックスR_max計算部４３、及びフレームパワー計算部４４に供給される。

ノイズミックスR_max計算部４３は、図３のノイズミックスR_max計算部、すなわち、正規化自己相関計算部１３，R_max計算部１４、フレームパワー計算部１５、ゲイン計算部１６、ガウスノイズ生成部１７、ノイズミックス部１８、正規化自己相関計算部１９、及びR_max計算部２０と同様に構成され、ノイズミックスR_max計算処理を行うことによって、フレーム処理部４２から供給されるフレームx(n)から、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を求め、複数フレーム処理部４５に供給する。

一方、フレームパワー計算部４４では、フレーム処理部４２からのフレームx(n)から、そのフレームx(n)のフレームログパワーが求められ、さらに、そのフレームログパワーを正規化した正規化ログパワーlogp(n)が求められて、複数フレーム処理部４５に供給される。

すなわち、フレームパワー計算部４４は、フレームx(n)のT個のサンプル値それぞれの自乗の総和のlogをとることで、フレームログパワーFP(n)を求める。

さらに、フレームパワー計算部４４は、例えば、忘却係数ffを用いた式FPave(n)=ff×FPave(n-1)+(1-ff)×FP(n)を演算することにより、FPave(n)を、フレームログパワーFP(n)の平均値として求める。

そして、フレームパワー計算部４４は、フレームログパワーFP(n)から、平均値FPave(n)を減算し、その減算値FP(n)-FPave(n)を、正規化ログパワーlogp(n)として、複数フレーム処理部４５に供給する。

ここで、フレームログパワーFP(n)を、そのフレームログパワーFP(n)から平均値FPave(n)を減算して、正規化ログパワーlogp(n)とすることにより、その正規化ログパワーlogp(n)の平均は、ほぼ０となる。すなわち、フレームパワー計算部４４において、フレームログパワーFP(n)の正規化は、その平均を０とするために行われる。

複数フレーム処理部４５は、ノイズミックスR_max計算部４３からのラグ範囲最大相関R_max(y(n))と、フレームパワー計算部４４からの正規化ログパワーlogp(n)とをまとめて(統合して)、入力信号X(t)の注目フレームの特徴量(統合特徴量)を求める。

すなわち、いま、入力信号X(t)の先頭からn番目のフレームx(n)を、注目フレームということとすると、複数フレーム処理部４５は、注目フレームと、その前後の幾つかのフレームのラグ範囲最大相関R_max(y(n))、及び正規化ログパワーlogp(n)をコンポーネントとするベクトルを、注目フレームの特徴量として求める。

具体的には、複数フレーム処理部４５は、例えば、注目フレームのラグ範囲最大相関R_max(y(n))と、その前後の８フレームそれぞれのラグ範囲最大相関R_max(y(n))との、合計で１７個のラグ範囲最大相関R_max(y(n))を昇順にソートするとともに、注目フレームの正規化ログパワーlogp(n)と、その前後の８フレームそれぞれの正規化ログパワーlogp(n)との、合計で１７個の正規化ログパワーlogp(n)を昇順にソートし、ソート後の１７個のラグ範囲最大相関R_max(y(n))と、ソート後の１７個の正規化ログパワーlogp(n)とをコンポーネントとする３４次元のベクトルを、注目フレームの特徴量として求める。

そして、複数フレーム処理部４５は、注目フレームの特徴量としての３４次元のベクトルを、線形判別分析部４６に供給する。

線形判別分析部４６は、複数フレーム処理部４５からのフレームx(n)の特徴量としてのベクトルの次元を圧縮し、識別処理部４７に供給する。

すなわち、線形判別分析部４６は、複数フレーム処理部４５からのフレームx(n)の特徴量としての３４次元のベクトルを、例えば、線形判別分析(LDA(Linear Discriminant Analysis))によって、２次元のベクトルに圧縮し、フレームx(n)の特徴量として、識別処理部４７に供給する。

識別処理部４７は、線形判別分析部４６からの特徴量としての２次元のベクトルに基づき、フレームx(n)が、音声区間のフレームであるか、または非音声区間のフレームであるかの識別を行い、その識別結果を、音声区間情報として出力する。

すなわち、識別処理部４７は、例えば、音声区間の検出用に学習がされたHMM(Hidden Markov Model)を記憶しており、そのHMMにおいて、線形判別分析部４６からの特徴量が観測される尤度に基づき、フレームx(n)が、音声区間のフレームであるか、または非音声区間のフレームであるかの識別を行い、その識別結果を、音声区間情報として出力する。

なお、非特許文献２には、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))ではなく、入力信号X(t)のラグ範囲最大相関R_max(x(n))と、正規化ログパワーlogP(n)を特徴量とし、5状態のtied-state HMMを用いて、音声区間の検出を行う方法が記載されている。ここでのtied-state HMMとは、音声HMMと非音声HMMとのそれぞれが5状態(state)を持つが、音声HMMと非音声とのそれぞれの5状態が同じ混合ガウス分布(GMM:Gaussian Mixture Model)を共有(tied)するものである。

図５の音声区間検出装置で行われる音声区間の検出は、特徴量として、入力信号X(t)のラグ範囲最大相関R_max(x(n))に代えて、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))が用いられる点と、音声区間の識別に、5状態のtied-state HMMに代えて、tied-stateではない通常の5状態のHMMが用いられる点において、非特許文献２に記載の方法と異なる。

次に、図６ないし図１４を参照して、図５の音声区間検出装置を用いて行った音声区間の検出の実験の結果について説明する。

実験では、ソニー株式会社が開発した二足歩行ロボットであるQRIO(R)に採用されているマイクによって得られたアナログの音声信号を、16kHzのサンプリング周波数でサンプリングすることにより、ディジタルの音声信号に変換し、入力信号X(t)として用いた。

さらに、実験では、フレームの長さ（サンプル数）Tを、1024サンプルとして、160サンプルずつシフトしながら、入力信号X(t)から、フレームx(n)を抽出した。

また、実験では、正規化ログパワーlogp(n)を求めるのに用いる平均値FPave(n)を、式FPave(n)=ff×FPave(n-1)+(1-ff)×FP(n)にしたがって求めるのにあたり、忘却係数ffとして、0.99を採用した。

さらに、音声区間の識別に用いるHMMの確率密度関数としては、混合ガウス分布を採用した。また、音声区間用のHMMと、非音声区間用のHMMとを用意するとともに、HMMの学習用の入力信号X(t)を用意し、その学習用の入力信号X(t)から、線形判別分析部４６で得られるのと同様の２次元ベクトルを、特徴量として得て、学習用の入力信号X(t)の音声区間から得られた特徴量を、音声区間用のHMMに与えるとともに、学習用の入力信号X(t)の非音声区間から得られた特徴量を、非音声区間用のHMMに与えることによって、音声区間用のHMMと、非音声区間用のHMMとの学習を行った。

また、実験では、実験用の入力信号X(t)に対して、人が、音声区間の開始と終了のフレームをラベリングし、識別処理部４７が出力した音声区間情報が表す音声区間と、人が開始と終了のフレームをラベリングした音声区間とを比較することにより、識別処理部４７が出力した音声区間情報が表す音声区間の正否を判断した。

具体的には、人がラベリングした音声区間の開始と終了のフレームを、それぞれ、第Tsフレームと、第Teフレームとするとともに、識別処理部４７が出力した音声区間情報が表す音声区間の開始と終了のフレームを、それぞれ、第Ssフレームと、第Seフレームとすると、Ssが、式Ts-40<=Ss<=Tsを満たし、かつ、Seが、式Te<=Se<=Te+40を満たす場合に、識別処理部４７が出力した音声区間情報が表す音声区間が、正解であるとした。

なお、その他、実験では、ゲインgain(n)を求める関数F(p(n),R_max(x(n)))として、フレームx(n)を含む連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関R_max(x(n))との積p(n)×R_max(x(n))の最小値を求める関数（以下、適宜、積最小値関数という）の他に、フレームx(n)を含む連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関R_max(x(n))との積p(n)×R_max(x(n))の平均値を求める関数（以下、適宜、積平均値関数という）と、フレームx(n)を含む連続するNフレームのそれぞれについてのフレームパワーp(n)の最小値を求める関数（以下、適宜、パワー最小値関数という）とを用いた。

また、関数F(p(n),R_max(x(n)))を定義するNフレームとしては、40フレームを採用した。

図６は、実験において、関数F(p(n),R_max(x(n)))として、積最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

すなわち、図６上半分側は、音楽が流れている環境（音楽環境）で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示しており、図６下半分側は、エアコン（エアコンディショナ）が稼働している環境（エアコン環境）で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

図６上半分側の上から１番目は、音楽環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から２番目は、その入力信号X(t)のラグ範囲最大相関R_max(x(n))を示している。そして、図６上半分側の上から３番目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

図６下半分側も、その上から１番目は、エアコン環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から２番目は、1番目の入力信号X(t)のラグ範囲最大相関R_max(x(n))を示している。そして、図６上半分側の上から３番目は、1番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

なお、図６において、縦長の長方形で囲んである部分が、音声区間を表す。後述する図７においても同様である。

図７は、実験において、図６と同様に、関数F(p(n),R_max(x(n)))として、積最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

但し、図６では、ノイズ付加信号Y(t)を求めるのに用いられる式y(n)=x(n)+C×gain(n)×gを定義する定数Cとして、0.4が採用されているのに対して、図７では、定数Cとして、0.2が採用されている。図７のその他の点は、図６と同様である。

図６及び図７の入力信号X(t)のラグ範囲最大相関R_max(x(n))と、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))とを比較すると、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))は、音声区間では、入力信号X(t)のラグ範囲最大相関R_max(x(n))の値を維持し、非音声区間では、入力信号X(t)のラグ範囲最大相関R_max(x(n))よりも小さい値になっている。

したがって、図３のゲイン計算部１６において、入力信号X(t)に付加されるノイズのレベルが、適切に調整され、その結果、ノイズミックス部１８において、入力信号X(t)の音声が存在しない部分には、大きなレベルのノイズが付加され、入力信号X(t)の音声が存在する部分には、小さなレベルのノイズが付加されていることが分かる。

図８は、実験において、関数F(p(n),R_max(x(n)))として、積平均値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

すなわち、図８上半分側は、上述の図６上半分と同様に、音楽環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示しており、図８下半分側は、上述の図６下半分と同様に、エアコン環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

但し、図８では、上述したように、関数F(p(n),R_max(x(n)))として、積最小値関数ではなく、積平均値関数が採用されている。

図８上半分側の上から１番目は、音楽環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から２番目は、その入力信号X(t)のラグ範囲最大相関R_max(x(n))を示している。そして、図８上半分側の上から３番目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

図８下半分側も、その上から１番目は、エアコン環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から２番目は、１番目の入力信号X(t)のラグ範囲最大相関R_max(x(n))を示している。そして、図８上半分側の上から３番目は、１番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

なお、図８において、縦長の長方形で囲んである部分が、音声区間を表す。後述する図９においても同様である。

図９は、実験において、図８と同様に、関数F(p(n),R_max(x(n)))として、積平均値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

但し、図８では、ノイズ付加信号Y(t)を求めるのに用いられる式y(n)=x(n)+C×gain(n)×gを定義する定数Cとして、0.1が採用されているのに対して、図９では、定数Cとして、0.05が採用されている。図９のその他の点は、図８と同様である。

図８において、A8₁で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値になっており、これは、入力信号X(t)に、十分な大きさのノイズが付加されていないことを表す。

また、図８において、A8₂で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))が、音声区間であるにもかかわらず、入力信号X(t)のラグ範囲最大相関R_max(x(n))の値よりも小さくなっており、これは、入力信号X(t)に付加されたノイズのレベルが大きすぎることを表す。

定数Cを大きくすれば、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))の非音声区間での値、すなわち、例えば、図８のA8₁で示す部分の値を小さくすることができる。しかしながら、定数Cを大きくすると、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))の音声区間での値、すなわち、例えば、図８のA8₂で示す部分の値は、さらに小さくなる。

一方、定数Cを小さくすることにより、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))の音声区間での値、すなわち、例えば、図８のA8₂で示す部分の値を大きくして、入力信号X(t)のラグ範囲最大相関R_max(x(n))の値と同程度にすることができる。

しかしながら、定数Cを小さくすると、定数Cが0.1の図８と、定数Cが0.1より小さい0.05の図９とを比較して分かるように、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))の非音声区間での値を小さくすることができなくなる。

すなわち、定数Cを小さくすると、図９において、A9₁やA9₂で示すように、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値に大きくなる。

図１０は、実験において、関数F(p(n),R_max(x(n)))として、パワー最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

すなわち、図１０上半分側は、上述の図６上半分と同様に、音楽環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示しており、図１０下半分側は、上述の図６下半分と同様に、エアコン環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

但し、図１０では、上述したように、関数F(p(n),R_max(x(n)))として、積最小値関数ではなく、パワー最小値関数が採用されている。

図１０上半分側の上から１番目は、音楽環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から２番目は、１番目の入力信号X(t)のラグ範囲最大相関R_max(x(n))を示している。そして、図１０上半分側の上から３番目は、１番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

図１０下半分側も、その上から１番目は、エアコン環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から２番目は、１番目の入力信号X(t)のラグ範囲最大相関R_max(x(n))を示している。そして、図１０上半分側の上から３番目は、１番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

なお、図１０において、縦長の長方形で囲んである部分が、音声区間を表す。後述する図１１及び図１２においても同様である。

図１１及び図１２は、実験において、図１０と同様に、関数F(p(n),R_max(x(n)))として、パワー最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

但し、図１０では、ノイズ付加信号Y(t)を求めるのに用いられる式y(n)=x(n)+C×gain(n)×gを定義する定数Cとして、0.2が採用されているのに対して、図１１では、定数Cとして、0.1が採用されており、図１２では、定数Cとして、0.05が採用されている。

定数Cの大小に関しては、関数F(p(n),R_max(x(n)))として、パワー最小値関数を採用した図１０ないし図１２においても、関数F(p(n),R_max(x(n)))として、積平均値関数を採用した図８及び図９の場合と基本的に同様の傾向がある。

例えば、定数Cが0.2の図１０において、A10₁とA10₂で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))が、音声区間であるにもかかわらず、入力信号X(t)のラグ範囲最大相関R_max(x(n))の値よりも小さくなっており、これは、A10₁とA10₂で示す部分については、入力信号X(t)に付加されたノイズのレベルが大きすぎることを表す。

また、定数Cが0.1の図１１において、A11₁で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値になっており、これは、A11₁で示す部分については、入力信号X(t)に、十分な大きさのノイズが付加されていないことを表す。

さらに、図１１において、A11₂で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))が、音声区間であるにもかかわらず、入力信号X(t)のラグ範囲最大相関R_max(x(n))の値よりも小さくなっており、これは、A11₂で示す部分については、入力信号X(t)に付加されたノイズのレベルが大きすぎることを表す。

また、定数Cが0.05の図１２において、A12₁とA12₂で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値になっており、これは、A12₁とA12₂で示す部分については、入力信号X(t)に、十分な大きさのノイズが付加されていないことを表す。

次に、図１３及び図１４は、図５の音声区間検出装置を用いた実験において得られた音声区間の正解率を示している。

実験では、音楽環境で集音した音声信号、エアコン環境で集音した音声信号、及びソニー株式会社が開発した二足歩行ロボットであるQRIO(R)が動作している環境（ロボット環境）で集音した音声信号のそれぞれを入力信号X(t)として、定数Cを変えながら、音声区間を検出した。

図１３は、音楽環境で集音した音声信号を入力信号X(t)として音声区間を検出した場合に、高い正解率が得られる定数Cを採用したときの正解率を示しており、図１４は、エアコン環境で集音した音声信号と、ロボット環境で集音した音声信号とを、それぞれ入力信号X(t)として音声区間を検出した場合に、高い正解率が得られる定数Cを採用したときの正解率を示している。

図１３及び図１４の１行目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を用いずに、入力信号X(t)のラグ範囲最大相関R_max(x(n))と正規化ログパワーlogp(n)とのセットを特徴量として、その特徴量を、図５の線形判別分析部４６を介して、識別処理部４７に与えた場合（以下、適宜、ベースラインの場合という）の、音楽環境、エアコン環境、及びロボット環境で集音した音声信号それぞれについての正解率を示している。

また、図１３及び図１４の２行目ないし４行目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))と、入力信号X(t)の正規化ログパワーlogp(n)とのセットを特徴量として、その特徴量を、図５の線形判別分析部４６を介して、識別処理部４７に与えた場合（以下、適宜、ノイズレベル調整方式の場合という）の、音楽環境、エアコン環境、及びロボット環境で集音した音声信号それぞれについての正解率を示している。

但し、図１３及び図１４の２行目ないし４行目のうちの２行目では、関数F(p(n),R_max(x(n)))として、積最小値関数が採用されており、３行目では、関数F(p(n),R_max(x(n)))として、積平均値関数が採用されている。また、図１３及び図１４の２行目ないし４行目のうちの４行目では、関数F(p(n),R_max(x(n)))として、パワー最小値関数が採用されている。

なお、定数Cを、音楽環境で集音した音声信号に対する正解率が高くなるように調整した図１３では、その２行目の、関数F(p(n),R_max(x(n)))が、積最小値関数である場合の定数Cとして、0.4が採用されている。

また、図１３の３行目の、関数F(p(n),R_max(x(n)))が、積平均値関数である場合の定数Cとして、0.1が採用されており、その４行目の、関数F(p(n),R_max(x(n)))が、パワー最小値関数である場合の定数Cとして、0.2が採用されている。

一方、定数Cを、エアコン環境やロボット環境で集音した音声信号に対する正解率が高くなるように調整した図１４では、その２行目の、関数F(p(n),R_max(x(n)))が、積最小値関数である場合の定数Cとして、0.2が採用されている。

また、図１４の３行目の、関数F(p(n),R_max(x(n)))が、積平均値関数である場合の定数Cとして、0.025が採用されており、その４行目の、関数F(p(n),R_max(x(n)))が、パワー最小値関数である場合の定数Cとして、0.05が採用されている。

音楽環境、エアコン環境、及びロボット環境の中では、特に、音楽環境に、周期性の高いノイズ（音楽）が存在する。

このため、ベースラインの場合には、入力信号X(t)のラグ範囲最大相関R_max(x(n))が、音声区間のみならず、非音声区間でも大きな値となり、その結果、図１３及び図１４の１行目に示すように、音楽環境で集音した音声信号に対する正解率が、他のエアコン環境やロボット環境で集音した音声信号に対する正解率よりも著しく低くなっている。

すなわち、ベースラインの場合では、図１３及び図１４の１行目に示すように、ロボット環境で集音した音声信号に対する正解率が94.63%で、エアコン環境で集音した音声信号に対する正解率が93.12%であり、高い正解率であるのに対して、音楽環境で集音した音声信号に対する正解率は、8.75%と著しく低い正解率になっている。

また、定数Cを、音楽環境で集音した音声信号に対する正解率が高くなるように調整した図１３のノイズレベル調整方式の場合においては、図１３の２行目ないし４行目に示すように、音楽環境で集音した音声信号に対する正解率は、関数F(p(n),R_max(x(n)))として、積最小値関数、積平均値関数、又はパワー最小値関数が採用されたときに、それぞれ、45.00%，46.25%、又は45.00%であり、いずれも、ベースラインの場合の正解率である8.75%から飛躍的に向上している。

また、図１３の２行目ないし４行目のノイズレベル調整方式の場合では、関数F(p(n),R_max(x(n)))として、積最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、図１３の２行目に示すように94.12%であり、ベースラインの場合のロボット環境で集音した音声信号に対する正解率(94.63%)と同程度になっている。

さらに、図１３のノイズレベル調整方式の場合において、関数F(p(n),R_max(x(n)))として、積最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率は、図１３の２行目に示すように96.25%であり、ベースラインの場合のエアコン環境で集音した音声信号に対する正解率(93.12%)よりも向上している。

但し、図１３のノイズレベル調整方式の場合において、関数F(p(n),R_max(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、それぞれ、図１３の３行目と４行目に示すように84.94%と89.80%であり、２行目に示した、関数F(p(n),R_max(x(n)))として、積最小値関数を採用したときの正解率(94.12%)と比較して、多少低下している。

さらに、図１３のノイズレベル調整方式の場合において、関数F(p(n),R_max(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率も、それぞれ、図１３の３行目と４行目に示すように88.12%と93.12%であり、２行目に示した、関数F(p(n),R_max(x(n)))として、積最小値関数を採用したときの正解率(96.25%)と比較して、多少低下している。

一方、定数Cを、ロボット環境やエアコン環境で集音した音声信号に対する正解率が高くなるように調整した図１４のノイズレベル調整方式の場合においては、図１４の２行目ないし４行目に示すように、音楽環境で集音した音声信号に対する正解率は、関数F(p(n),R_max(x(n)))として、積最小値関数、積平均値関数、又はパワー最小値関数が採用されたときに、それぞれ、42.50%，17.50%、又は13.75%であり、いずれも、ベースラインの場合の正解率である8.75%から向上している。

但し、図１４のノイズレベル調整方式の場合において、音楽環境で集音した音声信号に対する正解率は、関数F(p(n),R_max(x(n)))として、積最小値関数が採用されたときには、42.50%であり、関数F(p(n),R_max(x(n)))として、積平均値関数が採用されたとき(17.50%)や、パワー最小値関数が採用されたとき(13.75%)と比較して、著しく向上している。

また、図１４の２行目ないし４行目のノイズレベル調整方式の場合では、関数F(p(n),R_max(x(n)))として、積最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、図１４の２行目に示すように94.78%であり、ベースラインの場合のロボット環境で集音した音声信号に対する正解率(94.63%)と同程度になっている。

さらに、図１４のノイズレベル調整方式の場合において、関数F(p(n),R_max(x(n)))として、積最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率は、、図１４の２行目に示すように96.25%であり、ベースラインの場合のエアコン環境で集音した音声信号に対する正解率(93.12%)よりも向上している。

また、図１４のノイズレベル調整方式の場合において、関数F(p(n),R_max(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、それぞれ、図１４の３行目と４行目に示すように94.84%と93.98%であり、２行目に示した、関数F(p(n),R_max(x(n)))として、積最小値関数を採用したときの正解率(94.78%)と同程度になっている。

さらに、図１４のノイズレベル調整方式の場合において、関数F(p(n),R_max(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率も、それぞれ、図１４の３行目と４行目に示すように93.12%と96.25%であり、２行目に示した、関数F(p(n),R_max(x(n)))として、積最小値関数を採用したときの正解率(96.25%)と同程度になっている。

以上のように、ノイズレベル調整方式の場合において、関数F(p(n),R_max(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときには、定数Cを、例えば、音楽環境といった特定の環境に適した値に固定すると、その特定の環境(例えば、音楽環境)で集音した音声信号に対する正解率は高くなるが、例えば、ロボット環境やエアコン環境などの別の環境で集音した音声信号に対する正解率は低くなる。したがって、関数F(p(n),R_max(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときには、入力信号X(t)としての音声信号に含まれるノイズの種類によって、正解率が比較的変動するので、ノイズロバストネス(noise robustness)が低いということができる。

一方、ノイズレベル調整方式の場合において、関数F(p(n),R_max(x(n)))として、積最小値関数を採用したときには、定数Cを、特定の環境に適した値に固定しても、音楽環境、ロボット環境、又はエアコン環境のうちのいずれの環境で集音した音声信号に対する正解率も、高い値を維持することができる。したがって、関数F(p(n),R_max(x(n)))として、積最小値関数を採用したときには、入力信号X(t)としての音声信号に含まれているノイズの種類によらず、高い正解率を得ることができる。

ここで、積最小値関数は、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関R_max(x(n))との積p(n)×R_max(x(n))のうちの最小値を求める関数であり、積平均値関数は、連続するNフレームのそれぞれについての積p(n)×R_max(x(n))の平均値を求める関数であるから、積p(n)×R_max(x(n))の最小値を用いる場合には、その積p(n)×R_max(x(n))の平均値を用いる場合に比較して、例えば、音声区間の検出において高い正解率が得られるといったように、効果的であるいうことができる。

また、積最小値関数は、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関R_max(x(n))との積p(n)×R_max(x(n))の最小値を求める関数であり、パワー最小値関数は、連続するNフレームのそれぞれについてのフレームパワーp(n)の最小値を求める関数であるから、フレームパワーp(n)のみならず、ラグ範囲最大相関R_max(x(n))を用いる場合には、フレームパワーp(n)だけを用いる場合に比較して、やはり、例えば、音声区間の検出において高い正解率が得られるといったように、効果的であるいうことができる。

なお、入力信号X(t)としての音声信号にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を、音声信号の特徴量として用いて行う音声処理は、音声区間の検出に限られるものではない。すなわち、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))は、例えば、音声認識や、韻律認識、さらには、非特許文献７に記載されているような基本周波数の検出（ピッチの検出）等の音声処理において、音声信号の特徴量として用いることができる。

以上のように、入力信号X(t)の自己相関としてのラグ範囲自己相関R_max(x(n))と、パワーとしてのフレームパワーp(n)とに基づき、入力信号X(t)に付加するノイズgの大きさを表すゲイン情報としてのゲインgain(n)を求め、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)の自己相関としてのラグ範囲自己相関R_max(y(n))を、入力信号X(t)の特徴量として求めるノイズミックスR_max計算処理によれば、入力信号X(t)の周期性がある区間、すなわち、例えば、特に、有声音等の音声区間を精度良く検出すること等ができる自己相関としてのラグ範囲自己相関R_max(y(n))を求めることができる。

また、例えば、前述した非特許文献６に記載の方法では、第１段階の処理として、入力信号の自己相関を用いた特徴量を求め、その特徴量に基づき入力信号全体に対して、大まかに、音声区間と非音声区間の判定を行い、非音声区間と判定された区間の入力信号の分散を利用して、入力信号に付加するガウスノイズのレベルの決定を行い、第２段階の処理として、入力信号に、第１段階の処理で決定したレベルのガウスノイズを付加したノイズ付加信号の自己相関を用いた特徴量として、ラグ範囲最大相関を求める。

すなわち、非特許文献６に記載の方法では、第１段階の処理において、入力信号全体を処理して入力信号の自己相関を求め、入力信号に付加するガウスノイズのレベルを決定する。

したがって、非特許文献６に記載の方法では、入力信号全体を処理してその自己相関を求めるまでは、第２段階の処理によって特徴量を求めることができないため、特徴量を求めるまでに、大きな時間遅れが生じる。そして、特徴量を用いて行われる、例えば、音声認識や音声区間の検出等の音声処理には、一般に、実時間性が要求されるため、大きな時間遅れが生じることは、好ましくない。

一方、ノイズミックスR_max計算処理では、ゲインgain(n)を求める関数F(p(n),R_max(x(n)))によって、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関R_max(x(n))との積p(n)×R_max(x(n))のうちの最小値を求めるときに、そのNフレーム分の遅延が生じるが、入力信号X(t)全体を処理するような大きな時間遅れは生じないので、音声認識や音声区間の検出等の実時間性が要求される音声処理に用いられる特徴量を求める処理として、ノイズミックスR_max計算処理を採用しても、実時間性にほとんど影響しない。

また、非特許文献６に記載の方法は、第１段階の処理において、入力信号全体から、入力信号に付加するガウスノイズのレベルを決定するので、入力信号に含まれる音声成分や周期ノイズのレベルが時間とともに変化する入力信号の処理には不向きである。

これに対して、ノイズミックスR_max計算処理によれば、ゲインgain(n)を求める関数F(p(n),R_max(x(n)))によって、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関R_max(x(n))との積p(n)×R_max(x(n))のうちの最小値を求めるときに、そのNフレームの区間が参照されるだけなので、入力信号に含まれる音声成分や周期ノイズのレベルが時間とともに変化する入力信号についても、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関R_max(y(n))を求めることができる。

以上、周期性を表す周期性情報として自己相関を用いた場合について説明したが、YIN等を用いても同様の処理が可能である。

次に、上述したように、ノイズミックスR_max計算処理では、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)のラグ範囲自己相関R_max(y(n))が求められるが、入力信号X(t)に付加するノイズとしての、例えば、ガウスノイズには、その特性にばらつきがある。

そして、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関R_max(y(n))を求めるには、入力信号X(t)に付加するガウスノイズとして、適切な特性のガウスノイズを採用することが重要である。

すなわち、図３のガウスノイズ生成部１７では、入力信号X(t)に付加するガウスノイズとして、入力信号X(t)のフレーム長Tと同一のサンプル数Tのガウスノイズgが生成されるが、いま、サンプル数Tのガウスノイズgの正規化自己相関R(g,τ)の、基本周波数範囲に相当するラグτの範囲での最大値R_max(g)である、ガウスノイズgのラグ範囲最大相関R_max(g)は、0に近い値であることが望ましい。

つまり、ラグ範囲自己相関R_max(y(n))が、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関R_max(y(n))であるためには、ラグ範囲自己相関R_max(y(n))が、非音声区間において、0に近い値（理想的には、0）となる必要がある。

ラグ範囲自己相関R_max(y(n))が、非音声区間において、0に近い値となるには、入力信号X(t)に付加するガウスノイズgのラグ範囲最大相関R_max(g)が、0に近い値でなければならない。

しかしながら、ガウスノイズgのサンプル数Tが十分大である場合には、ガウスノイズgのラグ範囲最大相関R_max(g)は0に近い値となるが、ガウスノイズgのサンプル数Tが十分大でない場合には、ガウスノイズgのラグ範囲最大相関R_max(g)は、その値にばらつきが生じ、0に近い値にならないことがある。

ここで、図１５は、ガウスノイズgのラグ範囲最大相関R_max(g)を示している。

すなわち、図１５は、サンプル数Tが1024の、異なる時系列のガウスノイズgを1000回生成し、その結果得られた1000個のガウスノイズgのラグ範囲最大相関R_max(g)を昇順に並べたものを示している。

なお、図１５において、横軸は、1000個のガウスノイズgのラグ範囲最大相関R_max(g)を昇順に並べたときの順位を表し、縦軸は、ガウスノイズgのラグ範囲最大相関R_max(g)を表す。

1000個のガウスノイズgそれぞれのラグ範囲最大相関R_max(g)は、0.07ないし0.2程度の範囲に分布しており、ばらつきがあることが分かる。

図１６及び図１７は、1000個のガウスノイズgのうちの、ラグ範囲最大相関R_max(g)が最大のガウスノイズg_maxを入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))と、ラグ範囲最大相関R_max(g)が最小のガウスノイズg_minを入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))とを示している。

なお、図１６及び図１７において、横軸は、時間（横軸の１単位は0.01秒に相当する）を表す。また、図１６及び図１７において、縦長の長方形で囲んである部分が、音声区間を表す。

図１６上から１番目は、入力信号X(t)のラグ範囲最大相関R_max(x(n))を示している。

図１６上から２番目は、上述の1000個のガウスノイズgのうちの、ラグ範囲最大相関R_max(g)が最大（ここでは、図１５で説明した0.2）のガウスノイズg_maxを、１番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示しており、図１６上から３番目は、ラグ範囲最大相関R_max(g)が最小（ここでは、図１５で説明した0.07）のガウスノイズg_minを、１番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

図１７上から１番目は、図１６とは異なる入力信号X(t)のラグ範囲最大相関R_max(x(n))を示している。

図１７上から２番目は、図１６上から２番目と同様に、ラグ範囲最大相関R_max(g)が最大のガウスノイズg_maxを、１番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示しており、図１７上から３番目は、図１６上から３番目と同様に、ラグ範囲最大相関R_max(g)が最小のガウスノイズg_minを、１番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

図１６及び図１７から、入力信号X(t)に付加するガウスノイズgのラグ範囲最大相関R_max(g)が、入力信号x(t)にガウスノイズgを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))に大きく影響することが分かる。

すなわち、入力信号X(t)に、ラグ範囲最大相関R_max(g)が最大のガウスノイズg_maxを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))は、図１６及び図１７の上から２番目に示すように、非音声区間で、0.2程度と大になる。

これに対して、入力信号X(t)に、ラグ範囲最大相関R_max(g)が最小のガウスノイズg_minを付加したノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))は、図１６及び図１７の上から３番目に示すように、非音声区間で、0.07程度と小になる。

したがって、入力信号X(t)に対しては、ラグ範囲最大相関R_max(g)がより小さいガウスノイズgを付加することにより、非音声区間で値が小さくなる、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))、すなわち、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関R_max(y(n))を求めることができる。

そこで、図３のガウスノイズ生成部１７では、ラグ範囲最大相関R_max(g)がより小さいガウスノイズgを、ノイズミックス部１８に供給させるようにすることができる。

すなわち、図１８は、ラグ範囲最大相関R_max(g)がより小さいガウスノイズgを、ノイズミックス部１８に供給するガウスノイズ生成部１７の構成例を示している。

ノイズ生成部７１は、サンプル数がフレーム長Tに等しく、複数であるM個の、異なる時系列のガウスノイズg(1),g(2),・・・,g(M)を生成し、正規化自己相関計算部７２とノイズ選択部７４に供給する。

正規化自己相関計算部７２は、ノイズ生成部７１から供給されるM個のガウスノイズg(m)それぞれについて(m=1,2,・・・,M)、正規化自己相関R(g(m),τ)を求め、R_max計算部７３に供給する。

R_max計算部７３は、正規化自己相関計算部７２から供給される、M個のガウスノイズg(m)の正規化自己相関R(g(m),τ)それぞれについて、基本周波数範囲に相当するラグτの範囲での最大値であるラグ範囲最大相関R_max(g(m))を求め、ノイズ選択部７４に供給する。

ノイズ選択部７４は、ノイズ生成部７１から供給されるM個のガウスノイズg(m)の中から、その自己相関としての、R_max計算部７３から供給されるラグ範囲最大相関R_max(g(m))が最小のガウスノイズを選択し、入力信号X(t)に付加するガウスノイズgとして、ノイズミックス部１８（図３）に供給する。

次に、図１９のフローチャートを参照して、図１８に示した構成の図３のガウスノイズ生成部１７が、図４のステップＳ１２で行う処理について説明する。

ステップＳ５１において、ノイズ生成部７１は、M個のガウスノイズg(m)を生成し、正規化自己相関計算部７２とノイズ選択部７４に供給して、ステップＳ５２に進む。

ステップＳ５２では、正規化自己相関計算部７２は、ノイズ生成部７１からのM個のガウスノイズg(m)それぞれについて、正規化自己相関R(g(m),τ)を求め、R_max計算部７３に供給して、ステップＳ５３に進む。

ステップＳ５３では、R_max計算部７３は、正規化自己相関計算部７２からのM個のガウスノイズg(m)の正規化自己相関R(g(m),τ)それぞれのラグ範囲最大相関R_max(g(m))を求め、ノイズ選択部７４に供給して、ステップＳ５４に進む。

ステップＳ５４では、ノイズ選択部７４は、ノイズ生成部７１からのM個のガウスノイズg(m)の中から、R_max計算部７３からのラグ範囲最大相関R_max(g(m))が最小のガウスノイズを選択し、入力信号X(t)に付加するガウスノイズgとして、ノイズミックス部１８（図３）に供給してリターンする。

なお、ガウスノイズ生成部１７では、ステップＳ５１ないしＳ５４の処理を一度行えば良く、その後は、ステップＳ５４で選択したガウスノイズgを、ノイズミックス部１８に供給するようにすれば良い。

また、図１８及び図１９では、ガウスノイズg(m)のラグ範囲最大相関R_max(g(m))に基づいて、M個のガウスノイズg(m)の中から、ノイズミックス部１８に供給するガウスノイズgを選択するようにしたが、M個のガウスノイズg(m)の中からの、ノイズミックス部１８に供給するガウスノイズgの選択は、その他、例えば、入力信号X(t)にM個のガウスノイズg(m)それぞれを付加したM個のノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))に基づいて行うことが可能である。

すなわち、例えば、ノイズミックス部１８に供給するガウスノイズgを選択するのに用いる選択用の入力信号X(t)を、あらかじめ用意しておき、その選択用の入力信号X(t)に、M個のガウスノイズg(m)をそれぞれ付加したM個のノイズ付加信号Y_m(t)それぞれについて、M個のラグ範囲最大相関R_max(y_m(n))を求める。

そして、そのM個のノイズ付加信号Y_m(t)のラグ範囲最大相関R_max(y_m(n))それぞれに基づき、選択用の入力信号X(t)について、音声区間の検出を行い、M個のガウスノイズg(m)の中から、正解率が最も高いラグ範囲最大相関R_max(y_m(n))が求められたノイズ付加信号Y_m(t)に付加されたガウスノイズg(m)を、ノイズミックス部１８に供給するガウスノイズgとして選択することができる。

次に、図３の信号処理装置で行われるノイズミックスR_max計算処理では、ゲインgain(n)を求める関数F(p(n),R_max(x(n)))として、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関R_max(x(n))との積p(n)×R_max(x(n))のうちの最小値を求める積最小値関数や、その積p(n)×R_max(x(n))の平均値を求める積平均値関数を採用した場合には、正規化自己相関計算部１３において、入力信号X(t)の正規化自己相関R(x(n),τ)を求め、さらに、正規化自己相関計算部１９において、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)を求める必要があるから、自己相関の計算を２回行う必要がある。

このように、ノイズミックスR_max計算処理では、処理を、いわば忠実に行う場合には、自己相関の計算を２回行う必要があるが、近似を行うことにより、自己相関の計算を１回で済まし、これにより、計算量を低減することができる。

すなわち、入力信号X(t)のn番目のフレームx(n)のラグ範囲最大相関R_max(x(n))は、次式で求められる。

・・・（２）

ここで、式（２）において、R'(x(n),τ)は、フレームx(n)の正規化前自己相関であり、R'(x(n),0)は、ラグτが0のときの正規化前自己相関であるから、R'(x(n),τ)/R'(x(n),0)は、フレームx(n)の正規化自己相関である。

さらに、式（２）において、ラグτが下にあるargmax{}は、基本周波数範囲に相当するラグτの範囲での、かっこ｛｝内の最大値を表す。

また、ノイズ付加信号Y(t)のn番目のフレームy(n)のラグ範囲最大相関R_max(y(n))は、フレームy(n)の正規化前自己相関R'(y(n),τ)と、ラグτが0のときの正規化前自己相関R'(y(n),0)とを用いて、上述の式（２）と同様の次式で求められる。

・・・（３）

ところで、図３のノイズミックス部１８において、ノイズ付加信号Y(t)のフレームy(n)を得るために、入力信号X(t)のフレームx(n)に付加される、フレーム長Tと同一のサンプル数Tのノイズを、g(n)と表すと、ノイズ付加信号Y(t)のフレームy(n)は、式y(n)=x(n)+g(n)で表される。

さらに、フレーム長がTのフレームx(n)の先頭のサンプル値を、x[t]と表すと、フレームx(n)の、例えば、最後のサンプル値は、x[t+T-1]と表すことができる。同様に、サンプル数がTのノイズg(n)の先頭のサンプル値を、g[t]と表すと、ノイズg(n)の、例えば、最後のサンプル値は、g[t+T-1]と表すことができる。

この場合、式（３）右辺における正規化前自己相関R'(y(n),τ)は、式（４）で表される。

・・・（４）

ここで、式（２）及び式（３）のargmax{}を求めるにあたって用いられる基本周波数範囲に相当するラグτの範囲は大きいので、式（４）右辺の２行目の第２項である、ノイズg(n)の正規化前自己相関R'(g(n),τ)は、0に近似することができる。

また、ノイズg(n)と入力信号X(t)のフレームx(n)との間に、相関はない(と仮定することができる)ので、式（４）右辺の２行目の第３項の、ノイズg(n)とフレームx(n)との相互相関(1/T)Σ｛x[i]g[i+τ]+x[i+τ]g(i)｝は、0に近似することができる。

したがって、式（４）左辺の正規化前自己相関R'(y(n),τ)は、式R'(y(n),τ)=R'(x(n),τ)で近似することができる。すなわち、ノイズ付加信号Y(t)のフレームy(n)の正規化前自己相関R'(y(n),τ)は、入力信号X(t)のフレームx(n)の正規化前自己相関R'(x(n),τ)で近似することができる。

以上のように、ノイズ付加信号Y(t)のフレームy(n)の正規化前自己相関R'(y(n),τ)を、入力信号X(t)のフレームx(n)の正規化前自己相関R'(x(n),τ)で近似することにより、ノイズ付加信号Y(t)のフレームy(n)の正規化自己相関R(y(n),τ)、つまり、式（３）右辺のargmax{}内の正規化自己相関R'(y(n),τ)/R'(y(n),0)(=R'(y(n),τ)/R'(x(n)+g(n),0))は、次式で表される。

・・・（５）

上述したように、ノイズg(n)と入力信号X(t)のフレームx(n)との間に、相関はないので、式（５）右辺の２行目の分母における第３項の、ノイズg(n)とフレームx(n)との相互相関(1/T)Σ｛x[i]g[i+τ]+x[i+τ]g(i)｝は、0に近似することができる。

この場合、式（５）のノイズ付加信号Y(t)のフレームy(n)の正規化自己相関R(y(n),τ)は、式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}で近似することができる。

この式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}における分母にあるR'(g(n),0)は、ラグτが0のときのノイズg(n)の正規化前自己相関であるが、このラグτが0のときの正規化前自己相関R'(g(n),0)は、ノイズg(n)の各サンプル値の自乗の総和（自乗パワー）に等しいので、ノイズg(n)の正規化前自己相関R'(g(n),τ)を計算しなくても求めることができる。

以上のように、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)は、式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}で近似することができ、この式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}を、式（３）のargmax{}のかっこ{}内のR'(y(n),τ)/R'(y(n),0)、つまり、正規化自己相関R(y(n),τ)に代入することにより、式（３）のノイズ付加信号Y(t)のフレームy(n)のラグ範囲最大相関R_max(y(n))は、式R_max(y(n))=R_max(x(n))/{R'(x(n),0)+R'(g(n),0)}にしたがい、入力信号X(t)のフレームx(n)のラグ範囲最大相関R_max(x(n))、フレームx(n)の自乗パワーに等しいラグτが0のときの正規化前自己相関R'(x(n),0)、及びノイズg(n)の自乗パワーに等しいラグτが0のときの正規化前自己相関R'(g(n),0)から求めることができる。

すなわち、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))は、ノイズg(n)の自己相関、及び入力信号X(t)とノイズg(n)との相互相関が０であると近似することにより、入力信号X(t)の自己相関としてのラグ範囲最大相関R_max(x(n))、及びラグτが0のときの正規化前自己相関R'(x(n),0)、並びにラグが０のノイズg(n)の自己相関としてのラグτが0のときの正規化前自己相関R'(g(n),0)とを用い、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)を計算せずに求めることができる。

いま、上述のように、近似によって、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を求めるノイズミックスR_max計算処理を、近似ノイズミックスR_max計算処理ということとすると、近似ノイズミックスR_max計算処理では、自己相関の計算としては、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)の計算を行う必要がなく、入力信号X(t)の正規化自己相関R(x(n),τ)の計算だけを行えば良いので、計算量を低減することができる。

ここで、図３の信号処理装置によって行われるノイズミックスR_max計算処理を、近似ノイズミックスR_max計算処理と区別するために、以下、適宜、通常ノイズミックスR_max計算処理という。

図２０は、近似ノイズミックスR_max計算処理によって、入力信号X(t)の特徴量としての、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を求める信号処理装置の一実施の形態の構成例を示している。

なお、図中、図３の信号処理装置と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。すなわち、図２０の信号処理装置は、ガウスノイズ生成部１７に代えて、ガウスノイズパワー計算部９１が設けられているとともに、R_max計算部２０に代えて、R_max近似計算部９２が設けられ、ノイズミックス部１８及び正規化自己相関計算部１９が設けられていない他は、図３の信号処理装置と同様に構成されている。

また、図２０の信号処理装置では、正規化自己相関計算部１３、R_max計算部１４、フレームパワー計算部１５、ゲイン計算部１６、ガウスノイズパワー計算部９１、及びR_max近似計算部９２が、ノイズミックスR_max計算処理としての近似ノイズミックスR_max計算処理を行うノイズミックスR_max計算部を構成する。

ガウスノイズパワー計算部９１は、例えば、図３のガウスノイズ生成部１７と同様にして、入力信号X(t)に付加する、サンプル数がTのノイズgを生成し、そのノイズgについて、ラグτが0のときの正規化前自己相関R'(g,0)、つまり、ノイズgの各サンプル値の自乗の総和である自乗パワーを求め、R_max近似計算部９２に供給する。

R_max近似計算部９２には、上述したように、ガウスノイズパワー計算部９１から、ノイズgについての、ラグτが0のときの正規化前自己相関R'(g,0)に等しい自乗パワーが供給される他、R_max計算部１４から、入力信号X(t)のフレームx(n)のラグ範囲最大自己相関R_max(x(n))が供給されるとともに、ゲイン計算部１６から、ゲインgain(n)が供給される。

さらに、R_max近似計算部９２には、フレームパワー計算部１５から、入力信号X(t)のフレームx(n)のフレームパワーp(n)、すなわち、入力信号X(t)のフレームx(n)についての、ラグτが0のときの正規化前自己相関R'(x(n),0)に等しい自乗パワーが供給される。

R_max近似計算部９２は、R_max計算部１４からの入力信号X(t)のフレームx(n)のラグ範囲最大自己相関R_max(x(n))、フレームパワー計算部１５からの入力信号X(t)のフレームx(n)についてのラグτが0のときの正規化前自己相関R'(x(n),0)、ゲイン計算部１６からのゲインgain(n)、及びガウスノイズパワー計算部９１からの、ノイズgについてのラグτが0のときの正規化前自己相関R'(g,0)を用い、上述の式R_max(y(n))=R_max(x(n))/{R'(x(n),0)+R'(g(n),0)}に相当する式R_max(x(n))/{R'(x(n),0)+{C×gain(n)}²×R'(g,0)}にしたがい、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)のラグ範囲自己相関R_max(y(n))を求める。

次に、図２１のフローチャートを参照して、図２０の信号処理装置の動作について説明する。

図２０の信号処理装置では、ステップＳ９１，Ｓ９３ないしＳ９６において、図４のステップＳ１１，Ｓ１３ないしＳ１６とそれぞれ同様の処理が行われる。

これにより、R_max計算部１４では、入力信号X(t)のフレームx(n)のラグ範囲最大相関R_max(x(n))が求められ、フレームパワー計算部１５では、入力信号X(t)のフレームパワーp(n)が求められる。また、ゲイン計算部１６では、ゲインgain(n)が求められる。

そして、R_max計算部１４において求められた入力信号X(t)のフレームx(n)のラグ範囲最大相関R_max(x(n))、フレームパワー計算部１５において求められた入力信号X(t)のフレームx(n)のフレームパワーp(n)、及び、ゲイン計算部１６で求められたゲインgain(n)が、R_max近似計算部９２に供給される。

一方、ステップＳ９２において、ガウスノイズパワー計算部９１は、１フレームのサンプル数と同一のTサンプルのノイズgとして、例えばガウスノイズを生成し、そのノイズgについて、ラグτが0のときの正規化前自己相関R'(g,0)、つまり、ノイズgの自乗パワーを求め、R_max近似計算部９２に供給する。

そして、ステップＳ９７において、R_max近似計算部９２は、R_max計算部１４からの入力信号X(t)のフレームx(n)のラグ範囲最大自己相関R_max(x(n))、フレームパワー計算部１５からの入力信号X(t)のフレームx(n)についてのラグτが0のときの正規化前自己相関R'(x(n),0)に等しいフレームパワーp(n)、ゲイン計算部１６からのゲインgain(n)、及びガウスノイズパワー計算部９１からの、ノイズgについてのラグτが0のときの正規化前自己相関R'(g,0)に等しい自乗パワーを用い、式R_max(y(n))=R_max(x(n))/{R'(x(n),0)+{C×gain(n)}²×R'(g,0)}にしたがい、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)のラグ範囲自己相関R_max(y(n))を求める。

さらに、R_max近似計算部９２は、ステップＳ９８において、ステップＳ９７で求めたラグ範囲最大相関R_max(y(n))を、入力信号X(t)のフレームx(n)から抽出された特徴量として出力する。

次に、図２２ないし図２５は、近似ノイズミックスR_max計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

なお、図２２ないし図２５において、ゲインgain(n)を求める関数F(p(n),R_max(x(n)))を定義するNフレームとしては、40フレームを採用し、ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を求めるのに用いる定数Cとしては、0.2を採用した。

また、図２２ないし図２５において、矩形で囲んである部分は、音声区間を表している。

図２２ないし図２５それぞれの上から１番目は、入力信号X(t)としての音声信号を示している。

なお、図２２の入力信号X(t)としての音声信号は、音楽環境で集音した音声信号であり、図２３の入力信号X(t)としての音声信号は、エアコン環境で集音した音声信号である。また、図２４の入力信号X(t)としての音声信号は、ソニー株式会社が開発した二足歩行ロボットであるQRIO(R)が歩行動作をしている環境で集音した音声信号であり、図２５の入力信号X(t)としての音声信号は、QRIO(R)が高速でダンスをしている環境で集音した音声信号である。

図２２ないし図２５それぞれの上から２番目は、１番目に示した入力信号X(t)のラグ範囲最大相関R_max(x(n))を示しており、上から３番目は、１番目に示した入力信号X(t)から、通常ノイズミックスR_max計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

さらに、図２２ないし図２５それぞれの上から４番目は、１番目に示した入力信号X(t)から、近似ノイズミックスR_max計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示している。

図２２ないし図２５それぞれの上から４番目の、近似ノイズミックスR_max計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))は、上から３番目の、通常ノイズミックスR_max計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))とほぼ一致しており、したがって、近似ノイズミックスR_max計算処理が有効であることが分かる。

なお、ゲインgain(n)を求める関数F(p(n),R_max(x(n)))としては、フレームx(n)を含む連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関R_max(x(n))との積p(n)×R_max(x(n))の最小値や、平均値を求める関数の他、その積p(n)×R_max(x(n))の、例えばメディアン等を求める関数を採用することが可能である。

次に、上述したノイズミックスR_max計算処理等の一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図２６は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やＲＯＭ１０３に予め記録しておくことができる。

あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体１１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部１０８で受信し、内蔵するハードディスク１０５にインストールすることができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵している。CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されており、CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部１０７が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、また、CPU１０２は、ハードディスク１０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部１０８で受信されてハードディスク１０５にインストールされたプログラム、またはドライブ１０９に装着されたリムーバブル記録媒体１１１から読み出されてハードディスク１０５にインストールされたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

すなわち、本実施の形態では、周期性を表す周期性情報として、自己相関を採用した場合について説明したが、周期性情報としては、その他、例えば、YINを採用することができる。そして、周期性情報として、YINを採用する場合には、上述の正規化自己相関に代えて1-YINを使用するか、又は、正規化自己相関の最大値をYINの最小値に、正規化自己相関の最小値をYINの最大値に、それぞれ読み替えればよい。

音声信号を示す波形図である。音声信号を処理して得られる情報を示す図である。本発明を適用した信号処理装置の一実施の形態の構成例を示すブロック図である。信号処理装置の動作を説明するフローチャートである。本発明を適用した音声区間検出装置の一実施の形態の構成例を示すブロック図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。実験において得られた音声区間の正解率を示す図である。実験において得られた音声区間の正解率を示す図である。ガウスノイズgのラグ範囲最大相関R_max(g)の分布を示す図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ガウスノイズ生成部１７の構成例を示すブロック図である。ガウスノイズ生成部１７の処理を説明するフローチャートである。本発明を適用した信号処理装置の他の実施の形態の構成例を示すブロック図である。信号処理装置の動作を説明するフローチャートである。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。ノイズ付加信号Y(t)のラグ範囲最大相関R_max(y(n))を示す波形図である。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

符号の説明

１１音響信号変換部，１２フレーム処理部，１３正規化自己相関計算部，１４ R_max計算部，１５フレームパワー計算部，１６ゲイン計算部，１７ガウスノイズ生成部，１８ノイズミックス部，１９正規化自己相関計算部，２０ R_max計算部，４１音響信号変換部，４２フレーム処理部，４３ノイズミックスR_max計算部，４４フレームパワー計算部，４５複数フレーム処理部，４６線形判別分析部，４７識別処理部，７１ノイズ生成部，７２正規化自己相関計算部，７３ R_max計算部，７４ノイズ選択部，９１ガウスノイズパワー計算部，９２ R_max近似計算部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値を、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が０または０に近い値となるノイズの大きさを表すゲイン情報として求めるゲイン計算手段と、
前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報を、前記入力信号の特徴量として求める特徴量計算手段と
を備える信号処理装置。
前記ノイズは、ガウスノイズである
請求項１に記載の信号処理装置。
前記特定の周波数の範囲は、人の音声の基本周波数の範囲である
請求項１に記載の信号処理装置。
複数のノイズを生成するノイズ生成手段と、
前記ノイズの周期性情報に基づいて、前記複数のノイズの中から、前記入力信号に付加する前記ノイズを選択するノイズ選択手段と
をさらに備える
請求項１に記載の信号処理装置。
前記ノイズ選択手段は、前記ノイズの正規化された自己相関の、特定の周波数の範囲に相当するラグの範囲内での最大値に基づいて、前記複数のノイズの中から、前記入力信号に付加する前記ノイズを選択する
請求項４に記載の信号処理装置。
前記特徴量計算手段は、前記ノイズの自己相関、及び前記入力信号と前記ノイズとの相互相関が０であると近似し、前記入力信号の自己相関と、ラグが０の前記ノイズの自己相関とを用いて、前記ノイズ付加信号の正規化された自己相関の近似値を、前記入力信号の特徴量として求める
請求項１に記載の信号処理装置。
前記入力信号の特徴量に基づき、所定の処理を行う処理手段をさらに備える
請求項１に記載の信号処理装置。
前記特徴量計算手段は、前記入力信号の特徴量を、一定の時間長のフレームごとに求め、
複数のフレームの前記特徴量をまとめた複数次元の統合特徴量を求める複数フレーム処理手段をさらに備え、
前記処理手段は、前記統合特徴量に基づき、所定の処理を行う
請求項７に記載の信号処理装置。
前記統合特徴量の次元を、線形判別分析によって圧縮する線形判別分析手段をさらに備え、
前記処理手段は、次元が圧縮された前記統合特徴量に基づき、所定の処理を行う
請求項８に記載の信号処理装置。
前記入力信号は、音声信号であり、
前記処理手段は、前記音声信号の特徴量に基づき、音声区間の検出、音声認識、韻律認識、又は基本周波数の検出を行う
請求項７に記載の信号処理装置。
入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値を、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が０または０に近い値となるノイズの大きさを表すゲイン情報として求め、
前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報を、前記入力信号の特徴量として求める
ステップを含む信号処理方法。
入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値を、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が０または０に近い値となるノイズの大きさを表すゲイン情報として求め、
前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報を、前記入力信号の特徴量として求める
ステップを含む信号処理を、コンピュータに実行させるプログラム。