JP4182444B2 - 信号処理装置、信号処理方法、及びプログラム - Google Patents

信号処理装置、信号処理方法、及びプログラム Download PDF

Info

Publication number
JP4182444B2
JP4182444B2 JP2006160578A JP2006160578A JP4182444B2 JP 4182444 B2 JP4182444 B2 JP 4182444B2 JP 2006160578 A JP2006160578 A JP 2006160578A JP 2006160578 A JP2006160578 A JP 2006160578A JP 4182444 B2 JP4182444 B2 JP 4182444B2
Authority
JP
Japan
Prior art keywords
noise
input signal
max
signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006160578A
Other languages
English (en)
Other versions
JP2007328228A (ja
Inventor
等 本田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006160578A priority Critical patent/JP4182444B2/ja
Priority to US11/760,095 priority patent/US7908137B2/en
Publication of JP2007328228A publication Critical patent/JP2007328228A/ja
Application granted granted Critical
Publication of JP4182444B2 publication Critical patent/JP4182444B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Complex Calculations (AREA)

Description

本発明は、信号処理装置、信号処理方法、及びプログラムに関し、特に、例えば、入力信号の周期性がある区間を精度良く検出すること等ができる特徴量、例えば自己相関やYINを求めることができるようにする信号処理装置、信号処理方法、及びプログラムに関する。
音声信号の周期性を表す周期性情報としては、例えば、自己相関がある。自己相関は、音声認識や音声区間の検出等において、音声の有声音を捉えるための特徴量として利用されている(例えば、特許文献1及び非特許文献1ないし6を参照)。また、音声信号の自己相関は、例えば、音声の基本周波数(ピッチ周波数)の検出にも利用されている(例えば、非特許文献7を参照)。
また、周期性情報としては、自己相関の他に、例えば、近年提案されたYINがある(例えば、非特許文献8を参照)。YINは、音声の基本周波数の検出に利用されている。
ここで、自己相関は、周期性が高い場合に値が大となり、周期性がない場合に値が0になる。これに対して、YINは、自己相関とは逆に、周期性が高い場合に値が0となり、周期性がない場合に値が大(1)になる。以降では、周期性情報として、自己相関を採用した場合について説明するが、周期性情報として、YINを採用する場合には、後述する正規化自己相関に代えて1-YINを使用するか、又は、正規化自己相関の最大値をYINの最小値に、正規化自己相関の最小値をYINの最大値に、それぞれ読み替えればよい。
自己相関の計算方法にはいくつかの種類があるが、そのうちの1つについて、以下説明する。
いま、所定のサンプリング周波数でサンプリングされた時系列の入力信号の時刻tにおけるサンプル値を、X(t)と表す。また、一定の時間T、つまり、ある時刻tから時刻t+T-1の間のT個のサンプルの範囲を、フレームといい、入力信号の先頭からn番目のフレーム(第nフレーム)のT個のサンプル値の時系列を、フレーム(またはフレームデータ)x(n)と表す。
入力信号X(t)のフレームx(n)の自己相関R'(x(n),τ)は、例えば、式(1)で計算することができる。
Figure 0004182444
・・・(1)
ここで、信号の自己相関とは、その信号と、その信号と同一の信号を時間τだけずらした信号との相関を表す値であり、時間τは、ラグと呼ばれる。
また、フレームx(n)の自己相関R'(x(n),τ)は、フレームx(n)のT個のサンプル値X(t),X(t+1),・・・,X(t+T-1)から、そのT個の平均値を減算し、その結果得られる、T個の平均値が0になる減算結果を用いて求められることがある。
式(1)で求められる自己相関R’(x(n),τ)を、正規化した自己相関は、正規化自己相関と呼ばれる。
いま、式(1)で求められる自己相関R’(x(n),τ)を正規化して得られる自己相関を、R(x(n),τ)と表すと、正規化自己相関R(x(n),τ)は、例えば、式(1)の自己相関R’(x(n),τ)を、ラグτが0の自己相関R’(x(n),0)で正規化することにより、すなわち、式R(x(n),τ)=R’(x(n),τ)/R’(x(n),0)を演算することにより求められる。
正規化自己相関R(x(n),τ)の、ラグτを変化させたときの大きさの最大値は、入力信号X(t)が、完全な周期性を有し、つまり、ある周期T0の時系列であり、かつ、その周期T0が、フレームの時間長(フレーム長)T以下であれば、1になる。
また、正規化自己相関R(x(n),τ)は、入力信号X(t)が、周期性を有しなければ、ラグτの大きさが0より十分大きくなると、0に近い値になる。なお、正規化自己相関R(x(n),τ)は、ラグτが0のときには、1となる。
以上から、正規化自己相関R(x(n),τ)は、-1から+1までの値をとり得る。
ところで、人間の有声音は、完全ではないにしろ高い周期性を有する。
すなわち、図1は、人間の有声音の音声信号の波形図である。図1において、横軸は、時刻を表し、縦軸は、音声信号の振幅(レベル)を表す。
図1から、人間の有声音の音声信号が周期性を有することが分かる。なお、図1の音声信号は、16kHzのサンプリング周波数でサンプリングされている。また、図1の音声信号の基本周波数は、約260Hz(約60サンプル(≒16kHz/260Hz))である。
人間の有声音の周期(の逆数)は、基本周波数(ピッチ周波数)と呼ばれ、基本周波数は、おおよそ60Hzから400Hz程度の範囲に存在することが一般に知られている。
いま、この、人間の有声音の基本周波数が存在する範囲を、基本周波数範囲ということとし、入力信号X(t)として、人間の音声信号(人間の音声の音声信号)を採用して、正規化自己相関R(x(n),τ)を求めた場合、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値Rmax(x(n))は、周期性を有する有声音の音声信号の区間では、1に近い値となる。
ここで、入力信号X(t)のサンプリング周波数が、例えば、16kHzであり、基本周波数範囲を、例えば、上述した60Hzから400Hzまでの範囲とすると、60Hzは、約266サンプル(=16kHz/60Hz)に相当し、400Hzは、40サンプル(=16kHz/400Hz)に相当する。
したがって、基本周波数範囲に相当するラグτの範囲は0より十分大きいから、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値Rmax(x(n))は、周期性がない区間では、0に近い値となる。
以上のように、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値Rmax(x(n))は、理論的には、周期性がある区間とない区間とで、値が顕著にことなるから、入力信号X(t)としての音声信号の特徴量として、音声区間の検出や音声認識等の音声処理に用いることができる。
ここで、図2は、入力信号X(t)としての音声信号と、その音声信号を処理して得られる各種の信号(情報)とを示している。
図2上から1番目は、入力信号X(t)としての音声信号の波形図である。図2上から1番目において、横軸は時刻(サンプル点)を表し、縦軸は振幅を表す。
なお、図2上から1番目の音声信号X(t)は、16kHzのサンプリング周波数でサンプリングされている。
図2上から2番目は、1番目の音声信号X(t)をFFT(Fast Fourier Transform)することにより求められた周波数スペクトルを示している。図2上から2番目において、横軸は時刻(フレーム)を表し、縦軸はFFTの、いわゆるビン(bin)(周波数成分)を特定する番号を表す。
なお、FFTとしては、512点(サンプル)のFFTを行ったので、1つのビンは、おおよそ32Hzに相当する。また、図2上から2番目では、各周波数成分の大小が、濃淡で表されている。
図2上から3番目は、1番目の音声信号X(t)(から得られたフレームx(n))の、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値Rmax(x(n))を示している。 図2上から3番目において、横軸は時刻(フレーム)を表し、縦軸は、最大値Rmax(x(n))を表す。
ここで、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値Rmax(x(n))を、以下、適宜、ラグ範囲最大相関Rmax(x(n))という。
図2上から4番目は、1番目の音声信号X(t)(から得られたフレームx(n))のパワー、つまり、フレームx(n)のT個のサンプル値それぞれの自乗の総和のlog(対数)をとった値(以下、適宜、フレームログパワーという)を示している。図2上から4番目において、横軸は時刻(フレーム)を表し、縦軸はフレームログパワーを表す。
図2において、矩形で囲んである部分は、音声区間を表している。すなわち、図2において、左から1番目、2番目、3番目の矩形で囲んである部分は、それぞれ、「停止」、「緊急停止」、「フリーズ」の発話がされた区間を表す。
図2上から1番目の音声信号X(t)や、2番目の周波数スペクトル、4番目のフレームログパワーには、音声区間と、そうでない区間とで、顕著な相違が見られないため、音声信号X(t)や、周波数スペクトル、フレームログパワーを用いることによっては、音声区間を検出することが難しいことが分かる。
一方、図2上から3番目のラグ範囲最大相関Rmax(x(n))は、音声区間では、1に近い値になっており、そうでない区間では、比較的1より十分小さい、0に近い値になっている。
したがって、ラグ範囲最大相関Rmax(x(n))は、音声区間の検出に有効な特徴量であることが分かる。
米国特許第6,055,499号明細書 Using of voicing features in HMM-based speech Recognition, D.L.Thomson, Chengalvarayan, Lucent, 2002 Speech Communication Robust Speech Recognition in Noisy Environments: The 2001 IBM Spine Evaluation System, B.Kingsbury, G. Saon, L. Mangu, M. Padmanabhan and R. Sarikaya, IBM, ICASSP2002 Extraction Methods for Voicing Feature for Robust Speech Recognition, Andras Zolnay, Ralf Schluter, and Hermann Ney, RWTH Aachen, EUROSPEECH2003 USING SPEECH/NON-SPEECH DETECTION TO BIAS RECOGNITION SEARCH ON NOISY DATA, Francoise Beaufays, Daniel Boies, Mitch Weintraub, Qifeng Zhu, Nuance Communications, ICASSP2003 VOICING FEATURE INTEGRATION IN SRI'S DECIPHER LVCSR SYSTEM, Martin Graciarena, Horacio Franco, Jing Zheng, Dimitra Vergyri, Andreas Stolcke, SRI, ICASSP2004 A LINKED-HMM MODEL FOR ROBUST VOICING AND SPEECH DETECTION, Sumit Basu, Microsoft Research, ICASSP2003 Analysis, enhancement and evaluation of five pitch determination techniques, Peter Vepre, Michael S. Scordilis, Pansonic, Univ. Miami, Speech Communication 37(2002), pp249-270 YIN, a fundamental frequency estimator for speech and music, Alain de Cheveigne´ , Hideki Kawahara, Japan Acoustic Society Am. 111 (4), April 2002
ところで、入力信号X(t)のラグ範囲最大相関Rmax(x(n))は、人間の有声音以外の音、すなわち、例えば、周期性を持つ音(周期ノイズ)に対しても1に近い値となることがある。
したがって、入力信号X(t)のラグ範囲最大相関Rmax(x(n))によっては、入力信号X(t)における周期ノイズの部分と、有声音の部分とを区別することが難しいことがある。
そこで、非特許文献6には、入力信号にガウスノイズを付加し、そのガウスノイズを付加した入力信号であるノイズ付加信号のラグ範囲最大相関を用いて、音声区間を検出する方法が記載されている。
すなわち、ガウスノイズのラグ範囲最大相関は、0に近いため、入力信号が周期ノイズを含んでいても、その周期ノイズよりも十分大きなレベルのガウスノイズを、入力信号に付加することで、その結果得られるノイズ付加信号のうちの、周期ノイズのみの部分のラグ範囲最大相関は、ガウスノイズの影響により0に近い値となる。
したがって、理想的には、入力信号の周期ノイズのみの部分(音声が存在しない部分)に、レベルの大きなガウスノイズを付加することにより、そのガウスノイズが付加された入力信号であるノイズ付加信号については、音声が存在しない部分(周期ノイズのみの部分)では0に近い値になり、音声が存在する部分では1に近い値になるラグ範囲最大相関を得ることができる。
ところで、入力信号の、音声が存在しない部分のみならず、音声が存在する部分にも、レベルの大きなガウスノイズを付加すると、そのガウスノイズが付加されたノイズ付加信号のラグ範囲最大相関は、音声が存在しない部分だけでなく、音声が存在する部分でも、0に近い値になり、周期ノイズの部分と、音声の部分(音声区間)とを区別することが困難となる。
したがって、入力信号にガウスノイズを付加したノイズ付加信号のラグ範囲最大相関を求め、そのラグ範囲最大相関を用いて、音声区間の検出等を行う場合には、入力信号に付加するガウスノイズのレベルを、適切に調整すること、すなわち、入力信号の音声が存在しない部分に付加するガウスノイズのレベルは大きくし、入力信号の音声が存在する部分に付加するガウスノイズのレベルは小さくすることが重要である。
そこで、非特許文献6では、第1段階の処理として、入力信号の自己相関を用いた特徴量を求め、その特徴量に基づき入力信号全体に対して、大まかに、音声区間と、そうでない区間である非音声区間の判定を行い、非音声区間と判定された区間の入力信号の分散を利用して、入力信号に付加するガウスノイズのレベルの決定を行い、第2段階の処理として、入力信号に、第1段階の処理で決定したレベルのガウスノイズを付加したノイズ付加信号の自己相関を用いた特徴量を、入力信号の特徴量として求め、その特徴量に基づき、最終的な音声区間と非音声区間の判定を行う方法が記載されている。
しかしながら、第1の段階の処理において、入力信号の自己相関を用いた特徴量によっては、入力信号全体に対しての、音声区間と非音声区間の判定を、高精度に行うことができないことがある。
そして、非特許文献6に記載の方法では、第1段階の処理において、入力信号の自己相関を用いた特徴量に基づいて行われる、音声区間と非音声区間の判定を誤った場合には、入力信号に付加するガウスノイズのレベルとして、不適切なレベルが決定され、その結果、第2段階の処理において、ノイズ付加信号の自己相関を用いた特徴量に基づいて行われる、最終的な音声区間と非音声区間の判定も不正確になって、音声区間、特に、有声音の部分などの周期性がある区間を精度良く検出することが困難となる。
本発明は、このような状況に鑑みてなされたものであり、入力信号の周期性がある区間を精度良く検出すること等ができる自己相関を求めることができるようにするものである。
本発明の一側面の信号処理装置は、入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値を、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が0または0に近い値となるノイズの大きさを表すゲイン情報として求めるゲイン計算手段と、前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報を、前記入力信号の特徴量として求める特徴量計算手段とを備える。
本発明の一側面の信号処理方法、又はプログラムは、入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値を、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が0または0に近い値となるノイズの大きさを表すゲイン情報として求め、前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報を、前記入力信号の特徴量として求めるステップを含む。
本発明の一側面においては、入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値が、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が0または0に近い値となるノイズの大きさを表すゲイン情報として求められ、前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報が、前記入力信号の特徴量として求められる。
本発明の一側面によれば、例えば、入力信号の周期性がある区間を精度良く検出すること等ができる周期性情報を求めることができる。
以下、図面を参照して、本発明の実施の形態について説明する。
図3は、本発明を適用した信号処理装置の一実施の形態の構成例を示すブロック図である。
図3の信号処理装置では、入力信号から、その入力信号に付加するノイズの大きさを表すゲイン情報が求められ、入力信号に、ゲイン情報に応じた大きさ(レベル)のノイズを付加したノイズ付加信号の自己相関が、入力信号の特徴量として求められる。
すなわち、図3において、信号処理装置は、音響信号変換部11、フレーム処理部12、正規化自己相関計算部13,Rmax計算部14、フレームパワー計算部15、ゲイン計算部16、ガウスノイズ生成部17、ノイズミックス部18、正規化自己相関計算部19、及びRmax計算部20から構成される。
音響信号変換部11は、例えば、マイク(マイクロフォン)とA/D(Analog/Digital)コンバータ等で構成され、音声を、ディジタルの音声信号に変換し、フレーム処理部12に供給する。
すなわち、音響信号変換部11は、そこに入力される空気振動としての音(人間の音声や、信号処理装置が設置されている環境に存在する音)を、マイクによってアナログの音声信号に変換する。さらに、音響信号変換部11は、マイクで得られたアナログの音声信号を、A/Dコンバータによってディジタルの音声信号に変換し、その音声信号を、入力信号として、フレーム処理部12に、時系列に供給する。ここで、時刻tにおける入力信号のサンプル値を、X(t)と表す。
フレーム処理部12は、音響信号変換部11から供給される入力信号X(t)を、Tサンプルのサンプル値で構成されるフレームにフレーム化するフレーム処理を行い、すなわち、例えば、時刻t-T+1から時刻tまでの入力信号のT個のサンプル値X(t-T+1),X(t-T+2),・・・,X(t)を1フレームとし、時刻t-T+1から所定のフレームシフト時間だけ後の時刻を先頭とする時刻からT個の入力信号のサンプル値を1フレームとし、以下、同様にして、音響信号変換部11から供給される入力信号X(t)からフレームを構成して、正規化自己相関計算部13、フレームパワー計算部15、及びノイズミックス部18に供給する。
ここで、以下、適宜、入力信号(t)の先頭からn番目のフレーム(フレーム番号がnのフレーム)を、フレームx(n)という。
正規化自己相関計算部13は、フレーム処理部12から供給されるフレームx(n)の自己相関R’(x(n),τ)を、例えば、前述の式(1)にしたがって求め、さらに、その自己相関R’(x(n),τ)を正規化することにより、正規化自己相関R(x(n),τ)を求める。
ここで、正規化自己相関R(x(n),τ)も、その正規化自己相関R(x(n),τ)に正規化される前の自己相関R’(x(n),τ)も、「自己相関」である。なお、正規化される前の自己相関R’(x(n),τ)を、以下、適宜、正規化前自己相関という。
正規化自己相関R(x(n),τ)は、前述したように、正規化前自己相関R’(x(n),τ)を、ラグτが0の正規化前自己相関R’(x(n),0)で正規化することにより、すなわち、式R(x(n),τ)=R’(x(n),τ)/R’(x(n),0)を演算することにより求めることができる。
正規化自己相関計算部13は、フレームx(n)の正規化自己相関R(x(n),τ)を求めると、その正規化自己相関R(x(n),τ)を、Rmax計算部14に供給する。
Rmax計算部14は、例えば、80Hzから400Hzまでの周波数の範囲を、基本周波数範囲とし、正規化自己相関計算部13から供給される正規化自己相関R(x(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値であるラグ範囲最大相関Rmax(x(n))を求めて、ゲイン計算部16に供給する。
ここで、上述したように、基本周波数範囲が、80Hzから400Hzまでの周波数の範囲である場合、音響信号変換部11での入力信号X(t)のサンプリング周波数が、例えば16kHzであれば、基本周波数範囲に相当するラグτの範囲は、40サンプル(=16kHz/400Hz)から200サンプル(=16kHz/80Hz)までの範囲となる。この場合、Rmax計算部14は、ラグτが40から200までの範囲で、最大の正規化自己相関R(x(n),τ)を求め、ラグ範囲最大相関Rmax(x(n))とする。
フレームパワー計算部15は、フレーム処理部12から供給されるフレームx(n)のパワー(以下、適宜、フレームパワーという)p(n)を求め、ゲイン計算部16に供給する。
ここで、フレームパワー計算部15は、例えば、フレームx(n)のT個のサンプル値それぞれの自乗の総和や、その総和の平方根を計算し、その計算結果を、フレームパワーp(n)とする。
ゲイン計算部16は、Rmax計算部14から供給される、入力信号X(t)の自己相関としての、フレームx(n)のラグ範囲最大相関Rmax(x(n))と、フレームパワー計算部15から供給される、入力信号X(t)のパワーとしての、フレームx(n)のフレームパワーp(n)とに基づき、入力信号X(t)のフレームx(n)(の各サンプル値)に付加するノイズの大きさを表すゲイン情報であるゲインgain(n)を求め、ノイズミックス部18に供給する。
すなわち、ゲイン計算部16は、例えば、Rmax計算部14からのフレームx(n)のラグ範囲最大相関Rmax(x(n))と、フレームパワー計算部15からのフレームx(n)のフレームパワーp(n)とを引数とする所定の関数F(p(n),Rmax(x(n)))を演算し、その演算結果を、ゲインgain(n)として、ノイズミックス部18に供給する。
ここで、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))としては、例えば、フレームx(n)を含む連続するNフレーム(Nは2以上の整数)のそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))の最小値(Nフレームそれぞれについての積p(n)×Rmax(x(n))の中で、最小の値の積p(n)×Rmax(x(n)))を求める関数などを採用することができる。
ガウスノイズ生成部17は、入力信号X(t)のフレームx(n)に付加するノイズgとして、1フレームのサンプル数と同一のTサンプルのガウスノイズを生成し、ノイズミックス部18に供給する。
なお、ガウスノイズ生成部17において生成するノイズgは、ガウスノイズに限定されるものではなく、ノイズgのラグ範囲最大相関Rmax(g)が、0又は0に近い値となるノイズであれば、どのようなノイズであっても良い。
ノイズミックス部18は、フレーム処理部12からの入力信号X(t)のフレームx(n)に、ゲイン計算部16からのゲインgain(n)に応じた大きさのノイズを付加したノイズ付加信号を求め、正規化自己相関計算部19に供給する。
すなわち、ノイズミックス部18は、ガウスノイズ生成部17からのノイズgを、ゲイン計算部16からのゲインgain(n)に応じた大きさのノイズ(以下、適宜、レベル変換ノイズという)に変換し、フレーム処理部12からの入力信号X(t)のフレームx(n)に、レベル変換ノイズを付加したノイズ付加信号Y(t)のフレームy(n)を求め、正規化自己相関計算部19に供給する。
ここで、時刻tのレベル変換ノイズをB(t)と表すとともに、時刻tのノイズ付加信号をY(t)と表すと、入力信号X(t)に、レベル変換ノイズB(t)を付加(加算)した信号X(t)+B(t)が、ノイズ付加信号Y(t)となる。
また、ノイズ付加信号Y(t)の先頭からn番目のフレーム(のT個のサンプル値の時系列)を、y(n)と表すこととすると、ノイズミックス部18は、Cを所定の適切な定数として、例えば、式y(n)=x(n)+C×gain(n)×gにしたがって、ノイズ付加信号Y(t)のフレームy(n)を求める。
正規化自己相関計算部19は、上述した正規化自己相関計算部13と同様にして、ノイズミックス部18からのノイズ付加信号Y(t)のフレームy(n)の正規化前自己相関R’(y(n),τ)を求め、さらに、その正規化前自己相関R’(y(n),τ)を正規化することにより、正規化自己相関R(y(n),τ)を求めて、Rmax計算部20に供給する。
Rmax計算部20は、上述したRmax計算部14と同様にして、例えば、80Hzから400Hzまでの周波数の範囲を、基本周波数範囲とし、正規化自己相関計算部19から供給されるノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(y(n),τ)の最大値であるラグ範囲最大相関Rmax(y(n))を求めて、入力信号X(t)のフレームx(n)から抽出された特徴量として出力する。
なお、図3の信号処理装置において、正規化自己相関計算部13,Rmax計算部14、フレームパワー計算部15、ゲイン計算部16、ガウスノイズ生成部17、ノイズミックス部18、正規化自己相関計算部19、及びRmax計算部20は、フレームx(n)から、そのフレームx(n)の特徴量として、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求めるノイズミックスRmax計算部を構成する。ノイズミックスRmax計算部において行われる、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求める処理を、以下、適宜、ノイズミックスRmax計算処理という。
ここで、前述したように、入力信号X(t)にガウスノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求め、そのラグ範囲最大相関Rmax(y(n))を用いて、音声区間の検出等を行う場合には、入力信号X(t)に付加するガウスノイズのレベルを、適切に調整すること、すなわち、入力信号X(t)の音声が存在しない部分に付加するガウスノイズのレベルは大きくし、入力信号X(t)の音声が存在する部分に付加するガウスノイズのレベルは小さくすることが重要である。
一方、図3の信号処理装置では、上述したように、ノイズミックス部18において、式y(n)=x(n)+C×gain(n)×gにしたがって、ノイズ付加信号Y(t)のフレームy(n)が求められる。すなわち、ノイズミックス部18では、入力信号X(t)のフレームに、ゲインgain(n)に比例する大きさのノイズC×gain(n)×gを加算することにより、ノイズ付加信号Y(t)のフレームy(n)が求められる。
したがって、入力信号X(t)のフレームx(n)が音声区間のフレームでない場合には、ゲインgain(n)を大きくし、入力信号X(t)のフレームx(n)が音声区間のフレームである場合には、ゲインgain(n)を小さくする必要があり、ゲイン計算部16において、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))としては、以上のようなゲインgain(n)が得られる関数が採用される。
ここで、例えば、文献CONSTRUCTION AND EVALUATION OF A ROBUST MULTIFEATURE SPEECH/MUSICDISCRIMINATOR Eric Scheirer Malcolm Slaneyy ICASSP'97, pp. 1331-1334に記載されているように、人間の音声については、例えば、音楽(楽曲)に比較して、フレームパワーが、1秒程度の区間のフレームパワーの平均値(平均フレームパワー)より小さいフレームの比率が高いこと、つまり、多くのフレームが、平均フレームパワーよりも小さいフレームパワーのフレームであることが知られている。
さらに、上記の文献に記載されているように、人間の音声のスペクトルは4Hz(0.25秒)程度で変化することが知られている。
以上から、音声については、数百ミリ秒(0.数秒)から1秒程度の時間内において、パワーや正規化自己相関に変化があることを期待することができる。
すなわち、音声については、数百ミリ秒から1秒程度の時間に、パワーが大きく変動する部分と、自己相関が大きく変動する部分とが存在することを期待することができる。したがって、音声については、パワーと自己相関とから計算される値である、例えば、フレームパワーp(n)と正規化自己相関Rmax(x(n))との積p(n)×Rmax(x(n))が、数百ミリ秒から1秒程度の時間に大きく変動し、小さい値が存在することを期待することができる。
一方、音楽その他の定常的なノイズについては、数百ミリ秒から1秒程度の時間に、パワーが大きく変動する部分が存在することは期待できない。さらに、定常的なノイズの自己相関は、一律に大きい。したがって、定常的なノイズについては、例えば、上述したフレームパワーp(n)と正規化自己相関Rmax(x(n))との積p(n)×Rmax(x(n))が、数ミリ秒から1秒程度の時間に大きく変動することは期待できないし、さらに、特に、正規化自己相関Rmax(x(n))の影響によって、比較的大きな値となることを期待することができる。
そこで、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))としては、例えば、フレームパワーp(n)と正規化自己相関Rmax(x(n))との積p(n)×Rmax(x(n))の、数百ミリ秒から1秒程度の時間内での最小値を採用することにより、音声(のフレームx(n))については、値の小さいゲインgain(n)が求められ、定常的なノイズ(のフレームx(n))については、値の大きなゲインgain(n)が求められることを期待することができる。
なお、ゲインgain(n)を求める関数F()は、上述した関数に限定されるものではない。すなわち、ゲインgain(n)を求める関数F()は、Rmax計算部20において、音声区間のフレームに対して求められるラグ範囲最大相関Rmax(y(n))を大にし、非音声区間のフレームに対して求められるラグ範囲最大相関Rmax(y(n))を小にする関数であれば、どのような関数であっても良い。
また、ノイズミックス部18において、式y(n)=x(n)+C×gain(n)×gにしたがって、ノイズ付加信号Y(t)のフレームy(n)を求めるときに用いられる定数Cとしては、例えば、その定数Cの値を変えて、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求め、そのラグ範囲最大相関Rmax(y(n))を用いて、音声区間を検出する実験を行い、より正確に音声区間を検出することができたときの定数Cの値を採用することができる。
また、ノイズミックス部18でにおいて用いられる定数Cとしては、その定数Cの値を変えて、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求め、そのラグ範囲最大相関Rmax(y(n))をプロットして目視で確認し、音声区間において値が大きく、かつ、非音声区間において値が小さいラグ範囲最大相関Rmax(y(n))を得られたときの定数Cの値を採用することができる。
次に、図4のフローチャートを参照して、図3の信号処理装置の動作について説明する。
図3の信号処理装置では、音響信号変換部11からフレーム処理部12に対して、入力信号X(t)としての音声信号が供給される。
フレーム処理部12は、ステップS11において、音響信号変換部11から供給される入力信号X(t)を、Tサンプルのサンプル値で構成されるフレームにフレーム化するフレーム処理を行い、その結果得られるフレームx(n)を、正規化自己相関計算部13、フレームパワー計算部15、及びノイズミックス部18に供給する。
正規化自己相関計算部13は、ステップS13において、フレーム処理部12からのフレームx(n)の正規化自己相関R(x(n),τ)を求め、Rmax計算部14に供給する。
Rmax計算部14は、ステップS14において、正規化自己相関計算部13からの正規化自己相関R(x(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(x(n),τ)の最大値であるラグ範囲最大相関Rmax(x(n))を求めて、ゲイン計算部16に供給する。
また、フレームパワー計算部15は、ステップS15において、フレーム処理部12からのフレームx(n)のフレームパワーp(n)を求め、ゲイン計算部16に供給する。
ゲイン計算部16は、ステップS16において、Rmax計算部14からのフレームx(n)のラグ範囲最大相関Rmax(x(n))と、フレームパワー計算部15からのフレームx(n)のフレームパワーp(n)とに基づき、ゲインgain(n)を求め、ノイズミックス部18に供給する。
すなわち、ゲイン計算部16は、例えば、フレームx(n)を中心として、数百ミリ秒から1秒程度の時間内に存在するNフレームについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))のうちの最小値を、ゲインgain(n)として求め、ノイズミックス部18に供給する。
一方、ガウスノイズ生成部17は、ステップS12において、1フレームのサンプル数と同一のTサンプルのガウスノイズgを生成し、ノイズミックス部18に供給する。
ノイズミックス部18は、ステップS17において、式y(n)=x(n)+C×gain(n)×gにしたがい、定数Cと、ゲイン計算部16からのゲインgain(n)との積C×gain(n)を求め、ガウスノイズ生成部17からのガウスノイズgを、積C×gain(n)倍したノイズC×gain(n)×gを求める。さらに、ステップS17では、ノイズミックス部18は、式y(n)=x(n)+C×gain(n)×gにしたがい、フレーム処理部12からのフレームx(n)に、ノイズC×gain(n)×gを付加することにより、ノイズ付加信号Y(t)のフレームy(n)を求め、正規化自己相関計算部19に供給する。
正規化自己相関計算部19は、ステップS18において、ノイズミックス部18からのノイズ付加信号Y(t)のフレームy(n)の正規化自己相関R(y(n),τ)を求めて、Rmax計算部20に供給する。
Rmax計算部20は、ステップS19において、正規化自己相関計算部19からの正規化自己相関R(y(n),τ)について、基本周波数範囲に相当するラグτの範囲での正規化自己相関R(y(n),τ)の最大値であるラグ範囲最大相関Rmax(y(n))を求める。そして、Rmax計算部20は、ステップS20において、そのラグ範囲最大相関Rmax(y(n))を、入力信号X(t)のフレームx(n)から抽出された特徴量として出力する。
次に、図5は、図3の信号処理装置を応用した音声区間検出装置の一実施の形態の構成例を示している。
図5の音声区間検出装置では、入力信号X(t)としての音声信号の特徴量として、その入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を用いて、入力信号X(t)の音声区間が検出される。
すなわち、図5の音声区間検出装置では、音響信号変換部41が、図3の音響信号変換部11と同様に、そこに入力される空気振動としての音を、アナログの音声信号に変換し、さらに、そのアナログの音声信号を、ディジタルの音声信号に変換して、入力信号X(t)として、フレーム処理部42に供給する。
フレーム処理部42では、図3のフレーム処理部12と同様に、音響信号変換部41からの入力信号X(t)を、Tサンプルのサンプル値で構成されるフレームにフレーム化するフレーム処理が行われ、その結果得られるフレームx(n)が、ノイズミックスRmax計算部43、及びフレームパワー計算部44に供給される。
ノイズミックスRmax計算部43は、図3のノイズミックスRmax計算部、すなわち、正規化自己相関計算部13,Rmax計算部14、フレームパワー計算部15、ゲイン計算部16、ガウスノイズ生成部17、ノイズミックス部18、正規化自己相関計算部19、及びRmax計算部20と同様に構成され、ノイズミックスRmax計算処理を行うことによって、フレーム処理部42から供給されるフレームx(n)から、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求め、複数フレーム処理部45に供給する。
一方、フレームパワー計算部44では、フレーム処理部42からのフレームx(n)から、そのフレームx(n)のフレームログパワーが求められ、さらに、そのフレームログパワーを正規化した正規化ログパワーlogp(n)が求められて、複数フレーム処理部45に供給される。
すなわち、フレームパワー計算部44は、フレームx(n)のT個のサンプル値それぞれの自乗の総和のlogをとることで、フレームログパワーFP(n)を求める。
さらに、フレームパワー計算部44は、例えば、忘却係数ffを用いた式FPave(n)=ff×FPave(n-1)+(1-ff)×FP(n)を演算することにより、FPave(n)を、フレームログパワーFP(n)の平均値として求める。
そして、フレームパワー計算部44は、フレームログパワーFP(n)から、平均値FPave(n)を減算し、その減算値FP(n)-FPave(n)を、正規化ログパワーlogp(n)として、複数フレーム処理部45に供給する。
ここで、フレームログパワーFP(n)を、そのフレームログパワーFP(n)から平均値FPave(n)を減算して、正規化ログパワーlogp(n)とすることにより、その正規化ログパワーlogp(n)の平均は、ほぼ0となる。すなわち、フレームパワー計算部44において、フレームログパワーFP(n)の正規化は、その平均を0とするために行われる。
複数フレーム処理部45は、ノイズミックスRmax計算部43からのラグ範囲最大相関Rmax(y(n))と、フレームパワー計算部44からの正規化ログパワーlogp(n)とをまとめて(統合して)、入力信号X(t)の注目フレームの特徴量(統合特徴量)を求める。
すなわち、いま、入力信号X(t)の先頭からn番目のフレームx(n)を、注目フレームということとすると、複数フレーム処理部45は、注目フレームと、その前後の幾つかのフレームのラグ範囲最大相関Rmax(y(n))、及び正規化ログパワーlogp(n)をコンポーネントとするベクトルを、注目フレームの特徴量として求める。
具体的には、複数フレーム処理部45は、例えば、注目フレームのラグ範囲最大相関Rmax(y(n))と、その前後の8フレームそれぞれのラグ範囲最大相関Rmax(y(n))との、合計で17個のラグ範囲最大相関Rmax(y(n))を昇順にソートするとともに、注目フレームの正規化ログパワーlogp(n)と、その前後の8フレームそれぞれの正規化ログパワーlogp(n)との、合計で17個の正規化ログパワーlogp(n)を昇順にソートし、ソート後の17個のラグ範囲最大相関Rmax(y(n))と、ソート後の17個の正規化ログパワーlogp(n)とをコンポーネントとする34次元のベクトルを、注目フレームの特徴量として求める。
そして、複数フレーム処理部45は、注目フレームの特徴量としての34次元のベクトルを、線形判別分析部46に供給する。
線形判別分析部46は、複数フレーム処理部45からのフレームx(n)の特徴量としてのベクトルの次元を圧縮し、識別処理部47に供給する。
すなわち、線形判別分析部46は、複数フレーム処理部45からのフレームx(n)の特徴量としての34次元のベクトルを、例えば、線形判別分析(LDA(Linear Discriminant Analysis))によって、2次元のベクトルに圧縮し、フレームx(n)の特徴量として、識別処理部47に供給する。
識別処理部47は、線形判別分析部46からの特徴量としての2次元のベクトルに基づき、フレームx(n)が、音声区間のフレームであるか、または非音声区間のフレームであるかの識別を行い、その識別結果を、音声区間情報として出力する。
すなわち、識別処理部47は、例えば、音声区間の検出用に学習がされたHMM(Hidden Markov Model)を記憶しており、そのHMMにおいて、線形判別分析部46からの特徴量が観測される尤度に基づき、フレームx(n)が、音声区間のフレームであるか、または非音声区間のフレームであるかの識別を行い、その識別結果を、音声区間情報として出力する。
なお、非特許文献2には、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))ではなく、入力信号X(t)のラグ範囲最大相関Rmax(x(n))と、正規化ログパワーlogP(n)を特徴量とし、5状態のtied-state HMMを用いて、音声区間の検出を行う方法が記載されている。ここでのtied-state HMMとは、音声HMMと非音声HMMとのそれぞれが5状態(state)を持つが、音声HMMと非音声とのそれぞれの5状態が同じ混合ガウス分布(GMM:Gaussian Mixture Model)を共有(tied)するものである。
図5の音声区間検出装置で行われる音声区間の検出は、特徴量として、入力信号X(t)のラグ範囲最大相関Rmax(x(n))に代えて、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が用いられる点と、音声区間の識別に、5状態のtied-state HMMに代えて、tied-stateではない通常の5状態のHMMが用いられる点において、非特許文献2に記載の方法と異なる。
次に、図6ないし図14を参照して、図5の音声区間検出装置を用いて行った音声区間の検出の実験の結果について説明する。
実験では、ソニー株式会社が開発した二足歩行ロボットであるQRIO(R)に採用されているマイクによって得られたアナログの音声信号を、16kHzのサンプリング周波数でサンプリングすることにより、ディジタルの音声信号に変換し、入力信号X(t)として用いた。
さらに、実験では、フレームの長さ(サンプル数)Tを、1024サンプルとして、160サンプルずつシフトしながら、入力信号X(t)から、フレームx(n)を抽出した。
また、実験では、正規化ログパワーlogp(n)を求めるのに用いる平均値FPave(n)を、式FPave(n)=ff×FPave(n-1)+(1-ff)×FP(n)にしたがって求めるのにあたり、忘却係数ffとして、0.99を採用した。
さらに、音声区間の識別に用いるHMMの確率密度関数としては、混合ガウス分布を採用した。また、音声区間用のHMMと、非音声区間用のHMMとを用意するとともに、HMMの学習用の入力信号X(t)を用意し、その学習用の入力信号X(t)から、線形判別分析部46で得られるのと同様の2次元ベクトルを、特徴量として得て、学習用の入力信号X(t)の音声区間から得られた特徴量を、音声区間用のHMMに与えるとともに、学習用の入力信号X(t)の非音声区間から得られた特徴量を、非音声区間用のHMMに与えることによって、音声区間用のHMMと、非音声区間用のHMMとの学習を行った。
また、実験では、実験用の入力信号X(t)に対して、人が、音声区間の開始と終了のフレームをラベリングし、識別処理部47が出力した音声区間情報が表す音声区間と、人が開始と終了のフレームをラベリングした音声区間とを比較することにより、識別処理部47が出力した音声区間情報が表す音声区間の正否を判断した。
具体的には、人がラベリングした音声区間の開始と終了のフレームを、それぞれ、第Tsフレームと、第Teフレームとするとともに、識別処理部47が出力した音声区間情報が表す音声区間の開始と終了のフレームを、それぞれ、第Ssフレームと、第Seフレームとすると、Ssが、式Ts-40<=Ss<=Tsを満たし、かつ、Seが、式Te<=Se<=Te+40を満たす場合に、識別処理部47が出力した音声区間情報が表す音声区間が、正解であるとした。
なお、その他、実験では、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))として、フレームx(n)を含む連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))の最小値を求める関数(以下、適宜、積最小値関数という)の他に、フレームx(n)を含む連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))の平均値を求める関数(以下、適宜、積平均値関数という)と、フレームx(n)を含む連続するNフレームのそれぞれについてのフレームパワーp(n)の最小値を求める関数(以下、適宜、パワー最小値関数という)とを用いた。
また、関数F(p(n),Rmax(x(n)))を定義するNフレームとしては、40フレームを採用した。
図6は、実験において、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
すなわち、図6上半分側は、音楽が流れている環境(音楽環境)で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示しており、図6下半分側は、エアコン(エアコンディショナ)が稼働している環境(エアコン環境)で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図6上半分側の上から1番目は、音楽環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、その入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図6上半分側の上から3番目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図6下半分側も、その上から1番目は、エアコン環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、1番目の入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図6上半分側の上から3番目は、1番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
なお、図6において、縦長の長方形で囲んである部分が、音声区間を表す。後述する図7においても同様である。
図7は、実験において、図6と同様に、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
但し、図6では、ノイズ付加信号Y(t)を求めるのに用いられる式y(n)=x(n)+C×gain(n)×gを定義する定数Cとして、0.4が採用されているのに対して、図7では、定数Cとして、0.2が採用されている。図7のその他の点は、図6と同様である。
図6及び図7の入力信号X(t)のラグ範囲最大相関Rmax(x(n))と、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))とを比較すると、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、音声区間では、入力信号X(t)のラグ範囲最大相関Rmax(x(n))の値を維持し、非音声区間では、入力信号X(t)のラグ範囲最大相関Rmax(x(n))よりも小さい値になっている。
したがって、図3のゲイン計算部16において、入力信号X(t)に付加されるノイズのレベルが、適切に調整され、その結果、ノイズミックス部18において、入力信号X(t)の音声が存在しない部分には、大きなレベルのノイズが付加され、入力信号X(t)の音声が存在する部分には、小さなレベルのノイズが付加されていることが分かる。
図8は、実験において、関数F(p(n),Rmax(x(n)))として、積平均値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
すなわち、図8上半分側は、上述の図6上半分と同様に、音楽環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示しており、図8下半分側は、上述の図6下半分と同様に、エアコン環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
但し、図8では、上述したように、関数F(p(n),Rmax(x(n)))として、積最小値関数ではなく、積平均値関数が採用されている。
図8上半分側の上から1番目は、音楽環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、その入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図8上半分側の上から3番目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図8下半分側も、その上から1番目は、エアコン環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、1番目の入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図8上半分側の上から3番目は、1番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
なお、図8において、縦長の長方形で囲んである部分が、音声区間を表す。後述する図9においても同様である。
図9は、実験において、図8と同様に、関数F(p(n),Rmax(x(n)))として、積平均値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
但し、図8では、ノイズ付加信号Y(t)を求めるのに用いられる式y(n)=x(n)+C×gain(n)×gを定義する定数Cとして、0.1が採用されているのに対して、図9では、定数Cとして、0.05が採用されている。図9のその他の点は、図8と同様である。
図8において、A81で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値になっており、これは、入力信号X(t)に、十分な大きさのノイズが付加されていないことを表す。
また、図8において、A82で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、音声区間であるにもかかわらず、入力信号X(t)のラグ範囲最大相関Rmax(x(n))の値よりも小さくなっており、これは、入力信号X(t)に付加されたノイズのレベルが大きすぎることを表す。
定数Cを大きくすれば、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))の非音声区間での値、すなわち、例えば、図8のA81で示す部分の値を小さくすることができる。しかしながら、定数Cを大きくすると、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))の音声区間での値、すなわち、例えば、図8のA82で示す部分の値は、さらに小さくなる。
一方、定数Cを小さくすることにより、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))の音声区間での値、すなわち、例えば、図8のA82で示す部分の値を大きくして、入力信号X(t)のラグ範囲最大相関Rmax(x(n))の値と同程度にすることができる。
しかしながら、定数Cを小さくすると、定数Cが0.1の図8と、定数Cが0.1より小さい0.05の図9とを比較して分かるように、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))の非音声区間での値を小さくすることができなくなる。
すなわち、定数Cを小さくすると、図9において、A91やA92で示すように、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値に大きくなる。
図10は、実験において、関数F(p(n),Rmax(x(n)))として、パワー最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
すなわち、図10上半分側は、上述の図6上半分と同様に、音楽環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示しており、図10下半分側は、上述の図6下半分と同様に、エアコン環境で集音した音声信号を入力信号X(t)として得られたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
但し、図10では、上述したように、関数F(p(n),Rmax(x(n)))として、積最小値関数ではなく、パワー最小値関数が採用されている。
図10上半分側の上から1番目は、音楽環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、1番目の入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図10上半分側の上から3番目は、1番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図10下半分側も、その上から1番目は、エアコン環境で集音した音声信号、つまり、入力信号X(t)を示しており、その上から2番目は、1番目の入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。そして、図10上半分側の上から3番目は、1番目の入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
なお、図10において、縦長の長方形で囲んである部分が、音声区間を表す。後述する図11及び図12においても同様である。
図11及び図12は、実験において、図10と同様に、関数F(p(n),Rmax(x(n)))として、パワー最小値関数を採用した場合の、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
但し、図10では、ノイズ付加信号Y(t)を求めるのに用いられる式y(n)=x(n)+C×gain(n)×gを定義する定数Cとして、0.2が採用されているのに対して、図11では、定数Cとして、0.1が採用されており、図12では、定数Cとして、0.05が採用されている。
定数Cの大小に関しては、関数F(p(n),Rmax(x(n)))として、パワー最小値関数を採用した図10ないし図12においても、関数F(p(n),Rmax(x(n)))として、積平均値関数を採用した図8及び図9の場合と基本的に同様の傾向がある。
例えば、定数Cが0.2の図10において、A101とA102で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、音声区間であるにもかかわらず、入力信号X(t)のラグ範囲最大相関Rmax(x(n))の値よりも小さくなっており、これは、A101とA102で示す部分については、入力信号X(t)に付加されたノイズのレベルが大きすぎることを表す。
また、定数Cが0.1の図11において、A111で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値になっており、これは、A111で示す部分については、入力信号X(t)に、十分な大きさのノイズが付加されていないことを表す。
さらに、図11において、A112で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、音声区間であるにもかかわらず、入力信号X(t)のラグ範囲最大相関Rmax(x(n))の値よりも小さくなっており、これは、A112で示す部分については、入力信号X(t)に付加されたノイズのレベルが大きすぎることを表す。
また、定数Cが0.05の図12において、A121とA122で示す部分では、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))が、非音声区間であるにもかかわらず、音声区間と同程度の値になっており、これは、A121とA122で示す部分については、入力信号X(t)に、十分な大きさのノイズが付加されていないことを表す。
次に、図13及び図14は、図5の音声区間検出装置を用いた実験において得られた音声区間の正解率を示している。
実験では、音楽環境で集音した音声信号、エアコン環境で集音した音声信号、及びソニー株式会社が開発した二足歩行ロボットであるQRIO(R)が動作している環境(ロボット環境)で集音した音声信号のそれぞれを入力信号X(t)として、定数Cを変えながら、音声区間を検出した。
図13は、音楽環境で集音した音声信号を入力信号X(t)として音声区間を検出した場合に、高い正解率が得られる定数Cを採用したときの正解率を示しており、図14は、エアコン環境で集音した音声信号と、ロボット環境で集音した音声信号とを、それぞれ入力信号X(t)として音声区間を検出した場合に、高い正解率が得られる定数Cを採用したときの正解率を示している。
図13及び図14の1行目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を用いずに、入力信号X(t)のラグ範囲最大相関Rmax(x(n))と正規化ログパワーlogp(n)とのセットを特徴量として、その特徴量を、図5の線形判別分析部46を介して、識別処理部47に与えた場合(以下、適宜、ベースラインの場合という)の、音楽環境、エアコン環境、及びロボット環境で集音した音声信号それぞれについての正解率を示している。
また、図13及び図14の2行目ないし4行目は、入力信号X(t)にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))と、入力信号X(t)の正規化ログパワーlogp(n)とのセットを特徴量として、その特徴量を、図5の線形判別分析部46を介して、識別処理部47に与えた場合(以下、適宜、ノイズレベル調整方式の場合という)の、音楽環境、エアコン環境、及びロボット環境で集音した音声信号それぞれについての正解率を示している。
但し、図13及び図14の2行目ないし4行目のうちの2行目では、関数F(p(n),Rmax(x(n)))として、積最小値関数が採用されており、3行目では、関数F(p(n),Rmax(x(n)))として、積平均値関数が採用されている。また、図13及び図14の2行目ないし4行目のうちの4行目では、関数F(p(n),Rmax(x(n)))として、パワー最小値関数が採用されている。
なお、定数Cを、音楽環境で集音した音声信号に対する正解率が高くなるように調整した図13では、その2行目の、関数F(p(n),Rmax(x(n)))が、積最小値関数である場合の定数Cとして、0.4が採用されている。
また、図13の3行目の、関数F(p(n),Rmax(x(n)))が、積平均値関数である場合の定数Cとして、0.1が採用されており、その4行目の、関数F(p(n),Rmax(x(n)))が、パワー最小値関数である場合の定数Cとして、0.2が採用されている。
一方、定数Cを、エアコン環境やロボット環境で集音した音声信号に対する正解率が高くなるように調整した図14では、その2行目の、関数F(p(n),Rmax(x(n)))が、積最小値関数である場合の定数Cとして、0.2が採用されている。
また、図14の3行目の、関数F(p(n),Rmax(x(n)))が、積平均値関数である場合の定数Cとして、0.025が採用されており、その4行目の、関数F(p(n),Rmax(x(n)))が、パワー最小値関数である場合の定数Cとして、0.05が採用されている。
音楽環境、エアコン環境、及びロボット環境の中では、特に、音楽環境に、周期性の高いノイズ(音楽)が存在する。
このため、ベースラインの場合には、入力信号X(t)のラグ範囲最大相関Rmax(x(n))が、音声区間のみならず、非音声区間でも大きな値となり、その結果、図13及び図14の1行目に示すように、音楽環境で集音した音声信号に対する正解率が、他のエアコン環境やロボット環境で集音した音声信号に対する正解率よりも著しく低くなっている。
すなわち、ベースラインの場合では、図13及び図14の1行目に示すように、ロボット環境で集音した音声信号に対する正解率が94.63%で、エアコン環境で集音した音声信号に対する正解率が93.12%であり、高い正解率であるのに対して、音楽環境で集音した音声信号に対する正解率は、8.75%と著しく低い正解率になっている。
また、定数Cを、音楽環境で集音した音声信号に対する正解率が高くなるように調整した図13のノイズレベル調整方式の場合においては、図13の2行目ないし4行目に示すように、音楽環境で集音した音声信号に対する正解率は、関数F(p(n),Rmax(x(n)))として、積最小値関数、積平均値関数、又はパワー最小値関数が採用されたときに、それぞれ、45.00%,46.25%、又は45.00%であり、いずれも、ベースラインの場合の正解率である8.75%から飛躍的に向上している。
また、図13の2行目ないし4行目のノイズレベル調整方式の場合では、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、図13の2行目に示すように94.12%であり、ベースラインの場合のロボット環境で集音した音声信号に対する正解率(94.63%)と同程度になっている。
さらに、図13のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率は、図13の2行目に示すように96.25%であり、ベースラインの場合のエアコン環境で集音した音声信号に対する正解率(93.12%)よりも向上している。
但し、図13のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、それぞれ、図13の3行目と4行目に示すように84.94%と89.80%であり、2行目に示した、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの正解率(94.12%)と比較して、多少低下している。
さらに、図13のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率も、それぞれ、図13の3行目と4行目に示すように88.12%と93.12%であり、2行目に示した、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの正解率(96.25%)と比較して、多少低下している。
一方、定数Cを、ロボット環境やエアコン環境で集音した音声信号に対する正解率が高くなるように調整した図14のノイズレベル調整方式の場合においては、図14の2行目ないし4行目に示すように、音楽環境で集音した音声信号に対する正解率は、関数F(p(n),Rmax(x(n)))として、積最小値関数、積平均値関数、又はパワー最小値関数が採用されたときに、それぞれ、42.50%,17.50%、又は13.75%であり、いずれも、ベースラインの場合の正解率である8.75%から向上している。
但し、図14のノイズレベル調整方式の場合において、音楽環境で集音した音声信号に対する正解率は、関数F(p(n),Rmax(x(n)))として、積最小値関数が採用されたときには、42.50%であり、関数F(p(n),Rmax(x(n)))として、積平均値関数が採用されたとき(17.50%)や、パワー最小値関数が採用されたとき(13.75%)と比較して、著しく向上している。
また、図14の2行目ないし4行目のノイズレベル調整方式の場合では、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、図14の2行目に示すように94.78%であり、ベースラインの場合のロボット環境で集音した音声信号に対する正解率(94.63%)と同程度になっている。
さらに、図14のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率は、、図14の2行目に示すように96.25%であり、ベースラインの場合のエアコン環境で集音した音声信号に対する正解率(93.12%)よりも向上している。
また、図14のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、ロボット環境で集音した音声信号に対する正解率は、それぞれ、図14の3行目と4行目に示すように94.84%と93.98%であり、2行目に示した、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの正解率(94.78%)と同程度になっている。
さらに、図14のノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときの、エアコン環境で集音した音声信号に対する正解率も、それぞれ、図14の3行目と4行目に示すように93.12%と96.25%であり、2行目に示した、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときの正解率(96.25%)と同程度になっている。
以上のように、ノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときには、定数Cを、例えば、音楽環境といった特定の環境に適した値に固定すると、その特定の環境(例えば、音楽環境)で集音した音声信号に対する正解率は高くなるが、例えば、ロボット環境やエアコン環境などの別の環境で集音した音声信号に対する正解率は低くなる。したがって、関数F(p(n),Rmax(x(n)))として、積平均値関数、又はパワー最小値関数を採用したときには、入力信号X(t)としての音声信号に含まれるノイズの種類によって、正解率が比較的変動するので、ノイズロバストネス(noise robustness)が低いということができる。
一方、ノイズレベル調整方式の場合において、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときには、定数Cを、特定の環境に適した値に固定しても、音楽環境、ロボット環境、又はエアコン環境のうちのいずれの環境で集音した音声信号に対する正解率も、高い値を維持することができる。したがって、関数F(p(n),Rmax(x(n)))として、積最小値関数を採用したときには、入力信号X(t)としての音声信号に含まれているノイズの種類によらず、高い正解率を得ることができる。
ここで、積最小値関数は、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))のうちの最小値を求める関数であり、積平均値関数は、連続するNフレームのそれぞれについての積p(n)×Rmax(x(n))の平均値を求める関数であるから、積p(n)×Rmax(x(n))の最小値を用いる場合には、その積p(n)×Rmax(x(n))の平均値を用いる場合に比較して、例えば、音声区間の検出において高い正解率が得られるといったように、効果的であるいうことができる。
また、積最小値関数は、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))の最小値を求める関数であり、パワー最小値関数は、連続するNフレームのそれぞれについてのフレームパワーp(n)の最小値を求める関数であるから、フレームパワーp(n)のみならず、ラグ範囲最大相関Rmax(x(n))を用いる場合には、フレームパワーp(n)だけを用いる場合に比較して、やはり、例えば、音声区間の検出において高い正解率が得られるといったように、効果的であるいうことができる。
なお、入力信号X(t)としての音声信号にノイズを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を、音声信号の特徴量として用いて行う音声処理は、音声区間の検出に限られるものではない。すなわち、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、例えば、音声認識や、韻律認識、さらには、非特許文献7に記載されているような基本周波数の検出(ピッチの検出)等の音声処理において、音声信号の特徴量として用いることができる。
以上のように、入力信号X(t)の自己相関としてのラグ範囲自己相関Rmax(x(n))と、パワーとしてのフレームパワーp(n)とに基づき、入力信号X(t)に付加するノイズgの大きさを表すゲイン情報としてのゲインgain(n)を求め、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)の自己相関としてのラグ範囲自己相関Rmax(y(n))を、入力信号X(t)の特徴量として求めるノイズミックスRmax計算処理によれば、入力信号X(t)の周期性がある区間、すなわち、例えば、特に、有声音等の音声区間を精度良く検出すること等ができる自己相関としてのラグ範囲自己相関Rmax(y(n))を求めることができる。
また、例えば、前述した非特許文献6に記載の方法では、第1段階の処理として、入力信号の自己相関を用いた特徴量を求め、その特徴量に基づき入力信号全体に対して、大まかに、音声区間と非音声区間の判定を行い、非音声区間と判定された区間の入力信号の分散を利用して、入力信号に付加するガウスノイズのレベルの決定を行い、第2段階の処理として、入力信号に、第1段階の処理で決定したレベルのガウスノイズを付加したノイズ付加信号の自己相関を用いた特徴量として、ラグ範囲最大相関を求める。
すなわち、非特許文献6に記載の方法では、第1段階の処理において、入力信号全体を処理して入力信号の自己相関を求め、入力信号に付加するガウスノイズのレベルを決定する。
したがって、非特許文献6に記載の方法では、入力信号全体を処理してその自己相関を求めるまでは、第2段階の処理によって特徴量を求めることができないため、特徴量を求めるまでに、大きな時間遅れが生じる。そして、特徴量を用いて行われる、例えば、音声認識や音声区間の検出等の音声処理には、一般に、実時間性が要求されるため、大きな時間遅れが生じることは、好ましくない。
一方、ノイズミックスRmax計算処理では、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))によって、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))のうちの最小値を求めるときに、そのNフレーム分の遅延が生じるが、入力信号X(t)全体を処理するような大きな時間遅れは生じないので、音声認識や音声区間の検出等の実時間性が要求される音声処理に用いられる特徴量を求める処理として、ノイズミックスRmax計算処理を採用しても、実時間性にほとんど影響しない。
また、非特許文献6に記載の方法は、第1段階の処理において、入力信号全体から、入力信号に付加するガウスノイズのレベルを決定するので、入力信号に含まれる音声成分や周期ノイズのレベルが時間とともに変化する入力信号の処理には不向きである。
これに対して、ノイズミックスRmax計算処理によれば、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))によって、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))のうちの最小値を求めるときに、そのNフレームの区間が参照されるだけなので、入力信号に含まれる音声成分や周期ノイズのレベルが時間とともに変化する入力信号についても、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関Rmax(y(n))を求めることができる。
以上、周期性を表す周期性情報として自己相関を用いた場合について説明したが、YIN等を用いても同様の処理が可能である。
次に、上述したように、ノイズミックスRmax計算処理では、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)のラグ範囲自己相関Rmax(y(n))が求められるが、入力信号X(t)に付加するノイズとしての、例えば、ガウスノイズには、その特性にばらつきがある。
そして、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関Rmax(y(n))を求めるには、入力信号X(t)に付加するガウスノイズとして、適切な特性のガウスノイズを採用することが重要である。
すなわち、図3のガウスノイズ生成部17では、入力信号X(t)に付加するガウスノイズとして、入力信号X(t)のフレーム長Tと同一のサンプル数Tのガウスノイズgが生成されるが、いま、サンプル数Tのガウスノイズgの正規化自己相関R(g,τ)の、基本周波数範囲に相当するラグτの範囲での最大値Rmax(g)である、ガウスノイズgのラグ範囲最大相関Rmax(g)は、0に近い値であることが望ましい。
つまり、ラグ範囲自己相関Rmax(y(n))が、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関Rmax(y(n))であるためには、ラグ範囲自己相関Rmax(y(n))が、非音声区間において、0に近い値(理想的には、0)となる必要がある。
ラグ範囲自己相関Rmax(y(n))が、非音声区間において、0に近い値となるには、入力信号X(t)に付加するガウスノイズgのラグ範囲最大相関Rmax(g)が、0に近い値でなければならない。
しかしながら、ガウスノイズgのサンプル数Tが十分大である場合には、ガウスノイズgのラグ範囲最大相関Rmax(g)は0に近い値となるが、ガウスノイズgのサンプル数Tが十分大でない場合には、ガウスノイズgのラグ範囲最大相関Rmax(g)は、その値にばらつきが生じ、0に近い値にならないことがある。
ここで、図15は、ガウスノイズgのラグ範囲最大相関Rmax(g)を示している。
すなわち、図15は、サンプル数Tが1024の、異なる時系列のガウスノイズgを1000回生成し、その結果得られた1000個のガウスノイズgのラグ範囲最大相関Rmax(g)を昇順に並べたものを示している。
なお、図15において、横軸は、1000個のガウスノイズgのラグ範囲最大相関Rmax(g)を昇順に並べたときの順位を表し、縦軸は、ガウスノイズgのラグ範囲最大相関Rmax(g)を表す。
1000個のガウスノイズgそれぞれのラグ範囲最大相関Rmax(g)は、0.07ないし0.2程度の範囲に分布しており、ばらつきがあることが分かる。
図16及び図17は、1000個のガウスノイズgのうちの、ラグ範囲最大相関Rmax(g)が最大のガウスノイズgmaxを入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))と、ラグ範囲最大相関Rmax(g)が最小のガウスノイズgminを入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))とを示している。
なお、図16及び図17において、横軸は、時間(横軸の1単位は0.01秒に相当する)を表す。また、図16及び図17において、縦長の長方形で囲んである部分が、音声区間を表す。
図16上から1番目は、入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。
図16上から2番目は、上述の1000個のガウスノイズgのうちの、ラグ範囲最大相関Rmax(g)が最大(ここでは、図15で説明した0.2)のガウスノイズgmaxを、1番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示しており、図16上から3番目は、ラグ範囲最大相関Rmax(g)が最小(ここでは、図15で説明した0.07)のガウスノイズgminを、1番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図17上から1番目は、図16とは異なる入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示している。
図17上から2番目は、図16上から2番目と同様に、ラグ範囲最大相関Rmax(g)が最大のガウスノイズgmaxを、1番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示しており、図17上から3番目は、図16上から3番目と同様に、ラグ範囲最大相関Rmax(g)が最小のガウスノイズgminを、1番目に示した入力信号X(t)に付加して得られるノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図16及び図17から、入力信号X(t)に付加するガウスノイズgのラグ範囲最大相関Rmax(g)が、入力信号x(t)にガウスノイズgを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))に大きく影響することが分かる。
すなわち、入力信号X(t)に、ラグ範囲最大相関Rmax(g)が最大のガウスノイズgmaxを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、図16及び図17の上から2番目に示すように、非音声区間で、0.2程度と大になる。
これに対して、入力信号X(t)に、ラグ範囲最大相関Rmax(g)が最小のガウスノイズgminを付加したノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、図16及び図17の上から3番目に示すように、非音声区間で、0.07程度と小になる。
したがって、入力信号X(t)に対しては、ラグ範囲最大相関Rmax(g)がより小さいガウスノイズgを付加することにより、非音声区間で値が小さくなる、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))、すなわち、入力信号X(t)の周期性がある区間を精度良く検出すること等ができるラグ範囲自己相関Rmax(y(n))を求めることができる。
そこで、図3のガウスノイズ生成部17では、ラグ範囲最大相関Rmax(g)がより小さいガウスノイズgを、ノイズミックス部18に供給させるようにすることができる。
すなわち、図18は、ラグ範囲最大相関Rmax(g)がより小さいガウスノイズgを、ノイズミックス部18に供給するガウスノイズ生成部17の構成例を示している。
ノイズ生成部71は、サンプル数がフレーム長Tに等しく、複数であるM個の、異なる時系列のガウスノイズg(1),g(2),・・・,g(M)を生成し、正規化自己相関計算部72とノイズ選択部74に供給する。
正規化自己相関計算部72は、ノイズ生成部71から供給されるM個のガウスノイズg(m)それぞれについて(m=1,2,・・・,M)、正規化自己相関R(g(m),τ)を求め、Rmax計算部73に供給する。
Rmax計算部73は、正規化自己相関計算部72から供給される、M個のガウスノイズg(m)の正規化自己相関R(g(m),τ)それぞれについて、基本周波数範囲に相当するラグτの範囲での最大値であるラグ範囲最大相関Rmax(g(m))を求め、ノイズ選択部74に供給する。
ノイズ選択部74は、ノイズ生成部71から供給されるM個のガウスノイズg(m)の中から、その自己相関としての、Rmax計算部73から供給されるラグ範囲最大相関Rmax(g(m))が最小のガウスノイズを選択し、入力信号X(t)に付加するガウスノイズgとして、ノイズミックス部18(図3)に供給する。
次に、図19のフローチャートを参照して、図18に示した構成の図3のガウスノイズ生成部17が、図4のステップS12で行う処理について説明する。
ステップS51において、ノイズ生成部71は、M個のガウスノイズg(m)を生成し、正規化自己相関計算部72とノイズ選択部74に供給して、ステップS52に進む。
ステップS52では、正規化自己相関計算部72は、ノイズ生成部71からのM個のガウスノイズg(m)それぞれについて、正規化自己相関R(g(m),τ)を求め、Rmax計算部73に供給して、ステップS53に進む。
ステップS53では、Rmax計算部73は、正規化自己相関計算部72からのM個のガウスノイズg(m)の正規化自己相関R(g(m),τ)それぞれのラグ範囲最大相関Rmax(g(m))を求め、ノイズ選択部74に供給して、ステップS54に進む。
ステップS54では、ノイズ選択部74は、ノイズ生成部71からのM個のガウスノイズg(m)の中から、Rmax計算部73からのラグ範囲最大相関Rmax(g(m))が最小のガウスノイズを選択し、入力信号X(t)に付加するガウスノイズgとして、ノイズミックス部18(図3)に供給してリターンする。
なお、ガウスノイズ生成部17では、ステップS51ないしS54の処理を一度行えば良く、その後は、ステップS54で選択したガウスノイズgを、ノイズミックス部18に供給するようにすれば良い。
また、図18及び図19では、ガウスノイズg(m)のラグ範囲最大相関Rmax(g(m))に基づいて、M個のガウスノイズg(m)の中から、ノイズミックス部18に供給するガウスノイズgを選択するようにしたが、M個のガウスノイズg(m)の中からの、ノイズミックス部18に供給するガウスノイズgの選択は、その他、例えば、入力信号X(t)にM個のガウスノイズg(m)それぞれを付加したM個のノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))に基づいて行うことが可能である。
すなわち、例えば、ノイズミックス部18に供給するガウスノイズgを選択するのに用いる選択用の入力信号X(t)を、あらかじめ用意しておき、その選択用の入力信号X(t)に、M個のガウスノイズg(m)をそれぞれ付加したM個のノイズ付加信号Ym(t)それぞれについて、M個のラグ範囲最大相関Rmax(ym(n))を求める。
そして、そのM個のノイズ付加信号Ym(t)のラグ範囲最大相関Rmax(ym(n))それぞれに基づき、選択用の入力信号X(t)について、音声区間の検出を行い、M個のガウスノイズg(m)の中から、正解率が最も高いラグ範囲最大相関Rmax(ym(n))が求められたノイズ付加信号Ym(t)に付加されたガウスノイズg(m)を、ノイズミックス部18に供給するガウスノイズgとして選択することができる。
次に、図3の信号処理装置で行われるノイズミックスRmax計算処理では、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))として、連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))のうちの最小値を求める積最小値関数や、その積p(n)×Rmax(x(n))の平均値を求める積平均値関数を採用した場合には、正規化自己相関計算部13において、入力信号X(t)の正規化自己相関R(x(n),τ)を求め、さらに、正規化自己相関計算部19において、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)を求める必要があるから、自己相関の計算を2回行う必要がある。
このように、ノイズミックスRmax計算処理では、処理を、いわば忠実に行う場合には、自己相関の計算を2回行う必要があるが、近似を行うことにより、自己相関の計算を1回で済まし、これにより、計算量を低減することができる。
すなわち、入力信号X(t)のn番目のフレームx(n)のラグ範囲最大相関Rmax(x(n))は、次式で求められる。
Figure 0004182444
・・・(2)
ここで、式(2)において、R'(x(n),τ)は、フレームx(n)の正規化前自己相関であり、R'(x(n),0)は、ラグτが0のときの正規化前自己相関であるから、R'(x(n),τ)/R'(x(n),0)は、フレームx(n)の正規化自己相関である。
さらに、式(2)において、ラグτが下にあるargmax{}は、基本周波数範囲に相当するラグτの範囲での、かっこ{}内の最大値を表す。
また、ノイズ付加信号Y(t)のn番目のフレームy(n)のラグ範囲最大相関Rmax(y(n))は、フレームy(n)の正規化前自己相関R'(y(n),τ)と、ラグτが0のときの正規化前自己相関R'(y(n),0)とを用いて、上述の式(2)と同様の次式で求められる。
Figure 0004182444
・・・(3)
ところで、図3のノイズミックス部18において、ノイズ付加信号Y(t)のフレームy(n)を得るために、入力信号X(t)のフレームx(n)に付加される、フレーム長Tと同一のサンプル数Tのノイズを、g(n)と表すと、ノイズ付加信号Y(t)のフレームy(n)は、式y(n)=x(n)+g(n)で表される。
さらに、フレーム長がTのフレームx(n)の先頭のサンプル値を、x[t]と表すと、フレームx(n)の、例えば、最後のサンプル値は、x[t+T-1]と表すことができる。同様に、サンプル数がTのノイズg(n)の先頭のサンプル値を、g[t]と表すと、ノイズg(n)の、例えば、最後のサンプル値は、g[t+T-1]と表すことができる。
この場合、式(3)右辺における正規化前自己相関R'(y(n),τ)は、式(4)で表される。
Figure 0004182444
・・・(4)
ここで、式(2)及び式(3)のargmax{}を求めるにあたって用いられる基本周波数範囲に相当するラグτの範囲は大きいので、式(4)右辺の2行目の第2項である、ノイズg(n)の正規化前自己相関R'(g(n),τ)は、0に近似することができる。
また、ノイズg(n)と入力信号X(t)のフレームx(n)との間に、相関はない(と仮定することができる)ので、式(4)右辺の2行目の第3項の、ノイズg(n)とフレームx(n)との相互相関(1/T)Σ{x[i]g[i+τ]+x[i+τ]g(i)}は、0に近似することができる。
したがって、式(4)左辺の正規化前自己相関R'(y(n),τ)は、式R'(y(n),τ)=R'(x(n),τ)で近似することができる。すなわち、ノイズ付加信号Y(t)のフレームy(n)の正規化前自己相関R'(y(n),τ)は、入力信号X(t)のフレームx(n)の正規化前自己相関R'(x(n),τ)で近似することができる。
以上のように、ノイズ付加信号Y(t)のフレームy(n)の正規化前自己相関R'(y(n),τ)を、入力信号X(t)のフレームx(n)の正規化前自己相関R'(x(n),τ)で近似することにより、ノイズ付加信号Y(t)のフレームy(n)の正規化自己相関R(y(n),τ)、つまり、式(3)右辺のargmax{}内の正規化自己相関R'(y(n),τ)/R'(y(n),0)(=R'(y(n),τ)/R'(x(n)+g(n),0))は、次式で表される。
Figure 0004182444
・・・(5)
上述したように、ノイズg(n)と入力信号X(t)のフレームx(n)との間に、相関はないので、式(5)右辺の2行目の分母における第3項の、ノイズg(n)とフレームx(n)との相互相関(1/T)Σ{x[i]g[i+τ]+x[i+τ]g(i)}は、0に近似することができる。
この場合、式(5)のノイズ付加信号Y(t)のフレームy(n)の正規化自己相関R(y(n),τ)は、式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}で近似することができる。
この式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}における分母にあるR'(g(n),0)は、ラグτが0のときのノイズg(n)の正規化前自己相関であるが、このラグτが0のときの正規化前自己相関R'(g(n),0)は、ノイズg(n)の各サンプル値の自乗の総和(自乗パワー)に等しいので、ノイズg(n)の正規化前自己相関R'(g(n),τ)を計算しなくても求めることができる。
以上のように、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)は、式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}で近似することができ、この式R(y(n),τ)=R'(x(n),τ)/{R'(x(n),0)+R'(g(n),0)}を、式(3)のargmax{}のかっこ{}内のR'(y(n),τ)/R'(y(n),0)、つまり、正規化自己相関R(y(n),τ)に代入することにより、式(3)のノイズ付加信号Y(t)のフレームy(n)のラグ範囲最大相関Rmax(y(n))は、式Rmax(y(n))=Rmax(x(n))/{R'(x(n),0)+R'(g(n),0)}にしたがい、入力信号X(t)のフレームx(n)のラグ範囲最大相関Rmax(x(n))、フレームx(n)の自乗パワーに等しいラグτが0のときの正規化前自己相関R'(x(n),0)、及びノイズg(n)の自乗パワーに等しいラグτが0のときの正規化前自己相関R'(g(n),0)から求めることができる。
すなわち、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、ノイズg(n)の自己相関、及び入力信号X(t)とノイズg(n)との相互相関が0であると近似することにより、入力信号X(t)の自己相関としてのラグ範囲最大相関Rmax(x(n))、及びラグτが0のときの正規化前自己相関R'(x(n),0)、並びにラグが0のノイズg(n)の自己相関としてのラグτが0のときの正規化前自己相関R'(g(n),0)とを用い、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)を計算せずに求めることができる。
いま、上述のように、近似によって、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求めるノイズミックスRmax計算処理を、近似ノイズミックスRmax計算処理ということとすると、近似ノイズミックスRmax計算処理では、自己相関の計算としては、ノイズ付加信号Y(t)の正規化自己相関R(y(n),τ)の計算を行う必要がなく、入力信号X(t)の正規化自己相関R(x(n),τ)の計算だけを行えば良いので、計算量を低減することができる。
ここで、図3の信号処理装置によって行われるノイズミックスRmax計算処理を、近似ノイズミックスRmax計算処理と区別するために、以下、適宜、通常ノイズミックスRmax計算処理という。
図20は、近似ノイズミックスRmax計算処理によって、入力信号X(t)の特徴量としての、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求める信号処理装置の一実施の形態の構成例を示している。
なお、図中、図3の信号処理装置と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。すなわち、図20の信号処理装置は、ガウスノイズ生成部17に代えて、ガウスノイズパワー計算部91が設けられているとともに、Rmax計算部20に代えて、Rmax近似計算部92が設けられ、ノイズミックス部18及び正規化自己相関計算部19が設けられていない他は、図3の信号処理装置と同様に構成されている。
また、図20の信号処理装置では、正規化自己相関計算部13、Rmax計算部14、フレームパワー計算部15、ゲイン計算部16、ガウスノイズパワー計算部91、及びRmax近似計算部92が、ノイズミックスRmax計算処理としての近似ノイズミックスRmax計算処理を行うノイズミックスRmax計算部を構成する。
ガウスノイズパワー計算部91は、例えば、図3のガウスノイズ生成部17と同様にして、入力信号X(t)に付加する、サンプル数がTのノイズgを生成し、そのノイズgについて、ラグτが0のときの正規化前自己相関R'(g,0)、つまり、ノイズgの各サンプル値の自乗の総和である自乗パワーを求め、Rmax近似計算部92に供給する。
Rmax近似計算部92には、上述したように、ガウスノイズパワー計算部91から、ノイズgについての、ラグτが0のときの正規化前自己相関R'(g,0)に等しい自乗パワーが供給される他、Rmax計算部14から、入力信号X(t)のフレームx(n)のラグ範囲最大自己相関Rmax(x(n))が供給されるとともに、ゲイン計算部16から、ゲインgain(n)が供給される。
さらに、Rmax近似計算部92には、フレームパワー計算部15から、入力信号X(t)のフレームx(n)のフレームパワーp(n)、すなわち、入力信号X(t)のフレームx(n)についての、ラグτが0のときの正規化前自己相関R'(x(n),0)に等しい自乗パワーが供給される。
Rmax近似計算部92は、Rmax計算部14からの入力信号X(t)のフレームx(n)のラグ範囲最大自己相関Rmax(x(n))、フレームパワー計算部15からの入力信号X(t)のフレームx(n)についてのラグτが0のときの正規化前自己相関R'(x(n),0)、ゲイン計算部16からのゲインgain(n)、及びガウスノイズパワー計算部91からの、ノイズgについてのラグτが0のときの正規化前自己相関R'(g,0)を用い、上述の式Rmax(y(n))=Rmax(x(n))/{R'(x(n),0)+R'(g(n),0)}に相当する式Rmax(x(n))/{R'(x(n),0)+{C×gain(n)}2×R'(g,0)}にしたがい、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)のラグ範囲自己相関Rmax(y(n))を求める。
次に、図21のフローチャートを参照して、図20の信号処理装置の動作について説明する。
図20の信号処理装置では、ステップS91,S93ないしS96において、図4のステップS11,S13ないしS16とそれぞれ同様の処理が行われる。
これにより、Rmax計算部14では、入力信号X(t)のフレームx(n)のラグ範囲最大相関Rmax(x(n))が求められ、フレームパワー計算部15では、入力信号X(t)のフレームパワーp(n)が求められる。また、ゲイン計算部16では、ゲインgain(n)が求められる。
そして、Rmax計算部14において求められた入力信号X(t)のフレームx(n)のラグ範囲最大相関Rmax(x(n))、フレームパワー計算部15において求められた入力信号X(t)のフレームx(n)のフレームパワーp(n)、及び、ゲイン計算部16で求められたゲインgain(n)が、Rmax近似計算部92に供給される。
一方、ステップS92において、ガウスノイズパワー計算部91は、1フレームのサンプル数と同一のTサンプルのノイズgとして、例えばガウスノイズを生成し、そのノイズgについて、ラグτが0のときの正規化前自己相関R'(g,0)、つまり、ノイズgの自乗パワーを求め、Rmax近似計算部92に供給する。
そして、ステップS97において、Rmax近似計算部92は、Rmax計算部14からの入力信号X(t)のフレームx(n)のラグ範囲最大自己相関Rmax(x(n))、フレームパワー計算部15からの入力信号X(t)のフレームx(n)についてのラグτが0のときの正規化前自己相関R'(x(n),0)に等しいフレームパワーp(n)、ゲイン計算部16からのゲインgain(n)、及びガウスノイズパワー計算部91からの、ノイズgについてのラグτが0のときの正規化前自己相関R'(g,0)に等しい自乗パワーを用い、式Rmax(y(n))=Rmax(x(n))/{R'(x(n),0)+{C×gain(n)}2×R'(g,0)}にしたがい、入力信号X(t)に、ゲインgain(n)に応じた大きさのノイズC×gain(n)×gを付加したノイズ付加信号Y(t)のラグ範囲自己相関Rmax(y(n))を求める。
さらに、Rmax近似計算部92は、ステップS98において、ステップS97で求めたラグ範囲最大相関Rmax(y(n))を、入力信号X(t)のフレームx(n)から抽出された特徴量として出力する。
次に、図22ないし図25は、近似ノイズミックスRmax計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
なお、図22ないし図25において、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))を定義するNフレームとしては、40フレームを採用し、ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を求めるのに用いる定数Cとしては、0.2を採用した。
また、図22ないし図25において、矩形で囲んである部分は、音声区間を表している。
図22ないし図25それぞれの上から1番目は、入力信号X(t)としての音声信号を示している。
なお、図22の入力信号X(t)としての音声信号は、音楽環境で集音した音声信号であり、図23の入力信号X(t)としての音声信号は、エアコン環境で集音した音声信号である。また、図24の入力信号X(t)としての音声信号は、ソニー株式会社が開発した二足歩行ロボットであるQRIO(R)が歩行動作をしている環境で集音した音声信号であり、図25の入力信号X(t)としての音声信号は、QRIO(R)が高速でダンスをしている環境で集音した音声信号である。
図22ないし図25それぞれの上から2番目は、1番目に示した入力信号X(t)のラグ範囲最大相関Rmax(x(n))を示しており、上から3番目は、1番目に示した入力信号X(t)から、通常ノイズミックスRmax計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
さらに、図22ないし図25それぞれの上から4番目は、1番目に示した入力信号X(t)から、近似ノイズミックスRmax計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示している。
図22ないし図25それぞれの上から4番目の、近似ノイズミックスRmax計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))は、上から3番目の、通常ノイズミックスRmax計算処理によって求められたノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))とほぼ一致しており、したがって、近似ノイズミックスRmax計算処理が有効であることが分かる。
なお、ゲインgain(n)を求める関数F(p(n),Rmax(x(n)))としては、フレームx(n)を含む連続するNフレームのそれぞれについての、フレームパワーp(n)とラグ範囲最大相関Rmax(x(n))との積p(n)×Rmax(x(n))の最小値や、平均値を求める関数の他、その積p(n)×Rmax(x(n))の、例えばメディアン等を求める関数を採用することが可能である。
次に、上述したノイズミックスRmax計算処理等の一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図26は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部107が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
すなわち、本実施の形態では、周期性を表す周期性情報として、自己相関を採用した場合について説明したが、周期性情報としては、その他、例えば、YINを採用することができる。そして、周期性情報として、YINを採用する場合には、上述の正規化自己相関に代えて1-YINを使用するか、又は、正規化自己相関の最大値をYINの最小値に、正規化自己相関の最小値をYINの最大値に、それぞれ読み替えればよい。
音声信号を示す波形図である。 音声信号を処理して得られる情報を示す図である。 本発明を適用した信号処理装置の一実施の形態の構成例を示すブロック図である。 信号処理装置の動作を説明するフローチャートである。 本発明を適用した音声区間検出装置の一実施の形態の構成例を示すブロック図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 実験において得られた音声区間の正解率を示す図である。 実験において得られた音声区間の正解率を示す図である。 ガウスノイズgのラグ範囲最大相関Rmax(g)の分布を示す図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ガウスノイズ生成部17の構成例を示すブロック図である。 ガウスノイズ生成部17の処理を説明するフローチャートである。 本発明を適用した信号処理装置の他の実施の形態の構成例を示すブロック図である。 信号処理装置の動作を説明するフローチャートである。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 ノイズ付加信号Y(t)のラグ範囲最大相関Rmax(y(n))を示す波形図である。 本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
符号の説明
11 音響信号変換部, 12 フレーム処理部, 13 正規化自己相関計算部, 14 Rmax計算部, 15 フレームパワー計算部, 16 ゲイン計算部, 17 ガウスノイズ生成部, 18 ノイズミックス部, 19 正規化自己相関計算部, 20 Rmax計算部, 41 音響信号変換部, 42 フレーム処理部, 43 ノイズミックスRmax計算部, 44 フレームパワー計算部, 45 複数フレーム処理部, 46 線形判別分析部, 47 識別処理部, 71 ノイズ生成部, 72 正規化自己相関計算部, 73 Rmax計算部, 74 ノイズ選択部, 91 ガウスノイズパワー計算部, 92 Rmax近似計算部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (12)

  1. 入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値を、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が0または0に近い値となるノイズの大きさを表すゲイン情報として求めるゲイン計算手段と、
    前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報を、前記入力信号の特徴量として求める特徴量計算手段と
    を備える信号処理装置。
  2. 前記ノイズは、ガウスノイズである
    請求項1に記載の信号処理装置。
  3. 前記特定の周波数の範囲は、人の音声の基本周波数の範囲である
    請求項1に記載の信号処理装置。
  4. 複数のノイズを生成するノイズ生成手段と、
    前記ノイズの周期性情報に基づいて、前記複数のノイズの中から、前記入力信号に付加する前記ノイズを選択するノイズ選択手段と
    をさらに備える
    請求項1に記載の信号処理装置。
  5. 前記ノイズ選択手段は、前記ノイズの正規化された自己相関の、特定の周波数の範囲に相当するラグの範囲内での最大値に基づいて、前記複数のノイズの中から、前記入力信号に付加する前記ノイズを選択する
    請求項4に記載の信号処理装置。
  6. 前記特徴量計算手段は、前記ノイズの自己相関、及び前記入力信号と前記ノイズとの相互相関が0であると近似し、前記入力信号の自己相関と、ラグが0の前記ノイズの自己相関とを用いて、前記ノイズ付加信号の正規化された自己相関の近似値を、前記入力信号の特徴量として求める
    請求項1に記載の信号処理装置。
  7. 前記入力信号の特徴量に基づき、所定の処理を行う処理手段をさらに備える
    請求項1に記載の信号処理装置。
  8. 前記特徴量計算手段は、前記入力信号の特徴量を、一定の時間長のフレームごとに求め、
    複数のフレームの前記特徴量をまとめた複数次元の統合特徴量を求める複数フレーム処理手段をさらに備え、
    前記処理手段は、前記統合特徴量に基づき、所定の処理を行う
    請求項7に記載の信号処理装置。
  9. 前記統合特徴量の次元を、線形判別分析によって圧縮する線形判別分析手段をさらに備え、
    前記処理手段は、次元が圧縮された前記統合特徴量に基づき、所定の処理を行う
    請求項8に記載の信号処理装置。
  10. 前記入力信号は、音声信号であり、
    前記処理手段は、前記音声信号の特徴量に基づき、音声区間の検出、音声認識、韻律認識、又は基本周波数の検出を行う
    請求項7に記載の信号処理装置。
  11. 入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値を、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が0または0に近い値となるノイズの大きさを表すゲイン情報として求め、
    前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報を、前記入力信号の特徴量として求める
    ステップを含む信号処理方法。
  12. 入力信号の正規化された自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値と、前記入力信号のパワーの積の、一定時間内での最小値、メディアン、又は平均値を、前記入力信号に付加する、自己相関の特定の周波数の範囲に相当するラグの範囲内での最大値が0または0に近い値となるノイズの大きさを表すゲイン情報として求め、
    前記入力信号に、前記ゲイン情報に応じた大きさの前記ノイズを付加したノイズ付加信号の周期性情報を、前記入力信号の特徴量として求める
    ステップを含む信号処理を、コンピュータに実行させるプログラム。
JP2006160578A 2006-06-09 2006-06-09 信号処理装置、信号処理方法、及びプログラム Expired - Fee Related JP4182444B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006160578A JP4182444B2 (ja) 2006-06-09 2006-06-09 信号処理装置、信号処理方法、及びプログラム
US11/760,095 US7908137B2 (en) 2006-06-09 2007-06-08 Signal processing device, signal processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006160578A JP4182444B2 (ja) 2006-06-09 2006-06-09 信号処理装置、信号処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2007328228A JP2007328228A (ja) 2007-12-20
JP4182444B2 true JP4182444B2 (ja) 2008-11-19

Family

ID=38928725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006160578A Expired - Fee Related JP4182444B2 (ja) 2006-06-09 2006-06-09 信号処理装置、信号処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US7908137B2 (ja)
JP (1) JP4182444B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361907B2 (en) 2011-01-18 2016-06-07 Sony Corporation Sound signal processing apparatus, sound signal processing method, and program
US10475440B2 (en) 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source
WO2020208926A1 (ja) 2019-04-08 2020-10-15 ソニー株式会社 信号処理装置、信号処理方法及びプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4182444B2 (ja) * 2006-06-09 2008-11-19 ソニー株式会社 信号処理装置、信号処理方法、及びプログラム
JP5459220B2 (ja) * 2008-11-27 2014-04-02 日本電気株式会社 発話音声検出装置
JP6160519B2 (ja) * 2014-03-07 2017-07-12 株式会社Jvcケンウッド 雑音低減装置
JP6206271B2 (ja) * 2014-03-17 2017-10-04 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法及び雑音低減プログラム
JP6477295B2 (ja) * 2015-06-29 2019-03-06 株式会社Jvcケンウッド 雑音検出装置、雑音検出方法及び雑音検出プログラム
JP6597062B2 (ja) * 2015-08-31 2019-10-30 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法、雑音低減プログラム
US10666416B2 (en) * 2016-04-14 2020-05-26 Ibiquity Digital Corporation Time-alignment measurement for hybrid HD radio technology
US9832007B2 (en) 2016-04-14 2017-11-28 Ibiquity Digital Corporation Time-alignment measurement for hybrid HD radio™ technology

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5823098A (ja) 1981-08-03 1983-02-10 日本電信電話株式会社 音声認識装置
JPH0643892A (ja) 1992-02-18 1994-02-18 Matsushita Electric Ind Co Ltd 音声認識方法
JPH09212196A (ja) 1996-01-31 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置
US6055499A (en) 1998-05-01 2000-04-25 Lucent Technologies Inc. Use of periodicity and jitter for automatic speech recognition
CA2475283A1 (en) * 2003-07-17 2005-01-17 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre Method for recovery of lost speech data
US7869980B2 (en) * 2005-11-03 2011-01-11 International Business Machines Corporation Using statistics to locate signals in noise
JP4182444B2 (ja) * 2006-06-09 2008-11-19 ソニー株式会社 信号処理装置、信号処理方法、及びプログラム
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361907B2 (en) 2011-01-18 2016-06-07 Sony Corporation Sound signal processing apparatus, sound signal processing method, and program
US10475440B2 (en) 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source
WO2020208926A1 (ja) 2019-04-08 2020-10-15 ソニー株式会社 信号処理装置、信号処理方法及びプログラム

Also Published As

Publication number Publication date
JP2007328228A (ja) 2007-12-20
US7908137B2 (en) 2011-03-15
US20080015853A1 (en) 2008-01-17

Similar Documents

Publication Publication Date Title
JP4182444B2 (ja) 信号処理装置、信号処理方法、及びプログラム
US9830896B2 (en) Audio processing method and audio processing apparatus, and training method
US7039582B2 (en) Speech recognition using dual-pass pitch tracking
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
JP4264841B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
JP5961950B2 (ja) 音声処理装置
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JPH0990974A (ja) 信号処理方法
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US8532986B2 (en) Speech signal evaluation apparatus, storage medium storing speech signal evaluation program, and speech signal evaluation method
JP5081730B2 (ja) 音声区間検出装置および音声区間検出方法
US7908142B2 (en) Apparatus and method for identifying prosody and apparatus and method for recognizing speech
JP4585590B2 (ja) 基本周波数変化量抽出装置、方法及びプログラム
US6823304B2 (en) Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム
JP6969597B2 (ja) 音響信号処理装置、方法及びプログラム
Cherif Pitch and formants extraction algorithm for speech processing
KR20080065775A (ko) 구화 교육용 발성 시각화 시스템
KR101312967B1 (ko) 성별 판별 기능을 제공하는 가라오케 시스템 및 그 동작방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080820

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120912

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120912

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130912

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees