JP4325044B2 - Speech recognition system - Google Patents

Speech recognition system Download PDF

Info

Publication number
JP4325044B2
JP4325044B2 JP31720699A JP31720699A JP4325044B2 JP 4325044 B2 JP4325044 B2 JP 4325044B2 JP 31720699 A JP31720699 A JP 31720699A JP 31720699 A JP31720699 A JP 31720699A JP 4325044 B2 JP4325044 B2 JP 4325044B2
Authority
JP
Japan
Prior art keywords
noise
spectrum
speech recognition
speech
smoothing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP31720699A
Other languages
Japanese (ja)
Other versions
JP2001134286A (en
Inventor
教英 北岡
一郎 赤堀
聖一 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP31720699A priority Critical patent/JP4325044B2/en
Publication of JP2001134286A publication Critical patent/JP2001134286A/en
Application granted granted Critical
Publication of JP4325044B2 publication Critical patent/JP4325044B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To reduce the incorrectness in noise removal by suppressing the influence of a correlation between speech and noise in a spectrum area without decrease in time resolution. SOLUTION: Since speech varies with time, the time resolution is decreased if a processing interval is too long. Therefore, as shown in the lower section, the processing interval is made to a half of the case in the upper section, that is, a frame length is made to 128 points and a frame period is made to 64 points. In such a manner, smoothing for three frames corresponds to an analysis length of one frame before the frame length is halved, and hence the decrease in time resolution does not occur. However, unless any measures are taken except halving the frame length and frame period, the speech recognition device has to perform the recognition processing at a double frequency, thus increasing the processing load on the device. Therefore, the device is arranged so as to perform smoothing every two times. In such a manner, the speech recognition device may perform recognition processing at a conventional frequency.

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識等の音声信号処理の前処理として用いる雑音抑圧技術に関し、特に、認識対象となる音声信号と雑音信号とが混在した入力信号から雑音成分を極力除去するスペクトラムサブトラクション法を用いた雑音抑圧技術に関する。
【0002】
【従来の技術】
従来より、例えばカーナビゲーションシステムにおける目的地の設定などを音声によって入力できるようにする場合などに有効な音声認識装置が提案され、また実現されている。このような音声認識装置においては、入力音声を予め記憶されている複数の比較対象パターン候補と比較し、一致度合の高いものを認識結果とするのであるが、現在の認識技術ではその認識結果が完全に正確なものとは限らない。これは、静かな環境下にあってもそうであるため、周囲に雑音が発生するような環境下ではなおさらである。特に、上述したカーナビゲーションシステムなどの実際の使用環境を考慮すると、雑音がないことは想定しにくい。したがって、認識率の向上を実現する上では、音声認識装置への入力の前処理として、認識に必要な音声信号と雑音信号とが混在した入力信号から雑音成分を極力除去する雑音抑圧を行なうことが望ましい。
【0003】
この音声と雑音とが混在した入力信号から雑音成分を除去する手法としては、スペクトラムサブトラクション法(以下「SS法」と略記する。)が非常に有効な手法として知られている、このSS法については、例えばSTEVEN F BOLL、”Suppression of Acoustic Noise in Speech Using Spectral Subtruction”、IEEE Transactions on Acoustics, Speech and Signal processing、Vol.Assp-27、No.2、April 1979、pp.113-120をはじめとして多くの研究成果が発表されている。SS法は、雑音の混入した音声信号の振幅スペクトラムから雑音の振幅スペクトラムを差し引くか、または雑音の混入した音声信号のパワースペクトラムから雑音のパワースペクトラムを差し引くことによって雑音抑圧を実現するものである。なお、パワースペクトラムは振幅スペクトラムを2乗したものである。SS法による出力は、雑音の抑圧された振幅スペクトラムか、雑音の抑圧されたパワースペクトラムである。
【0004】
そして、このような雑音抑圧を行なってから音声認識を行なうシステム構成として、例えば図4(a)のような音声認識システム200が考えられている。つまり、マイク201からは雑音が混入した音声信号あるいは雑音信号のみが入力される。マイク201からの入力信号は雑音抑圧装置203へ入力され、雑音抑圧装置203で雑音抑圧された音声信号が音声認識装置204へ転送される。また、この場合、利用者がPTT(Push-To-Talk)スイッチ205を押しながらマイク201を介して音声を入力するようにされている。そして、雑音抑圧装置203での雑音抑圧は次のように行われる。
【0005】
つまり、図4(b)に示すように、PTTスイッチ205が押されるまでは雑音区間であるとして、雑音抑圧装置203はマイク201からの入力信号を取り込む。そして、PTTスイッチ205が押されると音声区間であるとして、雑音抑圧装置203はマイク201からの入力信号を取り込む。しかし、音声区間にて取り込んだものは「音声信号+雑音信号」となる。したがって、雑音区間で取り込んだ「雑音信号」を、音声区間において取り込んだ「音声信号+雑音信号」から差し引けば、雑音信号の抑圧された音声信号を抽出することができるというものである。
【0006】
但し、この手法は、基本的には推定雑音に基づくものである。つまり図4(b)に示す音声区間においては混入した雑音を直接検知しているのではなく、音声区間の開始以前の雑音区間にて取り込んだ雑音信号を基に音声区間における雑音を推定し、その推定雑音のパワースペクトラムを音声区間にて取り込んだ入力音声のパワースペクトラムから差し引く処理を行なうのである。そして、一般的には、推定雑音のパワースペクトラムに所定の係数(サブトラクト係数)を乗じた値を入力音声のパワースペクトラムから差し引いており、このサブトラクト係数は1より大きな値に設定されることが多い。このように、サブトラクト係数を1より大きな値に設定することは、推定雑音のパワースペクトラムを差し引く際に必要以上に差し引いてしまうことに相当する。
【0007】
音声の母音部分のように音声のパワーがある程度確保されている区間では、推定雑音のパワースペクトラムを多少引き過ぎた場合でも音声のパワースペクトラムの形状にはほとんど影響がない。しかし、音声中のポーズ区間や摩擦子音部分のように音声のパワーが小さいところでは、引き過ぎてマイナスの値になってしまう場合がある。上述したようにパワースペクトラムは振幅スペクトラムを2乗したものなのでマイナス値になることは理論的にあり得ない。そのため、引き過ぎてマイナスの値になってしまう部分はゼロ(0)あるいは相対的に小さな正の定数に設定するようにしている。したがって、SS法によって得られる雑音抑圧された入力音声のパワースペクトラムには特有の歪が生じてしまうのである。
【0008】
図4(a)に示す雑音抑圧装置203から音声認識装置204へは、SS法によって雑音抑圧された入力音声のパワースペクトラム、あるいはそのパワースペクトラムを逆フーリエ変換して得た自己相関係数が出力される。上述したように、この音声認識装置204に入力されるパワースペクトラムあるいは自己相関係数に歪が発生しているため、音声認識装置204での認識率が低下してしまう。
【0009】
このような問題を解決するために、本願出願人は、特願平10−182685号(特開平11−154000号。以下、先願と称す。)において、時間方向に移動平均をとるスムージングを導入することによって、認識対象となる音声と雑音とが混在した入力信号に対しSS法を用いて雑音抑圧を行なう場合の歪を極力低減させることを提案した。
【0010】
例えばパワースペクトラムはP(f,t)というように周波数fと時間(この場合はフレーム単位の処理に対応する時間)t=0,1,2,……の関数として表せる。なお、この場合はt=0が現在、t=1が直前の過去、t=2がさらに前の過去を示すものとする。上述の引算処理によってP(f,1)が0となっている場合であっても、P(f,0)及びP(f,2)では0でない可能性がある。そのため、それら時間(t)方向の関係に着目してスムージングすれば、P(f,1)が0でない値として得られる場合があり、それは実際の雑音成分を除去した音声信号のパワースペクトラムをより的確に把握することとなり、歪低減に有効である。
【0011】
【発明が解決しようとする課題】
しかしながら、この方法の場合には、音声の分析区間が長くなることによって音声認識そのものの性能を落とす可能性がある。つまり、音声は時間と共に変化するものであるため、処理する区間が長すぎるといわゆる「ボヤけた」状態となって悪影響が出てしまう。これを時間分解能の低下という。スペクトル領域における音声とノイズの相関の影響を低減させるためには、スムージングに用いるフレーム数を増加させると有利であるが、フレーム数が増加して音声の分析区間が長くなると、上述の問題が生じてしまう。
【0012】
そこで、本発明は、スペクトル領域における音声とノイズの相関の影響を、時間分解能の低下なく抑圧することによって、ノイズ除去における不正確さを低減することを目的とする。
【0013】
【課題を解決するための手段及び発明の効果】
本発明の音声認識システムは、雑音抑圧装置と音声認識装置とを備える。雑音抑圧装置、例えばマイクロフォンなどを介して入力された入力信号を、入力信号切り出し手段が、所定の切り出し間隔毎に所定のフレーム長のフレーム信号として切り出す。そして、スペクトラム算出手段が、そのフレーム信号をフーリエ変換するなどしてスペクトラムを算出する。入力信号に音声が含まれている音声区間であるか音声が含まれていない雑音区間であるかは判定手段によって判定され、雑音スペクトラム推定手段は、雑音区間の入力信号に基づいて算出したスペクトラムを用いて雑音スペクトラムを推定する。そして、引算手段が、音声区間の入力信号に基づいて算出したスペクトラムから雑音スペクトラムに所定のサブトラクト係数を乗じたものを引算し、さらに、スムージング手段が、引算手段によって引算された結果に対して時間方向の移動平均処理であるスムージングを実行する。
【0014】
なお、スペクトラム算出手段が算出するスペクトラムには、振幅スペクトラムやパワースペクトラムが考えられる。つまり、フレーム信号をフーリエ変換すると周波数スペクトラムSpec(f) が算出される。この周波数スペクトラムSpec(f) の振幅成分である振幅スペクトラムA(f)を用いてもよいし、その振幅スペクトラムA(f)を2乗して得たパワースペクトラムP(f)を用いてもよい。
【0015】
例えば、請求項のようにスペクトラム算出手段が振幅スペクトラムA(f)を算出する場合には、雑音スペクトラム推定手段が雑音振幅スペクトラムAN(f)を推定し、引算手段が、音声区間の入力信号に基づいて算出した振幅スペクトラムASN(f)から、雑音振幅スペクトラムAN(f)に所定のサブトラクト係数を乗じたものを引算すればよい。
【0016】
また、請求項のようにスペクトラム算出手段がパワースペクトラムP(f)を算出する場合には、雑音スペクトラム推定手段が雑音パワースペクトラムPN(f)を推定し、引算手段が、音声区間の入力信号に基づいて算出したパワースペクトラムPSN(f)から、雑音パワースペクトラムPN(f)に所定のサブトラクト係数を乗じたものを引算すればよい。
【0017】
このように引算処理を施すと、推定雑音のパワースペクトラムあるいは振幅スペクトラムにサブトラクト係数を乗じた値を、入力音声のパワースペクトラムあるいは振幅スペクトラムから差し引くこととなるが、サブトラクト係数が大きい場合には計算上マイナス値になることがある。パワースペクトラムあるいは振幅スペクトラムは理論上マイナス値になることはあり得ないため、その部分はゼロ(0)あるいは相対的に小さな正の定数に設定する。したがって、この引算処理したままでは、引算結果であるパワースペクトラムあるいは振幅スペクトラムに特有の歪が生じてしまう。これをそのまま音声認識に用いると認識率が低下してしまう。
【0018】
そこで、この引算結果に対してスムージングを行うことで歪低減を実現する。この技術思想の前提となるのは、「一般に音声信号の振幅スペクトラム、パワースペクトラムについては、時間方向に相関がある」という認識である。例えばパワースペクトラムはP(f,t)というように周波数fと時間(この場合はフレーム単位の処理に対応する時間)t=0,1,2,……の関数として表せる。なお、この場合はt=0が現在、t=1が直前の過去、t=2がさらに前の過去を示すものとする。例えば上述の引算処理によってP(f,1)が0となっている場合であっても、P(f,0)及びP(f,2)では0でない可能性がある。そのため、それら時間(t)方向の関係に着目して補間すれば、P(f,1)が0でない値として得られる場合があり、それは実際の雑音成分を除去した音声信号のパワースペクトラムをより的確に把握することとなり、歪低減に有効である。
【0019】
このように、音声と雑音とが混在した入力信号に対しSS法を用いて雑音抑圧を行なう場合の歪を極力低減させることができれば、例えばその出力を用いて音声認識を行なう場合の認識率の向上に寄与することができ、非常に有効である。
スペクトル領域における音声とノイズの相関の影響を低減させるためには、スムージングに用いるフレーム数を増加させると有利である。しかし、フレーム数が増加して音声の分析区間が長くなってしまうと、音声認識そのものの性能を落とす可能性がある。つまり、音声は時間と共に変化するものであるため、処理する区間が長すぎるといわゆる「ボヤけた」状態となって悪影響が出てしまう。
【0020】
そこで、本発明の音声認識システムにおける雑音抑圧装置では、このような時間分解能の低下を防止するために、入力信号切り出し手段による切り出し間隔をフレーム長のn分の1(nは2以上の整数)とすると共に、スムージングをn回に1回実行するようにした。例えばn=2の場合で考えると、フレームの切り出しがフレーム長の1/2であるため、入力音声は、フレームの半分がオーバーラップした状態で切り出されていく。このようにすれば、複数フレームをスムージングに用いても、従来の1フレーム分の分析長に相当するため、時間分解能の低下が起こらない。
【0021】
但し、スムージングを毎回行っていると、本雑音抑圧装置からの出力を用いて音声認識を行なう音声認識装置での認識処理も2倍の頻度で行うこととなり処理負荷が増大してしまう。そこで、2回に1回行うようにすれば、音声認識装置での認識処理は従来通りの頻度でよくなり、処理負荷は増大しない。さらに、分析長が短くなるため、一般に高速フーリエ変換(FFT)を用いてパワースペクトラムなどを算出することの多いスペクトラム算出手段での処理負荷の低減にも寄与する。
【0022】
このように、本発明の音声認識システムにおける雑音抑圧装置は、スペクトル領域における音声とノイズの相関の影響を、時間分解能の低下なく抑圧することによって、ノイズ除去における不正確さを低減することができる。また、請求項に示すように、引算手段が、音声区間の入力信号に基づいて算出したパワースペクトラムPSN(f)から雑音パワースペクトラムPN(f)に所定のサブトラクト係数を乗じたものを引算する構成を前提とする場合には、請求項に示すようにしてもよい。つまり、引算手段による引算結果に基づいて自己相関係数を算出する自己相関係数算出手段をさらに備え、スムージング手段は、その自己相関係数算出手段によって算出された自己相関係数に対してスムージングを実行するのである。このように自己相関係数を用いても同様に歪低減が実現できると共に、雑音抑圧装置からの出力を用いて音声認識を行なう音声認識装置におけるメモリ容量及び処理負荷の低減の面で有効である。
【0023】
これは、自己相関係数のフーリエ変換がパワースペクトラムになる、つまりパワースペクトラムの逆フーリエ変換が自己相関係数になることに着目したものである。自己相関係数をC(r,t)、逆フーリエ変換をF-1とすると、パワースペクトラムP(ft)との関係は次のようになる。
C(r,t)=F-1[P(f,t)]
なお、rは自己相関係数の指数であり、パワースペクトラムにおける周波数fに対応する。
【0024】
例えば、フーリエ変換の線形性より、次の変形が可能である。
-1[α・P(f,0)+β・P(f,1)+γ・P(f,2)]
=α・F-1[P(f,0)]+β・F-1[P(f,1)]+γ・F-1[P(f,2)]
=α・C(r,0)+β・C(r,1)+γ・C(r,2)
このように、パワースペクトラムと自己相関係数とは等価であるため、スムージングを施す場合に、パワースペクトラムを用いても自己相関係数を用いても同様の結果、つまり歪の低減された出力を得ることができる。
【0025】
そして、このような自己相関係数を用いると後段の音声認識装置におけるメモリ容量及び処理負荷が低減されるのであるが、その点について説明する。
後段の音声認識装置が線形予測分析(linear predictive coding:LPC)を行なう構成であり、雑音抑圧装置からパワースペクトラムを出力する場合を想定すると、音声認識装置においては、まず雑音抑圧装置から出力されたパワースペクトラムから自己相関係数を算出しなければならなくなる。そのため、処理負荷やメモリ容量の増大につながっていた。それに対して、雑音抑圧装置において自己相関係数化し、これを音声認識装置側へ渡せば、音声認識装置における処理負荷やメモリ容量の削減を実現できる。音声認識装置がP次のLPCを実行する場合には、指数rがr=0,1,2,……Pの自己相関係数C(r,t)しか用いず、一般にP=17程度である。
【0026】
したがって、パワースペクトラムを逆フーリエ変換して自己相関係数化し、その自己相関係数を補間したものを出力することで、後段の音声認識装置におけるメモリ容量及び処理負荷の低減を実現できる。
なお、上述した判定手段は、入力信号に音声が含まれている音声区間であるか音声が含まれていない雑音区間であるかを判定するのであるが、例えば請求項5に示すように、入力信号のパワーに基づいて判定することが考えられる。また、音声を入力させる期間を発声者自身が指定するために設けられた入力期間指定手段によって指定された入力期間を音声区間として判定するようにしてもよい。この入力期間指定手段としては、例えばPTT(Push-To-Talk)スイッチなどが考えられる。つまり、利用者がPTTスイッチを押しながら音声を入力すると、そのPTTスイッチが押されている間に入力された音声を処理対象として受け付けるのである。このようにすることで、雑音抑圧対象となる入力信号に対してのみ雑音抑圧処理を実行すればよいので、処理負荷軽減の点で有効である。
【0027】
そして、本発明の音声認識システムの音声認識装置は、雑音抑圧装置からの出力を、予め記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とする。
【0028】
のような音声認識システムは、種々の適用先が考えられるが、例えばいわゆるカーナビゲーションシステム用として用いることが考えられる。この場合には、例えば経路設定のための目的地などが音声にて入力できれば非常に便利である。また、ナビゲーションシステムだけでなく、例えば音声認識システムを車載空調システム用として用いることも考えられる。この場合には、空調システムにおける空調状態関連指示を利用者が音声にて入力するために用いることとなる。さらには、例えば、携帯用の情報端末装置、あるいは街頭やパーキングエリアなどに設定される情報端末装置などにも同様に適用できる。
【0029】
そして、このように音声認識システムとして実現する場合には、雑音抑圧装置に対する上述の工夫だけでなく、音声認識装置においても雑音抑圧装置側の工夫に対応した工夫を施すことが考えられる。具体的には、音声認識装置内に記憶されている比較対象パターン候補を作成するに際して、次のような工夫を施す。
【0030】
例えば、請求項に示すシステムでは、学習用サンプル音声のスペクトラムに対し、スムージング手段において実行されるスムージングと同一の処理を施した結果を用いて比較対象パターン候補を作成する。以下、このようにして作成したものを「第1の比較対象パターン候補」と称す。
【0031】
また、請求項に示すシステムでは、雑音の重畳された学習用サンプル音声に対して、前記引算手段と同様に、学習用サンプル音声のスペクトラムから雑音のスペクトラムに所定のサブトラクト係数を乗じたものを引算し、その引算された結果に対し、スムージング手段において実行されるのと同一のスムージングを施した結果を用いて比較対象パターン候補を作成する。以下、このようにして作成したものを「第2の比較対象パターン候補」と称す。
【0032】
このように、学習用サンプル音声のスペクトラム、あるいは雑音の重畳された学習用サンプル音声にSS法による処理を施したものに対し、スムージング手段において実行されるスムージングと同一の処理を施すのは、次の意図からである。すなわち、上述した雑音抑圧装置に対する工夫は、SS法を用いて雑音抑圧を行なう場合の歪を極力低減させるためにスムージングを行っているのであるが、このスムージングを施すことによって、音声の本来の特性を変化させてしまっていることとなる。そのため、雑音抑圧に関しては有効であっても、音声認識装置における認識処理に際し、場合によっては、上述の音声特性変化の影響で認識率を低下させる方向へ作用してしまう可能性も考えられる。そこで、音声認識時の比較対象パターン候補を作成する際に、学習用サンプル音声のスペクトラム(あるいはSS法による処理を施したもの)そのままを用いるのではなく、スムージング手段において実行されるスムージングと同一の処理を施すことにより、意図的に音声特性変化を加えている。こうすることにより、雑音抑圧装置側でのスムージングによる音声特性変化を吸収し、認識率の低下を防止することができるのである。
【0033】
なお、音声認識は、上述したように、雑音抑圧装置からの出力を、予め記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とするので、この比較対象パターン候補の充実を図ることが認識率向上につながる。したがって、例えば請求項に示すように、音声認識装置内に記憶されている比較対象パターン候補として、前記第1の比較対象パターン候補及び前記第2の比較対象パターン候補の両方を備えておくことが好ましい。また、同様の観点から、請求項に示すように、雑音の重畳された学習用サンプル音声に対して、SS法による処理、つまり学習用サンプル音声のスペクトラムから雑音のスペクトラムに所定のサブトラクト係数を乗じたものを引算した結果を用いて作成された第3の比較対象パターン候補を準備し、第1又は第2の比較対象パターン候補と第3の比較対象パターン候補を備えるようにしたり、あるいは第1〜第3の比較対象パターン候補を全て備えるようにしてもよい。
【0034】
そして、請求項に示すように、第2及び第3の比較対象パターン候補を作成する際に用いる雑音は、音声認識システムが使用される環境での雑音とすることが好ましい。この環境雑音としては1種類だけでなく複数種類を考慮することがさらに好ましい。例えば、音声認識システムが自動車内にて用いられる場合には、搭載される車種、走行速度、窓の開閉の有無、エアコンやオーディオ等の他の車載機器の使用の有無などによって雑音のレベルやSN比が異なる。したがって、それらの要素を適宜加味した使用環境をいくつか想定し、その環境での雑音の重畳された学習用サンプル音声を用いて比較対象パターン候補を作成することが好ましい。
【0036】
【発明の実施の形態】
図1は本発明の実施形態の音声認識システムの概略構成を示すブロック図である。本音声認識システムは、マイク30を介して入力された音声に対して雑音抑圧を行なう雑音抑圧装置10と、その雑音抑圧装置10からの出力を、予め記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とする音声認識装置20とを備えている。
【0037】
まず、雑音抑圧装置10について説明する。図1に示すように、雑音抑圧装置10は、音声入力部11と、入力音声切り出し部12と、フーリエ変換部13と、パワースペクトラム変換部14と、雑音パワースペクトラム推定部15と、引算部16と、逆フーリエ変換部17と、スムージング部18とを備えている。以下、各ブロックでの処理内容について説明する。
【0038】
音声入力部11は、マイク30を介して入力されたアナログ音声信号を例えば12KHzのサンプリング周波数でデジタル信号に変換し、入力音声切り出し部12及び雑音パワースペクトラム推定部15へ出力する。
雑音パワースペクトラム推定部15は、音声入力部11からの入力信号をオーバーラップさせながら、所定の切り出し間隔で、順次所定の長さのフレーム毎に切り出す。そして、フーリエ変換してスペクトラムを求め、そのスペクトラムの振幅の2乗を計算して求めたパワースペクトラムを内部のバッファ(図示せず)に記憶する。この切り出し間隔が以降の処理の時間間隔と一致する。
【0039】
このバッファには過去の全てのパワースペクトラムが記憶されているのではなく、最新のm個のフレームに対するパワースペクトラムPn(f,t)が順次更新しながら記憶されていくこととなる。
なお、パワースペクトラムPn(f,t)において、fは周波数、tは時間(この場合はフレーム単位の処理に対応する時間)であり、t=0が現在、t=1が直前の過去、t=2がさらに前の過去、というように数字が増えるほど前の過去を示すものとする。したがって、最新のm個のフレームに対するパワースペクトラムPn(f,t)とは、Pn(f,0)、Pn(f,1)、Pn(f,2)、……Pn(f,m−1)のm個を指す。また、それ以前の過去のパワースペクトラムはバッファから捨てられる。
【0040】
そして、雑音パワースペクトラム推定部15は、音声が入力されたことを示す音声入力検出信号を受け取ると雑音パワースペクトラムの推定処理を中止する。本実施形態においては、図示しないPTT(Push-To-Talk)スイッチが押されている場合にはこの音声入力検出信号が出力される。つまり、本音声認識システムでは、利用者がPTTスイッチを押しながらマイク30を介して音声を入力するという使用方法である。そのため、PTTスイッチが押されているということは利用者が音声を入力しようとする意志をもって操作したことであるので、その場合には実際には音声入力があるかないかを判断することなく、音声入力がされる期間(音声区間)であると捉えて処理しているのである。
【0041】
音声入力検出信号を受け取った雑音パワースペクトラム推定部15では、雑音パワースペクトラムの推定処理を中止し、バッファに記憶されているm個のパワースペクトラムPn(f,0)、Pn(f,1)、Pn(f,2)、……Pn(f,m−1)の平均値を算出して、SS法での引算に用いる雑音パワースペクトラムPN(f)(fは周波数)を作成し、引算部16へ渡す。なお、この雑音パワースペクトラムPN(f)の算出式は以下の通りである。
【0042】
【数1】

Figure 0004325044
【0043】
一方、入力音声切り出し部12は、音声入力検出信号を受け取った場合にだけ処理を行なう。その処理は、音声入力部11からの入力信号をオーバーラップさせながら、所定の切り出し間隔で、順次所定の長さのフレーム毎に切り出して、フーリエ変換部13へ出力する。フーリエ変換部13では、フレーム毎の入力音声信号に対してフーリエ変換を行なうことによって入力音声信号のスペクトラムSpec(f) を求め、パワースペクトラム変換部14へ出力する。
【0044】
そして、パワースペクトラム変換部14では、スペクトラムSpec(f) の振幅の2乗を計算してパワースペクトラムPSN(f)を求め、引算部16へ渡す。なお、このパワースペクトラムPSN(f)の算出式は以下の通りである。
【0045】
【数2】
Figure 0004325044
【0046】
引算部16では、パワースペクトラム変換部14から送られたパワースペクトラムPSN(f)から、雑音パワースペクトラム推定部15から送られた雑音パワースペクトラムPN(f)に所定のサブトラクト係数を乗じたものを引算して逆フーリエ変換部17へ送る。ここでサブトラクト係数は1.4であり、引算処理の結果マイナスとなった場合にはゼロとする。したがって、引算部16からの出力P(f)は以下の式に示す通りとなる。
【0047】
【数3】
Figure 0004325044
【0048】
逆フーリエ変換部17では、引算部16からの出力P(f)に対して逆フーリエ変換を施して自己相関係数CSS(r)(rは相関のラグであり、r=0,1,2,3,…)を求める。逆フーリエ変換部17は、この自己相関係数CSS(r)の内で、r=0,1,2,……,pのものだけをスムージング部18へ送る。
【0049】
スムージング部18は、常に現在時間と過去2つまでの自己相関係数を図示しないバッファに保持している。つまり、t=0が現在、t=1が直前の過去、t=2がさらに前の過去を示すものとすると、CSS(r,0),CSS(r,1),CSS(r,2) の3つの自己相関係数である。逆フーリエ変換部17から送られた自己相関係数は現在時点の自己相関係数としてのスムージング部18のバッファに蓄えられ、過去2つの自己相関係数と併せた3つの自己相関係数を用いて、1つ前の過去の自己相関係数を次式のようにして求める。なお、スムージング部18の出力がC(r)である。
C(r)=β0・CSS(r,0)+β1・CSS(r,1)+β2・CSS(r,2)
(β0=0.4/1.8,β1=1.0/1.8,β2=0.4/1.8,r=0,1,2,……,p)
ところで、このスムージング部18におけるスムージングは、逆フーリエ変換部17から自己相関係数が送られてくる度に行われるのではなく、n回に1回だけ行われる。このnは、入力音声切り出し部12による切り出し間隔とフレーム長との関係に依存しており、切り出し間隔がフレーム長の1/n(nは自然数)である場合に、スムージングをn回に1回行うこととなる。
【0050】
入力音声切り出し部12は、上述したように、音声入力部11からの入力信号をオーバーラップさせながら、所定の切り出し間隔で、順次所定の長さのフレーム毎に切り出してフーリエ変換部13へ出力する。例えば12KHzのサンプリング周波数で、図2中の上段に示すように128回のサンプリング毎に256点の切り出しを行うと、約10.8m毎に21.5ms分の音声を処理することになり、この場合にはフレーム長256点、フレーム周期128点である。スムージング部18では3フレーム分のスムージングを行うため、フレーム長256点、フレーム周期128点の場合には、512点分、すなわち43ms分の音声を処理することとなる。
【0051】
但し、音声は時間と共に変化するものであるため、処理する区間が長すぎるといわゆる「ボヤけた」状態となって悪影響が出てしまう。つまり、時間分解能の低下である。そこで、本実施例では、入力音声切り出し部12において、図2中の下段に示すように64回のサンプリング毎に128点の切り出しを行い、約5.4ms毎に約10.8m分の音声を処理するようにした。この場合にはフレーム長128点、フレーム周期64点である。このようにすると、スムージング部18では3フレーム分のスムージングを行っても、256点分にしかならない。つまり、フレーム長を半分にする前の1フレーム分(図2中の上段参照)の分析長に相当するため、時間分解能の低下が起こらない。
【0052】
しかし、このようにフレーム長及びフレーム周期を半分にしただけで何らの対処もしないと、雑音抑圧装置10からの出力を用いて音声認識を行なう音声認識装置20での認識処理も2倍の頻度で行うこととなり、処理負荷が増大してしまう。そこで、本実施例では、スムージングを2回に1回行うようにした。このようにすれば、音声認識装置20での認識処理は従来通りの頻度でよくなり、処理負荷は増大しない。
【0053】
さらに、分析長が短くなるため、フーリエ変換部13での処理負荷の低減にも寄与する。例えば高速フーリエ変換による計算量は、256点のフレーム長を用いた場合の0.875倍でよく、分析の計算量はさらに削減できる。
このように、スムージング部18にて2回に1回スムージングが行われて得られた自己相関係数C(r)(r=0,1,2,〜,p)が順次音声認識装置20へ送られる。
【0054】
次に、この音声認識装置20について説明する。
音声認識装置20は、LPC分析部21と、ケプストラム計算部22と、標準パターン格納部23と、照合部24と、判定部25とを備えている。
LPC分析部21では、雑音抑圧装置10からの出力を用いて線形予測分析を行なう。線形予測分析は音声信号処理の分野では一般的な分析手法であり、例えば、古井「ディジタル音声処理」(東海大学出版会)などに詳しく説明されている。本実施形態においてはこの線形予測分析に自己相関法を用いており、自己相関係数C(r)を用いてm次のLPC係数を計算する。なお、本実施形態においては雑音抑圧装置10のスムージング部18から自己相関係数C(r)が出力されるので、LPC分析部21においてはそれをそのまま用いてLPC係数の計算を行えばよい。つまり、パワースペクトラムの状態で出力される場合には、それを逆フーリエ変換して自己相関係数を算出する処理が必要となるが、本実施形態では自己相関係数C(r)の形で出力されてくるので、LPC分析部21において逆フーリエ変換する必要がない。
【0055】
そして、ケプストラム計算部22では、LPC分析部21において計算されたLPC係数を基に、フレーム毎のスペクトル上の特徴パラメータとしてのLPCケプストラム係数を計算する。
一方、標準パターン格納部23には予め計算しておいた認識対象語彙の標準パターン(特徴パラメータ系列)が格納してあり、照合部24は、標準パターン格納部23に格納されている標準パターンと、ケプストラム計算部22にて計算されたLPCケプストラム係数との間で類似度計算を行なう。これらは周知のDPマッチング法、HMM(隠れマルコフモデル)あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データとして格納されたどの単語に対応しているかを求める。そして、判定部25は、各認識対象語彙のうち照合部24で計算した類似度が最も高い語彙を認識結果として出力する。
【0056】
このように、本実施形態の音声認識システムによれば、雑音抑圧装置10の引算部16において、音声区間の入力信号に基づいて算出したパワースペクトラムPSN(f)から雑音スペクトラムPN(f)に所定のサブトラクト係数(ここでは1.4)を乗じたものを引算している。
【0057】
引算部16においては、上述したように雑音パワースペクトラムPN(f)を1.4倍したものを、音声区間の入力信号に基づいて算出したパワースペクトラムPSN(f)から引算している。この場合はサブトラクト係数が1より大きい1.4であるため、計算上マイナス値になることがある。パワースペクトラムは理論上マイナス値になることはあり得ないため、その部分はゼロ(0)あるいは相対的に小さな正の定数に設定している。したがって、この引算処理したままでは、引算結果であるパワースペクトラムに特有の歪が生じてしまい、これをそのまま音声認識に用いると認識率が低下してしまう。
【0058】
そこで、この引算結果に対して逆フーリエ変換部17において自己相関係数化した後、スムージング部18において時間方向(t)の移動平均処理であるスムージングを実行し、歪低減を実現する。そして、音声と雑音とが混在した入力信号に対しSS法を用いて雑音抑圧を行なう場合の歪を極力低減させることができれば、後段の音声認識装置20における音声認識での認識率の向上に寄与することができ、非常に有効である。
【0059】
また、音声は時間と共に変化するものであるため、処理する区間が長すぎると時間分解能の低下が生じるため、入力音声切り出し部12において、図2中の下段に示すようにフレーム長128点、フレーム周期64点というように、図2中の上段の場合の2分の1にしたのである。このようにすると、スムージング部18では3フレーム分のスムージングを行っても、フレーム長を半分にする前の1フレーム分の分析長に相当するため、時間分解能の低下が起こらない。
【0060】
しかし、このようにフレーム長及びフレーム周期を半分にしただけで何らの対処もしないと、雑音抑圧装置10からの出力を用いて音声認識を行なう音声認識装置20での認識処理も2倍の頻度で行うこととなり、処理負荷が増大してしまう。そこで、本実施例では、スムージングを2回に1回行うようにした。このようにすれば、音声認識装置20での認識処理は従来通りの頻度でよくなり、処理負荷は増大しない。
【0061】
なお、本実施例では、フレーム周期をフレーム長の2分の1にしたため、スムージングを2回に1回行うようにしたが、当然ながら、フレーム周期がフレーム長の3分の1であればスムージングを3回に1回、フレーム周期がフレーム長の4分の1であればスムージングを4回に1回行えば、処理負荷が増大しない。
【0062】
また、本実施形態においては、引算部16における引算結果を逆フーリエ変換部17において自己相関係数化している。このように自己相関係数を用いても同様に歪低減が実現できると共に、この場合には、後段の音声認識装置20におけるメモリ容量及び処理負荷の低減の面で有効である。
【0063】
これは、パワースペクトラムの逆フーリエ変換が自己相関係数になることに着目したものである。つまり、自己相関係数をC(r,t)、逆フーリエ変換をF-1とすると、パワースペクトラムP(f,t)との関係は次のようになる。
C(r,t)=F-1[P(f,t)]
なお、rは自己相関係数の指数であり、パワースペクトラムにおける周波数fに対応する。
【0064】
例えば、上述したスムージングを用いて考えると、フーリエ変換の線形性より、次の変形が可能である。
-1[α・P(f,0)+β・P(f,1)+γ・P(f,2)]
=α・F-1[P(f,0)]+β・F-1[P(f,1)]+γ・F-1[P(f,2)]
=α・C(r,0)+β・C(r,1)+γ・C(r,2)
このように、パワースペクトラムと自己相関係数とは等価であるため、スムージングを施す場合に、パワースペクトラムを用いても自己相関係数を用いても同様の結果、つまり歪の低減された出力を得ることができる。そして、音声認識装置20ではLPC分析部21において線形予測分析を行なっているが、仮に雑音抑圧装置10からパワースペクトラムを出力する場合を想定すると、音声認識装置20においては、まず雑音抑圧装置10から出力されたパワースペクトラムに基づいて自己相関係数を算出しなければならなくなる。そのため、処理負荷やメモリ容量の増大につながるが、本実施形態のように雑音抑圧装置10において自己相関係数化し、これを音声認識装置20へ渡せば、音声認識装置20における処理負荷やメモリ容量の削減を実現できる。
【0065】
なお、本実施形態においては、入力音声切り出し部12及び雑音パワースペクトラム推定部15における切り出し機能が「入力信号切り出し手段」に相当する。また、入力音声切り出し部12において、音声入力検出信号の入力があると切り出し処理を始めたり、雑音パワースペクトラム推定部15において、音声入力検出信号の入力があると雑音パワースペクトラムの推定を止めているが、これが「判定手段」による音声区間と雑音区間の判定結果に基づく処理内容の変更に相当する。そして、フーリエ変換部13及びパワースペクトラム変換部14が「スペクトラム算出手段」に相当し、雑音パワースペクトラム推定部15が「雑音スペクトラム推定手段」に相当する。また、引算部16が「引算手段」に相当し、スムージング部18が「スムージング手段」に相当する。さらに、逆フーリエ変換部17が「自己相関係数算出手段」に相当する。
【0066】
以上、本発明はこのような実施例に何等限定されるものではなく、本発明の主旨を逸脱しない範囲において種々なる形態で実施し得る。
(1)例えば、上記実施形態では、フーリエ変換して得た周波数スペクトラムSpec(f) の振幅を2乗したパワースペクトラムPSN(f)を用い、同様に雑音パワースペクトラムPN(f)を用いたが、周波数スペクトラムSpec(f) の振幅成分である振幅スペクトラムA(f)そのものを用いてもよい。その場合には、雑音振幅スペクトラムAN(f)を推定し、音声区間の入力信号に基づいて算出した振幅スペクトラムASN(f)から雑音振幅スペクトラムAN(f)に所定のサブトラクト係数を乗じたものを引算すればよい。
【0067】
但し、自己相関係数C(r,t) は上述したようにパワースペクトラムP(f,t) との間で等価であるため、振幅スペクトラムを用いる場合には、自己相関係数化はできないため、自己相関係数を用いた場合のメリットは得られない。しかし、逆に考えれば、雑音抑圧装置10において自己相関係数化するのは、これを音声認識装置20へ渡した場合に音声認識装置20における処理負荷やメモリ容量の削減を実現できるからであり、この利点を享受しないのであれば、自己相関係数化しなくてもよい。したがって、パワースペクトラムや振幅スペクトラムを用い、自己相関係数化せずに後段の音声認識装置などに出力するような形態も実施可能である。
(2)また、上記実施形態においては、音声を入力させる期間を発声者自身が指定するために設けられたPTTスイッチを用い、利用者がPTTスイッチを押しながら音声を入力すると、そのPTTスイッチが押されている間を音声区間とみなすようにしたが、実際の入力信号に基づいて音声区間と雑音区間を判定するようにしてもよい。例えば、入力信号のパワーに基づいて判定することが考えられる。
【0068】
(3)また、音声認識システムとして実現する場合には、雑音抑圧装置10に対する上述の工夫だけでなく、音声認識装置20においても雑音抑圧装置10側の工夫に対応した工夫を施すことが考えられる。具体的には、音声認識装置20の標準パターン格納部23に格納する認識対象語彙の標準パターン(特徴パラメータ系列)を作成するに際して工夫する。図3には概略的な処理手順を示す。学習用サンプル音声を入力したら(S1)、その入力音声を切り出す(S2)。そして、そのパワースペクトラムを算出したら(S3)、雑音抑圧装置10のスムージング部18において実行されるスムージングと同一のフィルタ処理を施す(S4)。そして、そのフィルタ処理を施した結果を用いて特徴量(ケプストラム係数)を算出し(S5)、認識対象語彙の標準パターンとして標準パターン格納部23に格納する(S6)。
【0069】
このように、学習用サンプル音声のパワースペクトラムに対し、スムージング部18において実行されるスムージングと同一の処理を施す意図は次の通りである。すなわち、上述した雑音抑圧装置10に対する工夫は、SS法を用いて雑音抑圧を行なう場合の歪を極力低減させるためにスムージングを行っているのであるが、このスムージングを施すことによって、音声の本来の特性を変化させてしまっていることとなる。そのため、雑音抑圧に関しては有効であっても、音声認識装置20における認識処理に際し、場合によっては、上述の音声特性変化の影響で認識率を低下させる方向へ作用してしまう可能性も考えられる。そこで、音声認識装置20の照合部24がケプストラム計算部22にて計算されたLPCケプストラム係数との間で類似度計算を行なう対象である標準パターンを作成する際に、学習用サンプル音声のスペクトラムをそのままを用いるのではなく、スムージング部18において実行されるスムージングと同一の処理を施すことにより、意図的に音声特性変化を加えている。こうすることにより、雑音抑圧装置10側でのスムージングによる音声特性変化を吸収し、認識率の低下を防止することができる。
【0070】
なお、図3に示す処理手順では、学習用サンプル音声として雑音を含まない場合にも、あるいは雑音を含む場合にも適用できる。但し、雑音を含む場合には、図1に示した雑音抑圧装置10の場合と同様にSS法を用いてもよい。つまり、雑音の重畳された学習用サンプル音声から雑音パワースペクトラムを推定し、学習用サンプル音声のパワースペクトラムから雑音のスペクトラムに所定のサブトラクト係数を乗じたものを引算する。そして、その引算された結果に対し、スムージング部18において実行されるのと同一のスムージングを施し、特徴量(ケプストラム係数)を算出するのである。
【0071】
なお、音声認識は、上述したように、雑音抑圧装置10からの出力を、予め記憶されている標準パターン候補と比較して一致度合の高いものを認識結果とするので、この比較対象パターン候補の充実を図ることが認識率向上につながる。したがって、上述した図3の処理手順にて作成した標準パターン及びSS法を用いて作成した標準パターンの両方を備えておくことが好ましい。そして、実際の使用環境では雑音が含まれることがほとんどであるので、標準パターンを作成する際の学習用サンプル音声は、音声認識システムが使用される環境での雑音を重畳させたものを用いることが好ましい。さらに、この環境雑音としては1種類だけでなく複数種類を考慮した方が好ましい。例えば、音声認識システムが自動車内にて用いられる場合には、搭載される車種、走行速度、窓の開閉の有無、エアコンやオーディオ等の他の車載機器の使用の有無などによって雑音のレベルやSN比が異なる。したがって、それらの要素を適宜加味した使用環境をいくつか想定し、その環境での雑音の重畳された学習用サンプル音声を用いて比較対象パターン候補を作成する。
【図面の簡単な説明】
【図1】 本発明の実施形態の音声認識システムの概略構成を示すブロック図である。
【図2】 フレーム長とフレーム周期の比較を示す説明図である。
【図3】 標準パターンの作成処理手順を示すフローチャートである。
【図4】 従来の音声認識システムの概要を示す説明図である。
【符号の説明】
10…雑音抑圧装置 11…音声入力部
12…入力音声切り出し部 13…フーリエ変換部
14…パワースペクトラム変換部 15…雑音パワースペクトラム推定部
16…引算部 17…逆フーリエ変換部
18…スムージング部 20…音声認識装置
21…LPC分析部 22…ケプストラム計算部
23…標準パターン格納部 24…照合部
25…判定部 30…マイク
200…音声認識システム 201…マイク
203…雑音抑圧装置 204…音声認識装置
205…PTTスイッチ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a noise suppression technique used as a preprocessing for speech signal processing such as speech recognition, and in particular, uses a spectrum subtraction method that removes a noise component as much as possible from an input signal in which a speech signal to be recognized and a noise signal are mixed. Related to noise suppression technology.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, a voice recognition apparatus effective for, for example, enabling a destination setting in a car navigation system to be input by voice has been proposed and realized. In such a speech recognition apparatus, the input speech is compared with a plurality of comparison target pattern candidates stored in advance, and the one with a high degree of coincidence is used as the recognition result. It may not be completely accurate. This is the case even in a quiet environment, and is particularly so in an environment where noise is generated in the surroundings. In particular, considering the actual usage environment such as the car navigation system described above, it is difficult to assume that there is no noise. Therefore, in order to improve the recognition rate, as a pre-processing of input to the speech recognition device, noise suppression is performed to remove noise components as much as possible from the input signal in which speech signals and noise signals necessary for recognition are mixed. Is desirable.
[0003]
As a method for removing a noise component from an input signal in which voice and noise are mixed, a spectrum subtraction method (hereinafter abbreviated as “SS method”) is known as a very effective method. For example, STEVEN F BOLL, “Suppression of Acoustic Noise in Speech Using Spectral Subtruction”, IEEE Transactions on Acoustics, Speech and Signal processing, Vol. Assp-27, No. 2, April 1979, pp. 113-120 Many research results have been published. The SS method realizes noise suppression by subtracting the noise amplitude spectrum from the noise spectrum of the voice signal mixed with noise or subtracting the power spectrum of the noise from the power spectrum of the voice signal mixed with noise. The power spectrum is the square of the amplitude spectrum. The output by the SS method is an amplitude spectrum in which noise is suppressed or a power spectrum in which noise is suppressed.
[0004]
As a system configuration for performing speech recognition after performing such noise suppression, for example, a speech recognition system 200 as shown in FIG. 4A is considered. That is, only an audio signal or noise signal mixed with noise is input from the microphone 201. An input signal from the microphone 201 is input to the noise suppression device 203, and the voice signal whose noise is suppressed by the noise suppression device 203 is transferred to the voice recognition device 204. In this case, the user inputs voice via the microphone 201 while pressing a PTT (Push-To-Talk) switch 205. And the noise suppression in the noise suppression apparatus 203 is performed as follows.
[0005]
That is, as shown in FIG. 4B, the noise suppression device 203 captures the input signal from the microphone 201, assuming that it is a noise interval until the PTT switch 205 is pressed. Then, when the PTT switch 205 is pressed, the noise suppression device 203 captures an input signal from the microphone 201 assuming that it is a voice section. However, what is captured in the voice section is “voice signal + noise signal”. Therefore, if the “noise signal” captured in the noise section is subtracted from “speech signal + noise signal” captured in the speech section, the speech signal in which the noise signal is suppressed can be extracted.
[0006]
However, this method is basically based on estimated noise. That is, instead of directly detecting the mixed noise in the voice section shown in FIG. 4B, the noise in the voice section is estimated based on the noise signal captured in the noise section before the start of the voice section, A process of subtracting the power spectrum of the estimated noise from the power spectrum of the input voice captured in the voice section is performed. In general, a value obtained by multiplying the power spectrum of the estimated noise by a predetermined coefficient (subtract coefficient) is subtracted from the power spectrum of the input speech, and this subtract coefficient is often set to a value larger than 1. . Thus, setting the subtract coefficient to a value larger than 1 corresponds to subtracting more than necessary when subtracting the power spectrum of the estimated noise.
[0007]
In a section where the sound power is secured to some extent, such as the vowel part of the sound, even if the estimated noise power spectrum is pulled too much, the shape of the sound power spectrum is hardly affected. However, in places where the power of the voice is low, such as a pause section or a frictional consonant part in the voice, there is a case where it is overdrawn and becomes a negative value. As described above, since the power spectrum is the square of the amplitude spectrum, it is theoretically impossible to have a negative value. For this reason, a portion that becomes too negative and becomes a negative value is set to zero (0) or a relatively small positive constant. Therefore, a characteristic distortion occurs in the power spectrum of the input speech with noise suppression obtained by the SS method.
[0008]
From the noise suppression device 203 shown in FIG. 4A to the speech recognition device 204, the power spectrum of the input speech noise-suppressed by the SS method or the autocorrelation coefficient obtained by inverse Fourier transform of the power spectrum is output. Is done. As described above, since the power spectrum or autocorrelation coefficient input to the speech recognition device 204 is distorted, the recognition rate in the speech recognition device 204 is reduced.
[0009]
In order to solve such a problem, the applicant of the present application introduced smoothing that takes a moving average in the time direction in Japanese Patent Application No. 10-182585 (Japanese Patent Application Laid-Open No. 11-154000, hereinafter referred to as a prior application). By doing so, it was proposed to reduce distortion as much as possible when performing noise suppression using the SS method for an input signal in which speech and noise to be recognized are mixed.
[0010]
For example, the power spectrum can be expressed as a function of frequency f and time (in this case, time corresponding to processing in units of frames) t = 0, 1, 2,... P (f, t). In this case, t = 0 indicates the present, t = 1 indicates the previous past, and t = 2 indicates the previous past. Even if P (f, 1) is 0 by the subtraction process described above, P (f, 0) and P (f, 2) may not be 0. Therefore, if smoothing is performed by paying attention to the relationship in the time (t) direction, P (f, 1) may be obtained as a non-zero value, which means that the power spectrum of an audio signal from which an actual noise component has been removed is obtained. It is effective for reducing distortion.
[0011]
[Problems to be solved by the invention]
However, in the case of this method, there is a possibility that the performance of the speech recognition itself is deteriorated due to the longer speech analysis interval. In other words, since the voice changes with time, if the section to be processed is too long, it becomes a so-called “blurred” state, which has an adverse effect. This is called a decrease in time resolution. In order to reduce the influence of the correlation between speech and noise in the spectral domain, it is advantageous to increase the number of frames used for smoothing. However, if the number of frames increases and the speech analysis interval becomes longer, the above-mentioned problems occur. End up.
[0012]
Accordingly, an object of the present invention is to reduce the inaccuracy in noise removal by suppressing the influence of the correlation between speech and noise in the spectral domain without lowering the time resolution.
[0013]
[Means for Solving the Problems and Effects of the Invention]
  Of the present inventionThe speech recognition system includes a noise suppression device and a speech recognition device.Noise suppressorIsFor example, the input signal cutout means cuts out an input signal input via a microphone or the like as a frame signal having a predetermined frame length at every predetermined cutout interval. Then, the spectrum calculation means calculates the spectrum by, for example, Fourier transforming the frame signal. It is determined by the determining means whether the input signal is a voice section in which voice is included or a noise section in which voice is not included, and the noise spectrum estimating means determines the spectrum calculated based on the input signal in the noise section. To estimate the noise spectrum. Then, the subtracting means subtracts the noise spectrum multiplied by a predetermined subtract coefficient from the spectrum calculated based on the input signal of the speech section, and the smoothing means is the result of subtraction by the subtracting means. Smoothing, which is a moving average process in the time direction, is performed on the.
[0014]
  The spectrum calculated by the spectrum calculating means can be an amplitude spectrum or a power spectrum. That is, when the frame signal is Fourier transformed, a frequency spectrum Spec (f) is calculated. An amplitude spectrum A (f) that is an amplitude component of the frequency spectrum Spec (f) may be used, or a power spectrum P (f) obtained by squaring the amplitude spectrum A (f) may be used. .
[0015]
  For example, claims6When the spectrum calculating means calculates the amplitude spectrum A (f) as in the above, the noise spectrum estimating means estimates the noise amplitude spectrum AN (f), and the subtracting means calculates based on the input signal of the speech section. The noise amplitude spectrum AN (f) multiplied by a predetermined subtract coefficient may be subtracted from the amplitude spectrum ASN (f).
[0016]
  Claims7When the spectrum calculating means calculates the power spectrum P (f) as in the above, the noise spectrum estimating means estimates the noise power spectrum PN (f), and the subtracting means calculates based on the input signal in the voice section. The noise power spectrum PN (f) multiplied by a predetermined subtract coefficient may be subtracted from the power spectrum PSN (f).
[0017]
When subtraction is performed in this way, the value obtained by multiplying the power spectrum or amplitude spectrum of the estimated noise by the subtract coefficient is subtracted from the power spectrum or amplitude spectrum of the input speech, but if the subtract coefficient is large, the calculation is performed. It may be a negative value. Since the power spectrum or the amplitude spectrum cannot theoretically become a negative value, the portion is set to zero (0) or a relatively small positive constant. Therefore, if the subtraction process is performed, a distortion peculiar to the power spectrum or the amplitude spectrum as a subtraction result occurs. If this is used for speech recognition as it is, the recognition rate will decrease.
[0018]
Therefore, distortion reduction is realized by performing smoothing on the subtraction result. The premise of this technical idea is the recognition that “in general, the amplitude spectrum and power spectrum of an audio signal are correlated in the time direction”. For example, the power spectrum can be expressed as a function of frequency f and time (in this case, time corresponding to processing in units of frames) t = 0, 1, 2,... P (f, t). In this case, t = 0 indicates the present, t = 1 indicates the previous past, and t = 2 indicates the previous past. For example, even if P (f, 1) is 0 by the subtraction process described above, P (f, 0) and P (f, 2) may not be 0. Therefore, if interpolation is performed by paying attention to the relationship in the time (t) direction, P (f, 1) may be obtained as a non-zero value, which means that the power spectrum of an audio signal from which an actual noise component has been removed can be obtained. It is effective for reducing distortion.
[0019]
In this way, if the distortion in the case of performing noise suppression using the SS method can be reduced as much as possible for an input signal in which speech and noise are mixed, for example, the recognition rate in the case of performing speech recognition using the output thereof It can contribute to improvement and is very effective.
In order to reduce the influence of the correlation between speech and noise in the spectral domain, it is advantageous to increase the number of frames used for smoothing. However, if the number of frames increases and the speech analysis interval becomes longer, the performance of speech recognition itself may be degraded. In other words, since the voice changes with time, if the section to be processed is too long, it becomes a so-called “blurred” state, which has an adverse effect.
[0020]
  Therefore, the present inventionNoise suppressor in Japanese speech recognition systemThen, in order to prevent such a decrease in time resolution, the extraction interval by the input signal extraction means is set to 1 / n of the frame length (n is an integer of 2 or more), and smoothing is executed once every n times. I tried to do it. For example, in the case of n = 2, since the cutout of the frame is ½ of the frame length, the input voice is cut out with the half of the frame overlapping. In this way, even if a plurality of frames are used for smoothing, it corresponds to the conventional analysis length of one frame, so that the time resolution does not deteriorate.
[0021]
  However, if smoothing is performed each time, the recognition processing in the speech recognition device that performs speech recognition using the output from the noise suppression device is also performed twice, increasing the processing load. Therefore, if the process is performed once every two times, the recognition process in the speech recognition apparatus may be performed at a conventional frequency, and the processing load does not increase. In addition, since the analysis length is shortened, it also contributes to a reduction in processing load in a spectrum calculation unit that generally calculates a power spectrum or the like using fast Fourier transform (FFT).
[0022]
  Thus, the present inventionNoise suppressor in Japanese speech recognition systemCan reduce the inaccuracy in noise removal by suppressing the influence of the correlation between speech and noise in the spectral domain without lowering the time resolution. Claims7As shown in FIG. 4, it is assumed that the subtracting unit subtracts the noise spectrum PN (f) multiplied by a predetermined subtract coefficient from the power spectrum PSN (f) calculated based on the input signal in the voice section. The claims8As shown in FIG. That is, the apparatus further comprises an autocorrelation coefficient calculating means for calculating an autocorrelation coefficient based on the subtraction result by the subtraction means, and the smoothing means applies the autocorrelation coefficient to the autocorrelation coefficient calculated by the autocorrelation coefficient calculating means. To perform smoothing. In this manner, distortion can be similarly reduced even if the autocorrelation coefficient is used, and it is effective in reducing the memory capacity and the processing load in the speech recognition device that performs speech recognition using the output from the noise suppression device. .
[0023]
This is because the Fourier transform of the autocorrelation coefficient becomes the power spectrum, that is, the inverse Fourier transform of the power spectrum becomes the autocorrelation coefficient. The autocorrelation coefficient is C (r, t), and the inverse Fourier transform is F-1Then, the relationship with the power spectrum P (ft) is as follows.
C (r, t) = F-1[P (f, t)]
R is an index of the autocorrelation coefficient and corresponds to the frequency f in the power spectrum.
[0024]
For example, the following modification is possible due to the linearity of Fourier transform.
F-1[Α · P (f, 0) + β · P (f, 1) + γ · P (f, 2)]
= Α ・ F-1[P (f, 0)] + β · F-1[P (f, 1)] + γ · F-1[P (f, 2)]
= Α · C (r, 0) + β · C (r, 1) + γ · C (r, 2)
In this way, the power spectrum and autocorrelation coefficient are equivalent. Therefore, when performing smoothing, the same result, that is, an output with reduced distortion, is obtained regardless of whether the power spectrum is used or the autocorrelation coefficient is used. Obtainable.
[0025]
When such an autocorrelation coefficient is used, the memory capacity and processing load in the subsequent speech recognition apparatus are reduced. This will be described.
Assuming the case where the speech recognition apparatus in the subsequent stage performs linear predictive coding (LPC) and outputs a power spectrum from the noise suppression apparatus, the speech recognition apparatus first outputs the noise spectrum from the noise suppression apparatus. The autocorrelation coefficient must be calculated from the power spectrum. For this reason, the processing load and the memory capacity are increased. On the other hand, if the noise suppression device generates an autocorrelation coefficient and passes it to the speech recognition device side, the processing load and memory capacity of the speech recognition device can be reduced. When the speech recognition apparatus performs P-order LPC, the index r uses only an autocorrelation coefficient C (r, t) with r = 0, 1, 2,... P, and generally P = 17. is there.
[0026]
Therefore, it is possible to reduce the memory capacity and the processing load in the subsequent speech recognition apparatus by outputting the power spectrum obtained by inverse Fourier transform to generate an autocorrelation coefficient and interpolating the autocorrelation coefficient.
Note that the above-described determination means determines whether the input signal is a voice section that includes voice or a noise section that does not include voice. For example, as shown in claim 5, the input means It can be considered to make a determination based on the power of the signal. Further, the input period specified by the input period specifying means provided for the speaker himself / herself to specify the period for inputting the voice may be determined as the voice section. As this input period specifying means, for example, a PTT (Push-To-Talk) switch can be considered. That is, when the user inputs a voice while pressing the PTT switch, the voice input while the PTT switch is pressed is accepted as a processing target. By doing so, it is only necessary to perform the noise suppression process on the input signal that is the target of noise suppression, which is effective in reducing the processing load.
[0027]
  The speech recognition device of the speech recognition system of the present invention compares the output from the noise suppression device with a plurality of comparison target pattern candidates stored in advance, and uses the one with a high degree of coincidence as the recognition result.
[0028]
  ThisSuch a voice recognition system can be applied to various applications, for example, it can be used for a so-called car navigation system. In this case, for example, it is very convenient if a destination for route setting can be input by voice. In addition to the navigation system, for example, a voice recognition system may be used for an in-vehicle air conditioning system. In this case, the air conditioning state related instruction in the air conditioning system is used for the user to input by voice. Furthermore, for example, the present invention can be similarly applied to a portable information terminal device or an information terminal device set in a street or a parking area.
[0029]
And when realizing as a speech recognition system in this way, it is conceivable to devise not only the above-described device for the noise suppression device but also a device corresponding to the device on the noise suppression device side in the speech recognition device. Specifically, when creating the comparison target pattern candidates stored in the speech recognition apparatus, the following measures are taken.
[0030]
  For example, claims1In the system shown in FIG. 2, a comparison target pattern candidate is created using a result obtained by performing the same processing as the smoothing executed by the smoothing means on the spectrum of the learning sample speech. Hereinafter, the thus created pattern is referred to as a “first comparison target pattern candidate”.
[0031]
  Claims2In the system shown in FIG. 2, the learning sample speech on which noise is superimposed is subtracted from the spectrum of the learning sample speech multiplied by a predetermined subtract coefficient, similar to the subtracting means, A comparison target pattern candidate is created using a result obtained by performing the same smoothing as that performed by the smoothing means on the subtracted result. Hereinafter, the thus created pattern is referred to as “second comparison target pattern candidate”.
[0032]
As described above, the same processing as the smoothing executed in the smoothing means is performed on the learning sample speech spectrum or the learning sample speech on which noise is superimposed by the SS method. Because of the intention. That is, the device for the above-described noise suppression device performs smoothing in order to reduce distortion as much as possible when noise suppression is performed using the SS method. By performing this smoothing, the original characteristics of the voice are obtained. Will be changed. For this reason, even if noise suppression is effective, there is a possibility that in the recognition processing in the speech recognition apparatus, the recognition rate may be lowered due to the influence of the above-described speech characteristic change. Therefore, when creating a comparison target pattern candidate at the time of speech recognition, the learning sample speech spectrum (or one subjected to processing by the SS method) is not used as it is, but is the same as the smoothing executed in the smoothing means. By applying the processing, the voice characteristic change is intentionally added. By so doing, it is possible to absorb a change in speech characteristics due to smoothing on the noise suppression device side and prevent a recognition rate from being lowered.
[0033]
  Note that, as described above, the speech recognition compares the output from the noise suppression device with a plurality of comparison target pattern candidates stored in advance, and uses a result with a high degree of coincidence. Enhancing candidates will improve recognition rate. Thus, for example, the claims3As shown, it is preferable that both the first comparison target pattern candidate and the second comparison target pattern candidate are provided as the comparison target pattern candidates stored in the speech recognition apparatus. From the same viewpoint, the claims4As shown in Fig. 5, the processing using the SS method is performed on the learning sample speech on which noise is superimposed, that is, the result of subtracting the noise spectrum multiplied by a predetermined subtract coefficient from the spectrum of the learning sample speech. Preparing the third comparison target pattern candidate created in this way and providing the first or second comparison target pattern candidate and the third comparison target pattern candidate, or the first to third comparison target pattern candidates May be provided.
[0034]
  And claims5As shown in FIG. 5, it is preferable that the noise used when creating the second and third comparison target pattern candidates is noise in an environment where the speech recognition system is used. It is more preferable to consider not only one type but also a plurality of types as the environmental noise. For example, when the voice recognition system is used in an automobile, the noise level and SN are determined depending on the type of vehicle installed, traveling speed, opening / closing of windows, use of other in-vehicle devices such as an air conditioner and audio, etc. The ratio is different. Therefore, it is preferable to assume several usage environments that appropriately take these elements into consideration, and to create a comparison target pattern candidate using the learning sample speech on which noise is superimposed in that environment.
[0036]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 is a block diagram showing a schematic configuration of a speech recognition system according to an embodiment of the present invention. The speech recognition system includes a noise suppression device 10 that performs noise suppression on speech input via a microphone 30, and outputs from the noise suppression device 10 as a plurality of comparison target pattern candidates stored in advance. A voice recognition device 20 that uses a recognition result having a high degree of coincidence as a comparison is provided.
[0037]
First, the noise suppression device 10 will be described. As shown in FIG. 1, the noise suppression apparatus 10 includes a voice input unit 11, an input voice cutout unit 12, a Fourier transform unit 13, a power spectrum conversion unit 14, a noise power spectrum estimation unit 15, and a subtraction unit. 16, an inverse Fourier transform unit 17, and a smoothing unit 18. Hereinafter, processing contents in each block will be described.
[0038]
The voice input unit 11 converts an analog voice signal input via the microphone 30 into a digital signal with a sampling frequency of 12 KHz, for example, and outputs the digital signal to the input voice cutout unit 12 and the noise power spectrum estimation unit 15.
The noise power spectrum estimator 15 sequentially cuts out frames of a predetermined length at predetermined cut intervals while overlapping the input signals from the voice input unit 11. The spectrum is obtained by Fourier transform, and the power spectrum obtained by calculating the square of the amplitude of the spectrum is stored in an internal buffer (not shown). This cut-out interval coincides with the time interval of subsequent processing.
[0039]
This buffer does not store all the past power spectra, but stores the power spectra Pn (f, t) for the latest m frames while sequentially updating them.
In the power spectrum Pn (f, t), f is a frequency, t is a time (in this case, a time corresponding to processing in units of frames), t = 0 is the present, t = 1 is the previous past, t As the number increases, the previous past is indicated as = 2 is the previous past. Therefore, the power spectrum Pn (f, t) for the latest m frames is Pn (f, 0), Pn (f, 1), Pn (f, 2),... Pn (f, m−1) ). The previous power spectrum before that is discarded from the buffer.
[0040]
When the noise power spectrum estimation unit 15 receives a voice input detection signal indicating that voice has been input, the noise power spectrum estimation unit 15 stops the noise power spectrum estimation process. In the present embodiment, this voice input detection signal is output when a PTT (Push-To-Talk) switch (not shown) is pressed. That is, in this voice recognition system, the user inputs voice via the microphone 30 while pressing the PTT switch. Therefore, the fact that the PTT switch has been pressed means that the user has operated with the will to input the voice. In this case, the voice is not judged without actually determining whether or not there is voice input. Processing is performed by regarding the input period (voice section).
[0041]
The noise power spectrum estimator 15 that has received the voice input detection signal stops the noise power spectrum estimation process, and the m power spectra Pn (f, 0), Pn (f, 1), Pn (f, 2),... An average value of Pn (f, m-1) is calculated to create a noise power spectrum PN (f) (f is a frequency) used for subtraction in the SS method. It passes to the arithmetic unit 16. The calculation formula of the noise power spectrum PN (f) is as follows.
[0042]
[Expression 1]
Figure 0004325044
[0043]
On the other hand, the input voice cutout unit 12 performs processing only when a voice input detection signal is received. In this process, the input signals from the audio input unit 11 are overlapped, and the frames are sequentially cut out for each frame having a predetermined length at a predetermined cut-out interval and output to the Fourier transform unit 13. The Fourier transform unit 13 obtains a spectrum Spec (f) of the input sound signal by performing Fourier transform on the input sound signal for each frame, and outputs it to the power spectrum conversion unit 14.
[0044]
Then, the power spectrum conversion unit 14 calculates the square of the amplitude of the spectrum Spec (f) to obtain the power spectrum PSN (f) and passes it to the subtraction unit 16. The formula for calculating the power spectrum PSN (f) is as follows.
[0045]
[Expression 2]
Figure 0004325044
[0046]
The subtraction unit 16 multiplies the noise power spectrum PN (f) sent from the noise power spectrum estimation unit 15 by a predetermined subtract coefficient from the power spectrum PSN (f) sent from the power spectrum conversion unit 14. Subtract and send to the inverse Fourier transform unit 17. Here, the subtract coefficient is 1.4, and is zero when the subtraction coefficient is negative. Therefore, the output P (f) from the subtraction unit 16 is as shown in the following equation.
[0047]
[Equation 3]
Figure 0004325044
[0048]
In the inverse Fourier transform unit 17, the output P (f) from the subtraction unit 16 is subjected to inverse Fourier transform to obtain an autocorrelation coefficient CSS (r) (r is a correlation lag, r = 0, 1, 2,3, ...) The inverse Fourier transform unit 17 transmits only the autocorrelation coefficient CSS (r) having r = 0, 1, 2,..., P to the smoothing unit 18.
[0049]
The smoothing unit 18 always holds the current time and the past two autocorrelation coefficients in a buffer (not shown). That is, if t = 0 indicates the current past, t = 1 indicates the previous past, and t = 2 indicates the previous past, CSS (r, 0), CSS (r, 1), CSS (r, 2) These are the three autocorrelation coefficients. The autocorrelation coefficient sent from the inverse Fourier transform unit 17 is stored in the buffer of the smoothing unit 18 as an autocorrelation coefficient at the present time, and three autocorrelation coefficients combined with the past two autocorrelation coefficients are used. Thus, the previous past autocorrelation coefficient is obtained as follows. Note that the output of the smoothing unit 18 is C (r).
C (r) = β0 · CSS (r, 0) + β1 · CSS (r, 1) + β2 · CSS (r, 2)
(Β0 = 0.4 / 1.8, β1 = 1.0 / 1.8, β2 = 0.4 / 1.8, r = 0,1,2, ..., p)
By the way, the smoothing in the smoothing unit 18 is not performed every time an autocorrelation coefficient is sent from the inverse Fourier transform unit 17, but is performed only once every n times. This n depends on the relationship between the cutout interval by the input voice cutout unit 12 and the frame length. When the cutout interval is 1 / n of the frame length (n is a natural number), smoothing is performed once every n times. Will be done.
[0050]
As described above, the input voice cutout unit 12 cuts out each frame of a predetermined length sequentially at a predetermined cutout interval while overlapping the input signals from the voice input unit 11 and outputs the frames to the Fourier transform unit 13. . For example, if 256 points are cut out every 128 times of sampling at a sampling frequency of 12 KHz as shown in the upper part of FIG. 2, a voice of 21.5 ms is processed every approximately 10.8 m. In this case, the frame length is 256 points and the frame period is 128 points. Since the smoothing unit 18 performs smoothing for three frames, when the frame length is 256 points and the frame period is 128 points, 512 points, that is, 43 ms of speech is processed.
[0051]
However, since the voice changes with time, if the section to be processed is too long, it becomes a so-called “blurred” state and adversely affects. That is, the time resolution is lowered. Therefore, in this embodiment, the input voice cutout unit 12 cuts out 128 points for every 64 samplings as shown in the lower part of FIG. 2, and outputs about 10.8 m of voice every about 5.4 ms. It was made to process. In this case, the frame length is 128 points and the frame period is 64 points. In this way, even if the smoothing unit 18 performs the smoothing for 3 frames, it is only 256 points. That is, since it corresponds to the analysis length of one frame before the frame length is halved (see the upper stage in FIG. 2), the time resolution does not decrease.
[0052]
However, if no measures are taken just by halving the frame length and the frame period in this way, the recognition processing in the speech recognition device 20 that performs speech recognition using the output from the noise suppression device 10 is also twice the frequency. This increases the processing load. Therefore, in this embodiment, the smoothing is performed once every two times. In this way, the recognition process in the speech recognition apparatus 20 may be performed with the conventional frequency, and the processing load does not increase.
[0053]
Furthermore, since the analysis length is shortened, it contributes to a reduction in processing load in the Fourier transform unit 13. For example, the calculation amount by the fast Fourier transform may be 0.875 times that when a frame length of 256 points is used, and the calculation amount of analysis can be further reduced.
As described above, the autocorrelation coefficient C (r) (r = 0, 1, 2,..., P) obtained by performing smoothing once in the smoothing unit 18 is sequentially supplied to the speech recognition apparatus 20. Sent.
[0054]
Next, the voice recognition device 20 will be described.
The speech recognition apparatus 20 includes an LPC analysis unit 21, a cepstrum calculation unit 22, a standard pattern storage unit 23, a collation unit 24, and a determination unit 25.
The LPC analysis unit 21 performs linear prediction analysis using the output from the noise suppression device 10. Linear prediction analysis is a general analysis technique in the field of speech signal processing, and is described in detail in, for example, Furui “Digital Speech Processing” (Tokai University Press). In this embodiment, the autocorrelation method is used for this linear prediction analysis, and the m-th order LPC coefficient is calculated using the autocorrelation coefficient C (r). In the present embodiment, since the autocorrelation coefficient C (r) is output from the smoothing unit 18 of the noise suppression apparatus 10, the LPC analysis unit 21 may calculate the LPC coefficient using it as it is. That is, when output in the state of the power spectrum, it is necessary to perform an inverse Fourier transform to calculate the autocorrelation coefficient, but in the present embodiment, in the form of the autocorrelation coefficient C (r). Since it is output, it is not necessary for the LPC analyzer 21 to perform inverse Fourier transform.
[0055]
The cepstrum calculation unit 22 calculates an LPC cepstrum coefficient as a feature parameter on the spectrum for each frame based on the LPC coefficient calculated by the LPC analysis unit 21.
On the other hand, the standard pattern storage unit 23 stores a standard pattern (characteristic parameter series) of the recognition target vocabulary calculated in advance, and the collation unit 24 uses the standard pattern stored in the standard pattern storage unit 23 and the standard pattern stored in the standard pattern storage unit 23. The similarity calculation is performed with the LPC cepstrum coefficient calculated by the cepstrum calculation unit 22. These time series data is divided into several sections by a known DP matching method, HMM (Hidden Markov Model), or a neural network, and it is determined which word corresponds to each section stored as dictionary data. . And the determination part 25 outputs the vocabulary with the highest similarity calculated in the collation part 24 among each recognition object vocabulary as a recognition result.
[0056]
As described above, according to the speech recognition system of the present embodiment, the subtraction unit 16 of the noise suppression device 10 converts the power spectrum PSN (f) calculated based on the input signal in the speech section to the noise spectrum PN (f). A value obtained by multiplying a predetermined subtract coefficient (1.4 here) is subtracted.
[0057]
In the subtraction unit 16, the noise power spectrum PN (f) multiplied by 1.4 is subtracted from the power spectrum PSN (f) calculated based on the input signal in the voice section as described above. In this case, since the subtract coefficient is 1.4 which is larger than 1, it may be a negative value in calculation. Since the power spectrum cannot theoretically become a negative value, the portion is set to zero (0) or a relatively small positive constant. Therefore, if this subtraction process is left as it is, distortion peculiar to the power spectrum that is the subtraction result is generated, and if this is used as it is for speech recognition, the recognition rate is lowered.
[0058]
Therefore, the inverse Fourier transform unit 17 converts the subtraction result into an autocorrelation coefficient, and the smoothing unit 18 executes smoothing, which is a moving average process in the time direction (t), to realize distortion reduction. If the distortion when noise suppression is performed using the SS method on an input signal in which speech and noise are mixed can be reduced as much as possible, it contributes to an improvement in the recognition rate in speech recognition in the subsequent speech recognition device 20. Can be very effective.
[0059]
In addition, since the sound changes with time, if the section to be processed is too long, the time resolution is lowered. Therefore, in the input sound extraction unit 12, as shown in the lower part of FIG. The period is 64 points, which is half that of the upper case in FIG. In this way, even if the smoothing unit 18 performs smoothing for three frames, it corresponds to the analysis length for one frame before the frame length is halved, so that the time resolution does not decrease.
[0060]
However, if no measures are taken just by halving the frame length and the frame period in this way, the recognition processing in the speech recognition device 20 that performs speech recognition using the output from the noise suppression device 10 is also twice the frequency. This increases the processing load. Therefore, in this embodiment, the smoothing is performed once every two times. In this way, the recognition process in the speech recognition apparatus 20 may be performed with the conventional frequency, and the processing load does not increase.
[0061]
In this embodiment, since the frame period is halved of the frame length, the smoothing is performed once every two times. However, if the frame period is one third of the frame length, the smoothing is naturally performed. If the frame period is one-fourth of the frame length and smoothing is performed once every four times, the processing load will not increase.
[0062]
In this embodiment, the subtraction result in the subtraction unit 16 is converted into an autocorrelation coefficient in the inverse Fourier transform unit 17. In this way, distortion can be similarly reduced even if the autocorrelation coefficient is used. In this case, the memory capacity and processing load in the subsequent speech recognition apparatus 20 are effective.
[0063]
This is because the inverse Fourier transform of the power spectrum becomes an autocorrelation coefficient. That is, the autocorrelation coefficient is C (r, t), and the inverse Fourier transform is F-1Then, the relationship with the power spectrum P (f, t) is as follows.
C (r, t) = F-1[P (f, t)]
R is an index of the autocorrelation coefficient and corresponds to the frequency f in the power spectrum.
[0064]
For example, considering the above-described smoothing, the following modification is possible due to the linearity of Fourier transform.
F-1[Α · P (f, 0) + β · P (f, 1) + γ · P (f, 2)]
= Α ・ F-1[P (f, 0)] + β · F-1[P (f, 1)] + γ · F-1[P (f, 2)]
= Α · C (r, 0) + β · C (r, 1) + γ · C (r, 2)
In this way, the power spectrum and autocorrelation coefficient are equivalent. Therefore, when performing smoothing, the same result, that is, an output with reduced distortion, is obtained regardless of whether the power spectrum is used or the autocorrelation coefficient is used. Obtainable. In the speech recognition device 20, linear prediction analysis is performed in the LPC analysis unit 21. However, assuming that the power spectrum is output from the noise suppression device 10, the speech recognition device 20 starts with the noise suppression device 10. The autocorrelation coefficient must be calculated based on the output power spectrum. For this reason, the processing load and the memory capacity are increased. However, if the noise suppression apparatus 10 generates an autocorrelation coefficient as in the present embodiment and passes this to the speech recognition apparatus 20, the processing load and the memory capacity in the speech recognition apparatus 20 are increased. Can be reduced.
[0065]
In the present embodiment, the cutout function in the input voice cutout unit 12 and the noise power spectrum estimation unit 15 corresponds to “input signal cutout unit”. In addition, the input voice cutout unit 12 starts the cutout process when a voice input detection signal is input, or the noise power spectrum estimation unit 15 stops the noise power spectrum estimation when the voice input detection signal is input. However, this corresponds to a change in the processing content based on the determination result of the voice section and the noise section by the “determination means”. The Fourier transform unit 13 and the power spectrum conversion unit 14 correspond to “spectrum calculation means”, and the noise power spectrum estimation unit 15 corresponds to “noise spectrum estimation means”. The subtraction unit 16 corresponds to “subtraction unit”, and the smoothing unit 18 corresponds to “smoothing unit”. Further, the inverse Fourier transform unit 17 corresponds to “autocorrelation coefficient calculation means”.
[0066]
As described above, the present invention is not limited to such embodiments, and can be implemented in various forms without departing from the spirit of the present invention.
(1) For example, in the above embodiment, the power spectrum PSN (f) obtained by squaring the amplitude of the frequency spectrum Spec (f) obtained by Fourier transform is used, and the noise power spectrum PN (f) is similarly used. Alternatively, the amplitude spectrum A (f) itself, which is the amplitude component of the frequency spectrum Spec (f), may be used. In this case, the noise amplitude spectrum AN (f) is estimated, and the noise amplitude spectrum AN (f) multiplied by a predetermined subtract coefficient is calculated from the amplitude spectrum ASN (f) calculated based on the input signal in the speech section. Subtract.
[0067]
However, since the autocorrelation coefficient C (r, t) is equivalent to the power spectrum P (f, t) as described above, the autocorrelation coefficient cannot be obtained when the amplitude spectrum is used. No merit is obtained when the autocorrelation coefficient is used. However, conversely, the reason why the noise suppression device 10 generates the autocorrelation coefficient is that when this is passed to the speech recognition device 20, it is possible to reduce processing load and memory capacity in the speech recognition device 20. If this advantage is not enjoyed, the autocorrelation coefficient may not be used. Therefore, it is possible to implement a mode in which a power spectrum or an amplitude spectrum is used and output to a subsequent speech recognition device or the like without being converted into an autocorrelation coefficient.
(2) In the above embodiment, when a speaker inputs a voice while pressing the PTT switch using the PTT switch provided for the speaker himself / herself to specify a period for inputting the voice, the PTT switch While being pressed is regarded as a voice section, the voice section and the noise section may be determined based on an actual input signal. For example, it is conceivable to make a determination based on the power of the input signal.
[0068]
(3) Moreover, when realizing as a speech recognition system, it is conceivable that not only the above-described device for the noise suppression device 10 but also a device corresponding to the device on the noise suppression device 10 side is applied to the speech recognition device 20. . Specifically, it is devised when creating a standard pattern (characteristic parameter series) of recognition target words to be stored in the standard pattern storage unit 23 of the speech recognition apparatus 20. FIG. 3 shows a schematic processing procedure. When the learning sample voice is input (S1), the input voice is cut out (S2). When the power spectrum is calculated (S3), the same filtering process as that performed by the smoothing unit 18 of the noise suppression apparatus 10 is performed (S4). Then, a feature amount (cepstrum coefficient) is calculated using the result of the filtering process (S5), and stored in the standard pattern storage unit 23 as a standard pattern of the recognition target vocabulary (S6).
[0069]
Thus, the intention of performing the same processing as the smoothing executed in the smoothing unit 18 on the power spectrum of the learning sample speech is as follows. In other words, the above-described contrivance for the noise suppression apparatus 10 performs smoothing in order to reduce as much as possible the distortion when performing noise suppression using the SS method. The characteristic has been changed. For this reason, even if noise suppression is effective, there is a possibility that the recognition rate in the speech recognition apparatus 20 may be reduced in some cases due to the influence of the above-described change in speech characteristics. Therefore, when the collation unit 24 of the speech recognition apparatus 20 creates a standard pattern that is a target of similarity calculation with the LPC cepstrum coefficient calculated by the cepstrum calculation unit 22, the spectrum of the learning sample speech is used. The voice characteristic change is intentionally added by performing the same processing as the smoothing executed in the smoothing unit 18 instead of using the same. By so doing, it is possible to absorb a change in speech characteristics due to smoothing on the noise suppression apparatus 10 side and prevent a recognition rate from being lowered.
[0070]
Note that the processing procedure shown in FIG. 3 can be applied to the case where the learning sample speech does not include noise or includes noise. However, when noise is included, the SS method may be used as in the case of the noise suppression apparatus 10 shown in FIG. That is, the noise power spectrum is estimated from the learning sample speech on which noise is superimposed, and the noise spectrum multiplied by a predetermined subtract coefficient is subtracted from the power spectrum of the learning sample speech. Then, the subtracted result is subjected to the same smoothing as that executed in the smoothing unit 18 to calculate a feature amount (cepstrum coefficient).
[0071]
Note that, as described above, the speech recognition compares the output from the noise suppression device 10 with a standard pattern candidate stored in advance, and obtains a recognition result having a high degree of coincidence. Enrichment will lead to an improvement in recognition rate. Therefore, it is preferable to provide both the standard pattern created by the above-described processing procedure of FIG. 3 and the standard pattern created using the SS method. And since the noise is mostly included in the actual usage environment, the learning sample voice used to create the standard pattern should be the one with the noise superimposed in the environment where the voice recognition system is used. Is preferred. Furthermore, it is preferable to consider not only one type but also a plurality of types as this environmental noise. For example, when the voice recognition system is used in an automobile, the noise level and SN are determined depending on the type of vehicle installed, traveling speed, opening / closing of windows, use of other in-vehicle devices such as an air conditioner and audio, etc. The ratio is different. Therefore, several use environments that appropriately take these elements into consideration are assumed, and comparison target pattern candidates are created using the learning sample speech on which noise is superimposed in the environments.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a schematic configuration of a speech recognition system according to an embodiment of the present invention.
FIG. 2 is an explanatory diagram showing a comparison between a frame length and a frame period.
FIG. 3 is a flowchart showing a standard pattern creation processing procedure;
FIG. 4 is an explanatory diagram showing an outline of a conventional speech recognition system.
[Explanation of symbols]
10 ... Noise suppression device 11 ... Voice input unit
12 ... Input voice cutout unit 13 ... Fourier transform unit
14 ... Power spectrum conversion unit 15 ... Noise power spectrum estimation unit
16 ... Subtraction unit 17 ... Inverse Fourier transform unit
18 ... smoothing unit 20 ... voice recognition device
21 ... LPC analysis unit 22 ... Cepstrum calculation unit
23 ... Standard pattern storage unit 24 ... Verification unit
25 ... Determination unit 30 ... Microphone
200 ... voice recognition system 201 ... microphone
203 ... Noise suppression device 204 ... Speech recognition device
205 ... PTT switch

Claims (9)

雑音抑圧装置と、
該雑音抑圧装置からの出力を、予め記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とする音声認識装置と、を備える音声認識システムであって、
前記雑音抑圧装置は、
入力信号を、所定の切り出し間隔毎に、所定のフレーム長のフレーム信号として切り出す入力信号切り出し手段と、
前記フレーム信号からスペクトラムを算出するスペクトラム算出手段と、
前記入力信号に音声が含まれている音声区間と、前記音声が含まれていない雑音区間とを判定する判定手段と、
該判定手段によって判定された前記雑音区間の入力信号に基づいて算出した前記スペクトラムを用いて雑音スペクトラムを推定する雑音スペクトラム推定手段と、
前記音声区間の入力信号に基づいて算出した前記スペクトラムから、前記雑音スペクトラム推定手段によって推定された前記雑音スペクトラムに所定のサブトラクト係数を乗じたものを引算する引算手段と、
該引算手段によって引算された結果に対して時間方向の移動平均処理であるスムージングを実行するスムージング手段とを備え、
前記入力信号切り出し手段による切り出し間隔は、前記フレーム長のn分の1(nは2以上の整数)であると共に、前記スムージング手段は、前記スムージングをn回に1回実行し、
前記音声認識装置内に記憶されている前記比較対象パターン候補は、学習用サンプル音声のスペクトラムに対し、前記スムージング手段において実行されるスムージングと同一の処理を施した結果を用いて作成された第1の比較対象パターン候補であること、を特徴とする音声認識システム。
A noise suppressor;
A speech recognition system comprising: a speech recognition device that recognizes an output from the noise suppression device as a recognition result by comparing a plurality of comparison target pattern candidates stored in advance with a high degree of coincidence;
The noise suppression device includes:
Input signal cutout means for cutting out the input signal as a frame signal of a predetermined frame length at every predetermined cutout interval;
Spectrum calculating means for calculating a spectrum from the frame signal;
Determining means for determining a voice section in which voice is included in the input signal and a noise section in which the voice is not included;
Noise spectrum estimation means for estimating a noise spectrum using the spectrum calculated based on the input signal of the noise section determined by the determination means;
Subtracting means for subtracting a value obtained by multiplying the noise spectrum estimated by the noise spectrum estimating means by a predetermined subtract coefficient from the spectrum calculated based on the input signal of the speech section;
Smoothing means for performing smoothing, which is a moving average process in the time direction, on the result subtracted by the subtraction means,
The cut-out interval by the input signal cut-out means is 1 / n of the frame length (n is an integer of 2 or more), and the smoothing means executes the smoothing once every n times,
The comparison target pattern candidate stored in the speech recognition apparatus is a first created using a result obtained by performing the same processing as the smoothing executed by the smoothing means on the spectrum of the learning sample speech. A speech recognition system characterized by being a comparison target pattern candidate .
雑音抑圧装置と、
該雑音抑圧装置からの出力を、予め記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とする音声認識装置と、を備える音声認識システムであって、
前記雑音抑圧装置は、
入力信号を、所定の切り出し間隔毎に、所定のフレーム長のフレーム信号として切り出す入力信号切り出し手段と、
前記フレーム信号からスペクトラムを算出するスペクトラム算出手段と、
前記入力信号に音声が含まれている音声区間と、前記音声が含まれていない雑音区間とを判定する判定手段と、
該判定手段によって判定された前記雑音区間の入力信号に基づいて算出した前記スペクトラムを用いて雑音スペクトラムを推定する雑音スペクトラム推定手段と、
前記音声区間の入力信号に基づいて算出した前記スペクトラムから、前記雑音スペクトラム推定手段によって推定された前記雑音スペクトラムに所定のサブトラクト係数を乗じたものを引算する引算手段と、
該引算手段によって引算された結果に対して時間方向の移動平均処理であるスムージングを実行するスムージング手段とを備え、
前記入力信号切り出し手段による切り出し間隔は、前記フレーム長のn分の1(nは2以上の整数)であると共に、前記スムージング手段は、前記スムージングをn回に1回実行し、
前記音声認識装置内に記憶されている前記比較対象パターン候補は、雑音の重畳された学習用サンプル音声に対して、前記引算手段と同様に、前記学習用サンプル音声のスペクトラムから前記雑音のスペクトラムに所定のサブトラクト係数を乗じたものを引算し、その引算された結果に対し、前記スムージング手段において実行されるのと同一のスムージングを施した結果を用いて作成された第2の比較対象パターン候補であること、を特徴とする音声認識システム。
A noise suppressor;
A speech recognition system comprising: a speech recognition device that recognizes an output from the noise suppression device as a recognition result by comparing a plurality of comparison target pattern candidates stored in advance with a high degree of coincidence;
The noise suppression device includes:
Input signal cutout means for cutting out the input signal as a frame signal of a predetermined frame length at every predetermined cutout interval;
Spectrum calculating means for calculating a spectrum from the frame signal;
Determining means for determining a voice section in which voice is included in the input signal and a noise section in which the voice is not included;
Noise spectrum estimation means for estimating a noise spectrum using the spectrum calculated based on the input signal of the noise section determined by the determination means;
Subtracting means for subtracting a value obtained by multiplying the noise spectrum estimated by the noise spectrum estimating means by a predetermined subtract coefficient from the spectrum calculated based on the input signal of the speech section;
Smoothing means for performing smoothing, which is a moving average process in the time direction, on the result subtracted by the subtraction means,
The cut-out interval by the input signal cut-out means is 1 / n of the frame length (n is an integer of 2 or more), and the smoothing means executes the smoothing once every n times,
The comparison target pattern candidate stored in the speech recognition apparatus is similar to the subtracting means for the learning sample speech on which noise is superimposed, from the spectrum of the learning sample speech to the spectrum of the noise. The second comparison object created by using the result obtained by performing the same smoothing as that performed by the smoothing means on the subtracted result obtained by subtracting the product obtained by multiplying by the predetermined subtract coefficient. A speech recognition system characterized by being a pattern candidate .
請求項1に記載の音声認識システムにおいて、
前記音声認識装置内に記憶されている前記比較対象パターン候補には、前記第1の比較対象パターン候補に加え、雑音の重畳された前記学習用サンプル音声に対して、前記引算手段と同様に、前記学習用サンプル音声のスペクトラムから前記雑音のスペクトラムに所定のサブトラクト係数を乗じたものを引算し、その引算された結果に対し、前記スムージング手段において実行されるのと同一のスムージングを施した結果を用いて作成された第2の比較対象パターン候補も含まれていること、を特徴とする音声認識システム。
The speech recognition system according to claim 1,
In the comparison target pattern candidate stored in the speech recognition apparatus, in addition to the first comparison target pattern candidate, the learning sample speech superimposed with noise is similar to the subtraction unit. Subtracting the noise spectrum multiplied by a predetermined subtract coefficient from the learning sample speech spectrum, and applying the same smoothing to that performed by the smoothing means. A speech recognition system characterized in that a second comparison target pattern candidate created using the result is also included.
請求項1または3に記載の音声認識システムにおいて、
前記音声認識装置内に記憶されている前記比較対象パターン候補には、前記第1の比較対象パターン候補及び/又は前記第2の比較対象パターン候補に加え、雑音の重畳された前記学習用サンプル音声に対して、前記引算手段と同様に、前記学習用サンプル音声のスペクトラムから前記雑音のスペクトラムに所定のサブトラクト係数を乗じたものを引算した結果を用いて作成された第3の比較対象パターン候補も含まれていること、を特徴とする音声認識システム。
The speech recognition system according to claim 1 or 3,
The comparison target pattern candidates stored in the speech recognition apparatus include the learning sample speech on which noise is superimposed in addition to the first comparison target pattern candidate and / or the second comparison target pattern candidate. On the other hand, similarly to the subtracting means, a third comparison target pattern created by subtracting the noise spectrum multiplied by a predetermined subtract coefficient from the learning sample speech spectrum A speech recognition system characterized by including candidates.
請求項2〜4のいずれかに記載の音声認識システムにおいて、
前記第2及び第3の比較対象パターン候補を作成する際に用いる雑音は、音声認識システムが使用される環境での雑音であることを特徴とする雑音抑圧装置。を特徴とする音声認識システム。
The speech recognition system according to any one of claims 2 to 4,
The noise suppression apparatus, wherein the noise used when creating the second and third comparison target pattern candidates is noise in an environment where a speech recognition system is used. Voice recognition system characterized by
請求項1〜5のいずれかに記載の音声認識システムにおいて、
前記スペクトラム算出手段は、前記フレーム信号から振幅スペクトラムを算出し、
前記雑音スペクトラム推定手段は、前記雑音区間の入力信号に基づいて算出した前記振幅スペクトラムを用いて雑音振幅スペクトラムを推定し、
前記引算手段は、前記音声区間の入力信号に基づいて算出した前記振幅スペクトラムから、前記雑音スペクトラム推定手段によって推定された前記雑音振幅スペクトラムに所定のサブトラクト係数を乗じたものを引算するよう構成されていることを特徴とする音声認識システム
In the voice recognition system according to any one of claims 1 to 5 ,
The spectrum calculating means calculates an amplitude spectrum from the frame signal,
The noise spectrum estimation means estimates a noise amplitude spectrum using the amplitude spectrum calculated based on an input signal of the noise section,
The subtracting unit is configured to subtract a value obtained by multiplying the noise amplitude spectrum estimated by the noise spectrum estimating unit by a predetermined subtract coefficient from the amplitude spectrum calculated based on an input signal of the speech section. A speech recognition system characterized by
請求項1〜5のいずれかに記載の音声認識システムにおいて、
前記スペクトラム算出手段は、前記フレーム信号からパワースペクトラムを算出し、
前記雑音スペクトラム推定手段は、前記雑音区間の入力信号に基づいて算出した前記パワースペクトラムを用いて雑音パワースペクトラムを推定し、
前記引算手段は、前記音声区間の入力信号に基づいて算出した前記パワースペクトラムから、前記雑音スペクトラム推定手段によって推定された前記雑音パワースペクトラムに所定のサブトラクト係数を乗じたものを引算するよう構成されていることを特徴とする音声認識システム
In the voice recognition system according to any one of claims 1 to 5 ,
The spectrum calculating means calculates a power spectrum from the frame signal,
The noise spectrum estimation means estimates the noise power spectrum using the power spectrum calculated based on the input signal of the noise section,
The subtracting unit is configured to subtract a value obtained by multiplying the noise power spectrum estimated by the noise spectrum estimating unit by a predetermined subtract coefficient from the power spectrum calculated based on the input signal of the speech section. A speech recognition system characterized by
請求項に記載の音声認識システムにおいて、
さらに、前記引算手段による引算結果に基づいて自己相関係数を算出する自己相関係数算出手段を備え、
前記スムージング手段は、前記自己相関係数算出手段によって算出された自己相関係数に対してスムージングを実行するよう構成されていることを特徴とする音声認識システム
The speech recognition system according to claim 7 .
Furthermore, an autocorrelation coefficient calculating means for calculating an autocorrelation coefficient based on the subtraction result by the subtraction means,
The speech recognition system , wherein the smoothing means is configured to perform smoothing on the autocorrelation coefficient calculated by the autocorrelation coefficient calculation means.
請求項1〜8のいずれかに記載の音声認識システムにおいて、
前記判定手段は、前記入力信号のパワーに基づいて前記音声区間及び雑音区間を判定するよう構成されていることを特徴とする音声認識システム
In the voice recognition system according to any one of claims 1 to 8 ,
The speech recognition system , wherein the determination unit is configured to determine the speech section and the noise section based on the power of the input signal.
JP31720699A 1999-11-08 1999-11-08 Speech recognition system Expired - Fee Related JP4325044B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31720699A JP4325044B2 (en) 1999-11-08 1999-11-08 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31720699A JP4325044B2 (en) 1999-11-08 1999-11-08 Speech recognition system

Publications (2)

Publication Number Publication Date
JP2001134286A JP2001134286A (en) 2001-05-18
JP4325044B2 true JP4325044B2 (en) 2009-09-02

Family

ID=18085656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31720699A Expired - Fee Related JP4325044B2 (en) 1999-11-08 1999-11-08 Speech recognition system

Country Status (1)

Country Link
JP (1) JP4325044B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4104313B2 (en) 2001-10-03 2008-06-18 株式会社デンソー Voice recognition device, program, and navigation system
JP4630956B2 (en) * 2004-03-30 2011-02-09 学校法人早稲田大学 Howling frequency component enhancement method and apparatus, howling detection method and apparatus, howling suppression method and apparatus, peak frequency component enhancement method and apparatus
JP4454591B2 (en) * 2006-02-09 2010-04-21 学校法人早稲田大学 Noise spectrum estimation method, noise suppression method, and noise suppression device
JP5109319B2 (en) * 2006-09-27 2012-12-26 トヨタ自動車株式会社 Voice recognition apparatus, voice recognition method, moving object, and robot
JP5515032B2 (en) 2009-06-24 2014-06-11 国立大学法人京都大学 Noise detection method, noise detection device, simulation method, simulation device, and communication system

Also Published As

Publication number Publication date
JP2001134286A (en) 2001-05-18

Similar Documents

Publication Publication Date Title
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
KR100870889B1 (en) Sound signal processing method, sound signal processing apparatus and recording medium
US7957964B2 (en) Apparatus and methods for noise suppression in sound signals
KR20010040669A (en) System and method for noise-compensated speech recognition
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
US20080208578A1 (en) Robust Speaker-Dependent Speech Recognition System
JP3451146B2 (en) Denoising system and method using spectral subtraction
US20110301945A1 (en) Speech signal processing system, speech signal processing method and speech signal processing program product for outputting speech feature
JP4705414B2 (en) Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP4325044B2 (en) Speech recognition system
JP3270866B2 (en) Noise removal method and noise removal device
Higa et al. Robust ASR based on ETSI Advanced Front-End using complex speech analysis
JP3444198B2 (en) Noise suppression device and speech recognition system using the device
CN111226278B (en) Low complexity voiced speech detection and pitch estimation
JP2006215228A (en) Speech signal analysis method and device for implementing this analysis method, speech recognition device using this device for analyzing speech signal, program for implementing this analysis method, and recording medium thereof
JPH11327593A (en) Voice recognition system
JP4576612B2 (en) Speech recognition method and speech recognition apparatus
Li et al. Sub-band based log-energy and its dynamic range stretching for robust in-car speech recognition
Alam et al. Smoothed nonlinear energy operator-based amplitude modulation features for robust speech recognition
JP2001067094A (en) Voice recognizing device and its method
Kleinschmidt Robust speech recognition using speech enhancement
KR101005858B1 (en) Apparatus and method for adapting model parameters of speech recognizer by utilizing histogram equalization
JP3205141B2 (en) Voice analysis method
JP2002507775A (en) Audio signal processing method and audio signal processing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090519

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090601

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130619

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140619

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees