JP3693022B2 - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置 Download PDFInfo
- Publication number
- JP3693022B2 JP3693022B2 JP2002020303A JP2002020303A JP3693022B2 JP 3693022 B2 JP3693022 B2 JP 3693022B2 JP 2002020303 A JP2002020303 A JP 2002020303A JP 2002020303 A JP2002020303 A JP 2002020303A JP 3693022 B2 JP3693022 B2 JP 3693022B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- noise
- spectrum
- speech
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、継続的に雑音の発生する騒音下において、有効に作用する音声認識方法及び音声認識装置に関する。
【0002】
【従来の技術】
入力された音声から発音、単語及び文章を分析理解する装置である音声認識装置において、雑音信号を除去し音声信号のみを取りだすことが望ましいことは言うまでもない。ところが継続的ではあるものの一定ではない雑音の発生する騒音下においては、雑音を予め予測することは容易ではない。白色雑音でない騒音の例としては、移動中の車両、船舶、航空機等の操縦室或いは貨物室、作業機器及び輸送機器による騒音を有する工場及び倉庫内などが挙げられる。
【0003】
このような、継続的ではあるものの一定ではない雑音の発生する騒音下における音声認識装置において、雑音を低下させる手法にスペクトルサブトラクション法がある(S. F. Boll, IEEE Trans. ASSP-27, 2 (1979) 113)。線型スペクトルサブトラクション法は、入力信号を周波数スペクトルに変換した後、音声を含む信号区間と背景雑音信号区間とに判別し、音声を含む信号区間の周波数スペクトルからその直前の背景雑音信号区間の周波数スペクトルを減じることで音声信号の周波数スペクトルを得るものである。この際、直前の背景雑音信号区間の周波数スペクトルのパワーを一律に1乃至3倍として音声を含む信号区間の周波数スペクトルから減じることで、雑音抑制をより効果的にすることもできる。
【0004】
一方、非線型スペクトルサブトラクション法と呼ばれる、減算パラメータαを周波数毎に設定するものが知られている(P. Lockwood and J. Bondy, Speech Communication, 11 (1992) 215)。これは、周波数毎の減算パラメータα(ω)を、音声を含まない周波数スペクトルの、各周波数ω毎の最大値(又はそれに比例させる)とするものである。例えば時間軸上40個のフレームを切り出し、各々を周波数変換して、周波数毎に40個のスペクトル(パワー)のうちの最大値をとるとするものである。また、特開平9−160594には、周波数帯域毎に減算パラメータαを最小二乗近似により求める方法が記載されている。この文献においては、最小二乗近似計算の計算量を減らすため周波数の帯域毎とする構成である。また、特開平10−177394には、騒音のスペクトル分析により予め記憶されたパターンのいずれであるかを認識し、それにより減算パラメータαを読み出す構成が開示されている。
【0005】
【発明が解決しようとする課題】
ところで減算パラメータαは、雑音の抑制のために大きな値を取るため、直前の背景雑音信号区間の周波数スペクトルのパワーを例えば一律に3倍として音声を含む信号区間の周波数スペクトルから減じると、その出力が負の値をとることがありうる。しかし音声を含む信号区間の周波数スペクトルは負の値を処理できない。そこで、このような不都合を回避するため、フロアリング係数βが用いられている(例えば公開特許公報2001−228892)。フロアリング係数βはいわば「下駄」であり、音声を含む信号区間の周波数スペクトルをβ倍した値を下限値とすることで、音声認識手段へ出力される周波数スペクトルが負とならないようにするものである。このフロアリング係数βとしては例えば0.01〜0.1の値で固定されるものが使用されている。
【0006】
しかし非線型スペクトルサブトラクション法(NSS)においては、減算パラメータαは一定値ではないため、フロアリング係数βを一定値としては、背景騒音のレベルの差の大きい各周波数に対し、フロアリング係数βの最適値はそもそも無く、雑音抑制を効果的にすることができなかった。
【0007】
本発明は上記の課題を解決するために成されたものであり、その目的は、各周波数ωごとのフロアリング係数β(ω)を算出して雑音を抑制する音声認識方法及び音声認識装置を提供する事である。また、簡易且つ計算量を抑えたまま、周波数ωごとのフロアリング係数β(ω)を算出する方法を提供することである。
【0008】
【課題を解決するための手段】
上記の課題を解決するため、請求項1に記載の手段によれば、スペクトルサブトラクション法を用いて雑音を低下させた上で音声を認識する音声認識方法において、音声を含む時間区間の周波数スペクトルから、音声を含まない時間区間の雑音周波数スペクトルを基にして周波数ごとに雑音を消去する際、音声を含む時間区間の周波数スペクトルと、1より小さく、周波数の関数であるフロアリング係数との積を下限値として、雑音を消去する際、周波数ごと音声を含む時間区間の周波数スペクトルから、音声を含まない時間区間の雑音周波数スペクトルと、周波数の関数である減算パラメータとの積を減じ、フロアリング係数を雑音周波数スペクトルからスペクトル包絡を求めた上で、スペクトル包絡の値が大きい程フロアリング係数を小さく、スペクトル包絡の値が小さい程フロアリング係数を大きくするように決定することを特徴とする。また、請求項2に記載の手段によれば、減算パラメータをスペクトル包絡の値が大きい程減算パラメータを大きく、スペクトル包絡の値が小さい程減算パラメータを小さくするように決定することを特徴とする。
【0009】
【0010】
また、請求項3に記載の手段によれば、騒音下における音声認識装置において、任意の区間に対し周波数スペクトルを求める周波数分析手段と、音声を含まない時間区間に対し、周波数分析手段により求められた雑音周波数スペクトルから減算パラメータを設定する減算パラメータ算定手段と、音声を含まない時間区間に対し、周波数分析手段により求められた雑音周波数スペクトルから、1より小さいフロアリング係数を設定するフロアリング係数算定手段と、フロアリング係数算定手段により決定された各周波数におけるフロアリング係数を音声を含む時間区間の周波数スペクトルの周波数ごとに乗じた値を算出する乗算手段と、音声を含む時間区間に対し、周波数分析手段により求められた周波数スペクトルから、雑音周波数スペクトルの周波数ごとに減算パラメータ算定手段により決定された各周波数における減算パラメータを乗じた値を減算する減算手段と、乗算手段の出力と減算手段の出力を比較して、大きいほう出力する比較手段とを備え、フロアリング係数算定手段は、周波数分析手段により求められた雑音周波数スペクトルからスペクトル包絡を求めた上で当該各周波数におけるスペクトル包絡に対応してフロアリング係数を設定するものであり、スペクトル包絡の値が大きい程フロアリング係数を小さく、スペクトル包絡の値が小さい程フロアリング係数を大きくするものであることを特徴とする。
【0011】
また、請求項4に記載の手段によれば、減算パラメータ算定手段は、スペクトル包絡の値が大きい程減算パラメータを大きく、スペクトル包絡の値が小さい程減算パラメータを小さくするものであることを特徴とする。
【0012】
【作用及び発明の効果】
本発明においては、フロアリング係数を音声を含まない時間区間の信号の周波数スペクトルによって周波数毎に設定するので、フロアリング係数にいわば周波数依存性をもたせているので、スペクトルサブストラクション法において、各周波数毎に適切な「下限値」を設定する事ができる。ここでスペクトルレベルの大きい周波数に対しては当該「下限値」を設定するためのフロアリング係数を小さく、スペクトルレベルの小さい周波数に対しては当該「下限値」を設定するためのフロアリング係数を大きくする。
【0013】
また、フロアリング係数を算出するための元となるものは、音声を含まない時間区間の信号のみであり、実質的には1組の雑音データから、観測データ中の音声信号を取りだすことができる。また、フロアリング係数を算出する方法を、簡易な雑音データのスペクトル包絡を求めることによるので、極めて容易である。この様にして得られたフロアリング係数は、各周波数ごとに設定され、且つ、雑音のパワーの確率論的な周波数毎の時間変動を平均したものとすることができる。即ち、このフロアリング係数を用いることで、音声を含む信号区間における雑音スペクトルを抑制する処理において、その出力が負とならないような適切なスペクトルの下限値を決定することができる。こうして、スペクトル包絡からフロアリング係数を算出することで、全体の構成としても小さく、且つ適切なフロアリング係数を算出できる音声認識装置とすることができる。尚、当該雑音データのスペクトル包絡から、減算パラメータを求めるようにすることも可能である。この場合、スペクトル包絡の大きい周波数に対しては減算パラメータを大きく、スペクトル包絡の小さい周波数に対しては減算パラメータを小さくすると良い。
【0014】
【発明の実施の形態】
以下、本発明の具体的な実施例について説明する。なお、本発明は以下の実施例に限定されるものではない。
【0015】
図1は、本発明の要部である、雑音周波数スペクトルのスペクトル包絡と減算パラメータα及びフロアリング係数βの関係の一例を示すグラフ図である。本実施例では雑音周波数スペクトル包絡に対し、減算パラメータαが最大2.6最小0.8となるよう、また、フロアリング係数βが最小0.005最大0.11となるよう設定している。即ち、雑音周波数スペクトル包絡の値が高いところでは減算パラメータαを大きく、フロアリング係数βを小さく、雑音周波数スペクトル包絡の値が低いところでは減算パラメータαを小さく、フロアリング係数βを大きくする。このように、雑音スペクトル包絡の各周波数ごとの値から減算パラメータα及びフロアリング係数βを決定するよう設定することで、容易に周波数依存のパラメータα及びフロアリング係数βを決定できる。
【0016】
図2に、雑音信号から雑音周波数スペクトルのスペクトル包絡を求める具体例を示す。
ディジタルデータである雑音信号波形を高速フーリエ変換器(FFT,1)により高速フーリエ変換し、各周波数毎のパワー(雑音周波数スペクトル)を求める。これの対数(log、図2で11)をとって再度高速フーリエ変換(FFT、図2で12)すれば、雑音信号のケプストラムを得ることができる。ここでケフレンシーの低い部分のみを取りだし(図2で13)、低ケフレンシー成分を逆高速フーリエ変換(IFFT、図2で14)すれば、雑音周波数スペクトルの対数の包絡を得ることができる。この後指数(exp、図2で20)をとって雑音周波数スペクトルの包絡として、又は雑音周波数スペクトルの対数の包絡自体から減算パラメータα及びフロアリング係数βを算出することが可能となる。
【0017】
図3は、上記のような減算パラメータα及びフロアリング係数βの算定部(減算パラメータ算定手段及びフロアリング係数算定手段)10を有する音声認識装置100の概略を示すブロック図である。入力信号が高速フーリエ変換器(FFT、周波数分析手段)1により周波数スペクトル信号となる。スペクトル信号は例えば0〜10kHzの範囲である。次にその周波数スペクトル信号が音声有無判定器(音声区間判定手段)2により、一連の入力信号の音声の有無が判定される。例えば1000〜4000Hzの範囲での周波数スペクトルのパワーが他の範囲の周波数スペクトルのパワーよりも大きいか、などの特徴により判定される。ここで音声が含まれない雑音信号区間であると判断されると、雑音周波数スペクトル記憶部(メモリ)3に周波数スペクトル(雑音周波数スペクトルN(ω))が記憶される。また、算定部(減算パラメータ算定手段及びフロアリング係数算定手段)10に雑音周波数スペクトルN(ω)が送られる。
【0018】
算定部10では、以下のようにして雑音周波数スペクトルN(ω)から減算パラメータα(ω)及びフロアリング係数β(ω)を算定する。まず、雑音周波数スペクトルN(ω)の対数logN(ω)が対数演算器11により求められる。次に高速フーリエ変換器(FFT)12により、ケプストラムCが求められる。次に低ケフレンシー窓器13によりケプストラムCのうち低ケフレンシー部分C'が求められる。次に逆高速フーリエ変換器(IFFT)14により、雑音周波数スペクトルN(ω)の対数logN(ω)の包絡l(ω)が求められる。包絡l(ω)の値から減算パラメータα(ω)及びフロアリング係数β(ω)が算出器15により求められる。
【0019】
この様な演算が、音声を含む信号区間が入力されるまで続けられ、雑音周波数スペクトルN(ω)、減算パラメータα(ω)及びフロアリング係数β(ω)が更新されていく。そして、音声を含む信号区間が入力されると、その高速フーリエ変換器(周波数分析手段)1の出力(音声有無判定器2で音声を含むとされたS(ω))が、雑音抑制処理器(減算手段、乗算手段及び比較手段)4に出力され、雑音周波数スペクトル記憶部(メモリ)3に記憶された雑音周波数スペクトルN(ω)と算出器15の出力である減算パラメータα(ω)及びフロアリング係数β(ω)から、次の処理及び比較により出力P(ω)を算出し、音声認識処理部5に出力する。なお、Max{A, B}は、AとBのうち、小さくないほうを示す。
P(ω)=Max{S(ω)−α(ω)N(ω), β(ω)S(ω)}
【0020】
本願においては周波数スペクトルは、周波数毎のパワーを意味する。
また、ケプストラムを求める際、スペクトルanから次のようにケプストラムcnを求めても良い。尚、Σは、kについて、k=1からk=n-1までの和である。
cn=an−Σkckan-k/n
【図面の簡単な説明】
【図1】 本発明の雑音周波数スペクトルと、減算パラメータα及びフロアリング係数βを決定する雑音周波数スペクトル包絡との関係を示すグラフ図。
【図2】 雑音周波数スペクトル包絡を求めるためのブロック図。
【図3】 本発明の具体的な一実施例に係る音声認識装置の構成を示すブロック図。
【符号の説明】
100 音声認識装置
10 算定部
1、12 高速フーリエ変換器
2 音声有無判定器
3 雑音周波数スペクトル記憶部
4 雑音抑制処理器
11 対数演算器
13 低ケフレンシー窓器
14 逆高速フーリエ変換器
15 算出器
Claims (4)
- スペクトルサブトラクション法を用いて雑音を低下させた上で音声を認識する音声認識方法において、
音声を含む時間区間の周波数スペクトルから、音声を含まない時間区間の雑音周波数スペクトルを基にして周波数ごとに雑音を消去する際、音声を含む時間区間の周波数スペクトルと、1より小さく、周波数の関数であるフロアリング係数との積を下限値として、
雑音を消去する際、周波数ごと音声を含む時間区間の周波数スペクトルから、音声を含まない時間区間の雑音周波数スペクトルと、周波数の関数である減算パラメータとの積を減じ、
前記フロアリング係数を前記雑音周波数スペクトルからスペクトル包絡を求めた上で、前記スペクトル包絡の値が大きい程フロアリング係数を小さく、前記スペクトル包絡の値が小さい程フロアリング係数を大きくするように決定することを特徴とする音声認識方法。 - 前記減算パラメータを前記スペクトル包絡の値が大きい程減算パラメータを大きく、前記スペクトル包絡が値の小さい程減算パラメータを小さくするように決定することを特徴とする請求項1に記載の音声認識方法。
- 騒音下における音声認識装置において、
任意の区間に対し周波数スペクトルを求める周波数分析手段と、
音声を含まない時間区間に対し、前記周波数分析手段により求められた雑音周波数スペクトルから減算パラメータを設定する減算パラメータ算定手段と、
音声を含まない時間区間に対し、前記周波数分析手段により求められた雑音周波数スペクトルから、1より小さいフロアリング係数を設定するフロアリング係数算定手段と、
前記フロアリング係数算定手段により決定された各周波数におけるフロアリング係数を前記音声を含む時間区間の周波数スペクトルの周波数ごとに乗じた値を算出する乗算手段と、
音声を含む時間区間に対し、前記周波数分析手段により求められた周波数スペクトルから、前記雑音周波数スペクトルの周波数ごとに前記減算パラメータ算定手段により決定された各周波数における減算パラメータを乗じた値を減算する減算手段と、
前記乗算手段の出力と前記減算手段の出力を比較して、大きいほう出力する比較手段と
を備え、
前記フロアリング係数算定手段は、前記周波数分析手段により求められた雑音周波数スペクトルからスペクトル包絡を求めた上で当該各周波数におけるスペクトル包絡に対応してフロアリング係数を設定するものであり、前記スペクトル包絡の値が大きい程フロアリング係数を小さく、前記スペクトル包絡の値が小さい程フロアリング係数を大きくするものである
ことを特徴とする音声認識装置。 - 前記減算パラメータ算定手段は、前記スペクトル包絡の値が大きい程減算パラメータを大きく、前記スペクトル包絡の値が小さい程減算パラメータを小さくするものであることを特徴とする請求項3に記載の音声認識手段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002020303A JP3693022B2 (ja) | 2002-01-29 | 2002-01-29 | 音声認識方法及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002020303A JP3693022B2 (ja) | 2002-01-29 | 2002-01-29 | 音声認識方法及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003223186A JP2003223186A (ja) | 2003-08-08 |
JP3693022B2 true JP3693022B2 (ja) | 2005-09-07 |
Family
ID=27743828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002020303A Expired - Fee Related JP3693022B2 (ja) | 2002-01-29 | 2002-01-29 | 音声認識方法及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3693022B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4434813B2 (ja) * | 2004-03-30 | 2010-03-17 | 学校法人早稲田大学 | 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置 |
DE602006008481D1 (de) | 2005-05-17 | 2009-09-24 | Univ Waseda | Rauschunterdrückungsverfahren und -vorrichtungen |
JP4857652B2 (ja) * | 2005-08-17 | 2012-01-18 | ソニー株式会社 | ノイズキャンセラ及びマイク装置 |
JP5034605B2 (ja) * | 2007-03-29 | 2012-09-26 | カシオ計算機株式会社 | 撮像装置、雑音除去方法及びプログラム |
JP4968355B2 (ja) * | 2010-03-24 | 2012-07-04 | 日本電気株式会社 | 雑音抑圧の方法及び装置 |
JP5588233B2 (ja) * | 2010-06-10 | 2014-09-10 | 日本放送協会 | 雑音抑圧装置およびプログラム |
JP6174856B2 (ja) * | 2012-12-27 | 2017-08-02 | キヤノン株式会社 | 雑音抑制装置、その制御方法、及びプログラム |
-
2002
- 2002-01-29 JP JP2002020303A patent/JP3693022B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003223186A (ja) | 2003-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0637012B1 (en) | Signal processing device | |
EP2164066B1 (en) | Noise spectrum tracking in noisy acoustical signals | |
US6477489B1 (en) | Method for suppressing noise in a digital speech signal | |
US6108610A (en) | Method and system for updating noise estimates during pauses in an information signal | |
US9542937B2 (en) | Sound processing device and sound processing method | |
US8391471B2 (en) | Echo suppressing apparatus, echo suppressing system, echo suppressing method and recording medium | |
CN105103230B (zh) | 信号处理装置、信号处理方法、信号处理程序 | |
US7885810B1 (en) | Acoustic signal enhancement method and apparatus | |
US10741194B2 (en) | Signal processing apparatus, signal processing method, signal processing program | |
US9002030B2 (en) | System and method for performing voice activity detection | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
JP3693022B2 (ja) | 音声認識方法及び音声認識装置 | |
US20020128830A1 (en) | Method and apparatus for suppressing noise components contained in speech signal | |
US20200194020A1 (en) | Voice correction apparatus and voice correction method | |
JP2002014694A (ja) | 音声認識装置 | |
KR101993003B1 (ko) | 잡음 제거 장치 및 방법 | |
JP2000010593A (ja) | スペクトル雑音除去装置 | |
JP3204892B2 (ja) | 背景雑音消去装置 | |
JP3761497B2 (ja) | 音声認識装置、音声認識方法、および、音声認識プログラム | |
EP3291227A1 (en) | Sound processing device, method of sound processing, sound processing program and storage medium | |
Ma et al. | A perceptual kalman filtering-based approach for speech enhancement | |
JP6679881B2 (ja) | 雑音推定装置、プログラム及び方法、並びに、音声処理装置 | |
US10109291B2 (en) | Noise suppression device, noise suppression method, and computer program product | |
KR100587568B1 (ko) | 음성 향상 시스템 및 방법 | |
JPH11154000A (ja) | 雑音抑圧装置及び該装置を用いた音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050613 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3693022 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090701 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100701 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110701 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120701 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120701 Year of fee payment: 7 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120701 Year of fee payment: 7 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130701 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140701 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |