JP2004012884A

JP2004012884A - 音声認識装置

Info

Publication number: JP2004012884A
Application number: JP2002167228A
Authority: JP
Inventors: Masaya Nakamura; 中村　雅也; Toshio Akaha; 赤羽　俊夫
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2002-06-07
Filing date: 2002-06-07
Publication date: 2004-01-15

Abstract

【課題】認識率を向上できるとともに、音声認識を容易にリアルタイムで行うことができる音声認識装置を提供すること。
【解決手段】入力部１０１で、雑音を含む認識対象としての音声信号を入力する。次に、雑音除去部１０２で、入力された音声信号から雑音を除去する。次に、雑音付加部１０３で、雑音除去部１０２による雑音除去後の信号に雑音を付加する。次に、パラメータ化部１０４で、雑音付加部１０３による雑音付加後の信号を音声認識用のパラメータに変換する。そして、認識部１０５で、パラメータ化部１０４で得られたパラメータを音響モデルと比較して音声認識を行う。
【選択図】　図１

Description

【０００１】
【発明の属する技術分野】
この発明は音声認識装置に関し、より詳しくは、雑音（典型的には環境雑音）を含む音声信号を対象として音声認識を行う音声認識装置に関する。
【０００２】
【従来の技術および発明が解決しようとする課題】
環境雑音を含む音声信号を対象として音声認識を行う方法としては、大別して、認識の手本となる音響モデルに雑音を含ませる方法と、認識対象となる音声信号から雑音を除去した後に認識を行う方法との２種類がある。前者の方法では、音響モデルに予め雑音含ませておく必要があるため、様々な環境の雑音には対応できない。また、その場の環境を学習して音響モデルを再構築する手法も存在するが、計算量が多くなるためからリアルタイム処理は困難である。後者の方法は、様々な環境に対応できる上、計算量が少ないのでリアルタイム処理に適している。
【０００３】
従来、後者の方法で、認識対象となる音声から雑音を除去するための代表的な方法として、スペクトル減算法が知られている。このスペクトル減算法の主な考え方は、「Ｓ．Ｆ．ＢＯＬＬ：　”Ｓｕｐｐｒｅｓｓｉｏｎ　ｏｆ　Ａｃｏｕｓｔｉｃ　Ｎｏｉｓｅ　ｉｎ　Ｓｐｅｅｃｈ　Ｕｓｉｎｇ　Ｓｐｅｃｔｒａｌ　Ｓｕｂｔｒａｃｔｉｏｎ，　”　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，　Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，　Ｖｏｌ．２７，　Ｎｏ．２，　　ｐｐ．１１３−１２０，　１９７８」に記載されている。また、実際の使用例は、「庄境、中村、鹿野：　”音声強調手法Ｅ−ＣＭＮ／ＣＳＳの自動車環境内での音声認識における評価，　”電子情報通信学会論文誌，　Ｄ−ＩＩ，　Ｖｏｌ．Ｊ８１−Ｄ−ＩＩ，　Ｎｏ．１，　ｐｐ．１−９，　１９９８．１」に記載されている。
【０００４】
このスペクトル減算法は、概略、図７に示すように、
雑音を含む音声信号を入力する入力部１００１、
入力された音声信号を周波数スペクトルに変換するフーリエ変換部１００２、
入力スペクトルから雑音スペクトルを除去する雑音減算部１００３、
予測した雑音と実際の雑音とが異なる結果として雑音減算部１００３において除去し過ぎるのを防ぐフロアリング部１００４、
除去するための雑音スペクトルを学習する雑音スペクトル推定部１００５、
逆フーリエ変換を行って周波数スペクトルを音声波形に戻す逆フーリエ変換部１００６、
を有する。
【０００５】
このスペクトル減算法を実行するために、次のように変数を定める。すなわち、
ｔは時間、
ｎは時間ｔで特定されるフレーム（期間を表す）におけるサンプル番号（ただし、０≦ｎ＜Ｎ）、
Ｎは切り出したフレームの長さ、
Ｏ（ｎ；ｔ）は時間ｔで特定されるフレームにおける入力信号、
Ｓ（ｎ；ｔ）は時間ｔで特定されるフレームにおける出力信号、
Ｏｓ（ｗ；ｔ）は時間ｔ、周波数ｗにおける入力スペクトル、
Ｓｓ（ｗ；ｔ）は入力スペクトルより雑音スペクトルを差し引くことで得られた、時間ｔ、周波数ｗにおける音声スペクトル、
Ｎｓ（ｗ；ｔ）は時間ｔ、周波数ｗにおける推定された雑音スペクトル、
αは入力スペクトルから雑音スペクトルを差し引く度合を決める係数、
βは入力スペクトルを一定以上に保つためのフロアリング係数、
γは雑音スペクトルの更新度合を決める係数
とする。α、β、γの具体的な値は、２．４、０．１、０．９７４としてもよい。
【０００６】
具体的には、スペクトル減算法は次のような流れで実行される。
【０００７】
まず、入力部１００１において、雑音が含まれた音声信号を入力する。
【０００８】
次に、フーリエ変換部１００２において、入力部１００１より得られた時間ｔで特定されるフレームの入力信号Ｏ（ｎ；ｔ）をフーリエ変換して、時間ｔ、周波数ｗにおける入力スペクトルＯｓ（ｗ；ｔ）を得る。
【０００９】
雑音スペクトル推定部１００５では、周波数帯域ｗ毎に、次のようにして雑音スペクトルＮｓ（ｗ；ｔ）を推定する。すなわち、
｛Ｏｓ（ｗ；ｔ）−α・Ｎｓ（ｗ；ｔ）｝＞β・Ｏｓ（ｗ；ｔ）であれば、
その周波数帯域ｗが音声帯域であると判断して、
Ｎｓ（ｗ；ｔ）＝Ｎｓ（ｗ；ｔ−１）　　　　　　　　　　　　　　　　　　　　…（８８）
とする。
そうでなければ、つまり
｛Ｏｓ（ｗ；ｔ）−α・Ｎｓ（ｗ；ｔ）｝≦β・Ｏｓ（ｗ；ｔ）であれば、
その周波数帯域ｗが雑音帯域であると判断して、
Ｎｓ（ｗ；ｔ）＝γ・Ｎｓ（ｗ；ｔ−１）＋（１−γ）Ｏｓ（ｗ；ｔ）　　　　　　　　…（８９）
とする。
【００１０】
次に、雑音減算部１００３において、フーリエ変換部１００２によって得られた入力スペクトルＯｓ（ｗ；ｔ）と雑音スペクトル推定部１００５でこれまで推定された雑音スペクトルＮｓ（ｗ；ｔ）とを用いて次式（９０）の演算（減算）を行って、周波数帯域ｗ毎に音声スペクトルＳｓ（ｗ；ｔ）を得る。
Ｓｓ（ｗ；ｔ）＝Ｏｓ（ｗ；ｔ）−α・Ｎｓ（ｗ；ｔ）　　　　　　　　　　　　　　…（９０）
次に、フロアリング部１００４では、スペクトルを減算し過ぎないように、周波数帯域ｗ毎に次の変換処理を行う。すなわち
Ｓｓ（ｗ；ｔ）＜β・Ｏｓ（ｗ；ｔ）であれば、Ｓｓ（ｗ；ｔ）の値を
Ｓｓ（ｗ；ｔ）＝β・Ｏｓ（ｗ；ｔ）　　　　　　　　　　　　　　　　　　　…（９１）
とする。
そうでなければ、つまり
Ｓｓ（ｗ；ｔ）≧β・Ｏｓ（ｗ；ｔ）であれば、
Ｓｓ（ｗ；ｔ）の値をそのまま維持する。
【００１１】
そして、フロアリング部１００４において処理を受けた音声スペクトルＳｓ（ｗ；ｔ）を、逆フーリエ変換部１００６において逆フーリエ変換する。これにより、雑音が除去された音声信号Ｓ（ｎ；ｔ）を得る。
【００１２】
しかしながら、スペクトル減算法を用いた雑音除去方法では、完全に雑音を除去できるわけでなく、推定された雑音と実際の雑音との違いに起因して、必ず消し残り雑音が生じる。このような消し残り雑音を含む音声信号を対象とした場合、認識率が向上しにくいという問題がある。
【００１３】
こうした問題を避けるために、特開平１０−９７２７８のように、スペクトル減算法とＨＭＭ（隠れマルコフモデル；ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　ｍｏｄｅｌ）合成法とを併用する方法が提案されている。この方法では、消し残り雑音から雑音モデルを作成し、本来の音響モデル（クリーン音響モデル）にこの雑音モデルを合成して合成音響モデルを作成する（ＨＭＭ合成法）。そして、この合成音響モデルを比較に用いることによって、消し残り雑音の影響を無くして、認識率を向上させるようにしている。
【００１４】
しかしながら、ＨＭＭ合成法は、計算量が多くなるためリアルタイム処理が難しいという問題がある。
【００１５】
そこで、この発明の課題は、認識率を向上できるとともに、音声認識を容易にリアルタイムで行うことができる音声認識装置を提供することにある。
【００１６】
【課題を解決するための手段】
上記課題を解決するため、この発明の音声認識装置は次のような構成を備える。すなわち、この発明の音声認識装置は、雑音を含む認識対象としての音声信号を入力する入力部と、上記入力された音声信号から雑音を除去する雑音除去部とを備える。また、上記雑音除去部による雑音除去後の信号に雑音を付加する雑音付加部と、上記雑音付加部による雑音付加後の信号を音声認識用のパラメータに変換するパラメータ化部とを備える。さらに、上記パラメータ化部で得られたパラメータを音響モデルと比較して音声認識を行う認識部を備える。
【００１７】
この発明の音声認識装置は、入力部で、雑音を含む認識対象としての音声信号を入力する。次に、雑音除去部で、上記入力された音声信号から雑音を除去する。次に、雑音付加部で、上記雑音除去部による雑音除去後の信号に雑音を付加する。次に、パラメータ化部で、上記雑音付加部による雑音付加後の信号を音声認識用のパラメータに変換する。そして、認識部で、上記パラメータ化部で得られたパラメータを音響モデルと比較して音声認識を行う。
【００１８】
本発明の音声認識装置によれば、上記雑音除去部（例えば公知のスペクトル減算法）による雑音除去後の信号に雑音付加部で雑音を付加するので、消し残り雑音の影響が無くなる（実際上、無視できる。）。この結果、認識部では、雑音除去後の消し残り雑音に左右されずに音声認識が行われる。したがって、認識率が向上する。当然ながら、環境変化に伴って入力音声信号に含まれる雑音が変化しても、影響を受けない。また、公知のＨＭＭ合成などと異なり、消し残り雑音から雑音モデルを作成する等の処理を行う必要がないので、計算量が少なくて済む。したがって、音声認識を容易にリアルタイムで行うことができる。
【００１９】
一実施形態の音声認識装置は、上記雑音付加部は上記雑音除去部で得られた信号に付加する雑音として既知雑音を用いる。
【００２０】
ここでいう「既知雑音」とは、音声認識装置において参照されるパターンや統計的手法における音響モデル学習時に背景雑音として学習されたもの、あるいはそれと同様の特性を持つ雑音をさす。
【００２１】
この一実施形態の音声認識装置では、上記雑音付加部は上記雑音除去部で得られた信号に付加する雑音として既知雑音を用いるので、認識部で認識される対象と音響モデルとの食い違いを低減することができる。したがって、さらに認識率を向上させることができる。
【００２２】
一実施形態の音声認識装置は、上記雑音付加部は、周波数領域で雑音除去後の入力スペクトルに雑音スペクトルを加算して、この加算後のスペクトルを出力する。
【００２３】
この一実施形態の音声認識装置では、上記雑音付加部は、周波数領域で雑音除去後の入力スペクトルに雑音スペクトルを加算して、この加算後のスペクトルを出力する。このようにした場合、時間領域の信号を出力する場合に比して、パラメータ化部における時間領域から周波数領域へのフーリエ変換を省略することができ、計算量を低減できる。したがって、音声認識を容易にリアルタイムで行うことができる。
【００２４】
一実施形態の音声認識装置は、上記雑音付加部は、過度に雑音を除去するのを防ぐためのフロアリングの下限値に雑音スペクトルを用いる。
【００２５】
この一実施形態の音声認識装置では、上記雑音付加部は、過度に雑音を除去するのを防ぐためのフロアリングの下限値に雑音スペクトルを用いる。したがって、上記雑音除去部で生じた消し残り雑音を、例えば既知雑音に置き換えることができる。したがって、さらに認識率を向上させることができる。
【００２６】
一実施形態の音声認識装置では、上記既知雑音は上記音響モデルから抽出した雑音である。
【００２７】
この一実施形態の音声認識装置では、上記既知雑音は上記音響モデルから抽出した雑音であるから、認識部で認識される対象と音響モデルとの食い違いを低減することができる。したがって、さらに認識率を向上させることができる。
【００２８】
また、この発明の音声認識方法は、
雑音を含む認識対象としての音声信号を入力するステップと、
上記入力された音声信号から雑音を除去するステップと、
上記雑音除去後の信号に雑音を付加するステップと、
上記雑音付加後の信号を音声認識用のパラメータに変換するステップと、
上記音声認識用のパラメータを音響モデルと比較して音声認識を行うステップとを備える。
【００２９】
この発明の音声認識方法は、まず、雑音を含む認識対象としての音声信号を入力する。次に、上記入力された音声信号から雑音を除去する。次に、上記雑音除去部による雑音除去後の信号に雑音を付加する。次に、上記雑音付加部による雑音付加後の信号を音声認識用のパラメータに変換する。そして、上記音声認識用のパラメータを音響モデルと比較して音声認識を行う。
【００３０】
本発明の音声認識方法によれば、上記雑音除去（例えば公知のスペクトル減算法による）後の信号に雑音を付加するので、消し残り雑音の影響が無くなる（実際上、無視できる。）。この結果、雑音除去後の消し残り雑音に左右されずに音声認識が行われる。したがって、認識率が向上する。当然ながら、環境変化に伴って入力音声信号に含まれる雑音が変化しても、影響を受けない。また、公知のＨＭＭ合成などと異なり、消し残り雑音から雑音モデルを作成する等の処理を行う必要がないので、計算量が少なくて済む。したがって、音声認識を容易にリアルタイムで行うことができる。
【００３１】
【発明の実施の形態】
以下、この発明の音声認識装置を図示の実施の形態により詳細に説明する。
【００３２】
図１は、この発明の第１実施形態の音声認識装置（基本モデル）のブロック構成を示している。
【００３３】
この音声認識装置は、入力部１０１と、雑音除去部１０２と、雑音付加部１０３と、パラメータ化部１０４と、認識部１０５とを備えている。
【００３４】
入力部１０１では、雑音、例えば環境雑音を含む音声信号を入力する。
【００３５】
雑音除去部１０２では、入力された音声信号から、スペクトル減算法などの公知の雑音除去方法によって雑音を除去する。この雑音除去部１０２による雑音除去後の信号には、消し残り雑音が存在する。
【００３６】
雑音付加部１０３では、雑音除去部１０２による雑音除去後の信号に対して、雑音を付加する。ここで付加される雑音については、後に詳述する。
【００３７】
パラメータ化部１０４では、雑音付加部１０３による雑音付加後の信号から音声の特徴量を抽出して、音声認識用の音響パラメータを得る。この音響パラメータの例としては、ＭＦＣＣ（メル周波数ケプストラム係数；Ｍｅｌ−Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒｕｍ　Ｃｏｅｆｆｉｃｉｅｎｔ）やＬＰＣ（線形予測符号化；Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｖｅ　Ｃｏｄｉｎｇ）などのパラメータが挙げられる。
【００３８】
認識部１０５では、パラメータ化部１０４で得られた音響パラメータを音響モデルと比較して、音声認識を行う。
【００３９】
この音声認識装置の特徴は、雑音を除去する雑音除去部１０２を備えると共に、雑音を付加する雑音付加部１０３を備えることにある。雑音付加部１０３が付加する雑音は、雑音除去部１０２による雑音除去後の信号に含まれる消し残り雑音と、予め用意された音響モデルとの食い違いを低減するものである。この雑音としては、例えば既知雑音を用いることができる。ここでいう既知雑音とは、音声認識装置において参照されるパターンや統計的手法における音響モデル学習時に背景雑音として学習されたもの、あるいはそれと同様の特性を持つ雑音をさす。
【００４０】
次に、この音声認識装置の動作を具体的な数式を用いて説明する。なお、この例では、音声信号を波形に戻してから雑音を付加する。
【００４１】
▲１▼　まず、入力部１０１では、マイクからの入力であれば、Ａ／Ｄ変換によって時間ｔで特定されるフレーム（期間を表す）における入力信号Ｏ（ｎ；ｔ）を得る。この入力信号Ｏ（ｎ；ｔ）は、例えばサンプリング周波数１２ｋＨｚで得られた量子化ビット１６ｂｉｔのデジタルデータである。
【００４２】
▲２▼　次に、雑音除去部１０２では、入力信号Ｏ（ｎ；ｔ）を一旦フーリエ変換して、周波数領域で公知のスペクトル減算法（既述）を用いて入力スペクトルから雑音スペクトルを減算した後、逆フーリエ変換を行って時間領域に戻す。これにより、入力信号Ｏ（ｎ；ｔ）の雑音を低減させる。この雑音除去部１０２による雑音除去後の信号Ｓ（ｎ；ｔ）には、消し残り雑音が存在する。
【００４３】
▲３▼　次に、雑音付加部１０３では、次式（１）の演算（加算）を行って、雑音除去後の信号Ｓ（ｎ；ｔ）に対して既知雑音を表す信号Ｎ１（ｎ；ｔ）を付加する。これにより、既知雑音が付加された音声信号Ｓ′（ｎ；ｔ）を得る。
Ｓ′（ｎ；ｔ）＝Ｓ（ｎ；ｔ）＋Ｎ１（ｎ；ｔ）　　　　　　　　　　　　　　　　　…（１）
【００４４】
▲４▼　パラメータ化部１０４では、雑音付加部１０３による雑音付加後の信号から音声の特徴量を抽出して、音声認識用の音響パラメータを得る。ここでは、ＭＦＣＣパラメータを得るものとする。ＭＦＣＣパラメータの具体的な作成手順は、例えば「鹿野、伊藤、河原、武田、山本編著、“音声認識システム”オーム社ｐ．１−１５」に記載されている。
【００４５】
詳しくは、図８に示すように、
ｉ）　まず、入力部１１０１で、音声信号を入力する。入力された音声信号をｓ（ｎ）とする。
【００４６】
ｉｉ）　次に、プリエンファシス部１１０２で、次式（２）の演算を行って、その音声信号ｓ（ｎ）についてスペクトルの平坦化（プリエンファシス）を行う。
ｓ１（ｎ；ｔ）＝ｓ（ｎ）−ａ・ｓ（ｎ−１）　　　　　　　　　　　　　　　　　…（２）
（ただし、ａは、適切に選んだ適応基準によって変化する値であり、固定では０．９３７５が多く用いられる。）
このようにして、プリエンファシス後の音声信号ｓ１（ｎ）を求める。
【００４７】
ｉｉｉ）　次に、ハミング窓部１１０３で、そのプリエンファシス後の音声信号ｓ１（ｎ）に対して窓掛けを行う。すなわち、次式（３）のハミング窓関数ｈａｍｗ（ｎ）を用いて式（４）の演算を行う。
ｈａｍｗ（ｎ）＝０．５４−０．４６・ｃｏｓ（２・π・ｎ／Ｎ）　　　　…（３）
ｓ２（ｎ）＝ｈａｍｗ（ｎ）・ｓ１（ｎ）　　　　　　　　　　　　　　　　…（４）
このようにして、窓掛けされた音声信号ｓ２（ｎ）を求める。
【００４８】
ｄ）　次に、フーリエ変換部１１０４で、その窓掛けされた音声信号ｓ２（ｎ）を周波数スペクトルにフーリエ変換する。この（高速）フーリエ変換によって得られた周波数スペクトルをｓ３（ｋ）とする。なお、高速フーリエ変換のフレーム長をＫとすると、周波数ｋは０≦ｋ＜Ｋの範囲内にある。
【００４９】
ｅ）　次に、メル周波数フィルタバンク部１１０５で、周波数軸上にＬ個の三角窓を配置してフィルタバンク分析（変換）を行う。
【００５０】
詳しくは、三角窓関数Ｗ（ｌ；ｋ）を、
ｋｌｏ≦ｋ≦ｋｃ（ｌ）のとき、
Ｗ（ｋ；ｌ）＝｛ｋ−ｋｌｏ（ｌ）｝／｛ｋｃ（ｌ）−ｋｌｏ（ｌ）｝
ｋｃ≦ｋ≦ｋｈｉ（ｌ）のとき、
Ｗ（ｋ；ｌ）＝｛ｋ−ｋｈｉ（ｌ）｝／｛ｋｃ（ｌ）−ｋｈｉ（ｌ）｝
それ以外のとき、
Ｗ（ｋ；ｌ）＝０
と定義する。
ただし、
ｌｏ（ｌ）はｌ番目のフィルタの下限、
ｋｃ（ｌ）はｌ番目のフィルタの中心、
ｋｈｉ（ｌ）はｌ番目のフィルタの上限とする。
また、隣合うフィルタ間では
ｋｃ（ｌ）＝ｋｈｉ（ｌ−１）＝ｋｌｏ（ｌ＋１）
とする。
さらにｋｃ（ｌ）は、メル周波数Ｍｅｌ（ｆ）軸上で等間隔に配置されるものとする。なお、Ｍｅｌ（ｆ）＝２５９５ｌｏｇ_１０（１＋ｆ／７００）であり、ｆの単位はＨｚ（ヘルツ）とする。
【００５１】
このとき、Ｌ個（Ｌはフィルタの個数）の帯域におけるそれぞれのパワーｍ（ｌ）は、単一スペクトルチャネルの振幅スペクトル｜ｓ３（ｋ）｜を用いて、次式（５）で表される。
【００５２】
【数１】

と表される。
【００５３】
ｉｖ）　次に、離散コサイン変換部１１０６では、次式（６）に示すように、フィルタバンク部１１０５で得られたＬ個の帯域におけるパワーｍ（ｌ）を離散コサイン変換して、時間領域に戻す。
【００５４】
【数２】

このパラメータｍｆｃｃ（ｉ）にパワー値や傾きを示すデルタ値を与えると、音響モデルに用いられるＭＦＣＣパラメータが得られる。
【００５５】
▲５▼　この後、図２中に示した認識部１０５において、このＭＦＣＣパラメータを音響モデルと比較して、音声認識を行う。この音響モデルとしては、一定雑音が付加された環境での音響モデルを用いる。
【００５６】
このように、この音声認識装置では、入力された音声信号に既知雑音を付加するので、認識部で認識される対象と音響モデルとの食い違いを低減することができる。したがって、さらに認識率を向上させることができる。当然ながら、環境変化に伴って入力音声信号に含まれる雑音が変化しても、影響を受けない。また、公知のＨＭＭ合成などと異なり、消し残り雑音から雑音モデルを作成する等の処理を行う必要がないので、計算量が少なくて済む。したがって、音声認識を容易にリアルタイムで行うことができる。
【００５７】
図２は、この発明の第２実施形態の音声認識装置のブロック構成を示している。この音声認識装置は、雑音付加部による既知雑音の付加を周波数領域で行う点に特徴を有している。
【００５８】
この音声認識装置は、入力部１０１と、フーリエ変換部２０１と、雑音スペクトル推定部２０５と、減算部２０２と、フロアリング部２０３と、雑音付加部２０４と、パラメータ化部２０６と、認識部１０６とを備えている。
【００５９】
▲１▼　入力部１０１では、先の実施形態と同様に、雑音、例えば環境雑音を含む音声信号を入力する。
【００６０】
▲２▼　フーリエ変換部２０１では、入力された音声信号をフーリエ変換して、周波数領域における入力スペクトルとする。
【００６１】
▲３▼　雑音スペクトル推定部２０５では、公知の雑音スペクトル推定部と同様に、周波数帯域ｗ毎に、次のようにして雑音スペクトルＮｓ（ｗ；ｔ）を推定する。すなわち、
｛Ｏｓ（ｗ；ｔ）−α・Ｎｓ（ｗ；ｔ）｝＞β・Ｏｓ（ｗ；ｔ）であれば、
その周波数帯域ｗが音声帯域であると判断して、
Ｎｓ（ｗ；ｔ）＝Ｎｓ（ｗ；ｔ−１）　　　　　　　　　　　　　　　　　　　　　　…（７）
とする。
そうでなければ、つまり
｛Ｏｓ（ｗ；ｔ）−α・Ｎｓ（ｗ；ｔ）｝≦β・Ｏｓ（ｗ；ｔ）であれば、
その周波数帯域ｗが雑音帯域であると判断して、
Ｎｓ（ｗ；ｔ）＝γ・Ｎｓ（ｗ；ｔ−１）＋（１−γ）Ｏｓ（ｗ；ｔ）　　　　　　　　　　…（８）
とする。なお、常にこの雑音帯域の更新式（８）を用いて雑音スペクトルの推定を行う連続スペクトル減算法を用いても良い。
【００６２】
▲４▼　次に、減算部２０２では、フーリエ変換部２０１によって得られた入力スペクトルＯｓ（ｗ；ｔ）と雑音スペクトル推定部２０４でこれまで推定された雑音スペクトルＮｓ（ｗ；ｔ）とを用いて次式（９）の演算（減算）を行って、周波数帯域ｗ毎に音声スペクトルＳ′ｓ（ｗ；ｔ）を得る。
Ｓ′ｓ（ｗ；ｔ）＝Ｏｓ（ｗ；ｔ）−α・Ｎｓ（ｗ；ｔ）　　　　　　　　　　　　　　　…（９）
【００６３】
▲５▼　次に、フロアリング部２０３では、スペクトルを減算し過ぎないように、周波数帯域ｗ毎に次の変換処理を行う。すなわち
Ｓ′ｓ（ｗ；ｔ）＜β・Ｏｓ（ｗ；ｔ）であれば、Ｓ′ｓ（ｗ；ｔ）の値を
Ｓ′ｓ（ｗ；ｔ）＝β・Ｏｓ（ｗ；ｔ）　　　　　　　　　　　　　　　　　　　…（１０）
とする。
そうでなければ、つまり
Ｓ′ｓ（ｗ；ｔ）≧β・Ｏｓ（ｗ；ｔ）であれば、
Ｓ′ｓ（ｗ；ｔ）の値をそのまま維持する。
【００６４】
▲６▼　雑音付加部２０４では、フロアリング部２０３による変換処理後のスペクトルに対して、次式（１１）のように雑音スペクトルＮｓ１（ｗ；ｔ）を付加する。これにより雑音が付加された音声スペクトルＳ″ｓ（ｗ；ｔ）を得る。
Ｓ″ｓ（ｗ；ｔ）＝Ｓ′ｓ（ｗ；ｔ）＋Ｎｓ１（ｗ；ｔ）　　　　　　　　　　　　　…（１１）
（ただし、Ｎｓ１（ｗ；ｔ）は既知雑音をゲイン調整して得られたスペクトルである。）
【００６５】
▲７▼　パラメータ化部２０６では、雑音付加部２０４による雑音付加後の信号から音声の特徴量を抽出して、音声認識用の音響パラメータを得る。この音響パラメータの例としては、ＭＦＣＣやＬＰＣなどのパラメータが挙げられる。このパラメータ化部２０６は、雑音付加部２０４より周波数スペクトルの形態で信号を得ているので、パラメータ化部１０４においてＭＦＣＣやフーリエ変換を用いたパラメータに変換する場合に時間領域から周波数領域へのフーリエ変換を省略することができる。したがって、計算量を低減でき、音声認識を容易にリアルタイムで行うことができる。
【００６６】
▲８▼　認識部１０６では、先の実施形態と同様に、パラメータ化部２０６で得られた音響パラメータを音響モデルと比較して、音声認識を行う。
【００６７】
図３は、この発明の第３実施形態の音声認識装置のブロック構成を示している。この音声認識装置は、入力信号に含まれた雑音を既知雑音で置き換える点に特徴を有している。
【００６８】
この音声認識装置は、入力部１０１と、フーリエ変換部３０１と、雑音スペクトル推定部３０４と、減算部３０２と、雑音を用いたフロアリング部３０３と、パラメータ化部３０５と、認識部１０６とを備えている。
【００６９】
▲１▼　入力部１０１では、先の各実施形態と同様に、雑音、例えば環境雑音を含む音声信号を入力する。
【００７０】
▲２▼　フーリエ変換部３０１では、入力された音声信号をフーリエ変換して、周波数領域における入力スペクトルとする。
【００７１】
▲３▼　雑音スペクトル推定部３０４では、公知の雑音スペクトル推定部と同様に、周波数帯域ｗ毎に、次のようにして雑音スペクトルＮｓ（ｗ；ｔ）を推定する。すなわち、既知雑音をゲイン調整して得られたスペクトルＮｓ１（ｗ；ｔ）を基準として、
｛Ｏｓ（ｗ；ｔ）−α・Ｎｓ（ｗ；ｔ）｝＞Ｎｓ１（ｗ；ｔ）であれば、
その周波数帯域ｗが音声帯域であると判断して、
Ｎｓ（ｗ；ｔ）＝Ｎｓ（ｗ；ｔ−１）　　　　　　　　　　　　　　　　　　　　　…（１２）
とする。
そうでなければ、つまり
｛Ｏｓ（ｗ；ｔ）−α・Ｎｓ（ｗ；ｔ）｝≦Ｎｓ１（ｗ；ｔ）であれば、
その周波数帯域ｗが雑音帯域であると判断して、
Ｎｓ（ｗ；ｔ）＝γ・Ｎｓ（ｗ；ｔ−１）＋（１−γ）Ｏｓ（ｗ；ｔ）　　　　　　　　　…（１３）
とする。なお、常にこの雑音帯域の更新式（１３）を用いて雑音スペクトルの推定を行う連続スペクトル減算法を用いても良い。
【００７２】
▲４▼　次に、減算部３０２では、フーリエ変換部３０１によって得られた入力スペクトルＯｓ（ｗ；ｔ）と雑音スペクトル推定部３０４でこれまで推定された雑音スペクトルＮｓ（ｗ；ｔ）とを用いて次式（９）の演算（減算）を行って、周波数帯域ｗ毎に音声スペクトルＳ′ｓ（ｗ；ｔ）を得る。
Ｓ′ｓ（ｗ；ｔ）＝Ｏｓ（ｗ；ｔ）−α・Ｎｓ（ｗ；ｔ）　　　　　　　　　　　　　　…（１４）
【００７３】
▲５▼　次に、雑音を用いたフロアリング部３０３では、スペクトルを減算し過ぎないように、周波数帯域ｗ毎に次の変換処理を行う。すなわち、既知雑音をゲイン調整して得られたスペクトルＮｓ１（ｗ；ｔ）を基準として、
Ｓ′ｓ（ｗ；ｔ）＜Ｎｓ１（ｗ；ｔ）であれば、Ｓ′ｓ（ｗ；ｔ）の値を
Ｓ′ｓ（ｗ；ｔ）＝Ｎｓ１（ｗ；ｔ）　　　　　　　　　　　　　　　　　　　…（１５）
とする。
そうでなければ、つまり
Ｓ′ｓ（ｗ；ｔ）≧Ｎｓ１（ｗ；ｔ）であれば、
Ｓ′ｓ（ｗ；ｔ）の値をそのまま維持する。
【００７４】
この結果、過度に雑音を除去するのを防ぐためのフロアリングの下限値が雑音スペクトルＮｓ１（ｗ；ｔ）によって与えられる。
【００７５】
▲６▼　パラメータ化部３０５では、雑音を用いたフロアリング部３０３による変換処理（フロアリング）後の信号から音声の特徴量を抽出して、音声認識用の音響パラメータを得る。この音響パラメータの例としては、ＭＦＣＣやＬＰＣなどのパラメータが挙げられる。このパラメータ化部３０５は、フロアリング部３０３より周波数スペクトルの形態で信号を得ているので、パラメータ化部１０４においてＭＦＣＣやフーリエ変換を用いたパラメータに変換する場合に時間領域から周波数領域へのフーリエ変換を省略することができる。したがって、計算量を低減でき、音声認識を容易にリアルタイムで行うことができる。
【００７６】
▲７▼　認識部１０６では、先の実施形態と同様に、パラメータ化部３０５で得られた音響パラメータを音響モデルと比較して、音声認識を行う。
【００７７】
従来の音声認識方法では、フロアリング部による変換処理（フロアリング）の基準として入力スペクトルに比例する値β・Ｏｓ（ｗ；ｔ）を用いている。これに対して、この実施形態では、上述のように、雑音付加部１０３では、過度に雑音を除去するのを防ぐためのフロアリングの下限値が雑音スペクトルＮｓ１（ｗ；ｔ）によって与えられる。これにより、雑音除去部２で生じた消し残り雑音を既知雑音スペクトルＮｓ１（ｗ；ｔ）に置き換えることができる。したがって、さらに認識率を向上させることができる。
【００７８】
図４は、認識部が用いる音響モデルから既知雑音を取得するための手順を例示している。この手順は、図８に示したＭＦＣＣパラメータ作成手順を逆に行うことによって、音響モデルに含まれる雑音のＭＦＣＣパラメータから、その雑音（既知雑音）のスペクトルを得るものである。
【００７９】
ｉ）　まず逆フーリエ変換部４０１は、離散コサイン変換部１１０６による離散コサイン変換の逆変換を行う。
【００８０】
すなわち、逆フーリエ変換部４０１は、ＭＦＣＣパラメータからパワー値と傾きを示すデルタ値を除いたｍｆｃｃ（ｉ）を逆フーリエ変換し、得られた値を対数から戻すことで、Ｌ個の帯域におけるそれぞれのパワーｍ（ｌ）を得る。
【００８１】
ｉｉ）　次に、逆メル周波数フィルタバンク部４０２は、メル周波数フィルタバンク部１１０５による変換の逆変換を行う。
【００８２】
三角窓関数Ｗ（ｌ；ｋ）の因子をもつＬ行（Ｋ／２）列の行列Ｗ１の逆行列Ｗ^−１を求めることができれば、次式（１６）により、振幅スペクトルｓ３（ｋ）を算出することができる。
Ｓ３＝Ｗ^−１・Ｍ　　　　　　　　　　　　　　　　　　　　　　　…（１６）
（ただし、Ｓ３は｜ｓ３（ｋ）｜を因子とするベクトル、Ｍはｍ（ｌ）を因子とするベクトルをそれぞれ表している。）
この例では、逆メル周波数フィルタバンク部４０２は、もっとも簡易な方法で逆行列Ｗ^−１を求める。具体的には、すなわち、Ｗの転置行列Ｗ^Ｔを用いてＷ・Ｗ^Ｔを算出し、このＷ・Ｗ^Ｔの非対角項を０とし、かつ対角項は逆数に置き換えたものを行列Ｇとする。この行列Ｇを用いて、次式（１７）のようにＷ^−１を近似する。
Ｗ^−１＝Ｇ・Ｗ^Ｔ　　　　　　　　　　　　　　　　　　　　　　　…（１７）
この式（１７）による近似は、一般的に言うと粗い近似である。しかし、音声認識の性質上、完全に同一のノイズスペクトルを必要とするわけではないから、逆行列Ｗ^−１を求めるためにこの近似を用いることは妥当である、と考えられる。
【００８３】
ｉｉｉ）　次に、逆プリエンファシス部４０３は、プリエンファシス部１１０２によるプリエンファシスの逆変換を行う。
【００８４】
この逆プリエンファシス部４０３による逆変換は、次式（１８）で定められたフィルタ関数Ｈ（ｋ）を用いて、式（１９）に示すように振幅スペクトルｓ３（ｋ）をフィルタ関数Ｈ（ｋ）で除算することによって行われる。
Ｈ（ｋ）＝　１−ａｅ^−ｊ２ ^π ^{ｋ／（Ｎ／２）}　　　　　　　　　　　　　　…（１８）
（ただし、０．９＜ａ＜１．０である。）
ｓ４（ｋ）＝ｓ３（ｋ）／Ｈ（ｋ）　　　　　　　　　　　　　　…（１９）
この式（１９）によって求められたｓ４（ｋ）は、入力信号に対してハミング窓部１１０３で窓掛け後、フーリエ変換部１１０４でフーリエ変換を行ったものに相当する。
【００８５】
このようにして、音響モデルに含まれる雑音のＭＦＣＣパラメータから、その雑音のスペクトルｓ４（ｋ）を得ることができる。この雑音スペクトルｓ４（ｋ）を既知雑音スペクトルとして用いることによって、認識部１０５においてさらに精度のよい認識を行うことができる。
【００８６】
本発明の効果を、波形の変化を表す図５、スペクトルの変化を表す図６を用いて説明する。
【００８７】
図５（ａ）は雑音を含んだ音声信号、図５（ｂ）はスペクトル減算法で雑音を除去した音声信号を示している。また、図５（ｃ）は、認識部が用いる音響モデルから図４に示した手順で取り出した既知雑音を、図３に示した第３実施形態の方法で付加して得られた信号を示している。
【００８８】
図６（ａ）は雑音を含んだ音声信号の雑音部分をパラメータ化したパラメータのスペクトル、図６（ｂ）はスペクトル減算法で雑音を除去した音声信号の雑音部分をパラメータ化したパラメータのスペクトルをそれぞれ表している。図６（ｃ）は、認識部が用いる音響モデルから図４に示した手順で取り出した既知雑音を、図３に示した第３実施形態の方法で付加して得られた信号の雑音部分をパラメータ化したパラメータのスペクトルを表している。また、図６（ｄ）は、音響モデルに含まれる雑音のスペクトルを表している。図６（ａ）のスペクトルに比べて、図６（ｂ）のスペクトルは大きく雑音が低減されている。しかし、図６（ａ）のスペクトルと図６（ｂ）のスペクトルとの間で形は変わらず、図６（ｂ）のスペクトルは、図６（ｄ）に示すような音響モデルに含まれた雑音のスペクトルとは異なってしまっている。これに対して、図６（ｃ）のスペクトルは、図６（ａ）や図６（ｂ）のスペクトルと比べて、図６（ｄ）に示すような音響モデルに含まれた雑音のスペクトルに近い形となっている。
【００８９】
したがって、本発明によれば、音声認識の認識率を効果的に高めることができる。
【００９０】
【発明の効果】
以上より明らかなように、この発明の音声認識装置によれば、認識率を向上できるとともに、音声認識を容易にリアルタイムで行うことができる。
【図面の簡単な説明】
【図１】この発明の第１実施形態の音声認識装置のブロック構成を示す図である。
【図２】この発明の第２実施形態の音声認識装置のブロック構成を示す図である。
【図３】この発明の第２実施形態の音声認識装置のブロック構成を示す図である。
【図４】認識部が用いる音響モデルから既知雑音を取得するための手順を例示する図である。
【図５】本発明の効果を波形の変化で説明する図である。
【図６】本発明の効果をスペクトルの変化で説明する図である。
【図７】スペクトル減算法を説明するための流れ図である。
【図８】ＭＦＣＣパラメータの作成法を説明するための流れ図である。
【符号の説明】
１０１　入力部
１０２　雑音除去部
１０３，２０４　雑音付加部
１０４，２０６，３０５　パラメータ化部
１０５，１０６　認識部
２０１，３０１　フーリエ変換部
２０２，３０２　減算部
２０３　フロアリング部
２０５，３０４　雑音スペクトル推定部
３０３　雑音を用いたフロアリング部

Claims

雑音を含む認識対象としての音声信号を入力する入力部と、
上記入力された音声信号から雑音を除去する雑音除去部と、
上記雑音除去部による雑音除去後の信号に雑音を付加する雑音付加部と、
上記雑音付加部による雑音付加後の信号を音声認識用のパラメータに変換するパラメータ化部と、
上記パラメータ化部で得られたパラメータを音響モデルと比較して音声認識を行う認識部を備える音声認識装置。
請求項１に記載の音声認識装置において、
上記雑音付加部は上記雑音除去部で得られた信号に付加する雑音として既知雑音を用いることを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
上記雑音付加部は、周波数領域で雑音除去後の入力スペクトルに雑音スペクトルを加算して、この加算後のスペクトルを出力することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
上記雑音付加部は、過度に雑音を除去するのを防ぐためのフロアリングの下限値に雑音スペクトルを用いることを特徴とする音声認識装置。
請求項２に記載の音声認識装置において、
上記既知雑音は上記音響モデルから抽出した雑音であることを特徴とする音声認識装置。