JP4244514B2

JP4244514B2 - 音声認識方法および音声認識装置

Info

Publication number: JP4244514B2
Application number: JP2000322914A
Authority: JP
Inventors: 康永宮沢
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2000-10-23
Filing date: 2000-10-23
Publication date: 2009-03-25
Anticipated expiration: 2020-10-23
Also published as: US20020049587A1; JP2002132289A; US7065487B2

Description

【０００１】
【発明の属する技術分野】
本発明は種々の背景雑音が存在する環境下においても高い認識性能を可能とする音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置に関する。
【０００２】
【従来の技術】
近年、音声認識機能を搭載した機器が広く用いられるようになってきている。このような機器の使用環境は様々であり、雑音の多い環境下で使用せざるを得ない場合も多い。
【０００３】
このような場合、当然のことながら雑音に対する対策を講じる必要が出てくる。雑音の一例としては、たとえば、自動車の走行音、エアーコンディショナ（エアコンという）の運転音などの定常的な雑音が身近なものとして考えられるが、これらの定常的な雑音の存在する環境下での音声認識を行う方法として、従来、以下に示すような音声認識方法が用いられている。
【０００４】
その第１の例として、雑音のない環境下で収録した音声データに上述したような定常的な雑音から得られた雑音データを重畳させた音声データを生成し、この生成された音声データを用いて学習された音声認識用の音響モデルを作成し、その音響モデルを用いて音声認識を行う方法がある。
【０００５】
また、第２の例としては、スペクトラル・サブトラクション（Spectral Subtraction）などの雑音除去方法を用いて音声認識を行う方法もある。この音声認識方法は、入力音声データから雑音成分を除去して、雑音の除去された音声データに対して音声認識を行うが、その場合でも、上述同様、雑音のない環境下で収録した音声データに定常的な雑音から得られた雑音データを重畳させた音声データを生成し、この生成された音声データからスペクトラル・サブトラクション法による雑音除去方法を用いて雑音を除去したのちに、その雑音の除去された音声データを用いて学習した音声認識用の音響モデルを作成しておき、その音響モデルを用いて音声認識を行うことがなされている。
【０００６】
【発明が解決しようとする課題】
上述したような音声認識方法を採用することによって、何の対策も講じない場合に比べ、雑音環境下における認識性能の向上はある程度は可能となると考えられるが、まだまだ問題点も多い。
【０００７】
すなわち、定常的な雑音は、上述したような自動車の走行音、エアコンの運転音などの他にも、雑踏による雑音など様々な種類があり、それぞれが異なった性質を持っている。
【０００８】
上述した従来の２つの例で述べた音響モデルは、音響モデルを学習する際、ある特定の雑音のみを用いて学習している場合が多い。たとえば、自動車の走行音を雑音データとして用い、その雑音データを音声データに重畳させた音声データを生成し、この生成された音声データからスペクトラル・サブトラクションによる雑音除去方法を用いて雑音を除去したのちに、その雑音の除去された音声データを用いて学習した音声認識用の音響モデルを作成する。
【０００９】
このように、ある特定の雑音について作成された音響モデルを用いて音声認識を行えば、そのような雑音が存在する環境下では比較的好結果が得られるが、状況によっては、それ以外の雑音が存在することも十分あり得る。その場合の認識率は当然のことながら低下する。
【００１０】
また、雑音の種類以外にも、実際に認識すべき音声信号と雑音信号の比であるS/N比の大きさによっても認識性能は異なってくる。
【００１１】
そこで本発明は、雑音の種類やＳ／Ｎ比の大きさに対応した高い認識性能を得ることができ、しかも、演算能力の低いＣＰＵを用いた安価なハードウエアで実現可能とすることを目的としている。
【００１２】
【課題を解決するための手段】
上述した目的を達成するために本発明の音声認識方法は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら雑音が重畳されたそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルを用いることで、雑音の種類に対応する音響モデル群を作成してそれを保持しておく。そして、認識時には、雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定し、その判定結果に基づいて、前記雑音の種類に対応した音響モデル群の中から所定の音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行うようにしている。
【００１３】
また、本発明の音声認識処理プログラムを記録した記録媒体は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら種類の異なる雑音が重畳されたそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データを特徴分析処理して得られた特徴ベクトルによって、雑音の種類に対応する音響モデル群を作成して、それを音響モデル群記憶手段に記憶させる手順と、雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定し、その判定結果に基づいて、前記音響モデル群記憶手段に記憶された音響モデル群の中から所定の音響モデルを選択する手順と、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行う手順と、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う手順とをその処理プログラムに含むものである。
【００１４】
これら各発明において、前記雑音除去手法は、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法であって、その場合、前記音響モデル群は、前記種類の異なる雑音が重畳されたそれぞれの音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、雑音除去されたそれぞれの音声データから特徴ベクトルを得て、その特徴ベクトルを用いて作成されている。そして、認識時には、前記雑音が重畳された認識対象音声データに対し、周波数領域での特徴データを得るための第１の音声特徴分析を行い、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、その分析された特徴データを保存し、音声区間であると判定された場合には、前記保存された特徴データによって、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音の種類対応に用意された音響モデル群の中から所定の音響モデルを選択し、前記雑音が重畳された認識対象音声データに対し、前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去された音声データに対し、音声認識に必要な特徴データを得るための第２の音声特徴分析を行い、その特徴分析結果に対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【００１５】
また、前記雑音除去手法は、ケプストラム平均正規化法による雑音除去手法であってもよく、その場合、前記音響モデルは、前記種類の異なる雑音が重畳されたそれぞれの音声データに対し、ケプストラム平均正規化法による雑音除去手法を用いて雑音除去を行い、それによって得られたそれぞれの音声データの特徴ベクトルを用いて作成されている。そして、認識時には、前記雑音が重畳された認識対象音声データに対し、ケプストラム係数を表す特徴ベクトルを求めるための第１の音声特徴分析を行い、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、その特徴ベクトルを保存し、音声区間であると判定された場合には、その音声区間の開始から終了までの音声区間に対応する特徴ベクトルを保存し、前記保存された雑音区間の特徴ベクトルによって、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音の種類対応に用意された音響モデル群の中から所定の音響モデルを選択し、前記雑音の重畳された音声区間に対し、前記保存されている音声区間の特徴ベクトルを用い、ケプストラム平均正規化法による雑音除去手法を用いて雑音除去処理を行い、その雑音除去処理後の特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【００１６】
さらに、前記それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルとすることも可能で、その場合の音響モデルは、複数種類の雑音ごとにＳ／Ｎ比の異なるそれぞれの雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、このそれぞれ音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルによって作成されたそれぞれの雑音の種類ごとに複数段階のＳ／Ｎ比に対応した音響モデルとしている。
【００１７】
そして、音響モデルがそれぞれの雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルである場合、前記雑音が重畳された認識対象音声データに対し、雑音の種類を判定する処理に加え、雑音区間の雑音の大きさと音声区間の音声の大きさからＳ／Ｎ比を求める処理を行い、判定された雑音種類と求められたＳ／Ｎ比に基づいて音響モデルの選択を行うようにしている。
【００１８】
また、本発明のもう一つの音声認識方法は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら種類の異なる雑音が重畳されたそれぞれの音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データに対しケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、その特徴ベクトルによって、それぞれの雑音対応の音響モデル群を作成してそれを保存しておく。そして、認識時には、雑音の重畳された認識対象音声データに対し、周波数領域での特徴データを得るための第１の音声特徴分析を行い、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、その分析された特徴データを保存し、音声区間であると判定された場合には、その音声区間に対し前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去された音声区間のデータに対し、ケプストラム係数を求めるための第２の音声特徴分析処理を行い、その音声区間の特徴ベクトルを保存し、音声区間終了後に、前記保存された雑音区間の特徴データによって、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音対応に用意された音響モデル群の中から所定の音響モデルを選択し、前記雑音の重畳された音声区間に対し、前記保存されている音声区間の特徴ベクトルに対し、ケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、そのケプストラム平均正規化法を適用して得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【００１９】
また、もう一つの音声認識処理プログラムを記録した記録媒体は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら種類の異なる雑音が重畳されたそれぞれの音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データに対しケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、その特徴ベクトルによって、それぞれの雑音対応の音響モデル群を作成し、それを音響モデル群記憶手段に記憶させる手順と、雑音の重畳された認識対象音声データに対し、周波数領域での特徴データを得るための第１の音声特徴分析を行う手順と、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、その分析された特徴データを保存する手順と、音声区間であると判定された場合には、その音声区間に対し前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行う手順と、その雑音除去された音声区間のデータに対し、ケプストラム係数を求めるための第２の音声特徴分析処理を行い、その音声区間の特徴ベクトルを保存する手順と、音声区間終了後に、前記保存された雑音区間の特徴分析データによって、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音対応に用意された音響モデル群の中から所定の音響モデルを選択する手順と、前記雑音の重畳された音声区間に対し、前記保存されている音声区間の特徴ベクトルに対し、ケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得る手順と、そのケプストラム平均正規化法を適用して得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行う手順とをその処理プログラムに含むものである。
【００２０】
これら音声認識方法および音声認識処理プログラムを記録した記録媒体において、前記それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルとし、その場合の音響モデルは、複数種類の雑音ごとにＳ／Ｎ比の異なるそれぞれの雑音を雑音の種類ごとに重畳させたそれぞれの音声データを作成し、この音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データに対し、ケプストラム平均正規化法を適用して得られたそれぞれの音声データの特徴ベクトルを用いて作成されたそれぞれの雑音の種類ごとに複数段階のＳ／Ｎ比対応の音響モデルとしている。
【００２１】
そして、音響モデルがそれぞれの雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルである場合、前記雑音が重畳された認識対象音声データに対し、雑音の種類を判定する処理に加え、雑音区間の雑音の大きさと音声区間の音声の大きさからＳ／Ｎ比を求める処理を行い、判定された雑音種類と求められたＳ／Ｎ比に基づいて音響モデルの選択を行うようにする。
【００２２】
さらに、本発明の音声認識方法は、Ｓ／Ｎ比の異なるある特定の種類の雑音がそれぞれのＳ／Ｎ比ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルを用いることで、それぞれのＳ／Ｎ比に対応する音響モデル群を作成してそれを保持しておき、認識時には、雑音が重畳された認識対象音声データに対し、重畳されているＳ／Ｎ比を判定し、その判定結果に基づいて、前記Ｓ／Ｎ比に対応した音響モデル群の中から所定の音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行うようにしたものでもよい。
【００２３】
さらに、本発明の音声認識処理プログラムを記録した記録媒体は、Ｓ／Ｎ比の異なるある特定の種類の雑音がそれぞれのＳ／Ｎ比ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルを用いることで、それぞれのＳ／Ｎ比に対応する音響モデル群を作成して、それを音響モデル群記憶手段に記憶させる手順と、雑音が重畳された認識対象音声データに対し、重畳されているＳ／Ｎ比を判定し、その判定結果に基づいて、前記Ｓ／Ｎ比に対応した音響モデル群の中から所定の音響モデルを選択する手順と、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行う手順と、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う手順とを含んだ処理プログラムとしてもよい。
【００２４】
これら各発明において、雑音除去手法は、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法であってもよく、ケプストラム平均正規化法による雑音除去手法であってもよい。
【００２５】
また、本発明の音声認識装置は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら種類の異なる雑音が重畳されたそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルによって作成された雑音の種類に対応する音響モデル群と、この音響モデル群を記憶する音響モデル群記憶手段と、雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定する雑音判定手段と、その判定結果に基づいて、前記雑音の種類に対応した音響モデル群の中から所定の音響モデルを選択する音響モデル群選択手段と、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行う雑音除去手段と、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う音声認識手段とを有した構成としている。
【００２６】
この音声認識装置において、前記雑音除去手段が行う雑音除去手法は、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法であって、その場合、前記音響モデル群は、前記種類の異なる雑音が重畳されたそれぞれの音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、雑音除去されたそれぞれの音声データから特徴ベクトルを得て、その特徴ベクトルを用いて作成される。そして、これによって作成された音響モデル群を記憶する音響モデル群記憶手段と、前記雑音が重畳された認識対象音声データに対し、周波数領域での特徴分析データを得るための第１の音声特徴分析を行う第１の音声特徴分析手段と、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定した場合には、その雑音区間の特徴データを特徴データ記憶手段に保存する雑音区間／音声区間判定手段と、音声区間であると判定された場合には、前記保存された特徴データによって、重畳されている雑音の種類を判定する雑音種類判定手段と、その判定結果に基づいて、前記雑音の種類対応に用意された前記音響モデル群の中から所定の音響モデルを選択する音響モデル選択手段と、前記雑音が重畳された認識対象音声データに対し、前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行う雑音除去手段と、その雑音除去された音声データに対し、音声認識に必要な特徴データを得るための第２の音声特徴分析を行う第２の音声特徴分析手段と、その特徴分析結果に対し、前記選択された音響モデルを用いて音声認識を行う音声認識手段とを有した構成としている。
【００２７】
また、前記雑音除去手段が行う雑音除去手法は、ケプストラム平均正規化法による雑音除去手法であって、その場合、前記音響モデルは、前記種類の異なる雑音が重畳されたそれぞれの音声データに対し、ケプストラム平均正規化法による雑音除去手法を用いて雑音除去を行い、それによって得られたそれぞれの音声データの特徴ベクトルを用いて作成される。そして、これによって作成された音響モデル群を記憶する音響モデル群記憶手段と、前記雑音が重畳された認識対象音声データに対し、ケプストラム係数を表す特徴ベクトルを求めるための特徴分析を行う特徴分析手段と、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定した場合には、その雑音区間の特徴ベクトルを特徴データ記憶手段に保存し、音声区間であると判定した場合には、その音声区間の特徴ベクトルを特徴分析データ記憶手段に保存する雑音区間／音声区間判定手段と、この特徴データ記憶手段に保存された雑音区間の特徴ベクトルによって、重畳されている雑音の種類を判定する雑音種類判定手段と、その判定結果に基づいて、前記雑音の種類対応に用意された前記音響モデル群の中から所定の音響モデルを選択する音響モデル選択手段と、前記雑音の重畳された音声区間に対し、前記保存されている音声区間の特徴ベクトルを用い、ケプストラム平均正規化法による雑音除去手法を用いて雑音除去処理を行う雑音除去手段と、その雑音除去処理によって得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行う音声認識手段と有した構成としている。
【００２８】
前記それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルとし、その場合の音響モデルは、複数種類の雑音ごとにＳ／Ｎ比の異なるそれぞれの雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、このそれぞれ音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルによって作成されたそれぞれの雑音の種類ごとに複数段階のＳ／Ｎ比に対応した音響モデルである。
【００２９】
そして、音響モデルがそれぞれの雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルである場合、前記雑音種類判定手段は、前記雑音が重畳された認識対象音声データに対し、雑音の種類を判定する処理に加え、雑音区間の雑音の大きさと音声区間の音声の大きさからＳ／Ｎ比を求める処理を行い、前記音響モデル選択部は、判定された雑音種類と求められたＳ／Ｎ比に基づいて音響モデルの選択を行うようにしている。
【００３０】
また、本発明のもう一つの音声認識装置は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら種類の異なる雑音が重畳されたそれぞれの音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データに対しケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、その特徴ベクトルによって作成されたそれぞれの雑音対応の音響モデル群と、この音響モデル群を記憶する音響モデル群記憶手段と、雑音の重畳された認識対象音声データに対し、周波数領域での特徴データを得るための第１の音声特徴分析を行う第１の音声特徴分析手段と、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、その特徴データを特徴データ記憶手段に保存する雑音区間／音声区間判定手段と、音声区間であると判定された場合には、その音声区間に対し前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法によるノイズ除去手法を用いて雑音除去を行う雑音除去手段と、その雑音除去された音声区間のデータに対し、ケプストラム係数を求めるための第２の特徴分析処理を行いその音声区間の特徴ベクトルを特徴データ記憶手段に保存する第２の音声特徴分析部と、音声区間終了後に、前記保存された雑音区間の特徴データによって、重畳されている雑音の種類を判定する雑音種類判定手段と、その判定結果に基づいて、前記雑音対応に用意された音響モデルの中から所定の音響モデルを選択する音響モデル選択手段と、前記雑音の重畳された音声区間に対し、前記保存されている音声区間の特徴ベクトルを用い、ケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを出力するケプストラム平均正規化演算部と、その特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行う音声認識部とを有した構成としている。
【００３１】
このような音声認識装置において、前記それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルとし、その場合の音響モデルは、複数種類の雑音ごとにＳ／Ｎ比の異なるそれぞれの雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、それぞれ音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データに対し、ケプストラム平均正規化法を適用して得られたそれぞれの音声データの特徴ベクトルを用いて作成されたそれぞれの雑音の種類ごとに複数段階のＳ／Ｎ比対応の音響モデルである。
【００３２】
そして、音響モデルがそれぞれの雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルである場合、前記雑音種類判定手段は、前記雑音が重畳された認識対象音声データに対し、雑音の種類を判定する処理に加え、雑音区間の雑音の大きさと音声区間の音声の大きさからＳ／Ｎ比を求める処理を行い、前記音響モデル選択部は、判定された雑音種類と求められたＳ／Ｎ比に基づいて音響モデルの選択を行うようにしている。
【００３３】
さらに本発明の音声認識装置は、Ｓ／Ｎ比の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルによって作成されたＳ／Ｎ比に対応する音響モデル群と、この音響モデル群を記憶する音響モデル群記憶手段と、雑音が重畳された認識対象音声データに対し、重畳されている雑音のＳ／Ｎ比を判定するＳ／Ｎ比判定手段と、その判定結果に基づいて、前記Ｓ／Ｎ比に対応した音響モデル群の中から所定の音響モデルを選択する音響モデル群選択手段と、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行う雑音除去手段と、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う音声認識手段とを有した構成としたものであってもよい。
【００３４】
その場合の雑音除去手法は、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法であってもよく、ケプストラム平均正規化法による雑音除去手法であってもよい。
【００３５】
このように本発明は、種類の異なる雑音が重畳されたそれぞれの音声データを作成し、これらそれぞれの雑音が重畳されたそれぞれのの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データを用いて、雑音の種類に対応する音響モデルを作成しておく。そして、実際の認識時には、雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音の種類に対応した音響モデルの中から所定の音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【００３６】
これによって、重畳されている雑音の種類に応じた最適な音響モデルを用いての認識処理が可能となり、所定の雑音の存在する環境下であっても高い認識率を得ることができる。
【００３７】
特に、機器の使用環境に２、３種類の雑音が定常的に存在するような場合、それらの雑音ごとの音響モデルを作成し、その音響モデルを用いて、上述したような音声認識処理を行うことで、高い認識率を実現できる。
【００３８】
そして、本発明で用いられる雑音除去手法の１つとしては、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法であって、その場合、前記音響モデル作成時における雑音除去は、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法を用いて行う。また、実際の認識時には、雑音区間の特徴分析データによって、重畳されている雑音の種類を判定したのち、その判定結果に基づいて、最適な音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去された音声データを特徴分析して得られた結果に対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【００３９】
このように、雑音除去方法としてスペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法を用いることにより、雑音除去処理を少ない演算量で行うことができ、演算能力の低いＣＰＵでも十分対応することができる。これにより、小規模で安価なハードウエア上での実現が可能となる。また、このスペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法は自動車の走行音やエアコンの運転音、街中の雑踏などの雑音（一般に加法性雑音といわれている）の除去に効果があるとされているので、このような雑音の多い環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【００４０】
また、雑音除去手法の他の例として、ケプストラム平均正規化法による雑音除去手法を用いることもこともできる。その場合、前記音響モデル作成時における雑音除去は、ケプストラム平均正規化法を用いて行う。また、実際の認識時には、雑音区間の特徴分析データによって、重畳されている雑音の種類を判定したのち、その判定結果に基づいて、最適な音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データの音声区間に対し、ケプストラム平均正規化法を用いて雑音除去処理を行い、その雑音除去処理によって得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【００４１】
このように、雑音除去方法としてケプストラム平均正規化法を用いることにより、上述同様、雑音除去処理を少ない演算量で行うことができ、演算能力の低いＣＰＵでも十分対応することができる。これにより、小規模で安価なハードウエア上での実現が可能となる。また、このケプストラム平均正規化法はマイクロホンの特性やエコーなど空間伝達特性に由来する歪みなどの雑音（一般に乗法性雑音といわれている）の除去に効果があるとされているので、このような雑音が発生しやすい環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【００４２】
さらに、それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルとし、実際の認識時には、前記雑音が重畳された認識対象音声データに対し、雑音区間の雑音の大きさと音声区間の音声の大きさからＳ／Ｎ比を求め、求められたＳ／Ｎ比と雑音の種類に応じた音響モデルを選択するようにしているので、雑音の種類だけではなくその大きさに応じた最適な音響モデルを用いての認識が行える。これによって、それぞれの雑音環境下において音声認識を行う際、より一層、高い認識率を得ることが可能となる。
【００４３】
また、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法とケプストラム平均正規化法の両方を用いた音響モデルを作成することも可能である。この場合、実際の音声認識を行う場合も、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法を用いた雑音除去を行ったのちに、その雑音除去された音声データに対し、ケプストラム平均正規化法で特徴ベクトルを生成し、それを音声認識用の特徴ベクトルとして音声認識部に渡すようにしているので、さらに高い認識性能を得ることができ、また、この場合、前述した加法性雑音や乗法性雑音など幅広い雑音に対する対応が可能となる。
【００４４】
さらに本発明は、ある特定の決まった雑音について複数のＳ／Ｎを考慮した音声認識を行うことも可能である。その場合、Ｓ／Ｎ比の異なるある特定の種類の雑音がそれぞれのＳ／Ｎ比ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルを用いることで、それぞれのＳ／Ｎ比に対応する音響モデル群を作成しておく。そして、実際の認識時には、雑音が重畳された認識対象音声データに対し、重畳されているＳ／Ｎ比を判定し、その判定結果に基づいて、それぞれのＳ／Ｎ比に対応した音響モデル群の中から所定の音響モデルを選択し、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行うようにしている。
【００４５】
これは、雑音の種類は特定できてもその大きさ（Ｓ／Ｎ比）が変動することの多い環境下での音声認識を行う場合に好都合なものとなり、そのような環境下での認識率を高くすることができる。
【００４６】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の音声認識方法および音声認識装置についての説明であるとともに、本発明の音声認識処理プログラムを記録した記録媒体における音声認識処理プログラムの具体的な処理内容をも含むものである。
【００４７】
本発明は基本的には、処理対象となる音声に重畳している雑音を除去して、雑音の除去された音声データに対して音声認識を行うものであるが、その音声認識に用いられる音響モデルは、雑音（定常的な雑音）の種類を幾つか想定し、それぞれの雑音をある音声に対する音声データ（雑音の全く無いクリーンな音声データ）に重畳させて雑音の重畳された音声データを生成し、その雑音の重畳された音声データから雑音を除去する処理を行い、その雑音除去処理後の音声波形（雑音の無いクリーンな音声データとは多少異なる）を用いて音響モデルを作成する。
【００４８】
すなわち、予め用意された幾つかの雑音の種類ごとに、上述した手順でノイズの種類ごとにその雑音の除去された音響モデルが作成されることになる。
【００４９】
そして、実際の音声認識を行う場合には、認識対象の音声データに重畳されている雑音の種類を判定するとともに、その雑音を除去する処理を行い、雑音の種類に応じて音響モデルを選択して、選択された音響モデルを用いて音声認識処理を行う。
【００５０】
さらに、これらそれぞれの雑音の種類とともに、雑音と音声データの大きさの比であるＳ／Ｎ比を幾つかに設定した音響モデルを作成する。たとえば、雑音の種類を雑音Ｎ１、雑音Ｎ２、雑音Ｎ３の３種類を選んだとすれば、これら雑音の種類だけを考慮した場合には、３種類の音響モデルが作成されるが、それぞれの雑音について２段階のＳ／Ｎ比を考慮するとすれば、それぞれの雑音について雑音の大きさを２種類設定して、上述した処理を行って音響モデルを作成することになるので、作成される音響モデルは６種類となる。
【００５１】
たとえば、Ｓ／Ｎ比がある値Ｌ１未満（Ｓ／Ｎ＜Ｌ１）の場合と、Ｌ１以上（Ｓ／Ｎ≧Ｌ１）の場合の２段階に設定したとすれば、雑音Ｎ１に対しては、Ｓ／Ｎ比がＬ１未満の場合の音響モデルと、Ｌ１以上の場合の音響モデルの２つの音響モデルが作成される。同様にして、雑音Ｎ２，Ｎ３に対しても、それぞれ、Ｓ／ＮがＬ１未満の場合の音響モデルと、Ｌ１以上の場合の音響モデルの２個づつの音響モデルが作成され、合計６種類の音響モデルが作成されることになる。
【００５２】
ところで、上述の雑音除去を行う技術としては、前述したように、スペクトラル・サブトラクション（Spectral Subtraction：以下、ＳＳという）法または連続スペクトラル・サブトラクション（Continuous Spectral Subtraction：以下、ＣＳＳという）があるが、これは、特に、自動車の走行音、エアコンの運転音、街の雑踏などどこに音源が存在するのかが特定しにくい雑音（前述したように、加法性雑音と呼ばれている）の除去に効果のある方法といわれている。
【００５３】
これらＳＳ法またはＣＳＳ法とは別に、ケプストラム平均正規化（Cepstrum Mean Normarization：以下、ＣＭＮという）法による雑音除去方法もある。この方法は、マイクロホン特性やエコーなど空間伝達特性に由来する歪みなどの雑音（前述したように、乗法性雑音と呼ばれている）の除去に効果がある方法であるといわれている。
【００５４】
そこで本発明の実施の形態では、雑音除去方法としてＳＳ法またはＣＳＳ法を用いた場合を第１の実施の形態、ＣＭＮ法を用いた場合を第２の実施の形態、その両方を用いた場合を第３の実施の形態として説明する。
【００５５】
〔第１の実施の形態〕
図１はこの第１の実施の形態の音声認識装置の概略構成を示す図であり、構成要素のみを列挙すれば、マイクロホン１、アンプやＡ／Ｄ変換器を有する入力音声処理部２、第１の音声特徴分析部３、雑音区間／音声区間判定部４、特徴分析データ記憶部５、雑音種類判定／音響モデル選択部６、音響モデル群記憶部７、雑音除去部８、第２の音声特徴分析部９、音声認識部１０、言語モデル記憶部１１などを有した構成となっている。これら各構成要素の機能などについては図２のフローチャートを参照した動作説明により逐次説明する。
【００５６】
図２において、Ａ／Ｄ変換後の認識対象音声データに対し、まず、第１の音声特徴分析部３によって、１フレームごと（１フレームの時間長はたとえば２０数msec程度）に音声特徴分析が行われる（ステップｓ１）。この音声特徴分析は、周波数領域での音声特徴分析であり、その周波数分析手法として、たとえば、ＦＦＴ（高速フーリエ変換）などを用いた音声特徴分析であるとする。
【００５７】
そして、雑音区間／音声区間判定部４は、その音声特徴分析結果から得られるパワーの大きさや周波数の特徴などから、音声データが雑音区間であるか音声区間であるかを判定する（ステップｓ２）。その判定結果により雑音区間であると判定された場合には、最新のｎフレーム分の特徴データを特徴データ記憶部５に記憶させておく（ステップｓ３）。このステップｓ１〜ｓ３の処理を繰り返し、やがて、音声区間に入ったと判定されると、雑音種類判定／音響モデル選択部６により雑音種類判定動作と音響モデル選択動作に入る。この雑音種類判定動作と音響モデル選択動作について以下に説明する。
【００５８】
まず、この雑音種類判定動作と音響モデル選択動作の開始指示があるか否かを見て（ステップｓ４）、開始指示があれば、雑音の種類と大きさ（Ｓ／Ｎ比）を判定し、かつ、その判定結果に基づく音響モデル選択動作を行う（ステップｓ５）。
【００５９】
ここで、雑音の種類と大きさの判定は、ステップｓ３において特徴データ記憶部５に記憶された最新のｎフレーム分の雑音区間の特徴データおよび第１の音声特徴分析処理で得られる音声区間の幾つかのフレームごとの特徴データを用いて行う。これらそれぞれの特徴データからは周波数成分の特徴の他にパワーなども得られるため、雑音の種類やパワーがわかるとともに、音声のパワーがわかる。
【００６０】
たとえば、この第１の実施の形態では、雑音として自動車の走行音、エアコンの運転音、街中の雑踏などの定常的な雑音を想定している。ここでは、このような定常的な雑音として３種類を考え、それを雑音Ｎ１、雑音Ｎ２、雑音Ｎ３で表すものとする。したがって、雑音区間のｎフレーム分の特徴データを調べることによって、それが雑音Ｎ１，Ｎ２，Ｎ３のどれに近いかを判定することができる。
【００６１】
また、雑音のパワーと音声のパワーがわかれば、Ｓ／Ｎ比を求めることができる。なお、Ｓ／Ｎ比を求めるには、音声区間のパワーがある程度の大きさを持ったところでＳ／Ｎ比を計算する必要があるため、たとえば、音声区間における数フレーム分もしくは全フレーム分の最大値や平均値を用いて、Ｓ／Ｎ比の計算を行う。
【００６２】
このようにして、雑音の種類が判定されるとともにＳ／Ｎ比が求められると、次に、音響モデル選択動作を行う。この第１の実施の形態では、音響モデルは、３種類の定常的な雑音Ｎ１，Ｎ２，Ｎ３を想定し、これら３種類の雑音Ｎ１，Ｎ２，Ｎ３に対し、Ｓ／Ｎ比の値がＬ１未満の音響モデルと、Ｌ１以上の音響モデルを用意してある。
【００６３】
たとえば、この第１の実施の形態では、雑音の種類が雑音Ｎ１でＳ／Ｎ比がＬ１未満である場合には音響モデルＭ１、雑音Ｎ１でＳ／Ｎ比がＬ１以上である場合には音響モデルＭ２、雑音Ｎ２でＳ／Ｎ比がＬ１未満である場合には音響モデルＭ３、雑音Ｎ２でＳ／Ｎ比がＬ１以上である場合には音響モデルＭ４、雑音Ｎ３でＳ／Ｎ比がＬ１未満である場合には音響モデルＭ５、雑音Ｎ３でＳ／Ｎ比がＬ１以上である場合には音響モデルＭ６というように対応付けられているとする。したがって、音響モデル群記憶部７には、これら６種類の音響モデルＭ１，Ｍ２，・・・，Ｍ６が保存されている。これらの音響モデルＭ１，Ｍ２，・・・，Ｍ６は次のようにして作成される。
【００６４】
すなわち、雑音Ｎ１，Ｎ２，Ｎ３とそれぞれの雑音について２段階のＳ／Ｎ比（Ｌ１未満かＬ１以上か）を有する６パターンの雑音を用意し、これら６パターンの雑音を雑音の全くない音声データに重畳させることで、６パターンの音声データを作成する。
【００６５】
この６パターンの音声データは、Ｓ／Ｎ比がＬ１未満の雑音Ｎ１が重畳された音声データ、Ｓ／Ｎ比がＬ１以上の雑音Ｎ１が重畳された音声データ、Ｓ／Ｎ比がＬ１未満の雑音Ｎ２が重畳された音声データ、Ｓ／Ｎ比がＬ１以上の雑音Ｎ２が重畳された音声データ、Ｓ／Ｎ比がＬ１未満の雑音Ｎ３が重畳された音声データ、Ｓ／Ｎ比がＬ１以上の雑音Ｎ３が重畳された音声データの６パターンの音声データである。
【００６６】
これら６パターンのそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去された６パターンの音声データを特徴分析処理して得られた特徴ベクトルを用いることで、６種類の音響モデルＭ１，Ｍ２，・・・，Ｍ６が作成される。
【００６７】
ここで、ステップｓ５における処理において、雑音の種類が雑音Ｎ１に近いと判定され、求められたＳ／Ｎ比が（Ｓ／Ｎ）＜Ｌ１、つまりＬ１未満であった場合には、音響モデル群記憶部７から音響モデルＭ１が選択される。
【００６８】
このようにして、ノイズの種類とＳ／Ｎ比に応じた音響モデルが選択されると、次に、雑音除去部８による雑音除去処理がなされる（ステップｓ６）。この雑音除去処理は、この第１の実施の形態ではＳＳ法またはＣＳＳ法による雑音除去処理であり、前述したステップｓ３において特徴データ記憶部５に記憶された最新のｎフレーム分の雑音区間の特徴データと、音声区間の特徴データを用いてスペクトラル減算を行う。これによって、雑音の除去された音声データを得ることができる。ただし、このような雑音除去処理されたあとであっても、音声データには、雑音の影響がわずかではあるが残されたものとなっている。
【００６９】
そして、その雑音除去処理後の音声データに対して第２の音声特徴分析部９が特徴分析処理を行う（ステップｓ７）。この第２の音声特徴分析部９による特徴分析処理をここでは第２の音声特徴分析処理と呼ぶことにする。
【００７０】
この第２の音声特徴分析処理は、音声認識部１０が音声認識を行う際に用いるケプストラム係数を求める処理である。なお、ステップｓ１にて行われている特徴分析処理がたとえばＦＦＴなどを用いた周波数分析手法であり、その特徴分析結果が周波数領域での音声特徴データとなっているので、この第２の音声特徴分析処理では、ケプストラム係数としてメルケプストラム係数（Mel Frequency Cepstrum Coeffcients）を求める。
【００７１】
この第２の音声特徴分析処理によって得られたメルケプストラム係数は音声認識部１０に与えられ、音声認識部１０では、そのメルケプストラム係数に対して音声認識処理を行うが、このとき用いる音響モデルは、ステップｓ５によって選択された音響モデル（上述した例では音響モデルＭ１）であり、その音響モデルＭ１と言語モデル記憶部１１に保存されている言語モデルを用いて音声認識を行う。
【００７２】
また、ステップｓ７における第２の音声特徴分析のあとは、音声区間終了か否かを判断して（ステップｓ８）、音声区間がすべて終了していれば、処理は終了し、音声区間が終わっていなければ、ステップｓ１に処理が戻って同様の処理を行う。
【００７３】
すなわち、第１の音声特徴分析を行い（ステップｓ１）、雑音区間か音声区間かを判定し（ステップｓ２）、この判定結果が音声区間であれば、ステップｓ４以降の処理に入るが、このとき、音響モデル選択動作開始指示がない場合には、雑音の種類と大きさ（Ｓ／Ｎ比）の判定およびその判定結果に基づく音響モデル選択動作が終了しているか否かを判断して（ステップｓ９）、その処理が終了していれば、雑音除去処理（ステップｓ６）を行い、処理が終了していなければ、第１の音声特徴分析処理によって得られた音声区間の特徴データを記憶する処理を行う（ステップｓ１０）。
【００７４】
以上のような一連の処理が音声区間が終了するまで行われる。以上説明したように、音声認識対象となる音声データに対し、その音声データに重畳している雑音の種類とＳ／Ｎ比の大きさに応じた音響モデルが選択され、選択された音響モデルと予め用意されている言語モデルを用いて音声認識を行うようにしている。
【００７５】
なお、この第１の実施の形態で用いられる６種類の音響モデルＭ１，Ｍ２，・・，Ｍ６は、前述したように、２段階のＳ／Ｎ比を有する３種類の雑音Ｎ１，Ｎ２，Ｎ３を、音声データ（雑音の全く無いクリーンな音声データ）に重畳させて、雑音の重畳された６パターンの音声データを生成し、その６パターンの音声データに対しそれぞれ雑音を除去する処理（ＳＳ法またはＣＳＳ法による雑音除去処理）を行い、その雑音除去処理後の６パターンの音声データ（雑音の無いクリーンな音声データとは異なり、ノイズの影響が多少残された音声データ）を用いて作成されたものである。つまり、これら６種類の音響モデルは、実際の音声認識処理対象となる音声データに近い音声データにより作成された音響モデルであると言える。
【００７６】
したがって、実際の音声認識処理対象となる音声データに対し、その音声データに重畳されている雑音の種類とＳ／Ｎ比の大きさに基づいて、最適な音響モデルが選択され、選択された音響モデルを用いて音声認識を行うことにより、より一層、高い認識性能を得ることができる。
【００７７】
また、この第１の実施の形態では、雑音除去方法として、ＳＳ法またはＣＳＳ法を用いているので、雑音除去処理を少ない演算量で行うことができ、演算能力の低いＣＰＵでも十分対応することができる。
【００７８】
これにより、小規模で安価なハードウエア上での実現が可能となる。また、このＳＳ法は自動車の走行音やエアコンの運転音、街中の雑踏などの雑音除去に効果があるとされているので、このような雑音の多い環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【００７９】
〔第２の実施の形態〕
第２の実施の形態は、雑音除去方法として、ケプストラム平均正規化法（ＣＭＮ法）を用いたものであり、図３はこの第２の実施の形態の音声認識装置の概略構成を示す図であり、構成要素のみを列挙すれば、マイクロホン１、アンプやＡ／Ｄ変換器を有する入力音声処理部２、音声特徴分析部２１、雑音区間／音声区間判定部４、特徴データ記憶部５、雑音種類判定／音響モデル選択部６、音響モデル群記憶部７、雑音除去部８、音声認識部１０、言語モデル記憶部１１などを有した構成となっている。これら各構成要素の機能などについては図４のフローチャートを参照した動作説明により逐次説明する。
【００８０】
図４において、まず、音声特徴分析部２１がＡ／Ｄ変換後の処理対象音声データに対し、１フレームごと（１フレームの時間長はたとえば２０数msec程度）に音声特徴分析を行う（ステップｓ２１）。この音声特徴分析はこの第２の実施の形態ではケプストラム係数（たとえば、メルケプストラム係数やＬＰＣケプストラム係数）を求めるための特徴分析であるとする。
【００８１】
そして、その音声特徴分析結果に基づいて、雑音区間であるか音声区間であるかを雑音区間／音声区間判定部４によって判定し（ステップｓ２２）、雑音区間であると判定された場合には、この雑音区間／音声区間判定部４は、さらに、その雑音区間が音声区間の時間軸方向前方に存在する雑音区間であるか、音声区間の時間軸方向後方に存在する雑音区間であるかを判定する（ステップｓ２３）。
【００８２】
この判定の結果、音声区間の時間軸方向前方に存在する雑音区間である場合には、特徴分析されて得られた最新のｎ１フレーム分の特徴データ（ケプストラム係数の特徴ベクトル）を特徴データ記憶部５に記憶させる（ステップｓ２４）。
【００８３】
また、雑音区間であるか音声区間であるかを判定した結果が、音声区間であると判定された場合には、その音声区間（音声区間の開始から終了まで）を構成するｎ２フレーム分の特徴データ（ケプストラム係数の特徴ベクトル）を特徴データ記憶部５に記憶する（ステップｓ２５）。
【００８４】
さらに音声特徴分析を繰り返し、雑音区間であるか音声区間であるかを判定した結果が、雑音区間であると判定され、かつ、その雑音区間が音声区間の時間軸方向後方に存在する雑音区間であると判定された場合には（ステップｓ２１、ｓ２２，ｓ２３）、音声区間が終了したものとして、音声区間終了後のｎ３フレーム分の特徴データ（ケプストラム係数の特徴ベクトル）を特徴データ記憶部５に記憶する（ステップｓ２６）。
【００８５】
そして、このｎ３フレーム分の記憶処理が終了したか否かを判断して（ステップｓ２７）、処理が終了していれば、雑音種類判定／音響モデル選択部６により雑音種類判定動作と音響モデル選択動作に入る（ステップｓ２８）。この雑音種類判定動作と音響モデル選択動作について以下に説明する。
【００８６】
この雑音の種類と大きさ（Ｓ／Ｎ比）の判定および音響モデル選択動作は、それまでに特徴データ記憶部５に記憶されているｎ１，ｎ２フレーム分のそれぞれの特徴データを用いて行う。
【００８７】
すなわち、雑音の種類は、雑音区間の特徴データ（たとえばｎ１フレーム分の特徴データ）を用いて、雑音がどの雑音に近いかを判定することができ、Ｓ／Ｎ比は雑音区間を特徴分析することによって得られるパワーの大きさと音声区間のパワーの大きさによって求めることができる。
【００８８】
なお、この第２の実施の形態においても、３種類の雑音Ｎ１，Ｎ２，Ｎ３に対応した処理を行うものとする。
【００８９】
そして、これら雑音の種類の判定結果と、求められたＳ／Ｎ比の大きさに基づいて、どの音響モデルを用いるかの音響モデル選択動作を行う。この音響モデル選択動作は、前述の第１の実施の形態同様、たとえば、雑音の種類が雑音Ｎ１に近いと判定され、かつ、Ｓ／Ｎ比がＬ１未満であった場合には、音響モデルＭ１が選択されるといった動作である。
【００９０】
なお、この第２の実施の形態においても、第１の実施の形態同様、雑音の種類とＳ／Ｎ比の大きさに応じて６個の音響モデルＭ１，Ｍ２，・・・，Ｍ６が用意されるものとする。
【００９１】
すなわち、この第２の実施の形態も第１の実施の形態同様、雑音Ｎ１でＳ／Ｎ比がＬ１未満である場合には音響モデルＭ１、雑音Ｎ１でＳ／Ｎ比がＬ１以上である場合には音響モデルＭ２、雑音Ｎ２でＳ／Ｎ比がＬ１未満である場合には音響モデルＭ３、雑音２でＳ／Ｎ比がＬ１以上である場合には音響モデルＭ４、雑音Ｎ３でＳ／Ｎ比がＬ１未満である場合には音響モデルＭ５、雑音Ｎ３でＳ／Ｎ比がＬ１以上である場合には音響モデルＭ６というように対応付けられているとする。したがって、音響モデル群記憶部７には、これら６種類の音響モデルＭ１，Ｍ２，・・・，Ｍ６が保存されている。
【００９２】
なお、この第２の実施の形態においては、ＣＭＮ（ケプストラム平均正規化法）による雑音除去法を用いているので、音響モデルＭ１，Ｍ２，・・・，Ｍ６はＣＭＮ法を用いて作成されたものである。これらの音響モデルＭ１，Ｍ２，・・・，Ｍ６は次のようにして作成される。
【００９３】
すなわち、雑音Ｎ１，Ｎ２，Ｎ３とそれぞれの雑音について２段階のＳ／Ｎ比（Ｌ１未満かＬ１以上か）を有する６パターンの雑音を用意し、これら６パターンの雑音を雑音の全くない音声データに重畳させることで、６パターンの音声データを作成する。
【００９４】
この６パターンの音声データは、Ｓ／Ｎ比がＬ１未満の雑音Ｎ１が重畳された音声データ、Ｓ／Ｎ比がＬ１以上の雑音Ｎ１が重畳された音声データ、Ｓ／Ｎ比がＬ１未満の雑音Ｎ２が重畳された音声データ、Ｓ／Ｎ比がＬ１以上の雑音Ｎ２が重畳された音声データ、Ｓ／Ｎ比がＬ１未満の雑音Ｎ３が重畳された音声データ、Ｓ／Ｎ比がＬ１以上の雑音Ｎ３が重畳された音声データの６パターンの音声データである。
【００９５】
これら６パターンのそれぞれの音声データに対し、ＣＭＮ法による雑音除去手法を用いて雑音除去を行い、その雑音除去された６パターンの音声データの特徴ベクトルを用いることで、６種類の音響モデルＭ１，Ｍ２，・・・，Ｍ６が作成される。
【００９６】
ここで、ステップｓ２８における処理において、雑音の種類が雑音Ｎ１に近いと判定され、求められたＳ／Ｎ比がＬ１未満であった場合には、音響モデル群記憶部７から音響モデルＭ１が選択される。
【００９７】
ところで、この雑音の種類と大きさ（Ｓ／Ｎ比）の判定動作を行う場合、ｎ１フレーム分の特徴データ（音声区間の前方に存在する雑音の特徴データ）と、ｎ２フレーム分の特徴データ（音声区間の開始から終了までの特徴データ）だけを用いてもそれらを判定することができるが、ｎ３フレーム分の特徴データ（音声区間の後方に存在する雑音の特徴データ）をも用いるようにしてもよい。
【００９８】
そして次に、雑音除去部８がＣＭＮ法を用いた雑音除去処理を行うが、このＣＭＮ法による雑音除去処理は、まず、音声区間の音声特徴分析結果による特徴ベクトル（ｎ２フレーム分の特徴ベクトル）を用い、そのｎ２フレーム分の平均の特徴ベクトルを求める（ステップｓ２９）。
【００９９】
なお、この平均の特徴ベクトルを求める際、ｎ２フレーム分の特徴ベクトルだけを用いるのではなく、ｎ１，ｎ２，ｎ３の全ての特徴ベクトルを用いて求めるようにすることもできるが、ここでは、音声区間の開始から終了までを構成するｎ２フレーム分のみの特徴データを用いて行うものとする。
【０１００】
たとえば、ｎ２＝２０とすれば、２０フレーム分の特徴ベクトル（これをＣ１，Ｃ２，・・・，Ｃ２０で表し、これら各特徴ベクトルＣ１，Ｃ２，・・・，Ｃ２０は、それそれ、たとえば１０次元の成分を有している）の平均を求める。求められた平均の特徴ベクトルをＣｍとする。
【０１０１】
次に、求められた平均の特徴ベクトルを用い、音声区間（ここでは２０フレーム分）の特徴ベクトルを再計算する（ステップｓ３０）。この再計算というのは、音声区間を構成する２０フレーム分のそれぞれのフレームごとの特徴ベクトルＣ１，Ｃ２，・・・，Ｃ２から、平均の特徴ベクトルＣｍを引き算するもので、この例では、Ｃ１’＝Ｃ１−Ｃｍ，Ｃ２’＝Ｃ２−Ｃｍ，・・・，Ｃ２０’＝Ｃ２０−Ｃｍを行う。そして、求められたＣ１’，Ｃ１’，・・・，Ｃ２０’が雑音除去処理後の２０フレーム分の特徴ベクトルとなる。
【０１０２】
この特徴ベクトルＣ１’，Ｃ１’，・・・，Ｃ２０’が音声認識部１０に与えられ、音声認識部１０では、選択された音響モデルと予め用意されている言語モデル１１を用いた音声認識処理を行う。
【０１０３】
このように、第２の実施の形態においても前述した第１の実施の形態と同様、雑音の種類とＳ／Ｎ比の大きさに応じた音響モデルが選択され、選択された音響モデルと言語モデル記憶部１１に保存されている言語モデルを用いて音声認識を行うようにしている。
【０１０４】
なお、この第２の実施の形態で用いられる６種類の音響モデルは、第１の実施の形態同様、２段階のＳ／Ｎ比を有する３種類の雑音Ｎ１，Ｎ２，Ｎ３を音声データ（雑音の全く無いクリーンな音声データ）に重畳させて、雑音の重畳された６パターンの音声データを生成し、その６パターンの音声データに対しそれぞれ雑音を除去する処理（ＣＭＮ法による雑音除去処理）を行い、その雑音除去処理後の６パターンの音声データ（雑音の無いクリーンな音声データとは異なり、雑音の影響が多少残された音声データ）を用いて作成されたものである。つまり、実際の音声認識処理対象となる音声データに近い音声データにより作成された音響モデルであると言える。
【０１０５】
したがって、実際の音声認識処理対象となる音声データに対し、その音声データに重畳されている雑音の種類とＳ／Ｎ比の大きさに基づいて、最適な音響モデルを選択し、選択された音響モデルを用いて音声認識を行うことにより、より一層、高い認識性能を得ることができる。
【０１０６】
また、この第２の実施の形態の雑音除去法としてのＣＭＮ法は、少ない演算量で雑音除去を行うことができ、演算能力の低いＣＰＵでも十分対応することができ、小規模で安価なハードウエア上での実現が可能となる。また、このＣＭＮ法はマイクロホンの特性やエコーなど空間伝達特性に由来する雑音（乗法性雑音）の除去に効果があるとされているので、このような雑音が発生しやすい環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【０１０７】
〔第３の実施の形態〕
この第３の実施の形態は、第１の実施の形態と第２の実施の形態を組み合わせたものである。この第３の実施の形態においても、第１および第２の実施の形態同様、雑音の種類とＳ／Ｎ比の大きさに応じて６個の音響モデルＭ１，Ｍ２，・・・，Ｍ６が用意されているものとするが、この第３の実施の形態において用いられる音響モデルは、以下のようにして作成される。
【０１０８】
前述したように、２段階のＳ／Ｎ比を有する３種類の雑音Ｎ１，Ｎ２，Ｎ３を音声データ（雑音の全く無いクリーンな音声データ）に重畳させて、雑音の重畳された６パターンの音声データを生成し、その６パターンの音声データに対しそれぞれ雑音を除去する処理（ＳＳ法またはＣＳＳ法による雑音除去処理）を行い、その雑音除去処理後の６パターンの音声データ（雑音の無いクリーンな音声データとは異なり、雑音の影響が多少残された音声データ）を生成する。
【０１０９】
そして、このＳＳ法またはＣＳＳ法により雑音除去された６パターンの音声データのそれぞれの音声区間に対しＣＭＮ法を適用する。すなわち、前述したように、それぞれの音声データにおける音声区間を特徴分析して得られた特徴ベクトル（ｎ２フレーム分の特徴ベクトル）を用い、そのｎ２フレーム分の平均の特徴ベクトルを求める。たとえば、ｎ２＝２０とすれば、２０フレーム分の特徴ベクトル（これをＣ１，Ｃ２，・・・，Ｃ２０で表し、これら各特徴ベクトルＣ１，Ｃ２，・・・，Ｃ２０は、それそれ、たとえば１０次元の成分を有している）の平均Ｃｍとする。
【０１１０】
次に、求められた平均の特徴ベクトルを用い、音声区間（ここでは２０フレーム分）の特徴ベクトルを再計算、つまり、Ｃ１’＝Ｃ１−Ｃｍ，Ｃ２’＝Ｃ２−Ｃｍ，・・・，Ｃ２０’＝Ｃ２０−Ｃｍを行い、求められたＣ１’，Ｃ１’，・・・，Ｃ２０’を２０フレーム分（音声区間分）のそれぞれのフレームごとの特徴ベクトルとし、これらそれぞれのフレームごとの特徴ベクトルを用いて音響モデルを作成する。
【０１１１】
このような処理を、３種類のノイズＮ１，Ｎ２，Ｎ３ごとにそれぞれ２種類のＳ／Ｎ比の大きさを設定して行うことで、６個の音響モデルＭ１，Ｍ２，・・・，Ｍ６が作成される。
【０１１２】
図５はこの第３の実施の形態の音声認識装置の概略構成を示す図であり、構成要素のみを列挙すれば、マイクロホン１、アンプやＡ／Ｄ変換器を有する入力音声処理部２、第１の音声特徴分析部３、雑音区間／音声区間判定部４、特徴データ記憶部５、雑音種類判定／音響モデル選択部６、音響モデル群記憶部７、雑音除去部８、第２の音声特徴分析部９、ＣＭＮ演算部（ＣＭＮ法による雑音除去部）３１、音声認識部１０、言語モデル記憶部１１などを有した構成となっている。以下、図６のフローチャートを参照して説明する。
【０１１３】
図６において、まず、第１の音声特徴分析部３によって、Ａ／Ｄ変換後の認識対象音声データに対し、１フレームごと（１フレームの時間長はたとえば２０数msec程度）に音声特徴分析が行われる（ステップｓ４１）。この音声特徴分析は、周波数領域での音声特徴分析であり、ここでは前述同様、ＦＦＴ（高速フーリエ変換）などを用いた周波数分析手法を用いるものとする。
【０１１４】
その音声特徴分析結果に基づいて、雑音区間であるか音声区間であるかを雑音区間／音声区間判定部４によって判定し（ステップｓ４２）、雑音区間であると判定された場合には、雑音区間／音声区間判定部４は、さらに、その雑音区間が音声区間の時間軸方向前方に存在する雑音区間であるか、音声区間の時間軸方向後方に存在する雑音区間であるかを判定する（ステップｓ４３）。そして、音声区間の時間軸方向前方に存在する雑音区間である場合には、最新のｎ１フレーム分の特徴データを特徴データ記憶部５に記憶させる（ステップｓ４４）。
【０１１５】
また、雑音区間であるか音声区間であるかを判定した結果が、音声区間であると判定された場合には、雑音除去部８によってＳＳ法またはＣＳＳ法による雑音除去処理を行う（ステップｓ４５）。そして、その雑音除去処理後の音声データに対し、第２の特徴分析部９が特徴分析処理を行い（ステップｓ４６）、それによって得られた音声特徴データ（特徴ベクトル）を記憶させておく（ステップｓ４７）。なお、この第２の音声特徴分析処理はメルケプストラム係数を求めるための特徴分析処理である。
【０１１６】
そして、ステップｓ４１に処理が戻り、第１の音声特徴分析処理が繰り返され、その特徴分析結果に基づいて、雑音区間であるか音声区間であるかを判定し、その結果が、雑音区間であると判定され、かつ、その雑音区間が音声区間の時間軸方向後方に存在する雑音区間であると判定された場合には（ステップｓ４１、ｓ４２，ｓ４３）、音声区間終了と判断して、ステップｓ４８の雑音種類判定動作と音響モデル選択動作処理に入る。
【０１１７】
この雑音の種類と大きさ（Ｓ／Ｎ比）の判定および音響モデル選択動作は、それまでに記憶されているｎ１フレーム分およびｎ２フレーム分のそれぞれの音声特徴分析データを用いて行う。すなわち、雑音の種類は、雑音区間の特徴データ（たとえばｎ１フレーム分の特徴データ）を用いて、雑音が前述した３種類の雑音（雑音Ｎ１，Ｎ２，Ｎ３）のどれに近いかを判定することができ、Ｓ／Ｎ比は雑音区間の特徴データから得られるパワーの大きさと、音声区間の特徴データから得られるパワーの大きさによって求めることができる。
【０１１８】
そして、これら雑音の種類判定とＳ／Ｎ比の大きさに基づいて、どの音響モデルを用いるかの音響モデル選択動作を行う。この音響モデル選択動作は、前述の第１および第２の実施の形態同様、たとえば、雑音の種類が雑音Ｎ１に近いと判定され、かつ、Ｓ／Ｎ比がＬ１未満であった場合には、音響モデルＭ１が選択されるといった動作である。
【０１１９】
この音響モデル選択処理が終了すると、次に、音声認識を行うに必要な音声特徴データを得るための特徴データ生成処理がＣＭＮ演算部３１によって行われる（ステップｓ４９，ｓ５０）。この特徴データ生成処理は、前述した雑音除去法としてのＣＭＮ法を用いて行う。
【０１２０】
このＣＭＮ法は、第２の実施の形態で説明したように、音声区間の特徴分析結果による特徴ベクトル（ｎ２フレーム分の特徴ベクトル）を用い、そのｎ２フレーム分の平均の特徴ベクトルを前述同様の手順で求める（求められた平均の特徴ベクトルをＣｍとする）。この平均の特徴ベクトルＣｍを用い、音声区間（ここでは２０フレーム分）の特徴ベクトルを再計算する。つまり、Ｃ１’＝Ｃ１−Ｃｍ，Ｃ２’＝Ｃ２−Ｃｍ，・・・，Ｃ２０’＝Ｃ２０−Ｃｍを行う。
【０１２１】
そして、求められたＣ１’，Ｃ１’，・・・，Ｃ２０’が得られた２０フレーム分のそれぞれのフレームごとの特徴ベクトルとなる。そして、このそれぞれのフレームごとの特徴ベクトルＣ１’，Ｃ１’，・・・，Ｃ２０’が音声認識部１０に与えられ、音声認識部１０では、選択された音響モデルと言語モデル記憶部１１に保存されている言語モデルを用いた音声認識処理を行う。
【０１２２】
このように、第３の実施の形態においても前述した第１および第２の実施の形態と同様、雑音の種類とＳ／Ｎ比の大きさに応じた音響モデルが選択され、選択された音響モデルと予め用意されている言語モデルを用いて音声認識を行うようにしている。
【０１２３】
この第３の実施の形態では、ＳＳ法（またはＣＳＳ法）とＣＭＮ法の両方を用いた音響モデルを作成し、実際の音声認識を行う場合も、ＳＳ法（またはＣＳＳ法）を用いた雑音除去を行ったのちに、その雑音除去された音声データに対し、ＣＭＮ法で特徴ベクトルを生成し、それを音声認識用の特徴ベクトルとして音声認識部１０に渡すようにしているので、さらに高い認識性能を得ることができ、また、この第３の実施の形態では、加法性雑音や乗法性雑音など幅広い雑音に対する対応が可能となる。
【０１２４】
なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の各実施の形態では、雑音の種類は、雑音Ｎ１，雑音Ｎ２，雑音Ｎ３の３種類とし、Ｓ／Ｎ比はこれら各雑音について２段階の大きさとした例を示したが、これに限られるものではない。
【０１２５】
特に、雑音の種類は、たとえば、自動車の走行音、エアコンの運転音、街中の雑踏というようにそれぞれを単独の雑音として考えるのではなく、幾つかの雑音を組み合わせたものを１つの雑音として考えるようにしてもよい。
【０１２６】
一例として、雑音のない環境下で収録した音声データに、自動車の走行音とエアコンの運転音を同時に重畳させた音声データを生成し、この生成された音声データから所定の雑音除去方法を用いて雑音を除去したのちに、その雑音の除去された音声データを用いて学習した音声認識用の音響モデルを作成しておくこともできる。
【０１２７】
このように、機器の使用される環境下に存在しやすい定常雑音を組み合わせて作成された音響モデルを任意に複数種類作成することが可能であるので、個々の機器対応に最適な幾つかの音響モデルを用意しておくことで、より一層、高い認識率を得ることができる。さらに、これらそれぞれの雑音について、Ｓ／Ｎ比の異なるものを作成しておけば、より好結果が得られる。
【０１２８】
また、図１、図３、図５で示された音声認識装置の構成は、それぞれ実施の形態の例を示すもので、これらの図で示した通りに構成する必要はない。たとえば、雑音種類を判定する手段と音響モデルを選択する手段を、雑音種類判定手段／音響モデル選択手段６として１つにまとめたものとしたが、雑音種類判定手段と音響モデル選択手段というようにそれぞれを別個の構成要素として設けるようにしてもよいことは勿論である。
【０１２９】
さらに、前述の各実施の形態では、種類の異なる複数（３種類）の雑音を用意し、それぞれの雑音について複数段階（２段階）のＳ／Ｎ比を設定した例を説明したが、本発明は、ある特定の決まった雑音（１種類の雑音）について複数のＳ／Ｎを考慮した音声認識を行うことも可能である。
【０１３０】
その場合、Ｓ／Ｎ比の異なるある特定の種類の雑音がそれぞれのＳ／Ｎ比ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルを用いることで、それぞれのＳ／Ｎ比に対応する音響モデル群を作成しておく。
【０１３１】
そして、実際の認識時には、雑音が重畳された認識対象音声データに対し、重畳されているＳ／Ｎ比を判定し、その判定結果に基づいて、それぞれのＳ／Ｎ比に対応した音響モデル群の中から所定の音響モデルを選択し、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行うようにしている。
【０１３２】
その場合の音声認識装置は、ここでは図示しないが、Ｓ／Ｎ比の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルによって作成されたＳ／Ｎ比に対応する音響モデル群と、この音響モデル群を記憶する音響モデル群記憶手段と、雑音が重畳された認識対象音声データに対し、重畳されている雑音のＳ／Ｎ比を判定するＳ／Ｎ比判定手段と、その判定結果に基づいて、前記Ｓ／Ｎ比に対応した音響モデル群の中から所定の音響モデルを選択する音響モデル群選択手段と、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行う雑音除去手段と、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う音声認識手段とを有した構成とする。
【０１３３】
なお、この場合も雑音除去手法としては、ＳＳ法（またはＣＳＳ法）やＣＭＮ法を用いることが可能で、第１の実施の形態、第２の実施の形態、さらには、第３の実施の形態で説明した処理に準じた処理を行うことで、雑音が重畳された認識対象音声データからＳ／Ｎ比の大きさを判定し、Ｓ／Ｎ比の大きさに応じた音響モデルが選択され、その選択された音響モデルを用いて音声認識を行うことができる。
【０１３４】
これは、雑音の種類は特定できても、その大きさ（Ｓ／Ｎ比）が変動することの多い環境下での音声認識を行う場合に好都合なものとなり、そのような環境下での認識率を高くすることができる。この場合、雑音の種類は特定されていることから、雑音の種類を判定する必要がないので、全体の演算量を少なくすることができ、演算能力のより低いＣＰＵでも十分対応できるものとなる。
【０１３５】
また、前述の各実施の形態では、雑音除去手法として、ＳＳ法（またはＣＳＳ法）やＣＭＮ法を用いた例について説明したが、これらＳＳ法（またはＣＳＳ法）やＣＭＮ法そのものでなく、それらをベースとしてそれらを変形した方法（たとえば、ＣＭＮ法には、非音声区と音声区間を区別してＣＭＮを行う方法もある）であってもよい。
【０１３６】
また、音声特徴ベクトルとしては、Δケプストラム係数やΔパワーなどを用いてもよい。
【０１３７】
また、本発明は、以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその処理プログラムが記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【０１３８】
【発明の効果】
以上説明したように本発明は、種類の異なる雑音が重畳されたそれぞれの音声データを作成し、これらそれぞれの雑音が重畳されたそれぞれのの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データを用いて、雑音の種類に対応する音響モデルを作成しておく。そして、実際の認識時には、雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音の種類に対応した音響モデルの中から所定の音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【０１３９】
これによって、重畳されている雑音の種類に応じた最適な音響モデルを用いての認識処理が可能となり、所定の雑音の存在する環境下であっても高い認識率を得ることができる。
【０１４０】
特に、機器の使用環境に２、３種類の雑音が定常的に存在するような場合、それらの雑音ごとの音響モデルを作成し、その音響モデルを用いて、上述したような音声認識処理を行うことで、高い認識率を実現できる。
【０１４１】
そして、本発明で用いられる雑音除去手法の１つとしては、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法であって、その場合、前記音響モデル作成時における雑音除去は、スペクトラル・サブストラクション法または連続スペクトラル・サブトラクション法を用いて行う。また、実際の認識時には、雑音区間の特徴分析データによって、重畳されている雑音の種類を判定したのち、その判定結果に基づいて、最適な音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、スペクトラム・サブストラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去された音声データを特徴分析して得られた結果に対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【０１４２】
このように、雑音除去方法としてスペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法を用いることにより、雑音除去処理を少ない演算量で行うことができ、演算能力の低いＣＰＵでも十分対応することができる。これにより、小規模で安価なハードウエア上での実現が可能となる。また、このスペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法は自動車の走行音やエアコンの運転音、街中の雑踏などの雑音（一般に加法性雑音といわれている）の除去に効果があるとされているので、このような雑音の多い環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【０１４３】
また、雑音除去手法の他の例として、ケプストラム平均正規化法による雑音除去手法を用いることもこともできる。その場合、前記音響モデル作成時における雑音除去は、ケプストラム平均正規化法を用いて行う。また、実際の認識時には、雑音区間の特徴分析データによって、重畳されている雑音の種類を判定したのち、その判定結果に基づいて、最適な音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データの音声区間に対し、ケプストラム平均正規化法を用いて雑音除去処理を行い、その雑音除去処理によって得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【０１４４】
このように、雑音除去方法としてケプストラム平均正規化法を用いることにより、上述同様、雑音除去処理を少ない演算量で行うことができ、演算能力の低いＣＰＵでも十分対応することができる。
【０１４５】
これにより、小規模で安価なハードウエア上での実現が可能となる。また、このケプストラム平均正規化法はマイクロホンの特性やエコーなど空間伝達特性に由来する歪みなどの雑音（一般に乗法性雑音といわれている）の除去に効果があるとされているので、このような雑音が発生しやすい環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【０１４６】
さらに、それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルとし、実際の認識時には、前記雑音が重畳された認識対象音声データに対し、雑音区間の雑音の大きさと音声区間の音声の大きさからＳ／Ｎ比を求め、求められたＳ／Ｎ比と雑音の種類に応じた音響モデルを選択するようにしているので、雑音の種類だけではなくその大きさに応じた最適な音響モデルを用いての認識が行える。これによって、それぞれの雑音環境下において音声認識を行う際、より一層、高い認識率を得ることが可能となる。
【０１４７】
また、スペクトラル・サブストラクション法または連続スペクトラル・サブトラクション法とケプストラム平均正規化法の両方を用いた音響モデルを作成することも可能である。この場合、実際の音声認識を行う場合も、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法を用いた雑音除去を行ったのちに、その雑音除去された音声データに対し、ケプストラム平均正規化法で特徴ベクトルを生成し、それを音声認識用の特徴ベクトルとして音声認識部に渡すようにしているので、さらに高い認識性能を得ることができ、また、この場合、前述した加法性雑音や乗法性雑音など幅広い雑音に対する対応が可能となる。
【０１４８】
さらに、ある特定の決まった雑音について複数のＳ／Ｎに対応する音響モデル群を作成しておき、実際の認識時には、雑音が重畳された認識対象音声データに対し、重畳されているＳ／Ｎ比を判定し、その判定結果に基づいて、それぞれのＳ／Ｎ比に対応した音響モデル群の中から所定の音響モデルを選択し、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行うようにすることもできる。
【０１４９】
これによれば、雑音の種類は決まっていてもその大きさ（Ｓ／Ｎ比）が変動することの多い環境下での音声認識を行う場合に好都合なものとなり、そのような環境下での認識率を高くすることができる。この場合、雑音の種類は特定されているので、雑音の種類を判定する必要がなく、演算量を少なくすることができ、演算能力がより低いＣＰＵでも十分対応できるものとなる。
【図面の簡単な説明】
【図１】本発明の音声認識装置の第１の実施の形態を説明するための構成図である。
【図２】第１の実施の形態の処理手順を説明するためのフローチャートである。
【図３】本発明の音声認識装置の第２の実施の形態を説明するための構成図である。
【図４】第２の実施の形態の処理手順を説明するためのフローチャートである。
【図５】本発明の音声認識装置の第３の実施の形態を説明するための構成図である。
【図６】第３の実施の形態の処理手順を説明するためのフローチャートである。
【符号の説明】
１音声入力部
２入力音声処理部
３第１の音声特徴分析部
４雑音区間／音声区間判定部
５特徴データ記憶部
６雑音種類判定／音響モデル選択部
７音響モデル群記憶部
８雑音除去部
９第２の音声特徴分析部
１０音声認識部
１１言語モデル記憶部
２１特徴分析部
３１ＣＮＮ演算部（ＣＮＮ法による雑音除去部）

Claims

種類の異なる雑音が雑音の種類ごとに重畳された複数の音声データを作成し、前記複数の音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれた複数の音声データの特徴ベクトルを用いることで、雑音の種類に対応する音響モデル群を作成して前記作成した音響モデル群を保持しておき、
認識時には、
雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定し、前記判定の結果に基づいて、前記雑音の種類に対応する音響モデル群の中から所定の音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれた音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う音声認識方法であって、
前記雑音の種類に対応する音響モデルは、雑音の種類に加え、雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルであり、該雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルは、複数種類の雑音ごとにＳ／Ｎ比の異なるそれぞれの雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、前記作成されたそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれたそれぞれの音声データの特徴ベクトルによって作成された音響モデルであることを特徴とする音声認識方法。
前記音響モデルが雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルである場合、前記雑音が重畳された認識対象音声データに対し、雑音の種類を判定する処理に加え、雑音区間の雑音の大きさと音声区間の音声の大きさからＳ／Ｎ比を求める処理を行い、前記判定された雑音の種類と前記求められたＳ／Ｎ比に基づいて音響モデルの選択を行うことを特徴とする請求項１記載の音声認識方法。
種類の異なる雑音が雑音の種類ごとに重畳された複数の音声データを作成し、前記複数の音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれた複数の音声データに対しケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、前記得た特徴ベクトルによって、雑音の種類に対応する音響モデル群を作成して前記作成した音響モデル群を保存しておき、
認識時には、
雑音の重畳された認識対象音声データに対し、周波数領域での特徴データを得る第１の音声特徴分析処理を行い、
前記第１の音声特徴分析処理の結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、前記第１の音声特徴分析処理によって得られた特徴データを保存し、
音声区間であると判定された場合には、該判定された音声区間に対し前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、
前記雑音除去が行なわれた音声区間のデータに対し、ケプストラム係数を求める第２の音声特徴分析処理を行い、第２の音声特徴分析処理が行なわれた音声区間の特徴ベクトルを保存し、
音声区間終了後に、前記保存された雑音区間の特徴データによって、重畳されている雑音の種類を判定して、前記判定の結果に基づいて、前記雑音の種類に対応する音響モデル群の中から所定の音響モデルを選択し、
前記保存されている音声区間の特徴ベクトルに対し、前記ケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、
前記ケプストラム平均正規化法を適用して得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行う音声認識方法であって、
前記雑音の種類に対応する音響モデルは、雑音の種類に加え、雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルであり、該雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルは、複数種類の雑音ごとにＳ／Ｎ比の異なるそれぞれの雑音を雑音の種類ごとに重畳させたそれぞれの音声データを作成し、前記作成された音声データに対し、前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれたそれぞれの音声データに対し、前記ケプストラム平均正規化法を適用して得られたそれぞれの音声データの特徴ベクトルを用いて作成された音響モデルであることを特徴とする音声認識方法。
種類の異なる雑音が雑音の種類ごとに重畳された複数の音声データを作成し、前記複数の音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれた複数の音声データの特徴ベクトルによって作成された雑音の種類に対応する音響モデル群と、
前記音響モデル群を記憶する音響モデル群記憶手段と、
雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定する雑音判定手段と、
前記雑音判定手段の判定の結果に基づいて、前記雑音の種類に対応する音響モデル群の中から所定の音響モデルを選択する音響モデル群選択手段と、
前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去手法を用いて雑音除去を行う雑音除去手段と、
前記雑音除去手段にて雑音除去が行なわれた認識対象音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う音声認識手段と、
を有し、
前記それぞれの雑音対応の音響モデルは、雑音の種類に加え、雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルであり、該雑音の種類ごとに複数段階のＳ／Ｎ比にも対応した音響モデルは、複数種類の雑音ごとにＳ／Ｎ比の異なるそれぞれの雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、前記作成されたそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれたそれぞれの音声データの特徴ベクトルによって作成された音響モデルであることを特徴とする音声認識装置。