JP5200080B2

JP5200080B2 - 音声認識装置、音声認識方法、およびそのプログラム

Info

Publication number: JP5200080B2
Application number: JP2010218255A
Authority: JP
Inventors: 哲小橋川; 敏高橋; 厚徳小川; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-09-29
Filing date: 2010-09-29
Publication date: 2013-05-15
Anticipated expiration: 2030-09-29
Also published as: JP2010282239A

Description

本発明は、音声の音響特徴量と音響モデルとの照合尤度を求めて、その照合尤度に基づいて音声認識結果を得ることで音声認識を行う音声認識装置・方法に関する。

認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル（Hidden Markov Model、以下ではＨＭＭと記す。）を用いて音響モデルを構築し
、この音響モデルと入力音声の音響特徴量との照合によって音声認識を行う従来的手法は、認識性能が高く、現在の音声認識技術の主流となっている。図１０に従来のＨＭＭを用いた音声認識装置の機能構成例を示す。

まず、発話者であるユーザの発声した音声は、マイクロフォン（９００）によって収音される。マイクロフォン（９００）によって収音されたユーザの音声は、収音信号として音声認識装置の収音信号入力部（１１）の入力となる。

次に、収音信号入力部（１１）が、収音信号（但し、この段階ではアナログ信号である。）の入力を受け付ける。収音信号入力部（１１）が受け付けた収音信号（ここでの説明では入力音声信号ということにする。）は、Ａ／Ｄ変換部（１２）の入力となる。

次いで、Ａ／Ｄ変換部（１２）が、入力された入力音声信号に対して、公知のＡ／Ｄ変換を行い、これをディジタル信号に変換して出力する。以下では、ディジタル信号に変換された入力音声信号を、単にディジタル信号と云うことにする。Ａ／Ｄ変換部（１２）が出力したディジタル信号は、特徴量抽出部（１３）の入力となる。

次に、特徴量抽出部（１３）は、入力されたディジタル信号から音響特徴量を抽出して出力する。音響特徴量とは、一般的にケプストラム〔ＬＰＣケプストラム、ＭＦＣＣ（メル周波数ケプストラム）なども含む。〕、パワーやこれらの動的特徴量などである。特徴量抽出部（１３）が出力した音響特徴量は、モデル照合尤度計算部（１５）の入力となる。

ところで、モデル格納部（１４）には、ある音声単位（既述のとおり、音声単位としては音素、音節、単語などが考えられるが、ここでは音素を例として説明する。）毎に予め作成した音響モデルが保存記憶（格納とも云う。）されているとする。この音響モデルは、音響特徴量と音素との関係を確率として与える確率モデルである。

音響特徴量と音響モデルとを照合して音声認識結果を出力する認識結果出力部（１９）は、モデル照合尤度計算部（１５）および認識結果決定部（１６）から構成される。
モデル照合尤度計算部（１５）は、モデル格納部（１４）から音響モデルを読み込み、モデル照合尤度計算部（１５）に入力された音響特徴量と読み込んだ音響モデルとを照合して、音響特徴量に対応した音素列ごとの尤度（照合尤度とも云う。）を計算し、この計算結果を出力する。この計算結果は、認識結果決定部（１６）の入力となる。
なお、必要に応じて、モデル照合尤度計算部（１５）は、入力された音響特徴量と、読み込んだ音響モデル、言語モデル（辞書も含む。）などとを照合して、音響特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部（１５）による照合尤度計算は、公知の方法で達成される。

認識結果決定部（１６）は、入力された計算結果のうち、例えば最も大きな照合尤度やあるいは所定の閾値以上の照合尤度に対応した音素列ないし単語列を認識結果として出力する。

また、加法性雑音および乗法性雑音（乗法性歪み）が重畳した音声の認識方法として、ＣＭＮ（Cepstral Mean Normalization）法（非特許文献１参照。）とＨＭＭ合成法（非特許文献２参照。）を連携させるＮＯＶＯ＋ＣＭＮ法（非特許文献３参照。）が提案されている。
非特許文献３で提案されているＮＯＶＯ＋ＣＭＮ法は、加法性および乗法性の雑音環境下の音声認識処理のレスポンス性（発話者であるユーザが音声認識装置に対して発話してから音声認識装置から認識結果が返ってくるまでの時間の短さ）に着目し、入力信号の非音声（雑音）区間の情報−つまり、雑音信号−のみから音響モデルの雑音適応およびモデルパラメータの正規化を行い、入力信号の音声区間の情報−つまり、音声信号−に対しては、その音響特徴量の正規化を行うことで音声認識精度を高める一方で、音声認識処理前の音響モデルの更新に音声の入力を待つ必要が無く高いレスポンス性を実現している。

しかしながら、ＮＯＶＯ＋ＣＭＮ法は、式（１）に示す定式化の過程で式（２）に示す近似を含むものである。なお、式（１）において、記号上部にバーが付されたものは、長時間平均であることを表す。例えば、Ｓ￣（この明細書では記号ｘの上部にバーが付されたものをｘ￣のように表す。以下同様である。）は、クリーン音声信号のスペクトルの長時間平均を表す。

このＮＯＶＯ＋ＣＭＮ法を、図１１に示した機能構成例を参照して具体的に説明する。
まず、発話者であるユーザの発声した音声および雑音は、マイクロフォン（９００）によって収音される。マイクロフォン（９００）によって収音されたユーザの音声および雑音は、収音信号として音声認識装置の収音信号入力部（１１）の入力となる。

次に、収音信号入力部（１１）が、収音信号（但し、この段階ではアナログ信号である。）の入力を受け付ける。収音信号入力部（１１）が受け付けた収音信号（以下、入力信号という。）は、Ａ／Ｄ変換部（１２）の入力となる。

次いで、Ａ／Ｄ変換部（１２）が、入力された入力信号に対して、公知のＡ／Ｄ変換を行い、これをディジタル信号に変換して出力する。以下では、ディジタル信号に変換された入力信号を、単にディジタル信号と云うことにする。Ａ／Ｄ変換部（１２）が出力したディジタル信号は、音声／雑音区間判定部（２１）および特徴量抽出部（１３）の入力となる。

次に、音声／雑音区間判定部（２１）は、入力されたディジタル信号が音声区間のものであるか雑音区間のものであるかを判定して、この判定結果（音声／雑音判定結果）を出力する。この音声／雑音判定結果は、音声／雑音切替制御部（２５）の入力となる。

また、特徴量抽出部（１３）は、入力されたディジタル信号から音響特徴量を抽出して出力する。上記同様、音響特徴量とは、一般的にケプストラム〔ＬＰＣケプストラム、ＭＦＣＣ（メル周波数ケプストラム）なども含む。〕、パワーやこれらの動的特徴量などである。なお、後述の雑音適応や正規化で更新される音響特徴量はケプストラムに関するものであることに留意しなければならない。特徴量抽出部（１３）が出力した音響特徴量は、音声／雑音切替制御部（２５）の入力となる。

続いて、音声／雑音切替制御部（２５）は、入力された音声／雑音判定結果に基づき、音声／雑音判定結果が「音声区間」と判定された結果を表すものであれば、入力された音響特徴量を音声ケプストラム平均正規化部（２６）および音声ケプストラム平均計算部（２１１）への入力とし（図１１の符号２３側）、音声／雑音判定結果が「雑音区間」と判定された結果を表すものであれば、入力された音響特徴量を雑音モデル生成部（２７）への入力とする（図１１の符号２４側）。

＜音声／雑音判定結果が「雑音区間」の場合＞
雑音モデル生成部（２７）は、入力された音響特徴量に基づき「雑音モデル」を生成する。雑音モデルは、雑音ＨＭＭとして生成される。雑音ＨＭＭは、雑音とこの音響特徴量との関係を確率として与える確率モデルである。この雑音ＨＭＭの生成は公知の方法で達成される（非特許文献２参照。）。

ところで、クリーン音声モデル格納部（２８）には、雑音環境を可能な限り排除した空間（以下、「非雑音環境」という。）で収音した音声（クリーン音声）に対して、ある音声単位（ここでは音素を例として説明する。）毎に予め作成したＨＭＭ（「クリーン音声モデル」）が格納されているとする。このクリーン音声モデルは、クリーン音声における音響特徴量と音素との関係を確率として与える確率モデルである。

雑音適応部（２１０）は、雑音モデル生成部（２７）によって生成された雑音モデルおよびクリーン音声モデル格納部（２８）に格納されているクリーン音声モデルを読み込み、雑音モデルとクリーン音声モデルとを合成して「雑音重畳音声モデル」を生成する。この雑音重畳音声モデルはＨＭＭである。雑音モデルとクリーン音声モデルとの合成は公知の方法で達成される（非特許文献２参照。）。ここで生成された雑音重畳音声モデルは、例えて言えば、式（１）[Ｃ]の右辺の分子に相当するものである。

次に、雑音適応モデル生成部（２１２）が、まず、雑音適応部（２１０）によって生成された雑音重畳音声モデルのモデルパラメータを平均してモデルパラメータ平均（例えて言えば、式（１）[Ｃ]の右辺の分母に相当するものである。）を生成し、次に、雑音重畳音声モデルのモデルパラメータを、前記モデルパラメータ平均によって正規化して「正規化済み雑音適応モデル」を生成する。ここで生成された正規化済み雑音適応モデルは、例えて言えば、式（１）[Ｃ]の右辺に相当するものである。ここで生成された正規化済み雑音適応モデルは、雑音適応モデル格納部（２１３）に格納される。

以上のように、音声／雑音区間判定部（２１）の音声／雑音判定結果が「雑音区間」の場合、クリーン音声モデルに対して、雑音信号のみを用いて得られる雑音モデルを重畳適応して正規化することによって、正規化済み雑音適応モデルが生成され、この正規化済み雑音適応モデルを雑音適応モデル格納部（２１３）に上書き格納することで、正規化済み雑音適応モデルが更新されることになる。

＜音声／雑音判定結果が「音声区間」の場合＞
音声ケプストラム平均計算部（２１１）が、入力された音響特徴量から「音声ケプストラム平均」（例えて言えば、式（１）[Ｂ]の右辺の分母に相当するものである。）を求め、この音声ケプストラム平均を出力する。音声ケプストラム平均計算部（２１１）が出力した音声ケプストラム平均は、音声ケプストラム平均正規化部（２６）の入力となる。

次に、音声ケプストラム平均正規化部（２６）が、入力された音響特徴量を、入力された音声ケプストラム平均によって正規化して「正規化音声成分特徴量」を出力する。音声ケプストラム平均正規化部（２６）が出力した正規化音声成分特徴量は、モデル照合尤度計算部（１５）の入力となる。

続いて、認識結果出力部（１９）が正規化音声成分特徴量と正規化済み雑音適応モデルとを照合して音声認識結果を出力する。この認識結果出力部（１９）は、モデル照合尤度計算部（１５）および認識結果決定部（１６）から構成される。
モデル照合尤度計算部（１５）は、雑音適応モデル格納部（２１３）から正規化済み雑音適応モデルを読み込み、モデル照合尤度計算部（１５）に入力された正規化音声成分特徴量と読み込んだ正規化済み雑音適応モデルとを照合して、正規化音声成分特徴量に対応した音素列ごとの尤度（照合尤度とも云う。）を計算し、この計算結果を出力する。この計算結果は、認識結果決定部（１６）の入力となる。
なお、必要に応じて、モデル照合尤度計算部（１５）は、入力された正規化音声成分特徴量と、読み込んだ正規化済み雑音適応モデル、言語モデル（辞書も含む。）などとを照合して、正規化音声成分特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部（１５）による照合尤度計算は、公知の方法で達成される。

以上のように、式（１）[Ｃ]の右辺はクリーン音声モデルの雑音適応および正規化というモデルパラメータ変換によって実現しており、式（２）の近似に基づき乗法性雑音（乗法性歪み）を必要としないため、正規化済み雑音適応モデルの更新を雑音区間のみの情報（即ち、雑音信号である。）によって行うことができ、高いレスポンス性に寄与している。

B. S. Atal, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification", Proc. J. Acoust. Soc. Am, vo1.55, pp.1304-1312, 1974. F. Martin 他, "Recognition of Noisy Speech by Composition of Hidden Markov Models", 電子情報通信学会技術研究報告 SP92-96, pp.9-16, 1992. KOBASHIKAWA Satoshi, TAKAHASHI Satoshi, YAMAGUCHI Yoshikazu and OGAWA Atsunori, "Rapid Response and Robust Speech Recognition by Preliminary Model Adaptation for Additive and Convolutional Noise", Interspeech 2005, pp.968-971, 2005.

実際の環境において、例えばハンズフリーを想定して、発話者であるユーザの口元とマイクロフォンが離れている状況では、接話型のマイクロフォンを用いた場合と比べて、まず周囲の背景雑音（環境雑音とも云う。）が混入しやすくなる。このため、加法性雑音の影響によって、マイクロフォンに収音される音声はＳ／Ｎ（信号対雑音比）が悪い雑音重畳音声となる。また、ユーザの口元とマイクロフォンの間の空間伝達特性により、マイクロフォンに収音される音声は、接話型のマイクロフォンで収録された音声とは異なる周波数特性を持つ、乗法性雑音（乗法性歪み）重畳音声となる。

このように実環境において収録された音声を認識するためには背景雑音による加法性雑音と、伝達特性による乗法性雑音（乗法性歪み）に対して対策する必要がある。

また、携帯電話等に入力された音声も背景雑音に基づく加法性雑音の影響に加え、マイクロフォン特性および電話回線の乗法性雑音（乗法性歪み）の影響を強く受けるため、加法性および乗法性の両方の雑音に対策する必要がある。

これに対し、音響モデル合成法に基づく加法性雑音対策法と、長時間平均特徴量正規化法に基づく乗法性雑音（乗法性歪み）対策法とを連携させることによって、実環境下における音声認識、具体的にはハンズフリー音声や電話音声などに対する頑健な音声認識方法が考えられる。

上記非特許文献３で提案される従来手法では、上記のような加法性および乗法性の両方の雑音に対策するとともに、音声認識処理の高いレスポンス性を要求されている状況を想定しており、高レスポンス性を実現するため認識性能を多少劣化させる近似を含んでいた。実際に、理想条件として実験されている乗法性雑音（乗法性歪み）既知のＮＯＶＯ＋ＣＭＮ（optimum）法が高Ｓ／Ｎ条件でＮＯＶＯ＋ＣＭＮ法よりも高性能を達成している。
即ち、ＮＯＶＯ＋ＣＭＮ法は、式（２）の近似によって高いレスポンス性を実現しているものの、乗法性雑音（乗法性歪み）情報を未知としていることで、性能がやや劣化してしまっているといえる。

また、音声認識の利用アプリケーションとしては、非特許文献３で提案されたＮＯＶＯ＋ＣＭＮ法が想定している状況とは異なり、蓄積メディアに蓄積された音声を認識する（オフライン音声認識処理が可能な）状況などを想定すると、レスポンス性よりも高い音声認識性能が必要とされる場合もある。

そこで、本発明は、上記の問題点に鑑み、実環境下の音声に対する高い認識性能で音声認識できる音声認識装置、音声認識方法、そのプログラムおよびその記録媒体を提供することを目的とする。

上記課題を解決するために、本発明は、記憶手段に、非雑音環境で収音された音声の音声単位毎に構築した音響モデルであるクリーン音声モデルおよびディジタル信号（音声および雑音を含む収音信号をＡ／Ｄ変換したものである。）を記憶しておき、音声／雑音区間判定手段が、このディジタル信号の音声区間と雑音区間とを判定して音声／雑音判定結果を出力し、特徴量抽出手段が、ディジタル信号からケプストラムを抽出する。そして、雑音モデル生成手段が、音声／雑音判定結果に基づき、雑音区間のディジタル信号のケプストラムからは雑音モデルを生成し、音声特徴量平均計算手段が、音声／雑音判定結果に基づき、音声区間のディジタル信号のケプストラムの平均を音声ケプストラム平均として算出する。次いで、正規化雑音モデル生成手段が、音声特徴量平均、クリーン音声モデルのクリーン音声のケプストラムの平均および雑音モデルの雑音ケプストラム平均から雑音のケプストラムの平均を減算した値をクリーン音声モデルのクリーン音声のケプストラムの平均で除算したものを乗法性雑音特徴量として算出し、この乗法性雑音特徴量を雑音モデルのケプストラムのモデルパラメータから減算したパラメータをモデルパラメータとする正規化雑音モデルを生成する。そして、雑音適応手段が、クリーン音声モデルと正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成し、雑音適応モデル生成手段が、正規化雑音重畳音声モデルのモデルパラメータを正規化して正規化済み雑音適応モデルを生成する。また、音声特徴量平均正規化手段は、音声区間のディジタル信号のケプストラムから音声ケプストラム平均を減算することで正規化した正規化音声成分特徴量を算出する。さらに、認識結果出力手段が、正規化音声成分特徴量と少なくとも正規化済み雑音適応モデルとの照合尤度を算出して、この照合尤度に基づき音声認識結果を得る。
このように、クリーン音声モデルと、乗法性雑音特徴量を用いて雑音モデルを正規化した正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成し、この正規化雑音重畳音声モデルを正規化した正規化済み雑音適応モデルを音声認識に用いる音響モデルとして構築する。そして、この音響モデルと、音声区間ディジタル信号のケプストラムを正規化した正規化音声成分特徴量とを照合して照合尤度を求め、この照合尤度に基づいて音声認識結果を得る。

また、雑音抑圧手段が、音声／雑音判定結果に基づき、音声区間のディジタル信号に対して雑音抑圧を行う構成としてもよい。
雑音抑圧処理によってＳ／Ｎを向上させることで、音声の特徴が雑音に埋まってしまうことを抑えて、低Ｓ／Ｎにおける音声認識性能劣化を防止する。

Ｓ／Ｎ推定手段が、音声／雑音判定結果に基づき、音声区間のディジタル信号と雑音区間のディジタル信号とのＳ／Ｎを推定してＳ／Ｎ推定結果を出力し、雑音適応手段が、このＳ／Ｎ推定結果に基づき、クリーン音声モデルと正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成するとしてもよい。
音声認識対象のＳ／Ｎ推定結果に適合して合成された正規化雑音重畳音声モデルを用いるため、高い音声認識性能が期待できる。

また、本発明の音声認識方法の処理手順をコンピュータに実行させる音声認識プログラムによって、コンピュータを音声認識装置として作動処理させることができる。そして、この音声認識プログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを音声認識装置として機能させることや、音声認識プログラムを流通させることなどが可能になる。

本発明によれば、クリーン音声モデルと、乗法性雑音（乗法性歪み）に相当する乗法性雑音特徴量を用いて雑音モデルを正規化した正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成し、この正規化雑音重畳音声モデル、あるいはこの正規化雑音重畳音声モデルを正規化して正規化済み雑音適応モデルを音声認識に用いる音響モデルとする。即ち、加法性雑音および乗法性雑音の音響特徴量を加味してクリーン音声モデルをチューニングして音響モデルを構築するから、実環境下の音声に対する高い認識性能で音声認識できる。

第１実施形態に係わる音声認識装置のハードウェア構成例を示す図。第１実施形態に係わる音声認識装置の機能構成例を示すブロック図。第１実施形態に係わる音声認識処理の処理フローを示す図。第２実施形態に係わる音声認識装置の機能構成例を示すブロック図。第２実施形態に係わる音声認識処理の処理フローを示す図。第３実施形態に係わる音声認識装置の機能構成例を示すブロック図。第３実施形態に係わる音声認識処理の処理フローを示す図。第４実施形態に係わる音声認識装置の機能構成例を示すブロック図。第４実施形態に係わる音声認識処理の処理フローを示す図。従来のＨＭＭを用いた音声認識装置の機能構成例を示すブロック図。ＮＯＶＯ＋ＣＭＮ法を用いた音声認識装置の機能構成例を示すブロック図。

《第１実施形態》
本発明の第１実施形態について、図面を参照しながら説明する。
＜第１実施形態の音声認識装置＞
図１に例示するように、音声認識装置（１００）は、キーボードなどが接続可能な入力部（１１１）、液晶ディスプレイなどが接続可能な出力部（１１２）、音声認識装置（１００）の外部に通信可能な通信装置（例えばモデム）が接続可能な通信部（１１３）、ＣＰＵ（Central Processing Unit;１１４）〔ＤＳＰ(Digital Signal Processor)でも良い。またキャッシュメモリなどを備えていてもよい。〕、メモリであるＲＡＭ（Random Access Memory）（１１５）、ＲＯＭ（Read Only Memory）（１１６）やハードディスクである外部記憶装置（１１７）、例えば音声、音楽、雑音などの音を受音する音響信号収音手段（例えばマイクロフォン）を接続可能であって、マイクロフォン（９００）によって得られた（アナログ）信号の入力を受ける信号入力部（１１９）並びにこれらの入力部（１１１）、出力部（１１２）、通信部（１１３）、ＣＰＵ（１１４）、ＲＡＭ（１１５）、ＲＯＭ（１１６）、外部記憶装置（１１７）、信号入力部（１１９）間のデータのやり取りが可能なように接続するバス（１１８）などを備えている。また必要に応じて、音声認識装置（１００）に、ＣＤ−ＲＯＭなどの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。信号入力部（１１９）にはマイクロフォン（９００）が接続される。

音声認識装置（１００）の外部記憶装置（１１７）には、音声認識のためのプログラムおよびこのプログラムの処理において必要となるデータなどが保存記憶されている。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭ（１１５）などに適宜に保存記憶される。

本実施形態では、外部記憶装置（１１７）の所定の記憶領域であるディジタル信号格納部（１０）に、予めマイクロフォン（９００）で収音した収音信号（発話者であるユーザが発声した音声および雑音が収音されたものである。）が公知のＡ／Ｄ変換を受けて、データであるディジタル信号として保存記憶されている。また、外部記憶装置（１１７）の所定の記憶領域であるクリーン音声モデル格納部（２８）に、非雑音環境で収音された音声（クリーン音声）に対して、ある音声単位（ここでは音素を例として説明する。）毎に予め作成したＨＭＭ（「クリーン音声モデル」）が格納されているとする。このクリーン音声モデルは、クリーン音声における音響特徴量と音素との関係を確率として与える確率モデルである。
なお、本明細書の各実施形態では、マイクロフォン（９００）で収音した収音信号をＡ／Ｄ変換したディジタル信号を予めデータとしてディジタル信号格納部（１０）に保存記憶しておくとしているが、このような実施形態に限定する趣旨ではない。例えば、マイクロフォン（９００）で収音しながら、この収音信号にＡ／Ｄ変換を適用して所定の時間単位で保存記憶したディジタル信号に対して本発明における音声認識処理を逐次適用することや、発話単位で保存記憶したディジタル信号に対して本発明における音声認識処理を逐次適用することでリアルタイムに準じた音声認識処理を行うとしてもよい。

また外部記憶装置（１１７）には、ディジタル信号が音声区間であるか雑音区間であるかを判定するためのプログラム、ディジタル信号から音響特徴量を抽出するためのプログラム、ディジタル信号が音声区間であるか雑音区間であるかの判定結果に基づき実行する処理の切替制御を行うためのプログラム、雑音区間のディジタル信号の音響特徴量から雑音モデルを生成するためのプログラム、音声区間のディジタル信号の音響特徴量から音声特徴量平均（音声ケプストラム平均）を計算して得るためのプログラム、音声ケプストラム平均およびクリーン音声モデルを用いて雑音モデルを正規化した正規化雑音モデルを生成するためのプログラム、クリーン音声モデルに正規化雑音モデルを重畳適応させて正規化雑音重畳音声モデルを生成するためのプログラム、正規化雑音重畳音声モデルを正規化して正規化済み雑音適応モデルを生成するためのプログラム、音声ケプストラム平均を用いて音声区間のディジタル信号の音響特徴量を正規化した正規化音声成分特徴量を得るためのプログラム、正規化音声成分特徴量と正規化済み雑音適応モデルとを照合して音素の尤度（照合尤度）を得るためのプログラム、照合尤度に基づいて認識結果を出力するためのプログラムが保存記憶されている。

音声認識装置（１００）では、外部記憶装置（１１７）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（１１５）に読み込まれて、ＣＰＵ（１１４）で解釈実行・処理される。その結果、ＣＰＵ（１１４）が所定の機能（音声／雑音区間判定部、特徴量抽出部、音声／雑音切替制御部、雑音モデル生成部、音声ケプストラム平均計算部、正規化雑音モデル生成部、雑音適応部、雑音適応モデル生成部、音声ケプストラム平均正規化部、モデル照合尤度計算部、認識結果決定部）を実現することで、音声認識が実現される。

＜第１実施形態の概要＞
まず音響特徴量とは、既述のとおりケプストラム〔ＬＰＣケプストラム、ＭＦＣＣ（メル周波数ケプストラム）なども含む。〕、パワーやこれらの動的特徴量などであり、後述の雑音適応や正規化で更新される音響特徴量はケプストラムに関するものである（例えば後述の雑音モデルの生成で用いる音響特徴量は、ケプストラムに関する音響特徴量に限らず、パワーなどの音響特徴量も用いることに留意しなければならない。）。

第１実施形態では、雑音区間のディジタル信号の音響特徴量から雑音モデル（例えて言えば、式（１）[Ｂ]の右辺のＮに相当する。）を合成し、音声区間のディジタル信号の音響特徴量から音声特徴量平均であるケプストラム平均（音声ケプストラム平均；例えて言えば、式（１）[Ａ]の右辺の分母に相当する。）を求める。そして、この音声ケプストラム平均と、クリーン音声の音響特徴量の平均（例えて言えば、式（１）[Ｂ]の右辺のＳ￣に相当する。）と、雑音の音響特徴量の平均（例えて言えば、式（１）[Ｂ]の右辺のＮ￣に相当する。）とを用いて、乗法性雑音（乗法性歪み）に相当する音響特徴量（乗法性雑音特徴量とも云う。）を得て、次いで、この乗法性雑音特徴量によって雑音モデルを正規化して、正規化雑音モデルを生成する。

雑音モデルは、従来技術同様、雑音ＨＭＭとして生成される。この雑音ＨＭＭの生成は公知の方法で達成される（上記非特許文献２参照。）。

音声ケプストラム平均およびその算出方法については、従来技術と同様であり、例えば、音声区間のケプストラムの長時間平均を用いる。なお、音響特徴量の平均としては、長時間（例えば１０秒程度）の移動平均、短時間（例えば１秒程度）の移動平均なども用いることができる。

音声ケプストラム平均と、クリーン音声の音響特徴量の平均（クリーン音声特徴量平均とも云う。）と、雑音の音響特徴量の平均（雑音特徴量平均とも云う。）とを用いて、乗法性雑音特徴量を得ることを、便宜的にスペクトル領域で定性的に説明する。
或る音声区間として観測される観測スペクトルＯは、クリーン音声の音声スペクトルＳ、乗法性雑音の伝達特性Ｈ、加法性雑音スペクトルＮを用いて、Ｏ＝ＨＳ＋Ｎと表される。そして、観測スペクトルの長時間平均（観測スペクトル平均）Ｏ_ＣＭをＯ_ＣＭ＝（ＨＳ＋Ｎ）￣とすると、乗法性雑音の伝達特性Ｈが一定との仮定の下に、観測スペクトル平均Ｏ_ＣＭはＯ_ＣＭ≒Ｈ・Ｓ￣＋Ｎ￣と近似できる。そうすると、乗法性雑音の伝達特性Ｈは、観測スペクトル平均Ｏ_ＣＭ、音声スペクトルＳの長時間平均（音声スペクトル平均）Ｓ￣、加法性雑音スペクトルＮの長時間平均（加法性雑音スペクトル平均）Ｎ￣を用いて、Ｈ＝（Ｏ_ＣＭ−Ｎ￣）／Ｓ￣として得ることができる。従って、スペクトル領域を対数変換したケプストラム領域では、観測スペクトル平均Ｏ_ＣＭが音声ケプストラム平均に相当し、加法性雑音スペクトル平均Ｎ￣が雑音特徴量平均に相当し、音声スペクトル平均Ｓ￣がクリーン音声特徴量平均に相当するとして、乗法性雑音の伝達特性Ｈに相当する乗法性雑音特徴量を得ることができる。

クリーン音声特徴量平均は、例えばクリーン音声モデルを学習した際の学習データの音響特徴量の長時間平均を用いることが考えられる。そして、この長時間平均をクリーン音声モデルに付加して予め格納しておく。あるいは、クリーン音声モデルの各正規分布の平均パラメータの加算平均を、クリーン音声特徴量平均として近似的に用いることも考えられる（本実施形態）。
また、雑音特徴量平均は、雑音モデルの各正規分布の平均パラメータの加算平均などを近似的に用いればよい（参考文献１参照。）。
（参考文献１）特願２００５−１７２１２２号明細書

ここで、平均パラメータなどについて説明を加えておく。
まず、モデルパラメータとは、ＨＭＭを特徴付けるパラメータであり、ＨＭＭがクリーン音声モデルの場合を例にしてこれを説明する。クリーン音声における音響特徴量と音素との関係を与える確率分布を混合正規分布で表した場合、この混合正規分布は、１個あるいは複数の多次元正規分布を混合した確率分布である。ここでの多次元正規分布は、一般的に第ｉ次元ケプストラム、第ｉ次元Δケプストラム（ケプストラム係数の１次差分）、第ｉ次元ΔΔケプストラム（Δケプストラム係数の１次差分）などのケプストラム係数および対数パワー、Δ対数パワー（対数パワーの１次差分）、ΔΔ対数パワー（Δ対数パワーの１次差分）の各正規分布で構成され、各正規分布は、平均と分散によって特徴付けられる。また、混合正規分布は、一般的に各多次元正規分布に重み付けして混合することで得られる。ここで挙げた各正規分布の平均、分散や、多次元正規分布の重みがモデルパラメータである。加算平均など区別するため、このモデルパラメータである平均を平均パラメータと云うことにする。

また、モデルパラメータの平均（モデルパラメータ平均とも云う。）とは、全正規分布のモデルパラメータの加算平均などである（上記参考文献１参照。）。各正規分布の平均パラメータを、加算平均することで全体の平均と近似することが出来る。なお、クリーン音声モデルを１つの正規分布あるいは混合正規分布として表現したものを格納しておくことで近似精度の問題を解消するとともに計算量の削減も可能である。

モデルパラメータの正規化とは、各正規分布のモデルパラメータからモデルパラメータ平均を減算することである。スペクトル領域では、或る音響特徴量を音響特徴量の平均で除算して正規化を行うが、ケプストラム領域では、或る音響特徴量から音響特徴量の平均を減算して正規化を行うことに留意しなければならない。

なお、以上の内容については、上記参考文献１も参照のこと。

次に、上記正規化雑音モデルを生成した後、正規化雑音モデルとクリーン音声モデルとを合成して、正規化雑音重畳音声モデルを生成する。そして、正規化雑音重畳音声モデルのモデルパラメータを正規化して正規化モデルパラメータを生成し、次いで、正規化雑音重畳音声モデルのモデルパラメータを、前記正規化モデルパラメータによって正規化して正規化済み雑音適応モデルを生成する。

＜第１実施形態の音声認識処理＞
次に、図２および図３を参照して、音声認識装置（１００）における音声認識処理の流れを叙述的に説明する。

まず、音声／雑音区間判定部（２１）は、ディジタル信号格納部（１０）に保存記憶されているディジタル信号を読み込み、このディジタル信号が音声区間のものであるか雑音区間のものであるかを判定して、この判定結果（音声／雑音判定結果）を出力する（ステップＳ２）。この音声／雑音判定結果は、音声／雑音切替制御部（２５）の入力となる。
音声／雑音区間判定部（２１）による音声／雑音区間判定は、音圧に基づくパワーの大小判定や音声のピッチ性に基づく基本周波数による判定といった自動判定で実現するが、このような自動判定に限定するものではない。例えば、収音信号を収録するに際して、収音信号に加え、発話者であるユーザが発話中には手動ボタン等を作動させて発話状態を示す情報も収録しておき、音声／雑音区間判定部（２１）は、この発話状態を示す情報に基づいて、ディジタル信号の音声／雑音区間判定を行うようにしてもよい。

また、特徴量抽出部（１３）は、入力されたディジタル信号から公知の方法で音響特徴量を抽出して出力する（ステップＳ３）。特徴量抽出部（１３）が出力した音響特徴量は、音声／雑音切替制御部（２５）の入力となる。

続いて、音声／雑音切替制御部（２５）は、入力された音声／雑音判定結果に基づき、音声／雑音判定結果が「音声区間」と判定された結果を表すものであれば、入力された音響特徴量を音声ケプストラム平均正規化部（２６）および音声ケプストラム平均計算部（２１１）への入力とし〔図２の符号２３側〕、音声／雑音判定結果が「雑音区間」と判定された結果を表すものであれば、入力された音響特徴量を雑音モデル生成部（２７）への入力とする〔図２の符号２４側〕（ステップＳ４）。

＜音声／雑音判定結果が「雑音区間」の場合＞
雑音モデル生成部（２７）は、入力された音響特徴量に基づき「雑音モデル」を生成する（ステップＳ５）。雑音モデルは、雑音ＨＭＭとして生成される。雑音ＨＭＭは、雑音とこの音響特徴量との関係を確率として与える確率モデルである。この雑音ＨＭＭの生成は公知の方法で達成される（上記非特許文献２参照。）。

＜音声／雑音判定結果が「音声区間」の場合＞
音声ケプストラム平均計算部（２１１）が、入力された音響特徴量から「音声ケプストラム平均」を求め、この音声ケプストラム平均を出力する（ステップＳ６）。音声ケプストラム平均計算部（２１１）が出力した音声ケプストラム平均は、音声ケプストラム平均正規化部（２６）および正規化雑音モデル生成部（２９）の入力となる。

正規化雑音モデル生成部（２９）は、雑音モデル生成部（２７）によって生成された雑音モデルおよびクリーン音声モデル格納部（２８）に格納されているクリーン音声モデルを読み込み、クリーン音声モデルの各正規分布の平均パラメータの加算平均からクリーン音声の音響特徴量の平均を求め、雑音モデルの各正規分布の平均パラメータの加算平均から雑音の音響特徴量の平均を求める。正規化雑音モデル生成部（２９）は、これらに加えて、正規化雑音モデル生成部（２９）に入力された音声ケプストラム平均を用いて、上述した乗法性雑音特徴量を得る。さらに、正規化雑音モデル生成部（２９）は、この乗法性雑音特徴量によって雑音モデルのモデルパラメータを正規化して、正規化雑音モデルを生成する（ステップＳ７）。

次に、雑音適応部（２１０）は、雑音モデル生成部（２９）によって生成された正規化雑音モデルおよびクリーン音声モデル格納部（２８）に格納されているクリーン音声モデルを読み込み、雑音モデルとクリーン音声モデルとを合成して「正規化雑音重畳音声モデル」を生成する（ステップＳ８）。この正規化雑音重畳音声モデルはＨＭＭである。正規化雑音モデルとクリーン音声モデルとの合成は公知の方法で達成される（上記非特許文献２参照。）。正規化雑音モデルは、例えて言えば、式（１）[Ｂ]の右辺の分子に相当するものである。

次に、雑音適応モデル生成部（２１２）が、まず、雑音適応部（２１０）によって生成された正規化雑音重畳音声モデルのモデルパラメータを平均してモデルパラメータ平均（例えて言えば、式（１）[Ｂ]の右辺の分母に相当するものである。）を生成し、次に、正規化雑音重畳音声モデルのモデルパラメータを、前記モデルパラメータ平均によって正規化して「正規化済み雑音適応モデル」を生成する（ステップＳ９）。ここで生成された正規化済み雑音適応モデルは、例えて言えば、式（１）[Ｂ]の右辺に相当するものである。ここで生成された正規化済み雑音適応モデルは、雑音適応モデル格納部（２１３）に格納される。

音声ケプストラム平均正規化部（２６）は、入力された音響特徴量を、入力された音声ケプストラム平均によって正規化して「正規化音声成分特徴量」を出力する（ステップＳ１０）。音声ケプストラム平均正規化部（２６）が出力した正規化音声成分特徴量は、モデル照合尤度計算部（１５）の入力となる。

続いて、認識結果出力部（１９）が正規化音声成分特徴量と正規化済み雑音適応モデルとを照合して音声認識結果を出力する。この認識結果出力部（１９）は、モデル照合尤度計算部（１５）および認識結果決定部（１６）から構成される。
モデル照合尤度計算部（１５）は、雑音適応モデル格納部（２１３）から正規化済み雑音適応モデルを読み込み、モデル照合尤度計算部（１５）に入力された正規化音声成分特徴量と読み込んだ正規化済み雑音適応モデルとを照合して、正規化音声成分特徴量に対応した音素列ごとの照合尤度を計算し、この計算結果を出力する（ステップＳ１１）。この計算結果は、認識結果決定部（１６）の入力となる。
なお、必要に応じて、モデル照合尤度計算部（１５）は、入力された正規化音声成分特徴量と、読み込んだ正規化済み雑音適応モデル、言語モデル（辞書も含む。）などとを照合して、正規化音声成分特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部（１５）による照合尤度計算は、公知の方法で達成される。

認識結果決定部（１６）は、入力された計算結果のうち、例えば最も大きな照合尤度やあるいは所定の閾値以上の照合尤度に対応した音素列ないし単語列を認識結果として出力する。本実施形態では最大照合尤度に対応した音素列ないし単語列を認識結果として出力する。（ステップＳ１２）。なお、このことは、認識結果決定部（１６）が入力された計算結果をそのまま認識結果として出力する構成とすることを排除するものではない。
出力された音声認識結果は、例えば可読文字としてディスプレイに表示されたり、あるいは、対話システムにおける応答生成に用いられたりする。

《第２実施形態》
本発明の第２実施形態について図面を参照しながら説明するが、第１実施形態に対応する構成要素や機能などについては、同一参照符号を付けるなどして重複説明を省略する。＜第２実施形態の概要＞
第２実施形態は、第１実施形態に音声認識処理の前処理として雑音抑圧機能を付加した形態である。
雑音抑圧方法としては、スペクトルサブトラクション法（ＳＳ法；参考文献２参照。）やウィナー・フィルタ法（ＷＦ法；参考文献３）に基づく雑音抑圧方法などを用いる。
（参考文献２） Steven F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-27, No.2, pp.113-120, April 1979
（参考文献３） J. S. Lim and A. V. Oppenheim, "Enhancement and Bandwidth compression of noisy speech", Proc. IEEE, vo1.67, No.12, pp.1586-1604, Dec 1979

上記非特許文献３に示されるように、Ｓ／Ｎが低い場合では、乗法性雑音（乗法性歪み、インパルス応答）が既知の場合でも、認識性能が劣化してしまう。これは、インパルス応答の逆特性に基づき高域が強調された雑音によって音声モデルにおける音素を識別するための音声の特徴が埋まってしまうためと考えられる。この問題に対しては、雑音抑圧処理によってＳ／Ｎを向上させることで、音声の特徴が雑音に埋まってしまうことを抑えて、低Ｓ／Ｎにおける音声認識性能劣化を防止する。

＜第２実施形態の音声認識装置＞
第２実施形態の音声認識装置は、第１実施形態に係わる音声認識装置（１００）と同じハードウェア構成であり、外部記憶装置（１１７）にディジタル信号の雑音抑圧を行うためのプログラムも保存記憶されており、このプログラムがＲＡＭ（１１５）に読み込まれて、ＣＰＵ（１１４）で解釈実行・処理される。その結果、ＣＰＵ（１１４）が所定の機能（雑音抑圧部）を実現する。

＜第２実施形態の音声認識処理＞
次に、図４および図５を参照して、第２実施形態における音声認識処理の流れを、第１実施形態と異なる部分について説明する。
第１実施形態におけるステップＳ１の処理で得られたディジタル信号は、音声／雑音区間判定部（２１）および雑音抑圧部（３１）の入力となる。また、第１実施形態におけるステップＳ２の処理で得られた音声／雑音判定結果は、音声／雑音切替制御部（２５）および雑音抑圧部（３１）の入力となる。

ステップＳ２の処理に続いて、雑音抑圧部（３１）は、音声／雑音判定結果が「音声区間」の場合に、入力されたディジタル信号の雑音抑圧をＳＳ法やＷＦ法などによって行い、雑音抑圧されたディジタル信号を出力する（ステップＳ２ａ）。雑音抑圧部（３１）が出力した雑音抑圧されたディジタル信号は、特徴量抽出部（１３）の入力となる。
そして、特徴量抽出部（１３）は、雑音抑圧されたディジタル信号の音響特徴量を抽出する。以後の処理は第１実施形態と同様である。

《第３実施形態》
本発明の第３実施形態について図面を参照しながら説明するが、第１実施形態および第２実施形態に対応する構成要素や機能などについては、同一参照符号を付けるなどして重複説明を省略する。
＜第３実施形態の概要＞
第３実施形態は、第１実施形態あるいは第２実施形態に対して、ディジタル信号のＳ／Ｎ推定を行い、Ｓ／Ｎ推定結果に基づいて正規化雑音重畳音声モデルを生成する機能を付加した形態である。第３実施形態では、音声認識対象に合致したＳ／Ｎ条件で合成された正規化雑音重畳音声モデルを用いるため、高い認識性能が期待できる。
ここでは、第２実施形態に上記機能付加をした形態として第３実施形態を説明する。

＜第３実施形態の音声認識装置＞
第３実施形態の音声認識装置は、第２実施形態に係わる音声認識装置と同じハードウェア構成であり、外部記憶装置（１１７）にディジタル信号のＳ／Ｎ推定を行うためのプログラムが保存記憶されており、このプログラムがＲＡＭ（１１５）に読み込まれて、ＣＰＵ（１１４）で解釈実行・処理される。その結果、ＣＰＵ（１１４）が所定の機能（Ｓ／Ｎ推定部）を実現する。

＜第３実施形態の音声認識処理＞
次に、図６および図７を参照して、第３実施形態における音声認識処理の流れを、第２実施形態と異なる部分について説明する。
第２実施形態におけるステップＳ１の処理で得られたディジタル信号は、音声／雑音区間判定部（２１）、雑音抑圧部（３１）およびＳ／Ｎ推定部（４１）の入力となる。また、第１実施形態におけるステップＳ２の処理で得られた音声／雑音判定結果は、音声／雑音切替制御部（２５）、雑音抑圧部（３１）およびＳ／Ｎ推定部（４１）の入力となる。

ステップＳ２の処理に続いて、Ｓ／Ｎ推定部（４１）は、音声／雑音判定結果に基づき、入力されたディジタル信号の音圧レベルなどから当該ディジタル信号のＳ／Ｎ推定を公知の従来的方法によって行い、Ｓ／Ｎ推定結果を出力する（ステップＳ２ｂ）。Ｓ／Ｎ推定部（４１）が出力したＳ／Ｎ推定結果は、雑音適応部（２１０）の入力となる。
そして、雑音適応部（２１０）は、入力されたＳ／Ｎ推定結果に合わせて正規化雑音モデルとクリーン音声モデルとを合成し、正規化雑音重畳音声モデルを生成する（ステップＳ８ｂ）。２つのＨＭＭ（ここでは正規化雑音モデルおよびクリーン音声モデルである。）を入力されたＳ／Ｎ推定結果に合わせて合成する方法の一例としては、上記非特許文献２に記載の方法がある。以後の処理は第２実施形態と同様である。

《第４実施形態》
本発明の第４実施形態について図面を参照しながら説明するが、第１、第２、第３実施形態に対応する構成要素や機能などについては、同一参照符号を付けるなどして重複説明を省略する。
＜第４実施形態の概要＞
第４実施形態は、第１、第２、第３実施形態のように、正規化雑音重畳音声モデルの正規化を行わない。これによって、正規化雑音重畳音声モデルのモデルパラメータの正規化にかかる計算量を削減でき、ステップＳ１０処理以降の処理時間を削減することが出来る。当該モデル中のモデルパラメータの正規化処理には、正規分布数に応じた計算量がかかり、数万個の正規分布に対する処理ではある程度大きい計算量が必要になり、この削減効果は比較的大きい。収録された収音信号のデータに対するオフラインの処理であっても音声認識処理時間を減らすことによって、相対的に処理できる音声データ量を増やすことが出来るので、利用価値の高い音声認識装置が実現される。
ここでは第３実施形態を前提とした形態として第４実施形態を説明するが、第１、第２実施形態を前提とした形態としてもよいことに留意する必要がある。

＜第４実施形態の音声認識装置＞
第４実施形態の音声認識装置は、第３実施形態に係わる音声認識装置と同じハードウェア構成であり、外部記憶装置（１１７）には、音声ケプストラム平均を用いて音声区間のディジタル信号の音響特徴量を正規化した正規化音声成分特徴量を得るためのプログラムに替えて、正規化雑音モデル生成部（２９）で得た乗法性雑音特徴量を用いて音声区間のディジタル信号の音響特徴量を正規化した正規化音声成分特徴量を得るためのプログラムが保存記憶されており、このプログラムがＲＡＭ（１１５）に読み込まれて、ＣＰＵ（１１４）で解釈実行・処理される。その結果、ＣＰＵ（１１４）が所定の機能（音声ケプストラム平均正規化第２部）を実現する。

＜第４実施形態の音声認識処理＞
次に、図８および図９を参照して、第４実施形態における音声認識処理の流れを、第３実施形態と異なる部分について説明する。
まず、第４実施形態において、ステップＳ９の処理は不要である。即ち、第４実施形態では、雑音適応部（２１０）によって生成された正規化雑音重畳音声モデルの正規化を行わず、正規化済み雑音適応モデルを生成しない。
また、第３実施形態におけるステップＳ６の処理で得られた音声ケプストラム平均は、正規化雑音モデル生成部（２９）のみに入力される。さらに、正規化雑音モデル生成部（２９）によって得られた乗法性雑音特徴量は、音声ケプストラム平均正規化第２部（２６ａ）の入力となる。

ステップＳ８ｂの処理に続いて、音声ケプストラム平均正規化第２部（２６ａ）は、入力された音響特徴量（ステップＳ３で得られたものである。）を、入力された乗法性雑音特徴量によって正規化して「正規化音声成分特徴量」を出力する（ステップＳ１０ｃ）。音声ケプストラム平均正規化第２部（２６ａ）が出力した正規化音声成分特徴量は、モデル照合尤度計算部（１５）の入力となる。

続いて、モデル照合尤度計算部（１５）は、雑音適応部（２１０）によって生成された正規化雑音重畳音声モデルを読み込み、モデル照合尤度計算部（１５）に入力された上記正規化音声成分特徴量と読み込んだ正規化雑音重畳音声モデルとを照合して、正規化音声成分特徴量に対応した音素列ごとの照合尤度を計算し、この計算結果を出力する（ステップＳ１１ｃ）。この計算結果は、認識結果決定部（１６）の入力となる。
なお、必要に応じて、モデル照合尤度計算部（１５）は、入力された正規化音声成分特徴量と、読み込んだ正規化雑音重畳音声モデル、言語モデル（辞書も含む。）などとを照合して、正規化音声成分特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部（１５）による照合尤度計算は、公知の方法で達成される。
以後の処理は第３実施形態と同様である。

以上の各実施形態の他、本発明である音声認識装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記音声認識装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記音声認識装置における処理機能をコンピュータによって実現する場合、音声認識装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声認識装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−
Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音声認識装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明は、実環境下における音声認識を可能とするものであり、例えば収録された音声データに対するオフライン状態での音声認識や、キーボードからの文字入力に替わる音声認識に基づく文字入力や対話システムの音声認識など幅広く利用可能である。

１２Ａ／Ｄ変換部
１３特徴量抽出部
１５モデル照合尤度計算部
１６認識結果決定部
１９認識結果出力部
２１音声／雑音区間判定部
２５音声／雑音切替制御部
２６音声ケプストラム平均正規化部
２６ａ音声ケプストラム平均正規化第２部
２７雑音モデル生成部
２８クリーン音声モデル格納部
２９正規化雑音モデル生成部
２１０雑音適応部
２１１音声ケプストラム平均計算部
２１２雑音適応モデル生成部
２１３雑音適応モデル格納部
３１雑音抑圧部
４１Ｓ／Ｎ推定部

Claims

音声および雑音を含む収音信号をＡ／Ｄ変換したディジタル信号のケプストラムと音響モデルとの照合尤度を求めて、その照合尤度に基づいて音声認識結果を得る音声認識装置であって、
非雑音環境で収音された音声の音声単位毎に構築した音響モデルであるクリーン音声モデルおよびディジタル信号を記憶する記憶手段と、
上記ディジタル信号の音声区間と雑音区間とを判定して、音声／雑音判定結果を出力する音声／雑音区間判定手段と、
上記ディジタル信号からケプストラムを抽出する特徴量抽出手段と、
音声／雑音区間判定手段によって出力された音声／雑音判定結果に基づき、雑音区間のディジタル信号のケプストラムから雑音モデルを生成する雑音モデル生成手段と、
音声／雑音区間判定手段によって出力された音声／雑音判定結果に基づき、音声区間のディジタル信号のケプストラムの平均を音声ケプストラム平均として算出する音声特徴量平均計算手段と、
上記音声ケプストラム平均から上記雑音のケプストラムの平均を減算した値を上記クリーン音声モデルのクリーン音声のケプストラムの平均で除算したものを、乗法性雑音特徴量として算出し、この乗法性雑音特徴量を上記雑音モデルのケプストラムのモデルパラメータから減算したパラメータをモデルパラメータとする正規化雑音モデルを生成する正規化雑音モデル生成手段と、
上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成する雑音適応手段と、
上記正規化雑音重畳音声モデルのケプストラムのモデルパラメータから上記ケプストラムのモデルパラメータの平均を減算したパラメータをモデルパラメータとする正規化済み雑音適応モデルを生成する雑音適応モデル生成手段と、
音声区間のディジタル信号のケプストラムから上記音声ケプストラム平均を減算することで正規化した正規化音声成分特徴量を算出する音声特徴量平均正規化手段と、
上記正規化音声成分特徴量と少なくとも上記正規化済み雑音適応モデルとの照合尤度を算出して、この照合尤度に基づき音声認識結果を得る認識結果出力手段と
を備えたことを特徴とする音声認識装置。
上記音声／雑音区間判定手段によって出力された音声／雑音判定結果に基づき、音声区間のディジタル信号に対して雑音抑圧を行う雑音抑圧手段
を備えたことを特徴とする請求項１記載の音声認識装置。
上記音声／雑音区間判定手段によって出力された音声／雑音判定結果に基づき、音声区間のディジタル信号と雑音区間のディジタル信号とのＳ／Ｎを推定して、このＳ／Ｎ推定結果を出力するＳ／Ｎ推定手段を備え、
上記雑音適応手段は、
Ｓ／Ｎ推定手段によって推定されたＳ／Ｎ推定結果に基づき、上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成するものである
ことを特徴とする請求項１または請求項２記載の音声認識装置。
音声および雑音を含む収音信号をＡ／Ｄ変換したディジタル信号のケプストラムと音響モデルとの照合尤度を求めて、その照合尤度に基づいて音声認識結果を得る音声認識方法であって、
記憶手段には、非雑音環境で収音された音声の音声単位毎に構築した音響モデルであるクリーン音声モデルおよびディジタル信号が記憶されており、
音声／雑音区間判定手段が、上記ディジタル信号の音声区間と雑音区間とを判定して、音声／雑音判定結果を出力する音声／雑音区間判定ステップと、
特徴量抽出手段が、上記ディジタル信号からケプストラムを抽出する特徴量抽出ステップと、
雑音モデル生成手段が、音声／雑音区間判定ステップにおいて出力された音声／雑音判定結果に基づき、雑音区間のディジタル信号のケプストラムから雑音モデルを生成する雑音モデル生成ステップと、
音声特徴量平均計算手段が、音声／雑音区間判定ステップにおいて出力された音声／雑音判定結果に基づき、音声区間のディジタル信号のケプストラムの平均を音声ケプストラム平均として算出する音声特徴量平均計算ステップと、
正規化雑音モデル生成手段が、上記音声ケプストラム平均から上記雑音のケプストラムの平均を減算した値を上記クリーン音声モデルのクリーン音声のケプストラムの平均で除算したものを、乗法性雑音特徴量として算出し、この乗法性雑音特徴量を上記雑音モデルのケプストラムのモデルパラメータから減算したパラメータをモデルパラメータとする正規化雑音モデルを生成する正規化雑音モデル生成ステップと、
雑音適応手段が、上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成する雑音適応ステップと、
雑音適応モデル生成手段が、上記正規化雑音重畳音声モデルのケプストラムのモデルパラメータから上記ケプストラムのモデルパラメータの平均を減算したパラメータをモデルパラメータとする正規化済み雑音適応モデルを生成する雑音適応モデル生成ステップと、
音声特徴量平均正規化手段が、音声区間のディジタル信号のケプストラムから上記音声ケプストラム平均を減算することで正規化した正規化音声成分特徴量を算出する音声特徴量平均正規化ステップと、
認識結果出力手段が、上記正規化音声成分特徴量と少なくとも上記正規化済み雑音適応モデルとの照合尤度を算出して、この照合尤度に基づき音声認識結果を得る認識結果出力ステップとを有することを特徴とする音声認識方法。
雑音抑圧手段が、上記音声／雑音区間判定ステップにおいて出力された音声／雑音判定結果に基づき、音声区間のディジタル信号に対して雑音抑圧を行う雑音抑圧ステップを有することを特徴とする請求項４記載の音声認識方法。
Ｓ／Ｎ推定手段が、上記音声／雑音区間判定ステップにおいて出力された音声／雑音判定結果に基づき、音声区間のディジタル信号と雑音区間のディジタル信号とのＳ／Ｎを推定して、このＳ／Ｎ推定結果を出力するＳ／Ｎ推定ステップを有し、
上記雑音適応ステップは、
上記Ｓ／Ｎ推定ステップにおいて推定されたＳ／Ｎ推定結果に基づき、上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成するものである
ことを特徴とする請求項４または請求項５記載の音声認識方法。
コンピュータに請求項４から請求項６のいずれかに記載の音声認識方法を実行させるための音声認識プログラム。