JP2005091518A

JP2005091518A - 音声認識装置及び音声認識プログラム

Info

Publication number: JP2005091518A
Application number: JP2003322135A
Authority: JP
Inventors: Shoe Sato; 庄衛佐藤; Toru Imai; 亨今井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2003-09-12
Filing date: 2003-09-12
Publication date: 2005-04-07
Anticipated expiration: 2023-09-12
Also published as: JP4362054B2

Abstract

【課題】入力音声に雑音が重畳された場合であっても、音声認識の認識誤りを低減させることが可能な音声認識装置を提供する。
【解決手段】音声認識装置１０は、音響尤度算出手段１６によって、音響モデル１２ａと入力音声の特徴ベクトルとの音響尤度を算出し、信頼度算出手段１５によって、雑音モデル１１ａと音響モデル１２ａとに基づいて、前記音響尤度の信頼度を算出し、音響尤度補正手段１７が、前記音響尤度を信頼度に基づいて補正し、その補正された補正音響尤度と、言語モデル１３ａとに基づいて、探索手段１８が、接続される単語等の出力系列の候補を探索することで、前記入力音声の音声認識を行うことを特徴とする。
【選択図】図１

Description

本発明は、音声認識技術に関し、より詳細には、雑音環境下において、入力された音声の認識を行う音声認識装置及び音声認識プログラムに関する。

従来、音声認識を行う手法として、入力音声の音響信号を分析して得られる特徴量（特徴ベクトル）と、音声中の音素の特徴量をモデル化した音響モデルとから、類似度を示す音響尤度を算出し、その音響尤度と、単語の出現頻度や接続確率をモデル化した言語モデルとから、認識候補となる単語を探索することで音声認識を行っている（例えば、非特許文献１）。

ここで、図４を参照して、従来の音声認識装置について説明する。図４は、従来の音声認識装置の構成を示すブロック図である。図４に示すように、従来の音声認識装置２０は、音響モデル（音響モデル記憶手段２１に記憶）と、言語モデル（言語モデル記憶手段２２に記憶）とに基づいて、入力音声である発話の内容を探索アルゴリズムにより決定し、認識結果を出力するものである。

この音声認識装置２０は、まず、音響分析手段２３によって、入力された音声（入力音声）から、音素毎の特徴量（例えば、ケプストラム等）を複数抽出する。そして、音響尤度算出手段２４によって、音響分析手段２３で抽出された複数の特徴量（特徴ベクトル）と、音響モデル記憶手段２１に記憶されている音響モデルとに基づいて、入力された音声と音響モデルとの類似度を示す音響尤度を算出する。

そして、音声認識装置２０は、探索手段２５によって、音響尤度算出手段２４で算出された音響尤度と、言語モデル記憶手段２２に記憶されている言語モデルで示される単語の接続確率とに基づいて、接続される単語の候補を探索し、その探索結果（探索候補）を音響尤度算出手段２４に通知する。そして、音声認識装置２０は、音響尤度算出手段２４と、探索手段２５とを順次動作させることで、入力音声を単語列としたときの、その単語列の接続確率を算出することができる。そして、探索手段２５が、その接続確率が最大となる単語列を、入力音声の認識結果として出力する。
このように、従来は、予め学習データから学習した音響モデル及び言語モデルに基づいて、音声認識を行う手法が一般的である。
今井，小林，尾上，安藤，「ニュース番組自動字幕化のための音声認識システム」，情報処理学会音声言語処理技研報，２３−１１，ｐｐ．５９−６４，Ｏｃｔ．，１９９８

しかし、前記した音声認識手法は、入力音声に雑音が重畳され、その雑音が音響モデルでモデル化されている音素に類似している場合、その雑音を音素として認識してしまい、入力音声に対して誤った音声認識結果を出力してしまうという問題があった。
この問題は、音響モデルに学習されていない雑音部分では、音響尤度の信頼性が低下しているにも関わらず、音声部分と同様の探索を行ったことに起因している。また、この問題は、音響モデルが、雑音が重畳された入力音声の特徴を十分に学習していないことにも起因している。

このような問題に対して、音響モデルを、音声に雑音を重畳させた学習データ（雑音重畳音声）から作成することも考えられるが、音響モデルに学習させる学習データは有限であるため、音響モデルを多種多様な雑音重畳音声に対応させて学習させることは困難である。

本発明は、以上のような問題点に鑑みてなされたものであり、入力音声に雑音が重畳された場合であっても、多種多様な雑音重畳音声に対応した音響モデルを用いることなく、音声認識の認識誤りを低減させることが可能な音声認識装置及び音声認識プログラムを提供することを目的とする。

本発明は、前記目的を達成するために創案されたものであり、まず、請求項１に記載の音声認識装置は、音響モデル及び言語モデルと、雑音をモデル化した雑音モデルとを用いて、入力音声を認識する音声認識装置であって、音響分析手段と、信頼度算出手段と、音響尤度算出手段と、音響尤度補正手段と、出力系列探索手段と、認識結果出力手段と、を備える構成とした。

かかる構成によれば、音声認識装置は、音響分析手段によって、入力された音声（入力音声）の音響信号をスペクトル分析、線形予測分析、ケプストラム分析等によって分析し、音声の特徴量を抽出する。この特徴量は、１つの特徴量である必要はなく複数の特徴量を持つ特徴ベクトルとすることで、入力された音声の特徴を適切に表現することができる。

また、音声認識装置は、信頼度算出手段によって、音響分析手段で抽出した特徴量（特徴ベクトル）が音声の特徴量である度合いを示す信頼度を算出する。すなわち、予め雑音のデータをモデル化した雑音モデルと、音声のデータをモデル化した音響モデルとに基づいて、その各モデルにおける確率密度関数の値の比率によって、その特徴量を有する入力音声が音声であるかどうかの度合い（信頼度）を算出する。なお、ここで雑音モデルとは、予め想定される雑音のデータを学習し、例えば、混合正規分布モデル等のよってモデル化したものである。また、音響モデルとは、大量の音声データから予め学習した、音素毎の特徴量を隠れマルコフモデルによってモデル化したものである。

そして、音声認識装置は、音響尤度算出手段によって、特徴量と音響モデルとに基づいて、入力音声と音響モデルとの類似度を示す音響尤度を算出する。すなわち、この音響尤度算出手段では、入力音声が音声であるかどうかを示す音響尤度を音響モデルのみで算出する。しかし、この入力音声には雑音が重畳されている場合があって、音響尤度は正確である保証がない。そこで、音声認識装置は、音響尤度補正手段によって、音響尤度算出手段で算出した音響尤度を、信頼度算出手段で算出した信頼度により補正することで、雑音を考慮した音響尤度（補正音響尤度）を算出する。

また、音声認識装置は、出力系列探索手段によって、補正音響尤度と言語モデルとに基づいて、接続確率が高くなる出力系列（単語、形態素、音素等）を探索する。なお、ここで探索された出力系列の候補（探索候補）は、適宜音響尤度算出手段に通知されることで、音響尤度算出手段が、探索候補の音響モデルに基づいて、入力音声の音響尤度を算出する。
そして、音声認識装置は、認識結果出力手段によって、出力系列探索手段で探索された複数の出力系列の中で、接続確率が最大となる出力系列を、入力音声を認識した出力系列であると特定し、音声認識結果として出力する。

また、請求項２に記載の音声認識装置は、請求項１に記載の音声認識装置において、前記音響尤度補正手段が、前記信頼度をべき数として、前記音響尤度をべき乗することで前記補正音響尤度を算出することを特徴とする。

かかる構成によれば、音声認識装置は、音響尤度補正手段によって、信頼度をべき数として、音響尤度をべき乗計算することで補正音響尤度を算出する。これによって、信頼度が低い部分では、音響尤度のダイナミックレンジが小さくなり、出力系列探索手段において、言語モデルによる探索比重を高めることができる。

さらに、請求項３に記載の音声認識装置は、請求項２に記載の音声認識装置において、前記信頼度算出手段が、予め定めた下限値を設けて、前記信頼度を算出することを特徴とする。

かかる構成によれば、音声認識装置は、信頼度が０になる（近づく）ことを回避することができる。これによって、例えば、雑音モデルの精度が十分でない場合に、音響尤度そのものの情報を無くしてしまうという弊害を回避することができる。

また、請求項４に記載の音声認識装置は、請求項１乃至請求項３のいずれか一項に記載の音声認識装置において、前記信頼度算出手段が、前記特徴量と前記音響モデルとの類似度を示す音響モデル尤度と、前記特徴量と前記雑音モデルとの類似度を示す雑音モデル尤度との比率により、前記信頼度を算出することを特徴とする。

かかる構成によれば、音声認識装置は、信頼度算出手段によって、特徴量と音響モデルとの類似度を示す尤度（音響モデル尤度）と、特徴量と雑音モデルとの類似度を示す尤度（雑音モデル尤度）との比によって、信頼度を算出する。これによって、特徴量で示される入力音声が、音声であるのか雑音であるのかを簡単な比率で表現することができる。また、この比率は、入力音声に雑音が重畳されている場合、その重畳の割合を示す指標ともなるため、入力音声が音声である信頼度として適切な値となる。

さらに、請求項５に記載の音声認識装置は、請求項４に記載の音声認識装置において、前記音響モデル及び前記雑音モデルは、それぞれ複数のクラスタモデルで構成され、前記信頼度算出手段は、前記音響モデル尤度を、前記特徴量と前記音響モデルの複数のクラスタモデルとの尤度の総和で算出し、前記雑音モデル尤度を、前記特徴量と前記雑音モデルの複数のクラスタモデルとの尤度の総和で算出することを特徴とする。

かかる構成によれば、音声認識装置は、信頼度算出手段によって、特徴量と、複数のクラスタモデルで構成される音響モデル及び雑音モデルの各クラスタモデルとの尤度を、クラスタモデル分加算することで、それぞれの尤度である音響モデル尤度及び雑音モデル尤度として算出する。これによって、種々の音響環境でモデル化した複数のクラスタモデルで構成される音響モデル及び雑音モデルであっても、信頼度を算出することができる。

また、請求項６に記載の音声認識装置は、請求項４に記載の音声認識装置において、前記音響モデル及び前記雑音モデルは、それぞれ複数のクラスタモデルで構成され、
前記信頼度算出手段は、前記音響モデル尤度を、前記特徴量と前記音響モデルの複数のクラスタモデルとの尤度の最大値とし、前記雑音モデル尤度を、前記特徴量と前記雑音モデルの複数のクラスタモデルとの尤度の最大値とすることを特徴とする。

かかる構成によれば、音声認識装置は、信頼度算出手段によって、特徴量と複数のクラスタモデルで構成される音響モデルとから、尤度が最大値となるクラスタモデルの尤度を、音響モデル尤度とする。また、同様に、特徴量と複数のクラスタモデルで構成される雑音モデルとから、尤度が最大値となるクラスタモデルの尤度を、雑音モデル尤度とする。これによって、入力音声に類似するクラスタモデルから信頼度を求めることが可能になる。

さらに、請求項７に記載の音声認識装置は、請求項４に記載の音声認識装置において、前記信頼度算出手段が、前記音響モデル尤度及び前記雑音モデル尤度を、前記入力音声を特定の長さでフレーム化したときの、複数のフレームの移動平均値として算出することを特徴とする。

かかる構成によれば、音声認識装置は、ハミング窓等の窓関数によって、入力音声をフレーム化した各フレームにおいて、信頼度算出手段が、複数のフレーム毎に一定期間、尤度を加算して平均化した移動平均値を信頼度として算出する。これによって、入力音声に不規則な変動があっても算出される信頼度は平均化されることになり、信頼度の精度が向上する。

また、請求項８に記載の音声認識装置は、音響モデル及び言語モデルと、前記音響モデルをモデル化した第二音響モデルと、雑音をモデル化した雑音モデルとを用いて、入力音声を認識する音声認識装置であって、音響分析手段と、第二音響モデルを用いて信頼度を算出する信頼度算出手段と、音響尤度算出手段と、音響尤度補正手段と、出力系列探索手段と、認識結果出力手段と、を備える構成とした。

かかる構成によれば、音声認識装置は、音響分析手段によって、入力された音声（入力音声）の音響信号をスペクトル分析、線形予測分析、ケプストラム分析等によって分析し、音声の特徴量を抽出する。
また、音声認識装置は、信頼度算出手段によって、音響分析手段で抽出した特徴量（特徴ベクトル）が音声の特徴量である度合いを示す信頼度を算出する。例えば、予め雑音のデータをモデル化した雑音モデルと、音響モデルのデータ量を削減した第二音響モデルとに基づいて、その各モデルにおける確率密度関数の値の比率によって、その特徴量を有する入力音声が音声であるかどうかの度合い（信頼度）を算出する。ここで、第二音響モデルは、例えば、音響モデルを混合正規化分布モデルによりモデル化することで生成する。このように、データ量を削減した第二音響モデルを用いることで、信頼度を算出する際の演算量を抑えることができる。

そして、音声認識装置は、音響尤度算出手段によって、特徴量と音響モデルとに基づいて、入力音声と音響モデルとの類似度を示す音響尤度を算出する。そして、音響尤度補正手段によって、音響尤度算出手段で算出した音響尤度を、信頼度算出手段で算出した信頼度により補正することで、雑音を考慮した音響尤度（補正音響尤度）を算出する。
また、音声認識装置は、出力系列探索手段によって、補正音響尤度と言語モデルとに基づいて、接続確率が高くなる出力系列（単語、形態素、音素等）を探索し、認識結果出力手段によって、出力系列探索手段で探索された複数の出力系列の中で、接続確率が最大となる出力系列を、入力音声を認識した出力系列であると特定し、音声認識結果として出力する。

さらに、請求項９に記載の音声認識プログラムは、音響モデル及び言語モデルと、雑音のデータをモデル化した雑音モデルとを用いて、入力音声を認識するために、コンピュータを、音響分析手段、信頼度算出手段、音響尤度算出手段、音響尤度補正手段、出力系列探索手段、認識結果出力手段、として機能させることを特徴とする。

かかる構成によれば、音声認識プログラムは、音響分析手段によって、入力された音声（入力音声）の音響信号を分析し、音声の特徴量を抽出する。
また、音声認識プログラムは、信頼度算出手段によって、予め雑音のデータをモデル化した雑音モデルと、音声のデータをモデル化した音響モデルとに基づいて、音響分析手段で抽出した特徴量（特徴ベクトル）が音声である度合いを示す信頼度を算出する。

そして、音声認識プログラムは、音響尤度算出手段によって、特徴量と音響モデルとに基づいて、入力音声と音響モデルとの類似度を示す音響尤度を算出し、音響尤度補正手段によって、音響尤度算出手段で算出した音響尤度を、信頼度算出手段で算出した信頼度により補正することで、雑音を考慮した音響尤度（補正音響尤度）を算出する。
また、音声認識プログラムは、出力系列探索手段によって、補正音響尤度と言語モデルとに基づいて、接続確率が高くなる出力系列（単語、形態素、音素等）を探索し、認識結果出力手段によって、出力系列探索手段で探索された出力系列の中で、接続確率が最大となる出力系列を、入力音声を認識した出力系列であると特定し、音声認識結果として出力する。

請求項１又は請求項９に記載の発明によれば、雑音が重畳された音声であっても、雑音のデータをモデル化した雑音モデルに基づいて、入力音声がどの出力系列に対応するのかを示す音響尤度を補正することができる。これによって、音響尤度の信頼度が低下した場合は、言語モデルによる語彙、文法、意味等の言語的制約に重みを付けて認識を行うことが可能になるため、雑音環境下における音声認識の誤りを低減させることができる。
また、音響モデルを多種多様な雑音重畳音声に対応させてモデル化する必要がなく、雑音モデルのみを構築すればよいので、モデルの構築を簡単に行うことができる。

請求項２に記載の発明によれば、信頼度をべき数として、音響尤度をべき乗計算するため、入力音声で、信頼度が低い部分では、音響尤度のダイナミックレンジが小さくなり、言語モデルによる探索比重を高めることができる。これによって、雑音環境下における音声認識の誤りを低減させることができる。

請求項３に記載の発明によれば、雑音モデルの精度が十分でない場合であっても、音響尤度そのものの情報を無くさないため、認識精度劣化を抑えることができる。

請求項４に記載の発明によれば、入力音声が、音声であるのか雑音であるのかを簡単な比率で表現することができる。また、この比率は、入力音声に重畳されている雑音の割合を示す指標ともなるため、入力音声が音声である信頼度として適切な値となり、この信頼度を用いることで、雑音環境下における音声認識の誤りを低減させることができる。

請求項５に記載の発明によれば、種々の音響環境でモデル化した複数のクラスタモデルで構成される音響モデル及び雑音モデルであっても、信頼度を算出することができる。

請求項６に記載の発明によれば、入力音声に類似するクラスタモデルから信頼度を求めることが可能になる。

請求項７に記載の発明によれば、信頼度を複数のフレームの移動平均値で算出するため、入力音声に不規則な変動があっても算出される信頼度は平均化されることになり、信頼度の精度が向上する。これによって、雑音環境下における音声認識の誤りを低減させることができる。

請求項８に記載の発明によれば、音響尤度を算出するために用いる音響モデルのデータ量を削減した第二音響モデル（音声モデル）を用いて信頼度を算出するため、信頼度算出にかかる演算量を抑えることができる。

以下、本発明の実施の形態について図面を参照して説明する。
［音声認識装置の構成］
まず、図１を参照して、本発明に係る音声認識装置の構成について説明する。図１は、音声認識装置の構成を示したブロック図である。
図１に示すように、音声認識装置１０は、入力された音声（入力音声）を認識し、入力音声に対応する単語列、形態素、音素等の出力系列を認識結果として出力するものである。ここでは、音声認識装置１０は、雑音モデル記憶手段１１と、音響モデル記憶手段１２と、言語モデル記憶手段１３と、音響分析手段１４と、信頼度算出手段１５と、音響尤度算出手段１６と、音響尤度補正手段１７と、探索手段１８とを備えている。すなわち、音声認識装置１０は、従来の音声認識装置２０（図４参照）に対して、雑音モデル記憶手段１１と、信頼度算出手段１５と、音響尤度補正手段１７とを付加して構成している。以下、音声認識装置１０の構成について詳細に説明する。

雑音モデル記憶手段１１は、雑音モデル１１ａを記憶した一般的なハードディスク等の記憶媒体である。ここに記憶される雑音モデル１１ａは、予め想定される雑音のデータを蓄積したデータベース（図示せず）に基づいて、雑音のデータをモデル化したものである。この雑音モデル１１ａには、例えば、混合正規分布モデルを用いることができる。なお、雑音モデル１１ａは、単一の雑音モデルλ^Nを用いてもよいし、雑音の種別毎に複数のモデル（クラスタモデル）λ^N＝｛λ₁ ^N，λ₂ ^N，…，λ_M ^N｝（Ｍは雑音モデルのクラスタ数）を用いてもよい。
ここで雑音とは、音声認識を行いたい音声以外の音をいい、例えば、飛行機やサイレンの音、雑踏の音声、あるいはニュース番組で原稿をめくる音等である。

音響モデル記憶手段１２は、音響モデル１２ａを記憶した一般的なハードディスク等の記憶媒体である。ここに記憶される音響モデル１２ａは、大量の音声データから予め学習した音素毎の特徴量を「隠れマルコフモデル」によってモデル化したものである。この音響モデル１２ａも、雑音モデル１１ａと同様に、単一の音響モデルλ^Sを用いてもよいし、音響の種別（例えば、人物別）毎に複数のモデル（クラスタモデル）λ^S＝｛λ₁ ^S，λ₂ ^S，…，λ_K ^S｝（Ｋは音響モデルのクラスタ数）を用いてもよい。また、例えば、音響モデル１２ａを、１つの音素に対して前後の音素を組としたトライフォンを認識の単位としてモデル化した場合は、トライフォンの数だけクラスタモデルが存在することになる。

言語モデル記憶手段１３は、言語モデル１３ａを記憶した一般的なハードディスク等の記憶媒体である。ここに記憶される言語モデル１３ａは、大量の音声データから学習した出力系列（単語、形態素、音素等）の出現頻度や接続確率等をモデル化したものである。例えば、一般的な「Ｎ−ｇｒａｍ言語モデル」等を用いることができる。
なお、ここでは、雑音モデル記憶手段１１と、音響モデル記憶手段１２と、言語モデル記憶手段１３とを別々の記憶手段で構成しているが、同一の記憶手段に各モデルを記憶することも可能である。また、各記憶手段は、ネットワークを介して接続された形態であってもよい。

音響分析手段１４は、外部から入力された音声（入力音声）を分析し、その音声の特徴量を抽出するものである。ここで抽出された音声の特徴量は、特徴ベクトルとして時系列に信頼度算出手段１５及び音響尤度算出手段１６に出力される。
なお、この音響分析手段１４は、入力された音声の音声波形に窓関数（ハミング窓等）をかけることで、フレーム化された波形を抽出し、その波形を周波数分析することで、種々の特徴量を抽出する。例えば、フレーム化された波形のパワースペクトルの対数を逆フーリエ変換した値であるケプストラム係数等を特徴量とする。この特徴量には、ケプストラム係数以外にも、メル周波数ケプストラム係数（ＭＦＣＣ：ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｒｄｉｎｄ）係数、対数パワー等、一般的な音声特徴量を用いることができる。

信頼度算出手段１５は、雑音モデル記憶手段１１に予め学習し記憶されている雑音モデル１１ａと、音響モデル記憶手段１２に予め学習し記憶されている音響モデル１２ａとに基づいて、音響分析手段１４から時系列に出力される時刻ｔの特徴ベクトルｘ_tが、音声である（雑音でない）度合いを示す信頼度Ｐ（Ｓ｜ｘ_t）を算出するものである。ここで算出された信頼度は、音響尤度補正手段１７に出力される。

以下、信頼度Ｐ（Ｓ｜ｘ_t）を算出する手法について具体的に説明する。
まず、雑音モデル１１ａをλ^N＝｛λ₁ ^N，λ₂ ^N，…，λ_M ^N｝（Ｍは雑音モデルのクラスタ数）とし、雑音モデル１１ａのｉ番目のクラスタモデルλ_i ^Nにおける、特徴ベクトルｘ_tが雑音の特徴量である度合い（尤度）を、条件付確率Ｐ（ｘ_t｜λ_i ^N）（１≦ｉ≦Ｍ）とする。すると、特徴ベクトルｘ_tが雑音の特徴量である度合い（雑音モデル尤度）Ｐ（ｘ_t｜λ^N）は、（１）式に示すように、各クラスタモデルλ_i ^Nにおける尤度和として算出することができる。

また、同様に、音響モデル１２ａをλ^S＝｛λ₁ ^S，λ₂ ^S，…，λ_K ^S｝（Ｋは音響モデルのクラスタ数）とし、音響モデル１２ａのｉ番目のクラスタモデルλ_i ^Sにおける、特徴ベクトルｘ_tが音声の特徴量である度合い（尤度）を、条件付確率Ｐ（ｘ_t｜λ_i ^S）（１≦ｉ≦Ｋ）とする。すると、特徴ベクトルｘ_tが音声の特徴量である度合い（音響モデル尤度）Ｐ（ｘ_t｜λ^S）は、（２）式に示すように、各クラスタモデルλ_i ^Sにおける尤度和として算出することができる。

このように、（１）式及び（２）式で求めた、特徴ベクトルｘ_tが雑音の特徴量である度合いＰ（ｘ_t｜λ^N）及び音声の特徴量である度合いＰ（ｘ_t｜λ^S）に基づいて、特徴ベクトルｘ_tが、音声である（雑音でない）度合いを示す信頼度Ｐ（Ｓ｜ｘ_t）は、（３）式によって算出することができる。

なお、雑音モデル１１ａの精度不足によって、十分な精度の信頼度が得られない場合は、信頼値Ｐ（Ｓ｜ｘ_t）に下限値を設けることとしてもよい。例えば、下限値をαとし、（４）式によって、Ｐ（Ｓ｜ｘ_t）を補正したＰ´（Ｓ｜ｘ_t）を信頼値として算出することとしてもよい。これによって、雑音モデルの精度が十分でない場合に、音響尤度そのものの情報を無くしてしまうという弊害を回避することができる。

また、ここでは、（１）式及び（２）式に示したように、特徴ベクトルｘ_tが雑音又は音声の特徴量である度合いを、各クラスタモデルにおける尤度和として算出したが、簡易的に各クラスタモデルλ_i ^N，λ_i ^Sにおける最大の度合い（尤度）を、特徴ベクトルｘ_tが雑音又は音声の特徴量である度合いとしてもよい。すなわち、以下の（５）式及び（６）式によって、雑音の特徴量である度合い（雑音モデル尤度）Ｐ（ｘ_t｜λ^N）、音声の特徴量である度合い（音響モデル尤度）Ｐ（ｘ_t｜λ^S）を算出することとしてもよい。

また、特徴ベクトルｘ_tが雑音の特徴量である度合いＰ（ｘ_t｜λ^N）、音声の特徴量である度合いＰ（ｘ_t｜λ^S）は、（７）式及び（８）式に示すように、特徴ベクトルｘ_tに対して特定の時間幅（移動平均窓幅ｗ）を設定し、その時間幅毎の雑音又は音声の特徴量である度合い（尤度）を加算することで算出してもよい。この（７）式及び（８）式は、ハミング窓等の窓関数によって、入力音声をフレーム化した各フレームにおいて、複数のフレーム毎に一定期間の平均値を加算した移動平均値である。これによって、信頼度の精度を向上させることができる。なお、ここで、除算による平均化を行っていないのは、前記（３）式により、信頼度を比率として算出するためである。

図１に戻って、音声認識装置１０の構成について説明を続ける。
音響尤度算出手段１６は、音響分析手段１４で抽出され、時系列に入力される特徴ベクトルと、音響モデル記憶手段１２に記憶されている音響モデル１２ａでモデル化されている音素との類似度を示す音響尤度を算出するものである。なお、この音響尤度算出手段１６は、探索手段１８から逐次出力される出力系列の探索候補毎に音響尤度を算出する。ここで算出された音響尤度は、音響尤度補正手段１７に出力される。
例えば、探索手段１８から逐次出力される探索候補の音響モデルがλ^AM＝｛λ₁ ^AM，λ₂ ^AM，…，λ_J ^AM｝（Ｊは探索候補のモデルの総数）であった場合、音響尤度算出手段１６は、特徴ベクトルｘ_tが音声である度合い（音響尤度）を、条件付確率Ｐ（ｘ_t｜λ_j ^AM）（１≦ｊ≦Ｊ）で算出する。

音響尤度補正手段１７は、信頼度算出手段１５で算出された信頼度に基づいて、音響尤度算出手段１６で算出された、探索候補毎の音響尤度を補正して補正音響尤度を生成するものである。ここで算出された補正音響尤度は、探索手段１８に出力される。
例えば、音響尤度算出手段１６から、時刻ｔにおける探索候補の音響尤度Ｐ（ｘ_t｜λ_j ^AM）（１≦ｊ≦Ｊ）が出力される場合、音響尤度補正手段１７は、（９）式に示すように、信頼度算出手段１５で算出された信頼度Ｐ（Ｓ｜ｘ_t）をべき数として、音響尤度Ｐ（ｘ_t｜λ_j ^AM）をべき乗することで、音響尤度を補正した補正音響尤度Ｐ´（ｘ_tｘ_tλ_j ^AMｘ_t）を生成する。

なお、（９）式において、信頼度は０≦Ｐ（Ｓ｜ｘ_t）≦１で正規化されるため、補正音響尤度Ｐ´（ｘ_t｜λ_j ^AM）は、音響尤度Ｐ（ｘ_t｜λ_j ^AM）に比べて高くなってしまう。しかし、後記する探索手段１８で、探索候補を探索する際の対立候補間における音声尤度（補正音響尤度）の比較において、音響尤度の対数をとった対数尤度の差をとれば、対数尤度差のダイナミックレンジがＰ（Ｓ｜ｘ_t）倍になるだけで、音響尤度が高くなっても影響はない。

探索手段１８は、音響尤度補正手段１７で生成された補正音響尤度に基づいて、言語モデル１３ａから、接続される出力系列の候補を探索し、その探索結果である探索候補を音響尤度算出手段１６に出力するとともに、接続確率が最大となる出力系列を入力音声に対する認識結果として外部に出力するものである。ここでは、探索手段１８は、出力系列探索部１８ａと、認識結果出力部１８ｂとで構成している。

出力系列探索部（出力系列探索手段）１８ａは、音響尤度補正手段１７で生成された補正音響尤度と、言語モデル記憶手段１３に記憶されている言語モデル１３ａとに基づいて、接続確率が高くなる出力系列を探索するものである。なお、雑音が重畳された音声については、補正音響尤度が低くなるため、出力系列探索部１８ａは、言語モデル１３ａの言語的制約（例えば、語彙、文法、意味等）によって出力系列を探索する度合いを大きくする。すなわち、雑音が重畳された音声（雑音重畳音声）については、音響的制約を弱め、相対的に言語的制約の重みを大きくすることで、雑音により歪められた音声の認識精度を高めることができる。

認識結果出力部（認識結果出力手段）１８ｂは、出力系列探索部１８ａで探索された複数の出力系列の中で、接続確率が最大となる出力系列を出力するものである。なお、出力系列探索部１８ａでは、複数の出力系列が探索されるが、認識結果出力部１８ｂでは、その複数の出力系列の中から、接続経路の確率が最大となる経路（出力系列）を音声認識結果とする。

以上、本発明に係る音声認識装置１０の構成について説明したが、本発明はこれに限定されるものではない。例えば、信頼度算出手段１５は、音響モデル１２ａのデータ量を削減してモデル化した音声モデルを用いて、信頼度を算出することとしてもよい。
すなわち、図２に示した音声認識装置１０Ｂのブロック図のように、音声認識装置１０（図１参照）に音声モデル記憶手段１９を付加して構成してもよい。なお、この音声認識装置１０Ｂは、音声認識装置１０に、音声モデル１９ａを記憶した音声モデル記憶手段１９を付加し、信頼度算出手段１５の機能を変更した信頼度算出手段１５Ｂで構成している。他の構成は、図１に示した音声認識装置１０と同様であるので、同一の符号を付し、説明を省略する。

音声モデル記憶手段１９に記憶した音声モデル（第二音響モデル）１９ａは、音響モデル１２ａよりデータ量を削減したモデルである。この音声モデル１９ａは、例えば、音響モデル１２ａを混合正規化分布モデルによりモデル化することで生成されたものとする。なお、この音声モデル１９ａは、大量の音声データから学習することでモデル化を行ってもよいが、信頼度算出手段１５Ｂによって、信頼度を算出することが目的であるので、音響モデル１２ａを生成する際に用いた音声データから学習することが望ましい。
この音声モデル１９ａは、音響モデル１２ａと同様に、単一の音声モデルλ^Sを用いてもよいし、音声の種別毎に複数のモデルλ^S＝｛λ₁ ^S，λ₂ ^S，…，λ_K ^S｝（Ｋは音声モデルのクラスタ数）を用いてもよい。

信頼度算出手段１５Ｂは、雑音モデル記憶手段１１に記憶されている雑音モデル１１ａと、音声モデル記憶手段１９に記憶されている音声モデル１９ａとに基づいて、音響分析手段１４から時系列に出力される時刻ｔの特徴ベクトルｘ_tが、音声である度合いを示す信頼度Ｐ（Ｓ｜ｘ_t）を算出する
このように、音響モデル１２ａのデータ量を削減した音声モデル１９ａを用いることで、音声認識の演算量を削減することができる。

なお、以上説明した音声認識１０，１０Ｂは、一般的なコンピュータにプログラムを実行させ、コンピュータ内の演算装置や記憶装置を動作させることにより実現することができる。このプログラム（音声認識プログラム）は、通信回線を介して配布することも可能であるし、ＣＤ−ＲＯＭ等の記録媒体に書き込んで配布することも可能である。

［音声認識装置の動作］
次に、図３を参照（適宜図１参照）して、音声認識装置１０の動作について説明する。図３は、音声認識装置１０の動作を示すフローチャートである。

（音響分析ステップ）
音声認識装置１０は、音響分析手段１４によって、入力された音声（入力音声）を分析し、その音声の特徴量を時系列に特徴ベクトルｘ_tとして抽出する（ステップＳ１）。

（信頼度算出ステップ）
そして、音声認識装置１０は、信頼度算出手段１５によって、特徴ベクトルｘ_tで示される入力音声が音声である度合いを示す信頼度を算出する。すなわち、信頼度算出手段１５が、前記（１）式に示したように、雑音モデル１１ａを参照して、特徴ベクトルｘ_tが雑音である度合いを示す尤度和Ｐ（ｘ_t｜λ^N）を算出する（ステップＳ２）。そして、信頼度算出手段１５が、前記（２）式に示したように、音響モデル１２ａを参照して、特徴ベクトルｘ_tが音声である度合いを示す尤度和Ｐ（ｘ_t｜λ^S）を算出する（ステップＳ３）。そして、信頼度算出手段１５が、このステップＳ２で算出した雑音の尤度和Ｐ（ｘ_t｜λ^N）と、ステップＳ３で算出した音声の尤度和Ｐ（ｘ_t｜λ^S）とに基づいて、前記（３）式により、特徴ベクトルｘ_tが、音声である度合いを示す信頼度Ｐ（Ｓ｜ｘ_t）を算出する（ステップＳ４）。

（音響尤度算出ステップ）
また、音声認識装置１０は、音響尤度算出手段１６によって、音響分析手段１４で抽出された音声の特徴量である特徴ベクトルｘ_tと、音響モデル１２ａとに基づいて、探索手段１８の出力系列探索部１８ａで探索された出力系列の探索候補毎に音響尤度を算出する（ステップＳ５）。すなわち、探索候補の音響モデルがλ^AM＝｛λ₁ ^AM，λ₂ ^AM，…，λ_J ^AM｝（Ｊは探索候補のモデルの総数）のとき、特徴ベクトルｘ_tが音声である度合い（音響尤度）を、条件付確率Ｐ（ｘ_t｜λ_j ^AM）（１≦ｊ≦Ｊ）として算出する。

（音響尤度補正ステップ）
そして、音声認識装置１０は、音響尤度補正手段１７によって、前記（９）式に示したように、音響尤度算出手段１６で算出された探索候補の音響尤度Ｐ（ｘ_t｜λ_j ^AM）（１≦ｊ≦Ｊ）を、信頼度算出手段１５で算出された信頼度Ｐ（Ｓ｜ｘ_t）に基づいて補正し、補正音響尤度Ｐ´（ｘ_t｜λ_j ^AM）を生成する（ステップＳ６）。

（探索ステップ）
そして、音声認識装置１０は、探索手段１８の出力系列探索部１８ａによって、音響尤度補正手段１７で生成された補正音響尤度Ｐ´（ｘ_t｜λ_j ^AM）と、言語モデル１３ａとに基づいて、接続確率が高くなる出力系列を探索し、その探索結果である探索候補を音響尤度算出手段１６に出力する（ステップＳ７）。なお、この探索結果はステップＳ５において、音響尤度算出手段１６が、音響尤度を算出する際に用いられる。

また、音声認識装置１０は、認識結果出力手部１８ｂによって、ステップＳ７で探索された複数の出力系列の中で、接続確率が最大となる出力系列を音声認識結果として出力する（ステップＳ８）。本動作は、入力音声が入力されている間、ステップＳ１以降の動作が繰り返し実行される。

なお、ここでは、ステップＳ４において、信頼度を、特徴ベクトルが雑音の特徴量である度合い、及び音声の特徴量である度合いを用いて算出したが、前記（５）式及び（６）式に示したクラスタモデルにおける最大の尤度や、前記（７）式及び（８）式に示した移動平均値を用いて、信頼度を算出することとしてもよい。

以上の動作によって、音声認識装置１０は、入力された音声に雑音が重畳されていた場合は、信頼度Ｐ（Ｓ｜ｘ_t）が低下することで、言語モデル１３ａの言語的制約による探索の度合いを大きくすることができる。これによって、雑音により、音響モデル１２ａと入力音声とで不整合が発生した場合であっても、認識誤りを低減させることができる。

本発明に係る音声認識装置の構成を示したブロック図である。本発明に係る音声認識装置の他の構成を示したブロック図である。本発明に係る音声認識装置の動作を示すフローチャートである。従来の音声認識装置の構成を示したブロック図である。

符号の説明

１０、１０Ｂ音声認識装置
１１雑音モデル記憶手段
１１ａ雑音モデル
１２音響モデル記憶手段
１２ａ音響モデル
１３言語モデル記憶手段
１３ａ言語モデル
１４音響分析手段
１５信頼度算出手段
１６音響尤度算出手段
１７音響尤度補正手段
１８探索手段
１８ａ出力系列探索部（出力系列探索手段）
１８ｂ認識結果出力部（認識結果出力手段）
１９音声モデル記憶手段
１９ａ音声モデル（第二音響モデル）

Claims

音響モデル及び言語モデルと、雑音のデータをモデル化した雑音モデルとを用いて、入力音声を認識する音声認識装置であって、
前記入力音声の音響信号を分析して、前記入力音声の特徴量を抽出する音響分析手段と、
この音響分析手段で抽出された特徴量と、前記雑音モデル及び前記音響モデルとに基づいて、前記入力音声が音声である度合いを示す信頼度を算出する信頼度算出手段と、
前記特徴量と前記音響モデルとに基づいて、前記入力音声と前記音響モデルとの類似度を示す音響尤度を算出する音響尤度算出手段と、
この音響尤度算出手段で算出された音響尤度を、前記信頼度により補正して補正音響尤度を生成する音響尤度補正手段と、
この音響尤度補正手段で生成された補正音響尤度と、前記言語モデルとに基づいて、前記入力音声を構成する出力系列の候補を探索する出力系列探索手段と、
この出力系列探索手段で探索された複数の出力系列の中で、接続確率が最大となる出力系列を前記入力音声の音声認識結果として出力する認識結果出力手段と、
を備えていることを特徴とする音声認識装置。
前記音響尤度補正手段は、前記信頼度をべき数として、前記音響尤度をべき乗することで前記補正音響尤度を算出することを特徴とする請求項１に記載の音声認識装置。
前記信頼度算出手段は、予め定めた下限値を設けて、前記信頼度を算出することを特徴とする請求項２に記載の音声認識装置。
前記信頼度算出手段は、前記特徴量と前記音響モデルとの類似度を示す音響モデル尤度と、前記特徴量と前記雑音モデルとの類似度を示す雑音モデル尤度との比率により、前記信頼度を算出することを特徴とする請求項１乃至請求項３のいずれか一項に記載の音声認識装置。
前記音響モデル及び前記雑音モデルは、それぞれ複数のクラスタモデルで構成され、
前記信頼度算出手段は、前記音響モデル尤度を、前記特徴量と前記音響モデルの複数のクラスタモデルとの尤度の総和で算出し、前記雑音モデル尤度を、前記特徴量と前記雑音モデルの複数のクラスタモデルとの尤度の総和で算出することを特徴とする請求項４に記載の音声認識装置。
前記音響モデル及び前記雑音モデルは、それぞれ複数のクラスタモデルで構成され、
前記信頼度算出手段は、前記音響モデル尤度を、前記特徴量と前記音響モデルの複数のクラスタモデルとの尤度の最大値とし、前記雑音モデル尤度を、前記特徴量と前記雑音モデルの複数のクラスタモデルとの尤度の最大値とすることを特徴とする請求項４に記載の音声認識装置。
前記信頼度算出手段は、前記音響モデル尤度及び前記雑音モデル尤度を、前記入力音声を特定の長さでフレーム化したときの、複数のフレームの移動平均値として算出することを特徴とする請求項４に記載の音声認識装置。
音響モデル及び言語モデルと、前記音響モデルをモデル化した第二音響モデルと、雑音のデータをモデル化した雑音モデルとを用いて、入力音声を認識する音声認識装置であって、
前記入力音声の音響信号を分析して、前記入力音声の特徴量を抽出する音響分析手段と、
この音響分析手段で抽出された特徴量と、前記雑音モデル及び前記第二音響モデルとに基づいて、前記入力音声が音声である度合いを示す信頼度を算出する信頼度算出手段と、
前記特徴量と前記音響モデルとに基づいて、前記入力音声と前記音響モデルとの類似度を示す音響尤度を算出する音響尤度算出手段と、
この音響尤度算出手段で算出された音響尤度を、前記信頼度により補正して補正音響尤度を生成する音響尤度補正手段と、
この音響尤度補正手段で生成された補正音響尤度と、前記言語モデルとに基づいて、前記入力音声を構成する出力系列の候補を探索する出力系列探索手段と、
この出力系列探索手段で探索された複数の出力系列の中で、接続確率が最大となる出力系列を前記入力音声の音声認識結果として出力する認識結果出力手段と、
を備えていることを特徴とする音声認識装置。
音響モデル及び言語モデルと、雑音のデータをモデル化した雑音モデルとを用いて、入力音声を認識するために、コンピュータを、
前記入力音声の音響信号を分析して、前記入力音声の特徴量を抽出する音響分析手段、
この音響分析手段で抽出された特徴量と、前記雑音モデル及び前記音響モデルとに基づいて、前記入力音声が音声である度合いを示す信頼度を算出する信頼度算出手段、
前記特徴量と前記音響モデルとに基づいて、前記入力音声と前記音響モデルとの類似度を示す音響尤度を算出する音響尤度算出手段、
この音響尤度算出手段で算出された音響尤度を、前記信頼度により補正して補正音響尤度を生成する音響尤度補正手段、
この音響尤度補正手段で生成された補正音響尤度と、前記言語モデルとに基づいて、前記入力音声を構成する出力系列の候補を探索する出力系列探索手段、
この出力系列探索手段で探索された複数の出力系列の中で、接続確率が最大となる出力系列を前記入力音声の音声認識結果として出力する認識結果出力手段、
として機能させることを特徴とする音声認識プログラム。