JP2006106300A

JP2006106300A - 音声認識装置及びそのプログラム

Info

Publication number: JP2006106300A
Application number: JP2004292067A
Authority: JP
Inventors: Tomohiro Narita; 知宏成田; Takashi Sudo; 貴志須藤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-10-05
Filing date: 2004-10-05
Publication date: 2006-04-20

Abstract

【課題】連続する有音声区間の途中で背景騒音の種類が変動した場合であっても、それぞれの背景騒音の種類に対応する音響モデルを用いて高精度に音声認識処理を行う。
【解決手段】入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置２において、
音声認識装置２が使用される使用状況を取得するセンサである使用状況検知部１０４と、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合部１０８とを備えた。
【選択図】図１

Description

この発明は、音声認識装置及びそのプログラムに係るものであり、特にさまざまな使用状況を想定して準備された複数の音響モデルから、使用状況に応じて適切な音響モデルを選択し音声認識を行う技術に関する。

音声認識は、入力音声から音声特徴量の時系列を抽出し、この音声特徴量の時系列と予め準備された音響モデルとの照合によって、候補語を算出することによって行われる。

しかし現実の使用環境で発話された音声には背景騒音が重畳しているため、音声認識の精度が劣化する。そこで背景騒音が重畳した入力音声の認識精度を向上するために、音声特徴量と照合する音響モデルのデータに背景騒音を重畳させておき、背景騒音を重畳させた音響モデルと入力音声とを照合させる方法が採用される。

このような技術においては、背景騒音の種類によって照合時の音響モデルの内容が異なることとなるが、入力音声の音声区間（有音声区間）から背景騒音の情報を抽出することは困難であるため、入力音声中の無音声区間などから背景騒音の種類を抽出する方法が採られる（例えば、特許文献１）。

特開平５−１９７３８７「音声認識方法」公報

従来技術は、有音声区間の合間の無音声区間から背景騒音の種類を抽出する必要がある。このため、有音声区間中に無音声区間が見いだせない場合に、有音声区間の途中で背景騒音の種類が変動してしまうと、背景騒音の種類が変化した後の区間に対して適切な音響モデルを準備若しくは選択することができない、という問題があった。この発明はかかる課題を解決することを目的としている。

このような問題を解決するため、この発明に係る音声認識装置は、
入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置において、
この音声認識装置が使用される使用状況を取得するセンサと、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合手段と、
を備えた。

また、この発明に係る別の音声認識装置は、
入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置において、
上記入力音声のＳＮ比を算出するＳＮ比算出手段と、
上記ＳＮ比に応じて異なる音響モデルと上記音響特徴量とを照合する照合手段と、
を備えた。

この発明によれば、センサあるいは入力音声のＳＮ比の変動に応じて異なる音響モデルを使用し、入力音声から抽出した音声特徴量と照合することとしたので、連続する有音声区間の途中で背景騒音の種類が変動しても、変動後の区間に適合する音響モデルと入力音声とを照合することが可能となり、結果として有音声区間の全区間に亘って音声認識精度を大幅に向上させることができるのである。

実施の形態．
図１は、この発明の実施の形態による音声認識システムの構成を示すブロック図である。この音声認識システムは、例えば自動車で移動中の話者が発話した音声を認識する目的のシステムである。

図において、マイクロホン１は音声を収集する装置または部品であって、音声認識装置２は入力端３を介してマイクロホン１が収集した音声を照合して、認識結果４を出力する装置である。また入力端３は、オーディオ端子またはマイクロホン接続端子である。

音声認識装置２は、無音声区間判定部１００、ＳＮ比算出部１０１、ＳＮ比記憶部１０２、平均ＳＮ比算出部１０３、使用状況検知部１０４、音響分析部１０５、音響モデル記憶部１０６、音響モデル選択部１０７、送信部１０８、受信部１０９、照合部１０８を備えている。

無音声区間判定部１００は、入力音声に音声データが含まれているかどうかを判定する部位である。ＳＮ比算出部１０１は、ＳＮ比算出手段の一例であって、入力端３から入力された音声信号のパワーと背景騒音のパワー比を算出する部位である。ＳＮ比記憶部１０２は、ＳＮ比算出部１０１が算出したＳＮ比の値を記憶する部位である。平均ＳＮ比算出部１０３は、ＳＮ比記憶部１０２が記憶するＳＮ比の値の系列から平均ＳＮ比を算出する部位である。なおＳＮ比算出手段としてはＳＮ比記憶部１０２や平均ＳＮ比算出部１０３を含むように構成しても構わない。

使用状況検知部１０４は、音声認識装置２が設置されている環境条件を検出するセンサを備えている。このセンサは、マイクロホン１が取得する音声信号に重畳している騒音の種別に関する情報の取得を目的としている。そのために、使用状況検知部１０４は、マイクロホン１が設置されている環境における物理量やその変化量を検出又は取得する素子、または装置から構成される。なお使用状況検知部１０４は、検出量を適切な信号に変換して出力する素子又は装置を含んでもよい。

また、ここでいう物理量は、温度・圧力・流量・光・磁気の他、時間や位置、電磁波なども含む概念である。したがって、電波を用いて位置情報を取得するＧＰＳもここでいうセンサに含まれる。また、必ずしも外界から何らかの信号を取得して物理量を検出するものである必要はなく、例えば内部クロックに基づいてマイクロホン１が設置されている地点の時刻を取得する回路も、ここでいうセンサに含まれる。

なお、以降の説明では、これらの物理量を総称して、センサ情報と呼ぶこととする。また一般に、センサはアナログ信号を出力するようになっており、出力されたアナログ信号をＡ／Ｄ変換器又は素子によって、ディジタル信号にサンプリングするのが通常の構成である。したがって、使用状況検知部１０４はこのようなＡ／Ｄ変換器又は素子を含むものであってもよい。さらに、複数種類のセンサ、例えば音声認識装置２が車載用ナビゲーションシステムの端末である場合には、速度センサやエンジンの回転数をモニタリングするセンサ、ワイパーの稼動状況をモニタリングするセンサ、ウインドウの開閉状況をモニタリングするセンサなど、複数のセンサを組み合わせても良い。

図２は、使用状況検知部１０４の詳細な構成の一例を示すブロック図である。図において、ＧＰＳ３０１は位置情報を取得するセンサである。また速度センサ３０２は車速度を取得するセンサである。ワイパー状態センサ３０３はワイパーの稼動状態をモニタリングするセンサである。センサ情報統合部３０４はこれら３つのセンサ情報を統合しベクトル系列として出力する素子又は回路である。以降、使用状況検知部１０４はかかる構成を有するものとして説明することとする。

引き続き、図１のブロック図に基づいてこの発明の実施の形態の音声認識システムの構成について説明する。音響分析部１０５は、入力端３から入力された音声信号に基づいて音響分析を行い、音声特徴量を算出する部位である。音響モデル記憶部１０６は、音響モデルを記憶するための記憶素子又は回路である。

音響モデル記憶部１０６は、音響モデル記憶手段の一例であって、所定の使用環境を想定して学習した音響モデルを複数個記憶する記憶素子又は回路、記憶媒体などから構成される。ここで、音響モデルは、音声データと文字や単語、音節や音素など口述語の構成要素とを対応付けた音声認識照合用のデータである。音声データとしては、所定の使用環境下で実際に人に発話してもらって収集した音声データの他、クリーンな音声データに使用環境下で収集した環境騒音データを重畳して得た音声データなど、事前に学習されたデータが用いられる。

また、音響モデル記憶部１０６は、音響モデルと合わせて図５に示すように、使用環境特定データを音響モデルに対するインデックスとして保持している。
（１）音響モデル学習データ収集時のセンサ情報ベクトル β_m
（２）音響モデル学習データのＳＮ比Ｒ_m
なお、上記においてｍは音響モデルに付与された番号（一意に音響モデルを識別可能な値）である。

さらに、この構成の音響モデルについて特徴的なことは、所定の使用環境に特化した音響モデルを準備している点である。すなわち、ここで用いられる音響モデルは複数の環境に対応させる必要がなく、特定の環境で最高性能の照合が行えるようになっているので、音声認識の精度を高めることができるとともに、特定の環境のみの照合に対応できればよいので各音響モデルのデータ量を抑制することができるのである。

なお、音響モデルとしては複数種類のセンサ情報ベクトルだけでなく、異なる種類のＳＮ比に対応するように音響モデルを準備しておく。ただし２種類のセンサ情報ベクトルについて、同一のＳＮ比の組み合わせに対応した音響モデルを準備しておく必要は必ずしもない。例えばセンサ情報ベクトルＡとセンサ情報ベクトルＢがある場合に、センサ情報ベクトルＡに対応する音響モデルが前提とするＳＮ比と、センサ情報ベクトルＢが対応する音響モデルが前提とするＳＮ比が同一である必要はない。

音響モデル選択部１０７は、音響モデル選択手段の一例であって、入力された音声との照合に用いる音響モデルを選択する部位である。また音響モデル選択部１０７は音響モデルの選択に際し、平均ＳＮ比算出部１０３の算出結果や使用状況検知部１０４の検知結果を用いるようになっている。

なお、以降の説明では、平均ＳＮ比算出部１０３によって算出される平均ＳＮ比と使用状況検知部１０４によって検知結果として出力されるセンサ情報のベクトルとを一まとめにして、使用環境特定データと呼ぶこととする。

照合部１０８は、照合手段の一例であり、音響モデル選択部１１１が選択した音響モデルと、音響分析部１０５が出力した音響特徴量との尤度を算出し、この尤度に基づいて語彙を選択し、認識結果４として出力する部位である。

なお、音声認識装置２の構成要素のうち、無音声区間判定部１００、ＳＮ比算出部１０１、ＳＮ比記憶部１０２、平均ＳＮ比算出部１０３、音響分析部１０５、音響モデル記憶部１０６、音響モデル選択部１０７、音響モデル照合部１０８はそれぞれ専用の回路により構成することになるが、ＤＳＰ(Digital Signal Processor)などで構成した制御部を設けて、これらの構成要素により実現される機能を制御部で処理するようにしてもよい。また制御部を中央演算装置（ＣＰＵ）とし、このＣＰＵに各構成要素の機能に相当する処理を実行させるコンピュータプログラムとして実現することも容易である。

次に、音声認識装置２の動作について、図を参照しながら説明する。図３は音声認識装置２の処理のフローチャートである。図において、使用者がマイクロホン１から音声入力を行うと（ステップＳ１０１）、無音声区間判定部１００は音声データが含まれているかどうかを判定する（ステップＳ１０２）。その結果、有音声区間と判定された場合にはステップＳ１０３に進む（ステップＳ１０２：Ｙｅｓ）。有音声区間でないと判定された場合（ステップＳ１０２：Ｎｏ）については後述する。

ＳＮ比算出部１０１は、マイクロホン１から入力された音声信号から音声のＳＮ比を算出して算出結果のＳＮ比をＳＮ比記憶部１０２に記憶させる（ステップＳ１０３）。そのためにＳＮ比算出部１０１は、まずマイクロホン１からアナログ信号である入力音声信号を所定の周期毎にサンプリングしてディジタルデータに変換する。そしてディジタル化された音声信号データから式（１）を用いてフレーム毎に入力音声のＳＮ比を算出する。

なお、フレームとは、後述する音声特徴量ベクトル算出の基準となる一定時間のことである。また式（１）において、ｒ_tはフレームｔに対するＳＮ比である。さらに、Ｓ_nはｎサンプリング周期目（ｎは自然数）にサンプリングされたサンプルデータの値、ｓｐは入力音声区間の先頭のサンプル番号、Ｌ_spは１フレームに含まれるサンプルデータの数、L_shiftは１フレーム当たりにシフトするサンプル数、Ｌ_nsは音声区間前の無音区間のサンプル数である。

図４は、入力音声の信号波形とＬ_sp、Ｌ_ns及びＬ_shiftとの関係を示した図である。

一方、音響分析部１０５は、ＳＮ比算出部１０１の処理と並行して、マイクロホン１から入力された音声の音響分析処理を行う（ステップＳ１０４）。具体的には、音響分析処理として、音響分析部１０５は、アナログ信号である入力音声をディジタルデータに変換し、一定時間毎に音声特徴量ベクトルα_tを算出する。音声特徴量としては、例えばＬＰＣケプストラム（Linear Predictive Coding Cepstrum）が用いられる。

なお、ディジタルデータへの変換処理はＳＮ比算出部１０１でも行われるので、両者を共通化するような構成を採用してもよい。また、図３のフローチャートにおいて、ステップＳ１０４はステップＳ１０３の後に実行されるように記載しているが、両者の間には何ら依存関係のない独立した処理であるから、この順序を入れ替えても構わないし、並列に実行してもよい。

これとは別に平均ＳＮ比算出部１０３は、ＳＮ比記憶部１０２に記憶されているＳＮ比ｒ_tの系列から平均ＳＮ比Ｒ_tを算出する（ステップＳ１０５）。平均ＳＮ比Ｒ_tの算出方法は、例えば式（２）を用いて算出する方法がある。ここで、ＫはＳＮ比記憶部１０２が記憶するＳＮ比系列のうち平均の算出に用いるＳＮ比の総数である。

なお、環境騒音の騒音レベルがほぼ一定で、かつ使用者の口からマイクロホン１までの距離が変化しないことを想定される場合には、ＳＮ比記憶部１０２が記憶するすべてＳＮ比から平均値を算出してもよい。一方、環境騒音の騒音レベルが随時変動している使用環境下やマイクロホン１との距離が変化するような使用環境下ではＫを小さな値に設定することが望ましい。極端な場合には、Ｋ＝０、すなわちＲ_t＝ｒ_tとしてＲ_tを算出するようにしても構わない。

ステップＳ１０２〜ステップＳ１０５の処理に並行して、あるいはこれらのステップの処理に前後して、使用状況検知部１０４は音声認識装置２の設置された環境の情報をセンサ情報ベクトルβ_tとして出力する（ステップＳ１０６）。このような処理として、例えばＧＰＳ３０１は現在位置の緯度ｘ_tと経度ｙ_tを計測する。また速度センサ３０２は音声認識装置２が設置された車両の移動速度（車速）を計測する。ワイパー状態センサ３０３はワイパーの動作状況を計測する。最近の自動車のワイパーは稼働速度を選択することが可能となっている場合が多く、どのような状況で稼働しているのかを信号として出力するのである。その結果、センサ情報統合部３０４は各種のセンサからの信号をセンサ情報ベクトルβ_tとして統合し、出力する。この構成例の場合、１センサ情報ベクトルβ_tは式（３）で表されるような構成を有している。

音響モデル選択部１０７は、現在の使用環境に適合した音響モデルが音響モデル記憶部１０６に記憶されているかどうか判定する（ステップＳ１０７〜Ｓ１０８）。そのためにまず音響モデル選択部１０７は、音響モデル記憶部１０６に記憶されている各音響モデルのセンサ情報ベクトルβmと現在の使用環境を表す数値化したデータとしてセンサ情報ベクトルβ_tとの距離値Ｄ₁を算出する（ステップＳ１０７）。

以降の説明において、音響モデル記憶部１０６が記憶している音響モデルの総数をＭとする。また音響モデル記憶部１０６が記憶している各音響モデルに対して音響モデルを一意に識別しうるように、１からＭまでのいずれかの整数によるインデックスを付与することとする。そしてこのインデックスを用いて、音響モデルを音響モデルｍ（ｍは１からＭまでの整数インデックス）のように呼ぶこととし、音響モデルｍの距離値Ｄ₁を距離値Ｄ₁(ｍ)と表す。

距離値Ｄ₁(ｍ)は式（４）に基づいて算出される。ここでｗ₁〜ｗ₄は各センサ情報に対する重み係数である。この構成ではセンサ情報が４つの場合（緯度、経度、速度、ワイパー動作状況）を例としているが、他のセンサ情報を用いる場合には、新たなセンサ情報に対応した項を式（４）の右辺に追加すればよい。

また重み係数については、音声照合に最も影響を与えるセンサ情報に対する重み係数を大きくし、そうでないセンサ情報に対する重み係数を小さくすることが望ましい。また、現実の構成で用いられるセンサの特性に合わせて適切な重み係数を付与するとよい。例えば、センサが速度センサであるときには、ｋｍ／ｈ単位で速度を出力する場合とｍｐｈ（miles per hour）で速度を出力する場合では速度情報の寄与の仕方が異なってくるので、重み係数を都度適切に設定することでこれらの特性の差異を吸収するのである。

このようにして算出されたＤ₁(ｍ)のうち、最小となる距離値を音響モデル選択部１０７は選択し、最小の距離値が所定値以下となるかどうかを判定する（ステップＳ１０８）。そして最小の距離値が所定値以下となる場合（ステップＳ１０８：Ｙｅｓ）には、最小の距離値を与える音響モデルを選択する（ステップＳ１０９）。

一方、最小の距離値が所定値以下とはならなかった場合（ステップＳ１０８：Ｎｏ）は、現在の使用状況に適合する音響モデルが存在しないと判断できる。一般に音響モデルは一つあたり数百キロバイト程度のデータサイズに及ぶ場合があり、搭載可能な記憶容量の限られている小型の音声認識装置などでは、すべての使用状況に対応可能な音響モデルを準備できるとは限らない。したがって現在の使用状況が予め想定していた使用状況とある程度かけ離れてしまっている場合は、使用状況が近似する（センサの出力値の距離値が小さい）音響モデルを用いたとしても精度よく音声認識できるとは限らない。

そこでこのような場合には、単純に使用状況の近似性だけでは音響モデルを選択しないこととする。具体的には音響モデル選択部１０７はまず、各音響モデルについてＳＮ比の距離値を算出する（ステップＳ１１０）。音響モデルｍに関するＳＮ比の距離値をＤ₂(ｍ)と表すならば、Ｄ₂(ｍ)は例えば式（５）に基づいて算出される。

次に音響モデル選択部１０７は、各音響モデルのうち距離値Ｄ₂が最小となる音響モデルを選択する（ステップＳ１１１）。現在の使用状況と音響モデルについて想定していた使用状況が近似していなくても、ＳＮ比が大きい場合には背景騒音の影響が小さいので、ＳＮ比が類似する音響モデルを選択することで、音声認識処理の精度を向上することができるのである。

またこのように、センサ情報に基づいて判断した場合に適合する音響モデルが見いだせない場合であっても、ＳＮ比に基づいて音響モデルを選択することとした。この結果、使用状況としては代表的なもののみを選択してそれらの使用状況に対応する音響モデルを準備すれば足りるようになる。したがって音響モデルの学習に要するコストを低減することができる。

続いて、照合部１０８は、ステップＳ１０９あるいはステップＳ１１１で選択された音響モデルと音響分析部１０５が出力した音声特徴量ベクトルα_tとの照合処理を行う（ステップＳ１１２）。ここでは、音響モデルとして記憶されている標準パターンと音声特徴量の時系列との間で最も距離値の小さい候補を認識結果とする。例えばＤＰ（Dynamic Programming）マッチングによるパターンマッチングを行い、距離値が最小のものを認識結果４とする。また、ＤＰの代わりにＨＭＭ（Hidden Markov Model）を用いても構わない。

ここで得られた認識結果は図示せぬメモリに記憶され、処理は再びステップＳ１０１に戻って次の入力音声を取得する（ステップＳ１０１）。入力された音声が有音声区間にある場合（ステップＳ１０２：Ｙｅｓ）は、すでに説明したような処理（ステップ１０３〜ステップＳ１１２）を繰り返すが、その際に特筆すべきことはセンサ情報ベクトルとＳＮ比を都度算出し、算出したセンサ情報ベクトルとＳＮ比に基づいてその時点の使用状況に適合した音響モデルを選択する、という点である。

このように構成することで、有音声区間の間に無音声区間がなくても、センサ情報やＳＮ比に基づいてその時点で最適な音響モデルを選択することとしたので、背景騒音の種類の変動に対応して音響モデルを変更することができ、頻繁に背景騒音が変化するような環境における音声認識の精度が向上する。

これによって、例えば自動車の車内のようにロードノイズなど不定期の騒音が発生する環境下でも安定した音声認識処理を行うことができるのである。

またセンサとＳＮ比の双方に基づいて音響モデルを選択することとしたので、センサの出力値の近似度が低い場合にＳＮ比に基づいて使用状況に適合する音響モデルを選択することができる。これによって、すべての使用状況を想定する音響モデルを予め準備する必要がなくなるので、記憶容量の削減が可能となり、また音響モデル学習に要するコストを低減することができる。

なお、この発明の実施の形態の音声認識装置によれば、センサとＳＮ比の双方を組み合わせて音響モデルを選択することとしたが、いずれか一方しか備えていない場合であっても使用状況の変動を検出することができるから、有音声区間の途中で背景騒音の種類が変動した場合に音響モデルを変更する、というこの発明の趣旨を達成することができることは明らかである。

また、この発明の実施の形態の音声認識装置によれば、音響モデル記憶部６を設けて予め準備した音響モデルを記憶しておくこととしているが、クリーンな音響モデルを１つだけ記憶し、使用状況に対応する背景騒音を音響モデルに重畳させることによっても同様の効果が得られる。この場合は音響モデルに重畳させる背景騒音の種類をセンサや入力音声のＳＮ比に基づいて選択する構成となる。

この発明は、例えばカーナビゲーションシステムや携帯電話に搭載する音声認識インターフェースを実現する上で有用である。

この発明の実施の形態の音声認識装置の構成を示すブロック図である。この発明の実施の形態の音声認識装置の詳細な構成を示すブロック図である。この発明の実施の形態の音声認識装置の処理のフローチャートである。この発明の実施の形態の入力音声の信号波形を示す図である。この発明の実施の形態の音響モデルの構成例を示す図である。

符号の説明

１０１ＳＮ比算出部、
１０２ＳＮ比記憶部、
１０３平均ＳＮ比算出部、
１０４使用状況検知部、
１０６音響モデル記憶部、
１０７音響モデル選択部、
１０８照合部。

Claims

入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置において、
この音声認識装置が使用される使用状況を取得するセンサと、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合手段と、
を備えたことを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
センサが取得する使用状況を想定して予め準備された複数の音響モデルを記憶する音響モデル記憶手段と、
上記音響モデル記憶手段が記憶する音響モデルから上記センサが取得した使用状況の変化に応じて異なる音響モデルを選択する音響モデル選択手段と、を備え、
照合手段は、上記音響モデル選択手段が選択した音響モデルと入力音声から抽出された音響特徴量とを照合する、
ことを特徴とする音声認識装置。
入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置において、
上記入力音声のＳＮ比を算出するＳＮ比算出手段と、
上記ＳＮ比に応じて異なる音響モデルと上記音響特徴量とを照合する照合手段と、
を備えたことを特徴とする音声認識装置。
請求項３に記載の音声認識装置において、
入力音声のＳＮ比を想定して予め準備された複数の音響モデルを記憶する音響モデル記憶手段と、
上記音響モデル記憶手段が記憶する音響モデルからＳＮ比算出手段により算出されたＳＮ比の変化に応じて異なる音響モデルを選択する音響モデル選択手段と、を備え、
照合手段は、上記音響モデル選択手段が選択した音響モデルと入力音声から抽出された音響特徴量とを照合する、
ことを特徴とする音声認識装置。
請求項４に記載の音声認識装置において、
この音声認識装置が使用される使用状況を取得するセンサを備え、
音響モデル記憶手段は、センサが取得する使用状況と入力音声のＳＮ比とを想定して予め準備された複数の音響モデルを記憶し、
音響モデル選択手段は、音響モデル記憶手段により記憶される音響モデルが想定する使用状況とＳＮ比とを、センサが取得した使用状況とＳＮ比算出手段が算出したＳＮ比とに対比して音響モデルを選択する、
ことを特徴とする音声認識装置。
請求項５に記載の音声認識装置において、
音響モデル選択手段は、センサが取得した使用状況に適合する使用状況の音響モデルを音響モデル記憶手段が記憶していない場合に、ＳＮ比算出手段が算出したＳＮ比に適合するＳＮ比の音響モデルを選択する、
ことを特徴とする音声認識装置。
入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識処理をコンピュータに実行させる音声認識プログラムにおいて、
センサを用いて上記コンピュータが使用される使用状況を取得する使用状況取得ステップと、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合ステップと、
をコンピュータに逐次実行させることを特徴とする音声認識プログラム。
入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識処理をコンピュータに実行させる音声認識プログラムにおいて、
上記入力音声のＳＮ比を算出するＳＮ比算出ステップと、
上記ＳＮ比の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合ステップと、
をコンピュータに逐次実行させることを特徴とする音声認識プログラム。