JP2003526117A

JP2003526117A - 大語彙自動音声認識装置の教師なし適応方法

Info

Publication number: JP2003526117A
Application number: JP2000618971A
Authority: JP
Inventors: エスジンマーマンロジャー; エヌタイヒマンゲイリー; エスボートマンイアン; ウェーラーメルハイコ; ベースハルクトーマス
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-05-13
Filing date: 2000-05-10
Publication date: 2003-09-02
Also published as: KR20010053521A; DE60022291T2; DE60022291D1; EP1097446B1; EP1097446A1; WO2000070603A1; US7505905B1

Abstract

(57)【要約】生入力データを受け取る環境に設置された音声認識装置の認識精度を改善する方法である。生入力データ及び関連する認識応答を集積して、所定の不特定話者適応アルゴリズムの入力として使用する。そしてこのアルゴリズムを使用して、人間による教導なしに音声認識装置の認識精度を向上させる。この技法は大語彙ＡＳＲエンジンの適応に有効である。

Description

【発明の詳細な説明】

【０００１】発明の背景本発明は概して自動音声認識（ＡＳＲ）に関するものであり、特に音声認識エ
ンジンを調整して認識精度を改善するプロセスに関するものである。

【０００２】音声認識は不完全な技法である。例えばマイクロホンの相違、発生アクセント
の相違、及び話者能力の相違を含む多数の変量が通常存在するので、高認識精度
を達成することは困難である。自動音声認識を電話ネットワーク上で実行する際
には、音声信号に加わるノイズ及び帯域制限のために、認識作業がより困難にな
る。

【０００３】音声認識エンジンを調整して、このエンジンの認識精度のレベルを向上させる
ことは従来法で既知である。最も単純な例である話者適応においては、完全な教
師付きの方法でこうした調整を行い、システムのユーザは所定のテキストを時間
区間中に読むように促される。このプロセス中に、音声認識装置がユーザの声に
適応させられる。この方法の例が"Dragon Dictate"のような多くの市販製品に見
られる。これらの技法では一般に、ユーザとシステムの間に数分間のセッション
（協働時間）が必要であり、従ってこれらの技法は、大部分のやり取りが少しの
発声のみであり、将来のセッションのためにユーザの個人性を保存することが通
常不可能である電話ベースのＡＳＲには不適切である。

【０００４】より大規模な不特定話者システムにとっては、個々の話者に対して認識装置を
調整することは、非実用的または不所望なことである。こうしたシステムを調整
する目的は、一般に適用可能なモデルまたはアルゴリズムに到達することである
。またこれらのシステムでは、ユーザ母集団を相手とする教師付き期間を導入す
ることも不可能である。こうした場合には、ＡＳＲの提供者は、人手を介在させ
て自分たちのアルゴリズムを調整している。特に認識装置を設置した後には、大
量のデータを収集している。ここでは人間の聴取者がこの音声データを表記して
いる。表記には、データベース中の各発声の慎重かつ熟達した聴取、並びに優秀
なタイプの能力を必要とする。音声データ及び人手による表記を利用して、ＡＳ
Ｒの提供者は必要により認識エンジンを調整して、アプリケーションを再設定す
る。この種の調整は不経済であり、かつ大語彙ＡＳＲシステムの再設置に役立つ
ためには、十分迅速でないことが多い。実際に、語彙のサイズが増大すると共に
、こうした「教師付き」の調整技法はより非効率になり、実用的な開発時間及び
費用で、システムを所望レベルの認識精度までもって行き損なう。本発明はこの
問題に応えるものである。

【０００５】発明の概要本発明の主要目的は、ＡＳＲ設備における総合的な認識精度を、自動化された
方法で改善することにある。本発明の他の主要目的は、現場において、直接の教師付きでなく、ＡＳＲアル
ゴリズムを許容できる認識精度レベルまでもっていくことにある。本発明の他の重要な目的は、経済的かつ信頼性のあるやり方で大語彙音声認識
エンジンを調整する新規の方法を提供することにある。本発明のこれらの目的及び他の目的は、完全に自動化された方法でＡＳＲエン
ジンを調整することによって達成される。特に認識装置からの音声認識結果は、
装置が最初に設置された際には通常不完全なものであり、これらの結果は、ＡＳ
Ｒモデル及びアルゴリズムの１つ以上の要点に学習をさせ、あるいはこれらの要
点を調整するために使用される。この現場適応は人間の聴取者とは対照的に、デ
ータベースを表記するための認識装置に依存する。従ってこの適応は、アルゴリ
ズムの専門開発者とは対照的に、実際にアルゴリズムを変更する自動調整技法に
依存する。

【０００６】従って本発明によれば、認識装置そのものの不完全な出力は、生入力音声デー
タの表記を教導するために使用する唯一の情報であることが好ましい。従ってこ
のデータを１つ以上の適応アルゴリズムによって分析して、認識精度を向上させ
る必要により認識装置を再調整することができる。

【０００７】本発明は、不特定話者ＡＳＲアルゴリズムを、現場における教師なしの方法で
、所定のアプリケーションまたは環境に適応させる一意的な方法を提供するもの
である。ＡＳＲを調整するために、１つ以上のサイト適応アルゴリズムを、単独
または組合わせのいずれかで使用する。これらのアルゴリズムは、チャネル特性
、方言、発音の個人性、及び発話スタイルのような特定用途向けの特徴を学習す
ることを意図した不特定話者アルゴリズムであることが好ましい。この適応は、
自動化モデル（例えば隠れマルコフモデル）上、言語モデル（例えば単語バイグ
ラム統計）上、発音モデル（例えば音声辞書）上、あるいはこれらの組合わせ上
で実行することができる。

【０００８】前述したことは、本発明に比較的当てはまる目的及び特徴の一部を概説したも
のである。これらの目的は、単に本発明の比較的顕著な特徴及び応用の一部を表
わすものと考えるべきである。開示した本発明を異なる方法で適用するか、ある
いは以下に述べるように変更することによって、幾多の有益な結果を得ることが
できる。従って、以下の好適な実施例の詳細な説明を参照すれば、他の目的も含
めて本発明をより完全に理解することができる。

【０００９】好適な実施例の詳細な説明以下、本発明の実施例について詳細に説明する。図１に、本発明の現場適応方法論的なフローチャートを示す。本発明は、ＡＳ
Ｒエンジンがユーザ設備に設置されたものであり、かつ提供者が、好ましくは人
手を介在させずに、このエンジンの認識精度の向上を望んでいることを前提とす
る。好適な一実施例では、大語彙を有するＡＳＲエンジンと共に本発明を使用し
ているが、これは必要条件ではない。従って、例えば、ＡＳＲアプリケーション
は多数（例えば数千）の語彙要素から成るディレクトリ支援データベースとなる
。

【００１０】このルーチンはステップ２０で、例えば現場の顧客設備に、ＡＳＲエンジンを
設置することから始まる。最初に設置されたＡＳＲエンジンは不完全なものであ
り、認識精度レベルを向上させるために調整しなければならないことを前提とす
る。ステップ２２では、ＡＳＲエンジンが本発明による自動適応用に設定されて
いるか否かを決定するためのテストを実行する。これは、例えばエンジンのアプ
リケーションプログラムインタフェース（ＡＰＩ）を、適応プロセスを開始すべ
く（アプリケーション開発者またはユーザが）設定することができるフラグを含
むように拡張することによって行うことができる。このフラグは、エンジンを設
置した後に遠隔的に設定することができる。エンジンが自動適応用に設定されて
いる場合には、ルーチンはステップ２４に進む。このステップでは、所定のデー
タ収集期間（例えば２４時間の期間）が経過したか否かを決定するテストを実行
する。エンジンが自動適応用に設定されていない場合には、ルーチンはステップ
２６に進み、認識結果を関連する音声波形サンプルと共に記録する。特にこのス
テップ中では、生入力を処理することによって得られた認識結果をディスクファ
イルに保存する。認識結果は、ＡＳＲエンジンによって生成された実際の結果（
即ち仮定した発声音声）を、信頼度レベル、ｎ−ベスト仮定、及びステップ３０
での適応アルゴリズムの入力として使用することができる他のデータのような情
報と共に含むことができることは明らかである。

【００１１】ステップ２６の変形法では、「生」のディジタル音声波形サンプルの代わりに
音声データの「下流」バージョン（例えばケプストラム係数）を保存すべく、シ
ステムを構成することができる。このことは本発明の他の利点である。特に、人
間が音声データを聴取する必要がないので、適応アルゴリズムを実行するために
必要な形態の音声データのみを記憶することによって、データの大幅な低減を行
うことができる。この利点により、ＣＰＵ、ＩＣメモリ、及びハードディスクを
含むコンピュータ装置のコストを低減することができる。

【００１２】ステップ２４でのテストの結果がＹＥＳになるまで、ステップ２６を循環する
。この時点でルーチンはステップ２８に進み、前記期間中に保存された情報を検
索する。ステップ３０では、前記情報に対して適応アルゴリズム（または複数の
適応アルゴリズム）を実行して、エンジンの認識精度を向上させる。このアルゴ
リズムは音響モデル（例えば隠れマルコフモデル）、言語モデル（例えば単語バ
イグラム統計）、発音モデル（例えば音声表記）、あるいはこれらの異なるモデ
ル型のいくつかの組合わせにもとづくものとすることができることは明らかであ
る。そしてステップ３２では、以上のように調整した認識エンジンをアプリケー
ション内に再設置し、これは恐らくは元のエンジンより認識精度が良好であり、
かつ計算資源をより効率的に使用するものである。

【００１３】これにより、基本処理を完結する。もちろん、この基本プロセス全体を繰り返
して、これにより認識を絶えず改善し、また前記モデルが、認識性能に影響しう
るアプリケーション条件の変化に適応できるようにする。

【００１４】これにより、本発明によれば、認識エンジンそのものが生入力データの表記を
行って、こうした情報を、元の音声信号のある形態と共に、適応アルゴリズムの
入力として利用することができる。このように教師なしの方法で、かつ人手を介
在させずに、ＡＳＲエンジンを所定のアプリケーションまたは現場での運用環境
向きに調整することができる。

【００１５】収集した認識結果をバッチ処理することが好ましいが、十分な計算資源及びメ
モリ資源が存在する場合には、認識データに対して適応ルーチンをオン・ザ・フ
ライ（随時実行）で、即ち生入力データを認識することとして実行できることは
、通常の当業者が認知している。

【００１６】前記適応アルゴリズムは不特定話者用であり、かつＡＳＲエンジンが、とりわ
けチャネル特性、方言、発音、発音の個人性、発話スタイルのような特定用途向
けの特徴を学習できるように、これらのアルゴリズムを選択することが好ましい
。アルゴリズムの一形式は隠れマルコフモデル適応であり、ここでは認識装置が
未調整であることを仮定して、音響入力、及び認識装置が仮定した対応する音声
状態に従って、音響モデルの平均ベクトル及び共分散行列を更新する。アルゴリ
ズムの他の形式は単語バイグラム統計適応であり、これは推定した単語列に従っ
てラティス（格子）確率を更新する言語モデルである。他の代表的なアルゴリズ
ム形式は音声表記適応であり、これは例えばテキスト−音素エンジンから生成さ
れ、新たなデータに従って余分なものを切り捨てた選択的な表記を有するレキシ
コン（語彙集）を更新する発音モデルである。

【００１７】最後に、現在の多くのＡＳＲ探索アルゴリズムがパラメータ的であることは周
知である。こうしたアルゴリズムの例がビタビビーム探索、スタックデコーダ、
及びＡ−スター探索である。こうしたアルゴリズムでは、上述した方法に従って
潜在的に調整可能な多くのパラメータが存在する。例えば、ビタビビーム探索ア
ルゴリズムではビーム幅及び切り捨てしきい値が調整可能であり、このため所定
の環境では、探索がより最適に行われる。また各発声の通過の得点を組合わせて
最終得点を出す多重通過探索アルゴリズムでは、こうした得点を組合わせる方法
は通常パラメータ的であり、この方法に従って調整することができる。本発明は
、こうしたＡＳＲ探索アルゴリズムにおいてパラメータを適応させる一般的な技
法に関するものである。

【００１８】上述した複数の方法（これらは例示的なものに過ぎない）は、潜在的に互いに
直交するものであることは、当業者が認識している。このため、これらの方法の
２つ以上を単一のアルゴリズムに組合わせることによって、本発明の追加的な効
果を実現することができる。もちろん、これらの方法は本発明による現場適応の
方法を尽くしたリストとして受け取られることを意図したものではない。

【００１９】実験次の実験データは、認識アルゴリズムの現場性能を改善するために、現場適応
が有用であることを示すものである。ＨＭモデル適応ＨＭＭ適応では、新たに獲得したデータを、慣例のバウムウエルチ埋め込み再
推定アルゴリズムによって処理する。（代替実現方法は、恐らくはより多くの適
応データを必要とし、また各状態毎に共分散ベクトルを更新する。）本明細書に
開示した教師なしの適応方法の中心事項として、各発声に対する最良の認識仮定
を、推定した正しい表記として使用していた。そこで、通常のバウムウエルチ再
推定アルゴリズムを適用して、各ガウスモデルの平均ベクトルのみが更新される
ようにしていた。以下に記述する他の適応方法のように、この基本的な方法に対
するいくつかの変形法を探求した。第１には、適応データの量を、約４０分間の
音声から４時間の音声にまで変化させた。第２には、２つの信頼度レベル内にあ
る発声のみを適応プロセスに含める信頼度ギャップを含む、いくつかの信頼度の
しきい値を適用した。

【００２０】図２に、この実験の結果を示す。図に示すように、ＨＭＭ適応は極めて良好な挙動をしている。より多くの学習
データを適応に用いるほど、相対的なエラーがより低減されている。開発テスト
と評価テストの組では、改善度は実質的に同程度であり、これは過剰な学習が行
われていないことを示している。また、未調整の認識装置を開発するのに用いた
元の学習データとほぼ同様の特性のデータベース上で、ベースライン（基本線の
）テストも実行した。このテストは認識精度の微小な低下を示したに過ぎず、前
記方法がかなり強固なものであり、かつアプリケーションの特性が突発的に変化
しても、認識性能に打撃を与えるものではないことを示唆している。また基本Ｈ
ＭＭテストと適応ＨＭＭテストで、ＣＰＵ動作に大幅な相違はない。

【００２１】単語バイグラム統計適応これらの実験については、ＡＳＲエンジンが最初に通過するビタビ探索グラフ
を、所定の開発入力データの認識結果の部分集合から抽出した単語バイグラムデ
ータでバイアスさせた。この結果の表記（即ち認識仮定）をランダム化して、最
初に選択したものから順に、単語対の頻度を集積するための種々のサイズの部分
を取った。この実験に与えた種々の変化により、得点のしきい値が副設定メカニ
ズムとして認識結果にもたらされた。これらのカウント数を確率に変換して、こ
れらの確率を、最尤単語列のためのビタビ探索をバイアスさせるために使用した
。これらの実験の主な結果をまとめて、図３Ａ〜図３Ｂの表に示す。

【００２２】これらの実験から得られた主な結論は、単に結果を集積し、かつ認識装置によ
ってロードされたビタビ探索グラフを再編集することによって、現場で得られた
認識結果を認識精度を改善するために用いることができるということである。ま
たＨＭＭ適応によるのと同様に、バイグラム重み付け探索グラフを使用すること
により、ＣＰＵの使用量が増加しないこともわかる。

【００２３】単語バイグラム統計の適応に対する拡張は、単語トリグラム統計を適応させる
ことである。実際に、十分な適応データにより、この技法は、言語をモデル化す
るいずれの周知の統計的方法にも拡張することができる。さらに同じ基本的な技
法を、ＢＮＦ駆動文脈自由文法のような決定論的な言語モデルに適用することが
できる。

【００２４】音声表記適応他の実験には、ＡＳＲ辞書内の音声表記の適応を含めた。この実験は、次の一
般的な手順を用いて行った。１）統計的なテキスト−音素アルゴリズムを用いて、米国英語学習大語彙集か
ら派生する文字−音素決定木を開発した。この決定木は、正書された綴りから代
替音声表記への１対多のマッピングを生成して、これにより所定の語彙要素に対
する音声表記を過剰生成するものである。２）次にこの決定木をテスト辞書に適用して、語彙中の各語彙要素毎に、代替
音声表記の確率でランク付けしたリストを生成した。３）まずこれらの代替表記の余分なものを除去して、例えば２０のような適度
な数の語彙要素にした。４）次に、音声方策的に改善可能なエントリを除去することによって、これら
のランク付けしたリストを再び選別した。５）次に、キーの適応ステップを実行した。適応データ上の強制的な音声整列
において、新たに拡張した語彙集を使用した。他の技法と同様に、認識仮定を、
各発声に対する正しい表記であるものと仮定した。従ってこのステップでは、適
応データを使用して、前記拡張した語彙集から最も適切な表記を選択した。前記
強制的な音声整列において、あまり使用されなかったか、あるいは全く使用され
なかった表記を前記拡張した語彙集からふるい落として、表記の平均数を約１８
から、大語彙のＡＳＲ辞書では通常の、約２まで低減させた。６）次に、この強制的な音声整列の手続きによって選択した表記を使用して、
標準的な音声表記語彙集を補足した。７）そしてこの拡張（即ち適応）語彙集で、新たなテストを実行した。氏名の
タスク（処理作業）に対する結果を、図４Ａ〜図４Ｂの表に示す。開発テストについては、拡張語彙集により、標準語彙集に対して16.1％の相対
的な改善度が得られた。この結果のパターンは、評価テストの組についても同様
に見られるが、改善度はそれほど大きくなかった。

【００２５】また他の現場適応実験で行ったように、認識の信頼度にもとづいて適応データ
の選別を開始することが望ましい。さらに、決定木を特定の語彙集型に当てはめ
ることを含むテキスト−音素の決定木の生成に変化を与えること、及びここでの
氏名のタスクでは、異なる言語グループ分け毎に異なる決定木を使用することが
望ましい。あるいは音声学にもとづく方法を含む代替音声表記を生成するために
、他の方法を採用することができる。

【００２６】組合わせた方法前述したように、上記方法の各々は、互いにかなり直交するものである。この
ため、これらの適応のうち２つ以上を組合わせて、付加的な効果を生み出すこと
ができる。Ｉ−ＩＭＭとバイグラム適応との単純な組合わせにより、図５に示す
結果が生成された。これらの適応アルゴリズムを組合わせることにより、開発テ
ストデータ上では、各々の効果の加算よりも幾分小さい効果が得られ、評価テス
トデータ上では、各々の効果の加算よりも幾分大きい効果が得られた。両データ
の場合において、組合わせによる改善度は１８％に達した。

【００２７】結論前記実験データは、３つの適応方法の妥当性を示すものである。まとめて言え
ば、これらの方法は、実用のテストデータベース上で、これらの方法のうち２つ
の組合わせを用いて、２０％近いエラー率の低減を示している。

【００２８】本発明の、教師なしの適応パラダイム（規範）は、従来法よりも多数の利点を
有している。その最たるものは、生入力データの表記を教導するために、人手の
介在を必要としないことである。さらに、限定的なデータ上でも適応を行えるこ
とである。上述した結果は、限定的な量のデータでも、改善が現われるのに十分
であることを示している。さらに、信頼度しきい値を伴う認識仮定の選別が、適
応性能の改善に有効となりうる。これらの適応方法を直ちに実施して、特定の設
置におけるＡＳＲエンジンの実用認識精度を改善することができる。

【００２９】本発明の範疇内で幾多の変更を行いうる。これにより、例えばのＡＳＲアルゴ
リズムの代表モジュール（即ち基本信号処理及び特徴抽出）を適応させて、認識
性能を向上させることができる。これに加えて、適応データを選別するより巧妙
な方法を実施することができる。さらに、個々の認識単位（例えば単語または音
素）に信頼度を付けた局所的な信頼度の尺度を開発して、より多くのデータを、
モデルを適応させるために使用することができる。この方法では、ある発声の信
頼度が低いために、発声全体を適応プロセスから排除する必要はない。その代わ
りに、発声からのデータの一部を引き上げて、モデル調整の入力として使用する
ことができる。

【００３０】既知の認識エンジンの中で、あるいはこれと隣合わせて、創造的な技法を用い
ることができる。周知のように、認識エンジンは発話入力を受け取って、多数の
認識仮定を生成することができる。これは、次のものに限定されないが、Ｖｐｒ
ｏＴＭ音声認識エンジン、ＶＲ音声認識エンジン、及び音声認識製品のＳｐ
ｅｅｃｈＷａｖｅＴＭ系列を含むいくつかの従来システム（即ち認識シ
ステム、アプリケーション等）から入手可能な既知の機能であり、これらのすべ
てがＶＣＳＩによって最近開発され市販されている。一般に、音響モデル、言語
モデル、発音モデル、及び／またはパラメータ型探索アルゴリズムを採用するい
ずれの音声認識エンジンも、本明細書に記述した方法を使用すべく構成すること
ができる。

【００３１】本発明によるアルゴリズムはソフトウエアから成ることが好ましく、このため
本発明の好適な一実施例は、汎用コンピュータのランダムアクセスメモリに存在
するコード化したモジュール内の一組の命令（プログラムコード）である。コン
ピュータが要求するまで、これら一組の命令を、例えば光ディスク（実用上では
ＣＤＲＯＭ）またはフロッピー（登録商標）ディスク（実用上ではフロッピー
ディスクドライブ）のような他のコンピュータメモリに記憶するか、あるいはイ
ンターネットまたは他のコンピュータネットワーク経由でダウンロードすること
ができる。またこれに加えて、記述した種々の方法は、ソフトウエアによって選
択的に作動させるか、あるいは再構成されたコンピュータにおいて好適に実施す
ることができるが、こうした方法をハードウエア、ファームウエア、あるいは要
求される方法のステップを実行するために構築した、より特化された機器または
装置で実現できることは、当業者が認識している。

【００３２】本発明の動作を実行する代表的なコンピュータは、（例えばインテル(R)ベー
ス、パワーＰＣ(R)ベース、ＲＩＳＣ(R)ベースの）プロセッサ、ランダムアクセ
スメモリあるいは他の揮発性メモリ、ディスク記憶装置、適切な表示インタフェ
ースを有するディスプレイ、入力装置（マウス、キーボード、等）、及びコンピ
ュータをコンピュータネットワークにインタフェースさせる適切な通信装置を有
するものである。ランダムアクセスメモリは、本発明の機能を提供するコンピュ
ータプログラムをサポートする。

【図面の簡単な説明】

【図１】本発明による現場適応技法を示すフローチャートである。

【図２】相対エラー低減率を、隠れマルコフモデル化（ＨＭＭ）適応アルゴリ
ズムによる学習データ量の関数として示したグラフである。

【図３】図３Ａ及び図３Ｂは、単語バイグラム統計適応アルゴリズムをテスト
した結果を示す表である。

【図４】図４Ａ及び図４Ｂは、音声辞書適応をテストした結果を示す表である
。

【図５】ＨＭＭ適応及び単語バイグラム統計適応の、２つの適応アルゴリズム
を組合わせた結果を示すグラフである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ゲイリーエヌタイヒマンオランダ国 5656 アーアーアインドーフェンプロフホルストラーン６ (72)発明者イアンエスボートマンオランダ国 5656 アーアーアインドーフェンプロフホルストラーン６ (72)発明者ハイコウェーラーメルオランダ国 5656 アーアーアインドーフェンプロフホルストラーン６ (72)発明者トーマスベースハルクオランダ国 5656 アーアーアインドーフェンプロフホルストラーン６Ｆターム(参考） 5D015 GG01 GG06 HH22 HH23

Claims

【特許請求の範囲】

【請求項１】生入力データを受け取る環境に、音声認識装置を設置するステッ
プと；生入力データ及び関連する認識応答を収集するステップと；教師なしで、所定の適応アルゴリズムを前記収集した情報に適用して、前記音
声認識装置の認識精度を改善するステップと；前記適応させた音声認識装置を、目標の環境に再設置するステップとを具えていることを特徴とする音声認識装置の認識精度の改善方法。
【請求項２】前記生入力データが、ディジタル符号化した音声波形サンプルを
含むことを特徴とする請求項１に記載の方法。
【請求項３】前記生入力データが、所定の音声波形サンプルを処理したバージ
ョンを含み、該処理したバージョンは人間の聴取者には認識不可能であるが、前
記所定の適応アルゴリズムの入力として使用するのに十分なものであることを特
徴とする請求項１に記載の方法。
【請求項４】前記生入力データ及び関連する認識応答を、所定の時間区間にわ
たって収集することを特徴とする請求項１に記載の方法。
【請求項５】前記適応アルゴリズムが音響モデルにもとづくものであることを
特徴とする請求項１に記載の方法。
【請求項６】前記音響モデルが隠れマルコフモデルであることを特徴とする請
求項５に記載の方法。
【請求項７】前記適応アルゴリズムが言語モデルにもとづくものであることを
特徴とする請求項１に記載の方法。
【請求項８】前記言語モデルが、単語バイグラム統計であることを特徴とする
請求項７に記載の方法。
【請求項９】前記適応アルゴリズムが発音モデルにもとづくものであることを
特徴とする請求項１に記載の方法。
【請求項１０】前記発音モデルが音声表記語彙集で符号化されていることを特
徴とする請求項９に記載の方法。
【請求項１１】前記適応アルゴリズムが、前記認識装置の認識アルゴリズムの
探索パラメータにもとづくものであることを特徴とする請求項１に記載の方法。
【請求項１２】前記適応アルゴリズムが、音響モデル、言語モデル、発音モデ
ル、及び前記音声認識装置の認識アルゴリズムの探索パラメータから本質的に成
る群から選択したモデルの組合わせにもとづくものであることを特徴とする請求
項１に記載の方法。
【請求項１３】生入力データが収集されるに伴い前記適応を適用して、該生入
力データに対する認識応答を生成することを特徴とする請求項１に記載の方法。
【請求項１４】生入力データを受け取る環境に設置された音声認識装置の認識
精度を改善する方法において、この方法が、生入力データ及び関連する認識応答を収集するステップと；教師なしで、所定の不特定話者適応アルゴリズムを、前記収集した情報に適用
して、前記音声認識装置の認識精度を改善するステップとを具えていることを特徴とする認識精度の改善方法。
【請求項１５】前記不特定話者適応アルゴリズムを、音響モデル、言語モデル
、発音モデル、探索パラメータ、及びこれらの組合わせから本質的に成るモデル
の群から選択することを特徴とする請求項１１に記載の方法。