JP5576113B2

JP5576113B2 - 音声認識システムにモデルを適合させるための方法およびシステム

Info

Publication number: JP5576113B2
Application number: JP2009504393A
Authority: JP
Inventors: キース・ブラホ; ジェフリー・パイク; ロリ・エー・パイク
Original assignee: ヴォコレクト・インコーポレーテッド
Priority date: 2006-04-03
Filing date: 2007-03-30
Publication date: 2014-08-20
Anticipated expiration: 2027-03-30
Also published as: EP2685451A2; EP2005418A2; EP2711923A3; JP5270532B2; EP3627497A1; WO2007118032A3; EP2685451A3; JP5426363B2; EP2711923A2; WO2007118030A2; WO2007118030A3; JP2013232017A; EP2711923B1; JP6121842B2; JP2009532742A; JP2009532744A; EP2005417A2; EP2541545A3; EP2005418B1; WO2007118029A2

Description

本出願は、すべての出願が参照により本明細書に完全に組み込まれている、2005年2月4日に出願した「Method and System for Considering Information About an Expected Response When Performing Speech Recognition」という表題の米国特許出願第11/051,825号の一部継続出願である、2006年1月13日に出願した「Methods and Systems for Considering Information About an Expected Response When Performing Speech Recognition」という表題の米国特許出願第11/331,649号の一部継続出願である。本出願はまた、すべての出願が参照により本明細書に完全に組み込まれている、2006年4月3日に出願した「Methods and Systems for Adapting a Model for a Speech Recognition System」という表題の米国仮出願第60/788,621号、2006年4月3日に出願した「Methods and Systems for Optimizing Model Adaptation for a Speech Recognition System」という表題の米国仮出願第60/788,606号、および2006年4月3日に出願した「Method and Systems for Assessing and Improving the Performance of a Speech Recognition System」という表題の米国仮出願第60/788,622号の優先権を主張するものでもある。

本発明は音声認識に関し、より詳細には、音声認識システムの精度および効率性を改善することに関する。

音声認識システムは、従来の周辺入出力デバイスを経由した通信の好都合な代替案として、ユーザがコンピュータとハンズフリー通信を実行することを可能にすることによって、特に職場でのユーザのために多くの任務を簡素化した。例えば、ユーザはユーザが中央コンピュータシステムから作業割当ておよび作業命令を受信することができるように、ユーザと中央コンピュータシステムの間の通信を可能にする音声認識システムを有する、装着可能な無線端末を身につけることができる。ユーザは、データ入力、質問、作業進歩状況報告書および作業状態報告書などの情報を中央コンピュータシステムに通信することもできる。倉庫または棚卸の環境で、ユーザは(中央コンピュータシステムからの音声命令を介して、またはディスプレイを用いて視覚的に)「1-2-3」などの複数のデジット数(チェックデジット(check-digit))でラベルづけされた特定の作業領域に導かれ、チェックデジットを話すよう要求されうる。次いで、ユーザは期待される応答「1-2-3」を用いて応答することになる。(「チェックデジット」は任意の語または一続きの語であってよく、デジットに限定されない点に留意されたい。)

応答に関する知識が知られている適用業務および通信のその他のかかる例は、米国特許出願第2003/0154075号で説明され、自動車内または電話システム内など、装着可能な端末または携帯用端末が要求されない環境;薬局、小売店、および事務所など、倉庫でない環境;例えば、クレジットカード番号、銀行口座番号、社会保障番号および個人識別番号を処理する音声制御された情報処理システム;コマンドおよび制御、書取り、データ入力および情報取出し適用業務など、その他の適用業務;ユーザ検証、パスワード検証、数量検証、および繰返し/確認メッセージなどの音声認識システム特徴を含む。本明細書で提示される発明は、それらの適用業務において使用されうる。音声認識システムを使用する際、手動のデータ入力は排除されるか、または少なくとも削減され、ユーザは自らの任務をより速く、より正確かつより生産的に実行することが可能である。

しかし、例えば、背景雑音またはユーザがシステムに不慣れであることまたはユーザによるシステムの誤用により、音声認識システムによって誤りが発生する可能性がある。システムによって発生する誤りは様々なタイプに分類されうる。測定基準である(システムに入力された語数に対する音声認識誤りの割合すなわち率と定義することが可能であり、時間および/またはデータのウィンドウ(window)に対してかつユーザごとに決定されうる)語の誤り率は、多くの場合、音声認識システムによって発生する誤りの数およびタイプを評価するために使用され、したがって、システムのパフォーマンスを評価する際に有用である。一般に、語の誤り率は、1組の語のうちの1つの語もしくは様々な語に関して、または1人のユーザもしくは複数のユーザに関して決定されうる。システムの誤りの識別は、ユーザの入力音声の基準トランスクリプション(reference transcription)をシステムによって生成された仮定(ユーザの入力音声のシステムによる解釈)と比較することによって行うことが可能である。さらに、当業者に知られているように、この比較は時間整合モードまたはテキスト整合モードで実行することが可能である。

1つのタイプの音声認識誤りは置換であり、その場合、音声認識システムの仮定は基準トランスクリプションの中にある語を間違った語に置き換える。例えば、ユーザの入力音声「1-2-3」に応答して、システムが「1-5-3」を認識する場合、システムは1つの置換、すなわち、「2」を「5」に置き換えた。

もう1つのタイプの音声認識誤りは削除であり、その場合、音声認識システムの仮定は基準トランスクリプション内にある語を欠く。例えば、ユーザの入力音声「1-2-3」に応答して、システムが「1-3」を認識する場合、システムは1つの語、すなわち「2」を削除した。多くのタイプの削除誤りが存在する。削除誤りの1つの改変例は不要部分を認識することに起因する削除であり、その場合、システムは実際の語を認識する代わりに不要部分のモデルを誤って認識する。削除誤りのもう1つの改変例は音声の誤検出による削除であり、その場合、システムはシステムに入力された音声が音声を含むことを検出せず、その結果、音声入力の特徴をシステムの探索アルゴリズム内に提出しない。もう1つのタイプの削除は、低い信頼得点のため、システムが正確な認識を拒否する場合に生じる。さらに削除誤りのもう1つの改変例は、拒否された置換による削除であり、その場合、音声認識の探索アルゴリズムは、後にシステムの受入れアルゴリズムによって拒否される置換をもたらす。時間整合された比較の際に発生する、さらにもう1つのタイプの削除は併合である。すなわち、音声認識システムは、話された2つの語を1つと認識する。例えば、ユーザは「4-2」と言い、システムは「40」と出力する。

この適用業務では、不要部分のモデルは、情報を伝えない音声に関するモデルの一般的なクラスを指す。例は、例えば、呼吸音、「うーん」、「えー」、鼻をすする音、風の音、パレットの落下音、車のドアを閉める音のモデル、またはワイルドカードなど、その他の一般的なモデルを含みうる。(ワイルドカードは、モデルのライブラリ内のモデルに一致しない任意の音声に関する入力音声に一致することが意図される。)

さらに、もう1つのタイプの音声認識誤りは挿入であり、その場合、音声認識システムの仮定は基準トランスクリプション内のいずれの語にも対応しない語(または記号)を含む。挿入誤りは、多くの場合、システムが1個の記号に対応する2個の記号を生成する場合に発生する。これらの記号のうちの1個は、基準トランスクリプションに対応する場合があり、正確な認識としてタグづけされうる。記号が基準トランスクリプションに対応しない場合、置換誤りとしてタグづけされうる。いずれの場合も、その他の記号は挿入誤りとしてタグづけされうる。挿入誤りはまた、雑音が誤って音声として認識された場合にも一般的である。

基準筆記録(reference transcript)内で実際に話された語に対するシステムの仮定の比較によって実際の誤りが発生したことを決定するのと対照的に、誤りは、システム動作およびユーザ動作に基づいて発生したと推定または判断することが可能である。したがって、このように、システムによって行われた様々な誤りを検出することによって、音声認識システムのパフォーマンスレベルを推定または評価することができる。音声認識誤りを検出する1つの方法は、ユーザが音声認識システムに提供するフィードバックに基づく。フィードバックは、音声認識システムによって要求されうる。例えば、システムは、ユーザに、例えば「1-5-3と言いましたか?」と問い合わせることによって、システムの仮定を確認するようユーザに要求することができ、ユーザが「いいえ」と答えた場合、システムはシステムが「1-5-3」を認識する誤りを犯したことを表示する。もう1つのタイプのフィードバックは、音声認識によって検出されたユーザの感情に基づく。例えば、システムが、ユーザがため息をついていることまたは立腹を示す語を口にしたことをユーザの入力音声内に認識する場合、システムは、誤りが発生したことを表示できる。さらにもう1つのタイプのフィードバックは、ユーザが「バックアップ」もしくは「消去」と話すなど、システムに対するユーザの補正コマンド、またはユーザが何の語が話されたかを識別すること(これはシステムによって表示される、考えられる語のリストからでありうる)に基づく。補正がシステムに命令される場合、システムは誤りが生じたことを表示することが可能である。

音声認識システムは、より多くの音声サンプルが音声認識システムによって受信および処理されると、トレーニングアルゴリズムもしくはその他の学習アルゴリズムまたは適合アルゴリズムを介してその音声モデルを改善することによって、経時的にそのパフォーマンスを改善することが可能である。同時に、システムが望まれない方法で適合し、それにより、結果として、システムが適合に先立って行ったのよりも不十分に実行するようになること、またはシステムが経時的に劣化するようになることを防ぐことが有用である。音声モデルの適合に起因する、音声認識システムによる追加の処理を回避することは、多くの適用業務、特に電池動力を備えた移動体コンピュータ、無線ネットワーク、およびモデルを記憶するためのサーバを用いる適用業務において特に有用である。モデルを適合させることは、適合されたモデルを作り出すためにかなりの計算リソースと、新しいモデルをサーバに送信するためにかなりの無線伝送エネルギーとを使用する可能性がある。本明細書で開示される本発明の例示的な実施形態は、計算リソース、記憶リソースおよび/または電力リソースの非効率な使用を回避して、十分に実行するモデルからかけ離れた適合を回避するために、音声認識システムの適合の率を制御することが可能である。本発明の例示的な実施形態は、先行モデルを適合させるためまたは新しいモデルを作り出すために、(誤り率の推定に基づきうる)誤り率の決定に基づくトリガを使用することによって適合を制御する。本発明はまた、認識誤り率が推定されうる方法も開示する。

この明細書内に組み込まれかつこの明細書の一部である添付の図面は、音声認識システムの構成要素および本発明の実施形態を例示し、下に提示される実施形態の詳細な説明と共に、本発明の原理を説明するのに役立つ。
米国特許出願第11/331,649号米国特許出願第11/051,825号米国仮出願第60/788,621号米国仮出願第60/788,606号米国仮出願第60/788,622号米国特許出願第2003/0154075号米国特許出願第10/671,142号米国特許第4,882,757号

本明細書で開示される本発明の例示的な実施形態は、先行モデルを適合させるためまたは新しいモデルを作り出すためのトリガを使用して、音声認識システムの適合の率を制御する。結果として、例示的な実施形態は、システムリソースの非効率的な使用を回避して、十分に実行するモデルからかけ離れた適合を回避する。本発明の例示的な実施形態は、モデル適合のためのトリガとして使用されうる(誤り率の推定に基づきうる)様々な誤り率の決定を含む。この説明において、「一実施形態」または「実施形態」の参照は、参照されている特徴が本発明の少なくとも1つの実施形態の中に含まれることを意味する点に留意されたい。さらに、この説明における「一実施形態」の別々の参照は同じ実施形態を指すとは限らないが、そのように指定さない限り、かつ当業者に容易に明らかになる場合を除いて、かかる実施形態は相互に排他的でもない。したがって、本発明は、本明細書で説明される実施形態の任意の様々な組合せおよび/または統合を含みうる。

一手法では、音声認識システムのモデル適合リソースの効率的な使用のための方法は、1組の語のうちの1つの語の事例の認識または様々な語の事例の認識に対応する誤り率を決定する段階を含む。方法は、誤り率に基づいて、1つの語に対する1つのモデルまたは様々な語に対する様々なモデルの適合を調整する段階をさらに含むことが可能である。手法は、以下のすべてまたはサブセットを含みうる装置内で実施することが可能である。すなわち、1組の語のうちの1つの語の事例の認識または様々な語の事例の認識に対応する誤り率を決定するように適合されたプロセッサ、および誤り率に基づいて、1つの語に対する1つのモデルまたは様々な語に対する様々なモデルの適合を調整するように適合されたコントローラである。

もう1つの手法では、音声認識システムによって発生する、考えられる誤りを識別するための方法は、ある信頼係数範囲内でシステムによって認識された語の事象を識別する段階を含む。手法は、ある信頼係数範囲内でシステムによって認識された語の事象を識別するように適合されたプロセッサを含む装置として実施することも可能である。

さらにもう1つの手法では、音声認識システムによって発生する、考えられる誤りを識別するための方法は、システムが第1の発話の第1の仮定を拒否し、その後、システムが第2の発話の第2の仮定を受け入れる事象を識別する段階を含み、第1および第2の仮定は実質的に語対語(word-to-word)で一致する。手法は、システムが第1の発話の第1の仮定を拒否し、その後、システムが第2の発話の第2の仮定を受け入れる事象を識別するように適合されたプロセッサを含む装置として実施することも可能であり、第1および第2の仮定は実質的に語対語で一致する。

さらにもう1つの手法では、音声認識システムによって発生する、考えられる誤りを識別するための方法は、システムが第1の発話の第1の仮定および第2の発話の第2の仮定を生成して、システムが第2の仮定を受け入れる場合を識別する段階を含み、2つの仮定は語対語で一致しないが、仮定は語対語で大部分一致する。手法は、システムが第1の発話の第1の仮定および第2の発話の第2の仮定を生成して、システムが第2の仮定を受け入れる場合を識別するように適合されたプロセッサを含む装置として実施することが可能であり、2つの仮定は語対語で一致しないが、仮定は語対語で大部分一致する。

もう1つの手法では、音声認識システムによって発生する、考えられる誤りを識別するための方法は、システムによって生成される仮定は期待される応答に語対語で一致しないが、仮定は期待される応答に語対語で大部分一致する場合を識別する段階を含む。手法は、システムによって生成される仮定が期待される応答に語対語で一致しないが、仮定は期待される応答に語対語で大部分一致する場合を識別するように適合されたプロセッサを含む装置として実施することが可能である。

さらにもう1つの手法では、音声認識システムにモデルを適合させるための方法は、ユーザがシステムにフィードバックを提供する場合の発生の計数を生成する段階を含む。方法は、計数に基づいてモデルの適合を調整する段階をさらに含みうる。手法は、以下のすべてまたはサブセットを含みうる装置として実施することが可能である。すなわち、ユーザがシステムにフィードバックを提供する場合の発生の計数を生成するように適合されたプロセッサ、および計数に基づいてモデルの適合を調整するコントローラである。

音声認識システムの例示的な実施形態
図1Aは、本発明の例示的な実施形態による、携帯用端末10およびヘッドセット16を使用するユーザの透視図を例示する。携帯用端末10は、示されるようにベルト14上など、ユーザ11によって着用されうる装着可能なデバイスでありうる。本明細書における用語「携帯用端末」の使用は限定的ではなく、特定の任務を実行するために使用される任意のコンピュータ、デバイス、機械、またはシステムを含みうる。携帯用端末10は、携帯用端末およびその他の関連する処理回路の動作を制御するためのプロセッサを含む、処理回路を含みうる。(処理回路は、本明細書で開示される1つまたは複数の例示的な実施形態の音声認識方法を実施することができる。)ヘッドセット16は、コード18によってまたは無線接続(図1Aで図示せず)によって携帯用端末に結合されることが可能であり、ヘッドセットはユーザ11の頭上に着用される。(もう1つの例示的な実施形態では、音声認識システムはヘッドセット16内に配置され、携帯用端末10を除去する。)ユーザは、ヘッドセット16内のマイクロフォンを介して口語で話すことができ、音声情報は携帯用端末10内の音声認識システムによって処理される。参照により本明細書に組み込まれている、「Apparatus and Method for Detecting User Speech」という表題の米国特許出願第10/671,142号は、かかるシステムを実施するためのさらなる詳細を提供する。本発明の例示的な実施形態に関する適用業務は、図1Aに示される倉庫環境および携帯用端末10に厳密に限定されない。例示的な実施形態が実施されうるその他の適用業務および環境は、本出願の背景技術の項で説明される。

図1Bは、本発明の例示的な実施形態による、音声認識システムの概略図を例示する。当業者は、本発明の特徴を含めて、音声認識システムの様々な機能ブロックは、様々な異なる技術を使用して実施することが可能である点を認識されよう。本発明は、様々な異なるハードウェア構成内およびソフトウェア構成内に実施することが可能である。本発明に関する1つの特定の適用業務は、音声指令される作業(voice-directed work)のために使用される携帯用端末内または装着可能な端末内である。しかし、その他の実装形態も同様に可能であり、本発明はかかる音声指令される作業の適用業務に限定されない。さらに、本発明の実施形態の様々な特徴を実施するために、音声認識ソフトウェアは修正されることが可能である。あるいは、本発明の態様に従って音声認識システムを修正するために別々のモジュールを利用することが可能である。

図1Bを参照すると、システム100では、システムユーザからなど、音声信号は様々な通常の方法で音声入力デバイス102によって捕捉されうる。通常、マイクロフォンまたはその他の電気音響デバイスは、ユーザからの音声入力を感知して、それを、次いで信号プロセッサ104に転送されるアナログ電圧信号103に変換する。従来知られているように、信号プロセッサ104は、アナログ音声入力103を解析のために別々の単位に分離されうるデジタル化データ流れ105に変換する、必要なアナログデジタル変換器、フィルタ、および等化回路および/またはソフトウェアを含む。あるいは、デバイス102からのこの音声データはデータ記憶デバイスから取り出されることが可能である。本明細書で議論されるように、システム100は適切なハードウェアおよび/またはソフトウェアによって実施されうる。したがって、図1Bに示されるブロックは、別々の回路を表示すること、またはその他の点で限定的であることが意味されず、むしろシステムの機能的な構成要素を示す。

特に、信号プロセッサ104は、作り出されたデジタルデータ流れを、そのそれぞれが特徴生成器106によって処理され、それにより、特徴(ベクトル、行列、またはそうでない場合、フレームの音声特徴を表す組織された1組の数)107を作成する一続きのタイムスライス、すなわちフレーム105に分割する。例示的な音声認識システムのさらなる説明は、その開示が参照により本明細書に完全に組み込まれている、「Speech Recognition System」という表題の米国特許第4,882,757号において提供される。この参照された特許は、音声を表すための線形予測符号化(Linear Predictive Coding)(LPC)係数を開示するが、その他の機能的に等しい方法も本発明の範囲内で企画される。

システム100内の適切な回路および/またはソフトウェアによって実施される音声認識探索アルゴリズム機能108は、入力デバイス102によって捕捉された音声入力に何の仮定を割り当てるかを決定することを試みる際に特徴107を解析する。当技術分野で知られているように、1つの認識アルゴリズムでは、認識探索108は音声入力102を認識するために、適切なモデルのライブラリ110から122を介して提供される確率モデルに依存する。ライブラリ110内のモデルのそれぞれは、1人のユーザに対してカスタマイズされてよく、または1組のユーザに対して一般的であってもよい。

動作中、(ビタビアルゴリズムを有する隠れマルコフモデル(Hidden Markov Models)またはテンプレートマッチングダイナミックタイムワーピング(template matching dynamic time warping)(DTW)もしくはニューラルネットワーク(neural networks)など、その他のモデル形成技術を使用して実施されうる)探索アルゴリズム108は、本質的に、デバイス102からの音声入力に最も一致する1つまたは複数の語を決定するために、生成器106内に生成された特徴107を音声の基準表現、すなわちライブラリ110内の音声モデルと比較する。この認識プロセスの一部は、探索アルゴリズム106からの一続きの特徴がライブラリ110内の最も近いモデルまたは最も一致するモデルとどの程度密接に一致するかを表示するために音声に関する信頼係数を割り当てることである。したがって、1つまたは複数の語彙項目からなる仮定および関連する信頼係数111は、しきい値の調整116および1つまたは複数の期待される応答114を入力として受け取ることも可能な受入れアルゴリズム112に関する。信頼係数が所定の受入れしきい値(または、仮定が期待される応答に一致する場合、調整されたしきい値)より高い場合、受入れアルゴリズム112は、認識された音声として仮定を受け入れる決定118を行う。しかし、信頼係数が受入れアルゴリズムによって利用される受入れしきい値より高くない場合、受入れアルゴリズム112は、認識された音声を無視または拒否する決定118を行う。システムは次いで、その音声を繰り返すようユーザにプロンプトを表示する(prompt)ことが可能である。この場合、ユーザは入力デバイス102に音声を繰り返すことができる。仮定および信頼係数111と、期待される応答114と、受入れアルゴリズムの決定118と、特徴107とは、モデル適合・制御モジュール117内に入力されることも可能である。(ハードウェアもしくはソフトウェアのコントローラまたは制御機構内で実施されうる)モデル適合・制御モジュール117は、モデルのライブラリ110の適合を制御する。

例示的な実施形態のモデル適合・制御モジュール
図2は、図1Bのモデル適合・制御モジュール117の例示的な実施形態実施である、モデル適合・制御モジュール200を例示する。(プロセッサ内で実施されうる)誤り率モジュール210は、音声認識システムの誤り率を決定または推定する。誤り率は、システムに入力された語数に対する音声認識誤りの割合すなわち率として定義されうる語の誤り率であってよく、誤り率は、時間(例えば、所定の時間の長さ)および/またはデータ(例えば、システムに入力された所定の数の発話)のウィンドウに対して決定または推定されうる。(発話は「1」または「1-2-3」など、少なくとも一語の口語句である。)さらに、誤り率は以下の方法で決定または推定することが可能である。すなわち、ユーザごとに; ユーザの数に対して; 語ごと; 1組の語に対して; 発話、句または文など、連続して話された語のグループごとである。さらに、モジュール210によって決定される誤り率は、本出願で後に議論されるように、システムの仮定を基準筆記録と比較することから決定される実際の誤りに基づくことが可能であり、またはシステム動作およびユーザ動作の評価後に発生したと判断される推定誤りに基づくことが可能である。したがって、誤り率の決定は誤り率の推定でもありうる。誤り率モジュール210への入力205は、特定の適用業務に関して使用される誤り率の決定または推定のために必要とされるそれらの入力である。この例示的な実施形態では、入力205は、その関連するタイミング情報を伴う(図1Bの111などの)仮定および信頼係数ならびに(図1Bの114などの)(1つまたは複数の)期待される応答である。誤り率モジュール210は、誤り率215を適合制御モジュール225に出力する。

適合制御モジュール225は、モデル適合モジュール235によるモデルの適合を制御または調整する。入力220は、特定の適用業務に関して所望されるモデル適合の制御のために必要とされるそれらの入力である。この例示的な実施形態では、入力220は仮定および(図1Bの107などの)特徴である。適合制御モジュール225は命令230をモデル適合モジュール235に出力する。この例示的な実施形態では、命令230は、(適合させる命令または適合を保留する命令を含めて)あるモデルまたは複数のモデルをいつ適合させるかの命令、(発話のトランスクリプションおよび発話に対応する、認識システムによって考察された特徴を含めて)モデルを適合させるためにどの発話を使用するかの命令を含みうる。制御命令230を提供することによって、適合制御モジュール225は、適合がいつ発生すべきかを制御して、適合が命令される前に満たされるべき基準を決定することができる。さらに、適合を続けるとすると、適合モジュールまたは適合制御モジュールは、既存のモデルを新しい特徴(または語の新しい例の特徴)だけを用いて作り出された新しいモデルに置き換えるかどうか、または既存のモデルは新しい特徴および既存のモデルの既存の特徴の両方からの情報を使用して正に適合されるかを決定することができる。モデル適合モジュール235は、適合されたモデル240をモデルの(図1Bの110などの)ライブラリに出力する。

システムが望まれない方法で適合させ、それにより、結果として、システムが適合に先立って行ったのよりも不十分に実行するようになること、またはシステムが経時的に劣化するようになることを防ぐことは有用であるため、かつ必要な場合には、リソースだけを使用することは非常に有用であるため、一実施形態では、(図2の225などの)適合制御モジュールは、(例えば、図2のモデル適合モジュール235によって)モデルの(適合させることまたは適合を保留することを含めて)適合を制御または調整するために(図2の215などの)誤り率を使用する。

モデル適合を制御するための例示的な実施形態の方法
図3は、本発明の例示的な実施形態による、モデル適合を制御または調整するための方法300を例示する流れ図である。この方法は、図1Bのモデル適合・制御モジュール117など、音声認識システムの構成要素によって実行される。305で、入力音声は、例えば、ユーザまたはユーザのセッションからの記録から音声認識システムによって受信される。310で、システムに入力された語に関して(図1Bの信号プロセッサ104、特徴生成器106および音声認識探索アルゴリズム108によって実行される入力音声の処理など)初期の音声処理が実行される。315で、1つの語の事例の認識または様々な語の事例の認識に対応する誤り率が決定または推定される。例えば、誤り率は、語「1」に関する認識誤り、語「1」、「2」および「3」に関する認識誤り、すべてのデジットに関する認識誤り、またはシステムの語彙内のすべての語に関する認識誤りに基づいてよい。誤り率は、システムに事前に入力された事例および現在入力された事例に基づいて更新された誤り率でありうる。320で、誤り率に基づいて、(図1Bのモデル適合・制御モジュール117の処理によってなど)1つの語に1つのモデルを適合させるかまたは様々な語に様々なモデルを適合させるかが決定される。例えば、語「1」に対する誤り率に基づいて語「1」にモデルを適合させることが決定されうる。もう1つの例では、デジットのすべてに対して組み合わされた誤り率に基づいて、デジットであるすべての語を適合させることが決定されうる。(1つまたは複数の)モデルが適合されるべきでないと決定された場合、次は305である。(1つまたは複数の)モデルが適合されるべきである場合、(1つまたは複数の)モデルが325で適合される。325が実行された後、制御は305に戻る。325でモデル適合は、制御を速やかに305に戻して、背景で実行されうる。すなわち、音声認識システムは、モデルが適合されている間に、引き続き音声を受信および処理することが可能である。

例示的な実施形態では、誤り率は、モデル適合を制御するために、誤り率のしきい値など、所定の基準と比較される。すなわち、例示的な実施形態は、誤り率のしきい値に対する誤り率の比較を行い、比較に基づいて、少なくとも1つのモデルを適合させるか、またはモデルを適合させることを保留する。例えば、誤り率215が特定の誤り率のしきい値未満である場合、(図2の225などの)適合制御モジュールは、誤り率の決定または推定に関連する(1つまたは複数の)モデルを適合させることを保留する命令をモデル適合モジュール235に提供する。適合させることを保留する命令の1つの理由は、誤り率が特定の誤り率のしきい値未満である場合、音声認識システムは十分実行しており、したがって、モデル適合は実行されるべきではないからである。誤り率が特定の誤り率のしきい値より高い場合、適合制御モジュールは、モデル適合を実行する命令をモデル適合モジュールに提供する。命令は、誤り率の決定または推定に関連するモデルに関してだけモデル適合を実行することを含みうる。

本発明の例示的な実施形態では、誤り率のしきい値は、所定の値、ユーザによって設定可能な値、もしくは動的値であってよく、または上方調整もしくは下方調整されてもよい。さらに、誤り率のしきい値は、音声認識システムの達成可能な誤り率に影響を与える係数およびシステムが使用される適用業務に関する受入れ可能な誤り率を決定するそれらの係数に基づいてよい。さらに、誤り率のしきい値は、音声認識システムに入力された発話内の語数(もしくは発話のシステムの仮定内の語数)に基づいてよく、(背景雑音レベルもしくは信号対雑音比など)環境係数に基づいてよく、音声認識システムの文法の混乱(perplexity)に基づいてよく、文法の複雑さまたは語彙内の語の混乱可能性、音声認識任務を実行することの困難さの任意のその他の測度に基づいてよく、あるいは音声認識システムの語彙内の語数に基づいてもよい。

誤り率の例示的な実施形態
本出願の全体にわたって、音声認識システムによって発生する、考えられる(または潜在的なもしくは疑われる)誤りの発生および誤り率を決定または推定するための(図2の誤り率モジュール210および図3の315によって実行されうる)様々な例示的な実施形態が存在する。誤り率は、図2の適合・制御モジュール225および図3の320によって適合を制御または調整するために使用されうる。誤り率は、本出願の背景技術の項で議論されたそれらの音声認識誤りおよび下で議論されるそれらの音声認識誤りなど、本出願において議論される様々な音声認識誤りの任意の1つまたは組合せに基づいてよい。例えば、誤り率はシステムに入力された語に対する挿入誤りの率でありうる。または例えば、誤り率は、システムに入力された語に対する挿入誤り率、置換誤り率および削除誤り率でありうる。または例えば、誤り率は、下で議論される、低い信頼率と置換率の組合せでありうる。下で議論される例示的な実施形態の誤り率は、システム動作、期待される応答および/またはユーザ動作の評価に基づいて発生したと判定される推定誤りに基づく。したがって、これらの推定誤り率は、システムに入力された語の基準筆記録と、システムに入力された語に対応する、システムの仮定の比較とを要求しない利点を提供する。

低い信頼率
本発明の例示的な実施形態では、音声認識システムによって発生する、考えられる誤りの発生の計数は、低い信頼率の推定または誤り率の推定を決定するために使用されうる。図4は、図2の誤り率モジュール210など、音声認識システムの構成要素によって実行されうる、誤りを識別するための方法400を例示する流れ図である。低い信頼率は、語が、システムがその語を正確に認識した低い信頼に対応する一定の範囲内の信頼係数を用いて認識される率である。すなわち、低い信頼率は、語が、音声認識システムが使用される適用業務に応じて、比較的低い信頼係数を用いて音声認識システムによって認識された頻度である。低い信頼率は、音声認識システムによる誤りを測定しないが、低い信頼率(またはその値の一部/倍数)は、誤り率(または誤り率の推定)が使用される場合、誤り率の推定に加えて、または誤り率の推定の代わりに使用されうる点に留意されたい。

図4では、405で、仮定された語に関する信頼係数が決定される。(この信頼係数は、図1Bの探索アルゴリズム108によって生成され、図2の誤り率モジュール210に供給されうる。)410で、信頼係数はシステムが、システムが使用される適用業務に関して語を正確に認識した低い信頼に対応する値の範囲と比較される。410で、信頼係数が低い信頼範囲外であることが決定された場合、制御は405に戻る。410で、信頼係数が低い信頼範囲内であることが決定された場合、誤り計数は415で増分される。415の後で、制御は405に戻る。415で誤り計数は、次いで、誤り率を生成するためにその他の誤りタイプの計数と組み合わされることが可能である。

低い信頼率を使用する例示的な実施形態は、語が、誤り率の推定に関する誤りを計算する際に、期待される応答に一致する、システムによって生成された仮定からのものであるかどうかも考慮する。(米国特許出願第11/051,825号、および本出願の背景技術の項は、ユーザからの期待される応答が音声認識システムによって処理されるシナリオを説明する。期待される応答は、システムが使用される適用業務の結果として、システムがユーザから受信することを期待する応答と定義されうる。)参照される特許出願における例示的な実施形態では、システムの受入れアルゴリズムは、通常、システムの仮定に関する信頼係数が受入れしきい値を超える場合だけ、その仮定が受け入れられることを要求する。しかし、システムの最も可能性のある仮定が期待される応答に一致する場合、仮定がシステムによって受け入れられることが可能であるように、仮定はより有利に処理される。比較的低い信頼係数にもかかわらず有利に処理される理由は、期待される応答に一致する仮定は、通常、正確な認識の高い確率を表示するからである。

誤り率が低い信頼率である本発明の例示的な実施形態を再び参照すると、期待される応答に一致し、かつシステムが使用される適用業務に関して比較的低い信頼係数を有する語は、誤り率の推定に関する誤りとして計算される。(参照された米国特許出願第11/051,825号で説明されたように、仮定が期待される応答に一致することにより、システムの仮定は正確に受け入れられたため)認識誤りは実際に発生していない可能性があるが、この例示的な実施形態では、比較的低い信頼を有する語は、比較的低い信頼係数により、誤り率の推定に関する誤りとして計算される。低い信頼として語が計算される信頼係数の範囲は、例えば、調整された受入れしきい値と調整されていない原受入れしきい値の間でありうる。より一般には、信頼係数しきい値または低い信頼誤りを計算するための範囲は、参照された特許出願では、受入れしきい値および調整された受入れしきい値に一致しなくてもよい。この範囲は、受入れしきい値より高く、低い信頼と高い信頼の間の境界を表示する高い信頼しきい値を含めて、2つのその他のしきい値の間でありうる。この例示的な実施形態では、低い信頼率に関して使用される信頼係数の範囲は、音声認識システムが使用される適用業務に基づいて決定される。

置換率
本発明の例示的な実施形態では、音声認識システムによって発生する、考えられる置換誤りの発生の計数は、置換率の推定または誤り率の推定を決定するために使用されうる。置換率は、(本出願の背景技術の項で定義される置換誤りなどの)置換誤りがシステムによって発生する率である。例示的な実施形態では、音声認識システムによって生成された仮定は、期待される応答と比較され、置換誤りは、システムが期待される応答内の語を仮定内の間違った語に置き換える場合に発生する。例えば、システムが「1-5-3」を認識し、期待される応答が「1-2-3」である場合、システムは1つの置換(すなわち、「2」を「5」に置換)を行ったと判断されるため、置換誤りが計算される。すなわち、仮定および期待される応答は語対語で一致しないが、大部分が一致する場合(すなわち、所定の数の語を除いて、仮定および期待される応答が一致する場合)、語の置換誤りが発生したというのは合理的な仮定である。(所定の数の語は適用業務に応じる。例えば、3つの語の仮定または発話を使用する適用業務は、「大部分が一致する」を、1つの語を除いて語対語で一致すると定義することができる。5つの語の仮定または発話を使用する適用業務は、「大部分が一致する」を、2つの語を除いて語対語で一致すると定義することができる。)

繰り返される発話
さらにその他の例示的な実施形態では、誤り率は、少なくとも2つの連続する発話または近接する発話のその仮定に関するシステムの決定を比較した後で実施された、音声認識システムによって発生する認識誤りに基づく。この決定は、音声認識システムが(図1Bの112で受入れアルゴリズムが実行された後、図1Bの118でなど)着信発話を処理した後で発生しうる。認識誤りは、例えば、その後、システムの応答または応答の欠如に応答して、ユーザが発話を繰り返す、着信発話のシステムの仮定を拒否することでありうる。または例えば、認識誤りは、音声認識システムの出力の際に、音声認識システムが正しく認識できない語をもう1つの語または「不要部分」の語に置き換えることでありうる。図5〜6は、これらのタイプの誤り率を推定するための例示的な実施形態の方法を示す。

拒否および繰返し
図5は、音声認識システムによって発生する、考えられる誤りの発生を識別するための例示的な実施形態の方法500を示す流れ図である。考えられる誤りの発生の計数は、誤り率の推定を決定するために使用されうる。方法500は、図2の誤り率モジュール210など、音声認識システムの構成要素によって実行されうる。この実施形態では、音声認識システムが誤ったかどうかの決定は、音声認識システムが少なくとも2つの連続する発話または近接する発話を受信した場合に行われる。システム動作およびユーザ動作は以下の通りである。すなわち、システムは第1の発話のその仮定を拒否し、ユーザは第2の発話内で第1の発話を繰り返し、システムは第2の発話のその仮定を受け入れる。システムによって生成された第1および第2の仮定は実質的に一致する。すなわち、仮定は語対語で一致するが、仮定はこの特定の誤り決定に関して無視しうると見なされる認識されたモデルも含みうる。例えば、仮定は、ユーザの息またはため息を表示する認識されたモデルを含んでよく、これらの認識されたモデルはこの特定の誤り決定に関して無視しうると見なされうる。しかし、システムが、ユーザが何を話したかの識別に困難を有することを表示する、(例えば、沈黙、不要部分の語またはワイルドカードの語を表示する、認識されたモデルなど)仮定内の認識されたモデルは無視しうると見なされない可能性がある。(認識されたモデルが無視しうるかどうかの決定は、特定の音声認識システムおよびそのシステムが使用される適用業務に応じる。)例は以下の通りである。すなわち、ユーザは第1の発話「1-2-3」を話し、システムはそれを正確に認識する(すなわち、「1-2-3」の仮定を生成する)が、低い信頼係数のため、その仮定を拒否し、ユーザは第2の発話内で「1-2-3」を繰返し、システムはそれを正確に認識して(すなわち、「1-2-3」の仮定を生成して)その仮定を受け入れる。このタイプの誤り検出機構の論理的根拠は、2つの一致する発話が連続して話され、システムが第2の発話のその仮定を受け入れる場合、システムは第1の発話のその仮定を受入れるべきだったのであり、システムはそうしなかったことで誤ったと合理的に仮定することができるというものである。この経験則は、あるいは、2つの発話が互いに所定の期間内に話されること、またはやはりそれらの発話が連続して話されることを要求することによってさらに精緻化されることを要求する可能性がある。

図5では、505で、第1および第2の発話に関して(図1Bの118でなど)音声認識システムによって行われる決定は、(図1Bの117などの)モデル適合・制御モジュールによる処理のために受信される。510で、検証が実行される。これらの検証は、以下の条件の1つまたは複数を含みうる。すなわち、それらの発話のシステムの仮定が複数の語を含むことを検証する条件、第2の発話のシステムの仮定がすべての受け入れられた語を含むことを検証する条件、第1の発話に関するシステムの仮定内に少なくとも1つの拒否された語が存在したことを検証する条件、および第2の仮定が(存在する場合)期待される応答に一致することを検証する条件である。515で、検証が合格した場合、次は520である。そうでない場合、制御は505に戻る。520で、第1および第2の仮定内の語が一致するかどうかを判断するために第1および第2の仮定内の語が語対語で比較される。例えば、第1の仮定が「1-2-3」であり、第2の仮定が「1-3-3」である場合、不一致が存在する。仮定が語対語で一致する場合、ユーザが同じことを繰り返し、システムが第2の発話を正確に認識したという推論により、間違った拒否誤りが発生した高い確率が存在する。仮定が語対語で一致する場合、次は525である。そうでない場合、制御は505に戻る。525で誤り計数は増分されて、制御は505に戻る。525で、誤り計数は、次いで、誤り率全体を生成するために、その他の誤りタイプの計数と組み合わされてよい。

置換および繰返し
図6は、音声認識システムによって発生する、考えられる誤りの発生を識別するための例示的な実施形態の方法600を示す流れ図である。考えられる誤りの発生の計数は、誤り率の推定を決定するために使用されうる。方法600は、図2の誤り率モジュール210など、音声認識システムの構成要素によって実行されうる。この実施形態では、音声認識システムが誤ったかどうかの決定は、音声認識システムが少なくとも2つの連続する発話または近接する発話を受信して、システムが第1の発話のその仮定内の語を置き換えて、第2の発話のその仮定内の語のすべてを認識して、受け入れる場合に行われる。例は以下の通りである。ユーザは第1の発話「1-2-3」を話し、システムはそれを誤認識して(すなわち、仮定「1-5-3」を生成して)その仮定を受け入れ、ユーザは第1の発話の近接範囲内の第2の発話内で「1-2-3」を繰り返し、システムはそれを正確に認識して(すなわち、仮定「1-2-3」を生成して)、その仮定を受け入れる。誤りを検出するこの方法の論理的根拠は、2つの発話が互いに連続してまたは互いに近接範囲内で話された場合、かつシステムが第2の発話のその仮定を受け入れる場合、システムは第1の発話のその仮定内で置換を行った可能性があるというものである。システムが単一の語だけ異なる連続する認識または近接する認識が実際には置換誤りを含んでいない場合、置換誤りを含むと見なすのを防ぐために使用されうる経験則が存在する。この経験則は、以下の考えられる条件のうちの1つまたは複数に関して検査することを含む。すなわち、第1の発話がシステムによって正確に認識されたことを表示する介入発話は存在しなかったという条件、比較されている2つの発話はシステム内に入力されている同じ一片の情報を表す(例えば、比較されている2つの発話はユーザと認識システムの間の対話において同じ場所でまたは同じプロンプトに応答して発生した)という条件、2つの発話は所定の期間内に話された、すなわち、言い換えれば、比較されている2つの発話の間の時間は、ユーザが初期の発話を繰り返していたことを表示するのに十分短かったという条件である。

図6では、605で、第1および第2の発話に関して(図1の118でなど)音声認識システムによって行われた決定は、(図1Bの117などの)モデル適合・制御モジュールによる処理のために受信される。610で、検証が実行される。これらの検証は、置換誤り率の推定の精度を改善し、以下を含みうる。すなわち、発話が互いに連続してまたは互いの近接範囲内で話されたことを検証すること、発話のシステムの仮定が複数の語を含むことを検証すること、発話のシステムの仮定がすべての受け入れられた語を含むことを検証すること、両方の場合ともユーザにはシステムによって同じ情報に関してプロンプトが表示されたことを検証すること、第1の仮定が(存在する場合)期待される応答に一致しないことを検証すること、第2の仮定が(存在する場合)期待される応答に一致することを検証すること、および(上で説明されたそれらの置換誤りなど)発生した置換誤りを表示する状態に関して検査することである。615で、第1および第2の発話のシステムの仮定内の語が一致するかどうかを判断するために第1および第2の発話のシステムの仮定内の語が語対語で比較される。仮定が語対語で一致しない場合、次は620である。そうでない場合、制御は605に戻る。620で、検証が合格する場合、次は625である。そうでない場合、制御は605に戻る。625で、第1および第2の発話のシステムの仮定内の語がどの程度密接に一致するかを判断するために第1および第2の発話のシステムの仮定の語が語対語で比較される。例えば、第1の仮定が「1-2-3」であり、第2の仮定が「1-5-3」である場合、1語の不一致が存在する。この場合、「2」は「5」に置き換えられた。仮定が語対語で一致しないが、大部分で一致する場合(例えば、仮定が1つの語を除いて一致する場合)、システムは置換誤りが発生したことを表示する少なくとも1つの条件に関して検査するなどの検証を実行し、ユーザは同じ発話を繰り返し、システムは第2の発話を正確に認識し、システムは第1の発話のその仮定において間違って語を置き換えたという推論により、語の置換誤りが発生したというのは合理的な結論である。(「大部分が一致する」の定義は適用業務に応じる。例えば、5つの語の仮定または発話を使用する適用業務は、「大部分が一致する」を2つの語を除いて語対語で一致すると定義することができる。)仮定が語対語で大部分一致する場合、次は、誤り計数が増分され、その後、制御が605に戻る630である。630の誤り計数は、次いで、誤り率全体を生成するためにその他の誤りタイプの計数と組み合わされてよい。

これまでの項内と同じ手法は、コンテンツである語がシステムによって第1の発話内で不要部分として認識され、次いで、次の発話内で正確に認識される、不要部分の誤りによる削除を検出するために使用されうる。2つの発話の認識結果を比較して、上で説明されたそれらの検証などの検証を使用することによって、誤りを検出することができる。例えば、第1の発話のシステムの仮定が「1-不要部分-3」であり、第2の発話のシステムの仮定が「1-5-3」である場合、1つの語の不一致が存在し、音声認識システムは第1の発話のその仮定において誤ったというのは合理的な仮定となる。この場合も、システムが正確な認識を誤りと見なすことを防ぐために上で説明されたのと類似の検証が使用されうる。

図6の議論において上で議論されたのと同じ手法は、拒否された置換誤りによる削除など、その他のタイプの誤りを検出するためにも使用されうる。拒否された置換誤りによる削除の例は以下の通りである。ユーザは第1の発話「1-2-3」を話し、システムはそれを認識する(すなわち、仮定「1-2-3」を生成する)が、システムはその仮定において「2」を拒否する。ユーザは、第1の発話の近接範囲内で第2の発話「1-5-3」を話し、システムはそれを認識して(すなわち、仮定「1-5-3」を生成して)、システムはその仮定を受け入れる。システムが第1の発話のその仮定において「2」を拒否した場合、システムは、拒否された置換誤りにより削除を行った。このタイプの誤りを検出するための方法は、第1の発話のシステムの仮定はすべての受け入れられた語を含まなくてよいという違いがあるが、図6の議論において説明された方法に類似する。

補正率
音声認識システムに関する例示的な実施形態では、ユーザがシステムにフィードバックを提供する場合の発生の計数は、誤り率の推定または誤り率の一部に関する推定として使用されうる。誤り率を推定するためまたは誤り率の一部を推定するためにかかる計数を使用する理由は、補正がシステムに命令される場合、システムは誤りが発生したことを表示する可能性があるからである。ユーザフィードバックの例は、本出願の背景技術の項で説明される。計数は、ユーザが、システムが誤ったことを表示する率を含みうる。さらに、ユーザは、システムによって生成された仮定を確認するようユーザに要求すること、または何の語がユーザによって話されたかを識別するようユーザに要求することなど、システムがフィードバックを要求することに応答してフィードバックを提供することが可能である。フィードバックはユーザによる立腹を表示する語を含んでよく、またはフィードバックは「バックアップ」もしくは「消去」など、システムに対する補正コマンドであってもよい。誤り率を決定または推定する際に、音声認識システムが使用される適用業務に関して有用な誤り率を決定または推定するために必要とされる期間およびデータが考慮されうる。1つの例示的な考慮事項は、誤り率は所定の期間に対して音声認識システムに入力された音声に関して決定または推定されるというものである。もう1つの例示的な考慮事項は、誤り率は所定の数の発話、語、または仮定に対して音声認識システムに入力された音声に関して決定または推定されるというものである。

誤り率の考慮事項
もう1つの例示的な考慮事項は、謝り率は移動ウィンドウもしくはスライディングウィンドウまたは期間および/もしくはデータのサイズで動的である収集期間に対して収集された発話の仮定から決定または推定されるというものである。結果として、誤り率は、有用なデータが収集されている期間にわたって決定または推定される。例えば、移動ウィンドウまたはスライディングウィンドウは、騒々しい環境および静かな環境のうちの1つの環境における音声認識システムによる任意の優遇(favoring)をオフセットするために、これらの環境内の等しい期間から取られたデータの収集物をカバーすることができる。移動ウィンドウ、スライディングウィンドウのその他の例は、音声認識システムの最近の使用(例えば、最後の30分)中にデータを収集するウィンドウ、(例えば、ユーザがシステムを開始して以来)特定のユーザによって費やされた時間に対してデータを収集するウィンドウ、またはデータ(例えば、最後の100仮定)を収集するのに費やされた時間にかかわらず一定のデータ量を収集するウィンドウである。

当業者は、本発明のその他の例示的な実施形態では、句の誤り率、発話の誤り率、および文の誤り率など、その他の誤り率が使用されうる点を理解されよう。例えば、発話の誤り率は、システムに入力された発話の数に対する音声認識誤りの割合すなわち率として定義することが可能であり、発話の誤り率はモデルの適合を制御または調整する際に使用されうる。

さらに、考えられる誤りを識別するための様々な方法が同じ仮定を処理することが可能であるが、いくつかの考えられる誤りは2つ以上の方法によって計算される場合があるため、二重計算を避けるための予防手段を講じなければならないことは当業者に明らかであろう。

モデル適合の例示的な実施形態
図7は、本発明の例示的な実施形態による、モデル適合のための方法700を例示する流れ図である。この方法は、図2のモデル適合モジュール235など、音声認識システムの構成要素によって実行されうる。例示的な実施形態では、方法700は(図2の225など)制御モジュールの制御の下で実行される。すなわち、方法700は制御モジュールからの命令に基づいて実行される。命令は、(適合させる命令または適合を保留する命令を含めて)あるモデルまたは複数のモデルをいつ適合させるか、ならびに、発話のトランスクリプションおよび発話に対応して音声認識システムによって考察された1組の特徴など、適合されることになる(1つまたは複数の)モデルに対応する情報を含みうる。

705で、入力発話に対応して音声認識システムによって考察された特徴は、発話の語に関するモデル内の状態と整合される。例示的な実施形態では、整合を実行するためにBaum-Welch再推定アルゴリズムが使用されうる。710で、状態の統計値(例えば、平均および分散)は特徴の値を使用して更新される。715で、これらの値は、これまでのトレーニングデータと新しい特徴の間でバランスを保つために、適切な重みを用いてモデルに混合される。したがって、本発明の例示的な実施形態では、新しいモデルは、既存のモデルまたは原モデルを適合させるために入力発話の考察された特徴を使用することによって適合を介して作り出される。そのシナリオでは、入力発話の考察された特徴および原モデルの既存の特徴の両方、ならびにそれぞれに関連する統計値が、新しいモデルを作り出すために使用される。加えて、かかるシナリオでは、新しい統計値は、モデル内の原統計値に対するその影響を調整するために、様々な形で重みづけされうる。本発明の代替の例示的な実施形態では、(語の新しい例の)新しく考察された特徴、およびそこからの情報だけが、新しいモデルを作り出すために利用される。すなわち、新しいモデルは新しい特徴だけを用いて作り出される。さらに、適合は、単一のユーザまたは複数のユーザからのデータを使用して実行されうる。1つの特定の実施形態では、個々のユーザからの音声データだけが、適合を実行するために使用されうる。これはそのユーザのために適合され、かつそのユーザにとって十分に実行するモデルを生成する。

図3〜7は、本発明の実施形態による方法を例示する流れ図を示す。これらの図において例示される技術は、順次に、平行して、または説明された順序以外の順序で実行することが可能である。説明された技術のすべてが実行されることは要求されず、追加の技術を加えることが可能であり、例示された技術のいくつかはその他の技術に置き換えることが可能である点を理解されたい。

本発明は、その様々な形態で、音声認識システムのソフトウェア内で直接的に実施されうる。すなわち、改善は実際に音声認識システムの一部である。あるいは、本発明は音声認識システム内に内蔵されなくてもよい。むしろ、本発明または本発明の一部は、本発明の利点を提供するために、音声認識システムと相互に作用する別々のモジュール内、プログラム内または適用業務内で実施することが可能である。例えば、別々の適用業務またはソフトウェアモジュールが本発明の原理に従って適合を処理するために利用されうる。具体的には、適用業務は、誤り率を決定または推定するためならびに/またはいつおよびどのようにモデルが適合されるかを制御するために、音声認識システムとインターフェースを取ることが可能である。

前述の説明で、本発明はその特定の例示的な実施形態を参照して説明された。明細書および図面は、したがって、限定的な意味ではなく、例示的な意味で考慮されるべきであり、特許請求の範囲をかかる詳細に制限することまたは任意の方法で限定することは出願人の意図ではない。しかし、本発明のより広い精神および範囲から逸脱せずに、追加の利点および修正がコンピュータプログラム製品もしくはコンピュータプログラムソフトウェア、ハードウェアまたはそれらの任意の組合せの中で行われることが可能であることは当業者に明らかであろう。ソフトウェア実施形態は、命令を有する機械アクセス可能な媒体上または機械可読媒体上の製品を含みうる。さらに、ソフトウェア実施形態は、ネットワークまたは電子メールを経由して分散またはダウンロードされうる。機械アクセス可能な媒体上または機械可読媒体上の命令は、例えば、PC、セル電話、産業用移動体コンピュータ、PDA、電子ヘッドセットまたは本明細書で開示される例示的な実施形態の方法もしくは手法を用いたその他の電子デバイスなどのコンピュータシステムをプログラムするために使用されうる。機械可読媒体は、不揮発性メモリ、フロッピーディスケット（登録商標）、光ディスク、CD-ROM、および光磁気ディスクまたは電子命令を記憶または送信するのに適したその他のタイプの媒体/機械可読媒体を含みうるが、これらに限定されない。さらに、本発明の精神および範囲から逸脱せずに、本発明が説明される適用業務から逸脱が行われうる。例えば、本明細書で説明される例示的な音声認識システムは、装着可能な端末に重点を置いた。しかし、本発明の原理は、その他の音声認識環境にも同じように適用可能である。

本発明の例示的な実施形態による、携帯用端末およびヘッドセットを使用したユーザの透視図である。本発明の例示的な実施形態による、音声認識システムの概略図である。本発明の例示的な実施形態による、音声認識システムの構成要素の概略図である。本発明の例示的な実施形態による、誤り率の決定または推定に基づいてモデル適合を制御するための方法を例示する流れ図である。本発明の例示的な実施形態による、誤り率を推定するための方法を例示する流れ図である。本発明の例示的な実施形態による、誤り率を推定するための方法を例示する流れ図である。本発明の例示的な実施形態による、誤り率を推定するための方法を例示する流れ図である。本発明の例示的な実施形態による、モデル適合のための方法を例示する流れ図である。

符号の説明

10 端末
11 ユーザ
14 ベルト
16 ヘッドセット
18 コード
100 システム
102 音声入力デバイス
103 アナログ電圧信号
104 信号プロセッサ
105 デジタル化データ流れ，フレーム
106 生成器
107 特徴
108 音声認識探索アルゴリズム機能
110 モデルのライブラリ
111 1つまたは複数の語彙項目からなる仮定および関連する信頼係数
112 受入れアルゴリズム
114 期待される応答
116 しきい値の調整
117 モデル適合・制御モジュール
118 決定
200 モデル適合・制御モジュール
205 入力
210 誤り率モジュール
215 誤り率
220 入力
225 適合制御モジュール
230 命令
235 モデル適合モジュール
240 適合されたモデル
300 方法
400 方法
500 方法
600 方法
700 方法

Claims

音声認識システムに対するモデル適合のための方法であって、
1組の語のうちの1つの語の認識または様々な語の認識に対応する誤り率を決定する段階と、
ここに、前記誤り率は、前記音声認識システムが用いられているときの該音声認識システムを評価することにより、かつ互いに時間的に近接する前記音声認識システムに入力されるユーザからの話された発話に対応するユーザ動作を評価することにより、推定される推定誤りの計数に基づいており、評価された発話は、前記音声認識システムによって拒否される第１の話された発話および前記音声認識システムによって次に受け入れられる時間的に近接する第２の話された発話を含み、
決定された前記誤り率に基づいて、前記音声認識システムにおける前記1つの語に対する1つのモデルまたは前記様々な語に対する様々なモデルの適合を調整する段階と
を含む方法。
適合を前記調整する段階が、前記誤り率に基づいて、前記1つのモデルもしくは前記様々なモデルを適合させる段階または前記1つのモデルもしくは前記様々なモデルを適合させることを保留する段階を含む、請求項1に記載の方法。
前記適合を前記調整する段階が、誤り率のしきい値に対して前記誤り率を比較する段階と、前記比較に基づいて、前記1つのモデルもしくは前記様々なモデルを適合させる段階または前記1つのモデルもしくは前記様々なモデルを適合させることを保留する段階を含む、請求項1に記載の方法。
前記適合を前記調整する段階が、前記誤り率が誤り率のしきい値を満たすまで、前記1つのモデルまたは前記様々なモデルを適合させることを保留する段階を含む、請求項1に記載の方法。
前記誤り率のしきい値が所定の値である、請求項３に記載の方法。
前記誤り率のしきい値がユーザによって設定可能な値である、請求項３に記載の方法。
前記誤り率のしきい値が動的な値である、請求項３に記載の方法。
前記誤り率のしきい値がユーザによって前記システムに入力された話された発話の仮定内の語数に基づく、請求項３に記載の方法。
前記誤り率のしきい値が、前記音声認識システムの環境の環境係数に基づく、請求項３に記載の方法。
前記誤り率のしきい値が前記語の前記認識の困難さの測度に基づく、請求項３に記載の方法。
音声認識システムの適合のための、前記音声認識システムによって発生する、誤りを識別するための方法であって、
前記音声認識システムが、ユーザからの第1の話された発話のために前記音声認識システムによって生成された第1の仮定を拒否し、その後、前記システムが、前記第１の発話と時間的に近接して提供されるユーザからの第2の話された発話のために前記システムによって生成された第2の仮定を受け入れる事例を識別する段階であって、前記第1および第2の仮定が実質的に語対語で一致する段階と、
誤りの計数を提供するために前記識別された事例の発生を計数し、前記音声認識システムを適合させるために前記計数を使用する段階と
を含む方法。
前記第1および第2の仮定が、前記第1および第2の仮定のうちの1つが、前記誤りを識別する目的で無視しうる、少なくとも1つの追加の認識されたモデルを含むことを除いて語対語で一致することによって、実質的に語対語で一致する、請求項１１に記載の方法。
前記誤りの発生の前記計数が、前記誤りに関連する1つの語に対する1つのモデルの適合を調整する際に使用される、請求項１１に記載の方法。
前記第1の仮定の信頼係数が受入れしきい値を超えないことにより、前記システムが前記第1の仮定を拒否する、請求項１１に記載の方法。
前記システムが前記第1の仮定内の少なくとも1つの語を拒否する、請求項１１に記載の方法。
前記第1および第2の発話が連続して、近接して、または互いの所定の期間内に話される、請求項１１に記載の方法。
音声認識システムの適合のための、前記音声認識システムによって発生する、誤りを識別するための方法であって、
前記音声認識システムがユーザからの2つの話された発話の第1および第2の仮定を生成し、前記システムが前記第2の仮定を受け入れる場合を識別する段階を含み、前記2つの仮定は語対語で一致しないが、前記仮定が語対語で大部分一致し、
誤りの計数を提供するために前記識別された事例の発生を計数し、前記音声認識システムを適合させるための前記計数を使用する段階を含む方法。
前記仮定が、所定の数の語を除いて語対語で一致することによって、語対語で大部分一致する、請求項１７に記載の方法。
前記誤りの発生の前記計数が、前記誤りに関連する1つの語に対する1つのモデルの適合を調整する際に使用される、請求項１７に記載の方法。
前記2つの発話が、連続して、近接して、または互いの所定の期間内に話される、請求項１７に記載の方法。
前記2つの発話のうちの前記第1の発話が前記システムによって正確に認識されたことを表示する話された介入発話が存在しない、請求項１７に記載の方法。
前記2つの仮定が、前記第2の仮定内の語が前記第1の仮定内の語に前記音声認識システムによって置き換えられるという点で異なる、請求項１７に記載の方法。
前記仮定が、前記第2の仮定内の語が前記第1の仮定内の不要部分に前記音声認識システムによって置き換えられるという点で異なる、請求項１７に記載の方法。
音声認識システムに対するモデル適合のための装置であって、
1組の語のうちの1つの語の認識または様々な語の認識に対応する誤り率を決定するように適合されたプロセッサであって、前記誤り率を、前記音声認識システムが用いられているときの前記音声認識システムを評価することによって、かつ前記システムによって拒否される第１の発話および次に前記システムによって受け入れられる近接する第２の発話を含む前記システムに入力されたユーザからの話された発話に対応するユーザ動作を評価することによって、推定される推定誤りの計数に基づかせるよう適合された前記プロセッサと、
決定された前記誤り率に基づいて、前記音声認識システムにおける前記1つの語に対する1つのモデルまたは前記様々な語に対する様々なモデルの適合を調整するように適合されたコントローラと
を含む装置。
前記コントローラが、前記誤り率に基づいて、前記1つのモデルもしくは前記様々なモデルを適合させるまたは前記1つのモデルもしくは前記様々なモデルを適合させることを保留することによって適合を調整する、請求項２４に記載の装置。
前記コントローラが、
誤り率のしきい値に対して前記誤り率の比較を行うことと、
前記比較に基づいて、前記1つのモデルもしくは前記様々なモデルを適合させることまたは前記1つのモデルもしくは前記様々なモデルを適合させることを保留することと
によって前記適合を調整する、請求項２４に記載の装置。
前記コントローラが、
前記誤り率が誤り率のしきい値を満たすまで、前記1つのモデルまたは前記様々なモデルを適合させることを保留することによって前記適合を調整する、請求項２４に記載の装置。
前記誤り率のしきい値が所定の値である、請求項２４に記載の装置。
前記誤り率のしきい値がユーザによって設定可能な値である、請求項２４に記載の装置。
前記誤り率のしきい値が動的な値である、請求項２４に記載の装置。
前記誤り率のしきい値が前記システムに入力された話された発話の仮定内の語数に基づく、請求項２４に記載の装置。
前記誤り率のしきい値が、前記音声認識システムの環境の環境係数に基づく、請求項２４に記載の装置。
前記誤り率のしきい値が前記語の前記認識の困難さの測度に基づく、請求項２４に記載の装置。
音声認識システムの適合のための、前記音声認識システムによって発生する誤りを識別するための装置であって、
前記音声認識システムが、ユーザからの話された第1の発話のための前記音声認識システムによって生成される第1の仮定を拒否し、その後、前記システムが、前記第１の発話と時間的に近接して提供されるユーザからの第2の発話のための前記音声認識システムによって生成される第2の仮定を受け入れる事例を識別するように適合されたプロセッサであって、前記第1および第2の仮定が実質的に語対語で一致する、前記プロセッサを含み、
前記プロセッサは、さらに、誤りの計数を提供するために前記識別された事例の発生を計数し、かつ前記音声認識システムを適合させるための前記計数を使用するよう、適合されている装置。
前記第1および第2の仮定が、前記第1および第2の仮定のうちの1つが前記考えられる誤りを識別する目的で無視しうる、少なくとも1つの追加の認識されたモデルを含むことを除いて語対語に一致することによって、実質的に語対語で一致する、請求項３４に記載の装置。
前記誤りの発生の計数が、前記誤りに関連する語に対するモデルの適合を調整する際に使用される、請求項３４に記載の装置。
前記第1の仮定の信頼係数が受入れしきい値を超えないことにより、前記システムが前記第1の仮定を拒否する、請求項３４に記載の装置。
前記システムが前記第1の仮定内の少なくとも1つの語を拒否する、請求項３４に記載の装置。
前記第1および第2の発話が連続して、近接して、または互いに所定の期間内に話される、請求項３４に記載の装置。
音声認識システムの適合のための、前記音声認識システムによって発生する誤りを識別するための装置であって、
前記音声認識システムが、ユーザからの話された2つの発話の第1および第2の仮定を生成し、前記システムが前記第2の仮定を受け入れる場合を識別するように適合されたプロセッサを含み、前記2つの仮定は語対語で一致しないが、前記仮定が語対語で大部分一致し、
前記プロセッサは、さらに、誤りの計数を提供するために前記識別された事例の発生を計数し、かつ前記音声認識システムを適合させるための前記計数を使用するよう、適合されている装置。
前記仮定が、所定の数の語を除いて語対語で一致することによって、語対語で大部分一致する、請求項４０に記載の装置。
前記考えられる誤りの発生の計数が、前記誤りに関連する語に対するモデルの適合を調整する際に使用される、請求項４０に記載の装置。
前記2つの発話が、連続して、近接して、または互いに所定の期間内に話される、請求項４０に記載の装置。
前記2つの発話のうちの前記第1の発話が前記システムによって正確に認識されたことを表示する話された介入発話が存在しない、請求項４０に記載の装置。
前記2つの仮定が、前記第2の仮定内の語が前記第1の仮定内の語に前記音声認識システムによって置き換えられるという点で異なる、請求項４０に記載の装置。
前記仮定が、前記第2の仮定内の語が前記第1の仮定内の不要部分に前記音声認識システムによって置き換えられるという点で異なる、請求項４０に記載の装置。
音声認識システムの適合のための、前記音声認識システムに関する誤り率を推定するための方法であって、
前記音声認識システムがユーザによる話される第1の発話を拒否し、その後、ユーザが話される第2の発話内で前記第1の発話を繰返し、その後、前記システムが前記第2の発話を受け入れる誤り率を推定する段階と、
前記誤り率を使用し、そして前記誤り率に関連する前記音声認識システムにおけるモデルを適合させるかどうかを決定する段階と、
を含む方法。
前記第1の発話に対して生成される前記音声認識システムの仮定の信頼係数が受入れしきい値を超えないことにより、前記システムが前記第1の発話を拒否する、請求項４７に記載の方法。
前記システムが前記第1の発話内の少なくとも1つの語を拒否する、請求項４７に記載の方法。
前記第1および第2の発話が互いに所定の期間内に話される、請求項４７に記載の方法。
前記第1および第2の発話が連続してまたは近接して話される、請求項４７に記載の方法。
音声認識システムの適合のための、前記音声認識システムに関する誤り率を推定するための方法であって、
前記音声認識システムが、ユーザによる話された第1の発話を、生成された前記音声認識システムの仮定内の語に置き換え、その後、ユーザが話された第2の発話内で前記第1の発話を繰り返し、その後、前記システムが前記第2の発話を認識して、受け入れる誤り率を推定する段階と、
前記誤り率を使用し、そして前記語に関連する前記音声認識システムにおけるモデルを適合させるかどうかを決定する段階と、
を含む方法。
前記第1および第2の発話が連続してまたは近接して話される、請求項５２に記載の方法。
前記第1の発話が前記システムによって正確に認識されたことを表示する介入発話が存在しない、請求項５２に記載の方法。
前記第1および第2の発話が、前記システムに入力されている同じ一片の情報を表す、請求項５２に記載の方法。
前記第1および第2の発話が互いに所定の期間内に話された、請求項５２に記載の方法。
前記システムが前記第1の発話内の前記語をもう1つの語に置き換える、請求項５２に記載の方法。
前記システムが前記第1の発話内の前記語を不要部分に置き換える、請求項５２に記載の方法。
音声認識システムの適合のための、前記音声認識システムに関する誤り率を推定するための装置であって、
前記音声認識システムが話された第1の発話を拒否し、その後、ユーザが話された第2の発話内で前記第1の発話を繰り返し、その後、前記システムが前記第2の発話を受け入れる誤り率を推定するように適合されたプロセッサを含み、前記プロセッサは、さらに、前記誤り率を使用し、そして前記誤り率に関連する前記音声認識システムにおけるモデルを適合させるかどうかを決定するよう適合されている装置。
前記システムが、前記第1の発話に対して生成される前記音声認識システムの仮定の信頼係数が受入れしきい値を超えないことにより、前記第1の発話を拒否する、請求項５９に記載の装置。
前記システムが前記第1の発話内の少なくとも1つの語を拒否する、請求項５９に記載の装置。
前記第1および第2の発話が互いに所定の期間内に話される、請求項５９に記載の装置。
前記第1および第2の発話が連続してまたは近接して話される、請求項５９に記載の装置。
音声認識システムの適合のための、前記音声認識システムに関する誤り率を推定するための装置であって、
前記音声認識システムが、ユーザによる話された第1の発話を、生成される前記音声認識システムの仮定内の語に置き換え、その後、ユーザが話された第2の発話内で前記第1の発話を繰り返し、その後、前記システムが前記第2の発話を認識して、受け入れる誤り率を推定するように適合されたプロセッサを含み、前記プロセッサは、さらに、前記誤り率を使用し、そして前記語に関連する前記音声認識システムにおけるモデルを適合させるかどうかを決定するよう適合されている装置。
前記第1および第2の発話が連続してまたは近接して話される、請求項６４に記載の装置。
前記第1の発話が前記システムによって正確に認識されたことを表示する介入発話が存在しない、請求項６４に記載の装置。
前記第1および第2の発話が、前記システムに入力されている同じ一片の情報を表す、請求項６４に記載の装置。
前記第1および第2の発話が互いに所定の期間内に話された、請求項６４に記載の装置。
前記システムが前記第1の発話内の前記語をもう1つの語に置き換える、請求項６４に記載の装置。
前記システムが前記第1の発話内の前記語を不要部分に置き換える、請求項６４に記載の装置。