JP4570176B2

JP4570176B2 - ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム

Info

Publication number: JP4570176B2
Application number: JP54305198A
Authority: JP
Inventors: ファン，シュードン・ディー; ロザク，マイケル・ジェイ; ジャング，リ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1997-04-10
Filing date: 1998-04-08
Publication date: 2010-10-27
Anticipated expiration: 2018-04-08
Also published as: DE69842190D1; CN1604187A; WO1998045834A1; DE69834553D1; US5933804A; EP0974141B1; EP1693827A2; CN1280782C; JP2002511154A; CN1196105C; EP1693827B1; CN1264468A; DE69834553T2; EP0974141A1; EP1693827A3

Description

技術分野
本発明は、一般的に、データ処理システムに関し、更に特定すれば、ユーザにオーディオ・フィードバックを与える拡張可能音声認識システムに関するものである。
発明の背景
音声認識システムは、コンピュータ・システムに入力した音声の少なくとも選択した部分を、コンピュータが理解することを可能にする。一般に、音声認識システムは、入力した音声を、容易に認識し作業が可能なセグメントに解析する。例えば、入力音声を音素（phoneme）に解析し、これを更に処理して、音声の内容を認識する。典型的に、音声認識システムは、入力音声における単語を認識する際、入力音声内の単語の発音を、音声認識システムが記憶するパターン即ちテンプレートと比較する。テンプレートを生成するには、単語の音素表現、および音素に対する文脈依存テンプレートを用いる。多くの音声認識システムは辞書を含み、音声認識システムが認識する用語の発音をこの辞書が指定する。
音声認識システムを用いる分野の１つに、口述システム（dictation system）がある。口述システムは、入力音声をテキストに変換する。このような口述システムでは、音声認識システムを用いて入力音声内の単語を識別し、口述システムは、識別した単語に対応するテキスト出力を生成する。しかしながら、これらの口述システムは、あるユーザからの音声入力を誤認識する度合いが高い場合が多い。このような口述システムにおいて用いる音声認識システムは、各単語に１つ以上の発音を有するが、単語の発音は静的であり、音声認識システムが聴取すると予想する発音を表わす。音声認識システムが予想する発音とは異なるものを、ユーザがある単語に用いた場合、音声認識システムは多くの場合そのユーザの入力を認識し損なう。この欠点は、１つの用語に多数の適正な発音があり、音声認識システムの辞書に網羅されていない発音の１つをユーザが用いた場合、ユーザを特に煩らわせる可能性がある。
このような読み取りシステムの別の欠点として、これらは拡張可能でないこと（即ち、ユーザが新しい用語を辞書に追加することができない）、あるいは新たな用語の追加は認めるが、ユーザに発音（複数の発音）を知らせることなく、システム自体で新たな用語の発音を生成することがあげられる。このようなシステムは、文字／音対応発見法（letter-to-sound heuristics）を用いて、新たに追加した用語の発音を推測する。しかしながら、このような発見法では、多くの場合正しい結果が得られない。大抵、ユーザが新たな用語を追加して読み取りシステムにおいて用いる辞書を拡張しようとする場合、ユーザは発音を与えることなく新たな用語を入力し、音声認識システムがその新しい用語の発音を生成する。この新しい発音は、正しくない可能性があり、あるいはユーザが予期する単語の発音に対応しない可能性がある。その結果、新たに追加した用語を用いた音声入力、または新たに追加した用語を含む音声入力に対する誤認識の度合いが非常に高くなる場合が多い。
発明の概要
前述の従来技術の限界は、本発明によって克服する。本発明の第１の態様によれば、話者からの音声入力を認識するコンピュータ実装音声認識システム（computer-implemented speech recognition system）によって、１つの方法を実現する。この方法によれば、テキスト−音声機構を備え、テキストの発声形態を形成する。このテキスト−音声機構を利用して、所与の単語の発声形態を生成し、オーディオ出力装置上に、所与の単語の発声形態を出力することにより、音声認識システムが所与の単語に対して予想する発音を、音声認識システムのユーザが把握するようにする。テキスト−音声機構は、所与の単語に対する発音を生成する。この発音は、音声認識システムがこの所与の単語に対して予想する発音入力に対応する。即ち、テキスト−音声機構は、同じ文字／音対応コンポーネントを、所与の音声認識システムと共用することができるので、テキスト−音声機構が生成する所与の単語の発声形態の発音は、音声認識システムが予想する発音入力と同一である。
本発明の他の態様によれば、口述システムが認識する単語に対する発音のリストを備える。リストに記憶してありそこから選択した単語の現在の発音を新たな発音に変更する要求を、ユーザから受け取る。要求は、新たな発音を指定する。要求に応答して、リスト内に選択単語に対して記憶してある発音を、現在の発音から新たな発音に変更する。
本発明の別の態様によれば、コンピュータ実装音声認識システムによって、１つの方法を実行する。音声認識システムが認識する用語の辞書を備え、音声認識システムが各単語に対して予想する発音を、この辞書が指定する。辞書に新たな用語を追加する要求をユーザから受け取り、この新たな用語に対する発音を、音声認識システムによって生成する。テキスト−音声機構を用いて、新たな用語の発音をオーディオ出力装置上に出力し（音声認識システムが新たな用語に対して予想する発音を入力として）、新たな用語および生成した発音を辞書に追加する。
本発明の更に他の態様によれば、選択した用語に対して、多数の発音を音声認識システムの辞書に記憶する。選択した用語に対する発音の各々を、オーディオ出力装置上に出力するので、ユーザはその発音を聞くことができる。ユーザが発音の１つを選択することに応答して、音声認識システムがこの選択した発音を用いて音声を認識する。
本発明の他の態様によれば、各用語毎に複数の発音を有する用語の辞書を備える。発音は、音声認識システムが予想する用語の発音に対応する。話者がこれらの用語から選択した１つを発声し、音声認識システムがこの選択した用語を認識する多数の場合において、選択した用語に対してユーザが用いた特定の発音を判定する。この反復判定に基づいて、システムは、代替発音から、選択した用語に対してユーザが使用する可能性が最も高いものを識別し、辞書を更新して、その発音を、音声認識システムが予想する発音として指定する。
本発明の別の態様によれば、所与の発音を有する用語の発声形態を、話者から受け取る。この用語に対する予想発音を与える。予想発音は、話者がその用語を発声すると音声認識システムが予想するものに対応する。この用語の発声形態の所与の発音を予想発音と比較し、相違度を判定する。相違度が容認可能な所定のスレシホルドを超過した場合、出力装置に出力を発生し、相違度がスレシホルドを超過したことを話者に知らせる。出力は、テキスト−音声機構が生成する用語の予想発音を含むことも可能である。
本発明の追加的な態様によれば、コンピュータ実装音声認識システムが、話者が発声した音声を認識する。所与の単語に対して、予想発音を与える。予想発音は、音声認識システムが予想する、話者の所与の単語に対する発音を構成する。話者が発声した所与の単語を音声認識システムが誤認識する頻度に関する統計を集計する。所与の単語がスレシホルド値を越えて頻繁に誤認識されることを統計が示す場合、出力を表示装置上に発生することにより、所与の単語の予想発音を訂正するようにユーザに促す。
【図面の簡単な説明】
本発明の好適な実施形態について、これより更に詳細に以下の図面に関して説明する。
図１は、本発明の好適な実施形態を実現するのに適したコンピュータ・システムのブロック図である。
図２は、音声認識システムのコンポーネントを示すブロック図である。
図３は、辞書の一部の例を示す図である。
図４は、ユーザに辞書における用語の発音を変更させる際に実行するステップを示すフローチャートである。
図５Ａないし図５Ｄは、ユーザに辞書の用語の発音を改変（alter）させるために備えた、ユーザ・インターフェース・エレメントを示す。
図６は、辞書に新たな単語を追加する際に実行するステップを示すフローチャートである。
図７Ａないし図７Ｄは、ユーザに新たな用語を所与の発音と共に辞書に追加させるために備えた、ユーザ・インターフェースのエレメントを示す。
図８は、双方向ユーザ入力なく、辞書内に記憶してある発音を改変する際に実行するステップを示すフローチャートである。
好適な実施形態の詳細な説明
本発明の好適な実施形態は、ユーザにオーディオ・フィードバックを与える、拡張可能な音声認識システムを提供する。したがって、音声認識システムが用いる辞書にユーザが単語または用語を追加しようとするとき、ユーザにオーディオ・フィードバックを与え、システムがその単語をどのように発音すべきと捕らえたかを確認する。次いで、ユーザはこの発音を受け入れるか、あるいは発音を変更するように要求することができる。代替案の１つでは、ユーザは、単語をどのように発音すべきかを綴ることによって、単語の発音を指定する。別の代替案では、システムは、単語に対する代替発音のリストをユーザに提示し、ユーザは単語を選択する。
本発明の好適な実施形態では、現在辞書内にある単語のいずれについても、ユーザはその発音を変更することができる。加えて、本発明の好適な実施形態では、辞書内にある単語に現在指定してある発音を、ユーザは聞くことができる。ユーザは、発音を聞き、次いで望むのであれば、その発音を代替発音に変更することができる。その結果、ユーザは、音声認識システムが達成する用語認識レベルを格段に高めることができる。
別の代替案では、音声認識システムが用いる辞書を、システムによって自動的かつ透過的に更新する。システムは、発音データの本体（corpus）を処理し、辞書内の用語に対し代替発音を得る。ユーザがある用語を発声し、その用語が適正に認識されたなら、システムは、ユーザが代わりの発音のどれを発声したのかを識別する。固定数の適正な認識および比較の後、システムは、ユーザが発声している発音の確信度を得て、辞書を変更し（観察したエントリ内の変更を、観察していない他のエントリに系統的に伝搬させることを含み、その発音を利用して、システムが実現する認識度を高める。
以下では、口述システムに関して、本発明の好適な実施形態の説明を行う。この口述システムでは、ユーザは、マイクロフォンのような、オーディオ入力装置に向かって発声し、発声テキスト（spoken text）を入力する。口述システムは、発声テキストを認識し、文書の一部として対応するテキストを生成する。当業者は、口述システム以外の分野（context）でも本発明は実現可能であることを認めよう。本発明は、より一般的に音声認識システムに当てはまるものである。
図１は、本発明の好適な実施形態を実現するのに適したコンピュータ・システムのブロック図である。コンピュータ・システム１０は、中央演算システム（ＣＰＵ）１２を含み、これが一次メモリ１４および二次記憶装置１６にアクセスすることができる。二次記憶装置１６は、ＣＤ−ＲＯＭドライブのように、コンピュータ読み取り可能媒体（例えば、ＣＤ−ＲＯＭ）上に記憶してある情報を読み取り可能な、着脱自在の媒体ドライブを含むことができる。また、コンピュータ・システム１０は、多数の周辺装置も含む。これらの周辺装置には、例えば、キーボード１８、マウス２０，ビデオ・ディスプレイ２２，オーディオ・ラウド・スピーカ２４、およびマイクロフォン２６を含むことができる。加えて、コンピュータ・システムは、モデム２８、サウンド・カード２９、およびコンピュータ・システムがネットワーク３２とインターフェースすることを可能にするネットワーク・アダプタ３０を含むこともできる。メモリ１４は、口述システム３４のプログラム命令およびデータを保持する。命令をＣＰＵ１２上で走らせ、本発明の好適な実施形態を実現する。口述システム３４は、ワード・プロセッシング・プログラムやメッセージ発生プログラム（messaging program）のようなアプリケーション・プログラム３５が用いることも可能である。口述システムは音声認識システム３６を含む。
図１に示すコンピュータ・システムの構成は、本発明の限定ではなく、単なる例示として意図していることを、当業者は認めよう。本発明は、多プロセッサ・システムや分散型システムを含む、別のコンピュータ・システム構成とでも実現可能である。以下では、説明の目的上、本発明の好適な実施形態が実行するステップは、口述システム３４または音声認識システム３６の指揮によるものと仮定する。
本発明の好適な実施形態を実現するのに適した音声認識システムは、本願と同じ譲受人に譲渡し、１９９６年５月１日に出願した、“Method and System for Speech Recognition Using Continuous Density Hidden Markov Models”（連続密度隠れマルコフ・モデルを用いた音声認識方法およびシステム）と題する同時係属中の出願である、米国特許出願第０８／６５５，２７３号に記載されている。図２は、本発明の好適な実施形態の説明には特に関係が深い、音声認識システム３６のコンポーネントを示す。音声認識システム３６は、辞書４２および文字／音対応規則（letter-to-sound rules）４６を利用する音声認識エンジン４０を含む。辞書は、音声認識エンジン４０が認識する用語、および関連する発音のリストを保持する。図３は、辞書４２の一部の例を示す。辞書４２内の各エントリは、関連する用語を識別するためのフィールド５０、および用語の発音を指定するためのフィールド５５２を含む。図３は、用語“Add”（追加する）に対するエントリの一例を示す。この用語のアイデンティティは、フィールド５４内に保持してあり、用語の発音はフィールド５６に保持してある。用語の発音は、音素に関して指定する。
音声認識システム３６は、テキストを発声出力に変換する、テキスト−音声エンジン４４も含むことができる。テキスト−音声エンジン４４は、辞書４２、およびテキスト文字を対応する音に変換する文字／音対応規則４６にアクセスすることができる。テキスト−音声エンジン４４は、最初にディレクトリ４２を用いて発音を突き止め、次いで、処理する単語が辞書にない場合、文字／音対応規則４６の使用に頼る。テキスト−音声エンジン４４は、音声認識システムの一部である必要はなく、むしろ別個の音声合成ユニットの一部とするとよいことを、当業者は認めよう。しかしながら、以下の説明の目的上、テキスト−音声エンジン４４は、音声認識システム３６の一部であると仮定する。適切なテキスト−音声システムは、本願と同じ譲受人に譲渡し、１９９６年４月３０日に出願した、“Method and System of Run Time Acoustic Unit Selection for Speech Synthesis”（音声合成用実行時音響単位選択方法およびシステム）と題する係属中の米国特許出願第０８／６４８，８０８号において論じられている。更に、音声認識エンジン４０およびテキスト−音声エンジンは、それら自体の辞書および文字／音対応規則をそれぞれ有する場合もあり得ることを、当業者は認めよう。
図４は、辞書４２内部に記憶してある用語の発音をユーザに変更させる際に、音声認識システム３６が実行するステップを示すフローチャートである。最初に、ユーザは、所与の単語の発音を聞かせるように要求する（図４のステップ６０）。次に、ユーザは、発音を聞きたい用語を確認する（図４のステップ６２）。図５Ａは、ユーザが単語の発音を聞くための要求を行った時に表示する、ユーザ・インターフェース・エレメント７８の一例を示す。ユーザ・インターフェース・エレメント７８は、発声した単語に対する代替選択肢のリスト８０を含む。図５Ａに示す例では、単語はアルファベット順に編成してある。ユーザは、リスト８０全体を移動させて、所望の単語を選択する。図５Ａに示す例では、ユーザは単語“orange”（みかん）を既に選択してあり、これが選択ボックス８２内に現れている。次に、ユーザは、ボタン８４を活性化することによって、選択した単語の発音を聞くことができる（図４のステップ６４）。ボタン８４を活性化するのに適した手段は、ボタン８４上にマウスのカーソル８５を置き、マウスのカーソルがボタン８４を指し示す間に、マウスのボタンをクリックすることである。
ユーザは、単語の発音を聞き、発音が正しいか否かについて判断することができる。出力する発音は、音声認識システム３６が利用するデフォルトの発音である。ユーザがその発音を受け入れる場合（図４のステップ６６参照）、ユーザは「ＯＫ」ボタン８６を活性化すればよい。一方、ユーザがその発音に満足しない場合（図４のステップ６６参照）、ユーザは「Ｃｈａｎｇｅ」（変更）ボタン８７を活性化すればよい。このようにして、ユーザは、選択した用語の発音変更を要求する（図４のステップ６８）。
次に、ユーザは、選択した用語に対する新たな発音を確認する（図４のステップ６８）。図５Ｂは、第１の代替案を示す。この場合、システムは、先の用語に対して多数の代替発音を提示し、ユーザはこれらの発音の１つを選択する。即ち、図５Ｂに示すように、ユーザ・インターフェース・エレメント８８を提示し、リスト９０内に掲示してある発音から１つの発音を選択するように、ユーザに求める。ユーザは、「Ｃａｎｃｅｌ」（取消）ボタン９４を活性化することによって発音変更プロセスを取り止めることができ、あるいはリスト内の発音から１つを選択し、「ＯＫ」ボタン９２を叩いて、選択した発音をその用語に対する新たなデフォルト発音として受け入れることができる。
用語に対する代替発音を生成する方法には多数あり得ることを、当業者は認めよう。システムは、本体を処理し、辞書内部に記憶する各用語毎に多数の発音を生成しておくことも可能である。あるいは、システムは、各用語毎に、異なる発音を採用する多数のテンプレートを備えることも可能である。更にまた、ユーザが音声認識システム３６に入力した異なる発音から、経験的に多数の発音を得ることも可能である。
第２の代替案を図５Ｃに示す。第２の代替案では、システムは代替発音を与えず、代わりにユーザが代替発音を入力する。ユーザ・インターフェース・エレメント９６は、図５Ｃに示すように表示し、ユーザはテキスト・ボックス９８に新たな発音の綴りを入力する。ユーザは、発音の音素を入力する必要はなく、その代わりに、単語の所望の発音を捕らえた一連の文字（即ち、テキスト・ストリング）を入力すればよい。例えば、ユーザが“orange”という単語の発音を綴りたい場合、ユーザは、ストリング“orng”を入力すればよい。すると、ユーザは、ボタン１００を活性化することによって、テキスト・ボックス９８に入力したストリングをシステムがどのように解釈するか、聞くことができる。音声認識システム３６は、文字／音対応規則および辞書を用いて、テキスト・ボックス９８に入力したテキスト・ストリングを処理する。ユーザが、その用語に得られた発音の出力に満足した場合、ユーザは、「ＯＫ」ボタン１０２を活性化すればよい。ユーザが発音を変更したくない場合、ユーザは「Ｃａｎｃｅｌ」ボタン１０４を活性化すればよい。ユーザが、出力した発音に満足しないが、他の発音を入力してみたい場合、ユーザはテキスト・ボックス９８内に代替発音をタイプ入力し、処理を繰り返す。
当業者は、他の代替案も使用可能であることを認めよう。例えば、（第１の代替案におけるように）発音を選択可能なストリングとしてユーザに表示せずに、ボタンのような特定のユーザ・インターフェース・エレメントに関連付け、ユーザがこれを活性化して代替発音を聞くようにしてもよい。図５Ｄは、ボタン９３を表示し、各ボタンを活性化すると別個の発音に対するオーディオ出力を生成することができる例を示す。
ユーザが受け入れ可能な新たな発音を確認した後（即ち、図４のステップ６８）、システムは、それに応じて辞書を更新しなければならない。具体的には、システムは、辞書内の当該用語の発音を、ユーザが気に入り新たに確認した発音と置き換える（図４のステップ７０）。また、システムは、特定の用語の変更を、他の用語に系統的に伝搬することも可能である。例えば、ユーザが“what”を“HH W AHT”と発音する場合、“wh”で始まる全ての単語（例えば、“where”および“which”）に変更を伝搬することができる。代替実施形態では、辞書は多数の発音を保持し、１つの発音をデフォルト発音として有するとよいことを、当業者は認めよう。このような代替実施形態では、発音の変更は、単に、音声認識システム３６が利用するデフォルト発音における変更に過ぎない。
本発明の好適な実施形態の音声認識システムは、新たな用語を辞書に追加できるという点で拡張可能である。図６は、ユーザが新たな用語を辞書に追加したい場合に実行するステップを示すフローチャートである。最初に、ユーザは、新たな用語を辞書に追加するよう要求する（図６のステップ１１０）。図７Ａは、ユーザに用語を辞書４２に追加させるために口述システム３４が備えるとよい、１つのユーザ・インターフェース機構の一例を示す。図７Ａは、口述システム３４を利用するアプリケーション・プログラムのウインドウ２６を示す。ウインドウ１２６は、メニュー・バー１３２を含み、この上に編集メニュー・ヘッダ１３４が含まれている。ユーザがマウスのカーソルを編集メニュー・ヘッダ１３４上に配置し、マウスのボタンを押すと、新たな用語を辞書に追加するためのメニュー項目１３８を含むメニュー１３６を表示する。ユーザは、項目１３８を指し示すにマウスのカーソルを位置付け、マウスのボタンを上げ、その項目上でクリックすることにより、項目１３８を選択することができる。音声認識システム３６を用いる口述システム３４は、ユーザがマイクロフォン２６に向かって発声した入力を解釈することによってテキスト１２６を生成し、ウインドウ１２６がこのテキスト１２６を保持する。現カーソル位置１３０を図７Ａに示す。
ユーザがメニュー項目入力１３８を選択した後、図７Ｂに示すようなダイアログ・ボックス１４０を表示する。このダイアログ・ボックス１４０は、ユーザが辞書に追加したい用語のテキストを入力するように、ユーザに求める。ダイアログ・ボックス１４０内にテキスト・ボックス１４２を表示する。ユーザがテキストを入力した後、ユーザは、「ＯＫ」ボタン１４４を押すことによって新たな用語を追加するプロセスを継続することができ、あるいは「Ｃａｎｃｅｌ」ボタン１４６を押すことによって、このプロセスを終了することもできる。こうして、ユーザは、辞書に追加する用語のテキストを与える（図６のステップ１１２）。口述システム３４は、このテキストを音声認識システム３６上に渡す。音声認識システムは、このテキストを辞書４２および文字／音対応規則４６に供給し、この新しい用語に対する発音を生成する（図６のステップ１１４）。その結果得られた発音を、オーディオ・ラウド・スピーカ２４を通じてユーザに出力し（図６のステップ１１６）、ユーザは、音声認識システム３６がその用語に対して予想する発音を確認することができる。次に、図７Ｃに示すようなユーザ・インターフェース・エレメント１５０を表示することにより、ユーザはこの発音を受け入れるかあるいは拒絶することができる。図７Ｃに示す例では、ユーザ・インターフェース・エレメント１５０は、ユーザに、新たな用語の発音を受け入れるか否か尋ねる。ユーザ・インターフェース・エレメント１５０は、発音を受け入れるための「Ｙｅｓ」ボタン１５２、発音を拒絶するための「Ｎｏ」ボタン１５４、および新たな用語の発音に対するオーディオ出力を生成するためのオーディオ出力ボタン１５３を含む。これらのボタンを活性化することによって、ユーザは、テキスト−音声エンジン４４が生成した発音を受け入れるかあるいは拒絶する（図６のステップ１１８）。
ユーザが発音を受け入れる場合、その用語および関連する発音を辞書４２に追加する（図６のステップ１２０）。関連する発音は、今後その用語が発声された場合に、それを認識するために用いる。しかしながら、ユーザが発音を受け入れない場合、システムはユーザに発音を促す（図６のステップ１２２）。音声認識システム１３６は、辞書４２および文字／音対応規則４６が生成した発音がユーザには受け入れ不可能であったことを認め、したがって、その単語に対する発音の表現を生成するように、ユーザに求める。音声認識システム３６は、図７Ｄに示すようなダイアログ・ボックス１６０を表示し、新たな用語に対する発音を入力するようにユーザに要求する。ダイアログ・ボックス１６０は、テキスト・ボックス１６２を含み、ユーザはこの中に、新たな用語をどのように発声すべきかを綴りで示すテキスト・ストリングを入力すればよい。ユーザがテキスト・ボックス１６２にテキストを入力した後、ユーザはボタン１６４を活性化し、テキスト・ボックスに入力したテキストをシステムがどのように解釈するのか、聞くことができる。具体的には、システムは、テキスト・ボックス１６２に入力した発音の音声表現を発声し、ラウド・スピーカ２４を通じて出力する。一旦ユーザがテキスト・ストリングを入力し受け入れ可能な発音が得られたなら、ユーザは、「ＯＫ」ボタン１６６を活性化することによって、発音を変更することができる。また、ユーザは、「Ｃａｎｃｅｌ」ボタン１６８を活性化することによって、発音の変更を取り消すことも可能である。概略的に、システムは、ユーザに発音を促し（ステップ１２２）、ユーザが入力した発音を受け取り（ステップ１２４）、得られた発音をユーザが受け入れるまで、ユーザから受け取った発音を出力する。あるいは、システムは、現行の発音を、ユーザが入力し新たに追加した発音と比較し、十分に近似する場合、ユーザに再度受け入れまたは拒絶を促さないようにすることも可能である。
また、システムは、明示的なユーザの要求がなくても、辞書４２内に記憶してある発音を透過的に更新することができる。この機構は、辞書４２内の用語の発音を更新する、前述のユーザ始動の手法とは独立して利用することも、この手法と共に利用することも可能である。最初に、システムに発音データの本体を供給し、システムは、分類または回帰ツリー（「ＣＡＲＴ」：classification and regression tree）アルゴリズムのようなアルゴリズムを適用し、関連する用語に対する代替発音を得る（図８のステップ１７０）。ＣＡＥＲアルゴリズムは、当技術分野では公知であり、Breiman et al.（ブレーマンその他）のClassification and Regression Trees（分類および回帰ツリー）（１９８４年）を含む多数の刊行物に記載されている。他の発見法を適用しても発音を得ることは可能であることを当業者は認めよう。得られた代替発音は、その後の使用のために記憶しておく。ユーザがある用語を発声し、その用語を認識する場合、システムは、どのようにユーザがその用語を発声したかを、当該用語について記憶してある代替発音と比較する（図８のステップ１７２）。このプロセスは、ユーザが用いている代替発音がどれであるかを精度高く識別できシステムに信頼性が得られるようになる（図８のステップ１７４）まで繰り返す（図８のステップ１７２）。例えば、システムは、代替発音の１つに対して所望のヒット数を受け取って初めて、当該発音をユーザが使用しているものとして識別する十分な信頼性レベルに達したと見なすことを要件とすることができる。次いで、音声認識システム３６は、ユーザが好む発音（即ち、ユーザが用いている発音としてシステムが識別した発音）を用いるように辞書４２を変更する（図８のステップ１７６）。
以上、本発明をその好適な実施形態を参照しながら説明したが、添付した請求の範囲に規定してある本発明の意図する範囲から逸脱することなく、形態および詳細において種々の変更が可能であることを当業者は認めよう。
本発明は、好適な実施形態を参照しながら説明したが、本発明の精神および範囲から逸脱することなく、形態および詳細において変更が可能であることを、当業者は認識しよう。

Claims

話者からの音声入力を認識し、コンピュータ装置、オーディオ出力装置、ポインティング装置、表示装置および複数の単語、および当該複数の単語の音声データを有するリストを記憶した記憶装置を含み、入力の音声から認識された単語を前記リストを使用して前記オーディオ出力装置から出力することが可能な、音声認識システムにおいて、前記リストを更新するための方法において、
前記リストの中の１つの単語についての複数組の音声データを前記表示装置の表示画面に表示するステップと、
当該表示された複数組の音声データの中の音声データを前記ポインティング装置により選択するステップと
を含み、当該選択された音声データは出力されるべきデフォルトとして前記コンピュータにより取り扱われることを特徴とする方法。
請求項１に記載の方法において、前記表示装置は、前記ポインティング装置により音声データを選択するためのグラフィカルユーザインターフェースを表示することを特徴とする方法。
請求項１に記載の方法において、前記複数組の音声データの各々は前記単語の発音を示す文字列の形態で表示されることを特徴とする方法。
請求項１に記載の方法において、前記リストにおいてデフォルトとして以前に設定された音声データを前記選択するステップの前に前記オーディオ出力装置から出力するステップをさらに含むことを特徴とする方法。
請求項１に記載の方法において、前記音声認識システムはさらに入力装置を有し、
前記入力装置により、前記単語に対応する、前記リストに追加すべき音声データを入力するステップと、
当該入力された音声データを前記オーディオ出力装置から出力するステップと、
前記入力装置により、更新の要求を入力するステップと、
該要求に応答して前記リストの中の音声データを当該入力された音声データで、前記コンピュータ装置により更新するステップと
をさらに含むことを特徴とする方法。
請求項５に記載の方法において、前記入力装置は前記表示装置の表示画面に表示されるグラフィカルユーザインターフェースを通じて前記要求を入力することを特徴とする方法。
話者からの音声入力を認識し、コンピュータ装置、オーディオ出力装置、ポインティング装置、表示装置および複数の単語、および当該複数の単語の音声データを有するリストを記憶した記憶装置を含み、入力の音声から認識された単語を前記リストを使用して前記オーディオ出力装置から出力することが可能な、音声認識システムにおいて、前記リストを更新するための方法において、
前記リストの中の１つの単語に対する複数組の代替えの音声データを前記コンピュータ装置により生成するステップと、
前記音声認識において、前記コンピュータ装置により、音声認識すべき音声データと当該生成された複数組の代替えの音声データとを比較し、当該生成された複数組の代替えの音声データについて一致のヒット数を計数するステップと、
予め定めたレベルを最初にヒット数が超えた代替えの音声データで前記リストの中の単語を前記コンピュータ装置により更新するステップと
を含むことを特徴とする方法。
請求項７に記載の方法において、前記コンピュータ装置は複数組の代替えの音声データをＣＡＲＴアルゴリズムを適用して生成することを特徴とする方法。
話者からの音声入力を認識し、コンピュータ装置、オーディオ出力装置、ポインティング装置、表示装置および複数の単語、および当該複数の単語の音声データを有するリストを記憶した記憶装置を含み、入力の音声から認識された単語を前記リストを使用して前記オーディオ出力装置から出力することが可能な音声認識システムのためのプログラムを記録した記録媒体において、前記プログラムは前記コンピュータ装置を、
前記リストの中の１つの単語についての複数組の音声データを前記表示装置の表示画面に表示させる手段と、
当該表示された複数組の音声データの中の前記ポインティング装置により選択された音声データを受け取る手段と
して動作させ、当該選択された音声データは出力されるべきデフォルトとして前記コンピュータにより取り扱われることを特徴とする記録媒体。
話者からの音声入力を認識し、コンピュータ装置、オーディオ出力装置、ポインティング装置、表示装置および複数の単語、および当該複数の単語の音声データを有するリストを記憶した記憶装置を含み、入力の音声から認識された単語を前記リストを使用して前記オーディオ出力装置から出力することが可能な音声認識システムのためのプログラムを記録した記録媒体において、前記プログラムは前記コンピュータ装置を、
前記リストの中の１つの単語に対する複数組の代替えの音声データを生成する手段と、
前記音声認識において、音声認識すべき音声データと当該生成された複数組の代替えの音声データとを比較し、当該生成された複数組の代替えの音声データについて一致のヒット数を計数する手段と、
予め定めたレベルを最初にヒット数が超えた代替えの音声データで前記リストの中の単語を更新する手段として動作させることを特徴とする記録媒体。