JP4570176B2 - ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム - Google Patents
ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム Download PDFInfo
- Publication number
- JP4570176B2 JP4570176B2 JP54305198A JP54305198A JP4570176B2 JP 4570176 B2 JP4570176 B2 JP 4570176B2 JP 54305198 A JP54305198 A JP 54305198A JP 54305198 A JP54305198 A JP 54305198A JP 4570176 B2 JP4570176 B2 JP 4570176B2
- Authority
- JP
- Japan
- Prior art keywords
- list
- pronunciation
- user
- data
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Description
本発明は、一般的に、データ処理システムに関し、更に特定すれば、ユーザにオーディオ・フィードバックを与える拡張可能音声認識システムに関するものである。
発明の背景
音声認識システムは、コンピュータ・システムに入力した音声の少なくとも選択した部分を、コンピュータが理解することを可能にする。一般に、音声認識システムは、入力した音声を、容易に認識し作業が可能なセグメントに解析する。例えば、入力音声を音素(phoneme)に解析し、これを更に処理して、音声の内容を認識する。典型的に、音声認識システムは、入力音声における単語を認識する際、入力音声内の単語の発音を、音声認識システムが記憶するパターン即ちテンプレートと比較する。テンプレートを生成するには、単語の音素表現、および音素に対する文脈依存テンプレートを用いる。多くの音声認識システムは辞書を含み、音声認識システムが認識する用語の発音をこの辞書が指定する。
音声認識システムを用いる分野の1つに、口述システム(dictation system)がある。口述システムは、入力音声をテキストに変換する。このような口述システムでは、音声認識システムを用いて入力音声内の単語を識別し、口述システムは、識別した単語に対応するテキスト出力を生成する。しかしながら、これらの口述システムは、あるユーザからの音声入力を誤認識する度合いが高い場合が多い。このような口述システムにおいて用いる音声認識システムは、各単語に1つ以上の発音を有するが、単語の発音は静的であり、音声認識システムが聴取すると予想する発音を表わす。音声認識システムが予想する発音とは異なるものを、ユーザがある単語に用いた場合、音声認識システムは多くの場合そのユーザの入力を認識し損なう。この欠点は、1つの用語に多数の適正な発音があり、音声認識システムの辞書に網羅されていない発音の1つをユーザが用いた場合、ユーザを特に煩らわせる可能性がある。
このような読み取りシステムの別の欠点として、これらは拡張可能でないこと(即ち、ユーザが新しい用語を辞書に追加することができない)、あるいは新たな用語の追加は認めるが、ユーザに発音(複数の発音)を知らせることなく、システム自体で新たな用語の発音を生成することがあげられる。このようなシステムは、文字/音対応発見法(letter-to-sound heuristics)を用いて、新たに追加した用語の発音を推測する。しかしながら、このような発見法では、多くの場合正しい結果が得られない。大抵、ユーザが新たな用語を追加して読み取りシステムにおいて用いる辞書を拡張しようとする場合、ユーザは発音を与えることなく新たな用語を入力し、音声認識システムがその新しい用語の発音を生成する。この新しい発音は、正しくない可能性があり、あるいはユーザが予期する単語の発音に対応しない可能性がある。その結果、新たに追加した用語を用いた音声入力、または新たに追加した用語を含む音声入力に対する誤認識の度合いが非常に高くなる場合が多い。
発明の概要
前述の従来技術の限界は、本発明によって克服する。本発明の第1の態様によれば、話者からの音声入力を認識するコンピュータ実装音声認識システム(computer-implemented speech recognition system)によって、1つの方法を実現する。この方法によれば、テキスト−音声機構を備え、テキストの発声形態を形成する。このテキスト−音声機構を利用して、所与の単語の発声形態を生成し、オーディオ出力装置上に、所与の単語の発声形態を出力することにより、音声認識システムが所与の単語に対して予想する発音を、音声認識システムのユーザが把握するようにする。テキスト−音声機構は、所与の単語に対する発音を生成する。この発音は、音声認識システムがこの所与の単語に対して予想する発音入力に対応する。即ち、テキスト−音声機構は、同じ文字/音対応コンポーネントを、所与の音声認識システムと共用することができるので、テキスト−音声機構が生成する所与の単語の発声形態の発音は、音声認識システムが予想する発音入力と同一である。
本発明の他の態様によれば、口述システムが認識する単語に対する発音のリストを備える。リストに記憶してありそこから選択した単語の現在の発音を新たな発音に変更する要求を、ユーザから受け取る。要求は、新たな発音を指定する。要求に応答して、リスト内に選択単語に対して記憶してある発音を、現在の発音から新たな発音に変更する。
本発明の別の態様によれば、コンピュータ実装音声認識システムによって、1つの方法を実行する。音声認識システムが認識する用語の辞書を備え、音声認識システムが各単語に対して予想する発音を、この辞書が指定する。辞書に新たな用語を追加する要求をユーザから受け取り、この新たな用語に対する発音を、音声認識システムによって生成する。テキスト−音声機構を用いて、新たな用語の発音をオーディオ出力装置上に出力し(音声認識システムが新たな用語に対して予想する発音を入力として)、新たな用語および生成した発音を辞書に追加する。
本発明の更に他の態様によれば、選択した用語に対して、多数の発音を音声認識システムの辞書に記憶する。選択した用語に対する発音の各々を、オーディオ出力装置上に出力するので、ユーザはその発音を聞くことができる。ユーザが発音の1つを選択することに応答して、音声認識システムがこの選択した発音を用いて音声を認識する。
本発明の他の態様によれば、各用語毎に複数の発音を有する用語の辞書を備える。発音は、音声認識システムが予想する用語の発音に対応する。話者がこれらの用語から選択した1つを発声し、音声認識システムがこの選択した用語を認識する多数の場合において、選択した用語に対してユーザが用いた特定の発音を判定する。この反復判定に基づいて、システムは、代替発音から、選択した用語に対してユーザが使用する可能性が最も高いものを識別し、辞書を更新して、その発音を、音声認識システムが予想する発音として指定する。
本発明の別の態様によれば、所与の発音を有する用語の発声形態を、話者から受け取る。この用語に対する予想発音を与える。予想発音は、話者がその用語を発声すると音声認識システムが予想するものに対応する。この用語の発声形態の所与の発音を予想発音と比較し、相違度を判定する。相違度が容認可能な所定のスレシホルドを超過した場合、出力装置に出力を発生し、相違度がスレシホルドを超過したことを話者に知らせる。出力は、テキスト−音声機構が生成する用語の予想発音を含むことも可能である。
本発明の追加的な態様によれば、コンピュータ実装音声認識システムが、話者が発声した音声を認識する。所与の単語に対して、予想発音を与える。予想発音は、音声認識システムが予想する、話者の所与の単語に対する発音を構成する。話者が発声した所与の単語を音声認識システムが誤認識する頻度に関する統計を集計する。所与の単語がスレシホルド値を越えて頻繁に誤認識されることを統計が示す場合、出力を表示装置上に発生することにより、所与の単語の予想発音を訂正するようにユーザに促す。
【図面の簡単な説明】
本発明の好適な実施形態について、これより更に詳細に以下の図面に関して説明する。
図1は、本発明の好適な実施形態を実現するのに適したコンピュータ・システムのブロック図である。
図2は、音声認識システムのコンポーネントを示すブロック図である。
図3は、辞書の一部の例を示す図である。
図4は、ユーザに辞書における用語の発音を変更させる際に実行するステップを示すフローチャートである。
図5Aないし図5Dは、ユーザに辞書の用語の発音を改変(alter)させるために備えた、ユーザ・インターフェース・エレメントを示す。
図6は、辞書に新たな単語を追加する際に実行するステップを示すフローチャートである。
図7Aないし図7Dは、ユーザに新たな用語を所与の発音と共に辞書に追加させるために備えた、ユーザ・インターフェースのエレメントを示す。
図8は、双方向ユーザ入力なく、辞書内に記憶してある発音を改変する際に実行するステップを示すフローチャートである。
好適な実施形態の詳細な説明
本発明の好適な実施形態は、ユーザにオーディオ・フィードバックを与える、拡張可能な音声認識システムを提供する。したがって、音声認識システムが用いる辞書にユーザが単語または用語を追加しようとするとき、ユーザにオーディオ・フィードバックを与え、システムがその単語をどのように発音すべきと捕らえたかを確認する。次いで、ユーザはこの発音を受け入れるか、あるいは発音を変更するように要求することができる。代替案の1つでは、ユーザは、単語をどのように発音すべきかを綴ることによって、単語の発音を指定する。別の代替案では、システムは、単語に対する代替発音のリストをユーザに提示し、ユーザは単語を選択する。
本発明の好適な実施形態では、現在辞書内にある単語のいずれについても、ユーザはその発音を変更することができる。加えて、本発明の好適な実施形態では、辞書内にある単語に現在指定してある発音を、ユーザは聞くことができる。ユーザは、発音を聞き、次いで望むのであれば、その発音を代替発音に変更することができる。その結果、ユーザは、音声認識システムが達成する用語認識レベルを格段に高めることができる。
別の代替案では、音声認識システムが用いる辞書を、システムによって自動的かつ透過的に更新する。システムは、発音データの本体(corpus)を処理し、辞書内の用語に対し代替発音を得る。ユーザがある用語を発声し、その用語が適正に認識されたなら、システムは、ユーザが代わりの発音のどれを発声したのかを識別する。固定数の適正な認識および比較の後、システムは、ユーザが発声している発音の確信度を得て、辞書を変更し(観察したエントリ内の変更を、観察していない他のエントリに系統的に伝搬させることを含み、その発音を利用して、システムが実現する認識度を高める。
以下では、口述システムに関して、本発明の好適な実施形態の説明を行う。この口述システムでは、ユーザは、マイクロフォンのような、オーディオ入力装置に向かって発声し、発声テキスト(spoken text)を入力する。口述システムは、発声テキストを認識し、文書の一部として対応するテキストを生成する。当業者は、口述システム以外の分野(context)でも本発明は実現可能であることを認めよう。本発明は、より一般的に音声認識システムに当てはまるものである。
図1は、本発明の好適な実施形態を実現するのに適したコンピュータ・システムのブロック図である。コンピュータ・システム10は、中央演算システム(CPU)12を含み、これが一次メモリ14および二次記憶装置16にアクセスすることができる。二次記憶装置16は、CD−ROMドライブのように、コンピュータ読み取り可能媒体(例えば、CD−ROM)上に記憶してある情報を読み取り可能な、着脱自在の媒体ドライブを含むことができる。また、コンピュータ・システム10は、多数の周辺装置も含む。これらの周辺装置には、例えば、キーボード18、マウス20,ビデオ・ディスプレイ22,オーディオ・ラウド・スピーカ24、およびマイクロフォン26を含むことができる。加えて、コンピュータ・システムは、モデム28、サウンド・カード29、およびコンピュータ・システムがネットワーク32とインターフェースすることを可能にするネットワーク・アダプタ30を含むこともできる。メモリ14は、口述システム34のプログラム命令およびデータを保持する。命令をCPU12上で走らせ、本発明の好適な実施形態を実現する。口述システム34は、ワード・プロセッシング・プログラムやメッセージ発生プログラム(messaging program)のようなアプリケーション・プログラム35が用いることも可能である。口述システムは音声認識システム36を含む。
図1に示すコンピュータ・システムの構成は、本発明の限定ではなく、単なる例示として意図していることを、当業者は認めよう。本発明は、多プロセッサ・システムや分散型システムを含む、別のコンピュータ・システム構成とでも実現可能である。以下では、説明の目的上、本発明の好適な実施形態が実行するステップは、口述システム34または音声認識システム36の指揮によるものと仮定する。
本発明の好適な実施形態を実現するのに適した音声認識システムは、本願と同じ譲受人に譲渡し、1996年5月1日に出願した、“Method and System for Speech Recognition Using Continuous Density Hidden Markov Models”(連続密度隠れマルコフ・モデルを用いた音声認識方法およびシステム)と題する同時係属中の出願である、米国特許出願第08/655,273号に記載されている。図2は、本発明の好適な実施形態の説明には特に関係が深い、音声認識システム36のコンポーネントを示す。音声認識システム36は、辞書42および文字/音対応規則(letter-to-sound rules)46を利用する音声認識エンジン40を含む。辞書は、音声認識エンジン40が認識する用語、および関連する発音のリストを保持する。図3は、辞書42の一部の例を示す。辞書42内の各エントリは、関連する用語を識別するためのフィールド50、および用語の発音を指定するためのフィールド552を含む。図3は、用語“Add”(追加する)に対するエントリの一例を示す。この用語のアイデンティティは、フィールド54内に保持してあり、用語の発音はフィールド56に保持してある。用語の発音は、音素に関して指定する。
音声認識システム36は、テキストを発声出力に変換する、テキスト−音声エンジン44も含むことができる。テキスト−音声エンジン44は、辞書42、およびテキスト文字を対応する音に変換する文字/音対応規則46にアクセスすることができる。テキスト−音声エンジン44は、最初にディレクトリ42を用いて発音を突き止め、次いで、処理する単語が辞書にない場合、文字/音対応規則46の使用に頼る。テキスト−音声エンジン44は、音声認識システムの一部である必要はなく、むしろ別個の音声合成ユニットの一部とするとよいことを、当業者は認めよう。しかしながら、以下の説明の目的上、テキスト−音声エンジン44は、音声認識システム36の一部であると仮定する。適切なテキスト−音声システムは、本願と同じ譲受人に譲渡し、1996年4月30日に出願した、“Method and System of Run Time Acoustic Unit Selection for Speech Synthesis”(音声合成用実行時音響単位選択方法およびシステム)と題する係属中の米国特許出願第08/648,808号において論じられている。更に、音声認識エンジン40およびテキスト−音声エンジンは、それら自体の辞書および文字/音対応規則をそれぞれ有する場合もあり得ることを、当業者は認めよう。
図4は、辞書42内部に記憶してある用語の発音をユーザに変更させる際に、音声認識システム36が実行するステップを示すフローチャートである。最初に、ユーザは、所与の単語の発音を聞かせるように要求する(図4のステップ60)。次に、ユーザは、発音を聞きたい用語を確認する(図4のステップ62)。図5Aは、ユーザが単語の発音を聞くための要求を行った時に表示する、ユーザ・インターフェース・エレメント78の一例を示す。ユーザ・インターフェース・エレメント78は、発声した単語に対する代替選択肢のリスト80を含む。図5Aに示す例では、単語はアルファベット順に編成してある。ユーザは、リスト80全体を移動させて、所望の単語を選択する。図5Aに示す例では、ユーザは単語“orange”(みかん)を既に選択してあり、これが選択ボックス82内に現れている。次に、ユーザは、ボタン84を活性化することによって、選択した単語の発音を聞くことができる(図4のステップ64)。ボタン84を活性化するのに適した手段は、ボタン84上にマウスのカーソル85を置き、マウスのカーソルがボタン84を指し示す間に、マウスのボタンをクリックすることである。
ユーザは、単語の発音を聞き、発音が正しいか否かについて判断することができる。出力する発音は、音声認識システム36が利用するデフォルトの発音である。ユーザがその発音を受け入れる場合(図4のステップ66参照)、ユーザは「OK」ボタン86を活性化すればよい。一方、ユーザがその発音に満足しない場合(図4のステップ66参照)、ユーザは「Change」(変更)ボタン87を活性化すればよい。このようにして、ユーザは、選択した用語の発音変更を要求する(図4のステップ68)。
次に、ユーザは、選択した用語に対する新たな発音を確認する(図4のステップ68)。図5Bは、第1の代替案を示す。この場合、システムは、先の用語に対して多数の代替発音を提示し、ユーザはこれらの発音の1つを選択する。即ち、図5Bに示すように、ユーザ・インターフェース・エレメント88を提示し、リスト90内に掲示してある発音から1つの発音を選択するように、ユーザに求める。ユーザは、「Cancel」(取消)ボタン94を活性化することによって発音変更プロセスを取り止めることができ、あるいはリスト内の発音から1つを選択し、「OK」ボタン92を叩いて、選択した発音をその用語に対する新たなデフォルト発音として受け入れることができる。
用語に対する代替発音を生成する方法には多数あり得ることを、当業者は認めよう。システムは、本体を処理し、辞書内部に記憶する各用語毎に多数の発音を生成しておくことも可能である。あるいは、システムは、各用語毎に、異なる発音を採用する多数のテンプレートを備えることも可能である。更にまた、ユーザが音声認識システム36に入力した異なる発音から、経験的に多数の発音を得ることも可能である。
第2の代替案を図5Cに示す。第2の代替案では、システムは代替発音を与えず、代わりにユーザが代替発音を入力する。ユーザ・インターフェース・エレメント96は、図5Cに示すように表示し、ユーザはテキスト・ボックス98に新たな発音の綴りを入力する。ユーザは、発音の音素を入力する必要はなく、その代わりに、単語の所望の発音を捕らえた一連の文字(即ち、テキスト・ストリング)を入力すればよい。例えば、ユーザが“orange”という単語の発音を綴りたい場合、ユーザは、ストリング“orng”を入力すればよい。すると、ユーザは、ボタン100を活性化することによって、テキスト・ボックス98に入力したストリングをシステムがどのように解釈するか、聞くことができる。音声認識システム36は、文字/音対応規則および辞書を用いて、テキスト・ボックス98に入力したテキスト・ストリングを処理する。ユーザが、その用語に得られた発音の出力に満足した場合、ユーザは、「OK」ボタン102を活性化すればよい。ユーザが発音を変更したくない場合、ユーザは「Cancel」ボタン104を活性化すればよい。ユーザが、出力した発音に満足しないが、他の発音を入力してみたい場合、ユーザはテキスト・ボックス98内に代替発音をタイプ入力し、処理を繰り返す。
当業者は、他の代替案も使用可能であることを認めよう。例えば、(第1の代替案におけるように)発音を選択可能なストリングとしてユーザに表示せずに、ボタンのような特定のユーザ・インターフェース・エレメントに関連付け、ユーザがこれを活性化して代替発音を聞くようにしてもよい。図5Dは、ボタン93を表示し、各ボタンを活性化すると別個の発音に対するオーディオ出力を生成することができる例を示す。
ユーザが受け入れ可能な新たな発音を確認した後(即ち、図4のステップ68)、システムは、それに応じて辞書を更新しなければならない。具体的には、システムは、辞書内の当該用語の発音を、ユーザが気に入り新たに確認した発音と置き換える(図4のステップ70)。また、システムは、特定の用語の変更を、他の用語に系統的に伝搬することも可能である。例えば、ユーザが“what”を“HH W AHT”と発音する場合、“wh”で始まる全ての単語(例えば、“where”および“which”)に変更を伝搬することができる。代替実施形態では、辞書は多数の発音を保持し、1つの発音をデフォルト発音として有するとよいことを、当業者は認めよう。このような代替実施形態では、発音の変更は、単に、音声認識システム36が利用するデフォルト発音における変更に過ぎない。
本発明の好適な実施形態の音声認識システムは、新たな用語を辞書に追加できるという点で拡張可能である。図6は、ユーザが新たな用語を辞書に追加したい場合に実行するステップを示すフローチャートである。最初に、ユーザは、新たな用語を辞書に追加するよう要求する(図6のステップ110)。図7Aは、ユーザに用語を辞書42に追加させるために口述システム34が備えるとよい、1つのユーザ・インターフェース機構の一例を示す。図7Aは、口述システム34を利用するアプリケーション・プログラムのウインドウ26を示す。ウインドウ126は、メニュー・バー132を含み、この上に編集メニュー・ヘッダ134が含まれている。ユーザがマウスのカーソルを編集メニュー・ヘッダ134上に配置し、マウスのボタンを押すと、新たな用語を辞書に追加するためのメニュー項目138を含むメニュー136を表示する。ユーザは、項目138を指し示すにマウスのカーソルを位置付け、マウスのボタンを上げ、その項目上でクリックすることにより、項目138を選択することができる。音声認識システム36を用いる口述システム34は、ユーザがマイクロフォン26に向かって発声した入力を解釈することによってテキスト126を生成し、ウインドウ126がこのテキスト126を保持する。現カーソル位置130を図7Aに示す。
ユーザがメニュー項目入力138を選択した後、図7Bに示すようなダイアログ・ボックス140を表示する。このダイアログ・ボックス140は、ユーザが辞書に追加したい用語のテキストを入力するように、ユーザに求める。ダイアログ・ボックス140内にテキスト・ボックス142を表示する。ユーザがテキストを入力した後、ユーザは、「OK」ボタン144を押すことによって新たな用語を追加するプロセスを継続することができ、あるいは「Cancel」ボタン146を押すことによって、このプロセスを終了することもできる。こうして、ユーザは、辞書に追加する用語のテキストを与える(図6のステップ112)。口述システム34は、このテキストを音声認識システム36上に渡す。音声認識システムは、このテキストを辞書42および文字/音対応規則46に供給し、この新しい用語に対する発音を生成する(図6のステップ114)。その結果得られた発音を、オーディオ・ラウド・スピーカ24を通じてユーザに出力し(図6のステップ116)、ユーザは、音声認識システム36がその用語に対して予想する発音を確認することができる。次に、図7Cに示すようなユーザ・インターフェース・エレメント150を表示することにより、ユーザはこの発音を受け入れるかあるいは拒絶することができる。図7Cに示す例では、ユーザ・インターフェース・エレメント150は、ユーザに、新たな用語の発音を受け入れるか否か尋ねる。ユーザ・インターフェース・エレメント150は、発音を受け入れるための「Yes」ボタン152、発音を拒絶するための「No」ボタン154、および新たな用語の発音に対するオーディオ出力を生成するためのオーディオ出力ボタン153を含む。これらのボタンを活性化することによって、ユーザは、テキスト−音声エンジン44が生成した発音を受け入れるかあるいは拒絶する(図6のステップ118)。
ユーザが発音を受け入れる場合、その用語および関連する発音を辞書42に追加する(図6のステップ120)。関連する発音は、今後その用語が発声された場合に、それを認識するために用いる。しかしながら、ユーザが発音を受け入れない場合、システムはユーザに発音を促す(図6のステップ122)。音声認識システム136は、辞書42および文字/音対応規則46が生成した発音がユーザには受け入れ不可能であったことを認め、したがって、その単語に対する発音の表現を生成するように、ユーザに求める。音声認識システム36は、図7Dに示すようなダイアログ・ボックス160を表示し、新たな用語に対する発音を入力するようにユーザに要求する。ダイアログ・ボックス160は、テキスト・ボックス162を含み、ユーザはこの中に、新たな用語をどのように発声すべきかを綴りで示すテキスト・ストリングを入力すればよい。ユーザがテキスト・ボックス162にテキストを入力した後、ユーザはボタン164を活性化し、テキスト・ボックスに入力したテキストをシステムがどのように解釈するのか、聞くことができる。具体的には、システムは、テキスト・ボックス162に入力した発音の音声表現を発声し、ラウド・スピーカ24を通じて出力する。一旦ユーザがテキスト・ストリングを入力し受け入れ可能な発音が得られたなら、ユーザは、「OK」ボタン166を活性化することによって、発音を変更することができる。また、ユーザは、「Cancel」ボタン168を活性化することによって、発音の変更を取り消すことも可能である。概略的に、システムは、ユーザに発音を促し(ステップ122)、ユーザが入力した発音を受け取り(ステップ124)、得られた発音をユーザが受け入れるまで、ユーザから受け取った発音を出力する。あるいは、システムは、現行の発音を、ユーザが入力し新たに追加した発音と比較し、十分に近似する場合、ユーザに再度受け入れまたは拒絶を促さないようにすることも可能である。
また、システムは、明示的なユーザの要求がなくても、辞書42内に記憶してある発音を透過的に更新することができる。この機構は、辞書42内の用語の発音を更新する、前述のユーザ始動の手法とは独立して利用することも、この手法と共に利用することも可能である。最初に、システムに発音データの本体を供給し、システムは、分類または回帰ツリー(「CART」:classification and regression tree)アルゴリズムのようなアルゴリズムを適用し、関連する用語に対する代替発音を得る(図8のステップ170)。CAERアルゴリズムは、当技術分野では公知であり、Breiman et al.(ブレーマンその他)のClassification and Regression Trees(分類および回帰ツリー)(1984年)を含む多数の刊行物に記載されている。他の発見法を適用しても発音を得ることは可能であることを当業者は認めよう。得られた代替発音は、その後の使用のために記憶しておく。ユーザがある用語を発声し、その用語を認識する場合、システムは、どのようにユーザがその用語を発声したかを、当該用語について記憶してある代替発音と比較する(図8のステップ172)。このプロセスは、ユーザが用いている代替発音がどれであるかを精度高く識別できシステムに信頼性が得られるようになる(図8のステップ174)まで繰り返す(図8のステップ172)。例えば、システムは、代替発音の1つに対して所望のヒット数を受け取って初めて、当該発音をユーザが使用しているものとして識別する十分な信頼性レベルに達したと見なすことを要件とすることができる。次いで、音声認識システム36は、ユーザが好む発音(即ち、ユーザが用いている発音としてシステムが識別した発音)を用いるように辞書42を変更する(図8のステップ176)。
以上、本発明をその好適な実施形態を参照しながら説明したが、添付した請求の範囲に規定してある本発明の意図する範囲から逸脱することなく、形態および詳細において種々の変更が可能であることを当業者は認めよう。
本発明は、好適な実施形態を参照しながら説明したが、本発明の精神および範囲から逸脱することなく、形態および詳細において変更が可能であることを、当業者は認識しよう。
Claims (10)
- 話者からの音声入力を認識し、コンピュータ装置、オーディオ出力装置、ポインティング装置、表示装置および複数の単語、および当該複数の単語の音声データを有するリストを記憶した記憶装置を含み、入力の音声から認識された単語を前記リストを使用して前記オーディオ出力装置から出力することが可能な、音声認識システムにおいて、前記リストを更新するための方法において、
前記リストの中の1つの単語についての複数組の音声データを前記表示装置の表示画面に表示するステップと、
当該表示された複数組の音声データの中の音声データを前記ポインティング装置により選択するステップと
を含み、当該選択された音声データは出力されるべきデフォルトとして前記コンピュータにより取り扱われることを特徴とする方法。 - 請求項1に記載の方法において、前記表示装置は、前記ポインティング装置により音声データを選択するためのグラフィカルユーザインターフェースを表示することを特徴とする方法。
- 請求項1に記載の方法において、前記複数組の音声データの各々は前記単語の発音を示す文字列の形態で表示されることを特徴とする方法。
- 請求項1に記載の方法において、前記リストにおいてデフォルトとして以前に設定された音声データを前記選択するステップの前に前記オーディオ出力装置から出力するステップをさらに含むことを特徴とする方法。
- 請求項1に記載の方法において、前記音声認識システムはさらに入力装置を有し、
前記入力装置により、前記単語に対応する、前記リストに追加すべき音声データを入力するステップと、
当該入力された音声データを前記オーディオ出力装置から出力するステップと、
前記入力装置により、更新の要求を入力するステップと、
該要求に応答して前記リストの中の音声データを当該入力された音声データで、前記コンピュータ装置により更新するステップと
をさらに含むことを特徴とする方法。 - 請求項5に記載の方法において、前記入力装置は前記表示装置の表示画面に表示されるグラフィカルユーザインターフェースを通じて前記要求を入力することを特徴とする方法。
- 話者からの音声入力を認識し、コンピュータ装置、オーディオ出力装置、ポインティング装置、表示装置および複数の単語、および当該複数の単語の音声データを有するリストを記憶した記憶装置を含み、入力の音声から認識された単語を前記リストを使用して前記オーディオ出力装置から出力することが可能な、音声認識システムにおいて、前記リストを更新するための方法において、
前記リストの中の1つの単語に対する複数組の代替えの音声データを前記コンピュータ装置により生成するステップと、
前記音声認識において、前記コンピュータ装置により、音声認識すべき音声データと当該生成された複数組の代替えの音声データとを比較し、当該生成された複数組の代替えの音声データについて一致のヒット数を計数するステップと、
予め定めたレベルを最初にヒット数が超えた代替えの音声データで前記リストの中の単語を前記コンピュータ装置により更新するステップと
を含むことを特徴とする方法。 - 請求項7に記載の方法において、前記コンピュータ装置は複数組の代替えの音声データをCARTアルゴリズムを適用して生成することを特徴とする方法。
- 話者からの音声入力を認識し、コンピュータ装置、オーディオ出力装置、ポインティング装置、表示装置および複数の単語、および当該複数の単語の音声データを有するリストを記憶した記憶装置を含み、入力の音声から認識された単語を前記リストを使用して前記オーディオ出力装置から出力することが可能な音声認識システムのためのプログラムを記録した記録媒体において、前記プログラムは前記コンピュータ装置を、
前記リストの中の1つの単語についての複数組の音声データを前記表示装置の表示画面に表示させる手段と、
当該表示された複数組の音声データの中の前記ポインティング装置により選択された音声データを受け取る手段と
して動作させ、当該選択された音声データは出力されるべきデフォルトとして前記コンピュータにより取り扱われることを特徴とする記録媒体。 - 話者からの音声入力を認識し、コンピュータ装置、オーディオ出力装置、ポインティング装置、表示装置および複数の単語、および当該複数の単語の音声データを有するリストを記憶した記憶装置を含み、入力の音声から認識された単語を前記リストを使用して前記オーディオ出力装置から出力することが可能な音声認識システムのためのプログラムを記録した記録媒体において、前記プログラムは前記コンピュータ装置を、
前記リストの中の1つの単語に対する複数組の代替えの音声データを生成する手段と、
前記音声認識において、音声認識すべき音声データと当該生成された複数組の代替えの音声データとを比較し、当該生成された複数組の代替えの音声データについて一致のヒット数を計数する手段と、
予め定めたレベルを最初にヒット数が超えた代替えの音声データで前記リストの中の単語を更新する手段として動作させることを特徴とする記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/833,916 US5933804A (en) | 1997-04-10 | 1997-04-10 | Extensible speech recognition system that provides a user with audio feedback |
US08/833,916 | 1997-04-10 | ||
PCT/US1998/006923 WO1998045834A1 (en) | 1997-04-10 | 1998-04-08 | Extensible speech recognition system that provides a user with audio feedback |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002511154A JP2002511154A (ja) | 2002-04-09 |
JP4570176B2 true JP4570176B2 (ja) | 2010-10-27 |
Family
ID=25265611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP54305198A Expired - Fee Related JP4570176B2 (ja) | 1997-04-10 | 1998-04-08 | ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US5933804A (ja) |
EP (2) | EP0974141B1 (ja) |
JP (1) | JP4570176B2 (ja) |
CN (2) | CN1280782C (ja) |
DE (2) | DE69834553T2 (ja) |
WO (1) | WO1998045834A1 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2219008C (en) * | 1997-10-21 | 2002-11-19 | Bell Canada | A method and apparatus for improving the utility of speech recognition |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US6462616B1 (en) | 1998-09-24 | 2002-10-08 | Ericsson Inc. | Embedded phonetic support and TTS play button in a contacts database |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US6324507B1 (en) | 1999-02-10 | 2001-11-27 | International Business Machines Corp. | Speech recognition enrollment for non-readers and displayless devices |
US7292980B1 (en) * | 1999-04-30 | 2007-11-06 | Lucent Technologies Inc. | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
US6434521B1 (en) * | 1999-06-24 | 2002-08-13 | Speechworks International, Inc. | Automatically determining words for updating in a pronunciation dictionary in a speech recognition system |
EP1074973B1 (en) * | 1999-06-30 | 2006-03-15 | International Business Machines Corporation | Method of expanding a vocabulary of a speech system |
ATE320650T1 (de) | 1999-06-30 | 2006-04-15 | Ibm | Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems |
US7149690B2 (en) * | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
JP2002221980A (ja) * | 2001-01-25 | 2002-08-09 | Oki Electric Ind Co Ltd | テキスト音声変換装置 |
US7107215B2 (en) * | 2001-04-16 | 2006-09-12 | Sakhr Software Company | Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study |
DE10119677A1 (de) * | 2001-04-20 | 2002-10-24 | Philips Corp Intellectual Pty | Verfahren zum Ermitteln von Datenbankeinträgen |
US7493559B1 (en) * | 2002-01-09 | 2009-02-17 | Ricoh Co., Ltd. | System and method for direct multi-modal annotation of objects |
KR100467590B1 (ko) * | 2002-06-28 | 2005-01-24 | 삼성전자주식회사 | 발음 사전 갱신 장치 및 방법 |
DE10304229A1 (de) * | 2003-01-28 | 2004-08-05 | Deutsche Telekom Ag | Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten |
US8577681B2 (en) * | 2003-09-11 | 2013-11-05 | Nuance Communications, Inc. | Pronunciation discovery for spoken words |
US20050114131A1 (en) * | 2003-11-24 | 2005-05-26 | Kirill Stoimenov | Apparatus and method for voice-tagging lexicon |
US7340395B2 (en) * | 2004-04-23 | 2008-03-04 | Sap Aktiengesellschaft | Multiple speech recognition engines |
US20050273337A1 (en) * | 2004-06-02 | 2005-12-08 | Adoram Erell | Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8719021B2 (en) * | 2006-02-23 | 2014-05-06 | Nec Corporation | Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program |
US20080104537A1 (en) * | 2006-10-30 | 2008-05-01 | Sherryl Lee Lorraine Scott | Method of improved viewing of visual objects on a display, and handheld electronic device |
WO2008096310A1 (en) * | 2007-02-06 | 2008-08-14 | Nuance Communications Austria Gmbh | Method and system for creating or updating entries in a speech recognition lexicon |
US8484034B2 (en) * | 2008-03-31 | 2013-07-09 | Avaya Inc. | Arrangement for creating and using a phonetic-alphabet representation of a name of a party to a call |
US9202460B2 (en) * | 2008-05-14 | 2015-12-01 | At&T Intellectual Property I, Lp | Methods and apparatus to generate a speech recognition library |
US9077933B2 (en) | 2008-05-14 | 2015-07-07 | At&T Intellectual Property I, L.P. | Methods and apparatus to generate relevance rankings for use by a program selector of a media presentation system |
US8160881B2 (en) * | 2008-12-15 | 2012-04-17 | Microsoft Corporation | Human-assisted pronunciation generation |
JP5334178B2 (ja) * | 2009-01-21 | 2013-11-06 | クラリオン株式会社 | 音声認識装置およびデータ更新方法 |
CN101739459A (zh) * | 2009-12-21 | 2010-06-16 | 中兴通讯股份有限公司 | 一种移动终端的词库添加方法和移动终端 |
US9640175B2 (en) | 2011-10-07 | 2017-05-02 | Microsoft Technology Licensing, Llc | Pronunciation learning from user correction |
KR101179915B1 (ko) | 2011-12-29 | 2012-09-06 | 주식회사 예스피치 | 통계적 언어 모델이 적용된 음성인식 시스템의 발화 데이터 정제 장치 및 방법 |
US9721587B2 (en) * | 2013-01-24 | 2017-08-01 | Microsoft Technology Licensing, Llc | Visual feedback for speech recognition system |
US9779722B2 (en) * | 2013-11-05 | 2017-10-03 | GM Global Technology Operations LLC | System for adapting speech recognition vocabulary |
GB2524222B (en) * | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
US20150310851A1 (en) * | 2014-04-24 | 2015-10-29 | Ford Global Technologies, Llc | Method and Apparatus for Extra-Vehicular Voice Recognition Training Including Vehicular Updating |
US9613140B2 (en) * | 2014-05-16 | 2017-04-04 | International Business Machines Corporation | Real-time audio dictionary updating system |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
CN104598791A (zh) * | 2014-11-29 | 2015-05-06 | 深圳市金立通信设备有限公司 | 一种语音解锁方法 |
CN104505089B (zh) * | 2014-12-17 | 2018-05-18 | 福建网龙计算机网络信息技术有限公司 | 口语纠错方法及设备 |
US9787819B2 (en) * | 2015-09-18 | 2017-10-10 | Microsoft Technology Licensing, Llc | Transcription of spoken communications |
US10706210B2 (en) * | 2016-08-31 | 2020-07-07 | Nuance Communications, Inc. | User interface for dictation application employing automatic speech recognition |
US11170757B2 (en) * | 2016-09-30 | 2021-11-09 | T-Mobile Usa, Inc. | Systems and methods for improved call handling |
CN109635096B (zh) * | 2018-12-20 | 2020-12-25 | 广东小天才科技有限公司 | 一种听写提示方法及电子设备 |
CN111081084B (zh) * | 2019-07-11 | 2021-11-26 | 广东小天才科技有限公司 | 一种听写内容的播报方法及电子设备 |
US11676572B2 (en) * | 2021-03-03 | 2023-06-13 | Google Llc | Instantaneous learning in text-to-speech during dialog |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4516260A (en) * | 1978-04-28 | 1985-05-07 | Texas Instruments Incorporated | Electronic learning aid or game having synthesized speech |
CH644246B (fr) * | 1981-05-15 | 1900-01-01 | Asulab Sa | Dispositif d'introduction de mots a commande par la parole. |
US4749353A (en) * | 1982-05-13 | 1988-06-07 | Texas Instruments Incorporated | Talking electronic learning aid for improvement of spelling with operator-controlled word list |
JPS6221199A (ja) * | 1985-07-22 | 1987-01-29 | 株式会社東芝 | 音声認識装置 |
JPS6287994A (ja) * | 1985-10-14 | 1987-04-22 | 株式会社リコー | 音声認識辞書更新方式 |
JPS63281196A (ja) * | 1987-05-14 | 1988-11-17 | 沖電気工業株式会社 | 音声認識装置 |
GB8817705D0 (en) * | 1988-07-25 | 1988-09-01 | British Telecomm | Optical communications system |
JPH0778183A (ja) * | 1993-06-25 | 1995-03-20 | Ricoh Co Ltd | デ−タベ−ス検索システム |
US5623578A (en) * | 1993-10-28 | 1997-04-22 | Lucent Technologies Inc. | Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words |
JPH07306851A (ja) * | 1994-05-12 | 1995-11-21 | Ricoh Co Ltd | 発音記号編集装置 |
US5681108A (en) * | 1995-06-28 | 1997-10-28 | Miller; Alan | Golf scorekeeping system |
US5737487A (en) * | 1996-02-13 | 1998-04-07 | Apple Computer, Inc. | Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition |
JPH09292255A (ja) * | 1996-04-26 | 1997-11-11 | Pioneer Electron Corp | ナビゲーション方法及び装置 |
-
1997
- 1997-04-10 US US08/833,916 patent/US5933804A/en not_active Expired - Lifetime
-
1998
- 1998-04-08 DE DE69834553T patent/DE69834553T2/de not_active Expired - Lifetime
- 1998-04-08 CN CN200410087906.8A patent/CN1280782C/zh not_active Expired - Lifetime
- 1998-04-08 CN CN98806081.7A patent/CN1196105C/zh not_active Expired - Lifetime
- 1998-04-08 EP EP98914577A patent/EP0974141B1/en not_active Expired - Lifetime
- 1998-04-08 DE DE69842190T patent/DE69842190D1/de not_active Expired - Lifetime
- 1998-04-08 JP JP54305198A patent/JP4570176B2/ja not_active Expired - Fee Related
- 1998-04-08 WO PCT/US1998/006923 patent/WO1998045834A1/en active IP Right Grant
- 1998-04-08 EP EP06010060A patent/EP1693827B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69842190D1 (de) | 2011-04-28 |
CN1604187A (zh) | 2005-04-06 |
WO1998045834A1 (en) | 1998-10-15 |
DE69834553D1 (de) | 2006-06-22 |
US5933804A (en) | 1999-08-03 |
EP0974141B1 (en) | 2006-05-17 |
EP1693827A2 (en) | 2006-08-23 |
CN1280782C (zh) | 2006-10-18 |
JP2002511154A (ja) | 2002-04-09 |
CN1196105C (zh) | 2005-04-06 |
EP1693827B1 (en) | 2011-03-16 |
CN1264468A (zh) | 2000-08-23 |
DE69834553T2 (de) | 2007-04-26 |
EP0974141A1 (en) | 2000-01-26 |
EP1693827A3 (en) | 2007-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4570176B2 (ja) | ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム | |
US6334102B1 (en) | Method of adding vocabulary to a speech recognition system | |
JP4444396B2 (ja) | 音声認識におけるポジション操作 | |
US6212498B1 (en) | Enrollment in speech recognition | |
EP0965978B1 (en) | Non-interactive enrollment in speech recognition | |
US6795806B1 (en) | Method for enhancing dictation and command discrimination | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6314397B1 (en) | Method and apparatus for propagating corrections in speech recognition software | |
EP0840288B1 (en) | Method and system for editing phrases during continuous speech recognition | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
US6591236B2 (en) | Method and system for determining available and alternative speech commands | |
US6253177B1 (en) | Method and system for automatically determining whether to update a language model based upon user amendments to dictated text | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
JP3104661B2 (ja) | 日本語文章作成装置 | |
KR100467590B1 (ko) | 발음 사전 갱신 장치 및 방법 | |
JP5196114B2 (ja) | 音声認識装置およびプログラム | |
JP2004029354A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JPH1083195A (ja) | 入力言語認識装置及び入力言語認識方法 | |
KR101830210B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
JP3308929B2 (ja) | 音声入力機能付き情報処理装置 | |
KR20190030970A (ko) | 음성-텍스트 변환 장치 | |
KR20190030975A (ko) | 음성-텍스트 변환 시스템 | |
JPH11311991A (ja) | 音声認識辞書作成装置および方法、およびそのプログラムを記録した記録媒体 | |
JP2000010588A (ja) | 音声認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050316 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050316 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100810 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |