JP3333123B2 - 音声認識中に認識されたワードをバッファする方法及びシステム - Google Patents

音声認識中に認識されたワードをバッファする方法及びシステム

Info

Publication number
JP3333123B2
JP3333123B2 JP29894497A JP29894497A JP3333123B2 JP 3333123 B2 JP3333123 B2 JP 3333123B2 JP 29894497 A JP29894497 A JP 29894497A JP 29894497 A JP29894497 A JP 29894497A JP 3333123 B2 JP3333123 B2 JP 3333123B2
Authority
JP
Japan
Prior art keywords
word
recognized
words
dictation
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP29894497A
Other languages
English (en)
Other versions
JPH10187406A (ja
Inventor
ジェイ ローザック マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JPH10187406A publication Critical patent/JPH10187406A/ja
Application granted granted Critical
Publication of JP3333123B2 publication Critical patent/JP3333123B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Communication Control (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ音声
認識に関し、特に、音声認識システムにより作り出され
たディクテーション(口述体)の編集に係る。
【0002】
【従来の技術】話し手が効率的にディクテーションでき
そしてディクテーションされた語を自動的に認識するこ
とのできるコンピュータ音声ディクテーションシステム
がコンピュータ音声システムの開発者により長年追求さ
れた目標となっている。かかるコンピュータ音声認識
(CSR)システムから生ずるであろう利益は、多大な
ものである。例えば、文書をコンピュータシステムに打
ち込むのではなく、人が文書のワードを単に話し、CS
Rシステムはそのワードを認識し、そして各ワードの文
字を、それらワードがまるでタイプされたかのようにス
トアする。人々は一般にタイプするよりは速く話せるの
で、効率が改善されるであろう。又、人々は、タイプの
仕方を学習する必要がもはやなくなるであろう。人々の
手がタイプ打ち以外の作業で占有されるためにコンピュ
ータの使用が又、現在不可能となっている多数の用途に
もコンピュータを使用することができる。
【0003】典型的なCSRシステムは、認識コンポー
ネントと、ディクテーション編集コンポーネントとを有
する。認識コンポーネントは、話し手から一連の発音を
受け取り、各発音を認識し、そして各発音に対して認識
されたワードをディクテーション編集コンポーネントへ
送るように制御する。ディクテーション編集コンポーネ
ントは、その認識されたワードを表示し、そして誤って
認識されたワードをユーザが修正できるようにする。例
えば、ディクテーション編集コンポーネントは、ユーザ
が、ワードを再び話すか又は正しいワードをタイプ打ち
することにより、誤って認識されたワードを取り換えら
れるようにする。認識コンポーネントは、一般的には、
その語彙の各ワードごとに発音のモデルを含む。認識コ
ンポーネントは、話された発音を受け取ると、その話さ
れた発音を、その語彙の各ワードのモデリングされた発
音と比較し、その話された発音に最も厳密に一致するモ
デリングされた発音を見出すように試みる。典型的な認
識コンポーネントは、各モデリングされた発音が話され
た発音に一致する確率を計算する。このような認識コン
ポーネントは、話された発音に一致する確率が最も高い
ワードのリスト(認識ワードリストと称する)をディク
テーション編集コンポーネントへ送信する。
【0004】ディクテーション編集コンポーネントは、
一般に、最も高い確率をもつ認識されたワードリストか
らのワードを、その話された発音に対応する認識された
ワードとして選択する。次いで、ディクテーション編集
コンポーネントは、そのワードを表示する。しかしなが
ら、表示されたワードが、話された発音の誤った認識で
ある場合には、ディクテーション編集コンポーネント
は、話し手が、その誤って認識されたワードを修正でき
るようにする。話し手がその誤って認識されたワードの
修正を指示するときに、ディクテーション編集コンポー
ネントは、認識されたワードリストの中のワードを含む
修正ウインドウを表示する。そのリストのワードの1つ
が正しいワードである場合に、話し手は、そのワード上
でクリックするだけで修正を行うことができる。しかし
ながら、正しいワードがリストにない場合には、話し手
は、正しいワードを話すか、又はタイプ打ちする。
【0005】
【発明が解決しようとする課題】あるCSRシステム
は、ワードプロセッサのためのディクテーションファシ
リティとして働く。かかるCSRシステムは、話された
発音の受信及び認識を制御し、そして認識されたワード
に対応する各キャラクタをワードプロセッサへ送信す
る。このような構成は、話し手が、既に話したワードを
修正しようと試みるときに、ワードプロセッサが認識さ
れたワードのリストをアクセスせず、従って、これらの
ワードを表示して容易に修正を行うことができない。
【0006】
【課題を解決するための手段】本発明は、認識コンポー
ネント及びディクテーション編集コンポーネントを有す
る新規で且つ改良されたコンピュータ音声認識(CS
R)システムを提供する。ディクテーション編集コンポ
ーネントは、誤って認識されたワードを迅速に修正する
ことができる。ディクテーション編集コンポーネント
は、話し手が、修正ウインドウを再配列することによ
り、修正ウインドウに表示されるべき代替ワードの数を
選択できるようにする。ディクテーション編集コンポー
ネントは、正しいワードを探し易くするためにアルファ
ベット順に修正ウインドウにワードを表示する。本発明
の別の態様では、CSRシステムは、誤って認識された
ワード又はフレーズを再び話したときに、以前に話され
た発音及び新たに話された発音の両方の分析に基づき、
その再び話された発音が、同じ誤って認識されたワード
又はフレーズとして再び認識されるおそれを排除する。
ディクテーション編集コンポーネントは又、認識された
ワードをワードプロセッサへ転送する前にディクテーシ
ョン編集コンポーネントにバッファされる音声の量を話
し手が特定できるようにする。ディクテーション編集コ
ンポーネントは又、通常はキャラクタベースである編集
動作をワードベース又はフレーズベースのいずれかに変
更するためのワード修正メタファ又はフレーズ修正メタ
ファも使用する。
【0007】
【発明の実施の形態】本発明は、コンピュータ音声認識
(CSR)システムによって作り出されるディクテーシ
ョンを編集することができるディクテーション編集コン
ポーネントを提供する。ある実施形態では、ディクテー
ション編集コンポーネントは、話し手が、修正ウインド
ウを再配列することにより、修正ウインドウに表示され
るべき代替ワードの数を選択できるようにする。更に、
ディクテーション編集コンポーネントは、修正ウインド
ウにワードをアルファベット順に表示する。好ましいデ
ィクテーション編集コンポーネントは又、誤って認識さ
れたワードが再び話されるときに、その再び話される発
音が、同じ誤って認識されたワードとして再度認識され
るおそれを排除する。ディクテーション編集コンポーネ
ントは、ワードプロセッサのようなアプリケーションプ
ログラムへ認識されたワードを与えるときに、好ましく
は、話し手が、認識されたワードをアプリケーションプ
ログラムへ転送する前にディクテーション編集コンポー
ネントによりバッファされる音声の量を特定できるよう
にする。以下において、本発明の種々の態様は、個別の
CSRシステム(即ち話し手が各ワード間に休止する)
に関連して使用するときについて説明する。しかしなが
ら、これらの態様は、連続的CRSシステムに関連して
使用することもできる。例えば、表示されるべき代替フ
レーズの数を指示するように修正ウインドウを再配列す
ることができる。又、話し手が置き換えられるべきフレ
ーズを選択するときには、ユーザインターフェイスシス
テムが、同じフレーズが再び認識されないよう確保する
ことができる。
【0008】図1は、再配列可能な修正ウインドウを例
示する。ディクテーション編集コンポーネントのウイン
ドウ101は、認識されたワード102及び修正ウイン
ドウ103を含む。この例では、話し手は、ワード「I
will make the cake. 」と話している。認識コンポーネ
ントは、ワード「make」をワード「fake」と誤って認識
している。このとき、話し手は、ワード「fake」を修正
しなければならないことを指示する。修正ウインドウを
表示する前に、ディクテーション編集コンポーネント
は、再配列可能な修正ウインドウの現在サイズを決定
し、そしてその修正ウインドウに表示することのできる
ワードの数を計算する。次いで、ディクテーション編集
コンポーネントは、最も高い確率をもつ認識されたワー
ドのリスト(即ち、代替ワード)からその数のワードを
選択し、そして標準的なウインドウ再配列技術(例え
ば、マウスポインタでウインドウの境界を指しそしてマ
ウスをドラッグする)を用いて修正ウインドウにそれら
のワードを表示する。話し手が更に多くのワードをリス
トから見たい場合には、修正ウインドウを単に再配列す
るだけでよい。修正ウインドウが再配列されるときに
は、ディクテーション編集コンポーネントは、修正ウイ
ンドウに表示することのできるワードの数を再び決定
し、そしてその数のワードを修正ウインドウに表示す
る。話し手がワードの修正を指示する次のときに、ディ
クテーション編集コンポーネントは、その最後の再配列
に基づいて適合する数のワードを修正ウインドウに表示
する。このように、話し手は、修正ウインドウを単に再
配列するだけで、表示されるべきワードの数を効果的に
選択することができる。図2は、再配列後の修正ウイン
ドウを例示する。
【0009】更に、ディクテーション編集コンポーネン
トは、修正ウインドウにワードをアルファベット順に表
示するのが好ましい。アルファベット順にワードを表示
することにより、話し手は、正しいワードが表示された
場合にそれを素早く見つけることができる。従来のディ
クテーション編集コンポーネントは、そのコンポーネン
トにより決定された確率に基づく順序で修正ウインドウ
にワードを表示する。しかしながら、確率順に表示され
たときには、正しいワードが第1番目又は第2番目に表
示されない限り、話し手が正しいワードを見つけるのが
困難である。図3は、ワードプロセッサと相互作用する
CSRシステムのための調整可能なディクテーションウ
インドウを示す。CSRシステムは、話し手からの一連
の発音を入力し、発音を認識し、そして発音に対して認
識されたワードをディクテーションウインドウ201に
表示する。ディクテーションウインドウは、ディクテー
ション編集コンポーネントによって制御されるので、話
し手は、ディクテーションウインドウにおいてワードを
修正することができる。従って、話し手は、ディクテー
ションウインドウ内のワードの修正を選択すると、ディ
クテーション編集コンポーネントによってサポートされ
た修正ファシリティのいずれかを使用することができ
る。例えば、話し手は、ディクテーションウインドウに
現在表示されているワードに対して認識されたワードリ
ストのワードを表示するように修正ウインドウを使用す
ることができる。図4は、修正ウインドウを使用して、
ディクテーションウインドウのテキストを修正する場合
を示す。
【0010】ある実施形態では、ディクテーション編集
コンポーネントは、話し手が、ディクテーションウイン
ドウが受け入れることのできる音声の量を調整できるよ
うにする。話し手は、ディクテーションウインドウ内の
ワードに対して修正ファシリティを使用できるだけであ
って、ワードプロセッサのウインドウ内のワードについ
ては使用できないので、話し手のディクテーションの習
慣に基づき音声の量を受け入れるようにディクテーショ
ンウインドウのサイズを調整することができる。例え
ば、話し手は、ディクテーションウインドウが、1つの
センテンス、1つのパラグラフ、又は固定数のワードの
みを受け入れねばならないことを特定することができ
る。或いは又、話し手は、ディクテーションウインドウ
がウインドウに適合できる数のワードを受け入れねばな
らないことを指示するために、標準的なウインドウ再配
列技術を用いてディクテーションウインドウを再配列す
ることもできる。ディクテーションウインドウがいっぱ
いになったときには、CSRシステムは、ディクテーシ
ョンウインドウ内の全てのワード又は幾つかのワードを
ワードプロセッサへ送信する。例えば、ディクテーショ
ンウインドウがセンテンスを受け入れねばならないこと
を話し手が指示する場合には、新たなセンテンスがスタ
ートするときに、CSRシステムは、全てのワード(即
ち、1つのセンテンス)をワードプロセッサへ送信す
る。逆に、話し手がディクテーションウインドウを再配
列した場合には、CSRシステムは、一度に1行のワー
ドのみをワードプロセッサへ送信する。
【0011】図5は、ディクテーション編集コンポーネ
ントのためのワード修正メタファ(比喩)を示す。ワー
ドプロセスシステムがディクテーションモードにあると
きには、ディクテーション編集コンポーネントは、種々
の編集イベント(例えば、キーボードイベント、マウス
イベント、ペンイベント及び音声イベント)の定義をキ
ャラクタベースではなく、ワードベースとなるように自
動的に変更する。例えば、ディクテーションモードにあ
るときには、通常は1キャラクタ分バックスペースする
バックスペースキーが、一度に1ワードだけバックスペ
ースするように変更される。従って、ディクテーション
モードにあるときに、ユーザがバックスペースキーを押
すと、現在挿入ポイントの左側にある全ワードが削除さ
れる。同様に、ディクテーションモードにあるときに、
右及び左矢印キーは、挿入ポイントを左又は右に1ワー
ドだけ移動させ、そして削除キーは、挿入ポイントの右
側の全ワードを削除する。又、ユーザがマウスのボタン
をクリックしそしてマウスポインタがワードの上にある
ときには、ディクテーション編集コンポーネントは、挿
入ポイントをワード内に単にセットするのではなく、マ
ウスポインタが上にあるところのワードを選択する。し
かしながら、マウスポインタがワード間にある場合は、
挿入ポイントが単にワード間にセットされる。行301
−304は、ワード修正メタファの作用を例示する。各
行は、指示されたイベントが生じる前後のテキストを示
している。例えば、行302は、挿入ポイントがワード
「test」の後である場合に、左矢印イベントにより、挿
入ポイントがワード「test」の前に移動されることを示
している。ワード修正メタファの使用は、ディクテーシ
ョンモードにあるときに、典型的な話し手が修正時に全
ワードを再度話すことを望むので、ワードの修正を容易
にする。従って、話し手がワード上でクリックすると、
全ワードが選択され、そして話し手は、選択されたワー
ドを置き換えるように単に話すだけでよい。音声認識が
連続的であるときには、フレーズ修正メタファが好まし
い。連続的な音声認識は、ワード境界を正しく識別しな
いことがあるので、ワード修正メタファは、発音がワー
ドの一部分のみを表すか又は多数のワードを表すような
誤って認識されたワードを選択する。このような状況で
は全フレーズを単に再度話すのが好ましい。従って、種
々の編集イベントの定義は、ワードベースで変更される
のではなく、フレーズベースで変更されることになる。
例えば、通常は手前のキャラクタを越えてバックスペー
スするワード「バックスペース」を話すユーザの編集イ
ベントは、一度に1フレーズだけバックスペースするよ
うに変更される。図6は、このフレーズ修正メタファを
示す。
【0012】ある実施形態では、CSRシステムは、再
び話された発音を、修正されている同じワードとして再
び認識するのを防止するために、誤って認識されたワー
ドの排除を与える。ディクテーション編集コンポーネン
トは、話し手が誤って認識されたワードをいつ修正する
かを決定する。話し手は、誤って認識されたワードを種
々の方法で修正することができる。例えば、話し手は、
ワードを削除し、そしてワードが削除された位置におけ
る挿入ポイントで話すことができる。或いは又、話し手
は、誤って認識されたワードをハイライト処理し、次い
で、そのハイライト処理されたワードに置き換えるよう
に話すこともできる。認識コンポーネントは、再び話さ
れた発音を受け取ると、その発音を認識し、そして新た
に認識されたワードのリストをディクテーション編集コ
ンポーネントへ送る。次いで、ディクテーション編集コ
ンポーネントは、修正されているワード以外の最も高い
確率をもつワードをその新たに認識されたワードのリス
トから選択しそして表示する。1つの実施形態におい
て、ディクテーション編集コンポーネントは、誤って認
識された発音に対する以前に認識されたワードのリスト
と、新たに認識されたワードリストとを使用して、両方
の発音に一致する確率が最も高いワード(修正されてい
るワード以外の)を選択する。最も高い確率を計算する
ために、ディクテーション編集コンポーネントは、両方
の認識されたワードのリストにあるワードを識別し、そ
してそれらの確率を乗算する。例えば、以下のテーブル
は、認識されたワードのリスト及びそれに対応する確率
の例を示す。
【0013】 以前に認識されたワードのリスト 新たに認識されたワードのリスト Fake .4 Fake .4 Make .3 Mace .3 Bake .1 Make .2 Mace .1 Bake .1
【0014】話し手がワード「make」を話した場合に
は、誤って認識されたワードの排除がないと、ディクテ
ーション編集コンポーネントは、両方のリストにおいて
最も高い確率を有することから、ワード「fake」を2回
とも選択する。誤って認識されたワードの排除がある場
合には、ディクテーション編集コンポーネントは、ワー
ド「fake」が修正されるときに、ワード「mace」を選択
する。というのは、ワード「mace」は、現在リストにお
いてワード「fake」以外に最も高い確率を有するからで
ある。しかしながら、両方の認識されたワードのリスト
からの確率が合成されたときには、ディクテーション編
集コンポーネントは、ワード「make」を正しいワードと
して選択する。というのは、最も高い合成確率を有する
からである。ワード「make」の合成確率は、0.06
(0.3×0.2)であり、ワード「mace」に場合に
は、0.03(0.1×0.3)であり、そしてワード
「bake」の場合には、0.01(0.1×0.1)であ
る。
【0015】CSRシステムは又、ワードをその語彙に
自動的に追加し、そして自動的にトレーニングする。ユ
ーザが正しいワードをタイプ打ちすることにより誤って
認識されたワードを修正するときには、ディクテーショ
ン編集コンポーネントは、そのタイプ打ちされたワード
が語彙にあるかどうか決定する。そのタイプ打ちされた
ワードが語彙にない場合には、ディクテーション編集コ
ンポーネントは、誤って認識された話された発音を用い
てそれを語彙に加えて、そのワードに対するモデルをト
レーニングするように認識コンポーネントに指令する。
しかしながら、そのタイプ打ちされたワードが語彙にあ
る場合には、ディクテーション編集コンポーネントは、
誤って認識された話された発音でそのタイプ打ちされた
ワードをトレーニングするように認識コンポーネントに
自動的に指令する。
【0016】ディクテーション編集コンポーネントは、
連続的なディクテーションシステムと共に使用したとき
には、ワード修正に加えて、フレーズ修正を行うことが
できる。連続的なディクテーションシステムでは、認識
コンポーネントは、ワードの境界を誤って識別すること
がある。例えば、話し手は、フレーズ「I want to reco
gnize speech. 」と言う。認識コンポーネントは、話さ
れたフレーズを「I want to wreck a nice beach. 」と
認識することがある。しかしながら、単一ワード修正を
使用した場合には、このような誤った認識を修正するた
めの話し手に非常に馴染み易い方法が与えられない。話
し手がワード「beach 」の代替ワードを見つけたい場合
には、修正ウインドウにワード「peach 」、「teach 」
及びおそらくは「speech」が表示される。話し手がワー
ド「nice」の代替ワードを見つけたい場合には、ワード
「ice 」及び「rice」が表示され、そしてワード「wrec
k」については、ワード「heck」及び「rack」が表示さ
れる。このような単一ワード修正は、ワード「recogniz
e speech」を識別しない。
【0017】ディクテーション編集コンポーネントは、
誤ったワード境界から生じた誤った認識を効率的に修正
できるようにフレーズを修正することができる。話し手
が修正のためのフレーズを選択すると、ディクテーショ
ン編集コンポーネントは、代替フレーズのリストを選択
して表示する。例えば、話し手が「wreck a nice beac
h」を選択する場合には、その代替フレーズが「wreck a
nice peach」、「rackan ice leach 」及び「recogniz
e speech」となる。又、話し手が「wreck a nice」を選
択すると、その代替フレーズは、「rack on ice 」及び
「recognize 」となる。更に、ユーザが修正のために誤
って認識されたフレーズを選択すると、ディクテーショ
ン編集コンポーネントは、現在のフレーズがその誤って
認識されたフレーズと2ワード以上異なると仮定する。
誤って認識されたフレーズにおいて1ワードだけが不適
切な場合には、話し手は、その誤って認識されたワード
を単に選択し、誤って認識された全フレーズを選択しな
い。この仮定を用いると、ディクテーション編集コンポ
ーネントは、誤って認識されたフレーズと1ワードしか
相違しない代替フレーズは表示しない。上記の例を続け
ると、話し手が「wreck anice beach」を選択する場合
に、代替フレーズ「rack an ice leach 」及び「recogn
ize speech」のみが表示される。代替フレーズ「wreck
a nice peach」は、1ワードしか相違しないので、表示
されない。更に、1つの実施形態において、ディクテー
ション編集コンポーネントは、話し手が修正のためのフ
レーズを選択したときに、誤った認識が不適切に識別さ
れたワード境界によるものであると仮定する。特に、表
示された代替ワードを選択することによりフレーズを修
正できる場合には、話し手は、それらの代替ワードを選
択する。従って、ディクテーション編集コンポーネント
は、代替リストから個々のワードを修正することにより
修正できる代替フレーズは表示しない。例えば、ディク
テーション編集コンポーネントは、ワード「rack」、
「an」、「ice 」及び「leach 」が誤って認識された対
応ワードの代替ワードである場合には、フレーズ「rack
an ice leach 」を表示しない。
【0018】図7は、好ましい実施形態のコンピュータ
システムのブロック図である。コンピュータシステム4
00は、メモリ401と、中央処理ユニット402と、
I/Oインターフェイスユニット403と、記憶装置4
04と、ディスプレイ装置405と、キーボード406
と、マウス407と、マイクロホン408とを備えてい
る。メモリは、モデルコンポーネント408と、認識コ
ンポーネント409と、ディクテーション編集コンポー
ネント410とを含むCSRシステムを備えていると共
に、アプリケーションプログラム411も備えている。
モデルコンポーネントは、語彙のワードに対する種々の
モデル発音を含んでいる。認識コンポーネントは、話さ
れた発音を受け取り、モデルコンポーネントにアクセス
して、認識されたワードのリストを発生する。ディクテ
ーション編集コンポーネントは、認識されたワードのリ
ストを受け取り、そして認識されたワードを表示する。
認識コンポーネント、ディクテーション編集コンポーネ
ント、及びアプリケーションプログラムは、種々の方法
で相互接続することができる。図8及び9は、認識コン
ポーネント、ディクテーション編集コンポーネント及び
アプリケーションプログラムの種々の相互接続を示すブ
ロック図である。図8において、認識コンポーネント
は、ディクテーション編集コンポーネントのアプリケー
ションプログラムインターフェイス(API)と相互作
用し、これは、次いで、アプリケーションプログラムの
APIと相互作用する。図9において、認識コンポーネ
ントは、ディクテーション編集コンポーネント及びアプ
リケーションプログラムにより与えられるAPIと相互
作用する。或いは又、アプリケーションプログラムを、
認識コンポーネント及びディクテーション編集コンポー
ネントにより与えられるAPIと相互作用することもで
きる。
【0019】図10は、再配列可能な修正ウインドウを
もつCSRシステムのフローチャートである。修正ウイ
ンドウを再配列することにより、話し手は、表示しなけ
ればならない認識されたワードリストからのワードの数
を指示することができる。ステップ501−510にお
いて、CSRシステムは、ワードに対応する発音を受け
取り、認識されたワードを表示し、そして話し手がワー
ドを修正できるように循環する。ステップ501におい
て、話し手がディクテーションを続ける場合には、シス
テムは、ステップ502へ続き、さもなくば、ディクテ
ーションは完了となる。ステップ502において、シス
テムは、話し手からの次の発音を入力する。ステップ5
03において、システムは、話された発音を認識するた
めに認識コンポーネントを呼び出す。認識コンポーネン
トは、認識されたワードのリストを、そのリストの各ワ
ードが話された発音に対応する確率と共に返送する。ス
テップ504において、システムは、認識されたワード
のリストから最も高い確率をもつワードを表示する。ス
テップ505−510において、システムは、話し手が
表示されたワードを修正できるように循環する。ステッ
プ505において、話し手が表示されたワードの修正を
指示する場合には、システムは、ステップ506へ続
き、さもなくば、システムは、ステップ501へ循環し
て、ディクテーションを続ける。ステップ506におい
て、システムは、修正ウインドウの現在サイズを決定す
る。ステップ507において、システムは、その現在サ
イズに基づき修正ウインドウに適合できるワードの数を
決定する。ステップ508において、システムは、認識
されたワードのリストから最も高い確率をもつワードの
数を選択し、そしてそれらのワードを修正ウインドウに
表示する。1つの実施形態において、システムは、これ
らの選択されたワードを表示の前にアルファベット順に
分類する。ステップ509において、システムは話し手
から正しいワードを受け取る。ステップ510におい
て、システムは、表示されたワードを正しいワードに置
き換え、そしてステップ505へ循環する。
【0020】図11は、修正ウインドウのウインドウ手
順を示すフローチャートである。このウインドウ手順
は、修正ウインドウに向けられる全てのイベント(即
ち、メッセージ)を受け取りそしてその処理を制御す
る。ステップ501において、ウインドウが再配列され
ることを指示するメッセージが受け取られた場合には、
手順がステップ502へ続き、さもなくば、手順は、他
のメッセージの通常の処理で続く。ステップ502にお
いて、手順は、修正ウインドウの新たなサイズを記憶す
る。更に、手順は、CSRシステムが修正ウインドウに
適合するワードの数を再計算し、そして修正ウインドウ
にその数のワードを再表示しなければならないことを指
示する。図12は、CSRシステムの調整可能なディク
テーションウインドウ処理のフローチャートである。調
整可能なディクテーションウインドウは、話し手がディ
クテーションウインドウに受け入れることのできる音声
の量を特定できるようにする。従って、話し手は、ディ
クテーション編集コンポーネントの修正ファシリティを
用いて、最後に話されたその量の音声を修正することが
できる。ステップ601において、システムは、ディク
テーションウインドウを表示する。ステップ602−6
09において、システムは、音声の各単位(例えばセン
テンス又はパラグラフ)を処理し、そして1つの単位が
話されたときに、その単位をアプリケーションプログラ
ムへ送信する。音声の単位は、ディクテーションウイン
ドウが再配列されたときのワードの行であってもよい。
ステップ602において、音声単位の終了が受け取られ
た場合に、システムは、ステップ610へ続き、さもな
くば、ステップ603に続く。ステップ610におい
て、システムは、音声単位をアプリケーションプログラ
ムへ送り、そしてステップ603に続く。ステップ60
3において、話し手がディクテーションの完了を指示す
ると、システムは終了となり、さもなくば、システム
は、ステップ604に続く。ステップ604において、
システムは、話し手から話された発音を入力する。ステ
ップ605において、システムは、認識コンポーネント
を呼び出して、話された発音を認識し、そして認識され
たワードのリストを返送する。ステップ606におい
て、システムは、認識されたワードのリストをその後の
修正のためにセーブする。ステップ607において、シ
ステムは、認識されたワードのリストにおいて最も高い
確率をもつワードを選択しそして表示する。ステップ6
08において、話し手が修正モードに入ることを指示す
る場合には、システムはステップ609に続き、さもな
くば、システムは、ステップ602へ循環して、音声単
位の終りに達したかどうか決定する。ステップ609に
おいて、システムは、話し手がディクテーションウイン
ドウ内のいずれかのワードを修正できるようにする。シ
ステムは、話し手によって要求されたときに、セーブさ
れた認識されたワードのリストからのワードを修正ウイ
ンドウに表示する。次いで、システムは、ステップ60
2へ循環し、次の発音を入力する。
【0021】図13は、ワード修正メタファを実施する
アプリケーションプログラム又はディクテーション編集
コンポーネントのウインドウ手順のフローチャートであ
る。このコンポーネントは、ディクテーションモードに
あるときに、編集の動作をキャラクタ指向ではなくワー
ド指向に変更する。ステップ701−705において、
この手順は、どのメッセージが受け取られたか決定す
る。ステップ701において、ディクテーションイネー
ブルメッセージが受け取られた場合には、手順はステッ
プ701Aに続き、さもなくば、手順はステップ702
に続く。ステップ701Aにおいて、手順は、モードを
ディクテーションモードにセットし、そして復帰する。
ステップ702において、メッセージがディクテーショ
ンディスエイブルメッセージである場合には、手順はス
テップ702Aに続き、さもなくば、手順はステップ7
03に続く。ステップ702Aにおいて、手順は、デー
タ入力がディクテーションによるのではなくキーボード
によることを指示するようにモードをセットし、そして
復帰する。ステップ703において、メッセージが受信
キャラクタメッセージである場合には、手順はステップ
703Aに続き、さもなくば、手順はステップ704に
続く。ステップ703Aにおいて、手順は、受け取った
キャラクタを表示する。キャラクタは、キーボード入力
を経て受け取られてもよいし、又は認識されたワードの
キャラクタの1つとして受け取られてもよい。ステップ
704において、メッセージがバックスペースメッセー
ジである場合には、手順はステップ704Aに続き、さ
もなくば、手順はステップ705に続く。ステップ70
4Aにおいて、現在モードがディクテーションの場合に
は、手順はステップ704Cに続き、さもなくば、手順
はステップ704Bに続く。ステップ704Cにおい
て、手順は現在挿入ポイントから1ワードだけバックス
ペースさせる。1ワードのバックスペース動作は、挿入
ポイントの左側のワードを削除し、そして復帰となる。
ステップ704Bにおいて、手順は1キャラクタの通常
のバックスペースを実行しそして復帰となる。ステップ
705において、メッセージがマウスクリックメッセー
ジである場合には、手順はステップ705Aに続き、さ
もなくば、手順は通常の処理を続ける。ステップ705
Aにおいて、現在モードがディクテーションである場合
には、手順はステップ705Cに続き、さもなくば、手
順はステップ705Bに続く。ステップ705Cにおい
て、クリックがワード内であれば、手順は全ワードを選
択する。さもなくば、手順は挿入ポイントをワード間に
セットし、そして復帰する。ステップ705Bにおい
て、手順は挿入ポイントを通常にセットし、そして復帰
となる。図14は、誤って認識されたワードを更なる認
識から除去するディクテーション編集コンポーネントの
フローチャートである。このコンポーネントは、話し手
が誤って認識されたワードを修正するために話すときを
検出し、そしてその誤って認識されたワードが再び話さ
れた発音として再び認識されるのを防止する。ステップ
801において、ディクテーションが完了した場合に
は、このコンポーネントが終了となるが、さもなくば、
ステップ803へ続く。ステップ803において、この
コンポーネントは、ディクテーションコンポーネントか
ら認識されたワードのリストを受け取る。ステップ80
4において、話された発音が話し手により誤って認識さ
れたワードを修正するよう試みられる場合には、このコ
ンポーネントはステップ805に続き、さもなくば、ス
テップ806に続く。ステップ805において、このコ
ンポーネントは、認識されたワードのリストから修正さ
れているワード以外のワードを選択しそしてステップ8
07に続く。ステップ806において、このコンポーネ
ントは、認識されたワードのリストから最も確率の高い
ワードを選択する。ステップ807において、このコン
ポーネントは、選択されたワードを表示する。ステップ
808において、話し手が修正モードに入ることを指示
する場合に、このコンポーネントはステップ809に続
くが、さもなくば、ステップ801へ循環して、別の発
音を入力する。ステップ809において、このコンポー
ネントは、表示されたワードに対する修正を受け取る。
ステップ810において、修正がキーボードにより入力
された場合には、このコンポーネントは、ステップ81
1に続き、さもなくば、ステップ801へ循環して、次
の入力発音を選択する。ステップ811において、タイ
プ打ちされたワードが既に語彙にある場合には、ステッ
プ813へ続き、さもなくば、ステップ812へ続く。
ステップ812において、このコンポーネントは、タイ
プ打ちされたワードを語彙に加える。ステップ813に
おいて、このコンポーネントは、タイプ打ちされたワー
ドに対して認識システムをトレーニングし、そしてステ
ップ801へ循環して次の発音を入力する。
【0022】図15は、認識プロセスを自動的にトレー
ニングするディクテーション編集コンポーネントのフロ
ーチャートである。ディクテーション編集コンポーネン
トは、誤って認識された発音を修正されたワード又はフ
レーズと共に収集する。次いで、ディクテーション編集
コンポーネントは、誤って認識された発音を修正された
ワード又はフレーズとして認識するよう認識プロセスを
トレーニングするように認識コンポーネントに指令す
る。このトレーニングは、各々の誤って認識された発音
が修正されるとき又は情報がセーブされるときに実行す
ることができ、そしてトレーニングは後で行うこともで
きる。ステップ901−903において、このコンポー
ネントは、誤って認識された発音及び正しいワード又は
フレーズを収集する。この情報は、話し手がワード又は
フレーズを修正したことをこのコンポーネントが検出し
たときに収集することができる。ステップ903におい
て、このコンポーネントは、認識装置をトレーニングす
べきかどうか決定する。このようなトレーニングは、そ
れを行わないとコンピュータシステムがアイドル状態に
なってしまうとき、又は認識の精度が受け入れられない
ものとなるときに行うことができる。ステップ904に
おいては、このコンポーネントは、収集した発音に基づ
いて認識装置をトレーニングする。
【0023】好ましい実施形態について本発明を以上に
説明したが、本発明は、この実施形態に限定されるもの
ではなく、当業者であれば、本発明の精神から逸脱せず
に、種々の変更がなされ得ることが明らかであろう。従
って、本発明の範囲は、特許請求の範囲のみによって限
定されるものとする。
【図面の簡単な説明】
【図1】再配列可能な修正ウインドウを例示する図であ
る。
【図2】再配列後の修正ウインドウを例示する図であ
る。
【図3】調整可能なディクテーションウインドウを示す
図である。
【図4】修正ウインドウを使用して、ディクテーション
ウインドウのテキストを修正する図である。
【図5】ディクテーション編集コンポーネントに対する
ワード/フレーズ修正メタファを示す図である。
【図6】ディクテーション編集コンポーネントに対する
ワード/フレーズ修正メタファを示す図である。
【図7】好ましい実施形態のコンピュータシステムを示
すブロック図である。
【図8】好ましい実施形態のコンピュータシステムを示
すブロック図である。
【図9】好ましい実施形態のコンピュータシステムを示
すブロック図である。
【図10】再配列可能なウインドウをもつディクテーシ
ョン編集コンポーネントのフローチャートである。
【図11】再配列可能なウインドウに対するウインドウ
手順を示すフローチャートである。
【図12】調整可能なディクテーションウインドウをも
つディクテーション編集コンポーネントのフローチャー
トである。
【図13】ワード修正メタファを実施するワードプロセ
ッサ又はディクテーション編集コンポーネントのウイン
ドウ手順を示すフローチャートである。
【図14】誤って認識されたワードが更に確認されるの
を排除するCSRシステムのフローチャートである。
【図15】自動認識トレーニングのフローチャートであ
る。
【符号の説明】
101 ディクテーション編集コンポーネントのウイン
ドウ 102 認識されたワード 103 修正ウインドウ 201 ディクテーションウインドウ 400 コンピュータシステム 401 メモリ 402 中央処理ユニット 403 I/Oインターフェイスユニット 404 記憶装置 405 ディスプレイ装置 406 キーボード 407 マウス 408 マイクロホン 409 認識コンポーネント 410 ディクテーション編集コンポーネント 411 アプリケーションプログラム
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−295784(JP,A) 特開 平1−309100(JP,A) 特開 昭61−41199(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 3/16 G06F 17/20 G10L 11/00 - 17/28

Claims (25)

    (57)【特許請求の範囲】
  1. 【請求項1】 認識されたワードをアプリケーションプ
    ログラムへの送信の前にバッファするためのディクテー
    ション編集システムにおける方法であって、 話し手から音声の量の指示を受け取り、 話し手から発音を受け取り、 受け取った発音を認識されたワードとして認識し、 認識されたワードをディクテーションウインドウに表示
    し、 表示されたワードを修正するための話し手からの要求に
    応答して、修正すべきワードに対する別のワードのリス
    トを表示し、修正すべきワードをそのリストからの別の
    ワードに置換し、 音声の指示された量が認識されそして表示されたとき
    に、そのディクテーションウインドウに表示されたワー
    ドをアプリケーションプログラムシステムへ転送する、 という段階を備える方法。
  2. 【請求項2】 上記音声の量は、センテンスとして指示
    される、請求項1に記載の方法。
  3. 【請求項3】 上記音声の量は、パラグラフとして指示
    される、請求項1に記載の方法。
  4. 【請求項4】 上記音声の量は、ディクテーションウイ
    ンドウのサイズを変えることにより指示される、請求項
    1に記載の方法。
  5. 【請求項5】 上記認識段階は、連続的な音声認識を使
    用する、請求項1に記載の方法。
  6. 【請求項6】 上記認識段階は、個別の音声認識を使用
    する、請求項1に記載の方法。
  7. 【請求項7】 上記アプリケーションプログラムは、ワ
    ードプロセッサである、請求項1に記載の方法。
  8. 【請求項8】 誤って認識したワードをユーザが修正で
    きるようにディクテーション編集システムから処理シス
    テムへワードを遅延送信するためのコンピュータシステ
    ムにおける方法であって、 ユーザから認識されたワードの量の指示を受け取り、 ワードの表示を受け取り、 受け取った表示を認識されたワードとして認識し、 認識されたワードを表示し、 表示されたワードをユーザにより指令されたように修正
    し、 指示された量の認識されたワードが認識されて表示され
    たときに、その表示されたワードの幾つかを処理システ
    ムへ転送する、 という段階を備える方法。
  9. 【請求項9】 上記受け取った表示は、話された発音で
    ある、請求項8に記載の方法。
  10. 【請求項10】 上記認識されたワードの量は、センテ
    ンスとして指示される、請求項8に記載の方法。
  11. 【請求項11】 上記認識されたワードの量は、パラグ
    ラフとして指示される、請求項8に記載の方法。
  12. 【請求項12】 上記認識されたワードの量は、ワード
    が表示されるウインドウのサイズを変えることにより指
    示される、請求項8に記載の方法。
  13. 【請求項13】 上記認識段階は、連続的な音声認識を
    使用する、請求項8に記載の方法。
  14. 【請求項14】 上記認識段階は、個別の音声認識を使
    用する、請求項8に記載の方法。
  15. 【請求項15】 ディクテーション編集システムにより
    誤って認識されたワードをユーザが修正できるようにデ
    ィクテーション編集システムから処理システムへワード
    を遅延送信するためのコンピュータシステムにおいて、 ユーザから認識されたワードの量の指示を受け取る手段
    と、 ワードの表示を受け取る手段と、 受け取った表示を認識されたワードとして認識する手段
    と、 認識されたワードを表示する手段と、 表示されたワードをユーザにより指令されたように修正
    する手段と、 指示された量の認識されたワードが認識されて表示され
    たときに、その表示されたワードの幾つかを処理システ
    ムへ転送する手段と、 を備えるコンピュータシステム。
  16. 【請求項16】 上記受け取った表示は、話された発音
    である請求項15に記載のコンピュータシステム。
  17. 【請求項17】 上記認識されたワードの量は、センテ
    ンスとして指示される請求項15に記載のコンピュータ
    システム。
  18. 【請求項18】 上記認識されたワードの量は、パラグ
    ラフとして指示される請求項15に記載のコンピュータ
    システム。
  19. 【請求項19】 上記認識されたワードの量は、ワード
    が表示されるウインドウのサイズを変えることにより指
    示される請求項15に記載のコンピュータシステム。
  20. 【請求項20】 誤って認識されたワードをユーザが修
    正できるようにコンピュータシステムがディクテーショ
    ン編集システムから処理システムへワードを遅延送信さ
    せるための命令を含むコンピュータ読み取り可能な媒体
    において、 ユーザから認識されたワードの量の指示を受け取り、 ユーザから話された発音を受け取り、 その受け取られた話された発音を認識されたワードとし
    て認識し、 認識されたワードを表示し、 表示されたワードをユーザにより指令されたように修正
    し、 指示された量の認識されたワードが認識されて表示され
    たときに、修正された表示されたワードの一部分を処理
    システムへ転送するためのプログラムを記録したことを
    特徴とするコンピュータ読み取り可能な媒体。
  21. 【請求項21】 上記認識されたワードの量は、センテ
    ンスとして指示される請求項20に記載のコンピュータ
    読み取り可能な媒体。
  22. 【請求項22】 上記認識されたワードの量は、パラグ
    ラフとして指示される請求項20に記載のコンピュータ
    読み取り可能な媒体。
  23. 【請求項23】 上記認識されたワードの量は、ワード
    が表示されるウインドウのサイズを変えることにより指
    示される請求項20に記載のコンピュータ読み取り可能
    な媒体。
  24. 【請求項24】 上記認識動作は、連続的な音声認識を
    使用する請求項20に記載のコンピュータ読み取り可能
    な媒体。
  25. 【請求項25】 上記認識動作は、個別の音声認識を使
    用する請求項20に記載のコンピュータ読み取り可能な
    媒体。
JP29894497A 1996-10-31 1997-10-30 音声認識中に認識されたワードをバッファする方法及びシステム Expired - Lifetime JP3333123B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/741,698 US5899976A (en) 1996-10-31 1996-10-31 Method and system for buffering recognized words during speech recognition
US08/741698 1996-10-31

Publications (2)

Publication Number Publication Date
JPH10187406A JPH10187406A (ja) 1998-07-21
JP3333123B2 true JP3333123B2 (ja) 2002-10-07

Family

ID=24981801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29894497A Expired - Lifetime JP3333123B2 (ja) 1996-10-31 1997-10-30 音声認識中に認識されたワードをバッファする方法及びシステム

Country Status (5)

Country Link
US (1) US5899976A (ja)
EP (1) EP0841655B1 (ja)
JP (1) JP3333123B2 (ja)
CN (1) CN1183608A (ja)
DE (1) DE69737987T2 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US6603835B2 (en) * 1997-09-08 2003-08-05 Ultratec, Inc. System for text assisted telephony
JP2991178B2 (ja) * 1997-12-26 1999-12-20 日本電気株式会社 音声ワープロ
US6195637B1 (en) * 1998-03-25 2001-02-27 International Business Machines Corp. Marking and deferring correction of misrecognition errors
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
GB2344917B (en) * 1998-12-16 2003-04-02 Ibm Speech command input recognition system
US6321197B1 (en) * 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
US6253177B1 (en) * 1999-03-08 2001-06-26 International Business Machines Corp. Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
US6374214B1 (en) * 1999-06-24 2002-04-16 International Business Machines Corp. Method and apparatus for excluding text phrases during re-dictation in a speech recognition system
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
US7263483B2 (en) * 2003-04-28 2007-08-28 Dictaphone Corporation USB dictation device
US20040243415A1 (en) * 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US7634720B2 (en) * 2003-10-24 2009-12-15 Microsoft Corporation System and method for providing context to an input method
US20050160433A1 (en) * 2004-01-21 2005-07-21 Lambert John R. Optimizations of user interface-independent testing
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
US7210307B2 (en) * 2005-02-08 2007-05-01 Whirlpool Corporation Refrigerator ice storage bin with lid
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20070265831A1 (en) * 2006-05-09 2007-11-15 Itai Dinur System-Level Correction Service
US7869996B2 (en) * 2006-11-22 2011-01-11 Multimodal Technologies, Inc. Recognition of speech in editable audio streams
US8010465B2 (en) 2008-02-26 2011-08-30 Microsoft Corporation Predicting candidates using input scopes
KR100988397B1 (ko) 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
KR101612788B1 (ko) * 2009-11-05 2016-04-18 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
FR3011374B1 (fr) * 2013-09-30 2015-10-23 Peugeot Citroen Automobiles Sa Procede de correction d'une sequence de mots acquise par reconnaissance vocale
US9779724B2 (en) 2013-11-04 2017-10-03 Google Inc. Selecting alternates in speech recognition
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US10748523B2 (en) 2014-02-28 2020-08-18 Ultratec, Inc. Semiautomated relay method and apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
JP7107229B2 (ja) * 2017-01-18 2022-07-27 ソニーグループ株式会社 情報処理装置および情報処理方法、並びにプログラム
US11597519B2 (en) 2017-10-17 2023-03-07 The Boeing Company Artificially intelligent flight crew systems and methods
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4566065A (en) * 1983-04-22 1986-01-21 Kalman Toth Computer aided stenographic system
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US4799262A (en) * 1985-06-27 1989-01-17 Kurzweil Applied Intelligence, Inc. Speech recognition
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
GB8610809D0 (en) * 1986-05-02 1986-06-11 Smiths Industries Plc Speech recognition apparatus
JP2717652B2 (ja) * 1986-06-02 1998-02-18 モトローラ・インコーポレーテッド 連続音声認識システム
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
US5604897A (en) * 1990-05-18 1997-02-18 Microsoft Corporation Method and system for correcting the spelling of misspelled words
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5248707A (en) * 1990-08-02 1993-09-28 Borden, Inc. Accelerators for refractory magnesia
US5548681A (en) * 1991-08-13 1996-08-20 Kabushiki Kaisha Toshiba Speech dialogue system for realizing improved communication between user and system
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5367453A (en) * 1993-08-02 1994-11-22 Apple Computer, Inc. Method and apparatus for correcting words
US5623578A (en) * 1993-10-28 1997-04-22 Lucent Technologies Inc. Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words
US5487143A (en) * 1994-04-06 1996-01-23 Altera Corporation Computer user interface having tiled and overlapped window areas
US5651096A (en) * 1995-03-14 1997-07-22 Apple Computer, Inc. Merging of language models from two or more application programs for a speech recognition system
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists

Also Published As

Publication number Publication date
JPH10187406A (ja) 1998-07-21
DE69737987T2 (de) 2008-04-24
DE69737987D1 (de) 2007-09-20
EP0841655A2 (en) 1998-05-13
CN1183608A (zh) 1998-06-03
EP0841655A3 (en) 1999-04-28
US5899976A (en) 1999-05-04
EP0841655B1 (en) 2007-08-08

Similar Documents

Publication Publication Date Title
JP3333123B2 (ja) 音声認識中に認識されたワードをバッファする方法及びシステム
JP4446312B2 (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
JP3477052B2 (ja) 連続音声認識中にフレーズを編集する方法及びシステム
US5829000A (en) Method and system for correcting misrecognized spoken words or phrases
EP0773532B1 (en) Continuous speech recognition
US5027406A (en) Method for interactive speech recognition and training
EP0965979B1 (en) Position manipulation in speech recognition
US4829576A (en) Voice recognition system
US5799279A (en) Continuous speech recognition of text and commands
US5864805A (en) Method and apparatus for error correction in a continuous dictation system
EP0965978B9 (en) Non-interactive enrollment in speech recognition
US20060293889A1 (en) Error correction for speech recognition systems
JPH10187184A (ja) 認識された音声を修正するときに認識されたワードを選択する方法及びシステム
JP2000276189A (ja) 日本語ディクテーションシステム
JPH06250689A (ja) 音声認識装置
JP2000010588A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020617

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070726

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080726

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080726

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090726

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090726

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100726

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110726

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110726

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120726

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120726

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130726

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term