JPH10133685A - 連続音声認識中にフレーズを編集する方法及びシステム - Google Patents
連続音声認識中にフレーズを編集する方法及びシステムInfo
- Publication number
- JPH10133685A JPH10133685A JP9298947A JP29894797A JPH10133685A JP H10133685 A JPH10133685 A JP H10133685A JP 9298947 A JP9298947 A JP 9298947A JP 29894797 A JP29894797 A JP 29894797A JP H10133685 A JPH10133685 A JP H10133685A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- word
- words
- dictation
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012937 correction Methods 0.000 description 51
- 238000012986 modification Methods 0.000 description 23
- 230000004048 modification Effects 0.000 description 23
- 238000003780 insertion Methods 0.000 description 12
- 230000037431 insertion Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 235000009421 Myristica fragrans Nutrition 0.000 description 5
- 239000001115 mace Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 244000144730 Amygdalus persica Species 0.000 description 3
- 235000006040 Prunus persica var persica Nutrition 0.000 description 3
- 230000008707 rearrangement Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
て誤って認識された話された発音を複数のワードをもつ
フレーズとして修正する方法を提供する。 【解決手段】 誤って認識されたワードを編集するシス
テムは、修正ウインドウを再配列することにより修正ウ
インドウに表示されるべき代替えワードの数を話し手が
特定できるようにする。又、このシステムは、修正ウイ
ンドウにワードをアルファベット順に表示する。好まし
いシステムは、誤って認識されたワードが再び話された
ときに、その再び話された発音が同じ誤って認識された
ワードとして再び認識されるおそれを排除する。このシ
ステムは、ワードプロセッサと共に動作したときには、
ワードプロセッサへ転送される前にバッファされる音声
の量を話し手が特定できるようにする。
Description
認識に係り、より詳細には、音声認識システムにより発
生されるディクテーション体の編集に係る。
そしてディクテーションされた語を自動的に認識するこ
とのできるコンピュータ音声ディクテーションシステム
がコンピュータ音声システムの開発者により長年追求さ
れた目標となっている。このようなコンピュータ音声認
識(CSR)システムから得られるであろう利益は、多
大なものである。例えば、文書をコンピュータシステム
に打ち込むのではなく、個人が文書のワードを単に話
し、CSRシステムはそのワードを認識し、そして各ワ
ードの文字を、それらワードがあたかもタイプされたか
のように記憶する。人々は一般にタイプするよりは速く
話せるので、効率が改善される。又、人々は、タイプの
仕方を学習する必要がもはやなくなる。又、個人の手が
タイプ打ち以外の作業で占有されるためにコンピュータ
の使用が現在不可能となっている多数の用途にもコンピ
ュータを使用することができる。
ネントと、ディクテーション編集コンポーネントとを有
する。認識コンポーネントは、話し手から一連の発音を
受け取り、各発音を認識し、そして各発音に対して認識
されたワードをディクテーション編集コンポーネントへ
送るように制御を行う。ディクテーション編集コンポー
ネントは、その認識されたワードを表示し、そして誤っ
て認識されたワードをユーザが修正できるようにする。
例えば、ディクテーション編集コンポーネントは、ユー
ザが、ワードを再び話すか又は正しいワードをタイプ打
ちすることにより、誤って認識されたワードを取り換え
られるようにする。
彙の各ワードごとに発音のモデルを含む。認識コンポー
ネントは、話された発音を受け取ると、その話された発
音を、その語彙の各ワードのモデリングされた発音と比
較し、その話された発音に最も厳密に一致するモデリン
グされた発音を見出すように試みる。典型的な認識コン
ポーネントは、各モデリングされた発音が話された発音
に一致する確率を計算する。このような認識コンポーネ
ントは、話された発音に一致する確率が最も高いワード
のリスト(認識ワードリストと称する)をディクテーシ
ョン編集コンポーネントへ送信する。
一般に、最も高い確率をもつ認識されたワードリストか
らのワードを、その話された発音に対応する認識された
ワードとして選択する。次いで、ディクテーション編集
コンポーネントは、そのワードを表示する。しかしなが
ら、表示されたワードが、話された発音の誤った認識で
ある場合には、ディクテーション編集コンポーネント
は、話し手が、その誤って認識されたワードを修正でき
るようにする。話し手がその誤って認識されたワードの
修正を指示するときに、ディクテーション編集コンポー
ネントは、認識されたワードリストの中のワードを含む
修正ウインドウを表示する。そのリストのワードの1つ
が正しいワードである場合に、話し手は、そのワード上
でクリックするだけで修正を行うことができる。しかし
ながら、正しいワードがリストにない場合には、話し手
は、正しいワードを話すか、又はタイプ打ちする。
は、ワードプロセッサのためのディクテーションファシ
リティとして働く。このようなCSRシステムは、話さ
れた発音の受信及び認識を制御し、そして認識されたワ
ードに対応する各キャラクタをワードプロセッサへ送信
する。このような構成は、話し手が、既に話したワード
を修正しようと試みるときに、ワードプロセッサが認識
されたワードのリストをアクセスせず、従って、これら
のワードを表示して容易に修正を行うことができない。
ネント及びディクテーション編集コンポーネントを有す
る新規で且つ改良されたコンピュータ音声認識(CS
R)システムを提供する。ディクテーション編集コンポ
ーネントは、誤って認識されたワードを迅速に修正する
ことができる。ディクテーション編集コンポーネント
は、話し手が、修正ウインドウを再配列することによ
り、修正ウインドウに表示されるべき代替えワードの数
を選択できるようにする。ディクテーション編集コンポ
ーネントは、正しいワードを探し易くするためにアルフ
ァベット順に修正ウインドウにワードを表示する。本発
明の別の特徴においては、CSRシステムは、誤って認
識されたワード又はフレーズを再び話したときに、以前
に話された発音及び新たに話された発音の両方の分析に
基づき、その再び話された発音が、同じ誤って認識され
たワード又はフレーズとして再び認識されるおそれを排
除する。又、ディクテーション編集コンポーネントは、
認識されたワードをワードプロセッサへ転送する前にデ
ィクテーション編集コンポーネントにバッファされる音
声の量を話し手が特定できるようにする。又、ディクテ
ーション編集コンポーネントは、通常はキャラクタベー
スである編集動作をワードベース又はフレーズベースの
いずれかに変更するためのワード修正メタファ又はフレ
ーズ修正メタファも使用する。
(CSR)システムによって形成されるディクテーショ
ン体を編集することのできるディクテーション編集コン
ポーネントを提供する。1つの実施形態では、ディクテ
ーション編集コンポーネントは、話し手が、修正ウイン
ドウを再配列することにより、修正ウインドウに表示さ
れるべき代替えワードの数を選択できるようにする。更
に、ディクテーション編集コンポーネントは、修正ウイ
ンドウにワードをアルファベット順に表示する。又、好
ましいディクテーション編集コンポーネントは、誤って
認識されたワードが再び話されるときに、その再び話さ
れる発音が、同じ誤って認識されたワードとして再度認
識されるおそれを排除する。ディクテーション編集コン
ポーネントは、ワードプロセッサのようなアプリケーシ
ョンプログラムへ認識されたワードを与えるときに、好
ましくは、話し手が、認識されたワードをアプリケーシ
ョンプログラムへ転送する前にディクテーション編集コ
ンポーネントによりバッファされる音声の量を特定でき
るようにする。以下の説明において、本発明の種々の特
徴は、個別のCSRシステム(即ち話し手が各ワード間
に休止する)に関連して使用するときについて説明す
る。しかしながら、これらの特徴は、連続的CRSシス
テムに関連して使用することもできる。例えば、表示さ
れるべき代替えフレーズの数を指示するように修正ウイ
ンドウを再配列することができる。又、話し手が置き換
えられるべきフレーズを選択するときには、ユーザイン
ターフェイスシステムが、同じフレーズが再び認識され
ないよう確保することができる。
示する。ディクテーション編集コンポーネントのウイン
ドウ101は、認識されたワード102及び修正ウイン
ドウ103を含む。この例では、話し手は、ワード「I
will make the cake. 」と話している。認識コンポーネ
ントは、ワード「make」をワード「fake」と誤って認識
している。このとき、話し手は、ワード「fake」を修正
しなければならないことを指示する。修正ウインドウを
表示する前に、ディクテーション編集コンポーネント
は、再配列可能な修正ウインドウの現在サイズを決定
し、そしてその修正ウインドウに表示することのできる
ワードの数を計算する。次いで、ディクテーション編集
コンポーネントは、最も高い確率をもつ認識されたワー
ドのリスト(即ち、代替えワード)からその数のワード
を選択し、そして標準的なウインドウ再配列技術(例え
ば、マウスポインタでウインドウの境界を指しそしてマ
ウスをドラッギングする)を用いて修正ウインドウにそ
れらのワードを表示する。話し手が更に多くのワードを
リストから見たい場合には、修正ウインドウを単に再配
列するだけでよい。修正ウインドウが再配列されるとき
には、ディクテーション編集コンポーネントは、修正ウ
インドウに表示することのできるワードの数を再び決定
し、そしてその数のワードを修正ウインドウに表示す
る。話し手がワードの修正を指示する次のときに、ディ
クテーション編集コンポーネントは、その最後の再配列
に基づいて適合する数のワードを修正ウインドウに表示
する。このように、話し手は、修正ウインドウを単に再
配列するだけで、表示されるべきワードの数を効果的に
選択することができる。図2は、再配列後の修正ウイン
ドウを例示する。
トは、修正ウインドウにワードをアルファベット順に表
示するのが好ましい。アルファベット順にワードを表示
することにより、話し手は、正しいワードが表示された
場合にそれを素早く見つけることができる。公知のディ
クテーション編集コンポーネントは、そのコンポーネン
トにより決定された確率に基づく順序で修正ウインドウ
にワードを表示する。しかしながら、確率順に表示され
たときには、正しいワードが第1番目又は第2番目に表
示されない限り、話し手が正しいワードを見つけるのが
困難である。
イスするCSRシステムのための調整可能なディクテー
ションウインドウを示す。CSRシステムは、話し手か
らの一連の発音を入力し、発音を認識し、そして発音に
対して認識されたワードをディクテーションウインドウ
201に表示する。ディクテーションウインドウは、デ
ィクテーション編集コンポーネントによって制御される
ので、話し手は、ディクテーションウインドウにおいて
ワードを修正することができる。従って、話し手は、デ
ィクテーションウインドウ内のワードの修正を選択する
と、ディクテーション編集コンポーネントによってサポ
ートされた修正ファシリティのいずれかを使用すること
ができる。例えば、話し手は、ディクテーションウイン
ドウに現在表示されているワードに対して認識されたワ
ードリストのワードを表示するように修正ウインドウを
使用することができる。図4は、修正ウインドウを使用
して、ディクテーションウインドウのテキストを修正す
る場合を示す。
ン編集コンポーネントは、話し手が、ディクテーション
ウインドウが受け入れることのできる音声の量を調整で
きるようにする。話し手は、ディクテーションウインド
ウ内のワードに対して修正ファシリティを使用できるだ
けであって、ワードプロセッサのウインドウ内のワード
については使用できないので、話し手のディクテーショ
ンの習慣に基づき音声の量を受け入れるようにディクテ
ーションウインドウのサイズを調整することができる。
例えば、話し手は、ディクテーションウインドウが、1
つのセンテンス、1つのパラグラフ、又は固定数のワー
ドのみを受け入れねばならないことを特定することがで
きる。或いは又、話し手は、ディクテーションウインド
ウがウインドウに適合できる数のワードを受け入れねば
ならないことを指示するために、標準的なウインドウ再
配列技術を用いてディクテーションウインドウを再配列
することもできる。ディクテーションウインドウがいっ
ぱいになったときには、CSRシステムは、ディクテー
ションウインドウ内の全てのワード又は幾つかのワード
をワードプロセッサへ送信する。例えば、ディクテーシ
ョンウインドウがセンテンスを受け入れねばならないこ
とを話し手が指示する場合には、新たなセンテンスがス
タートするときに、CSRシステムは、全てのワード
(即ち、1つのセンテンス)をワードプロセッサへ送信
する。逆に、話し手がディクテーションウインドウを再
配列した場合には、CSRシステムは、一度に1行のワ
ードのみをワードプロセッサへ送信する。
ントのためのワード修正メタファ(比喩)を示す。ワー
ドプロセスシステムがディクテーションモードにあると
きには、ディクテーション編集コンポーネントは、種々
の編集事象(例えば、キーボード事象、マウス事象、ペ
ン事象及び音声事象)の定義をキャラクタベースではな
く、ワードベースとなるように自動的に変更する。例え
ば、ディクテーションモードにあるときには、通常は1
キャラクタ分バックスペースするバックスペースキー
が、一度に1ワードだけバックスペースするように変更
される。従って、ディクテーションモードにあるとき
に、ユーザがバックスペースキーを押すと、現在挿入ポ
イントの左側にある全ワードが削除される。同様に、デ
ィクテーションモードにあるときに、右及び左矢印キー
は、挿入ポイントを左又は右に1ワードだけ移動させ、
そして削除キーは、挿入ポイントの右側の全ワードを削
除する。又、ユーザがマウスのボタンをクリックしそし
てマウスポインタがワードの上にあるときには、ディク
テーション編集コンポーネントは、挿入ポイントをワー
ド内に単にセットするのではなく、マウスポインタが上
にあるところのワードを選択する。しかしながら、マウ
スポインタがワード間にある場合は、挿入ポイントが単
にワード間にセットされる。行301−304は、ワー
ド修正メタファの作用を例示する。各行は、指示された
事象が生じる前後のテキストを示している。例えば、行
302は、挿入ポイントがワード「test」の後である場
合に、左矢印事象により、挿入ポイントがワード「tes
t」の前に移動されることを示している。ワード修正メ
タファの使用は、ディクテーションモードにあるとき
に、典型的な話し手が修正時に全ワードを再度話すこと
を望むので、ワードの修正を容易にする。従って、話し
手がワード上でクリックすると、全ワードが選択され、
そして話し手は、選択されたワードを置き換えるように
単に話すだけでよい。音声認識が連続的であるときに
は、フレーズ修正メタファが好ましい。連続的な音声認
識は、ワード境界を正しく識別しないことがあるので、
ワード修正メタファは、発音がワードの一部分のみを表
すか又は多数のワードを表すような誤って認識されたワ
ードを選択する。このような状況では全フレーズを単に
再度話すのが好ましい。従って、種々の編集事象の定義
は、ワードベースで変更されるのではなく、フレーズベ
ースで変更されることになる。例えば、通常は手前のキ
ャラクタを越えてバックスペースするワード「バックス
ペース」を話すユーザの編集事象は、一度に1フレーズ
だけバックスペースするように変更される。図6は、こ
のフレーズ修正メタファを示す。
は、再び話された発音を、修正されている同じワードと
して再び認識するのを防止するために、誤って認識され
たワードの排除を与える。ディクテーション編集コンポ
ーネントは、話し手が誤って認識されたワードをいつ修
正するかを決定する。話し手は、誤って認識されたワー
ドを種々の方法で修正することができる。例えば、話し
手は、ワードを削除し、そしてワードが削除された位置
における挿入ポイントで話すことができる。或いは又、
話し手は、誤って認識されたワードをハイライト処理
し、次いで、そのハイライト処理されたワードに置き換
えるように話すこともできる。認識コンポーネントは、
再び話された発音を受け取ると、その発音を認識し、そ
して新たに認識されたワードのリストをディクテーショ
ン編集コンポーネントへ送る。次いで、ディクテーショ
ン編集コンポーネントは、修正されているワード以外の
最も高い確率をもつワードをその新たに認識されたワー
ドのリストから選択しそして表示する。1つの実施形態
において、ディクテーション編集コンポーネントは、誤
って認識された発音に対する以前に認識されたワードの
リストと、新たに認識されたワードリストとを使用し
て、両方の発音に一致する確率が最も高いワード(修正
されているワード以外の)を選択する。最も高い確率を
計算するために、ディクテーション編集コンポーネント
は、両方の認識されたワードのリストにあるワードを識
別し、そしてそれらの確率を乗算する。例えば、以下の
テーブルは、認識されたワードのリスト及びそれに対応
する確率の例を示す。 以前に認識されたワードのリスト 新たに認識されたワードのリスト Fake .4 Fake .4 Make .3 Mace .3 Bake .1 Make .2 Mace .1 Bake .1 話し手がワード「make」を話した場合には、誤って認識
されたワードの排除がないと、ディクテーション編集コ
ンポーネントは、両方のリストにおいて最も高い確率を
有することから、ワード「fake」を2回とも選択する。
誤って認識されたワードの排除がある場合には、ディク
テーション編集コンポーネントは、ワード「fake」が修
正されるときに、ワード「mace」を選択する。というの
は、ワード「mace」は、現在リストにおいてワード「fa
ke」以外に最も高い確率を有するからである。しかしな
がら、両方の認識されたワードのリストからの確率が合
成されたときには、ディクテーション編集コンポーネン
トは、ワード「make」を正しいワードとして選択する。
というのは、最も高い合成確率を有するからである。ワ
ード「make」の合成確率は、0.06(0.3x0.
2)であり、ワード「mace」に場合には、0.03
(0.1x0.3)であり、そしてワード「bake」の場
合には、0.01(0.1x0.1)である。
に自動的に追加し、そして自動的にトレーニングする。
ユーザが正しいワードをタイプ打ちすることにより誤っ
て認識されたワードを修正するときには、ディクテーシ
ョン編集コンポーネントは、そのタイプ打ちされたワー
ドが語彙にあるかどうか決定する。そのタイプ打ちされ
たワードが語彙にない場合には、ディクテーション編集
コンポーネントは、誤って認識された話された発音を用
いてそれを語彙に加えて、そのワードに対するモデルを
トレーニングするように認識コンポーネントに指令す
る。しかしながら、そのタイプ打ちされたワードが語彙
にある場合には、ディクテーション編集コンポーネント
は、誤って認識された話された発音でそのタイプ打ちさ
れたワードをトレーニングするように認識コンポーネン
トに自動的に指令する。
連続的なディクテーションシステムと共に使用したとき
には、ワード修正に加えて、フレーズ修正を行うことが
できる。連続的なディクテーションシステムでは、認識
コンポーネントは、ワードの境界を誤って識別すること
がある。例えば、話し手は、フレーズ「I want to reco
gnize speech. 」と言う。認識コンポーネントは、話さ
れたフレーズを「I want to wreck a nice beach. 」と
認識することがある。しかしながら、単一ワード修正を
使用した場合には、このような誤った認識を修正するた
めの話し手に非常に馴染み易い方法が与えられない。話
し手がワード「beach 」の代替えワードを見つけたい場
合には、修正ウインドウにワード「peach 」、「teach
」及びおそらくは「speech」が表示される。話し手が
ワード「nice」の代替えワードを見つけたい場合には、
ワード「ice 」及び「rice」が表示され、そしてワード
「wreck 」については、ワード「heck」及び「rack」が
表示される。このような単一ワード修正は、ワード「re
cognize speech」を識別しない。
誤ったワード境界から生じた誤った認識を効率的に修正
できるようにフレーズを修正することができる。話し手
が修正のためのフレーズを選択すると、ディクテーショ
ン編集コンポーネントは、代替えフレーズのリストを選
択して表示する。例えば、話し手が「wreck a nice bea
ch」を選択する場合には、その代替えフレーズが「wrec
k a nice peach」、「rack an ice leach 」及び「reco
gnize speech」となる。又、話し手が「wrecka nice」
を選択すると、その代替えフレーズは、「rack on ice
」及び「recognize 」となる。
れたフレーズを選択すると、ディクテーション編集コン
ポーネントは、現在のフレーズがその誤って認識された
フレーズと2ワード以上異なると仮定する。誤って認識
されたフレーズにおいて1ワードだけが不適切な場合に
は、話し手は、その誤って認識されたワードを単に選択
し、誤って認識された全フレーズを選択しない。この仮
定を用いると、ディクテーション編集コンポーネント
は、誤って認識されたフレーズと1ワードしか相違しな
い代替えフレーズは表示しない。上記の例を続けると、
話し手が「wrecka nice beach」を選択する場合に、代
替えフレーズ「rack an ice leach 」及び「recognize
speech」のみが表示される。代替えフレーズ「wreck a
nice peach」は、1ワードしか相違しないので、表示さ
れない。更に、1つの実施形態において、ディクテーシ
ョン編集コンポーネントは、話し手が修正のためのフレ
ーズを選択したときに、誤った認識が不適切に識別され
たワード境界によるものであると仮定する。特に、表示
された代替えワードを選択することによりフレーズを修
正できる場合には、話し手は、それらの代替えワードを
選択する。従って、ディクテーション編集コンポーネン
トは、代替えリストから個々のワードを修正することに
より修正できる代替えフレーズは表示しない。例えば、
ディクテーション編集コンポーネントは、ワード「rac
k」、「an」、「ice 」及び「leach 」が誤って認識さ
れた対応ワードの代替えワードである場合には、フレー
ズ「rack an ice leach 」を表示しない。
システムのブロック図である。コンピュータシステム4
00は、メモリ401と、中央処理ユニット402と、
I/Oインターフェイスユニット403と、記憶装置4
04と、ディスプレイ装置405と、キーボード406
と、マウス407と、マイクロホン408とを備えてい
る。メモリは、モデルコンポーネント408と、認識コ
ンポーネント409と、ディクテーション編集コンポー
ネント410とを含むCSRシステムを備えていると共
に、アプリケーションプログラム411も備えている。
モデルコンポーネントは、語彙のワードに対する種々の
モデル発音を含んでいる。認識コンポーネントは、話さ
れた発音を受け取り、モデルコンポーネントにアクセス
して、認識されたワードのリストを発生する。ディクテ
ーション編集コンポーネントは、認識されたワードのリ
ストを受け取り、そして認識されたワードを表示する。
認識コンポーネント、ディクテーション編集コンポーネ
ント、及びアプリケーションプログラムは、種々の方法
で相互接続することができる。図8及び9は、認識コン
ポーネント、ディクテーション編集コンポーネント及び
アプリケーションプログラムの種々の相互接続を示すブ
ロック図である。図8において、認識コンポーネント
は、ディクテーション編集コンポーネントのアプリケー
ションプログラムインターフェイス(API)とインタ
ーフェイスし、これは、次いで、アプリケーションプロ
グラムのAPIとインターフェイスする。図9におい
て、認識コンポーネントは、ディクテーション編集コン
ポーネント及びアプリケーションプログラムにより与え
られるAPIとインターフェイスする。或いは又、アプ
リケーションプログラムを、認識コンポーネント及びデ
ィクテーション編集コンポーネントにより与えられるA
PIとインターフェイスすることもできる。
もつCSRシステムのフローチャートである。修正ウイ
ンドウを再配列することにより、話し手は、表示しなけ
ればならない認識されたワードリストからのワードの数
を指示することができる。ステップ501−510にお
いて、CSRシステムは、ワードに対応する発音を受け
取り、認識されたワードを表示し、そして話し手がワー
ドを修正できるように循環する。ステップ501におい
て、話し手がディクテーションを続ける場合には、シス
テムは、ステップ502へ続き、さもなくば、ディクテ
ーションは完了となる。ステップ502において、シス
テムは、話し手からの次の発音を入力する。ステップ5
03において、システムは、話された発音を認識するた
めに認識コンポーネントを呼び出す。認識コンポーネン
トは、認識されたワードのリストを、そのリストの各ワ
ードが話された発音に対応する確率と共に返送する。ス
テップ504において、システムは、認識されたワード
のリストから最も高い確率をもつワードを表示する。ス
テップ505−510において、システムは、話し手が
表示されたワードを修正できるように循環する。ステッ
プ505において、話し手が表示されたワードの修正を
指示する場合には、システムは、ステップ506へ続
き、さもなくば、システムは、ステップ501へ循環し
て、ディクテーションを続ける。ステップ506におい
て、システムは、修正ウインドウの現在サイズを決定す
る。ステップ507において、システムは、その現在サ
イズに基づき修正ウインドウに適合できるワードの数を
決定する。ステップ508において、システムは、認識
されたワードのリストから最も高い確率をもつワードの
数を選択し、そしてそれらのワードを修正ウインドウに
表示する。1つの実施形態において、システムは、これ
らの選択されたワードを表示の前にアルファベット順に
分類する。ステップ509において、システムは話し手
から正しいワードを受け取る。ステップ510におい
て、システムは、表示されたワードを正しいワードに置
き換え、そしてステップ505へ循環する。
順を示すフローチャートである。このウインドウ手順
は、修正ウインドウに向けられる全ての事象(即ち、メ
ッセージ)を受け取りそしてその処理を制御する。ステ
ップ501において、ウインドウが再配列されることを
指示するメッセージが受け取られた場合には、手順がス
テップ502へ続き、さもなくば、手順は、他のメッセ
ージの通常の処理で続く。ステップ502において、手
順は、修正ウインドウの新たなサイズを記憶する。更
に、手順は、CSRシステムが修正ウインドウに適合す
るワードの数を再計算し、そして修正ウインドウにその
数のワードを再表示しなければならないことを指示す
る。
ィクテーションウインドウ処理のフローチャートであ
る。調整可能なディクテーションウインドウは、話し手
がディクテーションウインドウに受け入れることのでき
る音声の量を特定できるようにする。従って、話し手
は、ディクテーション編集コンポーネントの修正ファシ
リティを用いて、最後に話されたその量の音声を修正す
ることができる。ステップ601において、システム
は、ディクテーションウインドウを表示する。ステップ
602−609において、システムは、音声の各単位
(例えばセンテンス又はパラグラフ)を処理し、そして
1つの単位が話されたときに、その単位をアプリケーシ
ョンプログラムへ送信する。音声の単位は、ディクテー
ションウインドウが再配列されたときのワードの行であ
ってもよい。ステップ602において、音声単位の終了
が受け取られた場合に、システムは、ステップ610へ
続き、さもなくば、ステップ603に続く。ステップ6
10において、システムは、音声単位をアプリケーショ
ンプログラムへ送り、そしてステップ603に続く。ス
テップ603において、話し手がディクテーションの完
了を指示すると、システムは終了となり、さもなくば、
システムは、ステップ604に続く。ステップ604に
おいて、システムは、話し手から話された発音を入力す
る。ステップ605において、システムは、認識コンポ
ーネントを呼び出して、話された発音を認識し、そして
認識されたワードのリストを返送する。ステップ606
において、システムは、認識されたワードのリストをそ
の後の修正のためにセーブする。ステップ607におい
て、システムは、認識されたワードのリストにおいて最
も高い確率をもつワードを選択しそして表示する。ステ
ップ608において、話し手が修正モードに入ることを
指示する場合には、システムはステップ609に続き、
さもなくば、システムは、ステップ602へ循環して、
音声単位の終りに達したかどうか決定する。ステップ6
09において、システムは、話し手がディクテーション
ウインドウ内のいずれかのワードを修正できるようにす
る。システムは、話し手によって要求されたときに、セ
ーブされた認識されたワードのリストからのワードを修
正ウインドウに表示する。次いで、システムは、ステッ
プ602へ循環し、次の発音を入力する。
アプリケーションプログラム又はディクテーション編集
コンポーネントのウインドウ手順のフローチャートであ
る。このコンポーネントは、ディクテーションモードに
あるときに、編集の動作をキャラクタ指向ではなくワー
ド指向に変更する。ステップ701−705において、
この手順は、どのメッセージが受け取られたか決定す
る。ステップ701において、ディクテーションイネー
ブルメッセージが受け取られた場合には、手順はステッ
プ701Aに続き、さもなくば、手順はステップ702
に続く。ステップ701Aにおいて、手順は、モードを
ディクテーションモードにセットし、そして復帰する。
ステップ702において、メッセージがディクテーショ
ンディスエイブルメッセージである場合には、手順はス
テップ702Aに続き、さもなくば、手順はステップ7
03に続く。ステップ702Aにおいて、手順は、デー
タ入力がディクテーションによるのではなくキーボード
によることを指示するようにモードをセットし、そして
復帰する。ステップ703において、メッセージが受信
キャラクタメッセージである場合には、手順はステップ
703Aに続き、さもなくば、手順はステップ704に
続く。ステップ703Aにおいて、手順は、受け取った
キャラクタを表示する。キャラクタは、キーボード入力
を経て受け取られてもよいし、又は認識されたワードの
キャラクタの1つとして受け取られてもよい。ステップ
704において、メッセージがバックスペースメッセー
ジである場合には、手順はステップ704Aに続き、さ
もなくば、手順はステップ705に続く。ステップ70
4Aにおいて、現在モードがディクテーションの場合に
は、手順はステップ704Cに続き、さもなくば、手順
はステップ704Bに続く。ステップ704Cにおい
て、手順は現在挿入ポイントから1ワードだけバックス
ペースさせる。1ワードのバックスペース動作は、挿入
ポイントの左側のワードを削除し、そして復帰となる。
ステップ704Bにおいて、手順は1キャラクタの通常
のバックスペースを実行しそして復帰となる。ステップ
705において、メッセージがマウスクリックメッセー
ジである場合には、手順はステップ705Aに続き、さ
もなくば、手順は通常の処理を続ける。ステップ705
Aにおいて、現在モードがディクテーションである場合
には、手順はステップ705Cに続き、さもなくば、手
順はステップ705Bに続く。ステップ705Cにおい
て、クリックがワード内であれば、手順は全ワードを選
択する。さもなくば、手順は挿入ポイントをワード間に
セットし、そして復帰する。ステップ705Bにおい
て、手順は挿入ポイントを通常にセットし、そして復帰
となる。
る認識から除去するディクテーション編集コンポーネン
トのフローチャートである。このコンポーネントは、話
し手が誤って認識されたワードを修正するために話すと
きを検出し、そしてその誤って認識されたワードが再び
話された発音として再び認識されるのを防止する。ステ
ップ801において、ディクテーションが完了した場合
には、このコンポーネントが終了となるが、さもなく
ば、ステップ803へ続く。ステップ803において、
このコンポーネントは、ディクテーションコンポーネン
トから認識されたワードのリストを受け取る。ステップ
804において、話された発音が話し手により誤って認
識されたワードを修正するよう試みられる場合には、こ
のコンポーネントはステップ805に続き、さもなく
ば、ステップ806に続く。ステップ805において、
このコンポーネントは、認識されたワードのリストから
修正されているワード以外のワードを選択しそしてステ
ップ807に続く。ステップ806において、このコン
ポーネントは、認識されたワードのリストから最も確率
の高いワードを選択する。ステップ807において、こ
のコンポーネントは、選択されたワードを表示する。ス
テップ808において、話し手が修正モードに入ること
を指示する場合に、このコンポーネントはステップ80
9に続くが、さもなくば、ステップ801へ循環して、
別の発音を入力する。ステップ809において、このコ
ンポーネントは、表示されたワードに対する修正を受け
取る。ステップ810において、修正がキーボードによ
り入力された場合には、このコンポーネントは、ステッ
プ811に続き、さもなくば、ステップ801へ循環し
て、次の入力発音を選択する。ステップ811におい
て、タイプ打ちされたワードが既に語彙にある場合に
は、ステップ813へ続き、さもなくば、ステップ81
2へ続く。ステップ812において、このコンポーネン
トは、タイプ打ちされたワードを語彙に加える。ステッ
プ813において、このコンポーネントは、タイプ打ち
されたワードに対して認識システムをトレーニングし、
そしてステップ801へ循環して次の発音を入力する。
ニングするディクテーション編集コンポーネントのフロ
ーチャートである。ディクテーション編集コンポーネン
トは、誤って認識された発音を修正されたワード又はフ
レーズと共に収集する。次いで、ディクテーション編集
コンポーネントは、誤って認識された発音を修正された
ワード又はフレーズとして認識するよう認識プロセスを
トレーニングするように認識コンポーネントに指令す
る。このトレーニングは、各々の誤って認識された発音
が修正されるとき又は情報がセーブされるときに実行す
ることができ、そしてトレーニングは後で行うこともで
きる。ステップ901−903において、このコンポー
ネントは、誤って認識された発音及び正しいワード又は
フレーズを収集する。この情報は、話し手がワード又は
フレーズを修正したことをこのコンポーネントが検出し
たときに収集することができる。ステップ903におい
て、このコンポーネントは、認識装置をトレーニングす
べきかどうか決定する。このようなトレーニングは、そ
れを行わないとコンピュータシステムがアイドル状態に
なってしまうとき、又は認識の精度が受け入れられない
ものとなるときに行うことができる。ステップ904に
おいては、このコンポーネントは、収集した発音に基づ
いて認識装置をトレーニングする。
説明したが、本発明は、この実施形態に限定されるもの
ではなく、当業者であれば、本発明の精神から逸脱せず
に、種々の変更がなされ得ることが明らかであろう。従
って、本発明の範囲は、特許請求の範囲のみによって限
定されるものとする。
る。
る。
図である。
ウインドウのテキストを修正する図である。
ワード/フレーズ修正メタファを示す図である。
ワード/フレーズ修正メタファを示す図である。
すブロック図である。
すブロック図である。
すブロック図である。
ョン編集コンポーネントのフローチャートである。
手順を示すフローチャートである。
つディクテーション編集コンポーネントのフローチャー
トである。
ッサ又はディクテーション編集コンポーネントのウイン
ドウ手順を示すフローチャートである。
を排除するCSRシステムのフローチャートである。
る。
ドウ 102 認識されたワード 103 修正ウインドウ 201 ディクテーションウインドウ 400 コンピュータシステム 401 メモリ 402 中央処理ユニット 403 I/Oインターフェイスユニット 404 記憶装置 405 ディスプレイ装置 406 キーボード 407 マウス 408 マイクロホン 409 認識コンポーネント 410 ディクテーション編集コンポーネント 411 アプリケーションプログラム
Claims (10)
- 【請求項1】 連続音声認識のコンピュータシステムに
おいて誤って認識された話された発音を複数のワードを
有するフレーズとして修正する方法において、 誤って認識されたフレーズを修正するための指示を話し
手から受け取り、 話された発音に対応する1つ以上の代替えフレーズを識
別し、 識別された代替えフレーズを表示し、 表示されたフレーズの選択を話し手から受け取り、そし
て誤って認識されたフレーズを選択されたフレーズに置
き換える、という段階を備えたことを特徴とする方法。 - 【請求項2】 代替えフレーズの上記識別は、誤って識
別されたフレーズと1ワードしか相違しない代替えフレ
ーズは識別しない請求項1に記載の方法。 - 【請求項3】 代替えフレーズの上記識別は、認識され
たワードのリストの各ワードに対して代替えワードを選
択することにより修正できる代替えフレーズは識別しな
い請求項1に記載の方法。 - 【請求項4】 連続音声認識のコンピュータシステム
が、誤って認識された話された発音を、複数のワードを
有するフレーズとして修正するようにさせる命令を含む
コンピュータ読み取り可能な媒体において、 誤って認識されたフレーズを表示し、 誤って認識されたフレーズを修正するための指示を話し
手から受け取り、 話された発音に対応する複数の代替えフレーズを識別
し、 識別された代替えフレーズを表示し、 表示されたフレーズの選択を話し手から受け取り、そし
て誤って認識されたフレーズに代わってその選択された
フレーズを表示することを特徴とするコンピュータ読み
取り可能な媒体。 - 【請求項5】 代替えフレーズの上記識別は、誤って識
別されたフレーズと1ワードしか相違しない代替えフレ
ーズは識別しない請求項4に記載のコンピュータ読み取
り可能な媒体。 - 【請求項6】 代替えフレーズの上記識別は、誤って認
識されたフレーズのワードに対して代替えワードを選択
することにより修正できる代替えフレーズは識別しない
請求項4に記載のコンピュータ読み取り可能な媒体。 - 【請求項7】 代替えフレーズの上記識別は、誤って認
識されたフレーズに対し新たに話された発音を入力しそ
して認識することを含む請求項4に記載のコンピュータ
読み取り可能な媒体。 - 【請求項8】 代替えフレーズの上記識別は、話された
発音の部分間の対応関係が誤って認識されたフレーズの
ワード間の対応関係とほぼ同じであるようなワードをも
つフレーズは含まない請求項4に記載のコンピュータ読
み取り可能な媒体。 - 【請求項9】 誤って認識された話された発音を複数の
ワードを有するフレーズとして修正するための連続音声
認識のコンピュータシステムにおいて、 ディスプレイ
装置と、 話された発音を受け取り、そして話された発音を表すワ
ードをもつフレーズを与える認識コンポーネントと、 話された発音の誤った認識を表すフレーズのワードを表
示し、誤って認識されたフレーズを修正するための指示
を受け取り、話された発音に対応する複数の代替えフレ
ーズをディスプレイ装置に表示し、表示されたフレーズ
の選択を受け取り、そしてその選択されたフレーズを誤
って認識されたフレーズに代わってディスプレイ装置に
表示するディクテーション編集コンポーネントと、を備
えたことを特徴とするコンピュータシステム。 - 【請求項10】 代替えフレーズの上記識別は、誤って
認識されたフレーズのワードに対して代替えワードを選
択することにより修正できる代替えフレーズは識別しな
い請求項9に記載のコンピュータシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/741691 | 1996-10-31 | ||
US08/741,691 US5884258A (en) | 1996-10-31 | 1996-10-31 | Method and system for editing phrases during continuous speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10133685A true JPH10133685A (ja) | 1998-05-22 |
JP3477052B2 JP3477052B2 (ja) | 2003-12-10 |
Family
ID=24981767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29894797A Expired - Fee Related JP3477052B2 (ja) | 1996-10-31 | 1997-10-30 | 連続音声認識中にフレーズを編集する方法及びシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US5884258A (ja) |
EP (1) | EP0840288B1 (ja) |
JP (1) | JP3477052B2 (ja) |
CN (1) | CN1131506C (ja) |
DE (1) | DE69725091T2 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6195637B1 (en) * | 1998-03-25 | 2001-02-27 | International Business Machines Corp. | Marking and deferring correction of misrecognition errors |
DE19821422A1 (de) * | 1998-05-13 | 1999-11-18 | Philips Patentverwaltung | Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern |
US6457031B1 (en) * | 1998-09-02 | 2002-09-24 | International Business Machines Corp. | Method of marking previously dictated text for deferred correction in a speech recognition proofreader |
US6321197B1 (en) * | 1999-01-22 | 2001-11-20 | Motorola, Inc. | Communication device and method for endpointing speech utterances |
US6253177B1 (en) * | 1999-03-08 | 2001-06-26 | International Business Machines Corp. | Method and system for automatically determining whether to update a language model based upon user amendments to dictated text |
US6611802B2 (en) * | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
EP1112566B1 (en) * | 1999-07-08 | 2005-10-05 | Koninklijke Philips Electronics N.V. | Speech recognition device with transfer means |
US6418410B1 (en) * | 1999-09-27 | 2002-07-09 | International Business Machines Corporation | Smart correction of dictated speech |
ATE364219T1 (de) * | 2000-09-08 | 2007-06-15 | Koninkl Philips Electronics Nv | Spracherkennungsverfahren mit ersetzungsbefehl |
US6728676B1 (en) * | 2000-10-19 | 2004-04-27 | International Business Machines Corporation | Using speech recognition to improve efficiency of an inventory task |
US7505911B2 (en) * | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
US7444286B2 (en) * | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US7526431B2 (en) * | 2001-09-05 | 2009-04-28 | Voice Signal Technologies, Inc. | Speech recognition using ambiguous or phone key spelling and/or filtering |
US7809574B2 (en) * | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US7467089B2 (en) * | 2001-09-05 | 2008-12-16 | Roth Daniel L | Combined speech and handwriting recognition |
US7286993B2 (en) * | 2002-01-31 | 2007-10-23 | Product Discovery, Inc. | Holographic speech translation system and method |
KR100668297B1 (ko) * | 2002-12-31 | 2007-01-12 | 삼성전자주식회사 | 음성인식방법 및 장치 |
US7263483B2 (en) * | 2003-04-28 | 2007-08-28 | Dictaphone Corporation | USB dictation device |
US8019602B2 (en) * | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
US20080114597A1 (en) * | 2006-11-14 | 2008-05-15 | Evgeny Karpov | Method and apparatus |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
US9318110B2 (en) * | 2011-09-09 | 2016-04-19 | Roe Mobile Development Llc | Audio transcription generator and editor |
US9460067B2 (en) * | 2013-10-30 | 2016-10-04 | Lenovo (Singapore) Pte. Ltd. | Automatic sentence punctuation |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
CN104331265A (zh) * | 2014-09-30 | 2015-02-04 | 北京金山安全软件有限公司 | 一种语音输入方法、装置及终端 |
CN106340293B (zh) * | 2015-07-06 | 2019-11-29 | 无锡天脉聚源传媒科技有限公司 | 一种音频数据识别结果的调整方法及装置 |
CN109643544A (zh) * | 2016-08-26 | 2019-04-16 | 索尼公司 | 信息处理装置和信息处理方法 |
US10360915B2 (en) * | 2017-04-28 | 2019-07-23 | Cloud Court, Inc. | System and method for automated legal proceeding assistant |
US11597519B2 (en) | 2017-10-17 | 2023-03-07 | The Boeing Company | Artificially intelligent flight crew systems and methods |
US10467335B2 (en) | 2018-02-20 | 2019-11-05 | Dropbox, Inc. | Automated outline generation of captured meeting audio in a collaborative document context |
US11488602B2 (en) | 2018-02-20 | 2022-11-01 | Dropbox, Inc. | Meeting transcription using custom lexicons based on document history |
US10657954B2 (en) * | 2018-02-20 | 2020-05-19 | Dropbox, Inc. | Meeting audio capture and transcription in a collaborative document context |
US11689379B2 (en) | 2019-06-24 | 2023-06-27 | Dropbox, Inc. | Generating customized meeting insights based on user interactions and meeting media |
US11404049B2 (en) * | 2019-12-09 | 2022-08-02 | Microsoft Technology Licensing, Llc | Interactive augmentation and integration of real-time speech-to-text |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01189699A (ja) * | 1988-01-26 | 1989-07-28 | Toshiba Corp | 入力装置 |
JPH03147052A (ja) * | 1989-11-01 | 1991-06-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声日本語入力方式 |
JPH03148750A (ja) * | 1989-11-06 | 1991-06-25 | Fujitsu Ltd | 音声ワープロ |
JPH06110495A (ja) * | 1992-09-25 | 1994-04-22 | Toshiba Corp | 音声認識装置 |
JPH06103457B2 (ja) * | 1985-12-27 | 1994-12-14 | 株式会社日立製作所 | 音声タイプライタ |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
US4566065A (en) * | 1983-04-22 | 1986-01-21 | Kalman Toth | Computer aided stenographic system |
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
US4914704A (en) * | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
US4799262A (en) * | 1985-06-27 | 1989-01-17 | Kurzweil Applied Intelligence, Inc. | Speech recognition |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
US4882757A (en) * | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
GB8610809D0 (en) * | 1986-05-02 | 1986-06-11 | Smiths Industries Plc | Speech recognition apparatus |
WO1987007749A1 (en) * | 1986-06-02 | 1987-12-17 | Motorola, Inc. | Continuous speech recognition system |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
US4870686A (en) * | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
US5604897A (en) * | 1990-05-18 | 1997-02-18 | Microsoft Corporation | Method and system for correcting the spelling of misspelled words |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5248707A (en) * | 1990-08-02 | 1993-09-28 | Borden, Inc. | Accelerators for refractory magnesia |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
US5386494A (en) * | 1991-12-06 | 1995-01-31 | Apple Computer, Inc. | Method and apparatus for controlling a speech recognition function using a cursor control device |
US5425128A (en) * | 1992-05-29 | 1995-06-13 | Sunquest Information Systems, Inc. | Automatic management system for speech recognition processes |
FI97919C (fi) * | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
US5367453A (en) * | 1993-08-02 | 1994-11-22 | Apple Computer, Inc. | Method and apparatus for correcting words |
US5623578A (en) * | 1993-10-28 | 1997-04-22 | Lucent Technologies Inc. | Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words |
US5487143A (en) * | 1994-04-06 | 1996-01-23 | Altera Corporation | Computer user interface having tiled and overlapped window areas |
US5651096A (en) * | 1995-03-14 | 1997-07-22 | Apple Computer, Inc. | Merging of language models from two or more application programs for a speech recognition system |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
-
1996
- 1996-10-31 US US08/741,691 patent/US5884258A/en not_active Expired - Lifetime
-
1997
- 1997-10-22 DE DE69725091T patent/DE69725091T2/de not_active Expired - Lifetime
- 1997-10-22 EP EP97118374A patent/EP0840288B1/en not_active Expired - Lifetime
- 1997-10-30 JP JP29894797A patent/JP3477052B2/ja not_active Expired - Fee Related
- 1997-10-31 CN CN97121261A patent/CN1131506C/zh not_active Expired - Lifetime
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06103457B2 (ja) * | 1985-12-27 | 1994-12-14 | 株式会社日立製作所 | 音声タイプライタ |
JPH01189699A (ja) * | 1988-01-26 | 1989-07-28 | Toshiba Corp | 入力装置 |
JPH0766275B2 (ja) * | 1988-01-26 | 1995-07-19 | 株式会社東芝 | 入力装置 |
JPH03147052A (ja) * | 1989-11-01 | 1991-06-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声日本語入力方式 |
JPH03148750A (ja) * | 1989-11-06 | 1991-06-25 | Fujitsu Ltd | 音声ワープロ |
JPH06110495A (ja) * | 1992-09-25 | 1994-04-22 | Toshiba Corp | 音声認識装置 |
JP3285954B2 (ja) * | 1992-09-25 | 2002-05-27 | 株式会社東芝 | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1181573A (zh) | 1998-05-13 |
EP0840288A3 (en) | 1999-04-28 |
JP3477052B2 (ja) | 2003-12-10 |
CN1131506C (zh) | 2003-12-17 |
US5884258A (en) | 1999-03-16 |
DE69725091T2 (de) | 2004-04-01 |
DE69725091D1 (de) | 2003-10-30 |
EP0840288B1 (en) | 2003-09-24 |
EP0840288A2 (en) | 1998-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4446312B2 (ja) | 音声認識中に可変数の代替ワードを表示する方法及びシステム | |
JP3333123B2 (ja) | 音声認識中に認識されたワードをバッファする方法及びシステム | |
JP3477052B2 (ja) | 連続音声認識中にフレーズを編集する方法及びシステム | |
US5829000A (en) | Method and system for correcting misrecognized spoken words or phrases | |
EP0376501B1 (en) | Speech recognition system | |
EP0773532B1 (en) | Continuous speech recognition | |
EP0867857B1 (en) | Enrolment in speech recognition | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
JP4444396B2 (ja) | 音声認識におけるポジション操作 | |
EP0965978A1 (en) | Non-interactive enrollment in speech recognition | |
US20020138265A1 (en) | Error correction in speech recognition | |
JPH10187184A (ja) | 認識された音声を修正するときに認識されたワードを選択する方法及びシステム | |
JP2000056795A (ja) | 音声認識装置 | |
JP2000276189A (ja) | 日本語ディクテーションシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030901 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080926 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080926 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090926 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100926 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100926 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110926 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120926 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130926 Year of fee payment: 10 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |