JP4446312B2

JP4446312B2 - 音声認識中に可変数の代替ワードを表示する方法及びシステム

Info

Publication number: JP4446312B2
Application number: JP2006188990A
Authority: JP
Inventors: ジェイローザックマイケル
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-10-31
Filing date: 2006-07-10
Publication date: 2010-04-07
Anticipated expiration: 2017-10-30
Also published as: JP2006351028A; DE69721938T2; US6363347B1; EP0840286A2; JPH10187709A; JP3880163B2; US5950160A; EP0840286A3; CN1183607A; CN1188826C; EP0840286B1; DE69721938D1

Description

本発明は、コンピュータ音声認識に係り、より詳細には、音声認識システムにより発生されるディクテーションの編集に係る。

話し手が効率的にディクテーションできそしてディクテーションされた語を自動的に認識することのできるコンピュータ音声ディクテーションシステムがコンピュータ音声システムの開発者により長年追求された目標となっている。このようなコンピュータ音声認識（ＣＳＲ）システムから得られるであろう利益は、多大なものである。例えば、文書をコンピュータシステムに打ち込むのではなく、個人が文書のワードを単に話し、ＣＳＲシステムはそのワードを認識し、そして各ワードの文字を、それらワードがあたかもタイプされたかのように記憶する。人々は一般にタイプするよりは速く話せるので、効率が改善される。又、人々は、タイプの仕方を学習する必要がもはやなくなる。又、個人の手がタイプ打ち以外の作業で占有されるためにコンピュータの使用が現在不可能となっている多数の用途にもコンピュータを使用することができる。

典型的なＣＳＲシステムは、認識コンポーネントと、ディクテーション編集コンポーネントとを有する。認識コンポーネントは、話し手から一連の発音を受け取り、各発音を認識し、そして各発音に対して認識されたワードをディクテーション編集コンポーネントへ送るように制御を行う。ディクテーション編集コンポーネントは、その認識されたワードを表示し、そして誤って認識されたワードをユーザが修正できるようにする。例えば、ディクテーション編集コンポーネントは、ユーザが、ワードを再び話すか又は正しいワードをタイプ打ちすることにより、誤って認識されたワードを取り換えられるようにする。

認識コンポーネントは、一般的に、その語彙の各ワードごとに発音のモデルを含む。認識コンポーネントは、話された発音を受け取ると、その話された発音を、その語彙の各ワードのモデリングされた発音と比較し、その話された発音に最も厳密に一致するモデリングされた発音を見出すように試みる。典型的な認識コンポーネントは、各モデリングされた発音が話された発音に一致する確率を計算する。このような認識コンポーネントは、話された発音に一致する確率が最も高いワードのリスト（認識ワードリストと称する）をディクテーション編集コンポーネントへ送信する。

ディクテーション編集コンポーネントは、一般に、最も高い確率をもつ認識されたワードリストからのワードを、その話された発音に対応する認識されたワードとして選択する。次いで、ディクテーション編集コンポーネントは、そのワードを表示する。しかしながら、表示されたワードが、話された発音の誤った認識である場合には、ディクテーション編集コンポーネントは、話し手が、その誤って認識されたワードを修正できるようにする。話し手がその誤って認識されたワードの修正を指示するときに、ディクテーション編集コンポーネントは、認識されたワードリストの中のワードを含む修正ウインドウを表示する。そのリストのワードの１つが正しいワードである場合に、話し手は、そのワード上でクリックするだけで修正を行うことができる。しかしながら、正しいワードがリストにない場合には、話し手は、正しいワードを話すか、又はタイプ打ちする。

あるＣＳＲシステムは、ワードプロセッサのためのディクテーションファシリティとして働く。このようなＣＳＲシステムは、話された発音の受信及び認識を制御し、そして認識されたワードに対応する各キャラクタをワードプロセッサへ送信する。このような構成は、話し手が、既に話したワードを修正しようと試みるときに、ワードプロセッサが認識されたワードのリストをアクセスせず、従って、これらのワードを表示して容易に修正を行うことができない。

本発明は、認識コンポーネント及びディクテーション編集コンポーネントを有する新規で且つ改良されたコンピュータ音声認識（ＣＳＲ）システムを提供する。ディクテーション編集コンポーネントは、誤って認識されたワードを迅速に修正することができる。ディクテーション編集コンポーネントは、話し手が、修正ウインドウを再配列することにより、修正ウインドウに表示されるべき代替えワードの数を選択できるようにする。ディクテーション編集コンポーネントは、正しいワードを探し易くするためにアルファベット順に修正ウインドウにワードを表示する。本発明の別の特徴においては、ＣＳＲシステムは、誤って認識されたワード又はフレーズを再び話したときに、以前に話された発音及び新たに話された発音の両方の分析に基づき、その再び話された発音が、同じ誤って認識されたワード又はフレーズとして再び認識されるおそれを排除する。又、ディクテーション編集コンポーネントは、認識されたワードをワードプロセッサへ転送する前にディクテーション編集コンポーネントにバッファされる音声の量を話し手が特定できるようにする。又、ディクテーション編集コンポーネントは、通常はキャラクタベースである編集動作をワードベース又はフレーズベースのいずれかに変更するためのワード修正メタファ又はフレーズ修正メタファも使用する。

本発明は、コンピュータ音声認識（ＣＳＲ）システムによって形成されるディクテーションを編集することのできるディクテーション編集コンポーネントを提供する。１つの実施形態では、ディクテーション編集コンポーネントは、話し手が、修正ウインドウを再配列することにより、修正ウインドウに表示されるべき代替えワードの数を選択できるようにする。更に、ディクテーション編集コンポーネントは、修正ウインドウにワードをアルファベット順に表示する。又、好ましいディクテーション編集コンポーネントは、誤って認識されたワードが再び話されるときに、その再び話される発音が、同じ誤って認識されたワードとして再度認識されるおそれを排除する。ディクテーション編集コンポーネントは、ワードプロセッサのようなアプリケーションプログラムへ認識されたワードを与えるときに、好ましくは、話し手が、認識されたワードをアプリケーションプログラムへ転送する前にディクテーション編集コンポーネントによりバッファされる音声の量を特定できるようにする。以下の説明において、本発明の種々の特徴は、個別のＣＳＲシステム（即ち話し手が各ワード間に休止する）に関連して使用するときについて説明する。しかしながら、これらの特徴は、連続的ＣＲＳシステムに関連して使用することもできる。例えば、表示されるべき代替えフレーズの数を指示するように修正ウインドウを再配列することができる。又、話し手が置き換えられるべきフレーズを選択するときには、ユーザインターフェイスシステムが、同じフレーズが再び認識されないよう確保することができる。

図１は、再配列可能な修正ウインドウを例示する。ディクテーション編集コンポーネントのウインドウ１０１は、認識されたワード１０２及び修正ウインドウ１０３を含む。この例では、話し手は、ワード「I will make the cake. 」と話している。認識コンポーネントは、ワード「make」をワード「fake」と誤って認識している。このとき、話し手は、ワード「fake」を修正しなければならないことを指示する。修正ウインドウを表示する前に、ディクテーション編集コンポーネントは、再配列可能な修正ウインドウの現在サイズを決定し、そしてその修正ウインドウに表示することのできるワードの数を計算する。次いで、ディクテーション編集コンポーネントは、最も高い確率をもつ認識されたワードのリスト（即ち、代替えワード）からその数のワードを選択し、そして標準的なウインドウ再配列技術（例えば、マウスポインタでウインドウの境界を指しそしてマウスをドラッギングする）を用いて修正ウインドウにそれらのワードを表示する。話し手が更に多くのワードをリストから見たい場合には、修正ウインドウを単に再配列するだけでよい。修正ウインドウが再配列されるときには、ディクテーション編集コンポーネントは、修正ウインドウに表示することのできるワードの数を再び決定し、そしてその数のワードを修正ウインドウに表示する。話し手がワードの修正を指示する次のときに、ディクテーション編集コンポーネントは、その最後の再配列に基づいて適合する数のワードを修正ウインドウに表示する。このように、話し手は、修正ウインドウを単に再配列するだけで、表示されるべきワードの数を効果的に選択することができる。図２は、再配列後の修正ウインドウを例示する。

更に、ディクテーション編集コンポーネントは、修正ウインドウにワードをアルファベット順に表示するのが好ましい。アルファベット順にワードを表示することにより、話し手は、正しいワードが表示された場合にそれを素早く見つけることができる。公知のディクテーション編集コンポーネントは、そのコンポーネントにより決定された確率に基づく順序で修正ウインドウにワードを表示する。しかしながら、確率順に表示されたときには、正しいワードが第１番目又は第２番目に表示されない限り、話し手が正しいワードを見つけるのが困難である。

図３は、ワードプロセッサとインターフェイスするＣＳＲシステムのための調整可能なディクテーションウインドウを示す。ＣＳＲシステムは、話し手からの一連の発音を入力し、発音を認識し、そして発音に対して認識されたワードをディクテーションウインドウ２０１に表示する。ディクテーションウインドウは、ディクテーション編集コンポーネントによって制御されるので、話し手は、ディクテーションウインドウにおいてワードを修正することができる。従って、話し手は、ディクテーションウインドウ内のワードの修正を選択すると、ディクテーション編集コンポーネントによってサポートされた修正ファシリティのいずれかを使用することができる。例えば、話し手は、ディクテーションウインドウに現在表示されているワードに対して認識されたワードリストのワードを表示するように修正ウインドウを使用することができる。図４は、修正ウインドウを使用して、ディクテーションウインドウのテキストを修正する場合を示す。

１つの実施形態において、ディクテーション編集コンポーネントは、話し手が、ディクテーションウインドウが受け入れることのできる音声の量を調整できるようにする。話し手は、ディクテーションウインドウ内のワードに対して修正ファシリティを使用できるだけであって、ワードプロセッサのウインドウ内のワードについては使用できないので、話し手のディクテーションの習慣に基づき音声の量を受け入れるようにディクテーションウインドウのサイズを調整することができる。例えば、話し手は、ディクテーションウインドウが、１つのセンテンス、１つのパラグラフ、又は固定数のワードのみを受け入れねばならないことを特定することができる。或いは又、話し手は、ディクテーションウインドウがウインドウに適合できる数のワードを受け入れねばならないことを指示するために、標準的なウインドウ再配列技術を用いてディクテーションウインドウを再配列することもできる。ディクテーションウインドウがいっぱいになったときには、ＣＳＲシステムは、ディクテーションウインドウ内の全てのワード又は幾つかのワードをワードプロセッサへ送信する。例えば、ディクテーションウインドウがセンテンスを受け入れねばならないことを話し手が指示する場合には、新たなセンテンスがスタートするときに、ＣＳＲシステムは、全てのワード（即ち、１つのセンテンス）をワードプロセッサへ送信する。逆に、話し手がディクテーションウインドウを再配列した場合には、ＣＳＲシステムは、一度に１行のワードのみをワードプロセッサへ送信する。

図５は、ディクテーション編集コンポーネントのためのワード修正メタファ（比喩）を示す。ワードプロセスシステムがディクテーションモードにあるときには、ディクテーション編集コンポーネントは、種々の編集事象（例えば、キーボード事象、マウス事象、ペン事象及び音声事象）の定義をキャラクタベースではなく、ワードベースとなるように自動的に変更する。例えば、ディクテーションモードにあるときには、通常は１キャラクタ分バックスペースするバックスペースキーが、一度に１ワードだけバックスペースするように変更される。従って、ディクテーションモードにあるときに、ユーザがバックスペースキーを押すと、現在挿入ポイントの左側にある全ワードが削除される。同様に、ディクテーションモードにあるときに、右及び左矢印キーは、挿入ポイントを左又は右に１ワードだけ移動させ、そして削除キーは、挿入ポイントの右側の全ワードを削除する。又、ユーザがマウスのボタンをクリックしそしてマウスポインタがワードの上にあるときには、ディクテーション編集コンポーネントは、挿入ポイントをワード内に単にセットするのではなく、マウスポインタが上にあるところのワードを選択する。しかしながら、マウスポインタがワード間にある場合は、挿入ポイントが単にワード間にセットされる。行３０１−３０４は、ワード修正メタファの作用を例示する。各行は、指示された事象が生じる前後のテキストを示している。例えば、行３０２は、挿入ポイントがワード「test」の後である場合に、左矢印事象により、挿入ポイントがワード「test」の前に移動されることを示している。ワード修正メタファの使用は、ディクテーションモードにあるときに、典型的な話し手が修正時に全ワードを再度話すことを望むので、ワードの修正を容易にする。従って、話し手がワード上でクリックすると、全ワードが選択され、そして話し手は、選択されたワードを置き換えるように単に話すだけでよい。音声認識が連続的であるときには、フレーズ修正メタファが好ましい。連続的な音声認識は、ワード境界を正しく識別しないことがあるので、ワード修正メタファは、発音がワードの一部分のみを表すか又は多数のワードを表すような誤って認識されたワードを選択する。このような状況では全フレーズを単に再度話すのが好ましい。従って、種々の編集事象の定義は、ワードベースで変更されるのではなく、フレーズベースで変更されることになる。例えば、通常は手前のキャラクタを越えてバックスペースするワード「バックスペース」を話すユーザの編集事象は、一度に１フレーズだけバックスペースするように変更される。図６は、このフレーズ修正メタファを示す。

１つの実施形態において、ＣＳＲシステムは、再び話された発音を、修正されている同じワードとして再び認識するのを防止するために、誤って認識されたワードの排除を与える。ディクテーション編集コンポーネントは、話し手が誤って認識されたワードをいつ修正するかを決定する。話し手は、誤って認識されたワードを種々の方法で修正することができる。例えば、話し手は、ワードを削除し、そしてワードが削除された位置における挿入ポイントで話すことができる。或いは又、話し手は、誤って認識されたワードをハイライト処理し、次いで、そのハイライト処理されたワードに置き換えるように話すこともできる。認識コンポーネントは、再び話された発音を受け取ると、その発音を認識し、そして新たに認識されたワードのリストをディクテーション編集コンポーネントへ送る。次いで、ディクテーション編集コンポーネントは、修正されているワード以外の最も高い確率をもつワードをその新たに認識されたワードのリストから選択しそして表示する。１つの実施形態において、ディクテーション編集コンポーネントは、誤って認識された発音に対する以前に認識されたワードのリストと、新たに認識されたワードリストとを使用して、両方の発音に一致する確率が最も高いワード（修正されているワード以外の）を選択する。最も高い確率を計算するために、ディクテーション編集コンポーネントは、両方の認識されたワードのリストにあるワードを識別し、そしてそれらの確率を乗算する。例えば、以下のテーブルは、認識されたワードのリスト及びそれに対応する確率の例を示す。
以前に認識されたワードのリスト新たに認識されたワードのリスト
Fake .4 Fake .4
Make .3 Mace .3
Bake .1 Make .2
Mace .1 Bake .1
話し手がワード「make」を話した場合には、誤って認識されたワードの排除がないと、ディクテーション編集コンポーネントは、両方のリストにおいて最も高い確率を有することから、ワード「fake」を２回とも選択する。誤って認識されたワードの排除がある場合には、ディクテーション編集コンポーネントは、ワード「fake」が修正されるときに、ワード「mace」を選択する。というのは、ワード「mace」は、現在リストにおいてワード「fake」以外に最も高い確率を有するからである。しかしながら、両方の認識されたワードのリストからの確率が合成されたときには、ディクテーション編集コンポーネントは、ワード「make」を正しいワードとして選択する。というのは、最も高い合成確率を有するからである。ワード「make」の合成確率は、０．０６（０．３ｘ０．２）であり、ワード「mace」に場合には、０．０３（０．１ｘ０．３）であり、そしてワード「bake」の場合には、０．０１（０．１ｘ０．１）である。

又、ＣＳＲシステムは、ワードをその語彙に自動的に追加し、そして自動的にトレーニングする。ユーザが正しいワードをタイプ打ちすることにより誤って認識されたワードを修正するときには、ディクテーション編集コンポーネントは、そのタイプ打ちされたワードが語彙にあるかどうか決定する。そのタイプ打ちされたワードが語彙にない場合には、ディクテーション編集コンポーネントは、誤って認識された話された発音を用いてそれを語彙に加えて、そのワードに対するモデルをトレーニングするように認識コンポーネントに指令する。しかしながら、そのタイプ打ちされたワードが語彙にある場合には、ディクテーション編集コンポーネントは、誤って認識された話された発音でそのタイプ打ちされたワードをトレーニングするように認識コンポーネントに自動的に指令する。

ディクテーション編集コンポーネントは、連続的なディクテーションシステムと共に使用したときには、ワード修正に加えて、フレーズ修正を行うことができる。連続的なディクテーションシステムでは、認識コンポーネントは、ワードの境界を誤って識別することがある。例えば、話し手は、フレーズ「I want to recognize speech. 」と言う。認識コンポーネントは、話されたフレーズを「I want to wreck a nice beach. 」と認識することがある。しかしながら、単一ワード修正を使用した場合には、このような誤った認識を修正するための話し手に非常に馴染み易い方法が与えられない。話し手がワード「beach 」の代替えワードを見つけたい場合には、修正ウインドウにワード「peach 」、「teach 」及びおそらくは「speech」が表示される。話し手がワード「nice」の代替えワードを見つけたい場合には、ワード「ice 」及び「rice」が表示され、そしてワード「wreck 」については、ワード「heck」及び「rack」が表示される。このような単一ワード修正は、ワード「recognize speech」を識別しない。

ディクテーション編集コンポーネントは、誤ったワード境界から生じた誤った認識を効率的に修正できるようにフレーズを修正することができる。話し手が修正のためのフレーズを選択すると、ディクテーション編集コンポーネントは、代替えフレーズのリストを選択して表示する。例えば、話し手が「wreck a nice beach」を選択する場合には、その代替えフレーズが「wreck a nice peach」、「rack an ice leach 」及び「recognize speech」となる。又、話し手が「wreck a nice」を選択すると、その代替えフレーズは、「rack on ice 」及び「recognize 」となる。

更に、ユーザが修正のために誤って認識されたフレーズを選択すると、ディクテーション編集コンポーネントは、現在のフレーズがその誤って認識されたフレーズと２ワード以上異なると仮定する。誤って認識されたフレーズにおいて１ワードだけが不適切な場合には、話し手は、その誤って認識されたワードを単に選択し、誤って認識された全フレーズを選択しない。この仮定を用いると、ディクテーション編集コンポーネントは、誤って認識されたフレーズと１ワードしか相違しない代替えフレーズは表示しない。上記の例を続けると、話し手が「wreck a nice beach」を選択する場合に、代替えフレーズ「rack an ice leach 」及び「recognize speech」のみが表示される。代替えフレーズ「wreck a nice peach」は、１ワードしか相違しないので、表示されない。更に、１つの実施形態において、ディクテーション編集コンポーネントは、話し手が修正のためのフレーズを選択したときに、誤った認識が不適切に識別されたワード境界によるものであると仮定する。特に、表示された代替えワードを選択することによりフレーズを修正できる場合には、話し手は、それらの代替えワードを選択する。従って、ディクテーション編集コンポーネントは、代替えリストから個々のワードを修正することにより修正できる代替えフレーズは表示しない。例えば、ディクテーション編集コンポーネントは、ワード「rack」、「an」、「ice 」及び「leach 」が誤って認識された対応ワードの代替えワードである場合には、フレーズ「rack an ice leach 」を表示しない。

図７は、好ましい実施形態のコンピュータシステムのブロック図である。コンピュータシステム４００は、メモリ４０１と、中央処理ユニット４０２と、Ｉ／Ｏインターフェイスユニット４０３と、記憶装置４０４と、ディスプレイ装置４０５と、キーボード４０６と、マウス４０７と、マイクロホン４０８とを備えている。メモリは、モデルコンポーネント４０８と、認識コンポーネント４０９と、ディクテーション編集コンポーネント４１０とを含むＣＳＲシステムを備えていると共に、アプリケーションプログラム４１１も備えている。モデルコンポーネントは、語彙のワードに対する種々のモデル発音を含んでいる。認識コンポーネントは、話された発音を受け取り、モデルコンポーネントにアクセスして、認識されたワードのリストを発生する。ディクテーション編集コンポーネントは、認識されたワードのリストを受け取り、そして認識されたワードを表示する。認識コンポーネント、ディクテーション編集コンポーネント、及びアプリケーションプログラムは、種々の方法で相互接続することができる。図８及び９は、認識コンポーネント、ディクテーション編集コンポーネント及びアプリケーションプログラムの種々の相互接続を示すブロック図である。図８において、認識コンポーネントは、ディクテーション編集コンポーネントのアプリケーションプログラムインターフェイス（ＡＰＩ）とインターフェイスし、これは、次いで、アプリケーションプログラムのＡＰＩとインターフェイスする。図９において、認識コンポーネントは、ディクテーション編集コンポーネント及びアプリケーションプログラムにより与えられるＡＰＩとインターフェイスする。或いは又、アプリケーションプログラムを、認識コンポーネント及びディクテーション編集コンポーネントにより与えられるＡＰＩとインターフェイスすることもできる。

図１０は、再配列可能な修正ウインドウをもつＣＳＲシステムのフローチャートである。修正ウインドウを再配列することにより、話し手は、表示しなければならない認識されたワードリストからのワードの数を指示することができる。ステップ５０１−５１０において、ＣＳＲシステムは、ワードに対応する発音を受け取り、認識されたワードを表示し、そして話し手がワードを修正できるように循環する。ステップ５０１において、話し手がディクテーションを続ける場合には、システムは、ステップ５０２へ続き、さもなくば、ディクテーションは完了となる。ステップ５０２において、システムは、話し手からの次の発音を入力する。ステップ５０３において、システムは、話された発音を認識するために認識コンポーネントを呼び出す。認識コンポーネントは、認識されたワードのリストを、そのリストの各ワードが話された発音に対応する確率と共に返送する。ステップ５０４において、システムは、認識されたワードのリストから最も高い確率をもつワードを表示する。ステップ５０５−５１０において、システムは、話し手が表示されたワードを修正できるように循環する。ステップ５０５において、話し手が表示されたワードの修正を指示する場合には、システムは、ステップ５０６へ続き、さもなくば、システムは、ステップ５０１へ循環して、ディクテーションを続ける。ステップ５０６において、システムは、修正ウインドウの現在サイズを決定する。ステップ５０７において、システムは、その現在サイズに基づき修正ウインドウに適合できるワードの数を決定する。ステップ５０８において、システムは、認識されたワードのリストから最も高い確率をもつワードの数を選択し、そしてそれらのワードを修正ウインドウに表示する。１つの実施形態において、システムは、これらの選択されたワードを表示の前にアルファベット順に分類する。ステップ５０９において、システムは話し手から正しいワードを受け取る。ステップ５１０において、システムは、表示されたワードを正しいワードに置き換え、そしてステップ５０５へ循環する。

図１１は、修正ウインドウのウインドウ手順を示すフローチャートである。このウインドウ手順は、修正ウインドウに向けられる全ての事象（即ち、メッセージ）を受け取りそしてその処理を制御する。ステップ５０１において、ウインドウが再配列されることを指示するメッセージが受け取られた場合には、手順がステップ５０２へ続き、さもなくば、手順は、他のメッセージの通常の処理で続く。ステップ５０２において、手順は、修正ウインドウの新たなサイズを記憶する。更に、手順は、ＣＳＲシステムが修正ウインドウに適合するワードの数を再計算し、そして修正ウインドウにその数のワードを再表示しなければならないことを指示する。

図１２は、ＣＳＲシステムの調整可能なディクテーションウインドウ処理のフローチャートである。調整可能なディクテーションウインドウは、話し手がディクテーションウインドウに受け入れることのできる音声の量を特定できるようにする。従って、話し手は、ディクテーション編集コンポーネントの修正ファシリティを用いて、最後に話されたその量の音声を修正することができる。ステップ６０１において、システムは、ディクテーションウインドウを表示する。ステップ６０２−６０９において、システムは、音声の各単位（例えばセンテンス又はパラグラフ）を処理し、そして１つの単位が話されたときに、その単位をアプリケーションプログラムへ送信する。音声の単位は、ディクテーションウインドウが再配列されたときのワードの行であってもよい。ステップ６０２において、音声単位の終了が受け取られた場合に、システムは、ステップ６１０へ続き、さもなくば、ステップ６０３に続く。ステップ６１０において、システムは、音声単位をアプリケーションプログラムへ送り、そしてステップ６０３に続く。ステップ６０３において、話し手がディクテーションの完了を指示すると、システムは終了となり、さもなくば、システムは、ステップ６０４に続く。ステップ６０４において、システムは、話し手から話された発音を入力する。ステップ６０５において、システムは、認識コンポーネントを呼び出して、話された発音を認識し、そして認識されたワードのリストを返送する。ステップ６０６において、システムは、認識されたワードのリストをその後の修正のためにセーブする。ステップ６０７において、システムは、認識されたワードのリストにおいて最も高い確率をもつワードを選択しそして表示する。ステップ６０８において、話し手が修正モードに入ることを指示する場合には、システムはステップ６０９に続き、さもなくば、システムは、ステップ６０２へ循環して、音声単位の終りに達したかどうか決定する。ステップ６０９において、システムは、話し手がディクテーションウインドウ内のいずれかのワードを修正できるようにする。システムは、話し手によって要求されたときに、セーブされた認識されたワードのリストからのワードを修正ウインドウに表示する。次いで、システムは、ステップ６０２へ循環し、次の発音を入力する。

図１３は、ワード修正メタファを実施するアプリケーションプログラム又はディクテーション編集コンポーネントのウインドウ手順のフローチャートである。このコンポーネントは、ディクテーションモードにあるときに、編集の動作をキャラクタ指向ではなくワード指向に変更する。ステップ７０１−７０５において、この手順は、どのメッセージが受け取られたか決定する。ステップ７０１において、ディクテーションイネーブルメッセージが受け取られた場合には、手順はステップ７０１Ａに続き、さもなくば、手順はステップ７０２に続く。ステップ７０１Ａにおいて、手順は、モードをディクテーションモードにセットし、そして復帰する。ステップ７０２において、メッセージがディクテーションディスエイブルメッセージである場合には、手順はステップ７０２Ａに続き、さもなくば、手順はステップ７０３に続く。ステップ７０２Ａにおいて、手順は、データ入力がディクテーションによるのではなくキーボードによることを指示するようにモードをセットし、そして復帰する。ステップ７０３において、メッセージが受信キャラクタメッセージである場合には、手順はステップ７０３Ａに続き、さもなくば、手順はステップ７０４に続く。ステップ７０３Ａにおいて、手順は、受け取ったキャラクタを表示する。キャラクタは、キーボード入力を経て受け取られてもよいし、又は認識されたワードのキャラクタの１つとして受け取られてもよい。ステップ７０４において、メッセージがバックスペースメッセージである場合には、手順はステップ７０４Ａに続き、さもなくば、手順はステップ７０５に続く。ステップ７０４Ａにおいて、現在モードがディクテーションの場合には、手順はステップ７０４Ｃに続き、さもなくば、手順はステップ７０４Ｂに続く。ステップ７０４Ｃにおいて、手順は現在挿入ポイントから１ワードだけバックスペースさせる。１ワードのバックスペース動作は、挿入ポイントの左側のワードを削除し、そして復帰となる。ステップ７０４Ｂにおいて、手順は１キャラクタの通常のバックスペースを実行しそして復帰となる。ステップ７０５において、メッセージがマウスクリックメッセージである場合には、手順はステップ７０５Ａに続き、さもなくば、手順は通常の処理を続ける。ステップ７０５Ａにおいて、現在モードがディクテーションである場合には、手順はステップ７０５Ｃに続き、さもなくば、手順はステップ７０５Ｂに続く。ステップ７０５Ｃにおいて、クリックがワード内であれば、手順は全ワードを選択する。さもなくば、手順は挿入ポイントをワード間にセットし、そして復帰する。ステップ７０５Ｂにおいて、手順は挿入ポイントを通常にセットし、そして復帰となる。

図１４は、誤って認識されたワードを更なる認識から除去するディクテーション編集コンポーネントのフローチャートである。このコンポーネントは、話し手が誤って認識されたワードを修正するために話すときを検出し、そしてその誤って認識されたワードが再び話された発音として再び認識されるのを防止する。ステップ８０１において、ディクテーションが完了した場合には、このコンポーネントが終了となるが、さもなくば、ステップ８０３へ続く。ステップ８０３において、このコンポーネントは、ディクテーションコンポーネントから認識されたワードのリストを受け取る。ステップ８０４において、話された発音が話し手により誤って認識されたワードを修正するよう試みられる場合には、このコンポーネントはステップ８０５に続き、さもなくば、ステップ８０６に続く。ステップ８０５において、このコンポーネントは、認識されたワードのリストから修正されているワード以外のワードを選択しそしてステップ８０７に続く。ステップ８０６において、このコンポーネントは、認識されたワードのリストから最も確率の高いワードを選択する。ステップ８０７において、このコンポーネントは、選択されたワードを表示する。ステップ８０８において、話し手が修正モードに入ることを指示する場合に、このコンポーネントはステップ８０９に続くが、さもなくば、ステップ８０１へ循環して、別の発音を入力する。ステップ８０９において、このコンポーネントは、表示されたワードに対する修正を受け取る。ステップ８１０において、修正がキーボードにより入力された場合には、このコンポーネントは、ステップ８１１に続き、さもなくば、ステップ８０１へ循環して、次の入力発音を選択する。ステップ８１１において、タイプ打ちされたワードが既に語彙にある場合には、ステップ８１３へ続き、さもなくば、ステップ８１２へ続く。ステップ８１２において、このコンポーネントは、タイプ打ちされたワードを語彙に加える。ステップ８１３において、このコンポーネントは、タイプ打ちされたワードに対して認識システムをトレーニングし、そしてステップ８０１へ循環して次の発音を入力する。

図１５は、認識プロセスを自動的にトレーニングするディクテーション編集コンポーネントのフローチャートである。ディクテーション編集コンポーネントは、誤って認識された発音を修正されたワード又はフレーズと共に収集する。次いで、ディクテーション編集コンポーネントは、誤って認識された発音を修正されたワード又はフレーズとして認識するよう認識プロセスをトレーニングするように認識コンポーネントに指令する。このトレーニングは、各々の誤って認識された発音が修正されるとき又は情報がセーブされるときに実行することができ、そしてトレーニングは後で行うこともできる。ステップ９０１−９０３において、このコンポーネントは、誤って認識された発音及び正しいワード又はフレーズを収集する。この情報は、話し手がワード又はフレーズを修正したことをこのコンポーネントが検出したときに収集することができる。ステップ９０３において、このコンポーネントは、認識装置をトレーニングすべきかどうか決定する。このようなトレーニングは、それを行わないとコンピュータシステムがアイドル状態になってしまうとき、又は認識の精度が受け入れられないものとなるときに行うことができる。ステップ９０４においては、このコンポーネントは、収集した発音に基づいて認識装置をトレーニングする。

好ましい実施形態について本発明を以上に説明したが、本発明は、この実施形態に限定されるものではなく、当業者であれば、本発明の精神から逸脱せずに、種々の変更がなされ得ることが明らかであろう。従って、本発明の範囲は、特許請求の範囲のみによって限定されるものとする。

再配列可能な修正ウインドウを例示する図である。再配列後の修正ウインドウを例示する図である。調整可能なディクテーションウインドウを示す図である。修正ウインドウを使用して、ディクテーションウインドウのテキストを修正する図である。ディクテーション編集コンポーネントに対するワード／フレーズ修正メタファを示す図である。ディクテーション編集コンポーネントに対するワード／フレーズ修正メタファを示す図である。好ましい実施形態のコンピュータシステムを示すブロック図である。好ましい実施形態のコンピュータシステムを示すブロック図である。好ましい実施形態のコンピュータシステムを示すブロック図である。再配列可能なウインドウをもつディクテーション編集コンポーネントのフローチャートである。再配列可能なウインドウに対するウインドウ手順を示すフローチャートである。調整可能なディクテーションウインドウをもつディクテーション編集コンポーネントのフローチャートである。ワード修正メタファを実施するワードプロセッサ又はディクテーション編集コンポーネントのウインドウ手順を示すフローチャートである。誤って認識されたワードが更に確認されるのを排除するＣＳＲシステムのフローチャートである。自動認識トレーニングのフローチャートである。

符号の説明

１０１ディクテーション編集コンポーネントのウインドウ
１０２認識されたワード
１０３修正ウインドウ
２０１ディクテーションウインドウ
４００コンピュータシステム
４０１メモリ
４０２中央処理ユニット
４０３Ｉ／Ｏインターフェイスユニット
４０４記憶装置
４０５ディスプレイ装置
４０６キーボード
４０７マウス
４０８マイクロホン
４０９認識コンポーネント
４１０ディクテーション編集コンポーネント
４１１アプリケーションプログラム

Claims

コンピュータディクテーションシステムが誤認識したワード（語）又はフレーズを訂正する間、代替ワード又は代替フレーズを表示する前記コンピュータディクテーションシステムで実行される方法であって、
修正ウインドウの現在のサイズを特定し、
前記修正ウインドウで表示することのできる代替ワード又は代替フレーズの数を前記現在のサイズから算出し、
前記数の前記代替ワード又は代替フレーズを選択し、
前記選択された代替ワード又は代替フレーズを前記修正ウインドウ内に表示する、
各処理を含み、
これにより、話者は、前記修正ウインドウのサイズを変更することによって前記修正ウインドウに表示される代替ワード又は代替フレーズの数を指示することができ、さらに、
単一ワード単位の訂正かフレーズ単位の訂正であるかの指示を受信する処理を含み、
フレーズ単位の訂正指示を受信した場合、前記修正ウインドウには、誤認識のされたフレーズ内のワードと比較して２ワード以上相違するワードを含む代替フレーズを表示し、
単一ワード単位の訂正指示を受信した場合、前記修正ウインドウには、フレーズ単位で認識せずにワード毎に認識した代替ワードのみが表示されることを特徴とする方法。
前記代替ワード又は代替フレーズのそれぞれは関連する確率を有し、
前記代替ワード又は代替フレーズを選択する処理は、前記数の代替ワード又は代替フレーズを高い確率の順から選択する、請求項１に記載の方法。
前記選択された代替ワード又は代替フレーズを前記修正ウインドウ内に表示した後、前記修正ウインドウ内に前記数以上の代替ワード又は代替フレーズを表示させるために前記修正ウインドウを拡大すると、前記修正ウインドウの現在のサイズを特定する処理、前記代替ワード又は代替フレーズの数を計算する処理、前記代替ワード又は代替フレーズを選択する処理、及び前記選択された代替ワード又は代替フレーズを前記修正ウインドウ内に表示する処理を繰り返す、前記請求項１に記載の方法。
前記選択された代替ワード又は代替フレーズはアルファベット順に表示される請求項１に記載の方法。
話者が前記修正ウインドウの境界をマウスポインタで指し示し、マウスをドラッギング(dragging)することによって前記修正ウインドウのサイズを変更する、請求項１に記載の方法。
上記コンピュータディクテーションシステムは、連続的なスピーチを認識するシステムである請求項１に記載の方法。
上記コンピュータディクテーションシステムは、分散ディクテーションシステムである請求項１に記載の方法。
修正ウインドウに可変数のワード又はフレーズを表示するコンピュータディクテーションシステムで実行される方法であって、
前記修正ウインドウを表示し、
前記修正ウインドウのサイズを変更するため、話者からの要求に応じて前記修正ウインドウのサイズを変更し、
単一ワード単位の訂正かフレーズ単位の訂正であるかの指示を受信し、
前記サイズの変更に基づき、前記修正ウインドウで表示可能な数のワード又はフレーズを計算し、
前記計算された数のワード又はフレーズを前記修正ウインドウに表示することであって、フレーズ単位の訂正指示を受信した場合、前記修正ウインドウには、誤認識のされたフレーズ内のワードと比較して２ワード以上相違するワードを含む代替フレーズを表示し、単一ワード単位の訂正指示を受信した場合、前記修正ウインドウには、フレーズ単位で認識せずにワード毎に認識した代替ワードのみを表示する、
処理を含む方法。
前記表示されるべきワード又はフレーズを、ワード訂正のための代替ワードのリストから、又はフレーズ訂正のための代替フレーズのリストから選択することを含む請求項８に記載の方法。
前記ワード又はフレーズはアルファベット順に表示される請求項８に記載の方法。
前記コンピュータディクテーションシステムは、連続的なスピーチを認識するシステムである請求項８に記載の方法。
前記コンピュータディクテーションシステムは、分散ディクテーションシステムである請求項１に記載の方法。
誤認識された発話に関する代替ワード又は代替フレーズを表示するコンピュータディクテーションシステムで実行される方法であって、
前記誤認識された発話の正しい認識示す前記代替ワード又は代替フレーズを、関連する確率によって識別し、
前記識別された代替ワード又は代替フレーズから高い確率を有するものを選択し、
前記誤認識された発話の正しい認識として、話者が前記代替ワード又は代替フレーズの１つを選択することを許可するために、前記選択された代替ワード又は代替フレーズをアルファベット順に表示するものであって、フレーズ単位の訂正指示を受信した場合、前記修正ウインドウには、誤認識のされたフレーズ内のワードと比較して２ワード以上相違するワードを含む代替フレーズを表示し、単一ワード単位の訂正指示を受信した場合、前記修正ウインドウには、フレーズ単位で認識せずにワード毎に認識した代替ワードのみを表示する、各処理を含む前記方法。
コンピュータディクテーションシステムが修正ウインドウに可変数のワード又はフレーズを表示するようにさせる命令を含むコンピュータ読み取り可能な媒体において、
前記修正ウインドウを表示し、
ポインティングデバイスを用いて前記修正ウインドウの境界を指しながらそのポインティングデバイスをドラッギングして前記修正ウインドウのサイズを変更し、
前記修正ウインドウのサイズ変更に基づき前記修正ウインドウに表示できるワード又はフレーズの数を計算し、そして
その計算された数のワード又はフレーズを修正ウインドウに表示するものであって、フレーズ単位の訂正指示を受信した場合、前記修正ウインドウには、誤認識のされたフレーズ内のワードと比較して２ワード以上相違するワードを含む代替フレーズを表示し、単一ワード単位の訂正指示を受信した場合、前記修正ウインドウには、フレーズ単位で認識せずにワード毎に認識した代替ワードのみを表示する、ことを特徴とするコンピュータ読み取り可能な媒体。
編集コマンドはキーボードの削除キーであり、ディクテーションモードにあるときは、編集の動作は、表示されたワード又はフレーズを削除することであり、そして非ディクテーションモードにあるときは、編集の動作は、表示されたキャラクタを削除することである請求項１４に記載のコンピュータ読み取り可能な媒体。
編集コマンドはキーボードの矢印キーであり、ディクテーションモードにあるときは、編集の動作は、１つの表示されたワード又はフレーズを越えて挿入ポイントを移動することであり、そして非ディクテーションモードにあるときは、編集の動作は、１つの表示されたキャラクタを越えて挿入ポイントを移動することである請求項１４に記載のコンピュータ読み取り可能な媒体。
編集コマンドはマウスクリックであり、ディクテーションモードにあるときは、編集の動作は、表示されたワード又はフレーズを選択することであり、そして非ディクテーションモードにあるときは、編集の動作は、挿入ポイントをセットすることである請求項１４に記載のコンピュータ読み取り可能な媒体。
表示されるべきワードを、ワード訂正のための代替ワードのリストから、又は表示されるべきフレーズを、フレーズ訂正のための代替フレーズのリストから選択することを含む請求項１４に記載のコンピュータ読み取り可能な媒体。
上記ワード又はフレーズはアルファベット順に表示される請求項１４に記載のコンピュータ読み取り可能な媒体。