JP2004510239A

JP2004510239A - ディクテーションとコマンドの区別を向上させる方法

Info

Publication number: JP2004510239A
Application number: JP2002529757A
Authority: JP
Inventors: ルイス、ジェームス; オルテガ、ケリー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-09-20
Filing date: 2001-09-13
Publication date: 2004-04-02
Anticipated expiration: 2021-09-13
Also published as: CN1205602C; EP1320848B1; TW521262B; US20040216049A1; JP3943492B2; ES2269449T3; WO2002025637A1; US6795806B1; CN1449558A; AU2001286090A1; EP1320848A1; DE60122352D1; ATE336779T1; DE60122352T2; KR100586286B1; KR20030046453A; HK1057940A1; IL154852A0; CA2420093A1

Abstract

【課題】音声ディクテーション・システムとともに視線追跡システムを利用することによって、電子文書中のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するための方法および装置を提供すること。
【解決手段】ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法は、ユーザ・インタフェース中の焦点を識別するステップ、焦点の周りに周囲領域を定義するステップ、周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップ、識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップ、音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別されたユーザ・インタフェース・オブジェクトか、音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別されたユーザ・インタフェース・オブジェクトかに基づいて、確率を計算するステップ、音声入力を受け取るステップ、および計算した確率に基づいて、音声入力がボイス・コマンドか音声ディクテーションかの判定を下すステップを含むことができる。さらに、この方法は、ユーザ・インタフェースの外側の焦点を識別するステップ、およびデフォルトの確率に基づいて、音声入力がボイス・コマンドか音声ディクテーションかの判定を下すステップを含むことができる。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識の分野に関し、より詳細には、ユーザのディクテーション、ユーザのボイス・コマンド、およびテキストの区別を向上させるための方法に関する。
【０００２】
【従来の技術】
音声認識は、マイクロフォンが受信した音響信号を、コンピュータによってテキストに変換するプロセスである。認識したテキストは、次いで、文書の作成、データ入力、コマンドおよび制御などの目的で、様々なコンピュータ・ソフトウェア・アプリケーションにおいて使用することができる。音声ディクテーション・システムは、さらに、コンピュータ・システムをハンドフリーで操作する方法をユーザに提供する。
【０００３】
電子文書の作成に関しては、現在、利用可能な音声ディクテーション・システムは、ユーザが電子文書中のテキストの一部を選択することを可能にするユーザ・ボイス・コマンドを提供する。このようなユーザ・ボイス・コマンドは、一般に、「選択＜テキスト＞」などの構文を使用しており、この場合、ユーザ・ボイス・コマンド「選択」は、そのコマンドに続くテキストを選択または強調表示すべきであることを合図している。テキストの一部が選択された後は、ユーザは、その選択されたテキストに対する一連の後続の操作のうち、どれでも実行することができる。
【０００４】
したがって、ユーザが「選択、元気ですか」と言った場合、音声ディクテーション・システムは、電子文書のテキスト本体内で「元気ですか」というテキスト語句を検索する。テキスト本体中に捜し出すと、その語句を選択または強調表示することができる。続いて、ユーザは、その選択されたテキストに対して、削除操作、太字／イタリック／下線操作、または訂正操作などの操作を実行することができる。さらなる例では、「元気ですか」というテキストが強調表示されると、そのユーザが選択したテキスト部分を、その後にユーザが口から発したことばから引き出される別のテキストと置換することができる。このようにして、ユーザは、電子文書のハンドフリー訂正を行うことができる。
【０００５】
現在のところ、「選択」コマンドや、その他のテキストを選択するための同様のユーザ・ボイス・コマンドの知られている実装形態にはいくつかの欠点がある。このような欠点の１つは、テキスト本体内でユーザが選択したいと思う語句または語が、複数個所で出現する可能性があることである。例えば、テキスト本体内において、「その」という語は多数の個所で出現すると思われる。したがって、ユーザが「選択、その」というと、音声ディクテーション・システムは、「その」という語のどの出現個所をユーザが選択したいと考えているのかを判定することができないことがある。
【０００６】
この問題に対処するために、従来の音声ディクテーション・システムは、ユーザが所望する語または語句の、どの出現個所をユーザが選択したいのかを判定するための規則体系に依存している。例えば、音声ディクテーション・システムは、アクティブ・ウィンドウの最上部から開始して、その語または語句の最初の出現個所を選択する。しかし、ユーザが、その語または語句の最初の出現個所を選択することを望まない場合、従来の音声ディクテーション・システムでは、ユーザは、その語の別の出現個所を選択することができる。特に、従来の音声ディクテーション・システムによっては、「次」や「前」などのナビゲーション・ボイス・コマンドを提供しているものもある。
【０００７】
「次」というボイス・コマンドを口から発することによって、ユーザは、所望の語または語句の次の出現個所を捜し出して選択するように音声ディクテーション・システムに命令する。同様に、「前」というコマンドは、所望の語または語句の前の出現個所を捜し出して選択するように音声ディクテーション・システムに命令する。このような従来のシステムによって、ユーザは、特定の語または語句の所望の出現個所に進むことができるが、その所望の出現個所に進むための戦略を展開させなければならない。これは、時間の浪費とユーザのフラストレーションを招く可能性があり、特に、ユーザが音声ディクテーション・システムを不正確かつ非効率的であると感じている場合にはそれが言える。
【０００８】
従来の音声ディクテーション・システムにおける従来のテキスト選択方法の別の欠点は、このような音声ディクテーション・システムが、ユーザが指定した語または語句を検索しているとき、一般に、ユーザの画面内に現れているテキスト本体の全体を検索することである。ユーザの画面内に現れているそれぞれの語は、音声ディクテーション・システムの文法内で活動化され、音声ディクテーション・システムにとっては、等しく同じ候補に見える。ユーザはたった１つの語または語句を望んでいるだけなので、ユーザの画面内に現れているテキスト本体の全体を使用可能にして検索することは非効率的である。さらに、この技術は、誤認識が発声する可能性を高くすることがある。
【０００９】
従来の音声ディクテーション・システムにおける従来のテキスト選択方法のさらに別の欠点は、ユーザが、音声ディクテーションの間またはボイス・コマンド、例えばドロップダウン・メニューを起動するボイス・コマンドの間に発声したのかどうかが、音声ディクテーション・システムに容易にわからないことがよくあることである。例えば、ユーザが「ファイル」という語を発した場合、状況に応じて、ユーザがメニュー・バー中の「ファイル」メニューを起動するつもりのこともあるし、または、電子文書中に「ファイル」という語を挿入するつもりのこともある。したがって、ユーザの発声がボイス・コマンドなのか音声ディクテーションなのかが、従来の音声ディクテーション・システムにとって必ずしもはっきりわかるとは限らない。
【００１０】
したがって、現在、利用可能な音声ディクテーション・システムは、コンピュータと対話して、アプリケーションに聞こえるように命令し、電子文書中に音声ディクテーションを与え、かつその電子文書内のテキストを選択する方法を提供するが、ユーザのボイス・コマンド、ユーザのディクテーション、テキスト、およびそれらの組み合わせを区別するための改良された方法に対する必要が残っている。
【００１１】
【発明が解決しようとする課題】
したがって、本明細書で開示する本発明は、音声ディクテーション・システムとともに視線追跡システムを利用することによって、電子文書中のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するための方法および装置を提供する。本発明の方法および装置は、有利には、音声ディクテーション・システム作動中のユーザの注視の焦点（ｆｏｃｕｓ　ｏｆ　ｐｏｉｎｔ）を判定するために音声ディクテーション・システムとともに使用する、視線追跡システム（ＥＴＳ）を含むことができる。特に、ＥＴＳを音声ディクテーション・システムとともに使用することにより、「選択」ユーザ・ボイス・コマンド機能や、音声ディクテーション・システムにおいてテキスト本体内のテキストの一部を選択するためのその他のいずれかのユーザ・ボイス・コマンドの精度を向上させることができる。本発明のＥＴＳを使用することにより、ユーザのディクテーションとボイス・コマンドの区別が容易になって、システム性能を向上させることもできる。
【００１２】
【課題を解決するための手段】
したがって、第１の態様では、本発明は、マッチするテキストを電子文書中で検索するための方法を提供し、この方法は、ユーザ・インタフェース中の焦点を識別するステップと、その焦点の周りに周囲領域を定義するステップを含むことができる。特に、周囲領域は、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むことができる。さらに、この方法は、電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、周囲領域に含まれているテキスト本体において、指定テキストとのマッチを検索するステップを含むことができる。注目すべきは、この検索の対象を、周囲領域中のテキスト本体に限定できることである。
【００１３】
好ましくは、マッチするテキストを電子文書中で検索する方法は、検索するステップにおいて指定テキストとのマッチがテキスト本体中に見つからなかった場合には、周囲領域を拡大して、ユーザ・インタフェースのさらなるエリアを追加して含むステップをさらに含む。特に、この拡大によって含まれた追加エリアは、追加テキストを含むことができる。したがって、この追加テキストにおいて、指定テキストとのマッチを検索することができる。最後に、前と同様に、この検索の対象を、テキスト本体および追加テキストに限定することができる。
【００１４】
好ましくは、拡大するステップは、周囲領域を、焦点から外側に向けて固定増分だけ拡大するステップを含むことができる。あるいは、拡大するステップは、周囲領域を、テキスト本体に隣接する固定量のテキストだけ拡大するステップを含むことができる。最後に、拡大するステップは、周囲領域を、焦点から外側に向けて可変増分だけ拡大するステップを含むことができる。
【００１５】
したがって、第２の態様では、本発明は、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を提供し、この方法は、ユーザ・インタフェース中の焦点を識別するステップと、焦点の周りに周囲領域を定義するステップと、周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別されたユーザ・インタフェース・オブジェクトか、音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別されたユーザ・インタフェース・オブジェクトかに基づいて、確率を計算するステップと、音声入力を受け取るステップと、計算した確率に基づいて、音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含むことができる。さらに、この方法は、ユーザ・インタフェースの外側にある焦点を識別するステップと、デフォルトの確率に基づいて、音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含むことができる。
【００１６】
したがって、第３の態様では、本発明は、マッチするテキストを電子文書中で検索するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって機械が、ユーザ・インタフェース中の焦点を識別するステップと、前記焦点の周りに周囲領域を定義するステップであって、前記周囲領域が、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むステップと、電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、周囲領域中に含まれる前記テキスト本体において前記指定テキストとのマッチを検索するステップであって、その対象が、前記周囲領域中の前記テキスト本体に限定されるステップとを含む機械可読記憶装置を提供する。
【００１７】
したがって、第４の態様では、本発明は、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって機械が、ユーザ・インタフェース中の焦点を識別するステップと、前記焦点の周りに周囲領域を定義するステップと、前記周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、前記識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別されたユーザ・インタフェース・オブジェクトか、音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別されたユーザ・インタフェース・オブジェクトかに基づいて、確率を計算するステップと、音声入力を受け取るステップと、前記計算した確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含む機械可読記憶装置を提供する。
【００１８】
したがって、第５の態様では、本発明は、コンピュータ上で実行されると上述の方法を実行する、コンピュータ可読記憶装置媒体上に記憶されたコンピュータ・プログラム・コードを含むコンピュータ・プログラム・プロダクトを提供する。
【００１９】
【発明の実施の形態】
視線追跡システム（ＥＴＳ）を音声ディクテーション・システムとともに利用することによって、音声ディクテーション・システムの性能を向上させることができる。詳細には、本発明の構成によれば、ＥＴＳは、音声ディクテーション・システムがテキスト本体における複数のテキスト出現個所を区別するのを支援する。さらに、ＥＴＳは、音声ディクテーション・システムが音声入力を解析して、ボイス・コマンドと音声ディクテーションを区別するのを支援する。このような機能強化は、ＥＴＳにおいてユーザの注視の焦点の画面上の位置を検出することによって実現できる。有利には、画面上の位置を、画面内であろうと画面外であろうと、音声ディクテーション・システムに伝達することができる。ユーザの注視の焦点の位置に基づいて、その焦点の周りに、音声入力がボイス・コマンドであるか音声ディクテーションであるかを判定する際の援助となり得る領域（「周囲領域」と呼ぶ）を定義することができる。さらに、この周囲領域を使って、ユーザが選択するように指定した、テキストの特定の出現個所を識別することができる。
【００２０】
図１は、本明細書に開示している本発明と対話しているユーザを例示的に描写したものである。図１では、ユーザが、ビデオ・ディスプレイ端末（ＶＤＴ）３２上のある位置を注視している。ユーザの注視の焦点を、ＶＤＴ３２の画面上に星印で表してある。ヘッドマウント・ハードウェア・インタフェース２９を備えたＥＴＳも示してある。ＥＴＳは、視線追跡および測定の技術分野ではよく知られている。バージニア州フェアファックスのＬＣＴｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．が製造しているＴＨＥＥＹＥＧＡＺＥＤＥＶＥＬＯＰＭＥＮＴＳＹＳＴＥＭ、および、ともにマサチューセッツ州ボストンのＳｅｎｓｏＭｏｔｏｒｉｃＩｎｓｔｒｕｍｅｎｔｓ，Ｉｎｃ．（「ＳｅｎｓｏＭｏｔｏｒｉｃＩｎｓｔｒｕｍｅｎｔｓ」はＳｅｎｓｏＭｏｔｏｒｉｃＩｎｓｔｒｕｍｅｎｔｓ，Ｉｎｃ．の登録商標）が製造している、ＥＹＥＭＯＵＳＥ（「ＥｙｅＭｏｕｓｅ」はＳｅｎｓｏＭｏｔｏｒｉｃＩｎｓｔｒｕｍｅｎｔｓ，Ｉｎｃ．の登録商標）とＥＹＥＬＩＮＫ（「ＥｙｅＬｉｎｋ」は、ＳＲＲｅｓｅａｒｃｈＬｔｄ．の登録商標）などのＥＴＳが、現在、市販されている。
【００２１】
ＥＴＳの構成には、視線追跡ハードウェア・インタフェース２９および画像処理システム３４を含めることができる。視線追跡ハードウェア・インタフェース２９は、ＬＣＴｅｃｈｎｏｌｏｇｉｅｓＩｎｃ．から入手可能なテーブルトップ・マウント・ユニットであってよい。例示的なテーブルトップ・マウント視線追跡ユニットを図２に示す。あるいは、視線追跡ハードウェア・インタフェース２９は、ＳｅｎｓｏＭｏｔｏｒｉｃＩｎｓｔｒｕｍｅｎｔｓ，Ｉｎｃ．から入手可能な、図１に示すヘッドマウント・ユニットであってよい。テーブルトップ・マウント・ユニットの場合もヘッドマウント・ユニットの場合も、視線追跡ハードウェア・インタフェース２９は、ユーザの視線に関する情報を画像処理システム３４に伝達することができる。
【００２２】
画像処理システムは、スタンドアローンの画像処理システムであってよいし、あるいは、従来のコンピュータ内に存在することもできる。画像処理システムが従来のコンピュータ内に存在する場合、その従来のコンピュータは、画像処理回路と画像処理ソフトウェアを組み合わせて利用して、画像処理システムの機能を実行することができる。当業者は、本発明が選択されているＥＴＳに限定されるものではないことを理解されたい。そうではなく、ユーザの注視の焦点の位置をコンピュータに伝達することができる適切なＥＴＳであれば、どのようなＥＴＳでも使用することができる。
【００２３】
図２は、画像処理システム３４が、従来のコンピュータに基づく画像処理システムである状況を示す。特に、画像処理システム３４は、中央処理装置（ＣＰＵ）、１つまたは複数のメモリ装置、および関連する回路を含む、従来のコンピュータ２０を含むことができる。従来のコンピュータ２０は、好ましくは、電子ランダム・アクセス・メモリ２７Ａ、および磁気ディスク・ドライブなどのバルク・データ記憶媒体２７Ｂを含むコンピュータ・メモリ装置２７を含むことができる。最後に、コンピュータ２０は、例えばマウスなどのポインティング・デバイス２１、およびそれに動作可能に接続されたビデオ・データ端末（ＶＤＴ）などの、少なくとも１台のユーザ・インタフェース・ディスプレイ・ユニット３２を含むことができる。
【００２４】
特に、コンピュータ２０は、音声認識およびテキスト音声（ＴＴＳ）変換を実行するように構成することができる。したがって、コンピュータ２０は、音声入力装置３０、例えばマイクロフォンをさらに含むことができる。さらに、コンピュータ２０は、音声出力装置２３、例えばスピーカを含むことができる。音声入力装置３０および音声出力装置２３の両方を、適切なインタフェース回路または「サウンド・ボード」（図示せず）を介して、コンピュータ２０に動作可能に接続することができる。このようにして、ユーザの音声を、音声入力装置３０を介してコンピュータ２０中に受け取ることができ、また、合成した音声および他のオーディオを、音声出力装置２３を介してユーザに提供することができる。多くの市販の高速マルチメディア・パーソナル・コンピュータのどれでも、上述の従来のコンピュータ２０に対する様々なハードウェア要件を満たすことができる。
【００２５】
本発明によれば、コンピュータ２０は、コンピュータ２０の通信ポート（図示せず）を介してコンピュータ２０に動作可能に接続され、また、適切な画像処理回路およびソフトウェアを介してコンピュータ２０に通信可能にリンクされている視線追跡ハードウェア・インタフェース２９（ここではテーブルトップ型を示す）をさらに含むことができる。詳細には、画像処理回路およびソフトウェアは、ユーザの注視の焦点の位置を判定することができ、また、その情報を、画像処理ソフトウェアに通信可能にリンクされているコンピュータ・アプリケーションに伝達することができる。本発明では、音声ディクテーション・システムを画像処理ソフトウェアに通信可能にリンクすることができ、その画像処理ソフトウェアから、音声ディクテーション・システムは、ユーザの注視の焦点の位置を示すデータを受け取ることができる。
【００２６】
図３は、ＥＴＳを組み込んでいる音声使用可能なコンピュータ・システムのための代表的なアーキテクチャを示す。このアーキテクチャでは、コンピュータ・システムが、電子文書内のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するように構成されている。図３に示すように、コンピュータ２０は、メモリ記憶装置２７中に、オペレーティング・システム２４、音声ディクテーション・システム２６、および視線追跡システム２２を含むことができる。図示の例では、音声テキスト・プロセッサ・アプリケーション２８も提供されている。しかし、本発明は、この点に関して限定されるわけではなく、音声ディクテーション・システム２６は、ボイスが使用可能な他のアプリケーション・プログラムのどれとでも一緒に使用することができる。
【００２７】
図２では、音声ディクテーション・システム２６、音声テキスト・プロセッサ２８、および視線追跡システム２２を、別個のアプリケーション・プログラムとして示している。しかし、本発明は、この点に関して限定されるわけではなく、これらの様々なアプリケーション・プログラムを、単一のより複雑なアプリケーション・プログラムとして実装できることに留意されたい。例えば、音声ディクテーション・システム２６を、音声テキスト・プロセッサ・アプリケーション２８と、または音声ディクテーション・システムとともに使用できる他のいずれかのアプリケーションと結合することができる。さらに、視線追跡システム２２は、コンピュータ２０に含まれるアプリケーション・プログラムとして存在することもできるし、あるいは、データ・リンクを介してコンピュータ２０と通信を行うことが可能なスタンドアローンのＥＴＳ内に存在することもできる。システムはまた、他のアプリケーション・プログラムのボイス動作のために音声ディクテーション・システムの動作を調整するためのボイス・ナビゲータ・アプリケーション（図示せず）も含むこともできるが、本明細書に記載の本発明の動作には必要ではない。
【００２８】
図４は、音声ディクテーション・システム２６における音声信号の音声テキスト変換を説明する、代表的なコンポーネントを示す構成図である。一般に、アナログ音声信号を、図２に示すように音声入力装置を介して受け取り、音声回路で、ディジタル化された音声信号に処理することができる。詳細には、ある固定した割合、一般的には１０〜２０ミリ秒毎にサンプリングすることによって、音声信号をディジタル化された１組のデータに変換することができる。その後、音声回路は、そのディジタル化された音声信号を音声ディクテーション・システム２６に伝達することができる。
【００２９】
表現ブロック３５は、ディジタル化された音声信号を受け取って、そのディジタル化された音声信号の表現を生成することができる。音声認識プロセスのその後の段階で、この表現を使って、音声信号の一部が特定の音声イベントに対応する確率を決定することができる。このプロセスは、オペレーティング・システムから受け取る音声信号の、認知する上で重要な、話し手に依存しない特徴を強調することを目的としている。
【００３０】
モデル化／分類ブロック３６では、アルゴリズムは音声信号をさらに処理して、話し手に依存しない音響モデルを、現在の話し手の音響モデルに適合化する。最後に、検索ブロック３８で、検索アルゴリズムを使って、検索エンジンを音声信号に対応する最も可能性ある語に導く。検索プロセスは、検索ブロック３８で、音響モデル４０、語彙モデル４２、言語モデル４４、トレーニング・データ４６の支援を受けて発生する。
【００３１】
好ましくは、本発明は、電子文書中のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するための方法および装置を提供する。本発明の方法および装置は、ＥＴＳを音声ディクテーション・システムと組み合わせて協調使用することを含むことができる。特に、これらを組み合わせることで、「選択」ユーザ・ボイス・コマンド機能、または音声ディクテーション・システム中でテキスト本体内のテキストの一部を選択するための他のいずれかのユーザ・ボイス・コマンドの精度を向上させることができる。また、これらを組み合わせることで、音声ディクテーション・システムが音声入力を音声ディクテーションかボイス・コマンドかのどちらかとして解釈するのを援助することにより、音声ディクテーション・システムのパフォーマンスを向上させることもできる。
【００３２】
前述の音声ディクテーション・システムの機能強化は、検出したユーザの注視の焦点に基づいて、そのユーザの注視に時間的に最も近い音声入力が、音声ディクテーションまたはボイス・コマンドのいずれかである確率を計算することによって達成することができる。計算した確率を使って、音声ディクテーションに、その音声入力をスピーチ・ディクテーションかボイス・コマンドのいずれか１つとして解釈させるようにすることができる。詳細には、音声ディクテーション・システムは、検出した焦点の周りに調整可能な画面領域（「周囲領域」）を定義することができ、その結果、音声ディクテーション・システムは、その周囲領域内に位置するテキストおよびオブジェクトに関する情報を連続的に収集し、更新することができる。
【００３３】
音声入力を受け取ると、音声ディクテーション・システムは、周囲領域が主としてユーザ・インタフェース・オブジェクトを含んでいるか、またはテキスト入力フィールドを含んでいるかを判定することができる。周囲領域が主としてテキスト入力フィールドを含んでいる場合は、音声ディクテーション・システムは、音声入力が、そのテキスト入力フィールドに挿入すべき音声ディクテーションとして解釈すべきものであると判定する。一方、周囲領域が主としてユーザ・インタフェース・オブジェクトを含んでいる場合は、音声ディクテーション・システムは、その音声入力をボイス・コマンドとして解釈することができる。最後に、音声入力を、テキスト入力フィールド中のテキスト本体中のあるテキストを選択するためのボイス・コマンドとして解釈した場合には、音声ディクテーション・システムは、テキスト入力フィールド中のテキスト全体ではなく、周囲領域中のテキストに基づいて、選択すべきテキストを識別することができる。このようにして、音声ディクテーション・システムの資源を、電子文書中のテキスト本体全体に対してではなく、テキストのより小さな領域に対して、より効果的に向けることができる。
【００３４】
図５および図６は、ともに、電子文書中のテキストの異なる出現個所を区別し、またボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を示す流れ図を構成している。この方法は、音声ディクテーション・システムおよびＥＴＳの両方を使用するように構成されたコンピュータ・システムに関連して、実施することができる。図５は、ユーザが、音声ディクテーション・システムに音声入力を行いながら、ＶＤＴ３２上（画面内）の、またはＶＤＴ３２から離れた（画面外の）様々な位置を自然に注視しているステップ５０で開始する。
【００３５】
ステップ５５で、ＥＴＳは、ユーザの注視の焦点の位置を識別する。ＥＴＳは、画像処理回路およびソフトウェアの援助を受けて、ユーザの注視の焦点が画面内の位置か、または画面外の位置かを判定する。いずれの場合も、ＥＴＳは、この情報を音声ディクテーション・システムに伝達する。ステップ６０では、音声ディクテーション・システムは、ＥＴＳからユーザの焦点の位置を受け取っている。ユーザの注視の焦点の位置が画面内の場合は、システムはステップ７０に進む。そうでない場合は、システムはステップ６５に続く。
【００３６】
ステップ６０で、焦点の位置が画面内であると判定した場合は、ＥＴＳは、ユーザの注視の焦点のその画面内の位置を識別しているであろう。その結果、ステップ７０で、その焦点の周りに周囲領域を定義することができる。代表的な一実施形態では、周囲領域を、焦点から外側に延びる指定半径に応じた周で定義することができる。あるいは、周囲領域を、焦点上に所定の幾何学エリアを重ねることによって定義することができる。
【００３７】
さらに、本発明は、周囲領域を計算するための方法に限定されない。そうではなく、周囲領域を計算するための適切な方法であれば、どの方法でも本発明の目的に十分である。さらに、周囲領域をどのように決定するかにかかわらず、また結果としての周囲領域の形にかかわらず、外周内の領域のデフォルトの面積またはサイズが、ユーザが調整可能な値であってよいことを、当業者は理解されるであろう。例えば、ユーザがデフォルトの面積を指定することもできるし、あるいは、ユーザが、周囲領域が焦点から外側に延びるように半径を指定することもできる。
【００３８】
ステップ７５で、周囲領域を定義した後、その領域内のテキストおよびオブジェクトに関する情報を収集して、音声入力を音声ディクテーションまたはボイス・コマンドとして解釈すべきかどうかの判定、および、電子文書内での指定テキストの特定の出現個所の識別の両方に使用することができる。特に、収集される情報には、例えば、音声ディクテーションされたテキストを受け取るのに適していないユーザ・インタフェース・オブジェクトの表示に専用のピクセルの数、および、音声ディクテーションされたテキストを受け取るのに適したユーザ・インタフェース・オブジェクトの表示に専用のピクセルの数が含まれ得る。音声ディクテーション・システムがその資源を向けることができる、限定された領域を定義することによって、音声ディクテーション・システムの効率性がはるかに高まることを理解されたい。例えば、音声ディクテーション・システムは、音声ディクテーション文法の全体ではなく、音声ディクテーション文法の、周囲領域内で見つかったテキストを含む部分のみを活動化する必要があるだけである。
【００３９】
ステップ８０で、音声ディクテーションをボイス・コマンドまたは音声ディクテーションのどちらとして解釈できるかに基づいて、確率を計算することができる。詳細には、周囲領域の総面積に対する周囲領域のディクテーション可能面積の比率を算出することによって、確率を計算することができる。例えば、周囲領域の７０％がユーザのディクテーションを受け取ることができる場合には、その確率は７０％または０．７０である。それでも、本発明は、確率を計算するその特定の方法に限定されるわけではない。実際に、例えば、ユーザ・ボイス・コマンドに利用可能な、周囲領域内のオブジェクトの数に対する周囲領域内のテキストの語またはディクテーションされた語の数に基づく、他の確率計算が可能である。それでも、確率をどのように計算するかにかかわらず、好ましくは、その確率が、ユーザのその後の発声がユーザ・ディクテーションまたはユーザ・ボイス・コマンドであるという完全な確実性を表すゼロでも１でもないことを理解されたい。このような極端な確率の値を許可しないことによって、ユーザが、画面外を注視しながら、音声ディクテーション・システムに音声をディクテーションすることを望むという状況を可能にすることができる。
【００４０】
決定ステップ６０で、ユーザの注視の焦点が画面外の位置にあると判定すると、ステップ６５で、システムは、デフォルト値を確率に割り当てることができる。このデフォルト値はデフォルト確率として知られ、ユーザが事前構成することができる。デフォルト確率は、ユーザの注視が画面外である場合に、その後の音声入力が、音声ディクテーションまたはボイス・コマンドのうちの１つである統計的可能性を表す。したがって、デフォルト確率に基づく統計的解析は、ユーザが画面から眼を逸らしている場合には、ユーザが音声入力を音声ディクテーションとして解釈されることを意図している可能性を表すことができる。
【００４１】
デフォルト確率は、ゼロ（０．００）から１（１．００）までの範囲の調整可能な値を有することができる。特に、デフォルト確率に大きな値を割り当てることは、音声ディクテーションの間、ユーザが画面内を見る必要がないという前提を表すことを、当業者は理解されたい。しかし、好ましくは、デフォルト確率が、ユーザが画面から眼を逸らしているときに行われる音声入力は音声ディクテーションまたはボイス・コマンドのいずれかとして解釈されるべきである、という完全な確実性を表さない。このような確実な確率は、音声ディクテーション・システム内のエラーの原因になり得る。
【００４２】
ステップ８５で、確率を計算するかデフォルト確率に依存するか、いずれかの後、音声入力を受け取ることができる。ＥＴＳの援助を受けて引き出した確率に基づいて、音声入力を解析して、その音声入力を音声ディクテーションとして解釈すべきか、またはボイス・コマンドとして解釈すべきかを判定することができる。その後、この方法は、飛び越し円Ａから図６の決定ステップ９５に進み、音声入力を処理し続ける。
【００４３】
決定ステップ９５で、ステップ８５で受け取った音声入力が「選択」ボイス・コマンドか、または電子文書内のテキストを選択するためのその他の同様のボイス・コマンドであったかどうかを判定することができる。音声入力が選択コマンドであると解釈されない場合、この方法はステップ９７に進み、そこで２つのアクションのうち１つが発生する。第１に、音声入力が、選択ボイス・コマンドではないとしても、別のボイス・コマンドであると判定した場合には、従来の音声を可能にするアプリケーションの場合のように、そのボイス・コマンドを実行することができる。第２に、音声入力が音声ディクテーションであると判定した場合には、音声認識エンジンによって、その音声入力をテキストに変換することができる。その後、変換されたテキストを、変換されたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト中に挿入することができる。どちらの場合も、この方法は、飛び越し円Ｃから図５のステップ５０に戻ることができ、プロセスは繰り返すことができる。
【００４４】
決定ステップ９５に戻って、ステップ８５で受け取った音声入力が選択ボイス・コマンド、または電子文書内のテキストを選択するためのその他の同様のボイス・コマンドであったと判定した場合には、ステップ１００で、選択コマンドが指定したテキストが、周囲領域中に含まれるテキスト本体の中に位置するかどうかを判定することができる。例えば、音声入力を選択コマンドの「選択、マウス」として解釈した場合には、周囲領域中に含まれているテキスト本体が「マウス」という語を含んでいるかどうかを判定することができる。ステップ１００で、指定テキストとのマッチが見つかると、この方法は、ステップ１０５に進むことができる。そうでない場合は、この方法はステップ１１０に続く。
【００４５】
ステップ１００で指定テキストとのマッチが見つかると、ステップ１０５で、指定テキストに最も該当するマッチを選択することができる。より詳細には、周囲領域中のテキスト本体内にたった１つのマッチしかない場合には、一般に、マッチしたテキストの出現個所を強調表示することによって、その１つのマッチしたテキストのインスタンスを選択することができる。そうではなく、周囲領域中のテキスト本体内にマッチしたテキストが複数個所存在する場合には、周囲領域中のテキスト本体において、指定テキストのどのインスタンスが焦点に最も近いかを判定することができる。したがって、ユーザの注視の焦点を使って、マッチしたテキストのどのインスタンスを選択すべきかを判定することができる。それでも、本発明は、この点に関して限定されるわけではなく、複数個所のマッチしたテキストの中からマッチしたテキストのあるインスタンスを選択するための、その他の適切な方法でも十分である。このような代替方法には、周囲領域中のテキスト本体における、マッチしたテキストの最初の出現個所を選択することを含めることができる。
【００４６】
指定テキストの該当する出現個所を識別すると、一般に、そのテキストを視覚的に強調することによって、その識別したテキストを選択することができる。指定テキストの誤った、または望まない出現個所が選択された場合には、「前」や「次」などの従来のボイス・コマンドを使って、周囲領域中の、指定テキストの他の出現個所に進むことができることを理解されたい。いずれにしても、この方法は、飛び越し円Ｃから図５のステップ５０に戻り、新たにプロセスを開始することができる。したがって、プロセスを繰り返すことにより、この方法は、再び周囲領域を計算して、その後に受け取る音声入力が音声ディクテーションであるか、またはボイス・コマンドであるかの確率を判定することができる。
【００４７】
次に、決定ステップ１１０に戻って、周囲領域中のテキスト本体内にマッチが見つからない場合は、周囲領域が、音声ディクテーションを受け取るように構成されている表示可能ユーザ・インタフェースのすべてを含んでいるかどうかを判定することができる。含んでいる場合は、画面内のテキスト本体中にマッチが存在しないとみなすことができ、ステップ１１５で、ユーザにその旨を通知することができる。図６に示していない別の実施形態では、画面内にマッチが存在しない場合、システムは、ユーザが指定したテキストの検索を続けて、さらに拡大する追加オプションをユーザに提供する。例えば、現在、開いている電子文書の残りの部分を検索することを望むかどうかを、ユーザにたずねることができる。あるいは、周囲領域の前または後で、所定数の、またはユーザが調整可能な数の語または語句だけ周囲領域を拡大するなど、より対象を絞ったオプションをユーザに提示することができる。いずれの場合も、その後、この方法は、飛び越し円Ｃから図５のステップ５０に戻って、再びプロセスを開始することができる。
【００４８】
一方、ステップ１００で、周囲領域が、音声ディクテーションを受け取るように構成されている表示可能ユーザ・インタフェースのすべてを含んではいないと判定した場合には、画面内のテキスト本体中にマッチが存在しないとみなすことはできない。したがって、ステップ１２０に続いて、周囲領域の面積を、さらなるテキストを含むように拡大することができる。周囲領域の拡大を実行するための適切な方法であれば、どの方法でもかまわない。例えば、周囲領域の外周を、ユーザの焦点から外側に向けて、所定の値または動的に計算した値だけ、すべての方向に等しく拡張することができる。あるいは、周囲領域を、焦点から外側に向けて、面積を表す所定の値だけ拡大することができる。
【００４９】
本発明の一実施形態では、所定のデフォルト値を使って、拡大の程度を決定することができる。デフォルト値は、微調整ができるように調整可能である。このようにして、ユーザは、検索を繰り返す間に、周囲領域をどれだけ大きくすべきかを指定することができる。前の例では、周囲領域中のテキスト本体内に、ユーザが指定したテキスト「マウス」が見つからなかった場合、周囲領域の周を、焦点から外側に向けて、すべての方向に１センチメートルだけ拡大することができる。あるいは、５平方センチメートルという所定の面積だけ、または特定のピクセル数だけ、周囲領域を拡大することができる。
【００５０】
周囲領域の拡大に続き、ステップ１２５で、本発明の方法において、将来、使用するために、新たに拡大した周囲領域内のオブジェクトおよびテキストに関する情報を計算し、収集し、記憶する。さらに、新たに拡大した周囲領域内に存在するようになった新しいテキスト本体を、音声ディクテーション・システムの文法内で活動化することができる。また、新しく拡大した周囲領域内に存在するオブジェクトの属性を識別することができる。新たに拡大した周囲領域内のテキストおよびオブジェクトを識別した後、飛び越し円Ｂを通ってステップ１００を開始することにより、テキスト本体において、マッチするテキストの検索を繰り返すことができる。このようにして、この方法は、テキスト本体内におけるユーザが指定したテキストの検索を、テキスト本体の画面内の部分いっぱいまで、またそれを超えて、系統的かつ増分的に拡大するこができる。
【００５１】
特に、本発明を、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせで実現することができる。本発明の方法は、１つのコンピュータ・システム中に集中的な方法で、または、いくつかの相互接続されたコンピュータ・システム間に様々な構成要素が散在する、分散的な方法で実現することができる。本明細書に記載の方法を実行するように適合されたものであれば、どの種類のコンピュータ・システムまたは他の装置でも適している。ハードウェアとソフトウェアの代表的な組み合わせとしては、ロードされて実行されると、本明細書に記載の方法を実行するようにコンピュータ・システムを制御する、コンピュータ・プログラムを備えた汎用コンピュータ・システムが挙げられる。
【００５２】
本発明はまた、本明細書に記載の方法の実施を可能にするすべての機能を含み、かつ、コンピュータ・システム中にロードされると、これらの方法を実行することができるコンピュータ・プログラム・プロダクト中に埋め込むこともできる。現在の文脈におけるコンピュータ・プログラム手段またはコンピュータ・プログラムとは、情報処理機能を有するシステムに、直接、あるいは、次のａ）、ｂ）のいずれかまたは両方の後、特定の機能を実行させることを意図した、任意の言語、コード、または表記法による１組の命令の任意の表現を意味する。ａ）、ｂ）とは、ａ）別の言語、コードまたは表記法への変換、ｂ）異なる材料のフォームでの複製。
【００５３】
前述の明細は、本発明の好ましい実施形態を例示および説明しているが、本発明は、本明細書で開示している通りの構成に限定されるものではないことを理解されたい。本発明は、その本質的な属性から逸脱することなく、他の特定の形態で実施することができる。したがって、本発明の範囲を示すものとして、前述の明細ではなく、特許請求の範囲を参照されたい。
【図面の簡単な説明】
【図１】
本明細書に開示している本発明と対話しているユーザを、例示的に描写した図である。
【図２】
本発明の使用に適したコンピュータ・システムを示す構成図である。
【図３】
図１のコンピュータ・システムのための代表的な高水準アーキテクチャを示す構成図である。
【図４】
音声認識エンジンを含む代表的なコンポーネントを示す構成図である。
【図５】
視線追跡システムを音声ディクテーション・システムとともに利用することにより、電子文書中のテキストの異なる出現個所を区別し、またボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を示す流れ図である。
【図６】
視線追跡システムを音声ディクテーション・システムとともに利用することにより、電子文書中のテキストの異なる出現個所を区別し、またボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を示す流れ図である。

Claims

電子文書において、マッチするテキストを検索する方法であって、
ユーザ・インタフェース中の焦点を識別するステップと、
前記焦点の周りに周囲領域を定義するステップであって、前記周囲領域が、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むステップと、
前記電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、
前記周囲領域内に含まれる前記テキスト本体中で前記指定テキストとのマッチを検索するステップであって、その対象が前記周囲領域中の前記テキスト本体に限定されるステップとを含む方法。
前記検索するステップにおいて、前記テキスト本体中に前記指定テキストとのマッチが見つからない場合に、前記周囲領域を拡大して、前記ユーザ・インタフェースの追加エリアを含むステップであって、前記追加エリアが追加テキストを含むステップと、
前記追加テキストにおいて前記指定テキストとのマッチを検索するステップであって、その対象が前記テキスト本体および前記追加テキストに限定されるステップとをさらに含む、請求項１に記載の方法。
前記拡大するステップが、
前記周囲領域を、前記焦点から外側に向けて固定増分だけ拡大するステップを含む、請求項２に記載の方法。
前記拡大するステップが、
前記周囲領域を、前記テキスト本体に隣接する固定量のテキストだけ拡大するステップを含む、請求項２に記載の方法。
前記拡大するステップが、
前記周囲領域を、前記焦点から外側に向けて可変増分だけ拡大するステップを含む、請求項２に記載の方法。
ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法であって、
ユーザ・インタフェース中の焦点を識別するステップと、
前記焦点の周りに周囲領域を定義するステップと、
前記周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、
前記識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、
音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別された前記ユーザ・インタフェース・オブジェクト、および音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別された前記ユーザ・インタフェース・オブジェクトに基づいて、確率を計算するステップと、
音声入力を受け取るステップと、
前記計算した確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含む方法。
前記ユーザ・インタフェースの外側の焦点を識別するステップと、
デフォルトの確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとをさらに含む、請求項６に記載の方法。
マッチするテキストを電子文書中で検索するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって機械が、
ユーザ・インタフェース中の焦点を識別するステップと、
前記焦点の周りに周囲領域を定義するステップであって、前記周囲領域が、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むステップと、
前記電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、
前記周囲領域中に含まれる前記テキスト本体において前記指定テキストとのマッチを検索するステップであって、その対象が、前記周囲領域中の前記テキスト本体に限定されるステップとを実行する機械可読記憶装置。
前記検索するステップにおいて、前記テキスト本体中に前記指定テキストとのマッチが見つからない場合に、前記周囲領域を拡大して、前記ユーザ・インタフェースの追加エリアを含むステップであって、前記追加エリアが追加テキストを含むステップと、
前記追加テキストにおいて前記指定テキストとのマッチを検索するステップであって、その対象が前記テキスト本体および前記追加テキストに限定されるステップとをさらに含む、請求項８に記載の機械可読記憶装置。
前記拡大するステップが、
前記周囲領域を、前記焦点から外側に向けて固定増分だけ拡大するステップを含む、請求項９に記載の機械可読記憶装置。
前記拡大するステップが、
前記周囲領域を、前記テキスト本体に隣接する固定量のテキストだけ拡大するステップを含む、請求項９に記載の機械可読記憶装置。
前記拡大するステップが、
前記周囲領域を、前記焦点から外側に向けて可変増分だけ拡大するステップを含む、請求項９に記載の機械可読記憶装置。
ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって前記機械が、
ユーザ・インタフェース中の焦点を識別するステップと、
前記焦点の周りに周囲領域を定義するステップと、
前記周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、
前記識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、
音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別された前記ユーザ・インタフェース・オブジェクト、および音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別された前記ユーザ・インタフェース・オブジェクトに基づいて、確率を計算するステップと、
音声入力を受け取るステップと、
前記計算した確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを実行する機械可読記憶装置。
前記ユーザ・インタフェースの外側の焦点を識別するステップと、
デフォルトの確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとをさらに含む、請求項１３に記載の機械可読記憶装置。
コンピュータ上で実行されると請求項１ないし７に記載のいずれかの方法を実行する、コンピュータ可読記憶媒体上に記憶されたコンピュータ・プログラム。