JP2004510239A - ディクテーションとコマンドの区別を向上させる方法 - Google Patents
ディクテーションとコマンドの区別を向上させる方法 Download PDFInfo
- Publication number
- JP2004510239A JP2004510239A JP2002529757A JP2002529757A JP2004510239A JP 2004510239 A JP2004510239 A JP 2004510239A JP 2002529757 A JP2002529757 A JP 2002529757A JP 2002529757 A JP2002529757 A JP 2002529757A JP 2004510239 A JP2004510239 A JP 2004510239A
- Authority
- JP
- Japan
- Prior art keywords
- text
- voice
- user interface
- surrounding area
- dictation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Abstract
【解決手段】ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法は、ユーザ・インタフェース中の焦点を識別するステップ、焦点の周りに周囲領域を定義するステップ、周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップ、識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップ、音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別されたユーザ・インタフェース・オブジェクトか、音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別されたユーザ・インタフェース・オブジェクトかに基づいて、確率を計算するステップ、音声入力を受け取るステップ、および計算した確率に基づいて、音声入力がボイス・コマンドか音声ディクテーションかの判定を下すステップを含むことができる。さらに、この方法は、ユーザ・インタフェースの外側の焦点を識別するステップ、およびデフォルトの確率に基づいて、音声入力がボイス・コマンドか音声ディクテーションかの判定を下すステップを含むことができる。
【選択図】図1
Description
【発明の属する技術分野】
本発明は、音声認識の分野に関し、より詳細には、ユーザのディクテーション、ユーザのボイス・コマンド、およびテキストの区別を向上させるための方法に関する。
【0002】
【従来の技術】
音声認識は、マイクロフォンが受信した音響信号を、コンピュータによってテキストに変換するプロセスである。認識したテキストは、次いで、文書の作成、データ入力、コマンドおよび制御などの目的で、様々なコンピュータ・ソフトウェア・アプリケーションにおいて使用することができる。音声ディクテーション・システムは、さらに、コンピュータ・システムをハンドフリーで操作する方法をユーザに提供する。
【0003】
電子文書の作成に関しては、現在、利用可能な音声ディクテーション・システムは、ユーザが電子文書中のテキストの一部を選択することを可能にするユーザ・ボイス・コマンドを提供する。このようなユーザ・ボイス・コマンドは、一般に、「選択<テキスト>」などの構文を使用しており、この場合、ユーザ・ボイス・コマンド「選択」は、そのコマンドに続くテキストを選択または強調表示すべきであることを合図している。テキストの一部が選択された後は、ユーザは、その選択されたテキストに対する一連の後続の操作のうち、どれでも実行することができる。
【0004】
したがって、ユーザが「選択、元気ですか」と言った場合、音声ディクテーション・システムは、電子文書のテキスト本体内で「元気ですか」というテキスト語句を検索する。テキスト本体中に捜し出すと、その語句を選択または強調表示することができる。続いて、ユーザは、その選択されたテキストに対して、削除操作、太字/イタリック/下線操作、または訂正操作などの操作を実行することができる。さらなる例では、「元気ですか」というテキストが強調表示されると、そのユーザが選択したテキスト部分を、その後にユーザが口から発したことばから引き出される別のテキストと置換することができる。このようにして、ユーザは、電子文書のハンドフリー訂正を行うことができる。
【0005】
現在のところ、「選択」コマンドや、その他のテキストを選択するための同様のユーザ・ボイス・コマンドの知られている実装形態にはいくつかの欠点がある。このような欠点の1つは、テキスト本体内でユーザが選択したいと思う語句または語が、複数個所で出現する可能性があることである。例えば、テキスト本体内において、「その」という語は多数の個所で出現すると思われる。したがって、ユーザが「選択、その」というと、音声ディクテーション・システムは、「その」という語のどの出現個所をユーザが選択したいと考えているのかを判定することができないことがある。
【0006】
この問題に対処するために、従来の音声ディクテーション・システムは、ユーザが所望する語または語句の、どの出現個所をユーザが選択したいのかを判定するための規則体系に依存している。例えば、音声ディクテーション・システムは、アクティブ・ウィンドウの最上部から開始して、その語または語句の最初の出現個所を選択する。しかし、ユーザが、その語または語句の最初の出現個所を選択することを望まない場合、従来の音声ディクテーション・システムでは、ユーザは、その語の別の出現個所を選択することができる。特に、従来の音声ディクテーション・システムによっては、「次」や「前」などのナビゲーション・ボイス・コマンドを提供しているものもある。
【0007】
「次」というボイス・コマンドを口から発することによって、ユーザは、所望の語または語句の次の出現個所を捜し出して選択するように音声ディクテーション・システムに命令する。同様に、「前」というコマンドは、所望の語または語句の前の出現個所を捜し出して選択するように音声ディクテーション・システムに命令する。このような従来のシステムによって、ユーザは、特定の語または語句の所望の出現個所に進むことができるが、その所望の出現個所に進むための戦略を展開させなければならない。これは、時間の浪費とユーザのフラストレーションを招く可能性があり、特に、ユーザが音声ディクテーション・システムを不正確かつ非効率的であると感じている場合にはそれが言える。
【0008】
従来の音声ディクテーション・システムにおける従来のテキスト選択方法の別の欠点は、このような音声ディクテーション・システムが、ユーザが指定した語または語句を検索しているとき、一般に、ユーザの画面内に現れているテキスト本体の全体を検索することである。ユーザの画面内に現れているそれぞれの語は、音声ディクテーション・システムの文法内で活動化され、音声ディクテーション・システムにとっては、等しく同じ候補に見える。ユーザはたった1つの語または語句を望んでいるだけなので、ユーザの画面内に現れているテキスト本体の全体を使用可能にして検索することは非効率的である。さらに、この技術は、誤認識が発声する可能性を高くすることがある。
【0009】
従来の音声ディクテーション・システムにおける従来のテキスト選択方法のさらに別の欠点は、ユーザが、音声ディクテーションの間またはボイス・コマンド、例えばドロップダウン・メニューを起動するボイス・コマンドの間に発声したのかどうかが、音声ディクテーション・システムに容易にわからないことがよくあることである。例えば、ユーザが「ファイル」という語を発した場合、状況に応じて、ユーザがメニュー・バー中の「ファイル」メニューを起動するつもりのこともあるし、または、電子文書中に「ファイル」という語を挿入するつもりのこともある。したがって、ユーザの発声がボイス・コマンドなのか音声ディクテーションなのかが、従来の音声ディクテーション・システムにとって必ずしもはっきりわかるとは限らない。
【0010】
したがって、現在、利用可能な音声ディクテーション・システムは、コンピュータと対話して、アプリケーションに聞こえるように命令し、電子文書中に音声ディクテーションを与え、かつその電子文書内のテキストを選択する方法を提供するが、ユーザのボイス・コマンド、ユーザのディクテーション、テキスト、およびそれらの組み合わせを区別するための改良された方法に対する必要が残っている。
【0011】
【発明が解決しようとする課題】
したがって、本明細書で開示する本発明は、音声ディクテーション・システムとともに視線追跡システムを利用することによって、電子文書中のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するための方法および装置を提供する。本発明の方法および装置は、有利には、音声ディクテーション・システム作動中のユーザの注視の焦点(focus of point)を判定するために音声ディクテーション・システムとともに使用する、視線追跡システム(ETS)を含むことができる。特に、ETSを音声ディクテーション・システムとともに使用することにより、「選択」ユーザ・ボイス・コマンド機能や、音声ディクテーション・システムにおいてテキスト本体内のテキストの一部を選択するためのその他のいずれかのユーザ・ボイス・コマンドの精度を向上させることができる。本発明のETSを使用することにより、ユーザのディクテーションとボイス・コマンドの区別が容易になって、システム性能を向上させることもできる。
【0012】
【課題を解決するための手段】
したがって、第1の態様では、本発明は、マッチするテキストを電子文書中で検索するための方法を提供し、この方法は、ユーザ・インタフェース中の焦点を識別するステップと、その焦点の周りに周囲領域を定義するステップを含むことができる。特に、周囲領域は、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むことができる。さらに、この方法は、電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、周囲領域に含まれているテキスト本体において、指定テキストとのマッチを検索するステップを含むことができる。注目すべきは、この検索の対象を、周囲領域中のテキスト本体に限定できることである。
【0013】
好ましくは、マッチするテキストを電子文書中で検索する方法は、検索するステップにおいて指定テキストとのマッチがテキスト本体中に見つからなかった場合には、周囲領域を拡大して、ユーザ・インタフェースのさらなるエリアを追加して含むステップをさらに含む。特に、この拡大によって含まれた追加エリアは、追加テキストを含むことができる。したがって、この追加テキストにおいて、指定テキストとのマッチを検索することができる。最後に、前と同様に、この検索の対象を、テキスト本体および追加テキストに限定することができる。
【0014】
好ましくは、拡大するステップは、周囲領域を、焦点から外側に向けて固定増分だけ拡大するステップを含むことができる。あるいは、拡大するステップは、周囲領域を、テキスト本体に隣接する固定量のテキストだけ拡大するステップを含むことができる。最後に、拡大するステップは、周囲領域を、焦点から外側に向けて可変増分だけ拡大するステップを含むことができる。
【0015】
したがって、第2の態様では、本発明は、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を提供し、この方法は、ユーザ・インタフェース中の焦点を識別するステップと、焦点の周りに周囲領域を定義するステップと、周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別されたユーザ・インタフェース・オブジェクトか、音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別されたユーザ・インタフェース・オブジェクトかに基づいて、確率を計算するステップと、音声入力を受け取るステップと、計算した確率に基づいて、音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含むことができる。さらに、この方法は、ユーザ・インタフェースの外側にある焦点を識別するステップと、デフォルトの確率に基づいて、音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含むことができる。
【0016】
したがって、第3の態様では、本発明は、マッチするテキストを電子文書中で検索するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって機械が、ユーザ・インタフェース中の焦点を識別するステップと、前記焦点の周りに周囲領域を定義するステップであって、前記周囲領域が、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むステップと、電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、周囲領域中に含まれる前記テキスト本体において前記指定テキストとのマッチを検索するステップであって、その対象が、前記周囲領域中の前記テキスト本体に限定されるステップとを含む機械可読記憶装置を提供する。
【0017】
したがって、第4の態様では、本発明は、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって機械が、ユーザ・インタフェース中の焦点を識別するステップと、前記焦点の周りに周囲領域を定義するステップと、前記周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、前記識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別されたユーザ・インタフェース・オブジェクトか、音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別されたユーザ・インタフェース・オブジェクトかに基づいて、確率を計算するステップと、音声入力を受け取るステップと、前記計算した確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含む機械可読記憶装置を提供する。
【0018】
したがって、第5の態様では、本発明は、コンピュータ上で実行されると上述の方法を実行する、コンピュータ可読記憶装置媒体上に記憶されたコンピュータ・プログラム・コードを含むコンピュータ・プログラム・プロダクトを提供する。
【0019】
【発明の実施の形態】
視線追跡システム(ETS)を音声ディクテーション・システムとともに利用することによって、音声ディクテーション・システムの性能を向上させることができる。詳細には、本発明の構成によれば、ETSは、音声ディクテーション・システムがテキスト本体における複数のテキスト出現個所を区別するのを支援する。さらに、ETSは、音声ディクテーション・システムが音声入力を解析して、ボイス・コマンドと音声ディクテーションを区別するのを支援する。このような機能強化は、ETSにおいてユーザの注視の焦点の画面上の位置を検出することによって実現できる。有利には、画面上の位置を、画面内であろうと画面外であろうと、音声ディクテーション・システムに伝達することができる。ユーザの注視の焦点の位置に基づいて、その焦点の周りに、音声入力がボイス・コマンドであるか音声ディクテーションであるかを判定する際の援助となり得る領域(「周囲領域」と呼ぶ)を定義することができる。さらに、この周囲領域を使って、ユーザが選択するように指定した、テキストの特定の出現個所を識別することができる。
【0020】
図1は、本明細書に開示している本発明と対話しているユーザを例示的に描写したものである。図1では、ユーザが、ビデオ・ディスプレイ端末(VDT)32上のある位置を注視している。ユーザの注視の焦点を、VDT32の画面上に星印で表してある。ヘッドマウント・ハードウェア・インタフェース29を備えたETSも示してある。ETSは、視線追跡および測定の技術分野ではよく知られている。バージニア州フェアファックスのLC Technologies, Inc.が製造しているTHE EYEGAZE DEVELOPMENT SYSTEM、および、ともにマサチューセッツ州ボストンのSensoMotoricInstruments, Inc.(「SensoMotoric Instruments」はSensoMotoric Instruments, Inc.の登録商標)が製造している、EYEMOUSE(「EyeMouse」はSensoMotoric Instruments, Inc.の登録商標)とEYELINK(「EyeLink」は、SR Research Ltd.の登録商標)などのETSが、現在、市販されている。
【0021】
ETSの構成には、視線追跡ハードウェア・インタフェース29および画像処理システム34を含めることができる。視線追跡ハードウェア・インタフェース29は、LC Technologies Inc.から入手可能なテーブルトップ・マウント・ユニットであってよい。例示的なテーブルトップ・マウント視線追跡ユニットを図2に示す。あるいは、視線追跡ハードウェア・インタフェース29は、SensoMotoricInstruments, Inc.から入手可能な、図1に示すヘッドマウント・ユニットであってよい。テーブルトップ・マウント・ユニットの場合もヘッドマウント・ユニットの場合も、視線追跡ハードウェア・インタフェース29は、ユーザの視線に関する情報を画像処理システム34に伝達することができる。
【0022】
画像処理システムは、スタンドアローンの画像処理システムであってよいし、あるいは、従来のコンピュータ内に存在することもできる。画像処理システムが従来のコンピュータ内に存在する場合、その従来のコンピュータは、画像処理回路と画像処理ソフトウェアを組み合わせて利用して、画像処理システムの機能を実行することができる。当業者は、本発明が選択されているETSに限定されるものではないことを理解されたい。そうではなく、ユーザの注視の焦点の位置をコンピュータに伝達することができる適切なETSであれば、どのようなETSでも使用することができる。
【0023】
図2は、画像処理システム34が、従来のコンピュータに基づく画像処理システムである状況を示す。特に、画像処理システム34は、中央処理装置(CPU)、1つまたは複数のメモリ装置、および関連する回路を含む、従来のコンピュータ20を含むことができる。従来のコンピュータ20は、好ましくは、電子ランダム・アクセス・メモリ27A、および磁気ディスク・ドライブなどのバルク・データ記憶媒体27Bを含むコンピュータ・メモリ装置27を含むことができる。最後に、コンピュータ20は、例えばマウスなどのポインティング・デバイス21、およびそれに動作可能に接続されたビデオ・データ端末(VDT)などの、少なくとも1台のユーザ・インタフェース・ディスプレイ・ユニット32を含むことができる。
【0024】
特に、コンピュータ20は、音声認識およびテキスト音声(TTS)変換を実行するように構成することができる。したがって、コンピュータ20は、音声入力装置30、例えばマイクロフォンをさらに含むことができる。さらに、コンピュータ20は、音声出力装置23、例えばスピーカを含むことができる。音声入力装置30および音声出力装置23の両方を、適切なインタフェース回路または「サウンド・ボード」(図示せず)を介して、コンピュータ20に動作可能に接続することができる。このようにして、ユーザの音声を、音声入力装置30を介してコンピュータ20中に受け取ることができ、また、合成した音声および他のオーディオを、音声出力装置23を介してユーザに提供することができる。多くの市販の高速マルチメディア・パーソナル・コンピュータのどれでも、上述の従来のコンピュータ20に対する様々なハードウェア要件を満たすことができる。
【0025】
本発明によれば、コンピュータ20は、コンピュータ20の通信ポート(図示せず)を介してコンピュータ20に動作可能に接続され、また、適切な画像処理回路およびソフトウェアを介してコンピュータ20に通信可能にリンクされている視線追跡ハードウェア・インタフェース29(ここではテーブルトップ型を示す)をさらに含むことができる。詳細には、画像処理回路およびソフトウェアは、ユーザの注視の焦点の位置を判定することができ、また、その情報を、画像処理ソフトウェアに通信可能にリンクされているコンピュータ・アプリケーションに伝達することができる。本発明では、音声ディクテーション・システムを画像処理ソフトウェアに通信可能にリンクすることができ、その画像処理ソフトウェアから、音声ディクテーション・システムは、ユーザの注視の焦点の位置を示すデータを受け取ることができる。
【0026】
図3は、ETSを組み込んでいる音声使用可能なコンピュータ・システムのための代表的なアーキテクチャを示す。このアーキテクチャでは、コンピュータ・システムが、電子文書内のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するように構成されている。図3に示すように、コンピュータ20は、メモリ記憶装置27中に、オペレーティング・システム24、音声ディクテーション・システム26、および視線追跡システム22を含むことができる。図示の例では、音声テキスト・プロセッサ・アプリケーション28も提供されている。しかし、本発明は、この点に関して限定されるわけではなく、音声ディクテーション・システム26は、ボイスが使用可能な他のアプリケーション・プログラムのどれとでも一緒に使用することができる。
【0027】
図2では、音声ディクテーション・システム26、音声テキスト・プロセッサ28、および視線追跡システム22を、別個のアプリケーション・プログラムとして示している。しかし、本発明は、この点に関して限定されるわけではなく、これらの様々なアプリケーション・プログラムを、単一のより複雑なアプリケーション・プログラムとして実装できることに留意されたい。例えば、音声ディクテーション・システム26を、音声テキスト・プロセッサ・アプリケーション28と、または音声ディクテーション・システムとともに使用できる他のいずれかのアプリケーションと結合することができる。さらに、視線追跡システム22は、コンピュータ20に含まれるアプリケーション・プログラムとして存在することもできるし、あるいは、データ・リンクを介してコンピュータ20と通信を行うことが可能なスタンドアローンのETS内に存在することもできる。システムはまた、他のアプリケーション・プログラムのボイス動作のために音声ディクテーション・システムの動作を調整するためのボイス・ナビゲータ・アプリケーション(図示せず)も含むこともできるが、本明細書に記載の本発明の動作には必要ではない。
【0028】
図4は、音声ディクテーション・システム26における音声信号の音声テキスト変換を説明する、代表的なコンポーネントを示す構成図である。一般に、アナログ音声信号を、図2に示すように音声入力装置を介して受け取り、音声回路で、ディジタル化された音声信号に処理することができる。詳細には、ある固定した割合、一般的には10〜20ミリ秒毎にサンプリングすることによって、音声信号をディジタル化された1組のデータに変換することができる。その後、音声回路は、そのディジタル化された音声信号を音声ディクテーション・システム26に伝達することができる。
【0029】
表現ブロック35は、ディジタル化された音声信号を受け取って、そのディジタル化された音声信号の表現を生成することができる。音声認識プロセスのその後の段階で、この表現を使って、音声信号の一部が特定の音声イベントに対応する確率を決定することができる。このプロセスは、オペレーティング・システムから受け取る音声信号の、認知する上で重要な、話し手に依存しない特徴を強調することを目的としている。
【0030】
モデル化/分類ブロック36では、アルゴリズムは音声信号をさらに処理して、話し手に依存しない音響モデルを、現在の話し手の音響モデルに適合化する。最後に、検索ブロック38で、検索アルゴリズムを使って、検索エンジンを音声信号に対応する最も可能性ある語に導く。検索プロセスは、検索ブロック38で、音響モデル40、語彙モデル42、言語モデル44、トレーニング・データ46の支援を受けて発生する。
【0031】
好ましくは、本発明は、電子文書中のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するための方法および装置を提供する。本発明の方法および装置は、ETSを音声ディクテーション・システムと組み合わせて協調使用することを含むことができる。特に、これらを組み合わせることで、「選択」ユーザ・ボイス・コマンド機能、または音声ディクテーション・システム中でテキスト本体内のテキストの一部を選択するための他のいずれかのユーザ・ボイス・コマンドの精度を向上させることができる。また、これらを組み合わせることで、音声ディクテーション・システムが音声入力を音声ディクテーションかボイス・コマンドかのどちらかとして解釈するのを援助することにより、音声ディクテーション・システムのパフォーマンスを向上させることもできる。
【0032】
前述の音声ディクテーション・システムの機能強化は、検出したユーザの注視の焦点に基づいて、そのユーザの注視に時間的に最も近い音声入力が、音声ディクテーションまたはボイス・コマンドのいずれかである確率を計算することによって達成することができる。計算した確率を使って、音声ディクテーションに、その音声入力をスピーチ・ディクテーションかボイス・コマンドのいずれか1つとして解釈させるようにすることができる。詳細には、音声ディクテーション・システムは、検出した焦点の周りに調整可能な画面領域(「周囲領域」)を定義することができ、その結果、音声ディクテーション・システムは、その周囲領域内に位置するテキストおよびオブジェクトに関する情報を連続的に収集し、更新することができる。
【0033】
音声入力を受け取ると、音声ディクテーション・システムは、周囲領域が主としてユーザ・インタフェース・オブジェクトを含んでいるか、またはテキスト入力フィールドを含んでいるかを判定することができる。周囲領域が主としてテキスト入力フィールドを含んでいる場合は、音声ディクテーション・システムは、音声入力が、そのテキスト入力フィールドに挿入すべき音声ディクテーションとして解釈すべきものであると判定する。一方、周囲領域が主としてユーザ・インタフェース・オブジェクトを含んでいる場合は、音声ディクテーション・システムは、その音声入力をボイス・コマンドとして解釈することができる。最後に、音声入力を、テキスト入力フィールド中のテキスト本体中のあるテキストを選択するためのボイス・コマンドとして解釈した場合には、音声ディクテーション・システムは、テキスト入力フィールド中のテキスト全体ではなく、周囲領域中のテキストに基づいて、選択すべきテキストを識別することができる。このようにして、音声ディクテーション・システムの資源を、電子文書中のテキスト本体全体に対してではなく、テキストのより小さな領域に対して、より効果的に向けることができる。
【0034】
図5および図6は、ともに、電子文書中のテキストの異なる出現個所を区別し、またボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を示す流れ図を構成している。この方法は、音声ディクテーション・システムおよびETSの両方を使用するように構成されたコンピュータ・システムに関連して、実施することができる。図5は、ユーザが、音声ディクテーション・システムに音声入力を行いながら、VDT32上(画面内)の、またはVDT32から離れた(画面外の)様々な位置を自然に注視しているステップ50で開始する。
【0035】
ステップ55で、ETSは、ユーザの注視の焦点の位置を識別する。ETSは、画像処理回路およびソフトウェアの援助を受けて、ユーザの注視の焦点が画面内の位置か、または画面外の位置かを判定する。いずれの場合も、ETSは、この情報を音声ディクテーション・システムに伝達する。ステップ60では、音声ディクテーション・システムは、ETSからユーザの焦点の位置を受け取っている。ユーザの注視の焦点の位置が画面内の場合は、システムはステップ70に進む。そうでない場合は、システムはステップ65に続く。
【0036】
ステップ60で、焦点の位置が画面内であると判定した場合は、ETSは、ユーザの注視の焦点のその画面内の位置を識別しているであろう。その結果、ステップ70で、その焦点の周りに周囲領域を定義することができる。代表的な一実施形態では、周囲領域を、焦点から外側に延びる指定半径に応じた周で定義することができる。あるいは、周囲領域を、焦点上に所定の幾何学エリアを重ねることによって定義することができる。
【0037】
さらに、本発明は、周囲領域を計算するための方法に限定されない。そうではなく、周囲領域を計算するための適切な方法であれば、どの方法でも本発明の目的に十分である。さらに、周囲領域をどのように決定するかにかかわらず、また結果としての周囲領域の形にかかわらず、外周内の領域のデフォルトの面積またはサイズが、ユーザが調整可能な値であってよいことを、当業者は理解されるであろう。例えば、ユーザがデフォルトの面積を指定することもできるし、あるいは、ユーザが、周囲領域が焦点から外側に延びるように半径を指定することもできる。
【0038】
ステップ75で、周囲領域を定義した後、その領域内のテキストおよびオブジェクトに関する情報を収集して、音声入力を音声ディクテーションまたはボイス・コマンドとして解釈すべきかどうかの判定、および、電子文書内での指定テキストの特定の出現個所の識別の両方に使用することができる。特に、収集される情報には、例えば、音声ディクテーションされたテキストを受け取るのに適していないユーザ・インタフェース・オブジェクトの表示に専用のピクセルの数、および、音声ディクテーションされたテキストを受け取るのに適したユーザ・インタフェース・オブジェクトの表示に専用のピクセルの数が含まれ得る。音声ディクテーション・システムがその資源を向けることができる、限定された領域を定義することによって、音声ディクテーション・システムの効率性がはるかに高まることを理解されたい。例えば、音声ディクテーション・システムは、音声ディクテーション文法の全体ではなく、音声ディクテーション文法の、周囲領域内で見つかったテキストを含む部分のみを活動化する必要があるだけである。
【0039】
ステップ80で、音声ディクテーションをボイス・コマンドまたは音声ディクテーションのどちらとして解釈できるかに基づいて、確率を計算することができる。詳細には、周囲領域の総面積に対する周囲領域のディクテーション可能面積の比率を算出することによって、確率を計算することができる。例えば、周囲領域の70%がユーザのディクテーションを受け取ることができる場合には、その確率は70%または0.70である。それでも、本発明は、確率を計算するその特定の方法に限定されるわけではない。実際に、例えば、ユーザ・ボイス・コマンドに利用可能な、周囲領域内のオブジェクトの数に対する周囲領域内のテキストの語またはディクテーションされた語の数に基づく、他の確率計算が可能である。それでも、確率をどのように計算するかにかかわらず、好ましくは、その確率が、ユーザのその後の発声がユーザ・ディクテーションまたはユーザ・ボイス・コマンドであるという完全な確実性を表すゼロでも1でもないことを理解されたい。このような極端な確率の値を許可しないことによって、ユーザが、画面外を注視しながら、音声ディクテーション・システムに音声をディクテーションすることを望むという状況を可能にすることができる。
【0040】
決定ステップ60で、ユーザの注視の焦点が画面外の位置にあると判定すると、ステップ65で、システムは、デフォルト値を確率に割り当てることができる。このデフォルト値はデフォルト確率として知られ、ユーザが事前構成することができる。デフォルト確率は、ユーザの注視が画面外である場合に、その後の音声入力が、音声ディクテーションまたはボイス・コマンドのうちの1つである統計的可能性を表す。したがって、デフォルト確率に基づく統計的解析は、ユーザが画面から眼を逸らしている場合には、ユーザが音声入力を音声ディクテーションとして解釈されることを意図している可能性を表すことができる。
【0041】
デフォルト確率は、ゼロ(0.00)から1(1.00)までの範囲の調整可能な値を有することができる。特に、デフォルト確率に大きな値を割り当てることは、音声ディクテーションの間、ユーザが画面内を見る必要がないという前提を表すことを、当業者は理解されたい。しかし、好ましくは、デフォルト確率が、ユーザが画面から眼を逸らしているときに行われる音声入力は音声ディクテーションまたはボイス・コマンドのいずれかとして解釈されるべきである、という完全な確実性を表さない。このような確実な確率は、音声ディクテーション・システム内のエラーの原因になり得る。
【0042】
ステップ85で、確率を計算するかデフォルト確率に依存するか、いずれかの後、音声入力を受け取ることができる。ETSの援助を受けて引き出した確率に基づいて、音声入力を解析して、その音声入力を音声ディクテーションとして解釈すべきか、またはボイス・コマンドとして解釈すべきかを判定することができる。その後、この方法は、飛び越し円Aから図6の決定ステップ95に進み、音声入力を処理し続ける。
【0043】
決定ステップ95で、ステップ85で受け取った音声入力が「選択」ボイス・コマンドか、または電子文書内のテキストを選択するためのその他の同様のボイス・コマンドであったかどうかを判定することができる。音声入力が選択コマンドであると解釈されない場合、この方法はステップ97に進み、そこで2つのアクションのうち1つが発生する。第1に、音声入力が、選択ボイス・コマンドではないとしても、別のボイス・コマンドであると判定した場合には、従来の音声を可能にするアプリケーションの場合のように、そのボイス・コマンドを実行することができる。第2に、音声入力が音声ディクテーションであると判定した場合には、音声認識エンジンによって、その音声入力をテキストに変換することができる。その後、変換されたテキストを、変換されたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト中に挿入することができる。どちらの場合も、この方法は、飛び越し円Cから図5のステップ50に戻ることができ、プロセスは繰り返すことができる。
【0044】
決定ステップ95に戻って、ステップ85で受け取った音声入力が選択ボイス・コマンド、または電子文書内のテキストを選択するためのその他の同様のボイス・コマンドであったと判定した場合には、ステップ100で、選択コマンドが指定したテキストが、周囲領域中に含まれるテキスト本体の中に位置するかどうかを判定することができる。例えば、音声入力を選択コマンドの「選択、マウス」として解釈した場合には、周囲領域中に含まれているテキスト本体が「マウス」という語を含んでいるかどうかを判定することができる。ステップ100で、指定テキストとのマッチが見つかると、この方法は、ステップ105に進むことができる。そうでない場合は、この方法はステップ110に続く。
【0045】
ステップ100で指定テキストとのマッチが見つかると、ステップ105で、指定テキストに最も該当するマッチを選択することができる。より詳細には、周囲領域中のテキスト本体内にたった1つのマッチしかない場合には、一般に、マッチしたテキストの出現個所を強調表示することによって、その1つのマッチしたテキストのインスタンスを選択することができる。そうではなく、周囲領域中のテキスト本体内にマッチしたテキストが複数個所存在する場合には、周囲領域中のテキスト本体において、指定テキストのどのインスタンスが焦点に最も近いかを判定することができる。したがって、ユーザの注視の焦点を使って、マッチしたテキストのどのインスタンスを選択すべきかを判定することができる。それでも、本発明は、この点に関して限定されるわけではなく、複数個所のマッチしたテキストの中からマッチしたテキストのあるインスタンスを選択するための、その他の適切な方法でも十分である。このような代替方法には、周囲領域中のテキスト本体における、マッチしたテキストの最初の出現個所を選択することを含めることができる。
【0046】
指定テキストの該当する出現個所を識別すると、一般に、そのテキストを視覚的に強調することによって、その識別したテキストを選択することができる。指定テキストの誤った、または望まない出現個所が選択された場合には、「前」や「次」などの従来のボイス・コマンドを使って、周囲領域中の、指定テキストの他の出現個所に進むことができることを理解されたい。いずれにしても、この方法は、飛び越し円Cから図5のステップ50に戻り、新たにプロセスを開始することができる。したがって、プロセスを繰り返すことにより、この方法は、再び周囲領域を計算して、その後に受け取る音声入力が音声ディクテーションであるか、またはボイス・コマンドであるかの確率を判定することができる。
【0047】
次に、決定ステップ110に戻って、周囲領域中のテキスト本体内にマッチが見つからない場合は、周囲領域が、音声ディクテーションを受け取るように構成されている表示可能ユーザ・インタフェースのすべてを含んでいるかどうかを判定することができる。含んでいる場合は、画面内のテキスト本体中にマッチが存在しないとみなすことができ、ステップ115で、ユーザにその旨を通知することができる。図6に示していない別の実施形態では、画面内にマッチが存在しない場合、システムは、ユーザが指定したテキストの検索を続けて、さらに拡大する追加オプションをユーザに提供する。例えば、現在、開いている電子文書の残りの部分を検索することを望むかどうかを、ユーザにたずねることができる。あるいは、周囲領域の前または後で、所定数の、またはユーザが調整可能な数の語または語句だけ周囲領域を拡大するなど、より対象を絞ったオプションをユーザに提示することができる。いずれの場合も、その後、この方法は、飛び越し円Cから図5のステップ50に戻って、再びプロセスを開始することができる。
【0048】
一方、ステップ100で、周囲領域が、音声ディクテーションを受け取るように構成されている表示可能ユーザ・インタフェースのすべてを含んではいないと判定した場合には、画面内のテキスト本体中にマッチが存在しないとみなすことはできない。したがって、ステップ120に続いて、周囲領域の面積を、さらなるテキストを含むように拡大することができる。周囲領域の拡大を実行するための適切な方法であれば、どの方法でもかまわない。例えば、周囲領域の外周を、ユーザの焦点から外側に向けて、所定の値または動的に計算した値だけ、すべての方向に等しく拡張することができる。あるいは、周囲領域を、焦点から外側に向けて、面積を表す所定の値だけ拡大することができる。
【0049】
本発明の一実施形態では、所定のデフォルト値を使って、拡大の程度を決定することができる。デフォルト値は、微調整ができるように調整可能である。このようにして、ユーザは、検索を繰り返す間に、周囲領域をどれだけ大きくすべきかを指定することができる。前の例では、周囲領域中のテキスト本体内に、ユーザが指定したテキスト「マウス」が見つからなかった場合、周囲領域の周を、焦点から外側に向けて、すべての方向に1センチメートルだけ拡大することができる。あるいは、5平方センチメートルという所定の面積だけ、または特定のピクセル数だけ、周囲領域を拡大することができる。
【0050】
周囲領域の拡大に続き、ステップ125で、本発明の方法において、将来、使用するために、新たに拡大した周囲領域内のオブジェクトおよびテキストに関する情報を計算し、収集し、記憶する。さらに、新たに拡大した周囲領域内に存在するようになった新しいテキスト本体を、音声ディクテーション・システムの文法内で活動化することができる。また、新しく拡大した周囲領域内に存在するオブジェクトの属性を識別することができる。新たに拡大した周囲領域内のテキストおよびオブジェクトを識別した後、飛び越し円Bを通ってステップ100を開始することにより、テキスト本体において、マッチするテキストの検索を繰り返すことができる。このようにして、この方法は、テキスト本体内におけるユーザが指定したテキストの検索を、テキスト本体の画面内の部分いっぱいまで、またそれを超えて、系統的かつ増分的に拡大するこができる。
【0051】
特に、本発明を、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせで実現することができる。本発明の方法は、1つのコンピュータ・システム中に集中的な方法で、または、いくつかの相互接続されたコンピュータ・システム間に様々な構成要素が散在する、分散的な方法で実現することができる。本明細書に記載の方法を実行するように適合されたものであれば、どの種類のコンピュータ・システムまたは他の装置でも適している。ハードウェアとソフトウェアの代表的な組み合わせとしては、ロードされて実行されると、本明細書に記載の方法を実行するようにコンピュータ・システムを制御する、コンピュータ・プログラムを備えた汎用コンピュータ・システムが挙げられる。
【0052】
本発明はまた、本明細書に記載の方法の実施を可能にするすべての機能を含み、かつ、コンピュータ・システム中にロードされると、これらの方法を実行することができるコンピュータ・プログラム・プロダクト中に埋め込むこともできる。現在の文脈におけるコンピュータ・プログラム手段またはコンピュータ・プログラムとは、情報処理機能を有するシステムに、直接、あるいは、次のa)、b)のいずれかまたは両方の後、特定の機能を実行させることを意図した、任意の言語、コード、または表記法による1組の命令の任意の表現を意味する。a)、b)とは、a)別の言語、コードまたは表記法への変換、b)異なる材料のフォームでの複製。
【0053】
前述の明細は、本発明の好ましい実施形態を例示および説明しているが、本発明は、本明細書で開示している通りの構成に限定されるものではないことを理解されたい。本発明は、その本質的な属性から逸脱することなく、他の特定の形態で実施することができる。したがって、本発明の範囲を示すものとして、前述の明細ではなく、特許請求の範囲を参照されたい。
【図面の簡単な説明】
【図1】
本明細書に開示している本発明と対話しているユーザを、例示的に描写した図である。
【図2】
本発明の使用に適したコンピュータ・システムを示す構成図である。
【図3】
図1のコンピュータ・システムのための代表的な高水準アーキテクチャを示す構成図である。
【図4】
音声認識エンジンを含む代表的なコンポーネントを示す構成図である。
【図5】
視線追跡システムを音声ディクテーション・システムとともに利用することにより、電子文書中のテキストの異なる出現個所を区別し、またボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を示す流れ図である。
【図6】
視線追跡システムを音声ディクテーション・システムとともに利用することにより、電子文書中のテキストの異なる出現個所を区別し、またボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を示す流れ図である。
Claims (15)
- 電子文書において、マッチするテキストを検索する方法であって、
ユーザ・インタフェース中の焦点を識別するステップと、
前記焦点の周りに周囲領域を定義するステップであって、前記周囲領域が、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むステップと、
前記電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、
前記周囲領域内に含まれる前記テキスト本体中で前記指定テキストとのマッチを検索するステップであって、その対象が前記周囲領域中の前記テキスト本体に限定されるステップとを含む方法。 - 前記検索するステップにおいて、前記テキスト本体中に前記指定テキストとのマッチが見つからない場合に、前記周囲領域を拡大して、前記ユーザ・インタフェースの追加エリアを含むステップであって、前記追加エリアが追加テキストを含むステップと、
前記追加テキストにおいて前記指定テキストとのマッチを検索するステップであって、その対象が前記テキスト本体および前記追加テキストに限定されるステップとをさらに含む、請求項1に記載の方法。 - 前記拡大するステップが、
前記周囲領域を、前記焦点から外側に向けて固定増分だけ拡大するステップを含む、請求項2に記載の方法。 - 前記拡大するステップが、
前記周囲領域を、前記テキスト本体に隣接する固定量のテキストだけ拡大するステップを含む、請求項2に記載の方法。 - 前記拡大するステップが、
前記周囲領域を、前記焦点から外側に向けて可変増分だけ拡大するステップを含む、請求項2に記載の方法。 - ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法であって、
ユーザ・インタフェース中の焦点を識別するステップと、
前記焦点の周りに周囲領域を定義するステップと、
前記周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、
前記識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、
音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別された前記ユーザ・インタフェース・オブジェクト、および音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別された前記ユーザ・インタフェース・オブジェクトに基づいて、確率を計算するステップと、
音声入力を受け取るステップと、
前記計算した確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含む方法。 - 前記ユーザ・インタフェースの外側の焦点を識別するステップと、
デフォルトの確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとをさらに含む、請求項6に記載の方法。 - マッチするテキストを電子文書中で検索するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって機械が、
ユーザ・インタフェース中の焦点を識別するステップと、
前記焦点の周りに周囲領域を定義するステップであって、前記周囲領域が、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むステップと、
前記電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、
前記周囲領域中に含まれる前記テキスト本体において前記指定テキストとのマッチを検索するステップであって、その対象が、前記周囲領域中の前記テキスト本体に限定されるステップとを実行する機械可読記憶装置。 - 前記検索するステップにおいて、前記テキスト本体中に前記指定テキストとのマッチが見つからない場合に、前記周囲領域を拡大して、前記ユーザ・インタフェースの追加エリアを含むステップであって、前記追加エリアが追加テキストを含むステップと、
前記追加テキストにおいて前記指定テキストとのマッチを検索するステップであって、その対象が前記テキスト本体および前記追加テキストに限定されるステップとをさらに含む、請求項8に記載の機械可読記憶装置。 - 前記拡大するステップが、
前記周囲領域を、前記焦点から外側に向けて固定増分だけ拡大するステップを含む、請求項9に記載の機械可読記憶装置。 - 前記拡大するステップが、
前記周囲領域を、前記テキスト本体に隣接する固定量のテキストだけ拡大するステップを含む、請求項9に記載の機械可読記憶装置。 - 前記拡大するステップが、
前記周囲領域を、前記焦点から外側に向けて可変増分だけ拡大するステップを含む、請求項9に記載の機械可読記憶装置。 - ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって前記機械が、
ユーザ・インタフェース中の焦点を識別するステップと、
前記焦点の周りに周囲領域を定義するステップと、
前記周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、
前記識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、
音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別された前記ユーザ・インタフェース・オブジェクト、および音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別された前記ユーザ・インタフェース・オブジェクトに基づいて、確率を計算するステップと、
音声入力を受け取るステップと、
前記計算した確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを実行する機械可読記憶装置。 - 前記ユーザ・インタフェースの外側の焦点を識別するステップと、
デフォルトの確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとをさらに含む、請求項13に記載の機械可読記憶装置。 - コンピュータ上で実行されると請求項1ないし7に記載のいずれかの方法を実行する、コンピュータ可読記憶媒体上に記憶されたコンピュータ・プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/665,939 US6795806B1 (en) | 2000-09-20 | 2000-09-20 | Method for enhancing dictation and command discrimination |
PCT/GB2001/004092 WO2002025637A1 (en) | 2000-09-20 | 2001-09-13 | Eye gaze for contextual speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004510239A true JP2004510239A (ja) | 2004-04-02 |
JP3943492B2 JP3943492B2 (ja) | 2007-07-11 |
Family
ID=24672168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002529757A Expired - Lifetime JP3943492B2 (ja) | 2000-09-20 | 2001-09-13 | ディクテーションとコマンドの区別を向上させる方法 |
Country Status (14)
Country | Link |
---|---|
US (2) | US6795806B1 (ja) |
EP (1) | EP1320848B1 (ja) |
JP (1) | JP3943492B2 (ja) |
KR (1) | KR100586286B1 (ja) |
CN (1) | CN1205602C (ja) |
AT (1) | ATE336779T1 (ja) |
AU (1) | AU2001286090A1 (ja) |
CA (1) | CA2420093A1 (ja) |
DE (1) | DE60122352T2 (ja) |
ES (1) | ES2269449T3 (ja) |
HK (1) | HK1057940A1 (ja) |
IL (1) | IL154852A0 (ja) |
TW (1) | TW521262B (ja) |
WO (1) | WO2002025637A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009503560A (ja) * | 2005-07-22 | 2009-01-29 | マルチモダル テクノロジーズ,インク. | コンテンツベースの音声再生強調 |
JP2016512364A (ja) * | 2013-03-15 | 2016-04-25 | クアルコム,インコーポレイテッド | ジェスチャを使用して処理モードを切り替えるためのシステムおよび方法 |
CN106249982A (zh) * | 2015-06-12 | 2016-12-21 | 松下电器(美国)知识产权公司 | 显示控制方法、显示控制装置以及控制程序 |
JP2018515817A (ja) * | 2015-03-20 | 2018-06-14 | フェイスブック,インク. | 視線追跡と音声認識とを組み合わせることにより制御を改善する方法 |
JPWO2021230048A1 (ja) * | 2020-05-15 | 2021-11-18 |
Families Citing this family (163)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8181113B2 (en) | 1998-12-18 | 2012-05-15 | Microsoft Corporation | Mediating conflicts in computer users context data |
US9183306B2 (en) * | 1998-12-18 | 2015-11-10 | Microsoft Technology Licensing, Llc | Automated selection of appropriate information based on a computer user's context |
US7225229B1 (en) | 1998-12-18 | 2007-05-29 | Tangis Corporation | Automated pushing of computer user's context data to clients |
US6513046B1 (en) | 1999-12-15 | 2003-01-28 | Tangis Corporation | Storing and recalling information to augment human memories |
US6801223B1 (en) | 1998-12-18 | 2004-10-05 | Tangis Corporation | Managing interactions between computer users' context models |
US7779015B2 (en) * | 1998-12-18 | 2010-08-17 | Microsoft Corporation | Logging and analyzing context attributes |
US6920616B1 (en) * | 1998-12-18 | 2005-07-19 | Tangis Corporation | Interface for exchanging context data |
US7231439B1 (en) | 2000-04-02 | 2007-06-12 | Tangis Corporation | Dynamically swapping modules for determining a computer user's context |
US7046263B1 (en) | 1998-12-18 | 2006-05-16 | Tangis Corporation | Requesting computer user's context data |
US6842877B2 (en) | 1998-12-18 | 2005-01-11 | Tangis Corporation | Contextual responses based on automated learning techniques |
US6791580B1 (en) | 1998-12-18 | 2004-09-14 | Tangis Corporation | Supplying notifications related to supply and consumption of user context data |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
AU2001249768A1 (en) | 2000-04-02 | 2001-10-15 | Tangis Corporation | Soliciting information based on a computer user's context |
US7464153B1 (en) | 2000-04-02 | 2008-12-09 | Microsoft Corporation | Generating and supplying user context data |
US20020054130A1 (en) * | 2000-10-16 | 2002-05-09 | Abbott Kenneth H. | Dynamically displaying current status of tasks |
EP1215658A3 (en) * | 2000-12-05 | 2002-08-14 | Hewlett-Packard Company | Visual activation of voice controlled apparatus |
GB2388209C (en) * | 2001-12-20 | 2005-08-23 | Canon Kk | Control apparatus |
US7881493B1 (en) * | 2003-04-11 | 2011-02-01 | Eyetools, Inc. | Methods and apparatuses for use of eye interpretation information |
US20040268216A1 (en) * | 2003-06-24 | 2004-12-30 | Jacobs Paul E | Method and apparatus for transferring a document into a folder |
US7629989B2 (en) * | 2004-04-02 | 2009-12-08 | K-Nfb Reading Technology, Inc. | Reducing processing latency in optical character recognition for portable reading machine |
KR100716438B1 (ko) * | 2004-07-27 | 2007-05-10 | 주식회사 현대오토넷 | 차량용 텔레매틱스 시스템에서 음성 사용자 인터페이스를제공하는 장치 및 방법 |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7242751B2 (en) * | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7657020B2 (en) | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US20070150916A1 (en) * | 2005-12-28 | 2007-06-28 | James Begole | Using sensors to provide feedback on the access of digital content |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8036917B2 (en) * | 2006-11-22 | 2011-10-11 | General Electric Company | Methods and systems for creation of hanging protocols using eye tracking and voice command and control |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8689203B2 (en) * | 2008-02-19 | 2014-04-01 | Microsoft Corporation | Software update techniques based on ascertained identities |
US20090248397A1 (en) * | 2008-03-25 | 2009-10-01 | Microsoft Corporation | Service Initiation Techniques |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US8416715B2 (en) * | 2009-06-15 | 2013-04-09 | Microsoft Corporation | Interest determination for auditory enhancement |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8600732B2 (en) * | 2010-11-08 | 2013-12-03 | Sling Media Pvt Ltd | Translating programming content to match received voice command language |
US20120124467A1 (en) * | 2010-11-15 | 2012-05-17 | Xerox Corporation | Method for automatically generating descriptive headings for a text element |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
EP2754028A4 (en) * | 2011-09-08 | 2015-08-12 | Intel Corp | VISUALIZATION OF INTERACTIVE SCREEN |
US9691381B2 (en) * | 2012-02-21 | 2017-06-27 | Mediatek Inc. | Voice command recognition method and related electronic device and computer-readable medium |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9423870B2 (en) | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
CN104428832B (zh) * | 2012-07-09 | 2018-06-26 | Lg电子株式会社 | 语音识别装置及其方法 |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9265458B2 (en) | 2012-12-04 | 2016-02-23 | Sync-Think, Inc. | Application of smooth pursuit cognitive testing paradigms to clinical drug development |
CN103885743A (zh) * | 2012-12-24 | 2014-06-25 | 大陆汽车投资(上海)有限公司 | 结合注视跟踪技术的语音文本输入方法和系统 |
US9380976B2 (en) | 2013-03-11 | 2016-07-05 | Sync-Think, Inc. | Optical neuroinformatics |
KR20140132246A (ko) * | 2013-05-07 | 2014-11-17 | 삼성전자주식회사 | 오브젝트 선택 방법 및 오브젝트 선택 장치 |
US20140350942A1 (en) * | 2013-05-23 | 2014-11-27 | Delphi Technologies, Inc. | Vehicle human machine interface with gaze direction and voice recognition |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
CN103729059A (zh) * | 2013-12-27 | 2014-04-16 | 北京智谷睿拓技术服务有限公司 | 交互方法及装置 |
US9412363B2 (en) | 2014-03-03 | 2016-08-09 | Microsoft Technology Licensing, Llc | Model based approach for on-screen item selection and disambiguation |
US9966079B2 (en) * | 2014-03-24 | 2018-05-08 | Lenovo (Singapore) Pte. Ltd. | Directing voice input based on eye tracking |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US20150364140A1 (en) * | 2014-06-13 | 2015-12-17 | Sony Corporation | Portable Electronic Equipment and Method of Operating a User Interface |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10317992B2 (en) | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
WO2016151396A1 (en) * | 2015-03-20 | 2016-09-29 | The Eye Tribe | Method for refining control by combining eye tracking and voice recognition |
FR3034215B1 (fr) * | 2015-03-27 | 2018-06-15 | Valeo Comfort And Driving Assistance | Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
DE102015210430A1 (de) * | 2015-06-08 | 2016-12-08 | Robert Bosch Gmbh | Verfahren zum Erkennen eines Sprachkontexts für eine Sprachsteuerung, Verfahren zum Ermitteln eines Sprachsteuersignals für eine Sprachsteuerung und Vorrichtung zum Ausführen der Verfahren |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9934782B2 (en) * | 2015-09-22 | 2018-04-03 | Meshrose Ltd. | Automatic performance of user interaction operations on a computing device |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9886958B2 (en) | 2015-12-11 | 2018-02-06 | Microsoft Technology Licensing, Llc | Language and domain independent model based approach for on-screen item selection |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US20170345410A1 (en) * | 2016-05-26 | 2017-11-30 | Tyler Murray Smith | Text to speech system with real-time amendment capability |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10223067B2 (en) | 2016-07-15 | 2019-03-05 | Microsoft Technology Licensing, Llc | Leveraging environmental context for enhanced communication throughput |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
CN106527729A (zh) * | 2016-11-17 | 2017-03-22 | 科大讯飞股份有限公司 | 非接触式输入方法和装置 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10142686B2 (en) * | 2017-03-30 | 2018-11-27 | Rovi Guides, Inc. | System and methods for disambiguating an ambiguous entity in a search query based on the gaze of a user |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10366691B2 (en) * | 2017-07-11 | 2019-07-30 | Samsung Electronics Co., Ltd. | System and method for voice command context |
US10795671B2 (en) * | 2017-11-21 | 2020-10-06 | International Business Machines Corporation | Audiovisual source code documentation |
CN107957779A (zh) * | 2017-11-27 | 2018-04-24 | 海尔优家智能科技(北京)有限公司 | 一种利用眼部动作控制信息搜索的方法及装置 |
WO2019118089A1 (en) | 2017-12-11 | 2019-06-20 | Analog Devices, Inc. | Multi-modal far field user interfaces and vision-assisted audio processing |
US11488602B2 (en) | 2018-02-20 | 2022-11-01 | Dropbox, Inc. | Meeting transcription using custom lexicons based on document history |
US10657954B2 (en) * | 2018-02-20 | 2020-05-19 | Dropbox, Inc. | Meeting audio capture and transcription in a collaborative document context |
US10467335B2 (en) | 2018-02-20 | 2019-11-05 | Dropbox, Inc. | Automated outline generation of captured meeting audio in a collaborative document context |
US11157075B2 (en) * | 2018-05-01 | 2021-10-26 | Dell Products, L.P. | Gaze-activated voice services for interactive workspaces |
CN111833846B (zh) * | 2019-04-12 | 2023-06-02 | 广东小天才科技有限公司 | 一种根据意图启动听写状态的方法和装置,及存储介质 |
US11689379B2 (en) | 2019-06-24 | 2023-06-27 | Dropbox, Inc. | Generating customized meeting insights based on user interactions and meeting media |
CN111090473A (zh) * | 2019-07-29 | 2020-05-01 | 广东小天才科技有限公司 | 一种基于电子设备的听写启动方法及电子设备 |
US20230065847A1 (en) * | 2021-08-31 | 2023-03-02 | International Business Machines Corporation | Network bandwidth conservation during video conferencing |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3530591B2 (ja) | 1994-09-14 | 2004-05-24 | キヤノン株式会社 | 音声認識装置及びこれを用いた情報処理装置とそれらの方法 |
US5777614A (en) * | 1994-10-14 | 1998-07-07 | Hitachi, Ltd. | Editing support system including an interactive interface |
DK0718823T3 (da) | 1994-12-23 | 2001-01-29 | Siemens Ag | Fremgangsmåde til konvertering af ved brug af tale indlæste informationer til maskinlæsbare data |
US5799279A (en) | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US6078310A (en) * | 1996-06-26 | 2000-06-20 | Sun Microsystems, Inc. | Eyetracked alert messages |
US6351273B1 (en) * | 1997-04-30 | 2002-02-26 | Jerome H. Lemelson | System and methods for controlling automatic scrolling of information on a display or screen |
US6393136B1 (en) * | 1999-01-04 | 2002-05-21 | International Business Machines Corporation | Method and apparatus for determining eye contact |
EP1250701B1 (de) | 2000-01-27 | 2004-11-17 | Siemens Aktiengesellschaft | System und verfahren zur blickfokussierten sprachverarbeitung |
-
2000
- 2000-09-20 US US09/665,939 patent/US6795806B1/en not_active Expired - Lifetime
-
2001
- 2001-08-14 TW TW90119955A patent/TW521262B/zh not_active IP Right Cessation
- 2001-09-13 CA CA 2420093 patent/CA2420093A1/en not_active Abandoned
- 2001-09-13 KR KR1020037003790A patent/KR100586286B1/ko not_active IP Right Cessation
- 2001-09-13 JP JP2002529757A patent/JP3943492B2/ja not_active Expired - Lifetime
- 2001-09-13 IL IL15485201A patent/IL154852A0/xx unknown
- 2001-09-13 WO PCT/GB2001/004092 patent/WO2002025637A1/en active IP Right Grant
- 2001-09-13 ES ES01965449T patent/ES2269449T3/es not_active Expired - Lifetime
- 2001-09-13 CN CNB018146899A patent/CN1205602C/zh not_active Expired - Lifetime
- 2001-09-13 AU AU2001286090A patent/AU2001286090A1/en not_active Abandoned
- 2001-09-13 EP EP01965449A patent/EP1320848B1/en not_active Expired - Lifetime
- 2001-09-13 AT AT01965449T patent/ATE336779T1/de not_active IP Right Cessation
- 2001-09-13 DE DE2001622352 patent/DE60122352T2/de not_active Expired - Lifetime
-
2004
- 2004-01-31 HK HK04100682A patent/HK1057940A1/xx not_active IP Right Cessation
- 2004-05-20 US US10/849,663 patent/US20040216049A1/en not_active Abandoned
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009503560A (ja) * | 2005-07-22 | 2009-01-29 | マルチモダル テクノロジーズ,インク. | コンテンツベースの音声再生強調 |
JP2016512364A (ja) * | 2013-03-15 | 2016-04-25 | クアルコム,インコーポレイテッド | ジェスチャを使用して処理モードを切り替えるためのシステムおよび方法 |
JP2018515817A (ja) * | 2015-03-20 | 2018-06-14 | フェイスブック,インク. | 視線追跡と音声認識とを組み合わせることにより制御を改善する方法 |
CN106249982A (zh) * | 2015-06-12 | 2016-12-21 | 松下电器(美国)知识产权公司 | 显示控制方法、显示控制装置以及控制程序 |
JP2017004366A (ja) * | 2015-06-12 | 2017-01-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 表示制御方法、表示制御装置及び制御プログラム |
US11188147B2 (en) | 2015-06-12 | 2021-11-30 | Panasonic Intellectual Property Corporation Of America | Display control method for highlighting display element focused by user |
JPWO2021230048A1 (ja) * | 2020-05-15 | 2021-11-18 | ||
JP7402322B2 (ja) | 2020-05-15 | 2023-12-20 | 株式会社Nttドコモ | 情報処理システム |
Also Published As
Publication number | Publication date |
---|---|
CN1205602C (zh) | 2005-06-08 |
EP1320848B1 (en) | 2006-08-16 |
TW521262B (en) | 2003-02-21 |
US20040216049A1 (en) | 2004-10-28 |
JP3943492B2 (ja) | 2007-07-11 |
ES2269449T3 (es) | 2007-04-01 |
WO2002025637A1 (en) | 2002-03-28 |
US6795806B1 (en) | 2004-09-21 |
CN1449558A (zh) | 2003-10-15 |
AU2001286090A1 (en) | 2002-04-02 |
EP1320848A1 (en) | 2003-06-25 |
DE60122352D1 (de) | 2006-09-28 |
ATE336779T1 (de) | 2006-09-15 |
DE60122352T2 (de) | 2007-09-06 |
KR100586286B1 (ko) | 2006-06-07 |
KR20030046453A (ko) | 2003-06-12 |
HK1057940A1 (en) | 2004-04-23 |
IL154852A0 (en) | 2003-10-31 |
CA2420093A1 (en) | 2002-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3943492B2 (ja) | ディクテーションとコマンドの区別を向上させる方法 | |
US5950160A (en) | Method and system for displaying a variable number of alternative words during speech recognition | |
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
US5829000A (en) | Method and system for correcting misrecognized spoken words or phrases | |
JP4570176B2 (ja) | ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
US5884258A (en) | Method and system for editing phrases during continuous speech recognition | |
US5899976A (en) | Method and system for buffering recognized words during speech recognition | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
US9196246B2 (en) | Determining word sequence constraints for low cognitive speech recognition | |
WO2014199803A1 (en) | System and methods for recognizing speech | |
US20190295531A1 (en) | Determining phonetic relationships | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
WO2016013685A1 (en) | Method and system for recognizing speech including sequence of words | |
EP0840287A2 (en) | Method and system for selecting recognized words when correcting recognized speech | |
JP3296783B2 (ja) | 車載用ナビゲーション装置および音声認識方法 | |
JPH11184495A (ja) | 音声認識装置 | |
KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 | |
JP2008241933A (ja) | データ処理装置及びデータ処理方法 | |
KR101830210B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
JP2006184421A (ja) | 音声認識装置及び音声認識方法 | |
JP2001242887A (ja) | 音声認識装置および音声認識ナビゲーション装置 | |
JP2020034832A (ja) | 辞書生成装置、音声認識システムおよび辞書生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051122 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060202 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070405 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3943492 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100413 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100413 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 4 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140413 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |