JP2004510239A - ディクテーションとコマンドの区別を向上させる方法 - Google Patents

ディクテーションとコマンドの区別を向上させる方法 Download PDF

Info

Publication number
JP2004510239A
JP2004510239A JP2002529757A JP2002529757A JP2004510239A JP 2004510239 A JP2004510239 A JP 2004510239A JP 2002529757 A JP2002529757 A JP 2002529757A JP 2002529757 A JP2002529757 A JP 2002529757A JP 2004510239 A JP2004510239 A JP 2004510239A
Authority
JP
Japan
Prior art keywords
text
voice
user interface
surrounding area
dictation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002529757A
Other languages
English (en)
Other versions
JP3943492B2 (ja
Inventor
ルイス、ジェームス
オルテガ、ケリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2004510239A publication Critical patent/JP2004510239A/ja
Application granted granted Critical
Publication of JP3943492B2 publication Critical patent/JP3943492B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

【課題】音声ディクテーション・システムとともに視線追跡システムを利用することによって、電子文書中のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するための方法および装置を提供すること。
【解決手段】ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法は、ユーザ・インタフェース中の焦点を識別するステップ、焦点の周りに周囲領域を定義するステップ、周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップ、識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップ、音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別されたユーザ・インタフェース・オブジェクトか、音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別されたユーザ・インタフェース・オブジェクトかに基づいて、確率を計算するステップ、音声入力を受け取るステップ、および計算した確率に基づいて、音声入力がボイス・コマンドか音声ディクテーションかの判定を下すステップを含むことができる。さらに、この方法は、ユーザ・インタフェースの外側の焦点を識別するステップ、およびデフォルトの確率に基づいて、音声入力がボイス・コマンドか音声ディクテーションかの判定を下すステップを含むことができる。
【選択図】図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識の分野に関し、より詳細には、ユーザのディクテーション、ユーザのボイス・コマンド、およびテキストの区別を向上させるための方法に関する。
【0002】
【従来の技術】
音声認識は、マイクロフォンが受信した音響信号を、コンピュータによってテキストに変換するプロセスである。認識したテキストは、次いで、文書の作成、データ入力、コマンドおよび制御などの目的で、様々なコンピュータ・ソフトウェア・アプリケーションにおいて使用することができる。音声ディクテーション・システムは、さらに、コンピュータ・システムをハンドフリーで操作する方法をユーザに提供する。
【0003】
電子文書の作成に関しては、現在、利用可能な音声ディクテーション・システムは、ユーザが電子文書中のテキストの一部を選択することを可能にするユーザ・ボイス・コマンドを提供する。このようなユーザ・ボイス・コマンドは、一般に、「選択<テキスト>」などの構文を使用しており、この場合、ユーザ・ボイス・コマンド「選択」は、そのコマンドに続くテキストを選択または強調表示すべきであることを合図している。テキストの一部が選択された後は、ユーザは、その選択されたテキストに対する一連の後続の操作のうち、どれでも実行することができる。
【0004】
したがって、ユーザが「選択、元気ですか」と言った場合、音声ディクテーション・システムは、電子文書のテキスト本体内で「元気ですか」というテキスト語句を検索する。テキスト本体中に捜し出すと、その語句を選択または強調表示することができる。続いて、ユーザは、その選択されたテキストに対して、削除操作、太字/イタリック/下線操作、または訂正操作などの操作を実行することができる。さらなる例では、「元気ですか」というテキストが強調表示されると、そのユーザが選択したテキスト部分を、その後にユーザが口から発したことばから引き出される別のテキストと置換することができる。このようにして、ユーザは、電子文書のハンドフリー訂正を行うことができる。
【0005】
現在のところ、「選択」コマンドや、その他のテキストを選択するための同様のユーザ・ボイス・コマンドの知られている実装形態にはいくつかの欠点がある。このような欠点の1つは、テキスト本体内でユーザが選択したいと思う語句または語が、複数個所で出現する可能性があることである。例えば、テキスト本体内において、「その」という語は多数の個所で出現すると思われる。したがって、ユーザが「選択、その」というと、音声ディクテーション・システムは、「その」という語のどの出現個所をユーザが選択したいと考えているのかを判定することができないことがある。
【0006】
この問題に対処するために、従来の音声ディクテーション・システムは、ユーザが所望する語または語句の、どの出現個所をユーザが選択したいのかを判定するための規則体系に依存している。例えば、音声ディクテーション・システムは、アクティブ・ウィンドウの最上部から開始して、その語または語句の最初の出現個所を選択する。しかし、ユーザが、その語または語句の最初の出現個所を選択することを望まない場合、従来の音声ディクテーション・システムでは、ユーザは、その語の別の出現個所を選択することができる。特に、従来の音声ディクテーション・システムによっては、「次」や「前」などのナビゲーション・ボイス・コマンドを提供しているものもある。
【0007】
「次」というボイス・コマンドを口から発することによって、ユーザは、所望の語または語句の次の出現個所を捜し出して選択するように音声ディクテーション・システムに命令する。同様に、「前」というコマンドは、所望の語または語句の前の出現個所を捜し出して選択するように音声ディクテーション・システムに命令する。このような従来のシステムによって、ユーザは、特定の語または語句の所望の出現個所に進むことができるが、その所望の出現個所に進むための戦略を展開させなければならない。これは、時間の浪費とユーザのフラストレーションを招く可能性があり、特に、ユーザが音声ディクテーション・システムを不正確かつ非効率的であると感じている場合にはそれが言える。
【0008】
従来の音声ディクテーション・システムにおける従来のテキスト選択方法の別の欠点は、このような音声ディクテーション・システムが、ユーザが指定した語または語句を検索しているとき、一般に、ユーザの画面内に現れているテキスト本体の全体を検索することである。ユーザの画面内に現れているそれぞれの語は、音声ディクテーション・システムの文法内で活動化され、音声ディクテーション・システムにとっては、等しく同じ候補に見える。ユーザはたった1つの語または語句を望んでいるだけなので、ユーザの画面内に現れているテキスト本体の全体を使用可能にして検索することは非効率的である。さらに、この技術は、誤認識が発声する可能性を高くすることがある。
【0009】
従来の音声ディクテーション・システムにおける従来のテキスト選択方法のさらに別の欠点は、ユーザが、音声ディクテーションの間またはボイス・コマンド、例えばドロップダウン・メニューを起動するボイス・コマンドの間に発声したのかどうかが、音声ディクテーション・システムに容易にわからないことがよくあることである。例えば、ユーザが「ファイル」という語を発した場合、状況に応じて、ユーザがメニュー・バー中の「ファイル」メニューを起動するつもりのこともあるし、または、電子文書中に「ファイル」という語を挿入するつもりのこともある。したがって、ユーザの発声がボイス・コマンドなのか音声ディクテーションなのかが、従来の音声ディクテーション・システムにとって必ずしもはっきりわかるとは限らない。
【0010】
したがって、現在、利用可能な音声ディクテーション・システムは、コンピュータと対話して、アプリケーションに聞こえるように命令し、電子文書中に音声ディクテーションを与え、かつその電子文書内のテキストを選択する方法を提供するが、ユーザのボイス・コマンド、ユーザのディクテーション、テキスト、およびそれらの組み合わせを区別するための改良された方法に対する必要が残っている。
【0011】
【発明が解決しようとする課題】
したがって、本明細書で開示する本発明は、音声ディクテーション・システムとともに視線追跡システムを利用することによって、電子文書中のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するための方法および装置を提供する。本発明の方法および装置は、有利には、音声ディクテーション・システム作動中のユーザの注視の焦点(focus of point)を判定するために音声ディクテーション・システムとともに使用する、視線追跡システム(ETS)を含むことができる。特に、ETSを音声ディクテーション・システムとともに使用することにより、「選択」ユーザ・ボイス・コマンド機能や、音声ディクテーション・システムにおいてテキスト本体内のテキストの一部を選択するためのその他のいずれかのユーザ・ボイス・コマンドの精度を向上させることができる。本発明のETSを使用することにより、ユーザのディクテーションとボイス・コマンドの区別が容易になって、システム性能を向上させることもできる。
【0012】
【課題を解決するための手段】
したがって、第1の態様では、本発明は、マッチするテキストを電子文書中で検索するための方法を提供し、この方法は、ユーザ・インタフェース中の焦点を識別するステップと、その焦点の周りに周囲領域を定義するステップを含むことができる。特に、周囲領域は、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むことができる。さらに、この方法は、電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、周囲領域に含まれているテキスト本体において、指定テキストとのマッチを検索するステップを含むことができる。注目すべきは、この検索の対象を、周囲領域中のテキスト本体に限定できることである。
【0013】
好ましくは、マッチするテキストを電子文書中で検索する方法は、検索するステップにおいて指定テキストとのマッチがテキスト本体中に見つからなかった場合には、周囲領域を拡大して、ユーザ・インタフェースのさらなるエリアを追加して含むステップをさらに含む。特に、この拡大によって含まれた追加エリアは、追加テキストを含むことができる。したがって、この追加テキストにおいて、指定テキストとのマッチを検索することができる。最後に、前と同様に、この検索の対象を、テキスト本体および追加テキストに限定することができる。
【0014】
好ましくは、拡大するステップは、周囲領域を、焦点から外側に向けて固定増分だけ拡大するステップを含むことができる。あるいは、拡大するステップは、周囲領域を、テキスト本体に隣接する固定量のテキストだけ拡大するステップを含むことができる。最後に、拡大するステップは、周囲領域を、焦点から外側に向けて可変増分だけ拡大するステップを含むことができる。
【0015】
したがって、第2の態様では、本発明は、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を提供し、この方法は、ユーザ・インタフェース中の焦点を識別するステップと、焦点の周りに周囲領域を定義するステップと、周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別されたユーザ・インタフェース・オブジェクトか、音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別されたユーザ・インタフェース・オブジェクトかに基づいて、確率を計算するステップと、音声入力を受け取るステップと、計算した確率に基づいて、音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含むことができる。さらに、この方法は、ユーザ・インタフェースの外側にある焦点を識別するステップと、デフォルトの確率に基づいて、音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含むことができる。
【0016】
したがって、第3の態様では、本発明は、マッチするテキストを電子文書中で検索するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって機械が、ユーザ・インタフェース中の焦点を識別するステップと、前記焦点の周りに周囲領域を定義するステップであって、前記周囲領域が、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むステップと、電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、周囲領域中に含まれる前記テキスト本体において前記指定テキストとのマッチを検索するステップであって、その対象が、前記周囲領域中の前記テキスト本体に限定されるステップとを含む機械可読記憶装置を提供する。
【0017】
したがって、第4の態様では、本発明は、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって機械が、ユーザ・インタフェース中の焦点を識別するステップと、前記焦点の周りに周囲領域を定義するステップと、前記周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、前記識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別されたユーザ・インタフェース・オブジェクトか、音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別されたユーザ・インタフェース・オブジェクトかに基づいて、確率を計算するステップと、音声入力を受け取るステップと、前記計算した確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含む機械可読記憶装置を提供する。
【0018】
したがって、第5の態様では、本発明は、コンピュータ上で実行されると上述の方法を実行する、コンピュータ可読記憶装置媒体上に記憶されたコンピュータ・プログラム・コードを含むコンピュータ・プログラム・プロダクトを提供する。
【0019】
【発明の実施の形態】
視線追跡システム(ETS)を音声ディクテーション・システムとともに利用することによって、音声ディクテーション・システムの性能を向上させることができる。詳細には、本発明の構成によれば、ETSは、音声ディクテーション・システムがテキスト本体における複数のテキスト出現個所を区別するのを支援する。さらに、ETSは、音声ディクテーション・システムが音声入力を解析して、ボイス・コマンドと音声ディクテーションを区別するのを支援する。このような機能強化は、ETSにおいてユーザの注視の焦点の画面上の位置を検出することによって実現できる。有利には、画面上の位置を、画面内であろうと画面外であろうと、音声ディクテーション・システムに伝達することができる。ユーザの注視の焦点の位置に基づいて、その焦点の周りに、音声入力がボイス・コマンドであるか音声ディクテーションであるかを判定する際の援助となり得る領域(「周囲領域」と呼ぶ)を定義することができる。さらに、この周囲領域を使って、ユーザが選択するように指定した、テキストの特定の出現個所を識別することができる。
【0020】
図1は、本明細書に開示している本発明と対話しているユーザを例示的に描写したものである。図1では、ユーザが、ビデオ・ディスプレイ端末(VDT)32上のある位置を注視している。ユーザの注視の焦点を、VDT32の画面上に星印で表してある。ヘッドマウント・ハードウェア・インタフェース29を備えたETSも示してある。ETSは、視線追跡および測定の技術分野ではよく知られている。バージニア州フェアファックスのLC Technologies, Inc.が製造しているTHE EYEGAZE DEVELOPMENT SYSTEM、および、ともにマサチューセッツ州ボストンのSensoMotoricInstruments, Inc.(「SensoMotoric Instruments」はSensoMotoric Instruments, Inc.の登録商標)が製造している、EYEMOUSE(「EyeMouse」はSensoMotoric Instruments, Inc.の登録商標)とEYELINK(「EyeLink」は、SR Research Ltd.の登録商標)などのETSが、現在、市販されている。
【0021】
ETSの構成には、視線追跡ハードウェア・インタフェース29および画像処理システム34を含めることができる。視線追跡ハードウェア・インタフェース29は、LC Technologies Inc.から入手可能なテーブルトップ・マウント・ユニットであってよい。例示的なテーブルトップ・マウント視線追跡ユニットを図2に示す。あるいは、視線追跡ハードウェア・インタフェース29は、SensoMotoricInstruments, Inc.から入手可能な、図1に示すヘッドマウント・ユニットであってよい。テーブルトップ・マウント・ユニットの場合もヘッドマウント・ユニットの場合も、視線追跡ハードウェア・インタフェース29は、ユーザの視線に関する情報を画像処理システム34に伝達することができる。
【0022】
画像処理システムは、スタンドアローンの画像処理システムであってよいし、あるいは、従来のコンピュータ内に存在することもできる。画像処理システムが従来のコンピュータ内に存在する場合、その従来のコンピュータは、画像処理回路と画像処理ソフトウェアを組み合わせて利用して、画像処理システムの機能を実行することができる。当業者は、本発明が選択されているETSに限定されるものではないことを理解されたい。そうではなく、ユーザの注視の焦点の位置をコンピュータに伝達することができる適切なETSであれば、どのようなETSでも使用することができる。
【0023】
図2は、画像処理システム34が、従来のコンピュータに基づく画像処理システムである状況を示す。特に、画像処理システム34は、中央処理装置(CPU)、1つまたは複数のメモリ装置、および関連する回路を含む、従来のコンピュータ20を含むことができる。従来のコンピュータ20は、好ましくは、電子ランダム・アクセス・メモリ27A、および磁気ディスク・ドライブなどのバルク・データ記憶媒体27Bを含むコンピュータ・メモリ装置27を含むことができる。最後に、コンピュータ20は、例えばマウスなどのポインティング・デバイス21、およびそれに動作可能に接続されたビデオ・データ端末(VDT)などの、少なくとも1台のユーザ・インタフェース・ディスプレイ・ユニット32を含むことができる。
【0024】
特に、コンピュータ20は、音声認識およびテキスト音声(TTS)変換を実行するように構成することができる。したがって、コンピュータ20は、音声入力装置30、例えばマイクロフォンをさらに含むことができる。さらに、コンピュータ20は、音声出力装置23、例えばスピーカを含むことができる。音声入力装置30および音声出力装置23の両方を、適切なインタフェース回路または「サウンド・ボード」(図示せず)を介して、コンピュータ20に動作可能に接続することができる。このようにして、ユーザの音声を、音声入力装置30を介してコンピュータ20中に受け取ることができ、また、合成した音声および他のオーディオを、音声出力装置23を介してユーザに提供することができる。多くの市販の高速マルチメディア・パーソナル・コンピュータのどれでも、上述の従来のコンピュータ20に対する様々なハードウェア要件を満たすことができる。
【0025】
本発明によれば、コンピュータ20は、コンピュータ20の通信ポート(図示せず)を介してコンピュータ20に動作可能に接続され、また、適切な画像処理回路およびソフトウェアを介してコンピュータ20に通信可能にリンクされている視線追跡ハードウェア・インタフェース29(ここではテーブルトップ型を示す)をさらに含むことができる。詳細には、画像処理回路およびソフトウェアは、ユーザの注視の焦点の位置を判定することができ、また、その情報を、画像処理ソフトウェアに通信可能にリンクされているコンピュータ・アプリケーションに伝達することができる。本発明では、音声ディクテーション・システムを画像処理ソフトウェアに通信可能にリンクすることができ、その画像処理ソフトウェアから、音声ディクテーション・システムは、ユーザの注視の焦点の位置を示すデータを受け取ることができる。
【0026】
図3は、ETSを組み込んでいる音声使用可能なコンピュータ・システムのための代表的なアーキテクチャを示す。このアーキテクチャでは、コンピュータ・システムが、電子文書内のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するように構成されている。図3に示すように、コンピュータ20は、メモリ記憶装置27中に、オペレーティング・システム24、音声ディクテーション・システム26、および視線追跡システム22を含むことができる。図示の例では、音声テキスト・プロセッサ・アプリケーション28も提供されている。しかし、本発明は、この点に関して限定されるわけではなく、音声ディクテーション・システム26は、ボイスが使用可能な他のアプリケーション・プログラムのどれとでも一緒に使用することができる。
【0027】
図2では、音声ディクテーション・システム26、音声テキスト・プロセッサ28、および視線追跡システム22を、別個のアプリケーション・プログラムとして示している。しかし、本発明は、この点に関して限定されるわけではなく、これらの様々なアプリケーション・プログラムを、単一のより複雑なアプリケーション・プログラムとして実装できることに留意されたい。例えば、音声ディクテーション・システム26を、音声テキスト・プロセッサ・アプリケーション28と、または音声ディクテーション・システムとともに使用できる他のいずれかのアプリケーションと結合することができる。さらに、視線追跡システム22は、コンピュータ20に含まれるアプリケーション・プログラムとして存在することもできるし、あるいは、データ・リンクを介してコンピュータ20と通信を行うことが可能なスタンドアローンのETS内に存在することもできる。システムはまた、他のアプリケーション・プログラムのボイス動作のために音声ディクテーション・システムの動作を調整するためのボイス・ナビゲータ・アプリケーション(図示せず)も含むこともできるが、本明細書に記載の本発明の動作には必要ではない。
【0028】
図4は、音声ディクテーション・システム26における音声信号の音声テキスト変換を説明する、代表的なコンポーネントを示す構成図である。一般に、アナログ音声信号を、図2に示すように音声入力装置を介して受け取り、音声回路で、ディジタル化された音声信号に処理することができる。詳細には、ある固定した割合、一般的には10〜20ミリ秒毎にサンプリングすることによって、音声信号をディジタル化された1組のデータに変換することができる。その後、音声回路は、そのディジタル化された音声信号を音声ディクテーション・システム26に伝達することができる。
【0029】
表現ブロック35は、ディジタル化された音声信号を受け取って、そのディジタル化された音声信号の表現を生成することができる。音声認識プロセスのその後の段階で、この表現を使って、音声信号の一部が特定の音声イベントに対応する確率を決定することができる。このプロセスは、オペレーティング・システムから受け取る音声信号の、認知する上で重要な、話し手に依存しない特徴を強調することを目的としている。
【0030】
モデル化/分類ブロック36では、アルゴリズムは音声信号をさらに処理して、話し手に依存しない音響モデルを、現在の話し手の音響モデルに適合化する。最後に、検索ブロック38で、検索アルゴリズムを使って、検索エンジンを音声信号に対応する最も可能性ある語に導く。検索プロセスは、検索ブロック38で、音響モデル40、語彙モデル42、言語モデル44、トレーニング・データ46の支援を受けて発生する。
【0031】
好ましくは、本発明は、電子文書中のテキストの異なる出現個所を区別し、また、ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するための方法および装置を提供する。本発明の方法および装置は、ETSを音声ディクテーション・システムと組み合わせて協調使用することを含むことができる。特に、これらを組み合わせることで、「選択」ユーザ・ボイス・コマンド機能、または音声ディクテーション・システム中でテキスト本体内のテキストの一部を選択するための他のいずれかのユーザ・ボイス・コマンドの精度を向上させることができる。また、これらを組み合わせることで、音声ディクテーション・システムが音声入力を音声ディクテーションかボイス・コマンドかのどちらかとして解釈するのを援助することにより、音声ディクテーション・システムのパフォーマンスを向上させることもできる。
【0032】
前述の音声ディクテーション・システムの機能強化は、検出したユーザの注視の焦点に基づいて、そのユーザの注視に時間的に最も近い音声入力が、音声ディクテーションまたはボイス・コマンドのいずれかである確率を計算することによって達成することができる。計算した確率を使って、音声ディクテーションに、その音声入力をスピーチ・ディクテーションかボイス・コマンドのいずれか1つとして解釈させるようにすることができる。詳細には、音声ディクテーション・システムは、検出した焦点の周りに調整可能な画面領域(「周囲領域」)を定義することができ、その結果、音声ディクテーション・システムは、その周囲領域内に位置するテキストおよびオブジェクトに関する情報を連続的に収集し、更新することができる。
【0033】
音声入力を受け取ると、音声ディクテーション・システムは、周囲領域が主としてユーザ・インタフェース・オブジェクトを含んでいるか、またはテキスト入力フィールドを含んでいるかを判定することができる。周囲領域が主としてテキスト入力フィールドを含んでいる場合は、音声ディクテーション・システムは、音声入力が、そのテキスト入力フィールドに挿入すべき音声ディクテーションとして解釈すべきものであると判定する。一方、周囲領域が主としてユーザ・インタフェース・オブジェクトを含んでいる場合は、音声ディクテーション・システムは、その音声入力をボイス・コマンドとして解釈することができる。最後に、音声入力を、テキスト入力フィールド中のテキスト本体中のあるテキストを選択するためのボイス・コマンドとして解釈した場合には、音声ディクテーション・システムは、テキスト入力フィールド中のテキスト全体ではなく、周囲領域中のテキストに基づいて、選択すべきテキストを識別することができる。このようにして、音声ディクテーション・システムの資源を、電子文書中のテキスト本体全体に対してではなく、テキストのより小さな領域に対して、より効果的に向けることができる。
【0034】
図5および図6は、ともに、電子文書中のテキストの異なる出現個所を区別し、またボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を示す流れ図を構成している。この方法は、音声ディクテーション・システムおよびETSの両方を使用するように構成されたコンピュータ・システムに関連して、実施することができる。図5は、ユーザが、音声ディクテーション・システムに音声入力を行いながら、VDT32上(画面内)の、またはVDT32から離れた(画面外の)様々な位置を自然に注視しているステップ50で開始する。
【0035】
ステップ55で、ETSは、ユーザの注視の焦点の位置を識別する。ETSは、画像処理回路およびソフトウェアの援助を受けて、ユーザの注視の焦点が画面内の位置か、または画面外の位置かを判定する。いずれの場合も、ETSは、この情報を音声ディクテーション・システムに伝達する。ステップ60では、音声ディクテーション・システムは、ETSからユーザの焦点の位置を受け取っている。ユーザの注視の焦点の位置が画面内の場合は、システムはステップ70に進む。そうでない場合は、システムはステップ65に続く。
【0036】
ステップ60で、焦点の位置が画面内であると判定した場合は、ETSは、ユーザの注視の焦点のその画面内の位置を識別しているであろう。その結果、ステップ70で、その焦点の周りに周囲領域を定義することができる。代表的な一実施形態では、周囲領域を、焦点から外側に延びる指定半径に応じた周で定義することができる。あるいは、周囲領域を、焦点上に所定の幾何学エリアを重ねることによって定義することができる。
【0037】
さらに、本発明は、周囲領域を計算するための方法に限定されない。そうではなく、周囲領域を計算するための適切な方法であれば、どの方法でも本発明の目的に十分である。さらに、周囲領域をどのように決定するかにかかわらず、また結果としての周囲領域の形にかかわらず、外周内の領域のデフォルトの面積またはサイズが、ユーザが調整可能な値であってよいことを、当業者は理解されるであろう。例えば、ユーザがデフォルトの面積を指定することもできるし、あるいは、ユーザが、周囲領域が焦点から外側に延びるように半径を指定することもできる。
【0038】
ステップ75で、周囲領域を定義した後、その領域内のテキストおよびオブジェクトに関する情報を収集して、音声入力を音声ディクテーションまたはボイス・コマンドとして解釈すべきかどうかの判定、および、電子文書内での指定テキストの特定の出現個所の識別の両方に使用することができる。特に、収集される情報には、例えば、音声ディクテーションされたテキストを受け取るのに適していないユーザ・インタフェース・オブジェクトの表示に専用のピクセルの数、および、音声ディクテーションされたテキストを受け取るのに適したユーザ・インタフェース・オブジェクトの表示に専用のピクセルの数が含まれ得る。音声ディクテーション・システムがその資源を向けることができる、限定された領域を定義することによって、音声ディクテーション・システムの効率性がはるかに高まることを理解されたい。例えば、音声ディクテーション・システムは、音声ディクテーション文法の全体ではなく、音声ディクテーション文法の、周囲領域内で見つかったテキストを含む部分のみを活動化する必要があるだけである。
【0039】
ステップ80で、音声ディクテーションをボイス・コマンドまたは音声ディクテーションのどちらとして解釈できるかに基づいて、確率を計算することができる。詳細には、周囲領域の総面積に対する周囲領域のディクテーション可能面積の比率を算出することによって、確率を計算することができる。例えば、周囲領域の70%がユーザのディクテーションを受け取ることができる場合には、その確率は70%または0.70である。それでも、本発明は、確率を計算するその特定の方法に限定されるわけではない。実際に、例えば、ユーザ・ボイス・コマンドに利用可能な、周囲領域内のオブジェクトの数に対する周囲領域内のテキストの語またはディクテーションされた語の数に基づく、他の確率計算が可能である。それでも、確率をどのように計算するかにかかわらず、好ましくは、その確率が、ユーザのその後の発声がユーザ・ディクテーションまたはユーザ・ボイス・コマンドであるという完全な確実性を表すゼロでも1でもないことを理解されたい。このような極端な確率の値を許可しないことによって、ユーザが、画面外を注視しながら、音声ディクテーション・システムに音声をディクテーションすることを望むという状況を可能にすることができる。
【0040】
決定ステップ60で、ユーザの注視の焦点が画面外の位置にあると判定すると、ステップ65で、システムは、デフォルト値を確率に割り当てることができる。このデフォルト値はデフォルト確率として知られ、ユーザが事前構成することができる。デフォルト確率は、ユーザの注視が画面外である場合に、その後の音声入力が、音声ディクテーションまたはボイス・コマンドのうちの1つである統計的可能性を表す。したがって、デフォルト確率に基づく統計的解析は、ユーザが画面から眼を逸らしている場合には、ユーザが音声入力を音声ディクテーションとして解釈されることを意図している可能性を表すことができる。
【0041】
デフォルト確率は、ゼロ(0.00)から1(1.00)までの範囲の調整可能な値を有することができる。特に、デフォルト確率に大きな値を割り当てることは、音声ディクテーションの間、ユーザが画面内を見る必要がないという前提を表すことを、当業者は理解されたい。しかし、好ましくは、デフォルト確率が、ユーザが画面から眼を逸らしているときに行われる音声入力は音声ディクテーションまたはボイス・コマンドのいずれかとして解釈されるべきである、という完全な確実性を表さない。このような確実な確率は、音声ディクテーション・システム内のエラーの原因になり得る。
【0042】
ステップ85で、確率を計算するかデフォルト確率に依存するか、いずれかの後、音声入力を受け取ることができる。ETSの援助を受けて引き出した確率に基づいて、音声入力を解析して、その音声入力を音声ディクテーションとして解釈すべきか、またはボイス・コマンドとして解釈すべきかを判定することができる。その後、この方法は、飛び越し円Aから図6の決定ステップ95に進み、音声入力を処理し続ける。
【0043】
決定ステップ95で、ステップ85で受け取った音声入力が「選択」ボイス・コマンドか、または電子文書内のテキストを選択するためのその他の同様のボイス・コマンドであったかどうかを判定することができる。音声入力が選択コマンドであると解釈されない場合、この方法はステップ97に進み、そこで2つのアクションのうち1つが発生する。第1に、音声入力が、選択ボイス・コマンドではないとしても、別のボイス・コマンドであると判定した場合には、従来の音声を可能にするアプリケーションの場合のように、そのボイス・コマンドを実行することができる。第2に、音声入力が音声ディクテーションであると判定した場合には、音声認識エンジンによって、その音声入力をテキストに変換することができる。その後、変換されたテキストを、変換されたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト中に挿入することができる。どちらの場合も、この方法は、飛び越し円Cから図5のステップ50に戻ることができ、プロセスは繰り返すことができる。
【0044】
決定ステップ95に戻って、ステップ85で受け取った音声入力が選択ボイス・コマンド、または電子文書内のテキストを選択するためのその他の同様のボイス・コマンドであったと判定した場合には、ステップ100で、選択コマンドが指定したテキストが、周囲領域中に含まれるテキスト本体の中に位置するかどうかを判定することができる。例えば、音声入力を選択コマンドの「選択、マウス」として解釈した場合には、周囲領域中に含まれているテキスト本体が「マウス」という語を含んでいるかどうかを判定することができる。ステップ100で、指定テキストとのマッチが見つかると、この方法は、ステップ105に進むことができる。そうでない場合は、この方法はステップ110に続く。
【0045】
ステップ100で指定テキストとのマッチが見つかると、ステップ105で、指定テキストに最も該当するマッチを選択することができる。より詳細には、周囲領域中のテキスト本体内にたった1つのマッチしかない場合には、一般に、マッチしたテキストの出現個所を強調表示することによって、その1つのマッチしたテキストのインスタンスを選択することができる。そうではなく、周囲領域中のテキスト本体内にマッチしたテキストが複数個所存在する場合には、周囲領域中のテキスト本体において、指定テキストのどのインスタンスが焦点に最も近いかを判定することができる。したがって、ユーザの注視の焦点を使って、マッチしたテキストのどのインスタンスを選択すべきかを判定することができる。それでも、本発明は、この点に関して限定されるわけではなく、複数個所のマッチしたテキストの中からマッチしたテキストのあるインスタンスを選択するための、その他の適切な方法でも十分である。このような代替方法には、周囲領域中のテキスト本体における、マッチしたテキストの最初の出現個所を選択することを含めることができる。
【0046】
指定テキストの該当する出現個所を識別すると、一般に、そのテキストを視覚的に強調することによって、その識別したテキストを選択することができる。指定テキストの誤った、または望まない出現個所が選択された場合には、「前」や「次」などの従来のボイス・コマンドを使って、周囲領域中の、指定テキストの他の出現個所に進むことができることを理解されたい。いずれにしても、この方法は、飛び越し円Cから図5のステップ50に戻り、新たにプロセスを開始することができる。したがって、プロセスを繰り返すことにより、この方法は、再び周囲領域を計算して、その後に受け取る音声入力が音声ディクテーションであるか、またはボイス・コマンドであるかの確率を判定することができる。
【0047】
次に、決定ステップ110に戻って、周囲領域中のテキスト本体内にマッチが見つからない場合は、周囲領域が、音声ディクテーションを受け取るように構成されている表示可能ユーザ・インタフェースのすべてを含んでいるかどうかを判定することができる。含んでいる場合は、画面内のテキスト本体中にマッチが存在しないとみなすことができ、ステップ115で、ユーザにその旨を通知することができる。図6に示していない別の実施形態では、画面内にマッチが存在しない場合、システムは、ユーザが指定したテキストの検索を続けて、さらに拡大する追加オプションをユーザに提供する。例えば、現在、開いている電子文書の残りの部分を検索することを望むかどうかを、ユーザにたずねることができる。あるいは、周囲領域の前または後で、所定数の、またはユーザが調整可能な数の語または語句だけ周囲領域を拡大するなど、より対象を絞ったオプションをユーザに提示することができる。いずれの場合も、その後、この方法は、飛び越し円Cから図5のステップ50に戻って、再びプロセスを開始することができる。
【0048】
一方、ステップ100で、周囲領域が、音声ディクテーションを受け取るように構成されている表示可能ユーザ・インタフェースのすべてを含んではいないと判定した場合には、画面内のテキスト本体中にマッチが存在しないとみなすことはできない。したがって、ステップ120に続いて、周囲領域の面積を、さらなるテキストを含むように拡大することができる。周囲領域の拡大を実行するための適切な方法であれば、どの方法でもかまわない。例えば、周囲領域の外周を、ユーザの焦点から外側に向けて、所定の値または動的に計算した値だけ、すべての方向に等しく拡張することができる。あるいは、周囲領域を、焦点から外側に向けて、面積を表す所定の値だけ拡大することができる。
【0049】
本発明の一実施形態では、所定のデフォルト値を使って、拡大の程度を決定することができる。デフォルト値は、微調整ができるように調整可能である。このようにして、ユーザは、検索を繰り返す間に、周囲領域をどれだけ大きくすべきかを指定することができる。前の例では、周囲領域中のテキスト本体内に、ユーザが指定したテキスト「マウス」が見つからなかった場合、周囲領域の周を、焦点から外側に向けて、すべての方向に1センチメートルだけ拡大することができる。あるいは、5平方センチメートルという所定の面積だけ、または特定のピクセル数だけ、周囲領域を拡大することができる。
【0050】
周囲領域の拡大に続き、ステップ125で、本発明の方法において、将来、使用するために、新たに拡大した周囲領域内のオブジェクトおよびテキストに関する情報を計算し、収集し、記憶する。さらに、新たに拡大した周囲領域内に存在するようになった新しいテキスト本体を、音声ディクテーション・システムの文法内で活動化することができる。また、新しく拡大した周囲領域内に存在するオブジェクトの属性を識別することができる。新たに拡大した周囲領域内のテキストおよびオブジェクトを識別した後、飛び越し円Bを通ってステップ100を開始することにより、テキスト本体において、マッチするテキストの検索を繰り返すことができる。このようにして、この方法は、テキスト本体内におけるユーザが指定したテキストの検索を、テキスト本体の画面内の部分いっぱいまで、またそれを超えて、系統的かつ増分的に拡大するこができる。
【0051】
特に、本発明を、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせで実現することができる。本発明の方法は、1つのコンピュータ・システム中に集中的な方法で、または、いくつかの相互接続されたコンピュータ・システム間に様々な構成要素が散在する、分散的な方法で実現することができる。本明細書に記載の方法を実行するように適合されたものであれば、どの種類のコンピュータ・システムまたは他の装置でも適している。ハードウェアとソフトウェアの代表的な組み合わせとしては、ロードされて実行されると、本明細書に記載の方法を実行するようにコンピュータ・システムを制御する、コンピュータ・プログラムを備えた汎用コンピュータ・システムが挙げられる。
【0052】
本発明はまた、本明細書に記載の方法の実施を可能にするすべての機能を含み、かつ、コンピュータ・システム中にロードされると、これらの方法を実行することができるコンピュータ・プログラム・プロダクト中に埋め込むこともできる。現在の文脈におけるコンピュータ・プログラム手段またはコンピュータ・プログラムとは、情報処理機能を有するシステムに、直接、あるいは、次のa)、b)のいずれかまたは両方の後、特定の機能を実行させることを意図した、任意の言語、コード、または表記法による1組の命令の任意の表現を意味する。a)、b)とは、a)別の言語、コードまたは表記法への変換、b)異なる材料のフォームでの複製。
【0053】
前述の明細は、本発明の好ましい実施形態を例示および説明しているが、本発明は、本明細書で開示している通りの構成に限定されるものではないことを理解されたい。本発明は、その本質的な属性から逸脱することなく、他の特定の形態で実施することができる。したがって、本発明の範囲を示すものとして、前述の明細ではなく、特許請求の範囲を参照されたい。
【図面の簡単な説明】
【図1】
本明細書に開示している本発明と対話しているユーザを、例示的に描写した図である。
【図2】
本発明の使用に適したコンピュータ・システムを示す構成図である。
【図3】
図1のコンピュータ・システムのための代表的な高水準アーキテクチャを示す構成図である。
【図4】
音声認識エンジンを含む代表的なコンポーネントを示す構成図である。
【図5】
視線追跡システムを音声ディクテーション・システムとともに利用することにより、電子文書中のテキストの異なる出現個所を区別し、またボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を示す流れ図である。
【図6】
視線追跡システムを音声ディクテーション・システムとともに利用することにより、電子文書中のテキストの異なる出現個所を区別し、またボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法を示す流れ図である。

Claims (15)

  1. 電子文書において、マッチするテキストを検索する方法であって、
    ユーザ・インタフェース中の焦点を識別するステップと、
    前記焦点の周りに周囲領域を定義するステップであって、前記周囲領域が、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むステップと、
    前記電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、
    前記周囲領域内に含まれる前記テキスト本体中で前記指定テキストとのマッチを検索するステップであって、その対象が前記周囲領域中の前記テキスト本体に限定されるステップとを含む方法。
  2. 前記検索するステップにおいて、前記テキスト本体中に前記指定テキストとのマッチが見つからない場合に、前記周囲領域を拡大して、前記ユーザ・インタフェースの追加エリアを含むステップであって、前記追加エリアが追加テキストを含むステップと、
    前記追加テキストにおいて前記指定テキストとのマッチを検索するステップであって、その対象が前記テキスト本体および前記追加テキストに限定されるステップとをさらに含む、請求項1に記載の方法。
  3. 前記拡大するステップが、
    前記周囲領域を、前記焦点から外側に向けて固定増分だけ拡大するステップを含む、請求項2に記載の方法。
  4. 前記拡大するステップが、
    前記周囲領域を、前記テキスト本体に隣接する固定量のテキストだけ拡大するステップを含む、請求項2に記載の方法。
  5. 前記拡大するステップが、
    前記周囲領域を、前記焦点から外側に向けて可変増分だけ拡大するステップを含む、請求項2に記載の方法。
  6. ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別する方法であって、
    ユーザ・インタフェース中の焦点を識別するステップと、
    前記焦点の周りに周囲領域を定義するステップと、
    前記周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、
    前記識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、
    音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別された前記ユーザ・インタフェース・オブジェクト、および音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別された前記ユーザ・インタフェース・オブジェクトに基づいて、確率を計算するステップと、
    音声入力を受け取るステップと、
    前記計算した確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを含む方法。
  7. 前記ユーザ・インタフェースの外側の焦点を識別するステップと、
    デフォルトの確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとをさらに含む、請求項6に記載の方法。
  8. マッチするテキストを電子文書中で検索するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって機械が、
    ユーザ・インタフェース中の焦点を識別するステップと、
    前記焦点の周りに周囲領域を定義するステップであって、前記周囲領域が、音声ディクテーションされたテキストを受け取るように構成されたユーザ・インタフェース・オブジェクト内のテキスト本体を含むステップと、
    前記電子文書内で指定テキストを選択するためのボイス・コマンドを受け取るステップと、
    前記周囲領域中に含まれる前記テキスト本体において前記指定テキストとのマッチを検索するステップであって、その対象が、前記周囲領域中の前記テキスト本体に限定されるステップとを実行する機械可読記憶装置。
  9. 前記検索するステップにおいて、前記テキスト本体中に前記指定テキストとのマッチが見つからない場合に、前記周囲領域を拡大して、前記ユーザ・インタフェースの追加エリアを含むステップであって、前記追加エリアが追加テキストを含むステップと、
    前記追加テキストにおいて前記指定テキストとのマッチを検索するステップであって、その対象が前記テキスト本体および前記追加テキストに限定されるステップとをさらに含む、請求項8に記載の機械可読記憶装置。
  10. 前記拡大するステップが、
    前記周囲領域を、前記焦点から外側に向けて固定増分だけ拡大するステップを含む、請求項9に記載の機械可読記憶装置。
  11. 前記拡大するステップが、
    前記周囲領域を、前記テキスト本体に隣接する固定量のテキストだけ拡大するステップを含む、請求項9に記載の機械可読記憶装置。
  12. 前記拡大するステップが、
    前記周囲領域を、前記焦点から外側に向けて可変増分だけ拡大するステップを含む、請求項9に記載の機械可読記憶装置。
  13. ボイス・コマンドのインスタンスと音声ディクテーションのインスタンスを区別するためのコンピュータ・プログラムを記憶している機械可読記憶装置であって、前記コンピュータ・プログラムが機械によって実行可能な複数のコード・セクションを有し、その複数のコード・セクションによって前記機械が、
    ユーザ・インタフェース中の焦点を識別するステップと、
    前記焦点の周りに周囲領域を定義するステップと、
    前記周囲領域中のユーザ・インタフェース・オブジェクトを識別するステップと、
    前記識別したユーザ・インタフェース・オブジェクトを、音声ディクテーションされたテキストを受け付けるように構成されたユーザ・インタフェース・オブジェクトと、音声ディクテーションされたテキストを受け付けるように構成されていないユーザ・インタフェース・オブジェクトとにさらに識別するステップと、
    音声ディクテーションされたテキストを受け付けるように構成されているとさらに識別された前記ユーザ・インタフェース・オブジェクト、および音声ディクテーションされたテキストを受け付けるように構成されていないとさらに識別された前記ユーザ・インタフェース・オブジェクトに基づいて、確率を計算するステップと、
    音声入力を受け取るステップと、
    前記計算した確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとを実行する機械可読記憶装置。
  14. 前記ユーザ・インタフェースの外側の焦点を識別するステップと、
    デフォルトの確率に基づいて、前記音声入力がボイス・コマンドであるか音声ディクテーションであるかの判定を下すステップとをさらに含む、請求項13に記載の機械可読記憶装置。
  15. コンピュータ上で実行されると請求項1ないし7に記載のいずれかの方法を実行する、コンピュータ可読記憶媒体上に記憶されたコンピュータ・プログラム。
JP2002529757A 2000-09-20 2001-09-13 ディクテーションとコマンドの区別を向上させる方法 Expired - Lifetime JP3943492B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/665,939 US6795806B1 (en) 2000-09-20 2000-09-20 Method for enhancing dictation and command discrimination
PCT/GB2001/004092 WO2002025637A1 (en) 2000-09-20 2001-09-13 Eye gaze for contextual speech recognition

Publications (2)

Publication Number Publication Date
JP2004510239A true JP2004510239A (ja) 2004-04-02
JP3943492B2 JP3943492B2 (ja) 2007-07-11

Family

ID=24672168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002529757A Expired - Lifetime JP3943492B2 (ja) 2000-09-20 2001-09-13 ディクテーションとコマンドの区別を向上させる方法

Country Status (14)

Country Link
US (2) US6795806B1 (ja)
EP (1) EP1320848B1 (ja)
JP (1) JP3943492B2 (ja)
KR (1) KR100586286B1 (ja)
CN (1) CN1205602C (ja)
AT (1) ATE336779T1 (ja)
AU (1) AU2001286090A1 (ja)
CA (1) CA2420093A1 (ja)
DE (1) DE60122352T2 (ja)
ES (1) ES2269449T3 (ja)
HK (1) HK1057940A1 (ja)
IL (1) IL154852A0 (ja)
TW (1) TW521262B (ja)
WO (1) WO2002025637A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009503560A (ja) * 2005-07-22 2009-01-29 マルチモダル テクノロジーズ,インク. コンテンツベースの音声再生強調
JP2016512364A (ja) * 2013-03-15 2016-04-25 クアルコム,インコーポレイテッド ジェスチャを使用して処理モードを切り替えるためのシステムおよび方法
CN106249982A (zh) * 2015-06-12 2016-12-21 松下电器(美国)知识产权公司 显示控制方法、显示控制装置以及控制程序
JP2018515817A (ja) * 2015-03-20 2018-06-14 フェイスブック,インク. 視線追跡と音声認識とを組み合わせることにより制御を改善する方法
JPWO2021230048A1 (ja) * 2020-05-15 2021-11-18

Families Citing this family (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8181113B2 (en) 1998-12-18 2012-05-15 Microsoft Corporation Mediating conflicts in computer users context data
US9183306B2 (en) * 1998-12-18 2015-11-10 Microsoft Technology Licensing, Llc Automated selection of appropriate information based on a computer user's context
US7225229B1 (en) 1998-12-18 2007-05-29 Tangis Corporation Automated pushing of computer user's context data to clients
US6513046B1 (en) 1999-12-15 2003-01-28 Tangis Corporation Storing and recalling information to augment human memories
US6801223B1 (en) 1998-12-18 2004-10-05 Tangis Corporation Managing interactions between computer users' context models
US7779015B2 (en) * 1998-12-18 2010-08-17 Microsoft Corporation Logging and analyzing context attributes
US6920616B1 (en) * 1998-12-18 2005-07-19 Tangis Corporation Interface for exchanging context data
US7231439B1 (en) 2000-04-02 2007-06-12 Tangis Corporation Dynamically swapping modules for determining a computer user's context
US7046263B1 (en) 1998-12-18 2006-05-16 Tangis Corporation Requesting computer user's context data
US6842877B2 (en) 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
US6791580B1 (en) 1998-12-18 2004-09-14 Tangis Corporation Supplying notifications related to supply and consumption of user context data
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
AU2001249768A1 (en) 2000-04-02 2001-10-15 Tangis Corporation Soliciting information based on a computer user's context
US7464153B1 (en) 2000-04-02 2008-12-09 Microsoft Corporation Generating and supplying user context data
US20020054130A1 (en) * 2000-10-16 2002-05-09 Abbott Kenneth H. Dynamically displaying current status of tasks
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
US7881493B1 (en) * 2003-04-11 2011-02-01 Eyetools, Inc. Methods and apparatuses for use of eye interpretation information
US20040268216A1 (en) * 2003-06-24 2004-12-30 Jacobs Paul E Method and apparatus for transferring a document into a folder
US7629989B2 (en) * 2004-04-02 2009-12-08 K-Nfb Reading Technology, Inc. Reducing processing latency in optical character recognition for portable reading machine
KR100716438B1 (ko) * 2004-07-27 2007-05-10 주식회사 현대오토넷 차량용 텔레매틱스 시스템에서 음성 사용자 인터페이스를제공하는 장치 및 방법
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7242751B2 (en) * 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20070150916A1 (en) * 2005-12-28 2007-06-28 James Begole Using sensors to provide feedback on the access of digital content
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8036917B2 (en) * 2006-11-22 2011-10-11 General Electric Company Methods and systems for creation of hanging protocols using eye tracking and voice command and control
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8689203B2 (en) * 2008-02-19 2014-04-01 Microsoft Corporation Software update techniques based on ascertained identities
US20090248397A1 (en) * 2008-03-25 2009-10-01 Microsoft Corporation Service Initiation Techniques
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US8416715B2 (en) * 2009-06-15 2013-04-09 Microsoft Corporation Interest determination for auditory enhancement
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8600732B2 (en) * 2010-11-08 2013-12-03 Sling Media Pvt Ltd Translating programming content to match received voice command language
US20120124467A1 (en) * 2010-11-15 2012-05-17 Xerox Corporation Method for automatically generating descriptive headings for a text element
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
EP2754028A4 (en) * 2011-09-08 2015-08-12 Intel Corp VISUALIZATION OF INTERACTIVE SCREEN
US9691381B2 (en) * 2012-02-21 2017-06-27 Mediatek Inc. Voice command recognition method and related electronic device and computer-readable medium
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9423870B2 (en) 2012-05-08 2016-08-23 Google Inc. Input determination method
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN104428832B (zh) * 2012-07-09 2018-06-26 Lg电子株式会社 语音识别装置及其方法
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
CN103885743A (zh) * 2012-12-24 2014-06-25 大陆汽车投资(上海)有限公司 结合注视跟踪技术的语音文本输入方法和系统
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
KR20140132246A (ko) * 2013-05-07 2014-11-17 삼성전자주식회사 오브젝트 선택 방법 및 오브젝트 선택 장치
US20140350942A1 (en) * 2013-05-23 2014-11-27 Delphi Technologies, Inc. Vehicle human machine interface with gaze direction and voice recognition
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
CN103729059A (zh) * 2013-12-27 2014-04-16 北京智谷睿拓技术服务有限公司 交互方法及装置
US9412363B2 (en) 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US9966079B2 (en) * 2014-03-24 2018-05-08 Lenovo (Singapore) Pte. Ltd. Directing voice input based on eye tracking
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US20150364140A1 (en) * 2014-06-13 2015-12-17 Sony Corporation Portable Electronic Equipment and Method of Operating a User Interface
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10317992B2 (en) 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
WO2016151396A1 (en) * 2015-03-20 2016-09-29 The Eye Tribe Method for refining control by combining eye tracking and voice recognition
FR3034215B1 (fr) * 2015-03-27 2018-06-15 Valeo Comfort And Driving Assistance Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
DE102015210430A1 (de) * 2015-06-08 2016-12-08 Robert Bosch Gmbh Verfahren zum Erkennen eines Sprachkontexts für eine Sprachsteuerung, Verfahren zum Ermitteln eines Sprachsteuersignals für eine Sprachsteuerung und Vorrichtung zum Ausführen der Verfahren
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9934782B2 (en) * 2015-09-22 2018-04-03 Meshrose Ltd. Automatic performance of user interaction operations on a computing device
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9886958B2 (en) 2015-12-11 2018-02-06 Microsoft Technology Licensing, Llc Language and domain independent model based approach for on-screen item selection
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US20170345410A1 (en) * 2016-05-26 2017-11-30 Tyler Murray Smith Text to speech system with real-time amendment capability
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10223067B2 (en) 2016-07-15 2019-03-05 Microsoft Technology Licensing, Llc Leveraging environmental context for enhanced communication throughput
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN106527729A (zh) * 2016-11-17 2017-03-22 科大讯飞股份有限公司 非接触式输入方法和装置
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10142686B2 (en) * 2017-03-30 2018-11-27 Rovi Guides, Inc. System and methods for disambiguating an ambiguous entity in a search query based on the gaze of a user
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10366691B2 (en) * 2017-07-11 2019-07-30 Samsung Electronics Co., Ltd. System and method for voice command context
US10795671B2 (en) * 2017-11-21 2020-10-06 International Business Machines Corporation Audiovisual source code documentation
CN107957779A (zh) * 2017-11-27 2018-04-24 海尔优家智能科技(北京)有限公司 一种利用眼部动作控制信息搜索的方法及装置
WO2019118089A1 (en) 2017-12-11 2019-06-20 Analog Devices, Inc. Multi-modal far field user interfaces and vision-assisted audio processing
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10657954B2 (en) * 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US11157075B2 (en) * 2018-05-01 2021-10-26 Dell Products, L.P. Gaze-activated voice services for interactive workspaces
CN111833846B (zh) * 2019-04-12 2023-06-02 广东小天才科技有限公司 一种根据意图启动听写状态的方法和装置,及存储介质
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
CN111090473A (zh) * 2019-07-29 2020-05-01 广东小天才科技有限公司 一种基于电子设备的听写启动方法及电子设备
US20230065847A1 (en) * 2021-08-31 2023-03-02 International Business Machines Corporation Network bandwidth conservation during video conferencing

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3530591B2 (ja) 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
US5777614A (en) * 1994-10-14 1998-07-07 Hitachi, Ltd. Editing support system including an interactive interface
DK0718823T3 (da) 1994-12-23 2001-01-29 Siemens Ag Fremgangsmåde til konvertering af ved brug af tale indlæste informationer til maskinlæsbare data
US5799279A (en) 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6078310A (en) * 1996-06-26 2000-06-20 Sun Microsystems, Inc. Eyetracked alert messages
US6351273B1 (en) * 1997-04-30 2002-02-26 Jerome H. Lemelson System and methods for controlling automatic scrolling of information on a display or screen
US6393136B1 (en) * 1999-01-04 2002-05-21 International Business Machines Corporation Method and apparatus for determining eye contact
EP1250701B1 (de) 2000-01-27 2004-11-17 Siemens Aktiengesellschaft System und verfahren zur blickfokussierten sprachverarbeitung

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009503560A (ja) * 2005-07-22 2009-01-29 マルチモダル テクノロジーズ,インク. コンテンツベースの音声再生強調
JP2016512364A (ja) * 2013-03-15 2016-04-25 クアルコム,インコーポレイテッド ジェスチャを使用して処理モードを切り替えるためのシステムおよび方法
JP2018515817A (ja) * 2015-03-20 2018-06-14 フェイスブック,インク. 視線追跡と音声認識とを組み合わせることにより制御を改善する方法
CN106249982A (zh) * 2015-06-12 2016-12-21 松下电器(美国)知识产权公司 显示控制方法、显示控制装置以及控制程序
JP2017004366A (ja) * 2015-06-12 2017-01-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 表示制御方法、表示制御装置及び制御プログラム
US11188147B2 (en) 2015-06-12 2021-11-30 Panasonic Intellectual Property Corporation Of America Display control method for highlighting display element focused by user
JPWO2021230048A1 (ja) * 2020-05-15 2021-11-18
JP7402322B2 (ja) 2020-05-15 2023-12-20 株式会社Nttドコモ 情報処理システム

Also Published As

Publication number Publication date
CN1205602C (zh) 2005-06-08
EP1320848B1 (en) 2006-08-16
TW521262B (en) 2003-02-21
US20040216049A1 (en) 2004-10-28
JP3943492B2 (ja) 2007-07-11
ES2269449T3 (es) 2007-04-01
WO2002025637A1 (en) 2002-03-28
US6795806B1 (en) 2004-09-21
CN1449558A (zh) 2003-10-15
AU2001286090A1 (en) 2002-04-02
EP1320848A1 (en) 2003-06-25
DE60122352D1 (de) 2006-09-28
ATE336779T1 (de) 2006-09-15
DE60122352T2 (de) 2007-09-06
KR100586286B1 (ko) 2006-06-07
KR20030046453A (ko) 2003-06-12
HK1057940A1 (en) 2004-04-23
IL154852A0 (en) 2003-10-31
CA2420093A1 (en) 2002-03-28

Similar Documents

Publication Publication Date Title
JP3943492B2 (ja) ディクテーションとコマンドの区別を向上させる方法
US5950160A (en) Method and system for displaying a variable number of alternative words during speech recognition
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US5829000A (en) Method and system for correcting misrecognized spoken words or phrases
JP4570176B2 (ja) ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US5884258A (en) Method and system for editing phrases during continuous speech recognition
US5899976A (en) Method and system for buffering recognized words during speech recognition
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
US8380505B2 (en) System for recognizing speech for searching a database
US9196246B2 (en) Determining word sequence constraints for low cognitive speech recognition
WO2014199803A1 (en) System and methods for recognizing speech
US20190295531A1 (en) Determining phonetic relationships
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
WO2016013685A1 (en) Method and system for recognizing speech including sequence of words
EP0840287A2 (en) Method and system for selecting recognized words when correcting recognized speech
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JPH11184495A (ja) 音声認識装置
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
JP2008241933A (ja) データ処理装置及びデータ処理方法
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP2006184421A (ja) 音声認識装置及び音声認識方法
JP2001242887A (ja) 音声認識装置および音声認識ナビゲーション装置
JP2020034832A (ja) 辞書生成装置、音声認識システムおよび辞書生成方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060202

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070320

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070405

R150 Certificate of patent or registration of utility model

Ref document number: 3943492

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140413

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term