JP4942970B2 - 音声認識における動詞誤りの回復 - Google Patents

音声認識における動詞誤りの回復 Download PDF

Info

Publication number
JP4942970B2
JP4942970B2 JP2005275757A JP2005275757A JP4942970B2 JP 4942970 B2 JP4942970 B2 JP 4942970B2 JP 2005275757 A JP2005275757 A JP 2005275757A JP 2005275757 A JP2005275757 A JP 2005275757A JP 4942970 B2 JP4942970 B2 JP 4942970B2
Authority
JP
Japan
Prior art keywords
valid
verb
user
computer
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005275757A
Other languages
English (en)
Other versions
JP2006119625A (ja
Inventor
モワット デビッド
エル.チャンバース ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006119625A publication Critical patent/JP2006119625A/ja
Application granted granted Critical
Publication of JP4942970B2 publication Critical patent/JP4942970B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Description

本発明は、音声認識における動詞誤りの回復(verb error recovery)に関する。すなわち本発明は、コンピュータ化(computerized)した音声認識(speech recognition)に関する。より詳細には、本発明は、音声認識システムが認識誤り(recognition error)および/または曖昧性(ambiguity)に対処(react)する仕方を改善するための装置および方法に関する。
音声認識は、人々が音声を使ってコンピューティングシステムと連係できるようにするいくつかの有用な用途を持つ技術である。これらの用途には、ユーザがテキストを口述して文書を作成できるようにすること、ユーザが音声によって1つまたは複数のコンピュータプログラムにコマンドを発行できるようにすること、自動化電話技術システムを改善すること、および他の多くの用途が含まれる。そのようなシステムは、コンピュータ化電話技術処理システム、デスクトップコンピューティング製品とのユーザ対話、さらには、モバイルコンピューティングデバイスの改善された対話および制御など、大規模集中サーバの用途で役に立つ。
音声認識は、おそらく、人間のコンピューティングデバイスとの対話の将来の形として知られており、盛んに研究されている。音声認識技術は、急速に進歩しているが、完成はしていない。音声認識は、かなりのコンピューティングリソースを必要とし、100%の認識精度を達成していない。これは、一部は、人間の言語に固有の曖昧性に起因し、一部は、ユーザスピーチが適用され得る様々な領域にも起因する。
現在のデスクトップ音声認識システムは、通常、最大3つのスピーチのクラスを聴き取る。第1のクラスは、認識されるテキストが、そのまま、現在対象とされている文書に挿入されるだけの自由形式のディクテーションである。ディクテーションの一例は、「John, have you received the report that I sent you yesterday?(ジョン、あなたは私が昨日送った報告書を受け取りましたか。)」などとすることができる。第2のスピーチのクラスは、簡単なメニュー名またはボタン名の形のコマンドである。このスピーチのクラスの例には、「File(ファイル)」、「Edit(編集)」、「View(表示)」、「OK」などが含まれる。コマンド語が認識されると、それらが表す項目が音声によって選択され、または「クリックされる」(すなわち、「File(ファイル)」が認識されるとファイルメニューが開くはずである)。第3のクラスは、動詞+目的語コマンド対の形のコマンドである。このスピーチのクラスの例には、「Delete report(報告書を削除する)」、「Click OK(OKをクリックする)」、および「Start Calculator(計算器を開始する)」などが含まれる。「Start Calculator(計算器を開始する)」コマンドは、正しく認識されると、計算器と呼ばれるアプリケーションを起動する。
3つのクラスすべてを聴き取ることにより、ユーザは、発話する前に、音声でテキストを入力しようとするのか、それとも音声でコマンドを与えようとするのかを、指定する必要がない。音声認識システムはこれを自動的に判断する。ゆえに、ユーザが「Delete Sentence(文を削除する)」と発声した場合、現在の文が削除される。さらに、ユーザが「This is a test(これはテストである)」と言った場合、「This is a test(これはテストである)」という言葉が現在の文書に挿入される。この直感的な手法はユーザ体験を大幅に簡略化するが、限界がないわけではない。具体的には、ユーザが動詞+目的語コマンドを与えようとし、そのコマンドまたは目的語が誤っており、または認識に失敗したとき、その動詞+目的語(berb-plus-object)はディクテーション(dictation)として扱われ、文書中に挿入されることになる。
未遂の動詞+目的語コマンドが文書に誤って挿入されると、複合誤り状況が作り出される。具体的には、ユーザは、次に、誤って導入されたテキストを取り消し、次いで、そのコマンドを発話し直さなければならない。動詞+目的語コマンドが誤って認識されたときにユーザが複数のステップに従う必要があるということが、誤認識誤りを「複合誤り(compound error)」に転化させる。複合誤りは、すぐにユーザにフラストレーションを起こさせ、ユーザの音声認識に対する印象に容易に影響を及ぼす。ゆえに、そのような誤りを低減し、または無くすことさえできる音声認識システムは、一般に、ユーザの音声認識での体験を改善するはずである。
コンピュータで実施される音声認識の方法およびシステムが提供される。この方法およびシステムは、一般に、音声認識コマンド用の一組の動詞を維持する。この一組の動詞に含まれている動詞がその動詞での無効な1つまたは複数の目的語と組み合さった発声を認識すると、この方法およびシステムは、その動詞および無効な目的語に関連したインディケーション(indication)を生成する。このインディケーションは、ユーザに、システムが、その無効な目的語(invalid object)を用いてその動詞に関連付けられたコマンドをどのように実行すべきか分からないことを知らせることを含む。次いで、この方法およびシステムは、その動詞および無効な目的語がどのように扱われるべきか指定するユーザ入力を受け取ることができる。
図1は、本発明を実施するためのコンピューティングシステム環境100の一例を示す。コンピューティングシステム環境100は、適当なコンピューティング環境の一例にすぎず、本発明の用途または機能の範囲についてのいかなる限定を示唆するためのものでもない。また、コンピューティング環境100は、例示的動作環境100に示す構成要素のいずれか1つまたはそれらの組み合わせに関連するどのようなな依存関係または要件を有するものであると、解釈すべきではない。
本発明は、他の多数の汎用または専用コンピューティングシステム環境または構成を用いて動作する。本発明と共に使用するのに適し得るよく知られているコンピューティングシステム、環境、および/または構成の例には、例えば、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話技術システム、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
本発明は、コンピュータにより実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的状況として説明することができる。一般に、プログラムモジュールには、個々のタスクを実行し、または個々の抽象データ型を実施するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、タスクが、通信ネットワークを介してリンクされたリモート処理ユニットにより実行される分散コンピューティング環境でも実施され得る。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカルとリモート両方のコンピュータ記憶媒体に位置し得る。
図1を参照すると、本発明を実施するための例示的システムは、コンピュータ110の形で汎用コンピューティングデバイスを含む。コンピュータ110の構成要素には、例えば、中央処理ユニット120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理ユニット120に結合するシステムバス121が含まれる。
システムバス121は、様々なバスアーキテクチャのいずれかを使用したメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含む数種類のバス構造のいずれでもよい。例をあげると、そのようなアーキテクチャには、産業標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ電子デバイス規格化協会(VESA)ローカルバス、およびメザニンバスとも呼ばれる周辺装置相互接続(PCI)バスが含まれる。
コンピュータ110は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスされ得る任意の使用可能な媒体とすることができ、それには揮発性媒体と不揮発性媒体の両方、取り外し可能媒体と取り外し不能媒体の両方が含まれる。例をあげると、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体が含まれる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータなどの情報を記憶するための任意の方法または技術で実施された、揮発性と不揮発性両方、取り外し可能と取り外し不能両方の媒体が含まれる。コンピュータ記憶媒体には、それだけに限らないが、RAM、ROM、EEPROM、フラッシュメモリなどのメモリ技術、CD−ROM、ディジタル多用途ディスク(DVD)などの光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶などの磁気記憶デバイス、あるいは所望の情報を格納するのに使用でき、コンピュータ110によってアクセスされ得る他の任意の媒体が含まれる。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータを、搬送波や他の搬送機構などの変調データ信号として実施し、任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、その特性の1つまたは複数が、その信号に情報を符号化するような方式で設定または変更されている信号を意味する。例をあげると、通信媒体には、有線ネットワークや直接配線接続などの有線媒体、および音響、RF、赤外線、その他の無線媒体などの無線媒体が含まれる。上記のいずれかの組み合わせも、コンピュータ可読媒体の範囲内に含まれる。
システムメモリ130は、読み取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形でコンピュータ記憶媒体を含む。基本入出力システム(BIOS)133は、始動時などに、コンピュータ110内の諸要素間での情報転送を支援する基本ルーチンを含み、通常、ROM131に記憶される。RAM132は、通常、処理ユニット120から直ちにアクセス可能であり、かつ/またはそれによって現在操作されているデータおよび/またはプログラムモジュールを含む。例として、図1は、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137を示す。
コンピュータ110は、他の取り外し可能/取り外し不能、揮発性/不揮発性コンピュータ記憶媒体も含むことができる。一例にすぎないが、図1は、取り外し不能、不揮発性磁気媒体との間で読み取りまたは書き込みを行うハードディスクドライブ141、取り外し可能、不揮発性磁気ディスク152との間で読み取りまたは書き込みを行う磁気ディスクドライブ151、およびCD−ROMや他の光媒体などの取り外し可能、不揮発性光ディスク156との間で読み取りまたは書き込みを行う光ディスクドライブ155を示す。例示的動作環境で使用され得る他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ記憶媒体には、例えば、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ141は、通常、インターフェース140などの取り外し不能メモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常、インターフェース150などの取り外し可能メモリインターフェースによってシステムバス121に接続される。
図1に示す各ドライブおよびそれに関連するコンピュータ記憶媒体は、コンピュータ110のためのコンピュータ可読命令、データ構造、プログラムモジュールおよびその他のデータの記憶を提供する。図1では、例えば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147を格納するものとして示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137と同じでも、異なっていてもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147には、少なくともそれらが異なるコピーであることを示すために、図では異なる番号を付してある。
ユーザは、キーボード162や、マイクロホン163や、マウス、トラックボール、タッチパッドといったポインティングデバイス161などの入力デバイスを介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどが含まれる。上記その他の入力デバイスは、しばしば、システムバス121に結合されたユーザ入力インターフェース160を介して処理ユニット120に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)といった他のインターフェースおよびバス構造によっても接続され得る。モニタ191または他の種類の表示デバイスも、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタ191以外に、コンピュータは、スピーカ197やプリンタ196など他の周辺出力装置を含むこともでき、それらは、出力周辺インターフェース195を介して接続される。
コンピュータ110は、リモートコンピュータ180など、1つまたは複数のリモートコンピュータへの論理接続を使用したネットワークで接続された環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイスなどの一般的なネットワークノードとすることができ、通常は、コンピュータ110に関連して前述した要素の多くまたはすべてを含む。図1に示す論理接続には、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173が含まれるが、他のネットワークも含まれる。そのようなネットワーク環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットではよく見られるものである。
LANネットワーク環境で使用されるとき、コンピュータ110はネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーク環境で使用されるとき、コンピュータ110は、通常、モデム172またはインターネットなどのWAN173を介して通信を確立する他の手段を含む。モデム172は、内蔵でも外付けでもよく、ユーザ入力インターフェース160または他の適当な機構を介してシステムバス121に接続される。ネットワークで接続された環境では、コンピュータ110に関連して示すプログラムモジュール、またはその一部は、リモートのメモリ記憶デバイスにも格納される。一例として、図1には、リモートコンピュータ180上にあるものとしてリモートアプリケーションプログラム185を示す。図示のネットワーク接続は例示的であり、コンピュータ間での通信リンクを確立する他の手段も使用され得ることが理解されるであろう。
図2は、例示的コンピューティング環境であるモバイルデバイス200のブロック図である。モバイルデバイス200は、マイクロプロセッサ202、メモリ204、入出力(I/O)コンポーネント206、およびリモートコンピュータまたは他のモバイルデバイスと通信するための通信インターフェース208を含む。一実施形態では、前述の構成要素は、適当なバス210を介して相互に通信するために結合される。
メモリ204は、メモリ204に格納された情報が、モバイルデバイス200への全体電源が停止されたときに失われないように、バッテリバックアップモジュール(図示せず)を備えるランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実施される。メモリ204の一部は、好ましくは、プログラム実行のためのアドレス指定可能なメモリとして割り振られ、メモリ204の別の部分は、好ましくは、ディスクドライブ上の記憶をシミュレートするなどの記憶に使用される。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含む。動作時、オペレーティングシステム212は、好ましくは、プロセッサ202によってメモリ204から実行される。オペレーティングシステム212は、1つの好ましい実施形態では、マイクロソフトコーポレーションから市販されているWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、好ましくは、モバイルデバイス用に設計され、1組の公開されたアプリケーションプログラミングインターフェースおよびメソッドを介してアプリケーション214によって利用され得るデータベース機能を実施する。オブジェクトストア216中のオブジェクトは、少なくとも一部は、公開されたアプリケーションプログラミングインターフェースおよびメソッドへの呼び出しに応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インターフェース208は、モバイルデバイス200が情報を送受信することを可能にする多数の装置および技術を表す。これらの装置には、例えば、有線および無線モデム、衛星受信機、放送チューナなどが含まれる。モバイルデバイス200は、データをやりとりするためにコンピュータに直接接続することもできる。そのような場合、通信インターフェース208は、赤外線送受信機、またはシリアル/パラレル通信接続とすることができ、そられすべてがストリーミング情報を送信することができる。
入出力コンポーネント206には、タッチスクリーン、ボタン、ローラ、マイクロホンといった様々な入力デバイス、ならびに、音声発生器、振動装置、およびディスプレイを含む様々な出力デバイスが含まれる。前述の装置は例としてあげたものであり、すべてがモバイルデバイス200上にある必要はない。さらに、他の入出力デバイスも、本発明の範囲内でモバイルデバイス200に接続され、またはモバイルデバイスと共に使用することが可能である。
本発明の一実施形態によれば、音声認識システムは、ユーザに誘導的フィードバックを提供して、ユーザが、そうでない場合に複合誤りシナリオになるはずの状況に入り込むのを回避するのに役立つ。一実施形態では、システムはこれを行う際に、システムは正しい動詞を聞き取ったが、その主語が分からなかったというインディケーションを提供する。次いで、システムは、それがユーザの行おうとすることである場合には、ユーザに、その句をテキストとして挿入する選択肢を提供することができる。
図3は、本発明の実施形態による、コンピュータで実施される方法を示す図である。図3に示す方法は、前述のコンピューティング環境でも、他の任意の適当なコンピューティング環境でも実行され得る。方法300はブロック302から開始し、そこで音声認識コマンドに使用される一組の動詞が識別される。この一組の動詞には、通常、10から20の動詞(例えば、select(〜を選択する)、delete(〜を削除する)、start(〜を開始する)、click(〜をクリックする)など)があり、これらの動詞は、その音響的差別化により選択される。これは、音声認識ソフトウェアが、非常に大きな割合でこれらの動詞を正確に認識することを保証する。通常は、10から20の動詞があるが、各動詞ごとに何百もの可能な目的語を有することができる。
ブロック304において、本システムは、音声を聴き取り、音声を認識されたテキストに変換する。ブロック304は、今日知られている、または将来開発される任意の適当な音声認識技術に従って動作する。ブロック304で音声がテキストに変換された後、制御はブロック306に進み、そこで本システムは、認識されたテキストが単純なコマンドであるか否かを判定する。認識された音声が、例えば「File(ファイル)」など、単純なコマンドである場合、音声によってファイルメニューをクリックするなど、そのコマンドが実行され、制御はライン308を経てブロック304に戻る。
ブロック310において、本システムは、認識されたテキストが動詞+少なくとも1つの有効な目的語であるか否か判定する。簡単な一例は、認識されたテキストが、「Start Calculator(計算器を開始する)」といった、有効な動詞+目的語であり、システムが計算器アプリケーションを起動する場合である。しかしながら、本発明の実施形態は、有効な目的語にさらにテキストが続く状況にも等しく適用可能である。例えば、「Select the word <text> and turn it <formatting style>(<テキスト>という単語を選択し、それを<書式設定スタイル>に変える)」などのコマンドは、動詞「Select(〜を選択する)」に有効な目的語「the word(〜という単語)」が続き、その後に、「the word(〜という単語)」がどのテキストを指すのかシステムに知らせる指定子(specifier) <text>が続くものを含む。さらに、このコマンドは複数の部分を持つ。その理由は、このコマンドは、その後に別の有効な目的語「it(それ)」が続く第2の動詞「turn(〜を変える)」を含むからである。本発明の実施形態は、動詞で始まり、その後に少なくとも1つの有効な目的語が続く音声認識コマンドを含む。ゆえに、本発明の実施形態は、動詞/目的語/動詞/目的語(select fred and turn it bold(fredを選択し、それを太字に変える))、動詞/目的語/目的語(change fred into fried(fredをfriedに変える))、および動詞/目的語/形容詞(turn that red(それを赤に変える))を含むコマンド、ならびに動詞で始まり、その後に有効な目的語が続く他の任意のコマンドに適用可能である。本システムが動詞+少なくとも1つの目的語に作用した後、制御はライン312に沿ってブロック304に戻る。
ブロック312において、本システムは、認識されたテキストが、ブロック302で選択された一組の動詞からの動詞+有効でない目的語であるかどうかを判定する。そうである場合、制御はブロック314に進む。ブロック314において、本システムはユーザに、有効でない目的語であることに起因して(due to the non-valid object)、本システムは、認識された動詞にどのように作用すべきか分からないというインディケーションを提供する。しかしながら、本システムは、ただ単に、ユーザに、「それは何ですか?」といった標準的な誤認識メッセージを提供することもできる。一実施形態では、ユーザが「Start Calculator(計算器を開始する)」ではなく「Start adding(加算を開始する)」と言い、「adding(加算)」が動詞「Start(開始する)」の有効でない目的語である場合、システムはユーザに、何が「開始される」のか分からないことを指示する。次いで、本システムは、ユーザがそのテキストをディクテーションとして挿入しようとする場合には、「Insert start....(....を開始するを挿入する)」と言わなければならないことを指示することができる。このフィードバックは、ユーザが望む場合には、認識された動詞での有効な目的語の一覧が表示され得ることを指示することもできる。ユーザフィードバックが与えられた後、この方法は、任意選択で、ブロック316に進み、そこで本システムは、フィードバックに対するユーザ応答を待つ。いくつかの実施形態では、ユーザ入力およびその結果として生じるシステム措置(user input and resultant system action)が必要とされない場合には、この方法は、直接ブロック314からブロック304に進むこともできる。任意選択のブロック316では、ユーザ応答は、ボタンを押す、コマンドを発声する、または他の任意の適当な対話の形とすることができる。ユーザがフィードバックに関連する入力を提供した後、制御は、任意選択で、ブロック318に進み、そこで、ユーザ入力に基づいて、適当な措置が講じられる。例えば、ユーザが、その動詞+有効でない目的語がディクテーションであることを指示した場合、そのテキストはディクテーションとして入力される。ブロック318でユーザ入力に作用した後、制御は、ライン320に沿ってブロック304に戻る。
最後に、認識されたテキストが、単純なコマンド、動詞+目的語でも、動詞+有効でない目的語でもない場合、認識されたテキストは、ブロック322で示すように、そのまま、ディクテーションとして現在の文書に挿入される。
ステップ306,ステップ310およびステップ312を、順を追って説明したが、そのような説明は、単に、分かりやすくするために提供したにすぎない。評価の順序は、本発明の実施形態に従って変更され得ることが明確に企図されている。
選択された動詞が無効な目的語と組み合わさっているという認識に応答してユーザに誘導的フィードバックを提供することにより、単純なプロセスが、そうでない場合には複合誤りになるはずの状況を、快適なユーザ体験に変換する。さらに、音声認識システムに不慣れなユーザも、過度にフラストレーションを感じさせることなく、より容易に誘導することができる。この改善されたユーザ体験は、ユーザによる音声認識技術の利用を円滑化すると共に、ユーザの音声認識システムとの対話の効率を改善することができる。
以上、本発明を特定の実施形態を参照して説明したが、本発明の精神および範囲から逸脱することなく、形式および内容の変更が加えられ得ることを当分野の技術者は理解するであろう。
本発明を実施するのに適したコンピューティング環境を示す図である。 本発明を実施するための代替のコンピューティング環境を示すブロック図である。 本発明の一実施形態によるコンピュータで実施する方法を示す図である。
符号の説明
120 処理ユニット
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
140 取り外し不能不揮発性メモリインターフェース
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
150 取り外し可能不揮発性メモリインターフェース
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイクロホン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ
202 プロセッサ
204 メモリ
208 通信インターフェース
204 アプリケーションプログラム
216 オブジェクトストア

Claims (4)

  1. 音声認識をコンピュータで実施する方法であって、
    有効な動詞と、該有効な動詞に対して事前に指定された複数の異なる有効な目的語のうちの1つとの対を含む有効な音声認識コマンドを識別するステップと、
    ユーザの発声を受け取るステップと、
    前記発声が、無効な目的語と組み合わさった前記有効な動詞を含むかどうかを判定するステップであって、前記無効な目的語は、前記有効な動詞に対して事前に指定された前記複数の異なる有効な目的語との比較に少なくとも部分的に基づいて有効かどうかが判定されるステップと、
    前記判定に応じて前記ユーザに、前記有効な動詞をコマンド語として処理するか、または、挿入される文書として処理するかを選択させる、誘導フィードバックを提供するステップであって、前記誘導的フィードバックは、前記有効な動詞を前記挿入される文書として処理するために利用することができる第2の有効な動詞のインディケーションと、前記有効な動詞を前記コマンド語として処理するために利用することができる前記複数の異なる有効な目的語のインディケーションとを含む、ステップ
    を具備したことを特徴とする方法。
  2. 前記フィードバックを提供するステップは、前記有効な動詞に対して事前に指定された複数の有効な目的語の一覧を表示して、目的語を前記ユーザに選択させるようにするフィードバックを提供するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記フィードバックを提供するステップは、前記ユーザが追加の発声を行うように誘導するフィードバックを提供するステップを含むことを特徴とする請求項1に記載の方法。
  4. 請求項1乃至3のいずれかに記載の方法をコンピュータに実行させるためのコンピュータ実行可能命令を記憶したことを特徴とするコンピュータ可読記憶媒体。
JP2005275757A 2004-10-22 2005-09-22 音声認識における動詞誤りの回復 Expired - Fee Related JP4942970B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/971,817 US8725505B2 (en) 2004-10-22 2004-10-22 Verb error recovery in speech recognition
US10/971,817 2004-10-22

Publications (2)

Publication Number Publication Date
JP2006119625A JP2006119625A (ja) 2006-05-11
JP4942970B2 true JP4942970B2 (ja) 2012-05-30

Family

ID=35628824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005275757A Expired - Fee Related JP4942970B2 (ja) 2004-10-22 2005-09-22 音声認識における動詞誤りの回復

Country Status (5)

Country Link
US (1) US8725505B2 (ja)
EP (1) EP1650744A1 (ja)
JP (1) JP4942970B2 (ja)
KR (1) KR101213835B1 (ja)
CN (1) CN1763842B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720684B2 (en) * 2005-04-29 2010-05-18 Nuance Communications, Inc. Method, apparatus, and computer program product for one-step correction of voice interaction
US8914289B2 (en) * 2009-12-16 2014-12-16 Symbol Technologies, Inc. Analyzing and processing a verbal expression containing multiple goals
JP2011253374A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
MY179900A (en) 2013-08-29 2020-11-19 Panasonic Ip Corp America Speech recognition method and speech recognition apparatus
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US20150336786A1 (en) * 2014-05-20 2015-11-26 General Electric Company Refrigerators for providing dispensing in response to voice commands
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
GB2563066B (en) 2017-06-02 2019-11-06 Avecto Ltd Computer device and method for managing privilege delegation
GB2566262B (en) 2017-09-01 2020-08-26 Avecto Ltd Managing installation of applications on a computer device
GB2566305B (en) 2017-09-08 2020-04-15 Avecto Ltd Computer device and method for controlling process components
JP2019057123A (ja) * 2017-09-21 2019-04-11 株式会社東芝 対話システム、方法、及びプログラム
GB2566949B (en) * 2017-09-27 2020-09-09 Avecto Ltd Computer device and method for managing privilege delegation
GB2568919B (en) 2017-11-30 2020-07-15 Avecto Ltd Managing removal and modification of installed programs on a computer device
GB2570655B (en) 2018-01-31 2020-12-16 Avecto Ltd Managing privilege delegation on a server device
GB2573491B (en) 2018-02-08 2020-07-01 Avecto Ltd Managing privilege delegation on a computer device
GB2570924B (en) 2018-02-12 2021-06-16 Avecto Ltd Managing registry access on a computer device
GB2572977B (en) 2018-04-18 2020-04-22 Avecto Ltd Protecting a computer device from escalation of privilege attacks
GB2577067B (en) 2018-09-12 2021-01-13 Avecto Ltd Controlling applications by an application control system in a computer device
CN111968637A (zh) * 2020-08-11 2020-11-20 北京小米移动软件有限公司 终端设备的操作模式控制方法、装置、终端设备及介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5794196A (en) * 1995-06-30 1998-08-11 Kurzweil Applied Intelligence, Inc. Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
JP2000047685A (ja) 1998-07-30 2000-02-18 Denso Corp 車両用作動装置のための音声操作システム
JP2002523828A (ja) 1998-08-24 2002-07-30 ビーシーエル コンピューターズ, インコーポレイテッド 適応型自然言語インターフェース
JP2999768B1 (ja) 1999-03-04 2000-01-17 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識誤り訂正装置
US6327566B1 (en) * 1999-06-16 2001-12-04 International Business Machines Corporation Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US6347296B1 (en) * 1999-06-23 2002-02-12 International Business Machines Corp. Correcting speech recognition without first presenting alternatives
US6374214B1 (en) * 1999-06-24 2002-04-16 International Business Machines Corp. Method and apparatus for excluding text phrases during re-dictation in a speech recognition system
US6581033B1 (en) * 1999-10-19 2003-06-17 Microsoft Corporation System and method for correction of speech recognition mode errors
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
JP2001188781A (ja) 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
US6895380B2 (en) 2000-03-02 2005-05-17 Electro Standards Laboratories Voice actuation with contextual learning for intelligent machine control
JP2001306566A (ja) 2000-04-19 2001-11-02 Nec Corp 情報提供システム及び情報提供方法
JP2001306091A (ja) 2000-04-26 2001-11-02 Nec Software Kobe Ltd 音声認識システムおよび単語検索方法
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US7136465B2 (en) * 2000-08-31 2006-11-14 Lamson Holdings Llc Voice activated, voice responsive product locator system, including product location method utilizing product bar code and product-situated, location-identifying bar code
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
JP3617826B2 (ja) * 2001-10-02 2005-02-09 松下電器産業株式会社 情報検索装置
US7099829B2 (en) * 2001-11-06 2006-08-29 International Business Machines Corporation Method of dynamically displaying speech recognition system information
JP4000828B2 (ja) 2001-11-06 2007-10-31 株式会社デンソー 情報システム、電子機器、プログラム
US20040018479A1 (en) * 2001-12-21 2004-01-29 Pritchard David E. Computer implemented tutoring system
US9374451B2 (en) * 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7380203B2 (en) * 2002-05-14 2008-05-27 Microsoft Corporation Natural input recognition tool
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
JP2004110613A (ja) * 2002-09-20 2004-04-08 Toshiba Corp 制御装置、制御プログラム、対象装置及び制御システム
KR100668297B1 (ko) * 2002-12-31 2007-01-12 삼성전자주식회사 음성인식방법 및 장치
DE602004018290D1 (de) * 2003-03-26 2009-01-22 Philips Intellectual Property Spracherkennungs- und korrektursystem, korrekturvorrichtung und verfahren zur erstellung eines lexikons von alternativen
KR100577387B1 (ko) * 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치

Also Published As

Publication number Publication date
US8725505B2 (en) 2014-05-13
KR20060050966A (ko) 2006-05-19
JP2006119625A (ja) 2006-05-11
US20060089834A1 (en) 2006-04-27
CN1763842A (zh) 2006-04-26
EP1650744A1 (en) 2006-04-26
CN1763842B (zh) 2011-06-15
KR101213835B1 (ko) 2012-12-20

Similar Documents

Publication Publication Date Title
JP4942970B2 (ja) 音声認識における動詞誤りの回復
US10489112B1 (en) Method for user training of information dialogue system
JP4854259B2 (ja) 音声コマンドを明瞭化する集中化された方法およびシステム
CN108133707B (zh) 一种内容分享方法及系统
US8694322B2 (en) Selective confirmation for execution of a voice activated user interface
US7624018B2 (en) Speech recognition using categories and speech prefixing
EP0607615B1 (en) Speech recognition interface system suitable for window systems and speech mail systems
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
WO2020029500A1 (zh) 语音命令定制方法、装置和设备及计算机存储介质
US7684985B2 (en) Techniques for disambiguating speech input using multimodal interfaces
RU2349969C2 (ru) Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
RU2355045C2 (ru) Последовательный мультимодальный ввод
KR20190075800A (ko) 지능형 개인 보조 인터페이스 시스템
US20190042185A1 (en) Flexible voice-based information retrieval system for virtual assistant
US6499015B2 (en) Voice interaction method for a computer graphical user interface
MXPA04006532A (es) Uso combinado de un lenguaje de marca por pasos y una herramienta de desarrollo orientada por objetos.
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
US8868419B2 (en) Generalizing text content summary from speech content
JPH07222248A (ja) 携帯型情報端末における音声情報の利用方式
WO2019035371A1 (ja) 情報処理装置、情報処理方法及びプログラム
US20190279623A1 (en) Method for speech recognition dictation and correction by spelling input, system and storage medium
US11430444B2 (en) Systems and methods for a wireless microphone to access remotely hosted applications
KR101372837B1 (ko) 직접입력과 음성 명령을 이용한 하이브리드 방식의 전자문서 입력 방법 및 이를 위한 컴퓨터로 판독가능한 기록매체
CN112215010A (zh) 一种语义识别方法及设备
US11722572B2 (en) Communication platform shifting for voice-enabled device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110930

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120229

R150 Certificate of patent or registration of utility model

Ref document number: 4942970

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees