JP4942970B2

JP4942970B2 - 音声認識における動詞誤りの回復

Info

Publication number: JP4942970B2
Application number: JP2005275757A
Authority: JP
Inventors: モワットデビッド; エル．チャンバースロバート
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-10-22
Filing date: 2005-09-22
Publication date: 2012-05-30
Anticipated expiration: 2025-09-22
Also published as: US8725505B2; KR20060050966A; JP2006119625A; US20060089834A1; CN1763842A; EP1650744A1; CN1763842B; KR101213835B1

Description

本発明は、音声認識における動詞誤りの回復(verb error recovery)に関する。すなわち本発明は、コンピュータ化(computerized)した音声認識(speech recognition)に関する。より詳細には、本発明は、音声認識システムが認識誤り(recognition error)および／または曖昧性(ambiguity)に対処(react)する仕方を改善するための装置および方法に関する。

音声認識は、人々が音声を使ってコンピューティングシステムと連係できるようにするいくつかの有用な用途を持つ技術である。これらの用途には、ユーザがテキストを口述して文書を作成できるようにすること、ユーザが音声によって１つまたは複数のコンピュータプログラムにコマンドを発行できるようにすること、自動化電話技術システムを改善すること、および他の多くの用途が含まれる。そのようなシステムは、コンピュータ化電話技術処理システム、デスクトップコンピューティング製品とのユーザ対話、さらには、モバイルコンピューティングデバイスの改善された対話および制御など、大規模集中サーバの用途で役に立つ。

音声認識は、おそらく、人間のコンピューティングデバイスとの対話の将来の形として知られており、盛んに研究されている。音声認識技術は、急速に進歩しているが、完成はしていない。音声認識は、かなりのコンピューティングリソースを必要とし、１００％の認識精度を達成していない。これは、一部は、人間の言語に固有の曖昧性に起因し、一部は、ユーザスピーチが適用され得る様々な領域にも起因する。

現在のデスクトップ音声認識システムは、通常、最大３つのスピーチのクラスを聴き取る。第１のクラスは、認識されるテキストが、そのまま、現在対象とされている文書に挿入されるだけの自由形式のディクテーションである。ディクテーションの一例は、「John, have you received the report that I sent you yesterday?（ジョン、あなたは私が昨日送った報告書を受け取りましたか。）」などとすることができる。第２のスピーチのクラスは、簡単なメニュー名またはボタン名の形のコマンドである。このスピーチのクラスの例には、「Ｆｉｌｅ（ファイル）」、「Ｅｄｉｔ（編集）」、「Ｖｉｅｗ（表示）」、「ＯＫ」などが含まれる。コマンド語が認識されると、それらが表す項目が音声によって選択され、または「クリックされる」（すなわち、「Ｆｉｌｅ（ファイル）」が認識されるとファイルメニューが開くはずである）。第３のクラスは、動詞＋目的語コマンド対の形のコマンドである。このスピーチのクラスの例には、「Delete report（報告書を削除する）」、「Click OK（ＯＫをクリックする）」、および「Start Calculator（計算器を開始する）」などが含まれる。「Start Calculator（計算器を開始する）」コマンドは、正しく認識されると、計算器と呼ばれるアプリケーションを起動する。

３つのクラスすべてを聴き取ることにより、ユーザは、発話する前に、音声でテキストを入力しようとするのか、それとも音声でコマンドを与えようとするのかを、指定する必要がない。音声認識システムはこれを自動的に判断する。ゆえに、ユーザが「Delete Sentence（文を削除する）」と発声した場合、現在の文が削除される。さらに、ユーザが「This is a test（これはテストである）」と言った場合、「This is a test（これはテストである）」という言葉が現在の文書に挿入される。この直感的な手法はユーザ体験を大幅に簡略化するが、限界がないわけではない。具体的には、ユーザが動詞＋目的語コマンドを与えようとし、そのコマンドまたは目的語が誤っており、または認識に失敗したとき、その動詞＋目的語(berb-plus-object)はディクテーション(dictation)として扱われ、文書中に挿入されることになる。

未遂の動詞＋目的語コマンドが文書に誤って挿入されると、複合誤り状況が作り出される。具体的には、ユーザは、次に、誤って導入されたテキストを取り消し、次いで、そのコマンドを発話し直さなければならない。動詞＋目的語コマンドが誤って認識されたときにユーザが複数のステップに従う必要があるということが、誤認識誤りを「複合誤り(compound error)」に転化させる。複合誤りは、すぐにユーザにフラストレーションを起こさせ、ユーザの音声認識に対する印象に容易に影響を及ぼす。ゆえに、そのような誤りを低減し、または無くすことさえできる音声認識システムは、一般に、ユーザの音声認識での体験を改善するはずである。

コンピュータで実施される音声認識の方法およびシステムが提供される。この方法およびシステムは、一般に、音声認識コマンド用の一組の動詞を維持する。この一組の動詞に含まれている動詞がその動詞での無効な１つまたは複数の目的語と組み合さった発声を認識すると、この方法およびシステムは、その動詞および無効な目的語に関連したインディケーション(indication)を生成する。このインディケーションは、ユーザに、システムが、その無効な目的語(invalid object)を用いてその動詞に関連付けられたコマンドをどのように実行すべきか分からないことを知らせることを含む。次いで、この方法およびシステムは、その動詞および無効な目的語がどのように扱われるべきか指定するユーザ入力を受け取ることができる。

図１は、本発明を実施するためのコンピューティングシステム環境１００の一例を示す。コンピューティングシステム環境１００は、適当なコンピューティング環境の一例にすぎず、本発明の用途または機能の範囲についてのいかなる限定を示唆するためのものでもない。また、コンピューティング環境１００は、例示的動作環境１００に示す構成要素のいずれか１つまたはそれらの組み合わせに関連するどのようなな依存関係または要件を有するものであると、解釈すべきではない。

本発明は、他の多数の汎用または専用コンピューティングシステム環境または構成を用いて動作する。本発明と共に使用するのに適し得るよく知られているコンピューティングシステム、環境、および／または構成の例には、例えば、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話技術システム、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。

本発明は、コンピュータにより実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的状況として説明することができる。一般に、プログラムモジュールには、個々のタスクを実行し、または個々の抽象データ型を実施するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、タスクが、通信ネットワークを介してリンクされたリモート処理ユニットにより実行される分散コンピューティング環境でも実施され得る。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカルとリモート両方のコンピュータ記憶媒体に位置し得る。

図１を参照すると、本発明を実施するための例示的システムは、コンピュータ１１０の形で汎用コンピューティングデバイスを含む。コンピュータ１１０の構成要素には、例えば、中央処理ユニット１２０、システムメモリ１３０、およびシステムメモリを含む様々なシステム構成要素を処理ユニット１２０に結合するシステムバス１２１が含まれる。

システムバス１２１は、様々なバスアーキテクチャのいずれかを使用したメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含む数種類のバス構造のいずれでもよい。例をあげると、そのようなアーキテクチャには、産業標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ電子デバイス規格化協会（ＶＥＳＡ）ローカルバス、およびメザニンバスとも呼ばれる周辺装置相互接続（ＰＣＩ）バスが含まれる。

コンピュータ１１０は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によってアクセスされ得る任意の使用可能な媒体とすることができ、それには揮発性媒体と不揮発性媒体の両方、取り外し可能媒体と取り外し不能媒体の両方が含まれる。例をあげると、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体が含まれる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータなどの情報を記憶するための任意の方法または技術で実施された、揮発性と不揮発性両方、取り外し可能と取り外し不能両方の媒体が含まれる。コンピュータ記憶媒体には、それだけに限らないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなどのメモリ技術、ＣＤ−ＲＯＭ、ディジタル多用途ディスク（ＤＶＤ）などの光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶などの磁気記憶デバイス、あるいは所望の情報を格納するのに使用でき、コンピュータ１１０によってアクセスされ得る他の任意の媒体が含まれる。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータを、搬送波や他の搬送機構などの変調データ信号として実施し、任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、その特性の１つまたは複数が、その信号に情報を符号化するような方式で設定または変更されている信号を意味する。例をあげると、通信媒体には、有線ネットワークや直接配線接続などの有線媒体、および音響、ＲＦ、赤外線、その他の無線媒体などの無線媒体が含まれる。上記のいずれかの組み合わせも、コンピュータ可読媒体の範囲内に含まれる。

システムメモリ１３０は、読み取り専用メモリ（ＲＯＭ）１３１やランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性および／または不揮発性メモリの形でコンピュータ記憶媒体を含む。基本入出力システム（ＢＩＯＳ）１３３は、始動時などに、コンピュータ１１０内の諸要素間での情報転送を支援する基本ルーチンを含み、通常、ＲＯＭ１３１に記憶される。ＲＡＭ１３２は、通常、処理ユニット１２０から直ちにアクセス可能であり、かつ／またはそれによって現在操作されているデータおよび／またはプログラムモジュールを含む。例として、図１は、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７を示す。

コンピュータ１１０は、他の取り外し可能／取り外し不能、揮発性／不揮発性コンピュータ記憶媒体も含むことができる。一例にすぎないが、図１は、取り外し不能、不揮発性磁気媒体との間で読み取りまたは書き込みを行うハードディスクドライブ１４１、取り外し可能、不揮発性磁気ディスク１５２との間で読み取りまたは書き込みを行う磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭや他の光媒体などの取り外し可能、不揮発性光ディスク１５６との間で読み取りまたは書き込みを行う光ディスクドライブ１５５を示す。例示的動作環境で使用され得る他の取り外し可能／取り外し不能、揮発性／不揮発性のコンピュータ記憶媒体には、例えば、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどが含まれる。ハードディスクドライブ１４１は、通常、インターフェース１４０などの取り外し不能メモリインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は、通常、インターフェース１５０などの取り外し可能メモリインターフェースによってシステムバス１２１に接続される。

図１に示す各ドライブおよびそれに関連するコンピュータ記憶媒体は、コンピュータ１１０のためのコンピュータ可読命令、データ構造、プログラムモジュールおよびその他のデータの記憶を提供する。図１では、例えば、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７を格納するものとして示されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７と同じでも、異なっていてもよいことに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７には、少なくともそれらが異なるコピーであることを示すために、図では異なる番号を付してある。

ユーザは、キーボード１６２や、マイクロホン１６３や、マウス、トラックボール、タッチパッドといったポインティングデバイス１６１などの入力デバイスを介してコンピュータ１１０にコマンドおよび情報を入力することができる。他の入力デバイス（図示せず）には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどが含まれる。上記その他の入力デバイスは、しばしば、システムバス１２１に結合されたユーザ入力インターフェース１６０を介して処理ユニット１２０に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス（ＵＳＢ）といった他のインターフェースおよびバス構造によっても接続され得る。モニタ１９１または他の種類の表示デバイスも、ビデオインターフェース１９０などのインターフェースを介してシステムバス１２１に接続される。モニタ１９１以外に、コンピュータは、スピーカ１９７やプリンタ１９６など他の周辺出力装置を含むこともでき、それらは、出力周辺インターフェース１９５を介して接続される。

コンピュータ１１０は、リモートコンピュータ１８０など、１つまたは複数のリモートコンピュータへの論理接続を使用したネットワークで接続された環境で動作することができる。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイスなどの一般的なネットワークノードとすることができ、通常は、コンピュータ１１０に関連して前述した要素の多くまたはすべてを含む。図１に示す論理接続には、ローカルエリアネットワーク（ＬＡＮ）１７１およびワイドエリアネットワーク（ＷＡＮ）１７３が含まれるが、他のネットワークも含まれる。そのようなネットワーク環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットではよく見られるものである。

ＬＡＮネットワーク環境で使用されるとき、コンピュータ１１０はネットワークインターフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーク環境で使用されるとき、コンピュータ１１０は、通常、モデム１７２またはインターネットなどのＷＡＮ１７３を介して通信を確立する他の手段を含む。モデム１７２は、内蔵でも外付けでもよく、ユーザ入力インターフェース１６０または他の適当な機構を介してシステムバス１２１に接続される。ネットワークで接続された環境では、コンピュータ１１０に関連して示すプログラムモジュール、またはその一部は、リモートのメモリ記憶デバイスにも格納される。一例として、図１には、リモートコンピュータ１８０上にあるものとしてリモートアプリケーションプログラム１８５を示す。図示のネットワーク接続は例示的であり、コンピュータ間での通信リンクを確立する他の手段も使用され得ることが理解されるであろう。

図２は、例示的コンピューティング環境であるモバイルデバイス２００のブロック図である。モバイルデバイス２００は、マイクロプロセッサ２０２、メモリ２０４、入出力（Ｉ／Ｏ）コンポーネント２０６、およびリモートコンピュータまたは他のモバイルデバイスと通信するための通信インターフェース２０８を含む。一実施形態では、前述の構成要素は、適当なバス２１０を介して相互に通信するために結合される。

メモリ２０４は、メモリ２０４に格納された情報が、モバイルデバイス２００への全体電源が停止されたときに失われないように、バッテリバックアップモジュール（図示せず）を備えるランダムアクセスメモリ（ＲＡＭ）などの不揮発性電子メモリとして実施される。メモリ２０４の一部は、好ましくは、プログラム実行のためのアドレス指定可能なメモリとして割り振られ、メモリ２０４の別の部分は、好ましくは、ディスクドライブ上の記憶をシミュレートするなどの記憶に使用される。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４、ならびにオブジェクトストア２１６を含む。動作時、オペレーティングシステム２１２は、好ましくは、プロセッサ２０２によってメモリ２０４から実行される。オペレーティングシステム２１２は、１つの好ましい実施形態では、マイクロソフトコーポレーションから市販されているＷＩＮＤＯＷＳ（登録商標）ＣＥブランドのオペレーティングシステムである。オペレーティングシステム２１２は、好ましくは、モバイルデバイス用に設計され、１組の公開されたアプリケーションプログラミングインターフェースおよびメソッドを介してアプリケーション２１４によって利用され得るデータベース機能を実施する。オブジェクトストア２１６中のオブジェクトは、少なくとも一部は、公開されたアプリケーションプログラミングインターフェースおよびメソッドへの呼び出しに応答して、アプリケーション２１４およびオペレーティングシステム２１２によって維持される。

通信インターフェース２０８は、モバイルデバイス２００が情報を送受信することを可能にする多数の装置および技術を表す。これらの装置には、例えば、有線および無線モデム、衛星受信機、放送チューナなどが含まれる。モバイルデバイス２００は、データをやりとりするためにコンピュータに直接接続することもできる。そのような場合、通信インターフェース２０８は、赤外線送受信機、またはシリアル／パラレル通信接続とすることができ、そられすべてがストリーミング情報を送信することができる。

入出力コンポーネント２０６には、タッチスクリーン、ボタン、ローラ、マイクロホンといった様々な入力デバイス、ならびに、音声発生器、振動装置、およびディスプレイを含む様々な出力デバイスが含まれる。前述の装置は例としてあげたものであり、すべてがモバイルデバイス２００上にある必要はない。さらに、他の入出力デバイスも、本発明の範囲内でモバイルデバイス２００に接続され、またはモバイルデバイスと共に使用することが可能である。

本発明の一実施形態によれば、音声認識システムは、ユーザに誘導的フィードバックを提供して、ユーザが、そうでない場合に複合誤りシナリオになるはずの状況に入り込むのを回避するのに役立つ。一実施形態では、システムはこれを行う際に、システムは正しい動詞を聞き取ったが、その主語が分からなかったというインディケーションを提供する。次いで、システムは、それがユーザの行おうとすることである場合には、ユーザに、その句をテキストとして挿入する選択肢を提供することができる。

図３は、本発明の実施形態による、コンピュータで実施される方法を示す図である。図３に示す方法は、前述のコンピューティング環境でも、他の任意の適当なコンピューティング環境でも実行され得る。方法３００はブロック３０２から開始し、そこで音声認識コマンドに使用される一組の動詞が識別される。この一組の動詞には、通常、１０から２０の動詞（例えば、select（〜を選択する）、delete（〜を削除する）、start（〜を開始する）、click（〜をクリックする）など）があり、これらの動詞は、その音響的差別化により選択される。これは、音声認識ソフトウェアが、非常に大きな割合でこれらの動詞を正確に認識することを保証する。通常は、１０から２０の動詞があるが、各動詞ごとに何百もの可能な目的語を有することができる。

ブロック３０４において、本システムは、音声を聴き取り、音声を認識されたテキストに変換する。ブロック３０４は、今日知られている、または将来開発される任意の適当な音声認識技術に従って動作する。ブロック３０４で音声がテキストに変換された後、制御はブロック３０６に進み、そこで本システムは、認識されたテキストが単純なコマンドであるか否かを判定する。認識された音声が、例えば「Ｆｉｌｅ（ファイル）」など、単純なコマンドである場合、音声によってファイルメニューをクリックするなど、そのコマンドが実行され、制御はライン３０８を経てブロック３０４に戻る。

ブロック３１０において、本システムは、認識されたテキストが動詞＋少なくとも１つの有効な目的語であるか否か判定する。簡単な一例は、認識されたテキストが、「Start Calculator（計算器を開始する）」といった、有効な動詞＋目的語であり、システムが計算器アプリケーションを起動する場合である。しかしながら、本発明の実施形態は、有効な目的語にさらにテキストが続く状況にも等しく適用可能である。例えば、「Select the word <text> and turn it <formatting style>（＜テキスト＞という単語を選択し、それを＜書式設定スタイル＞に変える）」などのコマンドは、動詞「Select（〜を選択する）」に有効な目的語「the word（〜という単語）」が続き、その後に、「the word（〜という単語）」がどのテキストを指すのかシステムに知らせる指定子(specifier) ＜ｔｅｘｔ＞が続くものを含む。さらに、このコマンドは複数の部分を持つ。その理由は、このコマンドは、その後に別の有効な目的語「it（それ）」が続く第２の動詞「turn（〜を変える）」を含むからである。本発明の実施形態は、動詞で始まり、その後に少なくとも１つの有効な目的語が続く音声認識コマンドを含む。ゆえに、本発明の実施形態は、動詞／目的語／動詞／目的語（select fred and turn it bold（ｆｒｅｄを選択し、それを太字に変える））、動詞／目的語／目的語（change fred into fried（ｆｒｅｄをｆｒｉｅｄに変える））、および動詞／目的語／形容詞（turn that red（それを赤に変える））を含むコマンド、ならびに動詞で始まり、その後に有効な目的語が続く他の任意のコマンドに適用可能である。本システムが動詞＋少なくとも１つの目的語に作用した後、制御はライン３１２に沿ってブロック３０４に戻る。

ブロック３１２において、本システムは、認識されたテキストが、ブロック３０２で選択された一組の動詞からの動詞＋有効でない目的語であるかどうかを判定する。そうである場合、制御はブロック３１４に進む。ブロック３１４において、本システムはユーザに、有効でない目的語であることに起因して(due to the non-valid object)、本システムは、認識された動詞にどのように作用すべきか分からないというインディケーションを提供する。しかしながら、本システムは、ただ単に、ユーザに、「それは何ですか？」といった標準的な誤認識メッセージを提供することもできる。一実施形態では、ユーザが「Start Calculator（計算器を開始する）」ではなく「Start adding（加算を開始する）」と言い、「adding（加算）」が動詞「Start（開始する）」の有効でない目的語である場合、システムはユーザに、何が「開始される」のか分からないことを指示する。次いで、本システムは、ユーザがそのテキストをディクテーションとして挿入しようとする場合には、「Insert start....（．．．．を開始するを挿入する）」と言わなければならないことを指示することができる。このフィードバックは、ユーザが望む場合には、認識された動詞での有効な目的語の一覧が表示され得ることを指示することもできる。ユーザフィードバックが与えられた後、この方法は、任意選択で、ブロック３１６に進み、そこで本システムは、フィードバックに対するユーザ応答を待つ。いくつかの実施形態では、ユーザ入力およびその結果として生じるシステム措置(user input and resultant system action)が必要とされない場合には、この方法は、直接ブロック３１４からブロック３０４に進むこともできる。任意選択のブロック３１６では、ユーザ応答は、ボタンを押す、コマンドを発声する、または他の任意の適当な対話の形とすることができる。ユーザがフィードバックに関連する入力を提供した後、制御は、任意選択で、ブロック３１８に進み、そこで、ユーザ入力に基づいて、適当な措置が講じられる。例えば、ユーザが、その動詞＋有効でない目的語がディクテーションであることを指示した場合、そのテキストはディクテーションとして入力される。ブロック３１８でユーザ入力に作用した後、制御は、ライン３２０に沿ってブロック３０４に戻る。

最後に、認識されたテキストが、単純なコマンド、動詞＋目的語でも、動詞＋有効でない目的語でもない場合、認識されたテキストは、ブロック３２２で示すように、そのまま、ディクテーションとして現在の文書に挿入される。

ステップ３０６，ステップ３１０およびステップ３１２を、順を追って説明したが、そのような説明は、単に、分かりやすくするために提供したにすぎない。評価の順序は、本発明の実施形態に従って変更され得ることが明確に企図されている。

選択された動詞が無効な目的語と組み合わさっているという認識に応答してユーザに誘導的フィードバックを提供することにより、単純なプロセスが、そうでない場合には複合誤りになるはずの状況を、快適なユーザ体験に変換する。さらに、音声認識システムに不慣れなユーザも、過度にフラストレーションを感じさせることなく、より容易に誘導することができる。この改善されたユーザ体験は、ユーザによる音声認識技術の利用を円滑化すると共に、ユーザの音声認識システムとの対話の効率を改善することができる。

以上、本発明を特定の実施形態を参照して説明したが、本発明の精神および範囲から逸脱することなく、形式および内容の変更が加えられ得ることを当分野の技術者は理解するであろう。

本発明を実施するのに適したコンピューティング環境を示す図である。本発明を実施するための代替のコンピューティング環境を示すブロック図である。本発明の一実施形態によるコンピュータで実施する方法を示す図である。

符号の説明

１２０処理ユニット
１３０システムメモリ
１３４オペレーティングシステム
１３５アプリケーションプログラム
１３６他のプログラムモジュール
１３７プログラムデータ
１４０取り外し不能不揮発性メモリインターフェース
１４４オペレーティングシステム
１４５アプリケーションプログラム
１４６他のプログラムモジュール
１４７プログラムデータ
１５０取り外し可能不揮発性メモリインターフェース
１６０ユーザ入力インターフェース
１６１ポインティングデバイス
１６２キーボード
１６３マイクロホン
１７０ネットワークインターフェース
１７１ローカルエリアネットワーク
１７２モデム
１７３ワイドエリアネットワーク
１８０リモートコンピュータ
１８５リモートアプリケーションプログラム
１９０ビデオインターフェース
１９１モニタ
１９５出力周辺インターフェース
１９６プリンタ
１９７スピーカ
２０２プロセッサ
２０４メモリ
２０８通信インターフェース
２０４アプリケーションプログラム
２１６オブジェクトストア

Claims

音声認識をコンピュータで実施する方法であって、
有効な動詞と、該有効な動詞に対して事前に指定された複数の異なる有効な目的語のうちの１つとの対を含む有効な音声認識コマンドを識別するステップと、
ユーザの発声を受け取るステップと、
前記発声が、無効な目的語と組み合わさった前記有効な動詞を含むかどうかを判定するステップであって、前記無効な目的語は、前記有効な動詞に対して事前に指定された前記複数の異なる有効な目的語との比較に少なくとも部分的に基づいて有効かどうかが判定されるステップと、
前記判定に応じて、前記ユーザに、前記有効な動詞をコマンド語として処理するか、または、挿入される文書として処理するかを選択させる、誘導的フィードバックを提供するステップであって、前記誘導的フィードバックは、前記有効な動詞を前記挿入される文書として処理するために利用することができる第２の有効な動詞のインディケーションと、前記有効な動詞を前記コマンド語として処理するために利用することができる前記複数の異なる有効な目的語のインディケーションとを含む、ステップと
を具備したことを特徴とする方法。
前記フィードバックを提供するステップは、前記有効な動詞に対して事前に指定された複数の有効な目的語の一覧を表示して、目的語を前記ユーザに選択させるようにするフィードバックを提供するステップを含むことを特徴とする請求項１に記載の方法。
前記フィードバックを提供するステップは、前記ユーザが追加の発声を行うように誘導するフィードバックを提供するステップを含むことを特徴とする請求項１に記載の方法。
請求項１乃至３のいずれかに記載の方法をコンピュータに実行させるためのコンピュータ実行可能命令を記憶したことを特徴とするコンピュータ可読記憶媒体。