JP2009506386A

JP2009506386A - 対話式ユーザチュートリアルへの、音声エンジン訓練の組込み

Info

Publication number: JP2009506386A
Application number: JP2008529248A
Authority: JP
Inventors: モワット，ディヴィッド; アンドリュー，フェリックス・ジー・ティー・アイ; ジャコビー，ジェームズ・ディー; ショルツ，オリバー; ケネディー，ポール・エイ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2005-08-31
Filing date: 2006-08-29
Publication date: 2009-02-12
Also published as: RU2008107759A; EP1920433A1; CN101253548A; CN101253548B; US20070055520A1; EP1920433A4; MX2008002500A; WO2007027817A1; BRPI0615324A2; KR20080042104A

Abstract

本発明は、音声認識チュートリアル訓練を、音声レコグナイザのボイス訓練と結合する。このシステムは、音声データを入力するようユーザに促し、事前定義済みのスクリーンショットで、音声コマンドが受け取られると何が起こるかをシミュレートする。チュートリアルプロセス中の各ステップで、ユーザが入力を促されたとき、このシステムは、事前定義済みの１組（１つでもよい）のユーザ入力のみが音声レコグナイザによって認識されることになるように、構成される。うまく認識が行われているときは、この音声データを使用して音声認識システムが訓練される。
【選択図】図２

Description

現在の音声認識システムのユーザは、いくつかの問題に直面している。第１に、ユーザは、音声認識システムを熟知しなければならず、どのように音声認識システムを操作するかを学習しなければならない。加えて、ユーザは、ユーザの音声をよりよく認識するように音声認識システムを訓練しなければならない。

第１の問題（音声認識システムの使用をユーザに教授すること）に対処するために、現在の音声認識チュートリアルシステムは、様々な異なる手段を使用して、ユーザに音声レコグナイザの働きについて教授しようと試みている。例えば、いくつかのシステムは、ヘルプ文書（電子文書または紙文書とすることができる）の形態のチュートリアル情報を使用し、単にユーザがヘルプ文書に目を通せるようにするだけである。さらに他のチュートリアルシステムは、ユーザがどのように音声認識システムの種々の機能を使用することができるかに関するビデオデモンストレーションを提供する。

したがって、現在のチュートリアルは、ユーザが安全な制御された環境で音声認識を試してみることのできる、実践的な体験を提供しない。そうではなく、現在のチュートリアルは、ユーザがチュートリアルコンテンツを視聴または通読できるようにするだけである。しかし、単にチュートリアルコンテンツを読むようユーザに求めるだけでは、たとえ声を出して読まれたとしても、有意味なチュートリアルコンテンツに関するユーザの記憶はきわめて低く、ほんのわずかに近いことがわかっている。

加えて、現在の音声チュートリアルは、サードパーティによって拡張可能ではない。言い換えれば、サードパーティベンダは通常、自分自身の音声コマンドまたは機能を生み出したり、音声コマンドまたは機能を既存の音声システムに追加したり、あるいは現在のチュートリアルによって教授されない既存のまたは新しい音声システム機能を教授したりしたい場合には、別個のチュートリアルを一から作成しなければならない。

第２の問題（話し手をよりよく認識するように音声レコグナイザを訓練すること）に対処するためにもまた、いくつかの異なるシステムが使用されてきた。このようなすべてのシステムでは、コンピュータは最初に、特別な訓練モードに置かれる。ある従来システムでは、ユーザは単に、音声レコグナイザに対して所与の量の事前定義済みテキストを読むよう求められ、音声レコグナイザは、このテキストを読むユーザから獲得された音声データを使用して訓練される。別のシステムでは、ユーザは、種々のタイプのテキストアイテムを読むよう促され、音声レコグナイザの認識困難ないくつかのアイテムを繰り返すよう求められる。

ある現行システムでは、ユーザは声を出してチュートリアルコンテンツを読むよう求められ、同時に音声認識システムがアクティブ化される。したがって、ユーザがチュートリアルコンテンツ（音声認識システムがどのように働くかを記述し、音声認識システムによって使用されるいくつかのコマンドを含む）を読んでいるだけでなく、音声レコグナイザが、チュートリアルコンテンツが読まれるのに伴って実際にユーザからの音声データを認識している。取り込まれた音声データは、次いで、音声レコグナイザを訓練するのに使用される。しかし、このシステムでは、音声認識システムの完全な音声認識機能がアクティブである。したがって、音声レコグナイザは、典型的には何千個ものコマンドを含む場合もあるその語彙中の、ほぼ何でも認識することができる。このタイプのシステムは、あまりしっかりと制御されない。音声レコグナイザが間違ったコマンドを認識した場合、システムはチュートリアルテキストから逸脱する可能性があり、ユーザは方向を失う可能性がある。

したがって、現在の音声認識訓練システムは、効果的となるためにはいくつかの異なる事項を必要とする。コンピュータは、特別な訓練モードになければならず、ユーザが特定の語句を言おうとしているという高い確信を有さなければならず、数個の異なる語句のみについて、それらがあるかどうか積極的に聞いていなければならない。

このように、音声エンジン訓練とユーザチュートリアル訓練とは、別々の問題に対処するものだが、両方とも、ユーザが首尾よい音声認識体験を有するために必要とされるものであることがわかる。

以上の考察は、一般的な背景情報のために提供するに過ぎず、特許請求する主題の範囲を決定する際の助けとして使用されるものとはしない。

本発明は、音声認識チュートリアル訓練を、音声レコグナイザのボイス訓練と結合する。このシステムは、音声データを入力するようユーザに促し、事前定義済みのスクリーンショットで、音声コマンドが受け取られると何が起こるかをシミュレートする。チュートリアルプロセス中の各ステップで、ユーザが入力を促されたとき、このシステムは、事前定義済みの１組（１つでもよい）のユーザ入力のみが音声レコグナイザによって認識されることになるように、構成される。うまく認識が行われているときは、この音声データを使用して音声認識システムが訓練される。

この概要は、以下の詳細な記述でさらに述べる概念の精選を、単純化した形で紹介するために提供する。この概要は、特許請求する主題の鍵となる特徴または本質的な特徴を識別するものとはせず、また、特許請求する主題の範囲を決定する際の助けとして使用されるものともしない。

付録Ａに、本発明の一実施形態により使用される例示的なチュートリアルフロースキーマの１つを示す。

本発明は、音声認識システムについてユーザに教授すると同時に、ユーザから受け取ったボイスデータに基づいて音声認識システムの訓練も行うチュートリアルシステムに関する。しかし、本発明についてより詳細に述べる前に、本発明を使用することのできる例示的な一環境について述べる。

図１に、実施形態を実施することのできる適切なコンピューティングシステム環境１００の例を示す。コンピューティングシステム環境１００は、適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能の範囲についてどんな限定を示唆するものともしない。またコンピューティング環境１００は、この例示的な動作環境１００に示すコンポーネントのいずれか１つまたは組合せに関してどんな依存や要件を有するとも解釈すべきではない。

実施形態は、他の多くの汎用または専用コンピューティングシステム環境または構成でも機能する。様々な実施形態と共に使用するのに適するであろう周知のコンピューティングシステム、環境、および／または構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロコントローラベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話システムや、以上のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれるが、これらに限定されない。

実施形態は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで述べることができる。一般に、プログラムモジュールは、特定のタスクを実施するか特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。いくつかの実施形態は分散コンピューティング環境で実施されるように設計され、その場合、タスクは通信ネットワークを介してリンクされたリモート処理デバイスによって実施される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含めたローカルとリモートの両方のコンピュータ記憶媒体に位置する。

図１を参照すると、いくつかの実施形態を実施するための例示的なシステムは、コンピュータ１１０の形態の汎用コンピューティングデバイスを含む。コンピュータ１１０のコンポーネントは、処理ユニット１２０と、システムメモリ１３０と、システムメモリを含めた様々なシステムコンポーネントを処理ユニット１２０に結合するシステムバス１２１とを含むことができるが、これらに限定されない。システムバス１２１は、様々なバスアーキテクチャのいずれかを用いた、メモリバスまたはメモリコントローラ、周辺バス、ローカルバスを含めて、いくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、このようなアーキテクチャは、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、およびＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バス（メザニンバスとも呼ばれる）を含む。

コンピュータ１１０は通常、様々なコンピュータ可読媒体を備える。コンピュータ可読媒体は、コンピュータ１１０によってアクセスできる任意の利用可能な媒体とすることができ、揮発性と不揮発性の媒体、取外し可能と取外し不可能の媒体の両方を含む。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実現された、揮発性と不揮発性、取外し可能と取外し不可能の両方の媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、または他のメモリ技術、ＣＤ‐ＲＯＭ、ディジタル多用途ディスク（ＤＶＤ）、または他の光学ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、または他の磁気記憶デバイス、あるいは、所望の情報を記憶するのに使用できコンピュータ１１０によってアクセスできる他の任意の媒体を含むが、これらに限定されない。通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波や他のトランスポート機構などの被変調データ信号に組み入れるものであり、任意の情報送達媒体を含む。用語「被変調データ信号」は、信号中の情報を符号化するようにして１つまたは複数の特性が設定または変更される信号を意味する。限定ではなく例として、通信媒体は、有線ネットワークや直接有線接続などの有線媒体と、音響、無線周波数、赤外線などの無線媒体および他の無線媒体とを含む。以上のいずれかの組合せもコンピュータ可読媒体の範囲に含まれるべきである。

システムメモリ１３０は、読取り専用メモリ（ＲＯＭ）１３１やランダムアクセスメモリ（ＲＡＭ）１３２など、揮発性および／または不揮発性メモリの形態のコンピュータ記憶媒体を含む。ＲＯＭ１３１には通常、起動中などにコンピュータ１１０内の要素間で情報を転送するのを助ける基本ルーチンを含むＢＩＯＳ（ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ）１３３が記憶されている。ＲＡＭ１３２は通常、処理ユニット１２０からすぐにアクセス可能な、かつ／または処理ユニット１２０が現在作用している、データおよび／またはプログラムモジュールを含む。限定ではなく例として、図１には、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を示す。

コンピュータ１１０は、他の取外し可能／取外し不可能、揮発性／不揮発性コンピュータ記憶媒体を備えることもできる。例に過ぎないが図１には、取外し不可能な不揮発性の磁気媒体に対して読取りまたは書込みを行うハードディスクドライブ１４１と、取外し可能な不揮発性の磁気ディスク１５２に対して読取りまたは書込みを行う磁気ディスクドライブ１５１と、ＣＤＲＯＭや他の光学媒体など、取外し可能な不揮発性の光学ディスク１５６に対して読取りまたは書込みを行う光学ディスクドライブ１５５を示す。この例示的な動作環境で使用することのできる他の取外し可能／取外し不可能、揮発性／不揮発性コンピュータ記憶媒体は、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、固体ＲＡＭ、固体ＲＯＭなどを含むが、これらに限定されない。ハードディスクドライブ１４１は通常、インタフェース１４０などの取外し不可能メモリインタフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光学ディスクドライブ１５５は通常、インタフェース１５０などの取外し可能メモリインタフェースでシステムバス１２１に接続される。

上に論じ図１に示したドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、および他のデータの記憶域をコンピュータ１１０に提供する。例えば図１には、ハードディスクドライブ１４１がオペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７を記憶しているのが示されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同じものとすることもでき、異なるものとすることもできることに留意されたい。ここでは、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７が少なくとも異なるコピーであることを示すために、これらには異なる番号を付けてある。

ユーザは、キーボード１６２、マイクロホン１６３、マウスやトラックボールやタッチパッド等のポインティングデバイス１６１など、入力デバイスを介して、コンピュータ１１０にコマンドおよび情報を入力することができる。他の入力デバイス（図示せず）は、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナなどを含むことができる。これらおよび他の入力デバイスは、システムバスに結合されたユーザ入力インタフェース１６０を介して処理ユニット１２０に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）など、他のインタフェースおよびバス構造で接続されてもよい。モニタ１９１または他のタイプの表示デバイスも、ビデオインタフェース１９０などのインタフェースを介してシステムバス１２１に接続される。モニタに加えて、コンピュータは、スピーカ１９７やプリンタ１９６など、他の周辺出力デバイスも備えることができ、これらは出力周辺インタフェース１９５を介して接続することができる。

コンピュータ１１０は、リモートコンピュータ１８０など１つまたは複数のリモートコンピュータへの論理接続を用いて、ネットワーク化された環境で操作される。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、または他の一般的なネットワークノードとすることができ、通常は、コンピュータ１１０に関して上述した要素の多くまたはすべてを備える。図１に示す論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１およびワイドエリアネットワーク（ＷＡＮ）１７３を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、およびインターネットでよくみられる。

ＬＡＮネットワーキング環境で使用されるときは、コンピュータ１１０は、ネットワークインタフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境で使用されるときは、コンピュータ１１０は通常、インターネットなどのＷＡＮ１７３を介して通信を確立するためのモデム１７２または他の手段を備える。モデム１７２は内蔵でも外付けでもよく、ユーザ入力インタフェース１６０または他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク化された環境では、コンピュータ１１０に関して示したプログラムモジュールまたはその一部をリモートのメモリ記憶デバイスに記憶することができる。限定ではなく例として、図１には、リモートアプリケーションプログラム１８５がリモートコンピュータ１８０上にあるのを示す。図示のネットワーク接続は例であり、コンピュータ間で通信リンクを確立する他の手段を使用してもよいことは理解されるであろう。

図２は、一実施形態によるチュートリアルシステム２００のより詳細なブロック図である。チュートリアルシステム２００はチュートリアルフレームワーク２０２を含み、チュートリアルフレームワーク２０２は、複数の異なるチュートリアルアプリケーションのためのチュートリアルコンテンツ２０４、２０６にアクセスする。図２にはまた、チュートリアルフレームワーク２０２が音声認識システム２０８、音声認識訓練システム２１０、およびユーザインタフェースコンポーネント２１２に結合されているのを示す。チュートリアルシステム２００は、ユーザ（番号２１４で示す）にチュートリアルを提供するのに使用されるだけでなく、ユーザから音声データを獲得して、獲得した音声データで音声認識訓練システム２１０を使用して音声認識システム２０８を訓練するのにも使用される。

チュートリアルフレームワーク２０２は、ユーザインタフェースコンポーネント２１２を介して、ユーザ２１４に対話式チュートリアル情報２３０を提供する。対話式チュートリアル情報２３０は、どのように音声認識システム２０８を操作するかに関するチュートリアルを、順を追ってユーザに手ほどきする。そうする中で、対話式チュートリアル情報２３０は、音声データを入力するようユーザに促すことになる。ユーザが音声データを言うと、音声データはマイクロホンなどを介して獲得され、ユーザ入力２３２としてチュートリアルフレームワーク２０２に提供される。次いでチュートリアルフレームワーク２０２は、ユーザ音声データ２３２を音声認識システム２０８に提供し、音声認識システム２０８は、ユーザ音声データ２３２に対して音声認識を実施する。次いで音声認識システム２０８は、ユーザ音声データ２３２の認識（または非認識）を示す音声認識結果２３４を、チュートリアルフレームワーク２０２に提供する。

これに応答して、チュートリアルフレームワーク２０２は、別の１組の対話式チュートリアル情報２３０を、ユーザインタフェースコンポーネント２１２を介してユーザ２１４に提供する。ユーザ音声データ２３２が音声認識システム２０８によって正確に認識された場合は、対話式チュートリアル情報２３０は、音声認識システムがこの入力を受け取ると何が起こるかをユーザに見せる。同様に、ユーザ音声データ２３２が音声認識システム２０８によって認識されない場合は、対話式チュートリアル情報２３０は、音声認識システム中でこのステップで非認識が発生すると何が起こるかをユーザに見せる。これが、現在実行されているチュートリアルアプリケーション中の各ステップについて継続する。

図３は、図２に示したシステム２００が一実施形態によりどのように動作するかをよりよく示す流れ図である。システム２００の動作を詳細に述べる前に、まず、音声認識システムについて教授するチュートリアルアプリケーションを提供したい開発者が、最初にチュートリアルコンテンツ２０４や２０６などのチュートリアルコンテンツを生成し終えていることになることに留意する。この考察では、開発者はアプリケーション１のためのチュートリアルコンテンツ２０４を生成したと仮定する。

チュートリアルコンテンツは、例示的に、チュートリアルフローコンテンツ２１６と、１組のスクリーンショットまたは他のユーザインタフェース表示要素２１８とを含む。チュートリアルフローコンテンツ２１６は、例示的に、チュートリアルアプリケーションの完全なナビゲーションフロー、ならびに、このナビゲーションフローの各ステップで可能とされるユーザ入力を記述する。一実施形態では、チュートリアルフローコンテンツ２１６は、アプリケーションのナビゲーション階層を定義するＸＭＬファイルである。図４に、使用できる１つの例示的なナビゲーション階層３００を示す。しかし、ナビゲーションは必ずしも階層型である必要はなく、他の階層、さらにはステップの線形セット（階層ではない）ですら使用することができる。

いずれの場合でも、例示的なナビゲーション階層３００は、チュートリアルアプリケーションが１つまたは複数のトピック３０２を含むことを示す。各トピックは、１つまたは複数の異なる章３０４を有し、ページを有することもできる。各章は、１つまたは複数の異なるページ３０６を有し、各ページは、０個またはそれ以上の異なるステップ３０８を有する（０個のステップを有するページの一例は、ステップのない導入ページであろう）。ステップは、ユーザがチュートリアルの所与のページ３０６の中をナビゲートするためにとるべきステップである。チュートリアルの所与のページ３０６についてのすべてのステップ３０８が完了すると、別のページ３０６に進むオプションがユーザに提供される。所与の章３０４についてのすべてのページが完了すると、後続の章に進むオプションがユーザに提供される。当然、所与のトピックのすべての章が完了すると、次いでユーザは、チュートリアルの別のトピックに進むことができる。また当然、チュートリアルアプリケーションの開発者の望むように、ユーザは階層の種々のレベルを飛ばすことが可能とされてよいことにも留意する。

チュートリアルフローコンテンツ２１６の具体的な一例を、付録Ａとして本出願に添付する。付録Ａは、図４に示すナビゲーション階層３００に従ってチュートリアルアプリケーションのフローを完全に定義するＸＭＬファイルである。付録Ａ中のＸＭＬファイルはまた、チュートリアル中のいずれか所与のステップ３０８でユーザが発することが可能とされる言葉を定義し、ユーザが事前定義済みの言葉を言うのに応答して表示されることになる所与のスクリーンショット２１８（あるいは他のテキストまたは表示項目）を定義または参照する。いくつかの例示的なスクリーンショットについては、図５〜１１に関して後で論じる。

このチュートリアルコンテンツ２０４が開発者（または他のチュートリアル作者）によって生成されると、チュートリアルコンテンツ２０４が生成された対象であるチュートリアルアプリケーションを、図２に示したシステム２００によって実行することができる。図３に、チュートリアルの実行におけるシステム２００の動作の一実施形態を流れ図で示す。

ユーザ２１４はまず、チュートリアルアプリケーション１を開く。これは図３のブロック３２０で示されており、様々な異なる方法で行うことができる。例えば、ユーザインタフェースコンポーネント２１２は、所与のチュートリアルアプリケーションを開くためにユーザによって（ポイントアンドクリックデバイスを使用して、あるいは声で、など）作動させることのできる、ユーザインタフェース要素を表示することができる。

チュートリアルアプリケーションがユーザによって開かれると、チュートリアルフレームワーク２０２は、対応するチュートリアルコンテンツ２０４にアクセスし、チュートリアルフローコンテンツ２１６をナビゲーション階層スキーマに解析する。ナビゲーション階層スキーマの一例は図４に表されており、この具体例は付録Ａに示されている。上に論じたように、フローコンテンツがナビゲーション階層スキーマに解析されると、これはチュートリアルのフローを定義するだけでなく、チュートリアルフロー中の各ステップで表示されることになるスクリーンショット２１８をも参照する。フローコンテンツをナビゲーション階層に解析することは、図３のブロック３２２で示されている。

次いでチュートリアルフレームワーク２０２は、ユーザがチュートリアルを開始できるようにするユーザインタフェース要素を、ユーザインタフェース２１２を介してユーザ２１４に対して表示する。例えば、チュートリアルフレームワーク２０２は、ユーザインタフェース２１２にスタートボタンを表示することができ、このスタートボタンは、ユーザが単に「ｓｔａｒｔ」（または別の類似する言葉）を言うだけで、あるいはポイントアンドクリックデバイスを使用するだけで、作動させることができる。当然、チュートリアルアプリケーションの実行を開始する他の方法を使用することもできる。次いでユーザ２１４は、チュートリアルの実行を開始する。これは、図３のブロック３２４および３２６で示されている。

次いでチュートリアルフレームワーク２０２は、チュートリアルを実行して、ユーザに音声データの入力を対話式に促し、ユーザが入力を促されたコマンドが、チュートリアルが実行されている対象である音声認識システムによって受け取られると何が起こるかを、スクリーンショットでシミュレートする。これは、図３のブロック３２８で示されている。図３に示す動作の記述を続ける前に、チュートリアルがどのように動作する場合があるかに関するよりよい理解を提供するために、いくつかの例示的なスクリーンショットについて述べる。

図５〜１１は、例示的なスクリーンショットである。図５には、例示的な一実施形態でスクリーンショット５０２がチュートリアル部分５０４を含むのを示す。チュートリアル部分５０４は、チュートリアルアプリケーションが書かれた対象である音声認識システムの動作を記述した、文書のチュートリアルを提供する。

図５のスクリーンショット５０２にはまた、ユーザに対して表示されるナビゲーション階層２００（図４に示したもの）の一部も示す。図５に示すスクリーンショットの下部に沿って位置する複数のトピックボタン５０６〜５１６は、実行されているチュートリアルアプリケーション中のトピックを識別する。これらのトピックは、「Ｗｅｌｃｏｍｅ」、「Ｂａｓｉｃｓ」、「Ｄｉｃｔａｔｉｏｎ」、「Ｃｏｍｍａｎｄｉｎｇ」などを含む。トピックボタン５０６〜５１６のうちの１つが選択されると、複数の章ボタンが表示される。

より具体的には、図５は、Ｗｅｌｃｏｍｅボタン５０６に対応するＷｅｌｃｏｍｅページを示す。ユーザがＷｅｌｃｏｍｅページ上のチュートリアル情報を読み終えたときは、ユーザは単に、次の画面に進むためにスクリーンショット５０２上のＮｅｘｔボタン５１８を作動させればよい。

図６に、図５に示したのと同様のスクリーンショット５２３を示すが、例外として図６は、各トピックボタン５０６〜５１６が、対応する複数の章ボタンを有するのを示している。例えば、図６は、Ｃｏｍｍａｎｄｉｎｇトピックボタン５１２がユーザによって作動されたところを示す。次いで、Ｃｏｍｍａｎｄｉｎｇトピックボタン５１２に対応する複数の章ボタン５２０が表示される。例示的な章ボタン５２０は、「Ｉｎｔｒｏｄｕｃｔｉｏｎ」、「ＳａｙＷｈａｔＹｏｕＳｅｅ」、「ＣｌｉｃｋＷｈａｔＹｏｕＳｅｅ」、「ＤｅｓｋｔｏｐＩｎｔｅｒａｃｔｉｏｎ」、「ＳｈｏｗＮｕｍｂｅｒｓ」、および「Ｓｕｍｍａｒｙ」を含む。章ボタン５２０は、１つまたは複数のページを表示するためにユーザによって作動させることができる。図６では、「Ｉｎｔｒｏｄｕｃｔｉｏｎ」章ボタン５２０がユーザによって作動され、簡単なチュートリアルがスクリーンショットのチュートリアル部分５０４に示されている。

チュートリアル部分５０４の下には、タスクを達成するためにユーザがとることのできる複数のステップ５２２がある。ユーザがステップ５２２をとると、スクリーンショットのデモンストレーション部分５２４は、これらのステップがとられたときに音声認識プログラム中で何が起こるかをデモンストレーションする。例えば、ユーザが「Ｓｔａｒｔ」、「ＡｌｌＰｒｏｇｒａｍｓ」、「Ａｃｃｅｓｓｏｒｉｅｓ」と言うと、スクリーンショットのデモンストレーション部分５２４は、「Ａｃｃｅｓｏｒｉｅｓ」プログラムが表示されていることを示す表示５２６を表示する。次いで、ユーザが「ＷｏｒｄＰａｄ」と言うと、表示は「ＷｏｒｄＰａｄ」アプリケーションが開かれたことを示すように移行する。

図７に、「ＷｏｒｄＰａｄ」アプリケーションがすでに開かれている、別の例示的なスクリーンショット５３０を示す。ユーザは今や、「ＳｈｏｗＮｕｍｂｅｒｓ」章ボタンを選択している。スクリーンショット５３０のチュートリアル部分５０４中の情報はこのとき、チュートリアルが書かれた対象であるアプリケーションの「ＳｈｏｗＮｕｍｂｅｒｓ」機能に対応する情報に変更される。ステップ５２２もまた、「ＳｈｏｗＮｕｍｂｅｒｓ」章に対応するステップに変更されている。この例示的な実施形態では、デモンストレーション部分５２４の表示５３２に表示されているアプリケーションの作動可能ボタンまたは機能にはそれぞれ番号が割り当てられており、ユーザは単に番号を言うだけでアプリケーション中のボタンを指示するかまたは作動させることができる。

図８も図７と同様だが、例外として、図８のスクリーンショット５５０は、「Ｃｏｍｍａｎｄｉｎｇ」トピックに対応する「ＣｌｉｃｋＷｈａｔＹｏｕＳｅｅ」章ボタンをユーザが選択した場合に対応する。この場合もやはり、スクリーンショット５５０のチュートリアル部分５０４は、どのように音声認識システムを使用してユーザインタフェース上の何かを「クリック」するかに関するチュートリアル情報を含む。この章に対応する複数のステップ５２２もリストされている。ステップ５２２は、デモンストレーション部分５２４中の表示５５２上の何かを「クリック」することの１つまたは複数の例を、順を追ってユーザに手ほどきする。デモンストレーション表示５５２は、ユーザが音声認識システムを介してステップ５２２中のコマンドを使用してアプリケーションに本当にコマンドを出していたとすれば何がユーザに実際に見えることになるかを反映するように、更新される。

図９に、「Ｄｉｃｔａｔｉｏｎ」トピックボタン５１０をユーザが選択した場合に対応する、別のスクリーンショット６００を示す。「Ｄｉｃｔａｔｉｏｎ」トピックボタン５１０に対して、１組の新しい例示的な章ボタン５９０が表示される。新しい１組の例示的な章ボタンは、「Ｉｎｔｒｏｄｕｃｔｉｏｎ」、「ＣｏｎｎｅｃｔｉｎｇＭｉｓｔａｋｅｓ」、「ＤｉｃｔａｔｉｎｇＬｅｔｔｅｒｓ」、「Ｎａｖｉｇａｔｉｏｎ」、「ＰｒｅｓｓｉｎｇＫｅｙｓ」、および「Ｓｕｍｍａｒｙ」を含む。図９は、ユーザが「ＰｒｅｓｓｉｎｇＫｅｙｓ」章ボタン６０３を作動させたところを示す。この場合もやはり、スクリーンショットのチュートリアル部分５０４は、スクリーンショット６００のデモンストレーション部分５２４上のデモンストレーション表示６０２に示すＷｏｒｄＰａｄアプリケーションに、どのように文字を１度に１つずつ入力することができるかを示すチュートリアル情報を示す。チュートリアル部分５０４の下には、ユーザが音声を用いて個々の文字をアプリケーションに入力するためにとることのできる複数のステップ５２２がある。スクリーンショット６００のデモンストレーション表示６０２は、音声認識システムを使用してアプリケーションが制御された場合にそう見えることになるように、各ステップ５２２がユーザによって実行された後で更新される。

図１０にもまた、ユーザがＤｉｃｔａｔｉｏｎトピックボタン５１０および「Ｎａｖｉｇａｔｉｏｎ」章ボタンを選択した場合に対応するスクリーンショット６１０を示す。スクリーンショット６１０のチュートリアル部分５０４は今や、音声ディクテーションシステムを使用してアプリケーションを制御するとどのようにナビゲーションが働くかを記述する情報を含む。また、いくつかの例示的なナビゲーションコマンドをユーザに順を追って手ほどきするステップ５２２がリストされている。デモンストレーション部分５２４のデモンストレーション表示６１４は、ユーザが音声認識システムを介してステップ５２２中に示されるコマンドを使用して実際にアプリケーションを制御していたとすれば何が表示されることになるかを反映するように、更新される。

図１１は、図１０に示したものと同様だが、例外として、図１１に示すスクリーンショット６５０は、ユーザが「ＤｉｃｔａｔｉｎｇＬｅｔｔｅｒｓ」章ボタン６５２を作動させた場合に対応する。したがって、チュートリアル部分５０４は、ディクテーションアプリケーション中で新しい行および段落を作成するなど、いくつかのディクテーション機能を、音声認識システムを介してどのように使用するかをユーザに教える情報を含む。ステップ５２２は、ディクテーションアプリケーション中でどのように文書中に新しい段落を作成するかに関する例を、順を追ってユーザに手ほどきする。スクリーンショット６５０のデモンストレーション部分５２４中のデモンストレーション表示６５４は、ユーザが実際に音声認識システムを介してステップ５２２中のコマンドを入力していたとしたら何をこのアプリケーション中で見ることになるかを表示するように、更新される。

チュートリアル中で認識されたすべての音声情報は、音声認識システム２０８をよりよく訓練するために、音声認識訓練システム２１０に提供される。

チュートリアル中の各ステップ５２２で、ユーザが単語または句を言うよう要求されたとき、フレームワーク２０２は、音声データの入力を促すプロンプトに対する事前定義済みの１組の応答のみを受け付けるように構成されることに留意されたい。言い換えれば、ユーザが「ｓｔａｒｔ」と言うよう促されている場合、フレームワーク２０２は、「ｓｔａｒｔ」として認識されるユーザからの音声入力のみを受け付けるように構成することができる。ユーザがいずれか他の音声データを入力した場合は、フレームワーク２０２は、例示的に、音声入力が認識されなかったことを示すスクリーンショットを提供することになる。

チュートリアルフレームワーク２０２はまた、例示的に、音声入力が認識されなかったときに音声認識システム中で何が起こるかを表示することもできる。これは様々な異なる方法で行うことができる。例えば、チュートリアルフレームワーク２０２自体を、所与のプロンプトに応答して音声認識システム２０８から所定の音声認識結果のみを受け付けるように構成することができる。認識結果が、チュートリアルフレームワーク２０２によって許可される認識結果と合致しない場合は、チュートリアルフレームワーク２０２は、ユーザインタフェースコンポーネント２１２を介して、音声が認識されなかったことを示す対話式チュートリアル情報をユーザ２１４に提供することができる。別法として、音声認識システム２０８自体を、所定の１組の音声入力のみを認識するように構成することもできる。この場合、音声認識システム２０８中で所定の規則のみを有効にすることができ、あるいは、事前定義済みの１組の可能な音声入力以外はどんな音声入力も認識しないように音声認識システム２０８を構成するための、他のステップをとることができる。

いずれの場合でも、チュートリアルプロセス中のいずれか所与のステップで所定の１組の音声入力のみが認識されるようにすることは、いくつかの利点をもたらす。これにより、チュートリアルアプリケーションは、処理中のステップで許可される所与の事前定義済み音声入力のいずれかに応答して次に何が行われなければならないかがわかることになるので、ユーザはチュートリアル中で正しい進路に保たれる。これは、ユーザからのほぼどんな音声入力の認識も許可したいくつかの従来システムとは対照的である。

再び図３の流れ図を参照すると、音声データの入力を促すプロンプトに対する事前定義済みの１組の応答を受け付けることは、ブロック３３０で示されている。音声認識システム２０８が、正確で許容できる認識が行われたことを示す認識結果２３４をチュートリアルフレームワーク２０２に提供すると、次いでチュートリアルフレームワーク２０２は、認識結果２３４（例示的にはユーザ音声データ２３２の音声表記）と共に、ユーザ音声データ２３２を音声認識訓練システム２１０に提供する。次いで音声認識訓練システム２１０は、ユーザ音声データ２３２および認識結果２３４を使用して、ユーザの音声を認識するように音声認識システム２０８中のモデルをよりよく訓練する。この訓練は、様々な異なる既知の形態のいずれかをとることができ、音声認識システム訓練が行われる特定の方法は本発明の一部をなさない。ユーザ音声データ２３２および認識結果２３４を使用して音声認識訓練を実施することは、図３のブロック３３２で示されている。この訓練の結果、音声認識システム２０８は、現ユーザの音声をよりよく認識することができる。

スキーマは、付録Ａに挙げる例に示す様々な機能を有する。例えば、スキーマを使用して練習ページを作成することができ、この練習ページは、ユーザがすでに学習したタスクをどのように実施するかに関する正確な指示をすぐには提供せずに、そのタスクを実施するようユーザに指示することになる。これによりユーザは、正確にどうするかを教えられることなく、特定の指示を思い出して特定のコマンドを入力しようとすることができる。これは学習プロセスを向上させる。

例として、付録Ａに示すように、＜ｐａｇｅ＞トークン中で「ｐｒａｃｔｉｃｅ＝ｔｒｕｅ」フラグを設定することによって、練習ページを作成することができる。これは以下のように行うことができる。

＜ｐａｇｅｔｉｔｌｅ＝”ｓｔｏｐｌｉｓｔｅｎｉｎｇ” ｐｒａｃｔｉｃｅ＝”ｔｒｕｅ”＞
これにより、「ｓｔｅｐ」トークンの下の＜ｉｎｓｔｒｕｃｔｉｏｎ＞は、タイムアウト（３０秒など）が発生するまで、または音声レコグナイザ２０８がユーザから誤認識を得る（すなわちユーザが間違ったことを言う）まで、表示されなくなる。

具体的な例として、「ｐａｇｅｔｉｔｌｅ」が「ｓｔｏｐｌｉｓｔｅｎｉｎｇ」に設定され、「ｐｒａｃｔｉｃｅｆｌａｇ」が「ｔｒｕｅ」に設定されている場合、表示は、以下のチュートリアル言語を示すことができる。

「チュートリアルの間、学習したばかりのことを時々練習してもらいます。間違えた場合は、前に進めるように補助します。音声認識インタフェースのコンテキストメニューまたは右クリックメニューをどのように表示させるか覚えていますか？では表示させてみて下さい！」
これは、例えばチュートリアルセクション５０４に表示することができ、次いで、チュートリアルは単に、ユーザが「ｓｈｏｗｓｐｅｅｃｈｏｐｔｉｏｎｓ」という句を言うかどうか聞きながら待機すればよい。一実施形態では、ユーザが正しい音声コマンドを言うと、次いでデモンストレーション表示部分５２４は、このコマンドが実際にアプリケーションに与えられたとしたら何がユーザに見えることになるかを表示するように更新される。

しかし、３０秒などの所定タイムアウト期間、または他のいずれかの望ましいタイムアウトの後にユーザが音声コマンドを入力しなかった場合、あるいは、音声認識システムによって認識されないであろう不適切なコマンドをユーザが入力した場合は、「ｓｈｏｗｓｐｅｅｃｈｏｐｔｉｏｎｓと言ってみて下さい」という指示が表示される。

このように、本発明は、チュートリアルプロセスと音声訓練プロセスとを望ましい方法で結合することがわかる。一実施形態では、このシステムは、ユーザが入力を促されたコマンドが音声認識システムによって受け取られると音声認識システムで何が起こるかをユーザに見せるという点で、対話式である。また、音声認識をチュートリアルプロセスにおいてより効率的にするため、かつユーザを制御されたチュートリアル環境に留めるために、チュートリアル中の任意のステップにおける可能な認識を、事前定義済みの１組の認識に制限する。

また、チュートリアルシステム２００は容易に拡張可能であることにも留意する。新しい音声コマンドまたは新しい音声機能のために新しいチュートリアルを提供するには、サードパーティは単に、チュートリアルフローコンテンツ２１６およびスクリーンショット２１８を作成するだけでよく、これらは容易にチュートリアルシステム２００中のフレームワーク２０２にプラグインすることができる。これはまた、サードパーティが既存の音声コマンドまたは機能のための新しいチュートリアルを作成したい場合、あるいはサードパーティが単に既存のチュートリアルを改変したい場合にも行うことができる。これらすべての場合に、サードパーティは単に、チュートリアルフレームワーク２０２によって使用されるチュートリアルスキーマに解析することができるように、参照されるスクリーンショット（または他の表示要素）を伴うチュートリアルコンテンツを作成するだけでよい。本明細書に論じた実施形態では、このスキーマは階層型スキーマだが、他のスキーマも同様に容易に使用することができる。

構造上の特徴および／または方法上の動作に特有の言語で本主題を述べたが、添付の特許請求の範囲に定義する本主題は、前述の特定の特徴または動作に必ずしも限定されないことを理解されたい。そうではなく、前述の特定の特徴または動作は、特許請求の範囲を実施する例示的な形態として開示する。

本発明を使用することのできる例示的な環境の図である。本発明の一実施形態によるチュートリアルシステムのより詳細なブロック図である。図２に示したチュートリアルシステムの動作の一実施形態を示す流れ図である。１つの例示的なナビゲーション階層を示す図である。図２に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。図２に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。図２に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。図２に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。図２に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。図２に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。図２に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。

Claims

音声認識システム（２０８）を訓練する方法であって、
前記音声認識システム（２０８）を制御するのに使用されるコマンドを言うようユーザ（２１４）に促すプロンプト（５２２）を含む複数のチュートリアル表示（２３０）のうちの１つを表示するステップと、
前記プロンプト（５２２）に応答して受け取られた受領音声データ（２３２）を、認識のために前記音声認識システム（２０８）に提供して、認識結果（２３４）を得るステップと、
前記音声認識結果（２３４）が、可能なコマンドの事前定義済みサブセットのうちの１つに対応する場合に、前記音声認識結果（２３４）および前記受領音声データ（２３２）に基づいて前記音声認識システム（２０８）を訓練する（３３２）ステップと、
前記認識結果（２３４）に基づいて前記チュートリアル表示（２３０）のうちの別の１つを表示するステップとを含む方法。
前記複数のチュートリアル表示（２３０）のうちの別の１つを表示するステップは、
前記音声認識システム（２０８）が前記音声認識結果（２３４）に対応する前記コマンドを受け取ったときに生成される実際の表示を示すシミュレーション（５２４）を表示するステップを含む、請求項１に記載の方法。
前記チュートリアル表示（２３０）のうちの１つを表示するステップは、
前記音声認識システム（２０８）の機能を記述するチュートリアルテキスト（５０４）を表示するステップを含む、請求項２に記載の方法。
プロンプト（５２２）を含む前記チュートリアル表示（２３０）のうちの１つを表示するステップは、
複数のステップ（５２２）を表示するステップを含み、各ステップはコマンドを言うよう前記ユーザ（２１４）に促し、前記複数のステップ（５２２）は、前記音声認識システム（２０８）で１つまたは複数のタスクを完了させるために実施される、請求項２に記載の方法。
前記チュートリアル表示（２３０）のうちの１つを表示するステップは、
選択されたアプリケーションのためのチュートリアルコンテンツ（２０４、２０６）を参照するステップを含む、請求項４に記載の方法。
前記チュートリアルコンテンツ（２０４、２０６）はナビゲーションフローコンテンツ（２１６）および対応する表示（２１８）を含み、前記チュートリアル表示（２３０）のうちの１つを表示するステップは、
前記ナビゲーションフローコンテンツ（２１６）にアクセスするステップであって、前記ナビゲーションフローコンテンツ（２１６）は事前定義済みのスキーマ（３００）に準拠するとともに種々のポイントで対応する表示（２１８）を参照するステップと、
前記ナビゲーションフローコンテンツ（２１６）によって定義されるナビゲーションフローに従うステップと、
前記ナビゲーションフロー中の種々のポイントで参照される表示（２１８）を表示するステップとを含む、請求項５に記載の方法。
現在表示されている表示によってユーザ（２１４）が入力を促される前記ステップ（５２２）に対応する前記可能なコマンドの前記事前定義済みサブセットのみを認識するように、前記音声認識システム（２０８）を構成する（３３０）ステップをさらに含む、請求項６に記載の方法。
音声認識訓練およびチュートリアルシステム（２００）であって、
チュートリアルアプリケーション（１、Ｎ）のナビゲーションフローを示すナビゲーションフローコンテンツ（２１６）と、前記ナビゲーションフローコンテンツ（２１６）によって定義されるナビゲーションフロー中の種々のポイントで参照される対応する表示要素（２１８）とを含むチュートリアルコンテンツ（２０４、２０６）を備え、前記表示要素（２１８）は、コマンドを言うようユーザ（２１４）にプロンプトで促し、前記表示要素（２１８）はさらに、音声認識システム（２０８）が前記コマンドを受け取るのに応答して生成される表示のシミュレーション（５２４）を含み、音声認識訓練およびチュートリアルシステム（２００）はさらに、
前記チュートリアルコンテンツ（２０４、２０６）にアクセスするとともに前記ナビゲーションフローに従って前記表示要素（２１８）を表示するように構成されたチュートリアルフレームワーク（２０２）を備え、前記チュートリアルフレームワーク（２０２）は、前記プロンプトに応答して提供された音声情報（２３２）を、認識のために音声認識システム（２０８）に提供し、認識結果（２３４）を得て、前記認識結果（２３４）に基づいて前記音声認識システム（２０８）を訓練する（３３２）ように構成された、音声認識訓練およびチュートリアルシステム（２００）。
前記チュートリアルフレームワーク（２０２）は、前記表示要素（２１８）が表示された場合に予期されるコマンドのセットのみを認識するように前記音声認識システム（２０８）を構成した、請求項８に記載の音声認識訓練およびチュートリアルシステム（２００）。
前記チュートリアルフレームワーク（２０２）は、ユーザ（２１４）によって選択された選択チュートリアルアプリケーション（１、Ｎ）に基づいてチュートリアルコンテンツの複数の異なるセット（２０４、２０６）のうちの１つにアクセスするように構成された、請求項８に記載の音声認識訓練およびチュートリアルシステム（２００）。
チュートリアルコンテンツの前記複数の異なるセット（２０４、２０６）は前記チュートリアルフレームワーク（２０２）にプラグイン可能である、請求項１０に記載の音声認識訓練およびチュートリアルシステム（２００）。
前記ナビゲーションフローコンテンツ（２１６）は、どのようにチュートリアル情報が構成され、どのように前記チュートリアル情報の中をナビゲーションできるかを示すナビゲーション構成（３００）を備える、請求項８に記載の音声認識訓練およびチュートリアルシステム（２００）。
前記フローコンテンツ（２１６）はナビゲーション階層（３００）を備える、請求項１２に記載の音声認識訓練およびチュートリアルシステム（２００）。
前記ナビゲーション階層（３００）は、階層型に構成されたトピック（３０２）、章（３０４）、ページ（３０６）、およびステップ（３０８）を備える、請求項１３に記載の音声認識訓練およびチュートリアルシステム（２００）。
コンピュータ可読データを有するデータ構造を記憶した、コンピュータ可読有形媒体であって、前記データ構造は、
コンピュータ可読フローデータ（２１６）を含むフロー部分を備え、前記フローデータは、音声認識システム（２０８）のためのチュートリアルアプリケーション（１、Ｎ）のナビゲーションフローを定義し、事前定義済みのフロースキーマ（３００）に準拠し、前記データ構造はさらに、
コンピュータ可読表示データ（２１８）を含む表示部分を備え、前記表示データ（２１８）は、前記フローデータ（２１６）によって定義される前記ナビゲーションフロー中の種々のポイントで前記フローデータ（２１６）によって参照される複数の表示を定義し、前記表示データ（２１８）は、前記音声認識システム（２０８）中で使用されるコマンドを示す音声データ（２３２）を入力するようユーザ（２１４）に促し、前記表示は、前記ユーザ（２１４）によって入力された前記音声データ（２３２）を前記音声認識システム（２０８）が受け取ったときに何が表示されるかを示す、コンピュータ可読有形媒体。