JP2009506386A - 対話式ユーザチュートリアルへの、音声エンジン訓練の組込み - Google Patents

対話式ユーザチュートリアルへの、音声エンジン訓練の組込み Download PDF

Info

Publication number
JP2009506386A
JP2009506386A JP2008529248A JP2008529248A JP2009506386A JP 2009506386 A JP2009506386 A JP 2009506386A JP 2008529248 A JP2008529248 A JP 2008529248A JP 2008529248 A JP2008529248 A JP 2008529248A JP 2009506386 A JP2009506386 A JP 2009506386A
Authority
JP
Japan
Prior art keywords
tutorial
speech recognition
user
data
navigation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008529248A
Other languages
English (en)
Inventor
モワット,ディヴィッド
アンドリュー,フェリックス・ジー・ティー・アイ
ジャコビー,ジェームズ・ディー
ショルツ,オリバー
ケネディー,ポール・エイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009506386A publication Critical patent/JP2009506386A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本発明は、音声認識チュートリアル訓練を、音声レコグナイザのボイス訓練と結合する。このシステムは、音声データを入力するようユーザに促し、事前定義済みのスクリーンショットで、音声コマンドが受け取られると何が起こるかをシミュレートする。チュートリアルプロセス中の各ステップで、ユーザが入力を促されたとき、このシステムは、事前定義済みの1組(1つでもよい)のユーザ入力のみが音声レコグナイザによって認識されることになるように、構成される。うまく認識が行われているときは、この音声データを使用して音声認識システムが訓練される。
【選択図】図2

Description

現在の音声認識システムのユーザは、いくつかの問題に直面している。第1に、ユーザは、音声認識システムを熟知しなければならず、どのように音声認識システムを操作するかを学習しなければならない。加えて、ユーザは、ユーザの音声をよりよく認識するように音声認識システムを訓練しなければならない。
第1の問題(音声認識システムの使用をユーザに教授すること)に対処するために、現在の音声認識チュートリアルシステムは、様々な異なる手段を使用して、ユーザに音声レコグナイザの働きについて教授しようと試みている。例えば、いくつかのシステムは、ヘルプ文書(電子文書または紙文書とすることができる)の形態のチュートリアル情報を使用し、単にユーザがヘルプ文書に目を通せるようにするだけである。さらに他のチュートリアルシステムは、ユーザがどのように音声認識システムの種々の機能を使用することができるかに関するビデオデモンストレーションを提供する。
したがって、現在のチュートリアルは、ユーザが安全な制御された環境で音声認識を試してみることのできる、実践的な体験を提供しない。そうではなく、現在のチュートリアルは、ユーザがチュートリアルコンテンツを視聴または通読できるようにするだけである。しかし、単にチュートリアルコンテンツを読むようユーザに求めるだけでは、たとえ声を出して読まれたとしても、有意味なチュートリアルコンテンツに関するユーザの記憶はきわめて低く、ほんのわずかに近いことがわかっている。
加えて、現在の音声チュートリアルは、サードパーティによって拡張可能ではない。言い換えれば、サードパーティベンダは通常、自分自身の音声コマンドまたは機能を生み出したり、音声コマンドまたは機能を既存の音声システムに追加したり、あるいは現在のチュートリアルによって教授されない既存のまたは新しい音声システム機能を教授したりしたい場合には、別個のチュートリアルを一から作成しなければならない。
第2の問題(話し手をよりよく認識するように音声レコグナイザを訓練すること)に対処するためにもまた、いくつかの異なるシステムが使用されてきた。このようなすべてのシステムでは、コンピュータは最初に、特別な訓練モードに置かれる。ある従来システムでは、ユーザは単に、音声レコグナイザに対して所与の量の事前定義済みテキストを読むよう求められ、音声レコグナイザは、このテキストを読むユーザから獲得された音声データを使用して訓練される。別のシステムでは、ユーザは、種々のタイプのテキストアイテムを読むよう促され、音声レコグナイザの認識困難ないくつかのアイテムを繰り返すよう求められる。
ある現行システムでは、ユーザは声を出してチュートリアルコンテンツを読むよう求められ、同時に音声認識システムがアクティブ化される。したがって、ユーザがチュートリアルコンテンツ(音声認識システムがどのように働くかを記述し、音声認識システムによって使用されるいくつかのコマンドを含む)を読んでいるだけでなく、音声レコグナイザが、チュートリアルコンテンツが読まれるのに伴って実際にユーザからの音声データを認識している。取り込まれた音声データは、次いで、音声レコグナイザを訓練するのに使用される。しかし、このシステムでは、音声認識システムの完全な音声認識機能がアクティブである。したがって、音声レコグナイザは、典型的には何千個ものコマンドを含む場合もあるその語彙中の、ほぼ何でも認識することができる。このタイプのシステムは、あまりしっかりと制御されない。音声レコグナイザが間違ったコマンドを認識した場合、システムはチュートリアルテキストから逸脱する可能性があり、ユーザは方向を失う可能性がある。
したがって、現在の音声認識訓練システムは、効果的となるためにはいくつかの異なる事項を必要とする。コンピュータは、特別な訓練モードになければならず、ユーザが特定の語句を言おうとしているという高い確信を有さなければならず、数個の異なる語句のみについて、それらがあるかどうか積極的に聞いていなければならない。
このように、音声エンジン訓練とユーザチュートリアル訓練とは、別々の問題に対処するものだが、両方とも、ユーザが首尾よい音声認識体験を有するために必要とされるものであることがわかる。
以上の考察は、一般的な背景情報のために提供するに過ぎず、特許請求する主題の範囲を決定する際の助けとして使用されるものとはしない。
本発明は、音声認識チュートリアル訓練を、音声レコグナイザのボイス訓練と結合する。このシステムは、音声データを入力するようユーザに促し、事前定義済みのスクリーンショットで、音声コマンドが受け取られると何が起こるかをシミュレートする。チュートリアルプロセス中の各ステップで、ユーザが入力を促されたとき、このシステムは、事前定義済みの1組(1つでもよい)のユーザ入力のみが音声レコグナイザによって認識されることになるように、構成される。うまく認識が行われているときは、この音声データを使用して音声認識システムが訓練される。
この概要は、以下の詳細な記述でさらに述べる概念の精選を、単純化した形で紹介するために提供する。この概要は、特許請求する主題の鍵となる特徴または本質的な特徴を識別するものとはせず、また、特許請求する主題の範囲を決定する際の助けとして使用されるものともしない。
付録Aに、本発明の一実施形態により使用される例示的なチュートリアルフロースキーマの1つを示す。
本発明は、音声認識システムについてユーザに教授すると同時に、ユーザから受け取ったボイスデータに基づいて音声認識システムの訓練も行うチュートリアルシステムに関する。しかし、本発明についてより詳細に述べる前に、本発明を使用することのできる例示的な一環境について述べる。
図1に、実施形態を実施することのできる適切なコンピューティングシステム環境100の例を示す。コンピューティングシステム環境100は、適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能の範囲についてどんな限定を示唆するものともしない。またコンピューティング環境100は、この例示的な動作環境100に示すコンポーネントのいずれか1つまたは組合せに関してどんな依存や要件を有するとも解釈すべきではない。
実施形態は、他の多くの汎用または専用コンピューティングシステム環境または構成でも機能する。様々な実施形態と共に使用するのに適するであろう周知のコンピューティングシステム、環境、および/または構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロコントローラベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システムや、以上のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれるが、これらに限定されない。
実施形態は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで述べることができる。一般に、プログラムモジュールは、特定のタスクを実施するか特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。いくつかの実施形態は分散コンピューティング環境で実施されるように設計され、その場合、タスクは通信ネットワークを介してリンクされたリモート処理デバイスによって実施される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含めたローカルとリモートの両方のコンピュータ記憶媒体に位置する。
図1を参照すると、いくつかの実施形態を実施するための例示的なシステムは、コンピュータ110の形態の汎用コンピューティングデバイスを含む。コンピュータ110のコンポーネントは、処理ユニット120と、システムメモリ130と、システムメモリを含めた様々なシステムコンポーネントを処理ユニット120に結合するシステムバス121とを含むことができるが、これらに限定されない。システムバス121は、様々なバスアーキテクチャのいずれかを用いた、メモリバスまたはメモリコントローラ、周辺バス、ローカルバスを含めて、いくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、このようなアーキテクチャは、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびPCI(Peripheral Component Interconnect)バス(メザニンバスとも呼ばれる)を含む。
コンピュータ110は通常、様々なコンピュータ可読媒体を備える。コンピュータ可読媒体は、コンピュータ110によってアクセスできる任意の利用可能な媒体とすることができ、揮発性と不揮発性の媒体、取外し可能と取外し不可能の媒体の両方を含む。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実現された、揮発性と不揮発性、取外し可能と取外し不可能の両方の媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ、または他のメモリ技術、CD‐ROM、ディジタル多用途ディスク(DVD)、または他の光学ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、または他の磁気記憶デバイス、あるいは、所望の情報を記憶するのに使用できコンピュータ110によってアクセスできる他の任意の媒体を含むが、これらに限定されない。通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波や他のトランスポート機構などの被変調データ信号に組み入れるものであり、任意の情報送達媒体を含む。用語「被変調データ信号」は、信号中の情報を符号化するようにして1つまたは複数の特性が設定または変更される信号を意味する。限定ではなく例として、通信媒体は、有線ネットワークや直接有線接続などの有線媒体と、音響、無線周波数、赤外線などの無線媒体および他の無線媒体とを含む。以上のいずれかの組合せもコンピュータ可読媒体の範囲に含まれるべきである。
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。ROM131には通常、起動中などにコンピュータ110内の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS(basic input/output system)133が記憶されている。RAM132は通常、処理ユニット120からすぐにアクセス可能な、かつ/または処理ユニット120が現在作用している、データおよび/またはプログラムモジュールを含む。限定ではなく例として、図1には、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示す。
コンピュータ110は、他の取外し可能/取外し不可能、揮発性/不揮発性コンピュータ記憶媒体を備えることもできる。例に過ぎないが図1には、取外し不可能な不揮発性の磁気媒体に対して読取りまたは書込みを行うハードディスクドライブ141と、取外し可能な不揮発性の磁気ディスク152に対して読取りまたは書込みを行う磁気ディスクドライブ151と、CD ROMや他の光学媒体など、取外し可能な不揮発性の光学ディスク156に対して読取りまたは書込みを行う光学ディスクドライブ155を示す。この例示的な動作環境で使用することのできる他の取外し可能/取外し不可能、揮発性/不揮発性コンピュータ記憶媒体は、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、固体RAM、固体ROMなどを含むが、これらに限定されない。ハードディスクドライブ141は通常、インタフェース140などの取外し不可能メモリインタフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光学ディスクドライブ155は通常、インタフェース150などの取外し可能メモリインタフェースでシステムバス121に接続される。
上に論じ図1に示したドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、および他のデータの記憶域をコンピュータ110に提供する。例えば図1には、ハードディスクドライブ141がオペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を記憶しているのが示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じものとすることもでき、異なるものとすることもできることに留意されたい。ここでは、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147が少なくとも異なるコピーであることを示すために、これらには異なる番号を付けてある。
ユーザは、キーボード162、マイクロホン163、マウスやトラックボールやタッチパッド等のポインティングデバイス161など、入力デバイスを介して、コンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)は、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナなどを含むことができる。これらおよび他の入力デバイスは、システムバスに結合されたユーザ入力インタフェース160を介して処理ユニット120に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)など、他のインタフェースおよびバス構造で接続されてもよい。モニタ191または他のタイプの表示デバイスも、ビデオインタフェース190などのインタフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、スピーカ197やプリンタ196など、他の周辺出力デバイスも備えることができ、これらは出力周辺インタフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータへの論理接続を用いて、ネットワーク化された環境で操作される。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般的なネットワークノードとすることができ、通常は、コンピュータ110に関して上述した要素の多くまたはすべてを備える。図1に示す論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、およびインターネットでよくみられる。
LANネットワーキング環境で使用されるときは、コンピュータ110は、ネットワークインタフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用されるときは、コンピュータ110は通常、インターネットなどのWAN173を介して通信を確立するためのモデム172または他の手段を備える。モデム172は内蔵でも外付けでもよく、ユーザ入力インタフェース160または他の適切な機構を介してシステムバス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関して示したプログラムモジュールまたはその一部をリモートのメモリ記憶デバイスに記憶することができる。限定ではなく例として、図1には、リモートアプリケーションプログラム185がリモートコンピュータ180上にあるのを示す。図示のネットワーク接続は例であり、コンピュータ間で通信リンクを確立する他の手段を使用してもよいことは理解されるであろう。
図2は、一実施形態によるチュートリアルシステム200のより詳細なブロック図である。チュートリアルシステム200はチュートリアルフレームワーク202を含み、チュートリアルフレームワーク202は、複数の異なるチュートリアルアプリケーションのためのチュートリアルコンテンツ204、206にアクセスする。図2にはまた、チュートリアルフレームワーク202が音声認識システム208、音声認識訓練システム210、およびユーザインタフェースコンポーネント212に結合されているのを示す。チュートリアルシステム200は、ユーザ(番号214で示す)にチュートリアルを提供するのに使用されるだけでなく、ユーザから音声データを獲得して、獲得した音声データで音声認識訓練システム210を使用して音声認識システム208を訓練するのにも使用される。
チュートリアルフレームワーク202は、ユーザインタフェースコンポーネント212を介して、ユーザ214に対話式チュートリアル情報230を提供する。対話式チュートリアル情報230は、どのように音声認識システム208を操作するかに関するチュートリアルを、順を追ってユーザに手ほどきする。そうする中で、対話式チュートリアル情報230は、音声データを入力するようユーザに促すことになる。ユーザが音声データを言うと、音声データはマイクロホンなどを介して獲得され、ユーザ入力232としてチュートリアルフレームワーク202に提供される。次いでチュートリアルフレームワーク202は、ユーザ音声データ232を音声認識システム208に提供し、音声認識システム208は、ユーザ音声データ232に対して音声認識を実施する。次いで音声認識システム208は、ユーザ音声データ232の認識(または非認識)を示す音声認識結果234を、チュートリアルフレームワーク202に提供する。
これに応答して、チュートリアルフレームワーク202は、別の1組の対話式チュートリアル情報230を、ユーザインタフェースコンポーネント212を介してユーザ214に提供する。ユーザ音声データ232が音声認識システム208によって正確に認識された場合は、対話式チュートリアル情報230は、音声認識システムがこの入力を受け取ると何が起こるかをユーザに見せる。同様に、ユーザ音声データ232が音声認識システム208によって認識されない場合は、対話式チュートリアル情報230は、音声認識システム中でこのステップで非認識が発生すると何が起こるかをユーザに見せる。これが、現在実行されているチュートリアルアプリケーション中の各ステップについて継続する。
図3は、図2に示したシステム200が一実施形態によりどのように動作するかをよりよく示す流れ図である。システム200の動作を詳細に述べる前に、まず、音声認識システムについて教授するチュートリアルアプリケーションを提供したい開発者が、最初にチュートリアルコンテンツ204や206などのチュートリアルコンテンツを生成し終えていることになることに留意する。この考察では、開発者はアプリケーション1のためのチュートリアルコンテンツ204を生成したと仮定する。
チュートリアルコンテンツは、例示的に、チュートリアルフローコンテンツ216と、1組のスクリーンショットまたは他のユーザインタフェース表示要素218とを含む。チュートリアルフローコンテンツ216は、例示的に、チュートリアルアプリケーションの完全なナビゲーションフロー、ならびに、このナビゲーションフローの各ステップで可能とされるユーザ入力を記述する。一実施形態では、チュートリアルフローコンテンツ216は、アプリケーションのナビゲーション階層を定義するXMLファイルである。図4に、使用できる1つの例示的なナビゲーション階層300を示す。しかし、ナビゲーションは必ずしも階層型である必要はなく、他の階層、さらにはステップの線形セット(階層ではない)ですら使用することができる。
いずれの場合でも、例示的なナビゲーション階層300は、チュートリアルアプリケーションが1つまたは複数のトピック302を含むことを示す。各トピックは、1つまたは複数の異なる章304を有し、ページを有することもできる。各章は、1つまたは複数の異なるページ306を有し、各ページは、0個またはそれ以上の異なるステップ308を有する(0個のステップを有するページの一例は、ステップのない導入ページであろう)。ステップは、ユーザがチュートリアルの所与のページ306の中をナビゲートするためにとるべきステップである。チュートリアルの所与のページ306についてのすべてのステップ308が完了すると、別のページ306に進むオプションがユーザに提供される。所与の章304についてのすべてのページが完了すると、後続の章に進むオプションがユーザに提供される。当然、所与のトピックのすべての章が完了すると、次いでユーザは、チュートリアルの別のトピックに進むことができる。また当然、チュートリアルアプリケーションの開発者の望むように、ユーザは階層の種々のレベルを飛ばすことが可能とされてよいことにも留意する。
チュートリアルフローコンテンツ216の具体的な一例を、付録Aとして本出願に添付する。付録Aは、図4に示すナビゲーション階層300に従ってチュートリアルアプリケーションのフローを完全に定義するXMLファイルである。付録A中のXMLファイルはまた、チュートリアル中のいずれか所与のステップ308でユーザが発することが可能とされる言葉を定義し、ユーザが事前定義済みの言葉を言うのに応答して表示されることになる所与のスクリーンショット218(あるいは他のテキストまたは表示項目)を定義または参照する。いくつかの例示的なスクリーンショットについては、図5〜11に関して後で論じる。
このチュートリアルコンテンツ204が開発者(または他のチュートリアル作者)によって生成されると、チュートリアルコンテンツ204が生成された対象であるチュートリアルアプリケーションを、図2に示したシステム200によって実行することができる。図3に、チュートリアルの実行におけるシステム200の動作の一実施形態を流れ図で示す。
ユーザ214はまず、チュートリアルアプリケーション1を開く。これは図3のブロック320で示されており、様々な異なる方法で行うことができる。例えば、ユーザインタフェースコンポーネント212は、所与のチュートリアルアプリケーションを開くためにユーザによって(ポイントアンドクリックデバイスを使用して、あるいは声で、など)作動させることのできる、ユーザインタフェース要素を表示することができる。
チュートリアルアプリケーションがユーザによって開かれると、チュートリアルフレームワーク202は、対応するチュートリアルコンテンツ204にアクセスし、チュートリアルフローコンテンツ216をナビゲーション階層スキーマに解析する。ナビゲーション階層スキーマの一例は図4に表されており、この具体例は付録Aに示されている。上に論じたように、フローコンテンツがナビゲーション階層スキーマに解析されると、これはチュートリアルのフローを定義するだけでなく、チュートリアルフロー中の各ステップで表示されることになるスクリーンショット218をも参照する。フローコンテンツをナビゲーション階層に解析することは、図3のブロック322で示されている。
次いでチュートリアルフレームワーク202は、ユーザがチュートリアルを開始できるようにするユーザインタフェース要素を、ユーザインタフェース212を介してユーザ214に対して表示する。例えば、チュートリアルフレームワーク202は、ユーザインタフェース212にスタートボタンを表示することができ、このスタートボタンは、ユーザが単に「start」(または別の類似する言葉)を言うだけで、あるいはポイントアンドクリックデバイスを使用するだけで、作動させることができる。当然、チュートリアルアプリケーションの実行を開始する他の方法を使用することもできる。次いでユーザ214は、チュートリアルの実行を開始する。これは、図3のブロック324および326で示されている。
次いでチュートリアルフレームワーク202は、チュートリアルを実行して、ユーザに音声データの入力を対話式に促し、ユーザが入力を促されたコマンドが、チュートリアルが実行されている対象である音声認識システムによって受け取られると何が起こるかを、スクリーンショットでシミュレートする。これは、図3のブロック328で示されている。図3に示す動作の記述を続ける前に、チュートリアルがどのように動作する場合があるかに関するよりよい理解を提供するために、いくつかの例示的なスクリーンショットについて述べる。
図5〜11は、例示的なスクリーンショットである。図5には、例示的な一実施形態でスクリーンショット502がチュートリアル部分504を含むのを示す。チュートリアル部分504は、チュートリアルアプリケーションが書かれた対象である音声認識システムの動作を記述した、文書のチュートリアルを提供する。
図5のスクリーンショット502にはまた、ユーザに対して表示されるナビゲーション階層200(図4に示したもの)の一部も示す。図5に示すスクリーンショットの下部に沿って位置する複数のトピックボタン506〜516は、実行されているチュートリアルアプリケーション中のトピックを識別する。これらのトピックは、「Welcome」、「Basics」、「Dictation」、「Commanding」などを含む。トピックボタン506〜516のうちの1つが選択されると、複数の章ボタンが表示される。
より具体的には、図5は、Welcomeボタン506に対応するWelcomeページを示す。ユーザがWelcomeページ上のチュートリアル情報を読み終えたときは、ユーザは単に、次の画面に進むためにスクリーンショット502上のNextボタン518を作動させればよい。
図6に、図5に示したのと同様のスクリーンショット523を示すが、例外として図6は、各トピックボタン506〜516が、対応する複数の章ボタンを有するのを示している。例えば、図6は、Commandingトピックボタン512がユーザによって作動されたところを示す。次いで、Commandingトピックボタン512に対応する複数の章ボタン520が表示される。例示的な章ボタン520は、「Introduction」、「Say What You See」、「Click What You See」、「Desktop Interaction」、「Show Numbers」、および「Summary」を含む。章ボタン520は、1つまたは複数のページを表示するためにユーザによって作動させることができる。図6では、「Introduction」章ボタン520がユーザによって作動され、簡単なチュートリアルがスクリーンショットのチュートリアル部分504に示されている。
チュートリアル部分504の下には、タスクを達成するためにユーザがとることのできる複数のステップ522がある。ユーザがステップ522をとると、スクリーンショットのデモンストレーション部分524は、これらのステップがとられたときに音声認識プログラム中で何が起こるかをデモンストレーションする。例えば、ユーザが「Start」、「All Programs」、「Accessories」と言うと、スクリーンショットのデモンストレーション部分524は、「Accesories」プログラムが表示されていることを示す表示526を表示する。次いで、ユーザが「WordPad」と言うと、表示は「WordPad」アプリケーションが開かれたことを示すように移行する。
図7に、「WordPad」アプリケーションがすでに開かれている、別の例示的なスクリーンショット530を示す。ユーザは今や、「Show Numbers」章ボタンを選択している。スクリーンショット530のチュートリアル部分504中の情報はこのとき、チュートリアルが書かれた対象であるアプリケーションの「Show Numbers」機能に対応する情報に変更される。ステップ522もまた、「Show Numbers」章に対応するステップに変更されている。この例示的な実施形態では、デモンストレーション部分524の表示532に表示されているアプリケーションの作動可能ボタンまたは機能にはそれぞれ番号が割り当てられており、ユーザは単に番号を言うだけでアプリケーション中のボタンを指示するかまたは作動させることができる。
図8も図7と同様だが、例外として、図8のスクリーンショット550は、「Commanding」トピックに対応する「Click What You See」章ボタンをユーザが選択した場合に対応する。この場合もやはり、スクリーンショット550のチュートリアル部分504は、どのように音声認識システムを使用してユーザインタフェース上の何かを「クリック」するかに関するチュートリアル情報を含む。この章に対応する複数のステップ522もリストされている。ステップ522は、デモンストレーション部分524中の表示552上の何かを「クリック」することの1つまたは複数の例を、順を追ってユーザに手ほどきする。デモンストレーション表示552は、ユーザが音声認識システムを介してステップ522中のコマンドを使用してアプリケーションに本当にコマンドを出していたとすれば何がユーザに実際に見えることになるかを反映するように、更新される。
図9に、「Dictation」トピックボタン510をユーザが選択した場合に対応する、別のスクリーンショット600を示す。「Dictation」トピックボタン510に対して、1組の新しい例示的な章ボタン590が表示される。新しい1組の例示的な章ボタンは、「Introduction」、「Connecting Mistakes」、「Dictating Letters」、「Navigation」、「Pressing Keys」、および「Summary」を含む。図9は、ユーザが「Pressing Keys」章ボタン603を作動させたところを示す。この場合もやはり、スクリーンショットのチュートリアル部分504は、スクリーンショット600のデモンストレーション部分524上のデモンストレーション表示602に示すWordPadアプリケーションに、どのように文字を1度に1つずつ入力することができるかを示すチュートリアル情報を示す。チュートリアル部分504の下には、ユーザが音声を用いて個々の文字をアプリケーションに入力するためにとることのできる複数のステップ522がある。スクリーンショット600のデモンストレーション表示602は、音声認識システムを使用してアプリケーションが制御された場合にそう見えることになるように、各ステップ522がユーザによって実行された後で更新される。
図10にもまた、ユーザがDictationトピックボタン510および「Navigation」章ボタンを選択した場合に対応するスクリーンショット610を示す。スクリーンショット610のチュートリアル部分504は今や、音声ディクテーションシステムを使用してアプリケーションを制御するとどのようにナビゲーションが働くかを記述する情報を含む。また、いくつかの例示的なナビゲーションコマンドをユーザに順を追って手ほどきするステップ522がリストされている。デモンストレーション部分524のデモンストレーション表示614は、ユーザが音声認識システムを介してステップ522中に示されるコマンドを使用して実際にアプリケーションを制御していたとすれば何が表示されることになるかを反映するように、更新される。
図11は、図10に示したものと同様だが、例外として、図11に示すスクリーンショット650は、ユーザが「Dictating Letters」章ボタン652を作動させた場合に対応する。したがって、チュートリアル部分504は、ディクテーションアプリケーション中で新しい行および段落を作成するなど、いくつかのディクテーション機能を、音声認識システムを介してどのように使用するかをユーザに教える情報を含む。ステップ522は、ディクテーションアプリケーション中でどのように文書中に新しい段落を作成するかに関する例を、順を追ってユーザに手ほどきする。スクリーンショット650のデモンストレーション部分524中のデモンストレーション表示654は、ユーザが実際に音声認識システムを介してステップ522中のコマンドを入力していたとしたら何をこのアプリケーション中で見ることになるかを表示するように、更新される。
チュートリアル中で認識されたすべての音声情報は、音声認識システム208をよりよく訓練するために、音声認識訓練システム210に提供される。
チュートリアル中の各ステップ522で、ユーザが単語または句を言うよう要求されたとき、フレームワーク202は、音声データの入力を促すプロンプトに対する事前定義済みの1組の応答のみを受け付けるように構成されることに留意されたい。言い換えれば、ユーザが「start」と言うよう促されている場合、フレームワーク202は、「start」として認識されるユーザからの音声入力のみを受け付けるように構成することができる。ユーザがいずれか他の音声データを入力した場合は、フレームワーク202は、例示的に、音声入力が認識されなかったことを示すスクリーンショットを提供することになる。
チュートリアルフレームワーク202はまた、例示的に、音声入力が認識されなかったときに音声認識システム中で何が起こるかを表示することもできる。これは様々な異なる方法で行うことができる。例えば、チュートリアルフレームワーク202自体を、所与のプロンプトに応答して音声認識システム208から所定の音声認識結果のみを受け付けるように構成することができる。認識結果が、チュートリアルフレームワーク202によって許可される認識結果と合致しない場合は、チュートリアルフレームワーク202は、ユーザインタフェースコンポーネント212を介して、音声が認識されなかったことを示す対話式チュートリアル情報をユーザ214に提供することができる。別法として、音声認識システム208自体を、所定の1組の音声入力のみを認識するように構成することもできる。この場合、音声認識システム208中で所定の規則のみを有効にすることができ、あるいは、事前定義済みの1組の可能な音声入力以外はどんな音声入力も認識しないように音声認識システム208を構成するための、他のステップをとることができる。
いずれの場合でも、チュートリアルプロセス中のいずれか所与のステップで所定の1組の音声入力のみが認識されるようにすることは、いくつかの利点をもたらす。これにより、チュートリアルアプリケーションは、処理中のステップで許可される所与の事前定義済み音声入力のいずれかに応答して次に何が行われなければならないかがわかることになるので、ユーザはチュートリアル中で正しい進路に保たれる。これは、ユーザからのほぼどんな音声入力の認識も許可したいくつかの従来システムとは対照的である。
再び図3の流れ図を参照すると、音声データの入力を促すプロンプトに対する事前定義済みの1組の応答を受け付けることは、ブロック330で示されている。音声認識システム208が、正確で許容できる認識が行われたことを示す認識結果234をチュートリアルフレームワーク202に提供すると、次いでチュートリアルフレームワーク202は、認識結果234(例示的にはユーザ音声データ232の音声表記)と共に、ユーザ音声データ232を音声認識訓練システム210に提供する。次いで音声認識訓練システム210は、ユーザ音声データ232および認識結果234を使用して、ユーザの音声を認識するように音声認識システム208中のモデルをよりよく訓練する。この訓練は、様々な異なる既知の形態のいずれかをとることができ、音声認識システム訓練が行われる特定の方法は本発明の一部をなさない。ユーザ音声データ232および認識結果234を使用して音声認識訓練を実施することは、図3のブロック332で示されている。この訓練の結果、音声認識システム208は、現ユーザの音声をよりよく認識することができる。
スキーマは、付録Aに挙げる例に示す様々な機能を有する。例えば、スキーマを使用して練習ページを作成することができ、この練習ページは、ユーザがすでに学習したタスクをどのように実施するかに関する正確な指示をすぐには提供せずに、そのタスクを実施するようユーザに指示することになる。これによりユーザは、正確にどうするかを教えられることなく、特定の指示を思い出して特定のコマンドを入力しようとすることができる。これは学習プロセスを向上させる。
例として、付録Aに示すように、<page>トークン中で「practice=true」フラグを設定することによって、練習ページを作成することができる。これは以下のように行うことができる。
<page title=”stop listening” practice=”true”>
これにより、「step」トークンの下の<instruction>は、タイムアウト(30秒など)が発生するまで、または音声レコグナイザ208がユーザから誤認識を得る(すなわちユーザが間違ったことを言う)まで、表示されなくなる。
具体的な例として、「page title」が「stop listening」に設定され、「practice flag」が「true」に設定されている場合、表示は、以下のチュートリアル言語を示すことができる。
「チュートリアルの間、学習したばかりのことを時々練習してもらいます。間違えた場合は、前に進めるように補助します。音声認識インタフェースのコンテキストメニューまたは右クリックメニューをどのように表示させるか覚えていますか? では表示させてみて下さい!」
これは、例えばチュートリアルセクション504に表示することができ、次いで、チュートリアルは単に、ユーザが「show speech options」という句を言うかどうか聞きながら待機すればよい。一実施形態では、ユーザが正しい音声コマンドを言うと、次いでデモンストレーション表示部分524は、このコマンドが実際にアプリケーションに与えられたとしたら何がユーザに見えることになるかを表示するように更新される。
しかし、30秒などの所定タイムアウト期間、または他のいずれかの望ましいタイムアウトの後にユーザが音声コマンドを入力しなかった場合、あるいは、音声認識システムによって認識されないであろう不適切なコマンドをユーザが入力した場合は、「show speech optionsと言ってみて下さい」という指示が表示される。
このように、本発明は、チュートリアルプロセスと音声訓練プロセスとを望ましい方法で結合することがわかる。一実施形態では、このシステムは、ユーザが入力を促されたコマンドが音声認識システムによって受け取られると音声認識システムで何が起こるかをユーザに見せるという点で、対話式である。また、音声認識をチュートリアルプロセスにおいてより効率的にするため、かつユーザを制御されたチュートリアル環境に留めるために、チュートリアル中の任意のステップにおける可能な認識を、事前定義済みの1組の認識に制限する。
また、チュートリアルシステム200は容易に拡張可能であることにも留意する。新しい音声コマンドまたは新しい音声機能のために新しいチュートリアルを提供するには、サードパーティは単に、チュートリアルフローコンテンツ216およびスクリーンショット218を作成するだけでよく、これらは容易にチュートリアルシステム200中のフレームワーク202にプラグインすることができる。これはまた、サードパーティが既存の音声コマンドまたは機能のための新しいチュートリアルを作成したい場合、あるいはサードパーティが単に既存のチュートリアルを改変したい場合にも行うことができる。これらすべての場合に、サードパーティは単に、チュートリアルフレームワーク202によって使用されるチュートリアルスキーマに解析することができるように、参照されるスクリーンショット(または他の表示要素)を伴うチュートリアルコンテンツを作成するだけでよい。本明細書に論じた実施形態では、このスキーマは階層型スキーマだが、他のスキーマも同様に容易に使用することができる。
構造上の特徴および/または方法上の動作に特有の言語で本主題を述べたが、添付の特許請求の範囲に定義する本主題は、前述の特定の特徴または動作に必ずしも限定されないことを理解されたい。そうではなく、前述の特定の特徴または動作は、特許請求の範囲を実施する例示的な形態として開示する。
本発明を使用することのできる例示的な環境の図である。 本発明の一実施形態によるチュートリアルシステムのより詳細なブロック図である。 図2に示したチュートリアルシステムの動作の一実施形態を示す流れ図である。 1つの例示的なナビゲーション階層を示す図である。 図2に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。 図2に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。 図2に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。 図2に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。 図2に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。 図2に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。 図2に示したシステムの例示的な一実施形態を示すスクリーンショットの図である。

Claims (15)

  1. 音声認識システム(208)を訓練する方法であって、
    前記音声認識システム(208)を制御するのに使用されるコマンドを言うようユーザ(214)に促すプロンプト(522)を含む複数のチュートリアル表示(230)のうちの1つを表示するステップと、
    前記プロンプト(522)に応答して受け取られた受領音声データ(232)を、認識のために前記音声認識システム(208)に提供して、認識結果(234)を得るステップと、
    前記音声認識結果(234)が、可能なコマンドの事前定義済みサブセットのうちの1つに対応する場合に、前記音声認識結果(234)および前記受領音声データ(232)に基づいて前記音声認識システム(208)を訓練する(332)ステップと、
    前記認識結果(234)に基づいて前記チュートリアル表示(230)のうちの別の1つを表示するステップとを含む方法。
  2. 前記複数のチュートリアル表示(230)のうちの別の1つを表示するステップは、
    前記音声認識システム(208)が前記音声認識結果(234)に対応する前記コマンドを受け取ったときに生成される実際の表示を示すシミュレーション(524)を表示するステップを含む、請求項1に記載の方法。
  3. 前記チュートリアル表示(230)のうちの1つを表示するステップは、
    前記音声認識システム(208)の機能を記述するチュートリアルテキスト(504)を表示するステップを含む、請求項2に記載の方法。
  4. プロンプト(522)を含む前記チュートリアル表示(230)のうちの1つを表示するステップは、
    複数のステップ(522)を表示するステップを含み、各ステップはコマンドを言うよう前記ユーザ(214)に促し、前記複数のステップ(522)は、前記音声認識システム(208)で1つまたは複数のタスクを完了させるために実施される、請求項2に記載の方法。
  5. 前記チュートリアル表示(230)のうちの1つを表示するステップは、
    選択されたアプリケーションのためのチュートリアルコンテンツ(204、206)を参照するステップを含む、請求項4に記載の方法。
  6. 前記チュートリアルコンテンツ(204、206)はナビゲーションフローコンテンツ(216)および対応する表示(218)を含み、前記チュートリアル表示(230)のうちの1つを表示するステップは、
    前記ナビゲーションフローコンテンツ(216)にアクセスするステップであって、前記ナビゲーションフローコンテンツ(216)は事前定義済みのスキーマ(300)に準拠するとともに種々のポイントで対応する表示(218)を参照するステップと、
    前記ナビゲーションフローコンテンツ(216)によって定義されるナビゲーションフローに従うステップと、
    前記ナビゲーションフロー中の種々のポイントで参照される表示(218)を表示するステップとを含む、請求項5に記載の方法。
  7. 現在表示されている表示によってユーザ(214)が入力を促される前記ステップ(522)に対応する前記可能なコマンドの前記事前定義済みサブセットのみを認識するように、前記音声認識システム(208)を構成する(330)ステップをさらに含む、請求項6に記載の方法。
  8. 音声認識訓練およびチュートリアルシステム(200)であって、
    チュートリアルアプリケーション(1、N)のナビゲーションフローを示すナビゲーションフローコンテンツ(216)と、前記ナビゲーションフローコンテンツ(216)によって定義されるナビゲーションフロー中の種々のポイントで参照される対応する表示要素(218)とを含むチュートリアルコンテンツ(204、206)を備え、前記表示要素(218)は、コマンドを言うようユーザ(214)にプロンプトで促し、前記表示要素(218)はさらに、音声認識システム(208)が前記コマンドを受け取るのに応答して生成される表示のシミュレーション(524)を含み、音声認識訓練およびチュートリアルシステム(200)はさらに、
    前記チュートリアルコンテンツ(204、206)にアクセスするとともに前記ナビゲーションフローに従って前記表示要素(218)を表示するように構成されたチュートリアルフレームワーク(202)を備え、前記チュートリアルフレームワーク(202)は、前記プロンプトに応答して提供された音声情報(232)を、認識のために音声認識システム(208)に提供し、認識結果(234)を得て、前記認識結果(234)に基づいて前記音声認識システム(208)を訓練する(332)ように構成された、音声認識訓練およびチュートリアルシステム(200)。
  9. 前記チュートリアルフレームワーク(202)は、前記表示要素(218)が表示された場合に予期されるコマンドのセットのみを認識するように前記音声認識システム(208)を構成した、請求項8に記載の音声認識訓練およびチュートリアルシステム(200)。
  10. 前記チュートリアルフレームワーク(202)は、ユーザ(214)によって選択された選択チュートリアルアプリケーション(1、N)に基づいてチュートリアルコンテンツの複数の異なるセット(204、206)のうちの1つにアクセスするように構成された、請求項8に記載の音声認識訓練およびチュートリアルシステム(200)。
  11. チュートリアルコンテンツの前記複数の異なるセット(204、206)は前記チュートリアルフレームワーク(202)にプラグイン可能である、請求項10に記載の音声認識訓練およびチュートリアルシステム(200)。
  12. 前記ナビゲーションフローコンテンツ(216)は、どのようにチュートリアル情報が構成され、どのように前記チュートリアル情報の中をナビゲーションできるかを示すナビゲーション構成(300)を備える、請求項8に記載の音声認識訓練およびチュートリアルシステム(200)。
  13. 前記フローコンテンツ(216)はナビゲーション階層(300)を備える、請求項12に記載の音声認識訓練およびチュートリアルシステム(200)。
  14. 前記ナビゲーション階層(300)は、階層型に構成されたトピック(302)、章(304)、ページ(306)、およびステップ(308)を備える、請求項13に記載の音声認識訓練およびチュートリアルシステム(200)。
  15. コンピュータ可読データを有するデータ構造を記憶した、コンピュータ可読有形媒体であって、前記データ構造は、
    コンピュータ可読フローデータ(216)を含むフロー部分を備え、前記フローデータは、音声認識システム(208)のためのチュートリアルアプリケーション(1、N)のナビゲーションフローを定義し、事前定義済みのフロースキーマ(300)に準拠し、前記データ構造はさらに、
    コンピュータ可読表示データ(218)を含む表示部分を備え、前記表示データ(218)は、前記フローデータ(216)によって定義される前記ナビゲーションフロー中の種々のポイントで前記フローデータ(216)によって参照される複数の表示を定義し、前記表示データ(218)は、前記音声認識システム(208)中で使用されるコマンドを示す音声データ(232)を入力するようユーザ(214)に促し、前記表示は、前記ユーザ(214)によって入力された前記音声データ(232)を前記音声認識システム(208)が受け取ったときに何が表示されるかを示す、コンピュータ可読有形媒体。
JP2008529248A 2005-08-31 2006-08-29 対話式ユーザチュートリアルへの、音声エンジン訓練の組込み Withdrawn JP2009506386A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US71287305P 2005-08-31 2005-08-31
US11/265,726 US20070055520A1 (en) 2005-08-31 2005-11-02 Incorporation of speech engine training into interactive user tutorial
PCT/US2006/033928 WO2007027817A1 (en) 2005-08-31 2006-08-29 Incorporation of speech engine training into interactive user tutorial

Publications (1)

Publication Number Publication Date
JP2009506386A true JP2009506386A (ja) 2009-02-12

Family

ID=37809198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008529248A Withdrawn JP2009506386A (ja) 2005-08-31 2006-08-29 対話式ユーザチュートリアルへの、音声エンジン訓練の組込み

Country Status (9)

Country Link
US (1) US20070055520A1 (ja)
EP (1) EP1920433A4 (ja)
JP (1) JP2009506386A (ja)
KR (1) KR20080042104A (ja)
CN (1) CN101253548B (ja)
BR (1) BRPI0615324A2 (ja)
MX (1) MX2008002500A (ja)
RU (1) RU2008107759A (ja)
WO (1) WO2007027817A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7495220B2 (ja) 2019-11-15 2024-06-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、音声認識方法、および、音声認識プログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008028478B4 (de) 2008-06-13 2019-05-29 Volkswagen Ag Verfahren zur Einführung eines Nutzers in die Benutzung eines Sprachbediensystems und Sprachbediensystem
JP2011209787A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN101923854B (zh) * 2010-08-31 2012-03-28 中国科学院计算技术研究所 一种交互式语音识别系统和方法
JP5842452B2 (ja) * 2011-08-10 2016-01-13 カシオ計算機株式会社 音声学習装置及び音声学習プログラム
CN103116447B (zh) * 2011-11-16 2016-09-07 上海闻通信息科技有限公司 一种语音识别页面装置及方法
KR102022318B1 (ko) * 2012-01-11 2019-09-18 삼성전자 주식회사 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
RU2530268C2 (ru) 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
US10262555B2 (en) 2015-10-09 2019-04-16 Microsoft Technology Licensing, Llc Facilitating awareness and conversation throughput in an augmentative and alternative communication system
US10148808B2 (en) 2015-10-09 2018-12-04 Microsoft Technology Licensing, Llc Directed personal communication for speech generating devices
US9679497B2 (en) * 2015-10-09 2017-06-13 Microsoft Technology Licensing, Llc Proxies for speech generating devices
TWI651714B (zh) * 2017-12-22 2019-02-21 隆宸星股份有限公司 語音選項選擇系統與方法以及使用其之智慧型機器人
CA3097897A1 (en) 2018-04-30 2019-11-07 Breakthrough Performancetech, Llc Interactive application adapted for use by multiple users via a distributed computer-based system
CN109976702A (zh) * 2019-03-20 2019-07-05 青岛海信电器股份有限公司 一种语音识别方法、装置及终端
CN114679614B (zh) * 2020-12-25 2024-02-06 深圳Tcl新技术有限公司 一种语音查询方法、智能电视及计算机可读存储介质

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4468204A (en) * 1982-02-25 1984-08-28 Scott Instruments Corporation Process of human-machine interactive educational instruction using voice response verification
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
US5388993A (en) * 1992-07-15 1995-02-14 International Business Machines Corporation Method of and system for demonstrating a computer program
US6073097A (en) * 1992-11-13 2000-06-06 Dragon Systems, Inc. Speech recognition system which selects one of a plurality of vocabulary models
JPH0792993A (ja) * 1993-09-20 1995-04-07 Fujitsu Ltd 音声認識装置
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
CN1216137A (zh) * 1996-12-24 1999-05-05 皇家菲利浦电子有限公司 一种训练语音识别系统的方法和实践该方法的装置特别是手提电话设备
KR100265142B1 (ko) * 1997-02-25 2000-09-01 포만 제프리 엘 관련된웹페이지와동시에도움말윈도우를디스플레이하기위한방법및장치
EP1021804A4 (en) * 1997-05-06 2002-03-20 Speechworks Int Inc SYSTEM AND METHOD FOR DEVELOPING INTERACTIVE LANGUAGE APPLICATIONS
US6067084A (en) * 1997-10-29 2000-05-23 International Business Machines Corporation Configuring microphones in an audio interface
US6192337B1 (en) * 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US7206747B1 (en) * 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6167376A (en) * 1998-12-21 2000-12-26 Ditzik; Richard Joseph Computer system with integrated telephony, handwriting and speech recognition functions
US6275805B1 (en) * 1999-02-25 2001-08-14 International Business Machines Corp. Maintaining input device identity
GB2348035B (en) * 1999-03-19 2003-05-28 Ibm Speech recognition system
US6224383B1 (en) * 1999-03-25 2001-05-01 Planetlingo, Inc. Method and system for computer assisted natural language instruction with distracters
US6535615B1 (en) * 1999-03-31 2003-03-18 Acuson Corp. Method and system for facilitating interaction between image and non-image sections displayed on an image review station such as an ultrasound image review station
KR20000074617A (ko) * 1999-05-24 2000-12-15 구자홍 음성인식기기의 자동 훈련방법
US6704709B1 (en) * 1999-07-28 2004-03-09 Custom Speech Usa, Inc. System and method for improving the accuracy of a speech recognition program
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
US6665640B1 (en) * 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
JP2002072840A (ja) * 2000-08-29 2002-03-12 Akihiro Kawamura 基礎能力訓練管理システム及び方法
US6556971B1 (en) * 2000-09-01 2003-04-29 Snap-On Technologies, Inc. Computer-implemented speech recognition system training
CA2317825C (en) * 2000-09-07 2006-02-07 Ibm Canada Limited-Ibm Canada Limitee Interactive tutorial
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
US20030058267A1 (en) * 2000-11-13 2003-03-27 Peter Warren Multi-level selectable help items
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US7324947B2 (en) * 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
US20050149331A1 (en) * 2002-06-14 2005-07-07 Ehrilich Steven C. Method and system for developing speech applications
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
CN1216363C (zh) * 2002-12-27 2005-08-24 联想(北京)有限公司 一种状态转换的实现方法
US7461352B2 (en) * 2003-02-10 2008-12-02 Ronald Mark Katsuranis Voice activated system and methods to enable a computer user working in a first graphical application window to display and control on-screen help, internet, and other information content in a second graphical application window
US8033831B2 (en) * 2004-11-22 2011-10-11 Bravobrava L.L.C. System and method for programmatically evaluating and aiding a person learning a new language
US20060241945A1 (en) * 2005-04-25 2006-10-26 Morales Anthony E Control of settings using a command rotor
DE102005030963B4 (de) * 2005-06-30 2007-07-19 Daimlerchrysler Ag Verfahren und Vorrichtung zur Bestätigung und/oder Korrektur einer einem Spracherkennungssystems zugeführten Spracheingabe

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7495220B2 (ja) 2019-11-15 2024-06-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、音声認識方法、および、音声認識プログラム

Also Published As

Publication number Publication date
RU2008107759A (ru) 2009-09-10
EP1920433A1 (en) 2008-05-14
CN101253548A (zh) 2008-08-27
CN101253548B (zh) 2012-01-04
US20070055520A1 (en) 2007-03-08
EP1920433A4 (en) 2011-05-04
MX2008002500A (es) 2008-04-10
WO2007027817A1 (en) 2007-03-08
BRPI0615324A2 (pt) 2011-05-17
KR20080042104A (ko) 2008-05-14

Similar Documents

Publication Publication Date Title
JP2009506386A (ja) 対話式ユーザチュートリアルへの、音声エンジン訓練の組込み
KR101143034B1 (ko) 음성 명령을 명확하게 해주는 중앙집중식 방법 및 시스템
JP7204690B2 (ja) 作成者が提供したコンテンツに基づいて対話型ダイアログアプリケーションを調整すること
KR101120756B1 (ko) 사용자 인터페이스 상에서의 사용자 액션을 설명하는텍스트를 자동으로 생성하는 시스템, 방법 및 그 컴퓨터실행가능 명령어를 포함하는 컴퓨터 판독가능 매체
US20180158365A1 (en) Device for language teaching with time dependent data memory
US8433576B2 (en) Automatic reading tutoring with parallel polarized language modeling
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
McTear et al. Voice application development for Android
KR20140094919A (ko) 문장 형식별 구성요소 배열 및 확장에 따른 언어 교육 시스템 및 방법과 기록 매체: 팩토리얼 언어 교육법
US20220036759A1 (en) Augmentative and alternative communication (aac) reading system
RU2344492C2 (ru) Динамическая поддержка произношения для обучения распознаванию японской и китайской речи
Kruijff-Korbayová et al. An experiment setup for collecting data for adaptive output planning in a multimodal dialogue system
Salvador et al. Requirement engineering contributions to voice user interface
KR20210086939A (ko) 모국어 문자기반 원 사이클 온라인 외국어 학습 시스템 및 그 방법
Moemeka et al. Leveraging cortana and speech
Rupitz et al. Development of an Amazon Alexa App for a University Online Search
KR20230057288A (ko) 액티브 게임 기반의 영어 독서 학습 방법 및 이를 실행하는 프로그램이 저장된 컴퓨터 판독 가능한 기록매체
Kehoe et al. Improvements to a speech-enabled user assistance system based on pilot study results
Woo Building Speech Interactivity
Turunen et al. Speech application design and development
Wilson Itech: an interactive technical assistant
Kumar Enabling non-speech experts to develop usable speech-user interfaces
Blaylock et al. Final Report on Multimodal Experiments-Part II: Experiments for data collection and technology evaluation
Benahmed et al. Natural Human-System Interaction Using Intelligent Conversational Agents
Hakulinen Software tutoring in speech user interfaces

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20091110