JP2015501441A

JP2015501441A - コンテキスト切り替えのための音声認識

Info

Publication number: JP2015501441A
Application number: JP2014535793A
Authority: JP
Inventors: ジェイ．モンソン，マシュー; ピー．ギーズ，ウィリアム; ジェイ．グリーナウォルト，ダニエル
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2011-10-10
Filing date: 2012-10-10
Publication date: 2015-01-15
Also published as: TW201320057A; CN103019535A; US20130090930A1; EP2766791A1; EP2766791B1; WO2013055709A1; CN103019535B; US9256396B2; KR20140082790A; TWI601128B; EP2766791A4; KR102078889B1

Abstract

様々な実施形態が、コンテキスト切り替えのための音声認識を実装する技法を提供する。少なくとも一部の実施形態において、これらの技法は、ユーザが、音声コマンドにより、アプリケーションの異なるコンテキスト及び／又はユーザ・インタフェースの間を切り替えることを可能にすることができる。少なくとも一部の実施形態において、音声コマンドによってナビゲーションされ得るアプリケーションに利用可能なコンテキストを列挙するコンテキスト・メニューが提供される。諸実装において、コンテキスト・メニューに提示されるコンテキストは、多様なコンテキスト・フィルタリング基準に基づいてフィルタリングされるコンテキストのより大きなセットのサブセットを含む。ユーザは、コンテキスト・メニューに提示されたコンテキストのうちの１つを発話して、コンテキストのうちの１つに関連するユーザ・インタフェースへのナビゲーションを引き起こすことができる。

Description

本発明は、コンテキスト切り替えのための音声認識に関する。

多くのコンピュータ・アプリケーションは、ユーザがアプリケーションとインタラクションすることができる多様な異なるコンテキスト及びグラフィカル・ユーザ・インタフェースを提供する。例えばビデオ・ゲームは、典型的に、ユーザがビデオ・ゲームによって提供される様々な機能にアクセスすることを可能にする異なるユーザ・インタフェースを含む。一部のユーザ・インタフェースは、ゲームをプレイするためのゲームの舞台、ゲームをプレイするために利用可能な乗り物等のゲームの特定の部分をユーザがカスタマイズすることを可能にする可能性がある。他のユーザ・インタフェースは、シングルプレイヤゲーム・プレイ、マルチプレイヤゲーム・プレイ等の様々なタイプのゲーム・プレイにユーザが参加できるようにする可能性がある。これらの異なるユーザ・インタフェースはより面白く多様なゲーム体験を提供し得るが、様々なユーザ・インタフェースの間をナビゲーションする現在の手法は煩雑である可能性がある。

この「発明の概要」の記載は、「発明を実施するための形態」において以下でさらに説明される概念の選択を、簡素化された形態で導入するために提供される。この「発明の概要」は、特許請求される主題の重要な特徴又は必須の特徴を特定するように意図されておらず、特許請求される主題の範囲を決定する助けとして使用されるようにも意図されていない。

様々な実施形態が、コンテキスト切り替えのための音声認識を実装する技法を提供する。少なくとも一部の実施形態において、それらの技法は、音声コマンドによって、アプリケーションの異なるコンテキスト及び／又はユーザ・インタフェースの間の切り替えをユーザが行うことを可能にすることができる。例えばゲーム・アプリケーションは、異なるインタラクションのコンテキスト及び機能を提供する多様な異なるユーザ・インタフェースを含む可能性がある。一部のユーザ・インタフェースがゲーム・プレイ機能を提供する可能性がある一方、他のユーザ・インタフェースはゲーム・カスタマイズ機能を提供する可能性がある。本明細書において検討される技法は、音声コマンドを発することによって様々なユーザ・インタフェースの間のナビゲーションをユーザが行うことを可能にすることができる。

少なくとも一部の実施形態においては、音声コマンドによってナビゲーションされ得るアプリケーションに利用可能なコンテキストを列挙するコンテキスト・メニューが提供される。例えばユーザは、アプリケーションの特定のコンテキストに関するユーザ・インタフェースが表示されている間に、トリガ・ワードを発話することができる。トリガ・ワードの認識により、コンテキスト・メニューがユーザ・インタフェースの一部として表示されることになる可能性がある。コンテキスト・メニューは、音声コマンドによってナビゲーションされ得る他のコンテキストを含む可能性がある。諸実装において、コンテキスト・メニューに提示される他のコンテキストは、多様なコンテキスト・フィルタリング基準に基づいてフィルタリングされるコンテキストのより大きなセットのサブセットを含む。ユーザは、コンテキスト・メニューに提示されたコンテキストのうちの１つを発話して、異なるコンテキストに関連するユーザ・インタフェースへのナビゲーションを引き起こすことができる。

以下の詳細な説明は、添付の図面を参照して記載される。図面において、参照番号の最も左の（１つ又は複数の）数字は、参照番号が最初に現れる図面を特定する。説明及び図面において異なる事例で同じ参照番号を使用することは、同様の又は同一のものを示す可能性がある。

１つ又は複数の実施形態による、本明細書において検討される技法を用いるように動作可能な例示的な動作環境を示す図である。１つ又は複数の実施形態による例示的なコンテキスト切り替えのシナリオを示す図である。１つ又は複数の実施形態による例示的なコンテキスト切り替えのシナリオを示す図である。１つ又は複数の実施形態による方法のステップを示すフロー図である。１つ又は複数の実施形態による方法のステップを示すフロー図である。１つ又は複数の実施形態による、図１及び７を参照して説明されるコンピューティング・デバイスを含む例示的なシステムを示す図である。本明細書において説明される様々な実施形態を実装するのに利用され得る例示的なコンピューティング・デバイスを示す図である。

＜概要＞
様々な実施形態が、コンテキスト切り替えのための音声認識を実装する技法を提供する。少なくとも一部の実施形態において、それらの技法は、音声コマンドによって、ユーザがアプリケーションの異なるコンテキスト及び／又はユーザ・インタフェースの間の切り替え行うことを可能にすることができる。例えばゲーム・アプリケーションは、異なるインタラクションのコンテキスト及び機能を提供する多様な異なるユーザ・インタフェースを含む可能性がある。一部のユーザ・インタフェースがゲーム・プレイ機能を提供する可能性がある一方、その他のユーザ・インタフェースはゲーム・カスタマイズ機能を提供する可能性がある。本明細書において検討される技法は、音声コマンドを発することによって様々なユーザ・インタフェースの間のナビゲーションをユーザが行うことを可能にすることができる。

少なくとも一部の実施形態においては、音声コマンドによってナビゲーションされ得るアプリケーションに利用可能なコンテキストを列挙するコンテキスト・メニューが提供される。例えばユーザは、アプリケーションの特定のコンテキストに関するユーザ・インタフェースが表示されている間にトリガ・ワードを発話することができる。トリガ・ワードの認識により、コンテキスト・メニューがユーザ・インタフェースの一部として表示されることになる可能性がある。コンテキスト・メニューは、音声コマンドによってナビゲーションされ得る他のコンテキストを含む可能性がある。諸実装において、コンテキスト・メニューに提示される他のコンテキストは、多様なコンテキスト・フィルタリング基準に基づいてフィルタリングされるコンテキストのより大きなセットのサブセットを含む。ユーザは、コンテキスト・メニューに提示されたコンテキストのうちの１つを発話して、異なるコンテキストに関連するユーザ・インタフェースへのナビゲーションを引き起こすことができる。

以下の検討においては、「動作環境」というタイトルのセクションを設けて、１つ又は複数の実施形態を使用することができる環境を説明する。これに続いて、「例示的なコンテキスト切り替えのシナリオ」というタイトルのセクションにおいて、１つ又は複数の実施形態による例示的なコンテキスト切り替えのシナリオを説明する。次に、「例示的な方法」というタイトルのセクションにおいて、１つ又は複数の実施形態による例示的な方法を説明する。最後に、「例示的なシステム及びデバイス」というタイトルのセクションにおいて、１つ又は複数の実施形態を実装するのに利用され得る例示的なシステム及び例示的なデバイスを説明する。

＜動作環境＞
図１は、１つ又は複数の実施形態による動作環境を全体的に１００で示す。動作環境１００は、様々な手法で構成され得るコンピューティング・デバイス１０２を含む。例えばコンピューティング・デバイス１０２を、限定ではなく例として、ゲーム・コンソール、デスクトップコンピュータ、ポータブルコンピュータ、携帯情報端末（ＰＤＡ）のようなハンドヘルドコンピュータ、セル電話等の任意の好適なコンピューティング・デバイスとして具現化することができる。コンピューティング・デバイス１０２の１つの例示的な構成は、図７に示され、下記で説明される。

コンピューティング・デバイス１０２の一部として、１つ又は複数のアプリケーション１０４が含まれる。１つ又は複数のアプリケーション１０４は、多種多様なタスクがコンピューティング・デバイス１０２によって実行されることを可能にする機能を表す。例えばアプリケーション１０４をコンピューティング・デバイス１０２によって実行して、ビデオ・ゲーム、文書処理、電子メール、表計算、メディア・コンテンツの消費等のような機能を提供することができる。

コンピューティング・デバイス１０２の一部として更に入力／出力モジュール１０６が含まれる。入力／出力モジュール１０は、情報を送受信するための機能を表す。例えば入力／出力モジュール１０６は、キーボード、マウス、タッチパッド、ゲーム・コントローラ、光学式スキャナ等の入力デバイスによって生成された入力を受信するように構成される可能性がある。入力／出力モジュール１０６はまた、音声認識、ジェスチャに基づく入力、物体のスキャン等のような非接触式のメカニズムを介して受信される入力を受信及び／又は解釈するようにも構成される可能性がある。そのような実施形態に加えて、コンピューティング・デバイス１０２は、人のジェスチャの視覚的認識、物体のスキャン、音声入力、色入力等を介するような多様な非接触式の入力を受信するように構成されるナチュラル・ユーザ・インタフェース（ＮＵＩ）デバイス１０８を含む。

入力／出力モジュール１０６の一部として音声認識モジュール１１０が含まれる。音声認識モジュール１１０は、（例えばＮＵＩデバイス１０８からの）音声入力を認識し、音声入力を、タスクを実行する他のエンティティによって使用可能な形式に変換する機能を表す。

本明細書において検討される技法に加えて、アプリケーション１０４は、１つ又は複数のコンテキスト・モジュール１１２を含む。１つ又は複数のコンテキスト・モジュール１１２は、アプリケーションが、該アプリケーションに関連する様々なコンテキスト及び／又はユーザ・インタフェースの間を切り替えることができるようにする機能を表す。少なくとも一部の実施形態において、コンテキスト・モジュール１１２は、本明細書において検討される技法を実装するため、入力／出力モジュール１０６及び／又は音声認識モジュール１１０から入力を受信するように構成される。

動作環境１００は、コンピューティング・デバイス１０２に結合されるディスプレイ・デバイス１１４を更に含む。少なくとも一部の実施形態において、ディスプレイ・デバイス１１４は、アプリケーション１０４によって生成され、入力／出力モジュール１０６によってディスプレイ・デバイス１１４に提供されるユーザ・インタフェースのような、コンピューティング・デバイス１０２からの出力を受信して表示するように構成される。諸実装において、入力／出力モジュール１０６は、ＮＵＩデバイス１０８から入力（例えば音声入力）を受信することができ、この入力を利用して、ユーザがコンテキスト・モジュール１１２とインタラクションしてアプリケーション１０４によって提供される様々なコンテキスト及び／又はユーザ・インタフェースの間をナビゲーションすることを可能にすることができる。動作環境１００の更なる実装は以下で検討される。

概して、本明細書において説明される機能の任意のものを、ソフトウェア、ファームウェア、ハードウェア（例えば固定の論理回路）又はこれらの実装の組合せを使用して実装することができる。本明細書で使用されるとき、用語「モジュール」、「機能」及び「論理」は、概して、ソフトウェア、ファームウェア、ハードウェア又はこれらの組み合わせを表す。ソフトウェアによる実装の場合、モジュール、機能又は論理は、プロセッサ（例えば１つ又は複数のＣＰＵ）において実行されると、指定されたタスクを実行するプログラム・コードを表す。プログラム・コードを、１つ又は複数のコンピュータ読取可能メモリデバイスに記憶することができる。以下で説明される技法の特徴は、プラットフォーム独立であり、これは、それらの技法が、様々なプロセッサを有する様々な市販のコンピューティング・プラットフォームで実装され得ることを意味する。

例えばコンピューティング・デバイス１０２は、コンピューティング・デバイス１０２のハードウェアに、例えばプロセッサ、機能ブロック等に動作を実行させるエンティティ（例えばソフトウェア）も含むことがある。例えばコンピューティング・デバイス１０２はコンピュータ読取可能媒体を含むことがあり、コンピュータ読取可能媒体は、コンピューティング・デバイス、及びより具体的にはコンピューティング・デバイス１０２のハードウェアに動作を実行させる命令を保持するように構成され得る。したがって、命令は、動作を実行するようにハードウェアを構成するよう機能し、この結果として、機能を実行するようにハードウェアを転換する。命令は、多様な異なる構成を通じてコンピュータ読取可能媒体によってコンピューティング・デバイス１０２に提供され得る。

コンピュータ読取可能媒体の１つのそのような構成は、信号を伝送する媒体であり、したがって、ネットワークを介するなどして命令を（例えば搬送波として）コンピューティング・デバイスのハードウェアに送信するように構成される。コンピュータ読取可能媒体は、コンピュータ読取可能記憶媒体として構成されることもあり、したがって、信号を伝送する媒体ではない。コンピュータ読取可能記憶媒体の例は、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、光ディスク、フラッシュ・メモリ、ハード・ディスク・メモリ、並びに命令及び他のデータを記憶するのに磁気式、光学式及び他の技法を使用し得る他のメモリデバイスを含む。

＜例示的なコンテキスト切り替えのシナリオ＞
このセクションは、本明細書において検討される技法によって可能にされ得る例示的なコンテキスト切り替えのシナリオについて検討する。少なくとも一部の実施形態において、例示的なコンテキスト切り替えのシナリオは、上で検討された動作環境１００及び／又は以下で検討される例示的なシステム６００の態様によって実装され得る。したがって、例示的なコンテキスト切り替えのシナリオの特定の態様は、動作環境１００及び／又は例示的なシステム６００の特徴を参照して検討される。これは、例示のみを目的としており、例示的なコンテキスト切り替えのシナリオの態様を、特許請求される実施形態の趣旨及び範囲から逸脱することなく多様な異なる動作環境及びシステムで実装することができる。

図２は、例示的なコンテキスト切り替えのシナリオを全体的に２００で示す。コンテキスト切り替えのシナリオ２００の上部では、ディスプレイ・デバイス１１４は、ゲーム・アプリケーションに関連するカスタマイズ・インタフェース２０２を表示する。諸実装において、カスタマイズ・インタフェース２０２は、ゲームの乗り物の部品を取り換えること、乗り物の色を変えること等により、ゲーム・アプリケーションの様々な態様をユーザがカスタマイズすることを可能にする。したがって、カスタマイズ・インタフェース２０２は、ゲーム・アプリケーションに関連する様々なタスクが実行されることを可能にする機能の特定のセットに関連付けられる。

コンテキスト切り替えのシナリオの上部にさらに図示されているのは、ＮＵＩデバイス１０８に対する音声入力２０４である。音声入力２０４は、ユーザによって発話され、ＮＵＩデバイス１０８の１つ又は複数の音声感知手段によって感知され得る言葉及び／又は他の発声を表す。音声入力２０４の一部として含まれるのはトリガ・ワード２０６であり、トリガ・ワード２０６は、発話されると、本明細書において検討される音声認識機能をアクティブ化することができる言葉を表す。

コンテキスト切り替えのシナリオ２００の下部に続くと、音声入力２０４（例えばトリガ・ワード２０６）の認識は、コンテキスト・メニュー２０８がカスタマイズ・インタフェース２０２に提示されることを引き起こす。コンテキスト・メニュー２０８は、ゲーム・アプリケーションに関連する他のコンテキストにナビゲーションするのに選択され得るコンテキスト・オプションを含む。例えばコンテキスト・オプションが発話されると、特定のコンテキスト・オプションを選択し、そしてこの特定のコンテキスト・オプションに関連するグラフィカル・ユーザ・インタフェースへのナビゲーションを引き起こすことができる。コンテキスト・メニュー２０８に提示されるコンテキスト・オプションは、１つ又は複数のフィルタリング基準に基づいてフィルタリングされる、フィルタリング済みのコンテキスト・オプションを含む可能性がある。コンテキスト・オプションをフィルタリングする例示的な手法が以下で検討される。

図３は、例示的なコンテキスト切り替えのシナリオを全体的に３００で示す。諸実装において、コンテキスト切り替えのシナリオ３００は、上で検討されたコンテキスト切り替えのシナリオ２００の続きを表す。コンテキスト切り替えのシナリオ３００の上部には、カスタマイズ・インタフェース２０２が、コンテキスト・メニュー２０８とともに表示されている。コンテキスト・ワード３０４を含む音声入力３０２が、ＮＵＩデバイス１０８で受信される。この例において、コンテキスト・ワード３０４は、コンテキスト・メニュー２０８からのコンテキスト・オプションのうちの１つの選択を表す。

コンテキスト切り替えのシナリオ３００の下部に続くと、音声入力３０２の認識は、レース・インタフェース３０６がディスプレイ・デバイス１１４に表示されることを引き起こす。レース・インタフェース３０６は、ユーザが、ゲーム・アプリケーションに関連する１つ又は複数のレースに参加することを可能にする。したがって、レース・インタフェース３０６を、ゲーム・プレイに関連するアクションが実行されることを可能にする機能の特定のセットに関連付けられる可能性がある。諸実装において、レース・インタフェース３０６によって示される機能は、上で検討されたカスタマイズ・インタフェース２０２によって表される機能とは異なる。したがって、本明細書において検討される技術は、音声入力による機能の異なる組の間の切り替えを可能にすることができる。

コンテキスト切り替えのシナリオを、提示されているコンテキスト・メニューに関連して上で検討したが、少なくとも一部の実施形態は、コンテキスト・メニューの提示を必要とせずにコンテキスト切り替えを可能にすることができる。例えばユーザが、トリガ・ワードを発話し、続いてコンテキスト・ワードを発話することができ、これにより、コンテキスト・メニューの提示に依存せずにコンテキスト間の切り替えを引き起こすことができる。したがって、コンテキスト・ワードは、特定のコンテキスト、ユーザ・インタフェース、及び／又は機能の組を呼び出すために発話され得る言葉を表す可能性がある。

例示的なコンテキスト切り替えのシナリオを説明したので、次に、１つ又は複数の実施形態による例示的な方法の議論を検討する。

＜例示的な方法＞
以下で検討されるのは、本明細書において検討される技法を実行するように実施され得るいくつかの方法である。方法の態様は、ハードウェア、ファームウェア又はソフトウェア、あるいはこれらの組合せで実装され得る。方法は、１つ又は複数のデバイスによって実行される動作を指定するブロックのセットとして示されるが、それぞれのブロックによる動作を実行するために示された順序に必ずしも限定されない。さらに、特定の方法に関して示される動作を、１つ又は複数の実装に従って、異なる方法の動作と組み合わされてもよく、及び／又は交換されてもよい。方法の態様を、環境１００を参照して上で検討され、システム６００を参照して以下で検討される様々なエンティティの間のインタラクションにより実装することができる。

図４は、１つ又は複数の実施形態による方法のステップを説明するフロー図である。ステップ４００において、第１のコンテキストに関連するグラフィカル・ユーザ・インタフェースを表示する。例えば機能の特定のセットに関連するゲーム・グラフィカル・ユーザ・インタフェースを表示することができる。ステップ４０２において、異なるコンテキストへの潜在的なナビゲーションを示す発話されたトリガ・ワードを認識する。潜在的なナビゲーションを示す多種多様な異なるトリガ・ワードが実装され得る。

ステップ４０４において、ナビゲーションされる、１つ又は複数の異なるコンテキストを含むコンテキスト・メニューを提示する。この１つ又は複数の異なるコンテキストを、コンテキストのセットを様々な異なるフィルタリング基準に基づいてフィルタリングすることによって決定することができる。そのようなフィルタリング基準の例は下記で検討される。諸実装において、コンテキスト・メニューを、第１のコンテキストに関連するグラフィカル・ユーザ・インタフェースの一部として表示することができる。

ステップ４０６において、コンテキスト・ワードの音声入力が、トリガ・ワードの認識の後の特定の時間間隔以内に認識されるかどうかを判定する。例えば発話されたトリガ・ワードが検出された後に、及び／又はコンテキスト・メニューが提示された後に、タイマーが経過し始める可能性がある。コンテキスト・ワードの音声入力が特定の時間間隔以内に認識されない場合（「いいえ」）、プロセスはステップ４００に戻る。例えばコンテキスト・メニューを、表示から除去することができ、第１のコンテキストに関連するグラフィカル・ユーザ・インタフェースに、フォーカスを与えることができる。

コンテキスト・ワードの音声入力が特定の時間間隔以内に受信される場合（「はい」）、ステップ４０８において、第２のコンテキストに関連するグラフィカル・ユーザ・インタフェースにナビゲーションする。第２のコンテキストに関連するグラフィカル・ユーザ・インタフェースを、第１のコンテキストに関連するユーザ・インタフェースとは異なる機能の組に関連付けることができる。諸実装において、第２のコンテキストに関連するグラフィカル・ユーザ・インタフェースを、ユーザからの追加の入力とは無関係に、音声コマンド（例えばトリガ・ワード及び／又はコンテキスト・ワード）に応答してナビゲーションし、表示することができる。

本明細書において、諸実装を、トリガ・ワードとコンテキスト・ワードとの組み合わせに関連して検討しているが、これは限定的であるようには意図されていない。例えば一部の実装は、単一のワード及び／又は句の音声認識を用いて、第１のコンテキストに関連するユーザ・インタフェースから第２のコンテキストに関連するユーザ・インタフェースにナビゲーションすることができる。

図５は、１つ又は複数の実施形態による方法のステップを示すフロー図である。諸実装において、本方法は、上で検討されたステップ４０４のより詳細な実装を表すことができる。少なくとも一部の実施形態において、本方法を、少なくとも部分的に、コンテキスト・モジュール１１２のうちの１つ又は複数によって実装することができる。

ステップ５００において、アプリケーションに関するコンテキスト・オプションのセットをフィルタリングする。例えばコンテキスト・オプションのセットを、アプリケーションの属性、アプリケーションが実行されているデバイス又はデバイスのユーザなどの、１つ又は複数のコンテキスト固有の基準に基づいてフィルタリングすることができる。諸実装において、コンテキスト・オプションの異なるセットが、異なるバージョンのアプリケーションに利用可能である可能性がある。例えばプレミアム・バージョンのアプリケーションは、標準バージョンのアプリケーションよりも多くのコンテキスト・オプションを有する可能性がある。例えばプレミアム・バージョンは、標準バージョンのアプリケーションと比べてより多くのゲーム・プレイの種類、より多くのカスタマイズ・オプション、より多くのマルチプレイヤ・オプション等にアクセスすることができる可能性がある。

さらに、アプリケーションのステータスも、コンテキスト・オプションをフィルタリングするのに使用することができる。例えばゲーム・アプリケーションがセーブされたゲームを有していない場合、セーブされたゲームに関連するコンテキスト・オプション（例えば以前のゲームのリプレイを見ること）が利用可能でないことがある。

デバイスの属性も、利用可能なコンテキスト・オプションに影響を与える可能性がある。例えばデバイスがネットワーク（例えばインターネット）に接続されていないか、又はデバイスのネットワーク接続が特定の閾値の帯域幅を下回る場合、ある特定のネットワーク関連のコンテキスト・オプションが利用可能でないことがある。そのようなネットワーク関連のコンテキスト・オプションは、マルチプレイヤのネットワーク・ゲーム・プレイ、ネットワーク・リソースから利用可能なコンテンツ（例えば乗り物、ゲームのキャラクター、舞台等）、ネットワーク・リソースを用いるメッセージング・サービス等を含む可能性がある。

さらに、デバイスの特定の能力も、利用可能なコンテキスト・オプションに影響を与える可能性がある。例え、閾値のデータ及び／又はグラフィックスの処理能力を必要とする特定のゲーム・プレイのオプションは、その閾値の処理能力を満たさないデバイスでは利用可能でないことがある。

ユーザの属性も、利用可能なコンテキスト・オプションに影響を与える可能性がある。例えばアプリケーションは、異なるリソース及び／又は機能にアクセスするためにユーザが加入することができる異なるアカウント会員レベルに関連付けられる可能性がある。プレミアム会員レベルは、延長されたマルチプレイヤ・ゲームの時間、より多くの舞台オプション、より多くの乗り物オプション、より多くのゲーム・プレイのキャラクタ・オプションなど、標準の会員レベルと比べると、拡大されたアクセスの権限をユーザに与えることができる。

ユーザの属性は、ユーザ・アカウントに関連する安全管理についても考慮する可能性がある。例えば比較的年齢の若いユーザが、比較的年齢の高いユーザには利用可能性がある特定のゲーム・コンテンツ及び／又は機能にアクセスするのを防止することができる。したがって、コンテンツ・オプションを、ユーザの年齢及び／又はユーザに関連付けられたアクセス許可に基づいてフィルタリングすることができる。様々な他の考慮事項を、コンテキスト・オプションをフィルタリングするときに考慮に入れることができる。

ステップ５０２において、アプリケーションに利用可能なコンテキスト・オプションのセットを生成する。例えば利用可能なコンテキスト・オプションは、上で検討されたコンテキスト・オプションのセットからフィルタアウトされないコンテキスト・オプションのサブセットに対応する可能性がある。ステップ５０４において、利用可能なコンテキスト・オプションを、異なるコンテキストにナビゲーションするために音声コマンドを介して選択可能にすることができる。例えば利用可能なコンテキスト・オプションの１つ又は複数を、上で検討されたコンテキスト・メニューの一部として表示することができる。あるいはまた、利用可能なコンテキスト・オプションの１つ又は複数を、表示されるものとは独立に、音声入力による選択が可能にされることができる。

１つ又は複数の実施形態による方法を説明したので、次に、１つ又は複数の実施形態を実装するのに用いることができる例示的なシステム及び例示的なデバイスを検討する。

＜例示的なシステム及びデバイス＞
図６は、コンピューティング・デバイス１０２を、複数のデバイスが中央コンピューティング・デバイスを通じて相互接続される環境で実装されるものとして示す、例示的なシステム６００を図示している。中央コンピューティング・デバイスは、複数のデバイスに対してローカルであってよく、また複数のデバイスからリモートに配置されてもよい。一実施形態において、中央コンピューティング・デバイスは、ネットワーク又はインターネット又は他の手段を通じて複数のデバイスに接続される１つ又は複数のサーバ・コンピュータを含む「クラウド」のサーバ・ファームである。

一実施形態において、この相互接続アーキテクチャは、機能を複数のデバイスに配信して複数のデバイスのユーザに共通のシームレスな体験を提供することを可能にする。複数のデバイスのそれぞれは、異なる物理的な要件及び能力を有してよく、中央コンピューティング・デバイスは、デバイスに合わせて調整され、しかも全てのデバイスに共通の体験のデバイスへの配信を可能にするプラットフォームを使用する。一実施形態においては、目標のデバイスの「クラス」が生成され、体験がデバイスの包括的なクラスに合わせて調整される。デバイスのクラスは、デバイスの物理的な特徴又は用法又は他の一般的な特性によって定義され得る。例えば上に説明したように、コンピューティング・デバイス１０２は、モバイル６０４用、コンピュータ６０２用及びテレビ６０６用などの、多様な異なる手法で構成されることがある。これらの構成のそれぞれは、概ね対応するスクリーン・サイズを有し、したがって、コンピューティング・デバイス１０２は、この例示的なシステム６００におけるこれらのデバイスのクラスのうちの１つとして構成されてよい。例えばコンピューティング・デバイス１０２は、携帯電話、音楽プレイヤ、ゲーム・デバイス等を含むモバイル６０４クラスのデバイスを想定してよい。

コンピューティング・デバイス１０２は、パーソナルコンピュータ、ラップトップコンピュータ、ネットブック等を含むコンピュータ６０２クラスのデバイスを想定してもよい。テレビ６０６構成は、例えばテレビ、セット・トップ・ボックス、ゲーム・コンソール等の、日常的な環境においてディスプレイを含むデバイスの構成を含む。したがって、本明細書で説明される技法は、コンピューティング・デバイス１０２のこれらの様々な構成によってサポートされる可能性があり、以下のセクションで説明される具体的な例には限定されない。

クラウド６０８は、ウェブ・サービス６１２のプラットフォーム６１０を含むものとして示されている。プラットフォーム６１０は、クラウド６０８のハードウェア（例えばサーバ）の基礎的な機能及びソフトウェア・リソースを抽象化し、したがって「クラウド・オペレーティング・システム」として動作することができる。例えばプラットフォーム６１０は、コンピューティング・デバイス１０２を他のコンピューティング・デバイスと接続するためのリソースを抽象化することがある。プラットフォーム６１０は、プラットフォーム６１０を介して実装されるウェブ・サービス６１２の直面している需要に対応するレベルの規模を提供するようにリソースのスケーリングを抽象化するように働く可能性もある。サーバ・ファーム内のサーバの負荷分散、悪意のあるパーティ（例えばスパム、ウィルス及び他のマルウェア）からの保護など、多様な他の例も企図される。

したがって、クラウド６０８は、インターネット又は他のネットワークを介してコンピューティング・デバイス１０２に対して利用可能にされる、ソフトウェア及びハードウェア・リソースに関する方針の一部として含まれる。例えば本明細書において検討された、コンテキスト切り替えのための音声認識の技法を、部分的にコンピューティング・デバイス１０２において実装し、更にウェブ・サービス６１２をサポートするプラットフォーム６１０によって実装してもよい。

諸実装において、コンピューティング・デバイス１０２への入力を、モバイル６０４構成のタッチスクリーン機能やコンピュータ６０２構成のトラック・パッド機能を使用して検出してもよく、特定の入力デバイスとの接触を要しないナチュラル・ユーザ・インタフェース（ＮＵＩ）のサポートの一部としてカメラによって検出してもよい。さらに、本明細書において検討された技法を実装する動作の性能を、コンピューティング・デバイス１０２、及び／又はクラウド６０８のプラットフォーム６１０によってサポートされるウェブ・サービス６１２によるなどして、システム６００中に分散させてもよい。

図７は、本明細書において説明されたコンテキスト切り替えのための音声認識の技法の実施形態を実装するように、図１及び図６を参照して説明された任意の種類のポータブル及び／又はコンピュータ・デバイスとして実装され得る、例示的なデバイス７００の様々な構成要素を図示している。デバイス７００は、デバイスデータ７０４（例えば受信済みのデータ、受信中のデータ、ブロードキャストのためにスケジューリングされたデータ、データのデータ・パケット等）の有線及び／又は無線通信を可能にする通信デバイス７０２を含む。デバイスデータ７０４又は他のデバイスコンテンツは、デバイスの構成設定、デバイスに記憶されたメディア・コンテンツ及び／又はデバイスのユーザに関連する情報を含むことができる。デバイス７００に記憶されたメディア・コンテンツは、任意の種類のオーディオ、ビデオ、及び／又は画像データを含む可能性がある。デバイス７００は１つ又は複数のデータ入力部７０６を含み、この１つ又は複数のデータ入力部を介して、ユーザ選択可能な入力、メッセージ、音楽、テレビ・メディア・コンテンツ、記録されたビデオ・コンテンツ、並びに任意のコンテンツ及び／又はデータソースから受信される任意の他の種類のオーディオ、ビデオ、及び／又は画像データのような、任意の種類のデータ、メディア・コンテンツ及び／又は入力を受信することができる。

デバイス７００は通信インタフェース７０８も含む。通信インタフェース７０８は、シリアル及び／又はパラレル・インタフェース、無線インタフェース、任意の種類のネットワーク・インタフェース、モデムのうちの任意の１つ又は複数として、並びに任意の他の種類の通信インタフェースとして実装され得る。通信インタフェース７０８は、デバイス７００と、他の電子デバイス、コンピューティング・デバイス及び通信デバイスがデバイス７００とデータを通信する通信ネットワークとの間の接続及び／又は通信リンクを提供する。

デバイス７００は、１つ又は複数のプロセッサ７１０（例えばマイクロプロセッサ、コントローラなどのいずれか）を含む。プロセッサ７１０は、様々なコンピュータ実行可能又は読取可能命令を処理して、デバイス７００の動作を制御し、そして上述のコンテキスト切り替えのための音声認識の実施形態を実装する。あるいはまた、デバイス７００は、全体的に７１２で特定される処理及び制御回路に関連して実装されるハードウェア、ファームウェア又は固定の論理回路のうちの任意の１つ又は組み合わせによって実装される可能性がある。図示されていないが、デバイス７００は、デバイス内の様々な構成要素を結合するシステム・バス又はデータ転送システムを含むことができる。システム・バスは、メモリバス若しくはメモリ・コントローラ、周辺バス、ユニバーサル・シリアル・バス、及び／又はプロセッサ若しくはローカル・バスのような、多様なバス・アーキテクチャのいずれかを利用する異なるバス構造のうちの任意の１つ又は組み合わせを含むことができる。

デバイス７００は、１つ又は複数のメモリ・コンポーネントなどのコンピュータ読取可能媒体７１４も含む。メモリ・コンポーネントの例には、ランダム・アクセス・メモリ（ＲＡＭ）、不揮発性メモリ（例えば読み取り専用メモリ（ＲＯＭ）、フラッシュ・メモリ、ＥＰＲＯＭ、ＥＥＰＲＯＭ等のいずれか１つ又は複数）及びディスク・ストレージ・デバイスが含まれる。ディスク・ストレージ・デバイスは、ハード・ディスク・ドライブ、記録可能な及び／又は書き換え可能なコンパクト・ディスク（ＣＤ）、任意の種類のデジタル多用途ディスク（ＤＶＤ）等の任意の種類の磁気又は光ストレージ・デバイスとして実装され得る。デバイス７００は大容量記憶媒体デバイス７１６を含むこともできる。

コンピュータ読取可能媒体７１４は、デバイスデータ７０４だけでなく、様々なデバイスアプリケーション７１８、及びデバイス７００の動作の態様に関連する任意の他の種類の情報及び／又はデータを記憶するためのデータ記憶機構を提供する。例えばオペレーティング・システム７２０を、コンピュータ読取可能媒体７１４によってコンピュータ・アプリケーションとして保持し、プロセッサ７１０において実行することができる。デバイスアプリケーション７１８は、デバイス・マネージャ（例えば制御アプリケーション、ソフトウェア・アプリケーション、信号処理及び制御モジュール、特定のデバイスにネイティブのコード、特定のデバイスのハードウェア抽象化レイヤなど）、並びにウェブ・ブラウザ、画像処理アプリケーション、インスタント・メッセージング・アプリケーションのような通信アプリケーション、文書処理アプリケーション及び様々な他の異なるアプリケーションを含むことができる他のアプリケーションを含むことができる。デバイスアプリケーション７１８は、本明細書において説明されるコンテキスト切り替えのための音声認識の技法の実施形態を実装するシステム構成要素又はモジュールも含む。

この例において、デバイスアプリケーション７１８は、ソフトウェア・モジュール及び／又はコンピュータ・アプリケーションとして示されているインタフェース・アプリケーション７２２及びジェスチャ・キャプチャ・ドライバ７２４を含む。ジェスチャ・キャプチャ・ドライバ７２４は、タッチスクリーン、トラック・パッド、カメラ等のジェスチャをキャプチャするように構成されたデバイスとのインタフェースを提供するのに使用されるソフトウェアを表す。あるいはまた、インタフェース・アプリケーション７２２及びジェスチャ・キャプチャ・ドライバ７２４を、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組み合わせとして実装することができる。

デバイス７００は、オーディオ及び／又はビデオ入力出力システム７２６も含む。オーディオ及び／又はビデオ入力出力システム７２６は、オーディオ・データをオーディオ・システム７２８に提供し、及び／又はビデオ・データをディスプレイ・システム７３０に提供する。オーディオ・システム７２８及び／又はディスプレイ・システム７３０は、オーディオ、ビデオ、及び画像データを処理、表示、及び／又は他の形でレンダリングする任意のデバイスを含むことができる。ビデオ信号及びオーディオ信号は、ＲＦ（無線周波数）リンク、Ｓビデオ・リンク、コンポジット・ビデオ・リンク、コンポーネント・ビデオ・リンク、ＤＶＩ（デジタル・ビデオ・インタフェース）、アナログ・オーディオ接続又は他の同様の通信リンクを介して、デバイス７００からオーディオ・デバイス及び／又はディスプレイ・デバイスに通信される可能性がある。一実施形態において、オーディオ・システム７２８及び／又はディスプレイ・システム７３０は、デバイス７００の外部構成要素として実装される。あるいは、オーディオ・システム７２８及び／又はディスプレイ・システム７３０は、例示的なデバイス７００の組み込み構成要素として実装される。

＜結論＞
様々な実施形態が、コンテキスト切り替えのための音声認識の技法を提供する。本主題を構造的特徴及び／又は方法的動作に特有の言葉で説明したが、添付の特許請求の範囲で定義される主題は、必ずしも上述の具体的な特徴又は動作に限定されないことを理解されたい。むしろ、上述の具体的な特徴及び動作は、特許請求の範囲を実装する例示的な形態として開示されている。

Claims

コンピュータにより実施される方法であって、
発話されたトリガ・ワードの認識に応答して、アプリケーションに関する第１のアプリケーション・コンテキストに関連するユーザ・インタフェースにコンテキスト・メニューを提示するステップであって、前記コンテキスト・メニューが、音声コマンドによってナビゲーションされ得る少なくとも１つの他のアプリケーション・コンテキストを含む、ステップと、
前記発話されたトリガ・ワードの前記認識の後の特定の時間間隔以内に、前記少なくとも１つの他のアプリケーション・コンテキストに関連するコンテキスト・ワードの音声入力を認識するステップと、
前記コンテキスト・ワードの前記音声入力の前記認識に応答して、前記第１のアプリケーション・コンテキストに関連する前記ユーザ・インタフェースから前記少なくとも１つの他のアプリケーション・コンテキストに関連するユーザ・インタフェースへナビゲーションするステップと
を含む、方法。
前記アプリケーションが、ゲーム・アプリケーションを含み、前記第１のアプリケーション・コンテキストに関連する前記ユーザ・インタフェースが、前記少なくとも１つの他のアプリケーション・コンテキストに関連する前記ユーザ・インタフェースが含むゲーム機能のセットとは異なるゲーム機能のセットを含む、請求項１に記載の方法。
前記提示するステップが、１つ又は複数のコンテキスト固有の基準に基づいてアプリケーション・コンテキストのセットをフィルタリングして、前記少なくとも１つの他のアプリケーション・コンテキストを決定するステップを含む、請求項１に記載の方法。
前記コンテキスト固有の基準が、前記アプリケーションの属性、前記アプリケーションが実行されているデバイスの属性又は前記デバイスのユーザの属性、のうちの１つ又は複数を含む、請求項３に記載の方法。
前記ナビゲーションするステップが、ユーザからの追加の入力とは無関係に、前記コンテキスト・ワードの前記音声入力の前記認識に応答して行われる、請求項１に記載の方法。
ゲーム・アプリケーションを備えた１つ又は複数のコンピュータ読取可能記憶媒体であって、前記ゲーム・アプリケーションは、コンピューティング・デバイスによって実行されると、該コンピューティング・デバイスに、
前記ゲーム・アプリケーションの第１のゲーム・コンテキストに関連するユーザ・インタフェースが表示されている間に、トリガ・ワードの音声入力の指示を受信させ、
前記ゲーム・アプリケーションに関する１つ又は複数のフィルタリング基準を使用してゲーム・コンテキストのセットをフィルタリングして、１つ又は複数の利用可能なゲーム・コンテキストのセットを生成させ、
前記１つ又は複数の利用可能なゲーム・コンテキストのセットを、前記第１のゲーム・コンテキストに関連する前記ユーザ・インタフェースの一部として表示させ、
追加のユーザ入力とは無関係に、前記利用可能なゲーム・コンテキストの１つ又は複数についての音声での選択の指示に応答して、前記ゲーム・アプリケーションの第２のゲーム・コンテキストに関連するユーザ・インタフェースへナビゲーションさせる、
１つ又は複数のコンピュータ読取可能記憶媒体。
前記第１のゲーム・コンテキスト又は前記第２のゲーム・コンテキストのうちの一方が、ゲーム・カスタマイズ機能に関連付けられ、前記第１のゲーム・コンテキスト又は前記第２のゲーム・コンテキストのうちの他方が、ゲーム・プレイ機能に関連付けられる、請求項６に記載の１つ又は複数のコンピュータ読取可能記憶媒体。
前記フィルタリング基準が、前記コンピューティング・デバイスの属性又は前記コンピューティング・デバイスのユーザの属性、のうちの１つ又は複数に基づく、請求項６に記載の１つ又は複数のコンピュータ読取可能記憶媒体。
前記フィルタリング基準が、前記コンピューティング・デバイスのネットワーク接続性のステータスを含む、請求項６に記載の１つ又は複数のコンピュータ読取可能記憶媒体。
前記フィルタリング基準が、ユーザに関連する前記ゲーム・アプリケーションに関するアカウント会員レベル、前記ユーザに関連するアクセス許可又は前記ユーザの年齢のうちの１つ又は複数を含む、請求項６に記載の１つ又は複数のコンピュータ読取可能記憶媒体。