JP2023506341A

JP2023506341A - 音声コマンド推奨を提供するためのシステムおよび方法

Info

Publication number: JP2023506341A
Application number: JP2021577435A
Authority: JP
Inventors: ジョゼ，ジェフリーコップスロバート; アンクールアヘル，
Original assignee: ロヴィガイズ，インコーポレイテッド
Priority date: 2019-12-10
Filing date: 2020-12-09
Publication date: 2023-02-16
Also published as: CA3143521A1; KR20220108163A; EP4073791A1; US20210174795A1; US20230260514A1; US11676586B2; WO2021119150A1

Abstract

本システムは、音声コマンド推奨をユーザに提供し、非音声コマンドを回避する。本システムは、受信されることが予期されるコマンドを決定し、予測されるコマンドに対応する音声コマンド推奨を発生させる。予測されるコマンドは、ユーザの挙動、複数のユーザの挙動、電話の呼び出し音等の環境的状況、またはそれらの組み合わせに基づくことができる。本システムは、１つ以上のデータベースにアクセスし、予測されるコマンドを決定し得る。音声コマンド推奨は、推奨される音声コマンドを説明する、表示される通知と、認識される例示的音声入力とを含み得る。本システムはまた、音声入力を受信するように構成される、マイクロホン等のオーディオインターフェースをアクティブ化する。

Description

本開示は、音声コマンド推奨を発生させるためのシステムに関し、より具体的には、予測される相互作用に基づいて音声コマンド推奨を発生させるためのシステムに関する。

会話システムは、娯楽システムとユーザとの間の相互作用を容易で快適にしている。しかしながら、いくつかの状況では、種々の理由により、ユーザは、依然として、音声コマンド以外のシステムと相互作用するための代替方法を選定する。例えば、ユーザは、典型的には、遠隔コントローラを使用してシステムと相互作用し、ユーザのそのような習慣を変化させることは困難であり得る。さらなる実施例では、ユーザは、特定の双方向機能が音声コマンドを使用することによってシステムを用いて達成され得ることを認識しない場合がある。さらなる実施例では、ユーザは、特定の双方向機能を実行するための正確なコマンドを把握していない、または覚えていない場合がある。

本開示は、ユーザが遠隔コントローラを使用する代わりに音声コマンドを使用し、次いで、ユーザへの適切な音声コマンドを提案するために最も便宜的である、状況を識別するためのシステムおよび方法を説明する。いくつかの実施形態では、本システムは、ユーザの挙動およびプロファイル情報の履歴に基づいて、環境キューに基づいて、または任意の他の好適な入力または入力の組み合わせに基づいて、ユーザがシステムと差し迫って相互作用することになるであろうことを予測する。本システムは、音声コマンドのための提案を構築し、提案をユーザに表示し、マイクロホン等のオーディオインターフェースまたはデバイスを準備し、オーディオ入力を受信する。応答して、ユーザは、音声コマンドを提供することができる。音声コマンドが、提案に対応する場合、本システムは、双方向機能を実施するであろう。

本開示の上記および他の目的および利点は、同様の参照記号が全体を通して同様の部分を指す、付随する図面と併せて解釈される、以下の詳細な説明の考慮に応じて明白であろう。

図１は、本開示のいくつかの実施形態による、発生された音声コマンドを含む、２つの例証的表示を示す。

図２は、本開示のいくつかの実施形態による、音声コマンド推奨を発生させるための例証的システムのブロック図である。

図３は、本開示のいくつかの実施形態による、例証的ユーザデバイスのブロック図である。

図４は、本開示のいくつかの実施形態による、音声コマンド推奨を発生させるための例証的プロセスのフローチャートである。

図５は、本開示のいくつかの実施形態による、音声コマンド相互作用を管理するための例証的プロセスのフローチャートを示す。

詳細な説明
本開示は、ユーザが遠隔コントローラを使用する代わりに音声コマンドを使用し、次いで、ユーザへの適切な音声コマンドを提案するために最も便宜的な時間および状況を識別するためのシステムおよび方法を説明する。本機能性は、任意の双方向機能のために最小限の努力を要求することによって、本システムがユーザをより支援することに役立つであろう。本機能性は、ユーザが会話システムの使用法および利点を理解することに役立つであろう。

例証的実施例では、ユーザが、現在、チャネルＨＢＯ上である最新のホームコメディのエピソードを鑑賞している。通常のルーチンの一部として、ホームコメディが終了した後、ユーザは、チャネルをＳｋｙＮｅｗｓに変更し、ニュース番組を鑑賞する。概して、ユーザは、リモートコントロールを使用してチャネルを変更する。リモートコントロールが、ユーザの近傍になく、ユーザがそれを握持するために手の届かない所にある場合、本開示のシステムは、本状況を識別する。本システムは、ユーザの履歴に基づいて、ホームコメディが終了すると、ユーザがチャネルをＳｋｙＮｅｗｓに変更することを所望することを予測する。本システムはまた、ユーザがチャネルを変更するためにＴＶリモートコントロールを容易に握持することができないことも検出する。応答して、本システムは、チャネルを変更するために使用され得る、音声コマンドをユーザに通知するための本機会を識別する。本システムは、「チャネルを変更するためには、「ＳｋｙＮｅｗｓに合わせて」と言ってください」等の通知をテレビディスプレイ上に表示する。本システムはまた、マイクロホンをアクティブ化し、音声コマンドを受信する。故に、ユーザが、通知によって提案されるような音声コマンドを話す場合、本システムは、続けてチャネルを変更する。

図１は、本開示のいくつかの実施形態による、発生された音声コマンドを含む、例証的表示１００および１５０を示す。例えば、表示１００および１５０は、テレビ画面、コンピュータモニタ、ユーザデバイス画面（例えば、携帯電話のタッチスクリーン）、または任意の他の好適なディスプレイデバイス上に発生されてもよい。表示１００および１５０を発生させるように構成されるシステムは、通知として音声コマンド提案をユーザに提供するための最適な時間を識別する。本システムは、所望の双方向機能が、音声コマンド以外の任意の他の手段によってユーザのために達成することが困難であろう、または別様に音声コマンド提案がユーザにとって有用であり得ることを考慮し得る。したがって、本システムは、ユーザが音声コマンドを使用するであろう可能性を改良する。

図示されるような表示１００は、チャネル（または局）によって定義された垂直軸および事前決定された表示時間によって定義された水平軸を伴う、番組識別子のグリッドを含む。例えば、午後８時から午後１０時に及ぶタイムスロットが、７つのチャネルに関して図示される。表示１００に図示されるような現在の時計の時間は、番組「ＮＣＩＳ：ＬｏｓＡｎｇｅｌｅｓ」を強調表示するカーソルを伴って、午後８時５９分である。本システムは、金曜日のほぼ午後９時であり、ユーザが、典型的には、チャネル８に切り替え、ＰＢＳで「ＭｉｄｓｏｍｅｒＭｕｒｄｅｒｓ」を鑑賞することを識別する。本システムは、ユーザが提供する可能性が高い、予測されるコマンドをユーザに示し、また、ユーザがそのコマンドを音声コマンドとして提供し得る方法のインジケーション「「はい」と言ってください」も含む、通知１０１を発生させる。本システムが、通知１０１を発生させるとき、本システムはまた、ユーザが音声入力を提供することを選定した場合、マイクロホンをアクティブ化し、音声コマンドを受信する。ユーザが、「はい」の音声コマンドで応答する場合、本システムは、チャネル変更コマンド（例えば、チャネルをＰＢＳに変更する）を実施するであろう。ユーザが、推奨される音声コマンドで（例えば、ある事前決定された時間以内に）応答しない場合、本システムは、いずれのアクションも実施しない（例えば、ある事前決定された期間後に通知１０１を表示することを停止してもよい）。

図示されるような表示１５０は、チャネル（または局）によって定義された垂直軸および事前決定された表示時間によって定義された水平軸を伴う、番組識別子のグリッドを含む。例えば、午後８時から午後１０時に及ぶタイムスロットが、７つのチャネルに関して図示される。表示１５０に図示されるような現在の時計の時間は、番組「ＮＣＩＳ：ＬｏｓＡｎｇｅｌｅｓ」を強調表示するカーソルを伴って、午後８時３８分である。午後８時３８分に、本システムは、電話の呼び出し、スマートドアベル音、またはシステムまたはリモートコントロールへのユーザの近接性の低減等の環境事象を識別する。本システムは、番組を一時停止することの予測されるコマンドを含み、ユーザがそのコマンドを音声コマンドとして提供し得る方法のインジケーション「「はい」と言ってください」も含む、通知１５１を発生させる。本システムが、通知１５１を発生させるとき、本システムはまた、ユーザが音声入力を提供することを選定した場合、マイクロホンをアクティブ化し、音声コマンドを受信する。ユーザが、「はい」の音声コマンドで応答する場合、本システムは、現在の番組の再生を一時停止するであろう。ユーザが、推奨される音声コマンドで（例えば、ある事前決定された時間以内に）応答しない場合、本システムは、いずれのアクションも実施しない（例えば、ある事前決定された期間後に通知１５１を表示することを停止する、または以降の時間に通知を繰り返してもよい）。

図２は、本開示のいくつかの実施形態による、音声コマンド推奨を発生させるための例証的システム２００のブロック図である。システム２００は、双方向システム２２０と、状態情報２７０と、時計／時間情報２８０と、ユーザ情報２９０と、ディスプレイデバイス２５０とを含む。図示されるような双方向システム２２０は、表示発生器２２１と、非音声入力インターフェース２２２と、音声入力インターフェース２２３と、コマンド予測器２２４と、推奨発生器２２５と、状態分析器２２６とを含む。双方向システム２２０は、ユーザによって必要とされる、またはおそらく必要とされる、双方向機能を検出し、対応する音声コマンドをユーザに通知する。通知は、テレビ画面（例えば、一次画面）上に、または携帯電話画面（例えば、二次画面）等の周辺デバイス上に表示されてもよい。例証的実施例では、システム２００は、（１）コマンド予測器２２４を使用して、非音声入力インターフェース２２２または音声入力インターフェース２２３との目前のユーザ相互作用を予測し、（２）状態分析器２２６を使用して、予測される相互作用が、その時点でユーザのために双方向デバイス（例えば、遠隔コントローラ）を使用して達成することが困難であろうことを識別し、（３）表示発生器２２１を使用して、システム画面上にそれを表示することによって、双方向機能のための適切な音声コマンドの表示される推奨を用いてユーザに通知するように構成される。さらなる例証的実施例では、システム２００は、（１）コマンド予測器２２４を使用して、ユーザ挙動に基づいて非音声入力インターフェース２２２との目前のユーザ相互作用を予測し、（２）推奨発生器２２５を使用して、音声コマンドがユーザ相互作用を達成するための推奨を発生させ、（３）表示発生器２２１を使用して、システム画面上にそれを表示することによって、双方向機能のための適切な音声コマンドの表示される推奨を用いてユーザに通知し、（４）音声入力インターフェース２２３をアクティブ化し、音声入力を受信するように構成される。さらなる例証的実施例では、システム２００は、（１）コマンド予測器２２４を使用して、１人またはそれを上回るユーザの挙動に基づいて、実施されるべき目前のアクションを予測し、（２）表示発生器２２１を使用して、音声コマンドがアクションを達成するために、推奨発生器２２５を使用して推奨を発生させ、（４）音声入力インターフェース２２３をアクティブ化し、音声を受信するように構成される。

状態情報２７０は、ユーザの音声コマンドの使用に影響を及ぼし得る状態についての情報を含む。状態情報２７０は、１人またはそれを上回るユーザに関して、現在の情報、履歴情報、統計情報、またはそれらの任意の組み合わせを含んでもよい。例えば、状態情報は、位置情報（例えば、履歴位置情報、現在の位置情報、または両方）、事象（例えば、電話の呼び出し音、ドアベル音、デバイス相互作用、アラームのログ、または現在のインスタンス）、任意の他の好適な情報、またはそれらの任意の組み合わせを含んでもよい。例えば、状態情報２７０は、コンテンツが携帯電話または他の双方向デバイス上で消費されるときについての情報を含んでもよい。いくつかの実施形態では、状態情報２７０は、第１のユーザに近接する他のユーザについての情報を含む。いくつかの実施形態では、状態情報２７０は、双方向システム２２０の一部として含まれる。例えば、状態情報２７０の情報は、双方向システム２２０のメモリ記憶装置内に記憶されてもよく、故に、１つ以上の基準に基づいて読み出されてもよい。いくつかの実施形態では、図示されるように、状態情報２７０は、双方向システム２２０の一部として含まれる必要はなく、（例えば、有線、無線、または光学ネットワークを介して）双方向システム２２０に通信可能に結合される別個のデバイスまたはシステムのハードウェア上に実装され得る。

時計／時間情報２８０は、例えば、現在の時計の時間、ユーザコマンドまたは他の入力と関連付けられる時計の時間、番組の表示時間（例えば、開始時間、終了時間、または持続時間）、番組スケジュール、任意の他の時間情報、またはそれらの任意の組み合わせ等の情報を含む。時計／時間情報２８０は、任意の好適なデバイスまたはデバイスの組み合わせ上の任意の好適なメモリ内に記憶される。いくつかの実施形態では、例えば、時計／時間情報２８０は、制御回路によって決定される。時間は、発振器回路（例えば、「リアルタイムクロック」またはＲＴＣ）、（例えば、ソフトウェアクロックを較正するように）ネットワークエンティティから通信される時間、ハードウェアおよび／またはソフトウェアに実装される時計、任意の他の好適な時間基準、またはそれらの任意の組み合わせに基づいてもよい。いくつかの実施形態では、時計／時間情報２８０は、例えば、ユーザコマンドが入力された時間（例えば、現在視聴されているチャネルが変更される時間）、視聴時間（例えば、開始時間、終了時間、持続時間）、任意の他の好適な時間情報、またはそれらの任意の組み合わせ等の１人またはそれを上回るユーザに関する履歴時間情報を含む。例えば、時計／時間情報２８０またはその一部は、ユーザ情報２９０に記憶されたデータを伴うタイムスタンプまたは他の好適な時間インジケータとして記憶されてもよい。故に、ユーザ情報２９０は、時計／時間情報２８０の少なくとも一部と組み合わせられてもよい。

ユーザ情報２９０は、ユーザ識別情報（例えば、氏名、識別子、住所、連絡先情報）、以前の音声コマンドまたは以前のリモートコントロールコマンド等のユーザコマンド履歴、ユーザ選好（例えば、検索設定、お気に入りのメディアコンテンツ、時間的視聴選好）、ユーザの好き嫌い（例えば、ユーザ入力情報、ユーザ選択）、ユーザ音声データ（例えば、ユーザの音声を識別するためのオーディオサンプル、シグネチャ、発話パターン、またはファイル）、ユーザについての任意の他の好適な情報、またはそれらの任意の組み合わせを含んでもよい。ユーザ情報２９０は、その過去の挙動およびプロファイル情報に基づいて、ユーザにとって有用であり得る音声コマンドを予測するための任意の好適な情報を含む。いくつかの実施形態では、ユーザ情報２９０は、１つ以上のデータベース内に含まれてもよい。いくつかの実施形態では、ユーザ情報２９０は、複数のユーザに関する統計情報（例えば、検索履歴、コンテンツ消費履歴、消費パターン）、複数のエンティティ（例えば、エンティティと関連付けられるコンテンツ、メタデータ、静的タイプ）、または両方を含む。例えば、ユーザ情報２９０は、複数のユーザの挙動、選択されたコマンド、音声コマンド、リモートコントロールコマンド、任意の他の好適な情報、またはそれらの任意の組み合わせについての情報を含んでもよい。いくつかの実施形態では、ユーザ情報２９０は、双方向システム２２０の一部として含まれる。例えば、ユーザ情報２９０の情報は、双方向システム２２０のメモリ記憶装置内に記憶されてもよく、故に、１つ以上の基準に基づいて読み出されてもよい。いくつかの実施形態では、図示されるように、ユーザ情報２９０は、双方向システム２２０の一部として含まれる必要はなく、（例えば、有線、無線、または光学ネットワークを介して）双方向システム２２０に通信可能に結合される別個のデバイスまたはシステムのハードウェア上に実装され得る。例証的実施例では、ユーザ情報２９０は、表１に図示されるように、任意の好適な相互作用情報を記憶してもよい。

表１に図示されるように、チャネル変更、音量調節、および他のコマンド等の相互作用は、頻度および日付／時間とともに、ユーザ情報２９０に記憶されてもよい。いくつかの実施形態では、ユーザ情報２９０は、例えば、ゲームコントローラ／コンソール、キーボード、トラックボール、携帯電話、または任意の他のデバイス等のテレビのリモコン以外の他の双方向デバイスに関する記録を記憶し、記憶された値を使用し、音声コマンド通知を提供するかどうかを決定する。いくつかの実施形態では、ユーザ情報２９０は、状態情報２７０（例えば、共通データベース内に記憶された）と組み合わせられる。例えば、表１に示されていないが、ユーザ、デバイス、または両方の位置情報もまた、そのような記録に含まれてもよい。

表示発生器２２１は、ディスプレイデバイス２５０（例えば、テレビ画面、コンピュータモニタ、またはスマートフォンタッチスクリーン）上に表示を発生させるように構成される。いくつかの実施形態では、システム２００は、情報の視覚表示（例えば、表示２５１）をユーザに提供するように構成される、ディスプレイデバイス２５０を含む、またはそれに結合される。例証的実施例では、表示２５１は、図１の表示１００および１５０に類似し得るが、その必要はない。いくつかの実施形態では、表示発生器２２１は、表示パラメータを決定し、情報を編成する、配列する、構成する、または別様に提示する方法を決定する。表示パラメータは、例えば、画面サイズ、ズームの程度、ピクセル計数または分解能、利用可能な色または色彩パレット、オーバーレイの設置および性質（例えば、通知ウィンドウ）、ユーザ選好、表示を発生させるための任意の他の好適なパラメータ、またはそれらの任意の組み合わせを含んでもよい。いくつかの実施形態では、ディスプレイデバイス２５０は、要求または提案される表示パラメータを表示発生器２２１に提供する。いくつかの実施形態では、双方向システム２２０（例えば、またはその表示発生器２２１）は、（例えば、ディスプレイデバイス２５０または任意の他の好適なディスプレイデバイス上に）表示を発生させるための表示パラメータを有する、ソフトウェアドライバまたは他のソフトウェアを含む。例えば、双方向システム２２０またはその表示発生器２２１は、ディスプレイデバイス（例えば、ディスプレイデバイス２５０）の性質、およびディスプレイデバイス上に表示されるべき情報（例えば、ディスプレイデバイス２５０上に表示されるべき表示２５１）に基づいて、表示パラメータを決定する、グラフィックスカードまたは他の好適なハードウェアコントローラを含んでもよい。いくつかの実施形態では、表示タイプ、サイズ、およびレイアウトに応じて、表示発生器２２１は、表示されるグリッドのピッチ、サイズ、詳細のレベル、または他の側面を修正する。例証的実施例では、表示発生器２２１は、ディスプレイデバイス２５０上に表示されるグリッドを発生させる。いくつかの実施形態では、双方向システム２２０またはその表示発生器２２１は、ビデオデータをディスプレイデバイス２５０に伝送し、表示２５１を発生させる。表示２５１は、コンテンツ識別子、コンテンツ説明、時間インジケータ、カーソル、現在の時間（例えば、時計の時間）、通知、任意の他の好適な特徴、またはそれらの任意の組み合わせを含んでもよい。例えば、双方向システム２２０またはその表示発生器２２１は、好適なケーブルまたは接続を経由して、高解像度マルチメディアインターフェース（ＨＤＭＩ（登録商標））信号をディスプレイデバイス２５０に伝送し、エピソード識別子を含むグリッド（例えば、図１の表示１００および１５０または図２の表示２５１に類似する）を発生させてもよい。いくつかの実施形態では、双方向システム２２０またはその表示発生器２２１は、ディスプレイデバイス２５０上の既存の表示を更新してもよい。例えば、第１の表示が、ディスプレイデバイス２５０上に提示されてもよく、双方向システム２２０またはその表示発生器２２１は、更新されるいくつかの部分と、類似する、または以前のように維持されるいくつかの部分とを有する、ビデオ信号を伝送することによって、第１の表示を第２の表示に更新してもよい。いくつかの実施形態では、双方向システム２２０またはその表示発生器２２１は、ディスプレイデバイス２５０上の標的空間の中に適合するように構成される、表示のためのグリッドを発生させる。

非音声入力インターフェース２２２は、例えば、ハンドヘルドリモートコントロールから信号を受信するための受信機、ハードボタン（例えば、スイッチ、押しボタン、または任意の他の好適なユーザ作動型ボタン）、タッチスクリーン（例えば、ボタンまたは他の選択可能または調節可能要素を伴う）、キーパッド（例えば、テキストコマンドを入力するための事前設定されたレイアウトを伴う）、音声入力を処理しない任意の他の好適なインターフェース、またはそれらの任意の組み合わせ等の任意の好適なインターフェースを含んでもよい。非音声入力インターフェース２２２は、ユーザによる触覚アクション（例えば、画面上のある面積に触れること、またはボタンを押すこと）を含み得る、非音声相互作用を要求する。

音声入力インターフェース２２３は、例えば、オーディオ信号を受信するためのマイクロホン、信号処理ハードウェア、信号処理ソフトウェア、発話検出ソフトウェア、音声識別ソフトウェア、音声入力を処理するための任意の他の好適なハードウェアまたはソフトウェア、またはそれらの任意の組み合わせを含んでもよい。いくつかの実施形態では、音声入力インターフェース２２３は、オーディオ入力を受信し、電子信号を発生させる、マイクロホンまたは他のセンサを含む、オーディオインターフェースを含む。いくつかの実施形態では、オーディオ入力は、オーディオファイルを発生させるように調整、サンプリング、およびデジタル化される、アナログ信号を提供する、アナログセンサにおいて受信される。オーディオファイルは、次いで、双方向システム２２０によって分析されてもよい。音声入力インターフェース２２３は、随時、発話または他の好適なオーディオ信号が検出されるときに、双方向システム２２０（例えば、そのコマンド予測器２２４、推奨発生器２２５、または状態分析器２２６）によってアクティブ化されるときに、任意の他の基準に応答して、またはそれらの任意の組み合わせで、オーディオ入力を受信するように構成されてもよい。双方向システム２２０またはその音声入力インターフェース２２３は、オーディオ入力を記憶されたオーディオファイルまたは電子信号に変換するための任意の好適な調整ソフトウェアまたはハードウェアを含んでもよい。例えば、双方向システム２２０またはその音声入力インターフェース２２３は、１つ以上のフィルタ（例えば、低域通過、高域通過、ノッチフィルタ、または帯域通過フィルタ）、増幅器、デシメータ、または他の調整を適用し、オーディオファイルを発生させてもよい。さらなる実施例では、双方向システム２２０またはその音声入力インターフェース２２３は、圧縮、変換（例えば、スペクトル変換、ウェーブレット変換）、正規化、等化、（例えば、時間またはスペクトルドメイン内の）切り捨て、任意の他の好適な処理、またはそれらの任意の組み合わせ等の任意の好適な処理を調整された信号に適用し、オーディオファイルを発生させてもよい。双方向システム２２０またはその音声入力インターフェース２２３は、受信された音声入力から１つ以上のキーワードを抽出するように構成されてもよい。例えば、いくつかの実施形態では、クエリアプリケーションは、発話の中の単語を識別し、それらの単語のうちのいくつかをキーワードとして選択してもよい。双方向システム２２０またはその音声入力インターフェース２２３は、任意の好適な単語検出技法、発話検出技法、パターン認識技法、信号処理技法、またはそれらの任意の組み合わせを使用して、単語を処理してもよい。例えば、双方向システム２２０またはその音声入力インターフェース２２３は、一連の信号テンプレートをオーディオ信号の一部と比較し、合致が存在するかどうか（例えば、特定の単語がオーディオ信号に含まれるかどうか）を見出してもよい。さらなる実施例では、双方向システム２２０またはその音声入力インターフェース２２３は、検出された発話の間に録音されたオーディオの断片（すなわち、短い持続時間のクリップ）を記憶し、断片を処理してもよい。いくつかの実施形態では、クエリアプリケーションは、発話の比較的に大きいセグメント（例えば、１０秒を上回る）をオーディオファイルとして記憶し、ファイルを処理する。いくつかの実施形態では、双方向システム２２０またはその音声入力インターフェース２２３は、発話を処理し、持続的算出を使用することによって単語を検出してもよい。例えば、ウェーブレット変換が、リアルタイムで発話に実施されてもよく、発話パターン（例えば、単語を識別するように基準と比較され得る）の持続的算出を提供する。いくつかの実施形態では、双方向システム２２０またはその音声入力インターフェース２２３は、本開示によると、単語および単語を発したユーザ（例えば、音声認識）を検出してもよい。

コマンド予測器２２４は、（１）（例えば、ユーザ情報２９０からの）ユーザの過去の挙動に基づいて入力されることが予期される、（２）複数のユーザの過去の挙動に基づいて入力される可能性が高い、（３）１つ以上の事象に基づいてユーザにとって有用である、または（４）音声コマンドを使用して双方向システム２２０を用いた体験を獲得するための方法としてユーザにとって有用である、コマンドを予測するように構成される。いくつかの実施形態では、コマンド予測器２２４は、ユーザ情報２９０から双方向システム２２０とのユーザの相互作用履歴を読み出し、それを分析し、パターンを識別する。例えば、昼または夜の特定の時間に、ユーザは、特定のチャネルまたは特定の番組を鑑賞し得る。チャネルおよび時間（例えば、開始時間、終了時間、持続時間、またはそれらの組み合わせ）が、ユーザ情報２９０に記憶されてもよい。例証的実施例では、特定のタイプのチャネル（例えば、音楽チャネル）に関して、ユーザは、テレビ番組を鑑賞するための音量と比較して、音量を増加させ得る。ユーザ情報２９０は、双方向システム２２０とのユーザの全相互作用に関して、鑑賞履歴およびリモートコントロール使用履歴を維持する。いくつかの実施形態では、コマンド予測器２２４は、ユーザに関連性がある１つ以上の環境または状況ベースの状態を識別するように構成される、状態分析器２２６からの入力に基づいて、コマンドを決定する。例えば、あるタイプの妨害（例えば、電話の呼び出し音、ドアベル音、泣いている乳児）の間に、ユーザは、概して、現在表示されている番組を一時停止する、または音量をミュートし得る。そのような相互作用の履歴は、ユーザ情報２９０に記憶され、状態分析器２２６は、記憶された相互作用に対応する状態を識別する。例えば、状態分析器２２６は、部屋内の外部キュー（例えば、電話の呼び出し音、ドアベル音、または泣いている乳児）にアクセスし、ユーザへの使用のコマンドを予測する。コマンド予測器２２４は、例えば、チャネルを変更すること、音量を変更すること、音量をミュートすること、番組を一時停止／再生すること、番組を巻き戻し／早送りすること、番組を終了または停止すること、番組を起動または開始すること、番組を録画すること、番組についての情報（例えば、プロット要約、俳優のリスト、評定情報）を表示すること、番組に基づく情報（例えば、関連番組）を表示すること、アラームを設定すること、アラームを消去すること、ナビゲーションベースのコマンド（例えば、課金ページに進む、オンデマンドページに進む）、任意の他の好適なコマンド、またはそれらの任意の組み合わせ（例えば、チャネルの変更および音量の減少の両方）等の任意の好適なタイプのコマンドを予測してもよい。例証的実施例では、コマンド予測器２２４は、表２に図示されるようなユーザのための双方向機能予測マップを発生させてもよい。

表２に図示されるように、状態は、番組終了または開始、ユーザ挙動（例えば、電話の呼び出しを受信する、モバイルデバイスと相互作用する、動き回る）、時間（例えば、時計の時間）、音声コマンド使用の欠如の持続時間、非音声コマンドの使用、任意の他の好適な状態、またはそれらの任意の組み合わせを含んでもよい。いくつかの実施形態では、双方向システム２２０は、一覧にされた値を発生させ、読み出し、または別様に使用し、音声コマンド通知がユーザに表示されるべきかどうかを決定する。例えば、双方向システム２２０は、ユーザによって定期的に使用および把握されるコマンドのための音声コマンド通知を発生させる必要はない。例証として、双方向システム２２０は、音声コマンドが双方向機能のために使用される回数、および最後の使用タイムスタンプ（例えば、表１の配列と同様に一覧にされ得る）を考慮し得る。これらの値の両方が、ある閾値を下回る場合、双方向システム２２０は、音声コマンド通知を発生させる。いくつかの実施形態では、双方向システム２２０は、１つ以上の双方向機能のためのリモートコントロールの使用および音声コマンドの使用を比較する。いくつかのそのような実施形態では、使用の時間の間の差異が、閾値を上回る（例えば、リモートコントロール使用がより高い側にある）場合、本システムは、音声コマンド通知を発生させてもよい。

推奨発生器２２５は、音声コマンドのための推奨を決定し、発生させるように構成される。推奨は、図１の通知１０１および１５１によって図示されるような通知の形態であってもよい。推奨は、コマンド予測器２２４によって予測されるコマンドに基づいてもよく、そのコマンドは、ユーザのために最も便宜的または有用である、またはそれらの組み合わせである。例えば、推奨発生器２２５は、音声コマンドが、（例えば、リモートコントロールを使用することと比較して）ユーザがその瞬間に双方向機能を達成するために最も便宜的な方法であろうことを識別してもよい。いくつかの実施形態では、推奨発生器２２５は、音声コマンドを使用するための理由をユーザへの通知において強調表示する。強調表示は、ユーザとっての届かない所にあるデバイスについての情報、検出された事象、または他の好適な情報を追加することを含んでもよい。例えば、推奨発生器は、「テレビのリモコンが見つかりませんか？「音量を上げて」と言って音量を増加させてください」、または「キーボードから離れていますか？「テレビをミュートする」と言ってテレビをミュートしてください」を含む、通知を発生させてもよい。

状態分析器２２６は、ユーザの音声コマンドの使用に影響を及ぼし得る状態を検出する、決定する、識別する、または別様に分析するように構成される。いくつかの実施形態では、双方向システム２２０またはその状態分析器２２６は、１つ以上の双方向デバイス（例えば、リモートコントロール、ゲームコントローラ、キーボード、トラックボール、携帯電話、または他のデバイス）の位置、（例えば、部屋内または他の場所の）ユーザの位置、または両方を監視する、または別様に決定する。例えば、ユーザと双方向デバイスとの間の距離が、事前決定された閾値を上回る場合、双方向システム２２０または状態分析器２２６は、ユーザが双方向デバイスを握持することが困難であろう（例えば、状態が「近接性の欠如」である）ことを識別する。いくつかの実施形態では、双方向システム２２０は、カメラを使用し、部屋（例えば、双方向システム２２０またはそのコンポーネントが常駐する部屋）内のユーザの位置および双方向デバイスの位置をマッピングし、決定する（例えば、計算する）。いくつかの実施形態では、双方向システム２２０またはその状態分析器２２６は、例えば、スマートウォッチ、フィットネストラッカ、一対のヘッドホン、任意の他の好適な周辺デバイス、またはそれらの任意の組み合わせ等の１つ以上の周辺デバイスを追跡することに基づいて、ユーザの位置を決定する。いくつかの実施形態では、双方向システム２２０またはその状態分析器２２６は、双方向デバイスの電子回路から生じる、検出された信号を通して、双方向デバイスをマッピングする。

状態分析器２２６は、１つ以上の状態を検出するための任意の好適なセンサ、信号処理回路、または両方を含んでもよい。例えば、状態分析器２２６は、リモートコントロールまたは他の双方向デバイスと相互作用し、双方向デバイスの位置を決定する、システムを含んでもよい。例証として、状態分析器２２６は、信号（例えば、返された信号における待ち時間、信号強度、信号の減衰、またはその変化）に基づいて、距離または位置を決定してもよい。さらなる実施例では、状態分析器２２６は、画像分析を使用し、その移動、距離、近接性、または変化を決定してもよい。いくつかの実施形態では、双方向デバイスまたは周辺デバイスは、その独自の位置を検出し、任意の好適な通信リンク（例えば、無線、近距離、または光透過）を使用して、位置情報を双方向システム２２０に通信してもよい。いくつかの実施形態では、状態分析器２２６は、状態情報２７０から情報を読み出す。いくつかの実施形態では、状態分析器２２６は、１つ以上の状態を検出し、記憶のために状態情報２７０に伝送するべき情報を発生させる。

いくつかの実施形態では、状態情報２７０は、第１のユーザに近接している他のユーザについての情報を含む。例えば、２人のユーザが、双方向システム２２０に近接している場合、状態分析器２２６は、１人のユーザが去る状態を識別してもよく、対応する音声コマンド推奨（例えば、ユーザが近接に戻るまで番組を一時停止する、またはより遠い距離に到達するように音量を増加させる）を発生させてもよい。さらなる実施例では、１人のユーザが、双方向システム２２０に近接している場合、状態分析器２２６は、別のユーザが到着する状態を識別してもよく、対応する音声コマンド推奨（例えば、ユーザが位置するまで番組を一時停止する）を発生させてもよい。

例証的実施例では、双方向システム２２０は、「はい」または「いいえ」の回答を有するユーザへの音声コマンド提案を（例えば、推奨発生器２２５を使用して）発生させてもよい。ユーザ情報２９０は、テンプレート情報、テンプレートと相互作用することのユーザの履歴、または両方を含んでもよい。いくつかの実施形態では、はい／いいえの質問は、ユーザの以前のテンプレート使用を考慮し、質問を発生させるであろう。例えば、双方向システム２２０は、チャネルを変更するための３つのテンプレート、すなわち、「チャネル＜チャネル名＞に進む」、「チャネル＜チャネル名＞に合わせる」、および「チャネル＜チャネル名＞にジャンプする」を有してもよい。故に、双方向システム２２０は、同一の双方向機能のための異なる質問を発生させてもよい。例えば、双方向システム２２０は、「チャネルＳｋｙＮｅｗｓに進みますか？」、「チャネルＳｋｙＮｅｗｓに合わせますか？」、および「チャネルＳｋｙＮｅｗｓにジャンプしますか？」等の通知を発生させてもよい。ユーザの過去のクエリ使用を考慮するためにユーザにより馴染みがあるテンプレートに基づいて、双方向システム２２０は、３つのオプションの中の最良のテンプレートを選択するであろう。いくつかの実施形態では、双方向システム２２０は、質問をユーザに提示するように、音声アクティブ化ホームアシスタントに通信可能に結合されてもよい。

いくつかの実施形態では、双方向システム２２０またはリモートコントロールは、「ウェイクワード」によってトリガされるべきサポートを有していない場合がある、マイクロホンを含む。例えば、ユーザは、リモートコントロール上のボタンを押し、音声コマンドを入力してもよい。いくつかの実施形態では、双方向システム２２０は、提案をユーザに提示し、ユーザの音声応答を受信する準備ができているときに、（例えば、５秒または任意の他の好適な時間にわたって）マイクロホンをトリガする。いくつかの実施形態では、マイクロホンは、音声入力を受信するために常にアクティブであるように構成されない。例えば、マイクロホンは、音声コマンドを受信および録音するようにアクティブ化される必要があり得る。いくつかのそのような状況では、双方向システム２２０が、ユーザへの音声コマンド通知を発生させるとき、また、ユーザが通知を受信した後すぐに音声コマンドを使用することが予期されるため、ある期間（例えば、３０秒または任意の他の好適な時間）にわたってマイクロホンをアクティブ化する。

図３は、本開示のいくつかの実施形態による、例証的ユーザデバイスのブロック図である。ユーザ機器システム３０１は、ディスプレイ３１２、オーディオ機器３１４、およびユーザ入力インターフェース３１０を含む、またはそれに通信可能に結合される、セットトップボックス３１６を含んでもよい。いくつかの実施形態では、ディスプレイ３１２は、テレビディスプレイまたはコンピュータディスプレイを含んでもよい。いくつかの実施形態では、ユーザ入力インターフェース３１０は、リモートコントロールデバイスである。セットトップボックス３１６は、１つ以上の回路基板を含んでもよい。いくつかの実施形態では、１つ以上の回路基板は、処理回路、制御回路、および記憶装置（例えば、ＲＡＭ、ＲＯＭ、ハードディスク、リムーバブルディスク等）を含む。いくつかの実施形態では、回路基板は、入出力経路を含む。ユーザデバイス３００およびユーザ機器システム３０１はそれぞれ、入力／出力（以降では「Ｉ／Ｏ」）経路３０２を介してコンテンツおよびデータを受信してもよい。Ｉ／Ｏ経路３０２は、処理回路３０６と、記憶装置３０８とを含む、制御回路３０４に、コンテンツおよびデータを提供してもよい。制御回路３０４は、Ｉ／Ｏ経路３０２を使用して、コマンド、要求、および他の好適なデータを送信および受信するために使用されてもよい。Ｉ／Ｏ経路３０２は、制御回路３０４（具体的には処理回路３０６）を１つ以上の通信経路（下記に説明される）に接続してもよい。Ｉ／Ｏ機能は、これらの通信経路のうちの１つ以上のものによって提供され得るが、図面を過剰に複雑にすることを回避するように、図３では単一の経路として示される。セットトップボックス３１６が例証のために図３に示されるが、処理回路、制御回路、および記憶装置を有する、任意の好適なコンピューティングデバイスが、本開示に従って使用されてもよい。例えば、セットトップボックス３１６は、パーソナルコンピュータ（例えば、ノートブック、ラップトップ、デスクトップ）、ユーザアクセス可能クライアントデバイスをホストするネットワークベースのサーバ、非ユーザ所有デバイス、任意の他の好適なデバイス、またはそれらの任意の組み合わせによって置換または補完されてもよい。

制御回路３０４は、処理回路３０６等の任意の好適な処理回路に基づいてもよい。本明細書で参照されるように、処理回路は、１つ以上のマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、プログラマブル論理デバイス、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）等に基づく回路を意味すると理解されるべきであり、マルチコアプロセッサ（例えば、デュアルコア、クアッドコア、ヘキサコア、または任意の好適な数のコア）またはスーパーコンピュータを含んでもよい。いくつかの実施形態では、処理回路は、複数の別個のプロセッサまたは処理ユニット、例えば、複数の同一のタイプの処理ユニット（例えば、２つのＩｎｔｅｌＣｏｒｅｉ７プロセッサ）または複数の異なるプロセッサ（例えば、ＩｎｔｅｌＣｏｒｅｉ５プロセッサおよびＩｎｔｅｌＣｏｒｅｉ７プロセッサ）を横断して分散される。いくつかの実施形態では、制御回路３０４は、メモリ（例えば、記憶装置３０８）に記憶されたアプリケーションのための命令を実行する。具体的には、制御回路３０４は、上記および下記に議論される機能を実施するようにアプリケーションによって命令されてもよい。例えば、アプリケーションは、命令を制御回路３０４に提供し、メディアガイド表示を発生させてもよい。いくつかの実装では、制御回路３０４によって実施される任意のアクションは、アプリケーションから受信される命令に基づいてもよい。

いくつかのクライアント／サーバベースの実施形態では、制御回路３０４は、アプリケーションサーバまたは他のネットワークまたはサーバと通信するために好適な通信回路を含む。上記に述べられる機能性を実行するための命令は、アプリケーションサーバ上に記憶されてもよい。通信回路は、他の機器または任意の他の好適な通信回路と通信するために、ケーブルモデム、総合サービスデジタルネットワーク（ＩＳＤＮ）モデム、デジタルサブスクライバ回線（ＤＳＬ）モデム、電話モデム、イーサネット（登録商標）カード、または無線モデムを含んでもよい。そのような通信は、インターネットまたは任意の他の好適な通信ネットワークまたは経路を伴ってもよい。加えて、通信回路は、ユーザ機器デバイスのピアツーピア通信または相互から遠隔の場所にあるユーザ機器デバイスの通信を可能にする回路（下記により詳細に説明される）を含んでもよい。

メモリは、制御回路３０４の一部である記憶装置３０８等の電子記憶デバイスであってもよい。本明細書で参照されるように、語句「電子記憶デバイス」または「記憶デバイス」は、ランダムアクセスメモリ、読取専用メモリ、ハードドライブ、光学ドライブ、ソリッドステートデバイス、量子記憶デバイス、ゲーム機、ゲーム媒体、任意の他の好適な固定またはリムーバブル記憶デバイス、および／または同一物の任意の組み合わせ等の電子データ、コンピュータソフトウェア、またはファームウェアを記憶するための任意のデバイスを意味すると理解されるべきである。記憶装置３０８は、本明細書に説明される種々のタイプのコンテンツおよび上記に説明されるメディアガイドデータを記憶するために使用されてもよい。不揮発性メモリもまた、（例えば、ブートアップルーチンおよび他の命令を起動するために）使用されてもよい。クラウドベースの記憶装置が、例えば、記憶装置４０８を補完するために、または記憶装置３０８の代わりに使用されてもよい。

ユーザが、ユーザ入力インターフェース３１０を使用して、命令を制御回路３０４に送信してもよい。ユーザ入力インターフェース３１０、ディスプレイ３１２、または両方は、表示を提供し、触覚入力を受信するように構成される、タッチスクリーンを含んでもよい。例えば、タッチスクリーンは、指、スタイラス、または両方から触覚入力を受信するように構成されてもよい。いくつかの実施形態では、ユーザデバイス３００は、前向きの画面および後向きの画面、複数の前方画面、または複数の角度付き画面を含んでもよい。いくつかの実施形態では、ユーザ入力インターフェース３１０は、１つ以上のマイクロホン、ボタン、キーパッド、ユーザ入力を受信するように構成される任意の他のコンポーネント、またはそれらの組み合わせを有する、リモートコントロールデバイスを含む。例えば、ユーザ入力インターフェース３１０は、英数字キーパッドおよびオプションボタンを有する、ハンドヘルドリモートコントロールデバイスを含んでもよい。さらなる実施例では、ユーザ入力インターフェース３１０は、音声コマンドを受信および識別し、情報をセットトップボックス３１６に伝送するように構成される、マイクロホンおよび制御回路を有する、ハンドヘルドリモートコントロールデバイスを含んでもよい。

オーディオ機器３１４は、ユーザデバイス３００およびユーザ機器システム３０１のそれぞれの他の要素と統合されるものとして提供されてもよい、または独立型ユニットであってもよい。ディスプレイ３１２上に表示されるビデオおよび他のコンテンツのオーディオコンポーネントが、オーディオ機器３１４のスピーカを通して再生されてもよい。いくつかの実施形態では、オーディオは、オーディオを処理し、オーディオ機器３１４のスピーカを介して出力する、受信機（図示せず）に分配されてもよい。いくつかの実施形態では、例えば、制御回路３０４は、オーディオ機器３１４のスピーカを使用して、オーディオキューをユーザに、または他のオーディオフィードバックをユーザに提供するように構成される。オーディオ機器３１４は、音声コマンドおよび発話（例えば、音声クエリを含む）等のオーディオ入力を受信するように構成される、マイクロホンを含んでもよい。例えば、ユーザが、マイクロホンによって受信され、制御回路３０４によってテキストに変換される、文字または単語を話し得る。さらなる実施例では、ユーザが、マイクロホンによって受信され、制御回路３０４によって認識される、コマンドを声に出し得る。

（例えば、音声クエリを管理するための）アプリケーションが、任意の好適なアーキテクチャを使用して実装されてもよい。例えば、独立型アプリケーションが、ユーザデバイス３００およびユーザ機器システム３０１のそれぞれの上に完全に実装されてもよい。いくつかのそのような実施形態では、アプリケーションのための命令が、ローカルで（例えば、記憶装置３０８内に）記憶され、アプリケーションによって使用するためのデータが、周期的基準で（例えば、帯域外フィードから、インターネットリソースから、または別の好適なアプローチを使用して）ダウンロードされる。制御回路３０４は、記憶装置３０８からアプリケーションのための命令を読み出し、命令を処理し、本明細書に議論される表示のうちのいずれかを発生させてもよい。処理された命令に基づいて、制御回路３０４は、入力がユーザ入力インターフェース３１０から受信されるときに実施するべきアクションの内容を決定してもよい。例えば、上／下への表示上のカーソルの移動は、入力インターフェース３１０が、上／下ボタンが選択されたことを示すときに、処理された命令によって示されてもよい。本明細書に議論される実施形態のうちのいずれかを実施するためのアプリケーションおよび／または任意の命令が、コンピュータ可読媒体上にエンコードされてもよい。コンピュータ可読媒体は、データを記憶することが可能な任意の媒体を含む。コンピュータ可読媒体は、限定ではないが、伝搬電気または電磁信号を含む、一過性であり得る、または、限定ではないが、ハードディスク、フロッピー（登録商標）ディスク、ＵＳＢドライブ、ＤＶＤ、ＣＤ、メディアカード、レジスタメモリ、プロセッサキャッシュ、ランダムアクセスメモリ（ＲＡＭ）等の揮発性および不揮発性コンピュータメモリまたは記憶デバイスを含む、非一過性であり得る。

いくつかの実施形態では、アプリケーションは、クライアント／サーバベースのアプリケーションである。ユーザデバイス３００およびユーザ機器システム３０１のそれぞれの上で実装される、シックまたはシンクライアントによって使用するためのデータが、ユーザデバイス３００およびユーザ機器システム３０１のそれぞれから遠隔にあるサーバに要求を発行することによって、オンデマンドで読み出される。例えば、遠隔サーバは、記憶デバイス内にアプリケーションのための命令を記憶してもよい。遠隔サーバは、回路（例えば、制御回路３０４）を使用して、記憶された命令を処理し、上記および下記に議論される表示を発生させてもよい。クライアントデバイスは、遠隔サーバによって発生される表示を受信してもよく、ユーザデバイス３００上にローカルで表示のコンテンツを表示してもよい。このように、命令の処理が、サーバによって遠隔で実施される一方、テキスト、キーボード、または他の視覚物を含み得る、結果として生じる表示は、ユーザデバイス３００上にローカルで提供される。ユーザデバイス３００は、入力インターフェース３１０を介してユーザから入力を受信し、対応する表示を処理し、発生させるために、それらの入力を遠隔サーバに伝送してもよい。例えば、ユーザデバイス３００は、上／下ボタンが入力インターフェース３１０を介して選択されたことを示す、通信を遠隔サーバに伝送してもよい。遠隔サーバは、その入力に従って命令を処理し、入力に対応するアプリケーションの表示（例えば、カーソルを上／下に移動させる表示）を発生させてもよい。発生された表示は、次いで、ユーザへの提示のためにユーザデバイス３００に伝送される。

いくつかの実施形態では、アプリケーションは、ダウンロードされ、インタープリタまたは仮想マシン（例えば、制御回路３０４によって起動される）によって解釈される、または別様に起動される。いくつかの実施形態では、アプリケーションは、ＥＴＶバイナリ交換形式（ＥＢＩＦ）でエンコードされ、好適なフィードの一部として制御回路によって受信され、制御回路３０４上で起動するユーザエージェントによって解釈されてもよい。例えば、アプリケーションは、ＥＢＩＦアプリケーションであってもよい。いくつかの実施形態では、アプリケーションは、制御回路３０４によって実行されるローカル仮想マシンまたは他の好適なミドルウェアによって受信および起動される、一連のＪＡＶＡ（登録商標）ベースのファイルによって定義され得る。

いくつかの実施形態では、無線対応デバイスとして図示されるユーザデバイス３００が、通信ネットワークに結合されてもよい（例えば、インターネットに接続される）。例えば、ユーザデバイス３００は、通信経路（例えば、アクセスポイントを含み得る）を介して、通信ネットワークに結合されてもよい。いくつかの実施形態では、ユーザ機器システム３０１は、無線または有線接続（例えば、ＬＡＮまたは任意の他の好適な通信リンク）を介して通信ネットワークに結合される、コンピューティングデバイスであってもよい。通信ネットワークは、インターネット、携帯電話ネットワーク、モバイル音声またはデータネットワーク（例えば、４ＧまたはＬＴＥネットワーク）、ケーブルネットワーク、公衆交換電話ネットワーク、または他のタイプの通信ネットワーク、または通信ネットワークの組み合わせを含む、１つ以上のネットワークであってもよい。通信経路は、衛星経路、光ファイバ経路、ケーブル経路、インターネット通信をサポートする経路、（例えば、放送または他の無線信号のための）自由空間接続、または任意の他の好適な有線または無線通信経路、またはそのような経路の組み合わせ等の１つ以上の通信経路を含んでもよい。ユーザデバイス３００、ユーザ機器システム３０１、または両方は、上記に説明されるもの等の通信経路、およびＵＳＢケーブル、ＩＥＥＥ１３９４ケーブル、無線経路（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、赤外線、ＩＥＥＥ８０２－１１ｘ等）、または有線または無線経路を介した他の短距離通信等の他の短距離ポイントツーポイント通信経路を介して、相互と直接通信してもよい。ＢＬＵＥＴＯＯＴＨ（登録商標）は、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＳＩＧ，ＩＮＣ．によって所有される認定マークである。デバイスはまた、通信ネットワークを介して、間接的経路を直接通して相互と通信してもよい。

いくつかの実施形態では、ユーザデバイス３００、ユーザ機器システム３０１、または両方とネットワークデバイス（例えば、サーバ、アプリケーションサーバ、データベース）との間の通信が、１つ以上の通信経路を経由して交換されてもよい。複数のネットワークエンティティが、存在し、ユーザデバイス３００、ユーザ機器システム３０１、または両方と通信してもよい。いくつかの実施形態では、ネットワークデバイスが、多くのユーザデバイス（例えば、ユーザデバイス３００またはユーザ機器システム３０１）におけるアプリケーションのインスタンスと通信する、アプリケーションを実装する。

いくつかの実施形態では、ネットワークデバイスは、例えば、ユーザデバイス３００、ユーザ機器システム３０１、または両方によって読み出され得る、エンティティ情報、メタデータ、コンテンツ、履歴通信および検索記録、ユーザ選好、ユーザプロファイル情報、広告情報、任意の他の好適な情報、またはそれらの任意の組み合わせを含む、１つ以上のタイプの記憶された情報を含む。ネットワークデバイスは、アプリケーションホスティングデータベースまたはサーバ、プラグイン、ソフトウェア開発者キット（ＳＤＫ）、アプリケーションプログラミングインターフェース（ＡＰＩ）、または（例えば、ユーザデバイスにダウンロードされるような）ソフトウェアを提供する、（例えば、ユーザデバイスによってアクセスされるアプリケーションをホストする）ソフトウェアを遠隔で起動する、または別様にアプリケーションサポートをユーザデバイス３００のアプリケーションに提供するように構成される、他のソフトウェアツールを含んでもよい。いくつかの実施形態では、ネットワークデバイスからの情報が、クライアント／サーバアプローチを使用して、ユーザデバイス３００またはユーザ機器システム３０１に提供される。

いくつかの実施形態では、アプリケーションが、ユーザデバイス３００、ユーザ機器システム３０１、または両方の上に実装されてもよい。例えば、アプリケーションは、ユーザデバイス３００、ユーザ機器システム３０１、または両方の記憶装置３０８内に記憶され、個別のデバイスの制御回路によって実行され得る、ソフトウェアまたは実行可能命令のセットとして実装されてもよい。例えば、アプリケーションは、部分的にユーザデバイス３００上のクライアントアプリケーションとして、かつ部分的に遠隔サーバの制御回路（例えば、ネットワークデバイスの制御回路）上で起動するサーバアプリケーションとして遠隔サーバ上に実装されてもよい。遠隔サーバの制御回路によって実行されると、アプリケーションは、表示を発生させ、発生された表示をユーザデバイス３００に伝送するように、制御回路に命令してもよい。サーバアプリケーションは、ユーザデバイス３００上に記憶するためのデータを伝送するように、遠隔サーバの制御回路に命令してもよい。クライアントアプリケーションは、アプリケーション表示を発生させるように、受信ユーザデバイスの制御回路に命令してもよい。

いくつかの実施形態では、ユーザデバイス３００、ユーザ機器システム３０１、または両方は、クラウドベースの配列の一部である。クラウドは、ユーザデバイスのために、いくつかある実施例の中でも、情報記憶、広告、買い物、検索、メッセージング、またはソーシャルネットワーキングサービス等のサービスへのアクセス、および上記に説明される任意のコンテンツへのアクセスを提供する。サービスは、クラウドコンピューティングサービスプロバイダを通して、またはオンラインサービスの他のプロバイダを通して、クラウド内で提供されることができる。例えば、クラウドベースのサービスは、それを介して、ユーザ供給コンテンツが、接続されたデバイス上の他者による視聴のために配布される、記憶サービス、共有サイト、ソーシャルネットワーキングサイト、検索エンジン、または他のサービスを含むことができる。これらのクラウドベースのサービスは、ユーザデバイスが、情報をクラウドに記憶すること、およびローカルで情報を記憶し、ローカルで記憶された情報にアクセスするのではなく、クラウドから情報を受信することを可能にし得る。クラウドリソースは、例えば、ウェブブラウザ、メッセージングアプリケーション、ソーシャルメディアアプリケーション、認証アプリケーション、認証を要求するアプリケーション、デスクトップアプリケーション、モバイルアプリケーション、任意の他の好適なアプリケーション、またはアプリケーションの任意の組み合わせを使用して、ユーザデバイスによってアクセスされてもよい。

図４は、本開示のいくつかの実施形態による、音声コマンド推奨を発生させるための例証的プロセス４００のフローチャートである。いくつかの実施形態では、下記に説明されるように、プロセス４００は、任意の好適なハードウェア上に実装されるアプリケーションによって実施されてもよい。例えば、アプリケーションは、図２の双方向システム２２０、図３のユーザデバイス３００、図３のユーザ機器システム３０１、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されるプロセス４００を実施してもよい。

ステップ４０２は、アプリケーションが、受信されることが予期される少なくとも１つの予測されるコマンドを決定するステップを含む。アプリケーションは、事前決定された時間において、事象に応答して、１つ以上の状態またはトリガに基づいて、ユーザ挙動に基づいて、またはそれらの組み合わせで、少なくとも１つの予測されるコマンドを決定してもよい。例証的実施例では、ステップ４０２は、双方向システム２２０またはそのコマンド予測器２２４によって実施されてもよい。

いくつかの実施形態では、ステップ４０２では、アプリケーションは、ユーザの視聴挙動の履歴情報、コマンド履歴、選好、ユーザに対応する任意の他の好適な情報、またはそれらの任意の組み合わせに基づいて、少なくとも１つの予測されるコマンドを決定する。例えば、アプリケーションは、コマンド（例えば、音声および非音声コマンドまたはその欠如）の時間履歴、視聴挙動に対するコマンド履歴（例えば、番組開始／停止時間または他の時間マーカに対するコマンドの時間）、視聴履歴（例えば、視聴されるコンテンツおよびその時間）、任意の他のユーザ情報、またはそれらの任意の組み合わせ等の情報を記憶する、または読み出してもよい。例証的実施例では、ステップ４０２では、双方向システム２２０によって実装されるようなアプリケーションは、ユーザ情報２９０から情報を読み出してもよい。例証的実施例では、ステップ４０２では、アプリケーションは、１つ以上の事象に対応する、１つ以上の受信されるコマンドを含む、ユーザ情報２９０から履歴使用情報を読み出してもよい。いくつかの実施形態では、例えば、アプリケーションは、（例えば、記憶装置３０８、ユーザ情報２９０、または両方に記憶された）１つ以上の時間マーカ、およびユーザが開始した（例えば、再び開始する可能性が高い）対応するアクションまたはコマンドを識別してもよい。例えば、データベースは、午後９時のタイムスタンプと、合計Ｎ回生じた「チャネルをＰＢＳに切り替える」という対応するアクションとを有する、エントリを含んでもよい。いくつかの実施形態では、タイムスタンプは、時間マーカとして含まれる（例えば、コンテンツ一覧のグリッドに投入するための情報とともに含まれる）。アプリケーションが、（例えば、時計／時間情報２８０から読み出される）午後９時の時計の時間を検出するとき、アプリケーションは、データベースにアクセスし、対応するコマンドを決定してもよい。例えば、図１の表示１００を参照すると、アプリケーションは、午後８時５９分の時間マーカを検出し、通知１０１に対応するコマンド（例えば、チャネルを変更する）を決定してもよい。いくつかの実施形態では、例えば、アプリケーションは、（例えば、記憶装置３０８、ユーザ情報２９０、または両方に記憶された）ユーザアクション、およびユーザが開始した対応するアクションまたはコマンドに基づいて、１つ以上のトリガを識別してもよい。例えば、データベースは、「ある期間内に事前決定された回数でチャネルを変更する」というユーザアクションと、合計Ｎ回生じた「オンデマンド番組一覧にナビゲートする」という対応するアクションとを有する、エントリを含んでもよい。いくつかの実施形態では、アクショントリガは、アプリケーションによってアクセス可能なメモリ（例えば、記憶装置３０８）内に記憶される。アプリケーションが、ユーザが期間内に事前決定された回数でチャネルを変更したことを検出するとき、アプリケーションは、本トリガを識別し、データベースにアクセスし、対応するコマンドを決定してもよい。例えば、アプリケーションは、１分間に５回のチャネル変更を検出し、「オンデマンド番組一覧にナビゲートする」という対応するコマンドを決定してもよい。いくつかの実施形態では、アプリケーションは、音声コマンドの間の持続時間、最後の音声コマンド以降の時間、音声コマンドの数または頻度、またはそれらの組み合わせを監視してもよい。アプリケーションは、ユーザに音声コマンドを使用または追求するように動機付けするための音声コマンド提案を決定してもよい。音声コマンド提案は、一般的なコマンド、比較的に単純なコマンド、頻用されているコマンド、または任意の他のコマンドであってもよい。

例証的実施例では、アプリケーションは、ステップ４０２において、現在の時間が事前決定された時間マーカに対応することを決定してもよい。アプリケーションは、次いで、ステップ４０２において、（例えば、ユーザ情報２９０から）少なくとも１つの予測されるコマンドに対応する選好情報を読み出し、選好情報に基づいて、音声入力のために好ましいものとして少なくとも１つの予測されるコマンドを識別することによって、少なくとも１つの予測されるコマンドを決定してもよい。さらなる例証的実施例では、アプリケーションは、履歴表示アクティビティ、履歴受信入力、または両方に基づいて、時間マーカを識別してもよい。

いくつかの実施形態では、ステップ４０２において、アプリケーションは、複数のユーザの視聴挙動、コマンド履歴、選好、複数のユーザに対応する任意の他の好適な情報、またはそれらの任意の組み合わせの統計情報に基づいて、少なくとも１つの予測されるコマンドを決定する。アプリケーションは、（例えば、コマンドを抽出するために）履歴情報を記憶するデータベースからデータを読み出す、（例えば、コマンドベースのアクティビティの記録を構築するために）履歴情報を記憶するデータベースにデータを伝送する、または両方を行ってもよい。例えば、アプリケーションは、単一のユーザに関して上記に説明されるものに類似する形態で複数のユーザに関して情報を記憶してもよい。さらに、アプリケーションは、複数のユーザの相互作用の記録から統計情報を抽出してもよい。例証として、アプリケーションは、ユーザがある時間に主に変更するチャネルについての情報を記憶し、予測されるコマンドとして最も頻用されている（例えば、最も頻繁な）コマンドを使用してもよい。さらなる例証的実施例では、アプリケーションは、ユーザの６０％が音楽チャネルに変更するときに音量を増加させることを決定してもよく、したがって、ユーザが音楽チャネルに変更するときに、コマンド「音量を増加させる」を予測してもよい（例えば、チャネル変更コマンドは、音量コマンドのためのトリガである）。例証的実施例では、双方向システム２２０によって実装されるようなアプリケーションは、ユーザ情報２９０から複数のユーザに関する情報を読み出してもよい。

いくつかの実施形態では、ステップ４０２では、アプリケーションは、環境的要因または他の好適な状況情報に基づいて、少なくとも１つの予測されるコマンドを決定する。例証的実施例では、ステップ４０２では、アプリケーションは、視聴環境に対応する１つ以上の事象を識別し、１つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも１つの予測されるコマンドを決定してもよい。アプリケーションは、（例えば、コマンドを抽出するために）状態情報を記憶するデータベースからデータを読み出す、（例えば、状態ベースのアクティビティの記録を構築するために）状態情報を記憶するデータベースにデータを伝送する、または両方を行ってもよい。例証的実施例では、双方向システム２２０によって実装されるようなアプリケーションは、状態情報２７０から情報を読み出してもよい。アプリケーションは、１つ以上のデバイス、センサ、または他の好適なソースに基づいて、（例えば、状態情報２７０から）情報を読み出してもよい。例えば、アプリケーションは、リモートコントロールまたは他の双方向デバイス、周辺デバイス、または任意の他の好適なデバイスへおよびそれから信号を通信し、デバイスの位置を決定するように構成されてもよい。アプリケーションは、１人またはそれを上回るユーザの位置、１つ以上のデバイスの位置、１人またはそれを上回るユーザの存在、１つ以上のデバイスの存在、１つ以上の事象、デバイス上で実施される１つ以上のアクション、任意の他の好適な状態情報、またはそれらの任意の組み合わせを決定してもよい。例えば、アプリケーションは、第１のユーザに近接している他のユーザを決定してもよい。例えば、２人のユーザが、ディスプレイデバイスに近接している場合、アプリケーションは、１人のユーザが去る状態を識別してもよく、対応する音声コマンド推奨（例えば、ユーザが近接に戻るまで番組を一時停止する、またはより遠い距離に到達するように音量を増加させる）を発生させてもよい。さらなる実施例では、１人のユーザが、ディスプレイデバイスに近接している場合、アプリケーションは、別のユーザが到着する状態を識別してもよく、対応する音声コマンド推奨（例えば、事前決定された時間の後にユーザが位置するまで番組を一時停止する）を発生させてもよい。

例証的実施例では、ステップ４０２において、アプリケーションは、１つ以上の事象を識別し、履歴使用情報を読み出し、１つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも１つの予測されるコマンドを決定することによって、受信されることが予期される少なくとも１つの予測されるコマンドを決定してもよい。例証として、アプリケーションは、電話の呼び出し音を識別し、ユーザが、通常、電話の呼び出しに応答して音量をミュートすることを決定し、「音量を減少させる」という予測されるコマンドを決定してもよい。

ステップ４０４は、アプリケーションが、音声コマンド推奨を発生させるステップを含む。音声コマンド推奨は、ステップ４０２の少なくとも１つの予測されるコマンドに対応する。例証的実施例では、双方向システム２２０によって実装されるようなアプリケーションは、推奨発生器２２５を使用し、４０４を実施してもよい。例証的実施例では、アプリケーションは、ディスプレイデバイスに、音声コマンド推奨に対応する視覚インジケータを含むように表示を修正させることによって、ステップ４０４において音声コマンド推奨を発生させてもよい。アプリケーションは、図１の通知１０１および１５１によって図示されるように、通知の形態で推奨を発生させてもよい。ステップ４０４の推奨は、音声コマンドの説明、導入の言葉（例えば、挨拶または他の和らげる言葉）、認識される例証的音声応答、応答のための時間制限、コンテキスト情報（例えば、推奨に関するトリガまたは理由、最後の音声コマンド以降の時間、音声コマンドを使用しようとする奨励）、フィードバック（例えば、そのような通知を提供するかどうか、そのような通知を提供する時間）、任意の他の好適な情報、またはそれらの任意の組み合わせを含んでもよい。いくつかの実施形態では、アプリケーションは、ステップ４０２の予測されるコマンド、（例えば、ユーザ情報２９０からの）ユーザについての情報、（例えば、状態情報２７０からの）状態または状況についての情報、コンテンツ一覧についての情報（例えば、番組タイトルまたはサムネイル画像）、１人またはそれを上回る他のユーザについての情報（例えば、コマンドが頻用されている程度）、音声コマンドを使用するための理由（例えば、単一の単語を話すことが、リモートコントロール上の数回のキーストロークに取って代わる）、任意の他の好適な情報、またはそれらの任意の組み合わせに基づく、テキスト、画像、ビデオ、またはそれらの組み合わせを含み得る、通知を構築する。いくつかの実施形態では、アプリケーションは、通知をユーザに提示する方法を決定する。例えば、アプリケーションは、（例えば、表示発生器２２１を使用して）ディスプレイデバイス上の表示のために図１の通知１０１および１５１によって図示されるようなテキストボックスオーバーレイをフォーマットしてもよい。さらなる例証的実施例では、アプリケーションは、オーディオデバイス（例えば、スピーカ）に、音声コマンド推奨に対応する可聴インジケータを発生させることによって、音声コマンド推奨を発生させてもよい。さらなる実施例では、アプリケーションは、通知に基づいて発話を発生させ、スピーカまたは他のオーディオ機器（例えば、オーディオ機器３１４）上でオーディオ出力を発生させることによって、ユーザへの音声クエリを発生させてもよい。いくつかの実施形態では、予測されるコマンドは、対応する音声コマンドが１つも存在しない、非音声コマンドまたは一連の非音声コマンドに対応し得る。いくつかのそのような実施形態では、アプリケーションは、ある好適な程度に非音声コマンドに対応する、より単純な、または別様により限定された音声コマンドを決定してもよい。例えば、予測されるコマンドは、オンデマンド画面にナビゲートする、オンデマンドコンテンツのチャネルを選択する、および（例えば、ユーザのコンテンツをブラウズする履歴に基づいて）コンテンツの説明を閲覧する等の一連のアクションを含んでもよい。アプリケーションは、オンデマンド画面にナビゲートするためのみの音声コマンドを推奨し、（例えば、特に、ユーザが音声コマンドを頻繁に使用しない場合）ユーザとの比較的により簡潔な相互作用を促進してもよい。いくつかの実施形態では、アプリケーションは、１つを上回る音声コマンド推奨を発生させる。例えば、通知は、１つ以上の機能を達成するための１つ以上の推奨される音声コマンドを含んでもよい。

例証的実施例では、ステップ４０２の予測されるコマンドは、アクションを含み、ステップ４０４の音声コマンド推奨は、そのコマンドを達成するためのユーザへの推奨を含む。いくつかの実施形態では、予測されるコマンドおよび推奨される音声コマンドは、同一である。例えば、いくつかのそのような実施形態では、ステップ４０２および４０４は、組み合わせられてもよい（例えば、コマンド予測器２２４および推奨発生器２２５は、組み合わせられてもよい）。

ステップ４０６は、アプリケーションが、音声入力を受信するように構成されるオーディオインターフェースをアクティブ化するステップを含む。いくつかの実施形態では、オーディオインターフェースは、常に、オーディオ入力を受信するように構成される。いくつかの実施形態では、オーディオインターフェースは、（例えば、タッチスクリーン上のソフトボタンを選択し、オーディオ録音を開始することによって）ユーザがインジケーションをユーザ入力インターフェースに提供するときに、オーディオ入力を受信するように構成される。いくつかの実施形態では、オーディオインターフェースは、ステップ４０４において音声コマンド推奨を発生させることに応答して、オーディオ入力を受信するように構成される。いくつかの実施形態では、オーディオインターフェースは、オーディオ入力を受信するように構成され、発話または他の好適なオーディオ信号が検出されるときに録音を開始する。

ステップ４０８は、アプリケーションが、オーディオインターフェースにおいて音声入力を受信するステップを含む。いくつかの実施形態では、オーディオインターフェース（例えば、オーディオ機器３１４、ユーザ入力インターフェース３１０、またはそれらの組み合わせ）は、オーディオ入力を受信し、電子信号を発生させる、マイクロホンまたは他のセンサを含んでもよい。いくつかの実施形態では、オーディオ入力は、オーディオファイルを発生させるように調整、サンプリング、およびデジタル化される、アナログ信号を提供する、アナログセンサにおいて受信される。いくつかの実施形態では、オーディオファイルは、メモリ（例えば、記憶装置３０８）内に記憶される。クエリアプリケーションは、オーディオ入力を記憶されたオーディオファイルに変換するための任意の好適な調整ソフトウェアまたはハードウェアを含んでもよい。例えば、アプリケーションは、１つ以上のフィルタ（例えば、低域通過、高域通過、ノッチフィルタ、または帯域通過フィルタ）、増幅器、デシメータ、または他の調整を適用し、オーディオファイルを発生させてもよい。さらなる実施例では、アプリケーションは、圧縮、変換（例えば、スペクトル変換、ウェーブレット変換）、正規化、等化、（例えば、時間またはスペクトルドメイン内の）切り捨て、任意の他の好適な処理、またはそれらの任意の組み合わせ等の任意の好適な処理を調整された信号に適用し、オーディオファイルを発生させてもよい。いくつかの実施形態では、ステップ４０８において、制御回路は、さらなる処理のために、記憶装置（例えば、記憶装置３０８）内に記憶されたオーディオファイルとして音声コマンドを受信してもよい。

いくつかの実施形態では、アプリケーションは、受信されたオーディオの断片（すなわち、短い持続時間のクリップ）を記憶し、断片を処理してもよい。いくつかの実施形態では、アプリケーションは、発話の比較的に大きいセグメント（例えば、１０秒を上回る）をオーディオファイルとして記憶し、ファイルを処理する。いくつかの実施形態では、クエリアプリケーションは、発話を処理し、持続的算出を使用することによって単語を検出してもよい。例えば、ウェーブレット変換が、リアルタイムで発話に実施されてもよく、発話パターン（例えば、単語を識別するように基準と比較され得る）のわずかに遅動型であるとしても持続的な算出を提供する。いくつかの実施形態では、アプリケーションは、本開示によると、単語および単語を発したユーザ（例えば、音声認識）を検出してもよい。

アプリケーションは、任意の好適な単語検出技法、発話検出技法、パターン認識技法、信号処理技法、またはそれらの任意の組み合わせを使用して、ステップ４０８において音声入力を受信し、単語を処理してもよい。例えば、アプリケーションは、一連の信号テンプレートをオーディオ信号の一部と比較し、合致が存在するかどうか（例えば、特定の単語がオーディオ信号に含まれるかどうか）を見出してもよい。さらなる実施例では、アプリケーションは、学習技法を適用し、音声コマンドの中の単語をより良好に認識してもよい。例えば、アプリケーションは、複数の音声コマンドについてのユーザからのフィードバックを収集し、故に、過去のデータを音声コマンドの推奨を行うための訓練セットとして使用してもよい。

ステップ４１０は、アプリケーションが、少なくとも１つの予測されるコマンドを実施するステップを含む。アプリケーションは、音声入力を受信することに応答して、ステップ４０２の少なくとも１つの予測されるコマンドまたはその一部を実施する。いくつかの実施形態では、アプリケーションは、応答を事前決定された時間（例えば、３０秒または任意の他の好適な時間）待機し、次いで、通知を表示することを停止してもよい。例えば、応答（例えば、音声入力）が検出されない、または別様に認識可能ではない（例えば、発話検出が認識された応答を識別することに成功していない）場合、アプリケーションは、通知を提示することを停止する、時間制限が迫っているというインジケータを用いて通知を修正する、通知を修正して可視性を増加させる（例えば、ユーザからの注目を集めるように、通知の色、サイズ、またはコントラストを変化させる）、オーディオインジケータを発生させる（例えば、ユーザにアラートするためのビープ音、音、または発話を発生させる）、またはそれらの任意の組み合わせを行ってもよい。いくつかの実施形態では、アプリケーションは、音声入力が検出または認識されなかった、負の音声入力が受信された（例えば、「いいえ」または「終了」）、または状態またはトリガが変化した（例えば、修正された通知が発生され得る）ため、予測されるコマンドを実施しない。アプリケーションは、好適な音声入力を受信することに応答して即時に、事前決定された時間に（例えば、図１の表示１００によって図示されるように、午後９時にチャネルを変更する）、事象発生に応答して、または任意の他の好適な時間に、少なくとも１つの予測されるコマンドを実施してもよい。

例証的実施例では、アプリケーションは、ステップ４０２において、表示を第１のチャネルに対応するコンテンツから第２のチャネルに対応するコンテンツに変更するステップを含む、予測されるコマンドを決定してもよく、ステップ４１０において、第２のチャネルに対応するコンテンツを表示することによって、少なくとも１つの予測されるコマンドを実施してもよい。

さらなる例証的実施例では、アプリケーションは、表示と関連付けられるオーディオトラックの音量を変更するステップを含む、予測されるコマンドを決定してもよく、ステップ４１０において、オーディオトラックの音量を増加または減少させることによって、少なくとも１つの予測されるコマンドを実施してもよい。

図５は、本開示のいくつかの実施形態による、音声コマンド相互作用を管理するための例証的プロセス５００のフローチャートを示す。いくつかの実施形態では、下記に説明されるように、プロセス４００は、図２の双方向システム２２０、図３のユーザデバイス３００、図３のユーザ機器システム３０１、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されてもよい。例証的実施例では、本システムは、プロセス５００を実施するためのアプリケーション（例えば、図４との関連で説明されるアプリケーションに類似する）を実装してもよい。

ステップ５０２は、本システムが、相互作用、状態、時間、任意の他の好適な情報、またはそれらの任意の組み合わせを監視し、トリガを識別するステップを含む。例えば、本システムは、キーストローク、非音声コマンド、音声コマンド、現在の時間、持続時間、事象、１つ以上のデバイス上のアクティビティ、任意の他の好適なアクティビティまたは情報、またはそれらの任意の組み合わせを監視してもよい。例えば、本システムは、情報５９０から潜在的トリガまたは基準を読み出す、使用データを情報５９０に伝送する、または両方を行ってもよい。情報５９０は、例えば、ユーザ情報２９０、状態情報２７０、時計／時間情報２８０、任意の他の好適な情報、またはそれらの任意の組み合わせを含んでもよい。

ステップ５０４は、本システムは、トリガが検出されたどうかを決定するステップを含む。いくつかの実施形態では、本システムは、１つ以上のトリガが生じたかどうかを決定し、トリガを検出することに応答して、本システムは、ステップ５０６に進み、コマンドを決定してもよい。本システムは、持続的に、間隔を置いて、入力を受信することに応答して、または任意の他の好適な時間に、トリガに関して監視してもよい。

ステップ５０６は、本システムが、ステップ５０２の検出されたトリガに基づいて、コマンドを決定するステップを含む。いくつかの実施形態では、本システムは、ステップ５０４における検出されたトリガに基づいて、情報５９０からコマンドを読み出す。コマンドは、例えば、データベース内の関係を含む、任意の好適な基準に基づいて、トリガに対応し得る。

ステップ５０８は、本システムが、ステップ５０６のコマンドに基づいて、通知を発生させるステップを含む。本システムは、ステップ５０８において、推奨される音声コマンドを決定し、（例えば、ディスプレイデバイスまたはオーディオデバイスを使用して）ユーザへの視覚またはオーディオ通知を発生させてもよい。

ステップ５１０は、本システムが、インターフェース（例えば、オーディオインターフェース）をアクティブ化するステップを含む。本システムは、ステップ５０８の前に、後に、またはそれと同時に、ステップ５１０を実施してもよい。例えば、本システムは、ステップ５０４において検出されるトリガ、情報５９０からの情報の読出、ステップ５０８における通知の発生に応答して、または任意の他の好適な時間に、ステップ５１０を実施してもよい。

ステップ５１２は、本システムが、応答がステップ５１０においてアクティブ化されたインターフェースにおいて検出されたかどうかを決定するステップを含む。本システムは、事前決定された期間にわたって、応答が検出されるまで、事象が生じる（例えば、音声または非音声である任意のコマンドが受信される）まで、任意の他の好適な持続時間で、またはそれらの任意の組み合わせで、インターフェースを監視してもよい。例えば、本システムは、発話検出技法を使用して、インターフェースにおいて受信される信号を処理してもよい。本システムが、認識可能な音声入力を識別するとき、本システムは、ステップ５１４に進み、コマンドに応答してもよい。

ステップ５１４は、本システムが、ステップ５０８の通知に対応するコマンドを実施するステップを含む。本システムは、ステップ５１４において、チャネルを変更すること、音量を変更またはミュート（解除）すること、デバイスをオンまたはオフにすること、番組を一時停止または再生すること、番組を巻き戻しまたは早送りすること、表示または表示設定を変更すること、任意の他の好適な機能、またはそれらの任意の組み合わせを含む、任意の好適な機能を実施してもよい。

ステップ５１６は、本システムが、通知を修正、更新、または置換するかどうかを決定するステップを含む。例えば、ステップ５１２において、応答が検出されない場合、本システムは、ステップ５１６において、通知を修正するかどうかを決定してもよい。例えば、本システムは、システムを修正しないことを決定し、ステップ５０２における相互作用を監視するステップに戻ってもよい。さらなる実施例では、本システムは、ステップ５０８の通知を修正、更新、または置換することを決定し、システムと相互作用するようにユーザに要請する、通知をユーザにリマインドする、または別様に認識可能かつ実施可能な音声応答の欠如を示してもよい。

ステップ５１８は、本システムが、プロセス５００の間の、またはそれと関連した相互作用に基づいて、好適な情報を記憶するステップを含む。例えば、実施されたコマンド、音声応答の欠如、検出されるトリガ、プロセス５００の任意の側面と関連付けられる時間情報、任意の他の好適な情報、またはそれらの任意の組み合わせの記録が、（例えば、コマンドおよび使用挙動の以降の決定のために）履歴情報に包含するために情報５９０に記憶されてもよい。故に、本システムは、将来のコマンド予測および音声コマンド推奨のために、ユーザの挙動および選好の記録を構築することができる。

本開示の上記に説明される実施形態は、限定ではなく、例証の目的のために提示され、本開示は、以下に続く請求項のみによって限定される。さらに、いずれか１つの実施形態に説明される特徴および限界が、本明細書の任意の他の実施形態に適用され得、一実施形態に関するフローチャートまたは実施例が、好適な様式で任意の他の実施形態と組み合わせられる、異なる順序で行われる、または並行して行われ得ることに留意されたい。加えて、本明細書に説明されるシステムおよび方法は、リアルタイムで実施され得る。また、上記に説明されるシステムおよび／または方法は、他のシステムおよび／または方法に適用される、またはそれに従って使用され得ることにも留意されたい。

本明細書は、限定ではないが、以下を含む、実施形態を開示する。
１．音声コマンド推奨を提供するための方法であって、
受信されることが予期される少なくとも１つの予測されるコマンドを決定するステップと、
制御回路を使用して、音声コマンド推奨を発生させるステップであって、音声コマンド推奨は、少なくとも１つの予測されるコマンドに対応する、ステップと、
音声入力を受信するように構成されるオーディオインターフェースをアクティブ化するステップと、
オーディオインターフェースにおいて音声入力を受信するステップと、
音声入力を受信することに応答して、少なくとも１つの予測されるコマンドを実施するステップと、
を含む、方法。
２．少なくとも１つの予測されるコマンドは、表示を第１のチャネルに対応するコンテンツから第２のチャネルに対応するコンテンツに変更するステップを含み、
少なくとも１つの予測されるコマンドを実施するステップは、第２のチャネルに対応するコンテンツを表示するステップを含む、
項目１に記載の方法。
３．少なくとも１つの予測されるコマンドは、表示と関連付けられるオーディオトラックの音量を変更するステップを含み、
少なくとも１つの予測されるコマンドを実施するステップは、オーディオトラックの音量を増加または減少させるステップを含む、
項目１に記載の方法。
４．現在の時間が事前決定された時間マーカに対応することを決定するステップをさらに含み、少なくとも１つの予測されるコマンドを決定するステップは、
少なくとも１つの予測されるコマンドに対応する選好情報を読み出すステップと、
選好情報に基づいて、音声入力のために好ましいものとして少なくとも１つの予測されるコマンドを識別するステップと、
を含む、項目１に記載の方法。
５．履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも１つに基づいて、時間マーカを識別するステップを含む、項目４に記載の方法。
６．音声コマンド推奨を発生させるステップは、音声コマンド推奨に対応する視覚インジケータを含むように、ディスプレイデバイス上に発生される表示を修正するステップを含む、項目１に記載の方法。
７．音声コマンド推奨を発生させるステップは、オーディオデバイスを使用して、音声コマンド推奨に対応する可聴インジケータを発生させるステップを含む、項目１に記載の方法。
８．受信されることが予期される少なくとも１つの予測されるコマンドを決定するステップは、
１つ以上の事象を識別するステップと、
履歴使用情報を読み出すステップと、
１つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも１つの予測されるコマンドを決定するステップと、
を含む、項目１に記載の方法。
９．履歴使用情報は、１つ以上の事象に対応する、１つ以上の受信されるコマンドを備える、項目８に記載の方法。
１０．
視聴環境に対応する、１つ以上の事象を識別するステップと、
１つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも１つの予測されるコマンドを決定するステップと、
をさらに含む、項目１に記載の方法。
１１．音声コマンド推奨を提供するためのシステムであって、
オーディオ入力を受信するように構成される、オーディオインターフェースと、
受信されることが予期される少なくとも１つの予測されるコマンドを決定し、
音声コマンド推奨を発生させ、音声コマンド推奨は、少なくとも１つの予測されるコマンドに対応し、
オーディオインターフェースをアクティブ化し、
オーディオインターフェースから音声入力を受信し、
音声入力を受信することに応答して、少なくとも１つの予測されるコマンドを実施する、
ように構成される、制御回路と、
を備える、システム。
１２．少なくとも１つの予測されるコマンドは、表示を第１のチャネルに対応するコンテンツから第２のチャネルに対応するコンテンツに変更するステップを含み、制御回路はさらに、第２のチャネルに対応するコンテンツを表示することによって、少なくとも１つの予測されるコマンドを実施するように構成される、項目１１に記載のシステム。
１３．少なくとも１つの予測されるコマンドは、表示と関連付けられるオーディオトラックの音量を変更するステップを含み、制御回路はさらに、オーディオトラックの音量を増加または減少させることによって、少なくとも１つの予測されるコマンドを実施するように構成される、項目１１に記載のシステム。
１４．制御回路はさらに、
現在の時間が事前決定された時間マーカに対応することを決定し、
少なくとも１つの予測されるコマンドに対応する選好情報を読み出すステップと、
選好情報に基づいて、音声入力のために好ましいものとして少なくとも１つの予測されるコマンドを識別するステップと、
によって、少なくとも１つの予測されるコマンドを決定する、
ように構成される、項目１１に記載のシステム。
１５．制御回路はさらに、履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも１つに基づいて、時間マーカを識別するように構成される、項目１４に記載のシステム。
１６．ディスプレイデバイスをさらに備え、制御回路はさらに、ディスプレイデバイスに、音声コマンド推奨に対応する視覚インジケータを含むように表示を修正させることによって、音声コマンド推奨を発生させるように構成される、項目１１に記載のシステム。
１７．オーディオデバイスをさらに備え、制御回路はさらに、オーディオデバイスに、音声コマンド推奨に対応する可聴インジケータを発生させることによって、音声コマンド推奨を発生させるように構成される、項目１１に記載のシステム。
１８．制御回路はさらに、
１つ以上の事象を識別するステップと、
履歴使用情報を読み出すステップと、
１つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも１つの予測されるコマンドを決定するステップと、
によって、受信されることが予期される少なくとも１つの予測されるコマンドを決定するように構成される、
項目１１に記載のシステム。
１９．履歴使用情報は、１つ以上の事象に対応する、１つ以上の受信されるコマンドを備える、項目１８に記載のシステム。
２０．制御回路はさらに、
視聴環境に対応する、１つ以上の事象を識別し、
１つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも１つの予測されるコマンドを決定する、
ように構成される、項目１１に記載のシステム。
２１．非一過性のコンピュータ可読媒体であって、制御回路によって実行されると、制御回路に、
受信されることが予期される少なくとも１つの予測されるコマンドを決定させ、
音声コマンド推奨を発生させ、音声コマンド推奨は、少なくとも１つの予測されるコマンドに対応し、
音声入力を受信するように構成されるオーディオインターフェースをアクティブ化させ、
オーディオインターフェースにおいて音声入力を受信させ、
音声入力を受信することに応答して、少なくとも１つの予測されるコマンドを実施させる、
その上にエンコードされた命令を有する、非一過性のコンピュータ可読媒体。
２２．少なくとも１つの予測されるコマンドは、表示を第１のチャネルに対応するコンテンツから第２のチャネルに対応するコンテンツに変更するステップを含み、制御回路によって実行されると、制御回路に、第２のチャネルに対応するコンテンツを表示することによって、少なくとも１つの予測されるコマンドを実施させる、その上にエンコードされた命令をさらに備える、項目２１に記載の非一過性のコンピュータ可読媒体。
２３．少なくとも１つの予測されるコマンドは、表示と関連付けられるオーディオトラックの音量を変更するステップを含み、制御回路によって実行されると、制御回路に、オーディオトラックの音量を増加または減少させることによって、少なくとも１つの予測されるコマンドを実施させる、その上にエンコードされた命令をさらに備える、項目２１に記載の非一過性のコンピュータ可読媒体。
２４．制御回路によって実行されると、制御回路に、
現在の時間が事前決定された時間マーカに対応することを決定させ、
少なくとも１つの予測されるコマンドに対応する選好情報を読み出すステップと、
選好情報に基づいて、音声入力のために好ましいものとして少なくとも１つの予測されるコマンドを識別するステップと、
によって、少なくとも１つの予測されるコマンドを決定させる、
その上にエンコードされた命令をさらに備える、項目２１に記載の非一過性のコンピュータ可読媒体。
２５．制御回路によって実行されると、制御回路に、履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも１つに基づいて、時間マーカを識別させる、その上にエンコードされた命令をさらに備える、項目２４に記載の非一過性のコンピュータ可読媒体。
２６．制御回路によって実行されると、制御回路に、音声コマンド推奨に対応する視覚インジケータを含むように、ディスプレイデバイス上に発生される表示を修正することによって、音声コマンド推奨を発生させる、その上にエンコードされた命令をさらに備える、項目２１に記載の非一過性のコンピュータ可読媒体。
２７．制御回路によって実行されると、制御回路に、オーディオデバイスを使用して、音声コマンド推奨に対応する可聴インジケータを発生させることによって、音声コマンド推奨を発生させる、その上にエンコードされた命令をさらに備える、項目２１に記載の非一過性のコンピュータ可読媒体。
２８．制御回路によって実行されると、制御回路に、
１つ以上の事象を識別するステップと、
履歴使用情報を読み出すステップと、
１つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも１つの予測されるコマンドを決定するステップと、
によって、受信されることが予期される少なくとも１つの予測されるコマンドを決定させる、
その上にエンコードされた命令をさらに備える、項目２１に記載の非一過性のコンピュータ可読媒体。
２９．履歴使用情報は、１つ以上の事象に対応する、１つ以上の受信されるコマンドを備える、項目２８に記載の非一過性のコンピュータ可読媒体。
３０．制御回路によって実行されると、制御回路に、
視聴環境に対応する、１つ以上の事象を識別させ、
１つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも１つの予測されるコマンドを決定させる、
その上にエンコードされた命令をさらに備える、項目２１に記載の非一過性のコンピュータ可読媒体。
３１．音声コマンド推奨を提供するためのシステムであって、
受信されることが予期される少なくとも１つの予測されるコマンドを決定するための手段と、
音声コマンド推奨を発生させるための手段であって、音声コマンド推奨は、少なくとも１つの予測されるコマンドに対応する、手段と、
音声入力を受信するように構成されるオーディオインターフェースをアクティブ化するための手段と、
オーディオインターフェースにおいて音声入力を受信するための手段と、
音声入力を受信することに応答して、少なくとも１つの予測されるコマンドを実施するための手段と、
を備える、システム。
３２．
少なくとも１つの予測されるコマンドは、表示を第１のチャネルに対応するコンテンツから第２のチャネルに対応するコンテンツに変更するステップを含み、
少なくとも１つの予測されるコマンドを実施するための手段は、第２のチャネルに対応するコンテンツを表示するための手段を備える、
項目３１に記載のシステム。
３３．少なくとも１つの予測されるコマンドは、表示と関連付けられるオーディオトラックの音量を変更するステップを含み、
少なくとも１つの予測されるコマンドを実施するための手段は、オーディオトラックの音量を増加または減少させるための手段を備える、
項目３１に記載のシステム。
３４．現在の時間が事前決定された時間マーカに対応することを決定するための手段をさらに備え、少なくとも１つの予測されるコマンドを決定するための手段は、
少なくとも１つの予測されるコマンドに対応する選好情報を読み出すための手段と、
選好情報に基づいて、音声入力のために好ましいものとして少なくとも１つの予測されるコマンドを識別するための手段と、
を備える、項目３１に記載のシステム。
３５．履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも１つに基づいて、時間マーカを識別するための手段をさらに備える、項目３４に記載のシステム。
３６．音声コマンド推奨を発生させるための手段は、音声コマンド推奨に対応する視覚インジケータを含むように、ディスプレイデバイス上に発生される表示を修正するための手段を備える、項目３１に記載のシステム。
３７．音声コマンド推奨を発生させるための手段は、オーディオデバイスを使用して、音声コマンド推奨に対応する可聴インジケータを発生させるための手段を備える、項目３１に記載のシステム。
３８．受信されることが予期される少なくとも１つの予測されるコマンドを決定するための手段は、
１つ以上の事象を識別するための手段と、
履歴使用情報を読み出すための手段と、
１つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも１つの予測されるコマンドを決定するための手段と、
を備える、項目３１に記載のシステム。
３９．履歴使用情報は、１つ以上の事象に対応する、１つ以上の受信されるコマンドを備える、項目３８に記載のシステム。
４０．
視聴環境に対応する、１つ以上の事象を識別するための手段と、
１つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも１つの予測されるコマンドを決定するための手段と、
をさらに備える、項目３１に記載のシステム。
４１．音声コマンド推奨を提供するための方法であって、
受信されることが予期される少なくとも１つの予測されるコマンドを決定するステップと、
制御回路を使用して、音声コマンド推奨を発生させるステップであって、音声コマンド推奨は、少なくとも１つの予測されるコマンドに対応する、ステップと、
音声入力を受信するように構成されるオーディオインターフェースをアクティブ化するステップと、
オーディオインターフェースにおいて音声入力を受信するステップと、
音声入力を受信することに応答して、少なくとも１つの予測されるコマンドを実施するステップと、
を含む、方法。
４２．
予測されるコマンドは、表示を第１のチャネルに対応するコンテンツから第２のチャネルに対応するコンテンツに変更するステップを含み、
少なくとも１つの予測されるコマンドを実施するステップは、第２のチャネルに対応するコンテンツを表示するステップを含む、
項目４１に記載の方法。
４３．
予測されるコマンドは、表示と関連付けられるオーディオトラックの音量を変更するステップを含み、
少なくとも１つの予測されるコマンドを実施するステップは、オーディオトラックの音量を増加または減少させるステップを含む、
項目４１および４２のいずれかに記載の方法。
４４．現在の時間が事前決定された時間マーカに対応することを決定するステップをさらに含み、少なくとも１つの予測されるコマンドを決定するステップは、
少なくとも１つの予測されるコマンドに対応する選好情報を読み出すステップと、
選好情報に基づいて、音声入力のために好ましいものとして少なくとも１つの予測されるコマンドを識別するステップと、
を含む、項目４１－４３のいずれかに記載の方法。
４５．履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも１つに基づいて、時間マーカを識別するステップをさらに含む、項目４４に記載の方法。
４６．音声コマンド推奨を発生させるステップは、音声コマンド推奨に対応する視覚インジケータを含むように、ディスプレイデバイス上に発生される表示を修正するステップを含む、項目４１－４５のいずれかに記載の方法。
４７．音声コマンド推奨を発生させるステップは、オーディオデバイスを使用して、音声コマンド推奨に対応する可聴インジケータを発生させるステップを含む、項目４１－４６のいずれかに記載の方法。
４８．受信されることが予期される少なくとも１つの予測されるコマンドを決定するステップは、
１つ以上の事象を識別するステップと、
履歴使用情報を読み出すステップと、
１つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも１つの予測されるコマンドを決定するステップと、
を含む、項目４１－４７のいずれかに記載の方法。
４９．履歴使用情報は、１つ以上の事象に対応する、１つ以上の受信されるコマンドを備える、項目４８に記載の方法。
５０．視聴環境に対応する、１つ以上の事象を識別するステップと、
１つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも１つの予測されるコマンドを決定するステップと、
をさらに含む、項目４１－４９のいずれかに記載の方法。

Claims

音声コマンド推奨を提供するための方法であって、前記方法は、
受信されることが予期される少なくとも１つの予測されるコマンドを決定することと、
制御回路を使用して、音声コマンド推奨を発生させることであって、前記音声コマンド推奨は、前記少なくとも１つの予測されるコマンドに対応する、ことと、
音声入力を受信するように構成されるオーディオインターフェースをアクティブ化することと、
前記オーディオインターフェースにおいて前記音声入力を受信することと、
前記音声入力を受信することに応答して、前記少なくとも１つの予測されるコマンドを実施することと
を含む、方法。
前記予測されるコマンドは、表示を第１のチャネルに対応するコンテンツから第２のチャネルに対応するコンテンツに変更することを含み、
前記少なくとも１つの予測されるコマンドを実施することは、前記第２のチャネルに対応する前記コンテンツを表示することを含む、
請求項１に記載の方法。
前記予測されるコマンドは、前記表示と関連付けられるオーディオトラックの音量を変更することを含み、
前記少なくとも１つの予測されるコマンドを実施することは、前記オーディオトラックの音量を増加または減少させることを含む、
請求項１および２のいずれかに記載の方法。
現在の時間が事前決定された時間マーカに対応することを決定することをさらに含み、前記少なくとも１つの予測されるコマンドを決定することは、
前記少なくとも１つの予測されるコマンドに対応する選好情報を読み出すことと、
選好情報に基づいて、音声入力のために好ましいものとして前記少なくとも１つの予測されるコマンドを識別することと
を含む、請求項１－３のいずれかに記載の方法。
履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも１つに基づいて、前記時間マーカを識別することをさらに含む、請求項４に記載の方法。
前記音声コマンド推奨を発生させることは、前記音声コマンド推奨に対応する視覚インジケータを含むように、ディスプレイデバイス上に発生される表示を修正することを含む、請求項１－５のいずれかに記載の方法。
前記音声コマンド推奨を発生させることは、オーディオデバイスを使用して、前記音声コマンド推奨に対応する可聴インジケータを発生させることを含む、請求項１－６のいずれかに記載の方法。
受信されることが予期される前記少なくとも１つの予測されるコマンドを決定することは、
１つ以上の事象を識別することと、
履歴使用情報を読み出すことと、
前記１つ以上の事象に基づいて、かつ前記履歴使用情報に基づいて、前記少なくとも１つの予測されるコマンドを決定することと
を含む、請求項１－７のいずれかに記載の方法。
前記履歴使用情報は、前記１つ以上の事象に対応する１つ以上の受信されるコマンドを備える、請求項８に記載の方法。
視聴環境に対応する１つ以上の事象を識別することと、
前記１つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される前記少なくとも１つの予測されるコマンドを決定することと
をさらに含む、請求項１－９のいずれかに記載の方法。
音声コマンド推奨を提供するためのシステムであって、前記システムは、
メモリと、
請求項１－１０のいずれかに記載の方法のステップを実装するための手段と
を備える、システム。
非一過性のコンピュータ可読媒体であって、前記非一過性のコンピュータ可読媒体は、その上にエンコードされた命令を有しており、前記命令は、制御回路によって実行されると、制御回路が請求項１－１０のいずれかに記載の方法のステップを実行することを可能にする、非一過性のコンピュータ可読媒体。
音声コマンド推奨を提供するためのシステムであって、前記システムは、
請求項１－１０のいずれかに記載の方法のステップを実装するための手段を備える、システム。