JP2023506341A - 音声コマンド推奨を提供するためのシステムおよび方法 - Google Patents

音声コマンド推奨を提供するためのシステムおよび方法 Download PDF

Info

Publication number
JP2023506341A
JP2023506341A JP2021577435A JP2021577435A JP2023506341A JP 2023506341 A JP2023506341 A JP 2023506341A JP 2021577435 A JP2021577435 A JP 2021577435A JP 2021577435 A JP2021577435 A JP 2021577435A JP 2023506341 A JP2023506341 A JP 2023506341A
Authority
JP
Japan
Prior art keywords
command
user
voice
information
expected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021577435A
Other languages
English (en)
Other versions
JPWO2021119150A5 (ja
Inventor
ジョゼ, ジェフリー コップス ロバート
アンクール アヘル,
Original Assignee
ロヴィ ガイズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ロヴィ ガイズ, インコーポレイテッド filed Critical ロヴィ ガイズ, インコーポレイテッド
Publication of JP2023506341A publication Critical patent/JP2023506341A/ja
Publication of JPWO2021119150A5 publication Critical patent/JPWO2021119150A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本システムは、音声コマンド推奨をユーザに提供し、非音声コマンドを回避する。本システムは、受信されることが予期されるコマンドを決定し、予測されるコマンドに対応する音声コマンド推奨を発生させる。予測されるコマンドは、ユーザの挙動、複数のユーザの挙動、電話の呼び出し音等の環境的状況、またはそれらの組み合わせに基づくことができる。本システムは、1つ以上のデータベースにアクセスし、予測されるコマンドを決定し得る。音声コマンド推奨は、推奨される音声コマンドを説明する、表示される通知と、認識される例示的音声入力とを含み得る。本システムはまた、音声入力を受信するように構成される、マイクロホン等のオーディオインターフェースをアクティブ化する。

Description

本開示は、音声コマンド推奨を発生させるためのシステムに関し、より具体的には、予測される相互作用に基づいて音声コマンド推奨を発生させるためのシステムに関する。
会話システムは、娯楽システムとユーザとの間の相互作用を容易で快適にしている。しかしながら、いくつかの状況では、種々の理由により、ユーザは、依然として、音声コマンド以外のシステムと相互作用するための代替方法を選定する。例えば、ユーザは、典型的には、遠隔コントローラを使用してシステムと相互作用し、ユーザのそのような習慣を変化させることは困難であり得る。さらなる実施例では、ユーザは、特定の双方向機能が音声コマンドを使用することによってシステムを用いて達成され得ることを認識しない場合がある。さらなる実施例では、ユーザは、特定の双方向機能を実行するための正確なコマンドを把握していない、または覚えていない場合がある。
本開示は、ユーザが遠隔コントローラを使用する代わりに音声コマンドを使用し、次いで、ユーザへの適切な音声コマンドを提案するために最も便宜的である、状況を識別するためのシステムおよび方法を説明する。いくつかの実施形態では、本システムは、ユーザの挙動およびプロファイル情報の履歴に基づいて、環境キューに基づいて、または任意の他の好適な入力または入力の組み合わせに基づいて、ユーザがシステムと差し迫って相互作用することになるであろうことを予測する。本システムは、音声コマンドのための提案を構築し、提案をユーザに表示し、マイクロホン等のオーディオインターフェースまたはデバイスを準備し、オーディオ入力を受信する。応答して、ユーザは、音声コマンドを提供することができる。音声コマンドが、提案に対応する場合、本システムは、双方向機能を実施するであろう。
本開示の上記および他の目的および利点は、同様の参照記号が全体を通して同様の部分を指す、付随する図面と併せて解釈される、以下の詳細な説明の考慮に応じて明白であろう。
図1は、本開示のいくつかの実施形態による、発生された音声コマンドを含む、2つの例証的表示を示す。
図2は、本開示のいくつかの実施形態による、音声コマンド推奨を発生させるための例証的システムのブロック図である。
図3は、本開示のいくつかの実施形態による、例証的ユーザデバイスのブロック図である。
図4は、本開示のいくつかの実施形態による、音声コマンド推奨を発生させるための例証的プロセスのフローチャートである。
図5は、本開示のいくつかの実施形態による、音声コマンド相互作用を管理するための例証的プロセスのフローチャートを示す。
詳細な説明
本開示は、ユーザが遠隔コントローラを使用する代わりに音声コマンドを使用し、次いで、ユーザへの適切な音声コマンドを提案するために最も便宜的な時間および状況を識別するためのシステムおよび方法を説明する。本機能性は、任意の双方向機能のために最小限の努力を要求することによって、本システムがユーザをより支援することに役立つであろう。本機能性は、ユーザが会話システムの使用法および利点を理解することに役立つであろう。
例証的実施例では、ユーザが、現在、チャネルHBO上である最新のホームコメディのエピソードを鑑賞している。通常のルーチンの一部として、ホームコメディが終了した後、ユーザは、チャネルをSky Newsに変更し、ニュース番組を鑑賞する。概して、ユーザは、リモートコントロールを使用してチャネルを変更する。リモートコントロールが、ユーザの近傍になく、ユーザがそれを握持するために手の届かない所にある場合、本開示のシステムは、本状況を識別する。本システムは、ユーザの履歴に基づいて、ホームコメディが終了すると、ユーザがチャネルをSky Newsに変更することを所望することを予測する。本システムはまた、ユーザがチャネルを変更するためにTVリモートコントロールを容易に握持することができないことも検出する。応答して、本システムは、チャネルを変更するために使用され得る、音声コマンドをユーザに通知するための本機会を識別する。本システムは、「チャネルを変更するためには、「Sky Newsに合わせて」と言ってください」等の通知をテレビディスプレイ上に表示する。本システムはまた、マイクロホンをアクティブ化し、音声コマンドを受信する。故に、ユーザが、通知によって提案されるような音声コマンドを話す場合、本システムは、続けてチャネルを変更する。
図1は、本開示のいくつかの実施形態による、発生された音声コマンドを含む、例証的表示100および150を示す。例えば、表示100および150は、テレビ画面、コンピュータモニタ、ユーザデバイス画面(例えば、携帯電話のタッチスクリーン)、または任意の他の好適なディスプレイデバイス上に発生されてもよい。表示100および150を発生させるように構成されるシステムは、通知として音声コマンド提案をユーザに提供するための最適な時間を識別する。本システムは、所望の双方向機能が、音声コマンド以外の任意の他の手段によってユーザのために達成することが困難であろう、または別様に音声コマンド提案がユーザにとって有用であり得ることを考慮し得る。したがって、本システムは、ユーザが音声コマンドを使用するであろう可能性を改良する。
図示されるような表示100は、チャネル(または局)によって定義された垂直軸および事前決定された表示時間によって定義された水平軸を伴う、番組識別子のグリッドを含む。例えば、午後8時から午後10時に及ぶタイムスロットが、7つのチャネルに関して図示される。表示100に図示されるような現在の時計の時間は、番組「NCIS:Los Angeles」を強調表示するカーソルを伴って、午後8時59分である。本システムは、金曜日のほぼ午後9時であり、ユーザが、典型的には、チャネル8に切り替え、PBSで「Midsomer Murders」を鑑賞することを識別する。本システムは、ユーザが提供する可能性が高い、予測されるコマンドをユーザに示し、また、ユーザがそのコマンドを音声コマンドとして提供し得る方法のインジケーション「「はい」と言ってください」も含む、通知101を発生させる。本システムが、通知101を発生させるとき、本システムはまた、ユーザが音声入力を提供することを選定した場合、マイクロホンをアクティブ化し、音声コマンドを受信する。ユーザが、「はい」の音声コマンドで応答する場合、本システムは、チャネル変更コマンド(例えば、チャネルをPBSに変更する)を実施するであろう。ユーザが、推奨される音声コマンドで(例えば、ある事前決定された時間以内に)応答しない場合、本システムは、いずれのアクションも実施しない(例えば、ある事前決定された期間後に通知101を表示することを停止してもよい)。
図示されるような表示150は、チャネル(または局)によって定義された垂直軸および事前決定された表示時間によって定義された水平軸を伴う、番組識別子のグリッドを含む。例えば、午後8時から午後10時に及ぶタイムスロットが、7つのチャネルに関して図示される。表示150に図示されるような現在の時計の時間は、番組「NCIS:Los Angeles」を強調表示するカーソルを伴って、午後8時38分である。午後8時38分に、本システムは、電話の呼び出し、スマートドアベル音、またはシステムまたはリモートコントロールへのユーザの近接性の低減等の環境事象を識別する。本システムは、番組を一時停止することの予測されるコマンドを含み、ユーザがそのコマンドを音声コマンドとして提供し得る方法のインジケーション「「はい」と言ってください」も含む、通知151を発生させる。本システムが、通知151を発生させるとき、本システムはまた、ユーザが音声入力を提供することを選定した場合、マイクロホンをアクティブ化し、音声コマンドを受信する。ユーザが、「はい」の音声コマンドで応答する場合、本システムは、現在の番組の再生を一時停止するであろう。ユーザが、推奨される音声コマンドで(例えば、ある事前決定された時間以内に)応答しない場合、本システムは、いずれのアクションも実施しない(例えば、ある事前決定された期間後に通知151を表示することを停止する、または以降の時間に通知を繰り返してもよい)。
図2は、本開示のいくつかの実施形態による、音声コマンド推奨を発生させるための例証的システム200のブロック図である。システム200は、双方向システム220と、状態情報270と、時計/時間情報280と、ユーザ情報290と、ディスプレイデバイス250とを含む。図示されるような双方向システム220は、表示発生器221と、非音声入力インターフェース222と、音声入力インターフェース223と、コマンド予測器224と、推奨発生器225と、状態分析器226とを含む。双方向システム220は、ユーザによって必要とされる、またはおそらく必要とされる、双方向機能を検出し、対応する音声コマンドをユーザに通知する。通知は、テレビ画面(例えば、一次画面)上に、または携帯電話画面(例えば、二次画面)等の周辺デバイス上に表示されてもよい。例証的実施例では、システム200は、(1)コマンド予測器224を使用して、非音声入力インターフェース222または音声入力インターフェース223との目前のユーザ相互作用を予測し、(2)状態分析器226を使用して、予測される相互作用が、その時点でユーザのために双方向デバイス(例えば、遠隔コントローラ)を使用して達成することが困難であろうことを識別し、(3)表示発生器221を使用して、システム画面上にそれを表示することによって、双方向機能のための適切な音声コマンドの表示される推奨を用いてユーザに通知するように構成される。さらなる例証的実施例では、システム200は、(1)コマンド予測器224を使用して、ユーザ挙動に基づいて非音声入力インターフェース222との目前のユーザ相互作用を予測し、(2)推奨発生器225を使用して、音声コマンドがユーザ相互作用を達成するための推奨を発生させ、(3)表示発生器221を使用して、システム画面上にそれを表示することによって、双方向機能のための適切な音声コマンドの表示される推奨を用いてユーザに通知し、(4)音声入力インターフェース223をアクティブ化し、音声入力を受信するように構成される。さらなる例証的実施例では、システム200は、(1)コマンド予測器224を使用して、1人またはそれを上回るユーザの挙動に基づいて、実施されるべき目前のアクションを予測し、(2)表示発生器221を使用して、音声コマンドがアクションを達成するために、推奨発生器225を使用して推奨を発生させ、(4)音声入力インターフェース223をアクティブ化し、音声を受信するように構成される。
状態情報270は、ユーザの音声コマンドの使用に影響を及ぼし得る状態についての情報を含む。状態情報270は、1人またはそれを上回るユーザに関して、現在の情報、履歴情報、統計情報、またはそれらの任意の組み合わせを含んでもよい。例えば、状態情報は、位置情報(例えば、履歴位置情報、現在の位置情報、または両方)、事象(例えば、電話の呼び出し音、ドアベル音、デバイス相互作用、アラームのログ、または現在のインスタンス)、任意の他の好適な情報、またはそれらの任意の組み合わせを含んでもよい。例えば、状態情報270は、コンテンツが携帯電話または他の双方向デバイス上で消費されるときについての情報を含んでもよい。いくつかの実施形態では、状態情報270は、第1のユーザに近接する他のユーザについての情報を含む。いくつかの実施形態では、状態情報270は、双方向システム220の一部として含まれる。例えば、状態情報270の情報は、双方向システム220のメモリ記憶装置内に記憶されてもよく、故に、1つ以上の基準に基づいて読み出されてもよい。いくつかの実施形態では、図示されるように、状態情報270は、双方向システム220の一部として含まれる必要はなく、(例えば、有線、無線、または光学ネットワークを介して)双方向システム220に通信可能に結合される別個のデバイスまたはシステムのハードウェア上に実装され得る。
時計/時間情報280は、例えば、現在の時計の時間、ユーザコマンドまたは他の入力と関連付けられる時計の時間、番組の表示時間(例えば、開始時間、終了時間、または持続時間)、番組スケジュール、任意の他の時間情報、またはそれらの任意の組み合わせ等の情報を含む。時計/時間情報280は、任意の好適なデバイスまたはデバイスの組み合わせ上の任意の好適なメモリ内に記憶される。いくつかの実施形態では、例えば、時計/時間情報280は、制御回路によって決定される。時間は、発振器回路(例えば、「リアルタイムクロック」またはRTC)、(例えば、ソフトウェアクロックを較正するように)ネットワークエンティティから通信される時間、ハードウェアおよび/またはソフトウェアに実装される時計、任意の他の好適な時間基準、またはそれらの任意の組み合わせに基づいてもよい。いくつかの実施形態では、時計/時間情報280は、例えば、ユーザコマンドが入力された時間(例えば、現在視聴されているチャネルが変更される時間)、視聴時間(例えば、開始時間、終了時間、持続時間)、任意の他の好適な時間情報、またはそれらの任意の組み合わせ等の1人またはそれを上回るユーザに関する履歴時間情報を含む。例えば、時計/時間情報280またはその一部は、ユーザ情報290に記憶されたデータを伴うタイムスタンプまたは他の好適な時間インジケータとして記憶されてもよい。故に、ユーザ情報290は、時計/時間情報280の少なくとも一部と組み合わせられてもよい。
ユーザ情報290は、ユーザ識別情報(例えば、氏名、識別子、住所、連絡先情報)、以前の音声コマンドまたは以前のリモートコントロールコマンド等のユーザコマンド履歴、ユーザ選好(例えば、検索設定、お気に入りのメディアコンテンツ、時間的視聴選好)、ユーザの好き嫌い(例えば、ユーザ入力情報、ユーザ選択)、ユーザ音声データ(例えば、ユーザの音声を識別するためのオーディオサンプル、シグネチャ、発話パターン、またはファイル)、ユーザについての任意の他の好適な情報、またはそれらの任意の組み合わせを含んでもよい。ユーザ情報290は、その過去の挙動およびプロファイル情報に基づいて、ユーザにとって有用であり得る音声コマンドを予測するための任意の好適な情報を含む。いくつかの実施形態では、ユーザ情報290は、1つ以上のデータベース内に含まれてもよい。いくつかの実施形態では、ユーザ情報290は、複数のユーザに関する統計情報(例えば、検索履歴、コンテンツ消費履歴、消費パターン)、複数のエンティティ(例えば、エンティティと関連付けられるコンテンツ、メタデータ、静的タイプ)、または両方を含む。例えば、ユーザ情報290は、複数のユーザの挙動、選択されたコマンド、音声コマンド、リモートコントロールコマンド、任意の他の好適な情報、またはそれらの任意の組み合わせについての情報を含んでもよい。いくつかの実施形態では、ユーザ情報290は、双方向システム220の一部として含まれる。例えば、ユーザ情報290の情報は、双方向システム220のメモリ記憶装置内に記憶されてもよく、故に、1つ以上の基準に基づいて読み出されてもよい。いくつかの実施形態では、図示されるように、ユーザ情報290は、双方向システム220の一部として含まれる必要はなく、(例えば、有線、無線、または光学ネットワークを介して)双方向システム220に通信可能に結合される別個のデバイスまたはシステムのハードウェア上に実装され得る。例証的実施例では、ユーザ情報290は、表1に図示されるように、任意の好適な相互作用情報を記憶してもよい。
Figure 2023506341000002
表1に図示されるように、チャネル変更、音量調節、および他のコマンド等の相互作用は、頻度および日付/時間とともに、ユーザ情報290に記憶されてもよい。いくつかの実施形態では、ユーザ情報290は、例えば、ゲームコントローラ/コンソール、キーボード、トラックボール、携帯電話、または任意の他のデバイス等のテレビのリモコン以外の他の双方向デバイスに関する記録を記憶し、記憶された値を使用し、音声コマンド通知を提供するかどうかを決定する。いくつかの実施形態では、ユーザ情報290は、状態情報270(例えば、共通データベース内に記憶された)と組み合わせられる。例えば、表1に示されていないが、ユーザ、デバイス、または両方の位置情報もまた、そのような記録に含まれてもよい。
表示発生器221は、ディスプレイデバイス250(例えば、テレビ画面、コンピュータモニタ、またはスマートフォンタッチスクリーン)上に表示を発生させるように構成される。いくつかの実施形態では、システム200は、情報の視覚表示(例えば、表示251)をユーザに提供するように構成される、ディスプレイデバイス250を含む、またはそれに結合される。例証的実施例では、表示251は、図1の表示100および150に類似し得るが、その必要はない。いくつかの実施形態では、表示発生器221は、表示パラメータを決定し、情報を編成する、配列する、構成する、または別様に提示する方法を決定する。表示パラメータは、例えば、画面サイズ、ズームの程度、ピクセル計数または分解能、利用可能な色または色彩パレット、オーバーレイの設置および性質(例えば、通知ウィンドウ)、ユーザ選好、表示を発生させるための任意の他の好適なパラメータ、またはそれらの任意の組み合わせを含んでもよい。いくつかの実施形態では、ディスプレイデバイス250は、要求または提案される表示パラメータを表示発生器221に提供する。いくつかの実施形態では、双方向システム220(例えば、またはその表示発生器221)は、(例えば、ディスプレイデバイス250または任意の他の好適なディスプレイデバイス上に)表示を発生させるための表示パラメータを有する、ソフトウェアドライバまたは他のソフトウェアを含む。例えば、双方向システム220またはその表示発生器221は、ディスプレイデバイス(例えば、ディスプレイデバイス250)の性質、およびディスプレイデバイス上に表示されるべき情報(例えば、ディスプレイデバイス250上に表示されるべき表示251)に基づいて、表示パラメータを決定する、グラフィックスカードまたは他の好適なハードウェアコントローラを含んでもよい。いくつかの実施形態では、表示タイプ、サイズ、およびレイアウトに応じて、表示発生器221は、表示されるグリッドのピッチ、サイズ、詳細のレベル、または他の側面を修正する。例証的実施例では、表示発生器221は、ディスプレイデバイス250上に表示されるグリッドを発生させる。いくつかの実施形態では、双方向システム220またはその表示発生器221は、ビデオデータをディスプレイデバイス250に伝送し、表示251を発生させる。表示251は、コンテンツ識別子、コンテンツ説明、時間インジケータ、カーソル、現在の時間(例えば、時計の時間)、通知、任意の他の好適な特徴、またはそれらの任意の組み合わせを含んでもよい。例えば、双方向システム220またはその表示発生器221は、好適なケーブルまたは接続を経由して、高解像度マルチメディアインターフェース(HDMI(登録商標))信号をディスプレイデバイス250に伝送し、エピソード識別子を含むグリッド(例えば、図1の表示100および150または図2の表示251に類似する)を発生させてもよい。いくつかの実施形態では、双方向システム220またはその表示発生器221は、ディスプレイデバイス250上の既存の表示を更新してもよい。例えば、第1の表示が、ディスプレイデバイス250上に提示されてもよく、双方向システム220またはその表示発生器221は、更新されるいくつかの部分と、類似する、または以前のように維持されるいくつかの部分とを有する、ビデオ信号を伝送することによって、第1の表示を第2の表示に更新してもよい。いくつかの実施形態では、双方向システム220またはその表示発生器221は、ディスプレイデバイス250上の標的空間の中に適合するように構成される、表示のためのグリッドを発生させる。
非音声入力インターフェース222は、例えば、ハンドヘルドリモートコントロールから信号を受信するための受信機、ハードボタン(例えば、スイッチ、押しボタン、または任意の他の好適なユーザ作動型ボタン)、タッチスクリーン(例えば、ボタンまたは他の選択可能または調節可能要素を伴う)、キーパッド(例えば、テキストコマンドを入力するための事前設定されたレイアウトを伴う)、音声入力を処理しない任意の他の好適なインターフェース、またはそれらの任意の組み合わせ等の任意の好適なインターフェースを含んでもよい。非音声入力インターフェース222は、ユーザによる触覚アクション(例えば、画面上のある面積に触れること、またはボタンを押すこと)を含み得る、非音声相互作用を要求する。
音声入力インターフェース223は、例えば、オーディオ信号を受信するためのマイクロホン、信号処理ハードウェア、信号処理ソフトウェア、発話検出ソフトウェア、音声識別ソフトウェア、音声入力を処理するための任意の他の好適なハードウェアまたはソフトウェア、またはそれらの任意の組み合わせを含んでもよい。いくつかの実施形態では、音声入力インターフェース223は、オーディオ入力を受信し、電子信号を発生させる、マイクロホンまたは他のセンサを含む、オーディオインターフェースを含む。いくつかの実施形態では、オーディオ入力は、オーディオファイルを発生させるように調整、サンプリング、およびデジタル化される、アナログ信号を提供する、アナログセンサにおいて受信される。オーディオファイルは、次いで、双方向システム220によって分析されてもよい。音声入力インターフェース223は、随時、発話または他の好適なオーディオ信号が検出されるときに、双方向システム220(例えば、そのコマンド予測器224、推奨発生器225、または状態分析器226)によってアクティブ化されるときに、任意の他の基準に応答して、またはそれらの任意の組み合わせで、オーディオ入力を受信するように構成されてもよい。双方向システム220またはその音声入力インターフェース223は、オーディオ入力を記憶されたオーディオファイルまたは電子信号に変換するための任意の好適な調整ソフトウェアまたはハードウェアを含んでもよい。例えば、双方向システム220またはその音声入力インターフェース223は、1つ以上のフィルタ(例えば、低域通過、高域通過、ノッチフィルタ、または帯域通過フィルタ)、増幅器、デシメータ、または他の調整を適用し、オーディオファイルを発生させてもよい。さらなる実施例では、双方向システム220またはその音声入力インターフェース223は、圧縮、変換(例えば、スペクトル変換、ウェーブレット変換)、正規化、等化、(例えば、時間またはスペクトルドメイン内の)切り捨て、任意の他の好適な処理、またはそれらの任意の組み合わせ等の任意の好適な処理を調整された信号に適用し、オーディオファイルを発生させてもよい。双方向システム220またはその音声入力インターフェース223は、受信された音声入力から1つ以上のキーワードを抽出するように構成されてもよい。例えば、いくつかの実施形態では、クエリアプリケーションは、発話の中の単語を識別し、それらの単語のうちのいくつかをキーワードとして選択してもよい。双方向システム220またはその音声入力インターフェース223は、任意の好適な単語検出技法、発話検出技法、パターン認識技法、信号処理技法、またはそれらの任意の組み合わせを使用して、単語を処理してもよい。例えば、双方向システム220またはその音声入力インターフェース223は、一連の信号テンプレートをオーディオ信号の一部と比較し、合致が存在するかどうか(例えば、特定の単語がオーディオ信号に含まれるかどうか)を見出してもよい。さらなる実施例では、双方向システム220またはその音声入力インターフェース223は、検出された発話の間に録音されたオーディオの断片(すなわち、短い持続時間のクリップ)を記憶し、断片を処理してもよい。いくつかの実施形態では、クエリアプリケーションは、発話の比較的に大きいセグメント(例えば、10秒を上回る)をオーディオファイルとして記憶し、ファイルを処理する。いくつかの実施形態では、双方向システム220またはその音声入力インターフェース223は、発話を処理し、持続的算出を使用することによって単語を検出してもよい。例えば、ウェーブレット変換が、リアルタイムで発話に実施されてもよく、発話パターン(例えば、単語を識別するように基準と比較され得る)の持続的算出を提供する。いくつかの実施形態では、双方向システム220またはその音声入力インターフェース223は、本開示によると、単語および単語を発したユーザ(例えば、音声認識)を検出してもよい。
コマンド予測器224は、(1)(例えば、ユーザ情報290からの)ユーザの過去の挙動に基づいて入力されることが予期される、(2)複数のユーザの過去の挙動に基づいて入力される可能性が高い、(3)1つ以上の事象に基づいてユーザにとって有用である、または(4)音声コマンドを使用して双方向システム220を用いた体験を獲得するための方法としてユーザにとって有用である、コマンドを予測するように構成される。いくつかの実施形態では、コマンド予測器224は、ユーザ情報290から双方向システム220とのユーザの相互作用履歴を読み出し、それを分析し、パターンを識別する。例えば、昼または夜の特定の時間に、ユーザは、特定のチャネルまたは特定の番組を鑑賞し得る。チャネルおよび時間(例えば、開始時間、終了時間、持続時間、またはそれらの組み合わせ)が、ユーザ情報290に記憶されてもよい。例証的実施例では、特定のタイプのチャネル(例えば、音楽チャネル)に関して、ユーザは、テレビ番組を鑑賞するための音量と比較して、音量を増加させ得る。ユーザ情報290は、双方向システム220とのユーザの全相互作用に関して、鑑賞履歴およびリモートコントロール使用履歴を維持する。いくつかの実施形態では、コマンド予測器224は、ユーザに関連性がある1つ以上の環境または状況ベースの状態を識別するように構成される、状態分析器226からの入力に基づいて、コマンドを決定する。例えば、あるタイプの妨害(例えば、電話の呼び出し音、ドアベル音、泣いている乳児)の間に、ユーザは、概して、現在表示されている番組を一時停止する、または音量をミュートし得る。そのような相互作用の履歴は、ユーザ情報290に記憶され、状態分析器226は、記憶された相互作用に対応する状態を識別する。例えば、状態分析器226は、部屋内の外部キュー(例えば、電話の呼び出し音、ドアベル音、または泣いている乳児)にアクセスし、ユーザへの使用のコマンドを予測する。コマンド予測器224は、例えば、チャネルを変更すること、音量を変更すること、音量をミュートすること、番組を一時停止/再生すること、番組を巻き戻し/早送りすること、番組を終了または停止すること、番組を起動または開始すること、番組を録画すること、番組についての情報(例えば、プロット要約、俳優のリスト、評定情報)を表示すること、番組に基づく情報(例えば、関連番組)を表示すること、アラームを設定すること、アラームを消去すること、ナビゲーションベースのコマンド(例えば、課金ページに進む、オンデマンドページに進む)、任意の他の好適なコマンド、またはそれらの任意の組み合わせ(例えば、チャネルの変更および音量の減少の両方)等の任意の好適なタイプのコマンドを予測してもよい。例証的実施例では、コマンド予測器224は、表2に図示されるようなユーザのための双方向機能予測マップを発生させてもよい。
Figure 2023506341000003
表2に図示されるように、状態は、番組終了または開始、ユーザ挙動(例えば、電話の呼び出しを受信する、モバイルデバイスと相互作用する、動き回る)、時間(例えば、時計の時間)、音声コマンド使用の欠如の持続時間、非音声コマンドの使用、任意の他の好適な状態、またはそれらの任意の組み合わせを含んでもよい。いくつかの実施形態では、双方向システム220は、一覧にされた値を発生させ、読み出し、または別様に使用し、音声コマンド通知がユーザに表示されるべきかどうかを決定する。例えば、双方向システム220は、ユーザによって定期的に使用および把握されるコマンドのための音声コマンド通知を発生させる必要はない。例証として、双方向システム220は、音声コマンドが双方向機能のために使用される回数、および最後の使用タイムスタンプ(例えば、表1の配列と同様に一覧にされ得る)を考慮し得る。これらの値の両方が、ある閾値を下回る場合、双方向システム220は、音声コマンド通知を発生させる。いくつかの実施形態では、双方向システム220は、1つ以上の双方向機能のためのリモートコントロールの使用および音声コマンドの使用を比較する。いくつかのそのような実施形態では、使用の時間の間の差異が、閾値を上回る(例えば、リモートコントロール使用がより高い側にある)場合、本システムは、音声コマンド通知を発生させてもよい。
推奨発生器225は、音声コマンドのための推奨を決定し、発生させるように構成される。推奨は、図1の通知101および151によって図示されるような通知の形態であってもよい。推奨は、コマンド予測器224によって予測されるコマンドに基づいてもよく、そのコマンドは、ユーザのために最も便宜的または有用である、またはそれらの組み合わせである。例えば、推奨発生器225は、音声コマンドが、(例えば、リモートコントロールを使用することと比較して)ユーザがその瞬間に双方向機能を達成するために最も便宜的な方法であろうことを識別してもよい。いくつかの実施形態では、推奨発生器225は、音声コマンドを使用するための理由をユーザへの通知において強調表示する。強調表示は、ユーザとっての届かない所にあるデバイスについての情報、検出された事象、または他の好適な情報を追加することを含んでもよい。例えば、推奨発生器は、「テレビのリモコンが見つかりませんか?「音量を上げて」と言って音量を増加させてください」、または「キーボードから離れていますか?「テレビをミュートする」と言ってテレビをミュートしてください」を含む、通知を発生させてもよい。
状態分析器226は、ユーザの音声コマンドの使用に影響を及ぼし得る状態を検出する、決定する、識別する、または別様に分析するように構成される。いくつかの実施形態では、双方向システム220またはその状態分析器226は、1つ以上の双方向デバイス(例えば、リモートコントロール、ゲームコントローラ、キーボード、トラックボール、携帯電話、または他のデバイス)の位置、(例えば、部屋内または他の場所の)ユーザの位置、または両方を監視する、または別様に決定する。例えば、ユーザと双方向デバイスとの間の距離が、事前決定された閾値を上回る場合、双方向システム220または状態分析器226は、ユーザが双方向デバイスを握持することが困難であろう(例えば、状態が「近接性の欠如」である)ことを識別する。いくつかの実施形態では、双方向システム220は、カメラを使用し、部屋(例えば、双方向システム220またはそのコンポーネントが常駐する部屋)内のユーザの位置および双方向デバイスの位置をマッピングし、決定する(例えば、計算する)。いくつかの実施形態では、双方向システム220またはその状態分析器226は、例えば、スマートウォッチ、フィットネストラッカ、一対のヘッドホン、任意の他の好適な周辺デバイス、またはそれらの任意の組み合わせ等の1つ以上の周辺デバイスを追跡することに基づいて、ユーザの位置を決定する。いくつかの実施形態では、双方向システム220またはその状態分析器226は、双方向デバイスの電子回路から生じる、検出された信号を通して、双方向デバイスをマッピングする。
状態分析器226は、1つ以上の状態を検出するための任意の好適なセンサ、信号処理回路、または両方を含んでもよい。例えば、状態分析器226は、リモートコントロールまたは他の双方向デバイスと相互作用し、双方向デバイスの位置を決定する、システムを含んでもよい。例証として、状態分析器226は、信号(例えば、返された信号における待ち時間、信号強度、信号の減衰、またはその変化)に基づいて、距離または位置を決定してもよい。さらなる実施例では、状態分析器226は、画像分析を使用し、その移動、距離、近接性、または変化を決定してもよい。いくつかの実施形態では、双方向デバイスまたは周辺デバイスは、その独自の位置を検出し、任意の好適な通信リンク(例えば、無線、近距離、または光透過)を使用して、位置情報を双方向システム220に通信してもよい。いくつかの実施形態では、状態分析器226は、状態情報270から情報を読み出す。いくつかの実施形態では、状態分析器226は、1つ以上の状態を検出し、記憶のために状態情報270に伝送するべき情報を発生させる。
いくつかの実施形態では、状態情報270は、第1のユーザに近接している他のユーザについての情報を含む。例えば、2人のユーザが、双方向システム220に近接している場合、状態分析器226は、1人のユーザが去る状態を識別してもよく、対応する音声コマンド推奨(例えば、ユーザが近接に戻るまで番組を一時停止する、またはより遠い距離に到達するように音量を増加させる)を発生させてもよい。さらなる実施例では、1人のユーザが、双方向システム220に近接している場合、状態分析器226は、別のユーザが到着する状態を識別してもよく、対応する音声コマンド推奨(例えば、ユーザが位置するまで番組を一時停止する)を発生させてもよい。
例証的実施例では、双方向システム220は、「はい」または「いいえ」の回答を有するユーザへの音声コマンド提案を(例えば、推奨発生器225を使用して)発生させてもよい。ユーザ情報290は、テンプレート情報、テンプレートと相互作用することのユーザの履歴、または両方を含んでもよい。いくつかの実施形態では、はい/いいえの質問は、ユーザの以前のテンプレート使用を考慮し、質問を発生させるであろう。例えば、双方向システム220は、チャネルを変更するための3つのテンプレート、すなわち、「チャネル<チャネル名>に進む」、「チャネル<チャネル名>に合わせる」、および「チャネル<チャネル名>にジャンプする」を有してもよい。故に、双方向システム220は、同一の双方向機能のための異なる質問を発生させてもよい。例えば、双方向システム220は、「チャネルSky Newsに進みますか?」、「チャネルSky Newsに合わせますか?」、および「チャネルSky Newsにジャンプしますか?」等の通知を発生させてもよい。ユーザの過去のクエリ使用を考慮するためにユーザにより馴染みがあるテンプレートに基づいて、双方向システム220は、3つのオプションの中の最良のテンプレートを選択するであろう。いくつかの実施形態では、双方向システム220は、質問をユーザに提示するように、音声アクティブ化ホームアシスタントに通信可能に結合されてもよい。
いくつかの実施形態では、双方向システム220またはリモートコントロールは、「ウェイクワード」によってトリガされるべきサポートを有していない場合がある、マイクロホンを含む。例えば、ユーザは、リモートコントロール上のボタンを押し、音声コマンドを入力してもよい。いくつかの実施形態では、双方向システム220は、提案をユーザに提示し、ユーザの音声応答を受信する準備ができているときに、(例えば、5秒または任意の他の好適な時間にわたって)マイクロホンをトリガする。いくつかの実施形態では、マイクロホンは、音声入力を受信するために常にアクティブであるように構成されない。例えば、マイクロホンは、音声コマンドを受信および録音するようにアクティブ化される必要があり得る。いくつかのそのような状況では、双方向システム220が、ユーザへの音声コマンド通知を発生させるとき、また、ユーザが通知を受信した後すぐに音声コマンドを使用することが予期されるため、ある期間(例えば、30秒または任意の他の好適な時間)にわたってマイクロホンをアクティブ化する。
図3は、本開示のいくつかの実施形態による、例証的ユーザデバイスのブロック図である。ユーザ機器システム301は、ディスプレイ312、オーディオ機器314、およびユーザ入力インターフェース310を含む、またはそれに通信可能に結合される、セットトップボックス316を含んでもよい。いくつかの実施形態では、ディスプレイ312は、テレビディスプレイまたはコンピュータディスプレイを含んでもよい。いくつかの実施形態では、ユーザ入力インターフェース310は、リモートコントロールデバイスである。セットトップボックス316は、1つ以上の回路基板を含んでもよい。いくつかの実施形態では、1つ以上の回路基板は、処理回路、制御回路、および記憶装置(例えば、RAM、ROM、ハードディスク、リムーバブルディスク等)を含む。いくつかの実施形態では、回路基板は、入出力経路を含む。ユーザデバイス300およびユーザ機器システム301はそれぞれ、入力/出力(以降では「I/O」)経路302を介してコンテンツおよびデータを受信してもよい。I/O経路302は、処理回路306と、記憶装置308とを含む、制御回路304に、コンテンツおよびデータを提供してもよい。制御回路304は、I/O経路302を使用して、コマンド、要求、および他の好適なデータを送信および受信するために使用されてもよい。I/O経路302は、制御回路304(具体的には処理回路306)を1つ以上の通信経路(下記に説明される)に接続してもよい。I/O機能は、これらの通信経路のうちの1つ以上のものによって提供され得るが、図面を過剰に複雑にすることを回避するように、図3では単一の経路として示される。セットトップボックス316が例証のために図3に示されるが、処理回路、制御回路、および記憶装置を有する、任意の好適なコンピューティングデバイスが、本開示に従って使用されてもよい。例えば、セットトップボックス316は、パーソナルコンピュータ(例えば、ノートブック、ラップトップ、デスクトップ)、ユーザアクセス可能クライアントデバイスをホストするネットワークベースのサーバ、非ユーザ所有デバイス、任意の他の好適なデバイス、またはそれらの任意の組み合わせによって置換または補完されてもよい。
制御回路304は、処理回路306等の任意の好適な処理回路に基づいてもよい。本明細書で参照されるように、処理回路は、1つ以上のマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、プログラマブル論理デバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)等に基づく回路を意味すると理解されるべきであり、マルチコアプロセッサ(例えば、デュアルコア、クアッドコア、ヘキサコア、または任意の好適な数のコア)またはスーパーコンピュータを含んでもよい。いくつかの実施形態では、処理回路は、複数の別個のプロセッサまたは処理ユニット、例えば、複数の同一のタイプの処理ユニット(例えば、2つのIntel Core i7プロセッサ)または複数の異なるプロセッサ(例えば、Intel Core i5プロセッサおよびIntel Core i7プロセッサ)を横断して分散される。いくつかの実施形態では、制御回路304は、メモリ(例えば、記憶装置308)に記憶されたアプリケーションのための命令を実行する。具体的には、制御回路304は、上記および下記に議論される機能を実施するようにアプリケーションによって命令されてもよい。例えば、アプリケーションは、命令を制御回路304に提供し、メディアガイド表示を発生させてもよい。いくつかの実装では、制御回路304によって実施される任意のアクションは、アプリケーションから受信される命令に基づいてもよい。
いくつかのクライアント/サーバベースの実施形態では、制御回路304は、アプリケーションサーバまたは他のネットワークまたはサーバと通信するために好適な通信回路を含む。上記に述べられる機能性を実行するための命令は、アプリケーションサーバ上に記憶されてもよい。通信回路は、他の機器または任意の他の好適な通信回路と通信するために、ケーブルモデム、総合サービスデジタルネットワーク(ISDN)モデム、デジタルサブスクライバ回線(DSL)モデム、電話モデム、イーサネット(登録商標)カード、または無線モデムを含んでもよい。そのような通信は、インターネットまたは任意の他の好適な通信ネットワークまたは経路を伴ってもよい。加えて、通信回路は、ユーザ機器デバイスのピアツーピア通信または相互から遠隔の場所にあるユーザ機器デバイスの通信を可能にする回路(下記により詳細に説明される)を含んでもよい。
メモリは、制御回路304の一部である記憶装置308等の電子記憶デバイスであってもよい。本明細書で参照されるように、語句「電子記憶デバイス」または「記憶デバイス」は、ランダムアクセスメモリ、読取専用メモリ、ハードドライブ、光学ドライブ、ソリッドステートデバイス、量子記憶デバイス、ゲーム機、ゲーム媒体、任意の他の好適な固定またはリムーバブル記憶デバイス、および/または同一物の任意の組み合わせ等の電子データ、コンピュータソフトウェア、またはファームウェアを記憶するための任意のデバイスを意味すると理解されるべきである。記憶装置308は、本明細書に説明される種々のタイプのコンテンツおよび上記に説明されるメディアガイドデータを記憶するために使用されてもよい。不揮発性メモリもまた、(例えば、ブートアップルーチンおよび他の命令を起動するために)使用されてもよい。クラウドベースの記憶装置が、例えば、記憶装置408を補完するために、または記憶装置308の代わりに使用されてもよい。
ユーザが、ユーザ入力インターフェース310を使用して、命令を制御回路304に送信してもよい。ユーザ入力インターフェース310、ディスプレイ312、または両方は、表示を提供し、触覚入力を受信するように構成される、タッチスクリーンを含んでもよい。例えば、タッチスクリーンは、指、スタイラス、または両方から触覚入力を受信するように構成されてもよい。いくつかの実施形態では、ユーザデバイス300は、前向きの画面および後向きの画面、複数の前方画面、または複数の角度付き画面を含んでもよい。いくつかの実施形態では、ユーザ入力インターフェース310は、1つ以上のマイクロホン、ボタン、キーパッド、ユーザ入力を受信するように構成される任意の他のコンポーネント、またはそれらの組み合わせを有する、リモートコントロールデバイスを含む。例えば、ユーザ入力インターフェース310は、英数字キーパッドおよびオプションボタンを有する、ハンドヘルドリモートコントロールデバイスを含んでもよい。さらなる実施例では、ユーザ入力インターフェース310は、音声コマンドを受信および識別し、情報をセットトップボックス316に伝送するように構成される、マイクロホンおよび制御回路を有する、ハンドヘルドリモートコントロールデバイスを含んでもよい。
オーディオ機器314は、ユーザデバイス300およびユーザ機器システム301のそれぞれの他の要素と統合されるものとして提供されてもよい、または独立型ユニットであってもよい。ディスプレイ312上に表示されるビデオおよび他のコンテンツのオーディオコンポーネントが、オーディオ機器314のスピーカを通して再生されてもよい。いくつかの実施形態では、オーディオは、オーディオを処理し、オーディオ機器314のスピーカを介して出力する、受信機(図示せず)に分配されてもよい。いくつかの実施形態では、例えば、制御回路304は、オーディオ機器314のスピーカを使用して、オーディオキューをユーザに、または他のオーディオフィードバックをユーザに提供するように構成される。オーディオ機器314は、音声コマンドおよび発話(例えば、音声クエリを含む)等のオーディオ入力を受信するように構成される、マイクロホンを含んでもよい。例えば、ユーザが、マイクロホンによって受信され、制御回路304によってテキストに変換される、文字または単語を話し得る。さらなる実施例では、ユーザが、マイクロホンによって受信され、制御回路304によって認識される、コマンドを声に出し得る。
(例えば、音声クエリを管理するための)アプリケーションが、任意の好適なアーキテクチャを使用して実装されてもよい。例えば、独立型アプリケーションが、ユーザデバイス300およびユーザ機器システム301のそれぞれの上に完全に実装されてもよい。いくつかのそのような実施形態では、アプリケーションのための命令が、ローカルで(例えば、記憶装置308内に)記憶され、アプリケーションによって使用するためのデータが、周期的基準で(例えば、帯域外フィードから、インターネットリソースから、または別の好適なアプローチを使用して)ダウンロードされる。制御回路304は、記憶装置308からアプリケーションのための命令を読み出し、命令を処理し、本明細書に議論される表示のうちのいずれかを発生させてもよい。処理された命令に基づいて、制御回路304は、入力がユーザ入力インターフェース310から受信されるときに実施するべきアクションの内容を決定してもよい。例えば、上/下への表示上のカーソルの移動は、入力インターフェース310が、上/下ボタンが選択されたことを示すときに、処理された命令によって示されてもよい。本明細書に議論される実施形態のうちのいずれかを実施するためのアプリケーションおよび/または任意の命令が、コンピュータ可読媒体上にエンコードされてもよい。コンピュータ可読媒体は、データを記憶することが可能な任意の媒体を含む。コンピュータ可読媒体は、限定ではないが、伝搬電気または電磁信号を含む、一過性であり得る、または、限定ではないが、ハードディスク、フロッピー(登録商標)ディスク、USBドライブ、DVD、CD、メディアカード、レジスタメモリ、プロセッサキャッシュ、ランダムアクセスメモリ(RAM)等の揮発性および不揮発性コンピュータメモリまたは記憶デバイスを含む、非一過性であり得る。
いくつかの実施形態では、アプリケーションは、クライアント/サーバベースのアプリケーションである。ユーザデバイス300およびユーザ機器システム301のそれぞれの上で実装される、シックまたはシンクライアントによって使用するためのデータが、ユーザデバイス300およびユーザ機器システム301のそれぞれから遠隔にあるサーバに要求を発行することによって、オンデマンドで読み出される。例えば、遠隔サーバは、記憶デバイス内にアプリケーションのための命令を記憶してもよい。遠隔サーバは、回路(例えば、制御回路304)を使用して、記憶された命令を処理し、上記および下記に議論される表示を発生させてもよい。クライアントデバイスは、遠隔サーバによって発生される表示を受信してもよく、ユーザデバイス300上にローカルで表示のコンテンツを表示してもよい。このように、命令の処理が、サーバによって遠隔で実施される一方、テキスト、キーボード、または他の視覚物を含み得る、結果として生じる表示は、ユーザデバイス300上にローカルで提供される。ユーザデバイス300は、入力インターフェース310を介してユーザから入力を受信し、対応する表示を処理し、発生させるために、それらの入力を遠隔サーバに伝送してもよい。例えば、ユーザデバイス300は、上/下ボタンが入力インターフェース310を介して選択されたことを示す、通信を遠隔サーバに伝送してもよい。遠隔サーバは、その入力に従って命令を処理し、入力に対応するアプリケーションの表示(例えば、カーソルを上/下に移動させる表示)を発生させてもよい。発生された表示は、次いで、ユーザへの提示のためにユーザデバイス300に伝送される。
いくつかの実施形態では、アプリケーションは、ダウンロードされ、インタープリタまたは仮想マシン(例えば、制御回路304によって起動される)によって解釈される、または別様に起動される。いくつかの実施形態では、アプリケーションは、ETVバイナリ交換形式(EBIF)でエンコードされ、好適なフィードの一部として制御回路によって受信され、制御回路304上で起動するユーザエージェントによって解釈されてもよい。例えば、アプリケーションは、EBIFアプリケーションであってもよい。いくつかの実施形態では、アプリケーションは、制御回路304によって実行されるローカル仮想マシンまたは他の好適なミドルウェアによって受信および起動される、一連のJAVA(登録商標)ベースのファイルによって定義され得る。
いくつかの実施形態では、無線対応デバイスとして図示されるユーザデバイス300が、通信ネットワークに結合されてもよい(例えば、インターネットに接続される)。例えば、ユーザデバイス300は、通信経路(例えば、アクセスポイントを含み得る)を介して、通信ネットワークに結合されてもよい。いくつかの実施形態では、ユーザ機器システム301は、無線または有線接続(例えば、LANまたは任意の他の好適な通信リンク)を介して通信ネットワークに結合される、コンピューティングデバイスであってもよい。通信ネットワークは、インターネット、携帯電話ネットワーク、モバイル音声またはデータネットワーク(例えば、4GまたはLTEネットワーク)、ケーブルネットワーク、公衆交換電話ネットワーク、または他のタイプの通信ネットワーク、または通信ネットワークの組み合わせを含む、1つ以上のネットワークであってもよい。通信経路は、衛星経路、光ファイバ経路、ケーブル経路、インターネット通信をサポートする経路、(例えば、放送または他の無線信号のための)自由空間接続、または任意の他の好適な有線または無線通信経路、またはそのような経路の組み合わせ等の1つ以上の通信経路を含んでもよい。ユーザデバイス300、ユーザ機器システム301、または両方は、上記に説明されるもの等の通信経路、およびUSBケーブル、IEEE 1394ケーブル、無線経路(例えば、Bluetooth(登録商標)、赤外線、IEEE 802-11x等)、または有線または無線経路を介した他の短距離通信等の他の短距離ポイントツーポイント通信経路を介して、相互と直接通信してもよい。BLUETOOTH(登録商標)は、Bluetooth(登録商標) SIG,INC.によって所有される認定マークである。デバイスはまた、通信ネットワークを介して、間接的経路を直接通して相互と通信してもよい。
いくつかの実施形態では、ユーザデバイス300、ユーザ機器システム301、または両方とネットワークデバイス(例えば、サーバ、アプリケーションサーバ、データベース)との間の通信が、1つ以上の通信経路を経由して交換されてもよい。複数のネットワークエンティティが、存在し、ユーザデバイス300、ユーザ機器システム301、または両方と通信してもよい。いくつかの実施形態では、ネットワークデバイスが、多くのユーザデバイス(例えば、ユーザデバイス300またはユーザ機器システム301)におけるアプリケーションのインスタンスと通信する、アプリケーションを実装する。
いくつかの実施形態では、ネットワークデバイスは、例えば、ユーザデバイス300、ユーザ機器システム301、または両方によって読み出され得る、エンティティ情報、メタデータ、コンテンツ、履歴通信および検索記録、ユーザ選好、ユーザプロファイル情報、広告情報、任意の他の好適な情報、またはそれらの任意の組み合わせを含む、1つ以上のタイプの記憶された情報を含む。ネットワークデバイスは、アプリケーションホスティングデータベースまたはサーバ、プラグイン、ソフトウェア開発者キット(SDK)、アプリケーションプログラミングインターフェース(API)、または(例えば、ユーザデバイスにダウンロードされるような)ソフトウェアを提供する、(例えば、ユーザデバイスによってアクセスされるアプリケーションをホストする)ソフトウェアを遠隔で起動する、または別様にアプリケーションサポートをユーザデバイス300のアプリケーションに提供するように構成される、他のソフトウェアツールを含んでもよい。いくつかの実施形態では、ネットワークデバイスからの情報が、クライアント/サーバアプローチを使用して、ユーザデバイス300またはユーザ機器システム301に提供される。
いくつかの実施形態では、アプリケーションが、ユーザデバイス300、ユーザ機器システム301、または両方の上に実装されてもよい。例えば、アプリケーションは、ユーザデバイス300、ユーザ機器システム301、または両方の記憶装置308内に記憶され、個別のデバイスの制御回路によって実行され得る、ソフトウェアまたは実行可能命令のセットとして実装されてもよい。例えば、アプリケーションは、部分的にユーザデバイス300上のクライアントアプリケーションとして、かつ部分的に遠隔サーバの制御回路(例えば、ネットワークデバイスの制御回路)上で起動するサーバアプリケーションとして遠隔サーバ上に実装されてもよい。遠隔サーバの制御回路によって実行されると、アプリケーションは、表示を発生させ、発生された表示をユーザデバイス300に伝送するように、制御回路に命令してもよい。サーバアプリケーションは、ユーザデバイス300上に記憶するためのデータを伝送するように、遠隔サーバの制御回路に命令してもよい。クライアントアプリケーションは、アプリケーション表示を発生させるように、受信ユーザデバイスの制御回路に命令してもよい。
いくつかの実施形態では、ユーザデバイス300、ユーザ機器システム301、または両方は、クラウドベースの配列の一部である。クラウドは、ユーザデバイスのために、いくつかある実施例の中でも、情報記憶、広告、買い物、検索、メッセージング、またはソーシャルネットワーキングサービス等のサービスへのアクセス、および上記に説明される任意のコンテンツへのアクセスを提供する。サービスは、クラウドコンピューティングサービスプロバイダを通して、またはオンラインサービスの他のプロバイダを通して、クラウド内で提供されることができる。例えば、クラウドベースのサービスは、それを介して、ユーザ供給コンテンツが、接続されたデバイス上の他者による視聴のために配布される、記憶サービス、共有サイト、ソーシャルネットワーキングサイト、検索エンジン、または他のサービスを含むことができる。これらのクラウドベースのサービスは、ユーザデバイスが、情報をクラウドに記憶すること、およびローカルで情報を記憶し、ローカルで記憶された情報にアクセスするのではなく、クラウドから情報を受信することを可能にし得る。クラウドリソースは、例えば、ウェブブラウザ、メッセージングアプリケーション、ソーシャルメディアアプリケーション、認証アプリケーション、認証を要求するアプリケーション、デスクトップアプリケーション、モバイルアプリケーション、任意の他の好適なアプリケーション、またはアプリケーションの任意の組み合わせを使用して、ユーザデバイスによってアクセスされてもよい。
図4は、本開示のいくつかの実施形態による、音声コマンド推奨を発生させるための例証的プロセス400のフローチャートである。いくつかの実施形態では、下記に説明されるように、プロセス400は、任意の好適なハードウェア上に実装されるアプリケーションによって実施されてもよい。例えば、アプリケーションは、図2の双方向システム220、図3のユーザデバイス300、図3のユーザ機器システム301、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されるプロセス400を実施してもよい。
ステップ402は、アプリケーションが、受信されることが予期される少なくとも1つの予測されるコマンドを決定するステップを含む。アプリケーションは、事前決定された時間において、事象に応答して、1つ以上の状態またはトリガに基づいて、ユーザ挙動に基づいて、またはそれらの組み合わせで、少なくとも1つの予測されるコマンドを決定してもよい。例証的実施例では、ステップ402は、双方向システム220またはそのコマンド予測器224によって実施されてもよい。
いくつかの実施形態では、ステップ402では、アプリケーションは、ユーザの視聴挙動の履歴情報、コマンド履歴、選好、ユーザに対応する任意の他の好適な情報、またはそれらの任意の組み合わせに基づいて、少なくとも1つの予測されるコマンドを決定する。例えば、アプリケーションは、コマンド(例えば、音声および非音声コマンドまたはその欠如)の時間履歴、視聴挙動に対するコマンド履歴(例えば、番組開始/停止時間または他の時間マーカに対するコマンドの時間)、視聴履歴(例えば、視聴されるコンテンツおよびその時間)、任意の他のユーザ情報、またはそれらの任意の組み合わせ等の情報を記憶する、または読み出してもよい。例証的実施例では、ステップ402では、双方向システム220によって実装されるようなアプリケーションは、ユーザ情報290から情報を読み出してもよい。例証的実施例では、ステップ402では、アプリケーションは、1つ以上の事象に対応する、1つ以上の受信されるコマンドを含む、ユーザ情報290から履歴使用情報を読み出してもよい。いくつかの実施形態では、例えば、アプリケーションは、(例えば、記憶装置308、ユーザ情報290、または両方に記憶された)1つ以上の時間マーカ、およびユーザが開始した(例えば、再び開始する可能性が高い)対応するアクションまたはコマンドを識別してもよい。例えば、データベースは、午後9時のタイムスタンプと、合計N回生じた「チャネルをPBSに切り替える」という対応するアクションとを有する、エントリを含んでもよい。いくつかの実施形態では、タイムスタンプは、時間マーカとして含まれる(例えば、コンテンツ一覧のグリッドに投入するための情報とともに含まれる)。アプリケーションが、(例えば、時計/時間情報280から読み出される)午後9時の時計の時間を検出するとき、アプリケーションは、データベースにアクセスし、対応するコマンドを決定してもよい。例えば、図1の表示100を参照すると、アプリケーションは、午後8時59分の時間マーカを検出し、通知101に対応するコマンド(例えば、チャネルを変更する)を決定してもよい。いくつかの実施形態では、例えば、アプリケーションは、(例えば、記憶装置308、ユーザ情報290、または両方に記憶された)ユーザアクション、およびユーザが開始した対応するアクションまたはコマンドに基づいて、1つ以上のトリガを識別してもよい。例えば、データベースは、「ある期間内に事前決定された回数でチャネルを変更する」というユーザアクションと、合計N回生じた「オンデマンド番組一覧にナビゲートする」という対応するアクションとを有する、エントリを含んでもよい。いくつかの実施形態では、アクショントリガは、アプリケーションによってアクセス可能なメモリ(例えば、記憶装置308)内に記憶される。アプリケーションが、ユーザが期間内に事前決定された回数でチャネルを変更したことを検出するとき、アプリケーションは、本トリガを識別し、データベースにアクセスし、対応するコマンドを決定してもよい。例えば、アプリケーションは、1分間に5回のチャネル変更を検出し、「オンデマンド番組一覧にナビゲートする」という対応するコマンドを決定してもよい。いくつかの実施形態では、アプリケーションは、音声コマンドの間の持続時間、最後の音声コマンド以降の時間、音声コマンドの数または頻度、またはそれらの組み合わせを監視してもよい。アプリケーションは、ユーザに音声コマンドを使用または追求するように動機付けするための音声コマンド提案を決定してもよい。音声コマンド提案は、一般的なコマンド、比較的に単純なコマンド、頻用されているコマンド、または任意の他のコマンドであってもよい。
例証的実施例では、アプリケーションは、ステップ402において、現在の時間が事前決定された時間マーカに対応することを決定してもよい。アプリケーションは、次いで、ステップ402において、(例えば、ユーザ情報290から)少なくとも1つの予測されるコマンドに対応する選好情報を読み出し、選好情報に基づいて、音声入力のために好ましいものとして少なくとも1つの予測されるコマンドを識別することによって、少なくとも1つの予測されるコマンドを決定してもよい。さらなる例証的実施例では、アプリケーションは、履歴表示アクティビティ、履歴受信入力、または両方に基づいて、時間マーカを識別してもよい。
いくつかの実施形態では、ステップ402において、アプリケーションは、複数のユーザの視聴挙動、コマンド履歴、選好、複数のユーザに対応する任意の他の好適な情報、またはそれらの任意の組み合わせの統計情報に基づいて、少なくとも1つの予測されるコマンドを決定する。アプリケーションは、(例えば、コマンドを抽出するために)履歴情報を記憶するデータベースからデータを読み出す、(例えば、コマンドベースのアクティビティの記録を構築するために)履歴情報を記憶するデータベースにデータを伝送する、または両方を行ってもよい。例えば、アプリケーションは、単一のユーザに関して上記に説明されるものに類似する形態で複数のユーザに関して情報を記憶してもよい。さらに、アプリケーションは、複数のユーザの相互作用の記録から統計情報を抽出してもよい。例証として、アプリケーションは、ユーザがある時間に主に変更するチャネルについての情報を記憶し、予測されるコマンドとして最も頻用されている(例えば、最も頻繁な)コマンドを使用してもよい。さらなる例証的実施例では、アプリケーションは、ユーザの60%が音楽チャネルに変更するときに音量を増加させることを決定してもよく、したがって、ユーザが音楽チャネルに変更するときに、コマンド「音量を増加させる」を予測してもよい(例えば、チャネル変更コマンドは、音量コマンドのためのトリガである)。例証的実施例では、双方向システム220によって実装されるようなアプリケーションは、ユーザ情報290から複数のユーザに関する情報を読み出してもよい。
いくつかの実施形態では、ステップ402では、アプリケーションは、環境的要因または他の好適な状況情報に基づいて、少なくとも1つの予測されるコマンドを決定する。例証的実施例では、ステップ402では、アプリケーションは、視聴環境に対応する1つ以上の事象を識別し、1つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも1つの予測されるコマンドを決定してもよい。アプリケーションは、(例えば、コマンドを抽出するために)状態情報を記憶するデータベースからデータを読み出す、(例えば、状態ベースのアクティビティの記録を構築するために)状態情報を記憶するデータベースにデータを伝送する、または両方を行ってもよい。例証的実施例では、双方向システム220によって実装されるようなアプリケーションは、状態情報270から情報を読み出してもよい。アプリケーションは、1つ以上のデバイス、センサ、または他の好適なソースに基づいて、(例えば、状態情報270から)情報を読み出してもよい。例えば、アプリケーションは、リモートコントロールまたは他の双方向デバイス、周辺デバイス、または任意の他の好適なデバイスへおよびそれから信号を通信し、デバイスの位置を決定するように構成されてもよい。アプリケーションは、1人またはそれを上回るユーザの位置、1つ以上のデバイスの位置、1人またはそれを上回るユーザの存在、1つ以上のデバイスの存在、1つ以上の事象、デバイス上で実施される1つ以上のアクション、任意の他の好適な状態情報、またはそれらの任意の組み合わせを決定してもよい。例えば、アプリケーションは、第1のユーザに近接している他のユーザを決定してもよい。例えば、2人のユーザが、ディスプレイデバイスに近接している場合、アプリケーションは、1人のユーザが去る状態を識別してもよく、対応する音声コマンド推奨(例えば、ユーザが近接に戻るまで番組を一時停止する、またはより遠い距離に到達するように音量を増加させる)を発生させてもよい。さらなる実施例では、1人のユーザが、ディスプレイデバイスに近接している場合、アプリケーションは、別のユーザが到着する状態を識別してもよく、対応する音声コマンド推奨(例えば、事前決定された時間の後にユーザが位置するまで番組を一時停止する)を発生させてもよい。
例証的実施例では、ステップ402において、アプリケーションは、1つ以上の事象を識別し、履歴使用情報を読み出し、1つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも1つの予測されるコマンドを決定することによって、受信されることが予期される少なくとも1つの予測されるコマンドを決定してもよい。例証として、アプリケーションは、電話の呼び出し音を識別し、ユーザが、通常、電話の呼び出しに応答して音量をミュートすることを決定し、「音量を減少させる」という予測されるコマンドを決定してもよい。
ステップ404は、アプリケーションが、音声コマンド推奨を発生させるステップを含む。音声コマンド推奨は、ステップ402の少なくとも1つの予測されるコマンドに対応する。例証的実施例では、双方向システム220によって実装されるようなアプリケーションは、推奨発生器225を使用し、404を実施してもよい。例証的実施例では、アプリケーションは、ディスプレイデバイスに、音声コマンド推奨に対応する視覚インジケータを含むように表示を修正させることによって、ステップ404において音声コマンド推奨を発生させてもよい。アプリケーションは、図1の通知101および151によって図示されるように、通知の形態で推奨を発生させてもよい。ステップ404の推奨は、音声コマンドの説明、導入の言葉(例えば、挨拶または他の和らげる言葉)、認識される例証的音声応答、応答のための時間制限、コンテキスト情報(例えば、推奨に関するトリガまたは理由、最後の音声コマンド以降の時間、音声コマンドを使用しようとする奨励)、フィードバック(例えば、そのような通知を提供するかどうか、そのような通知を提供する時間)、任意の他の好適な情報、またはそれらの任意の組み合わせを含んでもよい。いくつかの実施形態では、アプリケーションは、ステップ402の予測されるコマンド、(例えば、ユーザ情報290からの)ユーザについての情報、(例えば、状態情報270からの)状態または状況についての情報、コンテンツ一覧についての情報(例えば、番組タイトルまたはサムネイル画像)、1人またはそれを上回る他のユーザについての情報(例えば、コマンドが頻用されている程度)、音声コマンドを使用するための理由(例えば、単一の単語を話すことが、リモートコントロール上の数回のキーストロークに取って代わる)、任意の他の好適な情報、またはそれらの任意の組み合わせに基づく、テキスト、画像、ビデオ、またはそれらの組み合わせを含み得る、通知を構築する。いくつかの実施形態では、アプリケーションは、通知をユーザに提示する方法を決定する。例えば、アプリケーションは、(例えば、表示発生器221を使用して)ディスプレイデバイス上の表示のために図1の通知101および151によって図示されるようなテキストボックスオーバーレイをフォーマットしてもよい。さらなる例証的実施例では、アプリケーションは、オーディオデバイス(例えば、スピーカ)に、音声コマンド推奨に対応する可聴インジケータを発生させることによって、音声コマンド推奨を発生させてもよい。さらなる実施例では、アプリケーションは、通知に基づいて発話を発生させ、スピーカまたは他のオーディオ機器(例えば、オーディオ機器314)上でオーディオ出力を発生させることによって、ユーザへの音声クエリを発生させてもよい。いくつかの実施形態では、予測されるコマンドは、対応する音声コマンドが1つも存在しない、非音声コマンドまたは一連の非音声コマンドに対応し得る。いくつかのそのような実施形態では、アプリケーションは、ある好適な程度に非音声コマンドに対応する、より単純な、または別様により限定された音声コマンドを決定してもよい。例えば、予測されるコマンドは、オンデマンド画面にナビゲートする、オンデマンドコンテンツのチャネルを選択する、および(例えば、ユーザのコンテンツをブラウズする履歴に基づいて)コンテンツの説明を閲覧する等の一連のアクションを含んでもよい。アプリケーションは、オンデマンド画面にナビゲートするためのみの音声コマンドを推奨し、(例えば、特に、ユーザが音声コマンドを頻繁に使用しない場合)ユーザとの比較的により簡潔な相互作用を促進してもよい。いくつかの実施形態では、アプリケーションは、1つを上回る音声コマンド推奨を発生させる。例えば、通知は、1つ以上の機能を達成するための1つ以上の推奨される音声コマンドを含んでもよい。
例証的実施例では、ステップ402の予測されるコマンドは、アクションを含み、ステップ404の音声コマンド推奨は、そのコマンドを達成するためのユーザへの推奨を含む。いくつかの実施形態では、予測されるコマンドおよび推奨される音声コマンドは、同一である。例えば、いくつかのそのような実施形態では、ステップ402および404は、組み合わせられてもよい(例えば、コマンド予測器224および推奨発生器225は、組み合わせられてもよい)。
ステップ406は、アプリケーションが、音声入力を受信するように構成されるオーディオインターフェースをアクティブ化するステップを含む。いくつかの実施形態では、オーディオインターフェースは、常に、オーディオ入力を受信するように構成される。いくつかの実施形態では、オーディオインターフェースは、(例えば、タッチスクリーン上のソフトボタンを選択し、オーディオ録音を開始することによって)ユーザがインジケーションをユーザ入力インターフェースに提供するときに、オーディオ入力を受信するように構成される。いくつかの実施形態では、オーディオインターフェースは、ステップ404において音声コマンド推奨を発生させることに応答して、オーディオ入力を受信するように構成される。いくつかの実施形態では、オーディオインターフェースは、オーディオ入力を受信するように構成され、発話または他の好適なオーディオ信号が検出されるときに録音を開始する。
ステップ408は、アプリケーションが、オーディオインターフェースにおいて音声入力を受信するステップを含む。いくつかの実施形態では、オーディオインターフェース(例えば、オーディオ機器314、ユーザ入力インターフェース310、またはそれらの組み合わせ)は、オーディオ入力を受信し、電子信号を発生させる、マイクロホンまたは他のセンサを含んでもよい。いくつかの実施形態では、オーディオ入力は、オーディオファイルを発生させるように調整、サンプリング、およびデジタル化される、アナログ信号を提供する、アナログセンサにおいて受信される。いくつかの実施形態では、オーディオファイルは、メモリ(例えば、記憶装置308)内に記憶される。クエリアプリケーションは、オーディオ入力を記憶されたオーディオファイルに変換するための任意の好適な調整ソフトウェアまたはハードウェアを含んでもよい。例えば、アプリケーションは、1つ以上のフィルタ(例えば、低域通過、高域通過、ノッチフィルタ、または帯域通過フィルタ)、増幅器、デシメータ、または他の調整を適用し、オーディオファイルを発生させてもよい。さらなる実施例では、アプリケーションは、圧縮、変換(例えば、スペクトル変換、ウェーブレット変換)、正規化、等化、(例えば、時間またはスペクトルドメイン内の)切り捨て、任意の他の好適な処理、またはそれらの任意の組み合わせ等の任意の好適な処理を調整された信号に適用し、オーディオファイルを発生させてもよい。いくつかの実施形態では、ステップ408において、制御回路は、さらなる処理のために、記憶装置(例えば、記憶装置308)内に記憶されたオーディオファイルとして音声コマンドを受信してもよい。
いくつかの実施形態では、アプリケーションは、受信されたオーディオの断片(すなわち、短い持続時間のクリップ)を記憶し、断片を処理してもよい。いくつかの実施形態では、アプリケーションは、発話の比較的に大きいセグメント(例えば、10秒を上回る)をオーディオファイルとして記憶し、ファイルを処理する。いくつかの実施形態では、クエリアプリケーションは、発話を処理し、持続的算出を使用することによって単語を検出してもよい。例えば、ウェーブレット変換が、リアルタイムで発話に実施されてもよく、発話パターン(例えば、単語を識別するように基準と比較され得る)のわずかに遅動型であるとしても持続的な算出を提供する。いくつかの実施形態では、アプリケーションは、本開示によると、単語および単語を発したユーザ(例えば、音声認識)を検出してもよい。
アプリケーションは、任意の好適な単語検出技法、発話検出技法、パターン認識技法、信号処理技法、またはそれらの任意の組み合わせを使用して、ステップ408において音声入力を受信し、単語を処理してもよい。例えば、アプリケーションは、一連の信号テンプレートをオーディオ信号の一部と比較し、合致が存在するかどうか(例えば、特定の単語がオーディオ信号に含まれるかどうか)を見出してもよい。さらなる実施例では、アプリケーションは、学習技法を適用し、音声コマンドの中の単語をより良好に認識してもよい。例えば、アプリケーションは、複数の音声コマンドについてのユーザからのフィードバックを収集し、故に、過去のデータを音声コマンドの推奨を行うための訓練セットとして使用してもよい。
ステップ410は、アプリケーションが、少なくとも1つの予測されるコマンドを実施するステップを含む。アプリケーションは、音声入力を受信することに応答して、ステップ402の少なくとも1つの予測されるコマンドまたはその一部を実施する。いくつかの実施形態では、アプリケーションは、応答を事前決定された時間(例えば、30秒または任意の他の好適な時間)待機し、次いで、通知を表示することを停止してもよい。例えば、応答(例えば、音声入力)が検出されない、または別様に認識可能ではない(例えば、発話検出が認識された応答を識別することに成功していない)場合、アプリケーションは、通知を提示することを停止する、時間制限が迫っているというインジケータを用いて通知を修正する、通知を修正して可視性を増加させる(例えば、ユーザからの注目を集めるように、通知の色、サイズ、またはコントラストを変化させる)、オーディオインジケータを発生させる(例えば、ユーザにアラートするためのビープ音、音、または発話を発生させる)、またはそれらの任意の組み合わせを行ってもよい。いくつかの実施形態では、アプリケーションは、音声入力が検出または認識されなかった、負の音声入力が受信された(例えば、「いいえ」または「終了」)、または状態またはトリガが変化した(例えば、修正された通知が発生され得る)ため、予測されるコマンドを実施しない。アプリケーションは、好適な音声入力を受信することに応答して即時に、事前決定された時間に(例えば、図1の表示100によって図示されるように、午後9時にチャネルを変更する)、事象発生に応答して、または任意の他の好適な時間に、少なくとも1つの予測されるコマンドを実施してもよい。
例証的実施例では、アプリケーションは、ステップ402において、表示を第1のチャネルに対応するコンテンツから第2のチャネルに対応するコンテンツに変更するステップを含む、予測されるコマンドを決定してもよく、ステップ410において、第2のチャネルに対応するコンテンツを表示することによって、少なくとも1つの予測されるコマンドを実施してもよい。
さらなる例証的実施例では、アプリケーションは、表示と関連付けられるオーディオトラックの音量を変更するステップを含む、予測されるコマンドを決定してもよく、ステップ410において、オーディオトラックの音量を増加または減少させることによって、少なくとも1つの予測されるコマンドを実施してもよい。
図5は、本開示のいくつかの実施形態による、音声コマンド相互作用を管理するための例証的プロセス500のフローチャートを示す。いくつかの実施形態では、下記に説明されるように、プロセス400は、図2の双方向システム220、図3のユーザデバイス300、図3のユーザ機器システム301、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されてもよい。例証的実施例では、本システムは、プロセス500を実施するためのアプリケーション(例えば、図4との関連で説明されるアプリケーションに類似する)を実装してもよい。
ステップ502は、本システムが、相互作用、状態、時間、任意の他の好適な情報、またはそれらの任意の組み合わせを監視し、トリガを識別するステップを含む。例えば、本システムは、キーストローク、非音声コマンド、音声コマンド、現在の時間、持続時間、事象、1つ以上のデバイス上のアクティビティ、任意の他の好適なアクティビティまたは情報、またはそれらの任意の組み合わせを監視してもよい。例えば、本システムは、情報590から潜在的トリガまたは基準を読み出す、使用データを情報590に伝送する、または両方を行ってもよい。情報590は、例えば、ユーザ情報290、状態情報270、時計/時間情報280、任意の他の好適な情報、またはそれらの任意の組み合わせを含んでもよい。
ステップ504は、本システムは、トリガが検出されたどうかを決定するステップを含む。いくつかの実施形態では、本システムは、1つ以上のトリガが生じたかどうかを決定し、トリガを検出することに応答して、本システムは、ステップ506に進み、コマンドを決定してもよい。本システムは、持続的に、間隔を置いて、入力を受信することに応答して、または任意の他の好適な時間に、トリガに関して監視してもよい。
ステップ506は、本システムが、ステップ502の検出されたトリガに基づいて、コマンドを決定するステップを含む。いくつかの実施形態では、本システムは、ステップ504における検出されたトリガに基づいて、情報590からコマンドを読み出す。コマンドは、例えば、データベース内の関係を含む、任意の好適な基準に基づいて、トリガに対応し得る。
ステップ508は、本システムが、ステップ506のコマンドに基づいて、通知を発生させるステップを含む。本システムは、ステップ508において、推奨される音声コマンドを決定し、(例えば、ディスプレイデバイスまたはオーディオデバイスを使用して)ユーザへの視覚またはオーディオ通知を発生させてもよい。
ステップ510は、本システムが、インターフェース(例えば、オーディオインターフェース)をアクティブ化するステップを含む。本システムは、ステップ508の前に、後に、またはそれと同時に、ステップ510を実施してもよい。例えば、本システムは、ステップ504において検出されるトリガ、情報590からの情報の読出、ステップ508における通知の発生に応答して、または任意の他の好適な時間に、ステップ510を実施してもよい。
ステップ512は、本システムが、応答がステップ510においてアクティブ化されたインターフェースにおいて検出されたかどうかを決定するステップを含む。本システムは、事前決定された期間にわたって、応答が検出されるまで、事象が生じる(例えば、音声または非音声である任意のコマンドが受信される)まで、任意の他の好適な持続時間で、またはそれらの任意の組み合わせで、インターフェースを監視してもよい。例えば、本システムは、発話検出技法を使用して、インターフェースにおいて受信される信号を処理してもよい。本システムが、認識可能な音声入力を識別するとき、本システムは、ステップ514に進み、コマンドに応答してもよい。
ステップ514は、本システムが、ステップ508の通知に対応するコマンドを実施するステップを含む。本システムは、ステップ514において、チャネルを変更すること、音量を変更またはミュート(解除)すること、デバイスをオンまたはオフにすること、番組を一時停止または再生すること、番組を巻き戻しまたは早送りすること、表示または表示設定を変更すること、任意の他の好適な機能、またはそれらの任意の組み合わせを含む、任意の好適な機能を実施してもよい。
ステップ516は、本システムが、通知を修正、更新、または置換するかどうかを決定するステップを含む。例えば、ステップ512において、応答が検出されない場合、本システムは、ステップ516において、通知を修正するかどうかを決定してもよい。例えば、本システムは、システムを修正しないことを決定し、ステップ502における相互作用を監視するステップに戻ってもよい。さらなる実施例では、本システムは、ステップ508の通知を修正、更新、または置換することを決定し、システムと相互作用するようにユーザに要請する、通知をユーザにリマインドする、または別様に認識可能かつ実施可能な音声応答の欠如を示してもよい。
ステップ518は、本システムが、プロセス500の間の、またはそれと関連した相互作用に基づいて、好適な情報を記憶するステップを含む。例えば、実施されたコマンド、音声応答の欠如、検出されるトリガ、プロセス500の任意の側面と関連付けられる時間情報、任意の他の好適な情報、またはそれらの任意の組み合わせの記録が、(例えば、コマンドおよび使用挙動の以降の決定のために)履歴情報に包含するために情報590に記憶されてもよい。故に、本システムは、将来のコマンド予測および音声コマンド推奨のために、ユーザの挙動および選好の記録を構築することができる。
本開示の上記に説明される実施形態は、限定ではなく、例証の目的のために提示され、本開示は、以下に続く請求項のみによって限定される。さらに、いずれか1つの実施形態に説明される特徴および限界が、本明細書の任意の他の実施形態に適用され得、一実施形態に関するフローチャートまたは実施例が、好適な様式で任意の他の実施形態と組み合わせられる、異なる順序で行われる、または並行して行われ得ることに留意されたい。加えて、本明細書に説明されるシステムおよび方法は、リアルタイムで実施され得る。また、上記に説明されるシステムおよび/または方法は、他のシステムおよび/または方法に適用される、またはそれに従って使用され得ることにも留意されたい。
本明細書は、限定ではないが、以下を含む、実施形態を開示する。
1. 音声コマンド推奨を提供するための方法であって、
受信されることが予期される少なくとも1つの予測されるコマンドを決定するステップと、
制御回路を使用して、音声コマンド推奨を発生させるステップであって、音声コマンド推奨は、少なくとも1つの予測されるコマンドに対応する、ステップと、
音声入力を受信するように構成されるオーディオインターフェースをアクティブ化するステップと、
オーディオインターフェースにおいて音声入力を受信するステップと、
音声入力を受信することに応答して、少なくとも1つの予測されるコマンドを実施するステップと、
を含む、方法。
2. 少なくとも1つの予測されるコマンドは、表示を第1のチャネルに対応するコンテンツから第2のチャネルに対応するコンテンツに変更するステップを含み、
少なくとも1つの予測されるコマンドを実施するステップは、第2のチャネルに対応するコンテンツを表示するステップを含む、
項目1に記載の方法。
3. 少なくとも1つの予測されるコマンドは、表示と関連付けられるオーディオトラックの音量を変更するステップを含み、
少なくとも1つの予測されるコマンドを実施するステップは、オーディオトラックの音量を増加または減少させるステップを含む、
項目1に記載の方法。
4.現在の時間が事前決定された時間マーカに対応することを決定するステップをさらに含み、少なくとも1つの予測されるコマンドを決定するステップは、
少なくとも1つの予測されるコマンドに対応する選好情報を読み出すステップと、
選好情報に基づいて、音声入力のために好ましいものとして少なくとも1つの予測されるコマンドを識別するステップと、
を含む、項目1に記載の方法。
5.履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも1つに基づいて、時間マーカを識別するステップを含む、項目4に記載の方法。
6.音声コマンド推奨を発生させるステップは、音声コマンド推奨に対応する視覚インジケータを含むように、ディスプレイデバイス上に発生される表示を修正するステップを含む、項目1に記載の方法。
7.音声コマンド推奨を発生させるステップは、オーディオデバイスを使用して、音声コマンド推奨に対応する可聴インジケータを発生させるステップを含む、項目1に記載の方法。
8.受信されることが予期される少なくとも1つの予測されるコマンドを決定するステップは、
1つ以上の事象を識別するステップと、
履歴使用情報を読み出すステップと、
1つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも1つの予測されるコマンドを決定するステップと、
を含む、項目1に記載の方法。
9.履歴使用情報は、1つ以上の事象に対応する、1つ以上の受信されるコマンドを備える、項目8に記載の方法。
10.
視聴環境に対応する、1つ以上の事象を識別するステップと、
1つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも1つの予測されるコマンドを決定するステップと、
をさらに含む、項目1に記載の方法。
11.音声コマンド推奨を提供するためのシステムであって、
オーディオ入力を受信するように構成される、オーディオインターフェースと、
受信されることが予期される少なくとも1つの予測されるコマンドを決定し、
音声コマンド推奨を発生させ、音声コマンド推奨は、少なくとも1つの予測されるコマンドに対応し、
オーディオインターフェースをアクティブ化し、
オーディオインターフェースから音声入力を受信し、
音声入力を受信することに応答して、少なくとも1つの予測されるコマンドを実施する、
ように構成される、制御回路と、
を備える、システム。
12.少なくとも1つの予測されるコマンドは、表示を第1のチャネルに対応するコンテンツから第2のチャネルに対応するコンテンツに変更するステップを含み、制御回路はさらに、第2のチャネルに対応するコンテンツを表示することによって、少なくとも1つの予測されるコマンドを実施するように構成される、項目11に記載のシステム。
13.少なくとも1つの予測されるコマンドは、表示と関連付けられるオーディオトラックの音量を変更するステップを含み、制御回路はさらに、オーディオトラックの音量を増加または減少させることによって、少なくとも1つの予測されるコマンドを実施するように構成される、項目11に記載のシステム。
14.制御回路はさらに、
現在の時間が事前決定された時間マーカに対応することを決定し、
少なくとも1つの予測されるコマンドに対応する選好情報を読み出すステップと、
選好情報に基づいて、音声入力のために好ましいものとして少なくとも1つの予測されるコマンドを識別するステップと、
によって、少なくとも1つの予測されるコマンドを決定する、
ように構成される、項目11に記載のシステム。
15.制御回路はさらに、履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも1つに基づいて、時間マーカを識別するように構成される、項目14に記載のシステム。
16.ディスプレイデバイスをさらに備え、制御回路はさらに、ディスプレイデバイスに、音声コマンド推奨に対応する視覚インジケータを含むように表示を修正させることによって、音声コマンド推奨を発生させるように構成される、項目11に記載のシステム。
17.オーディオデバイスをさらに備え、制御回路はさらに、オーディオデバイスに、音声コマンド推奨に対応する可聴インジケータを発生させることによって、音声コマンド推奨を発生させるように構成される、項目11に記載のシステム。
18.制御回路はさらに、
1つ以上の事象を識別するステップと、
履歴使用情報を読み出すステップと、
1つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも1つの予測されるコマンドを決定するステップと、
によって、受信されることが予期される少なくとも1つの予測されるコマンドを決定するように構成される、
項目11に記載のシステム。
19.履歴使用情報は、1つ以上の事象に対応する、1つ以上の受信されるコマンドを備える、項目18に記載のシステム。
20.制御回路はさらに、
視聴環境に対応する、1つ以上の事象を識別し、
1つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも1つの予測されるコマンドを決定する、
ように構成される、項目11に記載のシステム。
21.非一過性のコンピュータ可読媒体であって、制御回路によって実行されると、制御回路に、
受信されることが予期される少なくとも1つの予測されるコマンドを決定させ、
音声コマンド推奨を発生させ、音声コマンド推奨は、少なくとも1つの予測されるコマンドに対応し、
音声入力を受信するように構成されるオーディオインターフェースをアクティブ化させ、
オーディオインターフェースにおいて音声入力を受信させ、
音声入力を受信することに応答して、少なくとも1つの予測されるコマンドを実施させる、
その上にエンコードされた命令を有する、非一過性のコンピュータ可読媒体。
22.少なくとも1つの予測されるコマンドは、表示を第1のチャネルに対応するコンテンツから第2のチャネルに対応するコンテンツに変更するステップを含み、制御回路によって実行されると、制御回路に、第2のチャネルに対応するコンテンツを表示することによって、少なくとも1つの予測されるコマンドを実施させる、その上にエンコードされた命令をさらに備える、項目21に記載の非一過性のコンピュータ可読媒体。
23.少なくとも1つの予測されるコマンドは、表示と関連付けられるオーディオトラックの音量を変更するステップを含み、制御回路によって実行されると、制御回路に、オーディオトラックの音量を増加または減少させることによって、少なくとも1つの予測されるコマンドを実施させる、その上にエンコードされた命令をさらに備える、項目21に記載の非一過性のコンピュータ可読媒体。
24.制御回路によって実行されると、制御回路に、
現在の時間が事前決定された時間マーカに対応することを決定させ、
少なくとも1つの予測されるコマンドに対応する選好情報を読み出すステップと、
選好情報に基づいて、音声入力のために好ましいものとして少なくとも1つの予測されるコマンドを識別するステップと、
によって、少なくとも1つの予測されるコマンドを決定させる、
その上にエンコードされた命令をさらに備える、項目21に記載の非一過性のコンピュータ可読媒体。
25.制御回路によって実行されると、制御回路に、履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも1つに基づいて、時間マーカを識別させる、その上にエンコードされた命令をさらに備える、項目24に記載の非一過性のコンピュータ可読媒体。
26.制御回路によって実行されると、制御回路に、音声コマンド推奨に対応する視覚インジケータを含むように、ディスプレイデバイス上に発生される表示を修正することによって、音声コマンド推奨を発生させる、その上にエンコードされた命令をさらに備える、項目21に記載の非一過性のコンピュータ可読媒体。
27.制御回路によって実行されると、制御回路に、オーディオデバイスを使用して、音声コマンド推奨に対応する可聴インジケータを発生させることによって、音声コマンド推奨を発生させる、その上にエンコードされた命令をさらに備える、項目21に記載の非一過性のコンピュータ可読媒体。
28.制御回路によって実行されると、制御回路に、
1つ以上の事象を識別するステップと、
履歴使用情報を読み出すステップと、
1つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも1つの予測されるコマンドを決定するステップと、
によって、受信されることが予期される少なくとも1つの予測されるコマンドを決定させる、
その上にエンコードされた命令をさらに備える、項目21に記載の非一過性のコンピュータ可読媒体。
29.履歴使用情報は、1つ以上の事象に対応する、1つ以上の受信されるコマンドを備える、項目28に記載の非一過性のコンピュータ可読媒体。
30.制御回路によって実行されると、制御回路に、
視聴環境に対応する、1つ以上の事象を識別させ、
1つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも1つの予測されるコマンドを決定させる、
その上にエンコードされた命令をさらに備える、項目21に記載の非一過性のコンピュータ可読媒体。
31.音声コマンド推奨を提供するためのシステムであって、
受信されることが予期される少なくとも1つの予測されるコマンドを決定するための手段と、
音声コマンド推奨を発生させるための手段であって、音声コマンド推奨は、少なくとも1つの予測されるコマンドに対応する、手段と、
音声入力を受信するように構成されるオーディオインターフェースをアクティブ化するための手段と、
オーディオインターフェースにおいて音声入力を受信するための手段と、
音声入力を受信することに応答して、少なくとも1つの予測されるコマンドを実施するための手段と、
を備える、システム。
32.
少なくとも1つの予測されるコマンドは、表示を第1のチャネルに対応するコンテンツから第2のチャネルに対応するコンテンツに変更するステップを含み、
少なくとも1つの予測されるコマンドを実施するための手段は、第2のチャネルに対応するコンテンツを表示するための手段を備える、
項目31に記載のシステム。
33.少なくとも1つの予測されるコマンドは、表示と関連付けられるオーディオトラックの音量を変更するステップを含み、
少なくとも1つの予測されるコマンドを実施するための手段は、オーディオトラックの音量を増加または減少させるための手段を備える、
項目31に記載のシステム。
34.現在の時間が事前決定された時間マーカに対応することを決定するための手段をさらに備え、少なくとも1つの予測されるコマンドを決定するための手段は、
少なくとも1つの予測されるコマンドに対応する選好情報を読み出すための手段と、
選好情報に基づいて、音声入力のために好ましいものとして少なくとも1つの予測されるコマンドを識別するための手段と、
を備える、項目31に記載のシステム。
35.履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも1つに基づいて、時間マーカを識別するための手段をさらに備える、項目34に記載のシステム。
36.音声コマンド推奨を発生させるための手段は、音声コマンド推奨に対応する視覚インジケータを含むように、ディスプレイデバイス上に発生される表示を修正するための手段を備える、項目31に記載のシステム。
37.音声コマンド推奨を発生させるための手段は、オーディオデバイスを使用して、音声コマンド推奨に対応する可聴インジケータを発生させるための手段を備える、項目31に記載のシステム。
38.受信されることが予期される少なくとも1つの予測されるコマンドを決定するための手段は、
1つ以上の事象を識別するための手段と、
履歴使用情報を読み出すための手段と、
1つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも1つの予測されるコマンドを決定するための手段と、
を備える、項目31に記載のシステム。
39.履歴使用情報は、1つ以上の事象に対応する、1つ以上の受信されるコマンドを備える、項目38に記載のシステム。
40.
視聴環境に対応する、1つ以上の事象を識別するための手段と、
1つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも1つの予測されるコマンドを決定するための手段と、
をさらに備える、項目31に記載のシステム。
41.音声コマンド推奨を提供するための方法であって、
受信されることが予期される少なくとも1つの予測されるコマンドを決定するステップと、
制御回路を使用して、音声コマンド推奨を発生させるステップであって、音声コマンド推奨は、少なくとも1つの予測されるコマンドに対応する、ステップと、
音声入力を受信するように構成されるオーディオインターフェースをアクティブ化するステップと、
オーディオインターフェースにおいて音声入力を受信するステップと、
音声入力を受信することに応答して、少なくとも1つの予測されるコマンドを実施するステップと、
を含む、方法。
42.
予測されるコマンドは、表示を第1のチャネルに対応するコンテンツから第2のチャネルに対応するコンテンツに変更するステップを含み、
少なくとも1つの予測されるコマンドを実施するステップは、第2のチャネルに対応するコンテンツを表示するステップを含む、
項目41に記載の方法。
43.
予測されるコマンドは、表示と関連付けられるオーディオトラックの音量を変更するステップを含み、
少なくとも1つの予測されるコマンドを実施するステップは、オーディオトラックの音量を増加または減少させるステップを含む、
項目41および42のいずれかに記載の方法。
44.現在の時間が事前決定された時間マーカに対応することを決定するステップをさらに含み、少なくとも1つの予測されるコマンドを決定するステップは、
少なくとも1つの予測されるコマンドに対応する選好情報を読み出すステップと、
選好情報に基づいて、音声入力のために好ましいものとして少なくとも1つの予測されるコマンドを識別するステップと、
を含む、項目41-43のいずれかに記載の方法。
45.履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも1つに基づいて、時間マーカを識別するステップをさらに含む、項目44に記載の方法。
46.音声コマンド推奨を発生させるステップは、音声コマンド推奨に対応する視覚インジケータを含むように、ディスプレイデバイス上に発生される表示を修正するステップを含む、項目41-45のいずれかに記載の方法。
47.音声コマンド推奨を発生させるステップは、オーディオデバイスを使用して、音声コマンド推奨に対応する可聴インジケータを発生させるステップを含む、項目41-46のいずれかに記載の方法。
48.受信されることが予期される少なくとも1つの予測されるコマンドを決定するステップは、
1つ以上の事象を識別するステップと、
履歴使用情報を読み出すステップと、
1つ以上の事象に基づいて、かつ履歴使用情報に基づいて、少なくとも1つの予測されるコマンドを決定するステップと、
を含む、項目41-47のいずれかに記載の方法。
49.履歴使用情報は、1つ以上の事象に対応する、1つ以上の受信されるコマンドを備える、項目48に記載の方法。
50.視聴環境に対応する、1つ以上の事象を識別するステップと、
1つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される少なくとも1つの予測されるコマンドを決定するステップと、
をさらに含む、項目41-49のいずれかに記載の方法。

Claims (13)

  1. 音声コマンド推奨を提供するための方法であって、前記方法は、
    受信されることが予期される少なくとも1つの予測されるコマンドを決定することと、
    制御回路を使用して、音声コマンド推奨を発生させることであって、前記音声コマンド推奨は、前記少なくとも1つの予測されるコマンドに対応する、ことと、
    音声入力を受信するように構成されるオーディオインターフェースをアクティブ化することと、
    前記オーディオインターフェースにおいて前記音声入力を受信することと、
    前記音声入力を受信することに応答して、前記少なくとも1つの予測されるコマンドを実施することと
    を含む、方法。
  2. 前記予測されるコマンドは、表示を第1のチャネルに対応するコンテンツから第2のチャネルに対応するコンテンツに変更することを含み、
    前記少なくとも1つの予測されるコマンドを実施することは、前記第2のチャネルに対応する前記コンテンツを表示することを含む、
    請求項1に記載の方法。
  3. 前記予測されるコマンドは、前記表示と関連付けられるオーディオトラックの音量を変更することを含み、
    前記少なくとも1つの予測されるコマンドを実施することは、前記オーディオトラックの音量を増加または減少させることを含む、
    請求項1および2のいずれかに記載の方法。
  4. 現在の時間が事前決定された時間マーカに対応することを決定することをさらに含み、前記少なくとも1つの予測されるコマンドを決定することは、
    前記少なくとも1つの予測されるコマンドに対応する選好情報を読み出すことと、
    選好情報に基づいて、音声入力のために好ましいものとして前記少なくとも1つの予測されるコマンドを識別することと
    を含む、請求項1-3のいずれかに記載の方法。
  5. 履歴表示アクティビティ、履歴受信入力、および両方を含む群のうちの少なくとも1つに基づいて、前記時間マーカを識別することをさらに含む、請求項4に記載の方法。
  6. 前記音声コマンド推奨を発生させることは、前記音声コマンド推奨に対応する視覚インジケータを含むように、ディスプレイデバイス上に発生される表示を修正することを含む、請求項1-5のいずれかに記載の方法。
  7. 前記音声コマンド推奨を発生させることは、オーディオデバイスを使用して、前記音声コマンド推奨に対応する可聴インジケータを発生させることを含む、請求項1-6のいずれかに記載の方法。
  8. 受信されることが予期される前記少なくとも1つの予測されるコマンドを決定することは、
    1つ以上の事象を識別することと、
    履歴使用情報を読み出すことと、
    前記1つ以上の事象に基づいて、かつ前記履歴使用情報に基づいて、前記少なくとも1つの予測されるコマンドを決定することと
    を含む、請求項1-7のいずれかに記載の方法。
  9. 前記履歴使用情報は、前記1つ以上の事象に対応する1つ以上の受信されるコマンドを備える、請求項8に記載の方法。
  10. 視聴環境に対応する1つ以上の事象を識別することと、
    前記1つ以上の事象に少なくとも部分的に基づいて、受信されることが予期される前記少なくとも1つの予測されるコマンドを決定することと
    をさらに含む、請求項1-9のいずれかに記載の方法。
  11. 音声コマンド推奨を提供するためのシステムであって、前記システムは、
    メモリと、
    請求項1-10のいずれかに記載の方法のステップを実装するための手段と
    を備える、システム。
  12. 非一過性のコンピュータ可読媒体であって、前記非一過性のコンピュータ可読媒体は、その上にエンコードされた命令を有しており、前記命令は、制御回路によって実行されると、制御回路が請求項1-10のいずれかに記載の方法のステップを実行することを可能にする、非一過性のコンピュータ可読媒体。
  13. 音声コマンド推奨を提供するためのシステムであって、前記システムは、
    請求項1-10のいずれかに記載の方法のステップを実装するための手段を備える、システム。
JP2021577435A 2019-12-10 2020-12-09 音声コマンド推奨を提供するためのシステムおよび方法 Pending JP2023506341A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/709,734 2019-12-10
US16/709,734 US11676586B2 (en) 2019-12-10 2019-12-10 Systems and methods for providing voice command recommendations
PCT/US2020/064048 WO2021119150A1 (en) 2019-12-10 2020-12-09 Systems and methods for providing voice command recommendations

Publications (2)

Publication Number Publication Date
JP2023506341A true JP2023506341A (ja) 2023-02-16
JPWO2021119150A5 JPWO2021119150A5 (ja) 2023-11-09

Family

ID=74141851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021577435A Pending JP2023506341A (ja) 2019-12-10 2020-12-09 音声コマンド推奨を提供するためのシステムおよび方法

Country Status (6)

Country Link
US (1) US11676586B2 (ja)
EP (1) EP4073791A1 (ja)
JP (1) JP2023506341A (ja)
KR (1) KR20220108163A (ja)
CA (1) CA3143521A1 (ja)
WO (1) WO2021119150A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019077897A1 (ja) * 2017-10-17 2019-04-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US11328721B2 (en) * 2020-02-04 2022-05-10 Soundhound, Inc. Wake suppression for audio playing and listening devices
US20220317635A1 (en) * 2021-04-06 2022-10-06 International Business Machines Corporation Smart ecosystem curiosity-based self-learning
US11830490B2 (en) * 2021-08-11 2023-11-28 International Business Machines Corporation Multi-user voice assistant with disambiguation
US20230088513A1 (en) * 2021-09-22 2023-03-23 International Business Machines Corporation Multiuser voice command visualization
US11523190B1 (en) 2021-12-17 2022-12-06 Google Llc Generating notifications that provide context for predicted content interruptions
CN115622829B (zh) * 2022-11-22 2023-02-28 威海海洋职业学院 一种智能家居物联网交互平台搭建方法及系统
CN117351993B (zh) * 2023-12-04 2024-02-13 方图智能(深圳)科技集团股份有限公司 一种基于音频分发的音频传输质量评价方法及系统

Family Cites Families (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226749B1 (en) * 1995-07-31 2001-05-01 Hewlett-Packard Company Method and apparatus for operating resources under control of a security module or other secure processor
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6836760B1 (en) * 2000-09-29 2004-12-28 Apple Computer, Inc. Use of semantic inference and context-free grammar with speech recognition system
JP4305289B2 (ja) * 2004-06-10 2009-07-29 株式会社デンソー 車両用制御装置およびその装置を備える車両用制御システム
US20060025995A1 (en) * 2004-07-29 2006-02-02 Erhart George W Method and apparatus for natural language call routing using confidence scores
CN1842788B (zh) * 2004-10-08 2012-04-04 松下电器产业株式会社 对话支援装置、系统及方法
US20060149544A1 (en) * 2005-01-05 2006-07-06 At&T Corp. Error prediction in spoken dialog systems
US7733224B2 (en) * 2006-06-30 2010-06-08 Bao Tran Mesh network personal emergency response appliance
US9620117B1 (en) * 2006-06-27 2017-04-11 At&T Intellectual Property Ii, L.P. Learning from interactions for a spoken dialog system
US8515757B2 (en) * 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8543401B2 (en) * 2009-04-17 2013-09-24 Synchronoss Technologies System and method for improving performance of semantic classifiers in spoken dialog systems
US8290780B2 (en) * 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8533760B1 (en) * 2009-10-20 2013-09-10 Arris Enterprises, Inc. Reduced latency channel switching for IPTV
US8515736B1 (en) * 2010-09-30 2013-08-20 Nuance Communications, Inc. Training call routing applications by reusing semantically-labeled data collected for prior applications
US9493130B2 (en) * 2011-04-22 2016-11-15 Angel A. Penilla Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input
CN103649904A (zh) * 2011-05-10 2014-03-19 Nds有限公司 自适应内容呈现
US8838434B1 (en) * 2011-07-29 2014-09-16 Nuance Communications, Inc. Bootstrap call router to other languages using selected N-best translations
US8761373B1 (en) * 2011-10-03 2014-06-24 Nuance Communications, Inc. System and method for determining IVR application flow from customer-service call recordings
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
US9082403B2 (en) * 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
US9378601B2 (en) * 2012-03-14 2016-06-28 Autoconnect Holdings Llc Providing home automation information via communication with a vehicle
US9405832B2 (en) * 2012-05-31 2016-08-02 Apple Inc. Application search query classifier
US9684395B2 (en) * 2012-06-02 2017-06-20 Tara Chand Singhal System and method for context driven voice interface in handheld wireless mobile devices
WO2014028069A1 (en) * 2012-08-17 2014-02-20 Flextronics Ap, Llc Epg aggregation from multiple sources
US8983840B2 (en) * 2012-06-19 2015-03-17 International Business Machines Corporation Intent discovery in audio or text-based conversation
US9384736B2 (en) * 2012-08-21 2016-07-05 Nuance Communications, Inc. Method to provide incremental UI response based on multiple asynchronous evidence about user input
US9619459B2 (en) * 2012-10-01 2017-04-11 Nuance Communications, Inc. Situation aware NLU/NLP
CN104769668B (zh) * 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US9652109B2 (en) * 2013-01-11 2017-05-16 Microsoft Technology Licensing, Llc Predictive contextual toolbar for productivity applications
US9652797B2 (en) * 2013-01-18 2017-05-16 24/7 Customer, Inc. Intent prediction based recommendation system using data combined from multiple channels
US9131369B2 (en) * 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
US10229701B2 (en) * 2013-02-28 2019-03-12 Nuance Communications, Inc. Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
US9679560B2 (en) * 2013-02-28 2017-06-13 Nuance Communications, Inc. Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
US9607617B2 (en) * 2013-04-02 2017-03-28 Nuance Communications, Inc. Concept cloud in smart phone applications
US20140368737A1 (en) * 2013-06-17 2014-12-18 Spotify Ab System and method for playing media during navigation between media streams
US9646606B2 (en) * 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
US9514747B1 (en) * 2013-08-28 2016-12-06 Amazon Technologies, Inc. Reducing speech recognition latency
US9666188B2 (en) * 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US20150120296A1 (en) * 2013-10-29 2015-04-30 At&T Intellectual Property I, L.P. System and method for selecting network-based versus embedded speech processing
TWI566107B (zh) * 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9715875B2 (en) * 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10478127B2 (en) * 2014-06-23 2019-11-19 Sherlock Solutions, LLC Apparatuses, methods, processes, and systems related to significant detrimental changes in health parameters and activating lifesaving measures
US9484021B1 (en) * 2015-03-30 2016-11-01 Amazon Technologies, Inc. Disambiguation in speech recognition
US10521189B1 (en) * 2015-05-11 2019-12-31 Alan AI, Inc. Voice assistant with user data context
US10388277B1 (en) * 2015-06-25 2019-08-20 Amazon Technologies, Inc. Allocation of local and remote resources for speech processing
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
CN105070288B (zh) * 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
CN108028044A (zh) * 2015-07-17 2018-05-11 纽昂斯通讯公司 使用多个识别器减少延时的语音识别系统
US10018977B2 (en) * 2015-10-05 2018-07-10 Savant Systems, Llc History-based key phrase suggestions for voice control of a home automation system
JP6768283B2 (ja) * 2015-10-29 2020-10-14 シャープ株式会社 電子機器およびその制御方法
US20170177716A1 (en) * 2015-12-22 2017-06-22 Intel Corporation Technologies for semantic interpretation of user input by a dialogue manager
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US9749766B2 (en) * 2015-12-27 2017-08-29 Philip Scott Lyren Switching binaural sound
JP2017123564A (ja) * 2016-01-07 2017-07-13 ソニー株式会社 制御装置、表示装置、方法及びプログラム
US20170213550A1 (en) * 2016-01-25 2017-07-27 Hyundai America Technical Center, Inc Adaptive dual collaborative kalman filtering for vehicular audio enhancement
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US10304444B2 (en) * 2016-03-23 2019-05-28 Amazon Technologies, Inc. Fine-grained natural language understanding
US20170294184A1 (en) * 2016-04-08 2017-10-12 Knuedge Incorporated Segmenting Utterances Within Speech
US10038942B2 (en) * 2016-06-14 2018-07-31 DISH Technologies L.L.C. Automatic control of video content playback based on predicted user action
US10418026B2 (en) * 2016-07-15 2019-09-17 Comcast Cable Communications, Llc Dynamic language and command recognition
US10726022B2 (en) * 2016-08-26 2020-07-28 Facebook, Inc. Classifying search queries on online social networks
US10580404B2 (en) * 2016-09-01 2020-03-03 Amazon Technologies, Inc. Indicator for voice-based communications
US10453449B2 (en) * 2016-09-01 2019-10-22 Amazon Technologies, Inc. Indicator for voice-based communications
US9998847B2 (en) * 2016-11-17 2018-06-12 Glen A. Norris Localizing binaural sound to objects
US10971157B2 (en) * 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
KR102338990B1 (ko) * 2017-01-23 2021-12-14 현대자동차주식회사 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
CN108509119B (zh) * 2017-02-28 2023-06-02 三星电子株式会社 用于功能执行的电子设备的操作方法和支持其的电子设备
WO2018175291A1 (en) * 2017-03-20 2018-09-27 Ebay Inc. Detection of mission change in conversation
KR102414122B1 (ko) 2017-04-19 2022-06-29 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
US10170112B2 (en) * 2017-05-11 2019-01-01 Google Llc Detecting and suppressing voice queries
US20190027147A1 (en) * 2017-07-18 2019-01-24 Microsoft Technology Licensing, Llc Automatic integration of image capture and recognition in a voice-based query to understand intent
DE102017213241A1 (de) * 2017-08-01 2019-02-07 Bayerische Motoren Werke Aktiengesellschaft Verfahren, Vorrichtung, mobiles Anwendergerät, Computerprogramm zur Steuerung eines Audiosystems eines Fahrzeugs
US20190043509A1 (en) * 2017-08-04 2019-02-07 Cirrus Logic International Semiconductor Ltd. Audio privacy based on user identification
US10984788B2 (en) * 2017-08-18 2021-04-20 Blackberry Limited User-guided arbitration of speech processing results
KR102374910B1 (ko) 2017-08-22 2022-03-16 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US10467792B1 (en) * 2017-08-24 2019-11-05 Amazon Technologies, Inc. Simulating communication expressions using virtual objects
US10431219B2 (en) * 2017-10-03 2019-10-01 Google Llc User-programmable automated assistant
KR102485342B1 (ko) * 2017-12-11 2023-01-05 현대자동차주식회사 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법
US10885091B1 (en) * 2017-12-12 2021-01-05 Amazon Technologies, Inc. System and method for content playback
US11264021B2 (en) * 2018-03-08 2022-03-01 Samsung Electronics Co., Ltd. Method for intent-based interactive response and electronic device thereof
US10984799B2 (en) * 2018-03-23 2021-04-20 Amazon Technologies, Inc. Hybrid speech interface device
US11217240B2 (en) * 2018-04-05 2022-01-04 Synaptics Incorporated Context-aware control for smart devices
US10770066B2 (en) * 2018-05-31 2020-09-08 Robert Bosch Gmbh Slot filling in spoken language understanding with joint pointer and attention
US10714122B2 (en) * 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
CN108881466B (zh) * 2018-07-04 2020-06-26 百度在线网络技术(北京)有限公司 交互方法和装置
US11145313B2 (en) * 2018-07-06 2021-10-12 Michael Bond System and method for assisting communication through predictive speech
US10896679B1 (en) * 2019-03-26 2021-01-19 Amazon Technologies, Inc. Ambient device state content display

Also Published As

Publication number Publication date
CA3143521A1 (en) 2021-06-17
KR20220108163A (ko) 2022-08-02
EP4073791A1 (en) 2022-10-19
US20210174795A1 (en) 2021-06-10
US20230260514A1 (en) 2023-08-17
US11676586B2 (en) 2023-06-13
WO2021119150A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
JP2023506341A (ja) 音声コマンド推奨を提供するためのシステムおよび方法
JP7418526B2 (ja) 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード
JP6335139B2 (ja) 手動始点/終点指定及びトリガフレーズの必要性の低減
JP7159358B2 (ja) ビデオアクセス方法、クライアント、装置、端末、サーバおよび記憶媒体
US9516081B2 (en) Reduced latency electronic content system
CN107801096B (zh) 视频播放的控制方法、装置、终端设备及存储介质
WO2016185809A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN111919249B (zh) 词语的连续检测和相关的用户体验
JP6375521B2 (ja) 音声検索装置、音声検索方法、および表示装置
US10115398B1 (en) Simple affirmative response operating system
KR20140093303A (ko) 디스플레이 장치 및 그의 제어 방법
KR20140089862A (ko) 디스플레이 장치 및 그의 제어 방법
EP3419020B1 (en) Information processing device, information processing method and program
US20180046470A1 (en) Methods, systems, and media for presenting a user interface customized for a predicted user activity
US20220157314A1 (en) Interruption detection and handling by digital assistants
CN109979451A (zh) 用于输出信息的方法和装置
US11395032B2 (en) Autoplay recommendations and sequencing in full screen video mode
CN110741365A (zh) 用于管理多媒体内容中的加载时间的数据结构查询
US12027169B2 (en) Systems and methods for providing voice command recommendations
US11778277B1 (en) Digital item processing for video streams
KR20180014137A (ko) 디스플레이 장치 및 그의 제어 방법
JPWO2019017027A1 (ja) 情報処理装置および情報処理方法
US20230368785A1 (en) Processing voice input in integrated environment
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020017165A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231031

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231031