JP6779257B2

JP6779257B2 - メディア環境内におけるインテリジェント自動アシスタント

Info

Publication number: JP6779257B2
Application number: JP2018120017A
Authority: JP
Inventors: リアティー．ナポリターノ，; グレースエイチ．ウォン，; エンリケディー．ペーニャ，; エレミヤディー．ショー，; ホルヘエス．フィーノ，
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2015-09-08
Filing date: 2018-06-25
Publication date: 2020-11-04
Anticipated expiration: 2036-08-16
Also published as: KR20220047896A; CN107577385A; CN107003797B; AU2017204359A1; KR20230151069A; KR102594066B1; US20170285915A1; KR102277920B1; US10331312B2; JP2018190431A; US20210191603A1; DK201970273A1; KR20200011555A; WO2017044257A1; CN113687746A; KR20170036805A; AU2018260958B2; AU2020207867A1; JP6635982B2; DK201570826A1

Description

［関連出願の相互参照］
本出願は、２０１５年９月８日に出願された、「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔｉｎａＭｅｄｉａＥｎｖｉｒｏｎｍｅｎｔ」と題する米国特許仮出願第６２／２１５，６７６号、及び２０１５年１２月８日に出願された「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔｉｎａＭｅｄｉａＥｎｖｉｒｏｎｍｅｎｔ」と題する米国特許非仮出願第１４／９６３，０９４号からの優先権を主張する。これら出願はその全体が全ての目的のために本明細書において参照により組み込まれている。

本出願は、以下の同時係属出願に関連する。２０１５年に１２月８日に出願された米国特許非仮出願第１４／９６３，０８９号、「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔｆｏｒＭｅｄｉａＳｅａｒｃｈａｎｄＰｌａｙｂａｃｋ」（弁護士整理番号１０６８４２１３７９００（Ｐ２７４９９ＵＳ１））、２０１４年９月２６日に出願された米国特許非仮出願第１４／４９８，５０３号、「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔｆｏｒＴＶＵｓｅｒＩｎｔｅｒａｃｔｉｏｎｓ」（弁護士整理番号１０６８４２０６５１００（Ｐ１８１３３ＵＳ１））、及び２０１４年９月２６日に出願された米国特許非仮出願第１４／４９８，３９１号、「Ｒｅａｌ−ｔｉｍｅＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔＫｎｏｗｌｅｄｇｅＵｐｄａｔｅｓ」（弁護士整理番号１０６８４２０９７９００（Ｐ２２４９８ＵＳ１））。これら出願はその全体が全ての目的のために本明細書において参照により組み込まれている。
［技術分野］

本願は概してインテリジェント自動アシスタントに関し、より詳細には、メディア環境内で動作するインテリジェント自動アシスタントに関する。

インテリジェント自動アシスタント（又はデジタルアシスタント）は、ユーザと電子デバイスとの間の直感的なインターフェースを提供することができる。これらのアシスタントは、ユーザが発語及び／又はテキスト形式の自然言語を使用してデバイス又はシステムと対話することを可能にしてもよい。例えば、ユーザは、電子デバイスに関連付けられた仮想アシスタントへと、自然言語形式の発語ユーザ入力を提供することによって、電子デバイスのサービスにアクセスしてもよい。仮想アシスタントは、ユーザの意図を推測し、ユーザの意図をタスクへと動作化するために、発語ユーザ入力に対する自然言語処理を実行することができる。その後、タスクは、電子デバイスの１つ以上の機能を実行することによって実行することができ、いくつかの実施例では、関連する出力を自然言語形式でユーザに返すことができる。

デジタルアシスタントをメディア環境（例えば、テレビ、テレビセットトップボックス、ケーブルボックス、ゲームデバイス、ストリーミングメディアデバイス、デジタルビデオレコーダなど）内に統合することは、ユーザの、メディア消費に関連するタスクを支援するために望ましくなり得る。例えば、デジタルアシスタントは、消費するべき望ましいメディアコンテンツを見つけることを支援するために利用することができる。しかし、デジタルアシスタントとのユーザ対話は音声及び視覚出力を含む場合があり、これによってメディアコンテンツの消費が中断される可能性がある。それゆえ、メディアコンテンツの消費の中断を最小限に抑えながらも、十分な支援がユーザに提供される様態でデジタルアシスタントをメディア環境内に統合することが課題になり得る。

デジタルアシスタントをメディア環境内で動作させるためのシステム及びプロセスが開示される。いくつかの例示的なプロセスでは、コンテンツを表示している間にユーザ入力を検出することができる。プロセスは、ユーザ入力が第１の入力形式に対応するかどうかを判定することができる。ユーザ入力が第１の入力形式に対応するとの判定に従って、複数の例示的な自然言語要求を表示することができる。複数の例示的な自然言語要求は、表示されたコンテンツにコンテクスト上関連することができる。

いくつかの実施形態では、ユーザ入力が第１の入力形式に対応しないとの判定に従って、プロセスは、ユーザ入力が第２の入力形式に対応するかどうかを判定することができる。ユーザ入力が第２の入力形式に対応するとの判定に従って、音声データをサンプリングすることができる。プロセスは、音声データがユーザ要求を包含するかどうかを判定することができる。音声データがユーザ要求を包含するとの判定に従って、ユーザ要求を少なくとも部分的に満足するタスクを実行することができる。いくつかの実施例では、タスクは、ユーザ要求を少なくとも部分的に満足する結果を取得することと、結果の一部分を有する第２のユーザインターフェースを表示すること、を含むことができる。コンテンツの一部分は、第２のユーザインターフェースが表示されている間に表示され続けることができ、第２のユーザインターフェースの表示区域は、コンテンツの部分の表示区域よりも小さいものであることができる。

いくつかの実施形態では、第２のユーザインターフェースを表示している間に第３のユーザ入力を検出することができる。第３のユーザ入力を検出したことに応じて、第２のユーザインターフェースの表示を、結果の部分を有する第３のユーザインターフェースの表示と置換することができる。第３のユーザインターフェースは表示ユニットの表示区域の少なくとも過半を占有することができる。加えて、ユーザ要求を少なくとも部分的に満足する第２の結果を取得することができる。第２の結果は結果と異なることができる。第３のユーザインターフェースは第２の結果の少なくとも一部分を含むことができる。

いくつかの実施形態では、第３のユーザインターフェースを表示している間に第４のユーザ入力を検出することができる。第４のユーザ入力は方向を指示することができる。第４のユーザ入力を検出したことに応じて、第３のユーザインターフェースのフォーカスを第３のユーザインターフェース内の第１のアイテムから第３のユーザインターフェース内の第２のアイテムへ切り換えることができる。第２のアイテムは、第１のアイテムに対して、指示された方向に位置付けられていることができる。

いくつかの実施形態では、第３のユーザインターフェースを表示している間に第５のユーザ入力を検出することができる。第５のユーザ入力を検出したことに応じて、検索フィールドを表示することができる。加えて、仮想キーボードインターフェースを表示することができ、仮想キーボードインターフェースを介して受信された入力は検索フィールド内へのテキスト記入を生じさせることができる。更に、いくつかの実施形態では、第２の電子デバイスのディスプレイ上に選択可能なアフォーダンスを出現させることができ、アフォーダンスの選択は、テキスト入力が第２の電子デバイスのキーボードを介して電子デバイスによって受信されることを可能にする。

いくつかの実施形態では、第３のユーザインターフェースを表示している間に第６のユーザ入力を検出することができる。第６のユーザ入力を検出したことに応じて、第２のユーザ要求を包含する第２の音声データをサンプリングすることができる。プロセスは、第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるかどうかを判定することができる。第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるとの判定に従って、第３のユーザインターフェースを介して結果のサブセットを表示することができる。第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求でないとの判定に従って、第２のユーザ要求を少なくとも部分的に満足する第３の結果を取得することができる。第３のユーザインターフェースを介して第３の結果の一部分を表示することができる。

いくつかの実施形態では、サンプリングされた音声データはユーザ発言を含むことができ、ユーザ発言に対応するユーザ意図を決定することができる。プロセスは、ユーザ意図が、アプリケーションの状態又は設定を調整せよとの要求を含むかどうかを判定することができる。ユーザ意図が、アプリケーションの状態又は設定を調整せよとの要求を含むとの判定に従って、アプリケーションの状態又は設定を、ユーザ意図を満足するように調整することができる。

いくつかの実施形態では、ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含まないとの判定に従って、プロセスは、ユーザ意図が複数の所定の要求種別のうちの１つであるかどうかを判定することができる。ユーザ意図が複数の所定の要求種別のうちの１つであるとの判定に従って、ユーザ意図を少なくとも部分的に満足するテキストのみの結果を表示することができる。

いくつかの実施形態では、ユーザ意図が複数の所定の要求種別のうちの１つでないとの判定に従って、プロセスは、表示されたコンテンツがメディアコンテンツを含むかどうかを判定することができる。表示されたコンテンツがメディアコンテンツを含むとの判定に従って、プロセスは、メディアコンテンツを一時停止させることができるかどうかを更に判定することができる。メディアコンテンツを一時停止させることができるとの判定に従って、メディアコンテンツは一時停止され、第３のユーザインターフェースを介して、ユーザ意図を少なくとも部分的に満足する結果を表示することができる。第３のユーザインターフェースは表示ユニットの表示区域の少なくとも過半を占有することができる。メディアコンテンツを一時停止させることができないとの判定に従って、メディアコンテンツが表示されている間に、第２のユーザインターフェースを介して結果を表示することができる。第２のユーザインターフェースによって占有される表示区域は、メディアコンテンツによって占有される表示区域よりも小さいものであることができる。更に、いくつかの実施形態では、表示されたコンテンツがメディアコンテンツを含まないとの判定に従って、第３のユーザインターフェースを介して結果を表示することができる。

様々な実施例に係る、デジタルアシスタントを実装するためのシステム及び環境を示すブロック図である。

様々な実施例に係るメディアシステムを示すブロック図である。

様々な実施例に係るユーザデバイスを示すブロック図である。

様々な実施例に係るデジタルアシスタントシステム又はそのサーバ部分を示すブロック図である。

様々な実施例に係る、図４Ａに示されるデジタルアシスタントの機能を示す。

様々な実施例に係るオントロジの一部分を示す。

様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。

下記の図番号において、図６Ｏは、大文字のＯと数字の０（ゼロ）とのいかなる混同も回避するために、意図的に省略されている。
様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図５Ａ〜図５Ｉに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。

様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。

下記の図番号において、図８Ｏは、大文字のＯと数字の０（ゼロ）とのいかなる混同も回避するために、意図的に省略されている。
様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。様々な実施例に係る、図７Ａ〜図７Ｃに示されるプロセスの様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。

様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す。

様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるように構成された電子デバイスの機能ブロック図を示す。

以下の実施例の説明では、実践することが可能な特定の実施例が例示として示される、添付図面を参照する。様々な実施例の範囲から逸脱することなく、他の実施例を使用することができ、構造上の変更を実施することができる点を理解されたい。

本願は、デジタルアシスタントをメディア環境内で動作させるためのシステム及びプロセスに関する。１つの例示的なプロセスでは、コンテンツを表示している間にユーザ入力を検出することができる。プロセスは、ユーザ入力が第１の入力形式に対応するかどうかを判定することができる。ユーザ入力が第１の入力形式に対応するとの判定に従って、複数の例示的な自然言語要求を表示することができる。複数の例示的な自然言語要求は、表示されたコンテンツにコンテクスト上関連することができる。コンテクスト上関連する例示的な自然言語要求は、ユーザに、メディアデバイス上のユーザの現在の使用状況に最も関連性のあるデジタルアシスタントの機能を都合良く知らせるために望ましくなり得る。これは、ユーザに、デジタルアシスタントのサービスを利用することを促すことができ、また、ユーザの、デジタルアシスタントとの対話エクスペリエンスを改善することができる。

いくつかの実施形態では、ユーザ入力が第１の入力形式に対応しないとの判定に従って、プロセスは、ユーザ入力が第２の入力形式に対応するかどうかを判定することができる。ユーザ入力が第２の入力形式に対応するとの判定に従って、音声データをサンプリングすることができる。プロセスは、音声データがユーザ要求を包含するかどうかを判定することができる。音声データがユーザ要求を包含するとの判定に従って、ユーザ要求を少なくとも部分的に満足するタスクを実行することができる。

いくつかの実施形態では、実行されるタスクは、ユーザ要求の性質、及び第２の入力形式のユーザ入力が検出される間に表示されているコンテンツに依存することができる。ユーザ要求が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求（例えば、表示されたメディアコンテンツのための字幕をオンにすること）である場合には、タスクは、アプリケーションの状態又は設定を調整することを含むことができる。ユーザ要求が、テキストのみの出力に関連付けられた複数の所定の要求種別のうちの１つ（例えば、現在の時間の要求）である場合には、タスクは、ユーザ要求を満足するテキストを表示することを含むことができる。表示されたコンテンツがメディアコンテンツを含み、ユーザ要求が、結果を取得して表示することを要請する場合には、プロセスは、メディアコンテンツを一時停止させることができるかどうかを判定することができる。メディアコンテンツを一時停止させることができると判定された場合には、メディアコンテンツは一時停止され、拡大されたユーザインターフェース（例えば、図６Ｈに示される、第３のユーザインターフェース６２６）上に、そのユーザ要求を満足する結果を表示することができる。メディアコンテンツを一時停止させることができないと判定された場合には、メディアコンテンツが表示され続けている間に、縮小されたユーザインターフェース（例えば、図６Ｇに示される、第２のユーザインターフェース６１８）上に、そのユーザ要求を満足する結果を表示することができる。第２のユーザインターフェースの表示区域は、メディアコンテンツの表示区域よりも小さいものであることができる。更に、表示されたコンテンツがメディアコンテンツを含まない場合には、拡大されたユーザインターフェース上に、そのユーザ要求を満足する結果を表示することができる。表示されたコンテンツ、及びユーザ要求の種別に従って出力フォーマットを調整することによって、デジタルアシスタントは、メディアコンテンツのユーザの消費の中断を最小限に抑えつつ包括的支援を提供することのバランスをインテリジェントにとることができる。これによって、改善されたユーザエクスペリエンスを得ることができる。
１．システム及び環境

図１は、様々な実施例に係る、デジタルアシスタントを動作させるための例示的なシステム１００を示す。用語「デジタルアシスタント」、「仮想アシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、発語及び／又はテキスト形式の自然言語入力を解釈してユーザ意図を推測し、推測されたユーザ意図に基づきアクションを実行する任意の情報処理システムを指してもよい。例えば、推測されたユーザ意図に基づきアクションを実行するために、システムは、以下のことのうちの１つ以上を実行することができる。推測されたユーザ意図を実現するように設計されたステップ及びパラメータを含むタスクフローを特定すること、推測されたユーザ意図からの特定の必要事項をタスクフロー内に入力すること、プログラム、方法、サービス、アプリケーションプログラミングインターフェース（application programming interface、API）、若しくは同様のものを呼び出すことによってタスクフローを実行すること、並びに可聴（例えば、発語）及び／若しくは視覚形式のユーザへの出力応答を生成すること。

具体的には、デジタルアシスタントは、少なくとも部分的に、自然言語コマンド、要求、陳述、叙述、及び／又は照会の形でユーザ要求を受け付ける能力を有することができる。通例、ユーザ要求はデジタルアシスタントによる情報回答又はタスクの実行のいずれかを求めることができる。ユーザ要求への満足な応答は、要求された情報回答の提供、要求されたタスクの実行、又は両者の組み合わせとなることができる。例えば、ユーザはデジタルアシスタントに「パリは何時ですか？」などの質問をすることができる。デジタルアシスタントは、要求された情報を引き出し、「パリは４：００ＰＭです」と応答することができる。ユーザはまた、例えば、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演の映画を見つけてください」と、タスクの実行を要求することができる。それに応じて、デジタルアシスタントは、要求された検索クエリを実行し、関連のある映画タイトルを、ユーザが選択するために表示することができる。要求されたタスクの実行中に、デジタルアシスタントは、長期間にわたる複数の情報交換を伴う継続的ダイアログ内でユーザと時折対話することができる。情報又は種々のタスクの実行を要求するためにデジタルアシスタントと対話する方法は他にも数多く存在する。テキスト応答を提供し、プログラムされたアクションを取ることに加えて、デジタルアシスタントはまた、他の視覚又は音声形式の応答を、例えば、言葉、警報、音楽、画像、ビデオ、アニメーション等として、提供することができる。更に、本明細書において説明されるように、例示的なデジタルアシスタントは、（例えば、テレビセットトップボックス上における）メディアコンテンツの再生を制御し、表示ユニット（例えば、テレビ）上にメディアコンテンツ又はその他の情報を表示させることができる。

図１に示されているように、いくつかの実施例では、デジタルアシスタントはクライアント−サーバモデルに従って実装することができる。デジタルアシスタントは、メディアデバイス１０４上で実行されるクライアント側部分１０２（以後、「ＤＡクライアント１０２」）、及びサーバシステム１０８上で実行されるサーバ側部分１０６（以後「ＤＡサーバ１０６」）を含むことができる。更に、いくつかの実施例では、クライアント側部分はまた、ユーザデバイス１２２上で実行されることができる。ＤＡクライアント１０２は１つ以上のネットワーク１１０を通じてＤＡサーバ１０６と通信することができる。ＤＡクライアント１０２は、ユーザ対応入力及び出力処理、並びにＤＡサーバ１０６との通信などのクライアント側機能性を提供することができる。ＤＡサーバ１０６は、それぞれのデバイス（例えば、メディアデバイス１０４及びユーザデバイス１２２）上に各々常駐する任意の数のＤＡクライアント１０２のためのサーバ側機能性を提供することができる。

メディアデバイス１０４は、メディアコンテンツを管理及び制御するように構成されている任意の好適な電子デバイスであることができる。例えば、メディアデバイス１０４は、ケーブルボックスデバイス、衛星ボックスデバイス、ビデオプレーヤデバイス、ビデオストリーミングデバイス、デジタルビデオレコーダ、ゲームシステム、ＤＶＤプレーヤ、ブルーレイディスク（商標）プレーヤ、このようなデバイスの組み合わせ、又は同様のものなどの、テレビセットトップボックスを含むことができる。図１に示されるように、メディアデバイス１０４はメディアシステム１２８の一部であることができる。メディアデバイス１０４に加えて、メディアシステム１２８は遠隔制御装置１２４及び表示ユニット１２６を含むことができる。メディアデバイス１０４は表示ユニット１２６上にメディアコンテンツを表示することができる。表示ユニット１２６は、テレビディスプレイ、モニタ、プロジェクタ、又は同様のものなどの、任意の種類のディスプレイであることができる。いくつかの実施例では、メディアデバイス１０４は、表示ユニット１２６と統合されているか、又はそれと別個のものであることができる、音声システム（例えば、音声受信器）、及びスピーカ（図示されていない）に接続していることができる。他の実施例では、表示ユニット１２６及びメディアデバイス１０４は、高度の処理能力及びネットワーク接続性能力を有するスマートテレビなどの、単一のデバイス内に一緒に組み込まれていることができる。このような実施例では、メディアデバイス１０４の機能は、結合されたデバイス上のアプリケーションとして実行されることができる。

いくつかの実施例では、メディアデバイス１０４は、メディアコンテンツの複数の種類及びソースのためのメディアコントロールセンターとして機能することができる。例えば、メディアデバイス１０４は、生放送のテレビ（例えば、無線、衛星、又はケーブルＴＶ）へのユーザアクセスを促進することができる。それゆえ、メディアデバイス１０４は、ケーブルチューナ、衛星チューナ、又は同様のものを含むことができる。いくつかの実施例では、メディアデバイス１０４はまた、後でタイムシフト視聴するためにＴＶ番組を録画することができる。他の実施例では、メディアデバイス１０４は、（例えば、様々な無料、有料、及び加入ベースのストリーミングサービスからの、）ケーブル配信のオンデマンドＴＶ番組、ビデオ、及び音楽、並びにインターネット配信のＴＶ番組、ビデオ、及び音楽などの、１つ以上のストリーミングメディアサービスへのアクセスを提供することができる。更に他の実施例では、メディアデバイス１０４は、モバイルユーザデバイスからの写真を表示すること、結合された記憶デバイスからのビデオを再生すること、結合されたミュージックプレーヤからの音楽を再生すること、又は同様のことなどの、任意の他のソースからのメディアコンテンツの再生又は表示を促進することができる。メディアデバイス１０４はまた、所望に応じて、本明細書において説明されているメディア制御機構の様々な他の組み合わせを含むことができる。メディアデバイス１０４の詳細な説明が以下において図２を参照して提供される。

ユーザデバイス１２２は、携帯電話（例えば、スマートフォン）、タブレットコンピュータ、ポータブルメディアプレーヤ、デスクトップコンピュータ、ラップトップコンピュータ、ＰＤＡ、装着型電子デバイス（例えば、デジタルグラス、リストバンド、腕時計、ブローチ、アームバンド等）、又は同様のものなどの、任意のパーソナル電子デバイスであることができる。ユーザデバイス１２２の詳細な説明が以下において図３を参照して提供される。

いくつかの実施例では、ユーザは、ユーザデバイス１２２、遠隔制御装置１２４、又はメディアデバイス１０４と統合されたインターフェース要素（例えば、ボタン、マイクロフォン、カメラ、ジョイスティックなど）を通じてメディアデバイス１０４と対話することができる。例えば、デジタルアシスタントのためのメディア関連のクエリ又はコマンドを含む発語入力をユーザデバイス１２２及び／又は遠隔制御装置１２４において受信することができ、発語入力を、メディア関連のタスクをメディアデバイス１０４上で実行させるために用いることができる。同様に、メディアデバイス１０４上のメディアを制御するための触知コマンドを、ユーザデバイス１２２及び／又は遠隔制御装置１２４において（並びに図示されていない他のデバイスから）受信することができる。それゆえ、メディアデバイス１０４の様々な機能は種々の仕方で制御することができ、ユーザに、複数のデバイスからメディアコンテンツを制御するための複数の選択肢を与える。

通信ネットワーク（単数又は複数）１１０の例としては、ローカルエリアネットワーク（local area network、ＬＡＮ）、及びワイドエリアネットワーク（wide area network、ＷＡＮ）、例えば、インターネットを挙げることができる。通信ネットワーク（単数又は複数）１１０は、例えば、イーサネット（登録商標）、ユニバーサルシリアルバス（Universal Serial Bus、ＵＳＢ）、ＦＩＲＥＷＩＲＥ（登録商標）、移動通信用のグローバルシステム（Global System for Mobile Communications、ＧＳＭ）、拡張データＧＳＭ環境（Enhanced Data GSM Environment、ＥＤＧＥ）、符号分割多元接続（code division multiple access、ＣＤＭＡ）、時分割多元接続（time division multiple access、ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、ボイスオーバーインターネットプロトコル（voice over Internet Protocol、ＶｏＩＰ）、Ｗｉ−ＭＡＸ（登録商標）、又は任意の他の好適な通信プロトコル等の、様々な有線又は無線プロトコルを含む、任意の周知のネットワークプロトコルを用いて実装することができる。

ＤＡサーバ１０６は、クライアント対応入力／出力（input/output、Ｉ／Ｏ）インターフェース１１２、１つ以上の処理モジュール１１４、データ及びモデル１１６、並びに外部サービスへのＩ／Ｏインターフェース１１８を含むことができる。クライアント対応Ｉ／Ｏインターフェース１１２は、ＤＡサーバ１０６のためのクライアント対応入力及び出力処理を促進することができる。１つ以上の処理モジュール１１４は、発語入力を処理し、自然言語入力に基づいてユーザの意図を決定するために、データ及びモデル１１６を利用することができる。更に、１つ以上の処理モジュール１１４は、推測されたユーザ意図に基づいてタスク実行を実行することができる。いくつかの実施例では、ＤＡサーバ１０６は、タスクを完了させるか又は情報を取得するために、ネットワーク（単数又は複数）１１０を通じて、電話サービス、カレンダーサービス、情報サービス、メッセージングサービス、ナビゲーションサービス、テレビ番組サービス、ストリーミングメディアサービス、メディア検索サービス、及び同様のものなどの外部サービス１２０と通信することができる。外部サービスへのＩ／Ｏインターフェース１１８はこのような通信を促進することができる。

サーバシステム１０８は、１つ以上の独立型データ処理装置、又はコンピュータの分散型ネットワーク上に実装することができる。いくつかの実施例では、サーバシステム１０８は、また、様々な仮想デバイス及び／又はサードパーティサービスプロバイダ（例えば、サードパーティクラウドサービスプロバイダ）のサービスを利用して、サーバシステム１０８の基本的なコンピューティングリソース及び／又はインフラストラクチャリソースを提供することができる。

図１に示されるデジタルアシスタントはクライアント側部分（例えば、ＤＡクライアント１０２）及びサーバ側部分（例えば、ＤＡサーバ１０６）の両方を含むことができるが、いくつかの実施例では、デジタルアシスタントの機能は、ユーザデバイス又はメディアデバイス上にインストールされる独立型アプリケーションとして実装することができる。加えて、デジタルアシスタントのクライアント部分とサーバ部分との間の機能の分配は実施態様によって異なり得る。例えば、いくつかの実施例では、ユーザデバイス１２２又はメディアデバイス１０４上で実行されるＤＡクライアントは、ユーザ対応入力及び出力処理機能のみを提供し、デジタルアシスタントの全ての他の機能をバックエンドサーバに委ねるシンクライアントであることができる。
２．メディアシステム

図２は、様々な実施例に係るメディアシステム１２８のブロック図を示す。メディアシステム１２８は、表示ユニット１２６、遠隔制御装置１２４、及びスピーカ２６８に通信可能に結合されているメディアデバイス１０４を含むことができる。メディアデバイス１０４は遠隔制御装置１２４を介してユーザ入力を受信することができる。表示ユニット１２６上にメディアデバイス１０４からのメディアコンテンツを表示することができる。

本例では、図２に示されるように、メディアデバイス１０４は、メモリインターフェース２０２、１つ以上のプロセッサ２０４、及び周辺機器インターフェース２０６を含むことができる。メディアデバイス１０４内の様々な構成要素は、１つ以上の通信バス又は信号線によって互いに結合されていることができる。メディアデバイス１０４は、周辺機器インターフェース２０６に結合されている様々なサブシステム及び周辺デバイスを更に含むことができる。サブシステム及び周辺デバイスは情報を収集し、及び／又はメディアデバイス１０４の種々の機能性を促進することができる。

例えば、メディアデバイス１０４は通信サブシステム２２４を含むことができる。様々な通信ポート、無線周波数受信器及び送信器、並びに／又は光（例えば、赤外線）受信器及び送信器を含み得る、１つ以上の有線及び／又は無線通信サブシステム２２４を通じて、通信機能が促進されてもよい。

いくつかの実施例では、メディアデバイス１０４は、周辺機器インターフェース２０６に結合されたＩ／Ｏサブシステム２４０を更に含むことができる。Ｉ／Ｏサブシステム２４０は音声／ビデオ出力コントローラ２７０を含むことができる。音声／ビデオ出力コントローラ２７０は表示ユニット１２６及びスピーカ２６８に結合されていることができるか、又は音声及びビデオ出力を別の仕方で（例えば、音声／ビデオポート、無線送信などを介して）提供することができる。Ｉ／Ｏサブシステム２４０はリモートコントローラ２４２を更に含むことができる。リモートコントローラ２４２は、（例えば、有線接続、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）などを介して）遠隔制御装置１２４に通信可能に結合されることができる。

遠隔制御装置１２４は、音声データ（例えば、ユーザからの発語入力）をキャプチャするためのマイクロフォン２７２、触知入力をキャプチャするためのボタン（単数又は複数）２７４、及びリモートコントローラ２４２を介したメディアデバイス１０４との通信を促進するための送受信器２７６を含むことができる。更に、遠隔制御装置１２４は、触覚及び／若しくは触知の接触に基づくユーザからの入力を受け付けるタッチ感知面２７８、センサ、又はセンサのセットを含むことができる。タッチ感知面２７８及びリモートコントローラ２４２は、タッチ感知面２７８上における接触（並びに接触の任意の移動又は中断）を検出し、検出された接触（例えば、ジェスチャ、接触運動など）を、表示ユニット１２６上に表示されたユーザインターフェースオブジェクト（例えば、１つ以上のソフトキー、アイコン、ウェブページ、又は画像）との対話に変換することができる。いくつかの実施例では、遠隔制御装置１２４はまた、キーボード、ジョイスティック、又は同様のものなどの、他の入力機構を含むことができる。いくつかの実施例では、遠隔制御装置１２４は、ライト、ディスプレイ、スピーカ、又は同様のものなどの、出力機構を更に含むことができる。遠隔制御装置１２４において受信された入力（例えば、ユーザ発語、ボタン押下、接触運動など）は遠隔制御装置１２４を介してメディアデバイス１０４へ伝達されることができる。Ｉ／Ｏサブシステム２４０はまた、他の入力コントローラ（単数又は複数）２４４を含むことができる。他の入力コントローラ（単数又は複数）２４４は、１つ以上のボタン、ロッカスイッチ、サムホイール、赤外線ポート、ＵＳＢポート、及び／又はスタイラスなどのポインタデバイスなどの、他の入力／制御デバイス２４８に結合されることができる。

いくつかの実施例では、メディアデバイス１０４は、メモリ２５０に結合されたメモリインターフェース２０２を更に含むことができる。メモリ２５０としては、任意の電子式、磁気式、光学式、電磁式、赤外線式、若しくは半導体式のシステム、装置、又はデバイス、ポータブルコンピュータディスケット（磁気式）、ランダムアクセスメモリ（random access memory、ＲＡＭ）（磁気式）、読み出し専用メモリ（read-only memory、ＲＯＭ）（磁気式）、消去可能なプログラマブル読出し専用メモリ（erasable programmable read-only memory、ＥＰＲＯＭ）（磁気式）、ＣＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ、ＤＶＤ−Ｒ、若しくはＤＶＤ−ＲＷなどのポータブル光ディスク、又はコンパクトフラッシュカード、セキュアデジタルカード、ＵＳＢメモリデバイス、メモリスティック、及び同様のものなどのフラッシュメモリ、を挙げることができる。いくつかの実施例では、メモリ２５０の非一時的コンピュータ可読記憶媒体は、（例えば、本明細書において説明されている様々なプロセスの部分又は全てを実行する）命令を、コンピュータベースのシステム、プロセッサを含むシステム、又は命令実行システム、装置、若しくはデバイスから命令をフェッチすることができ、それらの命令を実行することができる他のシステムなどの、命令実行システム、装置、若しくはデバイスによる使用、又はそれと関連した使用のために記憶するために用いることができる。他の実施例では、（例えば、本明細書において説明されている様々なプロセスの部分又は全てを実行する）命令は、サーバシステム１０８の非一時的コンピュータ可読記憶媒体上に記憶することができるか、又はメモリ２５０の非一時的コンピュータ可読記憶媒体とサーバシステム１０８の非一時的コンピュータ可読記憶媒体との間で分配することができる。本明細書の文脈においては、「非一時的コンピュータ可読記憶媒体」は、命令実行システム、装置、若しくはデバイスによって、又はこれらとともに使用するためのプログラムを収容又は記憶し得る、任意の媒体であることができる。

いくつかの実施例では、メモリ２５０は、オペレーティングシステム２５２、通信モジュール２５４、グラフィカルユーザインターフェース（graphical user interface、ＧＵＩ）モジュール２５６、デバイス上メディアモジュール２５８、デバイス外メディアモジュール２６０、及びアプリケーションモジュール２６２を記憶することができる。オペレーティングシステム２５２は、基本システムサービスを処理する命令、及びハードウェア依存タスクを実行する命令を含むことができる。通信モジュール２５４は、１つ以上の追加デバイス、１つ以上のコンピュータ及び／又は１つ以上のサーバとの通信を促進してもよい。グラフィカルユーザインターフェースモジュール２５６はグラフィカルユーザインターフェース処理を促進することができる。デバイス上メディアモジュール２５８は、メディアデバイス１０４上にローカルに記憶されたメディアコンテンツの記憶及び再生を促進することができる。デバイス外メディアモジュール２６０は、（例えば、リモートサーバ上、ユーザデバイス１２２上などの）外部ソースから取得されたメディアコンテンツのストリーミング再生又はダウンロードを促進することができる。更に、デバイス外メディアモジュール２６０は、放送及びケーブルコンテンツを受信すること（例えば、チャンネル同調）を促進することができる。アプリケーションモジュール２６２は、ウェブブラウジング、メディア処理、ゲーム、並びに／又はその他のプロセス及び機能などの、メディア関連アプリケーションの様々な機能性を促進することができる。

本明細書で説明されるように、メモリ２５０はまた、例えば、デジタルアシスタントのクライアント側機能性を提供するために、（例えば、デジタルアシスタントクライアントモジュール２６４内の）クライアント側デジタルアシスタント命令、並びに種々のユーザデータ２６６（例えば、ユーザ固有の語彙データ、プリファレンスデータ、及び／若しくはユーザのメディア検索履歴、メディアウォッチリスト、最近見たもののリスト、お気に入りメディアアイテム等などのその他のデータ）も記憶することができる。ユーザデータ２６６はまた、デジタルアシスタントを支援する、又は任意の他のアプリケーションのための、発語認識を実行する際に用いることができる。

様々な実施例では、デジタルアシスタントクライアントモジュール２６４は、メディアデバイス１０４の様々なユーザインターフェース（例えば、Ｉ／Ｏサブシステム２４０又は同様のもの）を通じて、音声入力（例えば、発語入力）、テキスト入力、タッチ入力、及び／又はジェスチャ入力を受け付ける能力を有することができる。デジタルアシスタントクライアントモジュール２６４はまた、音声（例えば、発語出力）、視覚、及び／又は触覚形式の出力を提供する能力を有することもできる。例えば、出力は、音声、音響、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び／又は上記のもののうちの２つ以上の組み合わせとして提供することができる。動作時、デジタルアシスタントクライアントモジュール２６４は、通信サブシステム２２４を用いてデジタルアシスタントサーバ（例えば、ＤＡサーバ１０６）と通信することができる。

いくつかの実施例では、デジタルアシスタントクライアントモジュール２６４は、ユーザ、現在のユーザ対話及び／又は現在のユーザ入力に関連付けられたコンテクストを確立するために、様々なサブシステム及び周辺デバイスを利用して、メディアデバイス１０４に関連する、及びメディアデバイス１０４の周囲環境からの追加情報を収集することができる。このようなコンテクストまた、ユーザデバイス１２２などからの、他のデバイスからの情報を含むことができる。いくつかの実施例では、デジタルアシスタントクライアントモジュール２６４は、ユーザの意図の推測を助けるために、ユーザ入力とともにコンテクスト情報又はそのサブセットをデジタルアシスタントサーバに提供することができる。デジタルアシスタントはまた、ユーザへの出力をどのように準備し、配信するかを決定するために、コンテクスト情報を用いることができる。コンテクスト情報は、メディアデバイス１０４又はサーバシステム１０８によって、正確な発語認識を支援するために更に用いられることができる。

いくつかの実施例では、ユーザ入力に付随するコンテクスト情報は、照明、周囲ノイズ、周囲温度、別の物体までの距離、及び同様のものなどの、センサ情報を含むことができる。コンテクスト情報は、メディアデバイス１０４の物理的状態（例えば、デバイスのロケーション、デバイスの温度、電力レベルなど）又はメディアデバイス１０４のソフトウェア状態（例えば、実行中のプロセス、インストールされているアプリケーション、過去及び現在のネットワーク活動、バックグラウンドサービス、エラーログ、リソース使用量など）に関連付けられた情報を更に含むことができる。コンテクスト情報は、ユーザから受信された情報（例えば、発語入力）、ユーザによって要求された情報、並びにユーザに提示された情報（例えば、メディアデバイスによって現在若しくは以前に表示された情報）を更に含むことができる。コンテクスト情報は、接続されたデバイス、又はユーザに関連付けられた他のデバイスの状態に関連付けられた情報（例えば、ユーザデバイス１２２上に表示されたコンテンツ、ユーザデバイス１２２上の再生可能なコンテンツなど）を更に含むことができる。これらのコンテクスト情報の種類のうちの任意のものを、ユーザ入力に関連付けられたコンテクスト情報として、ＤＡサーバ１０６に提供する（又はメディアデバイス１０４自身の上で用いる）ことができる。

いくつかの実施例では、デジタルアシスタントクライアントモジュール２６４は、ＤＡサーバ１０６からの要求に応じて、メディアデバイス１０４上に記憶されている情報（例えば、ユーザデータ２６６）を選択的に提供することができる。加えて、又は代替的に、情報は、発語認識及び／又はデジタルアシスタント機能を実行する際にメディアデバイス１０４自身の上で用いることができる。デジタルアシスタントクライアントモジュール２６４はまた、ＤＡサーバ１０６による要求に応じて、自然言語ダイアログ又は他のユーザインターフェースを介してユーザから追加入力を引き出すことができる。デジタルアシスタントクライアントモジュール２６４は、意図推測及び／又はユーザ要求内に表されているユーザの意図の達成においてＤＡサーバ１０６を助けるために、追加入力をＤＡサーバ１０６に渡すことができる。

様々な実施例では、メモリ２５０は追加の命令又はより少数の命令を含んでもよい。更に、メディアデバイス１０４の様々な機能は、１つ以上の信号処理回路及び／又は特定用途向け集積回路の形態を含む、ハードウェアの形態及び／又はファームウェアの形態で実装することができる。
３．ユーザデバイス

図３は、様々な実施例に係る例示的なユーザデバイス１２２のブロック図を示す。図に示すように、ユーザデバイス１２２は、メモリインターフェース３０２、１つ以上のプロセッサ３０４、及び周辺機器インターフェース３０６を含んでもよい。ユーザデバイス１２２内の様々な構成要素は、１つ以上の通信バス又は信号線によって互いに結合されてもよい。ユーザデバイス１２２は、周辺機器インターフェース３０６に結合される様々なセンサ、サブシステム、及び周辺機器デバイスを更に含んでもよい。センサ、サブシステム、及び周辺デバイスは情報を収集し、並びに／又はユーザ機器１２２の種々の機能性を促進することができる。

例えば、ユーザデバイス１２２は、向き、光、及び近接検知機能を促進するために周辺機器インターフェース３０６に結合された、動きセンサ３１０、光センサ３１２、及び近接センサ３１４を含むことができる。関連機能を促進するために、測位システム（例えば、ＧＰＳ受信機）、温度センサ、生体測定センサ、ジャイロスコープ、コンパス、加速度計、及び同様のもの等の、１つ以上の他のセンサ３１６も周辺機器インターフェース３０６に接続されることができる。

いくつかの実施例では、カメラサブシステム３２０及び光学センサ３２２は、写真の撮影及びビデオクリップの録画等の、カメラ機能を促進するために利用されてもよい。様々な通信ポート、無線周波数受信器及び送信器、並びに／又は光（例えば、赤外線）受信器及び送信器を含み得る、１つ以上の有線及び／又は無線通信サブシステム３２４を通じて、通信機能が促進されてもよい。音声認識機能、音声複製機能、デジタル録音機能、及び電話機能などの、音声使用可能機能を促進するために、音声サブシステム３２６がスピーカ３２８及びマイクロフォン３３０に結合されることができる。

いくつかの実施例では、ユーザデバイス１２２は、周辺機器インターフェース３０６に結合されたＩ／Ｏサブシステム３４０を更に含んでもよい。Ｉ／Ｏサブシステム３４０は、タッチスクリーンコントローラ３４２及び／又は他の入力コントローラ（単数又は複数）３４４を含むことができる。タッチスクリーンコントローラ３４２は、タッチスクリーン３４６に結合されていることができる。タッチスクリーン３４６及びタッチスクリーンコントローラ３４２は、例えば、容量性、抵抗性、赤外線、及び表面弾性波技術、近接センサアレイ、並びに同様のものなどの複数のタッチ感知技術のうちの任意のものを用いて、接触並びにその移動若しくは中断を検出することができる。他の入力コントローラ（単数又は複数）３４４は、１つ以上のボタン、ロッカスイッチ、サムホイール、赤外線ポート、ＵＳＢポート、及び／又はスタイラスなどのポインタデバイスなどの、他の入力／制御デバイス３４８に結合されることができる。

いくつかの実施例では、ユーザデバイス１２２は、メモリ３５０に結合されたメモリインターフェース３０２を更に含んでもよい。メモリ３５０としては、任意の電子式、磁気式、光学式、電磁式、赤外線式、若しくは半導体式のシステム、装置、若しくはデバイス、ポータブルコンピュータディスケット（磁気式）、ランダムアクセスメモリ（ＲＡＭ）（磁気式）、読み出し専用メモリ（ＲＯＭ）（磁気式）、消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）（磁気式）、ＣＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ、ＤＶＤ−Ｒ、若しくはＤＶＤ−ＲＷなどのポータブル光ディスク、又はコンパクトフラッシュカード、セキュアデジタルカード、ＵＳＢメモリデバイス、メモリスティック、及び同様のものなどのフラッシュメモリ、を挙げることができる。いくつかの実施例では、メモリ３５０の非一時的コンピュータ可読記憶媒体は、（例えば、本明細書において説明されている様々なプロセスの部分又は全てを実行する）命令を、コンピュータベースのシステム、プロセッサを含むシステム、又は命令実行システム、装置、若しくはデバイスから命令をフェッチすることができ、それらの命令を実行することができる他のシステムなどの、命令実行システム、装置、若しくはデバイスによる使用、又はそれと関連した使用のために記憶するために用いることができる。他の実施例では、（例えば、本明細書において説明されている様々なプロセスの部分又は全てを実行する）命令は、サーバシステム１０８の非一時的コンピュータ可読記憶媒体上に記憶することができるか、又はメモリ３５０の非一時的コンピュータ可読記憶媒体とサーバシステム１０８の非一時的コンピュータ可読記憶媒体との間で分配することができる。本明細書の文脈においては、「非一時的コンピュータ可読記憶媒体」は、命令実行システム、装置、若しくはデバイスによって、又はこれらとともに使用するためのプログラムを収容又は記憶し得る、任意の媒体であることができる。

いくつかの実施例では、メモリ３５０は、オペレーティングシステム３５２、通信モジュール３５４、グラフィカルユーザインターフェース（ＧＵＩ）モジュール３５６、センサ処理モジュール３５８、電話モジュール３６０、及びアプリケーションモジュール３６２を記憶することができる。オペレーティングシステム３５２は、基本システムサービスを処理する命令、及びハードウェア依存タスクを実行する命令を含むことができる。通信モジュール３５４は、１つ以上の追加デバイス、１つ以上のコンピュータ及び／又は１つ以上のサーバとの通信を促進してもよい。グラフィカルユーザインターフェースモジュール３５６はグラフィカルユーザインターフェース処理を促進することができる。センサ処理モジュール３５８はセンサ関連の処理及び機能を促進することができる。電話モジュール３６０は電話関連のプロセス及び機能を促進してもよい。アプリケーションモジュール３６２は、電子メッセージング、ウェブブラウジング、メディア処理、ナビゲーション、イメージング、並びに／又はその他のプロセス及び機能等の、ユーザアプリケーションの様々な機能性を促進することができる。

本明細書で説明されるように、メモリ３５０はまた、例えば、デジタルアシスタントのクライアント側機能性を提供するために、（例えば、デジタルアシスタントクライアントモジュール３６４内の）クライアント側デジタルアシスタント命令、並びに種々のユーザデータ３６６（例えば、ユーザ固有の語彙データ、プリファレンスデータ、及び／若しくはユーザの電子アドレス帳、ｔｏ−ｄｏリスト、買い物リスト、テレビ番組のお気に入り等などのその他のデータ）も記憶することができる。ユーザデータ３６６はまた、デジタルアシスタントを支援する、又は任意の他のアプリケーションのための、発語認識を実行する際に用いることができる。デジタルアシスタントクライアントモジュール３６４及びユーザデータ３６６は、それぞれ、以上において図２を参照して説明されたとおりのデジタルアシスタントクライアントモジュール２６４及びユーザデータ２６６と同様又は同一であることができる。

様々な実施例では、メモリ３５０は追加の命令又はより少数の命令を含んでもよい。更に、ユーザデバイス１２２の様々な機能は、１つ以上の信号処理回路及び／又は特定用途向け集積回路の形態を含む、ハードウェアの形態及び／又はファームウェアの形態で実装することができる。

いくつかの実施例では、ユーザデバイス１２２は、メディアデバイス１０４の諸態様を制御するように構成することができる。例えば、ユーザデバイス１２２は遠隔制御装置（例えば、遠隔制御装置１２４として機能することができる。ユーザデバイス１２２を介して受信されたユーザ入力は、対応するアクションをメディアデバイス１０４によって実行させるために、メディアデバイス１０４へ（例えば、通信サブシステムを用いて）伝送することができる。加えて、ユーザデバイス１２２は、メディアデバイス１０４から命令を受信するように構成することができる。例えば、メディアデバイス１０４は、実行し、ユーザデバイス１２２上にオブジェクト（例えば、選択可能なアフォーダンス）を表示させるためのタスクをユーザデバイス１２２に引き渡すことができる。

システム１００及びメディアシステム１２８は、図１及び図２に示される構成要素及び構成に限定されず、ユーザデバイス１２２、メディアデバイス１０４、及び遠隔制御装置１２４は同様に、図２及び図３に示される構成要素及び構成に限定されないことを理解されたい。システム１００、メディアシステム１２８、ユーザデバイス１２２、メディアデバイス１０４、及び遠隔制御装置１２４は全て、様々な実施例に係る複数の構成において、より少数の構成要素又は他の構成要素を含むことができる。
４．デジタルアシスタントシステム

図４Ａは、様々な実施例に係るデジタルアシスタントシステム４００のブロック図を示す。いくつかの実施例では、デジタルアシスタントシステム４００は独立型コンピュータシステム上に実装することができる。いくつかの実施例では、デジタルアシスタントシステム４００は複数のコンピュータにわたって分散させることができる。いくつかの実施例では、デジタルアシスタントのモジュール及び機能のいくつかはサーバ部分及びクライアント部分に分割されることができる。この場合には、クライアント部分は１つ以上のユーザデバイス（例えば、デバイス１０４又は１２２）上に常駐し、例えば、図１に示されているように、１つ以上のネットワークを通じてサーバ部分（例えば、サーバシステム１０８）と通信する。いくつかの実施例では、デジタルアシスタントシステム４００は、図１に示されるサーバシステム１０８（及び／又はＤＡサーバ１０６）の一実装形態であることができる。デジタルアシスタントシステム４００はデジタルアシスタントシステムの単なる一例にすぎず、デジタルアシスタントシステム４００は、図示されているよりも多数又は少数の構成要素を有することができるか、２つ以上の構成要素を組み合わせてもよいか、あるいは構成要素の異なる構成又は配置を有してもよいことに留意されたい。図４Ａに示される種々の構成要素は、１つ以上の信号処理回路及び／若しくは特定用途向け集積回路を含む、ハードウェア、１つ以上のプロセッサによって実行されるソフトウェア命令、ファームウェア、又はそれらの組み合わせの形態で実装されることができる。

デジタルアシスタントシステム４００は、メモリ４０２、１つ以上のプロセッサ４０４、Ｉ／Ｏインターフェース４０６、及びネットワーク通信インターフェース４０８を含むことができる。これらの構成要素は１本以上の通信バス又は信号線４１０を通じて互いに通信することができる。

いくつかの実施例では、メモリ４０２は、高速ランダムアクセスメモリ並びに／又は不揮発性コンピュータ可読記憶媒体（例えば、１つ以上の磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の不揮発性固体メモリデバイス）などの、非一時的コンピュータ可読媒体を含むことができる。

いくつかの実施例では、Ｉ／Ｏインターフェース４０６は、ディスプレイ、キーボード、タッチスクリーン、及びマイクロフォンなどの、デジタルアシスタントシステム４００のＩ／Ｏデバイス４１６をユーザインターフェースモジュール４２２に結合することができる。Ｉ／Ｏインターフェース４０６は、ユーザインターフェースモジュール４２２と協働して、ユーザ入力（例えば、音声入力、キーボード入力、タッチ入力等）を受信し、それらを適宜に処理することができる。いくつかの実施例では、例えば、デジタルアシスタントが独立型ユーザデバイス上に実装される場合には、デジタルアシスタントシステム４００は、図２又は図３においてそれぞれデバイス１０４又は１２２に関して説明されている構成要素及びＩ／Ｏ通信インターフェースの任意のものを含むことができる。いくつかの実施例では、デジタルアシスタントシステム４００はデジタルアシスタントの実装形態のサーバ部分を表すことができ、クライアントデバイス（例えば、ユーザデバイス１０４又は１２２）上に常駐するクライアント側部分を通じてユーザと対話することができる。

いくつかの実施例では、ネットワーク通信インターフェース４０８は有線通信ポート（単数又は複数）４１２並びに／又は無線伝送及び受信回路機構４１４を含むことができる。有線通信ポート（単数又は複数）は、１つ以上の有線インターフェース、例えば、イーサネット、ユニバーサルシリアルバス（ＵＳＢ）、ＦＩＲＥＷＩＲＥ（登録商標）などを介して通信信号を受信及び送信することができる。無線回路４１４は、通信ネットワーク及び他の通信デバイスから／へ、ＲＦ信号及び／又は光信号を受信及び送信することができる。無線通信は、ＧＳＭ（登録商標）、ＥＤＧＥ、ＣＤＭＡ、ＴＤＭＡ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、ＶｏＩＰ、Ｗｉ−ＭＡＸ（登録商標）、あるいは任意のその他の好適な通信プロトコル等の、複数の通信規格、プロトコル及び技術のうちの任意のものを用いることができる。ネットワーク通信インターフェース４０８は、インターネット、イントラネット、及び／又はセルラー電話ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）などの無線ネットワーク、及び／又はメトロポリタンエリアネットワーク（metropolitan area network、ＭＡＮ）などの、ネットワークを用いた、デジタルアシスタントシステム４００とデバイスとの間の通信を可能にすることができる。

いくつかの実施例では、メモリ４０２、又はメモリ４０２のコンピュータ可読記憶媒体は、オペレーティングシステム４１８、通信モジュール４２０、ユーザインターフェースモジュール４２２、１つ以上のアプリケーション４２４、及びデジタルアシスタントモジュール４２６の全て又はサブセットを含むプログラム、モジュール、命令、及びデータ構造を記憶することができる。特に、メモリ４０２、又はメモリ４０２のコンピュータ可読記憶媒体は、後述されるプロセス８００を実行する命令を記憶することができる。１つ以上のプロセッサ４０４はこれらのプログラム、モジュール、及び命令を実行することができ、データ構造から／へ読み出し／書き込みを行うことができる。

オペレーティングシステム４１８（例えば、Ｄａｒｗｉｎ（登録商標）、ＲＴＸＣ（登録商標）、ＬＩＮＵＸ（登録商標）、ＵＮＩＸ（登録商標）、ｉＯＳ、ＯＳＸ（登録商標）、ＷＩＮＤＯＷＳ（登録商標）、又はＶｘＷｏｒｋｓなどの組み込みオペレーティングシステム）は、一般的なシステムタスク（例えば、メモリ管理、記憶デバイス制御、電力管理など）を制御及び管理するための様々なソフトウェア構成要素及び／又はドライバを含むことができ、様々なハードウェア、ファームウェア、及びソフトウェア構成要素間の通信を促進する。

通信モジュール４２０は、ネットワーク通信インターフェース４０８を通じたデジタルアシスタントシステム４００とその他のデバイスとの間の通信を促進することができる。例えば、通信モジュール４２０は電子デバイス（例えば、１０４、１２２）の通信サブシステム（例えば、２２４、３２４）と通信することができる。通信モジュール４２０はまた、無線回路機構４１４及び／又は有線通信ポート４１２によって受信されたデータを処理するための種々の構成要素も含むことができる。

ユーザインターフェースモジュール４２２はＩ／Ｏインターフェース４０６を介して（例えば、キーボード、タッチスクリーン、ポインティングデバイス、コントローラ、及び／又はマイクロフォンから）ユーザからのコマンド及び／又は入力を受信し、ディスプレイ上にユーザインターフェースオブジェクトを生成することができる。ユーザインターフェースモジュール４２２はまた、出力（例えば、発語、音響、アニメーション、テキスト、アイコン、振動、触覚フィードバック、光など）を準備し、Ｉ／Ｏインターフェース４０６を介して（例えば、ディスプレイ、オーディオチャネル、スピーカ、タッチパッドなどを通じて）ユーザへ配信することができる。

アプリケーション４２４は、１つ以上のプロセッサ４０４によって実行されるように構成されたプログラム及び／又はモジュールを含むことができる。例えば、デジタルアシスタントシステム４００が独立型ユーザデバイス上に実装される場合には、アプリケーション４２４は、ゲーム、カレンダーアプリケーション、ナビゲーションアプリケーション、又は電子メールアプリケーションなどの、ユーザアプリケーションを含むことができる。デジタルアシスタントシステム４００がサーバ上に実装される場合には、アプリケーション４２４は、例えば、資源管理アプリケーション、診断アプリケーション、又はスケジューリングアプリケーションを含むことができる。

メモリ４０２はまた、デジタルアシスタントモジュール４２６（又はデジタルアシスタントのサーバ部分）も記憶することができる。いくつかの実施例では、デジタルアシスタントモジュール４２６は、以下のサブモジュール、又はそれらのサブセット若しくはスーパーセットを含むことができる。Ｉ／Ｏ処理モジュール４２８、発語テキスト化（speech-to-text、ＳＴＴ）処理モジュール４３０、自然言語処理モジュール４３２、ダイアログフロー処理モジュール４３４、タスクフロー処理モジュール４３６、サービス処理モジュール４３８、及び発語合成モジュール４４０。これらのモジュールの各々は、デジタルアシスタントモジュール４２６の以下のシステム又はデータ及びモデルのうちの１つ以上、又はそれらのサブセット若しくはスーパーセットへのアクセスを有することができる。オントロジ４６０、語彙索引４４４、ユーザデータ４４８、タスクフローモデル４５４、サービスモデル４５６、及び自動発語認識（automatic speech recognition、ＡＳＲ）システム４３１。

いくつかの実施例では、デジタルアシスタントモジュール４２６内に実装された処理モジュール、データ及びモデルを用いて、デジタルアシスタントは以下のもののうちの少なくともいくつかを実行することができる。発語入力をテキストに変換すること、ユーザから受信した自然言語入力内に表現されているユーザの意図を特定すること、ユーザの意図を完全に推測するために必要な情報を（例えば、単語、ゲーム、意図などの曖昧さを除去することによって）能動的に引き出し、取得すること、推測された意図を達成するためのタスクフローを決定すること、及び推測された意図を達成するためのタスクフローを実行すること。

いくつかの実施例では、図４Ｂに示されるように、Ｉ／Ｏ処理モジュール４２８は、ユーザ入力（例えば、発語入力）を取得するため、及びユーザ入力への応答を（例えば、発語出力として）提供するために、図４ＡにおけるＩ／Ｏデバイス４１６を通じてユーザと対話するか、又は、図４Ａにおけるネットワーク通信インターフェース４０８を通じて電子デバイス（例えば、デバイス１０４若しくは１２２）と対話することができる。Ｉ／Ｏ処理モジュール４２８は、ユーザ入力とともに、又はその受信の直後に、ユーザ入力に関連付けられるコンテクスト情報を電子デバイスから任意選択的に取得することができる。コンテクスト情報は、ユーザ入力に関連するユーザ固有のデータ、語彙、及び／又はプリファレンスを含むことができる。いくつかの実施例では、コンテクスト情報はまた、ユーザ要求が受信された時点における電子デバイスのソフトウェア及びハードウェア状態、並びに／又はユーザ要求が受信された時点におけるユーザの周囲環境に関する情報も含む。いくつかの実施例では、Ｉ／Ｏ処理モジュール４２８はまた、ユーザ要求について、ユーザに補足質問を送り、ユーザから回答を受信することができる。ユーザ要求がＩ／Ｏ処理モジュール４２８によって受信され、ユーザ要求が発語入力を含むことができる場合には、Ｉ／Ｏ処理モジュール４２８は発語入力を発語テキスト化変換のためにＳＴＴ処理モジュール４３０（又は発語認識装置）へ転送することができる。

ＳＴＴ処理モジュール４３０は１つ以上のＡＳＲシステム（例えば、ＡＳＲシステム４３１）を含むことができる。１つ以上のＡＳＲシステムは、Ｉ／Ｏ処理モジュール４２８を通じて受信された発語入力を処理し、認識結果を生成することができる。各ＡＳＲシステムはフロントエンド発語プリプロセッサを含むことができる。フロントエンド発語プリプロセッサは発語入力から代表特徴を抽出することができる。例えば、フロントエンド発語プリプロセッサは発語入力に対してフーリエ変換を実行し、発語入力を一連の代表多次元ベクトルとして特徴付けるスペクトル特徴を抽出することができる。更に、各ＡＳＲシステムは１つ以上の発語認識モデル（例えば、音響モデル及び／又は言語モデル）を含むことができ、１つ以上の発語認識エンジンを実装することができる。発語認識モデルの例としては、隠れマルコフモデル、混合ガウスモデル、ディープニューラルネットワークモデル、ｎグラム言語モデル、及びその他の統計的モデルを挙げることができる。発語認識エンジンの例としては、動的タイムワーピングベースのエンジン、及び重み付き有限状態トランスデューサ（weighted finite-state transducer、ＷＦＳＴ）ベースのエンジンを挙げることができる。１つ以上の発語認識モデル及び１つ以上の発語認識エンジンを用いて、フロントエンド発語プリプロセッサの抽出された代表特徴を処理し、中間認識結果（例えば、音素、音素文字列、及び部分語）、並びに最終的に、テキスト認識結果（例えば、単語、単語文字列、若しくはトークンの列）を生成することができる。いくつかの実施例では、発語入力は、認識結果を生成するために、サードパーティサービスによって、又は電子デバイス（例えば、デバイス１０４若しくは１２２）上で少なくとも部分的に処理することができる。ＳＴＴ処理モジュール４３０が、テキスト文字列（例えば、単語、単語の列、又はトークンの列）を包含する認識結果を生成すると、認識結果は意図推論のために自然言語処理モジュール４３２に渡されることができる。

いくつかの実施例では、１つ以上のＡＳＲシステムの１つ以上の言語モデルは、メディアに関連した結果へ偏向させられるように構成することができる。一実施例では、１つ以上の言語モデルは、メディア関連テキストのコーパスを用いて訓練することができる。別の実施例では、ＡＳＲシステムは、メディアに関連した認識結果を優先するように構成することができる。いくつかの実施例では、１つ以上のＡＳＲシステムは静的言語モデル及び動的言語モデルを含むことができる。静的言語モデルは、テキストの一般コーパスを用いて訓練することができ、その一方で、動的言語モデルは、ユーザ固有のテキストを用いて訓練することができる。例えば、ユーザから受信された以前の発語入力に対応するテキストを、動的言語モデルを生成するために用いることができる。いくつかの実施例では、１つ以上のＡＳＲシステムは、静的言語モデル及び／又は動的言語モデルに基づく認識結果を生成するように構成することができる。更に、いくつかの実施例では、１つ以上のＡＳＲシステムは、より最近に受信された以前の発語入力に対応する認識結果を優先するように構成することができる。

発語テキスト化処理についての更なる詳細が、２０１１年９月２０日に出願された、「ＣｏｎｓｏｌｉｄａｔｉｎｇＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＲｅｓｕｌｔｓ」についての米国実用特許出願第１３／２３６，９４２号に記載されている。同出願の開示全体は本明細書において参照により組み込まれている。

いくつかの実施例では、ＳＴＴ処理モジュール４３０は、音声記号変換モジュール４３１を介して、認識可能な単語の語彙を含み、及び／又はそれにアクセスすることができる。各語彙単語は、発語認識音声記号で表現された単語の１つ以上の候補発音に関連付けられていることができる。特に、認識可能な単語の語彙は、複数の候補発音に関連付けられた単語を含むことができる。例えば、語彙は、
の候補発音に関連付けられた単語「ｔｏｍａｔｏ」を含んでもよい。更に、語彙単語は、ユーザからの以前の発語入力に基づくカスタム候補発音に関連付けられていることができる。このようなカスタム候補発音はＳＴＴ処理モジュール４３０内に記憶されることができ、特定のユーザに、デバイス上のそのユーザのプロファイルを介して関連付けられていることができる。いくつかの実施例では、単語のための候補発音は、単語の綴り、並びに１つ以上の言語規則及び／若しくは音声規則に基づいて決定することができる。いくつかの実施例では、候補発音は、例えば、既知の標準的発音に基づいて、手動で生成することができる。

いくつかの実施例では、候補発音は候補発音の一般性に基づいて順位付けすることができる。例えば、候補発音
よりも高く順位付けすることができる。なぜなら、前者は、（例えば、全ユーザの間で、特定の地理的領域内のユーザについて、又はユーザの任意の他の適当なサブセットについて）より一般的に用いられている発音であるからである。いくつかの実施例では、候補発音は、候補発音が、ユーザに関連付けられたカスタム候補発音であるかどうかに基づいて順位付けすることができる。例えば、カスタム候補発音は標準的な候補発音よりも高く順位付けすることができる。これは、標準的な発音から逸脱した特有の発音を有する固有名詞を認識するために有用になり得る。いくつかの実施例では、候補発音は、出身地、国籍、又は民族などの、１つ以上の発語特性に関連付けられていることができる。例えば、候補発音
は米国に関連付けられていることができ、それに対して、候補発音
は英国に関連付けられていることができる。更に、候補発音の順位は、デバイス上のユーザのプロファイル内に記憶されているユーザの１つ以上の特性（例えば、出身地、国籍、民族など）に基づくことができる。例えば、ユーザのプロファイルから、ユーザは米国に関連付けられていると判定することができる。ユーザが米国に関連付けられていることに基づき、候補発音
（米国に関連付けられている）を候補発音
（英国に関連付けられている）よりも高く順位付けすることができる。いくつかの実施例では、順位付けされた候補発音のうちの１つを、予測される発音（例えば、最も可能性の高い発音）として選択することができる。

発語入力が受信されると、ＳＴＴ処理モジュール４３０は、発語入力に対応する音素を（例えば、音響モデルを用いて）決定するために用いられることができ、次に、音素に一致する単語を（例えば、言語モデルを用いて）決定することを試みることができる。例えば、ＳＴＴ処理モジュール４３０がまず、発語入力の一部分に対応する音素列
を特定することができた場合には、次に、それは、語彙索引４４４に基づいて、この列は単語「ｔｏｍａｔｏ」に対応すると決定することができる。

いくつかの実施例では、ＳＴＴ処理モジュール４３０は、発言内の単語を決定するために近似照合技法を用いることができる。それゆえ、例えば、ＳＴＴ処理モジュール４３０は、たとえ、その特定の音素列がその単語のための候補音素列のうちの１つでなくても、音素列
は単語「ｔｏｍａｔｏ」に対応すると決定することができる。

デジタルアシスタントの自然言語処理モジュール４３２（「自然言語プロセッサ」）は、ＳＴＴ処理モジュール４３０によって生成された単語又はトークンの列（「トークン列」）を獲得し、トークン列を、デジタルアシスタントによって認識される１つ以上の「実施可能な意図」に関連付けようと試みることができる。「実施可能な意図」は、デジタルアシスタントによって実行されることができ、タスクフローモデル４５４内に実装される関連付けられたタスクフローを有することができるタスクを表すことができる。関連付けられたタスクフローは、タスクを実行するためにデジタルアシスタントが取る一連のプログラムされたアクション及びステップであることができる。デジタルアシスタントの能力の範囲は、タスクフローモデル４５４内に実装され、記憶されているタスクフローの数及び種類に依存し、又は、換言すれば、デジタルアシスタントが認識する「実施可能な意図」の数及び種類に依存することができる。しかし、デジタルアシスタントの有効性はまた、自然言語で表現されたユーザ要求から正確な「実施可能な意図（単数又は複数）」を推測するアシスタントの能力にも依存し得る。

いくつかの実施例では、ＳＴＴ処理モジュール４３０から取得される単語又はトークンの列に加えて、自然言語処理モジュール４３２はまた、ユーザ要求に関連付けられるコンテクスト情報も、例えば、Ｉ／Ｏ処理モジュール４２８から、受信することができる。自然言語処理モジュール４３２は、ＳＴＴ処理モジュール４３０から受信したトークン列内に包含されている情報を明らかにし、補完し、及び／又は更に明確にするために、コンテクスト情報を任意選択的に用いることができる。コンテクスト情報は、例えば、ユーザプリファレンス、ユーザデバイスのハードウェア及び／又はソフトウェア状態、ユーザ要求の前、最中、若しくは直後に収集されたセンサ情報、デジタルアシスタントとユーザとの間の以前の対話（例えば、ダイアログ）、並びに同様のものを含むことができる。本明細書で説明されるように、コンテクスト情報は動的であることができ、時間、ロケーション、ダイアログの内容及び他の因子によって変化し得る。

いくつかの実施例では、自然言語処理は、例えば、オントロジ４６０に基づくことができる。オントロジ４６０は、多数のノードを包含する階層構造であり、各ノードは、「実施可能な意図」又はその他の「属性」のうちの１つ以上に関連する「実施可能な意図」又は「属性」のいずれかを表すことができる。上述したように、「実施可能な意図」は、デジタルアシスタントが実行する能力を有するタスクを表すことができる。即ち、それは「実施可能」であるか又は実施の対象とすることができる。「属性」は、実施可能な意図、又は別の属性の下位態様に関連付けられるパラメータを表すことができる。オントロジ４６０内の実施可能な意図ノードと属性ノードとの間のリンクは、属性ノードによって表されるパラメータが、実施可能な意図ノードによって表されるタスクにどのように関係するのかを定義することができる。

いくつかの実施例では、オントロジ４６０は実施可能な意図ノード及び属性ノードで構成されることができる。オントロジ４６０内において、それぞれの実施可能な意図ノードは１つ以上の属性ノードに直接又は１つ以上の中間属性ノードを介してリンクされていることができる。同様に、それぞれの属性ノードは、１つ以上の実施可能な意図ノードに直接又は１つ以上の中間属性ノードを介してリンクされていることができる。例えば、図４Ｃに示されるように、オントロジ４６０は「メディア」ノード（即ち、実施可能な意図ノード）を含むことができる。属性ノード「俳優（単数又は複数）」、「メディアジャンル」、及び「メディアタイトル」は各々、実施可能な意図ノード（即ち、「メディア検索」ノード）に直接リンクされていることができる。加えて、属性ノード「名前」、「年齢」、「ウルマー・スケール・ランキング」、及び「国籍」は属性ノード「俳優」の下位ノードであることができる。

別の実施例では、図４Ｃに示されるように、オントロジ４６０はまた、「天気」ノード（即ち、別の実施可能な意図ノード）を含むことができる。属性ノード「日付／時間」及び「ロケーション」は各々、「天気検索」ノードにリンクされていることができる。いくつかの実施例では、１つ以上の属性ノードは２つ以上の実施可能な意図に関連することができることを認識されたい。これらの実施例では、１つ以上の属性ノードは、オントロジ４６０内の２つ以上の実施可能な意図に対応するそれぞれのノードにリンクされていることができる。

実施可能な意図ノードは、そのリンクされた概念ノードとともに、「ドメイン」として記述することができる。本説明では、各ドメインは、それぞれの実施可能な意図に関連付けられていることができ、特定の実施可能な意図に関連付けられたノードのグループ（及びノード間の関係）を指すことができる。例えば、図４Ｃに示されるオントロジ４６０は、オントロジ４６０内のメディアドメイン４６２の例及び天気ドメイン４６４の例を含むことができる。メディアドメイン４６２は、実施可能な意図ノード「メディア検索」、並びに属性ノード「俳優（単数又は複数）」、「メディアジャンル」、並びに「メディアタイトル」を含むことができる。天気ドメイン４６４は、実施可能な意図ノード「天気検索」、並びに属性ノード「ロケーション」及び「日付／時間」を含むことができる。いくつかの実施例では、オントロジ４６０は多くのドメインで構成されることができる。各ドメインは、１つ以上の他のドメインと、１つ以上の属性ノードを共有することができる。

図４Ｃはオントロジ４６０内の２つの例示的なドメインを示しているが、他のドメインは、例えば、「運動選手」、「株価」、「道案内」、「メディア設定」、「スポーツチーム」、及び「時間」、「ジョークを言う」などを含むことができる。「運動選手」ドメインは「運動選手情報の検索」の実施可能な意図ノードに関連付けられることができ、「運動選手の名前」、「運動選手のチーム」、及び「運動選手の統計情報」などの属性ノードを更に含んでもよい。

いくつかの実施例では、オントロジ４６０は、デジタルアシスタントが理解し、作用する能力を有する全てのドメイン（及びしたがって実施可能な意図）を含むことができる。いくつかの実施例では、オントロジ４６０は、ドメイン若しくはノード全体を追加若しくは除去すること、又はオントロジ４６０内のノード間の関係を変更することなどによって、変更することができる。

いくつかの実施例では、オントロジ４６０内の各ノードは、そのノードによって表される属性又は実施可能な意図に関連する単語及び／又はフレーズのセットに関連付けられていることができる。各ノードに関連付けられた単語及び／又はフレーズのそれぞれのセットは、そのノードに関連付けられたいわゆる「語彙」であることができる。各ノードに関連付けられる単語及び／又はフレーズのそれぞれのセットは、ノードによって表される属性又は実施可能な意図に関連して語彙索引４４４内に記憶することができる。例えば、図４Ｃに戻ると、「俳優」の属性についてのノードに関連付けられた語彙は、「Ａリスト」、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ」、「ＡｒｎｏｌｄＳｃｈｗａｒｚｅｎｅｇｇｅｒ」、「ＢｒａｄＰｉｔｔ」等などの単語を含むことができる。別の例として、「天気検索」の実施可能な意図のためのノードに関連付けられた語彙は、「天気」、「〜はどんな様子ですか（what's it like in）」、「予報」等などの単語及びフレーズを含むことができる。語彙索引４４４は異なる言語の単語及びフレーズを任意選択的に含むことができる。

自然言語処理モジュール４３２は、ＳＴＴ処理モジュール４３０からトークン列（例えば、テキスト文字列）を受信し、どのノードがトークン列内の単語によって暗示されているのかを判定することができる。いくつかの実施例では、トークン列内の単語又はフレーズが（語彙索引４４４を介して）オントロジ４６０内の１つ以上のノードに関連付けられることが分かれば、その単語又はフレーズはそれらのノードを「トリガする」又は「アクティブにする」ことができる。アクティブにされたノードの量及び／又は相対的重要度に基づき、自然言語処理モジュール４３２は、実施可能な意図のうちの１つを、ユーザがデジタルアシスタントに実行させようと意図したタスクとして選択することができる。いくつかの実施例では、最も多く「トリガされた」ノードを有するドメインを選択することができる。いくつかの実施例では、最も高い信頼値を有するドメイン（例えば、その様々なトリガされたノードの相対的重要度に基づく）を選択することができる。いくつかの実施例では、ドメインは、トリガされたノードの数及び重要度の組み合わせに基づき選択することができる。いくつかの実施例では、ノードを選択する際には、デジタルアシスタントがユーザからの同様の要求を以前に正確に解釈したかどうか等の追加の因子も考慮される。

ユーザデータ４４８は、ユーザ固有語彙、ユーザプリファレンス、ユーザアドレス、ユーザの既定言語及び第二言語、ユーザの連絡先リスト、並びに各ユーザに関するその他の短期的若しくは長期的情報等の、ユーザ固有の情報を含むことができる。いくつかの実施例では、自然言語処理モジュール４３２は、ユーザ入力内に包含されている情報を補完してユーザ意図を更に明確にするために、ユーザ固有の情報を用いることができる。例えば、ユーザ要求「今週の天気はいかがですか」のために、自然言語処理モジュール４３２は、ユーザに、このような情報を自分の要求内で明示的に提供するように要請する代わりに、ユーザがどこに位置しているのかを判定するためにユーザデータ４４８にアクセスすることができる。

トークン文字列に基づくオントロジ検索のその他の詳細が、２００８年１２月２２日出願の「ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＳｅａｒｃｈｉｎｇＵｓｉｎｇａｎＡｃｔｉｖｅＯｎｔｏｌｏｇｙ」に対する米国実用特許出願第１２／３４１，７４３号に記載されている。同出願の開示全体は本明細書において参照により組み込まれている。

いくつかの実施例では、自然言語処理モジュール４３２が、ユーザ要求に基づき、実施可能な意図（又はドメイン）を特定すると、自然言語処理モジュール４３２は、特定された実施可能な意図を表すように、構造化されたクエリを生成することができる。いくつかの実施例では、構造化されたクエリは、実施可能な意図のためのドメイン内の１つ以上のノードのためのパラメータを含むことができ、パラメータの少なくとも一部には、ユーザ要求内で指定された特定の情報及び要求事項が入力される。例えば、ユーザは、「このＴＶシリーズの他のシーズンを見つけてください」と言ってもよい。この場合には、自然言語処理モジュール４３２は、ユーザ入力に基づき、実施可能な意図を「メディア検索」であると正確に特定することができる。オントロジによれば、「メディア」ドメインのための構造化されたクエリは、｛メディア俳優｝、｛メディアジャンル｝、｛メディアタイトル｝、及び同様のもの等のパラメータを含み得る。いくつかの実施例では、発語入力、及びＳＴＴ処理モジュール４３０を用いて発語入力から導き出されたテキストに基づいて、自然言語処理モジュール４３２は、レストラン予約ドメインのための部分的な構造化されたクエリを生成することができる。この場合、部分的な構造化されたクエリはパラメータ｛メディアジャンル＝「テレビシリーズ」｝を含む。しかし、本例では、ユーザの発言は、ドメインに関連付けられる構造化されたクエリを完成するために十分な情報を包含していない。したがって、｛メディアタイトル｝等のその他の必要パラメータは、現在利用可能な情報に基づいては、構造化されたクエリ内で指定されなくてもよい。いくつかの実施例では、自然言語処理モジュール４３２は、構造化されたクエリのいくつかのパラメータに、受信したコンテクスト情報を入力することができる。例えば、ＴＶシリーズ「ＭａｄＭｅｎ」がメディアデバイス上で現在再生中であることができる。このコンテクスト情報に基づいて、自然言語処理モジュール４３２は、構造化されたクエリ内の｛メディアタイトル｝パラメータに「ＭａｄＭｅｎ」を入力することができる。

いくつかの実施例では、自然言語処理モジュール４３２は、生成された構造化されたクエリ（任意の完成したパラメータを含む）をタスクフロー処理モジュール４３６（「タスクフロープロセッサ」）に渡すことができる。タスクフロー処理モジュール４３６は、自然言語処理モジュール４３２から、構造化されたクエリを受信し、必要に応じて、構造化されたクエリを完成させ、ユーザの最終的な要求を「完了する」ために必要とされるアクションを実行するように構成することができる。いくつかの実施例では、これらのタスクを完成させるために必要な種々の手順はタスクフローモデル４５４内で提供することができる。いくつかの実施例では、タスクフローモデル４５４は、ユーザから追加情報を取得するための手順、及び実施可能な意図に関連付けられるアクションを実行するためのタスクフローを含むことができる。

上述したように、構造化されたクエリを完成させるために、タスクフロー処理モジュール４３６は、追加情報を取得し、及び／又は潜在的に曖昧な発言の曖昧さを除去するために、ユーザとの追加のダイアログを開始することが必要になる場合がある。このような対話が必要となる場合には、タスクフロー処理モジュール４３６は、ユーザとのダイアログに携わるためにダイアログフロー処理モジュール４３４を呼び出すことができる。いくつかの実施例では、ダイアログフロー処理モジュール４３４は、どのように（及び／又はいつ）ユーザに追加情報を求めるべきかを決定することができ、ユーザ応答を受信し、これらを処理することができる。Ｉ／Ｏ処理モジュール４２８を通じてユーザに質問を提供することができ、ユーザから回答を受信することができる。いくつかの実施例では、ダイアログフロー処理モジュール４３４は音声及び／又は視覚出力を介してユーザにダイアログ出力を提示することができ、口頭の応答又は物理的な（例えば、クリック）応答を介してユーザから入力を受信することができる。例えば、ユーザは「パリの天気はいかがですか？」と尋ねてもよい。タスクフロー処理モジュール４３６が、ドメイン「天気検索」に関連付けられた構造化されたクエリのための「ロケーション」情報を決定するべくダイアログフロー処理モジュール４３４を呼び出すと、ダイアログフロー処理モジュール４３４は、「どのパリですか？」などの質問を、ユーザに渡すために生成することができる。加えて、ダイアログフロー処理モジュール４３４は、「パリ、テキサス」及び「パリ、フランス」に関連付けられたアフォーダンスをユーザ選択のために提示させることができる。ユーザから応答が受信されると、次に、ダイアログフロー処理モジュール４３４は、構造化されたクエリに、欠けている情報を入力するか、又は構造化されたクエリから欠けている情報を完成させるために、その情報をタスクフロー処理モジュール４３６に渡すことができる。

タスクフロー処理モジュール４３６が、実施可能な意図のための構造化されたクエリを完成すると、タスクフロー処理モジュール４３６は、実施可能な意図に関連付けられる最終的なタスクの実行に進むことができる。それに応じて、タスクフロー処理モジュール４３６は、構造化されたクエリ内に包含されている具体的なパラメータに応じて、タスクフローモデル４５４内のステップ及び命令を実行することができる。例えば、「メディア検索」の実施可能な意図のためのタスクフローモデルは、メディア検索クエリを実行し、関連性のあるメディアアイテムを取得するためのステップ及び命令を含むことができる。例えば、｛メディア検索、メディアジャンル＝ＴＶシリーズ、メディアタイトル＝ＭａｄＭｅｎ｝などの構造化されたクエリを用いて、タスクフロー処理モジュール４３６は、（１）メディアデータベースを用いてメディア検索クエリを実行し、関連性のあるメディアアイテムを取得するステップ、（２）関連性及び／若しくは人気に従って、取得されたメディアアイテムを順位付けするステップ、並びに（３）関連性及び／若しくは人気に従って並べ替えられたメディアアイテムを表示するステップを実行することができる。

いくつかの実施例では、タスクフロー処理モジュール４３６は、ユーザ入力内で要求されたタスクを完了するため、又はユーザ入力内で要求された情報の回答を提供するために、サービス処理モジュール４３８（「サービス処理モジュール」）の補助を用いることができる。例えば、サービス処理モジュール４３８は、メディア検索を実行するため、天気情報を引き出すため、他のユーザデバイス上にインストールされているアプリケーションを呼び出すか若しくはそれらと対話するため、並びにサードパーティサービス（例えば、ソーシャルネットワーキングウェブサイト、メディアレビューウェブサイト、メディア購読サービスなど）を呼び出すか若しくはそれらと対話するために、タスクフロー処理モジュール４３６の代わりに動作することができる。いくつかの実施例では、各サービスによって必要とされるプロトコル及びＡＰＩは、サービスモデル４５６の中のそれぞれのサービスモデルによって指定され得る。サービス処理モジュール４３８は、サービスのための適当なサービスモデルにアクセスし、サービスモデルに係るサービスによって必要とされるプロトコル及びＡＰＩに従ってサービスの要求を生成することができる。

例えば、サードパーティメディア検索サービスが、メディア検索を実行するために必要なパラメータを指定するサービスモデル、及び必要なパラメータの値をメディア検索サービスへ伝達するためのＡＰＩを提出することができる。タスクフロー処理モジュール４３６によって要求されると、サービス処理モジュール４３８は、メディア検索サービスとのネットワーク接続を確立し、メディア検索の必要なパラメータ（例えば、メディア俳優、メディアジャンル、メディアタイトル）を、メディア検索サービスのＡＰＩに応じたフォーマットでオンライン予約インターフェースへ送信することができる。

いくつかの実施例では、ユーザの意図を推測して明確にし、ユーザ意図を更に明らかにして絞り込むための情報を取得し、ユーザの意図を達成するべく応答（例えば、ユーザへの出力又はタスクの完了）を最終的に生成するために、自然言語処理モジュール４３２、ダイアログフロー処理モジュール４３４、及びタスクフロー処理モジュール４３６を集合的かつ反復的に用いることができる。生成された応答は、ユーザの意図を少なくとも部分的に達成する発語入力に対するダイアログ応答であることができる。更に、いくつかの実施例では、生成された応答を発語出力として出力することができる。これらの実施例では、生成された応答を発語合成モジュール４４０（例えば、発語合成器）へ送信することができ、そこで、それを、発語形式のダイアログ応答を合成するために処理することができる。更に他の実施例では、生成された応答は、発語入力内のユーザ要求を満足することに関連するデータコンテンツであることができる。

発語合成モジュール４４０は、ユーザへの提示のための発語出力を合成するように構成することができる。発語合成モジュール４４０は、デジタルアシスタントによって提供されたテキストに基づいて発語出力を合成する。例えば、生成されたダイアログ応答はテキスト文字列の形式のものであることができる。発語合成モジュール４４０はテキスト文字列を可聴発語出力に変換することができる。発語合成モジュール４４０は、テキストから発語出力を生成するために、限定するものではないが、波形接続合成、単位選択合成、ダイフォン（diphone）合成、分野限定合成、フォルマント合成、調音合成、隠れマルコフモデル（hidden Markov model、ＨＭＭ）ベースの合成、及び正弦波合成を含む、任意の適当な発語合成技法を用いることができる。いくつかの実施例では、発語合成モジュール４４０は、単語に対応する音素文字列に基づいて個々の単語を合成するように構成することができる。例えば、音素文字列が、生成されたダイアログ応答内の単語に関連付けられていることができる。音素文字列は、単語に関連付けられたメタデータ内に記憶されていることができる。発語合成モジュール４４０は、単語を発語形式で合成するために、メタデータ内の音素文字列直接処理するように構成することができる。

いくつかの実施例では、発語合成モジュール４４０を用いる代わりに（又はそれに加えて）、遠隔デバイス（例えば、サーバシステム１０８）上で発語合成を実行することができ、合成された発語をユーザへの出力のためにユーザデバイスへ送信することができる。例えば、これは、デジタルアシスタントのための出力がサーバシステムにおいて生成されるいくつかの実装形態において行われ得る。また、サーバシステムは一般的にユーザデバイスよりも多くの処理能力又は資源を有するため、クライアント側合成を用いて実現可能であろうよりも高品質の発語出力を得ることが可能になり得る。

２０１１年１月１０日に出願された、「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔ」と題する米国実用特許出願第１２／９８７，９８２号、及び２０１１年９月３０日に出願された、「ＧｅｎｅｒａｔｉｎｇａｎｄＰｒｏｃｅｓｓｉｎｇＴａｓｋＩｔｅｍｓＴｈａｔＲｅｐｒｅｓｅｎｔＴａｓｋｓｔｏＰｅｒｆｏｒｍ」と題する米国実用特許出願第１３／２５１，０８８号に、デジタルアシスタントに関する更なる詳細を見いだすことができる。これらの出願の開示の全体は本明細書において参照により組み込まれている。
４．メディア環境内においてデジタルアシスタントと対話するためのプロセス

図５Ａ〜図５Ｉは、様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセス５００を示す。プロセス５００は、デジタルアシスタントを実装する１つ以上の電子デバイスを用いて実行することができる。例えば、プロセス５００は、上述された、システム１００、メディアシステム１２８、メディアデバイス１０４、ユーザデバイス１２２、又はデジタルアシスタントシステム４００のうちの１つ以上を用いて実行することができる。図６Ａ〜図６Ｑは、様々な実施例に係る、プロセス５００の様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。プロセス５００は、以下において図５Ａ〜図５Ｉと図６Ａ〜図６Ｑを同時に参照して説明される。プロセス５００内のいくつかの動作は組み合わせることができ、いくつかの動作の順序は変更することができ、いくつかの動作は省略することができることを理解されたい。

プロセス５００のブロック５０２において、表示ユニット（例えば、表示ユニット１２６）上にコンテンツを表示することができる。図６Ａに示される本実施例では、表示されたコンテンツは、メディアデバイス（例えば、メディアデバイス１０４）上で再生中であるメディアコンテンツ６０２（例えば、映画、ビデオ、テレビ番組、ビデオゲームなど）を含むことができる。他の実施例では、表示されたコンテンツは、メディアデバイス上で実行中のアプリケーションに関連付けられたコンテンツ、又はメディアデバイスのデジタルアシスタントと対話するためのユーザインターフェースなどの、メディアデバイスに関連付けられた他のコンテンツを含むことができる。具体的には、表示されたコンテンツは、メインメニューユーザインターフェース、又はユーザによって以前に要求されたオブジェクト若しくは結果を有するユーザインターフェース（例えば、第２のユーザインターフェース６１８若しくは第３のユーザインターフェース６２６）を含むことができる。

プロセス５００のブロック５０４において、ユーザ入力を検出することができる。ユーザ入力は、ブロック５０２のコンテンツが表示されている間に検出することができる。いくつかの実施例では、ユーザ入力は、メディアデバイスの遠隔制御装置（例えば、遠隔制御装置１２４）上で検出することができる。具体的には、ユーザ入力は、遠隔制御装置のボタン（例えば、ボタン２７４）の押下又はタッチ感知面（例えば、タッチ感知面２７８）の接触などの、遠隔制御装置とのユーザ対話であることができる。いくつかの実施例では、ユーザ入力は、メディアデバイスと対話するように構成されている第２の電子デバイス（例えば、デバイス１２２）を介して検出することができる。ユーザ入力を検出したことに応じて、ブロック５０６〜５９２のうちの１つ以上を実行することができる。

プロセス５００のブロック５０６において、ユーザ入力が第１の入力形式に対応するかどうかに関する判定を行うことができる。第１の入力形式はメディアデバイスへの既定の入力であることができる。一例では、第１の入力形式は、遠隔制御装置の特定のボタンを押下し、ボタンを、ボタンを押下してから所定の期間以内に放すこと（例えば、短押し）を含むことができる。メディアデバイスは、ユーザ入力が第１の入力形式に一致するかどうかを判定することができる。ユーザ入力が第１の入力形式に対応するとの判定に従って、ブロック５０８〜５１４のうちの１つ以上を実行することができる。

プロセス５００のブロック５０８において、及び図６Ｂを参照すると、デジタルアシスタントを呼び出し、それと対話するためのテキストによる教示６０４を表示することができる。具体的には、教示６０４は、デジタルアシスタントを呼び出し、それと対話するために必要なユーザ入力を説明することができる。例えば、教示６０４は、ブロック５１６において後述される第２の入力形式をどのように実行するのかを説明することができる。

プロセス５００のブロック５１０において、及び図６Ｂに示されるように、表示ユニット上に受動的視覚的インジケータ６０６を表示することができる。受動的視覚的インジケータ６０６は、デジタルアシスタントがまだ呼び出されていないことを指示することができる。具体的には、ユーザ入力を検出したことに応じて、メディアデバイスのマイクロフォン（例えば、マイクロフォン２７２）がアクティブ化されなくてもよい。それゆえ、受動的視覚的インジケータ６０６は、デジタルアシスタントが音声入力を処理していないことの視覚的信号の役割を果たすことができる。本例では、視覚的インジケータ６０６は、ユーザの発語に応答しない受動的な平坦な波形であることができる。更に、受動的視覚的インジケータ６０６は、その受動的ステータスを指示するための無彩色（例えば、黒色、灰色など）を含むことができる。受動的視覚的インジケータのために他の視覚的パターン又は画像を企図することもできることを認識されたい。受動的視覚的インジケータ６０６は教示６０４と同時に表示することができる。更に、受動的視覚的インジケータ６０６は、ブロック５１２〜５１４のうちの１つ以上を実行している間に継続的に表示することができる。

プロセス５００のブロック５１２において、及び図６Ｃを参照すると、表示ユニット上に打ち込み検索を実行するための教示６０８を表示することができる。具体的には、教示６０８は、打ち込み検索を実行するために用いることができる仮想キーボードインターフェースを表示するために必要なユーザ入力を説明することができる。いくつかの実施例では、デジタルアシスタントを呼び出し、それと対話するための教示６０４、及び打ち込み検索を実行するための教示６０８を順に異なる時間において表示することができる。例えば、教示６０８の表示が教示６０４の表示に取って代わってもてもよいか、又はその逆であってもよい。本例では、教示６０４、６０８はテキスト形式のものである。他の実施例では、教示６０４、６０８はグラフィカル形式のもの（例えば、絵、記号、アニメーションなど）であることができることを認識されたい。

プロセス５００のブロック５１４において、表示ユニット上に１つ以上の例示的な自然言語要求を表示することができる。例えば、図６Ｄ〜図６Ｅは、表示ユニット上に表示された２つの異なる例示的な自然言語要求６１０、６１２を示す。いくつかの実施例では、例示的な自然言語要求は、表示ユニット上に第１のユーザインターフェースを介して表示することができる。第１のユーザインターフェースは、表示されたコンテンツ上に重ね合わせることができる。例示的な自然言語要求は、ユーザに、デジタルアシスタントと対話するためのガイダンスを提供することができる。更に、例示的な自然言語要求は、ユーザに、デジタルアシスタントの様々な機能を知らせることができる。例示的な自然言語要求のうちの１つに対応するユーザ発言を受信したことに応じて、デジタルアシスタントはそれぞれのアクションを実行させることができる。例えば、メディアデバイスのデジタルアシスタントが（例えば、ブロック５０４における第２の入力形式のユーザ入力によって）呼び出され、「３０秒先へ飛んでください」というユーザ発言を（例えば、ブロック５１８において）提供されたことに応じて、デジタルアシスタントは、メディアデバイス上で再生中のメディアコンテンツに３０秒だけ前方へ飛び越させることができる。

表示された例示的な自然言語要求は、表示されているコンテンツ（例えば、メディアコンテンツ６０２）にコンテクスト上関連することができる。例えば、例示的な自然言語要求のセットがメディアデバイス上、又は別個のサーバ上に記憶されていることができる。例示的な自然言語要求のセット内の各々の例示的な自然言語要求は、１つ以上のコンテクスト属性（例えば、再生中のメディアコンテンツ、ホームページ、ｉＴｕｎｅｓ（登録商標）メディアストア、俳優、映画、天気、スポーツ、株価など）に関連付けられていることができる。いくつかの実施例では、ブロック５１４は、例示的な自然言語要求のセットから、表示ユニット上に表示されたコンテンツに対応するコンテクスト属性を有する例示的な自然言語要求を特定することを含むことができる。次に、表示ユニット上に、特定された例示的な自然言語要求を表示することができる。それゆえ、表示ユニット上に表示されたコンテンツによって異なる例示的な自然言語要求が表示され得る。コンテクスト上関連する例示的な自然言語要求を表示することは、ユーザに、メディアデバイス上のユーザの現在の使用状況に最も関連性のあるデジタルアシスタントの機能を都合良く知らせる助けとなることができる。これは全体的なユーザエクスペリエンスを改善することができる。

図６Ｄ〜図６Ｅに示される本実施例では、例示的な自然言語要求６１０、６１２は各々、表示ユニット上のメディアコンテンツ６０２にコンテクスト上関連することができる。具体的には、例示的な自然言語要求６１０、６１２は、メディアデバイス上で再生中のメディアコンテンツに関連付けられた１つ以上の設定を変更又は制御することの要求であることができる。このような例示的な自然言語要求は、クローズドキャプションをオン／オフにすること、特定の言語による字幕をオンにすること、巻き戻すこと／先へ飛ぶこと、メディアコンテンツの再生を一時停止すること、メディアコンテンツの再生を再スタートすること、メディアコンテンツの再生速度を下げること若しくは上げること、メディアコンテンツの音量（例えば、音声ゲイン）を上げること／下げること、並びに同様のことの要求を含むことができる。更に、メディアコンテンツ６０２にコンテクスト上関連する他の例示的な自然言語要求は、メディアコンテンツ６０２に対応するメディアアイテムをユーザのウォッチリストに追加すること、メディアコンテンツ６０２に関連する情報（例えば、俳優情報、あらすじ、公開日など）を示すこと、メディアコンテンツ６０２に関連する他のメディアアイテム若しくはコンテンツ（例えば、同じシリーズ、同じシーズン、同じ俳優／監督、同じジャンルなど）を示すこと、並びに同様のことの要求を含むことができる。

表示されたコンテンツが、メディアデバイスのアプリケーションに関連付けられたコンテンツを含む実施例では、コンテクスト上関連する例示的な自然言語要求は、アプリケーションの１つ以上の設定又は状態を変更せよとの要求を含むことができる。具体的には、例示的な自然言語要求は、アプリケーションを開け、若しくは閉じよ、又はアプリケーションの１つ以上の機能を操作せよとの要求を含むことができる。

いくつかの実施例では、表示されたコンテンツは、アイテムを検索、ブラウズ、又は選択するためのユーザインターフェース（例えば、第２のユーザインターフェース６１８又は第３のユーザインターフェース６２６）を含むことができる。具体的には、表示されたユーザインターフェースは１つ以上のメディアアイテムを含むことができる。更に、ユーザインターフェースのフォーカスは１つ以上のメディアアイテムのうちのメディアアイテム（例えば、図６Ｇにおけるカーソル６２４によって目立たせたメディアアイテム６２３）上にあることができる。これらの実施例では、コンテクスト上関連する例示的な自然言語要求は、表示されたユーザインターフェース内の１つ以上のメディアアイテムに関係する情報又は他のメディアアイテムの要求を含むことができる。具体的には、例示的な自然言語要求は、ユーザインターフェースのフォーカスになっているメディアアイテムに関連する要求を含むことができる。これらの実施例では、例示的な自然言語要求は、「これはどういうものですか？」、「これの格付けはどうですか？」、「これには誰が出演していますか？」、「次のエピソードはいつ出ますか？」、「これに似た映画をもっと教えてください。」、及び「同じ俳優が主演する映画を教えてください。」などの要求を含むことができる。特定の実施例では、ユーザインターフェースを介して、テレビシリーズＭａｄＭｅｎなどの、メディアアイテム又は一連のメディアアイテムに関連する情報を表示することができる。本実施例では、コンテクスト上関連する例示的な自然言語要求は、メディアアイテム又は一連のメディアアイテムの１つ以上の属性（例えば、出演者、筋、格付け、公開日、監督、プロバイダなど）に基づく要求（例えば、「ＪａｎｕａｒｙＪｏｎｅｓが出ている他の番組。」）を含むことができる。加えて、コンテクスト上関連する例示的な自然言語要求は、フォーカスされたメディアアイテム、若しくはユーザインターフェース内に表示された別のメディアアイテムを再生、選択、若しくは入手するための要求（例えば、「これを借りてください。」、「これを再生してください。」、「これを買ってください。」、若しくは「ＨｏｗｔｏＴｒａｉｎＹｏｕｒＤｒａｇｏｎ２を再生してください。」）、又はユーザインターフェース内のメディアアイテムの間をナビゲートするための要求（例えば、「コメディーへ行ってください。」若しくは「ホラー映画へ跳んでください。」）を含むことができる。更に、これらの実施例では、コンテクスト上関連する例示的な自然言語要求は、他のメディアアイテムを検索するための要求（例えば、「新しいコメディーを見つけてください。」、「無料の名作映画を教えてください。」、又は「ＮｉｃｏｌｅＫｉｄｍａｎ主演のいくつかの番組は何ですか？」）を含むことができる。

いくつかの実施例では、表示されたコンテンツは、特定のカテゴリ又はトピックに従って整理されたメディアアイテムを含むことができる。これらの実施例では、コンテクスト上関連する例示的な自然言語要求は、その特定のカテゴリ又はトピックに関連する要求を含むことができる。例えば、表示されたコンテンツが、様々な俳優に従って整理されたメディアアイテムを含む実施例では、コンテクスト上関連する例示的な自然言語要求は、俳優に関連する情報又はメディアアイテムの要求（例えば、「ＪｅｎｎｉｆｅｒＬａｗｒｅｎｃｅ主演の映画は何ですか？」、「ＳｃａｒｌｅｔｔＪｏｈａｎｓｓｏｎは何歳ですか？」、又は「ＢｒａｄＰｉｔｔの最新映画は何ですか？」）を含むことができる。表示されたコンテンツが、番組チャンネル又はコンテンツプロバイダに従って整理されたメディアアイテム（例えば、チャンネルページ又はＴＶガイドページ）を含む別の実施例では、コンテクスト上関連する例示的な自然言語要求は、番組チャンネル又はコンテンツプロバイダに関連する情報又はメディアアイテムの要求（例えば、「１時間後に放送する番組は何ですか？」、「ゴールデンアワーにＨＢＯでやるのは何ですか？」、「ＡＢＣに合わせてください。」、又は「バスケットボールはどのチャンネルで放送していますか？」）を含むことができる。表示されたコンテンツが、ユーザによって最近選択されたメディアアイテム（例えば、「最近再生したもの」リスト）、又はユーザの興味を引くものとして特定されたメディアアイテム（例えば、「ウォッチリスト」）を含む更に別の実施例では、コンテクスト上関連する例示的な自然言語要求は、メディアアイテムのうちの１つを視聴するか、又は引き続き視聴するための要求（例えば、「中断したところから再開してください。」、「Ｂｉｒｄｍａｎを引き続き見ます。」、又は「これをもう一度最初から再生してください。」）を含むことができる。

いくつかの実施例では、表示されたコンテンツは、特定のトピックに対応する結果又は情報を包含するユーザインターフェースを含むことができる。具体的には、結果は、以前のユーザ要求（例えば、デジタルアシスタントへの要求）に関連付けられていることができ、天気、株価、又はスポーツなどのトピックに対応する情報を含むことができる。これらの実施例では、コンテクスト上関連する例示的な自然言語要求は、結果を絞り込めとの要求、又は特定のトピックに関係する追加情報の要求を含むことができる。例えば、表示されたコンテンツが、特定のロケーションのための天気情報を含む実施例では、コンテクスト上関連する例示的な自然言語要求は、別のロケーションのため、又は異なる時間帯のための追加の天気情報を表示せよとの要求（例えば、「ニューヨーク市ではどうですか？」、「来週はどうなりそうですか？、「それからハワイについては？」など）を含むことができる。表示されたコンテンツが、スポーツチーム又は運動選手に関連する情報を含む別の実施例では、コンテクスト上関連する例示的な自然言語要求は、スポーツチーム又は運動選手に関連する追加情報を提供せよとの要求（例えば、「ＳｈａｑｕｉｌｌｅＯ'Ｎｅａｌの身長はどのぐらいですか？」、「ＴｏｍＢｒａｄｙが生まれたのはいつですか？」、「４９ｅｒｓの次の試合はいつですか？」、「ＭａｎｃｈｅｓｔｅｒＵｎｉｔｅｄはこの間の試合ではどうでしたか？」、「ＬＡＬａｋｅｒｓのポイントガードを務めているのは誰ですか？」など）を含むことができる。表示されたコンテンツが、株価に関連する情報を含む更に別の実施例では、コンテクスト上関連する例示的な自然言語要求は、追加の株価関連情報の要求（例えば、「Ｓ＆Ｐ５００の始値はいくらですか？」、「Ａｐｐｌｅはどんな調子ですか？」、「昨日のダウ・ジョーンズの終値はいくらでしたか？」など）を含むことができる。更に、いくつかの実施例では、表示されたコンテンツは、以前のユーザ要求に関連付けられたメディア検索結果を包含するユーザインターフェースを含むことができる。これらの実施例では、コンテクスト上関連する例示的な自然言語要求は、表示されたメディア検索結果を絞り込むことの要求（例えば、「去年のものだけ」、「格付けＧのもののみ」、「無料のものだけ」など）、又は異なるメディア検索を実行することの要求（例えば、「いいアクション映画を見つけてください」、「ＪａｃｋｉｅＣｈａｎの映画をいくつか教えてください」など）を含むことができる。

いくつかの実施例では、表示されたコンテンツは、メディアデバイスのメインメニューユーザインターフェースを含むことができる。メインメニューユーザインターフェースは、例えば、メディアデバイスのホーム画面又はルートディレクトリであることができる。これらの実施例では、コンテクスト上関連する例示的な自然言語要求は、デジタルアシスタントの様々な機能を表現する要求を含むことができる。具体的には、デジタルアシスタントは、メディアデバイスに関連付けられた中核能力のセットを有することができ、コンテクスト上関連する例示的な自然言語要求は、デジタルアシスタントの中核能力の各々に関連する要求（例えば、「無料のいい映画を教えてください」、「天気はどうですか」、「ＢｒｅａｋｉｎｇＢａｄの次のエピソードを再生してください」、又は「Ａｐｐｌｅの株価はいくらですか？」）を含むことができる。

例示的な自然言語要求は自然言語形式のものであることができる。これは、ユーザに、デジタルアシスタントが自然言語要求を理解する能力を有することを知らせる助けとなることができる。更に、いくつかの実施例では、ユーザに、デジタルアシスタントが、表示されたコンテンツに基づいてユーザの要求に関連付けられた正しいユーザ意図を推測する能力を有することを知らせるために、例示的な自然言語要求はコンテクスト的に曖昧であることができる。具体的には、上述された実施例において示されるように、例示的な自然言語要求は、「これ（this）」若しくは「もの（ones）」などのコンテクスト的に曖昧な用語、又は「無料ものだけ。」若しくは「ニューヨークではどうですか？」などのコンテクスト的に曖昧なフレーズを含むことができる。これらの例示的な自然言語要求は、ユーザに、デジタルアシスタントが、表示されたコンテンツに基づいてこのような要求に関連付けられた正しいコンテクストを決定する能力を有することを知らせることができる。これはユーザに、デジタルアシスタントと対話する際に、表示されたコンテンツのコンテクストを頼りにするように促す。これは、デジタルアシスタントとのより自然な対話エクスペリエンスを促進するために望ましくなり得る。

いくつかの実施例では、ブロック５０８〜５１２の後にブロック５１４を実行することができる。具体的には、例示的な自然言語要求は、ブロック５０６においてユーザ入力が第１の入力形式に対応すると判定してから所定の時間を置いて、表示ユニット上に表示することができる。いくつかの実施例では、ブロック５０８〜５１４は任意の順序で実行することができること、及びいくつかの実施例では、ブロック５０８〜５１４のうちの２つ以上は同時に実行することができることを認識されたい。

いくつかの実施例では、例示的な自然言語要求は所定の順序で交代で表示される。各々の例示的な自然言語要求は異なる時間に別個に表示することができる。具体的には、現在の例示的な自然言語要求の表示を後続の例示的な自然言語要求の表示と置換することができる。例えば、図６Ｄに示されるように、例示的な自然言語要求６１０を最初に表示することができる。所定の時間の後、例示的な自然言語要求６１０（「３０秒先へ飛んでください」）の表示を、図６Ｅに示されるように、例示的な自然言語要求６１２（「次のエピソードを再生してください」）の表示と置換することができる。それゆえ、本実施例では、例示的な自然言語要求６１０及び例示的な自然言語要求６１２は、同時にではなく、１つずつ表示される。

いくつかの実施例では、例示的な自然言語要求を、各リストが１つ以上の例示的な自然言語要求を含む複数のリストにグループ化することができる。これらの実施例では、ブロック５１４は、表示ユニット上に例示的な自然言語要求のリストを表示することを含むことができる。各リストは所定の順序で異なる時間に表示させることができる。更に、リストは交代で表示させることができる。

ブロック５０８〜５１４のうちの１つ以上を実行している間に、表示されたコンテンツは表示ユニット上に表示され続けることができる。例えば、図６Ｂ〜図６Ｅに示されるように、メディアコンテンツ６０２は、ブロック５０８〜５１２が実行されている間に、メディアデバイス上で再生され、表示ユニット上に表示され続けることができる。更に、メディアコンテンツを再生している間に、メディアコンテンツに関連付けられた音声がメディアデバイスによって出力されることができる。いくつかの実施例では、ユーザ入力を検出したことに応じて、又はユーザ入力が第１の入力形式に対応するとの判定に従って、音声の振幅は低減させられない。これは、再生されているメディアコンテンツ６０２の消費の中断を低減するために望ましくなり得る。それゆえ、ユーザは、要素６０４〜６１２が表示ユニット上に表示されているにもかかわらず、音声出力を介してメディアコンテンツ６０２を追い続けることができる。

いくつかの実施例では、図６Ｂ〜図６Ｄにおけるメディアコンテンツ６０２の中抜きのフォントによって表現されているように、ユーザ入力を検出したことに応じて、又はユーザ入力が第１の入力形式に対応するとの判定に従って、表示されたコンテンツの明るさを（例えば、２０〜４０％だけ）低減させることができる。これらの実施例では、表示された要素６０４〜６１２を、表示されたメディアコンテンツ６０２上に重ね合わせることができる。明るさを低減させることは、表示された要素６０４〜６１２を目立たせる助けとなることができる。同時に、メディアコンテンツ６０２は依然として表示ユニット上で認識することができ、これにより、要素６０４〜６１２が表示されている間にユーザがメディアコンテンツ６０２を消費し続けることが可能になる。

ブロック５０８〜５１２のうちの１つを実行している間に、（例えば、ブロック５０４において第２の入力形式のユーザ入力を検出することによって）デジタルアシスタントを呼び出すことができ、例示的な自然言語要求のうちの１つに対応するユーザ発言を（例えば、ブロック５１８において）受信することができる。次に、デジタルアシスタントは、受信された要求に応じてタスクを（例えば、ブロック５３２において）実行することができる。デジタルアシスタントを呼び出し、それと対話することに関する更なる詳細が、以下において図５Ｂ〜図５Ｉを参照して提供される。更に、ブロック５０８〜５１２のうちの１つを実行している間に、（例えば、ブロック５５８において第５のユーザ入力を検出することによって）打ち込み検索を実行するための仮想キーボードインターフェースを呼び出すことができる。仮想キーボードインターフェースを呼び出し、打ち込み検索を実行することに関する更なる詳細が、以下において図５Ｇを参照して提供される。

ブロック５０６を再び参照すると、ユーザ入力が第１の入力形式に対応しないとの判定に従って、図５Ｂのブロック５１６〜５３０のうちの１つ以上を実行することができる。ブロック５１６において、ユーザ入力が第２の入力形式に対応するかどうかに関する判定を行うことができる。第２の入力形式は、第１の入力形式と異なるメディアデバイスへの既定の入力であることができる。いくつかの実施例では、第２の入力形式は、メディアデバイスの遠隔制御装置上の特定のボタンを押下し、ボタンを所定の期間よりも長い間、押さえておくこと（例えば、長押し）を含むことができる。第２の入力形式は、デジタルアシスタントを呼び出すことに関連付けられていることができる。いくつかの実施例では、第１の入力形式及び第２の入力形式は、遠隔制御装置の同じボタン（例えば、デジタルアシスタントを呼び出すように構成されたボタン）を用いて実施することができる。これは、デジタルアシスタントの呼び出しと、デジタルアシスタントを呼び出し、それと対話するための教示の提供とを単一のボタンに直感的に統合するために望ましくなり得る。更に、経験の浅いユーザは、長押しよりもむしろ短押しを直感的に実行する可能性がある。それゆえ、短押しを検出したことに応じて教示を提供することで、教示を、経験豊富なユーザではなく、経験の浅いユーザに主に向けることを可能にすることができる。これは、経験豊富なユーザには教示を迂回するための選択肢を許しつつ、ガイダンスを最も必要とする経験の浅いユーザに対しては教示を容易に表示させることによって、ユーザエクスペリエンスを改善することができる。

ユーザ入力が第２の入力形式に対応するとのブロック５１６における判定に従って、ブロック５１８〜５３０のうちの１つ以上を実行することができる。いくつかの実施例では、メディアコンテンツ６０２は、ブロック５１８〜５３０のうちの１つ以上を実行している間にメディアデバイス上で再生し続けることができる。具体的には、メディアコンテンツ６０２は、ブロック５１８において音声データをサンプリングしている間、及びブロック５２８においてタスクを実行している間に、メディアデバイス上で再生し、表示ユニット上に表示され続けることができる。

プロセス５００のブロック５１８において、音声データをサンプリングすることができる。具体的には、メディアデバイスの第１のマイクロフォン（例えば、マイクロフォン２７２）をアクティブ化し、音声データをサンプリングすることを開始することができる。いくつかの実施例では、サンプリングされた音声データはユーザからのユーザ発言を含むことができる。ユーザ発言は、デジタルアシスタントに向けられたユーザ要求を表現することができる。更に、いくつかの実施例では、ユーザ要求は、タスクを実行せよとの要求であることができる。具体的には、ユーザ要求はメディア検索要求であることができる。例えば、図６Ｆを参照すると、サンプリングされた音声データは、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーを見つけてください」というユーザ発言を含むことができる。他の実施例では、ユーザ要求は、メディアアイテムを再生せよ、又は特定の情報（例えば、天気、株価、スポーツなど）を提供せよとの要求であることができる。

サンプリングされた音声データ内のユーザ発言は自然言語形式のものであることができる。いくつかの実施例では、ユーザ発言は、指定が不完全であるユーザ要求を表現することができる。この場合、ユーザ発言は、ユーザ要求を満足するために必要な全ての情報を明示的に限定しない。例えば、ユーザ発言は、「次のエピソードを再生してください」であることができる。本実施例では、ユーザ要求は、次のエピソードを再生するべきメディアシリーズを明示的に限定していない。更に、いくつかの実施例では、ユーザ発言は１つ以上の曖昧な用語を含むことができる。

音声データがサンプリングされる期間は、終点の検出に基づくことができる。具体的には、音声データは、第２の入力形式のユーザ入力が最初に検出された開始時間から、終点が検出された終了時間までサンプリングすることができる。いくつかの実施例では、終点はユーザ入力に基づくことができる。具体的には、第２の入力形式のユーザ入力（例えば、ボタンを所定の期間よりも長い間、押下すること）を最初に検出すると、第１のマイクロフォンをアクティブ化することができる。第１のマイクロフォンは、第２の入力形式のユーザ入力が検出され続けている間、音声データをサンプリングするためにアクティブ化されたままとどまることができる。第２の入力形式のユーザ入力の検出を中止すると（例えば、ボタンが放される）、第１のマイクロフォンをアクティブ解除することができる。それゆえ、これらの実施例では、ユーザ入力の終了を検出した時に終点が検出される。したがって、音声データは、第２の入力形式のユーザ入力を検出している間にサンプリングされる。

他の実施例では、終点を検出することは、サンプリングされた音声データの１つ以上の音声特性に基づくことができる。具体的には、サンプリングされた音声データの１つ以上の音声特性を監視することができ、１つ以上の音声特性が１つ以上の所定の基準を満足しないと判定してから所定の時間の後に終点を検出することができる。更に他の実施例では、終点は、固定した期間に基づいて検出することができる。具体的には、終点は、第２の入力形式のユーザ入力を最初に検出してから所定の期間の後に検出することができる。

いくつかの実施例では、ブロック５０４又は５１６が実行されている間に、表示されたコンテンツに関連付けられた音声を（例えば、スピーカ２６８を用いて）出力することができる。具体的には、音声は、メディアデバイス上で再生し、表示ユニット上に表示されているメディアアイテムの音声であることができる。音声は、音声信号を介してメディアデバイスから出力することができる。これらの実施例では、ユーザ入力が第２の入力形式に対応すると判定した時、及び音声データをサンプリングした時に、表示されたコンテンツに関連付けられた音声をダッキングすることができる（例えば、音声の振幅を低減させる）。例えば、音声は、音声信号に関連付けられたゲインを低減させることによってダッキングすることができる。他の実施例では、ブロック５１８において音声データをサンプリングしている間は、メディアコンテンツに関連付けられた音声の出力を中止することができる。例えば、音声は、音声信号を遮断又は中断することによって中止することができる。音声の出力をダッキング又は中止することは、サンプリングされた音声データ内の背景ノイズを低減し、ユーザ発言に関連付けられた発語信号の相対強度を増大させるために望ましくなり得る。更に、音声のダッキング又は中止は、ユーザがデジタルアシスタントに発語入力を提供することを開始するめの音声キューの役割を果たすことができる。

いくつかの実施例では、ノイズキャンセルを実行するために、音声データをサンプリングしている間に背景音声データをサンプリングすることができる。これらの実施例では、遠隔制御装置又はメディアデバイスは第２のマイクロフォンを含むことができる。第２のマイクロフォンは、第１のマイクロフォンと異なる向き（例えば、第１のマイクロフォンと反対向き）に指向させることができる。第２のマイクロフォンは、音声データがサンプリングされている間に背景音声データをサンプリングするためにアクティブ化することができる。いくつかの実施例では、背景音声データを用いて、音声データ内の背景ノイズを除去することができる。他の実施例では、メディアデバイスは、表示されたコンテンツに関連付けられた音声を出力するための音声信号を発生させることができる。発生された音声信号を用いて、音声データから背景ノイズを除去することができる。音声信号からの背景ノイズのノイズキャンセルを実行することは、メディア環境内におけるデジタルアシスタントとの対話のために特に好適になり得る。これは、複数の人からの発言が音声データ内に入り交じり得る、メディアコンテンツを消費することの共用性（communal nature）のゆえであり得る。音声データ内の背景ノイズを除去することによって、音声データにおけるより高い信号対ノイズ比を得ることができる。これは、音声データをユーザ要求のために処理する際に望ましくなり得る。

プロセス５００のブロック５２０において、及び図６Ｆを参照すると、表示ユニット上に能動的視覚的インジケータ６１４を表示することができる。能動的視覚的インジケータ６１４は、ユーザに、デジタルアシスタントが呼び出され、能動的にリスニングしていることを指示することができる。具体的には、能動的視覚的インジケータ６１４は、ユーザに、デジタルアシスタントに発語入力を提供することを開始するように促すための視覚キューの役割を果たすことができる。いくつかの実施例では、能動的視覚的インジケータ６１４は、デジタルアシスタントが呼び出されたことを指示するための色及び／又は視覚的アニメーションを含むことができる。例えば、図６Ｆに示されるように、能動的視覚的インジケータ６１４は、デジタルアシスタントによって受信された音声データの１つ以上の特性（例えば、振幅）に応答する能動的波形を含むことができる。例えば、能動的視覚的インジケータ６１４は、音がより大きい音声データの部分に応じてより大きな振幅を有する波形を表示し、音がより小さい音声データの部分に応じてより小さな振幅を有する波形を表示することができる。更に、受動的視覚的インジケータ６０６（例えば、図６Ｅ）を表示している間にデジタルアシスタントが呼び出される実施例では、視覚的インジケータ６０６の表示を能動的視覚的インジケータ６１４の表示と置換することができる。これは、どのようにデジタルアシスタントを呼び出し、それと対話するのかを実例説明するための図６Ｂ〜図６Ｅに示される教示的なユーザインターフェースから、デジタルアシスタントと能動的に対話するための図６Ｆに示される能動的ユーザインターフェースへの自然な移行を提供することができる。

プロセス５００のブロック５２２において、サンプリングされた音声データ内のユーザ発言のテキスト表現を決定することができる。例えば、テキスト表現は、サンプリングされた音声データに対する発語テキスト化（ＳＴＴ）処理を実行することによって決定することができる。具体的には、サンプリングされた音声データを、ＳＴＴ処理モジュール（例えば、ＳＴＴ処理モジュール４３０）を用いて処理し、サンプリングされた音声データ内のユーザ発言をテキスト表現に変換することができる。テキスト表現は、対応するテキスト文字列を表現するトークン文字列であることができる。

いくつかの実施例では、ＳＴＴ処理をメディア関連のテキスト結果へ偏向させることができる。偏向は、メディア関連テキストのコーパスを用いて訓練される言語モデルを利用することによって実施することができる。追加的に、又は代替的に、偏向は、メディアに関連するテキスト結果候補により大きく重み付けすることによって実施することができる。このように、偏向を行うことで、メディアに関連するテキスト結果候補を、偏向を行わない場合よりも高く順位付けすることができる。偏向は、メディア関連のユーザ発言（例えば、映画の名前、映画の俳優など）のＳＴＴ処理の精度を高めるために望ましくなり得る。例えば、「ＪｕｒａｓｓｉｃＰａｒｋ」、「ＡｒｎｏｌｄＳｃｈｗａｒｚｅｎｅｇｇｅｒ」、及び「Ｓｈｒｅｋ」などの、特定のメディア関連の単語又はフレーズを典型的なテキストコーパス内に見いだすことはめったにできず、それゆえ、メディア関連のテキスト結果への偏向を行わなければ、ＳＴＴ処理の間にうまく認識されない恐れがある。

いくつかの実施例では、テキスト表現は別個のデバイス（例えば、ＤＡサーバ１０６）から取得することができる。具体的には、サンプリングされた音声データを、ＳＴＴ処理を実行するためにメディアデバイスから別個のデバイスへ伝送することができる。これらの実施例では、メディアデバイスは、別個のデバイスに（例えば、サンプリングされた音声データとともに別個のデバイスへ伝送されたデータを介して）、サンプリングされた音声データがメディアアプリケーションに関連付けられていることを指示することができる。指示はＳＴＴ処理をメディア関連のテキスト結果へ偏向させることができる。

いくつかの実施例では、テキスト表現は、音声データをサンプリングする前にメディアデバイスによって受信された以前のユーザ発言に基づくことができる。具体的には、以前のユーザ発言の１つ以上の部分に対応する、サンプリングされた音声データのテキスト結果候補に、より大きく重み付けすることができる。いくつかの実施例では、以前のユーザ発言を用いて言語モデルを生成することができ、生成された言語モデルを用いて、サンプリングされた音声データ内の現在のユーザ発言のテキスト表現を決定することができる。言語モデルは、追加のユーザ発言が受信され、処理される際に、動的に更新されることができる。

更に、いくつかの実施例では、テキスト表現は、音声データをサンプリングする前に以前のユーザ発言が受信された時間に基づくことができる。具体的には、サンプリングされた音声データに対して、より最近に受信された以前のユーザ発言に対応するテキスト結果候補に、サンプリングされた音声データに対して、もっと前に受信された以前のユーザ発言に対応するテキスト結果候補よりも大きく重み付けすることができる。

プロセス５００のブロック５２４において、表示ユニット上にテキスト表現を表示することができる。例えば、図６Ｆは、サンプリングされた音声データ内のユーザ発言に対応するテキスト表現６１６を示す。いくつかの実施例では、ブロック５２２及び５２４は、音声データがサンプリングされている間に実行することができる。具体的には、ユーザ発言のテキスト表現６１６は、音声データがサンプリングされるのに従い、及びサンプリングされた音声データに対してＳＴＴ処理が実行されるのに従い、テキスト表現６１６がリアルタイムで表示されるように、ストリーミング方式で表示させることができる。テキスト表現６１６を表示することは、ユーザに、デジタルアシスタントがユーザの要求を正しく処理していることの確認を提供することができる。

プロセス５００のブロック５２６において、ユーザ発言に対応するユーザ意図を決定することができる。ユーザ意図は、ブロック５２２のテキスト表現に対して自然言語処理を実行することによって決定することができる。具体的には、自然言語処理モジュール（例えば、自然言語処理モジュール４３２）を用いてテキスト表現を処理し、ユーザ意図を導き出すことができる。例えば、図６Ｆを参照すると、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーを見つけてください」に対応するテキスト表現６１６から、ユーザ意図は、ロマンチックコメディーのジャンル及びＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎの俳優を有するメディアアイテムの検索を要求することであると決定することができる。いくつかの実施例では、ブロック５２６は、自然言語処理モジュールを用いて、決定されたユーザ意図を表現する構造化されたクエリを生成することを更に含むことができる。「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーを見つけてください」という本実施例では、ロマンチックコメディーのジャンル及びＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎの俳優を有するメディアアイテムのメディア検索クエリを表現する構造化されたクエリを生成することができる。

いくつかの実施例では、ユーザ意図を決定するための自然言語処理を、メディア関連のユーザ意図へ偏向させることができる。具体的には、自然言語処理モジュールは、オントロジ内のメディア関連ノードをトリガする、メディア関連の単語及びフレーズ（例えば、メディアタイトル、メディアジャンル、俳優、ＭＰＡＡ映画格付けラベルなど）を特定するように訓練することができる。例えば、自然言語処理モジュールは、テキスト表現内のフレーズ「ＪｕｒａｓｓｉｃＰａｒｋ」を映画タイトルとして特定し、その結果、メディアアイテムの検索という実施可能な意図に関連付けられたオントロジ内の「メディア検索」ノードをトリガすることができる。いくつかの実施例では、偏向は、オントロジ内のノードをメディア関連ノードの所定のセットに限定することによって実施することができる。例えば、メディア関連ノードのセットは、メディアデバイスのアプリケーションに関連付けられたノードであることができる。更に、いくつかの実施例では、偏向は、メディアに関連したユーザ意図候補に、メディアに関連しないユーザ意図候補よりも大きく重み付けすることによって実施することができる。

いくつかの実施例では、ユーザ意図は別個のデバイス（例えば、ＤＡサーバ１０６）から取得することができる。具体的には、音声データを、自然言語処理を実行するために別個のデバイスへ伝送することができる。これらの実施例では、メディアデバイスは、別個のデバイスに、（例えば、サンプリングされた音声データとともに別個のデバイスへ伝送されたデータを介して）、サンプリングされた音声データがメディアアプリケーションに関連付けられていることを指示することができる。指示は、自然言語処理をメディア関連のユーザ意図へ偏向させることができる。

プロセス５００のブロック５２８において、サンプリングされた音声データがユーザ要求を包含するかどうかに関する判定を行うことができる。判定は、ブロック５２６の決定されたユーザ意図から行うことができる。ユーザ意図が、タスクを実行せよとのユーザ要求を含む場合には、サンプリングされた音声データは、ユーザ要求を包含すると判定されることができる。逆に、ユーザ意図が、タスクを実行せよとのユーザ要求を含まない場合には、サンプリングされた音声データは、ユーザ要求を包含しないと判定されることができる。更に、いくつかの実施例では、ブロック５２６において、ユーザ意図がテキスト表現から決定不可能であるか、又はブロック５２２において、テキスト表現が、サンプリングされた音声データから決定不可能である場合には、サンプリングされた音声データは、ユーザ要求を包含しないと判定されることができる。音声データがユーザ要求を包含しないとの判定に従って、ブロック５３０を実行することができる。

プロセス５００のブロック５３０において、表示ユニット上にユーザの意図の明確化の要求を表示することができる。一実施例では、明確化の要求は、ユーザに対する、ユーザ要求を繰り返せとの要求であることができる。別の実施例では、明確化の要求は、デジタルアシスタントはユーザの発言を理解することができないとの陳述であることができる。更に別の実施例では、ユーザの意図を決定することができなかったことを指示するためのエラーメッセージを表示することができる。更に、いくつかの実施例では、音声データがユーザ要求を包含しないとの判定に従って、応答が提供されなくてもよい。

図５Ｃを参照すると、サンプリングされた音声データがユーザ要求を包含するとのブロック５２８における判定に従って、ブロック５３２を実行することができる。プロセス５００のブロック５３２において、ユーザ要求を少なくとも部分的に満足するタスクを実行することができる。例えば、ブロック５２６においてタスクを実行することは、ブロック５２６の生成された構造化されたクエリ内で定義された１つ以上のタスクを実行することを含むことができる。１つ以上のタスクは、デジタルアシスタントのタスクフロー処理モジュール（例えば、タスクフロー処理モジュール４３６）を用いて実行することができる。いくつかの実施例では、タスクは、メディアデバイス上のアプリケーションの状態又は設定を変更することを含むことができる。より具体的には、タスクは、例えば、要求されたメディアアイテムを選択若しくは再生すること、要求されたアプリケーションを開くこと、若しくは閉じること、又は表示されたユーザインターフェース内を、要求された仕方でナビゲートすることを含むことができる。いくつかの実施例では、ブロック５３２において、タスクは、メディアデバイスから、タスクに関連する発語を出力することなく実行することができる。それゆえ、これらの実施例では、ユーザは発語の形式でデジタルアシスタントに要求を提供することができるが、デジタルアシスタントは発語形式でユーザに応答を提供しなくてもよい。むしろ、デジタルアシスタントは、表示ユニット上に結果を表示することによって視覚的に応答するのみであってもよい。これは、メディアコンテンツを消費することの共用エクスペリエンスを保つために望ましくなり得る。

他の実施例では、タスクは、要求された情報を引き出し、表示することを含むことができる。具体的には、ブロック５３２においてタスクを実行することは、ブロック５３４〜５３６のうちの１つ以上を実行することを含むことができる。プロセス５００のブロック５３４において、ユーザ要求を少なくとも部分的に満足する結果を取得することができる。結果は外部サービス（例えば、外部サービス１２０）から取得することができる。一実施例では、ユーザ要求は、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーを見つけてください」などの、メディア検索クエリを実行せよとの要求であることができる。本実施例では、ブロック５３４は、要求されたメディア検索を（例えば、外部サービスのメディア関連データベースを用いて）実行し、ロマンチックコメディーのジャンル及びＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎの俳優を有するメディアアイテムを取得することを含むことができる。他の実施例では、ユーザ要求は、天気、スポーツ、及び株価などの他の種類の情報の要求を含むことができ、ブロック５３４においてそれぞれの情報を取得することができる。

プロセス５００のブロック５３６において、表示ユニット上に第２のユーザインターフェースを表示することができる。第２のユーザインターフェースは、ブロック５３４において取得された結果の一部分を含むことができる。例えば、図６Ｇに示されるように、表示ユニット上に第２のユーザインターフェース６１８を表示することができる。第２のユーザインターフェース６１８は、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーを見つけてください」というユーザ要求を満足するメディアアイテム６２２を含むことができる。本実施例では、メディアアイテム６２２は、「ＬｅｇａｌｌｙＢｌｏｎｄｅ」、「ＬｅｇａｌｌｙＢｌｏｎｄｅ２」、「ＨｏｔＰｕｒｓｕｉｔ」、及び「ＴｈｉｓＭｅａｎｓＷａｒ」などのメディアアイテムを含むことができる。第２のユーザインターフェース６１８は、取得された結果を説明するテキストヘッダ６２０を更に含むことができる。テキストヘッダ６２０は、ユーザの要求が直接対処されたという印象を与えるために、ユーザ要求の一部分を言い換えることができる。これは、ユーザとデジタルアシスタントとの間の、より感じがよく、対話性のよいエクスペリエンスを提供する。図６Ｇに示される本実施例では、メディアアイテム６２２は、第２のユーザインターフェース６１８を横切る単一の列内に整理される。他の実施例では、メディアアイテム６２２の整理及び提示は異なり得ることを認識されたい。

第２のユーザインターフェース６１８は、第２のユーザインターフェース６１８内のメディアアイテム６２２をナビゲートし、選択するためのカーソル６２４を更に含むことができる。カーソルの位置は、他のメディアアイテムに対して、カーソルが位置付けられているメディアアイテムを視覚的に目立たせることによって指示されることができる。例えば、本例では、カーソル６２４が位置付けられているメディアアイテム６２３は、第２のユーザインターフェース６１８内に表示されている他のメディアアイテムと比べて、より大きくし、より太い輪郭線で描くことができる。

いくつかの実施例では、表示されたコンテンツの少なくとも一部分は、第２のユーザインターフェースが表示されている間に表示され続けることができる。例えば、図６Ｇに示されるように、第２のユーザインターフェース６１８は、表示ユニットの底部に表示される小さなペインであることができ、その一方で、メディアコンテンツ６０２はメディアデバイス上で再生し、第２のユーザインターフェース６１８の上方で表示ユニット上に表示され続ける。第２のユーザインターフェース６１８は、再生しているメディアコンテンツ６０２上に重ね合わせることができる。本実施例では、表示ユニットにおける第２のユーザインターフェース６１８の表示区域は、表示ユニット上におけるメディアコンテンツ６０２の表示区域よりも小さいものであることができる。これは、ユーザがメディアコンテンツを消費している間にデジタルアシスタントによって表示される結果の侵入性を低減するために望ましくなり得る。他の実施例では、表示されたコンテンツの表示区域に対する第２のユーザインターフェースの表示区域は異なり得ることを認識されたい。更に、図６Ｇにおける「メディア再生中」のための中実のフォントによって指示されるように、第２のユーザインターフェース６１８を表示すると、メディアコンテンツ６０２の明るさを通常（例えば、ユーザ入力を検出する前の図６Ａにおける明るさ）に戻すことができる。これは、ユーザに、デジタルアシスタントとの対話が完了したことを指示する助けとなることができる。それゆえ、ユーザは、要求された結果（例えば、メディアアイテム６２２）を見ながらメディアコンテンツ６０２を消費し続けることができる。

メディア検索から取得されたメディアアイテムが第２のユーザインターフェース上に表示される実施例では、表示されるメディアアイテムの数を制限することができる。これは、ユーザが、最も関連性の高い結果に焦点を合わせることを可能にし、ユーザが、選択を行う際に、結果の数に圧倒されてしまうことを防止するために望ましくなり得る。これらの実施例では、ブロック５３２は、取得された結果内のメディアアイテムの数が所定の数（例えば、３０、２８、又は２５個）以下であるかどうかを判定することを更に含むことができる。取得された結果内のメディアアイテムの数が所定の数以下であるとの判定に従って、取得された結果内のメディアアイテムの全てが第２のユーザインターフェース内に含まれることができる。取得された結果内のメディアアイテムの数が所定の数よりも大きいとの判定に従って、取得された結果内の所定の数のメディアアイテムのみが第２のユーザインターフェース内に含まれることができる。

更に、いくつかの実施例では、メディア検索要求に最も関連性のある、取得された結果内のメディアアイテムのみが第２のユーザインターフェース内に表示されることができる。具体的には、取得された結果内のメディアアイテムの各々は、メディア検索要求に関する関連性スコアに関連付けられていることができる。表示されるメディアアイテムは、取得された結果の間で最も高い関連性スコアを有することができる。更に、第２のユーザインターフェース内のメディアアイテムは、関連性スコアに従って配列することができる。例えば、図６Ｇを参照すると、より高い関連性スコアを有するメディアアイテムは、第２のユーザインターフェース６１８の一方の側（例えば、カーソル６２４に近接した側）に近接して位置付けられる可能性が高くなり得、その一方で、より低い関連性スコアを有するメディアアイテムは、第２のユーザインターフェース６１８の反対の側（例えば、カーソル６２４に遠い側）に近接して位置付けられる可能性が高くなり得る。加えて、取得された結果内の各メディアアイテムは人気格付けに関連付けられていることができる。人気格付けは、映画評論家の格付け（例えば、ロッテン・トマト格付け）に基づくか、又はメディアアイテムを再生のために選択したユーザの数に基づくことができる。いくつかの実施例では、メディアアイテム６２２は、第２のユーザインターフェース６１８内において人気格付けに基づいて配列することができる。例えば、より高い人気格付けを有するメディアアイテムは、第２のユーザインターフェース６１８の一方の側に位置付けられる可能性が高くなり得、その一方で、より低い人気格付けを有するメディアアイテムは、第２のユーザインターフェース６１８の反対の側に近接して位置付けられる可能性が高くなり得る。

図５Ｃにおけるブロック５３２に続く異なるフロー（例えば、Ｄ、Ｅ、Ｆ、及びＧ）によって指示されるように、ブロック５３２の後に、図５Ｄ、図５Ｅ、図５Ｆ、又は図５Ｉの、それぞれ、ブロック５３８、５４２、５５０、又は５７０のうちの１つを実行することができる。ブロック５３８、５４２、５５０、又は５７０は、ブロック５３６において第２のユーザインターフェースを表示している間に実行することができる。いくつかの実施例では、プロセス５００は、代替的に、ブロック５３６の後に、実行するべき適切なフロー（例えば、Ｄ、Ｅ、Ｆ、又はＧ）を決定するための決定ステップを含むことができる。具体的には、ブロック５３６の後にユーザ入力を検出することができ、検出されたユーザ入力が第２のユーザ入力（例えば、ブロック５３８）に対応するのか、第３のユーザ入力（例えば、ブロック５４２）に対応するのか、第４のユーザ入力（例えば、ブロック５５０）に対応するのか、それとも第６のユーザ入力（例えば、ブロック５７０）に対応するのかに関する判定を行うことができる。例えば、ユーザ入力がブロック５４２の第３のユーザ入力に対応するとの判定に従って、ブロック５４４〜５４６のうちの１つ以上を実行することができる。ブロック５４６の後にも同様の決定ステップが含まれることができる。

プロセス５００のブロック５３８において、及び図５Ｄを参照すると、第２のユーザ入力を検出することができる。上述されたように、第２のユーザ入力は、第２のユーザインターフェースが表示ユニット上に表示されている間に検出することができる。第２のユーザ入力はメディアデバイスの遠隔制御装置上で検出することができる。例えば、第２のユーザ入力は、遠隔制御装置のタッチ感知面上における第１の所定の運動パターンを含むことができる。一実施例では、第１の所定の運動パターンは、タッチ感知面上における第１の接触点から第２の接触点への第１の方向の連続的な接触運動を含むことができる。遠隔制御装置を、意図した仕方で把持している時には、第１の方向は、下方向、又はユーザへ向かう方向になることができる。第２のユーザ入力のための他の入力形式も企図することができることを認識されたい。第２のユーザ入力を検出したことに応じて、ブロック５４０を実行することができる。

プロセス５００のブロック５４０において、第２のユーザインターフェースを閉じることができ、それにより、第２のユーザインターフェースはもはや表示されない。例えば、図６Ｇを参照すると、第２のユーザ入力を検出したことに応じて、第２のユーザインターフェース６１８は表示されなくなる。本実施例では、第２のユーザインターフェース６１８閉じると、メディアコンテンツ６０２を表示ユニットのフルスクリーン上に表示させることができる。例えば、第２のユーザインターフェース６１８の表示を中止すると、メディアコンテンツ６０２は、図６Ａに示されるように表示されることができる。

プロセス５００のブロック５４２において、及び図５Ｅを参照すると、第３のユーザ入力を検出することができる。第３のユーザ入力は、第２のユーザインターフェースが表示ユニット上に表示されている間に検出することができる。第３のユーザ入力はメディアデバイスの遠隔制御装置上で検出することができる。例えば、第３のユーザ入力は、遠隔制御装置のタッチ感知面上における第２の所定の運動パターンを含むことができる。第２の所定の運動パターンは、タッチ感知面上における第３の接触点から第４の接触点への第２の方向の連続的な接触運動を含むことができる。第２の方向は第１の方向と反対であることができる。具体的には、遠隔制御装置を、意図した仕方で把持している時には、第２の方向は、上方向、又はユーザから離れる方向になることができる。第３のユーザ入力を検出したことに応じて、ブロック５４４〜５４６のうちの１つ以上を実行することができる。いくつかの実施例では、図６Ｇに示されるように、第２のユーザインターフェース６１８は、ユーザに、第３のユーザ入力を提供することによって第２のユーザインターフェース６１８を拡大することができることを指示するためのグラフィックインジケータ６２１（例えば、矢印）を含むことができる。更に、グラフィックインジケータ６２１は、ユーザに、第３のユーザ入力のためのタッチ感知面上における第２の所定の運動パターンに関連付けられた第２の方向を指示することができる。

プロセス５００のブロック５４４において、第２の結果を取得することができる。取得された第２の結果は、ブロック５３４において取得された結果と同様であるが、同一ではなくなり得る。いくつかの実施例では、取得された第２の結果はユーザ要求を少なくとも部分的に満足することができる。例えば、取得された第２の結果は、ブロック５３４において取得された結果の１つ以上の特性、パラメータ、又は属性を共有することができる。図６Ｆ〜図６Ｇに示される実施例では、ブロック５４４は、ブロック５３４において実行されたメディア検索クエリに関連する１つ以上の追加のメディア検索クエリを実行することを含むことができる。例えば、１つ以上の追加のメディア検索クエリは、ロマンチックコメディーのジャンルを有するメディアアイテムの検索、又はＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のメディアアイテムの検索を含むことができる。それゆえ、取得された第２の結果は、ロマンチックコメディーであるメディアアイテム（例えば、メディアアイテム６３４）、及び／又はＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のメディアアイテム（例えば、メディアアイテム６３６）を含むことができる。

いくつかの実施例では、取得された第２の結果は、ブロック５０４においてユーザ入力を検出する前に受信された以前のユーザ要求に基づくことができる。具体的には、取得された第２の結果は、以前のユーザ要求の１つ以上の特性又はパラメータを含むことができる。例えば、以前のユーザ要求は、「最近５年以内に公開された映画を教えてください」であることができる。本実施例では、取得された第２の結果は、ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演で、最近５年以内に公開されたロマンチックコメディー映画であるメディアアイテムを含むことができる。

更に、いくつかの実施例では、ブロック５４４は、第３のユーザ入力が検出された時に第２のユーザインターフェースがフォーカスされているアイテムにコンテクスト上関連する第２の結果を取得することを含むことができる。例えば、図６Ｇを参照すると、第３のユーザ入力が検出された時に、カーソル６２４は第２のユーザインターフェース６１８内のメディアアイテム６２３に位置付けられていることができる。メディアアイテム６２３は、例えば、映画「ＬｅｇａｌｌｙＢｌｏｎｄｅ」であることができる。本実施例では、取得された第２の結果は、メディアアイテム「ＬｅｇａｌｌｙＢｌｏｎｄｅ」に関連付けられた１つ以上の特性、属性、又はパラメータを共有することができる。具体的には、取得された第２の結果は、「ＬｅｇａｌｌｙＢｌｏｎｄｅ」のように、ロースクールに通うこと、又は専門的職業に就いている女性が主役であることに関連するメディアアイテムを含むことができる。

プロセス５００のブロック５４６において、表示ユニット上に第３のユーザインターフェースを表示することができる。具体的には、ブロック５３６における第２のユーザインターフェースの表示を、ブロック５４６における第３のユーザインターフェースの表示と置換することができる。いくつかの実施例では、第３のユーザ入力を検出したことに応じて、第２のユーザインターフェースを第３のユーザインターフェースになるように拡大することができる。第３のユーザインターフェースは表示ユニットの表示区域の少なくとも過半を占有することができる。第３のユーザインターフェースは、ブロック５３４の取得された結果の一部分を含むことができる。更に、第３のユーザインターフェースは、ブロック５４４の取得された第２の結果の一部分を含むことができる。

一実施例では、図６Ｈに示されるように、第３のユーザインターフェース６２６は実質的に表示ユニットの表示区域全体を占有することができる。本実施例では、メディアコンテンツ６０２及び第２のユーザインターフェース６１８の以前の表示は第３のユーザインターフェース６２６の表示によって取って代わられることができる。第３のユーザ入力を検出したことに応じて、メディアコンテンツの再生をメディアデバイス上で一時停止させることができる。これは、ユーザが、第３のユーザインターフェース６２６内のメディアアイテムをブラウズしている間に、メディアコンテンツ６０２の任意の部分を見逃すことを防止するために望ましくなり得る。

第３のユーザインターフェース６２６は、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーを見つけてください」というユーザ要求を満足するメディアアイテム６２２を含むことができる。更に、第３のユーザインターフェース６２６は、同じユーザ要求を少なくとも部分的に満足するメディアアイテム６３２を含むことができる。メディアアイテム６３２は、異なる特性、属性、又はパラメータに各々対応するメディアアイテムの複数のセットを含むことができる。本実施例では、メディアアイテム６３２は、ロマンチックコメディーであるメディアアイテム６３４、及びＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のメディアアイテム６３６を含むことができる。メディアアイテムの各セットは、テキストヘッダ（例えば、テキストヘッダ６２８、６３０）でラベル付けすることができる。テキストヘッダは、メディアアイテムのそれぞれのセットに関連付けられた１つ以上の属性又はパラメータを説明することができる。更に、テキストヘッダは各々、ユーザによってデジタルアシスタントに提供されると、デジタルアシスタントにメディアアイテムの同様のセットを取得させることができる、例示的なユーザ発言であることができる。例えば、テキストヘッダ６２８を参照すると、デジタルアシスタントは、ユーザからユーザ発言「ロマンチックコメディー」を受信したことに応じて、ロマンチックコメディーであるメディアアイテム（例えば、メディアアイテム６３４）を取得し、表示することができる。

図６Ｈに示される実施例では、メディアアイテム６２２は、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーを見つけてください」という最初のユーザ要求に基づくが、他の実施例では、メディアアイテム６３２は、メディア選択履歴、メディア検索履歴、以前のメディア検索が受信された順序、メディアに関連した属性間の関係、メディアアイテムの人気、及び同様のものなどの、他の因子に基づくことができることを認識されたい。

ユーザ要求がメディア検索要求である実施例では、取得された第２の結果は、ブロック５３４の取得された結果内のメディアアイテムの数に基づくことができる。具体的には、第３のユーザ入力を検出したことに応じて、取得された結果内のメディアアイテムの数が所定の数以下であるかどうかに関する判定を行うことができる。取得された結果内のメディアアイテムの数が所定の数以下であるとの判定に従って、取得された第２の結果は、第２のユーザインターフェース内のメディアアイテムと異なるメディアアイテムを含むことができる。取得された第２の結果は、ブロック５３４において実行されたメディア検索要求を少なくとも部分的に満足することができる。同時に、取得された第２の結果は、取得された結果よりも広範になることができ、ブロック５３４において実行されたメディア検索要求内で限定されたパラメータの全てよりも少数のパラメータに関連付けられていることができる。これは、ユーザに、結果のより広範なセット、及び選択するべきより多くの選択肢を提供するために望ましくなり得る。

いくつかの実施例では、ブロック５３４の取得された結果内のメディアアイテムの数が所定の数以下であるとの判定に従って、メディア検索要求が、１つを超える検索属性又はパラメータを含むかどうかに関する判定を行うことができる。メディア検索要求が、１つを超える検索属性又はパラメータを含むとの判定に従って、取得された第２の結果は、１つを超える検索属性又はパラメータに関連付けられたメディアアイテムを含むことができる。更に、取得された第２の結果内のメディアアイテムは、第３のユーザインターフェース内において、１つを超える検索属性又はパラメータに従って整理することができる。

図６Ｆ〜図６Ｈに示される実施例では、メディア検索要求「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーを見つけてください」は、１つを超える検索属性又はパラメータ（例えば、「ロマンチックコメディー」及び「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ」）を含むと判定することができる。メディア検索要求が、１つを超える検索属性又はパラメータを含むとの判定に従って、取得された第２の結果は、検索パラメータ「ロマンチックコメディー」に関連付けられたメディアアイテム６３４、及び検索パラメータ「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎの映画」に関連付けられたメディアアイテム６３６を含むことができる。図６Ｈに示されるように、メディアアイテム６３４は「ロマンチックコメディー」のカテゴリの下で整理することができ、メディアアイテム６３６は「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ」のカテゴリの下で整理することができる。

いくつかの実施例では、ブロック５３４の取得された結果内のメディアアイテムの数が所定の数よりも大きいとの判定に従って、第３のユーザインターフェースは、取得された結果の第１の部分及び第２の部分を含むことができる。取得された結果の第１の部分は所定の数のメディアアイテム（例えば、最も高い関連性スコアを有するもの）を含むことができる。取得された結果の第２の部分は、取得された結果の第１の部分と異なることができ、取得された結果の第１の部分よりも多数のメディアアイテムを含むことができる。更に、取得された結果内のメディアアイテムが、１つを超えるメディア種別（例えば、映画、テレビ番組、音楽、アプリケーション、ゲームなど）を含むかどうかを判定することができる。取得された結果内のメディアアイテムが、１つを超えるメディア種別を含むと判定したことに応じて、取得された結果の第２の部分内のメディアアイテムはメディア種別に従って整理することができる。

図６Ｉに示される実施例では、ブロック５３４において取得された結果は、ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーであるメディアアイテムを含むことができる。取得された結果内のメディアアイテムの数が所定の数よりも大きいとの判定に従って、第３のユーザインターフェース６２６内に、取得された結果の第１の部分（メディアアイテム６２２）及び取得された結果の第２の部分（メディアアイテム６３８）を表示することができる。取得された結果が、１つを超えるメディア種別（例えば、映画及びＴＶ番組）を含むと判定したことに応じて、メディアアイテム６３８はメディア種別に従って整理することができる。具体的には、メディアアイテム６４０は「映画」のカテゴリの下で整理することができ、メディアアイテム６４２は「ＴＶ番組」のカテゴリの下で整理することができる。更に、いくつかの実施例では、それぞれのメディア種別（例えば、映画、ＴＶ番組）に対応するメディアアイテムの各セット（例えば、メディアアイテム６４０、６４２）は、メディアアイテムのそれぞれのセット内で、最も多いジャンル、俳優／監督、又は公開日に従って並べ替えることができる。他の実施例では、取得された結果内のメディアアイテムが、１つを超えるメディア属性又はパラメータに関連付けられていると判定したことに応じて、取得された結果の第２の部分内のメディアアイテムは（メディア種別でなく）メディア属性又はパラメータに従って整理することができることを認識されたい。

いくつかの実施例では、スクロールコマンドを表現するユーザ入力（例えば、ブロック５５０において後述される第４のユーザ入力）を検出することができる。スクロールコマンドを表現するユーザ入力を受信したことに応じて、拡大されたユーザインターフェース（又はより具体的には、拡大されたユーザインターフェース内のアイテム）をスクロールさせることができる。スクロールしている間に、拡大されたユーザインターフェースが、拡大されたユーザインターフェース内の所定の位置を越えてスクロールしたかどうかに関する判定を行うことができる。拡大されたユーザインターフェースが、拡大されたユーザインターフェース内の所定の位置を越えてスクロールしたとの判定に応じて、拡大されたユーザインターフェース上に、取得された結果の第３の部分内のメディアアイテムを表示させることができる。第３の部分内のメディアアイテムは、第３の部分内のメディアアイテムに関連付けられた１つ以上のメディアコンテンツプロバイダ（例えば、ｉＴｕｎｅｓ、Ｎｅｔｆｌｉｘ、ＨｕｌｕＰｌｕｓ、ＨＢＯなど）に従って整理することができる。他の実施例では、拡大されたユーザインターフェースが、拡大されたユーザインターフェース内の所定の位置を越えてスクロールしたとの判定に応じて、他のメディアアイテムを取得することができることを認識されたい。例えば、人気のあるメディアアイテム、又は取得された結果に関連するメディアアイテムを取得することができる。

図５Ｅにおけるブロック５４６から進む異なるフロー（例えば、Ｂ、Ｆ、Ｇ、及びＨ）によって指示されるように、ブロック５３２の後に、図５Ｆ、図５Ｇ、図５Ｈ、又は図５Ｉの、それぞれ、ブロック５５０、５５８、５６６、又は５７０を実行することができる。具体的には、いくつかの実施例では、ブロック５５０、５６０、５６４、又は５７０は、ブロック５４６において第３のユーザインターフェースを表示している間に実行することができる。

プロセス５００のブロック５５０において、及び図５Ｆを参照すると、第４のユーザ入力を検出することができる。第４のユーザ入力は、第２のユーザインターフェース（例えば、第２のユーザインターフェース６１８）又は第３のユーザインターフェース（例えば、第３のユーザインターフェース６２６）が表示ユニット上に表示されている間に検出することができる。いくつかの実施例では、第４のユーザ入力はメディアデバイスの遠隔制御装置上で検出することができる。第４のユーザ入力は表示ユニット上における方向（例えば、上、下、左、右）を指示することができる。例えば、第４のユーザ入力は、遠隔制御装置のタッチ感知面上の第１の位置から、第１の位置の右にあるタッチ感知面上の第２の位置への接触運動であることができる。それゆえ、接触運動は表示ユニット上における右方向に対応することができる。第４のユーザ入力を検出したことに応じて、ブロック５５２を実行することができる。

プロセス５００のブロック５５２において、第２のユーザインターフェース又は第３のユーザインターフェースのフォーカスを第１のアイテムから第２のユーザインターフェース又は第３のユーザインターフェース上の第２のアイテムへ切り換えることができる。第２のアイテムは、第１のアイテムに対して上記の方向（例えば、第４のユーザ入力に対応する同じ方向）に位置付けられていることができる。例えば、図６Ｇにおいて、カーソル６２４がメディアアイテム６２３に位置付けられていることにより、第２のユーザインターフェース６１８のフォーカスはメディアアイテム６２３上にあることができる。表示ユニット上における右方向に対応する第４のユーザ入力を検出したことに応じて、第２のユーザインターフェース６１８のフォーカスを、図６Ｇにおけるメディアアイテム６２３から、メディアアイテム６２３の右に位置する図６Ｊにおけるメディアアイテム６２５へ切り換えることができる。具体的には、カーソル６２４の位置をメディアアイテム６２３からメディアアイテム６２５へ変更することができる。別の実施例では、図６Ｈを参照すると、第３のユーザインターフェース６２６のフォーカスはメディアアイテム６２３上にあることができる。表示ユニット上における下方向に対応する第４のユーザ入力を検出したことに応じて、第３のユーザインターフェース６２６のフォーカスを、図６Ｈにおけるメディアアイテム６２３から、メディアアイテム６２３に対して下方向に位置付する図６Ｋにおけるメディアアイテム６２７へ切り換えることができる。具体的には、カーソル６２４の位置をメディアアイテム６２３からメディアアイテム６２７へ変更することができる。

プロセス５００のブロック５５４において、第２のユーザインターフェース又は第３のユーザインターフェースを介して１つ以上のメディアアイテムのうちのメディアアイテムの選択を受信することができる。例えば、図６Ｊを参照すると、カーソル６２４がメディアアイテム６２５に位置付けられている間に、ユーザ選択に対応するユーザ入力を検出することによって、第２のユーザインターフェース６１８を介してメディアアイテム６２５の選択を受信することができる。同様に、図６Ｋを参照すると、カーソル６２４がメディアアイテム６２７に位置付けられている間に、ユーザ選択に対応するユーザ入力を検出することによって、第３のユーザインターフェース６２６を介してメディアアイテム６２７の選択を受信することができる。１つ以上のメディアアイテムのうちのメディアアイテムの選択を受信したことに応じて、ブロック５５６を実行することができる。

プロセス５００のブロック５５６において、表示ユニット上に、選択されたメディアアイテムに関連付けられたメディアコンテンツを表示することができる。いくつかの実施例では、メディアコンテンツは、メディアデバイス上で再生中であるか、又はメディアデバイスを通じてストリーミング中である映画、ビデオ、テレビ番組、アニメーション、又は同様のものであることができる。いくつかの実施例では、メディアコンテンツは、メディアデバイス上で実行中のビデオゲーム、電子ブック、アプリケーション、又はプログラムであることができる。更に、いくつかの実施例では、メディアコンテンツは、メディアアイテムに関連する情報であることができる。情報は、選択されたメディアアイテムの様々な特性（例えば、あらすじ、出演者、監督、作者、公開日、格付け、継続時間など）を説明する製品情報であることができる。

プロセス５００のブロック５５８において、及び図５Ｇを参照すると、第５のユーザ入力を検出することができる。いくつかの実施例では、第５のユーザ入力は、第３のユーザインターフェース（例えば、第３のユーザインターフェース６２６）を表示している間に検出することができる。これらの実施例では、第５のユーザ入力は、第３のユーザインターフェースのフォーカスが第３のユーザインターフェースの最上段内のメディアアイテム（例えば、図６Ｈの第３のユーザインターフェース６２６内のメディアアイテム６２２のうちの１つ）上にある間に検出することができる。他の実施例では、第５のユーザ入力は、第１のユーザインターフェースを表示している間に検出することができる。これらの実施例では、第５のユーザ入力は、ブロック５０８〜５１４のうちのいずれか１つを実行している間に検出することができる。いくつかの実施例では、第５のユーザ入力はメディアデバイスの遠隔制御装置上で検出することができる。第５のユーザ入力は第３のユーザ入力と同様又は同一であることができる。例えば、第５のユーザ入力は、タッチ感知面上における、第２の方向の連続的な接触運動（例えば、スワイプアップ接触運動）を含むことができる。他の実施例では、第５のユーザ入力はアフォーダンスのアクティブ化であることができる。アフォーダンスは、仮想キーボードインターフェース又は打ち込み検索インターフェースに関連付けられていることができる。第５のユーザ入力を検出したことに応じて、ブロック５６０〜５６４のうちの１つ以上を実行することができる。

プロセス５００のブロック５６０において、打ち込み検索入力を受信するように構成された検索フィールドを表示することができる。例えば、図６Ｌに示されるように、表示されたユニット上に検索フィールド６４４を表示することができる。いくつかの実施例では、検索フィールドは、打ち込み検索クエリを受信するように構成することができる。打ち込み検索クエリは、メディアアイテムの検索などのメディア関連検索クエリであることができる。いくつかの実施例では、検索フィールドは、検索フィールド６４４を介して入力されたテキストと、メディアアイテムに関連付けられた記憶されたテキストとの間のテキスト文字列の一致に基づいてメディア関連検索を実行するように構成することができる。更に、いくつかの実施例では、デジタルアシスタントは、検索フィールド６４４を介して入力を受信するように構成されていなくてもよい。これは、ユーザに、打ち込み式のインターフェースではなく、発語インターフェースを介してデジタルアシスタントと対話するように促すことができ、メディアデバイスとユーザとの間のより感じのよいインターフェースを促進する。いくつかの実施例では、検索フィールドは第２のユーザインターフェース（例えば、第２のユーザインターフェース６１８）又は第３のユーザインターフェース（例えば、第３のユーザインターフェース６２６）内にもとから表示されていてもよいことを認識されたい。これらの実施例では、ブロック５６６を実行する必要はなくてもよい。

プロセス５００のブロック５６２において、表示ユニット上に仮想キーボードインターフェースを表示することができる。例えば、図６Ｌに示されるように、仮想キーボードインターフェース６４６を表示することができる。仮想キーボードインターフェース６４６は、仮想キーボードインターフェース６４６を介して受信されたユーザ入力が検索フィールド内へのテキスト記入を生じさせるように構成することができる。いくつかの実施例では、仮想キーボードインターフェースは、デジタルアシスタントと対話するために用いられることができない。

プロセス５００のブロック５６４において、ユーザインターフェースのフォーカスを検索フィールドへ切り換えることができる。例えば、図６Ｌを参照すると、ブロック５６８において検索フィールド６４４を目立たせることができる。更に、テキスト入力カーソルを検索フィールド６４４内に位置付けることができる。いくつかの実施例では、検索フィールド内に、ユーザに、打ち込み検索を入力するように促すテキストを表示することができる。図６Ｌに示されるように、テキスト６４８はプロンプト「検索を打ち込んでください」を含む。

プロセス５００のブロック５６６において、及び図５Ｈを参照すると、第７のユーザ入力を検出することができる。いくつかの実施例では、第７のユーザ入力は、第３のユーザインターフェース（例えば、第３のユーザインターフェース６２６）を表示している間に検出することができる。いくつかの実施例では、第７のユーザ入力は、電子デバイスの遠隔制御装置のボタンを押下することを含むことができる。ボタンは、例えば、電子デバイスのメインメニューユーザインターフェースへナビゲートするためのメニューボタンであることができる。他の実施例では、第７のユーザ入力は他の形式のユーザ入力を含むことができることを認識されたい。第７のユーザ入力を検出したことに応じて、ブロック５６８を実行することができる。

プロセス５００のブロック５６８において、表示ユニット上に第３のユーザインターフェースを表示するのを中止することができる。具体的には、第７のユーザ入力は第３のユーザインターフェースを閉じさせることができる。いくつかの実施例では、第７のユーザ入力は、第３のユーザインターフェースの代わりにメインメニューユーザインターフェースメニューを表示させることができる。代替的に、メディアコンテンツ（例えば、メディアコンテンツ６０２）が、第３のユーザインターフェース（例えば、第３のユーザインターフェース６２６）を表示する前に表示され、電子デバイス上におけるメディアコンテンツの再生が、第３のユーザインターフェースを表示すると同時に一時停止された（例えば、第３のユーザ入力を検出したことに応じて一時停止された）実施例では、第７のユーザ入力を検出したことに応じて、電子デバイス上におけるメディアコンテンツの再生を再開することができる。したがって、第７のユーザ入力を検出したことに応じて、メディアコンテンツを表示することができる。

プロセス５００のブロック５７０において、及び図５Ｉを参照すると、第６のユーザ入力を検出することができる。図６Ｍに示されるように、第６のユーザ入力は、第３のユーザインターフェース６２６を表示している間に検出することができる。しかし、他の実施例では、第６のユーザ入力は、代替的に、第２のユーザインターフェース（例えば第２のユーザインターフェース６１８）を表示している間に検出することができる。第６のユーザ入力が検出された時に、第２のユーザインターフェース又は第３のユーザインターフェースは、ユーザ要求を少なくとも部分的に満足する結果の一部分を含むことができる。第６のユーザ入力は、電子デバイスのデジタルアシスタントを呼び出すための入力を含むことができる。具体的には、第６のユーザ入力は、以上においてブロック５１６を参照して説明された、第２の入力形式のユーザ入力と同様又は同一であることができる。例えば、第６のユーザ入力は、メディアデバイスの遠隔制御装置上の特定のボタンを押下し、ボタンを所定の期間よりも長い間、押さえておくこと（例えば、長押し）を含むことができる。第６のユーザ入力を検出したことに応じて、ブロック５７２〜５９２のうちの１つ以上を実行することができる。

プロセス５００のブロック５７２において、第２の音声データをサンプリングすることができる。ブロック５７２は、上述されたブロック５１８と同様又は同一であることができる。具体的には、サンプリングされた第２の音声データはユーザからの第２のユーザ発言を含むことができる。第２のユーザ発言は、デジタルアシスタントに向けられた第２のユーザ要求を表現することができる。いくつかの実施例では、第２のユーザ要求は、第２のタスクを実行せよとの要求であることができる。例えば、図６Ｍを参照すると、サンプリングされた第２の音声データは、第２のユーザ発言、「ＬｕｋｅＷｉｌｓｏｎが出ているものだけ」を含むことができる。本実施例では、第２のユーザ発言は、以前のメディア検索を、ＬｕｋｅＷｉｌｓｏｎが俳優として出ているメディアアイテムのみを含むように絞り込めとの第２のユーザ要求を表現することができる。本実施例では、第２のユーザ発言は自然言語形式のものである。更に、第２のユーザ要求は指定が不完全であり得る。この場合には、第２のユーザ発言は、ユーザ要求を定めるために必要な全ての情報をはっきりと指定しない。例えば、第２のユーザ発言は、「もの（the ones）」が何を指すのかをはっきりと指定していない。他の実施例では、第２のユーザ要求は、メディアアイテムを再生せよ、又は特定の情報（例えば、天気、株価、スポーツなど）を提供せよとの要求であることができる。

いくつかの実施例では、第６のユーザ入力に対して、上述されたブロック５２０〜５２６を同様に実行することができることを認識されたい。具体的には、図６Ｍに示されるように、第６のユーザ入力を検出すると同時に、表示ユニット上に能動的視覚的インジケータ６１４を表示することができる。第２のユーザ発言の第２のテキスト表現６５０を（例えば、ＳＴＴ処理モジュール４３０を用いて）決定し、表示ユニット上に表示することができる。第２のテキスト表現に基づいて、第２のユーザ発言に対応する第２のユーザ意図を（例えば、自然言語処理モジュール４３２を用いて）決定することができる。いくつかの実施例では、図６Ｍに示されるように、第６のユーザ入力が検出された時に表示ユニット上に表示されているコンテンツは、第６のユーザ入力を検出したことに応じて、フェードさせるか、又は明るさを低減させることができる。これは、能動的視覚的インジケータ６１４及び第２のテキスト表現６５０を目立たせる助けとなることができる。

プロセス５００のブロック５７４において、サンプリングされた第２の音声データが第２のユーザ要求を包含するかどうかに関する判定を行うことができる。ブロック５７４は、上述されたブロック５２８と同様又は同一であることができる。具体的には、ブロック５７４における判定は、第２のユーザ発言の第２のテキスト表現から決定された第２のユーザ意図に基づいて行うことができる。第２の音声データがユーザ要求を包含しないとの判定に従って、ブロック５７６を実行することができる。代替的に、第２の音声データが第２のユーザ要求を包含するとの判定に従って、ブロック５７８〜５９２のうちの１つ以上を実行することができる。

プロセス５００のブロック５７６において、表示ユニット上にユーザの意図の明確化の要求を表示することができる。ブロック５７６は、上述されたブロック５３０と同様又は同一であることができる。

プロセス５００のブロック５７８において、第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるかどうかに関する判定を行うことができる。いくつかの実施例では、判定は、第２のユーザ発言に対応する第２のユーザ意図から行うことができる。具体的には、第２のユーザ要求は、第２のユーザ発言内で特定された、ユーザ要求の結果を絞り込めとの明示された指示に基づいて、ユーザ要求の結果を絞り込めとの要求であると判定することができる。例えば、図６Ｍを参照すると、第２のテキスト表現６５０は、自然言語処理の最中に、第２のユーザ発言が、メディア検索結果を絞り込もうとする明示的な意図に対応する所定の単語又はフレーズを含むかどうかを判定するために、パースされることができる。メディア検索結果を絞り込もうとする明示的な意図に対応する単語又はフレーズの例としては、「〜だけ（just）」、「〜のみ（only）」、「〜によってフィルタする（filter by）」、及び同様のものを挙げることができる。それゆえ、第２のテキスト表現６５０内の単語「〜だけ（just）」に基づいて、第２のユーザ要求は、ユーザ要求、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーを見つけてください」に関連付けられたメディア検索結果を絞り込めとの要求であると判定することができる。第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるかどうかを判定するための他の技法を実施することもできることを認識されたい。第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるとの判定に従って、ブロック５８０〜５８２のうちの１つ以上を実行することができる。

プロセス５００のブロック５８０において、ユーザ要求を少なくとも部分的に満足する結果のサブセットを取得することができる。いくつかの実施例では、結果のサブセットは、第２のユーザ要求内で限定された追加のパラメータに従って既存の結果にフィルタリングすることによって取得することができる。例えば、ブロック５３４において取得された（例えば、メディアアイテム６２２を含む）結果に、ＬｕｋｅＷｉｌｓｏｎが俳優として出ているメディアアイテムが特定されるようにフィルリングすることができる。他の実施例では、ユーザ要求と第２のユーザ要求の要件を組み合わせた新たなメディア検索クエリを実行することができる。例えば、新たなメディア検索クエリは、ロマンチックコメディーのジャンル、並びにＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ及びＬｕｋｅＷｉｌｓｏｎの俳優を有するメディアアイテムの検索クエリであることができる。本実施例では、新たなメディア検索クエリは、「ＬｅｇａｌｌｙＢｌｏｎｄｅ」、及び「ＬｅｇａｌｌｙＢｌｏｎｄｅ２」などのメディアアイテムをもたらすことができる。

第３のユーザインターフェースを表示している間に第６のユーザ入力が検出される実施例では、ユーザ要求及び／又は第２のユーザ要求に関連する追加の結果を取得することができる。追加の結果は、ユーザ要求及び／又は第２のユーザ要求内で述べられている１つ以上の属性又はパラメータを有するメディアアイテムを含むことができる。更に、追加の結果は、ユーザ要求及び第２のユーザ要求内で述べられている全ての属性又はパラメータを含まなくてもよい。例えば、図６Ｈ及び図６Ｍに示される実施例を参照すると、追加の結果は、以下の属性又はパラメータ：ロマンチックコメディー、ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ、及びＬｕｋｅＷｉｌｓｏｎ、のうちの少なくとも１つ（ただし全てではない）を有するメディアアイテムを含むことができる。追加の結果は、ユーザに、結果のより広範なセット、及び選択するべきより多くの選択肢を提供するために望ましくなり得る。更に、追加の結果は、ユーザの興味を引く可能性が高い関連結果であることができる。

ブロック５８２において、表示ユニット上に結果のサブセットを表示することができる。例えば、図６Ｎに示されるように、結果のサブセットは、「ＬｅｇａｌｌｙＢｌｏｎｄｅ」、及び「ＬｅｇａｌｌｙＢｌｏｎｄｅ２」などの映画を含むことができる、メディアアイテム６５２を含むことができる。本実施例では、メディアアイテム６５２は第３のユーザインターフェース６２６の最上段内に表示される。テキストヘッダ６５６は、表示されたメディアアイテム６５２に関連付けられた属性又はパラメータを説明することができる。具体的には、テキストヘッダ６５６は、第２のユーザ発言に関連付けられたユーザの意図の言い換えを含むことができる。第２のユーザインターフェース（例えば、図６Ｇに示される第２のユーザインターフェース６１８）を表示している間に第６のユーザ入力が検出される実施例では、メディアアイテム６５２は代わりに第２のユーザインターフェース内に表示することができる。これらの実施例では、メディアアイテム６５２は、第２のユーザインターフェースを横切る単一の列として表示することができる。メディアアイテム６５２が第２のユーザインターフェース又は第３のユーザインターフェース内に表示される仕方は様々あり得ることを認識されたい。

第３のユーザインターフェースを表示している間に第６のユーザ入力が検出される実施例では、第３のユーザインターフェース内に、ユーザ要求及び／又は第２のユーザ要求に関連する追加の結果を表示することができる。例えば、図６Ｎを参照すると、追加の結果は、ユーザ要求及び／又は第２のユーザ要求内で述べられている１つ以上のパラメータを有するメディアアイテム６５４を含むことができる。具体的には、メディアアイテム６５４は、ＬｕｋｅＷｉｌｓｏｎ主演のロマンチックコメディーであるメディアアイテム６５８、及びＬｕｋｅＷｉｌｓｏｎが主演し、最近１０年間に公開されたメディアアイテム６６０を含むことができる。メディアアイテムの各セット（例えば、メディアアイテム６５８、６６０）は、テキストヘッダ（例えば、テキストヘッダ６６２、６６４）でラベル付けすることができる。テキストヘッダは、メディアアイテムのそれぞれのセットに関連付けられた１つ以上のパラメータを説明することができる。テキストヘッダは自然言語形式のものであってもよい。更に、各テキストヘッダは、ユーザによってデジタルアシスタントに提供されると、デジタルアシスタントにメディアアイテムの同様のセットを取得させることができる、例示的なユーザ発言であることができる。例えば、テキストヘッダ６６２を参照すると、デジタルアシスタントは、ユーザからユーザ発言「ＬｕｋｅＷｉｌｓｏｎ主演のロマンチックコメディー」を受信したことに応じて、ＬｕｋｅＷｉｌｓｏｎ主演のロマンチックコメディーであるメディアアイテム（例えば、メディアアイテム６５８）を取得し、表示することができる。

ブロック５７８を再び参照すると、第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求でないと判定することができる。このような判定は、ユーザ要求の結果を絞り込むための明示的な指示が第２のユーザ発言内に全く存在しないことに基づいて行うことができる。例えば、自然言語処理の最中に第２のユーザ発言の第２のテキスト表現をパースする際に、メディア検索結果を絞り込もうとする明示的な意図に対応する所定の単語又はフレーズが特定されない場合がある。これは、第２のユーザ要求が、以前のユーザ要求に関連のない要求（例えば、新たな要求）であることに起因し得る。例えば、第２のユーザ要求は、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーを見つけてください」という以前のユーザ要求に関連のない要求である、「ホラー映画を見つけてください」であることができる。代替的に、第２のユーザ要求は、以前のユーザ要求の結果を絞り込めとの要求、又は以前のユーザ要求に関連のない新たな要求のどちらかとして解釈することができる、曖昧な言葉を含むことができる。例えば、図６Ｐを参照すると、第２のユーザ発言は「ＬｕｋｅＷｉｌｓｏｎ」であることができる。これは、以前のユーザ要求の結果を絞り込めとの要求（例えば、ＬｕｋｅＷｉｌｓｏｎが俳優として出ているメディアアイテムのみを含むように絞り込めとの要求）、又は以前のユーザ要求に関連のない新たな要求（例えば、ＬｕｋｅＷｉｌｓｏｎが俳優として出ているメディアアイテムの新たなメディア検索）のどちらかとして解釈することができる。これらの実施例では、第２のユーザ要求は、ユーザ要求の結果を絞り込めとの要求ではないと判定することができる。第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるとの判定に従って、ブロック５８４〜５９２のより多くのうちの１つを実行することができる。

プロセス５００のブロック５８４において、第２のユーザ要求を少なくとも部分的に満足する第２のタスクを実行することができる。ブロック５８４は、ブロック５８４の第２のタスクがブロック５３２のタスクと異なってもよいことを除いては、上述されたブロック５３２と同様であることができる。ブロック５８４はブロック５８６〜５８８のうちの１つ以上を含むことができる。

プロセス５００のブロック５８６において、第２のユーザ要求を少なくとも部分的に満足する第３の結果を取得することができる。ブロック５８６は、上述されたブロック５３４と同様であることができる。図６Ｐに示される実施例を参照すると、第２のユーザ発言「ＬｕｋｅＷｉｌｓｏｎ」は、ＬｕｋｅＷｉｌｓｏｎが俳優として出ているメディアアイテムを特定するための新たなメディア検索クエリを実行せよとの要求と解釈することができる。それゆえ、本実施例では、ブロック５８６は、要求されたメディア検索を実行し、ＬｕｋｅＷｉｌｓｏｎが俳優として出ているメディアアイテムを取得することを含むことができる。他の実施例では、ユーザ要求は、他の種類の情報（例えば、天気、スポーツ、株価など）の要求を含むことができ、ブロック５８６においてそれぞれの種類の情報を取得することができることを認識されたい。

プロセス５００のブロック５８８において、表示ユニット上に第３の結果の一部分を表示することができる。例えば、図６Ｑを参照すると、第３のユーザインターフェース６２６内に、ＬｕｋｅＷｉｌｓｏｎが俳優として出ているメディアアイテム６７０（例えば、「ＰｌａｙｉｎｇＩｔＣｏｏｌ」、「ＴｈｅＳｋｅｌｅｔｏｎＴｗｉｎｓ」、及び「ＹｏｕＫｉｌｌＭｅ」などの映画）を含む第３の結果を表示することができる。本実施例では、メディアアイテム６７０は第３のユーザインターフェース６２６の最上段内に表示することができる。テキストヘッダ６７８は、表示されたメディアアイテム６７０に関連付けられた属性を説明することができる。具体的には、テキストヘッダ６７８は、第２のユーザ発言に関連付けられた、決定されたユーザの意図の言い換えを含むことができる。第２のユーザインターフェース（例えば、図６Ｇに示される第２のユーザインターフェース６１８）を表示している間に第６のユーザ入力が検出される実施例では、メディアアイテム６７０は第２のユーザインターフェース内に表示することができる。これらの実施例では、メディアアイテム６７０は、第２のユーザインターフェースを横切る単一の列内に表示することができる。他の実施例では、第２のユーザインターフェース又は第３のユーザインターフェース内におけるメディアアイテム６７０の整理又は構成は異なり得ることを認識されたい。

プロセス５００のブロック５９０において、ユーザ要求及び／又は第２のユーザ要求を少なくとも部分的に満足する第４の結果を取得することができる。具体的には、第４の結果は、ユーザ要求及び／又は第２のユーザ要求内で限定された１つ以上の属性又はパラメータを有するメディアアイテムを含むことができる。図６Ｐ及び図６Ｑに示される実施例を参照すると、第４の結果は、以下の属性又はパラメータ：ロマンチックコメディー、ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ、及びＬｕｋｅＷｉｌｓｏｎ、のうちの１つ以上を有するメディアアイテムを含むことができる。例えば、第４の結果は、ロマンチックコメディーのジャンルを有し、ＬｕｋｅＷｉｌｓｏｎが主演するメディアアイテム６７６を含むことができる。第４の結果を取得することは、ユーザに、結果のより広範なセット、及びそれゆえ、選択するべきより多くの選択肢を提供するために望ましくなり得る。更に、第４の結果は、ユーザの実際の意図が満足される可能性を高めるために、第２のユーザ要求及び１つ以上の以前のユーザ要求から導き出された、代替の予測されたユーザ意図に関連付けられていることができる。これは、ユーザに返される結果の精度及び関連性を高める助けとなることができ、これにより、ユーザエクスペリエンスが改善される。

いくつかの実施例では、第４の結果の少なくとも一部分は、ユーザ要求及び第２のユーザ要求内で限定された全てのパラメータを有するメディアアイテムを含むことができる。例えば、第４の結果は、ロマンチックコメディーのジャンルを有し、ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ及びＬｕｋｅＷｉｌｓｏｎが主演するメディアアイテム６７４を含むことができる。メディアアイテム６７４は、第２のユーザ要求を用いて以前のユーザ要求の結果を絞り込むという代替の意図に関連付けられていることができる。ユーザが、第２の要求を、取得結果を絞り込めとの要求であるように実際に意図した場合には、メディアアイテム６７４を取得することは、ユーザの実際の意図が満足される可能性を高めるために望ましくなり得る。

いくつかの実施例では、第４の結果の一部分は、第６のユーザ入力が検出された時点におけるユーザインターフェースのフォーカスに基づくことができる。具体的には、ユーザインターフェースのフォーカスは、第６のユーザ入力が検出された時に第３のユーザインターフェースの１つ以上のアイテム上にあることができる。本実施例では、第４の結果の一部分は、ユーザインターフェースがフォーカスされた１つ以上のアイテムにコンテクスト上関連することができる。例えば、図６Ｋを参照すると、カーソル６２４はメディアアイテム６２７に位置付けられていることができ、それゆえ、第３のユーザインターフェース６２６のフォーカスはメディアアイテム６２７上にあることができる。本実施例では、メディアアイテム６２７に関連付けられた属性又はパラメータを、第４の結果の一部分を取得するために利用することができる。例えば、メディアアイテム６２７に関連付けられた「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎの映画」のカテゴリは、第４の結果の一部分を取得するために利用することができ、得られた部分は、ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ及びＬｕｋｅＷｉｌｓｏｎの両者が主演するメディアアイテムを含むことができる。別の実施例では、メディアアイテム６２７は冒険映画であることができ、それゆえ、第４の結果の一部分は、ＬｕｋｅＷｉｌｓｏｎ主演の冒険映画であるメディアアイテムを含むことができる。

プロセス５００のブロック５９２において、第４の結果の一部分を表示することができる。第３のユーザインターフェースを表示している間に第６のユーザ入力が検出される実施例では、第３のユーザインターフェース内に第４の結果の部分を表示することができる。例えば、図６Ｑに示されるように、第４の結果の部分は、メディアアイテム６７０の後続の段内に表示されるメディアアイテム６７２を含むことができる。メディアアイテム６７２は、第２のユーザ要求及び／又はユーザ要求内で限定された属性又はパラメータ（例えば、ロマンチックコメディー、ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ、及びＬｕｋｅＷｉｌｓｏｎ）のうちの１つ以上に関連付けられていることができる。例えば、メディアアイテム６７２は、ＬｕｋｅＷｉｌｓｏｎ主演のロマンチックコメディーであるメディアアイテム６７６、並びにＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ及びＬｕｋｅＷｉｌｓｏｎの両者が主演のロマンチックコメディーであるメディアアイテム６７４を含むことができる。メディアアイテムの各セット（例えば、メディアアイテム６７４、６７６）は、テキストヘッダ（例えば、テキストヘッダ６８０、６８２）でラベル付けすることができる。テキストヘッダは、メディアアイテムのそれぞれのセットに関連付けられた１つ以上の属性又はパラメータを説明することができる。テキストヘッダは自然言語形式のものであってもよい。更に、各テキストヘッダは、ユーザによってデジタルアシスタントに提供されると、デジタルアシスタントに、同様の属性を有するメディアアイテムの同様のセットを取得させることができる、例示的なユーザ発言であることができる。

上述されたように、「ＬｕｋｅＷｉｌｓｏｎ」という第２のユーザ発言は、２つの可能性のあるユーザ意図、新たなメディア検索を実行するという第１のユーザ意図、又は以前のユーザ要求の結果を絞り込むという第２のユーザ意図、に関連付けられることができる。表示されたメディアアイテム６７０は第１のユーザ意図を満足することができ、表示されたメディアアイテム６７４は第２のユーザ意図を満足することができる。本実施例では、メディアアイテム６７０及び６７４は最も上の２つの段内に表示される。このように、第２のユーザ要求に関連付けられた２つの最も可能性の高いユーザ意図（例えば、新たな検索、又は以前の検索の絞り込み）のための結果を第３のユーザインターフェース６２６内において目立つように（例えば、最も上の２つの段）表示することができる。これは、消費するべき所望のメディアアイテムを見つけるまでの第３のユーザインターフェース内におけるユーザによるスクロール又はブラウズを最小限に抑えるために望ましくなり得る。スクロール及びブラウズを最小限に抑えるためにメディアアイテム６７０及び６７４を第３のユーザインターフェース６２６内で目立つように表示する仕方は様々あり得ることを認識されたい。

図７Ａ〜図７Ｃは、様々な実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセス７００を示す。プロセス７００は、デジタルアシスタントを実装する１つ以上の電子デバイスを用いて実行することができる。例えば、プロセス７００は、上述された、システム１００、メディアシステム１２８、メディアデバイス１０４、ユーザデバイス１２２、又はデジタルアシスタントシステム４００のうちの１つ以上を用いて実行することができる。図８Ａ〜図８Ｗは、様々な実施例に係る、プロセス７００の様々な段階においてメディアデバイスによって表示ユニット上に表示されるスクリーンショットを示す。プロセス７００は、以下において図７Ａ〜図７Ｃと図８Ａ〜図８Ｗを同時に参照して説明される。プロセス７００内のいくつかの動作は組み合わせることができ、いくつかの動作の順序は変更することができ、いくつかの動作は省略することができることを理解されたい。

プロセス７００のブロック７０２において、表示ユニット（例えば、表示ユニット１２６）上にコンテンツを表示することができる。ブロック７０２は、上述されたブロック５０２と同様又は同一であることができる。図８Ａを参照すると、表示されたコンテンツは、メディアデバイス（例えば、メディアデバイス１０４）上で再生されているメディアコンテンツ８０２（例えば、映画、ビデオ、テレビ番組、ビデオゲームなど）を含むことができる。他の実施例では、表示されたコンテンツは、メディアデバイス上で実行中のアプリケーションに関連付けられたコンテンツ、又はメディアデバイスのデジタルアシスタントと対話するためのユーザインターフェースなどの、他のコンテンツを含むことができる。具体的には、表示されたコンテンツは、メインメニューユーザインターフェース、又はユーザによって以前に要求されたオブジェクト若しくは結果を有するユーザインターフェースを含むことができる。

プロセス７００のブロック７０４において、ユーザ入力を検出することができる。ブロック７０４は、上述されたブロック５０４と同様又は同一であることができる。ユーザ入力は、メディアデバイスのデジタルアシスタントを呼び出すために用いることができる。いくつかの実施例では、ユーザ入力は、ブロック７０２のコンテンツが表示されている間に検出することができる。ユーザ入力は、メディアデバイスの遠隔制御装置（例えば、遠隔制御装置１２４）上で検出することができる。例えば、ユーザ入力は、プロセス５００のブロック５１６において説明された第２の入力形式に対応することができる。具体的には、ブロック７０４のユーザ入力は、メディアデバイスの遠隔制御装置上の特定のボタンを押下し、ボタンを所定の期間よりも長い間、押さえておくこと（例えば、長押し）を含むことができる。ユーザ入力を検出したことに応じて、ブロック７０６〜７４６のうちの１つ以上を実行することができる。

プロセス７００のブロック７０６において、音声データをサンプリングすることができる。ブロック７０６は、上述されたブロック５１８と同様又は同一であることができる。サンプリングされた音声データはユーザ発言を含むことができる。ユーザ発言は、メディアデバイスのデジタルアシスタントに向けられたユーザ要求を表現することができる。例えば、図８Ａに示される実施例を参照すると、サンプリングされた音声データは、「パリは何時ですか？」というユーザ発言を含むことができる。ユーザ発言は、構造化されていない自然言語の形態のものであることができる。いくつかの実施例では、ユーザ発言によって表現される要求は、指定が不完全であり得る。この場合には、ユーザ発言（例えば、「これを再生してください」）内には、要求を実行するために必要な情報が欠けているか、又は明示的に限定されていない。他の実施例では、ユーザ発言は明示的な要求ではなく、むしろ、要求が推測される間接的な質問又は陳述（例えば、「彼は何と言いましたか？」）であってもよい。更に、以下においてブロック７１２においてより詳細に説明されるように、ユーザ発言は１つ以上の曖昧な用語を含むことができる。

プロセス７００のブロック７０８において、サンプリングされた音声データ内のユーザ発言のテキスト表現を決定することができる。ブロック７０８は、上述されたブロック５２２と同様又は同一であることができる。具体的には、テキスト表現は、サンプリングされた音声データ内のユーザ発言に対してＳＴＴ処理を実行することによって決定することができる。例えば、図８Ａを参照すると、テキスト表現８０４「パリは何時ですか？」が、サンプリングされた音声データ内のユーザ発言から決定され、表示ユニット上に表示されることができる。図示のように、テキスト表現８０４は、メディアコンテンツ８０２がメディアデバイス上で再生し続けている間にメディアコンテンツ８０２の上に重ね合わせることができる。

いくつかの実施例では、テキスト表現を決定するために用いられるＳＴＴ処理を、メディア関連のテキスト結果へ偏向させることができる。加えて、又は代替的に、テキスト表現は、音声データをサンプリングする前にメディアデバイスによって受信された以前のユーザ発言に基づくことができる。更に、いくつかの実施例では、テキスト表現は、音声データをサンプリングする前に以前のユーザ発言が受信された時間に基づくことができる。テキスト表現が別個のデバイス（例えば、ＤＡサーバ１０６）から取得される実施例では、メディアデバイスは、別個のデバイスに、サンプリングされた音声データがメディアアプリケーションに関連付けられていることを指示することができ、この指示は、別個のデバイス上におけるＳＴＴ処理をメディア関連のテキスト結果へ偏向させることができる。

プロセス７００のブロック７１０において、ユーザ発言に対応するユーザ意図を決定することができる。ブロック７１０は、上述されたブロック５２６と同様であることができる。具体的には、（例えば、自然言語処理モジュール４３２による）自然言語処理を用いてブロック７０８のテキスト表現を処理し、ユーザ意図を導き出すことができる。例えば、図８Ａを参照すると、テキスト表現８０４「パリは何時ですか？」から、ユーザ意図は、「パリ」という名前のロケーション内の時間を要求することであると決定することができる。ユーザ意図を決定するために用いられる自然言語処理は、メディア関連のユーザ意図へ偏向させることができる。ユーザ意図が別個のデバイス（例えば、ＤＡサーバ１０６）から取得される実施例では、メディアデバイスは、別個のデバイスに、サンプリングされた音声データがメディアアプリケーションに関連付けられていることを指示することができ、この指示は、別個のデバイス上における自然言語処理をメディア関連のユーザ意図へ偏向させることができる。

いくつかの実施例では、ユーザ意図は、サンプリングされた音声データ内のユーザ発言から導き出された韻律情報に基づいて決定することができる。具体的には、ユーザ発言から韻律情報（例えば、調性、リズム、音量、強勢、抑揚、速度など）を導き出し、ユーザの態度、気分、情動、又は感情を判定することができる。次に、ユーザの態度、気分、情動、又は感情からユーザ意図を決定することができる。例えば、サンプリングされた音声データはユーザ発言「彼は何と言いましたか？」を含むことができる。本実施例では、ユーザ発言内で検出された高い音量及び強勢に基づいて、ユーザはいらいらしているか、又は欲求不満であると判定することができる。ユーザ発言及び判定されたユーザの感情に基づいて、ユーザ意図は、メディアデバイス上で再生されているメディアコンテンツに関連付けられた音声の音量を上げよとの要求を含むと決定することができる。

図７Ａに示されるように、ブロック７１０はブロック７１２〜７１８のうちの１つ以上を含むことができる。具体的には、２つ以上のユーザ意図の蓋然性が高いことが分かり、自然言語処理モジュールが２つ以上のユーザ意図を単一のユーザ意図に絞り込むことができない場合には、ブロック７１２〜７１８のうちの１つ以上を実行することができる。例えば、このような状況は、ユーザ発言が、入手可能なコンテクスト情報に基づいて曖昧性を除去することができない曖昧な用語を包含する場合に生じ得る。

プロセス７００のブロック７１２において、ユーザ発言（又はユーザ発言のテキスト表現）が曖昧な用語を含むかどうかに関する判定を行うことができる。判定は、ユーザ意図を決定するための（例えば、自然言語処理モジュール４３２を用いた）自然言語処理の最中に行うことができる。曖昧な用語は、１つを超える可能な解釈を有する単語又はフレーズであることができる。例えば、図８Ａを参照すると、ユーザ発言「パリは何時ですか？」内の用語「パリ」は、フランス内のパリ市、又はテキサス、米国内のパリ市と解釈することができる。それゆえ、ユーザ発言内の用語「パリ」は、曖昧な用語であると判定することができる。

いくつかの実施例では、潜在的に曖昧な用語の曖昧性を除去するために、コンテクスト情報が（例えば、デジタルアシスタントによって）引き出されることができる。曖昧性除去が成功した場合には、ユーザ発言は曖昧な用語を含まないと判定することができる。例えば、メディアコンテンツ８０２は、パリ、フランスをその設定として有する映画（例えば、「Ｒａｔａｔｏｕｉｌｌｅ」）であり、それゆえ、ユーザはパリ、テキサスよりもパリ、フランスに言及している可能性が高いと判定することができる。本実施例では、用語「パリ」は、パリ、フランスを指すように曖昧性をうまく除去することができ、それゆえ、ユーザ発言は曖昧な用語を含まないと判定することができる。

別の実施例では、ユーザ発言は「これを再生してください」であることができる。本実施例では、ユーザ発言は、再生されるべき特定のメディアアイテムを明示的に限定せず、それゆえ、用語「これ（this）」は、単独で解釈されると、メディアデバイスが利用できる任意のメディアアイテムを指すことができるであろう曖昧な用語であることができる。用語は、メディアデバイスによって表示ユニット上に表示されたコンテクスト情報を用いて曖昧性を除去することができる。例えば、デジタルアシスタントは、表示されたユーザインターフェースのフォーカスがメディアアイテム上にあるかどうかを判定することができる。ユーザインターフェースのフォーカスがメディアアイテム上にあるとの判定に従って、デジタルアシスタントは用語「これ（this）」の曖昧性を除去し、用語は、表示されたユーザインターフェースがフォーカスされているメディアアイテムを指すと判定することができる。この判定に基づいて、ブロック７１２において、ユーザ発言は曖昧な用語を含まないと判定することができる。それゆえ、ユーザ意図は、表示されたユーザインターフェースがフォーカスされているメディアアイテムを再生せよとの要求であると決定することができる。

用語の曖昧性を除去することができない実施例では、ブロック７１２において、ユーザ発言が曖昧な用語を包含するとの判定を行うことができる。ユーザ発言が曖昧な用語を含むと判定したことに応じて、ブロック７１４〜７１８のうちの１つ以上を実行することができる。プロセス７００のブロック７１４において、曖昧な用語に基づいて２つ以上のユーザ意図の候補を取得することができる。２つ以上のユーザ意図の候補は、曖昧性を除去することができないユーザ発言から決定された最も可能性の高いユーザ意図の候補であることができる。図８Ａに示される実施例を参照すると、２つ以上のユーザ意図の候補は、パリ、フランスにおける時間を要求するという第１のユーザ意図の候補、及びパリ、テキサスにおける時間を要求するという第２のユーザ意図の候補を含むことができる。

プロセス７００のブロック７１６において、表示ユニット上に２つ以上のユーザ意図の候補をユーザ選択のために表示することができる。例えば、図８Ｂを参照すると、第１のユーザ意図の候補８１０及び第２のユーザ意図の候補８０８を表示することができる。更に、ユーザに、第１のユーザ意図の候補８１０と第２のユーザ意図の候補８０８との間で選択することによって、ユーザ発言に対応する実際のユーザ意図を指示するように促すためのテキストプロンプト８０６を提供することができる。テキストプロンプト８０６、第１のユーザ意図の候補８１０及び第２のユーザ意図の候補８０８は、メディアコンテンツ８０２上に重ね合わせることができる。

プロセス７００のブロック７１６において、２つ以上のユーザ意図の候補のうちの１つのユーザ選択を受信することができる。いくつかの実施例では、ユーザ選択は、ユーザ意図の候補のうちの１つに対応するアフォーダンスの選択を介して受信することができる。具体的には、図８Ｂに示されるように、２つ以上のユーザ意図の候補（８１０、８０８）の各々は、選択可能なアフォーダンスとして表示ユニット上に表示することができる。メディアデバイスは、ユーザから、ディスプレイのフォーカスをアフォーダンスのうちの１つへ変更するための入力を（例えば、メディアデバイスの遠隔制御装置を介して）受信することができる。その後、そのアフォーダンスに対応するユーザ意図の候補のユーザ選択を（例えば、メディアデバイスの遠隔制御装置を介して）受信することができる。例えば、図８Ｂに示されるように、メディアデバイスは、カーソル８１２を、第１のユーザ意図の候補８１０（例えば、パリ、フランス）に対応するアフォーダンスの上に移動させるためのユーザ入力を受信することができる。その後、第１のユーザ意図の候補８１０のユーザ選択を受信することができる。

他の実施例では、ユーザ選択はデジタルアシスタントとの音声対話を介して受信することができる。例えば、２つ以上のユーザ意図の候補を表示している間に、第２のユーザ入力を検出することができる。第２のユーザ入力はブロック７０４のユーザ入力と同様又は同一であることができる。具体的には、第２のユーザ入力は、デジタルアシスタントを呼び出すための入力（例えば、メディアデバイスの遠隔制御装置上の特定のボタンを押下し、ボタンを所定の期間よりも長い間、押さえておくこと）であることができる。第２のユーザ入力を検出したことに応じて、第２の音声データをサンプリングすることができる。第２の音声データは、２つ以上の解釈のうちの１つのユーザ選択を表現する第２のユーザ発言を含むことができる。例えば、図８Ｃを参照すると、第２の音声データは、第２のユーザ発言「パリ、フランス」を含むことができる。図示のように、表示ユニット上に第２のユーザ発言「パリ、フランス」のテキスト表現８１４を表示することができる。本実施例では、第２のユーザ発言「パリ、フランス」は第１のユーザ意図の候補８１０（例えば、パリ、フランス）のユーザ選択を表現することができる。第２のユーザ発言「パリ、フランス」に基づいて、第１のユーザ意図の候補８１０が、ユーザ発言「パリは何時ですか？」に対応する実際のユーザ意図であると決定することができるそれゆえ、ブロック７１０において、ユーザ意図は、パリ、フランスにおける時間を要求することであると決定することができる。受信されたユーザ選択に基づいてユーザ意図を決定すると、ブロック７２０〜７４６のうちの１つ以上を実行することができる。

いくつかの実施例では、ブロック７１０〜７１８は、メディアデバイスから発語を出力することなく実行することができる。具体的には、テキストプロンプト８０６及びユーザ意図の候補８０８、８１０は、２つ以上のユーザ意図の候補８０８、８１０に関連付けられた発語を出力することなく表示することができる。それゆえ、ユーザからの入力は発語の形式で受信するがことができるが、デジタルアシスタントの出力は表示ユニット上においてユーザに視覚的に（及び音声の形式によらずに）提示することができる。これは、メディアコンテンツを消費することに関連付けられる共用エクスペリエンスを保つために望ましくなり得、これにより、メディアデバイスのユーザエクスペリエンスを改善することができる。

ブロック７１２を再び参照すると、ユーザ発言が曖昧な用語を含まないと判定したことに応じて、ブロック７２０〜７４６のうちの１つ以上を実行することができる。プロセス７００の７２０のブロックにおいて、ユーザ意図が、メディアデバイスに関連付けられた複数の中核能力のうちの１つに対応するかどうかに関する判定を行うことができる。例えば、メディアデバイスは、例えば、メディアアイテムを検索すること、メディアアイテムを再生すること、並びにメディアアイテム、天気、株価、及びスポーツに関連する情報を提供することなどの、いくつかの所定の中核能力に関連付けられていることができる。ユーザ意図が、いくつかの所定の中核能力のうちの１つに関連するタスクを実行することを伴う場合には、ユーザ意図は、いくつかの所定の中核能力のうちの１つに対応すると判定することができる。例えば、ユーザ意図がＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のメディアアイテムの要求である場合には、ユーザ意図は、いくつかの所定の中核能力のうちの１つに対応すると判定することができる。ユーザ意図が、電子デバイスに関連付けられた複数の中核能力のうちの１つに対応すると判定したことに応じて、ブロック７２４〜７４６のうちの１つ以上を実行することができる。

逆に、ユーザ意図が、いくつかの所定の中核能力のうちの１つ以外のタスクを実行することを伴う場合には、ユーザ意図は、いくつかの所定の中核能力のうちの１つに対応しないと判定することができる。例えば、ユーザ意図が地図案内の要求である場合には、ユーザ意図は、いくつかの所定の中核能力のうちの１つに対応しないと判定することができる。ユーザ意図が、電子デバイスに関連付けられた複数の中核能力のうちの１つに対応しないと判定したことに応じて、ブロック７２２を実行することができる。

プロセス７００のブロック７２２において、第２の電子デバイス（例えば、デバイス１２２）に、ユーザ意図を少なくとも部分的に満足させることができる。具体的には、第２の電子デバイスに、ユーザ意図を満足することを助成するためのタスクを実行させることができる。一実施例では、メディアデバイスが、地図案内を要求するというユーザ意図を満足するように構成されていないと判定することができ、それゆえ、ユーザ意図は、ユーザ意図を満足するために第２の電子デバイスへ伝送することができる。本実施例では、第２のユーザデバイスは、要求された地図案内を表示するタスクを実行することができる。他の実施例では、第２の電子デバイスに、ユーザ意図を満足することを助成するためのタスクを実行させるべく、ユーザ意図以外の情報を第２の電子デバイスへ伝送することができる。例えば、メディアデバイスのデジタルアシスタントは、ユーザ意図を満足するためのタスクフロー又は構造化されたクエリを（例えば、自然言語処理モジュール４３２又はタスクフロー処理モジュール４３６を用いて）決定することができ、タスクフロー又は構造化されたクエリは第２の電子デバイスへ伝送されることができる。その後、第２の電子デバイスは、ユーザ意図を満足することを助成するためのタスクフロー又は構造化されたクエリを実行することができる。

以下に提供される説明において明らかになるように、ユーザ意図を満足することに関連付けられる侵入性レベルは、ユーザ意図の性質に基づくことができる。場合によっては、ディスプレイ上にいかなる追加の応答又は出力を表示することもなく、ユーザ意図を満足することに関連付けられたタスクを実行することができる（例えば、ブロック７２６）。他の場合には、ユーザ意図を満足するために、テキスト応答のみ（例えば、対応する視覚出力又は音声出力を有しない）を提供する（例えば、ブロック７３２）。更に他の場合には、ユーザ意図を満足するために、関連性のある結果を有するユーザインターフェースを表示することができる（例えば、ブロック７３８、７４２、又は７４６）。ユーザインターフェースは、表示ユニットの過半又は過半未満を占有することができる。したがって、プロセス７００は、ユーザ意図の性質に依存して出力の侵入性レベルをインテリジェントに調整することができる。これは、メディアコンテンツの消費の最中における望ましくない中断を低減させつつ、デジタルアシスタントのサービスへの便利なアクセスを可能にする。これにより、全体的なユーザエクスペリエンスが改善される。

プロセス７００のブロック７２４において、ユーザ意図が、メディアデバイス上のアプリケーションの状態又は設定を調整せよとの要求を含むかどうかに関する判定を行うことができる。ユーザ意図が、メディアデバイス上のアプリケーションの状態又は設定を調整せよとの要求を含むと判定したことに応じて、ブロック７２６を実行することができる。プロセス７００のブロック７２６において、アプリケーションの状態又は設定を、ユーザ意図を満足するように調整することができる。

いくつかの実施例では、状態又は設定は、メディアデバイス上で再生されている、表示されたメディアコンテンツに関連付けられていることができる。例えば、アプリケーションの状態又は設定を調整せよとの要求は、メディアデバイスによるメディアコンテンツの再生を制御せよとの要求を含むことができる。具体的には、それは、メディアデバイス上における表示されたメディアコンテンツの再生を一時停止せよ、再開せよ、再スタートせよ、停止せよ、巻き戻せ、又は早送りせよとの要求を含むことができる。それはまた、メディアコンテンツの所望の部分を再生するために、メディアコンテンツ内で（例えば、指定された期間だけ）前方又は後方に飛べとの要求を含むことができる。更に、アプリケーションの状態又は設定を調整せよとの要求は、表示されたメディアコンテンツに関連付けられた（例えば、指定された言語による）字幕若しくはクローズドキャプションをオン／オフにせよ、表示されたメディアコンテンツに関連付けられた音声の音量を上げよ／下げよ、表示されたメディアコンテンツに関連付けられた音声を消音せよ／消音解除せよ、又は表示されたメディアコンテンツが再生される速度を加速せよ／減速せよとの要求を含むことができる。

図８Ｅ〜図８Ｆは、メディアデバイスによるメディアコンテンツの再生を制御せよとの要求を含むユーザ意図の例示の実施例を示す。本実施例では、メディアコンテンツ８０２を再生している間にデジタルアシスタントを（例えば、ブロック７０４において）呼び出すことができる。メディアコンテンツは、最初、字幕を表示することなく表示することができる。（例えば、ブロック７０６において）サンプリングされた音声データは、ユーザ発言「英語字幕をオンにしてください」を包含することができる。図８Ｅに示されるように、表示ユニット上にユーザ発言のテキスト表現８１６を表示することができる。このユーザ発言に基づいて、ブロック７１０において、ユーザ意図が、メディアコンテンツ８０２のための英語字幕の表示をオンにせよとの要求を含むと決定することができる。更に、ブロック７２４において、このユーザ意図が、電子デバイスのアプリケーションの状態又は設定を調整せよとの要求であると判定することができる。この判定に応じて、メディアコンテンツ８０２のための英語字幕をオンにすることができる。図８Ｆにおけるラベル８１７によって表現されるように、ユーザ意図を満足するために、メディアコンテンツ８０２に関連付けられた英語字幕の表示を開始することができる。

図８Ｇ〜図８Ｈに示される別の例示の実施例では、サンプリングされた音声データ内のユーザ発言は、ユーザが、メディアコンテンツに関連付けられた音声の一部分が聞こえなかったことを指示する自然言語表現であることができる。具体的には、図８Ｇにおけるテキスト表現８２０によって示されるように、ユーザ発言は「彼は何と言いましたか？」であることができる。本実施例では、ユーザ意図が、ユーザが聞こえなかった音声の部分に対応するメディアコンテンツの一部分を再生し直せとの要求を含むと（例えば、ブロック７１０において）決定することができる。また、ユーザ意図が、メディアコンテンツに関連付けられた音声の聞こえにくさを支援するためのクローズドキャプションをオンにせよとの要求を含むと決定することもできる。更に、ユーザ発言内の韻律情報に基づいて、ユーザは欲求不満であるか、又はいらいらしていると判定することができ、それゆえ、ユーザの感情に基づいて、ユーザ意図が、メディアコンテンツに関連付けられた音声の音量を上げよとの要求を含むと決定することができる。ブロック７２４において、これらのユーザ意図が、電子デバイスのアプリケーションの状態又は設定を調整せよとの要求であると判定することができる。この判定に応じて、（例えば、図８Ｈにおけるラベル８２２によって表現されるように）メディアコンテンツを、メディアコンテンツの以前の部分まで所定の期間（例えば、１５秒）だけ巻き戻すことができ、メディアコンテンツの再生をこの以前の部分から再スタートすることができる。加えて、メディアコンテンツの再生を以前の部分から再スタートする前に、（例えば、図８Ｈにおけるラベル８２４によって表現されるように）クローズドキャプションをオンにすることができる。更に、メディアコンテンツの再生を以前の部分から再スタートする前に、メディアコンテンツに関連付けられた音声の音量を上げることができる。

メディアコンテンツに関連付けられたクローズドキャプション又は字幕は、サービスプロバイダ（例えば、ケーブルプロバイダ又はメディア購読サービス）から取得することができることを理解されたい。しかし、クローズドキャプション又は字幕がサービスプロバイダから入手可能でない実施例では、メディアデバイスが、メディアコンテンツに関連付けられた音声の聞こえにくさを支援するために、クローズドキャプション又は字幕を生成することができる。例えば、サンプリングされた音声データ内のユーザ発言を受信する前に、及びメディアコンテンツが再生している間に、メディアコンテンツに関連付けられた音声内の発語を（例えば、ＳＴＴ処理モジュール７３０を用いて）テキストに継続的に変換し、メディアコンテンツと関連して記憶することができる。ユーザが聞こえなかったメディアコンテンツの以前の部分を再生し直せとのユーザ要求に応じて、メディアコンテンツの以前の部分を再生し直している間に、再生し直されている以前の部分に対応するテキストを引き出し、表示することができる。

いくつかの実施例では、表示されたメディアコンテンツに関連付けられた状態又は設定は、調整を実行するための追加のユーザインターフェースを表示することなく、あるいは状態又は設定が調整されていることの確認を表現するテキスト又はグラフィックを全く提供することなく、調整することができる。例えば、図８Ｅ〜図８Ｈの図示の実施例では、字幕（又はクローズドキャプション）は、「字幕をオンにしました」などのテキストを明示的に表示することなく、又は字幕の表示を制御するためのユーザインターフェースを表示することなく、単純にオンにすることができる。更に、状態又は設定は、ユーザ意図を満足することに関連付けられた音声を全く出力することなく調整することができる。例えば、図８Ｅ〜図８Ｈでは、字幕（又はクローズドキャプション）は、字幕がオンにされたことを確認する音声（例えば、発語又は非言語音声信号）を出力することなく、オンにすることができる。それゆえ、要求されたアクションは、メディアコンテンツの追加的な聴覚的又は視覚的中断を伴うことなく、単純に実行することができる。このように、プロセス７００は、デジタルアシスタントのサービスへの便利なアクセスを提供しつつ、メディアコンテンツのユーザの消費の中断を最小限に抑えることができ、これにより、ユーザエクスペリエンスが改善される。

他の実施例では、メディアデバイス上のアプリケーションの状態又は設定を調整せよとの要求は、メディアデバイスのユーザインターフェース（例えば、第２のユーザインターフェース８１８、第３のユーザインターフェース８２６、又はメインメニューユーザインターフェース）内をナビゲートせよとの要求を含むことができる。一実施例では、ユーザインターフェース内をナビゲートせよとの要求は、ユーザインターフェースのフォーカスを第１のオブジェクト（例えば、第１のメディアアイテム）からユーザインターフェース内の第２のオブジェクト（例えば、第２のメディアアイテム）へ切り換えよとの要求を含むことができる。図８Ｉ〜図８Ｋはこのような要求の１つの例示の実施例を示す。図８Ｉに示されるように、表示されたコンテンツは、様々なカテゴリ（例えば、「ロマンチックコメディー」、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディー」、及び「ＬｕｋｅＷｉｌｓｏｎの映画」）に整理された複数のメディアアイテムを有する第３のユーザインターフェース８２６を含むことができる。カーソル８２８の位置によって指示されるように、第３のユーザインターフェース８２６のフォーカスは、「ロマンチックコメディー」のカテゴリの下にある第１のメディアアイテム８３０上にあることができる。第２のメディアアイテム８３２は「ＬｅｇａｌｌｙＢｌｏｎｄｅ」というタイトルを有することができ、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディー」のカテゴリの下に位置付けられていることができる。図８Ｊにおけるテキスト表現８３４によって示されるように、（例えば、ブロック７０６において）サンプリングされた音声データ内のユーザ発言は、「ＬｅｇａｌｌｙＢｌｏｎｄｅへ行ってください」であることができる。このユーザ発言に基づいて、ユーザ意図が、第３のユーザインターフェース８２６のフォーカスを第１のメディアアイテム８３０から、「ＬｅｇａｌｌｙＢｌｏｎｄｅ」というタイトルを有する第２のメディアアイテム８３２へ切り換えよとの要求であると（例えば、ブロック７１０において）決定することができる。このユーザ意図が、電子デバイスのアプリケーションの状態又は設定を調整せよとの要求であると（例えば、ブロック７２４において）判定したことに応じて、第３のユーザインターフェース８２６のフォーカスを第１のメディアアイテム８３０から第２のメディアアイテム８３２へ切り換えることができる。例えば、図８Ｋに示されるように、カーソル８２８の位置を第１のメディアアイテム８３０から第２のメディアアイテム８３２へ変更することができる。

別の実施例では、ユーザインターフェース内をナビゲートせよとの要求は、ユーザインターフェースのフォーカスを、ユーザインターフェース内に表示されている結果の特定のカテゴリへ変更せよとの要求を含むことができる。例えば、図８Ｉは、「ロマンチックコメディー」、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディー」、及び「ＬｕｋｅＷｉｌｓｏｎの映画」のカテゴリに関連付けられたメディアアイテムを含む。「ＬｅｇａｌｌｙＢｌｏｎｄｅへ行ってください」ではなく、サンプリングされた音声データ内のユーザ発言は、代わりに、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーに飛んでください」であることができる。このユーザ発言に基づいて、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディー」は、第３のユーザインターフェース８２６内に表示されているメディアアイテムのカテゴリを限定していると（例えば、ブロック７１０において）決定することができ、それゆえ、ユーザ意図は、ユーザインターフェースのフォーカスを、そのカテゴリに関連付けられた１つ以上のメディアアイテムへ変更せよとの要求であると決定することができる。このユーザ意図が、電子デバイスのアプリケーションの状態又は設定を調整せよとの要求であると（例えば、ブロック７２４において）判定したことに応じて、第３のユーザインターフェース８２６のフォーカスを、カテゴリに関連付けられた１つ以上のメディアアイテムへシフトさせることができる。例えば、図８Ｋに示されるように、カーソル８２８の位置を、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディー」に関連付けられた第２のメディアアイテム８３２へシフトさせることができる。

更に他の実施例では、メディアデバイスのユーザインターフェース内をナビゲートせよとの要求は、ユーザインターフェース内のオブジェクトを選択せよとの要求を含むことができる。オブジェクトの選択は、オブジェクトに関連付けられたアクションを実行させることができる。例えば、図８Ｋに示されるように、カーソル８２８の位置は、「ＬｅｇａｌｌｙＢｌｏｎｄｅ」というタイトルを有する第２のメディアアイテム８３２上にある。図８Ｌに示されるように、（例えば、ブロック７０４において）デジタルアシスタントを呼び出すことができ、（例えば、ブロック７０６において）サンプリングされた音声データ内のユーザ発言は、（例えば、テキスト表現８３６として表示された）「これを再生してください」であることができる。このユーザ発言に基づいて、ユーザ意図が、特定のメディアアイテムを再生せよとの要求であると（例えば、ブロック７１０において）決定することができる。本実施例では、ユーザ発言は、再生されるべき特定のメディアアイテムを明示的に限定又は特定していない。具体的には、単語「これ（this）」が曖昧である。しかし、デジタルアシスタントは、ユーザ意図の曖昧性を除去するためのコンテクスト情報を取得することができる。例えば、音声データがサンプリングされた時点において、第３のユーザインターフェース８２６のフォーカスが第２のメディアアイテム８３２上にあると判定することができる。この判定に基づいて、第２のメディアアイテム８３２を、再生されるべきメディアアイテムとして特定することができる。第２のメディアアイテム８３２を再生するというユーザ意図が、電子デバイスのアプリケーションの状態又は設定を調整せよとの要求であると（例えば、ブロック７２４において）判定したことに応じて、第２のメディアアイテム８３２を再生することを助成するためのアクションを実行することができる。例えば、表示ユニット上に、第２のメディアアイテム８３２に関するプレビュー情報を表示することができる。プレビュー情報は、例えば、筋の概要、出演者のリスト、公開データ、ユーザ格付け、及び同様のものを含むことができる。加えて、又は代替的に、メディアデバイス上で第２のメディアアイテム８３２を再生することができ、表示ユニット上に、第２のメディアアイテム８３２に関連付けられたメディアコンテンツを表示することができる（例えば、図８Ｍにおけるテキスト８３８「ＬｅｇａｌｌｙＢｌｏｎｄｅ再生中」によって表現される。他の実施例では、選択されるべきメディアアイテムを明示的に特定することができることを認識されたい。例えば、「これを再生してください」ではなく、ユーザ発言は、「ＬｅｇａｌｌｙＢｌｏｎｄｅを再生してください」と具体的に述べることができ、第２のメディアアイテム８３２を再生することを助成するための同様のアクションが実行されることができる。

更に他の実施例では、メディアデバイスのユーザインターフェース内をナビゲートせよとの要求は、メディアデバイスの特定のユーザインターフェース又はアプリケーションを閲覧せよとの要求を含むことができる。例えば、サンプリングされた音声データ内のユーザ発言は、「俳優ページへ行ってください」であることができる。この場合には、ユーザ意図は、特定の俳優に係るメディアアイテムのためのブラウジングに関連付けられたユーザインターフェースを表示せよとの要求を含む。別の実施例では、サンプリングされた音声データ内のユーザ発言は、「ホームページに連れて行ってください」であることができる。この場合には、ユーザ意図は、メディアデバイスのメインメニューユーザインターフェースを表示せよとの要求を含む。更に別の実施例では、メディアデバイスのユーザインターフェース内をナビゲートせよとの要求は、電子デバイス上のアプリケーションを起動せよとの要求を含むことができる。例えば、サンプリングされた音声データ内のユーザ発言は、「ｉＴｕｎｅｓストアへ行ってください」であることができる。この場合には、ユーザ意図は、ｉＴｕｎｅｓストアアプリケーションを起動せよとの要求を含む。メディアデバイス上のアプリケーションの状態又は設定を調整するための他の要求を企図することもできることを認識されたい。

ブロック７２４を再び参照すると、ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含まないと判定することができる。例えば、ユーザ意図は、代わりに、１つ以上のメディアアイテムに関連する情報を提示せよとの要求であることができる。このような判定に応じて、ブロック７２８〜７４６のうちの１つ以上を実行することができる。プロセス７００のブロック７２８において、ユーザ意図が複数の所定の要求種別のうちの１つであるかどうかに関する判定を行うことができる。いくつかの実施例では、複数の所定の要求種別は、テキストのみの応答に関連付けられた要求であることができる。より具体的には、複数の所定の要求種別は、テキストのみの応答を必要とするようにあらかじめ決められた情報の要求であることができる。これは、メディアオブジェクト（例えば、画像、アニメーションオブジェクト、ビデオなど）を含む応答を必要とするようにあらかじめ決められた要求と対照的である。いくつかの実施例では、複数の所定の要求種別は、特定のロケーションにおける現在の時間の要求（例えば、「パリは何時ですか？）、ジョークを提示せよとの要求（例えば、「面白いジョークを言ってください。」）、又は電子デバイス上で現在再生されているメディアコンテンツに関する情報の要求（例えば、「この映画はいつ公開されましたか？」）を含むことができる。ユーザ意図が複数の所定の要求種別のうちの１つであると判定したことに応じて、ブロック７３０〜７３２のうちの１つ以上を実行することができる。

プロセス７００のブロック７３０において、ユーザ意図を少なくとも部分的に満足する結果を取得することができる。例えば、結果は、タスクフローを実行することによって外部サービス（例えば、外部サービス１２０）から取得することができる。プロセス７００のブロック７３２において、表示ユニット上に、ブロック７３０において取得された結果をテキスト形式で表示することができる。更に、結果は、対応するグラフィック、又は結果に対応するメディア関連アイテムを全く表示することなく、テキスト形式で表示することができる。

図８Ｍ〜図８Ｐはブロック７２８〜７３２の例示の実施例を示す。図８Ｍに示されるように、映画「ＬｅｇａｌｌｙＢｌｏｎｄｅ」がメディアデバイス上で最初に再生中であり、表示ユニット上に表示されていることができる。「ＬｅｇａｌｌｙＢｌｏｎｄｅ」を再生している間に、デジタルアシスタントを（例えば、ブロック７０４において）呼び出すことができ、サンプリングされた音声データ内のユーザ発言は「主演女優は誰ですか？」であることができる。例えば、図８Ｎに示されるように、表示ユニット上にユーザ発言のテキスト表現８４０を表示することができる。このユーザ発言に基づいて、ユーザ意図が、特定のメディアアイテムの主演女優を特定せよとの要求を含むと（例えば、ブロック７１０において）決定することができる。ユーザ発言はいかなる特定のメディアアイテムも指定していないため、ユーザ意図は曖昧であり得る。しかし、音声データがサンプリングされた時点において映画「ＬｅｇａｌｌｙＢｌｏｎｄｅ」が表示されていたことに基づいて、ユーザ意図に関連付けられたメディアアイテムが「ＬｅｇａｌｌｙＢｌｏｎｄｅ」であると決定することができる。本実施例では、ユーザ意図が複数の所定の要求種別のうちの１つであると（例えば、ブロック７２８において）判定することができる。具体的には、ＬｅｇａｌｌｙＢｌｏｎｄｅにおける主演女優を特定するというユーザ意図を満足するためにテキストのみの応答を提供することができると判定することができる。ユーザ意図が複数の所定の要求種別のうちの１つであると判定したことに応じて、メディア関連データベース内で検索を（例えば、ブロック７３０において）実行し、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ」を映画「ＬｅｇａｌｌｙＢｌｏｎｄｅ」における主演女優として取得することができる。図８Ｐに示されるように、ユーザ意図を満足するために表示ユニット上にテキストのみの結果８４２「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ」を表示することができる。テキストのみの結果８４２は、「ＬｅｇａｌｌｙＢｌｏｎｄｅ」の表示されたメディアコンテンツ上に重ね合わせることができる更に、「ＬｅｇａｌｌｙＢｌｏｎｄｅ」のメディアコンテンツは、テキストのみの結果８４２が表示されている間に再生し続けることができる。（例えば、ユーザ意図を満足するためにグラフィック結果又は追加のユーザインターフェースを表示することなく）テキストのみの結果８４２を表示することによって、ユーザ意図を邪魔にならない様態で満足することができ、メディアコンテンツのユーザ消費が中断されるのを最小限に抑えることができる。同時に、ユーザにデジタルアシスタントのサービスへのアクセスが提供される。これはユーザエクスペリエンスの改善のために望ましくなり得る。

ブロック７２８を再び参照すると、ユーザ意図が複数の所定の要求種別のうちの１つでないと判定することができる。具体的には、ユーザ意図は、満足するためにテキストだけではない結果を必要とするようにあらかじめ決められた要求種別であることができる。例えば、ユーザ意図は、メディア検索クエリを実行し、メディア検索クエリに対応するメディアアイテムを表示せよとの要求であることができる。他の実施例では、ユーザ意図はメディアアイテム以外の情報の要求であることができる。例えば、ユーザ意図は、スポーツチーム（例えば、「Ｌ．Ａ．Ｌａｋｅｒｓはこの間の試合ではどうでしたか？」）、運動選手（例えば、「ＬｅＢｒｏｎＪａｍｅｓの身長はどのぐらいですか？」）、株価（例えば、「ダウ・ジョーンズの昨日の終値はいくらでしたか？」、又は天気（例えば、「来週のパリ、フランスにおける天気予報はいかがですか？」）に関連付けられた情報の要求であることができる。ユーザ意図が複数の所定の要求種別のうちの１つでないと判定したことに応じて、ブロック７３４〜７４６のうちの１つ以上を実行することができる。

プロセス７００のブロック７３４において、ユーザ意図を少なくとも部分的に満足する第２の結果を取得することができる。ブロック７３４は、上述されたブロック５３４と同様又は同一であることができる。一実施例では、ユーザ意図は、メディア検索クエリを実行せよとの要求を含むことができる。本実施例では、ブロック７３４においてメディア検索クエリを実行し、第２の結果を取得することができる。具体的には、第２の結果は、メディア検索クエリに対応するメディアアイテムを含むことができる。

いくつかの実施例では、ユーザ意図はメディア検索クエリでなくてもよい。例えば、ユーザ意図は、パリ、フランスにおける天気予報を提供せよとの要求（例えば、パリ、フランスにおける天気予報はいかがですか？）であることができる。本実施例では、ブロック７３４において取得された第２の結果は、パリ、フランスにおける７日間天気予報を含むことができる。第２の結果は、ユーザ意図を少なくとも部分的に満足する非メディアデータを含むことができる。具体的には、パリ、フランスにおける７日間天気予報は、テキストデータ（例えば、日付、気温、及び天気状況の簡単な説明）及びグラフィカル画像（例えば、晴れ、曇り、風、又は雨の画像）を含むことができる。更に、いくつかの実施例では、ブロック７１０において、ユーザ意図の範囲を、ユーザ意図を少なくとも部分的に満足するメディアアイテムの要求を含むように拡大することができる。これらの実施例では、ブロック７３４において取得された第２の結果は、ユーザ意図を少なくとも部分的に満足するメディアコンテンツを有する１つ以上のメディアアイテムを更に含むことができる。例えば、ブロック７３４において、関連期間の間のパリ、フランスにおける天気予報についてのメディア検索クエリを実行することができ、パリ、フランスにおける天気予報に関連する１つ以上のメディアアイテムを取得することができる。１つ以上のメディアアイテムは、例えば、パリ、フランスにおける天気予報を提示する天気チャンネルからのビデオクリップを含むことができる。これらの実施例では、表示されたユニット上のユーザインターフェース内に、非メディアデータ及び／又は１つ以上のメディアアイテムを（例えば、後述されるブロック７３８、７４２、又は７４６において）表示することができる。

プロセス７００のブロック７３６において、表示されたコンテンツが電子デバイス上で再生中のメディアコンテンツを含むかどうかに関する判定を行うことができる。いくつかの実施例では、表示されたコンテンツが電子デバイス上で再生中のメディアコンテンツを含まないと判定することができる。例えば、表示されたコンテンツは、代わりに、メインメニューユーザインターフェース又は第３のユーザインターフェース（例えば、第３のユーザインターフェース８２６）などの、ユーザインターフェースを含むことができる。第３のユーザインターフェースは表示ユニットの表示区域の少なくとも過半を占有することができる。更に、第３のユーザインターフェースは、ブロック７０４においてユーザ入力を検出する前に受信された以前のユーザ要求に関連する以前の結果を含むことができる。表示されたコンテンツがメディアコンテンツを含まないとの判定に従って、ブロック７３８を実行することができる。

プロセス７００のブロック７３８において、表示ユニット上の第３のユーザインターフェース内に第２の結果の一部分を表示することができる。ブロック７０４におけるユーザ入力が受信される時点において、表示されたコンテンツが第３のユーザインターフェースをすでに含む実施例では、以前のユーザ要求に関連する以前の結果の表示を第３のユーザインターフェース内の第２の結果の表示の一部分と置換することができる。ブロック７０４におけるユーザ入力が受信される時点において、表示されたコンテンツが第３のユーザインターフェースを含まない（例えば、表示されたコンテンツがメインメニューユーザインターフェースを含む）実施例では、第３のユーザインターフェースを表示することができ、表示された第３のユーザインターフェース内に第２の結果を含めることができる。

いくつかの実施例では、第２の結果が所定の種類の結果を含むかどうかに関する判定を行うことができる。所定の種類の結果は、表示ユニットの表示区域の過半未満である表示区域に関連付けられることができる。所定の種類の結果は、例えば、株価又は天気に関連する結果を含むことができる。他の実施例では、所定の種類の結果は異なり得ることを認識されたい。第２の結果が所定の種類の結果を含むと判定したことに応じて、表示ユニット上の第２のユーザインターフェース内に第２の結果の一部分を表示することができる。第２のユーザインターフェースは表示ユニットの表示区域の過半未満を占有することができる。これらの実施例では、たとえ、ブロック７３６において、表示されたコンテンツがメディアコンテンツを含まないと判定されても、第２のユーザインターフェース内に第２の結果の部分を表示することができる。

図８Ｑ〜図８Ｓはブロック７３４〜７３８の例示の実施例を示す。本実施例では、図８Ｑに示されるように、表示されたコンテンツは第３のユーザインターフェース８２６を最初に含むことができる。第３のユーザインターフェース８２６は以前のユーザ要求からの以前の結果を含むことができる。具体的には、第３のユーザインターフェース８２６は、以前に要求されたメディア検索クエリからのメディアアイテム８４４を含む。図８Ｒに示されるように、第３のユーザインターフェース８２６が表示されている間に、デジタルアシスタントを（例えば、ブロック７０４において）呼び出すことができる。サンプリングされた音声データ内のユーザ発言は、「ＬｕｋｅＷｉｌｓｏｎ主演の映画を教えてください」を含むことができる。表示ユニット上にユーザ発言のテキスト表現８４６を表示することができる。本実施例では、ユーザ意図を、ＬｕｋｅＷｉｌｓｏｎ主演の映画のメディア検索クエリを実行せよとの要求であると（例えば、ブロック７１０において）決定することができる。（例えば、ブロック７３４において）メディア検索クエリを実行し、第２の結果を取得することができる。具体的には、第２の結果は、ＬｕｋｅＷｉｌｓｏｎ主演の映画に対応するメディアアイテム８４８を含むことができる。更に、ユーザ意図又は以前のユーザ意図に関連する追加の結果（例えば、メディアアイテム８５０）を取得することができる。これらの追加の結果は、ブロック５４４において説明された第２の結果と同様の仕方で取得することができる。

図８Ｑ〜図８Ｓの本実施例では、表示されたコンテンツは第３のユーザインターフェース８２６のみを含み、それゆえ、表示されたコンテンツが電子デバイス上で再生中のメディアコンテンツを含まないと（例えば、ブロック７３６において）判定することができる。この判定に応じて、第３のユーザインターフェース８２６内に第２の結果を表示することができる。具体的には、図８Ｓに示されるように、第３のユーザインターフェース８２６内におけるメディアアイテム８４４の表示を第３のユーザインターフェース８２６内におけるメディアアイテム８４８の表示によって置換することができる。更に、第３のユーザインターフェース８２６内にメディアアイテム８５０を表示することができる。

本実施例において示されるように、メディアコンテンツが表示ユニット上に表示されていないと判定した後にのみ、第３のユーザインターフェース内に第２の結果を提示することができる。これは、ユーザの実際の意図が満足される可能性を高めるために、より大きな区域内により広範囲の結果が表示されることを可能にする。同時に、第３のユーザインターフェース内に第２の結果を提示する前にメディアコンテンツが表示ユニット上に表示されていないことを確実にすることによって、メディアコンテンツのユーザの消費は中断されない。

ブロック７３６を再び参照すると、表示されたコンテンツは、メディアデバイス上で再生中であるメディアコンテンツを含むことができる。これらの実施例では、表示されたコンテンツがメディアデバイス上で再生中のメディアコンテンツを含むとの判定を行うことができる。この判定に従って、ブロック７４０〜７４６のうちの１つ以上を実行することができる。

プロセス７００のブロック７４０において、再生されているメディアコンテンツを一時停止させることができるかどうかに関する判定を行うことができる。一時停止させることができるメディアコンテンツの例としては、オンデマンド映画及びテレビ番組などの、オンデマンドメディアアイテムを挙げることができる。一時停止させることができないメディアコンテンツの例としては、放送若しくはストリーミングサービスのメディア番組、並びに生中継メディア番組（例えば、スポーツイベント、コンサートなど）を挙げることができる。それゆえ、オンデマンドメディアアイテムは放送又は生中継番組を含まなくてもよい。再生されているメディアコンテンツを一時停止させることができないとのブロック７４０における判定に従って、ブロック７４２を実行することができる。プロセス７００のブロック７４２において、表示ユニット上に、第２の結果の一部分を有する第２のユーザインターフェースを表示することができる。ブロック７４２は、上述されたブロック５３６と同様であることができる。第２のユーザインターフェースは、メディアコンテンツが表示されている間に表示することができる。表示ユニット上における第２のユーザインターフェースによって占有される表示区域は、表示ユニット上におけるメディアコンテンツによって占有される表示区域よりも小さいものであることができる。再生されているメディアコンテンツを一時停止させることができるとの判定に従って、ブロック７４４〜７４６のうちの１つ以上を実行することができる。プロセス７００のブロック７４４において、再生されているメディアコンテンツをメディアデバイス上で一時停止させることができる。プロセス７００のブロック７４６において、第２の結果の一部分を有する第３のユーザインターフェースを表示することができる。第３のユーザインターフェースは、メディアコンテンツが一時停止されている間に表示することができる。

図８Ｔ〜図８Ｗはブロック７４０〜７４６の例示の実施例を示す。図８Ｔに示されるように、表示ユニット上に、メディアデバイス上で再生中のメディアコンテンツ８０２を表示することができる。メディアコンテンツ８０２を表示している間に、デジタルアシスタントを（例えば、ブロック７０４において）アクティブ化することができる。サンプリングされた音声データ内のユーザ発言は、「ＬｕｋｅＷｉｌｓｏｎ主演の映画を教えてください」であることができる。表示ユニット上にユーザ発言のテキスト表現８４６を表示することができる。上述されたように、ユーザ意図を、ＬｕｋｅＷｉｌｓｏｎ主演の映画のメディアアイテムを取得せよとの要求であると（例えば、ブロック７１０において）決定することができる。（例えば、ブロック７３４において）対応するメディア検索クエリを実行し、第２の結果を取得することができる。第２の結果は、ＬｕｋｅＷｉｌｓｏｎ主演の映画のメディアアイテム８４８を含むことができる。メディアコンテンツ８０２を一時停止させることができないと（例えば、ブロック７４４において）判定される実施例では、メディアコンテンツ８０２が表示ユニット上に表示され続けている間に第２のユーザインターフェース８１８内にメディアアイテム８４８を表示することができる（例えば、図８Ｕ）。第２のユーザインターフェース８１８内にメディアアイテム８４８を表示することは、ユーザ意図を満足するためにメディアアイテム８４８が表示されている間に、メディアコンテンツ８０２がユーザ消費のために継続的に利用できることを可能にするために望ましくなり得る。これは、ユーザが、一時停止するか、又は再生し直すことができない、メディアコンテンツ８０２の任意の部分を見逃してしまうことを防止する。代替的に、メディアコンテンツ８０２を一時停止させることができると（例えば、ブロック７４４において）判定される実施例では、メディアデバイス上におけるメディアコンテンツ８０２の再生を一時停止させることができ、表示ユニット上の第３のユーザインターフェース８２６内にメディアアイテム８４８を表示することができる（例えば、図８Ｓ）。第３のユーザインターフェース８２６を表示することは、様々な代替的なユーザ意図に関連付けられたより広範囲のメディアアイテム（例えば、メディアアイテム８５０）が、要求されたメディアアイテム（例えば、メディアアイテム８４８）とともに表示されることを可能にするために望ましくなり得、これにより、ユーザの実際の意図が満足される可能性が高くなる。同時に、メディアコンテンツ８０２は、ユーザがメディアコンテンツ８０２の任意の部分を見逃さないように、一時停止される。メディアコンテンツ８０２を一時停止させることができるかどうかに基づいて、メディアアイテム８４８を表示するために用いられるユーザインターフェースを変更することによって、メディアコンテンツ８０２のユーザの消費の中断を低減させつつ、ユーザ発言に関連付けられたユーザ意図を包括的に達成することができる。これは全体的なユーザエクスペリエンスを高めることができる。

いくつかの実施例では、図８Ｖに示されるように、表示されたコンテンツは、メディアデバイス上で再生中のメディアコンテンツ８０２に加えて、第２のユーザインターフェース８１８を含むことができる。これらの実施例では、第２のユーザインターフェース８１８は、以前のユーザ要求（例えば、ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ主演のロマンチックコメディーの要求）に関連するメディアアイテム８５２を含むことができる。メディアコンテンツ８０２及び第２のユーザインターフェース８１８を表示している間に、デジタルアシスタントを（例えば、ブロック７０４において）呼び出すことができる。図８Ｗに示されるように、サンプリングされた音声データは、ユーザ発言「ＬｕｋｅＷｉｌｓｏｎ主演の映画を教えてください」を含むことができる。表示ユニット上にユーザ発言のテキスト表現８４６を表示することができる。このユーザ発言に基づいて、ユーザ意図が、ＬｕｋｅＷｉｌｓｏｎ主演の映画のメディアアイテムを取得せよとの要求であると（例えば、ブロック７１０において）決定することができる。（例えば、ブロック７３４において）対応するメディア検索クエリを実行し、第２の結果（例えば、メディアアイテム８４８）を取得することができる。これらの実施例では、第２のユーザインターフェース８１８内におけるメディアアイテム８５２の表示をメディアアイテム８４８の表示と置換することができる（例えば、図８Ｕ）。

図９は、様々な実施例に係る、メディアシステムのデジタルアシスタントと対話するためのプロセス９００を示す。プロセス９００は、デジタルアシスタントを実装する１つ以上の電子デバイスを用いて実行することができる。例えば、プロセス９００は、上述された、システム１００、メディアシステム１２８、メディアデバイス１０４、ユーザデバイス１２２、又はデジタルアシスタントシステム４００のうちの１つ以上を用いて実行することができる。プロセス９００内のいくつかの動作は組み合わせることができ、いくつかの動作の順序は変更することができ、いくつかの動作は省略することができることを理解されたい。

プロセス９００のブロック９０２において、表示ユニット上にコンテンツを表示することができる。ブロック９０２は、上述されたブロック５０２と同様又は同一であることができる。いくつかの実施例では、表示されたコンテンツはメディアコンテンツ（例えば、映画、ビデオ、テレビ番組、ビデオゲームなど）を含むことができる。加えて、又は代替的に、表示されたコンテンツはユーザインターフェースを含むことができる。例えば、表示されたコンテンツは、１つ以上の例示的な自然言語要求を有する第１のユーザインターフェースを含むことができる（例えば、図６Ｄ〜図６Ｅに示されているとおりのもの）。他の実施例では、表示されたコンテンツは、以前のユーザ要求からの結果（例えば、以前に要求されたメディアアイテム）を有する第３のユーザインターフェース（例えば、第３のユーザインターフェース６２６）を含むことができる。第３のユーザインターフェースは表示ユニットの表示区域の少なくとも過半を占有することができる。

プロセス９００のブロック９０４において、ブロック９０２のコンテンツを表示している間に、ユーザ入力を検出することができる。ユーザ入力は、ブロック５５８において説明された第５のユーザ入力と同様又は同一であることができる。具体的には、ユーザ入力はメディアデバイスの遠隔制御装置上で検出することができる。例えば、ユーザ入力は、遠隔制御デバイスのタッチ感知面上における所定の運動パターンを含むことができる。いくつかの実施例では、ユーザ入力は、メディアデバイスと異なる第２の電子デバイス（例えば、デバイス１２２）を介して検出することができる。第２の電子デバイスは、メディアデバイスを無線で制御するように構成することができる。ユーザ入力を検出したことに応じて、ブロック９０６〜９１４のうちの１つ以上を実行することができる。

プロセス９００のブロック９０６において、表示ユニット上に仮想キーボードインターフェース（例えば、仮想キーボードインターフェース６４６）を表示することができる。ブロック９０６は、上述されたブロック５６２と同様又は同一であることができる。仮想キーボードインターフェースは、第１のユーザインターフェース又は第３のユーザインターフェースの少なくとも一部分上に重ね合わせることができる。更に、表示ユニット上に検索フィールド（例えば、検索フィールド６４４）を表示することができる。仮想キーボードインターフェースは、仮想キーボードインターフェースを介して受信されたユーザ入力が検索フィールド内へのテキスト記入を生じさせるように構成することができる。

プロセス９００のブロック９０８において、第２の電子デバイス上に（例えば、デバイス１２２のタッチスクリーン３４６上に）選択可能なアフォーダンスを表示させることができる。第２の電子デバイスは、メディアデバイスの遠隔制御装置と異なるデバイスであることができる。アフォーダンスの選択は、テキスト入力が第２の電子デバイスのキーボードを介してメディアデバイスによって受信されることを可能にすることができる。例えば、アフォーダンスの選択は、第２の電子デバイス上に仮想キーボードインターフェース（例えば、仮想キーボードインターフェース６４６と同様のもの）を表示させることができる。第２の電子デバイスの仮想キーボードインターフェースへの入力は、対応するテキストを検索フィールド（例えば、検索フィールド６４４）内に記入させることができる。

プロセス９００のブロック９１０において、第２の電子デバイスのキーボード（例えば、仮想キーボードインターフェース）を介してテキスト入力を受信することができる。具体的には、ユーザは第２の電子デバイスのキーボードを介してテキストを入力することができ、テキスト入力はメディアデバイスに伝送され、メディアデバイスによって受信されることができる。テキスト入力はユーザ要求を表現することができる。例えば、テキスト入力は「ＪｕｒａｓｓｉｃＰａｒｋ」であることができ、これは、検索文字列「ＪｕｒａｓｓｉｃＰａｒｋ」に関連付けられたメディアアイテムの検索を実行せよとの要求を表現することができる。

プロセス９００のブロック９１２において、ユーザ要求を少なくとも部分的に満足する結果を取得することができる。例えば、テキスト入力を用いてメディア検索を実行することができ、対応するメディアアイテムを取得することができる。テキスト入力が「ＪｕｒａｓｓｉｃＰａｒｋ」である特定の実施例では、タイトル「ＪｕｒａｓｓｉｃＰａｒｋ」を有するか、又は映画「ＪｕｒａｓｓｉｃＰａｒｋ」と共通の俳優若しくは監督を有するメディアアイテムを取得することができる。テキスト入力が「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ」である別の実施例では、ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎが女優であるメディアアイテムを取得することができる。

プロセス９００のブロック９１４において、表示ユニット上にユーザインターフェースを表示することができる。ユーザインターフェースは結果の少なくとも一部分を含むことができる。例えば、ユーザインターフェースは、ブロック９１２において実行されたメディア検索の結果として取得されたメディアアイテムを含むことができる。

プロセス５００、７００、及び９００の特定のブロックは、以上において、デバイス又はシステム（例えば、メディアデバイス１０４、ユーザデバイス１２２、又はデジタルアシスタントシステム４００）によって実行されるように説明されているが、いくつかの実施例では、ブロックを実行するために、１つを超えるデバイスを用いることができることを認識されたい。例えば、判定が行われるブロックでは、第１のデバイス（例えば、メディアデバイス１０４）が第２のデバイス（例えば、サーバシステム１０８）から判定を取得することができる。同様に、コンテンツ、オブジェクト、テキスト、又はユーザインターフェースが表示されるブロックでは、第１のデバイス（例えば、メディアデバイス１０４）が第２のデバイス（例えば、表示ユニット１２６）上にコンテンツ、オブジェクト、テキスト、又はユーザインターフェースを表示させることができる。
５．電子デバイス

いくつかの実施例に基づき、図１０は、例えば、メディア再生の音声制御、及び仮想アシスタントの知識のリアルタイム更新を提供するための、説明されている様々な実施例の原理に従って構成された電子デバイス１０００の機能ブロック図を示す。デバイスの機能ブロックは、説明される様々な実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせによって実装されてもよい。図１０で説明する機能ブロックが、説明される様々な実施例の原理を実施するために、組み合わされ、又はサブブロックに分離され得ることが当業者に理解されよう。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。

図１０に示されるように、電子デバイス１０００は、触知入力、ジェスチャ入力などの、ユーザ入力を受信するように構成された入力ユニット１００３（例えば、遠隔制御装置１２４、又は同様のもの）と、音声データを受信するように構成された音声入力ユニット１００４（例えば、マイクロフォン２７２、又は同様のもの）と、音声を出力するように構成されたスピーカユニット１０６（例えば、スピーカ２６８、又は同様のもの）と、ネットワークを介して外部デバイスから情報を送信及び受信するように構成された通信ユニット１００７（例えば、通信サブシステム２２４、又は同様のもの）と、を含むことができる。いくつかの実施例では、電子デバイス１０００は、メディア、インターフェース、及びその他のコンテンツを表示するように構成された表示ユニット１００２（例えば、表示ユニット１２６、又は同様のもの）を任意選択的に含むことができる。電子デバイス１０００は、入力ユニット１００３、音声入力ユニット１００４、スピーカユニット１００６、通信ユニット１００７、及び任意選択的に表示ユニット１００２に結合された処理ユニット１００８を更に含むことができる。いくつかの実施例では、処理ユニット１００８は、表示可能化ユニット１０１０、検出ユニット１０１２、判定ユニット１０１４、サンプリングユニット１０１６、出力ユニット１０１８、実行ユニット１０２０、取得ユニット１０２２、及び切り換えユニット１０２４を含むことができる。

いくつかの実施形態によれば、処理ユニット１００８は、表示ユニット（例えば、表示ユニット１００２又は別個の表示ユニット）上にコンテンツを（例えば、表示可能化ユニット１０１０を用いて）表示するように構成される。処理ユニット１００８は、ユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、ユーザ入力が第１の入力形式に対応するかどうかを（例えば、判定ユニット１０１４を用いて）判定するように更に構成される。処理ユニット１００８は、ユーザ入力が第１の入力形式に対応するとの判定に従って、表示ユニット上に、複数の例示的な自然言語要求を（例えば、表示可能化ユニット１０１０）表示されるように更に構成される。複数の例示的な自然言語要求は、表示されたコンテンツにコンテクスト上関連し、複数の例示的な自然言語要求のうちの１つに対応するユーザ発言を受信することが、デジタルアシスタントにそれぞれのアクションを実行させる。

いくつかの実施例では、ユーザ入力は電子デバイスの遠隔制御装置上で検出される。いくつかの実施例では、第１の入力形式は、遠隔制御装置のボタンを押下し、ボタンを所定の期間以内に放すことを含む。いくつかの実施例では、複数の例示的な自然言語要求は表示ユニット上に第１のユーザインターフェースを介して表示され、第１のユーザインターフェースは、表示されたコンテンツ上に重ね合わせられる。いくつかの実施例では、表示されたコンテンツはメディアコンテンツを含み、メディアコンテンツは、複数の例示的な自然言語要求を表示している間に再生し続ける。

いくつかの実施例では、処理ユニット１００８は、ユーザ入力が第１の入力形式に対応するとの判定に従って、表示ユニット上に、デジタルアシスタントが音声入力を処理していないことを指示する視覚的インジケータを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。

いくつかの実施例では、ユーザ入力が第１の入力形式に対応すると判定すると、複数の例示的な自然言語要求は所定の時間の後に表示ユニット上に表示される。いくつかの実施例では、複数の例示的な自然言語要求の各々は所定の順序で異なる時間に別個に表示される。

いくつかの実施例では、処理ユニット１００８は、例示的な自然言語要求の複数のリストを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成され、各リストは異なる時間に交代で表示される。

いくつかの実施例では、処理ユニット１００８は、ユーザ入力が第１の入力形式に対応しないとの判定に従って、ユーザ入力が第２の入力形式に対応するかどうかを（例えば、判定ユニット１０１４を用いて）判定するように更に構成される。処理ユニット１００８は、ユーザ入力が第２の入力形式に対応するとの判定に従って、音声データを（例えば、サンプリングユニット１０１６及び音声入力ユニット１００４を用いて）サンプリングするように更に構成される。処理ユニット１００８は、音声データがユーザ要求を包含するかどうか（例えば、判定ユニット１０１４を用いて）判定されるように更に構成される。処理ユニット１００８は、音声データがユーザ要求を包含するとの判定に従って、ユーザ要求を少なくとも部分的に満足するタスクを（例えば、実行ユニット１０２０を用いて）実行するように更に構成される。

いくつかの実施例では、第２の入力形式は、電子デバイスの遠隔制御装置のボタンを押下し、ボタンを所定の期間よりも長い間、押さえておくことを含む。

いくつかの実施例では、処理ユニット１００８は、音声データがユーザ要求を包含しないとの判定に従って、表示ユニット上に、ユーザ意図の明確化の要求を（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。

いくつかの実施例では、表示されたコンテンツはメディアコンテンツを含み、メディアコンテンツは、音声データをサンプリングしている間、及びタスクを実行している間に、電子デバイス上で再生し続ける。

いくつかの実施例では、処理ユニット１００８は、（例えば、スピーカユニット１００６を用いて）メディアコンテンツに関連付けられた音声を（例えば、出力ユニット１０１８を用いて）出力するように更に構成される。処理ユニット１００８は、ユーザ入力が第２の入力形式に対応するとの判定に従って、音声の振幅を（例えば、出力ユニット１０１８を用いて）低減するように更に構成される。

いくつかの実施例では、タスクは、このタスクに関連する発語を電子デバイスから出力することなく実行される。いくつかの実施例では、音声データは、ユーザ入力を検出している間にサンプリングされる。いくつかの実施例では、音声データは、ユーザ入力を検出した後の所定の期間の間にサンプリングされる。

いくつかの実施例では、音声データは、電子デバイスの遠隔制御装置上の第１のマイクロフォン（例えば、音声入力ユニット１００４）を介してサンプリングされる。処理ユニット１００８は、音声データをサンプリングしている間に、遠隔制御装置上の第２のマイクロフォン（例えば、電子デバイス１０００の第２の音声入力ユニット）を介して背景音声データを（例えば、サンプリングユニット１０１６及び音声入力ユニット１００４を用いて）サンプリングするように更に構成される。処理ユニット１００８は、背景音声データを用いて音声データ内の背景ノイズを（例えば、出力ユニット１０１８を用いて）除去するように更に構成される。

いくつかの実施例では、表示されたコンテンツに関連付けられた音声が音声信号を介して電子デバイスから出力される。処理ユニット１００８は、音声信号を用いて音声データ内の背景ノイズを（例えば、出力ユニット１０１８を用いて）除去するように更に構成される。

いくつかの実施例では、処理ユニット１００８は、ユーザ入力を検出したことに応じて、表示ユニット上に、ユーザに、発語要求を提供するように促す視覚キューを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。

いくつかの実施例では、処理ユニット１００８は、ユーザ要求を少なくとも部分的に満足する結果を（例えば、取得ユニット１０２２を用いて）取得するように更に構成される。処理ユニット１００８は、表示ユニット上に第２のユーザインターフェースを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。第２のユーザインターフェースは結果の一部分を含み、コンテンツの少なくとも一部分は、第２のユーザインターフェースが表示されている間に表示され続け、表示ユニット上における第２のユーザインターフェースの表示区域は表示ユニット上におけるコンテンツの少なくとも一部分の表示区域よりも小さい。いくつかの実施例では、第２のユーザインターフェースは、表示されたコンテンツ上に重ね合わせられる。

いくつかの実施例では、結果の部分は１つ以上のメディアアイテムを含む。処理ユニット１００８は、第２のユーザインターフェースを介して１つ以上のメディアアイテムのうちのメディアアイテムの選択を（例えば、検出ユニット１０１２を用いて）受信するように更に構成される。処理ユニット１００８は、表示ユニット上に、選択されたメディアアイテムに関連付けられたメディアコンテンツを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。

いくつかの実施例では、処理ユニット１００８は、第２のユーザインターフェースを表示している間に、第２のユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、第２のユーザ入力を検出したことに応じて、第２のユーザインターフェースを表示するのを（例えば、表示可能化ユニット１０１０を用いて）中止するように更に構成される。

いくつかの実施例では、第２のユーザ入力は電子デバイスの遠隔制御装置上で検出される。第２のユーザ入力は、遠隔制御装置のタッチ感知面上における第１の所定の運動パターンを含む。

いくつかの実施例では、処理ユニット１００８は、第２のユーザインターフェースを表示している間に、第３のユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、第３のユーザ入力を検出したことに応じて、第２のユーザインターフェースの表示を表示ユニット上における第３のユーザインターフェースの表示と（例えば、表示可能化ユニット１０１０を用いて）置換するように更に構成される。第３のユーザインターフェースは結果の少なくとも部分を含み、第３のユーザインターフェースは、表示ユニットの表示区域の少なくとも過半を占有する。

いくつかの実施例では、第３のユーザ入力は電子デバイスの遠隔制御装置上で検出され、第３のユーザ入力は遠隔制御装置のタッチ感知面上における第２の所定の運動パターンを含む。

いくつかの実施例では、処理ユニット１００８は、第３のユーザ入力を検出したことに応じて、結果と異なる第２の結果を（例えば、取得ユニット１０２２を用いて）取得するように更に構成される。第２の結果はユーザ要求を少なくとも部分的に満足し、第３のユーザインターフェースは第２の結果の少なくとも一部分を含む。

いくつかの実施例では、第２の結果は、ユーザ入力を検出する前に受信されたユーザ要求に基づく。いくつかの実施例では、第３のユーザ入力が検出される間に第２のユーザインターフェースのフォーカスは結果の部分のアイテム上にあり、第２の結果はアイテムにコンテクスト上関連する。

いくつかの実施例では、表示されたコンテンツはメディアコンテンツを含む。処理ユニット１００８は、第３のユーザ入力を検出したことに応じて、電子デバイス上におけるメディアコンテンツの再生を（例えば、実行ユニット１０２０を用いて）一時停止するように更に構成される。

いくつかの実施例では、結果の少なくとも部分は１つ以上のメディアアイテムを含む。処理ユニット１００８は、第３のユーザインターフェースを介して１つ以上のメディアアイテムのうちのメディアアイテムの選択を（例えば、検出ユニット１０１２を用いて）受信するように更に構成される。処理ユニット１００８は、表示ユニット上に、メディアアイテムに関連付けられたメディアコンテンツを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。

いくつかの実施例では、処理ユニット１００８は、第３のユーザインターフェースを表示している間に、表示ユニット上における方向に関連付けられた第４のユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、第４のユーザ入力を検出したことに応じて、第３のユーザインターフェースのフォーカスを第１のアイテムから第３のユーザインターフェース上の第２のアイテムへ（例えば、切り換えユニット１０２４を用いて）切り換えるように更に構成される。第２のアイテムは第１のアイテムに対して上記の方向に位置付けられている。

いくつかの実施例では、処理ユニット１００８は、第３のユーザインターフェースを表示している間に、第５のユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、第５のユーザ入力を検出したことに応じて、検索フィールドを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。処理ユニット１００８は、表示ユニット上に仮想キーボードインターフェースを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成され、仮想キーボードインターフェースを介して受信された入力は検索フィールド内へのテキスト記入を生じさせる。

いくつかの実施例では、処理ユニット１００８は、第３のユーザインターフェースを表示している間に、第６のユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、第６のユーザ入力を検出したことに応じて、第２の音声データを（例えば、サンプリングユニット１０１６及び音声入力ユニット１００４を用いて）サンプリングするように更に構成される。第２の音声データは第２のユーザ要求を包含する。処理ユニット１００８は、第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるかどうかを（例えば、判定ユニット１０１４を用いて）判定するように更に構成される。処理ユニット１００８は、第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるとの判定に従って、第３のユーザインターフェースを介して結果のサブセットを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。

いくつかの実施例では、結果のサブセットは第３のユーザインターフェースの最上段に表示される。処理ユニット１００８は、第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求でないとの判定に従って、第２のユーザ要求を少なくとも部分的に満足する第３の結果を（例えば、取得ユニット１０１８を用いて）取得するように更に構成される。処理ユニット１００８は、第３のユーザインターフェースを介して第３の結果の一部分を（例えば、表示可能化ユニット１０１を用いて）表示するように更に構成される。いくつかの実施例では、第３の結果の部分は第３のユーザインターフェースの最上段に表示される。

いくつかの実施例では、処理ユニット１００８は、ユーザ要求又は第２のユーザ要求を少なくとも部分的に満足する第４の結果を（例えば、取得ユニット１０２２を用いて）取得するように更に構成される。処理ユニット１００８は、第３のユーザインターフェースを介して第４の結果の一部分を（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。

いくつかの実施例では、第４の結果の部分は第３のユーザインターフェースの最上段の後の段に表示される。

いくつかの実施例では、第６のユーザ入力が検出される間に第３のユーザインターフェースのフォーカスは第３のユーザインターフェースの１つ以上のアイテム上にあり、第４の結果は１つ以上のアイテムにコンテクスト上関連する。

いくつかの実施例では、処理ユニット１００８は、第３のユーザインターフェースを表示している間に、第７のユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、第７のユーザ入力を検出したことに応じて、第３のユーザインターフェースを表示するのを（例えば、表示可能化ユニット１０１０を用いて）中止するように更に構成される。

いくつかの実施例では、表示されたコンテンツはメディアコンテンツであり、第３のユーザ入力を検出したことに応じて、電子デバイス上におけるメディアコンテンツの再生は一時停止される。処理ユニット１００８は、第７のユーザ入力を検出したことに応じて、電子デバイス上におけるメディアコンテンツの再生を（例えば、実行ユニット１０２０を用いて）再開するように更に構成される。いくつかの実施例では、第７のユーザ入力は、電子デバイスの遠隔制御装置のメニューボタンを押下することを含む。

いくつかの実施形態によれば、処理ユニット１００８は、表示ユニット上にコンテンツを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。処理ユニット１００８は、コンテンツを表示している間に、ユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、ユーザ入力を検出したことに応じて、表示ユニット上にユーザインターフェースを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。ユーザインターフェースは、表示されたコンテンツにコンテクスト上関連する複数の例示的な自然言語要求を含み、複数の例示的な自然言語要求のうちの１つに対応するユーザ発言を受信することは、デジタルアシスタントにそれぞれのアクションを実行させる。

いくつかの実施例では、表示されたコンテンツはメディアコンテンツを含む。いくつかの実施例では、複数の例示的な自然言語要求は、メディアコンテンツに関連付けられた１つ以上の設定を変更せよとの自然言語要求を含む。いくつかの実施例では、メディアコンテンツは、ユーザインターフェースが表示されている間に再生し続ける。

いくつかの実施例では、処理ユニット１００８は、メディアコンテンツに関連付けられた音声を（例えば、出力ユニット１０１８を用いて）出力するように更に構成される。ユーザ入力を検出したことに応じて音声の振幅は低減させられない。いくつかの実施例では、表示されたコンテンツはメインメニューユーザインターフェースを含む。

いくつかの実施例では、複数の例示的な自然言語要求は、デジタルアシスタントの複数の中核能力の各々に関連する例示的な自然言語要求を含む。いくつかの実施例では、表示されたコンテンツは、以前のユーザ要求に関連付けられた結果を有する第２のユーザインターフェースを含む。いくつかの実施例では、複数の例示的な自然言語要求は、結果を絞り込めとの自然言語要求を含む。いくつかの実施例では、ユーザインターフェースは、デジタルアシスタントを呼び出し、それと対話するためのテキストによる教示を含む。いくつかの実施例では、ユーザインターフェースは、デジタルアシスタントが音声入力を受信していないことを指示する視覚的インジケータを含む。いくつかの実施例では、ユーザインターフェースは、表示されたコンテンツ上に重ね合わせられる。

いくつかの実施例では、処理ユニット１００８は、ユーザ入力を検出したことに応じて、ユーザインターフェースを目立たせるために、表示されたコンテンツの明るさを（例えば、表示可能化ユニット１０１０を用いて）低減するように更に構成される。

いくつかの実施例では、ユーザ入力は電子デバイスの遠隔制御装置上で検出される。いくつかの実施例では、ユーザ入力は、遠隔制御デバイスのボタンを押下し、ボタンを、ボタンを押下した後の所定の期間以内に放すことを含む。いくつかの実施例では、ボタンは、デジタルアシスタントを呼び出すように構成される。いくつかの実施例では、ユーザインターフェースは、仮想キーボードインターフェースを表示するためのテキストによる教示を含む。

いくつかの実施例では、処理ユニット１００８は、ユーザインターフェースを表示した後に、第２のユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、第２のユーザ入力を検出したことに応じて、表示ユニット上に仮想キーボードインターフェースを（例えば、表示ユニット１０１２を用いて）表示するように更に構成される。

いくつかの実施例では、処理ユニット１００８は、ユーザインターフェースのフォーカスをユーザインターフェース上の検索フィールドへ（例えば、表示可能化ユニット１０１０を用いて）変更するように更に構成される。いくつかの実施例では、検索フィールドは、仮想キーボードインターフェースを介してテキスト検索クエリを受信するように構成される。いくつかの実施例では、仮想キーボードインターフェースは、デジタルアシスタントと対話するために用いられることができない。いくつかの実施例では、第２のユーザ入力は、電子デバイスの遠隔制御デバイスのタッチ感知面上における所定の運動パターンを含む。

いくつかの実施例では、複数の例示的な自然言語要求は、ユーザ入力を検出した後の所定の時間における表示である。いくつかの実施例では、処理ユニット１００８は、複数の例示的な自然言語要求の各々を所定の順序で１つずつ（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。いくつかの実施例では、処理ユニット１００８は、複数の例示的な自然言語要求のうちの以前に表示された例示的な自然言語要求の表示を複数の例示的な自然言語要求のうちの後続の例示的な自然言語要求と（例えば、表示可能化ユニット１０１０を用いて）置換するように更に構成される。

いくつかの実施例では、コンテンツは、１つ以上のアイテムを有する第２のユーザインターフェースを含む。ユーザ入力が検出された時に、第２のユーザインターフェースのフォーカスは１つ以上のアイテムのうちのアイテム上にある。複数の例示的な自然言語要求は１つ以上のアイテムのうちのアイテムにコンテクスト上関連する。

いくつかの実施形態によれば、処理ユニット１００８は、表示ユニット上にコンテンツを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。処理ユニット１００８は、ユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、ユーザ入力を検出したことに応じて、自然言語発言の１つ以上の提案例を（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。１つ以上の提案例は、表示されたコンテンツにコンテクスト上関連し、ユーザによって発言されると、デジタルアシスタントに、対応するアクションを実行させる。

いくつかの実施例では、処理ユニット１００８は、第２のユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、第２のユーザ入力を検出したことに応じて、音声データを（例えば、サンプリングユニット１０１６を用いて）サンプリングするように更に構成される。処理ユニット１００８は、サンプリングされた音声データが自然言語発言の１つ以上の提案例のうちの１つを包含するかどうかを（例えば、判定ユニット１０１４を用いて）判定するように更に構成される。処理ユニット１００８は、サンプリングされた音声データが自然言語発言の１つ以上の提案例のうちの１つを包含するとの判定に従って、発言に対する対応するアクションを（例えば、実行ユニット１０２０を用いて）実行するように更に構成される。

いくつかの実施形態によれば、処理ユニット１００８は、表示ユニット上にコンテンツを（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。処理ユニット１００８は、コンテンツを表示している間に、ユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、ユーザ入力を検出したことに応じて、音声データを（例えば、サンプリングユニット１０１６を用いて）サンプリングするように更に構成される。音声データは、メディア検索要求を表現するユーザ発言を含む。処理ユニット１００８は、メディア検索要求を満足する複数のメディアアイテムを（例えば、取得ユニット１０２２を用いて）取得するように更に構成される。処理ユニット１００８は、表示ユニット上に、ユーザインターフェースを介して複数のメディアアイテムの少なくとも一部分を（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。

いくつかの実施例では、コンテンツは、複数のメディアアイテムの少なくとも一部分が表示されている間に表示ユニット上に表示され続ける。ユーザインターフェースによって占有される表示区域は、コンテンツによって占有される表示区域よりも小さい。

いくつかの実施例では、処理ユニット１００８は、複数のメディアアイテム内のメディアアイテムの数が所定の数以下であるかどうかを（例えば、判定ユニット１０１４を用いて）判定するように更に構成される。複数のメディアアイテム内のメディアアイテムの数が所定の数以下であるとの判定に従って、複数のメディアアイテムの少なくとも一部分は複数のメディアアイテムを含む。

いくつかの実施例では、複数のメディアアイテム内のメディアアイテムの数が所定の数よりも大きいとの判定に従って、複数のメディアアイテムの少なくとも一部分内のメディアアイテムの数は所定の数に等しい。

いくつかの実施例では、複数のメディアアイテムの各々は、メディア検索要求に関する関連性スコアに関連付けられ、複数のメディアアイテムの少なくとも一部分の関連性スコアは複数のメディアアイテムの間で最も高い。

いくつかの実施例では、複数のメディアアイテムの少なくとも一部分の各々は人気格付けに関連付けられ、複数のメディアアイテムの少なくとも一部分はユーザインターフェース内において人気格付けに基づいて配列される。

いくつかの実施例では、処理ユニット１００８は、複数のメディアアイテムの少なくとも一部分を表示している間に、第２のユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、第２のユーザ入力を検出したことに応じて、ユーザインターフェースを、表示ユニットの表示区域の少なくとも過半を占有するように（例えば、表示可能化ユニット１０１０を用いて）拡大するように更に構成される。

いくつかの実施例では、処理ユニット１００８は、第２のユーザ入力を検出したことに応じて、複数のメディアアイテム内のメディアアイテムの数が所定の数以下であるかどうかを（例えば、判定ユニット１０１４を用いて）判定するように更に構成される。処理ユニット１００８は、複数のメディアアイテム内のメディアアイテムの数が所定の数以下であるとの判定に従って、メディア検索要求を少なくとも部分的に満足する第２の複数のメディアアイテムを取得するように更に構成され、第２の複数のメディアアイテムはメディアアイテムの少なくとも一部分と異なる。処理ユニット１００８は、拡大されたユーザインターフェースを介して、表示ユニット上に第２の複数のメディアアイテムを（例えば、表示可能化ユニット１０１を用いて）表示するように更に構成される。

いくつかの実施例では、処理ユニット１００８は、メディア検索要求が、１つを超える検索パラメータを含むかどうかを（例えば、判定ユニット１０１４を用いて）判定するように更に構成される。メディア検索要求が、１つを超える検索パラメータを含むとの判定に従って、第２の複数のメディアアイテムは、拡大されたユーザインターフェース内において、メディア検索要求の１つを超える検索パラメータに従って整理される。

いくつかの実施例では、処理ユニット１００８は、複数のメディアアイテム内のメディアアイテムの数が所定の数よりも大きいとの判定に従って、拡大されたユーザインターフェースを介して複数のメディアアイテムの少なくとも第２の部分を（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。複数のメディアアイテムの少なくとも第２の部分は複数のメディアアイテムの少なくとも一部分と異なる。

いくつかの実施例では、複数のメディアアイテムの少なくとも第２の部分は２つ以上のメディア種別を含み、複数のメディアアイテムの少なくとも第２の部分は、拡大されたユーザインターフェース内において、２つ以上のメディア種別の各メディア種別に従って整理される。

いくつかの実施例では、処理ユニット１００８は、第３のユーザ入力を（例えば、検出ユニット１０１２を用いて）検出するように更に構成される。処理ユニット１００８は、第３のユーザ入力を検出したことに応じて、拡大されたユーザインターフェースに（例えば、表示可能化ユニット１０１０を用いて）スクロールさせるように更に構成される。処理ユニット１００８は、拡大されたユーザインターフェースが、拡大されたユーザインターフェース上の所定の位置を越えてスクロールしたかどうかを（例えば、判定ユニット１０１４を用いて）判定するように更に構成される。処理ユニット１００８は、拡大されたユーザインターフェースが、拡大されたユーザインターフェース上の所定の位置を越えてスクロールしたと判定したことに応じて、拡大されたユーザインターフェース上に複数のメディアアイテムの少なくとも第３の部分を（例えば、表示可能化ユニット１０１０を用いて）表示するように更に構成される。複数のメディアアイテムの少なくとも第３の部分は、拡大されたユーザインターフェース上において、第３の複数のメディアアイテムに関連付けられた１つ以上のメディアコンテンツプロバイダに従って整理される。

以上において図５Ａ〜図５Ｉを参照して説明された動作は、任意選択的に、図１〜図３及び図４Ａ〜図４Ｂに示される構成要素によって実施される。例えば、表示動作５０２、５０８〜５１４、５２０、５２４、５３０、５３６、５４６、５５６、５６０、５６２、５７６、５８２、５８８、５９２、検出動作５０４、５３８、５４２、５５０、５５８、５６６、５７０、判定動作５０６、５１６、５２２、５２６、５２８、５７４、５７８、サンプリング動作５１８、５７２、実行動作５３２、５８４、取得動作５３４、５４４、５８０、５８６、５９０、中止動作５４０、５６８、受信ユニット５５４、及び切り換え動作５５２、５６４は、オペレーティングシステム２５２、ＧＵＩモジュール２５６、アプリケーションモジュール２６２、デジタルアシスタントモジュール４２６、及びプロセッサ（単数又は複数）２０４、４０４のうちの１つ以上によって実施されてもよい。当業者にとって、他のプロセスが、図１〜図３及び図４Ａ〜図４Ｂに示される構成要素に基づいてどのように実施されるのかは明らかであろう。

いくつかの実施例に基づき、図１１は、例えば、メディア再生の音声制御、及び仮想アシスタントの知識のリアルタイム更新を提供するための、説明されている様々な実施例の原理に従って構成された電子デバイス１１００の機能ブロック図を示す。デバイスの機能ブロックは、説明される様々な実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせによって実装されてもよい。図１１で説明する機能ブロックが、説明される様々な実施例の原理を実施するために、組み合わされ、又はサブブロックに分離され得ることが当業者に理解されよう。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。

図１１に示されるように、電子デバイス１１００は、触知入力、ジェスチャ入力などの、ユーザ入力を受信するように構成された入力ユニット１１０３（例えば、遠隔制御装置１２４、又は同様のもの）と、音声データを受信するように構成された音声入力ユニット１１０４（例えば、マイクロフォン２７２、又は同様のもの）と、音声を出力するように構成されたスピーカユニット１１６（例えば、スピーカ２６８、又は同様のもの）と、ネットワークを介して外部デバイスから情報を送信及び受信するように構成された通信ユニット１１０７（例えば、通信サブシステム２２４、又は同様のもの）と、を含むことができる。いくつかの実施例では、電子デバイス１１００は、メディア、インターフェース、及びその他のコンテンツを表示するように構成された表示ユニット１１０２（例えば、表示ユニット１２６、又は同様のもの）を任意選択的に含むことができる。電子デバイス１１００は、入力ユニット１１０３、音声入力ユニット１１０４、スピーカユニット１１０６、通信ユニット１１０７、及び任意選択的に表示ユニット１１０２に結合された処理ユニット１１０８を更に含むことができる。いくつかの実施例では、処理ユニット１１０８は、表示可能化ユニット１１１０、検出ユニット１１１２、判定ユニット１１１４、サンプリングユニット１１１６、出力ユニット１１１８、実行ユニット１１２０、取得ユニット１１２２、特定ユニット１１２４、及び伝送ユニット１１２６を含むことができる。

いくつかの実施形態によれば、処理ユニット１１０８は、表示ユニット（例えば、表示ユニット１１０２又は別個の表示ユニット）上にコンテンツを（例えば、表示可能化ユニット１１１０を用いて）表示するように構成される。処理ユニット１１０８は、コンテンツを表示している間に、ユーザ入力を（例えば、検出ユニット１１１２を用いて）検出するように更に構成される。処理ユニット１１０８は、ユーザ入力を検出したことに応じて、音声データを（例えば、サンプリングユニット１０１６及び音声入力ユニット１１０４を用いて）サンプリングするように更に構成される。音声データはユーザ発言を含む。処理ユニット１１０８は、ユーザ発言に対応するユーザ意図の決定を（例えば、取得ユニット１１２２を用いて）取得するように更に構成される。処理ユニット１１０８は、ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含むかどうかの判定を（例えば、取得ユニット１１２２を用いて）取得するように更に構成される。処理ユニット１１０８は、ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含むとの判定を取得したことに応じて、アプリケーションの状態又は設定を、ユーザ意図を満足するように（例えば、タスク実行ユニット１１２０を用いて）調整するように更に構成される。

いくつかの実施例では、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求は、特定のメディアアイテムを再生せよとの要求を含む。アプリケーションの状態又は設定を、ユーザ意図を満足するように調整することは、特定のメディアアイテムを再生することを含む。

いくつかの実施例では、表示されたコンテンツは、メディアアイテムを有するユーザインターフェースを含み、ユーザ発言は、再生されるべき特定のメディアアイテムを明示的に限定しない。処理ユニット１１０８は、ユーザインターフェースのフォーカスがメディアアイテム上にあるかどうかを（例えば、判定ユニット１１１４を用いて）判定するように更に構成される。処理ユニット１１０８は、ユーザインターフェースのフォーカスがメディアアイテム上にあるとの判定に従って、メディアアイテムを、再生されるべき特定のメディアアイテムとして（例えば、特定ユニット１１２４を用いて）特定するように更に構成される。

いくつかの実施例では、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求は、電子デバイス上のアプリケーションを起動せよとの要求を含む。いくつかの実施例では、表示されたコンテンツは、電子デバイス上で再生中のメディアコンテンツを含み、状態又は設定は、電子デバイス上で再生されているメディアコンテンツに関連する。いくつかの実施例では、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求は、電子デバイス上で再生中のメディアコンテンツを早送り又は巻き戻しせよとの要求を含む。いくつかの実施例では、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求は、メディアコンテンツの特定の部分を再生するためにメディアコンテンツ内で前方又は後方へ飛び越せとの要求を含む。いくつかの実施例では、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求は、電子デバイス上におけるメディアコンテンツの再生を一時停止せよとの要求を含む。いくつかの実施例では、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求は、メディアコンテンツの字幕をオンにするか、又はオフにせよとの要求を含む。

いくつかの実施例では、表示されたコンテンツは、第１のメディアアイテム及び第２のメディアアイテムを有するユーザインターフェースを含む。

いくつかの実施例では、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求は、ユーザインターフェースのフォーカスを第１のメディアアイテムから第２のメディアアイテムへ切り換えよとの要求を含む。アプリケーションの状態又は設定を、ユーザ意図を満足するように調整することは、ユーザインターフェースのフォーカスを第１のメディアアイテムから第２のメディアアイテムへ切り換えることを含む。

いくつかの実施例では、表示されたコンテンツは、メディアデバイス上で再生中のメディアコンテンツを含む。ユーザ発言は、ユーザが、メディアコンテンツに関連付けられた音声の一部分が聞こえなかったことを指示する自然言語表現である。電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求は、ユーザが聞こえなかった音声の部分に対応するメディアコンテンツの一部分を再生し直せとの要求を含む。処理ユニット１１０８は、メディアコンテンツをメディアコンテンツの以前の部分まで所定の量だけ（例えば、タスク実行ユニット１１２０を用いて）巻き戻し、メディアコンテンツの再生を以前の部分から（例えば、タスク実行ユニット１１２０を用いて）再スタートするように更に構成される。

いくつかの実施例では、処理ユニット１１０８は、メディアコンテンツの再生を以前の部分から再スタートする前にクローズドキャプションを（例えば、タスク実行ユニット１１２０を用いて）オンにするように更に構成される。

いくつかの実施例では、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求は、メディアコンテンツに関連付けられた音声の音量を上げよとの要求を更に含む。アプリケーションの状態又は設定を調整することは、メディアコンテンツの再生を以前の部分から再スタートする前に、メディアコンテンツに関連付けられた音声の音量を上げることを更に含む。

いくつかの実施例では、メディアコンテンツに関連付けられた音声内の発語はテキストに変換される。アプリケーションの状態又は設定を調整することは、メディアコンテンツの再生を以前の部分から再スタートする間にテキストの一部分を表示することを更に含む。

いくつかの実施例では、処理ユニット１１０８は、ユーザ発言に関連付けられたユーザの感情の判定を（例えば、取得ユニット１１２２を用いて）取得するように更に構成される。ユーザ意図は、判定されたユーザの感情に基づいて決定される。

いくつかの実施例では、処理ユニット１１０８は、ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含まないとの判定を取得したことに応じて、ユーザ意図が複数の所定の要求種別のうちの１つであるかどうかの判定を（例えば、取得ユニット１１２２を用いて）取得するように更に構成される。処理ユニット１１０８は、ユーザ意図が複数の所定の要求種別のうちの１つであるとの判定を取得したことに応じて、ユーザ意図を少なくとも部分的に満足する結果を（例えば、取得ユニット１１２２を用いて）取得し、表示ユニット上に、結果をテキスト形式で（例えば、表示可能化ユニット１１１０を用いて）表示するように更に構成される。

いくつかの実施例では、複数の所定の要求種別は、特定のロケーションにおける現在の時間の要求を含む。いくつかの実施例では、複数の所定の要求種別は、ジョークを提示せよとの要求を含む。いくつかの実施例では、複数の所定の要求種別は、電子デバイス上で再生されているメディアコンテンツに関する情報の要求を含む。いくつかの実施例では、テキスト形式の結果は、表示されたコンテンツ上に重ね合わせられる。いくつかの実施例では、表示されたコンテンツは、電子デバイス上で再生中のメディアコンテンツを含み、メディアコンテンツは、テキスト形式の結果が表示されている間に再生し続ける。

いくつかの実施例では、処理ユニット１１０８は、ユーザ意図が複数の所定の要求種別のうちの１つでないとの判定を取得したことに応じて、第２のユーザ意図を少なくとも部分的に満足する結果を（例えば、取得ユニット１１２２を用いて）取得し、表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含むかどうかを（例えば、判定ユニット１１１４を用いて）判定するように更に構成される。処理ユニット１１０８は、表示されたコンテンツがメディアコンテンツを含むとの判定に従って、メディアコンテンツが一時停止されることができるかどうかを（例えば、判定ユニット１１１４）判定するように更に構成される。処理ユニット１１０８は、メディアコンテンツが一時停止されることができないとの判定に従って、表示ユニット上に、第２の結果の一部分を有する第２のユーザインターフェースを（例えば、表示可能化ユニット１１１０）表示するように更に構成される。表示ユニット上における第２のユーザインターフェースによって占有される表示区域は、表示ユニット上におけるメディアコンテンツによって占有される表示区域よりも小さい。

いくつかの実施例では、ユーザ意図は特定のロケーションの天気予報の要求を含む。ユーザ意図は、スポーツチーム又は運動選手に関連付けられた情報の要求を含む。いくつかの実施例では、ユーザ意図はメディア検索クエリでなく、第２の結果は、ユーザ意図を少なくとも部分的に満足するメディアコンテンツを有する１つ以上のメディアアイテムを含む。いくつかの実施例では、第２の結果は、ユーザ意図を少なくとも部分的に満足する非メディアデータを更に含む。いくつかの実施例では、ユーザ意図はメディア検索クエリであり、第２の結果は、メディア検索クエリに対応する複数のメディアアイテムを含む。

いくつかの実施例では、処理ユニット１１０８は、表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含まないとの判定に従って、表示ユニット上に、第２の結果の一部分を有する第３のユーザインターフェースを（例えば、表示可能化ユニット１１１０を用いて）表示するように更に構成され、第３のユーザインターフェースは表示ユニットの表示区域の過半を占有する。

いくつかの実施例では、表示コンテンツはメインメニューユーザインターフェースを含む。

いくつかの実施例では、表示されたコンテンツは、ユーザ入力を検出する前に受信された以前のユーザ要求に関連する以前の結果を有する第３のユーザインターフェースを含む。表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含まないとの判定に従って、第３のユーザインターフェース内における以前の結果の表示は第２の結果の表示と置換される。

いくつかの実施例では、処理ユニット１１０８は、表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含むとの判定に従って、表示されたコンテンツが、以前のユーザ要求からの以前の結果を有する第２のユーザインターフェースを含むかどうかを（例えば、判定ユニット１１１４を用いて）判定するように更に構成される。表示されたコンテンツが、以前のユーザ要求からの以前の結果を有する第２のユーザインターフェースを含むとの判定に従って、以前の結果は第２の結果と置換される。

いくつかの実施例では、処理ユニット１１０８は、メディアコンテンツが一時停止されることができるとの判定に従って、電子デバイス上におけるメディアコンテンツの再生を（例えば、タスク実行ユニット１１２０を用いて）一時停止し、表示ユニット上に、第２の結果の一部分を有する第３のユーザインターフェースを（例えば、表示可能化ユニット１１１０を用いて）表示するように更に構成され、第３のユーザインターフェースは表示ユニットの表示区域の過半を占有する。

いくつかの実施例では、処理ユニット１１０８は、音声データを、自然言語処理を実行するためにサーバへ（例えば、伝送ユニット１１２６を用いて、及び通信ユニット１１０７を使用して）伝送し、サーバに、音声データがメディアアプリケーションに関連付けられていることを（例えば、伝送ユニット１１２６を用いて）指示するように更に構成される。指示は、自然言語処理をメディア関連のユーザ意図へ偏向させる。

いくつかの実施例では、処理ユニット１１０８は、音声データを、発語テキスト化処理を実行するためにサーバへ（例えば、伝送ユニット１１２６）伝送するように更に構成される。

いくつかの実施例では、処理ユニット１１０８は、サーバに、音声データがメディアアプリケーションに関連付けられていることを（例えば、伝送ユニット１１２６を用いて）指示するように更に構成される。指示は発語テキスト化処理をメディア関連のテキスト結果へ偏向させる。

いくつかの実施例では、処理ユニット１１０８は、ユーザ発言のテキスト表現を（例えば、取得ユニット１１２２を用いて）取得するように更に構成され、テキスト表現は、音声データをサンプリングする前に受信された以前のユーザ発言に基づく。

いくつかの実施例では、テキスト表現は、音声データをサンプリングする前に以前のユーザ発言が受信された時間に基づく。

いくつかの実施例では、処理ユニット１１０８は、ユーザ意図が、電子デバイスに関連付けられた複数の中核能力のうちの１つに対応しないとの判定を（例えば、取得ユニット１１２２を用いて）取得するように更に構成される。処理ユニット１１０８は、第２の電子デバイスに、ユーザ意図を満足することを助成するためのタスクを（例えば、タスク実行ユニット１１２０を用いて）実行させるように更に構成される。

いくつかの実施例では、処理ユニット１１０８は、ユーザ発言が曖昧な用語を含むかどうかの判定を（例えば、取得ユニット１１２２を用いて）取得するように更に構成される。処理ユニット１１０８は、ユーザ発言が曖昧な用語を含むとの判定を取得したことに応じて、曖昧な用語に基づいて２つ以上のユーザ意図の候補を（例えば、取得ユニット１１２２を用いて）取得し、表示ユニット上に２つ以上のユーザ意図の候補を（例えば、表示可能化ユニット１１１０を用いて）表示するように更に構成される。

いくつかの実施例では、処理ユニット１１０８は、２つ以上のユーザ意図の候補を表示している間に、２つ以上のユーザ意図の候補のうちの１つのユーザ選択を（例えば、検出ユニット１１１２を用いて）受信するように更に構成される。ユーザ意図はユーザ選択に基づいて決定される。

いくつかの実施例では、処理ユニット１１０８は、第２のユーザ入力を（例えば、検出ユニットを用いて）検出するように更に構成される。処理ユニット１１０８は、第２のユーザ入力を検出したことに応じて、第２の音声データを（例えば、サンプリングユニット１１１６を用いて）サンプリングするように更に構成される。第２の音声データは、ユーザ選択を表現する第２のユーザ発言を含む。

いくつかの実施例では、２つ以上の解釈は、２つ以上のユーザ意図の候補に関連付けられた発語を出力することなく表示される。

いくつかの実施形態によれば、処理ユニット１１０８は、表示ユニット（例えば、表示ユニット１１０２又は別個の表示ユニット）上にコンテンツを（例えば、表示可能化ユニット１１１０を用いて）表示するように更に構成される。処理ユニット１１０８は、コンテンツを表示している間に、ユーザ入力を（例えば、検出ユニット１１１２を用いて）検出するように更に構成される。処理ユニット１１０８は、ユーザ入力を検出したことに応じて、表示ユニット上に仮想キーボードインターフェースを（例えば、表示可能化ユニット１１１０を用いて）表示するように更に構成される。処理ユニット１１０８は、第２の電子デバイスのディスプレイ上に選択可能なアフォーダンスを（例えば、タスク実行ユニット１１２０を用いて）出現させるように更に構成される。アフォーダンスの選択は、テキスト入力が第２の電子デバイスのキーボードを介して電子デバイスによって（例えば、通信ユニット１１０７を使用して）受信されることを可能にする。

いくつかの実施例では、処理ユニット１１０８は、第２の電子デバイスのキーボードを介してテキスト入力を（例えば、検出ユニット１１１２を用いて）受信するように更に構成され、テキスト入力はユーザ要求を表現する。処理ユニット１１０８は、ユーザ要求を少なくとも部分的に満足する結果を（例えば、取得ユニット１１２２を用いて）取得するし、表示ユニット上にユーザインターフェースを（例えば、表示可能化ユニット１１１０を用いて）表示するように更に構成され、ユーザインターフェースは結果の少なくとも一部分を含む。

いくつかの実施例では、表示されたコンテンツは、複数の例示的な自然言語要求を有する第２のユーザインターフェースを含む。いくつかの実施例では、表示されたコンテンツはメディアコンテンツを含む。いくつかの実施例では、表示されたコンテンツは、以前のユーザ要求からの結果を有する第３のユーザインターフェースを含み、第３のユーザインターフェースは表示ユニットの表示区域の少なくとも過半を占有する。いくつかの実施例では、仮想キーボードインターフェースは第３のユーザインターフェースの少なくとも一部分上に重ね合わせられる。いくつかの実施例では、ユーザ入力は電子デバイスの遠隔制御装置を介して検出され、遠隔制御装置と第２の電子デバイスとは異なるデバイスである。いくつかの実施例では、ユーザ入力は、遠隔制御デバイスのタッチ感知面上における所定の運動パターンを含む。いくつかの実施例では、ユーザ入力は第２の電子デバイスを介して検出される。

以上において図７Ａ〜図７Ｃ及び図９を参照して説明された動作は、任意選択的に、図１〜図３及び図４Ａに示される構成要素によって実施される。以上において図７Ａ〜図７Ｃ及び図９を参照して説明された動作は、任意選択的に、図１〜図３及び図４Ａ〜図４Ｂに示される構成要素によって実施される。例えば、表示動作７０２、７１６、７３２、７３６、７３８、７４２、７４６、９０２、９０６、９１４、検出動作７０４、７１８、９０４、９１０、判定動作７０８、７１０、７１２、７１４、７２０、７２４、７２８、７３６、７４０、サンプリング動作７０６、実行動作７２２、７２６、７４４、９０８、取得動作７３０、７３４、９１２、及び切り換え動作５５２、５６４は、オペレーティングシステム２５２、３５２、ＧＵＩモジュール２５６、３５６、アプリケーションモジュール２６２、３６２、デジタルアシスタントモジュール４２６、及びプロセッサ（単数又は複数）２０４、３０４、４０４のうちの１つ以上によって実施されてもよい。当業者にとって、他のプロセスが、図１〜図３及び図４Ａ〜図４Ｂに示される構成要素に基づいてどのように実施されるのかは明らかであろう。

いくつかの実施態様によると、コンピュータ可読記憶媒体（例えば、非一時的コンピュータ可読記憶媒体）が提供されており、このコンピュータ可読記憶媒体は、電子デバイスの１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶し、この１つ以上のプログラムは、本明細書に記載の方法のいずれかを行う命令を含む。

いくつかの実施態様によると、本明細書に記載のいずれかの方法を行うための手段を含む電子デバイス（例えば、ポータブル電子デバイス）が提供されている。

いくつかの実施態様によると、本明細書に記載のいずれかの方法を行うよう構成された処理ユニットを含む電子デバイス（例えば、ポータブル電子デバイス）が提供されている。

いくつかの実施態様によると、１つ以上のプロセッサ及び、１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶するメモリを含み、この１つ以上のプログラムは、本明細書に記載のいずれかの方法を行う命令を含む電子デバイス（例えば、ポータブル電子デバイス）が提供されている。

例示的な方法、非一時的コンピュータ可読記憶媒体、システム、及び電子デバイスが以下の項目において説明される。
１．メディアシステムのデジタルアシスタントを動作させるための方法であって、この方法は、
１つ以上のプロセッサ及びメモリを有する電子デバイスにおいて、
表示ユニット上にコンテンツを表示することと、
ユーザ入力を検出することと、
ユーザ入力が第１の入力形式に対応するかどうかを判定することと、
ユーザ入力が第１の入力形式に対応するとの判定に従って、
表示ユニット上に、複数の例示的な自然言語要求を表示することであって、複数の例示的な自然言語要求は、表示されたコンテンツにコンテクスト上関連し、複数の例示的な自然言語要求のうちの１つに対応するユーザ発言を受信することが、デジタルアシスタントにそれぞれのアクションを実行させる、ことと、
を含む方法。
２．ユーザ入力が電子デバイスの遠隔制御装置上において検出される、項目１に記載の方法。
３．第１の入力形式が、遠隔制御装置のボタンを押下し、ボタンを所定の期間以内に放すことを含む、項目２に記載の方法。
４．複数の例示的な自然言語要求が表示ユニット上に第１のユーザインターフェースを介して表示され、第１のユーザインターフェースは、表示されたコンテンツ上に重ね合わせられる、項目１から３のいずれか１つに記載の方法。
５．表示されたコンテンツがメディアコンテンツを含み、メディアコンテンツは、複数の例示的な自然言語要求を表示している間に再生し続ける、項目１から４のいずれか１つに記載の方法。
６．ユーザ入力が第１の入力形式に対応するとの判定に従って、表示ユニット上に、デジタルアシスタントが音声入力を処理していないことを指示する視覚的インジケータを表示することを更に含む、項目１から５のいずれか１つに記載の方法。
７．ユーザ入力が第１の入力形式に対応すると判定すると、複数の例示的な自然言語要求が所定の時間の後に表示ユニット上に表示される、項目１から６のいずれか１つに記載の方法。
８．複数の例示的な自然言語要求の各々が所定の順序で異なる時間に別個に表示される、項目１から７のいずれか１つに記載の方法。
９．複数の例示的な自然言語要求を表示することが、
例示的な自然言語要求の複数のリストを表示することであって、各リストは異なる時間に交代で表示される、ことを含む、項目１から８のいずれか１つに記載の方法。
１０．
ユーザ入力が第１の入力形式に対応しないとの判定に従って、
ユーザ入力が第２の入力形式に対応するかどうかを判定することと、
ユーザ入力が第２の入力形式に対応するとの判定に従って、
音声データをサンプリングすることと、
音声データがユーザ要求を包含するかどうかを判定することと、
音声データがユーザ要求を包含するとの判定に従って、ユーザ要求を少なくとも部分的に満足するタスクを実行することと、
を更に含む、項目１から９のいずれか１つに記載の方法。
１１．第２の入力形式が、電子デバイスの遠隔制御装置のボタンを押下し、ボタンを所定の期間よりも長い間、押さえておくことを含む、項目１０に記載の方法。
１２．
音声データがユーザ要求を包含しないとの判定に従って、表示ユニット上に、ユーザ意図の明確化の要求を表示することを更に含む、項目１０又は１１に記載の方法。
１３．表示されたコンテンツがメディアコンテンツを含み、メディアコンテンツは、音声データをサンプリングしている間、及びタスクを実行している間に、電子デバイス上で再生し続ける、項目１０から１２のいずれか１つに記載の方法。
１４．
メディアコンテンツに関連付けられた音声を出力することと、
ユーザ入力が第２の入力形式に対応するとの判定に従って、音声の振幅を低減させることと、
を更に含む、項目１３に記載の方法。
１５．タスクが、このタスクに関連する発語を電子デバイスから出力することなく実行される、項目１０から１４のいずれか１つに記載の方法。
１６．音声データが、ユーザ入力を検出している間にサンプリングされる、項目１０から１５のいずれか１つに記載の方法。
１７．音声データが、ユーザ入力を検出した後の所定の期間の間にサンプリングされる、項目１０から１５のいずれか１つに記載の方法。
１８．音声データが電子デバイスの遠隔制御装置上の第１のマイクロフォンを介してサンプリングされ、方法は、
音声データをサンプリングしている間に、遠隔制御装置上の第２のマイクロフォンを介して背景音声データをサンプリングすることと、
背景音声データを用いて音声データ内の背景ノイズを除去することと、
を更に含む、項目１０から１７のいずれか１つに記載の方法。
１９．表示されたコンテンツに関連付けられた音声が音声信号を介して電子デバイスから出力され、方法は、
音声信号を用いて音声データ内の背景ノイズを除去すること、
を更に含む、項目１０から１８のいずれか１つに記載の方法。
２０．
ユーザ入力を検出したことに応じて、表示ユニット上に、ユーザに、発語要求を提供するように促す視覚キューを表示することを更に含む、項目１０から１９のいずれか１つに記載の方法。
２１．実行されるタスクが、
ユーザ要求を少なくとも部分的に満足する結果を取得することと、
表示ユニット上に第２のユーザインターフェースを表示することであって、第２のユーザインターフェースは結果の一部分を含み、コンテンツの少なくとも一部分が、第２のユーザインターフェースが表示されている間に表示され続け、表示ユニット上における第２のユーザインターフェースの表示区域は表示ユニット上におけるコンテンツの少なくとも一部分の表示区域よりも小さい、ことと、
を含む、項目１０から２０のいずれか１つに記載の方法。
２２．第２のユーザインターフェースが、表示されたコンテンツ上に重ね合わせられる、項目２１に記載の方法。
２３．結果の部分が１つ以上のメディアアイテムを含み、方法は、
第２のユーザインターフェースを介して１つ以上のメディアアイテムのうちのメディアアイテムの選択を受信することと、
表示ユニット上に、選択されたメディアアイテムに関連付けられたメディアコンテンツを表示することと、
を更に含む、項目２１又は２２に記載の方法。
２４．
第２のユーザインターフェースを表示している間に、第２のユーザ入力を検出することと、
第２のユーザ入力を検出したことに応じて、第２のユーザインターフェースを表示するのを中止することと、
を更に含む、項目２１又は２２に記載の方法。
２５．第２のユーザ入力が電子デバイスの遠隔制御装置上で検出され、第２のユーザ入力が遠隔制御装置のタッチ感知面上における第１の所定の運動パターンを含む、項目２４に記載の方法。
２６．
第２のユーザインターフェースを表示している間に、第３のユーザ入力を検出することと、
第３のユーザ入力を検出したことに応じて、第２のユーザインターフェースの表示を表示ユニット上における第３のユーザインターフェースの表示と置換することであって、第３のユーザインターフェースは結果の少なくとも部分を含み、第３のユーザインターフェースは表示ユニットの表示区域の少なくとも過半を占有する、ことと、
を更に含む、項目２１又は２２に記載の方法。
２７．第３のユーザ入力が電子デバイスの遠隔制御装置上で検出され、第３のユーザ入力が遠隔制御装置のタッチ感知面上における第２の所定の運動パターンを含む、項目２６に記載の方法。
２８．
第３のユーザ入力の検出に応じて、
結果と異なる第２の結果を取得することであって、第２の結果はユーザ要求を少なくとも部分的に満足し、第３のユーザインターフェースが第２の結果の少なくとも一部分を含む、ことを更に含む、項目２６又は２７に記載の方法。
２９．第２の結果が、ユーザ入力を検出する前に受信されたユーザ要求に基づく、項目２８に記載の方法。
３０．第３のユーザ入力が検出される間に第２のユーザインターフェースのフォーカスが結果の部分のアイテム上にあり、第２の結果がアイテムにコンテクスト上関連する、項目２８又は２９に記載の方法。
３１．表示されたコンテンツがメディアコンテンツを含み、第３のユーザ入力を検出したことに応じて、電子デバイス上におけるメディアコンテンツの再生が一時停止される、項目２６から３０のいずれか１つに記載の方法。
３２．結果の少なくとも部分が１つ以上のメディアアイテムを含み、方法は、
第３のユーザインターフェースを介して１つ以上のメディアアイテムのうちのメディアアイテムの選択を受信することと、
表示ユニット上に、メディアアイテムに関連付けられたメディアコンテンツを表示することと、
を更に含む、項目２６から３１のいずれか１つに記載の方法。
３３．
第３のユーザインターフェースを表示している間に、表示ユニット上における方向に関連付けられた第４のユーザ入力を検出することと、
第４のユーザ入力を検出したことに応じて、
第３のユーザインターフェースのフォーカスを第１のアイテムから第３のユーザインターフェース上の第２のアイテムへ切り換えることであって、第２のアイテムは第１のアイテムに対して上記の方向に位置付けられている、ことと、
を更に含む、項目２６から３２のいずれか１つに記載の方法。
３４．
第３のユーザインターフェースを表示している間に、第５のユーザ入力を検出することと、
第５のユーザ入力を検出したことに応じて、
検索フィールドを表示することと、
表示ユニット上に仮想キーボードインターフェースを表示することであって、仮想キーボードインターフェースを介して受信された入力は検索フィールド内へのテキスト記入を生じさせる、ことと、
を更に含む、項目２６から３３のいずれか１つに記載の方法。
３５．
第３のユーザインターフェースを表示している間に、第６のユーザ入力を検出することと、
第６のユーザ入力を検出したことに応じて、
第２の音声データをサンプリングすることであって、第２の音声データは第２のユーザ要求を包含する、ことと、
第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるかどうかを判定することと、
第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるとの判定に従って、
第３のユーザインターフェースを介して結果のサブセットを表示することと、
を更に含む、項目２６から３４のいずれか１つに記載の方法。
３６．結果のサブセットが第３のユーザインターフェースの最上段に表示される、項目３５に記載の方法。
３７．
第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求でないとの判定に従って、
第２のユーザ要求を少なくとも部分的に満足する第３の結果を取得することと、
第３のユーザインターフェースを介して第３の結果の一部分を表示することと、
を更に含む、項目３５又は３６に記載の方法。
３８．第３の結果の部分が第３のユーザインターフェースの最上段に表示される、項目３７に記載の方法。
３９．
ユーザ要求又は第２のユーザ要求を少なくとも部分的に満足する第４の結果を取得することと、
第３のユーザインターフェースを介して第４の結果の一部分を表示することと、
を更に含む、項目３５から３８のいずれか１つに記載の方法。
４０．第４の結果の部分が第３のユーザインターフェースの最上段の後の段に表示される、項目３９に記載の方法。
４１．第６のユーザ入力が検出される間に第３のユーザインターフェースのフォーカスが第３のユーザインターフェースの１つ以上のアイテム上にあり、第４の結果が１つ以上のアイテムにコンテクスト上関連する、項目３９又は４０に記載の方法。
４２．
第３のユーザインターフェースを表示している間に、第７のユーザ入力を検出することと、
第７のユーザ入力を検出したことに応じて、第３のユーザインターフェースを表示するのを中止することと、
を更に含む、項目２６から４１のいずれか１つに記載の方法。
４３．表示されたコンテンツがメディアコンテンツであり、第３のユーザ入力を検出したことに応じて電子デバイス上におけるメディアコンテンツの再生が一時停止され、第７のユーザ入力を検出したことに応じて電子デバイス上におけるメディアコンテンツの再生が再開される、項目４２に記載の方法。
４４．第７のユーザ入力が、電子デバイスの遠隔制御装置のメニューボタンを押下することを含む、項目４２又は４３に記載の方法。
４５．メディアシステムのデジタルアシスタントを動作させるための方法であって、この方法は、
１つ以上のプロセッサ及びメモリを有する電子デバイスにおいて、
表示ユニット上にコンテンツを表示することと、
コンテンツを表示している間に、ユーザ入力を検出することと、
ユーザ入力を検出したことに応じて、
表示ユニット上にユーザインターフェースを表示することであって、ユーザインターフェースは、表示されたコンテンツにコンテクスト上関連する複数の例示的な自然言語要求を含み、複数の例示的な自然言語要求のうちの１つに対応するユーザ発言を受信することが、デジタルアシスタントにそれぞれのアクションを実行させる、ことと、
を含む方法。
４６．表示されたコンテンツがメディアコンテンツを含む、項目４５に記載の方法。
４７．複数の例示的な自然言語要求が、メディアコンテンツに関連付けられた１つ以上の設定を変更せよとの自然言語要求を含む、項目４６に記載の方法。
４８．メディアコンテンツが、ユーザインターフェースが表示されている間に再生し続ける、項目４６又は４７に記載の方法。
４９．
メディアコンテンツに関連付けられた音声を出力することであって、ユーザ入力を検出したことに応じて音声の振幅が低減させられない、ことを更に含む、項目４６から４８のいずれか１つに記載の方法。
５０．表示されたコンテンツがメインメニューユーザインターフェースを含む、項目４５に記載の方法。
５１．複数の例示的な自然言語要求が、デジタルアシスタントの複数の中核能力の各々に関連する例示的な自然言語要求を含む、項目５０に記載の方法。
５２．表示されたコンテンツが、以前のユーザ要求に関連付けられた結果を有する第２のユーザインターフェースを含む、項目４５に記載の方法。
５３．複数の例示的な自然言語要求が、結果を絞り込めとの自然言語要求を含む、項目５２に記載の方法。
５４．ユーザインターフェースが、デジタルアシスタントを呼び出し、それと対話するためのテキストによる教示を含む、項目４５から５３のいずれか１つに記載の方法。
５５．ユーザインターフェースが、デジタルアシスタントが音声入力を受信していないことを指示する視覚的インジケータを含む、項目４５から５４のいずれか１つに記載の方法。
５６．ユーザインターフェースが、表示されたコンテンツ上に重ね合わせられる、項目４５から５５のいずれか１つに記載の方法。
５７．
ユーザ入力を検出したことに応じて、ユーザインターフェースを目立たせるために、表示されたコンテンツの明るさを低減させることを更に含む、項目４５から５６のいずれか１つに記載の方法。
５８．ユーザ入力が電子デバイスの遠隔制御装置上において検出される、項目４５から５７のいずれか１つに記載の方法。
５９．ユーザ入力が、遠隔制御デバイスのボタンを押下し、ボタンを、ボタンを押下した後の所定の期間以内に放すことを含む、項目５８に記載の方法。
６０．ボタンが、デジタルアシスタントを呼び出すように構成される、項目５９に記載の方法。
６１．ユーザインターフェースが、仮想キーボードインターフェースを表示するためのテキストによる教示を含む、項目４５から６０のいずれか１つに記載の方法。
６２．
ユーザインターフェースを表示した後に、第２のユーザ入力を検出することと、
第２のユーザ入力を検出したことに応じて、表示ユニット上に仮想キーボードインターフェースを表示することと、
を更に含む、項目４５から６１のいずれか１つに記載の方法。
６３．
ユーザインターフェースのフォーカスをユーザインターフェース上の検索フィールドへ変更することを更に含む、項目６２に記載の方法。
６４．検索フィールドが、仮想キーボードインターフェースを介してテキスト検索クエリを受信するように構成される、項目６３に記載の方法。
６５．仮想キーボードインターフェースが、デジタルアシスタントと対話するために用いられることができない、項目４５から６４のいずれか１つに記載の方法。
６６．第２のユーザ入力が、電子デバイスの遠隔制御デバイスのタッチ感知面上における所定の運動パターンを含む、項目４５から６５のいずれか１つに記載の方法。
６７．複数の例示的な自然言語要求が、ユーザ入力を検出した後の所定の時間における表示である、項目４５から６６のいずれか１つに記載の方法。
６８．複数の例示的な自然言語要求を表示することが、
複数の例示的な自然言語要求の各々を所定の順序で１つずつ表示することを更に含む、項目４５から６７のいずれか１つに記載の方法。
６９．順次表示することが、
複数の例示的な自然言語要求のうちの以前に表示された例示的な自然言語要求の表示を複数の例示的な自然言語要求のうちの後続の例示的な自然言語要求と置換することを更に含む、項目６８に記載の方法。
７０．コンテンツが、１つ以上のアイテムを有する第２のユーザインターフェースを含み、ユーザ入力が検出された時に第２のユーザインターフェースのフォーカスが１つ以上のアイテムのうちのアイテム上にあり、複数の例示的な自然言語要求が１つ以上のアイテムのうちのアイテムにコンテクスト上関連する、項目４５から６９のいずれか１つに記載の方法。
７１．メディアシステムのデジタルアシスタントを動作させるための方法であって、この方法は、
１つ以上のプロセッサ及びメモリを有する電子デバイスにおいて、
表示ユニット上にコンテンツを表示することと、
ユーザ入力を検出することと、
ユーザ入力を検出したことに応じて、
自然言語発言の１つ以上の提案例を表示することであって、１つ以上の提案例は、表示されたコンテンツにコンテクスト上関連し、ユーザによって発言されると、デジタルアシスタントに、対応するアクションを実行させる、ことと、
を含む方法。
７２．
第２のユーザ入力を検出することと、
第２のユーザ入力の検出に応じて、
音声データをサンプリングすることと、
サンプリングされた音声データが自然言語発言の１つ以上の提案例のうちの１つを包含するかどうかを判定することと、
サンプリングされた音声データが自然言語発言の１つ以上の提案例のうちの１つを包含するとの判定に従って、発言に対する対応するアクションを実行することと、
を更に含む、項目７１に記載の方法。
７３．メディアシステムのデジタルアシスタントを動作させるための方法であって、この方法は、
１つ以上のプロセッサ及びメモリを有する電子デバイスにおいて、
表示ユニット上にコンテンツを表示することと、
コンテンツを表示している間に、ユーザ入力を検出することと、
ユーザ入力を検出したことに応じて、音声データをサンプリングすることであって、音声データはユーザ発言を含む、ことと、
ユーザ発言に対応するユーザ意図の決定を取得することと、
ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含むかどうかの判定を取得することと、
ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含むとの判定を取得したことに応じて、アプリケーションの状態又は設定を、ユーザ意図を満足するように調整することと、
を含む方法。
７４．電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求が、特定のメディアアイテムを再生せよとの要求を含み、アプリケーションの状態又は設定を、ユーザ意図を満足するように調整することが、特定のメディアアイテムを再生することを含む、項目７３に記載の方法。
７５．表示されたコンテンツが、メディアアイテムを有するユーザインターフェースを含み、ユーザ発言が、再生されるべき特定のメディアアイテムを明示的に限定せず、方法は、
ユーザインターフェースのフォーカスがメディアアイテム上にあるかどうかを判定することと、
ユーザインターフェースのフォーカスがメディアアイテム上にあるとの判定に従って、メディアアイテムを、再生されるべき特定のメディアアイテムとして特定することと、
を更に含む、項目７４に記載の方法。
７６．電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求が、電子デバイス上のアプリケーションを起動せよとの要求を含む、項目７３に記載の方法。
７７．表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含み、状態又は設定が、電子デバイス上で再生されているメディアコンテンツに関連する、項目７３に記載の方法。
７８．電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求が、電子デバイス上で再生中のメディアコンテンツを早送り又は巻き戻しせよとの要求を含む、項目７７に記載の方法。
７９．電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求が、メディアコンテンツの特定の部分を再生するためにメディアコンテンツ内で前方又は後方へ飛び越せとの要求を含む、項目７７に記載の方法。
８０．電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求が、電子デバイス上におけるメディアコンテンツの再生を一時停止せよとの要求を含む、項目７７に記載の方法。
８１．電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求が、メディアコンテンツの字幕をオンにするか、又はオフにせよとの要求を含む、項目７７に記載の方法。
８２．
表示されたコンテンツが、第１のメディアアイテム及び第２のメディアアイテムを有するユーザインターフェースを含み、
電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求が、ユーザインターフェースのフォーカスを第１のメディアアイテムから第２のメディアアイテムへ切り換えよとの要求を含み、
アプリケーションの状態又は設定を、ユーザ意図を満足するように調整することが、ユーザインターフェースのフォーカスを第１のメディアアイテムから第２のメディアアイテムへ切り換えることを含む、項目７３に記載の方法。
８３．
表示されたコンテンツが、メディアデバイス上で再生中のメディアコンテンツを含み、
ユーザ発言が、ユーザが、メディアコンテンツに関連付けられた音声の一部分が聞こえなかったことを指示する自然言語表現であり、
電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求が、ユーザが聞こえなかった音声の部分に対応するメディアコンテンツの一部分を再生し直せとの要求を含み、
アプリケーションの状態又は設定を調整することが、
メディアコンテンツをメディアコンテンツの以前の部分まで所定の量だけ巻き戻すことと、
メディアコンテンツの再生を以前の部分から再スタートすることと、
を含む、項目７３に記載の方法。
８４．アプリケーションの状態又は設定を調整することが、
メディアコンテンツの再生を以前の部分から再スタートする前にクローズドキャプションをオンにすることを更に含む、項目８３に記載の方法。
８５．
電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求が、メディアコンテンツに関連付けられた音声の音量を上げよとの要求を更に含み、
アプリケーションの状態又は設定を調整することが、メディアコンテンツの再生を以前の部分から再スタートする前に、メディアコンテンツに関連付けられた音声の音量を上げることを更に含む、
項目８３又は８４に記載の方法。
８６．
メディアコンテンツに関連付けられた音声内の発語がテキストに変換され、
アプリケーションの状態又は設定を調整することが、メディアコンテンツの再生を以前の部分から再スタートする間にテキストの一部分を表示することを更に含む、
項目８３又は８４に記載の方法。
８７．ユーザ発言に対応するユーザ意図の決定を取得することが、
ユーザ発言に関連付けられたユーザの感情の判定を取得することであって、ユーザ意図は、判定されたユーザの感情に基づいて決定される、ことを更に含む、項目７３から８５のいずれか１つに記載の方法。
８８．
ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含まないとの判定を取得したことに応じて、ユーザ意図が複数の所定の要求種別のうちの１つであるかどうかの判定を取得することと、
ユーザ意図が複数の所定の要求種別のうちの１つであるとの判定を取得したことに応じて、
ユーザ意図を少なくとも部分的に満足する結果を取得することと、
表示ユニット上に、結果をテキスト形式で表示することと、
を更に含む、項目７３から８７のいずれか１つに記載の方法。
８９．複数の所定の要求種別が、特定のロケーションにおける現在の時間の要求を含む、項目８８に記載の方法。
９０．複数の所定の要求種別が、ジョークを提示せよとの要求を含む、項目８８に記載の方法。
９１．複数の所定の要求種別が、電子デバイス上で再生されているメディアコンテンツに関する情報の要求を含む、項目８８に記載の方法。
９２．テキスト形式の結果が、表示されたコンテンツ上に重ね合わせられる、項目８８から９１のいずれか１つに記載の方法。
９３．表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含み、メディアコンテンツは、テキスト形式の結果が表示されている間に再生し続ける、項目８８から９２のいずれか１つに記載の方法。
９４．
ユーザ意図が複数の所定の要求種別のうちの１つでないとの判定を取得したことに応じて、
ユーザ意図を少なくとも部分的に満足する第２の結果を取得することと、
表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含むかどうかを判定することと、
表示されたコンテンツがメディアコンテンツを含むとの判定に従って、
メディアコンテンツが一時停止されることができるかどうかを判定することと、
メディアコンテンツが一時停止されることができないとの判定に従って、表示ユニット上に、第２の結果の一部分を有する第２のユーザインターフェースを表示することであって、表示ユニット上における第２のユーザインターフェースによって占有される表示区域は、表示ユニット上におけるメディアコンテンツによって占有される表示区域よりも小さい、ことと、
を更に含む、項目８８から９３のいずれか１つに記載の方法。
９５．ユーザ意図が特定のロケーションの天気予報の要求を含む、項目９４に記載の方法。
９６．ユーザ意図が、スポーツチーム又は運動選手に関連付けられた情報の要求を含む、項目９４に記載の方法。
９７．ユーザ意図がメディア検索クエリでなく、第２の結果が、ユーザ意図を少なくとも部分的に満足するメディアコンテンツを有する１つ以上のメディアアイテムを含む、項目９４から９６のいずれか１つに記載の方法。
９８．第２の結果が、ユーザ意図を少なくとも部分的に満足する非メディアデータを更に含む、項目９７に記載の方法。
９９．ユーザ意図がメディア検索クエリであり、第２の結果が、メディア検索クエリに対応する複数のメディアアイテムを含む、項目９４に記載の方法。
１００．
表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含まないとの判定に従って、表示ユニット上に、第２の結果の一部分を有する第３のユーザインターフェースを表示することであって、第３のユーザインターフェースは表示ユニットの表示区域の過半を占有する、ことを更に含む、項目９４から９９のいずれか１つに記載の方法。
１０１．表示コンテンツがメインメニューユーザインターフェースを含む、項目１００に記載の方法。
１０２．
表示されたコンテンツが、ユーザ入力を検出する前に受信された以前のユーザ要求に関連する以前の結果を有する第３のユーザインターフェースを含み、
表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含まないとの判定に従って、第３のユーザインターフェース内における以前の結果の表示が第２の結果の表示と置換される、
項目１００に記載の方法。
１０３．
表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含むとの判定に従って、
表示されたコンテンツが、以前のユーザ要求からの以前の結果を有する第２のユーザインターフェースを含むかどうかを判定することであって、表示されたコンテンツが、以前のユーザ要求からの以前の結果を有する第２のユーザインターフェースを含むとの判定に従って、以前の結果は第２の結果と置換される、ことを更に含む、項目９４から１０２のいずれか１つに記載の方法。
１０４．
メディアコンテンツが一時停止されることができるとの判定に従って、
電子デバイス上におけるメディアコンテンツの再生を一時停止することと、
表示ユニット上に、第２の結果の一部分を有する第３のユーザインターフェースを表示することであって、第３のユーザインターフェースは表示ユニットの表示区域の過半を占有する、ことと、
を更に含む、項目９４から１０３のいずれか１つに記載の方法。
１０５．
音声データを、自然言語処理を実行するためにサーバへ伝送することと、
サーバに、音声データがメディアアプリケーションに関連付けられていることを指示することであって、指示することは、自然言語処理をメディア関連のユーザ意図へ偏向させる、ことと、
を更に含む、項目７３から１０４のいずれか１つに記載の方法。
１０６．
音声データを、発語テキスト化処理を実行するためにサーバへ伝送することを更に含む、項目７３から１０５のいずれか１つに記載の方法。
１０７．
サーバに、音声データがメディアアプリケーションに関連付けられていることを指示することであって、指示することは、発語テキスト化処理をメディア関連のテキスト結果へ偏向させる、ことを更に含む、項目１０６に記載の方法。
１０８．
ユーザ発言のテキスト表現を取得することであって、テキスト表現は、音声データをサンプリングする前に受信された以前のユーザ発言に基づく、ことを更に含む、項目１０６又は１０７に記載の方法。
１０９．テキスト表現が、音声データをサンプリングする前に以前のユーザ発言が受信された時間に基づく、項目１０８に記載の方法。
１１０．
ユーザ意図が、電子デバイスに関連付けられた複数の中核能力のうちの１つに対応しないとの判定を取得することと、
第２の電子デバイスに、ユーザ意図を満足することを助成するためのタスクを実行させることと、
を更に含む、項目７３から１０９のいずれか１つに記載の方法。
１１１．ユーザ意図の決定を取得することが、
ユーザ発言が曖昧な用語を含むかどうかの判定を取得することと、
ユーザ発言が曖昧な用語を含むとの判定を取得したことに応じて、
曖昧な用語に基づいて２つ以上のユーザ意図の候補を取得することと、
表示ユニット上に２つ以上のユーザ意図の候補を表示することと、
を更に含む、項目７３から１１０のいずれか１つに記載の方法。
１１２．
２つ以上のユーザ意図の候補を表示している間に、２つ以上のユーザ意図の候補のうちの１つのユーザ選択を受信することを更に含み、ユーザ意図が、ユーザ選択に基づいて決定される、項目１１１に記載の方法。
１１３．ユーザ選択を受信することが、
第２のユーザ入力を検出することと、
第２のユーザ入力を検出したことに応じて、第２の音声データをサンプリングすることであって、第２の音声データは、ユーザ選択を表現する第２のユーザ発言を含む、ことと、
を更に含む、項目１１２に記載の方法。
１１４．２つ以上の解釈が、２つ以上のユーザ意図の候補に関連付けられた発語を出力することなく表示される、項目１１１から１１３のいずれか１つに記載の方法。
１１５．メディアシステムのデジタルアシスタントを動作させるための方法であって、この方法は、
１つ以上のプロセッサ及びメモリを有する電子デバイスにおいて、
表示ユニット上にコンテンツを表示することと、
コンテンツを表示している間に、ユーザ入力を検出することと、
ユーザ入力を検出したことに応じて、音声データをサンプリングすることであって、音声データは、メディア検索要求を表現するユーザ発言を含む、ことと、
メディア検索要求を満足する複数のメディアアイテムを取得することと、
表示ユニット上に、ユーザインターフェースを介して複数のメディアアイテムの少なくとも一部分を表示することと、
を含む方法。
１１６．複数のメディアアイテムの少なくとも一部分が表示されている間に、コンテンツが表示ユニット上に表示され続け、ユーザインターフェースによって占有される表示区域が、コンテンツによって占有される表示区域よりも小さい、項目１１５に記載の方法。
１１７．
複数のメディアアイテム内のメディアアイテムの数が所定の数以下であるかどうかを判定することを更に含み、複数のメディアアイテム内のメディアアイテムの数が所定の数以下であるとの判定に従って、複数のメディアアイテムの少なくとも一部分が複数のメディアアイテムを含む、項目１１５又は１１６に記載の方法。
１１８．複数のメディアアイテム内のメディアアイテムの数が所定の数よりも大きいとの判定に従って、複数のメディアアイテムの少なくとも一部分内のメディアアイテムの数が所定の数に等しい、項目１１７に記載の方法。
１１９．複数のメディアアイテムの各々が、メディア検索要求に関する関連性スコアに関連付けられ、複数のメディアアイテムの少なくとも一部分の関連性スコアが複数のメディアアイテムの間で最も高い、項目１１５から１１８のいずれか１つに記載の方法。
１２０．複数のメディアアイテムの少なくとも一部分の各々が人気格付けに関連付けられ、複数のメディアアイテムの少なくとも一部分がユーザインターフェース内において人気格付けに基づいて配列される、項目１１５から１１９のいずれか１つに記載の方法。
１２１．
複数のメディアアイテムの少なくとも一部分を表示している間に、第２のユーザ入力を検出することと、
第２のユーザ入力を検出したことに応じて、ユーザインターフェースを、表示ユニットの表示区域の少なくとも過半を占有するように拡大することと、
を更に含む、項目１１５から１２０のいずれか１つに記載の方法。
１２２．
第２のユーザ入力の検出に応じて、
複数のメディアアイテム内のメディアアイテムの数が所定の数以下であるかどうかを判定することと、
複数のメディアアイテム内のメディアアイテムの数が所定の数以下であるとの判定に従って、
メディア検索要求を少なくとも部分的に満足する第２の複数のメディアアイテムを取得することであって、第２の複数のメディアアイテムはメディアアイテムの少なくとも一部分と異なる、ことと、
拡大されたユーザインターフェースを介して、表示ユニット上に第２の複数のメディアアイテムを表示することと、
を更に含む、項目１２１に記載の方法。
１２３．
メディア検索要求が、１つを超える検索パラメータを含むかどうかを判定することを更に含み、メディア検索要求が、１つを超える検索パラメータを含むとの判定に従って、第２の複数のメディアアイテムが、拡大されたユーザインターフェース内において、メディア検索要求の１つを超える検索パラメータに従って整理される、項目１２２に記載の方法。
１２４．
複数のメディアアイテム内のメディアアイテムの数が所定の数よりも大きいとの判定に従って、
拡大されたユーザインターフェースを介して複数のメディアアイテムの少なくとも第２の部分を表示することであって、複数のメディアアイテムの少なくとも第２の部分は複数のメディアアイテムの少なくとも一部分と異なる、ことを更に含む、項目１２２又は１２３に記載の方法。
１２５．複数のメディアアイテムの少なくとも第２の部分が２つ以上のメディア種別を含み、複数のメディアアイテムの少なくとも第２の部分が、拡大されたユーザインターフェース内において、２つ以上のメディア種別の各メディア種別に従って整理される、項目１２４に記載の方法。
１２６．
第３のユーザ入力を検出することと、
第３のユーザ入力を検出したことに応じて、拡大されたユーザインターフェースをスクロールさせることと、
拡大されたユーザインターフェースが、拡大されたユーザインターフェース上の所定の位置を越えてスクロールしたかどうかを判定することと、
拡大されたユーザインターフェースが、拡大されたユーザインターフェース上の所定の位置を越えてスクロールしたと判定したことに応じて、拡大されたユーザインターフェース上に複数のメディアアイテムの少なくとも第３の部分を表示することであって、複数のメディアアイテムの少なくとも第３の部分は、拡大されたユーザインターフェース上において、第３の複数のメディアアイテムに関連付けられた１つ以上のメディアコンテンツプロバイダに従って整理される、ことと、
を更に含む、項目１２２から１２５のいずれか１つに記載の方法。
１２７．メディアシステムのデジタルアシスタントを動作させるための方法であって、この方法は、
１つ以上のプロセッサ及びメモリを有する電子デバイスにおいて、
表示ユニット上にコンテンツを表示することと、
コンテンツを表示している間に、ユーザ入力を検出することと、
ユーザ入力を検出したことに応じて、
表示ユニット上に仮想キーボードインターフェースを表示することと、
第２の電子デバイスのディスプレイ上に選択可能なアフォーダンスを出現させることであって、アフォーダンスの選択は、テキスト入力が第２の電子デバイスのキーボードを介して電子デバイスによって受信されることを可能にする、ことと、
を含む方法。
１２８．
第２の電子デバイスのキーボードを介してテキスト入力を受信することであって、テキスト入力はユーザ要求を表現する、ことと、
ユーザ要求を少なくとも部分的に満足する結果を取得することと、
表示ユニット上にユーザインターフェースを表示することであって、ユーザインターフェースは結果の少なくとも一部分を含む、ことと、
を更に含む、項目１２７に記載の方法。
１２９．表示されたコンテンツが、複数の例示的な自然言語要求を有する第２のユーザインターフェースを含む、項目１２７又は１２８に記載の方法。
１３０．表示されたコンテンツがメディアコンテンツを含む、項目１２９に記載の方法。
１３１．表示されたコンテンツが、以前のユーザ要求からの結果を有する第３のユーザインターフェースを含み、第３のユーザインターフェースは表示ユニットの表示区域の少なくとも過半を占有する、項目１２７又は１２８に記載の方法。
１３２．仮想キーボードインターフェースが第３のユーザインターフェースの少なくとも一部分上に重ね合わせられる、項目１３１に記載の方法。
１３３．ユーザ入力が電子デバイスの遠隔制御装置を介して検出され、遠隔制御装置と第２の電子デバイスとは異なるデバイスである、項目１２７から１３２のいずれか１つに記載の方法。
１３４．ユーザ入力が、遠隔制御デバイスのタッチ感知面上における所定の運動パターンを含む、項目１３３に記載の方法。
１３５．ユーザ入力が第２の電子デバイスを介して検出される、項目１２７から１３２のいずれか１つに記載の方法。
１３６．項目１から１３５のいずれか１つに記載の方法を実行するコンピュータ実行可能命令を備える、非一時的コンピュータ可読記憶媒体。
１３７．
項目１３６に記載の非一時的コンピュータ可読記憶媒体と、
コンピュータ実行可能命令を実行するように構成されたプロセッサと、
を備えるシステム。
１３８．項目１から１３５のいずれか１つに記載の方法を実行する手段を備える装置。
１３９．電子デバイスであって、
ユーザ入力を受信するように構成された入力ユニットと、
入力ユニットに結合された処理ユニットと、
を備え、処理ユニットは、
表示ユニット上にコンテンツを表示し、
入力ユニットを介してユーザ入力を検出し、
ユーザ入力が第１の入力形式に対応するかどうかを判定し、
ユーザ入力が第１の入力形式に対応するとの判定に従って、
表示ユニット上に、複数の例示的な自然言語要求を表示する
ように構成され、複数の例示的な自然言語要求は、表示されたコンテンツにコンテクスト上関連し、複数の例示的な自然言語要求のうちの１つに対応するユーザ発言を受信することが、デジタルアシスタントにそれぞれのアクションを実行させる、電子デバイス。
１４０．処理ユニットに結合された音声入力ユニットを更に含み、処理ユニットは、
ユーザ入力が第１の入力形式に対応しないとの判定に従って、
ユーザ入力が第２の入力形式に対応するかどうかを判定し、
ユーザ入力が第２の入力形式に対応するとの判定に従って、
音声入力ユニットを用いて音声データをサンプリングし、
音声データがユーザ要求を包含するかどうかを判定し、
音声データがユーザ要求を包含するとの判定に従って、ユーザ要求を少なくとも部分的に満足するタスクを実行する
ように更に構成される、項目１３９に記載の電子デバイス。
１４１．処理ユニットが、
ユーザ要求を少なくとも部分的に満足する結果を取得し、
表示ユニット上に第２のユーザインターフェースを表示する
ように更に構成され、第２のユーザインターフェースは結果の一部分を含み、コンテンツの少なくとも一部分が、第２のユーザインターフェースが表示されている間に表示され続け、表示ユニット上における第２のユーザインターフェースの表示区域は表示ユニット上におけるコンテンツの少なくとも一部分の表示区域よりも小さい、項目１３９又は１４０に記載の電子デバイス。
１４２．処理ユニットが、
第２のユーザインターフェースを表示している間に、入力ユニットを介して第２のユーザ入力を検出し、
第２のユーザ入力を検出したことに応じて、第２のユーザインターフェースを表示するのを中止する
ように更に構成される、項目１４１に記載の電子デバイス。
１４３．処理ユニットが、
第２のユーザインターフェースを表示している間に、入力ユニットを介して第３のユーザ入力を検出し、
第３のユーザ入力を検出したことに応じて、第２のユーザインターフェースの表示を表示ユニット上における第３のユーザインターフェースの表示と置換する
ように更に構成され、第３のユーザインターフェースは結果の少なくとも部分を含み、第３のユーザインターフェースは表示ユニットの表示区域の少なくとも過半を占有する、項目１４１又は１４２に記載の電子デバイス。
１４４．処理ユニットが、
第３のユーザインターフェースを表示している間に、入力ユニットを介して、表示ユニット上における方向に関連付けられた第４のユーザ入力を検出し、
第４のユーザ入力を検出したことに応じて、
第３のユーザインターフェースのフォーカスを第１のアイテムから第３のユーザインターフェース上の第２のアイテムへ切り換える
ように更に構成され、第２のアイテムは第１のアイテムに対して上記の方向に位置付けられている、項目１４３に記載の電子デバイス。
１４５．処理ユニットが、
第３のユーザインターフェースを表示している間に、入力ユニットを介して第５のユーザ入力を検出し、
第５のユーザ入力を検出したことに応じて、
検索フィールドを表示し、
表示ユニット上に仮想キーボードインターフェースを表示する
ように更に構成され、仮想キーボードインターフェースを介して受信された入力は検索フィールド内へのテキスト記入を生じさせる、項目１４３又は１４４に記載の電子デバイス。
１４６．処理ユニットが、
第３のユーザインターフェースを表示している間に、入力ユニットを介して第６のユーザ入力を検出し、
第６のユーザ入力を検出したことに応じて、
第２の音声データであって、第２の音声データは第２のユーザ要求を包含する、第２の音声データをサンプリングし、
第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるかどうかを判定し、
第２のユーザ要求が、ユーザ要求の結果を絞り込めとの要求であるとの判定に従って、
第３のユーザインターフェースを介して結果のサブセットを表示する
ように更に構成される、項目１４３から１４５のいずれか１つに記載の電子デバイス。
１４７．電子デバイスであって、
ユーザ入力を受信するように構成された入力ユニットと、
音声データを受信するように構成された音声入力ユニットと、
入力ユニット及び音声入力ユニットに結合された処理ユニットと、を備え、処理ユニットは、
表示ユニット上にコンテンツを表示し、
コンテンツを表示している間に、入力ユニットを介してユーザ入力を検出し、
ユーザ入力を検出したことに応じて、音声入力ユニットを用いて音声データであって、サンプリングされた音声データはユーザ発言を含む、音声データをサンプリングし、
ユーザ発言に対応するユーザ意図の決定を取得し、
ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含むかどうかの判定を取得し、
ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含むとの判定を取得したことに応じて、アプリケーションの状態又は設定を、ユーザ意図を満足するように調整する
ように構成される、電子デバイス。
１４８．処理ユニットが、
ユーザ意図が、電子デバイス上のアプリケーションの状態又は設定を調整せよとの要求を含まないとの判定を取得したことに応じて、ユーザ意図が複数の所定の要求種別のうちの１つであるかどうかの判定を取得し、
ユーザ意図が複数の所定の要求種別のうちの１つであるとの判定を取得したことに応じて、
ユーザ意図を少なくとも部分的に満足する結果を取得し、
表示ユニット上に、結果をテキスト形式で表示する
ように更に構成される、項目１４７に記載の電子デバイス。
１４９．処理ユニットが、
ユーザ意図が複数の所定の要求種別のうちの１つでないとの判定を取得したことに応じて、
ユーザ意図を少なくとも部分的に満足する第２の結果を取得し、
表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含むかどうかを判定し、
表示されたコンテンツがメディアコンテンツを含むとの判定に従って、
メディアコンテンツが一時停止されることができるかどうかを判定し、
メディアコンテンツが一時停止されることができないとの判定に従って、表示ユニット上に、第２の結果の一部分を有する第２のユーザインターフェースを表示する
ように更に構成され、表示ユニット上における第２のユーザインターフェースによって占有される表示区域は、表示ユニット上におけるメディアコンテンツによって占有される表示区域よりも小さい、項目１４８に記載の電子デバイス。
１５０．処理ユニットが、
表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含まないとの判定に従って、表示ユニット上に、第２の結果の一部分を有する第３のユーザインターフェースを表示する
ように更に構成され、第３のユーザインターフェースは表示ユニットの表示区域の過半を占有する、項目１４９に記載の電子デバイス。
１５１．処理ユニットが、
メディアコンテンツが一時停止されることができるとの判定に従って、
電子デバイス上におけるメディアコンテンツの再生を一時停止し、
表示ユニット上に、第２の結果の一部分を有する第３のユーザインターフェースを表示する
ように更に構成され、第３のユーザインターフェースは表示ユニットの表示区域の過半を占有する、項目１４９に記載の電子デバイス。
１５２．電子デバイスであって、
ユーザ入力を受信するように構成された入力ユニットと、
入力ユニットに結合された処理ユニットと、
を備え、処理ユニットは、
表示ユニット上にコンテンツを表示し、
コンテンツを表示している間に、入力ユニットを介してユーザ入力を検出し、
ユーザ入力を検出したことに応じて、
表示ユニット上に仮想キーボードインターフェースを表示し、
第２の電子デバイスのディスプレイ上に選択可能なアフォーダンスを出現させる
ように構成され、アフォーダンスの選択は、テキスト入力が第２の電子デバイスのキーボードを介して電子デバイスによって受信されることを可能にする、電子デバイス。
１５３．処理ユニットが、
第２の電子デバイスのキーボードを介してテキスト入力であって、テキスト入力はユーザ要求を表現する、テキスト入力を受信し、
ユーザ要求を少なくとも部分的に満足する結果を取得し、
表示ユニット上にユーザインターフェースを表示する
ように更に構成され、ユーザインターフェースは結果の少なくとも一部分を含む、項目１５２に記載の電子デバイス。

上述の説明は、様々な要素を説明するために「第１」、「第２」などの用語を使用しているが、これらの要素はこれらの用語によって限定されるべきではない。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、説明されている様々な実施形態の範囲から逸脱することなく、第１のユーザ入力は第２のユーザ入力と称することができ、同様に、第２のユーザ入力は第１のユーザ入力と称することができるであろう。第１のユーザ入力及び第２のユーザ入力はどちらもユーザ入力であるが、それらは同じタッチではない。

本明細書で説明される様々な実施形態の説明で使用される用語法は、特定の実施形態を説明することのみを目的とするものであって、限定することを意図するものではない。説明される様々な実施形態の説明及び添付の特許請求の範囲で使用されるとき、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈がそうではないことを明確に示さない限り、複数形もまた含むことが意図される。本明細書で使用される時に、用語「及び／又は」が、関連する列挙された項目のうちの１つ以上のすべての可能な任意の組み合わせを指し、かつこれを含むことをもまた理解されたい。更に、用語「ｉｎｃｌｕｄｅｓ（含む）」、「ｉｎｃｌｕｄｉｎｇ（含む）」、「ｃｏｍｐｒｉｓｅｓ（備える）」、及び／又は「ｃｏｍｐｒｉｓｉｎｇ（備える）」は、本明細書で使用される場合、記述される特徴、整数、ステップ、動作、要素、及び／又は構成要素の存在を指定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、及び／又はそれらの群の存在若しくは追加を排除するものではないことが理解されるであろう。

用語「ｉｆ（〜場合に）」は、文脈に応じて「ｗｈｅｎ（〜ときに）」、「ｕｐｏｎ（〜ときに）」、「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ（〜という判定に応じて）」、又は「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ（〜を検出したことに応じて）」を意味すると解釈することができる。同様に、句「ｉｆｉｔｉｓｄｅｔｅｒｍｉｎｅｄ（〜と判定される場合に）」又は「ｉｆ［ａｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］ｉｓｄｅｔｅｃｔｅｄ（［述べられる条件又はイベント］が検出される場合に）」は、文脈に応じて「ｕｐｏｎｄｅｔｅｒｍｉｎｉｎｇ（〜と判定される時に）」、「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ（〜との判定に応じて）」、「ｕｐｏｎｄｅｔｅｃｔｉｎｇ［ｔｈｅｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］（［述べられる条件又はイベント］の検出時に）」、又は「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ［ｔｈｅｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］（［述べられる条件又はイベント］の検出に応じて）」を意味すると解釈することができる。

更に、上述の説明は、説明の目的上、特定の実施形態を参照して説明されている。しかし、上述の例示的説明は、網羅的であること、又は本発明を、開示されている寸分違わない形態に限定することを意図されてはいない。上述の教示を考慮すれば、多くの修正及び変形が可能である。実施形態は、技法の原理及びそれらの実際の適用を最もうまく説明するために選定され、説明された。これにより、他の当業者は、技法及び様々な実施形態を、企図される特定の用途に適した様々な修正を加えて最もうまく利用することが可能になる。

添付の図面を参照して本開示及び実施例が十分に説明されたが、様々な変更及び修正が当業者には明らかになるであろうということに留意されたい。このような変更及び修正は、請求項によって定義されるとおりの本開示及び実施例の範囲内に含まれるものと理解されるべきである。

加えて、本明細書において説明されている様々な実施例の任意のものにおいて、様々な態様は、特定のユーザのために個人化されることができる。連絡先、プリファレンス、ロケーション、お気に入りのメディア、及び同様のものを含むユーザデータは、音声コマンドを解釈し、本明細書において説明されている様々なデバイスとのユーザ対話を促進するために用いることができる。本明細書において説明されている様々なプロセスはまた、ユーザプリファレンス、連絡先、テキスト、使用履歴、プロファイルデータ、人口統計、又は同様のものに従って様々な他の仕方で変更することができる。加えて、このようなプリファレンス及び設定は、ユーザ対話（例えば、頻繁に発言されるコマンド、頻繁に選択されるアプリケーションなど）に基づいて経時的に更新することができる。様々なソースから入手可能であるユーザデータの収集及び利用を、ユーザへの、勧誘コンテンツ、又は彼らの興味を引くと思われる任意の他のコンテンツの配信を改善するために用いることができる。本開示は、場合によっては、この収集されたデータは、特定の人を一意的に識別するか、又はその人に連絡するか、若しくはその人のロケーションを特定するために用いることができる個人情報データを含み得ることを企図している。このような個人情報データは、人口統計学的データ、ロケーションベースのデータ、電話番号、電子メールアドレス、自宅住所、又は任意のその他の識別情報を含むことができる。

本開示は、本技術における、このような個人情報データの使用は、ユーザの利益のために使用することができると認識している。例えば、個人情報データは、よりユーザの興味を引く、的を絞ったコンテンツを配信するために用いられてもよい。したがって、このような個人情報データの使用は、配信されるコンテンツの意図的な制御を可能にする。更に、ユーザに利益をもたらす個人情報データの他の使用法も、本開示によって企図されている。

本開示は、このような個人情報データの収集、分析、開示、転送、記憶、又はその他の使用に関与する事業体は、しっかり確立されたプライバシポリシー及び／又はプライバシ慣行を遵守することを更に企図している。特に、このような事業体は、個人情報データを非公開且つ安全なものとして維持するための産業界又は行政の要求を満たすか又はそれらを超えると一般的に認識されているプライバシポリシー及び慣行を履行し、一貫して用いるべきである。例えば、ユーザからの個人情報は、その事業体の合法的かつ正当な使用のために収集されるべきであり、それらの合法的使用を除いて、共有又は販売されるべきではない。更に、そのような収集は、ユーザに告知して同意を受けた後にのみ実施するべきである。加えて、そのような事業体は、そのような個人情報データへのアクセスを保護して安全化し、その個人情報データへのアクセスを有する他者が、それらのプライバシポリシー及び手順を遵守することを確実にするための、あらゆる必要な措置を講じるであろう。更には、そのようなエンティティは、広く受け入れられているプライバシーのポリシー及び慣行に対する自身の遵守を証明するために、第三者による評価を自らが受けることができる。

前述のことがらにもかかわらず、本開示はまた、ユーザが、個人情報データの使用又は個人情報データへのアクセスを選択的に阻止する実施例も企図している。即ち、本開示は、そのような個人情報データへのアクセスを防止又は阻止するためのハードウェア要素及び／又はソフトウェア要素を提供することができることを企図している。例えば、広告配信サービスの場合、本技術は、ユーザがサービスの登録中に個人情報データの収集への参加の「オプトイン」又は「オプトアウト」を選択することを可能にするように構成されることができる。別の実施例では、ユーザは、的を絞ったコンテンツ配信サービスのためにロケーション情報を提供しないことを選択することができる。更に別の例では、ユーザは、正確なロケーション情報を提供しないが、ロケーション地域情報の転送を許可することを選択することができる。

したがって、本開示は、１つ以上の様々な開示された実施例を実施するための個人情報データの使用を広範に網羅しているが、本開示は、それらの様々な実施例がまた、そのような個人情報データにアクセスすることを必要とせずに実施されることも可能であることも企図している。即ち、本技術の様々な実施例は、そのような個人情報データの全て又は一部分の欠如により、実施不可能となるものではない。例えば、ユーザに関連付けられたデバイスによって要求されるコンテンツなどの非個人情報データ若しくは必要最小限の個人情報、コンテンツ配信サービスが入手可能な他の非個人情報、又は公的に入手可能な情報に基づき嗜好を推測することによって、コンテンツを選択し、ユーザへ配信することができる。

アペンディクス
メディア検索及び再生のためのインテリジェント自動アシスタント
［関連出願の相互参照］
［０００１］
本出願は、２０１５年９月８日に出願され、「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔｆｏｒＭｅｄｉａＳｅａｒｃｈａｎｄＰｌａｙｂａｃｋ」と題する、米国特許仮出願第６２／２１５，５７５号からの優先権を主張する。同出願はその全体が全ての目的のために本明細書において参照により組み込まれている。
［０００２］
本出願は、２０１５年１２月８日に出願され、「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔｉｎａＭｅｄｉａＥｎｖｉｒｏｎｍｅｎｔ」と題する、米国特許出願第＿＿＿＿＿＿＿＿号（代理人書類番号１０６８４２１３０８００（Ｐ２５８１７ＵＳ１））、２０１４年９月２６日に出願され、「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔｆｏｒＴＶＵｓｅｒＩｎｔｅｒａｃｔｉｏｎｓ」と題する、米国特許出願第１４／４９８，５０３号（代理人書類番号１０６８４２０６５１００（Ｐ１８１３３ＵＳ１））、２０１４年９月２６日に出願され、「Ｒｅａｌ−ｔｉｍｅＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔＫｎｏｗｌｅｄｇｅＵｐｄａｔｅｓ」と題する、米国特許出願第１４／４９８，３９１号（１０６８４２０９７９００（Ｐ２２４９８ＵＳ１））からの優先権を主張する。これらの出願はその全体が全ての目的のために本明細書において参照により組み込まれている。
［技術分野］
［０００３］
本出願は、概して、インテリジェント自動アシスタントに関し、より詳細には、メディア検索及び再生のためのインテリジェント自動アシスタントに関する。
［背景技術］
［０００４］
インテリジェント自動アシスタント（又はデジタルアシスタント）は、ユーザと電子デバイスとの間の直感的なインタフェースを提供することができる。これらのアシスタントは、ユーザが口頭形式及び／又はテキスト形式の自然言語を使用して、デバイス又はシステムと双方向作用することを可能にすることができる。例えば、ユーザは、自然言語形式の口頭ユーザ入力を電子デバイスに関連付けられた仮想アシスタントに提供することにより、電子デバイスのサービスにアクセスすることができる。仮想アシスタントは、ユーザの意図を推測しユーザの意図をタスクとして作動可能にするために、口頭ユーザ入力について自然言語処理を実行することができる。タスクは、次に、電子デバイスの１つ以上の機能を実行することにより、実行することができ、いくつかの実施例では、関連した出力を、ユーザに自然言語形式で返すことができる。
［０００５］
ユーザのメディア消費に関係するタスクを支援するためには、メディア環境（例えば、テレビ、テレビセットトップボックス、ケーブルボックス、ゲーミングデバイス、ストリーミングメディアデバイス、デジタルビデオレコーダなど）にデジタルアシスタントを組み込むことが望まししいことがある。例えば、デジタルアシスタントを利用して、所望の消費メディアコンテンツを検索することができる。しかしながら、ユーザは、自身が消費したいと望む特定のメディアアイテムに関してはっきりしていないことがしばしばあり、新しくて興味深いコンテンツを発見するためにメディアアイテムをブラウズする、相当量の時間を費やすことがある。更に、既存の検索インタフェースは複雑で、ユーザフレンドリではないことがあり、それにより、所望の消費アイテムを最終的に選択する前にメディアアイテムのブラウジングにユーザが費やす時間が更に増えることがある。
［発明の概要］
［０００６］
メディア環境においてデジタルアシスタントを動作させるためのシステム及びプロセスが開示される。例示的なプロセスでは、メディアアイテムの１次セットを、表示ユニット上に表示することができる。ユーザ入力を検出したことに応じて、オーディオ入力を受信することができる。オーディオ入力は、自然言語発語形態のメディアに関係する要求を包含することができる。メディアに関係する要求に対応する１次ユーザ意図を判定することができる。本プロセスは、１次ユーザ意図が、メディアアイテムの１次セットに対応する１次メディア検索クエリを絞り込むユーザ意図を備えるかどうかを判定することができる。１次ユーザ意図が、メディアアイテムの１次セットに対応する１次メディア検索クエリを絞り込むユーザ意図を備えるという判定に従って、１次ユーザ意図に対応する第２の１次メディア検索クエリを生成することができる。第２の１次メディア検索クエリは、メディアに関係する要求及び１次メディア検索クエリに基づくことができる。第２の１次メディア検索クエリを実行して、メディアアイテムの第２の１次セットを取得することができる。表示ユニット上のメディアアイテムの１次セットの表示を、メディアアイテムの第２の１次セットの表示と入れ替えることができる。
［図面の簡単な説明］
［０００７］
［図１］種々の実施例に係る、デジタルアシスタントを実装するためのシステム及び環境を示すブロック図である。
［０００８］
［図２］種々の実施例に係る、メディアシステムのブロック図である。
［０００９］
［図３］種々の実施例に係る、例示的なユーザデバイスを示すブロック図である。
［００１０］
［図４Ａ］種々の実施例に係る、デジタルアシスタントシステム又はそのサーバ部分を示すブロック図である。
［００１１］
［図４Ｂ］種々の実施例に係る、図４Ａに示したデジタルアシスタントの機能を示す図である。
［００１２］
［図４Ｃ］種々の実施例に係る、オントロジの一部分を示す図である。
［００１３］
［図５Ａ］種々の実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す図である。
［図５Ｂ］種々の実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す図である。
［図５Ｃ］種々の実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す図である。
［図５Ｄ］種々の実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す図である。
［図５Ｅ］種々の実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセスを示す図である。
［００１４］
［図６Ａ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［図６Ｂ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［図６Ｃ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［図６Ｄ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［図６Ｅ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［図６Ｆ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［図６Ｇ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［図６Ｈ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［図６Ｉ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［図６Ｊ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［図６Ｋ］種々の実施例に係る、図５Ａ〜図５Ｅに示したプロセスの種々の段階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す図である。
［００１５］
［図７］種々の実施例に係る、メディアシステムのデジタルアシスタントを動作させるように構成された電子デバイスの機能ブロック図である。
［発明を実施するための形態］
［００１６］
以下の実施例の説明では、実施することが可能な特定の実施例が例示として示される、添付図面を参照する。様々な実施例の範囲から逸脱することなく、他の実施例を使用することができ、構造上の変更を実施することができることを理解されたい。
［００１７］
本開示は、メディア環境においてデジタルアシスタントを動作させるためのシステム及びプロセスに関する。１つの例示的なプロセスでは、自然言語形式のメディア検索要求を受信することができる。メディア検索要求に対応する１次ユーザ意図を判定することができる。１次ユーザ意図に従って、メディアアイテムの１次セットを取得することができる。プロセスは、１つ以上の以前のユーザ意図が存在するかどうかを判定することができ、この１つ以上の以前のユーザ意図は、メディア検索要求よりも前に受信した１つ以上の以前のメディア検索要求に対応する。１つ以上の以前のユーザ意図が存在すると判定したことに応じて、１次ユーザ意図及び１つ以上の以前のユーザ意図に基づいて、１つ以上の２次ユーザ意図を判定することができる。１つ以上の２次ユーザ意図は、メディアブラウジング履歴、関係する検索属性、及び複数のユーザ間で人気があるメディア属性などの種々の他の因子に基づくことができる。メディアアイテムの複数の２次セットを取得することができ、メディアアイテムの各２次セットは、１つ以上の２次ユーザ意図のうちのそれぞれの２次ユーザ意図に対応する。ユーザ選択のために、ユーザインタフェースを介して、取得したメディアアイテムの１次セット及びメディアアイテムの複数の２次セットを表示ユニット上に表示することができる。１次ユーザ意図及び２次ユーザ意図をインテリジェントに判定して、ユーザの実際の意図を予測する確率を増大させることができる。１次ユーザ意図及び２次ユーザ意図に基づいて種々のメディアアイテムを提供することによって、ユーザが、ユーザの興味を刺激するメディアアイテムをより見つけやすくすることができる。これは、メディアアイテムのブラウジングに費やした時間量を減少させ、続いて、メディアコンテンツの享受に費やす時間量を増大させることによって、ユーザエクスペリエンスを改善するために望ましいことがある。
１．システム及び環境
［００１８］
図１は、種々の実施例に係る、デジタルアシスタントを動作させるための例示的なシステム１００を示す。用語「デジタルアシスタント」、「仮想アシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、口頭形式及び／又はテキスト形式の自然言語入力を解釈してユーザ意図を推測し、推測したユーザ意図に基づきアクションを実行する任意の情報処理システムを指すことができる。例えば、推測されたユーザ意図に基づきアクションを実行するために、システムは、推測されたユーザ意図を実現するように設計されたステップ及びパラメータを含むタスクフローを特定すること、推測したユーザ意図からの特定の要求をタスクフローに入力すること、プログラム、方法、サービス、アプリケーションプログラミングインタフェース（ＡＰＩ）などを呼び出すことによりタスクフローを実行すること、及び、ユーザへの出力応答をオーディオ（例えば、スピーチ）形式及び／又は視覚形式で生成することのうちの１つ以上を実行することができる。
［００１９］
具体的には、デジタルアシスタントは、自然言語コマンド、要求、陳述、叙述、及び／又は照会の形で少なくとも部分的にユーザ要求を受け入れる能力を有することができる。典型的には、ユーザ要求はデジタルアシスタントによる情報回答又はタスクの実行のいずれかを求めることができる。ユーザ要求への満足な応答は、要求された情報回答の提供、要求されたタスクの実行、又はその２つの組み合わせとすることができる。例えば、ユーザはデジタルアシスタントに「パリは何時ですか？」などの質問をすることができる。デジタルアシスタントは、要求された情報を取り出し、「パリは午後４時００分です」と応答することができる。また、ユーザは、タスク、例えば、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎが主演した映画を探す」の実行を要求することができる。それに応じて、デジタルアシスタントは、要求された検索クエリを実行し、ユーザがそこから選択するために、関連する映画タイトルを表示することができる。要求されたタスクの実行中、デジタルアシスタントは、時により、長時間にわたって情報を複数回交換する連続的なダイアログにおいて、ユーザと対話することができる。情報又は種々のタスクの実行を要求するためにデジタルアシスタントと対話する方法は他にも数多く存在する。テキストによる応答を提供し、プログラムされたアクションを取ることに加えて、デジタルアシスタントは、他の視覚形式又はオーディオ形式の応答、例えば、言語、警報、音楽、イメージ、ビデオ、アニメーションなどを提供することもできる。更に、本明細書で説明するように、例示的なデジタルアシスタントは、メディアコンテンツ（テレビセットトップボックス）の再生を制御することができ、表示ユニット上にメディアコンテンツ又は他の情報を表示させることができる。
［００２０］
図１に示したように、いくつかの実施例では、デジタルアシスタントは、クライアント−サーバモデルに従って実装することができる。デジタルアシスタントは、メディアデバイス１０４上で実行されるクライアント側部分１０２（以後、「ＤＡクライアント１０２」）、及びサーバシステム１０８上で実行されるサーバ側部分１０６（以後「ＤＡサーバ１０６」）を含むことができる。更に、いくつかの実施例では、クライアント側部分はまた、ユーザデバイス１２２上で実行することができる。ＤＡクライアント１０２は１つ以上のネットワーク１１０を通じてＤＡサーバ１０６と通信することができる。ＤＡクライアント１０２は、ユーザ対応入力及び出力処理、並びにＤＡサーバ１０６との通信などのクライアント側機能を提供することができる。ＤＡサーバ１０６は、それぞれのデバイス（例えば、メディアデバイス１０４及びユーザデバイス１２２）上に各々常駐する任意の数のＤＡクライアント１０２のためのサーバ側機能を提供することができる。
［００２１］
メディアデバイス１０４は、メディアコンテンツを管理及び制御するように構成された任意の好適な電子デバイスとすることができる。例えば、メディアデバイス１０４としては、ケーブルボックスデバイス、衛星ボックスデバイス、ビデオプレーヤデバイス、ビデオストリーミングデバイス、デジタルビデオレコーダ、ゲーミングシステム、ＤＶＤプレーヤ、Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標）プレーヤ、そのようなデバイスの組み合わせなどの、テレビセットトップボックスを挙げることができる。図１に示すように、メディアデバイス１０４は、メディアシステム１２８の一部とすることができる。メディアデバイス１０４に加えて、メディアシステム１２８は、遠隔制御１２４及び表示ユニット１２６を含むことができる。メディアデバイス１０４は、表示ユニット１２６上にメディアコンテンツを表示することができる。表示ユニット１２６は、テレビのディスプレイ、モニタ、プロジェクタなどの、任意の種類のディスプレイとすることができる。いくつかの実施例では、メディアデバイス１０４は、オーディオシステム（例えば、オーディオ受信機）に接続することができ、スピーカ１１１（図示せず）は、表示ユニット１２６と統合する、又はそれとは別個のものとすることができる。他の実施例では、表示ユニット１２６、及びメディアデバイス１０４は、高度な処理機能及びネットワーク接続機能を有するスマートテレビなどの、単一のデバイス内に一体に組み込むことができる。そのような実施例では、メディアデバイス１０４の機能は、組み合わせたデバイス上のアプリケーションとして実行することができる。
［００２２］
いくつかの実施例では、メディアデバイス１０４は、複数の種類及びソースのメディアコンテンツのためのメディアコントロールセンタとして機能することができる。例えば、メディアデバイス１０４は、ライブのテレビ（例えば、テレビ放送、衛星テレビ、又はケーブルＴＶ）へのユーザのアクセスを可能にすることができる。そのように、メディアデバイス１０４は、ケーブルチューナ、衛星チューナなどを含むことができる。いくつかの実施例では、メディアデバイス１０４はまた、後でのタイムシフト視聴のためにＴＶ番組を録画することができる。他の実施例では、メディアデバイス１０４は、ケーブル配信のオンデマンドのＴＶ番組、ビデオ、及び音楽、並びにインターネット配信のＴＶ番組、ビデオ、及び音楽など（例えば、種々の無料、有料、及びサブスクリプションベースのストリーミングサービスから）の、１つ以上のストリーミングメディアサービスへのアクセスを提供することができる。更に他の実施例では、メディアデバイス１０４は、モバイルユーザデバイスからの写真を表示すること、結合された記憶デバイスからのビデオを再生すること、結合された音楽プレーヤからの音楽を再生することなどの、任意の他のソースからのメディアコンテンツの再生又は表示を可能にすることができる。メディアデバイス１０４はまた、所望により、本明細書で説明するメディア制御機能の様々な他の組み合わせを含むことができる。図２を参照して、メディアデバイス１０４について以下に詳細に説明する。
［００２３］
ユーザデバイス１２２としては、携帯電話（例えば、スマートフォン）、タブレットコンピュータ、ポータブルメディアプレーヤ、デスクトップコンピュータ、ラップトップコンピュータ、ＰＤＡ、ウェアラブル電子デバイス（例えば、デジタル眼鏡、リストバンド、腕時計、ブローチ、アームバンドなど）などの、任意の個人用電子デバイスを挙げることができる。図３を参照して、ユーザデバイス１２２について以下に詳細に説明する。
［００２４］
いくつかの実施例では、ユーザは、ユーザデバイス１２２、遠隔制御１２４、又はメディアデバイス１０４内に統合されたインタフェース要素（例えば、ボタン、マイクロフォン、カメラ、ジョイスティックなど）を介して、メディアデバイス１０４と対話することができる。例えば、ユーザデバイス１２２及び／又は遠隔制御１２４において、デジタルアシスタントのためのメディアに関係するクエリ又はコマンドを含む発語入力を受信することができ、その発語入力を使用して、メディアに関係するタスクをメディアデバイス１０４上で実行することができる。同様に、ユーザデバイス１２２及び／又は遠隔制御１２４において（並びに、図示されていない他のデバイスから）、メディアデバイス１０４上でメディアを制御するための触覚コマンドを受信することができる。したがって、種々のやり方でメディアデバイス１０４の種々の機能を制御することができ、ユーザには、複数のデバイスからのメディアコンテンツを制御するための複数のオプションが与えられる。
［００２５］
通信ネットワーク（単数又は複数）１１０の例としては、ローカルエリアネットワーク（ＬＡＮ）及び、例えば、インターネットのようなワイドエリアネットワーク（ＷＡＮ）を挙げることができる。通信ネットワーク（単数又は複数）１１０は、例えば、イーサネット（登録商標）、ユニバーサルシリアルバス（Universal Serial Bus、ＵＳＢ）、ＦＩＲＥＷＩＲＥ（登録商標）、移動通信用のグローバルシステム（Global System for Mobile Communications、ＧＳＭ）、拡張データＧＳＭ環境（Enhanced Data GSM Environment、ＥＤＧＥ）、符号分割多元接続（code division multiple access、ＣＤＭＡ）、時分割多元接続（time division multiple access、ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、ボイスオーバーインターネットプロトコル（voice over Internet Protocol、ＶｏＩＰ）、Ｗｉ−ＭＡＸ（登録商標）、又は任意の他の好適な通信プロトコルなどの、様々な有線又は無線プロトコルを含む、任意の周知のネットワークプロトコルを用いて実装することができる。
［００２６］
ＤＡサーバ１０６は、クライアント対応入出力（Ｉ／Ｏ）インタフェース１１２、１つ以上の処理モジュール１１４、データ及びモデル１１６、並びに外部サービスへのＩ／Ｏインタフェース１１８を含むことができる。クライアント対応Ｉ／Ｏインタフェース１１２は、ＤＡサーバ１０６のためのクライアント対応入力及び出力処理を可能にすることができる。１つ以上の処理モジュール１１４は、データ及びモデル１１６を利用して、発語入力を処理し、自然言語入力に基づいてユーザの意図を判定することができる。更に、１つ以上の処理モジュール１１４は、推測されたユーザ意図に基づいてタスク実行を行うことができる。いくつかの実施例では、ＤＡサーバ１０６は、タスク完了又は情報取得のために、電話サービス、カレンダサービス、情報サービス、メッセージングサービス、ナビゲーションサービス、テレビプログラムサービス、ストリーミングメディアサービス、メディア検索サービスなどの、外部サービス１２０と、ネットワーク（単数又は複数）１１０を介して通信することができる。外部サービスへのＩ／Ｏインタフェース１１８は、このような通信を可能にすることができる。
［００２７］
サーバシステム１０８は、１つ以上のスタンドアロンデータ処理装置、又はコンピュータの分散型ネットワーク上に実装することができる。また、いくつかの実施例では、サーバシステム１０８は、サーバシステム１０８の基本的なコンピューティングリソース及び／又はインフラストラクチャリソースを提供するために、種々の仮想デバイス及び／又はサードパーティサービスプロバイダ（例えば、サードパーティクラウドサービスプロバイダ）のサービスを採用することができる。
［００２８］
図１に示したデジタルアシスタントは、クライアント側部分（例えば、ＤＡクライアント１０２）及びサーバ側部分（例えば、ＤＡサーバ１０６）の両方を含むが、いくつかの実施例では、デジタルアシスタントの機能は、ユーザデバイス又はメディアデバイスにインストールされるスタンドアロンアプリケーションとして実装することができる。加えて、デジタルアシスタントのクライアント部分とサーバ部分との間の機能の分配は実装によって異なり得る。例えば、いくつかの実施例では、ユーザデバイス１２２又はメディアデバイス１０４上で実行されるＤＡクライアントは、ユーザ対応入力及び出力処理機能のみを提供し、デジタルアシスタントの全ての他の機能をバックエンドサーバに委ねるシンクライアントとすることができる。
２．メディアシステム
［００２９］
図２は、種々の実施例に係る、例示的なメディアシステム１２８のブロック図を示す。メディアシステム１２８は、表示ユニット１２６と遠隔制御１２４とスピーカ２６８とに通信可能に結合されたメディアデバイス１０４を含むことができる。メディアデバイス１０４は、遠隔制御１２４を介して、ユーザ入力を受信することができる。メディアデバイス１０４からのメディアコンテンツを、表示ユニット１２６上に表示することができる。
［００３０］
本実施例では、図２に示したように、メディアデバイス１０４は、メモリインタフェース２０２、１つ以上のプロセッサ２０４、及び周辺機器インタフェース２０６を含むことができる。１つ以上の通信バス又は信号線によって、メディアデバイス１０４内の種々の構成要素を１つに結合することができる。メディアデバイス１０４は更に、周辺機器インタフェース２０６に結合される様々なサブシステム、及び周辺機器を含むことができる。サブシステム及び周辺機器は情報を収集し、及び／又はメディアデバイス１０４の種々の機能を可能にすることができる。
［００３１］
例えば、メディアデバイス１０４は、通信サブシステム２２４を含むことができる。種々の通信ポート、無線周波数受信器及び送信器、並びに／又は光（例えば、赤外線）受信器及び送信器を含むことができる、１つ以上の有線及び／又は無線通信サブシステム２２４を介して、通信機能を可能にすることができる。
［００３２］
いくつかの実施例では、メディアデバイス１０４は、周辺機器インタフェース２０６に結合されたＩ／Ｏサブシステム２４０を更に含むことができる。Ｉ／Ｏサブシステム２４０は、オーディオ／ビデオ出力コントローラ２７０を含むことができる。オーディオ／ビデオ出力コントローラ２７０は、表示ユニット１２６及びスピーカ２６８に結合することができ、あるいは場合によっては、（例えば、オーディオ／ビデオポート、無線伝送などを介して）オーディオ及びビデオ出力を提供することができる。Ｉ／Ｏサブシステム２４０は、遠隔コントローラ２４２を更に含むことができる。遠隔コントローラ２４２は、（例えば、有線接続、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）などを介して）遠隔制御１２４と通信可能に結合することができる。
［００３３］
遠隔制御１２４は、オーディオデータ（例えば、ユーザからの発語入力）をキャプチャするためのマイクロフォン２７２触覚入力をキャプチャするためのボタン（単数又は複数）２７４、及び遠隔コントローラ２４２を介したメディアデバイス１０４との通信を可能するための送受信機２７６を含むことができる。更に、遠隔制御１２４は、触覚及び／若しくは触感の接触に基づくユーザからの入力を受け入れるタッチ感知面２７８、センサ、又はセンサのセットを含むことができる。タッチ感知面２７８及び遠隔コントローラ２４２は、タッチ感知面２７８上で接触（及び接触の任意の移動又は中断）を検出し、検出した接触（例えば、ジェスチャ、接触モーションなど）を、表示ユニット１２６上に表示されたユーザインタフェースオブジェクト（例えば、１つ以上のソフトキー、アイコン、ウェブページ、又は画像）との対話に変換することができる。いくつかの実施例では、遠隔制御１２４はまた、キーボード、ジョイスティック、タッチパッドなどの、他の入力機構を含むことができる。遠隔制御１２４は、照明、ディスプレイ、スピーカなどの、出力機構を更に含むことができる。遠隔制御１２４で受信した入力（例えば、ユーザの発語、ボタン押下など）を、遠隔制御１２４を介してメディアデバイス１０４に通信することができる。Ｉ／Ｏサブシステム２４０はまた、他の入力コントローラ（単数又は複数）２４４を含むことができる。他の入力コントローラ（単数又は複数）２４４は、１つ以上のボタン、ロッカスイッチ、サムホイール、赤外線ポート、ＵＳＢポート、及び／又はスタイラスなどのポインタデバイスなどの、他の入力／制御機器２４８に結合することができる。
［００３４］
いくつかの実施例では、メディアデバイス１０４は、メモリ２５０に結合されたメモリインタフェース２０２を更に含むことができる。メモリ２５０としては、任意の電子、磁気、光学、電磁、赤外線、若しくは半導体の、システム、装置、若しくはデバイス、ポータブルコンピュータディスケット（磁気）、ランダムアクセスメモリ（ＲＡＭ）（磁気）、読み出し専用メモリ（ＲＯＭ）（磁気）、消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）（磁気）、ＣＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ、ＤＶＤ−Ｒ、若しくはＤＶＤ−ＲＷなどの、ポータブル光学ディスク、又はコンパクトフラッシュカード、セキュアデジタルカード、ＵＳＢメモリデバイス、メモリスティックなどの、フラッシュメモリを挙げることができる。いくつかの実施例では、メモリ２５０の非一時的コンピュータ可読記憶媒体は、コンピュータベースのシステム、プロセッサを含むシステム、又は、命令実行システム、装置、若しくはデバイスから命令をフェッチし、それらの命令を実行し得る他のシステムなどの、命令実行システム、装置、若しくはデバイスにより又はそれらと連携して使用するための、命令（例えば、本明細書で説明する様々なプロセスの一部分又は全てを実行するための）を記憶するために使用することができる。他の実施例では、（例えば、本明細書で説明する様々なプロセスの一部分又は全部を実行するための）命令は、サーバシステム１０８の非一時的コンピュータ可読記憶媒体に記憶することができる、又は、メモリ２５０の非一時的コンピュータ可読記憶媒体とサーバシステム１０８の非一時的コンピュータ可読記憶媒体との間に分配することができる。本文書のコンテキストでは、「非一時的コンピュータ可読記憶媒体」は、命令実行システム、装置、若しくはデバイスによって、又はそれらに関連して使用するためのプログラムを、含むか又は記憶することが可能な、任意の媒体とすることができる。
［００３５］
いくつかの実施例では、メモリ２５０は、オペレーティングシステム２５２、通信モジュール２５４、グラフィカルユーザインタフェース（ＧＵＩ）モジュール２５６、デバイス内メディアモジュール２５８、デバイス外メディアモジュール２６０、及びアプリケーションモジュール２６２を記憶することができる。オペレーティングシステム２５２は、基本システムサービスを処理する命令、及びハードウェア依存タスクを実行する命令を含むことができる。通信モジュール２５４は、１つ以上の追加デバイス、１つ以上のコンピュータ、及び／又は１つ以上のサーバとの通信を可能にすることができる。グラフィカルユーザインタフェースモジュール２５６は、グラフィカルユーザインタフェース処理を可能にすることができる。オンデバイスメディアモジュール２５８は、メディアデバイス１０４にローカルに記憶されたメディアコンテンツの再生及び記憶を可能にすることができる。オフデバイスメディアモジュール２６０は、（例えば、リモートサーバ上、ユーザデバイス１２２上など）外部ソースから取得された遠隔に記憶されたメディアコンテンツのストリーミング再生又はダウンロードを可能にすることができる。更に、オフデバイスメディアモジュール２６０は、ブロードキャスト及びケーブルコンテンツの受信（例えば、チャンネルの同調）を可能にすることができる。アプリケーションモジュール２６２は、電子メッセージング、ウェブブラウジング、メディア処理、ゲーム、並びに／又は他のプロセス及び機能などの、メディアに関係するアプリケーションの種々の機能を可能にすることができる。
［００３６］
本明細書で説明するように、メモリ２５０はまた、例えば、デジタルアシスタントのクライアント側機能を提供するために、（例えば、デジタルアシスタントクライアントモジュール２６４内の）クライアント側デジタルアシスタント命令、並びに種々のユーザデータ２６６（例えば、ユーザ固有の語彙データ、設定データ、及び／又はユーザのメディア検索履歴、メディア視聴リスト、最近の視聴したリスト、お気に入りのメディアアイテムなどの他のデータ）も記憶することができる。また、ユーザデータ２６６は、デジタルアシスタントをサポートする、又は任意の他のアプリケーションについての発語認識を実行する際に使用することができる。
［００３７］
種々の実施例では、デジタルアシスタントクライアントモジュール２６４は、メディアデバイス１０４の種々のユーザインタフェース（例えば、Ｉ／Ｏサブシステム２４０など）を通じて音声入力（例えば、発語入力）、テキスト入力、タッチ入力、及び／又はジェスチャ入力を受け入れる能力を有することができる。デジタルアシスタントクライアントモジュール２６４はまた、オーディオ形態（例えば、発語出力）、視覚形態、及び／又は触覚形態の出力を提供する能力も有することができる。例えば、出力は、音声、音響、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び／又は上記の２つ以上の組み合わせとして提供されてもよい。動作時、デジタルアシスタントクライアントモジュール２６４は、通信サブシステム２２４を用いてデジタルアシスタントサーバ（例えば、ＤＡサーバ１０６）と通信することができる。
［００３８］
いくつかの実施例では、デジタルアシスタントクライアントモジュール２６４は、ユーザ、現在のユーザ対話、及び／又は現在のユーザ入力に関連付けられるコンテキストを確立するために、種々のサブシステム及び周辺機器を利用して、メディアデバイス１０４に関係する追加情報、及びメディアデバイス１０４の周囲環境からの追加情報を収集することができる。そのようなコンテキストはまた、ユーザデバイス１２２からなどの、他のデバイスからの情報を含むことができる。いくつかの実施例では、デジタルアシスタントクライアントモジュール２６４は、ユーザの意図の推測を助けるために、ユーザ入力と共にコンテキスト情報又はそのサブセットをデジタルアシスタントサーバに提供することができる。デジタルアシスタントはまた、コンテキスト情報を使用して、ユーザへの出力をどのように準備し、配信するのかを判定することができる。更に、正確な発語認識をサポートするために、メディアデバイス１０４又はサーバシステム１０８によりコンテキスト情報を使用することができる。
［００３９］
いくつかの実施例では、ユーザ入力に付随するコンテキスト情報は、照明、環境ノイズ、周囲温度、別のオブジェクトとの距離、などの、センサ情報を含むことができる。コンテキスト情報は、メディアデバイス１０４の物理状態（例えば、デバイスの位置、デバイスの温度、電力レベルなど）に関連付けられた情報、又はメディアデバイス１０４のソフトウェア状態（例えば、実行中の処理、インストールされたアプリケーション、過去及び現在のネットワークアクティビティ、バックグラウンドサービス、エラーログ、リソース使用など）に関連付けられた情報を更に含むことができる。コンテキスト情報は、ユーザから受信した情報（例えば、発語入力）、ユーザにより要求された情報、及びユーザに提示される情報（例えば、メディアデバイスにより現在表示されている情報、又は以前に表示された情報）を更に含むことができる。コンテキスト情報は、接続されたデバイス又はユーザに関連付けられた他のデバイスの状態に関連付けられた情報（例えば、ユーザデバイス１２２上に表示されたコンテンツ、ユーザデバイス１２２上で再生可能なコンテンツなど）を更に含むことができる。これらの種類のコンテキスト情報のうちのいずれかを、ユーザ入力と関連付けられたコンテキスト情報として、ＤＡサーバ１０６に提供する（あるいは、メディアデバイス１０４自体で使用する）ことができる。
［００４０］
いくつかの実施例では、デジタルアシスタントクライアントモジュール２６４は、ＤＡサーバ１０６からの要求に応じて、メディアデバイス１０４上に記憶されている情報（例えば、ユーザデータ２６６）を選択的に提供することができる。それに加えて、又は代替として、発語認識及び／又はデジタルアシスタントの機能を実行する際に、その情報をメディアデバイス１０４自体で使用することができる。デジタルアシスタントクライアントモジュール２６４はまた、ＤＡサーバ１０６による要求時に、自然言語ダイアログ又は他のユーザインタフェースを介して、ユーザからの追加入力も引き出すことができる。デジタルアシスタントクライアントモジュール２６４は、意図推測及び／又はユーザ要求内に表されているユーザの意図の達成においてＤＡサーバ１０６を助けるために、追加入力をＤＡサーバ１０６に渡すことができる。
［００４１］
種々の実施例では、メモリ２５０は、追加の命令又はより少数の命令を含むことができる。更に、メディアデバイス１０４の種々の機能は、１つ以上の信号処理回路及び／又は特定用途向け集積回路の形態を含む、ハードウェアの形態及び／又はファームウェアの形態で実装することができる。
３．ユーザデバイス
［００４２］
図３は、様々な実施例による、例示的なユーザデバイス１２２のブロック図を示す。ユーザデバイス１２２は、メモリインタフェース３０２、１つ以上のプロセッサ３０４、及び周辺機器インタフェース３０６を含むことができる。１つ以上の通信バス又は信号線によって、ユーザデバイス１２２内の種々の構成要素を１つに結合することができる。ユーザデバイス１２２は更に、周辺機器インタフェース３０６に結合される種々のセンサ、サブシステム、及び周辺機器を含むことができる。センサ、サブシステム、及び周辺機器は情報を収集し、及び／又はユーザデバイス１２２の種々の機能を可能にすることができる。
［００４３］
例えば、ユーザデバイス１２２は、向き、光、及び近接度の検知機能を可能にするための動きセンサ３１０、光センサ３１２、及び近接センサ３１４を含むことができ、それらは、周辺機器インタフェース３０６に結合される。関連機能を促進するために、測位システム（例えば、ＧＰＳ受信機）、温度センサ、生体センサ、ジャイロスコープ、コンパス、加速度計、などの、１つ以上の他のセンサ３１６も、周辺インタフェース３０６に接続することができる。
［００４４］
いくつかの実施例では、カメラサブシステム３２０及び光学センサ３２２は、写真の撮影及びビデオクリップの録画などの、カメラ機能を促進するために利用することができる。種々の通信ポート、無線周波数受信器及び送信器、並びに／又は光（例えば、赤外線）受信器及び送信器を含むことができる、１つ以上の有線及び／又は無線通信サブシステム３２４を介して、通信機能を可能にすることができる。オーディオサブシステム３２６は、スピーカ３２８及びマイクロフォン３３０に結合して、音声認識、音声複製、デジタル録音、及び電話機能などの、音声使用可能機能を促進することができる。
［００４５］
いくつかの実施例では、ユーザデバイス１２２は、周辺機器インタフェース３０６に結合されたＩ／Ｏサブシステム３４０を更に含んでもよい。Ｉ／Ｏサブシステム３４０は、タッチスクリーンコントローラ３４２及び／又は他の入力コントローラ（単数又は複数）３４４を含むことができる。タッチスクリーンコントローラ３４２は、タッチスクリーン３４６に結合することができる。タッチスクリーン３４６及びタッチスクリーンコントローラ３４２は、例えば、容量性、抵抗性、赤外線、及び表面弾性波技術、近接センサアレイなどの複数のタッチ感知技術のうちのいずれかを使用して、接触、及びその移動若しくは中断を検出することができる。他の入力コントローラ（単数又は複数）３４４は、１つ以上のボタン、ロッカスイッチ、サムホイール、赤外線ポート、ＵＳＢポート、及び／又はスタイラスなどのポインタデバイスなどの、他の入力／制御デバイス３４８に結合することができる。
［００４６］
いくつかの実施例では、ユーザデバイス１２２は、メモリ３５０に結合されたメモリインタフェース３０２を更に含むことができる。メモリ３５０としては、任意の電子、磁気、光学、電磁、赤外線、若しくは半導体の、システム、装置、若しくはデバイス、ポータブルコンピュータディスケット（磁気）、ランダムアクセスメモリ（ＲＡＭ）（磁気）、読み出し専用メモリ（ＲＯＭ）（磁気）、消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）（磁気）、ＣＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ、ＤＶＤ−Ｒ、若しくはＤＶＤ−ＲＷなどの、ポータブル光学ディスク、又はコンパクトフラッシュカード、セキュアデジタルカード、ＵＳＢメモリデバイス、メモリスティックなどの、フラッシュメモリを挙げることができる。いくつかの実施例では、メモリ３５０の非一時的コンピュータ可読記憶媒体は、コンピュータベースのシステム、プロセッサを含むシステム、又は、命令実行システム、装置、若しくはデバイスから命令をフェッチし、それらの命令を実行し得る他のシステムなどの、命令実行システム、装置、若しくはデバイスにより又はそれらと連携して使用するための、命令（例えば、本明細書で説明する様々なプロセスの一部分又は全てを実行するための）を記憶するために使用することができる。他の実施例では、（例えば、本明細書で説明する様々なプロセスの一部分又は全部を実行するための）命令は、サーバシステム１０８の非一時的コンピュータ可読記憶媒体に記憶することができる、又は、メモリ３５０の非一時的コンピュータ可読記憶媒体とサーバシステム１０８の非一時的コンピュータ可読記憶媒体との間に分配することができる。本文書のコンテキストでは、「非一時的コンピュータ可読記憶媒体」は、命令実行システム、装置、若しくはデバイスによって、又はそれらに関連して使用するためのプログラムを、含むか又は記憶することが可能な、任意の媒体とすることができる。
［００４７］
いくつかの実施例では、メモリ３５０は、オペレーティングシステム３５２、通信モジュール３５４、グラフィカルユーザインタフェース（ＧＵＩ）モジュール３５６、センサ処理モジュール３５８、電話モジュール３６０、及びアプリケーションモジュール３６２を記憶することができる。オペレーティングシステム３５２は、基本システムサービスを処理する命令、及びハードウェア依存タスクを実行する命令を含むことができる。通信モジュール３５４は、１つ以上の追加デバイス、１つ以上のコンピュータ、及び／又は１つ以上のサーバとの通信を促進することができる。グラフィカルユーザインタフェースモジュール３５６は、グラフィカルユーザインタフェース処理を促進することができる。センサ処理モジュール３５８は、センサ関連の処理及び機能を促進することができる。電話モジュール３６０は、電話関連のプロセス及び機能を促進することができる。アプリケーションモジュール３６２は、電子メッセージング、ウェブブラウジング、メディア処理、ナビゲーション、イメージング、並びに／又はその他のプロセス及び機能などの、ユーザアプリケーションの種々な機能を可能にすることができる。
［００４８］
本明細書で説明するように、メモリ３５０はまた、例えば、デジタルアシスタントのクライアント側機能を提供するために、（例えば、デジタルアシスタントクライアントモジュール３６４内の）クライアント側デジタルアシスタント命令、並びに種々のユーザデータ３６６（例えば、ユーザ固有の語彙データ、設定データ、及び／若しくはユーザの電子アドレス帳、ｔｏ−ｄｏリスト、買い物リスト、テレビ番組の好みなどのその他のデータ）も記憶することができる。また、ユーザデータ３６６は、デジタルアシスタントをサポートする、又は任意の他のアプリケーションについての発語認識を実行する際に使用することができる。デジタルアシスタントクライアントモジュール３６４及びユーザデータ３６６は、図２を参照して上述したように、デジタルアシスタントクライアントモジュール２６４及びユーザデータ２６６とそれぞれ同様又は同一とすることができる。
［００４９］
種々の実施例では、メモリ３５０は追加の命令又はより少数の命令を含むことができる。更に、ユーザデバイス１２２の様々な機能は、１つ以上の信号処理回路及び／又は特定用途向け集積回路の形態を含む、ハードウェアの形態及び／又はファームウェアの形態で実装することができる。
［００５０］
いくつかの実施例では、ユーザデバイス１２２は、メディアデバイス１０４の一態様を制御するように構成することができる。例えば、ユーザデバイス１２２は、遠隔制御（例えば、遠隔制御１２４として機能することができる。ユーザデバイス１２２を介して受信したユーザ入力を、（例えば、通信サブシステムを使用して）メディアデバイス１０４に送信して、対応するアクションをメディアデバイス１０４に実行させることができる。更に、ユーザデバイス１２２は、メディアデバイス１０４から命令を受信するように構成することができる。例えば、メディアデバイス１０４は、ユーザデバイス１２２にタスクをハンドオフして、それを実行し、ユーザデバイス１２２上にオブジェクト（例えば、選択可能なアフォーダンス）を表示させることができる。
［００５１］
システム１００及びメディアシステム１２８は、図１及び図２に示した構成要素及び構成には限定されず、ユーザデバイス１２２、メディアデバイス１０４、同様に、遠隔制御１２４は、図２及び図３に示した構成要素及び構成には限定されないことを理解されたい。システム１００、メディアシステム１２８、ユーザデバイス１２２、メディアデバイス１０４、及び遠隔制御１２４は全て、種々な実施例に係る複数の構成において、より少数の又は他の構成要素を含むことができる。
４．デジタルアシスタントシステム
［００５２］
図４Ａは、種々の実施例に係る例示的なデジタルアシスタントシステム４００のブロック図である。いくつかの実施例では、デジタルアシスタントシステム４００はスタンドアロンコンピュータシステム上に実装することができる。いくつかの実施例では、デジタルアシスタントシステム４００は複数のコンピュータにわたって分散され得る。いくつかの実施例では、デジタルアシスタントのモジュール及び機能のいくつかを、サーバ部分及びクライアント部分に分配することができ、この場合には、クライアント部分は１つ以上のユーザデバイス（例えば、デバイス１０４又は１２２）上に常駐し、例えば、図１に示したように、１つ以上のネットワークを通じてサーバ部分（例えば、サーバシステム１０８）と通信する。いくつかの実施例では、デジタルアシスタントシステム４００は、図１に示したサーバシステム１０８（及び／又はＤＡサーバ１０６）の一実装形態である。デジタルアシスタントシステム４００はデジタルアシスタントシステムの単なる一実施例にすぎず、デジタルアシスタントシステム４００は、図示されているよりも多数又は少数の構成要素を有してもよく、２つ以上の構成要素を組み合わせてもよく、又は構成要素の異なる構成又は配置を有することができることに留意されたい。図４Ａに示した種々の構成要素は、１つ以上の信号処理及び／若しくは特定用途向け集積回路を含む、ハードウェア、１つ以上のプロセッサによって実行されるソフトウェア命令、ファームウェア、又はそれらの組み合わせの形態で実装することができる。
［００５３］
デジタルアシスタントシステム４００は、メモリ４０２、１つ以上のプロセッサ４０４、入力／出力（Ｉ／Ｏ）インタフェース４０６、及びネットワーク通信インタフェース４０８を含むことができる。これらの構成要素は１本以上の通信バス又は信号線４１０を介して、互いに通信することができる。
［００５４］
いくつかの実施例では、メモリ４０２は、高速ランダムアクセスメモリ並びに／又は不揮発性コンピュータ可読記憶媒体（例えば、１つ以上の磁気ディスク記憶デバイス、フラッシュメモリデバイス、若しくは他の不揮発性固体メモリデバイス）など、非一時的コンピュータ可読媒体を含むことができる。
［００５５］
いくつかの実施例では、Ｉ／Ｏインタフェース４０６は、ディスプレイ、キーボード、タッチスクリーン、及びマイクロフォンなどの、デジタルアシスタントシステム４００のＩ／Ｏデバイス４１６をユーザインタフェースモジュール４２２に結合することができる。Ｉ／Ｏインタフェース４０６は、ユーザインタフェースモジュール４２２と協働して、ユーザ入力（例えば、音声入力、キーボード入力、タッチ入力など）を受信し、それらを適宜に処理する。いくつかの実施例では、例えば、デジタルアシスタントがスタンドアロンユーザデバイス上に実装される時には、デジタルアシスタントシステム４００は、図２又は図３におけるデバイス１０４又は１２２に関してそれぞれ説明されている構成要素並びにＩ／Ｏ通信インタフェースのうちのいずれかを含むことができる。いくつかの実施例では、デジタルアシスタントシステム４００はデジタルアシスタント実装形態のサーバ部分を表すことができ、ユーザデバイス（例えば、デバイス１０４又は１２２）上に常駐するクライアント側部分を通じてユーザと対話することができる。
［００５６］
いくつかの実施例では、ネットワーク通信インタフェース４０８は、有線通信ポート（単数又は複数）４１２及び／又は無線送受信回路４１４を含むことができる。有線通信ポート（単数又は複数）は、１つ以上の有線インタフェース、例えば、イーサネット、ユニバーサルシリアルバス（ＵＳＢ）、ＦＩＲＥＷＩＲＥ（登録商標）などを介して通信信号を受信及び送信することができる。無線回路４１４は、通常、通信ネットワーク及び他の通信デバイスを起点／終点として、ＲＦ信号及び／又は光信号を受信及び送信することができる。無線通信は、ＧＳＭ（登録商標）、ＥＤＧＥ、ＣＤＭＡ、ＴＤＭＡ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、ＶｏＩＰ、Ｗｉ−ＭＡＸ（登録商標）、あるいは任意のその他の好適な通信プロトコルなどの、複数の通信規格、プロトコル及び技術のうちの任意のものを使用することができる。ネットワーク通信インタフェース４０８は、インターネット、イントラネットなどのネットワーク、及び／又はセルラー電話ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）などの無線ネットワーク、及び／又はメトロポリタンエリアネットワーク（Metropolitan Area Network、ＭＡＮ）を用いた、デジタルアシスタントシステム４００と他のデバイスとの間の通信を可能にすることができる。
［００５７］
いくつかの実施例では、メモリ４０２、又はメモリ４０２のコンピュータ可読記憶媒体は、オペレーティングシステム４１８、通信モジュール４２０、ユーザインタフェースモジュール４２２、１つ以上のアプリケーション４２４、１つ以上のアプリケーション４２４、及びデジタルアシスタントモジュール４２６の全て又はサブセットを含むプログラム、モジュール、命令、及びデータ構造を記憶することができる。詳細には、メモリ４０２又はメモリ４０２のコンピュータ可読記憶媒体は、以下で説明するプロセス８００を実行する命令を記憶することができる。１つ以上のプロセッサ４０４はこれらのプログラム、モジュール、命令を実行し、データ構造から／へと、読み出し／書き込みを実行することができる。
［００５８］
オペレーティングシステム４１８（例えば、Ｄａｒｗｉｎ（登録商標）、ＲＴＸＣ（登録商標）、ＬＩＮＵＸ（登録商標）、ＵＮＩＸ（登録商標）、ｉＯＳ（登録商標）、ＯＳＸ（登録商標）、ＷＩＮＤＯＷＳ（登録商標）、又はＶｘＷｏｒｋｓなどの組み込みオペレーティングシステム）は、一般的なシステムタスク（例えば、メモリ管理、記憶装置制御、電力管理など）を制御及び管理するための様々なソフトウェア構成要素及び／又はドライバを含むことができ、種々のハードウェア、ファームウェア、及びソフトウェア構成要素間の通信を可能にする。
［００５９］
通信モジュール４２０は、ネットワーク通信インタフェース４０８上でのデジタルアシスタントシステム４００と他のデバイスとの間の通信を可能にする。例えば、通信モジュール４２０は、電子デバイス（例えば、１０４、１２２）の通信サブシステム（例えば、２２４、３２４）と通信することができる。通信モジュール４２０はまた、無線回路４１４及び／又は有線通信ポート４１２により受信されたデータを処理するための種々の構成要素も含むことができる。
［００６０］
ユーザインタフェースモジュール４２２はＩ／Ｏインタフェース４０６を介して（例えば、キーボード、タッチスクリーン、ポインティング装置、コントローラ、及び／又はマイクロフォンから）ユーザからのコマンド及び／又は入力を受信し、ディスプレイ上にユーザインタフェースオブジェクトを生成することができる。ユーザインタフェースモジュール４２２はまた、Ｉ／Ｏインタフェース４０６を介して（例えば、ディスプレイ、オーディオチャネル、スピーカ、タッチパッドなどを通じて）、ユーザへの出力（例えば、発語、音声、アニメーション、テキスト、アイコン、振動、触覚フィードバック、光など）も準備及び配信することができる。
［００６１］
アプリケーション４２４は、１つ以上のプロセッサ４０４により実行されるように構成されたプログラム及び／又はモジュールを含むことができる。例えば、デジタルアシスタントシステム４００がスタンドアロンユーザデバイス上に実装される場合には、アプリケーション４２４は、ゲーム、カレンダアプリケーション、ナビゲーションアプリケーション、又は電子メールアプリケーションなどのユーザアプリケーションを含むことができる。デジタルアシスタントシステム４００がサーバ上に実装される場合には、アプリケーション４２４は、例えば、リソース管理アプリケーション、診断アプリケーション、又はスケジューリングアプリケーションを含むことができる。
［００６２］
メモリ４０２はまた、デジタルアシスタントモジュール４２６（又はデジタルアシスタントのサーバ部分）も記憶することができる。いくつかの実施例では、デジタルアシスタントモジュール４２６は、以下のサブモジュール、又はそれらのサブセット若しくはスーパーセットを含む。Ｉ／Ｏ処理モジュール４２８、発語テキスト化（speech-to-text、ＳＴＴ）処理モジュール４３０、自然言語処理モジュール４３２、ダイアログフロー処理モジュール４３４、タスクフロー処理モジュール４３６、サービス処理モジュール４３８、及び発語合成モジュール４４０を含むことができる。これらのモジュールの各々は、デジタルアシスタント４２６の以下のシステムあるいはデータ及びモデルのうちの１つ以上、又はそれらのサブセット若しくはスーパーセットへのアクセスを有する。即ち、オントロジ４６０、語彙索引４４４、ユーザデータ４４８、タスクフローモデル４５４、サービスモデル４５６、及び自動発語認識（automatic speech recognition、ＡＳＲ）４３１である。
［００６３］
いくつかの実施例では、デジタルアシスタントは、デジタルアシスタントモジュール４２６中に実装される処理モジュール、データ及びモデルを使用して、発語入力をテキストに変換すること、ユーザから受信した、自然言語入力で表されたユーザの意図を特定すること、（例えば、単語、ゲーム、意図などの曖昧性を回避することによって）ユーザの意図を完全に推測するために必要な情報をアクティブに引き出し、取得すること、推測された意図を達成するためのタスクフローを判定すること、及び推測された意図を達成するタスクフローを実行することのうちの少なくともいくつかを実行することができる。
［００６４］
いくつかの実施例では、図４Ｂに示すように、Ｉ／Ｏ処理モジュール４２８は、ユーザ入力（例えば、発語入力）を取得するために、及びユーザ入力への応答を（例えば、発語出力として）提供するために、図４ＡにおけるＩ／Ｏデバイス４１６を通じてユーザと対話するか、又は、図４Ａにおけるネットワーク通信インタフェース４０８を通じて電子デバイス（例えば、デバイス１０４又は１２２）と対話することができる。Ｉ／Ｏ処理モジュール４２８は、ユーザ入力と共に、又はその受信の直後に、ユーザ入力に関連付けられるコンテキスト情報を電子デバイスから任意選択的に取得することができる。コンテキスト情報は、ユーザ入力に関連するユーザ固有のデータ、語彙、及び／又は設定を含むことができる。いくつかの実施例では、コンテキスト情報はまた、ユーザ要求の受信時におけるデバイスのソフトウェア及びハードウェア状態、並びに／又はユーザ要求の受信時におけるユーザの周囲環境に関する情報も含む。いくつかの実施例では、Ｉ／Ｏ処理モジュール４２８はまた、ユーザ要求について、ユーザに補足質問を送信し、ユーザから回答を受信することができる。ユーザ要求をＩ／Ｏ処理モジュール４２８により受信し、ユーザ要求が発語入力を包含することができる時には、Ｉ／Ｏ処理モジュール４２８は、発語テキスト化変換のために、発語入力をＳＴＴ処理モジュール４３０（又は発語レコナイザ）へ転送することができる。
［００６５］
ＳＴＴ処理モジュール４３０は、１つ以上のＡＳＲシステム（例えば、ＡＳＲシステム４３１）を含むことができる。１つ以上のＡＳＲシステムは、Ｉ／Ｏ処理モジュール４２８を介して受信した発語入力を処理して、認識結果を生成することができる。各ＡＳＲシステムは、フロントエンド発語プリプロセッサを含むことができる。フロントエンド発語プリプロセッサは、発語入力から代表的な特徴を抽出することができる。例えば、フロントエンド発語プリプロセッサは、発語入力を代表的な多次元ベクトルの列として特徴付けるスペクトル特徴を抽出するために、発語入力に対してフーリエ変換を実行することができる。更に、各ＡＳＲシステムは、１つ以上の発語認識モデル（例えば、音響モデル及び／又は言語モデル）を含むことができ、１つ以上の音声認識エンジンを実装することができる。発語認識モデルの実施例は、隠れマルコフモデル、混合ガウスモデル、ディープニューラルネットワークモデル、ｎグラム言語モデル、及び他の統計モデルを含むことができる。発語認識エンジンの実施例は、動的時間伸縮ベースのエンジン及び重み付き有限状態トランスデューサ（ＷＦＳＴ）ベースのエンジンを含むことができる。フロントエンド発語プリプロセッサの抽出された代表的な特徴を処理して、中間認識結果（例えば、音素、音素文字列及びサブワード）を生成し、最終的には、テキスト認識結果（例えば、単語、単語文字列、又はトークンの列）を生成するために、１つ以上の発語認識モデル及び１つ以上の発語認識エンジンを使用ことができる。いくつかの実施例では、認識結果を生成するために、サードパーティサービスによって、又は電子デバイス（例えば、デバイス１０４又は１２２）上で発語入力を少なくとも部分的に処理することができる。ＳＴＴ処理モジュール４３０がテキスト文字列（例えば、単語、単語の列、又はトークンの列）を包含する認識結果を生成すると、意図の推定のために、その認識結果を自然言語処理モジュール４３２に渡すことができる。
［００６６］
いくつかの実施例では、１つ以上のＡＳＲシステムの１つ以上の言語モデルは、メディアに関係する結果に向かってバイアスするように構成することができる。１つの実施例では、メディアに関係するテキストのコーパスを使用して、１つ以上の言語モデルをトレーニングすることができる。別の実施例では、ＡＳＲシステムは、メディアに関係する認識結果のほうを選ぶように構成することができる。いくつかの実施例では、１つ以上のＡＳＲシステムは、静的言語モデル及び動的言語モデルを含むことができる。静的言語モデルは、一般的なテキストのコーパスを使用してトレーニングすることができ、動的言語モデルは、ユーザ固有のテキストを使用してトレーニングすることができる。例えば、ユーザから受信した以前の発語入力に対応するテキストを使用して、動的言語モデルを生成することができる。いくつかの実施例では、１つ以上のＡＳＲシステムは、静的言語モデル及び／又は動的言語モデルに基づいて認識結果を生成するように構成することができる。更に、いくつかの実施例では、１つ以上のＡＳＲシステムは、より最近に受信された以前の発語入力に対応する認識結果のほうを選ぶように構成することができる。
［００６７］
発語テキスト化処理についての追加の詳細が、２０１１年９月２０日に出願された、「ＣｏｎｓｏｌｉｄａｔｉｎｇＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＲｅｓｕｌｔｓ」についての米国実用特許出願第１３／２３６，９４２号に記載されている。同出願の開示全体は本明細書において参照により組み込まれている。
［００６８］
いくつかの実施例では、ＳＴＴ処理モジュール４３０は、認識可能な単語の語彙を含むことができ、及び／又は、音標アルファベット変換モジュール４３１を介してそれにアクセスすることができる。各語彙語は、１つ以上の発語認識音標アルファベットで表される単語の発音候補と関連付けることができる。詳細には、認識可能な単語の語彙は、複数の発音候補に関連付けられた単語を含むことができる。例えば、語彙は、発音候補
［図１］
に関連付けられた単語「トマト」を含むことができる。更に、ユーザからの以前の発語入力に基づいて、語彙語を、カスタム発音候補と関連付けることができる。そのようなカスタム発音候補を、ＳＴＴ処理モジュール４３０に記憶することができて、デバイス上のユーザのプロファイルを介して、特定のユーザと関連付けることができる。いくつかの実施例では、単語の綴り並びに１つ以上の言語規則及び／又は音標規則に基づいて、単語の発音候補を判定することができる。いくつかの実施例では、例えば、既知の正規発音に基づいて、発音候補を手動で生成することができる。
［００６９］
いくつかの実施例では、発音候補の一般性に基づいて、発音候補をランク付けされることができる。例えば、発音候補
［図２］
よりも高くランク付けすることができるが、これは、発音候補
［図３］
が（例えば、全ユーザのうち、特定の地理的領域のユーザについて、又は、任意の他の適切なユーザのサブセットについて）より一般的に使用される発音だからである。いくつかの実施例では、発音候補が、ユーザに関連付けられたカスタム発音候補であるかどうかに基づいて、その発音候補をランク付けすることができる。例えば、カスタム発音候補を、正規発音候補よりも高くランク付けすることができる。このことは、正規発音から逸脱して独特の発音を有する固有名詞を認識するために有用であり得る。いくつかの実施例では、発音候補を出身地、国籍又は民族性などの１つ以上の発語特性と関連付けることができる。例えば、発音候補
［図４］
が米国と関連付けることができるのに対し、発音候補
［図５］
は英国と関連付けることができる。更に、発音候補のランクは、デバイス上のユーザのプロファイルに記憶されたユーザの１つ以上の特性（例えば、出身地、国籍、民族など）に基づくことができる。例えば、ユーザのプロファイルから、ユーザが米国に関連付けられていることを判定することができる。ユーザが米国に関連付けられていることに基づいて、（米国に関連付けられた）発音候補
［図６］
を、（英国に関連付けられた）発音候補
［図７］
よりも高くランク付けすることができる。いくつかの実施例では、ランク付けされた発音候補のうちの１つを、予測された発音（例えば、最も可能性が高い発音）として選択することができる。
［００７０］
発語入力を受信すると、ＳＴＴ処理モジュール４３０を使用して、発語入力に対応する音素を（例えば、音響モデルを使用して）判定し、次いで、音素と一致する単語を（例えば、言語モデルを使用して）判定しようと試みることができる。例えば、ＳＴＴ処理モジュール４３０は、発語入力の一部分に対応する音素の列
［図８］
を最初に特定することができた場合、語彙インデックス４４４に基づいて、この音素の列が単語「トマト」に対応すると判定することができる。
［００７１］
いくつかの実施例では、ＳＴＴ処理モジュール４３０は、近似マッチング技術を使用して、発言内の単語を判定することができる。したがって、例えば、ＳＴＴ処理モジュール４３０は、特定の音素の列が、単語「トマト」の候補音素の列のうちの１つではない場合でも、音素の列
［図９］
が単語「トマト」に対応すると判定することができる。
［００７２］
デジタルアシスタントの自然言語処理モジュール４３２（「自然言語プロセッサ」）は、ＳＴＴ処理モジュール４３０により生成された単語又はトークンの列（「トークン列」）を獲得し、トークン列を、デジタルアシスタントにより認識される１つ以上の「実施可能な意図」に関連付けようと試みることができる。「実施可能な意図」は、デジタルアシスタントにより実行することができるタスクを表すことができ、タスクフローモデル４５４内に実装される、関連付けられたタスクフローを有することができる。関連付けられたタスクフローは、タスクを実行するためにデジタルアシスタントが取る一連のプログラムされたアクション及びステップとすることができる。デジタルアシスタントの能力の範囲は、タスクフローモデル４５４内に実装され、記憶されているタスクフローの数及び種類に依存し、又は、換言すれば、デジタルアシスタントが認識する実施可能な意図の数及び種類に依存することができる。しかし、デジタルアシスタントの有効性もまた、自然言語で表現されたユーザ要求から正しい「実施可能な意図（単数又は複数）」を推定するアシスタントの能力に依存することができる。
［００７３］
いくつかの実施例では、ＳＴＴ処理モジュール４３０から取得される単語又はトークン列に加えて、自然言語処理モジュール４３２はまた、例えば、Ｉ／Ｏ処理モジュール４２８から、ユーザ要求に関連付けられるコンテキスト情報も受信することができる。自然言語処理モジュール４３２は、任意選択的に、コンテキスト情報を使用して、ＳＴＴ処理モジュール４３０から受信したトークン列内に包含されている情報を明らかにし、補完し、及び／又は更に定義することができる。コンテキスト情報は、例えば、ユーザ設定、ユーザデバイスのハードウェア及び／又はソフトウェア状態、ユーザ要求の前、最中、若しくは直後に集められたセンサ情報、デジタルアシスタントとユーザとの間の以前の対話（例えば、ダイアログ）などを含むことができる。本明細書で説明するように、コンテキスト情報は動的であり得、かつ時間、場所、ダイアログの内容及び他の因子によって変化することができる。
［００７４］
いくつかの実施例では、自然言語処理はオントロジ４６０に基づくことができる。オントロジ４６０は、多数のノードを包含する階層構造とすることができ、各ノードは、「実施可能な意図」又は他の「属性」のうちの１つ以上に関連する「実施可能な意図」又は「属性」のいずれかを表す。上述したように、「実施可能な意図」は、デジタルアシスタントが実行する能力を有する、即ち、それは「実施可能」である、又は作用を及ぼされ得るタスクを表すことができる。「属性」は、実施可能な意図、又は別の属性の下位態様に関連付けられるパラメータを表すことができる。オントロジ４６０内の実施可能な意図ノードと属性ノードとの間のリンクは、属性ノードにより表されるパラメータが、実施可能な意図ノードにより表されるタスクにどのくらい関係するのかを定義することができる。
［００７５］
いくつかの実施例では、オントロジ４６０は実施可能な意図ノード及び属性ノードで構成することができる。オントロジ４６０内において、各実施可能な意図ノードは、直接又は１つ以上の中間属性ノードを介して、１つ以上の属性ノードにリンクすることができる。同様に、各属性ノードは、直接又は１つ以上の中間属性ノードを介して、１つ以上の実施可能な意図ノードにンクすることができる。例えば、図４Ｃに示すように、オントロジ４６０は「メディア」ノード（即ち、実施可能な意図ノード）を含むことができる。属性ノード「俳優（単数又は複数）」、「メディアジャンル」及び「メディアタイトル」を、それぞれ、実施可能な意図ノード（即ち、「メディア検索」ノード）に直接リンクすることができる。更に、属性ノード「名前」、「年齢」、「ウルマースケールランキング」及び「国籍」は、属性ノード「俳優」のサブノードであり得る。
［００７６］
別の実施例では、図４Ｃに示すように、オントロジ４６０はまた、「天気」ノード（即ち、別の実施可能な意図ノード）も含むことができる。属性ノード「日付／時間」及び「場所」は、それぞれ、「天気検索」ノードにリンクすることができる。いくつかの実施例では、１つ以上の属性ノードは、２つ以上の実施可能な意図に関連し得ることを認識されたい。これらの実施例では、１つ以上の属性ノードは、オントロジ４６０中の２つ以上の実施可能な意図に対応するそれぞれのノードにリンクすることができる。
［００７７］
実施可能な意図ノードは、そのリンクされた属性ノードと共に、時として「ドメイン」として説明することができる。本説明では、各ドメインは、それぞれの実施可能な意図に関連付けることができ、特定の実施可能な意図に関連付けられたノードのグループ（及びノード間の関係）を指すことができる。例えば、図４Ｃに示したオントロジ４６０は、オントロジ４６０内のメディアメディアドメイン４６２の例及び４６４天気ドメインの例を含むことができる。メディアドメイン４６２は、実施可能な意図ノード「メディア検索」と、属性ノード「俳優（単数又は複数）」、「メディアジャンル」及び「メディアのタイトル」を含むことができる。天気ドメイン４６４は、実施可能な意図ノード「天気検索」、及び属性ノード「場所」及び「日付／時間」が含むことができる。いくつかの実施例では、オントロジ４６０は多くのドメインで構成することができる。各ドメインは、１つ以上の他のドメインと、１つ以上の属性ノードを共有することができる。
［００７８］
図４Ｃは、オントロジ４６０内の２つの例示的なドメインを示しているが、他のドメインとして、例えば、「アスリート」、「株式」、「方向」、「メディア設定」、「スポーツチーム」、及び「時間」並びに「ジョークを言う（tell joke）」などを挙げることができる。「アスリート」ドメインは、「アスリート情報検索」という実施可能な意図ノードと関連付けることができ、「アスリートの名前」、「アスリートのチーム」及び「アスリートの成績」などの属性ノードを更に含み得る。
［００７９］
いくつかの実施例では、オントロジ４６０は、デジタルアシスタントが理解し、作用を及ぼすことができる全てのドメイン（したがって実施可能な意図）を含むことができる。いくつかの実施例では、オントロジ４６０は、ドメイン若しくはノード全体を追加又は除去すること、又はオントロジ４６０内のノード間の関係を変更することなどによって、修正することができる。
［００８０］
いくつかの実施例では、オントロジ４６０内の各ノードは、そのノードによって表される属性又は実施可能な意図に関連する単語及び／又はフレーズのセットに関連付けることができる。各ノードに関連付けられる単語及び／又はフレーズのそれぞれのセットは、そのノードに関連付けられるいわゆる「語彙」とすることができる。各ノードに関連付けられる単語及び／又はフレーズのそれぞれのセットは、ノードによって表される属性又は実施可能な意図に関連して語彙索引４４４内に記憶することができる。例えば、図４Ｃに戻ると、「俳優」の属性についてのノードに関連付けられる語彙は、「Ａリスト」、「ＲｅｅｓｅＷｉｔｈｅｒｓｐｏｏｎ」、「ＡｒｎｏｌｄＳｃｈｗａｒｚｅｎｅｇｇｅｒ」、「ＢｒａｄＰｉｔｔ」などの単語を含むことができる。別の例として、「天気検索」という実施可能な意図のノードに関連付けられる語彙は、「天気」、「どんな様子か」、「予報」などの単語及びフレーズを含むことができる。語彙索引４４４は異なる言語の単語及びフレーズを任意選択的に含むことができる。
［００８１］
自然言語処理モジュール４３２は、ＳＴＴ処理モジュール４３０からトークン列（例えば、テキスト文字列）を受信し、トークン列内の単語がどのノードを暗示しているのかを判定することができる。いくつかの実施例では、トークン列内の単語又はフレーズが（語彙索引４４４を介して）オントロジ４６０内の１つ以上のノードに関連付けられていることが分かった場合、その単語又はフレーズが、それらのノードを「トリガする」又は「アクティブ化する」ことができる。アクティブ化されたノードの量及び／又は相対的重要度に基づき、自然言語処理モジュール４３２は、ユーザがデジタルアシスタントに実行させようと意図したタスクとして、実施可能な意図のうちの１つを選択することができる。いくつかの実施例では、最も多く「トリガされた」ノードを有するドメインを選択することができる。いくつかの実施例では、最も高い信頼値を有するドメインを（例えば、その種々のトリガされたノードの相対的重要度に基づいて）選択することができる。いくつかの実施例では、トリガされたノードの数及び重要度の組み合わせに基づいて、ドメインを選択することができる。いくつかの実施例では、ノードを選択する際には、デジタルアシスタントはユーザからの同様の要求を以前に正確に解釈したかどうかなどの追加の因子も考慮される。
［００８２］
ユーザデータ４４８は、ユーザ固有語彙、ユーザ設定、ユーザアドレス、ユーザの既定言語及び第二言語、ユーザの連絡先リスト、並びに各ユーザに関するその他の短期的若しくは長期的情報などの、ユーザ固有の情報を含むことができる。いくつかの実施例では、自然言語処理モジュール４３２は、ユーザ入力内に包含されている情報を補完してユーザ意図を更に明確にするために、ユーザ固有の情報を使用することができる。例えば、ユーザ要求「今週の天気はどんなか」に対して、自然言語処理モジュール４３２は、ユーザの要求時にユーザがいる場所を明示的に提供するようにユーザに要求するのではなく、ユーザデータ４４８にアクセスしてそのような情報を判定することができる。
［００８３］
トークン文字列に基づくオントロジ検索のその他の詳細が、２００８年１２月２２日出願の「ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＳｅａｒｃｈｉｎｇＵｓｉｎｇａｎＡｃｔｉｖｅＯｎｔｏｌｏｇｙ」に対する米国実用特許出願第１２／３４１，７４３号に記載されている。同出願の開示全体は本明細書において参照により組み込まれている。
［００８４］
いくつかの実施例では、自然言語処理モジュール４３２が、ユーザ要求に基づいて、実施可能な意図（又はドメイン）を特定すると、自然言語処理モジュール４３２は、特定された実施可能な意図を表すように、構造化されたクエリを生成することができる。いくつかの実施例では、構造化されたクエリは、実施可能な意図に関するドメイン内の１つ以上のノードのためのパラメータを含むことができ、パラメータの少なくともいくつかにはユーザ要求内で指定された特定の情報及び要求事項が追加される。例えば、ユーザは、「このＴＶシリーズの他のシーズンを見つけて」と言ってもよい。この場合には、自然言語処理モジュール４３２は、ユーザ入力に基づいて、実施可能な意図を「メディア検索」であると正確に特定することができる。オントロジによれば、「メディア」ドメインのための構造化されたクエリは、｛メディア俳優｝、｛メディアジャンル｝、｛メディアタイトル｝などのようなパラメータを含み得る。いくつかの実施例では、発語入力、及びＳＴＴ処理モジュール４３０を使用して発語入力から導き出されたテキストに基づいて、自然言語処理モジュール４３２は、レストラン予約ドメインについての部分的な構造化されたクエリを生成することができ、部分的な構造化されたクエリは、パラメータ｛メディアジャンル＝テレビシリーズ｝を含む。しかし、本例では、ユーザの発言は、ドメインに関連付けられる構造化されたクエリを完成するために十分な情報を包含していない。したがって、｛メディアのタイトル｝などの他の必要パラメータは、現在利用可能な情報に基づいては、構造化されたクエリ内に指定されないことがある。いくつかの実施では、自然言語処理モジュール４３２は、構造化されたクエリのいくつかのパラメータに、受信したコンテキスト情報を追加することができる。例えば、ＴＶシリーズ「ＭａｄＭｅｎ」が、メディアデバイス上で現在再生していることがある。このコンテキスト情報に基づいて、自然言語処理モジュール４３２は、構造化されたクエリの｛メディアのタイトル｝パラメータに、「ＭａｄＭｅｎ」を追加することができる。
［００８５］
いくつかの実施例では、自然言語処理モジュール４３２は、（任意の完成したパラメータを含む）生成した構造化されたクエリをタスクフロー処理モジュール４３６（「タスクフロープロセッサ」）に渡すことができる。タスクフロー処理モジュール４３６は、自然言語処理モジュール４３２から、構造化されたクエリを受信し、必要ならば、構造化されたクエリを完成させ、ユーザの最終的な要求を「完了する」ために必要とされるアクションを実行するように構成することができる。いくつかの実施例では、これらのタスクを完成させるために必要な種々の手順を、タスクフローモデル４５４内で行うことができる。いくつかの実施例では、タスクフローモデル４５４は、ユーザから追加情報を取得するための手順、及び実施可能な意図に関連付けられるアクションを実行するためのタスクフローを含むことができる。
［００８６］
上述したように、構造化されたクエリを完成させるために、タスクフロー処理モジュール４３６は、追加情報を取得し、及び／又は潜在的に曖昧な発言の曖昧性を回避するために、ユーザとの追加のダイアログを開始することが時により必要になることがある。このような対話が必要となる場合には、タスクフロー処理モジュール４３６は、ユーザとのダイアログに携わるためにタスクフロー処理モジュール４３４を呼び出すことができる。いくつかの実施例では、ダイアログフロー処理モジュール４３４は、どのように（及び／又はいつ）ユーザに追加情報を求めるべきかを判定し、ユーザ応答を受信し、これらを処理する。Ｉ／Ｏ処理モジュール４２８を通じてユーザに質問を提供することができ、ユーザから回答を受信することができる。いくつかの実施例では、ダイアログフロー処理モジュール４３４はオーディオ出力及び／又は視覚出力を介してユーザにダイアログ出力を提示することができ、口頭の又は物理的な（例えば、クリック）応答を介してユーザから入力を受信することができる。例えば、ユーザは「パリの天気は？」と質問することができる。タスクフロー処理モジュール４３６がダイアログフロー処理モジュール４３４を呼び出して、ドメイン「天気検索」に関連付けられた構造化されたクエリの「場所」情報を判定すると、ダイアログフロー処理モジュール４３４は、「どのパリ？」などの質問を生成して、ユーザに渡すことができる。更に、ダイアログフロー処理モジュール４３４は、ユーザ選択のために、「パリ、テキサス」及び「パリ、フランス」に関連付けられたアフォーダンスを提示させることができる。ユーザから応答を受信すると、ダイアログフロー処理モジュール４３４は、次いで、構造化されたクエリに、欠けている情報を追加するか、又は構造化されたクエリから欠けている情報を完成させるために、その情報をタスクフロー処理モジュール４３６に渡すことができる。
［００８７］
タスクフロー処理モジュール４３６が、実施可能な意図のための構造化されたクエリを完成すると、タスクフロー処理モジュール４３６は、実施可能な意図に関連付けられる最終的なタスクの実行に進むことができる。それに応じて、タスクフロー処理モジュール４３６は、構造化されたクエリ内に包含されている具体的なパラメータに応じて、タスクフローモデル４５４内のステップ及び命令を実行することができる。例えば、「メディア検索」の実施可能な意図のためのタスクフローモデルは、関連するメディアアイテムを取得するためにメディア検索クエリを実行するステップ及び命令を含むことができる。例えば、｛メディア検索、メディアジャンル＝ＴＶシリーズ、メディアのタイトル＝ＭａｄＭｅｎ｝などの構造化されたクエリを使用して、タスクフロー処理モジュール４３６は、（１）関連するメディアアイテムを取得するために、メディアデータベースを使用してメディア検索クエリを実行するステップと、（２）関連性及び／又は人気に従って、取得したメディアアイテムをランク付けするステップと、（３）関連性及び／又は人気に従ってソートされたメディアアイテムを表示するステップとを実行することができる。
［００８８］
いくつかの実施例では、タスクフロー処理モジュール４３６は、ユーザ入力で要求されたタスクを完了するために、又はユーザ入力で要求された情報の回答を提供するために、サービス処理モジュール４３８（「サービス処理モジュール」）の支援を採用することができる。例えば、サービス処理モジュール４３８は、タスクフロー処理モジュール４３６の代わりに、メディア検索を実行するように、天気情報を取り出すように、他のユーザデバイス上にインストールされたアプリケーションを呼び出す又はそれと対話するように、並びに、サードパーティサービス（例えば、ソーシャルネットワーキングウェブサイト、メディアレビューウェブサイト、メディアサブスクリプションサービスなど）を呼び出す又はそれと対話するように作用することができる。いくつかの実施例は、各サービスによって必要とされるプロトコル及びＡＰＩは、サービスモデル４５６の中のそれぞれのサービスモデルによって指定され得る。サービス処理モジュール４３８は、サービスのための適当なサービスモデルにアクセスし、サービスモデルに係るサービスによって必要とされるプロトコル及びＡＰＩに従ってサービスの要求を生成することができる。
［００８９］
例えば、サードパーティーメディア検索サービスは、メディア検索を行うために必要なパラメータ、及び必要なパラメータの値をメディア検索サービスに通信するためのＡＰＩを指定するサービスモデルを提出することができる。タスクフロー処理モジュール４３６により要求されると、サービス処理モジュール４３８は、メディア検索サービスとのネットワーク接続を確立し、メディア検索サービスのＡＰＩに従ったフォーマットで、メディア検索の必要なパラメータ（例えば、メディア俳優、メディアジャンル、メディアタイトル）をオンライン予約インタフェースに送信することができる。
［００９０］
いくつかの実施例では、ユーザの意図を推定して明確にし、ユーザ意図を更に明らかにして絞り込むための情報を入手し、ユーザの意図を達成するべく応答（即ち、ユーザへの出力又はタスクの完了）を最終的に生成するために、自然言語処理モジュール４３２、ダイアログフロー処理モジュール４３４、及びタスクフロー処理モジュール４３６を集合的かつ反復的に使用することができる。生成した応答は、ユーザの意図を少なくとも部分的に達成する、発語入力へのダイアログ応答とすることができる。更に、いくつかの実施例では、生成した応答を、発語出力として出力することができる。これらの実施例では、生成した応答を、発語合成モジュール４４０（例えば、発語合成器）に送信することができ、そこで、生成した応答を処理して、発語形態のダイアログ応答を合成することができる。更に他の実施例では、生成した応答は、発語入力のユーザ要求を満たすことに関連するデータコンテンツとすることができる。
［００９１］
発語合成モジュール４４０は、ユーザに提示するために、発語出力を合成するように構成することができる。発語合成モジュール４４０は、デジタルアシスタントにより提供されたテキストに基づいて、発語出力を合成する。例えば、生成されたダイアログ応答は、テキスト文字列の形態とすることができる。発語合成モジュール４４０は、テキスト文字列を可聴の発語出力に変換することができる。発語合成モジュール４４０は、テキストから発語出力を生成するために、波形接続合成、単位選択合成、ダイフォン合成、分野限定合成、フォルマント合成、調音合成、隠れマルコフモデル（ＨＭＭ）ベースの合成、及びサイン波合成を含むが、これらには限定されない任意の適切な音声合成技法を使用することができる。いくつかの実施例では、発語合成モジュール４４０は、単語に対応する音素文字列に基づいて、個々の単語を合成するように構成することができる。例えば、音素文字列は、生成したダイアログ応答中の単語に関連付けることができる。音素文字列は、単語に関連付けられたメタデータ中に記憶することができる。発語合成モジュール４４０は、メタデータ中の音素文字列を直接処理して、発語形態の単語を合成するように構成されることができる。
［００９２］
いくつかの実施例では、発語合成モジュール４４０の使用の代わりに（又は、それに加えて）、リモートデバイス（例えば、サーバシステム１０８）上で発語の合成を実行することができ、合成した発語を、ユーザへの出力のために、ユーザデバイスに送信することができる。例えば、これは、デジタルアシスタントのための出力がサーバシステムにおいて生成される、いくつかの実装形態で起こり得る。また、サーバシステムは概して、ユーザデバイスよりも多くの処理電力又はリソースを有するので、クライアント側合成を用いた実用的な出力よりも高い品質発語出力を取得することが可能であり得る。
［００９３］
デジタルアシスタントに関する追加の詳細は、その開示全体が参照により本明細書に組み込まれる、２０１１年１月１０日出願の「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔ」と題された米国実用特許出願第１２／９８７，９８２号、２０１１年９月３０日出願の「ＧｅｎｅｒａｔｉｎｇａｎｄＰｒｏｃｅｓｓｉｎｇＤａｔａＩｔｅｍｓＴｈａｔＲｅｐｒｅｓｅｎｔＴａｓｋｓｔｏＰｅｒｆｏｒｍ」と題された米国実用特許出願第１３／２５１，０８８号に記載されている。
４．メディア環境においてデジタルアシスタントを動作させるためのプロセス
［００９４］
図５Ａ〜図５Ｅは、種々の実施例に係る、メディアシステムのデジタルアシスタントを動作させるためのプロセス５００を示す。プロセス５００は、デジタルアシスタントを実装する１つ以上の電子デバイスを使用して実行することができる。例えば、プロセス５００は、上述のシステム１００、メディアシステム１２８、メディアデバイス１０４、ユーザデバイス１２２、又はデジタルアシスタントシステム４００のうちの１つ以上を使用して実行することができる。図６Ａ〜図６Ｋは、種々の実施例に係る、プロセス５００の種階における、メディアデバイスにより表示ユニット上に表示されるスクリーンショットを示す。図５Ａ〜図５Ｅ及び図６Ａ〜図６Ｋを同時に参照して、以下にプロセス５００を説明する。プロセス５００のいくつかの動作を組み合わせることができ、いくつかの動作の順序を変更することができ、いくつかの動作を省略することができる。
［００９５］
プロセス５００のブロック５０２で、図６Ａを参照すると、表示ユニット上にメディアアイテムの１次セット６０４を表示することができる。各メディアアイテムは、特定のメディアコンテンツ（例えば、映画、ビデオ、テレビショー／シリーズ、ビデオゲームなど）に対応することができる。以前に受信したメディア検索要求に応じて、メディアアイテムの１次セット６０４を表示することができる。いくつかの実施例では、以前に受信したメディア検索要求は、デジタルアシスタントとの口頭対話であり得る。他の実施例では、以前に受信したメディア検索要求は、メディアデバイスのキーボードインタフェースを介して受信したデジタルアシスタントとのテキスト対話であり得る。
［００９６］
以前に受信したメディア検索要求に従って１次メディア検索クエリを実行することによって、メディアアイテムの１次セット６０４を取得することができる。いくつかの実施例では、１次メディア検索クエリは、以前に受信したメディア検索要求中で定義された１つ以上のパラメータ値に基づく構造化された検索であり得る。これらの実施例では、メディアアイテムの１次セット６０４の各メディアアイテムは、以前に受信したメディア検索要求中で定義された１つ以上のパラメータ値と一致する１つ以上のパラメータ値を含むことができる。他の実施例では、１次メディア検索クエリは、以前に受信したメディア検索要求のテキスト入力文字列に基づく文字列検索であり得る。これらの実施例では、メディアアイテムの１次セット６０４の各メディアアイテムは、以前に受信したメディア検索要求のテキスト入力文字列と一致するテキストと関連付けることができる。
［００９７］
メディアアイテム６０４は、以前に受信したメディア検索要求に対応する共通の属性又はパラメータ値を共有することができる。図６Ａに示した本実施例では、以前に受信したメディア検索要求は、直近１０年間のアクション映画の要求であり得る。以前に受信したメディア検索要求を満たすメディアアイテムの１次セット６０４を取得することができる。この例では、メディアアイテムの１次セット６０４は、「ＴｈｅＡｍａｚｉｎｇＳｐｉｄｅｒＭａｎ２」、「Ｆｕｒｉｏｕｓ７」及び「ＩｒｏｎＭａｎ３」など、直近１０年間に公開されたアクション映画を含むことができる。メディアアイテムの１次セット６１２に関連して、以前に受信したメディア検索要求に対応する属性又はパラメータ値について説明するテキスト６１２を表示することができる。
［００９８］
図６Ａに示すように、ユーザインタフェース６０２を介して、メディアアイテムの１次セット６０４を表示することができる。ユーザインタフェース６０２は、ユーザが、ユーザインタフェース６０２のメディアアイテム間をナビゲートし、消費のための特定のメディアアイテムを選択することを可能化するように構成することができる。いくつかの実施例では、メディアアイテムの１次セット６０４と共に、１つ以上のメディアアイテムの２次セット６０６をユーザインタフェース６０２に表示することができる。常にメディアアイテムの２次セットが表示されるわけでないことを認識されたい。いくつかの実施例では、ユーザインタフェース６０２は、表示ユニットの少なくとも大部分の表示範囲を占めることができる。他の実施例では、表示ユニットは、ユーザインタフェース６０２を表示しながら、メディアデバイス上で再生しているメディアコンテンツ（図示せず）を表示することができる。これらの実施例では、表示ユニット上でユーザインタフェース６０２が占める表示範囲は、表示ユニット上でメディアコンテンツが占める表示範囲よりも小さくなり得る。更に、これらの実施例では、ユーザインタフェース６０２は、メディアアイテムの２次セット６０６を含ないことがある。詳細には、ユーザインタフェース６０２を介して表示されるメディアアイテムのみが、メディアアイテムの１次セット６０４であり得る。
［００９９］
メディアアイテムの１次セット６０４及びメディアアイテムの２次セット６０６の表示された各メディアアイテムは、メディアタイプ、メディアタイトル、俳優、メディアのキャラクター、監督、メディアの公開日、メディアの所要時間、メディアのクオリティレーティング、メディアの人気率などのようなパラメータのパラメータ値と関連付けることができる。いくつかの実施例では、ユーザインタフェース６０２を介して、各メディアアイテムの１つ以上のパラメータ値を、各メディアアイテムに隣接して、又はその上にテキストとして表示することができる。
［０１００］
本実施例では、１つ以上のメディアアイテムの２次セット６０６は、メディアアイテムの１次セット６０４に基づくことができる。詳細には、１つ以上のメディアアイテムの２次セット６０６は、共通の属性又はパラメータ値をメディアアイテムの１次セット６０４と共有することができる。図６Ａに示すように、メディアアイテムの２次セット６０８はアクション映画であり得、メディアアイテムの２次セット６１０は、外国のアクション映画であり得る。したがって、この実施例では、メディアアイテムの１次セット６０４及び２次セット６０６は全て、アクション映画のメディアジャンルに関係することができる。他の実施例では、メディアアイテムの２次セット６０６は、以前のメディア検索要求、あるいは人気がある流行のメディアアイテム及びカテゴリーなどの他の情報から導き出されるパラメータ値に基づき得ることを認識されたい。
［０１０１］
プロセス５００のブロック５０４で、ユーザ入力を検出することができる。ブロック５０２でメディアアイテムの１次セット６０４を表示する間に、ユーザ入力を検出することができる。いくつかの実施例では、メディアデバイスの遠隔制御（例えば、遠隔制御１２４）上で、ユーザ入力を検出することができる。詳細には、ユーザ入力は、ボタン（例えば、ボタン２７４）の押下など、遠隔制御とのユーザ対話、又は、遠隔制御のタッチ感知面（例えば、タッチ感知面２７８）の接触とすることができる。いくつかの実施例では、メディアデバイスと対話するように構成された第２の電子デバイス（例えば、デバイス１２２）を介して、ユーザ入力を検出することができる。ユーザ入力は、メディアデバイスのデジタルアシスタントの呼び出しと関連付けることができる。ユーザ入力を検出したことに応じて、ブロック５０６〜５１０のうちの１つ以上を実行することができる。
［０１０２］
プロセス５００のブロック５０６で、オーディオ入力を受信することができる。オーディオ入力は、メディアに関係する要求を包含することができる。例えば、ブロック５０４でユーザ入力を検出したことに応じて、メディアデバイスのマイクロフォン（例えば、マイクロフォン２７２）を介して、オーディオ入力をサンプリングすることができる。サンプリングしたオーディオ入力は、ユーザ発言の形態のメディアに関係する要求を含むことができる。いくつかの実施例では、メディアアイテムの１次セット６０４の少なくとも一部分を表示している間に、メディアに関係する要求を包含するオーディオ入力を受信することができる。メディアに関係する要求は、自然言語形式とすることができる。いくつかの実施例では、メディアに関係する要求は曖昧であることがあり、要求を満たすために必要な情報の全てが明示的に定義されているわけではない。例えば、メディアに関係する要求は、「ＪａｃｋＲｙａｎ」とすることができる。この実施例では、要求は、キャラクターＪａｃｋＲｙａｎに関する映画の新しいメディア検索要求であるか、又はキャラクターＪａｃｋＲｙａｎに基づいて現在表示されているメディアアイテムをフィルタリング要求であるかを、明示的には特定しない。
［０１０３］
いくつかの実施例では、メディアに関係する要求は、１つ以上の曖昧な用語を含むことがある。例えば、メディアに関係する要求は、「良いものはどれ？」とすることができる。この実施例では、メディアに関係する要求は、メディアアイテム（例えば、メディアアイテムの１次セット６０４及び／又は２次セット６０６）を指すことを意図する曖昧な用語「もの」が表示されていることを含む。更に、この実施例では、メディアに関係する要求は、曖昧な用語（例えば「良い」）を使用して、メディアアイテムのパラメータ値（例えば、ユーザ評価又は評論家評価）を定義する。
［０１０４］
メディアに関係する要求は、メディアアイテムに関連付けられた１つ以上のパラメータ値を定義することができる。メディアに関係する要求において定義することができるパラメータ値の例として、メディアタイプ、メディアタイトル、俳優、メディアのキャラクター、メディアの監督、メディアの公開日、メディアの所要時間、メディアのクオリティレーティング、メディアの人気率などを挙げられる。
［０１０５］
いくつかの実施例では、メディアに関係する要求は、メディア検索要求であり得る。いくつかの実施例では、メディアに関係する要求は、１次メディア検索クエリを訂正するという要求であり得る。他の実施例では、メディアに関係する要求は、ユーザインタフェース６０２上の表示されたメディアアイテム間をナビゲートするという要求であり得る。更に他の実施例では、メディアに関係する要求は、メディアデバイスのアプリケーションの状態又は設定を調整するという要求であり得る。
［０１０６］
本実施例では、オーディオ入力でメディアに関係する要求を受信するが、他の実施例では、メディアに関係する要求をテキスト入力として受信することができることを了解されたい。詳細には、オーディオ入力の代わりに、ブロック５０６で、キーボードインタフェースを介して、メディアに関係する要求を包含するテキスト入力を受信することができる。テキスト入力としてメディアに関係する要求を受信する実施例では、ブロック５０８を実行する必要はないことを認識されたい。そうではなく、ブロック５１０で、テキスト入力から１次ユーザ意図を直接判定することができる。
［０１０７］
プロセス５００のブロック５０８で、メディアに関係する要求のテキスト表現を判定することができる。例えば、ブロック５０６で受信したオーディオ入力に対して発語テキスト化（ＳＴＴ）処理を実行することによって、テキスト表現を判定することができる。詳細には、ＳＴＴ処理モジュール（例えば、ＳＴＴ処理モジュール４３０）を使用して、オーディオ入力を処理して、オーディオ入力中のメディアに関係する要求をテキスト表現へと変換することができる。テキスト表現は、対応するテキスト文字列を表すトークン文字列とするができる。いくつかの実施例では、表示ユニット上に、テキスト表現を表示することができる。詳細には、ブロック５０６でオーディオ入力を受信している間に、リアルタイムでテキスト表現を表示することができる。
［０１０８］
ＳＴＴ処理中に１つ以上の言語モデルを使用して、テキスト表現を判定することができる。いくつかの実施例では、メディアに関係するテキスト結果に向かってＳＴＴ処理をバイアスさせることができる。具体的には、テキスト表現を判定するために使用される１つ以上の言語モデルを、メディアに関係するテキスト結果に向かってバイアスさせることができる。例えば、メディアに関係するテキストのコーパスを使用して、１つ以上の言語モデルをトレーニングすることができる。それに加えて、又は代替として、バイアスは、メディアに関係する候補テキスト結果をより重く重み付けすることによって実装することができる。このようにすると、バイアスしない場合よりも、バイアスをした場合に、メディアに関係する候補テキスト結果を高く評価することができる。バイアスは、メディアに関係する要求におけるメディアに関係する単語又はフレーズ（例えば、映画の名前、映画の俳優など）に対するＳＴＴ処理の精度を増大させるためには望ましいことがある。例えば、テキストの典型的なコーパスで、「ＪｕｒａｓｓｉｃＰａｒｋ」、「ＡｒｎｏｌｄＳｃｈｗａｒｚｅｎｅｇｇｅｒ」及び「Ｓｈｒｅｋ」など、ある特定のメディアに関係する単語又はフレーズを稀に発見することができ、したがって、メディアに関係するテキスト結果に向かってバイアスすることなく、ＳＴＴ処理中に正常に認識されないことがある。
［０１０９］
上述したように、ブロック５０２で表示したメディアアイテムに関連付けられたテキスト（例えば、メディアアイテムの１次セット６０４、及びメディアアイテムの２次セット６０６）を、ユーザインタフェース６０２を介して表示することができる。テキストは、ユーザインタフェース６０２の各メディアアイテムの１つ以上の属性又はパラメータ値について説明することができる。例えば、メディアアイテムの１次セット６０４は、映画「ＩｒｏｎＭａｎ３」に対応するメディアアイテムを含むことができる。この実施例では、表示したテキストは、タイトル「ＩｒｏｎＭａｎ３」、俳優「ＲｏｂｅｒｔＤｏｗｎｅｙＪｒ」及び「ＧｗｙｎｅｔｈＰａｌｔｒｏｗ」、並びに監督「ＳｈａｎｅＢｌａｃｋ」を含むことができる。いくつかの実施例では、表示されたメディアアイテムに関連付けられた表示されたテキストを使用して、カスタム言語モデルを生成することができる。次いで、カスタム言語モデルを使用してＳＴＴ処理を実行して、テキスト表現を判定することができる。詳細には、テキスト表現を判定する時に、カスタム言語モデルからの候補テキスト結果に、他の言語モデルからの候補テキスト結果と比較して、より大きな重みを与えることができる。いくつかの実施例では、メディアアイテムの１次セット６０４及びメディアアイテムの２次セット６０６に関連付けられた全ての属性又はパラメータ値が、表示ユニット上にテキストとして表示されるわけではないことを認識されたい。また、これらの実施例では、表示ユニット上に表示されていないメディアアイテムの１次セット６０４及びメディアアイテムの２次セット６０６の属性又はパラメータ値のテキストを使用して、カスタム言語モデルを生成することができる。
［０１１０］
いくつかの実施例では、テキスト表現を使用して、予測テキストを判定することができる。例えば、テキスト表現中の単語の列に基づいて１つ以上の後続の単語を予測するために、言語モデルを使用することができる。オーディオ入力を受信している間に、予測テキストを判定することができる。更に、テキスト表現と共に、予測テキストを表示ユニット上に表示することができる。詳細には、ブロック５０６でオーディオ入力を受信している間に、リアルタイムで予測テキストを表示することができる。
［０１１１］
オーディオ入力のエンドポイントの検出に基づいて、予測テキストが、ユーザにより受け入れられ得る。いくつかの実施例では、ブロック５０４のユーザ入力が検出されなくなると、エンドポイントを検出することができる。他の実施例では、オーディオ入力の１つ以上のオーディオ特徴が所定の評価基準を満たさなくなった後、所定の継続期間において、エンドポイントを検出することができる。予測テキストの表示後にオーディオ入力のエンドポイントが検出されるどうかについて、判定を生成することができる。予測テキストの表示後にオーディオ入力のエンドポイントが検出されたという判定に従って、予測テキストがユーザにより受け入れられると判定することができる。詳細には、ブロック５１０で、テキスト表現及び受け入れられた予測テキストを使用して、１次ユーザ意図を判定することができる。
［０１１２］
いくつかの実施例では、テキスト表現を判定するために使用される１つ以上の言語モデルは、複数の言語におけるメディアに関係する用語を認識するように構成することができる。詳細には、メディアに関係する用語（例えば、メディアタイトル、俳優の名前など）は、様々な言語にわたって固有の翻訳を有することがある。例えば、俳優「ＡｒｎｏｌｄＳｃｈｗａｒｚｅｎｅｇｇｅｒ」は、中国語では
［図１０］
に対応し、ヒンズー語では
［図１１］
に対応する。種々の言語におけるメディアに関係するテキストのコーパスを使用して、テキスト表現を判定するために使用される１つ以上の言語モデルをトレーニングすることができる。したがって、１つ以上の言語モデルは、種々の言語におけるメディアに関係する用語の対応する翻訳を認識するように構成することができる。
［０１１３］
プロセス５００のブロック５１０で、メディアに関係する要求に対応する１次ユーザ意図を判定することができる。テキスト表現に対して自然言語処理を実行することによって、１次ユーザ意図を判定することができる。詳細には、自然言語処理モジュール（例えば、自然言語処理モジュール４３２）を使用して、テキスト表現をパース及び処理して、メディアに関係する要求に対応する複数の候補ユーザ意図を判定することができる。確率に従って候補ユーザ意図をランク付けすることができ、最も高い確率を有する候補ユーザ意図を１次ユーザ意図であると判定することができる。
［０１１４］
１次ユーザ意図を判定することは、テキスト表現に関連付けられた、関連するドメイン又は実施可能な意図を判定することを含むことができる。いくつかの実施例では、ブロック５１０で、メディアに関係する要求に関連付けられたメディアのタイプを判定することができ、メディアに関係する要求に関連付けられた判定されたメディアタイプに基づいて、関連するドメイン又は実施可能な意図を判定することができる。例えば、メディアに関係する要求「ＪａｍｅｓＢｏｎｄ」に基づいて、メディアタイプは、「映画／テレビショー」であると判定することができ、対応する実施可能な意図又はドメインは、「映画／テレビショーを見つける」であると判定することができる。この実施例では、メディアに関係する要求は、メディアのタイプ「映画／テレビショー」に従って、「ＪａｍｅｓＢｏｎｄ」のメディア検索を実行することによって達成することができる。具体的には、メディアのキャラクター「ＪａｍｅｓＢｏｎｄ」について、映画及びテレビのデータベースを検索して、メディアに関係する要求を達成することができる。他の実施例では、メディアに関係する要求「ＴａｙｌｏｒＳｗｉｆｔ」に基づいて、メディアのタイプは、「音楽」であると判定することができ、対応する実施可能な意図又はドメインは、「音楽を見つける」であると判定することができる。この実施例では、メディアに関係する要求は、歌手「ＴａｙｌｏｒＳｗｉｆｔ」についての音楽データベースを検索すること（例えば、ｉＴｕｎｅｓ（登録商標）音楽サービス上で検索を実行すること）によって達成することができる。
［０１１５］
いくつかの実施例では、１次ユーザ意図を判定するための自然言語処理を、メディアに関係するユーザ意図に向かってバイアスさせることができる。詳細には、自然言語処理モジュールは、オントロジ内のメディアに関係するノードをトリガするメディアに関係する語及びフレーズ（例えば、メディアタイトル、メディアジャンル、俳優、ＭＰＡＡフィルム−レーティングラベルなど）を特定するようにトレーニングすることができる。例えば、自然言語処理モジュールは、映画のタイトルとして、テキスト表現のフレーズ「ＪｕｒａｓｓｉｃＰａｒｋ」を特定することができ、その結果、メディアアイテムを検索するという実施可能な意図に関連付けられたオントロジ内の「メディア検索」ノードをトリガすることができる。いくつかの実施例では、オントロジ内のノードをメディアに関係するノードの所定のセットに限定することによって、バイアスを実施することができる。例えば、メディアに関係するノードのセットは、メディアデバイスのアプリケーションに関連付けられたノードであり得る。更に、いくつかの実施例では、メディアに関係していない候補ユーザ意図よりも重くメディアに関係する候補ユーザ意図を重み付けすることによって、バイアスを実施することができる。
［０１１６］
いくつかの実施例では、１次ユーザ意図は、別個のデバイス（例えば、ＤＡサーバ１０６）から取得することができる。詳細には、自然言語処理を実行するために、オーディオデータを別個のデバイスに送信することができる。これらの実施例では、メディアデバイスは、（例えば、サンプリングされたオーディオデータと共に別個のデバイスに送信されるデータを介して）サンプリングされたオーディオデータがメディアアプリケーションと関連付けられた別個のデバイスを示すことができる。このように示すことにより、メディアに関係するユーザ意図に向かって自然言語処理をバイアスすることができる。
［０１１７］
自然言語処理モジュールは、種々の言語及び領域において、メディアに関係する用語の意味を特定するように更にトレーニングことができる。例えば、自然言語処理モジュールは、「ＡｒｎｏｌｄＳｃｈｗａｒｚｅｎｅｇｇｅｒ」、
［図１２］
全てが、同じ俳優を指すことを認識することができる。更に、映画のタイトルは、異なる言語及び領域にわたって変わることがある。例えば、米国の映画「ＬｉｖｅＦｒｅｅｏｒＤｉｅＨａｒｄ」は、英国において「ＤｉｅＨａｒｄ４．０」というタイトルである。別の例では、米国の映画「ＴｏｐＧｕｎ」は、イスラエルでは「ＬｏｖｅｉｎｔｈｅＳｋｉｅｓ」というタイトルである。したがって、自然言語処理モジュールは、英語の「ＴｏｐＧｕｎ」とヘブライ語の「ＬｏｖｅｉｎｔｈｅＳｋｉｅｓ」は共に、同じ映画を指すことを識別するように構成することができる。
［０１１８］
いくつかの実施例では、自然言語処理モジュールは、メディアに関係する要求中の曖昧な用語に基づいて、意図されたパラメータ値を特定するように構成することができる。詳細には、自然言語処理モジュールは、曖昧な用語と１つ以上のパラメータ値との間の接続強度（例えば、関連性、顕著性、意味上の類似性など）を判定することができる。曖昧な用語に対して最も強い接続を有するパラメータ値を、意図されたパラメータ値であると判定することができる。例えば、メディアに関係する要求は、「良いものを見せて」とすることができる。用語「良い」は、特定のパラメータ値を明示的には定義しないので曖昧とすることができる。この例では、用語「良い」に対する接続強度に基づいて、自然言語処理モジュールは、「良い」が、所定の値よりも高い平均的なユーザの評価のパラメータ値を指すと判定することができる。
［０１１９］
いくつかの実施例では、１次ユーザ意図を判定する前に、仮のユーザ意図を判定することができる。仮のユーザ意図は、ブロック５０６で受信した（オーディオ全体入力でなく）オーディオ入力の一部分を使用して、実施可能な意図又はドメインを判定することを含むことができる。仮のユーザ意図を判定するためのプロセスは、１次ユーザ意図を判定することよりもロバストではなく、したがって、より高速であり得る。これにより、オーディオ入力を依然として受信している間に、仮のユーザ意図を判定することを可能にすることができる。仮のユーザ意図を判定することは、メディアに関係する要求を満たすために必要なデータをプリフェッチすることを可能化し、それにより、デジタルアシスタントの応答時間を低減することができる。例えば、メディアに関係する要求は、「午後７時には何がある？（What's on at 7PM?）」とすることができる。この要求の第１の部分「．．．時には何がある（What's on...））」に基づいて、仮のユーザ意図が「チャンネルプログラミングの検索」であると判定することができる。この仮のユーザ意図に基づいて、この仮のユーザ意図を満たすために必要なデータを特定することができる。詳細には、ユーザが利用可能なチャンネルを判定するためには、ユーザのサブスクリプション情報が必要となると判定することができる。次いで、それらのチャンネルに対応するプログラミングを判定することができる。デジタルアシスタントは最初に、必要なデータがメディアシステム又はデジタルアシスタントサーバに既に記憶されているどうかを判定することができる。仮のユーザ意図の判定時に、メディアシステム又はデジタルアシスタントサーバにデータが記憶されているという判定に従って、１次ユーザ意図を判定している間にデータを取り出すことができる。仮のユーザ意図の判定時に、メディアシステム又はデジタルアシスタント上にデータが記憶されていないという判定に従って、１次ユーザ意図を判定している間に、必要なデータを取得することができる。例えば、デジタルアシスタントは、ユーザの操作なしに、ユーザのサブスクリプションサービスプロバイダと自動的に通信し、ユーザが利用可能なチャンネルを取り出すことができる。
［０１２０］
図５Ａに示したように、プロセス５００のブロック５１０は、ブロック５１２〜５１８のうちの１つ以上を含むことができる。プロセス５００のブロック５１２で、１次ユーザ意図は、メディアアイテムの１次セット６０４に対応する１次メディア検索クエリを絞り込むユーザ意図を備えるかどうかについて、判定を行うことができる。換言すると、ブロック５１０で、ブロック５０６のメディアに関係する要求が、依然に受信したメディア検索要求を絞り込む要求であるかどうかを判定することができる。いくつかの実施例では、１次ユーザ意図が、１次メディア検索クエリを絞り込むユーザ意図を含むかどうかを判定することは、メディアに関係する要求が、１次メディア検索クエリを絞り込むユーザ意図に対応する所定の単語又はフレーズを含むかどうかを判定することを含むことができる。所定の単語又はフレーズは、複数の絞り込み用語のうちの１つを含むことができる。例えば、所定の単語又はフレーズは、メディア検索要求よりも前に受信した以前のメディア検索要求を絞り込む明示的な要求を示すことができる。更に、いくつかの実施例では、メディアに関係する要求中の所定の単語又はフレーズの位置（例えば、メディアに関係する要求の文頭にあるか、中間にあるか、又は文末にあるか）に基づいて、判定を行うことができる。
［０１２１］
図６Ｂ〜図６Ｃに示した例では、メディアに関係する要求は、「ＪａｃｋＲｙａｎに関するもののみ（Just the ones with Jack Ryan）」とすることができる。このメディアに関係する要求に対応するテキスト表現６１２を自然言語処理中にパースして、メディアに関係する要求が１次メディア検索クエリを絞り込むユーザ意図に対応する所定の単語又はフレーズを含むかどうかを判定することができる。１次メディア検索クエリを絞り込むユーザ意図に対応する所定の単語又はフレーズの例として、「のみ（just）」、「だけ（only）」、「でフィルタリングする（filter by）」、「するもの（which ones）」などを挙げるができる。この実施例では、メディアに関係する要求の文頭に位置する所定の単語「のみ（just）」に基づいて、１次ユーザ意図が、メディアアイテムの１次セット６０４に対応する１次メディア検索クエリを絞り込むユーザ意図を備えると判定することができる。具体的には、１次ユーザ意図がキャラクターＪａｃｋＲｙａｎに関するメディアアイテムだけを含めるために、直近１０年間に公開されたアクション映画の検索を絞り込むことであると判定することができる。１次ユーザ意図は、メディアアイテムの１次セット６０４に対応する１次メディア検索クエリを絞り込むユーザ意図を備えるかどうかについて判定するために、他の技術を実施できることを認識されたい。更に、１次ユーザ意図は、ブロック５０６のメディア検索要求よりも前に受信した１つ以上の以前のメディア検索要求に対応する１つ以上の以前のユーザ意図に基づくことができる。
［０１２２］
１次ユーザ意図が、メディアアイテムの１次セット６０４に対応する１次メディア検索クエリを絞り込むユーザ意図を備えるという判定に従って、ブロック５２０〜５３４のうちの１つ以上を実行することができる。
［０１２３］
プロセス５００のブロック５２０で、１次ユーザ意図を満たすために、メディアアイテムの第２の１次セット６１２を取得することができる。ブロック５２０は、１次ユーザ意図に対応する第２の１次メディア検索クエリを生成することを含むことができる。第２の１次メディア検索クエリは、メディアに関係する要求（例えば、「ＪａｃｋＲｙａｎに関するもののみ」）及び１次メディア検索クエリ（例えば、「直近１０年間のアクション映画」）に基づくことができる。具体的には、第２の１次メディア検索クエリは、パラメータ値のセットを含むことができる。パラメータ値のセットは、メディアに関係する要求中で定義された１つ以上のパラメータ値、及び１次メディア検索クエリの１つ以上のパラメータ値を含むことができる。例えば、第２の１次メディア検索クエリは、メディアタイプが「映画」であり、メディアジャンルが「アクション」であり、公開日が「直近１０年」であり、メディアのキャラクターが「ＪａｃｋＲｙａｎ」であるメディアアイテムを検索するクエリとすることができる。代替的には、第２の１次メディア検索クエリは、メディアアイテムの１次セット６０４をフィルタングし、メディアのキャラクターが「ＪａｃｋＲｙａｎ」であるメディアアイテムのセット６０４内のメディアアイテムだけを特定するというクエリとすることできる。第２の１次メディア検索クエリは、１次ユーザ意図に基づいて、自然言語処理モジュール（例えば、自然言語処理モジュール４３２）により生成することができる。
［０１２４］
ブロック５２０は、メディアアイテムの第２の１次セット６１２を取得するために、第２の１次メディア検索クエリを実行することを更に含むことができる。第２の１次メディア検索クエリは、第２の１次メディア検索クエリのパラメータ値要件を満たすメディアアイテムについて、１つ以上のメディアデータベースを検索することによって実行することができる。メディアアイテムの第２の１次セットの各メディアアイテムは、パラメータ値のセットと関連付けることができる。パラメータ値のセットは、１次メディア検索クエリ中の１つ以上のパラメータ値、及びブロック５０６のメディアに関係する要求中で定義された１つ以上のパラメータ値を含むことができる。更に、メディアアイテムの第２の１次セット６１２の各メディアアイテムは、関連性スコアと関連付けることができる。関連性スコアは、メディアアイテムが１次ユーザ意図を満たす尤度を示すことができる。例えば、より高い関連性スコアは、メディアアイテムが１次ユーザ意図を満たすより高い尤度を示すことができる。第２の１次メディア検索クエリは、タスクフロー処理モジュール（例えば、タスクフロー処理モジュール４３６）により実行することができる。
［０１２５］
以前に受信した（例えば、キーボードインタフェースを介して受信した）メディア検索要求に基づいて文字列検索を実行することによって、メディアアイテムの１次セット６０４を取得する実施例では、メディアに関係する要求中で定義されたパラメータ値要件（例えば、「ＪａｃｋＲｙａｎ」）を満たすメディアアイテムについて、メディアアイテムの１次セット６０４を検索することによって、第２の１次メディア検索クエリを実行することができる。詳細には、最初に、メディアアイテムの１次セット６０４に関連付けられたパラメータ値を取得することができる。次いで、取得したパラメータ値を使用し、かつ、メディアに関係する要求中で定義されたパラメータ値に基づいて、構造化された検索を実行することによって、メディアアイテムの第２の１次セット６１２を取得することができる。
［０１２６］
プロセス５００のブロック５２２で、表示ユニット上に、ユーザインタフェース６０２を介してメディアアイテムの第２の１次セット６１２を表示することができる。詳細には、図６Ｃに示したように、表示ユニット上のメディアアイテムの１次セット６０４の表示を、メディアアイテムの第２の１次セット６１２の表示と入れ替えることができる。各メディアアイテムに関連付けられた関連性スコアに従って、メディアアイテムの第２の１次セット６１２を表示することができる。例えば、図６Ｃを参照すると、ユーザインタフェース６０２上の左から右へと関連性スコアの高い順にメディアアイテムの第２の１次セット６１２を配列することができる。
［０１２７］
プロセス５００のブロック５２４で、メディアアイテムの追加セットを取得することができる。１次ユーザ意図に関係し得る代替ユーザオプションを提供するために、メディアアイテムの追加セットを取得することができる。図５Ｂに示したように、ブロック５２４は、ブロック５２６〜５３２を含むことができる。
［０１２８］
プロセス５００のブロック５２６で、メディアアイテムの第２の１次セット６１２に関連付けられたパラメータ値のコアセットを特定することができる。パラメータ値のコアセットは、第２の１次メディア検索クエリ中のパラメータ値のセットから特定することができる。詳細には、パラメータ値のセット中の顕著でないパラメータ値を特定し、それを無視することができる。顕著でないパラメータ値を無視した後のパラメータ値のセットの残りのパラメータ値を、パラメータ値のコアセットとして特定することができる。顕著でないパラメータ値は、例えば、メディアの公開日の範囲、メディアタイプ、メディアの供給元、メディアのクオリティレーティング、無料又は有料のメディア、ライブ又はオンデマンドのメディアなどのような所定のパラメータ値であることができる。パラメータ値のコアセットは、パラメータ値のセットよりも少数のパラメータ値を有することができる。
［０１２９］
図６Ｃの実施例では、第２の１次メディア検索クエリ中のパラメータ値のセットは、パラメータ値「アクション映画」、「直近１０年間」及び「ＪａｃｋＲｙａｎ」を含む。この実施例では、パラメータ値「直近１０年間」を、顕著でないパラメータ値（例えば、メディアの公開データ範囲）として特定し、除外することができる。したがって、残りのパラメータ値「アクション映画」及び「ＪａｃｋＲｙａｎ」を、パラメータ値のコアセットとして特定することができる。
［０１３０］
プロセス５００のブロック５２８で、１つ以上の追加のパラメータ値を特定することができる。ユーザのメディア消費興味を反映する可能性がある情報に基づいて、１つ以上の追加のパラメータ値を特定することができる。例えば、ユーザのメディア選択履歴、ユーザのメディア検索履歴又はユーザのウォッチリストのメディアアイテムに基づいて、１つ以上の追加のパラメータ値を特定することができる。それに加えて、又は代替として、メディアデバイスのユーザの間で現在最も人気があるメディアアイテムのパラメータ値を示すことができる、複数のユーザのメディア選択履歴に基づいて、１つ以上の追加のパラメータ値を特定することができる。いくつかの実施例では、１つ以上の追加のパラメータ値を特定する方法は、ブロック５６０で説明した他の関連するパラメータ値を判定する方法と同様とすることができる。
［０１３１］
図６Ｃの実施例に戻ると、ＢｅｎＡｆｆｌｅｃｋが主演したアクション映画は、メディアデバイスのユーザの間で人気があると判定することができる。更に、ＢｅｎＡｆｆｌｅｃｋが主演した映画をユーザが最近検索又は選択したと判定することができる。したがって、この実施例では、「ＢｅｎＡｆｆｌｅｃｋ」は、１つ以上の追加のパラメータ値のうちのパラメータ値として特定することができる。
［０１３２］
プロセス５００のブロック５３０で、１つ以上の追加のメディア検索クエリを生成することができる。追加のメディア検索クエリは、ブロック５２６で特定したパラメータ値のコアセットに基づくことができる。更に、追加のメディア検索クエリは、ブロック５２８で特定した１つ以上の追加のパラメータ値に基づくことができる。例えば、図６Ｃでは、１つ以上の追加のメディア検索クエリは、ＪａｃｋＲｙａｎに関するアクション映画（パラメータ値のコアセット）の検索と、ＢｅｎＡｆｆｌｅｃｋが主演したアクション映画（ブロック５２８で特定した追加のパラメータ値）の検索とを含むことができる。
［０１３３］
ブロック５２６〜５３０は、自然言語処理モジュール（例えば、自然言語処理モジュール４３２）により実行することができる。詳細には、自然言語処理モジュールは、（ブロック５２６で）パラメータ値のコアセットを特定し、（ブロック５２８で）１つ以上の追加のメディア検索クエリを特定して、１つ以上の追加のユーザ意図を判定することができる。自然言語処理モジュールは、次いで、１つ以上の追加のユーザ意図に基づいて、１つ以上の追加のメディア検索クエリ（例えば、図４Ｂを参照して上述した構造化されたクエリ）を生成することができる。
［０１３４］
プロセス５００のブロック５３２で、ブロック５３０の１つ以上の追加のメディア検索クエリを実行することができる。例えば、追加のメディア検索クエリを満たすメディアアイテムについて、１つ以上のメディアデータベースを検索することによって、１つ以上の追加のメディア検索クエリを実行することができる。使用するメディアデータベースは、検索するメディアタイプに基づくことができる。例えば、音楽に関するメディア検索クエリには、音楽データベースを使用することができ、音楽／テレビショーに関するメディア検索クエリには、映画／テレビショーデータベースを使用することができる。したがって、ブロック５３０の１つ以上の追加のメディア検索クエリの実行から、１つ以上のメディアアイテムの追加セット６１４を取得することができる。具体的には、図６Ｃでは、ＪａｃｋＲｙａｎに関するアクション映画の検索から、メディアアイテムの追加セット６１６（例えば、映画「ＰａｔｒｉｏｔＧａｍｅｓ」、「ＣｌｅａｒａｎｄＰｒｅｓｅｎｔＤａｎｇｅｒ」など）取得することができ、ＢｅｎＡｆｆｌｅｃｋが主演したアクション映画の検索から、メディアアイテムの追加セット６１８（例えば、映画「ＴｈｅＳｕｍｏｆＡｌｌＦｅａｒｓ」、「Ｄａｒｅｄｅｖｉｌ」など）を取得することができる。ブロック５３２は、タスクフロー処理モジュール（例えば、タスクフロー処理モジュール４３６）により実行することができる。
［０１３５］
上述したブロック５２４のいくつかの態様は、ブロック５４６又は５６２に同様に当てはめることができる。
［０１３６］
プロセス５００のブロック５３４で、表示ユニット上に１つ以上のメディアアイテムの追加セットを表示することができる。例えば、図６Ｃに示したように、ユーザインタフェース６０２を介して、メディアアイテムの追加セット６１６及び６１８を表示することができる。メディアアイテムの追加セット６１６及び６１８は、ユーザの興味を引く可能性がある追加のオプションをユーザに提供する役割を果たすことができる。これは、ユーザが、別の検索を要求することなく、消費のためのメディアアイテムを発見及び選択するという尤度を増大させるために望ましいことがあり、それにより、ブラウジング時間を低減し、ユーザエクスペリエンスを向上させることができる。
［０１３７］
メディアアイテムのセットを表示するやり方は、それぞれのユーザ意図がユーザの実際の意図に対応するという尤度を反映することができる。例えば、図６Ｃに示したように、メディアアイテムの第２の１次セットは、１次ユーザ意図（実際のユーザ意図を反映する可能性が最も高いユーザ意図）に関連付けられ、ユーザインタフェース６０２の最上行に表示される。１つ以上のメディアアイテムの追加セット６１６及び６１８は、追加のユーザ意図（実際のユーザ意図を反映する可能性が低いユーザ意図）に関連付けられ、最上行よりも下の、ユーザインタフェース６０２の１つ以上の後続行に表示される。更に、メディアアイテムの追加セット６１６に関連付けられた追加のユーザ意図は、メディアアイテム６１８の追加セットに関連付けられた追加のユーザ意図よりも、実際のユーザ意図を反映する可能性が高くなり得る。したがって、この実施例では、メディアアイテムの追加セット６１８は、メディアアイテムの追加セット６１６よりも下の行に表示され得る。本実施例では、メディアアイテムのセットは行に表示されるが、他の実施例では、他の表示構成を実施できることを認識されたい。
［０１３８］
ブロック５１２を再び参照すると、１次ユーザ意図が１次メディア検索クエリを絞り込むユーザ意図を備えないという判定に従って、ブロック５１４〜５１８又は５３６〜５４８のうちの１つ以上を実行することができる。
［０１３９］
プロセス５００のブロック５１４で、１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を備えるかどうかについて、判定を行うことができる。いくつかの実施例では、メディアに関係する要求中の明示的な単語又はフレーズに基づいて、判定を行うことができる。具体的には、新たなメディア検索クエリを実行するユーザ意図に対応する単語又はフレーズをディアに関係する要求が含むかどうかを判定することができる。単語又はフレーズは、「見せて（Show me）」、「見つけて（Find）」、「検索して（Search for）」、「に関する他の映画（Other movies with）」などの所定の単語とすることができる。更に、いくつかの実施例では、メディアに関係する要求中の所定の単語又はフレーズの位置（例えば、メディアに関係する要求の文頭、中間、又は文末）に基づいて、判定を行うことができる。特定の実施例では、メディアに関係する要求は、「ＪａｃｋＲｙａｎの映画をいくつか見せて（Show me some Jack Ryan movies）」とすることができる。メディアに関係する要求の文頭にある単語「見せて（Show me）」に基づいて、１次ユーザ意図が、ＪａｃｋＲｙａｎに関する映画についての新たなメディア検索クエリを実行するものであると判定することができる。
［０１４０］
ユーザ意図を示している明示的な単語又はフレーズ（例えば、「見せて（Show me）」、「見つけて（Find）」、「検索して（Search for）」など）がない場合には、ブロック５１４の判定は、１つ以上のメディアアイテムのパラメータ値に対応する単語又はフレーズに基づくことができる。例えば、図６Ｄに示したように、メディアに関係する要求は、「ＪａｃｋＲｙａｎ」とすることができる。この実施例では、メディアに関係する要求は、ユーザ意図が１次メディア検索クエリを絞り込む、又は新たな検索を実行するものであるかどうかの明示的な指示を含まない。しかしながら、デジタルアシスタントは、「ＪａｃｋＲｙａｎ」が、１つ以上のメディアアイテムのパラメータ値に対応すると認識することができる。具体的には、「ＪａｃｋＲｙａｎ」は、いくつかの電子書籍及び映画に関連付けられたメディアのキャラクターであると判定することができる。これらのパラメータ値に基づいて、１次ユーザ意図は、キャラクターＪａｃｋＲｙａｎに関する電子書籍及び映画についての新たなメディア検索クエリを実行するものであると判定することができる。１つ以上のメディアアイテムのパラメータ値に対応する単語又はフレーズの他の例として、「ＴｏｍＣｒｕｉｓｅ」、「ＪｕｒａｓｓｉｃＰａｒｋ」、「Ｓｐｙｍｏｖｉｅｓ」、「ＳｅａｎＣｏｎｎｅｒｙ」、「Ｃａｒｔｏｏｎｓ」、「Ｆｒｏｚｅｎ」などを挙げることができる。
［０１４１］
１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を備えるという判定に従って、ブロック５３６〜５４８のうちの１つ以上を実行することができる。プロセス５００のブロック５３６で、１次ユーザ意図に従って、メディアアイテムの第３の１次セットを取得することができる。ブロック５３６は、ブロック５２０と同様とすることができる。詳細には、ブロック５３６は、メディアに関係する要求に基づいて第３の１次メディア検索クエリを生成することを含むことができる。第３の１次メディア検索クエリは、新たなメディア検索クエリを実行する１次ユーザ意図に対応することができる。具体的には、第２の１次メディア検索クエリは、メディアに関係する要求中で定義された１つ以上のパラメータ値を含むことができる。例えば、図６Ｄを参照すると、生成した第３の１次メディア検索クエリは、メディアのキャラクター「ＪａｃｋＲｙａｎ」に関するメディアアイテムを検索するクエリとすることができる。
［０１４２］
ブロック５３６は、メディアアイテムの第３の１次セット６２０を取得するために、第３の１次メディア検索クエリを実行することを更に含むことができる。第３の１次メディア検索クエリは、第３の１次メディア検索クエリのパラメータ値要件を満たすメディアアイテムについて、１つ以上のメディアデータベースを検索することによって実行することができる。メディアアイテムの第３の１次セット６２０の各メディアアイテムは、メディアに関係する要求中で定義された１つ以上のパラメータ値を含むことができる。具体的には、本実施例では、メディアアイテムの第３の１次セット６２０の各メディアアイテムは、メディアのキャラクターとして「ＪａｃｋＲｙａｎ」を含むことができる。
［０１４３］
いくつかの実施例では、メディアに関係する要求に関連付けられたメディアタイプに従って、第３の１次メディア検索クエリを実行することができる。上述したように、１次ユーザ意図を判定している間に、ブロック５１０で、メディアに関係する要求に関連付けられたメディアタイプを判定することができる。第３の１次メディア検索クエリを実行するために使用されるアプリケーション又はデータベースは、判定したメディアタイプに固有であり得る。１つの実施例では、メディアタイプが音楽であると判定した場合には、例えば、映画データベースではなく、音楽検索アプリケーション及び／又は音楽データベース（例えば、ｉＴｕｎｅｓ（登録商標）ｓｔｏｒｅアプリケーション）を使用して、第３の１次メディア検索クエリを実行することができる。
［０１４４］
いくつかの実施例では、メディアに関係する要求は、２つ以上のメディアタイプと関連付けることができる。例えば、メディアに関係する要求「Ｆｒｏｚｅｎ」は、映画／テレビショー、音楽（例えば、サウンドトラック）及び電子書籍などのいくつかのメディアタイプ）と関連付けることができる。第３の１次メディア検索クエリを実行すると、１つ以上のメディアデータベースから、種々のメディアタイプに関連付けられた複数のメディアアイテムを取得することができる。各メディアアイテムは、関連性スコアと関連付けることができる。関連性スコアは、第３の１次メディア検索クエリに関してそれぞれのメディアアイテムがどれくらい関連するかについて示すことができる。更に、関連性スコアは、候補メディアアイテムが取得されたメディアデータベースに固有であり得る。いくつかの実施例では、異なるデータベースからのメディアアイテムを同じ基準に基づいて比較するために、複数の候補メディアアイテムの正規化されたランク付けを実行することができる。詳細には、１つ以上のメディアデータベースにわたって関連性スコアを正規化することができ、正規化した関連性スコアを使用して、候補メディアアイテムの正規化されたランク付けを実行することができる。例えば、汎用的なメディア検索アプリケーション又はデータベース（例えば、Ａｐｐｌｅ（登録商標）ＯＳＸ又はｉＯＳ（商標）のスポットライト）を使用して、第３の１次メディア検索クエリを実行することができる。汎用的なメディア検索アプリケーション又はデータベースは、デジタルアシスタントの外部のサービスとすることができる。汎用的なメディア検索アプリケーション又はデータベースを使用して、種々のソース又はデータベース（例えば、ｉＴｕｎｅｓ（登録商標）ｓｔｏｒｅ、Ａｐｐｓｔｏｒｅ、ｉＢｏｏｋ（登録商標）、ユーザのデバイスに記憶されたメディアアイテムなど）から関連するメディアアイテムを取得することができ、正規化された関連性スコアに基づいて、関連するメディアアイテムをランク付けすることができる。次いで、ユーザが選択するために、ブロック５４０での正規化されたランク付けに従って、メディアアイテムを順序付けし、表示することができる。
［０１４５］
メディアアイテムの第３の１次セットを取得するために使用された１つ以上のデータベースは、種々のソースから導き出された情報を含むことができる。いくつかの実施例では、１つ以上のデータベースは、１つ以上のメディア批評家のレビューからの情報を含むことができる。メディア批評家のレビューは、例えば、プロのメディア批評家、ジャーナリスト、ブロガー、ソーシャルメディアサービスのユーザなどが書くことができる。例示的な実施例では、１つ以上のメディア批評家レビューは、「Ｂｕｌｌｉｔｔ」、「ＴｈｅＢｏｕｒｎｅＩｄｅｎｔｉｔｙ」又は「ＦａｓｔＦｉｖｅ」のような映画について説明するために、「カーチェイス」などのフレーズを含むことがある。１つ以上のメディア批評家のレビューから、パラメータ値としてフレーズ「カーチェイス」を抽出することができ、このパラメータ値は、メディアデータベースのこれらの映画のうちの１つ以上と関連付けることができる。したがって、メディアに関係する要求「良いカーチェイスに関する映画を見せて」については、生成された対応する第３の１次メディア検索クエリは、パラメータ値「カーチェイス」に関する映画の検索とすることができる。したがって、１つ以上のデータベースを検索すると、「Ｂｕｌｌｉｔｔ」、「ＴｈｅＢｏｕｒｎｅＩｄｅｎｔｉｔｙ」又は「ＦａｓｔＦｉｖｅ」などの候補メディアアイテムを取得することができる。
［０１４６］
他の実施例では、１つ以上のデータベースは、種々の映画、ビデオ又はテレビショーのクローズドキャプションから導き出された情報を含むことができる。詳細には、クローズドキャプションに基づいて、１つ以上のパラメータ値を抽出することができる。例えば、「Ｂｕｌｌｉｔｔ」、「ＴｈｅＢｏｕｒｎｅＩｄｅｎｔｉｔｙ」又は「ＦａｓｔＦｉｖｅ」などの映画のクローズドキャプションは、カーチェイスに関連付けられた音を示す、キャプション［タイヤスクリーミング（Tire screeching）］のいくつかの例を含むことができる。このキャプションに基づいて、これら映画のうちの１つ以上がメディアデータベース中のパラメータ値「カーチェイス」と関連付けられ得る。したがって、第３の１次メディア検索クエリを実行した時に、このパラメータ値に関連付けられる候補メディアアイテム（例えば、「Ｂｕｌｌｉｔｔ」、「ＴｈｅＢｏｕｒｎｅＩｄｅｎｔｉｔｙ」、「ＦａｓｔＦｉｖｅ」など）を特定することができる。
［０１４７］
いくつかの実施例では、メディアに関係する要求は、ユーザインタフェース６０２がその上にフォーカスしたメディアアイテムに基づくメディア検索要求であり得る。例えば、ブロック５０６で、メディアに関係する要求を受信している間、メディアアイテム６１１上にユーザインタフェース６０２のカーソル６０９が位置することがある。メディアに関係する要求が、メディアアイテム６１１と類似するメディアアイテムの代替セットを取得する要求であるかどうかについて、判定を行うことができる。１つの例では、メディアに関係する要求は、「これにもっと似ているもの（More like this）」であり得る。この例では、カーソル６０９の位置のコンテキストに基づいて、「これ（this）」はメディアアイテム６１１を指すと判定することができる。したがって、メディアに関係する要求が、メディアアイテム６１１と類似するメディアアイテムの代替セットを取得するという要求であると判定することができる。メディアに関係する要求が、メディアアイテム６１１と類似するメディアアイテムの代替セットを取得するという要求である判定したことに応じて、ブロック５３６で、メディアアイテムの第３の１次セットを取得することができ、メディアアイテムの第３の１次セットの各メディアアイテムは、メディアアイテム６１１の１つ以上のパラメータ値を含む。例えば、１つの例では、メディアアイテム６１１は、外国のアクション映画「ＣｒｏｕｃｈｉｎｇＴｉｇｅｒ，ＨｉｄｄｅｎＤｒａｇｏｎ」であり得る。この例では、取得したメディアアイテムの第３の１次セットは、この映画の１つ以上のパラメータ値を共有するメディアアイテムを含むことができる。詳細には、取得したメディアアイテムの第３の１次セットは、例えば、ＡｎｇＬｅｅが監督した映画を含むことができ、武術シーンを含むことができ、あるいはＣｈｏｗＹｕｎ−Ｆａｔ、ＭｉｃｈｅｌｌｅＹｅｏｈ又はＺｈａｎｇＺｉｙｉが主演していてもよい。
［０１４８］
上述したブロック５３６のいくつかの態様は、ブロック５２０、５２４、５４６、５６２又は５６６に同様に当てはめることができる。
［０１４９］
プロセス５００のブロック５３８で、第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得することができるかどうかについて、判定を行うことができる。ブロック５３６で第３の１次メディア検索クエリを実行すると、検索クエリから取得される（又は、取得可能である）メディアアイテムの数を判定することができる。取得されるメディアアイテムの数が１つ以上の場合、第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得できると判定することができる。例えば、メディアに関係する要求「ＪａｃｋＲｙａｎ」についての第３の１次メディア検索クエリは、少なくとも映画「ＰａｔｒｉｏｔＧａｍｅｓ」及び「ＣｌｅａｒａｎｄＰｒｅｓｅｎｔＤａｎｇｅｒ」を戻すことができる。したがって、この実施例では、第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得できると判定することができる。第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得できるという判定に従って、ブロック５４０を実行することができる。以下の説明で明白になるように、ブロック５３６で実行した第３の１次メディア検索クエリについて、少なくとも１つのメディアアイテムが取得されることを保証するために、ブロック５３８での判定が望ましいことがある。これにより、メディア検索要求について、メディアアイテムが１つも表示されない状況を防止することができ、別のメディア検索要求を提供しなければならないユーザの手間を省くことができ、ユーザエクスペリエンスが改善する。
［０１５０］
プロセス５００のブロック５４０で、表示ユニット上に、ユーザインタフェース６０２を介してメディアアイテムの第３の１次セット６２０を表示することができる。詳細には、図６Ｅに示したように、表示ユニット上のメディアアイテムの１次セット６０４の表示を、メディアアイテムの第３の１次セット６２０の表示と入れ替えることができる。ブロック５４０は、ブロック５２２と同様とすることができる。各メディアアイテムに関連付けられた関連性スコアに従って、メディアアイテムの第３の１次セット６２０を表示することができる。例えば、図６Ｅを参照すると、ユーザインタフェース６０２上の左から右へと関連性スコアの高い順にメディアアイテムの第３の１次セット６１２を配列することができる。
［０１５１］
ブロック５３８を再び参照すると、いくつかの実施例では、第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得できないと判定することがある。例えば、ＳＴＴ処理によるメディアに関係する要求又は対応するテキスト表現は、誤ったパラメータ値、又はユーザが実際に意図するものとは異なるパラメータ値を定義することがある。１つのそのような例では、図６Ｆに示すように、メディアに関係する要求は、「ＪａｃｋｉｅＣｈａｎ及びＣｈｒｉｓＲｕｃｋｅｒ（Jackie Chan and Chris Rucker）」であり得る。この例では、このメディアに関係する要求に対応する第３の１次メディア検索クエリを実行することでは、メディアアイテムが取得されないことがあり、したがって、第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得できないと判定することができる。他の例では、メディアに関係する要求は、「ＪａｃｋｉｅＣｈａｎ」及び「Ｓｐｉｄｅｒｍａｎ」、又は「写実的な暴力（Graphic violence）」及び「小児に適した（suitable for young children）」など、両立しないパラメータを定義することがある。第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得できないという判定に従って、ブロック５４２〜５４８を実行して、ユーザの実際の意図を満たす可能性がある代替結果をユーザに提示することができる。
［０１５２］
プロセス５００のブロック５４２で、第３の１次メディア検索クエリの最も妥当性が低いパラメータ値を特定することができる。詳細には、パラメータ値を有するメディアアイテムの人気、以前のメディア検索要求におけるパラメータ値の出現頻度、又はメディアアイテムの母集団におけるパラメータ値の出現頻度などの因子に基づいて、第３の１次メディア検索クエリ中の各パラメータ値の顕著性スコアを判定することができる。最も妥当性が低いパラメータ値を、顕著性スコアが最も低いパラメータ値として特定することができる。例えば、パラメータ値「ＪａｃｋｉｅＣｈａｎ」と「ＣｈｒｉｓＲｕｃｋｅｒ」との間では、ＣｈｒｉｓＲｕｃｋｅｒはフットボール選手であるが、ＪａｃｋｉｅＣｈａｎは人気俳優であるので、パラメータ値「ＣｈｒｉｓＲｕｃｋｅｒ」は、より低い顕著性スコアを有し得る。したがって、ＪａｃｋｉｅＣｈａｎは、ＣｈｒｉｓＲｕｃｋｅｒよりも多数のメディアアイテム及び以前のメディア検索クエリと関連付けることができる。したがって、この例では、パラメータ値「ＣｈｒｉｓＲｕｃｋｅｒ」は、最も妥当性の低いパラメータ値であると判定することができる。
［０１５３］
プロセス５００のブロック５４４で、１つ以上の代替パラメータ値を特定することができる。特定された最も妥当性の低いパラメータ値に基づいて、１つ以上の代替パラメータ値を判定することができる。例えば、データ構造中の特定された最も妥当性の低いパラメータ値と複数のメディアに関係するパラメータ値との間で、ファジー文字列マッチングを実行することができる。詳細には、所定のしきい値内の編集距離が最も短いデータ構造中のパラメータ値を、代替パラメータ値であると判定することができる。例えば、パラメータ値「ＣｈｒｉｓＲｕｃｋｅｒ」のファジー文字列マッチングに基づいて、パラメータ値「ＣｈｒｉｓＴｕｃｋｅｒ」は、データ構造中の複数のメディアに関係するパラメータ値の中で編集距離が最も短いと判定することができる。したがって、この例では、パラメータ値「ＣｈｒｉｓＴｕｃｋｅｒ」を、代替パラメータ値であると判定することができる。
［０１５４］
それに加えて、又は代替として、第３の１次メディア検索クエリ中の他のパラメータ値（例えば、最も妥当性の低いパラメータ値以外のパラメータ値）に基づいて、１つ以上の代替パラメータ値を判定することができる。詳細には、第３の１次メディア検索クエリ中の他のパラメータ値に密接に関係するパラメータ値を判定することができる。例えば、「アクション映画」及び「武術」などのパラメータ値は、「アクション映画」及び「武術」のパラメータ値を同じく有する、「ＪａｃｋｉｅＣｈａｎ」が主演した複数のメディアアイテムの存在に基づいて、パラメータ値「ＪａｃｋｉｅＣｈａｎ」に密接に関係していると判定することができる。
［０１５５］
プロセス５００のブロック５４６で、１次ユーザ意図を満たすために、メディアアイテムの第４の１次セットを取得することができる。ブロック５４６は、ブロック５２０と同様とすることができる。詳細には、１つ以上の代替１次メディア検索クエリを生成することができる。ブロック５４４で判定された１つ以上の代替パラメータ値を使用して、１つ以上の代替１次検索クエリを生成することができる。例えば、メディアに関係する要求が「ＪａｃｋｉｅＣｈａｎ及びＣｈｒｉｓＲｕｃｋｅｒ」であり、代替パラメータ値が「ＣｈｒｉｓＴｕｃｋｅｒ」であると判定される図６Ｆ〜図６Ｇにおいて、代替１次検索クエリは、パラメータ値「ＪａｃｋｉｅＣｈａｎ」及び「ＣｈｒｉｓＴｕｃｋｅｒ」用いたメディアアイテムの検索とすることができる。したがって、この実施例では、最も妥当性の低いパラメータ値を、ユーザの実際の意図を反映する可能性がより高い代替パラメータ値により置換することができる。次いで、１つ以上の代替１次メディア検索クエリを実行して、メディアアイテムの第４の１次セット６２８を取得することができる。パラメータ値「ＪａｃｋｉｅＣｈａｎ」及び「ＣｈｒｉｓＴｕｃｋｅｒ」を用いてメディアアイテムを検索する本実施例では、メディアアイテムの第４の１次セット６２８は、「ＲｕｓｈＨｏｕｒ」、「ＲｕｓｈＨｏｕｒ２」又は「ＲｕｓｈＨｏｕｒ３」などの映画を含むことができる。
［０１５６］
プロセス５００のブロック５４８で、表示ユニット上に、ユーザインタフェース６０２を介してメディアアイテムの第４の１次セット６２８を表示することができる。ブロック５４８は、ブロック５２２と同様とすることができる。詳細には、図６Ｇに示したように、表示ユニット上のメディアアイテムの１次セット６０４の表示を、メディアアイテムの第４の２次セット６２８の表示と入れ替えることができる。
［０１５７］
プロセス５００のブロック５５０で、１つ以上の以前のユーザ意図が存在するかどうかについて、判定を行うことができる。１つ以上の以前のユーザ意図は、ブロック５０６のメディアに関係する要求よりも前に受信した、１つ以上の以前のメディアに関係する要求に対応することができる。以前のメディアに関係する要求の例は、ブロック５０２の１次メディア検索クエリ及びメディアアイテムの１次セット６０４に対応する、以前に受信したメディアに関係する要求を含むことができる。メディアデバイス（例えば、メディアデバイス１０４）又はサーバ（例えば、ＤＡサーバ１０６）に記憶された以前のユーザ意図の履歴の分析に基づいて、判定を行うことができる。いくつかの実施例では、１つ以上の以前のユーザ意図が存在するかどうかの判定時には、関連する時間フレーム内の以前のユーザ意図のみを考慮に入れる。関連する時間フレームは、ブロック５０６のメディアに関係する要求の受信時よりも前の所定の時間フレームを指すことができる。他の実施例では、関連する時間フレームは、デジタルアシスタントとの対話型セッションに基づくことができる。詳細には、ブロック５０６のメディアに関係する要求は、メディアに関係する要求のシーケンスを含むデジタルアシスタントとの対話型セッションの一部であり得る。これらの実施例では、関連する時間フレームは、対話型セッションの開始時から、対話型セッションの終了時までであり得る。対話型セッションが、ブロック５０６のメディアに関係する要求よりも前に受信した１つ以上の以前のメディアに関係する要求を包含するかどうかについて、判定を行うことができる。対話型セッションが１つ以上の以前のメディアに関係する要求を包含する場合、１つ以上の以前のユーザ意図が存在すると判定することができる。したがって、１つ以上の以前のユーザ意図及び１次ユーザ意図を、デジタルアシスタントとの同じ対話型セッションと関連付けることができる。反対に、対話型セッションが１つ以上の以前のメディアに関係する要求を包含しない場合、１つ以上の以前のユーザ意図が存在しないと判定することができる。１つ以上の以前のユーザ意図が存在すると判定したことに応じて、ブロック５５２を実行することができる。代替的には、１つ以上の以前のユーザ意図が存在しないと判定したことに応じて、ブロック５６０を実行することができる。
［０１５８］
プロセス５００のブロック５５２で、１つ以上の２次ユーザ意図を特定することができる。ブロック５１０の１次ユーザ意図とブロック５５０で存在すると判定された１つ以上の以前のユーザ意図とに基づいて、１つ以上の２次ユーザ意図を判定することができる。具体的には、１つ以上の２次ユーザ意図は、１次ユーザ意図と１つ以上の以前のユーザ意図との組み合わせを含むことができる。いくつかの実施例では、メディアデバイス上の、ユーザのメディアに関係する要求履歴に基づいて、１つ以上の以前のユーザ意図を判定することができる。
［０１５９］
図６Ｄ〜図６Ｅの実施例に戻ると、１次ユーザ意図は、キャラクター「ＪａｃｋＲｙａｎ」に関するメディアアイテムを検索する意図であり得る。１つの例では、第１の以前のユーザ意図は、過去１０年間のアクション映画を検索するという意図であり得る。更に、第２の以前のユーザ意図は、ＢｅｎＡｆｆｌｅｃｋが主演したメディアアイテムを検索するという意図であり得る。したがって、２次ユーザ意図は、これらのユーザ意図のうちの２つ以上の組み合わせでとすることができる。詳細には、１つの２次ユーザ意図は、１次ユーザ意図と第１の以前のユーザ意図との組み合わせ（例えば、過去１０年間のＪａｃｋＲｙａｎに関するアクション映画を検索するユーザ意図）であることができる。別の２次ユーザ意図は、第１の以前のユーザ意図と第２の以前のユーザ意図との組み合わせ（例えば、直近１０年間のＢｅｎＡｆｆｌｅｃｋが主演したアクション映画を検索するユーザ意図）であることができる。ブロック５５２は、メディアデバイスの自然言語処理モジュール（例えば、自然言語処理モジュール４３２）を使用して実行することができる。図５Ｄに示したように、ブロック５５２は、ブロック５５４〜５６０を含むことができる。
［０１６０］
プロセス５００のブロック５５４で、１つ以上の以前のユーザ意図の中の誤ったユーザ意図を特定することがある。詳細には、１つ以上の以前のユーザ意図を分析して、任意の誤ったユーザ意図が含まれるかどうかを判定するために分析することができる。後続の以前のユーザ意図により誤っていると明示的に又は暗黙に示された場合に、以前のユーザ意図を誤っていると判定することができる。例えば、１つ以上の以前のユーザ意図は、以前のメディアに関係する要求の後続のシーケンスに対応するユーザ意図を含むことができる。
［Ａ］「いくつかのＪａｍｅｓＢｏｎｄの映画を見せて。（Show me some James Bond movies.）」
［Ｂ］「ＤａｎｉｅｌＳｍｉｔｈに関するもののみ。（Just the ones with Daniel Smith.）」
［Ｃ］「いいえ、私は、ＤａｎｉｅｌＣｒａｉｇと言いました。（No, I meant Daniel Craig.）」
この例では、「いいえ、私は、．．．と言いました（No, I meant ...）」という明示的なフレーズに基づいて、要求［Ｃ］に関連付けられた以前のユーザ意図を、要求［Ｂ］に関連付けられた以前のユーザ意図に訂正するとい意図であると判定することができる。したがって、この例では、要求［Ｃ］に先行する要求［Ｂ］に関連付けられた以前のユーザ意図を誤っていると判定することができる。他の実施例では、要求［Ｃ］は、要求［Ｂ］が誤っていると暗黙に示すことができることを了解されたい。例えば、要求［Ｃ］は、代替的には、単に「ＤａｎｉｅｌＣｒａｉｇ」とすることができる。文字列「ＤａｎｉｅｌＳｍｉｔｈ」に対する「ＤａｎｉｅｌＣｒａｉｇ」の類似性と、パラメータ値「ＤａｎｉｅｌＳｍｉｔｈ」と対比した「ＤａｎｉｅｌＣｒａｉｇ」に関連付けられた向上した関連性とに基づいて、要求［Ｃ］に関連付けられた以前のユーザ意図を、要求［Ｂ］に関連付けられた以前のユーザ意図に訂正するという意図であると判定することができる。
［０１６１］
他の実施例では、以前のユーザ意図と矛盾するメディアアイテムのユーザ選択に基づいて、以前のユーザ意図を誤っていると判定することができる。例えば、以前の要求は、「ＲｕｓｓｅｌｌＳｉｍｍｏｎｓが製作したビデオを見せて」とすることができる。この以前の要求に応じて、ＲｕｓｓｅｌｌＳｉｍｍｏｎｓが製作したビデオを含むメディアアイテムの１次セットを、ユーザ選択のために表示済みであることがある。更に、以前の要求に関連するメディアアイテムの追加セットを、メディアアイテムの１次セットと共に表示済みであることがある。この例では、「ＲｕｓｓｅｌｌＳｉｍｍｏｎｓ」ではなく「ＲｉｃｈａｒｄＳｉｍｍｏｎｓ」が製作したメディアアイテムの追加セット中のメディアアイテムをユーザが選択したと判定することができる。このメディアアイテムのユーザ選択が、ＲｕｓｓｅｌｌＳｉｍｍｏｎｓが製作したビデオを検索するという以前のユーザ意図と矛盾していることに基づいて、以前のユーザ意図が誤っていると判定することができる。換言すると、正しいユーザ意図は、「ＲｕｓｓｅｌｌＳｉｍｍｏｎｓ」ではなく「ＲｉｃｈａｒｄＳｉｍｍｏｎｓ」が製作したビデオの検索であるはずであると判定することができる。
［０１６２］
１つ以上の以前のユーザ意図が誤った以前のユーザ意図を含むという判定に従って、１つ以上の２次ユーザ意図を判定するために、この誤った以前のユーザ意図を使用することはできない。詳細には、誤った以前のユーザ意図は、除外され得、したがって、１つ以上の２次ユーザ意図を判定するためのブロック５５６でユーザ意図の組み合わせを生成するためには使用されないことがある。ただし、いくつかの実施例では、ユーザ意図の組み合わせを生成し、１つ以上の２次ユーザ意図を判定するために、訂正したユーザ意図を使用することができる。例えば、上述したそれぞれの例では、「ＤａｎｉｅｌＣｒａｉｇ」に関連付けられた訂正後の以前のユーザ意図（例えば、ＤａｎｉｅｌＣｒａｉｇに関するＪａｍｅｓＢｏｎｄの映画の検索）」と「ＲｉｃｈａｒｄＳｉｍｍｏｎｓ」に関連付けられた訂正後の以前のユーザ意図（例えば、ＲｉｃｈａｒｄＳｉｍｍｏｎｓが製作したビデオの検索）とを使用して、１つ以上の２次ユーザ意図を判定することができる。
［０１６３］
プロセス５００のブロック５５６で、１次ユーザ意図及び１つ以上の以前のユーザ意図に基づいて、複数のユーザ意図の組み合わせを生成することができる。例示的な実施例では、メディアデバイスは、メディアに関係する要求の後続のシーケンスを受信済みであることがあり、１次ユーザ意図は要求［Ｇ］に関連付けられ、１つ以上の以前のユーザ意図は、要求［Ｄ］〜［Ｆ］に関連付けられる。
［Ｄ］「ＫｅａｎｕＲｅｅｖｅｓが主演した映画（Movies starring Keanu Reeves.）」
［Ｅ］「写実的な暴力を包含しているショー（Shows containing graphic violence.）」
［Ｆ］「小児に適した映画（Movies suitable for young children）」
［Ｇ］「アニメ（Cartoons.）」
この実施例では、複数のユーザ意図の組み合わせは、１次ユーザ意図と、要求［Ｇ］から［Ｄ］に関連付けられる１つ以上の以前のユーザ意図との任意の組み合わせを含むことができる。１つの例示的なユーザ意図の組み合わせは、写実的な暴力に関する、ＫｅａｎｕＲｅｅｖｅｓが主演した映画（例えば、要求［Ｄ］及び［Ｅ］に基づく組み合わせ）の検索とすることができる。別の例示的なユーザ意図の組み合わせは、小児に適したアニメ映画（例えば、要求［Ｆ］及び［Ｇ］に基づく組み合わせ）の検索とすることができる。
［０１６４］
プロセス５００のブロック５５８で、両立しないユーザ意図を除外することができる。詳細には、両立しないユーザ意図の組み合わせを特定することができ、特定した両立しないユーザ意図の組み合わせに基づいて、１つ以上の２次ユーザ意図を判定しないことができる。いくつかの実施例では、両立しないユーザ意図の組み合わせは、任意のメディアアイテムに対応しないユーザ意図の組み合わせであり得る。具体的には、各ユーザ意図の組み合わせについて、対応するメディア検索を実行することができる。特定のメディア検索について、メディアアイテムが取得されない場合、対応するユーザ意図の組み合わせを、両立しないユーザ意図の組み合わせであると判定することができる。例えば、ユーザ意図の組み合わせは、上述した要求［Ｅ］及び［Ｆ］に基づくことができる。この例では、写実的な暴力を包含する、子どもに適した映画の対応するメディア検索を実行することができる。ただし、メディア検索は、いかなるメディアアイテムももたらさないことがある。したがって、この例では、要求［Ｅ］及び［Ｆ］に基づくユーザ意図の組み合わせを、両立しないユーザ意図の組み合わせであると判定することができる。他の実施例では、両立しないユーザ意図の組み合わせを判定するために、異なる所定の閾値を確立することができることを了解されたい。例えば、メディアアイテムの所定の数よりも多数には対応しないユーザ意図の組み合わせを、両立しないと判定することができる。
［０１６５］
他の実施例では、ユーザ意図の組み合わせに関連付けられたパラメータ値に基づいて、両立しないユーザ意図の組み合わせを判定することができる。詳細には、ある特定のパラメータ値を、両立しないと予め定めることができる。例えば、パラメータ値「写実的な暴力（graphic violence）」を、パラメータ値「小児に適した（suitable for young children）」と両立しないと予め定めることができる。したがって、両立しないと予め定めた２つ以上のパラメータ値を包含するユーザ意図の組み合わせを、両立しないユーザ意図の組み合わせであると判定することができる。更に、ある特定のパラメータが特異値を要求することを予め定めることができる。例えば、「メディアタイトル」、「メディアタイプ」及び「アメリカ映画協会（Motion Picture Association of America）フィルムレーティング」のパラメータをそれぞれ、ユーザ意図の組み合わせ中の１つ以下のパラメータ値と関連付けることができる。詳細には、映画を検索する第１のユーザ意図と楽曲を検索する第２のユーザ意図との組み合わせは、両立しない組み合わせとなる。したがって、ユーザ意図の組み合わせは、特異値を必要とすると予め定められたパラメータについて２つ以上のパラメータ値を包含する場合、両立しないと判定することができる。ブロック５５２で１つ以上の２次ユーザ意図を判定するために、両立しないユーザ意図の組み合わせを使用しないように、両立しないユーザ意図の組み合わせを除外することができる。詳細には、１つ以上の２次ユーザ意図は、いかなる両立しないユーザ意図の組み合わせも含まないことがある。両立しないユーザ意図の組み合わせを考慮から除外することは、ユーザ選択のために表示されるメディアアイテムの関連性を増大させるために望ましいことがある。
［０１６６］
両立しないと判定されなかった残りのユーザ意図の組み合わせに基づいて、１つ以上の２次ユーザ意図を判定することができる。詳細には、残りのユーザ意図の各組み合わせのユーザ意図をマージして、１つ以上の２次ユーザ意図を生成することができる。更に、残りのユーザ意図の組み合わせの各々を、少なくとも１つのメディアアイテム（又は、少なくとも所定の数のメディアアイテム）と関連付けることができる。いくつかの実施例では、１つ以上の２次意図は、１つ以上の残りのユーザ意図の組み合わせを含むことができる。
［０１６７］
上述した要求［Ｄ］〜［Ｇ］に関する例に戻ると、１つ以上の２次ユーザ意図のうちの１つの２次ユーザ意図は、１次ユーザ意図の組み合わせ（例えば、要求［Ｇ］に関連付けられた１次ユーザ意図）、及び１つ以上の以前のユーザ意図のうちの１つの以前のユーザ意図（例えば、要求［Ｆ］に関連付けられた以前のユーザ意図）を含むことができる。例えば、２次ユーザ意図は、小児に適したアニメ映画についてのメディア検索とすることができる。更に、１つ以上の２次ユーザ意図のうちの１つ２次ユーザ意図は、１つ以上の以前のユーザ意図の２つ以上の以前のユーザ意図の組み合わせ（例えば、要求［Ｄ］及び［Ｅ］に関連付けられた以前のユーザ意図）を含むことができる。例えば、２次ユーザ意図は、ＫｅａｎｕＲｅｅｖｅｓが主演した写実的な暴力に関する映画についてのメディア検索とすることができる。
［０１６８］
プロセス５００のブロック５６０で、他の関連するパラメータ値に基づいて、１つ以上の２次ユーザ意図を生成することができる。ブロック５５２で判定した１つ以上の２次意図に加えて、又はそれに代えて、ブロック５６０で、１つ以上の２次ユーザ意図を判定することができる。他の関連するパラメータ値は、メディアデバイス上のユーザのメディア検索履歴以外の情報に基づき得る。詳細には、他の関連するパラメータ値を判定するために使用される情報は、ユーザのメディアの興味及び傾向を反映することができ、したがって、ユーザの実際の意図を合理的に予測することができる。
［０１６９］
いくつかの実施例では、他の関連するパラメータ値は、メディアデバイス上のユーザのメディア選択履歴に基づき得る。詳細には、他の関連するパラメータ値は、消費のためにユーザが以前に選択した（例えば、ブロック５０６でメディアに関係する要求を受信するよりも前に選択した）メディアアイテムに関連付けられたパラメータ値を含むことができる。いくつかの実施例では、他の関連するパラメータ値は、メディアデバイス上のユーザのウォッチリストに基づき得る。メディアのウォッチリストは、ユーザが興味と持っている、又は近い将来消費したいと望むメディアアイテムのユーザ定義リストとすることができる。したがって、ユーザの選択履歴又はユーザメディアのウォッチリストに関連付けられたパラメータ値は、ユーザのメディアの興味又は傾向を反映することができる。いくつかの実施例では、他の関連するパラメータは、メディアデバイスの外部のデバイス上のユーザのメディア検索履歴に基づき得る。詳細には、外部のメディアデバイス（例えば、ユーザデバイス１２２）上で実行されたメディアに関係する検索の履歴を、その外部のメディアデバイスから取得することができる。これらのメディアに関係する検索は、ウェブ検索、ｉＴｕｎｅｓ（登録商標）ｓｔｏｒｅ検索、デバイス上のローカルメディアファイル検索などであり得る。したがって、他の関連するパラメータ値は、外部のメディアデバイスのメディアに関係する検索履歴から導き出されるパラメータ値を含むことができる。
［０１７０］
いくつかの実施例では、他の関連するパラメータ値は、ユーザインタフェースがその上にフォーカスしたメディアアイテムに基づき得る。例えば、図６Ａを参照すると、ブロック５０６で、メディアに関係する要求を受信する間、カーソル６０９は、メディアアイテム６１１の上にあり得る。したがって、ブロック５０６で、メディアに関係する要求を受信する間、ユーザインタフェース６０２のフォーカスは、メディアアイテム６１１の上にあると判定することができる。この実施例では、他の関連するパラメータ値は、メディアアイテム６１１にコンテキストで関係し得る。具体的には、他の関連するパラメータ値は、メディアアイテム６１１の１つ以上のパラメータ値を含むことができる。いくつかの実施例では、他の関連するパラメータ値は、ブロック５０６でメディアに関係する要求を受信する間、表示ユニット上に表示されたメディアアイテムに関連付けられたテキストに基づき得る。例えば、図６Ａでは、ブロック５０６でメディアに関係する要求を受信する間、メディアアイテムの１次セット６０４及びメディアアイテムの２次セット６０６に関連付けられた複数のテキストを、表示ユニット上に表示することができる。複数のテキストは、関連付けられたメディアアイテムのパラメータ値を記述することができる。したがって、他の関連するパラメータ値は、複数のテキストが記述する１つ以上のパラメータ値を含むことができる。
［０１７１］
メディアデバイスは、内部又は外部の他の情報を使用して、他の関連するパラメータ値を判定することができる。例えば、いくつかの実施例では、ブロック５２８で特定した追加のパラメータ値と同様に、他の関連するパラメータ値を判定することができる。
［０１７２］
ブロック５５２及び５６０の１つ以上の２次ユーザ意図の各々について、ランキングスコアを判定することができる。ランキングスコアは、２次ユーザ意図がユーザの実際のユーザ意図に対応する尤度を表すことができる。いくつかの実施例では、より高いランキングスコアは、それぞれの２次ユーザ意図が実際のユーザ意図に対応する、より高い尤度を表すことができる。以下で説明するように、１つ以上の２次ユーザ意図を導き出すために使用される同様の情報に基づいて、ランキングスコアを判定することができる。
［０１７３］
いくつかの実施例では、ユーザ又は複数のユーザのメディアに関係する要求の履歴（例えば、メディア検索履歴）に基づいて、１つ以上の２次ユーザ意図の各々についてのランキングスコアを判定することができる。詳細には、メディアに関係する要求及び１つ以上の以前のメディアに関係する要求の各々が受信された時刻及び順序に基づいて、ランキングスコアを判定することができる。より最近受信したメディア検索要求に基づく２次ユーザ意図は、より早く受信したメディアに関係する要求に基づく２次ユーザ意図よりもより高いランキングスコアを有する可能性がより高い。例えば、要求［Ｄ］〜［Ｇ］の上記で説明した例では、要求［Ｇ］を、最も早くに受信したメディアに関係する要求とすることでき、要求［Ｄ］を、最も早くに受信したメディアに関係する要求とすることができる。この例では、要求［Ｇ］に基づく２次ユーザ意図は、要求［Ｄ］に基づく２次ユーザ意図によりも高いランキングスコアをする可能性が高くなる。
［０１７４］
更に、ランキングスコアは、ユーザ又は複数のユーザのメディアに関係する要求の履歴におけるパラメータ値の出現頻度に基づき得る。例えば、パラメータ値「ＫｅａｎｕＲｅｅｖｅｓ」が、ユーザのメディアに関係する要求の履歴又は複数のユーザのメディアに関係する要求の履歴において、パラメータ値「写実的な暴力（graphic violence）」よりも頻繁に出現する場合、パラメータ値「ＫｅａｎｕＲｅｅｖｅｓ」を包含する２次ユーザ意図は、パラメータ値「写実的な暴力（graphic violence）」を包含する２次ユーザ意図よりも高いランキングスコアを有する可能性が高くなり得る。
［０１７５］
いくつかの実施例では、ユーザ又は複数のユーザの選択履歴に基づいて、１つ以上の２次ユーザ意図の各々についてのランキングスコアを判定することができる。ユーザ選択履歴は、消費のためにユーザ又は複数のユーザが以前に選択したメディアアイテムのリストを含むことができる。１つ以上の以前に選択されたメディアアイテムのパラメータ値を含む２次ユーザ意図は、任意の以前に選択されたメディアアイテムのパラメータ値を含まない２次ユーザ意図よりも高いランキングスコアを有する可能性が高くなり得る。更に、より最近選択されたメディアアイテムのパラメータ値を含む２次ユーザ意図は、より早くに選択されたメディアアイテムのパラメータ値を含む２次ユーザ意図よりも高いランキングスコアを有する可能性が高くなり得る。更に、以前に選択されたメディアアイテムのうちより高い頻度で生じるパラメータ値を有する２次ユーザ意図は、以前に選択されたメディアアイテムのうちより低い頻度で生じるパラメータ値を有する２次ユーザ意図よりも高いランキングスコアを有する可能性が高くなり得る。
［０１７６］
いくつかの実施例では、ユーザ又は複数のユーザのメディアウォッチリストに基づいて、１つ以上の２次ユーザ意図の各々についてのランキングスコアを判定することができる。例えば、メディアウォッチリスト上の１つ以上のメディアアイテムパラメータ値を含む２次ユーザ意図は、メディアウォッチリスト上の任意のメディアアイテムのパラメータ値を含まない２次ユーザ意図よりも高いランキングスコアを有する可能性が高くなり得る。
［０１７７］
プロセス５００のブロック５６２で、１つ以上のメディアアイテムの２次セットを取得することができる。ブロック５６２は、ブロック５２０と同様とすることができる。詳細には、ブロック５５２及び／又は５６０の１つ以上の２次ユーザ意図に対応する１つ以上の２次メディア検索クエリを生成することができる。１つ以上の２次メディア検索クエリを実行して、メディアアイテムの１つ以上の２次セットを取得することができる。例えば、図６Ｅを再び参照すると、直近１０年間のＪａｃｋＲｙａｎに関するアクション映画についての第１の２次メディア検索クエリを生成し、それを実行して、メディアアイテムの２次セット６２４を取得することができる。更に、直近１０年間のＢｅｎＡｆｆｌｅｃｋが主演したアクション映画についての第２の２次メディア検索クエリを生成し、それを実行して、メディアアイテムの２次セット６２６を取得することができる。
［０１７８］
プロセス５００のブロック５６４で、表示ユニット上に１つ以上のメディアアイテムの２次セットを表示することができる。ブロック５６４は、ブロック５３４と同様とすることができる。図６Ｅに示すように、ユーザインタフェース６０２の最上行に、メディアアイテムの第３の１次セット６２０を表示することができる。最上行よりも下の、ユーザインタフェース６０２の後続の行に、メディアアイテムの２次セット６２４及び６２６を表示することができる。後続の行の各行は、ブロック５５２及び／又は５６０の１つ以上の２次ユーザ意図の２次ユーザ意図に対応することができる。
［０１７９］
メディアアイテムの１つ以上の２次セットは、対応する１つ以上の２次ユーザ意図のランキングスコアに従って表示することができる。詳細には、ランキングスコアがより高い２次ユーザ意図に対応するメディアアイテムの２次セットは、ランキングスコアがより低い２次ユーザ意図に対応するメディアアイテムの２次セットよりも目立つように（例えば、最上行に近いより高い行に）表示することができる。
［０１８０］
ブロック５１０を再び参照すると、１次ユーザ意図が新たなメディア検索クエリを実行するユーザ意図を備えないという判定に従って、ブロック５１６〜５１８のうちの１つ以上を実行することができる。プロセス５００のブロック５１６で、１次ユーザ意図は、１次メディア検索クエリの一部分を訂正するユーザ意図を備えるかどうかについて、判定を行うことができる。この判定は、１次メディア検索クエリの一部分を訂正するユーザ意図を示す明示的な単語又はフレーズに基づいて行うことができる。具体的には、メディアに関係する要求が、１次メディア検索クエリの一部分を訂正するユーザ意図を示す所定の単語又はフレーズを含むかどうかを判定することができる。例えば、図６Ｈ〜図６Ｉを参照すると、メディアに関係する要求は、「いいえ、アドベンチャー映画と言いました（No, I meant adventure movies）」とすることができる。この実施例では、明示的なフレーズ「いいえ、私は．．．と言いました（No, I meant ...）」がメディアに関係する要求の文頭に出現していることに基づいて、１次ユーザ意図が、１次メディア検索クエリの一部分を訂正するユーザ意図を備えると判定することができる。具体的には、１次メディア検索クエリを直近１０年間のアクション映画の検索から、直近１０年間のアドベンチャー映画の検索に１次ユーザ意図を訂正するユーザ意図であると判定することができる。１次メディア検索クエリの一部分を訂正するユーザ意図を示す所定の単語又はフレーズの他の例として、「いいえ（no）」、「ではない（not）、「私は、言いました（I mean）」、「間違っている（wrong）］を挙げることができる。
［０１８１］
他の実施例では、ブロック５１６での判定は、メディアに関係する要求中のパラメータ値と１次メディア検索クエリ中のパラメータ値との類似性に基づいて行うことができる。例えば、１つの実施例では、１次メディア検索クエリに関連付けられた以前に受信したメディアに関係する要求は、「ＪａｃｋｉｅＣｈａｎ及びＣｈｒｉｓＲｕｃｋｅｒ（Jackie Chan and Chris Rucker）」であり得、メディアに関係する要求は、「ＣｈｒｉｓＴｕｃｋｅｒ」であり得る。パラメータ値「ＣｈｒｉｓＲｕｃｋｅｒ」と「ＣｈｒｉｓＴｕｃｋｅｒ」との間の判定された編集距離が所定の値以下であることに基づいて、１次ユーザ意図が、１次メディア検索クエリ中のパラメータ値「ＣｈｒｉｓＲｕｃｋｅｒ」を「ＣｈｒｉｓＴｕｃｋｅｒ」に訂正するユーザ意図を備えると判定することができる。それに加えて、又は代替として、「ＣｈｒｉｓＲｕｃｋｅｒ」及び「ＣｈｒｉｓＴｕｃｋｅｒ」を表す音素の列を比較することができる。「ＣｈｒｉｓＲｕｃｋｅｒ」を表す音素の列が、「ＣｈｒｉｓＴｕｃｋｅｒ」を表す音素の列と実質的に同様であることに基づいて、１次ユーザ意図が、１次メディア検索クエリ中の「ＣｈｒｉｓＲｕｃｋｅｒ」を「ＣｈｒｉｓＴｕｃｋｅｒ」に訂正するユーザ意図を備えると判定することができる。
［０１８２］
更に、パラメータ値「ＪａｃｋｉｅＣｈａｎ」に関して、パラメータ値「ＣｈｒｉｓＲｕｃｋｅｒ」の顕著性をパラメータ値「ＣｈｒｉｓＴｕｃｋｅｒ」の顕著性と比較することができる。詳細には、パラメータ値「ＪａｃｋｉｅＣｈａｎ」を使用してメディア検索を実行し、ＪａｃｋｉｅＣｈａｎに関係するメディアアイテムのセットを特定することができる。「ＪａｃｋｉｅＣｈａｎ」に関して、「ＣｈｒｉｓＲｕｃｋｅｒ」及び「ＣｈｒｉｓＴｕｃｋｅｒ」の顕著性は、２つのパラメータ値の各々に関連付けられるＪａｃｋｉｅＣｈａｎに関係するメディアアイテムのセットの中のメディアアイテムの数に基づくことができる。例えば、「ＣｈｒｉｓＴｕｃｋｅｒ」は、「ＣｈｒｉｓＲｕｃｋｅｒ」よりも「ＪａｃｋｉｅＣｈａｎ」に関係するメディアアイテムのセットの中の著しく多くのメディアアイテムに関連付けられていると判定することができる。したがって、「ＪａｃｋｉｅＣｈａｎ」に関して、「「ＣｈｒｉｓＴｕｃｋｅｒ」の顕著性は、ＣｈｒｉｓＲｕｃｋｅｒ」の顕著性よりも著しく高いと判定することができる。この比較された顕著性に基づいて、１次ユーザ意図が、１次メディア検索クエリ中の「ＣｈｒｉｓＲｕｃｋｅｒ」を訂正するユーザ意図を備えると判定することができる。
［０１８３］
１次ユーザ意図が、１次メディア検索クエリの一部分を訂正するユーザ意図を備えるという判定に従って、メディアに関係する要求に関連付けられた１つ以上の２次ユーザ意図を判定する時に（例えば、ブロック５５２）、１次メディア検索クエリに関連付けられた以前のユーザ意図を考慮から除外することができる。例えば、１つ以上の２次ユーザ意図の判定時、「ＪａｃｋｉｅＣｈａｎ及びＣｈｒｉｓＲｕｃｋｅｒ」の以前に受信したメディアに関係する要求に関連付けられた以前のユーザ意図を考慮から除外することができる。代わりに、１つ以上の２次ユーザ意図の判定時に、訂正したメディアに関係する要求「ＪａｃｋｉｅＣｈａｎ及びＣｈｒｉｓＴｕｃｋｅｒ」に関連付けられた以前のユーザ意図を考慮することができる。
［０１８４］
更に、１次ユーザ意図が、１次メディア検索クエリの一部分を訂正するユーザ意図を備えるという判定に従って、ブロック５６６〜５６８のうちの１つ以上を実行することができる。プロセス５００のブロック５６６で、メディアアイテムの第５の１次セットを取得することができる。ブロック５６６は、ブロック５２０と同様とすることができる。詳細には、１次ユーザ意図に対応する第５の１次メディア検索クエリを生成することができる。第５の１次メディア検索クエリは、メディアに関係する要求及び１次メディア検索クエリに基づくことができる。具体的には、第５の１次メディア検索クエリを生成する、メディアに関係する要求に従って、１次メディア検索クエリの一部分を訂正することができる。１次メディア検索クエリが、「ＪａｃｋｉｅＣｈａｎ」及び「ＣｈｒｉｓＲｕｃｋｅｒ」が主演したメディアアイテムを検索することであり、メディアに関係する要求が、「ＣｈｒｉｓＴｕｃｋｅｒ」である例に戻ると、「ＪａｃｋｉｅＣｈａｎ」及び「ＣｈｒｉｓＴｕｃｋｅｒ」が主演したメディアアイテムを検索する第５の１次メディア検索クエリを生成するように、１次メディア検索クエリを訂正することができる。次いで、第５の１次メディア検索クエリを実行して、メディアアイテムの第５の１次セットを取得することができる。
［０１８５］
プロセス５００のブロック５６８で、ユーザインタフェース（例えば、ユーザインタフェース６０２）を介して、メディアアイテムの第５の１次セットを表示ユニット上に表示することができる。詳細には、メディアアイテムの１次セット（例えば、メディアアイテムの１次セット６０４）の表示を、第５のメディアアイテムの１次セットの表示と入れ替えることができる。ブロック５４０は、ブロック５２２と同様とすることができる。更に、いくつかの実施例では、ユーザに追加のオプションを提供するために、ブロック５５０〜５６４を実行して、メディアアイテムの第５の１次セットと共にメディアアイテムの１つ以上の２次セットを取得し、表示することができる。
［０１８６］
ブロック５１０を再び参照すると、１次ユーザ意図が１次メディア検索クエリの一部分を訂正するユーザ意図を備えないという判定に従って、ブロック５１８を実行することができる。プロセス５００のブロック５１８で、１次ユーザ意図は、表示ユニット上に表示されたユーザインタフェース（例えば、ユーザインタフェース６０２）のフォーカスを変更するユーザ意図を備えるかどうかについて、判定を行うことができる。ユーザインタフェースは、複数のメディアアイテムを含むことができる。いくつかの実施例では、ユーザインタフェースのフォーカスを変更するユーザ意図に対応するメディアに関係する要求中の明示的な単語又はフレーズに基づいて、ブロック５１８での判定を行うことができる。１つの例では、メディアに関係する要求は、「ＴｈｅＤａｒｋＫｎｉｇｈｔに進む（Go to The Dark Knight）」であり得る。この例では、「．．．に進む（Go to ...）」というフレーズが、ユーザインタフェースのフォーカスを変更するユーザ意図に対応する所定のフレーズであると判定することができる。ユーザインタフェースのフォーカスを変更するユーザ意図に対応する所定の単語又はフレーズの他の例として、「選択する（Select）」、「へ移動する（Move to）」、「へジャンプする（Jump to）」、「再生する（Play）」、「購入する（Buy）」などを挙げることができる。所定の単語又はフレーズに基づいて、１次ユーザ意図が、ユーザインタフェースのフォーカスを変更するユーザ意図を備えると判定することができる。
［０１８７］
他の実施例では、ブロック５１８での判定は、ユーザインタフェースに表示されるメディアアイテムに対応するテキストに基づいて、暗黙に行うことができる。例えば、図６Ａを参照すると、メディアアイテム６０４及び６０６は、メディアアイテム６０４及び６０６の１つ以上のパラメータ値について説明するテキストと関連付けることができる。詳細には、テキストは、メディアタイトル、俳優、公開日などのような、メディアアイテム６０４及び６０６のパラメータ値について説明することができる。上述したように、このテキストの少なくとも一部分を、それぞれのメディアアイテムに関して、ユーザインタフェース６０２上に表示することができる。メディアアイテム６０４及び６０６の１つ以上のパラメータ値について説明するこのテキストに基づいて、ブロック５１８での判定を行うことができる。本実施例では、メディアアイテム６１３は、映画「ＴｈｅＤａｒｋＫｎｉｇｈｔ」とすることができ、テキストは、メディアアイテム６１３に関連付けられたメディアタイトル「ＴｈｅＤａｒｋＫｎｉｇｈｔ」を含むことができる。メディアに関係する要求中で定義されるパラメータ値「ＴｈｅＤａｒｋＫｎｉｇｈｔ」が、メディアアイテム６１３に関連付けられたテキストのメディアタイトル「ＴｈｅＤａｒｋＫｎｉｇｈｔ」と一致するという判定に基づいて、１次ユーザ意図が、ユーザインタフェース６０２のフォーカスを、メディアアイテム６１１からメディアアイテム６１３に変更するユーザ意図を備えると判定することができる。いくつかの実施例では、表示されたテキストは、ユーザインタフェース６０２を介して表示されたメディアアイテムの全てのパラメータ値を含むわけではないことを認識されたい。これらの実施例では、また、ブロック５１８での判定は、表示されたテキストでは説明されていない表示されたメディアアイテムのパラメータ値に基づくことができる。
［０１８８］
１次ユーザ意図が、ユーザインタフェースのフォーカスを変更するユーザ意図を備えるという判定に従って、ブロック５７０を実行することができる。プロセス５００のブロック５７０で、ユーザインタフェースのフォーカスを、第１のメディアアイテムから第２のメディアアイテムに変更することができる。例えば、図６Ｋを参照すると、ユーザインタフェース６０２のカーソル６０９の位置を、メディアアイテム６１１からメディアアイテム６１３に変更することができる。いくつかの実施例では、ユーザインタフェース６０２のフォーカスを変更することは、メディアアイテムを選択することを含むことができる。例えば、ブロック５７０で、メディアアイテム６１３を選択することができる。メディアアイテム６１３を選択することにより、メディアアイテム６１３に関連付けられた情報（例えば、映画プレビュー情報）を表示させることができる。それに加えて、又は代替として、メディアアイテム６１３を選択することにより、メディアアイテム６１３に関連付けられたメディアコンテンツを、メディアデバイス上で再生させ、表示ユニット上に表示させることができる。
［０１８９］
プロセス５００のある特定のブロックは、デバイス又はシステム（例えば、メディアデバイス１０４、ユーザデバイス１２２又はデジタルアシスタントシステム４００）により実行されるものとして上述しているが、いくつかの実施例では、これらのブロックを実行するために、２つ以上のデバイスを使用できることを認識されたい。例えば、判定を行うブロックで、第１のデバイス（例えば、メディアデバイス１０４）は、第２のデバイス（例えば、サーバシステム１０８）から判定を取得することができる。したがって、いくつかの実施例では、判定することは、判定を取得することを指すことができる。同様に、コンテンツ、オブジェクト、テキスト又はユーザインタフェースを表示するブロックで、第１のデバイス（例えば、メディアデバイス１０４）は、コンテンツ、オブジェクト、テキスト又はユーザインタフェースを、第２のデバイス（例えば、表示ユニット１２６）上に表示させることができる。したがって、いくつかの実施例では、表示することは、表示させることを指すことができる。
［０１９０］
更にまた、いくつかの実施例では、ユーザインタフェースに表示されるアイテム（例えば、メディアアイテム、テキスト、オブジェクト、グラフィクスなど）は、ユーザインタフェース中に含まれるが、ユーザからは直ぐには見えないアイテムを指すことができる。例えば、ユーザインタフェースに表示されるアイテムは、ユーザインタフェースの好適な領域までスクロールすることによって、ユーザから見えるようにすることができる。
５．電子デバイス
［０１９１］
いくつかの実施例に従って、図７は、例えば、メディア再生の音声制御及び仮想アシスタントの知識のリアルタイム更新を提供するように、説明する様々な実施例の原理に従って構成された電子デバイス７００の機能ブロック図を示す。このデバイスの機能ブロックは、説明される様々な実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせによって実装することができる。当業者には、説明した種々の実施例の原理を実装するために、図７で説明する機能ブロックを組み合わせる、又はサブブロックに分離することができることが理解される。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
［０１９２］
図７に示すように、電子デバイス７００は、触覚入力、ジェスチャ入力及びテキスト入力などのユーザ入力を受信するように構成された入力ユニット７０３（例えば、遠隔制御１２４など）、オーディオデータを受信するように構成されたオーディオ受信ユニット７０４（例えば、マイクロフォン２７２など）、オーディオを出力するように構成されたスピーカユニット７０６（例えば、スピーカ２６８など）、並びに、ネットワークを介して外部のデバイスから情報を送受信するように構成された通信ユニット７０７（例えば、通信サブシステム２２４など）を含むことができる。いくつかの実施例では、電子デバイス７００は、任意選択的に、メディア、インタフェース及び他のコンテンツを表示するように構成された表示ユニット７０２（例えば、表示ユニット１２６など）を含むことができる。いくつかの実施例では、表示ユニット７０２は電子デバイス７００の外部にあってもよい。電子デバイス７００は、入力ユニット７０３、オーディオ受信ユニット７０４、スピーカユニット７０６、通信ユニット７０７及び任意選択的に表示ユニット７０２に結合された、処理ユニット７０８を更に含むことができる。いくつかの実施例では、処理ユニット７０８は、表示可能化ユニット７１０、検出ユニット７１２、判定ユニット７１４、オーディオ受信可能化ユニット７１６、取得ユニット７１８、特定ユニット７２０、受信ユニット７２２、除外ユニット７２４、及び生成ユニット７２６を含むことができる。
［０１９３］
いくつかの実施形態によれば、処理ユニット７０８は、（例えば、表示ユニット７０２又は別の表示ユニットを用いて）表示ユニット上に、（例えば、表示可能化ユニット７１０を用いて）メディアアイテムの１次セットを表示するように構成される。処理ユニット７０８は、（例えば、検出ユニット７１２を用いて）ユーザ入力を検出するように更に構成される。処理ユニット７０８は、ユーザ入力を検出したことに応じて、（例えば、オーディオ受信可能化ユニット７１６を用いて）オーディオ受信ユニット７０４で、オーディオ入力を受信するように更に構成される。オーディオ入力は、自然言語発語形態のメディアに関係する要求を包含する。処理ユニット７０８は、（例えば、判定ユニット７１４を用いて）メディアに関係する要求に対応する１次ユーザ意図を判定するように更に構成される。処理ユニット７０８は、１次ユーザ意図は、（例えば、判定ユニット７１４を用いて）メディアアイテムの１次セットに対応する１次メディア検索クエリを絞り込むユーザ意図を備えるかどうかについて、判定を行うことができる。処理ユニット７０８は、１次ユーザ意図が１次メディア検索クエリを絞り込むユーザ意図を備えるという判定に従って、（例えば、取得ユニット７１８を用いて）メディアに関係する要求及び１次メディア検索クエリに基づいて、１次ユーザ意図に対応する第２の１次メディア検索クエリを生成し、（例えば、取得ユニット７２０を用いて）第２の１次メディア検索クエリを実行してメディアアイテムの第２の１次セットを取得するように更に構成される。処理ユニット７０８は、（例えば、表示可能化ユニット７１０を用いて）表示ユニット上のメディアアイテムの１次セットの表示を、メディアアイテムの第２の１次セットの表示と入れ替えるように更に構成される。
［０１９４］
いくつかの実施例では、１次ユーザ意図が、１次メディア検索クエリを絞り込むユーザ意図を含むかどうかを判定することは、メディアに関係する要求が、１次メディア検索クエリを絞り込むユーザ意図に対応する単語又はフレーズを含むかどうかを判定することを含む。
［０１９５］
いくつかの実施例では、第２の１次メディア検索クエリは、メディアに関係する要求中で定義された１つ以上のパラメータ値、及び１次メディア検索クエリの１つ以上のパラメータ値を含む。いくつか実施例では、メディアアイテムの１次セットに基づいて、メディアアイテムの第２の１次セットを取得することができる。
［０１９６］
いくつかの実施例では、第２の１次メディア検索クエリは、パラメータ値のセットを含む。処理ユニット７０８は、（例えば、特定ユニット７２０を用いて）パラメータ値のセットから、パラメータ値のセットよりも少数のパラメータ値を有するパラメータ値のコアセットを特定するように更に構成される。処理ユニット７０８は、（例えば、取得ユニット７１８を用いて）パラメータ値のコアセットに基づいて、１つ以上の追加のメディア検索クエリを生成するように更に構成される。処理ユニット７０８は、（例えば、取得ユニット７１８を用いて）１つ以上の追加のメディア検索クエリを実行して、メディアアイテムの１つ以上の追加セットを取得するように更に構成される。処理ユニット７０８は、（例えば、表示可能化ユニット７１０を用いて）メディアアイテムの１つ以上の追加セットを表示ユニット上に表示するように更に構成される。
［０１９７］
いくつかの実施例では、処理ユニット７０８は、（例えば、特定ユニット７２０を用いて）複数のユーザのメディア選択履歴に基づいて、１つ以上の追加のパラメータ値を特定するように更に構成される。１つ以上の追加のメディア検索クエリは、１つ以上の追加のパラメータ値を使用して生成される。
［０１９８］
いくつかの実施例では、メディアアイテムの第２の１次セットは、表示ユニット上のユーザインタフェースの最上行に表示され、メディアアイテムの１つ以上の追加セットは、表示ユニット上のユーザインタフェースの１つ以上の後続の行に表示される。
［０１９９］
いくつかの実施例では、処理ユニット７０８は、１次ユーザ意図が、１次メディア検索クエリを絞り込むユーザ意図を含まないという判定に従って、（例えば、判定ユニット７１４を用いて）１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を備えるかどうかを判定するように更に構成される。処理ユニット７０８は、１次ユーザ意図が新たなメディア検索クエリを実行するユーザ意図を備えるという判定に従って、（例えば、取得ユニット７１８を用いて）メディアに関係する要求に基づいて、１次ユーザ意図に対応する第３の１次メディア検索クエリを生成し、（例えば、判定ユニット７１４を用いて）第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得することができるかどうか判定するように更に構成される。処理ユニット７０８は、第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得することができるという判定に従って、（例えば、取得ユニット７１８を用いて）第３の１次メディア検索クエリを実行して第３のメディアアイテムの１次セットを取得し、（例えば、表示可能化ユニット７１０を用いて）表示ユニット上のメディアアイテムの１次セットの表示を、第３のメディアアイテムの１次セットの表示と入れ替えるように更に構成される。
［０２００］
いくつかの実施例では、１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を含むかどうかを判定することは、メディアに関係する要求が、新たなメディア検索クエリを実行するユーザ意図に対応する単語又はフレーズを含むかどうかを判定することを更に含む。いくつかの実施例では、１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を含むかどうかを判定することは、メディアに関係する要求が、１つ以上のメディアアイテムのパラメータ値に対応する単語又はフレーズを含むかどうかを判定することを更に含む。
［０２０１］
いくつかの実施例では、処理ユニット７０８は、（例えば、取得ユニット７１８を用いて）複数のメディアタイプを備える複数の候補メディアアイテムの正規化されたランク付けを実行することを含めて、第３の１次メディア検索クエリを実行するように更に構成される。
［０２０２］
いくつかの実施例では、１次ユーザ意図を判定することは、メディアに関係する要求に関連付けられたメディアタイプを判定することを含み、判定したメディアタイプに従って、第３の１次メディア検索クエリを実行する。
［０２０３］
いくつかの実施例では、第３の１次メディア検索クエリを実行することは、パラメータ値に関連付けられる候補メディアアイテムを特定することを含み、このパラメータ値は、特定された候補メディアアイテムの１つ以上のメディア批評家のレビュー中に含まれる。
［０２０４］
いくつかの実施例では、第３の１次メディア検索クエリを実行することは、パラメータ値に関連付けられる候補メディアアイテムを特定することを含み、このパラメータ値は、特定された候補メディアアイテムのクローズドキャプション情報から導き出される。
［０２０５］
いくつかの実施例では、処理ユニット７０８は、第３の１次メディア検索クエリに対応するメディアアイテムがないという判定に従って、（例えば、特定ユニット７２０を用いて）第３の１次メディア検索クエリの最も妥当性の低いパラメータ値を特定するように更に構成される。処理ユニット７０８は、特定した最も妥当性の低いパラメータ値に基づいて、（例えば、判定ユニット７１４を用いて）１つ以上の代替パラメータ値を判定するように更に構成される。処理ユニット７０８は、（例えば、取得ユニット７１８を用いて）１つ以上の代替パラメータ値を使用して１つ以上の代替１次メディア検索クエリを実行して、メディアアイテムの第４の１次セットを取得するように更に構成される。処理ユニット７０８は、（例えば、表示可能化ユニット７１０を用いて）表示ユニット上のメディアアイテムの１次セットの表示を、メディアアイテムの第４の１次セットの表示と入れ替えるように更に構成される。
［０２０６］
いくつかの実施例では、処理ユニット７０８は、１次ユーザ意図が、１次メディア検索クエリを絞り込むユーザ意図を備えないという判定に従って、（例えば、判定ユニット７１４を用いて）１つ以上の２次ユーザ意図に基づいて、１次ユーザ意図及び１つ以上の以前のユーザ意図を判定するように更に構成され、１つ以上の以前のユーザ意図は、メディアに関係する要求のよりも前に受信した１つ以上の以前のメディアに関係する要求に対応する。処理ユニット７０８は、（例えば、取得ユニット７１８を用いて）１つ以上の２次ユーザ意図に対応する１つ以上の２次メディア検索クエリを生成するように更に構成される。処理ユニット７０８は、（例えば、取得ユニット７１８を用いて）１つ以上の２次メディア検索クエリを実行して、メディアアイテムの１つ以上の２次セットを取得するように更に構成される。処理ユニット７０８は、（例えば、表示可能化ユニット７１０を用いて）メディアアイテムの１つ以上の２次セットを表示ユニット上に表示するように更に構成される。
［０２０７］
いくつかの実施例では、１つ以上の以前のメディアに関係する要求は、メディアアイテムの１次セットに対応する以前のメディアに関係する要求を含む。
［０２０８］
いくつかの実施例では、処理ユニット７０８は、（例えば、判定ユニット７１４を用いて）１次ユーザ意図と１つ以上の以前のユーザ意図との１つ以上の組み合わせを判定するように更に構成され、１つ以上の組み合わせの各々は、少なくとも１つのメディアアイテムと関連付けられ、１つ以上の２次意図は、１つ以上の組み合わせを備える。
［０２０９］
いくつかの実施例では、１つ以上の以前のユーザ意図及び１次ユーザ意図は、デジタルアシスタントとの同一の対話型セッションと関連付けられる。いくつかの実施例では、１つ以上の電子デバイス上のユーザのメディア検索履歴に基づいて、１つ以上の２次ユーザ意図を生成する。いくつかの実施例では、１つ以上の電子デバイス上のユーザのメディア選択履歴、メディア選択履歴に基づいて、１つ以上の２次ユーザ意図を生成する。
［０２１０］
いくつかの実施例では、処理ユニット７０８は、（例えば、受信ユニット７２２を用いて）第２の電子デバイスから（例えば、通信ユニットを介して）メディア検索履歴を受信するように更に構成される。第２の電子デバイスから受信したメディア検索履歴に基づいて、１つ以上の２次ユーザ意図を生成する。
［０２１１］
１つ以上の電子デバイス上のユーザのメディアウォッチリストに基づいて、１つ以上の２次ユーザ意図を生成する。いくつかの実施例では、オーディオ入力を受信している間に、表示ユニット上に複数のテキストを表示し、その複数のテキストは、オーディオ入力を受信している間に表示ユニット上に表示された複数のメディアアイテムと関連付けられ、表示した複数のテキストに基づいて、１つ以上の２次ユーザ意図を生成する。
［０２１２］
いくつかの実施例では、処理ユニット７０８は、（例えば、判定ユニット７１４を用いて）１つ以上の２次ユーザ意図の各々についてのランキングスコアを判定するように更に構成され、１つ以上の２次ユーザ意図の各々についてのランキングスコアに従って、メディアアイテムの１つ以上の２次セットを表示する。
［０２１３］
いくつかの実施例では、１つ以上の２次ユーザ意図の各々についてのランキングスコアは、メディアに関係する要求及び１つ以上の以前のメディアに関係する要求の各々を受信した時刻に基づく。いくつかの実施例では、１つ以上の２次ユーザ意図の各々についてのランキングスコアは、１つ以上の電子デバイス上のユーザのメディア検索履歴に基づく。いくつかの実施例では、１つ以上の２次ユーザ意図の各々についてのランキングスコアは、１つ以上の電子デバイス上のユーザのメディア選択履歴に基づく。いくつかの実施例では、１つ以上の２次ユーザ意図の各々についてのランキングスコアは、１つ以上の電子デバイス上のユーザのメディアウォッチリストに基づく。
［０２１４］
いくつかの実施例では、処理ユニット７０８は、１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を含まないという判定に従って、（例えば、判定ユニット７１４を用いて）１次ユーザ意図が、１次メディア検索クエリの一部分を訂正するユーザ意図を備えるかどうかを判定するように更に構成される。処理ユニット７０８は、１次ユーザ意図が１次メディア検索クエリの一部分を訂正するユーザ意図を備えるという判定に従って、（例えば、取得ユニット７１８を用いて）メディアに関係する要求及び１次メディア検索クエリ要求に基づいて、１次ユーザ意図に対応する第５の１次メディア検索クエリを生成するように更に構成される。処理ユニット７０８は、（例えば、取得ユニット７１８を用いて）第５の１次メディア検索クエリを実行して、メディアアイテムの第５の１次セットを取得するように更に構成される。処理ユニット７０８は、（例えば、表示可能化ユニット７１０を用いて）表示ユニット上のメディアアイテムの１次セットの表示を、メディアアイテムの第５の１次セットの表示と入れ替えるように更に構成される。
［０２１５］
いくつかの実施例では、１次ユーザ意図が、１次メディア検索クエリの一部分を訂正するユーザ意図を含むかどうかを判定することは、メディアに関係する要求が、１次メディア検索クエリの一部分を訂正するユーザ意図に対応する単語又はフレーズを含むかどうかを判定することを含む。いくつかの実施例では、１次ユーザ意図が、１次メディア検索クエリの一部分を訂正するユーザ意図を含むかどうかを判定することは、メディアに関係する要求の一部分を表す音素の列が、１次メディア検索クエリに対応する以前のメディアに関係する要求の一部分を表す音素の列と実質的に類似しているかどうかを判定することを含む。
［０２１６］
いくつかの実施例では、第５の１次メディア検索クエリを生成することは、訂正されない１次メディア検索クエリの一部分に関連付けられたメディアアイテムのセットを特定することを含み、訂正されない１次メディア検索クエリの一部分に関連付けられたメディアアイテムのセットの１つ以上のパラメータ値に基づいて、第５の１次メディア検索クエリを生成する。
［０２１７］
いくつかの実施例では、処理ユニット７０８は、１次ユーザ意図が１次メディア検索クエリの一部分を訂正するユーザ意図を備えるという判定に従って、（例えば、除外ユニット７２４を用いて）メディアに関係する要求に対応する２次ユーザ意図の判定時に、１次メディア検索クエリを考慮から除外するように更に構成される。
［０２１８］
いくつかの実施例では、処理ユニット７０８は、１次ユーザ意図が、１次メディア検索クエリの一部分を訂正するユーザ意図を含まないという判定に従って、（例えば、判定ユニット７１４を用いて）１次ユーザ意図が、表示ユニット上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図を備えるかどうかを判定するように更に構成され、ユーザインタフェースは、複数のメディアアイテムを含む。処理ユニット７０８は、１次ユーザ意図が、表示ユニット上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図を備えるという判定に従って、（例えば、表示可能化ユニット７１０を用いて）ユーザインタフェースのフォーカスを、複数のメディアアイテムのうちの第１のメディアアイテムから複数のメディアアイテムのうちの第２のメディアアイテムに変更するように更に構成される。
［０２１９］
いくつかの実施例では、１次ユーザ意図が、表示ユニット上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図を備えるかどうか判定することは、メディアに関係する要求が、表示ユニット上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図に対応する単語又はフレーズを含むかどうかを判定することを含む。
［０２２０］
いくつかの実施例では、ユーザインタフェースは、ユーザインタフェース中の複数のメディアアイテムに対応する複数のテキストを含み、１次ユーザ意図が、表示ユニット上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図を備えるかどうかの判定は、これらの複数のテキストに基づく。
［０２２１］
いくつかの実施例では、処理ユニット７０８は、（例えば、判定ユニット７１４を用いて）メディアに関係する要求のテキスト表現を判定し、（例えば、表示可能化ユニット７１０を用いて）そのテキスト表現を表示ユニット上に表示するように更に構成される。いくつかの実施例では、１つ以上の言語モデルを使用して、テキスト表現を判定する。いくつかの実施例では、メディアに関係するテキスト結果に向かって１つ以上の言語モデルをバイアスさせる。いくつかの実施例では、１つ以上の言語モデルは、複数の言語におけるメディアに関係するテキストを認識するように構成される。
［０２２２］
いくつかの実施例では、複数のメディアアイテムに関連付けられた複数のメディアアイテム及びテキストが表示ユニット上に表示される。処理ユニット７０８は、（例えば、生成ユニット７２６を用いて）複数のメディアアイテムに関連付けられたテキストを使用して第２の言語モデルを生成するように更に構成され、この第２の言語モデルを使用してテキスト表現を判定する。
［０２２３］
いくつかの実施例では、処理ユニット７０８は、（例えば、判定ユニット７１４を用いて）テキスト表現を使用して予測テキストを判定し、（例えば、表示可能化ユニット７１０を用いて）テキスト表現の予測テキストを表示ユニット上に表示するように更に構成される。
［０２２４］
いくつかの実施例では、オーディオ入力を受信している間に、表示ユニット上に表示したテキストに基づいて、予測テキストを判定する。
［０２２５］
いくつかの実施例では、処理ユニット７０８は、（例えば、判定ユニット７１４を用いて）オーディオ入力のエンドポイントが予測テキストの表示後に検出されたかどうかを判定するように更に構成され、オーディオ入力のエンドポイントが、予測テキストの表示後に検出されたという判定に従って、テキスト表現及び予測テキストを使用して、１次ユーザ意図を判定する。
［０２２６］
いくつかの実施例では、処理ユニット７０８は、オーディオ入力を受信している間に、（例えば、判定ユニット７１４を用いて）オーディオ入力の受信した部分に基づいて仮のユーザ意図を判定し、（例えば、特定ユニット７２０を用いて）仮のユーザ意図を満たすために必要なデータを特定し、（例えば、判定ユニット７１４を用いて）仮のユーザ意図の判定時に、そのデータが１つ以上の電子デバイス上に記憶されているかどうかを判定し、仮のユーザ意図の判定時にそのデータが１つ以上の電子デバイス上に記憶されていないという判定に従って、（例えば、取得ユニット７１８を用いて）データを取得するように更に構成される。
［０２２７］
いくつかの実施形態によれば、処理ユニット７０８は、（例えば、入力ユニット７０３又はオーディオ受信ユニット７０４で、受信ユニット７２２又はオーディオ受信可能化ユニット７１６を使用して）ユーザから、自然言語発語形態のメディア検索要求を受信するように構成される。処理ユニット７０８は、（例えば、判定ユニット７１４を用いて）メディア検索要求に対応する１次ユーザ意図を判定するように更に構成され、その１次ユーザ意図に従って、メディアアイテムの１次セットを取得する。処理ユニット７０８は、（例えば、判定ユニット７１４を用いて）１つ以上の以前のユーザ意図が存在するかどうかを判定するように構成され、１つ以上の以前のユーザ意図は、メディア検索要求よりも前に受信した１つ以上の以前のメディア検索要求に対応する。処理ユニット７０８は、１つ以上の以前のユーザ意図が存在すると判定したことに応じて、（例えば、判定ユニット７１４を用いて）１次ユーザ意図及び１つ以上の以前のユーザ意図に基づいて、１つ以上の２次ユーザ意図を判定するように更に構成される。処理ユニット７０８は、（例えば、取得ユニット７１８を用いて）メディアアイテムの複数の２次セットを取得するように更に構成され、メディアアイテムの各２次セットは、１つ以上の２次ユーザ意図のそれぞれの２次ユーザ意図に対応する。処理ユニット７０８は、（例えば、表示可能化ユニット７１０を用いて）メディアアイテムの１次セット及びメディアアイテムの複数の２次セットを表示するように更に構成される。
［０２２８］
いくつかの実施例では、１次ユーザ意図を判定することは、メディア検索要求が、メディア検索要求よりも前に受信した以前のメディア検索要求を絞り込む明示的な要求を包含するかどうかを判定することを更に含み、メディア検索要求が、以前のメディア検索要求を絞り込む明示的な要求を包含するという判定に従って。メディア検索要求及び１つ以上の以前のユーザ意図のうちの少なくとも１つから、１次ユーザ意図を判定する。
［０２２９］
いくつかの実施例では、メディア検索要求が以前のメディア検索要求を絞り込む明示的な要求を包含しないと判定したことに応じて、メディア検索要求から、１次ユーザ意図を判定する。
［０２３０］
いくつかの実施例では、メディア検索要求は、デジタルアシスタントとの対話型セッションの一部である。１つ以上の以前のユーザ意図が存在するかどうかを判定することは、対話型セッションが、メディア検索要求よりも前に受信した１つ以上の以前のメディア検索要求を含むかどうかを判定することを更に含み、１つ以上の以前のメディア検索要求は、１つ以上の以前のユーザ意図に対応する。対話型セッションが、メディア検索要求よりも前に受信した１つ以上の以前のメディア検索要求を包含するという判定に従って、その１つ以上の以前のユーザ意図の判定を行う。対話型セッションが、メディア検索要求よりも前に受信した１つ以上の以前のメディア検索要求を包含しないという判定に従って、１つ以上の以前のユーザ意図が存在しないという判定を行う。
［０２３１］
いくつかの実施例では、処理ユニット７０８は、１つ以上の以前のメディアユーザ意図が存在しないと判定したことに応じて、（例えば、表示可能化ユニット７１０を用いて）メディアアイテムの１次セットを表示するように更に構成される。
［０２３２］
いくつかの実施例では、１つ以上の２次ユーザ意図の２次ユーザ意図は、１次ユーザ意図と１つ以上の以前のユーザ意図の以前のユーザ意図との組み合わせを含む。
［０２３３］
いくつかの実施例では、１つ以上の２次ユーザ意図の２次ユーザ意図は、１つ以上の以前のユーザ意図の第１の以前のユーザ意図と１つ以上の以前のユーザ意図の第２の以前のユーザ意図との組み合わせを含む。
［０２３４］
いくつかの実施例では、１つ以上の２次ユーザ意図を判定することは、１次ユーザ意図と１つ以上の以前のユーザ意図との複数の組み合わせを生成することを更に含む。
［０２３５］
いくつかの実施例では、１つ以上の２次ユーザ意図を判定することは、複数の組み合わせが、マージできない組み合わせを含むかどうかを判定することを更に含む。複数の組み合わせが、マージできないユーザ意図の組み合わせを含むという判定に従って、１つ以上の２次ユーザ意図は、マージできない組み合わせを含めない。
［０２３６］
いくつかの実施例では、マージできない組み合わせは、特異値を必要とするパラメータについての２つ以上の値を含む。
［０２３７］
いくつかの実施例では、１つ以上の２次ユーザ意図を判定することは、１つ以上の以前のユーザ意図が誤ったユーザ意図を含むかどうか判定することを更に含む。１つ以上の以前のユーザ意図が、誤ったユーザ意図を含むという判定に従って。１つ以上の２次ユーザ意図は、誤ったユーザ意図に基づかない。
［０２３８］
いくつかの実施例では、１つ以上の以前のユーザ意図が、誤ったユーザ意図を含むかどうかを判定することは、１つ以上の以前のユーザ意図が、１つ以上の以前のユーザ意図の第４のユーザ意図を訂正する第３のユーザ意図を含むかどうか判定することを含む。１つ以上の以前のユーザ意図が、１つ以上の以前のユーザ意図の第４のユーザ意図と訂正する第３のユーザ意図を含むという判定に従って、１つ以上の以前のユーザ意図が、誤ったユーザ意図を含むという判定を行う。第４のユーザ意図は、誤ったユーザ意図であると判定される。
［０２３９］
いくつかの実施例では、１つ以上の以前のユーザ意図が、誤ったユーザ意図を含むかどうか判定することは、１つ以上の以前のユーザ意図が、第５のユーザ意図と矛盾するメディアアイテムのユーザ選択に関連付けられた第５のユーザ意図を含むかどうかを判定することを含む。１つ以上の以前のユーザ意図が、誤ったユーザ意図を訂正する第３のユーザ意図を含むという判定に従って、１つ以上の以前のユーザ意図が、誤ったユーザ意図を含むという判定を行い、第５のユーザ意図が誤ったユーザ意図であると判定される。
［０２４０］
いくつかの実施例では、処理ユニット７０８は、（例えば、判定ユニット７１４を用いて）複数の含み合わせが、所定の数よりも少数のメディアアイテムに関連付けられる複数の組み合わせを含むかどうかを判定するように更に構成される。複数の組み合わせが、所定の数よりも少数のメディアアイテムに関連付けられる組み合わせをむという判定に従って、１つ以上の２次ユーザ意図は、所定の数よりも少数のメディアアイテムに関連付けられる組み合わせを含まない。
［０２４１］
いくつかの実施例では、処理ユニット７０８は、（例えば、判定ユニット７１４を用いて）１つ以上の２次ユーザ意図の各々についてのランキングスコアを判定するように更に構成され、１つ以上の２次ユーザ意図の各々についてのランキングスコアに従って、メディアアイテムの複数の２次セットを表示する。
［０２４２］
いくつかの実施例では、メディア検索要求及び１つ以上の以前のメディア検索要求を受信した順序に基づいて、１つ以上の２次ユーザ意図の各々についてのランキングスコアを判定する。いくつかの実施例では、ユーザが以前に選択したメディアを備えるユーザの選択履歴に基づいて、１つ以上の２次ユーザ意図の各々についてのランキングスコアを判定する。いくつかの実施例では、ユーザのメディア検索履歴に基づいて、１つ以上の２次ユーザ意図の各々についてのランキングスコアを判定する。
［０２４３］
いくつかの実施例では、メディアアイテムの１次セットは、ユーザインタフェースの最上行に表示され、メディアアイテムの複数の２次セットは、最上行よりも下のユーザインタフェースの後続の行に表示され、後続の行の各行は、１つ以上の２次ユーザ意図のそれぞれの２次ユーザ意図に対応する。
［０２４４］
いくつかの実施例では、後続の行は、１つ以上の２次ユーザ意図のそれぞれのランキングスコアに従って順序付けられる。
［０２４５］
いくつかの実施形態によれば、処理ユニット７０８は、（例えば、入力ユニット７０３又はオーディオ受信ユニット７０４で、受信ユニット７２２又はオーディオ受信可能化ユニット７１６を用いて）第１のメディア検索要求を受信するように構成される。処理ユニット７０８は、（例えば、取得ユニット７１８を用いて）メディア検索要求を満たすメディアアイテムの第１のセットを取得するように更に構成される。処理ユニット７０８は、（例えば、表示可能化ユニットを用いて）ユーザインタフェースを介して、メディアアイテムの第１のセットを表示ユニット上に表示するように更に構成される。メディアアイテムの第１のセットの少なくとも一部分を表示している間、処理ユニット７０８は、（例えば、入力ユニット７０３又はオーディオ受信ユニット７０４で、受信ユニット７２２又はオーディオ受信可能化ユニット７１６を用いて）第２のメディア検索要求を受信し、（例えば、取得ユニット７１８）第２のメディア検索要求が第１のメディア検索要求を絞り込む要求であるかどうかの判定を取得するように更に構成される。処理ユニット７０８は、第２のメディア検索要求が、第１のメディア検索要求を絞り込む要求であるという判定を取得したことに応じて、（例えば、取得７１８を用いて）第２のメディア検索要求を満たす、複数のメディアアイテムのサブセットである、メディアアイテムの第２のセットを取得し、（例えば、表示可能化ユニット７１０を用いて）ユーザインタフェースを介して、表示ユニット上のメディアアイテムの第１のセットの少なくとも一部分の表示を、メディアアイテムの第２のセットの少なくとも一部分の表示と入れ替えるように更に構成される。
［０２４６］
いくつかの実施例では、メディアアイテムの第２のセットの各メディアアイテムは、第１のメディア検索要求の１つ以上のパラメータ値及び第２のメディア検索要求の１つ以上のパラメータ値に関連付けられる。
［０２４７］
いくつかの実施例では、処理ユニット７０８は、（例えば、表示可能化ユニット７１０を用いて）メディアアイテムの第１のセットを表示している間、及びメディアアイテムの第２のセットの少なくとも一部分を表示している間、表示ユニット上のメディアコンテンツを表示するように更に構成される。
［０２４８］
いくつかの実施例では、ユーザインタフェースは、表示ユニットの少なくとも大部分の表示範囲を占めることができる。処理ユニット７０８は、（例えば、取得ユニット７１８）第２のメディア検索要求を少なくとも部分的に満たすメディアアイテムの第３のセットを取得するように更に構成され、メディアアイテムの第２のセットとメディアアイテムの第３のセットとは異なる。処理ユニット７０８は、（例えば、表示可能化ユニット７１０を用いて）ユーザインタフェースを介して、メディアアイテムの第３のセットの少なくとも一部分を表示ユニット上に表示するように更に構成される。
［０２４９］
いくつかの実施例では、メディアアイテムの第３のセットの各メディアアイテムは、第１のメディア検索要求又は第２のメディア検索要求中で定義された少なくとも１つのパラメータ値に関連付けられる。いくつかの実施例では、メディアアイテムの第２のセットの少なくとも一部分は、ユーザインタフェースの最上行に表示され、メディアアイテムの第３のセットの少なくとも一部分は、ユーザインタフェース上の１つ以上の後続の行に表示される。
［０２５０］
いくつかの実施例では、第２のメディア検索要求の受信時、ユーザインタフェースのフォーカスは、メディアアイテムのうちの第１のセットのメディアアイテム上にあり、メディアアイテムの第３のセットは、メディアアイテムの第１のセットのメディアアイテムにコンテキストで関係する。
［０２５１］
いくつかの実施例では、第２のメディア検索要求が、メディア検索要求を絞り込む要求であるかどうかの判定を取得することは、第２のメディア検索要求が、複数の絞り込み用語のうちの１つを包含するかどうかの判定を取得することを含む。
［０２５２］
いくつかの実施例では、第２のメディア検索要求は、自然言語形式である。いくつかの実施例では、第２のメディア検索要求は、曖昧な用語を使用して、パラメータ値を定義する。
［０２５３］
いくつかの実施例では、処理ユニット７０８は、（例えば、特定ユニット７２０を用いて）自然言語処理を使用して、曖昧な用語とパラメータ値との間の接続強度に基づいてパラメータ値を特定するように更に構成される。
［０２５４］
いくつかの実施例では、メディアアイテムの第１のセットの各メディアアイテムは、クオリティレーティングに関連付けられ、第２のメディア検索要求は、クオリティレーティングに関連付けられたパラメータ値を定義する。いくつかの実施例では、メディアアイテムの第１のセットの各メディアアイテムは、所要時間に関連付けられ、第２のメディア検索要求は、所要時間に関連付けられたパラメータ値を定義する。
［０２５５］
いくつかの実施例では、メディアアイテムの第１のセットの各メディアアイテムは、人気率に関連付けられ、第２のメディア検索要求は、人気率に関連付けられたパラメータ値を定義する。
［０２５６］
いくつかの実施例では、メディアアイテムの第１のセットの各メディアアイテムは、公開日に関連付けられ、第２のメディア検索要求は、公開日に関連付けられたパラメータ値を定義する。
［０２５７］
いくつかの実施例では、処理ユニット７０８は、第２のメディア検索要求が、第１のメディア検索要求を絞り込む要求であるという判定を取得したことに応じて、（例えば、取得ユニット７１８を用いて）第２のメディア検索要求を満たすメディアアイテムの第４のセットを取得し、（例えば、表示可能化ユニット７１０を用いて）ユーザインタフェースを介して、表示ユニット上のメディアアイテムの第１のセットの少なくとも一部分の表示を、メディアアイテムの第１のセットとは異なる、メディアアイテムの第４のセットの少なくとも一部分の表示と入れ替えるように更に構成される。
［０２５８］
いくつかの実施例では、メディアアイテムの第４のセットの各メディアアイテムは、第２のメディア検索要求中で定義された１つ以上のパラメータ値に関連付けられる。
［０２５９］
いくつかの実施例では、処理ユニット７０８は、（例えば、表示可能化ユニット７１０を用いて）メディアアイテムの第１のセットを表示している間、及びメディアアイテムの第４のセットの少なくとも一部分を表示している間、表示ユニット上のメディアコンテンツを表示するように更に構成される。
［０２６０］
いくつかの実施例では、ユーザインタフェースは、表示ユニットの少なくとも大部分の表示範囲を占めることができる。処理ユニット７０８は、（例えば、取得ユニット７１８を用いて）メディアアイテムの第５のセットを取得するように更に構成され、メディアアイテムの第５のセットの各メディアアイテムは、第１のメディア検索要求中で定義された１つ以上のパラメータ及び第２のメディア検索要求中で定義された１つ以上のパラメータに関連付けられる。処理ユニット７０８は、（例えば、表示可能化ユニット７１０を用いて）ユーザインタフェースを介して、メディアアイテムの第５のセットを表示ユニット上に表示するように更に構成される。
［０２６１］
いくつかの実施例では、第２のメディア検索要求の受信時、ユーザインタフェースのフォーカスは、メディアアイテムの第２のセットの第２のメディアアイテム上にあり、第５のメディアアイテムのうちの１つ以上のメディアアイテムは、メディアアイテムの第１のセットの第２のメディアアイテムに関連付けられるパラメータ値を含む。
［０２６２］
いくつかの実施例では、ユーザインタフェースのフォーカスは、第２のメディア検索要求の検出時、メディアアイテムの第１のセットのうちの第３のメディアアイテム上にある。処理ユニット７０８は、第２のメディア検索要求が、第１のメディア検索要求を絞り込む要求ではないという判定を取得したことに応じて、（例えば、取得ユニット７１８を用いて）第２のメディア検索要求が、メディアアイテムの第１のセットのうちの第３のメディアアイテムに類似するメディアアイテムの代替セットを取得する要求であるかどうかの判定を取得するように更に構成される。処理ユニット７０８は、第２のメディア検索要求が、メディアアイテムの第１のセットのうちの第３のメディアアイテムに類似するメディアアイテムの代替セットを取得する要求であるという判定を取得したことに応じて、（例えば、取得ユニット７１８を用いて）メディアアイテムの第６のセットであって、メディアアイテムの第６のセットの各メディアアイテムは、第３のメディアアイテムの１つ以上のパラメータ値に関連付けられる、メディアアイテムの第６のセットを取得し、（例えば、表示可能化ユニット７１０を用いて）、ユーザインタフェースを介して、メディアアイテムの第６のセットを表示ユニット上に表示するように更に構成される。
［０２６３］
いくつかの実施例では、第１のメディア検索要求に基づいて文字列検索を実行することによって、メディアアイテムの第１のセットを取得し、第２のメディア検索要求中で定義された１つ以上のパラメータ値に基づいて構造化された検索を実行することによって、メディアアイテムの第２のセットを取得する。
［０２６４］
いくつかの実施例では、キーボードインタフェースを介して、第１のメディア検索要求を受信し、自然言語発語形式の第２のメディア検索要求を受信する。いくつかの実施例では、構造化された検索は、メディアアイテムの第１のセットを使用して実行される。
［０２６５］
図５Ａ〜図５Ｅを参照した上述した動作は、任意選択的に、図１〜図３、図４Ａ及び図４Ｂに示した構成要素により実装される。例えば、表示動作５０２、５２２、５３４、５４０、５４８、５６４、５６８、検出動作５０４、判定動作５０８、５１０、５３８、５４４、５５０、５５２、５６０、取得動作５２０、５２４、５３６、５４６、５６２、５６６、特定動作５２６、５２８、５４２、５５４、除外動作５５８、及び生成動作５３０、５５６は、オペレーティングシステム２５２、ＧＵＩモジュール２５６、アプリケーションモジュール２６２、Ｉ／Ｏ処理モジュール４２８、ＳＴＴ処理モジュール４３０、自然言語処理モジュール４３２、タスクフロー処理モジュール４３６、サービス処理モジュール４３８、又はプロセッサ（単数又は複数）２０４、４０４のうちの１つ以上により実施することができる。当業者には、他の処理が図１〜図３及び図４Ａ〜図４Ｂに示した構成要素に基づいてどのように実装されるかは明らかであるだろう。
［０２６６］
いくつかの実施態様によると、コンピュータ可読記憶媒体（例えば、永続的コンピュータ可読記憶媒体）が提供されており、このコンピュータ可読記憶媒体は、電子デバイスの１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶し、この１つ以上のプログラムは、本明細書に記載の方法のいずれかを行う命令を含む。
［０２６７］
いくつかの実施態様によると、本明細書に記載のいずれかの方法を行う手段を含む電子デバイス（例えば、ポータブル電子デバイス）が提供されている。
［０２６８］
いくつかの実施態様によると、本明細書に記載のいずれかの方法を行うよう構成された処理ユニットを含む電子デバイス（例えば、ポータブル電子デバイス）が提供されている。
［０２６９］
いくつかの実施態様によると、１つ以上のプロセッサ及び、１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶するメモリを含み、この１つ以上のプログラムは、本明細書に記載のいずれかの方法を行う命令を含む電子デバイス（例えば、ポータブル電子デバイス）が提供されている。
［０２７０］
上述の説明では、様々な要素を説明するために「第１」、「第２」などの用語が使用されるが、これらの要素はこれらの用語によって限定されるべきではない。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、説明されている様々な実施形態の範囲から逸脱することなく、第１のユーザ入力を、第２のユーザ入力と称することがあり、同様に、第２のユーザ入力を、第１のユーザ入力と称することがある。
［０２７１］
本明細書で説明される様々な実施形態の説明で使用される用語は、特定の実施形態を説明することのみを目的とするものであって、限定することを意図するものではない。説明される様々な実施形態の説明及び添付の特許請求の範囲で使用される時、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈がそうではないことを明確に示さない限り、複数形もまた含むことが意図されている。本明細書で使用される時に、用語「及び／又は」は、関連する列挙された項目のうちの１つ以上の任意の全ての可能な組み合わせを指し、かつこれを含むことをもまた理解されたい。用語「ｉｎｃｌｕｄｅｓ（含む）、「ｉｎｃｌｕｄｉｎｇ（含む）」、「ｃｏｍｐｒｉｓｅｓ（含む）」及び／又は「ｃｏｍｐｒｉｓｉｎｇ（含む）」は、本明細書で使用される時、述べられた特徴、整数、ステップ、動作、要素、及び／又は構成要素の存在を指定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、及び／又はそれらの群、の存在又は追加を除外しないことが更に理解されるであろう。
［０２７２］
用語「ｉｆ（〜場合に）」は、文脈に応じて「ｗｈｅｎ（〜時に）」、「ｕｐｏｎ（〜すると）」、「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ（〜という判定に応じて）」、又は「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ（〜を検出したことに応じて）」を意味すると解釈することができる。同様に、句「ｉｆｉｔｉｓｄｅｔｅｒｍｉｎｅｄ（〜と判定される場合に）」又は「ｉｆ［ａｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］ｉｓｄｅｔｅｃｔｅｄ（［述べられる条件又はイベント］が検出される場合に）」は、文脈に応じて「ｕｐｏｎｄｅｔｅｒｍｉｎｉｎｇ（〜と判定される時に）」、「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ（〜との判定に応じて）」、「ｕｐｏｎｄｅｔｅｃｔｉｎｇ［ｔｈｅｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］（［述べられる条件又はイベント］の検出時に）」、又は「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ［ｔｈｅｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］（［述べられる条件又はイベント］の検出に応じて）」を意味すると解釈することができる。
［０２７３］
更に、上述の説明は、説明の目的上、特定の実施形態を参照して説明されている。しかしながら、上記の例示的な論考は、網羅的であること、又は本発明を、開示される厳密な形態に限定することを意図するものではない。上記の教示を鑑みて、多くの修正及び変形が可能である。これらの実施形態は、本技術の原理、及びその実際の適用を最も良好に説明するために、選択及び説明されたものである。それにより、他の当業者は、想到される具体的な用途に適するような様々な修正を使用して、本技術及び様々な実施形態を最も良好に利用することが可能となる。
［０２７４］
添付図面を参照して、本開示及び実施例を十分に説明してきたが、様々な変更及び修正が、当業者には明らかとなるであろうことに留意されたい。このような変更及び修正は、特許請求の範囲によって定義されるとおりの本開示及び実施例の範囲内に含まれるものと理解されるべきである。
［０２７５］
加えて、本明細書で説明した様々な実施例のいずれでも、様々な態様は、特定のユーザのために個人専用にすることができる。連絡先、好み、位置、お気に入りのメディアなどを含むユーザデータは、音声コマンドを解釈して本明細書で説明した様々なデバイスとのユーザ対話を促進するために使用することができる。本明細書で説明した様々なプロセスはまた、ユーザの好み、連絡先、テキスト、使用履歴、プロフィールデータ、人口統計などに従って、様々な他の方法で変更することができる。加えて、そのような好み及び設定は、ユーザ対話（例えば、頻繁に発言されたコマンド、頻繁に選択されたアプリケーションなど）に基づいて、経時的に更新することができる。様々なソースから使用可能なユーザデータの収集及び利用は、ユーザが興味があり得る招待者だけのコンテンツ又は任意の他のコンテンツのユーザへの配信を改善するために使用することができる。本開示は、いくつかの場合では、この収集されたデータが、特定の個人を一意に識別する又は連絡するため若しくは位置を特定するために使用することができる、個人情報データを含むことができることを意図している。そのような個人情報データとしては、人口統計データ、位置に基づくデータ、電話番号、電子メールアドレス、自宅の住所、又は任意の他の識別情報を挙げることができる。
［０２７６］
本開示は、この技術のそのような個人情報データを使用してユーザを利することができることを理解する。例えば、個人情報データは、ユーザがより興味がある的を絞ったコンテンツを配信するために使用することができる。したがって、そのような個人情報データの使用は、配信されるコンテンツの計算された制御を可能にする。更に、ユーザを利する個人情報データに関するその他の使用もまた、本開示により意図されている。
［０２７７］
本開示は、そのような個人情報データの収集、分析、開示、伝送、記憶、又はその他の使用に応答するエンティティは、確固たるプライバシーのポリシー及び／又はプライバシー慣行に従うであろうことを更に意図している。具体的には、そのようなエンティティは、個人情報データを秘密で安全に維持するために、産業若しくは政府の要求を満たす又は上回るとして一般的に認識される、プライバシーのポリシー及び慣行を実施及び一貫して使用しなければならない。例えば、ユーザからの個人情報は、そのエンティティの合法的かつ正当な使用のために収集されるべきであり、それらの合法的使用を除いて、共有又は販売されるべきではない。更には、そのような収集は、ユーザに告知して同意を得た後にのみ実施するべきである。更には、そのようなエンティティは、そのような個人情報データへのアクセスを保護して安全化し、その個人情報データへのアクセスを有する他者が、それらのプライバシーのポリシー及び手順を遵守することを保証するための、あらゆる必要な措置を講じるであろう。更には、そのようなエンティティは、広く受け入れられているプライバシーのポリシー及び慣行に対する自身の遵守を証明するために、第三者による評価を自らが受けることができる。
［０２７８］
上述のことがらにもかかわらず、本開示はまた、ユーザが、個人情報データの使用又は個人情報データへのアクセスを選択的に阻止する例も想到する。すなわち、本開示は、そのような個人情報データへのアクセスを防止又は阻止するために、ハードウェア要素及び／又はソフトウェア要素を提供することができると想到する。例えば、広告配信サービスの場合において、この技術は、ユーザが、サービスの登録中、個人情報データの収集への参加の「オプトイン」又は「オプトアウト」を選択することを可能にするように構成することができる。別の実施例では、ユーザは、ターゲットコンテンツ配信サービスに位置情報を提供しないように選択することができる。更に別の実施例では、ユーザは、精密な位置情報を提供しないが、位置区域情報の伝送を許可するように選択することができる。
［０２７９］
それゆえ、本開示は、１つ以上の様々な開示された実施例を実施するための個人情報データの使用を、広範に網羅するものであるが、本開示は、それらの様々な実施例がまた、そのような個人情報データにアクセスすることを必要とせずに実施することも可能である点も、また想到する。すなわち、本技術の様々な実施例は、そのような個人情報データの全て又は一部分の欠如により、実施不可能となるものではない。例えば、コンテンツは、ユーザに関連付けられたデバイスにより要求されたコンテンツ、コンテンツ配信サービスで使用可能な他の非個人情報、若しくは公的に使用可能な情報などの、非個人情報データ又は個人情報の最小限の量のみに基づいて好みを推測することにより、選択してユーザに配信することができる。

［書類名］特許請求の範囲
［請求項１］
メディアシステムのデジタルアシスタントを動作させる命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、
メディアアイテムの１次セットをディスプレイ上に表示させ、
ユーザ入力を検出したことに応じて、自然言語発語形式のメディアに関係する要求を包含するオーディオ入力を受信させ、
前記メディアに関係する要求に対応する１次ユーザ意図を判定させ、
前記１次ユーザ意図が、前記メディアアイテムの１次セットに対応する１次メディア検索クエリを絞り込むユーザ意図を含むかどうかを判定させ、
前記１次ユーザ意図が、前記１次メディア検索クエリを絞り込むユーザ意図を含むという判定に従って、
前記メディアに関係する要求及び前記１次メディア検索クエリに基づいて、前記１次ユーザ意図に対応する第２の１次メディア検索クエリを生成させ、
前記第２の１次メディア検索クエリを実行して、メディアアイテムの第２の１次セットを取得させ、
前記メディアアイテムの１次セットの表示を、前記メディアアイテムの第２の１次セットの表示と入れ替えさせる、
非一時的コンピュータ可読媒体。
［請求項２］
前記１次ユーザ意図が、前記１次メディア検索クエリを絞り込むユーザ意図を含むかどうかを判定することは、
前記メディアに関係する要求が、前記１次メディア検索クエリを絞り込むユーザ意図に対応する単語又はフレーズを含むかどうかを判定すること
を含む、請求項１に記載の非一時的コンピュータ可読媒体。
［請求項３］
前記第２の１次メディア検索クエリが、前記メディアに関係する要求中で定義された１つ以上のパラメータ値、及び前記１次メディア検索クエリの１つ以上のパラメータ値を含む、請求項１に記載の非一時的コンピュータ可読媒体。
［請求項４］
前記第２の１次メディア検索クエリが、パラメータ値のセットを含み、前記命令が、前記１つ以上のプロセッサに、更に
前記パラメータ値のセットから、パラメータ値のコアセットであって、前記パラメータ値のコアセットが、前記パラメータ値のセットよりも少数のパラメータ値を有する、パラメータ値のコアセットを特定させ、
前記パラメータ値のコアセットに基づいて、１つ以上の追加のメディア検索クエリを生成させ、
前記１つ以上の追加のメディア検索クエリを実行して、メディアアイテムの１つ以上の追加セットを取得させ、
前記メディアアイテムの１つ以上の追加セットを、前記ディスプレイ上に表示させる、
請求項１に記載の非一時的コンピュータ可読媒体。
［請求項５］
前記命令は、前記１つ以上のプロセッサに、更に、
前記１次ユーザ意図が、前記１次メディア検索クエリを絞り込むユーザ意図を含まないという判定に従って、
前記１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を含むかどうかを判定させ、
前記１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を含むという判定に従って、
前記メディアに関係する要求に基づいて、前記１次ユーザ意図に対応する第３の１次メディア検索クエリを生成させ、
前記第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得できるかどうかを判定させ、
前記第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得できるという判定に従って、
前記第３の１次メディア検索クエリを実行して、メディアアイテムの第３の１次セットを取得させ、
前記メディアアイテムの１次セットの表示を、前記メディアアイテムの第３の１次セットの表示と入れ替えさせる、
請求項１に記載の非一時的コンピュータ可読媒体。
［請求項６］
前記１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を含むかどうかを判定することは、
前記メディアに関係する要求が、１つ以上のメディアアイテムのパラメータ値に対応する単語又はフレーズを含むかどうかを判定することを更に含む、請求項５に記載の非一時的コンピュータ可読媒体。
［請求項７］
前記第３の１次メディア検索クエリを実行することが、パラメータ値に関連付けられる候補メディアアイテムを特定することを含み、前記パラメータ値は、前記特定された候補メディアアイテムの１つ以上のメディア批評家のレビュー中に含まれる、請求項５に記載の非一時的コンピュータ可読媒体。
［請求項８］
前記命令は、前記１つ以上のプロセッサに、更に、
前記第３の１次メディア検索クエリに対応するメディアアイテムがないという判定に従って、
前記第３の１次メディア検索クエリの最も妥当性の低いパラメータ値を特定させ、
前記特定した最も妥当性の低いパラメータ値に基づいて、１つ以上の代替パラメータ値を判定させ、
１つ以上の代替パラメータ値を使用して、１つ以上の代替１次メディア検索クエリを実行して、メディアアイテムの第４の１次セットを取得させ、
前記メディアアイテムの１次セットの表示を、前記メディアアイテムの第４の１次セットの表示と入れ替えさせる、
請求項５に記載の非一時的コンピュータ可読媒体。
［請求項９］
前記命令は、前記１つ以上のプロセッサに、更に、
前記１次ユーザ意図が、前記１次メディア検索クエリを絞り込むユーザ意図を含まないという判定に従って、
前記１次ユーザ意図及び１つ以上の以前のユーザ意図であって、前記１つ以上の以前のユーザ意図が、前記メディアに関係する要求よりも前に受信した１つ以上の以前のメディアに関係する要求に対応する、１つ以上の以前のユーザ意図に基づいて、１つ以上の２次ユーザ意図を判定させ、
前記１つ以上の２次ユーザ意図に対応する１つ以上の２次メディア検索クエリを生成させ、
前記１つ以上の２次メディア検索クエリを実行して、メディアアイテムの１つ以上の２次セットを取得させ、
前記メディアアイテムの１つ以上の２次セットを、前記ディスプレイ上に表示させる、
請求項５に記載の非一時的コンピュータ可読媒体。
［請求項１０］
前記命令は、前記１つ以上のプロセッサに、更に、
前記１次ユーザ意図と前記１つ以上の以前のユーザ意図との１つ以上の組み合わせを判定させ、前記１つ以上の組み合わせの各々が、少なくとも１つのメディアアイテムと関連付けられ、前記１つ以上の２次意図が、前記１つ以上の組み合わせを含む、
請求項９に記載の非一時的コンピュータ可読媒体。
［請求項１１］
前記命令は、前記１つ以上のプロセッサに、更に、
第２の電子デバイスから、メディア検索履歴を受信させ、前記第２の電子デバイスから受信した前記メディア検索履歴に基づいて、１つ以上の２次ユーザ意図を生成させる、
請求項９に記載の非一時的コンピュータ可読媒体。
［請求項１２］
前記オーディオ入力を受信している間に、前記ディスプレイ上に複数のテキストを表示し、
前記複数のテキストが、前記オーディオ入力を受信している間に前記ディスプレイ上に表示した複数のメディアアイテムに関連付けられ、
前記表示した複数のテキストに基づいて、前記１つ以上の２次ユーザ意図を生成する、
請求項９に記載の非一時的コンピュータ可読媒体。
［請求項１３］
前記命令は、前記１つ以上のプロセッサに、更に、
前記１つ以上の２次ユーザ意図の各々についてのランキングスコアを判定させ、前記１つ以上の２次ユーザ意図の各々についての前記ランキングスコアに従って、前記メディアアイテムの１つ以上の２次セットを表示する、
請求項９に記載の非一時的コンピュータ可読媒体。
［請求項１４］
前記１つ以上の２次ユーザ意図の各々についての前記ランキングスコアが、前記メディアに関係する要求及び前記１つ以上の以前のメディアに関係する要求の各々を受信した時刻に基づく、請求項１３に記載の非一時的コンピュータ可読媒体。
［請求項１５］
前記命令は、前記１つ以上のプロセッサに、更に、
前記１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を含まないという判定に従って、
前記１次ユーザ意図が、前記１次メディア検索クエリの一部分を訂正するユーザ意図を含むかどうかを判定させ、
前記１次ユーザ意図が、前記１次メディア検索クエリの一部分を訂正するユーザ意図を含むという判定に従って、
前記メディアに関係する要求及び前記１次メディア検索クエリ要求に基づいて、前記１次ユーザ意図に対応する第５の１次メディア検索クエリを生成させ、
前記第５の１次メディア検索クエリを実行して、メディアアイテムの第５の１次セットを取得させ、
前記メディアアイテムの１次セットの表示を、前記メディアアイテムの第５の１次セットの表示と入れ替えさせる、
請求項５に記載の非一時的コンピュータ可読媒体。
［請求項１６］
前記１次ユーザ意図が、前記１次メディア検索クエリの一部分を訂正するユーザ意図を含むかどうかを判定することは、
前記メディアに関係する要求の一部分を表す音素の列が、前記１次メディア検索クエリに対応する以前のメディアに関係する要求の一部分を表す音素の列と実質的に類似しているかどうかを判定することを含む、請求項１５に記載の非一時的コンピュータ可読媒体。
［請求項１７］
前記第５の１次メディア検索クエリを生成することは、
訂正されない前記１次メディア検索クエリの一部分に関連付けられたメディアアイテムのセットを特定することを含み、訂正されない前記ディア検索クエリの前記一部分に関連付けられた前記メディアアイテムのセットの１つ以上のパラメータ値に基づいて、前記第５の１次メディア検索クエリを生成する、
請求項１５に記載の非一時的コンピュータ可読媒体。
［請求項１８］
前記命令は、前記１つ以上のプロセッサに、更に、
前記１次ユーザ意図が、前記１次メディア検索クエリの一部分を訂正するユーザ意図を含むという判定に従って、
前記メディアに関係する要求に対応する２次ユーザ意図の判定時に、前記１次メディア検索クエリを考慮から除外させる、
請求項１５に記載の非一時的コンピュータ可読媒体。
［請求項１９］
前記命令は、前記１つ以上のプロセッサに、更に、
前記１次ユーザ意図が、前記１次メディア検索クエリの一部分を訂正するユーザ意図を含まないという判定に従って、
前記１次ユーザ意図が、前記ディスプレイ上に表示されたユーザインタフェースであって、前記ユーザインタフェースが、複数のメディアアイテムを含む、ユーザインタフェースのフォーカスを変更するユーザ意図を含むかどうかを判定させ、
前記１次ユーザ意図が、前記ディスプレイ上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図を含むという判定に従って、前記ユーザインタフェースのフォーカスを、前記複数のメディアアイテムのうちの第１のメディアアイテムから前記複数のメディアアイテムのうちの第２のメディアアイテムに変更させる、
請求項１５に記載の非一時的コンピュータ可読媒体。
［請求項２０］
前記１次ユーザ意図が、前記ディスプレイ上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図を含むかどうか判定することは、
前記メディアに関係する要求が、前記ディスプレイ上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図に対応する単語又はフレーズを含むかどうかを判定することを含む、請求項１９に記載の非一時的コンピュータ可読媒体。
［請求項２１］
前記ユーザインタフェースが、前記ユーザインタフェース中の前記複数のメディアアイテムに対応する複数のテキストを含み、前記１次ユーザ意図が、前記ディスプレイ上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図を含むかどうかの前記判定は、前記複数のテキストに基づく、請求項１９に記載の非一時的コンピュータ可読媒体。
［請求項２２］
前記命令は、前記１つ以上のプロセッサに、更に、
前記オーディオ入力を受信している間に、
前記オーディオ入力の受信部分に基づいて、仮のユーザ意図を判定させ、
前記仮のユーザ意図を満たすのに必要なデータを特定させ、
前記仮のユーザ意図の判定時に、前記データが、前記メディアシステム上に記憶されているかどうかを判定させ、
前記仮のユーザ意図の判定時に、前記メディアシステム上に前記データが記憶されていないという判定に従って、前記データを取得させる、
請求項１に記載の非一時的コンピュータ可読媒体。
［請求項２３］
メディアシステムのデジタルアシスタントを動作させる方法であって、
１つ以上のプロセッサ及びメモリを含む１つ以上の電子デバイスにおいて、
メディアアイテムの１次セットをディスプレイ上に表示することと、
ユーザ入力を検出したことに応じて、自然言語発語形式のメディアに関係する要求を包含するオーディオ入力を受信することと、
前記メディアに関係する要求に対応する１次ユーザ意図を判定すること、
前記１次ユーザ意図が、前記メディアアイテムの１次セットに対応する１次メディア検索クエリを絞り込むユーザ意図を含むかどうかを判定することと、
前記１次ユーザ意図が、前記１次メディア検索クエリを絞り込むユーザ意図を含むという判定に従って、
前記メディアに関係する要求及び前記１次メディア検索クエリに基づいて、前記１次ユーザ意図に対応する第２の１次メディア検索クエリを生成することと、
前記第２の１次メディア検索クエリを実行して、メディアアイテムの第２の１次セットを取得することと、
前記メディアアイテムの１次セットの表示を、前記メディアアイテムの第２の１次セットの表示と入れ替えることと、
を含む方法。
［請求項２４］
前記１次ユーザ意図が、前記１次メディア検索クエリを絞り込むユーザ意図を含まないという判定に従って、
前記１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を含むかどうかを判定することと、
前記１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を含むという判定に従って、
前記メディアに関係する要求に基づいて、前記１次ユーザ意図に対応する第３の１次メディア検索クエリを生成することと、
前記第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得できるかどうかを判定することと、
前記第３の１次メディア検索クエリに対応する少なくとも１つのメディアアイテムを取得できるという判定に従って、
前記第３の１次メディア検索クエリを実行して、メディアアイテムの第３の１次セットを取得することと、
前記メディアアイテムの１次セットの表示を、前記メディアアイテムの第３の１次セットの表示と入れ替えることと、
を更に含む、請求項２３に記載の方法。
［請求項２５］
前記１次ユーザ意図が、前記１次メディア検索クエリを絞り込むユーザ意図を含まないという判定に従って、
前記１次ユーザ意図及び１つ以上の以前のユーザ意図に基づいて、１つ以上の２次ユーザ意図を判定することであって、前記１つ以上の以前のユーザ意図が、前記メディアに関係する要求よりも前に受信した１つ以上の以前のメディアに関係する要求に対応する、１つ以上の２次ユーザ意図を判定することと、
前記１つ以上の２次ユーザ意図に対応する１つ以上の２次メディア検索クエリを生成することと、
前記１つ以上の２次メディア検索クエリを実行して、メディアアイテムの１つ以上の２次セットを取得することと、
前記メディアアイテムの１つ以上の２次セットを、前記ディスプレイ上に表示することと、
を更に含む、請求項２４に記載の方法。
［請求項２６］
前記１次ユーザ意図と前記１つ以上の以前のユーザ意図との１つ以上の組み合わせを判定することであって、前記１つ以上の組み合わせの各々が、少なくとも１つのメディアアイテムと関連付けられ、前記１つ以上の２次意図が、前記１つ以上の組み合わせを含む、１つ以上の組み合わせを判定することを更に含む、請求項２５に記載の方法。
［請求項２７］
前記１次ユーザ意図が、新たなメディア検索クエリを実行するユーザ意図を含まないという判定に従って、
前記１次ユーザ意図が、前記１次メディア検索クエリの一部分を訂正するユーザ意図を含むかどうかを判定することと、
前記１次ユーザ意図が、前記１次メディア検索クエリの一部分を訂正するユーザ意図を含むという判定に従って、
前記メディアに関係する要求及び前記１次メディア検索クエリ要求に基づいて、前記１次ユーザ意図に対応する第５の１次メディア検索クエリを生成することと、
前記第５の１次メディア検索クエリを実行して、メディアアイテムの第５の１次セットを取得することと、
前記メディアアイテムの１次セットの表示を、前記メディアアイテムの第５の１次セットの表示と入れ替えることと、
を更に含む、請求項２４に記載の方法。
［請求項２８］
前記１次ユーザ意図が、前記１次メディア検索クエリの一部分を訂正するユーザ意図を含まないという判定に従って、
前記１次ユーザ意図が、前記ディスプレイ上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図を含むかどうかを判定することであって、前記ユーザインタフェースが、複数のメディアアイテムを含む、ことと、
前記１次ユーザ意図が、前記ディスプレイ上に表示されたユーザインタフェースのフォーカスを変更するユーザ意図を含むという判定に従って、前記複数のメディアアイテムのうちの第１のメディアアイテムから、前記複数のメディアアイテムのうちの第２のメディアアイテムに前記ユーザインタフェースのフォーカスを変更することと、
を含む、請求項２７に記載の方法。
［請求項２９］
メディアシステムのデジタルアシスタントを動作させるための電子デバイスであって、
１つ以上のプロセッサと、
命令を記憶するメモリと、
を備え、前記命令は、前記プロセッサによって実行されると、前記１つ以上のプロセッサに、
メディアアイテムの１次セットをディスプレイ上に表示させ、
ユーザ入力を検出したことに応じて、自然言語発語形式のメディアに関係する要求を包含するオーディオ入力を受信させ、
前記メディアに関係する要求に対応する１次ユーザ意図を判定させ、
前記１次ユーザ意図が、前記メディアアイテムの１次セットに対応する１次メディア検索クエリを絞り込むユーザ意図を含むかどうかを判定させ、
前記１次ユーザ意図が、前記１次メディア検索クエリを絞り込むユーザ意図を含むという判定に従って、
前記メディアに関係する要求及び前記１次メディア検索クエリに基づいて、前記１次ユーザ意図に対応する第２の１次メディア検索クエリを生成させ、
前記第２の１次メディア検索クエリを実行して、メディアアイテムの第２の１次セットを取得させ、
前記メディアアイテムの１次セットの表示を、前記メディアアイテムの第２の１次セットの表示と入れ替えさせる、
電子デバイス。

［書類名］要約書
［要約］
メディア環境においてデジタルアシスタントを動作させるためのシステム及びプロセスが開示される。例示的なプロセスでは、メディアアイテムの１次セットを表示することができる。メディアに関係する要求を包含するオーディオ入力を受信することができる。メディアに関係する要求に対応する１次ユーザ意図を判定することができる。１次ユーザ意図が、メディアアイテムの１次セットに対応する１次メディア検索クエリを絞り込むユーザ意図を備えるという判定に従って、１次ユーザ意図に対応する第２の１次メディア検索クエリを生成することができる。第２の１次メディア検索クエリは、メディアに関係する要求及び１次メディア検索クエリに基づくことができる。第２の１次メディア検索クエリを実行して、メディアアイテムの第２の１次セットを取得することができる。メディアアイテムの１次セットの表示を、メディアアイテムの第２の１次セットの表示と入れ替えることができる。

［書類名］図面
［図１］
［図２］
［図３］
［図４Ａ］
［図４Ｂ］
［図４Ｃ］
［図５Ａ］
［図５Ｂ］
［図５Ｃ］
［図５Ｄ］
［図５Ｅ］
［図６Ａ］
［図６Ｂ］
［図６Ｃ］
［図６Ｄ］
［図６Ｅ］
［図６Ｆ］
［図６Ｇ］
［図６Ｈ］
［図６Ｉ］
［図６Ｊ］
［図６Ｋ］
［図７］

ＴＶユーザ対話のためのインテリジェント自動アシスタント
［関連出願の相互参照］
［０００１］
本出願は、２０１４年６月３０日付けで出願された「ＩＮＴＥＬＬＩＧＥＮＴＡＵＴＯＭＡＴＥＤＡＳＳＩＳＴＡＮＴＦＯＲＴＶＵＳＥＲＩＮＴＥＲＡＣＴＩＯＮＳ」と題する米国特許仮出願第６２／０１９，３１２号、及び２０１４年９月２６日付けで出願された「ＩＮＴＥＬＬＩＧＥＮＴＡＵＴＯＭＡＴＥＤＡＳＳＩＳＴＡＮＴＦＯＲＴＶＵＳＥＲＩＮＴＥＲＡＣＴＩＯＮＳ」と題する米国特許出願第１４／４９８，５０３号に基づく優先権を主張し、これらの出願は、あらゆる目的のためにその全体が参照として本明細書に組み込まれる。
［０００２］
本出願はまた、同時係属中の、２０１４年６月３０日付けで出願された「ＲＥＡＬ−ＴＩＭＥＤＩＧＩＴＡＬＡＳＳＩＳＴＡＮＴＫＮＯＷＬＥＤＧＥＵＰＤＡＴＥＳ」と題する米国特許出願第６２／０１９，２９２号（代理人書類番号１０６８４３０９７９００（Ｐ２２４９８ＵＳＰ１））に関し、この出願は、その全体が参照として本明細書に組み込まれる。
［技術分野］
［０００３］
本出願は、概して、テレビユーザ対話を制御することに関し、より詳細には、テレビユーザ対話を制御するために、仮想アシスタントに対する発語を処理することに関する。
［背景技術］
［０００４］
インテリジェント自動アシスタント（又は仮想アシスタント）は、ユーザと電子デバイスとの間の直観的なインタフェースを提供する。これらのアシスタントは、ユーザが、口頭形態及び／又はテキスト形態の自然言語を使用してデバイス又はシステムと対話することを可能にすることができる。例えば、ユーザは、電子デバイスと関連付けられた仮想アシスタントに、自然言語形態の口頭ユーザ入力を提供することによって、電子デバイスのサービスにアクセスすることができる。仮想アシスタントは、ユーザの意図を推測し、ユーザの意図をタスクへと操作できるようにするために、口頭ユーザ入力に対して自然言語処理を実行することができる。次いで、電子デバイスの１つ以上の機能を実行することによってタスクを実行することができ、いくつかの実施例では、関連する出力を自然言語形態でユーザに戻すことができる。
［０００５］
携帯電話（例えば、スマートフォン）、タブレットコンピュータなどが、仮想アシスタント制御から恩恵を受ける一方で、多くの他のユーザデバイスには、そのような便利な制御機構がない。例えば、メディア制御デバイス（例えば、テレビ、テレビセットトップボックス、ケーブルボックス、ゲームデバイス、ストリーミングメディアデバイス、デジタルビデオレコーダなど）とのユーザ対話の学習は、複雑で難しいことがある。更に、そのようなデバイス（例えば、オーバージエアＴＶ、サブスクリプションＴＶサービス、ストリーミングビデオサービス、ケーブルオンデマンドビデオサービス、ウェブベースのビデオサービスなど）を介して利用可能なソースが増えると、一部のユーザには、消費する所望のメディアコンテンツを発見することが煩雑で、面倒でさえあり得る。その結果、多くのメディア制御デバイスは、ユーザエクスペリエンスを低下させ、多くのユーザを失望させることがある。
［発明の概要］
［０００６］
仮想アシスタントを使用してテレビ対話を制御するためのシステム及びプロセスを開示する。１つの実施例では、ユーザからの発語入力を受信することができる。その発語入力に基づいて、メディアコンテンツを判定することができる。第１のサイズを有する第１のユーザインタフェースを表示することができ、第１のユーザインタフェースは、メディアコンテンツに選択可能なリンクを含むことができる。選択可能なリンクのうちの１つの選択を受信することができる。その選択に応じて、第１のサイズよりも大きい第２のサイズを有する第２のユーザインタフェースを表示することができ、第２のユーザインタフェースは、その選択と関連付けられたメディアコンテンツを備える。
［０００７］
別の実施例では、第１のディスプレイを有する第１のデバイスにおいて、ユーザからの発語入力を受信することができる。第１のディスプレイ上に表示されたコンテンツに基づいて、この発語入力のユーザの意図を判定することができる。そのユーザ意図に基づいて、メディアコンテンツを判定することができる。第２のディスプレイと関連付けられた第２のデバイス上で、このメディアコンテンツを再生することができる。
［０００８］
別の実施例では、ユーザからの発語入力を受信することができ、その発語入力は、テレビディスプレイ上に表示されたコンテンツと関連付けられたクエリを含むことができる。テレビディスプレイ上に表示されたコンテンツのうちの１つ以上とメディアコンテンツの閲覧履歴とに基づいて、クエリのユーザ意図を判定することができる。判定したユーザ意図に基づいて、クエリの結果を表示することができる。
［０００９］
別の実施例では、ディスプレイ上にメディアコンテンツを表示することができる。ユーザからの入力を受信することができる。メディアコンテンツ及び／又はメディアコンテンツの閲覧履歴に基づいて、仮想アシスタントクエリを判定することができる。推薦された仮想アシスタントクエリをディスプレイ上に表示することができる。
［図面の簡単な説明］
［００１０］
［図１］仮想アシスタントを使用してテレビユーザ対話を制御するための例示的なシステムを示す図である。
［００１１］
［図２］種々の実施例に係る、例示的なユーザデバイスのブロック図である。
［００１２］
［図３］テレビユーザ対話を制御するためのシステムにおける例示的なメディア制御デバイスのブロック図である。
［００１３］
［図４Ａ］動画コンテンツ上の例示的な発語入力インタフェースを示す図である。
［図４Ｃ］動画コンテンツ上の例示的な発語入力インタフェースを示す図である。
［図４Ｄ］動画コンテンツ上の例示的な発語入力インタフェースを示す図である。
［図４Ｅ］動画コンテンツ上の例示的な発語入力インタフェースを示す図である。
［００１４］
［図５］動画コンテンツ上の例示的なメディアコンテンツインタフェースを示す。
［００１５］
［図６Ａ］動画コンテンツ上の例示的なメディア詳細インタフェースを示す図である。
［図６Ｂ］動画コンテンツ上の例示的なメディア詳細インタフェースを示す図である。
［００１６］
［図７Ａ］例示的なメディア遷移インタフェースを示す図である。
［図７Ｂ］例示的なメディア遷移インタフェースを示す図である。
［００１７］
［図８Ａ］メニューコンテンツ上の例示的な発語入力インタフェースを示す図である。
［図８Ｂ］メニューコンテンツ上の例示的な発語入力インタフェースを示す図である。
［００１８］
［図９］メニューコンテンツ上の例示的な仮想アシスタント結果インタフェースを示す図である。
［００１９］
［図１０］仮想アシスタントを使用してテレビ対話を制御し、異なるインタフェースを使用して関連付けられた情報を表示するための例示的なプロセスを示す図である。
［００２０］
［図１１］モバイルユーザデバイス上の例示的なテレビメディアコンテンツを示す図である。
［００２１］
［図１２］仮想アシスタントを使用した例示的なテレビ制御を示す図である。
［００２２］
［図１３］モバイルユーザデバイス上の例示的な写真及び動画コンテンツを示す図である。
［００２３］
［図１４］仮想アシスタントを使用した例示的なメディア表示制御を示す図である。
［００２４］
［図１５］モバイルユーザデバイス及びメディア表示デバイス上の結果を備える例示的な仮想アシスタント対話を示す図である。
［００２５］
［図１６］メディア表示デバイス及びモバイルユーザデバイス上のメディア結果を備える例示的な仮想アシスタント対話を示す図である。
［００２６］
［図１７］近接度に基づく例示的なメディアデバイス制御を示す図である。
［００２７］
［図１８］仮想アシスタント及び複数のユーザデバイスを使用してテレビ対話を制御するための例示的なプロセスを示す図である。
［００２８］
［図１９］動画バックグラウンドコンテンツに関する仮想アシスタントクエリを備える例示的な発語入力インタフェースを示す図である。
［００２９］
［図２０］動画コンテンツ上の例示的な情報仮想アシスタント応答を示す図である。
［００３０］
［図２１］動画バックグラウンドコンテンツと関連付けられたメディアコンテンツについての仮想アシスタントクエリを備える例示的な発語入力インタフェースを示す図である。
［００３１］
［図２２］選択可能なメディアコンテンツを備える例示的な仮想アシスタント応答インタフェースを示す図である。
［００３２］
［図２３Ａ］プログラムメニューの例示的なページを示す図である。
［図２３Ｂ］プログラムメニューの例示的なページを示す図である。
［００３３］
［図２４］カテゴリーに分けられた例示的なメディアメニューを示す図である。
［００３４］
［図２５］ディスプレイ上の示されたメディアコンテンツとメディアコンテンツの閲覧履歴とを使用して、テレビ対話を制御するための例示的なプロセスを示す図である。
［００３５］
［図２６］動画バックグラウンドコンテンツに基づく仮想アシスタントクエリ推薦を備える例示的なインタフェースを示す図である。
［００３６］
［図２７］推薦されたクエリの選択を確認するための例示的なインタフェースを示す図である。
［００３７］
［図２８Ａ］選択されたクエリに基づく例示的な仮想アシスタント回答インタフェースを示す図である。
［図２８Ｂ］選択されたクエリに基づく例示的な仮想アシスタント回答インタフェースを示す図である。
［００３８］
［図２９］メディアコンテンツ通知、及びその通知に基づく仮想アシスタントクエリ推薦を備える例示的なインタフェースを示す図である。
［００３９］
［図３０］メディア制御デバイス上で再生可能な例示的な写真及び動画コンテンツを備えるモバイルユーザデバイスを示す図である。
［００４０］
［図３１］再生可能なユーザデバイスコンテンツに基づき、かつ、別個のディスプレイ上に表示される動画コンテンツに基づく仮想アシスタントクエリ推薦を備える例示的なモバイルユーザデバイスインタフェースを示す図である
［００４１］
［図３２］別個のユーザデバイスからの再生可能なコンテンツに基づく仮想アシスタントクエリ推薦を備える例示的なインタフェースを示す図である。
［００４２］
［図３３］メディアコンテンツを制御するための仮想アシスタント対話を推薦するための例示的なプロセスを示す図である。
［００４３］
［図３４］種々の実施例に係る、仮想アシスタントを使用してテレビ対話を制御し、異なるインタフェースを使用して関連情報を表示するように構成される電子デバイスの機能ブロック図を示す図である。
［００４４］
［図３５］種々の実施例に係る、仮想アシスタントと複数のユーザデバイスとを使用してテレビ対話を制御するように構成される電子デバイスの機能ブロック図を示す図である。
［００４５］
［図３６］種々の実施例に係る、ディスプレイ上に表示されたメディアコンテンツとメディアコンテンツの閲覧履歴とを使用してテレビ対話を制御するように構成される電子デバイスの機能ブロック図を示す図である。
［００４６］
［図３７］種々の実施例に係る、メディアコンテンツを制御するための仮想アシスタント対話を推薦するように構成された電子デバイスの機能ブロック図を示す図である。
［発明を実施するための形態］
［００４７］
以下の実施例の説明では、実践することが可能な特定の実施例が例示として示される、添付図面を参照する。様々な実施例の範囲から逸脱することなく、他の実施例を使用することができ、構造上の変更を実施することができる点を理解されたい。
［００４８］
これは、仮想アシスタントを使用してテレビユーザ対話を制御するためのシステム及びプロセスに関する。１つの実施例では、テレビディスプレイ上に表示されるコンテンツを制御するテレビセットトップボックスなどのメディア制御デバイスと対話するために、仮想アシスタントを使用することができる。仮想アシスタントのための発語入力を受信するために、マイクロフォンを備えるモバイルユーザデバイス又は遠隔制御を使用することができる。発語入力からユーザの意図を判定することができ、仮想アシスタントは、接続されたテレビ上でメディアを再生させること、及びテレビセットトップボックス又は同様のデバイスの任意の他の機能を制御すること（例えば、ビデオ録画を管理すること、メディアコンテンツ検索すること、メニューをナビゲートすることなど）を含む、ユーザの意図に従ったタスクを実行することができる。
［００４９］
仮想アシスタント対話は、接続されたテレビ又は他のディスプレイ上に表示することができる。１つの実施例では、ユーザから受信した発語入力に基づいて、メディアコンテンツを判定することができる。判定したメディアコンテンツへの選択可能なリンクを含む、第１の小さいサイズの第１のユーザインタフェースを表示することができる。メディアリンクの選択を受信した後、その選択と関連付けられたメディアコンテンツを含む、第２のより大きなサイズの第２のユーザインタフェースを表示することができる。他の実施例では、仮想アシスタント対話を伝達するため使用されるインタフェースは、所望の情報を伝達しながら、占有スペースを最小量にするように拡大又は縮小することができる。
［００５０］
いくつかの実施例では、複数のディスプレイと関連付けられた複数のデバイスを使用して、発語入力からユーザ意図を判定するだけでなく、種々のやり方でユーザに情報を伝達することができる。例えば、第１のディスプレイを有する第１のデバイスにおいて、ユーザからの発語入力を受信することができる。第１のディスプレイ上に表示されたコンテンツに基づいて、発語入力からユーザの意図を判定することができる。そのユーザ意図に基づいて、メディアコンテンツを判定することができ、第２のディスプレイと関連付けられた第２のデバイス上で、そのメディアコンテンツを再生することができる。
［００５１］
また、発語入力からユーザ意図を判定するために、テレビディスプレイコンテンツをコンテキスト入力として使用することもできる。例えば、ユーザから、テレビディスプレイ上に表示されたコンテンツと関連付けられたクエリを含む発語入力を受信することができる。テレビディスプレイ上に表示されたコンテンツ、並びにテレビディスプレイ上のメディアコンテンツの閲覧履歴に基づいて、クエリのユーザ意図を判定する（例えば、再生中のＴＶ番組におけるキャラクターに基づいてクエリの曖昧性を回避する）ことができる。次いで、判定したユーザ意図に基づいて、クエリの結果を表示することができる。
［００５２］
いくつかの実施例では、仮想アシスタントクエリ推薦をユーザに提供することができる（例えば、利用可能なコマンドをユーザに知らせる、面白いコンテンツを推薦する、など）。例えば、ディスプレイ上にメディアコンテンツを表示することができ、ユーザから、仮想アシスタントクエリ推薦を要求する入力を受信することができる。ディスプレイ上に表示されたメディアコンテンツとディスプレイ上に表示されたメディアコンテンツの閲覧履歴とに基づいて、仮想アシスタントクエリーズ推薦を判定することができる（例えば、再生中のＴＶ番組に関するクエリを推薦する）。次いで、推薦された仮想アシスタントクエリをディスプレイ上に表示することができる。
［００５３］
本明細書で論じる種々の実施例に従って、仮想アシスタントを使用してテレビユーザ対話を制御すると、効率的で楽しいユーザエクスペリエンスを提供することができる。自然言語クエリ又はコマンドを受信することが可能な仮想アシスタントを使用すると、メディア制御デバイスとのユーザ対話を直観的かつ単純にすることができる。所望に応じて、コンテンツを再生することに基づく有意味なクエリ推薦を含めて、利用可能な機能をユーザに推薦することができ、これは、ユーザが制御能力を学習するのに役立ち得る。更に、直観的な口頭コマンドを使用すると、利用可能なメディアに簡単にアクセスできるようにすることができる。ただし、本明細書で論じる種々の実施例によれば、更に多くの他の利点を達成できることを理解されたい。
［００５４］
図１は、仮想アシスタントを使用してテレビユーザ対話を制御するための例示的なシステム１００を示す。本明細書で論じるようにテレビユーザ対話を制御することは、１つの種類のディスプレイ技術に基づいたメディアの制御の一例にすぎず、参照のために使用されるものであり、本明細書で論じる概念を使用して、一般的には種々のデバイス及び関連付けられたディスプレイ（例えば、モニタ、ラップトップディスプレイ、デスクトップコンピュータディスプレイ、モバイルユーザデバイスディスプレイ、プロジェクタディスプレイなど）のいずれかの上などで、任意のメディアコンテンツ対話を制御できることを理解されたい。したがって、用語「テレビ」は、種々のデバイスのうちのいずれかと関連付けられる任意の種類のディスプレイを指すことができる。更に、用語「仮想アシスタント」、「デジタルアシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、口頭及び／又はテキスト形式の自然言語入力を解釈してユーザ意図を推測し、推測されたユーザ意図に基づきアクションを実行する任意の情報処理システムを指すことができる。例えば、推定されたユーザ意図に基づいてアクションを行うために、システムは、以下のうちの１つ以上を実行することができる。すなわち、推定されたユーザ意図を果たすように設計されるステップ及びパラメータを有するタスクフローを識別すること、推定されたユーザ意図から具体的な要求をタスクフローに入力すること、プログラム、方法、サービス、ＡＰＩなどを呼び出すことによりタスクフローを実行すること、並びにユーザへの出力応答を聴覚形態（例えば、口頭形態）及び／又は視覚形態で生成することである。
［００５５］
仮想アシスタントは、自然言語コマンド、要求、陳述、叙述、及び／又は照会の形で少なくとも部分的にユーザ要求を受け入れることができる。典型的には、ユーザ要求は、（例えば、特定の媒体を表示させる）仮想アシスタントによる、情報回答又はタスクの実行のいずれかを要求する。ユーザの要求に対する満足な応答は、要求された情報回答を提供すること、要求されたタスクを実行すること、又はその２つの組み合わせを含むことができる。例えば、ユーザは仮想アシスタントに「私は今どこにいますか？」などの質問をすることができる。ユーザの現在の場所に基づき、仮想アシスタントは、「あなたはセントラルパーク内にいます」と回答することができる。ユーザはまた、例えば、「今日午後４時に母に電話することを私に思い出させてください」と、タスクの実行を要求することができる。それに応じて、仮想アシスタントは要求を確認し、次に、ユーザの電子スケジュール内に適当なリマインダ項目を作成することができる。要求されたタスクの実行中、仮想アシスタントは、時には、長時間にわたって情報を複数回交換する連続的なダイアログにおいて、ユーザと対話することができる。情報又は種々のタスクの実行を要求するために仮想アシスタントと対話するやり方は他にも数多く存在する。言葉による応答を提供し、プログラムされたアクションを取ることに加えて、仮想アシスタント、他の視覚形態又はオーディオ形態の応答を（例えば、テキスト、アラート、音楽、動画、アニメーションなどとして）提供することもできる。更に、本明細書で説明するように、例示的な仮想アシスタントは、メディアコンテンツの再生を制御する（例えば、テレビで動画を再生する）ことができ、ディスプレイ上に情報を表示させることができる。
［００５６］
仮想アシスタントの１つの例が、その開示全体が参照により本明細書に組み込まれる２０１１年１月１０日付で出願された「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔ」についての本願出願人の米国実用特許出願第１２／９８７，９８２号に記載されている。
［００５７］
図１に示したように、いくつかの実施例では、クライアント−サーバモデルに従って、仮想アシスタントを実装することができる。仮想アシスタントは、ユーザデバイス１０２上で実行されるクライアント側部分と、サーバシステム１１０上で実行されるサーバ側部分とを含むことができる。また、遠隔制御１０６と連携して、テレビセットトップボックス１０４上でクライアント側部分を実行することができる。ユーザデバイス１０２は、携帯電話（例えば、スマートフォン）、タブレットコンピュータ、ポータブルメディアプレーヤ、デスクトップコンピュータ、ラップトップコンピュータ、ＰＤＡ、ウェアラブル電子デバイス（例えば、デジタルグラス、リストバンド、腕時計、ブローチ、アームバンドなど）のような任意の電子デバイスを含むことができる。テレビセットトップボックス１０４は、ケーブルボックス、衛星ボックス、ビデオプレーヤ、ビデオストリーミングデバイス、デジタルビデオレコーダ、ゲームシステム、ＤＶＤプレーヤ、Ｂｌｕ−ｒａｙ（登録商標）ディスクプレーヤ、そのようなデバイスの組み合わせなどのような任意のメディア制御デバイスを含むことができる。有線接続又は無線接続を介して、ディスプレイ１１２及びスピーカ１１１にテレビセットトップボックス１０４を接続することができる。（スピーカ１１１を有する、又は有しない）ディスプレイ１１２は、テレビディスプレイ、モニタ、プロジェクタなどのような任意の種類のディスプレイとすることができる。いくつかの実施例では、テレビセットトップボックス１０４は、オーディオシステム（例えば、オーディオ受信器）に接続することができ、スピーカ１１１は、ディスプレイ１１２とは別個とすることができる。他の実施例では、ディスプレイ１１２と、スピーカ１１１と、テレビセットトップボックス１０４とを、高度な処理能力及びネットワーク接続能力をもつ、スマートテレビなどの単一のデバイスに一緒に組み込むことができる。そのような実施例では、複合デバイス上のアプリケーションとしてテレビセットトップボックス１０４の機能を実行することができる。
［００５８］
いくつかの実施例では、テレビセットトップボックス１０４は、メディアコンテンツの複数の種類及びソースについてのメディア制御センターとして機能することができる。例えば、テレビセットトップボックス１０４は、生放送のテレビ（例えば、オーバージエアテレビ、衛星テレビ、又はケーブルテレビ）へのユーザアクセスを可能にすることができる。したがって、テレビセットトップボックス１０４は、ケーブルチューナ、衛星チューナなどを含むことができる。いくつかの実施例では、テレビセットトップボックス１０４はまた、後でタイムシフト視聴するためにテレビプログラムを録画することができる。他の実施例では、テレビセットトップボックス１０４は、（例えば、種々の無料の、有料の、及びサブスクリプションベースのストリーミングサービスから）ケーブル配信されるオンデマンドのテレビ番組、動画及び音楽、並びにインターネット配信されるテレビ番組、動画及び音楽など、１つ以上のストリーミングメディアサービスへのアクセスを提供することができる。更に他の実施例では、テレビセットトップボックス１０４は、モバイルユーザデバイスから写真を表示すること、結合された記憶デバイスから動画を再生すること、結合された音楽プレーヤから音楽を再生することなど、任意の他のソースからのメディアコンテンツの再生又は表示を可能にすることができる。また、テレビセットトップボックス１０４はまた、所望に応じて、本明細書で論じるメディア制御特徴部の種々の他の組み合わせを含むことができる。
［００５９］
ユーザデバイス１０２及びテレビセットトップボックス１０４は、１つ以上のネットワーク１０８を介してサーバシステム１１０と通信することができ、１つ以上のネットワーク１０８は、インターネット、イントラネット、又は任意の他の有線若しくは無線のパブリック若しくはプライベートネットワークを含むことができる。更に、ユーザデバイス１０２は、ネットワーク１０８を介して、又は、任意の他の有線通信機構又は無線通信機構（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、無線周波数、赤外線伝送など）により直接、テレビセットトップボックス１０４と通信することができる。例示したように、遠隔制御１０６は、ネットワーク１０８を介することを含めて、有線接続、又は任意の種類の無線通信（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、無線周波数、赤外線伝送など）などの任意の種類の通信を使用して、テレビセットトップボックス１０４と通信することができる。いくつかの実施例では、ユーザは、ユーザデバイス１０２、遠隔制御１０６、又はテレビセットトップボックス１０４内に組み込まれるインタフェース要素（例えば、ボタン、マイクロフォン、カメラ、ジョイスティックなど）を介して、テレビセットトップボックス１０４と対話することができる。例えば、ユーザデバイス１０２及び／又は遠隔制御１０６において、仮想アシスタントのためのメディアに関係するクエリ又はコマンドを含む発語入力を受信することができ、その発語入力を使用して、メディアに関係するタスクをテレビセットトップボックス１０４上で実行させることができる。同様に、ユーザデバイス１０２及び／又は遠隔制御１０６において（並びに、図示されていない他のデバイスから）、テレビセットトップボックス１０４上でメディアを制御するための触覚コマンドを受信することができる。したがって、種々のやり方でテレビセットトップボックス１０４の種々の機能を制御することができ、ユーザには、複数のデバイスからのメディアコンテンツを制御するための複数のオプションが与えられる。
［００６０］
遠隔制御１０６を用いてユーザデバイス１０２及び／又はテレビセットトップボックス１０４上で実行される例示的な仮想アシスタントのクライアント側部分は、ユーザ対応入力及び出力処理及びサーバシステム１１０との通信など、クライアント側機能を提供することができる。サーバシステム１１０は、それぞれのユーザデバイス１０２又はそれぞれのテレビセットトップボックス１０４上に常駐している任意の数のクライアントに、サーバ側機能を提供することができる。
［００６１］
サーバシステム１１０は、クライアント対応Ｉ／Ｏインタフェース１２２と、１つ以上の処理モジュール１１８と、データ及びモデルストレージ１２０と、外部サービスへのＩ／Ｏインタフェース１１６とを含むことができる１つ以上の仮想アシスタントサーバ１１４を含むことができる。クライアント対応Ｉ／Ｏインタフェース１２２は、仮想アシスタントサーバ１１４のためのクライアント対応入力及び出力処理を可能にすることができる。１つ以上の処理モジュール１１８は、自然言語入力に基づいてユーザの意図を判断するために、データ及びモデルストレージ１２０を利用することができ、推定されたユーザ意図に基づいてタスク実行を行うことができる。いくつかの実施例では、仮想アシスタントサーバ１１４は、タスク完了又は情報収集のためにネットワーク（単数又は複数）１０８を介して、電話サービス、カレンダーサービス、情報サービス、メッセージングサービス、ナビゲーションサービス、テレビプログラムサービス、ストリーミングメディアサービスなどの外部サービス１２４と通信することができる。外部サービスへのＩ／Ｏインタフェース１１６は、このような通信を可能にすることができる。
［００６２］
サーバシステム１１０は、１つ以上のスタンドアロンデータ処理デバイス、又はコンピュータの分散型ネットワーク上に実装することができる。また、いくつかの実施例では、サーバシステム１１０は、サーバシステム１１０の基本的なコンピューティングリソース及び／又はインフラストラクチャリソースを提供するために、種々の仮想デバイス及び／又はサードパーティサービスプロバイダ（例えば、サードパーティクラウドサービスプロバイダ）のサービスを採用することができる。
［００６３］
仮想アシスタントの機能は、クライアント側部分とサーバ側部分の双方を含むものとして図１に示されているが、いくつかの実施例では、ユーザデバイス、テレビセットトップボックス、スマートテレビなどにインストールされたスタンドアロンアプリケーションとして、アシスタントの機能（又は、一般的には、発語認識及びメディア制御）を実装することができる。更に、異なる実施例にでは、仮想アシスタントのクライアント部分とサーバ部分との間の機能の分配を変動させることができる。例えば、いくつかの実施例では、ユーザデバイス１０２又はテレビセットトップボックス１０４上で実行されるクライアントは、ユーザ対応入力及び出力処理機能のみを提供し、バックエンドサーバに仮想アシスタントの全ての他の機能を委ねるシンクライアントとすることができる。
［００６４］
図２は、種々の実施例に係る、例示的なユーザデバイス１０２のブロック図を示す。ユーザデバイス１０２は、メモリインタフェース２０２、１つ以上のプロセッサ２０４、及び周辺機器インタフェース２０６を含むことができる。１つ以上の通信バス又は信号線によって、ユーザデバイス１０２内の種々の構成要素を１つに結合することができる。ユーザデバイス１０２は、周辺機器インタフェース２０６に結合される種々のセンサ、サブシステム、及び周辺デバイスを更に含むことができる。センサ、サブシステム、及び周辺デバイスは情報を収集し、及び／又はユーザデバイス１０２の種々の機能を可能にすることができる。
［００６５］
例えば、ユーザデバイス１０２は、向き、光、及び近接度の検知機能を可能にするための動きセンサ２１０、光センサ２１２、及び近接センサ２１４を含むことができ、それらは、周辺機器インタフェース２０６に結合される。また、関係する機能を可能にするために、測位システム（例えば、ＧＰＳ受信機）、温度センサ、生体測定センサ、ジャイロスコープ、コンパス、加速度計、及び同様のものなどの、１つ以上の他のセンサ２１６を周辺機器インタフェース２０６に接続することができる。
［００６６］
いくつかの実施例では、カメラサブシステム２２０及び光学センサ２２２を利用して、写真の撮影及びビデオクリップの録画などの、カメラ機能を可能にすることができる。種々の通信ポート、無線周波数受信器及び送信器、並びに／又は光（例えば、赤外線）受信器及び送信器を含むことができ、１つ以上の有線及び／又は無線通信サブシステム２２４を介して、通信機能を可能にすることができる。音声認識機能、音声複製機能、デジタル録音機能、及び電話機能などの音声対応機能を可能にするために、オーディオサブシステム２２６をスピーカ２２８及びマイクロフォン２３０に結合することができる。
［００６７］
いくつかの実施例では、ユーザデバイス１０２は、周辺機器インタフェース２０６に結合されたＩ／Ｏサブシステム２４０を更に含むことができる。Ｉ／Ｏサブシステム２４０は、タッチスクリーンコントローラ２４２及び／又は他の入力コントローラ（単数又は複数）２４４を含むことができる。タッチスクリーンコントローラ２４２は、タッチスクリーン２４６に結合することができる。タッチスクリーン２４６及びタッチスクリーンコントローラ２４２は、例えば、容量性、抵抗性、赤外線、表面弾性波技術、近接センサアレイなどの複数のタッチ感知技術のうちのいずれかを用いて、接触及びその移動又は中断を検出することができる。他の入力コントローラ（単数又は複数）２４４は、１つ以上のボタン、ロッカスイッチ、サムホイール、赤外線ポート、ＵＳＢポート、及び／又はスタイラスなどのポインタデバイスなど、他の入力／制御デバイス２４８に結合することができる。
［００６８］
いくつかの実施例では、ユーザデバイス１０２は、メモリ２５０に結合されたメモリインタフェース２０２を更に含むことができる。メモリ２５０は、任意の、電子、磁気、光学、電磁、赤外若しくは半導体システム、装置若しくはデバイス、ポータブルコンピュータディスケット（磁気）、ランダムアクセスメモリ（ＲＡＭ）（磁気）、読み出し専用メモリ（ＲＯＭ）（磁気）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）（磁気）、ＣＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ、ＤＶＤ−Ｒ若しくはＤＶＤ−ＲＷなどのポータブル光ディスク、又はコンパクトフラッシュカード、セキュアなデジタルカード、ＵＳＢメモリデバイス、メモリースティックなどのフラッシュメモリなどを含むことができる。いくつかの実施例では、メモリ２５０の非一時的コンピュータ可読記憶媒体を使用して、コンピュータベースのシステム、プロセッサを含むシステム、又は、命令実行システム、装置、若しくはデバイスから命令をフェッチし、それらの命令を実行することができる他のシステムなどの、命令実行システム、装置、若しくはデバイスによって、又はそれらと共に使用するための（例えば、本明細書で説明する種々のプロセスの一部分又は全部を実行する）命令を記憶することができる。他の実施例では、（例えば、本明細書で説明する種々のプロセスの一部分又は全部を実行する）命令は、サーバシステム１１０の非一時的コンピュータ可読記憶媒体上に記憶されても、あるいはメモリ２５０の非一時的コンピュータ可読記憶媒体とサーバシステム１１０の非一時的コンピュータ可読記憶媒体とに分割してもよい。本文書のコンテキストでは、「非一時的コンピュータ可読記憶媒体」は、命令実行システム、装置、若しくはデバイスによって、又はそれらに関連して使用するためのプログラムを、含むか又は記憶することが可能な、任意の媒体とすることができる。
［００６９］
いくつかの実施例では、メモリ２５０は、オペレーティングシステム２５２、通信モジュール２５４、グラフィカルユーザインタフェースモジュール２５６、センサ処理モジュール２５８、電話モジュール２６０、及びアプリケーション２６２を記憶することができる。オペレーティングシステム２５２は、基本システムサービスを処理する命令、及びハードウェア依存タスクを実行する命令を含むことができる。通信モジュール２５４は、１つ以上の追加のデバイス、１つ以上のコンピュータ及び／又は１つ以上のサーバとの通信を可能にすることができる。グラフィカルユーザインタフェースモジュール２５６はグラフィックユーザインタフェース処理を可能にすることができる。センサ処理モジュール２５８はセンサに関係する処理及び機能を可能にすることができる。電話モジュール２６０は電話に関係するプロセス及び機能を可能にすることができる。アプリケーションモジュール２６２は、電子メッセージング、ウェブブラウジング、メディア処理、ナビゲーション、イメージング及び／又はその他のプロセス及び機能などの、ユーザアプリケーションの種々の機能性を可能にすることができる。
［００７０］
本明細書で説明するように、メモリ２５０はまた、例えば仮想アシスタントのクライアント側機能を提供するために、（例えば、仮想アシスタントクライアントモジュール２６４内の）クライアント側仮想アシスタント命令、並びに種々のユーザデータ２６６（例えば、ユーザ固有の語彙データ、設定データ、及び／若しくはユーザの電子アドレス帳、ｔｏ−ｄｏリスト、買い物リスト、テレビプログラムの好みなど）も記憶することができる。また、ユーザデータ２６６は、仮想アシスタントをサポートする、又は任意の他のアプリケーションについての発語認識を実行する際に使用することができる。
［００７１］
種々の実施例では、仮想アシスタントクライアントモジュール２６４は、ユーザデバイス１０２の種々のユーザインタフェース（例えば、Ｉ／Ｏサブシステム２４０、オーディオサブシステム２２６など）を通じて音声入力（例えば、発語入力）、テキスト入力、タッチ入力、及び／又はジェスチャ入力を受け入れる能力を有することができる。仮想アシスタントトクライアントモジュール２６４はまた、オーディオ（例えば、発語出力）形態、視覚形態、及び／又は触覚形態の出力を提供する能力も有することができる。例えば、出力は、音声、音響、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び／又は上記のもののうちの２つ以上の組み合わせとして提供することができる。動作時、仮想アシスタントクライアントモジュール２６４は、通信サブシステム２２４を用いて仮想アシスタントサーバと通信することができる。
［００７２］
いくつかの実施例では、仮想アシスタントクライアントモジュール２６４は、ユーザ、現在のユーザ対話及び／又は現在のユーザ入力と関連付けられたコンテキストを確立するために、種々のセンサ、サブシステム及び周辺デバイスを利用してユーザデバイス１０２の周囲環境から追加情報を収集することができる。そのようなコンテキストはまた、テレビセットトップボックス１０４からの情報など、他のデバイスからの情報を含むことができる。いくつかの実施例では、仮想アシスタントクライアントモジュール２６４は、ユーザの意図の推測を助けるために、ユーザ入力と共にコンテキスト情報又はそのサブセットを仮想アシスタントサーバに提供することができる。仮想アシスタントはまた、コンテキスト情報を使用して、ユーザへの出力をどのように準備し、配信するのかを判定することができる。更に、正確な発語認識をサポートするために、ユーザデバイス１０２又はサーバシステム１１０によりコンテキスト情報を使用することができる。
［００７３］
いくつかの実施例では、ユーザ入力に付随するコンテキスト情報は、照明、環境ノイズ、周囲温度、周囲環境の画像又は動画、他のオブジェクトまでの距離などの、センサ情報を含むことができる。コンテキスト情報は、ユーザデバイス１０２の物理状態（例えば、デバイスの向き、デバイスの位置、デバイスの温度、電力レベル、速度、加速度、モーションパターン、セルラー信号強度など）、又はユーザデバイス１０２のソフトウェア状態（例えば、実行中の処理、インストールされているプログラム、過去及び現在のネットワークアクティビティ、バックグラウンドサービス、エラーログ、リソース使用など）と関連付けられた情報を更に含むことができる。コンテキスト情報は、接続されたデバイス又はユーザと関連付けられた他のデバイスの状態と関連付けられた情報（例えば、テレビセットトップボックス１０４により表示されたメディアコンテンツ、テレビセットトップボックス１０４が利用可能なメディアコンテンツなど）を更に含むことができる。これらの種類のコンテキスト情報のうちのいずれかを、ユーザ入力と関連付けられたコンテキスト情報として、仮想アシスタントサーバ１１４に提供することができる（あるいは、ユーザデバイス１０２自体で使用することができる）。
［００７４］
いくつかの実施例では、仮想アシスタントクライアントモジュール２６４は、仮想アシスタントサーバ１１４からの要求に応じて、ユーザデバイス１０２に記憶された情報（例えば、ユーザデータ２６６）を選択的に提供することができる（あるいは、発語認識及び／又は仮想アシスタント機能を実行する際にユーザデバイス１０２自体で使用することができる）。仮想アシスタントクライアントモジュール２６４はまた、仮想アシスタントサーバ１１４による要求時に、自然言語ダイアログ又は他のユーザインタフェースを介して、ユーザからの追加入力も引き出すことができる。仮想アシスタントクライアントモジュール２６４は、意図推測及び／又はユーザ要求内に表されているユーザの意図の達成において仮想アシスタントサーバ１１４を助けるために、追加入力を仮想アシスタントサーバ１１４に渡すことができる。
［００７５］
種々の実施例では、メモリ２５０は追加の命令又はより少数の命令を含むことができる。更に、ユーザデバイス１０２の種々の機能は、１つ以上の信号処理回路及び／又は特定用途向け集積回路の形態を含む、ハードウェアの形態及び／又はファームウェアの形態で実装され得る。
［００７６］
図３は、テレビユーザ対話を制御するためのシステム３００における例示的なテレビセットトップボックス１０４のブロック図である。システム３００は、システム１００の要素のサブセットを含むことができる。いくつかの実施例では、システム３００は、ある特定の機能のみを実行することができ、他の機能を実行するために、システム１００の他の要素と一緒に機能することができる。例えば、システム３００の要素は、サーバシステム１１０と対話することなく、ある特定のメディア制御機能（例えば、ローカルに記憶されたメディアの再生、録画機能、チャンネル同調など）を処理することができ、システム３００は、システム１００のサーバシステム１１０及び他の要素と連携して、他のメディア制御機能（例えば、遠隔に記憶されたメディアの再生、メディアコンテンツのダウンロード、ある特定の仮想アシスタントクエリの処理など）を処理することができる。他の実施例では、システム３００の要素は、ネットワークを介して外部サービス１２４にアクセスすることを含む、より大きいシステム１００の機能を実行することができる。種々の他の方法で、ローカルデバイスとリモートサーバデバイスとで機能を分配してもよいことを理解されたい。
［００７７］
図３に示すように、１つの実施例では、テレビセットトップボックス１０４は、メモリインタフェース３０２、１つ以上のプロセッサ３０４、及び周辺機器インタフェース３０６を含むことができる。１つ以上の通信バス又は信号線によって、テレビセットトップボックス１０４内の種々の構成要素を１つに結合することができる。テレビセットトップボックス１０４は、周辺機器インタフェース３０６に結合される種々のセンサ、サブシステム、及び周辺デバイスを更に含むことができる。サブシステム、及び周辺デバイスは情報を収集し、及び／又はテレビセットトップボックス１０４の種々の機能を可能にすることができる。
［００７８］
例えば、テレビセットトップボックス１０４は、通信サブシステム３２４を含むことができる。種々の通信ポート、無線周波数受信器及び送信器、並びに／又は光（例えば、赤外線）受信器及び送信器を含むことができ、１つ以上の有線及び／又は無線通信サブシステム３２４を介して、通信機能を可能にすることができる。
［００７９］
いくつかの実施例では、テレビセットトップボックス１０４は、周辺機器インタフェース３０６に結合されたＩ／Ｏサブシステム３４０を更に含むことができる。Ｉ／Ｏサブシステム３４０は、オーディオ／動画出力コントローラ３７０を含むことができる。オーディオ／動画出力コントローラ３７０は、ディスプレイ１１２及びスピーカ１１１に結合され得、あるいは場合によっては、（例えば、オーディオ／動画ポート、無線伝送などを介して）オーディオ及び動画出力を提供することができる。Ｉ／Ｏサブシステム３４０は、遠隔コントローラ３４２を更に含むことができる。遠隔コントローラ３４２を、（例えば、有線接続、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）などを介して）遠隔制御１０６に通信可能に結合することができる。遠隔制御１０６は、オーディオ入力（例えば、ユーザからの発語入力）をキャプチャするためのマイクロフォン３７２と、触覚入力をキャプチャするためのボタン（単数又は複数）３７４と、遠隔コントローラ３４２を介したテレビセットトップボックス１０４との通信を可能にするための送受信機３７６とを含むことができる。遠隔制御１０６はまた、キーボード、ジョイスティック、タッチパッドなどのような他の入力機構を含むことができる。遠隔制御１０６は、光、ディスプレイ、スピーカなどのような出力機構を更に含むことができる。遠隔制御１０６において受信した入力（例えば、ユーザ発語、ボタンの押下など）を、遠隔コントローラ３４２を介してテレビセットトップボックス１０４に通信することができる。Ｉ／Ｏサブシステム３４０は、他の入力コントローラ（単数又は複数）３４４を更に含むことができる。他の入力コントローラ（単数又は複数）３４４は、１つ以上のボタン、ロッカスイッチ、サムホイール、赤外線ポート、ＵＳＢポート、及び／又はスタイラスなどのポインタデバイスなど、他の入力／制御デバイス３４８に結合することができる。
［００８０］
いくつかの実施例では、テレビセットトップボックス１０４は、メモリ３５０に結合されたメモリインタフェース３０２を更に含むことができる。メモリ３５０は、任意の、電子、磁気、光学、電磁、赤外若しくは半導体システム、装置若しくはデバイス、ポータブルコンピュータディスケット（磁気）、ランダムアクセスメモリ（ＲＡＭ）（磁気）、読み出し専用メモリ（ＲＯＭ）（磁気）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）（磁気）、ＣＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ、ＤＶＤ−Ｒ若しくはＤＶＤ−ＲＷなどのポータブル光ディスク、又はコンパクトフラッシュカード、セキュアなデジタルカード、ＵＳＢメモリデバイス、メモリースティックなどのフラッシュメモリなどを含むことができる。いくつかの実施例では、メモリ３５０の非一時的コンピュータ可読記憶媒体を使用して、コンピュータベースのシステム、プロセッサを含むシステム、又は、命令実行システム、装置、若しくはデバイスから命令をフェッチし、それらの命令を実行することができる他のシステムなどの、命令実行システム、装置、若しくはデバイスによって、又はそれらと共に使用するため（例えば、本明細書で説明する種々のプロセスの一部分又は全部を実行する）命令を記憶することができる。他の実施例では、（例えば、本明細書で説明する種々のプロセスの一部分又は全部を実行する）命令は、サーバシステム１１０の非一時的コンピュータ可読記憶媒体上に記憶されても、あるいはメモリ３５０の非一時的コンピュータ可読記憶媒体とサーバシステム１１０の非一時的コンピュータ可読記憶媒体とに分割してもよい。本文書のコンテキストでは、「非一時的コンピュータ可読記憶媒体」は、命令実行システム、装置、若しくはデバイスによって、又はそれらに関連して使用するためのプログラムを、含むか又は記憶することが可能な、任意の媒体とすることができる。
［００８１］
いくつかの実施例では、メモリ３５０は、オペレーティングシステム３５２、通信モジュール３５４、グラフィカルユーザインタフェースモジュール３５６、オンデバイスメディアモジュール３５８、オフデバイスメディアモジュール３６０、及びアプリケーション３６２を記憶することができる。オペレーティングシステム３５２は、基本システムサービスを処理する命令、及びハードウェア依存タスクを実行する命令を含むことができる。通信モジュール３５４は、１つ以上の追加のデバイス、１つ以上のコンピュータ及び／又は１つ以上のサーバとの通信を可能にすることができる。グラフィカルユーザインタフェースモジュール３５６はグラフィックユーザインタフェース処理を可能にすることができる。オンデバイスメディアモジュール３５８は、テレビセットトップボックス１０４上にローカルに記憶されたメディアコンテンツ、及びローカルに利用可能な他のメディアコンテンツの記憶及び再生（例えば、ケーブルチャンネルの同調）を可能にすることができる。オフデバイスメディアモジュール３６０は、（例えば、リモートサーバ上、ユーザデバイス１０２上などに）遠隔に記憶されたメディアコンテンツのストリーミング再生又はダウンロードを可能にすることができる。アプリケーションモジュール３６２は、電子メッセージング、ウェブブラウジング、メディア処理、ゲーム、及び／又は他のプロセス及び機能などの、ユーザアプリケーションの種々の機能性を可能にすることができる。
［００８２］
本明細書で説明するように、メモリ３５０はまた、例えば仮想アシスタントのクライアント側機能を提供するために、（例えば、仮想アシスタントクライアントモジュール３６４内の）クライアント側仮想アシスタント命令、並びに種々のユーザデータ３６６（例えば、ユーザ固有の語彙データ、設定データ、及び／若しくはユーザの電子アドレス帳、ｔｏ−ｄｏリスト、買い物リスト、テレビプログラムの好みなど）も記憶することができる。また、ユーザデータ３６６は、仮想アシスタントをサポートする、又は任意の他のアプリケーションについての発語認識を実行する際に使用することができる。
［００８３］
種々の実施例では、仮想アシスタントクライアントモジュール３６４は、テレビセットトップボックス１０４の種々のユーザインタフェース（例えば、Ｉ／Ｏサブシステム３４０など）を通じて音声入力（例えば、発語入力）、テキスト入力、タッチ入力、及び／又はジェスチャ入力を受け入れる能力を有することができる。仮想アシスタントクライアントモジュール３６４はまた、オーディオ形態（例えば、発語出力）、視覚形態、及び／又は触覚形態の出力を提供する能力も有することができる。例えば、出力は、音声、音響、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び／又は上記のもののうちの２つ以上の組み合わせとして提供することができる。動作時、仮想アシスタントクライアントモジュール３６４は、通信サブシステム３２４を用いて仮想アシスタントサーバと通信することができる。
［００８４］
いくつかの実施例では、仮想アシスタントクライアントモジュール３６４は、ユーザ、現在のユーザ対話及び／又は現在のユーザ入力と関連付けられたコンテキストを確立するために、種々のセンサ、サブシステム及び周辺デバイスを利用してテレビセットトップボックス１０４の周囲環境から追加情報を収集することができる。そのようなコンテキストはまた、ユーザデバイス１０２からの情報など、他のデバイスからの情報を含むことができる。いくつかの実施例では、仮想アシスタントクライアントモジュール３６４は、ユーザの意図の推測を助けるために、ユーザ入力と共にコンテキスト情報又はそのサブセットを仮想アシスタントサーバに提供することができる。仮想アシスタントはまた、コンテキスト情報を使用して、ユーザへの出力をどのように準備し、配信するのかを判定することができる。更に、正確な発語認識をサポートするために、テレビセットトップボックス１０４又はサーバシステム１１０によりコンテキスト情報を使用することができる。
［００８５］
いくつかの実施例では、ユーザ入力に付随するコンテキスト情報は、照明、環境ノイズ、周囲温度、他のオブジェクトまでの距離などの、センサ情報を含むことができる。コンテキスト情報は、テレビセットトップボックス１０４の物理状態（例えば、デバイスの位置、デバイスの温度、電力レベルなど）、又はテレビセットトップボックス１０４のソフトウェア状態（例えば、実行中の処理、インストールされているプログラム、過去及び現在のネットワークアクティビティ、バックグラウンドサービス、エラーログ、リソース使用など）と関連付けられた情報を更に含むことができる。コンテキスト情報は、接続されたデバイス、又はユーザと関連付けられた他のデバイスの状態と関連付けられた情報（例えば、ユーザデバイス１０２により表示されたコンテンツ、ユーザデバイス１０２上の再生可能なコンテンツなど）を更に含むことができる。これらの種類のコンテキスト情報のうちのいずれかを、ユーザ入力と関連付けられたコンテキスト情報として、仮想アシスタントサーバ１１４に提供することができる（あるいは、テレビセットトップボックス１０４自体で使用することができる）。
［００８６］
いくつかの実施例では、仮想アシスタントクライアントモジュール３６４は、仮想アシスタントサーバ１１４からの要求に応じて、テレビセットトップボックス１０４に記憶された情報（例えば、ユーザデータ３６６）を選択的に提供することができる（あるいは、発語認識及び／又は仮想アシスタント機能を実行する際にテレビセットトップボックス１０４自体で使用することができる）。仮想アシスタントクライアントモジュール３６４はまた、仮想アシスタントサーバ１１４による要求時に、自然言語ダイアログ又は他のユーザインタフェースを介して、ユーザからの追加入力も引き出すことができる。仮想アシスタントクライアントモジュール３６４は、意図推測及び／又はユーザ要求内に表されているユーザの意図の達成において仮想アシスタントサーバ１１４を助けるために、追加入力を仮想アシスタントサーバ１１４に渡すことができる。
［００８７］
種々の実施例では、メモリ３５０は追加の命令又はより少数の命令を含むことができる。更に、テレビセットトップボックス１０４の種々の機能は、１つ以上の信号処理回路及び／又は特定用途向け集積回路の形態を含む、ハードウェアの形態及び／又はファームウェアの形態で実装することができる。
［００８８］
システム１００及びシステム３００は、図１及び図３に示した構成要素及び構成には限定されず、同様に、ユーザデバイス１０２、テレビセットトップボックス１０４及び遠隔制御１０６は、図２及び図３に示した構成要素及び構成には限定されないことを理解されたい。システム１００、システム３００、ユーザデバイス１０２、テレビセットトップボックス１０４及び遠隔制御１０６は全て、種々の実施例に係る複数の構成において、より少数のあるいは他の構成要素を含むことができる。
［００８９］
本開示全体にわたって、「システム」に言及した場合、システム１００、システム３００、又はシステム１００若しくはシステム３００のいずれかの１つ以上の要素を含むことができる。例えば、本明細書で言及する典型的なシステムは、少なくとも、遠隔制御１０６及び／又はユーザデバイス１０２からユーザ入力を受信するテレビセットトップボックス１０４を含むことができる。
［００９０］
図４Ａ〜図４Ｅは、ユーザに発語入力情報を伝達するためにディスプレイ（ディスプレイ１１２など）上に表示することができる例示的な発語入力インタフェース４８４を示す。１つの実施例では、発語入力インタフェース４８４を動画４８０上に表示することができ、動画４８０は、任意の動画像又は休止した動画を含むことができる。例えば、動画４８０は、生放送のテレビ、再生動画、ストリーミング映画、録画プログラムの再生などを含むことができる。発語入力インタフェース４８４は、動画４８０のユーザ閲覧と著しく干渉しないように、最小量のスペースを占めるように構成され得る。
［００９１］
１つの実施例では、コマンド又はクエリを含んでいる発語入力をリッスンする（又は、後続の処理のために発語入力の記録を開始する、若しくは発語入力のリアルタイム処理を開始する）ために、仮想アシスタントをトリガーすることができる。例えば、ユーザが、遠隔制御１０６上の物理ボタンを押すこと、ユーザが、ユーザデバイス１０２上の物理ボタンを押すこと、ユーザが、ユーザデバイス１０２上の仮想ボタンを押すこと、ユーザが、常時リッスンデバイスにより認識可能なトリガーフレーズを発すること（例えば、コマンドのリッスンを開始するように「ＨｅｙＡｓｓｉｓｔａｎｔ」と発すること）、ユーザが、センサにより検出可能なジェスチャを行うこと（例えば、カメラの前で合図すること）などの指示を含む、種々のやり方でリッスンをトリガーすることができる。別の実施例では、ユーザは、リッスンを開始するために、遠隔制御１０６又はユーザデバイス１０２上の物理ボタンを押し続けることができる。更に他の実施例では、ユーザは、クエリ又はコマンドを発語しながら、遠隔制御１０６又はユーザデバイス１０２上の物理ボタンを押し続けることができ、終了時にボタンを離すことができる。同様に、ユーザからの発語入力の受信を開始するために、種々の他の指示を受信することができる。
［００９２］
発語入力をリッスンする指示を受信したことに応じて、発語入力インタフェース４８４を表示することができる。図４Ａは、ディスプレイ１１２の下部分から上向きに拡張する通知エリア４８２を示す。発語入力をリッスンする指示を受信すると、通知エリア４８２に発語入力インタフェース４８４を表示することができ、図示のように、ディスプレイ１１２の閲覧エリアの下縁部から上向きにスライドするようにそのインタフェースをアニメーション化することができる。図４Ｂは、上向きにスライドして現れた後の発語入力インタフェース４８４を示す。発語入力インタフェース４８４は、動画４８０とのと干渉を回避するために、ディスプレイ１１２下部において最小量のスペースを占めるように構成することができる。発語入力をリッスンする指示を受信したことに応じて、準備完了確認４８６を表示することができる。準備完了確認４８６は、図示のようなマイクロフォンのシンボルを含むことができ、あるいは、システム（例えば、システム１００の１つ以上の要素）がユーザからの発語入力をキャプチャする準備ができていることを伝達する任意の他の画像、アイコン、アニメーション又はシンボルを含むことができる。
［００９３］
ユーザが発語し始めると、システムが発語入力をキャプチャしていることを確認するために、図４Ｃに示したリッスン確認４８７を表示することができる。いくつかの実施例では、発語入力を受信したこと（例えば、発語をキャプチャしたこと）に応じて、リッスン確認４８７を表示することができる。他の実施例では、所定の時間（例えば、５００ミリ秒、１秒、３秒など）にわたって準備完了確認４８６を表示することができ、その後に、リッスン確認４８７を表示することができる。リッスン確認４８７は、図示のような波形シンボルを含むことができ、あるいは、ユーザ発語に応じて動く（例えば、周波数を変える）アクティブな波形アニメーションを含むことができる。他の実施例では、リッスン確認４８７は、任意の他の画像、アイコン、アニメーション、又はシステムがユーザからの発語入力をキャプチャしていることを伝達するシンボルを含むことができる。
［００９４］
（例えば、休止、クエリの終わりを示す発語解釈、又は任意の他のエンドポイント検出法に基づいて）ユーザが発語し終えたことを検出すると、システムが発語入力のキャプチャを完了し、発語入力を処理していること（例えば、発語入力の解釈、ユーザ意図の判定、及び／又は関連付けられたタスクの実行）を確認するために、図４Ｄに示した処理確認４８８を表示することができる。処理確認４８８は、図示のような砂時計のシンボルを含むことができ、あるいは、キャプチャした発語入力をシステムが処理していることを伝達する任意の他の画像、アイコン、アニメーション又はシンボルを含むことができる。別の実施例では、処理確認４８８は、回転している円、又は円の周りを動く色のついた／光る点のアニメーションを含むことができる。
［００９５］
キャプチャした発語入力をテキストとして解釈した後（又は、発語入力をテキストに正常に変換したことに応じて）、システムが発語入力を受信し解釈したことを確認するために、図４Ｅに示したコマンド受信確認４９０及び／又は音声表記４９２を表示することができる。音声表記４９２は、受信した発語入力（例えば、「現在、どんなスポーツイベントが放送されているか？」）の音声表記を含むことができる。いくつかの実施例では、ディスプレイ１１２の下部から、音声表記４９２をスライドアップさせるようにアニメーション化することができ、図４Ｅに示した位置に、しばらくの間（例えば、数秒）表示することができ、次いで、（例えば、あたかもテキストがスクロールアップして、最終的にビューから消えるかのように）音声表記を発語入力インタフェース４８４の上部までスライドアップさせてビューから消すことができる。他の実施例では、音声表記を表示しないことがあり、ユーザのコマンド又はクエリを処理することができ、音声表記を表示することなく、関連付けられたタスクを実行することができる（例えば、単純なチャンネルの変更は、ユーザの発語の音声表記を表示することなく、直ぐに実行することができる）。
［００９６］
他の実施例では、ユーザが発語するにつれて、発語の音声表記をリアルタイムで実行することができる。単語を音声表記しながら、発語入力インタフェース４８４に単語を表示することができる。例えば、リッスン確認４８７の横に単語を表示することができる。ユーザが発語し終えた後に、コマンド受信確認４９０を一時的に表示し、その後、ユーザのコマンドと関連付けられたタスクを実行することができる。
［００９７］
更に、他の実施例では、コマンド受信確認４９０は、受信して理解したコマンドに関する情報を伝達することができる。例えば、別のチャンネルに変えるという単純な要求の場合、チャンネルを変えた時に、（例えば、数秒間にわたって）コマンド受信確認４９０としてそのチャンネルと関連付けられたロゴ又は番号を一時的に表示することができる。別の実施例では、動画（例えば、動画４８０）を休止するという要求の場合、コマンド受信確認４９０として、休止シンボル（例えば、２本の垂直方向の平行なバー）を表示することができる。休止シンボルは、例えば、ユーザが別のアクションを実行する（例えば再生を再開する再生コマンドを出す）まで、ディスプレイ上に残ることができる。同様に、任意の他のコマンドについて、シンボル、ロゴ、アニメーションなど（例えば、巻戻し、早送り、停止、再生などのためのシンボル）表示することができる。したがって、コマンド受信確認４９０を使用して、コマンド固有の情報を伝達することができる。
［００９８］
いくつかの実施例では、ユーザクエリ又はコマンドの受信後、発語入力インタフェース４８４を隠すことができる。例えば、発語入力インタフェース４８４は、ディスプレイ１１２の下部から消えるまで、下向きにスライドするようにアニメーション化され得る。更なる情報をユーザに表示する必要がない場合には、発語入力インタフェース４８４を非表示にすることができる。例えば、一般的な又は簡単なコマンド（例えば、チャンネル１０に変更、スポーツチャンネルに変更、再生、休止、早送り、巻戻しなど）の場合、コマンドの受信を確認した後直ちに発語入力インタフェース４８４を非表示にすることができ、関連付けられたタスク（単数又は複数）を直ちに実行することができる。本明細書の種々の実施例は、ディスプレイの下部又は上縁部にあるインタフェースを例示し、それについて説明しているが、ディスプレイの周りの他の場所に、種々のインタフェースのうちのいずれかを配置できることを了解されたい。例えば、発語入力インタフェース４８４は、ディスプレイ１１２の側縁部から、ディスプレイ１１２の中心、ディスプレイ１１２の隅角部などに出現することができる。同様に、本明細書で説明する種々の他のインタフェースの実施例は、ディスプレイ上の種々の異なる場所に、種々の異なる向きで配列することができる。更に、本明細書で説明する種々のインタフェースは、不透明であるものとして示されているが、種々のインタフェースのうちのいずれかは、透明とすることができ、あるいは場合によっては、画像（ぼやけた画像又は画像全体）を、インタフェースを介して閲覧できるようにする（例えば、下にあるメディアコンテンツを完全に不明瞭にすることなく、メディアコンテンツ上にインタフェースコンテンツを重ねる）ことができる。
［００９９］
他の実施例では、発語入力インタフェース４８４内に、又は異なるインタフェースに、クエリの結果を表示することができる。図５は、動画４８０上の例示的なメディアコンテンツインタフェース５１０を示し、図４Ｅの音声表記されたクエリの例示的な結果が表示されている。いくつかの実施例では、仮想アシスタントクエリの結果は、テキストコンテンツの代わりに、又はそれに加えてメディアコンテンツを含むことができる。例えば、仮想アシスタントクエリの結果は、テレビプログラム、動画、音楽などを含むことができる。いくつかの結果は、再生のために直ちに利用可能なメディアを含むことができる一方で、他の結果は、購入などのために利用可能であり得るメディアを含むことができる。
［０１００］
図示のとおり、メディアコンテンツインタフェース５１０は、発語入力インタフェース４８４よりも大きいサイズとすることができる。１つの実施例では、発語入力インタフェース４８４は、発語入力情報に適応するようにより小さい第１のサイズのものとすることができ、メディアコンテンツインタフェース５１０は、クエリ結果に適応するようにより大きい第２のサイズとすることができ、メディアコンテンツインタフェース５１０は、テキスト、静止画像像及び動画像を含むことができる。このようにすると、仮想アシスタント情報を伝達するためのインタフェースのサイズは、伝達されるコンテンツに応じた縮尺にすることができ、それにより、スクリーンの面積への侵入が制限される（例えば、動画４８０などの他のコンテンツの遮蔽が最小限に抑えられる）。
［０１０１］
例示したように、メディアコンテンツインタフェース５１０は、（仮想アシスタントクエリの結果として）選択可能な動画リンク５１２、選択可能なテキストリンク５１４、及び追加のコンテンツリンク５１３を含むことができる。いくつかの実施例では、遠隔制御（例えば、遠隔制御１０６）を使用して、フォーカス、カーソルなどを特定の要素にナビゲートし、それを選択することによって、リンクを選択することができる。他の実施例では、仮想アシスタントへの音声コマンド（例えば、そのサッカーの試合を視聴する、バスケットボールの試合に関する詳細を表示する、など）を使用して、リンクを選択することができる。選択可能な動画リンク５１２は、静止画像又は動画像を含むことができ、関連付けられた動画を再生させるために選択可能であり得る。１つの実施例では、選択可能な動画リンク５１２は、関連付けられた動画コンテンツの再生動画を含むことができる。別の実施例では、選択可能な動画リンク５１２は、テレビチャンネルのライブフィードを含むことができる。例えば、選択可能な動画リンク５１２は、テレビで現在放送されているスポーツイベントに関する仮想アシスタントクエリの結果として、スポーツチャネルのサッカーの試合のライブフィードを含むことができる。選択可能な動画リンク５１２はまた、任意の他の動画、アニメーション、画像など（例えば、三角形の再生シンボル）を含むことができる。更に、リンク５１２は、映画、テレビ番組、スポーツイベント、音楽などのような、任意の種類のメディアコンテンツにリンクすることができる。
［０１０２］
選択可能なテキストリンク５１４は、選択可能な動画リンク５１２と関連付けられたテキストコンテンツを含むことができ、あるいは、仮想アシスタントクエリの結果のテキストレプリゼンテーションを含むことができる。１つの実施例では、選択可能なテキストリンク５１４は、仮想アシスタントクエリの結果として生じるメディアの記述を含むことができる。例えば、選択可能なテキストリンク５１４は、テレビプログラムの名前、映画のタイトル、スポーツイベントの記述、テレビチャンネルの名前又は番号などを含むことができる。１つの実施例では、テキストリンク５１４の選択は、関連付けられたメディアコンテンツを再生することができる。別の例では、テキストリンク５１４の選択は、メディアコンテンツ又は他の仮想アシスタントクエリ結果に関する追加の詳細を提供することができる。追加のコンテンツリンク５１３は、仮想アシスタントクエリの追加の結果にリンクし、それを表示させることができる。
［０１０３］
ある特定のメディアコンテンツの実施例が図５に示されているが、メディアコンテンツについての仮想アシスタントクエリの結果として、任意の種類のメディアコンテンツを含んでもよいことを了解されたい。例えば、仮想アシスタントの結果として戻され得るメディアコンテンツとして、動画、テレビプログラム、音楽、テレビチャンネルなどを挙げることができる。更に、いくつかの実施例では、ユーザが検索若しくはクエリの結果、又は表示されたメディアオプションをフィルタリングすることを可能にするために、本明細書のインタフェースのうちのいずれかに、カテゴリーフィルタを提供することができる。例えば、結果を種類（例えば、映画、音楽アルバム、書籍、テレビ番組など）によってフィルタリングするために、選択可能なフィルタを提供することができる。他の実施例では、選択可能なフィルタは、ジャンル記述子又はコンテンツ記述子（例えば、コメディ、インタビュー、特定のプログラムなど）を含むことができる。更に他の実施例では、選択可能なフィルタは、時（例えば、今週、先週、昨年など）を含むことができる。表示されたコンテンツに関連するカテゴリーに基づいて、ユーザが結果をフィルタリングする（例えば、メディア結果が種々の種類を有する場合に、種類によってフィルタリングする、メディア結果が種々のジャンルを有する場合にはジャンルによってフィルタリングする、メディア結果が種々の時を有する場合には時によってフィルタリングする、など）ことを可能にするために、本明細書で説明する種々のインタフェースのうちのいずれかにフィルタを提供することができることを了解されたい。
［０１０４］
他の実施例では、メディアコンテンツインタフェース５１０は、メディアコンテンツ結果に加えて、クエリのパラフレーズを含むことができる。例えば、メディアコンテンツ結果の上方に（選択可能な動画リンク５１２及び選択可能なテキストリンク５１４の上方に）、ユーザのクエリのパラフレーズを表示することができる。図５の実施例では、ユーザのクエリのそのようなパラフレーズは、「現在、いくつかのスポーツイベント放送されている」を含むことができる。同様に、メディアコンテンツ結果を紹介する他のテキストを表示することができる。
［０１０５］
いくつかの実施例では、インタフェース５１０を含む任意のインタフェースを表示した後、ユーザは、新しいクエリ（以前のクエリに関係していることも、関係していないこともある）を用いた追加の発語入力のキャプチャを開始することができる。ユーザクエリは、動画リンク５１２を選択するコマンドなど、インタフェース要素に対して作用するコマンドを含むことができる。別の実施例では、ユーザの発語は、表示されたメニュー情報、再生動画（例えば、動画４８０）など、表示されたコンテンツと関連付けられたクエリを含むことができる。表示された情報（例えば、表示テキスト）、及び／又は表示されたコンテンツと関連付けられたメタデータ（例えば、再生動画と関連付けられたメタデータ）に基づいて、そのようなクエリに対する応答を判定することができる。例えば、ユーザは、インタフェース（例えば、インタフェース５１０）に表示されたメディア結果に関して質問することができ、そのメディアと関連付けられたメタデータを検索して、回答又は結果を提供することができる。次いで、別のインタフェースに又は同じインタフェース内に（例えば、本明細書で論じるインタフェースのうちのいずれかに）、そのような回答又は結果を提供することができる。
［０１０６］
上述のように、１つの実施例では、テキストリンク５１４の選択に応じて、メディアコンテンツに関する追加の詳細を表示することができる。図６Ａ及び図６Ｂは、テキストリンク５１４の選択後の、動画４８０上の例示的なメディア詳細インタフェース６１８を示す。１つの実施例では、追加詳細情報を提供する際に、図６Ａのインタフェース拡張遷移６１６により例示されるように、メディアコンテンツインタフェース５１０をメディア詳細インタフェース６１８へと拡張することができる。詳細には、図６Ａに示すように、選択されたコンテンツのサイズを拡張することができ、スクリーンの面積のうちのより多くを占めるようにディスプレイ１１２上でインタフェースを上向きに拡張することによって、追加のテキスト情報を提供することができる。ユーザが所望する追加の詳細情報に適応するように、インタフェースを拡張することができる。このようにすると、インタフェースのサイズは、ユーザが所望するコンテンツ量に伴う縮尺にすることができ、それにより、所望のコンテンツを依然として伝達しながら、スクリーンの面積への侵入が最小限に抑えられる。
［０１０７］
図６Ｂは、完全に拡張した後の詳細インタフェース６１８を示す。図示のとおり、詳細インタフェース６１８は、所望の詳細情報に適応するように、メディアコンテンツインタフェース５１０又は発語入力インタフェース４８４のいずれかよりも大きいサイズのものとすることができる。詳細インタフェース６１８は、メディアコンテンツ又は仮想アシスタントクエリの別の結果と関連付けられた種々の詳細情報を含む、詳細なメディア情報６２２を含むことができる。詳細なメディア情報６２２は、プログラムのタイトル、プログラムの記述、プログラムの放送時間、チャンネル、エピソード概要、映画の記述、俳優の名前、キャラクターの名前、スポーツイベントの参加者、プロデューサーの名前、ディレクターの名前、又は仮想アシスタントクエリの結果と関連付けられた任意の他の詳細情報を含むことができる。
［０１０８］
１つの実施例では、詳細インタフェース６１８は、選択可能な動画リンク６２０（又は、メディアコンテンツを再生するための別のリンク）を含むことができ、選択可能な動画リンク６２０は、対応する選択可能な動画リンク５１２のより大きいバージョンを含むことができる。したがって、選択可能な動画リンク６２０は、静止画像又は動画像を含むことができ、関連付けられた動画を再生させるために選択可能であり得る。選択可能な動画リンク６２０は、関連付けられた動画コンテンツの再生動画、テレビチャンネルのライブフィード（例えば、スポーツチャンネルでのサッカーの試合のライブフィード）などを含むことができる。選択可能な動画リンク６２０はまた、任意の他の動画、アニメーション、画像など（例えば、三角形の再生シンボル）を含むことができる。
［０１０９］
上述のように、動画リンク６２０又は動画リンク５１２などの動画リンクの選択に応じて、動画を再生することができる。図７Ａ及び図７Ｂは、動画リンク（又は動画コンテンツを再生するための他のコマンド）の選択に応じて表示することができる例示的なメディア遷移インタフェースを示す。例示したように、動画４８０を動画７２６と入れ替えることができる。１つの実施例では、図７Ａのインタフェース拡張遷移７２４により示すように、動画４８０の上に重なる又はそれを覆うように動画７２６を拡張することができる。遷移の結果は、図７Ｂの拡張されたメディアインタフェース７２８を含むことができる。他のインタフェースの場合と同様に、拡張されたメディアインタフェース７２８のサイズは、ユーザに所望の情報を提供するのに十分であり得、ここでは、ディスプレイ１１２全体に拡張することを含む。したがって、所望の情報が、ディスプレイ全体にわたる再生メディアコンテンツを含むことができるので、拡張されたメディアインタフェース７２８は、任意の他のインタフェースよりも、大きくすることができる。図示されていないが、いくつかの実施例では、動画７２６上に（例えば、スクリーンの下部に沿って）、記述情報を一時的に重ねることができる。そのような記述情報は、関連付けられたプログラム、動画、チャンネルなどの名前を含むことができる。次いで、（例えば、数秒後に）記述情報をビューから非表示にすることができる。
［０１１０］
図８Ａ〜図８Ｂは、ユーザに発語入力情報を伝達するためにディスプレイ１１２上に表示することができる例示的な発語入力インタフェース８３６を示す。１つの実施例では、メニュー８３０上に発語入力インタフェース８３６を表示することができる。メニュー８３０は、種々のメディアオプション８３２を含むことができ、同様に、任意の他の種類のメニュー（例えば、コンテンツメニュー、カテゴリーメニュー、コントロールメニュー、セットアップメニュー、プログラムメニューなど）上に発語入力インタフェース８３６を表示することができる。１つの実施例では、発語入力インタフェース８３６は、ディスプレイ１１２のスクリーンの面積のうち比較的大きな量を占めるように構成され得る。例えば、発語入力インタフェース８３６は、上記で論じた発語入力インタフェース４８４よりも大きくすることができる。１つの実施例では、バックグラウンドコンテンツに基づいて、使用される発語入力インタフェース（例えば、より小さいインタフェース４８４又はより大きいインタフェース８３６のいずれか）のサイズを判定することができる。バックグラウンドコンテンツが動画像を含む時には、例えば、小さい発語入力インタフェース（例えば、インタフェース４８４）を表示することができる。一方、バックグラウンドコンテンツが静止画像（例えば、休止された動画）又はメニューを含む時には、例えば、大きい発語入力インタフェース（例えば、インタフェース８３６）を表示することができる。このようにすると、ユーザが動画コンテンツを視聴している場合には、より小さい発語入力インタフェースを表示することができ、スクリーンの面積に対する侵入が最小限に抑えられるが、ユーザが、メニューをナビゲートしている場合、又は休止された動画又は他の静止画像を閲覧している場合には、より大きい発語入力インタフェースを表示し、追加の面積を占めることによって、より多くの情報を伝達する、あるいは、より重大な効果を有することができる。同様に、バックグラウンドコンテンツに基づいて、本明細書で論じる他のインタフェースを異なるようにサイズ設定することができる。
［０１１１］
上記で論じたように、仮想アシスタントは、コマンド又はクエリを含んでいる発語入力を聞き取る（又は、後続の処理のために発語入力の記録を開始する、若しくは発語入力のリアルタイム処理を開始する）ようにトリガーされ得る。例えば、ユーザが、遠隔制御１０６上の物理ボタンを押すこと、ユーザが、ユーザデバイス１０２上の物理ボタンを押すこと、ユーザが、ユーザデバイス１０２上の仮想ボタンを押すこと、ユーザが、常時リッスンデバイスにより認識可能なトリガーフレーズを発すること（例えば、コマンドのリッスンを開始するように「ＨｅｙＡｓｓｉｓｔａｎｔ」と発すること）、ユーザが、センサにより検出可能なジェスチャを行うこと（例えば、カメラの前で合図すること）などの指示を含む、種々のやり方でリッスンをトリガーすることができる。別の実施例では、ユーザは、リッスンを開始するために、遠隔制御１０６又はユーザデバイス１０２上の物理ボタンを押し続けることができる。更に他の実施例では、ユーザは、クエリ又はコマンドを発語しながら、遠隔制御１０６又はユーザデバイス１０２上の物理ボタンを押し続けることができ、終了時にボタンを離すことができる。同様に、ユーザからの発語入力の受信を開始するために、種々の他の指示を受信することができる。
［０１１２］
発語入力をリッスンする指示を受信したことに応じて、メニュー８３０の上に発語入力インタフェース８３６を表示することができる。図８Ａは、ディスプレイ１１２の下部分から上向きに拡張する大きな通知エリア８３４を示す。発語入力をリッスンする指示を受信すると、大きい通知エリア８３４に発語入力インタフェース８３６を表示することができ、図示のように、ディスプレイ１１２の閲覧エリアの下縁部から上向きにスライドするようにそのインタフェースをアニメーション化することができる。いくつかの実施例では、（例えば、発語入力をリッスンする指示を受信したことに応じて）重なっているインタフェースが表示されるので、バックグラウンドメニュー、休止された動画、静止画像又は他のバックグラウンドコンテンツを、ｚ方向に（あたかも、更にディスプレイ１１２に入るように）縮小する、及び／又は逆方向に移動させることができる。バックグラウンドインタフェース縮小遷移８３１及び関連付けられた内向き矢印は、どのようにバックグラウンドコンテンツ（例えば、メニュー８３０）を縮小する（表示されたメニュー、画像、テキストなどを小さくする）ことができるかについて説明する。これにより、新しいフォアグラウンドインタフェース（例えば、インタフェース８３６）の邪魔にならないところに、バックグラウンドコンテンツユーザから離れて移動するように見える視覚的効果を提供することができる。図８Ｂは、縮小された（小さくなった）バージョンのメニュー８３０を含む、縮小されたバックグラウンドインタフェース８３３を示す。図示のとおり、（枠線を含むことができる）縮小されたバックグラウンドインタフェース８３３は、フォアグラウンドインタフェース８３６に焦点を譲りながらも、ユーザから遠くに現れることができる。重複しているインタフェースが表示されるので、本明細書で論じる他の実施例のうちのいずれかにおける（バックグラウンド動画コンテンツを含む）バックグラウンドコンテンツを同様に、ｚ方向に縮小する及び／又は逆方向に移動させることができる。
［０１１３］
図８Ｂは、上向きにスライドさせて現れた後の発語入力インタフェース８３６を示す。上記で論じたように、発語入力を受信している間、種々の確認を表示することができる。ここでは図示されていないが、発語入力インタフェース８３６は、図４Ｂ、図４Ｃ及び図４Ｄをそれぞれ参照して上記で論じた発語入力インタフェース４８４と同様に、より大きいバージョンの準備完了確認４８６、リッスン確認４８７及び／又は処理確認４８８を同様に表示することができる。
［０１１４］
図８Ｂに示すように、システムが発語入力を受信し解釈したことを確認するために、コマンド受信確認８３８を（上記で論じたより小さいサイズのコマンド受信確認４９０の場合と同様に）表示することができる。また、音声表記８４０を表示することができ、音声表記８４０は、受信した発語入力の音声表記（例えば、「ニューヨークの天気は？」）を含むことができる。いくつかの実施例では、ディスプレイ１１２の下部から、音声表記８４０をスライドアップさせるようにアニメーション化することができ、図８Ｂに示した位置に、しばらくの間（例えば、数秒）表示することができ、次いで、（例えば、あたかもテキストスクロールアップし、最終的にビューから消えるかのように）音声表記を発語入力インタフェース８３６の上部までスライドアップさせてビューから消すことができる。他の実施例では、音声表記を表示しないことがあり、ユーザのコマンド又はクエリを処理することができ、音声表記を表示することなく、関連付けられたタスクを実行することができる。
［０１１５］
他の実施例では、ユーザが発語するにつれて、発語の音声表記をリアルタイムで実行することができる。単語を音声表記しながら、発語入力インタフェース８３６に単語を表示することができる。例えば、上記で論じたリッスン確認４８７のより大きなバージョンの横に単語を表示することができる。ユーザが発語し終えた後に、コマンド受信確認８３８を一時的に表示し、その後、ユーザのコマンドと関連付けられたタスクを実行することができる。
［０１１６］
更に、他の実施例では、コマンド受信確認８３８は、受信して理解したコマンドに関する情報を伝達することができる。例えば、特定のチャンネルに同調させるという単純な要求の場合、チャンネルを同調させた時に、（例えば、数秒間にわたって）コマンド受信確認８３８としてそのチャンネルと関連付けられたロゴ又は番号を一時的に表示することができる。別の実施例では、表示されたメニュー項目（例えば、メディアオプション８３２のうちの１つ）を選択するという要求の場合、コマンド受信確認８３８として、選択されたメニュー項目と関連付けられた画像を表示することができる。したがって、コマンド受信確認８３８を使用して、コマンド固有の情報を伝達することができる。
［０１１７］
いくつかの実施例では、ユーザクエリ又はコマンドの受信後、発語入力インタフェース８３６を非表示にすることができる。例えば、発語入力インタフェース８３６は、ディスプレイ１１２の下部から消えるまで、下向きにスライドするようにアニメーション化することができる。更なる情報をユーザに表示する必要がない場合には、発語入力インタフェース８３６を非表示にすることができる。例えば、一般的な又は簡単なコマンド（例えば、チャンネル１０に変更、スポーツチャンネルに変更、その映画の再生など）の場合、コマンドの受信を確認した後直ちに発語入力インタフェース８３６を隠すことができ、関連付けられたタスク（単数又は複数）を直ちに実行することができる。
［０１１８］
他の実施例では、発語入力インタフェース８３６内に、又は異なるインタフェースに、クエリの結果を表示することができる。図９は、図８Ｂの音声表記されたクエリの例示的な結果を備える例示的なメニュー８３０上の（詳細には、縮小されたバックグラウンドインタフェース８３３上の）仮想アシスタント結果インタフェース９４２を示している。いくつかの実施例では、仮想アシスタントクエリの結果は、テキスト回答９４４などのテキスト回答を含むことができる。仮想アシスタントクエリの結果はまた、選択可能な動画リンク９４６及び購入リンク９４８と関連付けられたコンテンツなど、ユーザのクエリに対処するメディアコンテンツを含むことができる。詳細には、この実施例では、ユーザは、ニューヨークの特定の場所についての気象情報を尋ねることができる。仮想アシスタントは、ユーザのクエリに直接答える（例えば、良い天気に見えることを示し、温度情報を提供する）テキスト回答９４４を提供することができる。テキスト回答９４４の代わりに、又はそれに加えて、仮想アシスタントは、購入リンク９４８及び関連付けられたテキストと共に、選択可能な動画リンク９４６を提供することができる。また、リンク９４６及び９４８と関連付けられたメディアは、ユーザのクエリに対する応答を提供することができる。ここで、リンク９４６及び９４８と関連付けられたメディアは、特定の場所における気象情報の１０分間クリップ（詳細には、天気予報チャンネルと呼ばれるテレビチャンネルから、ニューヨークの５日間予報）を含むことができる。
［０１１９］
１つの実施例では、ユーザのクエリに対処するクリップは、（録画又はストリーミングサービスから利用可能であり得る）以前に放送されたコンテンツの時間キュー部分を含むことができる。仮想アシスタントは、１つの実施例では、発語入力と関連付けられたユーザ意図に基づいて、利用可能なメディアコンテンツに関する詳細情報を検索することによって、（例えば、ストリーミングコンテンツに関する詳細なタイミング情報又は詳細情報と共に、録画された放送についてのメタデータを含む）そのようなコンテンツを識別することができる。いくつかの実施例では、ユーザは、ある特定のコンテンツへのアクセスを有しないことがあり、あるいは、ある特定のコンテンツについてのサブスクリプションを有しないことがある。そのような場合、購入リンク９４８などを介して、コンテンツの購入を勧めることができる。購入リンク９４８又は動画リンク９４６を選択すると、自動的に、コンテンツの費用をユーザアカウントから回収する、あるいは、コンテンツの費用をユーザアカウントに課金することができる。
［０１２０］
図１０は、仮想アシスタントを使用してテレビ対話を制御し、異なるインタフェースを使用して関連付けられた情報を表示するための例示的なプロセス１０００を示す。ブロック１００２で、ユーザからの発語入力を受信することができる。例えば、システム１００のユーザデバイス１０２又は遠隔制御１０６で、発語入力を受信することができる。いくつかの実施例では、発語入力（あるいは発語入力の一部又は全部のデータ表現）は、サーバシステム１１０及び／又はテレビセットトップボックス１０４に送信され、そこで受信され得る。ユーザが発語入力の受信を開始したことに応じて、ディスプレイ（ディスプレイ１１２など）上に種々の通知を表示することができる。例えば、図４Ａ〜図４Ｅを参照して上記で論じたように、準備完了確認、リッスン確認、処理確認及び／又はコマンド受信確認を表示することができる。更に、受信したユーザ発語入力を音声表記することができ、音声表記を表示することができる。
［０１２１］
再び図１０のプロセス１０００を参照すると、ブロック１００４で、発語入力に基づいて、メディアコンテンツを判定することができる。例えば、（例えば、利用可能なメディアコンテンツを検索することなどによって）仮想アシスタントにおいてダイレクトされたユーザクエリに対処するメディアコンテンツを判定することができる。例えば、図４Ｅの音声表記４９２（「現在、どんなスポーツイベントが放送されているか？」）に関係するメディアコンテンツを判定することができる。そのようなメディアコンテンツは、ユーザが閲覧するために利用可能な１つ以上のテレビチャンネル上に表示されているライブスポーツイベントを含むことができる。
［０１２２］
ブロック１００６で、選択可能なメディアリンクを備える第１のサイズの第１のユーザインタフェースを表示することができる。例えば、図５に示すように、選択可能な動画リンク５１２と選択可能なテキストリンク５１４とを備えるメディアコンテンツインタフェース５１０を、ディスプレイ１１２上に表示することができる。上記で論じたように、メディアコンテンツインタフェース５１０は、バックグラウンド動画コンテンツと干渉することを回避するために、より小さいサイズとすることができる。
［０１２３］
ブロック１００８で、リンクうちの１つの選択を受信することができる。例えば、リンク５１２及び／又はリンク５１４のうちの１つの選択を受信することができる。ブロック１０１０で、その選択と関連付けられたメディアコンテンツを備えるより大きい第２のサイズの第２のユーザインタフェースを表示することができる。図６Ｂに示すように、例えば、選択可能な動画リンク６２０と詳細なメディア情報６２２とを備える詳細インタフェース６１８を、ディスプレイ１１２上に表示することができる。上記で論じたように、詳細インタフェース６１８は、所望の追加の詳細なメディア情報を伝達するために、より大きいサイズのものとすることができる。同様に、図７Ｂに示すように、動画リンク６２０を選択すると、動画７２６を備える拡張されたメディアインタフェース７２８を表示することができる。上記で論じたように、拡張されたメディアインタフェース７２８は、所望のメディアコンテンツを依然としてユーザに提供するために、より大きいサイズのものとすることができる。このようにすると、本明細書で論じる種々のインタフェースを、場合によっては制限されたスクリーンの面積を占めながら、（より大きいサイズのインタフェースに拡張すること、又はより小さいサイズのインタフェースまで縮小することを含めて）所望のコンテンツに適応するようにサイズ設定することができる。したがって、仮想アシスタントを使用してテレビ対話を制御し、異なるインタフェースを使用して関連付けられた情報を表示するために、プロセス１０００を使用することができる。
［０１２４］
別の実施例では、バックグラウンド動画コンテンツ上ではなく、コントロールメニュー上により大きいサイズインタフェースを表示することができる。例えば、図８Ｂに示すように、メニュー８３０上に発語入力インタフェース８３６を表示することができ、図９に示すように、メニュー８３０上にアシスタント結果インタフェース９４２を表示することができる一方で、図５に示すように、動画４８０上により小さいメディアコンテンツインタフェース５１０を表示することができる。このようにすると、インタフェースのサイズ（例えば、インタフェースが占めるスクリーンの面積の量）を、少なくとも部分的にバックグラウンドコンテンツの種類によって判定することができる。
［０１２５］
図１１は、ユーザデバイス１０２上の例示的なテレビメディアコンテンツを示し、ユーザデバイス１０２は、タッチスクリーン２４６（又は別のディスプレイ）を備える、携帯電話、タブレットコンピュータ、遠隔制御などを含むことができる。図１１は、複数のテレビプログラム１１５２を備えるＴＶリストを含むインタフェース１１５０を示す。インタフェース１１５０は、テレビ制御アプリケーション、テレビコンテンツリストアプリケーション、インターネットアプリケーションなどのような、ユーザデバイス１０２上の特定のアプリケーションに対応することができる。いくつかの実施例では、ユーザデバイス１０２上に（例えば、タッチスクリーン２４６上に）表示されたコンテンツを使用して、そのコンテンツに関係する発語入力からユーザ意図を判定することができ、そのユーザ意図を使用して、別のデバイス及びディスプレイ上で（例えば、テレビセットトップボックス１０４、並びにディスプレイ１１２及び／又はスピーカ１１１上で）コンテンツを再生又は表示させることができる。例えば、ユーザデバイス１０２上のインタフェース１１５０に表示されたコンテンツを使用して、ユーザ要求の曖昧性を回避すし、発語入力からユーザ意図を判定でき、次いで、判定したユーザ意図を使用して、テレビセットトップボックス１０４を介して、メディアを再生又は表示することができる。
［０１２６］
図１２は、仮想アシスタントを使用した例示的なテレビ制御を示す。図１２は、インタフェース１２５４を示し、インタフェース１２５４は、アシスタントとユーザとの間の会話型ダイアログとしてフォーマットされた仮想アシスタントインタフェースを含むことができる。例えば、インタフェース１２５４は、ユーザに要求を行うようにプロンプトを出すアシスタントグリーティング１２５６を含むことができる。次いで、音声表記されたユーザ発語１２５８など、その後受信したユーザ発語を音声表記することができ、会話のやり取りが表示される。いくつかの実施例では、インタフェース１２５４は、発語入力の受信を開始するトリガー（ボタン押下、キーフレーズなどのようなトリガー）に応じて、ユーザデバイス１０２上に現れることができる。
［０１２７］
１つの実施例では、テレビセットトップボックス１０４を介して（例えばディスプレイ１１２及びスピーカ１１１上で）コンテンツを再生するというユーザ要求は、ユーザデバイス１０２上の表示されたものへの曖昧な参照を含むことができる。例えば、音声表記されたユーザ発語１２５８は、「その」サッカーの試合への参照を含む（「そのサッカーの試合をつけて。」）。所望される特定のサッカーの試合は、発語入力のみからでは不明瞭であることがある。ただし、いくつかの実施例では、ユーザデバイス１０２上に表示されたコンテンツを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。１つの実施例では、ユーザが要求を行う前に（例えば、インタフェース１２５４がタッチスクリーン２４６上に現れる前に）ユーザデバイス１０２に表示されたコンテンツを使用して、（以前のクエリ及び結果など、インタフェース１２５４内に現れているコンテンツができるように）ユーザ意図を判定することができる。例示した実施例では、図１１のインタフェース１１５０に表示されたコンテンツを使用して、「その」サッカーの試合をつけるというコマンドから、ユーザ意図を判定することができる。テレビプログラム１１５２のＴＶリストは、種々の異なるプログラムを含み、それらのうちの１つのタイトルが、チャンネル５で放送されている「サッカー」である。サッカーのリストが現れていることを使用して、「その」サッカーの試合と発したことから、ユーザの意図を判定することができる。詳細には、「その」サッカーの試合へのユーザの参照を、インタフェース１１５０のＴＶリストに現れているサッカープログラムと解釈することができる。したがって、仮想アシスタントは、（例えば、テレビセットトップボックス１０４を、適切なチャンネルに同調させ、その試合を表示させることによって）ユーザが望んだその特定のサッカーの試合を再生させることができる。
［０１２８］
他の実施例では、ユーザは、種々の他のやり方で、インタフェース１１５０に表示されたテレビプログラム（例えば、チャンネル８の番組、ニュース、ドラマ番組、広告、第１の番組など）を参照することができ、表示されたコンテンツに基づいて、ユーザ意図を同様に判定することができる。表示されたコンテンツと関連付けられたメタデータ（例えば、ＴＶプログラムの記述）、ファジーマッチング技術、シノニムマッチングなどを、ユーザ意図を判定するために、表示されたコンテンツと併せて更に使用することができることを了解されたい。例えば、「広告」を表示するという要求からユーザ意図を判定するために、（例えば、シノニム及び／又はファジーマッチング技術を使用して）記述「テレビショッピング」に用語「広告」はマッチングすることができる。同様に、ユーザ意図を判定する際に、特定のＴＶプログラムの記述を分析することができる。例えば、用語「法律」は、法廷ドラマの詳細な説明において識別され得、インタフェース１１５０に表示されたコンテンツと関連付けられた詳細な記述に基づいて、「法律」番組を視聴するというユーザ要求から、ユーザ意図を判定することができる。したがって、表示されたコンテンツ及びそれと関連付けられたデータを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。
［０１２９］
図１３は、ユーザデバイス１０２上の例示的な写真及び動画コンテンツを示し、ユーザデバイス１０２は、タッチスクリーン２４６（又は別のディスプレイ）を備える、携帯電話、タブレットコンピュータ、遠隔制御などを含むことができる。図１３は、写真及び動画のリストを含むインタフェース１３６０を示す。インタフェース１３６０は、メディアコンテンツアプリケーション、ファイルナビゲーションアプリケーション、ストレージアプリケーション、遠隔ストレージ管理アプリケーション、カメラアプリケーションなどのような、ユーザデバイス１０２上の特定のアプリケーションに対応することができる。図示のとおり、インタフェース１３６０は、動画１３６２、フォトアルバム１３６４（例えば、複数の写真のグループ）、及び写真１３６６を含むことができる。図１１及び図１２を参照して上記で論じたように、ユーザデバイス１０２に表示されたコンテンツを使用して、そのコンテンツに関係する発語入力からユーザ意図を判定することができる。次いで、ユーザ意図を使用して、別のデバイス及びディスプレイ（例えば、テレビセットトップボックス１０４、並びにディスプレイ１１２及び／又はスピーカ１１１上に）上にコンテンツを再生又は表示させることができる。例えば、ユーザデバイス１０２上のインタフェース１３６０に表示されたコンテンツを使用して、にユーザ要求の曖昧性を回避し、発語入力からユーザ意図を判定することができ、次いで、判定したユーザ意図を使用して、テレビセットトップボックス１０４を介して、メディアを再生又は表示することができる。
［０１３０］
図１４は、仮想アシスタントを使用した例示的なメディア表示制御を示す。図１４は、インタフェース１２５４を示し、インタフェース１２５４は、アシスタントとユーザとの間の会話型ダイアログとしてフォーマットされた仮想アシスタントインタフェースを含むことができる。図示のとおり、インタフェース１２５４は、ユーザに要求を行うようにプロンプトを出すアシスタントグリーティング１２５６を含むことができる。次いで、図１４の実施例によって示すようにダイアログ内にユーザ発語を音声表記することができる。いくつかの実施例では、インタフェース１２５４は、発語入力の受信を開始するトリガー（ボタン押下、キーフレーズなどのようなトリガー）に応じて、ユーザデバイス１０２上に現れることができる。
［０１３１］
１つの実施例では、テレビセットトップボックス１０４を介して（例えばディスプレイ１１２及びスピーカ１１１上で）メディアコンテンツを再生する、又はメディアを表示するというユーザ要求は、ユーザデバイス１０２上の表示されたものへの曖昧な参照を含むことができる。例えば、音声表記されたユーザ発語１４６８は、「その」動画への参照（「その動画を表示する。」）を含む。参照される特定の動画は、発語入力のみからでは不明瞭であることがある。ただし、いくつかの実施例では、ユーザデバイス１０２上に表示されたコンテンツを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。１つの実施例では、ユーザが要求を行う前に（例えば、インタフェース１２５４がタッチスクリーン２４６上に現れる前に）ユーザデバイス１２０に表示されたコンテンツを使用して、（以前のクエリ及び結果など、インタフェース１２５４内に現れているコンテンツができるように）ユーザ意図を判定することができる。ユーザ発語１４６８の実施例では、図１３のインタフェース１３６０に表示されたコンテンツを使用して、「その」動画を表示するというコマンドから、ユーザ意図を判定することができる。インタフェース１３６０における写真及び動画のリストは、動画１３６２、フォトアルバム１３５４及び写真１３６６を含む、種々の異なる写真及び動画を含む。インタフェース１３６０に動画が１つしか現れていないので（例えば、動画１３６２）、インタフェース１３６０に動画１３６２が現れていることを使用して、「その」動画と発したことからユーザの意図を判定することができる。詳細には、「その」動画へのユーザの参照を、インタフェース１３６０に現れている動画１３６２（タイトル「卒業式の動画」）と解釈することができる。したがって、仮想アシスタントは、（例えば、ユーザデバイス１０２又は遠隔ストレージからテレビセットトップボックス１０４に動画１３６２を送信させ、再生を開始させることによって）動画１３６２を再生させることができる。
［０１３２］
別の実施例では、音声表記されたユーザ発語１４７０は、「その」アルバムへの参照（「そのアルバムのスライドショーを再生して。」）を含む。参照される特定のアルバムは、発語入力のみからでは不明瞭であることがある。ユーザデバイス１０２上に表示されたコンテンツを再び使用して、ユーザ要求の曖昧性を回避することができる。詳細には、図１３のインタフェース１３６０に表示されたコンテンツを使用して、「その」アルバムのスライドショーを再生するというコマンドから、ユーザ意図を判定することができる。インタフェース１３６０における写真及び動画のリストは、フォトアルバム１３５４を含む。インタフェース１３６０にフォトアルバム１３６４が現れていることを使用して、「その」アルバムと発したことから、ユーザの意図を判定することができる。詳細には、「その」アルバムへのユーザの参照を、インタフェース１３６０に現れているフォトアルバム１３６４（タイトル「卒業式のアルバム」）と解釈することができる。したがって、ユーザ発語１４７０に応じて、仮想アシスタントは、（例えば、フォトアルバム１３６４の写真をユーザデバイス１０２又は遠隔ストレージからテレビセットトップボックス１０４に送信させ、写真のスライドショーを開始させることによって）フォトアルバム１３６４からの写真を含むスライドショーを表示させることができる。
［０１３３］
更に別の実施例では、音声表記されたユーザ発語１４７２は、「最新の」写真への参照（「キッチンのテレビに最新の写真を表示して。」）を含む。参照される特定の写真は、発語入力のみからでは不明瞭であることがある。ユーザデバイス１０２上に表示されたコンテンツを再び使用して、ユーザ要求の曖昧性を回避することができる。詳細には、図１３のインタフェース１３６０に表示されたコンテンツを使用して、「最新の」写真を表示するというコマンドから、ユーザ意図を判定することができる。インタフェース１３６０における写真及び動画のリストは、２つの個別の写真１３６６を含む。インタフェース１３６０に写真１３６６が現れていること（特に、インタフェース内における写真１３６６の出現順序）を使用して、「最新の」写真と発したことから、ユーザの意図を判定することができる。詳細には、「最新の」写真へのユーザの参照と、インタフェース１３６０の下部に現れている写真１３６６（２０１４年６月２１日付け）と解釈することができる。したがって、ユーザ発語１４７２に応じて、仮想アシスタントは、（例えば、最新の写真１３６６をユーザデバイス１０２又は遠隔ストレージからテレビセットトップボックス１０４に送信させ、写真表示させることによって）最新の写真１３６６をインタフェース１３６０に表示させることができる。
［０１３４］
他の実施例では、ユーザは、種々の他のやり方で、インタフェース１３６０に表示されたメディアコンテンツ（例えば、最新の２枚の写真、全ての動画ニュース、全ての写真、卒業式のアルバム、卒業式の動画、６月２１日以降の写真など）を参照することができ、表示されたコンテンツに基づいて、ユーザ意図を同様に判定することができる。表示されたコンテンツと関連付けられたメタデータ（例えば、タイムスタンプ、場所、情報、タイトル、説明など）、ファジーマッチング技術、シノニムマッチングなどを、ユーザ意図を判定するために、表示されたコンテンツと併せて更に使用することができることを了解されたい。したがって、表示されたコンテンツ及びそれと関連付けられたデータを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。
［０１３５］
ユーザ意図を判定する際に、任意のアプリケーションの任意のアプリケーションインタフェースにおける任意の種類の表示されたコンテンツを使用することができることを了解されたい。例えば、発語入力において、インターネットブラウザアプリケーションにおいてウェブページ上に表示された画像を参照することができ、表示されたウェブページコンテンツを分析して、所望の画像を識別することができる。同様に、タイトル、ジャンル、アーティスト、バンド名などによる発語入力において、音楽アプリケーションにおける音楽のリストの音楽トラックを参照することができ、音楽アプリケーションにおける表示されたコンテンツ（及びいくつかの実施例では、関連メタデータ）を使用して、発語入力からユーザ意図を判定することができる。次いで、上記で論じたように、判定したユーザ意図を使用して、テレビセットトップボックス１０４など、別のデバイスを介して、メディアを表示又は再生させることができる。
［０１３６］
いくつかの実施例では、メディア制御を許可することができるかどうかを判定する、表示のために利用可能なメディアコンテンツを判定する、アクセス許可を判定するなどのために、ユーザ識別、ユーザ認証及び／又はデバイス認証を採用することができる。例えば、例えばテレビセットトップボックス１０４上でメディアを制御するために、特定のユーザデバイス（例えば、ユーザデバイス１０２）が認証されているかどうかを判定することができる。登録、ペアリング、信用判定、パスコード、秘密の質問、システム設定などに基づいて、ユーザデバイスを認証することができる。特定のユーザデバイスが認証されていると判定したことに応じて、テレビセットトップボックス１０４を制御するための試行を許可することができる（例えば、要求側デバイスがメディアを制御することを認証されていると判定したことに応じて、メディアコンテンツを再生することができる）。対照的に、認証されていないデバイスからのメディア制御コマンド又は要求を無視することができ、及び／又は、そのようなデバイスのユーザに、特定のテレビセットトップボックス１０４を制御する際に使用するために、それらのデバイスを登録するようにプロンプトを出すことができる。
［０１３７］
別の実施例では、特定のユーザを識別することができ、そのユーザと関連付けられた個人情報を使用して、要求のユーザ意図を判定することができる。例えば、ユーザの声紋を使用する音声認識によるなど、発語入力に基づいて、ユーザを識別することができる。いくつかの実施例では、ユーザは特定のフレーズを発し、そのフレーズを音声認識のために分析することができる。他の実施例では、仮想アシスタントにダイレクトされた発語入力要求を、音声認識を使用して分析して、話者を識別することができる。また、（例えば、ユーザの個人用デバイス１０２上の）発語入力サンプルのソースに基づいて、ユーザを識別することができる。また、パスワード、パスコード、メニュー選択などに基づいて、ユーザを識別することができる。次いで、識別されたユーザの個人情報に基づいて、ユーザから受信した発語入力を解釈することができる。例えば、ユーザから以前の要求、ユーザが所有するメディアコンテンツ、ユーザのデバイスに記憶されたメディアコンテンツ、ユーザの好み、ユーザ設定、ユーザの人口統計（例えば、話されている言語など）、ユーザプロファイル情報、ユーザ支払方法、又は特定の識別されたユーザと関連付けられた種々の他の個人情報に基づいて、発語入力のユーザ意図を判定することができる。例えば、個人情報に基づいて、お気に入りリストを参照する発語入力などの曖昧性を回避することができ、ユーザの個人的なお気に入りリストを識別することができる。ユーザと関連付けられた写真、動画及び番組（例えば、個人用のユーザデバイスに記憶された写真など）を正確に識別するために、ユーザ識別に基づいて、同様に、「私」の写真、「私」の動画、「私」の番組などを参照する発語入力の曖昧性を回避することができる。同様に、コンテンツの購入を要求する発語入力の曖昧性を回避して、購入のために、（別のユーザの支払方法と対比して）識別されたユーザの支払方法を変更すべきであると判定することができる。
［０１３８］
いくつかの実施例では、ユーザ認証を使用して、ユーザがメディアコンテンツにアクセスすることが可能であるかどうか、メディアコンテンツを購入することが可能であるかどうかなどを判定することができる。例えば、（例えば、彼らの声紋を使用して）特定のユーザの識別情報を検証して、そのユーザが自身の支払方法を使用して購入を行うことを可能にするために、音声認識を使用することができる。同様に、ユーザを認証して購入を可能にするために、パスワードなどを使用することができる。別の実施例では、特定のユーザの識別情報を検証して、そのユーザが特定のプログラム（例えば、特定のペアレンタルガイドラインレーティングを有するプログラム、特定の対象年齢レーティングを有する映画など）を視聴することを可能になるかどうかを判定するために、音声認識を使用することができる。例えば、特定のプログラムに対する子どもの要求を、要求者がそのようなコンテンツを閲覧することが可能な認証ユーザ（例えば、親）でないことを示す音声認識に基づいて拒否することができる。他の実施例では、音声認識を使用して、ユーザが特定のサブスクリプションコンテンツへのアクセス権を有するかどうか判定することができる（例えば、音声認識に基づいて、プレミアムチャネルのコンテンツにアクセスを制限する）。いくつかの実施例では、ユーザは特定のフレーズを発し、そのフレーズを音声認識のために分析することができる。他の実施例では、仮想アシスタントにダイレクトされた発語入力要求を、音声認識を使用して分析して、話者を識別することができる。したがって、種々のやり方のいずれかでユーザが認証されると最初に判定したことに応じて、ある特定のメディアコンテンツを再生することができる。
［０１３９］
図１５は、モバイルユーザデバイス及びメディア表示デバイス上の結果を備える例示的な仮想アシスタント対話を示す。いくつかの実施例では、仮想アシスタントは、ユーザデバイス１０２並びにテレビセットトップボックス１０４など、２つ以上のデバイス上に情報及び制御を提供することができる。更に、いくつかの実施例では、ユーザデバイス１０２上の制御及び情報のために使用される同じ仮想アシスタントインタフェースを使用して、テレビセットトップボックス１０４上のメディアを制御するための要求を発行することができる。したがって、仮想アシスタントシステムは、結果を、ユーザデバイス１０２上に表示すべきか、あるいはテレビセットトップボックス１０４上に表示すべきかを判定することができる。いくつかの実施例では、テレビセットトップボックス１０４を制御するためにユーザデバイス１０２を採用する時、ユーザデバイス１０２上に（例えば、タッチスクリーン２４６上に）情報を表示することによって、テレビセットトップボックス１０４と関連付けられたディスプレイ（例えば、ディスプレイ１１２）上での仮想アシスタントインタフェースの侵入は最小限に抑えることができる。他の実施例では、ディスプレイ１１２上にのみ仮想アシスタント情報を表示することができ、あるいは、ユーザデバイス１０２とディスプレイ１１２の双方の上に仮想アシスタント情報を表示することができる。
［０１４０］
いくつかの実施例では、ユーザデバイス１０２上に直接、仮想アシスタントクエリの結果を表すべきか、あるいは、テレビセットトップボックス１０４と関連付けられたディスプレイ１１２上に仮想アシスタントクエリの結果を表示すべきかについて、判定を行うことができる。１つの実施例では、クエリのユーザ意図が情報の要求を含むと判定したことに応じて、ユーザデバイス１０２上に情報応答を表示することができる。別の例では、クエリのユーザ意図が、メディアコンテンツを再生するという要求を含むと判定したことに応じて、クエリに応じたメディアコンテンツを、テレビセットトップボックス１０４を介して再生することができる。
［０１４１］
図１５は、仮想アシスタントとユーザとの間の会話型ダイアログの例を示す仮想アシスタントインタフェース１２５４を示す。アシスタントグリーティング１２５６は、ユーザに要求を行うようにプロンプトを出すことができる。第１のクエリでは、音声表記されたユーザ発語１５７４（他のやり方ではタイプ又は入力することもできる）は、表示されたメディアコンテンツと関連付けられた情報回答の要求を含む。詳細には、音声表記されたユーザ発語１５７４は、例えば、（例えば、図１１のインタフェース１１５０に列挙された）ユーザデバイス１０２上のインタフェース上に、又は（例えば、図５のインタフェース５１０に列挙された、あるいは、図７Ｂのディスプレイ１１２上で動画７２６として再生する）ディスプレイ１１２上に表示され得るサッカーの試合で誰がプレイしているかを問い合わせる。表示されたメディアコンテンツに基づいて、音声表記されたユーザ発語１５７４のユーザ意図を判定することができる。例えば、ユーザデバイス１０２又はディスプレイ１１２上に表示されたコンテンツに基づいて、問題となっている特定のサッカーの試合を識別することができる。音声表記されたユーザ発語１５７４のユーザ意図は、表示されたコンテンツに基づいて識別されるサッカーの試合においてプレイしているチームについて詳述する情報回答を取得することを含むことができる。ユーザ意図が情報回答の要求を含むと判定したことに応じて、システムは、（ディスプレイ１１２上とは対照的に）図１５のインタフェース１２５４内に応答を表示することを判定することができる。いくつかの実施例では、表示されたコンテンツと関連付けられたメタデータに（例えば、テレビリストにおけるサッカーの試合の記述に基づいて）基づいて、クエリに対する応答を判定することができる。したがって、図示のとおり、インタフェース１２５４において、ユーザデバイス１０２のタッチスクリーン２４６上に、チームアルファとシータとが試合で対戦していると識別するアシスタントの応答１５７６を表示することができる。したがって、いくつかの実施例では、クエリが情報要求を含むと判定したことに基づいて、ユーザデバイス１０２上のインタフェース１２５４内に情報応答を表示することができる。
［０１４２］
ただし、インタフェース１２５４における第２のクエリは、メディア要求を含む。詳細には、音声表記されたユーザ発語１５７８は、表示されるメディアコンテンツを「ゲーム」に変更することを要求する。（例えば、ユーザがどのゲームを望むかを識別するために）図５のインタフェース５１０に列挙されたゲーム、図１１のインタフェース１１５０に列挙されたゲーム、（例えば、音声表記されたユーザ発語１５７４における）以前のクエリで参照されたゲームなど、表示されたコンテンツに基づいて、音声表記されたユーザ発語１５７８のユーザ意図を判定することができる。したがって、音声表記されたユーザ発語１５７８のユーザ意図は、表示されたコンテンツを特定のゲーム（ここでは、チームアルファ対シータのサッカーの試合）に変更することを含むことができる。１つの実施例では、ユーザデバイス１０２上にゲームを表示することができる。ただし、他の実施例では、メディアコンテンツを再生するという要求を含むクエリに基づいて、テレビセットトップボックス１０４を介して、ゲームを表示することができる。詳細には、ユーザ意図がメディアコンテンツを再生するという要求を含むと判定したことに応じて、システムは、（図１５のインタフェース１２５４内とは対照的に）テレビセットトップボックス１０４を介してディスプレイ１１２上に、メディアコンテンツ結果を表示すると判定することができる。いくつかの実施例では、インタフェース１２５４に、又はディスプレイ１１２上に、仮想アシスタントが意図するアクションを確認する応答又はパラフレーズ（例えば、「サッカーの試合に変更して。」）を表示することができる。
［０１４３］
図１６は、メディア表示デバイス及びモバイルユーザデバイス上のメディア結果を備える例示的な仮想アシスタント対話を示す。いくつかの実施例では、仮想アシスタントは、ユーザデバイス１０２とテレビセットトップボックス１０４の双方の上でのメディアへのアクセスを提供することができる。更に、いくつかの実施例では、ユーザデバイス１０２上のメディアのために使用される同じ仮想アシスタントインタフェースを使用して、テレビセットトップボックス１０４上のメディアについての要求を発行することができる。したがって、仮想アシスタントシステムは、結果を、テレビセットトップボックス１０４を介してユーザデバイス１０２上に表示すべきか、あるいはディスプレイ１１２上に表示すべきかを判定することができる。
［０１４４］
いくつかの実施例では、メディ結果フォーマット、ユーザの好み、デフォルト設定、要求自体中の明示コマンドなどに基づいて、デバイス１０２又はディスプレイ１１２上にメディアを表示すべきかどうかにつて判定を行うことができる。例えば、クエリに対するメディア結果のフォーマットを使用して、（例えば、特定の命令なしに）デフォルトでメディア結果をどのデバイス上に表示するかを判定することができる。テレビプログラムは、テレビ上に表示するのにより一層適することがあり、ラージフォーマットの動画は、テレビ上に表示するのにより一層適することがあり、サムネイル写真は、ユーザデバイス上に表示するのにより一層適することがあり、スモールフォーマットのウェブ動画は、ユーザデバイス上に表示するのにより一層適することがあり、種々の他のメディアフォーマットは、比較的大きいテレビスクリーン又は比較的小さいユーザデバイスのディスプレイのいずれかに表示するのにより一層適することがある。したがって、（例えば、メディアフォーマットに基づいて）特定のディスプレイ上にメディアコンテンツを表示すべきであるという判定に応じて、デフォルトで、その特定のディスプレイ上にメディアコンテンツを表示することができる。
［０１４５］
図１６は、メディアコンテンツを再生すること又は表示することに関係するクエリの実施例と共に、仮想アシスタントインタフェース１２５４を示す。アシスタントグリーティング１２５６は、ユーザに要求を行うようにプロンプトを出すことができる。第１のクエリにおいて、音声表記されたユーザ発語１６８０は、サッカーの試合を表示するという要求を含む。上記で論じた実施例と同様に、（例えば、ユーザがどのゲームを望むかを識別するために）図５のインタフェース５１０に列挙されたゲーム、図１１のインタフェース１１５０に列挙されたゲーム、以前のクエリで参照されたゲームなど、表示されたコンテンツに基づいて、音声表記されたユーザ発語１６８０のユーザ意図を判定することができる。したがって、音声表記されたユーザ発語１６８０のユーザ意図は、例えば、テレビで放送され得る特定のサッカーの試合を表示することを含むことができる。ユーザ意図が、テレビ用にフォーマットされるメディア（例えば、テレビ放送されるサッカーの試合）を表示するという要求を含むと判定したことに応じて、システムは、所望のメディアを、テレビセットトップボックス１０４を介して（ユーザデバイス１０２自体上とは対照的に）ディスプレイ１１２上に表示することを自動的に判定することができる。次いで、仮想アシスタントシステムは、（例えば、必要なタスクを実行すること、及び／又は適切なコマンドを送信することによって）テレビセットトップボックス１０４を、サッカーの試合に同調させ、ディスプレイ１１２上にそれを表示することができる。
［０１４６］
ただし、第２のクエリでは、音声表記されたユーザ発語１６８２は、チームの選手の写真（例えば、「チームアルファ」の写真）を表示するとう要求を含む。上記で説明した実施例と同様に、音声表記されたユーザ発語１６８２のユーザ意図を判定することができる。音声表記されたユーザ発語１６８２のユーザ意図は、「チームアルファ」と関連付けられた写真の検索（例えば、ウェブ検索）を実行することと、得られた写真を表示することとを含むことができる。ユーザ意図が、サムネイルフォーマットで提示することができるメディア、又は、特定のフォーマットなしに、ウェブ検索と関連付けられたメディア若しくは他の不特定メディアを表示するという要求を含むと判定したことに応じて、システムは、（得られた写真を、テレビセットトップボックス１０４を介してディスプレイ１１２上に表示することとは対照的に）ユーザデバイス１０２のインタフェース１２５４において、タッチスクリーン２４６上に所望のメディア結果を表示することを自動的に判定することができる。例えば、図示のとおり、ユーザのクエリに応じて、ユーザデバイス１０２上のインタフェース１２５４内にサムネイル写真１６８４を表示することができる。したがって、仮想アシスタントシステムは、デフォルトで、ある特定のフォーマットのメディアを、又はある特定のフォーマットで（例えば、サムネイルのグループで）提示され得るメディアを、ユーザデバイス１０２上に表示させることができる。
［０１４７］
いくつかの実施例では、ユーザデバイス１０２上にユーザ発語１６８０で参照されたサッカーの試合を表示することができ、テレビセットトップボックス１０４を介してディスプレイ１１２上に写真１６８４を表示することができることを了解されたい。ただし、メディアフォーマットに基づいて、表示用のデフォルトデバイスを自動的に判定することができ、それにより、ユーザのためのメディアコマンドが簡略化される。他の実施例では、ユーザの好み、デフォルト設定、コンテンツを表示するために直近に使用されたデバイス、ユーザを識別する音声認識、そのユーザと関連付けられたデバイスなどに基づいて、要求されたメディアコンテンツを表示するためのデフォルトデバイスを判定することができる。例えば、ユーザが好みを設定することができる、あるいは、ある特定の種類のコンテンツ（例えば、動画、スライドショー、テレビプログラムなど）を、テレビセットトップボックス１０４を介してディスプレイ１１２上に表示し、他の種類のコンテンツ（例えば、サムネイル、写真、ウェブ動画など）を、ユーザデバイス１０２のタッチスクリーン２４６上に表示するように、デフォルト構成を設定することができる。同様に、１つのデバイス又はその他にコンテンツを表示することによって、ある特定のクエリに応答するように、好み又はデフォルト構成を設定することができる。別の実施例では、ユーザが特段別に命令しない限り、全てのコンテンツをユーザデバイス１０２上に表示することができる。
［０１４８］
更に他の実施例では、ユーザクエリは、特定のディスプレイ上にコンテンツを表示するコマンドを含むことができる。例えば、図１４のユーザ発語１４７２は、キッチンのテレビに写真を表示するコマンドを含む。その結果、システムは、ユーザデバイス１０２上に写真を表示することとは対照的に、ユーザのキッチンと関連付けられたテレビディスプレイ上に、写真を表示させることができる。他の実施例では、ユーザは、種々の他のやり方で、どの表示デバイスを使用すべきか（例えば、ＴＶに、大型スクリーンに、リビングルームに、ベッドルームに、自分のタブレットに、自分の電話に、など）を指示することができる。したがって、種々の異なるやり方で、仮想アシスタントクエリのメディアコンテンツ結果を表示するために使用する表示デバイスを判定することができる。
［０１４９］
図１７は、近接度に基づく例示的なメディアデバイス制御を示す。いくつかの実施例では、ユーザは、同じ家庭内に又は同じネットワーク上に、複数のテレビ及びテレビセットトップボックスを有することができる。例えば、ある家庭は、リビングルームにテレビとセットトップボックスのセットを有し、別のセットをベッドルームに有し、キッチンに別のセットを有していることがある。他の実施例では、アパート又はオフィスビルの共有ネットワークなど、同じネットワークに、複数のセットトップボックスを接続することができる。ユーザは、未認証のアクセスを回避するために、特定のセットトップボックスについて遠隔制御１０６とユーザデバイス１０２とをペアリングすること、接続すること、あるいは場合によっては認証することができるが、他の実施例では、遠隔制御及び／又はユーザデバイスを使用して、２つ以上のセットトップボックスを制御することができる。ユーザは、例えば、単一のユーザデバイス１０２を使用して、ベッドルームの、リビングルームの、及びキッチンのセットトップボックスを制御することができる。ユーザはまた、例えば、単一のユーザデバイス１０２を使用して、自身のアパートの自身のセットトップボックスを制御するばかりでなく、近隣のアパートの近隣のセットトップボックスを制御する（例えば、ユーザデバイス１０２に記憶された写真のスライドショーを近隣のＴＶ上に表示するなど、ユーザデバイス１０２からのコンテンツを近隣と共有する）ことができる。ユーザは、単一のユーザデバイス１０２を使用して複数の異なるセットトップボックスを制御することができるので、システムは、複数セットトップボックスのうち、どのセットトップボックスにコマンドを送信すべきかを判定することができる。同様に、複数のセットトップボックスを動作することができる複数の遠隔制御１０６を家庭に装備することができるので、システムは同様に、複数セットトップボックスのうち、どのセットトップボックスにコマンドを送信すべきかを判定することができる。
［０１５０］
１つの実施例では、デバイスの近接度を使用して、複数のセットトップボックスのうち、どれにコマンドを送近隣のＴＶ上に送るべきか（又は、要求されたメディアコンテンツをどのディスプレイ上に表示すべきか）を判定することができる。ユーザデバイス１０２又は遠隔制御１０６と複数のセットトップボックスの各々との間で、近接度を判定することができる。次いで、最も近いセットトップボックスに、発行されたコマンドを送信することができる（又は、最も近いディスプレイ上に、要求されたメディアコンテンツを表示することができる）。（例えば、無線周波数を使用する）飛行時間測定、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＬＥ、電子ピング信号、近接センサ、サウンドトラベル測定など、種々のやり方のいずれかで、近接度を判定する（又は、少なくとも概算する）ことができる。次いで、測定又は概算した距離を比較することができ、最短距離のデバイス（例えば、最も近いセットトップボックス）にコマンドを発行することができる。
［０１５１］
図１７は、第１のディスプレイ１７８６を備える第１のセットトップボックス１７９２と、第２のディスプレイ１７８８を備える第２のセットトップボックス１７９４とを含むマルチデバイスシステム１７９０を示す。１つの実施例では、ユーザは、ユーザデバイス１０２から、（例えば、どこにかを、又はどのデバイス上にかを必ずしも指定することなく）メディアコンテンツを表示するコマンドを発行することができる。次いで、第１のセットトップボックス１７９２までの距離１７９５及び第２のセットトップボックス１７９４までの距離１７９６を判定する（又は、概算する）ことができる。図示のとおり、距離１７９６を、距離１７９５よりも長くすることができる。近接度に基づいて、ユーザデバイス１０２からのコマンドを、最も近いデバイスであり、ユーザの意図と一致する見込みが最も高い第１のセットトップボックス１７９２に発行することができる。いくつかの実施例では、単一の遠隔制御１０６を使用して、２つ以上のセットトップボックスを制御することもできる。近接度に基づいて、所与の時間に制御するための所望のデバイスを判定することができる。次いで、第２のセットトップボックス１７９４までの距離１７９７及び第１のセットトップボックス１７９２までの距離１７９８を判定する（又は、概算する）ことができる。図示のとおり、距離１７９８を、距離１７９７よりも長くすることができる。近接度に基づいて、遠隔制御１０６からのコマンドを、最も近いデバイスであり、ユーザの意図と一致する見込みが最も高い第２のセットトップボックス１７９４に発行することができる。例えば、ユーザが異なる部屋に移動したこと、及びユーザが異なるデバイスを制御したいと望んでいることに適応するように、距離測定を定期的に、又はコマンド毎にリフレッシュすることができる。
［０１５２］
ユーザは、コマンドについて異なるデバイスを指定することができ、いくつかの場合には近接度をオーバーライドすることを理解されたい。例えば、ユーザデバイス１０２上に、利用可能な表示デバイスのリストを表示することができる（例えば、セットアップ名、指定された部屋などによって、第１のディスプレイ１７８６及び第２のディスプレイ１７８８がリストアップされる、又はセットアップ名、指定された部屋などによって、第１のセットトップボックス１７９２及び第２のセットトップボックス１７９４がリストアップされる）。ユーザは、そのリストからデバイスのうちの１つを選択することができる。次いで、選択されたデバイスに、コマンドを送信することができる。次いで、選択されたデバイス上に所望のメディアを表示することによって、ユーザデバイス１０２で発行されたメディアコンテンツの要求を処理することができる。他の実施例では、ユーザは、口頭コマンドの一部として、所望のデバイスを発語することができる（例えば、キッチンのテレビに試合を表示して、リビングルームで漫画チャンネルに変えて、など）。
［０１５３］
更に他の実施例では、特定のデバイスと関連付けられたステータス情報に基づいて、要求されたメディアコンテンツを表示するためのデフォルトデバイスを判定することができる。例えば、ユーザデバイス１０２にヘッドホン（又はヘッドセット）が取り付けられているかどうかを判定することができる。メディアコンテンツを表示するという要求を受信した時に、ユーザデバイス１０２にヘッドホンが取り付けられていると判定したことに応じて、（例えば、ユーザがテレビではなくユーザデバイス１０２上でコンテンツを消費すると仮定すると）要求されたコンテンツを、デフォルトで、ユーザデバイス１０２上に表示することができる。メディアコンテンツを表示するという要求を受信した時に、ユーザデバイス１０２にヘッドホンが取り付けられていないと判定したことに応じて、本明細書で論じる種々の判定方法のうちのいずれかに従って、要求されたコンテンツを、ユーザデバイス１０２又はテレビのいずれかに表示することができる。同様に、ユーザデバイス１０２又はセットトップボックス１０４の周りの環境光、ユーザデバイス１０２又はセットトップボックス１０４に対する他のデバイスの近接度、ユーザデバイス１０２の向き（例えば、横長方向は、ユーザデバイス１０２上の所望のビューをより示し易くすることができる）、セットトップボックス１０４のディスプレイ状態（例えばスリープモード中）、特定のデバイス上の最後の対話以後の時間、あるいは、ユーザデバイス１０２及び／又はセットトップボックス１０４のための種々の他のステータスインジケータのうちのいずれかなど、他のデバイスステータス情報を使用して、要求されたメディアコンテンツをユーザデバイス１０２上に表示すべきか、あるいはセットトップボックス１０４上に表示すべきかを判定することができる。
［０１５４］
図１８は、仮想アシスタント及び複数のユーザデバイスを使用してテレビ対話を制御するための例示的なプロセス１８００を示す。ブロック１８０２で、第１のディスプレイを備える第１のデバイスにおいて、ユーザからの発語入力を受信することができる。例えば、システム１００のユーザデバイス１０２又は遠隔制御１０６において、ユーザからの発語入力を受信することができる。いくつかの実施例では、第１のディスプレイは、ユーザデバイス１０２のタッチスクリーン２４６、又は遠隔制御１０６と関連付けられたディスプレイを含むことができる。
［０１５５］
ブロック１８０４で、第１のディスプレイ上に表示されたコンテンツに基づいて、発語入力からユーザの意図を判定することができる。例えば、図１１のインタフェース１１５０におけるテレビプログラム１１５２、あるいは図１３のインタフェース１３６０における写真及び動画などのコンテンツを分析し、それを使用して発語入力についてのユーザ意図を判定することができる。いくつかの実施例では、ユーザは、第１のディスプレイ上に表示されたコンテンツを曖昧に参照することがあり、図１２及び図１４を参照して上記で論じたように、第１のディスプレイ上に示されたコンテンツを分析して、その参照を解釈する（例えば、「その」動画、「その」アルバム、「その」試合などについてのユーザ意図を判定する）ことによって、参照の曖昧性を回避することができる。
［０１５６］
再び図１８のプロセス１８００を参照すると、ブロック１８０６で、ユーザ意図に基づいて、メディアコンテンツを判定することができる。例えば、ユーザ意図に基づいて、特定の動画、写真、フォトアルバム、テレビプログラム、スポーツイベント、音楽トラックなどを識別することができる。上記で論じた図１１及び図１２の実施例では、例えば、図１１のインタフェース１１５０に表示される「その」サッカーの試合を参照しているユーザ意図に基づいて、チャンネル５に表示される特定のサッカーの試合を識別することができる。上記で論じた図１３及び図１４の実施例では、図１４の発語入力例から判定されるユーザ意図に基づいて、「卒業式の動画」というタイトルの特定の動画１３６２、「卒業式のアルバム」というタイトルの特定のフォトアルバム１３６４、又は特定の写真１３６６を識別することができる。
［０１５７］
再び図１８のプロセス１８００を参照すると、ブロック１８０８で、第２のディスプレイと関連付けられた第２のデバイス上に、メディアコンテンツを表示することができる。例えば、判定したメディアコンテンツを、テレビセットトップボックス１０４を介して、スピーカ１１１を備えるディスプレイ１１２上で再生することができる。メディアコンテンツを再生することは、テレビセットトップボックス１０４又は別のデバイス上で、特定のテレビチャンネルに同調させること、特定の動画を再生すること、写真のスライドショーを表示すること、特定の写真を表示すること、特定のオーディオトラックを再生することなどを含むことができる。
［０１５８］
いくつかの実施例では、仮想アシスタントにダイレクトされた発語入力への応答を、第１のデバイス（例えば、ユーザデバイス１０２）と関連付けられた第１のディスプレイ上に表示すべきか、あるいは、第２のデバイス（例えば、テレビセットトップボックス１０４）と関連付けられた第２のディスプレイ上に表示すべきかについて、判定を行うことができる。例えば、図１５及び図１６を参照して上記で論じたように、ユーザデバイス１０２上には、より小さいスクリーン上での表示に適した情報回答又はメディアコンテンツを表示することができる一方で、セットトップボックス１０４と関連付けられたディスプレイ上には、より大きいスクリーン上での表示に適したメディア応答又はメディアコンテンツを表示することができる。図１７を参照して上記で論じたように、いくつかの実施例では、ユーザデバイス１０２と複数のセットトップボックスとの間の距離を使用して、どのセットトップボックス上でメディアコンテンツを再生すべきか、あるいは、どのセットトップボックスにコマンドを発行すべきかを判定することができる。同様に、複数のデバイスが対話し得る便利でユーザフレンドリなエクスペリエンスを提供するために、種々の他の判定を行うことができる。
［０１５９］
いくつかの実施例では、上記で論じたように、ユーザデバイス１０２上に表示されたコンテンツを使用して、発語入力の解釈を通知することができるので、同様に、ディスプレイ１１２上に表示されたコンテンツを使用して、発語入力の解釈を通知することができる。詳細には、テレビセットトップボックス１０４と関連付けられたディスプレイ上に表示されたコンテンツを、そのコンテンツと関連付けられたメタデータと共に使用して、発語入力からユーザ意図を判定すること、ユーザクエリの曖昧性を回避すること、コンテンツに関係するクエリに応答することなどを行うことができる。
［０１６０］
図１９は、（上述した）例示的な発語入力インタフェース４８４を示しており、動画４８０に関する仮想アシスタントクエリがバックグラウンドに表示されている。いくつかの実施例では、ユーザクエリは、ディスプレイ１１２に表示されたメディアコンテンツに関する質問を含むことができる。例えば、音声表記１９１６は、女優の識別を要求するクエリを含む（「それらの女優は誰？」）。ディスプレイ１１２上に表示されたコンテンツを（そのコンテンツに関するメタデータ又は他の記述情報と共に）使用して、そのコンテンツに関係する発語入力からユーザ意図を判定するだけでなく、クエリに対する応答（ユーザにメディア選択を提供する、情報応答並びにメディア応答を含む応答）を判定することができる。例えば、動画４８０、動画４８０の記述、動画４８０のキャラクターと俳優のリスト、動画４８０のレーティング情報、動画４８０のジャンル情報、及び動画４８０と関連付けられた種々の他の記述情報を使用して、ユーザ要求の曖昧性を回避し、ユーザクエリに対する応答を判定することができる。関連付けられたメタデータは、例えば、キャラクター１９１０とキャラクター１９１２とキャラクター１９１４との識別情報（例えば、そのキャラクターを演じる女優の名を伴うキャラクター名）を含むことができる。同様に、任意の他のコンテンツのメタデータは、タイトル、説明、キャラクターのリスト、俳優のリスト、選手のリスト、ジャンル、プロデューサー名、ディレクター名、又はディスプレイ上に表示されたコンテンツ若しくはディスプレイ上のメディアコンテンツの閲覧履歴（例えば、最近表示されたメディア）と関連付けられた表示スケジュールを含むことができる。
［０１６１］
１つの実施例では、仮想アシスタントにダイレクトされたユーザクエリは、ディスプレイ１１２上に表示されたものへの曖昧な参照を含むことができる。音声表記１９１６は、例えば、「それらの」女優への参照を含む（「それらの女優は誰？」）。ユーザが尋ねている特定の女優は、発語入力のみからでは不明瞭であることがある。ただし、いくつかの実施例では、ディスプレイ１１２上に表示されたコンテンツ及び関連メタデータを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。例示した実施例では、ディスプレイ１１２に表示されたコンテンツを使用して、「それらの」女優に対する参照から、ユーザ意図を判定することができる。１つの実施例では、テレビセットトップボックス１０４は、コンテンツと関連付けられた詳細と共にコンテンツを再生することを識別することができる。この事例では、テレビセットトップボックス１０４は、種々の記述コンテンツと共に動画４８０のタイトルを識別することができる。他の実施例では、テレビ番組、スポーツイベント又は他のコンテンツを、関連付けられたメタデータと併せて使用して、ユーザ意図を判定することができる。更に、本明細書で論じる種々の実施例のうちのいずれかでは、発語認識結果及び意図判定は、表示されたコンテンツと関連付けられた用語を、代替物よりも高く重み付けすることができる。例えば、スクリーン上のキャラクターの俳優がスクリーン上に現れている間（又は、彼らが出演している番組を再生している間）、彼らの俳優名により高く重み付けすることができ、それにより、表示されたコンテンツと関連付けられた、可能性が高いユーザ要求の正確な発語認識及び意図判定を行うことができる。
［０１６２］
１つの実施例では、動画４８０と関連付けられたキャラクター及び／又は俳優のリストを使用して、動画４８０に出演している全ての又は最も目立った女優を識別することができ、そこには、女優１９１０、１９１２及び１９１４が含まれ得る。識別された女優を、可能な結果として戻すことができる（メタデータの分解能が粗い場合には、より少数の又は追加の女優が含まれる）。別の実施例では、動画４８０と関連付けられたメタデータは、所与の時間にスクリーン上に現れている俳優及び女優の識別情報を含むことができ、そのメタデータから、クエリ時に現れている女優を判定することができる（例えば、詳細には、女優１９１０、１９１２及び１９１４が識別される）。更に別の実施例では、顔認識アプリケーションを使用して、ディスプレイ１１２上に表示された画像から、女優１９１０、１９１２及び１９１４を識別することができる。更に他の実施例では、動画４８０と関連付けられた種々の他のメタデータ、及び種々の他の認識手法を使用して、「それらの」女優を参照する際のユーザの可能性がある意図を識別することができる。
［０１６３］
いくつかの実施例では、ディスプレイ１１２上に表示されたコンテンツは、クエリの発信及び応答の判定中に変化することがある。したがって、メディアコンテンツの閲覧履歴を使用して、ユーザ意図を判定し、クエリに対する応答を判定することができる。例えば、クエリに対する応答が生成される前に、動画４８０が（例えば、他のキャラクターがいる）別のビューに動いた場合、クエリが発語された時点のユーザのビュー（例えば、ユーザがクエリを開始した時点でスクリーン上に表示されるキャラクター）に基づいて、クエリの結果を判定することができる。いくつかの事例では、ユーザは、クエリを発行するためにメディアの再生を休止することがあり、休止時に表示されたコンテンツを、関連付けられたメタデータと共に使用して、ユーザ意図及びクエリに対する応答を判定することができる。
［０１６４］
判定したユーザ意図が与えられると、クエリの結果をユーザに提供することができる。図２０は、アシスタント応答２０２０を含む例示的なアシスタント応答インタフェース２０１８を示し、アシスタント応答２０２０は、図１９の音声表記１９１６のクエリから判定される応答を含むことができる。アシスタント応答２０２０は、図示のとおり、動画４８０中の各女優の名前とその関連キャラクターとのリストを含むことができる（「女優ＪｅｎｎｉｆｅｒＪｏｎｅｓは、キャラクターＢｌａｎｃｈｅを演じており、女優ＥｌｉｚａｂｅｔｈＡｒｎｏｌｄは、キャラクターＪｕｌｉａを演じており、女優ＷｈｉｔｎｅｙＤａｖｉｄｓｏｎは、キャラクターＭｅｌｉｓｓａを演じています。」）。応答２０２０中の列挙された女優及びキャラクターは、ディスプレイ１１２上に現れているキャラクター１９１０、１９１２及び１９１４に対応することができる。上述のように、いくつかの実施例では、ディスプレイ１１２上に表示されたコンテンツは、クエリの発信及び応答の判定中に変化することがある。したがって、応答２０２０は、ディスプレイ１１２上にはもはや現れていないコンテンツ又はキャラクターに関する情報を含むことができる。
［０１６５］
ディスプレイ１１２上に表示される他のインタフェースの場合と同様に、アシスタント応答インタフェース２０１８が占めるスクリーンの面積を、所望の情報を伝達するのに十分なスペースを提供しながら、最小量に抑えることができる。いくつかの実施例では、ディスプレイ１１２上のインタフェースに表示される他のテキストの場合と同様に、アシスタント応答２０２０を、ディスプレイ１１２の下部から図２０に示した位置へとスクロールアップし、ある特定の時間量（例えば、応答の長さに基づく遅延）にわたって表示し、スクロールアップさせてビューから消すことができる。他の実施例では、遅延後に、インタフェース２０１８を下向きにスライドしてビューから消すことができる。
［０１６６］
図２１及び図２２は、ディスプレイ１１２に表示されたコンテンツに基づくユーザ意図の判定とクエリに対する応答との別の実施例を示す。図２１は、動画４８０と関連付けられたメディアコンテンツに関する仮想アシスタントクエリを示す例示的な発語入力インタフェース４８４を示す。いくつかの実施例では、ユーザクエリは、ディスプレイ１１２に表示されたメディアと関連付けられたメディアコンテンツに関する要求を含むことができる。例えば、ユーザは、例えば、キャラクター、俳優、ジャンルなどに基づいて、特定のメディアと関連付けられた他の映画、テレビプログラム、スポーツイベントなど要求することができる。例えば、音声表記２１２２は、動画４８０における女優のキャラクターの名前を参照して、動画４８０の女優と関連付けられた他のメディアを要求するクエリを含む（「Ｂｌａｎｃｈｅは他に何に出演している？」）。同じく、ディスプレイ１１２上に表示されたコンテンツを（そのコンテンツに関するメタデータ又は他の記述情報と共に）使用して、そのコンテンツに関係する発語入力からユーザ意図を判定するだけでなく、クエリに対する応答（情報応答、又はメディア選択における得られる応答のいずれか）を判定することができる。
［０１６７］
いくつかの実施例では、仮想アシスタントにダイレクトされたユーザクエリは、キャラクターの名前、俳優の名前、プログラムの名前、選手の名前などを使用する曖昧な参照を含むことができる。ディスプレイ１１２上に表示されたコンテンツのコンテキスト及びその関連メタデータなしには、そのよう参照を正確に解釈するのは難しいことがある。音声表記２１２２は、例えば、動画４８０の「Ｂｌａｎｃｈｅ」という名前のキャラクターに対する参照を含む。ユーザが尋ねている特定の女優又は他の人は、発語入力のみからでは不明瞭であることがある。ただし、いくつかの実施例では、ディスプレイ１１２上に表示されたコンテンツ及び関連メタデータを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。例示した実施例では、ディスプレイ１１２に表示されたコンテンツ及び関連メタデータを使用して、キャラクター名「Ｂｌａｎｃｈｅ」から、ユーザ意図を判定することができる。この事例では、動画４８０と関連付けられたキャラクターリストを使用して、「Ｂｌａｎｃｈｅ」が動画４８０のキャラクター「Ｂｌａｎｃｈｅ」を参照する可能性があることを判定することができる。別の実施例では、詳細なメタデータ及び／又は顔認識を使用して、スクリーンに名前が「Ｂｌａｎｃｈｅ」のキャラクターが現れている（又は、ユーザのクエリの開始時にスクリーン上にあらわ割れていた）ことを判定し、そのキャラクターと関連付けられた女優を、最も可能性の高いユーザのクエリの意図とすることができる。例えば、キャラクター１９１０、１９１２及び１９１４がディスプレイ１１２上に現れている（又は、ユーザのクエリの開始時にディスプレイ１１２上に現れていた）と判定することができ、次いで、彼らの関連付けられたキャラクター名を参照して、キャラクターＢｌａｎｃｈｅを参照しているクエリのユーザ意図を判定することができる。次いで、俳優リストを使用して、Ｂｌａｎｃｈｅを演じる女優を識別することができ、識別された女優が出演している他のメディアを識別するために検索を行うことができる。
［０１６８］
判定したユーザ意図（例えば、キャラクター参照「Ｂｌａｎｃｈｅ」の解釈）、及びクエリの結果の判定（例えば、「Ｂｌａｎｃｈｅ」を演じる女優と関連付けられた他のメディア）が与えられると、応答をユーザに提供することができる。図２２は、アシスタントテキスト応答２２２６と選択可能な動画リンク２２２８とを含む例示的なアシスタント応答インタフェース２２２４を示し、それは、図２１の音声表記２１２２のクエリに応じることができる。アシスタントテキスト応答２２２６は、図示のとおり、選択可能な動画リンク２２２８を紹介するユーザ要求のパラフレーズを含むことができる。また、アシスタントテキスト応答２２２６は、ユーザのクエリの曖昧性除去の指示を含むことができる（詳細には、動画４８０においてキャラクターＢｌａｎｃｈｅを演じる女優ＪｅｎｎｉｆｅｒＪｏｎｅｓを識別する）。そのようなパラフレーズは、仮想アシスタントがユーザのクエリを正しく解釈し、所望の結果を提供していることをユーザに確認することができる。
［０１６９］
また、アシスタント応答インタフェース２２２４は、選択可能な動画リンク２２２８を含むことができる。いくつかの実施例では、仮想アシスタントクエリに対する結果として、映画（例えば、インタフェース２２２４の映画Ａ及び映画Ｂ）を含む種々の種類のメディアコンテンツを提供することができる。クエリの結果として表示されるメディアコンテンツは、（無料で、購入して、又はサブスクリプションの一部として）ユーザが消費するために利用可能であり得るメディアを含むことができる。ユーザは、表示されたメディアを選択して、得られたコンテンツを閲覧又は消費することができる。例えば、ユーザは、女優ＪｅｎｎｉｆｅｒＪｏｎｅｓが出演している他の映画のうちの１つを視聴するために、（例えば、遠隔制御、音声コマンドなどを使用して）選択可能な動画リンク２２２８のうちの１つを選択することができる。選択可能な動画リンク２２２８のうちの１つの選択に応じて、その選択と関連付けられた動画を再生し、ディスプレイ１１２上の動画４８０を置換することができる。したがって、表示されたメディアコンテンツ及び関連メタデータを使用して、発語入力からユーザ意図を判定することができ、いくつかの実施例では、結果として、再生可能なメディアを提供することができる。
［０１７０］
ユーザは、クエリを形成する際に、表示されたコンテンツと関連付けられた、俳優、選手、キャラクター、場所、チーム、スポーツイベントの詳細、映画の主題、又は種々の他の情報を参照することができ、仮想アシスタントシステムは、同様に、表示されたコンテンツ及び関連メタデータに基づいて、そのような要求の曖昧性を回避し、ユーザ意図を判定することができることを理解されたい。同様に、いくつかの実施例では、結果は、（ユーザがそのようなメディアコンテンツを具体的には要求するか否かにかかわらず）クエリの主題である人物と関連付けられた、映画、テレビ番組又はスポーツイベントなど、クエリと関連付けられたメディア推薦を含むことができることを理解されたい。
［０１７１］
更に、いくつかの実施例では、ユーザクエリは、キャラクター、エピソード、映画のプロット、以前のシーンなどに関するクエリのような、メディアコンテンツ自体と関連付けられた情報の要求を含むことができる。上記で論じた実施例の場合と同様に、表示されたコンテンツ及び関連メタデータを使用して、そのようなクエリからユーザ意図を判定し、応答を判定することができる。例えば、ユーザは、キャラクターの記述を要求することがある（例えば、「Ｂｌａｎｃｈｅは、この映画で何をしている？」）。次いで、仮想アシスタントシステムは、表示されたコンテンツと関連付けられたメタデータから、キャラクターの記述又は配役など、キャラクターに関する要求された情報を識別することができる（例えば、「Ｂｌａｎｃｈｅは、弁護士のグループの１人であり、Ｈａｒｔｆｏｒｄのトラブルメーカーとして知られている。）。同様に、ユーザは、エピソードの概要を要求することがあり（例えば、「最後のエピソードで何が起こった？」）、仮想アシスタントシステムは、エピソードの記述を検索し、それを提供することができる。
［０１７２］
いくつかの実施例では、ディスプレイ１１２上に表示されたコンテンツは、メニューコンテンツを含むことができ、そのようなメニューコンテンツを同様に使用して、発語入力のユーザ意図及びユーザクエリに対する応答を判定するために使用されることができる。図２３Ａ〜図２３Ｂは、プログラムメニュー８３０の例示的なページを示す図である。図２３Ａは、メディアオプション８３２の第１のページを示し、図２３Ｂは、（２ページ以上にわたるコンテンツのリストの連続する次のページを含むことができる）メディアオプション８３２の第２のページを示す。
［０１７３］
１つの実施例では、コンテンツを再生するというユーザ要求は、メニュー８３０における、ディスプレイ１１２上に表示されたものへの曖昧な参照を含むことができる。例えば、ユーザが閲覧するメニュー８３０は、「その」サッカーの試合、「その」バスケットボールの試合、掃除機の広告、法律番組などを視聴することを要求することができる。所望される特定のプログラムは、発語入力のみからでは不明瞭であることがある。ただし、いくつかの実施例では、デバイス１１２上に表示されたコンテンツを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。例示した実施例では、メニュー８３０のメディアオプションを（いくつかの実施例では、メディアオプションと関連付けられたメタデータと共に）使用して、曖昧な参照を含むコマンドから、ユーザ意図を判定することができる。例えば、「その」サッカーの試合は、スポーツチャンネルのサッカーの試合と解釈することができる。「その」バスケットボールの試合は、カレッジスポーツチャンネルのバスケットボールの試合と解釈することができる。掃除機の広告は、（例えば、掃除機について説明している番組と関連付けられたメタデータに基づいて）テレビショッピング番組と解釈することができる。法律番組は、番組と関連付けられたメタデータ、及び／又はシノニムマッチング、ファジーマッチング若しくは他のマッチング技術に基づいて、法廷ドラマと解釈することができる。したがって、ディスプレイ１１２上のメニュー８３０に種々のメディアオプション８３２が現れていることを使用して、ユーザ要求の曖昧性を回避することができる。
［０１７４］
いくつかの実施例では、カーソル、ジョイスティック、矢印、ボタン、ジェスチャなどで、表示されたメニューをナビゲートすることができる。そのような場合、選択された項目についてフォーカスを表示することができる。例えば、選択された項目は、太字で、下線を付して、枠線で囲み、他のメニュー項目よりも大きなサイズで、影付きで、反射させて、光らせて、及び／又は、どのメニュー項目が選択され、フォーカスを有するかを強調する任意の他の特徴部を用いて示される。例えば、図２３Ａの選択されたメディアオプション２３３０は、現在選択されているメディアオプションとしてフォーカスを有することができ、大きく下線付きでタイプされ、枠線を用いて示されている。
［０１７５］
いくつかの実施例では、コンテンツ又はメニュー項目を再生又は選択するという要求は、フォーカスを有するメニュー項目の曖昧な参照を含むことができる。例えば、図２３Ａのユーザが閲覧しているメニュー８３０は、「その」番組を再生すること要求することができる（例えば、「その番組を再生して。」）。同様に、ユーザは、再生、削除、非表示、視聴リマインダ、録画など、フォーカスを有するメニュー項目と関連付けられた種々の他のコマンドを要求することができる。所望される特定のメニュー項目又は番組は、発語入力のみからでは不明瞭であることがある。ただし、デバイス１１２上に表示されたコンテンツを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。詳細には、選択されたメディアオプション２３３０は、メニュー８３０にフォーカスを有するという事実を使用して、「その」番組を参照するコマンド、主題のないコマンド（例えば、再生、削除、非表示など）、又はフォーカスを有するメディアコンテンツを参照する任意の他の曖昧なコマンドのうちのいずれかの所望のメディアの主題を識別することができる。したがって、発語入力からユーザ意図を判定する際に、フォーカスを有するメニュー項目を使用することができる。
［０１７６］
（例えば、ユーザの要求開始時には表示されていたが、それから経過後に）ユーザ要求の曖昧性を回避するために使用することができるメディアコンテンツの閲覧履歴の場合と同様に、以前に表示されたメニュー又は検索結果コンテンツを同様に使用して、それ以降のメニューコンテンツ又は検索結果コンテンツに移動した後、それ以降のユーザ要求の曖昧性を回避することができる。例えば、図２３Ｂは、追加のメディアオプション８３２を備えるメニュー８３０の第２のページを示す。ユーザは、図２３Ｂに例示した第２のページに進むことができるが、図２３Ａに例示した第１のページに表示されたコンテンツ（例えば、図２３Ａに示したメディアオプション８３２）を再び参照することができる。例えば、メニュー８３０の第２のページに移動したにもかかわらず、ユーザは、「その」サッカーの試合、「その」バスケットボールの試合又は法律番組の視聴を要求することができ、それらは全て、メニュー８３０の以前のページに最近表示されたメディアオプション８３２である。そのような参照は曖昧であることがあるが、メニュー８３０の第１のページのうち最近表示されたメニューコンテンツを使用して、ユーザ意図を判定することができる。詳細には、図２３Ａの最近表示されたメディアオプション８３２を分析して、例示的な曖昧な要求で参照される特定のサッカーの試合、バスケットボールの試合、又は法廷ドラマを識別することができる。いくつかの実施例では、コンテンツがどれくらい最近表示されたかに基づいて、結果にバイアスをかける（例えば、以前に閲覧された結果よりも、結果の直近に閲覧されたページに重み付けする）ことができる。このようにすると、ディスプレイ１１２上に最近表示されたものの閲覧履歴を使用して、ユーザ意図を判定することができる。以前に表示された検索結果、以前に表示されたプログラム、以前に表示されたメニューなど、任意の最近表示されたコンテンツを使用することができることを理解されたい。これにより、ユーザは、自身が見た特定のビューを発見し、それにナビゲートすることなく、以前に見たものを再び参照することが可能になる。
［０１７７］
更に他の実施例では、デバイス１１２上のメニュー又は結果リストに表示された種々の表示キューを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。図２４は、カテゴリーに分けられた例示的なメディアメニューを示し、それらのうちの１つ（映画）がフォーカスを有する。図２４は、カテゴリーインタフェース２４４０を示し、カテゴリーインタフェース２４４０は、ＴＶオプション２４４２、映画オプション２４４４及び音楽オプション２４４６を含むカテゴリーに分けられたたメディアオプションのカルーセルスタイルのインタフェースを含むことができる。図示のとおり、音楽カテゴリーは一部のみが表示されており、追加のコンテンツを表示するために、カルーセルでメディアを回転させるかのように、（例えば、矢印により示されるように）カルーセルインタフェースを右側にシフトすることができる。例示した実施例では、（例えば、他のカテゴリーよりもユーザに近く見えるように、そのカテゴリーをより大きくする、光を加える、など）種々の他のやり方のいずれかでフォーカスを示すことができるが、映画カテゴリーは、下線付きのタイトル及び枠線によって示されるフォーカスを有する。
［０１７８］
いくつかの実施例では、コンテンツ又はメニュー項目を再生又は選択するという要求は、項目のグループ（カテゴリーなど）におけるメニュー項目の曖昧な参照を含むことができる。例えば、ユーザが閲覧しているカテゴリーインタフェース２４４０は、サッカー番組を再生するように要求することができる（「サッカー番組を再生して。」）。所望される特定のメニュー項目又は番組は、発語入力のみからでは不明瞭であることがある。更に、クエリを、ディスプレイ１１２上に表示される２つ以上の番組と解釈することができる。例えば、サッカー番組の要求は、ＴＶプログラムカテゴリーに列挙されたサッカーの試合、又は映画カテゴリーに列挙されたサッカーの映画のいずれかを指し得る。デバイス１１２上に表示されたコンテンツ（表示キューを含む）を使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。詳細には、カテゴリーインタフェース２４４０において映画カテゴリーがフォーカスを有するという事実を使用して、映画カテゴリー上でフォーカスを与えられたサッカーの映画である、所望される特定のサッカー番組を識別することができる。したがって、発語入力からユーザ意図を判定する際に、ディスプレイ１１２上に表示されるようなフォーカスを有するメディアのカテゴリー（又は、メディアの任意の他のグループ）を使用することができる。また、ユーザは、ある特定のカテゴリーコンテンツの表示を要求するなど、カテゴリーと関連付けられた種々の他の要求を行うことができる（例えば、コメディ映画を表示する、ホラー映画を表示する、など）。
［０１７９］
他の実施例では、ユーザは、種々の他のやり方で、ディスプレイ１１２上に表示されたメニュー又はメディア項目を参照することができる。同様に、表示されたコンテンツに基づいて、ユーザ意図は判定することができる。表示されたコンテンツと関連付けられたメタデータ（例えば、ＴＶプログラムの記述、映画の記述など）、ファジーマッチング技術、シノニムマッチングなどを、発語入力からユーザ意図を判定するために、表示されたコンテンツと併せて更に使用することができることを了解されたい。したがって、自然言語要求を含む種々の形態のユーザ要求を適応することができ、本明細書で論じる種々の実施例に従って、ユーザ意図を判定することができる。
［０１８０］
ディスプレイ１１２に表示されたコンテンツは、単独で使用しても、あるいは、ユーザデバイス１０２上に、又はユーザ意図を判定する際に遠隔制御１０６と関連付けられたディスプレイ上に表示されたコンテンツと併せて使用してもよいことを理解されたい。同様に、テレビセットトップボックス１０４に通信可能に結合された種々のデバイスのいずれかで仮想アシスタントクエリを受信することができ、どのデバイスがクエリを受信するかにかかわらず、ディスプレイ１１２上に表示されたコンテンツを使用してユーザ意図を判定することができることを理解されたい。クエリの結果も同様に、ディスプレイ１１２上に、又は別のディスプレイ上に（例えば、ユーザデバイス１０２上に）表示することができる。
［０１８１］
更に、本明細書では論じる種々の実施例のうちのいずれかでは、仮想アシスタントシステムは、ユーザが、具体的にメニューを開いて、メニュー項目にナビゲートすることを必要とせずに、メニューをナビゲートし、メニューオプションを選択することができる。例えば、図２４における映画オプション２４４４の選択など、メディアコンテンツ又はメニューボタンを選択した後に、オプションのメニューが現れることがある。メニューオプションは、メディアの再生だけでなく、後でメディアを視聴するためにリマインダを設定すること、メディア録画を設定すること、お気に入りリストにメディアを加えること、更なるビューからメディアを非表示にすることなどのような、単なるメディアの再生の代替を含み得る。ユーザが、メニューの上でコンテンツ又はサブメニューオプションを有するコンテンツを閲覧している間、ユーザは、選択するメニュー又はサブメニューにナビゲートすることを場合によっては必要とする仮想アシスタントコマンドを発行することができる。例えば、図２４のユーザが閲覧しているカテゴリーインタフェース２４４０は、関連付けられるメニューを手動で開くことなく、映画オプション２４４４と関連付けられた任意のメニューコマンドを発行することができる。例えば、ユーザは、サッカー映画をお気に入りリストに加えること、夜のニュースを録画すること、映画Ｂを視聴するためのリマインダを設定することを、そのようなコマンドが利用可能であり得るそれらのメディアオプションと関連付けられたメニュー又はサブメニューを常にナビゲートすることなしに要求し得る。したがって、仮想アシスタントシステムは、ユーザに代わってコマンドを実行するために、メニュー及びサブメニューのメニューオプションがディスプレイ１１２上に現れているか否かにかかわらず、メニュー及びサブメニューをナビゲートすることができる。これにより、ユーザ要求を単純にすることができ、ユーザが所望のメニュー機能を達成するために行わなければならないクリック又は選択の回数を低減することができる。
［０１８２］
図２５は、ディスプレイ上の示されたメディアコンテンツとメディアコンテンツの閲覧履歴とを使用して、テレビ対話を制御するための例示的なプロセス２５００を示す。ブロック２５０２で、テレビディスプレイ上に表示されたコンテンツと関連付けられたクエリを含む、ユーザからの発語入力を受信することができる。例えば、発語入力は、（テレビセットトップボックス１０４によって示される）システム１００のディスプレイ１１２上に現れているキャラクター、俳優、映画、テレビプログラム、スポーツイベント、選手などに関するクエリを含むことができる。例えば、図１９の音声表記１９１６は、ディスプレイ１１２上の動画４８０に表示された女優と関連付けられたクエリを含む。同様に、図２１の音声表記２１２２は、例えば、ディスプレイ１１２上に表示された動画４８０中のキャラクターと関連付けられたクエリを含む。また、発語入力は、特定のメニュー項目を選択するためのクエリ、又は特定の検索結果に関する情報を得るためのクエリなど、ディスプレイ１１２上に現れているメニュー又は検索コンテンツと関連付けられたクエリを含むことができる。例えば、表示されたメニューコンテンツは、図２３Ａ及び図２３Ｂにおけるメニュー８３０のメディアオプション８３２を含むことができる。表示されたメニューコンテンツは同様に、図２４のカテゴリーインタフェース２４４０に現れている、ＴＶオプション２４４２、映画オプション２４４４、及び／又は音楽オプション２４４６を含むことができる。
［０１８３］
図２５のプロセス２５００を再び参照すると、ブロック２５０４で、表示されたコンテンツとメディアコンテンツの閲覧履歴とに基づいて、クエリのユーザ意図を判定することができる。例えば、テレビプログラム、スポーツイベント、映画などの表示されている、又は最近表示されたシーンに基づいて、ユーザ意図を判定することができる。また、表示されている、又は最近表示されたメニュー又は検索コンテンツに基づいて、ユーザ意図を判定することができる。また、表示されたコンテンツを、コンテンツと関連付けられたメタデータと共に分析して、ユーザ意図を判定することができる。例えば、図示され、図１９、図２１、図２３Ａ、図２３Ｂ及び図２４を参照して説明したコンテンツを単独で、又は表示されたコンテンツと関連付けられたメタデータと併せて使用して、ユーザ意図を判定することができる。
［０１８４］
ブロック２５０６で、判定したユーザ意図に基づいて、クエリの結果を表示することができる。例えば、図２０のアシスタント応答インタフェース２０１８におけるアシスタント応答２０２０と同様の結果をディスプレイ１１２上に表示することができる。別の実施例では、結果として、図２２に示したアシスタント応答インタフェース２２２４におけるアシスタントテキスト応答２２２６及び選択可能な動画リンク２２２８など、テキスト及び選択可能なメディアを提供することができる。更に別の実施例では、クエリの結果を表示することは、選択されたメディアコンテンツを表示すること、又は再生すること（例えば、選択された動画を、テレビセットトップボックス１０４を介してディスプレイ１１２上で再生すること）を含むことができる。したがって、コンテキストとして表示されたコンテンツ及び関連メタデータを使用する様々なやり方で、発語入力からユーザ意図を判定することができる。
［０１８５］
いくつかの実施例では、例えば、利用可能なクエリをユーザに通知する、ユーザが楽しみ得るコンテンツを推薦する、どのようにシステムを使用するかをユーザに教える、消費のために追加のメディアコンテンツを見つけるようにユーザに勧めるなどのために、ユーザに仮想アシスタントクエリ推薦を提供することができる。いくつかの実施例では、クエリ推薦は、考えられ得るコマンドの包括的な推薦（例えば、コメディを見つける、ＴＶガイドを表示する、アクション映画を検索する、クローズドキャプションをオンにする、など）を含むことができる。他の実施例では、クエリ推薦は、表示されたコンテンツに関係するターゲット推薦（例えば、この番組をウォッチリストに加える、ソーシャルメディアを介してこの番組を共有する、この映画のサウンドトラックを教える、このゲストが販売している本を教える、ゲストがプラグインしている映画のトレーラを教える、など）、ユーザの好み（例えば、クローズドキャプションの使用など）、ユーザが所有するコンテンツ、ユーザのデバイス上に録画されたコンテンツ、通知、アラート、メディアコンテンツの閲覧履歴（例えば、最近表示されたメニュー項目、番組の最近表示されたシーン、俳優の最近の出演など）などを含むことができる。テレビセットトップボックス１０４を介したディスプレイ１１２上での表示、ユーザデバイス１０２上での表示、又は遠隔制御１０６と関連付けられたディスプレイ上での表示を含めて、任意のデバイス上に推薦を表示することができる。更に、近くにあるデバイス、及び／又は特定の時間にテレビセットトップボックス１０４と通信するデバイスに基づいて、推薦を判定する（例えば、特定の時間にＴＶを視聴している室内のユーザのデバイスから、コンテンツを推薦する）ことができる。他の実施例では、時刻、クラウドソースの情報（例えば、所与の時間に視聴されている人気番組）、生放送番組（例えば、ライブスポーツイベント）、メディアコンテンツの閲覧履歴（例えば、最後に視聴されたいくつかの番組、最近閲覧された検索結果のセット、最近閲覧されたメディアオプションのグループなど）、又は種々の他のコンテキスト情報のうちのいずれかを含む、種々の他のコンテキスト情報に基づいて、推薦を判定することができる。
［０１８６］
図２６は、コンテンツベースの仮想アシスタントクエリ推薦２６５２を含む例示的な推薦インタフェース２６５０を示す。１つの実施例では、推薦を要求しているユーザから受信した入力に応じて、インタフェース２６５０などのインタフェースに、クエリ推薦を提供することができる。例えば、ユーザデバイス１０２又は遠隔制御１０６から、クエリ推薦を要求する入力を受信することができる。いくつかの実施例では、入力は、ボタン押下、ボタンのダブルクリック、メニュー選択、音声コマンド（例えば、いくつかの推薦を表示する、何ができるのか、どんなオプションがあるのか、など）、又は、ユーザデバイス１０２若しくは遠隔制御１０６において受信するものを含むことができる。例えば、ユーザは、クエリ推薦を要求するために、遠隔制御１０６上の物理ボタンをダブルクリックすることができ、あるいは、クエリ推薦を要求するために、テレビセットトップボックス１０４と関連付けられたインタフェースの閲覧時にユーザデバイス１０２上の物理ボタン又は仮想ボタンをダブルクリックすることができる。
［０１８７］
動画４８０などの動画像の上に、又は任意の他のバックグラウンドコンテンツ（例えば、メニュー、静止画像、休止された動画など）の上に、推薦インタフェース２６５０を表示することができる。本明細書で論じる他のインタフェースの場合と同様に、ディスプレイ１１２の下部からスライドアップするように推薦インタフェース２６５０をアニメーション化することができ、バックグラウンドの動画４８０との干渉を制限するように、所望の情報を十分に伝達しながら、推薦インタフェース２６５０が占めるスペース量を最小限に抑えることができる。他の実施例では、バックグラウンドコンテンツが静止している時に（例えば、休止された動画、メニュー、画像など）、推薦のインタフェースをより大きくすることができる。
［０１８８］
いくつかの実施例では、表示されたメディアコンテンツ又はメディアコンテンツの閲覧履歴（例えば、映画、テレビ番組、スポーツイベント、最近閲覧された番組、最近閲覧されたメニュー、最近閲覧された映画のシーン、放送中のテレビエピソードの最近のシーンなど）に基づいて、仮想アシスタントクエリ推薦を判定することができる。例えば、図２６は、表示された動画４８０に基づいて判定することができるコンテンツベースの推薦２６５２を示しており、表示された動画４８０はバックグラウンドに表示され、キャラクター１９１０、１９１２及び１９１４がディスプレイ１１２に現れている。また、表示されたコンテンツと関連付けられたメタデータ（例えば、メディアコンテンツの記述的な詳細）を使用して、クエリ推薦を判定することができる。メタデータは、番組タイトル、キャラクターリスト、俳優リスト、エピソードの記述、チーム名簿、チームランキング、番組概要、映画の詳細、プロットの記述、ディレクター名、プロデューサー名、俳優の出演時間、スポーツの順位表、スポーツのスコア、ジャンル、シーズンエピソードリスト、関係するメディアコンテンツ、又は種々の他の関連情報を含めて、表示されたコンテンツと関連付けられた種々の情報を含むことができる。例えば、動画４８０と関連付けられたメタデータは、キャラクター１９１０、１９１２及び１９１４を演じている女優と共に、それらのキャラクター名を含むことができる。メタデータはまた、動画４８０、（動画４８０がシリーズのテレビエピソードである場合）以前の又は次のエピソードの記述など、プロットの記述を含むことができる。
［０１８９］
図２６は、動画４８０及び動画４８０と関連付けられたメタデータに基づいて推薦インタフェース２６５０に示すことができる種々のコンテンツベースの推薦２６５２を示す。例えば、動画４８０のキャラクター１９１０の名前は「Ｂｌａｎｃｈｅ」とすることができ、キャラクター名を使用して、キャラクターＢｌａｎｃｈｅに関する、又はそのキャラクターを演じる女優に関する情報についてのクエリ推薦を策定することができる（例えば、「Ｂｌａｎｃｈｅを演じている女優は誰？」）。動画４８０と関連付けられたメタデータ（例えば、キャラクターリスト、俳優リスト、俳優の出演と関連付けられた時間など）から、キャラクター１９１０を識別することができる。他の実施例では、顔認識を使用して、所与の時間にディスプレイ１１２上に現れる女優及び／又はキャラクターを識別することができる。キャラクターの配役、プロファイル、他のキャラクターとの関係などに関するクエリなど、メディア自体におけるキャラクターと関連付けられた種々の他のクエリ推薦を提供することができる。
［０１９０］
別の実施例では、（例えば、メタデータ及び／又は顔認識に基づいて）ディスプレイ１１２上に現れている俳優又は女優を識別することができ、その俳優又は女優と関連付けられたクエリ推薦を提供することができる。そのようなクエリ推薦は、演じた配役（単数又は複数）、映画賞、年齢、出演している他のメディア、経歴、親族、関係者、又は俳優若しくは女優に関する種々の他の詳細のうちのいずれかを含むことができる。例えば、キャラクター１９１４は、ＷｈｉｔｎｅｙＤａｖｉｄｓｏｎという名前の女優に演じられ得、女優名ＷｈｉｔｎｅｙＤａｖｉｄｓｏｎを使用して、女優ＷｈｉｔｎｅｙＤａｖｉｄｓｏｎが出演している他の映画、テレビプログラム、又は他のメディアを識別するためのクエリ推薦を策定することができる（例えば、「ＷｈｉｔｎｅｙＤａｖｉｄｓｏｎは他に何に出演している？」）。
［０１９１］
他の実施例では、番組に関する詳細を使用してクエリ推薦を策定することができる。エピソードの概要、プロットの要旨、エピソードリスト、エピソードのタイトル、シリーズタイトルなどを使用して、クエリ推薦を策定することができる。例えば、テレビプログラムの最後のエピソードで何が起こったかを説明するための推薦（例えば、「最後のエピソードで何が起こった？」）を提供することができ、仮想アシスタントシステムはそこに、ディスプレイ１１２上に現在表示されているエピソードに基づいて識別される前のエピソードからのエピソードの概要（及びその関連メタデータ）を応答として提供することができる。別の実施例では、次のエピソードの録画を設定するための推薦を提供することができ、それは、システムが、ディスプレイ１１２上に表示された現在放送しているエピソードに基づいて、次のエピソードを識別することによって達成される。更に別の実施例では、ディスプレイ１１２上に現れている現在のエピソード又は番組に関する情報を得るための推薦を提供することができ、メタデータから取得された番組のタイトルを使用して、クエリ推薦を策定することができる（例えば、「『ＴｈｅｉｒＳｈｏｗ』のこのエピソードは何について？」又は「『ＴｈｅｉｒＳｈｏｗ』は何について？」）。
［０１９２］
別の実施例では、表示されたコンテンツと関連付けられたカテゴリー、ジャンル、レーティング、賞、記述などを使用して、クエリ推薦を策定することができる。例えば、動画４８０は、女性が主人公であるコメディとして説明されるテレビプログラムに対応することができる。この情報から、同様の特徴をもつ他の番組を識別するためのクエリ推薦を策定することができる（例えば、「女性が主演の他のコメディを見つけて。」）。他の実施例では、ユーザサブスクリプション、再生するために利用可能なコンテンツ（例えば、テレビセットトップボックス１０４上のコンテンツ、ユーザデバイス１０２上のコンテンツ、ストリーミングために利用可能なコンテンツなどの）などに基づいて、推薦を判定することができる。例えば、情報又はメディア結果が利用可能であるかどうかに基づいて、潜在的なクエリ推薦をフィルタリングすることができる。再生可能なメディアコンテンツ若しくは情報回答を生じないかもしれないクエリ推薦を除外することができ、及び／又は、直ちに利用可能な情報回答若しくは再生可能なメディアコンテンツによるクエリ推薦を提供する（若しくは、それに、どの推薦を提供するべきか判定する際により重度に重み付けする）ことができる。したがって、表示されたコンテンツ及び関連メタデータを様々なやり方で使用して、クエリ推薦を判定することができる。
［０１９３］
図２７は、推薦されたクエリの選択を確認するための例示的な選択インタフェース２７５４を示す。いくつかの実施例では、ユーザは、クエリを発語すること、ボタンを用いてそれらを選択すること、カーソルを用いてそれらにナビゲートすることなどによって、表示されたクエリ推薦を選択することができる。選択に応じて、選択インタフェース２７５４などの確認インタフェースに、選択された推薦を一時的に表示することができる。１つの実施例では、選択された推薦２７５６を、推薦インタフェース２６５０において選択された推薦２７５６が現れているところから、コマンド受信確認４９０の隣の図２７に示した位置まで動くように、（例えば、矢印が示すように）アニメーション化することができ、他の選択されていない推薦をディスプレイから非表示にすることができる。
［０１９４］
図２８Ａ〜図２８Ｂは、選択されたクエリに基づく例示的な仮想アシスタント回答インタフェース２８６２を示す図である。いくつかの実施例では、回答インタフェース２８６２などの回答インタフェースに、選択されたクエリに対する情報回答を表示することができる。推薦インタフェース２６５０又は選択インタフェース２７５４のいずれかから切り替える際には、図２８Ａに示すように、遷移インタフェース２８５８に表示することができる。詳細には、次のコンテンツがディスプレイ１１２の下部から上向きにスクロールするにつれて、インタフェース内の以前に表示されたコンテンツが上向きにスクロールされ、インタフェースから消える。例えば、選択された推薦２７５６を、仮想アシスタントインタフェースの上縁部で見えなくなるまで上向きにスライド又はスクロールすることができ、アシスタント結果２８６０を、図２８Ｂに示した位置に到着するまで、ディスプレイ１１２の下部から上向きにスライド又はスクロールすることができる。
［０１９５］
回答インタフェース２８６２は、選択されたクエリ推薦に応じた（又は、任意の他のクエリに応じた）情報回答及び／又はメディア結果を含むことができる。例えば、選択されたクエリ推薦２７５６に応じて、アシスタント結果２８６０を判定し、提供することができる。詳細には、前のエピソードの概要の要求に応じて、表示されたコンテンツに基づいて前のエピソードを識別することができ、関連付けられた記述又は概要を識別し、それをユーザに提供することができる。例示した実施例では、アシスタント結果２８６０は、ディスプレイ１１２上の動画４８０に対応するプログラムの以前のエピソードについて説明することができる（例えば、「『ＴｈｅｉｒＳｈｏｗ』のエピソード２０３において、Ｂｌａｎｃｈｅが、ゲスト演説者としてカレッジの心理学クラスに招待される。ＪｕｌｉａとＭｅｌｉｓｓａが、予告なしに現れ、騒動を起こす。」）。また、本明細書では論じた他のやり方のいずれかで情報回答及びメディア結果（例えば、選択可能な動画リンク）を提示することができ、又は、種々の他のやり方（例えば、回答を発語する、直ちにコンテンツを再生する、アニメーションを示す、画像を表示する、など）で結果を提示することができる。
［０１９６］
別の実施例では、通知又はアラートを使用して、仮想アシスタントクエリ推薦を判定することができる。図２９は、メディアコンテンツ通知２９６４（推薦を判定する際に、任意の通知を考慮に入れることができるが）と、通知ベースの推薦２９６６及びコンテンツベースの推薦２６５２の双方を備える推薦インタフェース２６５０（図２６を参照して上記で論じた同じ概念のうちのいくつかを含むことができる）とを示す。いくつかの実施例では、通知のコンテンツを分析して、関連するメディアに関係する名前、タイトル、主題、アクションなどを識別することができる。例示した実施例では、通知２９６４は、表示のために利用可能な代替メディアコンテンツについてユーザに通知するアラートを含み、詳細には、スポーツイベントが生放送であり、試合のコンテンツがユーザにとって興味の対象であり得る（例えば、「チームシータとチームアルファは、試合残り５分間の時点で同点です。」）。いくつかの実施例では、ディスプレイ１１２の上部に、通知を瞬間的に表示することができる。通知を、（矢印が示すように）ディスプレイ１１２の上部から、図２９に示した位置へとスライドダウンし、ある特定の時間にわたって表示し、ディスプレイ１１２の上部において再び見えなくなるようにスライドアップして戻すことができる。
［０１９７］
通知又はアラートは、利用可能な代替メディアコンテンツ（例えば、ディスプレイ１１２上に現在表示され得るものの代替物）、利用可能な濱放送のテレビプログラム、新たにダウンロードされたメディアコンテンツ、最近追加されたサブスクリプションコンテンツ、友人から受信した推薦、別のデバイスから送信されたメディアの受信などのような、種々の情報のユーザを通知することができる。また、家庭用の又は識別されたユーザが視聴しているにメディアに基づいて、通知をパーソナライズする（例えば、アカウント選択を使用したユーザ認証、音声認識、パスワードなどに基づいて識別する）ことができる。１つの実施例では、システムは、番組に割り込み、（ユーザプロファイル、好きなチーム（単数又は複数）、好みのスポーツ（単数又は複数）、閲覧履歴などに基づいて通知のコンテンツを望む可能性があり得る）ユーザのための表示通知２９６４など、可能性がある所望のコンテンツに基づいて通知を表示することができる。例えば、スポーツイベントのスコア、試合の状況、残り時間などを、スポーツデータフィード、報道機関、ソーシャルメディアのディスカッションなどから取得することができ、それを使用して、ユーザに通知するための考えられ得る代替メディアコンテンツを識別することができる。
［０１９８］
他の実施例では、現在閲覧されているコンテンツの代替物を推薦するために、アラート又は通知を介して（例えば、多くのユーザに）人気があるメディアコンテンツを提供することができる（例えば、人気がある番組又はユーザが好きなジャンルの番組がちょうど始まったこと、又は場合によっては閲覧するために利用可能であることをユーザに通知する）。例示した実施例では、ユーザは、チームシータ及びチームアルファの一方又は双方をフォローし得る（あるいは、サッカー又は特定のスポーツ、リーグなどをフォローし得る）。システムは、利用可能なライブコンテンツがユーザの好みと一致すると判定することができる（例えば、別のチャンネルの試合が、ユーザの好みと一致する、試合の残り時間がほとんどない、スコアが近接している）。次いで、システムは、可能性がある所望のコンテンツの通知２９６４を介してユーザにアラートを出すことを判定することができる。いくつかの実施例では、ユーザは、通知２９６４（又は、通知２９６４内のリンク）を選択して、（例えば、遠隔制御ボタン、カーソル、口頭要求などを使用して）推薦されたコンテンツに切り替えることができる。
［０１９９］
関連するメディア、関連する用語、名前、タイトル、主題、アクションなどを識別するために通知コンテンツを分析することによって、通知に基づいて、仮想アシスタントクエリ推薦を判定することができる。次いで、識別された情報を使用して、通知２９６４に基づいて、通知ベースの推薦２９６６など、適切な仮想アシスタントクエリ推薦を策定することができる。例えば、ライブスポーツイベントのエキサイティングな終わりに関する通知を表示することができる。次いで、ユーザがクエリ推薦を要求すると、スポーツイベントを閲覧するための、チームの成績に関して照会するための、又は通知に関係するコンテンツを発見するためのクエリ推薦を含む推薦インタフェース２６５０（例えば、シータ／アルファの試合に変える、チームシータのステータスはどんなか、他にどんなサッカーの試合が放送されているか）を表示することができる。通知で識別された興味の対象である特定の用語に基づいて、種々の他のクエリ推薦を同様に判定し、それをユーザに提供することができる。
［０２００］
また、ユーザデバイス上のコンテンツから、（例えば、テレビセットトップボックス１０４を介した消費のための）メディアコンテンツに関係する仮想アシスタントクエリ推薦を判定することができ、推薦をユーザデバイス上に提供することもできる。いくつかの実施例では、テレビセットトップボックス１０４に接続された、又はそれと通信するユーザデバイス上で、再生可能なデバイスコンテンツを識別することができる。図３０は、インタフェース１３６０中に例示的な写真及び動画コンテンツを備えるユーザデバイス１０２を示す。どんなコンテンツがユーザデバイス上での再生のために利用可能であるか、又はどんなコンテンツが再生を望まれる可能性があるかについて、判定を行うことができる。例えば、アクティブなアプリケーションに基づいて、再生可能なメディア３０６８（例えば、写真及び動画アプリケーション）を識別することができ、又は、インタフェース１３６０上に表示されているかどうかにかかわりなく、記憶されたコンテンツについて、再生可能なメディア３０６８を識別することができる（例えば、いくつかの実施例では、アクティブなアプリケーションから、又は、他の実施例では、所与の時間に表示されることなく、コンテンツを識別することができる）。再生可能なメディア３０６８は、例えば、動画１３６２、フォトアルバム１３６４及び写真１３６６を含むことができ、それらはそれぞれ、表示又は再生のために、テレビセットトップボックス１０４に送信され得るパーソナルユーザコンテンツを含むことができる。他の実施例では、クエリ推薦を判定するために、任意の写真、動画、音楽、ゲームインタフェース、アプリケーションインタフェース、又は、ユーザデバイス１０２上に記憶又は表示された他のメディアコンテンツを識別し、使用することができる。
［０２０１］
識別された再生可能なメディア３０６８を用いて、仮想アシスタントクエリ推薦を判定し、それをユーザに提供することができる。図３１は、再生可能なユーザデバイスコンテンツに基づく仮想アシスタントクエリ推薦と、別個のディスプレイ（例えば、テレビセットトップボックス１０４と関連付けられたディスプレイ１１２）上に表示された動画コンテンツに基づく仮想アシスタントクエリ推薦とを備える、ユーザデバイス１０２上の例示的なＴＶアシスタントインタフェース３１７０を示す。ＴＶアシスタントインタフェース３１７０は、特に、メディアコンテンツ及び／又はテレビセットトップボックス１０４と対話するための仮想アシスタントインタフェースを含むことができる。ユーザは、インタフェース３１７０を閲覧する時に、例えば物理ボタンのダブルクリックによって、ユーザデバイス１０２上でクエリ推薦を要求することができる。同様に、他の入力を使用して、クエリ推薦の要求を示すことができる。図示のとおり、アシスタントグリーティング３１７２は、提供されたクエリ推薦を紹介することができる（例えば、「あなたのＴＶ体験を制御するための推薦がいくつかあります。」）。
［０２０２］
ユーザデバイス１０２上に提供された仮想アシスタントクエリ推薦は、種々のソースデバイスに基づく推薦、並びに全般的な推薦を含むことができる。例えば、デバイスベースの推薦３１７４は、（ユーザデバイス１０２上に表示されたコンテンツを含む）ユーザデバイス１０２に記憶されたコンテンツに基づくクエリ推薦を含むことができる。コンテンツベースの推薦２６５２は、テレビセットトップボックス１０４と関連付けられたディスプレイ１１２上に表示されたコンテンツに基づくことができる。全般的な推薦３１７６は、特定のメディアコンテンツ又はメディアコンテンツを備える特定のデバイスと関連付けられた全般的な推薦を含むことができる。
［０２０３］
例えば、ユーザデバイス１０２上で識別された再生可能なコンテンツ（例えば、動画、音楽、写真、ゲームインタフェース、アプリケーションインタフェース、など）に基づいて、デバイスベースの推薦３１７４を判定することができる。例示した実施例では、図３０に示した再生可能なメディア３０６８に基づいて、デバイスベースの推薦３１７４を判定することができる。例えば、フォトアルバム１３６４が再生可能なメディア３０６８として識別されたと仮定すると、フォトアルバム１３６４の詳細を使用して、クエリを策定することができる。システムは、スライドショーで表示することができる複数の写真のアルバムとしてコンテンツを識別することができ、次いで、（いくつかの事例では）アルバムのタイトルを使用して、写真の特定のアルバムのスライドショーを表示するクエリ推薦を策定することができる（例えば、「あなたの写真から「卒業式のアルバム」のスライドショーを表示する。」）。いくつかの実施例では、推薦は、コンテンツのソースの指示（例えば、「あなたの写真から」「Ｊｅｎｎｉｆｅｒの電話から」、「Ｄａｎｉｅｌのタブレットから」など）を含むことができる。また、推薦は、特定の日付から写真を閲覧するための推薦（例えば、６月２１日から写真を表示する）など、特定のコンテンツを参照するめに他の詳細を使用することができる。別の実施例では、再生可能なメディア３０６８として、動画１３６２を識別することができ、動画のタイトル（又は、他の識別情報）を使用して、動画を再生するためのクエリ推薦を策定することができる（例えば、「あなたの動画から『卒業式の動画』を表示する。」）。
［０２０４］
他の実施例では、他の接続されたデバイス上で利用可能なコンテンツを識別し、それを使用して、仮想アシスタントクエリ推薦を策定することができる。例えば、共通のテレビセットトップボックス１０４に接続された２つのユーザデバイス１０２の各々からのコンテンツを識別し、仮想アシスタントクエリ推薦を策定する際にそれを使用することができる。いくつかの実施例では、ユーザは、共有するためにどのコンテンツをシステムから見えるようにするかを選択することができ、他のコンテンツをクエリ推薦に含めないように、あるいは場合によっては、再生するために他のコンテンツを利用可能しないように、システムから他のコンテンツを非表示にすることができる。
［０２０５］
図３１のインタフェース３１７０に表示されたコンテンツベースの推薦２６５２は、例えば、テレビセットトップボックス１０４と関連付けられたディスプレイ１１２上に表示されたコンテンツに基づいて判定することができる。いくつかの実施例では、図２６を参照して上述したのと同じように、コンテンツベースの推薦２６５２を判定することができる。例示された実施例では、図３１に示したコンテンツベースの推薦２６５２は、（例えば、図２６の場合のように）ディスプレイ１１２上に表示された動画４８０に基づくことができる。このようにすると、任意の数の接続されたデバイス上に表示される、又はそこで利用可能なコンテンツに基づいて、仮想アシスタントクエリ推薦を導き出すことができる。ターゲットの推薦に加えて、全般的な推薦３１７６（例えば、ガイドを表示する、どんなスポーツが放送されているか、チャンネル３では何が放送されているか、など）をあらかじめ判定し、提供することができる。
［０２０６］
図３２は、テレビセットトップボックス１０４と関連付けられたディスプレイ１１２上に表示されたコンテンツベースの推薦２６５２と共に、接続されたデバイスベースの推薦３２７５を備える例示的な推薦インタフェース２６５０を示す。いくつかの実施例では、図２６を参照して上述したのと同じように、コンテンツベースの推薦２６５２を判定することができる。上述のように、任意の数の接続されたデバイス上のコンテンツに基づいて、仮想アシスタントクエリ推薦を策定することができ、任意の数の接続されたデバイス上に、その推薦を提供することができる。図３２は、ユーザデバイス１０２上のコンテンツから導き出すことができる、接続されたデバイスベースの推薦３２７５を示す。例えば、ユーザデバイス１０２上で、図３０に再生可能なメディア３０６８としてインタフェース１３６０に表示された写真及び動画コンテンツなど、再生可能なコンテンツを識別することができる。次いで、ユーザデバイス１０２上の識別された再生可能なコンテンツを使用して、テレビセットトップボックス１０４と関連付けられたディスプレイ１１２上に表示することができる推薦を策定することができる。いくつかの実施例では、図３１を参照して上述したデバイスベースの推薦３１７４と同じように、接続されたデバイスベースの推薦３２７５を判定することができる。更に、上述のように、いくつかの実施例では、接続されたデバイスベースの推薦３２７５に示すような「Ｊａｋｅの電話から」など、ソース情報を識別することを、推薦に含めることができる。したがって、１つのデバイス上に提供された仮想アシスタントクエリ推薦を、別のデバイスからのコンテンツ（例えば、表示されたコンテンツ、記憶されたコンテンツなど）に基づいて導き出すことができる。接続されたデバイスは、テレビセットトップボックス１０４及び／又はユーザデバイス１０２にアクセス可能な（例えば、推薦を策定するために、クラウドに記憶されたメディアコンテンツにアクセする）遠隔記憶デバイスを含むことができることを了解されたい。
［０２０７］
推薦の要求に応じて、種々のソースからの仮想アシスタントクエリ推薦の任意の組み合わせを提供することができることを理解されたい。例えば、種々のソースからの推薦をランダムに組み合わせることができ、あるいは、人気、ユーザの好み、選択履歴などに基づいて、種々のソースから推薦を提示することができる。更に、クエリを、種々の他のやり方で判定することができ、クエリ履歴、ユーザの好み、クエリの人気などのような種々の他の因子に基づいて提示することができる。更に、いくつかの実施例では、表示された推薦を遅延後の新しい代替推薦と置換することによって、クエリ推薦を自動的に循環させることができる。更に、ユーザは、例えば、タッチスクリーン上でタップすること、クエリを発語すること、ナビゲーションキーを用いてクエリを選択すること、ボタンを用いてクエリを選択すること、カーソルを用いてクエリを選択することなどによって、表示された推薦を任意のインタフェース上で選択することができ、次いで、関連付けられた応答（例えば、情報及び／又はメディア応答）を提供することができることを理解されたい。
［０２０８］
また、種々の実施例のうちのいずれかでは、利用可能なコンテンツに基づいて、仮想アシスタントクエリ推薦をフィルタリングすることができる。例えば、利用不可能なメディアコンテンツ（例えば、ケーブルサブスクリプションがない）を生じる、又は、関連付けられた情報回答を有し得る潜在的なクエリ推薦は、推薦としての資格を失い、表示せずに隠しておくことができる。一方で、ユーザがアクセスを有する直ちに再生可能なメディアコンテンツを生じる潜在的なクエリ推薦に、他の潜在的な推薦よりも重み付けすることができ、又は場合によっては、表示のためにバイアスをかけることができる。このようにすると、表示のための仮想アシスタントクエリ推薦を判定する際に、ユーザが閲覧するためのメディアコンテンツの可用性を使用することができる。
［０２０９］
更に、種々の実施例のうちのいずれかでは、プリロードされたクエリ回答を推薦の代わりに、又はそれに加えて（例えば、推薦インタフェース２６５０に）提供することができる。個人使用及び／又は現在のコンテキストに基づいて、そのようなプリロードされたクエリ回答を選択し、提供することができる。例えば、特定のプログラムを視聴しているユーザは、推薦を受信するために、ボタンをタップする、ボタンをダブルクリックするなどができる。クエリ推薦の代わりに、又はそれに加えて、再生中の曲又はサウンドトラックを識別すること（例えば、「この曲は、ＰｅｒｆｏｒｍａｎｃｅＰｉｅｃｅです」）、現在演じられているエピソードの出演者を識別すること（例えば、「女優ＪａｎｅｔＱｕｉｎｎがＧｅｎｅｖｉｅｖｅを演じています」）、類似メディアを識別すること（例えば、「番組Ｑはこの番組と類似しています」）、又は本明細書では論じる他のクエリのうちのいずれかの結果を提供すること、などコンテキストベース情報を自動的に提供することができる。
［０２１０］
更に、ユーザがメディアコンテンツをレーティングして、ユーザの好みの仮想アシスタント（例えば、選択可能なレーティングスケール）を通知する種々のインタフェースのうちのいずれかにアフォーダンスを提供することができる。他の実施例では、ユーザは、自然言語コマンドとしてレーティング情報（例えば、「私はこれが大好きです」、「私はこれが嫌いです」、「私はこの番組が好きではありません」）など）を発語することができる。更に他の実施例では、例示し、本明細書で説明する種々のインタフェースのうちのいずれかにおいて、種々の他の機能要素及び情報要素を提供することができる。例えば、インタフェースは、検索リンク、購入リンク、メディアリンクなどのような、重要な機能及び場所へのリンクを更に含むことができる。別の実施例では、インタフェースは、現在再生中のコンテンツに基づく次に他に何を視聴すべきかの推奨を（例えば、類似するコンテンツを選択すること）更に含むことができる。更に別の実施例では、インタフェースは、パーソナライズされた好み及び／又は最近のアクティビティに基づく次に他に何を視聴すべきかの推奨（例えば、ユーザレーティング、ユーザが入力した好み、最近視聴したプログラムなどに基づいてコンテンツを選択すること）を更に含むことができる。更に他の実施例では、インタフェースは、ユーザ対話の命令（例えば、「押したまま仮想アシスタントに話しかけてください」、「推薦を取得するためには１回タップしてください」など）を更に含むことができる。いくつかの実施例では、プリロードされた回答、推薦などを提供することにより、コンテンツを多種多様なユーザが（例えば、言語又は他のコントロールバリアにかかわらず、種々の技術レベルのユーザが）容易に利用できるようにしながら、ユーザエクスペリエンスを愉快なものにすることができる。
［０２１１］
図３３は、メディアコンテンツを制御するための仮想アシスタント対話（例えば、仮想アシスタントクエリ）を推薦するための例示的なプロセス３３００を示す。ブロック３３０２で、ディスプレイ上にメディアコンテンツを表示することができる。例えば、図２６に示すように、テレビセットトップボックス１０４を介してディスプレイ１１２上に動画４８０を表示することができ、あるいは、図３０に示すように、ユーザデバイス１０２のタッチスクリーン２４６上に、インタフェース１３６０を表示することができる。ブロック３３０４で、ユーザからの入力を受信することができる。入力は、仮想アシスタントクエリ推薦の要求を含むことができる。入力は、ボタン押下、ボタンのダブルクリック、メニュー選択、推薦についての口頭クエリをなど含むことができる。
［０２１２］
ブロック３３０６で、メディアコンテンツ及び／又はメディアコンテンツの閲覧履歴に基づいて、仮想アシスタントクエリを判定することができる。例えば、表示されたプログラム、メニュー、アプリケーション、メディアコンテンツのリスト、通知などに基づいて、仮想アシスタントクエリを判定することができる。１つの実施例では、図２６を参照して説明したような動画４８０及び関連メタデータに基づいて、コンテンツベースの推薦２６５２を判定することができる。別の実施例では、図２９を参照して説明したような通知２９６４に基づいて、通知ベースの推薦２９６６を判定することができる。更に別の実施例では、図３０及び図３１を参照して説明したようなユーザデバイス１０２上の再生可能なメディア３０６８に基づいて、デバイスベースの推薦３１７４を判定することができる。更に別の実施例では、図３２を参照して説明したようなユーザデバイス１０２上の再生可能なメディア３０６８に基づいて、接続されたデバイスベースの推薦３２７５を判定することができる。
［０２１３］
図３３のプロセス３３００を再び参照すると、ブロック３３０８で、ディスプレイ上に仮想アシスタントクエリを表示することができる。例えば、判定したクエリ推薦は、図２６、図２７、図２９、図３１及び図３２に示し、それを参照して説明したように表示することができる。上記で論じたように、種々の他の情報に基づいて、クエリ推薦を判定し、表示することができる。更に、１つのディスプレイ上に提供された仮想アシスタントクエリ推薦を、別のディスプレイを備える別のデバイスからのコンテンツに基づいて導き出することができる。このようにして、ターゲットの仮想アシスタントクエリ推薦をユーザに提供し、それにより、恩恵の中でもとりわけ、潜在的なクエリの学習に対してユーザを支援し、望ましいコンテンツ推薦を提供することができる。
［０２１４］
更に、本明細書で論じる種々の実施例のうちのいずれかでは、特定のユーザのために種々の態様をパーソナライズすることができる。連絡先、好み、場所、お気に入りのメディアなどを含むユーザデータを使用して、音声コマンドを解釈し、本明細書で論じる種々のデバイスとのユーザ対話を可能にすることができる。また、ユーザの好み、連絡先、テキスト、使用履歴、プロファイルデータ、統計などに従った種々の他のやり方で、本明細書では論じた種々のプロセスを修正することができる。更に、ユーザ対話（例えば、頻繁に発されるコマンド、頻繁に選択されるアプリケーションなど）に基づいて、そのような好み及び設定を経時的に更新することができる。招待者限定コンテンツ又はユーザにとって興味の対象であり得る任意の他のコンテンツのユーザへの配信を改善するために、種々のソースから利用可能なユーザデータの収集及び使用を使用することができる。本開示は、いくつかの事例では、この収集されたデータは、特定の人を一意に識別する、あるいは、特定の人に接触する、又はその人の位置を特定するために使用され得る、個人情報データを含むことができることを企図する。そのような個人情報データとして、人口統計データ、ロケーションベースのデータ、電話番号、電子メールアドレス、自宅の住所、又は任意の他の識別情報を挙げることができる。
［０２１５］
本開示により、現在の技術におけるそのような個人情報データの使用を使用してユーザを利することができることが認識される。例えば、個人情報データを使用して、ユーザにとってより大きな興味の対象であるターゲットコンテンツを配信することができる。したがって、そのような個人情報データの使用により、送達されたコンテンツの計算制御が可能になる。更に、ユーザに利する個人情報データについての他の使用もまた本開示により企図される。
［０２１６］
本開示は更に、収集、分析、開示、転送、記憶又はそのような個人情報データの他の使用を担うエンティティが、確立したプライバシーポリシー及び／又はプライバシー慣行に適合することを企図する。詳細には、そのようなエンティティは、秘密及びセキュアとして個人情報データを維持するための産業上の要件又は政府要件を満たす、又はそれを上回るものとして一般的に認識されるプライバシーポリシー及びプライバシー慣行を実装し、一貫して使用しなければならない。例えば、ユーザからの個人情報は、そのエンティティの合法的かつ正当な使用のために収集されるべきであり、それらの合法的使用を除いて、共有又は販売されるべきではない。更には、そのような収集は、ユーザの告知に基づく同意を受信した後にのみ実施するべきである。更に、そのようなエンティティは、そのような個人情報へのアクセスを保護して安全化し、その個人情報へのアクセスを有する他者が、自身のプライバシーポリシー及び手順を遵守することを保証するための、あらゆる必要な措置を講じることとなる。更には、そのようなエンティティは、広く受け入れられているプライバシーのポリシー及び慣行に対する自身の遵守を証明するために、第三者による評価を自らが受けることができる。
［０２１７］
前述のことがらにもかかわらず、本開示はまた、ユーザが、個人情報データの使用又は個人情報データへのアクセスを選択的に阻止する実施例も意図する。即ち、本開示は、そのような個人情報データへのアクセスを防止又は阻止するハードウェア要素及び／又はソフトウェア要素を提供することができることを意図する。例えば、広告配信サービスの場合には、この技術は、ユーザが、サービスの登録中に個人情報データの収集への参加の「オプトイン」又は「オプトアウト」を選択することを可能にするように構成され得る。別の実施例では、ユーザは、ターゲットコンテンツ配信サービスに位置情報を提供しないように選択することができる。更に別の実施例では、ユーザは、正確な位置情報を提供しないが、ロケーションゾーンの情報の転送を可能にするように選択することができる。
［０２１８］
したがって、本開示は、１つ以上の種々の開示された実施形態を実施するための個人情報データの使用を、広範に網羅するものであるが、本開示は、そのような個人情報データにアクセスすることを必要とせずにそれらの種々の実施例を実装することができることも意図する。即ち、本技術の種々の実施例は、そのような個人情報データの全て又は一部分の欠如に起因して、動作不能となるものではない。例えば、ユーザと関連付けられたデバイスが要求するコンテンツ、コンテンツ配信サービスに利用可能な他の非個人情報、又は一般公開されている情報など、非個人情報データ又は最小限の量の個人情報に基づいて好みを推測することによって、コンテンツをユーザに選択し、配信することができる。
［０２１９］
いくつかの実施例によれば、図３４は、電子デバイス３４００の機能ブロック図を示し、電子デバイス３４００は、説明した種々の実施例の原理に従って、例えば、仮想アシスタントを使用してテレビ対話を制御し、異なるインタフェースを使用して関連情報を表示するように構成される。デバイスの機能ブロックは、説明した種々の実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせによって実装することができる。当業者には、説明した種々の実施例の原理を実装するために、図３４で説明する機能ブロックを組み合わせる、又はサブブロックに分離することできることが理解される。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
［０２２０］
図３４に示すように、電子デバイス３４００は、メディア、インタフェース及び他のコンテンツを表示するように構成されたディスプレイユニット３４０２（例えば、ディスプレイ１１２、タッチスクリーン２４６など）を含むことができる。電子デバイス３４００は、発語入力、触覚入力、ジェスチャ入力などのような情報を受信するように構成された入力ユニット３４０４（例えば、マイクロフォン、受信器、タッチスクリーン、ボタンなど）を更に含むことができる。電子デバイス３４００は、表示ユニット３４０２及び入力ユニット３４０４に結合される処理ユニット３４０６を更に含むことができる。いくつかの実施例では、処理ユニット３４０６は、発語入力受信ユニット３４０８と、メディアコンテンツ判定ユニット３４１０と、第１のユーザインタフェース表示ユニット３４１２と、選択受信ユニット３４１４と、第２のユーザインタフェース表示ユニット３４１６とを含むことができる。
［０２２１］
処理ユニット３４０６は、（例えば、入力ユニット３４０４を介して）ユーザからの発語入力を受信するように構成することができる。処理ユニット３４０６は、（例えば、メディアコンテンツ判定ユニット３４１０を使用して）発語入力に基づいて、メディアコンテンツを判定するように更に構成することができる。処理ユニット３４０６は、（例えば、第１のユーザインタフェース表示ユニット３４１２を使用して、ディスプレイユニット３４０２上に）第１のサイズを有する第１のユーザインタフェースを表示するように更に構成することができ、第１のユーザインタフェースは、メディアコンテンツへの１つ以上の選択可能なリンクを備える。処理ユニット３４０６は、（例えば、選択受信ユニット３４１４を使用して、入力ユニット３４０４から）１つ以上の選択可能なリンクのうちの１つの選択を受信するように更に構成することができる。処理ユニット３４０６は、その選択に応じて、（例えば、第２のユーザインタフェース表示ユニット３４１６を使用して、ディスプレイユニット３４０２上に）第１のサイズよりも大きい第２のサイズを有する第２のユーザインタフェースを表示するように更に構成することができ、第２のユーザインタフェースは、選択と関連付けられたメディアコンテを備える。
［０２２２］
いくつかの実施例では、（例えば、第１のユーザインタフェース表示ユニット３４１２の）第１のユーザインタフェースは、（例えば、選択受信ユニット３４１４の）選択に応じて、（例えば、第２のユーザインタフェース表示ユニット３４１６の）第２のユーザインタフェースへと拡張する。他の実施例では、第１のユーザインタフェースが、再生中のメディアコンテンツ上に重なっている。１つの実施例では、第２のユーザインタフェースが、再生中のメディアコンテンツ上に重なっている。別の実施例では、（例えば、入力ユニット３４０４からの発語入力受信ユニット３４０８の）発語入力はクエリを備え、（例えば、メディアコンテンツ判定ユニット３４１０の）メディアコンテンツはクエリの結果を備える。更に別の実施例では、第１のユーザインタフェースは、メディアコンテンツへの１つ以上の選択可能なリンク以外に、クエリの結果へのリンクを備える。他の実施例では、クエリは、天気に関するクエリを含み、第１のユーザインタフェースは、天気に関するクエリと関連付けられたメディアコンテンツへのリンクを備える。別の実施例では、クエリは場所を含み、天気に関するクエリと関連付けられたメディアコンテンツへのリンクは、その場所の天気と関連付けられたメディアコンテンツの一部分へのリンクを備える。
［０２２３］
いくつかの実施例では、選択に応じて、処理ユニット３４０６は、その選択と関連付けられたメディアコンテンツを再生するように構成することができる。１つの実施例では、メディアコンテンツは、映画を含む。別の実施例では、メディアコンテンツは、テレビ番組を含む。別の実施例では、メディアコンテンツは、スポーツイベントを含む。いくつかの実施例では、（例えば、第２のユーザインタフェース表示ユニット３４１６の）第２のユーザインタフェースは、選択と関連付けられたメディアコンテンツの記述を含む。他の実施例では、第１のユーザインタフェースは、メディアコンテンツを購入するためのリンクを備える。
［０２２４］
処理ユニット３４０６は、ユーザからの追加の発語入力を（例えば、入力ユニット３４０４を介して）受信するように更に構成することができ、追加の発語入力は、表示されたコンテンツと関連付けられたクエリを含む。処理ユニット３４０６は、表示されたコンテンツと関連付けられたメタデータに基づいて、表示されたコンテンツと関連付けられたクエリに対する応答を判定するように更に構成することができる。処理ユニット３４０６は、追加の発語入力を受信したことに応じて、（例えば、表示ユニット３４０２上に）第３のユーザインタフェースを表示するように更に構成されることができる、第３のユーザインタフェースは、表示されたコンテンツと関連付けられたクエリに対する判定した応答を含む。
［０２２５］
処理ユニット３４０６は、（例えば、入力ユニット３４０４を介して）発語入力の受信を開始する指示を受信するように更に構成することができる。処理ユニット３４０６は、指示を受信したことに応じて、準備完了確認を（例えば、ディスプレイユニット３４０２上に）表示するように更に構成することができる。処理ユニット３４０６は、発語入力を受信したことに応じて、リッスン確認を表示するように更に構成することができる。処理ユニット３４０６は、発語入力の終わりを検出し、発語入力の終わりを検出したことに応じて処理確認を表示するように更に構成することができる。いくつかの実施例では、処理ユニット３４０６は、発語入力の音声表記を表示するように更に構成することができる。
［０２２６］
いくつかの実施例では、電子デバイス３４００は、テレビを含む。いくつかの実施例では、電子デバイス３４００は、テレビセットトップボックスを含む。いくつかの実施例では、電子デバイス３４００は、遠隔制御を含む。いくつかの実施例では、電子デバイス３４００は、携帯電話を含む。
［０２２７］
１つの実施例では、第１のユーザインタフェースにおける（例えば、第１のユーザインタフェース表示ユニット３４１２の）１つ以上の選択可能なリンクは、メディアコンテンツと関連付けられた動画像を含む。いくつかの実施例では、メディアコンテンツと関連付けられた動画像は、メディアコンテンツのライブフィードを含む。別の実施例では、第１のユーザインタフェースにおける１つ以上の選択可能なリンクは、メディアコンテンツと関連付けられた静止画像を含む。
［０２２８］
いくつかの実施例では、処理ユニット３４０６は、現在表示されているコンテンツが動画像を含むか、あるいはコントロールメニューを含むかを判定し、現在表示されているコンテンツが動画像を含むという判定に応じて、第１のユーザインタフェースのための（例えば、第１のユーザインタフェース表示ユニット３４１２の）第１のサイズとして、小さいサイズを選択し、現在示されているコンテンツがコントロールメニューを含むという判定に応じて、第１のユーザインタフェースのための（例えば、第１のユーザインタフェース表示ユニット３４１２の）第１のサイズとして、小さいサイズよりも大きい、大きいサイズを選択するように更に構成することができる。他の実施例では、処理ユニット３４０６は、ユーザの好み、番組の人気、及びライブスポーツイベントの状況のうちの１つ以上に基づいて、表示のための代替メディアコンテンツを判定し、判定した代替メディアコンテンツを含む通知を表示するように更に構成することができる。
［０２２９］
いくつかの実施例によれば、図３５は、電子デバイス３５００の機能ブロック図を示し、電子デバイス３５００は、説明した種々の実施例の原理に従って、例えば、仮想アシスタント及び複数のユーザデバイスを使用してテレビ対話を制御するように構成される。デバイスの機能ブロックは、説明した種々の実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせによって実装することができる。当業者には、説明した種々の実施例の原理を実装するために、図３５で説明する機能ブロックを組み合わせる、又はサブブロックに分離することできることが理解される。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
［０２３０］
図３５に示すように、電子デバイス３５００は、メディア、インタフェース及び他のコンテンツを表示するように構成されたディスプレイユニット３５０２（例えば、ディスプレイ１１２、タッチスクリーン２４６など）を含むことができる。電子デバイス３５００は、発語入力、触覚入力、ジェスチャ入力などのような情報を受信するように更に構成された入力ユニット３５０４（例えば、マイクロフォン、受信器、タッチスクリーン、ボタンなど）を含むことができる。電子デバイス３５００は、表示ユニット３５０２及び入力ユニット３５０４に結合される処理ユニット３５０６を更に含むことができる。いくつかの実施例では、処理ユニット３５０６は、発語入力受信ユニット３５０８と、ユーザ意図判定ユニット３５１０と、メディアコンテンツ判定ユニット３５１２と、メディアコンテンツ再生ユニット３５１４とを含むことができる。
［０２３１］
処理ユニット３５０６は、第１のディスプレイ（例えば、いくつかの実施例では表示ユニット３５０２）を有する第１のデバイス（例えば、デバイス３５００）で、（例えば、発語入力受信ユニット３５０８を使用して、入力ユニット３５０４から）ユーザからの発語入力を受信するように構成することができる。処理ユニット３５０６は、（例えば、ユーザ意図判定ユニット３５１０を使用して）第１のディスプレイ上に表示されたコンテンツに基づいて、発語入力のユーザ意図を判定するように更に構成することができる。処理ユニット３５０６は、（例えば、メディアコンテンツ判定ユニット３５１２を使用して）ユーザ意図に基づいて、メディアコンテンツを判定するように更に構成することができる。処理ユニット３５０６は、第２のディスプレイと関連付けられた第２のデバイス（例えば、いくつかの実施例ではディスプレイユニット３５０２）上で、（例えば、メディアコンテンツ再生ユニット３５１４を使用して）メディアコンテンツを再生するように更に構成することができる。
［０２３２］
１つの実施例では、第１のデバイスは、遠隔制御を含む。別の実施例では、第１のデバイスは、携帯電話を含む。別の実施例では、第１のデバイスは、タブレットコンピュータを含む。いくつかの実施例では、第２のデバイスは、テレビセットトップボックスを含む。別の実施例では、第２のデバイスは、テレビを含む。
［０２３３］
いくつかの実施例では、第１のディスプレイ上に表示されたコンテンツは、アプリケーションインタフェースを備える。１つの実施例では、（例えば、入力ユニット３５０４からの発語入力受信ユニット３５０８の）発語入力は、アプリケーションインタフェースと関連付けられたメディアに表示するという要求を含む。１つの実施例では、メディアコンテンツは、アプリケーションインタフェースと関連付けられたメディアを含む。別の実施例では、アプリケーションインタフェースは、フォトアルバムを備え、メディアは、フォトアルバム中の１つ以上の写真を含む。更に別の実施例では、アプリケーションインタフェースは、１つ以上の動画のリストを備え、メディアは、１つ以上の動画のうちの１つを含む。更に他の実施例では、アプリケーションインタフェースは、テレビプログラムリストを備え、メディアは、テレビプログラムリスト中のテレビプログラムを含む。
［０２３４］
いくつかの実施例では、処理ユニット３５０６は、第１のデバイスが認証されているかどうかを判定するように更に構成することができ、第１のデバイスが認証されているという判定に応じて、第２のデバイス上でメディアコンテンツを再生する。処理ユニット３５０６は、発語入力に基づいてユーザを識別し、（例えば、ユーザ意図判定ユニット３５１０を使用して）識別されたユーザと関連付けられたデータに基づいて、発語入力のユーザ意図を判定するように更に構成することができる。処理ユニット３５０６は、発語入力に基づいて、ユーザが認証されているかどうかを判定するように更に構成することができ、ユーザが認証されたユーザであるという判定に応じて、第２のデバイス上でメディアコンテンツを再生する。１つの実施例では、ユーザが認証されているかどうかを判定することは、音声認識を使用して発語入力を分析することを含む。
［０２３５］
他の実施例では、処理ユニット３５０６は、ユーザ意図が情報の要求を含むと判定したことに応じて、メディアコンテンツと関連付けられた情報を、第１のデバイスの第１のディスプレイ上に表示するように更に構成することができる。処理ユニット３５０６は、ユーザ意図がメディアコンテンツを再生するという要求を含むと判定したことに応じて、そのメディアコンテンツと関連付けられた情報を、第２のデバイス上で再生するように更に構成することができる。
［０２３６］
いくつかの実施例では、発語入力は、第２のデバイス上でコンテンツを再生するという要求を含み、第２のデバイス上でコンテンツを再生するという要求に応じて、第２のデバイス上でメディアコンテンツを再生する。処理ユニット３５０６は、メディアのフォーマット、ユーザの好み又はデフォルト設定に基づいて、判定したメディアコンテンツを第１のディスプレイ上で表示すべきか、あるいは第２のディスプレイ上で表示すべきかを判定するように更に構成することができる。いくつかの実施例では、判定したメディアコンテンツを第２のディスプレイ上に表示すべきであるという判定に応じて、第２のディスプレイ上にメディアコンテンツを表示する。他の実施例では、判定したメディアコンテンツを第１のディスプレイ上に表示すべきであるという判定に応じて、第１のディスプレイ上にメディアコンテンツを表示する。
［０２３７］
他の実施例では、処理ユニット３５０６は、第２のデバイス及び第３のデバイスを含む２つ以上のデバイスの各々の近接度を判定するように更に構成されることができる。いくつかの実施例では、第３のデバイスの近接度に対する第２のデバイスの近接度に基づいて、第２のディスプレイと関連付けられた第２のデバイス上に、メディアコンテンツを再生する。いくつかの実施例では、２つ以上のデバイスの各々の近接度を判定することは、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＬＥに基づいて近接度を判定することを含む。
［０２３８］
いくつかの実施例では、処理ユニット３５０６は、第２のディスプレイと関連付けられた第２のデバイスを含む表示デバイスのリストを表示し、表示デバイスのリスト中の第２のデバイスの選択を受信するように更に構成することができる。１つの実施例では、第２のデバイスの選択を受信したことに応じて、第２のディスプレイ上にメディアコンテンツを表示する。処理ユニット３５０６は、第１のデバイスにヘッドホンが取り付けられているどうかを判定するように更に構成することができる。処理ユニット３５０６は、第１のデバイスにヘッドホンが取り付けられているという判定に応じて、第１のディスプレイ上にメディアコンテンツを表示するように更に構成することができる。処理ユニット３５０６は、第１のデバイスにヘッドホンが取り付けられていないという判定に応じて、第２のディスプレイ上にメディアコンテンツを表示するように更に構成することができる。他の実施例では、処理ユニット３５０６は、ユーザの好み、番組の人気、及びライブスポーツイベントの状況のうちの１つ以上に基づいて、表示のための代替メディアコンテンツを判定し、判定した代替メディアコンテンツを含む通知を表示するように更に構成することができる。
［０２３９］
いくつかの実施例によれば、図３６は、電子デバイス３６００の機能ブロック図を示し、電子デバイス３６００は、説明した種々の実施例の原理に従って、例えば、ディスプレイ上に表示されたメディアコンテンツとメディアコンテンツの閲覧履歴とを使用してテレビ対話を制御するように構成される。デバイスの機能ブロックは、説明した種々の実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせによって実装することができる。当業者には、説明した種々の実施例の原理を実装するために、図３６で説明する機能ブロックを組み合わせる、又はサブブロックに分離することできることが理解される。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
［０２４０］
図３６に示すように、電子デバイス３６００は、メディア、インタフェース及び他のコンテンツを表示するように構成されたディスプレイユニット３６０２（例えば、ディスプレイ１１２、タッチスクリーン２４６など）を含むことができる。電子デバイス３６００は、発語入力、触覚入力、ジェスチャ入力などのような情報を受信するように構成された入力ユニット３６０４（例えば、マイクロフォン、受信器、タッチスクリーン、ボタンなど）を更に含むことができる。電子デバイス３６００は、表示ユニット３６０２及び入力ユニット３６０４に結合される処理ユニット３６０６を更に含むことができる。いくつかの実施例では、処理ユニット３６０６は、発語入力受信ユニット３６０８と、ユーザ意図判定ユニット３６１０と、クエリ結果表示ユニット３６１２とを含むことができる。
［０２４１］
処理ユニット３６０６は、ユーザからの発語入力を（例えば、発語入力受信ユニット３６０８を使用して、入力ユニット３６０４から）受信するように構成することができ、発語入力は、ディスプレイ（例えば、いくつかの実施例では表示ユニット３６０２）上に表示されたコンテンツと関連付けられたクエリを含む。処理ユニット３６０６は、（例えば、ユーザ意図判定ユニット３６１０を使用して）テレビディスプレイ上に表示されたコンテンツ及びメディアコンテンツの閲覧履歴のうちの１つ以上に基づいて、クエリのユーザ意図を判定するように更に構成することができる。処理ユニット３６０６は、（例えば、クエリ結果表示ユニット３６１２を使用して）判定したユーザ意図に基づいて、クエリの結果を表示するように更に構成することができる。
［０２４２］
１つの実施例では、遠隔制御において、発語入力を受信する。別の実施例では、携帯電話において、発語入力を受信する。いくつかの実施例では、テレビディスプレイ上にクエリの結果を表示する。別の実施例では、テレビディスプレイ上に表示されたコンテンツは、映画を含む。更に別の実施例では、テレビディスプレイ上に表示されたコンテンツは、テレビ番組を含む。更に別の実施例では、テレビディスプレイ上に表示されたコンテンツは、スポーツイベントを含む。
［０２４３］
いくつかの実施例では、クエリは、テレビディスプレイ上に表示されたコンテンツと関連付けられた人物に関する情報の要求を含み、（例えば、クエリ結果表示ユニット３６１２の）クエリの結果は、その人物に関する情報を含む。１つの実施例では、クエリの結果は、その人物と関連付けられたメディアコンテンツを含む。別の実施例では、メディアコンテンツは、その人物と関連付けられた映画、テレビ番組又はスポーツイベントのうちの１つ以上を含む。いくつかの実施例では、クエリは、テレビディスプレイ上に表示されたコンテンツと関連付けられたキャラクターに関する情報の要求を含み、クエリの結果は、そのキャラクターに関する情報、又はそのキャラクターを演じている俳優に関する情報を含む。１つの実施例では、クエリの結果は、そのキャラクターを演じている俳優と関連付けられたメディアコンテンツを含む。別の実施例では、メディアコンテンツは、そのキャラクターを演じている俳優と関連付けられた映画、テレビ番組又はスポーツイベントのうちの１つ以上を含む。
［０２４４］
いくつかの実施例では、処理ユニット３６０６は更に、テレビディスプレイ上に表示されたコンテンツ又はメディアコンテンツの閲覧履歴と関連付けられたメタデータに基づいて、クエリの結果を判定するように更に構成することができる。１つの実施例では、メタデータは、テレビディスプレイ上に表示されたコンテンツ又はメディアコンテンツの閲覧履歴と関連付けられた、タイトル、説明、キャラクターのリスト、俳優のリスト、選手のリスト、ジャンル、又は表示スケジュールのうちの１つ以上を含む。別の実施例では、テレビディスプレイ上に表示されたコンテンツは、メディアコンテンツのリストを含み、クエリは、リスト中の項目のうちの１つを表示するという要求を含む。更に別の実施例では、テレビディスプレイ上に表示されたコンテンツは、フォーカスを有するメディアコンテンツのリスト中の項目を更に含み、（例えば、ユーザ意図判定ユニット３６１０を使用して）クエリのユーザ意図を判定することは、フォーカスを有する項目を識別することを含む。いくつかの実施例では、処理ユニット３６０６は、（例えば、ユーザ意図判定ユニット３６１０を使用して）テレビディスプレイ上に最近表示されたメニュー又は検索コンテンツに基づいて、クエリのユーザ意図を判定するように更に構成することができる。１つの実施例では、テレビディスプレイ上に表示されたコンテンツは、列挙されたメディアのページを含み、最近表示されたメニュー又は検索コンテンツは、列挙されたメディアの以前のページを含む。別の実施例では、テレビディスプレイ上に表示されたコンテンツは、メディアの１つ以上のカテゴリーを含み、メディアの１つ以上のカテゴリーのうちの１つは、フォーカスを有する。１つの実施例では、処理ユニット３６０６は、（例えば、ユーザ意図判定ユニット３６１０を使用して）フォーカスを有するメディアの１つ以上のカテゴリーのうちの１つに基づいて、クエリのユーザ意図を判定するように更に構成することができる。別の実施例では、メディアのカテゴリーは、映画、テレビプログラム及び音楽を含む。他の実施例では、処理ユニット３６０６は、ユーザの好み、番組の人気、及びライブスポーツイベントの状況のうちの１つ以上に基づいて、表示のための代替メディアコンテンツを判定し、判定した代替メディアコンテンツを含む通知を表示するように更に構成することができる。
［０２４５］
いくつかの実施例によれば、図３７は、電子デバイス３７００の機能ブロック図を示し、電子デバイス３７００は、説明した種々の実施例の原理に従って、例えば、メディアコンテンツを制御するための仮想アシスタント対話を推薦するように構成される。デバイスの機能ブロックは、説明した種々の実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせによって実装することができる。当業者には、説明した種々の実施例の原理を実装するために、図３７で説明する機能ブロックを組み合わせる、又はサブブロックに分離することできることが理解される。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
［０２４６］
図３７に示すように、電子デバイス３７００は、メディア、インタフェース及び他のコンテンツを表示するように構成されたディスプレイユニット３７０２（例えば、ディスプレイ１１２、タッチスクリーン２４６など）を含むことができる。電子デバイス３７００は、発語入力、触覚入力、ジェスチャ入力などのような情報を受信するように構成された入力ユニット３７０４（例えば、マイクロフォン、受信器、タッチスクリーン、ボタンなど）を更に含むことができる。電子デバイス３７００は、表示ユニット３７０２及び入力ユニット３７０４に結合される処理ユニット３７０６を更に含むことができる。いくつかの実施例では、処理ユニット３７０６は、メディアコンテンツ表示ユニット３７０８と、入力受信ユニット３７１０と、クエリ判定ユニット３７１２と、クエリ表示ユニット３７１４とを含むことができる。
［０２４７］
処理ユニット３７０６は、（例えば、メディアコンテンツ表示ユニット３７０８を使用して）ディスプレイ（例えば、表示ユニット３７０２）上にメディアコンテンツを表示するように構成することができる。処理ユニット３７０６は、（例えば、入力受信ユニット３７１０を使用して、入力ユニット３７０４から）ユーザからの入力を受信するように更に構成することができる。処理ユニット３７０６は、（例えば、クエリ判定ユニット３７１２を使用して）メディアコンテンツ及びメディアコンテンツの閲覧履歴のうちの１つ以上とに基づいて、１つ以上の仮想アシスタントクエリを判定するように更に構成することができる。処理ユニット３７０６は、（例えば、クエリ表示ユニット３７１４を使用して）１つ以上の仮想アシスタントクエリをディスプレイ上に表示するように更に構成することができる。
［０２４８］
１つの実施例では、遠隔制御上で、ユーザからの入力を受信する。別の実施例では、携帯電話上で、ユーザからの入力を受信する。いくつかの実施例では、１つ以上の仮想アシスタントクエリが、動画像上に重なっている。別の実施例では、入力は、ボタンのダブルクリックを含む。１つの実施例では、メディアコンテンツは、映画を含む。別の実施例では、メディアコンテンツは、テレビ番組を含む。更に別の実施例では、メディアコンテンツは、スポーツイベントを含む。
［０２４９］
いくつかの実施例では、１つ以上の仮想アシスタントクエリは、メディアコンテンツに現れている人物に関するクエリを含む。他の実施例では、１つ以上の仮想アシスタントクエリは、メディアコンテンツに現れているキャラクターに関するクエリを含む。別の実施例では、１つ以上の仮想アシスタントクエリは、メディアコンテンツに現れている人物と関連付けられたメディアコンテンツに関するクエリを含む。いくつかの実施例では、メディアコンテンツ又はメディアコンテンツの閲覧履歴は、テレビ番組のエピソードを含み、１つ以上の仮想アシスタントクエリは、テレビ番組の別のエピソードに関するクエリを含む。別の実施例では、メディアコンテンツ又はメディアコンテンツの閲覧履歴は、テレビ番組のエピソードを含み、１つ以上の仮想アシスタントクエリは、メディアコンテンツの後続のエピソードを視聴又は録画するためのリマインダを設定するという要求を含む。更に別の実施例では、１つ以上の仮想アシスタントクエリは、メディアコンテンツの記述的な詳細についてのクエリを含む。１つの実施例では、記述的な詳細は、番組タイトル、キャラクターリスト、俳優リスト、エピソードの記述、チーム名簿、チームランキング又は番組概要のうちの１つ以上を含む。
［０２５０］
いくつかの実施例では、処理ユニット３７０６は、１つ以上の仮想アシスタントクエリのうちの１つの選択を受信するように更に構成することができる。処理ユニット３７０６は、１つ以上の仮想アシスタントクエリのうちの選択されたクエリの結果を表示するように更に構成することができる。１つの実施例では、１つ以上の仮想アシスタントクエリを判定することは、クエリ履歴、ユーザの好み、又はクエリの人気のうちの１つ以上に基づいて、１つ以上の仮想アシスタントクエリを判定することを含む。別の実施例では、１つ以上の仮想アシスタントクエリを判定することは、ユーザが閲覧するために利用可能なメディアコンテンツに基づいて、１つ以上の仮想アシスタントクエリを判定することを含む。更に別の実施例では、１つ以上の仮想アシスタントクエリを判定することは、受信した通知に基づいて、１つ以上の仮想アシスタントクエリを判定することを含む。更に別の実施例では、１つ以上の仮想アシスタントクエリを判定することは、アクティブなアプリケーションに基づいて、１つ以上の仮想アシスタントクエリを判定することを含む。他の実施例では、処理ユニット３７０６は、ユーザの好み、番組の人気、及びライブスポーツイベントの状況のうちの１つ以上に基づいて、表示のための代替メディアコンテンツを判定し、判定した代替メディアコンテンツを含む通知を表示するように更に構成することができる。
［０２５１］
添付の図面を参照して、実施例について十分に説明してきたが、当業者には種々の変更及び修正（例えば、本明細書で論じた任意の他のシステム又はプロセスに関して説明した概念に従って、本明細書で論じた任意の他のシステム又はプロセスのうちのいずれかを修正すること）が明らかになるであろうことに留意されたい。そのような変更及び修正は、添付の特許請求の範囲によって定義されるような様々な実施例の範囲内に含まれるものとして理解されたい。

［書類名］特許請求の範囲
［請求項１］
仮想アシスタントを使用してテレビ対話を制御するための方法であって、前記方法が、
電子デバイスにおいて、
ユーザからの発語入力を受信することと、
前記発語入力に基づいて、メディアコンテンツを判定することと、
第１のサイズを有する第１のユーザインタフェースを表示することであって、前記第１のユーザインタフェースが、前記メディアコンテンツへの１つ以上の選択可能なリンクを含む、ことと、
前記１つ以上の選択可能なリンクのうちの１つの選択を受信することと、
前記選択に応じて、前記第１のサイズよりも大きい第２のサイズを有する第２のユーザインタフェースを表示することであって、前記第２のユーザインタフェースが、前記選択と関連付けられた前記メディアコンテンツを含む、ことと、
を含む方法。
［請求項２］
前記選択に応じて、前記第１のユーザインタフェースが、前記第２のユーザインタフェースへと拡張する、請求項１に記載の方法。
［請求項３］
前記第１のユーザインタフェースが、再生中のメディアコンテンツ上に重なっている、請求項１に記載の方法。
［請求項４］
前記第２のユーザインタフェースが、再生中のメディアコンテンツ上に重なっている、請求項１に記載の方法。
［請求項５］
前記発語入力がクエリを含み、前記メディアコンテンツが、前記クエリの結果を含む、請求項１に記載の方法。
［請求項６］
前記第１のユーザインタフェースが、前記メディアコンテンツへの前記１つ以上の選択可能なリンク以外に、前記クエリの結果へのリンクを含む、請求項５に記載の方法。
［請求項７］
前記選択に応じて、前記選択と関連付けられた前記メディアコンテンツを再生することを更に含む、請求項１に記載の方法。
［請求項８］
前記メディアコンテンツが、スポーツイベントを含む、請求項１に記載の方法。
［請求項９］
前記第２のユーザインタフェースが、前記選択と関連付けられた前記メディアコンテンツの記述を含む、請求項１に記載の方法。
［請求項１０］
前記第１のユーザインタフェースが、メディアコンテンツを購入するためのリンクを含む、請求項１に記載の方法。
［請求項１１］
前記ユーザからの追加の発語入力を受信することであって、前記追加の発語入力が、表示されたコンテンツと関連付けられたクエリを含む、ことと、
前記表示されたコンテンツと関連付けられたメタデータに基づいて、前記表示されたコンテンツと関連付けられた前記クエリに対する応答を判定することと、
前記追加の発語入力を受信したことに応じて、第３のユーザインタフェースを表示することであって、前記第３のユーザインタフェースが、前記表示されたコンテンツと関連付けられた前記クエリに対する前記判定した応答を含む、ことと、
を更に含む、請求項１に記載の方法。
［請求項１２］
発語入力の受信を開始する指示を受信することと、
前記指示を受信したことに応じて、準備完了確認を表示することと、
を更に含む、請求項１に記載の方法。
［請求項１３］
前記発語入力を受信したことに応じて、リッスン確認を表示することを更に含む、請求項１に記載の方法。
［請求項１４］
前記発語入力の音声表記を表示することを更に含む、請求項１に記載の方法。
［請求項１５］
前記電子デバイスが、テレビを含む、請求項１に記載の方法。
［請求項１６］
前記電子デバイスが、テレビセットトップボックスを含む、請求項１に記載の方法。
［請求項１７］
前記電子デバイスが、遠隔制御を含む、請求項１に記載の方法。
［請求項１８］
前記電子デバイスが、携帯電話を含む、請求項１に記載の方法。
［請求項１９］
前記第１のユーザインタフェースにおける前記１つ以上の選択可能なリンクが、前記メディアコンテンツと関連付けられた動画像を含む、請求項１に記載の方法。
［請求項２０］
前記メディアコンテンツと関連付けられた前記動画像が、前記メディアコンテンツのライブフィードを含む、請求項１９に記載の方法。
［請求項２１］
現在表示されているコンテンツが、動画像を含むか、あるいはコントロールメニューを含むかを判定することと、
現在表示されているコンテンツが動画像を含むという判定に応じて、前記第１のユーザインタフェースのための前記第１のサイズとして、小さいサイズを選択することと、
現在表示されているコンテンツがコントロールメニューを含むという判定に応じて、前記第１のユーザインタフェースのための前記第１のサイズとして、前記小さいサイズよりも大きい、大きいサイズを選択することと、
を更に含む、請求項１に記載の方法。
［請求項２２］
ユーザの好み、番組の人気、及びライブスポーツイベントの状況のうちの１つ以上に基づいて、表示のための代替メディアコンテンツを判定することと、
前記判定した代替メディアコンテンツを含む通知を表示することと、
を更に含む、請求項１に記載の方法。
［請求項２３］
非一時的コンピュータ可読記憶媒体であって、
ユーザからの発語入力を受信し、
前記発語入力に基づいて、メディアコンテンツを判定し、
第１のサイズを有する第１のユーザインタフェースであって、前記第１のユーザインタフェースが、前記メディアコンテンツへの１つ以上の選択可能なリンクを含む、第１のユーザインタフェースを表示し、
前記１つ以上の選択可能なリンクのうちの１つの選択を受信し、
前記選択に応じて、前記第１のサイズよりも大きい第２のサイズを有する第２のユーザインタフェースであって、前記第２のユーザインタフェースが、前記選択と関連付けられた前記メディアコンテンツを含む、第２のユーザインタフェースを表示する
コンピュータ実行可能命令を備える非一時的コンピュータ可読記憶媒体。
［請求項２４］
前記第１のユーザインタフェースが、前記選択に応じて、前記第２のユーザインタフェースへと拡張する、請求項２３に記載の非一時的コンピュータ可読記憶媒体。
［請求項２５］
前記第１のユーザインタフェースが、再生中のメディアコンテンツ上に重なっている、請求項２３に記載の非一時的コンピュータ可読記憶媒体。
［請求項２６］
前記第２のユーザインタフェースが、再生中のメディアコンテンツ上に重なっている、請求項２３に記載の非一時的コンピュータ可読記憶媒体。
［請求項２７］
前記発語入力がクエリを含み、前記メディアコンテンツが、前記クエリの結果を含む、請求項２３に記載の非一時的コンピュータ可読記憶媒体。
［請求項２８］
前記第１のユーザインタフェースが、前記メディアコンテンツへの前記１つ以上の選択可能なリンク以外に、前記クエリの結果へのリンクを含む、請求項２７に記載の非一時的コンピュータ可読記憶媒体。
［請求項２９］
仮想アシスタントを使用してテレビ対話を制御するためのシステムであって、前記システムが、
１つ以上のプロセッサと、
メモリと、
１つ以上のプログラムと、
を備え、前記１つ以上のプログラムが、前記メモリ内に記憶され、前記１つ以上のプロセッサによって実行されるように構成され、前記１つ以上のプログラムが、
ユーザからの発語入力を受信し、
前記発語入力に基づいて、メディアコンテンツを判定し、
第１のサイズを有する第１のユーザインタフェースであって、前記第１のユーザインタフェースが、前記メディアコンテンツへの１つ以上の選択可能なリンクを含む、第１のユーザインタフェースを表示し、
前記１つ以上の選択可能なリンクのうちの１つの選択を受信し、
前記選択に応じて、前記第１のサイズよりも大きい第２のサイズを有する第２のユーザインタフェースであって、前記第２のユーザインタフェースが、前記選択と関連付けられた前記メディアコンテンツを含む、第２のユーザインタフェースを表示する
命令を含む、システム。
［請求項３０］
前記第１のユーザインタフェースが、前記選択に応じて、前記第２のユーザインタフェースへと拡張する、請求項２９に記載のシステム。
［請求項３１］
前記第１のユーザインタフェースが、再生中のメディアコンテンツ上に重なっている、請求項２９に記載のシステム。
［請求項３２］
前記第２のユーザインタフェースが、再生中のメディアコンテンツ上に重なっている、請求項２９に記載のシステム。
［請求項３３］
前記発語入力がクエリを含み、前記メディアコンテンツが、前記クエリの結果を含む、請求項２９に記載のシステム。
［請求項３４］
前記第１のユーザインタフェースが、前記メディアコンテンツへの前記１つ以上の選択可能なリンク以外に、前記クエリの結果へのリンクを含む、請求項３３に記載のシステム。

［書類名］要約書
［要約］
仮想アシスタントを使用してテレビユーザ対話を制御するためのシステム及びプロセスを開示する。仮想アシスタントは、テレビ上に表示されたコンテンツを制御するために、テレビセットトップボックスと対話することができる。マイクロフォンを備えるデバイスから、仮想アシスタントのための発語入力を受信することができる。発語入力からユーザ意図を判定することができ、仮想アシスタントは、ユーザの意図に従って、テレビ上でメディアを再生させることを含むタスクを実行することができる。所望の情報を伝達しながら、テレビの、占有スペースを最小量にするように拡大又は縮小することができるインタフェースに仮想アシスタント対話を表示することできる。複数のディスプレイと関連付けられた複数のデバイスを使用して、発語入力からユーザ意図を判定するだけでなく、ユーザに情報を伝達することができる。いくつかの実施例では、ディスプレイ上に表示されたメディアコンテンツに基づいて、仮想アシスタントクエリ推薦をユーザに提供することができる。

［書類名］図面
［図１］
［図２］
［図３］
［図４Ａ］
［図４Ｂ］
［図４Ｃ］
［図４Ｄ］
［図４Ｅ］
［図５］
［図６Ａ］
［図６Ｂ］
［図７Ａ］
［図７Ｂ］
［図８Ａ］
［図８Ｂ］
［図９］
［図１０］
［図１１］
［図１２］
［図１３］
［図１４］
［図１５］
［図１６］
［図１７］
［図１８］
［図１９］
［図２０］
［図２１］
［図２２］
［図２３Ａ］
［図２３Ｂ］
［図２４］
［図２５］
［図２６］
［図２７］
［図２８Ａ］
［図２８Ｂ］
［図２９］
［図３０］
［図３１］
［図３２］
［図３３］
［図３４］
［図３５］
［図３６］
［図３７］

リアルタイムのデジタルアシスタントの知識更新
［関連出願の相互参照］
［０００１］
本出願は、２０１４年６月３０日出願の「ＲＥＡＬ−ＴＩＭＥＤＩＧＩＴＡＬＡＳＳＩＳＴＡＮＴＫＮＯＷＬＥＤＧＥＵＰＤＡＴＥＳ」と題された米国特許暫定出願第６２／０１９，２９２号、及び２０１４年９月２６日出願の「ＲＥＡＬ−ＴＩＭＥＤＩＧＩＴＡＬＡＳＳＩＳＴＡＮＴＫＮＯＷＬＥＤＧＥＵＰＤＡＴＥＳ」と題された米国特許非暫定出願第１４／４９８，３９１号の優先権を主張し、参照によりその全体が汎用のために本明細書に組み込まれる。
［０００２］
本出願はまた、以下の２０１４年６月３０日出願の同時係属暫定出願の米国特許出願第６２／０１９，３１２号、「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔｆｏｒＴＶＵｓｅｒＩｎｔｅｒａｃｔｉｏｎｓ」（代理人整理番号第１０６８４３０６５１００（Ｐ１８１３３ＵＳＰ１）号）に関連する。
［技術分野］
［０００３］
本出願は、概して、テレビのユーザ対話の音声制御、より具体的には仮想アシスタントのメディア知識のリアルタイム更新に関する。
［背景技術］
［０００４］
インテリジェント自動アシスタント（又は仮想アシスタント）は、ユーザと電子デバイスとの間の直感的なインタフェースを提供する。これらのアシスタントは、ユーザが口頭形式及び／又はテキスト形式の自然言語を使用して、デバイス又はシステムと双方向作用することを可能にすることができる。例えば、ユーザは、自然言語形式の口頭ユーザ入力を電子デバイスに関連付けられた仮想アシスタントに提供することにより、電子デバイスのサービスにアクセスすることができる。仮想アシスタントは、ユーザの意図を推測しユーザの意図をタスクとして作動可能にするために、口頭ユーザ入力について自然言語処理を実行することができる。タスクは、次に、電子デバイスの１つ以上の機能を実行することにより、実行することができ、いくつかの実施例では、関連した出力を、ユーザに自然言語形式で返すことができる。
［０００５］
移動電話（例えば、スマートフォン）、タブレットコンピュータなどが仮想アシスタント制御から恩恵を受けてきた一方で、多くの他のユーザ機器は、そのような便利な制御機構を欠いている。例えば、メディア制御機器（例えば、テレビ、テレビ用セットトップボックス、ケーブルボックス、ゲーミングデバイス、ストリーミングメディアデバイス、デジタルビデオレコーダなど）とのユーザ対話は、複雑で習得するのが困難なことがある。更に、そのようなデバイスを介して利用可能なメディアのソース（例えば、テレビ放送、有料テレビ放送サービス、ストリーミングビデオサービス、ケーブルオンデマンドビデオサービス、ウェブベースのビデオサービスなど）が増えるにつれて、ユーザによっては消費する所望のメディアコンテンツを見つけることは、煩雑又は手に負えないことさえあり得る。加えて、粗いタイムシフト及びキュー制御は、ユーザがテレビ番組内の特定の瞬間などの所望のコンテンツを入手するのを困難にすることがある。ライブのメディアコンテンツに関連付けられた適時情報を入手することもまた、困難であることがある。結果として、多くのメディア制御機器は、多くのユーザにとって思うようにならないことがある、質の悪いユーザエクスペリエンスを提供することがある。
［発明の概要］
［０００６］
仮想アシスタントのメディア知識のリアルタイム更新のためのシステム及びプロセスが開示される。一実施例では、仮想アシスタントの知識は、再生中のメディアに関連付けられた適時情報を用いて更新することができる。イベントをメディアストリーム内の特定の時間に関連付けるデータを含むデータ供給を、受信することができる。ユーザ要求は、発語入力に基づいて受信することができ、ユーザ要求は、メディアストリーム又は番組内のイベントに関連付けることができる。要求を受信したことに応じて、メディアストリームは、要求内で参照されたイベントに関連付けられたメディアストリーム内の時間で再生を開始するために、キューすることができる。
［０００７］
別の実施例では、適時情報は、現在のイベントを伴う照会への回答を提供するために、デジタルアシスタントの知識内に組み込むことができる。イベントをメディアストリーム内の特定の時間に関連付けるデータを含むデータ供給を、受信することができる。ユーザ要求は、ユーザからの発語入力に基づいて受信することができ、ユーザ要求は、イベントの１つに関連付けることができる。ユーザ要求への応答は、イベントに関連したデータに基づいて生成することができる。応答は、次に、ユーザに様々な方法で（例えば、発声して、テレビ上に表示して、モバイルユーザ機器上に表示して、など）配信することができる。
［図面の簡単な説明］
［０００８］
［図１］メディア再生の音声制御及び仮想アシスタントの知識のリアルタイム更新を提供するための例示的なシステムを示す図である。
［０００９］
［図２］様々な実施例による、例示的なユーザ機器のブロック図である。
［００１０］
［図３］メディア再生の音声制御を提供するためのシステム内の例示的なメディア制御機器のブロック図である。
［００１１］
［図４］様々な実施例による、メディア再生の音声制御のための例示的なプロセスを示す図である。
［００１２］
［図５］メディアストリーム内のイベントをメディアストリーム内の特定の時間に関連付ける、例示的なデータ供給を示す図である。
［００１３］
［図６］メディアストリーム内のイベントに基づいてビデオ再生をキューすることの、例示的な仮想アシスタントの照会応答を示す図である。
［００１４］
［図７］ユーザ照会を解釈するために使用することができる、再生位置の前及び後に現れる例示的なイベントを示す図である。
［００１５］
［図８］メディアストリーム内のイベントをメディアストリーム内の特定の時間に関連付ける、例示的な受賞番組のデータ供給を示す図である。
［００１６］
［図９］メディアストリーム内のイベントをメディアストリーム内の特定の時間に関連付ける、例示的なテレビ番組のデータ供給を示す図である。
［００１７］
［図１０］ユーザ照会に応答するために使用することができる、ビデオ内の特定の時間に関連付けられた例示的な字幕テキストを示す図である。
［００１８］
［図１１Ａ］ユーザ照会を解釈するために使用することができる、例示的なビデオコンテンツを有するテレビのディスプレイを示す図である。
［００１９］
［図１１Ｂ］ユーザ照会を解釈するために使用することができる、例示的な画像及びテキストコンテンツを有するモバイルユーザ機器を示す図である。
［００２０］
［図１２］情報をデジタルアシスタントの知識に組み込んでユーザ要求に応答するための、例示的なプロセスを示す図である。
［００２１］
［図１３］様々な実施例による、メディア再生の音声制御及び仮想アシスタントの知識のリアルタイム更新を提供するように構成された、電子デバイスの機能ブロック図を示す図である。
［００２２］
［図１４］様々な実施例による、情報をデジタルアシスタントの知識に組み込んでユーザ要求に応答するように構成された、電子デバイスの機能ブロック図を示す。
［発明を実施するための形態］
［００２３］
以下の実施例の説明では、実践することが可能な特定の実施例が例示として示される、添付図面を参照する。様々な実施例の範囲から逸脱することなく、他の実施例を使用することができ、構造上の変更を実施することができる点を理解されたい。
［００２４］
本出願は、仮想アシスタントのメディア知識のリアルタイム更新のためのシステム及びプロセスに関する。リアルタイムの仮想アシスタントの知識更新は、例えば、テレビのユーザ対話の精密な音声制御を可能にし、メディアに関連した照会への適時で正確な仮想アシスタントの応答を提供することができる。一実施例では、仮想アシスタントは、テレビのディスプレイ上に表示されたコンテンツを制御しているテレビ用セットトップボックスなどの、メディア制御機器と双方向作用するために使用することができる。マイクロフォンを有するモバイルユーザ機器又はリモコンは、仮想アシスタントに対する発語入力を受信するために使用することができる。ユーザの意図は、発語入力から判定することができ、仮想アシスタントは、接続されたテレビ上でメディアの再生をさせること、及びテレビ用セットトップボックス又は類似のデバイスの任意の他の機能を制御すること（例えば、ライブのメディアコンテンツの再生をさせること、記録されたメディアコンテンツの再生をさせること、ビデオ記録を管理すること、メディアコンテンツを検索すること、メニューをナビゲートすること、など）を含む、ユーザの意図に従ってタスクを実行することができる。
［００２５］
一実施例では、仮想アシスタントの知識は、再生しているメディア（例えば、スポーツのイベント、テレビ番組、など）に関連付けられた、適時で更にリアルタイムな情報を用いて更新することができる。イベントをメディアストリーム内の特定の時間に関連付けるデータを含むデータ供給を、受信することができる。例えば、データ供給は、テレビ放送されたフットボールの試合中のある時間にゴールが起きたことを示すことができる。別の実施例では、データ供給は、テレビ放送された番組中のある時間に番組の司会者が独白したことを示すことができる。ユーザ要求は、発語入力に基づいて受信することができ、ユーザ要求は、メディアストリーム又は番組内のイベントに関連付けることができる。要求を受信したことに応じて、要求内で参照されたイベントに関連付けられたメディアストリーム内の時間で再生を開始するために、メディアストリームを、キューすることができる。
［００２６］
別の実施例では、適時又はリアルタイム情報は、現在のイベントを伴う照会への回答を提供するために、デジタルアシスタントの知識に組み込むことができる。イベントをメディアストリーム内の特定の時間に関連付けるデータを含むデータ供給を、受信することができる。ユーザ要求は、ユーザからの発語入力に基づいて受信することができ、ユーザ要求は、イベントの１つに関連付けることができる。ユーザ要求に対する応答は、イベントに関連したデータに基づいて生成することができる。応答は、次に、ユーザに様々な方法で（例えば、発声して、テレビ上に表示して、モバイルユーザ機器上に表示して、など）配信することができる。
［００２７］
本明細書で説明する様々な実施例により、仮想アシスタントの知識を適時メディア情報を用いて更新することは、効率的で楽しめるユーザエクスペリエンスを提供することができる。メディア制御機器とのユーザ対話は、メディアコンテンツに関連付けられた自然言語の照会又はコマンドを受信する能力を有する仮想アシスタントを使用して、直感的で簡単なものとすることができる。リアルタイムの仮想アシスタントの知識更新は、例えば、テレビのユーザ対話の精密な音声制御を可能にし、メディアに関連した照会への適時で正確な仮想アシスタントの応答を提供することができる。加えて、メディアの所望の部分又はシーンに、表示されたメディアに関連した直感的な口頭コマンドを使用して、容易にアクセス可能にすることができる。しかし、本明細書で説明する様々な実施例により、更に多くの他の利点が達成され得ることが理解されるべきである。
［００２８］
図１は、メディア再生の音声制御及び仮想アシスタントの知識のリアルタイム更新を提供するための、例示的なシステム１００を示す。本明細書で説明するテレビ上のメディア再生の音声制御は、ディスプレイ技術の１つの種類上でメディアを制御することの単なる一例であり、参照として使用されており、本明細書で説明する概念は、様々なデバイス及び関連付けられたディスプレイ（例えば、モニタ、ラップトップコンピュータのディスプレイ、デスクトップコンピュータのディスプレイ、モバイルユーザ機器のディスプレイ、プロジェクタのディスプレイなど）の任意のものの上を含む、一般的に任意のメディアコンテンツの双方向作用を制御するために使用することができることが理解されるべきである。用語「テレビ」は、ゆえに、様々なデバイスの任意のものに関連付けられた任意の種類のディスプレイを指すことができる。更に、用語「仮想アシスタント」、「デジタルアシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、口頭及び／又はテキスト形式の自然言語入力を解釈してユーザの意図を推測し、推測されたユーザの意図に基づきアクションを実行することができる、任意の情報処理システムを指すことができる。例えば、推測されたユーザの意図を実行するために、システムは、以下の１つ以上を実行することができる。推測されたユーザの意図を実現するために設計されたステップ及びパラメータを有するタスクフローを識別すること、推測されたユーザの意図からの具体的な要件をタスクフローに入力すること、プログラム、方法、サービス、ＡＰＩなどを呼び出すことによりタスクフローを実行すること、及び、ユーザへの出力応答をオーディオ（例えば、スピーチ）及び／又は視覚形式で生成すること。
［００２９］
仮想アシスタントは、自然言語のコマンド、要求、陳述、叙述、及び／又は照会の形で、少なくとも部分的にユーザ要求を受け入れる能力を有することができる。一般的に、ユーザ要求は、仮想アシスタントによる、情報回答又はタスクの実行（例えば、特定のメディアの表示をさせること）のいずれかを求めている。ユーザ要求への満足な応答は、要求された情報回答の提供、要求されたタスクの実行、又はその２つの組み合わせを含むことができる。例えば、ユーザは、仮想アシスタントに「私は今どこにいますか？」などの質問をすることができる。ユーザの現在の位置に基づき、仮想アシスタントは、「あなたはセントラルパーク内にいます」と回答することができる。ユーザはまた、例えば、「今日午後４時に母に電話することを私に思い出させてください」と、タスクの実行を要求することができる。それに応じて、仮想アシスタントは、要求を確認し、次に、ユーザの電子スケジュール内に適当なリマインダ項目を作成することができる。要求されたタスクの実行中、仮想アシスタントは、長時間にわたって情報を複数回交換する連続的なダイアログにおいて、ユーザと時折対話することができる。情報又は種々のタスクの実行を要求するために仮想アシスタントと双方向作用する方法は他にも数多く存在する。言葉による応答を提供し、プログラムされたアクションを取ることに加えて、仮想アシスタントは、他の視覚又はオーディオ形式の応答を（例えば、テキスト、警報、音楽、ビデオ、アニメーション等として）提供することもできる。更に、本明細書で説明するように、例示的な仮想アシスタントは、メディアコンテンツの再生（例えば、テレビ上でビデオを再生すること）を制御し、情報をディスプレイ上に表示させることができる。
［００３０］
仮想アシスタントの１つの例が、その開示全体が参照により本明細書に組み込まれる、２０１１年１月１０日出願の「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔ」に対する出願人の米国実用特許出願第１２／９８７，９８２号に示されている。
［００３１］
図１に示されているように、いくつかの実施例では、仮想アシスタントは、クライアント−サーバモデルに従って実施することができる。仮想アシスタントは、ユーザ機器１０２上で実行されるクライアント側部分、及びサーバシステム１１０上で実行されるサーバ側部分を含むことができる。クライアント側部分はまた、リモコン１０６と連携して、テレビ用セットトップボックス１０４上でも実行することができる。ユーザ機器１０２としては、携帯電話（例えば、スマートフォン）、タブレットコンピュータ、ポータブルメディアプレーヤ、デスクトップコンピュータ、ラップトップコンピュータ、ＰＤＡ、装着型電子デバイス（例えば、デジタル眼鏡、リストバンド、腕時計、ブローチ、アームバンド等）などの、任意の電子デバイスを挙げることができる。テレビ用セットトップボックス１０４としては、ケーブルボックス、衛星ボックス、ビデオ再生装置、ビデオストリーミングデバイス、デジタルビデオレコーダ、ゲーミングシステム、ＤＶＤプレーヤ、Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標）プレーヤ、そのようなデバイスの組み合わせなどの、任意のメディア制御機器を挙げることができる。テレビ用セットトップボックス１０４は、ディスプレイ１１２及びスピーカ１１１に有線又は無線接続により接続することができる。ディスプレイ１１２（スピーカ１１１付き又はなしの）は、テレビのディスプレイ、モニタ、プロジェクタなどの、任意の種類のディスプレイとすることができる。いくつかの実施例では、テレビ用セットトップボックス１０４は、オーディオシステム（例えば、オーディオ受信機）に接続することができ、スピーカ１１１は、ディスプレイ１１２とは別個のものとすることができる。他の実施例では、ディスプレイ１１２、スピーカ１１１、及びテレビ用セットトップボックス１０４は、高度な処理機能及びネットワーク接続機能を有するスマートテレビなどの、単一のデバイス内に一体に組み込むことができる。そのような実施例では、テレビ用セットトップボックス１０４の機能は、組み合わせたデバイス上のアプリケーションとして実行することができる。
［００３２］
いくつかの実施例では、テレビ用セットトップボックス１０４は、複数の種類及びソースのメディアコンテンツのためのメディアコントロールセンタとして機能することができる。例えば、テレビ用セットトップボックス１０４は、ライブのテレビ（例えば、テレビ放送、衛星テレビ、又はケーブルテレビ）へのユーザのアクセスを促進にすることができる。そのように、テレビ用セットトップボックス１０４は、ケーブルチューナ、衛星チューナなどを含むことができる。いくつかの実施例では、テレビ用セットトップボックス１０４はまた、後でのタイムシフトした視聴のためにテレビ番組を録画することができる。他の実施例では、テレビ用セットトップボックス１０４は、ケーブル配信のオンデマンドのテレビ番組、ビデオ、及び音楽、並びにインターネット配信のテレビ番組、ビデオ、及び音楽など（例えば、様々な無料、有料、及び契約に基づくストリーミングサービスから）の、１つ以上のストリーミングメディアサービスへのアクセスを提供することができる。更に他の実施例では、テレビ用セットトップボックス１０４は、モバイルユーザ機器からの写真を表示すること、連結された記憶デバイスからのビデオを再生すること、連結された音楽プレーヤからの音楽を再生することなどの、任意の他のソースからのメディアコンテンツの再生又は表示を促進にすることができる。テレビ用セットトップボックス１０４はまた、所望により、本明細書で説明するメディア制御機能の様々な他の組み合わせを含むことができる。
［００３３］
ユーザ機器１０２及びテレビ用セットトップボックス１０４は、インターネット、イントラネット、又は任意の他の有線若しくは無線の公衆ネットワーク若しくはプライベートネットワークを含み得る、１つ以上のネットワーク１０８を介して、サーバシステム１１０と通信することができる。加えて、ユーザ機器１０２は、ネットワーク１０８を介して、又は直接、任意の他の有線若しくは無線通信機構（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、高周波、赤外線伝送など）を介して、テレビ用セットトップボックス１０４と通信することができる。図示されるように、リモコン１０６は、ネットワーク１０８によるのを含む、有線接続又は任意の種類の無線通信（例えば、Ｂｌｕｅｔｏｏｔｈ、Ｗｉ−Ｆｉ、高周波、赤外線伝送など）などの、任意の種類の通信を使用して、テレビ用セットトップボックス１０４と通信することができる。いくつかの実施例では、ユーザは、ユーザ機器１０２、リモコン１０６、又はテレビ用セットトップボックス１０４内に組み込まれたインタフェース要素（例えば、ボタン、マイクロフォン、カメラ、ジョイスティックなど）を介して、テレビ用セットトップボックス１０４と双方向作用することができる。例えば、仮想アシスタントに対するメディアに関連した照会又はコマンドを含む発語入力は、ユーザ機器１０２及び／又はリモコン１０６で受信することができ、発語入力は、メディアに関連したタスクをテレビ用セットトップボックス１０４上で実行させるために使用することができる。同様に、テレビ用セットトップボックス１０４上のメディアを制御するための触知コマンドは、ユーザ機器１０２及び／又はリモコン１０６で（並びに図示しない他のデバイスから）受信することができる。テレビ用セットトップボックス１０４の様々な機能は、ゆえに、様々な方法で制御することができ、ユーザにメディアコンテンツを複数のデバイスから制御するための多数の選択肢を与える。
［００３４］
ユーザ機器１０２、及び／又はリモコン１０６を用いてテレビ用セットトップボックス１０４上で実行される、例示的な仮想アシスタントのクライアント側部分は、ユーザ対応入力及び出力処理並びにサーバシステム１１０との通信などの、クライアント側の機能を提供することができる。サーバシステム１１０は、それぞれのユーザ機器１０２又はそれぞれのテレビ用セットトップボックス１０４上にある、任意の数のクライアントのためのサーバ側機能を提供することができる。
［００３５］
サーバシステム１１０は、クライアント対応Ｉ／Ｏインタフェース１２２、１つ以上の処理モジュール１１８、データ及びモデル記憶装置１２０、及び外部サービスへのＩ／Ｏインタフェース１１６を含み得る、１つ以上の仮想アシスタントサーバ１１４を含むことができる。クライアント対応Ｉ／Ｏインタフェース１２２は、仮想アシスタントサーバ１１４のためのクライアント対応入力及び出力処理を促進することができる。１つ以上の処理モジュール１１８は、データ及びモデル記憶装置１２０を利用して、自然言語入力に基づきユーザの意図を判定することができ、推測されたユーザの意図に基づきタスクを実行することができる。いくつかの実施例では、仮想アシスタントサーバ１１４は、タスク完了又は情報取得のために、電話サービス、カレンダサービス、情報サービス、メッセージングサービス、ナビゲーションサービス、テレビ番組サービス、ストリーミングメディアサービスなどの、外部サービス１２４とネットワーク（単数又は複数）１０８を介して通信することができる。外部サービスへのＩ／Ｏインタフェース１１６は、このような通信を促進することができる。
［００３６］
サーバシステム１１０は、１つ以上の独立型のデータ処理デバイス、又はコンピュータの分散型ネットワーク上に実装することができる。いくつかの実施形態では、サーバシステム１１０は、様々な仮想機器及び／又はサードパーティのサービスプロバイダ（例えば、サードパーティのクラウドサービスプロバイダ）のサービスを利用して、サーバシステム１１０の基本的なコンピューティングリソース及び／又はインフラストラクチャリソースを提供することができる。
［００３７］
仮想アシスタントの機能は、クライアント側部分及びサーバ側部分の両方を含むとして図１に示されているが、いくつかの実施例では、アシスタントの機能（又はスピーチ認識及びメディア制御全般）は、ユーザ機器、テレビ用セットトップボックス、スマートテレビなどにインストールされたスタンドアロンアプリケーションとして実装することができる。加えて、仮想アシスタントのクライアント部分とサーバ部分との間の機能の分配は実施例によって異なり得る。例えば、いくつかの実施例では、ユーザ機器１０２又はテレビ用セットトップボックス１０４上で実行されるクライアントは、ユーザ対応入力及び出力処理機能のみを提供し、仮想アシスタントのすべての他の機能をバックエンドサーバに任せる、シンクライアントとすることができる。
［００３８］
図２は、様々な実施例による、例示的なユーザ機器１０２のブロック図を示す。図示されるように、ユーザ機器１０２は、メモリインタフェース２０２、１つ以上のプロセッサ２０４、及び周辺機器インタフェース２０６を含むことができる。ユーザ機器１０２内の様々な構成要素は、１つ以上の通信バス又は信号ラインにより一体に結合することができる。ユーザ機器１０２は、周辺機器インタフェース２０６に結合される様々なセンサ、サブシステム、及び周辺機器を更に含むことができる。センサ、サブシステム、及び周辺機器は、情報を収集し、及び／又はユーザ機器１０２の様々な機能を促進することができる。
［００３９］
例えば、ユーザ機器１０２は、方向、光、及び近接感知機能を促進するために、周辺機器インタフェース２０６に結合された動きセンサ２１０、光センサ２１２、及び近接センサ２１４を含むことができる。関連機能を促進するために、測位システム（例えば、ＧＰＳ受信機）、温度センサ、生体センサ、ジャイロスコープ、コンパス、加速度計、などの、１つ以上の他のセンサ２１６も、周辺インタフェース２０６に接続することができる。
［００４０］
いくつかの実施例では、カメラサブシステム２２０及び光学センサ２２２は、写真の撮影及びビデオクリップの録画などの、カメラ機能を促進するために利用することができる。様々な通信ポート、無線周波数受信器及び送信器、並びに／又は光（例えば、赤外線）受信器及び送信器を含み得る、１つ以上の有線及び／又は無線通信サブシステム２２４を通じて、通信機能を促進することができる。オーディオサブシステム２２６は、スピーカ２２８及びマイクロフォン２３０に結合して、音声認識、音声複製、デジタル録音、及び電話機能などの、音声使用可能機能を促進することができる。
［００４１］
いくつかの実施例では、ユーザ機器１０２は、周辺機器インタフェース２０６に結合されたＩ／Ｏサブシステム２４０を更に含むことができる。Ｉ／Ｏサブシステム２４０は、タッチスクリーンコントローラ２４２及び／又は他の入力コントローラ（単数又は複数）２４４を含むことができる。タッチスクリーンコントローラ２４２は、タッチスクリーン２４６に結合することができる。タッチスクリーン２４６及びタッチスクリーンコントローラ２４２は、例えば、容量性、抵抗性、赤外線、及び表面弾性波技術、近接センサアレイなどの、複数のタッチ感知技術のうちの任意のものを用いて、接触及びその移動又は中断を検出することができる。他の入力コントローラ（単数又は複数）２４４は、１つ以上のボタン、ロッカスイッチ、サムホイール、赤外線ポート、ＵＳＢポート、及び／又はスタイラスなどのポインタデバイスなどの、他の入力／制御機器２４８に結合することができる。
［００４２］
いくつかの実施例では、ユーザ機器１０２は、メモリ２５０に結合されたメモリインタフェース２０２を更に含むことができる。メモリ２５０としては、任意の電子、磁気、光学、電磁、赤外線、若しくは半導体の、システム、装置、若しくはデバイス、ポータブルコンピュータディスケット（磁気）、ランダムアクセスメモリ（ＲＡＭ）（磁気）、読み出し専用メモリ（ＲＯＭ）（磁気）、消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）（磁気）、ＣＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ、ＤＶＤ−Ｒ、若しくはＤＶＤ−ＲＷなどの、ポータブル光学ディスク、又はコンパクトフラッシュカード、セキュアデジタルカード、ＵＳＢメモリデバイス、メモリスティックなどの、フラッシュメモリを挙げることができる。いくつかの実施例では、メモリ２５０の非一時的コンピュータ可読記憶媒体は、コンピュータベースのシステム、プロセッサを含むシステム、又は、命令実行システム、装置、若しくはデバイスから命令をフェッチし、それらの命令を実行し得る他のシステムなどの、命令実行システム、装置、若しくはデバイスにより又はそれらと連携して使用するための、命令（例えば、本明細書で説明する様々なプロセスの一部分又はすべてを実行するための）を記憶するために使用することができる。他の実施例では、命令（例えば、本明細書で説明する様々なプロセスの一部分又はすべてを実行するための）は、サーバシステム１１０の非一時的コンピュータ可読記憶媒体に記憶することができる、又は、メモリ２５０の非一時的コンピュータ可読記憶媒体とサーバシステム１１０の非一時的コンピュータ可読記憶媒体との間に分割することができる。本文書のコンテキストでは、「非一時的コンピュータ可読記憶媒体」は、命令実行システム、装置、若しくはデバイスによって、又はそれらに関連して使用するためのプログラムを、含むか又は記憶することが可能な、任意の媒体とすることができる。
［００４３］
いくつかの実施例では、メモリ２５０は、オペレーティングシステム２５２、通信モジュール２５４、グラフィカルユーザインタフェースモジュール２５６、センサ処理モジュール２５８、電話モジュール２６０、及びアプリケーション２６２を記憶することができる。オペレーティングシステム２５２は、基本システムサービスを処理する命令、及びハードウェア依存タスクを実行する命令を含むことができる。通信モジュール２５４は、１つ以上の追加機器、１つ以上のコンピュータ、及び／又は１つ以上のサーバとの通信を促進することができる。グラフィカルユーザインタフェースモジュール２５６は、グラフィカルユーザインタフェース処理を促進することができる。センサ処理モジュール２５８は、センサ関連の処理及び機能を促進することができる。電話モジュール２６０は、電話関連のプロセス及び機能を促進することができる。アプリケーションモジュール２６２は、電子メッセージング、ウェブブラウジング、メディア処理、ナビゲーション、イメージング、並びに／又はその他のプロセス及び機能などの、ユーザアプリケーションの様々な機能を促進することができる。
［００４４］
本明細書で説明されるように、メモリ２５０はまた、例えば、仮想アシスタントのクライアント側機能を提供するために、（例えば、仮想アシスタントクライアントモジュール２６４内の）クライアント側仮想アシスタント命令、並びに種々のユーザデータ２６６（例えば、ユーザ固有の語彙データ、設定データ、及び／若しくはユーザの電子アドレス帳、ｔｏ−ｄｏリスト、買い物リスト、テレビ番組の好み等のその他のデータ）も記憶することができる。ユーザデータ２６６はまた、仮想アシスタントを支援して、又は任意の他のアプリケーションのために、スピーチ認識の実行に使用することができる。
［００４５］
様々な実施例では、仮想アシスタントクライアントモジュール２６４は、ユーザ機器１０２の種々のユーザインタフェース（例えば、Ｉ／Ｏサブシステム２４０、オーディオサブシステム２２６など）を通じて発語入力（例えば、発語入力）、テキスト入力、タッチ入力、及び／又はジェスチャ入力を受け入れる能力を有することができる。仮想アシスタントクライアントモジュール２６４はまた、オーディオ（例えば、発語出力）、視覚、及び／又は触知形態の出力を提供する能力も有することができる。例えば、出力は、音声、音響、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び／又は上記のもののうちの２つ以上の組み合わせとして提供することができる。動作時、仮想アシスタントクライアントモジュール２６４は、通信サブシステム２２４を用いて仮想アシスタントサーバと通信することができる。
［００４６］
いくつかの実施例では、仮想アシスタントクライアントモジュール２６４は、ユーザ、現在のユーザ対話、及び／又は現在のユーザ入力に関連付けられるコンテキストを確立するために、種々のセンサ、サブシステム及び周辺機器を利用してユーザ機器１０２の周囲環境から追加情報を収集することができる。そのようなコンテキストはまた、テレビ用セットトップボックス１０４からなどの、他のデバイスからの情報を含むことができる。いくつかの実施例では、仮想アシスタントクライアントモジュール２６４は、ユーザの意図の推測を助けるために、ユーザ入力とともにコンテキスト情報又はそのサブセットを仮想アシスタントサーバに提供することができる。仮想アシスタントはまた、ユーザへの出力をどのように準備し、配信するのかを決定するために、コンテキスト情報を用いることができる。コンテキスト情報は、ユーザ機器１０２又はサーバシステム１１０により、正確なスピーチ認識を支援するために、更に使用することができる。
［００４７］
いくつかの実施例では、ユーザ入力に付随するコンテキスト情報は、照明、環境ノイズ、周囲温度、周囲環境の画像又はビデオ、別のオブジェクトとの距離、などの、センサ情報を含むことができる。コンテキスト情報は、ユーザ機器１０２の物理的状態に関連付けられた情報（例えば、機器の向き、機器の位置、機器の温度、電力レベル、速さ、加速度、動きパターン、セルラー信号強度など）、又はユーザ機器１０２のソフトウェア状態に関連付けられた情報（例えば、稼働中のプロセス、インストールされたプログラム、過去及び現在のネットワーク活動、バックグラウンドサービス、エラーログ、リソース使用など）を更に含むことができる。コンテキスト情報は、接続されたデバイス又はユーザに関連付けられた他のデバイスの状態に関連付けられた情報（例えば、テレビ用セットトップボックス１０４により表示されたメディアコンテンツ、テレビ用セットトップボックス１０４で使用可能なメディアコンテンツなど）を更に含むことができる。これらの種類のコンテキスト情報の任意のものを、ユーザ入力に関連付けられたコンテキスト情報として、仮想アシスタントサーバ１１４に提供する（又はユーザ機器１０２自体で使用する）ことができる。
［００４８］
いくつかの実施例では、仮想アシスタントクライアントモジュール２６４は、仮想アシスタントサーバ１１４からの要求に応じて、ユーザ機器１０２上に記憶された情報（例えば、ユーザデータ２６６）を選択的に提供することができる（又は、その情報を、ユーザ機器１０２自体でスピーチ認識及び／又は仮想アシスタントの機能を実行するのに使用することができる）。仮想アシスタントクライアントモジュール２６４はまた、仮想アシスタントサーバ１１４による要求に応じて、自然言語ダイアログ又はその他のユーザインタフェースを介してユーザから追加入力も引き出すことができる。仮想アシスタントクライアントモジュール２６４は、意図推測及び／又はユーザ要求内に表されているユーザの意図の達成において仮想アシスタントサーバ１１４を助けるために、追加入力を仮想アシスタントサーバ１１４に渡すことができる。
［００４９］
種々の実施例では、メモリ２５０は、追加の命令又はより少数の命令を含むことができる。更に、ユーザ機器１０２の種々の機能は、１つ以上の信号処理回路及び／又は特定用途向け集積回路の形態を含む、ハードウェアの形態及び／又はファームウェアの形態で実装することができる。
［００５０］
図３は、メディア再生の音声制御を提供するための、システム３００内の例示的なテレビ用セットトップボックス１０４のブロック図を示す。システム３００は、システム１００の要素のサブセットを含むことができる。いくつかの実施例では、システム３００は、それ自体だけで特定の機能を実行することができ、他の機能を実行するためにシステム１００の他の要素と一体で機能することができる。例えば、システム３００の要素は、サーバシステム１１０と双方向作用せずに、特定のメディア制御機能（例えば、ローカルに記憶されたメディアの再生、録画機能、チャンネル同調など）を処理することができ、システム３００は、サーバシステム１１０及びシステム１００の他の要素と連携して、他のメディア制御機能（例えば、リモートに記憶されたメディアの再生、メディアコンテンツのダウンロード、特定の仮想アシスタントの照会の処理など）を処理することができる。他の実施例では、システム３００の要素は、ネットワークを介して外部サービス１２４にアクセスすることを含む、より大きなシステム１００の機能を実行することができる。機能は、様々な他の方法でローカルのデバイスとリモートサーバデバイスとの間で分割することができることが、理解されるべきである。
［００５１］
図３に示すように、一実施例では、テレビ用セットトップボックス１０４は、メモリインタフェース３０２、１つ以上のプロセッサ３０４、及び周辺機器インタフェース３０６を含むことができる。テレビ用セットトップボックス１０４内の様々な構成要素は、１つ以上の通信バス又は信号ラインにより一体に結合することができる。テレビ用セットトップボックス１０４は、周辺機器インタフェース３０６に結合される様々なサブシステム及び周辺機器を更に含むことができる。サブシステム及び周辺機器は、情報を収集し、及び／又はテレビ用セットトップボックス１０４の様々な機能を促進することができる。
［００５２］
例えば、テレビ用セットトップボックス１０４は、通信サブシステム３２４を含むことができる。様々な通信ポート、無線周波数受信器及び送信器、並びに／又は光（例えば、赤外線）受信器及び送信器を含み得る、１つ以上の有線及び／又は無線通信サブシステム３２４を通じて、通信機能を促進することができる。
［００５３］
いくつかの実施例では、テレビ用セットトップボックス１０４は、周辺機器インタフェース３０６に結合されたＩ／Ｏサブシステム３４０を更に含むことができる。Ｉ／Ｏサブシステム３４０は、オーディオ／ビデオ出力コントローラ３７０を含むことができる。オーディオ／ビデオ出力コントローラ３７０は、ディスプレイ１１２及びスピーカ１１１に結合することができる、又は別の方法でオーディオ及びビデオ出力を提供することができる（例えば、オーディオ／ビデオポート、無線送信などにより）。Ｉ／Ｏサブシステム３４０は、リモートコントローラ３４２を更に含むことができる。リモートコントローラ３４２は、リモコン１０６と通信可能に結合することができる（例えば、有線接続、Ｂｌｕｅｔｏｏｔｈ、Ｗｉ−Ｆｉなどにより）。リモコン１０６は、オーディオ入力（例えば、ユーザからの発語入力）をキャプチャするためのマイクロフォン３７２、触知入力をキャプチャするためのボタン（単数又は複数）３７４、及びテレビ用セットトップボックス１０４とのリモートコントローラ３４２を介した通信を促進するための送受信機３７６を含むことができる。リモコン１０６はまた、キーボード、ジョイスティック、タッチパッドなどの、他の入力メカニズムを含むことができる。リモコン１０６は、照明、ディスプレイ、スピーカなどの、出力メカニズムを更に含むことができる。リモコン１０６で受け取られた入力（例えば、ユーザのスピーチ、ボタン押下など）は、テレビ用セットトップボックス１０４にリモートコントローラ３４２を介して通信することができる。Ｉ／Ｏサブシステム３４０はまた、他の入力コントローラ（単数又は複数）３４４を含むことができる。他の入力コントローラ（単数又は複数）３４４は、１つ以上のボタン、ロッカスイッチ、サムホイール、赤外線ポート、ＵＳＢポート、及び／又はスタイラスなどのポインタデバイスなどの、他の入力／制御機器３４８に結合することができる。
［００５４］
いくつかの実施例では、テレビ用セットトップボックス１０４は、メモリ３５０に結合されたメモリインタフェース３０２を更に含むことができる。メモリ３５０としては、任意の電子、磁気、光学、電磁、赤外線、若しくは半導体の、システム、装置、若しくはデバイス、ポータブルコンピュータディスケット（磁気）、ランダムアクセスメモリ（ＲＡＭ）（磁気）、読み出し専用メモリ（ＲＯＭ）（磁気）、消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）（磁気）、ＣＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ、ＤＶＤ−Ｒ、若しくはＤＶＤ−ＲＷなどの、ポータブル光学ディスク、又はコンパクトフラッシュカード、セキュアデジタルカード、ＵＳＢメモリデバイス、メモリスティックなどの、フラッシュメモリを挙げることができる。いくつかの実施例では、メモリ３５０の非一時的コンピュータ可読記憶媒体は、コンピュータベースのシステム、プロセッサを含むシステム、又は、命令実行システム、装置、若しくはデバイスから命令をフェッチし、それらの命令を実行し得る他のシステムなどの、命令実行システム、装置、若しくはデバイスにより又はそれらと連携して使用するための、命令（例えば、本明細書で説明する様々なプロセスの一部分又はすべてを実行するための）を記憶するために使用することができる。他の実施例では、命令（例えば、本明細書で説明する様々なプロセスの一部分又はすべてを実行するための）は、サーバシステム１１０の非一時的コンピュータ可読記憶媒体に記憶することができる、又は、メモリ３５０の非一時的コンピュータ可読記憶媒体とサーバシステム１１０の非一時的コンピュータ可読記憶媒体との間に分割することができる。本文書のコンテキストでは、「非一時的コンピュータ可読記憶媒体」は、命令実行システム、装置、若しくはデバイスによって、又はそれらに関連して使用するためのプログラムを、含むか又は記憶することが可能な、任意の媒体とすることができる。
［００５５］
いくつかの実施例では、メモリ３５０は、オペレーティングシステム３５２、通信モジュール３５４、グラフィカルユーザインタフェースモジュール３５６、デバイス内メディアモジュール３５８、デバイス外メディアモジュール３６０、及びアプリケーション３６２を記憶することができる。オペレーティングシステム３５２は、基本システムサービスを処理する命令、及びハードウェア依存タスクを実行する命令を含むことができる。通信モジュール３５４は、１つ以上の追加機器、１つ以上のコンピュータ、及び／又は１つ以上のサーバとの通信を促進することができる。グラフィカルユーザインタフェースモジュール３５６は、グラフィカルユーザインタフェース処理を促進することができる。デバイス内メディアモジュール３５８は、テレビ用セットトップボックス１０４上にローカルに記憶されたメディアコンテンツ、及びローカルで使用可能な他のメディアコンテンツ（例えば、ケーブルチャンネルの同調）の記憶及び再生を促進することができる。デバイス外メディアモジュール３６０は、リモートに記憶された（例えば、リモートサーバ上、ユーザ機器１０２上など）メディアコンテンツのストリーミング再生又はダウンロードを促進することができる。アプリケーションモジュール３６２は、電子メッセージング、ウェブブラウジング、メディア処理、ゲーミング、並びに／又はその他のプロセス及び機能などの、ユーザアプリケーションの様々な機能を促進することができる。
［００５６］
本明細書で説明されるように、メモリ３５０はまた、例えば、仮想アシスタントのクライアント側機能を提供するために、（例えば、仮想アシスタントクライアントモジュール３６４内の）クライアント側仮想アシスタント命令、並びに種々のユーザデータ３６６（例えば、ユーザ固有の語彙データ、設定データ、及び／若しくはユーザの電子アドレス帳、ｔｏ−ｄｏリスト、買い物リスト、テレビ番組の好み等のその他のデータ）も記憶することができる。ユーザデータ３６６はまた、仮想アシスタントを支援して、又は任意の他のアプリケーションのために、スピーチ認識の実行に使用することができる。
［００５７］
様々な実施例では、仮想アシスタントクライアントモジュール３６４は、テレビ用セットトップボックス１０４の種々のユーザインタフェース（例えば、Ｉ／Ｏサブシステム３４０など）を通じて発語入力（例えば、発語入力）、テキスト入力、タッチ入力、及び／又はジェスチャ入力を受け入れる能力を有することができる。仮想アシスタントクライアントモジュール３６４はまた、オーディオ（例えば、発語出力）、視覚、及び／又は触知形態の出力を提供する能力も有することができる。例えば、出力は、音声、音響、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び／又は上記のもののうちの２つ以上の組み合わせとして提供することができる。動作時、仮想アシスタントクライアントモジュール３６４は、通信サブシステム３２４を用いて仮想アシスタントサーバと通信することができる。
［００５８］
いくつかの実施例では、仮想アシスタントクライアントモジュール３６４は、ユーザ、現在のユーザ対話、及び／又は現在のユーザ入力に関連付けられるコンテキストを確立するために、種々のサブシステム及び周辺機器を利用してテレビ用セットトップボックス１０４の周囲環境から追加情報を収集することができる。そのようなコンテキストはまた、ユーザ機器１０２からなどの、他のデバイスからの情報を含むことができる。いくつかの実施例では、仮想アシスタントクライアントモジュール３６４は、ユーザの意図の推測を助けるために、ユーザ入力とともにコンテキスト情報又はそのサブセットを仮想アシスタントサーバに提供することができる。仮想アシスタントはまた、ユーザへの出力をどのように準備し、配信するのかを決定するために、コンテキスト情報を用いることができる。コンテキスト情報は、テレビ用セットトップボックス１０４又はサーバシステム１１０により、正確なスピーチ認識を支援するために、更に使用することができる。
［００５９］
いくつかの実施例では、ユーザ入力に付随するコンテキスト情報は、照明、環境ノイズ、周囲温度、別のオブジェクトとの距離、などの、センサ情報を含むことができる。コンテキスト情報は、テレビ用セットトップボックス１０４の物理的状態に関連付けられた情報（例えば、機器の位置、機器の温度、電力レベルなど）、又はテレビ用セットトップボックス１０４のソフトウェア状態に関連付けられた情報（例えば、稼働中のプロセス、インストールされたアプリケーション、過去及び現在のネットワーク活動、バックグラウンドサービス、エラーログ、リソース使用など）を更に含むことができる。コンテキスト情報は、接続されたデバイス又はユーザに関連付けられた他のデバイスの状態に関連付けられた情報（例えば、ユーザ機器１０２上に表示されたコンテンツ、ユーザ機器１０２で再生可能なコンテンツなど）を更に含むことができる。これらの種類のコンテキスト情報の任意のものを、ユーザ入力に関連付けられたコンテキスト情報として、仮想アシスタントサーバ１１４に提供する（又はテレビ用セットトップボックス１０４自体で使用する）ことができる。
［００６０］
いくつかの実施例では、仮想アシスタントクライアントモジュール３６４は、仮想アシスタントサーバ１１４からの要求に応じて、テレビ用セットトップボックス１０４上に記憶された情報（例えば、ユーザデータ３６６）を選択的に提供することができる（又は、その情報を、テレビ用セットトップボックス１０４自体でスピーチ認識及び／又は仮想アシスタントの機能を実行するのに使用することができる）。仮想アシスタントクライアントモジュール３６４はまた、仮想アシスタントサーバ１１４による要求に応じて、自然言語ダイアログ又はその他のユーザインタフェースを介してユーザから追加入力も引き出すことができる。仮想アシスタントクライアントモジュール３６４は、意図推測及び／又はユーザ要求内に表されているユーザの意図の達成において仮想アシスタントサーバ１１４を助けるために、追加入力を仮想アシスタントサーバ１１４に渡すことができる。
［００６１］
種々の実施例では、メモリ３５０は、追加の命令又はより少数の命令を含むことができる。更に、テレビ用セットトップボックス１０４の種々の機能は、１つ以上の信号処理回路及び／又は特定用途向け集積回路の形態を含む、ハードウェアの形態及び／又はファームウェアの形態で実装することができる。
［００６２］
システム１００及びシステム３００は、図１及び図３に示す構成要素及び構成に限定されず、ユーザ機器１０２、テレビ用セットトップボックス１０４、及びリモコン１０６は、図２及び図３に示す構成要素及び構成に同様に限定されないことが理解されるべきである。システム１００、システム３００、ユーザ機器１０２、テレビ用セットトップボックス１０４、及びリモコン１０６は、すべて、様々な実施例により、複数の構成で、より少数の又は他の構成要素を含むことができる。
［００６３］
本開示を通して、「システム」の参照は、システム１００、システム３００、又はシステム１００若しくはシステム３００のいずれかの１つ以上の要素を含み得る。例えば、本明細書で参照される典型的なシステムは、リモコン１０６及び／又はユーザ機器１０２からのユーザ入力を受信するテレビ用セットトップボックス１０４を含み得る。
［００６４］
いくつかの実施例では、仮想アシスタントの照会は、特定の時間にキューされた特定のメディアに対する要求を含むことができる。例えば、ユーザは、試合中の特定のプレー、番組中の特定のパフォーマンス、映画の中の特定のシーンなどを見たい場合がある。そのような照会を処理するために、仮想アシスタントシステムは、照会に関連付けられたユーザの意図を判定し、照会に応答する関連するメディアを識別し、ユーザの要求に従った適切な時間での再生のためにメディアをキューすることができる（例えば、誰かがゴールを決める直前で再生を開始するために試合をキューする）。詳細なメディア情報は、様々なメディアに関連した照会を支援するために、仮想アシスタントの知識ベースに組み込むことができる。例えば、詳細なメディア情報は、特定のメディアの照会を支援するために、システム１００の仮想アシスタントサーバ１１４のデータ及びモデル１２０に組み込むことができる。いくつかの実施例では、詳細なメディア情報はまた、システム１００の外部サービス１２４からも入手することができる。
［００６５］
関連するユーザ要求を処理する能力がある応答システムは、しかし、リアルタイム又は近リアルタイムのメディアデータを仮想アシスタントの知識に組み込むことを含むことができる。例えば、ライブのスポーツイベントは、ユーザが見たいことがある多様な対象箇所を含み得る。加えて、現在ユーザにより観られているビデオは、ユーザが照会で参照し得る多くの対象箇所を含み得る。同様に、テレビ番組は、ユーザが再生のためキュー又は友人と共有するために識別したいことがある、人気のあるシーン、特別なゲストの登場、幅広く話題になった瞬間などを含み得る。様々な他のメディアコンテンツは、同様に、ユーザのための関連する対象箇所を含み得る（例えば、音楽、ウェブベースのビデオクリップなど）。詳細で適時のメディアデータは、ゆえに、コンテンツ及びメディア関連情報に対する近リアルタイム要求さえをも含む、メディアに関連付けられた様々なユーザ要求を支援するために、本明細書の様々な実施例により、仮想アシスタントの知識に組み込むことができる。
［００６６］
図４は、様々な実施例による、詳細及び／又は適時のメディアデータを組み込むことを含む、メディア再生の音声制御のための例示的なプロセス４００を示す。ブロック４０２で、メディアストリーム内の時間に関連付けられたイベントを含むデータ供給を、受信することができる。データ供給は、様々な異なる形態の任意の形態で様々な異なるソースから受信することができる。例えば、データ供給としては、特定のメディア内のイベントと時間を相関付ける表、時間がイベントと相関付けられるデータベース、特定のメディア内のイベントと時間を関連付けるテキストファイル、イベント要求に応じて時間を提供する情報サーバなどを挙げることができる。データ供給は、システム１００の外部サービス１２４などの、様々な異なるソースから得ることができる。いくつかの実施例では、データ供給は、詳細なスポーツイベント情報を提供するスポーツ連盟、詳細なビデオ及びシーン情報を提供するビデオ供給業者、複数のスポーツのデータソースから収集するスポーツデータのアグリゲータなどの、特定のメディアに関連付けられた組織により、提供され得る。他の実施例では、データ供給は、俳優の外観、字幕テキスト、シーンの変化などを分析することなどの、メディアコンテンツを分析することから入手することができる。更に他の実施例では、データ供給は、人気があり話題になった番組の瞬間、頻繁に参照された試合中のイベントなどの、ソーシャルメディアから入手することができる。本明細書で使用される場合、データ供給という用語は、ゆえに、メディア自体からマイニングされるデータを含む、様々な形態の多様なデータを指し得る。
［００６７］
図５は、メディアストリーム５１２内のイベントをメディアストリーム内の特定の時間５１４に関連付ける、例示的なデータ供給５１０を示す。図５は、説明する目的のために提供され、データ供給５１０は、様々な他の形態（例えば、テキストファイル、テーブルファイル、情報サーバのデータ、データベース、メッセージ、情報供給など）を取り得ることが理解されるべきである。メディアストリーム５１２は、スポーツイベント、ビデオ、テレビ番組、音楽などの、任意の種類の再生可能なメディアを含むことができる。図５の実施例では、メディアストリーム５１２は、テレビ放送されたアイスホッケーの試合を含むことができる。特定のメディアの概要情報又は他の記述詳細は、特定の時間に関連付けられているか又は否かに関わらず、データ供給５１０内に含まれ得る（例えば、ヘッダ内などに含まれ得る）。図示された実施例では、記述概要情報は、メディアのタイトル（例えば、「アイスホッケーの試合」）、メディアの説明（「チームＡ対チームＢ、アイスアリーナにて」）、及びメディアのソース（例えば、「チャンネル７」で放送された）を含む、５時０１分（協定世界時（ＵＴＣ））の最初のブロック内に提供されている。様々な他の記述情報は、同様に提供することができ、情報は、参照するために特定の領域内に提供することができる（例えば、タイトル領域は、タイトルを含むことができ、ソース領域は、テレビのチャンネル又はインターネットアドレスを含むことができる、等）。図５に示す情報に加えて、試合をしているチームの選手の名簿、エピソード内に登場する俳優、プロデューサ、監督、アーティストなどのリストなどの、様々な他のメディア情報もまた、入手することができる。様々な概要及び記述情報は、すべて、仮想アシスタントの知識に組み込んで、関連する照会を支援するために使用することができる。
［００６８］
図に示すように、データ供給５１０は、メディアストリーム時間５１４に相関付けられたメディアストリームイベント５１６を含むことができる。メディアストリーム時間５１４は、協定世界時（略称「ＵＴＣ」）、ユーザに対する現地時間、仮想アシスタントサーバでの時間、メディアサーバでの時間、メディアのソース（例えば、スポーツ開催地）での時間、又は様々な他のタイムゾーンを使用することを含む、様々な異なる方法で指定することができる。他の実施例では、メディアストリーム時間５１４は、メディアコンテンツの開始から（例えば、映画、エピソード、スポーツイベント、オーディオトラックなどの開始から）のオフセットとして提供することができる。更に他の実施例では、メディアストリーム時間５１４は、試合の時間などとして提供することができる。様々な実施例のいずれでも、メディアストリーム時間５１４は、秒、ミリ秒、又は更により細かな段階などの、精密な時間指定を含むことができることが理解されるべきである。参照を容易にするために、本明細書のメディアストリーム時間５１４の例は、ＵＴＣの時間及び分の指定で提供されるが、秒は一般的に使用することができ、ミリ秒又はより細かな段階も使用することができる。
［００６９］
メディアストリームイベント５１６は、メディアストリーム５１２内の多様なイベント又は対象箇所を含むことができる。スポーツのイベントでは、例えば、メディアストリームイベント５１６としては、プレー、ペナルティ、ゴール、プレーのセグメント分割（例えば、ピリオド、クウォータ、ハーフなど）、プレーの状況（例えば、打席に立つ選手、氷上の選手、クウォータバックとして入っている選手、フィールド上のキッカー等）などを挙げることができる。テレビ番組（例えば、連続コメディ、トークショーなど）では、メディアストリームイベント５１６としては、タイトルシーン、登場人物の状況、俳優の状況（例えば、画面に出る時間の指定）、番組の筋内のイベント（例えば、特定のシーン）、ゲストの状況、ゲストの演技、独白、コマーシャルの時間などを挙げることができる。受賞番組（例えば、映画賞、演劇賞など）では、メディアストリームイベント５１６としては、独白、賞の授与、受賞者のスピーチ、アーティストの演奏、コマーシャルの時間などを挙げることができる。ラジオ番組では、メディアストリームイベント５１６としては、冒頭の挨拶、ゲストの話し手、話題などを挙げることができる。ゆえに、多様なイベント又は対象箇所は、多様なメディアの種類のいずれでも識別することができ、これらのイベントは、メディア内の特定の時間に関連付けることができることが理解されるべきである。
［００７０］
他の実施例では、対象箇所又はイベントは、ソーシャルメディア、人気のある意見、投票などに基づいて識別することができる。例えば、特定のメディア（例えば、ライブのスポーツイベント）に関連付けられたソーシャルメディアネットワーク上の人気のあるコメントは、予想される対象箇所及び出現のおおよその時間（例えば、テーマに関する最初のコメントの少し前）を識別するために使用することができる。別の実施例では、視聴者がメディア内に時間を記録することにより（例えば、リモコン上のボタン、口頭要求、仮想ボタンなどを使用して）対象箇所を示すことができる。更に他の実施例では、対象箇所は、メディアストリームの特定の部分からのビデオクリップの共有などの、他者とメディアを共有するユーザから識別することができる。データ供給５１０内のメディアストリームイベント５１６は、ゆえに、メディア提供業者、ユーザ、ソーシャルネットワークの談議、及び様々な他のソースから識別することができる。
［００７１］
図５の実施例では、データ供給５１０は、アイスホッケーの試合内のイベントに関連付けられたメディアストリームイベント５１６を含むことができる。例えば、試合の第１ピリオドを開始するパックドロップが、５時０７分（ＵＴＣ）に起こっていた場合に、データ供給５１０は、そのイベントに対する特定のメディアストリーム時間５１４での関連付けられたメディアストリームイベント５１６を含むことができる。５時１８分（ＵＴＣ）に、選手Ｚを打ったことについてペナルティが選手Ｘに対してコールされた場合に、結果として２分のペナルティとなった。ペナルティの詳細（例えば、ペナルティの種類、関係した選手、ペナルティの時間など）は、その特定のメディアストリーム時間５１４でのペナルティに関連付けられたメディアストリームイベント５１６内に含むことができる。５時１９分（ＵＴＣ）に、チームＡのパワープレーが開始された場合に、特定のメディアストリーム時間５１４とともにパワープレーの開始に関連付けることができるメディアストリームイベント５１６を、含むことができる。図に示すように、様々な他のメディアストリームイベント５１６を、同様に含むことができ、特定のメディアストリーム時間５１４に関連付けることができる。異なるイベントに対する詳細は、異なることがあり、情報の一部又はすべては、仮想アシスタントの知識に組み込むことができる。例えば、ゴールの詳細は、ゴールをした選手及びアシストした選手を含むことができる。パワープレーの終了の詳細は、パワープレー状態を失ったチーム及び全員に戻ったチームに対する識別情報を含むことができる。画面上の選手の詳細は、画面上の選手の座標位置を含むことができる。加えて、メディアストリームイベント５１６は、５時３１分（ＵＴＣ）に起こった第１ピリオドの終了などの、試合に対する時間セグメント指定を含むことができる。
［００７２］
他の実施例では、追加の詳細情報を有する様々な他のメディアストリームイベント５１６は、データ供給５１０内に含むことができる、及び／又はメディアストリーム５１２自体から判定することができる。例えば、氷上の選手は、メディアストリーム時間５１４に関連付けることができ、得点の変化は、メディアストリーム時間５１４に関連付けることができ、プレーの中断は、メディアストリーム時間５１４に関連付けることができ、氷上の乱闘及び乱闘の参加者は、メディアストリーム時間５１４に関連付けることなどができる。加えて、種々の統計、選手の情報、参加者の情報（例えば、審判員、コーチなど）、試合のセグメント指示子などの、様々な他の詳細は、特定のイベント内に含むことができる、又は、メディアストリームに関連付けることができる。この方法で、データ供給５１０は、様々な時間５１４にメディアストリーム５１２内で起こる、様々なイベント５１６の詳細なテキスト記述を含むことができる。
［００７３］
メディアストリーム５１２を、メディアストリームイベント５１６及びメディアストリーム時間５１４の知識を仮想アシスタントの知識ベースに組み込むために受信する必要はないことが理解されるべきである。いくつかの実施例では、メディアストリーム５１２なしに、データ供給５１０の情報は、情報を仮想アシスタントの知識に（例えば、データ及びモデル１２０に）組み込むために、仮想アシスタントサーバ１１４により受信することができる。一方、メディアストリーム５１２は、ユーザ機器１０２、テレビ用セットトップボックス１０４、又は別のユーザ機器に直接提供することができる。以下に説明するように、いくつかの実施例では、メディアイベント５１６の仮想アシスタントの知識は、ユーザ機器上（例えば、ユーザ機器１０２、テレビ用セットトップボックス１０４上など）のメディアストリーム５１２の再生のキューをするため、並びに他の仮想アシスタントの照会に応答するために使用することができる。他の実施例では、メディアストリーム５１２、メディアストリーム５１２の部分、及び／又はメディアストリーム５１２に関連付けられたメタデータは、仮想アシスタントサーバ１１４により受信して、仮想アシスタントの知識ベースに組み込むことができる。
［００７４］
図４のプロセス４００を再び参照して、ブロック４０４で、メディアストリーム内のイベントに関連付けられた口頭のユーザ要求を、受信することができる。上述したように、発語入力は、ユーザ機器１０２、リモコン１０６、又はシステム１００内の別のユーザ機器によりなどの、様々な方法でユーザから受信することができる。仮想アシスタントに宛てられた発語入力は、メディア及び／又は特定のメディア内のイベントに関連付けられた要求を含む、様々なユーザ要求を含むことができる。例えば、ユーザ要求は、図５に示すアイスホッケーの試合のイベントに関連付けられた照会などの、本明細書で説明するメディアストリームイベント５１６の任意のものの参照を含むことができる。いくつかの実施例では、ユーザ要求は、メディアを特定の対象箇所にキューする要求を含むことができる。例えば、ユーザは、アイスホッケーの試合内の乱闘を見る（例えば、「選手Ｙと選手Ｑとの間の乱闘を私に見せて」）、ピリオドの開始に飛び越す（例えば、「第１ピリオドのパックドロップに飛び越して」）、ゴールを見る（例えば、「選手Ｍのゴールを私に見せて」）、特定のペナルティになったものを見る（例えば、「選手Ｘに対する打ちつけたペナルティを私に見せて」）などの要求をする場合がある。
［００７５］
図４のプロセス４００を再び参照して、ブロック４０６で、メディアストリームの再生を、ユーザ要求内のイベントに関連付けられたメディアストリーム内の時間で開始させることができる。例えば、データ供給５１０から仮想アシスタントの知識ベースに組み込まれた知識は、特定のコンテンツに対するユーザ要求に関連付けられたメディアストリーム内の特定の時間を判定するために使用することができる。図６は、照会に応答するメディアストリーム内のイベントに基づいてビデオ再生をキューすることの、例示的な仮想アシスタントの照会応答を示す。図示された実施例では、ユーザは、テレビ用セットトップボックス１０４により制御されたコンテンツを有するディスプレイ１１２を見ていることがある。ユーザは、上述したデータ供給５１０に関連付けられたアイスホッケーの試合を含むことがあるビデオ６２０を見ていることがある。プロセス４００のブロック４０４を参照して説明したように、ユーザは、次に、イベントに関連付けられた特定のメディアコンテンツを見る要求をすることができる。例えば、ユーザは、ゴールを見る要求をすることができる（例えば、「あのゴールを再び私に見せて」、「選手Ｍのゴールを私に見せて」、「チームＡのゴールを私に見せて」、「第１ピリオドのゴールを私に見せて」、「ＡとＢのホッケーの試合の最初のゴールを私に見せて」、「あの最後のゴールを再生して」など）。
［００７６］
ユーザ要求に応じて、ユーザ要求に応答するメディアストリーム内（例えば、ビデオ６２０内）の特定の時間を判定することができる。この実施例では、図５のデータ供給５１０からの仮想アシスタントの知識ベースに組み込まれた知識を使用して、システムは、図５に示すように、５時２１分（ＵＴＣ）の選手Ｑによりアシストされた選手ＭのチームＡのゴールを識別することができる。システムは、次に、所望のコンテンツを見せるために、ビデオ６２０を適切な時間にタイムシフトさせることができる。この実施例では、システムは、再生インジケータ６２２上に示されたキュー時間６２４で再生を開始するために、ビデオ６２０をタイムシフトすることができる。図に示すように、キュー時間６２４は、ライブ時間６２６（例えば、ライブでテレビ放送された又は別の方法でライブ配信されたコンテンツのストリームに関連付けられた時間）とは異なることができる。いくつかの実施例では、キュー時間６２４は、対応するメディアストリームイベント５１６に関連付けられたメディアストリーム時間５１４に対応することができる。他の実施例では、キュー時間６２４は、メディアストリームイベント５１６がメディアストリーム時間５１４にどのように関連付けられているかにより、メディアストリーム時間５１４より早く又はより遅くにシフトすることができる。例えば、キュー時間６２４は、得点されるゴールの直前のプレーをキャプチャするために、３０秒、１分、２分、又は別の量、対応するメディアストリーム時間５１４の前とすることができる。いくつかの実施例では、データ供給５１０は、特定のイベントに対して再生がどこで開始されなければならないかの精密な時間指定（例えば、ホッケーの選手が来るべきゴールのためにドライブを始めた時を指定する、ペナルティ行動が最初に見られた時を指定する、など）を含むことができる。ビデオ６２０は、ゆえに、ユーザの仮想アシスタントの要求に応じて、ユーザがキュー時間６２４で開始するために再生することができる。
［００７７］
いくつかの実施例では、ビデオ６２０は、ディスプレイ１１２上に表示される別のビデオに置き換えることができる、又は別の方法でユーザ要求に応じて再生のために取得することができる。例えば、他のコンテンツを見ているユーザは、別のチャンネルのホッケーの試合内で得点された最後のゴールを見る要求を発言することができる（例えば、「チャンネル７のホッケーの試合内で得点された最後のゴールを私に見せて」、「ＡとＢのホッケーの試合の最後のゴールを私に見せて」、「アイスアリーナの試合の最初のゴールを私に見せて」など）。上述したように、ユーザ要求が特定のメディアに対して解決することができない場合、仮想アシスタントは、必要により、より多くの情報又は確認を促すことができる（例えば、「チャンネル７で表示されているアイスアリーナでのチームＡ対チームＢのアイスホッケーの試合のことでしたか？」）。特定のコンテンツに対して解決された要求を用いて、テレビ用セットトップボックス１０４は、再生のためにビデオ６２０を取得して、それをキュー時間６２４にキューすることができる。ビデオ６２０は、ユーザ機器１０２又は任意の他のデバイス上で再生することができ、仮想アシスタントは、ユーザ機器１０２又は別のデバイス上で、同様にビデオ６２０をキュー時間６２４にキューすることができる（例えば、特定のユーザコマンドに基づいて、ユーザがビデオ６２０を見ているデバイスに基づいて、ユーザ要求のソースに基づいて、など）ことが理解されるべきである。
［００７８］
いくつかの実施例では、仮想アシスタントに宛てられたユーザ要求は、テレビ用セットトップボックス１０４によりディスプレイ１１２上に表示された、又はユーザ機器１０２のタッチスクリーン２４６上に表示された何かへの曖昧な参照を含むことができる。例えば、図６のディスプレイ１１２上に表示されたビデオ６２０に関連する要求は、画面上の選手６２８又は画面上の選手６３０への曖昧な参照を含むことができる。ユーザが質問又は参照している特定の選手は、発語入力のみからは不明確であることがある。別の実施例では、ユーザ要求は、別の方法では発語入力のみからでは曖昧であるであろう他の参照を含むことができる。例えば、チームの名簿を見る要求は、ユーザが特定のチームの特定の試合を見ていることを知らなければ曖昧であることがあり、次のゴールを見る要求は、ユーザが特定の試合を見ていることを知らなければ曖昧であることがある、などである。ディスプレイ１１２上に表示されたコンテンツ及び関連付けられたメタデータ（例えば、データ供給５１０から又は別の方法での）は、ゆえに、ユーザ要求を明確にしてユーザの意図を判定するために使用することができる。例えば、画面上の俳優、画面上の選手、試合の参加者のリスト、番組の俳優のリスト、チームの名簿などは、ユーザ要求を解釈するために使用することができる。
［００７９］
図示された実施例では、ディスプレイ１１２上に表示されたコンテンツ及び関連付けられたメタデータは、「ゴールキーパー」、「あの選手」、「背番号８」、「彼」、「Ｍ」、ニックネームへの参照、又は特定の試合及び／若しくは特定の画面上の選手に関連した任意の他の参照から、ユーザの意図を判定するために使用することができる。例えば、上述したように、データ供給５１０は、どの選手が特定の時間に画面上に出ているか、どの選手が特定のイベントに関係しているか、どの選手が特定の時間に氷上にいるか、などのインジケーションを含むことができる。例えば、図６に関連付けられた時間に、データ供給５１０から仮想アシスタントの知識ベースに組み込まれた知識は、選手Ｍ（例えば、画面上の選手６２８）及びゴールキーパー（例えば、画面上の選手６３０）がその特定の時間に画面上に、その時間付近に氷上に、その試合でプレーしている、又は、少なくとも画面上にいる若しくはその特定の時間に関係していると思われることを示すことができる。「ゴールキーパー」、「あの選手」、「背番号８」、「彼」、「Ｍ」、ニックネームなどを参照している要求は、次に、その情報に基づいて明確にすることができる。
［００８０］
例えば、「ゴールキーパー」の最後のストップを見る要求（例えば、「ゴールキーパーの最後のストップを私に見せて」）は、画面上の選手６３０に対応する特定のゴールキーパー（補欠又は他のチームのゴールキーパーと対照的に）として解決することができ、彼の名前又は他の識別情報は、ユーザの照会に応答するコンテンツを識別するために使用することができる（例えば、現在の試合内のその特定のゴールキーパーによる直近のストップ、前の試合内のその特定のゴールキーパーによる最後のストップなど）。別の実施例では、「８番」の次のゴールを見る要求（例えば、「８番の次のゴールを私に見せて」）は、データ供給５１０及び関連付けられたメタデータに基づいて、背番号８又はニックネーム８を有する特定の選手（例えば、画面上の選手６２８）として解決することができる。照会に応答するコンテンツは、次に、「８」に対応する選手の識別情報に基づいて識別することができる（例えば、この試合内の選手Ｍの次のゴール、後続の試合内の選手Ｍの次のゴールなど）。他の実施例では、ディスプレイ１１２上又はユーザ機器１０２上に表示されたコンテンツは、ユーザ要求を他の方法で解釈するために分析することができる。例えば、顔認識、画像認識（背番号の認識をすること）などは、画面上の選手６２８及び６３０を識別して関連付けられたユーザ要求を解釈するために使用することができる。ユーザ要求への応答は、情報応答及び／又はメディアコンテンツ応答を含むことができ、応答は、任意のデバイス（例えば、ディスプレイ１１２、タッチスクリーン２４６など）上に表示することができることが理解されるべきである。
［００８１］
本明細書で様々な実施例を提供してきたが、ユーザは、選手（並びに俳優、登場人物など）を様々な異なる方法で参照することができ、そのすべてが、本明細書で説明する実施例により明確にすることができることが理解されるべきである。例えば、ユーザは、選手を名前（例えば、名、姓、氏名、ニックネームなど）、番号、ポジション、チーム、デプスチャート（例えば、「２番目のクウォータバック」）、試合固有の識別子（例えば、スタータ、補欠、リリーフピッチャー、クローザなど）、経験年数（例えば、ルーキー、新人、二年目など）、チームの任命（例えば、主将、主将代理など）、試合のプレースタイル（例えば、エンフォーサー、スピーディなど）、以前のチーム、大学（例えば、「Ｑ大学出身のクウォータバック」）、統計情報（例えば、「ハットトリックをした選手による乱闘」、「チームの最高得点者によるペナルティ」など）、略歴（例えば、「殿堂入りしたＯの息子」、「ウエストバージニア出身のあのピッチャーによる次の打席」など）、身体的外観（例えば、背が高い、背が低い、肌の色、衣服など）、スポンサー（例えば、「ハードウェアストアの車による衝突」）などにより参照することができる。
［００８２］
他の実施例では、仮想アシスタントに宛てられたユーザ要求は、テレビ用セットトップボックス１０４によりディスプレイ１１２上に表示された、又はユーザ機器１０２のタッチスクリーン２４６上に表示された何かの現在の再生位置に基づく、曖昧な参照を含むことができる。例えば、ユーザは、「次の」ゴール、「前の」ペナルティ、「次の」コマーシャル、「最後の」演技、「次の」俳優の登場などを参照することがある。ユーザの意図（例えば、特定の所望のコンテンツ）は、発語入力のみからは不明確であることがある。しかし、いくつかの実施例では、メディアストリーム内の現在の再生位置は、ユーザ要求を明確にしてユーザの意図を判定するために使用することができる。例えば、現在の再生位置を示すメディアストリーム時間は、ユーザ要求を解釈するために仮想アシスタントシステムに送信して使用することができる。
［００８３］
図７は、ユーザ照会を解釈するため（例えば、ユーザ要求を明確にしてユーザの意図を判定するため）に使用することができる、現在の再生位置７３２の前及び後に現れる例示的なメディアストリームイベント５１６を有するメディアストリーム５１２を示す。図に示すように、ライブ時間６２６は、現在の再生位置７３２より遅いことがあり、いくつかの実施例では、メディアストリーム５１２は、もはやライブではないコンテンツのレコーディングを含み得る。図に示すような現在の再生位置７３２の場合、メディアストリームイベント５１６への様々な参照は、「次の」及び「前の」イベントなどと解釈することができる。例えば、以前の又は直前のゴールを見るユーザ要求（例えば、「直前のゴールを私に見せて」）は、発語入力のみに基づいては曖昧であることがあるが、現在の再生位置７３２は、ユーザ要求を解釈して（例えば、参照「直前の」を解決して）前のゴール７３４を所望のメディアストリームイベント５１６として識別するために使用することができる。別の実施例では、次のペナルティを見るユーザ要求（例えば、「次のペナルティを私に見せて」）は、発語入力のみに基づいては曖昧であることがあるが、現在の再生位置７３２は、ユーザ要求を解釈して（例えば、参照「次の」を解決して）次のペナルティ７３８を所望のメディアストリームイベント５１６として識別するために使用することができる。現在の再生位置７３２は、前のペナルティ７３６及び次のゴール７４０に対する要求を同様の方法で解釈するために使用することができ、並びに、様々な他の位置の参照（例えば、次の２つ、直前の３つ、など）を解釈するために使用することができる。
［００８４］
図８は、メディアストリーム８１２内のイベントをメディアストリーム内の特定の時間５１４に関連付ける、例示的なデータ供給８１０を示す。データ供給８１０は、上述したデータ供給５１０と同様な特徴を含むことができ、データ供給８１０を、ブロック４０２で同様に受信して、メディアの再生を上述したプロセス４００のブロック４０６でさせるために使用することができる。図８の実施例では、メディアストリーム８１２は、テレビ放送された受賞番組を含むことができる。他の実施例では、同様なメディアストリームは、インターネットベースの受賞番組、ラジオ番組のショー、バラエティーショーなどを含むことがある。特定のメディアの概要情報又は他の記述詳細は、特定の時間に関連付けられてか否かに関わらず、データ供給８１０内に含まれ得る（例えば、ヘッダ内などに含まれ得る）。図示された実施例では、記述概要情報は、メディアのタイトル（例えば、「映画賞」）、メディアの説明（「コメディアンＷｈｉｔｎｅｙＤａｖｉｄｓｏｎによる司会の年間映画賞」）、及びメディアのソース（例えば、「チャンネル３１」でテレビ放送された）を含む、１０時５９分（ＵＴＣ）での最初のブロック内に提供される。様々な他の記述情報は、同様に提供することができ、情報は、参照するために特定の領域内に提供することができる（例えば、タイトル領域は、タイトルを含むことができ、ソース領域は、テレビのチャンネル又はインターネットアドレスを含むことができる、等）。図８に示す情報に加えて、参加者の名前、演技の説明、授与された賞などの、様々な他のメディア情報もまた、入手することができる。様々な概要及び記述情報はすべて、仮想アシスタントの知識に組み込んで関連する照会を支援するために使用することができる。
［００８５］
図に示すように、データ供給８１０は、図５を参照して上述したイベント５１６及び時間５１４と同様であり得る、メディアストリーム時間５１４に相関付けられたメディアストリームイベント５１６を含むことができる。データ供給８１０内のメディアストリームイベント５１６は、メディアストリーム８１２内の多様なイベント又は対象箇所を含むことができる。メディアストリーム８１２のような受賞番組（例えば、映画賞、演劇賞など）では、例えば、メディアストリームイベント５１６としては、独白、賞の授与、受賞者のスピーチ、参加者の外観、演技の説明、コマーシャルの時間などを挙げることができる。
［００８６］
他の実施例では、対象箇所又はイベントは、ソーシャルメディア、人気のある意見、投票などに基づいて識別することができる。例えば、特定のメディア（例えば、ライブの受賞番組）に関連付けられたソーシャルメディアネットワーク上の人気のあるコメントは、予想される対象箇所及び出現のおおよその時間（例えば、テーマに関する最初のコメントの少し前）を識別するために使用することができる。別の実施例では、視聴者がメディア内に時間を記録することにより（例えば、リモコン上のボタン、口頭要求、仮想ボタンなどを使用して）対象箇所を示すことができる。更に他の実施例では、対象箇所は、メディアストリームの特定の部分からのビデオクリップの共有などの、他者とメディアを共有するユーザから識別することができる。データ供給８１０内のメディアストリームイベント５１６は、ゆえに、メディア提供業者、ユーザ、ソーシャルネットワークの談議、及び様々な他のソースから識別することができる。
［００８７］
図８の実施例では、データ供給８１０は、受賞番組内のイベントに関連付けられたメディアストリームイベント５１６を含むことができる。例えば、ＷｈｉｔｎｅｙＤａｖｉｄｓｏｎという名前のコメディアンによる冒頭の独白が１１時００分（ＵＴＣ）に起こっていた場合、データ供給８１０は、そのイベントに対する特定のメディアストリーム時間５１４での関連付けられたメディアストリームイベント５１６を含むことができる。１１時０８分（ＵＴＣ）に、ベストコスチュームに対するデザイン賞が、ＪａｎｅＤｏｅ及びＪｏｈｎＲｉｃｈａｒｄｓという名前の俳優により受賞者のＪｅｎｎｉｆｅｒＬａｎｅという名前のデザイナーに授与されていた場合がある。賞の授与の詳細（例えば、賞の名前、贈呈者、受賞者など）は、その特定のメディアストリーム時間５１４での賞の授与に関連付けられたメディアストリームイベント５１６内に含むことができる。１１時１０分（ＵＴＣ）に、ベストコスチュームデザイン賞の受賞者が、スピーチをしていた場合、メディアストリームイベント５１６を、その時間で関連付けられた詳細（例えば、賞の種類、受賞者、話し手など）とともに含めることができる。１１時１２分（ＵＴＣ）に、「Ｕｎｆｏｒｇｅｔｔａｂｌｅ」と題された音楽の演奏が、ＤａｖｉｄＨｏｌｍｅｓという名前の歌手により行われていた場合、メディアストリームイベント５１６を、対応する時間５１４で関連付けられた詳細とともに含めることができる。図に示すように、様々な他のメディアストリームイベント５１６を、同様に含むことができ、特定のメディアストリーム時間５１４に関連付けることができる。異なるイベントに対する詳細は、異なることがあり、情報の一部又はすべては、仮想アシスタントの知識に組み込むことができる。
［００８８］
他の実施例では、追加の詳細情報を有する様々な他のメディアストリームイベント５１６は、データ供給８１０内に含むことができる、及び／又はメディアストリーム８１２自体から判定することができる。例えば、画面上に現れている俳優又は参加者は、メディアストリーム時間５１４に関連付けることができる。そのような情報は、提供されたデータから導出することができる、又はメディアストリーム８１２を分析する（例えば、顔認識などを使用して）ことにより導出することができる。加えて、種々の統計、参加者の情報（例えば、聴衆の成員、プロデューサ、監督、等）などの、様々な他の詳細は、特定のイベント内に含むことができる、又は、メディアストリームに関連付けることができる。この方法で、データ供給８１０は、様々な時間５１４にメディアストリーム８１２内で起こる、様々なイベント５１６の詳細なテキスト記述を含むことができる。上述したように、この情報は、仮想アシスタントの知識ベースに組み込んで、プロセス４００のブロック４０６を参照して上述したようなユーザ要求に従ってビデオをキューすることなどの、ユーザ要求に応答するのに使用することができる。
［００８９］
図９は、メディアストリーム９１２内のイベントをメディアストリーム内の特定の時間５１４に関連付ける、例示的なデータ供給９１０を示す。データ供給９１０は、上述したデータ供給５１０及びデータ供給８１０と同様な特徴を含むことができ、データ供給９１０を、ブロック４０２で同様に受信して、メディアの再生を上述したプロセス４００のブロック４０６でさせるために使用することができる。図９の実施例では、メディアストリーム９１２は、連続コメディなどのテレビ番組を含むことができる。他の実施例では、同様なメディアストリームとしては、ゲーム番組、ニュース番組、トークショー、バラエティーショー、クイズ番組、仮想現実の番組、ドラマ、連続メロドラマなどを挙げることができる。特定のメディアの概要情報又は他の記述詳細は、特定の時間に関連付けられているか否かに関わらず、データ供給９１０内に含まれ得る（例えば、ヘッダ内などに含まれ得る）。図示された実施例では、記述概要情報は、メディアのタイトル（例えば、「テレビ番組」）、メディアの説明（「俳優ＪａｎｅＨｏｌｍｅｓ（登場人物Ａ）及びＤａｖｉｄＤｏｅ（登場人物Ｂ）出演の連続コメディ」）、及びメディアのソース（例えば、ウェブのソースからストリーミングされた）を含む、１４時００分（ＵＴＣ）での最初のブロック内に提供される。様々な他の記述情報は、同様に提供することができ、情報は、参照するために特定の領域内に提供することができる（例えば、タイトル領域は、タイトルを含むことができ、ソース領域は、テレビのチャンネル又はインターネットアドレスを含むことができる、等）。図９に示す情報に加えて、プロデューサ、監督、司会者、参加者の名前、参加者の特性、俳優、筋の説明、ゲストなどの、様々な他のメディア情報もまた、入手することができる。様々な概要及び記述情報はすべて、仮想アシスタントの知識に組み込んで関連する照会を支援するために使用することができる。
［００９０］
図に示すように、データ供給９１０は、図５を参照して上述したイベント５１６及び時間５１４と同様であり得る、メディアストリーム時間５１４に相関付けられたメディアストリームイベント５１６を含むことができる。データ供給９１０内のメディアストリームイベント５１６は、メディアストリーム９１２内の多様なイベント又は対象箇所を含むことができる。メディアストリーム９１２のようなテレビ番組（例えば、テレビの１回放映分、ニュース番組、トークショーなど）では、例えば、メディアストリームイベント５１６は、演技の説明（例えば、シーンの説明、演技者の外観など）、番組のセグメント指示子（例えば、独白、スタート、タイトルシーン、ゲストの外観、ボーナス部分など）、コマーシャルの時間などを含むことができる。
［００９１］
他の実施例では、対象箇所又はイベントは、ソーシャルメディア、人気のある意見、投票などに基づいて識別することができる。例えば、特定のメディア（例えば、人気のある連続コメディの新しい回、夜のトークショーなど））に関連付けられたソーシャルメディアネットワーク上の人気のあるコメントは、予想される対象箇所及び出現のおおよその時間（例えば、テーマに関する最初のコメントの少し前）を識別するために使用することができる。別の実施例では、視聴者がメディア内に時間を記録することにより（例えば、リモコン上のボタン、口頭要求、仮想ボタンなどを使用して）対象箇所を示すことができる。更に他の実施例では、対象箇所は、メディアストリームの特定の部分からのビデオクリップの共有などの、他者とメディアを共有するユーザから識別することができる。データ供給９１０内のメディアストリームイベント５１６は、ゆえに、メディア提供業者、ユーザ、ソーシャルネットワークの談議、及び様々な他のソースから識別することができる。
［００９２］
図９の実施例では、データ供給８１０は、連続コメディのテレビ番組内のイベントに関連付けられたメディアストリームイベント５１６を含むことができる。例えば、タイトルシーンが、１４時０１分（ＵＴＣ）に起きていた場合、データ供給９１０は、そのイベントに対する特定のメディアストリーム時間５１４での関連付けられたメディアストリームイベント５１６を含むことができる。１４時０３分（ＵＴＣ）に、番組の筋内で、２人の登場人物が、駐車場をめぐって争っていた場合がある。筋内のシーン又は瞬間の詳細（例えば、画面上の登場人物、画面上の俳優、何が起きているかの説明など）は、その特定のメディアストリーム時間５１４での賞の授与に関連付けられたメディアストリームイベント５１６内に含むことができる。１４時０６分（ＵＴＣ）に、ゲストのスターが、番組内に登場して歌を歌っていた場合、メディアストリームイベント５１６を、対応する時間５１４での関連付けられた詳細とともに含むことができる。図に示すように、様々な他のメディアストリームイベント５１６を、同様に含むことができ、特定のメディアストリーム時間５１４に関連付けることができる。異なるイベントに対する詳細は、異なることがあり、情報の一部又はすべては、仮想アシスタントの知識に組み込むことができる。
［００９３］
他の実施例では、追加の詳細情報を有する様々な他のメディアストリームイベント５１６は、データ供給９１０内に含むことができる、及び／又はメディアストリーム９１２自体から判定することができる。例えば、画面上に現れている俳優又は参加者は、メディアストリーム時間５１４に関連付けることができる。そのような情報は、提供されたデータから導出することができる、又はメディアストリーム９１２を分析する（例えば、顔認識などを使用して）ことにより導出することができる。加えて、種々の統計、参加者の情報（例えば、聴衆の成員、プロデューサ、監督、等）などの、様々な他の詳細は、特定のイベント内に含むことができる、又は、メディアストリームに関連付けることができる。この方法で、データ供給９１０は、様々な時間５１４にメディアストリーム９１２内で起こる、様々なイベント５１６の詳細なテキスト記述を含むことができる。上述したように、この情報は、仮想アシスタントの知識ベースに組み込んで、プロセス４００のブロック４０６を参照して上述したようなユーザ要求に従ってビデオをキューすることなどの、ユーザ要求に応答するのに使用することができる。
［００９４］
本明細書で説明した様々な実施例のいずれでも、追加の仮想アシスタントの知識は、特定のメディアコンテンツに関連付けられた字幕テキストから導出することができる。例えば、本明細書で説明したデータ供給の任意のものに対する情報は、字幕テキストにより補足する、又は字幕テキストから導出することができる。追加のメディアストリームイベント５１６は、メディア再生内の特定の時間に関連付けられた字幕テキストに基づいて（例えば、特定のフレーズが話された時を識別して、特定の登場人物が話す時を識別して、など）メディアストリーム時間５１４に加えることができる。加えて、字幕テキストは、本明細書で説明した様々な実施例により、ユーザ要求を明確にしてユーザの意図を判定するために使用することができる（例えば、話された名前に基づいて）。
［００９５］
図１０は、仮想アシスタントの照会に応答するために使用することができる、ビデオ１０５０内の特定の時間に関連付けられた例示的な字幕テキスト１０５４を示す。図示された実施例では、字幕インタフェース１０５２は、ディスプレイ１１２上に表示されたビデオ１０５０の現在の再生位置１０５６での字幕テキスト１０５４を含むことができる。現在の再生位置１０５６、登場人物１０６０、１０６２、及び１０６４は、画面上に現れていることがあり、それらの一部は、字幕テキスト１０５４として表示されたテキストを話していることがある。仮想アシスタントの知識のための情報を導出するのに、字幕テキスト１０５４を、現在の再生位置１０５６に相関付けることができる。いくつかの実施例では、時間オフセット１０５８は、参照として使用することができる（例えば、字幕テキスト１０５４のテキストが、ビデオ１０５０の２分に現れることがある、又は同様に、対応するスピーチが、ビデオ１０５０の２分に話されることがある）。
［００９６］
様々な情報を、字幕テキスト１０５４から導出することができ、その一部は、特定のメディアストリームイベント５１６として時間オフセット１０５８に関連付けることができる。例えば、話された名前は、特定の時間での画面上への登場人物の登場を推測するために使用することができる。話された言葉「Ｂｌａｎｃｈｅ」は、例えば、「Ｂｌａｎｃｈｅ」と名付けられた登場人物がビデオ１０５０内の時間オフセット１０５８に又はその付近に画面上に登場し得ることを推測するために使用することができる。導出された情報は、次に、登場人物の名前「Ｂｌａｎｃｈｅ」又はメタデータから識別された対応する女優に関連付けられたユーザ要求（例えば、「Ｂｌａｎｃｈｅが入ってくる所を私に見せて」）に応答するために使用することができる。別の実施例では、話されたフレーズは、識別して、それらが話された特定の時間に関連付けることができる。話されたフレーズ「手ごわい家族」は、例えば、ビデオ１０５０内の時間オフセット１０５８に又はその付近で話されたとして識別することができる。導出された情報は、次に、話されたフレーズ「手ごわい家族」に関連付けられたユーザ要求（例えば、「Ｂｌａｎｃｈｅが手ごわい家族と言う所を私に見せて」）に応答するために使用することができる。字幕テキストは、ゆえに、分析して特定の時間に関連付けることができ、その組み合わせは、関連するユーザ要求に応答するために仮想アシスタントの知識に組み込むことができる。
［００９７］
情報は、インタフェース１０５２などのインタフェース内に字幕テキストが表示されているか否かに関わらず、字幕テキスト１０５４から導出することができることが理解されるべきである。例えば、字幕テキストは、対応するビデオを実際に再生せずに分析することができ、時間は、字幕に関連付けられたメタデータから導出することができる。更に、図１０のディスプレイ１１２上に表示されているが、字幕は、関連付けられたビデオを実際に再生して又は再生せずに、サーバ又は別のデバイスで仮想アシスタントの知識を導出するために分析することができることが理解されるべきである。
［００９８］
上述したように、ユーザから受信した発語入力は曖昧なことがある。ユーザ要求を解釈するために使用することができる、上述した情報（例えば、画面上の選手、画面上の俳優、再生位置など）に加えて、様々な他のコンテキスト情報を、ユーザ要求を解釈するために使用することができる。例えば、ユーザに関する個人情報は、ユーザ要求を解釈するために使用することができる。ユーザは、音声認識、デバイスにログインすること、パスワードを入力すること、特定のアカウントを使用すること、プロフィール（例えば、年齢及び性別）を選択することなどに基づいて識別することができる。識別されたユーザ（又は特定の世帯）に対するユーザ固有のデータは、次に、ユーザ要求を解釈するために使用することができる。そのようなユーザ固有のデータとしては、ユーザのお気に入りのチーム、ユーザのお気に入りのスポーツ、ユーザのお気に入りの選手、ユーザのお気に入りの俳優、ユーザのお気に入りのテレビ番組、ユーザの地理的位置、ユーザの人口統計、ユーザの視聴履歴、ユーザの契約データなどを挙げることができる。加えて、ユーザ固有のデータ（又は世帯固有のデータ）は、通常見る番組、通常見るスポーツ、好みのジャンルなどを反映したメディアコンテンツの視聴履歴を含むことができる。更に、いくつかの実施例では、年齢属性及び性別データは、ユーザのスピーチから推測する（例えば、音の高低、使用された言葉などに基づいて）ことができ、次に、そのプロフィールに従って結果にバイアスをかける（例えば、年齢及び性別プロフィールの予想される好みに基づいて、言葉、番組、名前、照会結果などにバイアスをかける）ために使用することができる。
［００９９］
いくつかの実施例では、ユーザ要求は、ユーザ固有のデータを具体的に参照することができる。例えば、ユーザは、「私のチーム」を参照することができる（例えば、「私のチームの調子はどうですか？」）。ユーザ固有のデータは、次に、参照「私のチーム」をユーザのお気に入りのチームとして指定された特定のスポーツチームに解決するために使用することができる。他の実施例では、ユーザ固有のデータは、スピーチ認識及びユーザの意図の判定にバイアスをかけるために使用することができる（例えば、特定の俳優が登場する最近見られた映画に基づいて、特定のユーザがその俳優について質問したと思われると推測する）。例えば、ユーザが好きな、見ている、又は別の方法で関連付けられた、俳優又は選手の名前は、ユーザ固有のデータ内で識別して、これらの俳優又は選手の名前を優先して結果にバイアスをかけるために、スピーチ認識及び意図判定の間に使用することができる。これは、独特な名前、他の言葉又は名前のように聞こえる名前などを正確に認識するのに役に立つことができる。
［０１００］
発語入力を正確に認識してユーザ要求を解釈するための、本明細書で説明した様々な他のコンテキストのソースに加えて、ユーザに関連付けられた複数のデバイスからの情報は、正確なスピーチ認識のため及びユーザの意図の判定のためのコンテキストとして使用することができる。例えば、テレビ（例えば、ディスプレイ１１２上の）を見ているユーザはまた、別のデバイス上（例えば、ユーザ機器１０２上）のコンテンツも消費している場合がある。両方のデバイスからのコンテンツは、次に、ユーザ要求を解釈するのに使用することができる。
［０１０１］
図１１Ａは、ビデオ１１５０を表示しているテレビのディスプレイ１１２を示す。図１１Ｂは、表示された画像１１７０及び表示されたテキスト１１７２を表示している、タッチスクリーン２４６を有するユーザ機器１０２を示す。いずれかのデバイスからコンテンツを参照するユーザ要求を、受信することができる（例えば、リモコン１０６又はユーザ機器１０２により）。例えば、ユーザは、「Ｊｅｎｎｉｆｅｒの」直前のゴールを見せる要求することがある。「Ｊｅｎｎｉｆｅｒ」の参照は、発語入力のみからは不明確なことがある。しかし、表示されたテキスト１１７２を、要求を明確にしてＪｅｎｎｉｆｅｒをユーザ機器１０２上に表示されたコンテンツに現れている選手として識別するために使用することができる。要求に応答するビデオコンテンツは、次に、特定の選手に基づいて識別することができ、そのコンテンツを、ユーザのために再生することができる。応答するコンテンツは、ディスプレイ１１２上又はユーザ機器１０２上のいずれかに（例えば、特定のコマンド、ユーザの好みなどに基づいて）提供することができる。
［０１０２］
別の実施例では、図１１Ａのビデオ１１５０に関連付けられた名前、並びに図１１Ｂの表示された画像１１７０及び表示されたテキスト１１７２に関連付けられた名前は、予想される名前の候補に向けて結果にバイアスをかけるため、又は認識するのが困難なことがある名前を識別するために、スピーチ認識の間に使用することができる。例えば、ユーザ要求は、曖昧であり得る名前を含むことがあるが、いずれかのデバイス上に表示されたコンテンツに関連付けられた名前を、ユーザの意図を正確に識別するために使用することができる。他の実施例では、いずれかのデバイス上に表示されたコンテンツに関連付けられた俳優、贈呈者、演技者、プロデューサ、監督、参加者、ペナルティ、スポーツのチームなどのリストは、スピーチ認識の精度を向上してユーザの意図を判定するために同様に使用することができる。
［０１０３］
いくつかの実施例では、図１１Ｂの表示された画像１１７０は、動く画像又はビデオを含むことができる。例えば、図１１Ｂに示すコンテンツは、二次画面体験データ（例えば、別の番組に付随することを意図されたデータ及びビデオ）、二次カメラビューのデータ（例えば、特定の番組のために主として表示されるものの代替のビュー又は視点を有するビデオ）などを含むことができる。そのような情報は、上述したのと同様な方法で、スピーチ認識精度を向上してユーザの意図を判定するために使用することができる。加えて、別個のユーザ機器上に表示されているか否かに関わらず、二次画面体験データ、二次カメラビューのデータなどは、受信して、メディアストリーム内の関連する対象箇所及び関連付けられた時間を識別するために、データ供給の一部として使用することができる。例えば、二次画面体験は、試合内の見所の記述を含むことができる。これらの記述は、関連するメディアストリームイベントとして関連付けられたメディアストリーム時間とともに仮想アシスタントの知識内に含むことができ、ユーザ要求に応答するために使用することができる。同様に、二次カメラビューのデータは、代替のカメラのコンテンツが使用可能であり得る特定のメディアストリーム時間を識別する、関連するメディアストリームイベント（例えば、特定のユーザ要求に応答するのに使用することができる）として仮想アシスタントの知識内に含むことができる。
［０１０４］
上述したように、特定のユーザ要求に応じて、メディアは、特定のキュー時間で開始して再生することができる。いくつかの実施例では、１つ以上のメディアストリームの複数のセグメントは、いくつかのユーザ要求に応じて連続的に再生することができる。例えば、ユーザは、試合の見所、試合のすべてのゴール、試合内のすべての乱闘、番組内の特定の俳優のすべての登場、番組内の特定の登場人物に対するすべてのシーン、複数のトークショーのそれぞれからの冒頭の独白、複数のゲーム番組のそれぞれからのボーナス部分、番組の最高の瞬間、又は１つ以上の番組からの様々な他のメディアセグメントを見る要求をすることができる。上述した同じ方法で、所望のイベントに関連付けられた特定の時間は、１つ以上の番組内で識別することができ、再生は、他の識別されたセグメントが連続的に後続する最初のセグメントで開始させることができる。いくつかの実施例では、見所、最高の瞬間などは、ブックマークの人気、ソーシャルメディアの談議、再生回数などに基づいて判定することができる。各セグメントの終了は、コマーシャルの時間、関連付けられたメディアストリーム内の別のメディアイベント、既定の再生時間、メディアイベントの詳細内の特定の終了位置の入力等によるなどの、様々な方法で識別することができる。この方法で、ユーザは、例えば、ユーザが見たい特定のコンテンツに対する見所部分を要求することができ、システムは、所望の見所を自動的に識別してそれらを連続的に再生する（又は任意の他の順序などでの選択可能な再生のためにそれらを提供する）ことができる。
［０１０５］
いくつかの実施例では、ユーザは、友人、家族などとメディアストリームの特定のセグメントを共有したい場合がある。一実施例では、ユーザは、メディアストリーム内の特定の再生位置に対応するメディアストリーム内のブックマーク位置を示すことができる。このカスタマイズされたブックマーク位置は、次に、サーバに送信して、ソーシャルネットワーク、メッセージ、他のテレビ用セットトップボックス１０４、他のユーザ機器１０２などにより、友人と共有することができる。ユーザは、物理ボタン、仮想ボタン、発語入力、又はリモコン１０６及び／若しくはユーザ機器１０２を用いた任意の他の入力を使用して、ブックマークを示すことができる。例えば、ユーザは、特定のメディアセグメントをブックマークして、それをユーザのアドレス帳内の連絡先に送信する要求（例えば、これをブックマークしてＣｏｒｅｙに送信して）を仮想アシスタントシステムに宛てることができる。システムは、次に、特定のメディアセグメント（例えば、ＵＴＣ参照、オフセットなどとともにメディア識別子）を識別して、それを所望の連絡先に送信することができる。いくつかの実施例では、ユーザは、所望のセグメントの開始位置及び終了位置の両方を識別することができる。他の実施例では、ユーザは、特定のメディアストリームイベントを参照して共有することができる（例えば、このゴールをＪｏｒｄａｎと共有する、この演奏をＳｕｓａｎに送信する、など）。更に他の実施例では、ブックマーク及びメディアストリームイベントは、ソーシャルネットワークなどを通して共有することができる。
［０１０６］
上述したように、メディアに関連した仮想アシスタントの照会に応じて、システムは、ビデオを再生のためにキューする及び／又は情報回答で応答することができる（例えば、テキスト応答をディスプレイ１１２に表示すること、又はユーザ機器１０２が応答を発声することなどにより）。いくつかの実施例では、本明細書で説明したようなビデオを再生のためにキューするために使用される、様々なデータ供給及び他の情報は、同様な方法でユーザ要求への情報応答を決定するために使用することができる。図１２は、情報をデジタルアシスタントの知識に組み込んでユーザ要求に応答するための、例示的なプロセス１２００を示す。ブロック１２０２で、メディアストリーム内の時間に関連付けられたイベントを含むデータ供給を、受信することができる。データ供給は、図５を参照して説明したデータ供給５１０、図８を参照して説明したデータ供給８１０、及び図９を参照して説明したデータ供給９１０などの、本明細書で説明したデータ供給の任意のものを、対応するメディアストリームイベント５１６の任意のものとともに含むことができる。
［０１０７］
図１２のプロセス１２００を再び参照して、ブロック１２０４で、データ供給内のイベントに関連付けられた口頭のユーザ要求を、受信することができる。ユーザは、現在再生しているメディア、画面上の選手、画面上の俳優など、任意のメディアストリームイベントに関する情報を要求することができる。例えば、ユーザは、得点した選手の識別（例えば、「あのゴールを入れたのは誰か？」）、ペナルティの判定の識別（例えば、「あのペナルティは何に対するものだったか？」）、画面上の演技者の識別（例えば、「あれは誰か？」）、歌のタイトルの識別（例えば、「彼女が歌っているのは何か？」）、画面上の番組の登場人物の識別（例えば、「これらの登場人物の名前は何か？」）、番組内の俳優の識別（例えば、「これに出ているのは誰か？」）、筋の説明（例えば、「この回はどんな話か？」）、連続番組の説明（例えば、「この連続番組はどんなものか？」）、又はメディアコンテンツに関連付けられた様々な他の照会の任意のものを要求することができる。
［０１０８］
ブロック１２０６で、ユーザ要求への応答は、イベントに関連するデータ（例えば、本明細書で説明したデータ供給の任意のものからのデータ）に基づいて生成することができる。本明細書で説明したメディアストリームイベント５１６の任意のものは、例えば、様々な照会（例えば、ブロック１２０４を参照して上述した様々な照会の例などの）への情報応答に関して検索することができる。いくつかの実施例では、応答は、現在再生しているメディア（例えば、再生している番組、一時停止している番組、画面上に表示されている番組など）に基づいて生成することができる。例えば、現在再生しているメディアを参照するユーザ要求は、発語入力のみに基づいては曖昧であることがある。現在再生しているメディアは、現在のコンテンツに関する参照を解決することにより、ユーザ要求を明確にしてユーザの意図を判定するために使用することができる。例えば、ユーザは、「この」番組内の俳優をリストアップする（例えば、「これに出ているのは誰か？」）ことを要求することができ、これは、参照された番組が発語入力からすでに明らかではないため、不明確であることがある。しかし、現在再生している番組は、「この」の参照を解決してユーザの意図を識別するために使用することができる。図９のテレビ番組の例が再生されている場合、例えば、時間１４時００分（ＵＴＣ）にリストアップされた概要情報は、俳優ＪａｎｅＨｏｌｍｅｓ及びＤａｖｉｄＤｏｅを識別することにより、ユーザの照会に応答するために使用することができる。
［０１０９］
他の実施例では、応答は、現在再生しているメディアの現在の再生位置及び／又はユーザにより以前に消費されたメディアコンテンツに基づいて生成することができる。例えば、ユーザは、ゴールを入れるのが表示された直後の選手の識別を要求することができ、要求内に「あの」ゴールを参照することができる（例えば、「誰があのゴールを入れたのか？」）。現在再生しているメディアの現在の再生位置は、他のゴールがメディアストリーム内に後で現れるか否かに関わらず、「あの」ゴールをユーザに表示された直近のゴールに解決することにより、ユーザの意図を判定して応答を生成するために使用することができる。図７の実施例では、現在の再生位置７３２は、「あの」ゴールを前のゴール７３４に解決するために使用することができ、対応するメディアストリームイベントのコンテンツは、照会に回答するために使用することができる。具体的には、選手Ｍは、ユーザが見た直近のゴールを入れたとして識別することができる。図７を参照して上述したように、現在の再生はまた、様々な他の曖昧な参照（例えば、次の、前の、など）からユーザの意図を判定するために使用することができ、識別されたメディアストリームイベント情報は、次に、照会への応答を構築するために使用することができる。
［０１１０］
加えて、いくつかの実施例では、ユーザは、ユーザの視聴体験をシフトしてライブ又は更新情報の習得を遅延したいことがある。例えば、ユーザは、スポーツのイベントを、それがすでに開始された後で又は更にそれがすでに終了した後で、見るのを開始したい場合がある。にもかかわらず、ユーザは、試合全体をそれがライブであるかのように体験したいことがある。そのような場合、使用可能な仮想アシスタントの知識は、現在の再生位置と同時に存在する使用可能な参照情報に選別して、現在の再生位置の後の時点からの情報の参照を回避することができる。例えば、図７の実施例を再び参照して、ユーザが現在の再生位置７３２で見ていると仮定して、システムは、応答に次のゴール７４０を含むことを回避することができる。ユーザは、例えば、現在の再生位置７３２での得点を要求することができる（例えば、「この時点までの得点は何点か？」）。これに応じて、システムは、現在の再生位置７３２の後のイベント（例えば、次のゴール７４０）を除外しながら、前に見たイベント（例えば、前のゴール７３４）に基づいて得点を提供することができる。
［０１１１］
いくつかの実施例では、ユーザ要求は、応答情報が現在の再生位置で同時に存在するものでなければならないこと（例えば、「この時点まで」、「現在まで」、「試合のこの時点で」、「これまで」などと言うことにより）、又は応答情報が使用可能な最新の更新情報でなければならないこと（例えば、「ライブの」、「更新の」、「現在の」などと言うことにより）を指定することができる。他の実施例では、設定、ユーザの好みなどが、応答が最新の更新情報を含むか、又は代わりに再生位置で同時に存在する情報のみを含むかを判定することができる。加えて、いくつかの実施例では、特定の試合に関連付けられ得る（例えば、用語、名前などに基づいて）、警報、通知、メッセージ、ソーシャルメディア供給入力などは、所望によりユーザから抑制することができ、ユーザがその様々なメッセージに対応する関連付けられたコンテンツ内の再生位置に到達した後のみ配信することができる。例えば、ライブのスポーツのイベントに関してコメントしている友人からのメッセージ（例えば、ユーザ機器１０２又は任意の他のデバイス上に配信される）は、そのメッセージが送信された時間に対応するそのスポーツのイベントの遅延した視聴の時点にユーザが到達するまで意図的に遅延することができ、その時点でメッセージをユーザに配信することができる。この方法で、スポーツのイベントを見る（又は任意の他のメディアを消費する）体験全体を、所望によりタイムシフトすることができる（例えば、結果を損なうことを回避するために）。
［０１１２］
他の実施例では、応答は、テレビ用セットトップボックス１０４によりディスプレイ１１２上に表示されるコンテンツ、ユーザ機器１０２のタッチスクリーン２４６上に表示されるコンテンツ、及び／又は表示されたコンテンツの任意のものに関連付けられたメタデータに基づいて生成することができる。例えば、応答は、画面上の俳優、画面上の選手、試合の参加者のリスト、番組の俳優のリスト、チームの名簿などに基づいて生成することができる。図６、図１１Ａ、及び図１１Ｂを参照して上述したように、様々な情報は、表示されたコンテンツ及び関連付けられたメタデータから導出することができ、その情報は、ユーザ要求を明確にしてユーザの意図を判定し、ユーザ要求への応答を生成するために使用することができる。例えば、画面上の選手を識別するユーザ要求（例えば、「あれは誰か？」）への応答は、現在の再生位置付近のメディアストリームイベント、顔認識、字幕テキストなどに基づいて生成することができる。図６の実施例では、例えば、キュー時間６２４付近（例えば、チームＡのゴール付近）のメディアストリームイベントは、画面上の選手６２８を選手Ｍとして識別するために使用することができる。別の実施例では、画像処理が、画面上の選手６２８の背番号を認識して、彼を名簿から選手Ｍとして識別するために使用することができる。
［０１１３］
図１２のプロセス１２００を再び参照して、ブロック１２０８で、ブロック１２０６で判定された応答を、配信させることができる。いくつかの実施例では、応答を配信することは、テレビ用セットトップボックス１０４によりディスプレイ１１２上で、ユーザ機器１０２上で、若しくは別のデバイス上で、応答を表示させる又は再生させることを含むことができる。例えば、テキスト応答及び／又はメディア応答は、デバイス上の仮想アシスタントインタフェース内に表示する又は再生することができる。別の実施例では、応答を配信することは、応答情報をテレビ用セットトップボックス１０４、ユーザ機器１０２、又は別のデバイスに（例えば、サーバから）送信することを含むことができる。更に他の実施例では、ユーザは、画像又はビデオ内の情報を識別することを要求する（例えば、「どちらがＪｅｎｎｉｆｅｒか？」）ことができ、応答は、例えば、関連付けられたメディアストリームイベント内の識別された座標に基づいて、インジケータ（例えば、矢印、点、輪郭など）を画像又はビデオの上に重ね合わせて表示することを含むことができる。プロセス１２００は、ゆえに、仮想アシスタントの知識ベースに組み込まれた適時のデータを用いることにより、様々なユーザ照会に様々な方法で応答するために使用することができる。
［０１１４］
加えて、本明細書で説明した様々な実施例のいずれでも、様々な態様は、特定のユーザのために個人専用にすることができる。連絡先、好み、位置、お気に入りのメディアなどを含むユーザデータは、音声コマンドを解釈して本明細書で説明した様々なデバイスとのユーザ対話を促進するために使用することができる。本明細書で説明した様々なプロセスはまた、ユーザの好み、連絡先、テキスト、使用履歴、プロフィールデータ、人口統計などに従って、様々な他の方法で変更することができる。加えて、そのような好み及び設定は、ユーザ対話（例えば、頻繁に発言されたコマンド、頻繁に選択されたアプリケーションなど）に基づいて、経時的に更新することができる。様々なソースから使用可能なユーザデータの収集及び利用は、ユーザが興味があり得る招待者だけのコンテンツ又は任意の他のコンテンツのユーザへの配信を改善するために使用することができる。本開示は、いくつかの場合では、この収集されたデータが、特定の個人を一意に識別する又は連絡するため若しくは位置を特定するために使用することができる、個人情報データを含むことができることを意図している。そのような個人情報データとしては、人口統計データ、位置に基づくデータ、電話番号、電子メールアドレス、自宅の住所、又は任意の他の識別情報を挙げることができる。
［０１１５］
本開示は、この技術のそのような個人情報データを使用してユーザを利することができることを理解する。例えば、個人情報データは、ユーザがより興味がある的を絞ったコンテンツを配信するために使用することができる。したがって、そのような個人情報データの使用は、配信されるコンテンツの計算された制御を可能にする。更に、ユーザを利する個人情報データに関するその他の使用もまた、本開示により意図されている。
［０１１６］
本開示は、そのような個人情報データの収集、分析、開示、伝送、記憶、又はその他の使用に応答するエンティティは、確固たるプライバシーのポリシー及び／又はプライバシー慣行に従うであろうことを更に意図している。具体的には、そのようなエンティティは、個人情報データを秘密で安全に維持するために、産業若しくは政府の要求を満たす又は上回るとして一般的に認識される、プライバシーのポリシー及び慣行を実施及び一貫して使用しなければならない。例えば、ユーザからの個人情報は、そのエンティティの合法的かつ正当な使用のために収集されるべきであり、それらの合法的使用を除いて、共有又は販売されるべきではない。更には、そのような収集は、ユーザに告知して同意を得た後にのみ実施するべきである。更には、そのようなエンティティは、そのような個人情報データへのアクセスを保護して安全化し、その個人情報データへのアクセスを有する他者が、それらのプライバシーのポリシー及び手順を遵守することを保証するための、あらゆる必要な措置を講じるであろう。更には、そのようなエンティティは、広く受け入れられているプライバシーのポリシー及び慣行に対する自身の遵守を証明するために、第三者による評価を自らが受けることができる。
［０１１７］
前述のことがらにもかかわらず、本開示はまた、ユーザが、個人情報データの使用又は個人情報データへのアクセスを選択的に阻止する実施例も想到する。すなわち、本開示は、そのような個人情報データへのアクセスを防止又は阻止するために、ハードウェア要素及び／又はソフトウェア要素を提供することができると想到する。例えば、広告配信サービスの場合では、この技術は、ユーザが、サービスの登録中に、個人情報データの収集への参加の「オプトイン」又は「オプトアウト」を選択することを可能にするように構成され得る。別の実施例では、ユーザは、的を絞ったコンテンツの配信サービスに対して位置情報を提供しないように選択することができる。更に別の実施例では、ユーザは、精密な位置情報を提供しないが、位置区域情報の伝送を許可するように選択することができる。
［０１１８］
それゆえ、本開示は、１つ以上の様々な開示された実施例を実施するための個人情報データの使用を、広範に網羅するものであるが、本開示は、それらの様々な実施例がまた、そのような個人情報データにアクセスすることを必要とせずに実施することも可能である点も、また想到する。すなわち、本技術の様々な実施例は、そのような個人情報データのすべて又は一部分の欠如により、実施不可能となるものではない。例えば、コンテンツは、ユーザに関連付けられたデバイスにより要求されたコンテンツ、コンテンツ配信サービスで使用可能な他の非個人情報、若しくは公的に使用可能な情報などの、非個人情報データ又は個人情報の最小限の量のみに基づいて好みを推測することにより、選択してユーザに配信することができる。
［０１１９］
いくつかの実施例により、図１３は、例えば、メディア再生の音声制御及び仮想アシスタントの知識のリアルタイム更新を提供するための、説明される様々な実施例の原理に従って構成された、電子デバイス１３００の機能ブロック図を示す。このデバイスの機能ブロックは、説明される様々な実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせによって実装することができる。図１３で説明する機能ブロックが、説明される様々な実施例の原理を実施するために、組み合わされ、又はサブブロックに分離され得ることが当業者に理解されよう。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
［０１２０］
図１３に示すように、電子デバイス１３００は、メディア、インタフェース、及びその他のコンテンツを表示するように構成されたディスプレイユニット１３０２（例えば、ディスプレイ１１２、タッチスクリーン２４６など）を含むことができる。電子デバイス１３００は、発語入力、触知入力、ジェスチャ入力、メディア情報、データ供給、メディアなどの、情報を受信するように構成された入力ユニット１３０４（例えば、マイクロフォン、受信機、タッチスクリーン、ボタン、サーバなど）を更に含むことができる。電子デバイス１３００は、ディスプレイユニット１３０２及び入力ユニット１３０４に結合された、処理ユニット１３０６を更に含むことができる。いくつかの実施例では、処理ユニット１３０６は、データ供給受信ユニット１３０８、ユーザ要求受信ユニット１３１０、及びメディア再生ユニット１３１２を含むことができる。
［０１２１］
処理ユニット１３０６は、データ供給を受信する（例えば、データ供給受信ユニット１３０８を使用して入力ユニット１３０４から）ように構成することができ、データ供給は、メディアストリーム内の時間に関連付けられたイベントに関連するデータを含む。処理ユニット１３０６は、発語入力に基づいてユーザ要求を受信する（例えば、ユーザ要求受信ユニット１３１０を使用して入力ユニット１３０４から）ように更に構成することができ、ユーザ要求は、イベントに関連付けられる。処理ユニット１３０６は、ユーザ要求を受信したことに応じて、メディアストリームの再生をイベントに関連付けられたメディアストリーム内の時間で開始（例えば、ディスプレイユニット１３０２上に）させる（例えば、メディア再生ユニット１３１２を使用して）ように更に構成することができる。
［０１２２］
いくつかの実施例では、処理ユニット１３０６は、現在再生しているメディアに基づいてユーザ要求を解釈するように更に構成することができる。他の実施例では、処理ユニット１３０６は、現在再生しているメディアの現在の再生位置に基づいてユーザ要求を解釈するように更に構成することができる。更に他の実施例では、処理ユニット１３０６は、画面上の俳優、画面上の選手、試合の参加者のリスト、番組内の俳優のリスト、番組内の登場人物のリスト、又はチームの名簿の１つ以上に基づいてユーザ要求を解釈するように更に構成することができる。いくつかの実施例では、メディアストリームは、スポーツのイベントを含み、イベントに関連するデータは、選手の特性（例えば、名前、ニックネーム、番号、ポジション、チーム、デプスチャート、経験、スタイル、略歴など）、得点、ペナルティ、統計、又は試合のセグメント指示子（例えば、クウォータ、ピリオド、ハーフ、ラップ、警告旗、ピットストップ、ダウン、プレーなど）の１つ以上を含む。他の実施例では、メディアストリームは、受賞番組を含み、イベントに関連するデータは、参加者の特性（例えば、名前、ニックネーム、登場人物の名前、略歴など）、演技の説明、又は授賞の指示子の１つ以上を含む。更に他の実施例では、メディアストリームは、テレビ番組を含み、イベントに関連するデータは、演技の説明又は番組セグメント指示子の１つ以上を含む。
［０１２３］
一実施例では、ユーザ要求（例えば、ユーザ要求受信ユニット１３１０の）は、メディアストリーム内の見所に対する要求を含む。いくつかの実施例では、処理ユニット１３０６は、要求を受信したことに応じて、メディアストリームの複数のセグメントの連続的再生をさせるように更に構成することができる。他の実施例では、メディアストリームの再生をさせることは、この電子デバイス以外の再生デバイス上でメディア再生をさせることを含む。いくつかの実施例では、電子デバイスは、サーバ、セットトップボックス、リモコン、スマートフォン、又はタブレットコンピュータを含む。他の実施例では、再生デバイスは、セットトップボックス、スマートフォン、タブレットコンピュータ、又はテレビを含む。処理ユニット１３０６は、電子デバイスにより表示される情報に基づいてユーザ要求を解釈するように更に構成することができる。処理ユニット１３０６は、再生デバイスにより表示される情報に基づいてユーザ要求を解釈するように更に構成することができる。
［０１２４］
いくつかの実施例では、イベントに関連するデータは、字幕テキストを含む。処理ユニット１３０６は、字幕テキストに基づいてイベントに関連付けられたメディアストリーム内の時間を判定するように更に構成することができる。一実施例では、イベントに関連するデータは、二次画面体験データ、二次カメラビューデータ、又はソーシャルネットワーク供給データの１つ以上を含む。処理ユニット１３０６は、ユーザからブックマークインジケーションを受信するように更に構成することができ、ブックマークは、メディアストリーム内の特定の再生位置に対応する。処理ユニット１３０６は、ブックマークを共有するユーザ要求を受信するように更に構成することができ、ブックマークを共有するユーザ要求を受信したことに応じて、特定の再生位置に関連付けられたキュー情報をサーバに送信させることができる。処理ユニット１３０６は、ユーザのお気に入りのチーム、ユーザのお気に入りのスポーツ、ユーザのお気に入りの選手、ユーザのお気に入りの俳優、ユーザのお気に入りのテレビ番組、ユーザの地理的位置、ユーザの人口統計、ユーザの視聴履歴、又はユーザの契約データの１つ以上に基づいて、ユーザ要求を解釈するように更に構成することができる。
［０１２５］
いくつかの実施例により、図１４は、例えば、情報をデジタルアシスタントの知識に組み込んでユーザ要求に応答するための、説明される様々な実施例の原理に従って構成された、電子デバイス１３００の機能ブロック図を示す。このデバイスの機能ブロックは、説明される様々な実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせによって実装することができる。図１４で説明する機能ブロックが、説明される様々な実施例の原理を実施するために、組み合わされ、又はサブブロックに分離され得ることが当業者に理解されよう。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
［０１２６］
図１４に示すように、電子デバイス１４００は、メディア、インタフェース、及びその他のコンテンツを表示するように構成されたディスプレイユニット１４０２（例えば、ディスプレイ１１２、タッチスクリーン２４６など）を含むことができる。電子デバイス１４００は、発語入力、触知入力、ジェスチャ入力、メディア情報、データ供給、メディアなどの、情報を受信するように構成された入力ユニット１４０４（例えば、マイクロフォン、受信機、タッチスクリーン、ボタン、サーバなど）を更に含むことができる。電子デバイス１４００は、ディスプレイユニット１４０２及び入力ユニット１４０４に結合された、処理ユニット１４０６を更に含むことができる。いくつかの実施例では、処理ユニット１３０６は、データ供給受信ユニット１４０８、ユーザ要求受信ユニット１４１０、応答生成ユニット１４１２、及び応答配信ユニット１４１４を含むことができる。
［０１２７］
処理ユニット１４０６は、データ供給を受信する（例えば、データ供給受信ユニット１４０８を使用して入力ユニット１４０４から）ように構成することができ、データ供給は、メディアストリーム内の時間に関連付けられたイベントに関連するデータを含む。処理ユニット１４０６は、ユーザからの発語入力に基づいてユーザ要求を受信する（例えば、ユーザ要求受信ユニット１４１０を使用して入力ユニット１４０４から）ように更に構成することができ、ユーザ要求は、イベントに関連付けられる。処理ユニット１４０６は、イベントに関連するデータに基づいて、ユーザ要求への応答を生成する（例えば、応答生成ユニット１４１２を使用して）ように更に構成することができる。処理ユニット１４０８は、応答を配信させる（例えば、応答配信ユニット１４１４を使用して）ように更に構成することができる。
［０１２８］
いくつかの実施例では、応答を生成する（例えば、応答生成ユニット１４１２を使用して）ことは、現在再生しているメディアに基づいて応答を生成することを更に含む。他の実施例では、応答を生成する（例えば、応答生成ユニット１４１２を使用して）ことは、現在再生しているメディアの現在の再生位置に基づいて応答を生成することを更に含む。更に他の実施例では、応答を生成する（例えば、応答生成ユニット１４１２を使用して）ことは、ユーザにより以前に消費されたメディアコンテンツに基づいて応答を生成することを更に含む。いくつかの実施例では、応答を生成する（例えば、応答生成ユニット１４１２を使用して）ことは、画面上の俳優、画面上の選手、試合の参加者のリスト、番組内の俳優のリスト、又はチームの名簿の１つ以上に基づいて応答を生成することを更に含む。
［０１２９］
いくつかの実施例では、処理ユニット１４０６は、現在再生しているメディアの現在の再生位置と同時に存在する情報に対する要求を含むユーザ要求に応じて、現在の再生位置の後の時間に関連付けられたデータを除外した、現在の再生位置と同時に存在するデータに基づいて応答を生成し、ライブの情報に対する要求を含むユーザ要求に応じて、ライブのデータに基づいて応答を生成する、ように更に構成することができる。いくつかの実施例では、応答を配信させる（例えば、応答配信ユニット１４１４を使用して）ことは、電子デバイス以外の再生デバイス上に応答を表示又は再生させることを含む。他の実施例では、応答を配信させる（例えば、応答配信ユニット１４１４を使用して）ことは、電子デバイス以外の再生デバイスに応答を配信させることを含む。いくつかの実施例では、電子デバイスは、サーバ、セットトップボックス、リモコン、スマートフォン、又はタブレットコンピュータを含む。他の実施例では、再生デバイスは、セットトップボックス、スマートフォン、タブレットコンピュータ、又はテレビを含む。いくつかの実施例では、処理ユニット１４０６は、電子デバイスにより表示される情報に基づいてユーザ要求を解釈するように更に構成することができる。他の実施例では、処理ユニット１４０６は、再生デバイスにより表示される情報に基づいてユーザ要求を解釈するように更に構成することができる。
［０１３０］
実施例は、付随する図面を参照して充分に説明してきたが、様々な変更及び修正が当業者には明白になるであろうこと（例えば、本明細書で説明した任意の他のシステム又はプロセスに関連して説明した概念に従って、本明細書で説明したシステム又はプロセスのいずれかを修正すること）に留意すべきである。そのような変更及び修正は、添付の特許請求の範囲によって定義されるような様々な実施例の範囲内に含まれるものとして理解されたい。

［書類名］特許請求の範囲
［請求項１］
メディア再生の音声制御のための方法であって、
電子デバイスにおいて、
メディアストリーム内の時間に関連付けられたイベントに関連するデータを含む、データ供給を受信することと、
発語入力に基づいて、前記イベントに関連付けられたユーザ要求を受信することと、
前記ユーザ要求を受信したことに応じて、前記メディアストリームの再生に前記イベントに関連付けられた前記メディアストリーム内の前記時間で開始させることと、
を含む方法。
［請求項２］
現在再生しているメディアに基づいて前記ユーザ要求を解釈することを更に含む、請求項１に記載の方法。
［請求項３］
現在再生しているメディアの現在の再生位置に基づいて前記ユーザ要求を解釈することを更に含む、請求項１に記載の方法。
［請求項４］
画面上の俳優、画面上の選手、試合の参加者のリスト、番組内の俳優のリスト、番組内の登場人物のリスト、又はチームの名簿の１つ以上に基づいて、前記ユーザ要求を解釈することを更に含む、請求項１に記載の方法。
［請求項５］
前記メディアストリームが、スポーツのイベントを含み、前記イベントに関連する前記データが、選手の特性、得点、ペナルティ、統計、又は試合のセグメント指示子の１つ以上を含む、請求項１に記載の方法。
［請求項６］
前記メディアストリームが、受賞番組を含み、前記イベントに関連する前記データが、参加者の特性、演技の説明、又は賞の授与の指示子の１つ以上を含む、請求項１に記載の方法。
［請求項７］
前記メディアストリームが、テレビ番組を含み、前記イベントに関連する前記データが、演技の説明又は番組セグメント指示子の１つ以上を含む、請求項１に記載の方法。
［請求項８］
前記ユーザ要求が、前記メディアストリーム内の見所に対する要求を含む、請求項１に記載の方法。
［請求項９］
前記ユーザ要求を受信したことに応じて、前記メディアストリームの複数のセグメントの連続的再生をさせることを更に含む、請求項１に記載の方法。
［請求項１０］
前記メディアストリームの再生をさせることが、前記電子デバイス以外の再生デバイス上でメディア再生をさせることを含む、請求項１に記載の方法。
［請求項１１］
前記電子デバイスにより表示される情報に基づいて前記ユーザ要求を解釈することを更に含む、請求項１０に記載の方法。
［請求項１２］
前記再生デバイスにより表示される情報に基づいて前記ユーザ要求を解釈することを更に含む、請求項１０に記載の方法。
［請求項１３］
前記イベントに関連する前記データが、字幕テキストを含む、請求項１に記載の方法。
［請求項１４］
前記字幕テキストに基づいて前記イベントに関連付けられた前記メディアストリーム内の前記時間を判定することを更に含む、請求項１３に記載の方法。
［請求項１５］
前記イベントに関連する前記データが、二次画面体験データ、二次カメラビューデータ、又はソーシャルネットワーク供給データの１つ以上を含む、請求項１に記載の方法。
［請求項１６］
前記ユーザからブックマークインジケーションを受信することを更に含み、前記ブックマークは、前記メディアストリーム内の特定の再生位置に対応する、請求項１に記載の方法。
［請求項１７］
前記ブックマークを共有するユーザ要求を受信することと、
前記ブックマークを共有する前記ユーザ要求を受信したことに応じて、前記特定の再生位置に関連付けられたキュー情報をサーバに送信させることと、
を更に含む、請求項１６に記載の方法。
［請求項１８］
ユーザのお気に入りのチーム、ユーザのお気に入りのスポーツ、ユーザのお気に入りの選手、ユーザのお気に入りの俳優、ユーザのお気に入りのテレビ番組、ユーザの地理的位置、ユーザの人口統計、ユーザの視聴履歴、又はユーザの契約データの１つ以上に基づいて、前記ユーザ要求を解釈することを更に含む、請求項１に記載の方法。
［請求項１９］
メディアストリーム内の時間に関連付けられたイベントに関連するデータを含む、データ供給を受信し、
発語入力に基づいて、前記イベントに関連付けられたユーザ要求を受信し、
前記ユーザ要求を受信したことに応じて、前記メディアストリームの再生を前記イベントに関連付けられた前記メディアストリーム内の前記時間で開始させる、
ためのコンピュータ実行可能命令を含む、非一時的コンピュータ可読記憶媒体。
［請求項２０］
メディア再生の音声制御のためのシステムであって、
ひとつ以上のプロセッサと、
メモリと、
ひとつ以上のプログラムと、を備え、
前記ひとつ以上のプログラムは前記メモリに保持され、かつ、前記ひとつ以上のプロセッサにより実行されるよう構成され、前記ひとつ以上のプログラムは、
メディアストリーム内の時間に関連付けられたイベントに関連するデータを含む、データ供給を受信し、
発語入力に基づいて、前記イベントに関連付けられたユーザ要求を受信し、
前記ユーザ要求を受信したことに応じて、前記メディアストリームの再生を前記イベントに関連付けられた前記メディアストリーム内の前記時間で開始させる、
ための命令を含むシステム。
［請求項２１］
情報をデジタルアシスタントの知識に組み込むための方法であって、
電子デバイスにおいて、
メディアストリーム内の時間に関連付けられたイベントに関連するデータを含む、データ供給を受信することと、
ユーザからの発語入力に基づいて、前記イベントに関連付けられたユーザ要求を受信することと、
前記イベントに関連した前記データに基づいて、前記ユーザ要求への応答を生成することと、
前記応答を配信させることと、
を含む、方法。
［請求項２２］
前記応答を生成することが、現在再生しているメディアに基づいて前記応答を生成することを更に含む、請求項２１に記載の方法。
［請求項２３］
前記応答を生成することが、現在再生しているメディアの現在の再生位置に基づいて前記応答を生成することを更に含む、請求項２１に記載の方法。
［請求項２４］
前記応答を生成することが、前記ユーザにより以前に消費されたメディアコンテンツに基づいて前記応答を生成することを更に含む、請求項２１に記載の方法。
［請求項２５］
前記応答を生成することが、画面上の俳優、画面上の選手、試合の参加者のリスト、番組内の俳優のリスト、又はチームの名簿の１つ以上に基づいて、前記応答を生成することを更に含む、請求項２１に記載の方法。
［請求項２６］
現在再生しているメディアの現在の再生位置と同時に存在する情報に対する要求を含む前記ユーザ要求に応じて、前記現在の再生位置の後の時間に関連付けられたデータを除外した、前記現在の再生位置と同時に存在するデータに基づいて、前記応答を生成することと、
ライブの情報に対する要求を含む前記ユーザ要求に応じて、ライブのデータに基づいて前記応答を生成することと、
を更に含む、請求項２１に記載の方法。
［請求項２７］
前記応答を配信させることが、前記電子デバイス以外の再生デバイス上で前記応答を表示又は再生させることを含む、請求項２１に記載の方法。
［請求項２８］
前記応答を配信させることが、前記電子デバイス以外の再生デバイスに前記応答を配信させることを含む、請求項２１に記載の方法。

［書類名］要約書
［要約］
仮想アシスタントのメディア知識のリアルタイム更新のためのシステム及びプロセスが開示される。仮想アシスタントの知識は、再生しているメディア（例えば、スポーツのイベント、テレビ番組、など）に関連付けられた、適時情報を用いて更新することができる。イベントをメディアストリーム内の特定の時間に関連付けるデータを含むデータ供給を、受信することができる。ユーザ要求は、発語入力に基づいて受信することができ、ユーザ要求は、メディアストリーム又は番組内のイベントに関連付けることができる。要求を受信したことに応じて、要求内で参照されたイベントに関連付けられたメディアストリーム内の時間で再生を開始するために、メディアストリームを、キューすることができる。別の実施例では、ユーザ要求への応答は、イベントに関連するデータに基づいて生成することができる。応答は、次に、ユーザに配信することができる（例えば、発声して、表示して、など）。

［書類名］図面
［図１］
［図２］
［図３］
［図４］
［図５］
［図６］
［図７］
［図８］
［図９］
［図１０］
［図１１Ａ］
［図１１Ｂ］
［図１２］
［図１３］
［図１４］

Claims

メディアシステムのデジタルアシスタントを動作させるための方法であって、前記方法は、
１つ以上のプロセッサ及びメモリを有する電子デバイスにおいて、
ディスプレイ上にコンテンツを表示することと、
第２の電子デバイス上に表示されたオブジェクトの選択に対応する第１ユーザ入力を検出することと、
前記第１ユーザ入力が第１の入力形式に対応するかどうかを判定することであって、前記第１の入力形式は非言語入力形式を含む、ことと、
前記第１ユーザ入力が第１の入力形式に対応するとの判定に従って、
前記ディスプレイ上に、前記表示されたコンテンツにコンテクスト上関連する複数の例示的な自然言語要求を表示し、
前記第２の電子デバイス上に表示された前記オブジェクトの選択に対応する第２ユーザ入力に応じて、サンプリングされた音声データがユーザ要求を含むか否かを判定することであって、前記第１ユーザ入力は、前記第２ユーザ入力とは異なる、ことと、
を含む、方法。
前記複数の例示的な自然言語要求が前記ディスプレイ上に第１のユーザインターフェースを介して表示され、前記第１のユーザインターフェースは、前記表示されたコンテンツ上に重ね合わせられる、請求項１に記載の方法。
前記表示されたコンテンツがメディアコンテンツを含み、前記メディアコンテンツは、前記複数の例示的な自然言語要求を表示している間に再生し続ける、請求項１又は２に記載の方法。
前記複数の例示的な自然言語要求の各々が所定の順序で異なる時間に別個に表示される、請求項１から３のいずれか一項に記載の方法。
前記複数の例示的な自然言語要求を表示することが、
例示的な自然言語要求の複数のリストを表示することであって、各リストは異なる時間に交代で表示される、ことを含む、請求項１から４のいずれか一項に記載の方法。
前記第１ユーザ入力が第１の入力形式に対応しないとの判定に従って、
前記第１ユーザ入力が第２の入力形式に対応するかどうかを判定することと、
前記第１ユーザ入力が第２の入力形式に対応するとの判定に従って、
音声データをサンプリングすることと、
前記音声データがユーザ要求を包含するかどうかを判定することと、
前記音声データがユーザ要求を包含するとの判定に従って、前記ユーザ要求を少なくとも部分的に満足するタスクを実行することと、
を更に含む、請求項１から５のいずれか一項に記載の方法。
前記表示されたコンテンツがメディアコンテンツを含み、前記メディアコンテンツは、前記音声データをサンプリングしている間、及び前記タスクを実行している間に、電子デバイス上で再生し続ける、請求項６に記載の方法。
前記メディアコンテンツに関連付けられた音声を出力することと、
前記第１ユーザ入力が第２の入力形式に対応するとの判定に従って、前記音声の振幅を低減させることと、
を更に含む、請求項７に記載の方法。
前記音声データが、前記第１ユーザ入力を検出している間にサンプリングされる、請求項６から８のいずれか一項に記載の方法。
前記表示されたコンテンツに関連付けられた音声が音声信号に基づいて電子デバイスから出力され、前記方法は、
前記音声信号を用いて前記音声データ内の背景ノイズを除去することを更に含む、請求項６から９のいずれか一項に記載の方法。
前記表示されたコンテンツが、電子デバイス上で再生中のメディアコンテンツを含み、
前記ユーザ要求が、ユーザが、前記メディアコンテンツに関連付けられた音声の一部分が聞こえなかったことを指示する自然言語表現を含み、
前記タスクを実行することが、
前記メディアコンテンツを前記メディアコンテンツの以前の部分まで所定の量だけ巻き戻すことと、
前記メディアコンテンツの再生を前記メディアコンテンツの前記以前の部分から再スタートすることと、
を含む、請求項６から１０のいずれか一項に記載の方法。
前記タスクを実行することが、
前記メディアコンテンツの再生を前記以前の部分から再スタートする前にクローズドキャプションをオンにすることを更に含む、請求項１１に記載の方法。
前記タスクを実行することが、前記メディアコンテンツの再生を前記以前の部分から再スタートする前に、前記メディアコンテンツに関連付けられた前記音声の音量を上げることを更に含む、請求項１１又は１２に記載の方法。
前記実行されるタスクが、
前記ユーザ要求を少なくとも部分的に満足する結果を取得することと、
前記ディスプレイ上に第２のユーザインターフェースを表示することであって、前記第２のユーザインターフェースは前記結果の一部分を含み、前記コンテンツの少なくとも一部分が、前記第２のユーザインターフェースが表示されている間に表示され続け、前記ディスプレイ上における前記第２のユーザインターフェースの表示区域は前記ディスプレイ上における前記コンテンツの前記少なくとも一部分の表示区域よりも小さい、ことと、
を含む、請求項６から１３のいずれか一項に記載の方法。
前記結果の前記部分が１つ以上のメディアアイテムを含み、前記方法は、
前記第２のユーザインターフェースを介して前記１つ以上のメディアアイテムのうちのメディアアイテムの選択を受信することと、
前記ディスプレイ上に、前記選択されたメディアアイテムに関連付けられたメディアコンテンツを表示することと、
を更に含む、請求項１４に記載の方法。
前記第２のユーザインターフェースを表示している間に、第３ユーザ入力を検出することと、
前記第３ユーザ入力を検出したことに応じて、前記第２のユーザインターフェースを表示するのを中止することと、
を更に含む、請求項１４又は１５に記載の方法。
前記第２のユーザインターフェースを表示している間に、第４ユーザ入力を検出することと、
前記第４ユーザ入力を検出したことに応じて、前記第２のユーザインターフェースの表示を前記ディスプレイ上における第３のユーザインターフェースの表示と置換することであって、前記第３のユーザインターフェースは前記結果の少なくとも前記部分を含み、前記第３のユーザインターフェースは前記ディスプレイの表示区域の少なくとも過半を占有する、ことと、
を更に含む、請求項１４から１６のいずれか一項に記載の方法。
前記第４ユーザ入力を検出したことに応じて、
前記結果と異なる第２の結果を取得することであって、前記第２の結果は前記ユーザ要求を少なくとも部分的に満足し、前記第３のユーザインターフェースが前記第２の結果の少なくとも一部分を含む、ことを更に含む、請求項１７に記載の方法。
前記第４ユーザ入力が検出される間に前記第２のユーザインターフェースのフォーカスが前記結果の前記部分のアイテム上にあり、前記第２の結果が前記アイテムにコンテクスト上関連する、請求項１８に記載の方法。
前記表示されたコンテンツがメディアコンテンツを含み、前記第４ユーザ入力を検出したことに応じて、電子デバイス上における前記メディアコンテンツの再生が一時停止される、請求項１７から１９のいずれか一項に記載の方法。
前記結果の前記少なくとも前記部分が１つ以上のメディアアイテムを含み、前記方法は、
前記第３のユーザインターフェースを介して前記１つ以上のメディアアイテムのうちのメディアアイテムの選択を受信することと、
前記ディスプレイ上に、前記メディアアイテムに関連付けられたメディアコンテンツを表示することと、
を更に含む、請求項１７から２０のいずれか一項に記載の方法。
前記第３のユーザインターフェースを表示している間に、前記ディスプレイ上における方向に関連付けられた第５ユーザ入力を検出することと、
前記第５ユーザ入力を検出したことに応じて、
前記第３のユーザインターフェースのフォーカスを第１のアイテムから前記第３のユーザインターフェース上の第２のアイテムへ切り換えることであって、前記第２のアイテムは前記第１のアイテムに対して前記方向に位置付けられている、ことと、
を更に含む、請求項１７から２１のいずれか一項に記載の方法。
前記第３のユーザインターフェースを表示している間に、第６ユーザ入力を検出することと、
前記第６ユーザ入力を検出したことに応じて、
検索フィールドを表示することと、
前記ディスプレイ上に仮想キーボードインターフェースを表示することであって、前記仮想キーボードインターフェースを介して受信された入力は前記検索フィールド内へのテキスト記入を生じさせる、ことと、
を更に含む、請求項１７から２２のいずれか一項に記載の方法。
前記第３のユーザインターフェースを表示している間に、第７ユーザ入力を検出することと、
前記第７ユーザ入力を検出したことに応じて、
第２の音声データをサンプリングすることであって、前記第２の音声データは第２のユーザ要求を包含する、ことと、
前記第２のユーザ要求が、前記ユーザ要求の前記結果を絞り込めとの要求であるかどうかを判定することと、
前記第２のユーザ要求が、前記ユーザ要求の前記結果を絞り込めとの要求であるとの判定に従って、前記第３のユーザインターフェースを介して前記結果のサブセットを表示することと、
を更に含む、請求項１７から２３のいずれか一項に記載の方法。
前記第２のユーザ要求が、前記ユーザ要求の前記結果を絞り込めとの要求でないとの判定に従って、
前記第２のユーザ要求を少なくとも部分的に満足する第３の結果を取得することと、
前記第３のユーザインターフェースを介して前記第３の結果の一部分を表示することと、
を更に含む、請求項２４に記載の方法。
前記ユーザ要求又は前記第２のユーザ要求を少なくとも部分的に満足する第４の結果を取得することと、
前記第３のユーザインターフェースを介して前記第４の結果の一部分を表示することと、
を更に含む、請求項２４又は２５に記載の方法。
前記第７ユーザ入力が検出される間に前記第３のユーザインターフェースのフォーカスが前記第３のユーザインターフェースの１つ以上のアイテム上にあり、前記第４の結果が前記１つ以上のアイテムにコンテクスト上関連する、請求項２６に記載の方法。
前記第３のユーザインターフェースを表示している間に、第８ユーザ入力を検出することと、
前記第８ユーザ入力を検出したことに応じて、前記第３のユーザインターフェースを表示するのを中止することと、
を更に含み、前記表示されたコンテンツがメディアコンテンツであり、前記第４ユーザ入力を検出したことに応じて前記電子デバイス上における前記メディアコンテンツの再生が一時停止され、前記第８ユーザ入力を検出したことに応じて前記電子デバイス上における前記メディアコンテンツの再生が再開される、請求項１７から２７のいずれか一項に記載の方法。
非言語入力形式である前記第１の入力形式が、ボタンを押下することを含む、請求項１から２８のいずれか一項に記載の方法。
前記ディスプレイ上に、前記表示されたコンテンツにコンテクスト上関連する複数の例示的な自然言語要求を表示することが、前記ディスプレイ上に、コンテクスト的に曖昧な用語を含む少なくとも１つの例示的な自然言語要求を表示することを含む、請求項１から２９のいずれか一項に記載の方法。
前記複数の例示的な自然言語要求は、異なる表示されたコンテンツに対して異なる例示的な自然言語要求が表示されうるように、前記表示されたコンテンツにコンテクスト上関連する、請求項１から３０のいずれか一項に記載の方法。
前記第１ユーザ入力が第１の入力形式に対応するとの判定に従って、
前記ディスプレイ上に、前記複数の例示的な自然言語要求と一緒に受動的視覚的インジケータを同時に表示することを更に含む、請求項１から３１のいずれか一項に記載の方法。
メディアシステムのデジタルアシスタントに、
表示ユニット上にコンテンツを表示する機能と、
第２の電子デバイス上に表示されたオブジェクトの選択に対応する第１ユーザ入力を検出する機能と、
前記第１ユーザ入力が第１の入力形式に対応するかどうかを判定する機能であって、前記第１の入力形式は非言語入力形式を含む、機能と、
前記第１ユーザ入力が第１の入力形式に対応するとの判定に従って、
前記表示ユニット上に、前記表示されたコンテンツにコンテクスト上関連する複数の例示的な自然言語要求を表示する機能と、
前記第２の電子デバイス上に表示された前記オブジェクトの選択に対応する第２ユーザ入力に応じて、サンプリングされた音声データがユーザ要求を含むか否かを判定する機能であって、前記第１ユーザ入力は、前記第２ユーザ入力とは異なる、機能と、
を実現させるためのコンピュータプログラム。
デジタルアシスタントを動作させるためのシステムであって、前記システムは、
ディスプレイ上にコンテンツを表示する手段と、
第２の電子デバイス上に表示されたオブジェクトの選択に対応する第１ユーザ入力を検出する手段と、
前記第１ユーザ入力が第１の入力形式に対応するかどうかを判定する手段であって、前記第１の入力形式は非言語入力形式を含む、手段と、
前記第１ユーザ入力が第１の入力形式に対応するとの判定に従って、
前記ディスプレイ上に、前記表示されたコンテンツにコンテクスト上関連する複数の例示的な自然言語要求を表示し、前記第２の電子デバイス上に表示された前記オブジェクトの選択に対応する第２ユーザ入力に応じて、サンプリングされた音声データがユーザ要求を含むか否かを判定する手段であって、前記第１ユーザ入力は、前記第２ユーザ入力とは異なる、手段と、
を備える、システム。