JP7430279B2

JP7430279B2 - デジタルアシスタントユーザインタフェース及び応答モード

Info

Publication number: JP7430279B2
Application number: JP2022571288A
Authority: JP
Inventors: ニールエリス，; オルワトミワビー．アラビ，; ピーターチャールズボハーチェ，; ロバートバートン，; リチャードアール．デリンジャー，; トーマスアール．ファシオ，; クレイグエム．フェデリギ，; ケニスアーサーアブラハムフェリー，; レベッカピー．フィッシュ，; ニクロフゴトビ，; スウェタグランプロイト，; ジェイムズエヌ．ジョーンズ，; 家幸川島; スティーブンオー．ルメイ，; テイラーシー．ルペック，; ペドロマリ，; アーロンムセンゴ，; デビッドモーリスパダワー，; ジェームズイー．パルマ―，; パチャヤビー．セイラウドム，
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-05-22
Filing date: 2021-04-16
Publication date: 2024-02-09
Anticipated expiration: 2041-04-16
Also published as: AU2021275662A1; WO2021236270A1; JP2023526859A; EP3913475A1; US20210365161A1; AU2021275662B2; US20210365174A1; KR20230015413A

Description

関連出願の相互参照
本出願は、「ＤＩＧＩＴＡＬＡＳＳＩＳＴＡＮＴＵＳＥＲＩＮＴＥＲＦＡＣＥＳＡＮＤＲＥＳＰＯＮＳＥＭＯＤＥＳ」と題する２０２１年４月９日に出願された米国特許出願第１７／２２７，０１２号、「ＤＩＧＩＴＡＬＡＳＳＩＳＴＡＮＴＵＳＥＲＩＮＴＥＲＦＡＣＥＳＡＮＤＲＥＳＰＯＮＳＥＭＯＤＥＳ」と題する２０２０年５月２２日に出願された米国仮特許出願第６３／０２８，８２１号、「ＤＩＧＩＴＡＬＡＳＳＩＳＴＡＮＴＵＳＥＲＩＮＴＥＲＦＡＣＥＳＡＮＤＲＥＳＰＯＮＳＥＭＯＤＥＳ」と題する２０２０年８月２４日に出願されたデンマーク特許出願第ＰＡ２０２０７０５４７号、及び「ＤＩＧＩＴＡＬＡＳＳＩＳＴＡＮＴＵＳＥＲＩＮＴＥＲＦＡＣＥＳＡＮＤＲＥＳＰＯＮＳＥＭＯＤＥＳ」と題する２０２０年８月２４日に出願されたデンマーク特許出願第ＰＡ２０２０７０５４８号の優先権を主張する。これらの出願の各々の全内容は、それらの全体が参照により本明細書に組み込まれる。

これは、一般に、インテリジェントな自動アシスタントに関し、より具体的には、インテリジェントな自動アシスタントのためのユーザインタフェース、及びインテリジェントな自動アシスタントがユーザ要求に応答することができる方法に関する。

インテリジェント自動アシスタント（又は、デジタルアシスタント）は、人間のユーザと電子デバイスとの間の有益なインタフェースを提供することができる。そのようなアシスタントにより、ユーザは、発語形式及び／又はテキスト形式の自然言語を使用して、デバイス又はシステムと対話することが可能となり得る。例えば、ユーザは、電子デバイス上で動作しているデジタルアシスタントに、ユーザ要求を含む発語入力を提供することができる。デジタルアシスタントは、発話入力からユーザの意図を解釈し、ユーザの意図をタスクに動作可能にすることができる。次いで、タスクは、電子デバイスの１つ以上のサービスを実行することによって実行され、ユーザ要求への関連出力応答をユーザに戻すことができる。

デジタルアシスタントの表示されたユーザインタフェースは、ユーザが関心を持つ可能性がある他の表示された要素を隠すことがある。更に、デジタルアシスタントは、ユーザの現在の状況にとって望ましくない形式で応答を提供することがある。例えば、デジタルアシスタントは、ユーザがデバイスディスプレイを閲覧したくない（又は閲覧することができない）ときに表示出力を提供することがある。

例示的な方法を本明細書に開示する。例示的な方法は、ディスプレイ及びタッチ感知面を有する電子デバイスにおいて、デジタルアシスタントユーザインタフェースとは異なるユーザインタフェースを表示している間に、ユーザ入力を受信することと、ユーザ入力がデジタルアシスタントを開始するための基準を満たすとの判定に従って、ユーザインタフェース上に、デジタルアシスタントユーザインタフェースを表示することであって、デジタルアシスタントユーザインタフェースが、ディスプレイの第１の部分に表示されるデジタルアシスタントインジケータと、ディスプレイの第２の部分に表示される応答アフォーダンスとを含み、ユーザインタフェースの一部が、ディスプレイの第３の部分に見えるままであり、第３の部分が第１の部分と第２の部分との間にある、ことと、を含む。

例示的な非一時的コンピュータ可読媒体が、本明細書で開示される。例示的な非一時的コンピュータ可読記憶媒体は、１つ以上のプログラムを記憶している。１つ以上のプログラムは、ディスプレイ及びタッチ感知面を有する電子デバイスの１つ以上のプロセッサによって実行されると、電子デバイスに、デジタルアシスタントユーザインタフェースとは異なるユーザインタフェースを表示している間に、ユーザ入力を受信させ、ユーザ入力がデジタルアシスタントを開始するための基準を満たすとの判定に従って、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示させることであって、デジタルアシスタントユーザインタフェースが、ディスプレイの第１の部分に表示されるデジタルアシスタントインジケータと、ディスプレイの第２の部分に表示される応答アフォーダンスとを含み、ユーザインタフェースの一部がディスプレイの第３の部分に見えるままであり、第３の部分が第１の部分と第２の部分との間にある、デジタルアシスタントユーザインタフェースを表示させる、命令を含む。

例示的な電子デバイスが本明細書に開示されている。例示的な電子デバイスは、ディスプレイと、タッチ感知面と、１つ以上のプロセッサと、メモリと、１つ以上のプログラムと、を備え、１つ以上のプログラムは、メモリに記憶され、１つ以上のプロセッサによって実行されるように構成されており、１つ以上のプログラムが、デジタルアシスタントユーザインタフェースとは異なるユーザインタフェースを表示している間に、ユーザ入力を受信し、ユーザ入力がデジタルアシスタントを開始するための基準を満たすとの判定に従って、ユーザインタフェース上に、デジタルアシスタントユーザインタフェースを表示することであって、デジタルアシスタントユーザインタフェースが、ディスプレイの第１の部分に表示されるデジタルアシスタントインジケータと、ディスプレイの第２の部分に表示される応答アフォーダンスとを含み、ユーザインタフェースの一部がディスプレイの第３の部分に見えるままであり、第３の部分が第１の部分と第２の部分との間にある、ことと、を行うための命令を含む。

例示的な電子デバイスは、デジタルアシスタントユーザインタフェースとは異なるユーザインタフェースを表示している間に、ユーザ入力を受信する手段と、ユーザ入力がデジタルアシスタントを開始するための基準を満たすとの判定に従って、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示することであって、デジタルアシスタントユーザインタフェースが、ディスプレイの第１の部分に表示されるデジタルアシスタントインジケータと、ディスプレイの第２の部分に表示される応答アフォーダンスとを含み、ユーザインタフェースの一部が、ディスプレイの第３の部分に見えるままであり、第３の部分が第１の部分と第２の部分との間にある、ことと、を含む。

ユーザインタフェースの一部分がディスプレイの一部で見えるままである、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示することは、デジタルアシスタントの有用性を改善し、デジタルアシスタントの視覚的混乱をユーザデバイスの相互作用に低減することができる。例えば、下層に見えるユーザインタフェースに含まれる情報は、ユーザがデジタルアシスタントへの要求をより良好に配合することを可能にすることができる。別の例として、そのような方法でユーザインタフェースを表示することは、デジタルアシスタントユーザインタフェースの要素と下層のユーザインタフェースとの間の相互作用（例えば、下層のメッセージングユーザインタフェースのメッセージ内のデジタルアシスタント応答を含む）を容易にすることができる。更に、デジタルアシスタントユーザインタフェースと下層のユーザインタフェースとの双方をディスプレイ上に共存させることにより、双方のユーザインタフェースとの同時のユーザ相互作用を可能にし、それにより、デジタルアシスタントをユーザとデバイスとの双方により良好に統合することができる。このようにして、ユーザデバイスインタフェースは、（例えば、デジタルアシスタントがユーザが要求したタスクをより正確且つ効率的に実行できるようにすることにより、デジタルアシスタントの視覚的混乱をユーザが見ているものまで低減することにより、所望に応じてデバイスを操作するのに必要なユーザ入力の数を低減することにより）より効率的とすることができ、これは、ユーザがデバイスをより迅速且つ効率的に使用することを可能にすることによって、電力使用量を更に削減し、デバイスのバッテリ寿命を改善する。

例示的な方法を本明細書に開示する。例示的な方法は、ディスプレイ及びタッチ感知面を有する電子デバイスにおいて、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示することであって、デジタルアシスタントユーザインタフェースが、ディスプレイの第１の部分に表示されるデジタルアシスタントインジケータと、ディスプレイの第２の部分に表示される応答アフォーダンスと、を含む、ことと、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示している間に、ディスプレイの第３の部分の選択に対応するユーザ入力を受信することであって、第３の部分がユーザインタフェースの一部を表示する、ことと、ユーザ入力が第１の種類の入力に対応するという判定に従って、デジタルアシスタントインジケータ及び応答アフォーダンスの表示を停止することと、ユーザ入力が第１の種類の入力とは異なる第２の種類の入力に対応するという判定に従って、第２の部分に応答アフォーダンスを表示している間に、ユーザ入力に従って第３の部分におけるユーザインタフェースの表示を更新することと、を含む。

例示的な非一時的コンピュータ可読媒体が、本明細書で開示される。例示的な非一時的コンピュータ可読記憶媒体は、１つ以上のプログラムを記憶している。１つ以上のプログラムは命令を含み、命令は、ディスプレイ及びタッチ感知面を有する電子デバイスの１つ以上のプロセッサによって実行されると、電子デバイスに、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示させることであって、ディスプレイの第１の部分に表示されるデジタルアシスタントインジケータと、ディスプレイの第２の部分に表示される応答アフォーダンスと、を含む、デジタルアシスタントユーザインタフェースを表示させ、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示している間に、ディスプレイの第３の部分の選択に対応するユーザ入力を受信させることであって、第３の部分がユーザインタフェースの一部を表示する、ユーザ入力を受信させ、ユーザ入力が第１の種類の入力に対応するという判定に従って、デジタルアシスタントインジケータ及び応答アフォーダンスの表示を停止させ、ユーザ入力が第１の種類の入力とは異なる第２の種類の入力に対応するという判定に従って、第２の部分に応答アフォーダンスを表示している間に、ユーザ入力に従って第３の部分におけるユーザインタフェースの表示を更新させる。

例示的な電子デバイスが本明細書に開示されている。例示的な電子デバイスは、ディスプレイと、タッチ感知面と、１つ以上のプロセッサと、メモリと、１つ以上のプログラムであって、１つ以上のプログラムがメモリに記憶され、１つ以上のプロセッサによって実行されるように構成されており、１つ以上のプログラムが、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示することであって、デジタルアシスタントユーザインタフェースが、ディスプレイの第１の部分に表示されるデジタルアシスタントインジケータと、ディスプレイの第２の部分に表示される応答アフォーダンスと、を含む、ことと、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示している間に、ディスプレイの第３の部分の選択に対応するユーザ入力を受信することであって、第３の部分がユーザインタフェースの一部を表示する、ことと、ユーザ入力が第１の種類の入力に対応するという判定に従って、デジタルアシスタントインジケータ及び応答アフォーダンスの表示を停止することと、ユーザ入力が第１の種類の入力とは異なる第２の種類の入力に対応するという判定に従って、第２の部分に応答アフォーダンスを表示している間に、ユーザ入力に従って第３の部分におけるユーザインタフェースの表示を更新することと、を行うための命令を含む。

例示的な電子デバイスは、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示する手段であって、デジタルアシスタントユーザインタフェースが、ディスプレイの第１の部分に表示されるデジタルアシスタントインジケータと、ディスプレイの第２の部分に表示される応答アフォーダンスと、を含む、表示する手段と、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示している間に、ディスプレイの第３の部分の選択に対応するユーザ入力を受信することであって、第３の部分がユーザインタフェースの一部を表示する、ことと、ユーザ入力が第１の種類の入力に対応するという判定に従って、デジタルアシスタントインジケータ及び応答アフォーダンスの表示を停止することと、ユーザ入力が第１の種類の入力とは異なる第２の種類の入力に対応するという判定に従って、第２の部分に応答アフォーダンスを表示している間に、ユーザ入力に従って第３の部分におけるユーザインタフェースの表示を更新することと、を含む。

ユーザ入力が第１の種類の入力に対応するという判定に従って、デジタルアシスタントインジケータ及び応答アフォーダンスの表示を停止することは、デジタルアシスタントを閉じる直感的で効率的な方法を提供することができる。例えば、ユーザは、デジタルアシスタントユーザインタフェースを閉じるために下層のユーザインタフェースを選択する入力を単に提供することができ、それにより、ユーザとデバイスとの相互作用に対するデジタルアシスタントの混乱を低減する。応答アフォーダンスを第２の部分に表示している間に、ユーザ入力に従って第３の部分におけるユーザインタフェースの表示を更新することは、デジタルアシスタントユーザインタフェースが下層のユーザインタフェースと共存するための直感的な方法を提供する。例えば、ユーザは、下層のユーザインタフェースを選択する入力を提供して、デジタルアシスタントユーザインタフェースが表示されていないかのように、下層のユーザインタフェースを更新させることができる。更に、下層のユーザインタフェースとのユーザ相互作用を可能にしながら、デジタルアシスタントユーザインタフェース（ユーザの関心情報を含むことができる）を保持することにより、下層のユーザインタフェースに対するデジタルアシスタントの混乱を低減することができる。このようにして、ユーザデバイスインタフェースは、（例えば、デジタルアシスタントユーザインタフェースが表示されている間にユーザ入力が基礎となるユーザインタフェースと相互作用することを可能にすることにより、ユーザが見ているものに対するデジタルアシスタントの視覚的混乱を低減することにより、所望に応じてデバイスを操作するのに必要なユーザ入力の数を低減することにより）より効率的とすることができ、これは、ユーザがデバイスをより迅速且つ効率的に使用することを可能にすることによって、電力使用量を更に削減し、デバイスのバッテリ寿命を改善する。

例示的な方法を本明細書に開示する。例示的な方法は、１つ以上のプロセッサ、メモリ、及びディスプレイを有する電子デバイスにおいて、自然言語入力を受信することと、デジタルアシスタントを開始することと、デジタルアシスタントを開始することに従って、自然言語入力に応答して応答パッケージを取得することと、自然言語入力を受信した後、電子デバイスと関連付けられたコンテキスト情報に基づいて、複数のデジタルアシスタント応答モードからのデジタルアシスタントの第１の応答モードを選択することと、第１の応答モードを選択したことに応答して、第１の応答モードに従って応答パッケージをデジタルアシスタントによって提示することと、を含む。

例示的な非一時的コンピュータ可読媒体が、本明細書で開示される。例示的な非一時的コンピュータ可読記憶媒体は、１つ以上のプログラムを記憶している。１つ以上のプログラムは、命令を含み、命令は、電子デバイスの１つ以上のプロセッサによって実行されると、電子デバイスに、自然言語入力を受信させ、デジタルアシスタントを開始させ、デジタルアシスタントを開始することに従って、自然言語入力に応答して応答パッケージを取得させ、自然言語入力を受信した後、電子デバイスと関連付けられたコンテキスト情報に基づいて、複数のデジタルアシスタント応答モードからのデジタルアシスタントの第１の応答モードを選択させ、第１の応答モードを選択したことに応答して、第１の応答モードに従って応答パッケージを提示させる。

例示的な電子デバイスが本明細書に開示されている。例示的な電子デバイスは、ディスプレイと、１つ以上のプロセッサと、メモリと、１つ以上のプログラムと、を備え、１つ以上のプログラムは、メモリに記憶され、１つ以上のプロセッサによって実行されるように構成されており、１つ以上のプログラムは、自然言語入力を受信し、デジタルアシスタントを開始することと、デジタルアシスタントを開始することに従って、自然言語入力に応答して応答パッケージを取得することと、自然言語入力を受信した後、電子デバイスと関連付けられたコンテキスト情報に基づいて、複数のデジタルアシスタント応答モードからのデジタルアシスタントの第１の応答モードを選択することと、第１の応答モードを選択したことに応答して、第１の応答モードに従って応答パッケージをデジタルアシスタントによって提示することと、を含む。

例示的な電子デバイスは、自然言語入力を受信する手段と、デジタルアシスタントを開始することと、デジタルアシスタントを開始することに従って、自然言語入力に応答して応答パッケージを取得することと、自然言語入力を受信した後、電子デバイスと関連付けられたコンテキスト情報に基づいて、複数のデジタルアシスタント応答モードからのデジタルアシスタントの第１の応答モードを選択することと、第１の応答モードを選択したことに応答して、第１の応答モードに従って応答パッケージをデジタルアシスタントによって提示することと、を含む。

デジタルアシスタントによって、第１の応答モードに従って応答パッケージを提示することは、ユーザの現在のコンテキストに適切な有益な様式でデジタルアシスタント応答の提示を可能にすることができる。例えば、デジタルアシスタントは、ユーザの現在のコンテキストが視覚的ユーザデバイスの相互作用が望ましくない（又は不可能）ことを示す場合、音声形式で応答を提示することができる。別の例として、デジタルアシスタントは、ユーザの現在のコンテキストが可聴ユーザデバイスの相互作用が望ましくないことを示すときに、視覚的形式で応答を提示することができる。更に別の例として、デジタルアシスタントは、ユーザの現在のコンテキストが可聴及び視覚的ユーザデバイスの相互作用の双方が所望されることを示すときに、視覚的構成要素及び簡潔な音声構成要素を有する応答を提示することができ、それによってデジタルアシスタントの音声出力の長さを低減する。更に、自然言語入力を受信した後に（及び応答パッケージを提示する前に）第１の応答モードを選択することは、ユーザの現在のコンテキストのより正確な判定（従って、適切な応答モードのより正確な判定）を可能にすることができる。このようにして、ユーザデバイスインタフェースは、（例えば、デジタルアシスタントの視覚的混乱を低減することにより、有益な方法で応答を効率的に提示することにより、ユーザの現在のコンテキストに基づいて応答の方法をインテリジェントに適合させることにより）より効率的且つ安全とすることができ、ユーザがデバイスをより迅速且つ効率的に使用することを可能にすることによって、電力使用量を更に削減し、デバイスのバッテリ寿命を改善する。

様々な実施例による、デジタルアシスタントを実装するためのシステム及び環境を示すブロック図である。

様々な実施例による、デジタルアシスタントのクライアント側部分を実装するポータブル多機能デバイスを示すブロック図である。

様々な実施例による、イベント処理のための例示的な構成要素を示すブロック図である。

様々な実施例による、デジタルアシスタントのクライアント側部分を実装するポータブル多機能デバイスを示す図である。

様々な実施例による、ディスプレイ及びタッチ感知面を有する例示的な多機能デバイスのブロック図である。

様々な実施例による、ポータブル多機能デバイス上のアプリケーションのメニューに関する、例示的なユーザインタフェースを示す図である。

様々な実施例による、ディスプレイとは別個のタッチ感知面を有する多機能デバイスに関する、例示的なユーザインタフェースを示す図である。

様々な実施例による、パーソナル電子デバイスを示す図である。

様々な実施例による、パーソナル電子デバイスを示すブロック図である。

様々な実施例による、デジタルアシスタントシステム又はそのサーバ部分を示すブロック図である。

様々な実施例による、図７Ａに示されるデジタルアシスタントの機能を示す図である。

様々な実施例による、オントロジの一部分を示す図である。

様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。

様々な実施例による、どのデバイスが発話入力に応答するべきかを決定する複数のデバイスを示す。様々な実施例による、どのデバイスが発話入力に応答するべきかを決定する複数のデバイスを示す。様々な実施例による、どのデバイスが発話入力に応答するべきかを決定する複数のデバイスを示す。

様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。

様々な実施例による、デジタルアシスタント応答モードを選択し、選択されたデジタルアシスタント応答モードに従って応答を提示するためのシステムを示す。

様々な実施例による、異なるデジタルアシスタント応答モードに従って自然言語入力を受信した応答を提示するデバイスを示す。

様々な実施例による、デジタルアシスタント応答モードを選択するために実装される例示的なプロセスを示す。

様々な実施例による、ユーザが車両にいる（例えば、運転している）と判定されたときに、音声応答モードに従って応答を提示するデバイスを示す。

様々な実施例による、デバイスがナビゲーションアプリケーションを実行しているときに音声応答モードに従って応答を提示するデバイスを示す。

様々な実施例による、マルチターンＤＡ相互作用の過程にわたる応答モード変動を示す。

様々な実施例による、デジタルアシスタントを動作させるためのプロセスを示す。様々な実施例による、デジタルアシスタントを動作させるためのプロセスを示す。様々な実施例による、デジタルアシスタントを動作させるためのプロセスを示す。様々な実施例による、デジタルアシスタントを動作させるためのプロセスを示す。様々な実施例による、デジタルアシスタントを動作させるためのプロセスを示す。様々な実施例による、デジタルアシスタントを動作させるためのプロセスを示す。

様々な実施例による、デジタルアシスタントを動作させるためのプロセスを示す。様々な実施例による、デジタルアシスタントを動作させるためのプロセスを示す。

様々な実施例による、デジタルアシスタント応答モードを選択するためのプロセスを示す。様々な実施例による、デジタルアシスタント応答モードを選択するためのプロセスを示す。様々な実施例による、デジタルアシスタント応答モードを選択するためのプロセスを示す。様々な実施例による、デジタルアシスタント応答モードを選択するためのプロセスを示す。様々な実施例による、デジタルアシスタント応答モードを選択するためのプロセスを示す。

以下の実施例の説明では、実践することが可能な特定の実施例が例として示される、添付図面を参照する。それら様々な実施例の範囲から逸脱することなく、他の実施例を使用することができ、構造上の変更を実施することができる点を理解されたい。

以下の説明では、様々な要素について説明するために、「第１の」、「第２の」などの用語を使用するが、これらの要素は、それらの用語によって限定されるべきではない。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、説明される様々な実施例の範囲から逸脱することなく、第１の入力を第２の入力と呼ぶことが可能であり、同様に、第２の入力を第１の入力と呼ぶことも可能である。第１の入力及び第２の入力は、双方とも入力であり、一部の場合には、別個の異なる入力である。

本明細書で説明される様々な実施例の説明で使用される用語法は、特定の実施例を説明することのみを目的とするものであって、限定することを意図するものではない。説明される様々な実施例の説明、及び添付の特許請求の範囲で使用するとき、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈がそうではないことを明確に示さない限り、複数形もまた含むことが意図される。また、本明細書で使用されるとき、用語「及び／又は」は、関連する列挙された項目のうちの１つ以上のいずれか及び全ての考えられる組み合わせを指し、かつこれを含むことを理解されたい。用語「ｉｎｃｌｕｄｅｓ（含む）」、「ｉｎｃｌｕｄｉｎｇ（含む）」、「ｃｏｍｐｒｉｓｅｓ（含む、備える）」、及び／又は「ｃｏｍｐｒｉｓｉｎｇ（含む、備える）」は、本明細書で使用する場合、述べられた特徴、整数、ステップ、動作、要素、及び／又は構成要素の存在を指定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、及び／又はそれらのグループの存在又は追加を除外しないことが更に理解されるであろう。

用語「ｉｆ（～の場合には）」は、文脈に応じて、「ｗｈｅｎ（～のとき）」若しくは「ｕｐｏｎ（～すると）」、又は「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ（～という判定に応答して）」、若しくは「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ（～の検出に応答して）」を意味するものと解釈することができる。同様に、句「ｉｆｉｔｉｓｄｅｔｅｒｍｉｎｅｄ（～と判定される場合には）」又は「ｉｆ［ａｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］ｉｓｄｅｔｅｃｔｅｄ（［記述される条件又はイベント］が検出される場合には）」は、文脈に応じて、「ｕｐｏｎｄｅｔｅｒｍｉｎｉｎｇ（～と判定すると）」、若しくは「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ（～という判定に応じて）」、又は「ｕｐｏｎｄｅｔｅｃｔｉｎｇ［ｔｈｅｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］（［記述される条件又はイベント］を検出すると）」、若しくは「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ［ｔｈｅｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］（［記述される条件又はイベント］の検出に応じて）」を意味するものと解釈することができる。
１．システム及び環境

図１は、様々な実施例による、システム１００のブロック図を示す。一部の実施例では、システム１００は、デジタルアシスタントを実装する。用語「デジタルアシスタント」、「仮想アシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、発語形式及び／又はテキスト形式の自然言語入力を解釈することによりユーザ意図を推測して、その推測されたユーザ意図に基づいてアクションを実行する、任意の情報処理システムを指す。例えば、推測されたユーザ意図に基づいて動作するために、システムは、以下のことのうちの１つ以上を実行する：推測されたユーザ意図を果たすように設計されたステップ及びパラメータを有するタスクフローを特定すること、推測されたユーザ意図からの特定の要求事項をタスクフロー内に入力すること、プログラム、方法、サービス、ＡＰＩ、若しくは同様のものを呼び出すことによってタスクフローを実行すること、並びに可聴（例えば、発語）及び／又は視覚形式のユーザへの出力応答を生成すること。

具体的には、デジタルアシスタントは、少なくとも部分的に、自然言語によるコマンド、要求、意見、談話、及び／又は照会の形態で、ユーザ要求を受け入れることが可能である。典型的には、ユーザ要求は、デジタルアシスタントによる情報回答又はタスクの実行のいずれかを求めるものである。ユーザ要求に対する満足な応答は、要求された情報回答の提供、要求されたタスクの実行、又は、それら２つの組み合わせを含む。例えば、ユーザは、デジタルアシスタントに、「私は今どこにいますか？（Where am I right now？）」などの質問をする。ユーザの現在位置に基づいて、デジタルアシスタントは、「あなたは西ゲート付近の中央公園にいます」と応答する。ユーザはまた、例えば、「私の友人を、来週の私のガールフレンドの誕生日パーティーに招待してください。」のように、タスクの実行も要求する。それに応じて、デジタルアシスタントは、「はい、ただ今。」と述べて、その要求に肯定応答することができ、次いで、そのユーザの電子アドレス帳にリストされているユーザの友人のそれぞれに、ユーザに代わって、好適なカレンダー招待状を送信することができる。要求されたタスクの実施中に、デジタルアシスタントは、長時間にわたる複数の情報交換を伴う連続的な会話で、ユーザと対話する場合がある。情報又は様々なタスクの実行を要求するためにデジタルアシスタントと対話する、数多くの他の方法が存在する。言葉による応答を提供してプログラムされたアクションを取ることに加えて、デジタルアシスタントはまた、他の視覚形式又は音声形式で、例えば、テキスト、警報、音楽、動画、アニメーションなどで応答を提供する。

図１に示すように、一部の実施例では、デジタルアシスタントは、クライアント－サーバモデルに従って実装される。デジタルアシスタントは、ユーザデバイス１０４上で実行されるクライアント側部分１０２（以後、「ＤＡクライアント１０２」）、及びサーバシステム１０８上で実行されるサーバ側部分１０６（以後、「ＤＡサーバ１０６」）を含む。ＤＡクライアント１０２は、１つ以上のネットワーク１１０を通じてＤＡサーバ１０６と通信する。ＤＡクライアント１０２は、ユーザ対応入力及び出力処理、並びにＤＡサーバ１０６との通信などの、クライアント側機能を提供する。ＤＡサーバ１０６は、各ユーザデバイス１０４上にそれぞれが常駐する、任意の数のＤＡクライアント１０２に、サーバ側機能を提供する。

一部の実施例では、ＤＡサーバ１０６は、クライアント対応Ｉ／Ｏインタフェース１１２、１つ以上の処理モジュール１１４、データ及びモデル１１６、並びに、外部サービスへのＩ／Ｏインタフェース１１８を含む。クライアント対応Ｉ／Ｏインタフェース１１２は、ＤＡサーバ１０６のクライアント対応入力及び出力処理を容易にする。１つ以上の処理モジュール１１４は、データ及びモデル１１６を利用して、発話入力を処理し、自然言語入力に基づいてユーザの意図を判定する。更には、１つ以上の処理モジュール１１４は、タスク実行を、推測されたユーザ意図に基づいて実施する。一部の実施例では、ＤＡサーバ１０６は、タスクの完了又は情報の取得のために、ネットワーク（単数又は複数）１１０を通じて外部サービス１２０と通信する。外部サービスへのＩ／Ｏインタフェース１１８は、そのような通信を容易にする。

ユーザデバイス１０４は、任意の好適な電子デバイスとすることができる。一部の実施例では、ユーザデバイス１０４は、ポータブル多機能デバイス（例えば、図２Ａに関連して以下に記載されるデバイス２００）、多機能デバイス（例えば、図４に関連して以下に記載されるデバイス４００）、又はパーソナル電子デバイス（例えば、図６Ａ～図６Ｂに関連して以下に記載されるデバイス６００）である。ポータブル多機能デバイスは、例えば、ＰＤＡ及び／又は音楽プレーヤ機能などの他の機能も含む携帯電話機である。ポータブル多機能デバイスの具体例としては、ＡｐｐｌｅＩｎｃ．（Ｃｕｐｅｒｔｉｎｏ，Ｃａｌｉｆｏｒｎｉａ）による、ＡｐｐｌｅＷａｔｃｈ（登録商標）、ｉＰｈｏｎｅ（登録商標）、ｉＰｏｄＴｏｕｃｈ（登録商標）、及びｉＰａｄ（登録商標）デバイスが挙げられる。ポータブル多機能デバイスの他の例としては、限定するものではないが、イヤホン／ヘッドホン、スピーカ、及び、ラップトップコンピュータ若しくはタブレットコンピュータが挙げられる。更に、一部の実施例では、ユーザデバイス１０４は、非ポータブル多機能デバイスである。具体的には、ユーザデバイス１０４は、デスクトップコンピュータ、ゲームコンソール、スピーカ、テレビ、又はテレビセットトップボックスである。一部の実施例では、ユーザデバイス１０４は、タッチ感知面（例えば、タッチスクリーンディスプレイ及び／又はタッチパッド）を含む。更に、ユーザデバイス１０４は、任意選択的に、物理キーボード、マウス、及び／又はジョイスティックなどの、１つ以上の他の物理ユーザインタフェースデバイスを含む。多機能デバイスなどの電子デバイスの様々な実施例が、以下で更に詳細に説明される。

通信ネットワーク（単数又は複数）１１０の例としては、ローカルエリアネットワーク（local area network；ＬＡＮ）、及びワイドエリアネットワーク（wide area network；ＷＡＮ）、例えば、インターネットが挙げられる。通信ネットワーク（単数又は複数）１１０は、例えば、イーサネット、ユニバーサルシリアルバス（Universal Serial Bus；ＵＳＢ）、ＦＩＲＥＷＩＲＥ（登録商標）、移動通信用のグローバルシステム（Global System for Mobile Communications；ＧＳＭ）、拡張データＧＳＭ環境（Enhanced Data GSM Environment；ＥＤＧＥ）、符号分割多元接続（code division multiple access；ＣＤＭＡ）、時分割多元接続（time division multiple access；ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）、ボイスオーバーインターネットプロトコル（voice over Internet Protocol；ＶｏＩＰ）、Ｗｉ－ＭＡＸ、又は任意の他の好適な通信プロトコルなどの、様々な有線若しくは無線プロトコルを含めた、任意の既知のネットワークプロトコルを使用して実装される。

サーバシステム１０８は、１つ以上のスタンドアロン型データ処理装置、又は分散型のコンピュータネットワーク上に実装される。一部の実施例では、サーバシステム１０８はまた、サーバシステム１０８の基本的なコンピューティングリソース及び／又はインフラストラクチャリソースを提供するために、様々な仮想デバイス及び／又は第三者サービスプロバイダ（例えば、第三者クラウドサービスプロバイダ）のサービスも採用する。

一部の実施例では、ユーザデバイス１０４は、第２のユーザデバイス１２２を介してＤＡサーバ１０６と通信する。第２のユーザデバイス１２２は、ユーザデバイス１０４と類似又は同一である。例えば、第２のユーザデバイス１２２は、図２Ａ、図４、及び図６Ａ～図６Ｂに関連して以下で説明されるデバイス２００、４００、又は６００と類似する。ユーザデバイス１０４は、Ｂｌｕｅｔｏｏｔｈ、ＮＦＣ、ＢＴＬＥなどの直接通信接続を介して、又はローカルＷｉ－Ｆｉネットワークなどの有線又は無線ネットワークを介して第２のユーザデバイス１２２に通信可能に結合されるように構成される。一部の実施例では、第２のユーザデバイス１２２は、ユーザデバイス１０４とＤＡサーバ１０６との間のプロキシとしての役割を果たすように構成されている。例えば、ユーザデバイス１０４のＤＡクライアント１０２は、第２のユーザデバイス１２２を介して、情報（例えば、ユーザデバイス１０４で受信されたユーザ要求）をＤＡサーバ１０６に送信するように構成されている。ＤＡサーバ１０６は、情報を処理して、第２のユーザデバイス１２２を介して、関連データ（例えば、ユーザ要求に応答するデータコンテンツ）をユーザデバイス１０４に返す。

一部の実施例では、ユーザデバイス１０４は、データに関する短縮化された要求により第２のユーザデバイス１２２と通信することにより、ユーザデバイス１０４から送信される情報の量を低減するように構成されている。第２のユーザデバイス１２２は、その短縮化された要求に追加するべき補足情報を判定して、ＤＡサーバ１０６に送信するための完全な要求を生成するように構成されている。このシステムアーキテクチャは、制限された通信能力及び／又は制限されたバッテリ電力を有するユーザデバイス１０４（例えば、腕時計又は類似の小型電子デバイス）が、ＤＡサーバ１０６へのプロキシとしてより高い通信能力及び／又はバッテリ電力を有する第２のユーザデバイス１２２（例えば、携帯電話、ラップトップコンピュータ、タブレットコンピュータなど）を使用することによってＤＡサーバ１０６によって提供されるサービスにアクセスすることを有利に許容することができる。図１では、２つのユーザデバイス１０４及びユーザデバイス１２２のみが示されているが、システム１００は、一部の実施例では、このプロキシ構成でＤＡサーバシステム１０６と通信するように構成された、任意の数及びタイプのユーザデバイスを含むことを理解されたい。

図１に示すデジタルアシスタントは、クライアント側部分（例えば、ＤＡクライアント１０２）とサーバ側部分（例えばＤＡサーバ１０６）の両方を含むが、いくつかの例では、デジタルアシスタントの機能は、ユーザデバイスにインストールされた独立したアプリケーションとして実装される。更には、デジタルアシスタントのクライアント部分とサーバ部分との間での機能の割り振りは、実装形態によって異なり得る。例えば、一部の実施例では、ＤＡクライアントは、ユーザ対応入力及び出力処理機能のみを提供し、デジタルアシスタントの他の全ての機能をバックエンドサーバに委ねる、シンクライアントである。
２．電子デバイス

ここで、デジタルアシスタントのクライアント側部分を実装するための、電子デバイスの実施形態に注意を向ける。図２Ａは、一部の実施形態による、タッチ感知ディスプレイシステム２１２を備えるポータブル多機能デバイス２００を示すブロック図である。タッチ感知ディスプレイ２１２は、便宜上「タッチスクリーン」と呼ばれることがあり、「タッチ感知ディスプレイシステム」として知られているか又は呼ばれることがある。デバイス２００は、メモリ２０２（任意選択的に、１つ以上のコンピュータ可読記憶媒体を含む）、メモリコントローラ２２２、１つ以上の処理ユニット（ＣＰＵ）２２０、周辺機器インタフェース２１８、ＲＦ回路２０８、オーディオ回路２１０、スピーカ２１１、マイクロフォン２１３、入出力（Ｉ／Ｏ）サブシステム２０６、他の入力コントロールデバイス２１６、及び外部ポート２２４を含む。デバイス２００は、任意選択的に、１つ以上の光センサ２６４を含む。デバイス２００は、任意選択的に、デバイス２００上の接触の強度を検出する１つ以上の接触強度センサ２６５（例えば、デバイス２００のタッチ感知ディスプレイシステム２１２などのタッチ感知面）を含む。デバイス２００は、任意選択的に、デバイス２００上で触知出力を生成する（例えばデバイス２００のタッチ感知ディスプレイシステム２１２又はデバイス４００のタッチパッド４５５などのタッチ感知面上で触知出力を生成する）１つ以上の触知出力生成器２６７を含む。これらの構成要素は、任意選択的に、１つ以上の通信バス又は信号ライン２０３を介して通信する。

本明細書及び特許請求において使用されるとき、タッチ感知面上の接触の「強度」という用語は、タッチ感知面上の接触（例えば、指の接触）の力若しくは圧力（単位面積当たりの力）、又はタッチ感知面上の接触の力若しくは圧力に対する代理（プロキシ）を指す。接触の強度は、少なくとも４つの別個の値を含み、より典型的には、数百の（例えば、少なくとも２５６の）別個の値を含む、値の範囲を有する。接触の強度は、任意選択的に、様々な手法、及び様々なセンサ又はセンサの組み合わせを使用して、判定（又は測定）される。例えば、タッチ感知面の下又はそれに隣接する１つ以上の力センサは、任意選択的に、タッチ感知面上の様々なポイントにおける力を測定するために使用される。いくつかの実装形態では、複数の力センサからの力測定値が、接触の推定される力を決定するために組み合わされる（例えば、加重平均される）。同様に、スタイラスの感圧性先端部が、任意選択的に、タッチ感知面上のスタイラスの圧力を判定するために使用される。あるいは、タッチ感知面上で検出される接触エリアのサイズ及び／若しくはその変化、接触に近接するタッチ感知面の電気容量及び／若しくはその変化、並びに／又は、接触に近接するタッチ感知面の抵抗及び／若しくはその変化が、任意選択的に、タッチ感知面上の接触の力又は圧力の代替物として使用される。一部の実装形態では、接触の力又は圧力の代替測定値が、強度閾値を上回っているかどうかを判定するために直接使用される（例えば、強度閾値は、代替測定値に対応する単位で記述される）。いくつかの実装形態では、接触力又は圧力の代理測定値は、力又は圧力の推定値に変換され、力又は圧力の推定値が、強度閾値を上回っているかどうかを判定するために使用される（例えば、強度閾値は、圧力の単位で測定される圧力閾値である）。接触の強度をユーザ入力の属性として使用することにより、アフォーダンスを表示する実装面積が限られている低減されたサイズのデバイス上で、ユーザが他の方法ではアクセス不可能であり得る追加のデバイス機能にユーザがアクセスすること（例えば、タッチ感知ディスプレイ上で）、及び／又は、ユーザ入力を受け取ること（例えば、タッチ感知ディスプレイ、タッチ感知面、又は、ノブ若しくはボタンなどの物理的／機械的コントロールを介して）が可能となる。

本明細書及び特許請求の範囲で使用されるように、用語「触知出力」は、ユーザの触覚でユーザによって検出されることになる、デバイスの従前の位置に対するそのデバイスの物理的変位、デバイスの構成要素（例えば、タッチ感知面）の、そのデバイスの別の構成要素（例えば、筐体）に対する物理的変位、又は、デバイスの質量中心に対する構成要素の変位を指す。例えば、デバイス又はデバイスの構成要素が、タッチに敏感なユーザの表面（例えば、ユーザの手の指、手のひら、又は他の部分）に接触している状況では、物理的変位によって生成された触知出力は、そのデバイス又はデバイスの構成要素の物理的特性の認識される変化に相当する触感として、ユーザによって解釈されることになる。例えば、タッチ感知面（例えば、タッチ感知ディスプレイ又はトラックパッド）の移動は、ユーザによって、物理アクチュエータボタンの「ダウンクリック」又は「アップクリック」として、任意選択的に解釈される。場合によっては、ユーザの動作により物理的に押圧された（例えば、変位された）タッチ感知面に関連付けられた物理アクチュエータボタンの移動がないときでさえ、ユーザは「ダウンクリック」又は「アップクリック」などの触感を感じる。別の例として、タッチ感知面の移動は、タッチ感知面の平滑度に変化がない場合であっても、ユーザによって、そのタッチ感知面の「粗さ」として、任意選択的に解釈又は感知される。そのようなユーザによるタッチの解釈は、ユーザの個人的な感覚認知に左右されるが、大多数のユーザに共通する、多くのタッチの感覚認知が存在する。したがって、触知出力が、ユーザの特定の感覚認知（例えば、「アップクリック」「ダウンクリック」、「粗さ」）に対応するものと記述される場合、別途記載のない限り、生成された触知出力は、典型的な（又は、平均的な）ユーザの記述された感覚認知を生成するデバイス、又はデバイスの構成要素の物理的変位に対応する。

デバイス２００は、ポータブル多機能デバイスの一例に過ぎず、デバイス２００は、任意選択的に、示されているものよりも多くの構成要素又は少ない構成要素を有するものであり、任意選択的に、２つ以上の構成要素を組み合わせるものであり、又は、任意選択的に、それらの構成要素の異なる構成若しくは配置を有するものであることを理解されたい。図２Ａに示す様々な構成要素は、１つ以上の信号処理回路及び／又は特定用途向け集積回路を含めた、ハードウェア、ソフトウェア、あるいはハードウェア及びソフトウェアの双方の組み合わせとして実装される。

メモリ２０２は、１つ以上のコンピュータ可読記憶媒体を含む。このコンピュータ可読記憶媒体は、例えば、有形かつ非一時的なものである。メモリ２０２は、高速ランダムアクセスメモリを含み、また、１つ以上の磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の不揮発性ソリッドステートメモリデバイスなどの、不揮発性メモリも含む。メモリコントローラ２２２は、デバイス２００の他の構成要素による、メモリ２０２へのアクセスを制御する。

一部の実施例では、メモリ２０２の非一時的コンピュータ可読記憶媒体は、コンピュータベースのシステム、プロセッサを含むシステムなどの、命令実行システム、装置、若しくはデバイス、又は、その命令実行システム、装置、若しくはデバイスから命令をフェッチして、その命令を実行することが可能な他のシステムによって、あるいはそれらのシステムと関連して使用するための（例えば、以下で説明されるプロセスの諸態様を実行するための）命令を、記憶するために使用される。他の例では、（例えば、以下に説明する処理の態様を実行するための）命令は、サーバシステム１０８の非一時的コンピュータ可読記憶媒体（図示せず）に記憶されるか、又は、メモリ２０２の非一時的コンピュータ可読記憶媒体とサーバシステム１０８の非一時的コンピュータ可読記憶媒体との間で分割される。

周辺機器インタフェース２１８は、このデバイスの入力及び出力周辺機器を、ＣＰＵ２２０及びメモリ２０２に結合するために使用される。１つ以上のプロセッサ２２０は、メモリ２０２に記憶された様々なソフトウェアプログラム及び／又は命令セットを動作させる又は実行して、デバイス２００のための様々な機能を実行し、データを処理する。一部の実施形態では、周辺機器インタフェース２１８、ＣＰＵ２２０、及びメモリコントローラ２２２は、チップ２０４などの単一チップ上に実装される。一部の他の実施形態では、それらは、別個のチップ上に実装される。

ＲＦ（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ、無線周波数）回路２０８は、電磁信号とも呼ばれるＲＦ信号を送受信する。ＲＦ回路２０８は、電気信号を電磁信号に又は電磁信号を電気信号に変換し、電磁信号を介して通信ネットワーク及び他の通信デバイスと通信する。ＲＦ回路２０８は、任意選択的に、これらの機能を実行するための周知の回路を含み、それらの回路としては、限定するものではないが、アンテナシステム、ＲＦ送受信機、１つ以上の増幅器、同調器、１つ以上の発振器、デジタル信号プロセッサ、ＣＯＤＥＣチップセット、加入者識別モジュール（subscriber identity module、ＳＩＭ）カード、メモリなどが挙げられる。ＲＦ回路２０８は、任意選択的に、ワールドワイドウェブ（World Wide Web、ＷＷＷ）とも呼ばれるインターネット、イントラネット、並びに／又はセルラー電話ネットワーク、無線ローカルエリアネットワーク（local area network、ＬＡＮ）及び／若しくはメトロポリタンエリアネットワーク（metropolitan area network、ＭＡＮ）などの無線ネットワークなどのネットワークと、また他のデバイスと、無線通信によって通信する。ＲＦ回路２０８は、任意選択的に、短距離通信無線機などによって近距離通信（near field communication、ＮＦＣ）フィールドを検出する周知の回路を含む。無線通信は、任意選択的に、それだけに限定されるものではないが、動き通信用のグローバルシステム（Global System for Mobile Communications、ＧＳＭ）、拡張データＧＳＭ環境（Enhanced Data GSM Environment、ＥＤＧＥ）、高速ダウンリンクパケットアクセス（high-speed downlink packet access、ＨＳＤＰＡ）、高速アップリンクパケットアクセス（high-speed uplink packet access、ＨＳＵＰＡ）、エボリューションデータオンリ（Evolution,Data-Only、ＥＶ－ＤＯ）、ＨＳＰＡ、ＨＳＰＡ＋、デュアルセルＨＳＰＡ（Dual-Cell HSPA、ＤＣ－ＨＳＰＤＡ）、ロングタームエボリューション（long term evolution、ＬＴＥ）、近距離通信（ＮＦＣ）、広帯域符号分割多元接続（wideband code division multiple access、Ｗ－ＣＤＭＡ）、符号分割多元接続（code division multiple access、ＣＤＭＡ）、時分割多元接続（time division multiple access、ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ、Ｂｌｕｅｔｏｏｔｈローエネルギ（Bluetooth Low Energy、ＢＴＬＥ（登録商標））、ワイヤレスフィデリティ（Wireless Fidelity、Ｗｉ－Ｆｉ）（例えば、ＩＥＥＥ８０２．１１ａ、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ、ＩＥＥＥ８０２．１１ｎ、及び／若しくはＩＥＥＥ８０２．１１ａｃ）、ボイスオーバーインターネットプロトコル（voice over Internet Protocol、ＶｏＩＰ）、Ｗｉ－ＭＡＸ（登録商標）、電子メール用プロトコル（例えば、インターネットメッセージアクセスプロトコル（Internet message access protocol、ＩＭＡＰ）及び／若しくはポストオフィスプロトコル（post office protocol、ＰＯＰ））、インスタントメッセージング（例えば、拡張可能なメッセージング及びプレゼンスプロトコル（extensible messaging and presence protocol、ＸＭＰＰ）、インスタントメッセージング及びプレゼンスレベレイジングエクステンションのためのセッション開始プロトコル（Session Initiation Protocol for Instant Messaging and Presence Leveraging Extensions、ＳＩＭＰＬＥ）、インスタントメッセージング及びプレゼンスサービス（Instant Messaging and Presence Service、ＩＭＰＳ））、並びに／若しくはショートメッセージサービス（Short Message Service、ＳＭＳ）、又は本明細書の出願日の時点でまだ開発されていない通信プロトコルを含む任意の他の適した通信プロトコルを含む、複数の通信規格、プロトコル、及び技術のうちのいずれかを使用する。

オーディオ回路２１０、スピーカ２１１、及びマイクロフォン２１３は、ユーザとデバイス２００との間のオーディオインタフェースを提供する。オーディオ回路２１０は、周辺機器インタフェース２１８からオーディオデータを受信し、このオーディオデータを電気信号に変換し、この電気信号をスピーカ２１１に送信する。スピーカ２１１は、電気信号を人間の可聴音波に変換する。また、オーディオ回路２１０は、マイクロフォン２１３によって音波から変換された電気信号を受信する。オーディオ回路２１０は、電気信号をオーディオデータに変換し、このオーディオデータを処理のために周辺機器インタフェース２１８に送信する。オーディオデータは、周辺機器インタフェース２１８によって、メモリ２０２及び／又はＲＦ回路２０８から取得され、並びに／あるいは、メモリ２０２及び／又はＲＦ回路２０８に送信される。一部の実施形態では、オーディオ回路２１０はまた、ヘッドセットジャック（例えば、図３の３１２）を含む。ヘッドセットジャックは、オーディオ回路２１０と、出力専用ヘッドホン又は出力（例えば片耳又は両耳用のヘッドホン）及び入力（例えばマイクロフォン）の双方を備えるヘッドセットなどの着脱可能なオーディオ入出力周辺機器との間のインタフェースを提供する。

Ｉ／Ｏサブシステム２０６は、タッチスクリーン２１２及び他の入力コントロールデバイス２１６などのデバイス２００上の入出力周辺機器を、周辺機器インタフェース２１８に結合する。Ｉ／Ｏサブシステム２０６は、任意選択的に、ディスプレイコントローラ２５６、光センサコントローラ２５８、強度センサコントローラ２５９、触覚フィードバックコントローラ２６１、及び他の入力若しくは制御デバイスのための１つ以上の入力コントローラ２６０を含む。１つ以上の入力コントローラ２６０は、他の入力コントロールデバイス２１６からの電気信号の受信／他の入力コントロールデバイスへの電気信号の送信を行う。他の入力コントロールデバイス２１６は、任意選択的に、物理ボタン（例えば、プッシュボタン、ロッカボタンなど）、ダイヤル、スライダスイッチ、ジョイスティック、クリックホイールなどを含む。いくつかの代替的な実施形態では、入力コントローラ２６０は、任意選択的に、キーボード、赤外線ポート、ＵＳＢポート、及びマウスなどのポインタデバイスのうちのいずれかに結合される（又はいずれにも結合されない）。１つ以上のボタン（例えば、図３の３０８）は、任意選択的に、スピーカ２１１及び／又はマイクロフォン２１３の音量制御のためのアップ／ダウンボタンを含む。１つ以上のボタンは、任意選択的に、プッシュボタン（例えば、図３の３０６）を含む。

プッシュボタンを素早く押圧すると、タッチスクリーン２１２のロックを解除するか、又は２００５年１２月２３日に出願された米国特許出願第１１／３２２，５４９号、米国特許第７，６５７，８４９号の「ＵｎｌｏｃｋｉｎｇａＤｅｖｉｃｅｂｙＰｅｒｆｏｒｍｉｎｇＧｅｓｔｕｒｅｓｏｎａｎＵｎｌｏｃｋＩｍａｇｅ」に記載されているように、デバイスのロック解除のためにタッチスクリーン上でジェスチャを使う処理を開始し、その全体が参照により本明細書に組み込まれる。プッシュボタン（例えば、３０６）を長く押圧すると、デバイス２００の電源をオン又はオフする。ユーザは、１つ以上のボタンの機能をカスタマイズすることができる。タッチスクリーン２１２は、仮想又はソフトボタン及び１つ以上のソフトキーボードを実装するために使用される。

タッチ感知ディスプレイ２１２は、デバイスとユーザとの間の入力インタフェース及び出力インタフェースを提供する。ディスプレイコントローラ２５６は、タッチスクリーン２１２からの電気信号の受信、及び／又はタッチスクリーンへの電気信号の送信を行う。タッチスクリーン２１２は、ユーザに対して視覚出力を表示する。視覚出力は、グラフィックス、テキスト、アイコン、動画、及びそれらの任意の組み合わせ（まとめて「グラフィックス」と呼ばれる）を含む。一部の実施形態では、視覚出力のいくつか又は全部が、ユーザインタフェースオブジェクトに対応する。

タッチスクリーン２１２は、触覚及び／又は触知接触に基づくユーザからの入力を受け入れるタッチ感知面、センサ、又はセンサのセットを有する。タッチスクリーン２１２及びディスプレイコントローラ２５６は、（メモリ２０２内の任意の関連モジュール及び／又は命令セットと共に）、タッチスクリーン２１２上で接触（及び任意の接触の移動又は中断）を検出し、検出された接触をタッチスクリーン２１２に表示されたユーザインタフェースオブジェクト（例えば、１つ以上のソフトキー、アイコン、ウェブページ、又は画像）との相互作用に変換する。例示的な実施形態では、タッチスクリーン２１２とユーザとの間の接触点は、ユーザの指に対応する。

タッチスクリーン２１２は、ＬＣＤ（液晶ディスプレイ）技術、ＬＰＤ（発光ポリマーディスプレイ）技術、又はＬＥＤ（発光ダイオード）技術を用いるが、他の実施形態では他のディスプレイ技術を使用してもよい。タッチスクリーン２１２及びディスプレイコントローラ２５６は、容量性、抵抗性、赤外線及び表面弾性波技術、並びに他の近接センサアレイ又はタッチスクリーン２１２を用いて１つ以上の接触点を判定する他の要素を含むがこれに限定されない現在知られている又は今後開発される複数のタッチ感知技術のいずれかを使用して接触及びその移動又は切断を検出する。例示的な実施形態では、カリフォルニア州クパチーノのＡｐｐｌｅＩｎｃ．からのｉＰｈｏｎｅ（登録商標）及びｉＰｏｄＴｏｕｃｈ（登録商標）に見られるものなどの、投影型相互静電容量感知技術が使用される。

タッチスクリーン２１２のいくつかの実施形態のタッチ感知ディスプレイは、米国特許６，３２３，８４６（Ｗｅｓｔｅｒｍａｎら）、６，５７０，５５７（Ｗｅｓｔｅｒｍａｎら）及び／又は６，６７７，９３２（Ｗｅｓｔｅｒｍａｎ）及び／又は米国特許公開２００２／００１５０２４（Ａ１）に記載されたマルチタッチ感知タッチパッドと類似しており、これらの各々は、参照によりその全体が本明細書に組み込まれる。しかしながら、タッチスクリーン２１２は、デバイス２００からの視覚出力を表示するのに対して、タッチ感知タッチパッドは、視覚出力を提供しない。

タッチスクリーン２１２の一部の実施形態におけるタッチ感知ディスプレイは、以下の出願、（１）２００６年５月２日出願の米国特許出願第１１／３８１，３１３号、「ＭｕｌｔｉｐｏｉｎｔＴｏｕｃｈＳｕｒｆａｃｅＣｏｎｔｒｏｌｌｅｒ」、（２）２００４年５月６日出願の米国特許出願第１０／８４０，８６２号、「ＭｕｌｔｉｐｏｉｎｔＴｏｕｃｈｓｃｒｅｅｎ」、（３）２００４年７月３０日出願の米国特許出願第１０／９０３，９６４号、「ＧｅｓｔｕｒｅｓＦｏｒＴｏｕｃｈＳｅｎｓｉｔｉｖｅＩｎｐｕｔＤｅｖｉｃｅｓ」、（４）２００５年１月３１日出願の米国特許出願第１１／０４８，２６４号、「ＧｅｓｔｕｒｅｓＦｏｒＴｏｕｃｈＳｅｎｓｉｔｉｖｅＩｎｐｕｔＤｅｖｉｃｅｓ」、（５）２００５年１月１８日出願の米国特許出願第１１／０３８，５９０号、「Ｍｏｄｅ－ＢａｓｅｄＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅｓＦｏｒＴｏｕｃｈＳｅｎｓｉｔｉｖｅＩｎｐｕｔＤｅｖｉｃｅｓ」、（６）２００５年９月１６日出願の米国特許出願第１１／２２８，７５８号、「ＶｉｒｔｕａｌＩｎｐｕｔＤｅｖｉｃｅＰｌａｃｅｍｅｎｔＯｎＡＴｏｕｃｈＳｃｒｅｅｎＵｓｅｒＩｎｔｅｒｆａｃｅ」、（７）２００５年９月１６日出願の米国特許出願第１１／２２８，７００号、「ＯｐｅｒａｔｉｏｎＯｆＡＣｏｍｐｕｔｅｒＷｉｔｈＡＴｏｕｃｈＳｃｒｅｅｎＩｎｔｅｒｆａｃｅ」、（８）２００５年９月１６日出願の米国特許出願第１１／２２８，７３７号、「ＡｃｔｉｖａｔｉｎｇＶｉｒｔｕａｌＫｅｙｓＯｆＡＴｏｕｃｈ－ＳｃｒｅｅｎＶｉｒｔｕａｌＫｅｙｂｏａｒｄ」、及び（９）２００６年３月３日出願の米国特許出願第１１／３６７，７４９号、「Ｍｕｌｔｉ－ＦｕｎｃｔｉｏｎａｌＨａｎｄ－ＨｅｌｄＤｅｖｉｃｅ」で説明されているようなものである。これらの出願は全て、全体が参照により本明細書に組み込まれる。

タッチスクリーン２１２は、例えば、１００ｄｐｉを超えるビデオ解像度を有する。いくつかの実施形態では、タッチスクリーンは、約１６０ｄｐｉの動画解像度を有する。ユーザは、スタイラス、指などの好適なオブジェクト又は付属物を使用してタッチスクリーン２１２に接触する。いくつかの実施形態では、ユーザインタフェースは、指ベースの接触及びジェスチャを主に使用して動作するように設計されるが、これは、タッチスクリーン上の指の接触面積がより大きいため、スタイラスベースの入力ほど正確でない可能性がある。いくつかの実施形態では、デバイスは、指による粗い入力を、ユーザによって所望されているアクションを実行するための、正確なポインタ／カーソルの位置又はコマンドに変換する。

一部の実施形態では、タッチスクリーンに加えて、デバイス２００は、特定の機能をアクティブにする又は非アクティブにするタッチパッド（図示しない）を含む。いくつかの実施形態では、タッチパッドは、タッチスクリーンとは異なり、視覚出力を表示しない、デバイスのタッチ感知エリアである。タッチパッドは、タッチスクリーン２１２とは別個のタッチ感知面であるか、又はタッチスクリーンによって形成されたタッチ感知面の延長である。

デバイス２００は、様々な構成要素に電力を供給する電力システム２６２も含む。電力システム２６２は、電力管理システム、１つ以上の電源（例えばバッテリ、交流（ＡＣ））、充電システム、停電検出回路、電力コンバータ又はインバータ、電力状態インジケータ（例えば、発光ダイオード（ＬＥＤ））、及びポータブルデバイスにおける電力の生成、管理及び分配に関連付けられた任意の他の構成要素を含む。

デバイス２００はまた、１つ以上の光センサ２６４を含む。図２Ａは、Ｉ／Ｏサブシステム２０６内の光センサコントローラ２５８に結合されている、光センサを示す。光センサ２６４は、電荷結合素子（charge-coupled device；ＣＣＤ）又は相補的金属酸化物半導体（complementary metal-oxide semiconductor；ＣＭＯＳ）フォトトランジスタを含む。光センサ２６４は、１つ以上のレンズを通って投影された環境からの光を受信し、その光を、画像を表すデータに変換する。撮像モジュール２４３（カメラモジュールとも呼ばれるもの）と連動して、光センサ２６４は、静止画像又はビデオをキャプチャする。一部の実施形態では、光センサは、タッチスクリーンディスプレイが静止画像及び／又は動画取得のためのビューファインダとして使用されるように、デバイスの前面のタッチスクリーンディスプレイ２１２とは反対のデバイス２００の背面に配置される。一部の実施形態では、光センサは、ユーザがタッチスクリーンディスプレイで他のテレビ会議参加者を見る間にビデオ会議のためのユーザの画像が取得されるように、デバイスの前面に配置される。一部の実施形態では、光センサ２６４の位置は、ユーザによって（例えば、デバイス筐体内でレンズ及びセンサを回転させることによって）変更されることができ、したがって単一の光センサ２６４が、タッチスクリーンディスプレイと共に、テレビ会議にも静止画像及び／又は動画の取得にも使用される。

デバイス２００はまた、任意選択的に、１つ以上の接触強度センサ２６５を含む。図２Ａは、Ｉ／Ｏサブシステム２０６内の強度センサコントローラ２５９に結合されている、接触強度センサを示す。接触強度センサ２６５は、任意選択的に、１つ以上のピエゾ抵抗ひずみゲージ、容量性力センサ、電気力センサ、圧電力センサ、光学力センサ、容量性タッチ感知面、又は他の強度センサ（例えば、タッチ感知面上の接触の力（若しくは圧力）を測定するために使用されるセンサ）を含む。接触強度センサ２６５は、接触強度情報（例えば、圧力情報、又は圧力情報に対するプロキシ）を環境から受信する。一部の実施形態では、少なくとも１つの接触強度センサは、タッチ感知面（例えばタッチ感知ディスプレイシステム２１２）と並置される、又はそれに近接される。一部の実施形態では、少なくとも１つの接触強度センサは、デバイス２００の前面に配置されたタッチスクリーンディスプレイ２１２の反対側である、デバイス２００の背面に配置される。

デバイス２００はまた、１つ以上の近接センサ２６６を含む。図２Ａは、周辺機器インタフェース２１８に結合されている、近接センサ２６６を示す。代替的に、近接センサ２６６は、Ｉ／Ｏサブシステム２０６内の入力コントローラ２６０に結合される。近接センサ２６６は、米国特許出願第１１／２４１，８３９号の「ＰｒｏｘｉｍｉｔｙＤｅｔｅｃｔｏｒＩｎＨａｎｄｈｅｌｄＤｅｖｉｃｅ」、同第１１／２４０，７８８号、「ＰｒｏｘｉｍｉｔｙＤｅｔｅｃｔｏｒＩｎＨａｎｄｈｅｌｄＤｅｖｉｃｅ」、同第１１／６２０，７０２号、「ＵｓｉｎｇＡｍｂｉｅｎｔＬｉｇｈｔＳｅｎｓｏｒＴｏＡｕｇｍｅｎｔＰｒｏｘｉｍｉｔｙＳｅｎｓｏｒＯｕｔｐｕｔ」、同第１１／５８６，８６２号、「ＡｕｔｏｍａｔｅｄＲｅｓｐｏｎｓｅＴｏＡｎｄＳｅｎｓｉｎｇＯｆＵｓｅｒＡｃｔｉｖｉｔｙＩｎＰｏｒｔａｂｌｅＤｅｖｉｃｅｓ」、及び同第１１／６３８，２５１号、「ＭｅｔｈｏｄｓＡｎｄＳｙｓｔｅｍｓＦｏｒＡｕｔｏｍａｔｉｃＣｏｎｆｉｇｕｒａｔｉｏｎＯｆＰｅｒｉｐｈｅｒａｌｓ」で記載されているように機能する。一部の実施形態では、多機能デバイスが、ユーザの耳の近くに置かれた場合（例えば、ユーザが電話をかけている場合）、近接センサは、タッチスクリーン２１２をオフにして無効化する。

デバイス２００はまた、任意選択的に、１つ以上の触知出力生成器２６７を含む。図２Ａは、Ｉ／Ｏサブシステム２０６内の触覚フィードバックコントローラ２６１に結合されている、触知出力生成器を示す。触知出力生成器２６７は、任意選択的に、スピーカ若しくは他のオーディオ構成要素などの１つ以上の電気音響デバイス、及び／又はモータ、ソレノイド、電気活性ポリマー、圧電アクチュエータ、静電アクチュエータ、若しくは他の触知出力生成構成要素（例えば、デバイス上で電気信号を触知出力に変換する構成要素）などのエネルギを直線の動きに変換する電気機械デバイスを含む。接触強度センサ２６５は、触知フィードバック生成命令を触覚フィードバックモジュール２３３から受信し、デバイス２００のユーザが感知することが可能な触知出力をデバイス２００上に生成する。一部の実施形態では、少なくとも１つの触知出力生成器は、タッチ感知面（例えば、タッチ感知ディスプレイシステム２１２）と並置される、又はそれに近接しており、任意選択的に、タッチ感知面を垂直方向（例えば、デバイス２００の表面の内／外）に、又は水平方向（例えば、デバイス２００の表面と同じ平面内の前後）に移動させることによって、触知出力を生成する。一部の実施形態では、少なくとも１つの触知出力生成器センサは、デバイス２００の前面に配置されたタッチスクリーンディスプレイ２１２の反対側である、デバイス２００の背面に配置される。

デバイス２００はまた、１つ以上の加速度計２６８も含む。図２Ａは、周辺機器インタフェース２１８に結合されている、加速度計２６８を示す。代替的に、加速度計２６８は、Ｉ／Ｏサブシステム２０６内の入力コントローラ２６０に結合される。加速度計２６８は、例えば、米国特許公開第２００５０１９００５９号の「ポータブ電子デバイスのための加速度ベースの窃盗検出」、及び、米国特許公開第２００６００１７６９２号の「Ａｃｃｅｌｅｒａｔｉｏｎ－ｂａｓｅｄＴｈｅｆｔＤｅｔｅｃｔｉｏｎＳｙｓｔｅｍｆｏｒＰｏｒｔａｂｌｅＥｌｅｃｔｒｏｎｉｃＤｅｖｉｃｅｓ」に記載のように動作し、これらの両方は、全体が参照により本明細書に組み込まれる。いくつかの実施形態では、情報は、１つ以上の加速度計から受信したデータの分析に基づいて、縦長表示又は横長表示でタッチスクリーンディスプレイに表示される。デバイス２００は、任意選択的に、加速度計２６８に加えて、磁気計（図示せず）、並びにデバイス２００の位置及び向き（例えば、縦向き又は横向き）に関する情報を取得するためのＧＰＳ（又はＧＬＯＮＡＳＳ若しくは他のグローバルナビゲーションシステム）受信機（図示せず）を含む。

一部の実施形態では、メモリ２０２に記憶されているソフトウェア構成要素は、オペレーティングシステム２２６、通信モジュール（又は、命令セット）２２８、接触／動きモジュール（又は、命令セット）２３０、グラフィックモジュール（又は、命令セット）２３２、テキスト入力モジュール（又は、命令セット）２３４、全地球測位システム（Global Positioning System；ＧＰＳ）モジュール（又は、命令セット）２３５、デジタルアシスタントクライアントモジュール２２９、及びアプリケーション（又は、命令セット）２３６を含む。更には、メモリ２０２は、ユーザデータ及びモデル２３１などの、データ及びモデルを記憶している。更には、一部の実施形態では、図２Ａ及び図４に示すように、メモリ２０２（図２Ａ）又はメモリ４７０（図４）は、デバイス／グローバル内部状態２５７を記憶している。デバイス／グローバル内部状態２５７は、現在アクティブ状態のアプリケーションがある場合に、どのアプリケーションがアクティブであるかを示すアクティブアプリケーション状態、どのアプリケーション、ビュー、又は他の情報がタッチスクリーンディスプレイ２１２の様々な領域を占めているかを示す表示状態、デバイスの様々なセンサ及び入力コントロールデバイス２１６から取得した情報を含むセンサ状態、並びにデバイスの位置、及び／又は姿勢に関する位置情報、のうちの１つ以上を含む。

オペレーティングシステム２２６（例えば、Ｄａｒｗｉｎ、ＲＴＸＣ、ＬＩＮＵＸ、ＵＮＩＸ（登録商標）、ＯＳＸ、ｉＯＳ、ＷＩＮＤＯＷＳ（登録商標）、又はＶｘＷｏｒｋｓなどの組込み型オペレーティングシステム）は、全般的なシステムタスク（例えば、メモリ管理、記憶デバイス制御、電力管理など）を制御及び管理する様々なソフトウェア構成要素及び／又はドライバを含み、様々なハードウェア構成要素とソフトウェア構成要素との間の通信を容易にする。

通信モジュール２２８は、１つ以上の外部ポート２２４を介して他のデバイスとの通信を容易にし、ＲＦ回路２０８及び／又は外部ポート２２４が受信したデータを処理するための様々なソフトウェア構成要素をも含む。外部ポート２２４（例えば、ユニバーサルシリアルバス（Universal Serial Bus、ＵＳＢ）、ＦＩＲＥＷＩＲＥ（登録商標）など）は、直接的に、又はネットワーク（例えばインターネット、無線ＬＡＮなど）を介して間接的に、他のデバイスに結合するように適合されている。いくつかの実施形態では、外部ポートは、ｉＰｏｄ（登録商標）（ＡｐｐｌｅＩｎｃ．の商標）デバイス上で使用される３０ピンコネクタと同じ若しくは同様であり、かつ／又はそれに適合しているマルチピン（例えば、３０ピン）コネクタである。

接触／動きモジュール２３０は、任意選択的に、タッチスクリーン２１２及び他のタッチ感知デバイス（例えば、タッチパッド又は物理クリックホイール）との接触を（ディスプレイコントローラ２５６と連携して）検出する。接触／動きモジュール２３０は、接触が生じたかどうかを判定すること（例えば、指ダウンイベントを検出すること）、接触の強度（例えば、接触の力若しくは圧力、又は接触の力若しくは圧力の代替物）を判定すること、接触の移動が存在するかどうかを判定し、タッチ感知面を横断する移動を追跡すること（例えば、指をドラッグする１つ以上のイベントを検出すること）、及び接触が停止したかどうかを判定すること（例えば、指アップイベント又は接触の中断を検出すること）などの、接触の検出に関する様々な動作を実行するための、様々なソフトウェア構成要素を含む。接触／動きモジュール２３０は、タッチ感知面から接触データを受信する。一連の接触データによって表される、接触点の移動を判定することは、任意選択的に、接触点の速さ（大きさ）、速度（大きさ及び方向）、及び／又は加速度（大きさ及び／又は方向の変化）を判定することを含む。これらの動作は、任意選択的に、単一の接触（例えば、１本の指の接触）又は複数の同時接触（例えば、「マルチタッチ」／複数の指の接触）に適用される。一部の実施形態では、接触／動きモジュール２３０及びディスプレイコントローラ２５６は、タッチパッド上の接触を検出する。

一部の実施形態では、接触／動きモジュール２３０は、ユーザによって動作が実行されたかどうかを判定するために（例えば、ユーザがアイコン上で「クリック」したかどうかを判定するために）、１つ以上の強度閾値のセットを使用する。一部の実施形態では、強度閾値の少なくとも１つのサブセットは、ソフトウェアパラメータに従って判定される（例えば、強度閾値は、特定の物理アクチュエータのアクティブ化閾値によって決定されるのではなく、デバイス２００の物理ハードウェアを変更することなく調整することができる）。例えば、トラックパッド又はタッチスクリーンディスプレイのマウス「クリック」閾値は、トラックパッド又はタッチスクリーンディスプレイハードウェアを変更することなく、広範囲の既定閾値のうちのいずれかに設定することができる。加えて、いくつかの実装形態では、デバイスのユーザに、（例えば、個々の強度閾値を調整すること、及び／又は複数の強度閾値をシステムレベルのクリック「強度」パラメータによって一度に調整することによって）強度閾値のセットのうちの１つ以上を調整するソフトウェア設定が提供される。

接触／動きモジュール２３０は、任意選択的に、ユーザによるジェスチャ入力を検出する。タッチ感知面上の異なるジェスチャは、異なる接触パターンを有する（例えば検出される接触の動き、タイミング、及び／又は強度が異なる）。したがって、ジェスチャは、任意選択的に、特定の接触パターンを検出することによって検出される。例えば、指タップジェスチャを検出することは、指ダウンイベントを検出し、それに続いて指ダウンイベントと同じ位置（又は実質的に同じ位置）（例えば、アイコンの位置）で指アップ（リフトオフ）イベントを検出することを含む。別の例として、タッチ感知面上で指スワイプジェスチャを検出することは、指ダウンイベントを検出し、それに続いて１つ以上の指ドラッグイベントを検出し、その後それに続いて指アップ（リフトオフ）イベントを検出することを含む。

グラフィックモジュール２３２は、表示されるグラフィックの視覚的な影響（例えば、輝度、透明度、彩度、コントラスト、又は他の視覚的特性）を変化させる構成要素を含む、タッチスクリーン２１２又は他のディスプレイ上にグラフィックをレンダリング及び表示する様々な既知のソフトウェア構成要素を含む。本明細書で使用するとき、用語「グラフィック」は、ユーザに対して表示することが可能な任意のオブジェクトを含み、それらのオブジェクトとしては、限定するものではないが、テキスト、ウェブページ、アイコン（ソフトキーを含めた、ユーザインタフェースオブジェクトなど）、デジタル画像、ビデオ、アニメーションなどが挙げられる。

一部の実施形態では、グラフィックモジュール２３２は、使用されることになるグラフィックを表すデータを記憶する。各グラフィックには、任意選択的に、対応するコードが割り当てられる。グラフィックモジュール２３２は、アプリケーションなどから、必要に応じて、座標データ及び他のグラフィック特性データと共に、表示されることとなるグラフィックを指定する１つ以上のコードを受信し、次にディスプレイコントローラ２５６に出力するスクリーンの画像データを生成する。

触覚フィードバックモジュール２３３は、触知出力生成器２６７によって使用される命令を生成するための様々なソフトウェア構成要素を含み、ユーザのデバイス２００との相互作用に応じて、デバイス２００上の１つ以上の位置での触知出力を生成する。

グラフィックモジュール２３２のコンポーネントであるテキスト入力モジュール２３４は、いくつかの例では、様々なアプリケーション（例えば、連絡先２３７、電子メール２４０、ＩＭ２４１、ブラウザ２４７、及びテキスト入力を必要とする他の任意のアプリケーション）でテキストを入力するためのソフトキーボードを提供する。

ＧＰＳモジュール２３５は、デバイスの場所を判定し、様々なアプリケーション内で使用するためにこの情報を提供する（例えば、場所ベースのダイアリングで使用するために電話２３８へ、ピクチャ／ビデオメタデータとしてカメラ２４３へ、及び気象ウィジェット、ローカルイエローページウィジェット、及び地図／ナビゲーションウィジェットなどの場所ベースのサービスを提供するアプリケーションへ）。

デジタルアシスタントクライアントモジュール２２９は、デジタルアシスタントのクライアント側機能を提供するための、様々なクライアント側デジタルアシスタント命令を含む。例えば、デジタルアシスタントクライアントモジュール２２９は、ポータブル多機能デバイス２００の様々なユーザインタフェース（例えば、マイクロフォン２１３、加速度計２６８、タッチ感知ディスプレイシステム２１２、光センサ（単数又は複数）２６４、他の入力コントロールデバイス２１６など）を通じて、音声入力（例えば、発話入力）、テキスト入力、タッチ入力、及び／又はジェスチャ入力を受け入れることが可能である。デジタルアシスタントクライアントモジュール２２９はまた、ポータブル多機能デバイス２００の様々な出力インタフェース（例えば、スピーカ２１１、タッチ感知ディスプレイシステム２１２、触知出力生成器（単数又は複数）２６７など）を介して、オーディオ（例えば、発話出力）、視覚、及び／又は触知形状の出力などを提供することができる。例えば、出力は、音声、サウンド、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び／又は上記のうちの２つ以上の組み合わせとして提供される。動作の間に、デジタルアシスタントクライアントモジュール２２９は、ＲＦ回路２０８を使用して、ＤＡサーバ１０６と通信する。

ユーザデータ及びモデル２３１は、デジタルアシスタントのクライアント側機能を提供するための、ユーザに関連付けられた様々なデータ（例えば、ユーザ固有語彙データ、ユーザ選好データ、ユーザ指定の名前の発音、ユーザの電子アドレス帳からのデータ、ｔｏｄｏリスト、買い物リストなど）を含む。更には、ユーザデータ及びモデル２３１は、ユーザ入力を処理して、ユーザ意図を判定するための、様々なモデル（例えば、音声認識モデル、統計的言語モデル、自然言語処理モデル、オントロジ、タスクフローモデル、サービスモデルなど）を含む。

一部の実施例では、デジタルアシスタントクライアントモジュール２２９は、ポータブル多機能デバイス２００の様々なセンサ、サブシステム、及び周辺機器を利用して、ポータブル多機能デバイス２００の周囲環境から追加情報を収集することにより、ユーザ、現在のユーザ対話、及び／又は現在のユーザ入力に関連付けられる、コンテキストを確立する。一部の実施例では、デジタルアシスタントクライアントモジュール２２９は、ユーザの意図の推測を支援するために、ユーザ入力と共に、コンテキスト情報又はそのサブセットを、ＤＡサーバ１０６に提供する。一部の実施例では、デジタルアシスタントはまた、どのようにしてユーザへの出力を準備及び配信するかを判定するためにも、コンテキスト情報を使用する。コンテキスト情報は、コンテキストデータと称される。

一部の実施例では、ユーザ入力を伴うコンテキスト情報は、センサ情報、例えば、照明、周囲ノイズ、周囲温度、周囲環境の画像又は動画などを含む。一部の実施例では、コンテキスト情報はまた、デバイスの物理状態、例えば、デバイスの向き、デバイスの位置、デバイスの温度、電力レベル、速度、加速度、動きパターン、セルラー信号強度なども含み得る。一部の実施例では、ＤＡサーバ１０６のソフトウェア状態、例えば、稼働中のプロセス、インストール済みのプログラム、過去及び現在のネットワークアクティビティ、バックグラウンドサービス、エラーログ、リソース使用量などに関する情報、並びにポータブル多機能デバイス２００のソフトウェア状態に関する情報が、ユーザ入力に関連付けられたコンテキスト情報として、ＤＡサーバ１０６に提供される。

一部の実施例では、デジタルアシスタントクライアントモジュール２２９は、ＤＡサーバ１０６からの要求に応じて、ポータブル多機能デバイス２００上に記憶されている情報（例えば、ユーザデータ２３１）を選択的に提供する。一部の実施例では、デジタルアシスタントクライアントモジュール２２９はまた、ＤＡサーバ１０６による要求に応じて、自然言語ダイアログ又は他のユーザインタフェースを介して、ユーザから追加入力も引き出す。デジタルアシスタントクライアントモジュール２２９は、ユーザ要求内に表現されているユーザの意図の、意図推論及び／又は遂行の際に、ＤＡサーバ１０６を支援するために、その追加入力をＤＡサーバ１０６に渡す。

デジタルアシスタントの更なる詳細な説明は、図７Ａ～図７Ｃを参照して以下に説明される。デジタルアシスタントクライアントモジュール２２９は、以下に説明するデジタルアシスタントモジュール７２６の任意の数のサブモジュールを含み得ることを認識すべきである。

アプリケーション２３６は、以下のモジュール（又は命令のセット）、又はそのサブセット又はスーパーセットを含む。
・連絡先モジュール２３７（アドレス帳又は連絡先リストと呼ばれることもある）、
・電話モジュール２３８、
・テレビ会議モジュール２３９、
・電子メールクライアントモジュール２４０、
・インスタントメッセージング（Instant messaging、ＩＭ）モジュール２４１、
・トレーニングサポートモジュール２４２、
・静止画像及び／又は動画用のカメラモジュール２４３、
・画像管理モジュール２４４、
・動画プレーヤモジュール、
・音楽プレーヤモジュール、
・ブラウザモジュール２４７、
・カレンダーモジュール２４８、
・ウィジェットモジュール２４９であって、一部の実施例では、気象ウィジェット２４９－１、株価ウィジェット２４９－２、計算機ウィジェット２４９－３、目覚まし時計ウィジェット２４９－４、辞書ウィジェット２４９－５、及びユーザ作成ウィジェット２４９－６のうちの１つ以上を含む、ウィジェットモジュール、
・ユーザ作成ウィジェット２４９－６を作成するためのウィジェットクリエータモジュール２５０、
・検索モジュール２５１、
・動画プレーヤモジュール及び音楽プレーヤモジュールを一体化した動画及び音楽プレーヤモジュール２５２、
・メモモジュール２５３、
・地図モジュール２５４、及び／又は、
・オンライン動画モジュール２５５。

メモリ２０２に格納される他のアプリケーション２３６の例としては、他のワードプロセッシングアプリケーション、他の画像編集アプリケーション、描画アプリケーション、プレゼンテーションアプリケーション、ＪＡＶＡ（登録商標）対応アプリケーション、暗号化、デジタル著作権管理、音声認識、及び音声複製が挙げられる。

連絡先モジュール２３７は、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、及びテキスト入力モジュール２３４と連動して、アドレス帳に名前を追加すること、アドレス帳から名前を削除すること、電話番号、電子メールアドレス、物理住所、又は他の情報を名前に関連付けることを含む、アドレス帳又は連絡先リスト（例えば、メモリ２０２又はメモリ４７０の連絡先モジュール２３７のアプリケーション内部状態２９２に記憶される）を管理するために使用される。画像を名前に関連付けること、名前を分類して並べ替えること、電話２３８、テレビ会議モジュール２３９、電子メール２４０、又はＩＭ２４１による通信を開始及び／又は容易にするために、電話番号又は電子メールアドレスを提供することなどが含まれる。

電話モジュール２３８は、ＲＦ回路２０８、オーディオ回路２１０、スピーカ２１１、マイクロフォン２１３、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、及びテキスト入力モジュール２３４と連動して、電話番号に対応する文字列を入力し、連絡先モジュール２３７内の１つ以上の電話番号にアクセスし、入力された電話番号を修正し、それぞれの電話番号をダイヤルし、会話を行い、会話が完了したら切断又は電話を切るために使用される。このように、無線通信は、複数の通信規格、プロトコル、及び技術のいずれかを用いる。

テレビ会議モジュール２３９は、ＲＦ回路２０８、オーディオ回路２１０、スピーカ２１１、マイクロフォン２１３、タッチスクリーン２１２、ディスプレイコントローラ２５６、光センサ２６４、光センサコントローラ２５８、接触／動きモジュール２３０、グラフィックモジュール２３２、テキスト入力モジュール２３４、連絡先モジュール２３７、及び電話モジュール２３８と連携して、ユーザの命令に従ってユーザと１人以上の他の参加者との間のテレビ会議を開始、実行、及び終了するための実行可能な命令を含む。

電子メールクライアントモジュール２４０は、ＲＦ回路２０８、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、及びテキスト入力モジュール２３４と連携して、ユーザの命令に応じて電子メールを作成、送信、受信、及び管理するための実行可能な命令を含む。画像管理モジュール２４４と連携して、電子メールクライアントモジュール２４０は、カメラモジュール２４３で撮影された静止画像又は動画画像を有する電子メールの作成及び送信を非常に容易にする。

インスタントメッセージングモジュール２４１は、ＲＦ回路２０８、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、及びテキスト入力モジュール２３４と連携して、インスタントメッセージに対応する文字シーケンスの入力、以前に入力された文字の修正、（例えば、電話通信ベースのインスタントメッセージ向けのショートメッセージサービス（Short Message Service、ＳＭＳ）若しくはマルチメディアメッセージサービス（Multimedia Message Service、ＭＭＳ）プロトコル、又はインターネットベースのインスタントメッセージ向けのＸＭＰＰ、ＳＩＭＰＬＥ、若しくはＩＭＰＳを使用する）個別のインスタントメッセージの送信、インスタントメッセージの受信、及び受信したインスタントメッセージの閲覧のための実行可能な命令を含む。一部の実施形態では、送信及び／又は受信されたインスタントメッセージは、グラフィックス、写真、オーディオファイル、ビデオファイル並びに／又は、ＭＭＳ及び／若しくは強化されたメッセージングサービス（ＥＭＳ）でサポートされた他のアタッチメントを含む。本明細書では、「インスタントメッセージング」とは、電話通信ベースのメッセージ（例えば、ＳＭＳ又はＭＭＳを使用して送信されるメッセージ）と、インターネットベースのメッセージ（例えば、ＸＭＰＰ、ＳＩＭＰＬＥ、又はＩＭＰＳを使用して送信されるメッセージ）との両方を指す。

トレーニングサポートモジュール２４２は、ＲＦ回路２０８、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、テキスト入力モジュール２３４、ＧＰＳモジュール２３５、地図モジュール２５４、及び音楽プレーヤモジュールと連携して、トレーニング（例えば、時間、距離、及び／又はカロリー燃焼の目標を有する）を作成し、トレーニングセンサ（スポーツデバイス）と通信し、トレーニングセンサデータを受信し、トレーニングをモニタするために使用されるセンサを較正し、トレーニングのための音楽を選択及び再生し、並びに、トレーニングデータを表示、記憶、及び送信するための実行可能な命令を含む。

カメラモジュール２４３は、タッチスクリーン２１２、ディスプレイコントローラ２５６、光センサ２６４、光センサコントローラ２５８、接触／動きモジュール２３０、グラフィックモジュール２３２、及び画像管理モジュール２４４と連携して、静止画像若しくは（動画ストリームを含む）動画のキャプチャ及びメモリ２０２内への記憶、静止画像若しくは動画の特性の修正、又はメモリ２０２からの静止画像若しくは動画の削除のための実行可能な命令を含む。

画像管理モジュール２４４は、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、テキスト入力モジュール２３４、及びカメラモジュール２４３と連携して、静止画像及び／若しくは動画の配置、修正（例えば、編集）、又はその他の操作、ラベル付け、削除、（例えば、デジタルスライドショー若しくはアルバムにおける）提示、及び記憶のための実行可能な命令を含む。

ブラウザモジュール２４７は、ＲＦ回路２０８、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、及びテキスト入力モジュール２３４と連携して、ウェブページ又はその一部分、並びにウェブページにリンクされた添付ファイル及び他のファイルの検索、リンク、受信、及び表示を含む、ユーザの命令に従ってインターネットをブラウジングするための実行可能な命令を含む。

カレンダーモジュール２４８は、ＲＦ回路２０８、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、テキスト入力モジュール２３４、電子メールクライアントモジュール２４０、及びブラウザモジュール２４７と連携して、ユーザの命令に従って、カレンダー及びカレンダーに関連付けられたデータ（例えば、カレンダーアイテム、ｔｏ－ｄｏリストなど）を作成、表示、修正、及び記憶するための実行可能な命令を含む。

ＲＦ回路２０８、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、テキスト入力モジュール２３４、及びブラウザモジュール２４７と連動して、ウィジェットモジュール２４９は、ユーザによってダウンロード及び使用され得る（例えば、気象ウィジェット２４９－１、株価ウィジェット２４９－２、計算機ウィジェット２４９－３、目覚まし時計ウィジェット２４９－４、及び辞書ウィジェット２４９－５）、又はユーザによって作成され得る（例えば、ユーザ作成ウィジェット２４９－６）ミニアプリケーションである。いくつかの実施形態では、ウィジェットは、ＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ、ハイパーテキストマークアップ言語）ファイル、ＣＳＳ（ＣａｓｃａｄｉｎｇＳｔｙｌｅＳｈｅｅｔｓ、カスケーディングスタイルシート）ファイル、及びＪａｖａＳｃｒｉｐｔファイルを含む。いくつかの実施形態では、ウィジェットは、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ、拡張可能マークアップ言語）ファイル及びＪａｖａＳｃｒｉｐｔファイル（例えば、Ｙａｈｏｏ！ウィジェット）を含む。

ＲＦ回路２０８、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、テキスト入力モジュール２３４、及びブラウザモジュール２４７と連動して、ウィジェット作成モジュール２５０は、ウィジェットを作成するためにユーザによって使用される（例えば、ウェブページのユーザ指定部分をウィジェットに変える）。

検索モジュール２５１は、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、及びテキスト入力モジュール２３４と連携して、ユーザの命令に従って１つ以上の検索基準（例えば、１つ以上のユーザ指定検索語）と一致するメモリ２０２内の文字、音楽、サウンド、画像、動画、及び／又は他のファイルを検索するための実行可能な命令を含む。

動画及び音楽プレーヤモジュール２５２は、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、オーディオ回路２１０、スピーカ２１１、ＲＦ回路２０８、及びブラウザモジュール２４７と連携して、ＭＰ３又はＡＡＣファイルなどの１つ以上のファイル形式で記憶された録音済みの音楽及び他のサウンドファイルをユーザがダウンロード及び再生できるようにする実行可能な命令、並びに動画を（例えば、タッチスクリーン２１２上又は外部ポート２２４を介して接続された外部のディスプレイ上に）表示、提示、又は別の方法で再生するための実行可能な命令を含む。一部の実施形態では、デバイス２００は、任意選択的に、ｉＰｏｄ（ＡｐｐｌｅＩｎｃ．の商標）などのＭＰ３プレーヤの機能を含む。

メモモジュール２５３は、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、及びテキスト入力モジュール２３４と連携して、ユーザの命令に従ってメモ、ｔｏ－ｄｏリストなどを作成及び管理するための実行可能な命令を含む。

ＲＦ回路２０８、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、テキスト入力モジュール２３４、ＧＰＳモジュール２３５、及びブラウザモジュール２４７と連動して、地図モジュール２５４は、ユーザの命令に従って地図及び地図に関連付けられたデータ（例えば、運転指示、店舗に関するデータ、特定の場所又はその近くの他の場所、及び他の場所ベースのデータ）を受信、表示、修正、及び格納するために使用される。

オンライン動画モジュール２５５は、タッチスクリーン２１２、ディスプレイコントローラ２５６、接触／動きモジュール２３０、グラフィックモジュール２３２、オーディオ回路２１０、スピーカ２１１、ＲＦ回路２０８、テキスト入力モジュール２３４、電子メールクライアントモジュール２４０、及びブラウザモジュール２４７と連携して、ユーザが特定のオンライン動画へのアクセス、特定のオンライン動画のブラウジング、（例えば、ストリーミング及び／又はダウンロードによる）受信、（例えば、タッチスクリーン上又は外部ポート２２４を介して接続された外部ディスプレイ上の）再生、特定のオンライン動画へのリンクを有する電子メールの送信、並びにＨ．２６４などの１つ以上のファイル形式のオンライン動画の他の管理を行うことを可能にする命令を含む。一部の実施形態では、特定のオンライン動画へのリンクを送信するために、電子メールクライアントモジュール２４０ではなく、インスタントメッセージングモジュール２４１が使用される。オンライン動画アプリケーションについての追加の説明は、その内容の全体が参照により本明細書に組み込まれる、２００７年６月２０日出願の米国仮特許出願第６０／９３６，５６２号、「ＰｏｒｔａｂｌｅＭｕｌｔｉｆｕｎｃｔｉｏｎＤｅｖｉｃｅ，Ｍｅｔｈｏｄ，ａｎｄＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅｆｏｒＰｌａｙｉｎｇＯｎｌｉｎｅＶｉｄｅｏｓ」、及び２００７年１２月３１日出願の米国特許出願第１１／９６８，０６７号、「ＰｏｒｔａｂｌｅＭｕｌｔｉｆｕｎｃｔｉｏｎＤｅｖｉｃｅ，Ｍｅｔｈｏｄ，ａｎｄＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅｆｏｒＰｌａｙｉｎｇＯｎｌｉｎｅＶｉｄｅｏｓ」を参照されたい。

上記で特定したモジュール及びアプリケーションはそれぞれ、前述した１つ以上の機能及び本出願に記載した方法（例えば、本明細書に記載したコンピュータにより実装される方法及び他の情報処理方法）を実行する実行可能な命令のセットに対応する。これらのモジュール（例えば、命令のセット）は、個別のソフトウェアプログラム、手順、又はモジュールとして実装する必要がないので、様々な実施形態でこれらのモジュールの様々なサブセットを組み合わせる又はさもなければ再構成することができる。例えば、ビデオプレーヤモジュールは、単一モジュール（例えば、ビデオ及び音楽プレーヤモジュール２５２、図２Ａ）に音楽プレーヤモジュールと組み合わせることができる。一部の実施形態では、メモリ２０２は、上記で特定されたモジュール及びデータ構造のサブセットを記憶する。更に、メモリ２０２は、上述しない追加モジュール及びデータ構造を記憶する。

一部の実施形態では、デバイス２００は、そのデバイスにおける既定の機能のセットの動作がタッチスクリーン及び／又はタッチパッドのみを介して実行されるデバイスである。デバイス２００の動作のためのプライマリ入力コントロールデバイスとして、タッチスクリーン及び／又はタッチパッドを用いることにより、デバイス２００上の物理的な入力コントロールデバイス（押しボタン、ダイヤルなど）の数が削減される。

タッチスクリーン及び／又はタッチパッドを通じてのみ実行される既定の機能のセットは、任意選択的に、ユーザインタフェース間のナビゲーションを含む。一部の実施形態では、タッチパッドは、ユーザによってタッチされたときに、デバイス２００上に表示される任意のユーザインタフェースから、メインメニュー、ホームメニュー、又はルートメニューにデバイス２００をナビゲートする。このような実施形態では、「メニューボタン」は、タッチパッドを使用して実装される。一部の他の実施形態では、メニューボタンは、タッチパッドではなく、物理プッシュボタン又はその他の物理入力コントロールデバイスである。

図２Ｂは、一部の実施形態による、イベント処理のための例示的な構成要素を示すブロック図である。一部の実施形態では、メモリ２０２（図２Ａ）又はメモリ４７０（図４）は、イベントソータ２７０（例えば、オペレーティングシステム２２６内）及び対応のアプリケーション２３６－１（例えば、前述のアプリケーション２３７～２５１、２５５、４８０～４９０のうちのいずれか）を含む。

イベントソータ２７０は、イベント情報を受信し、イベント情報を配信するアプリケーション２３６－１、及びアプリケーション２３６－１のアプリケーションビュー２９１を判定する。イベントソータ２７０は、イベントモニタ２７１及びイベントディスパッチャモジュール２７４を含む。一部の実施形態では、アプリケーション２３６－１は、アプリケーションがアクティブ又は実行中であるときにタッチ感知ディスプレイ２１２に表示される現在のアプリケーションビューを示すアプリケーション内部状態２９２を含む。一部の実施形態では、デバイス／グローバル内部状態２５７は、どのアプリケーション（単数又は複数）が現在アクティブであるかを判定するためにイベントソータ２７０によって使用され、アプリケーション内部状態２９２は、イベント情報が配信されるアプリケーションビュー２９１を判定するためにイベントソータ２７０によって使用される。

一部の実施形態では、アプリケーション内部状態２９２は、アプリケーション２３６－１が実行を再開するときに使用すべき再開情報、アプリケーション２３６－１によって表示されている情報を示す又は表示する準備ができたユーザインタフェース状態情報、ユーザがアプリケーション２３６－１の前の状態又はビューに戻ることを可能にする状態キュー、及びユーザによって行われた前のアクションのリドゥ／アンドゥキューのうちの１つ以上などの追加の情報を含む。

イベントモニタ２７１は、周辺機器インタフェース２１８からイベント情報を受信する。イベント情報は、サブイベント（例えば、タッチ感知ディスプレイ２１２でのマルチタッチジェスチャの一部としてのユーザタッチ）に関する情報を含む。周辺機器インタフェース２１８は、Ｉ／Ｏサブシステム２０６、又は近接センサ２６６、加速度計（単数又は複数）２６８、及び／若しくは（オーディオ回路２１０を介した）マイクロフォン２１３などのセンサから受信する情報を送信する。周辺機器インタフェース２１８がＩ／Ｏサブシステム２０６から受信する情報は、タッチ感知ディスプレイ２１２又はタッチ感知面からの情報を含む。

一部の実施形態では、イベントモニタ２７１は、所定の間隔で周辺機器インタフェース２１８に要求を送信する。それに応じて、周辺機器インタフェース２１８は、イベント情報を送信する。他の実施形態では、周辺機器インタフェース２１８は、重要なイベント（例えば、所定のノイズ閾値を上回る及び／又は所定の期間を超える入力の受信）があるときのみイベント情報を送信する。

一部の実施形態では、イベントソータ２７０はまた、ヒットビュー判定モジュール２７２及び／又はアクティブイベント認識部判定モジュール２７３を含む。

ヒットビュー判定モジュール２７２は、タッチ感知ディスプレイ２１２が２つ以上のビューを表示しているときに、サブイベントが１つ以上のビュー内のどこで起きたかを判定するソフトウェア手順を提供する。ビューは、ユーザがディスプレイ上で見ることができる制御装置及び他の要素から構成されている。

アプリケーションに関連付けられたユーザインタフェースの別の態様は、本明細書ではアプリケーションビュー又はユーザインタフェースウィンドウと呼ばれることもあるビューのセットであり、その中で情報が表示され、タッチに基づくジェスチャが生じる。タッチが検出された（対応するアプリケーションの）アプリケーションビューは、アプリケーションのプログラム又はビュー階層内のプログラムレベルに対応する。例えば、タッチが検出された最低レベルのビューはヒットビューと呼ばれ、正しい入力として認識されるイベントのセットは、タッチベースのジェスチャを開始する初期タッチのヒットビューに少なくとも部分的に基づいて判定される。

ヒットビュー判定モジュール２７２は、タッチに基づくジェスチャのサブイベントに関連する情報を受信する。アプリケーションが階層状に構成された複数のビューを有するとき、ヒットビュー判定モジュール２７２は、サブイベントを処理すべき階層内の最下位のビューとして、ヒットビューを特定する。ほとんどの状況では、ヒットビューは、開始サブイベント（例えば、イベント又は潜在的イベントを形成するサブイベントシーケンスにおける第１のサブイベント）が発生する最も低いレベルのビューである。ヒットビューがヒットビュー判定モジュール２７２によって特定されると、ヒットビューは、通常、ヒットビューとして特定されたタッチ又は入力ソースと同じタッチ又は入力ソースに関係する全てのサブイベントを受信する。

アクティブイベント認識部判定モジュール２７３は、ビュー階層内のどのビュー（単数又は複数）がサブイベントの特定のシーケンスを受信すべきかを判定する。一部の実施形態では、アクティブイベント認識部判定モジュール２７３は、ヒットビューのみがサブイベントの特定のシーケンスを受信すべきであると判定する。他の実施形態では、アクティブイベント認識部判定モジュール２７３は、サブイベントの物理位置を含む全てのビューがアクティブに関わりがあるビューであると判定し、したがって、全てのアクティブに関わりがあるビューが、サブイベントの特定のシーケンスを受信すべきであると判定する。他の実施形態では、タッチサブイベントが１つの特定のビューに関連付けられたエリアに完全に限定された場合でも、階層内の上位のビューは、依然としてアクティブに関わりがあるビューであり続ける。

イベントディスパッチャモジュール２７４は、イベント情報をイベント認識部（例えばイベント認識部２８０）にディスパッチする。アクティブイベント認識部判定モジュール２７３を含む実施形態では、イベントディスパッチャモジュール２７４は、アクティブイベント認識部判定モジュール２７３により判定されたイベント認識部にイベント情報を配信する。一部の実施形態では、イベントディスパッチャモジュール２７４は、個別のイベント受信部２８２によって取得されるイベント情報をイベントキューに記憶する。

一部の実施形態では、オペレーティングシステム２２６は、イベントソータ２７０を含む。あるいは、アプリケーション２３６－１がイベントソータ２７０を含む。更に他の実施形態では、イベントソータ２７０は、独立型のモジュールであり、又は接触／動きモジュール２３０などのメモリ２０２内に記憶されている別のモジュールの一部分である。

一部の実施形態では、アプリケーション２３６－１は、各々がアプリケーションのユーザインタフェースの個別のビュー内で発生するタッチイベントを処理する命令を含む、複数のイベント処理部２９０及び１つ以上のアプリケーションビュー２９１を含む。アプリケーション２３６－１の各アプリケーションビュー２９１は、１つ以上のイベント認識部２８０を含む。典型的には、個別のアプリケーションビュー２９１は、複数のイベント認識部２８０を含む。他の実施形態では、イベント認識部２８０のうちの１つ以上は、ユーザインタフェースキット（図示せず）又はアプリケーション２３６－１が方法及び他の特性を継承する上位レベルのオブジェクトなどの、別個のモジュールの一部である。一部の実施形態では、個別のイベント処理部２９０は、データ更新部２７６、オブジェクト更新部２７７、ＧＵＩ更新部２７８、及び／又はイベントソータ２７０から受信されたイベントデータ２７９、のうちの１つ以上を含む。イベント処理部２９０は、アプリケーション内部状態２９２を更新するために、データ更新部２７６、オブジェクト更新部２７７、若しくはＧＵＩ更新部２７８を利用するか又は呼び出す。あるいは、アプリケーションビュー２９１のうちの１つ以上が、１つ以上の個別のイベント処理部２９０を含む。また、一部の実施形態では、データ更新部２７６、オブジェクト更新部２７７、及びＧＵＩ更新部２７８のうちの１つ以上は、個別のアプリケーションビュー２９１に含まれる。

個別のイベント認識部２８０は、イベントソータ２７０からイベント情報（例えば、イベントデータ２７９）を受信し、イベント情報からイベントを特定する。イベント認識部２８０は、イベント受信部２８２及びイベント比較部２８４を含む。一部の実施形態では、イベント認識部２８０は、メタデータ２８３とイベント配信命令２８８（サブイベント配信命令を含む）との少なくともサブセットを含む。

イベント受信部２８２は、イベントソータ２７０からイベント情報を受信する。イベント情報は、サブイベント、例えば、タッチ又はタッチの移動についての情報を含む。サブイベントに応じて、イベント情報はまた、サブイベントの位置などの追加の情報を含む。サブイベントがタッチの動きに関連する場合、イベント情報は、サブイベントの速度及び方向も含む。いくつかの実施形態では、イベントは、１つの向きから別の向きへの（例えば、縦向きから横向きへ、又はその逆の）デバイスの回転を含み、イベント情報は、デバイスの現在の向き（デバイスの姿勢とも呼ぶ）についての対応する情報を含む。

イベント比較部２８４は、そのイベント情報を、既定のイベント又はサブイベントの定義と比較し、その比較に基づいて、イベント又はサブイベントを判定するか、あるいはイベント又はサブイベントの状態を判定若しくは更新する。一部の実施形態では、イベント比較部２８４は、イベント定義２８６を含む。イベント定義２８６は、例えばイベント１（２８７－１）及びイベント２（２８７－２）などのイベント（例えば、既定のサブイベントのシーケンス）の定義を含む。一部の実施形態では、イベント（２８７）内のサブイベントは、例えば、タッチの開始、タッチの終了、タッチの移動、タッチの取り消し、及び複数のタッチを含む。一実施例では、イベント１（２８７－１）についての定義は、表示されたオブジェクト上のダブルタップである。ダブルタップは、例えば、所定の段階に対する表示オブジェクト上の第１のタッチ（タッチ開始）、所定の段階に対する第１のリフトオフ（タッチ終了）、所定の段階に対する表示オブジェクト上の第２のタッチ（タッチ開始）、及び所定の段階に対する第２のリフトオフ（タッチ終了）を含む。別の実施例では、イベント２（２８７－２）の定義は、表示されたオブジェクト上のドラッグである。ドラッグは、例えば、所定の段階に対する表示オブジェクト上のタッチ（又は接触）、タッチ感知ディスプレイ２１２にわたるタッチの移動、及びタッチのリフトオフ（タッチ終了）を含む。一部の実施形態では、イベントは、１つ以上の関連付けられたイベント処理部２９０に関する情報も含む。

一部の実施形態では、イベント定義２８７は、個別のユーザインタフェースオブジェクトについてのイベントの定義を含む。一部の実施形態では、イベント比較部２８４は、どのユーザインタフェースオブジェクトがサブイベントに関連付けられているかを判定するヒットテストを実行する。例えば、タッチ感知ディスプレイ２１２に３つのユーザインタフェースオブジェクトが表示されているアプリケーションビュー内で、タッチ感知ディスプレイ２１２上でタッチが検出されると、イベント比較部２８４は、ヒットテストを実行して、３つのユーザインタフェースオブジェクトのうちのどれがタッチ（サブイベント）に関連付けられているかを判定する。表示された各オブジェクトが、個別のイベント処理部２９０に関連付けられている場合、イベント比較部は、ヒットテストの結果を用いて、どのイベント処理部２９０をアクティブ化すべきかを判定する。例えば、イベント比較部２８４は、ヒットテストをトリガするサブイベント及びオブジェクトに関連付けられたイベント処理部を選択する。

一部の実施形態では、個別のイベント２８７の定義は、サブイベントのシーケンスがイベント認識部のイベント種類に対応するかどうかが判定されるまで、イベント情報の伝送を遅らせる遅延アクションも含む。

個別のイベント認識部２８０は、一連のサブイベントがイベント定義２８６のイベントのいずれとも一致しないと判断した場合、個別のイベント認識部２８０は、イベント不可能、イベント失敗、又はイベント終了の状態に入り、その後は、タッチに基づくジェスチャの次のサブイベントを無視する。この状況では、ヒットビューについてアクティブのままである他のイベント認識部があれば、そのイベント認識部は、進行中のタッチによるジェスチャのサブイベントの追跡及び処理を続行する。

一部の実施形態では、個別のイベント認識部２８０は、イベント配信システムがどのようにサブイベント配信を実行すべきかをアクティブに関与しているイベント認識部に示す構成可能なプロパティ、フラグ、及び／又はリストを有するメタデータ２８３を含む。一部の実施形態では、メタデータ２８３は、イベント認識部が互いにどのように相互作用するか、又はイベント認識部が互いにどのように相互作用することが可能となるかを示す構成可能なプロパティ、フラグ、及び／又はリストを含む。一部の実施形態では、メタデータ２８３は、サブイベントがビュー階層又はプログラム階層における多様なレベルに配信されるかを示す構成可能なプロパティ、フラグ、及び／又はリストを含む。

一部の実施形態では、個別のイベント認識部２８０は、イベントの１つ以上の特定のサブイベントが認識されるときに、イベントに関連付けられたイベント処理部２９０をアクティブ化する。一部の実施形態では、個別のイベント認識部２８０は、イベントに関連付けられたイベント情報をイベント処理部２９０に配信する。イベント処理部２９０をアクティブ化することは、個別のヒットビューにサブイベントを送信する（及び、送信を延期する）こととは別個である。一部の実施形態では、イベント認識部２８０は、認識したイベントに関連付けられたフラグを投入し、そのフラグに関連付けられたイベント処理部２９０は、そのフラグを捕らえ、既定のプロセスを実行する。

一部の実施形態では、イベント配信命令２８８は、イベント処理部をアクティブ化することなくサブイベントについてのイベント情報を配信するサブイベント配信命令を含む。代わりに、サブイベント配信命令は、一連のサブイベントと関連付けられたイベント処理部に、又はアクティブに関与しているビューにイベント情報を配信する。一連のサブイベント又はアクティブに関与しているビューと関連付けられたイベント処理部は、イベント情報を受信し、所定のプロセスを実行する。

一部の実施形態では、データ更新部２７６は、アプリケーション２３６－１で使用されるデータを作成及び更新する。例えば、データ更新部２７６は、連絡先モジュール２３７で使用される電話番号を更新し、又は動画プレーヤモジュールで使用される動画ファイルを記憶する。一部の実施形態では、オブジェクト更新部２７７は、アプリケーション２３６－１で使用されるオブジェクトを作成及び更新する。例えば、オブジェクト更新部２７７は、新たなユーザインタフェースオブジェクトを作成し、又はユーザインタフェースオブジェクトの位置を更新する。ＧＵＩ更新部２７８は、ＧＵＩを更新する。例えば、ＧＵＩ更新部２７８は、表示情報を準備し、タッチ感知ディスプレイ上に表示するために表示情報をグラフィックモジュール２３２に送る。

一部の実施形態では、イベント処理部（単数又は複数）２９０は、データ更新部２７６、オブジェクト更新部２７７、及びＧＵＩ更新部２７８を含む又はそれらへのアクセスを有する。一部の実施形態では、データ更新部２７６、オブジェクト更新部２７７、及びＧＵＩ更新部２７８は、個別のアプリケーション２３６－１又はアプリケーションビュー２９１の単一モジュールに含まれる。他の実施形態では、それらは、２つ以上のソフトウェアモジュールに含まれる。

タッチ感知ディスプレイ上のユーザのタッチのイベント処理に関する前述の記載は、入力デバイスを用いて多機能デバイス２００を動作させるための他の形態のユーザ入力にも適用されるが、それらの全てがタッチスクリーン上で開始されるわけではないことを理解されたい。例えば、キーボードの単一又は複数の押圧若しくは保持と任意選択的に連携される、マウスの移動及びマウスボタンの押圧、タッチパッド上のタップ、ドラッグ、スクロールなどの接触の移動、ペンスタイラス入力、デバイスの移動、口頭による命令、検出された目の動き、バイオメトリック入力、並びに／又はそれらの任意の組み合わせを、任意選択的に、認識するイベントを定義するサブイベントに対応する入力として利用する。

図３は、一部の実施形態による、タッチスクリーン２１２を有するポータブル多機能デバイス２００を示す。タッチスクリーンは、任意選択的に、ユーザインタフェース（user interface、ＵＩ）３００内に１つ以上のグラフィックを表示する。本実施形態、並びに以下で説明される他の実施形態では、ユーザは、例えば、１本以上の指３０２（図には正確な縮尺では描かれていない）又は１つ以上のスタイラス３０３（図には正確な縮尺では描かれていない）を使用して、グラフィック上でジェスチャを実施することによって、それらのグラフィックのうちの１つ以上を選択することが可能となる。いくつかの実施形態では、１つ以上のグラフィックの選択は、ユーザが、その１つ以上のグラフィックとの接触を中断する場合に実施される。一部の実施形態では、ジェスチャは、デバイス２００と接触した指の、１回以上のタップ、１回以上のスワイプ（左から右へ、右から左へ、上向きに及び／若しくは下向きに）、並びに／又は、ローリング（右から左へ、左から右へ、上向きに及び／若しくは下向きに）を、任意選択的に含む。一部の実装形態又は状況では、グラフィックとの不測の接触は、そのグラフィックを選択するものではない。例えば、選択に対応するジェスチャがタップである場合、アプリケーションアイコンの上をスイープするスワイプジェスチャは、任意選択的に、対応するアプリケーションを選択するものではない。

デバイス２００はまた、「ホーム」又はメニューボタン３０４などの１つ以上の物理ボタンを含む。上記で説明されているように、メニューボタン３０４は、デバイス２００上で実行されるアプリケーションのセット内の任意のアプリケーション２３６にナビゲーションするために用いられる。あるいは、一部の実施形態では、メニューボタンは、タッチスクリーン２１２に表示されるＧＵＩ内のソフトキーとして実装される。

一実施形態では、デバイス２００は、タッチスクリーン２１２、メニューボタン３０４、デバイスの電源をオン／オフし、デバイスをロックするためのプッシュボタン３０６、音量調節ボタン（単数又は複数）３０８、加入者識別モジュール（ＳＩＭ）カードスロット３１０、ヘッドセットジャック３１２、及びドッキング／充電用外部ポート２２４、を含む。プッシュボタン３０６は、任意選択的に、ボタンを押し下げて、既定の期間にわたってボタンを押し下げた状態に保持することによって、デバイスの電源をオン／オフするため、ボタンを押し下げて、既定の時間が経過する前にボタンを解放することによってデバイスをロックするため、及び／又はデバイスをロック解除する、若しくはロック解除プロセスを開始するために、使用される。代替の実施形態では、デバイス２００は、マイクロフォン２１３を介して、いくつかの機能をアクティブ化又は非アクティブ化するための口頭入力もまた受け入れる。デバイス２００は、任意選択的に、タッチスクリーン２１２上の接触の強度を検出する１つ以上の接触強度センサ２６５、及び／又はデバイス２００のユーザに対する触知出力を生成する１つ以上の触知出力生成器２６７もまた含む。

図４は、一部の実施形態による、ディスプレイ及びタッチ感知面を有する例示的な多機能デバイスのブロック図である。デバイス４００は、ポータブル型である必要はない。一部の実施形態では、デバイス４００は、ラップトップコンピュータ、デスクトップコンピュータ、タブレットコンピュータ、マルチメディアプレーヤデバイス、ナビゲーションデバイス、教育的デバイス（子供の学習玩具など）、ゲームシステム、又は制御デバイス（例えば、家庭用又は業務用コントローラ）である。デバイス４００は、通常、１つ以上の処理ユニット（ＣＰＵ）４１０、１つ以上のネットワーク又は他の通信インタフェース４６０、メモリ４７０、及びこれらの構成要素を相互接続する１つ以上の通信バス４２０を含む。通信バス４２０は、任意選択的に、システム構成要素間の通信を相互接続及び制御する回路（チップセットと呼ばれることもある）を含む。デバイス４００は、ディスプレイ４４０を含む入出力（Ｉ／Ｏ）インタフェース４３０を含み、ディスプレイは、通常、タッチスクリーンディスプレイである。Ｉ／Ｏインタフェース４３０はまた、任意選択的に、キーボード及び／又はマウス（又は、他のポインティングデバイス）４５０、並びに、タッチパッド４５５、デバイス４００上に触知出力を生成するための（例えば、図２Ａを参照して上述された触知出力生成器２６７（単数又は複数）と同様の）触知出力生成器４５７、センサ４５９（例えば、光センサ、加速度センサ、近接センサ、タッチ感知センサ、及び／又は、図２Ａを参照して上述された接触強度センサ（単数又は複数）２６５と同様の接触強度センサ）も含む。メモリ４７０は、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭ、又は他のランダムアクセスソリッドステートメモリデバイスなどの高速ランダムアクセスメモリを含み、任意選択的に、１つ以上の磁気ディスク記憶デバイス、光ディスク記憶デバイス、フラッシュメモリデバイス、又は他の不揮発性ソリッドステート記憶デバイスなどの不揮発性メモリを含む。メモリ４７０は、任意選択で、ＣＰＵ（単数又は複数）４１０からリモートに位置する１つ以上の記憶デバイスを含む。一部の実施形態では、メモリ４７０は、ポータブル多機能デバイス２００（図２Ａ）のメモリ２０２内に記憶されているプログラム、モジュール、及びデータ構造に類似する、プログラム、モジュール、及びデータ構造、若しくはそれらのサブセットを記憶している。更に、メモリ４７０は、任意選択で、ポータブル多機能デバイス２００のメモリ２０２に存在しない追加のプログラム、モジュール、及びデータ構造を記憶する。例えば、デバイス４００のメモリ４７０は、任意選択的に、描画モジュール４８０、プレゼンテーションモジュール４８２、ワードプロセッシングモジュール４８４、ウェブサイト作成モジュール４８６、ディスクオーサリングモジュール４８８、及び／又はスプレッドシートモジュール４９０を記憶しているが、その一方で、ポータブル多機能デバイス２００（図２Ａ）のメモリ２０２は、任意選択的に、これらのモジュールを記憶していない。

図４中の上記で特定された各要素は、いくつかの例では、上記で言及されたメモリデバイスのうちの任意の１つ以上に格納される。上記で特定したモジュールはそれぞれ、前述した機能を実行する命令セットに対応する。上記で特定されたモジュール又はプログラム（例えば、命令のセット）は、別個のソフトウェアプログラム、手順、又はモジュールとして実装される必要はなく、したがって、これらのモジュールの様々なサブセットは、様々な実施形態において結合されるか、さもなければ再構成される。一部の実施形態では、メモリ４７０は、上記で特定されたモジュール及びデータ構造のサブセットを記憶する。更に、メモリ４７０は、上述しない追加モジュール及びデータ構造を記憶する。

ここで、例えば、ポータブル多機能デバイス２００に実装することができるユーザインタフェースの実施形態に注目する。

図５Ａは、一部の実施形態による、ポータブル多機能デバイス２００上のアプリケーションのメニューに関する、例示的なユーザインタフェースを示す。類似のユーザインタフェースは、デバイス４００に実装される。一部の実施形態では、ユーザインタフェース５００は、以下の要素、又はそれらのサブセット若しくはスーパーセットを含む：

セルラー及びＷｉ－Ｆｉ信号などの無線通信（単数又は複数）のための信号強度インジケータ（単数又は複数）５０２、
●時刻５０４、
●Ｂｌｕｅｔｏｏｔｈインジケータ５０５、
●バッテリ状態インジケータ５０６、
●以下のような、頻繁に使用されるアプリケーションのアイコンを有するトレイ５０８：
○不在着信又はボイスメールメッセージの数のインジケータ５１４を任意選択的に含む、「電話」とラベル付けされた、電話モジュール２３８のアイコン５１６、
○未読電子メールの数のインジケータ５１０を任意選択的に含む、「メール」とラベル付けされた、電子メールクライアントモジュール２４０のアイコン５１８、
○「ブラウザ」とラベル付けされた、ブラウザモジュール２４７のアイコン５２０、及び
○「ｉＰｏｄ」とラベル付けされる、ｉＰｏｄ（ＡｐｐｌｅＩｎｃ．の商標）モジュール２５２とも称される動画及び音楽プレーヤモジュール２５２用のアイコン５２２、及び
●以下のような、他のアプリケーションのアイコン、
○「メッセージ」とラベル付けされた、ＩＭモジュール２４１のアイコン５２４、
○「カレンダー」とラベル付けされた、カレンダーモジュール２４８のアイコン５２６、
○「写真」とラベル付けされた、画像管理モジュール２４４のアイコン５２８、
○「カメラ」とラベル付けされた、カメラモジュール２４３のアイコン５３０、
○「オンライン動画」とラベル付けされた、オンライン動画モジュール２５５のアイコン５３２、
〇「株価」とラベル付けされた、株価ウィジェット２４９－２のアイコン５３４、
○「マップ」とラベル付けされた、地図モジュール２５４のアイコン５３６、
○「天気」とラベル付けされた、気象ウィジェット２４９－１のアイコン５３８、
○「時計」とラベル付けされた、アラーム時計ウィジェット２４９－４のアイコン５４０、
○「トレーニングサポート」とラベル付けされた、トレーニングサポートモジュール２４２のアイコン５４２、
○「メモ」とラベル付けされた、メモモジュール２５３のアイコン５４４、及び
○デバイス２００及びその様々なアプリケーション２３６の設定へのアクセスを提供する、「設定」とラベル付けされた、設定アプリケーション又はモジュールのアイコン５４６。

図５Ａに示されるアイコンのラベルは、単なる例示であることに留意されたい。例えば、ビデオ及び音楽プレーヤモジュール２５２用のアイコン５２２は、任意選択的に、「ミュージック」又は「音楽プレーヤ」とラベル付けされる。他のラベルが、様々なアプリケーションアイコンのために、任意選択的に使用される。いくつかの実施形態では、個別のアプリケーションアイコンに関するラベルは、個別のアプリケーションアイコンに対応するアプリケーションの名前を含む。いくつかの実施形態では、特定のアプリケーションアイコンのラベルは、その特定のアプリケーションアイコンに対応するアプリケーションの名前とは異なる。

図５Ｂは、ディスプレイ５５０（例えば、タッチスクリーンディスプレイ２１２）とは別個のタッチ感知面５５１（例えば、図４のタブレット又はタッチパッド４５５）を有するデバイス（例えば、図４のデバイス４００）上の、例示的なユーザインタフェースを示す。デバイス４００はまた、任意選択的に、タッチ感知面５５１上の接触の強度を検出する１つ以上の接触強度センサ（例えば、センサ４５７のうちの１つ以上）、及び／又はデバイス４００のユーザに対して触知出力を生成する１つ以上の触知出力生成器４５９を含む。

以下の実施例のうちのいくつかはタッチスクリーンディスプレイ２１２上の入力（タッチ感知面とディスプレイとが組み合わされている場合）を参照して説明されるが、一部の実施形態では、デバイスは、図５Ｂに示すように、ディスプレイとは別個のタッチ感知面上の入力を検出する。一部の実施形態では、このタッチ感知面（例えば、図５Ｂでの５５１）は、ディスプレイ（例えば、５５０）上の主軸（例えば、図５Ｂでの５５３）に対応する主軸（例えば、図５Ｂでの５５２）を有する。これらの実施形態によれば、デバイスは、ディスプレイ上のそれぞれの場所に対応する場所での、タッチ感知面５５１との接触（例えば、図５Ｂの５６０及び５６２）を検出する（例えば、図５Ｂでは、５６０は５６８に対応し、５６２は５７０に対応する）。この方式で、タッチ感知面がディスプレイとは別個のものである場合、タッチ感知面（例えば、図５Ｂでの５５１）上でデバイスによって検出されたユーザ入力（例えば、接触５６０及び接触５６２、並びにそれらの移動）が、多機能デバイスのディスプレイ（例えば、図５Ｂでの５５０）上のユーザインタフェースを操作するために、デバイスによって使用される。同様の方法が、本明細書に記載の他のユーザインタフェースに任意選択的に使用されることを理解されたい。

加えて、以下の例は、主に指入力（例えば、指接触、指タップジェスチャ、指スワイプジェスチャ）を参照して与えられる一方、いくつかの実施形態では、指入力のうちの１つ以上が別の入力デバイスからの入力（例えば、マウスベースの入力又はスタイラス入力）に置き換えられることを理解されたい。例えば、スワイプジェスチャは、任意選択的に、（例えば、接触の代わりに、）マウスクリックであって、その後に（例えば、接触の移動の代わりに）スワイプの経路に沿ったカーソルの移動を伴うマウスクリックによって置き換えられる。別の例として、タップジェスチャは、任意選択的に、カーソルがタップジェスチャの位置上に位置する間は、（例えば、接触を検出して、それに続いて接触の検出を停止する代わりに）マウスクリックによって置き換えられる。同様に、複数のユーザ入力が同時に検出されるとき、複数のコンピュータマウスが、任意選択的に、同時に使用され、又はマウス及び指の接触が、任意選択的に、同時に使用されることを理解されたい。

図６Ａは、例示的なパーソナル電子デバイス６００を示す。デバイス６００は、本体６０２を含む。一部の実施形態では、デバイス６００は、デバイス２００及び４００（例えば、図２Ａ～図４）に関連して説明した特徴のいくつか又は全てを含む。一部の実施形態では、デバイス６００は、タッチ感知ディスプレイスクリーン６０４、以下ではタッチスクリーン６０４を有する。タッチスクリーン６０４の代わりに、又はそれに加えて、デバイス６００は、ディスプレイ及びタッチ感知面を有する。デバイス２００及び４００と共に、一部の実施形態では、タッチスクリーン６０４（又はタッチ感知面）は、適用される接触（例えば、タッチ）の強度を検出する１つ以上の強度センサを有する。タッチスクリーン６０４（又はタッチ感知面）の１つ以上の強度センサは、タッチの強度を表す出力データを提供する。デバイス６００のユーザインタフェースは、タッチの強度に基づいてタッチに応答するが、これは、異なる強度のタッチが、デバイス６００上に異なるユーザインタフェース動作を呼び出すことができることを意味する。

タッチ強度を検出して処理する技術は、例えば、関連出願：２０１３年５月８日に出願された国際特許出願第ＰＣＴ／ＵＳ２０１３／０４００６１号の「Ｄｅｖｉｃｅ，Ｍｅｔｈｏｄ，ａｎｄＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅｆｏｒＤｉｓｐｌａｙｉｎｇＵｓｅｒＩｎｔｅｒｆａｃｅＯｂｊｅｃｔｓＣｏｒｒｅｓｐｏｎｄｉｎｇｔｏａｎＡｐｐｌｉｃａｔｉｏｎ」、及び２０１３年１１月１１日に出願された国際特許出願第ＰＣＴ／ＵＳ２０１３／０６９４８３号の「Ｄｅｖｉｃｅ，Ｍｅｔｈｏｄ，ａｎｄＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅｆｏｒＴｒａｎｓｉｔｉｏｎｉｎｇＢｅｔｗｅｅｎＴｏｕｃｈＩｎｐｕｔｔｏＤｉｓｐｌａｙＯｕｔｐｕｔＲｅｌａｔｉｏｎｓｈｉｐｓ」に見出すことができ、これらのそれぞれは、全体が参照により本明細書に組み込まれる。

一部の実施形態では、デバイス６００は、１つ以上の入力機構６０６及び６０８を有する。入力機構６０６及び６０８は、含まれる場合、物理的である。物理的入力機構の例としては、プッシュボタン及び回転可能機構が挙げられる。一部の実施形態では、デバイス６００は、１つ以上のアタッチメント機構を有する。そのようなアタッチメント機構は、含まれる場合、例えば帽子、眼鏡類、イアリング、ネックレス、シャツ、ジャケット、ブレスレット、ウォッチのバンド、チェーン、ズボン、ベルト、靴、財布、バックパックなどにデバイス６００を取り付けることを可能にすることができる。これらのアタッチメント機構は、ユーザがデバイス６００を着用することを可能にする。

図６Ｂは、例示的なパーソナル電子デバイス６００を示す。いくつかの実施形態では、デバイス６００は、図２Ａ、図２Ｂ、及び図４に関連して説明された構成要素のいくつか又は全てを含む。デバイス６００は、Ｉ／Ｏ部６１４を１つ以上のコンピュータプロセッサ６１６及びメモリ６１８に動作可能に結合するバス６１２を有する。Ｉ／Ｏ部６１４は、タッチ感知構成要素６２２、及び任意選択的にタッチ強度感知構成要素６２４を有し得るディスプレイ６０４に接続される。これに加えて、Ｉ／Ｏ部６１４は、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、近距離通信（ＮＦＣ）、セルラー、及び／又は他の無線通信技術を使用して、アプリケーション及びオペレーティングシステムデータを受信する通信ユニット６３０に接続される。デバイス６００は、入力機構６０６及び／又は６０８を含む。入力機構６０６は、例えば、回転可能な入力デバイス又は押圧可能及び回転可能な入力デバイスである。入力機構６０８は、いくつかの例では、ボタンである。

入力機構６０８は、いくつかの例では、マイクロフォンである。パーソナル電子デバイス６００は、例えば、ＧＰＳセンサ６３２、加速度計６３４、方向センサ６４０（例えばコンパス）、ジャイロスコープ６３６、動きセンサ６３８、及び／又はこれらの組み合わせなどの各種センサを含み、これらの全てはＩ／Ｏ部６１４に動作可能に接続される。

パーソナル電子デバイス６００のメモリ６１８は、コンピュータ実行可能命令を記憶する非一時的コンピュータ可読記憶媒体であり、例えば、１つ以上のコンピュータプロセッサ６１６によって実行されると、コンピュータプロセッサに以下の技術及び処理を実行させる。それらのコンピュータ実行可能命令はまた、例えば、コンピュータベースのシステム、プロセッサを含むシステム、又は、命令実行システム、装置、若しくはデバイスから命令をフェッチし、それらの命令を実行することが可能な他のシステムなどの、命令実行システム、装置、又はデバイスによって使用するために、あるいはそれらと関連して使用するために、任意の非一時的コンピュータ可読記憶媒体内に、記憶及び／又は伝送される。パーソナル電子デバイス６００は、図６Ｂの構成要素及び構成に限定されるものではなく、他の構成要素又は追加的構成要素を、複数の構成で含み得る。

本明細書で使用されるとき、用語「アフォーダンス」とは、例えば、デバイス２００、４００、６００、８００、９００、９０２、又は９０４（図２Ａ、図４、図６Ａ～図６Ｂ、図８Ａ～図８ＣＴ、図９Ａ～図９Ｃ、図１０Ａ～図１０Ｖ、図１２、図１４、図１５、及び図１６）のディスプレイスクリーン上に表示される、ユーザ相互作用型グラフィカルユーザインタフェースオブジェクトを指す。例えば、画像（例えば、アイコン）、ボタン、及びテキスト（例えば、ハイパーリンク）はそれぞれ、アフォーダンスを構成する。

本明細書で使用される「フォーカスセレクタ」という用語は、ユーザが対話しているユーザインタフェースの現在の部分を示す入力要素を指す。カーソル又は他の位置マーカを含む一部の実装形態では、そのカーソルは「フォーカスセレクタ」としての役割を果たすことにより、特定のユーザインタフェース要素（例えば、ボタン、ウィンドウ、スライダ、又は他のユーザインタフェース要素）の上にカーソルが存在している間に、入力（例えば、押圧入力）がタッチ感知面（例えば、図４でのタッチパッド４５５、又は図５Ｂでのタッチ感知面５５１）上で検出されると、その特定のユーザインタフェース要素が、検出された入力に従って調節される。タッチスクリーンディスプレイ上のユーザインタフェース要素との直接的な対話を可能にする、タッチスクリーンディスプレイ（例えば、図２Ａでのタッチ感知ディスプレイシステム２１２、又は図５Ａでのタッチスクリーン２１２）を含む一部の実装形態では、タッチスクリーン上で検出される接触が「フォーカスセレクタ」としての役割を果たすことにより、入力（例えば、接触による押圧入力）が、タッチスクリーンディスプレイ上の特定のユーザインタフェース要素（例えば、ボタン、ウィンドウ、スライダ、又は他のユーザインタフェース要素）の場所で検出されると、その特定のユーザインタフェース要素が、検出された入力に従って調節される。いくつかの実装形態では、（例えば、フォーカスを１つのボタンから別のボタンへ動かすためにタブキー又は矢印キーを使用することによって）タッチスクリーンディスプレイ上の対応するカーソルの移動又は接触の移動なしに、フォーカスがユーザインタフェースの１つの領域からユーザインタフェースの別の領域に動かされ、これらの実装形態では、フォーカスセレクタは、ユーザインタフェースの種々の領域間でのフォーカスの移動に従って移動する。フォーカスセレクタがとる具体的な形態に関わらず、フォーカスセレクタは、一般に、ユーザが意図するユーザインタフェースとの対話について（例えば、ユーザがそれを通じて対話することを意図しているユーザインタフェースの要素をデバイスに示すことによって）伝えるためにユーザによって制御されるユーザインタフェース要素（又はタッチスクリーンディスプレイ上の接触）である。例えば、タッチ感知面（例えば、タッチパッド又はタッチスクリーン）上で押圧入力が検出されている間の、個別のボタンの上のフォーカスセレクタ（例えば、カーソル、接触、又は選択ボックス）の位置は、その個別のボタンを（そのデバイスのディスプレイ上に示される他のユーザインタフェース要素ではなく）アクティブ化することをユーザが意図していることを示すものである。

本明細書及び特許請求の範囲において使用されるとき、接触の「特性強度」という用語は、接触の１つ以上の強度に基づく、その接触の特性を指す。いくつかの実施形態では、特性強度は複数の強度サンプルに基づく。特性強度は、任意選択的に、既定の数の強度サンプル、すなわち、既定のイベント（例えば、接触を検出した後、接触のリフトオフを検出する前、接触の移動の開始を検出する前若しくは後、接触の終了を検出する前、接触の強度の増大を検出する前若しくは後、及び／又は、接触の強度の減少を検出する前若しくは後の）に関連する所定の時間（例えば、０．０５、０．１、０．２、０．５、１、２、５、１０秒）の間に収集された強度サンプルのセットに基づく。接触の特性強度は、任意選択的に、接触の強度の最大値、接触の強度の中間値、接触の強度の平均値、接触の強度の上位１０パーセント値、接触の強度の最大値の半分の値、接触の強度の最大値の９０パーセントの値などのうちの１つ以上に基づく。いくつかの実施形態では、特性強度を判定する際に（例えば、特性強度が経時的な接触の強度の平均であるときに）、接触の持続期間が使用される。いくつかの実施形態では、特性強度は、ユーザによって動作が実行されたかどうかを判定するために、１つ以上の強度閾値のセットと比較される。例えば、１つ以上の強度閾値のセットは、第１の強度閾値と第２の強度閾値とを含む。この例では、第１の閾値を超えない特性強度を有する接触は第１の動作をもたらし、第１の強度閾値を上回るが第２の強度閾値を超えない特性強度を有する接触は第２の動作をもたらし、第２の閾値を超える特性強度を有する接触は第３の動作をもたらす。一部の実施形態では、特性強度と１つ以上の閾値との比較は、第１の動作又は第２の動作のいずれを実行するかを判定するために使用されるのではなく、１つ以上の動作を実行するか否か（例えば、それぞれの動作を実行するか、又はそれぞれの動作の実行を取り止めるか）を判定するために使用される。

いくつかの実施形態では、特性強度を判定する目的のために、ジェスチャの一部分が特定される。例えば、タッチ感知面は、接触強度が増加する開始位置点から終了位置点に移行する連続スワイプ接触を受け取る。この例では、終了位置における接触の特性強度は、スワイプ接触全体（例えば、終了位置でのスワイプ接触の一部分のみ）ではなく、連続スワイプ接触の一部分のみに基づく。一部の実施形態では、平滑化アルゴリズムは、接触の特性強度を判定する前に、スワイプ接触の強度に適用される。例えば、平滑化アルゴリズムは、任意選択的に、非加重移動平均平滑化アルゴリズム、三角平滑化アルゴリズム、中央値フィルタ平滑化アルゴリズム、及び／又は指数平滑化アルゴリズムのうちの１つ以上を含む。いくつかの状況では、これらの平滑化アルゴリズムは、特性強度を判定する目的のために、スワイプ接触強度の幅の狭いスパイク又は下落を排除する。

タッチ感知面上の接触の強度は、接触検出強度閾値、軽い押圧強度閾値、深い押圧強度閾値、及び／又は１つ以上の他の強度閾値などの１つ以上の強度閾値に対して特徴付けられる。いくつかの実施形態では、軽い押圧強度閾値は、通常、物理マウスのボタン又はトラックパッドをクリックすることに関連付けられた動作をデバイスが実行する強度に相当する。いくつかの実施形態では、深い押圧強度閾値は、通常、物理マウスのボタン又はトラックパッドをクリックすることに関連付けられた動作とは異なる動作をデバイスが実行する強度に相当する。いくつかの実施形態では、軽い押圧強度閾値を下回る（例えば、かつそれを下回ると接触が検出されなくなる公称接触検出強度閾値を上回る）特性強度を有する接触が検出されたとき、デバイスは、タッチ感知面上の接触の移動に従い、軽い押圧強度閾値又は深い押圧強度閾値に関連付けられた動作を実行することなく、フォーカスセレクタを動かす。一般に、特に明記しない限り、これらの強度閾値は、ユーザインタフェースの値の様々なセットの間で一貫している。

軽い押圧強度閾値を下回る強度から、軽い押圧強度閾値と深い押圧強度閾値との間の強度への、接触の特性強度の増大は、「軽い押圧」の入力と呼ばれることがある。深い押圧強度閾値を下回る強度から、深い押圧強度閾値を上回る強度への、接触の特性強度の増大は、「深い押圧」の入力と呼ばれることがある。接触検出強度閾値を下回る強度から、接触検出強度閾値と軽い押圧強度閾値との間の強度への、接触の特性強度の増大は、タッチ面上の接触の検出と呼ばれることがある。接触検出強度閾値を上回る強度から、接触検出強度閾値を下回る強度への、接触の特性強度の減少は、タッチ面からの接触のリフトオフの検出と呼ばれることがある。いくつかの実施形態では、接触検出強度閾値はゼロである。いくつかの実施形態では、接触検出強度閾値はゼロより大きい。

本明細書に記載するいくつかの実施形態では、個別の押圧入力を含むジェスチャを検出したことに応じて、又は個別の接触（若しくは複数の接触）によって実行された個別の押圧入力を検出したことに応じて、１つ以上の動作が実行され、個別の押圧入力は、押圧入力強度閾値を上回る接触（又は複数の接触）の強度の増大を検出したことに少なくとも部分的に基づいて検出される。いくつかの実施形態では、個別の動作は、押圧入力強度閾値を上回る個別の接触の強度の増大（例えば、個別の押圧入力の「ダウンストローク」）を検出したことに応じて実行される。いくつかの実施形態では、押圧入力は、押圧入力強度閾値を上回る個別の接触の強度の増大、及びそれに続く押圧入力強度閾値を下回る接触の強度の減少を含み、個別の動作は、それに続く押圧入力閾値を下回る個別の接触の強度の減少（例えば、個別の押圧入力の「アップストローク」）を検出したことに応じて実行される。

いくつかの実施形態では、デバイスは、「ジッタ」と呼ばれる場合がある偶発的な入力を回避するために強度ヒステリシスを採用し、デバイスは、押圧入力強度閾値との既定の関係を有するヒステリシス強度閾値を定義又は選択する（例えば、ヒステリシス強度閾値は、押圧入力強度閾値よりもＸ強度単位低い、又はヒステリシス強度閾値は、押圧入力強度閾値の７５％、９０％、若しくはなんらかの妥当な割合である）。したがって、いくつかの実施形態では、押圧入力は、押圧入力強度閾値を上回る個別の接触の強度の増大、及びそれに続く押圧入力強度閾値に対応するヒステリシス強度閾値を下回る接触の強度の減少を含み、個別の動作は、それに続くヒステリシス強度閾値を下回る個別の接触の強度の減少（例えば、個別の押圧入力の「アップストローク」）を検出したことに応じて実行される。同様に、いくつかの実施形態では、押圧入力は、デバイスが、ヒステリシス強度閾値以下の強度から押圧入力強度閾値以上の強度への接触の強度の増大、及び任意選択的に、その後のヒステリシス強度以下の強度への接触の強度の減少を検出するときにのみ検出され、個別の動作は、押圧入力（例えば、状況に応じて、接触の強度の増大又は接触の強度の減少）を検出したことに応じて実行される。

説明を容易にするために、押圧入力強度閾値に関連付けられた押圧入力、又は押圧入力を含むジェスチャに応じて実行される動作の説明は、任意選択的に、押圧入力強度閾値を上回る接触の強度の増大、ヒステリシス強度閾値を下回る強度から押圧入力強度閾値を上回る強度への接触の強度の増大、押圧入力強度閾値を下回る接触の強度の減少、及び／又は押圧入力強度閾値に対応するヒステリシス強度閾値を下回る接触の強度の減少のいずれかを検出したことに応じてトリガされる。更に、押圧入力強度閾値を下回る接触の強度の減少を検出したことに応じて実行されるように動作が記載される例では、動作は、任意選択的に、押圧入力強度閾値に対応し、かつそれよりも低いヒステリシス強度閾値を下回る接触の強度の減少を検出したことに応じて実行される。
３．デジタルアシスタントシステム

図７Ａは、様々な実施例による、デジタルアシスタントシステム７００のブロック図を示す。一部の実施例では、デジタルアシスタントシステム７００は、スタンドアロン型コンピュータシステム上に実装される。一部の実施例では、デジタルアシスタントシステム７００は、複数のコンピュータにわたって分散される。一部の実施例では、デジタルアシスタントのモジュール及び機能のうちの一部は、サーバ部分とクライアント部分とに割り振られており、クライアント部分は、例えば、図１に示すように、１つ以上のユーザデバイス（例えば、デバイス１０４、１２２、２００、４００、６００、８００、９００、９０２、又は９０４）上に常駐し、１つ以上のネットワークを通じてサーバ部分（例えば、サーバシステム１０８）と通信する。一部の実施例では、デジタルアシスタントシステム７００は、図１に示すサーバシステム１０８（及び／又は、ＤＡサーバ１０６）の実装形態である。デジタルアシスタントシステム７００は、デジタルアシスタントシステムの一実施例に過ぎず、デジタルアシスタントシステム７００は、示しているものよりも多くの構成要素又は少ない構成要素を有し得るものであり、２つ以上の構成要素を組み合わせることもでき、又は、それらの構成要素の異なる構成若しくは配置を有し得ることに留意されたい。図７Ａに示す様々な構成要素は、１つ以上の信号処理回路及び／又は特定用途向け集積回路を含めたハードウェア、１つ以上のプロセッサによって実行されるソフトウェア命令、ファームウェア、若しくはそれらの組み合わせとして実装される。

デジタルアシスタントシステム７００は、メモリ７０２、１つ以上のプロセッサ７０４、入出力（Ｉ／Ｏ）インタフェース７０６、及びネットワーク通信インタフェース７０８を含む。これらの構成要素は、１つ以上の通信バス又は信号ライン７１０を介して互いに通信することができる。

一部の実施例では、メモリ７０２は、高速ランダムアクセスメモリ及び／又は不揮発性コンピュータ可読記憶媒体（例えば、１つ以上の磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の不揮発性ソリッドステートメモリデバイス）などの、非一時的コンピュータ可読媒体を含む。

一部の実施例では、Ｉ／Ｏインタフェース７０６は、ディスプレイ、キーボード、タッチスクリーン、及びマイクロフォンなどの、デジタルアシスタントシステム７００の入出力デバイス７１６を、ユーザインタフェースモジュール７２２に結合する。Ｉ／Ｏインタフェース７０６は、ユーザインタフェースモジュール７２２と連動して、ユーザ入力（例えば、音声入力、キーボード入力、タッチ入力など）を受信し、それらを適宜に処理する。一部の実施例では、例えば、デジタルアシスタントがスタンドアロン型ユーザデバイス上に実装される場合、デジタルアシスタントシステム７００は、図２Ａ、図４、図６Ａ～図６Ｂ、図８Ａ～図８ＣＴ、図９Ａ～図９Ｃ、図１０Ａ～図１０Ｖ、図１２、図１４、図１５、及び図１６で、それぞれデバイス２００、４００、６００、８００、９００、９０２、及び９０４に関連して説明される、構成要素並びにＩ／Ｏ通信インタフェースのうちのいずれかを含む。一部の実施例では、デジタルアシスタントシステム７００は、デジタルアシスタントの実装形態のサーバ部分を表すものであり、ユーザデバイス（例えば、デバイス１０４、２００、４００、６００、８００、９００、９０２、又は９０４）上に常駐するクライアント側部分を通じて、ユーザと相互作用することができる。

一部の実施例では、ネットワーク通信インタフェース７０８は、有線通信ポート（単数又は複数）７１２及び／又は無線送受信回路７１４を含む。有線通信ポート（単数又は複数）は、１つ以上の有線インタフェース、例えば、イーサネット、ユニバーサルシリアルバス（ＵＳＢ）、ＦＩＲＥＷＩＲＥ（登録商標）などを介して、通信信号を送受信する。無線回路７１４は、通信ネットワーク及び他の通信デバイスとの間で、ＲＦ信号及び／又は光信号を送受信する。無線通信は、ＧＳＭ、ＥＤＧＥ、ＣＤＭＡ、ＴＤＭＡ、Ｂｌｕｅｔｏｏｔｈ、Ｗｉ－Ｆｉ、ＶｏＩＰ、Ｗｉ－ＭＡＸ、又は任意の他の好適な通信プロトコルなどの、複数の通信規格、通信プロトコル、及び通信技術のうちのいずれかを使用する。ネットワーク通信インタフェース７０８は、デジタルアシスタントシステム７００と、インターネット、イントラネット、並びに／あるいは、セルラー電話ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）、及び／又はメトロポリタンエリアネットワーク（ＭＡＮ）などの無線ネットワークなどの、ネットワークとの間の、また他のデバイスとの間の、通信を可能にする。

一部の実施例では、メモリ７０２、又はメモリ７０２のコンピュータ可読記憶媒体は、オペレーティングシステム７１８、通信モジュール７２０、ユーザインタフェースモジュール７２２、１つ以上のアプリケーション７２４、及びデジタルアシスタントモジュール７２６の全て若しくはサブセットを含めた、プログラム、モジュール、命令、及びデータ構造を記憶している。特に、メモリ７０２、又はメモリ７０２のコンピュータ可読記憶媒体は、以下で説明されるプロセスを実行する命令を記憶している。１つ以上のプロセッサ７０４は、これらのプログラム、モジュール、及び命令を実行し、データ構造からの読み出し／データ構造への書き込みを行う。

オペレーティングシステム７１８（例えば、Ｄａｒｗｉｎ、ＲＴＸＣ、ＬＩＮＵＸ、ＵＮＩＸ（登録商標）、ｉＯＳ、ＯＳＸ、ＷＩＮＤＯＷＳ（登録商標）、又は、ＶｘＷｏｒｋｓなどの組込み型オペレーティングシステム）は、一般的なシステムタスク（例えば、メモリ管理、記憶デバイス制御、電力管理など）を制御及び管理するための、様々なソフトウェア構成要素並びに／あるいはドライバを含み、様々なハードウェア、ファームウェア、及びソフトウェア構成要素間の通信を容易にする。

通信モジュール７２０は、ネットワーク通信インタフェース７０８を介した、デジタルアシスタントシステム７００と他のデバイスとの間の通信を容易にする。例えば、通信モジュール７２０は、それぞれ、図２Ａ、図４、図６Ａ～図６Ｂに示すデバイス２００、４００、及び６００などの電子デバイスのＲＦ回路２０８と通信する。通信モジュール７２０はまた、無線回路７１４及び／又は有線通信ポート７１２によって受信されたデータを処理するための、様々な構成要素をも含む。

ユーザインタフェースモジュール７２２は、Ｉ／Ｏインタフェース７０６を介して（例えば、キーボード、タッチスクリーン、ポインティングデバイス、コントローラ、及び／又はマイクロフォンから）、ユーザからのコマンド及び／又は入力を受信して、ディスプレイ上にユーザインタフェースオブジェクトを生成する。ユーザインタフェースモジュール７２２はまた、Ｉ／Ｏインタフェース７０６を介して（例えば、ディスプレイ、オーディオチャネル、スピーカ、タッチパッドなどを通じて）、ユーザへの出力（例えば、発話、サウンド、アニメーション、テキスト、アイコン、振動、触覚フィードバック、光など）をも準備及び配信する。

アプリケーション７２４は、１つ以上のプロセッサ７０４によって実行されるように構成された、プログラム及び／又はモジュールを含む。例えば、デジタルアシスタントシステムがスタンドアロン型ユーザデバイス上に実装される場合には、アプリケーション７２４は、ゲーム、カレンダーアプリケーション、ナビゲーションアプリケーション、又は電子メールアプリケーションなどのユーザアプリケーションを含む。デジタルアシスタントシステム７００がサーバ上に実装される場合には、アプリケーション７２４は、例えば、リソース管理アプリケーション、診断アプリケーション、又はスケジューリングアプリケーションを含む。

メモリ７０２はまた、デジタルアシスタントモジュール７２６（又は、デジタルアシスタントのサーバ部分）をも記憶している。一部の実施例では、デジタルアシスタントモジュール７２６は、以下のサブモジュール、又はそれらのサブセット若しくはスーパーセットを含む：入出力処理モジュール７２８、音声テキスト化（speech-to-text；ＳＴＴ）処理モジュール７３０、自然言語処理モジュール７３２、ダイアログフロー処理モジュール７３４、タスクフロー処理モジュール７３６、サービス処理モジュール７３８、及び発話合成処理モジュール７４０。これらのモジュールのそれぞれは、デジタルアシスタントモジュール７２６の以下のシステムあるいはデータ及びモデルのうちの１つ以上、又はそれらのサブセット若しくはスーパーセットへのアクセスを有する：オントロジ７６０、語彙索引７４４、ユーザデータ７４８、タスクフローモデル７５４、サービスモデル７５６、及びＡＳＲシステム７５８。

一部の実施例では、デジタルアシスタントモジュール７２６に実装された処理モジュール、データ、及びモデルを使用することにより、デジタルアシスタントは、以下のうちの少なくとも一部を実行することができる：発話入力をテキストに変換することと、ユーザから受信した自然言語入力で表現されるユーザの意図を識別すること、（例えば、単語、ゲーム、意図などを明確にすることによって）ユーザの意図を完全に推測するために必要な情報を能動的に引き出して取得すること、推測された意図を満たすためのタスクフローを判定すること、及び、そのタスクフローを実行して、推測された意図を満たすこと。

一部の実施例では、図７Ｂに示すように、Ｉ／Ｏ処理モジュール７２８は、ユーザ入力（例えば、発話入力）を取得するために、及びユーザ入力への応答を（例えば、発話出力として）提供するために、図７ＡのＩ／Ｏデバイス７１６を通じてユーザと相互作用し、又は、図７Ａのネットワーク通信インタフェース７０８を通じてユーザデバイス（例えば、デバイス１０４、２００、４００、６００、又は８００）と相互作用する。Ｉ／Ｏ処理モジュール７２８は、任意選択的に、ユーザ入力と共に、又はユーザ入力の受信の直後に、そのユーザ入力に関連付けられたコンテキスト情報をユーザデバイスから取得する。コンテキスト情報は、そのユーザ入力に関連する、ユーザ固有のデータ、語彙、及び／又は選好を含む。一部の実施例では、コンテキスト情報はまた、ユーザ要求が受信される時点での、ユーザデバイスのソフトウェア状態及びハードウェア状態、並びに／あるいは、ユーザ要求が受信された時点での、ユーザの周囲環境に関する情報をも含む。一部の実施例では、Ｉ／Ｏ処理モジュール７２８はまた、ユーザ要求に関して、ユーザに補足質問を送信し、ユーザから回答を受信する。ユーザ要求がＩ／Ｏ処理モジュール７２８によって受信され、そのユーザ要求が発話入力を含む場合、Ｉ／Ｏ処理モジュール７２８は、音声テキスト化変換のために、その発話入力をＳＴＴ処理モジュール７３０（又は、音声認識器）に転送する。

ＳＴＴ処理モジュール７３０は、１つ以上のＡＳＲシステム７５８を含む。１つ以上のＡＳＲシステム７５８は、Ｉ／Ｏ処理モジュール７２８を介して受信された発話入力を処理して、認識結果を生成することができる。各ＡＳＲシステム７５８は、フロントエンド発話プリプロセッサを含む。このフロントエンド発話プリプロセッサは、発話入力から代表的特徴を抽出する。例えば、フロントエンド発話プリプロセッサは、発話入力に対してフーリエ変換を実行することにより、その発話入力を代表的な多次元ベクトルのシーケンスとして特徴付ける、スペクトル特徴を抽出する。更には、各ＡＳＲシステム７５８は、１つ以上の音声認識モデル（例えば、音響モデル及び／又は言語モデル）を含み、１つ以上の音声認識エンジンを実装する。音声認識モデルの例としては、隠れマルコフモデル、混合ガウスモデル、ディープニューラルネットワークモデル、ｎグラム言語モデル、及び他の統計的モデルが挙げられる。音声認識エンジンの例としては、動的時間伸縮法ベースのエンジン、及び重み付き有限状態トランスデューサ（weighted finite-state transducer；ＷＦＳＴ）ベースのエンジンが挙げられる。１つ以上の音声認識モデル及び１つ以上の音声認識エンジンが、フロントエンド音声プリプロセッサの抽出された代表的特徴を処理して中間認識結果（例えば、音素、音素列、部分語）、最終的にテキスト認識結果（単語、単語列、トークンのシーケンス）を生成するために使用される。一部の実施例では、発話入力は、認識結果を生成するために、第三者サービスによって、又はユーザのデバイス（例えば、デバイス１０４、２００、４００、６００、又は８００）上で、少なくとも部分的に処理される。ＳＴＴ処理モジュール７３０が、テキスト文字列（例えば、単語、単語の列、又はトークンの列）を含む認識結果を生成すると、その認識結果は、意図推論のために自然言語処理モジュール７３２に渡される。一部の実施例では、ＳＴＴ処理モジュール７３０は、発話入力の複数のテキスト表現候補を生成する。各テキスト表現候補は、発話入力に対応する、単語又はトークンのシーケンスである。一部の実施例では、各テキスト表現候補は、音声認識信頼性スコアに関連付けられる。この音声認識信頼性スコアに基づいて、ＳＴＴ処理モジュール７３０は、テキスト表現候補をランク付けし、ｎ個の最良の（例えば、ｎ個の最高ランクの）テキスト表現候補（単数又は複数）を、意図推論のために自然言語処理モジュール７３２に提供する（ｎは、ゼロよりも大きい所定の整数である）。例えば、一実施例では、最高ランク（ｎ＝１）のテキスト表現候補のみが、意図推論のために自然言語処理モジュール７３２に渡される。別の実施例では、５つの最高ランク（ｎ＝５）のテキスト表現候補が、意図推論のために自然言語処理モジュール７３２に渡される。

音声テキスト化処理についての更なる詳細は、開示全体が参照により本明細書に組み込まれる、２０１１年９月２０日出願の、「ＣｏｎｓｏｌｉｄａｔｉｎｇＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＲｅｓｕｌｔｓ」に関する米国実用特許出願第１３／２３６，９４２号で説明されている。

一部の実施例では、ＳＴＴ処理モジュール７３０は、認識可能な単語の語彙を含み、及び／又は、音標文字変換モジュール７３１を介して、その語彙にアクセスする。各語彙単語は、音声認識音標文字で表された、その単語の１つ以上の発音候補と関連付けられている。具体的には、認識可能な単語の語彙は、複数の発音候補に関連付けられている単語を含む。例えば、語彙は、

の発音候補に関連付けられている単語「ｔｏｍａｔｏ（トマト）」を含む。更には、語彙単語は、ユーザからの以前の発話入力に基づく、カスタム発音候補に関連付けられている。そのようなカスタム発音候補は、ＳＴＴ処理モジュール７３０内に記憶され、デバイス上のユーザのプロファイルを介して、特定のユーザに関連付けられている。一部の実施例では、単語に関する発音候補は、単語の綴り、並びに１つ以上の言語規則及び／又は音標規則に基づいて判定される。一部の実施例では、発音候補は、例えば既知の正規発音に基づいて、手動で生成される。

一部の実施例では、発音候補は、その発音候補の一般性に基づいてランク付けされる。例えば、発音候補

よりも高くランク付けされるが、これは、前者が、（例えば、全てのユーザの間で、特定の地理的領域内のユーザに関して、又は、任意の他の適切なユーザのサブセットに関して）より一般的に使用される発音であるためである。一部の実施例では、発音候補は、その発音候補がユーザに関連付けられているカスタム発音候補であるか否かに基づいて、ランク付けされる。例えば、カスタム発音候補は、正規発音候補よりも高くランク付けされる。このことは、正規発音から逸脱した独特の発音を有する固有名詞を認識するために、有用となり得る。一部の実施例では、発音候補は、出身地、国籍、又は民族性などの、１つ以上の発話特性に関連付けられている。例えば、発音候補

は、米国に関連付けられており、その一方で、発音候補

は、英国に関連付けられている。更には、発音候補のランクは、デバイス上のユーザのプロファイル内に記憶されている、そのユーザの１つ以上の特性（例えば、出身地、国籍、民族性など）に基づく。例えば、ユーザのプロファイルから、そのユーザが米国に関連付けられていることを判定することができる。ユーザが米国に関連付けられていることに基づいて、（米国に関連付けられている）発音候補

は、（英国に関連付けられている）発音候補

よりも高くランク付けされる。一部の実施例では、ランク付けされた発音候補のうちの１つが、予測される発音（例えば、最も可能性が高い発音）として選択される。

発話入力が受信されると、ＳＴＴ処理モジュール７３０を使用して、その発話入力に対応する音素が（例えば、音響モデルを使用して）判定され、次いで、その音素に一致する単語を（例えば、言語モデルを使用して）判定することが試みられる。例えば、ＳＴＴ処理モジュール７３０が最初に、発話入力の一部分に対応する音素の列

を特定した場合には、次いで、語彙索引７４４に基づいて、この列が単語「ｔｏｍａｔｏ（トマト）」に対応すると判定することができる。

一部の実施例では、ＳＴＴ処理モジュール７３０は、近似照合技術を使用して、発言内の単語を判定する。それゆえ、例えば、ＳＴＴ処理モジュール７３０は、音素の列

が単語「ｔｏｍａｔｏ（トマト）」に対応するものであることを、その特定の音素の列が、その単語の音素列候補のうちの１つではない場合であっても、判定する。

デジタルアシスタントの自然言語処理モジュール７３２（「自然言語プロセッサ」）は、ＳＴＴ処理モジュール７３０によって生成された、ｎ個の最良のテキスト表現候補（単数又は複数）（「単語列（単数又は複数）」又は「トークン列（単数又は複数）」）を取得して、それらのテキスト表現候補のそれぞれを、デジタルアシスタントによって認識される１つ以上の「実施可能な意図」に関連付けることを試みる。「実施可能な意図」（又は、「ユーザ意図」）とは、デジタルアシスタントによって実行することが可能なタスクを表すものであり、タスクフローモデル７５４内に実装される、関連するタスクフローを有し得る。この関連するタスクフローは、そのタスクを実行するためにデジタルアシスタントが実施する、一連のプログラムされたアクション及びステップである。デジタルアシスタントの能力の範囲は、タスクフローモデル７５４内に実装及び記憶されている、タスクフローの数及び多様性に応じて判定され、あるいは、換言すれば、そのデジタルアシスタントが認識する「実施可能な意図」の数及び多様性に応じて判定される。しかしながら、デジタルアシスタントの有効性はまた、自然言語で表現されたユーザ要求から正しい「実施可能な意図（単数又は複数）」を推測する、そのアシスタントの能力に応じても判定される。

一部の実施例では、ＳＴＴ処理モジュール７３０から取得される単語又はトークンの列に加えて、自然言語処理モジュール７３２はまた、例えばＩ／Ｏ処理モジュール７２８から、ユーザ要求に関連付けられたコンテキスト情報も受信する。自然言語処理モジュール７３２は、任意選択的に、そのコンテキスト情報を使用して、ＳＴＴ処理モジュール７３０から受信されたテキスト表現候補内に含まれている情報を、明らかにし、補完し、及び／又は更に定義する。コンテキスト情報は、例えば、ユーザ選好、ユーザデバイスのハードウェア及び／又はソフトウェア状態、ユーザ要求の前、最中、又は直後に収集されたセンサ情報、並びに、デジタルアシスタントとユーザとの間の以前の対話（例えば、ダイアログ）などを含む。本明細書で説明するように、コンテキスト情報は、一部の実施例では動的であり、時間、場所、ダイアログの内容、及び他の因子によって変化する。

一部の実施例では、自然言語処理は、例えば、オントロジ７６０に基づく。オントロジ７６０は、多数のノードを含む階層構造であり、各ノードは、「実施可能な意図」を表すか、又は、「実施可能な意図」のうちの１つ以上に関連する「属性」若しくは他の「属性」を表す。上述のように、「実施可能な意図」は、デジタルアシスタントが実行することが可能なタスクを表すものであり、すなわち、そのタスクは、「実施可能」であるか、又は実施対象となり得るものである。「属性」は、実施可能な意図に関連付けられた、又は別の属性の下位態様に関連付けられた、パラメータを表す。オントロジ７６０内の実施可能な意図ノードと属性ノードとの間のリンクは、属性ノードによって表されるパラメータが、実施可能な意図ノードによって表されるタスクにどのように関与するかを定義する。

一部の実施形態では、オントロジ７６０は、実施可能な意図ノード及び属性ノードで構成されている。オントロジ７６０内では、各実施可能な意図ノードは、１つ以上の属性ノードに直接リンクされているか、又は、１つ以上の中間属性ノードを介してリンクされている。同様に、各属性ノードは、１つ以上の実施可能な意図ノードに直接リンクされているか、又は、１つ以上の中間属性ノードを介してリンクされている。例えば、図７Ｃに示されるように、オントロジ７６０は、「レストラン予約」ノード（すなわち、実施可能な意図ノード）を含む。属性ノード「レストラン」、「日付／時間」（予約用）、及び「参加人数」が、それぞれ、実施可能な意図ノード（すなわち、「レストラン予約」ノード）に直接リンクされている。

更には、属性ノード「料理」、「価格帯」、「電話番号」、及び「場所」は、属性ノード「レストラン」の下位ノードであり、それぞれ、中間属性ノード「レストラン」を介して、「レストラン予約」ノード（すなわち、実施可能な意図ノード）にリンクされている。別の例として、図７Ｃに示すように、オントロジ７６０はまた、「リマインダ設定」ノード（すなわち、別の実施可能な意図ノード）も含む。属性ノード「日付／時間」（リマインダ設定用）及び「テーマ」（リマインダ用）が、それぞれ、「リマインダ設定」ノードにリンクされている。属性ノード「日付／時間」は、レストラン予約を実施するタスク及びリマインダを設定するタスクの双方に関連しているため、属性ノード「日付／時間」は、オントロジ７６０内で、「レストラン予約」ノード及び「リマインダ設定」ノードの双方にリンクされている。

実施可能な意図ノードは、そのリンクされている属性ノードと共に、「ドメイン」として説明される。本論考では、各ドメインは、対応の実施可能な意図と関連付けられており、その特定の実施可能な意図に関連付けられているノードのグループ（及び、それらノード間の関係）を指すものである。例えば、図７Ｃに示されるオントロジ７６０は、レストラン予約ドメイン７６２の一実施例、及びリマインダドメイン７６４の一実施例を、オントロジ７６０内に含む。レストラン予約ドメインは、実施可能な意図ノード「レストラン予約」、属性ノード「レストラン」、「日付／時間」、及び「参加人数」、並びに、下位属性ノード「料理」、「価格帯」、「電話番号」、及び「場所」を含む。リマインダドメイン７６４は、実施可能な意図ノード「リマインダ設定」、並びに属性ノード「テーマ」及び「日付／時間」を含む。一部の実施例では、オントロジ７６０は、多数のドメインで構成される。各ドメインは、１つ以上の属性ノードを、１つ以上の他のドメインと共有している。例えば、「日付／時間」属性ノードは、レストラン予約ドメイン７６２及びリマインダドメイン７６４に加えて、多数の異なるドメイン（例えば、スケジューリングドメイン、旅行予約ドメイン、映画チケットドメインなど）に関連付けられている。

図７Ｃは、オントロジ７６０内の２つの例示的なドメインを示すものであるが、他のドメインとしては、例えば、「映画を探す」、「電話通話を開始する」、「道順を探す」、「会合をスケジュールする」、「メッセージを送信する」、「質問の答えを提供する」、「リストを読み上げる」、「ナビゲーションの指示を提供する」、及び「タスクに関する指示を提供する」などが挙げられる。「メッセージを送る」ドメインは、「メッセージを送る」の実施可能な意図に関連付けられ、「受信者」、「メッセージのタイプ」、及び「メッセージ本文」などの属性ノードを更に含む。属性ノード「受信者」は、例えば、「受信者名」及び「メッセージアドレス」などの下位属性ノードによって、更に定義される。

一部の実施例では、オントロジ７６０は、デジタルアシスタントが理解及び遂行することが可能な、全てのドメイン（またそれゆえ、実施可能な意図）を含む。一部の実施例では、オントロジ７６０は、ドメイン若しくはノード全体を追加又は除去することによって、あるいは、オントロジ７６０内のノード間の関係を修正することなどによって、修正される。

一部の実施例では、関連する複数の実施可能な意図に関連付けられているノードは、オントロジ７６０内の「上位ドメイン」の下にクラスタ化されている。例えば、「旅行」上位ドメインは、旅行に関連する属性ノード及び実施可能な意図ノードの、クラスタを含む。旅行に関係する実施可能な意図ノードは、「航空会社の予約」、「ホテル予約」、「レンタカー」、「行き方を知る」、「興味のあるポイントを見つける」などを含む。同じ上位ドメイン（例えば、「旅行」上位ドメイン）の下の実施可能な意図ノードは、多数の属性ノードを共有している。例えば、「航空券予約」、「ホテル予約」、「自動車のレンタル」、「道順を知る」、及び「興味のある場所を探す」に関する実施可能な意図ノードは、属性ノード「出発地」、「目的地」、「出発日／時間」、「到着日／時間」、及び「参加人数」のうちの１つ以上を共有している。

一部の実施形態では、オントロジ７６０内の各ノードは、そのノードによって表される属性若しくは実施可能な意図に関連する、単語及び／又はフレーズのセットに関連付けられている。各ノードに関連付けられている対応の単語及び／又はフレーズのセットは、そのノードに関連付けられた、いわゆる「語彙」である。各ノードに関連付けられている対応の単語及び／又はフレーズのセットは、そのノードによって表される属性又は実施可能な意図に関連して、語彙索引７４４内に記憶されている。例えば、図７Ｂに戻ると、「レストラン」の属性に関するノードに関連付けられている語彙としては、「食べ物」、「飲み物」、「料理」、「空腹」、「食べる」、「ピザ」、「ファストフード」、「食事」などの単語が挙げられる。別の例として、「電話通話を開始する」の実施可能な意図に関するノードに関連付けられている語彙としては、「電話する（call）」、「電話（phone）」、「ダイヤルする（dial）」、「電話をかける（ring）」、「この番号に電話する（call this number）」、「～に電話をかける（make a call to）」などの、単語及びフレーズが挙げられる。語彙索引７４４は、任意選択的に、異なる言語の単語及びフレーズを含む。

自然言語処理モジュール７３２は、ＳＴＴ処理モジュール７３０から候補テキスト表現（例えば、文字列又はトークン列）を受信し、候補表現ごとに、候補文字表現中の単語がどのノードを暗示しているかを判定する。一部の実施例では、テキスト表現候補内の単語又はフレーズが、オントロジ７６０内の１つ以上のノードに関連付けられていることが（語彙索引７４４を介して）見出される場合には、その単語又はフレーズは、それらのノードを「トリガ」又は「アクティブ化」する。アクティブ化されたノードの量及び／又は相対的重要性に基づいて、自然言語処理モジュール７３２は、それらの実施可能な意図のうちの１つを、デジタルアシスタントにユーザが実行させるように意図したタスクとして選択する。一部の実施例では、最も多く「トリガされた」ノードを有するドメインが選択される。一部の実施例では、最も高い信頼値（例えば、そのトリガされた様々なノードの相対的重要性に基づくもの）を有するドメインが選択される。一部の実施例では、トリガされたノードの数及び重要性の組み合わせに基づいて、ドメインが選択される。一部の実施例では、ノードを選択する際には、デジタルアシスタントが、ユーザからの同様の要求を以前に正確に解釈したか否かなどの、追加的因子も考慮される。

ユーザデータ７４８は、ユーザ固有語彙、ユーザ選好、ユーザアドレス、ユーザの既定言語及び第２言語、ユーザの連絡先リスト、並びに各ユーザに関する他の短期的若しくは長期的情報などの、ユーザ固有情報を含む。一部の実施例では、自然言語処理モジュール７３２は、ユーザ入力内に含まれている情報を補完して、ユーザ意図を更に定義するために、これらのユーザ固有情報を使用する。例えば、ユーザ要求「私の誕生日パーティーに私の友人を招待して（invite my friends to my birthday party）」に関して、自然言語処理モジュール７３２は、誰が「友人」であり、いつ及びどこで「誕生日パーティー」が催されることになるかを判定するために、そのような情報をユーザ要求内で明示的に提供するようにユーザに要求することなく、ユーザデータ７４８にアクセスすることが可能である。

一部の実施例では、自然言語処理モジュール７３２は、１つ以上の機械学習機構（例えば、ニューラルネットワーク）を使用して実装されることを認識されたい。具体的には、１つ以上の機械学習機構は、テキスト表現候補、及び、そのテキスト表現候補に関連付けられたコンテキスト情報を受信するように構成されている。それらテキスト表現候補及び関連するコンテキスト情報に基づいて、１つ以上の機械学習機構は、実施可能な意図候補のセットにわたって、意図信頼性スコアを判定するように構成されている。自然言語処理モジュール７３２は、判定された意図信頼性スコアに基づいて、実施可能な意図候補のセットから、１つ以上の実施可能な意図候補を選択することができる。一部の実施例では、オントロジ（例えば、オントロジ７６０）もまた、実施可能な意図候補のセットから、１つ以上の実施可能な意図候補を選択するために使用される。

トークン文字列に基づくオントロジの検索の他の詳細は、開示全体が参照により本明細書に組み込まれる、２００８年１２月２２日出願の「ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＳｅａｒｃｈｉｎｇＵｓｉｎｇａｎＡｃｔｉｖｅＯｎｔｏｌｏｇｙ」に関する米国実用特許出願第１２／３４１，７４３号で説明されている。

一部の実施例では、自然言語処理モジュール７３２が、ユーザ要求に基づいて実施可能な意図（又は、ドメイン）を特定すると、自然言語処理モジュール７３２は、その特定された実施可能な意図を表すように、構造化クエリを生成する。一部の実施例では、この構造化クエリは、その実施可能な意図に関するドメイン内の１つ以上のノードについてのパラメータを含み、それらのパラメータの少なくとも一部には、ユーザ要求内で指定された具体的な情報及び要件が入力されている。例えば、「７時に寿司屋で夕食の予約を取ってください（Make me a dinner reservation at a sushi place at 7）」とユーザが言う。この場合には、自然言語処理モジュール７３２は、そのユーザ入力に基づいて、実施可能な意図が「レストラン予約」であると、正確に特定することが可能である。オントロジによれば、「レストラン予約」ドメインに関する構造化クエリは、｛料理｝、｛時間｝、｛日付｝、｛参加人数｝などのパラメータを含む。一部の実施例では、発話入力、及びＳＴＴ処理モジュール７３０を使用して発話入力から導出されたテキストに基づいて、自然言語処理モジュール７３２は、レストラン予約ドメインに関する部分的構造化クエリを生成し、この部分的構造化クエリは、パラメータ｛料理＝「寿司」｝及びパラメータ｛時間＝「午後７時」｝を含む。しかしながら、この実施例では、ユーザの発言に含まれる情報は、そのドメインに関連付けられる構造化クエリを完成するためには不十分である。それゆえ、｛参加人数｝及び｛日付｝などの他の必要なパラメータは、現時点で入手可能な情報に基づく構造化クエリ内では指定されていない。一部の実施例では、自然言語処理モジュール７３２は、この構造化クエリの一部のパラメータに、受信されたコンテキスト情報を追加入力する。例えば、一部の実施例では、ユーザが「近所の」寿司レストランを要求した場合には、自然言語処理モジュール７３２は、構造化クエリ内の｛場所｝パラメータに、ユーザデバイスからのＧＰＳ座標を追加入力する。

一部の実施例では、自然言語処理モジュール７３２は、ＳＴＴ処理モジュール７３０から受信された各テキスト表現候補に関して、複数の実施可能な意図候補を特定する。更には、一部の実施例では、特定された実施可能な意図候補のそれぞれに関して、対応の（部分的又は完全な）構造化クエリが生成される。自然言語処理モジュール７３２は、実施可能な意図候補のそれぞれに関する意図信頼性スコアを判定し、その意図信頼性スコアに基づいて、それら実施可能な意図候補をランク付けする。一部の実施例では、自然言語処理モジュール７３２は、任意の入力済みパラメータを含む、生成された構造化クエリ（単数又は複数）を、タスクフロー処理モジュール７３６（「タスクフロープロセッサ」）に渡す。一部の実施例では、ｍ個の最良の（例えば、ｍ個の最高ランクの）実施可能な意図候補に関する構造化クエリ（単数又は複数）が、タスクフロー処理モジュール７３６に提供される（ｍは、ゼロよりも大きい所定の整数である）。一部の実施例では、ｍ個の最良の実施可能な意図候補に関する構造化クエリ（単数又は複数）は、対応するテキスト表現候補（単数又は複数）と共に、タスクフロー処理モジュール７３６に提供される。

発話入力の複数のテキスト表現候補から判定された複数の実施可能な意図候補に基づく、ユーザ意図の推測の他の詳細は、開示全体が参照により本明細書に組み込まれる、２０１４年６月６日出願の「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＩｎｆｅｒｒｉｎｇＵｓｅｒＩｎｔｅｎｔＦｒｏｍＳｐｅｅｃｈＩｎｐｕｔｓ」に関する米国実用特許出願第１４／２９８，７２５号で説明されている。

タスクフロー処理モジュール７３６は、自然言語処理モジュール７３２から構造化クエリ（単数又は複数）を受信して、必要に応じて構造化クエリを完成させ、ユーザの最終的な要求を「完了する」ために必要とされるアクションを実行するように構成されている。一部の実施例では、これらのタスクを完了するために必要な様々な手順が、タスクフローモデル７５４内で提供される。一部の実施例では、タスクフローモデル７５４は、ユーザから追加情報を取得するための手順、及び、実施可能な意図に関連付けられたアクションを実行するためのタスクフローを含む。

上述のように、構造化クエリを完成させるためには、タスクフロー処理モジュール７３６は、追加情報を取得し、及び／又は潜在的に曖昧な発言の曖昧性を除去するために、ユーザとの追加的なダイアログを開始することを必要とする。そのような対話が必要である場合、タスクフロー処理モジュール７３６は、ユーザとのダイアログに携わるために、ダイアログフロー処理モジュール７３４を呼び出す。一部の実施例では、ダイアログフロー処理モジュール７３４は、どのようにして（及び／又は、いつ）ユーザに追加情報を要求するべきかを判定し、そのユーザ応答を受信及び処理する。Ｉ／Ｏ処理モジュール７２８を介して、ユーザに質問が提供され、ユーザから回答が受信される。いくつかの例において、ダイアログフロー処理モジュール７３４は、オーディオ及び／又は視覚出力を介してユーザにダイアログ出力を提示し、ユーザからの入力を発話又は物理的（例えば、クリック）応答を介して受け取る。上記の実施例を続けると、タスクフロー処理モジュール７３６が、ドメイン「レストラン予約」に関連付けられる構造化クエリに関する「参加人数」及び「日付」の情報を判定するために、ダイアログフロー処理モジュール７３４を呼び出すと、ダイアログフロー処理モジュール７３４は、「何人分ですか？（For how many people?）」及び「どの日にしますか？（On which day?）」などの質問を生成して、ユーザに渡す。ユーザから回答が受信されると、次いで、ダイアログフロー処理モジュール７３４は、構造化クエリに、欠落している情報を追加入力するか、又は、構造化クエリから欠落している情報を完成させるために、その情報をタスクフロー処理モジュール７３６に渡す。

タスクフロー処理モジュール７３６が、実施可能な意図に関する構造化クエリを完成させると、タスクフロー処理モジュール７３６は、その実施可能な意図に関連付けられた最終的なタスクの実行に進む。したがって、タスクフロー処理モジュール７３６は、構造化クエリ内に含まれている特定のパラメータに従って、タスクフローモデル内のステップ及び命令を実行する。例えば、「レストラン予約」の実施可能な意図に関するタスクフローモデルは、レストランと連絡を取り、特定の時間に特定の参加人数のための予約を実際に依頼する、ステップ及び命令を含む。例えば、｛レストラン予約、レストラン＝ＡＢＣＣａｆｅ、日付＝３／１２／２０１２、時間＝午後７時、参加人数＝５｝などの構造化クエリを使用して、タスクフロー処理モジュール７３６は、（１）ＡＢＣＣａｆｅのサーバ、又はＯＰＥＮＴＡＢＬＥ（登録商標）などのレストラン予約システムにログオンするステップと、（２）ウェブサイト上のフォーム内に日付、時間、及び参加人数の情報を入力するステップと、（３）そのフォームを提出するステップと、（４）ユーザのカレンダー内に、その予約に関するカレンダー項目を入力するステップとを実行する。

一部の実施例では、タスクフロー処理モジュール７３６は、ユーザ入力で要求されているタスクを完了するために、又は、ユーザ入力で要求されている情報の回答を提供するために、サービス処理モジュール７３８（「サービス処理モジュール」）の支援を採用する。例えば、サービス処理モジュール７３８は、タスクフロー処理モジュール７３６の代わりに、電話通話し、カレンダー項目を設定し、地図検索を呼び出し、ユーザデバイス上にインストールされている他のユーザアプリケーションを呼び出すか若しくはそのユーザアプリケーションと対話し、第三者サービス（例えばレストラン予約ポータル、ソーシャルネットワーキングウェブサイト、バンキングポータルなど）を呼び出すか若しくはその第三者サービスと対話する機能を果たす。一部の実施例では、各サービスによって必要とされるプロトコル及びアプリケーションプログラミングインタフェース（application programming interface；ＡＰＩ）は、サービスモデル７５６の中の対応のサービスモデルによって指定されている。サービス処理モジュール７３８は、サービスに関する適切なサービスモデルにアクセスし、そのサービスモデルに従った、そのサービスによって必要とされるプロトコル及びＡＰＩに準拠して、そのサービスに関する要求を生成する。

例えば、レストランが、オンライン予約サービスに対応している場合、そのレストランは、予約を行うために必要なパラメータ、及び、その必要なパラメータの値をオンライン予約サービスに通信するためのＡＰＩを指定する、サービスモデルを提出する。タスクフロー処理モジュール７３６によって要求されると、サービス処理モジュール７３８は、そのサービスモデル内に記憶されているウェブアドレスを使用して、オンライン予約サービスとのネットワーク接続を確立し、必要な予約パラメータ（例えば、時間、日付、参加人数）を、そのオンライン予約サービスのＡＰＩに従った形式で、オンライン予約インタフェースに送信する。

一部の実施例では、自然言語処理モジュール７３２、ダイアログフロー処理モジュール７３４、及びタスクフロー処理モジュール７３６は、ユーザの意図を推測及び定義し、そのユーザ意図を更に明らかにして絞り込むための情報を取得し、ユーザの意図を満たすための応答（すなわち、ユーザへの出力又はタスクの完了）を最終的に生成するために、集合的かつ反復的に使用される。生成された応答は、ユーザの意図を少なくとも部分的に満たす、発話入力に対するダイアログ応答である。更には、一部の実施例では、生成された応答は、発話出力として出力される。これらの実施例では、生成された応答は、発話合成処理モジュール７４０（例えば、発話合成器）に送信され、その発話合成処理モジュールで、発話形式のダイアログ応答を合成するように処理することができる。更に他の実施例では、生成された応答は、発話入力内のユーザ要求を満たすことに関連する、データコンテンツである。

タスクフロー処理モジュール７３６が、自然言語処理モジュール７３２から複数の構造化クエリを受信する実施例では、タスクフロー処理モジュール７３６は、最初に、受信された構造化クエリのうちの第１の構造化クエリを処理して、その第１の構造化クエリを完成させるように、及び／又は、その第１の構造化クエリによって表されている１つ以上のタスク若しくはアクションを実行するように試みる。一部の実施例では、第１の構造化クエリは、最高ランクの実施可能な意図に対応する。他の実施例では、第１の構造化クエリは、受信された構造化クエリから、対応する音声認識信頼性スコアと、対応する意図信頼性スコアとの組み合わせに基づいて、選択される。一部の実施例では、タスクフロー処理モジュール７３６が、第１の構造化クエリの処理中に（例えば、必要なパラメータが判定不能であることにより）エラーに遭遇した場合には、タスクフロー処理モジュール７３６は、より低いランクの実施可能な意図に対応する、受信された構造化クエリのうちの第２の構造化クエリを選択して処理するように、進むことができる。この第２の構造化クエリは、例えば、対応するテキスト表現候補の音声認識信頼性スコア、対応する実施可能な意図候補の意図信頼性スコア、第１の構造化クエリ内の欠落している必要なパラメータ、又はこれらの任意の組み合わせに基づいて選択される。

発話合成処理モジュール７４０は、ユーザに提示するための発話出力を合成するように構成されている。発話合成処理モジュール７４０は、デジタルアシスタントによって提供されたテキストに基づいて、発話出力を合成する。例えば、生成されたダイアログ応答は、テキスト文字列の形態である。発話合成処理モジュール７４０は、そのテキスト文字列を、可聴の発話出力に変換する。発話合成処理モジュール７４０は、テキストから発話出力を生成するために、限定するものではないが、波形接続合成、単位選択合成、ダイフォン合成、分野限定合成、フォルマント合成、調音合成、隠れマルコフモデル（hidden Markov model；ＨＭＭ）に基づく合成、及びサイン波合成を含めた、任意の適切な発話合成技術を使用する。一部の実施例では、発話合成処理モジュール７４０は、単語に対応する音素列に基づいて個々の単語を合成するように構成される。例えば、生成されたダイアログ応答内の単語に音素列が関連付けられる。音素列は、単語に関連付けられたメタデータに記憶される。発話合成処理モジュール７４０は、メタデータ中の音素列を直接処理して音声形式で単語を合成するように構成される。

一部の実施例では、発話合成処理モジュール７４０を使用する代わりに（又は、それに加えて）、発話合成は、リモートデバイス（例えば、サーバシステム１０８）上で実行され、合成された発話は、ユーザに出力するためにユーザデバイスに送信される。例えば、このことは、デジタルアシスタントに対する出力がサーバシステムで生成される、一部の実装形態で実施することができる。また、サーバシステムは、一般に、ユーザデバイスよりも多くの処理能力又はリソースを有するため、クライアント側での合成の場合に実用的となる出力よりも、高品質の発話出力を得ることが可能である。

デジタルアシスタントについて更に詳しくは、参照することによりその開示全体が本明細書に組み込まれる、２０１１年１月１０日に出願された、「ＩｎｔｅｌｌｉｇｅｎｔＡｕｔｏｍａｔｅｄＡｓｓｉｓｔａｎｔ」と題する米国実用出願第１２／９８７，９８２号と、２０１１年９月３０日に出願された、「ＧｅｎｅｒａｔｉｎｇａｎｄＰｒｏｃｅｓｓｉｎｇＴａｓｋＩｔｅｍｓＴｈａｔＲｅｐｒｅｓｅｎｔＴａｓｋｓｔｏＰｅｒｆｏｒｍ」と題する米国実用出願第１３／２５１，０８８号とにおいて見ることができる。
４．デジタルアシスタントユーザインタフェース

図８Ａ～図８ＣＴは、様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。図８Ａ～図８ＣＴは、図１７Ａ～図１７Ｆのプロセスを含む後述のプロセスを例示するために使用される。

図８Ａは、電子デバイス８００を示す。デバイス８００は、デバイス１０４、デバイス１２２、デバイス２００、又はデバイス６００として実装される。一部の実施例では、デバイス８００は、デジタルアシスタントシステム７００を少なくとも部分的に実装する。図８Ａの実施例では、デバイス８００は、ディスプレイ及びタッチ感知面を有するスマートフォンである。他の実施例では、デバイス８００は、ウェアラブルデバイス（例えば、スマートウォッチ）、タブレットデバイス、ラップトップコンピュータ、又はデスクトップコンピュータなどの異なる種類のデバイスである。

図８Ａでは、デバイス８００は、ディスプレイ８０１上に、以下で論じるデジタルアシスタント（ＤＡ）ユーザインタフェース８０３とは異なるユーザインタフェース８０２を表示する。図８Ａの実施例では、ユーザインタフェース８０２は、ホーム画面ユーザインタフェースである。他の実施例では、ユーザインタフェースは、ロック画面ユーザインタフェース又はアプリケーション固有のユーザインタフェース、例えば、マップアプリケーションユーザインタフェース、気象アプリケーションユーザインタフェース、メッセージングアプリケーションユーザインタフェース、音楽アプリケーションユーザインタフェース、動画アプリケーションユーザインタフェースなどの別の種類のユーザインタフェースである。

一部の実施例では、ＤＡユーザインタフェース８０３とは異なるユーザインタフェースを表示している間に、デバイス８００は、ユーザ入力を受信する。デバイス８００は、ユーザ入力がＤＡを開始するための基準を満たすかどうかを判定する。ＤＡを開始するための基準を満たす例示的なユーザ入力は、所定の種類の発話入力（例えば、「ヘイ、Ｓｉｒｉ」）、デバイス８００の仮想又は物理ボタンを選択する入力（又は所定の期間そのようなボタンを選択する入力）、デバイス８００に結合された外部デバイスで受信された入力の種類、ディスプレイ８０１上で実行されるユーザジェスチャの種類（例えば、ディスプレイ８０１の角からディスプレイ８０１の中心に向かうドラッグ又はスワイプジェスチャ）、及び、デバイス８００の動きを表す入力の種類（例えば、デバイス８００を目視位置に持ち上げる）を含む。

一部の実施例では、ユーザ入力がＤＡを開始するための基準を満たすとの判定に従って、デバイス８００は、ユーザインタフェース上にＤＡユーザインタフェース８０３を表示する。一部の実施例では、ユーザインタフェース上にＤＡユーザインタフェース８０３（又は別の表示要素）を表示することは、ユーザインタフェースのディスプレイの少なくとも一部をＤＡユーザインタフェース８０３の表示（又は別のグラフィック要素の表示）に置き換えることを含む。一部の実施例では、ユーザ入力がＤＡを開始するための基準を満たさないという判定に従って、デバイス８００は、ＤＡユーザインタフェース８０３を表示することを取り止め、代わりに、ユーザ入力に応答して動作を実行する（例えば、ユーザインタフェース８０２を更新する）。

図８Ｂは、ユーザインタフェース８０２上に表示されたＤＡユーザインタフェース８０３を示す。一部の実施例では、図８Ｂに示すように、ＤＡユーザインタフェース８０３は、ＤＡインジケータ８０４を含む。一部の実施例では、インジケータ８０４は、ＤＡのそれぞれの状態を示すために異なる状態で表示される。ＤＡ状態は、リスニング状態（ＤＡがサンプリング発話入力であることを示す）、処理状態（ＤＡが自然言語要求を処理することを示す）、発話状態（ＤＡが音声及び／又はテキスト出力を提供することを示す）、及びアイドル状態を含む。一部の実施例では、インジケータ８０４は、異なるＤＡ状態を示すそれぞれ異なる視覚化を含む。図８Ｂは、ＤＡが基準を満たすユーザ入力の検出に基づいて開始後に発話入力を受け入れる準備ができているため、リスニング状態にあるインジケータ８０４を示している。

一部の実施例では、リスニング状態のインジケータ８０４のサイズは、受信された自然言語入力に基づいて変化する。例えば、インジケータ８０４は、受信された発話入力の振幅に従って、リアルタイムで拡張及び収縮する。図８Ｃは、リスニング状態にあるインジケータ８０４を示す。図８Ｃでは、デバイス８００は、自然言語発話入力「今日の天気は？」を受信し、インジケータ８０４は、発話入力に従って、リアルタイムで拡張及び収縮する。

図８Ｄは、処理状態のインジケータ８０４を示し、例えば、ＤＡが要求「今日の天気は？」を処理していることを示す。図８Ｅは、例えば、ＤＡが要求に応答して音声出力「今日は良い天気」を現在提供していることを示す、発話状態のインジケータ８０４を示す。図８Ｆは、アイドル状態にあるインジケータ８０４を示す。一部の実施例では、アイドル状態のインジケータ８０４を選択するユーザ入力は、例えば、音声入力をサンプリングするために１つ以上のマイクロフォンを起動することによって、ＤＡ（及びインジケータ８０４）をリスニング状態に移行させる。

一部の実施例では、ＤＡは、デバイス８００が他の音声出力を提供する間に、ユーザ要求に応答して音声出力を提供する。一部の実施例では、ユーザ要求及び他の音声出力に応答して音声出力を同時に提供しながら、ＤＡは、他の音声出力のボリュームを低下させる。例えば、ＤＡユーザインタフェース８０３は、現在再生しているメディア（例えば、映画又は歌）を含むユーザインタフェース上に表示される。ＤＡがユーザ要求に応答して音声出力を提供するとき、ＤＡは、再生メディアの音声出力のボリュームを低下させる。

一部の実施例では、ＤＡユーザインタフェース８０３は、ＤＡ応答アフォーダンスを含む。一部の実施例では、応答アフォーダンスは、ＤＡによって、自然言語入力を受信するための応答に対応する。例えば、図８Ｅは、受信した発話入力に応答する気象情報を含む応答アフォーダンス８０５を表示するデバイス８００を示す。

図８Ｅ～図８Ｆに示すように、デバイス８００は、ディスプレイ８０１の第１の部分及びディスプレイ８０１の第２の部分の応答アフォーダンス８０５にインジケータ８０４を表示する。ディスプレイ８０１の第３の部分では、ＤＡユーザインタフェース８０３が表示されるユーザインタフェース８０２の一部が見えるままである（例えば、視覚的に不明瞭ではない）。例えば、見えるままであるユーザインタフェース８０２の部分は、デジタルアシスタントを開始したユーザ入力を受信する前に、ディスプレイ８０１の第３の部分に表示された（例えば、図８Ａ）。一部の実施例では、ディスプレイ８０１の第１、第２、及び第３の部分は、それぞれ「インジケータ部分」、「応答部分」、及び「ユーザインタフェース（ＵＩ）部分」と呼ばれる。

一部の実施例では、ＵＩ部分は、インジケータ部分（インジケータ８０４を表示する）と応答部分（応答アフォーダンス８０５を表示する）との間にある。例えば、図８Ｆでは、ＵＩ部分は、応答アフォーダンス８０５の下部とインジケータ８０４の上部との間の表示領域８０１１（例えば、矩形領域）を含み、表示領域８０１１の側縁は、応答アフォーダンス８０５（又はディスプレイ８０１）の側縁によって画定される。一部の実施例では、ディスプレイ８０１のＵＩ部分で見えるままであるユーザインタフェース８０２の部分は、１つ以上のユーザ選択可能なグラフィック要素、例えば、図８Ｆのホーム画面アプリケーションアフォーダンスなどのリンク及び／又はアフォーダンスを含む。

一部の実施例では、デバイス８００は、応答アフォーダンス８０５を第１の状態で表示する。一部の実施例では、第１の状態は、コンパクト状態を含み、ここで、応答アフォーダンス８０５の表示サイズは、（例えば、後述する拡張応答アフォーダンス状態と比較して）小さい、及び／又は応答アフォーダンス８０５は、（例えば、拡張応答アフォーダンス状態と比較して）コンパクトな（例えば、要約された）形式で情報を表示する。一部の実施例では、デバイス８００は、第１の状態の応答アフォーダンス８０５の選択に対応するユーザ入力を受信し、それに応答して、第１の状態の応答アフォーダンス８０５の表示を第２の状態の応答アフォーダンス８０５の表示に置き換える。一部の実施例では、第２の状態は、拡張状態であり、応答アフォーダンス８０５の表示サイズは、（例えば、コンパクト状態と比較して）大きく、及び／又は応答アフォーダンス８０５は、（例えば、コンパクト状態と比較して）より大量の情報／より詳細な情報を表示する。一部の実施例では、デバイス８００は、デフォルトで、例えば、デバイス８００が最初に第１の状態にある応答アフォーダンス８０５を表示するように（図８Ｅ～図８Ｇ）、第１の状態で応答アフォーダンス８０５を表示する。

図８Ｅ～図８Ｇは、第１の状態の応答アフォーダンス８０５を示す。示すように、応答アフォーダンス８０５は、例えば、現在の温度及び状態を提供し、より詳細な気象情報（例えば、毎時の気象情報）を省略することによって、コンパクトな天気情報を提供する。図８Ｇは、デバイス８００が、第１の状態の応答アフォーダンス８０５の選択に対応するユーザ入力８０６（例えば、タップジェスチャ）を受信することを示す。図８Ｇ～図８Ｐは、一般に、応答アフォーダンスのそれぞれの選択に対応するユーザ入力がタッチ入力であることを示しているが、他の実施例では、応答アフォーダンスの選択に対応するユーザ入力は、音声入力（例えば、「もっと見せて」）、又は周辺デバイス入力（例えば、マウス又はタッチパッドからの入力）などの別の種類の入力である。図８Ｈは、ユーザ入力８０６を受信したことに応答して、デバイス８００が第１の状態の応答アフォーダンス８０５の表示を第２の状態の応答アフォーダンス８０５の表示に置き換えることを示す。示すように、第２の状態における応答アフォーダンス８０５は、より詳細な気象情報を含む。

一部の実施例では、第２の状態に応答アフォーダンス８０５を表示している間に、デバイス８００は、第１の状態で応答アフォーダンス８０５を表示するように要求するユーザ入力を受信する。一部の実施例では、ユーザ入力を受信したことに応答して、デバイス８００は、第２の状態の応答アフォーダンス８０５の表示を、第１の状態の応答アフォーダンス８０５の表示に置き換える。例えば、図８Ｈでは、ＤＡユーザインタフェース８０３は、選択可能要素（例えば、戻るボタン）８０７を含む。選択可能要素８０７を選択するユーザ入力は、デバイス８００を図８Ｆのディスプレイに戻す。

一部の実施例では、第２の状態で応答アフォーダンス８０５を表示している間に、デバイス８００は、応答アフォーダンス８０５の選択に対応するユーザ入力を受信する。ユーザ入力を受信したことに応答して、デバイス８００は、応答アフォーダンス８０５に対応するアプリケーションのユーザインタフェースを表示する。例えば、図８Ｉは、応答アフォーダンス８０５の選択に対応するユーザ入力８０８（例えば、タップジェスチャ）を受信するデバイス８００を示す。図８Ｊは、ユーザ入力８０８を受信したことに応答して、デバイス８００が気象アプリケーションのユーザインタフェース８０９を表示することを示す。

一部の実施例では、アプリケーションのユーザインタフェースを表示している間に、デバイス８００は、選択可能なＤＡインジケータを表示する。例えば、図８Ｊは、選択可能なＤＡインジケータ８１０を示す。一部の実施例では、アプリケーションのユーザインタフェースを表示している間に、デバイス８００は、追加的又は代替的に、例えば、アイドル状態で、ディスプレイ８０１の第１の部分にインジケータ８０４を表示する。

一部の実施例では、アプリケーションのユーザインタフェースを表示している間に、デバイス８００は、選択可能なＤＡインジケータを選択するユーザ入力を受信する。一部の実施例では、ユーザ入力を受信したことに応答して、デバイス８００は、アプリケーションのユーザインタフェースの表示をＤＡユーザインタフェース８０３と置き換える。一部の実施例では、ＤＡユーザインタフェース８０３は、アプリケーションのユーザインタフェースを表示する直前に表示されるＤＡユーザインタフェースである。例えば、図８Ｋは、ＤＡインジケータ８１０を選択するユーザ入力８１１（例えば、タップジェスチャ）を受信するデバイス８００を示す。図８Ｌは、ユーザ入力８１１を受信したことに応答して、デバイス８００が気象アプリケーションのユーザインタフェース８０９の表示をＤＡユーザインタフェース８０３の表示に置き換えることを示す。

図８Ｇのユーザ入力８０６は、応答アフォーダンス８０５の第１の部分の選択に対応する。一部の実施例では、デバイス８００が第１の状態（例えば、コンパクト状態）で応答アフォーダンス８０５を表示している間、デバイス８００は、応答アフォーダンス８０５の第２の部分の選択に対応するユーザ入力を受信する。一部の実施例では、応答アフォーダンス８０５の第１の部分（例えば、下部）は、ユーザの要求に応答することを意図した情報を含む。一部の実施例では、応答アフォーダンス８０５の第２の部分（例えば、上部）は、応答アフォーダンス８０５及び／又は関連付けられたテキストのカテゴリを示すグリフを含む。応答アフォーダンスの例示的なカテゴリは、気象、株価、知識、計算機、メッセージング、音楽、地図などを含む。カテゴリは、ＤＡが提供することができるサービスのカテゴリに対応することができる。一部の実施例では、応答アフォーダンス８０５の第１の部分は、応答アフォーダンス８０５の第２の部分よりも大きい表示領域を占める。

一部の実施例では、応答アフォーダンス８０５の第２の部分の選択に対応するユーザ入力を受信したことに応答して、デバイス８００は、（例えば、第２の状態で応答アフォーダンス８０５を表示することなく）応答アフォーダンス８０５に対応するアプリケーションのユーザインタフェースを表示する。例えば、図８Ｍは、第１の状態で表示された応答アフォーダンス８０５の第２の部分を選択するユーザ入力８１２（例えば、タップジェスチャ）を受信するデバイス８００を示す。図８Ｎは、ユーザ入力８１２を受信したことに応答して、デバイス８００が気象アプリケーションのユーザインタフェース８０９を表示することを示す（例えば、応答アフォーダンス８０５を拡張状態で表示することなく）。このようにして、ユーザは、図８Ｇ～図８Ｈ及び図８Ｍ～図８Ｎに示すように、応答アフォーダンス８０５を拡張するか、又は応答アフォーダンス８０５に対応するアプリケーションの表示を引き起こす、応答アフォーダンス８０５の異なる部分を選択する入力を提供することができる。

図８Ｎは、ユーザインタフェース８０９を表示している間に、デバイス８００が選択可能なＤＡインジケータ８１０を表示することを更に示す。ＤＡインジケータ８１０を選択するユーザ入力は、デバイス８００に、例えば、図８Ｋ～図８Ｌにより例示される例と同様に、図８Ｍのディスプレイに戻す。一部の実施例では、ユーザインタフェース８０９を表示している間に、デバイス８００は、ディスプレイ８０１の第１の部分にＤＡインジケータ８０４を（例えば、アイドル状態に）表示する。

一部の実施例では、いくつかの種類の応答アフォーダンスについて、応答アフォーダンスの任意の部分の選択に対応するユーザ入力は、デバイス８００に、応答アフォーダンスに対応するアプリケーションのユーザインタフェースを表示させる。一部の実施例では、これは、応答アフォーダンスをより詳細に（例えば、第２の状態で）表示することができないためである。例えば、ＤＡは、自然言語入力に応答して提供することができる追加情報がない場合がある。例えば、「５かける６は何？」という自然言語入力を考えてみる。図８Ｏは、自然言語入力に応答して表示されるＤＡユーザインタフェース８０３を示す。ＤＡユーザインタフェース８０３は、第１の状態で表示される応答アフォーダンス８１３を含む。応答アフォーダンス８１３は、答え「５×６＝３０」を含むが、ＤＡが提供することができる追加情報はない。図８Ｏは、応答アフォーダンス８１３の第１の部分を選択するユーザ入力８１４（例えば、タップジェスチャ）を受信するデバイス８００を更に示す。図８Ｐは、ユーザ入力８１４を受信したことに応答して、デバイス８００が、応答アフォーダンス８１３、例えば、計算機アプリケーションユーザインタフェースに対応するアプリケーションのユーザインタフェース８１５を表示することを示す。

一部の実施例では、応答アフォーダンスは、リンクを示す選択可能なテキストなどの選択可能要素を含む。図８Ｑは、自然言語入力「有名なバンドについて教えて」に応答して表示されるＤＡユーザインタフェース８０３を示す。ＤＡユーザインタフェース８０３は、応答アフォーダンス８１６を含む。応答アフォーダンス８１６は、「有名なバンド」及び「有名なバンド」のメンバー＃１に対応する選択可能要素８１７に関する情報を含む。一部の実施例では、デバイス８００は、選択可能要素の選択に対応するユーザ入力を受信し、それに応答して、応答アフォーダンス上に、選択可能要素に対応するアフォーダンス（第２の応答アフォーダンス）を表示する。図８Ｒは、選択可能要素８１７を選択するユーザ入力８１８（例えば、タップジェスチャ）を受信するデバイス８００を示す。図８Ｓは、ユーザ入力８１８を受信したことに応答して、デバイス８００が、応答アフォーダンス８１６上に、メンバー＃１に関する情報を含む第２の応答アフォーダンス８１９を表示して、応答アフォーダンスのスタックを形成することを示す。

一部の実施例では、応答アフォーダンス上に第２の応答アフォーダンスを表示している間に、デバイス８００は、ディスプレイ８０１の第３の部分（例えば、任意の応答アフォーダンス又はインジケータ８０４を表示しない部分）、又はその一部でユーザインタフェースを視覚的に隠す。一部の実施例では、ユーザインタフェースを視覚的に不明瞭にすることは、ユーザインタフェースを暗くするか、又はユーザインタフェースをぼかすことを含む。図８Ｓは、第２の応答アフォーダンス８１９が応答アフォーダンス８１６上に表示されている間に、デバイス８００が、ディスプレイ８０１の第３の部分でユーザインタフェース８０２を視覚的に隠すことを示す。

図８Ｓは、第２の応答アフォーダンス８１９がその上に表示されている間に、応答アフォーダンス８１６の一部が見えるままであることを示す。他の実施例では、第２の応答アフォーダンス８１９は、応答アフォーダンス８１６の表示を置き換えることにより、応答アフォーダンス８１６の一部が見えない。

図８Ｔは、第２の応答アフォーダンス８１９内の選択可能要素８２１（「デトロイト」）を選択するユーザ入力８２０（例えば、タップジェスチャ）を受信するデバイス８００を示す。図８Ｕは、ユーザ入力８２０を受信したことに応答して、デバイス８００が第２の応答アフォーダンス８１９に第３の応答アフォーダンス８２２を表示することを示す。第３の応答アフォーダンス８２２は、メンバー＃１の出身地であるデトロイトに関する情報を含む。図８Ｕは、ユーザインタフェース８０２がディスプレイ８０１の第３の部分で視覚的に隠され続けることを示す。

図８Ｕは、応答アフォーダンスのスタックに３つの応答アフォーダンス（例えば、８１６、８１９、及び８２２）があるが、デバイス８００が、スタック内の２つの応答アフォーダンスのみを示すことを更に示す。例えば、第３の応答アフォーダンス８２２及び第２の応答アフォーダンス８１９の一部が表示されるが、応答アフォーダンス８１６の一部は表示されない。したがって、一部の実施例では、３つ以上の応答アフォーダンスがスタックされると、デバイス８００は、２つの応答アフォーダンスがスタック内にあることを視覚的にのみ示す。他の実施例では、応答アフォーダンスがスタックされると、デバイス８００は、スタックの単一の応答アフォーダンスのみを視覚的に示す（例えば、次の応答アフォーダンスの表示が、以前の応答アフォーダンスの表示を完全に置き換えるように）。

図８Ｖ～図８Ｙは、ユーザがスタック内の以前の応答アフォーダンスに戻る入力を提供することを示す。特に、図８Ｖでは、デバイス８００は、第２の応答アフォーダンス８１９に戻るように要求する第３の応答アフォーダンス８２２上のユーザ入力８２３（例えば、スワイプジェスチャ）を受信する。図８Ｗは、ユーザ入力８２３を受信したことに応答して、デバイス８００が第３の応答アフォーダンス８２２を表示することを停止し、その全体が第２の応答アフォーダンス８１９を表示することを示す。デバイス８００は、応答アフォーダンス８１６の一部を更に表示する（例えば、明らかにする）。図８Ｘは、応答アフォーダンス８１６に戻るように要求する第２の応答アフォーダンス８１９上のユーザ入力８２４（例えば、スワイプジェスチャ）を受信するデバイス８００を示す。図８Ｙは、ユーザ入力８２４を受信したことに応答して、デバイス８００が第２の応答アフォーダンス８１９を表示することを停止し、その全体が応答アフォーダンス８１６を表示することを示す。一部の実施例では、デバイス８００は、スタック内の次の応答アフォーダンスを表示するための入力（例えば、反対方向のスワイプジェスチャ）を受信し、それに応答して、上述のものと同様の方法で、スタック内の次の応答アフォーダンスを表示する。他の実施例では、スタック内の応答アフォーダンスを介してナビゲートすることは、上述のものと同様の方法で、他の入力手段（例えば、表示された「戻る」又は「次の」ボタンのユーザ選択）に依存する。

図８Ｙは、ユーザインタフェース８０２がディスプレイ８０１の第３の部分ではもはや視覚的に隠れていないことを更に示す。したがって、一部の実施例では、図８Ｑ～図８Ｙに示すように、ユーザインタフェース８０２は、応答アフォーダンスがスタックされたときに視覚的に不明瞭であり、アフォーダンスがスタックされていないときに視覚的に不明瞭でない。例えば、ユーザインタフェース８０２は、初期応答アフォーダンス８１６が表示されない（又は部分的にのみ表示されている）ときに視覚的に不明瞭であり、ユーザインタフェース８０２は、初期応答アフォーダンス８１６がその全体に表示されるときに視覚的に不明瞭ではない。

一部の実施例では、ユーザインタフェース（例えば、ＤＡユーザインタフェース８０３が上に表示されるユーザインタフェース）は、ディスプレイ８０１の第４の部分（例えば、「入力フィールド部分」）を占める入力フィールドを含む。入力フィールドは、ユーザが自然言語入力を提供することができる領域を含む。一部の実施例では、入力フィールドは、メッセージングアプリケーション、電子メールアプリケーション、メモ取りアプリケーション、リマインダアプリケーション、カレンダーアプリケーションなどのアプリケーションに対応する。図８Ｚは、ディスプレイ８０１の第４の部分を占める入力フィールド８２６を含むメッセージングアプリケーションのユーザインタフェース８２５を示す。

図８ＡＡは、ユーザインタフェース８２５上に表示されたＤＡユーザインタフェース８０３を示す。デバイス８００は、自然言語入力「この歌は何？」に応答して、ＤＡユーザインタフェース８０３を表示する。ＤＡユーザインタフェース８０３は、ディスプレイ８０１の第１の部分にインジケータ８０４を含み、ディスプレイ８０１の第２の部分に応答アフォーダンス８２７（ＤＡによって識別された歌を示す）を含む。

一部の実施例では、デバイス８００は、第１の部分ディスプレイ８０１からディスプレイ８０１の第４の部分への応答アフォーダンスの変位に対応するユーザ入力を受信する。ユーザ入力を受信したことに応答して、デバイス８００は、ディスプレイ８０１の第１の部分における応答アフォーダンスの表示を入力フィールド内の応答アフォーダンスの表示に置き換える。例えば、図８ＡＢ～図８ＡＤは、デバイス８００が、ディスプレイ８０１の第１の部分から入力フィールド８２６に応答アフォーダンス８２７を変位させるユーザ入力８２８を受信することを示す。ユーザ入力８２８は、ディスプレイ８０１の第１の部分からディスプレイ８０１の第４の部分までのドラッグジェスチャに対応し、入力フィールド８２６の表示でリフトオフイベント（例えば、フィンガーリフトオフイベント）で終了する。

一部の実施例では、図８ＡＢ～図８ＡＤに示されるように、ユーザ入力８２８を受信している間、デバイス８００は、応答アフォーダンス８２７をディスプレイ８０１の第１の部分からディスプレイ８０１の第４の部分に連続的に変位させる。例えば、応答アフォーダンス８２７が変位している間、デバイス８００は、ユーザ入力８２８のそれぞれの現在のディスプレイ接触位置に対応する位置に応答アフォーダンス８２７を表示する。一部の実施例では、応答アフォーダンス８２７が変位している間、応答アフォーダンス８２７の表示サイズは、例えば、応答アフォーダンス８２７が変位しながらユーザの指（又は他の入力装置）の下で収縮するように減少する。図８ＡＢ～図８ＡＤは、応答アフォーダンス８２７を連続的に変位させている間、インジケータ８０４が表示されることを停止することを更に示す。

図８ＡＤは、ここで、メッセージングアプリケーションの入力フィールド８２６に応答アフォーダンス８２７が表示されることを示す。図８ＡＥは、電子デバイス８００が送信メッセージアフォーダンス８２９の選択に対応するユーザ入力８３０（例えば、タップジェスチャ）を受信することを示す。図８ＡＦは、ユーザ入力８３０を受信したことに応答して、デバイス８００が応答アフォーダンス８２７をメッセージとして送信することを示す。このようにして、ユーザは、応答アフォーダンスを適切な入力フィールドに変位させるために入力（例えば、ドラッグアンドドロップ）を提供することによって、通信（例えば、テキストメッセージ、電子メール）において応答アフォーダンスを送信することができる。他の実施例では、ユーザは、同様の方法で、メモ、カレンダーエントリ、ワード処理文書、リマインダエントリなどに応答アフォーダンスを含めることができる。

一部の実施例では、（入力フィールドを表示する）ディスプレイ８０１の第１の部分からディスプレイ８０１の第４の部分への応答アフォーダンスの変位に対応するユーザ入力は、アフォーダンスの選択に対応する。一部の実施例では、アフォーダンスは、（例えば、通信中の応答アフォーダンスを共有するための）共有アフォーダンス又は（例えば、メモ又はリマインダエントリ内にアフォーダンスを保存するための）保存アフォーダンスのいずれかである。例えば、デバイス８００が入力フィールドを含むユーザインタフェースの上にＤＡユーザインタフェース８０３を表示するとき、応答アフォーダンスは、ユーザインタフェースの種類に応じて、共有アフォーダンス又は保存アフォーダンスのいずれかを含む。例えば、ユーザインタフェースが通信アプリケーション（例えば、メッセージング又は電子メール）に対応する場合、応答アフォーダンスは、共有アフォーダンスを含み、ユーザインタフェースが入力フィールド（例えば、ワード処理、リマインダ、カレンダー、メモ）を有する別の種類のアプリケーションに対応する場合、応答アフォーダンスは保存アフォーダンスを含む。共有又は保存アフォーダンスを選択するユーザ入力は、デバイス８００に、ディスプレイ８０１の第１の部分の応答アフォーダンスの表示を、上述したものと同様に、入力フィールド内の応答アフォーダンスの表示に置き換える。例えば、応答アフォーダンスが入力フィールドに表示されるとき、デバイス８００は、インジケータ８０４を表示することを停止する。

一部の実施例では、ユーザインタフェース（例えば、ＤＡユーザインタフェース８０３が上に表示されるユーザインタフェース）は、ディスプレイ８０１の第５の部分（例えば、「ウィジェット部分」）を占めるウィジェット領域を含む。図８ＡＧの例では、デバイス８００はタブレットデバイスである。デバイス８００は、ディスプレイ８０１上に、ディスプレイ８０１の第５の部分を占めるウィジェット領域８３２を含むユーザインタフェース８３１を表示する。デバイス８００は、ユーザインタフェース８３１上にＤＡユーザインタフェース８０３を更に表示する。自然言語入力「フライト２３を追跡」に応答して、ＤＡユーザインタフェース８０３が表示される。ＤＡユーザインタフェース８０３は、ディスプレイ８０１の第１の部分に表示されるインジケータ８０４と、ディスプレイ８０１の第２の部分に表示される応答アフォーダンス８３３（フライト２３に関する情報を含む）と、を含む。

一部の実施例では、デバイス８００は、ディスプレイ８０１の第１の部分からディスプレイ８０１の第５の部分への応答アフォーダンスの変位に対応するユーザ入力を受信する。一部の実施例では、ユーザ入力を受信したことに応答して、デバイス８００は、ディスプレイの第１の部分における応答アフォーダンスの表示を、ウィジェット領域内の応答アフォーダンスの表示に置き換える。例えば、図８ＡＨ～図８ＡＪは、デバイス８００が、ディスプレイ８０１の第１の部分からウィジェット領域８３２に応答アフォーダンス８３３を変位させるユーザ入力８３４を受信することを示す。ユーザ入力８３４は、ディスプレイ８０１の第１の部分からディスプレイ８０１の第５の部分までのドラッグジェスチャに対応し、ウィジェット領域８３２の表示でのリフトオフイベントで終了する。一部の実施例では、ディスプレイ８０１の第１の部分からディスプレイ８０１の第５の部分へと応答アフォーダンス８３３を変位させることは、上述した応答アフォーダンス８２７の変位と類似した様式で実行される。例えば、応答アフォーダンス８３３が変位している間、インジケータ８０４は表示されることを停止する。

図８ＡＪは、表示されたカレンダー及び音楽ウィジェットを有するウィジェット領域８３２内に応答アフォーダンス８３３が現在表示されていることを示す。このようにして、ユーザは、応答アフォーダンス８３３をウィジェット領域８３２に変位させる入力（例えば、ドラッグアンドドロップ）を提供し、応答アフォーダンス８３３をウィジェットとして追加することができる。

一部の実施例では、ディスプレイ８０１の第１の部分からディスプレイ８０１の第５の部分への応答アフォーダンスの変位に対応するユーザ入力は、アフォーダンスの選択に対応する。一部の実施例では、アフォーダンスは、「ウィジェット内の表示」アフォーダンスである。例えば、デバイス８００がウィジェット領域を含むユーザインタフェースの上にＤＡユーザインタフェース８０３を表示するとき、応答アフォーダンスは、「ウィジェット内の表示」アフォーダンスを含む。「ウィジェット内の表示」アフォーダンスを選択するユーザ入力は、デバイス８００に、ディスプレイ８０１の第１の部分の応答アフォーダンスの表示を、上述したものと同様の方法で、ウィジェット領域内の応答アフォーダンスの表示に置き換えさせる。

一部の実施例では、応答アフォーダンスはイベントに対応し、デバイス８００は、イベントの完了を判定する。一部の実施例では、イベントの完了を判定したことに応答して、デバイス８００は、ウィジェット領域内の応答アフォーダンスを表示することを停止する（例えば、完了を決定した後の所定の期間）。例えば、応答アフォーダンス８３３は、フライトに対応し、フライトが完了した（例えば、着陸した）という判定に応答して、デバイス８００は、ウィジェット領域８３２内に応答アフォーダンス８３３を表示することを停止する。別の実施例として、応答アフォーダンスは、スポーツゲームに対応し、スポーツゲームが終了したという判定に応答して、デバイス８００は、ウィジェット領域内の応答アフォーダンスを表示することを停止する。

図８ＡＫ～図８ＡＮは、様々な例示的な種類の応答アフォーダンスを示す。特に、図８ＡＫは、自然言語要求「有名人Ｘは何歳ですか？」に応答して表示されるコンパクト応答アフォーダンス８３５を示す。コンパクト応答アフォーダンス８３５は、更なる情報（例えば、有名人Ｘに関する追加情報）を含まない要求に対する直接回答（例えば、「３０歳」）を含む。一部の実施例では、全てのコンパクト応答アフォーダンスは、同じ最大サイズを有するため、コンパクト応答アフォーダンスは、ディスプレイ８０１の（比較的小さい）領域のみを占めることができる。図８ＡＬは、自然言語要求「チーム＃１のスタットを教えて」に応答して表示される詳細応答アフォーダンス８３６を示す。詳細応答アフォーダンス８３６は、チーム＃１に関する詳細な情報（例えば、様々な統計）を含み、コンパクト応答アフォーダンス８３５よりも大きい表示サイズを有する。図８ＡＭは、自然言語「近くのレストランのリストを見せて」に応答して表示されるリスト応答アフォーダンス８３７を示す。リスト応答アフォーダンス８３７は、オプションのリスト（例えば、レストラン）を含み、コンパクト応答アフォーダンス８３５よりも大きい表示サイズを有する。図８ＡＮは、自然言語要求「Ｎｅａｌに電話」に応答して表示される曖昧性除去応答アフォーダンス８３８を示す。曖昧性除去応答アフォーダンスは、選択可能な曖昧性除去オプションを含む：（１）ＮｅａｌＥｌｌｉｓ、（２）ＮｅａｌＳｍｉｔｈ、及び（３）ＮｅａｌＪｏｈｎｓｏｎ。デバイス８００は、「どのＮｅａｌ？」と尋ねる音声出力を更に提供する。

図８ＡＫ～図８ＡＮが示すように、表示された応答アフォーダンスの種類（例えば、コンパクト、詳細、リスト、曖昧性除去）は、自然言語入力の内容及び／又は自然言語入力のＤＡの解釈に依存する。一部の実施例では、アフォーダンスオーサリングルールは、特定の種類の自然言語入力を表示するために、特定の種類の応答アフォーダンスを指定する。一部の実施例では、オーサリングルールは、例えば、デバイス８００がコンパクト応答アフォーダンスによって十分に回答されることができる自然言語入力に応答してコンパクト応答アフォーダンスを表示するように、デフォルトでコンパクト応答アフォーダンスを表示しようと試みることを指定する。一部の実施例では、応答アフォーダンスが異なる状態（例えば、第１のコンパクト状態及び第２の拡張（詳細）状態）に表示されることができる場合、オーサリングルールは、最初にコンパクトアフォーダンスとして応答アフォーダンスを表示するように指定される。図８Ｇ～図８Ｈに関して論じたように、コンパクトアフォーダンスの詳細バージョンは、適切なユーザ入力を受信したことに応答して、表示に利用可能であり得る。いくつかの自然言語入力（例えば、「チーム＃１上の統計を教えて」、「近くのレストランのリストを見せて」）は、コンパクトアフォーダンスでは十分に回答することができない（又は入力に答えることが望ましくない場合がある）ことが理解されよう。したがって、オーサリングルールは、そのような入力のために（例えば、詳細に、リストを）表示するために、特定の種類のアフォーダンスを指定することができる。

一部の実施例では、ＤＡは、受信された自然言語入力に対応する複数の結果を決定する。一部の実施例では、デバイス８００は、複数の結果のうちの単一の結果を含む応答アフォーダンスを表示する。一部の実施例では、応答アフォーダンスを表示している間に、複数の結果のうちの他の結果は表示されない。例えば、自然言語入力「最も近いコーヒー」を考えてみる。ＤＡは、入力に対応する複数の結果（複数の近くのコーヒーショップ）を決定する。図８ＡＯは、入力に応答して表示される応答アフォーダンス８３９（例えば、コンパクトアフォーダンス）を示す。応答アフォーダンス８３９は、複数の結果のうちの単一の結果（デバイス８００の位置に最も近いコーヒーショップ）を含む。デバイス８００は、「ここは最も近いコーヒーショップ」の発話出力を更に提供する。このようにして、自然言語が複数の結果を意味することを要求するために、ＤＡは、最初に単一の結果、例えば、最も関連する結果を提供することができる。

一部の実施例では、単一の結果を提供した後（例えば、応答アフォーダンス８３９を表示する）、ＤＡは、複数の結果のうちの次の結果を提供する。例えば、図８ＡＰでは、デバイス８００は、応答アフォーダンス８３９を、第２の最も近いコーヒーショップを含む応答アフォーダンス８４０に置き換える。デバイス８００は、「ここは２番目に近いコーヒーショップ」の発話出力を更に提供する。いくつかの実施例では、デバイス８００は、単一の結果を拒否するユーザ入力（例えば、「私はそれを望まない」）、又は次の結果を提供するように指示するユーザ入力を受信したことに応答して、図８ＡＯから図８ＡＰに遷移する。一部の実施例では、デバイス８００は、例えば、アフォーダンス８３９を選択するユーザ入力が受信されない場合、アフォーダンス８３９を表示した後及び／又は「ここは最も近いコーヒーショップ」という発話出力を提供した後、図８ＡＯから図８ＡＰに所定の期間だけ遷移する。このようにして、デバイス８００は、複数の結果を意味する自然言語入力の結果を順次提供することができる。

一部の実施例では、応答アフォーダンスは、１つ以上のタスクアフォーダンスを含む。タスクアフォーダンスを選択するユーザ入力（例えば、タップジェスチャ）は、デバイス８００に対応するタスクを実行させる。例えば、図８ＡＮでは、応答アフォーダンス８３８は、タスクアフォーダンス８４１、８４２、及び８４３を含み、タスクアフォーダンス８４１のユーザ選択は、デバイス８００にＮｅａｌＥｌｌｉｓへの電話を開始させ、タスクアフォーダンス８４２のユーザ選択は、デバイス８００にＮｅａｌＳｍｉｔｈへの電話を開始させ、以下同様である。別の実施例として、応答アフォーダンス８３９は、タスクアフォーダンス８４４を含み、応答アフォーダンス８４０は、タスクアフォーダンス８４５を含む。タスクアフォーダンス８４４のユーザ選択は、デバイス８００に、最も近いコーヒーショップへの方向を表示する地図アプリケーションを起動させる一方で、タスクアフォーダンス８４５のユーザ選択は、デバイス８００に、２番目に近いコーヒーショップへの方向を表示する地図アプリケーションを起動させる。

一部の実施例では、デバイス８００は、自然言語入力に応答する複数の応答アフォーダンスを同時に表示する。一部の実施例では、複数の応答アフォーダンスの各々は、自然言語入力のための異なる可能なドメインに対応する。一部の実施例では、デバイス８００は、自然言語入力が曖昧であると判定された場合、例えば、複数のドメインに対応する場合、複数の応答アフォーダンスを表示する。

例えば、自然言語入力「ビヨンセ」を考えてみる。図８ＡＱは、自然言語入力に応答して同時に表示される応答アフォーダンス８４６、８４７、及び８４８を示す。応答アフォーダンス８４６、８４７、及び８４８は、それぞれ、ニュースドメイン（例えば、ユーザがビヨンセに関するニュースを要求した）、音楽ドメイン（例えば、ユーザは、ビヨンセによって音楽を再生するように要求した）、及び知識ドメイン（例えば、ユーザがビヨンセに関する情報を要求した）にそれぞれ対応する。一部の実施例では、応答アフォーダンス８４６、８４７、及び８４８の選択に対応するそれぞれのユーザ入力は、デバイス８００に対応するアクションを実行させる。例えば、応答アフォーダンス８４６の選択は、ビヨンセに関するニュースを含む詳細応答アフォーダンスの表示を引き起こし、応答アフォーダンス８４７の選択は、デバイス８００に、ビヨンセによる歌を含む音楽アプリケーションを起動させ、応答アフォーダンス８４８の選択は、ビヨンセに関する情報を含む詳細応答アフォーダンスの表示を引き起こす。

一部の実施例では、応答アフォーダンスは、編集可能なテキストフィールド、自然言語入力から決定されたテキストを含む編集可能なテキストフィールドを含む。例えば、図８ＡＲは、自然言語発話入力「テキスト、ママただいま」に応答して表示される応答アフォーダンス８４９を示す。応答アフォーダンス８４９は、例えば、ＤＡが「私は孔（I’m hole）」として「ただいま（I’m home）」を誤って認識したため、テキスト「I’m hole」を含む編集可能なテキストフィールド８５０を含む。応答アフォーダンスは、タスクアフォーダンス８５１を更に含む。タスクアフォーダンス８５１を選択するユーザ入力は、デバイス８００にテキストメッセージを送信させる。

一部の実施例では、デバイス８００は、編集可能なテキストフィールドの選択に対応するユーザ入力を受信し、それに応答して、応答アフォーダンスを表示している間にキーボードを表示する。例えば、図８ＡＳは、編集可能なテキストフィールド８５０を選択するユーザ入力８５２（例えば、タップジェスチャ）を受信するデバイス８００を示す。図８ＡＴは、ユーザ入力８５２を受信したことに応答して、デバイス８００が応答アフォーダンス８４９を表示している間に、キーボード８５３を表示することを示す。示すように、デバイス８００は、ユーザインタフェース８０２上にキーボード８５３を表示する（例えば、ユーザインタフェースＤＡユーザインタフェース８０３が上に表示される）。図８ＡＴ～図８ＡＶは、応答アフォーダンス及びキーボードがユーザインタフェース８０２上に表示されている間、ユーザインタフェース８０２の一部が視覚的に不明瞭にされないことを示しているが、他の実施例では、ユーザインタフェース８０２の少なくとも一部が視覚的に不明瞭にされる（例えば、キーボード又は応答アフォーダンス８４９を表示しないディスプレイ８０１の一部において）。

一部の実施例では、デバイス８００は、１つ以上のキーボード入力を受信し、それに応答して、１つ以上のキーボード入力に従って編集可能なテキストフィールド内のテキストを更新する。例えば、図８ＡＵは、デバイス８００が「孔（ｈｏｌｅ）」を「家（ｈｏｍｅ）」に補正するキーボード入力を受信したことを示す。デバイス８００は、応答アフォーダンス８４９の編集可能なテキストフィールド８５０に補正テキストを表示する。

他の実施例では、デバイス８００は、編集可能なテキストフィールドに表示されるテキストを編集するように要求する発話入力を受信する。発話入力を受信したことに応答して、デバイス８００は、発話入力に従って編集可能なテキストフィールド内のテキストを更新する。例えば、図８ＡＲでは、ユーザは、発話入力「いいえ、ただいまと言った」を提供し、それに応じてデバイス８００に編集可能なテキストフィールド８５０内のテキストを更新させることができる。

一部の実施例では、編集可能なテキストフィールド内のテキストを更新した後、デバイス８００は、アフォーダンスに関連付けられたタスクを実行するように要求するユーザ入力を受信する。ユーザ入力を受信したことに応答して、デバイス８００は、更新されたテキストに基づいて、要求されたタスクを実行する。例えば、図８ＡＶは、デバイス８００が「孔（hole）」を「家（home）」に編集した後、タスクアフォーダンス８５１の選択に対応するユーザ入力８５４（例えば、タップジェスチャ）を受信することを示す。図８ＡＷは、ユーザ入力８５４を受信したことに応答して、デバイス８００が、メッセージ「ただいま」をユーザの母に送信することを示す。デバイス８００は、タスクの完了を示すグリフ８５５を更に表示する。図８ＡＷは、ユーザ入力８５４を受信したことに応答して、デバイス８００がキーボード８５３を表示することを停止して、ユーザインタフェース８０２の一部を表示（例えば、明らかにする）し、デバイス８００がインジケータ８０４を表示することを更に示す。

このようにして、ユーザは、応答アフォーダンスに含まれるテキストを編集することができ（例えば、ＤＡがユーザの発話入力を誤認識した場合）、ＤＡに正しいテキストを使用してアクションを実行させることができる。図８ＡＲ～図８ＡＷは、テキストメッセージを編集及び送信する例を示しているが、他の実施例では、ユーザは、同様の方法で、メモ、カレンダーエントリ、リマインダエントリ、電子メールエントリなどを編集及び保存（又は送信）することができる。

一部の実施例では、デバイス８００は、ＤＡを閉じるためのユーザ入力を受信する。一部の実施例では、ＤＡを閉じることは、ＤＡユーザインタフェース８０３を表示することを停止することを含む。ＤＡを閉じることは、以下の図１０Ａ～図１０Ｖに関してより詳細に論じられる。一部の実施例では、ＤＡを閉じた後、デバイス８００は、ユーザ入力（例えば、ＤＡを開始するための基準を満たすユーザ入力）を受信して、ＤＡを再開する。一部の実施例では、ＤＡを再開するためのユーザ入力を受信したことに従って、デバイス８００は、同じ応答アフォーダンス、例えば、ＤＡが閉じられた前に表示される応答アフォーダンスを含むＤＡユーザインタフェースを表示する。

一部の実施例では、デバイス８００は、同じ応答アフォーダンスが、自然言語入力を受信した応答（例えば、再開ＤＡを意図した入力）に対応するとの判定に従って、同じ応答アフォーダンスを表示する。例えば、図８ＡＸは、応答アフォーダンス８５６を含むＤＡユーザインタフェース８０３を示す。デバイス８００は、自然言語入力「天気は何？」に応答して、ＤＡユーザインタフェース８０３を表示する。図８ＡＹは、デバイス８００が、ユーザ入力８５７を受信して、ＤＡ、例えば、ユーザインタフェース８０２の選択に対応するタップジェスチャを閉じることを示す。図８ＡＺは、ユーザ入力８５７を受信したことに応答して、デバイス８００がＤＡを閉じ、例えば、ＤＡユーザインタフェース８０３を表示することを停止することを示す。図８ＢＡは、デバイス８００が、ＤＡを再開するための入力を受信し、現在、自然言語入力「風が強い？」を受信していることを示す。図８ＢＢは、同じ応答アフォーダンス８５６を含み且つ発話出力「はい、風が強い」を提供するＤＡユーザインタフェース８０３を表示するデバイス８００を示す。例えば、ＤＡは、同じ応答アフォーダンス８５６が自然言語入力「天気は何？」及び「風が強い？」に対応すると判定されている。このようにして、以前の応答アフォーダンスが現在の自然言語要求に関連する場合、以前の応答アフォーダンスは、続いて開始されたＤＡユーザインタフェースに含まれることができる。

一部の実施例では、デバイス８００は、ＤＡを再開するためのユーザ入力がＤＡを閉じる所定の期間内に受信されるという判定に従って、同じ応答アフォーダンスを表示する。例えば、図８ＢＣは、自然言語入力「３かける５は何？」に応答して表示されるＤＡユーザインタフェース８０３を示す。ＤＡユーザインタフェース８０３は、応答アフォーダンス８５８を含む。図８ＢＤは、ＤＡが第１の時間に閉じられたことを示す。図８ＢＥは、第１の時間の所定の期間（例えば、５秒）内で、デバイス８００がＤＡを再開するためのユーザ入力を受信したことを示す。例えば、デバイス８００は、ＤＡを開始するための基準を満たす上記の入力の種類のうちのいずれか１つを受信したが、ＤＡに異なる要求を含む別の自然言語入力を受信していない。したがって、図８ＢＥでは、デバイス８００は、リスニング状態にある同じ応答アフォーダンス８５８及びインジケータ８０４を含むＤＡユーザインタフェース８０３を表示する。このようにして、以前の応答アフォーダンスは、例えば、ユーザが以前にＤＡを誤って閉じたため、ユーザがＤＡを迅速に再開する場合、続いて開始されたＤＡユーザインタフェースに含まれることができる。

図８ＢＦは、横向きのデバイス８００を示す。一部の実施例では、デバイス８００が横向きにあるため、デバイス８００は、横向きモードでユーザインタフェースを表示する。例えば、図８ＢＦは、横向きモードで表示されたメッセージングアプリケーションユーザインタフェース８５９を示す。一部の実施例では、デバイス８００は、横向きモードのユーザインタフェースを介して、ＤＡユーザインタフェース８０３を横向きモードに表示する。例えば、図８ＢＧは、ユーザインタフェース８５９上に表示された横向きモードのＤＡユーザインタフェース８０３を示す。ユーザは、本明細書で論じられる技術と一致する方法で、横向きモードでＤＡユーザインタフェース８０３と相互作用するための１つ以上の入力を提供することができることが理解されよう。

一部の実施例では、いくつかのユーザインタフェースは、横向きモードを有しない。例えば、ユーザインタフェースの表示は、デバイス８００が横向き又は縦向きにあるかどうかに関係なく同じである。横向きモードのないユーザインタフェースの例は、ホーム画面ユーザインタフェース及びロック画面ユーザインタフェースを含む。図８ＢＨは、デバイス８００が横向きにあるときに表示されるホーム画面ユーザインタフェース８６０（横向きモードなし）を示す。

一部の実施例では、デバイス８００が横向きにあるとき、デバイス８００は、横向きモードなしで、ユーザインタフェースの上にＤＡユーザインタフェース８０３を表示する。一部の実施例では、横向きモードを有しないユーザインタフェース上に（横向きモードで）ＤＡユーザインタフェース８０３を表示するとき、デバイス８００は、ユーザインタフェースを視覚的に不明瞭にし、例えば、ＤＡユーザインタフェース８０３が表示されないユーザインタフェースの部分を視覚的に不明瞭にする。例えば、図８ＢＩは、横向きのデバイス８００を示し、ホーム画面ユーザインタフェース８６０上に横向きモードでＤＡユーザインタフェース８０３を表示する。ホーム画面ユーザインタフェース８６０は、ホーム画面ユーザインタフェース８６０が横向きモードを有しないため、（デバイス８００が横向きであるにもかかわらず）縦向きモードで表示される。示すように、デバイス８００は、ホーム画面ユーザインタフェース８６０を視覚的に隠す。このようにして、デバイス８００は、横向きモードＤＡユーザインタフェース８０３及び視覚的に隠れていない縦向きモードユーザインタフェース（例えば、ホーム画面ユーザインタフェース８６０）を同時に表示することを回避し、これは、ユーザの視覚的体験を混乱させることがある。

一部の実施例では、デバイス８００が所定の種類のユーザインタフェース上にＤＡユーザインタフェース８０３を表示するとき、デバイス８００は、所定の種類のユーザインタフェースを視覚的に隠す。例示的な所定の種類のユーザインタフェースは、ロック画面ユーザインタフェースを含む。図８ＢＪは、例示的なロック画面ユーザインタフェース８６１を表示するデバイス８００を示す。図８ＢＫは、ロック画面ユーザインタフェース８６１上にＤＡユーザインタフェース８０３を表示するデバイス８００を示す。示すように、デバイス８００は、ＤＡユーザインタフェース８０３が表示されなロック画面ユーザインタフェース８６１の部分でロック画面ユーザインタフェース８６１を視覚的に覆い隠す。

一部の実施例では、ＤＡユーザインタフェース８０３は、ダイアログアフォーダンスを含む。一部の実施例では、ダイアログアフォーダンスは、受信された自然言語入力に応答して、ＤＡによって生成されるダイアログを含む。一部の実施例では、ダイアログアフォーダンスは、ディスプレイ８０１の第６の部分（例えば、「会話部分」）に表示され、ディスプレイ８０１の第６の部分は、ディスプレイ８０１の第１の部分（ＤＡインジケータ８０４を表示する）と、ディスプレイ８０１の第２の部分（応答アフォーダンスを表示する）との間にある。例えば、図８ＢＬは、以下で更に説明するように、自然言語入力に応答してＤＡによって生成されたダイアログを含むダイアログアフォーダンス８６２を示す。図８ＢＭは、以下で更に説明する自然言語入力「削除会議＃１」に応答してＤＡによって生成されたダイアログを含むダイアログアフォーダンス８６３を示す。図８ＢＭは、デバイス８００がディスプレイ８０１の第６の部分にダイアログアフォーダンス８６３を表示することを更に示し、第６の部分は、インジケータ８０４の表示と応答アフォーダンス８６４の表示との間にある。

一部の実施例では、ＤＡは、受信された自然言語入力のための複数の選択可能な曖昧性除去オプションを決定する。一部の実施例では、ダイアログアフォーダンスのダイアログは、複数の選択可能な曖昧性除去オプションを含む。複数の曖昧性除去オプションは、一部の実施例では、自然言語入力が曖昧であると判定するＤＡに従って決定される。曖昧な自然言語入力は、例えば、各々が比較的高い（及び／又は等しい）信頼スコアを有する、複数の可能な実施可能な意図に対応する。例えば、図８ＢＬでは、自然言語入力「Ｆｒｏｚｅｎをプレイする」を考えてみる。ＤＡは、２つの選択可能な曖昧性除去オプションを決定する：オプション８６５「動画再生」（例えば、ユーザは、動画「Ｆｒｏｚｅｎ」を再生することを意図した）及びオプション８６６「音楽再生」（例えば、ユーザは、動画「Ｆｒｏｚｅｎ」から音楽を再生することを意図した）を決定する。ダイアログアフォーダンス８６２は、オプション８６５及び８６６を含み、オプション８６５のユーザ選択はデバイス８００に動画「Ｆｒｏｚｅｎ」を再生させ、オプション８６６のユーザ選択はデバイス８００に動画「Ｆｒｏｚｅｎ」からの音楽を再生させる。別の例として、図８ＢＭの自然言語入力「削除会議＃１」を考慮すると、「会議＃１」は繰り返しの会議である。ＤＡは、２つの選択可能な曖昧性除去オプションを決定する：オプション８６７「単一を削除する」（例えば、ユーザは、会議＃１の単一のインスタンスを削除することを意図した）及びオプション８６８「全てを削除する」（例えば、ユーザは、会議＃１の全てのインスタンスを削除することを意図した）。ダイアログアフォーダンス８６３は、キャンセルオプション８６９と共に、オプション８６７及び８６８を含む。

一部の実施例では、ＤＡは、受信された自然言語入力に基づいてタスクを実行するために追加の情報が必要であると判定する。一部の実施例では、ダイアログアフォーダンスのダイアログは、必要な追加情報に対してＤＡによって提案される１つ以上の選択可能なオプションを含む。例えば、ＤＡは、受信された自然言語入力のためのドメインを決定してもよいが、ドメインに関連付けられたタスクを完了するために必要なパラメータを決定することはできない。例えば、自然言語入力「電話」を考えてみる。ＤＡは、自然言語入力のために電話通話ドメイン（例えば、電話呼び出しの実施可能な意図に関連付けられたドメイン）を決定するが、呼び出しのパラメータを決定することができない。したがって、一部の実施例では、ＤＡは、パラメータの提案として１つ以上の選択可能なオプションを決定する。例えば、デバイス８００は、ダイアログアフォーダンスにおいて、ユーザの最も頻繁に呼び出される連絡先に対応する選択可能なオプションを表示する。選択可能なオプションのうちのいずれか１つのユーザ選択は、デバイス８００に個別の連絡先を呼び出させる。

一部の実施例では、ＤＡは、受信された自然言語入力及び受信された自然言語入力に基づく代替ユーザ意図に基づいて、一次ユーザ意図を決定する。一部の実施例では、一次意図は、最高ランクの実施可能な意図であり、代替ユーザ意図は、第２の最高ランクの実施可能な意図である。一部の実施例では、表示された応答アフォーダンスは、一次ユーザ意図に対応し、同時に表示されたダイアログアフォーダンスのダイアログは、代替ユーザ意図に対応する選択可能なオプションを含む。例えば、図８ＢＮは、自然言語入力「Ｐｈｉｌの方向」に応答して表示されるＤＡユーザインタフェース８０３を示しており、ＤＡは、ユーザが「Ｐｈｉｌのコーヒー」への方向を取得することを意図し、ユーザが「Ｐｈｉｌ」と命名された連絡先の家への方向を取得することを意図する代替ユーザ意図を意図する一次ユーザ意図を決定する。ＤＡユーザインタフェース８０３は、一次ユーザ意図及びダイアログアフォーダンス８７１に対応する応答アフォーダンス８７０を含む。ダイアログアフォーダンス８７１のダイアログ８７２は、二次ユーザ意図に対応する。ユーザ入力を選択するダイアログベース８７２は、デバイス８００に「Ｐｈｉｌ」と命名された連絡先の家への方向を取得するが、ユーザ入力選択応答アフォーダンス８７０は、デバイス８００に「Ｐｈｉｌのコーヒー」への方向を取得させる。

一部の実施例では、ダイアログアフォーダンスが第１の状態で表示される。一部の実施例では、第１の状態は初期状態であり、例えば、ダイアログアフォーダンスと相互作用するためのユーザ入力を受信する前にダイアログアフォーダンスが最初に表示される記述方法である。図８ＢＯは、初期状態に表示されたダイアログアフォーダンス８７３を含むＤＡユーザインタフェース８０３を示す。デバイス８００は、自然言語入力「天気は何？」に応答して、ＤＡユーザインタフェース８０３を表示する。ダイアログアフォーダンス８７３は、ＤＡによって生成され、入力、例えば「現在７０度で風が強い．．．」に応答するダイアログの少なくとも一部を含む。ＤＡによって生成されたダイアログを表示するかどうかに関する更なる説明が、図１１～図１６に関して以下で論じられる。

一部の実施例では、デバイス８００は、第１の状態に表示されるダイアログアフォーダンスの選択に対応するユーザ入力を受信する。ユーザ入力を受信したことに応答して、デバイス８００は、第１の状態のダイアログアフォーダンスの表示を、第２の状態のダイアログアフォーダンスの表示に置き換える。一部の実施例では、第２の状態は拡張状態であり、拡張状態のダイアログアフォーダンスの表示サイズは、初期状態のダイアログアフォーダンスの表示サイズよりも大きく、及び／又は拡張状態のダイアログアフォーダンスは、初期状態のダイアログアフォーダンスよりも大量のコンテンツを表示する。図８ＢＰは、初期状態で表示されたダイアログアフォーダンス８７３の選択に対応するユーザ入力８７４（例えば、ドラッグジェスチャ）を受信するデバイス８００を示す。図８ＢＱは、ユーザ入力８７４（又はその一部）を受信したことに応答して、デバイス８００が、初期状態で表示されたダイアログアフォーダンス８７３の表示を、拡張状態でダイアログアフォーダンス８７３の表示に置き換えることを示す。示すように、図８ＢＱのダイアログアフォーダンス８７３は、より大きな表示サイズを有し、図８ＢＰのダイアログアフォーダンスよりも大量のテキストを含む。

一部の実施例では、（第２の状態の）ダイアログアフォーダンスの表示サイズは、ダイアログアフォーダンスを第２の状態で表示させるユーザ入力の長さに比例する。例えば、図８ＢＰ～図８ＢＱでは、ダイアログアフォーダンス８７３の表示サイズは、ドラッグジェスチャ８７４の長さ（例えば、物理的距離）に比例して増加する。このようにして、ユーザは、ドラッグジェスチャのドラッグ長に従って応答アフォーダンス８７３を拡張するために連続ドラッグジェスチャを提供することができる。更に、図８ＢＯ～図８ＢＱは、デバイス８００が図８ＢＯに示すようにダイアログアフォーダンス８７３を最初に表示し、次いで図８ＢＱのダイアログアフォーダンスを拡張し、他の実施例では、デバイス８００が最初に図８ＢＱに示すようにダイアログアフォーダンス８７３を表示することを示す。したがって、一部の実施例では、デバイス８００は、最初にダイアログアフォーダンスが最大量のコンテンツを表示するように、例えば、同時に表示された応答アフォーダンスを不明瞭にする（被覆する）ことなく、ダイアログアフォーダンスを表示する。

一部の実施例では、ダイアログアフォーダンスの表示は、同時に表示された応答アフォーダンスの表示を不明瞭にする。具体的には、一部の実施例では、第２の（例えば、拡張された）状態のダイアログアフォーダンスの表示は、ディスプレイ８０１の第２の部分の少なくとも一部を占める（応答アフォーダンスを表示する）。一部の実施例では、第２の状態でダイアログアフォーダンスを表示することは、応答アフォーダンスの少なくとも一部上にダイアログアフォーダンスを表示することを更に含む。例えば、図８ＢＱは、ドラッグジェスチャ８７４が継続することを示す。図８ＢＲは、継続的なドラッグジェスチャ８７４を受信したことに応答して、デバイス８００が、応答アフォーダンス８７５の表示上でダイアログアフォーダンス８７３の表示を拡張することを示す。

一部の実施例では、ユーザ入力を受信する前に、ダイアログアフォーダンスを（例えば、拡張するために）第２の状態で表示させ、応答アフォーダンスは、元の状態で表示された。一部の実施例では、元の状態は、ダイアログアフォーダンス（又はその一部）が応答アフォーダンス上に表示される前の応答アフォーダンスの状態を表す。例えば、図８ＢＯ～図８ＢＱは、元の状態に表示された応答アフォーダンス８７５を示す。一部の実施例では、応答アフォーダンスの少なくとも一部にわたって第２の（例えば、拡張された）状態でダイアログアフォーダンスを表示することは、元の状態の応答アフォーダンスの表示を、被覆状態にある応答アフォーダンスの表示に置き換えることを含む。図８ＢＲは、被覆状態で表示された応答アフォーダンス８７５を示す。一部の実施例では、被覆状態で表示されると、応答アフォーダンスは、表示サイズが縮小し（例えば、元の状態に対して）、及び／又は薄暗くなる（例えば、元の状態よりも目立たないように表示される）。いくつかの例では、応答アフォーダンスが収縮する及び／又は薄暗くなる度合いは、応答アフォーダンス上に表示されるダイアログアフォーダンスの量に比例する。

一部の実施例では、ダイアログアフォーダンスは、最大表示サイズを有し、ダイアログアフォーダンスの第２の（例えば、拡張された）状態は、最大表示サイズに対応する。一部の実施例では、最大表示サイズで表示されるダイアログアフォーダンスは、ドラッグジェスチャなどのユーザ入力に応答して更に拡張されることができない。一部の実施例では、最大表示サイズで表示されるダイアログアフォーダンスは、ダイアログアフォーダンスのコンテンツの全体を表示する。他の実施例では、最大表示サイズで表示されるダイアログアフォーダンスは、ダイアログアフォーダンスのコンテンツの全体を表示しない。したがって、一部の実施例では、デバイス８００は、（最大表示サイズを有する）第２の状態のダイアログアフォーダンスを表示している間に、デバイス８００は、ユーザ入力（例えば、ドラッグジェスチャ／スワイプジェスチャ）がダイアログアフォーダンスのコンテンツをスクロールすることを可能にする。図８ＢＳは、最大表示サイズで表示されたダイアログアフォーダンス８７３を示す。特に、図８ＢＲでは、ドラッグジェスチャ８７４は継続する。継続的なドラッグジェスチャ８７４を受信したことに応答して、デバイス８００は、図８ＢＳのその最大表示サイズにダイアログアフォーダンス８７３を表示（例えば、拡張）する。ダイアログアフォーダンス８７３は、スクロールインジケータ８７６を含み、ユーザは、ダイアログアフォーダンス８７３のコンテンツをスクロールするための入力を提供することができることを示す。

一部の実施例では、応答アフォーダンスの一部は、ダイアログアフォーダンスが第２の状態（及びその最大サイズ）に表示されるときに見えるままである。したがって、一部の実施例では、デバイス８００は、ダイアログアフォーダンスが応答アフォーダンスを完全には被覆しないように、応答アフォーダンス上に表示されるダイアログアフォーダンスの最大サイズを制約する。一部の実施例では、見える応答アフォーダンスの部分は、図８Ｍに関して上述した応答アフォーダンスの第２の部分である。例えば、部分は、応答アフォーダンス及び／又は関連付けられたテキストのカテゴリを示すグリフを含む応答アフォーダンスの上部である。図８ＢＳは、デバイス８００が、応答アフォーダンス８７５上のその最大サイズでダイアログアフォーダンス８７３を表示するとき、応答アフォーダンス８７５の上部が見えるままであることを示す。

一部の実施例では、デバイス８００は、（ダイアログアフォーダンスが応答アフォーダンスにわたって第２の状態に表示されるとき）見えるままの応答アフォーダンスの一部の選択に対応するユーザ入力を受信する。ユーザ入力を受信したことに応答して、デバイスは、ディスプレイ８０１の第１の部分に応答アフォーダンスを表示し、例えば、その元の状態で応答アフォーダンスを表示する。ユーザ入力を受信したことに応答して、デバイス８００は、第２の（例えば、拡張）状態のダイアログアフォーダンスの表示を、第３の状態のダイアログアフォーダンスの表示に更に置き換える。一部の実施例では、第３の状態は、第３の状態のダイアログアフォーダンスがより小さい表示サイズ（初期又は拡張状態のダイアログアフォーダンスよりも）を有し、及び／又はダイアログアフォーダンスは、（初期又は拡張状態のダイアログアフォーダンスよりも）少量のコンテンツを含む。他の例では、第３の状態は、第１の状態（例えば、初期状態）である。図８ＢＴは、応答アフォーダンス８７５の上部を選択するユーザ入力８７７（例えば、タップジェスチャ）を受信するデバイス８００を示す。図８ＢＵは、ユーザ入力８７７を受信したことに応答して、デバイス８００が、拡張状態にあるダイアログアフォーダンス８７３の表示（図８ＢＴ）を折り畳み状態にあるダイアログアフォーダンス８７３の表示に置き換えることを示す。デバイス８００は、その元の状態で応答アフォーダンス８７５を更に表示する。

一部の実施例では、デバイス８００は、第３の状態で表示されるダイアログアフォーダンスの選択に対応するユーザ入力を受信する。ユーザ入力を受信したことに応答して、デバイス８００は、第３の状態の応答アフォーダンスの表示を、第１の状態のダイアログアフォーダンスの表示に置き換える。例えば、図８ＢＵでは、ユーザは、折り畳み状態で表示されたダイアログアフォーダンス８７３を選択する入力（例えば、タップジェスチャ）を提供することができる。入力を受信したことに応答して、デバイス８００は、初期状態でダイアログアフォーダンスを表示し、例えば、図８ＢＯの表示に戻る。

一部の実施例では、ダイアログアフォーダンスが第１又は第２の状態（例えば、初期又は拡張状態）で表示されている間、デバイス８００は、同時に表示された応答アフォーダンスの選択に対応するユーザ入力を受信する。ユーザ入力を受信したことに応答して、デバイス８００は、第１又は第２の状態のダイアログアフォーダンスの表示を、第３の（例えば、折り畳まれた）状態のダイアログアフォーダンスの表示に置き換える。例えば、図８ＢＶは、自然言語入力「チーム＃１の登録選手名簿を見せて」に応答して表示されるＤＡユーザインタフェース８０３を示す。ＤＡユーザインタフェース８０３は、初期状態で表示された詳細応答アフォーダンス８７８及びダイアログアフォーダンス８７９を含む。図８ＢＶは、応答アフォーダンス８７８を選択するユーザ入力８８０（例えば、ドラッグジェスチャ）を受信するデバイス８００を更に示す。図８ＢＷは、ユーザ入力８８０を受信したことに応答して、デバイス８００が、ダイアログアフォーダンス８７９の表示を、折り畳み状態でダイアログアフォーダンス８７９の表示に置き換えることを示す。

一部の実施例では、第１又は第２の状態（例えば、初期又は拡張状態）でダイアログアフォーダンスを表示している間に、デバイス８００は、ダイアログアフォーダンスの選択に対応するユーザ入力を受信する。ユーザ入力を受信したことに応答して、デバイス８００は、第１又は第２の状態のダイアログアフォーダンスの表示を、第３の（例えば、折り畳まれた）状態のダイアログアフォーダンスの表示に置き換える。例えば、図８ＢＸは、自然言語入力「私のためにどんな音楽がある？」に応答して表示されるＤＡユーザインタフェース８０３を示す。ＤＡユーザインタフェース８０３は、応答アフォーダンス８８１及び初期状態で表示されるダイアログアフォーダンス８８２を含む。図８ＢＸは、ユーザ入力８８３（例えば、下向きドラッグ又はスワイプジェスチャ）を受信するデバイス８００を、ダイアログアフォーダンス８８２を選択することを更に示す。図８ＢＹは、ユーザ入力８８３を受信したことに応答して、デバイス８００が、初期状態にあるダイアログアフォーダンス８８２の表示を、折り畳み状態にあるダイアログアフォーダンス８８２の表示に置き換えることを示す。図８ＢＸ～図８ＢＹは、ダイアログアフォーダンスの選択に対応するユーザ入力がドラッグ又はスワイプジェスチャであることを示しているが、他の実施例では、ユーザ入力は、ダイアログアフォーダンスに含まれる表示されたアフォーダンスの選択である。例えば、第１又は第２の状態で表示されるダイアログアフォーダンス内の「折り畳み」アフォーダンスを選択するユーザ入力（例えば、タップジェスチャ）は、デバイス８００に、第１又は第２の状態のダイアログアフォーダンスの表示を第３の状態のダイアログアフォーダンスの表示に置き換える。

一部の実施例では、デバイス８００は、ダイアログアフォーダンス内の受信された自然言語発話入力の転記を表示する。この転記は、自然言語発話入力に自動音声認識（ＡＳＲ）を実行することによって取得される。図８ＢＺは、自然言語発話入力「天気は何？」に応答して表示されるＤＡユーザインタフェース８０３を示す。ＤＡユーザインタフェースは、応答アフォーダンス８８４及びダイアログアフォーダンス８８５を含む。ダイアログアフォーダンス８８５は、発話入力の転記８８６と、発話入力に応答してＤＡによって生成されたダイアログ８８７とを含む。

一部の実施例では、デバイス８００は、デフォルトで受信した自然言語発話入力の転記を表示しない。一部の実施例では、デバイス８００は、アクティブ化されると、デバイス８００に自然言語発話入力の転記を常に表示させる設定を含む。ここで、デバイス８００が受信した自然言語発話入力の転記を表示することができる様々な他の例について説明する。

一部の実施例では、自然言語発話入力（表示された転記を有する）は、自然言語発話入力の前に受信された第２の自然言語発話入力に連続している。一部の実施例では、転記を表示することは、ＤＡが自然言語発話入力についてのユーザ意図を判定することができず且つ第２の自然言語発話入力についての第２のユーザ意図を判定することができなかったという判定に従って実行される。したがって、一部の実施例では、デバイス８００は、ＤＡが２つの連続する自然言語入力の実施可能な意図を決定することができなかった場合、自然言語入力のための転記を表示する。

例えば、図８ＣＡは、デバイス８００が発話入力「Ｄｉｓｈｎ’Ｄａｓｈまでの距離は？」を受信し、ＤＡが自然言語入力に対するユーザ意図を決定することができないことを示している。例えば、デバイス８００は、私が理解していない限り、音声出力「よくわからないので、もう一度言ってください？」を提供する。したがって、ユーザは、発話入力を繰り返す。例えば、図８ＣＢは、連続する発話入力「Ｄｉｓｈｎ’Ｄａｓｈまでの距離は？」を受信するデバイス８００を示す。図８ＣＣは、ＤＡが連続する発話入力のユーザ意図を決定することができないことを示す。例えば、デバイス８００は、音声出力「よく理解できません」を提供する。したがって、デバイス８００は、連続発話入力の転記８８９「ＲｉｓｈａｎｄＲａｓｈまでの距離は？」を含むダイアログアフォーダンス８８８を更に表示する。この例では、転記８８９は、ＤＡが「Ｄｉｓｈｎ’Ｄａｓｈまでの距離は？」を「ＲｉｓｈａｎｄＲａｓｈまでの距離は？」として二回誤って認識したことを明らかにする。「ＲｉｓｈａｎｄＲａｓｈ」は、実際の場所ではない場合があるため、ＤＡは、双方の発話入力のユーザ意図を決定することができなかった。

一部の実施例では、受信された自然言語発話入力の表示を表示することは、自然言語発話入力が以前の自然言語発話入力を繰り返すという判定に従って実行される。例えば、図８ＣＤは、発話入力（以前の発話入力）「スターバックスはどこ？」に応答して表示されるＤＡユーザインタフェース８０３を示す。ＤＡは、「ＳｔａｒＭａｌｌはどこ？」として発話入力を誤って認識したため、「ＳｔａｒＭａｌｌ」を含む応答アフォーダンス８９０を表示する。ＤＡは発話入力を誤って理解したため、ユーザは発話入力を繰り返す。例えば、図８ＣＥは、以前の発話入力「スターバックスはどこ？」の繰り返し（例えば、連続的な繰り返し）を受信するデバイス８００を示す。ＤＡは、発話入力が以前の発話入力を繰り返すと決定する。図８ＣＦは、そのような決定に従って、デバイス８００が転記８９２を含むダイアログアフォーダンス８９１を表示することを示す。転記８９２は、ＤＡが（例えば、２回）「スターバックスはどこ？」を「ＳｔａｒＭａｌｌはどこ？」と誤って認識したことを明らかにする。

一部の実施例では、自然言語発話入力（例えば、転記が表示される）を受信した後、デバイスは、自然言語発話入力に連続する第２の自然発話入力を受信する。一部の実施例では、第２の自然言語発話入力が音声認識エラーを示すという判定に従って、転記の表示が実行される。したがって、一部の実施例では、デバイス８００は、ＤＡが以前の発話入力を誤って認識したことを示す場合、以前の発話入力の転記を表示する。例えば、図８ＣＧは、発話入力「１５分タイマをセット」に応答して表示されるＤＡユーザインタフェース８０３を示す。ＤＡは、「１５分」を「５０分」として誤って認識した。したがって、ＤＡユーザインタフェース８０３は、タイマが５０分に設定されることを示す応答アフォーダンス８９３を含む。ＤＡが発話入力を誤って認識したため、ユーザは、音声認識エラーを示す第２の発話入力を提供する（例えば、「それは私が言ったことではない」、「私が間違っていると聞こえた」、「それは間違っている」など）。例えば、図８ＣＨは、デバイス８００が第２の発話入力「それは私が言ったことではない」を受信することを示している。ＤＡは、第２の発話入力が音声認識エラーを示すと決定する。図８ＣＩは、そのような決定に従って、デバイス８００が、転記８９５を含むダイアログアフォーダンス８９４を表示することを示す。転記８９５は、ＤＡが「１５分」を「５０分」として誤って認識されたことを明らかにしている。

一部の実施例では、デバイス８００は、表示された転記の選択に対応するユーザ入力を受信する。ユーザ入力を受信したことに応答して、デバイス８００は、キーボード及び転記を含む編集可能なテキストフィールドを同時に表示し、例えば、キーボード及びユーザインタフェースＤＡユーザインタフェース８０３上の編集可能なテキストフィールドを表示した。一部の実施例では、デバイス８００は、（例えば、キーボード又は編集可能なテキストフィールドを表示しないディスプレイ８０１の部分で）ユーザインタフェースの少なくとも一部を更に視覚的に隠す。図８ＣＩの例を続けると、図８ＣＪは、転記８９５を選択するユーザ入力８９６（例えば、タップジェスチャ）を受信するデバイス８００を示す。図８ＣＫは、ユーザ入力８９６を受信したことに応答して、デバイス８００が、キーボード８９７及び転記８９５を含む編集可能なテキストフィールド８９８を表示することを示す。図８ＣＫは、デバイス８００がユーザインタフェース８０２の一部を視覚的に隠すことを更に示す。

図８ＣＬは、デバイス８００が１つ以上のキーボード入力を受信し、１つ以上のキーボード入力に従って、例えば、「５０分タイマをセット」から「１５分タイマをセット」など、編集された転記８９５を有することを示す。図８ＣＬは、キーボード８９７の完了キー８００１の選択に対応するユーザ入力８９９（例えば、タップジェスチャ）を受信するデバイス８００を更に示す。図８ＣＭは、ユーザ入力８９９を受信したことに応答して、ＤＡが、現在の（例えば、編集された）転記８９５に基づいてタスクを実行することを示す。例えば、デバイス８００は、タイマが１５分間設定されていることを示す応答アフォーダンス８００２を含むＤＡユーザインタフェース８０３を表示する。デバイス８００は、発話出力「Ｏｋ、１５分タイマをセットする」を更に提供する。このようにして、ユーザは、正しいタスクの性能を引き起こすために、誤った転記を（例えば、キーボード入力を使用して）手動で補正することができる。

一部の実施例では、キーボード及び編集可能なテキストフィールドを表示している間に、デバイス８００は、視覚的に不明瞭なユーザインタフェースの選択に対応するユーザ入力を受信する。一部の実施例では、ユーザ入力を受信したことに応答して、デバイス８００は、キーボード及び編集可能なテキストフィールドを表示することを停止する。一部の実施例では、デバイス８００は、追加的又は代替的に、ＤＡユーザインタフェース８０３を表示することを停止する。例えば、図８ＣＫ～図８ＣＬでは、視覚的に不明瞭なユーザインタフェース８０２を選択するユーザ入力（例えば、タップジェスチャ）は、デバイス８００に図８ＣＩのディスプレイに戻らせるか、又は図８Ａに示すように、デバイス８００にＤＡユーザインタフェース８０３を表示させないようにし、ユーザインタフェース８０２をその全体で表示させることができる。

一部の実施例では、デバイス８００は、第１の時間にデジタルアシスタント結果（例えば、応答アフォーダンス及び／又は音声出力）を提示する。一部の実施例では、デジタルアシスタント結果が所定の種類のデジタルアシスタント結果に対応するとの判定に従って、デバイス８００は、第１の時間後に所定の期間、ＤＡユーザインタフェース８０３を表示することを自動的に停止する。したがって、一部の実施例では、デバイス８００は、所定の種類の結果を提供した後に、ＤＡユーザインタフェース８０３を迅速に（例えば、５秒以内に）閉じることができる。例示的な所定の種類の結果は、更なるユーザ入力が必要とされない（又は更なるユーザ相互作用が望まれない）完了したタスクに対応する。例えば、そのような結果は、タイマが設定されたこと、メッセージが送信されたこと、家庭用器具（例えば、ライト）が状態が変化したことを確認する結果を含む。所定の種類に対応しない結果の例は、ＤＡが、ユーザの情報要求に応答して、ＤＡが情報（例えば、ニュース、Ｗｉｋｉｐｅｄｉａ記事、場所）を提供する更なるユーザ入力及び結果を尋ねる結果を含む。

例えば、図８ＣＭは、デバイス８００が第１の時間に結果を提示し、例えば、発話出力「Ｏｋ、１５分タイマをセットする」の提供を終了することを示す。結果は、所定の種類に対応するため、図８ＣＮは、デバイス８００が、第１の時間後に自動的に（例えば、更なるユーザ入力なしで）ＤＡを所定の期間（例えば、５秒）に閉じることを示す。

図８ＣＯ～図８ＣＴは、デバイス８００がタブレットデバイスであるときのＤＡユーザインタフェース８０３及び例示的なユーザインタフェースの例を示す。タブレットデバイスであるデバイス８００に関して本明細書で論じられる技術のいずれかは、デバイス８００が別の種類のデバイス（及び逆も同様）であるときに等しく適用可能であることが理解されよう。

図８ＣＯは、ユーザインタフェース８００３を表示するデバイス８００を示す。ユーザインタフェース８００３は、ドック領域８００４を含む。図８ＣＯでは、デバイス８００は、ユーザインタフェース８００３上にＤＡユーザインタフェース８０３を表示する。ＤＡユーザインタフェース８０３は、ディスプレイ８０１の第１の部分に表示されるインジケータ８０４と、ディスプレイ８０１の第２の部分に表示される応答アフォーダンス８００５と、を含む。示すように、ユーザインタフェース８００３の一部は、ディスプレイ８０１の第３の部分で見えるままである（例えば、視覚的に不明瞭ではない）。一部の実施例では、第３の部分は、ディスプレイ８０１の第１の部分とディスプレイ８０１の第２の部分との間にある。一部の実施例では、図８ＣＯに示すように、ＤＡユーザインタフェース８０３の表示は、ドック領域８００４を視覚的に不明瞭にしない、例えば、ＤＡユーザインタフェース８０３の一部は、ドック領域８００４上に表示されない。

図８ＣＰは、ダイアログアフォーダンス８００６を含むＤＡユーザインタフェース８０３を表示するデバイス８００を示す。示すように、ダイアログアフォーダンス８００６は、ディスプレイ８０１の第１の部分（インジケータ８０４を表示する）とディスプレイの第２の部分（応答アフォーダンス８００５を表示する）との間のディスプレイ８０１の一部に表示される。ダイアログアフォーダンス８００６を表示することは、応答アフォーダンス８００５が、ディスプレイ８０１の上部に向かって（図８ＣＯから）変位することを更に引き起こす。

図８ＣＱは、現在再生しているメディアを示すメディアパネル８００７を含むユーザインタフェース８００３を表示するデバイス８００を示す。図８ＣＲは、ユーザインタフェース８００３にＤＡユーザインタフェース８０３を表示するデバイス８００を示す。ＤＡユーザインタフェース８０３は、応答アフォーダンス８００８及びインジケータ８０４を含む。示すように、ＤＡユーザインタフェース８０３の表示は、メディアパネル８００７を視覚的に不明瞭にしない。例えば、示すように、ＤＡユーザインタフェース８０３の要素（例えば、インジケータ８０４、応答アフォーダンス８００８、ダイアログアフォーダンス）を表示することは、メディアパネル８００７をディスプレイ８０１の上部に向かって変位させる。

例えば、図８ＣＳは、デバイス８００がキーボード８０１０を含むユーザインタフェース８００９を表示することを示す。図８ＣＴは、ユーザインタフェース８００９上に表示されたＤＡユーザインタフェース８０３を示す。図８ＣＴは、いくつかの実施例では、キーボード８０１０を含むユーザインタフェース８００９上にＤＡユーザインタフェース８０３を表示することは、デバイス８００にキーボード８０１０のキーを視覚的に隠す（例えば、グレーアウト）させることを示す。

図９Ａ～図９Ｃは、様々な実施例による、どのデバイスが発話入力に応答するべきかを決定する複数のデバイスを示す。特に、図９Ａは、デバイス９００、９０２、及び９０４を示す。デバイス９００、９０２、及び９０４は、各々、デバイス１０４、デバイス１２２、デバイス２００、又はデバイス６００として実装される。一部の実施例では、デバイス９００、９０２、及び９０４は、各々、ＤＡシステム７００を少なくとも部分的に実装する。

図９Ａでは、デバイス９００、９０２、及び９０４のそれぞれのディスプレイは、ユーザが、ＤＡを開始するためのトリガフレーズ（例えば、「ＨｅｙＳｉｒｉ」）を含む発話入力、例えば、「ＨｅｙＳｉｒｉ、天気は何？」を提供するとき表示しない。一部の実施例では、デバイス９００、９０２、及び９０４のうちの少なくとも１つのそれぞれのディスプレイは、ユーザが発話入力を提供するときにユーザインタフェース（例えば、ホーム画面ユーザインタフェース、アプリケーション固有ユーザインタフェース）を表示する。図９Ｂは、トリガフレーズを含む発話入力を受信したことに応答して、デバイス９００、９０２、及び９０４が、各々、インジケータ８０４を表示することを示す。一部の実施例では、各インジケータ８０４は、リスニング状態で表示され、例えば、それぞれのデバイスがオーディオ入力をサンプリングすることを示す。

図９Ｂのデバイス９００、９０２、及び９０４は、それら自体の間で（又は第４のデバイスを介して）協調して、どのデバイスがユーザ要求に応答するべきかを決定する。どのデバイスがユーザ要求に応答するべきかを判定するためのデバイスを調整するための例示的な技術は、２０１８年１０月２日付けの「ＩＮＴＥＬＬＩＧＥＮＴＤＥＶＩＣＥＡＲＢＩＴＲＡＴＩＯＮＡＮＤＣＯＮＴＲＯＬ」と題された米国特許第１０，０８９，０７２号明細書、及び２０２０年５月１１日に出願された「ＤＩＧＩＴＡＬＡＳＳＩＳＴＡＮＴＨＡＲＤＷＡＲＥＡＢＳＴＲＡＣＴＩＯＮ」と題された米国特許出願第６３／０２２，９４２号に記載されており、それらの内容は、それらの全体が参照により本明細書に組み込まれる。図９Ｂに示すように、各デバイスは、ユーザ要求に応答するかどうかを判定し、各デバイスは、インジケータ８０４のみを表示する。例えば、インジケータ８０４を表示しないデバイス９００、９０２、及び９０４のディスプレイのそれぞれの部分は、各々表示されない。一部の実施例では、デバイス９００、９０２、及び９０４のうちの少なくとも１つが、ユーザが発話入力を提供するときにユーザインタフェース（以前のユーザインタフェース）を表示すると、少なくとも１つのデバイスが、ユーザ要求に応答するかどうかを判定し、少なくとも１つのデバイスは、以前のユーザインタフェース上にインジケータ８０４のみを表示する。

図９Ｃは、デバイス９０２が、ユーザ要求に応答するデバイスとして決定されることを示す。示すように、別のデバイス（例えば、デバイス９０２）がユーザ要求に応答するべきであるという判定に応答して、デバイス９００及び９０４のディスプレイは、表示を停止する（又はインジケータ８０４を表示することを停止して、以前のユーザインタフェースを完全に表示する）。更に示すように、デバイス９０２がユーザ要求に応答するべきであるという判定に応答して、デバイス９０２は、ユーザインタフェース（例えば、ロック画面ユーザインタフェース）９０６及びＤＡユーザインタフェース８０３をユーザインタフェース９０６上に表示する。ＤＡユーザインタフェース８０３は、ユーザ要求に対する応答を含む。このようにして、複数のデバイスのどのデバイスが発話入力に応答するべきかを決定する際の視覚的混乱が最小化される。例えば、図９Ｂでは、ユーザ要求に応答しないと判定されたデバイスのディスプレイは、例えば、ディスプレイの全体にユーザインタフェースを表示することとは対照的に、インジケータ８０４のみを表示する。

複数のデバイスのどのデバイスが、上記の様式で発話入力に応答するべきかを決定することは、発話入力が受信され、処理されているというフィードバックをユーザに提供する。更に、そのような方法でフィードバックを提供することは、発話入力に応答するときに不必要な視覚的又は可聴の混乱を有利に低減することができる。例えば、ユーザは、選択されていないデバイスに表示及び／又は可聴出力を停止させる必要はなく、選択されていないデバイスのユーザインタフェースに対する視覚的混乱が最小限に抑えられる（例えば、ユーザが以前に選択されていないデバイスのユーザインタフェースと相互作用していた場合）。改善された視覚的フィードバックをユーザへ提供することは、（例えば、ユーザが不要な入力を提供することを回避することを支援することによって）デバイスの操作性を高め、ユーザデバイスインタフェースをより効率的にし、これは、更に、ユーザがデバイスをより迅速且つ効率的に使用できるようにすることによって、電力使用量を低減し、デバイスのバッテリ寿命を改善する。

図１０Ａ～図１０Ｖは、様々な実施例による、ユーザインタフェース及びデジタルアシスタントユーザインタフェースを示す。図１０Ａ～図１０Ｖは、図１８Ａ～図１８Ｂのプロセスを含む後述のプロセスを例示するために使用される。

図１０Ａは、デバイス８００を示す。デバイス８００は、ディスプレイ８０１上に、ユーザインタフェース上のＤＡユーザインタフェース８０３を表示する。図１０Ａでは、デバイス８００は、ホーム画面ユーザインタフェース１００１上にＤＡユーザインタフェース８０３を表示する。他の実施例では、ユーザインタフェースは、ロック画面ユーザインタフェース又はアプリケーション固有のユーザインタフェースなどの別の種類のユーザインタフェースである。

一部の実施例では、ＤＡユーザインタフェース８０３は、ディスプレイ８０１の第１の部分（例えば、「インジケータ部分」）に表示されるインジケータ８０４と、ディスプレイ８０１の第２の部分（例えば、「応答部分」）に表示される応答アフォーダンスとを含む。ディスプレイ８０１の第３の部分（例えば、「ＵＩ部分」）は、ユーザインタフェースの一部を表示する（ユーザインタフェースＤＡユーザインタフェース８０３が上に表示される）。例えば、図１０Ａでは、ディスプレイ８０１の第１の部分は、インジケータ８０４を表示し、ディスプレイ８０１の第２の部分は、応答アフォーダンス１００２を表示し、ディスプレイ８０１の第３の部分は、ホーム画面ユーザインタフェース１００１の一部を表示する。

一部の実施例では、ユーザインタフェース上にＤＡユーザインタフェース８０３を表示している間に、デバイス８００は、ディスプレイ８０１の第３の部分の選択に対応するユーザ入力を受信する。デバイス８００は、ユーザ入力が第１の種類の入力又は第２の種類の入力に対応するかどうかを判定する。一部の実施例では、第１の種類のユーザ入力は、タップジェスチャを含み、第２の種類のユーザ入力は、ドラッグ又はスワイプジェスチャを含む。

一部の実施例では、ユーザ入力が第１の種類の入力に対応するという判定に従って、デバイス８００は、ＤＡユーザインタフェース８０３を表示することを停止する。ＤＡユーザインタフェース８０３を表示することを停止することは、ＤＡユーザインタフェース８０３の任意の部分、例えば、インジケータ８０４、応答アフォーダンス、及びダイアログアフォーダンス（含まれる場合）を表示することを停止することを含む。一部の実施例では、ＤＡユーザインタフェース８０３を表示することを停止することは、ＤＡユーザインタフェース８０３の要素の表示を、ディスプレイ８０１のそれらのそれぞれの部分において、それぞれの部分におけるユーザインタフェースの表示に置き換えることを含む。例えば、デバイス８００は、インジケータ８０４の表示をディスプレイ８０１の第１の部分でユーザインタフェースの第１の部分の表示に置き換え、応答アフォーダンスの表示をディスプレイ８０１の第２の部分でユーザインタフェースの第２の部分の表示に置き換える。

例えば、図１０Ｂは、ディスプレイ８０１の第３の部分の選択に対応するユーザ入力１００３（例えば、タップジェスチャ）を受信するデバイス８００を示す。デバイス８００は、ユーザ入力１００３が第１の種類の入力に対応すると判定する。図１０Ｃは、そのような決定に従って、デバイス８００がＤＡユーザインタフェース８０３を表示することを停止し、その全体がユーザインタフェース１００１を表示することを示す。

このようにして、ユーザは、ＤＡユーザインタフェース８０３のいかなる部分も表示しないディスプレイ８０１の一部を選択する入力を提供することによって、ＤＡユーザインタフェース８０３を閉じることができる。例えば、上記の図８Ｓ～図８Ｘでは、視覚的に隠れたホーム画面ユーザインタフェース８０２を表示するディスプレイ８０１の部分を選択するタップジェスチャは、デバイス８００に図８Ａのディスプレイに戻させる。

一部の実施例では、ユーザ入力は、ディスプレイ８０１の第３の部分に表示される選択可能要素の選択に対応する。一部の実施例では、ユーザ入力が第１の種類の入力に対応するという判定に従って、デバイス８００は、選択可能要素に対応するユーザインタフェースを表示する。例えば、デバイス８００は、（ディスプレイ８０１の第３の部分に表示される）ユーザインタフェースの部分の表示、応答アフォーダンスのディスプレイ、及び選択可能要素に対応するユーザインタフェースの表示を用いてインジケータ８０４の表示を置き換える。

一部の実施例では、ユーザインタフェースは、ホーム画面ユーザインタフェース１００１であり、選択可能要素は、ホーム画面ユーザインタフェース１００１のアプリケーションアフォーダンスであり、選択可能要素に対応するユーザインタフェースは、アプリケーションアフォーダンスに対応するユーザインタフェースである。例えば、図１０Ｄは、ホーム画面ユーザインタフェース１００１上に表示されたＤＡユーザインタフェース８０３を示す。ディスプレイ８０１は、第１の部分にインジケータ８０４を、第２の部分に応答アフォーダンス１００４を、及び第３の部分にユーザインタフェース１００１の一部を表示する。図１０Ｅは、第３の部分に表示された健康アプリケーションアフォーダンス１００６を選択するユーザ入力１００５（例えば、タップジェスチャ）を受信するデバイス８００を示す。図１０Ｆは、デバイス８００が、ユーザ入力１００５が第１の種類の入力に対応すると判定したことに従って、インジケータ８０４、応答アフォーダンス１００４、及びユーザインタフェース１００１の一部を表示することを停止することを示す。デバイス８００は、健康アプリケーションに対応するユーザインタフェース１００７を更に表示する。

一部の実施例では、選択可能要素はリンクであり、選択可能要素に対応するユーザインタフェースは、リンクに対応するユーザインタフェースである。例えば、図１０Ｇは、ウェブブラウジングアプリケーションユーザインタフェース１００８上に表示されたＤＡユーザインタフェース８０３を示す。ディスプレイ８０１は、第１の部分にインジケータ８０４を、第２の部分に応答アフォーダンス１００９を、及び第３の部分にユーザインタフェース１００８の一部を表示する。図１０Ｇは、第３の部分に表示されたリンク１０１１（例えば、ウェブページリンク）を選択するユーザ入力１０１０（例えば、タップジェスチャ）を受信するデバイス８００を更に示す。図１０Ｈは、デバイス８００が、ユーザ入力１０１０が第１の種類の入力に対応すると判定したことに従って、デバイス８００は、インジケータ８０４、応答アフォーダンス１００９、及びユーザインタフェース１００８の一部を表示することを停止する。デバイス８００は、ウェブページリンク１０１１に対応するユーザインタフェース１０１２を更に表示することを示す。

このようにして、ディスプレイ８０１の第３の部分を選択するユーザ入力は、ユーザが選択したものに従って、ＤＡユーザインタフェース８０３を閉じ、更にアクションの性能を引き起こす（例えば、ディスプレイ８０１を更新する）ことができる。

一部の実施例では、ユーザ入力が第２の種類の入力（例えば、ドラッグ又はスワイプジェスチャ）に対応するという判定に従って、デバイス８００は、ユーザ入力に従ってディスプレイ８０１の第３の部分でユーザインタフェースの表示を更新する。一部の実施例では、デバイス８００は、ディスプレイ８０１の第３の部分でユーザインタフェースの表示を更新する間、デバイス８００は、それぞれのディスプレイ部分にＤＡユーザインタフェース８０３の要素の少なくとも一部を表示し続ける。例えば、デバイス８００は、ディスプレイ８０１の第２の部分で応答アフォーダンスを表示する（例えば、表示し続ける）。一部の実施例では、デバイス８００は、ディスプレイ８０１の第１の部分にインジケータ８０４を更に表示する（例えば、表示し続ける）。一部の実施例では、第３の部分でユーザインタフェースの表示を更新することは、ユーザインタフェースのコンテンツをスクロールすることを含む。

例えば、図１０Ｉは、ウェブページを表示するウェブブラウザアプリケーションユーザインタフェース１０１３上に表示されたＤＡユーザインタフェース８０３を示す。ディスプレイ８０１は、第１の部分にインジケータ８０４を、第２の部分に応答アフォーダンス１０１４を、及び第３の部分にユーザインタフェース１０１３の一部を表示する。図１０Ｉは、第３の部分を選択するユーザ入力１０１５（例えば、ドラッグジェスチャ）を受信するデバイス８００を更に示す。図１０Ｊは、デバイス８００に従って、ユーザ入力１０１５が第２の種類の入力に対応すると判定したことを示し、デバイス８００は、ユーザ入力１０１５に従ってユーザインタフェース１０１３のコンテンツを更新し（例えば、スクロールする）、例えば、ウェブページのコンテンツをスクロールする。図１０Ｉ～図１０Ｊは、（ディスプレイ８０１の第３の部分で）ユーザインタフェース１０１３を更新している間に、デバイス８００がディスプレイ８０１の第１の部分にインジケータ８０４を及びディスプレイ８０１の第２の部分に応答アフォーダンス１０１４を表示し続けることを示す。

別の例として、図１０Ｋは、ホーム画面ユーザインタフェース１００１上に表示されたＤＡユーザインタフェース８０３を示す。ディスプレイ８０１は、第１の部分にインジケータ８０４を、第２の部分に応答アフォーダンス１０１６を、第３の部分にユーザインタフェース１００１の一部を表示する。図１０Ｋは、第３の部分を選択するユーザ入力１０１７（例えば、スワイプジェスチャ）を受信するデバイス８００を更に示す。図１０Ｌは、デバイス８００に従って、ユーザ入力１０１７が第２の種類の入力に対応すると判定したことを示し、デバイス８００は、ユーザ入力１０１７に従ってユーザインタフェース１００１の内容を更新する。例えば、示されるように、デバイス８００は、ユーザインタフェース１００１を更新して、ホーム画面ユーザインタフェース１００１のものとは異なる１つ以上のアプリケーションアフォーダンスを含む二次ホーム画面ユーザインタフェース１０１８を表示する。図１０Ｋ～図１０Ｌは、ユーザインタフェース１００１を更新している間に、デバイス８００が、ディスプレイ８０１の第１の部分にインジケータ８０４を及びディスプレイ８０１の第２の部分に応答アフォーダンス１０１６を表示し続けることを示す。

このようにして、ユーザは、入力がＤＡユーザインタフェース８０３を停止させることなく、ＤＡユーザインタフェース８０３が表示されるユーザインタフェースを更新する入力を提供することができる。

一部の実施例では、ディスプレイ８０１の第３の部分でユーザインタフェースの表示を更新することは、ＤＡがリスニング状態にあるという判定に従って実行される。したがって、デバイス８００は、ＤＡがリスニング状態にあるときにのみ、ドラッグ又はスワイプジェスチャがユーザインタフェースを更新する（ＤＡユーザインタフェース８０３が上に表示される）ことを可能にすることができる。そのような例では、ＤＡがリスニング状態にない場合、第２の種類に対応する（及びディスプレイ８０１の第３の部分の選択に対応する）ユーザ入力を受信したことに応答して、デバイス８００は、ユーザ入力に応答してディスプレイ８０１を更新しないか、又はＤＡユーザインタフェース８０３を表示することを停止しない。一部の実施例では、ＤＡがリスニング状態にある間にユーザインタフェースの表示を更新しながら、インジケータ８０４の表示サイズは、上述したように、受信された発話入力の大きさに基づいて変化する。

一部の実施例では、デバイス８００は、ユーザインタフェース上にＤＡユーザインタフェース８０３を表示している間に、デバイス８００は、第２のユーザ入力を受信する。一部の実施例では、第２のユーザ入力が第３の種類の入力に対応するという判定に従って、デバイス８００は、ＤＡユーザインタフェース８０３を表示することを停止する。一部の実施例では、第３の種類の入力は、ディスプレイ８０１の下部からディスプレイ８０１の上部に向かって発生するスワイプジェスチャを含む。第３の種類の入力は、デバイス８００がホーム画面ユーザインタフェースと異なるユーザインタフェースを表示し（及びＤＡユーザインタフェース８０３を表示しない）、デバイス８００にホーム画面ユーザインタフェースの表示に戻らせるとき、そのような入力を受信すると、「ホームスワイプ」と見なされることがある。

図１０Ｍは、ホーム画面ユーザインタフェース１００１にＤＡユーザインタフェース８０３を表示するデバイス８００を示す。ＤＡユーザインタフェース８０３は、応答アフォーダンス１０２０及びインジケータ８０４を含む。図１０Ｍは、ディスプレイ８０１の下部からディスプレイ８０１の上部に向かうスワイプジェスチャであるユーザ入力１０１９を受信するデバイス８００を更に示す。図１０Ｎは、デバイス８００に従って、ユーザ入力１０１９が第３の種類の入力に対応すると判定することを示し、デバイス８００は、応答アフォーダンス１０２０及びインジケータ８０４を表示することを停止する。

一部の実施例では、ユーザインタフェース（ＤＡユーザインタフェース８０３が上に表示される）は、アプリケーション固有のユーザインタフェースである。一部の実施例では、デバイス８００は、アプリケーション固有のユーザインタフェース上にＤＡユーザインタフェース８０３を表示するが、デバイス８００は、第２のユーザ入力を受信する。一部の実施例では、第２のユーザ入力が第３の種類の入力に対応するという判定に従って、デバイスは、ＤＡユーザインタフェース８０３を表示することを停止し、更にホーム画面ユーザインタフェースを表示する。例えば、図１０Ｏは、健康アプリケーションユーザインタフェース１０２２にＤＡユーザインタフェース８０３を表示するデバイス８００を示す。ＤＡユーザインタフェース８０３は、応答アフォーダンス１０２１及びインジケータ８０４を含む。図１０Ｏは、ディスプレイ８０１の下部からディスプレイ８０１の上部に向かうスワイプジェスチャであるユーザ入力１０２３を受信するデバイス８００を更に示す。図１０Ｐは、デバイス８００に従って、ユーザ入力１０２３が第３の種類の入力に対応すると判定することを示し、デバイス８００は、ホーム画面ユーザインタフェース１００１を表示する。例えば、示すように、デバイス８００は、インジケータ８０４、応答アフォーダンス１０２１、及びメッセージングアプリケーションユーザインタフェース１０２２の表示をホーム画面ユーザインタフェース１００１の表示に置き換える。

一部の実施例では、デバイス８００は、ユーザインタフェース上にＤＡユーザインタフェース８０３を表示している間に、デバイス８００は、応答アフォーダンスの選択に対応する第３のユーザ入力を受信する。第３のユーザ入力を受信したことに応答して、デバイス８００は、ＤＡユーザインタフェース８０３を表示することを停止する。例えば、図１０Ｑは、ホーム画面ユーザインタフェース１００１上に表示されたＤＡユーザインタフェース８０３を示す。ＤＡユーザインタフェース８０３は、応答アフォーダンス１０２４、ダイアログアフォーダンス１０２５、及びインジケータ８０４を含む。図１０Ｑは、応答アフォーダンス１０２４を選択するユーザ入力１０２６（例えば、上向きスワイプ又はドラッグジェスチャ）を受信するデバイス８００を更に示す。図１０Ｒは、ユーザ入力１０２６を受信したことに応答して、デバイス８００がＤＡユーザインタフェース８０３を表示することを停止することを示す。

一部の実施例では、デバイス８００は、ユーザインタフェースの上にユーザインタフェース８０３を表示している間に、デバイス８００は、ディスプレイ８０１の第１の部分からディスプレイ８０１のエッジへのインジケータ８０４の変位に対応する第４のユーザ入力を受信する。第４のユーザ入力を受信したことに応答して、デバイス８００は、ＤＡユーザインタフェース８０３を表示することを停止する。例えば、図１０Ｓは、ホーム画面ユーザインタフェース１００１上に表示されたＤＡユーザインタフェース８０３を示す。図１０Ｓでは、デバイス８００は、ディスプレイ８０１の第１の部分からディスプレイ８０１のエッジにインジケータを変位させるユーザ入力１０２７（例えば、ドラッグ又はスワイプジェスチャ）を受信する。図１０Ｓ～図１０Ｖは、ユーザ入力１０２７を受信したことに応答して（例えば、インジケータ８０４がディスプレイ８０１のエッジに到達したことに応答して）、デバイス８００は、ＤＡユーザインタフェース８０３を表示することを停止することを示す。
５．デジタルアシスタント応答モード

図１１は、様々な例による、ＤＡ応答モードを選択し、選択されたＤＡ応答モードに従って応答を提示するためのシステム１１００を示す。一部の実施例では、システム１１００はスタンドアロンコンピュータシステム（例えば、デバイス１０４、１２２、２００、４００、６００、８００、９００、９０２、又は９０４）上に実装される。システム１１００は、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせを使用して実装されて、本明細書で論じられる原理を実行する。一部の実施例では、システム１１００のモジュール及び機能は、図７Ａ～図７Ｃに関して上述したように、ＤＡシステム内に実装される。

システム１１００は例示的であり、したがって、システム１１００は、示されているよりも多い又はより少ない構成要素を有することができ、２つ以上の構成要素を組み合わせることができ、又は構成要素の異なる構成若しくは配置を有することができる。更に、以下の考察は、システム１１００の単一の構成要素で実行される機能について説明しているが、そのような機能は、システム１１００の他の構成要素で実行されることができ、そのような機能は、システム１１００の２つ以上の構成要素で実行されることができることを理解されたい。

図１２は、様々な例による、異なるＤＡ応答モードに従って自然言語入力を受信した応答を提示するデバイス８００を示す。図１２では、デバイス８００の各例示について、デバイス８００は、ＤＡを開始し、以下に論じられる、サイレント応答モード、混合応答モード、又は音声応答モードに従って、発話入力「天気は何？」に対する応答を提示する。システム１１００を実装するデバイス８００は、ＤＡ応答モードを選択し、以下で論じられる技術を使用して、選択された応答モードに従って応答を提示する。

システム１１００は、取得モジュール１１０２を含む。取得モジュール１１０２は、自然言語入力に応答して応答パッケージを取得する。応答パッケージは、自然言語入力に対する応答として意図されたコンテンツ（例えば、スピーカブルテキスト）を含む。一部の実施例では、応答パッケージは、デジタルアシスタント応答アフォーダンス（例えば、応答アフォーダンス１２０２）に関連付けられた第１のテキスト（コンテンツテキスト）と、応答アフォーダンスに関連付けられた第２のテキスト（キャプションテキスト）とを含む。一部の実施例では、キャプションテキストは、コンテンツテキストよりも詳細でない（例えば、より少ない単語を含む）。コンテンツテキストは、ユーザの要求に対する完全な応答を提供することができ、一方、キャプションテキストは、要求に対する省略（例えば、不完全）応答を提供することができる。要求に対する完全な応答について、デバイス８００は、例えば、コンテンツテキストの提示が完全な応答のための応答アフォーダンスの提示を必要としない場合があるのに対して、キャプションテキストを応答アフォーダンスと同時に提示することができる。

例えば、図１２における自然言語入力「天気は何？」を考えてみる。コンテンツテキストは、「現在７０度で晴れであり、今日の雨の可能性はない。今日の最高は７５度であり、最低は６０度である。」キャプションテキストは、単に「今日はいい天気」である。示すように、キャプションテキストは、コンテンツテキストの情報を視覚的に示す応答アフォーダンス１２０２との提示を意図している。したがって、コンテンツテキスト単独の提示は、キャプションテキスト及び応答アフォーダンスの双方を提示している間、要求に完全に回答することができる。

一部の実施例では、取得モジュール１１０２は、例えば、図７Ａ～図７Ｃに関して説明したように、自然言語入力を処理するデバイス８００によって、応答パッケージをローカルに取得する。一部の実施例では、取得モジュール１１０２は、ＤＡサーバ１０６などの外部デバイスから応答パッケージを取得する。そのような例では、ＤＡサーバ１０６は、図７Ａ～図７Ｃに関して説明したように、自然言語入力を処理して、応答パッケージを決定する。一部の実施例では、取得モジュール１１０２は、応答パッケージの一部分をローカルに、応答パッケージの別の部分を外部デバイスから取得する。

システム１１００は、モード選択モジュール１１０４を含む。選択モジュール１１０４は、デバイス８００と関連付けられたコンテキスト情報に基づいて、複数のＤＡ応答モードからＤＡ応答モードを選択する。ＤＡ応答モードは、ＤＡが自然言語入力（例えば、応答パッケージ）に対する応答を提示する方法（例えば、フォーマット）を指定する。

一部の実施例では、選択モジュール１１０４は、デバイス８００が自然言語入力を受信した後、例えば、自然言語入力を受信した後に取得された現在のコンテキスト情報に基づいて、ＤＡ応答モードを選択する。一部の実施例では、選択モジュール１１０４は、取得モジュール１１０２が応答パッケージを取得した後、例えば、応答パッケージを取得した後に取得された現在のコンテキスト情報に基づいて、ＤＡ応答モードを選択する。現在のコンテキスト情報は、時間選択モジュール１１０４におけるコンテキスト情報を、ＤＡ応答モードを選択することについて説明する。一部の実施例では、時間は、自然言語入力を受信した後、及び自然言語入力に応答を提示する前にある。一部の実施例では、複数のＤＡ応答モードは、以下で更に論じられる、サイレント応答モード、混合応答モード、及び音声応答モードを含む。

システム１１００は、フォーマットモジュール１１０６を含む。選択モジュール１１０４がＤＡ応答モードを選択したことに応答して、フォーマットモジュール１１０６は、ＤＡに、（例えば、選択されたＤＡ応答モードと一致するフォーマットで）応答パッケージを提示させる。一部の実施例では、選択されたＤＡ応答モードは、サイレント応答モードである。一部の実施例では、サイレント応答モードに従って応答パッケージを提示することは、応答アフォーダンスを表示することと、キャプションテキストを表す（例えば、発話する）音声出力を提供することなく、キャプションテキストを表示することとを含む（コンテンツテキストを提供することなく）。一部の実施例では、選択されたＤＡ応答モードは、混合応答モードである。一部の実施例では、混合応答モードに従って応答パッケージを提示することは、応答アフォーダンスを表示することと、キャプションテキストを表示することなくキャプションテキストを発話することとを含む（コンテキストテキストを提供することなく）。一部の実施例では、選択されたＤＡ応答モードは、音声応答モードである。一部の実施例では、音声応答モードに従って応答パッケージを提示することは、例えば、キャプションテキストを提示することなく、及び／又は応答アフォーダンスを表示することなく、コンテンツテキストを発話することを含む。

例えば、図１２では、サイレント応答モードに従って応答パッケージを提示することは、応答アフォーダンス１２０２を表示することと、ダイアログアフォーダンス１２０４内で、キャプションテキストを発話することなくキャプションテキスト「今日はいい天気」を表示することと、を含む。混合応答モードに従って応答パッケージを提示することは、応答アフォーダンス１２０２を表示することと、キャプションテキストを表示することなく、キャプションテキスト「今日はいい天気」を発話することと、を含む。音声応答モードに従って応答パッケージを提示することは、コンテンツテキスト「現在７０度であり、今日の雨の可能性はない。今日の最高は７５度であり、最低は６０度である。」図１２は、音声応答モードに従って応答パッケージを提示するときにデバイス８００が応答アフォーダンス１２０２を表示することを示しているが、他の実施例では、応答パッケージを音声応答モードに従って提示するときに応答アフォーダンスは表示されない。

一部の実施例では、ＤＡがサイレント応答モードに従って応答を提示するとき、デバイス８００は、ダイアログアフォーダンス（例えば、テキストを含む）を表示することなく応答アフォーダンスを表示する。一部の実施例では、デバイス８００は、応答アフォーダンスが自然言語要求への直接回答を含むと判定することに従ってテキストを提供することを取り止める。例えば、デバイス８００は、キャプションテキスト及び応答アフォーダンスが各々、ユーザ要求に応答するそれぞれのマッチングテキストを含むことを判定する（したがって、キャプションテキストを冗長にする）。例えば、自然言語要求「温度は？」について、応答アフォーダンスが現在の温度を含む場合、サイレントモードでは、デバイス８００は、現在の温度を含むキャプションテキストが応答アフォーダンスと冗長であるため、いかなるキャプションテキストも表示しない。対照的に、例示的な自然言語要求「寒い？」を考えてみる。要求についての応答アフォーダンスは、現在の温度及び気象状態を含むことができるが、「はい」又は「いいえ」などの要求に対する直接的な（例えば、明示的な）回答を含まなくてもよい。したがって、そのような自然言語入力について、サイレントモードでは、デバイス８００は、応答アフォーダンス及び要求に対する直接回答、例えば「いいえ、寒くない」を含むキャプションテキストの双方を表示する。

図１２は、一部の実施例では、ＤＡ応答モードを選択することが、（１）キャプションテキストを発話することなくキャプションテキストを表示するか、又は（２）キャプションテキストを表示することなくキャプションテキストを発話するかどうかを判定することを含むことを示す。一部の実施例では、応答モードを選択することは、コンテンツテキストを発話するかどうかを判定することを含む。

一般に、サイレント応答モードは、ユーザがディスプレイを閲覧することを望み、音声出力を望まないときに好適であり得る。混合応答モードは、ユーザがディスプレイを閲覧し、音声出力を所望する場合に好適であり得る。音声応答モードは、ユーザがディスプレイを表示することを望まない（又はそれを見ることができない）ときに好適であり得る。ここで、ＤＡ応答モードを選択するために使用する様々な技術及びコンテキスト情報選択モジュール１１０４について説明する。

図１３は、様々な実施例による、ＤＡ応答モードを選択するために、選択モジュール１１０４によって実装される例示的なプロセス１３００を示す。一部の実施例では、選択モジュール１１０４は、例えば、デバイス８００のメモリに記憶されたコンピュータ実行可能命令としてプロセス１３００を実装する。

ブロック１３０２において、選択モジュール１１０４は、現在のコンテキスト情報を取得する（例えば、判定する）。ブロック１３０４において、モジュール１１０４は、現在のコンテキスト情報に基づいて、音声モードを選択するかどうかを判定する。モジュール１１０４が音声モードを選択すると判定した場合、モジュール１１０４は、ブロック１３０６において音声モードを選択する。モジュール１１０４が音声モードを選択しないと判定する場合、プロセス１３００は、ブロック１３０８に進む。ブロック１３０８において、モジュール１１０４は、サイレントモードと混合モードとの間で選択する。モジュール１１０４がサイレントモードを選択すると判定する場合、モジュール１１０４は、ブロック１３１０においてサイレントモードを選択する。モジュール１１０４が混合モードを選択すると判定する場合、モジュール１１０４は、ブロック１３１２において混合モードを選択する。

一部の実施例では、ブロック１３０４及び１３０８は、ルールベースのシステムを使用して実装される。例えば、ブロック１３０４において、モジュール１１０４は、現在のコンテキスト情報が音声モードを選択するための特定の条件を満たすかどうかを判定する。特定の条件が満たされている場合、モジュール１１０４は、音声モードを選択する。特定の条件が満たされていない場合（現在のコンテキスト情報が混合モード又は音声モードを選択するための条件を満たすことを意味する）、モジュール１１０４は、ブロック１３０８に進む。同様に、ブロック１３０８において、モジュール１１０４は、現在のコンテキスト情報がサイレントモード又は混合モードを選択するための特定の条件を満たし、それに応じてサイレントモード又は混合モードを選択するかどうかを判定する。

一部の実施例では、ブロック１３０４及び１３０８は、確率的（例えば、機械学習）システムを使用して実装される。例えば、ブロック１３０４において、モジュール１１０４は、現在のコンテキスト情報に基づいて、音声モードを選択する確率及び音声モードを選択しない確率（例えば、サイレントモード又は混合モードを選択する確率）を判定し、最も高い確率を有する分岐を選択する。ブロック１３０８において、モジュール１１０４は、現在のコンテキスト情報に基づいて、混合モードを選択する確率及びサイレントモードを選択する確率を判定し、最も高い確率を有するモードを選択する。一部の実施例では、音声モード、混合モード、及びサイレントモード確率は、合計１になる。

ここで、ブロック１３０４及び／又は１３０８の決定に使用される様々な種類の現在のコンテキスト情報について論じる。

一部の実施例では、コンテキスト情報は、デバイス８００がディスプレイを有するかどうかを含む。ルールベースのシステムでは、デバイス８００がディスプレイを有しないという判定は、音声モードを選択するための条件を満たす。確率システムでは、デバイス８００がディスプレイを有しないという判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。

一部の実施例では、コンテキスト情報は、デバイス８００が音声入力（例えば、「ＨｅｙＳｉｒｉ」）を検出してＤＡを開始するかどうかを含む。ルールベースのシステムでは、ＤＡを開始する音声入力を検出することは、音声モードを選択するための条件を満たす。ルールベースのシステムでは、ＤＡを開始する音声入力を検出しないことは、音声モードを選択するための条件を満たさない（したがって、混合モード又はサイレントモードを選択するための条件を満たす）。確率システムでは、一部の実施例では、ＤＡを開始する音声入力を検出することは、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、ＤＡを開始する音声入力を検出しないことは、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、デバイス８００がデバイス８００の物理的接触を検出してＤＡを開始するかどうかを含む。ルールベースのシステムでは、物理的接触を検出しないことは、音声モードを選択するための条件を満たしている。ルールベースのシステムでは、物理的接触の検出は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、物理的接触を検出しないことは、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、物理的接触の検出は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、デバイス８００がロック状態にあるかどうかを含む。ルールベースのシステムでは、デバイス８００がロック状態にあるという判定は、音声モードを選択するための条件を満たす。ルールベースのシステムでは、デバイス８００がロック状態にないという判定は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、デバイス８００がロック状態にあるという判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、デバイス８００がロック状態にないという判定は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、ＤＡを開始する前にデバイス８００のディスプレイが表示されたかどうかを含む。ルールベースのシステムでは、ＤＡを開始する前にディスプレイが表示されなかったという判定は、音声モードを選択するための条件を満たす。ルールベースのシステムでは、ＤＡを開始する前にディスプレイが表示されたという判定は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、ＤＡを開始する前にディスプレイが表示されなかったという判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、ＤＡを開始する前にディスプレイが表示されたという判定は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、デバイス８００の表示配向を含む。ルールベースのシステムでは、ディスプレイがフェイスダウンするという判定は、音声モードを選択するための条件を満たす。ルールベースのシステムでは、ディスプレイがフェイスアップするという判定は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、ディスプレイがフェイスダウンするとの判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、表示がフェイスアップするとの判定は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、デバイス８００のディスプレイが隠されているかどうかを含む。例えば、デバイス８００は、１つ以上のセンサ（例えば、光センサ、マイクロフォン、近接センサ）を使用して、ユーザがディスプレイを見ることができないかどうかを判定する。例えば、ディスプレイは、少なくとも部分的に囲まれた空間（例えば、ポケット、バッグ、又は引き出し）にあってもよく、又は物体によって覆われてもよい。ルールベースのシステムでは、ディスプレイが隠されているという判定は、音声モードを選択するための条件を満たす。ルールベースのシステムでは、ディスプレイが隠されていないという判定は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、ディスプレイが隠されているという判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、ディスプレイが隠されていないという判定は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、デバイス８００が外部音声出力デバイス（例えば、ヘッドホン、Ｂｌｕｅｔｏｏｔｈデバイス、スピーカ）に結合されているかどうかを含む。ルールベースのシステムでは、デバイス８００が外部デバイスに結合されているという判定は、音声モードを選択するための条件を満たす。ルールベースのシステムでは、デバイス８００が外部デバイスに結合されていないという判定は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、デバイス８００が外部デバイスに結合されているという判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、デバイス８００が外部デバイスに結合されていないという判定は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、ユーザ視線の方向がデバイス８００に向けられているかどうかを含む。ルールベースのシステムでは、ユーザ視線の方向がデバイス８００に向けられていないという判定は、音声モードを選択するための条件を満たす。ルールベースのシステムでは、ユーザ視線の方向がデバイス８００に向けられているという判定は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、ユーザ視線の方向がデバイス８００に向けられていないという判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、ユーザ視線の方向がデバイス８００に向けられているという判定は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、応答モードを選択する前に、所定の期間内にデバイス８００の所定の種類のジェスチャが検出されたかどうかを含む。所定の種類のジェスチャは、例えば、デバイス８００にディスプレイをオンにするための持ち上げ及び／又は回転ジェスチャを含む。ルールベースのシステムでは、所定の期間内の所定の種類のジェスチャを検出しないことは、音声モードを選択するための条件を満たす。ルールベースのシステムでは、所定の期間内の所定の種類のジェスチャの検出は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、所定の期間内に所定の種類のジェスチャを検出しないことは、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、所定の期間内の所定の種類のジェスチャの検出は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、自然言語入力の方向を含む。ルールベースのシステムでは、自然言語入力の方向がデバイス８００に向けられていないという判定は、音声モードを選択するための条件を満たす。ルールベースのシステムでは、自然言語入力の方向がデバイス８００に向けられているという判定は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、自然言語入力の方向がデバイス８００に向けられていないという判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、自然言語入力の方向がデバイス８００に向けられているという判定は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、応答モードを選択する前に、所定の期間内にデバイス８００で実行されたタッチ（例えば、応答アフォーダンスを選択するユーザ入力）をデバイス８００が検出したかどうかを含む。ルールベースのシステムでは、所定の期間内のタッチを検出しないことは、音声モードを選択するための条件を満たす。ルールベースのシステムでは、所定の期間内のタッチの検出は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、所定の期間内のタッチを検出しないことは、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、所定の期間内のタッチの検出は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、例えば、発話入力とは対照的に、自然言語入力が入力されたかどうかを含む。ルールベースのシステムでは、自然言語入力が入力されなかったという判定は、音声モードを選択するための条件を満たす。ルールベースのシステムでは、自然言語入力が入力されたという判定は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、自然言語入力が入力されなかったという判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、自然言語入力が入力されたという判定は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、応答モードを選択する前に、デバイス８００が所定の期間（例えば、１０、１５、３０秒）内に通知（例えば、テキストメッセージ、電子メールメッセージ、アプリケーション通知、システム通知）を受信したかどうかを含む。ルールベースのシステムでは、所定の期間内の通知を受信しないことは、音声モードを選択するための条件を満たす。ルールベースのシステムでは、所定の期間内に通知を受信することは、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、所定の期間内に通知を受信しないことは、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、所定の期間内に通知を受信することは、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、デバイス８００によって検出された周囲ノイズレベルを含む。閾値を超える周囲ノイズレベルは、例えば、ユーザがノイズの多い環境にあるため、ユーザが音声出力を聴取することができないことを提案することができる。したがって、閾値を超える周囲ノイズレベルを検出することは、（デバイス８００が音声モード及び混合モードで音声出力を提供するときに）サイレントモードを選択することを提案することができる。したがって、ルールベースのシステムでは、周囲ノイズレベルが閾値を下回るという判定は、音声モードを選択するための条件を満たし、（ブロック１３０８において）混合モードを選択するための条件を満たし、（ブロック１３０８において）サイレントモードを選択するための条件を満たさない。ルールベースのシステムでは、周囲ノイズレベルが閾値を超えているという判定は、音声モードを選択するための条件を満たさず、混合モードを選択するための条件を満たさず（ブロック１３０８）、サイレントモードを選択するための条件を満たす（ブロック１３０８）。確率システムでは、一部の実施例では、周囲ノイズレベルが閾値未満であるという判定は、音声モードの確率を増加させ、混合モードの確率を増加させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、周囲ノイズレベルが閾値を超えるとの判定は、音声モードの確率を減少させ、混合モードの確率を減少させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、自然言語入力がささやき入力に対応するかどうかを含む。自然言語発話入力をささやくユーザは、例えば、ユーザが映画館のような静かな環境にいるため、ユーザが音声出力を望まないことを提案することができる。したがって、自然言語入力がささやき入力に対応すると判定することは、サイレントモードを選択することを提案することができる。したがって、ルールベースのシステムでは、自然言語入力がささやき入力に対応しないという判定は、音声モードを選択するための条件を満たし、（ブロック１３０８において）混合モードを選択するための条件を満たし、（ブロック１３０８において）サイレントモードを選択するための条件を満たさない。ルールベースのシステムでは、自然言語入力がささやき入力に対応するという判定は、音声モードを選択するための条件を満たさず、混合モードを選択するための条件を満たさず（ブロック１３０８）、サイレントモードを選択するための条件を満たす（ブロック１３０８）。確率システムでは、一部の実施例では、自然言語入力がささやき入力に対応しないという判定は、音声モードの確率を増加させ、混合モードの確率を増加させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、自然言語入力がささやき入力に対応するという判定は、音声モードの確率を減少させ、混合モードの確率を減少させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、ユーザのスケジュール情報がユーザが占有されていることを示すかどうか（例えば、会議において）を含む。ユーザが占有していることを示すスケジュール情報は、サイレントモードを選択することを提案することができる。したがって、ルールベースのシステムでは、ユーザが占有していないことをスケジュール情報が示すという判定は、音声モードを選択するための条件を満たし、（ブロック１３０８において）混合モードを選択するための条件を満たし、（ブロック１３０８において）サイレントモードを選択するための条件を満たさない。ルールベースのシステムでは、ユーザが占有していることをスケジュール情報が示すという判定は、音声モードを選択するための条件を満たさず、混合モードを選択するための条件を満たさず（ブロック１３０８）、サイレントモードを選択するための条件を満たす（ブロック１３０８）。確率システムでは、一部の実施例では、ユーザが占有していないことをスケジュール情報が示すとの判定は、音声モードの確率を増加させ、混合モードの確率を増加させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、ユーザが占有していることをスケジュール情報が示すとの判定は、音声モードの確率を減少させ、混合モードの確率を減少させ、サイレントモードの確率を増加させる。

一部の実施例では、コンテキスト情報は、デバイス８００が車両にあるかどうかを含む。一部の実施例では、デバイス８００は、車両とのペアリングを検出することによって（例えば、ＡｐｐｌｅＩｎｃ．によるＢｌｕｅｔｏｏｔｈ又はＣａｒＰｌａｙ（登録商標）を介して）、又はデバイス８００が車両内にあることを示す設定の起動（例えば、運転設定中に妨害しない）を判定することによって、車両内にあるかどうかを判定する。一部の実施例では、デバイス８００は、デバイス８００の位置及び／又は速度を使用して車両内にあるかどうかを判定する。例えば、デバイス８００がハイウェイで時間６５マイルを移動していることを示すデータは、デバイス８００が車両にあることを示すことができる。

ルールベースのシステムでは、デバイス８００が車両にあるという判定は、音声モードを選択するための条件を満たす。ルールベースのシステムでは、デバイス８００が車両内にないという判定は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、デバイス８００が車両にあるという判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、デバイス８００が車両内にないという判定は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

図１４は、様々な例による、ユーザが車両にいる（例えば、運転している）と判定されたときに、音声応答モードに従って応答を提示するデバイス８００を示す。示すように、デバイス８００は、駆動ユーザインタフェース１４００上にＤＡユーザインタフェース８０３を表示する。ユーザが運転している間の視覚的な伸延を最小限に抑えるために、ＤＡユーザインタフェース８０３は、応答アフォーダンスを含まず、インジケータ８０４のみを含む。自然言語入力「天気は何？」に応答して、ＤＡは、コンテンツテキスト「現在７０度で晴れであり、今日の雨の可能性はない。今日の最高は７５度であり、最低は６０度である。」を話す。したがって、ＤＡは、ユーザが運転している間に視覚的な伸延を低減する方法で、ユーザの要求に応答することができる。

一部の実施例では、コンテキスト情報は、デバイス８００が所定の種類のアプリケーションを実行しているかどうかを含む。一部の実施例では、所定の種類のアプリケーションは、ナビゲーションアプリケーションを含む。ルールベースのシステムでは、デバイス８００が所定の種類のアプリケーションを実行しているという判定は、音声モードを選択するための条件を満たす。ルールベースのシステムでは、デバイス８００が所定の種類のアプリケーションを実行していないという判定は、音声モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、デバイス８００が所定の種類のアプリケーションを実行しているという判定は、音声モードの確率を増加させ、及び／又は混合モードの確率を減少させ、サイレントモードの確率を減少させる。確率システムでは、一部の実施例では、デバイス８００が所定の種類のアプリケーションを実行していないという判定は、音声モードの確率を減少させ、及び／又は混合モードの確率を増加させ、サイレントモードの確率を増加させる。

図１５は、様々な例による、デバイス８００がナビゲーションアプリケーションを実行しているときに、音声応答モードに従って応答を提示するデバイス８００を示す。示すように、デバイス８００は、ナビゲーションアプリケーションユーザインタフェース１５００にＤＡユーザインタフェース８０３を表示する。ユーザインタフェース１５００への視覚的混乱を最小限に抑えるために、ＤＡユーザインタフェース８０３は、応答アフォーダンス（又はダイアログアフォーダンス）を含まず、インジケータ８０４のみを含む。自然言語入力「天気は何？」に応答して、ＤＡは、コンテンツテキスト「現在７０度で晴れであり、今日の雨の可能性はない。今日の最高は７５度であり、最低は６０度である。」を話す。したがって、ＤＡは、実行されるナビゲーションアプリケーションへの視覚的混乱を低減する方法で、ユーザの要求に応答することができる。

図１３に戻ると、ブロック１３０８において、モジュール１１０４は、サイレントモードと混合モードとの間で選択する。一部の実施例では、モジュール１１０４は、特定の条件が満たされたモードを選択する（ブロック１３０４の実行はまた、現在のコンテキスト情報が混合モードを選択するための条件又はサイレントモードを選択するための条件を満たすかどうかを判定することもできることを想起されたい）。一部の実施例では、モジュール１１０４は、確率が最も高いモードを選択する（ブロック１３０４を実行することは、サイレントモード及び混合モードのそれぞれの確率を判定することができる）。一部の実施例では、ブロック１３０８において、モジュール１１０４は、以下で論じられる現在のコンテキスト情報に基づいて、サイレントモードと混合モードとの間で選択する。

一部の実施例では、コンテキスト情報は、ＤＡがユーザ要求に応答して音声出力を提供するべきかどうかを示すＤＡ音声フィードバック設定を含む。一部の実施例では、音声フィードバック設定は、（例えば、常に）音声フィードバックを提供することを示す。ルールベースのシステムでは、音声フィードバック設定が音声フィードバックを提供することを示す判定は、混合モードを選択するための条件を満たし、サイレントモードを選択するための条件を満たさない。確率システムでは、一部の実施例では、音声フィードバック設定が音声フィードバックを提供することを示す判定は、混合モードの確率を増加させ、サイレントモードの確率を減少させる。

一部の実施例では、ＤＡ音声フィードバック設定は、デバイス８００のスイッチ（例えば、リンガースイッチ）で音声フィードバックを制御することを示す。例えば、音声フィードバック設定は、リンガースイッチがオンになっているときに音声フィードバックを提供し、リンガースイッチがオフになったときに音声フィードバックを提供しないことを示す。そのような実施例では、ルールベースのシステムでは、リンガースイッチがオンであるという判定（音声フィードバック設定は音声フィードバックを提供することを示す）は、混合モードを選択するための条件を満たし、サイレントモードを選択するための条件を満たさない。ルールベースのシステムでは、リンガースイッチがオフであるという判定（音声フィードバック設定は音声フィードバックを提供しないことを示す）は、サイレントモードを選択するための条件を満たし、混合モードを選択するための条件を満たさない。確率システムでは、一部の実施例では、リンガースイッチがオンになるとの判定は、混合モード確率を増加させ、サイレントモード確率を減少させる。確率システムでは、一部の実施例では、リンガースイッチがオフであるという判定は、混合モード確率を減少させ、サイレントモード確率を増加させる。

一部の実施例では、ＤＡ音声フィードバック設定は、「ハンズフリー」コンテキストで音声フィードバックを提供することを示す。例えば、ＤＡ音声フィードバック設定は、ＤＡが発話入力を使用して開始されるか、又はデバイスが外部デバイス（例えば、ヘッドホン、Ｂｌｕｅｔｏｏｔｈデバイス、又はＡｐｐｌｅＩｎｃ．によってＣａｒＰｌａｙ（登録商標）を実装するデバイス）に結合／ペアリングされる場合にのみ音声フィードバックを提供することを指定する。一部の実施例では、音声フィードバック設定が「ハンズフリー」コンテキストで音声フィードバックを提供することを示す判定は、モジュール１１０４に、デバイス８００が物理的接触を検出してＤＡを開始するかどうかを判定する。ルールベースのシステムでは、デバイス８００が物理的接触を検出したという判定は、サイレントモードを選択するための条件を満たし、混合モードを選択するための条件を満たさない。ルールベースのシステムでは、デバイス８００が物理的接触を検出しなかったという判定は、混合モードを選択するための条件を満たし、サイレントモードを選択するための条件を満たさない。確率システムでは、一部の実施例では、デバイス８００が物理的接触を検出したという判定は、サイレントモード確率を増加させ、混合モード確率を減少させる。確率システムでは、一部の実施例では、デバイス８００が物理的接触を検出しなかったという判定は、サイレントモード確率を減少させ、混合モード確率を増加させる。一部の実施例では、音声フィードバック設定が「ハンズフリー」コンテキストにおいて音声フィードバックを提供することを示さないという判定は、上述したように、モジュール１１０４に別の音声フィードバック設定に従って（例えば、音声フィードバックを制御するために、又は常に音声フィードバックを提供するために）混合モード又はサイレントモードを選択する。

一部の実施例では、ルールベースのシステムでは、モジュール１１０４は、例えば、特定のモードを選択するための他の条件が満たされる限り、特定のモードを選択するための１つ以上の条件が満たされない（又は決定されない）場合でも、特定のＤＡ応答モードを選択する。一部の実施例では、特定のモードを選択するための条件は、順次である。例えば、モジュール１１０４が、コンテキスト情報が特定のモードを選択するための条件を満たす（又はそうでない）と判定した後、モジュール１１０４は、コンテキスト情報が特定のモードを選択するための別の条件を満たすかどうか、などを判定して、特定のモードを選択する。一部の実施例では、特定のモードを選択するための特定の条件は、他の条件が満たされているかどうかに関係なく、特定の条件が満たされる場合、例えば、モジュール１１０４が特定のモードを選択するように、他の条件に優先される。特定のモードを選択するために、様々な条件が満たされる特定の条件及び配列は、モジュール１１０４の様々な実装形態に従って変化することができる。例えば、モジュール１１０４は、デバイス８００が車両にあると判定された場合、デバイス８００が物理的接触を検出してＤＡを検出した場合（音声モードではなく、混合モード又はサイレントモードを選択するための条件を満たす）、音声応答モードを選択する。

一部の実施例では、コンテキスト情報の特定の種類は、確率システムで決定されない。一部の実施例では、確率システムでは、モジュール１１０４がそれぞれの応答モード確率を増加又は減少させる量は、例えば、異なる種類のコンテキスト情報が特定の応答モードを選択するときに異なる重みを有するように、例えば、コンテキスト情報の特定の種類に基づいて変化する。例えば、モジュール１１０４は、第１のコンテキスト情報が確率を増加させることを示すことを決定したことに応答して、特定のモードの確率を、第１の量によって増加させ、異なる第２のコンテキスト情報が確率を増加させることを示すことを判定したことに応答して、異なる第２の量によって確率を増加させる。特定の実施例として、デバイス８００が車両にあるという判定は、音声モード確率を大量に増加させ、デバイス８００がロック状態にあるという判定は、音声モード確率をより少ない量だけ増加させる。一部の実施例では、モジュール１１０４は、モードの確率が閾値を超えたときに特定のモードを選択する。一部の実施例では、特定の種類のコンテキスト情報は、例えば、コンテキスト情報が特定のモードを選択するときに重みを有しないように、特定のモードの確率に影響を及ぼさない。例えば、デバイス８００がＤＡを開始する音声入力を受信しなかったことを示すコンテキスト情報は、音声モード、混合モード、及びサイレントモード、又はそれらのサブ組み合わせを選択する確率に影響を与えない。

プロセス１３００は例示的であり、モジュール１１０４が応答モードを選択することができる方法を制限しないことを理解されたい。したがって、本開示は、上述したコンテキスト情報に基づいて応答モードを選択する他の方法を企図する。例えば、最初に音声モードを選択するかどうかを判定する代わりに、モジュール１１０４は、コンテキスト情報に基づいて、音声、サイレント、及び混合モードのそれぞれの確率を同時に決定する。別の実施例として、モジュール１１０４は、本明細書の教示と一致する方法で、コンテキスト情報が特定の条件を満たすかどうかに基づいて、決定木又はフローチャートを実装して、応答モードを選択する。決定木又はフローチャートの特定の構成は、モジュール１１０４の様々な実装によって変化することができる。

一部の実施例では、選択されたＤＡ応答モードは、マルチターンＤＡ相互作用の過程を通して変化する。マルチターンＤＡ相互作用は、ユーザがＤＡへの第１の自然言語入力を提供する相互作用を表し、ＤＡは、更なるユーザ入力を要求する応答を提示する。したがって、一部の実施例では、デバイス８００は、第１の自然言語入力を受信し、ＤＡは、第１の選択された応答モードに従って（第１の自然言語入力に応答して）第１の応答パッケージを提示する。第１の応答パッケージの提示は、更なるユーザ入力を要求することを含む。したがって、第１の応答パッケージを提示した後、デバイス８００は、第１の応答パッケージの提示に応答して第２の自然言語入力を受信する。デバイス８００は、第２の自然言語入力に応答して第２の応答パッケージを取得する。第２の自然言語入力を受信した後、デバイス８００は、複数のＤＡ応答モードから第２のＤＡ応答モード（第１のＤＡ応答モードとは異なる）を更に選択する。第２の応答モードを選択したことに応答して、ＤＡは、第２の応答モードに従って第２の応答パッケージを提示する。

図１６は、様々な実施例による、マルチターンＤＡ相互作用の過程にわたる応答モード変動を示す。図１６では、時間Ｔ１において、ユーザは、ＤＡを開始し、第１の発話入力「Ｓａｍにメッセージを送信する」を提供する。デバイス８００は、第１の発話入力に応答して第１の応答パッケージを取得する。第１の応答パッケージは、コンテンツテキスト「Ｓａｍに伝えたいメッセージは何？及びキャプションテキスト「何て言ってるの？」を含む。デバイス８００は、例えば、ユーザがデバイス８００及び／又はデバイス８００のＤＡ音声フィードバック設定を物理的にタッチして、音声フィードバックを提供することを示すことでユーザがＤＡを開示したため、混合応答モードを更に選択する。したがって、時間Ｔ２において、ＤＡは、混合応答モードに従って第１の応答パッケージを提示する。具体的には、デバイス８００は、キャプションテキスト「何て言ってるの？」を発話し、Ｓａｍへのメッセージを示す応答アフォーダンス１６００を表示する。

時間Ｔ３において、ユーザは、デバイス８００のディスプレイを下向きにしてテーブル上に配置し、第２の発話入力「夕食は何？」を提供する。デバイス８００は、第２の発話入力に応答して第２の応答パッケージを取得する。第２の応答パッケージは、キャプションテキスト「これがあなたのメッセージです、送信する準備はできた？」と、コンテンツテキスト「Ｓａｍへのメッセージは「夕食は何？」というものであり、送信する準備はできた？」を含む。デバイス８００は、例えば、デバイス８００のディスプレイが第２の発話入力を受信した後にフェイスダウンするため、音声応答モードを更に選択する。したがって、時間Ｔ４において、ＤＡは、音声応答モードに従って第２の応答パッケージを提示する。具体的には、デバイス８００は、コンテンツテキスト（キャプションテキストではない）「Ｓａｍへのメッセージは「夕食は何？」というものであり、送信する準備はできた？」を発話する。

このようにして、ＤＡは、デバイス８００の現在のコンテキストに適した様式でインテリジェントに応答することができる。例えば、時間Ｔ２において、ユーザがディスプレイ８０１を見ることができるため、混合モードは適切であった。したがって、時間Ｔ２において、デバイス８００は「何て言ってるの？」と発話するだけであるため、応答アフォーダンス１６００は、ＤＡがＳａｍにメッセージを聴覚的に示すことなく、Ｓａｍにメッセージを視覚的に示す。ＤＡは、（Ｓａｍに対するメッセージを示す）より長いコンテンツテキストを発話せず、したがって、相互作用効率を高める。しかしながら、時間Ｔ４において、ユーザは、ディスプレイ８０１を見ることができない。ユーザはメッセージコンテンツを視覚的に確認することができないため、ＤＡは、単にキャプションテキスト「これがあなたのメッセージです、送信する準備はできた？」を単に提示しない。むしろ、ＤＡは、より情報的なコンテンツテキストを発話して、メッセージコンテンツを可聴的に確認する。
６．デジタルアシスタントを動作させる処理

図１７Ａ～図１７Ｆは、様々な実施例による、デジタルアシスタントを動作させるためのプロセス１７００を示す。プロセス１７００は、例えば、デジタルアシスタントを実装する１つ以上の電子デバイスを使用して実行される。一部の実施例では、プロセス１７００は、クライアント－サーバシステム（例えば、システム１００）を使用して実行され、プロセス１７００のブロックは、サーバ（例えば、ＤＡサーバ１０６）とクライアントデバイス（例えば、デバイス８００、９００、９０２、又は９０４）との間で任意の方法で分割される。他の実施例では、プロセス１７００のブロックは、サーバと複数のクライアントデバイス（例えば、携帯電話及びスマートウォッチ）との間で分割される。したがって、プロセス１７００の一部はクライアント－サーバシステムの特定のデバイスによって実行されるように本明細書では説明されているが、プロセス１７００は、そのように限定されないことが理解されよう。他の実施例では、プロセス１７００は、クライアントデバイス（例えば、ユーザデバイス１０４）のみを使用して、又は複数のクライアントデバイスのみを使用して実行される。プロセス１７００では、いくつかのブロックが任意選択的に組み合わせられ、いくつかのブロックの順序が任意選択的に変更され、いくつかのブロックが任意選択的に省略される。一部の実施例では、プロセス１７００と組み合わせて追加のステップが実行されることができる。

一般に、プロセス１７００は、上述した図８Ａ～図８ＣＴを使用して例示される。しかしながら、上述した他の図は、プロセス１７００に等しく適用可能であり得ることを理解されたい。

ブロック１７０１において、（例えば、ディスプレイ８０１に）デジタルアシスタントユーザインタフェースとは異なるユーザインタフェース（例えば、図８Ａのユーザインタフェース８０２）を表示している間に、ユーザ入力が受信される。

ブロック１７０２において、ユーザ入力がデジタルアシスタントを開始するための基準を満たすとの判定に従って、デジタルアシスタントユーザインタフェース（例えば、図８ＦのＤＡユーザインタフェース８０３）がユーザインタフェース上に表示される。デジタルアシスタントユーザインタフェースは、ディスプレイの第１の部分に表示されるデジタルアシスタントインジケータ（例えば、図８Ｆのインジケータ８０４）と、ディスプレイの第２の部分に表示される応答アフォーダンス（例えば、図８Ｆの応答アフォーダンス８０５）とを含む。ユーザインタフェースの一部は、ディスプレイの第３の部分で見えるままである。一部の実施例では、第３の部分は、第１の部分と第２の部分との間にある。一部の実施例では、ユーザインタフェースの部分は、ユーザ入力を受信する前に、ディスプレイの第３の部分に表示された。一部の実施例では、ユーザインタフェースは、ホーム画面ユーザインタフェース（例えば、図８Ａのユーザインタフェース８０２）又はアプリケーション固有ユーザインタフェース（例えば、図８Ｊのユーザインタフェース８０９）である。

一部の実施例では、応答アフォーダンスは、第１の状態で表示される（例えば、図８Ｇの応答アフォーダンス８０５）。一部の実施例では、ブロック１７０３において、ユーザインタフェース上に表示されている間に、デジタルアシスタントユーザインタフェースに、応答アフォーダンス（例えば、図８Ｇの入力８０６）の選択に対応する第２のユーザ入力が受信される。一部の実施例では、ブロック１７０４において、第２のユーザ入力を受信したことに応答して、第１の状態の応答アフォーダンスの表示は、第２の状態（例えば、図８Ｈの応答アフォーダンス８０５）の応答アフォーダンスの表示に置き換えられる。一部の実施例では、第１の状態は、コンパクト状態であり、第２の状態は、拡張状態である。

一部の実施例では、ブロック１７０５において、第２の状態に応答アフォーダンスを表示している間に、第１の状態で応答アフォーダンスを表示するように要求する第３のユーザ入力が受信される。一部の実施例では、ブロック１７０６において、第３のユーザ入力を受信したことに応答して、第２の状態の応答アフォーダンスの表示は、第１の状態の応答アフォーダンスの表示に置き換えられる。

一部の実施例では、ブロック１７０７において、第２の状態に応答アフォーダンスを表示している間に、応答アフォーダンスの選択（例えば、図８Ｉの入力８０８）に対応する第４のユーザ入力が受信される。一部の実施例では、ブロック１７０８において、第４のユーザ入力を受信したことに応答して、応答アフォーダンスに対応するアプリケーションのユーザインタフェース（例えば、図８Ｊのユーザインタフェース８０９）が表示される。

一部の実施例では、第２のユーザ入力は、応答アフォーダンスの第１の部分（例えば、図８Ｇの応答アフォーダンス８０５の選択された部分）の選択に対応する。一部の実施例では、ブロック１７０９において、ユーザインタフェース上に第１の状態に表示された応答アフォーダンスを含むデジタルアシスタントユーザインタフェースは、応答アフォーダンスの第２の部分の選択に対応する第５のユーザ入力（例えば、図８Ｍの入力８１２）を受信する。一部の実施例では、ブロック１７１０において、第５のユーザ入力を受信したことに応答して、応答アフォーダンスに対応する第２のアプリケーションの第２のユーザインタフェース（例えば、図８Ｎのユーザインタフェース８０９）が表示される。一部の実施例では、ブロック１７１１において、第２のアプリケーションの第２のユーザインタフェースを表示している間に、選択可能なデジタルアシスタントインジケータ（例えば、図８Ｎのインジケータ８１０）が表示される。

一部の実施例では、応答アフォーダンス（例えば、図８Ｑの応答アフォーダンス８１６）は、選択可能要素（例えば、図８Ｑの選択可能要素８１７）を含む。一部の実施例では、ブロック１７１２において、選択可能要素の選択に対応するユーザ入力（例えば、図８Ｒの入力８１８）が受信される。一部の実施例では、ブロック１７１３において、選択可能要素の選択に対応するユーザ入力を受信したことに応答して、選択可能要素に対応するアフォーダンス（例えば、図８Ｓのアフォーダンス８１９）が応答アフォーダンスの上に表示される。一部の実施例では、ブロック１７１４において、選択可能要素に対応する応答アフォーダンス上に表示されている間に、ユーザインタフェースは、ディスプレイの第３の部分（例えば、図８Ｓのユーザインタフェース８０２）で視覚的に隠される。

一部の実施例では、ユーザインタフェースは、ディスプレイの第４の部分を占める入力フィールド（例えば、図８Ｚの入力フィールド８２６）を含む。一部の実施例では、ブロック１７１５において、ディスプレイの第１の部分からディスプレイの第４の部分への応答アフォーダンスの変位に対応する第６のユーザ入力（例えば、図８ＡＢ～図８ＡＣの入力８２８）が受信される。一部の実施例では、ブロック１７１６において、第６のユーザ入力を受信したことに応答して、ディスプレイの第１の部分における応答アフォーダンスの表示は、入力フィールド（例えば、図８ＡＤ）内の応答アフォーダンスの表示に置き換えられる。一部の実施例では、入力フィールドは、メッセージングアプリケーション、電子メールアプリケーション、又はメモ取りアプリケーションに対応する。一部の実施例では、ブロック１７１７において、第６のユーザ入力を受信している間、応答アフォーダンスは、ディスプレイの第１の部分からディスプレイの第４の部分に連続的に変位される（例えば、図８ＡＢ～図８ＡＣ）。実施例では、ブロック１７１８において、応答アフォーダンスを連続的に変位させながら、デジタルアシスタントインジケータの表示を停止する。

一部の実施例では、ユーザインタフェースは、ディスプレイの第５の部分を占めるウィジェット領域（例えば、図８ＡＧのウィジェット領域８３２）を含む。一部の実施例では、ブロック１７１９において、ディスプレイの第１の部分からディスプレイの第５の部分への応答アフォーダンスの変位に対応する第７のユーザ入力（例えば、図８ＡＨ～図８ＡＩのユーザ入力８３４）が受信される。一部の実施例では、ブロック１７２０において、第７のユーザ入力を受信したことに応答して、ディスプレイの第１の部分における応答アフォーダンスの表示は、ウィジェット領域内の応答アフォーダンスの表示（例えば、図８ＡＪ）に置き換えられる。一部の実施例では、応答アフォーダンスは、イベントに対応する。一部の実施例では、ブロック１７２１において、イベントの完了が判定される。一部の実施例では、ブロック１７２２において、イベントの完了を判定したことに応答して、ウィジェット領域内の応答アフォーダンスの表示が停止される。

一部の実施例では、ブロック１７２３において、自然言語入力が受信され、応答アフォーダンスが、デジタルアシスタントによる自然言語入力による応答に対応する。一部の実施例では、デジタルアシスタントは、自然言語入力に対応する複数の結果を判定し、応答アフォーダンスは、複数の結果のうちの単一の結果（例えば、図８ＡＯの応答アフォーダンス８３９）を含む。一部の実施例では、応答アフォーダンスは、編集可能なテキストフィールドを含み、編集可能なテキストフィールドは、自然言語入力から決定されたテキストを含む（例えば、図８ＡＲの編集可能なテキストフィールド８５０）。

一部の実施例では、デジタルアシスタントユーザインタフェースは、ダイアログアフォーダンス（例えば、図８ＢＭのダイアログアフォーダンス８６３）を含む。一部の実施例では、ブロック１７２４において、ダイアログアフォーダンスは、ディスプレイの第６の部分に表示される。一部の実施例では、第６の部分は、第１の部分と第２の部分との間にある。一部の実施例では、ダイアログアフォーダンスは、自然言語入力に応答して、デジタルアシスタントによって生成されるダイアログを含む。

一部の実施例では、ブロック１７２５において、自然言語入力のための複数の選択可能な曖昧性除去オプションが、デジタルアシスタントによって決定される。一部の実施例では、ダイアログは、複数の選択可能な曖昧性除去オプション（例えば、図８ＢＬのオプション８６５及び８６６）を含む。

一部の実施例では、ブロック１７２６において、自然言語入力に基づく一次ユーザ意図が判定される。一部の実施例では、応答アフォーダンスは、一次ユーザ意図に対応する（例えば、図８ＢＮの応答アフォーダンス８７０）。一部の実施例では、ブロック１７２７において、自然言語入力に基づく代替ユーザ意図が判定される。一部の実施例では、ダイアログは、代替ユーザ意図に対応する選択可能なオプション（例えば、図８ＢＮのオプション８７２）を含む。

一部の実施例では、ダイアログアフォーダンスは、第３の状態で表示される（例えば、図８ＢＯのダイアログアフォーダンス８７３）。一部の実施例では、ブロック１７２８において、ダイアログアフォーダンス（例えば、図８ＢＰ～図８ＢＲのユーザ入力８７４）の選択に対応する第８のユーザ入力が受信される。一部の実施例では、ブロック１７２９において、第８のユーザ入力を受信したことに応答して、第３の状態のダイアログアフォーダンスの表示は、第４の状態のダイアログアフォーダンス（例えば、図８ＢＱ、図８ＢＲ、図８ＢＳ、又は図８ＢＴのダイアログアフォーダンス）の表示に置き換えられる。一部の実施例では、第４の状態は、ダイアログアフォーダンスの最大サイズに対応する。一部の実施例では、第４の状態のダイアログアフォーダンスを表示している間に、ダイアログアフォーダンスのコンテンツをスクロールするためのユーザ入力が有効にされる（例えば、図８ＢＳ）。

一部の実施例では、第４の状態のダイアログアフォーダンスの表示は、ディスプレイの第１の部分の少なくとも一部（例えば、図８ＢＲ～図８ＢＴ）を占める。一部の実施例では、ブロック１７３０において、第４の状態のダイアログアフォーダンスを表示することは、応答アフォーダンス（例えば、図８ＢＲ～図８ＢＴ）の少なくとも第３の部分上にダイアログアフォーダンスを表示することを含む。

一部の実施例では、第８のユーザ入力を受信する前に、応答アフォーダンスは、第５の状態で表示された（例えば、図８ＢＯの応答アフォーダンス８７５）。一部の実施例では、ブロック１７３１において、第４の状態のダイアログアフォーダンスを表示することは、第５の状態の応答アフォーダンスの表示を、第６の状態の応答アフォーダンス（例えば、図８ＢＲ～図８ＢＴの応答アフォーダンス８７５）の表示に置き換えることを含む。

一部の実施例では、第４の状態は、ダイアログアフォーダンスの第２の最大サイズに対応する。一部の実施例では、応答アフォーダンスの第４の部分は、第４の状態のダイアログアフォーダンスを表示するときに見えるままである（例えば、図８ＢＳ～図８ＢＴ）。

一部の実施例では、ブロック１７３２において、応答アフォーダンスの第４の部分の選択に対応する第９のユーザ入力（例えば、図８ＢＴの入力８７７）が受信される。一部の実施例では、ブロック１７３３において、第９のユーザ入力を受信したことに応答して、第４の状態のダイアログアフォーダンスの表示は、第７の状態のダイアログアフォーダンス（例えば、図８ＢＵのダイアログアフォーダンス８７３）の表示に置き換えられる。一部の実施例では、ブロック１７３４において、第９のユーザ入力を受信したことに応答して、応答アフォーダンスは、ディスプレイの第１の部分に表示される（例えば、図８ＢＵの応答アフォーダンス８７５）。

一部の実施例では、ブロック１７３５において、第４の状態のダイアログアフォーダンスを表示している間に、ダイアログアフォーダンスの選択に対応する第１０のユーザ入力（例えば、図８ＢＸの入力８８３）が受信される。一部の実施例では、ブロック１７３６において、第１０のユーザ入力を受信したことに応答して、第４の状態のダイアログアフォーダンスの表示は、第８の状態のダイアログアフォーダンス（例えば、図８ＢＹのダイアログアフォーダンス８８２）の表示に置き換えられる。

一部の実施例では、ブロック１７３７において、第４の状態のダイアログアフォーダンスを表示している間に、応答アフォーダンスの選択に対応する第１１のユーザ入力が受信される（例えば、図８ＢＶの入力８８０）。一部の実施例では、ブロック１７３８において、第１１のユーザ入力を受信したことに応答して、第４の状態のダイアログアフォーダンスの表示は、第９の状態のダイアログアフォーダンス（例えば、図８ＢＷのダイアログアフォーダンス８７９）の表示に置き換えられる。

一部の実施例では、自然言語入力は、自然言語発話入力である。一部の実施例では、ブロック１７３９において、自然言語発話入力の転記がダイアログアフォーダンスに表示される（図８ＢＺ）。

一部の実施例では、自然言語発話入力は、自然言語発話入力の前に受信された第２の自然言語発話入力に連続している。一部の実施例では、ブロック１７４０において、デジタルアシスタントが自然言語発話入力のユーザ意図を判定し、第２の自然言語発話入力の第２のユーザ意図を決定することができないという判定に従って（例えば、図８ＣＡ～図８ＣＣ）、転記を表示することが実行される。

一部の実施例では、ブロック１７４１において、自然言語発話入力が以前の自然言語発話入力を繰り返すという判定に従って（例えば、図８ＣＤ～図８ＣＦ）、転記を表示することが実行される。

一部の実施例では、ブロック１７４２において、自然言語発話入力を受信した後に、自然言語発話入力に連続する第２の自然言語発話入力が受信される。一部の実施例では、ブロック１７４３において、第２の自然言語発話入力が音声認識エラーを示すという判定に従って（例えば、図８ＣＧ～図８ＣＩ）、転記を表示することが実行される。

一部の実施例では、デジタルアシスタント結果が第１の時間に提示される。一部の実施例では、ブロック１７４４において、デジタルアシスタント結果が所定の種類のデジタルアシスタント結果に対応するという判定に従って、デジタルアシスタントユーザインタフェースの表示は、第１の時間の後の所定の期間に自動的に停止される（例えば、図８ＣＭ～図８ＣＮ）。

図１７Ａ～図１７Ｆを参照して上述した動作は、任意選択的に、図１～図４、図６Ａ～図６Ｂ、図７Ａ～図７Ｃ、及び図８Ａ～図８ＣＴに示す構成要素によって実装される。例えば、プロセス１７００の動作は、デバイス８００によって実装されてもよい。図１～図４、図６Ａ～図６Ｂ、及び図７Ａ～図７Ｃに示される構成要素に基づいて、どのように他のプロセスが実装されるかは、当業者にとって明らかであろう。

図１７Ａ～図１７Ｆに関して上述したプロセス１７００の詳細はまた、後述するプロセス１８００と同様に適用可能であることに留意されたい。例えば、プロセス１８００は、任意選択的に、上述したプロセス１７００の特性のうちの１つ以上を含む。例えば、プロセス１８００に関して以下に説明されるユーザインタフェースと相互作用する場合、ユーザは、プロセス１７００に関して説明したように、デジタルアシスタントユーザインタフェースと相互作用するための１つ以上の入力を提供することができる。簡潔にするために、これらの詳細は、以下で繰り返さない。
７．デジタルアシスタントを動作させる処理

図１８Ａ～図１８Ｂは、様々な実施例による、デジタルアシスタントを動作させるためのプロセス１８００を示す。プロセス１８００は、例えば、デジタルアシスタントを実装する１つ以上の電子デバイスを使用して実行される。一部の実施例では、プロセス１８００は、クライアント－サーバシステム（例えば、システム１００）を使用して実行され、プロセス１８００のブロックは、サーバ（例えば、ＤＡサーバ１０６）とクライアントデバイス（例えば、デバイス８００、９００、９０２、又は９０４）との間で任意の方法で分割される。他の例では、プロセス１８００のブロックは、サーバと複数のクライアントデバイス（例えば、携帯電話及びスマートウォッチ）との間で分割される。したがって、プロセス１８００の一部は、クライアント－サーバシステムの特定のデバイスによって実行されるように本明細書では説明されているが、プロセス１８００は、そのように限定されないことが理解されよう。他の実施例では、プロセス１８００は、クライアントデバイス（例えば、ユーザデバイス１０４）のみを使用して、又は複数のクライアントデバイスのみを使用して実行される。プロセス１８００では、いくつかのブロックが任意選択的に組み合わせられ、いくつかのブロックの順序が任意選択的に変更され、いくつかのブロックが任意選択的に省略される。一部の実施例では、プロセス１８００と組み合わせて追加のステップが実行されることができる。

一般に、プロセス１８００は、上述した図１０Ａ～図１０Ｖを使用して例示される。しかしながら、上述した他の図は、プロセス１８００に等しく適用可能であり得ることを理解されたい。

ブロック１８０１において、デジタルアシスタントユーザインタフェース（例えば、図１０Ａのユーザインタフェース８０３）が、ユーザインタフェース（例えば、図１０Ａのユーザインタフェース１００１）上に表示される。デジタルアシスタントユーザインタフェースは、ディスプレイの第１の部分（例えば、図１０Ａのインジケータ８０４）に表示されるデジタルアシスタントインジケータと、ディスプレイの第２の部分に表示される応答アフォーダンス（例えば、図１０Ａの応答アフォーダンス１００２）とを含む。

ブロック１８０２において、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示している間に、ディスプレイの第３の部分の選択に対応するユーザ入力（例えば、図１０Ｂの入力１００３又は図１０Ｉの入力１０１５）が受信される。第３の部分は、ユーザインタフェースの一部を表示する。一部の実施例では、ユーザインタフェースは、デジタルアシスタントユーザインタフェースとは異なる。

ブロック１８０３において、ユーザ入力が第１の種類の入力（例えば、図１０Ｂの入力１００３）に対応するという判定に従って、デジタルアシスタントインジケータ及び応答アフォーダンスが表示されることを停止する（例えば、図１０Ｃ）。一部の実施例では、第１の種類の入力は、タップジェスチャを含む。一部の実施例では、ブロック１８０４において、デジタルアシスタントインジケータ及び応答アフォーダンスを表示することを停止することは、デジタルアシスタントインジケータの表示を、ディスプレイの第１の部分でユーザインタフェースの第１の部分の表示に置き換えることを含む。一部の実施例では、ブロック１８０５において、デジタルアシスタントインジケータ及び応答アフォーダンスを表示することを停止することは、応答アフォーダンスの表示をディスプレイの第２の部分でユーザインタフェースの第２の部分の表示に置き換えることを含む。

一部の実施例では、ユーザ入力は、ディスプレイの第３の部分に表示される選択可能要素（例えば、図１０Ｅの選択可能要素１００６又は図１０Ｇの選択可能要素１０１１）の選択に対応する。一部の実施例では、ブロック１８０６において、ユーザ入力が第１の種類の入力に対応するという判定に従って、選択可能要素に対応するユーザインタフェース（例えば、図１０Ｆのユーザインタフェース１００７又は図１０Ｈのユーザインタフェース１０１２）が表示される。一部の実施例では、ブロック１８０７において、選択可能要素に対応するユーザインタフェースを表示することは、ユーザインタフェースの部分の表示、応答アフォーダンスの表示、及び選択可能要素に対応するユーザインタフェースの表示でデジタルアシスタントインジケータの表示を置き換えることを含む。

一部の実施例では、選択可能要素は、リンク（例えば、図１０Ｇのリンク１０１１）であり、選択可能要素に対応するユーザインタフェースは、リンクに対応するユーザインタフェース（図１０Ｈのユーザインタフェース１０１２）である。一部の実施例では、ユーザインタフェースは、ホーム画面ユーザインタフェース（例えば、図１０Ｅのユーザインタフェース１００１）であり、選択可能要素は、ホーム画面ユーザインタフェースのアプリケーションアフォーダンス（例えば、図１０Ｅのアプリケーションアフォーダンス１００６）であり、選択可能要素に対応するユーザインタフェースは、アプリケーションアフォーダンスに対応するユーザインタフェース（例えば、図１０Ｆのユーザインタフェース１００７）である。

一部の実施例では、ブロック１８０８において、ユーザ入力が第１の種類の入力とは異なる第２の種類の入力（例えば、図１０Ｉの入力１０１５）に対応するという判定に従って、ユーザインタフェースの表示は、第２の部分に応答アフォーダンスを表示している間に、ユーザ入力に従って第３の部分で更新される（例えば、図１０Ｊ）。一部の実施例では、第２の種類の入力は、ドラッグジェスチャを含む。一部の実施例では、ブロック１８０９において、第３の部分でユーザインタフェースの表示を更新することは、ユーザインタフェースのコンテンツをスクロールすることを含む（例えば、図１０Ｉ～図１０Ｊ及び図１０Ｋ～図１０Ｌ）。一部の実施例では、ブロック１８１０において、第３の部分でユーザインタフェースの表示を更新することは、デジタルアシスタントインジケータを第１の部分に表示している間に実行される（例えば、図１０Ｉ～図１０Ｊ及び図１０Ｋ～図１０Ｌ）。一部の実施例では、第３の部分でユーザインタフェースの表示を更新することは、デジタルアシスタントユーザインタフェースに対応するデジタルアシスタントがリスニング状態にあるという判定に従って更に実行される。

一部の実施例では、ブロック１８１１において、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示している間に、第２のユーザ入力（例えば、図１０Ｍの入力１０１９又は図１０Ｏの入力１０２３）が受信される。一部の実施例では、ブロック１８１２において、第２のユーザ入力が第３の種類の入力に対応するという判定に従って、応答アフォーダンス及びデジタルアシスタントインジケータが表示されることを停止する（例えば、図１０Ｍ～図１０Ｎ又は図１０Ｏ～図１０Ｐ）。一部の実施例では、ユーザインタフェースは、アプリケーション固有のユーザインタフェース（例えば、図１０Ｏのユーザインタフェース１０２２）である。一部の実施例では、ブロック１８１３において、第２のユーザ入力が第３の種類の入力に対応するという判定に従って、ホーム画面ユーザインタフェース（例えば、図１０Ｐのユーザインタフェース１００１）が表示される。

一部の実施例では、ブロック１８１４において、ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示している間に、応答アフォーダンスの選択に対応する第３のユーザ入力（例えば、図１０Ｑの入力１０２６）が受信される。一部の実施例では、ブロック１８１５において、第３のユーザ入力を受信したことに応答して、応答アフォーダンス及びデジタルアシスタントインジケータが表示されることを停止する（例えば、図１０Ｒ）。

図１８Ａ～図１８Ｂを参照した上述した動作は、図１～図４、図６Ａ～図６Ｂ、図７Ａ～図７Ｃ、及び図１０Ａ～図１０Ｖに示す構成要素によって任意選択的に実装される。例えば、プロセス１８００の動作は、デバイス８００によって実装されてもよい。図１～図４、図６Ａ～図６Ｂ、及び図７Ａ～図７Ｃに示される構成要素に基づいて、どのように他のプロセスが実装されるかは、当業者にとって明らかであろう。

図１８Ａ～図１８Ｂに関して上述したプロセス１８００の詳細はまた、後述するプロセス１９００と同様に適用可能であることに留意されたい。例えば、プロセス１９００は、任意選択的に、上述したプロセス１８００の特性のうちの１つ以上を含む。例えば、ユーザは、（プロセス１８００に関して論じたように）デジタルアシスタントユーザインタフェースと相互作用するために１つ以上の入力を提供することができ、デジタルアシスタントは、プロセス１９００に関して以下で論じられる選択されたデジタルアシスタント応答モードに従って応答を提示する。簡潔にするために、これらの詳細は、以下で繰り返さない。
８．デジタルアシスタント応答モードを選択するためのプロセス

図１９Ａ～図１９Ｅは、様々な実施例による、デジタルアシスタント応答モードを動作させるためのプロセス１９００を示す。プロセス１９００は、例えば、デジタルアシスタントを実装する１つ以上の電子デバイスを使用して実行される。一部の実施例では、プロセス１９００は、クライアント－サーバシステム（例えば、システム１００）を使用して実行され、プロセス１９００のブロックは、サーバ（例えば、ＤＡサーバ１０６）とクライアントデバイス（例えば、デバイス８００、９００、９０２、又は９０４）との間で任意の方法で分割される。他の実施例では、プロセス１９００のブロックは、サーバと複数のクライアントデバイス（例えば、携帯電話及びスマートウォッチ）との間で分割される。したがって、プロセス１９００の一部は、クライアント－サーバシステムの特定のデバイスによって実行されるように本明細書では説明されているが、プロセス１９００は、そのように限定されないことが理解されよう。他の実施例では、プロセス１９００は、クライアントデバイス（例えば、ユーザデバイス１０４）のみを使用して、又は複数のクライアントデバイスのみを使用して実行される。プロセス１９００では、いくつかのブロックが任意選択的に組み合わせられ、いくつかのブロックの順序が任意選択的に変更され、いくつかのブロックが任意選択的に省略される。一部の実施例では、プロセス１９００と組み合わせて追加のステップが実行されることができる。

一般に、プロセス１９００は、上述した図１１～図１６を使用して例示される。しかしながら、上述した他の図は、プロセス１９００に等しく適用可能であり得ることを理解されたい。

ブロック１９０１において、自然言語入力が（例えば、デバイス８００によって）受信される。

ブロック１９０２において、デジタルアシスタントが（例えば、デバイス８００によって）開始される。

ブロック１９０３において、デジタルアシスタントを開始することに従って、自然言語入力に応答する応答パッケージが（例えば、モジュール１１０２によって）取得される。一部の実施例では、応答パッケージは、デジタルアシスタント応答アフォーダンスに関連付けられた第１のテキストと、デジタルアシスタント応答アフォーダンスに関連付けられた第２のテキストとを含む。一部の実施例では、第２のテキストは、第１のテキストよりも少ない単語を有する。

ブロック１９０４において、自然言語入力を受信した後、デジタルアシスタントの第１の応答モードは、（例えば、モジュール１１０４によって）電子デバイスに関連付けられたコンテキスト情報に基づいて、複数のデジタルアシスタント応答モードから選択される。一部の実施例では、複数のデジタルアシスタント応答モードは、サイレント応答モード、混合応答モード、及び音声応答モード（例えば、図１２）を含む。一部の実施例では、デジタルアシスタントの第１の応答モードを選択することは、応答パッケージを取得した後に実行される。一部の実施例では、ブロック１９０５において、第１の応答モードを選択することは、第２のテキストを表す音声出力を提供することなく第２のテキストを表示するか、又は第２のテキストを表示することなく第２のテキストを表す音声出力を提供するかどうかを判定することを含む。一部の実施例では、ブロック１９０６において、第１の応答モードを選択することは、第１のテキストを表す音声出力を提供するかどうかを判定することを含む。

ブロック１９０７において、第１の応答モードを選択したことに応答して、応答パッケージは、（例えば、フォーマットモジュール１１０６を使用して）第１の応答モードに従ってデジタルアシスタントによって提示される。

一部の実施例では、第１の応答モードは、サイレント応答モードであり、ブロック１９０８に示すように、デジタルアシスタントによって第１の応答モードに従って応答パッケージを提示することは、デジタルアシスタント応答アフォーダンスを表示することと、第２のテキストを表す第２の音声出力を提供することなく第２のテキストを表示することと、を含む。

一部の実施例では、コンテキスト情報は、ブロック１９０９に示すように、デジタルアシスタント音声フィードバック設定を含み、サイレント応答モードを選択することは、デジタルアシスタント音声フィードバック設定が音声フィードバックを提供しないことを判定することに基づく。

一部の実施例では、コンテキスト情報は、デジタルアシスタントを開始するための電子デバイスの物理的接触の検出を含み、サイレント応答モードを選択することは、ブロック１９１０に示すように、物理的接触の検出に基づく。

一部の実施例では、コンテキスト情報は、ブロック１９１１に示すように、電子デバイスがロック状態にあるかどうかを含み、サイレント応答モードを選択することは、電子デバイスがロック状態にないと判定することに基づく。

一部の実施例では、コンテキスト情報は、デジタルアシスタントを開始する前に電子デバイスのディスプレイが表示されるかどうかを含み、サイレント応答モードを選択することは、ブロック１９１２に示すように、ディスプレイがデジタルアシスタントを開始する前に表示されたことを判定することに基づく。

一部の実施例では、コンテキスト情報は、ブロック１９１３に示すように、サイレント応答モードを選択する前に、所定の期間内に電子デバイス上で実行されるタッチの検出を含み、サイレント応答モードを選択することは、タッチの検出に基づく。

一部の実施例では、コンテキスト情報は、ブロック１９１４に示すように、サイレント応答モードを選択し、サイレント応答モードを選択する前の第２の所定の期間内の電子デバイスの所定のジェスチャの検出を含み、サイレント応答モードの選択は、所定のジェスチャの検出に基づく。

一部の実施例では、第１の応答モードは混合応答モードであり、ブロック１９１５に示すように、デジタルアシスタントによって、第１の応答モードに従って応答パッケージを提示することは、デジタルアシスタント応答アフォーダンスを表示することと、第２のテキストを表示せずに第２のテキストを表す第２の音声出力を提供することと、を含む。

一部の実施例では、コンテキスト情報は、ブロック１９１６に示すように、デジタルアシスタント音声フィードバック設定を含み、混合応答モードを選択することは、デジタルアシスタント音声フィードバック設定が音声フィードバックを提供することを示すことに基づく。

一部の実施例では、コンテキスト情報は、ブロック１９１７に示すように、デジタルアシスタントを開始するための電子デバイスの物理的接触の検出を含み、混合応答モードを選択することは、物理的接触の検出に基づく。

一部の実施例では、コンテキスト情報は、ブロック１９１８に示すように、電子デバイスがロック状態にあるかどうかを含み、混合応答モードを選択することは、電子デバイスがロック状態にないと判定することに基づく。

一部の実施例では、コンテキスト情報は、デジタルアシスタントを開始する前に電子デバイスのディスプレイが表示されるかどうかを含み、混合応答モードを選択することは、ブロック１９１９に示すように、ディスプレイがデジタルアシスタントを開始する前に表示されたことを判定することに基づく。

一部の実施例では、コンテキスト情報は、ブロック１９２０に示すように、混合応答モードを選択する前に、所定の期間内に電子デバイス上で実行されるタッチの検出を含み、混合応答モードを選択することは、タッチの検出に基づく。

一部の実施例では、コンテキスト情報は、ブロック１９２１に示すように、混合応答モードを選択する前の第２の所定の期間内の電子デバイスの所定のジェスチャの検出を含み、混合応答モードの選択は、所定のジェスチャの検出に基づく。

一部の実施例では、第１の応答モードは音声応答モードであり、デジタルアシスタントによって、第１の応答モードに従って応答パッケージを提示することは、ブロック１９２２に示すように、第１のテキストを表す音声出力を提供することを含む。

一部の実施例では、コンテキスト情報は、電子デバイスが車両内にあることの判定を含み、音声応答モードを選択することは、ブロック１９２３に示するように、電子デバイスが車両内にあるという判定に基づく。

一部の実施例では、コンテキスト情報は、電子デバイスが外部音声出力デバイスに結合されるという判定を含み、音声応答モードを選択することは、ブロック１９２４に示すように、電子デバイスが外部音声出力デバイスに結合されているという判定に基づく。

一部の実施例では、コンテキスト情報は、デジタルアシスタントを開始するための音声入力の検出を含み、音声応答モードを選択することは、ブロック１９２５に示すように、音声入力の検出に基づく。

一部の実施例では、コンテキスト情報は、電子デバイスがロック状態にあるかどうかを含み、音声応答モードを選択することは、ブロック１９２６に示すように、電子デバイスがロック状態にあると判定することに基づく。

一部の実施例では、コンテキスト情報は、デジタルアシスタントを開始する前に電子デバイスのディスプレイが表示されるかどうかを含み、音声応答モードを選択することは、ブロック１９２７に示すように、電子デバイスのディスプレイがデジタルアシスタントを開始する前に表示されていないと判定することに基づく。

一部の実施例では、ブロック１９２８において、デジタルアシスタントによって応答パッケージを提示した後、応答パッケージの提示に応答する第２の自然言語入力が（例えば、デバイス８００によって）受信される。

一部の実施例では、ブロック１９２９において、第２の自然言語入力に応答する第２の応答パッケージが（例えば、モジュール１１０２によって）取得される。

一部の実施例では、ブロック１９３０において、第２の自然言語発話入力を受信した後、デジタルアシスタントの第２の応答モードは、複数のデジタルアシスタント応答モードから（例えば、モジュール１１０４によって）選択され、第２の応答モードは、第１の応答モードとは異なる。

一部の実施例では、ブロック１９３１において、第２の応答モードを選択したことに応答して、第２の応答パッケージは、（例えば、モジュール１１０６を使用して）第２の応答モードに従ってデジタルアシスタントによって提示される（例えば、図１６）。

図１９Ａ～図１９Ｅを参照した上述した動作は、図１～図４、図６Ａ～図６Ｂ、図７Ａ～図７Ｃ、図１１、及び図１２に示す構成要素によって任意選択的に実装される。例えば、プロセス１９００の動作は、システム１１００を実装するデバイス８００によって実装されてもよい。図１～図４、図６Ａ～図６Ｂ、及び図７Ａ～図７Ｃに示される構成要素に基づいて、どのように他のプロセスが実装されるかは、当業者にとって明らかであろう。

一部の実装形態によれば、コンピュータ可読記憶媒体（例えば、非一時的コンピュータ可読記憶媒体）が提供され、このコンピュータ可読記憶媒体は、電子デバイスの１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶し、それら１つ以上のプログラムは、本明細書で説明される方法又はプロセスのうちのいずれかを実行する命令を含む。

一部の実装形態によれば、本明細書で説明される方法又はプロセスのうちのいずれかを実行する手段を備える、電子デバイス（例えば、ポータブル電子デバイス）が提供される。

一部の実装形態によれば、本明細書で説明される方法又はプロセスのうちのいずれかを実行するように構成された処理ユニットを備える、電子デバイス（例えば、ポータブル電子デバイス）が提供される。

一部の実装形態によれば、１つ以上のプロセッサと、その１つ以上のプロセッサによって実行するための１つ以上のプログラムを記憶しているメモリとを備え、それら１つ以上のプログラムが、本明細書で説明される方法又はプロセスのうちのいずれかを実行する命令を含む、電子デバイス（例えば、ポータブル電子デバイス）が提供される。

上記は、説明を目的として、特定の実施形態を参照して記述されている。しかしながら、上記の例示的な論考は、網羅的であること、又は開示される厳密な形態に本発明を限定することを意図するものではない。上記の教示を考慮して、多くの修正及び変形が可能である。本技術の原理、及びそれらの実際の用途を最もよく説明するために、実施形態が選択及び記載されている。それにより、他の当業者は、意図された具体的な用途に適するような様々な修正を用いて、本技術及び様々な実施形態を最も良好に利用することが可能となる。

添付図面を参照して、本開示及び例を十分に説明してきたが、様々な変更及び修正が、当業者には明らかとなるであろうことに留意されたい。そのような変更及び修正は、特許請求の範囲によって定義されるような、本開示及び例の範囲内に含まれるものとして理解されたい。

上述したように、本技術の一態様は、デジタルアシスタントがユーザ要求に対する応答を提示するフォーマットを改善するために様々なソースから利用可能なデータを収集して使用することである。本開示は、いくつかの場合には、この収集されたデータが、特定の人を一意に特定する個人情報データ、又は特定の人に連絡する若しくはその所在を突き止めるために使用できる個人情報データを含み得ることを考察する。そのような個人情報データとしては、人口統計データ、位置ベースのデータ、電話番号、電子メールアドレス、ツイッターＩＤ、自宅の住所、ユーザの健康若しくはフィットネスのレベルに関するデータ若しくは記録（例えば、バイタルサイン測定値、投薬情報、運動情報）、誕生日、又は任意の他の識別情報若しくは個人情報を挙げることができる。

本開示は、本技術におけるそのような個人情報データの使用がユーザの利益になる使用であり得る点を認識するものである。例えば、個人情報データが使用されて、ユーザの現在のコンテキストに適切なデジタルアシスタントの応答を適応させることができる。更に、ユーザに利益をもたらす個人情報データに関する他の使用も本開示によって意図されている。例えば、健康データ及びフィットネスデータは、ユーザの全般的なウェルネスについての洞察を提供するために使用することができ、又は、ウェルネスの目標を追求する技術を使用している個人への、積極的なフィードバックとして使用することもできる。

本開示は、そのような個人情報データの収集、分析、開示、伝送、記憶、又は他の使用に関与するエンティティが、確固たるプライバシーポリシー及び／又はプライバシー慣行を遵守するものとなることを想到する。具体的には、そのようなエンティティは、個人情報データを秘密として厳重に保守するための、業界又は政府の要件を満たしているか又は上回るものとして一般に認識されている、プライバシーのポリシー及び慣行を実施し、一貫して使用するべきである。そのようなポリシーは、ユーザによって容易にアクセス可能とするべきであり、データの収集及び／又は使用が変化するにつれて更新されるべきである。ユーザからの個人情報は、そのエンティティの合法的かつ正当な使用のために収集されるべきであり、それらの合法的使用を除いては、共有又は販売されるべきではない。更には、そのような収集／共有は、ユーザに告知して同意を得た後に実施されるべきである。その上、そのようなエンティティは、そのような個人情報データへのアクセスを保護及び安全化し、個人情報データへのアクセス権を有する他者が、それらのプライバシーポリシー及び手順を忠実に守ることを保証するための、あらゆる必要な措置を講じることを考慮するべきである。更に、そのようなエンティティは、広く受け入れられているプライバシーポリシー及び慣行に対する自身の遵守を証明するために、サードパーティによる評価を自らが受けることができる。更には、ポリシー及び慣行は、収集及び／又はアクセスされる具体的な個人情報データのタイプに適合されるべきであり、また、管轄権固有の考慮事項を含めた、適用可能な法令及び規格に適合されるべきである。例えば、アメリカ合衆国では、特定の健康データの収集又はそれへのアクセスは、医療保険の相互運用性と説明責任に関する法律（ＨＩＰＡＡ）等の、連邦法及び／又は州法によって管理されてもよく、その一方で、他国における健康データは、他の規制及びポリシーの対象となり得るものであり、それに従って対処されるべきである。それゆえ、各国において、異なる個人データのタイプに関して異なるプライバシー慣行が保たれるべきである。

前述のことがらにも関わらず、本開示はまた、個人情報データの使用又は個人情報データへのアクセスを、ユーザが選択的に阻止する実施形態も想到する。すなわち、本開示は、そのような個人情報データへのアクセスを防止又は阻止するために、ハードウェア要素及び／又はソフトウェア要素が提供され得ることを意図している。例えば、デジタルアシスタント応答モードを選択するためにコンテキストデータを収集する場合、本技術は、ユーザが、サービスの登録中又はその後いつでも個人情報データの収集への参加の「オプトイン」又は「オプトアウト」を選択することを可能にするように構成されることができる。別の実施例では、ユーザは、デジタルアシスタント応答モードの選択のためにデバイスがコンテキストデータを収集することを可能にしないように選択することができる。更に別の実施例では、ユーザは、コンテキストデータが維持される時間の長さを制限することを選択することができる。「オプトイン」及び「オプトアウト」の選択肢を提供することに加えて、本開示は、個人情報のアクセス又は使用に関する通知を提供することを意図している。例えば、ユーザの個人情報データにアクセスすることとなるアプリのダウンロード時にユーザに通知され、その後、個人情報データがアプリによってアクセスされる直前に再びユーザに注意してもよい。

更には、本開示の意図は、個人情報データを、非意図的若しくは無許可アクセス又は使用の危険性を最小限に抑える方法で、管理及び処理するべきであるという点である。データの収集を制限し、データがもはや必要とされなくなると削除することにより、リスクを最小化することができる。加えて、かつ、特定の健康関連アプリケーションにおいて適用可能な場合、ユーザのプライバシーを保護するために、データの匿名化を使用することができる。匿名化は、必要に応じて、特定の識別子（例えば、生年月日等）を削除すること、記憶されたデータの量又は特異性を制御すること（例えば、位置データを、住所レベルではなく都市レベルで収集する）、データがどのように記憶されるかを制御すること（例えば、ユーザ間でデータを集約する）、及び／又は他の方法によって、容易にすることができる。

それゆえ、本開示は、１つ以上の様々な開示された実施形態を実施するための、個人情報データの使用を広範に網羅するものであるが、本開示はまた、そのような個人情報データにアクセスすることを必要とせずに、それらの様々な実施形態を実施することも可能であることを想到する。すなわち、本技術の様々な実施形態は、そのような個人情報データの全て又は一部分が欠如することにより、動作不可能にされるものではない。例えば、デバイスは、コンテキストデータが利用できない場合（例えば、ユーザがデジタルアシスタント応答モードを選択するためにコンテキストデータの収集を禁止する場合）、デフォルトのデジタルアシスタント応答モードを選択してもよく、ユーザに関連付けられたデバイスによって要求されているコンテンツ、デバイスに利用可能な他の非個人情報（例えば、デバイスがロック状態にあるかどうか）、又は公的に利用可能な情報など、非個人情報データ又は最低限の個人情報に基づいてデジタルアシスタント応答モードを選択してもよい。

Claims

デジタルアシスタントを動作させる方法であって、
ディスプレイ及びタッチ感知面を有する電子デバイスにおいて、
ユーザインタフェース上にデジタルアシスタントユーザインタフェースを表示することを含む、デジタルアシスタントを開始することであって、前記デジタルアシスタントユーザインタフェースが、
前記ディスプレイの第１の部分に表示されるデジタルアシスタントインジケータと、
前記ディスプレイの第２の部分に表示される応答アフォーダンスであって、前記デジタルアシスタントによる応答に対応する応答アフォーダンスと、
を含む、ことと、
前記ユーザインタフェース上に前記デジタルアシスタントユーザインタフェースを表示している間に、前記ディスプレイの第３の部分の選択に対応するユーザ入力を受信することであって、前記第３の部分が前記ユーザインタフェースの一部を表示する、ことと、
前記ユーザ入力が第１の種類の入力に対応するという判定に従って、
前記デジタルアシスタントインジケータ及び前記応答アフォーダンスを表示することを停止することを含む、前記デジタルアシスタントユーザインタフェースを終了することと、
前記ユーザ入力が、前記第１の種類の入力とは異なる第２の種類の入力に対応するという判定に従って、
前記デジタルアシスタントユーザインタフェースを終了することなく、且つ前記第２の部分に前記応答アフォーダンスを表示している間に、前記ユーザ入力に従って、前記第３の部分の前記ユーザインタフェースの前記表示を更新することと、
を含む、方法。
前記第１の種類の入力がタップジェスチャを含む、請求項１に記載の方法。
前記第２の種類の入力がドラッグジェスチャを含む、請求項１～２のいずれか一項に記載の方法。
前記デジタルアシスタントインジケータ及び前記応答アフォーダンスを表示することを停止することが、
前記デジタルアシスタントインジケータの前記表示を、前記ディスプレイの前記第１の部分における前記ユーザインタフェースの第１の部分の表示に置き換えることと、
前記応答アフォーダンスの前記表示を、前記ディスプレイの前記第２の部分における前記ユーザインタフェースの第２の部分の表示に置き換えることと、
を含む、請求項１～３のいずれか一項に記載の方法。
前記ユーザ入力が、前記ディスプレイの前記第３の部分に表示される選択可能要素の選択に対応し、前記方法が、
前記ユーザ入力が前記第１の種類の入力に対応するという判定に従って、
前記選択可能要素に対応するユーザインタフェースを表示すること、
を更に含む、請求項１～４のいずれか一項に記載の方法。
前記選択可能要素に対応する前記ユーザインタフェースを表示することが、前記ユーザインタフェースの前記一部の前記表示、前記応答アフォーダンスの前記表示、及び前記デジタルアシスタントインジケータの前記表示を、前記選択可能要素に対応する前記ユーザインタフェースの表示に置き換えることを含む、請求項５に記載の方法。
前記選択可能要素がリンクであり、前記選択可能要素に対応する前記ユーザインタフェースが、前記リンクに対応するユーザインタフェースである、請求項５～６のいずれか一項に記載の方法。
前記ユーザインタフェースがホーム画面ユーザインタフェースであり、
前記選択可能要素が、前記ホーム画面ユーザインタフェースのアプリケーションアフォーダンスであり、
前記選択可能要素に対応する前記ユーザインタフェースが、前記アプリケーションアフォーダンスに対応するユーザインタフェースである、請求項５～６のいずれか一項に記載の方法。
前記ユーザインタフェース上に前記デジタルアシスタントユーザインタフェースを表示している間に、第２のユーザ入力を受信することと、
前記第２のユーザ入力が第３の種類の入力に対応するという判定に従って、前記応答アフォーダンス及び前記デジタルアシスタントインジケータを表示することを停止することと、
を更に含む、請求項１～７のいずれか一項に記載の方法。
前記ユーザインタフェースがアプリケーション固有のユーザインタフェースであり、前記方法が、
前記第２のユーザ入力が前記第３の種類の入力に対応するという判定に従って、
ホーム画面ユーザインタフェースを表示すること、
を更に含む、請求項９に記載の方法。
前記ユーザインタフェース上に前記デジタルアシスタントユーザインタフェースを表示している間に、前記応答アフォーダンスの選択に対応する第３のユーザ入力を受信することと、
前記第３のユーザ入力を受信したことに応答して、前記応答アフォーダンス及び前記デジタルアシスタントインジケータを表示することを停止することと、
を更に含む、請求項１～１０のいずれか一項に記載の方法。
前記第３の部分の前記ユーザインタフェースの前記表示を更新することが、前記ユーザインタフェースのコンテンツをスクロールすることを含む、請求項１～１１のいずれか一項に記載の方法。
前記第３の部分の前記ユーザインタフェースの前記表示を更新することが、前記デジタルアシスタントユーザインタフェースに対応するデジタルアシスタントがリスニング状態にあるという判定に従って更に実行される、請求項１～１２のいずれか一項に記載の方法。
前記第３の部分の前記ユーザインタフェースの前記表示を更新することが、前記デジタルアシスタントインジケータを前記第１の部分に表示している間に実行される、請求項１～１３のいずれか一項に記載の方法。
前記ユーザインタフェースが前記デジタルアシスタントユーザインタフェースとは異なる、請求項１～１４のいずれか一項に記載の方法。
ディスプレイと、
タッチ感知面と、
１つ以上のプロセッサと、
メモリと、
１つ以上のプログラムと、を備える電子デバイスであって、前記１つ以上のプログラムが、前記メモリ内に記憶され、前記１つ以上のプロセッサによって実行されるように構成されており、前記１つ以上のプログラムが、請求項１～１５のいずれか一項に記載の方法を実行する命令を含む、電子デバイス。
命令を含むプログラムであって、前記命令が、ディスプレイとタッチ感知面とを備える電子デバイスの１つ以上のプロセッサによって実行されると、前記電子デバイスに、請求項１～１５のいずれか一項に記載の方法を実行させる、プログラム。