JP6125088B2

JP6125088B2 - 複数のデバイス上でコンテンツを提供すること

Info

Publication number: JP6125088B2
Application number: JP2016502105A
Authority: JP
Inventors: マイケルハートグレゴリー; イアンブランクスティーンスコット; ダニエルティムセンジョン; ティモシーリンジーアラン; デイビッドオーウェンロバート; ピーターホッペチャールズ
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2013-03-14
Filing date: 2014-03-13
Publication date: 2017-05-10
Anticipated expiration: 2034-03-13
Also published as: US20140278438A1; EP2973543B1; JP2016519805A; US10133546B2; CN105264485B; CN105264485A; EP2973543A1; EP2973543A4; WO2014160327A1

Description

デスクトップ、タブレット、エンターテイメントシステム、携帯通信装置等のコンピューティングデバイスの普及に伴い、多くの家庭ではこれらのデバイスが配線され、接続されている。コンピューティングデバイスが発達するにつれ、ユーザーがそれらのデバイスと交信する多くの異なる方法、例えば、機械的手段（例えば、キーボード、マウス）、タッチスクリーン、身ぶり及びジェスチャーを介するもの等が導入されている。コンピューティングデバイスと交信する別の方法は、ユーザーがデバイスに話しかけ、それに対してデバイスが可聴信号（オーディオ）をユーザーに出力することである。しかしながら、いくつかの例では、特定のコンテンツが、オーディオ単独以外の形態で、最も良く出力される。

（関連出願）
本出願は、「複数のデバイス上でコンテンツを提供すること（ＰｒｏｖｉｄｉｎｇＣｏｎｔｅｎｔｏｎＭｕｌｔｉｐｌｅＤｅｖｉｃｅｓ）」という名称で、２０１３年３月１４日に出願された、米国特許出願第１３／８２９，１５６号の優先権を主張するものであり、その全体は参照によって本願に組み込まれる。

詳細な説明は、添付の図面を参照して説明される。図面では、参照番号の左端の数字（複数可）は、参照番号が最初に現れる図面を特定する。異なる図面で同じ参照番号を使用することにより、類似または同一の構成要素または特徴を示す。

家庭環境内に設定された例示的な音声対話コンピューティングアーキテクチャを示す。アーキテクチャは、デバイスに音声コマンドを提供することができるユーザーと共に、物理的に家庭に位置付けられた音声制御デバイスを含む。また、デバイスは可聴出力をユーザーに返すことができ、環境内の別のデバイスにユーザー用の視覚コンテンツを出力するよう指示することができる。第１の音声コマンドを受信し、それに応答して第１のデバイス上でオーディオコンテンツを出力し、視覚コンテンツの受信を要求する第２の音声コマンドを受信し、及び第２の音声コマンドに応答して第２のデバイス上で視覚コンテンツを出力するための、例示的なプロセスの流れ図を示す。図１の音声制御デバイスがオーディオ（聴覚）コンテンツを出力し、ディスプレイ機能を有する別のデバイスに視覚コンテンツを出力するよう命令するそれぞれの方法を示す。図１の音声制御デバイスがオーディオ（聴覚）コンテンツを出力し、ディスプレイ機能を有する別のデバイスに視覚コンテンツを出力するよう命令するそれぞれの方法を示す。図１の音声制御デバイスがオーディオ（聴覚）コンテンツを出力し、ディスプレイ機能を有する別のデバイスに視覚コンテンツを出力するよう命令するそれぞれの方法を示す。ディスプレイ機能を有するデバイスが、図３Ａ〜Ｃのユーザーに、デバイスはユーザー視聴用の視覚コンテンツを有することを示し得る、３つの例示的な方法を示す。可聴信号を受信し、そこでの発話を特定し、それに応答して、第１のデバイスに第１のコンテンツを出力させ、第２のデバイスに第２のコンテンツを出力させるための、例示的なプロセスの流れ図を示す。第１のデバイス上で可聴的にコンテンツを出力し、ディスプレイ能力を有するデバイスにコンテンツの出力を移行することを要求する音声コマンドの特定に応答して、第２のデバイス上でコンテンツを視覚的に出力するための、例示的なプロセスの流れ図を示す。第１のデバイスで音声コマンドを受信し、第１のデバイスで可聴コンテンツを出力し、第１のデバイスで第２の音声コマンドを受信し、それに応答して、第２のデバイス上に記憶されているアプリケーションに、第１の音声コマンドと関連付けられた視覚コンテンツを表示するよう命令するための、例示的なプロセスの流れ図を示す。図１の音声制御デバイスで実装される選択された機能的な構成要素のブロック図を示す。

本開示の一部は、ユーザーから音声コマンドを受信し、それに応答して、第１のテバイスを使用して可聴コンテンツをユーザーに提供し、第２のデバイスを使用して視覚コンテンツをユーザーに提供するための技術を記載する。いくつかの例では、第１のテバイスは、ユーザーの発話を含む可聴信号を生成するためのマイク、ならびに発話中に特定された音声コマンドに応答して可聴コンテンツを出力するためのスピーカーを含む。しかしながら、第１のテバイスはグラフィックコンテンツを表示するためのディスプレイを含まなくてもよい。このように、第１のテバイスは、ディスプレイを含み及び第１のテバイスに最も近いデバイスを特定するように構成され得る。第１のデバイスは、１つ以上のそれらの他のデバイスに、ユーザーの音声コマンドと関連付けられた視覚コンテンツを出力するよう命令することができる。

例えば、ユーザーが以下の音声コマンドを第１のデバイスに提供し、第１のデバイスがその音声コマンドを解読すると想定する：「ベンジャミンフランクリンとは誰ですか？」。それに応答して、第１のデバイスはベンジャミンフランクリンについてのコンテンツ、例えば、ベンジャミンフランクリンが何で有名であるかについての要約等を得ることができる。その上、第１のデバイスまたは別の媒介デバイスは、近傍の第２のデバイスに、ベンジャミンフランクリンに関する追加の情報、例えば、ベンジャミンフランクリンの生涯についての詳細を特定するウェブページを表示するよう、命令することができる。第１のデバイスは、ユーザーの最初の音声コマンドに応答して、またはユーザが発生させる引き続く音声コマンド（例えば、「この情報を私のタブレットに移動させて下さい」）に応答して、この命令を提供することができる。一実施例では、第１のデバイスは、ディスプレイ機能を備えたデバイスであって、音声コマンドを発生させるユーザーと関連付けられており、第１のデバイス及びユーザーと同じ環境内に存在する１つ以上のデバイスを（命令の対象として）特定することができる。第１のデバイスは、例えば、ユーザーの電話、ユーザーのタブレットまたはノート型パソコン、ユーザーのデスクトップコンピュータ、ユーザーの電子ブックリーダーデバイス、または他の任意のクライアントコンピューティングデバイスに対して、ベンジャミンフランクリンに関する視覚コンテンツを表示するよう命令することができる。

いくつかの例では、第１のデバイスは、ユーザーが音声コマンドを発生させた直後に、この命令を自動的に提供することができる。例えば、第１のデバイスは、第１のデバイスが可聴コンテンツを出力する前、後にまたは出力中に、ユーザーのタブレットコンピューティングデバイスに、ベンジャミンフランクリンに関する詳細を表示するよう、単に命令することができる。他の例では、ユーザーからの追加声コマンドの受信に応答して、デバイスはこの命令を提供することができる。例えば、ベンジャミンフランクリンの要約の出力が終了した後、第１のデバイスは可聴的に以下の質問を出力することができる：「あなたのタブレットで追加の情報をご覧になりたいですか？」。ユーザーが肯定的に応答する場合、デバイスは第２のデバイスに、追加のコンテンツを表示するような命令を提供することができる。別の実施例では、第１のデバイスが可聴コンテンツを出力する前、出力中、または後に、ユーザーは単に要求を発生させることができる。例えば、ユーザーは以下のように述べることができる：「この情報を私のタブレットに移動させて下さい。」。

加えて、第２のテバイスは、多くの方法で、この情報を表示することができる。いくつかの例では、第２のデバイスは、第１のデバイスと交信するように明確に構成されたアプリケーション（例えば、コンパニオン（ｃｏｍｐａｎｉｏｎ：連携）アプリケーション）を記憶する。したがって、このコンパニオンアプリケーションはこれらのタイプの命令を受信し、ユーザーのコマンドと関連付けられた適切な情報を表示するよう構成される。例えば、このアプリケーションは、ベンジャミンフランクリンについての情報を含むウェブサイト、アプリケーション、または他の目的地に導く１つ以上のリンクを表示することができる。付加的にまたは代替として、このアプリケーションはこの情報、例えば、ベンジャミンフランクリンについての詳細な情報を、直接取り込んで表示することができる。

いくつかの例では、前述のアプリケーションは、第１のデバイスまたは別のデバイスによって解読された音声コマンドの１つ以上の解釈を表示することができる。それによって、ユーザーは音声コマンドを修正することができ、ユーザーからの発話を含む後続の音声信号の発話認識に使用される発話認識モデルの訓練を補助することができる。また、ユーザーは選択することもでき、これは音声コマンドが正しく解釈されたことの確認となる。アプリケーションが１つまたは複数の音声コマンドの解釈を表示する例では、アプリケーションはまた、それぞれの解釈と関連付けられたそれぞれの検索結果を表示することもできる。検索結果は、ウェブリンク、デバイス上にローカルに記憶されたコンテンツまたはアプリケーションへのリンク、画像、ビデオなどを含むことができる。

第２のデバイスが第１のデバイスと交信するよう明確に構成されたアプリケーションを記憶しているか否かに関わらず、また、第２のデバイスが情報を表示するためにブラウザーや他のコンテキスト固有のアプリケーションを使用しているか否かに関わらず、ユーザーは複数の方法でこの情報にアクセスすることができる。いくつかの実装形態では、第１のデバイスからの命令を受信した直後に、第２のデバイスは起動し、直接情報を表示させる（または、第２のデバイスが既に起動している場合、単に情報を表示させる）。他の例では、第２のデバイスは、ユーザーの音声コマンドと関連付けられたコンテンツ（例えば、ベンジャミンフランクリンに関する詳細）を、第２のデバイスの「ロックスクリーン」上で、表示することができる。その後、ユーザーがデバイスを解除するとき、第２のデバイスは、対象に関するさらに多くの詳細を（例えば、上記のアプリケーション上で、ベンジャミンフランクリンに関するウェブページ上で等）、表示することができる。別の実施例では、第２のデバイスは、デバイスの通知領域または通知トレイに通知を単に表示することができる。例えば、第２のデバイスは、その通知を、デバイスがテキストメッセージ、電子メール、電話コール、ボイスメール等を受信するときに表示される通知と一緒に表示することができる。その後、第２のデバイスは、通知領域から通知をユーザーが選択した直後に、視覚的な情報の全てを表示することができる。

上記の実施例は、可聴コンテンツの出力から視覚コンテンツの出力への移行について記載するが、本明細書中に記載の技術によって、視覚コンテンツの表示から可聴コンテンツの出力への移行、第１のデバイス上での視覚コンテンツの表示から第２のデバイス上の視覚コンテンツの表示への移行、または第１のデバイス上での可聴コンテンツの出力から第２のデバイス上での可聴コンテンツの出力への移行も可能である。それらの例では、ユーザーは、音声コマンド、物理的またはソフトボタンの有効化、ジェスチャー、またはマウスクリック等を介して、移行を開始することができる。

上記実施例では、ユーザーが、ユーザーと関連付けられた１つのデバイスから同じユーザーの別のデバイスにコンテンツを移行することが記載されているが、加えて、他の実施例では、ユーザーは、別のユーザーと関連付けられたデバイスに、コンテンツを移行することができる。例えば、第１のユーザーは、第１のデバイスを介して、新聞の記事を視聴していると想定する。第１のユーザーは、例えば、音声コマンドを介して、記事を第２のユーザーと関連付けられたデバイスに移行することによって、記事の共有を要求できる。本技術は、コンテンツまたはコンテンツにアクセスするため通知を第２のユーザーのデバイスに提供することができ、それによって、第２のユーザーがコンテンツの表示あるいは出力を要求した場合に、それらを行うことができる。

上記及び下記に記載されるデバイス及び技術は、異なるアーキテクチャと様々な状況において実装することができる。一つの非限定的例示の実装例について以下に記載する。本技術は音声制御デバイスを参照して記載されるが、これらの技術は、音声をキャプチャすることができる他の任意のタイプのクライアントコンピューティングデバイスに適用可能であることを明確に理解されたい。

図１は、ユーザー１０４を含む家庭環境１０２内に設置された、例示的な音声対話コンピューティングアーキテクチャ１００を示す。また、このアーキテクチャ１００は、ユーザー１０４が交信可能な電子音声制御デバイス１０６も含む。例示された実装例では、音声制御デバイス１０６を、家庭環境１０２の部屋内のテーブル上に配置する。他の実装例では、それを多くの位置（例えば、天井、壁、照明器具内、テーブルの真下、椅子の下等）に配置または設置することができる。さらに、単一の部屋に２つ以上のデバイス１０６を配置することができる、または、ユーザーが複数の部屋から交信するのに対応するために、１つのデバイスを使用することができる。

一般に、音声制御デバイス１０６は、少なくとも１つのマイクロフォン１０８を有するマイクロフォンユニットと、少なくとも１つのスピーカー１１０を有するスピーカーユニットと、を含み、ユーザー１０４及び／または他のユーザーとのオーディオ交信を容易にする。いくつかの例では、音声制御デバイス１０６を、触覚入力構成要素（例えば、キーボード、キーパッド、タッチスクリーン、ジョイスティック、コントロールボタン等）またはディスプレイなしで実装する。特定の実装例では、１つ以上の触覚入力構成要素のうちの限定した１組を採用することができる（例えば、構成設定を開始する、電源をオン／オフにする等の専用ボタン）。それにも関わらず、ユーザーが電子デバイス１０６と交信する主要な潜在的な唯一のモードは、音声入力及び可聴出力を介するものである。音声制御デバイス１０６の一例示的な実装例が、図８を参照して、以下により詳細に提供される。

音声制御デバイス１０６のマイクロフォン（複数可）１０８は、環境１０２からの可聴信号、例えば、ユーザー１０４から発せられた音を検出し、対応するオーディオ信号を生成する。図示のように、音声制御デバイス１０６は、プロセッサ１１２と、発話認識エンジン１１６を記憶する、さもなければそれにアクセスするメモリ１１４と、を含む。本明細書で使用されるように、プロセッサは、複数のプロセッサ及び／または複数のコアを有するプロセッサを含むことができる。発話認識エンジン１１６は、環境１０２内の音、例えば、ユーザー１０４が発した発語等に基づいて、マイク（複数可）によって生成された信号上で音声認識を実行する。例えば、エンジン１１６は、ユーザーの発話（すなわち、音声コマンド）と非音声コマンド（例えば、ユーザーの拍手、テーブルを叩く音等）のいずれも特定することができる。音声制御デバイス１０６は、この音声、例えば、ユーザー１０４の発話の認識に応答して、特定のアクションを実行することができる。例えば、デバイス１０６と交信するとき、ユーザーは所定のコマンド（例えば、「起動」、「スリープ」等）を伝えることができる、またはカジュアルな会話スタイルを使用することができる（例えば、「私は映画に行きたい。地元の映画館で何が上映されているかを教えて下さい。」）。

いくつかの例では、音声制御デバイス１０６は、環境１０２から離れたコンピューティングリソース１１８と連携して動作することができる、または、さもなければ、それを利用することができる。例えば、音声制御デバイス１０６は、ネットワーク１２０を介して、リモートコンピューティングリソース１１８に接続することができる。図示のように、リモートコンピューティングリソース１１８は、１つ以上のサーバー１２２（１）、１２２（２）・・・、１２２（Ｐ）として実装されることができ、いくつかの例では、プロセッサ、ストレージ、ソフトウェア、データアクセス等の、インターネット等のネットワークを介して維持され、アクセス可能なコンピューティングインフラストラクチャーとして実装されたネットワークアクセス可能なコンピューティングプラットフォームの一部を形成することができる。リモートコンピューティングリソース１１８では、エンドユーザーがサービスを提供するシステムの物理的位置及び構成について知識を得る必要がない。これらのリモートコンピューティングリソース１１８と関連付けられた一般的な表現には、「オンデマンドコンピューティング」、「サービスとしてのソフトウェア（ＳａａＳ）」、「プラットフォームコンピューティング」、「ネットワークアクセス可能なプラットフォーム」、「クラウドサービス」、「データセンター」等が含まれる。

サーバー１２２（１）〜（Ｐ）には、音声制御デバイス１０６のメモリ１１４を参照して説明した構成要素のいくつかまたは全てを記憶することができる、または、さもなければ、それらにアクセスすることができるプロセッサ１２４及びメモリ１２６が含まれる。いくつかの例では、メモリ１２６は、オーディオ信号をデバイス１０６から受信して、オーディオ（例えば、発話）を認識し、応答して潜在的にアクションを実行させるための別の発話認識エンジン１２８にアクセスする、またはそれを利用する。いくつかの実施例では、リモートコンピューティングリソース１１８の計算能力が音声制御デバイス１０６の計算能力をはるかに超えることを考慮して、音声制御デバイス１０６は、音声データを、処理用リモートコンピューティングリソース１１８にアップロードすることができる。したがって、音声制御デバイス１０６は、環境１０２からキャプチャされたオーディオ信号に対して比較的複雑な分析を実行するためにリモートコンピューティングリソース１１８の発話認識エンジン１２８を利用することができる。一例では、発話認識エンジン１１６は、比較的基本的な音声認識、例えば、デバイスによるオーディオ出力を変更するための非声コマンドの特定、及び、認識されたとき、デバイス１０６に音声をリモートコンピューティングリソース１１８に提供させる、所定の音声コマンドの特定等を行う。リモートコンピューティングリソース１１８の発話認識エンジン１２８は、これらの受信された音声信号上で発話認識を行い、ユーザー１０４からの声コマンドを特定することができる。例えば、いくつかの実施例では、エンジン１１６は単にキーワードスポッターとして機能して１つ以上の所定の発語を特定することができ、エンジン１２８はデバイス１０６が生成する音声信号によって示される発話内でワードを特定することができる。これらの実施例では、発話認識エンジン１１６をデバイス１０６上に設けることが極めて単純かつ安価であるという前提において、音声制御デバイス１０６の費用を低減することができる。

発話認識がローカルに発生するか、環境１０２から離れて発生するかに関わらず、音声制御デバイス１０６はユーザー１０４からの声入力を受信することができ、デバイス１０６及び／またはリソース１１８は、発話認識を行い、ユーザーの操作要求またはコマンドを解釈することができる。要求は、本質的に操作のタイプのもの、例えば、認証、データベースの質問、エンターテイメントのリクエスト及び購入（例えば、ゲームすること、及び、音楽、映画、または他のコンテンツを検索して再生すること等）、個人情報の管理（例えば、スケジュール調整、メモ取り等）、オンラインショッピング、金融取引等のものであり得る。

有線技術（例えば、ワイヤ、ＵＳＢ、光ファイバーケーブル等）、無線技術（ＲＦ、ＷｉＦｉ、携帯電話、衛星、ブルートゥース等）、または他の接続技術によって、音声制御デバイス１０６はネットワーク１２０に通信可能に接続することができる。ネットワーク１２０は、データ及び／または音声ネットワークを含む任意のタイプの通信ネットワークを示し、有線インフラストラクチャー（例えば、ケーブル、ＣＡＴ５、光ファイバーケーブル等）、無線インフラストラクチャー（例えば、ＲＦ、ＷｉＦｉ、携帯電話、マイクロ波、衛星、ブルートゥース等）、及び／または他の接続技術を使用して実装可能である。

図示のように、音声制御デバイス１０６のメモリ１１４は、発話認識エンジン１１６を記憶する、または、さもなければ、それにアクセスし、メディアプレーヤーも含むこともできる。メディアプレーヤーは、任意のタイプのコンテンツを、デバイス１０６の任意のタイプの出力構成要素上に出力するように機能することができる。例えば、メディアプレーヤーはビデオの音声またはスタンドアロン型の音声を、スピーカー（複数可）１１０を介して、出力することができる。例えば、ユーザー１０４は、デバイス１０６と（例えば、聴覚的に）交信して、メディアプレーヤーに特定の歌または他の音声ファイルを出力するよう命令することができる。逆に、デバイス１０６は、ユーザーと交信のやり取りを行うとき、メディアプレーヤーを利用して音声をユーザーに再生し返すことできる。

いくつかの例では、上述のように、音声制御デバイスはまた、環境１０２内で、例えば、図示のデバイス１３０等の他のデバイスと交信し、デバイス１０６の能力を補完することができる。例えば、デバイス１０６は、そのスピーカー（複数可）１１０を利用して可聴コンテンツを出力することができ、環境内の他のデバイスのディスプレイを利用して、補足的コンテンツを提供することができる。図示のように、デバイス１０６のメモリ１１４はまた、コンテンツ移行エンジン１３２を記憶する、またはそれにアクセスする。コンテンツ移行エンジン１３２は、環境内の他のデバイス、例えば、デバイス１３０と交信して、他のデバイスに追加のコンテンツの出力を命令するように機能することができる。図１はデバイス１３０をタブレットコンピューティングデバイスとして示すが、それらの他のデバイスは、ノート型パソコン、携帯電話、デスクトップパソコン、テレビ等を含み得ることが理解されよう。その上、デバイス１０６はそれらの他のデバイスを利用して視覚コンテンツを出力することができる一方、デバイスはそれらのデバイスを追加的にまたは代替的に利用して追加の可聴コンテンツを出力することができる。

例示された実施例では、ユーザー１０４は以下の声コマンドを１３４（１）で発生させる：「私にベンジャミンフランクリンについて教えて下さい。」デバイス１０８のマイクロフォン１０８はこの音声をキャプチャして、対応する音声信号を生成することができる。デバイス１０６は発話認識をローカルに（例えば、発話認識エンジン１１６上で）実行するか、この音声信号を、発話認識を（例えば、発話認識エンジン１２８上で）実行するためのリモートコンピューティングリソース１１８にアップロードするかの、いずれかを行うことができる。いずれの場合も、ユーザーの発語の解読に応答して、デバイス１０６はユーザー１０４に出力するコンテンツを特定する、または受信することができる。

したがって、１３４（２）では、デバイス１０６のスピーカー１１０（複数可）は以下の応答を出力する：「ベンジャミンフランクリンはアメリカ合衆国の建国の父のうちの１人であった。追加の情報をあなたのタブレット上でお読みになりたいですか？」。それに応答して、１３４（３）では、ユーザー１０４は以下のように発する：「はい、お願いします」。デバイス１０６は再度、この発話を含む音声信号を生成し、発話が認識された後、コンテンツ移行エンジン１３２は別のデバイス、例えば、デバイス１３０等に、ベンジャミンフランクリンに関する視覚コンテンツを出力するよう命令することができる。

このような動作のために、デバイス１０６、リモートコンピューティングリソース１１８、または別のエンティティは、デバイス１０６及び／またはユーザー１０４に近接する、表示可能なデバイスを特定することができる。例えば、デバイス１０６は任意の種類の無線ネットワークまたはプロトコルを使用して、無線で、例えば、ＷｉＦｉ、ブルートゥース、ＲＦ信号等を介して通信可能な他のデバイスの存在を検出することができる。デバイス１０６はそれらのデバイスを直接特定することができる、または、デバイス１０６と同じ無線アクセスポイント（ＷＡＰ）に接続するデバイスとして特定することもできる。デバイス１０６はまた、任意の他の方法で、例えば、全地球測位（ＧＰＳ）位置データを他のデバイスから受信することによって、カメラを使用してイメージ認識技術を実行することによって、どのデバイスが環境１０２内に存在するかに関してユーザーに質問することによって及び／または同様のことで、近接するデバイスを特定することもできる。

さらに、デバイス１０６は、ユーザーに近接するだけではなく、ユーザーに関連付けられるデバイスを特定することができる。いくつかの例では、ユーザーは、彼らのデバイスを、デバイス１０６にサポートを提供するエンティティに登録することができる。このようにして、デバイス１０６はこのレジストリを確認し、どのデバイスがユーザー１０４と関連付けられたかを特定することができる。また、デバイス１０６は、代替として、他の任意の方法で、例えば、ユーザーに直接質問すること等で、この決定を行うことができる。

本実施例では、デバイス１０６は、ユーザー１０４と関連付けられた表示可能なデバイス１３０を特定することができる。これに応答して、コンテンツ移行エンジン１３２がコンテンツを読み出してこのコンテンツをデバイス１３０に提供すること、命令をデバイス１３０に提供して特定のコンテンツを読み出すこと、またはリモートコンピューティングリソース１１８がコンテンツまたは命令を提供して、コンテンツデバイス１３０にコンテンツを読み出すこと、のうちのいずれかが行われ得る。いずれの場合も、図示のように、デバイス１３０は、「ベンジャミンフランクリン」について学ぶというユーザーの最初の要求と関連付けられたコンテンツを表示することができる。図示のように、本実施例では、前記デバイス（１３０）上のコンテンツは、デバイス１０６からの音声によって提供された要約よりも詳細である。一つの特定の実施例では、デバイス１０６が出力した音声コンテンツには、コンテンツアイテム（例えば、ベンジャミンフランクリンについてのＷｉｋｉｐｅｄｉａ（登録商標）の記事）の要約が含まれるが、デバイス１３０のディスプレイ上に出力されたコンテンツには、追加部分または全コンテンツアイテム（例えば、Ｗｉｋｉｐｅｄｉａ（登録商標）の全記事）が含まれる。

図１が示すように、ユーザーは、音声コマンドを音声制御デバイス１０６に提供し、それに応答して、デバイス１０６自体を介して、情報を可聴的に受信することができる。その上、ユーザーは、１つ以上のユーザーに近似するデバイスから追加の視覚コンテンツを受信し、そのデバイスが所望の対象についての大量の情報をユーザーに提供する。

図２は、第１の音声コマンドを受信し、それに応答してオーディオコンテンツを第１のデバイス上で出力し、視覚コンテンツの受信を要求する第２の音声コマンドを受信し、第２の音声コマンドに応答して視覚コンテンツを第２のデバイス上に出力するための、例示的なプロセス２００の流れ図を示す。プロセスは、図１の音声制御デバイス１０６によって行われるものとして記載されているが、プロセスは、その全体または一部が、リモートコンピューティングリソース１１８または１つ以上の他のエンティティによって実行可能であることが理解されよう。

プロセス２００（本明細書中に記載の各プロセスも同様）は論理的な流れグラフとして示され、その各動作はハードウェア、ソフトウェア、またはそれらの組み合わせで実装可能な一連の動作を示す。ソフトウェアとの関連で、動作は、１つ以上のコンピュータ可読媒体に記憶されたコンピュータ実行可能命令を示し、このコンピュータ実行可能命令は、１つ以上のプロセッサに実行されたとき、列挙された動作を行う。一般に、コンピュータ実行可能命令には、ルーティン、プログラム、オブジェクト、構成要素、データ構成等が含まれ、それらは特定の機能を実行する、または特定の抽象データ型を実装する。

コンピュータ可読媒体には、ハードドライブ、フロッピーディスク、光ディスク、ＣＤ−ＲＯＭ、ＤＶＤ、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、磁気または光カード、固体メモリデバイス、または電子的命令を記憶するのに好適な他のタイプのストレージ媒体を含み得る、非一時的コンピュータ可読ストレージ媒体が含まれ得る。その上、いくつかの実施形態では、コンピュータ可読媒体は、（圧縮または非圧縮形態の）一時的なコンピュータ可読信号を含み得る。コンピュータ可読信号の実施例は、キャリアを使用した変調の有無に関わらず、コンピュータプログラムをホストするまたは実行するコンピュータシステムを構成してアクセスさせることが可能な信号であって、インターネットまたは他のネットワークを介してダウンロードされた信号を含むが、それらに限定されない。動作が記載される順序は、限定として解釈されることを意図するものではなく、記載される多数の動作を、任意の順序及び／または並行して組み合わせて、プロセスを実行することができる。

２０２では、音声制御デバイス１０６は第１の音声コマンドをユーザー１０４から受信する。上述のように、デバイス１０６のマイクロフォン１０８は音声をキャプチャし、対応する音声信号を生成する。その後、デバイス、リモートコンピューティングリソース１１８、または別のエンティティは発話認識を信号上で行い、第１の音声コマンドを特定することができる。

２０４では、それに応答して、デバイス１０６によってスピーカーが第１の音声コマンドと関連付けられた可聴コンテンツを出力する。本実施例では、スピーカーは、第１の音声コマンドの対象であるベンジャミンフランクリンに関する情報を出力する。

２０６では、音声制御デバイス１０６は、追加コンテンツを（画像）表示可能なデバイスに出力することを要求する第２の音声コマンドを、ユーザー１０４から受信する。本実施例では、第２の音声コマンドは、デバイス１０６から出力された質問に肯定的に応答するユーザー１０４の応答形態であり、他の実施形態では、ユーザー１０４は、（例えば、２０４で、デバイス１０６が可聴コンテンツを出力させる最中、または出力させた後に）デバイスがプロンプトすることなく、このコマンドを単に発生させる。

２０８では、音声制御デバイス１０６が、別のデバイスのディスプレイに、第１の音声コマンドと関連付けられた視覚コンテンツを出力させる。本実施例では、これには、ユーザー１０４のタブレットコンピューティングデバイスのディスプレイに、ベンジャミンフランクリンに関する視覚コンテンツを出力させることが含まれる。

図２は第１のデバイスが可聴コンテンツを出力し、その後、第２のデバイスが視覚コンテンツを出力するのを示すが、他の例ではこのプロセスは逆でもよい。例えば、第１のデバイスは視覚コンテンツを出力することができ、その時点で、ユーザーは別のデバイス上で可聴コンテンツの出力への移行を要求することができる。それに応答して、第２のデバイスは可聴コンテンツを出力することができる。その上または代替では、第１のデバイスは可聴コンテンツを出力することができ、第２のデバイスに移行せよとの要求をユーザーから受信することができ、それに応答して、第２のデバイスもまた、可聴コンテンツを出力することができる。または、第１のデバイスは視覚コンテンツを出力することができ、第２のデバイスに移行せよとの要求をユーザーから受信することができ、それに応答して、第２のデバイスもまた、視覚コンテンツを出力することができる。

図３Ａ〜Ｃは、図１の音声制御デバイスがオーディオコンテンツを出力し、ディスプレイ機能を有する別のデバイスに視覚コンテンツを出力するよう命令するそれぞれの方法を示す。図３Ａは、デバイス１０６がユーザー１０４に、ユーザー１０４はベンジャミンフランクリンに関する追加の情報をユーザーのタブレットコンピューティングで視聴したいか否かを尋ねる質問を出力する前に、デバイス１０６がまず、以上で考察されたベンジャミンフランクリンに関する可聴コンテンツを出力し得ることを示す。本実施例では、ユーザー１０４は視聴したいと応答するため、音声制御デバイス１０６は、デバイス１３０に追加の情報を表示するよう命令する。

一方、図３Ｂは、ユーザー１０４が音声制御デバイス１０６に対して音声コマンドを発生させ、デバイス１０６が以上で考察された可聴コンテンツを出力することを示す。本実施例では、ユーザー１０４は以下のように述べる：「この情報を私のタブレットに移動させて下さい。」。この発話の特定に応答して、デバイス１０６はデバイス１３０に、ベンジャミンフランクリンに関する情報を表示するよう命令する。

図３Ｃはさらに別の実施例を示す。図示のように、声制御デバイス１０６は以上で考察された可聴コンテンツを出力し、その後、デバイス１０６は追加の情報をユーザーのタブレット（すなわち、デバイス１３０）上に提供した旨を、ユーザーに報告する。このように、ユーザー１０４は、ベンジャミンフランクリンについての情報を要求する初期音声コマンドに続く音声コマンドを発生させることなく、所望の対象に関する追加の情報を受信する。

図４は、ディスプレイ機能を有するデバイスが、ユーザー１０４が視聴するための視覚コンテンツを有することをユーザー１０４に示す、３つの例示的なシナリオ４００を示す。図示のように、第１のシナリオ４０２は、デバイス１３０が音声制御デバイス１０６（またはリモートコンピューティングリソース１１８）から、ベンジャミンフランクリンに関するコンテンツを表示せよとの指示を受信した後に、まずデバイス１３０の「ロックスクリーン」上に情報を表示することを示す。図示のように、デバイス１３０は、最初に第１の限定された量の情報をロックスクリーン上に示し、次いで、ユーザーがデバイス１３０をロック解除すると、第２の大量の情報をディスプレイ上に表示することを示す。

一方、第２のシナリオ４０４は、デバイス１３０がディスプレイの通知領域４０８内で、単に通知４０６を表示可能であることを示す。つまり、音声制御デバイス１０６を介して開始された交信に関する追加の情報を受信したいとのユーザーの指示を受信することに応答して、デバイス１３０は、テキストメッセージで受信した通知４１０、電子メールで受信した通知等に類似する通知４０６を表示することができる。ユーザー１０４が通知４０６を選択することに応答して、デバイス１３０は（例えば、ベンジャミンフランクリンに関する）追加の情報を表示することができる。本実施例では、通知は「Ｗ」を含み、これは、デバイスが、通知４０６のユーザー１０４が選択したものを受信することに応答して、Ｗｉｋｉｐｅｄｉａ（登録商標）のベンジャミンフランクリンの記事を表示するであろうことを示す。もちろん、図４は一実施例を示すが、通知は任意の他のものを例示し得ることを理解されたい。

最後に、第３のシナリオ４１２は、図１〜３Ｃを参照して上述のシナリオを示し、ここで、デバイス１３０が所望の対象に関する情報を直接表示する。上述のように、いくつかの例では、音声制御デバイス１０６はデバイス１３０を起動させ、そのデバイスにコンテンツを表示するように命令する。デバイスを起動させることには、デバイス１３０を（コンテンツを表示させるために）ディスプレイがオフの状態からディスプレイがオンの状態に移行させることが含まれ得る。もちろん、他の実装では、デバイスを起動させることによって、デバイス１３０を一つの状態から他の状態へ移行させ得る。

図５は、上述の技術を利用して実行可能な例示的なプロセス５００の流れ図を示す。５０２では、プロセス５００はデバイスが生成するオーディオ信号を受信し、このオーディオ信号にはユーザーからの発話が含まれる。５０４では、プロセスはオーディオ信号内の発話を特定する。いくつかの例では、発話は、特定の情報に関する質問を要求するまたは発生させる、ユーザーコマンドを含む。５０６では、発話を特定することに応答して、プロセス５００によって、デバイスに音声コマンドと関連付けられた第１のコンテンツを出力させ、他のデバイスに音声コマンドと関連付けられた第２の異なるコンテンツを出力させる。いくつかの例では、第１のコンテンツは可聴コンテンツを含み、第２のコンテンツは視覚コンテンツを含む。

図６は、別の例示的なプロセス６００の流れ図を示す。６０２では、プロセス６００は、第１のデバイスのスピーカー上にコンテンツを可聴的に出力する。６０４では、プロセス６００は、コンテンツの出力を視覚的に開示するためにディスプレイに移行することを要求する、ユーザーが発した音声コマンドを特定する。６０６では、プロセス６００は、第１のデバイス及び／またはユーザーの閾値距離内のデバイスを特定することによって、コンテンツを出力するデバイスを特定する。他の例では、プロセス６００は、デバイスの種類、デバイスの電源はオンになっているか否かに関する情報等に基づいて、コンテンツを出力するデバイスを特定して選択する。また、プロセス６００によって、この他のデバイスはユーザーと確実に関連付けられる。６０８では、プロセス６００は、コンテンツを、閾値距離内の特定されたデバイスに、視覚的に出力する。

図７は、例示的なプロセス７００の流れ図を示す。７０２では、プロセス７００は、第１のデバイスでユーザーからの第１の声コマンドを受信する。７０４では、それに応答して、プロセス７００は、第１の音声コマンドと関連付けられた可聴コンテンツを第１のデバイスのスピーカー上に出力する。７０６では、プロセス７００は、第１のデバイスで、ユーザーからの第２の音声コマンドを受信する。７０８では、それに応答して、プロセス７００は、第２のデバイス上に記憶されているアプリケーションに対して、第１の音声コマンドと関連付けられた視覚コンテンツを、第２のデバイスのディスプレイ上に出力するよう命令する。上述のように、アプリケーションは、「コンパニオンアプリケーション」を含み得、このコンパニオンアプリケーションは、音声制御デバイス１０６と通信するように特に構成されている。例えば、このアプリケーションは、音声制御デバイスからコンテンツを受信することと、音声制御デバイスにコンテンツを提供することのいずれも行うことができる。

図８は、図１の音声制御デバイスで実装される選択された機能的な構成要素のブロック図を示す。一般に、音声制御デバイス１０６はスタンドアロン型のデバイスとして実装可能であり、このデバイスは、機能的性能の観点から比較的単純で、入力／出力構成要素、メモリ、及び処理能力が限定されている。例えば、いくつかの実装例では、音声制御デバイス１０６は、キーボード、キーパッド、または機械的入力の他の形態を有さず、またディスプレイまたはタッチスクリーンも有さず、視覚的表現を促進せず、ユーザーのタッチ入力を容易にすることもない。その代わり、デバイス１０６は、音声を受信及び出力する能力、ネットワークインターフェース（無線または有線ベース）、電源を有して実装され、プロセス／メモリ機能を限定して、実装されることが可能である。

例示された実装例では、音声制御デバイス１０６は、プロセッサ１１２及びメモリ１１４を含む。メモリ１１４は、コンピュータ可読ストレージ媒体（「ＣＲＳＭ」）を含み得るが、これは、プロセッサ１１２によってアクセス可能である任意の利用可能な物理的媒体であってよく、メモリに記憶された命令を実行するものである。一つの基本的な実装例では、ＣＲＳＭは、ランダムアクセスメモリ（「ＲＡＭ」）及びフラッシュメモリを含み得る。他の実装例では、ＣＲＳＭは、リードオンリーメモリ（「ＲＯＭ」）、電気的消去可能リードオンリーメモリ（「ＥＥＰＲＯＭ」）、または所望の情報を記憶するために使用可能で、プロセッサ１１２によってアクセス可能な他の任意の媒体を含み得るが、それらに限定されない。

音声制御デバイス１０６はマイクユニットを含み、マイクユニットは１つ以上のマイク１０８を備えて、オーディオ（可聴信号）入力、例えば、ユーザーの音声入力を受信する。また、デバイス１０６はスピーカーユニットも含み、スピーカーユニットは１つ以上のスピーカー１１０を含んでオーディオサウンドを出力する。１つ以上のコーデック８０２はマイク（複数可）１０８及びスピーカー（複数可）１１０に接続し、音声信号をエンコード／デコードする。コーデックはオーディオデータを、アナログ形式とデジタル形式との間で、変換することができる。ユーザーは、デバイス１０６に話しかけることによって、デバイス１０６と交信することができ、マイク（複数可）１０８はサウンドをキャプチャし、ユーザーの発話を含むオーディオ信号を生成する。コーデック８０２はユーザーの発話をコード化し、その音声データを他の構成要素に伝達する。デバイス１０６は、スピーカー（複数可）１１０を介して可聴命令を発することによって、ユーザーに通信し返すことができる。このように、ユーザーは、他のタイプのデバイスに共通するキーボードまたはディスプレイを使用せずに、単に発話を介して、音声制御デバイスと交信する。

その上、いくつかの例では、ユーザーは、デバイス１０６以外のデバイスを使用して、音声制御デバイス１０６と交信することができる。例えば、ユーザーは以上で考察されたコンパニオンアプリケーションを利用することができ、そのコンパニオンアプリケーションを介して、音声制御デバイス１０６に要求を提供する、または音声制御デバイス１０６から応答を受信することができる。一つの特定の実施例では、コンパニオンアプリケーションはウェブベースのアプリケーションで、任意のクライアントコンピューティングデバイスで実行可能である。上述のように、コンパニオンアプリケーションは、コンテンツを表示せよとの音声制御デバイス１０６からの要求を受信することができ、それに応答して、適切なコンテンツを表示させることができる。このコンテンツには、ウェブリンク、ローカルアプリケーションへのリンク、画像、ビデオ、及び／または他の任意のタイプの視覚コンテンツが含まれる。

例示された実施例では、音声制御デバイス１０６は１つ以上のアンテナ８０６に接続された１つ以上の無線インターフェース８０４を含み、ネットワークへの無線接続を容易にする。無線インターフェース８０４は、１つ以上の様々な無線技術、例えば、ｗｉｆｉ、ブルートゥース、ＲＦ等を、実装することができる。

さらに１つ以上のデバイスインターフェース８０８（例えば、ＵＳＢ、ブロードバンド接続等）を、デバイス１０６の一部として提供し、他の無線ネットワークと通信するプラグインネットワークデバイスまたはネットワークへの有線接続を容易にすることができる。１つ以上の電源ユニット８１０をさらに提供し、デバイス１０６上の様々な構成要素に電力を分配する。

音声制御デバイス１０６は、ユーザーからの音声コマンド（例えば、単語、句、文等）を受信し、可聴フィードバックをユーザーに出力する形で、ユーザーとの音声交信を支援するように設計される。それにしたがって、例示された実装例では、例えば、ナビゲーションボタン、キーパッド、ジョイスティック、キーボード、タッチスクリーン等の触覚入力デバイスが存在しない、または、ほぼ存在しない。さらに、テキストやグラフィック出力のための表示も存在しない。一実装例では、音声制御デバイス１０６は、非入力制御機構、例えば、音量を上げる／下げるための基本的な音量制御ボタン（複数可）、ならびに、電力及びリセットボタン、を含み得る。また、１つ以上の単純な発光素子（例えば、デバイスの頂部外周付近のＬＥＤ）が存在してもよく、例えば、電源がオンになったとき、またはコマンドが受信されたときのような状態を示すことができる。しかし、他のいくつかの例では、デバイス１０６は、任意の入力デバイスまたはディスプレイを使用しない、またはそれらの使用を必要としない。

例えば、命令、データストア等のようないくつかのモジュールを、メモリ１１４内に記憶することができ、プロセッサ１１２で実行するように構成することができる。オペレーティングシステムモジュール８１２を構成して、他のモジュールのために、デバイス１０６内ならびに、デバイス１０６に接続されたハードウェア及びサービス（例えば、無線ユニット、コーデック等）を管理することができる。

その上、メモリ１１４は、１つ以上の他のアプリケーション、例えば、メディアプレーヤー等とともに、発話認識エンジン１１６を含むことができる。いくつかの例では、それらのエンジン、データストア、及び構成要素のいくつか、または全ては、付加的にまたは代替として、リモートコンピューティングリソース１１８に存在する。

構成的特徴に特有の言葉で主題が記載されてきたが、添付の特許請求の範囲で定義された主題は、記載された特定の特徴に必ずしも限定されないことが理解されよう。むしろ、特定の特徴は、特許請求の範囲を実施する例示的な形態として、開示される。
付記
１．
１つ以上のコンピューティングデバイスであって、
１つ以上のプロセッサと、
コンピュータ実行可能命令を記憶する１つ以上のコンピュータ可読媒体と、を備え、前記コンピュータ実行可能命令が、前記１つ以上のプロセッサによって実行されたときに、前記１つ以上のプロセッサに動作を実行させ、前記動作が、
環境内のユーザーからの第１の音声コマンドを受信することと、
前記第１の音声コマンドを受信することに少なくとも部分的に応答して、前記環境内の第１のデバイスのスピーカーに、前記第１の音声コマンドと関連付けられたオーディオコンテンツを出力させることと、
第２の音声コマンドを前記ユーザーから受信することであって、前記第２の音声コマンドが前記第１のコマンドと関連付けられた視覚コンテンツが前記環境内の第２のデバイスに送信されることを要求し、前記第２のデバイスがディスプレイを有する、前記受信することと、
前記第２の音声コマンドを受信することに少なくとも部分的に応答して、前記第２のデバイスの前記ディスプレイに、前記第１の音声コマンドと関連付けられた前記視覚コンテンツを出力させることと、を含む、前記１つ以上のコンピューティングデバイス。
２．
前記動作が、前記第２の音声コマンドに少なくとも一部基づいて、前記第１のデバイスに加えて、前記環境内の少なくとも２つのデバイスから前記第２のデバイスを特定することをさらに含む、付記１に記載の前記１つ以上のコンピューティングデバイス。
３．
前記第１のデバイスが前記第２の音声コマンドを受信する一方、前記第１のデバイスの前記スピーカーが前記第１の音声コマンドと関連付けられた前記オーディオコンテンツを出力する、付記１に記載の前記１つ以上のコンピューティングデバイス。
４．
前記動作が、前記スピーカーが前記第１の音声コマンドと関連付けられた前記オーディオコンテンツを出力した後、前記スピーカーに前記ユーザーへの質問を出力させることをさらに含み、前記質問が、前記ユーザーが前記視覚コンテンツを前記第２のデバイス上で出力したいか否かを尋ねる、付記１に記載の前記１つ以上のコンピューティングデバイス。
５．
コンピュータ実装方法であって、
環境内に存在するデバイスによって生成されるオーディオ信号であって、ユーザーからの発話を含む、オーディオ信号を受信することと、
前記オーディオ信号内の前記発話に発話認識を実行して、音声コマンドを特定することと、
前記音声コマンドを特定することに少なくとも部分的に応答して、（ｉ）前記デバイスに前記音声コマンドと関連付けられた第１のコンテンツを出力させ、（ｉｉ）前記デバイスに前記第１のコンテンツの少なくとも一部を出力させた後に、前記環境内の別のデバイスに前記音声コマンドと関連付けられた第２のコンテンツを出力させることと、を含む、前記コンピュータ実装方法。
６．
前記デバイスに前記第１のコンテンツを出力させることが、前記デバイスに、前記デバイスのスピーカーによって出力された可聴コンテンツを出力させることを含み、前記別のデバイスに前記第２のコンテンツを出力させることが、前記別のデバイスにそのディスプレイによって出力された視覚コンテンツを出力させることを含む、付記５に記載の前記コンピュータ実装方法。
７．
前記別のデバイスに前記第２のコンテンツを出力させることが、ある状態から、前記別のデバイスのディスプレイがオフの状態へ、前記別のデバイスの前記ディスプレイがオンの状態へ前記別のデバイスを移行させることによって、前記別のデバイスを起動させることを含む、付記５に記載の前記コンピュータ実装方法。
８．
前記別のデバイスに前記第２のコンテンツを出力させることが、前記別のデバイスによって表示されるグラフィカルユーザーインターフェース（ＧＵＩ）の通知領域内に通知を表示するよう前記別のデバイスに命令するメッセージを、前記別のデバイスに送信することを含む、付記５に記載の前記コンピュータ実装方法。
９．
前記別のデバイスに前記第２のコンテンツを出力させることが、前記別のデバイスに前記第２のコンテンツを前記別のデバイスのロックスクリーン上で出力させることを含む、付記５に記載の前記コンピュータ実装方法。
１０．
前記別のデバイスは、前記別のデバイスの前記デバイスに対する近接性、前記別のデバイスが前記ユーザーと関連付けられているか、前記別のデバイスのタイプ、または前記別のデバイスの電源が入っているか否かに関する情報のうちの少なくとも１つに少なくとも一部基づいて、前記第２のコンテンツを出力するために選択される、付記５に記載の前記コンピュータ実装方法。
１１．
前記発話認識を実行することが、前記発話に発話認識を実行し、第１の発話及び前記第１の発話に続く第２の発話を特定することを含み、前記第２の発話が、コンテンツが前記別のデバイス上で出力されることを要求する第２の音声コマンドを含む、付記５に記載の前記コンピュータ実装方法。
１２．
前記デバイスが前記第１のコンテンツを出力しながら前記第２の発話が発せられる、付記１１に記載の前記コンピュータ実装方法。
１３．
前記デバイスが前記第１のコンテンツの出力を終了した後に、前記第２の発話が発せられる、付記１１に記載の前記コンピュータ実装方法。
１４．
前記デバイスが前記第１のコンテンツの出力を終了した後に、前記第２の発話が発せられ、前記第１のコンテンツが、前記ユーザーに追加のコンテンツを異なるデバイス上で受信したいか否かを尋ねる質問を含む、付記１１に記載の前記コンピュータ実装方法。
１５．
前記第１のコンテンツが特定のコンテンツアイテムの第１部分を含み、前記第２のコンテンツが前記特定のコンテンツアイテムの追加部分を含む、付記５に記載の前記コンピュータ実装方法。
１６．
前記第１のコンテンツが特定のコンテンツアイテムの要約を含み、前記第２のコンテンツが前記特定のコンテンツアイテムの追加部分を含む、付記５に記載の前記コンピュータ実装方法。
１７．
前記第１のコンテンツが特定のコンテンツアイテムの要約を含み、前記第２のコンテンツが前記特定のコンテンツアイテムの全体を含む、付記５に記載の前記コンピュータ実装方法。
１８．
前記デバイスと前記別のデバイスのいずれもがディスプレイを含む、付記５に記載の前記コンピュータ実装方法。
１９．
実行可能な命令を用いて構成される１つ以上のコンピューティングデバイスの制御下で、
環境内に存在する第１のデバイスのスピーカー上にコンテンツを可聴的に出力することと、
前記第１のデバイスの前記スピーカーから第２のデバイスのディスプレイに前記コンテンツの出力を移行せよとの要求を発生させる前記環境内のユーザーに少なくとも部分的に応答して、前記環境内に存在する前記第２のデバイスの前記ディスプレイ上にコンテンツを視覚的に出力することと、を含む、方法。
２０．
前記ユーザーが発する音声コマンドを特定することをさらに含み、前記音声コマンドが前記要求を含む、付記１９に記載の前記方法。
２１．
前記第１のデバイスがマイクを含み、前記音声コマンドが、前記第１のデバイスの前記マイクによってキャプチャされたサウンドに基づいて生成されたオーディオ信号から特定される、付記２０に記載の前記方法。
２２．
前記音声コマンドを特定することが、前記要求を含む前記音声コマンドを特定することを含み、前記第１のデバイスの前記スピーカーがコンテンツを出力する、付記２０に記載の前記方法。
２３．
前記音声コマンドを特定することが、前記第１のデバイスの前記スピーカーがコンテンツの出力を終了した後に、前記要求を含む前記音声コマンドを特定することを含む、付記２０に記載の前記方法。
２４．
前記第１のデバイスの前記スピーカーに出力された前記コンテンツと、前記第２のデバイスの前記ディスプレイに出力された前記コンテンツのいずれもが、特定のコンテンツアイテムと関連付けられた、付記１９に記載の前記方法。
２５．
前記第１のデバイスの前記スピーカーに出力された前記コンテンツが、前記特定のコンテンツアイテムの要約を含み、前記第２のデバイスの前記ディスプレイに出力された前記コンテンツが、前記コンテンツアイテムの追加部分を含む、付記２４に記載の前記方法。
２６．
前記第２のデバイスを特定し、前記第１のデバイスまたは前記ユーザーの閾値距離内の１つ以上のデバイスを特定して、それらにコンテンツを出力することをさらに含む、付記１９に記載の前記方法。
２７．
前記第２のデバイスを特定し、（ｉ）前記第１のデバイスまたは前記ユーザーの閾値距離内に存在し、（ｉｉ）前記ユーザーと関連付けられた、１つ以上のデバイスを特定して、それらにコンテンツを出力することをさらに含む、付記１９に記載の前記方法。
２８．
前記ユーザーが、前記第１のデバイスに音声コマンドを発生させることによって、コンテンツを前記第１のデバイス上に出力するための前記第２のデバイスを選択することをさらに含む、付記１９に記載の前記方法。

Claims

１つ以上のコンピューティングデバイスであって、
１つ以上のプロセッサと、
コンピュータ実行可能命令を記憶する１つ以上のコンピュータ可読媒体と、を備え、前記コンピュータ実行可能命令が、前記１つ以上のプロセッサによって実行されたときに、前記１つ以上のプロセッサに動作を実行させ、前記動作が、
環境内のユーザーからの第１の音声コマンドを受信することと、
前記第１の音声コマンドを受信することに少なくとも部分的に応答して、前記環境内の第１のデバイスのスピーカーに、前記第１の音声コマンドに関連付けられた聴覚コンテンツを出力させることと、
第２の音声コマンドを前記ユーザーから受信することであって、前記第２の音声コマンドは、前記第１の音声コマンドに関連付けられた視覚コンテンツが前記環境内の第２のデバイスに送信されることを要求し、前記第２のデバイスは、ディスプレイを有する、前記受信することと、
前記第２の音声コマンドを受信することに少なくとも部分的に応答して、前記第２のデバイスの前記ディスプレイに、前記第１の音声コマンドに関連付けられた前記視覚コンテンツを出力させることと、を含む、１つ以上のコンピューティングデバイス。
前記動作は、前記第２の音声コマンドに少なくとも一部基づいて、前記第１のデバイスに加えて、前記環境内の少なくとも２つのデバイスから前記第２のデバイスを特定することをさらに含む、請求項１に記載の１つ以上のコンピューティングデバイス。
前記第１のデバイスの前記スピーカーが前記第１の音声コマンドに関連付けられた前記聴覚コンテンツを出力しながら、前記第１のデバイスが前記第２の音声コマンドを受信する、請求項１に記載の１つ以上のコンピューティングデバイス。
前記動作は、前記スピーカーが前記第１の音声コマンドに関連付けられた前記聴覚コンテンツを出力した後、前記スピーカーに前記ユーザーへの質問を出力させることをさらに含み、前記質問は、前記ユーザーが前記視覚コンテンツを前記第２のデバイス上で出力したいか否かを尋ねる、請求項１に記載の１つ以上のコンピューティングデバイス。
コンピュータ実装方法であって、
環境内に存在するデバイスによって生成されるオーディオ信号であって、ユーザーからの発話を含む、オーディオ信号を受信することと、
前記オーディオ信号内の前記発話に発話認識を実行して、音声コマンドを特定することと、
前記音声コマンドを特定することに少なくとも部分的に応答して、（ｉ）前記デバイスに前記音声コマンドに関連付けられた第１のコンテンツを出力させ、（ｉｉ）前記デバイスに前記第１のコンテンツの少なくとも一部を出力させた後に、前記環境内の別のデバイスに前記音声コマンドに関連付けられた第２のコンテンツを出力させることと、を含む、コンピュータ実装方法。
前記デバイスに前記第１のコンテンツを出力させることは、前記デバイスに、前記デバイスのスピーカーによって出力される可聴コンテンツを出力させることを含み、前記別のデバイスに前記第２のコンテンツを出力させることは、前記別のデバイスに、前記別のデバイスのディスプレイによって出力される視覚コンテンツを出力させることを含む、請求項５に記載のコンピュータ実装方法。
前記別のデバイスに前記第２のコンテンツを出力させることは、前記別のデバイスのディスプレイがオフの状態から、前記別のデバイスの前記ディスプレイがオンの状態へ前記別のデバイスを移行させることによって、前記別のデバイスを起動させることを含む、請求項５に記載のコンピュータ実装方法。
前記別のデバイスに前記第２のコンテンツを出力させることは、前記別のデバイスに、前記別のデバイスによって表示されるグラフィカルユーザーインターフェース（ＧＵＩ）の通知領域内に通知を表示するよう命令するメッセージを前記別のデバイスへ送信することを含む、請求項５に記載のコンピュータ実装方法。
前記別のデバイスに前記第２のコンテンツを出力させることは、前記別のデバイスに前記第２のコンテンツを前記別のデバイスのロックスクリーン上で出力させることを含む、請求項５に記載のコンピュータ実装方法。
前記別のデバイスは、前記別のデバイスの前記デバイスに対する近接性、前記別のデバイスが前記ユーザーに関連付けられているか、前記別のデバイスのタイプ、または前記別のデバイスの電源が入っているか否かに関する情報のうちの少なくとも１つに少なくとも一部基づいて、前記第２のコンテンツを出力するために選択される、請求項５に記載のコンピュータ実装方法。
前記発話認識を実行することは、前記発話に発話認識を実行して、第１の発話及び前記第１の発話に続く第２の発話を特定することを含み、前記第２の発話は、コンテンツが前記別のデバイス上で出力されることを要求する第２の音声コマンドを含む、請求項５に記載のコンピュータ実装方法。
前記デバイスが前記第１のコンテンツを出力しながら、前記第２の発話を受信すること、
前記デバイスが前記第１のコンテンツの出力を終了した後に、前記第２の発話を受信すること、または、
前記デバイスが前記第１のコンテンツの出力を終了させた後に、前記第２の発話を受信することであって、前記第１のコンテンツは、前記ユーザーに追加のコンテンツを異なるデバイス上で受信したいか否かを尋ねる質問を含む、受信すること、のうちの少なくとも１つをさらに含む、請求項１１に記載のコンピュータ実装方法。
前記第１のコンテンツは特定のコンテンツアイテムの第１部分を含み、前記第２のコンテンツは前記特定のコンテンツアイテムの追加部分を含む、請求項５に記載のコンピュータ実装方法。
前記第１のコンテンツは特定のコンテンツアイテムの要約を含み、前記第２のコンテンツは前記特定のコンテンツアイテムの追加部分を含む、請求項５に記載のコンピュータ実装方法。
前記第１のコンテンツは特定のコンテンツアイテムの要約を含み、前記第２のコンテンツは前記特定のコンテンツアイテムの全体を含む、請求項５に記載のコンピュータ実装方法。