JP6942763B2

JP6942763B2 - 複数の音声サービス

Info

Publication number: JP6942763B2
Application number: JP2019145039A
Authority: JP
Inventors: デイン・ウィルバーディング
Original assignee: ソノズインコーポレイテッド
Priority date: 2016-08-05
Filing date: 2019-08-07
Publication date: 2021-09-29
Anticipated expiration: 2037-08-04
Also published as: JP6571302B1; EP3494574B1; US20180040324A1; CN109791765B; US20190074014A1; US20230289133A1; WO2018027142A1; JP2023164960A; US20210289607A1; US11934742B2; CN112382303A; JP2020005273A; JP7346508B2; JP2019533182A; US20190295556A1; US10354658B2; CN109791765A; US20190295555A1; EP3494574A1; US20200184980A1

Description

関連出願の相互参照

本願は、２０１６年８月５日に出願された米国特許出願第１５／２２９，８６８号に基づく優先権を主張するものであり、当該米国特許出願の内容は参照することによりその全体が本明細書に組み込まれる。

本願は、コンシューマ製品に関するものであり、特に、メディア再生に向けられた方法、システム、製品、機能、サービス、および他の要素に関するものや、それらのいくつかの態様に関する。

２００３年に、ソノス・インコーポレイテッドが最初の特許出願のうちの１つである「複数のネットワークデバイス間のオーディオ再生を同期する方法」と題する特許出願をし、２００５年にメディア再生システムの販売を開始するまで、アウトラウド設定におけるデジタルオーディオへのアクセスおよび試聴のオプションは制限されていた。ソノス無線ＨｉＦｉシステムによって、人々は１つ又は複数のネットワーク再生デバイスを介して多くのソースから音楽を体験できるようになっている。スマートフォン、タブレット、又はコンピュータにインストールされたソフトウェアコントロールアプリケーションを通じて、ネットワーク再生デバイスを備えたいずれの部屋においても、人々は自分が望む音楽を再生することができる。また、例えばコントローラを用いて、再生デバイスを備えた各部屋に異なる歌をストリーミングすることもできるし、同期再生のために複数の部屋をグループ化することもできるし、全ての部屋において同期して同じ歌を聞くこともできる。

これまでのデジタルメディアに対する関心の高まりを考えると、試聴体験を更に向上させることができるコンシューマアクセス可能な技術を更に開放出することにニーズがある。

本明細書で開示されている技術の特徴、態様、および利点は、以下の記載、添付の特許請求の範囲、および添付の図面を参照するとより理解しやすい。

ある実施形態で実施可能な例示的なメデイア再生システムの構成を示す図例示的な再生デバイスの機能ブロック図例示的な制御デバイスの機能ブロック図例示的なコントローラインタフェースを示す図例示的な複数のネットワークデバイスを示す図例示的なネットワークマイクロフォンデバイスの機能ブロック図例示的な実施形態における音声サービスに音声入力を処理させる技術を示す図例示的な実施形態における音声サービスに音声入力を処理させる別の技術を示す図例示的な実施形態における音声サービスを登録する技術を示す図

図面は、いくつかの例示的な実施形態を説明することを目的としているが、本発明が、図面に示した配置および手段に限定されるものではないことは理解される。

Ｉ．概要

ネットワークマイクロフォンデバイス（ＮＭＤ、Ｎｅｔｗｏｒｋｅｄｍｉｃｒｏｐｈｏｎｅｄｅｖｉｃｅｓ）を使用することで、音声コントロールを使用しながら家庭内をコントロールすることができる。ＮＭＤは、マイクロフォンを介して音声入力を受信することができる、例えばソノス（登録商標）の再生デバイス、サーバ、又はシステムであってもよい。またＮＭＤは、マイクロフォンを介して音声入力を受信することができる、ソノス（登録商標）の再生デバイス、サーバ、又はシステム以外のデバイスであってもよい（例えば、アマゾン（登録商標）社のＥＣＨＯ（登録商標）、アップル（登録商標）社のＩＰＨＯＮＥＳ(登録商標)）。「デフォルト再生デバイスの指定」と題する米国特許出願第１５／０９８，８６７号が本明細書に参照として援用されており、それは音声起動型家庭用アーキテクチャの例を提供している。音声コントロールは、再生デバイス、無線照明デバイス、サーモスタット、ドアロック、ホームオートメーション、および他の例を含む、「スマート」ホーム機能を有する様々なデバイスにとって有益であり得る。

ある実施形態では、ＮＭＤによって検出される音声入力は、処理を目的として音声サービスへと送信されている。再生デバイスなどのＮＭＤは、この音声サービスに対するマイクロフォンインタフェース又はスピーカインタフェースとして機能してもよい。音声入力はＮＭＤのマイクロフォンによって検出され、次いで処理を目的として特定の音声サービスへと送信される。その後音声サービスは、コマンド又は音声入力の他の結果を返すことができる。

特定の音声サービスが、場合によっては設定手順の間に、メディア再生システムに対して選択されてもよい。ユーザは、自身のスマートフォンやタブレットコンピュータ（又はその他のパーソナル電子装置）で使用中の音声サービスと同じサービスを選択し得、おそらくこれは、ユーザがその音声サービスに慣れ親しんでいたり、あるいは自身のスマートフォンで使用中の音声コントロールと同じ制御を再生デバイスでも使用して、同様の体験を得たいと望んでいる可能性があるからである。特定の音声サービスがユーザのスマートフォン上に設定されている場合、このスマートフォンは、その音声サービス用の設定情報（例えば、ユーザ認証情報）をＮＭＤに送信して、その音声サービスの自動設定がＮＭＤで容易に行われるようにすることができる。

場合によっては、複数の音声サービスをＮＭＤ、又はＮＭＤのシステム（例えば、複数の再生デバイスを備えるメディア再生システム）に対して設定してもよい。設定手順の間に、１つ又は複数のサービスが設定される場合がある。追加の音声サービスを、後で本システムに設定してもよい。したがって、本明細書に記載されるＮＭＤは複数の音声サービスとのインタフェースとして機能してもよく、おそらくそれぞれの音声サービスと対話するために、それぞれの音声サービスからのＮＭＤを備える必要性を軽減できる可能性がある。更にまた、ＮＭＤは、家庭内に存在するサービス固有のＮＭＤと協調して動作して、所定の音声コマンドを処理することができる。

ＮＭＤに対して２つ以上の音声サービスが設定されている場合、特定の音声サービスに対応する起動ワークを発することによって、この特定の音声サービスを起動することができる。例えば、アマゾン（登録商標）社のサービスに質問する場合、ユーザは「Ａｌｅｘａ」というウェイクワードを発し、これに続けて音声入力を行う可能性がある。その他の例としては、グーグル（登録商標）社のサービスに質問する場合の「オッケー、Ｇｏｏｇｌｅ」や、アップル（登録商標）社のサービスに質問する場合の「ヘイ、Ｓｉｒｉ」が挙げられる。

あるいは、所定の音声入力に対していずれのウェイクワードも使用されていない場合、ＮＭＤはその音声入力を処理するための音声サービスを識別することができる。場合によっては、ＮＭＤがデフォルトの音声サービスを識別することがある。あるいは、ＮＭＤは、コンテキストに基づいて特定の音声サービスを識別してもよい。例えば、ＮＭＤは、最近質問が行われた音声サービスを、ユーザが再び同じ音声サービスを使用することを望むという仮定に基づいて使用してもよい。他の例も可能である。

上述したように、一般的ウェイクワードを使用してＮＭＤへの音声入力を示すことができる場合がある。場合によっては、これは、任意の特定の音声サービスと関連付けられたウェイクワードではなく（例えば、ＮＭＤがソノス（登録商標）の再生デバイスである場合、「ヘイ、Ｓｏｎｏｓ」）、製造元固有のウェイクワードであってもよい。そのようなウェイクワードを受信すると、ＮＭＤは当該要求を処理するために特定の音声サービスを識別することができる。例えば、ウェイクワードに続く音声入力が特定の種類のコマンド（例えば、音楽の再生）に関連している場合、その音声入力は、その種類のコマンドと関連付けられた特定の音声サービス（例えば、音声コマンド機能を有する音楽ストリーミングサービス）に送信されてもよい。

ＮＭＤは、場合によっては音声入力を複数の音声サービスに送信してもよく、その結果として、質問が行われた音声サービスからそれぞれの結果を得てもよい。ＮＭＤはこれらの結果を評価し、「最良の」結果（例えば、目的の行動に最大限一致している結果）をもって応答することができる。例えば、音声入力が「ヘイ、Ｓｏｎｏｓ、テイラー・スウィフトの曲を再生して」であった場合、第１音声サービスは「テイラー・スウィフト」に関する検索結果で応答する一方、第２音声サービスは、テイラー・スウィフトというアーティストによるオーディオトラックの識別子で応答する可能性がある。その場合、ＮＭＤは、第２音声サービスからのテイラー・スウィフトによるオーディオトラックの識別子を使用して、音声入力に従ってテイラー・スウィフトの曲を再生することができる。

上述したように、例示的な技術は音声サービスに関連している。例示的な実施形態は、ＮＭＤがマイクロフォンを介して、音声入力を示す音声データを受信するステップを含んでもよい。ＮＭＤは、メディア再生システムに登録されている複数の音声サービスの中から、当該音声入力を処理するための音声サービスを識別し、識別したその音声サービスに当該音声入力を処理させてもよい。

別の例示的な実施形態は、ＮＭＤが、メディア再生システムに１つ又は複数の音声サービスを登録するように命じるコマンドを示す入力データを受信するステップを含んでもよい。ＮＭＤは、ＮＭＤに登録されている音声サービスを検出することができる。ＮＭＤは、ＮＭＤに登録されている音声サービスがメディア再生システムに登録されるようにしてもよい。

第３の例示的な実施形態は、ＮＭＤがマイクロフォンを介して、音声入力を示す音声データを受信するステップを含んでもよい。ＮＭＤは、受信した音声データの一部が、特定の音声サービスに対応していない一般的ウェイクワードを示していると決定してもよい。ＮＭＤは、複数の音声サービスに音声入力の処理を実行させてもよい。ＮＭＤは、複数の音声サービスのうちの所定の１つから得た結果を出力してもよい。

これらの例示的な実施形態のそれぞれは、方法、本実施形態を実行するように構成されたデバイス、本実施形態を実行するように構成されたデバイスのシステム、又は１つ又は複数のプロセッサによって実行されて本実施形態を実行する命令を含む、非一時的なコンピュータ読取り可能媒体その他として具現化されてもよい。本開示が、本明細書に記載の例示的な特徴を組み合わせたものを含む、他の多数の実施形態を含むことは、当業者には理解されよう。また、ある技術を例示するために、所定のデバイスによって実行されるものとして記載されている任意の例示的な動作が、本明細書に記載のデバイスを含む、任意の適切なデバイスによって実行されてもよい。更にまた、任意のデバイスによって、別のデバイスに本明細書に記載の動作のうちのいずれかを実行させてもよい。

本明細書に記載されるいくつかの例は、「ユーザ」および／又は他のエンティティなどの所定のアクターによって実行される機能を参照するが、これは説明の目的に過ぎない。特許請求の範囲自体の言葉によって明示的に要求されない限り、そのような例示的なアクターによるアクションが要求されるものと解釈されるべきではない。

ＩＩ．動作環境の例
図１は、本明細書で開示されている１つ又は複数の実施形態で実施可能又は実装可能なメディア再生システム１００の例示的な構成を示す。図示されるように、メディア再生システム１００は、複数の部屋および空間、例えば、主寝室、オフィス、ダイニングルーム、およびリビングルームを有する例示的なホーム環境と関連付けられている。図１の例に示されるように、メディア再生システム１００は、再生デバイス１０２、１０４、１０６、１０８、１１０、１１２、１１４、１１６、１１８、１２０、１２２、１２４、制御デバイス１２６および１２８、有線又は無線のネットワークルータ１３０を含む。

更に、例示的なメディア再生システム１００の異なる構成要素、および異なる構成要素がどのように作用してユーザにメディア体験を提供するかに関しての説明は、以下のセクションで述べられている。本明細書における説明は、概してメディア再生システム１００を参照しているが、本明細書で述べられている技術は、図１に示されるホーム環境の用途に限定されるものではない。例えば、本明細書で述べられている技術は、マルチゾーンオーディオが望まれる環境、例えば、レストラン、モール、又は空港のような商業的環境、スポーツ用多目的車（ＳＵＶ）、バス又は車のような車両、船、若しくはボード、飛行機などの環境において有益である。

ａ．例示的なゾーンプレーヤー
図２は、図１のメディア再生システム１００の再生デバイス１０２〜１２４の１つ又は複数を構成する例示的な再生デバイス２００の機能ブロック図を示す。再生デバイス２００は、プロセッサ２０２、ソフトウェアコンポーネント２０４、メモリ２０６、オーディオ処理コンポーネント２０８、オーディオアンプ２１０、スピーカ２１２、およびネットワークインタフェース２１４を含んでもよい。ネットワークインタフェース２１４は、無線インタフェース２１６、有線インタフェース２１８およびマイクロフォン２２０を含む。ある場合では、再生デバイス２００は、スピーカ２１２を含まないが、再生デバイス２００を外部スピーカに接続するためのスピーカインタフェースを含んでいてもよい。別の場合では、再生デバイス２００は、スピーカ２１２もオーディオアンプ２１０も含まないが、再生デバイス２００を外部オーディオアンプ又はオーディオビジュアルレシーバーに接続するためのオーディオインタフェースを含んでもよい。

ある例では、プロセッサ２０２は、メモリ２０６に記憶された命令に基づいて、入力データを処理するように構成されたクロック駆動コンピュータコンポーネントであってもよい。メモリ２０６は、プロセッサ２０２によって実行可能な命令を記憶するように構成された非一時的なコンピュータ読取り可能記録媒体であってもよい。例えば、メモリ２０６は、ある機能を実行するためにプロセッサ２０２によって実行可能なソフトウェアコンポーネント２０４の１つ又は複数をロードすることができるデータストレージであってもよい。ある例では、機能は、再生デバイス２００がオーディオソース又は別の再生デバイスからオーディオデータを読み出すステップを含んでもよい。別の例では、機能は、再生デバイス２００がネットワーク上の別のデバイス又は再生デバイスにオーディオデータを送信するステップを含んでもよい。更に別の例では、機能は、マルチチャネルオーディオ環境を作るために、再生デバイス２００と１つ又は複数の再生デバイスとをペアリングするステップを含んでもよい。

ある機能は、再生デバイス２００が、１つ又は複数の他の再生デバイスと、オーディオコンテンツの再生を同期するステップを含む。再生を同期している間、再生デバイス２００によるオーディオコンテンツの再生と１つ又は複数の他の再生デバイスによる再生との間の遅延を、リスナーが気づかないことが好ましい。「複数の独立クロックデジタルデータ処理デバイス間の動作を同期するシステムおよび方法」と題する米国特許第８，２３４，３９５号が本明細書に参照として援用されており、それは再生デバイス間のオーディオ再生を同期することが述べられたより詳細な例を提供している。

更に、メモリ２０６は、データを記憶するように構成されていてもよい。データは、例えば、１つ又は複数のゾーンおよび／又はゾーングループに一部として含まれる再生デバイス２００などの再生デバイス２００、再生デバイス２００によりアクセス可能なオーディオソース、又は再生デバイス２００（又は他の再生デバイス）と関連付け可能な再生キュー、に関連付けられている。データは、定期的に更新され、再生デバイス２００の状態を示す１つ又は複数の状態変数として記憶されてもよい。また、メモリ２０６は、メディアシステムの他のデバイスの状態と関連付けられたデータを含んでもよく、デバイス間で随時共有することによって、１つ又は複数のデバイスが、システムと関連するほぼ直近のデータを有することができる。他の実施形態も可能である。

オーディオ処理コンポーネント２０８は、１つ又は複数のデジタル−アナログ変換器（ＤＡＣ）、オーディオ処理コンポーネント、オーディオ強化コンポーネント、又はデジタルシグナルプロセッサ（ＤＳＰ）等を含んでいてもよい。ある実施形態では、１つ又は複数のオーディオ処理コンポーネント２０８は、プロセッサ２０２のサブコンポーネントであってもよい。ある実施形態では、オーディオコンテンツが、オーディオ処理コンポーネント２０８によって処理および／又は意図的に変更されることによって、オーディオ信号を生成してもよい。生成されたオーディオ信号は、オーディオアンプ２１０に送信され、増幅され、スピーカ２１２を通じて再生される。特に、オーディオアンプ２１０は、１つ又は複数のスピーカ２１２を駆動できるレベルまでオーディオ信号を増幅するように構成されたデバイスを含んでもよい。スピーカ２１２は、独立した変換器（例えば、「ドライバ」）又は１つ又は複数のドライバを内包する筐体を含む完全なスピーカシステムを備えてもよい。スピーカ２１２に備えられたあるドライバは、例えば、サブウーファー（例えば、低周波用）、ミドルレンジドライバ（例えば、中間周波用）、および／又はツイーター（高周波用）を含んでもよい。ある場合では、１つ又は複数のスピーカ２１２のそれぞれの変換器は、オーディオアンプ２１０の対応する個々のオーディオアンプによって駆動されてもよい。再生デバイス２００で再生するアナログ信号を生成することに加えて、オーディオ処理コンポーネント２０８は、オーディオコンテンツを処理し、そのオーディオコンテンツを１つ又は複数の他の再生デバイスに再生させるために送信する。

再生デバイス２００によって処理および／又は再生されるオーディオコンテンツは、外部ソース、例えば、オーディオライン−イン入力接続（例えば、オートディテクティング３．５ｍｍオーディオラインイン接続）又はネットワークインタフェース２１４を介して、受信されてもよい。

ネットワークインタフェース２１４は、データネットワーク上で再生デバイス２００と１つ又は複数の他のデバイスとの間のデータフローを可能にするように構成されてもよい。このように、再生デバイス２００は、再生デバイスと通信する１つ又は複数の他の再生デバイス、ローカルエリアネットワーク内のネットワークデバイス、又は例えば、インターネット等のワイドエリアネットワーク上のオーディオコンテンツソースから、データネットワークを介してオーディオコンテンツを受信するように構成されていてもよい。ある例では、再生デバイス２００によって送信および受信されたオーディオコンテンツおよび他の信号は、インターネットプロトコル（ＩＰ）に基づくソースアドレスおよびＩＰに基づく宛先アドレスを含むデジタルパケットの形で送信されてもよい。そのような場合、ネットワークインタフェース２１４は、デジタルパケットデータを解析することによって、再生デバイス２００宛てのデータを、再生デバイス２００によって適切に受信して処理することができる。

図示されるように、ネットワークインタフェース２１４は、無線インタフェース２１６と有線インタフェース２１８とを含んでもよい。無線インタフェース２１６は、再生デバイス２００用のネットワークインタフェース機能を提供し、通信プロトコル（例えば、無線規格ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇモバイル通信基準などを含む無線基準（規格）のいずれか）に基づいて、他のデバイス（例えば、再生デバイス２００に関連付けられたデータネットワーク内の他の再生デバイス、スピーカ、レシーバー、ネットワークデバイス、制御デバイス）と無線通信してもよい。有線インタフェース２１８は、再生デバイス２００用のネットワークインタフェース機能を提供し、通信プロトコル（例えば、ＩＥＥＥ８０２．３）に基づいて他のデバイスとの有線接続を介して通信してもよい。図２に示されるネットワークインタフェース２１４は、無線インタフェース２１６と有線インタフェース２１８との両方を含んでいるが、ネットワークインタフェース２１４は、ある実施形態において、無線インタフェースのみか、又は有線インタフェースのみを含んでいてもよい。

マイクロフォン２２０は、再生デバイス２００の環境内の音を検出するように構成してもよい。マイクロフォンは例えば、再生デバイスの筐体の外壁に取り付けてもよい。マイクロフォンは、コンデンサーマイクロフォン、エレクトレットコンデンサーマイクロフォン、またはダイナミックマイクロフォンなど、現在知られているか又は後で開発される任意の種類のマイクロフォンであってもよい。マイクロフォンは、スピーカ２２０の一部の周波数範囲に対して高感度であってもよい。スピーカ２２０のうちの１つ又は複数が、マイクロフォン２２０とは逆に動作してもよい。いくつかの態様では、再生デバイス２００は、マイクロフォン２２０を含まなくてもよい。

ある例では、再生デバイス２００と他の再生デバイスとは、ペアにされて、オーディオコンテンツの２つの別々のオーディオコンポーネントを再生してもよい。例えば、再生デバイス２００は、左チャネルオーディオコンポーネントを再生するように構成される一方、他の再生デバイスは、右チャネルオーディオコンポーネントを再生するように構成されてもよい。これにより、オーディオコンテンツのステレオ効果を生成するか、又は強化することができる。ペアにされた再生デバイス（「結合再生デバイス」とも言う）は、更に、他の再生デバイスと同期してオーディオコンテンツを再生してもよい。

別の例では、再生デバイス２００は、１つ又は複数の他の再生デバイスと音響的に統合され、単一の統合された再生デバイス（統合再生デバイス）を形成してもよい。統合再生デバイスは、統合されていない再生デバイス又はペアにされた再生デバイスと比べて、サウンドの処理や再現を異なるように構成することができる。なぜならば、統合再生デバイスは、オーディオコンテンツを再生するスピーカ追加することができるからである。例えば、再生デバイス２００が、低周波レンジのオーディオコンテンツを再生するように設計されている場合（例えば、サブウーファー）、再生デバイス２００は、全周波数レンジのオーディオコンテンツを再生するように設計された再生デバイスと統合されてもよい。この場合、全周波数レンジの再生デバイスは、低周波の再生デバイス２００と統合されたとき、オーディオコンテンツの中高周波コンポーネントのみを再生するように構成されてもよい。一方で低周波レンジの再生デバイス２００は、オーディオコンテンツの低周波コンポーネントを再生する。更に、統合再生デバイスは、単一の再生デバイス、又は更に他の統合再生デバイスとペアにされてもよい。

例として、現在、ソノス・インコーポレイテッドは、「ＰＬＡＹ：１」、「ＰＬＡＹ：３」、「ＰＬＡＹ：５」、「ＰＬＡＹＢＡＲ」、「ＣＯＮＮＥＣＴ：ＡＭＰ」、「ＣＯＮＮＥＣＴ」、および「ＳＵＢ」を含む再生デバイスを販売提供している。他の過去、現在、および／又は将来のいずれの再生デバイスにおいても、追加的に又は代替的に本明細書で開示された実施例の再生デバイスに実装して使用することができる。更に、再生デバイスは、図２に示された特定の例又は提供されるソノス製品に限定されないことは理解される。例えば、再生デバイスは、有線又は無線のヘッドホンを含んでもよい。別の例では、再生デバイスは、パーソナルモバイルメディア再生デバイス用のドッキングステーションを含むか、又は、それらと対話してもよい。更に別の例では、再生デバイスは、別のデバイス又はコンポーネント、例えば、テレビ、照明器具、又は屋内又は屋外で使用するためのいくつかの他のデバイスと一体化されてもよい。

ｂ．例示的な再生ゾーン構成
図１のメディア再生システムに戻って、環境は、１つ又は複数の再生ゾーンを有しており、それぞれの再生ゾーンは１つ又は複数の再生デバイスを含んでいる。メディア再生システム１００は、１つ又は複数の再生ゾーンで形成されており、後で１つ又は複数のゾーンが追加又は削除して、図１に示す例示的な構成としてもよい。それぞれのゾーンは、異なる部屋又は空間、例えば、オフィス、浴室、主寝室、寝室、キッチン、ダイニングルーム、リビングルーム、および／又はバルコニーに基づく名前が与えられてもよい。ある場合では、単一の再生ゾーンは複数の部屋又は空間を含んでいてもよい。別の場合では、単一の部屋又は空間は、複数の再生ゾーンを含んでいてもよい。

図１に示されるように、バルコニー、ダイニングルーム、キッチン、浴室、オフィス、および寝室のゾーンのそれぞれは、１つの再生デバイスを有する一方、リビングルームおよび主寝室のゾーンのそれぞれは、複数の再生デバイスを有する。リビングルームゾーンは、再生デバイス１０４、１０６、１０８、および１１０が、別々の再生デバイスとしてか、１つ又は複数の結合再生デバイスとしてか、１つ又は複数の統合再生デバイスとしてか、又はこれらのいずれかの組み合わせで、オーディオコンテンツを同期して再生するように構成されてもよい。同様に、主寝室の場合では、再生デバイス１２２および１２４が、別々の再生デバイスとしてか、結合再生デバイスとしてか、又は統合再生デバイスとして、オーディオコンテンツを同期して再生するように構成されてもよい。

ある例では、図１の環境における１つ又は複数の再生ゾーンは、それぞれ異なるオーディオコンテンツを再生している。例えば、ユーザは、バルコニーゾーンでグリルしながら、再生デバイス１０２によって再生されるヒップホップ音楽を聞くことができる。一方、別のユーザは、キッチンゾーンで食事を準備しながら、再生デバイス１１４によって再生されるクラシック音楽を聞くことができる。別の例では、再生ゾーンは、同じオーディオコンテンツを別の再生ゾーンと同期して再生してもよい。例えば、ユーザがオフィスゾーンにいる場合、オフィスゾーンの再生デバイス１１８が、バルコニーの再生デバイス１０２で再生されている音楽と同じ音楽を再生してもよい。そのような場合、再生デバイス１０２および１１８は、ロック音楽を同期して再生しているため、ユーザは、異なる再生ゾーン間を移動してもアウト−ラウドで再生されるオーディオコンテンツをシームレス（又は少なくともほぼシームレス）に楽しむことができる。再生ゾーン間の同期は、前述の米国特許第８，２３４，３９５号で述べられているような再生デバイス間の同期と同様の方法で行ってもよい。

上述したように、メディア再生システム１００のゾーン構成は、動的に変更してもよく、ある実施形態では、メディア再生システム１００は、複数の構成をサポートする。例えば、ユーザが１つ又は複数の再生デバイスを、物理的にゾーンに移動させるか、又はゾーンから移動させる場合、メディア再生システム１００は変更に対応するように再構成されてもよい。例えば、ユーザが再生デバイス１０２をバルコニーゾーンからオフィスゾーンに物理的に移動させる場合、オフィスゾーンは、再生デバイス１１８と再生デバイス１０２との両方を含んでもよい。必要に応じて、制御デバイス、例えば制御デバイス１２６と１２８とを介して、再生デバイス１０２が、ペアにされるか、又はオフィスゾーンにグループ化されるか、および／又はリネームされてもよい。一方、１つ又は複数の再生デバイスが、再生ゾーンを未だ設定していないホーム環境において、ある領域に移動させられた場合、新しい再生ゾーンがその領域に形成されてもよい。

更に、メディア再生システム１００の異なる再生ゾーンは、動的にゾーングループに組み合わされてもよいし、又は別々の再生ゾーンに分割されてもよい。例えば、ダイニングルームゾーンとキッチンゾーン１１４とがディナーパーティ用のゾーングループに組み合わされることによって、再生デバイス１１２と１１４とがオーディオコンテンツを同期して再生することができる。一方、あるユーザがテレビを見たい一方、他のユーザがリビングルーム空間の音楽を聞きたい場合、リビングルームゾーンが、再生デバイス１０４を含むテレビゾーンと、再生デバイス１０６、１０８および１１０を含むリスニングゾーンと、に分けられてもよい。

ｃ．例示的な制御デバイス
図３は、メディア再生システム１００の制御デバイス１２６と１２８とうちの一方又は両方を構成する例示的な制御デバイス３００の機能ブロック図を示す。図示されるように、制御デバイス３００は、プロセッサ３０２、メモリ３０４、ネットワークインタフェース３０６、ユーザインタフェース３０８、マイクロフォン３１０、およびソフトウェアコンポーネント３１２を含んでもよい。ある例では、制御デバイス３００は、メディア再生システム１００専用の制御デバイスであってもよい。別の例では、制御デバイス３００は、メディア再生システムコントローラアプリケーションソフトウェアをインストールされたネットワークデバイス、例えば、ｉＰｈｏｎｅ（登録商標）、ｉＰａｄ（登録商標）、又は任意の他のスマートフォン、タブレットあるいはネットワークデバイス（例えば、ＰＣ又はＭａｃ（登録商標）などのネットワークコンピュータ）であってもよい。

プロセッサ３０２は、メディア再生システム１００のユーザアクセス、コントロール、および構成を可能にすることに関する機能を実行するように構成されてもよい。メモリ３０４は、プロセッサ３０２によって実行されて機能を発揮する１つ又は複数のソフトウェアコンポーネントを搭載可能なデータストレージであってもよい。また、メモリ３０４は、メディア再生システムコントローラアプリケーションソフトウェアと、メディア再生システム１００とユーザとに関連付けられた他のデータを記憶するように構成されていてもよい。

ある例では、ネットワークインタフェース３０６は、工業規格（例えば、赤外線、無線、ＩＥＥＥ８０２．３などの有線規格、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５などの無線規格、４Ｇ通信規格など）に基づいてもよい。ネットワークインタフェース３０６においては、制御デバイス３００がメディア再生システム１００内の他のデバイスと通信するための手段を提供してもよい。ある例では、データおよび情報（例えば、状態変数）は、ネットワークインタフェース３０６を介して制御デバイス３００と他のデバイスとの間で通信されてもよい。例えば、メディア再生システム１００における再生ゾーンおよびゾーングループの構成は、制御デバイス３００によって、再生デバイス又は別のネットワークデバイスから受信されてもよいし、あるいは制御デバイス３００によって、ネットワークインタフェース３０６を介して別の再生デバイス又はネットワークデバイスに送信されてもよい。ある場合では、他のネットワークデバイスは、別の制御デバイスであってもよい。

ボリュームコントロールおよびオーディオ再生コントロールなどの再生デバイス制御コマンドは、ネットワークインタフェース３０６を介して制御デバイス３００から再生デバイスに通信されてもよい。上述したように、メディア再生システム１００の構成の変更は、ユーザにより制御デバイス３００を用いて行うことができる。構成の変更は、１つ又は複数の再生デバイスをゾーンに追加すること、１つ又は複数の再生デバイスをゾーンから取り除くこと、１つ又は複数のゾーンをゾーングループに追加すること、１つ又は複数のゾーンをゾーングループから取り除くこと、結合プレーヤー又は統合プレーヤーを形成すること、結合プレーヤー又は統合プレーヤーから１つ又は複数の再生デバイスに分けることなどを含んでもよい。このように、制御デバイス３００は、コントローラと呼ばれてもよく、制御デバイス３００は、メディア再生システムコントローラアプリケーションソフトウェアをインストールした専用のコントローラか、又はネットワークデバイスであってもよい。

制御デバイス３００は、マイクロフォン３１０を含んでもよい。マイクロフォン３１０は、制御デバイス３００の環境内の音を検出するように構成してもよい。マイクロフォン３１０は、コンデンサーマイク、エレクトレットコンデンサーマイク、ダイナミックマイクなど、現在知られている又は今後開発される任意の種類のマイクロフォンであってもよい。マイクロフォンは、一部の周波数範囲に対して高感度であってもよい。２つ以上のマイクロフォン３１０が、音源（例えば、音声、可聴音）の位置情報を取得する、および／又は、背景雑音のフィルタリングを補助するために設けられてもよい。

制御デバイス３００のユーザインタフェース３０８は、図４に示されるコントローラインタフェース４００などのようなコントローラインタフェースを提供することによって、メディア再生システム１００のユーザアクセスおよび制御を可能にするように構成されていてもよい。コントローラインタフェース４００は、再生制御領域４１０、再生ゾーン領域４２０、再生ステータス領域４３０、再生キュー領域４４０、およびオーディオコンテンツソース領域４５０を含む。図示されるユーザインタフェース４００は、図３の制御デバイス３００などのようなネットワークデバイス（および／又は図１の制御デバイス１２６および１２８）を設けられたユーザインタフェースの単なる一例であって、ユーザによってメディア再生システム１００などのようなメディア再生システムを制御するためにアクセスされるものである。あるいは、様々なフォーマット、スタイル、および対話型シーケンスを他のユーザのインタフェースを１つ又は複数のネットワークデバイスに実装し、メディア再生システムへ類似の制御アクセスを提供してもよい。

再生制御領域４１０は、（例えば、タッチ又はカーソルを用いることで）選択可能なアイコンを含んでもよい。このアイコンによって、選択された再生ゾーン又はゾーングループ内の再生デバイスが、再生又は停止、早送り、巻き戻し、次にスキップ、前にスキップ、シャッフルモードのオン／オフ、リピートモードのオン／オフ、クロスフェードモードのオン／オフを行う。再生制御領域４１０は、別の選択可能なアイコンを含んでもよい。別の選択可能なアイコンは、イコライゼーション設定、再生ボリュームなど他の設定などを変更してもよい。

再生ゾーン領域４２０は、メディア再生システム１００内の再生ゾーンの表示を含んでもよい。ある実施形態では、再生ゾーンのグラフィック表示が選択可能であってもよい。追加の選択可能なアイコンを移動させることによって、メディア再生システム内の再生ゾーンを管理又は構成することができる。例えば、結合ゾーンの作成、ゾーングループの作成、ゾーングループの分割、およびゾーングループのリネームなど他の管理又は構成を行うことができる。

例えば、図示されるように、「グループ」アイコンは、再生ゾーンのグラフィック表示のそれぞれに設けられてもよい。あるゾーンのグラフィック表示内の「グループ」アイコンは、メディア再生システム内の１つ又は複数のゾーンを選択して、あるゾーンとグループ化するオプションを出せるように選択可能であってもよい。一度グループ化すると、あるゾーンとグループ化されたゾーン内の再生デバイスは、あるゾーン内の再生デバイスと同期してオーディオコンテンツを再生するように構成される。同様に、「グループ」アイコンは、ゾーングループのグラフィック表示内に設けられてもよい。この場合、「グループ」アイコンは、ゾーングループ内の１つ又は複数のゾーンをゾーングループから取り除くために、ゾーングループ内の１つ又は複数のゾーンを選択から外すというオプションを出すように選択可能であってもよい。ユーザインタフェース４００等のユーザインタフェースを介してゾーンをグループ化およびグループ解除するための他の対話をすることも可能であるし、実施することも可能である。再生ゾーン領域４２０内の再生ゾーンの表示は、再生ゾーン又はゾーングループ構成が変更されると、動的に更新されてもよい。

再生ステータス領域４３０は、現在再生されているオーディオコンテンツ、前に再生されたオーディオコンテンツ、又は選択された再生ゾーン又はゾーングループ内で次に再生するように予定されているオーディオコンテンツ、のグラフィック表示を含んでもよい。選択可能な再生ゾーン又は再生グループは、ユーザインタフェース上で、例えば、再生ゾーン領域４２０および／又は再生ステータス領域４３０内で視覚的に区別されてもよい。グラフィック表示は、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラックの長さ、およびメディア再生システムを、ユーザインタフェース４００を介して制御するときに、ユーザにとって有益な他の関連情報を含んでいてもよい。

再生キュー領域４４０は、選択された再生ゾーン又はゾーングループと関連付けられた再生キュー内のオーディオコンテンツのグラフィック表示を含んでもよい。ある実施形態では、それぞれの再生ゾーン又はゾーングループは、再生ゾーン又は再生グループによって再生される０以上のオーディオアイテムに対応する情報を含む再生キューと関連付けられていてもよい。例えば、再生キュー内のそれぞれのオーディオアイテムは、ユー・アール・アイ（ＵＲＩ）、ユー・アール・エル（ＵＲＬ）、又は再生ゾーン又はゾーングループ内の再生デバイスによって使用可能な他の識別子を含んでいてもよい。これらによって、ローカルオーディオコンテンツソース又はネットワークオーディオコンテンツソース、からオーディオアイテムを見つけ、および／又は取り出し、再生デバイスによって再生することができる。

ある例では、プレイリストが再生キューに追加されてもよい。この場合、プレイリスト内のそれぞれのオーディオアイテムに対応する情報が再生キューに追加されてもよい。別の例では、再生キュー内のオーディオアイテムは、プレイリストとして保存されてもよい。更に別の例では、再生デバイスがストリーミングオーディオコンテンツ、例えば、再生時間を有することで連続して再生されないオーディオアイテムよりも、停止しない限り連続して再生されるインターネットラジオを再生し続けているとき、再生キューは、空であってもよいし、又は「未使用」であるが埋められていてもよい。別の実施形態では、再生キューは、インターネットラジオおよび／又は他のストリーミングオーディオコンテンツアイテムを含むことができ、且つ再生ゾーン又はゾーングループがそれらのアイテムを再生しているとき「未使用」とすることができる。他の例も可能である。

再生ゾーン又はゾーングループが「グループ化される」か、又は「グループ解除」されるとき、影響を受ける再生ゾーン又はゾーングループに関連付けられた再生キューは、クリアされてもよいし、又は再び関連付けられてもよい。例えば、第１再生キューを含む第１再生ゾーンが、第２再生キューを含む第２再生ゾーンとグループ化された場合、形成されたゾーングループは、関連付けられた再生キューを有していてもよい。関連付けられた再生キューは、最初は空であるか、（例えば、第２再生ゾーンが第１再生ゾーンに追加された場合、）第１再生キューのオーディオアイテムを含むか、（例えば、第１再生ゾーンが第２再生ゾーンに追加された場合、）第２再生キューのオーディオアイテムを含むか、又は第１再生キューと第２再生キューとの両方のオーディオアイテムを組み合わせられる。その後、形成されたゾーングループがグループ解除された場合、グループ解除された第１再生ゾーンは、前の第１再生キューと再び関連付けられてもよいし、空の新しい再生キューと関連付けられてもよいし、あるいはゾーングループがグループ解除される前にゾーングループと関連付けられていた再生キューのオーディオアイテムを含む新しい再生キューと関連付けられてもよい。同様に、グループ解除された第２再生ゾーンは、前の第２再生キューと再び関連付けられてもよいし、空の新しい再生キューと関連付けられてもよいし、あるいはゾーングループがグループ解除される前にゾーングループと関連付けられていた再生キューのオーディオアイテムを含む新しい再生キューと関連付けられてもよい。その他の例も可能である。

図４のユーザインタフェース４００に戻って、再生キュー領域４４０内のオーディオコンテンツのグラフィック表示は、トラックタイトル、アーティスト名、トラックの長さ、および再生キュー内のオーディオコンテンツと関連付けられた他の関連情報を含んでいてもよい。ある例では、オーディオコンテンツのグラフィック表示は、追加の選択可能なアイコンを選択して移動させることができる。これにより、再生キューおよび／又は再生キューに表示されたオーディオコンテンツを管理および／又は操作することができる。例えば、表示されたオーディオコンテンツは、再生キューから取り除いてもよいし、再生キュー内の異なる位置に移動させてもよいし、すぐに再生させるか若しくは現在再生しているオーディオコンテンツの後に再生するように選択されてもよいし、あるいは他の動作を実行してもよい。再生ゾーン又はゾーングループに関連付けられた再生キューは、再生ゾーン又はゾーングループ内の１つ又は複数の再生デバイスのメモリ、再生ゾーン又はゾーングループに入っていない再生デバイスのメモリ、および／又は他の指定のデバイスのメモリに記憶されていてもよい。

オーディオコンテンツソース領域４５０は、選択可能なオーディオコンテンツソースのグラフィック表示を含んでいてもよい。このオーディオコンテンツソースにおいては、オーディオコンテンツが選択された再生ゾーン又はゾーングループによって取り出され、再生されてもよい。オーディオコンテンツソースに関する説明は、以降のセクションを参照することができる。

ｄ．例示的なオーディオコンテンツソース
前回図示したように、ゾーン又はゾーングループ内の１つ又は複数の再生デバイスは、再生するオーディオコンテンツを、（例えば、オーディオコンテンツの対応するＵＲＩ又はＵＲＬに基づいて、）複数の入手可能なオーディオコンテンツソースから取り出すように構成されていてもよい。ある例では、オーディオコンテンツは、再生デバイスによって、対応するオーディオコンテンツソース（例えば、ライン−イン接続）から直接取り出されてもよい。別の例では、オーディオコンテンツは、１つ又は複数の他の再生デバイス若しくはネットワークデバイスを介してネットワーク上の再生デバイスに提供されてもよい。

例示的なオーディオコンテンツソースは、メディア再生システム内の１つ又は複数の再生デバイスのメモリを含んでもよい。メディア再生システムとしては、例えば、図１のメディア再生システム１００、１つ又は複数のネットワークデバイス上のローカルミュージックライブラリ（例えば、制御デバイス、ネットワーク対応のパーソナルコンピュータ、又はネットワーク接続ストレージ（ＮＡＳ）など）、インターネット（例えば、クラウド）を介してオーディオコンテンツを提供するストリーミングオーディオサービス、あるいは再生デバイス又はネットワークデバイスのライン−イン入力接続を介してメディア再生システムに接続されるオーディオソース、他の可能なシステムであってもよい。

ある実施形態では、オーディオコンテンツソースは、図１のメディア再生システム１００などのようなメディア再生システムに定期的に追加されてもよいし、定期的に取り除かれてもよい。ある例では、１つ又は複数のオーディオコンテンツソースが追加される、取り除かれる、又は更新される度に、オーディオアイテムのインデックス付けが行われてもよい。オーディオアイテムのインデックス付けは、ネットワーク上で共有される全てのフォルダ／ディレクトリ内の識別可能なオーディオアイテムをスキャンすることを含んでもよい。ここで、ネットワークは、メディア再生システム内の再生デバイスによってアクセス可能である。また、オーディオアイテムのインデックス付けは、メタデータ（例えば、タイトル、アーティスト、アルバム、トラックの長さなど）と他の関連情報とを含むオーディオコンテンツデータベースを作成すること、又は更新すること、を含んでもよい。他の関連情報とは、例えば、それぞれの識別可能なオーディオアイテムを見つけるためのＵＲＩ又はＵＲＬを含んでもよい。オーディオコンテンツソースを管理し、且つ維持するための他の例も可能である。

再生デバイス、制御デバイス、再生ゾーン構成、およびメディアコンテンツソースに関する上記の説明は、以下に記載される機能および方法を実装できる動作環境のうちの、一部の例を示しているに過ぎない。メディア再生システム、再生デバイス、およびネットワークデバイスに関して、本明細書に明示的に記載されていない他の動作環境および構成も同様に適用可能であり、本機能および本方法を実装するのに適している可能性がある。

ｅ．複数の例示的なネットワークデバイス
図５は、音声コントロールに基づいてオーディオ再生体験を提供するように構成される、複数の例示的なデバイス５００を示した図である。当業者であれば、図５に示されるデバイスは例示する目的のみのものであり、異なるおよび／又は追加のデバイスを含む変形例が実行可能であり得ることを理解するであろう。図示されるように、複数のデバイス５００は、コンピューティングデバイス５０４、５０６、および５０８と、ネットワークマイクロフォンデバイス（ＮＭＤ）５１２、５１４、および５１６と、再生デバイス（ＰＢＤ）５３２、５３４、５３６、および５３８と、制御デバイス（ＣＲ）５２２とを含む。

複数のデバイス５００のそれぞれは、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、およびパーソナルエリアネットワーク（ＰＡＮ）などの１つ又は複数の種類のネットワークを介して、ＮＦＣ、Ｂｌｕｅｔｏｏｔｈ(登録商標)、Ｅｔｈｅｒｎｅｔ、およびＩＥＥＥ８０２．１１その他の１つ又は複数のネットワークプロトコルに従って、複数のデバイスにおける１つ又は複数の他のデバイスとの通信を確立することができる、ネットワーク対応デバイスであってもよい。

図示されるように、コンピューティングデバイス５０４、５０６、および５０８はクラウドネットワーク５０２の一部であってもよい。クラウドネットワーク５０２は追加のコンピューティングデバイスを含んでもよい。ある例では、コンピューティングデバイス５０４、５０６、および５０８は異なるサーバであってもよく、別の例では、コンピューティングデバイス５０４、５０６、および５０８のうちの２つ以上は単一サーバのモジュールであってもよい。同様に、コンピューティングデバイス５０４、５０６、および５０８のそれぞれは、１つ又は複数のモジュール若しくはサーバを含んでもよい。本明細書での例示を容易に行うために、コンピューティングデバイス５０４、５０６、および５０８のそれぞれは、クラウドネットワーク５０２内で特定の機能を実行するように構成されてもよい。例えば、コンピューティングデバイス５０８は、音楽ストリーミングサービス用のオーディオコンテンツのソースであってもよい。

図示されるように、コンピューティングデバイス５０４は、通信経路５４２を介してＮＭＤ５１２、５１４、および５１６とインタフェースするように構成されてもよい。ＮＭＤ５１２、５１４、および５１６は、１つ又は複数の「スマートホーム」システムのコンポーネントであってもよい。ある場合では、ＮＭＤ５１２、５１４、および５１６は、図１に示されるデバイスの配置と同様に、家庭全体に物理的に配置されてもよい。別の場合では、ＮＭＤ５１２、５１４、および５１６の２つ以上は、互いに比較的近接するように物理的に配置されてもよい。通信経路５４２は、インターネットを含むＷＡＮ、ＬＡＮ、および／又はＰＡＮその他などの、１つ又は複数の種類のネットワークを備えてもよい。

ある例では、ＮＭＤ５１２、５１４、および５１６のうちの１つ又は複数は、主に音声検出を行うように構成されたデバイスであってもよい。別の例では、ＮＭＤ５１２、５１４、および５１６のうちの１つ又は複数は、様々な主要ユーティリティを有するデバイスのコンポーネントであってもよい。例えば、図２および図３に関連して上述したように、ＮＭＤ５１２、５１４、および５１６のうちの１つ又は複数は、再生デバイス２００のマイクロフォン（複数可）２２０又はネットワークデバイス３００のマイクロフォン（複数可）３１０であってもよい。また場合によっては、ＮＭＤ５１２、５１４、および５１６のうちの１つ又は複数は、再生デバイス２００又はネットワークデバイス３００であってもよい。ある例では、ＮＭＤ５１２、５１４、および／又は５１６のうちの１つ又は複数は、マイクロフォンアレイに配置される複数のマイクロフォンを含んでいてもよい。

図示されるように、コンピューティングデバイス５０６は、通信経路５４４を介してＣＲ５２２並びにＰＢＤ５３２、５３４、５３６、および５３８とインタフェースするように構成されてもよい。ある例では、ＣＲ５２２は、図２のネットワークデバイス２００などのネットワークデバイスであってもよい。したがって、ＣＲ５２２は、図４のコントローラインタフェース４００を提供するように構成されてもよい。同様に、ＰＢＤ５３２、５３４、５３６、および５３８は、図３の再生デバイス３００などの再生デバイスであってもよい。このため、ＰＢＤ５３２、５３４、５３６、および５３８は、図１に示されるように家庭全体に物理的に配置されてもよい。例示する目的上、ＰＢＤ５３６および５３８は結合ゾーン５３０の一部であってもよく、その一方で、ＰＢＤ５３２および５３４は自身が属するそれぞれのゾーンの一部であってもよい。上述したように、ＰＢＤ５３２、５３４、５３６、および５３８は動的に結合、グループ化、結合解除、かつグループ解除されてもよい。通信経路５４４は、インターネットを含むＷＡＮ、ＬＡＮ、および／又はＰＡＮその他などの１つ又は複数の種類のネットワークを備えてもよい。

ある例では、ＮＭＤ５１２、５１４、および５１６と同様に、ＣＲ５２２並びにＰＢＤ５３２、５３４、５３６、および５３８も、１つ又は複数の「スマートホーム」システムのコンポーネントであってもよい。ある場合では、ＰＢＤ５３２、５３４、５３６、および５３８は、ＮＭＤ５１２、５１４、および５１６と同じ家庭全体に配置されてもよい。更に、上述したように、ＰＢＤ５３２、５３４、５３６、および５３８のうちの１つ又は複数は、ＮＭＤ５１２、５１４、および５１６のうちの１つ又は複数であってもよい。

ＮＭＤ５１２、５１４、および５１６はローカルエリアネットワークの一部であってもよく、通信経路５４２は、ＮＭＤ５１２、５１４、および５１６が属するローカルエリアネットワークを、ＷＡＮを介してコンピューティングデバイス５０４にリンクする（通信経路は図示せず）アクセスポイントを含んでいてもよい。同様に、ＮＭＤ５１２、５１４、および５１６のそれぞれは、そのようなアクセスポイントを介して互いと通信してもよい。

同様に、ＣＲ５２２並びにＰＢＤ５３２、５３４、５３６、および５３８は、前のセクションで説明したように、ローカルエリアネットワークおよび／又はローカル再生ネットワークの一部であってもよく、また通信経路５４４は、ＣＲ５２２並びにＰＢＤ５３２、５３４、５３６、および５３８が属するローカルエリアネットワークおよび／又はローカル再生ネットワークを、ＷＡＮを介してコンピューティングデバイス５０６にリンクするアクセスポイントを含んでいてもよい。したがって、ＣＲ５２２並びにＰＢＤ５３２、５３４、５３６、および５３８のそれぞれもまた、そのようなアクセスポイントを介して互いと通信してもよい。

ある例では、単一のアクセスポイントは通信経路５４２および５４４を含んでもよい。ある例では、ＮＭＤ５１２、５１４、および５１６、ＣＲ５２２、並びにＰＢＤ５３２、５３４、５３６、および５３８のそれぞれは、家庭用の同じアクセスポイントを介してクラウドネットワーク５０２にアクセスしてもよい。

図５に示されるように、ＮＭＤ５１２、５１４、および５１６、ＣＲ５２２、並びにＰＢＤ５３２、５３４、５３６、および５３８のそれぞれはまた、通信手段５４６を介して他のデバイスのうちの１つ又は複数と直接通信してもよい。本明細書に記載の通信手段５４６は、１つ又は複数の種類のネットワークを介した、１つ又は複数のネットワークプロトコルによるデバイス間の１つ又は複数の形式の通信を含んでもよく、および／又は１つ又は複数の他のネットワークデバイスを介した通信を含んでもよい。例えば通信手段５４６は、一例として、Ｂｌｕｅｔｏｏｔｈ（商標）（ＩＥＥＥ８０２．１５）、ＮＦＣ、ＷｉｒｅｌｅｓｓＤｉｒｅｃｔ、および／又はプロプライエタリ無線その他のうちの１つ又は複数を含んでいてもよい。

ある例では、ＣＲ５２２はＢｌｕｅｔｏｏｔｈ（商標）を介してＮＭＤ５３２と通信し、別のローカルエリアネットワークを介してＰＢＤ５３４と通信してもよい。別の例では、ＮＭＤ５１４は別のローカルエリアネットワークを介してＣＲ５２２と通信し、Ｂｌｕｅｔｏｏｔｈを介してＰＢＤ５３６と通信してもよい。更に別の例では、ＰＢＤ５３２、５３４、５３６、および５３８のそれぞれは、ローカル再生ネットワークを介し、スパニングツリープロトコルに従って互いと通信してもよく、その一方で、ローカル再生ネットワークとは異なるローカルエリアネットワークを介してＣＲ５２２とそれぞれ通信してもよい。他の例も可能である。

場合によっては、ＮＭＤ５１２、５１４、および５１６、ＣＲ５２２、並びにＰＢＤ５３２、５３４、５３６、および５３８間の通信手段は、デバイス間の通信の種類、ネットワーク状態、および／又は待ち時間要求に応じて変化してもよい。例えば、ＮＭＤ５１６をＰＢＤ５３２、５３４、５３６、および５３８と共に最初に家庭に導入するときに、通信手段５４６を使用してもよい。ある場合では、ＮＭＤ５１６は、ＮＦＣを介してＮＭＤ５１６に対応する識別情報をＰＢＤ５３８に送信してもよく、またＰＢＤ５３８はこれに応じて、ＮＦＣ（又は他の何らかの通信形式）を介してローカルエリアネットワーク情報をＮＭＤ５１６に送信してもよい。ただし、ひとたびＮＭＤ５１６を家庭内に設置した後、ＮＭＤ５１６とＰＢＤ５３８との通信手段は変化してもよい。例えばＮＭＤ５１６は、通信経路５４２、クラウドネットワーク５０２、および通信経路５４４を連続的に経由してＰＢＤ５３８と通信してもよい。別の例では、ＮＭＤとＰＢＤとは、ローカル通信手段５４６を介して決して通信しないようにしてもよい。更に別の例では、ＮＭＤとＰＢＤとは、主としてローカル通信手段５４６を介して通信してもよい。他の例も可能である。

例示的な例では、ＮＭＤ５１２、５１４、および５１６は、ＰＢＤ５３２、５３４、５３６、および５３８を制御するための音声入力を受信するように構成されてもよい。利用可能な制御コマンドは、再生ボリュームコントロール、再生トランスポートコントロール、音楽ソース選択、およびグループ化その他など、前述した任意のメディア再生システムの制御を含んでいてもよい。例えばＮＭＤ５１２は、ＰＢＤ５３２、５３４、５３６、および５３８のうちの１つ又は複数を制御するための音声入力を受信してもよい。音声入力を受信したことに応答して、ＮＭＤ５１２は通信経路５４２を介して、処理を目的としてその音声入力をコンピューティングデバイス５０４に送信してもよい。ある例では、コンピューティングデバイス５０４は、音声入力を同等のテキストコマンドに変換し、そのテキストコマンドを解析してコマンドを識別してもよい。次いでコンピューティングデバイス５０４は、続けてそのテキストコマンドをコンピューティングデバイス５０６に送信してもよい。別の例では、コンピューティングデバイス５０４は、音声入力を同等のテキストコマンドに変換し、次いで、続けてそのテキストコマンドをコンピューティングデバイス５０６に送信してもよい。その後コンピューティングデバイス５０６は、そのテキストコマンドを解析して、１つ又は複数の再生コマンドを識別してもよい。

例えば、そのテキストコマンドが「『ストリーミングサービス１』から『アーティスト１』による『トラック１』を『ゾーン１』で再生して」である場合、コンピューティングデバイス５０６は（ｉ）「ストリーミングサービス１」から入手可能な「アーティスト１」による「トラック１」のＵＲＬと、（ｉｉ）「ゾーン１」内の少なくとも１つの再生デバイスとを識別してもよい。本例では、「ストリーミングサービス１」からの「アーティスト１」による「トラック１」のＵＲＬは、コンピューティングデバイス５０８を指すＵＲＬであってもよく、「ゾーン１」は結合ゾーン５３０であってもよい。したがって、ＵＲＬとＰＢＤ５３６および５３８の一方又は両方とを識別すると、コンピューティングデバイス５０６は通信経路５４４を介して、ＰＢＤ５３６および５３８の一方又は両方に、識別された再生用のＵＲＬを送信してもよい。ＰＢＤ５３６および５３８の一方又は両方は、これに応じて、受信したＵＲＬに従ってコンピューティングデバイス５０８からオーディオコンテンツを取り出し、かつ「ストリーミングサービス１」から「アーティスト１」による「トラック１」の再生を開始してもよい。

当業者であれば、上記は単なる例示的な例であり、他の実施形態も実行可能であることを理解する。ある場合では、上述したように、複数のデバイス５００のうちの１つ又は複数によって実行される動作は、複数のデバイス５００における１つ又は複数の他のデバイスによって実行されてもよい。例えば、音声入力からテキストコマンドへの変換は、ＮＭＤ５１２、コンピューティングデバイス５０６、ＰＢＤ５３６、および／又はＰＢＤ５３８などの他のデバイスによって代替的に、部分的に若しくは完全に実行されてもよい。同様にＵＲＬの識別は、ＮＭＤ５１２、コンピューティングデバイス５０４、ＰＢＤ５３６、および／又はＰＢＤ５３８などの別のデバイス若しくは複数のデバイスによって代替的に、部分的に若しくは完全に実行されてもよい。

ｆ．例示的なネットワークマイクロフォンデバイス
図６は、図５のＮＭＤ５１２、５１４、および５１６のうちの１つ又は複数を構成する例示的なネットワークマイクロフォンデバイス６００の機能ブロック図を示す。図示されるように、ネットワークマイクロフォンデバイス６００は、プロセッサ６０２、メモリ６０４、マイクロフォンアレイ６０６、ネットワークインタフェース６０８、ユーザインタフェース６１０、ソフトウェアコンポーネント６１２、およびスピーカ（複数可）６１４を含む当業者であれば、他のネットワークマイクロフォンデバイスの構成および配置も可能であることを理解する。例えば、ネットワークマイクロフォンデバイスは、代替案としてスピーカ（複数可）６１４を除外するか、又はマイクロフォンアレイ６０６の代わりに単一のマイクロフォンを有することができる。

プロセッサ６０２は、汎用プロセッサ若しくはコントローラ又は専用プロセッサ若しくはコントローラの形態をとる、１つ又は複数のプロセッサおよび／又はコントローラを含んでいてもよい。例えば、処理ユニット６０２は、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路、およびデジタル信号プロセッサなどを含んでいてもよい。メモリ６０４は、プロセッサ６０２によって実行されて機能を発揮する１つ又は複数のソフトウェアコンポーネントを搭載可能なデータストレージであってもよい。したがって、メモリ６０４は、ランダムアクセスメモリ、レジスタ、キャッシュなどが例として挙げられる１つ又は複数の非一時的なコンピュータ読取り可能記録媒体と、読取り専用メモリ、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリ、および／又は光学記憶装置その他などの１つ又は複数の不揮発性記録媒体とを備えていてもよい。

マイクロフォンアレイ６０６は、ネットワークマイクロフォンデバイス６００の環境内の音を検出するように構成された、複数のマイクロフォンであってもよい。マイクロフォンアレイ６０６は、コンデンサーマイク、エレクトレットコンデンサーマイク、又はダイナミックマイクなど、現在知られている又は今後開発される任意の種類のマイクロフォンを含んでもよい。ある例では、マイクロフォンアレイは、ネットワークマイクロフォンデバイスに対する１つ又は複数の方向から音声を検出するように構成されてもよい。マイクロフォンアレイ６０６は、一部の周波数範囲に対して高感度であってもよく、ある例では、マイクロフォンアレイ６０６の第１サブセットは第１周波数範囲に対して高感度であってもよい一方、マイクロフォンアレイの第２サブセットは第２周波数範囲に対して高感度であってもよい。更に、マイクロフォンアレイ６０６は、オーディオソース（例えば、音声、可聴音）の位置情報を取得する、および／又は、背景雑音のフィルタリングを補助するために設けられてもよい。特にある実施形態では、マイクロフォンアレイは、複数のマイクロフォンではなく、単一のマイクロフォンのみから構成されてもよい。

ネットワークインタフェース６０８は、図５に関連してＣＲ５２２、ＰＢＤ５３２〜５３８、コンピューティングデバイス５０４〜５０８などのクラウドネットワーク５０２内の様々なネットワークデバイス、および他のネットワークマイクロフォンデバイスなどの間における無線および／又は有線通信を容易にするように構成されてもよい。このため、ネットワークインタフェース６０８は、これらの機能を実行するのに適した任意の形態をとることができ、その例としては、Ｅｔｈｅｒｎｅｔインタフェース、シリアルバスインタフェース（例えば、ＦｉｒｅＷｉｒｅ、ＵＳＢ２．０など）、無線通信を容易にするように構成されたチップセットおよびアンテナ、並びに／又は有線および／又は無線通信を提供する他の任意のインタフェースが挙げられる。ある例では、ネットワークインタフェース６０８は、工業規格（例えば、赤外線、無線、ＩＥＥＥ８０２．３などの有線規格、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５などの無線規格、４Ｇ通信規格など）に基づいてもよい。

ネットワークマイクロフォンデバイス６００のユーザインタフェース６１０は、ネットワークマイクロフォンデバイスとのユーザ対話を容易にするように構成されていてもよい。ある例では、ユーザインタフェース６０８は、ユーザがネットワークマイクロフォンデバイス６００に直接入力できるようにするために、物理的ボタン、タッチセンサ画面（複数可）および／又は面（複数可）に設けられるグラフィカルインタフェースその他のうちの１つ又は複数を含んでいてもよい。ユーザインタフェース６１０は、視覚的および／又は聴覚的フィードバックをユーザに提供するために、１つ又は複数の照明およびスピーカ（複数可）６１４を更に含んでいてもよい。ある例では、ネットワークマイクロフォンデバイス６００は、スピーカ（複数可）６１４を介してオーディオコンテンツを再生するように更に構成されていてもよい。

ここでいくつかの例示的な実施形態である、図７、図８、および図９に示される実施形態７００、８００、並びに９００を参照すると、本明細書に記載される技術の例示的な実施形態がそれぞれ提示されている。例えば、図１のメディア再生システム１００、図２の再生デバイス２００の１つ又は複数、又は図３の制御デバイス３００の１つ又は複数、並びに本明細書に記載の他のデバイスおよび／又は他の適切なデバイスを含む動作環境内に、これらの例示的な実施形態を実装することができる。更に、メディア再生システムによって実行されるものとして例として図示されている動作は、メディア再生システムの再生デバイス又は制御デバイスなどの任意の適切なデバイスによって実行されてもよい。実施形態７００、８００、および９００は、図７、図８、および図９に示されるブロックのうちの１つ又は複数によって図示されるように、１つ又は複数の動作、機能、若しくはアクションを含んでもよい。ブロックを順番に図示しているが、これらのブロックは同時に、および／又は本明細書に記載の順番とは異なる順番で実行されてもよい。また、様々なブロックは、より少数のブロックに組み合わされるか、追加のブロックに分割されるか、および／又は所望の実施形態に基づいて取り除かれてもよい。

更に、本明細書に開示される実施形態について、フローチャートは、本実施形態の実行可能な１つの実施態様の機能および動作を示す。これに関してそれぞれのブロックは、プロセッサによって実行されてプロセスにおける特定の論理機能又はステップを実装するための１つ又は複数の命令を含むプログラムコードのモジュール、セグメント、又は一部を表すことができる。このプログラムコードは、例えばディスク又はハードドライブを含むストレージデバイスなどの、任意の種類のコンピュータ読取り可能媒体に記憶されてもよい。コンピュータ読取り可能媒体としては、例えばレジスタメモリ、プロセッサキャッシュ、およびランダムアクセスメモリ（ＲＡＭ）のように短期間データを記憶するコンピュータ読取り可能媒体などの、非一時的なコンピュータ読取り可能媒体が挙げられる。更に、コンピュータ読取り可能媒体として、例えば読取り専用メモリ（ＲＯＭ）、光ディスク又は磁気ディスク、コンパクトディスク読取り専用メモリ（ＣＤ−ＲＯＭ）のように二次的な、又は永続的な長期ストレージなどの非一時的な記録媒体も挙げることができる。また、コンピュータ読取り可能媒体は、他の任意の揮発性又は不揮発性ストレージシステムであってもよい。コンピュータ読取り可能媒体は、例えばコンピュータ読取り可能記録媒体、又は有形のストレージデバイスと見なすことができる。更に、本明細書に開示される実施形態について、それぞれのブロックは、プロセスにおける特定の論理機能を実行するように配線されている回路を表すことができる。

ＩＩＩ．音声サービスを起動するための例示的なシステムおよび方法
上述したように、ある例では、コンピューティングデバイスは音声サービスを使用して音声コマンドを処理することができる。実施形態７００は、音声サービスに音声入力を処理させるための例示的な技術である。

ａ．音声入力を示す音声データの受信
ブロック７０２で、実施形態７００は、音声入力を示す音声データを受信するステップを含む。例えば、ＮＭＤ６００などのＮＭＤはマイクロフォンを介して、音声入力を示す音声データを受信することができる。更に別の例として、図１の再生デバイス１０２、１０４、１０６、１０８、１１０、１１２、１１４、１１６、１１８、１２０、１２２、および１２４又は制御デバイス１２６および１２８のいずれかはＮＭＤであってもよく、また音声入力を示す音声データを受信してもよい。更に別の例では、ＮＭＤは、図５のＮＭＤ５１２、５１４、および５１６、ＰＢＤ５３２、５３４、５３６、および５３８、並びにＣＲ５２２を含む。

ＮＭＤは、１つ又は複数のマイクロフォンを介して、周辺雑音を継続的に録音（すなわち、音声入力を聞く）してもよい。ＮＭＤは、この継続的な録音をリングバッファ又はサーキュラバッファに記憶してもよい。そのようなバッファにおいては、その録音は音声入力を含まない限り上書き（すなわち、破棄される）されてもよい。このバッファは、本明細書に記載のデバイス又はサーバのいずれかを介して、ローカルおよび／又はリモートに記憶されてもよい。そのような場合、音声入力を示す音声データを受信するステップは、音声入力を含む音声データをバッファに録音するステップを含んでもよい。

ＮＭＤは、音声データの一部がウェイクワード又はウェイクフレーズを含んでいることを検出することにより、音声入力が受信されたことを検出することができる。例えば音声入力は、ウェイクワードとそれに続く音声コマンドとを含んでいる場合がある。ウェイクワードは、ＮＭＤが音声入力を能動的に聞き取るための時間間隔又は時間枠を開始することができる。時間間隔又は時間枠は、一定の時間（例えば、ＮＭＤが最初の音声入力を受信してから１分後）が経過すると期限切れになるようにしてもよい。「ユーザＩＤに基づくアクション」と題する米国特許出願第１５／１３１，７７６号が本明細書に参照として援用されており、それには更に別の例が記載されている。商業的に使用されているいくつかの例示的なウェイクワードとしては、「ヘイ、Ｓｉｒｉ」（アップル（登録商標）社）、「オッケー、Ｇｏｏｇｌｅ」（グーグル（登録商標）社）、および「Ａｌｅｘａ」（アマゾン（登録商標）社）が挙げられる。あるいは、ウェイクワードは独自のものであってもよい（例えば、ユーザ定義の）。

例示のために図１に戻って、ユーザは、主寝室ゾーンにいる間に特定の音声入力を発することができる。ＮＭＤとして機能している再生デバイス１２２（および／又は再生デバイス１２４）は、音声入力を聞き取り（すなわち、マイクロフォンを介した録音であり、おそらくはバッファに録音される）、かつユーザの声を音声入力として検出することができる。特定の音声入力は、ＮＭＤにユーザの声を音声入力として容易に認識させるようにするためのウェイクワードを含んでもよい。

例示的な音声コマンドは、メディア再生システムの制御又は再生設定のいずれかを変更するように命じるコマンドを含んでもよい。再生設定には、例えば再生ボリューム、再生トランスポートコントロール、音楽ソース選択、およびグループ化その他が含まれていてもよい。他の音声コマンドは、他のデバイス操作の中でもとりわけ、テレビコントロール又は再生設定、携帯電話端末の設定、又は照明装置を調整するための操作を含んでいてもよい。より多くの家庭用装置が「スマート」になるにつれて（例えば、ネットワークインタフェースを搭載することによって）、音声コマンドを使用して様々な家庭用装置をコントロールすることができるようになる。

一例として、ＮＭＤは音声入力を示す音声データを、ネットワークインタフェースを介して、おそらくは家庭内の別のＮＭＤから受信することができる。ＮＭＤはマイクロフォンを介して、音声入力を示す音声データを受信することに加えて、当該録音を受信してもよい（例えば、２つのＮＭＤが両方とも音声入力の検出範囲内にある場合）。

そのような実施形態では、ＮＭＤは周辺雑音を継続的に録音しない可能性がある。むしろ、場合によってはＮＭＤは、ＮＭＤに対して「起動」して音声入力又はコマンドの録音を開始するように指示する音声入力又は指示を受信してもよい。例えば、第１ＮＭＤ（例えば、図１に示される再生デバイス１０４）は音声入力を受信し、本明細書に記載のある状況では、録音を開始するように指示する指示を１つ又は複数の第２ＮＭＤ（例えば、再生デバイス１０６および／又は１０８その他など）に送信してもよい。

いくつかの例においては、ＮＭＤデバイスが音声データを受信する前に、複数のＮＭＤからの音声録音が精査され、処理され、および／又は単一の音声入力にまとめられてもよい。例として、ＮＭＤ５１２は、５１４又は５１６などの１つ又は複数の他のＮＭＤから音声録音を受信することができる。いくつかの実施形態では、ＰＢＤ５３２、５３４、５３６および／又は５３８はＮＭＤとして構成されてもよく、またＮＭＤ５１２は、ＰＢＤ５３２、５３４、５３６および／又は５３８のうちの１つから音声録音を受信してもよい。ＮＭＤ（又は複数のＮＭＤ）は、音声録音を精査し、処理し、および／又はまとめて単一の音声入力にし、さらなる処理を目的として、この単一の音声入力をコンピューティングデバイスに送信してもよい。

ｂ．音声入力を処理するための音声サービス（複数可）の識別
ブロック７０４で、実施形態７００は、音声入力を処理するための１つ又は複数の音声サービスを識別するステップを含む。例えば、ＮＭＤは、受信した音声データに示されている音声入力を処理するための特定の音声サービスを識別することができる。あるいは、ＮＭＤは、音声入力を処理するための複数の音声サービスを識別してもよい。

ＮＭＤは、音声入力を処理するための特定の音声サービスを、利用可能な音声サービスの中から識別することができる。音声サービスは、様々な技術を使用してＮＭＤで利用可能となってもよい。利用可能な音声サービスは、ＮＭＤに登録されている音声サービスを含んでいてもよい。ＮＭＤに所定の音声サービスを登録する作業は、音声サービスのユーザ認証情報（例えば、ユーザ名およびパスワード）をＮＭＤに提供するステップ、および／又はＮＭＤの識別子を音声サービスに提供するステップを含んでいてもよい。そのような登録作業において、音声サービスに代わって音声入力を受信するようにＮＭＤを構成し、またおそらくは処理を目的として、ＮＭＤから音声入力を受信するように音声サービスを構成してもよい。登録作業は設定手順の間に行われてもよい。

場合によっては、ＮＭＤはメディア再生システムと関連付けられてもよい。ＮＭＤは、メディア再生システム自体の一部として（例えば、制御デバイス又は再生デバイスとして）、又はメディア再生システムと相互接続された別のデバイスとして機能し、場合によってはメディア再生システムの特定の動作（例えば、再生デバイスの音声コントロール）を容易に行うことができる。１つ又は複数の音声サービスが所定のメディア再生システムに登録されてもよく、ＮＭＤは音声入力を処理するために、登録された音声サービスを識別することができる。

メディア再生システムの登録作業において、音声サービスに代わって音声入力を受信するように、メディア再生システムのＮＭＤ（例えば、制御デバイス、再生デバイス、又はその他の関連デバイス）を構成してもよい。更に、こうした登録作業において、処理を目的としてこれらのデバイスから音声入力を受信するように、音声サービスを構成してもよい。メディア再生システムに音声サービスを登録する作業は、設定手順の間に行われてもよい。例示的な設定手順は、再生デバイス（又は複数の再生デバイス）および／又は制御デバイスを新たなメディア再生システムに設定する手順を含む。他の例示的な設定手順は、メディア再生システムを変更するための手順（例えば、デバイスを本システムに追加、又は本システムから取り除く手順、あるいは本システムに音声サービスを設定する手順）を含む。

場合によっては、単一の音声サービスがＮＭＤで利用可能であってもよく、これによって音声入力を処理するための音声サービスを簡便に識別することができるようになる。ＮＭＤによって受信された音声入力は音声サービスに直接送信されてもよく、またＮＭＤによって応答が提供されてもよい。そのような実施形態では、ＮＭＤは単一の音声サービス用のマイクロフォンインタフェースおよびスピーカインタフェースとして機能することになる。

他の場合では、音声入力を処理するために、複数の音声サービスがＮＭＤで利用可能であってもよい。そのような場合、ＮＭＤは、音声入力を処理するための特定の音声サービスを、複数の音声サービスの中から識別することができる。例えば、ＮＭＤは、メディア再生システムに登録されている複数の音声サービスの中から、特定の音声サービスを識別することができる。上述したように、ＮＭＤはメディア再生システムの一部（例えば、再生デバイス又は制御デバイスとして）であってもよく、あるいは本システムと関連付けられていてもよい。

音声入力を処理するための特定の音声サービスを識別するステップは、音声入力におけるウェイクワード又はウェイクフレーズに基づいてもよい。例えば、音声入力を示す音声データを受信した後、ＮＭＤは、音声データの一部が特定のウェイクワードを表していると決定することができる。更に、ＮＭＤは、この特定のウェイクワードが特定の音声サービスに対応していると決定してもよい。換言すれば、ＮＭＤは、特定のウェイクワード又はウェイクフレーズが特定の音声サービスを起動するために使用されていると決定してもよい。例えば、特定のウェイクワードとしては、アップル（登録商標）社の音声サービスを起動するための「ヘイ、Ｓｉｒｉ」、グーグル（登録商標）社の音声サービスを起動するための「オッケー、Ｇｏｏｇｌｅ」、アマゾン（登録商標）社の音声サービスを起動するための「Ａｌｅｘａ」、又はマイクロソフト社の音声サービスを起動するための「ヘイ、Ｃｏｒｔａｎａ」が挙げられる。あるいは、特定の音声サービスを起動するために、独自のウェイクワード（例えば、ユーザ定義の）を定義することができる。ＮＭＤが、受信した音声データにおける特定のウェイクワードが特定の音声サービスに対応していると決定した場合、ＮＭＤはその特定の音声サービスを、音声データにおける音声入力を処理するための音声サービスとして識別することができる。

特定のウェイクワードが特定の音声サービスに対応していると決定するステップは、音声データ（例えば、ウェイクワード又はウェイクフレーズに対応している音声データの一部）を用いて１つ又は複数の音声サービスにクエリを実行するステップを含んでもよい。例えば、音声サービスは、音声データがその音声サービスに対応するウェイクワード又はウェイクフレーズを含んでいるかどうかを決定するためにＮＭＤが呼び出すことができる、アプリケーションプログラミングインタフェースを提供してもよい。ＮＭＤは、受信した音声データにおいてウェイクワード部分を表すデータと共に、その音声サービスに関する特定のクエリを音声サービスに送信することによって、ＡＰＩを呼び出すことができる。あるいは、ＮＭＤはＮＭＤ自体のＡＰＩを呼び出すことができる。ＮＭＤ又はメディア再生システムに音声サービスを登録する作業により、音声サービスのＡＰＩ又は他のアーキテクチャをＮＭＤと一体化させることができる。

複数の音声サービスがＮＭＤで利用可能である場合、ＮＭＤは、複数の音声サービスにおけるそれぞれの音声サービスに対応するウェイクワード検出アルゴリズムでクエリを実行する可能性がある。上述したように、そのような検出アルゴリズムでクエリを実行するステップは、ＮＭＤ上でローカルに、又はネットワークインタフェースを使用してリモートに、複数の音声サービスのそれぞれのＡＰＩを呼び出すステップを含んでもよい。所定の音声サービスのウェイクワード検出アルゴリズムに関するクエリへの応答として、ＮＭＤは、クエリにおける音声データがその音声サービスに対応するウェイクワードを含んでいたかどうかを示す応答を受信することができる。受信した音声データが特定の音声サービスに対応する特定のウェイクワードを表していることを特定の音声サービスのウェイクワード検出アルゴリズムが検出した場合、ＮＭＤはその特定の音声サービスを、音声入力を処理するための音声サービスとして選択してもよい。

場合によっては、受信された音声データが、特定の音声サービスに対応する認識可能なウェイクワードを含んでいないにもかかわらず、音声入力を含んでいることがある。そのような状況は、周辺雑音又は他の要因のために、所定のウェイクワードが明確に検出されない場合に発生し、その結果、ウェイクワード検出アルゴリズム（複数可）が所定のウェイクワードを、任意の特定の音声サービスに対応するものとして認識しない可能性がある。あるいは、ユーザが特定の音声サービスに対応するウェイクワードを発していない可能性もある。例えば、特定の音声サービスに対応していない一般的ウェイクワードを使用して、音声入力の処理を呼び出している場合がある（例えば、「ヘイ、Ｓｏｎｏｓ」）。

そのような場合、ＮＭＤはコンテキストに基づいて、音声入力を処理するためのデフォルトの音声サービスを識別することができる。デフォルトの音声サービスはあらかじめ決定されていてもよい（例えば、上述の例示的な手順などの設定手順中に設定される）。その場合、ＮＭＤは、受信した音声データが特定の音声サービスに対応するウェイクワードを含んでいないと決定すると（例えば、ＮＭＤが音声データにおいて特定の音声サービスに対応するウェイクワードを検出しなかった場合）、音声入力を処理するためにデフォルトの音声サービスを選択することができる。

上述したように、いくつかの例示的なシステムは、場合によっては複数のゾーンに設置された複数のＮＭＤ（例えば、リビングルーム、キッチン、ダイニングルーム、および寝室ゾーンを対象とし、各自がそれぞれの再生デバイスを有する図１のメディア再生システム１００）を含んでもよい。このようなシステムでは、デフォルトの音声サービスはＮＭＤごと、又はゾーンごとに設定されてもよい。その場合、所定のＮＭＤ又はゾーンによって検出された音声入力は、そのＮＭＤ又はゾーンのデフォルトの音声サービスによって処理されてもよい。場合によってはＮＭＤは、所定のＮＭＤ又はゾーンによって検出された音声入力が、そのゾーンと関連付けられている音声サービスによって処理されることが意図されていると想定してもよい。ただし他の場合では、ウェイクワード又はウェイクフレーズにより、音声入力は特定のＮＭＤ又はゾーンに送信されてもよい（例えば、「ヘイ、キッチン」の場合は、音声入力はキッチンゾーンへと送信される）。

例示のために図１を参照すると、再生デバイス１２２および／又は１２４は、主寝室ゾーンのＮＭＤとして機能していてもよい。このゾーンによって検出された、および／又はこのゾーンに送信された音声入力（例えば、「ヘイ主寝室、今日の天気はどう？」）は、主寝室ゾーンのデフォルトの音声サービスによって処理されてもよい。例えば、主寝室ゾーンのデフォルトの音声サービスが「アマゾン（登録商標）社のＡｌｅｘａ（登録商標）」である場合、主寝室ゾーンにあるＮＭＤの少なくとも１つが、Ａｌｅｘａに天気に関するクエリを実行することになる。音声入力が特定の音声サービスに対応するウェイクワード又はウェイクフレーズを含んでいる場合、そのウェイクワード又はウェイクフレーズによってデフォルトの音声サービスが無効にされ（特定の音声サービスがデフォルトの音声サービスと異なる場合）、ＮＭＤがその特定の音声サービスを、音声入力を処理するために識別できるようになる。

いくつかの実施形態では、ＮＭＤは、その音声入力を提供しているユーザの識別情報に基づいて、音声サービスを識別してもよい。人間の声は高さ、声質、および他の特性によって異なる可能性があり、これらによってそのユーザの声によって特定のユーザを識別するための特性が、もたらされてもよい。場合によっては、家庭内のユーザがそれぞれの声を認識させるように、ＮＭＤを訓練してもよい。

家庭内のユーザは各自、それぞれ独自の好みの音声サービスを利用してもよい。例えば、家庭内の第１ユーザおよび第２ユーザは、第１音声サービスと第２音声サービスとをそれぞれ使用するように、ＮＭＤを設定してもよい（例えば、ＳＩＲＩ（登録商標）およびＣＯＲＴＡＮＡ（登録商標））。ＮＭＤが音声入力において第１ユーザの声を認識した場合、ＮＭＤは音声コマンドを処理するために、第１音声サービスを識別してもよい。ただし、ＮＭＤが音声入力において第２ユーザの声を認識した場合、ＮＭＤは音声コマンドを処理するために、第２音声サービスを代わりに識別することができる。

あるいは、ＮＭＤはコンテキストに基づいて、音声入力を処理するための特定の音声サービスを識別してもよい。例えば、ＮＭＤは、コマンドの種類に基づいて特定の音声サービスを識別してもよい。ＮＭＤ（例えば、メディア再生システムと関連付けられたＮＭＤ）は、特定の種類のコマンド（例えば、メディア再生コマンド）として、一定のコマンド（例えば、再生、停止、前方読みとばしなど）を認識することができる。そのような場合において、ＮＭＤは、その音声入力が特定の種類のコマンド（例えば、メディア再生コマンド）を含んでいると決定したとき、その音声入力を処理するための音声サービスとして、その種のコマンドを処理するように構成されている特定の音声サービスを識別してもよい。更に例示すると、検索クエリは別の例示的な種類のコマンド（例えば、「今日の天気はどう？」や「デヴィッド・ボウイの出生地はどこ？」）であってもよい。ＮＭＤは、音声入力が検索クエリを含んでいると決定した場合、検索クエリを含むその音声入力を処理するために、特定の音声サービス（例えば、「ＧＯＯＧＬＥ」）を識別してもよい。

ＮＭＤは場合によっては、その音声入力が特定の種類のデバイスを対象とした音声コマンドを含んでいると決定してもよい。そのような場合、ＮＭＤは、その種のデバイスを対象とした音声入力を処理するように構成されている特定の音声サービスを、当該音声入力を処理するために識別してもよい。例えば、ＮＭＤは、所定の音声入力が１つ又は複数の無線照明デバイスを対象としている（例えば、「ここの電気をつけて」は、ＮＭＤと同じ部屋にある「スマート」電球を対象としている）と決定し、その音声入力を処理するための音声サービスとして、無線照明デバイスを対象とした音声入力を処理するように構成されている特定の音声サービスを識別してもよい。別の例として、ＮＭＤは、所定の音声入力が再生デバイスを対象としていると決定し、その音声入力を処理するための音声サービスとして、再生デバイスを対象とした音声入力を処理するように構成されている特定の音声サービスを識別してもよい。

いくつかの例においては、ＮＭＤは以前の入力に基づいて、その音声入力を処理するために特定の音声サービスを識別することができる。ユーザは、第１音声入力が所定の音声サービスによって処理されていた場合において、後に続く第２音声入力が、他の想定可能なコンテキスト上の要素の中でもとりわけ、同じ種類の同じデバイスを対象としているか、あるいは第１コマンドの直後にこれが提供されているとき、この第２音声入力も同様に、当該音声サービスによって処理されることを期待している可能性がある。例えば、ＮＭＤは、以前の音声入力が所定の音声サービスによって処理されたことと、現在の音声入力が以前の音声入力と同じ種類の動作を対象としていることとを決定することができる（例えば、両方ともメディア再生コマンドであると決定する）。そのような状況では、ＮＭＤは、現在の音声入力を処理するために当該音声サービスを識別してもよい。

別の例として、ＮＭＤは、以前の音声入力が所定の音声サービスによって処理されたことと、現在の音声入力が、以前の音声入力受信後の閾値時間内（例えば、１〜２分以内）に受信されたこととを決定することができる。例示すると、再生デバイス１１４は、第１音声入力（「ヘイキッチン、ジャニス・ジョプリンの曲を再生して」）を受信し、その第１音声入力を処理するための音声サービスを識別し、その結果、再生デバイス１１４がジャニス・ジョプリンによるオーディオトラックを再生することができる。その後、再生デバイス１１４は、後に続く第２音声入力を受信し（「ボリュームを上げて」）、その第２音声入力を処理するための音声サービスを識別してもよい。メディア再生コマンドとしてのこの種のコマンド間の類似性および／又は２つの音声入力間における経過時間を所定として、再生デバイス１１４は、第２音声入力を処理するために、第１音声入力を処理するために識別したのと同じ音声サービスを識別してもよい。

一例として、ＮＭＤは、音声入力を処理するために第１音声サービスを識別し、その後、第１音声サービスが音声入力を処理するために利用できないと決定してもよい（おそらく、一定時間内に結果を受信できなかったことによって）。音声サービスは、当該サービスの有効期限切れ、クラウドサービスに関する技術的問題、又は可用性を侵害する悪意のあるイベント（例えば、分散型サービス妨害の攻撃）などを含む、いくつかの理由で利用できなくなる可能性がある。

そのような場合、ＮＭＤは音声入力を処理するために、代替の第２音声サービスを識別することができる。この代替音声サービスは、デフォルトの音声サービスである可能性がある。あるいは、システムに登録される複数の音声サービスが優先順位によってランク付けされてもよく、この代替音声サービスは次に優先順位の高い音声サービスであってもよい。他の例も可能である。

場合によっては、ＮＭＤは、代替音声サービスを識別する際にユーザからの入力を要求してもよい。例えば、ＮＭＤは、ユーザが代替音声サービスを指定するように要求してもよい（例えば、「ＧＯＯＧＬＥ（登録商標）は現在応答していません。別のサービスを検索しますか？」となる）。更にまた、ＮＭＤは代替音声サービスを識別し、ユーザに対して、代わりにこの代替音声サービスを検索したいかどうかを確認してもよい（例えば、「ＳＩＲＩ（登録商標）は現在応答していません。代わりにＡＬＥＸＡ（登録商標）を検索しますか？」）となる）。あるいは、別の例として、ＮＭＤが代替音声サービスに対してクエリを実行し、結果を返すときにユーザに通知してもよい（例えば、「ＣＯＲＴＡＮＡ（登録商標）は利用できませんでした。以下の結果はＳＩＲＩ（登録商標）から得ました」となる）。元の音声サービスがひとたび利用可能になると、ＮＭＤはこの状況変化をユーザに通知し、おそらくは現在の音声サービスを変更してもよい（例えば、「ＳＩＲＩ（登録商標）は現在利用可能である。代わりにＳＩＲＩ（登録商標）に問い合わせますか？」となる）。そのような応答は、ＮＭＤのデータストレージ上に記憶されたオーディオデータから、又はＮＭＤがアクセスできるオーディオデータから生成されてもよい。

代替の第２音声サービスにクエリを実行する場合、ＮＭＤは第１音声サービスの１つ又は複数の設定値を第２音声サービスに適用しようと試みることができる。例えば、そのクエリが特定のアーティストによるメディアコンテンツを再生することであり、デフォルトのオーディオサービスが第１音声サービス（例えば、特定のメディアストリーミングサービス）に対して設定されている場合、ＮＭＤは第２音声サービスに対して、デフォルトのオーディオサービスからの特定のアーティストによるオーディオトラックについてクエリの実行を試みてもよい。ただし、異なる設定値（例えば、異なるデフォルトサービス）が第２音声サービスに対して設定されている場合、そのような設定値により、第２音声サービスにクエリを実行するときに第１音声サービスの設定値が上書きされてもよい。

場合によっては、単一の音声サービスのみがＮＭＤで利用可能となっている。例えば、メディア再生システムの設定中に、メディア再生システムに対して特定の音声サービスが選択されていてもよい。一例として、特定の音声サービスが選択されている場合、他の音声サービスに対応するウェイクワードが非アクティブになり、これらのウェイクワードを検出しても処理が開始されないようにすることができる。音声サービスは、音声入力でクエリを実行されたときに音声サービスの動作を変更するための、様々な設定値を含んでもよい。例えば、優先されるメディアストリーミングサービス、又はデフォルトのメディアストリーミングサービスを設定することができる。メディア再生音声コマンド（例えば、「ケイティ・ペリーの曲を再生して」）は、その特定の音楽サービスからメディアコンテンツ（例えば、ケイティ・ペリーによるオーディオトラック）を参照することになる。

ｃ．識別された音声サービス（複数可）による音声入力処理の実行
ブロック７０６で、実施形態７００は、識別された音声サービス（複数可）に音声入力を処理させるステップを含む。例えば、ＮＭＤはネットワークインタフェースを介して、識別された音声サービス（複数可）の１つ又は複数のサーバに対して、音声入力を示すデータと、音声入力を示すデータを処理するように命じるコマンド又はクエリとを送信してもよい。このコマンド又はクエリは、識別された音声サービス（複数可）に音声コマンドを処理させてもよい。このコマンド又はクエリは、これらが識別された音声サービスに（例えば、当該音声サービスのＡＰＩに）適合するように、識別された音声サービスに応じて異なってもよい。

上述したように、音声データは音声入力を示していてもよく、この音声入力は、ウェイクワードを表す第１部分と音声コマンドを表す第２部分とを含んでいてもよい。ＮＭＤは場合によっては、音声入力において少なくとも第２部分（例えば、音声コマンドを表す部分）を示すデータのみを送信してもよい。第１部分を含まないことによって、ＮＭＤは、他の想定可能な利点の中でもとりわけ、コマンドを送信するのに必要な帯域幅を低減し、かつウェイクワードに起因して発生し得る音声入力に対する誤処理を回避することができる。あるいはＮＭＤは、音声入力において両方の部分を示しているか、又は音声データの他の何らかの部分を示しているデータを送信してもよい。

識別された音声サービスに音声入力を処理させた後、ＮＭＤはその処理の結果を受信することができる。例えば、その音声入力が検索クエリを示していた場合、ＮＭＤは検索結果を受信してもよい。別の例として、その音声入力がデバイスに対するコマンド（例えば、再生デバイスに対するメディア再生コマンド）を示していた場合、ＮＭＤはコマンドと、おそらくはそのコマンドと関連付けられた追加のデータ（例えば、コマンドと関連付けられたメディアのソース）とを受信してもよい。ＮＭＤはこれらの結果を、コマンドの種類と受信結果とに応じて適切に出力することができる。

あるいは、音声コマンドが当該ＮＭＤ以外の別のデバイスを対象としていた場合、結果は当該ＮＭＤではなくそのデバイスに送信される可能性がある。例えば、図１を参照すると、キッチンゾーンの再生デバイス１１４は、ダイニングルームゾーンの再生デバイス１１２を対象とした音声入力（例えば、再生デバイス１１２にメディア再生を調整させるための）を受信する場合がある。そのような実施形態では、再生デバイス１１４がその音声入力の処理を円滑に進めるが、この処理の結果（例えば、メディア再生の調整を命じるコマンドは再生デバイス１１２に送信されてもよい）。あるいは、音声サービスが結果を再生デバイス１１４に送信してもよく、再生デバイス１１４が当該コマンドを再生デバイス１１２に送信してもよく、又は再生デバイス１１２に当該コマンドを実行させてもよい。

ＮＭＤは、識別された音声サービスにいくつかの音声入力を処理させることができるが、他の音声入力がＮＭＤ自体によって処理されてもよい。例えば、ＮＭＤがメディア再生システムの再生デバイス、制御デバイス、又は他のデバイスである場合、ＮＭＤはメディア再生コマンドの音声認識を含んでいてもよい。別の例として、ＮＭＤは音声入力のウェイクワード部分を処理してもよい。場合によっては、ＮＭＤが処理すると、音声サービスを使用して処理するよりも高速の応答時間が可能になり得る。ただし、場合によっては、音声サービスを使用して処理するとより有効な結果、および／又はＮＭＤを介した処理では得られない結果が得られる可能性がある。いくつかの実施形態では、ＮＭＤと関連付けられた音声サービス（例えば、ＮＭＤの製造業者によって運営されている）は、そのような音声認識を容易に行うことができる。

ＩＶ．音声サービスを起動するための例示的システムおよび方法
上述したように、ある例では、コンピューティングデバイスは音声サービスを使用して音声コマンドを処理することができる。実施形態８００は、音声サービスに音声入力を処理させるための例示的な技術である。

ａ．音声入力を示す音声データの受信
ブロック８０２で、実施形態８００は、音声入力を示す音声データを受信するステップを含む。例えば、ＮＭＤは、他の実行可能な実施形態の中でもとりわけ、実施形態７００のブロック７０２に関連して上述した例示的な技術のいずれかを使用して、マイクロフォンを介して音声入力を示す音声データを受信することができる。

ｂ．受信した音声データに一般的ウェイクワードを表す部分が含まれている場合の決定
ブロック８０４で、実施形態８００は、受信した音声データに一般的ウェイクワードを表す部分が含まれていると決定するステップを含む。一般的ウェイクワードは、特定の音声サービスに対応していない可能性がある。その代わりに、一般的ウェイクワードは、全般的にＮＭＤ又はメディア再生システムに対応していてもよい（例えば、ソノス（登録商標）のメディア再生システムの場合は「ヘイ、Ｓｏｎｏｓ」、あるいはメディア再生システムのキッチンゾーンの場合は「ヘイ、キッチン」）。一般的であることで、一般的ウェイクワードによって特定の音声サービスが起動しないことが想定され得る。むしろ、複数の音声サービスが登録されている場合、一般的ウェイクワードによってこれらの音声サービス全てが起動して、最良の結果を得ようとすることが想定され得る。あるいは、単一の音声サービスが登録されている場合、一般的ウェイクワードによって、その音声サービスが起動することが想定され得る。

ｃ．音声サービス（複数可）による音声入力処理の実行
ブロック８０６で、実施形態８００は、１つ又は複数の音声サービス（複数可）に音声入力を処理させるステップを含む。例えば、ＮＭＤは、他の実行可能な実施形態の中でもとりわけ、実施形態７００のブロック７０６に関連して上述した例示的な技術のいずれかを使用して、音声サービス（複数可）に音声入力を処理させることができる。

場合によっては、複数の音声サービスがＮＭＤで利用可能となっている。例えば、複数の音声サービスが、ＮＭＤと関連付けられたメディア再生システムに登録されている。そのような例では、ＮＭＤは利用可能な音声サービスのそれぞれに音声入力を処理させてもよい。例えば、ＮＭＤはネットワークインタフェースを介して、複数の音声サービス（複数可）のそれぞれのサーバに対して、音声入力を示すデータと、音声入力を示すデータを処理するように命じるコマンド又はクエリとを送信してもよい。このコマンド又はクエリは、識別された音声サービス（複数可）に音声コマンドを処理させてもよい。このコマンド又はクエリは、これらが当該音声サービスに（例えば、当該音声サービスのＡＰＩに）適合するように、それぞれの音声サービスに応じて異なってもよい。

音声サービス（複数可）に音声入力を処理させた後、ＮＭＤはその処理の結果を受信することができる。例えば、その音声入力が検索クエリ又はメディア再生コマンドを示していた場合、ＮＭＤは検索結果又はコマンドをそれぞれ受信してもよい。ＮＭＤは、それぞれの音声サービス又は音声サービスのサブセットから結果を受信してもよい。一部の音声サービスでは、発生し得る全ての入力に対して結果を返すとは限らない。

ｄ．音声サービス（複数可）のうちの特定の音声サービスからの出力結果
ブロック８０６で、実施形態８００は、音声サービス（複数可）のうちの特定の音声サービスからの結果を出力するステップを含む。１つの音声サービスからのみ結果を受信した場合、ＮＭＤはその結果を出力してもよい。ただし、複数の音声サービスから結果を受信した場合、ＮＭＤは、複数の音声サービスからのそれぞれの結果の中から特定の結果を選択し、その結果を出力してもよい。

例示として、ある例では、ＮＭＤは「ヘイキッチン、テイラー・スウィフトの曲を再生して」という音声入力を受信してもよい。ＮＭＤは、音声入力のウェイクワード部分（「ヘイ、キッチン」）が特定の音声サービスを指定していないことから、一般的であると決定してもよい。この種のウェイクワードを受信した場合、ＮＭＤは複数の音声サービスに音声入力を処理させてもよい。ただし、音声入力のウェイクワード部分が特定の音声サービスに対応するウェイクワード（例えば、「ヘイ、Ｓｉｒｉ」）を含んでいる場合、ＮＭＤは、代わりに対応する音声サービスのみに音声入力を処理させる可能性がある。

複数の音声サービスに音声入力を処理させた後、ＮＭＤはこれらの複数の音声サービスからそれぞれの結果を受信することができる。例えば、「テイラー・スウィフトの曲を再生して」という音声コマンドに対して、ＮＭＤは、第１音声サービス（例えば、ＡＬＥＸＡ（登録商標））からテイラー・スウィフトのオーディオトラックを受信し、第２音声サービス（例えば、ＧＯＯＧＬＥ（登録商標））からテイラー・スウィフトに関連する検索結果を受信してもよい。コマンドはテイラー・スウィフトの曲を「再生する」ことであったので、ＮＭＤは第２音声サービスからの検索結果よりも、第１音声サービスからのオーディオトラックを選択してもよい。ＮＭＤは、キッチンゾーンに当該オーディオトラックの再生を開始させることによって、この結果を出力してもよい。

別の例では、処理作業に関係する音声サービスは、特定の種類のコマンドに固有のものであってもよい。例えば、メディアストリーミングサービス（例えば、ＳＰＯＴＩＦＹ（登録商標））は、オーディオ再生関連のコマンド用の音声サービスコンポーネントを有している可能性がある。ある例では、ＮＭＤは「天気はどう？」という音声入力を受信してもよい。この入力に対して、メディアストリーミングサービスの音声サービスは有用な結果を返さない可能性がある（例えば、ヌル結果又はエラー結果）。ＮＭＤは、別の音声サービスからの結果を選択する可能性がある。

Ｖ．音声サービスを登録するための例示的なシステムおよび方法
上述したように、ある例では、コンピューティングデバイスは、音声コマンドを処理するために１つ又は複数の音声サービスを登録することができる。実施形態９００は、ＮＭＤに少なくとも１つの音声サービスを登録させるための例示的な技術である。

ａ．音声サービス（複数可）を登録するように命じるコマンドを示す入力データの受信
ブロック９０２で、実施形態９００は、１つ又は複数の第２デバイスに１つ又は複数の音声サービスを登録するように命じるコマンドを示す、入力データを受信するステップを含む。例えば、第１デバイス（例えば、ＮＭＤ）はユーザインタフェース（例えば、タッチスクリーン）を介して、１つ又は複数の再生デバイスを含むメディア再生システムに対して、１つ又は複数の音声サービスを登録するように命じるコマンドを示す入力データを受信してもよい。ある例では、ＮＭＤは、他の実行可能な実施形態の中でもとりわけ、実施形態７００のブロック７０２に関連して上述した例示的な技術のいずれかを使用して、メディア再生システムを設定する手順の一部として当該入力を受信する。

ｂ．ＮＭＤに登録されている音声サービスの検出
ブロック９０４で、実施形態９００は、第１デバイス（例えば、ＮＭＤ）に登録されている１つ又は複数の音声サービスを検出するステップを含む。そのような音声サービスは、ＮＭＤにインストールされているか、又はＮＭＤに固有の（例えば、ＮＭＤのオペレーティングシステムの一部である）音声サービスを含んでいてもよい。

例えば、ＮＭＤがスマートフォン又はタブレットである場合、音声サービスとインタフェースする１つ又は複数のアプリケーション（「アプリ」）をインストールしている可能性がある。ＮＭＤは、任意の適切な技術を用いてこれらのアプリケーションを検出することができる。こうした技術は、ＮＭＤの製造業者又はオペレーティングシステムによって異なっていてもよい。ある例ではＮＭＤは、インストールされているアプリケーションのリスト又はデータベースを、サポートされている音声サービスのリストと比較して、ＮＭＤにインストール中の音声サービスのうちでどのサービスがサポートされているかを決定してもよい。

他の例では、音声サービスはＮＭＤに固有のものであってもよい。例えば、アップル（登録商標）社およびグーグル（登録商標）社の音声サービスは、それぞれｉＯＳおよびＡｎｄｒｏｉｄのオペレーティングシステムを実行しているデバイスに組み込まれているか、又はプレインストールされている場合がある。更に、これらのオペレーティングシステムにおいてカスタマイズされたいくつかのディストリビューション（例えば、アマゾン（登録商標）社のＦｉｒｅＯＳ（登録商標））は、固有の音声サービス（例えば、ＡＬＥＸＡ（登録商標））を含んでいる場合がある。

ｃ．検出された音声サービス（複数可）のデバイスへの登録の実行
ブロック９０６で、実施形態９００は、検出された音声サービスのうちの少なくとも１つを、１つ又は複数の第２デバイスに登録させるステップを含む。例えば、ＮＭＤは、検出された音声サービスのうちの少なくとも１つを、１つ又は複数の再生デバイスを含むメディア再生システム（例えば、図１のメディア再生システム１００）に登録させてもよい。この音声サービスを登録させるステップは、ネットワークインタフェースを介して、その音声サービスに関する認証情報を示すメッセージをメディア再生システム（すなわち、その少なくとも１つのデバイス）に送信するステップを含んでもよい。このメッセージは、ＮＭＤからの認証情報を使用して、メディア再生システムに音声サービスを登録するように命じるコマンド、要求、又は他のクエリを更に含んでいてもよい。このようにして、ユーザのメディア再生システムには、ユーザのＮＭＤ（例えば、スマートフォン）に登録されているのと同じ音声サービスのうちの１つ又は複数が、ユーザのＮＭＤと同じ認証情報を利用して登録されていてもよく、これによって登録作業を早めることができる。他の利点も想定可能である。

ＶＩ．結論
本明細書は、様々な例示のシステム、方法、装置、および製品などを開示しており、それらは、他のコンポーネントの中で、ハードウェア上で実行されるファームウェアおよび／又はソフトウェアを含む。そのような例は、単なる例示であり、限定されるものとみなすべきではないと理解される。例えば、これらのファームウェア、ハードウェア、および／又はソフトウェアの態様又はコンポーネントのいくつか又はすべてが、専らハードウェアに、専らソフトウェアに、専らファームウェアに、又はハードウェア、ソフトウェア、および／又はファームウェアの任意の組み合わせを実施することができることが意図されている。したがって、提供されているそれらの例は、それらのシステム、方法、装置、および／又は生産物を実施する唯一の方法ではない。

（特徴１）マイクロフォンを介して、音声入力を示す音声データを受信するステップと、メディア再生システムに登録されている複数の音声サービスの中から、前記音声入力を処理するための音声サービスを識別するステップと、ネットワークインタフェースを介して、前記識別された音声サービスに前記音声入力を処理させるステップとを含む、方法。

（特徴２）前記音声入力を処理するための音声サービスを識別するステップは、受信した前記音声データの一部が特定の音声サービスに対応する特定のウェイクワードを表していると決定するステップと、前記音声入力を処理するための音声サービスとして、前記特定のウェイクワードに対応する前記特定の音声サービスを識別するステップであって、前記メディア再生システムに登録されている複数の音声サービスのそれぞれは、それぞれのウェイクワードに対応している、ステップとを含む、特徴１に記載の方法。

（特徴３）前記受信した音声データの一部が特定の音声サービスに対応する特定のウェイクワードを表していると決定するステップは、前記複数の音声サービスのそれぞれの音声サービスに対応するウェイクワード検出アルゴリズムに対して、前記受信した音声データを用いてクエリを実行するステップと、前記受信した音声データの一部が前記特定の音声サービスに対応する特定のウェイクワードを表していることを、前記特定の音声サービスのウェイクワード検出アルゴリズムが検出したと決定するステップとを含む、特徴２に記載の方法。

（特徴４）前記音声入力を処理するための音声サービスを識別するステップは、前記受信した音声データが、前記メディア再生システムに登録されている前記複数の音声サービスのうちの、所定の音声サービスに対応する任意のウェイクワードを含んでいないと決定するステップと、前記決定に基づいて、前記音声入力を処理するための音声サービスとして、前記複数の音声サービスの中からデフォルトの音声サービスを識別するステップとを含む、特徴１に記載の方法。

（特徴５）前記音声入力を処理するための音声サービスを識別するステップは、（ｉ）以前の音声入力が特定の音声サービスによって処理されたこと、および（ｉｉ）前記音声入力が、前記以前の音声入力受信後の閾値時間内に受信されていることを決定するステップと、前記決定に基づいて、前記音声入力を処理するための音声サービスとして、前記以前の音声入力を処理した前記特定の音声サービスを識別するステップとを含む、特徴１に記載の方法。

（特徴６）前記音声入力を処理するための音声サービスを識別するステップは、（ｉ）以前の音声入力が特定の音声サービスによって処理されたこと、および（ｉｉ）前記音声入力が前記以前の音声入力と同じ種類の動作を対象としていることを決定するステップと、前記決定に基づいて、前記音声入力を処理するための音声サービスとして、前記以前の音声入力を処理した前記特定の音声サービスを識別するステップとを含む、特徴１に記載の方法。

（特徴７）前記音声入力を処理するための音声サービスを識別するステップは、前記音声入力がメディア再生コマンドを含んでいると決定するステップと、前記決定に基づいて、前記音声入力を処理するための音声サービスとして、メディア再生コマンドを処理するように構成されている特定の音声サービスを識別するステップとを含む、特徴１に記載の方法。

（特徴８）前記音声入力を処理するための音声サービスを識別するステップは、前記音声入力が無線照明デバイスを対象としていると決定するステップと、前記決定に基づいて、前記音声入力を処理するための音声サービスとして、無線照明デバイスを対象とした音声入力を処理するように構成されている特定の音声サービスを識別するステップとを含む、特徴１に記載の方法。

（特徴９）前記音声入力を処理するための音声サービスを識別するステップは、前記受信した音声データの一部が、任意の特定の音声サービスに対応していない一般的ウェイクワードを表していると決定するステップと、前記決定に基づいて、前記音声入力を処理するための音声サービスとして、前記複数の音声サービスの中からデフォルトの音声サービスを識別するステップとを含む、特徴１に記載の方法。

（特徴１０）前記メディア再生システムは複数のゾーンを含み、前記音声入力を処理するための音声サービスを識別するステップは、前記音声入力が、前記複数のゾーンのうちの特定のゾーンを対象としていると決定するステップと、前記決定に基づいて、前記音声入力を処理するための音声サービスとして、前記メディア再生システムの前記特定のゾーンを対象とした音声入力を処理するように構成されている、特定の音声サービスを識別するステップとを含む、特徴１に記載の方法。

（特徴１１）前記音声入力を処理するための音声サービスを識別するステップは、前記受信した音声データの一部が第１音声サービスに対応する特定のウェイクワードを表していると決定するステップと、前記音声入力を処理するにあたり、前記第１音声サービスが現在利用できないと決定するステップと、前記音声入力を処理するための音声サービスとして、前記第１音声サービスとは異なる第２音声サービスを識別するステップとを含む、特徴１に記載の方法。

（特徴１２）前記音声入力は、ウェイクワードを表す第１部分と音声コマンドを表す第２部分とを含み、前記識別された音声サービスに前記音声入力を処理させるステップは、ネットワークインタフェースを介して、前記識別された音声サービスの１つ又は複数のサーバに対して、（ｉ）前記音声入力において少なくとも前記第２部分を示すデータ、および（ｉｉ）前記音声コマンドを示すデータの処理を命じるコマンドを送信するステップを含む、特徴１に記載の方法。

（特徴１３）１つ又は複数のプロセッサによって実行されて特徴１から１２のいずれか一項に記載の方法を実行させる命令を記憶している、有形の非一時的なコンピュータ読取り可能媒体。

（特徴１４）特徴１から１２のいずれか一項に記載の方法を実行するように構成された、デバイス。

（特徴１５）特徴１から１２のいずれか一項に記載の方法を実行するように構成された、メディア再生システム。

（特徴１６）
ネットワーク化されたマイクロフォンデバイスは、（ｉ）マイクロフォンと、（ｉｉ）ネットワークインタフェースと、（ｉｉｉ）１つ又は複数のプロセッサと、（ｉｖ）１つ又は複数のプロセッサによって実行されると、ネットワーク化されたマイクロフォンデバイスにある方法を実行させるように動作可能な命令を記憶した有形非一時的コンピュータ可読媒体とを備え、当該方法は、（ａ）マイクロフォンを介して、音声入力を示す音声データを受信するステップ、（ｂ）メディア再生システムに登録されている複数の音声サービスの中から、音声入力を処理するための音声サービスを識別するステップ、（ｃ）ネットワークインタフェースを介して、識別された音声サービスに音声入力を処理させるステップ、を含む。

（特徴１７）
音声竜力を処理するための音声サービスを識別するステップは、（ｉ）受信した音声データの一部が特定の音声サービスに対応する特定のウェイクワードを表すものであることを決定するステップ、（ｉｉ）当該特定のウェイクワードに対応する特定の音声サービスを、音声入力を処理するための音声サービスとして識別するステップ、ここで、メディア再生システムに登録されている複数の音声サービスの各々は各ウェイクワードに対応する、を含む、特徴１６に記載のマイクロフォンデバイス。

（特徴１８）
受信した音声データの一部が特定の音声サービスに対応する特定のウェイクワードを表すものであることを決定するステップは、（ｉ）受信した音声データを用いて、複数の音声サービスの各々に対応するウェイクワード検知アルゴリズムに問合せするステップ、（ｉｉ）特定の音声サービスのウェイクワード検知アルゴリズムが、受信した音声データの一部が当該特定の音声サービスに対応する特定のウェイクワードを表すものであることを検知したことを決定するステップ、を含む、特徴１７に記載のマイクロフォンデバイス。

（特徴１９）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）受信した音声データが、メディア再生システムに登録されている複数の音声サービスのうちの所定の音声サービスに対応する任意のウェイクワードを除外していることを決定するステップ、（ｉｉ）当該決定に基づいて、複数の音声サービスのうちのデフォルトの音声サービスを、音声入力を処理するための音声サービスとして識別するステップを含む、特徴１６に記載のマイクロフォンデバイス。

（特徴２０）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）（ａ）前の音声入力が特定の音声サービスによって処理されたこと、（ｂ）前の音声入力が受信されてから閾値期間内に次の音声入力が受信されたこと、を決定するステップ、（ｉｉ）当該決定に基づいて、当該特定の音声サービスを次の音声入力を処理するための音声サービスとして識別するステップを含む、特徴１６に記載のマイクロフォンデバイス。

（特徴２１）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）（ａ）前の音声入力が特定の音声サービスによって処理されたこと、（ｂ）次の音声入力が前の音声入力と同じ種類の動作を対象としていること、を決定するステップ、（ｉｉ）当該決定に基づいて、当該特定の音声サービスを次の音声入力を処理するための音声サービスとして識別するステップを含む、特徴１６に記載のマイクロフォンデバイス。

（特徴２２）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）音声入力がメディア再生コマンドを含むことを決定するステップ、（ｉｉ）当該決定に基づいて、メディア再生コマンドを処理するように構成された特定の音声サービスを、当該音声入力を処理するための音声サービスとして識別するステップ、を含む、特徴１６に記載のマイクロフォンデバイス。

（特徴２３）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）音声入力が無線照明デバイスを対象としていると決定するステップ、（ｉｉ）当該決定に基づいて、無線照明デバイスを対象とした音声入力を処理するように構成された特定の音声サービスを、音声入力を処理するための音声サービスとして識別するステップ、を含む、特徴１６に記載のマイクロフォンデバイス。

（特徴２４）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）受信した音声データの一部が任意の音声サービスに対応しない一般的なウェイクワードを表すものであることを決定するステップ、（ｉｉ）当該決定に基づいて、複数の音声サービスのうちのデフォルトの音声サービスを、音声入力を処理するための音声サービスとして識別するステップ、を含む、特徴１６に記載のマイクロフォンデバイス。

（特徴２５）
メディア再生システムは複数のゾーンを含み、音声入力を処理するための音声サービスを識別するステップは、（ｉ）音声入力が複数のゾーンのうちの特定のゾーンを対象としていることを決定するステップ、（ｉｉ）当該決定に基づいて、当該特定のゾーンを対象とした音声入力を処理するように構成された特定の音声サービスを、音声入力を処理する音声サービスとして識別するステップ、を含む、特徴１６に記載のマイクロフォンデバイス。

（特徴２６）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）受信した音声データが第１の音声サービスに対応する特定のウェイクワードを表すことを決定するステップ、（ｉｉ）第１の音声サービスが音声入力の処理のために現在利用可能でないことを決定するステップ、（ｉｉｉ）第１の音声サービスとは異なる第２の音声サービスを、音声入力を処理するための音声サービスとして識別するステップ、を含む、特徴１６に記載のマイクロフォンデバイス。

（特徴２７）
音声入力は、ウェイクワードを表す第１の部分と、音声コマンドを表す第２の部分とを含み、識別された音声サービスに音声入力を処理させるステップは、識別された音声サービスの１つ又は複数のサーバに対して、ネットワークインタフェースを介して、（ｉ）音声入力の少なくとも第２の部分を表すデータと、（ｉｉ）当該データの処理を命じるコマンドとを送信するステップを含む、特徴１６に記載のマイクロフォンデバイス。

（特徴２８）
有形非一時的コンピュータ可読媒体は、１つ又は複数のプロセッサによって実行されると、ネットワーク化されたマイクロフォンデバイスにある方法を実行させるように動作可能な命令を記憶したており、当該方法は、（ｉ）マイクロフォンを介して、音声入力を示す音声データを受信するステップ、（ｉｉ）メディア再生システムに登録されている複数の音声サービスの中から、音声入力を処理するための音声サービスを識別するステップ、（ｉｉｉ）ネットワークインタフェースを介して、識別された音声サービスに音声入力を処理させるステップ、を含む。

（特徴２９）
音声竜力を処理するための音声サービスを識別するステップは、（ｉ）受信した音声データの一部が特定の音声サービスに対応する特定のウェイクワードを表すことを決定するステップ、（ｉｉ）当該特定のウェイクワードに対応する特定の音声サービスを、音声入力を処理するための音声サービスとして識別するステップ、ここで、メディア再生システムに登録されている複数の音声サービスの各々は各ウェイクワードに対応する、を含む、特徴２８に記載の有形非一時的コンピュータ可読媒体。

（特徴３０）
受信した音声データの一部が特定の音声サービスに対応する特定のウェイクワードを表すものであることを決定するステップは、（ｉ）受信した音声データを用いて、複数の音声サービスの各々に対応するウェイクワード検知アルゴリズムに問合せするステップ、（ｉｉ）特定の音声サービスのウェイクワード検知アルゴリズムが、受信した音声データの一部が当該特定の音声サービスに対応する特定のウェイクワードを表すものであることを検知したことを決定するステップ、を含む、特徴２９に記載の有形非一時的コンピュータ可読媒体。

（特徴３１）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）受信した音声データが、メディア再生システムに登録されている複数の音声サービスのうちの所定の音声サービスに対応する任意のウェイクワードを除外していることを決定するステップ、（ｉｉ）当該決定に基づいて、複数の音声サービスのうちのデフォルトの音声サービスを、音声入力を処理するための音声サービスとして識別するステップを含む、特徴２８に記載の有形非一時的コンピュータ可読媒体。

（特徴３２）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）（ａ）前の音声入力が特定の音声サービスによって処理されたこと、（ｂ）前の音声入力が受信されてから閾値期間内に次の音声入力が受信されたこと、を決定するステップ、（ｉｉ）当該決定に基づいて、当該特定の音声サービスを次の音声入力を処理するための音声サービスとして識別するステップを含む、特徴２８に記載の有形非一時的コンピュータ可読媒体。

（特徴３３）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）（ａ）前の音声入力が特定の音声サービスによって処理されたこと、（ｂ）次の音声入力が前の音声入力と同じ種類の動作を対象としていること、を決定するステップ、（ｉｉ）当該決定に基づいて、当該特定の音声サービスを次の音声入力を処理するための音声サービスとして識別するステップを含む、特徴２８に記載の有形非一時的コンピュータ可読媒体。

（特徴３４）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）音声入力がメディア再生コマンドを含むことを決定するステップ、（ｉｉ）当該決定に基づいて、メディア再生コマンドを処理するように構成された特定の音声サービスを、当該音声入力を処理するための音声サービスとして識別するステップ、を含む、特徴２８に記載の有形非一時的コンピュータ可読媒体。

（特徴３５）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）受信した音声データの一部が任意の音声サービスに対応しない一般的なウェイクワードを表すものであることを決定するステップ、（ｉｉ）当該決定に基づいて、複数の音声サービスのうちのデフォルトの音声サービスを、音声入力を処理するための音声サービスとして識別するステップ、を含む、特徴２８に記載の有形非一時的コンピュータ可読媒体。

（特徴３６）
メディア再生システムは複数のゾーンを含み、音声入力を処理するための音声サービスを識別するステップは、（ｉ）音声入力が複数のゾーンのうちの特定のゾーンを対象としていることを決定するステップ、（ｉｉ）当該決定に基づいて、当該特定のゾーンを対象とした音声入力を処理するように構成された特定の音声サービスを、音声入力を処理する音声サービスとして識別するステップ、を含む、特徴２８に記載の有形非一時的コンピュータ可読媒体。

（特徴３７）
音声入力を処理するための音声サービスを識別するステップは、（ｉ）受信した音声データが第１の音声サービスに対応する特定のウェイクワードを表すことを決定するステップ、（ｉｉ）第１の音声サービスが音声入力の処理のために現在利用可能でないことを決定するステップ、（ｉｉｉ）第１の音声サービスとは異なる第２の音声サービスを、音声入力を処理するための音声サービスとして識別するステップ、を含む、特徴２８に記載の有形非一時的コンピュータ可読媒体。

（特徴３８）
音声入力は、ウェイクワードを表す第１の部分と、音声コマンドを表す第２の部分とを含み、識別された音声サービスに音声入力を処理させるステップは、識別された音声サービスの１つ又は複数のサーバに対して、ネットワークインタフェースを介して、（ｉ）音声入力の少なくとも第２の部分を表すデータと、（ｉｉ）当該データの処理を命じるコマンドとを送信するステップを含む、特徴２８に記載の有形非一時的コンピュータ可読媒体。

（特徴３９）
（ｉ）ネットワーク化されたマイクロフォンデバイスのマイクロフォンを介して、音声入力を示す音声データを受信するステップ、（ｉｉ）受信した音声データの一部が、メディア再生システムに登録されている複数の音声サービスのうちの特定の音声サービスに対応する特定のウェイクワードを表すことを決定するステップ、ここで、メディア再生システムに登録されている複数の音声サービスの各々は各ウェイクワードに対応するものである、（ｉｉｉ）ネットワーク化されたマイクロフォンデバイスのネットワークインタフェースを介して、特定の音声サービスに音声入力を処理させるステップ、ここで、特定の音声サービスに音声入力を処理させるステップは、マイクロフォンデバイスのネットワークインタフェースを介して、音声入力を示すデータを特定の音声サービスの１つ又は複数のサーバに送信するステップを含む、方法。

さらに、本明細書での「実施形態」への言及は、その実施形態に関連して記載される特定の特徴、構造、又は特性が、本発明の少なくとも１つの例示的な実施形態に含まれ得ることを意味する。明細書における様々な部分でのこのフレーズの使用は、同じ実施形態を必ずしも言及しておらず、また、他の実施形態と互いに排他的な別個の又は代替的な実施形態でもない。このように、本明細書に記載の実施形態を他の実施形態と組み合わせてもよいことが、明示的および暗示的に当業者によって理解される。

本明細書は、例示的な環境、システム、手順、ステップ、論理ブロック、処理、および他のシンボル表現に関して広く示されており、それらは直接又は間接的にネットワークに接続されるデータ処理デバイスの動作に類似するものである。これらの処理説明および表現は、一般的に当業者によって使用され、それらの仕事の内容を他の当業者に最も効率良く伝えることができる。多くの具体的な内容が、本開示を理解するために提供されている。しかしながら、当業者にとって、本開示の特定の実施形態が特定の、具体的な詳細なしに実施され得ることは理解される。他の例では、周知の方法、手順、コンポーネント、および回路が、実施形態を不必要に曖昧にすることを避けるため、詳細に説明していない。したがって、本開示の範囲は、上記した実施形態よりむしろ添付された特許請求の範囲によって定義される。

添付の特許請求の範囲のいずれかが単にソフトウェアおよび／又はファームウェアへの実装をカバーするように読み取ると、少なくとも１つの例における要素の１つ又は複数は、本明細書では、ソフトウェアおよび／又はファームウェアを記憶する有形の非一時的な記憶媒体、例えば、メモリ、ＤＶＤ、ＣＤ、Ｂｌｕ−ｒａｙ（登録商標）等を含むことが明確に定められている。

Claims

ネットワークインタフェースと、少なくとも１つのマイクと、１つ又は複数のスピーカを駆動するように構成された１つ又は複数のアンプとを備える再生デバイスのための方法であって、
少なくとも１つのマイクを介して、１つ又は複数のバッファの中にオーディオを継続的にキャプチャするステップ、
第１、第２のウェイクワード検出アルゴリズムを用いて、キャプチャしたオーディオを解析するステップ、ここで、第１、第２のウェイクワード検出アルゴリズムは、第１、第２のウェイクワードにそれぞれ関連付けられた第１、第２の音声サービスにそれぞれ対応するものである、
第１のウェイクワード検出アルゴリズムを介して、キャプチャしたオーディオの中に第１のウェイクワードを検出するステップ、
第１の音声サービスがキャプチャしたオーディオの処理に利用でないことを決定するステップ、
上記決定に応じて、キャプチャしたオーディオの処理を行う代替の音声サービスを特定するステップ、
特定した代替の音声サービスに関連付けられた１つ又は複数のサーバへ、キャプチャしたオーディオを送信するステップ、
キャプチャしたオーディオを送信した後に、ネットワークインタフェースを介して、少なくとも１つの命令を受信するステップ、ここで、少なくとも１つの命令は、キャプチャしたオーディオ内の音声入力に基づくものである、
少なくとも１つの命令に基づいて、１つ又は複数のアクションを実行するステップ、
を含む、方法。
１つ又は複数のアクションは、１つ又は複数のスピーカを駆動するように構成された１つ又は複数のアンプを介して、少なくとも１つの命令に基づいてオーディオを出力するステップを含む、請求項１に記載の方法。
１つ又は複数のアクションは、１つ又は複数のスピーカを駆動するように構成された１つ又は複数のアンプを介して、受信したオーディオを再生するステップを含む、請求項１又は２に記載の方法。
少なくとも１つの命令は、少なくとも１つのオーディオトラックを再生する命令を含み、１つ又は複数のアクションは、１つ又は複数のスピーカを駆動するように構成された１つ又は複数のアンプを介して、少なくとも１つのオーディオトラックを受信および再生するステップを含む、請求項１から３のいずれか１つに記載の方法。
１つ又は複数のアクションは、再生デバイスを備えるメディア再生システムの少なくとも１つの再生設定を修正するステップを含む、請求項１から４のいずれか１つに記載の方法。
オーディオを継続的にキャプチャするステップの前に、
再生デバイスを第１の音声サービスに登録するステップ、
その後、コンピューティングデバイスから、再生デバイスを第２の音声サービスに登録する命令を受信するステップ、
その後、第１、第２の音声サービスに同時に登録された状態となるように、再生デバイスを第２の音声サービスに登録するステップ、
を含む、請求項１から５のいずれか１つに記載の方法。
コンピューティングデバイスから、再生デバイスを第２の音声サービスに登録する命令を受信するステップは、第２の音声サービスに関連付けられたリモートのコンピューティングデバイスから当該命令を受信するステップを含む、請求項６に記載の方法。
少なくとも１つのマイクを介して、１つ又は複数のバッファの中にオーディオをさらにキャプチャするステップ、
第１、第２のウェイクワード検出アルゴリズムを用いて、さらにキャプチャしたオーディオを解析するステップ、
第２のウェイクワード検出アルゴリズムを介して、さらにキャプチャしたオーディオデータの中に第２のウェイクワードを検出するステップ、
をさらに含む、請求項１から７のいずれか１つに記載の方法。
第２のウェイクワードを検出した後に、第２の音声サービスに関連付けられた１つ又は複数のサーバに、さらにキャプチャしたオーディオを送信するステップ、
をさらに含む、請求項８に記載の方法。
さらにキャプチャしたオーディオを送信した後に、ネットワークインタフェースを介して、第２の音声サービスから、さらにキャプチャしたオーディオに基づく少なくとも１つの命令を受信するステップ、
その後、当該命令に基づく１つ又は複数のアクションを実行するステップ、
をさらに含む、請求項９に記載の方法。
さらにキャプチャしたオーディオはクエリを含み、
受信した少なくとも１つの命令は、クエリの結果に対応するデータを含み、
１つ又は複数のアクションは、１つ又は複数のスピーカを駆動するように構成された１つ又は複数のアンプを介して、当該データに基づいてオーディオを再生するステップを含む、請求項１０に記載の方法。
さらにキャプチャしたオーディオは、特定のオーディオを再生する音声コマンドを含み、
受信した少なくとも１つの命令は、少なくとも１つのオーディオトラックを再生する命令を含み、
１つ又は複数のアクションは、１つ又は複数のスピーカを駆動するように構成された１つ又は複数のアンプを介して、当該オーディオトラックを再生するステップを含む、請求項１０に記載の方法。
第１の音声サービスをデフォルトの音声サービスに割り当てるステップ、
をさらに含む、請求項１から１２のいずれか１つに記載の方法。
少なくとも１つのマイクを介して、１つ又は複数のバッファの中にオーディオをさらにキャプチャするステップ、
第１、第２のウェイクワード検出アルゴリズムを用いて、さらにキャプチャしたオーディオを解析するステップ、
第１のウェイクワード検出アルゴリズムを介して、さらにキャプチャしたオーディオの中に第１のウェイクワードを検出するステップ、
第１の音声サービスが、さらにキャプチャしたオーディオの処理に利用可能でないか否かを決定するステップ、
第１の音声サービスが、さらにキャプチャしたオーディオの処理に利用可能であるとの決定に応じて、第１の音声サービスに関連する１つ又は複数のサーバへさらにキャプチャしたオーディオを送信するステップ、
をさらに含む、請求項１から１３のいずれか１つに記載の方法。
少なくとも１つのマイクを介して、１つ又は複数のバッファの中にオーディオをさらにキャプチャするステップ、
第１、第２のウェイクワード検出アルゴリズムを用いて、さらにキャプチャしたオーディオを解析するステップ、
第２のウェイクワード検出アルゴリズムを介して、さらにキャプチャしたオーディオの中に第２のウェイクワードを検出するステップ、
第２の音声サービスが、さらにキャプチャしたオーディオの処理に利用可能でないことを決定するステップ、
当該決定に応じて、第１の音声サービスに関連付けられた１つ又は複数のサーバに、さらにキャプチャしたオーディオを送信するステップ、
その後、第１の音声サービスの１つ又は複数のサーバから、ネットワークインタフェースを介して、さらにキャプチャしたオーディオに基づく少なくとも１つの命令を受信するステップ、
その後、第１の音声サービスからの少なくとも１つの命令に基づく１つ又は複数のアクションを実行するステップ、
をさらに含む、請求項１から１４のいずれか１つに記載の方法。
１つ又は複数のプロセッサによって実行されたときに、請求項１から１５のいずれか１つに記載の方法を再生デバイスに実行させる命令を記憶した不揮発性コンピュータ読み取り可能記録媒体であって、再生デバイスは、ネットワークインタフェースと、少なくとも１つのマイクと、１つ又は複数のスピーカを駆動するように構成された１つ又は複数のアンプとを備える、不揮発性コンピュータ読み取り可能記録媒体。
１つ又は複数のスピーカを駆動するように構成された１つ又は複数のアンプと、
少なくとも１つのマイクと、
ネットワークインタフェースと、
１つ又は複数のプロセッサと、
１つ又は複数のプロセッサによって実行されたときに、請求項１から１５のいずれか１つに記載の方法を再生デバイスに実行させる命令を記憶したデータストレージと、
を備える、再生デバイス。