JP7026078B2

JP7026078B2 - メディア再生システムの音声制御

Info

Publication number: JP7026078B2
Application number: JP2019073349A
Authority: JP
Inventors: サイモン・ジャービス; ニコラス・エイ・ジェイ・ミリントン; キース・コービン; マーク・プラッグ; ロミ・カドリ; クリストファー・バッツ; イェアン－ニアン・ウィリー・チェン
Original assignee: ソノズインコーポレイテッド
Priority date: 2016-02-22
Filing date: 2019-04-08
Publication date: 2022-02-25
Anticipated expiration: 2037-02-21
Also published as: US11006214B2; AU2017223395A1; KR102343902B1; EP3420736A4; AU2019236722A1; US10499146B2; JP2022008837A; US20210120334A1; EP3974957A1; JP2023134786A; EP3420737A4; AU2023203239B2; US20240244368A1; EP4258690A3; US20170245050A1; US20170245051A1; AU2023201078A1; US20190045299A1; KR20220103824A; US12047752B2

Description

関連出願の相互参照

本出願は、特許協力条約第８条の下に（ｉ）「メディア再生システムの音声制御（ＶｏｉｃｅＣｏｎｔｒｏｌｏｆａＭｅｄｉａＰｌａｙｂａｃｋＳｙｓｔｅｍ）」と題する２０１６年７月２９日に出願された米国非仮特許出願第１５／２２３，２１８号明細書、（ｉｉ）「音楽配信サービスの選択（ＭｕｓｉｃＳｅｒｖｉｃｅＳｅｌｅｃｔｉｏｎ）」と題する２０１６年４月１４日に出願された米国非仮特許出願第１５／０９８，７１８号明細書、（ｉｉｉ）「音声検出の部屋補正（Ｒｏｏｍ－ＣｏｒｒｅｃｔｅｄＶｏｉｃｅＤｅｔｅｃｔｉｏｎ）」と題する２０１６年４月１４日に出願された米国非仮特許出願第１５／０９８，８０５号明細書、（ｉｖ）「ユーザＩＤに基づくアクション（ＡｃｔｉｏｎｂａｓｅｄｏｎＵｓｅｒＩＤ）」と題する２０１６年４月１８日に出願された米国非仮特許出願第１５／１３１，７７６号明細書、（ｖ）「メディア再生システムの音声制御（ＶｏｉｃｅＣｏｎｔｒｏｌｏｆａＭｅｄｉａＰｌａｙｂａｃｋＳｙｓｔｅｍ）」と題する２０１６年３月２３日に出願された米国仮特許出願第６２／３１２，３５０号明細書、（ｖｉ）「オーディオ応答の再生（ＡｕｄｉｏＲｅｓｐｏｎｓｅＰｌａｙｂａｃｋ）」と題する２０１６年２月２２日に出願された米国仮特許出願第６２／２９８，４１８号明細書、（ｖｉｉ）「音楽配信サービスの選択（ＭｕｓｉｃＳｅｒｖｉｃｅＳｅｌｅｃｔｉｏｎ）」と題する２０１６年２月２２日に出願された米国仮特許出願第６２／２９８，４２５号明細書、（ｖｉｉ）「ネットワーク再生システム及びネットワークマイクロホンシステムを含むメタデータ交換（ＭｅｔａｄａｔａＥｘｃｈａｎｇｅＩｎｖｏｌｖｉｎｇａＮｅｔｗｏｒｋｅｄＰｌａｙｂａｃｋＳｙｓｔｅｍａｎｄａＮｅｔｗｏｒｋｅｄＭｉｃｒｏｐｈｏｎｅＳｙｓｔｅｍ）」と題する２０１６年２月２２日に出願された米国仮特許出願第６２／２９８，３５０号明細書、（ｖｉｉｉ）「ネットワークデバイス間のペアリングロスの処理（ＨａｎｄｌｉｎｇｏｆＬｏｓｓｏｆＰａｉｒｉｎｇＢｅｔｗｅｅｎＮｅｔｗｏｒｋｅｄＤｅｖｉｃｅｓ）」と題する２０１６年２月２２日に出願された米国仮特許出願第６２／２９８，３８８号明細書、（ｉｘ）「デフォルト再生デバイス（ＤｅｆａｕｌｔＰｌａｙｂａｃｋＤｅｖｉｃｅ（ｓ））」と題する２０１６年２月２２日に出願された米国仮特許出願第６２／２９８，４１０号明細書、（ｘ）「音声検出の部屋補正（Ｒｏｏｍ－ＣｏｒｒｅｃｔｅｄＶｏｉｃｅＤｅｔｅｃｔｉｏｎ）」と題する２０１６年２月２２日に出願された米国仮特許出願第６２／２９８，４３３号明細書、（ｘｉ）「コンテンツの混合（ＣｏｎｔｅｎｔＭｉｘｉｎｇ）」とする２０１６年２月２２日に出願された米国仮特許出願第６２／２９８，４３９号明細書、及び（ｘｉｉ）「ユーザＩＤに基づくアクション（ＡｃｔｉｏｎｂａｓｅｄｏｎＵｓｅｒＩＤ）」と題する２０１６年２月２２日に出願された米国仮特許出願第６２／２９８，３９３号明細書に対する優先権の利益を主張するものである。これらの各出願の内容は、その全体を参照によって本明細書に引用するものとする。

本願は、コンシューマ製品に関するものであり、特に、メディア再生に向けられた方法、システム、製品、機能、サービス、および他の要素に関するものや、それらのいくつかの態様に関する。

２００３年に、ソノズ・インコーポレイテッドが最初の特許出願のうちの１つである「複数のネットワークデバイス間のオーディオ再生を同期する方法」と題する特許出願をし、２００５年にメディア再生システムの販売を開始するまで、アウトラウド設定におけるデジタルオーディオへのアクセスおよび試聴のオプションは制限されていた。人々は、ソノズ無線ＨｉＦｉシステムによって、１つ又は複数のネットワーク再生デバイスを介して多数のソースから音楽を体験できるようになっている。スマートフォン、タブレット、又はコンピュータにインストールされたソフトウェアコントロールアプリケーションを通じて、ネットワーク再生デバイスを備えたいずれの部屋においても、人々は自分が望む音楽を再生することができる。また、例えばコントローラを用いて、再生デバイスを備えた各部屋に異なる歌をストリーミングすることもできるし、同期再生のために複数の部屋をグループ化することもできるし、全ての部屋において同期して同じ歌を聞くこともできる。

これまでのデジタルメディアに対する関心の高まりを考えると、試聴体験を更に向上させることができるコンシューマアクセス可能な技術を更に開発することにニーズがある。

本明細書で開示されている技術の特徴、態様、および利点は、以下の記載、添付の特許請求の範囲、および添付の図面を参照するとより理解しやすい。

ある実施形態で実施可能な例示的なメデイア再生システムの構成を示す図である。本明細書に記載の態様に係る例示的な再生デバイスの機能ブロック図である。本明細書に記載の態様に係る例示的な制御デバイスの機能ブロック図である。本明細書に記載の態様に係る例示的なコントローラインタフェースを示す図である。本明細書に記載の態様に係る例示的な複数のネットワークデバイスを示す図である。本明細書に記載の態様に係る例示的なネットワークマイクロホンデバイスの機能ブロック図である。ネットワークマイクロホンデバイスに周辺環境の音響特性を提供することに関連した例示的なフロー図である。ネットワークマイクロホンデバイスに周辺環境の音響特性を提供することに関連した、別の例示的なフロー図である。ネットワークマイクロホンデバイスによって受信された音声入力を解釈することに関連した例示的なフロー図である。周辺環境の音響特性を決定することに関連した例示的なフロー図である。再生デバイスによって再生されるオーディオコンテンツに指向性を付与することに関連した別の例示的なフロー図である。本明細書に記載の態様に係る音楽制御の例示的な方法のフロー図である。本明細書に記載の態様に係る構成プロセスの例示的なユーザインタフェースを示す図である。本明細書に記載の態様に係る構成プロセスの例示的なユーザインタフェースを示す図である。本明細書に記載の態様に係る構成プロセスの例示的なユーザインタフェースを示す図である。本明細書に記載の態様に係る構成プロセスの例示的なユーザインタフェースを示す図である。いくつかの実施形態に係る例示的な方法を示す図である。いくつかの実施形態に係る別の例示的な方法を示す図である。ネットワークマイクロホンデバイスを介して音楽ストリーミングサービスを識別することに関連した例示的なフロー図である。ネットワークマイクロホンデバイスを介して音楽ストリーミングサービスを識別することに関連した別の例示的なフロー図である。

図面は、いくつかの例示的な実施形態を説明することを目的としているが、本発明が、図面に示した配置および手段に限定されるものではないことは理解される。

Ｉ．概要
一般に、音声コマンドは、本明細書で述べているメディア再生システム制御のうちのいずれかの制御を命じるコマンドであってもよい。たとえば、音声コマンドはメディア再生システムに、メディア再生システムにおける１又は複数の再生デバイスを介したメディアコンテンツの再生を命じるコマンドであってもよい。別の実施例では、音声コマンドは、メディア再生システムにおける１又は複数のメディア再生デバイスの再生設定変更を命じるコマンドであってもよい。再生設定には、たとえば再生音量、再生トランスポートの制御、音楽ソースの選択、及びグループ化などが主として含まれ得る。

１つの態様では、本明細書に記載の例は、ネットワークマイクロホンデバイス（ＮＭＤ）が動作する周辺環境の音響特性をＮＭＤに提供することに関する。ＮＭＤは、ＮＭＤによって受信される音声コマンドを解釈する際に周辺環境の音響特性を使用してもよい。

ＮＭＤは、マイクロホンアレイを介してたとえばスピーチなどの音声入力を受信し、且つ音声入力に基づいて機能を実行するデバイスであってもよい。たとえば、ＮＭＤは音声コマンドを受信し、且つその受信した音声コマンドを解釈してもよい。次いで、ＮＭＤは、音声コマンドに基づいて機能を実行してもよい。ＮＭＤは、具体的には「ストリーミングサービス１」から「アーティスト１」による「トラック１」の「再生」を命じる音声コマンドを受信し、その音声入力がオーディオコンテンツの再生を命じるコマンドであると判定し、次いで「ストリーミングサービス１」から「アーティスト１」によるオーディオの要求された「トラック１」を再生するように促してもよい。他の構成も可能である。

ＮＭＤが動作する周辺環境は特定の音響特性を有する可能性がある。この音響特性により、その周辺環境内で音声がどのように伝わるかが定義される。周辺環境の音響特性を様々な方法で決定してもよい。１つの例として、スピーカ及びマイクロホンを備える再生デバイスはスピーカを介してテストトーンを出力し、マイクロホンを介してそのテストトーンを受信し、且つ受信したテストトーンを解析してその周辺環境の音響特性を決定してもよい。別の例では、別のネットワークデバイス（制御デバイス、第１の再生デバイス、又はＮＭＤ自体でさえ）が、第２の再生デバイスのスピーカからテストトーンを受信し、且つ受信したテストトーンを解析して、その周辺環境の音響特性を決定するマイクロホンを備えていてもよい。このテストトーンは異なる周波数のオーディオ音であってもよい。これらの音響特性を、再生デバイス又は通信ネットワーク内のコンピューティングデバイスにおいて、オーディオコンテンツ再生時に再生デバイスが使用する目的で格納してもよい。

いくつかの例では、部屋の大きさ、部屋の天井の高さ、部屋にある家具などの周辺環境に関する既知の特性に基づいて、音響特性を推定してもよい。異なる特徴を有する部屋の音響特性をデータベースに格納してもよい。データベースに格納される音響特性を、特定の特徴を有する部屋の以前の解析に基づいて決定していてもよい。ユーザは部屋の特徴を入力してもよく、またデータベースはその周辺環境の音響特性を出力してもよい。また、再生デバイスによる使用のために、再生デバイス自体、又はデータベース内にもこの音響特性を格納してもよい。

また、「再生デバイスのキャリブレーション（ＰｌａｙｂａｃｋＤｅｖｉｃｅＣａｌｉｂｒａｔｉｏｎ）」と題する米国非仮特許出願第１４／４８１，５１１号明細書、「周辺環境に基づくオーディオ設定（ＡｕｄｉｏＳｅｔｔｉｎｇｓＢａｓｅｄｏｎＥｎｖｉｒｏｎｍｅｎｔ）」と題する米国非仮特許出願第１４／２１６，３０６号明細書、「移動マイクロホンを用いた空間平均化ルームオーディオキャリブレーションのためのハイブリッドテストトーン（ＨｙｂｒｉｄＴｅｓｔＴｏｎｅｆｏｒＳｐａｃｅ－ＡｖｅｒａｇｅｄＲｏｏｍＡｕｄｉｏＣａｌｉｂｒａｔｉｏｎＵｓｉｎｇａＭｏｖｉｎｇＭｉｃｒｏｐｈｏｎｅ）」と題する米国非仮特許出願第１４／８０５，１４０号明細書、「メディアシステムにおけるマルチチャネルペアリング（Ｍｕｌｔｉ－ＣｈａｎｎｅｌＰａｉｒｉｎｇｉｎＭｅｄｉａＳｙｓｔｅｍ）」と題する米国非仮特許出願第１４／８２５，９６１号明細書、及び「デバイスの再生キャリブレーションのためのシステム及び方法（ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＤｅｖｉｃｅＰｌａｙｂａｃｋＣａｌｉｂｒａｔｉｏｎ」と題する米国特許第９，１０６，１９２号明細書において、再生デバイスのキャリブレーションに関する様々な例が記載されており、それらの内容は、その全体を参照によって本明細書にそれぞれ引用するものとする。

ＮＭＤは、通常マイクロホン応答を介して音声入力を処理することができる。マイクロホン応答は、周波数に対するマイクロホンの感度の指標である。いくつかの実施形態では、ＮＭＤはまた、周辺環境の音響特性を使用して音声入力を処理し、音声入力の歪みを補正してもよい。このようにして、音声入力をより良好に解釈することができる。

再生デバイスは周辺環境の音響特性をＮＭＤに提供してもよい。メディア再生システムは複数の再生デバイスを有していてもよいので、音響特性を提供する再生デバイスはＮＭＤの直近にあるデバイスであってもよい。別の例として、音響特性を提供する再生デバイスは同じゾーンにある再生デバイスであってもよい。場合によっては、再生デバイスをＮＭＤと結合（グループ化又はペアリング）してもよい。この結合は、再生デバイスとＮＭＤとが同じ部屋又はゾーン内にあるか、及び／又はコンテンツを同期して再生しているなど、これらが互いに近接していることを示していてもよい。ＮＭＤを再生デバイスと結合している場合、結合された再生デバイスから周辺環境の音響特性を受信するように、ＮＭＤを配置してもよい。さらに、ＮＭＤを移動させて別の再生デバイスと結合する場合、結合先となる他の再生デバイスが、ＮＭＤを配置した周辺環境用の新たな音響特性を提供してもよい。

ＮＭＤは、ＮＭＤが配置された周辺環境の音響特性を使用して、自身の動作を改善してもよい。たとえば、ＮＭＤは音響特性に基づいてフィルタを定義してもよい。ＮＭＤは、自身が受信した音声入力にフィルタを適用して、たとえば音声入力におけるスペクトル歪み、空間歪み、及び時間歪みなどの周辺環境の音響特性を補正してもよい。このようにして、音声入力をより良好に解釈することができる。

多くの状況において、ＮＭＤをメディア再生システムに近接して配置することができる。メディア再生システムは、オーディオコンテンツを再生する複数の再生デバイスを備えていてもよい。これらの再生デバイスを家庭内の様々な場所に分散設置していてもよく、これらの場所は家庭における寝室やリビングルームなどのゾーンであってもよい。結果として、ＮＭＤは、メディア再生システムによって同時に再生される音楽などのオーディオコンテンツが流れる中で、音声入力を解釈する必要があり得る。

いくつかの状況では、再生デバイスは、ＮＭＤが音声入力にフィルタを適用して周辺環境の音響特性を補正するだけでなく、再生中のオーディオコンテンツを使用して音声入力が良好に分離されるように、ＮＭＤに対して再生中のコンテンツに関する通知を提供してもよい。

付加的に、又は代替的に、ＮＭＤは音声入力の指向性を決定することが可能であってもよい。この指向性により、音声入力の発信元の方向を定義してもよい。この指向性をメディア再生システムに提供してもよい。メディア再生システムは複数のスピーカを備える。メディア再生システムはこの指向性を使用して、複数のスピーカのオーディオ出力を調整してもよい。たとえば、メディア再生システムは、１又は複数の再生デバイスから発生させるオーディオ音を音声入力の発信元の方向に向けてもよい。これはリスナーが位置する方向であってもよい。他の構成も可能である。

別の態様では、本明細書に記載のいくつかの例は音声入力を介してメディア再生システムを制御することを含む。本明細書で提供されるいくつかの例は、ある方法を含んでいてもよい。本方法は、コマンドワード及び１又は複数のメディア変数のインスタンスを含む音声入力を受信するステップ、その音声入力が音楽制御に対応していると判定するステップを含んでいてもよい。本方法は、コマンドワードに対応するコマンドを決定するステップ、音声入力を処理してそのインテントに対応するメディア再生システムのコマンドを識別するステップをさらに含んでいてもよい。音声入力を処理して、１又は複数の音楽変数のインスタンスに関連するメディアコンテンツを識別し、且つメディアコンテンツ内の１又は複数のメディアアイテムを決定してもよい。メディア再生システムに、１又は複数のメディアアイテムに対してコマンドを実行させるようにしてもよい。

他の例では、非一時的なコンピュータ可読媒体を提供している。この非一時的なコンピュータ可読媒体は、コンピューティングデバイスによって実行可能であり、コンピューティングデバイスに機能を実行させる命令を格納している。この機能には、コマンドワード及び１又は複数のメディア変数のインスタンスを含む音声入力を受信すること、その音声入力が音楽制御に対応していると判定することが含まれる。この機能はさらに、コマンドワードに対応するコマンドを決定すること、音声入力を処理してそのインテントに対応するメディア再生システムコマンドを識別することをさらに含んでいてもよい。音声入力を処理して、１又は複数の音楽変数のインスタンスに関連するメディアコンテンツを識別し、且つメディアコンテンツ内の１又は複数のメディアアイテムを決定してもよい。メディア再生システムに、１又は複数のメディアアイテムに対してコマンドを実行させるようにしてもよい。

さらに別の例では、あるシステムを提供している。本システムはプロセッサとメモリとを備える。このメモリは、装置によって実行可能であり、本システムに機能を実行させる命令を格納している。この機能には、コマンドワード及び１又は複数のメディア変数のインスタンスを含む音声入力を受信すること、その音声入力が音楽制御に対応していると判定することが含まれる。この機能はさらに、コマンドワードに対応するコマンドを決定すること、音声入力を処理してそのインテントに対応するメディア再生システムコマンドを識別することをさらに含んでいてもよい。音声入力を処理して、１又は複数の音楽変数のインスタンスに関連するメディアコンテンツを識別し、且つメディアコンテンツ内の１又は複数のメディアアイテムを決定してもよい。メディア再生システムに、１又は複数のメディアアイテムに対してコマンドを実行させるようにしてもよい。

さらに別の態様では、本明細書に記載の例は、メディア再生システム（或いは、場合によってはその１又は複数のコンポーネント）が音声コマンドを受信すること、ユーザ識別に基づいてメディア再生システムが実行する適切なアクションを決定することを含む。

大音量でメディアコンテンツを聴取することは、家族、友人、及びゲストが参加する団らんの機会となり得る。メディアコンテンツの一例として、トークラジオ、書籍、テレビからの音声、ローカルドライブに保存された音楽、メディアソース（たとえばＰａｎｄｏｒａ（登録商標）Ｒａｄｉｏ、Ｓｐｏｔｉｆｙ（登録商標）、Ｓｌａｃｋｅｒ（登録商標）、Ｒａｄｉｏ、ＧｏｏｇｌｅＰｌａｙ（商標）、ｉＴｕｎｅｓＲａｄｉｏ）からの音楽、及びその他の可聴素材を挙げることができる。たとえば、家庭では、人々はパーティーやその他の親睦会で音楽を大音量で再生する場合がある。このような環境では、人々は、各聴取ゾーンの音楽を可聴反響音又は可聴異常音を発生させることなく同期できるように、１つの聴取ゾーン又は複数の聴取ゾーンで同時に音楽を再生することを望む場合がある。人々がオーディオ再生デバイス又はシステムの制御を命じる音声コマンドを使用することができれば、そのような体験はさらに充実する可能性がある。たとえば、人々はオーディオコンテンツ、プレイリスト、又は聴取ゾーンを変更したり、プレイリスト若しくは再生キューに音楽トラックを追加したり、或いは再生設定（たとえば再生、一時停止、次のトラック、前のトラック、再生音量、及びイコライゼーションの設定など）を変更したりすることを望む場合がある。

大音量でメディアコンテンツを聴取することはまた、個人的な体験となり得る。たとえば、個人は朝出勤前に、エクササイズ中に、夜夕食をとる間に、或いは他の時間において終日にわたり、自宅や職場で自ら大音量で音楽を再生することがある。このように個人で体験するために、個人は単一の聴取ゾーン又は範囲に対してオーディオコンテンツの再生を限定することを選択してもよい。個人が聴取ゾーン、オーディオコンテンツ、及び再生設定などの選択を主として命じる音声コマンドを使用できれば、そのような体験はさらに充実する可能性がある。

音声コマンドを実行しようとしている人物を特定することも、このような体験の重要な要素となり得る。その人物が誰であるかと、その人物がメディア再生デバイス又はシステムにしてほしいことは何かとに基づいて音声コマンドを実行することが望ましい場合がある。例示として、家庭におけるパーティーや親睦会では、ホスト又は世帯主がオーディオコンテンツ、聴取ゾーン、又は再生設定の変更を命じる音声コマンドを特定のゲストが使用するのを禁止したい場合がある。場合によっては、ホスト又は世帯主がオーディオコンテンツ、聴取ゾーン、又は再生設定の変更を命じる音声コマンドの使用を特定のゲストに許可する一方で、他のゲストに対してはそのような変更の実施を禁止したい場合がある。ユーザプロファイル又は音声構成設定に基づくユーザ識別は、世帯主の音声とゲストの音声とを区別するのに役立つ可能性がある。

別の例では、ユーザ識別を使用して、成人の音声と子供の音声とを区別することができる。場合によっては、世帯主が、子供にとって不適切なオーディオコンテンツの聴取を命じる音声コマンドを子供が使用するのを禁止したい可能性がある。他の場合には、世帯主が、聴取ゾーン又は再生設定を子供が変更するのを禁止したい可能性がある。たとえば、世帯主が特定の音量でオーディオコンテンツを聴取し、且つ子供がそのオーディオコンテンツの音量を変更するのを禁止したい場合がある。ユーザ識別は、子供が特定のコンテンツにアクセスしたり、聴取ゾーン又は再生設定を変更したりするのを禁止する、ペアレンタルコントロール設定や制限設定を設定するのに役立つ可能性がある。たとえば、ユーザプロファイル又は音声構成設定に基づくユーザ識別は、その子供が誰であるか、その子供が何を聴取できるか、或いはその子供がどの設定を変更できるかを判定するのに役立つ可能性がある。

さらに別の例では、ユーザ識別を使用して意図しない音声コマンドを防止してもよい。たとえば、世帯主が、テレビ又は他の任意のオーディオコンテンツからの音声が意図せずに音声コマンドをトリガすることを防止したい場合がある。上記と類似しているが異なる、他の多くの例を本明細書に記載しており、音声認識に基づく様々なタイプのアクションを示している。

本明細書に記載のいくつかの実施形態は、メディア再生システム（或いは、場合によってはその１又は複数のコンポーネント）が音声コマンドを受信すること、ユーザ識別に基づいてメディア再生システムが実行する適切なアクションを決定することを含む。

例示的な構成では、メディア再生システムは単独の、或いはメディア再生システムサーバなどのコンピューティングデバイスと組み合わせた１又は複数のメディア再生デバイスを備える。別の例示的な構成では、メディア再生システムは、ネットワークマイクロホンシステムサーバ及び１又は複数のＮＭＤを備えるか、又はそれらと通信してもよい。さらに別の例示的な構成では、メディア再生システムサーバ及び／又はネットワークマイクロホンシステムサーバは、クラウドベースのサーバシステムであってもよい。これらのデバイス及び／又はサーバの任意の１つ又は組み合わせは、メディア再生システムに対する音声コマンドを受信してもよい。

例示的な動作においては、ネットワークマイクロホンシステム単独で、或いはメディア再生システムと共に１又は複数の機能を実行してもよい。たとえば、音声コマンドを受信することは、ネットワークマイクロホンシステムが１又は複数のＮＭＤを介して音声コマンドを受信すること、その音声コマンドをさらなる処理のためにメディア再生システムに送信することを含んでいてもよい。次いで、メディア再生システムは音声コマンドを同等のテキストコマンドに変換し、そのテキストコマンドを解析してコマンドを識別してもよい。別の場合には、ネットワークマイクロホンシステムは音声コマンドを同等のテキストコマンドに変換し、そのテキストコマンドをメディア再生システムに送信してこれを解析し、且つコマンドを識別してもよい。

音声コマンドは、本明細書に記載のメディア再生システム制御のうちのいずれかの制御を命じるコマンドであってもよい。たとえば、いくつかの実施形態では、音声コマンドは、メディア再生システムにメディア再生システムの１又は複数の再生デバイスを介したメディアコンテンツの再生を命じるコマンドであってもよい。いくつかの実施形態では、音声コマンドは、メディア再生システムの１又は複数のメディア再生デバイスの再生設定変更を命じるコマンドであってもよい。再生設定には、たとえば再生音量、再生トランスポートの制御、音楽ソースの選択、及びグループ化などが主として含まれ得る。

メディア再生システムのコンピューティングデバイスは、音声コマンドを受信した後、その音声コマンドをメディア再生システムの登録ユーザから受信したかどうかを判定してもよい。たとえば、メディア再生システムを家庭内の特定のユーザ若しくは１又は複数のユーザに対して登録してもよい。メディア再生システムのコンピューティングデバイスを、コンピューティングデバイスに格納されたユーザプロファイルに基づいて、音声コマンドを登録ユーザと関連付けるように構成してもよい。登録ユーザはユーザプロファイルを作成し、これをコンピューティングデバイスに格納するようにしてもよい。ユーザプロファイルはユーザ固有の情報を含んでいてもよい。たとえば、ユーザプロファイルはユーザの年齢、位置情報、好みの再生設定、好みのプレイリスト、好みのオーディオコンテンツ、及びそのユーザに設定されたアクセス制限に関する情報、並びにそのユーザの音声を識別する情報などを主として含んでいてもよい。

メディア再生システムのコンピューティングデバイスを、ユーザによって設定された音声構成設定に基づいて、音声コマンドをあるユーザと関連付けるように構成してもよい。たとえば、メディア再生システムは、ユーザに音声入力又は一連の音声入力を提供するように要求してもよい。次いで、メディア再生システムのコンピューティングデバイスは音声入力を処理し、その音声入力をユーザと関連付け、且つ情報を格納し、これによってメディア再生システムがユーザからの音声コマンドを認識できるようにしてもよい。

いくつかの例では、メディア再生システムのコンピューティングデバイスを、音声コマンドと関連付けられる信頼性レベルを決定するように構成してもよく、これは、音声コマンドを登録ユーザから受信したかどうかを判定するのにさらに役立つ可能性がある。ユーザ履歴及び位置情報に個別に基づいて、或いはユーザプロファイルで通常確認できる他の任意の情報と組み合わせたものに基づいて、信頼性レベルを決定してもよい。

音声コマンドを登録ユーザから受信したと判定したことに応答して、メディア再生システムのコンピューティングデバイスはメディア再生システムに対する指示を構成してもよい。この指示は音声コマンドの内容と、登録ユーザのユーザプロファイル内の情報とに基づいていてもよい。付加的に又は代替的に、この指示は音声コマンドの内容と、コンピューティングデバイスに格納された音声構成設定とに基づいていてもよい。

本明細書の例に記載しているように、音声コマンドは様々な内容を含んでいてもよい。１つの例では、音声コマンドの内容は、１又は複数の再生デバイスにメディアコンテンツの再生を命じるコマンドを含んでいてもよい。場合によっては、１又は複数の再生デバイスにメディアコンテンツの再生を命じるコマンドと登録ユーザのユーザプロファイル内の情報とに基づいて、メディア再生システムのコンピューティングデバイスは、１又は複数の再生デバイスに登録ユーザの好みのメディアソース（たとえば、音楽ストリーミングサービス）からメディアコンテンツを取得させる指示を構成してもよい。次いで、コンピューティングデバイスは、メディア再生システムに、メディア再生システムの１又は複数の再生デバイスを介してメディアコンテンツを再生させる指示を構成してもよい。さらに別の例では、１又は複数の再生デバイスにメディアコンテンツの再生を命じるコマンドと登録ユーザのユーザプロファイル内の情報とに基づいて、コンピューティングデバイスは、（ｉ）登録ユーザの好みの再生設定の１つ又は複数を用いて１又は複数の再生デバイスを構成し、且つ（ｉｉ）メディア再生システムを介し、登録ユーザの好みの再生設定を用いて１又は複数の再生デバイスにメディアコンテンツを再生させる指示を含んでいてもよい。

別の例では、音声コマンドの内容は、１又は複数の再生デバイスにメディアコンテンツの再生を命じるコマンドを含んでいてもよいが、メディア再生システムの特定の聴取ゾーン又は再生ゾーンを特定しない場合がある。音声コマンドの内容と登録ユーザのユーザプロファイル内の情報とに基づいて、コンピューティングデバイスは、１又は複数の再生デバイスを介し、メディア再生システムの特定の再生ゾーン内で１又は複数の再生デバイスにメディアコンテンツを再生させる指示を構成してもよい。

さらに別の例では、音声コマンドの内容は、メディア再生システムに再生設定の変更を命じるコマンドを含んでいてもよい。音声コマンドの内容と登録ユーザのユーザプロファイル内の情報とに基づいて、コンピューティングデバイスは、メディア再生システムにおける１又は複数の再生デバイスの再生設定をメディア再生システムに変更させる指示を構成してもよい。

さらに別の例は、異なるユーザから受信した音声コマンドの競合を解決するために、メディア再生システムが優先順位を決定することを含んでいてもよい。たとえば、メディア再生システムは、登録ゲストから受信した音声コマンドが未登録ゲストよりも高い優先度を有するような優先順位を割り当ててもよい。音声コマンドの競合にはたとえば、あるユーザから受信する曲の再生を命じる音声コマンドと、別のユーザから受信するその曲の再生中止を命じる後続の音声コマンドとが含まれ得る。上記と類似しているが異なる、他の多くの実施例を本明細書に記載している。

別の例では、メディア再生システムは、登録ユーザ又は登録ゲストユーザと関連付けられた起動ワード又は起動フレーズを受信したことに基づいて作動してもよい。起動ワード又は起動フレーズ（たとえば、「ヘイＳｏｎｏｓ（ＨｅｙＳｏｎｏｓ）」）を使用して、受信した起動ワードに基づいてユーザからの追加のコマンドをシステムが受け付ける時間枠をトリガしてもよい。たとえば、ホスト又は許可されたゲストは再生キューへの曲の追加を命じる音声コマンドを送信してもよく（たとえば、「ねえＳｏｎｏｓ、再生キューに曲を追加して（ＨｅｙＳｏｎｏｓ，ｌｅｔ’ｓｑｕｅｕｅｕｐｓｏｎｇｓ）」）、これにより、再生キューへの特定の曲の追加を命じる追加の音声コマンドをホスト又は許可されたゲストが送信できる時間枠（たとえば、５分）が開放されてもよい。上記と類似しているが異なる、他の多くの実施例を本明細書に記載している。

コンピューティングデバイスのいくつかの実施形態では、メディア再生システムに対する指示又は指示一式を構成した後、その指示又は指示一式をメディア再生システムの１又は複数の再生デバイスに送信してもよい。

さらに別の例では、メディア再生システムのコンピューティングデバイスは音声コマンドを子供から受信したかどうかを判定してもよい。ユーザプロファイル又はゲストプロファイル内の情報に基づいて成人と子供とを区別するように、コンピューティングデバイスを構成してもよい。特に、コンピューティングデバイスは、ユーザの音声のトーン又は周波数に基づいて成人と子供とを区別してもよい。

音声コマンドを子供から受信したと判定したことに応答して、１又は複数の再生デバイスに対して、子供にとって不適切となる恐れのある所与のメディアコンテンツの再生を禁止してもよい。場合によっては、コンピューティングデバイス及び／又は１又は複数の再生デバイスに対して、子供による音声コマンドの内容に基づいた再生設定の変更を禁止してもよい。

さらに別の例では、いくつかのアクションは、メディア再生システムの登録ユーザではなく、ゲストユーザからコマンドを受信したかどうかを判定することに基づいていてもよい。１つの例では、登録ユーザはゲストユーザ用のゲストプロファイルを作成していてもよい。このゲストプロファイルは、ユーザプロファイルに含まれる任意の情報を含んでいてもよい。別の例では、メディア再生システムのコンピューティングデバイスは、音声コマンドを登録ユーザから受信しなかったと判定し、次いで登録ユーザに対してその音声コマンドが登録ユーザ由来のものであるかを問い合わせてもよい。

音声コマンドをゲストユーザから受信したと判定したことに応答して、メディア再生システムのコンピューティングデバイスは、（１）ゲストユーザに対して制限設定を割り当て、（２）音声コマンドの内容とそのゲストユーザに対して割り当てた制限設定とに基づいて、１又は複数の再生デバイスに対する指示を構成し、且つ（３）その指示を１又は複数の再生デバイスに送信してもよい。制限設定は、メディア再生システムの制御を制限する任意の設定であってもよい。

さらに別の態様では、本明細書に記載の例は、コマンドに基づいて適切なストリーミングサービス（たとえばオーディオトラックをストリーミングする）を識別し、且つこれにアクセスすることに関する。

ストリーミングサービスを、ＮＭＤによって提供される音声コマンドに基づいて識別し、且つこれにアクセスしてもよい。たとえば、ＮＭＤは「Ｐａｎｄｏｒａ（登録商標）で７０年代ロックのラジオを再生して（ｐｌａｙＰａｎｄｏｒａ（登録商標）７０’ｓｒｏｃｋｒａｄｉｏ）」という音声コマンドを受信し、その発言が特定のストリーミングサービスからの特定のラジオ局の再生を命じるコマンドであると判定し、次いでそのサービスからの当該ラジオ局の再生を促してもよい。他の実装形態では、ストリーミングサービスの選択は、制御デバイスのユーザインタフェースを介して入力されるコマンド（たとえばテキスト入力）に基づいていてもよい。他のタイプのコマンドも可能である。

別の例では、ユーザがアクセスを望むストリーミングサービスをコマンドがはっきりと指定しない場合がある。たとえば、ユーザは「クイーンの曲を再生して（ｐｌａｙＱｕｅｅｎ）」又は「７０年代ロックを再生して（ｐｌａｙ７０’ｓｒｏｃｋ）」などのより包括的なコマンドを発行する場合がある。このような場合、既存のシステムでは、どのコンテンツタイプの再生をユーザが望んでいるのか（すなわちアーティストのクイーンなのか、又はアルバムの『クイーン（Ｑｕｅｅｎ）』なのか、或いは７０年代ロックのラジオ局なのか、又は「ベストオブ」アルバムなのか）を区別する能力に限界がある。また、このようなシステムは、ユーザが意図したコンテンツタイプを各種ストリーミングサービスのコンテンツタイプの機能（すなわちどのサービスがラジオ局、アーティスト、及びアルバムを再生できるか）と合致させることができない。

利用可能なコンテンツ量及びストリーミングサービスの数が絶えず増加していることを考慮すると、ユーザコマンドに基づいてユーザに提供するコンテンツタイプに合致した所望のストリーミングサービスをインテリジェントに選択できるシステムが必要とされている。

１つの例では、ストリーミングサービスの選択を、複数のネットワーク対応デバイスを含むネットワーク構成によって遂行してもよい。このネットワーク構成はコマンドを受信し、処理し、且つ解析するＮＭＤ、再生デバイス、コンピューティングデバイス、及び／又は制御デバイス（たとえばタブレットやスマートフォン）を含んでいてもよい。この構成は、受信したコマンドの処理及び解析に基づいて、１又は複数の音楽コンテンツ配信サーバからのオーディオコンテンツを取得及び／又は要求することをさらに含んでいてもよい。その後、コマンドに基づいてオーディオ再生体験をもたらすために、オーディオコンテンツをＮＭＤ、制御デバイス、及び／又は任意の数の再生デバイスによって取得してもよい。また、ネットワーク構成は他の形態をとっていてもよい。

別の例では、選択はいくつかの基準それぞれに基づいて、或いはこれらを組み合わせたものに基づいていてもよい。ある場合には、ストリーミングサービスの選択は、コマンドによって指定されるコンテンツタイプ（たとえば曲、ジャンル、ラジオ局）と特定のストリーミングサービスが指定されたコンテンツタイプをサポートしているかどうかに依存していてもよい。そのような場合、コンテンツタイプのロジックを使用して、コマンド又はコマンドの一部をコンテンツタイプと関連付けてもよい。次いで、ロジックを通じて識別されたコンテンツタイプを、利用可能なコンテンツタイプを有するストリーミングサービスにマッピングしてもよい。コマンドを通じて指定されるコンテンツタイプの解析を、他の様々な方法で実行してもよい。

さらに別の例では、ストリーミングサービスの選択は、ユーザのストリーミングサービスの嗜好性を取り入れることができるユーザ履歴に一部基づいていてもよい。このユーザ嗜好性は、主としてゾーン毎の基準や再生回数が最も多いコンテンツタイプなどに基づいていてもよい。さらに、地理的データ、人口統計データ、及び気象タイプのデータを含むが、これらに限定されない様々な形態の「外部」データを引用してもよい。選択に影響する他のタイプの基準を設けていてもよい。

ストリーミングサービスを選択することに加えて、ユーザコマンドの処理によって別の通知が出力されることがある。そのような場合、本システムは、コマンドによって指定されるコンテンツタイプを再生できるストリーミングサービスの提案を出力してもよい。別の例では、本システムは「コンテンツが利用できない」という通知を出力してもよい。そのような通知は、ネットワークマイクロホンデバイス、コントローラで出力されるか、又はＮＭＤ若しくはコントローラを介して１又は複数の再生デバイスで出力されてもよい。

様々な選択基準は、各種ストリーミングサービスの信頼性メトリックを決定するためのアルゴリズムの入力として役立つ可能性がある。信頼性メトリックは、特定のストリーミングサービスがユーザが聴取したいと望むものであるかどうかを示すものであってもよい。たとえば、信頼性レベルは、ストリーミングサービスに対して割り当てられる確率値又はパーセンテージ（たとえば１～１００）であってもよい。１つの実施例では、最高信頼性メトリックを有するストリーミングサービスをストリーミングのために指定してもよい。別の場合には、算出された最高信頼性メトリックが閾値信頼値を超えない場合、或いは上位Ｎ個の信頼性レベルが互いに特定の範囲内にある場合に、エラー状態をトリガしてもよい。そのような場合、エラー状態を受けてネットワークマイクロホンデバイスは、（１）「コンテンツが利用できない」という通知を出力し、（２）ユーザにコマンドを繰り返すか、又はこれを詳細指定するように要求し、且つ（３）主として好みのサービスパートナー又はデフォルトサービスなどによってオーディオを再生させてもよい。この信頼性メトリックを、他の多くの方法で各種使用してもよい。

本明細書に記載の幾つかの例は、「ユーザ」及び／又は他の実体のような任意の主体によって行われる機能について言及するが、このことは単に例示目的であると理解されるべきである。特許請求の範囲は、特許請求の範囲自体の記載によって明示的に要請されない限り、そのような例示の主体の動作であることを要請するものと解釈されてはならない。当業者にとって、本開示には他の複数の実施形態が含まれることは理解されるであろう。

ＩＩ．動作環境の例
図１は、本明細書で開示されている１つ又は複数の実施形態で実施可能又は実装可能なメディア再生システム１００の例示的な構成を示す。図示されるように、メディア再生システム１００は、複数の部屋および空間、例えば、主寝室、オフィス、ダイニングルーム、およびリビングルームを有する例示的なホーム環境と関連付けられている。図１の例に示されるように、メディア再生システム１００は、再生デバイス１０２－１２４、制御デバイス１２６および１２８、有線又は無線のネットワークルータ１３０を含む。

更に、例示的なメディア再生システム１００の異なる構成要素、および異なる構成要素がどのように作用してユーザにメディア体験を提供するかに関しての説明は、以下のセクションで述べられている。本明細書における説明は、概してメディア再生システム１００を参照しているが、本明細書で述べられている技術は、図１に示されるホーム環境の用途に限定されるものではない。例えば、本明細書で述べられている技術は、マルチゾーンオーディオが望まれる環境、例えば、レストラン、モール、又は空港のような商業的環境、スポーツ用多目的車（ＳＵＶ）、バス又は車のような車両、船、若しくはボード、飛行機などの環境において有益である。

ａ．例示的な再生デバイス
図２は、図１のメディア再生システム１００の再生デバイス１０２－１２４の１つ又は複数を構成する例示的な再生デバイス２００の機能ブロック図を示す。再生デバイス２００は、プロセッサ２０２、ソフトウェアコンポーネント２０４、メモリ２０６、オーディオ処理コンポーネント２０８、オーディオアンプ２１０、スピーカ２１２、ネットワークインタフェース２１４、およびマイクロホン２２０を含んでもよい。ネットワークインタフェース２１４は、無線インタフェース２１６および有線インタフェース２１８を含む。ある場合では、再生デバイス２００は、スピーカ２１２を含まないが、再生デバイス２００を外部スピーカに接続するためのスピーカインタフェースを含んでいてもよい。別の場合では、再生デバイス２００は、スピーカ２１２もオーディオアンプ２１０も含まないが、再生デバイス２００を外部オーディオアンプ又はオーディオビジュアルレシーバーに接続するためのオーディオインタフェースを含んでもよい。

ある例では、プロセッサ２０２は、メモリ２０６に記憶された命令に基づいて、入力データを処理するように構成されたクロック駆動コンピュータコンポーネントであってもよい。メモリ２０６は、プロセッサ２０２によって実行可能な命令を記憶するように構成された非一時的なコンピュータ可読記録媒体であってもよい。例えば、メモリ２０６は、ある機能を実行するためにプロセッサ２０２によって実行可能なソフトウェアコンポーネント２０４の１つ又は複数をロードすることができるデータストレージであってもよい。ある例では、機能は、再生デバイス２００がオーディオソース又は別の再生デバイスからオーディオデータを読み出すステップを含んでもよい。別の例では、機能は、再生デバイス２００がネットワーク上の別のデバイス又は再生デバイスにオーディオデータを送信するステップを含んでもよい。更に別の例では、機能は、マルチチャンネルオーディオ環境を作るために、再生デバイス２００と１つ又は複数の再生デバイスとをペアリングするステップを含んでもよい。

ある機能は、再生デバイス２００が、１つ又は複数の他の再生デバイスと、オーディオコンテンツの再生を同期するステップを含む。再生を同期している間、再生デバイス２００によるオーディオコンテンツの再生と１つ又は複数の他の再生デバイスによる再生との間の遅延を、リスナーが気づかないことが好ましい。「複数の独立クロックデジタルデータ処理デバイス間の動作を同期するシステムおよび方法」と題する米国特許第８，２３４，３９５号が本明細書に参照として援用されており、それは再生デバイス間のオーディオ再生を同期することが述べられたより詳細な例を提供している。

更に、メモリ２０６は、データを記憶するように構成されていてもよい。データは、例えば、１つ又は複数のゾーンおよび／又はゾーングループに一部として含まれる再生デバイス２００などの再生デバイス２００、再生デバイス２００によりアクセス可能なオーディオソース、又は再生デバイス２００（又は他の再生デバイス）と関連付け可能な再生キュー、に関連付けられている。データは、定期的に更新され、再生デバイス２００の状態を示す１つ又は複数の状態変数として記憶されてもよい。また、メモリ２０６は、メディアシステムの他のデバイスの状態と関連付けられたデータを含んでもよく、デバイス間で随時共有することによって、１つ又は複数のデバイスが、システムと関連するほぼ直近のデータを有してもよい。他の実施形態も可能である。

オーディオ処理コンポーネント２０８は、とりわけ、１つ又は複数のデジタル－アナログ変換器（ＤＡＣ）、オーディオ処理コンポーネント、オーディオ強化コンポーネント、又はデジタルシグナルプロセッサ（ＤＳＰ）などを含んでいてもよい。ある実施形態では、１つ又は複数のオーディオ処理コンポーネント２０８は、プロセッサ２０２のサブコンポーネントであってもよい。ある実施形態では、オーディオコンテンツが、オーディオ処理コンポーネント２０８によって処理および／又は意図的に変更されることによって、オーディオ信号を生成してもよい。生成されたオーディオ信号は、オーディオアンプ２１０に送信され、増幅され、スピーカ２１２を通じて再生される。特に、オーディオアンプ２１０は、１つ又は複数のスピーカ２１２を駆動できるレベルまでオーディオ信号を増幅するように構成されたデバイスを含んでもよい。スピーカ２１２は、独立した変換器（例えば、「ドライバ」）又は１つ又は複数のドライバを内包する筐体を含む完全なスピーカシステムを備えてもよい。スピーカ２１２に備えられたあるドライバは、例えば、サブウーファー（例えば、低周波用）、ミドルレンジドライバ（例えば、中間周波用）、および／又はツイーター（高周波用）を含んでもよい。ある場合では、１つ又は複数のスピーカ２１２のそれぞれの変換器は、オーディオアンプ２１０の対応する個々のオーディオアンプによって駆動されてもよい。再生デバイス２００で再生するアナログ信号を生成することに加えて、オーディオ処理コンポーネント２０８は、オーディオコンテンツを処理し、そのオーディオコンテンツを１つ又は複数の他の再生デバイスに再生させるために送信する。

再生デバイス２００によって処理および／又は再生されるオーディオコンテンツは、外部ソース、例えば、オーディオライン－イン入力接続（例えば、オートディテクティング３．５ｍｍオーディオラインイン接続）又はネットワークインタフェース２１４を介して、受信されてもよい。

ネットワークインタフェース２１４は、データネットワーク上で再生デバイス２００と１つ又は複数の他のデバイスとの間のデータフローを可能にするように構成されてもよい。このように、再生デバイス２００は、再生デバイスと通信する１つ又は複数の他の再生デバイス、ローカルエリアネットワーク内のネットワークデバイス、又は例えば、インターネット等のワイドエリアネットワーク上のオーディオコンテンツソースから、データネットワークを介してオーディオコンテンツを受信するように構成されていてもよい。ある例では、再生デバイス２００によって送信および受信されたオーディオコンテンツおよび他の信号は、インターネットプロトコル（ＩＰ）に基づくソースアドレスおよびＩＰに基づく宛先アドレスを含むデジタルパケットの形で送信されてもよい。そのような場合、ネットワークインタフェース２１４は、デジタルパケットデータを解析することによって、再生デバイス２００宛てのデータを、再生デバイス２００によって適切に受信して処理することができる。

図示されるように、ネットワークインタフェース２１４は、無線インタフェース２１６と有線インタフェース２１８とを含んでもよい。無線インタフェース２１６は、再生デバイス２００用のネットワークインタフェース機能を提供し、通信プロトコル（例えば、無線規格ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇモバイル通信基準などを含む無線基準（規格）のいずれか）に基づいて、他のデバイス（例えば、再生デバイス２００に関連付けられたデータネットワーク内の他の再生デバイス、スピーカ、レシーバー、ネットワークデバイス、制御デバイス）と無線通信してもよい。有線インタフェース２１８は、再生デバイス２００用のネットワークインタフェース機能を提供し、通信プロトコル（例えば、ＩＥＥＥ８０２．３）に基づいて他のデバイスとの有線接続を介して通信してもよい。図２に示されるネットワークインタフェース２１４は、無線インタフェース２１６と有線インタフェース２１８との両方を含んでいるが、ネットワークインタフェース２１４は、ある実施形態において、無線インタフェースのみか、又は有線インタフェースのみを含んでいてもよい。

マイクロホン２２０を、再生デバイス２００の周辺環境の音声を検出するように配置してもよい。たとえば、マイクロホンを、再生デバイスのハウジングの外壁に取り付けてもよい。マイクロホンは、コンデンサマイクロホン、エレクトレットコンデンサマイクロホン、又はダイナミックマイクロホンなどの既知であるか、又は今後開発される任意のタイプのマイクロホンであってもよい。マイクロホンはスピーカ２２０の周波数範囲の一部に敏感であってもよい。１又は複数のスピーカ２２０は、マイクロホン２２０とは逆に動作してもよい。いくつかの態様では、再生デバイス２００はマイクロホン２２０を有していない場合がある。

ある例では、再生デバイス２００と他の再生デバイスとは、ペアにされて、オーディオコンテンツの２つの別々のオーディオコンポーネントを再生してもよい。例えば、再生デバイス２００は、左チャンネルオーディオコンポーネントを再生するように構成される一方、他の再生デバイスは、右チャンネルオーディオコンポーネントを再生するように構成されてもよい。これにより、オーディオコンテンツのステレオ効果を生成するか、又は強化することができる。ペアにされた再生デバイス（「結合再生デバイス」とも言う）は、更に、他の再生デバイスと同期してオーディオコンテンツを再生してもよい。

別の例では、再生デバイス２００は、１つ又は複数の他の再生デバイスと音響的に統合され、単一の統合された再生デバイス（統合再生デバイス）を形成してもよい。統合再生デバイスは、統合されていない再生デバイス又はペアにされた再生デバイスと比べて、サウンドの処理や再現を異なるように構成することができる。なぜならば、統合再生デバイスは、オーディオコンテンツを再生するスピーカ追加することができるからである。例えば、再生デバイス２００が、低周波レンジのオーディオコンテンツを再生するように設計されている場合（例えば、サブウーファー）、再生デバイス２００は、全周波数レンジのオーディオコンテンツを再生するように設計された再生デバイスと統合されてもよい。この場合、全周波数レンジの再生デバイスは、低周波の再生デバイス２００と統合されたとき、オーディオコンテンツの中高周波コンポーネントのみを再生するように構成されてもよい。一方で低周波レンジの再生デバイス２００は、オーディオコンテンツの低周波コンポーネントを再生する。更に、統合再生デバイスは、単一の再生デバイス、又は更に他の統合再生デバイスとペアにされてもよい。

例として、現在、ソノズ・インコーポレイテッドは、「ＰＬＡＹ：１」、「ＰＬＡＹ：３」、「ＰＬＡＹ：５」、「ＰＬＡＹＢＡＲ」、「ＣＯＮＮＥＣＴ：ＡＭＰ」、「ＣＯＮＮＥＣＴ」、および「ＳＵＢ」を含む再生デバイスを販売提供している。他の過去、現在、および／又は将来のいずれの再生デバイスにおいても、追加的に又は代替的に本明細書で開示された実施例の再生デバイスに実装して使用することができる。更に、再生デバイスは、図２に示された特定の例又は提供されるソノズ製品に限定されないことは理解される。例えば、再生デバイスは、有線又は無線のヘッドホンを含んでもよい。別の例では、再生デバイスは、パーソナルモバイルメディア再生デバイス用のドッキングステーションを含むか、又は、それらと対話してもよい。更に別の例では、再生デバイスは、別のデバイス又はコンポーネント、例えば、テレビ、照明器具、又は屋内又は屋外で使用するためのいくつかの他のデバイスと一体化されてもよい。

ｂ．例示的な再生ゾーン構成
図１のメディア再生システム１００に戻って、環境は、１つ又は複数の再生ゾーンを有しており、それぞれの再生ゾーンは１つ又は複数の再生デバイスを含んでいる。メディア再生システム１００は、１つ又は複数の再生ゾーンで形成されており、後で１つ又は複数のゾーンが追加又は削除して、図１に示す例示的な構成としてもよい。それぞれのゾーンは、異なる部屋又は空間、例えば、オフィス、浴室、主寝室、寝室、キッチン、ダイニングルーム、リビングルーム、および／又はバルコニーに基づく名前が与えられてもよい。ある場合では、単一の再生ゾーンは複数の部屋又は空間を含んでいてもよい。別の場合では、単一の部屋又は空間は、複数の再生ゾーンを含んでいてもよい。

図１に示されるように、バルコニー、ダイニングルーム、キッチン、浴室、オフィス、および寝室のゾーンのそれぞれは、１つの再生デバイスを有する一方、リビングルームおよび主寝室のゾーンのそれぞれは、複数の再生デバイスを有する。リビングルームゾーンは、再生デバイス１０４，１０６，１０８，１１０が、別々の再生デバイスとしてか、１つ又は複数の結合再生デバイスとしてか、１つ又は複数の統合再生デバイスとしてか、又はこれらのいずれかの組み合わせで、オーディオコンテンツを同期して再生するように構成されてもよい。同様に、主寝室の場合では、再生デバイス１２２および１２４が、別々の再生デバイスとしてか、結合再生デバイスとしてか、又は統合再生デバイスとして、オーディオコンテンツを同期して再生するように構成されてもよい。

ある例では、図１の環境における１つ又は複数の再生ゾーンは、それぞれ異なるオーディオコンテンツを再生している。例えば、ユーザは、バルコニーゾーンでグリルしながら、再生デバイス１０２によって再生されるヒップホップ音楽を聞くことができる。一方、別のユーザは、キッチンゾーンで食事を準備しながら、再生デバイス１１４によって再生されるクラシック音楽を聞くことができる。別の例では、再生ゾーンは、同じオーディオコンテンツを別の再生ゾーンと同期して再生してもよい。例えば、ユーザがオフィスゾーンにいる場合、オフィスゾーンの再生デバイス１１８が、バルコニーの再生デバイス１０２で再生されている音楽と同じ音楽を再生してもよい。そのような場合、再生デバイス１０２および１１８は、ロック音楽を同期して再生しているため、ユーザは、異なる再生ゾーン間を移動してもアウト－ラウドで再生されるオーディオコンテンツをシームレス（又は少なくともほぼシームレス）に楽しむことができる。再生ゾーン間の同期は、前述の米国特許第８，２３４，３９５号で述べられているような再生デバイス間の同期と同様の方法で行ってもよい。

上述したように、メディア再生システム１００のゾーン構成は、動的に変更してもよく、ある実施形態では、メディア再生システム１００は、複数の構成をサポートする。例えば、ユーザが１つ又は複数の再生デバイスを、物理的にゾーンに移動させるか、又はゾーンから移動させる場合、メディア再生システム１００は変更に対応するように再構成されてもよい。例えば、ユーザが再生デバイス１０２をバルコニーゾーンからオフィスゾーンに物理的に移動させる場合、オフィスゾーンは、再生デバイス１１８と再生デバイス１０２との両方を含んでもよい。必要に応じて、制御デバイス、例えば制御デバイス１２６と１２８とを介して、再生デバイス１０２が、ペアにされるか、又はオフィスゾーンにグループ化されるか、および／又はリネームされてもよい。一方、１つ又は複数の再生デバイスが、再生ゾーンを未だ設定していないホーム環境において、ある領域に移動させられた場合、新しい再生ゾーンがその領域に形成されてもよい。

更に、メディア再生システム１００の異なる再生ゾーンは、動的にゾーングループに組み合わされてもよいし、又は別々の再生ゾーンに分割されてもよい。例えば、ダイニングルームゾーンとキッチンゾーン１１４とがディナーパーティ用のゾーングループに組み合わされることによって、再生デバイス１１２と１１４とがオーディオコンテンツを同期して再生することができる。一方、あるユーザがテレビを見たい一方、他のユーザがリビングルーム空間の音楽を聞きたい場合、リビングルームゾーンが、再生デバイス１０４を含むテレビゾーンと、再生デバイス１０６，１０８，１１０を含むリスニングゾーンと、に分けられてもよい。

ｃ．例示的な制御デバイス
図３は、メディア再生システム１００の制御デバイス１２６と１２８とうちの一方又は両方を構成する例示的な制御デバイス３００の機能ブロック図を示す。図示されるように、制御デバイス３００は、プロセッサ３０２、メモリ３０４、ネットワークインタフェース３０６、ユーザインタフェース３０８、マイクロホン３１０、及びソフトウェアコンポーネント３１２を含んでもよい。ある例では、制御デバイス３００は、メディア再生システム１００専用の制御デバイスであってもよい。別の例では、制御デバイス３００は、メディア再生システムコントローラアプリケーションソフトウェアをインストールされたネットワークデバイス、例えば、ｉＰｈｏｎｅ（登録商標）、ｉＰａｄ（登録商標）、又は任意の他のスマートフォン、タブレットあるいはネットワークデバイス（例えば、ＰＣ又はＭａｃ（登録商標）などのネットワークコンピュータ）であってもよい。

プロセッサ３０２は、メディア再生システム１００のユーザアクセス、コントロール、および構成を可能にすることに関する機能を実行するように構成されてもよい。メモリ３０４は、プロセッサ３０２によって実行可能な１つ又は複数のソフトウェアコンポーネントを、それらの機能を実行するために、搭載可能なデータストレージであってもよい。また、メモリ３０４は、メディア再生システムコントローラアプリケーションソフトウェアと、メディア再生システム１００とユーザとに関連付けられた他のデータを記憶するように構成されていてもよい。

ある例では、ネットワークインタフェース３０６は、工業規格（例えば、赤外線、無線、ＩＥＥＥ８０２．３などの有線規格、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５などの無線規格、４Ｇ通信規格など）に基づいてもよい。ネットワークインタフェース３０６においては、制御デバイス３００がメディア再生システム１００内の他のデバイスと通信するための手段を提供してもよい。ある例では、データおよび情報（例えば、状態変数）は、ネットワークインタフェース３０６を介して制御デバイス３００と他のデバイスとの間で通信されてもよい。例えば、メディア再生システム１００における再生ゾーンおよびゾーングループの構成は、制御デバイス３００によって、再生デバイス又は別のネットワークデバイスから受信されてもよいし、あるいは制御デバイス３００によって、ネットワークインタフェース３０６を介して別の再生デバイス又はネットワークデバイスに送信されてもよい。ある場合では、他のネットワークデバイスは、別の制御デバイスであってもよい。

ボリュームコントロールおよびオーディオ再生コントロールなどの再生デバイス制御コマンドは、ネットワークインタフェース３０６を介して制御デバイス３００から再生デバイスに通信されてもよい。上述したように、メディア再生システム１００の構成の変更は、ユーザにより制御デバイス３００を用いて行うことができる。構成の変更は、１つ又は複数の再生デバイスをゾーンに追加すること、１つ又は複数の再生デバイスをゾーンから取り除くこと、１つ又は複数のゾーンをゾーングループに追加すること、１つ又は複数のゾーンをゾーングループから取り除くこと、結合プレーヤー又は統合プレーヤーを形成すること、結合プレーヤー又は統合プレーヤーから１つ又は複数の再生デバイスに分けることなどを含んでもよい。このように、制御デバイス３００は、コントローラと呼ばれてもよく、制御デバイス３００は、メディア再生システムコントローラアプリケーションソフトウェアをインストールした専用のコントローラか、又はネットワークデバイスであってもよい。

制御デバイス３００はマイクロホン３１０を備えていてもよい。マイクロホン３１０を、制御デバイス３００の周辺環境の音声を検出するように配置してもよい。マイクロホン３１０は、コンデンサマイクロホン、エレクトレットコンデンサマイクロホン、又はダイナミックマイクロホンなどの既知であるか、又は今後開発される任意のタイプのマイクロホンであってもよい。マイクロホンは周波数範囲の一部に敏感であってもよい。２つ以上のマイクロホン３１０を、音源（たとえば、音声、可聴音）の位置情報を捕捉し、及び／又は背景雑音のフィルタリングを補助するように構成してもよい。

制御デバイス３００のユーザインタフェース３０８は、図４に示されるコントローラインタフェース４００などのようなコントローラインタフェースを提供することによって、メディア再生システム１００のユーザアクセスおよび制御を可能にするように構成されていてもよい。コントローラインタフェース４００は、再生制御領域４１０、再生ゾーン領域４２０、再生ステータス領域４３０、再生キュー領域４４０、およびオーディオコンテンツソース領域４５０を含む。図示されるユーザインタフェース４００は、図３の制御デバイス３００などのようなネットワークデバイス（および／又は図１の制御デバイス１２６および１２８）を設けられたユーザインタフェースの単なる一例であって、ユーザによってメディア再生システム１００などのようなメディア再生システムを制御するためにアクセスされるものである。あるいは、様々なフォーマット、スタイル、および対話型シーケンスを他のユーザのインタフェースを１つ又は複数のネットワークデバイスに実装し、メディア再生システムへ類似の制御アクセスを提供してもよい。

再生制御領域４１０は、（例えば、タッチ又はカーソルを用いることで）選択可能なアイコンを含んでもよい。このアイコンによって、選択された再生ゾーン又はゾーングループ内の再生デバイスが、再生又は停止、早送り、巻き戻し、次にスキップ、前にスキップ、シャッフルモードのオン／オフ、リピートモードのオン／オフ、クロスフェードモードのオン／オフを行う。再生制御領域４１０は、別の選択可能なアイコンを含んでもよい。別の選択可能なアイコンは、イコライゼーション設定、再生ボリュームなど他の設定などを変更してもよい。

再生ゾーン領域４２０は、メディア再生システム１００内の再生ゾーンの表示を含んでもよい。ある実施形態では、再生ゾーンのグラフィック表示が選択可能であってもよい。追加の選択可能なアイコンを移動させることによって、メディア再生システム内の再生ゾーンを管理又は構成することができる。例えば、結合ゾーンの作成、ゾーングループの作成、ゾーングループの分割、およびゾーングループのリネームなど他の管理又は構成を行うことができる。

例えば、図示されるように、「グループ」アイコンは、再生ゾーンのグラフィック表示のそれぞれに設けられてもよい。あるゾーンのグラフィック表示内の「グループ」アイコンは、メディア再生システム内の１つ又は複数のゾーンを選択して、あるゾーンとグループ化するオプションを出せるように選択可能であってもよい。一度グループ化すると、あるゾーンとグループ化されたゾーン内の再生デバイスは、あるゾーン内の再生デバイスと同期してオーディオコンテンツを再生するように構成される。同様に、「グループ」アイコンは、ゾーングループのグラフィック表示内に設けられてもよい。この場合、「グループ」アイコンは、ゾーングループ内の１つ又は複数のゾーンをゾーングループから取り除くために、ゾーングループ内の１つ又は複数のゾーンを選択から外すというオプションを出すように選択可能であってもよい。ユーザインタフェース４００等のユーザインタフェースを介してゾーンをグループ化およびグループ解除するための他の対話をすることも可能であるし、実施することも可能である。再生ゾーン領域４２０内の再生ゾーンの表示は、再生ゾーン又はゾーングループ構成が変更されると、動的に更新されてもよい。

再生ステータス領域４３０は、現在再生されているオーディオコンテンツ、前に再生されたオーディオコンテンツ、又は選択された再生ゾーン又はゾーングループ内で次に再生するように予定されているオーディオコンテンツ、のグラフィック表示を含んでもよい。選択可能な再生ゾーン又は再生グループは、ユーザインタフェース上で、例えば、再生ゾーン領域４２０および／又は再生ステータス領域４３０内で視覚的に区別されてもよい。グラフィック表示は、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラックの長さ、およびメディア再生システムを、ユーザインタフェース４００を介して制御するときに、ユーザにとって有益な他の関連情報を含んでいてもよい。

再生キュー領域４４０は、選択された再生ゾーン又はゾーングループと関連付けられた再生キュー内のオーディオコンテンツのグラフィック表示を含んでもよい。ある実施形態では、それぞれの再生ゾーン又はゾーングループは、再生ゾーン又は再生グループによって再生される０以上のオーディオアイテムに対応する情報を含む再生キューと関連付けられていてもよい。例えば、再生キュー内のそれぞれのオーディオアイテムは、ユー・アール・アイ（ＵＲＩ）、ユー・アール・エル（ＵＲＬ）、又は再生ゾーン又はゾーングループ内の再生デバイスによって使用可能な他の識別子を含んでいてもよい。これらによって、ローカルオーディオコンテンツソース又はネットワークオーディオコンテンツソース、からオーディオアイテムを見つけ、および／又は取り出し、再生デバイスによって再生することができる。

ある例では、プレイリストが再生キューに追加されてもよい。この場合、プレイリスト内のそれぞれのオーディオアイテムに対応する情報が再生キューに追加されてもよい。別の例では、再生キュー内のオーディオアイテムは、プレイリストとして保存されてもよい。更に別の例では、再生デバイスがストリーミングオーディオコンテンツ、例えば、再生時間を有することで連続して再生されないオーディオアイテムよりも、停止しない限り連続して再生されるインターネットラジオを再生し続けているとき、再生キューは、空であってもよいし、又は「未使用」であるが埋められていてもよい。別の実施形態では、再生キューは、インターネットラジオおよび／又は他のストリーミングオーディオコンテンツアイテムを含むことができ、且つ再生ゾーン又はゾーングループがそれらのアイテムを再生しているとき「使用中」とすることができる。他の例も可能である。

再生ゾーン又はゾーングループが「グループ化される」か、又は「グループ解除」されるとき、影響を受ける再生ゾーン又はゾーングループに関連付けられた再生キューは、クリアされてもよいし、又は再び関連付けられてもよい。例えば、第１再生キューを含む第１再生ゾーンが、第２再生キューを含む第２再生ゾーンとグループ化された場合、形成されたゾーングループは、関連付けられた再生キューを有していてもよい。関連付けられた再生キューは、最初は空であるか、（例えば、第２再生ゾーンが第１再生ゾーンに追加された場合、）第１再生キューのオーディオアイテムを含むか、（例えば、第１再生ゾーンが第２再生ゾーンに追加された場合、）第２再生キューのオーディオアイテムを含むか、又は第１再生キューと第２再生キューとの両方のオーディオアイテムを組み合わせられる。その後、形成されたゾーングループがグループ解除された場合、グループ解除された第１再生ゾーンは、前の第１再生キューと再び関連付けられてもよいし、空の新しい再生キューと関連付けられてもよいし、あるいはゾーングループがグループ解除される前にゾーングループと関連付けられていた再生キューのオーディオアイテムを含む新しい再生キューと関連付けられてもよい。同様に、グループ解除された第２再生ゾーンは、前の第２再生キューと再び関連付けられてもよいし、空の新しい再生キューと関連付けられてもよいし、あるいはゾーングループがグループ解除される前にゾーングループと関連付けられていた再生キューのオーディオアイテムを含む新しい再生キューと関連付けられてもよい。他の例も可能である。

図４のユーザインタフェース４００に戻って、再生キュー領域４４０内のオーディオコンテンツのグラフィック表示は、トラックタイトル、アーティスト名、トラックの長さ、および再生キュー内のオーディオコンテンツと関連付けられた他の関連情報を含んでいてもよい。ある例では、オーディオコンテンツのグラフィック表示は、追加の選択可能なアイコンを選択して移動させることができる。これにより、再生キューおよび／又は再生キューに表示されたオーディオコンテンツを管理および／又は操作することができる。例えば、表示されたオーディオコンテンツは、再生キューから取り除いてもよいし、再生キュー内の異なる位置に移動させてもよいし、すぐに再生させるか若しくは現在再生しているオーディオコンテンツの後に再生するように選択されてもよいし、あるいは他の動作を実行してもよい。再生ゾーン又はゾーングループに関連付けられた再生キューは、再生ゾーン又はゾーングループ内の１つ又は複数の再生デバイスのメモリ、再生ゾーン又はゾーングループに入っていない再生デバイスのメモリ、および／又は他の指定のデバイスのメモリに記憶されていてもよい。

オーディオコンテンツソース領域４５０は、選択可能なオーディオコンテンツソースのグラフィック表示を含んでいてもよい。このオーディオコンテンツソースにおいては、オーディオコンテンツが選択された再生ゾーン又はゾーングループによって取り出され、再生されてもよい。オーディオコンテンツソースに関する説明は、以降のセクションを参照することができる。

ｄ．例示的なオーディオコンテンツソース
前回図示したように、ゾーン又はゾーングループ内の１つ又は複数の再生デバイスは、再生するオーディオコンテンツを、（例えば、オーディオコンテンツの対応するＵＲＩ又はＵＲＬに基づいて、）複数の入手可能なオーディオコンテンツソースから取り出すように構成されていてもよい。ある例では、オーディオコンテンツは、再生デバイスによって、対応するオーディオコンテンツソース（例えば、ライン－イン接続）から直接取り出されてもよい。別の例では、オーディオコンテンツは、１つ又は複数の他の再生デバイス若しくはネットワークデバイスを介してネットワーク上の再生デバイスに提供されてもよい。

例示的なオーディオコンテンツソースは、メディア再生システム内の１つ又は複数の再生デバイスのメモリを含んでもよい。メディア再生システムとしては、例えば、図１のメディア再生システム１００、１つ又は複数のネットワークデバイス上のローカルミュージックライブラリ（例えば、制御デバイス、ネットワーク対応のパーソナルコンピュータ、又はネットワーク接続ストレージ（ＮＡＳ）など）、インターネット（例えば、クラウド）を介してオーディオコンテンツを提供するストリーミングオーディオサービス、あるいは再生デバイス又はネットワークデバイスのライン－イン入力接続を介してメディア再生システムに接続されるオーディオソース、他の可能なシステムであってもよい。

ある実施形態では、オーディオコンテンツソースは、図１のメディア再生システム１００などのようなメディア再生システムに定期的に追加されてもよいし、定期的に取り除かれてもよい。ある例では、１つ又は複数のオーディオコンテンツソースが追加される、取り除かれる、又は更新される度に、オーディオアイテムのインデックス付けが行われてもよい。オーディオアイテムのインデックス付けは、ネットワーク上で共有される全てのフォルダ／ディレクトリ内の識別可能なオーディオアイテムをスキャンすることを含んでもよい。ここで、ネットワークは、メディア再生システム内の再生デバイスによってアクセス可能である。また、オーディオアイテムのインデックス付けは、メタデータ（例えば、タイトル、アーティスト、アルバム、トラックの長さなど）と他の関連情報とを含むオーディオコンテンツデータベースを作成すること、又は更新すること、を含んでもよい。他の関連情報とは、例えば、それぞれの識別可能なオーディオアイテムを見つけるためのＵＲＩ又はＵＲＬを含んでもよい。オーディオコンテンツソースを管理し、且つ維持するための他の例も可能である。

再生デバイス、制御デバイス、再生ゾーン構成、およびメディアコンテンツソースに関しての上述した説明は、以降で述べられている機能および方法を実施可能ないくつかの例示的な動作環境のみを提供している。本発明は、本明細書で明示的に述べられていないメディア再生システム、再生デバイス、およびネットワークデバイスの他の動作環境および構成であっても適用可能であり、その機能および方法を実施するのに適している。

ｅ．例示的な複数のネットワークデバイス
図５は、音声制御に基づいてオーディオ再生体験をもたらすように構成され得る例示的な複数のデバイス５００を示す。当業者であれば、図５に示したデバイスは例示する目的のみのものであり、異なる及び／又は追加のデバイスを含む変形例が可能であってもよいことを理解する。図示されているように、複数のデバイス５００はコンピューティングデバイス５０４，５０６，５０８と、ネットワークマイクロホンデバイス（ＮＭＤ）５１２，５１４，５１６と、再生デバイス（ＰＢＤ）５３２，５３４，５３６，５３８と、制御デバイス（ＣＲ）５２２とを備える。

複数のデバイス５００の各々は、主として広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、及びパーソナルエリアネットワーク（ＰＡＮ）などの１又は複数のタイプのネットワークを介し、主としてＮＦＣ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｅｔｈｅｒｎｅｔ、及びＩＥＥＥ８０２．１１などの１又は複数のネットワークプロトコルに従って、複数のデバイス内の１又は複数の他のデバイスとの通信を確立できるネットワーク対応デバイスであってもよい。

図示されているように、コンピューティングデバイス５０４，５０６，５０８はクラウドネットワーク５０２の一部であってもよい。クラウドネットワーク５０２は追加のコンピューティングデバイスを備えていてもよい。１つの例では、コンピューティングデバイス５０４，５０６，５０８は異なるサーバであってもよい。別の例では、コンピューティングデバイス５０４，５０６，５０８の２つ以上は単一のサーバのモジュールであってもよい。同様に、コンピューティングデバイス５０４，５０６，５０８の各々は１又は複数のモジュール若しくはサーバを備えていてもよい。本明細書において例示を容易にするために、コンピューティングデバイス５０４，５０６，５０８の各々をクラウドネットワーク５０２内の特定の機能を実行するように構成してもよい。たとえば、コンピューティングデバイス５０８は音楽ストリーミングサービス用のオーディオコンテンツのソースであってもよい。

図示されているように、コンピューティングデバイス５０４を、通信経路５４２を介してＮＭＤ５１２，５１４，５１６とインタフェースするように構成してもよい。ＮＭＤ５１２，５１４，５１６は１又は複数の「スマートホーム」システムのコンポーネントであってもよい。ある場合には、ＮＭＤ５１２，５１４，５１６を、図１に示すデバイスの配置と同様に、家庭全体に物理的に配置してもよい。別の場合には、ＮＭＤ５１２，５１４，５１６の２つ以上を、互いに比較的近接して物理的に配置してもよい。通信経路５４２は主としてインターネットを含むＷＡＮ、ＬＡＮ、及び／又はＰＡＮなどの１又は複数のタイプのネットワークを備えていてもよい。

１つの例では、ＮＭＤ５１２，５１４，５１６のうちの１つ又は複数は、主として音声検出用に構成されたデバイスであってもよい。別の例では、ＮＭＤ５１２，５１４，５１６のうちの１つ又は複数は、様々な一次ユーティリティを有するデバイスのコンポーネントであってもよい。たとえば、図２及び図３に関連して上述したように、ＮＭＤ５１２，５１４，５１６のうちの１つ又は複数は、再生デバイス２００のマイクロホン２２０又はネットワークデバイス３００のマイクロホン３１０であってもよい。さらに、場合によっては、ＮＭＤ５１２，５１４，５１６のうちの１つ又は複数は、再生デバイス２００又はネットワークデバイス３００であってもよい。１つの例では、ＮＭＤ５１２、５１４、及び／又は５１６のうちの１つ又は複数はマイクロホンアレイに配置される複数のマイクロホンを備えていてもよい。

図示されているように、コンピューティングデバイス５０６を、通信経路５４４を介してＣＲ５２２と、ＰＢＤ５３２，５３４，５３６，５３８とにインタフェースするように構成してもよい。１つの例では、ＣＲ５２２は図２のネットワークデバイス２００などのネットワークデバイスであってもよい。したがって、ＣＲ５２２を、図４のコントローラインタフェース４００を提供するように構成してもよい。同様に、ＰＢＤ５３２，５３４，５３６，５３８は図３の再生デバイス３００などの再生デバイスであってもよい。このため、ＰＢＤ５３２，５３４，５３６，５３８を、図１に示すように家庭全体に物理的に配置してもよい。例示する目的上、ＰＢＤ５３６及び５３８は結合ゾーン５３０の一部であってもよく、その一方でＰＢＤ５３２及び５３４は自身が属するそれぞれのゾーンの一部であってもよい。上述したように、ＰＢＤ５３２，５３４，５３６，５３８を動的に結合、グループ化、結合解除、且つグループ解除してもよい。通信経路５４４は主としてインターネット含むＷＡＮ、ＬＡＮ、及び／又はＰＡＮなどの１又は複数のタイプのネットワークを備えていてもよい。

１つの例では、ＮＭＤ５１２，５１４，５１６と同様に、ＣＲ５２２とＰＢＤ５３２，５３４，５３６，５３８とはまた、１又は複数の「ＳｍａｒｔＨｏｍｅ」システムのコンポーネントであってもよい。ある場合には、ＰＢＤ５３２，５３４，５３６，５３８をＮＭＤ５１２，５１４，５１６と同じ家庭全体に配置してもよい。さらに、上記で提案したように、ＰＢＤ５３２，５３４，５３６，５３８のうちの１つ又は複数はＮＭＤ５１２，５１４，５１６の１又は複数であってもよい。

ＮＭＤ５１２，５１４，５１６はローカルエリアネットワークの一部であってもよく、通信経路５４２はＮＭＤ５１２，５１４，５１６のローカルエリアネットワークをＷＡＮを介してコンピューティングデバイス５０４にリンクする（通信経路は図示せず）アクセスポイントを備えていてもよい。同様に、ＮＭＤ５１２，５１４，５１６の各々は、そのようなアクセスポイントを介して互いと通信してもよい。

同様に、ＣＲ５２２並びにＰＢＤ５３２，５３４，５３６，５３８は、前項で説明したように、ローカルエリアネットワーク及び／又はローカル再生ネットワークの一部であってもよく、また通信経路５４４は、ＣＲ５２２及びＰＢＤ５３２，５３４，５３６，５３８のローカルエリアネットワーク及び／又はローカル再生ネットワークをＷＡＮを介してコンピューティングデバイス５０６にリンクするアクセスポイントを備えていてもよい。このため、ＣＲ５２２並びにＰＢＤ５３２，５３４，５３６，５３８の各々はまた、そのようなアクセスポイントを介して互いと通信してもよい。

１つの例では、通信経路５４２及び５４４は同じアクセスポイントを備えていてもよい。１つの例では、ＮＭＤ５１２，５１４，５１６、ＣＲ５２２、並びにＰＢＤ５３２，５３４，５３６，５３８の各々は、家庭用の同じアクセスポイントを介してクラウドネットワーク５０２にアクセスしてもよい。

図５に示すように、ＮＭＤ５１２，５１４，５１６、ＣＲ５２２、並びにＰＢＤ５３２，５３４，５３６，５３８の各々はまた、通信手段５４６を介して他のデバイスの１又は複数と直接通信してもよい。本明細書に記載の通信手段５４６は、１又は複数のタイプのネットワークを介し、１又は複数のネットワークプロトコルに従ったデバイス間の１又は複数の形式の通信を含んでいてもよく、及び／又は１又は複数の他のネットワークデバイスを介した通信を含んでいてもよい。たとえば、通信手段５４６はＢｌｕｅｔｏｏｔｈ（登録商標）（ＩＥＥＥ８０２．１５）、ＮＦＣ、ワイヤレスダイレクト、及び／又は独自規格ワイヤレスの１又は複数を主として備えていてもよい。

１つの例では、ＣＲ５２２はＢｌｕｅｔｏｏｔｈ（登録商標）を介してＮＭＤ５１２と通信してもよく、且つ別のローカルエリアネットワークを介してＰＢＤ５３４と通信してもよい。別の例では、ＮＭＤ５１４は別のローカルエリアネットワークを介してＣＲ５２２と通信してもよく、且つＢｌｕｅｔｏｏｔｈ（登録商標）を介してＰＢＤ５３６と通信してもよい。さらに別の例では、ＰＢＤ５３２，５３４，５３６，５３８の各々はローカル再生ネットワークを介し、スパニングツリープロトコルに従って互いと通信してもよく、一方でローカル再生ネットワークとは異なるローカルエリアネットワークを介してＣＲ５２２とそれぞれ通信してもよい。他の例も可能である。

場合によっては、ＮＭＤ５１２，５１４，５１６、ＣＲ５２２、並びにＰＢＤ５３２，５３４，５３６，５３８間の通信手段は、デバイス間の通信のタイプ、ネットワーク状態、及び／又はレイテンシ要求に応じて変化してもよい。たとえば、ＰＢＤ５３２，５３４，５３６，５３８と共にＮＭＤ５１６を家庭に最初に導入するときに、通信手段５４６を使用してもよい。ある場合には、ＮＭＤ５１６はＮＦＣを介してＰＢＤ５３８にＮＭＤ５１６に対応する識別情報を送信し、またＰＢＤ５３８はＮＦＣ（又は他の何らかの形式の通信）を介してＮＭＤ５１６にローカルエリアネットワーク情報を送信してもよい。しかしながら、ひとたびＮＭＤ５１６が家庭内で構成されれば、ＮＭＤ５１６とＰＢＤ５３８との間の通信手段は変化してもよい。たとえば、ＮＭＤ５１６は通信経路５４２、クラウドネットワーク５０２、及び通信経路５４４を介して続けてＰＢＤ５３８と通信してもよい。別の例では、ＮＭＤとＰＢＤとは、ローカル通信手段５４６を介しては決して通信しないようにしてもよい。さらに別の例では、ＮＭＤとＰＢＤとは、主としてローカル通信手段５４６を介して通信してもよい。他の例も可能である。

例示的な例では、ＮＭＤ５１２，５１４，５１６を、ＰＢＤ５３２，５３４，５３６，５３８を制御するための音声入力を受信するように構成してもよい。利用可能な制御コマンドは、主として再生音量の制御、再生トランスポートの制御、音楽ソースの選択、及びグループ化など、前述した任意のメディア再生システム制御を含んでいてもよい。たとえば、ＮＭＤ５１２はＰＢＤ５３２，５３４，５３６，５３８の１又は複数を制御するための音声入力を受信してもよい。音声入力を受信したことに応答して、ＮＭＤ５１２は通信経路５４２を介して、処理を目的として音声入力をコンピューティングデバイス５０４に送信してもよい。１つの例では、コンピューティングデバイス５０４は音声入力を同等のテキストコマンドに変換し、そのテキストコマンドを解析してコマンドを識別してもよい。コンピューティングデバイス５０４は、その後、続けてコンピューティングデバイス５０６にテキストコマンド送信してもよい。別の例では、コンピューティングデバイス５０４は音声入力を同等のテキストコマンドに変換し、次いで、続けてそのテキストコマンドをコンピューティングデバイス５０６に送信してもよい。次いで、コンピューティングデバイス５０６は、テキストコマンドを解析して１又は複数の再生コマンドを識別してもよい。

たとえば、テキストコマンドが「『ゾーン１』で『ストリーミングサービス１』」から『アーティスト１』による『トラック１』を再生して」である場合、コンピューティングデバイス５０６は（ｉ）「ストリーミングサービス１」から入手できる「アーティスト１」による「トラック１」のＵＲＬと、（ｉｉ）「ゾーン１」内の少なくとも１つの再生デバイスとを識別してもよい。この例では、「ストリーミングサービス１」からの「アーティスト１」による「トラック１」のＵＲＬは、コンピューティングデバイス５０８を指すＵＲＬであってもよく、また「ゾーン１」は結合ゾーン５３０であってもよい。このように、ＵＲＬとＰＢＤ５３６及び５３８の一方又は両方とを識別すると、コンピューティングデバイス５０６は、通信経路５４４を介してＰＢＤ５３６及び５３８の一方又は両方に識別された再生用のＵＲＬを送信してもよい。ＰＢＤ５３６及び５３８の一方又は両方は迅速に反応して、受信したＵＲＬに従ってコンピューティングデバイス５０８からオーディオコンテンツを取得し、且つ「ストリーミングサービス１」から「アーティスト１」による「トラック１」の再生を開始してもよい。

さらに別の例では、コンピューティングデバイス５０４は何らかの処理を実行してユーザの関連コマンド又はインテントを識別し、且つ当該音声入力に関連したメディアコンテンツに関する情報をコンピューティングデバイス５０６に提供してもよい。たとえば、コンピューティングデバイス５０４は音声入力の音声テキスト変換を実行し、且つ音声入力を解析して、コマンド又はインテント（たとえば、再生、一時停止、停止、音量を上げる、音量を下げる、スキップ、次の曲を再生、グループ化、グループ解除）をコマンドの実行方法に関する他の情報と共に生成してもよい。コンピューティングデバイス５０４又はコンピューティングデバイス５０６は、コンピューティングデバイス５０４によって決定されたコマンド又はインテントにどのＰＢＤコマンドが対応しているかを判定してもよい。音声入力から決定されたコマンド若しくはインテント及び／又はコマンドの実行に関連する他の情報を、コンピューティングデバイス５０４からコンピューティングデバイス５０６に送信してもよい。コンピューティングデバイス５０４上での処理はアプリケーション、モジュール、アドオンソフトウェア、ネイティブのネットワークマイクロホンシステムのソフトウェアプラットフォームとの統合、及び／又はネイティブのネットワークマイクロホンシステムのソフトウェアプラットフォームによって実行してもよい。

当業者であれば、上記は単なる１つの例示的な例であり、他の実装形態も可能であることを理解する。ある場合には、上記のように複数のデバイス５００の１又は複数によって実行される動作は、複数のデバイス５００内の１又は複数の他のデバイスによって実行されてもよい。たとえば、音声入力からテキストコマンドへの変換を、ＮＭＤ５１２、コンピューティングデバイス５０６、ＰＢＤ５３６、及び／又はＰＢＤ５３８などの別のデバイス又は複数のデバイスによって代替的に、部分的に、若しくは完全に実行してもよい。同様に、ＵＲＬの識別をＮＭＤ５１２、コンピューティングデバイス５０４、ＰＢＤ５３６、及び／又はＰＢＤ５３８などの別のデバイス又は複数のデバイスによって代替的に、部分的に、若しくは完全に実行してもよい。

ｆ．例示的なネットワークマイクロホンデバイス
図６は、図５のＮＭＤ５１２，５１４，５１６の１又は複数となるように構成され得る例示的なネットワークマイクロホンデバイス６００の機能ブロック図を示す。図示されているように、ネットワークマイクロホンデバイス６００はプロセッサ６０２と、メモリ６０４と、マイクロホンアレイ６０６と、ネットワークインタフェース６０８と、ユーザインタフェース６１０と、ソフトウェアコンポーネント６１２と、スピーカ６１４とを備える。当業者であれば、他のネットワークマイクロホンデバイスの構成及び配置も可能であることを理解する。たとえば、ネットワークマイクロホンデバイスは、別法としてスピーカ６１４を除外するか、或いはマイクロホンアレイ６０６の代わりに単一のマイクロホンを有していてもよい。

プロセッサ６０２は、汎用プロセッサ又は専用プロセッサ若しくはコントローラの形態をとり得る１又は複数のプロセッサ及び／又はコントローラを備えていてもよい。たとえば、処理ユニット６０２はマイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路、及びデジタル信号プロセッサなどを備えていてもよい。メモリ６０４は、これらの機能を実行するためにプロセッサ６０２によって実行可能な１又は複数のソフトウェアコンポーネントをロードできるデータ記憶装置であってもよい。したがって、メモリ６０４は、主として、ランダムアクセスメモリ、レジスタ、キャッシュなどの揮発性記憶媒体と、読取り専用メモリ、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリ、及び／又は光学記憶装置などの不揮発性記憶媒体とが例として挙げられる、１又は複数の非一時的なコンピュータ可読記憶媒体を備えていてもよい。

マイクロホンアレイ６０６は、ネットワークマイクロホンデバイス６００の周辺環境の音声を検出するように配置された複数のマイクロホンであってもよい。マイクロホンアレイ６０６は、主としてコンデンサマイクロホン、エレクトレットコンデンサマイクロホン、又はダイナミックマイクロホンなどの既知であるか、又は今後開発される任意のタイプのマイクロホンであってもよい。１つの例では、マイクロホンアレイを、ネットワークマイクロホンデバイスに対する１又は複数の方向から音声を検出するように配置してもよい。マイクロホンアレイ６０６は周波数範囲の一部に敏感であってもよい。１つの例では、マイクロホンアレイ６０６の第１のサブセットは第１の周波数範囲に敏感である一方で、マイクロホンアレイの第２のサブセットは第２の周波数範囲に敏感であってもよい。マイクロホンアレイ６０６を、音源（たとえば、音声、可聴音）の位置情報を捕捉し、及び／又は背景雑音のフィルタリングを補助するようにさらに構成してもよい。特に、いくつかの実施形態では、マイクロホンアレイは複数のマイクロホンではなく、単一のマイクロホンのみで構成されていてもよい。

ネットワークインタフェース６０８を、図５に関連してＣＲ５２２、ＰＢＤ５３２～５３８、クラウドネットワーク５０２内のコンピューティングデバイス５０４～５０８、及び他のネットワークマイクロホンデバイスなどを主として含む、様々なネットワークデバイス間の無線及び／又は有線通信を容易にするように構成してもよい。このため、ネットワークインタフェース６０８はこれらの機能を実行するのに適した任意の形態をとっていてもよく、その例としてはＥｔｈｅｒｎｅｔインタフェース、シリアルバスインタフェース（たとえば、ＦｉｒｅＷｉｒｅ、ＵＳＢ２．０など）、無線通信を容易にするように構成されたチップセット及びアンテナ、並びに／又は有線及び／又は無線通信を提供する他の任意のインタフェースを挙げることができる。１つの例では、ネットワークインタフェース６０８は業界標準に基づいていてもよい（たとえば、ＩＥＥＥ８０２．３を含む赤外線規格、無線規格、及び有線規格、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５を含む無線規格、並びに４Ｇなどの移動体通信規格など）。

ネットワークマイクロホンデバイス６００のユーザインタフェース６１０を、ネットワークマイクロホンデバイスとのユーザ対話を容易にするように構成してもよい。１つの例では、ユーザインタフェース６０８は、ユーザがネットワークマイクロホンデバイス６００に入力を直接提供できるようにするために、主として物理的ボタン、タッチセンサ画面及び／又は面上に設けられるグラフィカルユーザインタフェースなどの１又は複数を備えていてもよい。ユーザインタフェース６１０は、視覚的フィードバック及び／又は音声フィードバックをユーザに提供するための１又は複数のライトとスピーカ６１４とをさらに備えていてもよい。１つの例では、ネットワークマイクロホンデバイス６００を、スピーカ６１４を介してオーディオコンテンツを再生するようにさらに構成してもよい。

ＩＩＩ．音声検出の部屋補正のための例示的なシステム、装置、及び方法
多くの場合、ネットワークマイクロホンデバイスを再生デバイスに近接して配置してもよい。たとえば、再生デバイスをネットワークマイクロホンデバイスと同じ部屋に配置してもよい。

本明細書に記載の実施例は、ＮＭＤが動作する周辺環境の音響特性をＮＭＤに提供することを含む。この周辺環境は、寝室やリビングルームなどの家庭内の部屋であってもよい。周辺環境の音響特性により、音声が室内でどのように伝わるかが定義されてもよい。周辺環境の音響特性は、ＮＭＤに向かって発せられた音声入力を解釈するためにＮＭＤが使用してもよい。多くの場合、ネットワークマイクロホンデバイス（ＮＭＤ）を再生デバイスに近接して配置してもよい。たとえば、再生デバイスをＮＭＤと同じ部屋に配置してもよい。

音響特性は通常、周辺環境内の表面によって定義される。たとえば、室内の硬い表面が音声を反射することがある。その一方で、柔らかい表面は音声を吸収することがある。周辺環境にこれらの異なるタイプの表面が存在し、且つ配置されることは、その部屋の音響特性とＮＭＤの音声入力を解釈する能力とに影響を与えることになる。

ＮＭＤはこれらの音響特性を考慮して、発せられた音声入力を正確に回収する必要があり得る。また、場合によっては、オーディオコンテンツは再生デバイスによって、ＮＭＤが音声入力を受信すると同時に再生されてもよい。周辺環境及び／又はコンテンツ再生時の音響特性に関する知識を、音声入力を解釈するためにＮＭＤが使用してもよい。

図７～図１１は、開示された動作環境内で実行できる実施形態を提示している。

図７は、ＮＭＤによって受信される音声入力の解釈を改善するために実行され得る機能のフローチャートである。いくつかの例では、記載したこれらの機能の１又は複数を再生デバイスによって実行してもよい。他の例では、５０４～５０８などのコンピューティングデバイスはまた、再生デバイスと連携して、或いはこれの代わりにこれらの機能の１又は複数を実行してもよい。コンピューティングデバイスは再生デバイスと関連付けられていてもよく、且つ再生デバイスと関連付けられた処理を実行してもよい。

ステップ７０２において、周辺環境の音響特性を取得してもよい。この音響特性を、再生デバイスが動作している周辺環境と関連付けてもよい。この音響特性を様々な方法で決定していてもよい。たとえば、再生システムは、いくつかのキャリブレーション段階を通じて周辺環境の音響特性を既に決定していてもよい。メディア再生システムの再生デバイスはマイクロホンとスピーカとを有していてもよい。スピーカは１又は複数のトーンを出力してもよく、また１又は複数のスピーカはそれぞれのマイクロホンを使用してトーンを受信してもよい。このトーンは音声における１又は複数の周波数であってもよい。再生デバイスの各々はトーンを出力してもよい。複数の再生デバイスによって受信されたトーンに基づいて、周辺環境の音響特性を決定することができる。別の例では、別のネットワークデバイス（制御デバイス、第１の再生デバイス、又はＮＭＤ自体でさえ）は、第２の再生デバイスのスピーカによって出力されるテストトーンを受信するマイクロホンを備えていてもよい。再生デバイスではなく、或いは再生デバイスに加えて、他のネットワークデバイスは受信したテストトーンを解析して、周辺環境の音響特性を決定してもよい。他の構成も可能である。

当該トーンのスペクトル応答、空間応答、及び時間応答によって音響特性を定義してもよい。スペクトル応答は、マイクロホンで受信される音声エネルギーの解析結果であってもよい。空間応答は、マイクロホンで受信される音声エネルギーの方向の解析結果であってもよい。時間応答は、マイクロホンで受信される音声エネルギーの反射に対する解析結果であってもよい。本再生システムはこれらの応答を解析し、場合によっては当該トーンを受信した場所からの方向も考慮して周辺環境の音響特性を決定してもよい。この音響特性を示す通知を、再生デバイス及び／又コンピューティングデバイス５０４～５０８の１又は複数に格納してもよい。

別の例では、部屋の大きさ、部屋の天井の高さ、部屋にある家具などの周辺環境に関する既知の特性に基づいて、音響特性を事前に定義してもよい。コンピューティングデバイス５０４～５０８の１又は複数によって維持されるデータベースにおいて、異なるタイプの特徴を有する部屋の音響特性を格納してもよい。コンピューティングデバイス上に格納される音響特性を、特定の特徴を有する部屋に対する以前の解析に基づいて決定していてもよい。ユーザはメディア再生システムの制御デバイス上に部屋の特徴を入力してもよく、また制御デバイスはこのデータベースにアクセスして部屋の音響特性を決定してもよい。次いで、これらの音響特性を当該環境内に配置された再生デバイスに提供してもよく、或いはこれらをコンピューティングデバイスに格納してもよい。

１つの例として、音響特性は部屋の左側に硬い表面が存在し、右側に柔らかい表面が存在し、且つこの部屋が長方形形状であることを示してもよい。要するに、音響特性によって音響的観点からその部屋を特徴付けることができる。

メディア再生システムは複数の再生デバイスを備えていてもよい。再生デバイスの各々は、再生デバイスが動作する周辺環境の音響特性を有していてもよい。ステップ７０４において、１又は複数のＮＭＤを識別してもよい。１又は複数のＮＭＤは同じ周辺環境内にあってもよい。いくつかの例では、ＮＭＤに音響特性を送信する再生デバイスはＮＭＤの直近にある再生デバイスであってもよい。別の例では、ＮＭＤに音響特性を送信する再生デバイスはＮＭＤと同じゾーンにある再生デバイスであってもよい。その近接性を再生デバイス及び／又はＮＭＤの設定中、いくつかのキャリブレーションプロセスにおいて示してもよい。たとえば、ＮＭＤは自身の存在提示を再生デバイスに対して送信してもよい。この存在の有無を再生デバイス内の状態変数によって提示してもよい。再生デバイスはこの状態変数にアクセスしてＮＭＤを識別してもよい。また、ＮＭＤも再生デバイスの存在を識別する同様の状態変数を有していてもよい。

他の例では、メディア再生システムの再生デバイスをＮＭＤと結合（ペアリング又はグループ化）してもよい。この結合はまた、再生デバイスとＮＭＤとが同じ部屋又はゾーン内にあるか、若しくはコンテンツを同期して再生しているなど、これらが互いに近接していることを示してもよい。再生デバイスとＮＭＤとの結合は、いくつかの点で再生デバイスの結合方法と同様であってもよい。この結合を、再生デバイスによって格納された状態変数に反映してもよい。ＮＭＤを再生デバイスと結合している場合、ＮＭＤを識別するように再生デバイスを配置してもよい。さらに、ＮＭＤを移動させて別の再生デバイスと結合する場合、別の再生デバイス内の状態変数を更新して、ＮＭＤとの結合を反映するようにしてもよい。同様に、ＮＭＤは自身の状態変数を更新して、新たな再生デバイスの存在を反映するようにしてもよい。

いくつかの例では、結合された再生デバイス及びＮＭＤにおいて、それらの間のレイテンシを低減するために様々なネットワーキング技術を使用してもよい。たとえば、ＷＡＮネットワーク接続ではなくローカルネットワーク接続（ＬＡＮ又はＢｌｕｅｔｏｏｔｈ（登録商標））を通信に使用してもよい。別の例として、再生デバイスをＮＭＤと結合している間に、通信がたとえば「典型的な」２．４Ｇｈｚ通信から５Ｇｈｚ通信に切り替わるなど、ローカルネットワーク内で異なる周波数範囲に戻る可能性がある。さらに別の例として、再生デバイスをＮＭＤと結合した場合に、通信が２．４Ｇｈｚ又は５Ｇｈｚスペクトルのいずれかの予約チャネルに切り替わるか、或いはたとえば、再生デバイスが他のネットワークトラフィックの中継ノードとして機能することを停止するなど、他のネットワークトラフィックが低減される可能性がある。他の構成も可能である。

ステップ７０６において、音声入力に適用させるために音響特性を提供してもよい。１つの実施形態では、通信ネットワーク５４６の１又は複数を介してＮＭＤに対し、再生デバイスからメッセージとして音響特性を送信してもよい。他の実施形態では、再生デバイスは、コンピューティングデバイス上の音響特性を通信リンク５４２を介してＮＭＤに送信させてもよい。さらに別の実施形態では、音響特性は再生デバイスと関連付けられたコンピューティングデバイス上にあってもよく、また再生デバイスは、ＮＭＤと関連付けられたコンピューティングデバイスに対し音響特性にアクセスさせてもよい。他の構成も可能である。

いくつかの実施形態では、再生デバイスは、音響特性をＮＭＤに提供する必要がない場合がある。代わりに、ＮＭＤによってコンピューティングデバイス自体から音響特性を取得することが可能であってもよい。ＮＭＤは、自身に近接した（結合されているか、ペアリングされているか、又はその他の方法で）再生デバイスの通知を提供してもよく、また、コンピューティングデバイスは周辺環境の音響特性を提供してもよい。他の構成も可能である。

ＮＭＤは、通常マイクロホン応答を介して音声入力を処理することができる。マイクロホン応答は、周波数に対するマイクロホンの感度の指標である。

いくつかの実施形態では、ＮＭＤは自ら受信した音声入力に音響特性を適用して、音声入力における歪みを補正してもよい。このように、ＮＭＤによって音声入力を良好に解釈することが可能であってもよい。ＮＭＤは、この音響特性を自ら適用してもよく、及び／又はＮＭＤでの処理がクラウドベースであり得る場合に、コンピューティングデバイスに処理をオフロードしてもよい。

ＮＭＤは、音声入力への音響特性の適用時に音響特性に基づいてフィルタを定義してもよい。このフィルタは、周辺環境におけるスペクトル応答、空間応答、及び時間応答を含んでいてもよい。ＮＭＤは、自身が受信した音声入力にフィルタを適用して、音声入力を解釈する前に歪みを補正してもよい。このフィルタを、以下の導出に基づいて決定してもよい。
Ｘａ（ｗ）×Ｐ（ｗ）×ｈ（ｗ）×ｍ（ｗ）＝Ｙａ（ｗ）
ここで、Ｘａはキャリブレーショントーンであり、Ｐは再生デバイスのスピーカ応答であり、ｈは室内応答（たとえば、室内の音響特性）であり、ｍはマイクロホン応答であり、Ｙａは処理応答であり、これは、キャリブレーションプロセス中に送信されるトーンに対応する受信済みトーンであってもよい。符号×は周波数領域の畳み込み関数を表す。Ｘａ、Ｐ、ｍ、及びＹａは分かっているので、室内応答（たとえば、フィルタ）を次のように算出してもよい。
ｈ^－１（ｗ）：Ｘａ（ｗ）×Ｐ（ｗ）×ｍ（ｗ）＝Ｙａ（ｗ）×ｈ^－１（ｗ）
次いで、音声入力Ｙｂを受信した場合、室内応答ｈ（たとえば、フィルタ）を適用して、音声入力Ｘｂを次のように決定してもよい。
Ｘｂ（ｗ）＝Ｙｂ（ｗ）×ｈ^－１（ｗ）×Ｐ^－１（ｗ）×ｍ^－１（ｗ）

いくつかの実施形態では、再生システムは周辺環境の変化を考慮して、周辺環境の音響特性を周期的に決定してもよい。この場合、ＮＭＤが受信した音声入力に最新の音響特性を適用してそれを適切に解釈できるように、１又は複数の再生デバイスは動作７０２～７０６を周期的に実行してもよい。

図８は、ＮＭＤによる音声入力の回収を改善するために実行され得る機能を表した別のフローチャートである。いくつかの例では、記載したこれらの機能の１又は複数を再生デバイスによって実行してもよい。他の例では、コンピューティングデバイス５０４～５０８などはまた、再生デバイスと連携して、或いは再生デバイスの代わりに、これらの機能の１又は複数を実行してもよい。コンピューティングデバイスは再生デバイスと関連付けられていてもよく、且つ再生デバイスと関連付けられた処理を実行してもよい。

ステップ８０２において周辺環境の音響特性を取得してもよく、ステップ８０４においてＮＭＤを識別してもよく、またステップ８０６において音響特性を提供してもよい。この音響特性を、ＮＭＤ及び／又はＮＭＤと関連付けられたコンピューティングデバイスに提供してもよい。

場合によっては、ＮＭＤは、メディア再生システムが同時にオーディオコンテンツを再生している周辺環境において動作してもよい。ＮＭＤは、オーディオコンテンツが同時に再生されている場合でも音声入力を受信してもよい。

ステップ８０８において、オーディオコンテンツを提供してもよい。オーディオコンテンツをＮＭＤ及び／又はＮＭＤと関連付けられたコンピューティングデバイスに提供してもよい。このコンテンツは、たとえば、再生デバイスによって再生される音楽のストリームであってもよい。再生デバイスは、ＮＭＤと同じゾーン内にあるＮＭＤに近接しているＮＭＤに対して、或いはＮＭＤと結合され得る（又はグループ化され得る）ＮＭＤに対してオーディオコンテンツを提供してもよい。いくつかの実施形態では、たとえばＮＭＤによる処理がクラウドベースである場合などに、コンピューティングデバイスを介してこのコンテンツをＮＭＤに提供してもよい。さらに別の実施形態では、たとえば、ＮＭＤ及び／又は再生デバイスによる処理がクラウドベースである場合などに、再生デバイスと関連付けられたコンピューティングデバイスを介してＮＭＤと関連付けられたコンピューティングデバイスに対してコンテンツを提供してもよい。

ステップ８０８において、音響特性（及び、必要に応じてオーディオコンテンツ）を音声入力に適用してもよい。たとえば、ＮＭＤ（又はＮＭＤと関連付けられたコンピューティングデバイス）は、自身が受信した音声入力にフィルタを適用して、その音声入力を解釈してもよい。たとえば、ＮＭＤ（又はＮＭＤと関連付けられたコンピューティングデバイス）は、音声入力を良好に分離するために、音声入力と共に再生されるオーディオコンテンツを使用してもよい。音声入力を解釈するために、再生デバイスによって再生されるオーディオコンテンツは事実上ノイズであってもよい。この点において、受信した音声入力を良好に分離するために、受信した音声入力からオーディオコンテンツを除去してもよい。

図９は、音声入力の解釈時に、ＮＭＤ及び／又は関連付けられたコンピューティングデバイスによって実行される機能のフローチャートである。ステップ９０２において、周辺環境の音響特性を示す通知を取得してもよい。ステップ９０４において、再生デバイスにより再生中のオーディオコンテンツも必要に応じて受信してもよい。再生デバイスは、ＮＭＤが配置されている中で同じゾーン内にあるか、又はＮＭＤと結合されていてもよい。ステップ９０６において、たとえばＮＭＤによって音声入力を受信してもよい。音声入力は音声コマンドであってもよい。ＮＭＤは、ＮＭＤ上の何らかのボタンが押下されたこと、又はそれが音声入力であることを示す音声入力内のコマンドワードによって、音声入力を受信したことを知る場合がある。ステップ９０８において、フィルタ及び／又は再生デバイスによって再生されるオーディオコンテンツのうちの１又は複数を適用若しくは使用して、受信した音声入力を解釈してもよい。

図１０は、たとえば再生デバイスに周辺環境の音響特性を提供させるのではなく、ＮＭＤがこれを決定できるようにする機能のフローチャートである。この機能を、再生デバイス及び／又は再生デバイスと関連付けられたコンピューティングデバイスによって実行してもよい。

ＮＭＤは、１又は複数の再生デバイスにトーンの再生を命じる指示を送信してもよい。ＮＭＤが指示を送信する再生デバイスは、ＮＭＤに近接した再生デバイス、及び／又はＮＭＤと結合されている（又はグループ化されている）か、若しくはＮＭＤと同じゾーン内にある再生デバイスを含んでいてもよい。

ステップ１００２において、オーディオトーンの再生を命じる指示を受信してもよい。この指示をＮＭＤ又はＮＭＤと関連付けられたコンピューティングデバイスから受信してもよい。これに応答して、ステップ１００４において再生デバイスによってオーディオトーンを出力してもよい。ＮＭＤはマイクロホンアレイ６０６を使用してこのトーンを受信してもよい。マイクロホンアレイ６０６はトーンの振幅を示す通知を提供してもよい。さらに、マイクロホンアレイ６０６はトーンの方向を示す通知を提供してもよい。この方向を、複数の再生デバイスからのトーン受信に基づいて決定してもよい。次いで、ＮＭＤ及び／又は関連付けられたコンピューティングデバイスは、複数の再生デバイスからのトーン受信に基づいて周辺環境の音響特性を決定してもよい。このように、ＮＭＤはこの音響特性を再生デバイスから取得する必要がない場合がある。

マイクロホンアレイ６０６は、ＮＭＤが音声入力の発信元の方向を決定できるようにしてもよい。この方向を、オーディオコンテンツの再生を改善するために再生デバイスによって使用することができる。たとえば、メディア再生システムは、１又は複数の再生デバイスから発生させるオーディオ音を音声入力の発信元と同じ方向に向けてもよい。これはリスナーが位置する方向であってもよい。他の構成も可能である。

図１１は、ＮＭＤによって決定された指向性を使用することに関連した、再生デバイス及び／又は関連付けられたコンピューティングデバイスによって実行される機能のフローチャートである。

ステップ１１０２において、方向を示す通知を受信してもよい。これをＮＭＤ及び／又は関連付けられたコンピューティングデバイスから受信してもよい。この方向は、ＮＭＤが音声入力を受信した場所、したがってユーザがその周辺環境において位置し得る場所を示していてもよい。再生デバイスは複数のスピーカを有していてもよく、これらの出力を制御して、再生デバイスによって再生されるオーディオコンテンツの指向性に効果をもたらすようにしてもよい。ステップ１１０４において、再生デバイスはこの指向性を使用して、複数のスピーカのオーディオ出力を調整してもよい。このオーディオ出力は音楽コンテンツの再生であってもよい。再生デバイスは、スピーカによって出力されるオーディオ信号の位相を調整して、ＮＭＤによって指定される指向性に従ってオーディオ出力の指向性を生成してもよい。この点において、オーディオコンテンツはユーザに対して指向され得、したがってオーディオ聴取体験が改善されることになる。付加的に、又は代替的に、再生デバイスがオーディオ出力の振幅（たとえば、音量）を調整することもある。場合によっては、ＮＭＤがオーディオ出力を発生させることもある。この音声出力は、音声入力に対する音声応答であるか、又はビープ音やトーンなどの他の何らかのタイプの音声であってもよい。さらに付加的に、又は代替的に、再生デバイスがこの指向性を使用して、ＮＭＤの代わりに、若しくはＮＭＤに加えて、当該オーディオ出力を出力するのに適している可能性のある再生デバイスを識別してもよい。たとえば、識別された再生デバイスはリスナーのすぐ手前にあり得、これによってリスナーがオーディオ出力を容易に聴取できる。他の構成も可能である。

ＩＶ．メディア再生システムの音声制御のための例示的なシステム、装置、及び方法
本明細書に記載の例は、メディア再生システムを制御することを含んでいてもよい。特に、図１２は、音声応答を再生するための方法に関する例示的なフロー図１２００を示す。方法１２００は、たとえば、図１のメディア再生システム１００、図２の再生デバイス２００の１又は複数、図３の制御デバイス３００の１又は複数、及び図５のシステム５００における複数のデバイスの１又は複数を含む動作環境内で実行できる方法の実施形態を提示している。方法１２００は、本明細書に記載しているような様々な通信経路を介してネットワークマイクロホンシステムとメディア再生システムとの間で情報の送受信を行うこと、及び／又は「ネットワーク再生システム及びネットワークマイクロホンシステムを含むメタデータ交換（ＭｅｔａｄａｔａＥｘｃｈａｎｇｅＩｎｖｏｌｖｉｎｇａＮｅｔｗｏｒｋｅｄＰｌａｙｂａｃｋＳｙｓｔｅｍａｎｄａＮｅｔｗｏｒｋｅｄＭｉｃｒｏｐｈｏｎｅＳｙｓｔｅｍ）」と題する２０１６年２月２２日に出願された出願第６２／２９８，３５０号明細書に記載のメタデータ交換チャネルを使用することを含んでもよい。本出願は、その全体を参照によって本明細書に引用するものとする。方法１２００は１又は複数の操作、機能、又はアクションを含んでいてもよい。

いくつかの例では、ＮＭＤ５１２，５１４，５１６の１又は複数を、１又は複数のネットワーク若しくは通信経路５４２、５４６に接続してもよい。ＮＭＤを、メディア再生システム（たとえば、コンピューティングデバイス５０６、ＣＲ５２２、ＰＢＤ５３２，５３４，５３６，５３８）と統合又はインタフェースするように構成してもよい。ＮＭＤはネットワークマイクロホンシステム（たとえば、ＮＭＤ５１２，５１４，５１６，５０４）に含まれていてもよい。

ブロック１２０２において、ＮＭＤがメディア再生システムとインタフェースする、又はこれをメディア再生システムと関連付けるようにＮＭＤを構成するために、ユーザは、たとえばブロック１２０２でＮＭＤ又はネットワークマイクロホンシステム若しくはメディア再生システムと関連付けられたアプリケーションを起動するための制御デバイス（たとえば、ＣＲ５２２）を選択してもよい。このアプリケーションは、ネットワークマイクロホンシステム及び／又はメディア再生システムの機能若しくは設定を制御するためのアプリケーションであってもよい。ネットワークマイクロホンシステムは、ネットワークマイクロホンシステムに機能の追加又は強化をもたらすために利用可能な１又は複数の専用アドオン機能を有していてもよい。

ブロック１２０４において、ネットワークマイクロホンシステム用に利用可能なアドオン機能をユーザが選択できるように表示してもよい。利用可能なアドオン機能を表示している例示的なユーザインタフェース１３００を、図１３Ａに示している。ＮＭＤは１又は複数の利用可能なアドオン機能１３０２，１３０４，１３０６を有していてもよい。機能１３０２は、たとえば、メディア再生システムの再生を制御することができる音楽制御機能であってもよい。ブロック１２０６において、制御デバイスは、音楽制御機能又はスキルをＮＭＤに追加するためのユーザ入力を受信してもよい。たとえば、ユーザは機能１３０２を選択することによって、音楽制御機能１３０２の追加を選択してもよい。音楽制御機能１３０２は、音楽制御機能又はスキルをユーザのためにネットワークマイクロホンシステムに追加するアプリケーションであってもよい。音楽制御機能１３０２の追加を選択すると、ディスプレイが切り替わってユーザインタフェース１３０８が表示され、ユーザからのアカウント情報の入力を促す。

ブロック１２０８において、制御デバイスは、ユーザインタフェース１３０８と入力フィールド１３１０及び１３１２とを介して音楽制御機能を追加するためのアカウント情報を受信してもよい。このアカウント情報は、ユーザがメディア再生システム及び／又は音楽サービスにおいて有するアカウントのものであってもよい。アカウント情報は当該アカウントのユーザ名とパスワードとを含んでいてもよい。ユーザ名をフィールド１３１０に入力してもよく、またパスワードをフィールド１３１２に入力してもよい。ユーザは送信ボタン１３１４などのボタンを選択してユーザ名とパスワードとを送信し、メディア再生システム（たとえば、コンピューティングデバイス５０６）及び／又は音楽サービス（たとえば、コンピューティングデバイス５０８）への認証作業を行ってもよい。アカウント情報をコンピューティングデバイス５０４、コンピューティングデバイス５０６、及び／又はコンピューティングデバイス５０８での認証作業のために、通信経路５４２，５４４，５４６及び／又はメタデータ交換チャネルのいずれかを介して送信してもよい。ひとたび認証されると、当該アカウントと関連付けられたユーザ情報はメディア再生システムからネットワークマイクロホンシステムに送信されてもよい。ユーザ情報はカスタム名（たとえば、カスタムゾーン名、カスタムプレイリスト名、カスタム曲名、カスタムアルバム名、カスタムアーティスト名など）、ユーザ情報と関連付けられた世帯識別子、ＰＢＤ識別子、及び／又はゾーン識別子であってもよい。カスタム名は、ユーザによって指定される任意の名前であってもよい。たとえば、メディア再生システムは、ゾーンに名前を付けるときにユーザが選択できるような共通のゾーン名のリストを提供し、及び／又はユーザにゾーンの名前入力時のオプションを付与してもよい。制御デバイス３００のインタフェースは共通のゾーン名のリストを表示し、及び／又は制御デバイス３００が入力（たとえば、音声、テキスト）を受け取ることによってユーザがカスタムゾーン名を入力できるフィールドを表示してもよい。カスタム名情報をシステム５００内の任意のデバイスに送信するか、又はこれと共有してもよい。

ブロック１２１０において、１つのデフォルトゾーン（たとえば、１又は複数の再生デバイス）又は複数のデフォルトゾーン（たとえば、異なるゾーンにおける少なくとも２つの再生デバイス、少なくとも２つのゾーンのグループ）をＮＭＤに対して決定してもよい。このデフォルトゾーン又は再生デバイスを、「デフォルト再生デバイス」と題する２０１６年２月２２日に出願された出願第６２／２９８，４１０号明細書に記載されているように決定してもよい。本出願は、その全体を参照によって本明細書に引用するものとする。

いくつかの態様では、ユーザは初期構成又は設定中にデフォルトゾーンを指定してもよい。図１３Ｃに示すユーザインタフェース１３１６は、ＮＭＤと関連付けるためのデフォルト再生ゾーンをユーザが選択できるようにする例示的なユーザインタフェースを示している。ユーザインタフェース１３１６は、利用可能な再生ゾーン１３１８のリストを表示してもよい。表示される利用可能な再生ゾーンの名前は、ブロック１２０８で入力済みのユーザアカウントと関連付けられたカスタム名を含んでいてもよい。たとえば、利用可能な再生ゾーン１３１８のリストは、「リビングルーム」と、「キッチン」と、カスタムゾーン名である「ニックの部屋（Ｎｉｃｋ’ｓＲｏｏｍ）」とを含んでいてもよい。表示されるリストは、ＮＭＤ又は他の制御デバイスによって受信されたコマンドに応答して、音声応答及び／又は音楽を再生するためのデフォルトゾーンをユーザが指定できるように選択可能であってもよい。図１３Ｃは、ユーザがキッチンをデフォルトゾーンとして選択する例を示している。ユーザは、送信ボタンなどのボタン１３２０を選択してデフォルトゾーンの選択を確定し、且つその選択を送信してもよい。図１３Ｄに示す確認画面１３２２を表示して、設定プロセスが完了したことをユーザに通知してもよく、またユーザはボタン１３２６を選択して、確認画面１３２２を閉じてもよい。

ブロック１２１２において、ユーザ固有の再生情報を、たとえばメディア再生システムからネットワークマイクロホンシステムに送信してもよい。ユーザ固有の情報は、カスタムゾーン名、カスタムプレイリスト、及び／又はカスタムプレイリスト名などのカスタム再生情報であってもよい。いくつかの態様では、ユーザ固有の情報及び／又はユーザアカウントは世帯識別子（ＨＨＩ）と関連付けられていてもよい。ユーザ固有の再生情報を、たとえばメタデータ交換チャネル及び／又はメディア再生システムとネットワークマイクロホンシステムとの間の他の任意の通信経路を介して、メディア再生システム（たとえば、コンピューティングデバイス５０６、ＣＲ５２２、ＰＢＤ５３２、ＰＢＤ５３４、ＰＢＤ５３６、及び／又はＰＢＤ５３８）からネットワークマイクロホンシステム（たとえば、コンピューティングデバイス５０４、ＮＭＤ５１２、ＮＭＤ５１４、及び／又はＮＭＤ５１６）に対して送信してもよい。

コンピューティングデバイス５０４は、カスタム再生情報を動的変数として格納してもよく、動的変数は様々な変数型と動的に関連付けることができる変数であってもよい。たとえば、「ニックの部屋」はカスタムゾーン名であってもよく、これをゾーン変数型と関連付けられた動的変数として格納してもよい。別の例として、「ニックのお気に入り（Ｎｉｃｋ’ｓＦａｖｅｓ）」は、ユーザによって作成されたカスタム名を有するカスタムプレイリストであってもよい。「ニックのお気に入り」という名前は動的変数として格納され、且つプレイリスト変数型と関連付けられてもよい。このようにして、ネットワークマイクロホンシステムは、音声入力内でユーザと関連付けられたカスタム情報を認識し、且つ識別してもよい。

動的変数はテーブル又は他のデータ構造体に格納され、且つ様々な変数型と動的に関連付けられてもよい。たとえば、各動的変数は１又は複数の変数型と関連付けられてもよい。動的変数は、ユーザアカウントと関連付けられた識別子と共に格納されてもよい。たとえば、カスタムゾーン名である「ニックの部屋」を、メディア再生システムのゾーン識別子及び／又は「ニックの部屋」ゾーン内のＰＢＤの識別子と関連付けてもよい。別の例として、カスタムゾーン名である「ニックの部屋」をゾーン識別子タグと共に格納してもよく、及び／又は「ニックの部屋」ゾーン内のＰＢＤの識別子を「ニックの部屋」ゾーンのタグと共に格納してもよい。動的変数は、ユーザによって追加又は削除されるか、又はユーザアカウントと関連付けられた新たなカスタム名を含むように、常時、周期的、若しくは非周期的に更新されてもよい。カスタム名はデータベースに既に存在しているか、又は存在していない可能性のある、ユーザが指定した任意の名前であってもよい。

いくつかの例では、各動的変数は、メディア再生システムコマンドの動的変数を識別するために使用され得る識別子と共に格納されるか、又はこれと関連付けられてもよい。たとえば、「ニックの部屋」というゾーン名はメディア再生システムに固有のゾーン識別子と共に格納されてもよく、またコマンドが「ニックの部屋」内の再生デバイス上でアクションが実行されることを要求した場合、メディア再生システムコマンドと共に「ニックの部屋」に加えて、又はこれの代わりに「ニックの部屋」のゾーン識別子が提供されてもよい。

ブロック１２１４において、ユーザは、ＮＭＤによって受信され得るコマンド又は要求を発することによって、音声入力を提供してもよい。ネットワークマイクロホンシステムは音声入力を音声からテキストへと変換し、且つその言葉を解析して音声入力のシンタックスを決定することができる。音声コマンドは、音楽再生制御の範囲又はドメイン内にあるとネットワークマイクロホンシステムが認識できるような特定のシンタックスを有していてもよい。たとえば、ユーザは「キッチンとニックの部屋でビートルズの曲を再生して（ｐｌａｙＴｈｅＢｅａｔｌｅｓｉｎｔｈｅＫｉｔｃｈｅｎａｎｄＮｉｃｋ’ｓＲｏｏｍ）」と言う場合がある。ネットワークマイクロホンシステムは、「再生して」という言葉を音楽再生と関連付けられたインテントに対応するコマンドか、又はインテントそのものであると認識してもよく、ブロック１２１６において、この音声コマンドが音楽再生制御の範囲又はドメイン内にあると識別してもよい。

別の例では、１又は複数のメディア変数のインスタンス及び／又は１又は複数のゾーン変数のインスタンスが存在するか、若しくは含まれているということは、「再生して」というコマンドワードが「再生」インテントに対応していることを示していてもよい。ネットワークマイクロホンシステムは、音楽メタデータを含む音楽カタログを検索し、且つ、たとえばアーティストが「ビートルズ（ＴｈｅＢｅａｔｌｅｓ）」という名前であると判定することにより、「ビートルズ」がメディア変数のインスタンスに対応していると判定してもよい。ネットワークマイクロホンシステムは、「キッチン」及び／又は「ニックの部屋」が、共通のゾーン名及び／又はゾーン変数型と関連付けられた動的変数に基づいたゾーン名に対応していると判定してもよい。「再生して」というコマンドワードと「ビートルズ」というメディア変数及び／又は「ニックの部屋」との組み合わせにより、ネットワークマイクロホンシステムが、その音声入力が、要求された音楽の再生に関する音楽制御のインテントに対応していると判定できるようにしてもよい。

音声コマンドが音楽再生制御の範囲又はドメイン内にあると識別されたので、ネットワークマイクロホンシステムは、既知のアーティストである「ビートルズ（ＴｈｅＢｅａｔｌｅｓ）」に関連する音楽コンテンツの検索結果の優先度を上げ、既知のアーティストに何ら関連のない同音異義語である「ザ・カブトムシ（ｔｈｅｂｅｅｔｌｅｓ）」に関連する音楽コンテンツの検索結果の優先度を下げるか、又は除外してもよい。換言すれば、当該音声入力が音楽ドメイン内にあると識別したことに応答して、音声テキスト認識に使用される言葉又は語彙一式を、通常辞書では見つからないか、及び／又は辞書に掲載され得る言葉、或いは話し言葉とは異なる文体の言葉を含み得る、音楽ドメインに特有のものとなるように変更してもよい。

たとえば、その音声入力が音楽ドメイン内にあると判定したことに応答して、音声テキスト認識に使用される言葉又は語彙一式を、メディアアイテム（たとえば、アーティスト名、トラック名、アルバム名、曲名）に関するメタデータ情報を含むように更新してもよい。いくつかの態様では、音声入力は、たとえばカスタム名（たとえば、ゾーン、プレイリスト）、メディア変数、及び／又はアーティスト名、アルバム名、及び／又はトラック名などにおいて文字及び／又は記号の入力を含んでいてもよい。別の例として、音声テキスト変換から得られるテキスト中の言葉を、音楽制御コマンドを処理する前に、メディア特有の言葉を使用するように変更してもよい。メディア変数のインスタンス用の音声テキスト変換において、ネットワークマイクロホンシステムに使用される標準的な言葉に加えて、又はそれの代わりに、音楽メタデータ、メディアカタログ、及び／又はカスタム若しくはローカルメディア識別子（たとえば、プレイリスト名、トラック名、アルバム名、アーティスト名など）に見られる言葉を使用してもよい。同様に、ゾーン変数用の音声テキスト変換においてカスタムゾーン名を使用してもよい。

ブロック１２１８において、音楽制御コマンドを含む音声入力を処理してもよい。ネットワークマイクロホンシステムは、ユーザのインテント（たとえば、再生、一時停止、キューへの追加、グループ化、他のトランスポートの制御、制御デバイス３００を介して利用可能な制御）と関連付けられた様々な所定のシンタックスを有していてもよい。各インテントは、当該インテントと同じであるか若しくは類似している、又は同じでないか若しくは類似していない可能性のある１又は複数のメディア再生システムコマンドに対応していてもよい。たとえば、第１のゾーンから第２のゾーンへ音楽再生を転送するインテントは、現在再生中のメディアアイテム及び／又は再生キューを第１のゾーンから第２のゾーンに転送するメディア再生システムコマンドに対応していてもよい。別の例では、音楽を転送するインテントはメディア再生システムに第１のゾーンの再生キューを第２のゾーンの再生キューにコピーし、及び／又は第１のゾーンの状態変数を第２のゾーンの状態変数にコピーすることを命じる再生キューコピーコマンドに対応していてもよい。

さらに別の例として、音楽を転送するインテントは２つのメディア再生システムコマンドに対応していてもよい。これらの２つのコマンドは、第２のゾーンを第１のゾーンとグループ化し、次いでグループから第１のゾーンを除去して、第１のゾーンの状態を第２のゾーンへと実質的に転送してもよい。

メディア再生システムコマンドは、インテントがメディア再生システムコマンドに対応していると判定したことに応答して呼び出されるアプリケーションプログラムインタフェース（ＡＰＩ）を含んでいてもよい。ネットワークマイクロホンシステム及び／又はメディア再生システムは、ユーザのインテントとメディア再生システムコマンドとの間に定義されたマッピング又は対応関係を有していてもよい。

いくつかの例では、メディア再生システムコマンドを、クラウドネットワーク５０２内のコンピューティングデバイス（たとえば、コンピューティングデバイス５０４、コンピューティングデバイス５０６、コンピューティングデバイス５０８）に格納されたデータに対して実行してもよい。たとえば、別のプレイリスト又は再生キューにメディアアイテム（たとえば、トラック、アルバム、プレイリスト）を追加するインテントを、クラウドネットワーク５０２に格納されたプレイリスト又は再生キューに追加してもよい。再生キューの一部がクラウドネットワーク５０２内のプレイリスト又は再生キューの一部若しくは全体と一致するように、ＰＢＤ５３２，５３４，５３６，５３８に格納された再生キューを、クラウドネットワーク５０２に格納された再生リスト又は再生キューの変更に応じて更新してもよい。

特定の言葉、シンタックス、及び／又はフレーズを同じインテントと関連付けてもよい。たとえば、音声入力において「再生する」、「聴く」、又は「聞く」というコマンドワードを含むことは、メディア再生システムがメディアコンテンツを再生するというユーザのインテントに対応していてもよい。各インテントは、コマンド又はインテントによって指定されたアクションを実行するために事前に定義された様々なタイプの変数又はスロットを有していてもよい。変数又はスロットは、様々なフレーズ内の所定の場所又は位置にあってもよい。たとえば、「再生」コマンドのシンタックスは、ユーザが再生を望むメディア用のメディア変数を有していてもよく、且つユーザが関連付けられた再生デバイスにメディアコンテンツの再生を望む場所若しくはゾーン用の場所変数又はゾーン変数をさらに有していてもよい。「キッチンでビートルズの曲を再生して（ｐｌａｙＴｈｅＢｅａｔｌｅｓｉｎｔｈｅＫｉｔｃｈｅｎ）」という音声コマンドの例では、メディア変数又は音楽変数のインスタンスは「ビートルズ」であり、ゾーン変数のインスタンスは「キッチン」であってもよい。ネットワークマイクロホンシステム及び／又はメディア再生システムは、メディア変数のインスタンス及び／又はゾーン変数のインスタンスに対応する関連オブジェクトを識別する際に、ゾーン変数とは別個に、及び／又はこれとは異なる形態でメディア変数を処理してもよい。

「再生」インテントと関連付けることができるシンタックス又はフレーズの別の実施例としては、「［ゾーン変数］で［メディア変数］を聞かせて」というシンタックスを挙げることができる。このシンタックスに関する１つの例としては、「エミリーの部屋でポール・サイモンの曲を聞かせて（ＬｅｔｍｅｈｅａｒＰａｕｌＳｉｍｏｎｉｎＥｍｉｌｙ’ｓＲｏｏｍ）」を挙げることができ、ここでは「聞かせて（Ｌｅｔｍｅｈｅａｒ）」が「再生（ｐｌａｙ）」インテントと関連付けられていてもよく、「ポール・サイモン（ＰａｕｌＳｉｍｏｎ）」がメディア変数のインスタンスであってもよく、また「エミリーの部屋（Ｅｍｉｌｙ’ｓＲｏｏｍ）」がゾーン変数のインスタンスであってもよい。ネットワークマイクロホンシステムは音声入力を解析し、ネットワークマイクロホンシステムに格納されたシンタックスのうちのいずれが当該音声入力と一致しているかを判定して、当該音声入力のインテントを識別してもよい。このシンタックスを、ネットワークマイクロホンシステム内の任意のデバイスに格納してもよい。

「再生」インテント若しくはコマンドのシンタックス又はフレーズに関するさらに別の例としては、「［ゾーン変数］で［メディア変数］を聞きたい」というシンタックスを挙げることができる。「聴く（ｌｉｓｔｅｎ）」という言葉又は「聴きたい（Ｉｗａｎｔｔｏｌｉｓｔｅｎ）」という節を「再生（ｐｌａｙ）」インテントと関連付けてもよい。「再生」インテント用の他のシンタックスも可能である。

別の例示的なコマンド又はインテントは、メディア再生システム（たとえば、ＰＢＤ、コンピューティングデバイス５０６、及び／又はＣＲ５２２内に）格納され得るキューにメディアコンテンツを追加することに関連していてもよい。例示的なキューに追加シンタックスは、「［ゾーン変数］のキューに［メディア変数］を追加して」であってもよい。本明細書に記載の他の態様と同様に、ゾーン変数は任意のものであり、本システムは様々な技術又は方法（たとえば、デフォルトゾーンを使用する、前回使用したゾーンを使用する、ユーザのプレゼンス情報に基づいて、或いはよくメディアを再生しているゾーンを使用するなど）に基づいて、コマンドが適用されるゾーンを決定してもよい。メディア変数に対応する選択済みメディアコンテンツを、ゾーン内のキューに追加してもよい。

さらに別の例示的なコマンド又はインテントとしては、「次再生コマンド」を挙げることができ、このコマンドによって選択されたメディアコンテンツを、ゾーン内で次に再生されるようにキューの先頭に追加してもよい。このコマンドの例示的なシンタックスは「［メディア変数］を次に再生して」であってもよい。本明細書に記載の他の態様と同様に、ゾーン変数は任意のものであってもよい。

コマンド又はインテントに関する別の例としては、「移動コマンド」又は「転送コマンド」を挙げることができ、このコマンドによって、現在再生中の音楽及び／又はゾーンの再生キューをあるゾーンから別のゾーンに移動又は転送してもよい。たとえば、ユーザは、「音楽を［ゾーン変数］に移動させて」という音声入力を発してもよく、ここで「移動」又は「転送」というコマンドワードは、再生状態を別のゾーンに移動させるインテントに対応していてもよい。

本明細書に記載のコマンド及びインテントは例示のものであり、他のインテント又はコマンドも可能である。たとえば、本明細書に記載した、メディア再生システムを制御するために制御デバイス３００を介して利用可能な制御の各々は、本システムを制御するために利用可能な対応するインテントを有していてもよい。たとえば、制御コマンドの名前はインテントに対応していてもよい。制御コマンドが１又は複数のメディアアイテムを含む場合、そのコマンドのシンタックスは１又は複数のメディア変数を含んでいてもよい。制御コマンドが１又は複数のゾーンを含む場合、そのコマンドのシンタックスは１又は複数のゾーン変数を含んでいてもよい。異なるインテントと共に使用される他の変数が存在していてもよい。

メディア再生システムを制御するために制御デバイス３００を介して利用可能な制御の例としては、トランスポート制御コマンドを挙げることができる。これらのコマンド又はインテントは現在再生中のメディアアイテムに関連しており、これらにはトランスポートコマンド（たとえば、停止、一時停止、スキップ、巻き戻し、早送り、前の曲に戻る、音量調整など）、又は現在再生中のメディアアイテムの保存、若しくは別の再生キュー或いはプレイリストへのこれの追加に関連するコマンドが含まれる。現在再生中のメディアアイテムに対して実行されるインテント又はアクションのシンタックスはより簡素であり、且つトランスポート制御の名前に対応していてもよい。たとえば、音楽再生を一時停止するインテント用の音声入力は、「一時停止」という音声入力であってもよい。

様々なコマンドのシンタックスにおいては様々なタイプの変数を使用してもよい。メディア変数の場合、メディア変数は、ユーザが聴取又は再生を望むメディアコンテンツを音声入力を介して指定する可能性が高い、シンタックス内の変数又はスロットであってもよい。メディア変数は音楽に関連した特徴又は特性（たとえば、メディア変数のタイプ）であってもよく、これらはアルバム名、アーティスト名、曲名、プレイリスト名、カスタムプレイリスト名、ジャンル（たとえば、ポップ、クラシック、カントリー、ロック、Ｒ＆Ｂなど）、雰囲気（たとえば、ロマンチックな、エクササイズ向けの、生産性を高めるなど）、音楽のテンポ（たとえば、アップビート、スロー）、ラジオ局名、作曲者名、音楽の時代性（バロック、ロマン派、古典派、２０世紀音楽など）、期間（たとえば、８０年代、９０年代）、プレイリストの作成者名、ランキング（たとえば、ベスト、トップ４０）及び／又は他の音楽的識別に関する特徴を含むが、これらには限定されない。音楽変数は、ユーザアカウントのユーザが作成したカスタムプレイリスト名であり得るカスタム名、及び／又は他のカスタム名（たとえば、カスタム曲名、カスタムアルバム名、カスタムアーティスト名）を有していてもよい。

ゾーン変数の場合、ゾーン変数は、ユーザが要求したアクション又はインテント（たとえば、リクエストした音楽を再生するなど）を実行する場所若しくはゾーンを音声入力を介して指定する可能性が高い、シンタックス内の変数又はスロットであってもよい。ユーザは音声入力にゾーンインスタンスを含める場合もあるが、含めない場合もある。ユーザがたとえば単に「ビートルズの曲を再生して（ｐｌａｙｓｏｍｅＢｅａｔｌｅｓ）」と発言してゾーンを指定しなかった場合、ネットワークマイクロホンシステム及び／又はメディア再生システムは、他の入力（たとえば、ユーザのプレゼンス情報、コンテキスト情報、位置情報）に基づいて、デフォルトゾーン及び／又は他のゾーンで「ビートルズの曲を再生する」決定を下してもよい。ゾーン変数は、ユーザが指定したカスタムゾーン名用の動的変数を含んでいてもよい。別の例として、カスタムゾーン名は、たとえば「ニックの部屋」又は「３階の会議室（３ｒｄＦｌｏｏｒＣｏｎｆｅｒｅｎｃｅＲｏｏｍ）」であってもよい。

いくつかの例では、シンタックスは、音声入力を実行するためのメディアサービス又はアプリケーション若しくは他のメディア関連サービス、製品或いはアプリケーション（たとえば、メディア再生システム）用のメディアサービス変数を含んでいてもよい。本システムは、すべてのメディア関連コンテンツのデフォルトの再生システム又はゾーンを識別し、或いは様々な再生システム又はゾーンを様々なサービスと関連付けてもよい。たとえば、ユーザは「寝室でジョシュ・グローバンをＳｐｏｔｉｆｙで再生して（ｐｌａｙｏｎＳｐｏｔｉｆｙＪｏｓｈＧｒｏｂａｎｉｎｔｈｅｂｅｄｒｏｏｍ）」と発言する可能性がある。本システム（たとえば、ネットワークマイクロホンシステム及び／又はメディア再生システム）は、メディアサービス変数のインスタンスとして「Ｓｐｏｔｉｆｙ」を、音楽変数のインスタンスとして「ジョシュ・グローバン（ＪｏｓｈＧｒｏｂａｎ）」を、ゾーン変数のインスタンスとして「寝室」を認識してもよい。本システムは、本明細書で述べている「ジョシュ・グローバン」に関連するメディアコンテンツを、メディアサービスＳｐｏｔｉｆｙ（登録商標）のメディアカタログ内で検索してもよい。

あるタイプの変数は、同じ変数の２つ以上のインスタンスを含むベクトル又はセット型に形成されるという点で、スカラ型であり得る。スカラ変数のベクトルは、「［第１のスカラ変数］及び［第２のスカラ変数］」、「［第１のスカラ変数］、［第２のスカラ変数］、及び［第３のスカラ変数］」、又は「［第１のスカラ変数］［第２のスカラ変数］［第３のスカラ変数］」のユーザが発言する際のフォーマット或いはシンタックスを有していてもよい。たとえば、ゾーン変数はスカラ変数であってもよく、またユーザは「キッチン、リビングルーム、ダイニングルーム」などの複数の場所でメディアコンテンツを再生するように指定してもよい。いくつかの態様では、スカラ変数のベクトル又は所定のセットに名前を付与してもよい。たとえば、「階下」と名付けられた所定のベクトルを、家庭環境内の階下にあるすべてのゾーンと関連付けてもよい。図１に示す例示的な周辺環境では、「階下」は「リビングルーム」、「ダイニングルーム」、「オフィス」、「主寝室」、「寝室」、及び「浴室」ゾーンであってもよい。制御デバイス３００はゾーンのリストを表示することができ、ユーザはそのゾーンのリストから「階下」という名前又はラベルと関連付けるゾーンを選択することができる。

いくつかの例では、メディア変数はスカラ変数であってもよい。同じタイプの音楽変数の２つ以上が単一のコマンドフレーズで発せられてもよく、各メディア変数のインスタンスを、他のメディア変数のインスタンスとは別個に、又は他のメディア変数のインスタンスと組み合わせて、対応するメディアアイテム用に処理してもよい。たとえば、音声入力は「ビートルズとビーチボーイズの曲を聴こう（Ｌｅｔ’ｓｌｉｓｔｅｎｔｏｍｕｓｉｃｆｒｏｍＴｈｅＢｅａｔｌｅｓａｎｄｔｈｅＢｅａｃｈＢｏｙｓ）」であってもよく、これは「［第１のメディア変数］と［第２のメディア変数］の曲を聴こう」というシンタックスに対応していてもよい。１つの態様では、「ビートルズ」の第１のメディア変数のインスタンスを、「ビーチボーイズ（ｔｈｅＢｅａｃｈＢｏｙｓ）」とは別個に処理してもよい。「ビーチボーイズ」とは別個に「ビートルズ」を処理する場合、「ビートルズ」をビートルズに関連するあらゆるメディアアイテムに対して処理してもよく、また「ビーチボーイズ」を「ビーチボーイズ」に関連するあらゆるメディアアイテムに対して処理してもよく、これはブロック１２１８に関連してより詳細に記載される。別の態様では、「ビートルズ」の第１のメディア変数のインスタンスと「ビーチボーイズ」の第２のメディア変数のインスタンスとを１つの組み合わせとして処理してもよく、ここで本システムは、「ビートルズ」及び「ビーチボーイズ」双方に関連するメディアアイテム（たとえば、ビートルズとビーチボーイズとが演奏していたり、及び／又は彼らがアーティストとしてリストされている曲）に対して処理してもよい。

ネットワークマイクロホンシステム及び／又はメディア再生システムは、ゾーン変数のインスタンスのベクトル又はセットをグループ化コマンドと関連付けてもよい。たとえば、ネットワークマイクロホンシステム及び／又はメディア再生システムは、ルーム変数用のスカラ変数のシンタックスを認識し、ゾーン変数内で指定されたインスタンスをグループ化するメディア再生システムのコマンドにこのシンタックスが対応していると判定してもよい。１つの例として、ユーザは「リビングルーム、キッチン、及びニックの部屋」でメディアコンテンツを再生するように指定してもよい。システム５００（たとえば、ネットワークマイクロホンシステム及び／又はメディア再生システム）は、「ニックの部屋」がフレーズとして発せられた場所又は位置に基づいて「ニックの部屋」をゾーン変数として認識し、且つ「ニックの部屋」に対応するカスタムゾーン名の動的変数を格納しているテーブルを検索してもよい。この検索をコンピューティングデバイス５０４及び／又はコンピューティングデバイス５０６によって実行してもよく、また当該テーブルの検索に基づいて、カスタムゾーン名及び／又は識別子をコンピューティングデバイス５０４とコンピューティングデバイス５０６との間で送信してもよい。この送信はメタデータ交換チャネル、及び／又はコンピューティングデバイス５０４とコンピューティングデバイス５０６との間の他の任意の通信経路を介して行われてもよい。

メディア再生システムによってグループ化コマンドとして認識され得るシンタックスに関する別の例としては、「［ゾーン変数］を追加する」又は「［ゾーン変数］でも再生する」を挙げることができる。たとえば、ネットワークマイクロホンシステムは、「追加する」という言葉又は「でも再生する」というフレーズを、グループ化インテント若しくはコマンドに対応するものとして認識してもよい。本システムは、そのシンタックスのコマンドワードの位置に「追加する」又は「でも再生する」というコマンワードを含む音声入力のみに基づいて、或いはコマンドワード及びゾーン変数のインスタンスを含む音声入力に基づいて、当該インテントを決定してもよい。このタイプのグループ化は、その音楽が既にどのゾーンで再生中であるかを示すコンテキストを例とするコンテキストに基づいていてもよい。メディア再生システムは、任意の通信経路及び／又はメタデータ交換チャネルを介して、この情報をネットワークマイクロホンシステムに送信してもよい。いくつかの態様では、メディア再生システムは情報を受信してもよく、また１又は複数のゾーンで現在再生中の音楽を指定されたゾーンでも再生し、及び／又はその指定されたゾーンを既存のグループに含めればよいことを理解する。

いくつかの例では、音楽変数はスカラ変数であってもよい。たとえば、ユーザは「９０年代のバックストリート・ボーイズの曲を再生する（ｐｌａｙＢａｃｋｓｔｒｅｅｔＢｏｙｓｍｕｓｉｃｆｒｏｍｔｈｅ９０’ｓ）」ことを指定できる。「バックストリート・ボーイズ（ＢａｃｋｓｔｒｅｅｔＢｏｙｓ）」はアーティスト名であってもよく、「９０年代」はその楽曲が属する期間であってもよい。別の実施例としては、「マドンナのアメリカン・パイを再生する（ｐｌａｙＡｍｅｒｉｃａｎＰｉｅｂｙＭａｄｏｎｎａ）」を挙げることができ、ここでは「アメリカン・パイ（ＡｍｅｒｉｃａｎＰｉｅ）」はトラック名であってもよく、「マドンナ（Ｍａｄｏｎｎａ）」はアーティスト名であってもよい。

音楽変数を、特定の音楽変数に関連する情報について音楽データベースを検索することによって処理してもよい。このデータベースは、コンピューティングデバイス５０４、コンピューティングデバイス５０６、及び／又はコンピューティングデバイス５０８における音楽のデータベースであってもよい。たとえば、ユーザは「アメリカン・パイを再生して（ｐｌａｙＡｍｅｒｉｃａｎＰｉｅ）」と発言してもよい。ネットワークマイクロホンシステムは、「アメリカン・パイ」に関連する任意の音楽情報をコンピューティングデバイス５０４で検索してもよい。コンピューティングデバイス５０４は、たとえばその音楽変数と同じ名前のアルバムを有するアーティスト、その音楽変数と一致又は類似しているアルバム名、その音楽変数の名前が付いたトラック、その音楽変数のラジオ局、その音楽変数の名前が付いたプレイリスト、その音楽変数に関連するコンテンツのストリーミングサービスプロバイダ識別子に関する検索結果、及び／又は生の音声テキスト変換結果を返してもよい。「アメリカン・パイ」の例を使用した場合、当該検索結果は、「ドン・マクリーン（ＤｏｎＭｃＬｅａｎ）」というアーティスト、「アメリカン・パイ」という名前のアルバム、「アメリカン・パイ」という名前のトラック、「アメリカン・パイ」という名前のラジオ局（たとえば、Ｐａｎｄｏｒａのラジオ局用の「アメリカン・パイ」の識別子）、音楽サービス（たとえば、Ｓｐｏｔｉｆｙ（登録商標）又はＰａｎｄｏｒａ（登録商標）などの音楽ストリーミングサービス）、「アメリカン・パイ」というトラックのトラック識別子（たとえば、Ｓｐｏｔｉｆｙ（登録商標）用の「アメリカン・パイ」のトラック識別子、ＵＲＩ、及び／又はＵＲＬ）に関する検索結果、及び／又は「アメリカン・パイ」に関する生の音声テキスト変換結果を返してもよい。ネットワークマイクロホンシステムは、データベース検索による結果一式をメディア再生システムに提供してもよい。この検索結果を、メタデータ交換チャネル及び／又はネットワークマイクロホンシステムとメディア再生システムとの間に確立された他の任意の通信経路を介して提供してもよい。

いくつかの例では、たとえば「アルバムアメリカン・パイを再生して（ｐｌａｙｔｈｅＡｍｅｒｉｃａｎＰｉｅａｌｂｕｍ）」など、音声コマンドは特定のメディアコンテンツ（たとえば、曲やアーティスト）又はメディアコンテンツのセット（たとえば、アルバム）を再生するように指定してもよく、この場合、当該検索結果は「アメリカン・パイ」という名前のアルバムと、「アメリカン・パイ」という名前のアルバム用の音楽サービス識別子とを返してもよい。

別の実施例として、ユーザは「ｆｏｏｆｏｏを再生して（ｐｌａｙｆｏｏｆｏｏ）」というコマンドを発してもよく、ここでは音楽変数は「ｆｏｏｆｏｏ」となる。「ｆｏｏｆｏｏ」はいずれの音楽的特徴又は特性にも対応していない可能性があり、その結果データベースは、「ｆｏｏｆｏｏ」という音楽変数に対応するアーティスト、アルバム及び／又はトラックを何ら有していない可能性がある。この例では、返された検索結果は「ｆｏｏｆｏｏ」の音声テキスト変換を行った結果に過ぎない可能性がある。音声テキスト変換又は生テキストを使用して、カスタム名（たとえば、カスタムアルバム名、カスタム曲名、カスタムアーティスト名）を検索してもよい。この生テキストを使用して、デバイス（たとえば、ＣＲ５２２）又はネットワーク対応記憶装置（たとえば、ネットワーク接続記憶装置（ＮＡＳ））に格納されたコンテンツを検索してもよい。ネットワーク対応記憶装置を、通信経路５４２，５４４，５４６を介して、メディア再生システム及び／又はネットワークマイクロホンシステムと通信できるようにしてもよい。場合によっては、ユーザがカスタムコンテンツをコンピューティングデバイス５０８に格納してもよい。システム５００内の任意のデバイス上でネットワーク対応記憶装置内のコンテンツに索引付けしてもよく、且つこれらは生テキストに基づいて検索可能であってもよい。

さらに別の例として、ユーザは「ビートルズの曲を再生して（ｐｌａｙＢｅａｔｌｅｓ）」というコマンドを発してもよい。音楽的なコンテキストとしての「ビートルズ（Ｂｅａｔｌｅｓ）」ではなく、「カブトムシ（ｂｅｅｔｌｅｓ）」に対応するものとして解釈される場合があり、これは、それらの言葉が同音異義語であるためである。ブロック７１６で音声コマンドが音楽制御の範囲内にあると識別され得るので、ネットワークマイクロホンシステムは、「ビートルズの曲を再生して」という音声コマンドにおいて「ビートルズ」は「ビートルズ」という名前のアーティスト又は他の音楽コンテンツに対応している可能性が高いことを認識してもよい。データベースの検索により、ビートルズというアーティスト、各種ストリーミングサービス用のビートルズのアーティスト識別子、ビートルズというアーティストに基づく推薦プレイリストの識別子に関する検索結果、及び／又は「ビートルズ」という発言の音声テキスト変換に関する生の結果を生成してもよい。

別の例として、ユーザが発する音声入力は「ジャズを再生して（ｐｌａｙＪａｚｚ）」であってもよい。システム５００は、ジャンルのリストを格納しているデータベースの検索に基づいて、「ジャズ」を１つのジャンルとして識別してもよい。本システムは、ジャズというジャンルに対応している関連メディアコンテンツを検索してもよい。この検索結果は、たとえば各種音楽サービスのデータベースにある「ジャズ」というジャンルの識別子、及び／又は「ジャズ」というジャンルに対応しているプレイリストのプレイリスト名若しくは識別子となってもよい。

いくつかの例では、音声入力は順次発せられる２つのコマンド又はフレーズを含んでいてもよい。ネットワークマイクロホンシステムは、順次発せられる２つのコマンドが関連している可能性があることを認識してもよい。第１のコマンドは第１の変数型を含んでいてもよく、第２のコマンドは第１の変数型のサブセットを含んでいてもよい。たとえば、ユーザは「クラシック音楽を再生して（ｐｌａｙｓｏｍｅｃｌａｓｓｉｃａｌｍｕｓｉｃ）」の後に続けて、「ロマン派の曲を再生して（ｐｌａｙｓｏｍｅｔｈｉｎｇｒｏｍａｎｔｉｃ）」という音声入力を提供してもよい。２つのコマンドの間に中断の時間があってもよい。システム５００は、音楽変数におけるクラシックのインスタンスと関連付けられたクラシック音楽の時代を有していてもよい。システム５００は、「ロマン派」はクラシック音楽におけるロマン派の時代を指していると認識してもよく、このコマンドを、ロマンチックな雰囲気の曲の再生を命じているのではなく、ロマン派の時代の曲の再生を命じるコマンドとして処理してもよい。別の例として、ユーザは「イン・シンクの曲を再生して（ｐｌａｙｓｏｍｅ＊ＮＳｙｎｃ）」の後に短い中断を挟んでから、「ノー・ストリングス・アタッチト（ＮｏＳｔｒｉｎｇｓＡｔｔａｃｈｅｄ）を再生して」と発言してもよい。システム５００は、「ノー・ストリングス・アタッチト（ＮｏＳｔｒｉｎｇｓＡｔｔａｃｈｅｄ）」がイン・シンク（＊ＮＳｙｎｃ）というアーティストによるアルバムであることを認識してもよく、また別のアーティストによる「ノー・ストリングス・アタッチト（ＮｏＳｔｒｉｎｇｓＡｔｔａｃｈｅｄ）」という名前のアルバムではなく、このアルバムを再生してもよい。

いくつかの例では、コマンドはメディア再生システムの名前用のシステム名変数を含んでいてもよい。メディア再生システムを、メディア再生システムメーカーの名前（たとえば、ＳＯＮＯＳ（登録商標））、カスタム名、及び／又は他の名前を例とする名前と関連付けてもよい。音声入力は、コマンド又はインテントを実行するユーザアカウントと関連付けられた特定のシステムを識別するためのシステムの名前を含んでいてもよい。場合によっては、ブロック１２１６で音声コマンド内のメディア再生システム名変数の存在を使用して、その音声入力が音楽制御の範囲内にあると自動的に識別してもよい。

ブロック１２２０において、メディア再生システムは、解析されたコマンド及び変数の各々を実行することによって、音楽制御音声コマンドを実行してもよい。メディア再生システムは、ネットワークマイクロホンシステム及び／又は１又は複数のメディア再生システムコマンドから検索結果を受信してもよい。メディア再生システムコマンド及び／又はメディア情報（たとえば、検索結果）を、メディア再生システムによってネットワークマイクロホンシステムから１又は複数のメッセージの形態で受信してもよい。この検索結果に基づいて、メディア再生システム（たとえば、コンピューティングデバイス５０６、制御デバイス５２２、及び／又は再生デバイス５３２，５３４，５３６，５３８）は再生するメディアコンテンツ又は再生するキューを、音声コマンドに応答して決定してもよい。生のテキスト音声変換に加えて検索結果を受信した場合に、音声コマンドに応答して何を再生すべきかについて様々な技術を使用して決定してもよい。

いくつかの態様では、メディア再生システムは様々なデータポイント及び／又は嗜好性に基づいて、異なる検索結果に重み付けを行ってもよい。たとえば、異なる検索結果に対する重み付けは、注目度、ユーザの再生履歴、ユーザアカウントと関連付けられた音楽サービス、メディア再生システムで利用可能な音楽サービス、メディア再生システムと関連付けられた記憶装置に格納されている音楽、及び／又はユーザ嗜好性のいずれかに基づいていてもよい。１つの例として、異なるアーティストによる曲が同じ曲名となることがある。異なるアーティストによる同じ曲名の曲を検索結果が返した場合、より注目度の高い曲により多く重み付けし、及び／又はこれを選択してもよい。曲の注目度を、ユーザの再生回数、ラジオ再生回数、音楽チャートランキング、売上枚数、及び／又は他の利用可能なデータなどの様々なソースに基づいて決定してもよい。別の例として、ユーザによって最近再生されたメディアアイテムに対してより多く重み付けしてもよい。

いくつかの例では、ユーザはメディア変数に対して、選択すべきメディアアイテムの優先順位を指定してもよい。たとえば、ユーザは、カスタムプレイリストが最も優先され、そしてラジオ局、選曲されたプレイリスト、トラック、アルバム、アーティストと続くように指定してもよい。本システムは、ユーザ嗜好性に基づいて、より高い優先度を有するメディア変数型に対してより多くの重みを付与してもよい。ユーザ嗜好性を、ネットワークマイクロホンシステム及び／又はメディア再生システムに送信できるように、ユーザプロファイルに格納し、及び／又はその他の場合はユーザアカウントとこれを関連付けてもよい。いくつかのメディア変数型には等しい優先度又は重みを付与してもよい。

いくつかの例では、ユーザがユーザ嗜好性を提供していない場合、デフォルトの優先順位設定を使用してもよい。本システムは、異なるメディア変数型に対して任意の組み合わせの優先度を使用してもよい。たとえば、本システムは生テキストに対応する変換結果に先行して、アルバムに続いてアーティストとトラックとに対応するメディアコンテンツを優先してもよい。

別の例として、メディア変数のインスタンスはアーティストの名前であってもよく、そのアーティストはプレイリスト及びラジオ局に対応していてもよい。メディア変数のインスタンスの場合、ラジオ局の再生をプレイリストの再生よりも優先してもよい。

さらに別の例として、メディア再生システムは、ユーザ及び／又はメディア再生システムがアクセスしていない音楽サービスと関連付けられた検索結果を除外してもよい。アクセス履歴のない検索結果を除外した後、メディア再生システムは、本明細書に記載の様々な方法又は技術に基づいて再生するメディアコンテンツを選択してもよい。

本明細書に記載の選択方法は例示のものであり、「再生」コマンドに応答して再生するメディアアイテムを選択するための方法又は技術に関する他の例を採用してもよい。

「再生」コマンド又はインテントを受信したことに応答して再生するコンテンツを選択すると、メディア再生システムは、検索結果から提供される識別子及び／又は他の識別情報を使用して、そのコンテンツのソースを識別してもよい。この識別子は、対応するコンテンツをメディア再生システムによって取得するネットワークアドレス又はリンクであってもよく、その例としては、ネットワーク記憶場所若しくはユニフォームリソースロケータ（ＵＲＬ）及び／又はメタデータ（たとえば、アーティスト名、アルバム名、トラック番号、ラジオ局名、プレイリスト名、メディアサービス名など）を挙げることができる。

いくつかの例では、コマンド又はインテントはトランスポートコマンド（たとえば、一時停止、一時停止後の再生、スキップ、前の曲に戻る、巻き戻し、早送りなど）であってもよい。上述したように、システム５００は、当該コマンド又はインテントに対応するメディア再生システムコマンドを決定し、その対応しているメディア再生システムコマンドを実行してもよい。ネットワークマイクロホンシステムは、当該インテント（たとえば、再生、一時停止など）に対応するコマンドを識別するためのコマンド情報と、そのコマンドの関連オブジェクト（たとえば、ゾーン名などの変数、ゾーン識別子、グループ識別子、メディア識別子など）とを含むメッセージをメディア再生システムに対して送信することにより、メディア再生システムにこのコマンドを実行させることができる。たとえば、トランスポートコマンドは、コマンドを実行すべきゾーン用のゾーン変数（たとえば、ニックの部屋、キッチン、又はそのゾーン用の他の識別子）のインスタンスを含んでいてもよい。

音声入力に基づいてＰＢＤ上でアクションを起こしたことに応答して、メディア再生システムは、ＰＢＤによって実行されるアクションに関する状態情報を更新及び／又は格納してもよい。たとえば、ＰＢＤは、当該ゾーン又は特定の再生デバイスが特定のメディアアイテムを現在再生中であり、及び／又はＰＢＤに格納されたキューに対して特定のメディアアイテムが追加されたことなどの当該ゾーンの状態を示すために、状態変数を更新してもよい。システム５００内の各種デバイスからのシームレスな再生及び／又は制御を可能にするために、この状態変数に対してはシステム５００内のいかなるデバイスもアクセスしてもよい。

本方法及びシステムを、メディアコンテンツ（たとえば、音楽コンテンツ、ビデオコンテンツ）に関連して本明細書に記載したが、本明細書に記載の本方法及びシステムを、メディア再生システムによって再生できる関連オーディオを有し得る様々なコンテンツに適用してもよい。たとえば、音楽カタログの一部ではない可能性のある事前に録音された音声を、音声入力に応答して再生してもよい。１つの例として、「ナイチンゲールはどのように鳴くの？」という音声入力を挙げることができる。この音声入力に対するネットワークマイクロホンシステムの応答は、識別子を伴う音楽コンテンツではなく、代わりに短いオーディオクリップであってもよい。メディア再生システムは、短いオーディオクリップの再生と関連付けられた情報（たとえば、記憶アドレス、リンク、ＵＲＬ、ファイル）と、その短いオーディオクリップを再生するためのメディア再生システムコマンドとを受信してもよい。ポッドキャスト、ニュースクリップ、通知音、アラームなどを含む他の例も可能である。

Ｖ．ユーザ識別に基づくアクションのための例示的なシステム、装置、及び方法
本明細書に記載の実施例は、メディア再生システム（或いは、場合によってはその１又は複数のコンポーネント）が音声コマンドを受信すること、ユーザ識別に基づいて（或いは、少なくともその音声コマンドを発したユーザに基づいて）、メディア再生システムが実行すべき適切なアクションを決定することを含む。いくつかの例では、メディア再生システムは、ＰＢＤ５３２，５３４，５３６，５３８の１又は複数とコンピューティングデバイス５０６（メディア再生システムサーバとして構成されている）とを備えていてもよい。いくつかの実施形態では、メディア再生システムは、ＮＭＤ５１２，５１４，５１６の１又は複数とコンピューティングデバイス５０４（ネットワークマイクロホンシステムサーバとして構成されている）とを備えるネットワークマイクロホンシステムを備えるか、又はこれと通信してもよい。

通常、本明細書に記載の１又は複数の機能を、ネットワークマイクロホンシステム単独で、又はメディア再生システムと共に実行してもよいことが理解される。コンピューティングデバイス５０６によって実行される１又は複数の機能を、メディア再生システムのＣＲ５２２及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数によって実行してもよいことがさらに理解される。

先に述べたように、音声コマンドの例は、前述したメディア再生システム制御のうちのいずれかの制御を命じるコマンドを含む。たとえば、音声コマンドは、メディア再生システムにメディア再生システムの１又は複数の再生デバイスを介したメディアコンテンツの再生を命じるコマンドであってもよい。別の例では、音声コマンドは、最初の音声コマンドと関連付けられた追加の音声コマンドを受信するための時間枠又は時間ウィンドウのトリガを命じるコマンドであってもよい。さらに別の例では、音声コマンドは、メディア再生システムにおける１又は複数のメディア再生デバイスの再生設定変更を命じるコマンドであってもよい。再生設定には、たとえば再生音量、再生トランスポートの制御、音楽ソースの選択、及びグループ化などが主として含まれ得る。

メディアコンテンツの例としては、トークラジオ、書籍、テレビからの音声、ローカルドライブに保存された音楽、又はメディアソースからの音楽などを挙げることができる。メディアソースの例としては、Ｐａｎｄｏｒａ（登録商標）Ｒａｄｉｏ、Ｓｐｏｔｉｆｙ（登録商標）、Ｓｌａｃｋｅｒ（登録商標）、Ｒａｄｉｏ、ＧｏｏｇｌｅＰｌａｙ（商標）、及びｉＴｕｎｅｓＲａｄｉｏなどを挙げることができる。

ユーザ識別の例としては、ユーザを登録ユーザ、ゲストユーザ、子供、又は不明なユーザとして識別することを挙げることができる。

例示的な登録ユーザは、主としてユーザプロファイル、及び／又は音声構成設定などによってメディア再生システムとリンク又は関連付けられた、１又は複数のユーザを含む。例示的なユーザプロファイルは、ユーザの年齢、位置情報、好みの再生設定、好みのプレイリスト、好みのオーディオコンテンツ、及びそのユーザに設定されたアクセス制限に関する情報、並びにそのユーザの音声、ユーザ履歴を識別する情報などを主として含んでいてもよい。ユーザの音声を識別する例示的な情報は、ユーザの音声のトーン又は周波数、年齢、性別、及びユーザ履歴などを主として含む。例示的な音声構成設定は、メディア再生システムがユーザを認識し、且つこれを関連付けるための音声入力又は一連の音声入力を提供するように、ユーザに要求する設定を含んでいてもよい。

例示的なゲストユーザは、登録ユーザのユーザプロファイル、又は登録ユーザによって作成されたか、或いは登録ユーザの許可を得てゲストユーザによって作成されたゲストプロファイルにより、メディア再生システムとリンク又は関連付けられた、１又は複数のユーザを含む。例示的なゲストプロファイルは、ユーザプロファイルに含まれるあらゆるタイプの情報を含むことができる。

いくつかの例では、自宅に自分用のメディア再生システムを所有するゲストは、自分用のメディア再生システムと関連付けられたユーザプロファイルをコンピューティングデバイス５０６内に格納していてもよい。ゲストがホストの家に到着し、音声コマンドを使用してホスト所有のメディア再生システムを制御しようとすると、ホストの再生システムに接続されたコンピューティングデバイス５０６が、（ｉ）そのゲストがユーザアカウントを有している音楽サービス、（ｉｉ）そのゲストのプレイリスト、（ｉｉｉ）ホストがそのゲストに対して、ホストのメディア再生システムを制御するためのゲストアクセス権を付与したかどうか、及び／又は（ｉｖ）場合によってはそのゲストのユーザプロファイル内にある他のユーザ情報などを含むが、これらに限定されない、そのゲストのユーザプロファイル設定にアクセスできるようにしてもよい。

子供のユーザを、たとえばその子供がメディア再生システムの登録ユーザの１人であった場合には、ユーザプロファイル内の情報、ゲストプロファイル内の情報、及び／又はユーザの音声のトーン若しくは周波数によって識別してもよい。

いくつかの例では、音声コマンドを受信することは、メディア再生システムが、ＰＢＤ５３２，５３４，５３６，５３８の１又は複数及び／又はコンピューティングデバイス５０６（メディア再生システムサーバとして構成されている）を介して音声コマンドを受信することを含む。コンピューティングデバイス５０６は音声コマンドを同等のテキストコマンドに変換し、そのテキストコマンドを解析してコマンドを識別してもよい。

さらに別の例では、１又は複数の機能をネットワークマイクロホンシステム単独で、又はメディア再生システムと共に実行してもよい。たとえば、音声コマンドを受信することは、ネットワークマイクロホンシステムが、ＮＭＤ５１２、５１４、又は５１６の１又は複数を介して音声コマンドを受信すること、その音声コマンドをさらなる処理のためにコンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数に送信することを含む。コンピューティングデバイス５０６は音声コマンドを同等のテキストコマンドに変換し、そのテキストコマンドを解析してコマンドを識別してもよい。場合によっては、ネットワークマイクロホンシステムは、音声コマンドを同等のテキストコマンドに変換し、そのテキストコマンドをコンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数に送信してこれを解析し、且つコマンドを識別してもよい。

コンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８のうちの１つ又は複数は、音声コマンドを受信した後、その音声コマンドをメディア再生システムの登録ユーザから受信したかどうかを判定してもよい。いくつかの例では、音声コマンドを登録ユーザから受信したかどうかを判定することは、その音声コマンドと関連付けられたユーザプロファイルがメディア再生システムに格納されているかどうかを、コンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数が判定することを含んでいてもよい。たとえば、コンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８のうちの１つ又は複数は音声コマンドを、メディア再生システムに格納されたユーザプロファイルに含まれ得るユーザの音声を識別する情報と照合しようと試みてもよい。ネットワークマイクロホンシステムは単独で、又はメディア再生システムと共に、コンピューティングデバイス５０６と通信することによって、音声コマンドをメディア再生システムの登録ユーザから受信したかどうかを判定してもよい。

さらに別に例では、音声コマンドを登録ユーザから受信したかどうかを判定することは、メディア再生システムの音声構成設定内の音声入力とその音声コマンドとが一致しているかどうかを、コンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数が判定することを含んでいてもよい。たとえば、ユーザは、メディア再生システムがユーザを認識し、且つこれを関連付けるための音声入力又は一連の音声入力を提供することによって、ユーザの音声を認識するようにメディア再生システムを事前に構成していてもよい。音声入力又は一連の音声入力を、コンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数に格納してもよい。いくつかの実施形態では、音声入力又は一連の音声入力をネットワークマイクロホンシステムに格納してもよい。

さらに別の例では、音声コマンドを登録ユーザから受信したかどうかを判定することは、コンピューティングデバイス５０６、ＣＲ５２２、及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数が単独で、又はこれらを組み合わせて、受信した音声コマンドと関連付けられる信頼性レベルを決定することを含んでいてもよい。ユーザ履歴及び位置情報に個別に基づいて、或いはユーザプロファイルで通常確認できる他の任意の情報と組み合わせたものに基づいて、信頼性レベルを決定してもよい。

たとえば、メディア再生システムは、キッチンにいる登録ユーザから第１の音声コマンドを受信し、且つ受信した音声コマンドに基づいて信頼性レベルを決定してもよい。メディア再生システムは、ＮＭＤ５１２～５１３、ＣＲ５２２、及びＰＢＤ５３２～５３８のうちの任意の１又は複数から第１の音声コマンドを受信してもよい。さらに、メディア再生システムは、ユーザの自宅の別の部屋にいる登録ユーザから同じ音声コマンドを受信し、且つ受信した音声コマンドに基づいて信頼性レベルを決定してもよい。メディア再生システムは、ＮＭＤ５１２～５１３、ＣＲ５２２、及びＰＢＤ５３２～５３８のうちの任意の１又は複数から第２の音声コマンドを受信してもよい。次いで、メディア再生システムは、ユーザの自宅全体を通じてそれぞれ異なるコンピューティングデバイス（たとえば、ＣＲ５２２）、ＮＭＤ、及び／又はＰＢＤから受信したコマンドに基づいて、新たな信頼性レベルを決定してもよい。これにより、音声コマンドを登録ユーザから受信したことを示すより高い信頼性レベルを、メディア再生システムにおいて得ることができる。

別の場合には、メディア再生システムは登録ユーザから音声コマンドを受信し、且つユーザ履歴に基づいて信頼性レベルを決定してもよい。動作中、メディア再生システムは、ＮＭＤ５１２～５１３、ＣＲ５２２、及びＰＢＤ５３２～５３８のうちの任意の１又は複数から音声コマンドを受信してもよい。音声コマンドを受信した後、受信した音声コマンドがアーティスト、プレイリスト、ジャンル、又はユーザプロファイルで確認できる他のあらゆる情報など、その登録ユーザと通常関連付けられている情報を含む場合、コンピューティングデバイス５０６、ＣＲ５２２、及び／又はＰＢＤ５３２，５３４，５３６，５３８のうちの１つ又は複数は単独で、又はこれらを組み合わせてより高い信頼性レベルを決定してもよい。たとえば、登録ユーザが通常マイケル・ジャクソン（ＭｉｃｈａｅｌＪａｃｋｓｏｎ）の曲を聴取している場合、マイケル・ジャクソンによる「スリラー（Ｔｈｒｉｌｌｅｒ）」の再生を命じる音声コマンドを登録ユーザから受信したことを示すより高い信頼性レベルを、メディア再生システムにおいて得ることができる。上記と類似しているが異なる、他の多くの例が可能である。

さらに別の場合には、メディア再生システムは、ユーザプロファイルで確認できる登録ユーザの音声コマンドのパターンに基づいて信頼性レベルを構築してもよい。たとえば、メディア再生システムは、登録ユーザからブリトニー・スピアーズ（ＢｒｉｔｎｅｙＳｐｅａｒｓ）による特定の曲の再生を命じるコマンドを受信し、且つその受信した音声コマンドに基づいて信頼性レベルを決定してもよい。メディア再生システムが同じ音声コマンド、又はたとえばブリトニー・スピアーズによる別の曲の再生を命じるコマンドなどの類似した音声コマンドを受信するたびに、メディア再生システムはより高い信頼性レベルを構築してもよく、したがって、その音声コマンドを登録ユーザから受信したことを示すより高い信頼性レベルを得ることができる。

前述したように、本明細書に記載の１又は複数の機能を、通常ネットワークマイクロホンシステム単独で、又はメディア再生システムと共に実行してもよいことが理解される。コンピューティングデバイス５０６によって実行される１又は複数の機能を、メディア再生システムのＣＲ５２２及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数、並びに／又は場合によってはＮＭＤ５１２，５１４，５１６の１又は複数によって実行してもよいことがさらに理解される。

いくつかの例では、信頼性レベルを決定することは、メディア再生システムがコンピューティングデバイス５０６（メディア再生システムサーバとして構成されている）、ＣＲ５２２、及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数が単独で、又は互いに組み合わせて信頼性レベルを決定することを含む。たとえば、ＣＲ５２２、及び／又はＰＢＤ５３２，５３４，５３６，５３８のうちの１つ又は複数は、（ｉ）受信した音声コマンドと関連付けられる信頼性レベルを決定し、（ｉｉ）決定された信頼性レベルに基づいて、その音声コマンドを登録ユーザから受信したと判定し、且つ（ｉｉｉ）その音声コマンドの実行を命じる指示をコンピューティングデバイス５０６（メディア再生システムサーバとして構成されている）に送信してもよい。別の場合には、ＣＲ５２２、及び／又はＰＢＤ５３２，５３４，５３６，５３８のうちの１つ又は複数は、（ｉ）受信した音声コマンドと関連付けられる信頼性レベルを決定し、且つ（ｉｉ）その信頼性レベルと関連付けられたデータをさらなる処理のためにコンピューティングデバイス５０６へと送信してもよい。次いで、コンピューティングデバイス５０６は、（ｉ）決定された信頼性レベルに基づいて、その音声コマンドを登録ユーザから受信したと判定し、且つ（ｉｉ）その音声コマンドの実行を命じる指示をＣＲ５２２、及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数に送信してもよい。

さらに別の例では、信頼性レベルを決定することは、メディア再生システムが単独で、又はネットワークマイクロホンシステムと共に信頼性レベルを決定することを含む。たとえば、メディア再生システムはメディア再生システムのＣＲ５２２及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数、及び／又は場合によってはＮＭＤ５１２，５１４，５１６の１又は複数を介して、音声コマンドを受信してもよい。受信した音声コマンドに応答して、メディア再生システムは、信頼性レベルと関連付けられたデータをＮＭＤ５１２，５１４，５１６の１又は複数に送信してもよい。次いで、ネットワークマイクロホンは、（ｉ）受信したデータと関連付けられる信頼性レベルを決定し、且つ（ｉｉ）コマンドを実行するか、又はコマンドの実行を命じる指示をメディア再生システムに送信してもよい。その音声コマンドを登録ユーザから受信したと判定したことに応答して、コンピューティングデバイス５０６は、メディア再生システムの１又は複数のＰＢＤに対する指示を構成してもよい。この指示は音声コマンドの内容と、登録ユーザのユーザプロファイル内の情報とに基づいていてもよい。付加的に又は代替的に、この指示は、音声コマンドの内容と、コンピューティングデバイス５０６、ＰＢＤ５３２，５３４，５３６，５３８の１又は複数、又はネットワークマイクロホンシステムに格納された音声構成設定とに基づいていてもよい。

いくつかの例では、音声コマンドの内容は、メディア再生システムの１又は複数のＰＢＤにメディアコンテンツの再生を命じるコマンドを含んでいてもよい。いくつかの実施形態では、メディア再生システムにメディアコンテンツの再生を命じるコマンドと登録ユーザのユーザプロファイル内の情報とに基づいて、コンピューティングデバイス５０６は、ＰＢＤの１又は複数に登録ユーザの好みのメディアソースからメディアコンテンツを取得させる指示若しくは指示一式を構成してもよい。

別の例では、メディア再生システムにメディアコンテンツの再生を命じるコマンドと登録ユーザのユーザプロファイル内の情報とに基づいて、コンピューティングデバイス５０６は、メディア再生システムにメディア再生システムの１又は複数のＰＢＤを介してメディアコンテンツを再生させる指示を構成してもよい。たとえば、コンピューティングデバイス５０６は、（ｉ）登録ユーザの好みの再生設定の１つ又は複数を用いてメディア再生システムを構成し、且つ（ｉｉ）登録ユーザの好みの再生設定を用いて１又は複数のＰＢＤにメディアコンテンツを再生させる指示を備えていてもよい。

好みの再生設定は、登録ユーザのユーザプロファイルに格納される好みの再生設定であってもよい。付加的に又は代替的に、好みの再生設定は、登録ユーザのユーザプロファイルに格納されたユーザ履歴に基づいていてもよい。ユーザ履歴は、ユーザがメディアコンテンツを再生するために通常使用する、又は以前に使用した再生設定を含んでいてもよい。

さらに別の例では、音声コマンドの内容は、メディア再生システムにメディアコンテンツの再生を命じるコマンドを含んでいてもよいが、メディア再生システムの特定の再生ゾーンを特定しない場合がある。コマンドの内容とユーザ履歴などの登録ユーザのユーザプロファイル内の情報とに基づいて、コンピューティングデバイス５０６は、（ｉ）メディア再生システムに、メディア再生システムの特定の再生ゾーン内で１又は複数のＰＢＤを介してメディアコンテンツを再生させる指示を構成し、且つ（ｉｉ）１又は複数のＰＢＤを介してメディアコンテンツを再生するように構成された指示を実行してもよい。

さらに別の例では、音声コマンドの内容は、メディア再生システムに再生設定の変更を命じるコマンドを含んでいてもよい。メディア再生システムに再生設定の変更を命じるコマンドと登録ユーザのユーザプロファイル内の情報とに基づいて、コンピューティングデバイス５０６は、（ｉ）メディア再生システムにおける１又は複数のＰＢＤの再生設定をメディア再生システムに変更させる指示を構成し、且つ（ｉｉ）１又は複数のＰＢＤを介して再生設定を変更するように構成された指示を実行してもよい。

さらに別の例は、メディア再生システムが音声コマンドを子供から受信したかどうかを判定することを含んでいてもよい。たとえば、コンピューティングデバイス５０６は、その子供がメディア再生システムの登録ユーザの１人である場合に、ユーザプロファイル内の情報に基づいて成人と子供とを区別してもよい。別の場合には、コンピューティングデバイス５０６は、ユーザの音声のトーン又は周波数に基づいて成人と子供とを区別してもよい。

さらに別の場合には、音声コマンドを子供から受信したかどうかを判定することは、コンピューティングデバイス５０６、ＣＲ５２２、及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数（単独で、或いは共に）が受信した音声コマンドと関連付けられる信頼性レベルを決定することを含んでいてもよい。上述したように、ユーザ履歴及び位置情報に個別に基づいて、或いはユーザプロファイルで通常確認できる他の任意の情報と組み合わせたものに基づいて、信頼性レベルを決定してもよい。

例示的な動作において、メディア再生システムは、子供がいる可能性の高い特定の部屋（たとえば、子供の寝室、遊び部屋、地下室など）に設置されたＮＭＤ又はＰＢＤから音声コマンドを受信してもよい。子供がいる可能性の高い部屋に設置されたデバイス（ＮＭＤ又はＰＢＤ）から音声コマンドを受信したため、その音声コマンドを子供から受信したことを示すより高い信頼性レベルをメディア再生システムにおいて得ることができる。

別の例では、メディア再生システムは特定のタイプのコンテンツ用の音声コマンドを受信し、そのコンテンツのタイプに基づいて、音声コマンドを子供から受信したことを示すより高い信頼性レベルを決定してもよい。たとえば、メディア再生システムがアニメ番組やアニメ映画のサウンドトラックの再生を命じる音声コマンドを受信した場合、その音声コマンドを子供から受信したことを示すより高い信頼性レベルをメディア再生システムにおいて得ることができる。上記と類似しているが異なる、他の多くの例が可能である。

音声コマンドを子供から受信したと判定したことに応答して、いくつかの例は、子供にとって不適切となる恐れのある所与のメディアの再生を１又は複数のＰＢＤに対して禁止することを含んでいてもよい。場合によっては、子供の音声によるコマンドの内容に基づいて、コンピューティングデバイス５０６及び／又は１又は複数のＰＢＤに対して再生設定の変更を禁止してもよい。たとえば、コンピューティングデバイス５０６及び／又は１又は複数のＰＢＤは、１又は複数のＰＢＤの音量を上げることを命じる子供の音声によるコマンドを無視してもよい。

場合によっては、メディア再生システムは、その音声コマンドがメディア再生システムの登録ユーザではなくゲストユーザ由来のものであるかどうかを判定することに基づいて作動してもよい。たとえば、コンピューティングデバイス５０６は、特定のゲストと関連付けられ得る、以前に作成したゲストプロファイルを格納していてもよい。別の例では、コンピューティングデバイス５０６は音声コマンドを登録ユーザから受信しなかったと判定し、次いで登録ユーザに対して、その音声コマンドがゲスト由来のものであるかどうかを確認してもよい。次いで、登録ユーザは必要に応じて、コンピューティングデバイス５０６及び／又は１又は複数のＰＢＤに対して音声コマンドの内容のすべて又は一部を実行することを禁止してもよい。

さらに別の例では、音声コマンドをゲストユーザから受信したかどうかを判定することは、コンピューティングデバイス５０６、ＣＲ５２２、及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数が（単独で、又は共に）受信した音声コマンドと関連付けられる信頼性レベルを決定することを含んでいてもよい。上述したように、ユーザ履歴及び位置情報に個別に基づいて、或いはユーザプロファイルで通常確認できる他の任意の情報と組み合わせたものに基づいて、信頼性レベルを決定してもよい。

音声コマンドをゲストユーザから受信したと判定したことに応答して、コンピューティングデバイス５０６は、（１）ゲストユーザに対して制限設定を割り当て、（２）音声コマンドの内容とそのゲストユーザに対して割り当てた制限設定とに基づいて、１又は複数のＰＢＤに対する指示を構成し、且つ（３）その指示を実行させるために１又は複数のＰＢＤに送信してもよい。ある例では、ゲストユーザに対して制限設定を割り当てることは、コンピューティングデバイス５０６及び／又は１又は複数のＰＢＤに格納された特定のゲストプロファイルと音声コマンドとをコンピューティングデバイス５０６が照合することを含んでいてもよい。ゲストプロファイルは、制限設定と、前述した情報の中でも主としてゲストの音声の周波数又はトーンなどの特定のゲストユーザの音声に関する情報とを含んでいてもよい。制限設定は、メディア再生システムの制御を制限する任意の設定であってもよい。

さらに別の例は、異なるユーザから受信した音声コマンドの競合を解決するために、メディア再生システムが優先順位を決定することを含む。競合する音声コマンドはたとえば、あるユーザから受信する曲の再生を命じる音声コマンドと、別のユーザから受信するその曲の再生中止を命じる後続の音声コマンドとであってもよい。あるユーザから受信する１又は複数のＰＢＤ５３２，５３４，５３６，５３８の音量を上げることを命じる音声コマンド、及び別のユーザから受信する音量を下げることを命じる後続の音声コマンドなど、他の例も可能である。

具体的には、メディア再生システムは（ＮＭＤ５１２～５１６、ＣＲ５２２、ＰＢＤ５３２～５３８、及び／又はコンピューティングデバイス５０６のうちの１又は複数を介して）登録ユーザ又はホストから再生ゾーンでの曲の再生を命じる音声コマンドを受信してもよい。次いで、メディア再生システムは未登録ユーザ又はゲストから再生ゾーンでの曲の再生中止を命じる、競合する音声コマンドを受信する場合がある。この競合を解決するために、メディア再生システムは、登録ユーザから受信した音声コマンドが未登録ユーザ又はゲストよりも高い優先度を有するような優先順位を適用してもよい。

別の例では、メディア再生システムは、登録ゲストから受信した音声コマンドが未登録ゲストよりも高い優先度を有するような優先順位を割り当ててもよい。場合によっては、ある登録ゲストから受信した音声コマンドが別の登録ゲストよりも高い優先度を有していてもよい。付加的又は代替的に、成人から受信した音声コマンドは子供よりも高い優先度を有していてもよい。

さらに別の例では、メディア再生システムによって受信されたコントローラ発行コマンド（たとえば、メディア再生システムを制御するように構成されたＣＲ５２２又は別のコンピューティングデバイスによって発行されるコマンド）は登録ユーザよりも低い優先度を有していてもよいが、未登録ユーザ又はゲストよりは高い優先度を有していてもよい。場合によっては、一部の登録ゲストはコントローラ発行コマンドよりも高い優先度を有していてもよい。優先順位の決定及び割当てに関する他の例も可能である。

また、メディア再生システムは、登録ユーザと関連付けられた起動ワード又は起動フレーズを受信したことに基づいて作動してもよい。起動ワード又は起動フレーズは、登録ユーザのプロファイルに格納された特定の言葉又はフレーズ（たとえば、「ねえ、Ｓｏｎｏｓ」）を含んでいてもよい。場合によっては、ユーザはそれぞれ、異なる起動ワード又は起動フレーズ用にメディア再生システムを構成してもよい。他の場合には、メディア再生システムを、すべての（又は任意の）ユーザに対して同じ起動ワード又は起動フレーズで構成してもよい。

いくつかの例では、登録ユーザは、メディア再生システムが登録ユーザ、ゲスト、及び／又は未登録ユーザからの起動ワード又は起動フレーズと関連付けられた追加の音声コマンドを受信するための時間枠又は時間ウィンドウをトリガするような、共通の起動ワード又は起動フレーズを有していてもよい。たとえば、登録ユーザ又はホストは、再生キューへの曲の追加を命じる音声コマンド（たとえば、「ねえＳｏｎｏｓ、再生キューに曲を追加して」）を送信してもよく、これにより、再生キューへの特定の曲の追加を命じる追加の音声コマンド（たとえば、「マイケル・ジャクソンのスリラーを追加して（ＡｄｄＴｈｒｉｌｌｅｒｂｙＭｉｃｈａｅｌＪａｃｋｓｏｎ）」を登録ユーザが送信できる時間枠又は時間ウィンドウ（たとえば、５分）が開放されてもよい。別の例では、登録ユーザ又はホストは、ユーザ定義の若しくはデフォルトの時間枠又は時間ウィンドウにおける、或いは特定の時間帯における他の機能（たとえば、「ねえＳｏｎｏｓ、自宅システムの管理を今から４時間開いて（ＨｅｙＳｏｎｏｓ，ｏｐｅｎｃｏｎｔｒｏｌｆｏｒｍｙｈｏｕｓｅｓｙｓｔｅｍｆｏｒｔｈｅｎｅｘｔ４ｈｏｕｒｓ）、或いは「ねえＳｏｎｏｓ、自宅システムの管理を今から土曜日の午後２時まで開いて（ＨｅｙＳｏｎｏｓ，ｏｐｅｎｃｏｎｔｒｏｌｆｏｒｍｙｈｏｕｓｅｓｙｓｔｅｍｆｒｏｍｎｏｗｕｎｔｉｌＳａｔｕｒｄａｙａｔ２ｐｍ）」）のうち、自宅内のすべてのゲストに対して、主として再生キューへの曲の追加、曲の再生、又は音量の変更などを命じる音声コマンドの送信を許可する音声コマンド（たとえば、「ねえＳｏｎｏｓ、自宅システムの管理を開いて（ＨｅｙＳｏｎｏｓ，ｏｐｅｎｃｏｎｔｒｏｌｆｏｒｍｙｈｏｕｓｅｓｙｓｔｅｍ）」）を送信してもよい。場合によっては、登録ユーザ又はホストは、再生ゾーンの１又は複数のＰＢＤ５３２，５３４，５３６，５３８、及び／又はコンピューティングデバイス５０６を制御することを命じる音声コマンドの送信を、ある時間枠又は時間ウィンドウにおいて一部のゲストにのみ許可する音声コマンド（たとえば、「ねえＳｏｎｏｓ、リビングの管理者を許可されたゲストに限定して（ＨｅｙＳｏｎｏｓ，ｒｅｓｔｒｉｃｔｃｏｎｔｒｏｌｆｏｒｍｙｌｉｖｉｎｇｒｏｏｍｔｏａｕｔｈｏｒｉｚｅｄｇｕｅｓｔｓ）」）を送信してもよい。

別の例では、登録ユーザは、起動ワード又は起動フレーズと関連付けられた追加の音声コマンドを、メディア再生システムが受信するための時間枠又は時間ウィンドウをトリガするそれぞれの音声コマンドに対して、異なる起動ワード又は起動フレーズを有していてもよい。たとえば、登録ユーザ又はホストは、再生キューへの曲の追加を命じる音声コマンドを送信するためのユーザ固有の起動ワード又は起動フレーズを（たとえば、「ねえＳｏｎｏｓ、再生キューに曲を追加して」、「おいＳｏｎｏｓ、キューに曲を追加して（Ｙｏ，Ｓｏｎｏｓ，ｑｕｅｕｅｓｏｎｇｓ）」、及び「曲をアルファベット順に（Ａｌｐｈａｓｏｎｇｑｕｅｕｅ）」など）有していてもよく、またメディア再生システムの制御を自宅にいるゲストに許可するためのユーザ固有の起動ワード又は起動フレーズ（たとえば、「ねえＳｏｎｏｓ、アクセスを開いて（ＨｅｙＳｏｎｏｓ，ｏｐｅｎａｃｃｅｓｓ）」、及び「パーティーの時間だよ（Ｉｔ’ｓｐａｒｔｙｔｉｍｅ）」など）をそれぞれ有していてもよい。

さらに別の例では、登録ユーザ又はホストは、自宅にいる特定のゲストがある時間枠又は時間ウィンドウにおいて、メディア再生システムを限定的に制御することを許可する音声コマンドを送信するための、ユーザ固有若しくは共通の起動ワード又は起動フレーズを有していてもよい。参照によりその全体を本明細書に引用している、「ゲストアクセスによってクラウドソースのプレイリストを提供するための製造者のシステム、方法、装置、及び製品（Ｓｙｓｔｅｍｓ，Ｍｅｔｈｏｄｓ，Ａｐｐａｒａｔｕｓ，ａｎｄＡｒｔｉｃｌｅｓｏｆＭａｎｕｆａｃｔｕｒｅｔｏＰｒｏｖｉｄｅａＣｒｏｗｄ－ＳｏｕｒｃｅｄＰｌａｙｌｉｓｔｗｉｔｈＧｕｅｓｔＡｃｃｅｓｓ）」と題する米国特許出願公開第２０１３／０３４６８５９号明細書において、メディア再生システムの限定的な制御に関するいくつかの例がより詳細に提供されている。

さらに別の例では、登録ユーザ又はホストは、自宅にいる登録ゲストがある時間枠又は時間ウィンドウにおいて、メディア再生システムを自由に制御又は限定的に制御することを許可する音声コマンドを送信するための、ユーザ固有若しくは共通の起動ワード又は起動フレーズを有していてもよく、その一方で未登録ゲストによる制御を禁止していてもよい。場合によっては、登録ユーザ又はホストは、自宅にいる成人がある時間枠又は時間ウィンドウにおいて、メディア再生システムを自由に制御又は限定的に制御することを許可する音声コマンドを送信するための、ユーザ固有若しくは共通の起動ワード又は起動フレーズを有していてもよく、その一方で子供による制御を禁止していてもよい。上記と類似しているが異なる、他の多くの例が可能である。

場合によっては、登録ユーザ又はホストは、メディア再生システムが追加の音声コマンドを受信するための時間枠又は時間ウィンドウを指定してもよい。たとえば、登録ユーザ又はホストは、メディア再生システムの制御を命じる追加の音声コマンドを指定した時間枠内（たとえば、１時間）にゲストが送信することを許可する音声コマンド（たとえば、「ねえＳｏｎｏｓ、自宅システムの管理を１時間開いて（Ｈｅｙ，Ｓｏｎｏｓ，ｏｐｅｎｃｏｎｔｒｏｌｆｏｒｍｙｈｏｕｓｅｓｙｓｔｅｍｆｏｒｏｎｅｈｏｕｒ）」）を送信してもよい。上記と類似しているが異なる、他の多くの例が可能である。

さらに別の場合には、登録ユーザ又はホストは、最初の起動ワード又は起動フレーズと関連付けられた追加の音声コマンドを受信するための時間枠又は時間ウィンドウを閉じるか、若しくは解除してもよい。たとえば、登録ユーザ又はホストが、追加の音声コマンドを受信するための時間枠又は時間ウィンドウを１時間開放する起動ワード又は起動フレーズを用いて音声コマンドを発した場合、その登録ユーザ又はホストは、１時間の時間枠が終了する前に、その１時間の時間枠又は時間ウィンドウを解除することを命じる別の音声コマンド（たとえば、「ねえＳｏｎｏｓ、キューへの曲の追加は完了だよ（ＨｅｙＳｏｎｏｓ，ｑｕｅｕｅｓｏｎｇｓｃｏｍｐｌｅｔｅ）」）を送信してもよい。上記と類似しているが異なる、他の多くの例が可能である。

さらに別に例は、メディア再生システムが、登録ユーザと関連付けられた起動ワード又は起動フレーズを受信したことに基づいて作動することを含んでいてもよい。登録ゲストユーザは、起動ワード又は起動フレーズをゲストプロファイル内に格納していてもよい。起動ワード又は起動フレーズをゲストユーザから受信したと判定したことに応答して、メディア再生システムは、（ｉ）ゲストユーザと関連付けられた制限設定があるかどうかを判定し、（ｉｉ）起動ワード又は起動フレーズと、そのゲストユーザに対して割り当てた制限設定とに基づいて、１又は複数のＰＢＤに対する指示を構成し、且つ（ｉｉｉ）その指示を実行させるために１又は複数のＰＢＤに送信してもよい（たとえば、これによって、起動ワードコマンドと関連付けられた追加の音声コマンドを受信するための時間枠若しくは時間ウィンドウを開放する）。

場合によっては、メディア再生システムは、登録ゲストユーザから起動ワード又は起動フレーズを受信したことに基づいて作動することを控えてもよく、この例としては、メディア再生システムが登録ユーザ又はホストから起動ワード若しくは起動フレーズを含む音声コマンドを既に受信していたり、追加のコマンドを受信するための時間枠又は時間ウィンドウの有効期限が終了していなかったりする場合が挙げられる。

さらに別の場合には、メディア再生システムは、登録ゲストユーザから起動ワード又は起動フレーズを受信したことに基づいて作動し、次いでメディア再生デバイスが登録ユーザ又はホストから音声コマンドを受信した場合に、追加の音声コマンドを受信するための時間枠又は時間ウィンドウをその後閉じるか、或いは解除してもよい。いくつかの実施形態では、登録ゲストは、時間枠又は時間ウィンドウの有効期限が終了する前にこれを閉じるか、或いは解除してもよい。他の実施形態では、登録ゲストが子供である場合、時間枠又は時間ウィンドウの有効期限が終了する前に成人がこれを閉じるか、或いは解除してもよい。上記と類似しているが異なる、他の多くの例が可能である。

メディア再生システムに対する指示を構成した後、いくつかの例は、その指示を実行させるためにメディア再生システムの１又は複数のＰＢＤにその指示を送信することを含んでいてもよい。いくつかの例では、メディア再生システムはその指示をコンピューティングデバイス５０６に送信してもよい。他の例では、メディア再生システムはその指示をネットワークマイクロホンシステムに送信してもよい。

図１４に示す方法１４００は、たとえば図１のメディア再生システム１００、図２の１又は複数の再生デバイス２００、図３の１又は複数の制御デバイス３００、図４のユーザインタフェース、及び／又は図５に示す構成を含むか、或いは包含する動作環境内で実行できる方法の実施形態を提示している。方法１４００は、ブロック１４０２～１４０６の１又は複数によって示しているように、１又は複数の操作、機能、又はアクションを含んでいてもよい。

方法１４００は、メディア再生システムに対する音声コマンドを受信することを含むブロック１４０２で開始される。いくつかの実施形態では、音声コマンドを受信することは、メディア再生システムがＰＢＤ５３２，５３４，５３６，５３８の１又は複数、及び／又はコンピューティングデバイス５０６（メディア再生システムサーバとして構成されている）を介して音声コマンドを受信することを含む。１つの例では、コンピューティングデバイス５０６は音声コマンドを同等のテキストコマンドに変換し、そのテキストコマンドを解析してコマンドを識別してもよい。

１つの例では、ネットワークマイクロホンシステム単独で、又はメディア再生システムと共に１又は複数の機能を実行してもよい。いくつかの実施形態では、音声コマンドを受信することは、ネットワークマイクロホンシステムがＮＭＤ５１２、５１４、又は５１６の１又は複数を介して音声コマンドを受信すること、その音声コマンドをさらなる処理のためにコンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数に送信することを含む。別の例では、コンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８のうちの１つ又は複数は音声コマンドを同等のテキストコマンドに変換し、そのテキストコマンドを解析してコマンドを識別してもよい。さらに別の例では、ネットワークマイクロホンシステムは音声コマンドを同等のテキストコマンドに変換し、そのテキストコマンドをコンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数に送信してこれを解析し、且つコマンドを識別してもよい。

次いで、方法１４００は、音声コマンドをメディア再生システムの登録ユーザから受信したかどうかを判定することを含むブロック１４０４に進む。いくつかの例では、音声コマンドを登録ユーザから受信したかどうかを判定することは、コンピューティングデバイス５０６が、その音声コマンドと関連付けられたユーザプロファイルがメディア再生システムに格納されているかどうかを判定することを含んでいてもよい。たとえば、コンピューティングデバイス５０６はその音声コマンドを、ユーザプロファイル内のユーザの音声を識別する情報と照合しようと試みてもよい。

別の例では、音声コマンドを登録ユーザから受信したかどうかを判定することは、その音声コマンドがメディア再生システムの音声構成設定に格納された音声入力と一致しているかどうかを判定することを含んでいてもよい。たとえば、ユーザは、メディア再生システムがユーザを認識し、且つこれを関連付けるための音声入力又は一連の音声入力を提供することによって、ユーザの音声を認識するようにメディア再生システムを事前に構成していてもよい。音声構成設定をコンピューティングデバイス５０６及び／又はＰＢＤ５３２，５３４，５３６，５３８の１又は複数に格納してもよい。或いは、コンピューティングデバイス５０６は、音声構成設定を格納するためにネットワークマイクロホンシステムと通信してもよい。

さらに別の例では、音声コマンドを登録ユーザから受信したかどうかを判定することは、受信した音声コマンドと関連付けられる信頼性レベルを決定することを含んでいてもよい。このレベルはそのコマンドを発した人物と関連付けられた信頼性レベルであってもよく、これにはたとえば、通常そのコマンドを登録ユーザから受信したことを示す信頼性レベル、そのコマンドを特定の登録ユーザから受信したことを示す信頼性レベル、そのコマンドを登録ユーザ以外から受信したことを示す信頼性レベル、そのコマンドを登録ゲストから受信したことを示す信頼性レベル、そのコマンドを子供から受信したことを示す信頼性レベル、及び／又はそのコマンドを特定の子供から受信したことを示す信頼性レベルなどがある。このレベルはその要求の内容と関連付けられた信頼性レベルであってもよく、これについては、その要求が、たとえば「ヘイシード・ディキシー（ＨａｙｓｅｅｄＤｉｘｉｅ）」ではなく「ＡＣ／ＤＣ」を再生する要求であったことを示す信頼性レベルを一例として挙げることができる（これらは、非常によく似た響きの名前を有する２つの全く異なるバンドである）。ユーザ履歴及び位置情報に個別に基づいて、或いはユーザプロファイルで通常確認できる他の任意の情報と組み合わせたものに基づいて、この信頼性レベルを決定してもよい。動作中、信頼性レベルの決定をＣＲ５２２、ＰＢＤ５３２～５３８、ＮＭＤ５１２～５１６、及び／又はコンピューティングデバイス５０４～５０８のうちの任意の１又は複数によって単独で、又はこれらの組み合わせによって実行してもよい。

例示的な動作において、メディア再生システムはキッチンにいる登録ユーザから音声コマンドを受信し、且つ受信した音声コマンドに基づいて信頼性レベルを決定してもよい。メディア再生デバイスは、ＣＲ５２２、ＮＭＤ５１２～５１６、及び／又はＰＢＤ５３２～５３８のうちの任意の１又は複数から音声コマンドを受信してもよい。次いで、メディア再生システムは、ユーザの自宅内の別の部屋にいる登録ユーザから同じ音声コマンドを受信し、且つ受信した音声コマンドに基づいて信頼性レベルを決定してもよい。次いで、メディア再生システムは、ユーザの自宅全体を通じて異なる部屋の異なるデバイスから受信したコマンドに基づく新たな信頼性レベルを、その音声コマンドを受信した部屋に少なくとも一部基づいて決定してもよい。これにより、音声コマンドを登録ユーザから受信したことを示すより高い信頼性レベルを、メディア再生システムにおいて得ることができる。

別の例では、メディア再生システムは登録ユーザから音声コマンドを受信し、且つユーザ履歴に基づいて信頼性レベルを決定してもよい。具体的には、メディア再生システムは、受信した音声コマンドがアーティスト、プレイリスト、ジャンル、又はユーザプロファイルで確認できる他の任意の情報など、その登録ユーザと通常関連付けられている情報を含む場合、より高い信頼性レベルを決定してもよい。たとえば、登録ユーザが通常マイケル・ジャクソン（ＭｉｃｈａｅｌＪａｃｋｓｏｎ）の曲を聴取している場合、「スリラーの再生（ＰｌａｙＴｈｒｉｌｌｅｒ）」を命じる音声コマンドを登録ユーザから受信したことを示すより高い信頼性レベルを、メディア再生システムにおいて得ることができる。同様に、登録ユーザが通常マイケル・ジャクソンの曲又は１９８０年代の曲を聴取している場合、「スリラーの再生（ＰｌａｙＴｈｒｉｌｌｅｒ）」を命じる音声コマンドはフォール・アウト・ボーイ（ＦａｌｌＯｕｔＢｏｙ）というバンドによる「スリラー（Ｔｈｒｉｌｌｅｒ）」という曲ではなく、マイケル・ジャクソンというアーティストによる「スリラー」という曲の再生を命じるコマンドであることを示すより高い信頼性レベルを、メディア再生システムにおいて得ることができる。上記と類似しているが異なる、他の多くの例が可能である。

さらに別の例では、メディア再生システムは、ユーザプロファイルで確認できる登録ユーザの音声コマンドのパターンに基づいて信頼性レベルを構築してもよい。たとえば、メディア再生システムは、登録ユーザからブリトニー・スピアーズ（ＢｒｉｔｎｅｙＳｐｅａｒｓ）による特定の曲の再生を命じるコマンドを受信し、且つその受信した音声コマンドに基づいて信頼性レベルを決定してもよい。メディア再生システムが同じ音声コマンド、又はたとえばブリトニー・スピアーズによる別の曲の再生を命じるコマンドなどの類似した音声コマンドを受信するたびに、メディア再生システムはより高い信頼性レベルを構築してもよく、且つその音声コマンドを登録ユーザから受信したことを示すより高い信頼性レベルを得ることができる。

最後に、方法１４００は、音声コマンドを登録ユーザから受信したと判定したことに応答して、音声コマンドの内容と登録ユーザのユーザプロファイル内の情報とに基づいて、メディア再生システムに対する指示を構成することを含むブロック１４０６に進む。

いくつかの例では、音声コマンドの内容は、メディア再生システムの１又は複数のＰＢＤにメディアコンテンツの再生を命じるコマンドを含んでいてもよい。場合によっては、１又は複数のＰＢＤにメディアコンテンツの再生を命じるコマンドと登録ユーザのユーザプロファイル内の情報とに基づいて、コンピューティングデバイス５０６は、メディア再生システムに登録ユーザの好みのメディアソースからメディア又はオーディオコンテンツを取得させる指示を構成してもよい。

さらに別の場合には、メディア再生システムにメディアコンテンツの再生を命じるコマンドと登録ユーザのユーザプロファイル内の情報とに基づいて、メディア再生システムは、メディア再生システムにメディア再生システムの１又は複数のＰＢＤを介してメディアコンテンツを再生させる指示を構成してもよい。具体的には、コンピューティングデバイス５０６は、（ｉ）登録ユーザの好みの再生設定の１又は複数を用いてメディア再生システムを構成し、且つ（ｉｉ）登録ユーザの好みの再生設定を用いて、メディア再生システムの１又は複数のＰＢＤにメディアコンテンツを再生させる指示を含んでいてもよい。好みの再生設定は、登録ユーザのユーザプロファイルに格納される好みの再生設定であってもよい。付加的に又は代替的に、好みの再生設定は、登録ユーザのユーザプロファイルに格納されたユーザ履歴に基づいていてもよい。ユーザ履歴は、ユーザがメディアコンテンツを再生するために通常使用する、又は以前に使用した再生設定を含んでいてもよい。

場合によっては、音声コマンドの内容は、メディア再生システムの１又は複数のＰＢＤにメディアコンテンツの再生を命じるコマンドを含んでいてもよいが、メディア再生システムの特定の聴取ゾーン又は再生ゾーンを特定しない場合がある。コマンドの内容とユーザ履歴などの登録ユーザのユーザプロファイル内の情報とに基づいて、コンピューティングデバイス５０６は、メディア再生システムにメディア再生システムの特定の再生ゾーン内で１又は複数のメディア再生デバイスを介してメディアコンテンツを再生させる指示若しくは指示一式を構成してもよい。

別の場合には、音声コマンドの内容は、メディア再生システムに再生設定の変更を命じるコマンドを含んでいてもよい。メディア再生システムに再生設定の変更を命じるコマンドと登録ユーザのユーザプロファイル内の情報とに基づいて、コンピューティングデバイス５０６は、（ｉ）メディア再生システムにおける１又は複数のＰＢＤの再生設定をメディア再生システムに変更させる指示若しくは指示一式を構成し、且つ（ｉｉ）１又は複数のＰＢＤを介して再生設定を変更するように構成された指示又は指示一式を実行してもよい。

さらに別の例は、メディア再生システムが音声コマンドを子供から受信したかどうかを判定することを含んでいてもよい。たとえば、コンピューティングデバイス５０６は、その子供がメディア再生システムの登録ユーザの１人である場合に、ユーザプロファイル内の情報に基づいて成人と子供とを区別してもよい。別の例では、コンピューティングデバイス５０６は、ユーザの音声のトーン又は周波数に基づいて成人と子供とを区別してもよい。

さらに別の例では、音声コマンドを子供から受信したかどうかを判定することは、受信した音声コマンドと関連付けられる信頼性レベルを決定することを含んでいてもよい。上述したように、ユーザ履歴及び位置情報に個別に基づいて、或いはユーザプロファイルで通常確認できる他の任意の情報と組み合わせたものに基づいて、信頼性レベルを決定してもよい。

場合によっては、メディア再生システムは、子供がいる可能性の高い特定の部屋（たとえば、子供の寝室、遊び部屋、地下室など）にあるデバイス（たとえば、ＮＭＤ５１２～５１６又はＰＢＤ５３２～５３８のいずれか）を介して音声コマンドを受信してもよい。子供がいる可能性の高い部屋に設置されたデバイスからこの音声コマンドを受信したため、このコマンドを子供から受信したことを示すより高い信頼性レベルをメディア再生システムにおいて得ることができる。

さらに別の場合には、メディア再生システムは音声コマンドを受信し、その音声コマンドの内容に基づいて、その音声コマンドを子供から受信したことを示す信頼性レベルを決定してもよい。たとえば、メディア再生システムがアニメ番組やアニメ映画のサウンドトラックの再生を命じる音声コマンドを受信した場合、その音声コマンドを子供から受信したことを示すより高い信頼性レベルをメディア再生システムにおいて得ることができる。上記と類似しているが異なる、他の多くの例が可能である。

音声コマンドを子供から受信したと判定したことに応答して、いくつかの例は、子供にとって不適切となる恐れのある所与のメディアの再生をメディア再生システムの１又は複数のＰＢＤに対して禁止することを含んでいてもよい。いくつかの例は、子供の音声によるコマンドの内容に基づいて、コンピューティングデバイス５０６及び／又は１又は複数のＰＢＤに対して再生設定の変更を禁止することを含んでいてもよい。たとえば、コンピューティングデバイス５０６は、１又は複数のＰＢＤの音量を上げることを命じる子供の音声によるコマンドを無視してもよい。

また、さらに別の実施例は、その音声コマンドをメディア再生システムの登録ユーザではなくゲストユーザから受信したかどうかを判定することに基づくアクションを含んでいてもよい。場合によっては、コンピューティングデバイス５０６は、特定のゲストと関連付けられ得る、以前に作成したゲストプロファイルを格納していてもよい。さらに別の場合には、コンピューティングデバイス５０６は音声コマンドを登録ユーザから受信しなかったと判定し、次いで登録ユーザに対して、その音声コマンドがゲスト由来のものであるかどうかを確認してもよい。

さらに、音声コマンドをゲストユーザから受信したかどうかを判定することは、メディア再生システムが受信した音声コマンドと関連付けられる信頼性レベルを決定することを含んでいてもよい。上述したように、ユーザ履歴及び位置情報に個別に基づいて、或いはユーザプロファイルで通常確認できる他の任意の情報と組み合わせたものに基づいて、信頼性レベルを決定してもよい。

音声コマンドをゲストユーザから受信したと判定したことに応答して、コンピューティングデバイス５０６は、（１）ゲストユーザに対して制限設定を割り当て、（２）音声コマンドの内容とそのゲストユーザに対して割り当てた制限設定とに基づいて、１又は複数のＰＢＤに対する指示を構成し、且つ（３）その指示を実行させるために１又は複数のＰＢＤに送信してもよい。いくつかの実施形態では、ゲストユーザに対して制限設定を割り当てることは、コンピューティングデバイス５０６に格納された特定のゲストプロファイルと音声コマンドとをコンピューティングデバイス５０６が照合することを含んでいてもよい。

さらに別の例は、異なるユーザから受信した音声コマンドの競合を解決するために、メディア再生システムが優先順位を適用することを含んでいてもよい。競合する音声コマンドはたとえば、あるユーザから受信する曲の再生を命じる音声コマンドと、別のユーザから受信するその曲の再生中止を命じる後続の音声コマンドとであってもよい。あるユーザから受信する１又は複数の再生デバイス（たとえば、ＰＢＤ５３２，５３４，５３６，５３８）の音量を上げることを命じる音声コマンド、及び別のユーザから受信する音量を下げることを命じる後続の音声コマンドなど、他の例も可能である。具体的には、メディア再生システムは登録ユーザ又はホストから再生ゾーンでの曲の再生を命じる音声コマンドを受信してもよい。次いで、メディア再生システムは未登録ユーザ又はゲストから再生ゾーンでの曲の再生中止を命じる、競合する音声コマンドを受信する場合がある。この競合を解決するために、メディア再生システムは、登録ユーザから受信した音声コマンドが未登録ユーザ又はゲストから受信した音声コマンドよりも高い優先度を有するような優先順位を適用してもよい。

ある例では、メディア再生システムは、登録ゲストから受信した音声コマンドが未登録ゲストから受信した音声コマンドよりも高い優先度を有するような優先順位を割り当ててもよい。たとえば、ある登録ゲストから受信した音声コマンドが別の登録ゲストよりも高い優先度を有していてもよい。別の場合には、成人から受信した音声コマンドは子供よりも高い優先度を有していてもよい。

さらに別の場合には、メディア再生システムによって受信されたコントローラ発行コマンド（たとえば、メディア再生システムを制御するように構成されたＣＲ５２２又は他のコンピューティングデバイスから受信されるコマンド、或いは場合によってはコンピューティングデバイス５０６から受信されるコマンド）は登録ユーザよりも低い優先度を有していてもよいが、未登録ユーザ又はゲストよりは高い優先度を有していてもよい。いくつかの実施形態では、一部の登録ゲストはコントローラ発行コマンドよりも高い優先度を有していてもよい。優先順位の決定及び割当てに関する他の例も可能である。

メディア再生システムに対する指示を構成した後、いくつかの実施形態では、その指示を実行させるためにメディア再生システムの１又は複数のＰＢＤにこれを送信してもよい。いくつかの実施形態では、コンピューティングデバイス５０６はネットワークマイクロホンシステムに指示を送信してもよい。

図１５に示す方法１５００は、たとえば図１のメディア再生システム１００、図２の１又は複数の再生デバイス２００、図３の１又は複数の制御デバイス３００、図４のユーザインタフェース、及び／又は図５に示す構成を含むか、或いは包含する動作環境内で実行できる方法の実施形態を提示している。方法１５００は、ブロック１５０２～１５０６の１又は複数によって示しているように、１又は複数の操作、機能、又はアクションを含んでいてもよい。

方法１５００は、メディア再生システムに対する音声コマンドと関連付けられた起動ワード又は起動フレーズを受信することを含むブロック１５０２で開始される。上述したように、起動ワード又は起動フレーズは、ユーザプロファイルに格納された特定の言葉又はフレーズ（たとえば、「ねえ、Ｓｏｎｏｓ」）であってもよい。いくつかの実施形態では、メディア再生システムは、登録ユーザの音声コマンドと関連付けられた共通の起動ワード又は起動フレーズ（たとえば、「ねえ、Ｓｏｎｏｓ」）を受信してもよい。付加的に又は代替的に、メディア再生システムは、登録ゲストユーザの音声コマンドと関連付けられた共通の起動ワード又は起動フレーズを受信してもよい。場合によっては、登録ユーザがそれぞれ異なる起動ワード又は起動フレーズを有するように、メディア再生システムを構成してもよい。

具体的には、登録ユーザはそれぞれ異なる音声コマンド用に、ユーザ固有の起動ワード又は起動フレーズを有していてもよい。たとえば、メディア再生システムは、再生キューに曲を追加するための起動ワード又は起動フレーズを（たとえば、「ねえＳｏｎｏｓ、再生キューに曲を追加して」、「おいＳｏｎｏｓ、キューに曲を追加して」、及び「曲をアルファベット順に」など）受信してもよく、またメディア再生システムの制御を自宅にいるゲストに許可するためのユーザ固有の起動ワード又は起動フレーズ（たとえば、「ねえＳｏｎｏｓ、アクセスを開いて」、及び「パーティーの時間だよ」など）をそれぞれ受信してもよい。

次いで、方法１５００は、音声コマンドと関連付けられた起動ワードをメディア再生システムの登録ユーザから受信したかどうかを判定することを含むブロック１５０４に進む。いくつかの実施形態では、音声コマンドと関連付けられた起動ワードを登録ユーザから受信したかどうかを判定することは、方法１４００のブロック１４０４に記載した、音声コマンドを登録ユーザから受信したかどうかを判定することと同様であってもよい。

最後に、方法１５００は、音声コマンドと関連付けられた起動ワードを登録ユーザから受信したと判定したことに応答して、受信した起動ワードと、音声コマンドの内容と、登録ユーザのユーザプロファイル内の情報とに基づいて、メディア再生システムに対する指示を構成することを含むブロック１５０６に進む。

いくつかの例では、メディア再生システムに対する指示は、登録ユーザ、ゲスト、及び／又は未登録ユーザから受信した起動ワードと関連付けられた追加の音声コマンドを、メディア再生システムが受信するための時間枠又は時間ウィンドウを開放することを命じる指示を含んでいてもよい。たとえば、再生キューに曲を追加するための起動ワードを登録ユーザから受信したと判定したことに応答して、再生キューへの特定の曲の追加を命じる追加の音声コマンド（たとえば、「マイケル・ジャクソンのスリラーを追加して」）を登録ユーザが送信できる時間枠（たとえば、５分）をメディア再生システムが開放してもよい。

別の例では、メディア再生システムの制御をすべてのゲストに許可するための起動ワードを登録ユーザから受信したと判定したことに応答して、メディア再生システムは、自宅内のすべてのゲストに対して、主として再生キューへの曲の追加、曲の再生、又は音量の変更などを命じる音声コマンドを、ユーザ定義の若しくはデフォルトの時間枠又は時間ウィンドウにおいて送信することを許可するために時間枠（たとえば、１時間）を開放してもよい。

次いで、方法１５００は、起動ワードを登録ユーザから受信したと判定したことに応答して、受信した起動ワード又は起動フレーズと、音声コマンドの内容と、登録ユーザのユーザプロファイル内の情報とに基づいて、その起動ワードが制限設定と関連付けられているかどうかを判定することを含むブロック１５０６に進む。

いくつかの例では、メディア再生システムは、登録ユーザ又は登録ゲストユーザのユーザプロファイル内の制限設定に基づいて指示を構成してもよい。登録ユーザから受信した起動ワードは、特定のゲスト用の制限設定と関連付けられていてもよい。たとえば、登録ユーザ又はホストは、再生ゾーンの１又は複数のＰＢＤ５３２，５３４，５３６，５３８、及び／又はコンピューティングデバイス５０６を制御することを命じる追加の音声コマンドの送信を、ある時間枠又は時間ウィンドウにおいて登録ゲストに許可する音声コマンド（たとえば、「ねえＳｏｎｏｓ、リビングの管理者を許可されたゲストに限定して」）を送信してもよく、その一方で未登録ゲストによる追加の音声コマンドの送信を禁止していてもよい。別の場合には、受信した起動ワードは子供用の制限設定と関連付けられていてもよい。上記と類似しているが異なる、他の多くの例が可能であり、これらは本明細書の他の箇所に記載した例を含むが、それらに限定されるものではない。

さらに別の例では、登録ユーザから受信した起動ワードは、特定のゲストがある時間枠又は時間ウィンドウにおいて、メディア再生システムを限定的に制御することを許可する制限設定と関連付けられていてもよい。参照によりその全体を本明細書に引用している、「ゲストアクセスによってクラウドソースのプレイリストを提供するための製造者のシステム、方法、装置、及び製品（Ｓｙｓｔｅｍｓ，Ｍｅｔｈｏｄｓ，Ａｐｐａｒａｔｕｓ，ａｎｄＡｒｔｉｃｌｅｓｏｆＭａｎｕｆａｃｔｕｒｅｔｏＰｒｏｖｉｄｅａＣｒｏｗｄ－ＳｏｕｒｃｅｄＰｌａｙｌｉｓｔｗｉｔｈＧｕｅｓｔＡｃｃｅｓｓ）」と題する米国特許出願公開第２０１３／０３４６８５９号明細書において、メディア再生システムの限定的な制御に関するいくつかの例がより詳細に提供されている。

起動ワード又は起動フレーズをゲストユーザから受信したと判定したことに応答して、メディア再生システムは、（ｉ）ゲストユーザと関連付けられた制限設定があるかどうかを判定し、（ｉｉ）起動ワード又は起動フレーズと、そのゲストユーザに対して割り当てた制限設定とに基づいて、１又は複数のＰＢＤに対する指示を構成し、且つ（ｉｉｉ）その指示を実行させるために１又は複数のＰＢＤに送信してもよい（たとえば、これによって、起動ワードコマンドと関連付けられた追加の音声コマンドを受信するための時間枠若しくは時間ウィンドウを開放する）。

いくつかの例では、メディア再生システムは１又は複数のＰＢＤ５３２，５３４，５３６，５３８、及び／又はコンピューティングデバイス５０６を介して、登録ゲストユーザから起動ワード又は起動フレーズを受信したことに基づいて作動することを控えてもよく、この例としては、メディア再生システムが登録ユーザ又はホストから起動ワード若しくは起動フレーズを含む音声コマンドを既に受信していたり、追加のコマンドを受信するための時間枠又は時間ウィンドウの有効期限が終了していなかったりする場合が挙げられる。

メディア再生システムに対する指示を構成した後、いくつかの例は、その指示を実行させるためにコマンドをメディア再生システムの１又は複数のＰＢＤに送信することを含んでいてもよい。いくつかの例では、コンピューティングデバイス５０６は、コマンド又はコマンド一式をメディア再生システムの１又は複数のＰＢＤに送信してもよい。

場合によっては、メディア再生システムに実行を命じる指示を構成した後、登録ユーザ又はホストは、その指示と関連付けられた追加の音声コマンドを受信するための時間枠又は時間ウィンドウを閉じるか、或いは解除してもよい。たとえば、登録ユーザ又はホストが、追加の音声コマンドを受信するための時間枠又は時間ウィンドウを１時間開放する起動ワード又は起動フレーズを用いて音声コマンドを送信した場合、その登録ユーザ又はホストは、１時間の時間枠が終了する前に、その１時間の時間枠又は時間ウィンドウを解除することを命じる別の音声コマンド（たとえば、「ねえＳｏｎｏｓ、キューへの曲の追加は完了だよ」）を送信してもよい。上記と類似しているが異なる、他の多くの例が可能である。

さらに別の例は、メディア再生システムが、登録ゲストユーザから起動ワード又は起動フレーズを受信したことに基づいて作動し、次いでメディア再生デバイスが登録ユーザ又はホストから音声コマンドを受信した場合に、追加の音声コマンドを受信するための時間枠又は時間ウィンドウをその後閉じるか、或いは解除することを含んでいてもよい。いくつかの実施形態では、登録ゲストは、時間枠又は時間ウィンドウの有効期限が終了する前にこれを閉じるか、或いは解除してもよい。他の実施形態では、登録ゲストが子供である場合、時間枠又は時間ウィンドウの有効期限が終了する前に成人がこれを閉じるか、或いは解除してもよい。上記と類似しているが異なる、他の多くの例が可能である。

ＶＩ．音楽配信サービスの選択のための例示的なシステム、装置、及び方法
本明細書に記載の例は、コマンドに基づいて適切なストリーミングサービス（たとえば、オーディオトラックをストリーミングする）を識別し、且つこれにアクセスすることに関する。

図１６及び図１７に示す方法１６００並びに１７００は、たとえば図１のメディア再生システム１００、図２の再生デバイス２００の１又は複数、及び図３の制御デバイス３００の１又は複数を含む動作環境内で実行できる方法の実施形態を提示している。方法１６００及び１７００は、ブロック１６０２～１６１４及び１７０２～１７０８の１又は複数によって示しているように、１又は複数の操作、機能、又はアクションを含んでいてもよい。

図１６は、ストリーミング向けの音楽サービスを識別するプロセスに関する例示的なフロー図である。ブロック１６０２において、ＮＭＤ５１２～５１６又はＣＲ５２２は、ストリーミングサービスから再生するためのオーディオコンテンツを提供するように指示するコマンドの通知を受信してもよい。場合によっては、ＮＭＤ５１２～５１６によって受信されるコマンドは音声コマンドの形式をとっていてもよく、その一方で、ＣＲ５２２によって受信されるコマンドはユーザインタフェース上のテキストコマンド入力であってもよい。

受信されるコマンドは、通常、１又は複数のオーディオコンテンツのタイプに関する情報を含んでいてもよい。場合によっては、コマンドはアーティスト名、曲名、アルバム名、又はジャンル名を含んでいてもよい（すなわち「レッド・ツェッペリンの曲を再生して（ｐｌａｙＬｅｄＺｅｐｐｅｌｉｎ）」、「７０年代ロックを再生して」など）。また、コマンドは、コンテンツタイプをさらに詳細に示す接頭辞及び／又は接尾辞タイプの情報（たとえば、「ベストオブ．．．」、「．．．ラジオ」、及び「．．．プレイリスト」など）を含んでいてもよい。たとえば、「レッド・ツェッペリンの曲をラジオで再生して（ｐｌａｙＬｅｄＺｅｐｐｅｌｉｎｒａｄｉｏ）」というコマンドは、特定のアーティストの曲をラジオ形式で聴取したいというユーザの願望を示していてもよい。受信されるコマンドは、コンテンツタイプを示す他の様々な形態の情報も含んでいてもよい。

ブロック１６０２で受信したコマンドに関する通知を様々な方法で処理してもよい。１つの実装形態では、コマンドの処理をクラウドネットワーク５０２を介して遂行してもよい。このような場合、ＮＭＤ５１２～５１６によって受信された音声コマンドは、音声入力を処理するために通信ネットワーク５４６を介してこれをコンピューティングデバイス５０４～５０８の１又は複数に送信させてもよい。クラウドコンピューティングデバイスは音声入力を同等のテキストコマンドに変換し、このテキストコマンドを解析してコマンドを識別してもよい。別の構成では、クラウドコンピューティングデバイスは音声入力を同等のテキスト形式に変換することのみを行い、構文解析及びコマンド識別のために、その同等のテキストを第２のコンピューティングデバイスに送信してもよい。他の場合には、ＮＭＤ５１２～５１６は、通信ネットワーク５４６を介して音声入力を送信する前にこれをテキストに変換するか、又は音声入力のテキスト変換と、コマンド識別のための構文解析の実行とを両方行ってもよい。ＣＲ５２２がテキストコマンドを受信した場合、構文解析及びコマンド識別のために、通信ネットワーク５４６を介してテキスト入力をコンピューティングデバイス５０４～５０８の１つに送信してもよい。別の場合には、ＣＲ５２２がテキスト入力の構文解析を実行して、コマンドを識別してもよい。

別の実装形態では、コマンドの処理をローカルネットワークを介してローカルに遂行してもよい。このような場合、ＮＭＤ５１２～５１６によって受信された音声コマンドは、音声入力を処理するためにローカルネットワークを介してこれを１又は複数のローカルコンピューティングデバイスに送信させてもよい。ローカルコンピューティングデバイスは音声入力を同等のテキストコマンドに変換し、そのテキストコマンドを解析してコマンドを識別してもよい。別の構成では、ローカルコンピューティングデバイスは音声入力を同等のテキスト形式に変換することのみを行い、構文解析及びコマンド識別のために、その同等のテキスト形式を第２のローカルコンピューティングデバイスに送信してもよい。他の場合には、ＮＭＤ５１２～１６は、ローカルネットワークを介して音声入力を送信する前にこれをテキストに変換するか、又は音声入力のテキスト変換と、コマンド識別のための構文解析の実行とを両方行ってもよい。ＣＲ５２２がテキストコマンドを受信した場合、構文解析及びコマンド識別のために、ローカルネットワークを介してテキスト入力をローカルコンピューティングデバイスに送信してもよい。別の場合には、ＣＲ５２２がテキスト入力の構文解析を実行して、コマンドを識別してもよい。コマンドを処理するための他の構成があってもよい。

ブロック１６０４において、コンピューティングデバイスはコマンドによって指定されるコンテンツタイプを識別してもよい。クラウドネットワーク５０２又はローカルネットワークを介してローカルに、コンテンツタイプの識別を遂行してもよい。

１つの実装形態では、コンピューティングデバイスはコンテンツタイプのロジックを使用して、コマンド又はコマンドの一部をコンテンツタイプと関連付けてもよい。前述の「レッド・ツェッペリンの曲をラジオで再生して」の例を使用した場合、コンピューティングデバイスはそのコンテンツタイプを「アーティスト又はラジオ局」として識別してもよい。別の例では、「エレクトロニック・ダンス・ミュージックの曲を再生して（ＰｌａｙＥｌｅｃｔｒｏｎｉｃＤａｎｃｅＭｕｓｉｃ）」というコマンドによって、そのコンテンツタイプが「ジャンル」として識別されてもよい。他の様々なコンテンツタイプに対しても同様の識別を行うことができる。たとえば「ダンスミュージック」などのコマンド内のキーワードを入力することによってコンテンツタイプの識別を遂行してもよく、またデータベースは、ジャンルなどのコンテンツタイプに関する通知にそのキーワードをマッピングしてもよい。いくつかの例では、データベースはコンピューティングデバイス又はネットワークマイクロホンデバイス上にあってもよい。

ブロック１６０８においていずれのコンテンツタイプも識別されていないと判定した場合、本方法は直ちにブロック１６１４に進んでもよい。ユーザの入力エラー、不十分な音声入力品質、背景雑音、或いは単にそのようなコンテンツタイプを確認できないなどのいくつかの理由から、コンテンツタイプを識別できない場合がある。たとえば、不明瞭なアーティスト名を示すコマンドのコンテンツタイプは識別できない可能性がある。

ブロック１６１４において、コンピューティングデバイスによって「このコンテンツは利用できない」と示す通知を出力し、且つこれを通信ネットワーク５４６を介してＮＭＤ５１２～５１６、ＰＢＤ５３２～５３８、又はＣＲ５２２のいずれか又はすべてに送信してもよい。利用可能なコンテンツがないという通知を、その後ユーザに聴覚的又は視覚的に提示してもよい。たとえば、ＮＭＤ及びＰＢＤは可聴通知を出力してもよく、その一方で、ＣＲが可聴通知及び視覚通知の両方を出力できるようにしてもよい。付加的に又は代替的に、この通知の送信によってユーザにコマンドを再入力するように促す提案を出力させてもよい。たとえば、この提案は、コンテンツタイプの識別を補助するために、ユーザにいくつかの追加の識別特性を指定させるものであってもよい。

しかしながら、ブロック１６０６においてコンテンツタイプが識別されたと判定した場合、本方法はブロック１６０８に進み、ブロック１６０４で識別されたコンテンツタイプを再生することができるストリーミングサービスを識別してもよい。一般に、個々のストリーミングサービスは、提供するオーディオコンテンツのみならずコンテンツの表示方法に至るまで、他のストリーミングサービスと大きく異なる可能性がある。たとえば、各ストリーミングサービスは、特定のアーティスト又はアルバムの音楽コンテンツをストリーミングするための比較的独占的な権利を有することができる。別の場合には、Ｐａｎｄｏｒａ（登録商標）などのいくつかのストリーミングサービスがラジオ局形式でしかストリーミング配信できない一方で、Ｓｐｏｔｉｆｙ（登録商標）などの他のサービスは、アーティスト、曲、アルバム、又はラジオ局によるオンデマンドの音楽ストリーミング配信が可能である場合がある。この事実に鑑みて、７０４で識別されたコンテンツタイプをすべてのストリーミングサービスがストリーミング配信できるわけではないことが明らかである。

たとえば、コンピューティングデバイスは、利用可能なコンテンツのエントリ、及び各種ストリーミングサービス用に提供する際のそのコンテンツの対応形式を含み得るルックアップテーブルと、識別されたコンテンツタイプのメタデータとを比較することにより、適切なストリーミングサービスを識別してもよい。場合によっては、コンピューティングデバイスは、利用可能なストリーミングサービス全体にクエリを送信してもよい。他の場合には、コンピューティングデバイスは、利用可能なストリーミングサービスのサブセットのみをクエリしてもよい。そのようなサブセットを、ユーザが登録しているストリーミングサービス、ユーザが最後にストリーミングサービスを使用してからの日数、ストリーミングサービスの注目度、及びユーザ設定など含むいくつかの要因それぞれのみに基づいて、或いはこれらを組み合わせたものに基づいて、コンピューティングデバイスによって選択してもよい。たとえば、ユーザがＰａｎｄｏｒａ（登録商標）、Ｓｐｏｔｉｆｙ（登録商標）、及びＤｅｅｚｅｒ（登録商標）のみに登録している場合、コンピューティングデバイスはこれらのストリーミングサービスのみをクエリして、適切なサービスを決定してもよい。

このようなルックアップテーブルをコンピューティングデバイスのメモリに、又はコンピューティングデバイスや音楽サービス上などの外部の場所に格納してもよい。様々なルックアップテーブルが各種音楽サービスの間に配布され得る場合、コンピューティングデバイスは適合するサービスを検出するために、各音楽サービスを同時に又は順次クエリしてもよい。適切なストリーミングサービスを識別する他の方法が可能である。

１つの実装形態では、ブロック１６０８においてストリーミングサービスを識別することは、ユーザが登録しているストリーミングサービスにおいて現在利用可能な再生容量を決定することをさらに含んでいてもよい。一般に、いくつかのストリーミングサービスは、任意の所与の時間に登録アカウントで利用可能となるアクティブなストリームの数を制限している可能性がある。たとえば、Ｓｐｏｔｉｆｙ（登録商標）は登録アカウントごとに１つのアクティブなストリームのみを許可し得る。たとえば、コンピューティングデバイスは、ユーザが登録しているサービスに使用状況（すなわち、アクティブなストリームがいくつあるか）をクエリし、次いでその使用状況を制限データ容量と比較することによって（すなわち、Ｓｐｏｔｉｆｙは１つのアクティブなストリームのみ）、現在利用可能な再生容量を決定してもよい。別の例では、クエリに応答してストリームが利用可能かどうかを示すために、ストリーミングサービスはバイナリ値を出力してもよい。利用可能な再生容量を他の方法で決定してもよい。

本実装形態では、コンピューティングデバイスはブロック１６０８において、コマンドによって指定されたコンテンツタイプをサポートしているものとして登録中のサービスを識別し、さらにその登録中のサービスには利用可能なストリームが存在しないと判定してもよい。たとえば、あるユーザとその配偶者双方がＳｐｏｔｉｆｙ（登録商標）のアカウントを共有しており、ジムにいる配偶者のスマートフォンデバイスに音楽がストリーミング配信されている場合において、そのユーザが「アイ・オブ・ザ・タイガーを再生して（ＰｌａｙＥｙｅｏｆｔｈｅＴｉｇｅｒ）」というコマンドを発するとき、コンピューティングデバイスは、その曲を再生できるものとしてＳｐｏｔｉｆｙ（登録商標）を識別し、同時にストリームが利用不可能であると判定してもよい。このような場合、コンピューティングデバイスにそのコンテンツタイプをサポートすることができる、ＡｐｐｌｅＭｕｓｉｃ（登録商標）などの別のストリーミングサービスを識別させてもよい。

別の場合には、コンピューティングデバイスが、そのコンテンツタイプをサポートすることができる別のストリーミングサービスを識別できないことがある。これは、たとえばユーザが１つのストリーミングサービスによって独占的に提供されるコンテンツを要求したときに、コンピューティングデバイスがストリーミングサービスのサブセットのみを考慮する場合などに主として起こり得る。このような場合、コンピューティングデバイスは、そのコマンドに対応するコンテンツを提供するにあたり使用するべく、現在アクティブなストリームを「盗用する」ようにする可能性がある。前述の例を使用すると、他のいずれのストリーミングサービスも「アイ・オブ・ザ・タイガー」をサポートできない場合、ジムにいる配偶者へのストリーム配信をキャンセルして、これをユーザ自身に提供することができる。

たとえば、ブロック１６１０において識別されたコンテンツタイプをサポートできるものとしてある利用可能なストリーミングサービスが識別された場合、本プロセスはブロック１６１２に進み、ＰＢＤ５３２～５３８における任意の組み合わせにオーディオコンテンツを再生させてもよい。当該音楽サービスに対しては、たとえばサービスＡＰＩにコンテンツをクエリし、且つそのコンテンツをストリーミングすることによってアクセスしてもよい。ＰＢＤ５３２～５３８又はコンピューティングデバイス５０４～５０６のいずれかからの要求に応じて、コンピューティングデバイス５０８から直接、或いは音楽ストリーミングサービスと関連付けられた他の各種コンピューティングデバイスからＰＢＤ５３２～５３８に対して直接、オーディオコンテンツをストリーミングしてもよい。ストリーミングメディアコンテンツの再生を開始し、且つこれをもたらす他の方法も存在する。

別の場合には、ブロック７１０において識別されたストリーミングサービスが現在利用可能でない場合（すなわち、アプリケーションがインストールされておらず、ユーザが登録されていない）、コンピューティングデバイスは７１４で、音楽サービスを使用可能にする一連の行動を提案することに関して、通知の出力を行ってもよい。ＮＭＤ５１２～５１６、ＰＢＤ５３２～５３８、又はＣＲ５２２の任意の組み合わせにこの通知を送信してもよく、また、これによって当該コンテンツタイプをサポートできる識別された音楽サービスを示すような聴覚的及び／又は視覚的提案を行ってもよく、及び／又はその音楽サービスへの登録方法、ダウンロード方法、或いはその利用方法などに関する指示を提示してもよい。

図１７は、図１６のブロック１６１０及び１６１２における音楽ストリーミングサービスを識別するための例示的なプロセスに関する別の例示的なフロー図である。ブロック１７０２において、コンピューティングデバイスは、コマンドによって識別されたコンテンツタイプに少なくとも一部基づいて、ストリーミングサービスに対して信頼性メトリック又はメトリクスを決定させてもよい。一般に、信頼性メトリックは、ストリーミングサービス又は複数のストリーミングサービスに対して算出される数値又はパーセント値（たとえば１～１００）であり得る。このような信頼性メトリックは、ストリーミングオーディオを提供する特定の音楽サービスを選択することが、ユーザに所望のコンテンツを提供する結果をもたらす可能性を反映し得る。たとえば、数値が高くなるほどより高い信頼性レベルの適合性を示している場合、「８０」の信頼性メトリックを割り当てられたストリーミングサービスは、信頼性メトリックが「４５」のストリーミングサービスよりもコンテンツの提供に適している可能性がある。

ストリーミングサービスに対して算出される信頼性メトリックは、コンテンツタイプ、再生容量、使用履歴、外部データなどのいくつかの基準に基づいていてもよい。このような基準を様々なデータ型によって構成していてもよく、且つこれをＮＭＤ、ＣＲ、ＰＢＤ、コンピューティングデバイス、音楽サービス、及び外部の各種ソースなどの様々なソースから取得してもよい。このデータを集約して、コンピューティングデバイス５０４又は５０６と関連付けられたデータベースなどの中央の場所に、又は分散する形式で格納してもよい。

たとえば、信頼性メトリックにおいて、コマンドによって指定されるコンテンツタイプをサポートするストリーミングサービスの適合性を考慮してもよい。コンテンツタイプを提供する各種ストリーミングサービスの適合性を決定することは、識別されたコンテンツタイプに関連するメタデータをルックアップテーブルにマッピングすること、又は各種音楽サービスのテーブルをクエリすること、一致するフィールド数に値を割り当てることを含んでいてもよい。１つの例として、「ジャクソン５のプレイリストを再生する（ｐｌａｙＪａｃｋｓｏｎ５ｐｌａｙｌｉｓｔ）」ことを指定するコマンドは、「アーティスト又はプレイリスト」というコンテンツタイプを有していてもよい。このような場合、Ｐａｎｄｏｒａ（登録商標）及びＳｐｏｔｉｆｙ（登録商標）などの２つのストリーミングサービスにおけるルックアップテーブルは、双方がアーティストフィールドにおいてジャクソン５への参照を含んでいる可能性がある。ただし、Ｐａｎｄｏｒａ（登録商標）はそのコンテンツタイプのプレイリストをサポートしていないため、Ｓｐｏｔｉｆｙ（登録商標）のみがＪａｃｋｓｏｎ５を識別するプレイリストフィールドを含んでいる可能性がある。そのような場合、Ｐａｎｄｏｒａ（登録商標）にはコンテンツタイプ値「２」が与えられ、Ｓｐｏｔｉｆｙ（登録商標）には値「１」が与えられる。

付加的に、又は代替的に、フィールドマッチングの強度を採用してもよい。前述の例を使用して、Ｓｐｏｔｉｆｙ（登録商標）のサービスがジャクソン５に対応するアーティストフィールドを含まないが、音楽メタデータを利用してコンピューティングデバイスによってジャクソン５の元メンバーであると識別され得るマイケル・ジャクソンのアーティストエントリを有していると仮定する。このような場合、Ｓｐｏｔｉｆｙ（登録商標）のサービスのアーティストフィールドに０の値が与えられるのではなく、このサービスには１未満の調整値が与えられてもよい。ストリーミングサービスのコンテンツタイプの適合性値を決定する上で、他の形態も可能である。

別の場合には、様々な形態の使用履歴データの一部において信頼性メトリックを算出してもよい。様々な履歴データ型をＮＭＤ、ＣＲ、ＰＢＤ、コンピューティングデバイス、音楽サービス、及び外部の各種ソースなどの様々なソースから取得してもよい。このデータを集約して、コンピューティングデバイス５０４又は５０６と関連付けられたデータベースなどの中央の場所に、又は分散する形式で格納してもよい。

たとえば、使用状況データは、ユーザが所与のストリーミングサービスにアクセスする頻度を示している可能性がある。別の例として、使用状況データは、１日のうちで何時間、１週間のうちで何日間、且つ１年のうちで何カ月間にわたって通常そのサービスをユーザが使用しているかを識別するための時間ベースのデータを含んでいてもよい。たとえば、ユーザは午前中にｉＨｅａｒｔＲａｄｉｏ（登録商標）を聴取し、夜になるとＴｉｄａｌ（登録商標）を聴取することを好む場合がある。別の例として、このような使用状況データは、マルチゾーン環境においてゾーンごとにストリーミングサービスに関するユーザ嗜好性を示している場合がある。たとえば、ユーザが浴室ゾーンで９０％の確率でＳｐｏｔｉｆｙ（登録商標）にアクセスし、リビングエリアのゾーンで８０％の確率でＤｅｅｚｅｒ（登録商標）にアクセスしている場合、Ｓｐｏｔｉｆｙ（登録商標）とＤｅｅｚｅｒ（登録商標）とに対応する信頼性メトリックは、ユーザがどのゾーンでオーディオをストリーミングしようとしているかに依存して、大きく異なる可能性がある。このような場合、ユーザが浴室で音楽を聴取することを望む場合、Ｓｐｏｔｉｆｙ（登録商標）がはるかに良い選択肢となり得る。他の様々なタイプの使用履歴データも同様に存在し得る。

また、「外部の」各種データ型に基づいて、一部信頼性メトリックを決定してもよい。このようなデータは、地理的な位置、人口統計データなどを主として取り入れることができるマクロタイプのデータを含んでいてもよい。たとえば、そのようなマクロデータは、世界中で一部の地域又はある国の地域で特定のストリーミングサービスが利用可能でなく、且つ不評であることを示す場合があり、これにより、信頼性メトリックが低下する可能性がある。そのような場合、そのストリーミングサービスの信頼性メトリックは地理的な位置に依存して変化する可能性がある。「外部」データの型にはさらに気象データが含まれていてもよく、これにより、たとえば涼しく乾燥した夏の晩にパティオでＳｐｏｔｉｆｙ（登録商標）を聴取するなど、あるユーザ嗜好性を取り入れることができる。さらに、休日や、このような特定の日に通常ストリーミング配信される音楽サービスを識別するものとして、カレンダデータを考慮に入れてもよい。他の形式の外部データも存在し得る。

さらに、様々な基準を組み合わせて、所与のストリーミングサービスの信頼性メトリックを決定することも可能である。たとえば、あるユーザはリビングルームでＰａｎｄｏｒａ（登録商標）を使用して多種多様なクラシック音楽を聴取することを好むが、寝室では専らＡｐｐｌｅＭｕｓｉｃ（登録商標）を使用して好きなアーティストのフルアルバムを聴取する場合がある。このような場合、特定の音楽サービスの信頼性メトリックを決定するために、コンテンツタイプ（ジャンルやアーティスト）を特定の音楽サービスの利用場所に関するユーザ履歴と組み合わせてもよい。他の多くの組み合わせが存在し得る。

コンピュータ実装アルゴリズムは、上記の基準をストリーミングサービスの信頼性メトリックにマッピングすることができる。たとえば、信頼性メトリックを出力するテーブルに１又は複数の基準をマッピングすることができる。いくつかの実施形態では、このアルゴリズムはコンテンツタイプ、使用履歴、及び／又は「外部データ」などの様々な基準の重み付けを含んでいてもよい。このアルゴリズムは、相対的重要度に基づいて様々な基準に異なる重みを割り当ててもよい。たとえば、ユーザ嗜好性をより影響力があるものと見なしてもよく、またこれに対して、人口統計データよりも多く重み付けを与えてもよい。データの重み付けをシステムによって、又はユーザ設定によって定義してもよく、或いはこれはユーザのフィードバックに基づいて動的に調整可能であってもよい。重み付けされたデータの各々をテーブルにマッピングしてもよく、これらをたとえば、信頼性メトリックに対してマッピングし、次いでこれらを組み合わせて、全体として音楽サービスのための集約された信頼性メトリックを形成してもよい。

ブロック１７０４において、コンピューティングデバイス５０４又は５０６は、所与のストリーミングサービスが信頼性条件を満たしているかどうかを判定してもよい。この信頼性条件をいくつかの方法で満たすことができる。たとえば、所与のストリーミングサービスの信頼性メトリックがある信頼性レベル閾値を超えた場合、その信頼性条件を満たすことができ、この信頼性レベル閾値はデフォルトのシステム設定値であるか、又はユーザによって調整可能であってもよい。たとえば、閾値信頼性レベルが８０である状況で、３つの信頼性メトリックをＳｅｒｖｉｃｅ１＝８５、Ｓｅｒｖｉｃｅ２＝８３、Ｓｅｒｖｉｃｅ３＝２５のように算出した場合、（ブロック１６１４に関連して上述したように）ブロック１７０６においてＳｅｒｖｉｃｅ１がストリーミングのために出力されるか、又はユーザに提案されることになり得る。

別の場合には、（１）そのストリーミングサービスにおいて算出される信頼性メトリックが閾値信頼性レベルを超えており、且つ（２）算出される２つの最高信頼性メトリックが互いに閾値範囲内にないときにのみ、信頼性条件が満たされ得る。たとえば、すぐ上で述べた事例で信頼性レベルの範囲が３であった場合、Ｓｅｒｖｉｃｅ１及びＳｅｒｖｉｃｅ２の信頼性メトリックに起因して、信頼性条件は満たされないことになる。この信頼性条件には、付加的に又は代替的に、他の様々なルールを引用してもよい。

ブロック１７０８において信頼性条件が満たされていないと判定した場合、コンピューティングデバイス５０４又は５０６のいずれかによってブロック１７０８においてエラー状態をトリガしてもよい。エラー状態は、１６１６に関連して述べたように、コンテンツが利用不可能であるという通知を出力するなど、特定のイベントが生じるようにトリガしてもよい。別の場合には、エラー状態をトリガすることにより、コンテンツをデフォルトのストリーミングサービス又は好みのパートナーサービスを介してストリーミング配信させてもよい。さらに別の場合には、このエラー状態により、コンピューティングデバイスがＮＭＤ５１２～５１６、ＰＢＤ５３２～５３８、又はＣＲ５２２のうちの１つ又はすべてに対して指示を出力して、既に受信したコマンドに関してさらなる情報を取得するように促す指示又はクエリを聴覚的若しくは視覚的に提示させるようにしてもよい。

たとえば、ユーザはアーティスト又はアルバムなどの追加のコンテンツタイプを指定するように指示されてもよい。たとえば、最初のコマンドが「ラジオ局を再生して（Ｐｌａｙｒａｄｉｏｓｔａｔｉｏｎ）」であった場合、ユーザは「ジャンルを指定してください（Ｐｌｅａｓｅｐｒｏｖｉｄｅｇｅｎｒｅ）」と指示されてもよい。

別の場合には、ユーザは、最初のコマンドの調整を促進し、これによって各種ストリーミングサービスの信頼性メトリックの調整を促進するような質問又は一連の質問を受けてもよい。たとえば、最初のコマンドが「エレクトロニック（Ｅｌｅｃｔｒｏｎｉｃ）」という広範なジャンルを対象とした場合、ユーザは「ドラムとベース（ＤｒｕｍａｎｄＢａｓｓ）」又は「トランス（Ｔｒａｎｃｅ）」などの特定のサブジャンルを好むかどうか質問されてもよい。付加的に又は代替的に、ユーザがどのサブジャンルの聴取を望んでいるかを推定するために、ユーザは「何をしていますか？（Ｗｈａｔａｒｅｙｏｕｄｏｉｎｇ？）」や「気分はいかがですか？（Ｈｏｗｄｏｙｏｕｆｅｅｌ？）」などの音楽に無関係な質問を受けることもある。たとえば、ユーザが前述の質問に対して「読書中（Ｒｅａｄｉｎｇ）」及び／又は「くつろいでいる（Ｒｅｌａｘｅｄ）」と回答した場合、ユーザはサブジャンルのトランスの聴取を望んでいると推定され得る。クエリに関して、他の様々な例が可能である。

指示又は質問に対するユーザの応答は、ＮＭＤによって受信される音声入力又はＣＲのグラフィカルインタフェースを介したテキスト入力の形式をとっていてもよい。このユーザの応答によってプロセス１６００が繰り返され、その結果として信頼性条件が満たされるか、或いは別途エラー状態がトリガされることになる。

ＶＩＩ．さらに別の例示的な特徴
（特徴１）少なくとも１つの再生デバイスと、マイクロホンデバイスを備えるネットワークデバイスとを備える再生システムのための方法であって、再生デバイスを設置した周辺環境の音響特性を取得するステップ、前記再生デバイスの周辺環境内にあるネットワークマイクロホンデバイスを識別するステップ、前記音響特性を前記ネットワークマイクロホンデバイスに提供するステップ、前記ネットワークマイクロホンデバイスが受信した音声入力に、前記ネットワークマイクロホンデバイスによって前記音響特性を適用するステップを含む、方法。

（特徴２）前記再生デバイスによって前記周辺環境内で再生中のオーディオコンテンツを前記ネットワークマイクロホンデバイスに提供するステップ、前記ネットワークマイクロホンデバイスが受信した前記音声入力に、前記提供されたオーディオコンテンツを前記マイクロホンデバイスによって適用するステップをさらに含む、特徴１に記載の方法。

（特徴３）前記識別されたネットワークマイクロホンデバイスは、前記再生デバイスと結合されている及び前記再生デバイスと同じゾーン内にあるのうちの少なくとも一方である、特徴１又は２に記載の方法。

（特徴４）前記マイクロホンデバイスに前記音響特性を送信する前記再生デバイスは、前記メディア再生システムの複数の前記再生デバイスのうちで前記マイクロホンデバイスの直近にある再生デバイスである、特徴１から３のいずれか一項に記載の方法。

（特徴５）前記ネットワークマイクロホンデバイスから、前記音声入力の方向を示す通知を受信するステップ、前記受信した前記音声入力の方向を示す通知に基づいて、前記再生デバイスによって再生されるオーディオコンテンツの指向性を調整するステップをさらに含む、特徴１から４のいずれか一項に記載の方法。

（特徴６）前記ネットワークマイクロホンデバイスに自身が受信した音声入力に対して前記音響特性を適用させることは、前記受信した音声入力に適用される前記音響特性基づいて、前記再生デバイスにフィルタを適用させることを含む、特徴１から５のいずれか一項に記載の方法。

（特徴７）前記周辺環境の音響特性は、１又は複数の前記再生デバイスが１又は複数のトーンを出力し、前記ネットワークデバイスの前記マイクロホンが前記１又は複数の再生デバイスによって出力された前記トーンを受信し、及び前記受信したトーンを解析して、前記周辺環境の音響特性を決定するようなキャリブレーション段階において取得されている、特徴１から６のいずれか一項に記載の方法。

（特徴８）前記マイクロホンデバイスに前記音響特性を提供するステップは、前記マイクロホンデバイスに前記音響特性をメッセージとして送信すること、前記マイクロホンデバイスに前記音響特性へのアクセスを提供することのうちの一方を含む、特徴１から７のいずれか一項に記載の方法。

（特徴９）実行されると、特徴１から８のいずれか一項に係る方法をプロセッサに実行させる、前記プロセッサによって実行するための命令を備える、コンピュータ可読記憶媒体。

（特徴１０）少なくとも１つの再生デバイスと、マイクロホンデバイスを備えるネットワークデバイスとを備えるメディア再生システムであって、特徴１から９のいずれか一項に記載の方法を実行するように構成されている、メディア再生システム。

（特徴１１）コンピューティングデバイスのための方法であって、コマンドワード、１又は複数のメディア変数のインスタンス、及び１又は複数のゾーン変数のインスタンスを含む音声入力を受信するステップ、前記コマンドワードに対応するメディア再生システムコマンドを決定するステップ、前記１又は複数のメディア変数のインスタンスに対応するメディアコンテンツを識別するステップ、前記メディア再生システムに、前記１又は複数のゾーン変数のインスタンスに基づいて、前記メディアコンテンツに対して前記メディア再生システムコマンドを実行させるステップを含む、方法。

（特徴１２）前記メディア再生システムコマンドが前記コマンドワードに対応していると決定する前に、前記音声入力が音楽制御に対応していると判定することを含み、前記コマンドワードに対応する前記メディア再生システムコマンドは、音楽制御に対応する利用可能なコマンドに基づいて決定される、ことをさらに含む、特徴１１に記載の方法。

（特徴１３）前記識別されたメディアコンテンツから１又は複数のメディアアイテムを決定するステップ、前記１又は複数のメディアアイテムのネットワーク記憶場所を示す識別子を送信するステップをさらに含む、特徴１１又は１２に記載の方法。

（特徴１４）前記コマンドワードが第１の位置にあることに基づいて、前記音声入力において前記コマンドワードを識別するステップ、前記１又は複数のメディア変数のインスタンスが第２の位置にあることに基づいて、前記音声入力において前記１又は複数のメディア変数のインスタンスを識別するステップ、前記１又は複数のゾーン変数のインスタンスが第３の位置にあることに基づいて、前記音声入力において前記１又は複数のゾーン変数のインスタンスを識別するステップをさらに含む、特徴１１から１３のいずれか一項に記載の方法。

（特徴１５）前記コマンドワードに対応する前記メディア再生システムコマンドを決定するステップは、前記コマンドワードに対応するインテントを決定すること、前記インテントに対応する前記メディア再生システムコマンドを決定することを含む、特徴１１から１４のいずれか一項に記載の方法。

（特徴１６）前記受信した音声入力における１又は複数のゾーン変数のインスタンスは、メディア再生システムの１又は複数のゾーンであって、前記１又は複数のゾーンは１又は複数の再生デバイスを備える、ゾーンを示している、特徴１１から１５のいずれか一項に記載の方法。

（特徴１７）前記メディア再生システムに、前記メディアコンテンツに対して前記メディア再生システムコマンドを実行させるステップは、前記メディア再生システムコマンドと、前記１又は複数のメディア変数のインスタンスに対応しているメディアコンテンツを識別するメディア情報と、前記１又は複数のゾーン変数のインスタンスに対応している１又は複数のゾーン識別子とを識別するコマンド情報を含むメッセージを、前記コンピューティングデバイスから前記メディア再生システムに送信することを含む、特徴１１から１６のいずれか一項に記載の方法。

（特徴１８）コンピューティングデバイスの１又は複数のプロセッサによって実行されると、特徴１１から１７のいずれか一項に記載の方法を前記コンピューティングデバイスに実行させる命令を格納している、有形の非一時的なコンピュータ可読媒体。

（特徴１９）コンピューティングデバイスであって、１又は複数プロセッサと、前記１又は複数のプロセッサによって実行されると、特徴１１から１７のいずれか一項に記載の方法を前記コンピューティングデバイスに実行させる命令を格納しているメモリとを備える、コンピューティングデバイス。

（特徴２０）メディア再生システムに対する音声コマンドを受信するステップ、前記音声コマンドを前記メディア再生システムの登録ユーザから受信したかどうかを判定するステップ、前記音声コマンドを登録ユーザから受信した場合に、前記音声コマンドの内容と前記登録ユーザのユーザプロファイル内の情報とに基づいて、前記メディア再生システムに対する指示を構成するステップを含む、方法。

（特徴２１）前記メディア再生システムの１又は複数の再生デバイスに前記指示を送信することをさらに含む、特徴２０に記載の方法。

（特徴２３）前記音声コマンドは、前記メディア再生システムにメディアコンテンツの再生を命じるコマンドである、特徴２１又は２２に記載の方法。

（特徴２４）前記構成した指示は、前記登録ユーザの好みのメディアソースから前記メディアコンテンツを取得するように前記メディア再生システムに指示する、特徴２３に記載の方法。

（特徴２５）前記構成した指示により、前記メディア再生システムは、前記メディア再生システムの１又は複数のメディア再生デバイスを介して前記メディアコンテンツを再生する、特徴２３に記載の方法。

（特徴２６）前記構成した指示は、前記登録ユーザの好みの再生設定の１つ又は複数を用いて前記メディア再生システムを構成し、及び前記メディア再生システムを介し、前記登録ユーザの好みの再生設定を用いて前記メディア再生システムに前記メディアコンテンツを再生させる指示を含む、特徴２３に記載の方法。

（特徴２７）前記登録ユーザの好みの再生設定は、好みの再生音量及び好みのオーディオイコライゼーションの設定のうちの１又は複数を含む、特徴２６に記載の方法。

（特徴２８）前記音声コマンドは、前記メディア再生システムに再生設定の変更を命じるコマンドであり、前記構成した指示により、前記メディア再生システムは、前記メディア再生システムにおける１又は複数のメディア再生デバイスの再生設定を変更する、特徴２１又は２２に記載の方法。

（特徴２９）前記音声コマンドを登録ユーザから受信しなかった場合に、前記音声コマンドをゲストユーザから受信したかどうかを判定するステップ、前記音声コマンドをゲストユーザから受信した場合に、前記ゲストユーザに対して制限設定を割り当てるステップ、前記音声コマンドの内容と前記ゲストユーザに対して割り当てた前記制限設定とに基づいて、前記メディア再生システムに対する指示を構成するステップ、前記指示を前記メディア再生システムに送信するステップをさらに含む、特徴２０から２８のいずれか一項に記載の方法。

（特徴３０）前記メディア再生システムは再生ネットワークと、１又は複数の再生デバイスとを備える、特徴２０から２９のいずれか一項に記載の方法。

（特徴３１）前記音声コマンドを登録ユーザから受信しなかった場合に、前記音声コマンドを無視することをさらに含む、特徴２０から３０のいずれか一項に記載の方法。

（特徴３２）１又は複数のプロセッサによって実行されると、特徴２０から３１のいずれか一項に係る方法をコンピューティングデバイスに実行させる命令をエンコードしている、有形の非一時的なコンピュータ可読媒体。

（特徴３３）１又は複数のプロセッサと、特徴３２に係る有形の非一時的なコンピュータ可読媒体とを備える、メディア再生システム。

（特徴３４）コンテンツに関する通知を受信するステップ、前記受信した通知に基づいて少なくとも１つのコンテンツタイプを識別するステップ、前記少なくとも１つのコンテンツタイプをサポートしている少なくとも１つの音楽サービスを、複数の音楽サービスの中から決定するステップ、前記少なくとも１つの音楽サービスが前記少なくとも１つのコンテンツタイプをサポートしていることに基づいて、前記コンテンツタイプと関連付けられたオーディオコンテンツを前記少なくとも１つの音楽サービスに送信させるステップを含む、方法。

（特徴３５）前記コンテンツに関する通知をネットワークマイクロホンデバイスを介して受信する、特徴３４に記載の方法。

（特徴３６）前記少なくとも１つの音楽サービスを決定するステップは、前記複数の音楽サービスの中から決定した前記少なくとも１つの音楽サービスに対応する信頼性メトリックを決定することを含む、特徴３４又は３５に記載の方法。

（特徴３７）前記少なくとも１つの音楽サービスを決定するステップは、信頼性レベルの条件が満たされているかどうかを判定することを含む、特徴３４又は３５に記載の方法。

（特徴３８）前記信頼性メトリックは、前記複数の音楽サービスの中のある音楽サービスへのアクセス履歴に基づいている、特徴３７に記載の方法。

（特徴３９）前記信頼性メトリックは、前記特定の音楽サービスの特定の利用場所にさらに基づいている、特徴３８に記載の方法。

（特徴４０）コンテンツに関する第２の通知を受信するステップ、前記受信した通知に基づいて少なくとも１つのコンテンツタイプを識別するステップ、前記複数の音楽サービスの中のいずれの音楽サービスも前記少なくとも１つのコンテンツタイプをサポートしていないと判定するステップ、エラー状態がトリガされるようにするステップをさらに含む、特徴３４から３９のいずれか一項に記載の方法。

（特徴４１）前記コンテンツタイプはアーティスト、ジャンル、曲、アルバム、及びラジオ局からなる群より選択される、特徴３４から４０のいずれかに一項に記載の方法。

（特徴４２）前記少なくとも１つの音楽サービスを決定するステップは、前記複数のストリーミングサービス用に利用可能なコンテンツのエントリを含むルックアップテーブルにアクセスすることを含む、特徴３４から４１のいずれか一項に記載の方法。

（特徴４３）前記複数の音楽サービスの中から、前記ユーザが登録している音楽サービスのみをクエリすることをさらに含む、特徴３４から４２のいずれか一項に記載の方法。

（特徴４４）前記コンテンツタイプを識別した後に、前記コンテンツに関する最初の通知で指定された前記コンテンツタイプをさらに特定するための１又は複数の質問を前記ユーザに対して行うステップ、より具体的なコンテンツタイプを示すようなさらに別のユーザ入力を受信するステップ、前記より具体的なコンテンツタイプに基づいて１又は複数の音楽サービスを決定するステップをさらに含む、特徴３４から４３のいずれか一項に記載の方法。

（特徴４５）ネットワークを介して複数のネットワークデバイスと通信するように構成されたネットワークインタフェースと、プロセッサであって、実行されると、特徴３４から４４のいずれか一項に係る方法を前記プロセッサに実行させる命令を備える、プロセッサとを備える、ネットワークデバイス。

（特徴４６）実行されると、特徴３４から４４のいずれか一項に係る方法をプロセッサに実行させる、前記プロセッサによって実行するための命令を備える、コンピュータ可読記憶媒体。

ＶＩ．結論
本明細書は、様々な例示のシステム、方法、装置、および製品などを開示しており、それらは、他のコンポーネントの中で、ハードウェア上で実行されるファームウェアおよび／又はソフトウェアを含む。そのような例は、単なる例示であり、限定されるものとみなすべきではないと理解される。例えば、これらのファームウェア、ハードウェア、および／又はソフトウェアの態様又はコンポーネントのいくつか又はすべてが、専らハードウェアに、専らソフトウェアに、専らファームウェアに、又はハードウェア、ソフトウェア、および／又はファームウェアの任意の組み合わせを実施することができることが意図されている。したがって、提供されているそれらの例は、それらのシステム、方法、装置、および／又は生産物を実施する唯一の方法ではない。

本明細書に開示した方法及び他のプロセスは、１又は複数の操作、機能、又はアクションを含んでいてもよい。ブロックを順番に図示しているが、これらのブロックを同時に、及び／又は本明細書に記載の順序とは異なる順序で実行してもよい。また、様々なブロックをより少数のブロックにまとめるか、ブロックを追加のブロックに分割するか、及び／又は所望の実装形態に基づいてこれらを除去してもよい。

さらに、本明細書に開示した本方法及び他のプロセス及び方法について、フローチャートは、本実施形態で想定される１つの実装形態における機能と動作とを示している。この点において、各ブロックは、プロセス内の特定の論理機能又は工程を実施するためにプロセッサによって実行可能な１又は複数の命令を含むモジュール、セグメント、又はプログラムコードの一部を表していてもよい。このプログラムコードを、たとえばディスク又はハードドライブを含む記憶装置などの、任意のタイプのコンピュータ可読媒体に格納してもよい。このコンピュータ可読媒体として、たとえばレジスタメモリ、プロセッサキャッシュ及びランダムアクセスメモリ（ＲＡＭ）のようにデータを短期間記憶するコンピュータ可読媒体などの、非一時的なコンピュータ可読媒体を挙げることができる。このコンピュータ可読媒体にはまた、たとえば読取り専用メモリ（ＲＯＭ）、光学ディスク又は磁気ディスク、コンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）のように二次的な、又は永続的な長期記憶装置などの非一時的な媒体が含まれていてもよい。コンピュータ可読媒体はまた、他の任意の揮発性又は不揮発性の記憶システムであってもよい。コンピュータ可読媒体を、たとえば、コンピュータ可読記憶媒体又は有形の記憶装置と考えてもよい。また、図中の各ブロックは、プロセス内の特定の論理機能を実施するために有線接続された回路を表していてもよい。

更に、本明細書において「実施形態」は、実施形態に関連して述べられた特定の特徴、構造、又は特性が、本発明の少なくとも１つの実施例に含まれ得ることを示している。本明細書の様々な場所でこの語句が用いられているが、すべてが同じ実施形態を言及するものではなく、又、他の実施形態を除いた別個の実施形態又は代替の実施形態でもない。このように、本明細書で述べられた実施形態は、明示的におよび暗黙的に、当業者によって、他の実施形態と組み合わせることができることが理解される。

本明細書は、例示的な環境、システム、手順、ステップ、論理ブロック、処理、および他のシンボル表現に関して広く示されており、それらは直接又は間接的にネットワークに接続されるデータ処理デバイスの動作に類似するものである。これらの処理説明および表現は、一般的に当業者によって使用され、それらの仕事の内容を他の当業者に最も効率良く伝えることができる。多くの具体的な内容が、本開示を理解するために提供されている。しかしながら、当業者にとって、本開示の特定の実施形態が特定の、具体的な詳細なしに実施され得ることは理解される。他の例では、周知の方法、手順、コンポーネント、および回路が、実施形態を不必要に曖昧にすることを避けるため、詳細に説明していない。したがって、本開示の範囲は、上記した実施形態よりむしろ添付された特許請求の範囲によって定義される。

添付の特許請求の範囲のいずれかが単にソフトウェアおよび／又はファームウェアへの実装をカバーするように読み取ると、少なくとも１つの例における要素の１つ又は複数は、本明細書では、ソフトウェアおよび／又はファームウェアを記憶する有形の非一時的な記憶媒体、例えば、メモリ、ＤＶＤ、ＣＤ、Ｂｌｕ－ｒａｙ（登録商標）等を含むことが明確に定められている。

Claims

コンピューティングデバイスが、メディア再生システムに第１再生ゾーンでメディアコンテンツを再生させるステップ、
コンピューティングデバイスが、第１再生ゾーンでメディアコンテンツが再生されている間に、コマンドワードと１つ又は複数のゾーン変数のインスタンスとを含む音声入力を受信するステップ、
コンピューティングデバイスが、（ｉ）コマンドワードに対応するメディア再生システムコマンド、（ｉｉ）１つ又は複数のゾーン変数のインスタンスに基づく第２再生ゾーンでメディアコンテンツを再生する意図、を決定するステップ、
上記決定の後、コンピューティングデバイスが、メディア再生システムに第２再生ゾーンでもメディアコンテンツを再生させるステップ、
上記決定に応じて、コンピューティングデバイスが、第１再生ゾーンと第２再生ゾーンとを含むゾーングループを形成するステップ、ここで、第２再生ゾーンは音声入力の受信前には当該ゾーングループのメンバーではない、
を含む、方法。
メディア再生システムコマンドがメディアコンテンツの再生を移動させるコマンドを含む場合、当該コマンドに応じて、コンピューティングデバイスが、第１再生デバイスに第１再生ゾーンでのメディアコンテンツの再生を停止させるステップ、
を含む、請求項１に記載の方法。
上記決定に応じて、コンピューティングデバイスが、メディア再生システムに第１再生ゾーンの再生キューの少なくとも一部を第２再生ゾーンの再生キューにコピーさせるステップ、
を含む、請求項１に記載の方法。
音声入力は第１音声入力であり、コマンドワードは第１コマンドワードであり、
さらに、
コンピューティングデバイスが、第２音声入力を受信するステップ、ここで、第２音声入力は、第２コマンドワードと１つ又は複数のメディア変数のインスタンスとを含む、
コンピューティングデバイスが、（ｉ）第２コマンドワードに対応するメディア再生システムコマンド、（ｉｉ）１つ又は複数のメディア変数のインスタンスに基づくメディアコンテンツを再生する意図、を決定するステップ、
コンピューティングデバイスが、１つ又は複数のメディア変数のインスタンスに基づいて、メディアコンテンツを識別するステップ、ここで、メディア再生システムは、第２コマンドワードに対応するメディア再生システムコマンドに応じて、第１再生ゾーンでメディアコンテンツを再生する、
を含む、請求項１に記載の方法。
音声入力はさらに、１つ又は複数のメディア変数のインスタンスを含み、
さらに、
コンピューティングデバイスが、１つ又は複数のメディア変数のインスタンスに基づいて、メディアコンテンツを識別するステップ、
を含む、請求項１に記載の方法。
１つ又は複数のプロセッサ、及び
プロセッサによって実行されると、請求項１から５のいずれか１つに記載の方法をコンピューティングデバイスに実行させる命令を格納しているメモリ、
を備える、コンピューティングデバイス。
請求項１から５のいずれか１つに記載の方法をコンピューティングデバイスに実行させる命令を記憶した、コンピュータ読み取り可能記憶媒体。
請求項１から５のいずれか１つに記載の方法をコンピューティングデバイスに実行させるためのコンピュータプログラム。