JP2023164959A

JP2023164959A - ボイスアシスタンスを備えたメディア再生システム

Info

Publication number: JP2023164959A
Application number: JP2023144379A
Authority: JP
Inventors: デイン・ウィルバーディング; Wilberding Dayn; ジョン・トロメイ; Tolomei John
Original assignee: Sonos Inc
Current assignee: Sonos Inc
Priority date: 2017-09-29
Filing date: 2023-09-06
Publication date: 2023-11-14
Also published as: CN111418216A; US20190102145A1; AU2018338812A1; KR102415967B1; US11893308B2; EP3951586A1; CA3084279A1; CN111418216B; WO2019067930A1; US10466962B2; KR20230152813A; US11288039B2; EP3688995A1; EP3688995B1; US11175888B2; CN115857747A; US20220222039A1; AU2023237094A1; JP2020536274A; WO2019067930A9

Abstract

【課題】メディア再生システムのボイスアシスタンスを発動させる方法及びネットワークマイクロフォンデバイスを提供する。【解決手段】方法は、メディア再生システムが、少なくとも１つのマイクロフォンデバイスを介してボイス入力を取得することと、ボイス入力内に１つ又は複数のコマンドが含まれていることを検出することと、１つ又は複数のコマンドが、コマンド情報のセット内の１つ又は複数のコマンドに関連するコマンドクライテリアを満たすことを判断することと、判断に基づいて、第一のボイスアシスタントサービス（ＶＡＳ）を選択して第二のＶＡＳの選択を放棄し、ボイス入力を第一のＶＡＳに送信することと、ボイス入力の送信後、第一のＶＡＳからのボイス入力への返答を受信することと、を含む。【選択図】図７Ｂ

Description

関連出願の相互参照

この出願は、２０１７年９月２９日に出願された米国特許出願第１５／７２１、１４１号明細書に基づく優先権を主張する。この出願の内容は、その全体が参照により本明細書に組み込まれる。

本願は、コンシューマ製品に関するものであり、特に、メディア再生のボイス制御に向けられた方法、システム、製品、機能、サービス、及び他の要素に関するものや、それらのいくつかの態様に関する。

２００３年に、ソノズ・インコーポレイテッドが最初の特許出願のうちの１つである「複数のネットワークデバイス間のオーディオ再生を同期する方法」と題する特許出願をし、２００５年にメディア再生システムの販売を開始するまで、アウトラウド設定におけるデジタルオーディオへのアクセス及び試聴のオプションは制限されていた。人々は、ソノズ無線ＨｉＦｉシステムによって、１つ又は複数のネットワーク再生デバイスを介して多くのソースから音楽を実質的に無制限に体験できるようになっている。スマートフォン、タブレット、又はコンピュータにインストールされたソフトウェアコントロールアプリケーションを通じて、ネットワーク再生デバイスを備えた全ての部屋において、人々は自分が望む音楽を再生することができる。加えて、例えばコントローラを用いて、再生デバイスを備えた各部屋に異なる歌をストリーミングすることもできるし、同期再生のために複数の部屋をグループ化することもできるし、同期して同じ歌を全ての部屋において聞くこともできる。

デジタルメディアに対する関心の継続的な高まりを考えると、試聴体験をさらに向上させることができるコンシューマアクセス可能な技術をさらに開発することにニーズがあり続ける。

本明細書で開示されている技術の特徴、態様、及び利点は、以下の記載、添付の特許請求の範囲、及び添付の図面を参照するとより理解しやすい。

図１は、ある実施形態を実施することができるメディア再生システムを図示する。図２Ａは、例示的な再生デバイスの機能ブロック図である。図２Ｂは、ネットワークマイクロフォンデバイスを含む例示的な再生デバイスの等角図である。図３Ａは、本願開示の態様に係る例示的なゾーン及びゾーングループを示す図である。図３Ｂは、本願開示の態様に係る例示的なゾーン及びゾーングループを示す図である。図３Ｃは、本願開示の態様に係る例示的なゾーン及びゾーングループを示す図である。図３Ｄは、本願開示の態様に係る例示的なゾーン及びゾーングループを示す図である。図３Ｅは、本願開示の態様に係る例示的なゾーン及びゾーングループを示す図である。図４は、本願開示の態様に係る例示的なコントローラデバイスの機能ブロック図である。図４Ａは、本願開示の態様に係るコントローラインタフェースを図示する。図４Ｂは、本願開示の態様に係るコントローラインタフェースを図示する。図５Ａは、本願開示の態様に係る例示的なネットワークマイクロフォンデバイスの機能ブロック図である。図５Ｂは、本願開示の態様に係る例示的なボイス入力の図である。図６は、本願開示の態様に係る例示的なリモートコンピュータの機能ブロック図である。図７Ａは、本願開示の態様に係る例示的なネットワークシステムの模式図である。図７Ｂは、本願開示の態様に係る図７Ａの例示的なネットワークシステムによって実施される例示的なメッセージの流れを図示する。図８Ａは、本願開示の態様に係るボイスアシスタントサービスを発動する例示的な方法の流れ図である。図８Ｂは、本願開示の態様に係る例示的なコマンド情報のセットのブロック図である。図９Ａは、本願開示の態様に係る例示的なボイス入力コマンドとその関連情報の表である。図９Ｂは、本願開示の態様に係る例示的なボイス入力コマンドとその関連情報の表である。図９Ｃは、本願開示の態様に係る例示的なボイス入力コマンドとその関連情報の表である。図１１Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１１Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１２Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１２Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１３Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１３Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１４Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１４Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１５Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１５Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１６Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１６Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１７Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１７Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１８Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１８Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１９Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１９Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図２０Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図２０Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。

図面は、いくつかの例示的な実施形態を説明することを目的としているが、本発明が、図面に示した配置及び手段に限定されるものではないことは理解される。特定のいかなる要素の説明をも容易にするために、部品符号の重要な桁の値はその要素が初めて紹介された図を参照する。例えば、要素１０７は、図１を参照して初めて紹介され説明された。

Ｉ．概要
無線照明デバイス、ホームオートメーションデバイス（例えばサーモスタット、ドアロック、等）、及びオーディオ再生デバイス等のスマート家電品及びその関連デバイスを有する「スマートホーム」にとって、ボイス制御は有益であり得る。いくつかの実施例において、ネットワークマイクロフォンデバイスがスマートホームのデバイスを制御するために使用され得る。ネットワークマイクロフォンデバイスは通常ボイス入力を受信するためのマイクロフォンを含む。ネットワークマイクロフォンデバイスは、ボイス入力をボイスアシスタントサービス（ＶＡＳ）に転送できる。従来のＶＡＳは、クラウドサーバーがボイス入力を処理することにより実施される遠隔サービスであり得る。ＶＡＳはボイス入力を処理してボイス入力の意図を判断し得る。応答に基づいて、ネットワークマイクロフォンデバイスは１つ又は複数のスマートデバイスに動作をさせる。例えば、ＶＡＳからの指示への応答に基づいてネットワークマイクロフォンデバイスは照明デバイスをオン・オフさせ得る。

ネットワークマイクロフォンデバイスによって検出されるボイス入力は、ウェイクワード（ｗａｋｅｗｏｒｄ）と、続いてユーザのリクエストを含む発声を通常含む。ウェイクワードは通常ＶＡＳを起動させてボイス入力の意図の解釈のために発動させる目的で使われる所定の単語又はフレーズである。例えば、ＡＭＡＺＯＮ（登録商標）のＶＡＳに問いかけるときにユーザは「Ａｌｅｘａ」というウェイクワードを発するであろう。他の例としては、ＧＯＯＧＬＥ（登録商標）のＶＡＳを発動させるための「Ｏｋ、Ｇｏｏｇｌｅ」、及びＡＰＰＬＥ（登録商標）を発動させるための「Ｈｅｙ、Ｓｉｒｉ」、又はＳＯＮＯＳ（登録商標）が提供するＶＡＳのための「Ｈｅｙ、Ｓｏｎｏｓ」などが含まれる。

ネットワークマイクロフォンデバイスは、ボイス入力中のウェイクワードに付随するユーザのリクエスト又はコマンドに耳を澄ませる。いくつかの例において、ユーザのリクエストは、例えばサーモスタット（例えばＮＥＳＴ（登録商標）サーモスタット）、照明デバイス（例えばＰＨＩＬＩＰＳＨＵＥ（登録商標）照明デバイス）、又はメディア再生デバイス（例えばＳｏｎｏｓ（登録商標）再生デバイス）などのサードパーティーのデバイスを制御するコマンドを含み得る。例えば、ユーザは、ＡＭＡＺＯＮ（登録商標）ＶＡＳを使って家の温度を設定するために、ウェイクワード「Ａｌｅｘａ」に続いて「サーモスタットを６８度に設定して」と発声し得る。ユーザは、家のリビングルームエリアの照明デバイスをオンにするために、同じウェイクワードに続いて「リビングルームを点灯して」と発声し得る。ユーザは同様に、ウェイクワードに続いて特定の曲、アルバム、又は音楽のプレイリストを家の再生デバイスにおいて再生するリクエストを発声し得る。

ＶＡＳは、ボイス入力を処理するために自然言語理解（ＮＬＵ：ｎａｔｕｒａｌｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ）システムを採用し得る。ＮＬＵシステムは通常、所与のボイス入力の根底の意図を検出するようにプログラムされた複数の遠隔サーバを必要とする。例えば、サーバは、ユーザの意図を判断するために言語の語彙集（ｌｅｘｉｃｏｎ）、パーサ（ｐａｒｓｅｒ）、文法及び意味のルール、及び関連した処理アルゴリズムを管理し得る。

従来のＶＡＳが遭遇する課題の１つは、ＮＬＵ処理の演算負荷が重いことである。例えば、語法（ｐａｒｌａｎｃｅ）のニュアンス、文章構造、発音、及びその他の会話の特徴を扱うために、ボイス処理アルゴリズムは常時アップデートされる必要がある。したがって、ＶＡＳの提供者は、世界中のユーザから受信される無数のボイス入力を扱うために、処理アルゴリズムを管理し、継続的に開発し、追加のクラウドサーバーなどの増大する複数の資源を展開しなければならない。

関連する課題の１つは、特定のスマートデバイスのボイス制御が比較的複雑なボイス処理アルゴリズムを必要とし得て、ＶＡＳ資源にさらなる負担をかけ得ることである。例えば、リビングルームの一セットの照明デバイスのスイッチをオンにするために、あるユーザは「灯りをつけて（flip on the lights）」と言うのを好むかもしれないが、別のユーザは「リビングを点灯させて（turn on the living room）」と言うのを好むかもしれない。両方のユーザは照明デバイスを点灯させるという同一の意図を有するが、動詞を含むフレーズの構造は異なるし、その上、後者のフレーズはリビングルームのデバイスであることを識別しているが前者は識別していないことは言うまでもない。これらの課題に対応するため、例えばコマンドの構造及び関連する構文（ｓｙｎｔａｘ）の微妙でありながらも意味のあるバリエーションを区別するためのアルゴリズムなどの、特に複雑なボイス処理資源及びアルゴリズムを必要とするスマートデバイスを制御するとき、ＶＡＳは、ユーザの意図を解読するためにさらなる資源を捧げなければならない。

スマートデバイスの消費者需要が増大し、これらのデバイスが多様化するにつれて、ＶＡＳ提供者の中には進歩に追いつくのが困難となるものもあり得る。ＶＡＳのシステム資源に限界があり、入ってくるボイス入力に正しく応答することができない場合もある。例えば、上記の例において、ＶＡＳは、「灯りを点灯して（turn on the lights）」との発声を処理する能力を有するが、「灯りをつけて（flip on the lights）」との発声を処理する能力に欠けるかもしれず、これはシステムが、後者のより慣用的なフレーズの意図を認識できないアルゴリズムを使っているかもしれないからである。そのような場合、ユーザは、「リビングルームの照明を点灯しろ（turn on the lights in the living room）」と言うなどのさらに限定的な情報で元の要求を言い換える必要があり得る。代わりにＶＡＳは、そのような要求は処理できない、とユーザに通知してもよいし、又はＶＡＳは、単に要求を完全無視してもよい。これらのいずれの場合も、ユーザは拙いボイス制御の体験に不満を感じ得る。

マルチゾーン再生システムなどのメディア再生システムの場合、従来のＶＡＳには特に制限される場合がある。例えば、従来のＶＡＳがサポートするのは基本的な再生のボイス制御のみであり得て、又はユーザは、デバイスと交信するために自然な対話ではなく特定の誇張したフレーズ回しを使う必要があり得る。さらに、従来のＶＡＳはマルチゾーン再生、又はユーザが制御したいデバイスグルーピング、マルチルーム音量、イコライザーパラメータ、及び／又は所与の再生シナリオのオーディオコンテンツ、などのその他の機能をサポートしない場合がある。そのような機能を制御するためには、基本的な再生に必要であるよりも著しく大きい資源を必要とし得る。

ここで説明されるメディア再生システムは従来のＶＡＳのこれらの及びその他の制限に対応可能である。例えば、いくつかの実施形態において、ボイス入力を処理するためにメディア再生は第二のＶＡＳ（例えば、従来のＶＡＳ）よりも第一のＶＡＳ（例えば、強化されたＶＡＳ）を選択するように構成される。そのような場合、メディア再生システムは、メディア再生システムの比較的高度な他の機能を制御するためのボイス入力などの特定のボイス入力を処理するために第二よりも第一のＶＡＳを選択することにより介入し得る。１つの態様において、第二のＶＡＳ単独により提供されるボイス制御と比較して、第一のＶＡＳはボイス制御を向上させ得る。いくつかの実施形態において、メディア再生システムをターゲットとする少なくともいくつかのボイス入力は、第二のＶＡＳを介しては発動不可であり得る。これら及びその他の実施形態において、少なくともいくつかのボイス入力は、第二のＶＡＳを介して発動可能ではあるが、第一のＶＡＳが特定のボイス入力を処理する方が好ましいかもしれない。例えば、第一のＶＡＳの方が第二のＶＡＳよりも特定のボイス入力をより高い信頼性でより正確に処理できるかもしれない。いくつかの実施形態において、第二のＶＡＳが、特定のタイプのボイス入力が通常送られるデフォルトのＶＡＳであり得る。例えば、いくつかの実施形態において、「今日の天気は？」というボイス入力などの基本的なインターネットクエリ（ｑｕｅｒｙ）を含む要求を扱うためには従来のＶＡＳの方がより適している場合がある。関連する実施形態において、ユーザは、（「ヘイ、サマンサ」などの）同じウェイクワードを第一及び第二の両方のＶＡＳを発動させるときに使い得る。１つの態様において、ボイス入力を発声するとき、ＶＡＳの選択が見えないところで起こっていることに気づかない場合がある。一実施形態において、ウェイクワードは、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）などの従来のＶＡＳに関連したウェイクワードでもよい。

一実施形態において、メディア再生システムは、ボイス入力を取得（ｃａｐｔｕｒｅ）するためのネットワークマイクロフォンデバイスを含んでもよい。メディア再生システムは、（ｉ）少なくとも１つのマイクロフォンデバイスを介してボイス入力を取得し、（ｉｉ）取得されたボイス入力中にコマンドの１つ又は複数が含まれていることを検出し、（ｉｉｉ）その１つ又は複数のコマンドが１セットのコマンド情報の対応するコマンドクライテリアを満たすことを判断し、（ｉｖ）その判断に応じて（ａ）第二のＶＡＳの選択を放棄して第一のＶＡＳを選択し、（ｂ）ボイス入力を第一のＶＡＳに送り、（ｃ）ボイス入力を送った後、第一のＶＡＳからのボイス入力への応答を処理するように構成される。

いくつかの実施形態において、ネットワークマイクロフォンデバイスは、ネットワークマイクロフォンデバイスのローカルメモリにコマンド情報のセットを記憶するように構成される。いくつかの実施形態において、コマンド情報のセットは、ローカルエリアネットワーク（ＬＡＮ）上の別のネットワークマイクロフォンデバイス又は再生デバイスなどの別のネットワークデバイスに記憶されてもよい。いくつかの実施形態において、コマンド情報のセットはＬＡＮ上に、及び／又は遠隔的に、複数のネットワークデバイスにわたって記憶されてもよい。下に説明される様々な実施形態において、コマンド情報のセットは、メディア再生システムが第二のＶＡＳの選択を放棄して第一のＶＡＳを選択すべきか否かを判断する工程において使用されてもよい。

いくつかの実施形態において、ネットワークマイクロフォンデバイスは所定のコマンド、及びコマンドと関連するコマンドクライテリアのリストを記憶してもよい。コマンドは、例えば、再生、制御、及びゾーンターゲットするコマンドを含んでもよい。コマンドクライテリアは、例えば、特定のコマンドに関連した所定のキーワードを含み得る。ボイス入力中のキーワードの組み合わせは、例えば、家の第一の部屋の名前（例えば、リビングルーム）の発声、及びの第二の部屋の名前（例えば、寝室）の発声を含んでもよい。ユーザが特定のコマンド（音楽を再生するコマンドなど）を含むボイス入力をキーワードと組み合わせて発声するとき、メディア再生システムはボイス入力を処理するために第一のＶＡＳを選択して発動させる。

いくつかの実施形態において、キーワードはトレーニング及び適応的学習アルゴリズムによって開発されてもよい。特定の実施形態において、そのようなキーワードは、キーワードを含むボイス入力を処理する最中にその場で判断され得る。そのような場合、キーワードはボイス入力を処理する前に事前に決定されないものの、第一のＶＡＳがコマンドに基づいて発動することを可能とする。関連した実施形態において、キーワードは、同じ意図を有するコマンドの特定の同義語（ｃｏｇｎａｔｅ）と関連し得る。

いくつかの実施形態において、第一のＶＡＳを発動することは、１つ又は複数の第一のＶＡＳの遠隔サーバにボイス入力を送ることを含んでもよい。上の例において、第一のＶＡＳは第一及び第二の部屋で音楽を再生するユーザの意図を判断し、望むオーディオを第一及び第二の部屋でメディア再生システムに再生させることによって応答してもよい。第一のＶＡＳはまた、第一及び第二の部屋からなるグループを形成するようにメディア再生システムに指示してもよい。

本明細書に記載されるいくつかの実施形態は、「ユーザ」、及び／又は他の実体等、所定の行為者により実行される機能を示す場合があるが、この記載は、説明の目的のみであることを理解されたい。特許請求の範囲自体に明示的に必要であることが記載されていない限り、こうした任意の行為者による行動が必要であると解釈されるべきではない。

ＩＩ．例示的な動作環境
図１は、本明細書で開示されている１つ又は複数の実施形態で実施可能なメディア再生システム１００の例示的な構成を示す。図示されるように、メディア再生システム１００は、複数の部屋及び空間、例えば、オフィス、ダイニングルーム、及びリビングルームを有する例示的なホーム環境に関連している。これらの部屋及び空間内に、メディア再生システム１００は、再生デバイス１０２（再生デバイス１０２ａ－１０２ｍとして個々に識別される）、ネットワークマイクロフォンデバイス１９３（「ＮＭＤ」１０３ａ－１０３ｇとして個々に識別される）、及びコントローラデバイス１０４ａ、１０４ｂ（集合的に「コントローラデバイス１０４」）を含む。ホーム環境は、１つ又は複数のスマート照明デバイス１０８及びスマートサーモスタット１１０などの他のネットワークデバイスを含んでもよい。

メディア再生システム１００の様々な再生デバイス、ネットワークマイクロフォンデバイス、及びコントローラデバイス１０２－１０４、及び／又は他のネットワークデバイスは、ポイント間接続及び／又はネットワークルータ１０６を含むＬＡＮを介した有線及び／又は無線のその他の接続を介してお互いに連結してもよい。例えば、再生デバイス１０２ｊ（「左」と名付けられる）は、再生デバイス１０２ａ（「右」と名付けられる）とポイント間接続（point-to-point connection）を有してもよい。一実施形態において、「左」再生デバイス１０２ｊはポイント間接続を介して「右」再生デバイス１０２ａと通信してもよい。関連した実施形態において、「左」再生デバイス１０２ｊはポイント間接続及び／又はＬＡＮを介した他の接続などを介して他のネットワークデバイスと通信してもよい。

ネットワークルータ１０６は、ワイドエリアネットワーク（ＷＡＮ）を介して１つ又は複数のリモートコンピュータ１０５に連結してもよい。いくつかの実施形態において、リモートコンピュータはクラウドサーバーでもよい。リモートコンピュータ１０５は、様々な方法でメディア再生システム１００と対話するように構成されてもよい。例えば、リモートコンピュータは、ホーム環境におけるオーディオなどのメディアコンテンツ再生のストリーミング及び制御を容易にするように構成されてもよい。下により詳細に説明される技術の一態様において、リモートコンピュータ１０５はメディア再生システム１００に第一のＶＡＳ１６０を提供するように構成される。

いくつかの実施形態において、再生デバイス１０２の１つ又は複数は、オンボード（例えば、統合された）ネットワークマイクロフォンデバイスを含んでもよい。例えば、再生デバイス１０２ａ－ｅは、対応するＮＭＤ１０３ａ－ｅをそれぞれ含む。ネットワークマイクロフォンデバイスを含む再生デバイスは、明細書で特に記述がない限り、ここでは再生デバイス又はネットワークマイクロフォンデバイスと交換可能で参照され得る。

いくつかの実施形態において、ＮＭＤ１０３の１つ又は複数は、独立したデバイスでもよい。例えば、ＮＭＤ１０３ｆ及び１０３ｇは独立したネットワークマイクロフォンデバイスでもよい。独立したネットワークマイクロフォンデバイスは、再生デバイスに通常含まれるスピーカ又は関連した電子部品などのコンポーネントを省いてもよい。そのような場合、独立したネットワークマイクロフォンデバイスはオーディオ出力を生成しなくてもよく、又は限定的なオーディオ出力（例えば、比較的低品質のオーディオ出力）を生成してもよい。

使用中、ネットワークマイクロフォンデバイスは、近傍にいるユーザからのボイス入力を受信して処理し得る。例えば、ネットワークマイクロフォンデバイスはユーザが入力を発声したことを検出するとボイス入力を取得するようにしてもよい。図示した例において、リビングルームの再生デバイス１０２ａのＮＭＤ１０３ａは、近傍にいるユーザからのボイス入力を取得し得る。いくつかの例において、ボイス入力のソース（例えば、ユーザ）の近傍にある他のネットワークマイクロフォンデバイス（例えば、ＮＭＤ１０３ｂ及び１０３ｆ）もボイス入力を検出し得る。そのような場合、ネットワークマイクロフォンデバイス群は、お互いの間で調停を行い、いずれのデバイスが検出したボイス入力を取得及び／又は処理するべきかを判断し得る。ネットワークマイクロフォンデバイス間での選択及び調停の例は、例えば２０１７年２月２１日付けの米国特許出願公開第１５／４３８、７４９号明細書に記載されており、この出願の名称は「メディア再生システムのボイス制御」であり、その全体がここで参照され援用される。

特定の実施形態において、ネットワークマイクロフォンデバイスは、ネットワークマイクロフォンデバイスを含み得ない再生デバイスに割り当てられてもよい。例えば、ＮＭＤ１０３ｆが、近傍の再生デバイス１０２ｉ及び／又は１０２ｌに割り当てられてもよい。関連した例において、ネットワークマイクロフォンデバイスは、それが割り当てられた再生デバイスを通してオーディオを出力し得る。ネットワークマイクロフォンデバイスと再生デバイスとを指名されたデバイス、又はデフォルトのデバイスとして関連付けることに関するさらなる詳細は、例えば既に参照した米国特許出願第１５／４３８、７４９号明細書に記載されている。

例示的なメディア再生システム１００の異なる構成要素、及び異なる構成要素がどのように対話してユーザにメディア体験を提供するかに関するさらなる態様は、以下のセクションで述べられている。本明細書における説明は、概してメディア再生システム１００を参照しているかもしれないが、本明細書で述べられている技術は、図１に示されるホーム環境内など、その他の用途に限定されるものではない。例えば、本明細書で述べられている技術は、再生デバイス、ネットワークマイクロフォンデバイス、及び／又はコントローラデバイス１０２－１０４を多く又は少なく含む別のホーム環境構成において有用かもしれない。加えて、本明細書で述べられている技術は、マルチゾーンオーディオが望まれる環境、例えば、レストラン、モール、又は空港のような商業的環境、スポーツ用多目的車（ＳＵＶ）、バス又は車のような車両、船、若しくはボード、飛行機などの環境において有用かもしれない。

ａ．例示的な再生デバイス及びネットワークマイクロフォンデバイス
図２Ａは、図１に示す再生デバイス１０２から選択された１つの、ある態様を示す機能ブロック図である。図示されるように、そのような再生デバイスは、プロセッサ２１２、ソフトウェアコンポーネント２１４、メモリ２１６、オーディオ処理コンポーネント２１８、オーディオ増幅器２２０、スピーカ２２２、及び無線インタフェース２３２と有線インタフェース２３４を含むネットワークインタフェース２３０を含んでもよい。いくつかの実施形態において、再生デバイスはスピーカ２２２を含まなくてもよく、代わりに再生デバイスを外付けスピーカに接続するためのスピーカインタフェースを含み得る。特定の実施形態において、再生デバイスはスピーカ２２２もオーディオ増幅器２２２のいずれも含まないかもしれず、代わりに再生デバイスを外付けオーディオ増幅器又は視聴覚レシーバに接続するためのオーディオインタフェースを含み得る。

再生デバイスはさらにユーザインタフェース２３６を含んでもよい。ユーザインタフェース２３６は、コントローラデバイス１０４の１つ又は複数から独立して、又はそれと併せてユーザの対話を容易にしてもよい。様々な実施形態において、ユーザインタフェース２３６は、ユーザが直接入力を提供するために、１つ又は複数の実際のボタン、及び／又はタッチ感応スクリーン及び／又は表面の上に提供されるグラフィカルインタフェースを含み、その他の可能性もある。ユーザインタフェース２３６はさらに、視覚的及び／又は聴覚的フィードバックをユーザに提供するために光源及びスピーカの１つ又は複数を含んでもよい。

いくつかの実施形態において、プロセッサ２１２は、メモリ２１６に記憶された命令に基づいて、入力データを処理するように構成されたクロック駆動のコンピュータコンポーネントであってもよい。メモリ２１６は、プロセッサ２１２によって実行可能な命令を記憶するように構成された実体のあるコンピュータ読み取り可能記録媒体であってもよい。例えば、メモリ２１６は、ある機能を実行するためにプロセッサ２１２によって実行可能なソフトウェアコンポーネント２１４の１つ又は複数を搭載することができるデータストレージであってもよい。ある例においては、機能は、再生デバイスがオーディオソース又は別の再生デバイスからオーディオデータを読み出すステップに関与してもよい。別の例においては、機能は、再生デバイスがネットワーク上の別のデバイスにオーディオデータを送信するステップに関与してもよい。さらに別の例においては、機能は、マルチチャンネルオーディオ環境を作るために、再生デバイスと１つ又は複数の再生デバイスとをペアリングすることに関与してもよい。

ある機能は、再生デバイスが、１つ又は複数の他の再生デバイスと、オーディオコンテンツの再生を同期することに関与してもよい。同期した再生の間、同期した再生デバイス同士のオーディオコンテンツの再生の遅延を、聴取者が気づかないかもしれない。２００４年４月４日付けの「複数の独立クロックデジタルデータ処理デバイス間の動作を同期するシステム及び方法」と題する米国特許第８、２３４、３９５号の全体が本明細書に参照として援用されており、それは再生デバイス間のオーディオ再生を同期することのより詳細な例を提供している。

オーディオ処理コンポーネント２１８は、１つ又は複数のデジタル－アナログ変換器（ＤＡＣ）、オーディオ処理コンポーネント、オーディオ強化コンポーネント、又はデジタルシグナルプロセッサ（ＤＳＰ）などを含んでいてもよい。いくつかの実施形態において、オーディオ処理コンポーネント２１８の１つ又は複数は、プロセッサ２１２のサブコンポーネントであってもよい。一例において、オーディオコンテンツが、オーディオ処理コンポーネント２１８によって処理及び／又は意図的に変更されることによって、オーディオ信号を生成してもよい。生成されたオーディオ信号は次に、オーディオ増幅器２１０による増幅のために送信され、スピーカ２１２を通じて再生されてもよい。特に、オーディオ増幅器２１０は、スピーカ２１２の１つ又は複数を駆動できるレベルまでオーディオ信号を増幅するように構成されたデバイスを含んでもよい。スピーカ２１２は、独立した変換器（例えば、「ドライバ」）又は１つ又は複数のドライバを内包する筐体を含む完全なスピーカシステムを備えてもよい。スピーカ２１２に備えられた特定のドライバは、例えば、サブウーファ（例えば、低周波用）、ミドルレンジドライバ（例えば、中間周波用）、及び／又はツイータ（高周波用）を含んでもよい。ある場合においては、１つ又は複数のスピーカ２１２のそれぞれの変換器は、オーディオ増幅器２１０の対応する個々のオーディオ増幅器によって駆動されてもよい。再生するアナログ信号を生成することに加えて、オーディオ処理コンポーネント２０８は、オーディオコンテンツを処理し、そのオーディオコンテンツを１つ又は複数の他の再生デバイスに再生させるために送信するように構成されてもよい。

再生デバイスによって処理及び／又は再生されるオーディオコンテンツは、外部ソース、例えば、オーディオライン－イン入力接続（例えば、オートディテクティング３．５ｍｍオーディオライン－イン接続）又はネットワークインタフェース２３０を介して、受信されてもよい。

ネットワークインタフェース２３０は、データネットワーク上で再生デバイスと１つ又は複数の他のデバイスとの間のデータフローを容易にするように構成されてもよい。このように、再生デバイスは、再生デバイスと通信する１つ又は複数の他の再生デバイス、ローカルエリアネットワーク内のネットワークデバイス、又は例えば、インターネット等のワイドエリアネットワーク上のオーディオコンテンツソースから、データネットワークを介してオーディオコンテンツを受信するように構成されてもよい。ある例では、再生デバイスによって送信及び受信されたオーディオコンテンツ及び他の信号は、インターネットプロトコル（ＩＰ）に基づくソースアドレス及びＩＰに基づく宛先アドレスを含むデジタルパケットデータの形で送信されてもよい。そのような場合、ネットワークインタフェース２３０は、デジタルパケットデータを解析することによって、再生デバイス宛てのデータが、再生デバイスによって適切に受信されて処理されることができるように構成されてもよい。

図示されるように、ネットワークインタフェース２３０は、無線インタフェース２３２と有線インタフェース２３４とを含んでもよい。無線インタフェース２３２は、再生デバイスが、通信プロトコル（例えば、無線規格ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇモバイル通信基準などを含む無線基準（規格）のいずれか）に基づいて、他のデバイス（例えば、再生デバイスに関連付けられたデータネットワーク内の他の再生デバイス、スピーカ、レシーバ、ネットワークデバイス、制御デバイス）と無線通信するためにネットワークインタフェース機能を提供してもよい。有線インタフェース２３４は、再生デバイスが、通信プロトコル（例えば、ＩＥＥＥ８０２．３）に基づいて他のデバイスとの有線接続を介して通信するためのネットワークインタフェース機能を提供してもよい。図２に示されるネットワークインタフェース２３０は、無線インタフェース２３２と有線インタフェース２３４との両方を含んでいるが、ネットワークインタフェース２３０は、ある実施形態において、無線インタフェースのみか、又は有線インタフェースのみを含んでもよい。

上で説明されたとおり、再生デバイスは図１に示されるＮＭＤ１０３の１つなどのネットワークマイクロフォンデバイスを含んでもよい。ネットワークマイクロフォンデバイスは、プロセッサ２１２、メモリ２１６、マイクロフォン２２４などの再生デバイスのいくつかの又は全てのコンポーネントを共用してもよい。別の例において、ネットワークマイクロフォンデバイスはネットワークマイクロフォンデバイスの動作の面のみに特化したコンポーネントを含む。例えば、ネットワークマイクロフォンデバイスは、再生デバイスが含まない場合もある遠方マイクロフォン（ｆａｒ－ｆｉｅｌｄｍｉｃｒｏｐｈｏｎｅ）及び／又はボイス処理コンポーネントを含んでもよい。別の例において、ネットワークマイクロフォンデバイスは、マイクロフォンをオン・オフするタッチ感応ボタンを含んでもよい。さらに別の例において、ネットワークマイクロフォンデバイスは上述のような独立したデバイスであり得る。図２Ｂは、ネットワークマイクロフォンデバイスを組み入れた例示的な再生デバイス２０２を示す等角図である。再生デバイス２０２は、マイクロフォンをオン・オフするためのコントロール領域２３７をデバイスの頂上に有する。コントロール領域２３７は、デバイスの頂上で、再生を制御するための別の領域２３９の隣にある。

例示として、ソノズ・インコーポレイテッドは、「ＰＬＡＹ：１」、「ＰＬＡＹ：３」、「ＰＬＡＹ：５」、「ＰＬＡＹＢＡＲ」、「ＣＯＮＮＥＣＴ：ＡＭＰ」、「ＣＯＮＮＥＣＴ」、及び「ＳＵＢ」を含む再生デバイスを現在販売提供している（又は、していた）。他の過去、現在、及び／又は将来のいずれの再生デバイスにおいても、追加的に又は代替的に本明細書で開示された実施例の再生デバイスに実装して使用することができる。さらに、再生デバイスは、図２Ａに示された特定の例、又は提供されるソノズ製品に限定されないことは理解される。例えば、再生デバイスは、有線又は無線のヘッドホンを含んでもよい。別の例において、再生デバイスは、パーソナルモバイルメディア再生デバイス用のドッキングステーションを含むか、又は、それらと対話してもよい。さらに別の例において、再生デバイスは、別のデバイス又はコンポーネント、例えば、テレビ、照明器具、又は屋内又は屋外で使用するためのいくつかの他のデバイスと一体化されてもよい。

ｂ．例示的な再生デバイス構成
図３Ａ－３Ｅは、ゾーン及びゾーングループの再生デバイスの構成例を示す。はじめに図３Ｅを参照して、１つの例として、単一の再生デバイスが１つのゾーンに属していてもよい。例えば、「バルコニー」の再生デバイス１０２ｃは「ゾーンＡ」に属してもよい。下に説明するいくつかの実施例において、複数の再生デバイスが「結合」され（ｂｏｎｄｅｄ）、一緒に１つのゾーンを形成する「結合ペア」を形成してもよい。例えば、図１において「ヌック」と名付けられた再生デバイス１０２ｆが「壁」と名付けられた再生デバイス１０２ｇに結合されて「ゾーンＢ」を形成してもよい。結合された再生デバイスは、異なる再生担当を有してもよい（例えば、チャンネル担当）。下に説明される別の実施例において、複数の再生デバイスは併合され（ｍｅｒｇｅｄ）、１つのゾーンを形成してもよい。例えば、「オフィス」と名付けられた再生デバイス１０２ｄが「ウィンドウ」と名付けられた再生デバイス１０２ｍと併合されて「ゾーンＣ」を形成してもよい。併合された再生デバイス１０２ｄ及び１０２ｍには、特に異なる再生担当を割り当てられない場合もある。すなわち、併合された再生デバイス１０２ｄ及び１０２ｍは、オーディオコンテンツを同期して再生することを除けば、まるで併合されていないかのようにオーディオコンテンツをそれぞれが再生してもよい。

メディア再生システム１００の各ゾーンは、単一のユーザインタフェース（ＵＩ）エンティティとしての制御のために提供されてもよい。例えば、「ゾーンＡ」は「バルコニー」と名付けられた単一のエンティティとして提供されてもよい。「ゾーンＣ」は「オフィス」と名付けられた単一のエンティティとして提供されてもよい。「ゾーンＢ」は「シェルフ」と名付けられた単一のエンティティとして提供されてもよい。

様々な実施形態において、ゾーンはそのゾーンに属する再生デバイスの１つの名前を踏襲してもよい。例えば、「ゾーンＣ」は「オフィス」デバイス１０２ｄ（図示のとおり）の名前を踏襲してもよい。別の例において、「ゾーンＣ」は「ウィンドウ」デバイス１０２ｍの名前を踏襲してもよい。さらなる例において、「ゾーンＣ」は「オフィス」デバイス１０２ｄと「ウィンドウ」デバイス１０２ｍとの何らかの組み合わせである名前を使ってもよい。選択される名前はユーザによって選択されてもよい。いくつかの実施形態において、ゾーンはそのゾーンに属するデバイス以外の名前が与えられてもよい。例えば、「ゾーンＢ」は「シェルフ」と名付けられるが、「ゾーンＢ」のデバイスがどれもこの名前を有していない。

結合された再生デバイスは、特定のオーディオチャンネル担当などの異なる再生担当を有してもよい。例えば、図３Ａに示すように、オーディオコンテンツのステレオ効果を生み出す又は強化するように「ヌック」及び「壁」デバイス１０２ｆ及び１０２ｇが結合されてもよい。この例において、「ヌック」再生デバイス１０２ｆは、左チャンネルのオーディオコンポーネントを再生するように構成されてもよく、「壁」再生デバイス１０２ｇは、右チャンネルのオーディオコンポーネントを再生するように構成されてもよい。いくつかの実施例において、そのようなステレオ結合は「ペアリング」と呼ばれてもよい。

加えて、結合した再生デバイスは追加の及び／又は異なるスピーカドライバをそれぞれ有してもよい。図３Ｂに示されるように、「フロント」と名付けられた再生デバイス１０２ｂは「サブ」と名付けられた再生デバイス１０２ｋと結合されてもよい。「フロント」デバイス１０２ｂは中間周波から高周波のレンジを提供し、「サブ」デバイス１０２ｋが例えばサブウーファとして低周波を提供してもよい。結合が解かれたとき、「フロント」デバイス１０２ｂが全周波レンジを提供してもよい。別の例として、図３Ｃは、それぞれ「右」及び「左」デバイス１０２ａ及び１０２ｊとしてさらに結合された「フロント」及び「サブ」デバイス１０２ｂ及び１０２ｋを示す。いくつかの実施例において、「右」及び「左」デバイス１０２ａ及び１０２ｊは、ホームシアターシステムのサラウンド又は「サテライト」チャンネルを形成してもよい。結合された再生デバイス１０２ａ、１０２ｂ、１０２ｊ、及び１０２ｋは単一の「ゾーンＤ」（図３Ｅ）を形成してもよい。

併合された再生デバイスは、割り当てられた再生担当を有さないかもしれず、それぞれの再生デバイスが可能なオーディオコンテンツの全レンジをそれぞれが提供してもよい。それにもかかわらず、併合されたデバイスは単一のＵＩエンティティ（すなわち上述のとおり、１つのゾーン）を代表してもよい。例えば、「オフィス」の再生デバイス１０２ｄ及び１０２ｍは、「ゾーンＣ」という単一のＵＩエンティティである。一実施形態において、再生デバイス１０２ｄ及び１０２ｍは、それぞれの再生デバイス１０２ｄ及び１０２ｍが可能なオーディオコンテンツの全レンジをそれぞれが同期して出力してもよい。

いくつかの実施例において、独立したネットワークマイクロフォンデバイスは、１つのゾーンの中に単独で存在し得る。例えば、「天井」と名付けられた図１のＮＭＤ１０３ｇが「ゾーンＥ」であってもよい。ネットワークマイクロフォンデバイスはまた、別のデバイスと結合又は併合されてゾーンを形成してもよい。例えば、「アイランド」と名付けられたＮＭＤデバイス１０３ｆは再生デバイス１０２ｉ「キッチン」と結合されて、一緒に、それもまた「キッチン」と名付けられる「ゾーンＧ」を形成してもよい。ネットワークマイクロフォンデバイスと再生デバイスとを指名された又はデフォルトのデバイスとして関連付けることに関するさらなる詳細は、例えば既に参照した米国特許出願公開第１５／４３８、７４９号明細書に記載されている。いくつかの実施例において、独立したネットワークマイクロフォンデバイスは１つのゾーンと関連していないかもしれない。

個々の、結合された、及び／又は併合されたデバイスのゾーンはグループ化されてゾーングループを形成してもよい。例えば、図３Ｅを参照して、「ゾーンＡ」が「ゾーンＢ」とグループ化されて２つのゾーンを含むゾーングループを形成してもよい。別の例として、「ゾーンＡ」は１つ又は複数の他の「ゾーンＣ－Ｉ」とグループ化されてもよい。「ゾーンＡ－Ｉ」は多数の方法でグループ化及びグループ解除ができる。例えば、「ゾーンＡ－Ｉ」のうちの３つ、４つ、５つ、又はそれ以上（例えば全部）がグループ化できる。グループ化されると、既に参照した米国特許第８、２３４、３９５号明細書に説明されるように、個々の、及び／又は結合された再生デバイスはオーディオを互いに同期して再生してもよい。再生デバイスは動的にグループ化及びグループ解除されて新しい、又は異なるグループを形成し、オーディオコンテンツを同期して再生してもよい。

様々な実施例において、例えば図３Ｅに示される「ダイニングルーム＋キッチン」のように、ある環境の中のゾーンが、グループ内のゾーンのデフォルトの名前又はゾーングループ内のゾーン名の組み合わせであり得る。いくつかの実施形態において、また図３Ｅに示される「ニックの部屋」のように、ゾーングループはユーザが選択した固有の名前が与えられてもよい。

再び図２Ａを参照して、メモリ２１６に、定期的に更新されて再生ゾーン、再生デバイス、及び／又はそれらと関連するゾーングループの状態を記述するために使われるあるデータが１つ又は複数の状態変数（ｓｔａｔｅｖａｒｉａｂｌｅ）として記憶されてもよい。メモリ２１６はまた、メディアシステム内の他のデバイスの状態に関連し、時々デバイス間で共有されるデータを含んでもよく、デバイスの１つ又は複数がシステムに関連する最新のデータを有することになる。

いくつかの実施形態において、メモリは状態と関連する様々な変数タイプのインスタンスを記憶してもよい。変数インスタンス（ｖａｒｉａｂｌｅｓｉｎｓｔａｎｃｅｓ）はタイプに対応する識別子（ｉｄｅｎｔｉｆｉｅｒ：例えば、タグ）とともに記憶されてもよい。例えば、特定の識別子は、あるゾーンの再生デバイスを識別する第一のタイプ「ａ１」、ゾーンに結合されていてもよい再生デバイスを識別する第二のタイプ「ｂ１」、及びゾーンが属し得るゾーングループを識別する第三のタイプ「ｃ１」であってもよい。関連する例として、図１において「バルコニー」と関連する識別子は、「バルコニー」は、「バルコニー」が特定のゾーンにあってゾーングループに入っていない唯一の再生デバイスであることを示しているかもしれない。「リビングルーム」に関連する識別子は、「リビングルーム」が他のゾーンとグループ化されていないが、結合された再生デバイス１０２ａ、１０２ｂ、１０２ｊ、及び１０ｋを含んでいることを示していてもよい。「ダイニングルーム」と関連する識別子は、「ダイニングルーム」が「ダイニングルーム＋キッチン」のグループの一部であり、デバイス１０３ｆ及び１０２ｉが結合されていることを示していてもよい。「キッチン」と関連する識別子は、「キッチン」が、「ダイニングルーム＋キッチン」ゾーングループの一部であることにより、同じ又は類似した情報を示していてもよい。他の例示的なゾーン変数及び識別子は、下に説明される。

さらに別の例において、メディア再生システム１００は、図３に示される「エリア」に関連する識別子などのように、ゾーン及びゾーングループの他の関連性を表す変数又は識別子を有してもよい。あるエリアはゾーングループ及び／又はゾーングループに属さないゾーンのクラスタに関与してもよい。例えば、図３Ｅは、「フロントエリア」と名付けられた第一のエリア及び「バックエリア」と名付けられた第二のエリアを示す。「フロントエリア」は、「バルコニー」、「リビングルーム」、「ダイニングルーム」、「キッチン」、及び「バスルーム」のゾーン及びゾーングループを含む。「バックエリア」は、「バスルーム」、「ニックの部屋」、「寝室」、及び「オフィス」のゾーン及びゾーングループを含む。一態様において、「エリア」は、別のクラスタの１つ又は複数のゾーン及び／又はゾーングループを共有するゾーングループ及び／又はゾーンのクラスタを発動するために使われてもよい。別の態様において、これは別のゾーングループとゾーンを共有しないゾーングループと異なる。「エリア」を実施する技術のさらなる例は、例えば２０１７年８月２１日付けの「名前に基づく部屋の関連付け」と題する米国特許出願第１５／６８２、５０６号明細書、及び２００７年９月１１日付けの「マルチゾーンメディアシステムの制御とグループ作成操作」と題する米国特許第８、４８３、８５３号明細書に記載がある。これらの出願はその全体がここに参照され援用される。いくつかの実施例において、メディア再生システム１００は、「エリア」を実施しないかもしれないが、その場合、システムは「エリア」に関連する変数を記憶しないかもしれない。

メモリ２１６はさらに、他のデータを記憶するように構成されてもよい。そのようなデータは、再生デバイス、又はその再生デバイス（又は別の再生デバイス）が関連し得る再生キュー（ｐｌａｙｂａｃｋｑｕｅｕｅ）によってアクセス可能なオーディオソースに関連してもよい。下に説明される実施形態において、ボイス入力を処理するとき、メモリ２１６は、第一のＶＡＳ１６０などの特定のＶＡＳを選択するための一セットのコマンドデータを記憶するように構成される。

動作中、図１の環境における１つ又は複数の再生ゾーンは、それぞれ異なるオーディオコンテンツを再生していてもよい。例えば、ユーザは、「バルコニー」ゾーンでグリルしながら、再生デバイス１０２ｃによって再生されるヒップホップ音楽を聞くことができる。一方、別のユーザは、「キッチン」ゾーンで食事を準備しながら、再生デバイス１０２ｉによって再生されるクラシック音楽を聞くことができる。別の例では、再生ゾーンは、同じオーディオコンテンツを別の再生ゾーンと同期して再生してもよい。例えば、ユーザが「オフィス」ゾーンにいる場合、「オフィス」ゾーンの再生デバイス１０２ｄが、「バルコニー」ゾーンの再生デバイス１０２ｃで再生されている音楽と同じヒップホップ音楽を再生してもよい。そのような場合、再生デバイス１０２ｃ及び１０２ｄは、ヒップホップ音楽を同期して再生しているため、ユーザは、異なる再生ゾーン間を移動してもアウト－ラウドで再生されるオーディオコンテンツをシームレス（又は少なくともほぼシームレス）に楽しむことができる。再生ゾーン間の同期は、前述の米国特許第８、２３４、３９５号明細書で述べられているような再生デバイス間の同期と同様の方法で行ってもよい。

上に示唆したように、メディア再生システム１００のゾーン構成は、動的に変更してもよい。したがって、メディア再生システム１００は、多くの構成をサポートしてもよい。例えば、ユーザが１つ又は複数の再生デバイスを、物理的にゾーンに移動させるか、又はゾーンから移動させる場合、メディア再生システム１００は変更に対応するように再構成されてもよい。例えば、ユーザが再生デバイス１０２ｃを「バルコニー」ゾーンから「オフィス」ゾーンに物理的に移動させる場合、「オフィス」ゾーンは、そこから再生デバイス１０２ｃと再生デバイス１０２ｄとの両方を含んでもよい。場合によっては、ユーザは例えばコントローラデバイス１０４及び／又はボイス入力を使って、移動された再生デバイス１０２ｃを「オフィス」ゾーンとペアにする又はグループ化する、及び／又は、「オフィス」ゾーンの再生デバイスの名称変更をしてもよい。別の例として、１つ又は複数の再生デバイスが、ホーム環境において、再生ゾーンを未だ設定していない特定のエリアに移動させられた場合、移動された再生デバイスは名称変更されてもよく、又は特定のエリアの再生ゾーンに関連付けられてもよい。

さらに、メディア再生システム１００の異なる再生ゾーンは、動的にゾーングループに組み合わされてもよいし、又は別々の再生ゾーンに分割されてもよい。例えば、「ダイニングルーム」ゾーンと「キッチン」ゾーンとがディナーパーティ用のゾーングループに組み合わされることによって、再生デバイス１０２ｉと１０２ｌとがオーディオコンテンツを同期して再生することができる。一方、「リビングルーム」ゾーンの結合された再生デバイス１０２は、（ｉ）テレビゾーンと（ｉｉ）別のリスニングゾーンとに分割されてもよい。テレビゾーンは、「フロント」再生デバイス１０２ｂを含んでもよい。リスニングゾーンは、「右」、「左」、及び「サブ」再生デバイス１０２ａ、１０２ｊ、及び１０２ｋを含んでもよく、それらは上述のとおり、グループ化、ペア化、又は併合されてもよい。「リビングルーム」ゾーンをそのように分割することにより、一人のユーザがリビングルームのあるエリアのリスニングゾーンで音楽を聴き、別のユーザがリビングルーム空間の別のエリアでテレビを見ることが可能となり得る。関連した例において、テレビゾーンとリスニングゾーンとに分割される前に「リビングルーム」ゾーンを制御するために、ユーザはＮＭＤ１０３ａ又は１０３ｂのいずれも実施し得る。一旦分割されると、リスニングゾーンは例えばＮＭＤ１０３ａの近傍のユーザによって制御され、テレビゾーンは例えばＮＭＤ１０３ｂの近傍のユーザによって制御されてもよい。しかし、上述のとおり、いずれのＮＭＤ１０３もメディア再生システム１００の様々な再生及びその他のデバイスを制御するように構成されてもよい。

ｃ．例示的なコントローラデバイス
図４は、図１のメディア再生システム１００のコントローラデバイス１０４の選択された１つのある態様を示す機能ブロック図である。そのようなコントローラデバイスは、コントローラとも呼ばれ得る。図３に示されるコントローラデバイスは概して、プロセッサ４１２、メモリ４１６、マイクロフォン４２４、及びネットワークインタフェース４３０などの上述のネットワークデバイスの特定のコンポーネントに類似したコンポーネントを含んでもよい。１つの例において、コントローラデバイスは、メディア再生システム１００の専用のコントローラデバイスであってもよい。別の例では、コントローラデバイスは、例えばｉＰｈｏｎｅ（登録商標）、ｉＰａｄ（登録商標）、又はその他のスマートフォン、タブレット又はネットワークデバイス（例えば、ＰＣやＭａｃ（登録商標）などのネットワーク接続されたコンピュータ）などの、メディア再生システムのコントローラアプリケーションソフトウェアが搭載されていてもよいネットワークデバイスであり得る。

コントローラデバイスのメモリ４１６は、コントローラアプリケーションソフトウェア及びメディア再生システム１００、及びシステム１００のユーザに関連したその他のデータを記憶するように構成されてもよい。メモリ４１６には、メディア再生システム１００のユーザアクセス、制御、及び構成を容易にするなどの特定の機能を達成するためにプロセッサ４１２によって実行可能な１つ又は複数のソフトウェアコンポーネント４１４が搭載されてもよい。上述のように、コントローラデバイスは他のネットワークデバイスとワイヤレスインタフェースなどのネットワークインタフェース４３０上で通信する。

１つの例において、データ及び情報（例えば、状態変数など）は、ネットワークインタフェース４３０を介してコントローラデバイスとその他のデバイスとの間で伝達されてもよい。例えば、メディア再生システム１００の再生ゾーンとゾーングループの構成は、ネットワークインタフェース４０６を介して、再生デバイス、ネットワークマイクロフォンデバイス、又はその他のネットワークデバイスからコントローラデバイスによって受信され得て、又はコントローラデバイスによって別の再生デバイス又はネットワークデバイスに送信され得る。場合によっては、他のネットワークデバイスは、別のコントローラデバイスでもよい。

音量制御及びオーディオ再生制御などの再生デバイスの制御コマンドも、ネットワークインタフェース４３０を介してコントローラデバイスから再生デバイスへ伝達されてもよい。上述のとおり、メディア再生システム１００の構成変更もコントローラデバイスを使ってユーザによって実行されてもよい。構成変更は、１つ又は複数の再生デバイスの追加／削除、１つ又は複数のゾーンのゾーングループへの追加／削除、結合又は併合再生デバイスの形成、結合又は併合再生デバイスからの１つ又は複数の再生デバイスの分離、その他、を含んでもよい。

コントローラデバイスのユーザインタフェース４４０は、図４Ａ及び４Ｂにそれぞれ示され、集合的にコントローラインタフェース４４０と呼ばれるコントローラインタフェース４４０ａ及び４４０ｂなどのコントローラインタフェースを提供することによりメディア再生システム１００のユーザアクセス及び制御を容易にするように構成されてもよい。図４Ａ及び４Ｂを同時に参照して、コントローラインタフェース４４０は再生制御領域４４２、再生ゾーン領域４４３、再生ステータス領域４４４、再生キュー領域４４６、及びソース領域４４８を含む。図示のユーザインタフェース４００は、図３に示され、メディア再生システム１００などのメディア再生システムを制御するためにユーザによってアクセスされるコントローラデバイスなどのネットワークデバイス上に提供され得るユーザインタフェースの一例にすぎない。異なるフォーマット、スタイル、及び対話型シーケンスによるその他のユーザインタフェースが、１つ又は複数のネットワークデバイス上において代わりに実施され、類似した制御アクセスをメディア再生システムに提供してもよい。

再生制御領域４４２（図４Ａ）は、選択可能で（例えば、タッチの方法で、又はカーソルを使って）、選択された再生ゾーン又はゾーングループにある再生デバイスに、再生又は停止、早送り、巻き戻し、次へスキップ、前へスキップ、シャッフルモードの開始／終了、リピートモードの開始／終了、クロスフェードモードの開始／終了をさせるアイコンを含んでもよい。再生制御領域４４２はまた、イコライザの設定、及び再生音量、その他種々の変更を行う選択可能アイコンを含んでもよい。

再生制御領域４４３（図４Ｂ）は、メディア再生システム１００内の再生ゾーンの表示を含んでもよい。再生ゾーン領域はまた、図示の「ダイニングルーム＋キッチン」ゾーングループなどのゾーングループの表示を含んでもよい。いくつかの実施例において、再生ゾーンのグラフィカルな表示が、例えば、結合されたゾーンの作成、ゾーングループの作成、ゾーングループの分割、ゾーングループの名称変更、その他など、メディア再生システム内の再生ゾーンを管理又は構成するための追加の選択可能なアイコンを表示させるように選択可能でもよい。

例えば、図示のように「グループ」アイコンは再生ゾーンのグラフィカル表示それぞれに提供されてもよい。特定のゾーンのグラフィカル表示内に提供される「グループ」アイコンは、特定のゾーンとグループ化されるためのメディア再生システムの１つ又は複数の他のゾーンの選択肢を表示するために選択可能でもよい。一旦グループ化されると、特定のゾーンとグループ化されたゾーン内の再生デバイスは、特定のゾーンの再生デバイスと同期してオーディオコンテンツを再生するように構成される。類似的に、「グループ」アイコンはゾーングループのグラフィカル表示内に提供されてもよい。この場合、「グループ」アイコンは、ゾーングループから削除されるゾーングループ内の１つ又は複数のゾーンの選択を外す選択肢を表示するために選択可能でもよい。ユーザインタフェース４００などのユーザインタフェースを介して、ゾーンをグループ化及びグループ解除をするための他の対話及び実施もまた可能である。再生ゾーン領域４４３（図４Ｂ）内の再生ゾーンの表示は、再生ゾーン又はゾーングループの構成が変更されるとともに動的に更新されてもよい。

再生ステータス領域４４４（図４Ａ）は、現在再生されているオーディオコンテンツ、前に再生されたオーディオコンテンツ、又は選択された再生ゾーン又はゾーングループ内で次に再生するように予定されているオーディオコンテンツ、のグラフィック表示を含んでもよい。選択可能な再生ゾーン又は再生グループは、ユーザインタフェース上で、例えば、再生ゾーン領域４４３及び／又は再生ステータス領域４４４内で視覚的に区別されてもよい。グラフィック表示は、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラック長さ、及びメディア再生システムを、ユーザインタフェース４４０を介して制御するときに、ユーザにとって有益かもしれない他の関連情報を含んでもよい。

再生キュー領域４４６は、選択された再生ゾーン又はゾーングループに関連付けられた再生キュー内のオーディオコンテンツのグラフィック表示を含んでもよい。いくつかの実施形態において、それぞれの再生ゾーン又はゾーングループは、再生ゾーン又はゾーングループによって再生される０以上のオーディオアイテムに対応する情報を含む再生キューに関連付けられてもよい。例えば、再生キュー内のそれぞれのオーディオアイテムは、ユー・アール・アイ（ＵＲＩ）、ユー・アール・エル（ＵＲＬ）、又は再生ゾーン又はゾーングループ内の再生デバイスによって使用可能な他の識別子を含んでもよい。これらによって、ローカルオーディオコンテンツソース又はネットワークオーディオコンテンツソース、からオーディオアイテムを見つけ、及び／又は取り出し、再生デバイスによって再生することができる。

ある例では、プレイリストが再生キューに追加されてもよい。この場合、プレイリスト内のそれぞれのオーディオアイテムに対応する情報が再生キューに追加されてもよい。別の例では、再生キュー内のオーディオアイテムは、プレイリストとして保存されてもよい。さらに別の例では、再生デバイスがストリーミングオーディオコンテンツ、例えば、再生時間を有する個別のオーディオアイテムよりも、停止しない限り連続して再生され得るインターネットラジオを再生し続けているとき、再生キューは、空であってもよいし、又は埋まっているが「未使用」であってもよい。別の実施形態では、再生キューは、インターネットラジオ及び／又は他のストリーミングオーディオコンテンツアイテムを含むことができ、且つ再生ゾーン又はゾーングループがそれらのアイテムを再生しているとき「使用中」とすることができる。他の例も可能である。

再生ゾーン又はゾーングループが「グループ化される」、又は「グループ解除される」とき、影響を受ける再生ゾーン又はゾーングループに関連した再生キューは、クリアされてもよいし、又は再び関連付けられてもよい。例えば、第一の再生キューを含む第一の再生ゾーンが、第二の再生キューを含む第二の再生ゾーンとグループ化された場合、形成されたゾーングループは、関連付けられた再生キューを有してもよく、関連付けられた再生キューは、最初は空であるか、（例えば、第二の再生ゾーンが第一の再生ゾーンに追加された場合、）第一の再生キューのオーディオアイテムを含むか、（例えば、第一の再生ゾーンが第二の再生ゾーンに追加された場合、）第二の再生キューのオーディオアイテムを含むか、又は第一の再生キューと第二の再生キューとの両方のオーディオアイテムを組み合わせられてもよい。その後、形成されたゾーングループがグループ解除された場合、その結果の第一の再生ゾーンは、前の第一の再生キューと再び関連付けられてもよいし、空の新しい再生キューに関連付けられてもよいし、あるいはゾーングループがグループ解除される前にゾーングループに関連付けられていた再生キューのオーディオアイテムを含む新しい再生キューに関連付けられてもよい。同様に、グループ解除された第二の再生ゾーンは、前の第二の再生キューと再び関連付けられてもよいし、空の新しい再生キューに関連付けられてもよいし、あるいはゾーングループがグループ解除される前にゾーングループに関連付けられていた再生キューのオーディオアイテムを含む新しい再生キューに関連付けられてもよい。その他の例もまた可能である。

図４Ａ及び４Ｂを引き続き参照して、再生キュー領域４４６（図４Ｂ）内のオーディオコンテンツのグラフィック表示は、トラックタイトル、アーティスト名、トラックの長さ、及び再生キュー内のオーディオコンテンツに関連付けられた他の関連情報を含んでもよい。ある例においては、オーディオコンテンツのグラフィック表示は、追加の選択可能なアイコンを選択して移動させることができる。これにより、再生キュー及び／又は再生キューに表示されたオーディオコンテンツを管理及び／又は編集することができる。例えば、表示されたオーディオコンテンツは、再生キューから取り除いてもよいし、再生キュー内の異なる位置に移動させてもよいし、すぐに再生させるか若しくは現在再生しているオーディオコンテンツの後に再生するように選択されてもよいし、あるいは他の動作を実行してもよい。再生ゾーン又はゾーングループに関連付けられた再生キューは、再生ゾーン又はゾーングループ内の１つ又は複数の再生デバイスのメモリ、再生ゾーン又はゾーングループに入っていない再生デバイスのメモリ、及び／又は他の指定のデバイスのメモリに記憶されていてもよい。そのような再生キューの再生には、キューのメディアアイテムを、おそらく順次又はランダムな順序で再生する１つ又は複数の再生デバイスが関係していてもよい。

ソース領域４４８は、対応するＶＡＳに関連した選択可能なオーディオコンテンツ及び選択可能なボイスアシスタントのグラフィカル表示を含んでもよい。ＶＡＳは選択的に割り当てられてもよい。いくつかの例において、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）及び別のボイスサービスなどの複数のＶＡＳが、同じネットワークマイクロフォンデバイスによって発動可能でもよい。いくつかの実施形態において、ユーザはあるＶＡＳを１つ又は複数のネットワークマイクロフォンデバイス専用に割り当ててもよい。例えば、ユーザは第一のＶＡＳ１６０を図１に示される「リビングルーム」のＮＭＤ１０２ａ及び１０２ｂのうちの１つ又は両方に割り当て、第二のＶＡＳを「キッチン」のＮＭＤ１０３ｆに割り当ててもよい。その他の例も可能である。

ｄ．例示的なオーディオコンテンツソース
ソース領域４４８のオーディオソースは、そこからオーディオコンテンツが取り出され、選択された再生ゾーン又はゾーングループで再生されるオーディオコンテンツソースでもよい。ゾーン又はゾーングループ内の１つ又は複数の再生デバイスは、再生するオーディオコンテンツを、（例えば、オーディオコンテンツの対応するＵＲＩ又はＵＲＬに基づいて、）複数の入手可能なオーディオコンテンツソースから取り出すように構成されてもよい。一例において、オーディオコンテンツは、再生デバイスによって、対応するオーディオコンテンツソース（例えば、ライン－イン接続）から直接取り出されてもよい。別の例では、オーディオコンテンツは、１つ又は複数の他の再生デバイス若しくはネットワークデバイスを介してネットワーク上の再生デバイスに提供されてもよい。

例示的なオーディオコンテンツソースは、メディア再生システム内の１つ又は複数の再生デバイスのメモリを含んでもよい。メディア再生システムとしては、例えば、図１のメディア再生システム１００、１つ又は複数のネットワークデバイス上のローカルミュージックライブラリ（例えば、コントローラデバイス、ネットワーク対応のパーソナルコンピュータ、又はネットワーク接続ストレージ（ＮＡＳ）など）、インターネット（例えば、クラウド）を介してオーディオコンテンツを提供するストリーミングオーディオサービス、あるいは再生デバイス又はネットワークデバイスのライン－イン入力接続を介してメディア再生システムに接続されるオーディオソース、他の可能なシステムであってもよい。

ある実施形態では、オーディオコンテンツソースは、図１のメディア再生システム１００などのようなメディア再生システムに定期的に追加されてもよいし、定期的に取り除かれてもよい。ある例では、１つ又は複数のオーディオコンテンツソースが追加される、取り除かれる、又は更新される度に、オーディオアイテムのインデックス付けが行われてもよい。オーディオアイテムのインデックス付けは、ネットワーク上で共有される全てのフォルダ／ディレクトリ内の識別可能なオーディオアイテムをスキャンすることを含んでもよい。ここで、ネットワークは、メディア再生システム内の再生デバイスによってアクセス可能である。また、オーディオアイテムのインデックス付けは、メタデータ（例えば、タイトル、アーティスト、アルバム、トラックの長さ、その他、など）、及び他の関連情報を含むオーディオコンテンツデータベースを作成すること、又は更新すること、を含んでもよい。他の関連情報とは、例えば、見つかったそれぞれの識別可能なオーディオアイテムのＵＲＩ又はＵＲＬを含んでもよい。オーディオコンテンツソースを管理し、且つ維持するための他の例も可能である。

ｅ．例示的なネットワークマイクロフォンデバイス
図５Ａは、本開示の態様に係るＮＭＤ１０３の１つ又は複数の追加の機能を示す機能ブロック図である。図５Ａに示されるネットワークマイクロフォンデバイスは、プロセッサ２１２（図１）、ネットワークインタフェース２３０（図２Ａ）、マイクロフォン２２４、及びメモリ２１６などの上述のネットワークマイクロフォンデバイスの特定のコンポーネントと概して類似したコンポーネントを含んでもよい。明確性のため図示されないが、ネットワークマイクロフォンデバイスは、上述のようにスピーカ、増幅器、信号処理装置などの他のコンポーネントを含んでもよい。

マイクロフォン２２４は、ネットワークマイクロフォンデバイス環境で音を検出するように構成された複数のマイクロフォンでもよい。一例において、マイクロフォン２２４は、ネットワークマイクロフォンデバイスから見て１つ又は複数の方向からのオーディオを検出するように構成されてもよい。マイクロフォン２２４は、周波数レンジの一部に敏感でもよい。一例において、マイクロフォン２２４の第一のサブセットが、第一の周波数レンジに敏感で、マイクロフォン２２４の第二のサブセットが、第二の周波数レンジに敏感でもよい。マイクロフォン２２４はさらに、オーディオソース（例えば、ボイス、可聴音）の位置情報を獲得するように構成されてもよく、及び／又は背景ノイズをフィルタすることを補助するように構成されてもよい。注目すべきことに、いくつかの実施例において、マイクロフォン２２４は、複数のマイクロフォンではなく、１つのマイクロフォンを有しても良い。

ネットワークマイクロフォンデバイスはさらに、ビーム形成器コンポーネント５５１、音響エコー除去（ＡＥＣ）コンポーネント５５２、ボイス活動検出器コンポーネント５５３、ウェイクワード検出器コンポーネント５５４、スピーチ／テキスト変換コンポーネント５５５（例えば、ボイスからテキストへ、及びテキストからボイスへ）、及びＶＡＳ選択器コンポーネント５５６を含んでもよい。様々な実施形態において、コンポーネント５５１－５５６の１つ又は複数はプロセッサ５１２のサブコンポーネントでもよい。

ビーム形成及びＡＥＣコンポーネント５５１及び５５２は、オーディオ信号を検出し、方向、振幅、周波数スペクトラムなどの、検出されたオーディオ内のボイス入力のアスペクトを判断するように構成される。例えば、ビーム形成及びＡＥＣコンポーネント５５１及び５５２は、ネットワークマイクロフォンデバイスとネットワークマイクロフォンデバイスに話しかけているユーザとの間のおよその距離を判断する工程において使われてもよい。別の例において、ネットワークマイクロフォンデバイスは、メディア再生システムのもう１つのネットワークマイクロフォンデバイスへのユーザの相対的な近さを検出してもよい。

ボイス活動検出器コンポーネント５５３は、ビーム形成及びＡＥＣコンポーネント５５１及び５５２と密接に関連して動作し、ボイス活動が検出された方向からの音を取得するよう構成される。スピーチを他の音と区別する指標（ｍｅｔｒｉｃｓ）をモニタすることにより、潜在的なスピーチの方向が識別可能である。そのような指標は、例えば背景ノイズに対するスピーチ帯域内のエネルギ、及びスペクトラム構造の尺度であるスピーチ帯域内のエントロピーを含み得る。典型的にスピーチはほとんどの普通の背景ノイズよりも低いエントロピーを有する。

ウェイクワード検出器コンポーネント５５４は、受信したオーディオをモニタして分析し、オーディオ内にいずれかのウェイクワードが存在するか否かを判断するよう構成される。ウェイクワード検出器コンポーネント５５４は、ウェイクワード検出アルゴリズムを使って、受信したオーディオを分析してもよい。ウェイクワード検出器５５４がウェイクワードを検出した場合、ネットワークマイクロフォンデバイスが受信したオーディオに含まれるボイス入力を処理してもよい。例示的なウェイクワード検出アルゴリズムは、オーディオを入力として受付け、ウェイクワードがオーディオ内に存在するか否かの指示を提供する。多くの当事者の、及びサードパーティーのウェイクワード検出アルゴリズムが知られており、市販されている。例えば、ボイスサービスの事業者が独自のアルゴリズムを作りサードパーティーのデバイス上で使っていてもよい。代わりに、アルゴリズムは、特定のウェイクワードを検出するようにトレーニングさせられてもよい。

いくつかの実施形態において、ウェイクワード検出器５５４は、受信したオーディオに対し、複数のウェイクワード検出アルゴリズムを同時（又は実質的に同時に）に実行する。上述のとおり、異なるボイスサービス（例えば、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）、ＡＰＰＬＥのＳＩＲＩ（登録商標）、又はＭＩＣＲＯＳＯＦＴのＣＯＲＴＡＮＡ（登録商標））は、それぞれのボイスサービスを発動するために、それぞれ異なるウェイクワードを使う。複数のサービスをサポートするために、ウェイクワード検出器５５４は、受信したオーディオに対し、サポートされている各ボイスサービスのウェイクワード検出アルゴリズムを並行して実行してもよい。

ＶＡＳ選択器コンポーネント５５６は、ボイス入力内でユーザが発言したコマンドを検出するように構成される。スピーチ／テキスト変換コンポーネント５５５は、ボイス入力内のスピーチをテキストに変換することにより処理工程を容易にし得る。いくつかの実施例において、ネットワークマイクロフォンデバイスは、特定のユーザ又はある家庭に関連した特定のグループのユーザについてトレーニングされたボイス認識ソフトウェアを含んでもよい。そのようなボイス認識ソフトウェアは、特定のボイスプロフィールに適合されたボイス処理アルゴリズムを実行してもよい。特定のボイスプロフィールに適合させることは、通常大多数のユーザや、メディア再生システムをターゲットとしない様々なリクエストからサンプリングする従来のＶＡＳの場合よりも演算負荷が低いアルゴリズムを必要とするだけで済むかもしれない。

ＶＡＳ選択器コンポーネント５５６はまた、ボイス入力内に検出された特定のコマンドに関し、特定のコマンドクライテリアが満足されたか否かを判断するよう構成される。ボイス入力内の所与のコマンドに関するコマンドクライテリアは、例えばボイス入力内に特定のキーワードが含まれていることに基づいてもよい。キーワードは、例えば特定のデバイス又はメディア再生システム１００内のグループを指定するボイス入力内の単語でもよい。ここで使用されるにあたり、「キーワード」という用語は単一の単語（例えば「寝室」）又は単語のグループ（例えば「リビングルーム」）を参照し得る。

加えて又は代わりに、所与のコマンドに関するコマンドクライテリアは、所与のコマンドの検出とともに、１つ又は複数の制御状態変数及び／又はゾーン状態変数の検出に関連してもよい。制御状態変数は、例えば音量レベルを示すインジケータ、１つ又は複数のデバイスに関連するキュー、及びデバイスがキューを再生中か、休止中かなどの再生状態を含んでもよい。ゾーン状態変数は、例えば、ゾーンの再生装置がグループ化されている場合、それがいずれのゾーンであるかを示すインジケータを含んでもよい。下により詳細に説明されるように、ＶＡＳ選択器コンポーネント５５６はメモリ２１６内に、コマンド及び関連したコマンドクライテリアのリストを含むデータテーブル５９０内などにコマンド情報のセットを記憶してもよい。

いくつかの実施形態において、上述のコンポーネント５５１－５５６の１つ又は複数は、メディア再生システム１００のユーザアカウントに関連したユーザのボイスプロフィールを検出して記憶するためにマイクロフォン２２４とともに動作可能である。下に説明されるように、いくつかの実施形態において、ボイスプロフィールは、コマンド情報５９０のセットに記憶される変数として記憶されてもよく、及び／又はその変数と比較されてもよい。ボイスプロフィールは、ユーザのボイスの音色又は周波数の特徴、及び／又はユーザの別の固有の特徴を含んでもよく、固有の特徴は既に参照した米国特許出願第１５／４３８、７４９号明細書に記載されているものなどである。

いくつかの実施形態において、上述のコンポーネント５５１－５５６の１つ又は複数は、ホーム環境内の、及び／又はＮＭＤ１０３の１つ又は複数の位置に相対的なユーザの位置を判断するためにマイクロフォンアレイ５２４とともに動作可能である。下に説明されるように、ユーザの位置又は近さは、検出され、コマンド情報５９０に記憶された変数と比較されてもよい。ユーザの位置又は近さを判断する技術は、既に参照した米国特許出願第１５／４３８、７４９号明細書、２０１１年１２月２９日付けの「ＳｏｕｎｄＦｉｅｌｄＣａｌｉｂｒａｔｉｏｎＵｓｉｎｇＬｉｓｔｅｎｅｒＬｏｃａｌｉｚａｔｉｏｎ」と題する米国特許第９、０８４、０５８号明細書、及び２０１２年８月３１日付けの「ＡｃｏｕｓｔｉｃＯｐｔｉｍｉｚａｔｉｏｎ」と題する米国特許第８、９６５、０３３号明細書に開示される１つ又は複数の技術を含んでもよい。これらの出願はそれぞれその全体がここに参照されて援用される。

図５Ｂは、本開示の態様に係る例示的なボイス入力の図である。ボイス入力は、図１に示されるＮＭＤ１０３の１つ又は複数などのネットワークマイクロフォンデバイスにより取得されてもよい。ボイス入力は、ウェイクワード部５５７ａ及びボイス発声部５５７ｂ（集合的に「ボイス入力５５７」）を含んでもよい。いくつかの実施形態において、ウェイクワード５５７ａはＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）に関連する「Ａｌｅｘａ」などの周知のウェイクワードであり得る。別の実施形態において、ボイス入力５５７は、ウェイクワードを含まない場合がある。

いくつかの実施形態において、ネットワークマイクロフォンデバイスは、ウェイクワード部５５７ａを検出すると可聴及び／又は可視の応答を出力してもよい。加えて、又は代わりに、ネットワークマイクロフォンデバイスは、ボイス入力又は一連のボイス入力（例えば、マルチターン（ｍｕｌｔｉ－ｔｕｒｎ）リクエストの場合）の処理後に可聴及び／又は可視の応答を出力してもよい。

ボイス発声部５５７ｂは、例えば、１つ又は複数の発声されたコマンド５５８（第一のコマンド５５８ａ及び第二のコマンド５５８ｂとして個々に識別される）及び１つ又は複数の発声されたキーワード５５９（第一のキーワード５５９ａ及び第二のキーワード５５９ｂとして個々に識別される）を含んでもよい。一例において、第一のコマンド５５８ａは、特定の曲、アルバム、再生リスト、等の音楽を再生するコマンドであり得る。この例において、キーワード５５９は、図１に示される「リビングルーム」及び「ダイニングルーム」などの音楽が再生されるべき１つ又は複数のゾーンを示す１つ又は複数の単語でもよい。いくつかの例において、ボイス発声部５５７ｂは、図５Ｂに示すように、ユーザによって話された単語の間隔などの検出された休止（例えば、発声がない期間）など、その他の情報を含み得る。休止が、ボイス発声部５５７ｂ内において、ユーザによって話された別のコマンド、キーワード、又はその他の情報の位置を区切って（ｄｅｍａｒｃａｔｅ）もよい。

いくつかの実施形態において、メディア再生システム１００は、ウェイクワード部５５７ａを検出している間にそれが再生中のオーディオコンテンツの音量を一時的に減らすよう構成される。メディア再生システム１００は、図５Ｂに示すように、ボイス入力５５７を処理した後に音量を元に戻してもよい。そのような工程はダッキングと呼ばれ得て、その例は既に参照した米国特許出願第１５／４３８、７４９号明細書に開示されている。

ｆ．例示的なネットワークとリモートコンピュータシステム
図６は、図１のリモートコンピュータ１０５のさらなる詳細を示す機能ブロック図である。様々な実施形態において、リモートコンピュータ１０５は、図１に示すようにＮＭＤ１０３の１つ又は複数からＷＡＮ１０７を介してボイス入力を受信してもよい。図示の目的で、ボイス入力５５７（図５Ｂ）の選択された通信経路が図６に矢印で示される。一実施形態において、リモートコンピュータ１０５によって処理されたボイス入力５５７は、ボイス発声部５５７ｂを含んでもよい（図５Ｂ）。別の実施形態において、処理されたボイス入力５５７は、ボイス発声部５５７ｂとウェイクワード５５７ａの両方を含んでもよい（図５Ｂ）。

リモートコンピュータ１０５は、１つ又は複数のプロセッサ、意図エンジン（ｉｎｔｅｎｔｅｎｇｉｎｅ）６０２、及びメモリ６１６を含むシステムコントローラ６１２を含む。メモリ６１６は、システムコントローラ６１２、及び／又は１つ又は複数の再生デバイス、ネットワークマイクロフォンデバイス、及び／又はコントローラデバイス１０２－１０４によって実行可能な指示を記憶するように構成された実体のあるコンピュータ読み取り可能な記憶媒体でもよい。

意図エンジン６６２は、ボイス入力を処理し、入力の意図を判断するように構成される。いくつかの実施形態において、意図エンジン６６２は、システムコントローラ６１２のサブコンポーネントでもよい。意図エンジン６６２は、１つ又は複数のＶＡＳデータベース６６４などの１つ又は複数のデータベースと対話してボイス入力を処理してもよい。ＶＡＳデータベース６６４は、メモリ６１６内に存在してもよく、又は再生デバイス、ネットワークマイクロフォンデバイス、及び／又はコントローラデバイス１０２－１０４の１つ又は複数のメモリ内などの他の場所に存在してもよい。いくつかの実施形態において、ＶＡＳデータベース６６４は、適応的学習、及びボイス入力処理に基づくフィードバックのために更新されてもよい。ＶＡＳデータベース６６４は、ＮＬＵ関連の処理及び／又はその他の処理のための様々なユーザデータ、分析、カタログ、及びその他の情報を記憶してもよい。

リモートコンピュータ１０５は、様々なフィードバック情報、指示、及び／又は関連するデータを、メディア再生システム１００の様々な再生デバイス、ネットワークマイクロフォンデバイス、及び／又はコントローラデバイス１０２－１０４と情報交換してもよい。そのような情報交換は、ボイス入力を含む伝達されたメッセージと関連してもよく、又は独立していてもよい。いくつかの実施形態において、リモートコンピュータ１０５及びメディア再生システム１００は、ここで説明されるような通信経路、及び／又は既に参照した米国特許出願第１５／４３８、７４９号明細書に開示されているメタデータ交換チャンネルを使った通信経路を介して、交換してもよい。

メディア再生システム１００のデバイスによるボイス入力の処理は、少なくとも部分的に、リモートコンピュータ１０５によるボイス入力の処理と並行して実行されてもよい。加えて、ネットワークマイクロフォンデバイスのスピーチ／テキスト変換コンポーネント５５５は、リモートコンピュータ１０５からの応答をスピーチに変換して、１つ又は複数のスピーカを使った可聴出力としてもよい。

本開示の様々な実施形態によれば、リモートコンピュータ１０５は、メディア再生システム１００の第一のＶＡＳ１６０の機能を実行する。図７Ａは、第一のＶＡＳ１６０を含む例示的なネットワークシステム７００の模式図である。図示されるとおり、リモートコンピュータ１０５は、ＷＡＮ１０７（図１）、及び／又はＷＡＮ１０７に接続されたＬＡＮ７０６を介してメディア再生システム１００と接続される。この方法によれば、メディア再生システム１００の様々な再生デバイス、ネットワークマイクロフォンデバイス、及びコントローラデバイス１０２－１０４は、リモートコンピュータ１０５と通信して第一のＶＡＳ１６０の機能を発動してもよい。

ネットワークシステム７００はさらに、第一のリモートコンピュータ７０５ａ（例えば、クラウドサーバー）及び第二のリモートコンピュータ７０５ｂ（例えば、クラウドサーバー）を追加で含む。第二のリモートコンピュータ７０５ｂは、ＳＰＯＴＩＦＹ（登録商標）又はＰＡＮＤＯＲＡ（登録商標）などのメディアサービスプロバイダ７６７と関連してもよい。いくつかの実施形態において、第二のリモートコンピュータ７０５ｂは、第一のＶＡＳ１６０のコンピュータと直接通信してもよい。加えて、又は代わりに、第二のリモートコンピュータ７０５ｂは、メディア再生システム１００及び／又は介在する他のリモートコンピュータと通信してもよい。

第一のリモートコンピュータ７０５ａは、第二のＶＡＳ７６０と関連していてもよい。第二のＶＡＳ７６０は、例えば、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）、ＡＰＰＬＥのＳＩＲＩ（登録商標）、ＭＩＣＲＯＳＯＦＴのＣＯＲＴＡＮＡ（登録商標）などと関連する従来のＶＡＳプロバイダ、又はその他のＶＡＳプロバイダでもよい。明確性のため図示されないが、ネットワークコンピュータシステム７００はさらに、追加の従来のＶＡＳなどの１つ又は複数の追加のＶＡＳに関連したリモートコンピュータを含んでもよい。そのような実施形態において、メディア再生システム１００は、第二のＶＡＳやその他のＶＡＳよりも、第一のＶＡＳ１６０を選択するように構成されてもよい。

図７Ｂは、図７Ａのネットワークコンピュータシステム７００における様々なデータのやり取りを示すメッセージの流れ図である。メディア再生システム１００は、図１に示されるＮＭＤ１０３の１つ以上などのネットワークマイクロフォンデバイス（ブロック７７１）を介してボイス入力を取得する。下に説明されるとおり、メディア再生システム１００は、コマンド情報５９０のセット内のコマンド及び関連したコマンドクライテリアに基づいて適切なＶＡＳを選択してもよい（ブロック７７１－７７４）。第二のＶＡＳ７６０が選択された場合、メディア再生システム１００は、ボイス入力を含む１つ又は複数のメッセージ７８１（例えば、パケット）を処理するために第二のＶＡＳ７６０に伝達してもよい。

逆に、第一のＶＡＳ１６０が選択された場合、メディア再生システム１００は、ボイス入力を含む１つ又は複数のメッセージ７８２（例えば、パケット）をＶＡＳ１６０に伝達する。メディア再生システム１００は、メッセージ７８２と同時に別の情報をＶＡＳ１６０に伝達してもよい。例えば、メディア再生システム１００は、既に参照した米国特許出願第１５／１３１、２４４号明細書に記載されるように、メタデータチャンネルを通してデータを伝達してもよい。

第一のＶＡＳ１６０は、メッセージ７８２の中のボイス入力を処理して意図を判断してもよい（ブロック７７５）。その意図に基づいて、ＶＡＳ１６０は、１つ又は複数の応答メッセージ７８３（例えば、パケット）をメディア再生システム１００に送信してもよい。いくつかの例において、応答メッセージ７８３は、メディア再生システム１００の１つ又は複数のデバイスに命令して指示を実行させる（ブロック７７６）ペイロード（ｐａｙｌｏａｄ）を含んでもよい。例えば、指示はメディア再生システム１００に命令してメディアコンテンツを再生させる、デバイスをグループ化させる、及び／又は下に説明されるその他の機能を実行させてもよい。加えて、又は代わりに、ＶＡＳ１６０からの応答メッセージ７８３は、マルチターンコマンドの場合のように、さらなる情報のリクエストを含むペイロードを含んでもよい。

いくつかの実施形態において、ＶＡＳ１６０から送られた応答メッセージ７８３は、メディア再生システム１００に命令してメディアサービス７６７からオーディオコンテンツなどのメディアコンテンツをリクエストさせてもよい。別の実施形態において、メディア再生システム１００はＶＡＳ１６０に依存せずにコンテンツをリクエストしてもよい。いずれの場合も、メディア再生システム１００は、例えばオーディオコンテンツなどを含むメディアストリーム７８４などを介してコンテンツを受信するためにメッセージをやり取りしてもよい。

いくつかの実施形態において、メディア再生システム１００は、ネットワークインタフェースを介したＬＡＮを通して、再生デバイス、ネットワークマイクロフォンデバイス、又はその他のデバイスにおいてライン入力インタフェースからオーディオコンテンツを受信してもよい。例示的なオーディオコンテンツには、多くのオーディオコンテンツの形体の可能性の中から、１つ又は複数のオーディオトラック、トークショー、フィルム、テレビ番組、ポッドキャスト、インターネットストリーミング動画などが含まれる。オーディオコンテンツは、（例えば、ビデオのオーディオトラックのように）動画を伴ってもよく、又はオーディオコンテンツは、動画を伴わないコンテンツであり得る。

いくつかの実施形態において、トレーニング、及び適応的なトレーニングと学習のために、メディア再生システム１００、及び／又は第一のＶＡＳ１６０は、ＶＡＳからの応答の成功（又は不成功）の結果となるボイス入力を使ってもよい（ブロック７７７及び７７８）。トレーニング及び適応的学習は、メディア再生システム１００及び／又は第一のＶＡＳ１６０によるボイス処理の正確度を向上させ得る。一例において、意図エンジン６６２（図６）は、メディア再生システム１００に関連する１つ又は複数のユーザアカウントのＶＡＳデータベース６６４内においてトレーニング学習データをアップデートして保全してもよい。

ＩＩＩ．ＶＡＳを発動させる方法及びシステムの例
上述のとおり、ここで説明される実施形態は、第一のＶＡＳ１６０を発動させることに関与してもよい。一態様において、第一のＶＡＳ１６０は、メディア再生システム１００のための強化された制御機能を提供し得る。別の態様において、第一のＶＡＳは、上述のような従来のＶＡＳ等の他のＶＡＳと比較して、メディア再生システム１００を制御するための改良されたＶＡＳ体験を提供し得る。

いくつかの実施形態において、図７Ｂに示される第二のＶＡＳ７６０などの従来のＶＡＳは、比較的に簡単な再生／休止／スキップ機能などの比較的基本的な制御を実行するためにメディア再生システム１００によって発動され得る。いくつかの実施形態において、第二のＶＡＳ７６０は、第一のＶＡＳ１６０によって容易に発動されないかもしれない他のサービスを提供し得る。例えば、特定の実施において、従来のＶＡＳは、第一のＶＡＳが提供しないかもしれないボイスに基づくインターネット検索を提供し得る。

図８は、ＶＡＳを発動するための方法８００の例示的な流れ図である。方法８００は、例えばメディア再生システム１００、又は本開示の実施形態に従って構成されたその他のメディア再生システムを含む動作環境内で実行されうる方法の実施形態を示す。下に説明される例において、方法８００は第二のＶＡＳ７６０より第一のＶＡＳ１６０を選択することに関与する。

方法８００は、ここに説明されるような、及び／又は既に参照した米国特許出願第１５／４３８、７４９号明細書に開示されているような様々なデバイス及びシステムの間で情報を送受信することを含んでもよい。例えば、方法は、再生デバイス、ネットワークマイクロフォンデバイス、コントローラデバイス、及び再生システムのリモートコンピュータ１０２－１０４の１つ又は複数、メディアサービス６６７のリモートコンピュータ７０５ｂ、及び／又は第二のＶＡＳ６７０のリモートコンピュータ７０５ａの間で情報を送受信することを含んでもよい。図８のブロックは、順番に図示されているが、これらのブロックはまた、並行して実行されてもよく、及び／又はここに説明される順番とは異なる順番で実行されてもよい。また、様々なブロックが組み合わされてブロック数が減ってもよく、分割されてブロック数が増えてもよく、及び／又は望ましい実施に基づいて削除されてもよい。

加えて、方法８００及びここに開示されるその他の工程及び方法について、フロー図は、本実施形態の実施の１つの可能な機能及び動作を示す。すなわち、各ブロックは、工程内の特定の論理機能又はステップを実行するためにプロセッサによって実行可能な１つ又は複数の指示を含むプログラムコードのモジュール、セグメント、又は部分を代表し得る。プログラムコードは、例えば、ディスク又はハードドライブを含む記憶デバイスなどのコンピュータ読み取り可能な記憶媒体のいかなるタイプのものに記憶されてもよい。コンピュータ読み取り可能な記憶媒体は、例えばレジスタメモリ、プロセッサキャッシュ、及びランダムアクセスメモリ（ＲＡＭ）などのようなデータを短時間記憶するコンピュータ読み取り可能な記憶媒体などの非一時的なコンピュータ読み取り可能な記憶媒体を含んでもよい。コンピュータ読み取り可能な記憶媒体はまた、例えば、リードオンリーメモリ（ＲＯＭ）、光学又は磁気ディスク、ＣＤ－ＲＯＭのようなセカンダリ又は持続的な長期記憶装置などの非一時的なコンピュータ読み取り可能な記憶媒体を含んでもよい。コンピュータ読み取り可能な記憶媒体はまた、他のいかなる揮発性又は非揮発性の記憶システムでもよい。コンピュータ読み取り可能な記憶媒体は、例えば、コンピュータ読み取り可能な記憶媒体又は実体のある記憶デバイスであってもよい。コンピュータ読み取り可能な記憶媒体は、様々な再生デバイス、ネットワークマイクロフォンデバイス、コントローラデバイス、及びリモートコンピュータを参照して上述の１つ又は複数のメモリを含んでもよい。加えて、方法８００及びここに開示されるその他の工程及び方法について、図８は、工程の特定の論理機能を実行するように配線された回路を示す。

いくつかの実施形態において、方法８００は、システム情報を表示、選択、及び入力するなどのために、アプリケーションを起動するユーザ入力を受信すること、ユーザ及びユーザアカウントの情報を受信すること、システムのパラメータを判断すること、音楽サービスと対話すること、及び／又はコントローラと対話することにさらに関与してもよい。様々な実施形態において、方法８００は、「メディア再生システムのボイス制御」と題し、その全体がここに参照され援用される２０１６年７月２９日付けの特許出願第１５／２２３、２１８号に説明される例示的な方法及びシステムを組み入れてもよい。

ａ．コマンド及びコマンドに関連するクライテリアのリストを含むコマンド情報のセットをメモリ内に記憶させる
ブロック８０１において、方法８００は、ネットワークマイクロフォンデバイスのメモリ２１６に記憶されたコマンド情報５９０のセットなどのコマンド情報のセットを記憶することに関与する。図８Ｂを参照して、例示的なコマンド情報８９０のセットは、コマンド８９２のリストを含んでもよい。コマンド情報８９０のセットは、データテーブル又はその他のデータ構造でもよい。コマンド情報８９０のセットは、例えば１つ又は複数の、再生デバイス、コントローラデバイス、ネットワークマイクロフォンデバイス、及び／又はリモートコンピュータ１０２－１０５のメモリに記憶されてもよい。いくつかの実施形態において、コマンド情報８９０のセットは、メタデータ交換チャンネル及び／又はメディア再生システムとリモートコンピュータシステムとの間のその他のいかなる通信経路を介してもアクセス可能でもよい。

図示された例において、コマンド８９２のセットは、第一から、第ｎ番目までの「コマンド」を含む。例として、第一の「コマンド」は、ユーザが「音楽を再生して」と発声するなどの再生を開始するコマンドでもよい。第二の「コマンド」は、例えば再生の休止、再開、スキップなどのためのトランスポートコントロールコマンドなどの制御コマンドでもよい。例えば、第二のコマンドは、ユーザが曲の次のトラックへスキップすることを要求することに関与するコマンドでもよい。第三の「コマンド」は、再生デバイスのグループ化、結合、及び併合などのゾーンターゲットコマンドでもよい。例えば、第三のコマンドは、ユーザが「リビングルーム」と「ダイニングルーム」をグループ化することを要求することに関するコマンドでもよい。

ここで説明されるコマンドは、例であって、他のコマンドも可能である。例えば、図９Ａ－９Ｃは、追加の例示的な再生開始、制御及びゾーンターゲットコマンドのテーブルを示す。追加の例として、コマンドは問合せコマンドを含んでもよい。問合せコマンドは、例えば現在再生中のオーディオを問合せるユーザによるクエリを含んでもよい。例えば、ユーザは「リビングルームで何を再生中か教えて」という問合せコマンドを発声してもよい。

図８Ｂにさらに示されるように、コマンド８９２は、それもコマンドデータ８９０のセット内に記憶されたコマンドクライテリアと関連する。例えば、第一の「コマンド」は、１つ又は複数の第一のコマンド「クライテリア＿１」と関連し、第二の「コマンド」は、１つ又は複数の第二のコマンド「クライテリア＿２」と関連し、第三の「コマンド」は、１つ又は複数の第三のコマンド「クライテリア＿３」と関連する。コマンドクライテリアは、特定の変数インスタンスに関連した判断に関与してもよい。変数インスタンスは、ユーザアカウントと関連しているかもしれない又は関連していないかもしれない識別子（例えば、タグ）とともに記憶されてもよい。変数インスタンスは、ユーザによって加えられる又は削除される、又はユーザアカウントに関連した新規カスタム名を含むために継続的に、定期的に、又は不定期にアップデートされてもよい。カスタム名は、ユーザによって供給されるいかなる名前でもよく、データベース内に既存であってもよいし、又は既存ではなくてもよい。

変数インスタンスは、ボイス入力中のキーワードに存在し得る、状態テーブル（ｓｔａｔｅｔａｂｌｅ）に記憶された名称及び／又は値として参照され得る、及び／又は１つ又は複数の再生デバイス、ネットワークマイクロフォンデバイス、コントローラデバイス、及び／又はリモートコンピュータ１０２－１０５を介して状態テーブルに動的に記憶及び修正され得る。例示的な変数インスタンスは、ゾーン変数インスタンス、制御状態変数インスタンス、ターゲット変数インスタンス、及びその他の変数インスタンスを含んでもよい。ゾーン変数インスタンスは、例えば、上に説明したものを含むゾーン、ゾーングループ、再生デバイス、ネットワークマイクロフォンデバイス、結合された状態、エリア等、を代表する識別子に関与してもよい。制御状態変数は、例えば、音楽を再生しているデバイスを示す情報、デバイスの音量、デバイスに記憶されたキュー等の個々の再生及びネットワークマイクロフォンデバイス、及び／又は複数のデバイスの現在の制御状態に関与してもよい。ターゲット変数インスタンスは、例えば、特定の制御状態及び／又はデバイス、結合されたデバイス、及び併合されたデバイスのグループの高度の状態情報に関与してもよい。ターゲット可変変数はまた、メディア再生システム１００内の様々なデバイスのイコライザ設定などの較正状態に対応してもよい。

他の変数インスタンスも可能である。例えば、メディア変数インスタンスは、オーディオコンテンツ（例えば、特定のトラック、アルバム、アーティスト、プレイリスト、ステーション、又は音楽のジャンル）などのメディアコンテンツを識別してもよい。いくつかの実施形態において、メディア変数は、ユーザが望むオーディオ又はコンテンツを探してデータベースを検索することに応答して識別されてもよい。メディア変数は、上で説明したとおり、ボイス入力中に存在し得る、参照され得る、保全され得る、及び状態テーブルにアップデートされ得る、又はクエリで参照され得る。別の例として、特定の変数インスタンスは、ユーザのボイスプロフィールが所与のボイス入力内に検出されたか否か、特定のウェイクワードが検出されたか否か等、ホーム環境内のユーザの位置又は近さを示してもよい。変数インスタンスは、カスタム変数インスタンスを含んでもよい。

特定の実施形態において、コマンド情報８９０のセットに記憶されたクライテリアの少なくともいくつかは、変数インスタンス又は他のそのような変数インスタンスのセットのスカラベクトルを含んでもよい。例えば、「クライテリア＿１」は、図１のメディア再生システム１００に示されるゾーンを代表するゾーン変数を識別するベクトルを含んでもよい。そのようなベクトルは、「バルコニー、リビングルーム、ダイニングルーム、キッチン、オフィス、寝室、ニックの部屋」を含んでもよい。一実施形態において、「クライテリア＿１」は、ベクトル内に２つ以上のゾーン変数がボイス入力内のキーワードとして検出された場合、満たされるかもしれない。

コマンド情報８９０のセットはまた、ユーザ固有の情報８９４及びカスタム情報８９６などの他の情報を含んでもよい。ユーザ固有の情報８９４は、ユーザアカウント及び／又は家庭識別子（ＨＨＩ：ｈｏｕｓｅｈｏｌｄｉｄｅｎｔｉｆｉｅｒ）と関連していてもよい。カスタム情報８９６は、カスタムゾーン名、カスタムプレイリスト、及び／又はカスタムプレイリスト名などのカスタム変数を例えば含んでもよい。例えば、「ニックのお気に入り」は、ユーザが作ったカスタム名を有するカスタムプレイリストであり得る。

ｂ．ボイス入力を取得する
図８Ａの参照に戻り、ブロック８０２及び８０３において、方法８００は、ボイス入力内のウェイクワードをモニタして検出することに関与する。例えば、メディア再生システム１００は、ボイス入力を代表する受信したオーディオを分析して、ウェイクワードが含まれているか否かを判断してもよい。メディア再生システム１００は、上に説明したとおりウェイクワード検出コンポーネントなどの１つ又は複数のウェイクワード検出アルゴリズムを使って受信したオーディオを分析してもよい。

ブロック８０４において、方法８００は、ブロック８０２及び８０３におけるウェイクワードの検出に続いてボイス入力を取得することに関与する。様々な実施形態において、ボイス入力は、再生システム１００のＮＭＤ１０３の１つ又は複数を介して取得され得る。ここで使用されるにあたり、「取得する」又は「取得」の用語は、ウェイクワードの後のボイス発声などのボイス入力の少なくとも一部を録音することを含む工程を指し得る。いくつかの実施形態において、取得されたボイス入力は、ウェイクワードを含んでもよい。下に説明される特定の実施形態において、「取得する」又は「取得」の用語はまた、ボイス入力の少なくとも一部を録音し、ボイス入力を例えば、スピーチからテキストへの変換を使ってテキストなどの特定のフォーマットに変換することを指し得る。

ｃ．取得したボイス入力内にコマンドの１つ又は複数を検出する
ブロック８０５及び８０６において、方法８００は、ブロック８０４で取得されたボイス入力内に１つ又は複数のコマンド８９２（図８Ｂ）を検出することに関与する。様々な実施形態において、方法８００は、ボイス入力を解析してコマンド８９２の１つが取得されたボイス入力内に見つけた語法と一致する語法を有するか否かを判断することによりコマンドを検出してもよい。この方法によれば、方法８００は、語法の一致を使ってボイス入力内のコマンドの意図を検出できる。一致する語法は単語、単語群、フレーズなどでもよい。１つの例示的なコマンドにおいて、ユーザは、「バルコニーとリビングルームでビートルズを再生して」と言う場合がある。この例において、方法８００は、「再生して」の語法がコマンド情報８９０のセット内の第一の再生開始「コマンド」の語法と一致していると認識してもよい。加えて、方法８００は、「ビートルズ」をメディア変数として、そして「バルコニー」及び「リビングルーム」をゾーン変数として認識してもよい。したがって、コマンドの語法は、次のような変数インスタンスに従って示されてもよい：「（メディア変数）を、（第一のゾーン変数）及び（第二のゾーン変数）で、再生せよ」。類似したコマンドとして、「（メディア変数）を、（第一のゾーン変数）及び（第二のゾーン変数）で、聴かせて」が含まれてもよい。下に説明するように、「聴かせて」は「再生して」と同義語であってもよい。

いくつかの実施形態において、ユーザは、１つのゾーン変数インスタンスを伴う、又はゾーン変数インスタンスを伴わないコマンドを発声してもよい。一例において、ユーザは、「ビートルズを何か再生して」と単に発声するボイス入力を提供してもよい。そのような場合、方法８００は、デフォルトのゾーンにおいて「ビートルズを何か再生して」という意図であると判断してもよい。別の例において、方法８００は、ユーザがビートルズを再生するようにリクエストしたときに特定のゾーンにユーザの存在が検出された場合などの、そのコマンドに対して満たされる他のコマンドクライテリアに基づいて１つ又は複数の再生デバイスにおいて「ビートルズを何か再生して」という意図であると判断してもよい。例えば、メディア再生システム１００は、ボイス入力がこのゾーンに位置する「右」再生デバイス１０２ａによって検出された場合、図１に示される「リビングルーム」ゾーンでビートルズを何か再生してもよい。

別の例示的なコマンドは、選択されたメディアコンテンツをキューのトップに加え、あるゾーンにおいて次に再生させる「次を再生して」コマンドでもよい。このコマンドの例示的な語法は「（メディア変数）を次に再生して」でもよい。

コマンドの別の例は、現在再生中の音楽及び／又はあるゾーンの再生キューを１つのゾーンから別のゾーンへ移動（ｍｏｖｅ）又は移転（ｔｒａｎｓｆｅｒ）させる、移動又は移転コマンドでもよい。例えば、ユーザは、「（ゾーン変数）へ、音楽を移動させよ」というボイス入力を発声してもよく、「移動せよ」又は「移転せよ」のコマンドワードは、再生状態を別のゾーンへ移動させる意図に対応してもよい。関連した例として、音楽を移動させる意図は、２つのメディア再生システムコマンドに対応してもよい。２つのコマンドは、第一のゾーンを第二のゾーンとグループ化し、次に第二のゾーンをグループから分離し、事実上第二のゾーンの状態を第一のゾーンへ移転させてもよい。

ボイス入力内に検出され得るコマンド及び変数インスタンスの意図は、ユーザの意図（例えば、再生、休止、キューに追加、グループ化、その他の移転制御や、例えば制御デバイス１０４を介して利用可能な制御）と関連し得る多くの既定の語法に基づいてもよい。いくつかの実施形態において、コマンド及び関連した変数インスタンスの処理は、語法内においてコマンド及び変数が特定されることが予測される所定の「スロット」に基づいてもよい。これらの、及びその他の実施において、ユーザの意図を判断するために使われる単語や語彙のセットは、上に説明したとおり、ユーザのカスタマイズ及び嗜好、フィードバック、及び適応的学習に応じてアップデートされてもよい。

いくつかの実施形態において、コマンドに使われる異なるワード、語法、及び／又はフレーズが、同じ意図に関連してもよい。例えば、「再生（ｐｌａｙ）」、「聴く（ｌｉｓｔｅｎ）」、又は「聞こえる（ｈｅａｒ）」のコマンドワードをボイス入力内に含むことは、メディア再生システムがメディアコンテンツを再生するという同じ意図を反映する同義語に対応してもよい。

図９Ａ－９Ｃは、同義語のさらなる例を示す。例えば、テーブル９００の左側のコマンドは、テーブルの右側に示される特定の同義語を有してもよい。図９Ａを参照して、例えば、左側コラムの「ｐｌａｙ」のコマンドは、「ｂｒｅａｋｉｔｄｏｗｎ」、「ｌｅｔ’ｓｊａｍ」、「ｂｕｓｔｉｔ」を含む右側コラムの同義フレーズと同じ意図を有する。様々な実施形態において、テーブル９００内のコマンド及び同義語は、追加、削除、又は編集されてもよい。例えば、コマンド及び同義語は、上に説明したとおり、ユーザのカスタマイズ及び嗜好、フィードバック、トレーニング及び適応的学習に応じて追加、削除、又は編集されてもよい。図９Ｂ及び９Ｃは、制御及びゾーンターゲットにそれぞれ関連する例示的な同義語を示す。

いくつかの実施形態において、変数インスタンスは、コマンドの同義語と類似した方法で既定された同義語を有してもよい。例えば、メディア再生システム１００の「バルコニー」ゾーン変数は、同じゾーン変数を代表する「アウトサイド」という同義語を有してもよい。別の例として、「リビングルーム」ゾーン変数は、「リビングエリア」、「テレビルーム」、「ファミリールーム」という同義語を有してもよい。

ｄ．１つ又は複数のコマンドがコマンド情報セット内の対応するクライテリアを満たすことを判断する
図８Ａと８Ｂを一緒に参照して、ブロック８０７において、方法８００は、ブロック８０６において検出された１つ又は複数のコマンドがコマンド情報８９０のセット内のコマンドクライテリアを満たすと判断することに関与する。図８Ｂを参照して、例えば、第一のコマンドが検出された場合、方法８００は、第一のコマンドが「クライテリア＿１」を満たすか否かを判断し、第二の「コマンド」が検出された場合、方法８００は、コマンドが「クライテリア＿２」を満たすか否かを判断し、以下同様。

コマンドは、コマンドクライテリアの複数のセットと比較されてもよい。いくつかの実施形態において、クライテリアの特定のセットは、論理演算子（ｌｏｇｉｃａｌｏｐｅｒａｔｏｒ）と関連してもよい。例えば、第三の「コマンド」がコマンド「クライテリア＿２」及びコマンド「クライテリア＿３」と比較される。これらのコマンドは、論理ＡＮＤ演算子によって連結される。したがって、第三の「コマンド」は、２つのセットのクライテリアが満たされる必要がある。対照的に、ｎ番目の「コマンド」は、論理ＯＲ演算子によって連結されたクライテリア（クライテリア＿ｘ、クライテリア＿ｙ、及びクライテリア＿ｚ）と関連する。この場合、ｎ番目の「コマンド」は、このコマンドのコマンドクライテリアのセットの内１つのみを満たす必要がある。コマンドが特定のコマンドクライテリアを満たすか否かを判断するために、ＸＯＲ演算子を含む様々な論理演算子の組み合わせが可能である。

いくつかの実施形態において、コマンドクライテリアは、ボイス入力が１つ又は複数のコマンドを含んでいるか否か判断してもよい。例えば、「（メディア変数）で再生して」のコマンドを備えたボイス入力は、「（ゾーン変数）でも再生して」という第二のコマンドを伴ってもよい。この例において、メディア再生システム１００は、「再生して」を１つのコマンドとして認識し、「でも再生して」を後のコマンドを含むことによって満たされるコマンドクライテリアとして認識してもよい。いくつかの実施形態において、上述の例のコマンドが同じボイス入力内で一緒に発声されるとき、それはグループ化の意図に対応し得る。

類似した実施形態において、ボイス入力は、続けて発声される２つのコマンド又はフレーズを含んでもよい。方法８００は、そのような連続したコマンド又はフレーズを関連し得ると認識してもよい。例えば、ユーザは、「クラシック音楽を何か再生して」に続いて、「リビングルーム」と「ダイニングルーム」において、というボイス入力を提供し得て、それは、「リビングルーム」と「ダイニングルーム」における再生デバイスのグループ化を推測させるコマンドである。

いくつかの実施形態において、メディア再生システム１００は、単語又はフレーズを順番に処理するとき、限定された長さの休止（例えば、１、２秒間）を検出してもよい。いくつかの実施形態において、休止は、コマンドとフレーズの間を区切って、比較的長い一連のコマンド及び情報のボイス処理を容易にするためにユーザによって意図的に行われてもよい。休止には、メディア再生システム１００にブロック８０２においてウェイクワードのモニタ再開をさせることなく一連のコマンド及び情報を取得するために十分な所定の期間があってもよい。一態様において、ユーザは、そのような休止を使って、実行を望むコマンドごとにウェイクワードを繰り返すことなく複数のコマンドを実行してもよい。

ｅ．判断するステップに応じて、第一のＶＡＳを選択し、他のＶＡＳの選択を放棄し、第一のＶＡＳを介して１つ又は複数のコマンドを処理する
特定の所定のコマンドクライテリアを満たすコマンドは、メディア再生システム１００に第一のＶＡＳ１６０を発動させるが、所定のクライテリアを満たさないコマンドは、別のＶＡＳを発動させ得る、又はＶＡＳを全く発動させなくてもよい。例示的な方法８００は、ブロック８０７及び８０８に示されるように、ボイス入力内の所与のコマンドのコマンドクライテリアを満たすと判断されたボイス入力を送ること、及びブロック８０９に示されるように、所与のコマンドがクライテリアを満たさないとき、ボイス入力を別のＶＡＳに送ることに関与する。

ブロック８１０において、方法８００は、ブロック８０８においてボイス入力を受信したＶＡＳからの応答を受信して処理することに関与する。一実施形態において、ＶＡＳからの応答を処理することはＶＡＳからの指示を処理して、上述のような再生、制御、ゾーンターゲット、その他のコマンドなどのボイス入力内のコマンドを実行することを含んでもよい。いくつかの実施形態において、リモートコンピュータは、初めのボイス入力に含まれ得る、又はデータベース検索の結果であり得るメディア変数と関連するコンテンツの再生を開始又は制御するように命令されてもよい。

いくつかの実施形態において、ブロック８１０において応答を処理することは、メディアコンテンツを回収させ得る。一実施形態において、メディア変数はメディアコンテンツのデータベース検索の結果としてメディア再生システム１００に提供されてもよい。いくつかの実施形態において、メディア再生システム１００は１つ又は複数のメディアサービスからメディアコンテンツを直接回収してもよい。別の実施形態において、ＶＡＳはブロック８００で受信したボイス入力の処理とともにメディアコンテンツを自動的に回収してもよい。様々な実施形態において、メディア変数はメタデータ交換チャンネル及び／又はメディア再生システム１００との間で確立したいずれかの通信経路を通して通信されてもよい。そのような通信は、図７Ｂを参照して上に説明したとおり、コンテンツストリーミングを開始し得る。

いくつかの実施形態において、データベース検索は、ボイス入力内に検出されたメディア変数に基づいた結果を返し得る。例えば、データベース検索は、メディア変数と同じ名前のアルバムを有するアーティスト、メディア変数と一致又は類似したアルバム名、メディア変数の名前がついたトラック、メディア変数のラジオ局、メディア変数の名前がついたプレイリスト、メディア変数に関連したコンテンツのストリーミングサービス供給元識別子、及び／又は生のスピーチからテキストへの変換結果を返すかもしれない。「アメリカン・パイ」の例をとれば、検索結果はアーティスト「ドン・マクリーン」、「アメリカン・パイ」という名のアルバム、「アメリカン・パイ」という名のトラック、「アメリカン・パイ」という名のラジオ局（例えば、「アメリカン・パイ」のＰａｎｄｏｒａラジオ局の識別子）、音楽サービス（例えばＳＰＯＴＩＦＹ（登録商標）又はＰＡＮＤＯＲＡ（登録商標）などのストリーミング音楽サービス）の「アメリカン・パイ」のトラック識別子（例えばＳＰＯＴＩＦＹ（登録商標）の「アメリカン・パイ」のトラック識別子、ＵＲＩ、及び／又はＵＲＬ）、及び／又は「アメリカン・パイ」の生のスピーチからテキストへの結果、を返すかもしれない。

いくつかの実施形態において、方法８００は、再生キューの部分がクラウドネットワークのプレイリスト又は再生キューの一部又は全体と一致するように、クラウドネットワークに記憶されたプレイリスト又は再生キューの変更に応じて再生デバイスに記憶された再生キューをアップデートすることに関与してもよい。

メディア再生システム１００内の動作を起こすことに応じて、方法８００は、ブロック８１０において、動作に関連した情報をアップデートすること及び／又は記憶することに関与してもよい。例えば、１つ又は複数の制御状態、ゾーン状態、ゾーン識別子、又はその他の情報がブロック８００においてアップデートされてもよい。アップデートされる他の情報は、例えば、特定のメディア項目を現在再生している特定の再生デバイスを識別する情報、及び／又は特定のメディア項目が再生デバイスに記憶されたキューに追加された情報を含んでいてもよい。

いくつかの実施形態において、ブロック８１０において応答を処理することは、ブロック８１１及び８１２に示されるように、ＶＡＳが追加の情報を必要としており、音でユーザにこの情報の要求をしている（ｐｒｏｍｐｔｉｎｇ）ことの判断につながり得る。例えば、方法８００は、マルチターンコマンドを実行するとき、ユーザに追加の情報を要求してもよい。そのような場合、方法８００は、ブロック８０４に戻って追加のボイス入力を取得してもよい。

方法及びシステムは、ここでメディアコンテンツ（例えば、音楽コンテンツ、ビデオコンテンツ）に関して説明されているが、ここで説明される方法及びシステムは、メディアコンテンツ再生システムによって再生可能な関連したオーディオを有する様々なコンテンツに適用されてもよい。例えば、音楽カタログの一部ではないかもしれない過去に録音された音がボイス入力に応じて再生されてもよい。１つの例は、「ナイチンゲールはどんな声で啼くの？」というボイス入力である。このボイス入力に対するネットワークマイクロフォンシステムの応答は識別子付きの音楽コンテンツではなくてもよく、かわりに短いオーディオクリップであってもよい。メディア再生システムは短いオーディオクリップを再生することに関連した情報（例えば、メモリアドレス、リンク、ＵＲＬ、ファイル）、及び短いオーディオクリップを再生するというメディア再生システムのコマンドを受信してもよい。ポッドキャスト、ニュースクリップ、通知音、警報、等の別の例も考えられる。

ＩＶ．メディア再生システムのボイス制御の例示的な実施
図１０Ａ－２０Ｂは、メディア再生システム１００によって処理されるボイス入力、及びボイス入力の処理後、又は処理前のメディア再生システム１００の状態を示し得る制御インタフェースの様々な例を示す模式図である。下に説明されるように、ボイス入力内の特定のボイスコマンドに関連したコマンドクライテリアは、上述のＶＡＳ１６０などの強化されたＶＡＳボイス制御を提供してもよい。ボイス入力は、上述のように、再生デバイス１０２の１つに組み入れられていないかもしれないＮＭＤ１０３の１つ又は複数によって受信されてもよい。

明確性のために図示されないが、上述のように下の様々な例におけるボイス入力は、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）又はその他のウェイクワードなどのウェイクワードに先行されてもよい。一態様において、従来のＶＡＳなどの第一のＶＡＳ又は第二のＶＡＳに送信される予定のボイス入力のボイス取得を開始するために同じウェイクワードが使用されてもよい。そのような場合、ボイス発声をするユーザは、裏で１つのＶＡＳが別のＶＡＳの代わりに選択されていることに気づいていないかもしれない。特定の実施形態において、「ヘイ、ＳＯＮＯＳ」などの固有のウェイクワードは、さらなる考慮なくユーザによって発声されて第一のＶＡＳを発動させてもよい。この場合、再生システム１００は別のＶＡＳの代わりに第一のＶＡＳを選択することを判断するステップを回避し得る。

一態様において、コマンドクライテリアは、デバイスをグループ化するように構成され得る。いくつかの実施形態において、そのようなコマンドクライテリアは、ボイス入力がメディア変数に関与するとき、及び／又は起動したデバイスが再生キューと関連するとき、再生を同時に開始してもよい。例えば図１０Ａは、ＮＭＤ１０３ａに「リビングルームとバルコニーでビートルズを再生して」というボイス入力を発声するユーザを示し、図１０Ｂのコントローラインタフェースは、「リビングルーム」と「バルコニー」のグループ化の結果を示す。別の例において、ユーザは特定のトラック、プレイリスト、ムード、又はその他、ここで説明されるようにメディア再生を開始するための情報を発声してもよい。

図１０Ａのボイス入力は「（メディア変数）を（第一のゾーン変数）及び（第二のゾーン変数）で再生して」という語法の構造を含む。この例において、再生してというコマンドは、２つ以上のゾーン変数をボイス入力内のキーワードとして必要とするコマンドクライテリアを満たす。いくつかの実施形態において、図１０Ａにおいて示されるボイス入力の発声前後で、「リビングルーム」の再生デバイス１０２ａ、１０２ｂ、１０２ｊ、及び１０２ｋは、結合されたメディア再生デバイス構成に留まってもよい。

いくつかの実施形態において、ゾーン変数が発声される順番が、いずれの再生デバイスが「グループヘッド」に指定されるかを決定し得る。例えば、ユーザが「リビングルーム」のキーワードに引き続き「バルコニー」のキーワードを含むボイス入力を発声したとき、この順番により「リビングルーム」がグループヘッドに決まり得る。グループヘッドはコマンド情報８９０のセット内においてゾーン変数として記憶されてもよい。グループヘッドは、再生デバイスのグループを参照するための呼び名（ｈａｎｄｌｅ）になるかもしれない。ユーザがグループの呼び名を含むボイス入力を発声したとき、メディア再生システム１００は、「リビングルーム」とともにグループ化された全てのデバイスを参照しているという意図を検出し得る。この方法によれば、デバイスを集合的に制御するとき、ユーザは、デバイスのグループ内の各ゾーンのキーワードを発声する必要がない。関連した実施形態において、ユーザはグループヘッドを別のデバイス又はゾーンに変更するボイス入力を発声し得る。例えば、ユーザは「リビングルーム」ゾーンのグループヘッドを「バルコニー」に変更し得る（そのような場合、インタフェースはグループの順番を「リビングルーム＋バルコニー」ではなく、「バルコニー＋リビングルーム」と示してもよい）。

代替の例において、図１０Ｃは、ユーザが「ビートルズを再生して」というボイス入力を発声するが、図１０Ａのボイス入力内の他のキーワードを省略することを示す。この例において、コマンドが上述のようにコマンド情報８９０のセットのいずれのクライテリアも満たさない場合、ボイス入力は別のＶＡＳに送られ得る。

別の例において、コマンドの他のコマンドクライテリアが満たされた場合、上述のキーワードを省略した「ビートルズを再生して」のボイス入力は、なお第一のＶＡＳ１６０に送られ得る。そのような他のコマンドクライテリアは例えば、ゾーン変数、制御状態変数、ターゲット変数、及び／又はその他の変数に関与したクライテリアを含んでもよい。一態様において、変数インスタンスは、ユーザのネットワークマイクロフォンデバイスからの近さ（例えば、計算により、又はその他の方法で判断された距離）であり得る。例えば、図１０Ｃのボイス入力は、ユーザがＮＭＤ１０３の近傍（例えば、所定の半径ｒ_１に基づく）に検出されたとき、第一のＶＡＳ１６０に送られ得る。近傍の判断は、例えばボイス入力ソースの信号の強さに基づいてもよい。別の態様において、図１０Ｃのボイス入力は、ユーザのボイスプロフィールが検出されたとき、ユーザの近さが検出されたか否かにかかわらず、第一のＶＡＳ１６０に送られ得る。

さらに別の態様において、近さ及び／又はその他コマンドクライテリアは、従来のＶＡＳによって容易に処理できないボイス入力の解明を容易にし得る。例えば、図１１Ａに示されるように、「バルコニーの音量上げて」というボイス入力を発声するユーザは、バルコニーが同じ名前を有する照明デバイス１０８を含むため、従来のＶＡＳによっては解明できないかもしれない。図１を参照して、第一のＶＡＳ１６０は、ユーザが再生デバイス１０２ｃの近傍にいるか否か、及び／又は「バルコニー」が現在関連した制御変数に基づいて再生中か否かを判断することにより、そのような重複したデバイス名を解明できるかもしれない。関連した態様において、第一のＶＡＳ１６０は、ユーザがいない「リビングルーム」の音量ではなく、ユーザが近傍にいる「バルコニー」の再生デバイス１０２ｃの音量を上げるよう判断するかもしれない。そのような場合、図１１Ｂに示されるように、メディア再生システム１００は、「バルコニー」の音量を上げるが、「リビングルーム」の音量は上げないかもしれない。

同様に、第一のＶＡＳ１６０は、類似したコマンド命名慣習を有するデバイス間のコマンドの重複を解明し得る。例えば、図１に示される「ダイニングルーム」のサーモスタット１１０は、ユーザによって「設定して」のボイス入力が発声されると、特定の温度（例えば６０度から８５度の間のレベル）に設定するようにユーザによってプログラムされ得る。同様に、ユーザが「設定して」のボイス入力を発声すると「ダイニングルーム」を特定の音量レベル（例えば、０から１００パーセントの音量レベル）に設定し得る。一例において、「ダイニングルームを７５に設定せよ」のボイス入力を発声するユーザは、「ダイニングルーム」ゾーンがコマンド情報８９０のセットに記憶されたコマンドクライテリアに基づいて現在再生中であるから、第一のＶＡＳ１６０によって解明可能である。対照的に、従来のＶＡＳは、「ダイニングルーム」の音量レベルを７５に変更するべきか、又は「ダイニングルーム」のサーモスタットの温度を７５に設定するべきか、判断できない場合がある。

様々な実施形態において、ボイス入力は、個々の再生デバイス、ネットワークマイクロフォンデバイス、及びコントローラデバイス１０２－１０４を介したユーザからの他の入力とともに処理されてもよい。例えば、ユーザは、図１１Ｂに示されるインタフェース上のソフトボタン及び制御機能を使って、グループの音量、個々の音量、再生状態、などを独立して制御してもよい。加えて、図１１Ｂの例において、ユーザは、「グループ」のラベルがついたソフトボタンを押して、デバイスのグループ化及びグループ解除を手動で行う別のインタフェースにアクセスしてもよい。一態様において、ボイス入力、コントローラ入力、及び手動デバイス入力を介してメディア再生システム１００と対話する複数の方法を提供することにより、滑らかな制御の連続性とユーザ体験の向上が得られるかもしれない。

別のグループ化／グループ分解の例として、「ボブマーリーをバルコニーで再生せよ」というボイス入力は、「バルコニー」を自動的に「リビングルーム」から分離させ得る。そのような場合、「バルコニー」は、ボブマーリーを再生し得て、「リビングルーム」はビートルズの再生を続け得る。代わりに、「リビングルーム」がもはや再生デバイスのグループのグループヘッドではないとコマンドクライテリアが指令する場合、「リビングルーム」は、再生を止めるかもしれない。別の実施形態において、コマンドクライテリアは、再生開始コマンドに応答してデバイスが自動的にグループ解除しないように指令し得る。

コマンドクライテリアは、現在再生中の音楽及び／又はあるゾーンの再生キューを１つのゾーンから別のゾーンへ移動又は移転させるように構成されてもよい。例えば、図１２Ａに示されるように、ユーザは「『リビングルーム』から『ダイニングルーム』へ、音楽を移動させて」というボイス入力を発声してもよい。図１２Ｂのコントローラインタフェースに示されるように、音楽を移動させるリクエストは「リビングルーム」で再生中の音楽を「ダイニングルーム」へ移動させ得る。関連した例において、ユーザは「音楽をここへ移動させて」のボイス入力を図１に示される「ダイニングルーム」の近くのＮＭＤ１０３ｆへ直接発声することによって音楽を「ダイニングルーム」へ移動させてもよい。この場合、ユーザは明確に「ダイニングルーム」を参照しないが、ＶＡＳ１６０は、ユーザが「ダイニングルーム」に近いことに基づいて意図を推定する。関連した実施形態において、ＶＡＳ１６０は、ＮＭＤ１０３ｆが「ダイニングルーム」の再生デバイス１０２ｌと結合していると判断した場合、他の隣接した部屋（例えば「キッチン」）ではなく、「ダイニングルーム」へ音楽を移動するように判断してもよい。別の例において、再生システム１００は、現在再生中コンテンツのメタデータから情報を推定してもよい。そのような一例において、ユーザは「レットイットビー（又はビートルズ）を『ダイニングルーム』へ移動させて」と発声してもよく、望ましい再生ゾーン及び／又はゾーングループへ移動させる特定の音楽を識別する。この方法によれば、メディア再生システムは、いずれのコンテンツを移動させるかを判断するために、別の再生ゾーン及び／又はゾーングループで現在再生中及び／又は再生キューにあるかもしれないコンテンツの間で区別ができる。

さらに別の例において、「リビングルーム」などのグループヘッドと関連する全てのデバイスは、音楽をグループヘッドから「ダイニングルーム」に移動すると、再生を停止し得る。関連した例において、音楽が移動してしまったとき、「リビングルーム」ゾーンはグループヘッドとしての指定を失ってもよい。

コマンドクライテリアは、ボイス入力コマンドを使って存在するグループにデバイスを加えるように構成されてもよい。例えば、図１３Ａ及び１３Ｂに示されるように、ユーザは、「『リビングルーム』を『ダイニングルーム』に追加して」とのボイス入力を発声することによって「リビングルーム」ゾーンを加えて、「ダイニングルーム」とグループを形成させ得る。関連した実施形態において、ユーザは、「ここでも再生して」というボイス入力を図１に示す「リビングルーム」のＮＭＤ１０３ａに直接発声することにより「リビングルーム」を加えてもよい。この場合、ユーザはボイス入力内で明確にリビングルームを参照しないが、ＶＡＳ１６０は、ユーザの近さに基づいて「リビングルーム」を追加されるべきと推定してもよい。別の例において、この意図を有するとき「ダイニングルーム」にいると仮定すれば、「リビングルームを追加して」のコマンドを発声してもよい。この場合、ダイニングルームターゲットは入力デバイスを含む部屋から暗示されてもよい。

さらに別の例において、ユーザは、「リビングルーム」と「ダイニングルーム」のいずれがグループヘッドになるかをボイス入力内で示してもよく、又はＶＡＳ１６０がユーザにグループヘッドを指定するようにリクエストしてもよい。

グループを加える又は形成する別の例として、ユーザはカスタムゾーン変数に関連したキーワードを備えたボイス入力を使ってグループのインスタンスを形成（ｉｎｓｔａｎｔｉａｔｅ）してもよい。例えば、ユーザは上述の「フロントエリア」のカスタムゾーン変数を生成してもよい。ユーザは、図１４Ａ及び１４Ｂに示されるように、「バンヘイレンを『フロントエリア』で再生して」などのボイス入力を発声することによって「フロントエリア」グループのインスタンスを形成してもよい。図１３Ｂの前の「ダイニングルーム」グループは図１４Ａに示されるボイス入力に応答して置き換えられてもよい。

コマンドクライテリアは、ボイス入力コマンドを使ってデバイスを既存のグループから削除するように構成されてもよい。例えば、ユーザは、図１５Ａ及び１５Ｂに示されるように「フロントエリア」グループから「バルコニー」を取り除くために「『バルコニー』を外して」のボイス入力を発声してもよい。別の例として、バルコニーの「停止／削除」のコマンドが同じことをし得る。上に説明したとおり、他の例示的な同義語もあり得る。さらに別の例において、ユーザがバルコニーにいると仮定して、ユーザは同じ結果を達成するために図１の「バルコニー」のＮＭＤ１０３ｃへ「ここを止めて」又は「この部屋を止めて」などを発声することにより直接発声してもよい。

コマンドクライテリアは、オーディオコンテンツソースを選択して関連した機能を実施するように構成されてもよい。例えば、図１６Ａは、「テレビを見たい」というボイス入力をＮＭＤ１０３ａに発声しているユーザを示す。図１６Ｂに示されるように、応答してメディア再生システム１００は、オーディオコンテンツソースを音楽ソースからテレビソースに切り替える。いくつかの実施形態において、メディア再生システム１００にテレビソースを再生するよう指示することにより、自動的に「リビングルーム」を他のゾーンから分離してもよい。例えば図１６Ｂにおいて、「ダイニングルーム」及び「キッチン」においてバンヘイレンの再生が継続するが、「リビングルーム」はテレビソースに切り替わる。いくつかの例において、上述のように、ユーザは続いてグループ化することによりホーム環境の他のゾーンでテレビソースを再生するためのコマンドを発声してもよい。

関連した実施形態において、メディア再生システム１００は、「リビングルーム」がテレビソースに接続しているときを示す状態情報を記憶してもよい。「リビングルーム」がこの状態のとき、テレビソースに関連するボイスコマンドはＶＡＳによって実行され得ると、図９Ｂに示されるソースコマンド（例えば、スピーチを強化、静かなモードに変更）のようにコマンドクライテリアが命令してもよい。

コマンドクライテリアは、デバイスを結合するように構成されてもよい。例えば、図１７Ａは、ユーザが「フロントのテレビを見たい」というボイス入力を発声するところを示す。応答してＶＡＳ１６０は、図１６Ｂに示されるように、コマンドクライテリアに基づいて、図１の「フロント」の再生デバイス１０２ｂが「リビングルーム」ゾーンから離れてテレビゾーンを形成すると判断してもよい。関連する例において、ユーザは直接「フロント」の再生デバイス１０２ｂのＮＭＤ１０３ｂにボイス入力を発声し、このデバイスを分離してもよい。リビングルームの残りの結合されたデバイス、すなわち「右」、「左」、及び「サブ」デバイス１０２ａ、１０２ｊ、及び１０２ｋ、は音楽の再生を終わってもよい。制御インタフェースはまたこれらのデバイスを「リビングルーム」ゾーンの一部ではなくなったものとして表示してもよい。

結合の別の例として、ユーザは、「フロント」の再生デバイス１０２ｂと分離した後、リビングルームエリアの残りのデバイスとともに異なる結合構成を形成してもよい。例えば、図１８Ａ及び１８Ｂに示されるようにユーザは、「サテライトとサブでボブマーリーを再生してリスニングゾーンを形成せよ」とボイス入力を発声することによりリスニングゾーンを形成してもよい。「サテライト」という用語は、「右」再生デバイス１０２ａ及び「左」再生デバイス１０２ｊを参照するカスタムゾーン変数であってもよい。図１８Ａのボイス入力はまた、新規に形成されたリスニングゾーンにおいてボブマーリーの再生を開始する。図１８Ｂのコントローラインタフェースにさらに示されるとおり、図示の例において、図１７Ａ－１８Ｂの結合操作は「ダイニングルーム」及び「キッチン」におけるバンヘイレンの再生を中断しなかった。

コマンドクライテリアは、デバイスをペアにする／結合するように構成されてもよい。例えば、図１９Ａは、ユーザが「『ダイニングルーム』と『キッチン』をステレオでペアにして」のボイス入力を発声するマルチターンコマンドを示す。この例において、ＶＡＳは、ＮＭＤ１０３の１つ以上に、ユーザに注意を促す（ｐｒｏｍｐｔ）よう指示し、「ダイニングルーム」ゾーンが右のチャンネルであるべきか否かを尋ねる。ユーザが「ダイニングルーム」が右のチャンネルであると確認する場合、「キッチン」ゾーンが左のチャンネルとなる。ユーザが「ダイニングルーム」が右のチャンネルではないと示す場合、「ダイニングルーム」がデフォルトにより左のチャンネルとなり「キッチン」ゾーンが右のチャンネルとなる。結合されたとき、「ダイニングルーム」と「キッチン」のうちの１つがグループヘッドとして選定されてもよい。ＶＡＳは、図１９Ｂに示されるようにユーザに結合されたデバイスに、「Ｃｏｃｉｎａ］などの固有名を含む名称を指名するように注意を促してもよい。「Ｃｏｃｉｎａ］ゾーンは、バンヘイレンの再生を再開してもよく、これは元の「ダイニングルーム」及び「キッチン」ゾーンのいずれかの再生キューからの移転かもしれない。

関連する実施形態において、デバイスの結合及び併合は、図２０Ａ及び２０Ｂに示されるようにＶＡＳにマルチターン又は再生デバイスを較正するためのその他のコマンドを開始させることができる。一例において、ＶＡＳ１６０は、「ダイニングルーム」と「キッチン」ゾーンをペアにした後、図１９Ａの一連のマルチターンコマンドを継続してもよい。いくつかの実施形態において、コマンドクライテリアは、較正を開始する前に、ユーザがコントローラデバイス１０３の１つを操作していることの検出を必要としてもよい。この方法によれば、図２０Ｂに示されるように、ＶＡＳ１６０は、較正用のＳＯＮＯＳのＴＲＵＥＰＬＡＹ（登録商標）などの較正ソフトウェアを準備してもよい。

ＶＩＩ．結論
上記の説明は、とりわけ、コンポーネント、ファームウェア及び／又はハードウェア上で実行されるソフトウェアを含む様々な例示的なシステム、方法、装置、及び製品を開示している。そのような例は単に例示的なものであり、限定的であると見なされるべきではないことが理解される。例えば、ファームウェア、ハードウェア及び／又はソフトウェアの態様又はコンポーネントのいずれか又は全てを、ハードウェアのみ、ソフトウェアのみ、ファームウェアのみ、又はハードウェア、ソフトウェア及び／又はファームウェアの任意の組み合わせで実施できることが考えられる。したがって、提供される例は、そのようなシステム、方法、装置、及び／又は製品を実施するための唯一の方法ではない。

（特徴１）メディア再生システムの第一のボイスアシスタントサービス（ＶＡＳ）を発動させる方法であって、方法は、
コマンド及び関連するコマンドクライテリアのリストを含むコマンド情報のセットをメモリに記憶させるステップと、
ネットワークマイクロフォンデバイスの少なくとも１つのマイクロフォンを介してボイス入力を取得するステップと、
ボイス入力内に１つ又は複数のコマンドが含まれていることを検出するステップと、
１つ又は複数のコマンドが、コマンド情報のセット内の対応するコマンドクライテリアを満たすことを判断するステップと、を含み、
判断に応答して、第一のＶＡＳを選択し第二のＶＡＳの選択を放棄し、（ｉｉ）ボイス入力を第一のＶＡＳに送信し、（ｉｉｉ）ボイス入力の送信後、第一のＶＡＳからのボイス入力への返答を受信する、
方法。

（特徴２）メディア再生システムが複数の再生デバイスを含み、
１つ又は複数のコマンドが、複数の再生デバイスのうち２つ又はそれ以上の再生デバイスをグループ化し、２つ又はそれ以上の再生デバイスを含むグループでオーディオコンテンツの再生を開始する、
特徴１に記載の方法。

（特徴３）判断するステップは、１つ又は複数のキーワードがボイス入力内に含まれることを検出することを含み、
１つ又は複数のキーワードが、（ｉ）２つ又はそれ以上の再生デバイスのうちの１つと関連する第一のキーワードならびに２つ又はそれ以上の再生デバイスのうちの別の１つと関連する第二のキーワードと、（ｉｉ）２つ又はそれ以上の再生デバイスを含むグループと、のうちの少なくとも１つを含む、
特徴２に記載の方法。

（特徴４）２つ又はそれ以上の再生デバイスのうちの１つは、ネットワークマイクロフォンデバイスを含む、
特徴２に記載の方法。

（特徴５）１つ又は複数のコマンドがメディア再生システムに向けられ、
方法は、第一のＶＡＳからの応答に基づいてメディア再生システムを介して１つ又は複数のコマンドを処理するステップをさらに含む、
特徴１に記載の方法。

（特徴６）１つ又は複数のコマンドは、再生コマンド及びトランスポート制御コマンドの少なくとも１つを含む、
特徴５に記載の方法。

（特徴７）ボイス入力は、第一のボイス入力であり、
方法は、第一のＶＡＳからの応答に基づいて可聴の要求を出力するステップをさらに含む、
特徴１に記載の方法。

（特徴８）ボイス入力は、第一のボイス入力であり、
方法は、第一のＶＡＳからの応答に基づいて第二のボイス入力への可聴の要求を出力するステップをさらに含む、
特徴１に記載の方法。

（特徴９）メディア再生システムは、複数の再生デバイスを含み、
１つ又は複数のコマンドは、２つ又はそれ以上の再生デバイスをペアにするコマンドを含み、
可聴の要求は、２つ又はそれ以上の再生デバイスの少なくとも１つをオーディオチャンネルに割り当てるリクエストを含み、
第二のボイス入力は、２つ又はそれ以上の再生デバイスの少なくとも１つの選択を含む、
特徴８に記載の方法。

（特徴１０）メディア再生システムは、１つ又は複数の再生デバイスを含み、
可聴の要求は、１つ又は複数の再生デバイスのイコライザ設定を較正するリクエストを含む、
特徴８に記載の方法。

（特徴１１）判断するステップは、ボイス入力ソースの存在を検出することを含む、
特徴１に記載の方法。

（特徴１２）存在を検出することは、ボイス入力ソースからボイス入力がネットワークマイクロフォンデバイスによって受信される方向を検出することを含む、
特徴１１に記載の方法。

（特徴１３）存在を検出することは、ネットワークマイクロフォンデバイスとボイス入力ソースとの間の距離を検出することを含む、
特徴１１に記載の方法。

（特徴１４）判断するステップは、コントローラデバイスの使用を検出することを含む、
特徴１に記載の方法。

（特徴１５）判断するステップは、ボイス入力ソースのボイスプロフィールを検出することを含む、
特徴１に記載の方法。

（特徴１６）１つ又は複数のコマンドは、１つ又は複数の第一のコマンドであり、
判断するステップは、ボイス入力内に１つ又は複数の第二のコマンドを検出することを含む、
特徴１に記載の方法。

（特徴１７）判断するステップは、１つ又は複数の第一のコマンドと１つ又は複数の第二のコマンドとの間で、ボイス入力内に少なくとも１つの休止を検出することをさらに含む、
特徴１６に記載の方法。

（特徴１８）メディア再生システムのネットワークマイクロフォンデバイスであって、
（ｉ）プロセッサと、
（ｉｉ）少なくとも１つのマイクロフォンと、
（ｉｉｉ）プロセッサによって実行されるとき、ネットワークマイクロフォンデバイスにメディア再生システムの機能を実施させる指示を記憶した、実体のあるコンピュータ読み取り可能な記憶媒体と、を含み、
機能は、
（ａ）コマンド及び関連するコマンドクライテリアのリストを含むコマンド情報のセットをメモリに記憶させるステップと、
（ｂ）少なくとも１つのマイクロフォンを介してボイス入力を取得するステップと、
（ｃ）ボイス入力内に１つ又は複数のコマンドが含まれることを検出するステップと、
（ｄ）１つ又は複数のコマンドが、コマンド情報のセット内の１つ又は複数のコマンドと関連する対応コマンドクライテリアを満たすことを判断するステップと、
（ｅ）判断に応答して、
（ｉ）第一のボイスアシスタントサービス（ＶＡＳ）を選択し、第二のＶＡＳの選択を放棄し、
（ｉｉ）ボイス入力を第一のＶＡＳに送信し、
（ｉｉｉ）ボイス入力を送信後、第一のＶＡＳからボイス入力を受信するステップと、を含むメディア再生システムのネットワークマイクロフォンデバイス。

（特徴１９）メディア再生システムが複数の再生デバイスを含み、
１つ又は複数のコマンドが、再生デバイスの２つ又はそれ以上をグループ化し、オーディオコンテンツの再生を２つ又はそれ以上の再生デバイスを含むグループで開始させるコマンドを含む、
特徴１８に記載のネットワークマイクロフォンデバイス。

（特徴２０）判断するステップは、ボイス入力内に１つ又は複数のキーワードが含まれることの検出を含み、
１つ又は複数のキーワードが、（ｉ）２つ又はそれ以上の再生デバイスのうちの１つと関連する第一のキーワードならびに２つ又はそれ以上の再生デバイスのうちの別の１つと関連する第二のキーワードと、（ｉｉ）２つ又はそれ以上の再生デバイスを含むグループと、のうちの少なくとも１つを含む、
特徴１９に記載のネットワークマイクロフォンデバイス。

（特徴２１）２つ又はそれ以上の再生デバイスのうちの１つは、ネットワークマイクロフォンデバイスを含む、
特徴１９に記載のネットワークマイクロフォンデバイス。

（特徴２２）１つ又は複数のコマンドは、メディア再生システムに向けられ、
機能は、第一のＶＡＳからの応答に基づいてメディア再生システムを介して１つ又は複数のコマンドを処理するステップをさらに含む、
特徴１８に記載のネットワークマイクロフォンデバイス。

（特徴２３）１つ又は複数のコマンドは、再生コマンド及びトランスポート制御コマンドの少なくとも１つを含む、
特徴２２に記載のネットワークマイクロフォンデバイス。

（特徴２４）ボイス入力は、第一のボイス入力であり、
機能は、第一のＶＡＳからの応答に基づいて可聴の要求を出力するステップをさらに含む、
特徴１８に記載のネットワークマイクロフォンデバイス。

（特徴２５）ボイス入力は、第一のボイス入力であり、
機能は、第一のＶＡＳからの応答に基づいて第二のボイス入力への可聴の要求を出力するステップをさらに含む、
特徴１８に記載のネットワークマイクロフォンデバイス。

（特徴２６）メディア再生システムは、複数の再生デバイスを含み、
１つ又は複数のコマンドは、２つ又はそれ以上の再生デバイスをペアにするコマンドを含み、
可聴の要求は、２つ又はそれ以上の再生デバイスの少なくとも１つをオーディオチャンネルに割り当てるリクエストを含み、
第二のボイス入力は、２つ又はそれ以上の再生デバイスの少なくとも１つの選択を含む、
特徴２５に記載のネットワークマイクロフォンデバイス。

（特徴２７）メディア再生システムは、１つ又は複数の再生デバイスを含み、
可聴の要求は、１つ又は複数の再生デバイスのイコライザ設定を較正するリクエストを含む、
特徴２５に記載のネットワークマイクロフォンデバイス。

（特徴２８）判断するステップは、ボイス入力ソースの存在を検出することを含む、
特徴１８に記載のネットワークマイクロフォンデバイス。

（特徴２９）存在を検出することは、ボイス入力ソースからボイス入力がネットワークマイクロフォンデバイスによって受信される方向を検出することを含む
特徴２８に記載のネットワークマイクロフォンデバイス。

（特徴３０）存在を検出することは、ネットワークマイクロフォンデバイスとボイス入力ソースとの間の距離を検出することを含む、
特徴２８に記載のネットワークマイクロフォンデバイス。

（特徴３１）判断するステップは、コントローラデバイスの使用を検出することを含む、
特徴１８に記載のネットワークマイクロフォンデバイス。

（特徴３２）判断するステップは、ボイス入力ソースのボイスプロフィールを検出することを含む、
特徴１８に記載のネットワークマイクロフォンデバイス。

（特徴３３）１つ又は複数のコマンドは、１つ又は複数の第一のコマンドであり、
判断するステップは、ボイス入力内に１つ又は複数の第二のコマンドを検出することを含む、
特徴１８に記載のネットワークマイクロフォンデバイス。

（特徴３４）判断するステップは、１つ又は複数の第一のコマンドと１つ又は複数の第二のコマンドとの間で、ボイス入力内に少なくとも１つの休止を検出することをさらに含む、
特徴３３に記載のネットワークマイクロフォンデバイス。

（特徴３５）メディア再生システムの第一のボイスアシスタントサービス（ＶＡＳ）を発動させる方法であって、
方法は、
（ｉ）コマンド及び関連するコマンドクライテリアのリストを含むコマンド情報のセットをメモリに記憶させるステップと、
（ｉｉ）少なくとも１つのマイクロフォンを介してボイス入力を取得するステップと、
（ｉｉｉ）ボイス入力内に１つ又は複数のコマンドが含まれることを検出するステップと、
（ｉｖ）１つ又は複数のコマンドが、コマンド情報のセット内の１つ又は複数のコマンドと関連する対応コマンドクライテリアを満たすことを判断するステップと、
（ｖ）判断に応答して、
（ａ）第一のボイスアシスタントサービス（ＶＡＳ）を選択し、第二のＶＡＳの選択を放棄し、
（ｂ）ボイス入力を第一のＶＡＳに送信し、
（ｃ）ボイス入力を送信後、第一のＶＡＳからボイス入力を受信するステップと、を含む方法。

（特徴３６）メディア再生システムは、複数の再生デバイスを含み、
１つ又は複数のコマンドが、複数の再生デバイスの２つ又はそれ以上の再生デバイスをグループ化し、オーディオコンテンツの再生を２つ又はそれ以上の再生デバイスを含むグループで開始させるコマンドを含み、
判断するステップは、ボイス入力内に１つ又は複数のキーワードが含まれることの検出を含み、
１つ又は複数のキーワードは、（ｉ）２つ又はそれ以上の再生デバイスのうちの１つと関連する第一のキーワードならびに２つ又はそれ以上の再生デバイスのうちの別の１つと関連する第二のキーワードと、（ｉｉ）２つ又はそれ以上の再生デバイスを含むグループと、のうちの少なくとも１つを含む、
特徴３５に記載の方法。

（特徴３７）１つ又は複数のプロセッサによって実行されるとネットワークマイクロフォンデバイスにメディア再生システム内の操作をさせる指示を中に記憶し、実体があり非一時的なコンピュータ読み取り可能な記憶媒体であって、
操作は、
（ｉ）コマンド及び関連するコマンドクライテリアのリストを含むコマンド情報のセットをメモリに記憶させるステップと、
（ｉｉ）少なくとも１つのマイクロフォンを介してボイス入力を取得するステップと、
（ｉｉｉ）ボイス入力内に１つ又は複数のコマンドが含まれることを検出するステップと、
（ｉｖ）１つ又は複数のコマンドが、コマンド情報のセット内の１つ又は複数のコマンドと関連する対応コマンドクライテリアを満たすことを判断するステップと、
（ｖ）判断に応答して、
（ａ）第一のボイスアシスタントサービス（ＶＡＳ）を選択し、第二のＶＡＳの選択を放棄し、
（ｂ）ボイス入力を第一のＶＡＳに送信し、
（ｃ）ボイス入力を送信後、第一のＶＡＳからボイス入力を受信するステップと、を含むメディア。

本明細書は、例示的な環境、システム、手順、ステップ、論理ブロック、処理、及び他のシンボル表現に関して広く示されており、それらは直接又は間接的にネットワークに接続されるデータ処理デバイスの動作に類似するものである。これらの処理説明及び表現は、一般的に当業者によって使用され、それらの仕事の内容を他の当業者に最も効率良く伝えることができる。多くの具体的な内容が、本開示を理解するために提供されている。しかしながら、当業者にとって、本開示の特定の実施形態が特定の、具体的な詳細なしに実施され得ることは理解される。他の例では、周知の方法、手順、コンポーネント、及び回路が、実施形態を不必要に曖昧にすることを避けるため、詳細に説明していない。したがって、本開示の範囲は、上記した実施形態よりむしろ添付された特許請求の範囲によって定義される。

添付の特許請求の範囲のいずれかが単にソフトウェア及び／又はファームウェアへの実装をカバーするように読み取ると、少なくとも１つの例における要素の１つ又は複数は、本明細書では、ソフトウェア及び／又はファームウェアを記憶する有形の非一時的な記憶媒体、例えば、メモリ、ＤＶＤ、ＣＤ、Ｂｌｕ－ｒａｙ（登録商標）等を含むことが明確に定められている。

図１は、ある実施形態を実施することができるメディア再生システムを図示する。図２Ａは、例示的な再生デバイスの機能ブロック図である。図２Ｂは、ネットワークマイクロフォンデバイスを含む例示的な再生デバイスの等角図である。図３Ａは、本願開示の態様に係る例示的なゾーン及びゾーングループを示す図である。図３Ｂは、本願開示の態様に係る例示的なゾーン及びゾーングループを示す図である。図３Ｃは、本願開示の態様に係る例示的なゾーン及びゾーングループを示す図である。図３Ｄは、本願開示の態様に係る例示的なゾーン及びゾーングループを示す図である。図３Ｅは、本願開示の態様に係る例示的なゾーン及びゾーングループを示す図である。図４は、本願開示の態様に係る例示的なコントローラデバイスの機能ブロック図である。図４Ａは、本願開示の態様に係るコントローラインタフェースを図示する。図４Ｂは、本願開示の態様に係るコントローラインタフェースを図示する。図５Ａは、本願開示の態様に係る例示的なネットワークマイクロフォンデバイスの機能ブロック図である。図５Ｂは、本願開示の態様に係る例示的なボイス入力の図である。図６は、本願開示の態様に係る例示的なリモートコンピュータの機能ブロック図である。図７Ａは、本願開示の態様に係る例示的なネットワークシステムの模式図である。図７Ｂは、本願開示の態様に係る図７Ａの例示的なネットワークシステムによって実施される例示的なメッセージの流れを図示する。図８Ａは、本願開示の態様に係るボイスアシスタントサービスを発動する例示的な方法の流れ図である。図８Ｂは、本願開示の態様に係る例示的なコマンド情報のセットのブロック図である。図９Ａは、本願開示の態様に係る例示的なボイス入力コマンドとその関連情報の表である。図９Ｂは、本願開示の態様に係る例示的なボイス入力コマンドとその関連情報の表である。図９Ｃは、本願開示の態様に係る例示的なボイス入力コマンドとその関連情報の表である。図１０Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１０Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１０Ｃは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１１Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１１Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１２Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１２Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１３Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１３Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１４Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１４Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１５Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１５Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１６Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１６Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１７Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１７Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１８Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１８Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１９Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図１９Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図２０Ａは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。図２０Ｂは、本願開示の態様に係るＶＡＳを発動させる例示的なボイス入力を示す図である。

Claims

コマンド及び関連するコマンドクライテリアのリストを含むコマンド情報のセットをメディア再生システムのネットワークマイクロフォンデバイスのメモリに記憶させるステップと、
前記ネットワークマイクロフォンデバイスの少なくとも１つのマイクロフォンを介してボイス入力を取得するステップと、
前記ボイス入力内に１つ又は複数のコマンドが含まれることを検出するステップと、
前記１つ又は複数のコマンドが、コマンド情報のセット内の前記１つ又は複数のコマンドに関連する対応コマンドクライテリアを満たすことを判断するステップと、
前記判断に応答して、（ｉ）第一のボイスアシスタントサービス（ＶＡＳ）を選択し第二のＶＡＳの選択を放棄し、（ｉｉ）前記ボイス入力を第一のＶＡＳに送信し、（ｉｉｉ）前記ボイス入力の送信後、前記第一のＶＡＳからのボイス入力への応答を受信するステップと、を含む方法。
前記メディア再生システムが複数の再生デバイスを含み、
前記１つ又は複数のコマンドが、前記再生デバイスの２つ又はそれ以上をグループ化し、前記２つ又はそれ以上の再生デバイスを含むグループでオーディオコンテンツの再生を開始するコマンドを含む、
請求項１に記載の方法。
前記判断するステップは、前記ボイス入力内に１つ又は複数のキーワードが含まれることを検出することを含み、
前記１つ又は複数のキーワードは、
（ｉ）前記２つ又はそれ以上の再生デバイスのうちの１つと関連する第一のキーワードならびに２つ又はそれ以上の再生デバイスのうちの別の１つと関連する第二のキーワードと、
（ｉｉ）前記２つ又はそれ以上の再生デバイスを含むグループと、
のうちの少なくとも１つを含む、
請求項２に記載の方法。
前記２つ又はそれ以上の再生デバイスのうちの１つは、前記ネットワークマイクロフォンデバイスを含む、
請求項２又は３に記載の方法。
前記１つ又は複数のコマンドは、前記メディア再生システムに向けられ、
前記方法は、前記第一のＶＡＳからの応答に基づいて前記メディア再生システムを介して前記１つ又は複数のコマンドを処理するステップをさらに含む、
請求項１－４のいずれか１つに記載の方法。
前記ボイス入力は、第一のボイス入力であり、
前記方法は、前記第一のＶＡＳからの応答に基づいて可聴の要求を出力するステップをさらに含む、
請求項１－５のいずれか１つに記載の方法。
前記ボイス入力は、第一のボイス入力であり、
前記方法は、前記第一のＶＡＳからの応答に基づいて第二のボイス入力への可聴の要求を出力するステップをさらに含む、
請求項１－６のいずれか１つに記載の方法。
前記メディア再生システムは、複数の再生デバイスを含み、
前記１つ又は複数のコマンドは、前記複数の再生デバイスのうちの２つ又はそれ以上の再生デバイスをペアにするコマンドを含み、
前記可聴の要求は、前記２つ又はそれ以上の再生デバイスのうちの少なくとも１つをオーディオチャンネルに割り当てるリクエストを含み、
前記第二のボイス入力は、前記２つ又はそれ以上の再生デバイスのうちの少なくとも１つの選択を含む、
請求項７に記載の方法。
前記メディア再生システムは、１つ又は複数の再生デバイスを含み、
前記可聴の要求は、前記１つ又は複数の再生デバイスのイコライザ設定を較正するリクエストを含む、
請求項７又は８に記載の方法。
前記判断するステップは、ボイス入力ソースの存在を検出することを含み、
前記存在を検出することは、
前記ボイス入力ソースから前記ボイス入力が前記ネットワークマイクロフォンデバイスによって受信される方向、及び
前記ネットワークマイクロフォンデバイスと前記ボイス入力ソースとの間の距離、
のうちの少なくとも１つを検出することを含む、
請求項１－９のいずれか１つに記載の方法。
前記判断するステップは、
コントローラデバイスの使用、及び
ボイス入力ソースのボイスプロフィール、
のうちの少なくとも１つを検出することを含む、
請求項１－１０のいずれか１つに記載の方法。
前記１つ又は複数のコマンドは、１つ又は複数の第一のコマンドであり、
前記判断するステップは、前記ボイス入力内に１つ又は複数の第二のコマンドを検出すること、及び前記１つ又は複数の第一のコマンドと前記１つ又は複数の第二のコマンドとの間で、前記ボイス入力内に少なくとも１つの休止を検出することを含む、
請求項１－１１のいずれか１つに記載の方法。
１つ又は複数のプロセッサによって実行されるとネットワークマイクロフォンデバイスに請求項１－１２のいずれか１つに記載の方法を実施させる指示を含む、非一時的なコンピュータ読み取り可能な記録媒体。
１つ又は複数のマイクロフォンと、
１つ又は複数のプロセッサと、
請求項１３に記載の前記非一時的なコンピュータ読み取り可能な記録媒体を含む、
ネットワークマイクロフォンデバイス。