JP2023500658A

JP2023500658A - シミュレーション環境に関連した空間オーディオを提供するシステムおよび方法

Info

Publication number: JP2023500658A
Application number: JP2022525477A
Authority: JP
Inventors: コールハリス，ジョナサン; マイケルトーガーソン，ジェフリー
Original assignee: ソノズインコーポレイテッド
Priority date: 2019-10-30
Filing date: 2020-10-29
Publication date: 2023-01-10
Also published as: EP4052488A1; WO2021087516A1; US20210136509A1; US11483670B2; US20230008591A1

Abstract

空間オーディオを提供するためのシステムおよび方法が本明細書に開示される。１つの例において、方法は、聴取環境におけるユーザに対する第１の再生デバイスの第１の位置を受信するステップと、聴取環境におけるユーザに対する第２の再生デバイスの第２の位置を受信するステップと、第１および第２の位置に対応する位置データをメディアコンテンツプロバイダに送信するステップと、仮想環境と関連付けられる仮想メディアオーディオコンテンツをメディアコンテンツプロバイダから受信するステップであって、仮想メディアオーディオコンテンツが送信された位置データに基づいて生成される第１および第２のオーディオ信号を含み、生成される第１および第２のオーディオ信号が、ユーザが聴取環境内の仮想オブジェクトの位置を空間的に知覚できるようにするべく構成される１つ以上のオーディオキューを含む、ステップと、第２の再生デバイスを介した第２のオーディオ信号の再生と同期して第１の再生デバイスを介して第１のオーディオ信号を再生するステップとを含む。

Description

本国際出願は、２０１９年１０月３０日に出願された米国特許出願第１６／６６９，１２６号明細書の利益を主張し、その全体が参照により本明細書に組み込まれる。

本開示は、コンシューマ製品に関するものであり、特に、メディア再生に向けられた方法、システム、製品、機能、サービス、および他の要素に関するものや、それらのいくつかの態様に関する。

２００２年に、ソノス・インコーポレイテッドが新しいタイプの再生システムの開発を開始するまで、アウトラウド設定でデジタルオーディオにアクセスして聴くためのオプションは限られていた。ソノスは、２００３年に最初の特許出願の１つである「複数のネットワークデバイス間のオーディオ再生を同期する方法（ＭｅｔｈｏｄｆｏｒＳｙｎｃｈｒｏｎｉｚｉｎｇＡｕｄｉｏＰｌａｙｂａｃｋｂｅｔｗｅｅｎＭｕｌｔｉｐｌｅＮｅｔｗｏｒｋｅｄＤｅｖｉｃｅｓ）」と題する特許出願を行い、２００５年に初のメディア再生システムの販売を開始した。ソノスワイヤレスホームサウンドシステムによって、人々は１つまたは複数のネットワーク再生デバイスを介して多くのソースから音楽を体験できるようになっている。コントローラ（例えば、スマートフォン、タブレット、コンピュータ、音声入力装置）にインストールされたソフトウェアコントロールアプリケーションを通じて、ネットワーク再生デバイスを備えたいずれの部屋においても、人々は所望の音楽を再生することができる。メディアコンテンツ（例えば、歌、ポッドキャスト、ビデオサウンド）は、再生デバイスにストリーミングされ、再生デバイスを備えた各部屋で、対応する異なるメディアコンテンツを再生できるようになっている。また、同じメディアコンテンツを同期再生するために複数の部屋をグループ化すること、および／またはすべての部屋において同じメディアコンテンツを同期して聴くこともできる。

本明細書で開示されている技術の特徴、態様、および利点は、以下に記載されているように、以下の説明、添付の特許請求の範囲、および添付の図面を参照するとより理解され得る。当業者においては、図面に示された特徴が図示の目的のためであって、異なる特徴および／または追加の特徴およびその配置を含む変形が可能であることを理解できる。

開示された技術の態様に従って構成されたメディア再生システムを含む環境の部分断面図である。図１Ａのメディア再生システムと１つまたは複数のネットワークの概略図である。再生デバイスのブロック図である。再生デバイスのブロック図である。ネットワークマイクロフォンデバイスのブロック図である。ネットワークマイクロフォンデバイスのブロック図である。再生デバイスのブロック図である。制御デバイスの概略部分図である。対応するメディア再生システムゾーンの概略図である。対応するメディア再生システムゾーンの概略図である。対応するメディア再生システムゾーンの概略図である。対応するメディア再生システムゾーンの概略図である。メディア再生システムエリアの概略図である。開示された技術の態様に従って構成された再生デバイスの正面等角図である。グリルを有さない図２Ａの再生デバイスの正面等角図である。図２Ａの再生デバイスの分解図である。開示された技術の態様に従って構成されたネットワークマイクロフォンデバイスの正面図である。図３Ａのネットワークマイクロフォンデバイスの側面等角図である。図３Ａおよび図３Ｂのネットワークマイクロフォンデバイスの分解図である。図３Ｂの一部の拡大図である。図３Ａ～図３Ｄのネットワークマイクロフォンデバイスのブロック図である。例示的な音声入力の概略図である。開示された技術の態様による様々な動作段階における制御デバイスの概略図である。開示された技術の態様による様々な動作段階における制御デバイスの概略図である。開示された技術の態様による様々な動作段階における制御デバイスの概略図である。開示された技術の態様による様々な動作段階における制御デバイスの概略図である。制御デバイスの正面図である。メディア再生システムのメッセージのフロー図である。本技術の態様による例示的なメディア再生システムの構成を示す概略図である。本技術の態様によるメディア再生システムを介してシミュレーションされた経験に関連する空間オーディオを提供するよう構成されたプロセスのフロー図である。

図面は、いくつかの例示的な実施形態を例示することを目的としているが、当業者であれば、本明細書に開示された技術が、図面に示された配置および手段に限定されるものではないことは理解される。

Ｉ．概要
拡張現実（「ＡＲ：ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ」）および複合現実（「ＭＲ：ｍｉｘｅｄｒｅａｌｉｔｙ」）は、視覚および音声コンテンツなどのコンピュータにより生成された間隔入力を使用して、ユーザの現実世界体験を強化する、インタラクティブな現実ベースのディスプレイ環境の一種である。完全に人工的な環境を作り出す仮想現実（「ＶＲ：ｖｉｒｔｕａｌｒｅａｌｉｔｙ」）とは異なり、ＡＲ／ＭＲは、既存の環境を使用して、その上に新しい情報を重ね合わせるものである。ＡＲ／ＭＲの目標は、現実世界のユーザの間隔を、仮想世界のコンテンツとシームレスに融合させて、ユーザが物理環境の自然な一部として仮想コンテンツを知覚することができるようにすることである。視覚的手がかり（ｖｉｓｕａｌｃｕｅ）は、通常、ＡＲ／ＭＲ／ＶＲアプリケーションを推進して開発努力の最前線にとどまるが、説得力のあるＡＲ／ＭＲ／ＶＲ体験を実現するために、音声も重要な役割を担っている。

ＡＲ／ＭＲ／ＶＲサウンドにおけるより重要な開発の１つは、「空間オーディオ」、または、リスナーが三次元（「３Ｄ」）空間内で音声を「ローカライズ（ｌｏｃａｌｉｚｅ）」できるような聴覚的手がかり（ａｕｒａｌｃｕｅ）を含むオーディオである。両耳間時間差および両耳間レベルさなどのオーディオキュー（ａｕｄｉｏｃｕｅ）は、ユーザが実際の３Ｄ環境にいることを示し、それにより、没入感の向上に大きく寄与している。ステレオおよびサラウンド音響は、モノラル音響の再生よりもよりリアルな視聴環境を提供するが、ステレオおよびサラウンド音響は、完全な没入型の体験を提供するという点で、依然として空間オーディオには及ばない。例えば、ステレオは、一次元（右から左）に限定され、サラウンド音響は、二次元（左、右、前、後）だけに限定される。一方、空間オーディオは、さらに、リスナーの下および上に音を配置することができる。空間オーディオは、没入感を完成させるためのメカニズムとして機能するだけでなく、物語性を向上させる。ＡＲ／ＭＲにおいて空間オーディオを実装しないと、例えば、ユーザは、インタラクティブな経験で次にどこを見るべきであるかを簡単に見失ってしまうことがある。

ＡＲ／ＭＲ／ＶＲアプリケーション用の３Ｄサウンドを作成する際の主な課題の１つは、ユーザの頭部位置の微妙な変化に応じて、オーディオレベルおよび方向を動的に調整することである。仮想世界のキャラクターが、ユーザの左からユーザに近づく場合、ユーザは、その音を左耳で最も大きく聞くはずである。ユーザが頭を動かして近づいてくるキャラクターを直接見ると、両耳で音が均等に聞こえるようになるはずである。このようなリアルなオーディオ体験をユーザに提供するために、従来のＶＲヘッドセット（ＯＣＵＬＵＳＲＩＦＴ、およびＨＴＣＶＩＶＥ）は、頭の動きを追跡し、頭部伝達関数（「ＨＲＴＦ」）を使用して音の配置を計算することのできるオーディオシステムを内蔵している。しかし、従来のＶＲヘッドセットは、通常ユーザの目を覆って周囲の物理環境を隠してしまうため、ＡＲ／ＭＲアプリケーションには適していないことがある

本開示のメディア再生システムは、ＡＲ／ＭＲアプリケーションにアウトラウド空間オーディオを提供することにより、上述した問題の少なくともいくつかに対処する。例えば、本開示の実施形態は、リスニング環境におけるユーザに対する第１および第２再生デバイスの第１および第２位置を受信するよう構成されたメディア再生システムを含む。メディア再生システムは、メディアコンテンツプロバイダに、第１および第２位置に対応する位置データを送信し、メディアコンテンツプロバイダから、仮想環境に関連する仮想メディアオーディオコンテンツを受信するよう構成されてもよい。例えば、仮想メディアオーディオコンテンツは、送信された位置情報に基づいて生成され、ユーザがリスニング環境内の仮想オブジェクトの位置を空間的に知覚できるよう構成された１つまたは複数のオーディオキューを含む、第１および第２オーディオ信号を含んでもよい。そして、メディア再生システムは、第２再生デバイスを介して第２オーディオ信号を再生するのと同期して、第１再生デバイスを介して第１オーディオ信号を再生するよう構成されてもよく、それにより、ユーザに、アウトラウド設定における没入型オーディオ体験を提供することができる。

ＡＲ／ＭＲアプリケーション用にアウトラウド設定で空間オーディオを提供することは、ヘッドセットを通して体験される空間オーディオに比べていくつかのＡＲ／ＭＲアプリケーション利点がある。アウトラウドリスニング体験は、例えば、複数人でリアルタイムに共有する（すなわち、「マルチプレーヤーモード」、「シェアリングＡＲ」、「ソーシャルＡＲ／ＭＲ」など）に対して、より社会貢献性の高い環境を実現することができる。さらに、アウトラウドリスニングにより、ユーザがヘッドセット（少なくともオーディオの目的で）を着用する必要性がなくなり、現実世界のリスニング条件をより厳密に模倣することができる。場合によっては、ヘッドセットの存在が、ユーザの仮想世界への「自然な」没入感を損なうことがあり、および／または、ユーザは、ゲームプレイ中にヘッドセットに邪魔されないことを好むことがある。さらに、本技術のメディア再生システムが空間オーディオをアウトラウドに提供するため、音は、ユーザ（または関連する制御デバイス）の初期位置から計算され、ユーザが動くたびに再計算する必要がない。そのため、アウトラウドオーディオは、計算負荷が小さくて済む。本明細書で議論するこれらの理由および他の理由により本技術のメディア再生システムは、ＡＲ／ＭＲユーザに改良されたよりリアルなシミュレーション体験を提供する。

本明細書に記載されるいくつかの例は、「ユーザ（ｕｓｅｒ）」、「リスナー（ｌｉｓｔｅｎｅｒ）」、および／または他のエンティティのような所定のアクターによって実行される機能を参照してもよいが、これは説明のためだけのものであることが理解されるべきである。特許請求の範囲は、特許請求の範囲自体の用語によって明示的に要求されない限り、そのような例示的なアクターによるアクションを要求するように解釈されるべきではない。

図において、同一の参照番号は、概ね類似する、および／または同一の要素を識別する。任意の特定の要素の説明を容易にするために、参照番号の最も重要な桁または複数の桁は、その要素が最初に紹介される図を参照する。例えば、要素１１０ａは、図１Ａを参照して最初に紹介され、説明される。図に示された詳細、寸法、角度、および他の特徴の多くは、単に開示された技術の特定の実施形態を例示しているにすぎない。したがって、他の実施形態は、本開示の精神または範囲から逸脱することなく、他の詳細、寸法、角度、および特徴を有することができる。さらに、当業者であれば、開示された様々な技術のさらなる実施形態が、以下に記載された詳細のいくつかによらずに実施可能であることを理解するであろう。

ＩＩ．好適な動作環境
図１Ａは、環境１０１（例えば、家屋）に配置されたメディア再生システム１００の部分断面図である。メディア再生システム１００は、１つまたは複数の再生デバイス１１０（再生デバイス１１０ａ－ｎとして個別に識別される）、１つまたは複数のネットワークマイクロフォンデバイス（「ＮＭＤ」）１２０（ＮＭＤ１２０ａ－ｃとして個別に識別される）、および１つまたは複数の制御デバイス１３０（制御デバイス１３０ａ、１３０ｂとして個別に識別される）を備える。

本明細書で使用されるように、「再生デバイス」という用語は、概して、メディア再生システムのデータを受信し、処理し、出力するように構成されたネットワークデバイスを指すことができる。例えば、再生デバイスは、オーディオコンテンツを受信し、処理するように構成されたネットワークデバイスであり得る。いくつかの実施形態では、再生デバイスは、１つまたは複数のアンプによって給電される１つまたは複数のトランスデューサまたはスピーカを含む。しかしながら、他の実施形態では、再生デバイスは、スピーカおよびアンプのいずれか一方（またはどちらでもない）を含む。例えば、再生デバイスは、対応するワイヤまたはケーブルを介して再生デバイスの外部にある１つまたは複数のスピーカを駆動するように構成された１つまたは複数のアンプを含むことができる。

さらに、本明細書で使用されるように、ＮＭＤ（すなわち、「ネットワークマイクロフォンデバイス」）という用語は、概して、オーディオ検出のために構成されたネットワークデバイスを指すことができる。いくつかの実施形態では、ＮＭＤは、主にオーディオ検出のために構成されたスタンドアロンデバイスである。他の実施形態では、ＮＭＤは再生デバイスに組み込まれている（またはその逆である）。いくつかの実施例では、ネットワークメディア再生システムの一部として構成される再生デバイスは、ＮＭＤの構成要素および機能を含んでもよい（すなわち、再生デバイスは「ＮＭＤを装備」である）。この点で、このような再生デバイスは、人が話す音、再生デバイス自体または近くにある別の再生デバイスから出力される音、または、他の周辺ノイズなど再生デバイスの環境に存在する音を検出するよう構成されたマイクロフォンを含んでもよく、および、ウェイクワード識別を容易にするために、検出された音をバッファリングする構成要素も含んでもよい。

「制御デバイス」という用語は、概して、ユーザのアクセス、制御および／またはメディア再生システム１００の構成を容易にするために関連する機能を実行するように構成されたネットワークデバイスを指すことができる。

再生デバイス１１０の各々は、１つまたは複数のメディアソース（例えば、１つまたは複数のリモートサーバ、１つまたは複数のローカルデバイス）からオーディオ信号またはデータを受信し、受信したオーディオ信号またはデータを音として再生するように構成されている。１つまたは複数のＮＭＤ１２０は、スポークンワードコマンド（ｓｐｏｋｅｎｗｏｒｄｃｏｍｍａｎｄ）を受信するように構成され、１つまたは複数の制御デバイス１３０は、ユーザ入力を受信するように構成されている。受信されたスポークンワードコマンドおよび／またはユーザ入力に応答して、メディア再生システム１００は、再生デバイス１１０の１つまたは複数を介してオーディオを再生することができる。特定の実施形態では、再生デバイス１１０は、トリガに応答してメディアコンテンツの再生を開始するように構成されている。例えば、再生デバイス１１０の１つまたは複数は、関連するトリガ条件（例えば、キッチン内のユーザの存在、コーヒーマシンの操作の検出）が検出されたときに、朝のプレイリストを再生するように構成され得る。いくつかの実施形態では、例えば、メディア再生システム１００は、第２再生デバイス（例えば、再生デバイス１００ｂ）と同期して、第１再生デバイス（例えば、再生デバイス１００ａ）からのオーディオを再生するように構成される。本開示の様々な実施形態に従って構成されるメディア再生システム１００の再生デバイス１１０、ＮＭＤ１２０、および／または制御デバイス１３０の間のインタラクションは、図１Ｂ～図６に関して以下でより詳細に説明される。

図１Ａの例示された実施形態では、環境１０１は、（左上から時計回りに）マスターバスルーム１０１ａ、マスターベッドルーム１０１ｂ、セカンドベッドルーム１０１ｃ、ファミリールームまたはデン１０１ｄ、オフィス１０１ｅ、リビングルーム１０１ｆ、ダイニングルーム１０１ｇ、キッチン１０１ｈ、および屋外パティオ１０１ｉを含む、複数の部屋、空間、および／または再生ゾーンを有する家庭で構成されている。特定の実施形態および例は、家庭環境の文脈で以下に記載されているが、本明細書に記載された技術は、他のタイプの環境で実施されてもよい。いくつかの実施形態では、例えば、メディア再生システム１００は、１つまたは複数の商業的な設備（例えば、レストラン、モール、空港、ホテル、小売店または他の店舗）、１つまたは複数の車両（例えば、スポーツユーティリティ車両、バス、自動車、船、ボート、飛行機）、複数の環境（例えば、家庭環境と車両環境の組み合わせ）、および／またはマルチゾーンオーディオが望ましいかもしれない別の適切な環境で実施することができる。

メディア再生システム１００は、１つまたは複数の再生ゾーンを構成することができ、そのうちのいくつかは、環境１０１内の部屋に対応していてもよい。メディア再生システム１００は、１つまたは複数の再生ゾーンで確立されていてもよく、その後、追加のゾーンが追加されてもよく、または削除されて、例えば図１Ａに示す構成を確立してもよい。各ゾーンは、オフィス１０１ｅ、マスターバスルーム１０１ａ、マスターベッドルーム１０１ｂ、セカンドベッドルーム１０１ｃ、キッチン１０１ｈ、ダイニングルーム１０１ｇ、リビングルーム１０１ｆ、および／またはバルコニー１０１ｉのような、異なる部屋または空間に応じた名前を与えられてもよい。いくつかの態様では、単一の再生ゾーンは、複数の部屋またはスペースを含んでいてもよい。特定の態様において、単一の部屋または空間は、複数の再生ゾーンを含んでいてもよい。

図１Ａの例示された実施形態では、マスターバスルーム１０１ａ、セカンドベッドルーム１０１ｃ、オフィス１０１ｅ、リビングルーム１０１ｆ、ダイニングルーム１０１ｇ、キッチン１０１ｈ、および屋外パティオ１０１ｉは、それぞれ１つの再生デバイス１１０を含み、マスターベッドルーム１０１ｂおよびデン１０１ｄは、複数の再生デバイス１１０を含む。マスターベッドルーム１０１ｂにおいて、再生デバイス１１０ｌおよび１１０ｍは、例えば、複数の再生デバイス１１０の個々のものとして、結合された再生ゾーンとして、統合再生デバイスとして、および／またはそれらの任意の組み合わせとして、オーディオコンテンツを同期して再生するように構成されていてもよい。同様に、デン１０１ｄにおいて、再生デバイス１１０ｈ－ｊは、例えば、複数の再生デバイス１１０の個々のものとして、１つまたは複数の結合再生デバイスとして、および／または１つまたは複数の統合再生デバイスとして、オーディオコンテンツを同期して再生するように構成されてもよい。結合再生デバイスおよび統合再生デバイスに関する追加の詳細は、図１Ｂおよび１Ｅ、ならびに図１Ｉ～図１Ｍに関して以下に記載される。

いくつかの態様において、環境１０１内の１つまたは複数の再生ゾーンは、それぞれ異なるオーディオコンテンツを再生してもよい。例えば、あるユーザがパティオ１０１ｉでグリルをしながら、再生デバイス１１０ｃによって再生されているヒップホップ音楽を聴いている間に、別のユーザがキッチン１０１ｈで料理の準備をしながら、再生デバイス１１０ｂによって再生されているクラシック音楽を聴いていてもよい。別の例では、再生ゾーンは、別の再生ゾーンと同期して同じオーディオコンテンツを再生してもよい。例えば、ユーザはオフィス１０１ｅにいて、パティオ１０１ｉで再生デバイス１１０ｃによって再生されている同じヒップホップ音楽が再生デバイス１１０ｆによって再生されているのを聴いてもよい。いくつかの態様において、再生デバイス１１０ｃおよび１１０ｆは、異なる再生ゾーン間を移動しながら、オーディオコンテンツがシームレスに（または少なくとも実質的にシームレスに）再生されていることをユーザが知覚するように、ヒップホップ音楽を同期して再生する。再生デバイスおよび／または再生ゾーン間のオーディオ再生に関する追加の詳細は、例えば、「複数の独立してクロックされるデジタルデータ処理デバイス間で動作を同期するためのシステムおよび方法（Ｓｙｓｔｅｍａｎｄｍｅｔｈｏｄｆｏｒｓｙｎｃｈｒｏｎｉｚｉｎｇｏｐｅｒａｔｉｏｎｓａｍｏｎｇａｐｌｕｒａｌｉｔｙｏｆｉｎｄｅｐｅｎｄｅｎｔｌｙｃｌｏｃｋｅｄｄｉｇｉｔａｌｄａｔａｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ）」と題する米国特許第８，２３４，３９５号明細書に見出すことができ、その全体が参照により本明細書に組み込まれている。

ａ．好適なメディア再生システム
図１Ｂは、メディア再生システム１００およびクラウドネットワーク１０２の概略図である。図示を容易にするために、図１Ｂでは、メディア再生システム１００およびクラウドネットワーク１０２の特定のデバイスは省略されている。メディア再生システム１００とクラウドネットワーク１０２とを通信接続する１つまたは複数の通信リンク１０３（以下、「リンク１０３」という）が設けられている。

リンク１０３は、例えば、１つまたは複数の有線ネットワーク、１つまたは複数の無線ネットワーク、１つまたは複数の広域ネットワーク（ＷＡＮ）、１つまたは複数のローカルエリアネットワーク（ＬＡＮ）、１つまたは複数のパーソナルエリアネットワーク（ＰＡＮ）、１つまたは複数の通信ネットワーク（例えば、１つまたは複数のモバイル向けグローバルシステム（ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍＦｏｒＭｏｂｉｌｅｓ）ネットワーク、符号分割多重アクセス（ＣＤＭＡ：ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）ネットワーク、長期的進化（ＬＴＥ：Ｌｏｎｇ－ＴｅｒｍＥｖｏｌｕｔｉｏｎ）ネットワーク、５Ｇ通信ネットワーク、および／または他の適切なデータ伝送プロトコルネットワーク）などを備えてもよい。クラウドネットワーク１０２は、リンク１０３を介してメディア再生システム１００から送信された要求に応答して、メディアコンテンツ（例えば、オーディオコンテンツ、ビデオコンテンツ、写真、ソーシャルメディアコンテンツ）をメディア再生システム１００に配信するように構成されている。いくつかの実施形態では、クラウドネットワーク１０２は、メディア再生システム１００からデータ（例えば、音声入力データ）を受信し、対応して、コマンドおよび／またはメディアコンテンツをメディア再生システム１００に送信するようにさらに構成されている。

クラウドネットワーク１０２は、コンピューティングデバイス１０６（第１コンピューティングデバイス１０６ａ、第２コンピューティングデバイス１０６ｂ、および第３コンピューティングデバイス１０６ｃとして個別に識別される）を備える。コンピューティングデバイス１０６は、個々のコンピュータまたはサーバ、例えば、オーディオおよび／または他のメディアコンテンツを格納するメディアストリーミングサービスサーバ、音声サービスサーバ、ソーシャルメディアサーバ、メディア再生システム制御サーバなどを備えてもよい。いくつかの実施形態では、コンピューティングデバイス１０６の１つまたは複数は、単一のコンピュータまたはサーバのモジュールを備える。特定の実施形態では、コンピューティングデバイス１０６の１つまたは複数は、１つまたは複数のモジュール、コンピュータ、および／またはサーバを備える。さらに、クラウドネットワーク１０２は、単一のクラウドネットワークの文脈で上述したが、いくつかの実施形態では、クラウドネットワーク１０２は、通信接続されたコンピューティングデバイスを備える複数のクラウドネットワークを備える。さらに、図１Ｂでは、クラウドネットワーク１０２は、３つのコンピューティングデバイス１０６を有するように示されているが、いくつかの実施形態では、クラウドネットワーク１０２は、３つより少ない（またはより多い）コンピューティングデバイス１０６を備えている。

メディア再生システム１００は、リンク１０３を介してネットワーク１０２からメディアコンテンツを受信するように構成されている。受信されたメディアコンテンツは、例えば、ユニフォームリソース識別子（ＵＲＩ）および／またはユニフォームリソースロケータ（ＵＲＬ）を含んでもよい。例えば、いくつかの例では、メディア再生システム１００は、受信したメディアコンテンツに対応するＵＲＩまたはＵＲＬからデータをストリーミング、ダウンロード、またはその他の方法で取得することができる。ネットワーク１０４は、リンク１０３と、メディア再生システム１００のデバイス（例えば、再生デバイス１１０、ＮＭＤ１２０、および／または制御デバイス１３０のうちの１つまたは複数）の少なくとも一部と、を通信接続する。ネットワーク１０４は、例えば、無線ネットワーク（例えば、ＷｉＦｉ（登録商標）ネットワーク、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｚ－Ｗａｖｅネットワーク、ＺｉｇＢｅｅ（登録商標）、および／または他の適切な無線通信プロトコルネットワーク）および／または有線ネットワーク（例えば、イーサネット（登録商標）、ユニバーサルシリアルバス（ＵＳＢ（登録商標））、および／または他の適切な有線通信を含むネットワーク）を含むことができる。本明細書で使用されるように、当技術分野の通常の当業者であれば理解するであろうが、「ＷｉＦｉ（登録商標）」は、例えば、ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ（ＩＥＥＥ）８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１１ａｃ、８０２．１１ａｄ、８０２．１１ａｆ、８０２．１１ａｈ、８０２．１１ａｉ、８０２．１１ａｊ、８０２．１１ａｑ、８０２．１１ａｘ、８０２．１１ａｙ、８０２．１５など、２．４ギガヘルツ（ＧＨｚ）、５ＧＨｚ、および／または別の適切な周波数で送信される通信プロトコルを含む、いくつかの異なる通信プロトコルを指すことができる。

いくつかの実施形態では、ネットワーク１０４は、メディア再生システム１００が個々のデバイス間でメッセージを送信するため、および／またはメディアコンテンツソース（例えば、コンピューティングデバイス１０６の１つまたは複数）との間でメディアコンテンツを送信するために使用する専用の通信ネットワークを備える。特定の実施形態では、ネットワーク１０４は、メディア再生システム１００内のデバイスのみにアクセス可能に構成され、それにより、他の家庭用デバイスとの干渉および競合を低減する。しかし、他の実施形態では、ネットワーク１０４は、既存の家庭用通信ネットワーク（例えば、家庭用ＷｉＦｉ（登録商標）ネットワーク）を備える。いくつかの実施形態では、リンク１０３およびネットワーク１０４は、１つまたは複数の同じネットワークを備える。いくつかの態様では、例えば、リンク１０３およびネットワーク１０４は、通信ネットワーク（例えば、ＬＴＥネットワーク、５Ｇネットワーク）を備える。さらに、いくつかの実施形態では、メディア再生システム１００は、ネットワーク１０４を介さずに実施され、メディア再生システム１００を構成するデバイスは、例えば、１つまたは複数の直接接続、ＰＡＮ、通信ネットワーク、および／または他の適切な通信リンクを介して、互いに通信することができる。

いくつかの実施形態では、オーディオコンテンツソースは、メディア再生システム１００から定期的に追加または削除されてもよい。いくつかの実施形態では、例えば、メディア再生システム１００は、１つまたは複数のメディアコンテンツソースがメディア再生システム１００から更新され、追加され、および／または削除されたときに、メディアアイテムの索引付けを実行する。メディア再生システム１００は、再生デバイス１１０にアクセス可能な一部またはすべてのフォルダおよび／またはディレクトリ内の識別可能なメディアアイテムをスキャンし、見つかった識別可能な各メディアアイテムについてメタデータ（例えば、タイトル、アーティスト、アルバム、トラックの長さ）および他の関連情報（例えば、ＵＲＩ、ＵＲＬ）を含むメディアコンテンツデータベースを生成または更新することができる。いくつかの実施形態では、例えば、メディアコンテンツデータベースは、再生デバイス１１０、ネットワークマイクロフォンデバイス１２０、および／または制御デバイス１３０のうちの１つまたは複数に格納される。

図１Ｂの例示された実施形態では、再生デバイス１１０ｌおよび１１０ｍは、グループ１０７ａを構成する。再生デバイス１１０ｌおよび１１０ｍは、家庭内の異なる部屋に配置することができ、メディア再生システム１００の制御デバイス１３０ａおよび／または別の制御デバイス１３０で受信したユーザ入力に基づいて、一時的または恒久的にグループ１０７ａにグループ化することができる。グループ１０７ａ内に配置されると、再生デバイス１１０ｌおよび１１０ｍは、１つまたは複数のオーディオコンテンツソースから、同じまたは類似のオーディオコンテンツを同期して再生するように構成され得る。特定の実施形態では、例えば、グループ１０７ａは、再生デバイス１１０ｌおよび１１０ｍが、マルチチャネルのオーディオコンテンツの左オーディオチャネルおよび右オーディオチャネルをそれぞれ構成し、それによってオーディオコンテンツのステレオ効果を生成または増強するような結合ゾーンを含む。いくつかの実施形態では、グループ１０７ａは、再生デバイス１１０をさらに含む。しかし、他の実施形態では、メディア再生システム１００は、グループ１０７ａおよび／または再生デバイス１１０の他のグループ化された配置を省略する。再生デバイスのグループおよびその他の配置に関する詳細は、図１Ｉ～１Ｍを参照して以下で説明する。

メディア再生システム１００は、ユーザからの音声発話を受信するように構成された１つまたは複数のマイクロフォンを有するＮＭＤ１２０ａおよび１２０ｄを含む。図１Ｂの例示された実施形態では、ＮＭＤ１２０ａはスタンドアロンデバイスであり、ＮＭＤ１２０ｄは再生デバイス１１０ｎに統合されている。ＮＭＤ１２０ａは、例えば、ユーザ１２３からの音声入力１２１を受信するように構成されている。いくつかの実施形態では、ＮＭＤ１２０ａは、（ｉ）受信した音声入力データを処理し、（ｉｉ）対応するコマンドをメディア再生システム１００に送信するように構成された音声アシスタントサービス（ＶＡＳ）に、受信した音声入力１２１に関連付けられたデータを送信する。いくつかの態様において、例えば、コンピューティングデバイス１０６ｃは、ＶＡＳ（例えば、ＳＯＮＯＳ（登録商標）、ＡＭＡＺＯＮ（登録商標）、ＧＯＯＧＬＥ（登録商標）、ＡＰＰＬＥ（登録商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）のうちの１つまたは複数によって運営されるＶＡＳ）の１つまたは複数のモジュールおよび／またはサーバを備える。コンピューティングデバイス１０６ｃは、ネットワーク１０４およびリンク１０３を介して、ＮＭＤ１２０ａから音声入力データを受信することができる。音声入力データを受信することに応答して、コンピューティングデバイス１０６ｃは、音声入力データ（例えば、「ビートルズのＨｅｙＪｕｄｅを再生して（ＰｌａｙＨｅｙＪｕｄｅｂｙＴｈｅＢｅａｔｌｅｓ）」）を処理し、処理された音声入力が、曲を再生するためのコマンド（例えば、「ＨｅｙＪｕｄｅ」）を含むことを決定する。コンピューティングデバイス１０６ｃは、それに応じて、適切なメディアサービスから（例えば、コンピューティングデバイス１０６の１つまたは複数を介して）ビートルズ（ＴｈｅＢｅａｔｌｅｓ）の「ＨｅｙＪｕｄｅ」を再生デバイス１１０の１つまたは複数で再生するためのコマンドをメディア再生システム１００に送信する。

ｂ．好適な再生デバイス
図１Ｃは、入力／出力１１１を備える再生デバイス１１０ａのブロック図である。入力／出力１１１は、アナログＩ／Ｏ１１１ａ（例えば、アナログ信号を伝送するように構成された１つまたは複数のワイヤ、ケーブル、および／または他の適切な通信リンク）および／またはデジタルＩ／Ｏ１１１ｂ（例えば、デジタル信号を伝送するように構成された１つまたは複数のワイヤ、ケーブル、または他の適切な通信リンク）を含むことができる。いくつかの実施形態では、アナログＩ／Ｏ１１１ａは、例えば、自動検出３．５ｍｍオーディオラインイン接続を構成するオーディオラインイン入力接続である。いくつかの実施形態では、デジタルＩ／Ｏ１１１ｂは、Ｓｏｎｙ／ＰｈｉｌｉｐｓＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅＦｏｒｍａｔ（Ｓ／ＰＤＩＦ）通信インタフェース、および／またはケーブル、および／または東芝リンク（ＴＯＳＬＩＮＫ）ケーブルを備える。いくつかの実施形態では、デジタルＩ／Ｏ１１１ｂは、Ｈｉｇｈ－ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ（ＨＤＭＩ（登録商標））インタフェースおよび／またはケーブルを備える。いくつかの実施形態では、デジタルＩ／Ｏ１１１ｂは、例えば、無線周波数（ＲＦ）、赤外線、ＷｉＦｉ（登録商標）、Ｂｌｕｅｔｏｏｏｔｈ（登録商標）、または他の適切な通信プロトコルを備える１つまたは複数の無線通信リンクを含む。特定の実施形態では、アナログＩ／Ｏ１１１ａおよびデジタル１１１ｂは、必ずしもケーブルを含まなくてもよく、アナログ信号およびデジタル信号を伝送するケーブルのコネクタのそれぞれを受け入れるように構成されたインタフェース（例えば、ポート、プラグ、ジャック）を含む。

再生デバイス１１０ａは、例えば、入力／出力１１１（例えば、ケーブル、ワイヤ、ＰＡＮ、Ｂｌｕｅｔｏｏｏｔｈ（登録商標）接続、アドホック有線または無線通信ネットワーク、および／または別の適切な通信リンク）を介して、ローカルオーディオソース１０５からメディアコンテンツ（例えば、音楽および／または他の音からなるオーディオコンテンツ）を受信することができる。ローカルオーディオソース１０５は、例えば、モバイルデバイス（例えば、スマートフォン、タブレット、ラップトップコンピュータ）または別の適切なオーディオコンポーネント（例えば、テレビ、デスクトップコンピュータ、アンプ、蓄音機、ブルーレイプレーヤー、デジタルメディアファイルを格納するメモリ）を備えることができる。いくつかの態様において、ローカルオーディオソース１０５は、スマートフォン、コンピュータ、ネットワーク接続ストレージ（ＮＡＳ）、および／またはメディアファイルを格納するように構成された別の適切なデバイス上のローカルミュージックライブラリを含む。特定の実施形態では、再生デバイス１１０、ＮＭＤ１２０、および／または制御デバイス１３０のうちの１つまたは複数が、ローカルオーディオソース１０５を備える。しかし、他の実施形態では、メディア再生システムは、ローカルオーディオソース１０５を完全に省略する。いくつかの実施形態では、再生デバイス１１０ａは、入力／出力１１１を含まず、ネットワーク１０４を介してすべてのオーディオコンテンツを受信する。

再生デバイス１１０ａは、電子機器１１２と、ユーザインタフェース１１３（例えば、１つまたは複数のボタン、ノブ、ダイヤル、タッチセンシティブ面、ディスプレイ、タッチスクリーン）と、１つまたは複数のトランスデューサ１１４（以下、「トランスデューサ１１４」と称する）と、をさらに備える。電子機器１１２は、入力／出力１１１、ネットワーク１０４を介した１つまたは複数のコンピューティングデバイス１０６ａ～１０６ｃ（図１Ｂ）を介して、オーディオソース（例えば、ローカルオーディオソース１０５）からオーディオを受信し、受信したオーディオを増幅し、増幅されたオーディオを１つまたは複数のトランスデューサ１１４を介して再生のために出力するように構成されている。いくつかの実施形態では、再生デバイス１１０ａは、オプションとして、１つまたは複数のマイクロフォン１１５（例えば、単一のマイクロフォン、複数のマイクロフォン、マイクロフォンアレイ）（以下、「マイクロフォン１１５」と称する）を含む。特定の実施形態では、例えば、オプションの１つまたは複数のマイクロフォン１１５を有する再生デバイス１１０ａは、ユーザからの音声入力を受信し、受信した音声入力に基づいて対応する１つまたは複数の操作を実行するように構成されたＮＭＤとして動作することができる。

図１Ｃの例示された実施形態では、電子機器１１２は、１つまたは複数のプロセッサ１１２ａ（以下、「プロセッサ１１２ａ」と称する）、メモリ１１２ｂ、ソフトウェアコンポーネント１１２ｃ、ネットワークインタフェース１１２ｄ、１つまたは複数のオーディオ処理コンポーネント１１２ｇ（以下、「オーディオ処理コンポーネント１１２ｇ」と称する）、１つまたは複数のオーディオアンプ１１２ｈ（以下、「アンプ１１２ｈ」と称する）、および電源１１２ｉ（例えば、１つまたは複数の電源、電源ケーブル、電源コンセント、バッテリ、誘導コイル、Ｐｏｗｅｒ－ｏｖｅｒＥｔｈｅｒｎｅｔ（ＰＯＥ）インタフェース、および／または他の適切な電力源）を備える。いくつかの実施形態では、電子機器１１２は、任意に、１つまたは複数の他のコンポーネント１１２ｊ（例えば、１つまたは複数のセンサ、ビデオディスプレイ、タッチスクリーン、バッテリ充電ベース）を含む。

プロセッサ１１２ａは、データを処理するように構成されたクロック駆動型コンピューティングコンポーネントを備えることができ、メモリ１１２ｂは、様々な動作および／または機能を実行するための命令を記憶するように構成されたコンピュータ可読媒体（例えば、有形の、非一時的なコンピュータ可読媒体、ソフトウェアコンポーネント１１２ｃの１つまたは複数がロードされたデータストレージ）を含むことができる。プロセッサ１１２ａは、１つまたは複数の動作を実行するために、メモリ１１２ｂに格納された命令を実行するように構成されている。動作は、例えば、再生デバイス１１０ａに、オーディオソース（例えば、コンピューティングデバイス１０６ａ～１０６ｃ（図１Ｂ）の１つまたは複数）、および／または再生デバイス１１０別の１つからオーディオデータを取得させること、および／または再生デバイス１１０の別の１つのオーディオデータを取得させることを含むことができる。いくつかの実施形態では、動作は、再生デバイス１１０ａを、再生デバイス１１０ａの別の１つ、および／または別のデバイス（例えば、ＮＭＤ１２０の１つ）にオーディオデータを送信させることをさらに含む。特定の実施形態では、再生デバイス１１０ａが、マルチチャンネルオーディオ環境（例えば、ステレオペア、結合ゾーン）を可能にするために、再生デバイス１１０ａに１つまたは複数の再生デバイス１１０の別のデバイスとペアリングさせる動作をさらに含む。

プロセッサ１１２ａは、再生デバイス１１０ａがオーディオコンテンツの再生を１つまたは複数の再生デバイス１１０の別のものと同期させる動作を実行するようにさらに構成することができる。当業者であれば理解するであろうが、複数の再生デバイスにおけるオーディオコンテンツの同期再生中、リスナーは、好ましくは、再生デバイス１１０ａによるオーディオコンテンツの再生と、１つまたは複数の他の再生デバイス１１０によるオーディオコンテンツの再生との間の時間遅延差を知覚することができないであろう。再生デバイス間のオーディオ再生同期に関する追加の詳細は、例えば、上記参照により組み込まれた米国特許第８，２３４，３９５号明細書に記載されている。

いくつかの実施形態では、メモリ１１２ｂは、再生デバイス１１０ａがメンバーである１つまたは複数のゾーンおよび／またはゾーングループ、再生デバイス１１０ａにアクセス可能なオーディオソース、および／または再生デバイス１１０ａ（および／または１つ複数の再生デバイスの別のもの）が関連付けられる再生キューなど、再生デバイス１１０ａに関連付けられたデータを格納するようにさらに構成される。格納されたデータは、定期的に更新され、再生デバイス１１０ａの状態を記述するために使用される１つまたは複数の状態変数を含むことができる。メモリ１１２ｂはまた、メディア再生システム１００の１つまたは複数の他のデバイス（例えば、再生デバイス１１０、ＮＭＤ１２０、制御デバイス１３０）の状態に関連付けられたデータを含むことができる。いくつかの態様では、例えば、状態データは、メディア再生システム１００のデバイスの少なくとも一部の間で所定の時間間隔（例えば、５秒ごと、１０秒ごと、６０秒ごと）で共有され、１つまたは複数のデバイスがメディア再生システム１００に関連付けられた最新のデータを有するようになっている。

ネットワークインタフェース１１２ｄは、再生デバイス１１０ａと、例えばリンク１０３および／またはネットワーク１０４（図１Ｂ）のようなデータネットワーク上の１つまたは複数の他のデバイスとの間のデータ伝送を容易にするように構成されている。ネットワークインタフェース１１２ｄは、メディアコンテンツ（例えば、オーディオコンテンツ、ビデオコンテンツ、テキスト、写真）およびインターネットプロトコル（ＩＰ）ベースのソースアドレスおよび／またはＩＰベースのデスティネーションアドレス有するデジタルパケットデータを含む他の信号（例えば、非一時的な信号）に対応するデータを送受信するように構成されている。ネットワークインタフェース１１２ｄは、電子機器１１２が再生デバイス１１０ａに向けられたデータを適切に受信して処理するように、デジタルパケットデータを解析することができる。

図１Ｃの例示された実施形態では、ネットワークインタフェース１１２ｄは、１つまたは複数の無線インタフェース１１２ｅ（以下、「無線インタフェース１１２ｅ」と称する）を備える。無線インタフェース１１２ｅ（例えば、１つまたは複数のアンテナを備える適当なインタフェース）は、適切な無線通信プロトコル（例えば、ＷｉＦｉ（登録商標）、Ｂｌｕｅｔｏｏｏｔｈ（登録商標）、ＬＴＥ）に従って、ネットワーク１０４（図１Ｂ）に通信接続されている１つまたは複数の他のデバイス（例えば、他の再生デバイス１１０、ＮＭＤ１２０、および／または制御デバイス１３０のうちの１つまたは複数）と無線通信するように構成され得る。いくつかの実施形態では、ネットワークインタフェース１１２ｄは、任意に、適切な有線通信プロトコルに従って他のデバイスと有線接続で通信するように構成された有線インタフェース１１２ｆ（例えば、イーサネット（登録商標）、ＵＳＢ－Ａ、ＵＳＢ－Ｃ、および／またはサンダーボルトケーブルなどのネットワークケーブルを受信するように構成されたインタフェースまたはレセプタクル）を含む。特定の実施形態では、ネットワークインタフェース１１２ｄは、有線インタフェース１１２ｆを含み、無線インタフェース１１２ｅを除く。いくつかの実施形態では、電子機器１１２は、ネットワークインタフェース１１２ｄを完全に除外し、別の通信経路（例えば、入力／出力１１１）を介して、メディアコンテンツおよび／または他のデータを送受信する。

オーディオ処理コンポーネント１１２ｇは、電子機器１１２によって受信されたメディアコンテンツを含むデータを処理および／またはフィルタリングして（例えば、入力／出力１１１および／またはネットワークインタフェース１１２ｄを介して）、出力オーディオ信号を生成するように構成されている。いくつかの実施形態では、オーディオ処理コンポーネント１１２ｇは、例えば、１つまたは複数のデジタル／アナログ変換器（ＤＡＣ）、オーディオ前処理コンポーネント、オーディオエンハンスメントコンポーネント、デジタル信号プロセッサ（ＤＳＰ）、および／または他の適切なオーディオ処理コンポーネント、モジュール、回路などを含む。特定の実施形態では、オーディオ処理コンポーネント１１２ｇの１つまたは複数は、プロセッサ１１２ａの１つまたは複数のサブコンポーネントを含むことができる。いくつかの実施形態では、電子機器１１２は、オーディオ処理コンポーネント１１２ｇを省略する。いくつかの態様では、例えば、プロセッサ１１２ａは、出力オーディオ信号を生成するためのオーディオ処理動作を実行するために、メモリ１１２ｂに格納された命令を実行する。

アンプ１１２ｈは、オーディオ処理コンポーネント１１２ｇおよび／またはプロセッサ１１２ａによって生成されたオーディオ出力信号を受信して増幅するように構成されている。アンプ１１２ｈは、１つまたは複数のトランスデューサ１１４を駆動するのに十分なレベルまでオーディオ信号を増幅するように構成された電子デバイスおよび／またはコンポーネントを含むことができる。いくつかの実施形態では、例えば、アンプ１１２ｈは、１つまたは複数のスイッチングまたはＤ級パワーアンプを含む。しかしながら、他の実施形態では、アンプは、１つまたは複数の他のタイプのパワーアンプ（例えば、リニアゲインパワーアンプ、Ａ級アンプ、Ｂ級アンプ、ＡＢ級アンプ、Ｃ級アンプ、Ｄ級アンプ、Ｅ級アンプ、Ｆ級アンプ、Ｇ級アンプおよび／またはＨ級アンプ、および／または別の適切なタイプのパワーアンプ）を含む。特定の実施形態では、アンプ１１２ｈは、前述のタイプのパワーアンプのうちの２つ以上の適切な組み合わせを含む。さらに、いくつかの実施形態では、個々のアンプ１１２ｈは、個々のトランスデューサ１１４に対応する。しかしながら、他の実施形態では、電子機器１１２は、増幅されたオーディオ信号を複数のトランスデューサ１１４に出力するように構成された単一のアンプ１１２ｈを含む。いくつかの他の実施形態では、電子機器１１２は、アンプ１１２ｈを省略する。

トランスデューサ１１４（例えば、１つまたは複数のスピーカおよび／またはスピーカドライバ）は、アンプ１１２ｈから増幅されたオーディオ信号を受信し、増幅されたオーディオ信号をサウンド（例えば、約２０ヘルツ（Ｈｚ）と約２０キロヘルツ（ｋＨｚ）の間の周波数を有する可聴音波）としてレンダリングまたは出力する。いくつかの実施形態では、トランスデューサ１１４は、単一のトランスデューサを備えることができる。しかしながら、他の実施形態では、トランスデューサ１１４は、複数のオーディオトランスデューサを備える。いくつかの実施形態では、トランスデューサ１１４は、２つ以上のタイプのトランスデューサを備える。例えば、トランスデューサ１１４は、１つまたは複数の低周波トランスデューサ（例えば、サブウーファ、ウーファ）、中周波トランスデューサ（例えば、ミッドレンジトランスデューサ、ミッドウーファ）、および１つまたは複数の高周波トランスデューサ（例えば、１つまたは複数のツイータ）を含むことができる。本明細書で使用されるように、「低周波」は、概して約５００Ｈｚ未満の可聴周波数を指すことができ、「中周波」は、概して約５００Ｈｚと約２ｋＨｚとの間の可聴周波数を指すことができ、「高周波」は、概して約２ｋＨｚを超える可聴周波数を指すことができる。しかしながら、特定の実施形態では、トランスデューサ１１４の１つまたは複数は、前述の周波数範囲に準拠しないトランスデューサを備える。例えば、トランスデューサ１１４の１つは、約２００Ｈｚから約５ｋＨｚの間の周波数でサウンドを出力するように構成されたミッドウーファトランスデューサを備えていてもよい。

例示のために、ソノス・インコーポレイテッドは、現在、例えば、「ＳＯＮＯＳＯＮＥ」、「ＰＬＡＹ：１」、「ＰＬＡＹ：３」、「ＰＬＡＹ：５」、「ＰＬＡＹＢＡＲ」、「ＰＬＡＹＢＡＳＥ」、「ＣＯＮＮＥＣＴ：ＡＭＰ」、「ＣＯＮＮＥＣＴ」、および「ＳＵＢ」を含む特定の再生デバイスを販売のために提供している（または提供してきた）。他の好適な再生デバイスは、本明細書に開示された例示的な実施形態の再生デバイスを実施するために、追加的にまたは代替的に使用され得る。さらに、当業者であれば、再生デバイスは、本明細書に記載された例示的な実施形態に限定されないこと、またはソノス製品の提供物に限定されないことを理解するであろう。いくつかの実施形態では、例えば、１つまたは複数の再生デバイス１１０は、有線または無線のヘッドフォン（例えば、オーバーイヤーヘッドフォン、オンイヤーヘッドフォン、インイヤーイヤフォン）を備える。他の実施形態では、１つまたは複数の再生デバイス１１０は、個人用モバイルメディア再生デバイスのためのドッキングステーションおよび／またはドッキングステーションと相互作用するように構成されたインタフェースを備える。特定の実施形態では、再生デバイスは、テレビ、照明器具、または屋内または屋外で使用するためのいくつかの他のデバイスのような別のデバイスまたはコンポーネントと一体であってもよい。いくつかの実施形態では、再生デバイスは、ユーザインタフェースおよび／または１つまたは複数のトランスデューサを省略している。例えば、図１Ｄは、ユーザインタフェース１１３またはトランスデューサ１１４を備えず、入力／出力１１１および電子機器１１２を備える再生デバイス１１０ｐのブロック図である。

図１Ｅは、再生デバイス１１０ｉ（例えば、サブウーファ）（図１Ａ）と音響的に結合した再生デバイス１１０ａ（図１Ｃ）を含む再生デバイス１１０ｑ（図１Ｃ）を備える結合再生デバイス１１０ｑのブロック図である。図示された実施形態では、再生デバイス１１０ａおよび１１０ｉは、別個のエンクロージャに収容された再生デバイス１１０の別個のものである。しかし、いくつかの実施形態では、結合再生デバイス１１０ｑは、再生デバイス１１０ａおよび１１０ｉの両方を収容する単一のエンクロージャを備える。結合再生デバイス１１０ｑは、結合されていない再生デバイス（例えば、図１Ｃの再生デバイス１１０ａ）および／またはペアリングされたまたは結合された再生デバイス（例えば、図１Ｂの再生デバイス１１０ｌおよび１１０ｍ）とは異なる音を処理し、再生するように構成することができる。いくつかの実施形態では、例えば、再生デバイス１１０ａは、低周波、中周波、および高周波のオーディオコンテンツをレンダリングするように構成されたフルレンジ再生デバイスであり、再生デバイス１１０ｉは、低周波のオーディオコンテンツをレンダリングするように構成されたサブウーファである。いくつかの態様では、再生デバイス１１０ａは、第１再生デバイスと結合したときに、特定のオーディオコンテンツの中周波成分および高周波数成分のみをレンダリングするように構成され、再生デバイス１１０ｉは、特定のオーディオコンテンツの低周波成分をレンダリングするように構成されている。いくつかの実施形態では、結合再生デバイス１１０ｑは、追加の再生デバイスおよび／または別の結合再生デバイスを含む。追加の再生デバイスの実施形態は、図２Ａ～図３Ｄに関して以下でさらに詳細に説明する。

ｃ．好適なネットワークマイクロフォンデバイス（ＮＭＤ）
図１Ｆは、ＮＭＤ１２０ａ（図１Ａおよび図１Ｂ）のブロック図である。ＮＭＤ１２０ａは、１つまたは複数の音声処理コンポーネント１２４（以下、「音声コンポーネント１２４」という）と、プロセッサ１１２ａ、メモリ１１２ｂ、およびマイク１１５を含む再生デバイス１１０ａ（図１Ｃ）に関して説明した複数のコンポーネントと、を含む。ＮＭＤ１２０ａは、任意に、ユーザインタフェース１１３および／またはトランスデューサ１１４などの再生デバイス１１０ａ（図１Ｃ）にも含まれる他の構成要素を含む。いくつかの実施形態では、ＮＭＤ１２０ａは、メディア再生デバイス（例えば、再生デバイス１１０の１つまたは複数）として構成され、例えば、オーディオコンポーネント１１２ｇ（図１Ｃ）、アンプ１１４、および／または他の再生デバイスコンポーネントの１つまたは複数をさらに含む。特定の実施形態では、ＮＭＤ１２０ａは、例えば、サーモスタット、アラームパネル、火災検知器および／または煙検知器などのモノのインターネット（ＩｏＴ）デバイスを備える。いくつかの実施形態では、ＮＭＤ１２０ａは、マイクロフォン１１５、音声処理１２４、および図１Ｂに関して上述した電子機器１１２の構成要素の一部のみを含む。いくつかの態様では、例えば、ＮＭＤ１２０ａは、電子機器１１２の１つまたは複数の他の構成要素を省略しながら、プロセッサ１１２ａおよびメモリ１１２ｂ（図１Ｂ）を含む。いくつかの実施形態では、ＮＭＤ１２０ａは、追加の構成要素（例えば、１つまたは複数のセンサ、カメラ、温度計、気圧計、湿度計）を含む。

いくつかの実施形態では、ＮＭＤを再生デバイスに組み込むことができる。図１Ｇは、ＮＭＤ１２０ｄを備える再生デバイス１１０ｒのブロック図である。再生デバイス１１０ｒは、再生デバイス１１０ａの構成要素の多くまたはすべてを備えることができ、マイクロフォン１１５および音声処理１２４（図１Ｆ）をさらに含む。再生デバイス１１０ｒは、任意に、統合された制御デバイス１３０ｃを含む。制御デバイス１３０ｃは、例えば、別個の制御デバイスを使用せずにユーザ入力（例えば、タッチ入力、音声入力）を受信するように構成されたユーザインタフェース（例えば、図１Ｂのユーザインタフェース１１３）を含むことができる。しかし、他の実施形態では、再生デバイス１１０ｒは、別の制御デバイス（例えば、図１Ｂの制御デバイス１３０ａ）からのコマンドを受信する。ＮＭＤの実施形態については、図３Ａ～図３Ｆに関して以下でさらに詳細に説明する。

図１Ｆを再び参照すると、マイクロフォン１１５は、環境（例えば、図１Ａの環境１０１）および／またはＮＭＤ１２０ａが配置されている部屋からサウンドを取得し、捕捉し、および／または受信するように構成されている。受信したサウンドは、例えば、発声、ＮＭＤ１２０ａおよび／または別の再生デバイスによるオーディオ再生、背景音、環境音等を含むことができる。マイクロフォン１１５は、受信したサウンドを電気信号に変換してマイクロフォンデータを生成する。音声処理１２４は、マイクロフォンデータを受信して分析し、マイクロフォンデータに音声入力が存在するかどうかを決定する。音声入力は、例えば、ユーザ要求を含む発声に続く起動ワード（ａｃｔｉｖａｔｉｏｎｗｏｒｄ）を含むことができる。当業者であれば理解できるように、起動ワードは、ユーザの音声入力を意味する単語または他の音声キューである。例えば、ＡＭＡＺＯＮ（登録商標）ＶＡＳに問い合わせをする際に、ユーザは「アレクサ（Ａｌｅｘａ）」という起動ワードを話す場合がある。他の例としては、ＧＯＯＧＬＥ（登録商標）ＶＡＳを呼び出すための「オーケー、グーグル（ＯＫ，Ｇｏｏｇｌｅ）」や、ＡＰＰＬＥ（登録商標）ＶＡＳを呼び出すための「ヘイ、シリ（Ｈｅｙ，Ｓｉｒｉ）」などがある。

起動ワードを検出した後、音声処理１２４は、音声入力に付随するユーザ要求のためにマイクロフォンデータをモニタする。ユーザ要求は、例えば、サーモスタット（例えば、ＮＥＳＴ（登録商標）サーモスタット）、照明装置（例えば、ＰＨＩＬＩＰＳＨＵＥ（登録商標）照明装置）、またはメディア再生デバイス（例えば、Ｓｏｎｏｓ（登録商標）再生デバイス）などのサードパーティデバイスを制御するためのコマンドを含んでもよい。例えば、ユーザは、家庭（例えば、図１Ａの環境１０１）内の温度を設定するために、「アレクサ（Ａｌｅｘａ）」という起動ワードを話し、続いて「サーモスタットを６８度に設定して」と話してもよい。ユーザは、家庭のリビングルーム領域の照明装置をオンにするために、同じ起動ワードを話し、続いて「リビングルームをオンにして」と話してもよい。ユーザは、同様に、起動ワードを話し、続いて特定の曲、アルバム、または音楽のプレイリストを家庭内の再生デバイスで再生するための要求を話してもよい。音声入力データの受信と処理については、図３Ａ～図３Ｆを参照して、以下でさらに詳細に説明する。

ｄ．好適な制御デバイス
図１Ｈは、制御デバイス１３０ａ（図１Ａおよび１Ｂ）の部分的な概略図である。本明細書で使用されるように、「制御デバイス」という用語は、「コントローラ」または「制御システム」と互換的に使用することができる。他の特徴の中で、制御デバイス１３０ａは、メディア再生システム１００に関連するユーザ入力を受信し、それに応答して、メディア再生システム１００内の１つまたは複数のデバイスに、ユーザ入力に対応する動作または操作を実行させるように構成されている。図示された実施形態では、制御デバイス１３０ａは、メディア再生システムコントローラアプリケーションソフトウェアがインストールされているスマートフォン（例えば、ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄフォン）を備える。いくつかの実施形態では、制御デバイス１３０ａは、例えば、タブレット（例えば、ｉＰａｄ（登録商標））、コンピュータ（例えば、ラップトップコンピュータ、デスクトップコンピュータ）、および／または他の適切なデバイス（例えば、テレビ、自動車オーディオヘッドユニット、ＩｏＴデバイス）を備える。特定の実施形態では、制御デバイス１３０ａは、メディア再生システム１００のための専用コントローラを備える。他の実施形態では、図１Ｇに関して上述したように、制御デバイス１３０ａは、メディア再生システム１００内の別のデバイス（例えば、再生デバイス１１０、ＮＭＤ１２０、および／またはネットワークを介して通信するように構成された他の適切なデバイスのうちの１つまたは複数）に統合される。

制御デバイス１３０ａは、電子機器１３２と、ユーザインタフェース１３３と、１つまたは複数のスピーカ１３４と、１つまたは複数のマイクロフォン１３５と、を含む。電子機器１３２は、１つまたは複数のプロセッサ１３２ａ（以下、「プロセッサ１３２ａ」と称する）と、メモリ１３２ｂと、ソフトウェアコンポーネント１３２ｃと、ネットワークインタフェース１３２ｄと、を備える。プロセッサ１３２ａは、ユーザによるメディア再生システム１００へのアクセス、制御、および構成を容易にすることに関連する機能を実行するように構成することができる。メモリ１３２ｂは、それらの機能を実行するためにプロセッサ３０２によって実行可能な１つまたは複数のソフトウェアコンポーネントをロードすることができるデータストレージを含むことができる。ソフトウェアコンポーネント１３２ｃは、メディア再生システム１００の制御を容易にするように構成されたアプリケーションおよび／または他の実行可能なソフトウェアを含むことができる。メモリ１１２ｂは、例えば、ソフトウェアコンポーネント１３２ｃ、メディア再生システムコントローラアプリケーションソフトウェア、および／またはメディア再生システム１００およびユーザに関連する他のデータを格納するように構成することができる。

ネットワークインタフェース１３２ｄは、制御デバイス１３０ａとメディア再生システム１００内の１つまたは複数の他のデバイス、および／または１つまたは複数のリモートデバイスとの間のネットワーク通信を容易にするように構成されている。いくつかの実施形態では、ネットワークインタフェース１３２は、１つまたは複数の適切な通信業界標準（例えば、赤外線、無線、ＩＥＥＥ８０２．３を含む有線標準、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇ、ＬＴＥを含む無線標準）に従って動作するように構成されている。ネットワークインタフェース１３２ｄは、例えば、再生デバイス１１０、ＮＭＤ１２０、制御デバイス１３０の他のもの、図１Ｂのコンピューティングデバイス１０６の１つ、１つまたは複数の他のメディア再生システムを備えるデバイスなどにデータを送信および／または受信するように構成することができる。送信および／または受信されたデータは、例えば、再生デバイスの制御コマンド、状態変数、再生ゾーンおよび／またはゾーングループの構成を含むことができる。例えば、ユーザインタフェース１３３で受信したユーザ入力に基づいて、ネットワークインタフェース１３２ｄは、制御デバイス３０４から再生デバイス１００の１つまたは複数に再生デバイス制御コマンド（例えば、音量制御、オーディオ再生制御、オーディオコンテンツ選択）を送信することができる。ネットワークインタフェース１３２ｄはまた、例えば、ゾーンへの１つまたは複数の再生デバイス１００の追加／削除、ゾーングループへの１つまたは複数のゾーンの追加／削除、結合プレーヤまたは統合プレーヤの形成、結合プレーヤまたは統合プレーヤから１つまたは複数の再生デバイスを分離することなどの構成変更を送信および／または受信することができる。ゾーンおよびグループの詳細については、図１Ｉから図１Ｍに示す。

ユーザインタフェース１３３は、ユーザ入力を受信するように構成されており、メディア再生システム１００の制御を容易にすることができる。ユーザインタフェース１３３は、メディアコンテンツアート１３３ａ（例えば、アルバムアート、歌詞、ビデオ）、再生状態インジケータ１３３ｂ（例えば、経過時間および／または残り時間インジケータ）、メディアコンテンツ情報領域１３３ｃ、再生制御領域１３３ｄ、およびゾーンインジケータ１３３ｅを含む。メディアコンテンツ情報領域１３３ｃは、現在再生中のメディアコンテンツおよび／またはキューまたはプレイリスト内のメディアコンテンツに関する関連情報（例えば、タイトル、アーティスト、アルバム、ジャンル、リリース年）の表示を含むことができる。再生制御領域１３３ｄは、選択された再生ゾーンまたはゾーングループ内の１つまたは複数の再生デバイスに、例えば、再生または一時停止、早送り、巻き戻し、次へスキップ、前へスキップ、シャッフルモードの開始／終了、リピートモードの開始／終了、クロスフェードモードの開始／終了などの再生動作を実行させるための選択可能な（例えば、タッチ入力を介して、および／またはカーソルまたは別の適切なセレクタを介して）アイコンを含むことができる。再生制御領域１３３ｄはまた、イコライゼーション設定、再生音量、および／または他の好適な再生動作を変更するための選択可能なアイコンを含んでもよい。図示された実施形態では、ユーザインタフェース１３３は、スマートフォン（例えば、ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄフォン）のタッチスクリーンインタフェース上に提示されるディスプレイを備える。しかしながら、いくつかの実施形態では、メディア再生システムへの同等の制御アクセスを提供するために、様々なフォーマット、スタイル、およびインタラクティブなシーケンスのユーザインタフェースが、代替的に、１つまたは複数のネットワークデバイス上に実装されてもよい。

１つまたは複数のスピーカ１３４（例えば、１つまたは複数のトランスデューサ）は、制御デバイス１３０ａのユーザにサウンドを出力するように構成され得る。いくつかの実施形態では、１つまたは複数のスピーカは、低周波、中周波、および／または高周波数を対応して出力するように構成された個々のトランスデューサを備える。いくつかの態様では、例えば、制御デバイス１３０ａは、再生デバイス（例えば、再生デバイス１１０の１つ）として構成される。同様に、いくつかの実施形態では、制御デバイス１３０ａは、１つまたは複数のマイクロフォン１３５を介して音声コマンドおよび他のサウンドを受信するＮＭＤ（例えば、ＮＭＤ１２０の１つ）として構成される。

１つまたは複数のマイクロフォン１３５は、例えば、１つまたは複数のコンデンサマイクロフォン、エレクトレットコンデンサマイクロフォン、ダイナミックマイクロフォン、および／または他の適切なタイプのマイクロフォンまたはトランスデューサを含むことができる。いくつかの実施形態では、２つ以上のマイクロフォン１３５は、オーディオソース（例えば、音声、可聴音）の位置情報を捕捉するように配置され、および／またはバックグラウンドノイズのフィルタリングを容易にするように構成されている。さらに、特定の実施形態では、制御デバイス１３０ａは、再生デバイスおよびＮＭＤとして動作するように構成されている。しかしながら、他の実施形態では、制御デバイス１３０ａは、１つまたは複数のスピーカ１３４および／または１つまたは複数のマイクロフォン１３５を省略する。例えば、制御デバイス１３０ａは、スピーカまたはマイクを省略して、電子機器１３２の一部およびユーザインタフェース１３３（例えば、タッチスクリーン）を備えるデバイス（例えば、サーモスタット、ＩｏＴデバイス、ネットワークデバイス）を備えていてもよい。追加の制御デバイスの実施形態は、図４Ａ～図４Ｄおよび図５に関して以下でさらに詳細に説明する。

ｅ．適切な再生デバイス構成
図１Ｉ～図１Ｍは、ゾーンおよびゾーングループにおける再生デバイスの例示的な構成を示す。最初に図１Ｍを参照すると、一例では、単一の再生デバイスがゾーンに属することができる。例えば、セカンドベッドルーム１０１ｃ（図１Ａ）の再生デバイス１１０ｇは、ゾーンＣに属していてもよい。以下に説明するいくつかの実装形態では、複数の再生デバイスを「結合」して「結合ペア」を形成することができ、これらは一緒になって単一のゾーンを形成する。例えば、再生デバイス１１０ｌ（例えば、左再生デバイス）は、ゾーンＡを形成するように再生デバイス１１０ｌ（例えば、左再生デバイス）に結合させることができる。結合された再生デバイスは、異なる再生の責任（例えば、チャネルの責任）を有してもよい。以下に説明する別の実施態様では、複数の再生デバイスをマージして単一のゾーンを形成することができる。例えば、再生デバイス１１０ｈ（例えば、フロント再生デバイス）は、単一のゾーンＤを形成するように再生デバイス１１０ｉ（例えば、サブウーファ）および再生デバイス１１０ｊおよび１１０ｋ（例えば、それぞれ左右のサラウンドスピーカ）とマージされてもよい。別の例では、再生デバイス１１０ｇおよび１１０ｈをマージして、マージされたグループまたはゾーングループ１０８ｂを形成することができる。マージされた再生デバイス１１０ｇおよび１１０ｈは、異なる再生責任を特に割り当てられなくてもよい。すなわち、マージされた再生デバイス１１０ｈおよび１１０ｉは、同期してオーディオコンテンツを再生することとは別に、各々がマージされなかった場合と同様にオーディオコンテンツを再生することができる。

メディア再生システム１００内の各ゾーンは、単一のユーザインタフェース（ＵＩ）エンティティとして制御のために設けられてもよい。例えば、ゾーンＡは、マスターバスルームと呼ばれる単一のエンティティとして設けられ得る。ゾーンＢは、マスターベッドルームと呼ばれる単一のエンティティとして設けられ得る。ゾーンＣは、セカンドベッドルームと呼ばれる単一のエンティティとして設けられ得る。

結合された再生デバイスは、特定のオーディオチャネルに対する責任など、異なる再生責任を有することができる。例えば、図１－Ｉに示されるように、再生デバイス１１０ｌおよび１１０ｍは、オーディオコンテンツのステレオ効果を生成または強化するように結合されてもよい。この例では、再生デバイス１１０ｌは、左チャネルのオーディオコンポーネントを再生するように構成されてもよく、一方、再生デバイス１１０ｋは、右チャネルのオーディオコンポーネントを再生するように構成されてもよい。いくつかの実装形態では、そのようなステレオの結合は「ペアリング」と呼ばれることがある。

さらに、結合された再生デバイスは、追加のおよび／または異なるそれぞれのスピーカドライバを有してもよい。図１Ｊに示されるように、フロントと名付けられた再生デバイス１１０ｈは、サブと呼ばれる再生デバイス１１０ｉと結合されてもよい。フロントデバイス１１０ｈは、中～高周波数の範囲をレンダリングするように構成することができ、サブデバイス１１０ｉは、低周波数をレンダリングするように構成することができる。しかしながら、結合されていない場合、フロントデバイス１１０ｈは、全範囲の周波数をレンダリングするように構成することができる。別の例として、図１Ｋは、左再生デバイス１１０ｊおよび右再生デバイス１１０ｋとそれぞれさらに結合されたフロントデバイス１１０ｈおよびサブデバイス１１０ｉを示す。いくつかの実装形態では、右デバイス１１０ｊおよび左デバイス１０２ｋは、ホームシアターシステムのサラウンドまたは「サテライト」チャネルを形成するように構成することができる。結合された再生デバイス１１０ｈ、１１０ｉ、１１０ｊ、および１１０ｋは、単一のゾーンＤ（図１Ｍ）を形成することができる。

マージされた再生デバイスは、再生責任を割り当てられていなくてもよく、それぞれの再生デバイスが可能なオーディオコンテンツの全範囲を各々がレンダリングすることができる。それにもかかわらず、マージされたデバイスは、単一のＵＩエンティティ（すなわち、上述したように、ゾーン）として表されてもよい。例えば、マスターバスルームの再生デバイス１１０ａおよび１１０ｎは、ゾーンＡの単一のＵＩエンティティを有する。一実施形態では、再生デバイス１１０ａおよび１１０ｎはそれぞれ、それぞれの再生デバイス１１０ａおよび１１０ｎが同期して可能なオーディオコンテンツの全範囲を出力することができる。

いくつかの実施形態では、ＮＭＤは、ゾーンを形成するように別のデバイスと結合またはマージされる。例えば、ＮＭＤ１２０ｂは、ともにリビングルームと呼ばれるゾーンＦを形成する再生デバイス１１０ｅと結合されてもよい。他の実施形態では、スタンドアロンのネットワークマイクロフォンデバイスは、それ自体がゾーン内にあってもよい。しかしながら、他の実施形態では、スタンドアロンのネットワークマイクロフォンデバイスは、ゾーンに関連付けられていなくてもよい。ネットワークマイクロフォンデバイスと再生デバイスとを指定のデバイスまたはデフォルトデバイスとして関連付けることに関するさらなる詳細は、例えば、先に参照した米国特許出願公開第１５／４３８，７４９号明細書に見出すことができる。

個々の、結合された、および／またはマージされたデバイスのゾーンは、ゾーングループを形成するためにグループ化され得る。例えば、図１Ｍを参照すると、ゾーンＡをゾーンＢとグループ化して、２つのゾーンを含むゾーングループ１０８ａを形成することができる。同様に、ゾーンＧをゾーンＨとグループ化して、ゾーングループ１０８ｂを形成してもよい。別の例として、ゾーンＡは、１つ以上の他のゾーンＣ－Ｉとグループ化されてもよい。ゾーンＡ～Ｉは、多数の方法でグループ化およびグループ解除することができる。例えば、ゾーンＡ～Ｉの３つ、４つ、５つ、またはそれより多く（例えば、すべて）がグループ化されてもよい。グループ化されると、個々のおよび／または結合された再生デバイスのゾーンは、先に参照された米国特許第８，２３４，３９５号明細書に記載されているように、互いに同期してオーディオを再生することができる。再生デバイスは、オーディオコンテンツを同期して再生する新たなまたは異なるグループを形成するために、動的にグループ化およびグループ化解除されてもよい。

様々な実施態様では、環境内のゾーンは、グループ内のゾーンのデフォルト名またはゾーングループ内のゾーンの名前の組み合わせであってもよい。例えば、ゾーングループ１０８ｂには、図１Ｍに示すように、「ダイニング＋キッチン」などの名前を割り当てることができる。いくつかの実施形態では、ゾーングループが、ユーザによって選択された固有の名前を与えられてもよい。

特定のデータは、再生ゾーン、再生デバイス、および／または、それに関連付けられたゾーングループの状態を記述するために定期的に更新されて使用される１つ以上の状態変数として再生デバイス（例えば、図１Ｃのメモリ１１２ｃ）のメモリに記憶されてもよい。メモリはまた、メディアシステムの他のデバイスの状態と関連付けられ、デバイスのうちの１つまたは複数がシステムと関連付けられた最新データを有するように、デバイス間で時々共有されるデータを含むことができる。

いくつかの実施形態では、メモリは、状態に関連する様々な変数型のインスタンスを記憶することができる。変数インスタンスは、タイプに対応する識別子（例えば、タグ）と共に格納され得る。例えば、特定の識別子は、ゾーンの再生デバイスを識別するための第１タイプ「ａ１」、ゾーン内で結合されることができる再生デバイスを識別するための第２タイプ「ｂ１」、および、ゾーンが属することができるゾーングループを識別するための第３タイプ「ｃ１」であってもよい。関連する例として、セカンドベッドルーム１０１ｃに関連付けられた識別子は、再生デバイスがゾーングループ内ではなくゾーンＣの唯一の再生デバイスであることを示すことができる。デンに関連付けられた識別子は、デンが他のゾーンとグループ化されていないが、結合された再生デバイス１１０ｈ～１１０ｋを含むことを示すことができる。ダイニングルームに関連付けられた識別子は、ダイニングルームがダイニング＋キッチンゾーングループ１０８ｂの一部であり、デバイス１１０ｂおよび１１０ｄがグループ化されている（図１Ｌ）ことを示すことができる。キッチンに関連付けられた識別子は、キッチンがダイニング＋キッチンゾーングループ１０８ｂの一部であることによって、同じまたは類似の情報を示すことができる。他の例示的なゾーン変数および識別子を以下に説明する。

さらに別の例では、メディア再生システム１００は、図１Ｍに示すように、エリアに関連付けられた識別子など、ゾーンおよびゾーングループの他の関連付けを表す変数または識別子を記憶することができる。エリアは、ゾーングループのクラスタおよび／またはゾーングループ内にないゾーンを含み得る。例えば、図１Ｍは、ゾーンＡ～Ｄを含む上部エリア１０９ａと、ゾーンＥ～Ｉを含む下部エリア１０９ｂとを示す。一態様では、エリアは、ゾーングループのクラスタ、および／または１つ以上のゾーンを共有するゾーンおよび／または別のクラスタのゾーングループを呼び出すために使用され得る。別の態様では、これは、別のゾーングループとゾーンを共有しないゾーングループとは異なる。エリアを実装するための技術のさらなる例は、例えば、２０１７年８月２１日に出願され、「ＲｏｏｍＡｓｓｏｃｉａｔｉｏｎＢａｓｅｄｏｎＮａｍｅ」と題する米国特許出願公開第１５／６８２，５０６号明細書、および２００７年９月１１日に出願され、「Ｃｏｎｔｒｏｌｌｉｎｇａｎｄｍａｎｉｐｕｌａｔｉｎｇｇｒｏｕｐｉｎｇｓｉｎａｍｕｌｔｉ－ｚｏｎｅｍｅｄｉａｓｙｓｔｅｍ」と題する米国特許第８，４８３，８５３号明細書に見出すことができる。これらの出願の各々は、その全体が参照により本明細書に組み込まれる。いくつかの実施形態では、メディア再生システム１００は、エリアを実装しなくてもよく、その場合、システムは、エリアに関連付けられた変数を記憶しなくてもよい。

ＩＩＩ．例示的なシステムおよびデバイス
図２Ａは、開示された技術の態様に従って構成される再生デバイス２１０の正面等角図である。図２Ｂは、グリル２１６ｅを有さない再生デバイス２１０の正面等角図である。図２Ｃは、再生デバイス２１０の分解図である。図２Ａ～図２Ｃを併せて参照すると、再生デバイス２１０は、上側部分２１６ａと、右側または第１側部２１６ｂと、下側部分２１６ｃと、左側または第２側部２１６ｄと、グリル２１６ｅと、後側部分２１６ｆとを含むハウジング２１６を含む。複数の留め具２１６ｇ（例えば、１つ以上のねじ、リベット、クリップ）は、フレーム２１６ｈをハウジング２１６に取り付ける。ハウジング２１６内のキャビティ２１６ｊ（図２Ｃ）は、フレーム２１６ｈおよび電子機器２１２を受け入れるように構成される。フレーム２１６ｈは、複数のトランスデューサ２１４（図２Ｂではトランスデューサ２１４ａ～ｆとして個別に識別される）を担持するように構成される。電子機器２１２（例えば、図１Ｃの電子機器１１２）は、オーディオソースからオーディオコンテンツを受信し、再生のためにオーディオコンテンツに対応する電気信号をトランスデューサ２１４に送信するように構成される。

トランスデューサ２１４は、電子機器１１２から電気信号を受信するように構成され、再生中に受信した電気信号を可聴音に変換するようにさらに構成される。例えば、トランスデューサ２１４ａ～２１４ｃ（例えば、ツイータ）は、高周波音（例えば、約２ｋＨｚを超える周波数を有する音波）を出力するように構成することができる。トランスデューサ２１４ｄ～２１４ｆ（例えば、ミッドウーファ、ウーファ、ミッドレンジスピーカ）は、トランスデューサ２１４ａ～２１４ｃ（例えば、約２ｋＨｚより低い周波数を有する音波）よりも低い周波数で音を出力するように構成することができる。いくつかの実施形態では、再生デバイス２１０は、図２Ａ～図２Ｃに示されるものとは異なるいくつかのトランスデューサを含む。例えば、図３Ａ～図３Ｃに関して以下にさらい詳細に説明されるように、再生デバイス２１０は、６つ未満のトランスデューサ（例えば、１、２、３）を含むことができる。しかしながら、他の実施形態では、再生デバイス２１０は、６つを超える（例えば、９、１０）トランスデューサを含む。さらに、いくつかの実施形態では、トランスデューサ２１４のすべてまたは一部は、トランスデューサ２１４の放射パターンを望ましく調整（例えば、狭くまたは広く）するためにフェーズドアレイとして動作するように構成され、それにより、ユーザの再生デバイス２１０から発せられる音の知覚を変更する。

図２Ａ～図２Ｃの図示の実施形態では、フィルタ２１６ｉは、トランスデューサ２１４ｂと軸方向に整列している。フィルタ２１６ｉは、トランスデューサ２１４ｂが出力する所定の周波数範囲を望ましく減衰させて、トランスデューサ２１４によってまとめて出力される音質および知覚音響ステージを改善するように構成することができる。しかしながら、いくつかの実施形態では、再生デバイス２１０は、フィルタ２１６ｉを省略する。他の実施形態では、再生デバイス２１０は、トランスデューサ２１４ｂおよび／またはトランスデューサ２１４の少なくとも別のものと位置合わせされた１つ以上の追加のフィルタを含む。

図３Ａおよび図３Ｂは、それぞれ、開示された技術の実施形態に従って構成されたＮＭＤ３２０の正面および右側等角側面図である。図３Ｃは、ＮＭＤ３２０の分解図である。図３Ｄは、ＮＭＤ３２０のユーザインタフェース３１３を含む図３Ｂの一部の拡大図である。最初に図３Ａ～図３Ｃを参照すると、ＮＭＤ３２０は、上側部分３１６ａ、下側部分３１６ｂ、および中間部分３１６ｃ（例えば、グリル）を備えるハウジング３１６を含む。上側部分３１６ａの複数のポート、穴、または開口３１６ｄは、ハウジング３１６内に配置された１つ以上のマイクロフォン３１５（図３Ｃ）への音の通過を可能にする。１つ以上のマイクロフォン３１６は、開口３１６ｄを介して音を受信し、受信した音に基づいて電気信号を生成するように構成される。図示の実施形態では、ハウジング３１６のフレーム３１６ｅ（図３Ｃ）は、第１トランスデューサ３１４ａ（例えば、ツイータ）および第２トランスデューサ３１４ｂ（例えば、ミッドウーファ、ミッドレンジスピーカ、ウーファ）をそれぞれ収容するように構成されたキャビティ３１６ｆおよび３１６ｇを囲む。しかしながら、他の実施形態では、ＮＭＤ３２０は、単一のトランスデューサ、または３つ以上（例えば、２、５、６）のトランスデューサを含む。特定の実施形態では、ＮＭＤ３２０は、トランスデューサ３１４ａおよび３１４ｂを完全に省いている。

電子機器３１２（図３Ｃ）は、トランスデューサ３１４ａおよび３１４ｂを駆動するように構成され、さらに、１つ以上のマイクロフォン３１５によって生成された電気信号に対応するオーディオデータを解析するように構成された構成要素を含む。いくつかの実施形態では、例えば、電子機器３１２は、図１Ｃに関して上述した電子機器１１２の構成要素の多くまたはすべてを含む。特定の実施形態では、電子機器３１２は、例えば、１つ以上のプロセッサ１１２ａ、メモリ１１２ｂ、ソフトウェアコンポーネント１１２ｃ、ネットワークインタフェース１１２ｄなど、図１Ｆに関して上述したコンポーネントを含む。いくつかの実施形態では、電子機器３１２は、追加の適切な構成要素（例えば、近接性または他のセンサ）を含む。

図３Ｄを参照すると、ユーザインタフェース３１３は、第１制御面３１３ａ（例えば、以前の制御）、第２制御面３１３ｂ（例えば、次の制御）、および第３制御面３１３ｃ（例えば、再生および／または一時停止制御）を含む複数の制御面（例えば、ボタン、ノブ、静電容量性表面）を含む。第４制御面３１３ｄは、一方または複数のマイクロフォン３１５の起動および停止に対応するタッチ式入力を受信するように構成される。第１インジケータ３１３ｅ（例えば、１つ以上の発光ダイオード（ＬＥＤ）または別の適切な照明装置）は、１つ以上のマイクロフォン３１５が起動されたときにのみ点灯するように構成され得る。第２インジケータ３１３ｆ（例えば、１つ以上のＬＥＤ）は、通常動作においては点灯したままであり、音声アクティビティの検出を示すために点滅するか、そうでなければ点灯から変化するように構成され得る。いくつかの実施形態では、ユーザインタフェース３１３は、追加のまたはより少ない制御面および照明装置を含む。一実施形態では、例えば、ユーザインタフェース３１３は、第２インジケータ３１３ｆを省いた第１インジケータ３１３ｅを含む。さらに、特定の実施形態では、ＮＭＤ３２０は、再生デバイスおよび制御デバイスを備え、ユーザインタフェース３１３は、制御デバイスのユーザインタフェースを備える。

図３Ａ～図３Ｄを一緒に参照すると、ＮＭＤ３２０は、１つ以上のマイクロフォン３１５を介して１つ以上の隣接ユーザから音声コマンドを受信するように構成されている。図１Ｂに関して上述したように、１つ以上のマイクロフォン３１５は、近傍（例えば、ＮＭＤ３２０から１０ｍ以内の領域）の音を取得、捕捉、または記録し、記録された音に対応する電気信号を電子機器３１２に送信することができる。電子機器３１２は、電気信号を処理することができ、結果として生じるオーディオデータを分析して、１つ以上の音声コマンド（例えば、１つ以上の活性化語）の存在を判定することができる。いくつかの実施形態では、例えば、ＮＭＤ３２０は、１つ以上の適切な音声コマンドを検出した後、さらなる分析のために、記録されたオーディオデータの一部を別のデバイスおよび／またはリモートサーバ（例えば、図１Ｂのコンピューティングデバイス１０６のうちの１つまたは複数）に送信するように構成される。リモートサーバは、オーディオデータを分析し、音声コマンドに基づいて適切なアクションを決定し、適切なアクションを実行するためにメッセージをＮＭＤ３２０に送信することができる。例えば、ユーザは「ソノス、マイケル・ジャクソンを再生して」と発することができる。ＮＭＤ３２０は、１つ以上のマイクロフォン３１５を介して、ユーザの音声発話を録音し、音声コマンドの存在を判定し、音声コマンドを有するオーディオデータをリモートサーバ（例えば、図１Ｂのリモートコンピューティングデバイス１０６の１つまたは複数、ＶＡＳの１つまたは複数サーバ、および／または別の適切なサービス）に送信することができる。リモートサーバは、オーディオデータを分析し、コマンドに対応するアクションを決定することができる。次いで、リモートサーバは、決定されたアクションを実行するためのコマンドをＮＭＤ３２０に送信することができる（例えば、マイケル・ジャクソンに関連するオーディオコンテンツを再生する）。ＮＭＤ３２０は、このコマンドを受信し、メディアコンテンツソースからマイケル・ジャクソンに関連するオーディオコンテンツを再生することができる。図１Ｂに関して上述したように、適切なコンテンツソースは、ＬＡＮ（例えば、図１Ｂのネットワーク１０４）、リモートサーバ（例えば、図１Ｂのリモートコンピューティングデバイス１０６のうちの１つまたは複数）などを介してＮＭＤ３２０に通信可能に結合されたデバイスまたはストレージを含むことができる。しかしながら、特定の実施形態では、ＮＭＤ３２０は、外部デバイス、コンピュータ、またはサーバの介入または関与なしに、１つ以上の音声コマンドに対応する１つ以上のアクションを決定および／または実行する。

図３Ｅは、本開示の態様に係るＮＭＤ３２０のさらなる特徴を示す機能ブロック図である。ＮＭＤ３２０は、音声アクティビティ検出器構成要素３１２ｋ、ビームフォーマ構成要素３１２ｌ、音響エコーキャンセル（ＡＥＣ）および／または自己音抑制構成要素３１２ｍ、起動ワード検出器構成要素３１２ｎ、ならびに、音声／発話変換構成要素３１２ｏ（例えば、音声－テキストおよびテキスト－音声）を含む、音声コマンド捕捉を容易にするように構成される構成要素を含む。図３Ｅの図示の実施形態では、前述の構成要素３１２ｋ～３１２ｏが別個の構成要素として示される。しかしながら、いくつかの実施形態では、構成要素３１２ｋ～３１２ｏのうちの１つ以上がプロセッサ１１２ａのサブ構成要素である。

ビームフォーミングおよび自己音抑制構成要素３１２ｌおよび３１２ｍは、オーディオ信号を検出し、方向、振幅、周波数スペクトルなど、検出されたオーディオ信号に表わされる音声入力の態様を決定するように構成される。音声アクティビティ検出器アクティビティ構成要素３１２ｋは、ビームフォーミングおよびＡＥＣ構成要素３１２ｌおよび３１２ｍと動作可能に結合され、検出されたオーディオ信号において音声アクティビティが発生した可能性が高い１つの方向および／または複数の方向を決定するように構成される。潜在的な発話方向は、発話を他の音から区別するメトリックを監視することによって識別され得る。そのようなメトリックとしては、例えば、バックグラウンドノイズに対する発話帯域内のエネルギーおよびスペクトル構造の指標である発話帯域内のエントロピーを挙げることができる。当業者であれば分かるように、発話は、一般に、最も一般的なバックグラウンドノイズよりも低いエントロピーを有する。

起動ワード検出器構成要素３１２ｎは、受信されたオーディオを監視および解析して、受信されたオーディオに任意の起動ワード（例えば、ウェイクワード）が存在するかどうかを決定するように構成される。起動ワード検出構成要素３１２ｎは、起動ワード検出アルゴリズムを使用して受信されたオーディオを解析することができる。起動ワード検出器３１２ｎが起動ワードを検出する場合、ＮＭＤ３２０は、受信されたオーディオに含まれる音声入力を処理することができる。起動ワード検出アルゴリズムの例は、オーディオを入力として受け入れ、起動ワードがオーディオ内に存在するかどうかの表示を与える。多くの第一者および第三者起動ワード検出アルゴリズムが知られており市販されている。例えば、音声サービスのオペレータは、第三者デバイスで使用するためにアルゴリズムを利用可能にし得る。あるいは、アルゴリズムは、特定の起動ワードを検出するように訓練されてもよい。いくつかの実施形態において、起動ワード検出器３１２ｎは、受信されたオーディオに対して複数の起動ワード検出アルゴリズムを同時に（または実質的に同時に）実行する。前述したように、異なる音声サービス（例えば、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）、ＡＰＰＬＥのＳＩＲＩ（登録商標）、または、ＭＩＣＲＯＳＯＦＴのＣＯＲＴＡＮＡ（登録商標））はそれぞれ、それぞれの音声サービスを呼び出すために異なる起動ワードを使用することができる。複数のサービスをサポートするために、起動ワード検出器３１２ｎは、それぞれのサポートされた音声サービスごとに起動ワード検出アルゴリズムを介して受信されたオーディオを並行して実行することができる。

発話／テキスト変換構成要素３１２ｏは、音声入力における発話をテキストに変換することによって処理を容易にすることができる。いくつかの実施形態において、電子機器３１２は、家庭と関連付けられる特定のユーザまたはユーザの特定のセットに対して訓練される音声認識ソフトウェアを含むことができる。そのような音声認識ソフトウェアは、特定の音声プロファイルに合わせて調整される音声－処理アルゴリズムを実装することができる。特定の音声プロファイルに合わせた調整は、一般に広範なベースのユーザおよびメディア再生システムを対象としない多様な要求からサンプリングする従来の音声アクティビティサービスよりも計算集約的なアルゴリズムを殆ど必要としない場合がある。

図３Ｆは、本開示の態様に係るＮＭＤ３２０により捕捉される音声入力３２８の一例の概略図である。音声入力３２８は、起動ワード部３２８ａおよび音声発話部３２８ｂを含むことができる。いくつかの実施形態において、起動ワード５５７ａは、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）と関連付けられる「Ａｌｅｘａ」などの既知の起動ワードとなり得る。しかしながら、他の実施形態では、音声入力３２８が起動ワードを含まなくてもよい。いくつかの実施形態において、ネットワークマイクロフォンデバイスは、起動ワード部分３２８ａの検出時に可聴応答および／または可視応答を出力してもよい。これに加えてまたは代えて、ＮＭＢは、音声入力および／または一連の音声入力を処理した後に可聴応答および／または可視応答を出力してもよい。

音声発話部３２８ｂは、例えば、（第１のコマンド３２８ｃおよび第２のコマンド３２８ｅとして個別に識別される）１つ以上の口語コマンドと、（第１のキーワード３２８ｄおよび第２のキーワード３２８ｆとして個別に識別される）１つ以上の口語キーワードとを含んでもよい。一例において、第１のコマンド３２８ｃは、特定の曲、アルバム、プレイリストなどの音楽を再生するためのコマンドとなり得る。この例において、キーワードは、図１Ａに示されるリビングルームおよびダイニングルームなど、音楽が再生されるようになっている１つ以上のゾーンを識別する１つ以上の単語であってもよい。いくつかの例において、音声発話部３２８ｂは、図３Ｆに示されるように、ユーザが話した単語間の検出された一時停止（例えば、非発話の期間）などの他の情報を含むことができる。一時停止は、音声発話部３２８ｂ内でユーザによって話された別個のコマンド、キーワード、または、他の情報の位置を画定することができる。

いくつかの実施形態において、メディア再生システム１００は、起動ワード部５５７ａを検出している間に再生しているオーディオコンテンツの音量を一時的に下げるように構成される。メディア再生システム１００は、図３Ｆに示されるように、音声入力３２８を処理した後に音量を回復することができる。そのようなプロセスは、ダッキングと呼ぶことができ、その例は、参照によりその全体が本願に組み入れられる米国特許出願第１５／４３８，７４９号に開示される。

図４Ａ～図４Ｄは、様々な動作状態における対応するユーザインターフェスディスプレイを示す制御デバイス４３０（例えば、図１Ｈの制御デバイス１３０ａ、スマートフォン、タブレット、専用制御デバイス、ＩｏＴデバイス、および／または別の適切なデバイス）の概略図である。第１ユーザインターフェスディスプレイ４３１ａ（図４Ａ）は、ディスプレイ名４３３ａ（すなわち、「ルーム」）を含む。選択されたグループ領域４３３ｂには、選択されたグループおよび／またはゾーンで再生されるオーディオコンテンツのオーディオコンテンツ情報（例えば、アーティスト名、トラック名、アルバムアート）が表示される。グループ領域４３３ｃおよび４３３ｄは、対応するグループおよび／またはゾーン名、ならびにそれぞれのグループまたはゾーンの再生キューにおいて再生または次に再生されるオーディオコンテンツ情報、オーディオコンテンツを表示する。オーディオコンテンツ領域４３３ｅは、選択されたグループおよび／またはゾーン内のオーディオコンテンツに関する情報（すなわち、選択されたグループ領域４３３ｂに示されたグループおよび／またはゾーン）を含む。下部表示領域４３３ｆは、タッチ入力を受信して、１つ以上の他のユーザインターフェスディスプレイを表示するように構成されている。例えば、ユーザが下部表示領域４３３ｆで「閲覧」を選択した場合、制御デバイス４３０は、複数の音楽サービス４３３ｇ（例えば、スポティファイ、ラジオバイチューンイン、アップルミュージック、パンドラ、アマゾン、ＴＶ、ローカル音楽、ラインイン）を備える第２ユーザインターフェスディスプレイ４３１ｂ（図４Ｂ）を出力するように構成することができ、ユーザは、このディスプレイから、１つ以上の再生デバイス（例えば、図１Ａの再生デバイス１１０のうちの１つ）を介して再生するためのメディアコンテンツを閲覧することができ、また、再生するためのメディアコンテンツを選択することができる。あるいは、ユーザが下部表示領域４３３ｆ内の「マイソノス」を選択した場合、制御デバイス４３０は、第３ユーザインターフェスディスプレイ４３１ｃ（図４Ｃ）を出力するように構成することができる。第１メディアコンテンツ領域４３３ｈは、個々のアルバム、ステーション、またはプレイリストに対応するグラフィカル表現（例えば、アルバムアート）を含むことができる。第２メディアコンテンツ領域４３３ｉは、個々の曲、トラック、または他のメディアコンテンツに対応するグラフィカル表現（例えば、アルバムアート）を含むことができる。ユーザがグラフィカル表現４３３ｊ（図４Ｃ）を選択した場合、制御デバイス４３０は、グラフィカル表現４３３ｊに対応するオーディオコンテンツの再生を開始し、グラフィカル表現４３３ｊの拡大版、メディアコンテンツ情報４３３ｋ（例えば、トラック名、アーティスト、アルバム）、搬送制御４３３ｍ（例えば、再生、巻き戻し、早送り、一時停止、音量）、ならびに現在選択されているグループおよび／またはゾーン名の表示４３３ｎを含む第４ユーザインターフェスディスプレイ４３１ｄ第４ユーザインターフェスディスプレイ４３１ｄを出力するように構成されることができる。

図５は、制御デバイス５３０（例えば、ラップトップコンピュータ、デスクトップコンピュータ）の概略図である。制御デバイス５３０は、トランスデューサ５３４、マイクロフォン５３５、およびカメラ５３６を含む。ユーザインタフェース５３１は、トランスポート制御領域５３３ａと、再生ステータス領域５３３ｂと、再生ゾーン領域５３３ｃと、再生キュー領域５３３ｄと、メディアコンテンツソース領域５３３ｅとを含む。トランスポート制御領域は、例えば、音量、前へ、再生／一時停止、次へ、繰り返し、シャッフル、トラック位置、クロスフェード、イコライゼーションなどを含むメディア再生を制御するための１つ以上の制御を含む。オーディオコンテンツソース領域５３３ｅは、再生および／または再生キューへの追加のためのメディアアイテムをユーザが選択することができる、１つ以上のメディアコンテンツソースのリストを含む。

再生ゾーン領域５３３ｂは、メディア再生システム１００（図１Ａおよび図１Ｂ）内の再生ゾーンの表現を含むことができる。いくつかの実施形態では、再生ゾーンのグラフィカル表現は、結合ゾーンの作成、ゾーングループの作成、ゾーングループの分離、ゾーングループの名称変更など、メディア再生システムにおける再生ゾーンを管理または構成するための追加の選択可能アイコンを表示するために選択可能であってもよい。図示の実施形態では、「グループ」アイコンが、再生ゾーンのグラフィカル表現の各々の中に設けられる。特定のゾーンのグラフィカル表現内に設けられる「グループ」アイコンは、特定のゾーンとグループ化されるべきメディア再生システム内の１つ以上の他のゾーンを選択するためのオプションを表示するために選択可能であってもよい。グループ化されると、特定のゾーンとグループ化されたゾーン内の再生デバイスは、特定のゾーン内の再生デバイスと同期してオーディオコンテンツを再生するように構成することができる。同様に、「グループ」のアイコンをゾーングループのグラフィカル表現内に設けることができる。図示の実施形態では、「グループ」のアイコンを選択可能にして、ゾーングループから除去されるゾーングループ内の１つ以上のゾーンを選択解除するオプションを表示することができる。いくつかの実施形態では、制御デバイス５３０は、ユーザインタフェース５３１を介してゾーンをグループ化およびグループ解除するための他の対話および実装を含む。特定の実施形態では、再生ゾーン領域５３３ｂ内の再生ゾーンの表現は、再生ゾーンまたはゾーングループ構成が変更されるときに動的に更新させることができる。

再生ステータス領域５３３ｃは、選択された再生ゾーンまたはゾーングループにおいて現在再生中、以前に再生、または次に再生するようにスケジュールされているオーディオコンテンツのグラフィカル表現を含む。選択された再生ゾーンまたはゾーングループは、再生ゾーン領域５３３ｂおよび／または再生キュー領域５３３ｄ内など、ユーザインタフェースで視覚的に区別されてもよい。グラフィカル表現は、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラック長、および、ユーザインターフェス５３１を介してメディア再生システム１００を制御するときにユーザが知るのに有用であり得る他の関連情報を含んでもよい。

再生キュー領域５３３ｄは、選択された再生ゾーンまたはゾーングループに関連付けられた再生キュー内のオーディオコンテンツのグラフィカル表現を含む。いくつかの実施形態では、各再生ゾーンまたはゾーングループは、再生ゾーンまたはゾーングループによる再生のための０以上のオーディオアイテムに対応する情報を含む再生キューに関連付けられてもよい。例えば、再生キュー内の各オーディオアイテムは、ユニフォームリソースアイデンティファイア（ＵＲＩ）、ユニフォームリソースロケータ（ＵＲＬ）、または、場合によっては再生デバイスによる再生のために、ローカルオーディオ・コンテンツ・ソースまたはネットワーク化されたオーディオ・コンテンツ・ソースからオーディオアイテムを発見および／または検索するために再生ゾーンまたはゾーングループ内の再生デバイスによって使用されることができる何らかの他の識別子を、備えることができる。いくつかの実施形態では、例えば、プレイリストを再生キューに追加することができ、プレイリスト内の各オーディオアイテムに対応する情報を再生キューに追加することができる。いくつかの実施形態では、再生キュー内のオーディオアイテムは、プレイリストとして保存されてもよい。特定の実施形態では、再生キューは、再生ゾーンまたはゾーングループが、再生持続時間を有する個別のオーディオアイテムではなく、そうでなければ停止するまで再生し続けることができるインターネットラジオなどのオーディオコンテンツを、連続的にストリーミング再生しているとき、空であるか、または事前設定されているが「使用されていない」場合がある。いくつかの実施形態では、再生キューは、インターネットラジオおよび／または他のストリーミングオーディオコンテンツアイテムを含むことができ、再生ゾーンまたはゾーングループがそれらのアイテムを再生しているときに「使用中」であることができる。

再生ゾーンまたはゾーングループが「グループ化」または「グループ解除」されている場合、影響を受ける再生ゾーンまたはゾーングループに関連付けられた再生キューは、クリアまたは再関連付けされることができる。例えば、第１再生キューを含む第１再生ゾーンが第２再生キューを含む第２再生ゾーンとグループ化される場合、確立されたゾーングループは、最初は空である、第１再生キューからのオーディオアイテムを含む（第２再生ゾーンが第１再生ゾーンに追加された場合など）、第２再生キューからのオーディオアイテムを含む（第１再生ゾーンが第２再生ゾーンに追加された場合など）、または第１および第２再生キューの両方からのオーディオアイテムの組み合わせに関連付けられた再生キューを有することができる。その後、確立されたゾーングループがグループ解除された場合、結果として得られる第１再生ゾーンは、前の第１再生キューに再度関連付けされてもよく、または、確立されたゾーングループがグループ解除される前に、空であるかまたは確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新たな再生キューに関連付けられてもよい。同様に、結果として得られる第２再生ゾーンは、前の第２再生キューに再関連付けられてもよく、または、空であるか、または、確立されていたゾーングループがグループ解除される前に確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新たな再生キューに、関連付けられてもよい。

図６は、メディア再生システム１００（図１Ａ～図１Ｍ）のデバイス間のデータ交換を示すメッセージのフロー図である。

ステップ６５０ａにおいて、メディア再生システム１００は、制御デバイス１３０ａを介して、選択されたメディアコンテンツ（例えば、１つ以上の曲、アルバム、プレイリスト、Ｐｏｄｃａｓｔ、ビデオ、ステーション）の表示を受信する。選択されたメディアコンテンツは、例えば、メディア再生システムに接続された１つ以上のデバイス（例えば、図１Ｃのオーディオソース１０５）にローカルに記憶されたメディアアイテムおよび／または１つ以上のメディアサービスサーバ（図１Ｂのリモートコンピューティングデバイス１０６のうちの１つ以上）に記憶されたメディアアイテムを含むことができる。選択されたメディアコンテンツの表示の受信に応答して、制御デバイス１３０ａは、再生デバイス１１０ａの再生キューに選択されたメディアコンテンツを追加するためにメッセージ６５１ａを再生デバイス１１０ａ（図１Ａ～図１Ｃ）に送信する。

ステップ６５０ｂにおいて、再生デバイス１１０ａは、メッセージ６５１ａを受信し、再生のために選択されたメディアコンテンツを再生キューに追加する。

ステップ６５０ｃにおいて、制御デバイス１３０ａは、選択されたメディアコンテンツを再生するコマンドに対応する入力を受信する。選択されたメディアコンテンツを再生するコマンドに対応する入力を受信したことに応答して、制御デバイス１３０ａは、再生デバイス１１０ａに選択されたメディアコンテンツを再生させるメッセージ６５１ｂを再生デバイス１１０ａに送信する。メッセージ６５１ｂの受信に応答して、再生デバイス１１０ａは、選択されたメディアコンテンツを要求するメッセージ６５１ｃをコンピューティングデバイス１０６ａに送信する。コンピューティングデバイス１０６ａは、メッセージ６５１ｃの受信に応答して、要求されたメディアコンテンツに対応するデータ（例えば、オーディオデータ、ビデオデータ、ＵＲＬ、ＵＲＩ）を含むメッセージ６５１ｄを送信する。

ステップ６５０ｄにおいて、再生デバイス１１０ａは、要求されたメディアコンテンツに対応するデータを有するメッセージ６５１ｄを受信し、関連するメディアコンテンツを再生する。

ステップ６５０ｅにおいて、再生デバイス１１０ａは、任意選択的に、選択されたメディアコンテンツを再生することを１つ以上の他のデバイスに行わせる。一例では、再生デバイス１１０ａは、２人以上のプレーヤの結合ゾーンのうちの１つである（図１Ｍ）。再生デバイス１１０ａは、選択されたメディアコンテンツを受信し、メディアコンテンツの全部または一部を結合ゾーン内の他のデバイスに送信することができる。別の例では、再生デバイス１１０ａは、グループのコーディネータであり、グループ内の１つ以上の他のデバイスからタイミング情報を送受信するように構成される。グループ内の他の１つ以上のデバイスは、コンピューティングデバイス１０６ａから選択されたメディアコンテンツを受信し、再生デバイス１１０ａからのメッセージに応答して選択されたメディアコンテンツの再生を開始することができ、それにより、グループ内のすべてのデバイスが、選択されたメディアコンテンツを同期して再生する。

ＩＶ．例示的な同期グループ化技術
図７は、ユーザＵがＡＲゲームをプレイしている物理的環境７０１の部屋７５０内に分散された複数の再生デバイス７０２（第１、第２、および、第３の再生デバイス７０２ａ～７０２ｃとして個別に識別される）を備えるメディア再生システム７００（「ＭＰＳ７００」）の構成の一例の上面図である。第１、第２、および、第３の再生デバイス７０２ａ、７０２ｂ、７０２ｃは、ユーザＵに対して第１、第２、および、第３の実世界位置７５０ａ、７５０ｂ、７５０ｃにそれぞれ位置される。図７に示されるように、ＡＲゲームは、仮想シーン７６０（この例では、戦場）、第１および第２仮想オブジェクト７６４ａおよび７６４ｂ（ここでは、第１のタンクおよび第２のタンク）、並びに、仮想メディアオーディオ７６６（第１、第２、および、第３のオーディオ信号７６６ａ、７６６ｂ、７６６ｃによって表わされる）を含む仮想メディアコンテンツを備える。ここで、ユーザＵは、再生デバイス７０２が部屋７５０内で関連する仮想メディアオーディオ７６６を大きな音で再生している間に、コンピュータデバイス７３０のディスプレイを介してリアルタイムで物理的環境７０１上にオーバーレイされた仮想シーン７６０を見ている。以下により詳細に説明するように、ＭＰＳ７００は、再生デバイス７０２による空間オーディオの再生を可能にするためにユーザＵに対する再生デバイス７０２の位置７５０ａ～７５０ｃを仮想メディアコンテンツプロバイダ（「ＶＭＰ」）に送信することができる。空間オーディオは、ユーザＵが物理的環境内の仮想オブジェクト７６０の位置を空間的に知覚できるようにする１つ以上の聴覚キューを含むことができ、それによって、ユーザＵにより現実的で没入感のある体験を提供する。以下に説明するシステムおよび方法は、同じ部屋に配置された３つの再生デバイスを参照しているが、本技術の方法は、同じ部屋または異なる部屋に位置された３つより多いまたは少ない再生デバイス（例えば、２つの再生デバイス、４つの再生デバイス、８つの再生デバイス、２０個の再生デバイスなど）にわたって空間オーディオを再生することを含む。

再生デバイス７０２のそれぞれは、本明細書の他の箇所に記載される再生デバイスおよびネットワークマイクロフォンデバイスの構成要素（例えば、再生デバイス１１０ａもしくは図１Ｃおよび／または図１Ｆのネットワークマイクロフォンデバイス１２０ａ）とほぼ同様の構成要素を含んでもよい。例えば、再生デバイス７０２のそれぞれは、オーディオインタフェース、オーディオ出力プロセッサ、スピーカなどの再生構成要素（図示せず）を含んでもよい。第１、第２、および／または、第３の再生デバイス７０２ａは、任意選択的に、ＶＡＳと関連付けられる音声プロセッサおよびウェイクワードエンジンなどのそれぞれの音声処理構成要素を含んでもよい。第１、第２、および／または、第３の再生デバイス７０２ａ～７０２ｃは、ローカルおよび／またはワイドエリアネットワークを介して互いに通信するように構成されるそれぞれのネットワークインタフェースを更に含んでもよい。また、それぞれのネットワークインタフェースは、ローカルおよび／またはワイドエリアネットワークを介してＭＰＳ７００の他のコンピュータデバイスおよび／または（ＶＡＳおよび／または仮想メディアコンテンツサービスと関連付けられるものなどの）１つ以上の遠隔コンピュータデバイスと通信するように構成されてもよい。

いくつかの実施形態において、第１、第２、および／または、第３の再生デバイス７０２ａ～７０２ｃは、本明細書の他の箇所に記載された態様と同様の態様でＮＭＤを備えるように構成される。例えば、第１、第２、および／または、第３の再生デバイス７０２ａ～７０２ｃは、音を検出するように構成される複数のオンボードマイクロフォン（例えば、遠距離場マイクロフォン）を個別に含んでもよい。マイクロフォンによって検出される音は、それぞれの音声プロセッサによって処理されて（ネットワークインタフェースを介して）ＶＡＳと関連付けられる遠隔コンピュータデバイスに潜在的に送信するためにそれぞれのウェイクワードエンジンに送信されてもよい。

コンピュータデバイス７３０は、ディスプレイを有する任意の適した電子デバイスを備えてもよい。いくつかの実施形態において、コンピュータデバイス７３０は、ＭＰＳ７００のユーザアクセス、制御、および／または、構成を容易にすることに関連する機能を果たすように構成される、本明細書に記載の制御デバイス（制御デバイス１３０ａなど）のいずれかであってもよい。コンピュータデバイス７３０は、例えば、携帯電話、タブレット、ポータブルゲーム装置、ラップトップ、デスクトップ、音声アシスタント装置などを備えることができる。いくつかの実施形態において、コンピュータデバイス７３０は、再生デバイス７０２のうちの１つ以上などのメディア再生システム７００における別のデバイスに組み込まれる。

図８は、本技術のＭＰＳ（ＭＰＳ７００など）を介して空間オーディオを再生するためのプロセス８００の一例を示す。プロセス８００は、メモリ（例えば、図１Ｃのメモリ１１２ｂ）に記憶されて１つ以上の再生デバイス７０２の１つ以上のプロセッサ（例えば、図１Ｃのプロセッサ１１２ａ）によって実行される１つ以上ノード命令を含むことができる。このプロセスは、図７に示されるシナリオにおいてＭＰＳ７００に関連して説明されるが、当業者であれば分かるように、プロセス８００は、他の構成を有するＭＰＳによっておよび／または異なる条件下で実施されてもよい。

図８に示されるように、プロセス８００はブロック８０２で始まり、このブロック８０２において、ＭＰＳ７００は、ユーザＵ、コンピュータデバイス７３０、および／または、他の再生デバイス７０２に対する第１、第２、および、第３の再生デバイス７０２ａ、７０２ｂ、７０２ｃのそれぞれの位置７５０ａ～７５０ｃに対応する位置データを受信する。本技術のいくつかの用途において、ユーザＵは、部屋７５０内（例えば、コーヒーテーブルまたはフロア上の空いているスペース上）の仮想シーン７６０の位置および向きを固定することができ、プロセス８００は、固定位置から位置データを計算することができる。仮想シーン７６０が配置された時点で、コンピュータデバイス７３０は、ユーザがコンピュータデバイス７３０を部屋の周りで移動させる際に仮想シーン７６０のビューが変化するようにカメラとして機能することができる。ＶＭＰによって生成されたオーディオ信号は最初の配置から計算されるため、ＶＭＰによって生成されたオーディオ信号は、ユーザが移動するたびに再計算される必要がない。これに対し、ＨＲＴＦアルゴリズムを利用するヘッドセットは、ユーザが頭を動かす際にヘッドセットの仮想位置に対する音配置を再計算する必要がある。本実施形態では、ユーザＵが物理的環境内で仮想シーン７６０を移動または再配向することを選択すれば、プロセス８００は、新たな配置から位置データを再計算することができる。いくつかの実施形態において、プロセス８００は、コンピュータデバイス７３０および／またはユーザの位置データをリアルタイムで監視および更新するように構成されてもよい。

本技術のいくつかの態様によれば、ＭＰＳ７００および／または再生デバイス７０２のうちの１つ以上は、ユーザがコントローラを介してシーン７６０をズームインまたはズームアウトするのに応じてシステムが再生デバイス７０２のボリュームを調整するように構成されてもよい。例えば、ユーザがオーディオオブジェクトをズームインする（したがって、オーディオオブジェクトに近づく）場合には、再生デバイスのうちの１つ、いくつか、または全てによって再生されるオーディオの音量が増大し得る。同様に、ユーザがオーディオオブジェクトをズームアウトする（したがって、オーディオオブジェクトから遠ざかる）場合には、再生デバイスのうちの１つ、いくつか、または全てによって再生されるオーディオの音量が減少し得る。いくつかの実施形態では、空間内に相対的な配置を与えるために、システムは、超広帯域および／またはＢｌｕｅｔｏｏｔｈビーコンを利用することができる。

いくつかの実施形態において、ＭＰＳ７００および／または再生デバイス７０２のうちの１つ以上は、再生デバイス７０２の第１、第２、および、第３の位置７５０ａ、７５０ｂ、７０２ｃのうちの１つ、いくつか、または、全てを計算してもよい。例えば、いくつかの実施形態において、ＭＰＳ７００は、超音波信号などの固有の信号を発するように再生デバイス７０２のそれぞれに指示することができ、また、ＭＰＳ７００は、コンピュータデバイス７３０のマイクロフォンおよび／または他の再生デバイス７０２の１つ以上のマイクロフォンによる信号の検出に基づいて再生デバイス７０２の位置を計算する。いくつかの実施形態において、ＭＰＳ７００は、再生デバイス７０２の互いに対する位置を特徴付ける位置データを既に有していてもよく、この場合、ＭＰＳ７００は、コンピュータデバイス７３０を介して、再生デバイス７０２の全てよりも少ない（単一の再生デバイス７０２を含む）位置データを取得することによって、ユーザＵおよび／またはコンピュータデバイス７３０に対する再生デバイス７０２のそれぞれの位置を計算してもよい。いくつかの実施形態において、ＭＰＳ７００は、コンピュータデバイス７３０に信号を発するように指示することができ、また、ＭＰＳ７００は、それぞれの再生デバイス７０２における信号の検出に基づいてコンピュータデバイス７３０および／またはユーザＵに対する再生デバイス７０２の位置を計算する。様々な例において、ＭＰＳ７００は、コンピュータデバイス７３０に信号を発するように指示することによって取得されるデータ並びに再生デバイス７０２のうちの１つ以上に信号を発するように指示することによって取得されるデータを利用して再生デバイス位置のうちの１つ以上を決定することができる。

いくつかの実施形態において、ＭＰＳ７００は、第１、第２、および、第３の位置７５０ａ～７５０ｃを計算せず、代わりに、この情報を別個のエンティティから受信するまたは別個のエンティティをＶＭＰにリンクして別個のエンティティがＶＭＰに直接に情報を提供できるようにする。更に、プロセス８００は、同時にまたは異なる時間に再生デバイス７０２の位置を受信および／または決定してもよい。

ブロック８０４に示されるように、プロセス８００は、再生デバイス７０２の位置データをＶＭＰと関連付けられる１つ以上の遠隔コンピュータデバイスに送信することを更に含む。位置データを受信すると、ＶＭＰは、ユーザＵに対する再生デバイス７０２の位置を仮想環境にマッピングすることができる（またはその逆もまた同様である）。したがって、ＶＭＰによってレンダリングされて再生デバイス７０２によって再生された結果として得られるオーディオ信号は、ユーザＵが現実世界空間でオーディオオブジェクトのうちの１つ以上を空間的に位置特定できるようにする聴覚的キューを含む。例えば、第１、第２、および、第３のオーディオ信号７６６ａ、７６６ｂ、７６６ｃは、ユーザが部屋７５０内のユーザＵの前に第１のタンク７６４ａおよび第２のタンク７６４ｂを配置できるようにするオーディオキューを提供するように協働する。本技術のいくつかの態様では、ＭＰＳ７００がこのマッピングを実行し得る。

本技術のいくつかの態様によれば、プロセス８００は、任意選択的に、部屋７５０の音響プロファイルを取得し、この情報を位置データと共にＶＭＰに送信することができる。音響プロファイルは、例えば、再生デバイス７０２、ユーザＵ、および／または、コンピュータデバイス７３０のうちの１つ以上に対する部屋７５０内の表面（例えば、壁、家具、装飾品、別のユーザなど）の位置、それらの表面の吸音特性、および／または、部屋７５０の寸法を含むことができる。ＭＰＳ７００は、例えば、部屋の音響プロファイル（例えば、部屋のＲＴ６０などの残響時間）を測定する或いはそうでなければアクセスすることができる。プロセス８００は、ＶＭＰが再生のためのオーディオ信号を生成するときに考慮のために部屋７５０の音響プロファイルをＶＭＰに送信することができる。ＶＭＰは、部屋７５０および／または物理的環境７０１の他の領域の音響特性を利用して、物理的環境７０１内の再生デバイス７０２の位置に特有のだけでなくユーザの聴取環境の音響的制限にも特有の聴覚的キューを生成することができる。これは、人間の耳が周囲および人間の聴覚系との音声キューの様々な相互作用から音声キューの位置を推定するため、ユーザにとってより現実的な体験を提供する。異なる位置からの音は、脳が空間内の音キューの相対位置を決定できるようにする人間の聴覚系において異なる共振およびキャンセルをもたらす。

また、プロセス８００は、再生デバイスの位置データおよび／または部屋７５０の音響特性に基づいて視覚的仮想コンテンツの１つ以上の態様を調整してもよい。例えば、壁および／または部屋７５０の１つ以上の寸法に対する再生デバイス７０２の位置の受信に応じて、プロセス８００は、仮想シーン７６０の境界を調整することができる。例えば、いくつかのＡＲ／ＭＲ用途では、仮想シーン７６０のサイズを部屋７５０のサイズと一致させることにより、ユーザのための改善された聴取環境が提供され得る。場合によっては、ＶＭＰは、再生デバイス７０２によって規定される領域に一致するようにまたはそれよりも僅かに大きくなるように仮想シーン７６０の境界を調整することができる。いくつかの実施形態において、プロセス８００は、再生デバイス７０２によって規定される領域よりも小さくなるように仮想シーン７６０の境界を調整することができる。

本技術のいくつかの態様において、プロセス８００は、位置データおよび／または音響プロファイルを使用してＭＰＳ７００構成に合わせた調整を推奨しうる。例えば、位置データおよび／または音響プロファイルに基づいて、プロセス８００は、ユーザが（例えば、コンピュータデバイス７３０および／または再生デバイス７０２のうちの１つ以上を介して）聴取環境のギャップを埋めるように再生デバイスのうちの１つを移動させることを提案してもよい。これに加えてまたは代えて、プロセス８００は、ユーザが再生デバイス７０２のうちの１つ以上を無効化することおよび／または特定の位置で再生デバイスを現在の構成に加えることを提案してもよい。いくつかの実施形態において、プロセス８００は、ユーザが物理的環境７０１に対して仮想シーン７６０を再配向することおよび／または部屋７５０および／または物理的環境内の異なる場所に移動させることを提案してもよい。

更に図７および図８を参照すると、ブロック８０６において、プロセス８００は、ＶＭＰと関連付けられる１つ以上の遠隔コンピュータデバイスから、第１、第２、および、第３のオーディオ信号７６６ａ、７６６ｂ、７６６ｃなどの、仮想シーン７６０と関連付けられる仮想メディアオーディオコンテンツ７６６を受信することを含む。オーディオ信号７６６は、ユーザＵが聴取環境内の仮想オブジェクト（仮想オブジェクト７６４ａおよび７６４ｂなど）の位置を空間的に知覚できるようにするべく構成される１つ以上のオーディオキューを含むことができる。人間は様々な聴覚的キューを使用して音が発生する空間点を決定するため、オーディオキューは空間オーディオの重要な構成要素である。例えば、人間の脳は、両耳間時間差（すなわち、各鼓膜に衝突する音間の時間遅延）、両耳間レベル差、スペクトルキュー、時間領域キューなどの音定位キューを迅速且つ効果的に処理して、音の発生点を正確に識別する。

プロセス８００はブロック８０８に続き、ブロック８０８は、第１、第２、および、第３の再生デバイス７０２ａ、７０２ｂ、７０２ｃをそれぞれ介して第１、第２、および、第３のオーディオ信号７６６ａ、７６６ｂ、７６６ｃを再生することを含む。いくつかの実施形態において、第１、第２、および、第３のオーディオ信号７６６ａ～７６６ｃは、再生デバイス７０２によって同期して再生されてもよい。例えば、再生デバイス７０２は、図１Ｉ～図１Ｍに関連して本明細書の他の箇所で説明したようにグループ化および／または結合されてもよい。同様に、プロセス８００は、再生中に第１、第２、および、第３のオーディオ信号７６６ａ、７６６ｂ、７６６ｃをミキシングしてもよい。これに加えてまたは代えて、プロセス８００は、例えば、仮想環境における仮想オブジェクトの位置の変化に応じて、第１、第２、および／または、第３のオーディオ信号７６６ａ、７６６ｂ、７６６ｃをクロスフェードすることを含んでもよい。例えば、図７に示されるシナリオでは、第１のタンク７６４がユーザの右耳に最も近く、したがって、第１のタンク７６４によって生成される任意の音は、排他的に与えられない場合、ユーザの右側の再生デバイス（すなわち、第２の再生デバイス７５０ｂ）によってより高い強度で再生される。第１のタンク７６４が仮想戦場７６０を横切ってユーザの左側に移動する場合、プロセス８００は、第１のタンクのオーディオを第２の再生デバイス７５０ｂからユーザの左側の再生デバイス（すなわち、第３の再生デバイス７０２）へクロスフェードすることができる。

いくつかの実施形態において、プロセス８００は、部屋７５０および／または物理的環境７０１内の再生デバイス７０２の全てよりも少ない再生デバイス７０２で仮想メディアオーディオコンテンツの再生をもたらすことができる。例えば、ユーザおよび／またはＭＰＳ７００は、仮想シーンと関連付けられない非空間オーディオまたはオーディオコンテンツを再生するための利用可能な再生デバイスのうちの１つ以上を指定することができる。非空間オーディオは、例えば、音楽、および、再生デバイス７０２のうちのＮＭＤを装備したものの１つからのアナウンス／応答を含んでもよい。そのような特徴は、例えば、ユーザがＡＲ／ＭＲゲームをプレイしながらバックグラウンドで音楽を再生したい場合または再生デバイス７０２のうちの１つ以上の音声アシスタント機能を利用したい場合に有用であり得る。したがって、ＭＰＳ７００は、非仮想メディアオーディオを同時に再生しながら少なくとも２つの再生デバイスを介して同期して空間オーディオを再生するように構成され得る。

いくつかの実施形態において、プロセス８００は、仮想メディアオーディオを再生するために物理的環境内で利用可能なおよび／または好ましい再生デバイスを識別することを更に含む。いくつかの実施形態において、プロセス８００は、（例えば、コンピュータデバイス７３０を介した）ユーザによる選択のための再生デバイスのグルーピングを提案することができ、また、いくつかの実施形態では、プロセス８００は、再生のために特定の再生デバイスまたは再生デバイスのグループを自動的に選択することができる。これに加えてまたは代えて、プロセス８００は、オーディオコンテンツの少なくとも一部を再生するために部屋７５０の外側に位置される１つ以上の再生デバイスを利用することを提案することができる。

前述したように、本技術のＭＰＳによって提供されるアウトラウドリスニング体験は、制御デバイス上またはヘッドセット上のヘッドホンおよび／またはスピーカなどのＡＲ／ＭＲのための現在のオーディオオプションに優るいくつかの利点を与える。例えば、大音量で聴取することは、ＡＲ／ＭＲ／ＶＲバイザのヘッドバンドに組み込まれたヘッドホンまたはスピーカと比較してより大きな音環境を可能にする。更に、大音量で聴取する構成では、適切な音のためにヘッドホンで再生されるオーディオが耳形状などを考慮に入れなければならない一方で、「記録されたまま」のオーディオが再生されてもよい。ヘッドホンユーザは、ヘッドホンに結合されたサブウーファを利用して、より深い低音および体験への何らかの「感触」を得ることができる。本技術のＭＰＳ７００は、ユーザが「ＶＲ」空間を専有する必要なく既存のスピーカを活用できるようにするという更なる利点を与える。

いくつかの実施形態において、ＭＰＳ７００は、ＡＲ／ＭＲヘッドセットによって提供されるオーディオコンテンツを増強または補完するために、再生デバイス７０２を介して仮想メディアオーディオを再生するように構成されてもよい。前述したように、いくつかの市販のＡＲ／ＭＲヘッドセットは、オーバーまたはインイヤースピーカを介してまたはヘッドセットのヘッドバンドに組み込まれたアウトラウドスピーカ（ＭＡＧＩＣＬＥＡＰＯＮＥおよびＭＩＣＲＯＳＯＦＴ’ＳＨＯＬＯＬＥＮＳなど）を介して大音量でユーザに空間オーディオを提供する。本技術の様々な態様において、利用可能な再生デバイス７０２のうちの１つ、いくつか、または、全ては、ヘッドセットによって与えられる１つ以上のスピーカに結合されてもよい。ＭＰＳ７００は、例えば、より深い低音を提供して体験により多くの「感触」を加えるために、サブウーファを有するヘッドセットによって与えられるオーディオを補うことができる。

ＭＰＳ７００は、観客モードにある第１のユーザのゲームプレイを視聴する第２のユーザに空間オーディオを与えるように構成されてもよい。例えば、第２のユーザ（図示せず）は、第２のユーザが第１のユーザとは異なる部屋または物理的環境内に位置される間に、第１のユーザのゲームプレイを視聴したい場合がある。第２のユーザは、第１のユーザによって利用されている再生デバイス７０２とは異なる１つ以上の再生デバイスを有する物理的環境に位置されてもよい。この場合、本技術のプロセスは、第２のユーザに対する第２のユーザの再生デバイスの位置情報を取得すること、および、位置情報をＶＭＰへ送信することを含むことができる。

Ｖ．結論
再生デバイス、制御デバイス、再生ゾーン構成、およびメディアコンテンツソースに関する上述した説明は、以下に説明する機能および方法が実装され得る動作環境のいくつかの例を示しているに過ぎない。本明細書で明示的に記載されていないメディア再生システム、再生デバイス、およびネットワークデバイスの他の動作環境および構成もまた、機能および方法の実装に適用可能であり、好適であり得る。

上記の説明は、数ある中で、他の構成要素の中で、ハードウェア上で実行されるファームウェアおよび／またはソフトウェアを含む、様々な例示的なシステム、方法、装置、および製造品を開示している。そのような例は単なる例示であり、限定的なものと考えるべきではないことが理解される。例えば、ファームウェア、ハードウェア、および／またはソフトウェアの態様または構成要素のいずれかまたはすべてが、ハードウェアのみで、ソフトウェアのみで、ファームウェアのみで、またはハードウェア、ソフトウェア、および／またはファームウェアの任意の組み合わせで具現化され得ることが意図されている。したがって、提供される例は、そのようなシステム、方法、装置、および／または製造品を実装するための唯一の方法ではない。

さらに、本明細書において「実施形態」への言及は、実施形態に関連して記載された特定の機能、構造、または特徴が、本発明の少なくとも１つの例示的な実施形態に含まれ得ることを意味する。本明細書の様々な場所で現れているこの用語は、必ずしもすべてが同じ実施形態を指すものではなく、また、別個の実施形態または代替的な実施形態が他の実施形態と相互に排他的であるものでもない。そのように、本明細書に記載された実施形態は、当業者であれば明示的にも暗黙的にも理解されるように、他の実施形態と組み合わせることができる。

本明細書は、ネットワークに接続されたデータ処理デバイスの動作に直接または間接的に類似した例示的な環境、システム、手順、ステップ、論理ブロック、処理、および他の記号的表現の観点から広く提示されている。これらのプロセス記述および表現は、当業者が、他の当業者にその作業の実体を最も効果的に伝えるために典型的に使用される。多くの特定の詳細は、本開示の完全な理解を提供するために記載されている。しかしながら、本開示の特定の実施形態は、特定の具体的な詳細なしに実施することができることは、当業者に理解されるであろう。他の実施例では、実施形態の態様を不必要に不明瞭にすることを避けるために、周知の方法、手順、構成要素、および回路が詳細に記載されていない。したがって、本開示の範囲は、前記の実施形態の説明よりもむしろ、添付の特許請求の範囲によって定義される。

添付の特許請求の範囲のいずれかが、純粋にソフトウェアおよび／またはファームウェアの実装をカバーするために読み取られる場合、少なくとも１つの例における要素のうちの少なくとも１つは、ソフトウェアおよび／またはファームウェアを格納するメモリ、ＤＶＤ、ＣＤ、ブルーレイなどのような有形の非一時的な媒体を含むことを本明細書では明示的に定義される。

本技術は、例えば、以下に記載される様々な態様にしたがって例示される。本技術の態様の様々な例は、便宜上番号を付した例（１、２、３など）として説明される。これらは、一例として与えられ、本技術を限定するものではない。従属例のいずれも、任意の組み合わせで組み合わせることができ、それぞれの独立した例へと配置され得ることに留意されたい。他の例も同様に提示することができる。

例１：聴取環境におけるユーザに対する第１の再生デバイスの第１の位置を受信するステップと、聴取環境におけるユーザに対する第２の再生デバイスの第２の位置を受信するステップと、第１および第２の位置に対応する位置データをメディアコンテンツプロバイダに送信するステップと、仮想環境と関連付けられる仮想メディアオーディオコンテンツをメディアコンテンツプロバイダから受信するステップであって、仮想メディアオーディオコンテンツが送信された位置データに基づいて生成される第１および第２のオーディオ信号を含み、生成される第１および第２のオーディオ信号が、ユーザが聴取環境内の仮想オブジェクトの位置を空間的に知覚できるようにするべく構成される１つ以上のオーディオキューを含む、ステップと、第２の再生デバイスを介した第２のオーディオ信号の再生と同期して第１の再生デバイスを介して前記第１のオーディオ信号を再生するステップとを含む方法。

例２：仮想メディアオーディオコンテンツは、仮想環境内の仮想オブジェクトの視覚的表示が聴取環境内の現実世界空間上にオーバーレイされる間に再生される、例１の方法。

例３：第１および第２のオーディオ信号の再生は、第１および第２のオーディオ信号をミキシングすることを更に含む、例１または２の方法。

例４：仮想環境内の仮想オブジェクトの位置の変化に応じて第１および第２のオーディオ信号をクロスフェードするステップを更に含む、例３の方法。

例５：オーディオキューは、両耳間時間差、両耳間レベル差、スペクトルキュー、または、時間領域キューのうちの少なくとも１つを含む、例１から４のいずれか１つの方法。

例６：仮想メディアオーディオコンテンツが仮想環境に対する仮想オブジェクトの軌跡を含む、例１から５のいずれか１つの方法。

例７：ネットワークマイクロフォンデバイスに例１から６のいずれか１つの方法を実行させるために１つ以上のプロセッサによって実行可能な命令を記憶する有形持続性コンピュータ可読媒体。

例８：メディア再生システムであって、プロセッサと、メディア再生システムに例１から６のいずれか１つの方法を実行させるためにプロセッサによって実行可能な命令を記憶する有形持続性コンピュータ可読媒体とを備える、メディア再生システム。

例９：ネットワークマイクロフォンデバイスであって、音を検出するように構成される１つ以上のマイクロフォンと、１つ以上のプロセッサと、ネットワークマイクロフォンデバイスに例１から６のいずれかの方法を実行させるために１つ以上のプロセッサによって実行可能な命令が記憶された有形持続性コンピュータ可読媒体とを備えるネットワークマイクロフォンデバイス。

Claims

聴取環境におけるユーザに対する第１の再生デバイスの第１の位置を受信するステップと、
前記聴取環境における前記ユーザに対する第２の再生デバイスの第２の位置を受信するステップと、
前記第１および第２の位置に対応する位置データをメディアコンテンツプロバイダに送信するステップと、
仮想環境に関連付けられる仮想メディアオーディオコンテンツを前記メディアコンテンツプロバイダから受信するステップであって、前記仮想メディアオーディオコンテンツが送信された前記位置データに基づいて生成される第１および第２のオーディオ信号を含み、生成される前記第１および第２のオーディオ信号が、前記ユーザが前記聴取環境内の仮想オブジェクトの位置を空間的に知覚できるように構成される１つまたは複数のオーディオキューを含む、ステップと、
前記第２の再生デバイスを介した前記第２のオーディオ信号の再生と同期して前記第１の再生デバイスを介して前記第１のオーディオ信号を再生するステップと、
を含む、
方法。
前記仮想メディアオーディオコンテンツは、前記仮想環境内の前記仮想オブジェクトの視覚的表示が前記聴取環境内の現実世界空間上にオーバーレイされる間に再生される、
請求項１に記載の方法。
前記第１および第２のオーディオ信号を再生するステップは、前記第１および第２のオーディオ信号をミキシングすること、をさらに含む、
請求項１または２に記載の方法。
前記仮想環境内の前記仮想オブジェクトの位置の変化に応じて前記第１および第２のオーディオ信号をクロスフェードするステップ、をさらに含む、
請求項３に記載の方法。
前記オーディオキューは、両耳間時間差、両耳間レベル差、スペクトルキュー、または、時間領域キューのうちの少なくとも１つを含む、
請求項１から４のいずれか一項に記載の方法。
前記仮想メディアオーディオコンテンツが前記仮想環境に対する前記仮想オブジェクトの軌跡を含む、
請求項１から５のいずれか一項に記載の方法。
前記仮想環境が拡張現実環境である、
請求項１から６のいずれか一項に記載の方法。
前記第１および第２の再生デバイスの前記第１および第２の位置はそれぞれ、前記ユーザに関連付けられる制御デバイスに対して決定される、
請求項１から７のいずれか一項に記載の方法。
前記制御デバイスの位置を監視するステップをさらに含み、前記制御デバイスの前記位置または向きが変化する場合、
前記制御デバイスに対する前記第１および第２の位置を再計算するステップと、
再計算された前記第１および第２の位置を前記メディアコンテンツプロバイダに送信するステップと、
前記メディアコンテンツプロバイダから、送信された再計算された前記第１および第２の位置に基づいて生成される更新された第１および第２のオーディオ信号を含む仮想メディアコンテンツを受信するステップと、
前記第２の再生デバイスを介した前記第２のオーディオ信号の再生と同期して前記第１の再生デバイスを介して前記第１のオーディオ信号を再生するステップと、
をさらに含む、
請求項８に記載の方法。
前記メディアコンテンツプロバイダへ前記聴取環境の音響プロファイルを送信するステップと、
前記メディアコンテンツプロバイダから、前記聴取環境の送信された前記音響プロファイルに基づいて調整される第１および第２のオーディオ信号を受信するステップと、
をさらに含む、
請求項１から９のいずれか一項に記載の方法。
前記聴取環境に関する情報に基づいて前記第１および第２のオーディオ信号に関連付けられる仮想シーンを調整するよう前記メディアコンテンツプロバイダによって使用するために、前記聴取環境の音響特性と前記聴取環境の１つまたは複数の次元に対する前記再生デバイスの位置とのうちの少なくとも一方を含む、前記聴取環境に関する前記情報を、前記メディアコンテンツプロバイダに送信するステップをさらに含む、
請求項１から１０のいずれか一項に記載の方法。
前記聴取環境の前記位置データおよび／または音響プロファイルを使用して前記仮想環境の構成を調整するための推奨事項を決定するステップ、をさらに含む、
請求項１から１１のいずれか一項に記載の方法。
第２の聴取環境において、第３および第４の再生デバイスのそれぞれの第３および第４の位置に対応する情報を取得するステップと、
前記第３および第４の位置に対応する位置データを前記メディアコンテンツプロバイダに送信するステップと、
前記第１および第２の再生デバイスの前記仮想環境に関連付けられる仮想メディアオーディオコンテンツを前記メディアコンテンツプロバイダから受信するステップであって、前記仮想メディアオーディオコンテンツが、前記第３および前記第４の位置に対応する前記位置データに基づく少なくとも第３および第４のオーディオ信号を含む、ステップと、
前記第３および第４の再生デバイスによって前記第３および第４のオーディオ信号をそれぞれ同期して再生するステップと、
をさらに含む、
請求項１から１２のいずれか一項に記載の方法。
メディア再生システムに請求項１から１３のいずれか一項に記載の方法を実行させるための１つまたは複数のプロセッサにより実行可能な命令を記憶する有形非一時的コンピュータ可読媒体。
メディア再生システムであって、
第１および第２の再生デバイスと、
前記メディア再生システムに請求項１から１３のいずれか一項に記載の方法を実行させるためのプロセッサにより実行可能な命令を記憶する有形非一時的コンピュータ可読媒体と、
を備えるメディア再生システム。