JP2023500658A - シミュレーション環境に関連した空間オーディオを提供するシステムおよび方法 - Google Patents

シミュレーション環境に関連した空間オーディオを提供するシステムおよび方法 Download PDF

Info

Publication number
JP2023500658A
JP2023500658A JP2022525477A JP2022525477A JP2023500658A JP 2023500658 A JP2023500658 A JP 2023500658A JP 2022525477 A JP2022525477 A JP 2022525477A JP 2022525477 A JP2022525477 A JP 2022525477A JP 2023500658 A JP2023500658 A JP 2023500658A
Authority
JP
Japan
Prior art keywords
audio
playback
media
virtual
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022525477A
Other languages
English (en)
Inventor
コール ハリス,ジョナサン
マイケル トーガーソン,ジェフリー
Original Assignee
ソノズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソノズ インコーポレイテッド filed Critical ソノズ インコーポレイテッド
Publication of JP2023500658A publication Critical patent/JP2023500658A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/005Audio distribution systems for home, i.e. multi-room use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

空間オーディオを提供するためのシステムおよび方法が本明細書に開示される。1つの例において、方法は、聴取環境におけるユーザに対する第1の再生デバイスの第1の位置を受信するステップと、聴取環境におけるユーザに対する第2の再生デバイスの第2の位置を受信するステップと、第1および第2の位置に対応する位置データをメディアコンテンツプロバイダに送信するステップと、仮想環境と関連付けられる仮想メディアオーディオコンテンツをメディアコンテンツプロバイダから受信するステップであって、仮想メディアオーディオコンテンツが送信された位置データに基づいて生成される第1および第2のオーディオ信号を含み、生成される第1および第2のオーディオ信号が、ユーザが聴取環境内の仮想オブジェクトの位置を空間的に知覚できるようにするべく構成される1つ以上のオーディオキューを含む、ステップと、第2の再生デバイスを介した第2のオーディオ信号の再生と同期して第1の再生デバイスを介して第1のオーディオ信号を再生するステップとを含む。

Description

本国際出願は、2019年10月30日に出願された米国特許出願第16/669,126号明細書の利益を主張し、その全体が参照により本明細書に組み込まれる。
本開示は、コンシューマ製品に関するものであり、特に、メディア再生に向けられた方法、システム、製品、機能、サービス、および他の要素に関するものや、それらのいくつかの態様に関する。
2002年に、ソノス・インコーポレイテッドが新しいタイプの再生システムの開発を開始するまで、アウトラウド設定でデジタルオーディオにアクセスして聴くためのオプションは限られていた。ソノスは、2003年に最初の特許出願の1つである「複数のネットワークデバイス間のオーディオ再生を同期する方法(Method for Synchronizing Audio Playback between Multiple Networked Devices)」と題する特許出願を行い、2005年に初のメディア再生システムの販売を開始した。ソノスワイヤレスホームサウンドシステムによって、人々は1つまたは複数のネットワーク再生デバイスを介して多くのソースから音楽を体験できるようになっている。コントローラ(例えば、スマートフォン、タブレット、コンピュータ、音声入力装置)にインストールされたソフトウェアコントロールアプリケーションを通じて、ネットワーク再生デバイスを備えたいずれの部屋においても、人々は所望の音楽を再生することができる。メディアコンテンツ(例えば、歌、ポッドキャスト、ビデオサウンド)は、再生デバイスにストリーミングされ、再生デバイスを備えた各部屋で、対応する異なるメディアコンテンツを再生できるようになっている。また、同じメディアコンテンツを同期再生するために複数の部屋をグループ化すること、および/またはすべての部屋において同じメディアコンテンツを同期して聴くこともできる。
本明細書で開示されている技術の特徴、態様、および利点は、以下に記載されているように、以下の説明、添付の特許請求の範囲、および添付の図面を参照するとより理解され得る。当業者においては、図面に示された特徴が図示の目的のためであって、異なる特徴および/または追加の特徴およびその配置を含む変形が可能であることを理解できる。
開示された技術の態様に従って構成されたメディア再生システムを含む環境の部分断面図である。 図1Aのメディア再生システムと1つまたは複数のネットワークの概略図である。 再生デバイスのブロック図である。 再生デバイスのブロック図である。 ネットワークマイクロフォンデバイスのブロック図である。 ネットワークマイクロフォンデバイスのブロック図である。 再生デバイスのブロック図である。 制御デバイスの概略部分図である。 対応するメディア再生システムゾーンの概略図である。 対応するメディア再生システムゾーンの概略図である。 対応するメディア再生システムゾーンの概略図である。 対応するメディア再生システムゾーンの概略図である。 メディア再生システムエリアの概略図である。 開示された技術の態様に従って構成された再生デバイスの正面等角図である。 グリルを有さない図2Aの再生デバイスの正面等角図である。 図2Aの再生デバイスの分解図である。 開示された技術の態様に従って構成されたネットワークマイクロフォンデバイスの正面図である。 図3Aのネットワークマイクロフォンデバイスの側面等角図である。 図3Aおよび図3Bのネットワークマイクロフォンデバイスの分解図である。 図3Bの一部の拡大図である。 図3A~図3Dのネットワークマイクロフォンデバイスのブロック図である。 例示的な音声入力の概略図である。 開示された技術の態様による様々な動作段階における制御デバイスの概略図である。 開示された技術の態様による様々な動作段階における制御デバイスの概略図である。 開示された技術の態様による様々な動作段階における制御デバイスの概略図である。 開示された技術の態様による様々な動作段階における制御デバイスの概略図である。 制御デバイスの正面図である。 メディア再生システムのメッセージのフロー図である。 本技術の態様による例示的なメディア再生システムの構成を示す概略図である。 本技術の態様によるメディア再生システムを介してシミュレーションされた経験に関連する空間オーディオを提供するよう構成されたプロセスのフロー図である。
図面は、いくつかの例示的な実施形態を例示することを目的としているが、当業者であれば、本明細書に開示された技術が、図面に示された配置および手段に限定されるものではないことは理解される。
I.概要
拡張現実(「AR:augmented reality」)および複合現実(「MR:mixed reality」)は、視覚および音声コンテンツなどのコンピュータにより生成された間隔入力を使用して、ユーザの現実世界体験を強化する、インタラクティブな現実ベースのディスプレイ環境の一種である。完全に人工的な環境を作り出す仮想現実(「VR:virtual reality」)とは異なり、AR/MRは、既存の環境を使用して、その上に新しい情報を重ね合わせるものである。AR/MRの目標は、現実世界のユーザの間隔を、仮想世界のコンテンツとシームレスに融合させて、ユーザが物理環境の自然な一部として仮想コンテンツを知覚することができるようにすることである。視覚的手がかり(visual cue)は、通常、AR/MR/VRアプリケーションを推進して開発努力の最前線にとどまるが、説得力のあるAR/MR/VR体験を実現するために、音声も重要な役割を担っている。
AR/MR/VRサウンドにおけるより重要な開発の1つは、「空間オーディオ」、または、リスナーが三次元(「3D」)空間内で音声を「ローカライズ(localize)」できるような聴覚的手がかり(aural cue)を含むオーディオである。両耳間時間差および両耳間レベルさなどのオーディオキュー(audio cue)は、ユーザが実際の3D環境にいることを示し、それにより、没入感の向上に大きく寄与している。ステレオおよびサラウンド音響は、モノラル音響の再生よりもよりリアルな視聴環境を提供するが、ステレオおよびサラウンド音響は、完全な没入型の体験を提供するという点で、依然として空間オーディオには及ばない。例えば、ステレオは、一次元(右から左)に限定され、サラウンド音響は、二次元(左、右、前、後)だけに限定される。一方、空間オーディオは、さらに、リスナーの下および上に音を配置することができる。空間オーディオは、没入感を完成させるためのメカニズムとして機能するだけでなく、物語性を向上させる。AR/MRにおいて空間オーディオを実装しないと、例えば、ユーザは、インタラクティブな経験で次にどこを見るべきであるかを簡単に見失ってしまうことがある。
AR/MR/VRアプリケーション用の3Dサウンドを作成する際の主な課題の1つは、ユーザの頭部位置の微妙な変化に応じて、オーディオレベルおよび方向を動的に調整することである。仮想世界のキャラクターが、ユーザの左からユーザに近づく場合、ユーザは、その音を左耳で最も大きく聞くはずである。ユーザが頭を動かして近づいてくるキャラクターを直接見ると、両耳で音が均等に聞こえるようになるはずである。このようなリアルなオーディオ体験をユーザに提供するために、従来のVRヘッドセット(OCULUS RIFT、およびHTC VIVE)は、頭の動きを追跡し、頭部伝達関数(「HRTF」)を使用して音の配置を計算することのできるオーディオシステムを内蔵している。しかし、従来のVRヘッドセットは、通常ユーザの目を覆って周囲の物理環境を隠してしまうため、AR/MRアプリケーションには適していないことがある
本開示のメディア再生システムは、AR/MRアプリケーションにアウトラウド空間オーディオを提供することにより、上述した問題の少なくともいくつかに対処する。例えば、本開示の実施形態は、リスニング環境におけるユーザに対する第1および第2再生デバイスの第1および第2位置を受信するよう構成されたメディア再生システムを含む。メディア再生システムは、メディアコンテンツプロバイダに、第1および第2位置に対応する位置データを送信し、メディアコンテンツプロバイダから、仮想環境に関連する仮想メディアオーディオコンテンツを受信するよう構成されてもよい。例えば、仮想メディアオーディオコンテンツは、送信された位置情報に基づいて生成され、ユーザがリスニング環境内の仮想オブジェクトの位置を空間的に知覚できるよう構成された1つまたは複数のオーディオキューを含む、第1および第2オーディオ信号を含んでもよい。そして、メディア再生システムは、第2再生デバイスを介して第2オーディオ信号を再生するのと同期して、第1再生デバイスを介して第1オーディオ信号を再生するよう構成されてもよく、それにより、ユーザに、アウトラウド設定における没入型オーディオ体験を提供することができる。
AR/MRアプリケーション用にアウトラウド設定で空間オーディオを提供することは、ヘッドセットを通して体験される空間オーディオに比べていくつかのAR/MRアプリケーション利点がある。アウトラウドリスニング体験は、例えば、複数人でリアルタイムに共有する(すなわち、「マルチプレーヤーモード」、「シェアリングAR」、「ソーシャルAR/MR」など)に対して、より社会貢献性の高い環境を実現することができる。さらに、アウトラウドリスニングにより、ユーザがヘッドセット(少なくともオーディオの目的で)を着用する必要性がなくなり、現実世界のリスニング条件をより厳密に模倣することができる。場合によっては、ヘッドセットの存在が、ユーザの仮想世界への「自然な」没入感を損なうことがあり、および/または、ユーザは、ゲームプレイ中にヘッドセットに邪魔されないことを好むことがある。さらに、本技術のメディア再生システムが空間オーディオをアウトラウドに提供するため、音は、ユーザ(または関連する制御デバイス)の初期位置から計算され、ユーザが動くたびに再計算する必要がない。そのため、アウトラウドオーディオは、計算負荷が小さくて済む。本明細書で議論するこれらの理由および他の理由により本技術のメディア再生システムは、AR/MRユーザに改良されたよりリアルなシミュレーション体験を提供する。
本明細書に記載されるいくつかの例は、「ユーザ(user)」、「リスナー(listener)」、および/または他のエンティティのような所定のアクターによって実行される機能を参照してもよいが、これは説明のためだけのものであることが理解されるべきである。特許請求の範囲は、特許請求の範囲自体の用語によって明示的に要求されない限り、そのような例示的なアクターによるアクションを要求するように解釈されるべきではない。
図において、同一の参照番号は、概ね類似する、および/または同一の要素を識別する。任意の特定の要素の説明を容易にするために、参照番号の最も重要な桁または複数の桁は、その要素が最初に紹介される図を参照する。例えば、要素110aは、図1Aを参照して最初に紹介され、説明される。図に示された詳細、寸法、角度、および他の特徴の多くは、単に開示された技術の特定の実施形態を例示しているにすぎない。したがって、他の実施形態は、本開示の精神または範囲から逸脱することなく、他の詳細、寸法、角度、および特徴を有することができる。さらに、当業者であれば、開示された様々な技術のさらなる実施形態が、以下に記載された詳細のいくつかによらずに実施可能であることを理解するであろう。
II.好適な動作環境
図1Aは、環境101(例えば、家屋)に配置されたメディア再生システム100の部分断面図である。メディア再生システム100は、1つまたは複数の再生デバイス110(再生デバイス110a-nとして個別に識別される)、1つまたは複数のネットワークマイクロフォンデバイス(「NMD」)120(NMD120a-cとして個別に識別される)、および1つまたは複数の制御デバイス130(制御デバイス130a、130bとして個別に識別される)を備える。
本明細書で使用されるように、「再生デバイス」という用語は、概して、メディア再生システムのデータを受信し、処理し、出力するように構成されたネットワークデバイスを指すことができる。例えば、再生デバイスは、オーディオコンテンツを受信し、処理するように構成されたネットワークデバイスであり得る。いくつかの実施形態では、再生デバイスは、1つまたは複数のアンプによって給電される1つまたは複数のトランスデューサまたはスピーカを含む。しかしながら、他の実施形態では、再生デバイスは、スピーカおよびアンプのいずれか一方(またはどちらでもない)を含む。例えば、再生デバイスは、対応するワイヤまたはケーブルを介して再生デバイスの外部にある1つまたは複数のスピーカを駆動するように構成された1つまたは複数のアンプを含むことができる。
さらに、本明細書で使用されるように、NMD(すなわち、「ネットワークマイクロフォンデバイス」)という用語は、概して、オーディオ検出のために構成されたネットワークデバイスを指すことができる。いくつかの実施形態では、NMDは、主にオーディオ検出のために構成されたスタンドアロンデバイスである。他の実施形態では、NMDは再生デバイスに組み込まれている(またはその逆である)。いくつかの実施例では、ネットワークメディア再生システムの一部として構成される再生デバイスは、NMDの構成要素および機能を含んでもよい(すなわち、再生デバイスは「NMDを装備」である)。この点で、このような再生デバイスは、人が話す音、再生デバイス自体または近くにある別の再生デバイスから出力される音、または、他の周辺ノイズなど再生デバイスの環境に存在する音を検出するよう構成されたマイクロフォンを含んでもよく、および、ウェイクワード識別を容易にするために、検出された音をバッファリングする構成要素も含んでもよい。
「制御デバイス」という用語は、概して、ユーザのアクセス、制御および/またはメディア再生システム100の構成を容易にするために関連する機能を実行するように構成されたネットワークデバイスを指すことができる。
再生デバイス110の各々は、1つまたは複数のメディアソース(例えば、1つまたは複数のリモートサーバ、1つまたは複数のローカルデバイス)からオーディオ信号またはデータを受信し、受信したオーディオ信号またはデータを音として再生するように構成されている。1つまたは複数のNMD120は、スポークンワードコマンド(spoken word command)を受信するように構成され、1つまたは複数の制御デバイス130は、ユーザ入力を受信するように構成されている。受信されたスポークンワードコマンドおよび/またはユーザ入力に応答して、メディア再生システム100は、再生デバイス110の1つまたは複数を介してオーディオを再生することができる。特定の実施形態では、再生デバイス110は、トリガに応答してメディアコンテンツの再生を開始するように構成されている。例えば、再生デバイス110の1つまたは複数は、関連するトリガ条件(例えば、キッチン内のユーザの存在、コーヒーマシンの操作の検出)が検出されたときに、朝のプレイリストを再生するように構成され得る。いくつかの実施形態では、例えば、メディア再生システム100は、第2再生デバイス(例えば、再生デバイス100b)と同期して、第1再生デバイス(例えば、再生デバイス100a)からのオーディオを再生するように構成される。本開示の様々な実施形態に従って構成されるメディア再生システム100の再生デバイス110、NMD120、および/または制御デバイス130の間のインタラクションは、図1B~図6に関して以下でより詳細に説明される。
図1Aの例示された実施形態では、環境101は、(左上から時計回りに)マスターバスルーム101a、マスターベッドルーム101b、セカンドベッドルーム101c、ファミリールームまたはデン101d、オフィス101e、リビングルーム101f、ダイニングルーム101g、キッチン101h、および屋外パティオ101iを含む、複数の部屋、空間、および/または再生ゾーンを有する家庭で構成されている。特定の実施形態および例は、家庭環境の文脈で以下に記載されているが、本明細書に記載された技術は、他のタイプの環境で実施されてもよい。いくつかの実施形態では、例えば、メディア再生システム100は、1つまたは複数の商業的な設備(例えば、レストラン、モール、空港、ホテル、小売店または他の店舗)、1つまたは複数の車両(例えば、スポーツユーティリティ車両、バス、自動車、船、ボート、飛行機)、複数の環境(例えば、家庭環境と車両環境の組み合わせ)、および/またはマルチゾーンオーディオが望ましいかもしれない別の適切な環境で実施することができる。
メディア再生システム100は、1つまたは複数の再生ゾーンを構成することができ、そのうちのいくつかは、環境101内の部屋に対応していてもよい。メディア再生システム100は、1つまたは複数の再生ゾーンで確立されていてもよく、その後、追加のゾーンが追加されてもよく、または削除されて、例えば図1Aに示す構成を確立してもよい。各ゾーンは、オフィス101e、マスターバスルーム101a、マスターベッドルーム101b、セカンドベッドルーム101c、キッチン101h、ダイニングルーム101g、リビングルーム101f、および/またはバルコニー101iのような、異なる部屋または空間に応じた名前を与えられてもよい。いくつかの態様では、単一の再生ゾーンは、複数の部屋またはスペースを含んでいてもよい。特定の態様において、単一の部屋または空間は、複数の再生ゾーンを含んでいてもよい。
図1Aの例示された実施形態では、マスターバスルーム101a、セカンドベッドルーム101c、オフィス101e、リビングルーム101f、ダイニングルーム101g、キッチン101h、および屋外パティオ101iは、それぞれ1つの再生デバイス110を含み、マスターベッドルーム101bおよびデン101dは、複数の再生デバイス110を含む。マスターベッドルーム101bにおいて、再生デバイス110lおよび110mは、例えば、複数の再生デバイス110の個々のものとして、結合された再生ゾーンとして、統合再生デバイスとして、および/またはそれらの任意の組み合わせとして、オーディオコンテンツを同期して再生するように構成されていてもよい。同様に、デン101dにおいて、再生デバイス110h-jは、例えば、複数の再生デバイス110の個々のものとして、1つまたは複数の結合再生デバイスとして、および/または1つまたは複数の統合再生デバイスとして、オーディオコンテンツを同期して再生するように構成されてもよい。結合再生デバイスおよび統合再生デバイスに関する追加の詳細は、図1Bおよび1E、ならびに図1I~図1Mに関して以下に記載される。
いくつかの態様において、環境101内の1つまたは複数の再生ゾーンは、それぞれ異なるオーディオコンテンツを再生してもよい。例えば、あるユーザがパティオ101iでグリルをしながら、再生デバイス110cによって再生されているヒップホップ音楽を聴いている間に、別のユーザがキッチン101hで料理の準備をしながら、再生デバイス110bによって再生されているクラシック音楽を聴いていてもよい。別の例では、再生ゾーンは、別の再生ゾーンと同期して同じオーディオコンテンツを再生してもよい。例えば、ユーザはオフィス101eにいて、パティオ101iで再生デバイス110cによって再生されている同じヒップホップ音楽が再生デバイス110fによって再生されているのを聴いてもよい。いくつかの態様において、再生デバイス110cおよび110fは、異なる再生ゾーン間を移動しながら、オーディオコンテンツがシームレスに(または少なくとも実質的にシームレスに)再生されていることをユーザが知覚するように、ヒップホップ音楽を同期して再生する。再生デバイスおよび/または再生ゾーン間のオーディオ再生に関する追加の詳細は、例えば、「複数の独立してクロックされるデジタルデータ処理デバイス間で動作を同期するためのシステムおよび方法(System and method for synchronizing operations among a plurality of independently clocked digital data processing devices)」と題する米国特許第8,234,395号明細書に見出すことができ、その全体が参照により本明細書に組み込まれている。
a.好適なメディア再生システム
図1Bは、メディア再生システム100およびクラウドネットワーク102の概略図である。図示を容易にするために、図1Bでは、メディア再生システム100およびクラウドネットワーク102の特定のデバイスは省略されている。メディア再生システム100とクラウドネットワーク102とを通信接続する1つまたは複数の通信リンク103(以下、「リンク103」という)が設けられている。
リンク103は、例えば、1つまたは複数の有線ネットワーク、1つまたは複数の無線ネットワーク、1つまたは複数の広域ネットワーク(WAN)、1つまたは複数のローカルエリアネットワーク(LAN)、1つまたは複数のパーソナルエリアネットワーク(PAN)、1つまたは複数の通信ネットワーク(例えば、1つまたは複数のモバイル向けグローバルシステム(GSM:Global System For Mobiles)ネットワーク、符号分割多重アクセス(CDMA:Code Division Multiple Access)ネットワーク、長期的進化(LTE:Long-Term Evolution)ネットワーク、5G通信ネットワーク、および/または他の適切なデータ伝送プロトコルネットワーク)などを備えてもよい。クラウドネットワーク102は、リンク103を介してメディア再生システム100から送信された要求に応答して、メディアコンテンツ(例えば、オーディオコンテンツ、ビデオコンテンツ、写真、ソーシャルメディアコンテンツ)をメディア再生システム100に配信するように構成されている。いくつかの実施形態では、クラウドネットワーク102は、メディア再生システム100からデータ(例えば、音声入力データ)を受信し、対応して、コマンドおよび/またはメディアコンテンツをメディア再生システム100に送信するようにさらに構成されている。
クラウドネットワーク102は、コンピューティングデバイス106(第1コンピューティングデバイス106a、第2コンピューティングデバイス106b、および第3コンピューティングデバイス106cとして個別に識別される)を備える。コンピューティングデバイス106は、個々のコンピュータまたはサーバ、例えば、オーディオおよび/または他のメディアコンテンツを格納するメディアストリーミングサービスサーバ、音声サービスサーバ、ソーシャルメディアサーバ、メディア再生システム制御サーバなどを備えてもよい。いくつかの実施形態では、コンピューティングデバイス106の1つまたは複数は、単一のコンピュータまたはサーバのモジュールを備える。特定の実施形態では、コンピューティングデバイス106の1つまたは複数は、1つまたは複数のモジュール、コンピュータ、および/またはサーバを備える。さらに、クラウドネットワーク102は、単一のクラウドネットワークの文脈で上述したが、いくつかの実施形態では、クラウドネットワーク102は、通信接続されたコンピューティングデバイスを備える複数のクラウドネットワークを備える。さらに、図1Bでは、クラウドネットワーク102は、3つのコンピューティングデバイス106を有するように示されているが、いくつかの実施形態では、クラウドネットワーク102は、3つより少ない(またはより多い)コンピューティングデバイス106を備えている。
メディア再生システム100は、リンク103を介してネットワーク102からメディアコンテンツを受信するように構成されている。受信されたメディアコンテンツは、例えば、ユニフォームリソース識別子(URI)および/またはユニフォームリソースロケータ(URL)を含んでもよい。例えば、いくつかの例では、メディア再生システム100は、受信したメディアコンテンツに対応するURIまたはURLからデータをストリーミング、ダウンロード、またはその他の方法で取得することができる。ネットワーク104は、リンク103と、メディア再生システム100のデバイス(例えば、再生デバイス110、NMD120、および/または制御デバイス130のうちの1つまたは複数)の少なくとも一部と、を通信接続する。ネットワーク104は、例えば、無線ネットワーク(例えば、WiFi(登録商標)ネットワーク、Bluetooth(登録商標)、Z-Waveネットワーク、ZigBee(登録商標)、および/または他の適切な無線通信プロトコルネットワーク)および/または有線ネットワーク(例えば、イーサネット(登録商標)、ユニバーサルシリアルバス(USB(登録商標))、および/または他の適切な有線通信を含むネットワーク)を含むことができる。本明細書で使用されるように、当技術分野の通常の当業者であれば理解するであろうが、「WiFi(登録商標)」は、例えば、Institute of Electrical and Electronics Engineers(IEEE) 802. 11a、802.11b、802.11g、802.11n、802.11ac、802.11ac、802.11ad、802.11af、802.11ah、802.11ai、802.11aj、802.11aq、802.11ax、802.11ay、802.15など、2.4ギガヘルツ(GHz)、5GHz、および/または別の適切な周波数で送信される通信プロトコルを含む、いくつかの異なる通信プロトコルを指すことができる。
いくつかの実施形態では、ネットワーク104は、メディア再生システム100が個々のデバイス間でメッセージを送信するため、および/またはメディアコンテンツソース(例えば、コンピューティングデバイス106の1つまたは複数)との間でメディアコンテンツを送信するために使用する専用の通信ネットワークを備える。特定の実施形態では、ネットワーク104は、メディア再生システム100内のデバイスのみにアクセス可能に構成され、それにより、他の家庭用デバイスとの干渉および競合を低減する。しかし、他の実施形態では、ネットワーク104は、既存の家庭用通信ネットワーク(例えば、家庭用WiFi(登録商標)ネットワーク)を備える。いくつかの実施形態では、リンク103およびネットワーク104は、1つまたは複数の同じネットワークを備える。いくつかの態様では、例えば、リンク103およびネットワーク104は、通信ネットワーク(例えば、LTEネットワーク、5Gネットワーク)を備える。さらに、いくつかの実施形態では、メディア再生システム100は、ネットワーク104を介さずに実施され、メディア再生システム100を構成するデバイスは、例えば、1つまたは複数の直接接続、PAN、通信ネットワーク、および/または他の適切な通信リンクを介して、互いに通信することができる。
いくつかの実施形態では、オーディオコンテンツソースは、メディア再生システム100から定期的に追加または削除されてもよい。いくつかの実施形態では、例えば、メディア再生システム100は、1つまたは複数のメディアコンテンツソースがメディア再生システム100から更新され、追加され、および/または削除されたときに、メディアアイテムの索引付けを実行する。メディア再生システム100は、再生デバイス110にアクセス可能な一部またはすべてのフォルダおよび/またはディレクトリ内の識別可能なメディアアイテムをスキャンし、見つかった識別可能な各メディアアイテムについてメタデータ(例えば、タイトル、アーティスト、アルバム、トラックの長さ)および他の関連情報(例えば、URI、URL)を含むメディアコンテンツデータベースを生成または更新することができる。いくつかの実施形態では、例えば、メディアコンテンツデータベースは、再生デバイス110、ネットワークマイクロフォンデバイス120、および/または制御デバイス130のうちの1つまたは複数に格納される。
図1Bの例示された実施形態では、再生デバイス110lおよび110mは、グループ107aを構成する。再生デバイス110lおよび110mは、家庭内の異なる部屋に配置することができ、メディア再生システム100の制御デバイス130aおよび/または別の制御デバイス130で受信したユーザ入力に基づいて、一時的または恒久的にグループ107aにグループ化することができる。グループ107a内に配置されると、再生デバイス110lおよび110mは、1つまたは複数のオーディオコンテンツソースから、同じまたは類似のオーディオコンテンツを同期して再生するように構成され得る。特定の実施形態では、例えば、グループ107aは、再生デバイス110lおよび110mが、マルチチャネルのオーディオコンテンツの左オーディオチャネルおよび右オーディオチャネルをそれぞれ構成し、それによってオーディオコンテンツのステレオ効果を生成または増強するような結合ゾーンを含む。いくつかの実施形態では、グループ107aは、再生デバイス110をさらに含む。しかし、他の実施形態では、メディア再生システム100は、グループ107aおよび/または再生デバイス110の他のグループ化された配置を省略する。再生デバイスのグループおよびその他の配置に関する詳細は、図1I~1Mを参照して以下で説明する。
メディア再生システム100は、ユーザからの音声発話を受信するように構成された1つまたは複数のマイクロフォンを有するNMD120aおよび120dを含む。図1Bの例示された実施形態では、NMD120aはスタンドアロンデバイスであり、NMD120dは再生デバイス110nに統合されている。NMD120aは、例えば、ユーザ123からの音声入力121を受信するように構成されている。いくつかの実施形態では、NMD120aは、(i)受信した音声入力データを処理し、(ii)対応するコマンドをメディア再生システム100に送信するように構成された音声アシスタントサービス(VAS)に、受信した音声入力121に関連付けられたデータを送信する。いくつかの態様において、例えば、コンピューティングデバイス106cは、VAS(例えば、SONOS(登録商標)、AMAZON(登録商標)、GOOGLE(登録商標)、APPLE(登録商標)、MICROSOFT(登録商標)のうちの1つまたは複数によって運営されるVAS)の1つまたは複数のモジュールおよび/またはサーバを備える。コンピューティングデバイス106cは、ネットワーク104およびリンク103を介して、NMD120aから音声入力データを受信することができる。音声入力データを受信することに応答して、コンピューティングデバイス106cは、音声入力データ(例えば、「ビートルズのHey Judeを再生して(Play Hey Jude by The Beatles)」)を処理し、処理された音声入力が、曲を再生するためのコマンド(例えば、「Hey Jude」)を含むことを決定する。コンピューティングデバイス106cは、それに応じて、適切なメディアサービスから(例えば、コンピューティングデバイス106の1つまたは複数を介して)ビートルズ(The Beatles)の「Hey Jude」を再生デバイス110の1つまたは複数で再生するためのコマンドをメディア再生システム100に送信する。
b.好適な再生デバイス
図1Cは、入力/出力111を備える再生デバイス110aのブロック図である。入力/出力111は、アナログI/O111a(例えば、アナログ信号を伝送するように構成された1つまたは複数のワイヤ、ケーブル、および/または他の適切な通信リンク)および/またはデジタルI/O111b(例えば、デジタル信号を伝送するように構成された1つまたは複数のワイヤ、ケーブル、または他の適切な通信リンク)を含むことができる。いくつかの実施形態では、アナログI/O111aは、例えば、自動検出3.5mmオーディオラインイン接続を構成するオーディオラインイン入力接続である。いくつかの実施形態では、デジタルI/O111bは、Sony/Philips Digital Interface Format(S/PDIF)通信インタフェース、および/またはケーブル、および/または東芝リンク(TOSLINK)ケーブルを備える。いくつかの実施形態では、デジタルI/O111bは、High-Definition Multimedia Interface(HDMI(登録商標))インタフェースおよび/またはケーブルを備える。いくつかの実施形態では、デジタルI/O111bは、例えば、無線周波数(RF)、赤外線、WiFi(登録商標)、Bluetoooth(登録商標)、または他の適切な通信プロトコルを備える1つまたは複数の無線通信リンクを含む。特定の実施形態では、アナログI/O111aおよびデジタル111bは、必ずしもケーブルを含まなくてもよく、アナログ信号およびデジタル信号を伝送するケーブルのコネクタのそれぞれを受け入れるように構成されたインタフェース(例えば、ポート、プラグ、ジャック)を含む。
再生デバイス110aは、例えば、入力/出力111(例えば、ケーブル、ワイヤ、PAN、Bluetoooth(登録商標)接続、アドホック有線または無線通信ネットワーク、および/または別の適切な通信リンク)を介して、ローカルオーディオソース105からメディアコンテンツ(例えば、音楽および/または他の音からなるオーディオコンテンツ)を受信することができる。ローカルオーディオソース105は、例えば、モバイルデバイス(例えば、スマートフォン、タブレット、ラップトップコンピュータ)または別の適切なオーディオコンポーネント(例えば、テレビ、デスクトップコンピュータ、アンプ、蓄音機、ブルーレイプレーヤー、デジタルメディアファイルを格納するメモリ)を備えることができる。いくつかの態様において、ローカルオーディオソース105は、スマートフォン、コンピュータ、ネットワーク接続ストレージ(NAS)、および/またはメディアファイルを格納するように構成された別の適切なデバイス上のローカルミュージックライブラリを含む。特定の実施形態では、再生デバイス110、NMD120、および/または制御デバイス130のうちの1つまたは複数が、ローカルオーディオソース105を備える。しかし、他の実施形態では、メディア再生システムは、ローカルオーディオソース105を完全に省略する。いくつかの実施形態では、再生デバイス110aは、入力/出力111を含まず、ネットワーク104を介してすべてのオーディオコンテンツを受信する。
再生デバイス110aは、電子機器112と、ユーザインタフェース113(例えば、1つまたは複数のボタン、ノブ、ダイヤル、タッチセンシティブ面、ディスプレイ、タッチスクリーン)と、1つまたは複数のトランスデューサ114(以下、「トランスデューサ114」と称する)と、をさらに備える。電子機器112は、入力/出力111、ネットワーク104を介した1つまたは複数のコンピューティングデバイス106a~106c(図1B)を介して、オーディオソース(例えば、ローカルオーディオソース105)からオーディオを受信し、受信したオーディオを増幅し、増幅されたオーディオを1つまたは複数のトランスデューサ114を介して再生のために出力するように構成されている。いくつかの実施形態では、再生デバイス110aは、オプションとして、1つまたは複数のマイクロフォン115(例えば、単一のマイクロフォン、複数のマイクロフォン、マイクロフォンアレイ)(以下、「マイクロフォン115」と称する)を含む。特定の実施形態では、例えば、オプションの1つまたは複数のマイクロフォン115を有する再生デバイス110aは、ユーザからの音声入力を受信し、受信した音声入力に基づいて対応する1つまたは複数の操作を実行するように構成されたNMDとして動作することができる。
図1Cの例示された実施形態では、電子機器112は、1つまたは複数のプロセッサ112a(以下、「プロセッサ112a」と称する)、メモリ112b、ソフトウェアコンポーネント112c、ネットワークインタフェース112d、1つまたは複数のオーディオ処理コンポーネント112g(以下、「オーディオ処理コンポーネント112g」と称する)、1つまたは複数のオーディオアンプ112h(以下、「アンプ112h」と称する)、および電源112i(例えば、1つまたは複数の電源、電源ケーブル、電源コンセント、バッテリ、誘導コイル、Power-over Ethernet(POE)インタフェース、および/または他の適切な電力源)を備える。いくつかの実施形態では、電子機器112は、任意に、1つまたは複数の他のコンポーネント112j(例えば、1つまたは複数のセンサ、ビデオディスプレイ、タッチスクリーン、バッテリ充電ベース)を含む。
プロセッサ112aは、データを処理するように構成されたクロック駆動型コンピューティングコンポーネントを備えることができ、メモリ112bは、様々な動作および/または機能を実行するための命令を記憶するように構成されたコンピュータ可読媒体(例えば、有形の、非一時的なコンピュータ可読媒体、ソフトウェアコンポーネント112cの1つまたは複数がロードされたデータストレージ)を含むことができる。プロセッサ112aは、1つまたは複数の動作を実行するために、メモリ112bに格納された命令を実行するように構成されている。動作は、例えば、再生デバイス110aに、オーディオソース(例えば、コンピューティングデバイス106a~106c(図1B)の1つまたは複数)、および/または再生デバイス110別の1つからオーディオデータを取得させること、および/または再生デバイス110の別の1つのオーディオデータを取得させることを含むことができる。いくつかの実施形態では、動作は、再生デバイス110aを、再生デバイス110aの別の1つ、および/または別のデバイス(例えば、NMD120の1つ)にオーディオデータを送信させることをさらに含む。特定の実施形態では、再生デバイス110aが、マルチチャンネルオーディオ環境(例えば、ステレオペア、結合ゾーン)を可能にするために、再生デバイス110aに1つまたは複数の再生デバイス110の別のデバイスとペアリングさせる動作をさらに含む。
プロセッサ112aは、再生デバイス110aがオーディオコンテンツの再生を1つまたは複数の再生デバイス110の別のものと同期させる動作を実行するようにさらに構成することができる。当業者であれば理解するであろうが、複数の再生デバイスにおけるオーディオコンテンツの同期再生中、リスナーは、好ましくは、再生デバイス110aによるオーディオコンテンツの再生と、1つまたは複数の他の再生デバイス110によるオーディオコンテンツの再生との間の時間遅延差を知覚することができないであろう。再生デバイス間のオーディオ再生同期に関する追加の詳細は、例えば、上記参照により組み込まれた米国特許第8,234,395号明細書に記載されている。
いくつかの実施形態では、メモリ112bは、再生デバイス110aがメンバーである1つまたは複数のゾーンおよび/またはゾーングループ、再生デバイス110aにアクセス可能なオーディオソース、および/または再生デバイス110a(および/または1つ複数の再生デバイスの別のもの)が関連付けられる再生キューなど、再生デバイス110aに関連付けられたデータを格納するようにさらに構成される。格納されたデータは、定期的に更新され、再生デバイス110aの状態を記述するために使用される1つまたは複数の状態変数を含むことができる。メモリ112bはまた、メディア再生システム100の1つまたは複数の他のデバイス(例えば、再生デバイス110、NMD120、制御デバイス130)の状態に関連付けられたデータを含むことができる。いくつかの態様では、例えば、状態データは、メディア再生システム100のデバイスの少なくとも一部の間で所定の時間間隔(例えば、5秒ごと、10秒ごと、60秒ごと)で共有され、1つまたは複数のデバイスがメディア再生システム100に関連付けられた最新のデータを有するようになっている。
ネットワークインタフェース112dは、再生デバイス110aと、例えばリンク103および/またはネットワーク104(図1B)のようなデータネットワーク上の1つまたは複数の他のデバイスとの間のデータ伝送を容易にするように構成されている。ネットワークインタフェース112dは、メディアコンテンツ(例えば、オーディオコンテンツ、ビデオコンテンツ、テキスト、写真)およびインターネットプロトコル(IP)ベースのソースアドレスおよび/またはIPベースのデスティネーションアドレス有するデジタルパケットデータを含む他の信号(例えば、非一時的な信号)に対応するデータを送受信するように構成されている。ネットワークインタフェース112dは、電子機器112が再生デバイス110aに向けられたデータを適切に受信して処理するように、デジタルパケットデータを解析することができる。
図1Cの例示された実施形態では、ネットワークインタフェース112dは、1つまたは複数の無線インタフェース112e(以下、「無線インタフェース112e」と称する)を備える。無線インタフェース112e(例えば、1つまたは複数のアンテナを備える適当なインタフェース)は、適切な無線通信プロトコル(例えば、WiFi(登録商標)、Bluetoooth(登録商標)、LTE)に従って、ネットワーク104(図1B)に通信接続されている1つまたは複数の他のデバイス(例えば、他の再生デバイス110、NMD120、および/または制御デバイス130のうちの1つまたは複数)と無線通信するように構成され得る。いくつかの実施形態では、ネットワークインタフェース112dは、任意に、適切な有線通信プロトコルに従って他のデバイスと有線接続で通信するように構成された有線インタフェース112f(例えば、イーサネット(登録商標)、USB-A、USB-C、および/またはサンダーボルトケーブルなどのネットワークケーブルを受信するように構成されたインタフェースまたはレセプタクル)を含む。特定の実施形態では、ネットワークインタフェース112dは、有線インタフェース112fを含み、無線インタフェース112eを除く。いくつかの実施形態では、電子機器112は、ネットワークインタフェース112dを完全に除外し、別の通信経路(例えば、入力/出力111)を介して、メディアコンテンツおよび/または他のデータを送受信する。
オーディオ処理コンポーネント112gは、電子機器112によって受信されたメディアコンテンツを含むデータを処理および/またはフィルタリングして(例えば、入力/出力111および/またはネットワークインタフェース112dを介して)、出力オーディオ信号を生成するように構成されている。いくつかの実施形態では、オーディオ処理コンポーネント112gは、例えば、1つまたは複数のデジタル/アナログ変換器(DAC)、オーディオ前処理コンポーネント、オーディオエンハンスメントコンポーネント、デジタル信号プロセッサ(DSP)、および/または他の適切なオーディオ処理コンポーネント、モジュール、回路などを含む。特定の実施形態では、オーディオ処理コンポーネント112gの1つまたは複数は、プロセッサ112aの1つまたは複数のサブコンポーネントを含むことができる。いくつかの実施形態では、電子機器112は、オーディオ処理コンポーネント112gを省略する。いくつかの態様では、例えば、プロセッサ112aは、出力オーディオ信号を生成するためのオーディオ処理動作を実行するために、メモリ112bに格納された命令を実行する。
アンプ112hは、オーディオ処理コンポーネント112gおよび/またはプロセッサ112aによって生成されたオーディオ出力信号を受信して増幅するように構成されている。アンプ112hは、1つまたは複数のトランスデューサ114を駆動するのに十分なレベルまでオーディオ信号を増幅するように構成された電子デバイスおよび/またはコンポーネントを含むことができる。いくつかの実施形態では、例えば、アンプ112hは、1つまたは複数のスイッチングまたはD級パワーアンプを含む。しかしながら、他の実施形態では、アンプは、1つまたは複数の他のタイプのパワーアンプ(例えば、リニアゲインパワーアンプ、A級アンプ、B級アンプ、AB級アンプ、C級アンプ、D級アンプ、E級アンプ、F級アンプ、G級アンプおよび/またはH級アンプ、および/または別の適切なタイプのパワーアンプ)を含む。特定の実施形態では、アンプ112hは、前述のタイプのパワーアンプのうちの2つ以上の適切な組み合わせを含む。さらに、いくつかの実施形態では、個々のアンプ112hは、個々のトランスデューサ114に対応する。しかしながら、他の実施形態では、電子機器112は、増幅されたオーディオ信号を複数のトランスデューサ114に出力するように構成された単一のアンプ112hを含む。いくつかの他の実施形態では、電子機器112は、アンプ112hを省略する。
トランスデューサ114(例えば、1つまたは複数のスピーカおよび/またはスピーカドライバ)は、アンプ112hから増幅されたオーディオ信号を受信し、増幅されたオーディオ信号をサウンド(例えば、約20ヘルツ(Hz)と約20キロヘルツ(kHz)の間の周波数を有する可聴音波)としてレンダリングまたは出力する。いくつかの実施形態では、トランスデューサ114は、単一のトランスデューサを備えることができる。しかしながら、他の実施形態では、トランスデューサ114は、複数のオーディオトランスデューサを備える。いくつかの実施形態では、トランスデューサ114は、2つ以上のタイプのトランスデューサを備える。例えば、トランスデューサ114は、1つまたは複数の低周波トランスデューサ(例えば、サブウーファ、ウーファ)、中周波トランスデューサ(例えば、ミッドレンジトランスデューサ、ミッドウーファ)、および1つまたは複数の高周波トランスデューサ(例えば、1つまたは複数のツイータ)を含むことができる。本明細書で使用されるように、「低周波」は、概して約500Hz未満の可聴周波数を指すことができ、「中周波」は、概して約500Hzと約2kHzとの間の可聴周波数を指すことができ、「高周波」は、概して約2kHzを超える可聴周波数を指すことができる。しかしながら、特定の実施形態では、トランスデューサ114の1つまたは複数は、前述の周波数範囲に準拠しないトランスデューサを備える。例えば、トランスデューサ114の1つは、約200Hzから約5kHzの間の周波数でサウンドを出力するように構成されたミッドウーファトランスデューサを備えていてもよい。
例示のために、ソノス・インコーポレイテッドは、現在、例えば、「SONOS ONE」、「PLAY:1」、「PLAY:3」、「PLAY:5」、「PLAYBAR」、「PLAYBASE」、「CONNECT:AMP」、「CONNECT」、および「SUB」を含む特定の再生デバイスを販売のために提供している(または提供してきた)。他の好適な再生デバイスは、本明細書に開示された例示的な実施形態の再生デバイスを実施するために、追加的にまたは代替的に使用され得る。さらに、当業者であれば、再生デバイスは、本明細書に記載された例示的な実施形態に限定されないこと、またはソノス製品の提供物に限定されないことを理解するであろう。いくつかの実施形態では、例えば、1つまたは複数の再生デバイス110は、有線または無線のヘッドフォン(例えば、オーバーイヤーヘッドフォン、オンイヤーヘッドフォン、インイヤーイヤフォン)を備える。他の実施形態では、1つまたは複数の再生デバイス110は、個人用モバイルメディア再生デバイスのためのドッキングステーションおよび/またはドッキングステーションと相互作用するように構成されたインタフェースを備える。特定の実施形態では、再生デバイスは、テレビ、照明器具、または屋内または屋外で使用するためのいくつかの他のデバイスのような別のデバイスまたはコンポーネントと一体であってもよい。いくつかの実施形態では、再生デバイスは、ユーザインタフェースおよび/または1つまたは複数のトランスデューサを省略している。例えば、図1Dは、ユーザインタフェース113またはトランスデューサ114を備えず、入力/出力111および電子機器112を備える再生デバイス110pのブロック図である。
図1Eは、再生デバイス110i(例えば、サブウーファ)(図1A)と音響的に結合した再生デバイス110a(図1C)を含む再生デバイス110q(図1C)を備える結合再生デバイス110qのブロック図である。図示された実施形態では、再生デバイス110aおよび110iは、別個のエンクロージャに収容された再生デバイス110の別個のものである。しかし、いくつかの実施形態では、結合再生デバイス110qは、再生デバイス110aおよび110iの両方を収容する単一のエンクロージャを備える。結合再生デバイス110qは、結合されていない再生デバイス(例えば、図1Cの再生デバイス110a)および/またはペアリングされたまたは結合された再生デバイス(例えば、図1Bの再生デバイス110lおよび110m)とは異なる音を処理し、再生するように構成することができる。いくつかの実施形態では、例えば、再生デバイス110aは、低周波、中周波、および高周波のオーディオコンテンツをレンダリングするように構成されたフルレンジ再生デバイスであり、再生デバイス110iは、低周波のオーディオコンテンツをレンダリングするように構成されたサブウーファである。いくつかの態様では、再生デバイス110aは、第1再生デバイスと結合したときに、特定のオーディオコンテンツの中周波成分および高周波数成分のみをレンダリングするように構成され、再生デバイス110iは、特定のオーディオコンテンツの低周波成分をレンダリングするように構成されている。いくつかの実施形態では、結合再生デバイス110qは、追加の再生デバイスおよび/または別の結合再生デバイスを含む。追加の再生デバイスの実施形態は、図2A~図3Dに関して以下でさらに詳細に説明する。
c.好適なネットワークマイクロフォンデバイス(NMD)
図1Fは、NMD120a(図1Aおよび図1B)のブロック図である。NMD120aは、1つまたは複数の音声処理コンポーネント124(以下、「音声コンポーネント124」という)と、プロセッサ112a、メモリ112b、およびマイク115を含む再生デバイス110a(図1C)に関して説明した複数のコンポーネントと、を含む。NMD120aは、任意に、ユーザインタフェース113および/またはトランスデューサ114などの再生デバイス110a(図1C)にも含まれる他の構成要素を含む。いくつかの実施形態では、NMD120aは、メディア再生デバイス(例えば、再生デバイス110の1つまたは複数)として構成され、例えば、オーディオコンポーネント112g(図1C)、アンプ114、および/または他の再生デバイスコンポーネントの1つまたは複数をさらに含む。特定の実施形態では、NMD120aは、例えば、サーモスタット、アラームパネル、火災検知器および/または煙検知器などのモノのインターネット(IoT)デバイスを備える。いくつかの実施形態では、NMD120aは、マイクロフォン115、音声処理124、および図1Bに関して上述した電子機器112の構成要素の一部のみを含む。いくつかの態様では、例えば、NMD120aは、電子機器112の1つまたは複数の他の構成要素を省略しながら、プロセッサ112aおよびメモリ112b(図1B)を含む。いくつかの実施形態では、NMD120aは、追加の構成要素(例えば、1つまたは複数のセンサ、カメラ、温度計、気圧計、湿度計)を含む。
いくつかの実施形態では、NMDを再生デバイスに組み込むことができる。図1Gは、NMD120dを備える再生デバイス110rのブロック図である。再生デバイス110rは、再生デバイス110aの構成要素の多くまたはすべてを備えることができ、マイクロフォン115および音声処理124(図1F)をさらに含む。再生デバイス110rは、任意に、統合された制御デバイス130cを含む。制御デバイス130cは、例えば、別個の制御デバイスを使用せずにユーザ入力(例えば、タッチ入力、音声入力)を受信するように構成されたユーザインタフェース(例えば、図1Bのユーザインタフェース113)を含むことができる。しかし、他の実施形態では、再生デバイス110rは、別の制御デバイス(例えば、図1Bの制御デバイス130a)からのコマンドを受信する。NMDの実施形態については、図3A~図3Fに関して以下でさらに詳細に説明する。
図1Fを再び参照すると、マイクロフォン115は、環境(例えば、図1Aの環境101)および/またはNMD120aが配置されている部屋からサウンドを取得し、捕捉し、および/または受信するように構成されている。受信したサウンドは、例えば、発声、NMD120aおよび/または別の再生デバイスによるオーディオ再生、背景音、環境音等を含むことができる。マイクロフォン115は、受信したサウンドを電気信号に変換してマイクロフォンデータを生成する。音声処理124は、マイクロフォンデータを受信して分析し、マイクロフォンデータに音声入力が存在するかどうかを決定する。音声入力は、例えば、ユーザ要求を含む発声に続く起動ワード(activation word)を含むことができる。当業者であれば理解できるように、起動ワードは、ユーザの音声入力を意味する単語または他の音声キューである。例えば、AMAZON(登録商標) VASに問い合わせをする際に、ユーザは「アレクサ(Alexa)」という起動ワードを話す場合がある。他の例としては、GOOGLE(登録商標) VASを呼び出すための「オーケー、グーグル(OK,Google)」や、APPLE(登録商標) VASを呼び出すための「ヘイ、シリ(Hey,Siri)」などがある。
起動ワードを検出した後、音声処理124は、音声入力に付随するユーザ要求のためにマイクロフォンデータをモニタする。ユーザ要求は、例えば、サーモスタット(例えば、NEST(登録商標)サーモスタット)、照明装置(例えば、PHILIPS HUE(登録商標)照明装置)、またはメディア再生デバイス(例えば、Sonos(登録商標)再生デバイス)などのサードパーティデバイスを制御するためのコマンドを含んでもよい。例えば、ユーザは、家庭(例えば、図1Aの環境101)内の温度を設定するために、「アレクサ(Alexa)」という起動ワードを話し、続いて「サーモスタットを68度に設定して」と話してもよい。ユーザは、家庭のリビングルーム領域の照明装置をオンにするために、同じ起動ワードを話し、続いて「リビングルームをオンにして」と話してもよい。ユーザは、同様に、起動ワードを話し、続いて特定の曲、アルバム、または音楽のプレイリストを家庭内の再生デバイスで再生するための要求を話してもよい。音声入力データの受信と処理については、図3A~図3Fを参照して、以下でさらに詳細に説明する。
d.好適な制御デバイス
図1Hは、制御デバイス130a(図1Aおよび1B)の部分的な概略図である。本明細書で使用されるように、「制御デバイス」という用語は、「コントローラ」または「制御システム」と互換的に使用することができる。他の特徴の中で、制御デバイス130aは、メディア再生システム100に関連するユーザ入力を受信し、それに応答して、メディア再生システム100内の1つまたは複数のデバイスに、ユーザ入力に対応する動作または操作を実行させるように構成されている。図示された実施形態では、制御デバイス130aは、メディア再生システムコントローラアプリケーションソフトウェアがインストールされているスマートフォン(例えば、iPhone(登録商標)、Androidフォン)を備える。いくつかの実施形態では、制御デバイス130aは、例えば、タブレット(例えば、iPad(登録商標))、コンピュータ(例えば、ラップトップコンピュータ、デスクトップコンピュータ)、および/または他の適切なデバイス(例えば、テレビ、自動車オーディオヘッドユニット、IoTデバイス)を備える。特定の実施形態では、制御デバイス130aは、メディア再生システム100のための専用コントローラを備える。他の実施形態では、図1Gに関して上述したように、制御デバイス130aは、メディア再生システム100内の別のデバイス(例えば、再生デバイス110、NMD120、および/またはネットワークを介して通信するように構成された他の適切なデバイスのうちの1つまたは複数)に統合される。
制御デバイス130aは、電子機器132と、ユーザインタフェース133と、1つまたは複数のスピーカ134と、1つまたは複数のマイクロフォン135と、を含む。電子機器132は、1つまたは複数のプロセッサ132a(以下、「プロセッサ132a」と称する)と、メモリ132bと、ソフトウェアコンポーネント132cと、ネットワークインタフェース132dと、を備える。プロセッサ132aは、ユーザによるメディア再生システム100へのアクセス、制御、および構成を容易にすることに関連する機能を実行するように構成することができる。メモリ132bは、それらの機能を実行するためにプロセッサ302によって実行可能な1つまたは複数のソフトウェアコンポーネントをロードすることができるデータストレージを含むことができる。ソフトウェアコンポーネント132cは、メディア再生システム100の制御を容易にするように構成されたアプリケーションおよび/または他の実行可能なソフトウェアを含むことができる。メモリ112bは、例えば、ソフトウェアコンポーネント132c、メディア再生システムコントローラアプリケーションソフトウェア、および/またはメディア再生システム100およびユーザに関連する他のデータを格納するように構成することができる。
ネットワークインタフェース132dは、制御デバイス130aとメディア再生システム100内の1つまたは複数の他のデバイス、および/または1つまたは複数のリモートデバイスとの間のネットワーク通信を容易にするように構成されている。いくつかの実施形態では、ネットワークインタフェース132は、1つまたは複数の適切な通信業界標準(例えば、赤外線、無線、IEEE 802.3を含む有線標準、IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G、LTEを含む無線標準)に従って動作するように構成されている。ネットワークインタフェース132dは、例えば、再生デバイス110、NMD120、制御デバイス130の他のもの、図1Bのコンピューティングデバイス106の1つ、1つまたは複数の他のメディア再生システムを備えるデバイスなどにデータを送信および/または受信するように構成することができる。送信および/または受信されたデータは、例えば、再生デバイスの制御コマンド、状態変数、再生ゾーンおよび/またはゾーングループの構成を含むことができる。例えば、ユーザインタフェース133で受信したユーザ入力に基づいて、ネットワークインタフェース132dは、制御デバイス304から再生デバイス100の1つまたは複数に再生デバイス制御コマンド(例えば、音量制御、オーディオ再生制御、オーディオコンテンツ選択)を送信することができる。ネットワークインタフェース132dはまた、例えば、ゾーンへの1つまたは複数の再生デバイス100の追加/削除、ゾーングループへの1つまたは複数のゾーンの追加/削除、結合プレーヤまたは統合プレーヤの形成、結合プレーヤまたは統合プレーヤから1つまたは複数の再生デバイスを分離することなどの構成変更を送信および/または受信することができる。ゾーンおよびグループの詳細については、図1Iから図1Mに示す。
ユーザインタフェース133は、ユーザ入力を受信するように構成されており、メディア再生システム100の制御を容易にすることができる。ユーザインタフェース133は、メディアコンテンツアート133a(例えば、アルバムアート、歌詞、ビデオ)、再生状態インジケータ133b(例えば、経過時間および/または残り時間インジケータ)、メディアコンテンツ情報領域133c、再生制御領域133d、およびゾーンインジケータ133eを含む。メディアコンテンツ情報領域133cは、現在再生中のメディアコンテンツおよび/またはキューまたはプレイリスト内のメディアコンテンツに関する関連情報(例えば、タイトル、アーティスト、アルバム、ジャンル、リリース年)の表示を含むことができる。再生制御領域133dは、選択された再生ゾーンまたはゾーングループ内の1つまたは複数の再生デバイスに、例えば、再生または一時停止、早送り、巻き戻し、次へスキップ、前へスキップ、シャッフルモードの開始/終了、リピートモードの開始/終了、クロスフェードモードの開始/終了などの再生動作を実行させるための選択可能な(例えば、タッチ入力を介して、および/またはカーソルまたは別の適切なセレクタを介して)アイコンを含むことができる。再生制御領域133dはまた、イコライゼーション設定、再生音量、および/または他の好適な再生動作を変更するための選択可能なアイコンを含んでもよい。図示された実施形態では、ユーザインタフェース133は、スマートフォン(例えば、iPhone(登録商標)、Androidフォン)のタッチスクリーンインタフェース上に提示されるディスプレイを備える。しかしながら、いくつかの実施形態では、メディア再生システムへの同等の制御アクセスを提供するために、様々なフォーマット、スタイル、およびインタラクティブなシーケンスのユーザインタフェースが、代替的に、1つまたは複数のネットワークデバイス上に実装されてもよい。
1つまたは複数のスピーカ134(例えば、1つまたは複数のトランスデューサ)は、制御デバイス130aのユーザにサウンドを出力するように構成され得る。いくつかの実施形態では、1つまたは複数のスピーカは、低周波、中周波、および/または高周波数を対応して出力するように構成された個々のトランスデューサを備える。いくつかの態様では、例えば、制御デバイス130aは、再生デバイス(例えば、再生デバイス110の1つ)として構成される。同様に、いくつかの実施形態では、制御デバイス130aは、1つまたは複数のマイクロフォン135を介して音声コマンドおよび他のサウンドを受信するNMD(例えば、NMD120の1つ)として構成される。
1つまたは複数のマイクロフォン135は、例えば、1つまたは複数のコンデンサマイクロフォン、エレクトレットコンデンサマイクロフォン、ダイナミックマイクロフォン、および/または他の適切なタイプのマイクロフォンまたはトランスデューサを含むことができる。いくつかの実施形態では、2つ以上のマイクロフォン135は、オーディオソース(例えば、音声、可聴音)の位置情報を捕捉するように配置され、および/またはバックグラウンドノイズのフィルタリングを容易にするように構成されている。さらに、特定の実施形態では、制御デバイス130aは、再生デバイスおよびNMDとして動作するように構成されている。しかしながら、他の実施形態では、制御デバイス130aは、1つまたは複数のスピーカ134および/または1つまたは複数のマイクロフォン135を省略する。例えば、制御デバイス130aは、スピーカまたはマイクを省略して、電子機器132の一部およびユーザインタフェース133(例えば、タッチスクリーン)を備えるデバイス(例えば、サーモスタット、IoTデバイス、ネットワークデバイス)を備えていてもよい。追加の制御デバイスの実施形態は、図4A~図4Dおよび図5に関して以下でさらに詳細に説明する。
e.適切な再生デバイス構成
図1I~図1Mは、ゾーンおよびゾーングループにおける再生デバイスの例示的な構成を示す。最初に図1Mを参照すると、一例では、単一の再生デバイスがゾーンに属することができる。例えば、セカンドベッドルーム101c(図1A)の再生デバイス110gは、ゾーンCに属していてもよい。以下に説明するいくつかの実装形態では、複数の再生デバイスを「結合」して「結合ペア」を形成することができ、これらは一緒になって単一のゾーンを形成する。例えば、再生デバイス110l(例えば、左再生デバイス)は、ゾーンAを形成するように再生デバイス110l(例えば、左再生デバイス)に結合させることができる。結合された再生デバイスは、異なる再生の責任(例えば、チャネルの責任)を有してもよい。以下に説明する別の実施態様では、複数の再生デバイスをマージして単一のゾーンを形成することができる。例えば、再生デバイス110h(例えば、フロント再生デバイス)は、単一のゾーンDを形成するように再生デバイス110i(例えば、サブウーファ)および再生デバイス110jおよび110k(例えば、それぞれ左右のサラウンドスピーカ)とマージされてもよい。別の例では、再生デバイス110gおよび110hをマージして、マージされたグループまたはゾーングループ108bを形成することができる。マージされた再生デバイス110gおよび110hは、異なる再生責任を特に割り当てられなくてもよい。すなわち、マージされた再生デバイス110hおよび110iは、同期してオーディオコンテンツを再生することとは別に、各々がマージされなかった場合と同様にオーディオコンテンツを再生することができる。
メディア再生システム100内の各ゾーンは、単一のユーザインタフェース(UI)エンティティとして制御のために設けられてもよい。例えば、ゾーンAは、マスターバスルームと呼ばれる単一のエンティティとして設けられ得る。ゾーンBは、マスターベッドルームと呼ばれる単一のエンティティとして設けられ得る。ゾーンCは、セカンドベッドルームと呼ばれる単一のエンティティとして設けられ得る。
結合された再生デバイスは、特定のオーディオチャネルに対する責任など、異なる再生責任を有することができる。例えば、図1-Iに示されるように、再生デバイス110lおよび110mは、オーディオコンテンツのステレオ効果を生成または強化するように結合されてもよい。この例では、再生デバイス110lは、左チャネルのオーディオコンポーネントを再生するように構成されてもよく、一方、再生デバイス110kは、右チャネルのオーディオコンポーネントを再生するように構成されてもよい。いくつかの実装形態では、そのようなステレオの結合は「ペアリング」と呼ばれることがある。
さらに、結合された再生デバイスは、追加のおよび/または異なるそれぞれのスピーカドライバを有してもよい。図1Jに示されるように、フロントと名付けられた再生デバイス110hは、サブと呼ばれる再生デバイス110iと結合されてもよい。フロントデバイス110hは、中~高周波数の範囲をレンダリングするように構成することができ、サブデバイス110iは、低周波数をレンダリングするように構成することができる。しかしながら、結合されていない場合、フロントデバイス110hは、全範囲の周波数をレンダリングするように構成することができる。別の例として、図1Kは、左再生デバイス110jおよび右再生デバイス110kとそれぞれさらに結合されたフロントデバイス110hおよびサブデバイス110iを示す。いくつかの実装形態では、右デバイス110jおよび左デバイス102kは、ホームシアターシステムのサラウンドまたは「サテライト」チャネルを形成するように構成することができる。結合された再生デバイス110h、110i、110j、および110kは、単一のゾーンD(図1M)を形成することができる。
マージされた再生デバイスは、再生責任を割り当てられていなくてもよく、それぞれの再生デバイスが可能なオーディオコンテンツの全範囲を各々がレンダリングすることができる。それにもかかわらず、マージされたデバイスは、単一のUIエンティティ(すなわち、上述したように、ゾーン)として表されてもよい。例えば、マスターバスルームの再生デバイス110aおよび110nは、ゾーンAの単一のUIエンティティを有する。一実施形態では、再生デバイス110aおよび110nはそれぞれ、それぞれの再生デバイス110aおよび110nが同期して可能なオーディオコンテンツの全範囲を出力することができる。
いくつかの実施形態では、NMDは、ゾーンを形成するように別のデバイスと結合またはマージされる。例えば、NMD120bは、ともにリビングルームと呼ばれるゾーンFを形成する再生デバイス110eと結合されてもよい。他の実施形態では、スタンドアロンのネットワークマイクロフォンデバイスは、それ自体がゾーン内にあってもよい。しかしながら、他の実施形態では、スタンドアロンのネットワークマイクロフォンデバイスは、ゾーンに関連付けられていなくてもよい。ネットワークマイクロフォンデバイスと再生デバイスとを指定のデバイスまたはデフォルトデバイスとして関連付けることに関するさらなる詳細は、例えば、先に参照した米国特許出願公開第15/438,749号明細書に見出すことができる。
個々の、結合された、および/またはマージされたデバイスのゾーンは、ゾーングループを形成するためにグループ化され得る。例えば、図1Mを参照すると、ゾーンAをゾーンBとグループ化して、2つのゾーンを含むゾーングループ108aを形成することができる。同様に、ゾーンGをゾーンHとグループ化して、ゾーングループ108bを形成してもよい。別の例として、ゾーンAは、1つ以上の他のゾーンC-Iとグループ化されてもよい。ゾーンA~Iは、多数の方法でグループ化およびグループ解除することができる。例えば、ゾーンA~Iの3つ、4つ、5つ、またはそれより多く(例えば、すべて)がグループ化されてもよい。グループ化されると、個々のおよび/または結合された再生デバイスのゾーンは、先に参照された米国特許第8,234,395号明細書に記載されているように、互いに同期してオーディオを再生することができる。再生デバイスは、オーディオコンテンツを同期して再生する新たなまたは異なるグループを形成するために、動的にグループ化およびグループ化解除されてもよい。
様々な実施態様では、環境内のゾーンは、グループ内のゾーンのデフォルト名またはゾーングループ内のゾーンの名前の組み合わせであってもよい。例えば、ゾーングループ108bには、図1Mに示すように、「ダイニング+キッチン」などの名前を割り当てることができる。いくつかの実施形態では、ゾーングループが、ユーザによって選択された固有の名前を与えられてもよい。
特定のデータは、再生ゾーン、再生デバイス、および/または、それに関連付けられたゾーングループの状態を記述するために定期的に更新されて使用される1つ以上の状態変数として再生デバイス(例えば、図1Cのメモリ112c)のメモリに記憶されてもよい。メモリはまた、メディアシステムの他のデバイスの状態と関連付けられ、デバイスのうちの1つまたは複数がシステムと関連付けられた最新データを有するように、デバイス間で時々共有されるデータを含むことができる。
いくつかの実施形態では、メモリは、状態に関連する様々な変数型のインスタンスを記憶することができる。変数インスタンスは、タイプに対応する識別子(例えば、タグ)と共に格納され得る。例えば、特定の識別子は、ゾーンの再生デバイスを識別するための第1タイプ「a1」、ゾーン内で結合されることができる再生デバイスを識別するための第2タイプ「b1」、および、ゾーンが属することができるゾーングループを識別するための第3タイプ「c1」であってもよい。関連する例として、セカンドベッドルーム101cに関連付けられた識別子は、再生デバイスがゾーングループ内ではなくゾーンCの唯一の再生デバイスであることを示すことができる。デンに関連付けられた識別子は、デンが他のゾーンとグループ化されていないが、結合された再生デバイス110h~110kを含むことを示すことができる。ダイニングルームに関連付けられた識別子は、ダイニングルームがダイニング+キッチンゾーングループ108bの一部であり、デバイス110bおよび110dがグループ化されている(図1L)ことを示すことができる。キッチンに関連付けられた識別子は、キッチンがダイニング+キッチンゾーングループ108bの一部であることによって、同じまたは類似の情報を示すことができる。他の例示的なゾーン変数および識別子を以下に説明する。
さらに別の例では、メディア再生システム100は、図1Mに示すように、エリアに関連付けられた識別子など、ゾーンおよびゾーングループの他の関連付けを表す変数または識別子を記憶することができる。エリアは、ゾーングループのクラスタおよび/またはゾーングループ内にないゾーンを含み得る。例えば、図1Mは、ゾーンA~Dを含む上部エリア109aと、ゾーンE~Iを含む下部エリア109bとを示す。一態様では、エリアは、ゾーングループのクラスタ、および/または1つ以上のゾーンを共有するゾーンおよび/または別のクラスタのゾーングループを呼び出すために使用され得る。別の態様では、これは、別のゾーングループとゾーンを共有しないゾーングループとは異なる。エリアを実装するための技術のさらなる例は、例えば、2017年8月21日に出願され、「Room Association Based on Name」と題する米国特許出願公開第15/682,506号明細書、および2007年9月11日に出願され、「Controlling and manipulating groupings in a multi-zone media system」と題する米国特許第8,483,853号明細書に見出すことができる。これらの出願の各々は、その全体が参照により本明細書に組み込まれる。いくつかの実施形態では、メディア再生システム100は、エリアを実装しなくてもよく、その場合、システムは、エリアに関連付けられた変数を記憶しなくてもよい。
III.例示的なシステムおよびデバイス
図2Aは、開示された技術の態様に従って構成される再生デバイス210の正面等角図である。図2Bは、グリル216eを有さない再生デバイス210の正面等角図である。図2Cは、再生デバイス210の分解図である。図2A~図2Cを併せて参照すると、再生デバイス210は、上側部分216aと、右側または第1側部216bと、下側部分216cと、左側または第2側部216dと、グリル216eと、後側部分216fとを含むハウジング216を含む。複数の留め具216g(例えば、1つ以上のねじ、リベット、クリップ)は、フレーム216hをハウジング216に取り付ける。ハウジング216内のキャビティ216j(図2C)は、フレーム216hおよび電子機器212を受け入れるように構成される。フレーム216hは、複数のトランスデューサ214(図2Bではトランスデューサ214a~fとして個別に識別される)を担持するように構成される。電子機器212(例えば、図1Cの電子機器112)は、オーディオソースからオーディオコンテンツを受信し、再生のためにオーディオコンテンツに対応する電気信号をトランスデューサ214に送信するように構成される。
トランスデューサ214は、電子機器112から電気信号を受信するように構成され、再生中に受信した電気信号を可聴音に変換するようにさらに構成される。例えば、トランスデューサ214a~214c(例えば、ツイータ)は、高周波音(例えば、約2kHzを超える周波数を有する音波)を出力するように構成することができる。トランスデューサ214d~214f(例えば、ミッドウーファ、ウーファ、ミッドレンジスピーカ)は、トランスデューサ214a~214c(例えば、約2kHzより低い周波数を有する音波)よりも低い周波数で音を出力するように構成することができる。いくつかの実施形態では、再生デバイス210は、図2A~図2Cに示されるものとは異なるいくつかのトランスデューサを含む。例えば、図3A~図3Cに関して以下にさらい詳細に説明されるように、再生デバイス210は、6つ未満のトランスデューサ(例えば、1、2、3)を含むことができる。しかしながら、他の実施形態では、再生デバイス210は、6つを超える(例えば、9、10)トランスデューサを含む。さらに、いくつかの実施形態では、トランスデューサ214のすべてまたは一部は、トランスデューサ214の放射パターンを望ましく調整(例えば、狭くまたは広く)するためにフェーズドアレイとして動作するように構成され、それにより、ユーザの再生デバイス210から発せられる音の知覚を変更する。
図2A~図2Cの図示の実施形態では、フィルタ216iは、トランスデューサ214bと軸方向に整列している。フィルタ216iは、トランスデューサ214bが出力する所定の周波数範囲を望ましく減衰させて、トランスデューサ214によってまとめて出力される音質および知覚音響ステージを改善するように構成することができる。しかしながら、いくつかの実施形態では、再生デバイス210は、フィルタ216iを省略する。他の実施形態では、再生デバイス210は、トランスデューサ214bおよび/またはトランスデューサ214の少なくとも別のものと位置合わせされた1つ以上の追加のフィルタを含む。
図3Aおよび図3Bは、それぞれ、開示された技術の実施形態に従って構成されたNMD320の正面および右側等角側面図である。図3Cは、NMD320の分解図である。図3Dは、NMD320のユーザインタフェース313を含む図3Bの一部の拡大図である。最初に図3A~図3Cを参照すると、NMD320は、上側部分316a、下側部分316b、および中間部分316c(例えば、グリル)を備えるハウジング316を含む。上側部分316aの複数のポート、穴、または開口316dは、ハウジング316内に配置された1つ以上のマイクロフォン315(図3C)への音の通過を可能にする。1つ以上のマイクロフォン316は、開口316dを介して音を受信し、受信した音に基づいて電気信号を生成するように構成される。図示の実施形態では、ハウジング316のフレーム316e(図3C)は、第1トランスデューサ314a(例えば、ツイータ)および第2トランスデューサ314b(例えば、ミッドウーファ、ミッドレンジスピーカ、ウーファ)をそれぞれ収容するように構成されたキャビティ316fおよび316gを囲む。しかしながら、他の実施形態では、NMD320は、単一のトランスデューサ、または3つ以上(例えば、2、5、6)のトランスデューサを含む。特定の実施形態では、NMD320は、トランスデューサ314aおよび314bを完全に省いている。
電子機器312(図3C)は、トランスデューサ314aおよび314bを駆動するように構成され、さらに、1つ以上のマイクロフォン315によって生成された電気信号に対応するオーディオデータを解析するように構成された構成要素を含む。いくつかの実施形態では、例えば、電子機器312は、図1Cに関して上述した電子機器112の構成要素の多くまたはすべてを含む。特定の実施形態では、電子機器312は、例えば、1つ以上のプロセッサ112a、メモリ112b、ソフトウェアコンポーネント112c、ネットワークインタフェース112dなど、図1Fに関して上述したコンポーネントを含む。いくつかの実施形態では、電子機器312は、追加の適切な構成要素(例えば、近接性または他のセンサ)を含む。
図3Dを参照すると、ユーザインタフェース313は、第1制御面313a(例えば、以前の制御)、第2制御面313b(例えば、次の制御)、および第3制御面313c(例えば、再生および/または一時停止制御)を含む複数の制御面(例えば、ボタン、ノブ、静電容量性表面)を含む。第4制御面313dは、一方または複数のマイクロフォン315の起動および停止に対応するタッチ式入力を受信するように構成される。第1インジケータ313e(例えば、1つ以上の発光ダイオード(LED)または別の適切な照明装置)は、1つ以上のマイクロフォン315が起動されたときにのみ点灯するように構成され得る。第2インジケータ313f(例えば、1つ以上のLED)は、通常動作においては点灯したままであり、音声アクティビティの検出を示すために点滅するか、そうでなければ点灯から変化するように構成され得る。いくつかの実施形態では、ユーザインタフェース313は、追加のまたはより少ない制御面および照明装置を含む。一実施形態では、例えば、ユーザインタフェース313は、第2インジケータ313fを省いた第1インジケータ313eを含む。さらに、特定の実施形態では、NMD320は、再生デバイスおよび制御デバイスを備え、ユーザインタフェース313は、制御デバイスのユーザインタフェースを備える。
図3A~図3Dを一緒に参照すると、NMD320は、1つ以上のマイクロフォン315を介して1つ以上の隣接ユーザから音声コマンドを受信するように構成されている。図1Bに関して上述したように、1つ以上のマイクロフォン315は、近傍(例えば、NMD320から10m以内の領域)の音を取得、捕捉、または記録し、記録された音に対応する電気信号を電子機器312に送信することができる。電子機器312は、電気信号を処理することができ、結果として生じるオーディオデータを分析して、1つ以上の音声コマンド(例えば、1つ以上の活性化語)の存在を判定することができる。いくつかの実施形態では、例えば、NMD320は、1つ以上の適切な音声コマンドを検出した後、さらなる分析のために、記録されたオーディオデータの一部を別のデバイスおよび/またはリモートサーバ(例えば、図1Bのコンピューティングデバイス106のうちの1つまたは複数)に送信するように構成される。リモートサーバは、オーディオデータを分析し、音声コマンドに基づいて適切なアクションを決定し、適切なアクションを実行するためにメッセージをNMD320に送信することができる。例えば、ユーザは「ソノス、マイケル・ジャクソンを再生して」と発することができる。NMD320は、1つ以上のマイクロフォン315を介して、ユーザの音声発話を録音し、音声コマンドの存在を判定し、音声コマンドを有するオーディオデータをリモートサーバ(例えば、図1Bのリモートコンピューティングデバイス106の1つまたは複数、VASの1つまたは複数サーバ、および/または別の適切なサービス)に送信することができる。リモートサーバは、オーディオデータを分析し、コマンドに対応するアクションを決定することができる。次いで、リモートサーバは、決定されたアクションを実行するためのコマンドをNMD320に送信することができる(例えば、マイケル・ジャクソンに関連するオーディオコンテンツを再生する)。NMD320は、このコマンドを受信し、メディアコンテンツソースからマイケル・ジャクソンに関連するオーディオコンテンツを再生することができる。図1Bに関して上述したように、適切なコンテンツソースは、LAN(例えば、図1Bのネットワーク104)、リモートサーバ(例えば、図1Bのリモートコンピューティングデバイス106のうちの1つまたは複数)などを介してNMD320に通信可能に結合されたデバイスまたはストレージを含むことができる。しかしながら、特定の実施形態では、NMD320は、外部デバイス、コンピュータ、またはサーバの介入または関与なしに、1つ以上の音声コマンドに対応する1つ以上のアクションを決定および/または実行する。
図3Eは、本開示の態様に係るNMD320のさらなる特徴を示す機能ブロック図である。NMD320は、音声アクティビティ検出器構成要素312k、ビームフォーマ構成要素312l、音響エコーキャンセル(AEC)および/または自己音抑制構成要素312m、起動ワード検出器構成要素312n、ならびに、音声/発話変換構成要素312o(例えば、音声-テキストおよびテキスト-音声)を含む、音声コマンド捕捉を容易にするように構成される構成要素を含む。図3Eの図示の実施形態では、前述の構成要素312k~312oが別個の構成要素として示される。しかしながら、いくつかの実施形態では、構成要素312k~312oのうちの1つ以上がプロセッサ112aのサブ構成要素である。
ビームフォーミングおよび自己音抑制構成要素312lおよび312mは、オーディオ信号を検出し、方向、振幅、周波数スペクトルなど、検出されたオーディオ信号に表わされる音声入力の態様を決定するように構成される。音声アクティビティ検出器アクティビティ構成要素312kは、ビームフォーミングおよびAEC構成要素312lおよび312mと動作可能に結合され、検出されたオーディオ信号において音声アクティビティが発生した可能性が高い1つの方向および/または複数の方向を決定するように構成される。潜在的な発話方向は、発話を他の音から区別するメトリックを監視することによって識別され得る。そのようなメトリックとしては、例えば、バックグラウンドノイズに対する発話帯域内のエネルギーおよびスペクトル構造の指標である発話帯域内のエントロピーを挙げることができる。当業者であれば分かるように、発話は、一般に、最も一般的なバックグラウンドノイズよりも低いエントロピーを有する。
起動ワード検出器構成要素312nは、受信されたオーディオを監視および解析して、受信されたオーディオに任意の起動ワード(例えば、ウェイクワード)が存在するかどうかを決定するように構成される。起動ワード検出構成要素312nは、起動ワード検出アルゴリズムを使用して受信されたオーディオを解析することができる。起動ワード検出器312nが起動ワードを検出する場合、NMD320は、受信されたオーディオに含まれる音声入力を処理することができる。起動ワード検出アルゴリズムの例は、オーディオを入力として受け入れ、起動ワードがオーディオ内に存在するかどうかの表示を与える。多くの第一者および第三者起動ワード検出アルゴリズムが知られており市販されている。例えば、音声サービスのオペレータは、第三者デバイスで使用するためにアルゴリズムを利用可能にし得る。あるいは、アルゴリズムは、特定の起動ワードを検出するように訓練されてもよい。いくつかの実施形態において、起動ワード検出器312nは、受信されたオーディオに対して複数の起動ワード検出アルゴリズムを同時に(または実質的に同時に)実行する。前述したように、異なる音声サービス(例えば、AMAZONのALEXA(登録商標)、APPLEのSIRI(登録商標)、または、MICROSOFTのCORTANA(登録商標))はそれぞれ、それぞれの音声サービスを呼び出すために異なる起動ワードを使用することができる。複数のサービスをサポートするために、起動ワード検出器312nは、それぞれのサポートされた音声サービスごとに起動ワード検出アルゴリズムを介して受信されたオーディオを並行して実行することができる。
発話/テキスト変換構成要素312oは、音声入力における発話をテキストに変換することによって処理を容易にすることができる。いくつかの実施形態において、電子機器312は、家庭と関連付けられる特定のユーザまたはユーザの特定のセットに対して訓練される音声認識ソフトウェアを含むことができる。そのような音声認識ソフトウェアは、特定の音声プロファイルに合わせて調整される音声-処理アルゴリズムを実装することができる。特定の音声プロファイルに合わせた調整は、一般に広範なベースのユーザおよびメディア再生システムを対象としない多様な要求からサンプリングする従来の音声アクティビティサービスよりも計算集約的なアルゴリズムを殆ど必要としない場合がある。
図3Fは、本開示の態様に係るNMD320により捕捉される音声入力328の一例の概略図である。音声入力328は、起動ワード部328aおよび音声発話部328bを含むことができる。いくつかの実施形態において、起動ワード557aは、AMAZONのALEXA(登録商標)と関連付けられる「Alexa」などの既知の起動ワードとなり得る。しかしながら、他の実施形態では、音声入力328が起動ワードを含まなくてもよい。いくつかの実施形態において、ネットワークマイクロフォンデバイスは、起動ワード部分328aの検出時に可聴応答および/または可視応答を出力してもよい。これに加えてまたは代えて、NMBは、音声入力および/または一連の音声入力を処理した後に可聴応答および/または可視応答を出力してもよい。
音声発話部328bは、例えば、(第1のコマンド328cおよび第2のコマンド328eとして個別に識別される)1つ以上の口語コマンドと、(第1のキーワード328dおよび第2のキーワード328fとして個別に識別される)1つ以上の口語キーワードとを含んでもよい。一例において、第1のコマンド328cは、特定の曲、アルバム、プレイリストなどの音楽を再生するためのコマンドとなり得る。この例において、キーワードは、図1Aに示されるリビングルームおよびダイニングルームなど、音楽が再生されるようになっている1つ以上のゾーンを識別する1つ以上の単語であってもよい。いくつかの例において、音声発話部328bは、図3Fに示されるように、ユーザが話した単語間の検出された一時停止(例えば、非発話の期間)などの他の情報を含むことができる。一時停止は、音声発話部328b内でユーザによって話された別個のコマンド、キーワード、または、他の情報の位置を画定することができる。
いくつかの実施形態において、メディア再生システム100は、起動ワード部557aを検出している間に再生しているオーディオコンテンツの音量を一時的に下げるように構成される。メディア再生システム100は、図3Fに示されるように、音声入力328を処理した後に音量を回復することができる。そのようなプロセスは、ダッキングと呼ぶことができ、その例は、参照によりその全体が本願に組み入れられる米国特許出願第15/438,749号に開示される。
図4A~図4Dは、様々な動作状態における対応するユーザインターフェスディスプレイを示す制御デバイス430(例えば、図1Hの制御デバイス130a、スマートフォン、タブレット、専用制御デバイス、IoTデバイス、および/または別の適切なデバイス)の概略図である。第1ユーザインターフェスディスプレイ431a(図4A)は、ディスプレイ名433a(すなわち、「ルーム」)を含む。選択されたグループ領域433bには、選択されたグループおよび/またはゾーンで再生されるオーディオコンテンツのオーディオコンテンツ情報(例えば、アーティスト名、トラック名、アルバムアート)が表示される。グループ領域433cおよび433dは、対応するグループおよび/またはゾーン名、ならびにそれぞれのグループまたはゾーンの再生キューにおいて再生または次に再生されるオーディオコンテンツ情報、オーディオコンテンツを表示する。オーディオコンテンツ領域433eは、選択されたグループおよび/またはゾーン内のオーディオコンテンツに関する情報(すなわち、選択されたグループ領域433bに示されたグループおよび/またはゾーン)を含む。下部表示領域433fは、タッチ入力を受信して、1つ以上の他のユーザインターフェスディスプレイを表示するように構成されている。例えば、ユーザが下部表示領域433fで「閲覧」を選択した場合、制御デバイス430は、複数の音楽サービス433g(例えば、スポティファイ、ラジオバイチューンイン、アップルミュージック、パンドラ、アマゾン、TV、ローカル音楽、ラインイン)を備える第2ユーザインターフェスディスプレイ431b(図4B)を出力するように構成することができ、ユーザは、このディスプレイから、1つ以上の再生デバイス(例えば、図1Aの再生デバイス110のうちの1つ)を介して再生するためのメディアコンテンツを閲覧することができ、また、再生するためのメディアコンテンツを選択することができる。あるいは、ユーザが下部表示領域433f内の「マイソノス」を選択した場合、制御デバイス430は、第3ユーザインターフェスディスプレイ431c(図4C)を出力するように構成することができる。第1メディアコンテンツ領域433hは、個々のアルバム、ステーション、またはプレイリストに対応するグラフィカル表現(例えば、アルバムアート)を含むことができる。第2メディアコンテンツ領域433iは、個々の曲、トラック、または他のメディアコンテンツに対応するグラフィカル表現(例えば、アルバムアート)を含むことができる。ユーザがグラフィカル表現433j(図4C)を選択した場合、制御デバイス430は、グラフィカル表現433jに対応するオーディオコンテンツの再生を開始し、グラフィカル表現433jの拡大版、メディアコンテンツ情報433k(例えば、トラック名、アーティスト、アルバム)、搬送制御433m(例えば、再生、巻き戻し、早送り、一時停止、音量)、ならびに現在選択されているグループおよび/またはゾーン名の表示433nを含む第4ユーザインターフェスディスプレイ431d第4ユーザインターフェスディスプレイ431dを出力するように構成されることができる。
図5は、制御デバイス530(例えば、ラップトップコンピュータ、デスクトップコンピュータ)の概略図である。制御デバイス530は、トランスデューサ534、マイクロフォン535、およびカメラ536を含む。ユーザインタフェース531は、トランスポート制御領域533aと、再生ステータス領域533bと、再生ゾーン領域533cと、再生キュー領域533dと、メディアコンテンツソース領域533eとを含む。トランスポート制御領域は、例えば、音量、前へ、再生/一時停止、次へ、繰り返し、シャッフル、トラック位置、クロスフェード、イコライゼーションなどを含むメディア再生を制御するための1つ以上の制御を含む。オーディオコンテンツソース領域533eは、再生および/または再生キューへの追加のためのメディアアイテムをユーザが選択することができる、1つ以上のメディアコンテンツソースのリストを含む。
再生ゾーン領域533bは、メディア再生システム100(図1Aおよび図1B)内の再生ゾーンの表現を含むことができる。いくつかの実施形態では、再生ゾーンのグラフィカル表現は、結合ゾーンの作成、ゾーングループの作成、ゾーングループの分離、ゾーングループの名称変更など、メディア再生システムにおける再生ゾーンを管理または構成するための追加の選択可能アイコンを表示するために選択可能であってもよい。図示の実施形態では、「グループ」アイコンが、再生ゾーンのグラフィカル表現の各々の中に設けられる。特定のゾーンのグラフィカル表現内に設けられる「グループ」アイコンは、特定のゾーンとグループ化されるべきメディア再生システム内の1つ以上の他のゾーンを選択するためのオプションを表示するために選択可能であってもよい。グループ化されると、特定のゾーンとグループ化されたゾーン内の再生デバイスは、特定のゾーン内の再生デバイスと同期してオーディオコンテンツを再生するように構成することができる。同様に、「グループ」のアイコンをゾーングループのグラフィカル表現内に設けることができる。図示の実施形態では、「グループ」のアイコンを選択可能にして、ゾーングループから除去されるゾーングループ内の1つ以上のゾーンを選択解除するオプションを表示することができる。いくつかの実施形態では、制御デバイス530は、ユーザインタフェース531を介してゾーンをグループ化およびグループ解除するための他の対話および実装を含む。特定の実施形態では、再生ゾーン領域533b内の再生ゾーンの表現は、再生ゾーンまたはゾーングループ構成が変更されるときに動的に更新させることができる。
再生ステータス領域533cは、選択された再生ゾーンまたはゾーングループにおいて現在再生中、以前に再生、または次に再生するようにスケジュールされているオーディオコンテンツのグラフィカル表現を含む。選択された再生ゾーンまたはゾーングループは、再生ゾーン領域533bおよび/または再生キュー領域533d内など、ユーザインタフェースで視覚的に区別されてもよい。グラフィカル表現は、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラック長、および、ユーザインターフェス531を介してメディア再生システム100を制御するときにユーザが知るのに有用であり得る他の関連情報を含んでもよい。
再生キュー領域533dは、選択された再生ゾーンまたはゾーングループに関連付けられた再生キュー内のオーディオコンテンツのグラフィカル表現を含む。いくつかの実施形態では、各再生ゾーンまたはゾーングループは、再生ゾーンまたはゾーングループによる再生のための0以上のオーディオアイテムに対応する情報を含む再生キューに関連付けられてもよい。例えば、再生キュー内の各オーディオアイテムは、ユニフォームリソースアイデンティファイア(URI)、ユニフォームリソースロケータ(URL)、または、場合によっては再生デバイスによる再生のために、ローカルオーディオ・コンテンツ・ソースまたはネットワーク化されたオーディオ・コンテンツ・ソースからオーディオアイテムを発見および/または検索するために再生ゾーンまたはゾーングループ内の再生デバイスによって使用されることができる何らかの他の識別子を、備えることができる。いくつかの実施形態では、例えば、プレイリストを再生キューに追加することができ、プレイリスト内の各オーディオアイテムに対応する情報を再生キューに追加することができる。いくつかの実施形態では、再生キュー内のオーディオアイテムは、プレイリストとして保存されてもよい。特定の実施形態では、再生キューは、再生ゾーンまたはゾーングループが、再生持続時間を有する個別のオーディオアイテムではなく、そうでなければ停止するまで再生し続けることができるインターネットラジオなどのオーディオコンテンツを、連続的にストリーミング再生しているとき、空であるか、または事前設定されているが「使用されていない」場合がある。いくつかの実施形態では、再生キューは、インターネットラジオおよび/または他のストリーミングオーディオコンテンツアイテムを含むことができ、再生ゾーンまたはゾーングループがそれらのアイテムを再生しているときに「使用中」であることができる。
再生ゾーンまたはゾーングループが「グループ化」または「グループ解除」されている場合、影響を受ける再生ゾーンまたはゾーングループに関連付けられた再生キューは、クリアまたは再関連付けされることができる。例えば、第1再生キューを含む第1再生ゾーンが第2再生キューを含む第2再生ゾーンとグループ化される場合、確立されたゾーングループは、最初は空である、第1再生キューからのオーディオアイテムを含む(第2再生ゾーンが第1再生ゾーンに追加された場合など)、第2再生キューからのオーディオアイテムを含む(第1再生ゾーンが第2再生ゾーンに追加された場合など)、または第1および第2再生キューの両方からのオーディオアイテムの組み合わせに関連付けられた再生キューを有することができる。その後、確立されたゾーングループがグループ解除された場合、結果として得られる第1再生ゾーンは、前の第1再生キューに再度関連付けされてもよく、または、確立されたゾーングループがグループ解除される前に、空であるかまたは確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新たな再生キューに関連付けられてもよい。同様に、結果として得られる第2再生ゾーンは、前の第2再生キューに再関連付けられてもよく、または、空であるか、または、確立されていたゾーングループがグループ解除される前に確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新たな再生キューに、関連付けられてもよい。
図6は、メディア再生システム100(図1A~図1M)のデバイス間のデータ交換を示すメッセージのフロー図である。
ステップ650aにおいて、メディア再生システム100は、制御デバイス130aを介して、選択されたメディアコンテンツ(例えば、1つ以上の曲、アルバム、プレイリスト、Podcast、ビデオ、ステーション)の表示を受信する。選択されたメディアコンテンツは、例えば、メディア再生システムに接続された1つ以上のデバイス(例えば、図1Cのオーディオソース105)にローカルに記憶されたメディアアイテムおよび/または1つ以上のメディアサービスサーバ(図1Bのリモートコンピューティングデバイス106のうちの1つ以上)に記憶されたメディアアイテムを含むことができる。選択されたメディアコンテンツの表示の受信に応答して、制御デバイス130aは、再生デバイス110aの再生キューに選択されたメディアコンテンツを追加するためにメッセージ651aを再生デバイス110a(図1A~図1C)に送信する。
ステップ650bにおいて、再生デバイス110aは、メッセージ651aを受信し、再生のために選択されたメディアコンテンツを再生キューに追加する。
ステップ650cにおいて、制御デバイス130aは、選択されたメディアコンテンツを再生するコマンドに対応する入力を受信する。選択されたメディアコンテンツを再生するコマンドに対応する入力を受信したことに応答して、制御デバイス130aは、再生デバイス110aに選択されたメディアコンテンツを再生させるメッセージ651bを再生デバイス110aに送信する。メッセージ651bの受信に応答して、再生デバイス110aは、選択されたメディアコンテンツを要求するメッセージ651cをコンピューティングデバイス106aに送信する。コンピューティングデバイス106aは、メッセージ651cの受信に応答して、要求されたメディアコンテンツに対応するデータ(例えば、オーディオデータ、ビデオデータ、URL、URI)を含むメッセージ651dを送信する。
ステップ650dにおいて、再生デバイス110aは、要求されたメディアコンテンツに対応するデータを有するメッセージ651dを受信し、関連するメディアコンテンツを再生する。
ステップ650eにおいて、再生デバイス110aは、任意選択的に、選択されたメディアコンテンツを再生することを1つ以上の他のデバイスに行わせる。一例では、再生デバイス110aは、2人以上のプレーヤの結合ゾーンのうちの1つである(図1M)。再生デバイス110aは、選択されたメディアコンテンツを受信し、メディアコンテンツの全部または一部を結合ゾーン内の他のデバイスに送信することができる。別の例では、再生デバイス110aは、グループのコーディネータであり、グループ内の1つ以上の他のデバイスからタイミング情報を送受信するように構成される。グループ内の他の1つ以上のデバイスは、コンピューティングデバイス106aから選択されたメディアコンテンツを受信し、再生デバイス110aからのメッセージに応答して選択されたメディアコンテンツの再生を開始することができ、それにより、グループ内のすべてのデバイスが、選択されたメディアコンテンツを同期して再生する。
IV.例示的な同期グループ化技術
図7は、ユーザUがARゲームをプレイしている物理的環境701の部屋750内に分散された複数の再生デバイス702(第1、第2、および、第3の再生デバイス702a~702cとして個別に識別される)を備えるメディア再生システム700(「MPS700」)の構成の一例の上面図である。第1、第2、および、第3の再生デバイス702a、702b、702cは、ユーザUに対して第1、第2、および、第3の実世界位置750a、750b、750cにそれぞれ位置される。図7に示されるように、ARゲームは、仮想シーン760(この例では、戦場)、第1および第2仮想オブジェクト764aおよび764b(ここでは、第1のタンクおよび第2のタンク)、並びに、仮想メディアオーディオ766(第1、第2、および、第3のオーディオ信号766a、766b、766cによって表わされる)を含む仮想メディアコンテンツを備える。ここで、ユーザUは、再生デバイス702が部屋750内で関連する仮想メディアオーディオ766を大きな音で再生している間に、コンピュータデバイス730のディスプレイを介してリアルタイムで物理的環境701上にオーバーレイされた仮想シーン760を見ている。以下により詳細に説明するように、MPS700は、再生デバイス702による空間オーディオの再生を可能にするためにユーザUに対する再生デバイス702の位置750a~750cを仮想メディアコンテンツプロバイダ(「VMP」)に送信することができる。空間オーディオは、ユーザUが物理的環境内の仮想オブジェクト760の位置を空間的に知覚できるようにする1つ以上の聴覚キューを含むことができ、それによって、ユーザUにより現実的で没入感のある体験を提供する。以下に説明するシステムおよび方法は、同じ部屋に配置された3つの再生デバイスを参照しているが、本技術の方法は、同じ部屋または異なる部屋に位置された3つより多いまたは少ない再生デバイス(例えば、2つの再生デバイス、4つの再生デバイス、8つの再生デバイス、20個の再生デバイスなど)にわたって空間オーディオを再生することを含む。
再生デバイス702のそれぞれは、本明細書の他の箇所に記載される再生デバイスおよびネットワークマイクロフォンデバイスの構成要素(例えば、再生デバイス110aもしくは図1Cおよび/または図1Fのネットワークマイクロフォンデバイス120a)とほぼ同様の構成要素を含んでもよい。例えば、再生デバイス702のそれぞれは、オーディオインタフェース、オーディオ出力プロセッサ、スピーカなどの再生構成要素(図示せず)を含んでもよい。第1、第2、および/または、第3の再生デバイス702aは、任意選択的に、VASと関連付けられる音声プロセッサおよびウェイクワードエンジンなどのそれぞれの音声処理構成要素を含んでもよい。第1、第2、および/または、第3の再生デバイス702a~702cは、ローカルおよび/またはワイドエリアネットワークを介して互いに通信するように構成されるそれぞれのネットワークインタフェースを更に含んでもよい。また、それぞれのネットワークインタフェースは、ローカルおよび/またはワイドエリアネットワークを介してMPS700の他のコンピュータデバイスおよび/または(VASおよび/または仮想メディアコンテンツサービスと関連付けられるものなどの)1つ以上の遠隔コンピュータデバイスと通信するように構成されてもよい。
いくつかの実施形態において、第1、第2、および/または、第3の再生デバイス702a~702cは、本明細書の他の箇所に記載された態様と同様の態様でNMDを備えるように構成される。例えば、第1、第2、および/または、第3の再生デバイス702a~702cは、音を検出するように構成される複数のオンボードマイクロフォン(例えば、遠距離場マイクロフォン)を個別に含んでもよい。マイクロフォンによって検出される音は、それぞれの音声プロセッサによって処理されて(ネットワークインタフェースを介して)VASと関連付けられる遠隔コンピュータデバイスに潜在的に送信するためにそれぞれのウェイクワードエンジンに送信されてもよい。
コンピュータデバイス730は、ディスプレイを有する任意の適した電子デバイスを備えてもよい。いくつかの実施形態において、コンピュータデバイス730は、MPS700のユーザアクセス、制御、および/または、構成を容易にすることに関連する機能を果たすように構成される、本明細書に記載の制御デバイス(制御デバイス130aなど)のいずれかであってもよい。コンピュータデバイス730は、例えば、携帯電話、タブレット、ポータブルゲーム装置、ラップトップ、デスクトップ、音声アシスタント装置などを備えることができる。いくつかの実施形態において、コンピュータデバイス730は、再生デバイス702のうちの1つ以上などのメディア再生システム700における別のデバイスに組み込まれる。
図8は、本技術のMPS(MPS700など)を介して空間オーディオを再生するためのプロセス800の一例を示す。プロセス800は、メモリ(例えば、図1Cのメモリ112b)に記憶されて1つ以上の再生デバイス702の1つ以上のプロセッサ(例えば、図1Cのプロセッサ112a)によって実行される1つ以上ノード命令を含むことができる。このプロセスは、図7に示されるシナリオにおいてMPS700に関連して説明されるが、当業者であれば分かるように、プロセス800は、他の構成を有するMPSによっておよび/または異なる条件下で実施されてもよい。
図8に示されるように、プロセス800はブロック802で始まり、このブロック802において、MPS700は、ユーザU、コンピュータデバイス730、および/または、他の再生デバイス702に対する第1、第2、および、第3の再生デバイス702a、702b、702cのそれぞれの位置750a~750cに対応する位置データを受信する。本技術のいくつかの用途において、ユーザUは、部屋750内(例えば、コーヒーテーブルまたはフロア上の空いているスペース上)の仮想シーン760の位置および向きを固定することができ、プロセス800は、固定位置から位置データを計算することができる。仮想シーン760が配置された時点で、コンピュータデバイス730は、ユーザがコンピュータデバイス730を部屋の周りで移動させる際に仮想シーン760のビューが変化するようにカメラとして機能することができる。VMPによって生成されたオーディオ信号は最初の配置から計算されるため、VMPによって生成されたオーディオ信号は、ユーザが移動するたびに再計算される必要がない。これに対し、HRTFアルゴリズムを利用するヘッドセットは、ユーザが頭を動かす際にヘッドセットの仮想位置に対する音配置を再計算する必要がある。本実施形態では、ユーザUが物理的環境内で仮想シーン760を移動または再配向することを選択すれば、プロセス800は、新たな配置から位置データを再計算することができる。いくつかの実施形態において、プロセス800は、コンピュータデバイス730および/またはユーザの位置データをリアルタイムで監視および更新するように構成されてもよい。
本技術のいくつかの態様によれば、MPS700および/または再生デバイス702のうちの1つ以上は、ユーザがコントローラを介してシーン760をズームインまたはズームアウトするのに応じてシステムが再生デバイス702のボリュームを調整するように構成されてもよい。例えば、ユーザがオーディオオブジェクトをズームインする(したがって、オーディオオブジェクトに近づく)場合には、再生デバイスのうちの1つ、いくつか、または全てによって再生されるオーディオの音量が増大し得る。同様に、ユーザがオーディオオブジェクトをズームアウトする(したがって、オーディオオブジェクトから遠ざかる)場合には、再生デバイスのうちの1つ、いくつか、または全てによって再生されるオーディオの音量が減少し得る。いくつかの実施形態では、空間内に相対的な配置を与えるために、システムは、超広帯域および/またはBluetoothビーコンを利用することができる。
いくつかの実施形態において、MPS700および/または再生デバイス702のうちの1つ以上は、再生デバイス702の第1、第2、および、第3の位置750a、750b、702cのうちの1つ、いくつか、または、全てを計算してもよい。例えば、いくつかの実施形態において、MPS700は、超音波信号などの固有の信号を発するように再生デバイス702のそれぞれに指示することができ、また、MPS700は、コンピュータデバイス730のマイクロフォンおよび/または他の再生デバイス702の1つ以上のマイクロフォンによる信号の検出に基づいて再生デバイス702の位置を計算する。いくつかの実施形態において、MPS700は、再生デバイス702の互いに対する位置を特徴付ける位置データを既に有していてもよく、この場合、MPS700は、コンピュータデバイス730を介して、再生デバイス702の全てよりも少ない(単一の再生デバイス702を含む)位置データを取得することによって、ユーザUおよび/またはコンピュータデバイス730に対する再生デバイス702のそれぞれの位置を計算してもよい。いくつかの実施形態において、MPS700は、コンピュータデバイス730に信号を発するように指示することができ、また、MPS700は、それぞれの再生デバイス702における信号の検出に基づいてコンピュータデバイス730および/またはユーザUに対する再生デバイス702の位置を計算する。様々な例において、MPS700は、コンピュータデバイス730に信号を発するように指示することによって取得されるデータ並びに再生デバイス702のうちの1つ以上に信号を発するように指示することによって取得されるデータを利用して再生デバイス位置のうちの1つ以上を決定することができる。
いくつかの実施形態において、MPS700は、第1、第2、および、第3の位置750a~750cを計算せず、代わりに、この情報を別個のエンティティから受信するまたは別個のエンティティをVMPにリンクして別個のエンティティがVMPに直接に情報を提供できるようにする。更に、プロセス800は、同時にまたは異なる時間に再生デバイス702の位置を受信および/または決定してもよい。
ブロック804に示されるように、プロセス800は、再生デバイス702の位置データをVMPと関連付けられる1つ以上の遠隔コンピュータデバイスに送信することを更に含む。位置データを受信すると、VMPは、ユーザUに対する再生デバイス702の位置を仮想環境にマッピングすることができる(またはその逆もまた同様である)。したがって、VMPによってレンダリングされて再生デバイス702によって再生された結果として得られるオーディオ信号は、ユーザUが現実世界空間でオーディオオブジェクトのうちの1つ以上を空間的に位置特定できるようにする聴覚的キューを含む。例えば、第1、第2、および、第3のオーディオ信号766a、766b、766cは、ユーザが部屋750内のユーザUの前に第1のタンク764aおよび第2のタンク764bを配置できるようにするオーディオキューを提供するように協働する。本技術のいくつかの態様では、MPS700がこのマッピングを実行し得る。
本技術のいくつかの態様によれば、プロセス800は、任意選択的に、部屋750の音響プロファイルを取得し、この情報を位置データと共にVMPに送信することができる。音響プロファイルは、例えば、再生デバイス702、ユーザU、および/または、コンピュータデバイス730のうちの1つ以上に対する部屋750内の表面(例えば、壁、家具、装飾品、別のユーザなど)の位置、それらの表面の吸音特性、および/または、部屋750の寸法を含むことができる。MPS700は、例えば、部屋の音響プロファイル(例えば、部屋のRT60などの残響時間)を測定する或いはそうでなければアクセスすることができる。プロセス800は、VMPが再生のためのオーディオ信号を生成するときに考慮のために部屋750の音響プロファイルをVMPに送信することができる。VMPは、部屋750および/または物理的環境701の他の領域の音響特性を利用して、物理的環境701内の再生デバイス702の位置に特有のだけでなくユーザの聴取環境の音響的制限にも特有の聴覚的キューを生成することができる。これは、人間の耳が周囲および人間の聴覚系との音声キューの様々な相互作用から音声キューの位置を推定するため、ユーザにとってより現実的な体験を提供する。異なる位置からの音は、脳が空間内の音キューの相対位置を決定できるようにする人間の聴覚系において異なる共振およびキャンセルをもたらす。
また、プロセス800は、再生デバイスの位置データおよび/または部屋750の音響特性に基づいて視覚的仮想コンテンツの1つ以上の態様を調整してもよい。例えば、壁および/または部屋750の1つ以上の寸法に対する再生デバイス702の位置の受信に応じて、プロセス800は、仮想シーン760の境界を調整することができる。例えば、いくつかのAR/MR用途では、仮想シーン760のサイズを部屋750のサイズと一致させることにより、ユーザのための改善された聴取環境が提供され得る。場合によっては、VMPは、再生デバイス702によって規定される領域に一致するようにまたはそれよりも僅かに大きくなるように仮想シーン760の境界を調整することができる。いくつかの実施形態において、プロセス800は、再生デバイス702によって規定される領域よりも小さくなるように仮想シーン760の境界を調整することができる。
本技術のいくつかの態様において、プロセス800は、位置データおよび/または音響プロファイルを使用してMPS700構成に合わせた調整を推奨しうる。例えば、位置データおよび/または音響プロファイルに基づいて、プロセス800は、ユーザが(例えば、コンピュータデバイス730および/または再生デバイス702のうちの1つ以上を介して)聴取環境のギャップを埋めるように再生デバイスのうちの1つを移動させることを提案してもよい。これに加えてまたは代えて、プロセス800は、ユーザが再生デバイス702のうちの1つ以上を無効化することおよび/または特定の位置で再生デバイスを現在の構成に加えることを提案してもよい。いくつかの実施形態において、プロセス800は、ユーザが物理的環境701に対して仮想シーン760を再配向することおよび/または部屋750および/または物理的環境内の異なる場所に移動させることを提案してもよい。
更に図7および図8を参照すると、ブロック806において、プロセス800は、VMPと関連付けられる1つ以上の遠隔コンピュータデバイスから、第1、第2、および、第3のオーディオ信号766a、766b、766cなどの、仮想シーン760と関連付けられる仮想メディアオーディオコンテンツ766を受信することを含む。オーディオ信号766は、ユーザUが聴取環境内の仮想オブジェクト(仮想オブジェクト764aおよび764bなど)の位置を空間的に知覚できるようにするべく構成される1つ以上のオーディオキューを含むことができる。人間は様々な聴覚的キューを使用して音が発生する空間点を決定するため、オーディオキューは空間オーディオの重要な構成要素である。例えば、人間の脳は、両耳間時間差(すなわち、各鼓膜に衝突する音間の時間遅延)、両耳間レベル差、スペクトルキュー、時間領域キューなどの音定位キューを迅速且つ効果的に処理して、音の発生点を正確に識別する。
プロセス800はブロック808に続き、ブロック808は、第1、第2、および、第3の再生デバイス702a、702b、702cをそれぞれ介して第1、第2、および、第3のオーディオ信号766a、766b、766cを再生することを含む。いくつかの実施形態において、第1、第2、および、第3のオーディオ信号766a~766cは、再生デバイス702によって同期して再生されてもよい。例えば、再生デバイス702は、図1I~図1Mに関連して本明細書の他の箇所で説明したようにグループ化および/または結合されてもよい。同様に、プロセス800は、再生中に第1、第2、および、第3のオーディオ信号766a、766b、766cをミキシングしてもよい。これに加えてまたは代えて、プロセス800は、例えば、仮想環境における仮想オブジェクトの位置の変化に応じて、第1、第2、および/または、第3のオーディオ信号766a、766b、766cをクロスフェードすることを含んでもよい。例えば、図7に示されるシナリオでは、第1のタンク764がユーザの右耳に最も近く、したがって、第1のタンク764によって生成される任意の音は、排他的に与えられない場合、ユーザの右側の再生デバイス(すなわち、第2の再生デバイス750b)によってより高い強度で再生される。第1のタンク764が仮想戦場760を横切ってユーザの左側に移動する場合、プロセス800は、第1のタンクのオーディオを第2の再生デバイス750bからユーザの左側の再生デバイス(すなわち、第3の再生デバイス702)へクロスフェードすることができる。
いくつかの実施形態において、プロセス800は、部屋750および/または物理的環境701内の再生デバイス702の全てよりも少ない再生デバイス702で仮想メディアオーディオコンテンツの再生をもたらすことができる。例えば、ユーザおよび/またはMPS700は、仮想シーンと関連付けられない非空間オーディオまたはオーディオコンテンツを再生するための利用可能な再生デバイスのうちの1つ以上を指定することができる。非空間オーディオは、例えば、音楽、および、再生デバイス702のうちのNMDを装備したものの1つからのアナウンス/応答を含んでもよい。そのような特徴は、例えば、ユーザがAR/MRゲームをプレイしながらバックグラウンドで音楽を再生したい場合または再生デバイス702のうちの1つ以上の音声アシスタント機能を利用したい場合に有用であり得る。したがって、MPS700は、非仮想メディアオーディオを同時に再生しながら少なくとも2つの再生デバイスを介して同期して空間オーディオを再生するように構成され得る。
いくつかの実施形態において、プロセス800は、仮想メディアオーディオを再生するために物理的環境内で利用可能なおよび/または好ましい再生デバイスを識別することを更に含む。いくつかの実施形態において、プロセス800は、(例えば、コンピュータデバイス730を介した)ユーザによる選択のための再生デバイスのグルーピングを提案することができ、また、いくつかの実施形態では、プロセス800は、再生のために特定の再生デバイスまたは再生デバイスのグループを自動的に選択することができる。これに加えてまたは代えて、プロセス800は、オーディオコンテンツの少なくとも一部を再生するために部屋750の外側に位置される1つ以上の再生デバイスを利用することを提案することができる。
前述したように、本技術のMPSによって提供されるアウトラウドリスニング体験は、制御デバイス上またはヘッドセット上のヘッドホンおよび/またはスピーカなどのAR/MRのための現在のオーディオオプションに優るいくつかの利点を与える。例えば、大音量で聴取することは、AR/MR/VRバイザのヘッドバンドに組み込まれたヘッドホンまたはスピーカと比較してより大きな音環境を可能にする。更に、大音量で聴取する構成では、適切な音のためにヘッドホンで再生されるオーディオが耳形状などを考慮に入れなければならない一方で、「記録されたまま」のオーディオが再生されてもよい。ヘッドホンユーザは、ヘッドホンに結合されたサブウーファを利用して、より深い低音および体験への何らかの「感触」を得ることができる。本技術のMPS700は、ユーザが「VR」空間を専有する必要なく既存のスピーカを活用できるようにするという更なる利点を与える。
いくつかの実施形態において、MPS700は、AR/MRヘッドセットによって提供されるオーディオコンテンツを増強または補完するために、再生デバイス702を介して仮想メディアオーディオを再生するように構成されてもよい。前述したように、いくつかの市販のAR/MRヘッドセットは、オーバーまたはインイヤースピーカを介してまたはヘッドセットのヘッドバンドに組み込まれたアウトラウドスピーカ(MAGIC LEAP ONEおよびMICROSOFT’S HOLOLENSなど)を介して大音量でユーザに空間オーディオを提供する。本技術の様々な態様において、利用可能な再生デバイス702のうちの1つ、いくつか、または、全ては、ヘッドセットによって与えられる1つ以上のスピーカに結合されてもよい。MPS700は、例えば、より深い低音を提供して体験により多くの「感触」を加えるために、サブウーファを有するヘッドセットによって与えられるオーディオを補うことができる。
MPS700は、観客モードにある第1のユーザのゲームプレイを視聴する第2のユーザに空間オーディオを与えるように構成されてもよい。例えば、第2のユーザ(図示せず)は、第2のユーザが第1のユーザとは異なる部屋または物理的環境内に位置される間に、第1のユーザのゲームプレイを視聴したい場合がある。第2のユーザは、第1のユーザによって利用されている再生デバイス702とは異なる1つ以上の再生デバイスを有する物理的環境に位置されてもよい。この場合、本技術のプロセスは、第2のユーザに対する第2のユーザの再生デバイスの位置情報を取得すること、および、位置情報をVMPへ送信することを含むことができる。
V.結論
再生デバイス、制御デバイス、再生ゾーン構成、およびメディアコンテンツソースに関する上述した説明は、以下に説明する機能および方法が実装され得る動作環境のいくつかの例を示しているに過ぎない。本明細書で明示的に記載されていないメディア再生システム、再生デバイス、およびネットワークデバイスの他の動作環境および構成もまた、機能および方法の実装に適用可能であり、好適であり得る。
上記の説明は、数ある中で、他の構成要素の中で、ハードウェア上で実行されるファームウェアおよび/またはソフトウェアを含む、様々な例示的なシステム、方法、装置、および製造品を開示している。そのような例は単なる例示であり、限定的なものと考えるべきではないことが理解される。例えば、ファームウェア、ハードウェア、および/またはソフトウェアの態様または構成要素のいずれかまたはすべてが、ハードウェアのみで、ソフトウェアのみで、ファームウェアのみで、またはハードウェア、ソフトウェア、および/またはファームウェアの任意の組み合わせで具現化され得ることが意図されている。したがって、提供される例は、そのようなシステム、方法、装置、および/または製造品を実装するための唯一の方法ではない。
さらに、本明細書において「実施形態」への言及は、実施形態に関連して記載された特定の機能、構造、または特徴が、本発明の少なくとも1つの例示的な実施形態に含まれ得ることを意味する。本明細書の様々な場所で現れているこの用語は、必ずしもすべてが同じ実施形態を指すものではなく、また、別個の実施形態または代替的な実施形態が他の実施形態と相互に排他的であるものでもない。そのように、本明細書に記載された実施形態は、当業者であれば明示的にも暗黙的にも理解されるように、他の実施形態と組み合わせることができる。
本明細書は、ネットワークに接続されたデータ処理デバイスの動作に直接または間接的に類似した例示的な環境、システム、手順、ステップ、論理ブロック、処理、および他の記号的表現の観点から広く提示されている。これらのプロセス記述および表現は、当業者が、他の当業者にその作業の実体を最も効果的に伝えるために典型的に使用される。多くの特定の詳細は、本開示の完全な理解を提供するために記載されている。しかしながら、本開示の特定の実施形態は、特定の具体的な詳細なしに実施することができることは、当業者に理解されるであろう。他の実施例では、実施形態の態様を不必要に不明瞭にすることを避けるために、周知の方法、手順、構成要素、および回路が詳細に記載されていない。したがって、本開示の範囲は、前記の実施形態の説明よりもむしろ、添付の特許請求の範囲によって定義される。
添付の特許請求の範囲のいずれかが、純粋にソフトウェアおよび/またはファームウェアの実装をカバーするために読み取られる場合、少なくとも1つの例における要素のうちの少なくとも1つは、ソフトウェアおよび/またはファームウェアを格納するメモリ、DVD、CD、ブルーレイなどのような有形の非一時的な媒体を含むことを本明細書では明示的に定義される。
本技術は、例えば、以下に記載される様々な態様にしたがって例示される。本技術の態様の様々な例は、便宜上番号を付した例(1、2、3など)として説明される。これらは、一例として与えられ、本技術を限定するものではない。従属例のいずれも、任意の組み合わせで組み合わせることができ、それぞれの独立した例へと配置され得ることに留意されたい。他の例も同様に提示することができる。
例1:聴取環境におけるユーザに対する第1の再生デバイスの第1の位置を受信するステップと、聴取環境におけるユーザに対する第2の再生デバイスの第2の位置を受信するステップと、第1および第2の位置に対応する位置データをメディアコンテンツプロバイダに送信するステップと、仮想環境と関連付けられる仮想メディアオーディオコンテンツをメディアコンテンツプロバイダから受信するステップであって、仮想メディアオーディオコンテンツが送信された位置データに基づいて生成される第1および第2のオーディオ信号を含み、生成される第1および第2のオーディオ信号が、ユーザが聴取環境内の仮想オブジェクトの位置を空間的に知覚できるようにするべく構成される1つ以上のオーディオキューを含む、ステップと、第2の再生デバイスを介した第2のオーディオ信号の再生と同期して第1の再生デバイスを介して前記第1のオーディオ信号を再生するステップとを含む方法。
例2:仮想メディアオーディオコンテンツは、仮想環境内の仮想オブジェクトの視覚的表示が聴取環境内の現実世界空間上にオーバーレイされる間に再生される、例1の方法。
例3:第1および第2のオーディオ信号の再生は、第1および第2のオーディオ信号をミキシングすることを更に含む、例1または2の方法。
例4:仮想環境内の仮想オブジェクトの位置の変化に応じて第1および第2のオーディオ信号をクロスフェードするステップを更に含む、例3の方法。
例5:オーディオキューは、両耳間時間差、両耳間レベル差、スペクトルキュー、または、時間領域キューのうちの少なくとも1つを含む、例1から4のいずれか1つの方法。
例6:仮想メディアオーディオコンテンツが仮想環境に対する仮想オブジェクトの軌跡を含む、例1から5のいずれか1つの方法。
例7:ネットワークマイクロフォンデバイスに例1から6のいずれか1つの方法を実行させるために1つ以上のプロセッサによって実行可能な命令を記憶する有形持続性コンピュータ可読媒体。
例8:メディア再生システムであって、プロセッサと、メディア再生システムに例1から6のいずれか1つの方法を実行させるためにプロセッサによって実行可能な命令を記憶する有形持続性コンピュータ可読媒体とを備える、メディア再生システム。
例9:ネットワークマイクロフォンデバイスであって、音を検出するように構成される1つ以上のマイクロフォンと、1つ以上のプロセッサと、ネットワークマイクロフォンデバイスに例1から6のいずれかの方法を実行させるために1つ以上のプロセッサによって実行可能な命令が記憶された有形持続性コンピュータ可読媒体とを備えるネットワークマイクロフォンデバイス。

Claims (15)

  1. 聴取環境におけるユーザに対する第1の再生デバイスの第1の位置を受信するステップと、
    前記聴取環境における前記ユーザに対する第2の再生デバイスの第2の位置を受信するステップと、
    前記第1および第2の位置に対応する位置データをメディアコンテンツプロバイダに送信するステップと、
    仮想環境に関連付けられる仮想メディアオーディオコンテンツを前記メディアコンテンツプロバイダから受信するステップであって、前記仮想メディアオーディオコンテンツが送信された前記位置データに基づいて生成される第1および第2のオーディオ信号を含み、生成される前記第1および第2のオーディオ信号が、前記ユーザが前記聴取環境内の仮想オブジェクトの位置を空間的に知覚できるように構成される1つまたは複数のオーディオキューを含む、ステップと、
    前記第2の再生デバイスを介した前記第2のオーディオ信号の再生と同期して前記第1の再生デバイスを介して前記第1のオーディオ信号を再生するステップと、
    を含む、
    方法。
  2. 前記仮想メディアオーディオコンテンツは、前記仮想環境内の前記仮想オブジェクトの視覚的表示が前記聴取環境内の現実世界空間上にオーバーレイされる間に再生される、
    請求項1に記載の方法。
  3. 前記第1および第2のオーディオ信号を再生するステップは、前記第1および第2のオーディオ信号をミキシングすること、をさらに含む、
    請求項1または2に記載の方法。
  4. 前記仮想環境内の前記仮想オブジェクトの位置の変化に応じて前記第1および第2のオーディオ信号をクロスフェードするステップ、をさらに含む、
    請求項3に記載の方法。
  5. 前記オーディオキューは、両耳間時間差、両耳間レベル差、スペクトルキュー、または、時間領域キューのうちの少なくとも1つを含む、
    請求項1から4のいずれか一項に記載の方法。
  6. 前記仮想メディアオーディオコンテンツが前記仮想環境に対する前記仮想オブジェクトの軌跡を含む、
    請求項1から5のいずれか一項に記載の方法。
  7. 前記仮想環境が拡張現実環境である、
    請求項1から6のいずれか一項に記載の方法。
  8. 前記第1および第2の再生デバイスの前記第1および第2の位置はそれぞれ、前記ユーザに関連付けられる制御デバイスに対して決定される、
    請求項1から7のいずれか一項に記載の方法。
  9. 前記制御デバイスの位置を監視するステップをさらに含み、前記制御デバイスの前記位置または向きが変化する場合、
    前記制御デバイスに対する前記第1および第2の位置を再計算するステップと、
    再計算された前記第1および第2の位置を前記メディアコンテンツプロバイダに送信するステップと、
    前記メディアコンテンツプロバイダから、送信された再計算された前記第1および第2の位置に基づいて生成される更新された第1および第2のオーディオ信号を含む仮想メディアコンテンツを受信するステップと、
    前記第2の再生デバイスを介した前記第2のオーディオ信号の再生と同期して前記第1の再生デバイスを介して前記第1のオーディオ信号を再生するステップと、
    をさらに含む、
    請求項8に記載の方法。
  10. 前記メディアコンテンツプロバイダへ前記聴取環境の音響プロファイルを送信するステップと、
    前記メディアコンテンツプロバイダから、前記聴取環境の送信された前記音響プロファイルに基づいて調整される第1および第2のオーディオ信号を受信するステップと、
    をさらに含む、
    請求項1から9のいずれか一項に記載の方法。
  11. 前記聴取環境に関する情報に基づいて前記第1および第2のオーディオ信号に関連付けられる仮想シーンを調整するよう前記メディアコンテンツプロバイダによって使用するために、前記聴取環境の音響特性と前記聴取環境の1つまたは複数の次元に対する前記再生デバイスの位置とのうちの少なくとも一方を含む、前記聴取環境に関する前記情報を、前記メディアコンテンツプロバイダに送信するステップをさらに含む、
    請求項1から10のいずれか一項に記載の方法。
  12. 前記聴取環境の前記位置データおよび/または音響プロファイルを使用して前記仮想環境の構成を調整するための推奨事項を決定するステップ、をさらに含む、
    請求項1から11のいずれか一項に記載の方法。
  13. 第2の聴取環境において、第3および第4の再生デバイスのそれぞれの第3および第4の位置に対応する情報を取得するステップと、
    前記第3および第4の位置に対応する位置データを前記メディアコンテンツプロバイダに送信するステップと、
    前記第1および第2の再生デバイスの前記仮想環境に関連付けられる仮想メディアオーディオコンテンツを前記メディアコンテンツプロバイダから受信するステップであって、前記仮想メディアオーディオコンテンツが、前記第3および前記第4の位置に対応する前記位置データに基づく少なくとも第3および第4のオーディオ信号を含む、ステップと、
    前記第3および第4の再生デバイスによって前記第3および第4のオーディオ信号をそれぞれ同期して再生するステップと、
    をさらに含む、
    請求項1から12のいずれか一項に記載の方法。
  14. メディア再生システムに請求項1から13のいずれか一項に記載の方法を実行させるための1つまたは複数のプロセッサにより実行可能な命令を記憶する有形非一時的コンピュータ可読媒体。
  15. メディア再生システムであって、
    第1および第2の再生デバイスと、
    前記メディア再生システムに請求項1から13のいずれか一項に記載の方法を実行させるためのプロセッサにより実行可能な命令を記憶する有形非一時的コンピュータ可読媒体と、
    を備えるメディア再生システム。
JP2022525477A 2019-10-30 2020-10-29 シミュレーション環境に関連した空間オーディオを提供するシステムおよび方法 Pending JP2023500658A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/669,126 2019-10-30
US16/669,126 US11483670B2 (en) 2019-10-30 2019-10-30 Systems and methods of providing spatial audio associated with a simulated environment
PCT/US2020/070718 WO2021087516A1 (en) 2019-10-30 2020-10-29 Systems and methods of providing spatial audio associated with a simulated environment

Publications (1)

Publication Number Publication Date
JP2023500658A true JP2023500658A (ja) 2023-01-10

Family

ID=73476287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022525477A Pending JP2023500658A (ja) 2019-10-30 2020-10-29 シミュレーション環境に関連した空間オーディオを提供するシステムおよび方法

Country Status (4)

Country Link
US (2) US11483670B2 (ja)
EP (1) EP4052488A1 (ja)
JP (1) JP2023500658A (ja)
WO (1) WO2021087516A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11244509B2 (en) 2018-08-20 2022-02-08 Fisher-Rosemount Systems, Inc. Drift correction for industrial augmented reality applications
US11275629B2 (en) * 2020-06-25 2022-03-15 Microsoft Technology Licensing, Llc Mixed reality complementary systems
US11816887B2 (en) * 2020-08-04 2023-11-14 Fisher-Rosemount Systems, Inc. Quick activation techniques for industrial augmented reality applications
WO2023056299A1 (en) * 2021-09-30 2023-04-06 Sonos, Inc. Spatial mapping of media playback system components

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160212538A1 (en) * 2015-01-19 2016-07-21 Scott Francis Fullam Spatial audio with remote speakers
US20180286129A1 (en) * 2015-08-24 2018-10-04 Pcms Holdings, Inc. Systems and methods for enhancing augmented reality experience with dynamic output mapping
WO2019079523A1 (en) * 2017-10-17 2019-04-25 Magic Leap, Inc. SPACE AUDIO WITH MIXED REALITY

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440644A (en) 1991-01-09 1995-08-08 Square D Company Audio distribution system having programmable zoning features
JP3094900B2 (ja) * 1996-02-20 2000-10-03 ヤマハ株式会社 ネットワーク機器およびデータ送受信方法
US6404811B1 (en) 1996-05-13 2002-06-11 Tektronix, Inc. Interactive multimedia system
US6469633B1 (en) 1997-01-06 2002-10-22 Openglobe Inc. Remote control of electronic devices
US6611537B1 (en) 1997-05-30 2003-08-26 Centillium Communications, Inc. Synchronous network for digital media streams
US6032202A (en) 1998-01-06 2000-02-29 Sony Corporation Of Japan Home audio/video network with two level device control
US20020002039A1 (en) 1998-06-12 2002-01-03 Safi Qureshey Network-enabled audio device
US7130616B2 (en) 2000-04-25 2006-10-31 Simple Devices System and method for providing content, management, and interactivity for client devices
US6256554B1 (en) 1999-04-14 2001-07-03 Dilorenzo Mark Multi-room entertainment system with in-room media player/dispenser
US7657910B1 (en) 1999-07-26 2010-02-02 E-Cast Inc. Distributed electronic entertainment method and apparatus
US6522886B1 (en) 1999-11-22 2003-02-18 Qwest Communications International Inc. Method and system for simultaneously sharing wireless communications among multiple wireless handsets
ES2277419T3 (es) 1999-12-03 2007-07-01 Telefonaktiebolaget Lm Ericsson (Publ) Un metodo para producir simultaneamente ficheros de audio en dos telefonos.
US20010042107A1 (en) 2000-01-06 2001-11-15 Palm Stephen R. Networked audio player transport protocol and architecture
WO2001053994A2 (en) 2000-01-24 2001-07-26 Friskit, Inc. Streaming media search and playback system
WO2001053963A1 (en) 2000-01-24 2001-07-26 Zapmedia, Inc. System and method for the distribution and sharing of media assets between media players devices
AU2001240986A1 (en) 2000-02-18 2001-08-27 Bridgeco Ag Multi-portal bridge for providing network connectivity
US6631410B1 (en) 2000-03-16 2003-10-07 Sharp Laboratories Of America, Inc. Multimedia wired/wireless content synchronization system and method
AU4219601A (en) 2000-03-31 2001-10-15 Classwave Wireless Inc. Dynamic protocol selection and routing of content to mobile devices
GB2363036B (en) 2000-05-31 2004-05-12 Nokia Mobile Phones Ltd Conference call method and apparatus therefor
US6778869B2 (en) 2000-12-11 2004-08-17 Sony Corporation System and method for request, delivery and use of multimedia files for audiovisual entertainment in the home environment
US7143939B2 (en) 2000-12-19 2006-12-05 Intel Corporation Wireless music device and method therefor
US20020124097A1 (en) 2000-12-29 2002-09-05 Isely Larson J. Methods, systems and computer program products for zone based distribution of audio signals
US6757517B2 (en) 2001-05-10 2004-06-29 Chin-Chi Chang Apparatus and method for coordinated music playback in wireless ad-hoc networks
AU2002361767A1 (en) 2001-12-17 2003-07-09 Becomm Corporation Method and system for synchronization of content rendering
US7853341B2 (en) 2002-01-25 2010-12-14 Ksc Industries, Inc. Wired, wireless, infrared, and powerline audio entertainment systems
US8103009B2 (en) 2002-01-25 2012-01-24 Ksc Industries, Inc. Wired, wireless, infrared, and powerline audio entertainment systems
WO2003071818A2 (en) 2002-02-20 2003-08-28 Meshnetworks, Inc. A system and method for routing 802.11 data traffic across channels to increase ad-hoc network capacity
US7657224B2 (en) 2002-05-06 2010-02-02 Syncronation, Inc. Localized audio networks and associated digital accessories
KR100966415B1 (ko) 2002-05-09 2010-06-28 넷스트림스 엘엘씨 오디오 네트워크 분산 시스템
US8060225B2 (en) 2002-07-31 2011-11-15 Hewlett-Packard Development Company, L. P. Digital audio device
EP1389853B1 (en) 2002-08-14 2006-03-29 Sony Deutschland GmbH Bandwidth oriented reconfiguration of wireless ad hoc networks
US7295548B2 (en) 2002-11-27 2007-11-13 Microsoft Corporation Method and system for disaggregating audio/visual components
US8234395B2 (en) 2003-07-28 2012-07-31 Sonos, Inc. System and method for synchronizing operations among a plurality of independently clocked digital data processing devices
US7571014B1 (en) 2004-04-01 2009-08-04 Sonos, Inc. Method and apparatus for controlling multimedia players in a multi-zone system
US7483538B2 (en) 2004-03-02 2009-01-27 Ksc Industries, Inc. Wireless and wired speaker hub for a home theater system
US7630501B2 (en) 2004-05-14 2009-12-08 Microsoft Corporation System and method for calibration of an acoustic system
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
JP2010507294A (ja) 2006-10-17 2010-03-04 アベガ システムズ ピーティーワイ リミテッド マルチメディアデバイスの統合
US9037468B2 (en) 2008-10-27 2015-05-19 Sony Computer Entertainment Inc. Sound localization for user in motion
US20120113224A1 (en) 2010-11-09 2012-05-10 Andy Nguyen Determining Loudspeaker Layout Using Visual Markers
AU2014241011B2 (en) * 2013-03-28 2016-01-28 Dolby International Ab Rendering of audio objects with apparent size to arbitrary loudspeaker layouts
US10524048B2 (en) * 2018-04-13 2019-12-31 Bose Corporation Intelligent beam steering in microphone array

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160212538A1 (en) * 2015-01-19 2016-07-21 Scott Francis Fullam Spatial audio with remote speakers
US20180286129A1 (en) * 2015-08-24 2018-10-04 Pcms Holdings, Inc. Systems and methods for enhancing augmented reality experience with dynamic output mapping
WO2019079523A1 (en) * 2017-10-17 2019-04-25 Magic Leap, Inc. SPACE AUDIO WITH MIXED REALITY

Also Published As

Publication number Publication date
EP4052488A1 (en) 2022-09-07
WO2021087516A1 (en) 2021-05-06
US20210136509A1 (en) 2021-05-06
US11483670B2 (en) 2022-10-25
US20230008591A1 (en) 2023-01-12

Similar Documents

Publication Publication Date Title
US11778404B2 (en) Systems and methods for authenticating and calibrating passive speakers with a graphical user interface
US11881223B2 (en) Systems and methods of operating media playback systems having multiple voice assistant services
CA3120573C (en) Systems and methods of user localization
JP2024020356A (ja) オーディオ装置間での再生移行
CN113168850B (zh) 分布式同步回放设备及用于其的方法
US10735803B2 (en) Playback device setup
US11483670B2 (en) Systems and methods of providing spatial audio associated with a simulated environment
US11943594B2 (en) Automatically allocating audio portions to playback devices
CN216531736U (zh) 音频回放耳机系统
CA3122268C (en) Selection of playback devices
EP4059224A1 (en) Playback queues for shared experiences
US20220240012A1 (en) Systems and methods of distributing and playing back low-frequency audio content
US20230421868A1 (en) Content Playback Reminders
US20240111484A1 (en) Techniques for Intelligent Home Theater Configuration
US20230007752A1 (en) Sound and Light Experiences
US20240111482A1 (en) Systems and methods for reducing audio quality based on acoustic environment
EP4402912A1 (en) Spatial audio playback with enhanced immersiveness

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240426