JP2022514894A

JP2022514894A - ネットワークマイクロフォンデバイスのノイズ分類による最適化

Info

Publication number: JP2022514894A
Application number: JP2021535871A
Authority: JP
Inventors: トーマスソト，カート
Original assignee: ソノズインコーポレイテッド
Priority date: 2018-12-20
Filing date: 2019-12-19
Publication date: 2022-02-16
Anticipated expiration: 2039-12-19
Also published as: JP7271674B2; US20230217165A1; US11540047B2; US20220007106A1; WO2020132298A1; CN113330752A; US11159880B2; US10602268B1; CA3123601A1; AU2019405936A1; EP3900395A1; US20200213729A1

Abstract

ノイズ分類を利用してネットワークマイクロフォンデバイスを最適化するためのシステムおよび方法が開示されている。一例では、ネットワークマイクロフォンデバイス（ＮＭＤ）に含まれる複数のマイクロフォンのそれぞれがサウンドを検出する。サウンドデータを分析して、ウェイクワードなどのトリガーイベントを検出する。サウンドデータに関連付けられたメタデータは、ＮＭＤのルックバックバッファにキャプチャされる。トリガーイベントを検出した後、メタデータを分析してサウンドデータのノイズを分類する。分類されたノイズに基づいて、ＮＭＤの少なくとも１つのパフォーマンスパラメータが変更される。

Description

本出願は、２０１８年１２月２０日に出願された米国特許出願第１６／２２７，３０８号の優先権を主張するものであり、この出願はその全体が参照により本明細書に組み込まれる。

本技術は、コンシューマ製品に関するものであり、より詳細には、音声制御が可能なメディア再生システムまたはそれに関連する内容の方法、システム、製品、特徴、サービス、およびその他の要素に関するものである。

２００３年にＳＯＮＯＳ社が「ＭｅｔｈｏｄｆｏｒＳｙｎｃｈｒｏｎｉｚｉｎｇＡｕｄｉｏＰｌａｙｂａｃｋｂｅｔｗｅｅｎＭｕｌｔｉｐｌｅＮｅｔｗｏｒｋｅｄＤｅｖｉｃｅｓ（複数のネットワークデバイス間でオーディオ再生を同期させる方法）」と題した最初の特許出願をし、２００５年にメディア再生システムの販売を開始するまでは、デジタルオーディオをアウトラウドな環境でアクセスして聴くための選択肢は限られていた。ＳＯＮＯＳＷｉｒｅｌｅｓｓＨｉＦｉＳｙｓｔｅｍは、ネットワークに接続された１台または複数の再生機器を介して、さまざまなソースの音楽を体験することができる。スマートフォンやタブレット、パソコンにインストールされたソフトウェア制御アプリケーションを介して、ネットワーク接続された再生機器がある部屋であれば、好きな曲を再生することができる。さらに、コントローラを使って、例えば、再生機がある部屋ごとに異なる曲を流したり、複数の部屋をグループ化して同期再生したり、すべての部屋で同じ曲を同期して聴かせたりすることができる。

デジタルメディアへの関心がますます高まっている中で、リスニング体験をさらに向上させるために、消費者がアクセス可能な技術を開発する必要がある。

ここに開示されている技術の特徴、側面、および利点は、以下の説明、添付の特許請求の範囲、および添付の図面を参照することで、よりよく理解することができる。

開示された技術の態様に従って構成されたメディア再生システムを有する環境の部分切断図図１Ａのメディア再生システムと１つ以上のネットワークの概略図再生装置の一例の機能ブロック図図２Ａの再生装置の筐体の一例を示す斜視図種々の形態による再生装置の構成例を示す図種々の形態による再生装置の構成例を示す図種々の形態による再生装置の構成例を示す図種々の形態による再生装置の構成例を示す図種々の形態による再生装置の構成例を示す図一形態による例示的なコントローラデバイスの機能ブロック図一形態による例示的なコントローラインタフェースの図一形態による例示的なコントローラインタフェースの図一形態による例示的なネットワークマイクロフォンデバイスに含まれる特定の構成要素の機能ブロック図音声入力の一例を示す波形図一形態による例示的な音響標本を示すグラフ主成分分析によって定義された座標空間において、特定のノイズを分離したグラフ一形態に基づき、ネットワークマイクロフォンデバイスを介してノイズを分類するための例示的な方法の図一形態によるコントローラインタフェースの図一形態によるコントローラインタフェースの図一形態による例示的なノイズ分類およびネットワークマイクロフォンデバイス適応の機能フロー図種々の距離に対する、ファンノイズのスペクトルの例を示すグラフマイクロフォンのスペクトルデータを主成分分析して得られた基底ベクトルのグラフの一例ノイズデータを分類するための再構成されたスペクトルのグラフの一例大人数のネットワークマイクロフォンデバイスから得られたスペクトル分布の一例を示すグラフ

図面は、例示的な実施形態を説明するためのものであるが、本発明は、図面に示された配置および器具に限定されないことを理解される。図面上、同一の参照番号は、少なくとも概ね類似した要素を示す。特定の要素の説明を容易にするため、参照番号の最上位桁は、その要素が最初に紹介された図の番号を示す。例えば、要素１０３ａは、図１Ａにおいて最初に紹介される。

Ｉ．概要
音声による制御は、ワイヤレスオーディオ再生装置、照明装置、ホームオートメーション装置（サーモスタット、ドアロック等）など、通信ネットワークに接続されたスマート家電や装置を含む「スマート」ホームにおいて有益である。いくつかの用途においては、スマートホームデバイスを制御するため、ネットワークマイクロフォンデバイスが用いられることができる。

ネットワークマイクロフォンデバイス（「ＮＭＤ」）は、典型的には、ＮＭＤの環境に存在する音を検出するように構成されたマイクロフォンアレイなどのマイクロフォンの配列を含むネットワーク化されたコンピューティングデバイスである。検出された音には、人の話し声と背景音（再生機から出力される音楽やその他の環境音）が混ざっている場合がある。実際には、ＮＭＤは検出された音をフィルタリングして人の音声から背景雑音を取り除き、音声制御を示す音声入力が含まれているかどうかを識別しやすくする。そうであれば、ＮＭＤはそのような音声入力に基づいて行動を起こしてもよい。

ＮＭＤは、通常、ＮＭＤに搭載されているウェイクワードエンジンを採用し、ＮＭＤによって検出された音が、特定のウェイクワードを含む音声入力を含んでいるかどうかを識別する。ウェイクワードエンジンは、１つまたは複数の識別アルゴリズムを使用して、特定のウェイクワードを識別（すなわち、「スポット（特定）」）するように構成されてもよい。このウェイクワードの識別プロセスは、一般的に "キーワードスポッティング "と呼ばれている。実際には、キーワードスポッティングを容易にするために、ＮＭＤは、ＮＭＤのマイクによって検出された音をバッファリングし、ウェイクワードエンジンを使用して、バッファリングされた音を処理して、ウェイクワードが存在するかどうかを判断する。

ウェイクワードエンジンが、検出された音の中にウェイクワードをスポットすると、ＮＭＤは、ウェイクワードイベント（すなわち、「ウェイクワードトリガー」）が発生したと判断してもよく、これは、ＮＭＤが音声入力を含む音を検出した可能性があることを示す。ウェイクワードイベントが発生すると、ＮＭＤは検出された音に関連する追加の処理を実行する。いくつかの実施形態では、追加プロセスとして、ウェイクワードが識別されたことを示すアラート（例えば、可聴チャイムおよび／またはライトインジケータ）を出力することや、バッファから検出されたサウンドデータを抽出することなどを含めることができる。検出された音を抽出する工程には、特定のフォーマットに従って検出された音のストリームを読み出してパッケージ化することや、パッケージ化されたサウンドデータを解釈のために適切なＶＡＳに送信することが含まれる。

続いて、ウェイクワードエンジンで特定されたウェイクワードに対応するＶＡＳは、通信ネットワークを介してＮＭＤから送信されたサウンドデータを受信する。ＶＡＳは一般的に、音声入力を処理するように構成された１つまたは複数のクラウドサーバーを使用して実行されるリモートサービスの形態をとる（例：ＡＭＡＺＯＮ（登録商標）のＡＬＥＸＡ（登録商標）、ＡＰＰＬＥ（登録商標）のＳＩＲＩ（登録商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）のＣＯＲＴＡＮＡ（登録商標）、ＧＯＯＧＬＥ（登録商標）のＡＳＳＩＳＴＡＮＴ（登録商標）など）。いくつかの例では、ＶＡＳの特定のコンポーネントや機能が、ローカルおよびリモートのデバイスに分散されている場合がある。さらに、ＶＡＳは、ＮＭＤまたはＮＭＤを構成するメディア再生システムに実装されたローカルサービスの形態をとり、音声入力または特定の種類の音声入力（例えば、初歩的なコマンド）がリモートＶＡＳの介入なしにローカルで処理されるようにしてもよい。

いずれにせよ、ＶＡＳが検出したサウンドデータを受信すると、ＶＡＳは通常、このデータを処理し、音声入力を識別し、音声入力に含まれる単語の意図を決定することができる。その後、ＶＡＳは、決定された意図に応じた何らかの指示をＮＭＤに返す応答を提供してもよい。その指示に基づいて、ＮＭＤは１つまたは複数のスマートデバイスにアクションを実行させてもよい。例えば、ＶＡＳからの指示に従って、ＮＭＤは再生装置に特定の曲を再生させたり、イルミネーション装置を点灯/消灯させたりすることができる。場合によっては、ＮＭＤ、またはＮＭＤを備えたメディアシステム（例えば、ＮＭＤを搭載した再生装置を備えたメディア再生システム）が、複数のＶＡＳと相互作用するように構成されていてもよい。実際には、ＮＭＤは、ＮＭＤが検出した音の中で特定された特定のウェイクワードに基づいて、一つのＶＡＳを多数のＶＡＳの中から選択することができる。

ある実施形態では、ネットワークメディア再生システムの一部となるように構成された再生装置は、ＮＭＤのコンポーネントおよび機能を含むことができる（すなわち、再生装置は「ＮＭＤ装備」である）。この点において、このような再生装置は、人の話声、再生装置自身または近くにある別の再生装置が出力している音声、またはその他の周囲の雑音など、再生装置の環境に存在する音を検出するように構成されたマイクロフォンを含み、また、ウェイクワード識別を容易にするため、検出された音をバッファリングするコンポーネントを含んでもよい。

ＮＭＤを搭載した再生機は、再生機を壁のコンセントなどに物理的に接続することなく動作させることができる内部電源（例えば、充電式バッテリー）を含んでも良い。なお、ここでは、このような再生装置を "ポータブル再生装置 "と呼ぶ。一方、壁のコンセントなどからの電力に依存するように構成された再生機器は、ここでは「据え置き型の再生装置」と呼ぶが、実際には家庭内などの環境で移動可能である。実際には、１台以上の据え置き型の再生機が置かれている自宅などの環境に、ポータブル再生機を持ち運ぶことが多い。

場合によっては、ＮＭＤ、または複数のＮＭＤで構成されるシステム（例えば、再生装置のメディア再生システム）に対して、複数の音声サービスが構成されている。１つまたは複数のサービスをセットアップ時に設定することもできるし、後から追加で音声サービスのシステムに設定することができる。この場合、ＮＭＤは複数の音声サービスとのインターフェースとして機能するため、それぞれの音声サービスと相互利用するために、それぞれの音声サービスのＮＭＤを用意する必要性を軽減することができる。さらに、ＮＭＤは、家庭内に存在するサービス専用のＮＭＤと連携して、与えられた音声コマンドを処理することができる。

ＮＭＤに２つ以上の音声サービスが設定されている場合、特定の音声サービスに対応するウェイクワードを発声することで、特定の音声サービスを呼び出すことができる。例えば、ＡＭＡＺＯＮ（登録商標）を検索する場合、ユーザは "Ａｌｅｘａ（アレクサ）"というウェイクワードを話し、その後に音声コマンドを発する。他の例として、ＧＯＯＧＬＥ（登録商標）への問い合わせには「Ｏｋ, Ｇｏｏｇｌｅ（オーケーグーグル）」、ＡＰＰＬＥ（登録商標）への問い合わせには「Ｈｅｙ, Ｓｉｒｉ（ヘイ、シリ）」などがある。

いくつかのケースでは、ＮＭＤへの音声入力を示すために、汎用のウェイクワードを使用することができる。また、いくつかのケースでは、任意の特定の音声サービスに結び付けられたウェイクワードではなく、製造者固有のウェイクワードである（例えば、ＮＭＤがＳＯＮＯＳ（登録商標）再生デバイスである場合、「Ｈｅｙ，Ｓｏｎｏｓ（ヘイ、ソノス）」となる。）。このようなウェイクワードを用い、ＮＭＤはリクエストを処理する特定の音声サービスを識別することができる。例えば、ウェイクワードに続く音声入力が特定の種類のコマンド（例えば、音楽再生）に関するものであれば、その音声入力は、その種類のコマンドに関する特定の音声サービス（例えば、音声コマンド機能を有するストリーミング音楽サービス）に送信される。

ＮＭＤは、個々のマイクロフォンが複数集まったアレイを含むことができる。動作時、ＮＭＤは、個々のマイクロフォンのそれぞれからサウンドデータを受信し、それを処理して、ウェイクワードが検出されたかどうかを評価する。上述のようにして、ウェイクワードが検出された場合、ＮＭＤは後続のオーディオ入力をＶＡＳに送り、更なる処理がなされる。ノイズ（例えば、近くの家電製品、背景の会話、交通、工事などからの環境ノイズ）があれば、ネットワークマイクロフォンデバイスの機能が損なわれることがある。ノイズが存在すると、下流側の処理に悪影響を及ぼしたり、ウェイクワードの検出の誤判定率（誤りを正しいと判定したり、正しいものを誤りと判定する率）が上昇したり、ＶＡＳの性能低下（音声コマンドを正確に解読できない、応答できないなど）につながる。

以下に詳細に説明するように、ここではノイズの存在下での音声入力処理を強化するように構成された様々な技術および装置が開示されている。例えば、いくつかの実施形態では、ＮＭＤの性能を向上させるために、ＮＭＤの1つまたは複数のパラメータを調整することができる。いくつかの実施形態では、例えば、ノイズをユーザの環境のノイズサンプルやより大きなサンプル集団からの既知のノイズサンプルと比較することにより、ノイズを分類することができる。例えば、ノイズについて識別されたクラスが存在する場合、ウェイクワード感度パラメータを調整することができる。代替的にまたは追加的に、下流側での処理を行う前に、識別された家電製品のノイズに対応する特定の周波数帯域を、検出されたサウンドデータから無視またはフィルタリングすることができる。また、特定の方向からのノイズ（例えば、固定された家電製品からのノイズ）を抑制するために、空間的な処理を調整することもできる。音声データに含まれるノイズの特性に応じてＮＭＤの性能を変更することで、音声検出や下流側の処理を向上させることができる。

いくつかの実施形態では、ＮＭＤは、評価およびノイズ分類のために、サウンドメタデータ（例えば、スペクトルデータ、信号レベル、方向検出など）をリモートコンピューティングデバイスに提供する。ユーザのプライバシーを守るため、オリジナルのオーディオコンテンツ（録音された音声入力の内容やその他の検出されたサウンドデータなど）を明らかにしないサウンドメタデータのみに頼ることも可能とする。ＮＭＤは、検出されたサウンドデータから、サウンドメタデータにアクセスしなければ元のオーディオ信号を解読できないような方法で、サウンドメタデータを導き出すことができる。例えば、サウンドメタデータを、時間領域の情報ではなく、多くのサンプリングフレームで平均化された周波数領域の情報に限定して用いることで、ＮＭＤは、サウンドメタデータを利用して検出した元のサウンドデータを判読不能にすることができる。ＮＭＤは、サウンドメタデータを収集し、このメタデータをリモートにある評価装置である1つまたは複数のコンピューティングデバイスに送信し、評価および比較を行うことができる。そして、リモートの評価装置は、サウンドメタデータを評価して、サウンドメタデータの特徴を特定し、ノイズやＮＭＤの性能低下の原因となる他の要因を見つけることができる。このようにして、いくつかの実施形態では、システムは、録音された音声コンテンツをリモートの評価装置に送信することにより、ユーザのプライバシーを侵害することなく、環境中のノイズを検出し、分類することができる。

ここに記載されているいくつかの実施形態は、「ユーザ」および／または他のエンティティなどの所定の登場人物によって実行される機能に言及している場合があるが、この記載は説明のみを目的としていることを理解すべきである。特許請求の範囲において、文言で明示的に示されない限り、そのような例示的な登場人物の行為に限定されない。

ＩＩ．動作環境の例
図１Ａおよび図１Ｂは、ここに開示された1つまたは複数の実施形態が実施され得るメディア再生システム１００（または「ＭＰＳ１００」）の構成例を示す。まず、図１Ａを参照すると、図示されているＭＰＳ１００は、複数の部屋と空間を有する例示的な家庭環境に関連付けられており、これらは総称して「家庭環境」、「スマートホーム」、または「環境１０１」とも言う。環境１０１は、マスターバスルーム１０１ａ、マスターベッドルーム１０１ｂ（ここでは「ニックの部屋」と呼ぶ）、セカンドベッドルーム１０１ｃ、ファミリールームまたはデン１０１ｄ、オフィス１０１ｅ、リビングルーム１０１ｆ、ダイニングルーム１０１ｇ、キッチン１０１ｈ、および屋外パティオ１０１ｉを含み、いくつかの部屋、スペース、および／または再生ゾーンを有する家庭からなる。以下では、家庭環境の下での特定の実施形態や例を説明するが、ここで説明する技術は他のタイプの環境でも実施可能である。いくつかの実施形態では、例えば、ＭＰＳ１００は、１つ以上の商業環境（例えば、レストラン、モール、空港、ホテル、小売店などの店舗）、１つ以上の車両（例えば、スポーツユーティリティビークル、バス、車、船、ボート、飛行機）、複数の環境（例えば、家庭環境と車両環境の組み合わせ）、および／または、マルチゾーンオーディオが望ましいと思われる別の適切な環境で実施することができる。

これらの部屋や空間の中で、ＭＰＳ１００は１つ以上のコンピューティングデバイスを含む。図１Ａおよび図１Ｂを一緒に参照すると、そのようなコンピューティングデバイスは、再生デバイス１０２（再生デバイス１０２ａ～１０２ｏとして個別に識別される）、ネットワークマイクロフォンデバイス１０３（「ＮＭＤ」１０３ａ～１０２ｉとして個別に識別される）、およびコントローラデバイス１０４ａおよび１０４ｂ（総称して「コントローラデバイス１０４」）を含むことができる。図１Ｂを参照すると、家庭環境は、１つまたは複数のスマートイルミネーションデバイス１０８（図１Ｂ）、スマートサーモスタット１１０、およびローカルコンピューティングデバイス１０５（図１Ａ）などの、ローカルネットワークデバイスを有する、追加および／または他のコンピューティングデバイスを含んでもよい。以下に説明する実施形態では、様々な再生装置１０２のうち１つ以上は携帯型の再生装置として構成されてもよく、他は据置型の再生装置として構成されてもよい。例えば、ヘッドフォン１０２ｏ（図１Ｂ）は携帯型の再生装置であり、本棚に設置された再生装置１０２ｄは据置型の装置であってもよい。別の例として、パティオの再生装置１０２ｃは、バッテリ駆動の装置であってもよく、これにより、壁のコンセントなどに接続されていない状態で、環境１０１内の様々な場所や、環境１０１外に持ち運ぶことができる。

なお、図１Ｂを参照すると、ＭＰＳ１００の様々な再生装置、ネットワークマイクロフォン、およびコントローラ装置１０２～１０４および／または他のネットワーク装置は、ネットワークルータ１０９を含むＬＡＮ１１１を介して、ポイントツーポイント接続および／または有線および／または無線である他の接続を介して、互いに組合せ（ｃｏｕｐｌｅ）されてもよい。例えば、デン１０１ｄ（図１Ａ）にある再生装置１０２ｊは、「左」の装置として指定されることがあり、同じくデン１０１ｄにあり、「右」の装置として指定されることがある再生装置１０２ａとポイントツーポイントで接続されることがある。関連する実施形態では、左再生装置１０２ｊは、ＬＡＮ１１１を介したポイントツーポイント接続および／または他の接続を介して、「前」の装置として指定されることがある再生装置１０２ｂなどの他のネットワーク装置と通信してもよい。

図１Ｂにさらに示すように、ＭＰＳ１００は、ワイドエリアネットワーク（「ＷＡＮ」）１０７を介して１つまたは複数のリモートコンピューティングデバイス１０６に組合せされてもよい。いくつかの実施形態では、各リモートコンピューティングデバイス１０６は、１つまたは複数のクラウドサーバの形態をとってもよい。リモートコンピューティングデバイス１０６は、様々な方法で環境１０１のコンピューティングデバイスと対話するように構成されてもよい。例えば、リモートコンピューティングデバイス１０６は、家庭環境１０１において、オーディオなどのメディアコンテンツのストリーミングおよび／または再生制御を容易にするように構成されてもよい。

いくつかの実装では、様々な再生デバイス、ＮＭＤ、および／またはコントローラデバイス１０２～１０４は、ＶＡＳに関連する少なくとも１つのリモートコンピューティングデバイス、およびメディアコンテンツサービス（「ＭＣＳ」）に関連する少なくとも１つのリモートコンピューティングデバイスに通信可能に組合せされてもよい。例えば、図１Ｂの例示された例では、リモートコンピューティングデバイス１０６ａは、ＶＡＳ１９０に関連付けられており、リモートコンピューティングデバイス１０６ｂは、ＭＣＳ１９２に関連付けられている。図１Ｂの例では、分かりやすくするために、単一のＶＡＳ１９０と単一のＭＣＳ１９２のみを示しているが、ＭＰＳ１００は、複数の異なるＶＡＳおよび／またはＭＣＳに組合せされていてもよい。いくつかの実装では、ＶＡＳは、ＡＭＡＺＯＮ（登録商標）、ＧＯＯＧＬＥ（登録商標）、ＡＰＰＬＥ（登録商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）、ＳＯＮＯＳ（登録商標）、または他の音声アシスタントプロバイダーの１つまたは複数によって運営されてもよい。いくつかの実装では、ＭＣＳは、ＳＰＯＴＩＦＹ（登録商標）、ＰＡＮＤＯＲＡ（登録商標）、ＡＭＡＺＯＮＭＵＳＩＣ（登録商標）、または他のメディアコンテンツサービスの１つまたは複数によって運営されてもよい。

図１Ｂにさらに示すように、リモートコンピューティングデバイス１０６は、メディア再生機能の遠隔促進、デバイスおよびシステムのステータス情報の管理、ＭＰＳ１００のデバイスと1つまたは複数のＶＡＳおよび／またはＭＣＳとの間の通信の指示など、特定の動作を実行するように構成されたリモートコンピューティングデバイス１０６ｃをさらに含む。一例では、リモートコンピューティングデバイス１０６ｃは、１つまたは複数のＳＯＮＯＳＷｉｒｅｌｅｓｓＨｉＦｉＳｙｓｔｅｍのクラウドサーバを提供する。

様々な実装において、再生デバイス１０２の１つまたは複数は、オンボード（例えば、統合された）ネットワークマイクロフォンデバイスの形態をとるか、またはそれを含むことができる。例えば、再生装置１０２ａ～ｅは、それぞれＮＭＤ１０３ａ～ｅを含む、またはそれに対応するものを備えている。なお、ここでは、ＮＭＤを搭載した再生機を、特に断りのない限り、再生機またはＮＭＤと呼ぶ。いくつかのケースでは、ＮＭＤ１０３のうちの１つまたは複数が、スタンドアロン型のデバイスであってもよい。例えば、ＮＭＤ１０３ｆおよび１０３ｇは、スタンドアロン型の装置であってもよい。単体のＮＭＤでは、スピーカや関連電子機器など、再生機器に含まれる部品や機能が省略されている場合がある。例えば、このような場合、スタンドアロンのＮＭＤは、音声出力を行わないか、出力できても限られた音声出力（例えば、比較的低品質の音声出力）を行う。

ＭＰＳ１００の様々な再生装置およびネットワークマイクロフォンデバイス１０２および１０３は、それぞれ固有の名前と関連付けされていてもよく、この名前は、これらのデバイスの１つまたは複数のセットアップ中などに、ユーザによってそれぞれのデバイスに割り当てられてもよい。例えば、図１Ｂの図示例に示すように、再生装置１０２ｄが物理的に本棚の上に位置していることから、ユーザは「本棚」という名前を付けてもよい。同様に、ＮＭＤ１０３ｆは、キッチン１０１ｈ（図１Ａ）のアイランドカウンター上に物理的に位置しているため、「アイランド」という名称を割り当ててもよい。再生装置の中には、ゾーンや部屋に応じた名前が割り当ててもよく、例えば、再生装置１０２ｅ、１０２ｌ、１０２ｍ、１０２ｎには、それぞれ「ベッドルーム」、「ダイニングルーム」、「リビングルーム」、「オフィス」という名前を付けても良い。さらに、特定の再生装置は、機能的に記述的な名前を持つことができる。例えば、再生装置１０２ａと１０２ｂには、それぞれ「右」と「前」という名前が割り当てられるが、これは、これら２つの装置が、デン１０１ｄ（図１Ａ）のゾーンでのメディア再生時に、特定のオーディオチャンネルを提供するように構成されているからである。パティオの再生装置１０２ｃは、バッテリ駆動であること、および／または、環境１０１の異なる領域に容易に持ち運び可能であることから、ポータブルと名前を付けられてもよい。他の命名規則も可能である。

上述したように、ＮＭＤは、ＮＭＤの周辺にいる人の会話の音声と背景雑音が混ざった音など、環境からの音を検出し、処理することができる。例えば、ＮＭＤが環境中で音を検出すると、ＮＭＤは検出された音を処理して、その音がＮＭＤを、最終的には特定のＶＡＳを意図した音声入力を含むスピーチを含んでいるかどうかを判断することができる。例えば、ＮＭＤは、音声に特定のＶＡＳに関連するウェイクワードが含まれているかどうかを識別することができる。

図１Ｂの例示された例では、ＮＭＤ１０３は、ＬＡＮ１１１およびルータ１０９を介してネットワーク上でＶＡＳ１９０と対話するように構成されている。ＶＡＳ１９０とのインタラクションは、例えば、ＮＭＤが検出した音の中に潜在的なウェイクワードを識別したときに開始される。この識別により、ウェイクワードイベントが発生し、ＮＭＤが検出した音データをＶＡＳ１９０へ送信することが開始される。いくつかの実施形態では、ＭＰＳ１００の様々なローカルネットワークデバイス１０２～１０５（図１Ａ）および／またはリモートコンピューティングデバイス１０６ｃは、選択されたＶＡＳに関連するリモートコンピューティングデバイスと様々なフィードバック、情報、命令、および／または関連データを交換してもよい。このような情報の交換は、音声入力を含む送信メッセージに関連している場合もあれば、独立している場合もある。ある実施形態では、リモートコンピューティングデバイス（複数可）およびメディア再生システム１００は、ここに記載されているような通信パスを介して、および／または、２０１７年２月２１日に出願され、「ＶｏｉｃｅＣｏｎｔｒｏｌｏｆａＭｅｄｉａＰｌａｙｂａｃｋＳｙｓｔｅｍ」と題された米国出願第１５／４３８，７４９号に記載されているメタデータ交換チャネルを使用して、データを交換してもよい。米国出願第１５／４３８，７４９号を参照することにより、その内容の全ては、本願明細書の中に含まれるものとする。

サウンドデータのストリームを受信すると、ＶＡＳ１９０は、ＮＭＤからのデータストリームに音声入力があるかどうかを判断し、ある場合にはＶＡＳ１９０は、音声入力に含まれる用語の意図も判断する。ＶＡＳ１９０は、次に、リスポンスをＭＰＳ１００に返送するが、このリスポンスは、ウェイクワードイベントを引き起こしたＮＭＤに直接送信する。このリスポンスは、ＶＡＳ１９０が音声入力に意図が存在すると判断した事に基づいて行われる。一例として、ＶＡＳ１９０が「ビートルズのヘイジュードを再生（ＰｌａｙＨｅｙＪｕｄｅｂｙＴｈｅＢｅａｔｌｅｓ）」という命令を伴う音声入力を受信したことに応答して、ＶＡＳ１９０は、音声入力の基本的な意図が再生を開始することであると判断し、さらに音声入力の意図が特定の曲"ヘイジュード（ＨｅｙＪｕｄｅ）"を再生することであると判断してもよい。これらの決定の後、ＶＡＳ１９０は、コンテンツ（すなわち、曲「ヘイジュード（ＨｅｙＪｕｄｅ）」）を取得するためのコマンドを特定のＭＣＳ１９２に送信してもよく、そのＭＣＳ１９２は、続いて、このコンテンツをＭＰＳ１００に直接、またはＶＡＳ１９０を介して間接的に提供（例えば、ストリーム提供）する。いくつかの実施形態では、ＶＡＳ１９０は、ＭＰＳ１００にコマンドを送信し、ＭＰＳ１００自身がＭＣＳ１９２からコンテンツを取得する様にしてもよい。

ある実施形態においては、互いに近接して配置された二つ以上のＮＭＤによって検出された音声に音声入力が識別された場合、ＮＭＤは、互いの仲裁処理を行うことができる。例えば、環境１０１（図１Ａ）にあるＮＭＤ搭載の再生装置１０２ｄは、リビングルームにあるＮＭＤ搭載の再生装置１０２ｍと近接しており、両装置１０２ｄ、１０２ｍは少なくとも同時に同じ音を検出することがある。このような場合、どのデバイスがリモートＶＡＳに検知したサウンドデータを送信する責任があるかについて、仲裁が必要になる。ＮＭＤ間の仲裁の例は、例えば、先に説明した米国出願第１５／４３８，７４９号明細書に記載されている。

ある実施形態では、ＮＭＤは、ＮＭＤを含まない再生デバイスと、指定により、又はデフォルトにより関連付けされていてもよい。例えば、キッチン１０１ｈ（図１Ａ）にあるアイランドＮＭＤ１０３ｆを、アイランドＮＭＤ１０３ｆと比較的近い場所にあるダイニングルームの再生装置１０２ｌに割り当ててもよい。実際、ＮＭＤからの音声入力をリモートＶＡＳが受けたことに応答して、ＮＭＤは、割り当てられている再生装置にオーディオを生成させるように指示しても良い。ここで、ユーザが特定の曲、アルバム、プレイリストなどを再生するコマンドを話したことに応じてＮＭＤからＶＡＳに音声入力が送られる。ＮＭＤや再生装置を指定装置またはデフォルト装置として割り当てることについての詳細は、例えば、先に説明した米国特許出願第１５／４３８，７４９号明細書に記載されている。

例示的なＭＰＳ１００の異なる構成要素に関連するさらなる側面、および異なる構成要素がどのように相互作用してユーザにメディア体験を提供するかについては、以下のセクションに記載されている。ここでの議論は一般的に例示のＭＰＳ１００に言及しているが、ここで説明する技術は、特に上述の家庭環境内でのアプリケーションに限定されるものではない。例えば、ここに記載の技術は、再生装置、ネットワークマイクロフォン、および/またはコントローラ装置１０２～１０４のいずれかをより多くまたはより少なく構成した他の家庭環境の構成においても有用である。例えば、ここに記載の技術は、単一の再生装置１０２および／または単一のＮＭＤ１０３を有する環境内で利用することができる。かかる場合、ＬＡＮ１１１（図１Ｂ）を廃止し、単一の再生装置１０２および／または単一のＮＭＤ１０３が、リモートコンピューティング装置１０６ａ～ｄと直接通信してもよい。ある実施形態では、通信ネットワーク（例えば、ＬＴＥネットワーク、５Ｇネットワークなど）が、ＬＡＮとは独立して、様々な再生装置、ネットワークマイクロフォン、および／またはコントローラ装置１０２～１０４と通信してもよい。

a.再生装置及びネットワークマイクロフォンデバイスの例
図２Ａは、図１Ａおよび図１ＢのＭＰＳ１００の再生装置１０２の１つの特定の側面を示す機能ブロック図である。図示されているように、再生装置１０２は、それぞれが以下でさらに詳細に説明される様々な構成要素を含み、再生装置１０２の様々な構成要素は、システムバス、通信ネットワーク、又は何らかの他の接続機構を介して、互いに動作可能に組合せされている。図２Ａの図示された例では、再生装置１０２は、図１Ａに示されたＮＭＤ１０３の一例の様に、ＮＭＤの機能をサポートするコンポーネントを含むため、「ＮＭＤ搭載」再生装置と呼ぶことがある。

図示されているように、再生装置１０２は、少なくとも１つのプロセッサ２１２を含み、このプロセッサは、メモリ２１３に格納された命令に従って入力データを処理するように構成されたクロック駆動型コンピューティングコンポーネントであってもよい。メモリ２１３は、プロセッサ２１２によって実行可能な命令を格納するように構成され、有形で、非一過性の、コンピュータ可読媒体である。例えば、メモリ２１３は、特定の機能を実現するためにプロセッサ２１２によって実行可能なソフトウェアコード２１４をロードすることができるデータストレージである。

一例では、これらの機能は、再生装置１０２（他の再生装置であってもよい）が、オーディオソースからオーディオデータを取得する機能を含む。別の例では、機能は、再生装置１０２が、音声データ、検出されたサウンドデータ（例えば、音声入力に対応する）、および／または他の情報を、少なくとも1つのネットワークインターフェース２２４を介して、ネットワーク上の別の装置に送信することを含む。さらに別の例では、機能は、再生装置１０２が、１つまたは複数の他の再生装置に、再生装置１０２と同期して音声を再生させることを含んでもよい。さらに別の例では、機能は、再生装置１０２が１つ以上の他の再生装置とペアリングまたはその他の方法で結合することを可能にし、マルチチャネルオーディオ環境を作成することを含む。他にも多数の機能例が考えられるが、そのうちのいくつかを以下に説明する。

上述したように、特定の機能には、再生装置１０２が１つ以上の他の再生装置とオーディオコンテンツの再生を同期させることを含む。同期再生時には、リスナーは、同期再生機器によるオーディオコンテンツの再生間の時間差を認識できない。２００４年４月４日に出願された米国特許第８，２３４，３９５号の明細書は、「独立したクロックを持つ複数のデジタルデータ処理装置間で動作を同期させるシステムおよび方法（Ｓｙｓｔｅｍａｎｄｍｅｔｈｏｄｆｏｒｓｙｎｃｈｒｏｎｉｚｉｎｇｏｐｅｒａｔｉｏｎｓａｍｏｎｇａｐｌｕｒａｌｉｔｙｏｆｉｎｄｅｐｅｎｄｅｎｔｌｙｃｌｏｃｋｅｄｄｉｇｉｔａｌｄａｔａｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ）」という発明の名称であり、再生機器間でのオーディオ再生の同期化に関するいくつかの例をより詳細に説明している。

オーディオの再生を容易にするため、再生デバイス１０２は、再生デバイス１０２がオーディオをレンダリングする前にオーディオを処理するように構成されたオーディオ処理コンポーネント２１６を含む。このため、オーディオ処理コンポーネント２１６は、１つまたは複数のデジタル-アナログコンバータ（「ＤＡＣ」）、１つまたは複数のオーディオ前処理コンポーネント、１つまたは複数のオーディオエンハンスメントコンポーネント、１つまたは複数のデジタルシグナルプロセッサ（「ＤＳＰ」）などを含んでいる。いくつかの実施形態では、オーディオ処理コンポーネント２１６の１つまたは複数は、プロセッサ２１２のサブコンポーネントであってもよい。オーディオ処理コンポーネント２１６は、アナログおよび／またはデジタルのオーディオを受信し、処理し、またはその他の方法で意図的に変更して、再生用のオーディオ信号を生成する。

生成されたオーディオ信号は、次に、増幅のために１つまたは複数の増幅器２１７に送られ、増幅器２１７に動作可能に組合された１つまたは複数のスピーカ２１８を介して再生される。オーディオ増幅器２１７は、オーディオ信号を、１つ以上のスピーカ２１８を駆動するためのレベルに増幅するように構成されたコンポーネントを含んでもよい。

スピーカ２１８の各々は、それぞれトランスデューサ（例えば、「ドライバ」）を含んでいてもよいし、スピーカ群としてのスピーカ２１８は、１つ以上のドライバを有するエンクロージャを含む完全なスピーカシステムを含んでいてもよい。スピーカ２１８の特定のドライバは、例えば、サブウーファ（例えば、低周波用）、ミッドレンジドライバ（例えば、中周波用）、および／またはツイータ（例えば、高周波用）を含んでもよい。あるケースでは、トランスデューサは、オーディオ増幅器群２１７のそれぞれの対応するオーディオ増幅器によって駆動されてもよい。いくつかの実施形態では、再生装置は、スピーカ２１８を含まず、代わりに、再生装置を外部スピーカに接続するためのスピーカインターフェースを含んでもよい。特定の実施形態では、再生装置は、スピーカ２１８もオーディオ増幅器２１７も含まず、代わりに、再生装置を外部のオーディオ増幅器またはオーディオビジュアル受信機に接続するためのオーディオインターフェース（図示せず）を含んでもよい。

再生装置１０２による再生のためにオーディオ信号を生成することに加えて、オーディオ処理コンポーネント２１６は、再生のために、ネットワークインターフェース２２４を介して、１つまたは複数の他の再生装置に送信されるオーディオを処理するように構成されてもよい。例示的なシナリオでは、再生装置１０２によって処理および／または再生されるオーディオコンテンツは、再生装置１０２のオーディオラインインインターフェース（例えば、自動検出３．５ｍｍオーディオラインイン接続）を介して（図示せず）、または後述するようにネットワークインターフェース２２４を介してなど、外部ソースから受信されてもよい。

図示されているように、少なくとも１つのネットワークインターフェース２２４は、１つ以上の無線インターフェース２２５および／または１つ以上の有線インターフェース２２６の形態をとることができる。無線インターフェースは、再生装置１０２が通信プロトコル（例えば、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇモバイル通信規格等を含む任意の無線規格）に従って他の装置（例えば、他の再生装置（複数可）、ＮＭＤ（複数可）、および／またはコントローラ装置（複数可））と無線通信するためのネットワークインターフェース機能を提供してもよい。有線インターフェースは、再生装置１０２が通信プロトコル（例えば、ＩＥＥＥ８０２．３）に従って他の装置と有線接続で通信するためのネットワークインターフェース機能を提供してもよい。図２Ａに示すネットワークインターフェース２２４は、有線および無線の両方のインターフェースを含むが、再生装置１０２は、いくつかの実施形態において、無線インターフェースのみ、または、有線インターフェースのみを含んでもよい。

一般的に、ネットワークインターフェース２２４は、再生装置１０２と、データネットワーク上の１つ以上の他の装置との間のデータフローを容易にする。例えば、再生装置１０２は、１つまたは複数の他の再生装置、ＬＡＮ内のネットワーク装置、および／またはインターネットなどのＷＡＮを介したオーディオコンテンツソースから、データネットワークを介してオーディオコンテンツを受信するように構成されてもよい。一例では、再生装置１０２によって送受信されるオーディオコンテンツおよびその他の信号は、インターネットプロトコル（ＩＰ）ベースのソースアドレスおよびＩＰベースのデスティネーションアドレスからなるデジタルパケットデータの形態で送信されてもよい。このような場合、ネットワークインターフェース２２４は、再生装置１０２に向けられたデータが再生装置１０２によって適切に受信および処理されるように、デジタルパケットデータを解析するように構成されてもよい。

図２Ａに示すように、再生装置１０２は、１つまたは複数のマイクロフォン２２２に動作可能に組合される音声処理コンポーネント２２０も含む。マイクロフォン２２２は、再生装置１０２の環境における音（すなわち、音響波でありサウンドとも言う）を検出するように構成されており、その音は音声処理コンポーネント２２０に提供される。より具体的には、各マイクロフォン２２２は、音を検出し、その検出された音をデジタル信号またはアナログ信号に変換するように構成され、更に、以下でより詳細に説明するように、検出された音に基づいて、音声処理コンポーネント２２０に様々な機能を実行させる。ある実施形態では、マイクロフォン２２２は、複数のマイクロフォンが集まったアレイ（例えば、６個のマイクロフォンのアレイ）として配置されている。また、ある実施形態では、再生装置１０２は、６つ以上のマイクロフォン（例えば、８つのマイクロフォンまたは１２のマイクロフォン）または６つ以下のマイクロフォン（例えば、４つのマイクロフォン、２つのマイクロフォン、または単一のマイクロフォン）を含む。

動作において、音声処理コンポーネント２２０は、一般に、マイクロフォン２２２を介して受信された音を検出および処理し、検出された音の中で潜在的な音声入力を識別し、検出された音データを抽出するように構成され、これにより、ＶＡＳ１９０（図１Ｂ）などのＶＡＳにより検出された音データの中で識別された音声入力を処理できるようにする。音声処理コンポーネント２２０は、種々のコンポーネントを含み、例えば、１つまたは複数のアナログ-デジタル変換器、音響エコーキャンセラ（「ＡＥＣ」）、空間プロセッサ（例えば、１つまたは複数のマルチチャネルＷｉｅｎｅｒフィルタ、１つまたは複数の他のフィルタ、および／または１つまたは複数のビームフォーマコンポーネント）、１つまたは複数のバッファ（例えば。１つまたは複数の円形バッファ）、１つまたは複数のウェイクワードエンジン、１つまたは複数の音声抽出器、および／または１つまたは複数の音声処理コンポーネント（例えば、特定のユーザ又はある世帯における複数の特定のユーザの音声を認識することができるコンポーネント）などを含む。例示的な実施形態では、音声処理コンポーネント２２０は、１つまたは複数のＤＳＰまたは１つまたは複数のＤＳＰ用のモジュールを含む。この点において、特定の音声処理コンポーネント２２０は、特定の機能を実現するために修正またはその他の方法で調整される特定のパラメータ（例えば、ゲインおよび／またはスペクトルパラメータ）を有することもできる。いくつかの実施形態では、音声処理コンポーネント２２０の１つまたは複数は、プロセッサ２１２のサブコンポーネントであってもよい。

いくつかの実施形態では、音声処理コンポーネント２２０は、ＭＰＳ１００のユーザアカウントに関連付けられているユーザの音声プロファイルを検出し、格納してもよい。例えば、音声プロファイルは、一連のコマンド情報やデータテーブルに格納された変数として格納され、また、格納されている変数と比較される。音声プロファイルは、ユーザの声のトーンまたは周波数や、他のユニークな特徴を含むことができ、その詳細は先に説明した米国特許出願第１５／４３８，７４９号に詳細に記載されている。

図２Ａにさらに示すように、再生装置１０２は、パワーコンポーネント２２７も含む。パワーコンポーネント２２７は、少なくとも外部パワーインターフェース２２８を含み、再生装置１０２をコンセントやその他の外部電源に物理的に接続する電源ケーブルなどを介して、電源（図示せず）に組合されてもよい。パワーコンポーネントとして他に、例えば、電力を設定するトランス、コンバータなどがある。

いくつかの実施形態では、再生装置１０２のパワーコンポーネント２２７は、外部電源への物理的な接続なしに再生装置１０２に電力を供給するように構成された内部パワーソース２２９（例えば、１つまたは複数の電池）をさらに含んでもよい。内部パワーソース２２９を備える場合、再生装置１０２は、外部パワーソースに依存せずに動作することができる。いくつかのそのような実施形態では、外部パワーソースインターフェース２２８は、内部パワーソース２２９の充電を容易にするように構成されてもよい。前述したように、内部パワーソースを備えた再生装置を、ここでは「ポータブル再生装置」と呼ぶことがある。一方、外部パワーソースを利用して動作する再生装置を「据え置き型再生装置」と呼ぶが、実際には家庭内などで移動可能である。

再生装置１０２は、ユーザインタフェース２４０をさらに含み、それによりユーザインタラクションが容易にされ、さらに、１つまたは複数のコントローラ装置１０４により容易にされたユーザインタラクションと連動するようにしてもよい。様々な実施形態において、ユーザインターフェース２４０は、１つ以上の物理的なボタンを含むものもあれば、ユーザの直接入力が可能な、タッチセンシティブなスクリーン（複数可）および／または表面（複数可）が提供されるグラフィカルインターフェースをサポートするものもある。ユーザインターフェース２４０は、視覚的および／または音声的なフィードバックを提供するライト（例えば、ＬＥＤ）およびスピーカのうちの1つまたは複数をさらに含んでもよい。

例として、図２Ｂは、再生装置１０２のハウジング２３０を示し、ハウジング２３０の上部分２３４にコントロールエリア２３２の形でユーザインタフェースを含む。コントロールエリア２３２には、オーディオの再生やボリュームレベルなどをコントロールするためのボタン２３６ａ～ｃが含まれている。また、コントロールエリア２３２には、マイクロフォン２２２をオン状態とオフ状態のいずれかに切り替えるためのボタン２３６ｄが設けられている。

図２Ｂにさらに示すように、コントロールエリア２３２は、ハウジング２３０の上面部２３４に形成された開口部によって少なくとも部分的に囲まれており、それを介してマイクロフォン２２２（図２Ｂでは見えない）が再生装置１０２の環境下で音を受信する。マイクロフォン２２２は、再生装置１０２に対して１つまたは複数の方向からの音を検出するように、ハウジング２３０の上面部２３４または他の領域に沿っておよび／またはその中の様々な位置に配置されてもよい。

例示として、ソノス株式会社（ＳＯＮＯＳ，Ｉｎｃ．）は、ここに開示された特定の実施形態を実施することができる特定の再生装置を販売しており、それらは、「ＰＬＡＹ：１」、「ＰＬＡＹ：３」、「ＰＬＡＹ：５」、「ＰＬＡＹＢＡＲ」、「ＣＯＮＮＥＣＴ：ＡＭＰ」、「ＰＬＡＹＢＡＳＥ」、「ＢＥＡＭ」、「ＣＯＮＮＥＣＴ」、および「ＳＵＢ」を含む。過去、現在、および／または未来に出される他の再生装置が、ここで開示される例示的な実施形態の再生装置を実施するために追加的または代替的に使用されてもよい。さらに、再生装置は、図２Ａまたは２Ｂに示された例や、ソノス製品の提供に限定されない。例えば、再生装置は、有線または無線のヘッドフォンセットを含むか、またはそのような形態をとってもよく、ネットワークインターフェースなどを介してメディア再生システム１００の一部として動作してもよい。別の例として、再生装置は、個人用モバイルメディア再生装置のためのドッキングステーションを含むか、それと相互作用することができる。さらに別の例では、再生装置は、テレビや照明器具など、屋内外で使用される他の機器や部品と一体化が可能である。

b.再生装置の構成例
図３Ａ～３Ｅは、再生装置の例示的な構成を示す。最初に図３Ａを参照すると、いくつかの例示的な実施形態では、単一の再生装置がゾーンに属してもよい。例えば、パティオの再生装置１０２ｃ（図１Ａ）は、ゾーンＡに属していてもよい。以下に説明するいくつかの実施形態では、複数の再生機器を「結合（ｂｏｎｄ）」して「結合ペア」を形成し、それらが一緒になって1つのゾーンを形成することができる。例えば、図３Ａで「ベッド１」と名付けられた再生装置１０２ｆ（図１Ａ）と、図３Ａで「ベッド２」と名付けられた再生装置１０２ｇ（図１Ａ）とを結合して、ゾーンＢを形成してもよい。結合された再生装置のそれぞれは、異なる再生責任（例えば、チャンネル責任）を持つ。後述する別の実施形態では、複数の再生装置を統合して１つのゾーンを形成することができる。統合された再生装置１０２ｄ、１０２ｍには、特に異なる再生責任が割り当てられていなくてもよい。すなわち、統合された再生装置１０２ｄ、１０２ｍは、同期してオーディオコンテンツを再生することは勿論であるが、それぞれが統合されていない場合と同様にオーディオコンテンツを再生してもよい。

制御のために、ＭＰＳ１００の各ゾーンは、単一のユーザーインターフェース（「ＵＩ」）エンティティとして表されてもよい。例えば、コントローラデバイス１０４によって表示されるように、ゾーンＡは、「ポータブル」という名前の単一のエンティティとして提供されてもよく、ゾーンＢは、「ステレオ」という名前の単一のエンティティとして提供されてもよく、ゾーンＣは、「リビングルーム」という名前の単一のエンティティとして提供されてもよい。

様々な実施形態において、ゾーンは、そのゾーンが属する場を再生装置の１つの名前として引き継いでもよい。例えば、ゾーンＣは、（図のように）リビングルームを再生装置１０２ｍの名前として引き継いでもよい。別の例では、ゾーンＣは代わりに本棚を再生装置１０２ｄの名前として名乗ってもよい。さらなる例では、ゾーンＣは、本棚にある再生装置１０２ｄとリビングルームにある再生装置１０２ｍを何らかの形で組み合わせた名前を取ることができる。選択される名前は、コントローラデバイス１０４での入力を介してユーザが選択することができる。いくつかの実施形態では、ゾーンには、そのゾーンに属する再生装置とは異なる名前が与えられることがある。例えば、図３ＡのゾーンＢには「ステレオ」という名前が付けられているが、ゾーンＢにはこの名前を持つ再生装置はない。一例では、ゾーンＢは、構成デバイスである「ベッド１」と「ベッド２」で構成された「ステレオ」という名前の単一デバイスを表す単一のＵＩエンティティである。ある実施形態では、ベッド１の再生装置は、マスターベッドルーム１０１ｈ（図１Ａ）にある再生装置１０２ｆであってもよく、ベッド２の再生装置は、同じくマスターベッドルーム１０１ｈ（図１Ａ）にある再生装置１０２ｇであってもよい。

上述したように、結合された再生装置は、特定のオーディオチャネルの再生責任など、異なる再生責任を持つ場合がある。例えば、図３Ｂに示すように、ベッド１およびベッド２のデバイス１０２ｆおよび１０２ｇは、オーディオコンテンツのステレオ効果を生成または強化するように結合されてもよい。この例では、ベッド１の再生装置１０２ｆは、左チャンネルのオーディオコンポーネントを再生するように構成されていてもよく、ベッド２の再生装置１０２ｇは、右チャンネルのオーディオコンポーネントを再生するように構成されていてもよい。いくつかの実施形態では、このようなステレオ結合は、「ペアリング」とも呼ばれる。

さらに、結合されるように構成された再生装置は、追加および／または異なるそれぞれのスピーカドライバを有することができる。図３Ｃに示すように、「前」という名前の再生装置１０２ｂは、「サブ」という名前の再生装置１０２ｋと結合してもよい。なお、「前」の再生装置１０２ｂは、中～高域の範囲をレンダリングしてもよく、「サブ」の再生装置１０２ｋは、例えばサブウーファーのように低域をレンダリングしてもよい。結合が解かれた時には、「前」の再生装置１０２ｂは、フルレンジの周波数をレンダリングするように構成されていてもよい。別の例として、図３Ｄでは、「前」と「サブ」の再生装置１０２ｂと１０２ｋが、それぞれ右と左の再生装置１０２ａと１０２ｊとさらに結合している様子を示している。いくつかの実施形態では、右および左の再生装置１０２ａおよび１０２ｊは、ホームシアターシステムのサラウンドまたは「サテライト」チャネルを形成してもよい。結合された再生装置１０２ａ、１０２ｂ、１０２ｊ、１０２ｋは、単一のゾーンＤを形成してもよい（図３Ａ）。

いくつかの実施形態では、再生デバイスは「マージ（ｍｅｒｇｅｄ）」されることもある。結合された再生装置とは異なり、マージされた再生装置は、再生責任が割り当てられておらず、それぞれの再生装置の可能な範囲でオーディオコンテンツのフルレンジをレンダリングする。それにもかかわらず、マージされた複数の再生装置は、単一のＵＩエンティティ（すなわち、上述したようにゾーン）として提供されることがある。例えば、図３Ｅでは、リビングルームの再生装置１０２ｄと１０２ｍがマージされており、これらの再生装置がゾーンＣの単一のＵＩエンティティとして提供されることになる。ある実施形態では、再生装置１０２ｄおよび１０２ｍは、同期してオーディオを再生してもよく、その間、それぞれの再生装置１０２ｄおよび１０２ｍがレンダリング可能な範囲でオーディオコンテンツのフルレンジを出力する。

いくつかの実施形態では、スタンドアロンのＮＭＤがそれ自体でゾーンに加わっていてもよい。例えば、図１ＡのＮＭＤ１０３ｈは、「クローゼット」と名付けられ、図３ＡにおいてゾーンＩを形成する。また、ＮＭＤは他のデバイスと結合したり、マージしたりして、ゾーンを形成することもできる。例えば、"アイランド"と名付けられたＮＭＤデバイス１０３ｆは、再生装置１０２ｉキッチンと結合され、これらは共に"キッチン"と名付けられてゾーンFを形成してもよい。ＮＭＤや再生装置を指定装置またはデフォルト装置として割り当てることについての詳細は、例えば、先に説明した米国特許出願第１５／４３８，７４９号明細書に記載されている。いくつかの実施形態では、スタンドアロンのＮＭＤはゾーンに割り当てられない場合がある。

個々の装置、結合された装置、および／またはマージされた装置で構成されるゾーンに含まれる複数の再生装置は、同期してオーディオを再生する再生装置の集合体であるセットを形成するように配置される。このような再生装置のセットは、「グループ」、「ゾーングループ」、「シンクログループ」、または「再生グループ」と呼ばれることがある。コントローラデバイス１０４を介して提供される入力に応答して、複数の再生装置は、動的にグループ化の形成（グループ化）およびグループ化の解除（グループ解除）が成され、オーディオコンテンツを同期再生する新しいまたは異なるグループを形成する。例えば、図３Ａを参照すると、ゾーンＡはゾーンＢとグループ化され、２つのゾーンの再生装置を含むゾーングループを形成することができる。別の例として、ゾーンＡは、１つ以上の他のゾーンＣ～Ｉとグループ化されてもよい。ゾーンＡ～Ｉは、多数の方法でグループ化されたり、グループ解除されたりする。例えば、ゾーンＡ～Ｉのうち、３つ、４つ、５つ、またはそれ以上（例えば、すべて）のゾーンをグループ化してもよい。グループ化された場合、ゾーンにある個々の再生装置や結合された再生装置は、先に説明した米国特許第８，２３４，３９５号明細書に記載されているように、互いに同期してオーディオを再生することができる。グループ化された再生装置や結合された再生装置は、ポータブル再生装置とステーショナリー再生装置の間の関連付けの例であり、係る関連付けは、上述したように、トリガーイベントに応じて引き起こされ、以下でより詳細に説明する。

様々な実施形態において、環境内のゾーンには特定の名前が割り当てられてもよく、その名前は、ゾーングループ内のゾーンのデフォルトの名前であってもよいし、図３Ａに示すように「ダイニングルーム＋キッチン」のようにゾーングループ内のゾーンの名前の組み合わせであってもよい。ある実施形態では、ゾーングループには、図３Ａにも示されているように、「ニックの部屋」のように、ユーザによって選択された固有の名前が与えられてもよい。「ニックの部屋」という名前は、ゾーングループのための以前の名前として元々あった「マスターベッドルーム」という部屋名に変えて、ユーザが選んだ名前である。

図２Ａにおいて、特定のデータは、1つまたは複数の状態変数としてメモリ２１３に格納されてもよい。変数は、定期的に更新され、再生ゾーン、再生装置（複数可）、および／またはそれに関連するゾーングループの状態を記述するために使用される。また、メモリ２１３には、メディア再生システム１００の他の装置の状態に関連するデータが含まれていてもよい。係る関連するデータは、１つまたは複数の装置がシステムに関連する最新のデータを持つように、装置間で随時共有されてもよい。

いくつかの実施形態では、再生装置１０２のメモリ２１３は、状態に関連付けられた様々な変数タイプのインスタンス（時事変化する状態）を格納してもよい。変数のインスタンスは、タイプに対応した識別子（タグなど）を付けて保存することができる。例えば、特定の識別子としては、ゾーンにある再生装置を識別するための第１のタイプ「ａ１」、ゾーン内で結合状態にある再生装置を識別するための第２のタイプ「ｂ１」、およびゾーンが属するゾーングループを識別するための第３のタイプ「ｃ１」であってもよい。関連する例として、図１Ａでは、「パティオ」と名付けられた装置に対応する識別子は、「パティオ」は特定のゾーンにある唯一の再生装置であり、いずれのゾーングループに含まれないことを示す。「リビングルーム」に対応する識別子は、「リビングルーム」が他のゾーンとグループ化されておらず、結合された再生装置１０２ａ、１０２ｂ、１０２ｊ、１０２ｋを含むことを示す。「ダイニングルーム」に対応する識別子は、「ダイニングルーム」が「ダイニングルーム＋キッチン」グループの一部であり、デバイス１０３ｆと１０２ｉが結合されていることを示す。「キッチン」に対応する識別子は、「キッチン」が「ダイニングルーム＋キッチン」のゾーングループの一部であるので、同一または類似の情報を示す。その他のゾーン変数と識別子の例を以下に示す。

さらに別の例では、ＭＰＳ１００は、図３Ａに示すように、エリアに対応する識別子など、ゾーンやゾーングループとは異なる関連性を表す変数または識別子を含んでもよい。エリアには、ゾーングループのクラスタや、ゾーングループに属さないゾーンが含まれることがある。例えば、図３Ａには、「第１エリア」と名付けられた第１のエリアと、「第２エリア」と名付けられた第２のエリアが示されている。第１エリアには、「パティオ」「デン」「ダイニング」「キッチン」「バスルーム」のゾーンとゾーングループがある。第２エリアには、「バスルーム」「ニックの部屋」「ベッドルーム」「リビングルーム」のゾーンとゾーングループがある。ある実施形態では、「エリア」を使って、ゾーンのクラスタや、１つ以上のゾーンを共有するゾーングループのクラスタや、ゾーングループの別のクラスタを呼び出すことができる。この場合、このエリアは、他のゾーングループとゾーンを共有しないゾーングループとは異なる。エリアを実施するための技術のさらなる例は、次の米国特許出願の明細書に記載されている。２０１７年８月２１日に出願された米国出願第１５／６８２，５０６号で、発明の名称は「名前に基づく部屋の関連づけ（ＲｏｏｍＡｓｓｏｃｉａｔｉｏｎＢａｓｅｄｏｎＮａｍｅ）」、および２００７年９月１１日に出願された米国特許第８，４８３，８５３号で、発明の名称は「マルチゾーンメディアシステムにおけるグループ化の制御と操作（Ｃｏｎｔｒｏｌｌｉｎｇａｎｄｍａｎｉｐｕｌａｔｉｎｇｇｒｏｕｐｉｎｇｓｉｎａｍｕｌｔｉ－ｚｏｎｅｍｅｄｉａｓｙｓｔｅｍ）」である。これらの各出願の内容は、参照することにより、その全体が本明細書に取り込まれるものとする。いくつかの実施形態では、ＭＰＳ１００は「エリア」を用いない場合もあり、その場合、システムはエリアに関連する変数を保存しない。

メモリ２１３は、他のデータを格納するようにさらに構成されてもよい。そのようなデータは、再生装置１０２によってアクセス可能なオーディオソース、または再生装置（またはいくつかの他の再生装置（複数可））が関連付けられ得る再生キューに関係してもよい。後述する実施形態では、メモリ２１３は、音声入力を処理する際に特定のＶＡＳを選択するためのコマンドデータのセットを格納するように構成されている。

動作中、図１Ａの環境における１つまたは複数の再生ゾーンは、それぞれ異なるオーディオコンテンツを再生してもよい。例えば、あるユーザが「パティオ」ゾーンで焼き肉をしながら、再生装置１０２ｃで再生されるヒップホップ音楽を聴いている一方、別のユーザが「キッチン」ゾーンで料理の準備をしながら、再生装置１０２ｉで再生されるクラシック音楽を聴いている場合が考えられる。別の例では、ある再生ゾーンと別の再生ゾーンとが同期して同じオーディオコンテンツを再生している場合がある。例えば、ユーザは「オフィス」ゾーンにいて、そこでは、再生装置１０２ｎが「パティオ」ゾーンで再生装置１０２ｃが再生しているのと同じヒップホップ音楽を再生している場合がある。このような場合、再生装置１０２ｃおよび１０２ｎは、ユーザが異なる再生ゾーン間を移動しながら、シームレスに（または少なくとも実質的にシームレスに）大音量で再生されているオーディオコンテンツを楽しむことができるように、同期してヒップホップを再生することができる。再生ゾーン間の同期は、先に説明した米国特許第８，２３４，３９５号に記載された再生装置間の同期と同様の方法で実現することができる。

上述したように、ＭＰＳ１００のゾーン構成は、動的に変更されてもよい。このように、ＭＰＳ１００は、多数の構成をサポートしてもよい。例えば、ユーザが１つまたは複数の再生装置を物理的にあるゾーンに又はあるゾーンから移動させた場合、ＭＰＳ１００はその変更に対応するために再構成される。例えば、ユーザが再生装置１０２ｃを「パティオ」ゾーンから「オフィス」ゾーンに物理的に移動させた場合、「オフィス」ゾーンには再生装置１０２ｃと１０２ｎの両方が含まれることとなる。場合によっては、ユーザは、例えば、１つのコントローラデバイス１０４および／または音声入力を用いて、移動した再生デバイス１０２ｃを「オフィス」ゾーンのものとペアリングまたはグループ化し、さらに「オフィス」ゾーン内の再生装置の名前を変更することができる。別の例として、１つまたは複数の再生装置１０２が、まだ再生ゾーンではない家庭環境の特定の空間に移動された場合、移動された再生装置（複数可）は、名前が変更されるか、または特定の空間の再生ゾーンに関連付けられてもよい。

さらに、ＭＰＳ１００の異なる複数の再生ゾーンを動的に組み合わせてゾーングループにしたり、独立した再生ゾーンに分割したりすることができる。例えば、「ダイニングルーム」ゾーンと「キッチン」ゾーンは、再生装置１０２ｉと１０２ｌが同期してオーディオコンテンツをレンダリングするように、ディナーパーティーのためのゾーングループにまとめてもよい。別の例として、「デン」ゾーンにある結合済の再生装置を、（i）「テレビ」ゾーンと（ii）別の「リスニング」ゾーンに分けてもよい。「テレビ」ゾーンには、「前」の再生装置１０２ｂが含まれていてもよい。「リスニング」ゾーンには、上述したように、グループ化、ペア化、またはマージ化された右、左、サブの再生装置１０２ａ、１０２ｊ、１０２ｋが含まれていてもよい。このように「デン」ゾーンを分割することで、あるユーザはリビングルーム空間のあるエリアである「リスニング」ゾーンで音楽を聴き、別のユーザはリビングルーム空間の別のエリアでテレビを見ることができる。関連する例では、ユーザは、ＮＭＤ１０３ａまたは１０３ｂ（図１Ｂ）のいずれかを利用して、「テレビ」ゾーンと「リスニング」ゾーンに分離される前の「デン」ゾーンを制御することができる。分離されると、「リスニング」ゾーンは、例えば、ＮＭＤ１０３ａの近傍にいるユーザが制御し、「テレビ」ゾーンは、例えば、ＮＭＤ１０３ｂの近傍にいるユーザにより制御される。

c.コントローラデバイスの例
図４Ａは、図１ＡのＭＰＳ１００のコントローラデバイス１０４のうちの選択された１つの例を示す機能ブロック図である。このようなコントローラデバイスは、ここでは「コントロールデバイス」または「コントローラ」と呼ぶ。図４Ａに示すコントローラデバイスは、プロセッサ４１２、プログラムソフトウェア４１４を格納するメモリ４１３、少なくとも１つのネットワークインターフェース４２４、および１つまたは複数のマイクロフォン４２２など、上述したネットワークデバイスの特定のコンポーネントと一般的に類似したコンポーネントを含む。一例として、コントローラデバイスは、ＭＰＳ１００の専用コントローラであってもよい。別の例では、コントローラデバイスは、例えば、ｉＰｈｏｎｅ（登録商標）、ｉＰａｄ（登録商標）、その他のスマートフォン、タブレット、ネットワークデバイス（例えば、ＰＣやＭａｃ（登録商標）などのネットワークコンピュータ）など、メディア再生システムのコントローラーアプリケーションソフトウェアがインストールされているネットワークデバイスであってもよい。

コントローラデバイス１０４のメモリ４１３は、ＭＰＳ１００および／またはシステム１００のユーザに関連するコントローラアプリケーションソフトウェアおよび他のデータを格納するように構成されてもよい。メモリ４１３には、ＭＰＳ１００のユーザアクセス、制御、および／または構成を容易にするなど、特定の機能を実現するためにプロセッサ４１２によって実行可能なソフトウェア４１４の命令が格納されてもよい。コントローラデバイス１０４は、上述したように、無線インターフェースの形態をとってもよいネットワークインターフェース４２４を介して、他のネットワークデバイスと通信するように構成されている。

一例では、システム情報（例えば、状態変数など）は、ネットワークインターフェース４２４を介して、コントローラデバイス１０４と他のデバイスとの間で通信されてもよい。例えば、コントローラデバイス１０４は、再生デバイス、ＮＭＤ、または他のネットワークデバイスから、ＭＰＳ１００における再生ゾーンの構成やゾーングループの構成に係る情報を受信してもよい。同様に、コントローラデバイス１０４は、そのようなシステム情報を、ネットワークインターフェース４２４を介して再生装置や他のネットワーク装置に送信してもよい。いくつかの例では、他のネットワークデバイスは、別のコントローラデバイスであってもよい。

また、コントローラ装置１０４は、ネットワークインターフェース４２４を介して、音量調整や音声再生制御などの再生装置制御コマンドを再生装置に通信してもよい。上述したように、ＭＰＳ１００の構成に対する変更は、コントローラデバイス１０４を使用するユーザによっても実行され得る。構成の変更には、１つまたは複数の再生装置をゾーンに追加／削除すること、１つまたは複数のゾーンをゾーングループに追加／削除すること、結合またはマージされたプレーヤーを形成すること、１つまたは複数の再生装置を結合またはマージされた再生装置から分離することなどが含まれる。

図４Ａに示すように、コントローラデバイス１０４は、一般的に、ＭＰＳ１００のユーザアクセスおよび制御を容易にするように構成されたユーザインタフェース４４０も含む。ユーザインタフェース４４０は、図４Ｂおよび図４Ｃに示すコントローラインタフェース４４０ａや４４０ｂのような、様々なグラフィカルなコントローラインタフェースを提供するように構成されたタッチスクリーンディスプレイまたは他の物理的インタフェースを含んでもよい。図４Ｂおよび図４Ｃを合わせて参照すると、コントローラインタフェース４４０ａおよび４４０ｂは、再生制御領域４４２、再生ゾーン領域４４３、再生ステータス領域４４４、再生キュー領域４４６、およびソース領域４４８を含む。図示されているユーザインタフェースは、図４Ａに示されているコントローラデバイスのようなネットワークデバイス上に提供され、ＭＰＳ１００のようなメディア再生システムを制御するためにユーザによってアクセスされる可能性のあるインターフェースの一例である。メディア再生システムへの同様な制御アクセスを提供するために、様々なフォーマット、スタイル、およびインタラクティブなシーケンスの他のユーザインタフェースが、１つまたは複数のネットワークデバイスに実装されてもよい。

再生制御領域４４２（図４Ｂ）は、選択されると、選択された再生ゾーンまたはゾーングループ内の再生デバイスに、再生または一時停止、早送り、巻き戻し、次へのスキップ、前へのスキップ、シャッフルモードの開始／終了、リピートモードの開始／終了、クロスフェードモードの開始／終了などを行わせるため、選択可能なアイコン（例えば、タッチまたはカーソルを使用する方法による）を含んでもよい。また、再生制御領域４４２は、選択されると、他の可能性も含めて、イコライゼーション設定および／または再生音量を変更する選択可能なアイコンを含んでもよい。

再生ゾーン領域４４３（図４Ｃ）は、ＭＰＳ１００内の再生ゾーンの現状を含んでもよい。また、再生ゾーン領域４４３は、図示のように、「ダイニングルーム＋キッチン」ゾーングループなどのゾーングループの現状を含んでもよい。いくつかの実施形態では、再生ゾーンのグラフィカルな表示は、結合ゾーンの生成、ゾーングループの生成、ゾーングループの分離、ゾーングループの名前の変更など、ＭＰＳ１００の再生ゾーンを管理または設定するための追加の選択可能なアイコンを含めても良い。

例えば、図示のように、「グループ」アイコンが、再生ゾーンのグラフィカルな枠のそれぞれの中に提供されてもよい。ゾーンを示すグラフィカルな枠の中にある「グループ」アイコンを選択すると、ＭＰＳ１００内の他のゾーンがオプションとして表れ、１つまたは複数のゾーンが選択可能となり、そのゾーンとグループ化される。選択したゾーンはそのゾーンとグループ化され、そのゾーンの再生装置と、選択したゾーンの再生装置は、同期してオーディオコンテンツを再生するように構成される。同様に、ゾーングループを示すグラフィカルな枠の中に「グループ」アイコンが表示されてもよい。この場合、「グループ」アイコンを選択すると、ゾーングループ内にあるゾーンがオプションとして現れ、その中のゾーンを解除するため選択すると、ゾーングループから１つまたは複数のゾーンを削除することができる。また、ユーザインタフェースを介して、ゾーンをグループ化したり、グループ解除したりするための他のインタラクションや実装も可能である。再生ゾーン領域４４３（図４Ｃ）における再生ゾーンの表示は、再生ゾーンまたはゾーングループの構成が変更されると、動的に更新される。

再生状況領域４４４（図４Ｂ）は、選択された再生ゾーンまたはゾーングループにおいて、現在再生されている、以前に再生された、または次に再生される予定のオーディオコンテンツのグラフィカルな表示を含むことができる。選択された再生ゾーンまたはゾーングループは、コントローラインタフェース上の再生ゾーン領域４４３および／または再生ステータス領域４４４内において、視覚的に区別される。グラフィカルな表示には、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラックの長さ、および/または、ユーザが知っておくと便利なその他の関連情報が含まれ、コントローラインターフェースを介してＭＰＳ１００を制御する際に便利である。

再生キュー領域４４６は、選択された再生ゾーンまたはゾーングループと関連する再生キューの形でオーディオコンテンツのグラフィカルな表示を含んでもよい。ある実施形態では、各再生ゾーンまたはゾーングループは、再生キューと関連付けられており、その再生キューは、再生ゾーンまたはゾーングループによる再生のためのゼロまたは複数のオーディオアイテムに対応する情報を含む。例えば、再生キュー内の各オーディオアイテムは、ユニフォームリソース識別子（ＵＲＩ）、ユニフォームリソースロケータ（ＵＲＬ）、または他の識別子を含んでいてもよく、他の識別子は、再生ゾーンまたはゾーングループ内の再生装置で用いられ、ローカルオーディオコンテンツソースまたはネットワークオーディオコンテンツソースからオーディオアイテムを検索および／または取得し、これらはその後、再生装置によって再生される。

ある例では、プレイリストが再生キューに追加されることがあり、この場合、プレイリスト内の各オーディオアイテムに対応する情報が再生キューに追加されることがある。別の例では、再生キュー内のオーディオアイテムは、プレイリストとして保存されてもよい。別の例では、再生キューは、空であるか、または、詰まってはいるが「使用されていない」ことがあり、この場合は、再生ゾーンまたはゾーングループが、再生時間が有限の個別のオーディオアイテムではなく、停止されるまで再生し続けることができるインターネットラジオなどの連続的にストリーミングされるオーディオコンテンツを再生しているときである。更に別の例では、再生キューは、インターネットラジオおよび／または他のストリーミングオーディオコンテンツアイテムを含むことができ、再生ゾーンまたはゾーングループがそれらのアイテムを再生しているときには「使用中」となる。他の例も可能である。

再生ゾーンまたはゾーングループが「グループ化」または「グループ解除」された場合、影響を受けた再生ゾーンまたはゾーングループに関連付けられた再生キューは、クリアまたは再関連付けされてもよい。例えば、第１の再生キューを含む第１の再生ゾーンと、第２の再生キューを含む第２の再生ゾーンとがグループ化された場合、確立された新たなゾーングループは、最初は空の再生キューを有するか、第１の再生キューからのオーディオアイテムを含む再生キュー（第２の再生ゾーンが第１の再生ゾーンに追加された場合）を有するか、第２の再生キューからのオーディオアイテムを含む再生キュー（第１の再生ゾーンが第２の再生ゾーンに追加された場合）を有するか、または第１と第２の両方の再生キューからのオーディオアイテムの組み合わせを有する関連再生キューを有してもよい。また、その後、確立されたゾーングループがグループ解除された場合、結果として得られた第１再生ゾーンは、以前の第１再生キューと再び関連付けされるか、空とされるか、または確立されたゾーングループがグループ解除される前に確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新しい再生キューと関連付けされてもよい。同様に、結果として得られた第２再生ゾーンは、以前の第２再生キューと再び関連付けされるか、空の再生キューとされるか、または確立されたゾーングループがグループ解除される前に確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新しい再生キューと関連付けされてもよい。他の例も可能である。

図４Ｂおよび４Ｃにおいて、再生キュー領域４４６（図４Ｂ）におけるオーディオコンテンツのグラフィカルな表示は、トラックタイトル、アーティスト名、トラックの長さ、および／または再生キュー内のオーディオコンテンツに関連する他の関連情報を含んでもよい。ある例では、オーディオコンテンツのグラフィカルな表示は、再生キューおよび／または再生キューで示されるオーディオコンテンツの管理および／または操作するための追加の選択可能なアイコンを表示するために選択子があってもよい。例えば、表示されたオーディオコンテンツは、再生キューから削除されたり、再生キュー内の別の位置に移動されたり、すぐに再生されるように選択されたり、現在再生中のオーディオコンテンツの後に再生されるように選択されたりすることが可能である。再生ゾーンまたはゾーングループに関連付けられた再生キューは、再生ゾーンまたはゾーングループ内の1つまたは複数の再生装置、再生ゾーンまたはゾーングループに属さない再生装置、および／または他の指定された機器のメモリに格納されてもよい。このような再生キューによる再生は、１つまたは複数の再生装置が、キューのメディアアイテムを、シーケンシャルまたはランダムな順序で再生する。

ソース領域４４８は、対応するＶＡＳに関連付けられた選択可能なオーディオコンテンツソースおよび／または選択可能な音声アシスタントのグラフィカルな表示を含んでもよい。ＶＡＳは選択的に割り当てられてもよい。いくつかの例では、ＡＭＡＺＯＮ（登録商標）のアレクサ（Ａｌｅｘａ）（登録商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）のコルタナ（Ｃｏｒｔａｎａ）（登録商標）などの複数のＶＡＳが、同じＮＭＤによって起動可能であってもよい。ある実施形態では、ユーザはＶＡＳを１つまたは複数のＮＭＤに独占的に割り当てることができる。例えば、ユーザは、図１Ａに示すリビングルームのＮＭＤ１０２ａおよび１０２ｂの一方または両方に第１のＶＡＳを割り当て、キッチンのＮＭＤ１０３ｆに第２のＶＡＳを割り当ててもよい。その他の例も可能である。

d.オーディオコンテンツソースの例
ソース領域４４８内のオーディオソースは、選択された再生ゾーンまたはゾーングループによってオーディオコンテンツが取得され、再生され得るオーディオコンテンツソースである。ゾーンまたはゾーングループ内の１つまたは複数の再生装置は、利用可能なさまざまなオーディオコンテンツソースからオーディオコンテンツを（例えば、オーディオコンテンツに対応するＵＲＩまたはＵＲＬに従って）再生のために取得するように構成されている。ある例では、オーディオコンテンツは、再生装置によって、対応するオーディオコンテンツソースから直接（例えば、ラインイン接続を介して）取得され得る。別の例では、オーディオコンテンツは、１つまたは複数の他の再生装置またはネットワーク装置を介してネットワーク上の再生装置に提供される。以下で詳しく説明するように、ある実施形態では、オーディオコンテンツは、１つまたは複数のメディアコンテンツサービスによって提供され得る。

オーディオコンテンツソースの例としては、図１のＭＰＳ１００などのメディア再生システムにおける１つまたは複数の再生デバイスのメモリ、１つまたは複数のネットワークデバイス（例えば、コントローラデバイス、ネットワーク対応パーソナルコンピュータ、またはネットワーク接続ストレージ（「ＮＡＳ」））上のローカル音楽ライブラリ、インターネットを介してオーディオコンテンツを提供するストリーミングオーディオサービス（例えば、クラウドベースの音楽サービス）、または再生デバイスまたはネットワークデバイス上のラインイン入力接続を介してメディア再生システムに接続されたオーディオソースが挙げられ、他のものも可能である。

ある実施形態では、オーディオコンテンツソースは、図１ＡのＭＰＳ１００などのメディア再生システムから追加または削除されてもよい。ある例では、１つ以上のオーディオコンテンツソースが追加、削除、または更新されるたびに、オーディオアイテムの索引付けが実行される。オーディオアイテムの索引付けは、メディア再生システム内の再生装置がアクセス可能なネットワーク上で共有されているすべてのフォルダ／ディレクトリ内の識別可能なオーディオアイテムをスキャンすること、メタデータ（例えば、タイトル、アーティスト、アルバム、トラックの長さなど）と、見つかった識別可能な各オーディオアイテムのＵＲＩまたはＵＲＬ等の他の関連情報からなるオーディオコンテンツデータベースを生成すること、または更新すること、を含む。また、オーディオコンテンツソースを管理・維持するための他の例も考えられる。

e.ネットワークマイクロフォンデバイス（ＮＭＤ）の例
図５は、本開示の実施形態に基づいて構成されたＮＭＤ５０３を機能的に示すブロック図である。ＮＭＤ５０３は、ボイスキャプチャコンポーネント（「ＶＣＣ」、または総称して「ボイスプロセッサ５６０」）、ウェイクワードエンジン５７０、および少なくとも１つの音声抽出器５７２を含み、これらの各々はボイスプロセッサ５６０に動作可能に結合されている。ＮＭＤ５０３は、上述したマイクロフォン２２２および少なくとも１つのネットワークインタフェース２２４をさらに含み、また、明確にするために図５には示されていない、オーディオアンプ、インタフェースなどの他のコンポーネントを含んでもよい。

ＮＭＤ５０３のマイクロフォン２２２は、ＮＭＤ５０３の環境から検出されたサウンドＳＤを音声プロセッサ５６０に提供するように構成されている。検出されたサウンドＳＤは、１つまたは複数のアナログまたはデジタル信号の形をとることがある。例示的な実施形態では、検出されたサウンドＳＤは、複数のチャネル５６２に関連するよう複数の信号で構成され、音声プロセッサ５６０に供給される。

チャネル５６２のそれぞれは、特定のマイクロフォン２２２に対応してもよい。例えば、６つのマイクロフォンを有するＮＭＤは、６つの対応するチャネルを有してもよい。検出されたサウンドＳＤの各チャンネルは、他のチャンネルとある種の類似性を持っているが、ある種の点では異なる。これの一つの要因は、あるチャンネルの対応するマイクが、他のチャンネルのマイクと相対的な位置関係にあるためである。例えば、検出されたサウンドＳＤの１つまたは複数のチャンネルは、他のチャンネルに比べて、音声と背景ノイズの信号対雑音比（「ＳＮＲ」）が大きい場合がある。

図５に示すように、音声プロセッサ５６０は、ＡＥＣ５６４、空間プロセッサ５６６、および１つまたは複数のバッファ５６８を含む。動作において、ＡＥＣ５６４は、検出されたサウンドＳＤを受信し、エコーを抑制するために、および／または、検出されたサウンドＳＤの品質を向上させるために、音をフィルタリングまたはその他の方法で処理する。その処理されたサウンドは、その後、空間プロセッサ５６６に送られる。

空間プロセッサ５６６は、典型的には、検出されたサウンドＳＤを分析して、音の振幅（例えば、デシベルレベル）、周波数スペクトル、指向性などの特定の特性を識別するように構成されている。空間プロセッサ５６６は、上述したように、検出されたサウンドＳＤの構成チャンネル５６２の類似性および相違性に基づいて、検出されたサウンドＳＤの周囲の雑音を潜在的なユーザの音声からフィルタリングまたは抑制するのを助けることができる。一例では、空間プロセッサ５６６は、音声を他の音から区別するメトリクスをモニタしてもよい。このようなメトリクスには、例えば、バックグラウンドノイズに対するスピーチバンド内のエネルギーや、スピーチバンド内のエントロピー（スペクトル構造の指標）の検出などがある。ある実施形態では、空間プロセッサ５６６は、音声存在確率を決定するように構成されてもよく、そのような機能性の例は、２０１８年５月１８日に出願された、「ＬｉｎｅａｒＦｉｌｔｅｒｉｎｇｆｏｒＮｏｉｓｅ－ＳｕｐｐｒｅｓｓｅｄＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ（ノイズを抑制した音声検出用のリニアフィルタ）」と題された米国特許出願第１５／９８４，０７３号明細書、および２０１８年９月２９日に出願された、「ＬｉｎｅａｒＦｉｌｔｅｒｉｎｇｆｏｒＮｏｉｓｅ－ＳｕｐｐｒｅｓｓｅｄＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎｖｉａＭｕｌｔｉｐｌｅＮｅｔｗｏｒｋＭｉｃｒｏｐｈｏｎｅＤｅｖｉｃｅｓ（複数のネットワークマイクロフォンデバイスを介してのノイズを抑制した音声検出用のリニアフィルタ）」と題された米国特許出願第１６／１４７，７１０号明細書に開示されており、それらの記載内容の全体は、それをここで参照することにより本明細書に組み込まれるものとする。

ウェイクワードエンジン５７０は、受信したオーディオを監視および分析して、オーディオ内にウェイクワードが存在するかどうかを判断するように構成されている。ウェイクワードエンジン５７０は、ウェイクワード検出アルゴリズムを用いて、受信したオーディオを分析してもよい。ウェイクワードエンジン５７０がウェイクワードを検出した場合、ネットワークマイクロフォンデバイスは、受信したオーディオに含まれる音声入力を処理する。一例では、ウェイクワード検出アルゴリズムは、オーディオを入力として受け入れ、オーディオの中にウェイクワードが存在するかどうかの表示を行う。種々の第一者や第三者によるウェイクワード検出アルゴリズムが知られており、市販もされている。例えば、音声サービスの運営者は、そのアルゴリズムを第三者の機器で使用できるようにすることができる。また、特定のウェイクワードを検出するようにアルゴリズムを学習させることもできる。

ある実施形態では、ウェイクワードエンジン５７０は、受信したオーディオに対し、複数のウェイクワード検出アルゴリズムを同時に（または実質的に同時に）実行する。上述したように、異なる音声サービス（ＡＭＡＺＯＮ（登録商標）のＡｌｅｘａ（登録商標）、ＡＰＰＬＥ（登録商標）のＳｉｒｉ（登録商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）のＣｏｒｔａｎａ（登録商標）、ＧＯＯＧＬＥ（登録商標）のＡｓｓｉｓｔａｎｔなど）は、それぞれの音声サービスを開始するため、それぞれ異なるウェイクワードを使用している。複数のサービスをサポートするため、ウェイクワードエンジン５７０は、サポートされている各音声サービスのウェイクワード検出アルゴリズムを通して、受信したオーディオを並行して実行してもよい。そのような実施形態では、ネットワークマイクロフォンデバイス１０３は、音声入力を適切な音声アシスタントサービスに渡すように構成されたＶＡＳセレクタコンポーネント５７４を含んでもよい。他の実施形態では、ＶＡＳセレクタコンポーネント５７４は省略してもよい。ある実施形態では、ＭＰＳ１００の個々のＮＭＤ１０３は、それぞれのＶＡＳに関連した個々に異なるウェイクワード検出アルゴリズムを実行するように構成されてもよい。例えば、リビングルームの再生装置１０２ａ、１０２ｂのＮＭＤは、ＡＭＡＺＯＮ（登録商標）のＡＬＥＸＡ（登録商標）に関連付けられ、対応するウェイクワード検出アルゴリズムを実行するように構成されていてもよく（例えば、ウェイクワード「Ａｌｅｘａ」または他の関連するウェイクワードを検出するように構成されている）、一方、キッチンの再生装置１０２ｆのＮＭＤは、ＧＯＯＧＬＥのアシスタントに関連付けられ、対応するウェイクワード検出アルゴリズムを実行するように構成されていてもよい（例えば、ウェイクワード「ＯＫ，Ｇｏｏｇｌｅ」または他の関連するウェイクワードを検出するように構成されている）。

いくつかの実施形態では、ネットワークマイクロフォンデバイスは、特定のユーザの認識または家庭に関連する複数のユーザを認識するように訓練された音声認識を実行することなどにより、音声処理をさらに容易にするように構成された音声処理コンポーネントを含むことができる。音声認識ソフトウェアは、特定の音声プロファイルに合わせて調整可能な音声処理アルゴリズムを実装することができる。

動作において、１つまたは複数のバッファ５６８（そのうちの１つまたは複数は、メモリ２１３（図２Ａ）の一部であってもよいし、メモリ２１３とは別個であってもよい）は、検出されたサウンドＳＤに対応するデータをキャプチャする（取り込む）。より具体的には、１つまたは複数のバッファ５６８は、上流側にあるＡＥＣ５６４および空間プロセッサ５６６によって処理され検出されたサウンドデータを捕捉する。

一般に、検出されたサウンドのデータは、マイクロフォン２２２によって検出されたサウンドのデジタル信号ＳＤＳ（すなわち、サウンドデータストリーム）を形成する。実際には、サウンドデータストリームＳＤＳは様々な形態をとる。一例としては、サウンドデータストリームＳＤＳはフレームで構成されてもよく、フレームの各々は１つ以上のサウンドサンプルを含んでもよい。フレームは、ＮＭＤ５０３のウェイクワードエンジン５７０および音声抽出器５７２などの下流側のコンポーネントによる更なる処理のために、１つまたは複数のバッファ５６８からストリーミングされてもよい（すなわち、読み出される）。

ある実施形態では、少なくとも１つのバッファ５６８は、最も最近に捕捉された検出サウンドデータの所定の量（すなわち、所定のウィンドウ）が少なくとも1つのバッファ５６８に保持される一方で、古い検出サウンドデータがウィンドウから外れたときに上書きされ、このようなスライディングウィンドウアプローチを利用して検出サウンドデータを捕捉する。例えば、少なくとも１つのバッファ５６８は、ある期間でサウンドの標本として２０フレームを一時的に保持することができ、期間終了後に最も古い一つのフレームを廃棄し、その後、新しい一つのフレームをキャプチャして、１９個あるサウンドの標本に続いて新しいフレームを追加することができる。

実際には、サウンドデータストリームＳＤＳが複数のフレームで構成されている場合、それらのフレームは、様々な特徴を持つ様々な形態をとることができる。１つの可能性として、フレームは、サンプリングレート（例えば、４４，１００Ｈｚ）に基づいた所定の分解能（例えば、１６ビットの分解能）を有するオーディオフレームの形態をとることができる。さらに、または代替的に、フレームは、フレームが定義する所定の音響標本に対応する情報、例えば、所定の音響標本の周波数応答、電力入力レベル、Ｓ／Ｎ比、マイクチャネルの識別、および/または他の情報を示すメタデータ等を含んでもよい。したがって、ある実施形態では、フレームは、サウンドの部分（例えば、所定のサウンドの標本の１つ以上のサンプル）と、そのサウンドの部分に関するメタデータとを含んでもよい。他の実施形態では、フレームは、サウンドの一部分のみ（例えば、所定のサウンドの標本の１つ以上のサンプル）またはサウンドの一部分に関するメタデータのみを含んでもよい。

音声プロセッサ５６０はまた、少なくとも１つのルックバックバッファ５６９を含み、これは、メモリ２１３（図２Ａ）の一部であってもよいし、メモリ２１３とは別であってもよい。動作において、ルックバックバッファ５６９は、マイクロフォン２２２から受信した検出サウンドデータＳＤに基づいて処理されたサウンドのメタデータを格納することができる。上述したように、マイクロフォン２２４は、アレイ状に配置された複数のマイクロフォンを含むことができる。サウンドメタデータは、例えば以下のものを含むことができる。（１）アレイの個々のマイクロフォンの周波数応答データ、（２）エコーリターンロス強化指標（すなわち、各マイクロフォンの音響エコーキャンセラー（ＡＥＣ）の有効性の指標）、（３）音声方向指標、（４）アービトレーション統計（例えば、異なるマイクロフォンに関連する空間処理ストリームの信号と雑音の推定値）、および／または（５）音声スペクトルデータ（すなわち、音響エコーキャンセレーションおよび空間処理が実行された後に処理された音声出力で評価された周波数応答）。また、検出されたサウンドデータＳＤのノイズを識別および／または分類するために、他のサウンドメタデータが使用されることもある。ある実施形態では、ルックバックバッファ５６９からネットワークインターフェース２２４に延びる矢印で示される様に、サウンドメタデータは、サウンドデータストリームＳＤＳとは別に送信されてもよい。例えば、サウンドメタデータは、ルックバックバッファ５６９から、サウンドデータストリームＳＤＳを受信するＶＡＳとは別の１つまたは複数のリモートコンピューティングデバイスに送信されてもよい。ある実施形態では、例えば、以下で詳しく説明するように、ノイズ分類器を構築または修正するため、また分析のために、メタデータをリモートサービスプロバイダに送信することができる。

図７～図１３でより詳細に説明するように、ある実施形態では、リモートコンピューティングデバイス１０６ｃまたはローカルＮＭＤ５０３は、サウンドデータストリームＳＤＳの下流側での処理に影響を与える（例えば、悪影響を与える）可能性のあるノイズを識別および／または分類するために、サウンドメタデータに対して追加の計算を実行することができる。

いずれにしても、ＮＭＤ５０３の構成要素であって、音声処理装置５６０の下流側にあるものは、サウンドデータストリームＳＤＳを処理してもよい。例えば、ウェイクワードエンジン５７０は、１つ以上の識別アルゴリズムをサウンドデータストリームＳＤＳ（例えば、ストリームされたサウンドフレーム）に適用して、検出されたサウンドＳＤ内の潜在的なウェイクワードを検出するように構成することができる。ウェイクワードエンジン５７０が潜在的なウェイクワードを検出すると、ウェイクワードエンジン５７０は、「ウェイクワードイベント」（「ウェイクワードトリガー」とも呼ばれる）の指示を信号ＳＷの形で音声抽出器５７２に提供することができる。

ウェイクワードイベントに応答して（例えば、ウェイクワードイベントを示すウェイクワードエンジン５７０からの信号ＳＷに応答して）、音声抽出器５７２は、サウンドデータストリームＳＤＳを受信してフォーマットする（例えば、パケット化する）ように構成される。例えば、音声抽出部５７２は、サウンドデータストリームＳＤＳのフレームをメッセージにパケット化する。音声抽出器５７２は、音声入力を含む可能性のあるこれらのメッセージＭＶを、ネットワークインターフェース２１８を介して、ＶＡＳ１９０（図１Ｂ）などのリモートＶＡＳにリアルタイムまたはほぼリアルタイムで送信またはストリーミングする。

ＶＡＳは、ＮＭＤ５０３から送信されたメッセージＭＶに含まれるサウンドデータストリームＳＤＳを処理するように構成されている。具体的には、ＶＡＳは、サウンドデータストリームＳＤＳに基づいて、音声入力を識別するように構成されている。図６Ａによると、音声入力６８０は、ウェイクワード部分６８０ａおよび声の発話部分６８０ｂを含んでいる。ウェイクワード部分６８０ａは、ウェイクワードイベントの原因となった検出音に対応している。例えば、ウェイクワード部分６８０ａは、ウェイクワードエンジン５７０がウェイクワードイベントの指示を音声抽出器５７２に提供する原因となった検出音に対応する。発話部６８０ｂは、ウェイクワード部分６８０ａに続く、ユーザの要求を構成すると思われる部分の検出されたサウンドに対応する。

例として、図６Ｂは、例示的な第１の音標本を示す。この例では、音標本は、サウンドデータストリームＳＤＳ（例えば、１つまたは複数のオーディオフレーム）の内の図６Ａのウェイクワード６８０ａの部分に対応する。図示されているように、例示された第１の音標本は、再生装置１０２ｉの環境で検出された音から構成され、（ｉ）ウェイクワードが話される直前の部分（時刻ｔ０とｔ１の間）、（ｉｉ）ウェイクワードが話されている間の部分（時刻ｔ１とｔ２の間）、および／または（ｉｉｉ）ウェイクワードが話された後の部分（時刻ｔ２とｔ３の間）を有する。他の音標本も可能である。

通常、ＶＡＳは、最初に、サウンドデータストリームＳＤＳ内のウェイクワード部分６８０ａを処理して、ウェイクワードの存在を検証することができる。場合によっては、ＶＡＳは、ウェイクワード部分６８０ａが偽のウェイクワードを含むと決定することができる（例えば、単語「アレクサ」がターゲットウェイクワードである場合の単語「エレクション」）。そのような場合、ＶＡＳは、ＮＭＤ５０３（図５）に応答を送信し、ＮＭＤ５０３が音声データの抽出を停止するように指示することができ、これにより、音声抽出器５７２は、検出された音声データのさらなるストリーミングをＶＡＳに送ることを停止することができる。ウェイクワードエンジン５７０は、別の潜在的なウェイクワードを見つけて別のウェイクワードイベントが開始されることを期待して、サウンドの標本を捕えてモニタリングを再開または継続することができる。

ある実装形態では、ＶＡＳは、ウェイクワード部分６８０ａを処理または受信せず、代わりに、発話部分６８０ｂのみを処理することができる。単語は、特定のコマンドおよび特定のキーワード６８４（図６Ａにおける、第１のキーワード６８４ａおよび第２のキーワード６８４ｂとして個別に識別される）に対応し得る。キーワードは、例えば、ＭＰＳ１００内の特定のデバイスまたはグループを特定する音声入力６８０内の単語であり得る。例えば、図示した例では、キーワード６８４は、「リビングルーム」や「ダイニングルーム」など、音楽が再生される１つまたは複数のゾーンを特定する１つまたは複数の単語であり得る（図１Ａ）。

単語の意図を決定するために、ＶＡＳは、通常、１つまたは複数のデータベース（図示せず）であって、ＶＡＳ（図示せず）と関連したデータベースおよび／またはＭＰＳ１００と関連したデータベースと通信する。そのようなデータベースは、自然言語処理および／または他の処理のための様々なユーザーデータ、分析、カタログ、および他の情報を格納することができる。ある実装形態では、そのようなデータベースは、音声入力処理に基づくニューラルネットワークの適応学習およびフィードバックのために更新され得る。場合によっては、発話部分６８０ｂは、図６Ａに示されるように、ユーザによって話された単語間で検出された休止（例えば、非発話の期間）などの追加情報を含み得る。休止は、発話部分６８０ｂ内でユーザによって話された別個のコマンド、キーワード、または他の情報の位置を区切ることができる。

特定のコマンド基準に基づいて、ＶＡＳは、コマンド６８２などの音声入力内の１つまたは複数のコマンドを識別した結果としてアクションをとることができる。コマンド基準は、音声入力内の特定のキーワード群に含まれているものに基づく場合があり、他の可能性もある。さらに、または代わりに、コマンドのコマンド基準は、１つまたは複数の特定のコマンドの識別と併せて、１つまたは複数の制御状態変数および／またはゾーン状態変数の識別に係ることもある。制御状態変数は、例えば、音量のレベルを識別するインジケータ、１つまたは複数のデバイスに関連付けられたキューを識別するインジケータ、およびデバイスがキューを再生しているか、一時停止しているかなどの再生状態を識別するインジケータ含み得る。ゾーン状態変数には、たとえば、どのゾーンプレーヤーがグループ化されているかを識別するインジケータが含まれる場合がある。

音声入力を処理した後、ＶＡＳは、音声入力から決定された意図に基づいて１つまたは複数のアクションを実行するための命令を伴う応答をＭＰＳ１００に送信することができる。例えば、音声入力に基づいて、ＶＡＳは、ＭＰＳ１００に指示して、再生デバイス１０２のうちの１つまたは複数で再生を開始すること、これらのデバイスのうちの１つまたは複数を制御すること（例えば、音量を上げる／下げる、デバイスをグループ化する／グループ解除する、など）、特定のスマートデバイスをオン／オフすること、その他のアクションを実行することができる。ＶＡＳからの応答を受信した後、ウェイクワードエンジン５７０、ＮＭＤ５０３は再稼働して、上記のように、別の潜在的なウェイクワードを発見するまで、サウンドデータストリームＳＤＳを監視し続けることができる。

図５を参照すると、マルチＶＡＳの実装では、ＮＭＤ５０３は、ＶＡＳセレクタ５７４（破線で示す）を含んでいてもよい。ＶＡＳセレクタ５７４は、一般に、音声抽出器による音声データストリームＳＤＳの抽出および送信を適切なＶＡＳに指示するように構成される。この指示は、あるウェイクワードが、第１のウェイクワードエンジン５７０ａ、第２のウェイクワードエンジン５７０ｂ、または追加のウェイクワードエンジン５７１などの特定のウェイクワードエンジンによって識別されたときになされる。そのような実施形態では、ＮＭＤ５０３は、複数の異なるウェイクワードエンジンおよび／または音声抽出器を含むことができ、各ウェイクワードエンジンや音声抽出器は特定のＶＡＳによってサポートされる。上記の議論と同様に、各ウェイクワードエンジンは、１つまたは複数のバッファ５６８からサウンドデータストリームＳＤＳを入力として受信し、識別アルゴリズムを適用して、適切なＶＡＳに対してウェイクワードトリガーを引き起こすように構成される。したがって、一例として、第１のウェイクワードエンジン５７０ａは、ウェイクワード「アレクサ」を識別し、「アレクサ」が検出されたときにＮＭＤ５０３にＡＭＡＺＯＮ用のＶＡＳを呼び出させるように構成される。別の例として、第２のウェイクワードエンジン５７０ｂは、ウェイクワード「オーケー、グーグル」を識別し、「オーケー、グーグル」が検出されたときにＮＭＤ５０３にＧＯＯＧＬＥ用のＶＡＳを呼び出すように構成される。ＶＡＳが一つしかない実施形態では、ＶＡＳセレクタ５７４は省略される。

追加のまたは代替の実装形態では、ＮＭＤ５０３は、リモートＶＡＳの支援なしにＮＭＤ５０３が動作する他の音声入力識別エンジン５７１（破線で示される）を含む。一例として、そのようなエンジンは、検出されたサウンド内において、特定のコマンド（例えば、「再生」、「一時停止」、「オンにする」など）や特定のキーワードまたはフレーズ、例えば、ある再生装置に割り当てられたユニークな名前（「本棚」、「パティオ」、「オフィス」など）を識別することができる。これらのコマンド、キーワード、および／またはフレーズの１つまたは複数を識別することに応答して、ＮＭＤ５０３は、音声処理コンポーネント２１６（図２Ａ）に１つまたは複数のアクションを実行させる信号（図５には示されていない）を通信することができる。例えば、ユーザが「ねえソノス、オフィスでの音楽を止めなさい」と言えば、ＮＭＤ５０３は、信号を、直接的に、またはＭＰＳ１００の他の１つまたは複数のデバイスを介して間接的に、オフィス再生デバイス１０２ｎに伝達し、オフィスデバイス１０２ｎはオーディオ再生を停止する。リモートＶＡＳからの支援の必要性を減らすかなくすと、音声入力をリモートで処理するときに発生する可能性のある遅延を減らすことができる。使用される識別アルゴリズムによっては、先行するウェイクワードが含まれることなく話されたコマンドを識別するように構成することもできる。例えば、上記の例では、ＮＭＤ５０３は、ユーザが最初に「ねえソノス」または別のウェイクワードを言わずに、オフィスで音楽を停止するイベントをトリガーする識別アルゴリズムを採用することができる。

III.ノイズ分類に基づいてＮＭＤ操作を変更するためのシステムと方法の例
動作において、ＮＭＤは、交通、器具（例えば、ファン、流し、冷蔵庫など）、建設、干渉するスピーチなどの様々な異なるタイプのノイズにさらされる可能性がある。このようなノイズが存在する場合にキャプチャされたオーディオ入力をより適切に分析するには、オーディオ入力のノイズを分類することが望まれる。異なるノイズ源は異なるサウンドを生成し、それらの異なるサウンドはサウンドメタデータ（例えば、周波数応答、信号レベルなど）について異なった特性を有する。さまざまなノイズソースに関連付けられたさまざまなサウンドメタデータには、あるノイズソースを別のノイズソースから区別するシグネチャ（個性）を認めることができる。したがって、サウンドメタデータを分析し、異なるシグニチャを識別することにより、異なるノイズ源を分類することができる。図７は、４つのノイズ源に関連して分析されたサウンドメタデータを示す。左上のプロットは、ＮＭＤから３フィート離れ、高い位置に設定されたファンのノイズであり、右上のプロットは環境ノイズであり、左下のプロットは、ＮＭＤから３フィート離れたランニングシンク（流し台）のノイズであり、右下のプロットは、ＮＭＤから3フィート離れたところにある料理の焼ける音である。ある実施形態では、プロットに表示されるこれらのシグネチャは、信号の主要成分の分析を使用して生成することができる。図１０～図１３により詳細に説明するように、種々のＮＭＤから収集されたデータは、可能な周波数応答スペクトルの全体的な分布を提供することができる。一般的に、主要成分の分析（ＰＣＡ）を用いて、すべてのフィールドデータの分散を記述する直交基底を見つけることができる。この固有空間は、図７のプロットに示されている等高線に反映されている。プロットにおける各ドットは、固有空間に投影される既知のノイズ値（たとえば、注目のノイズ源にさらされたＮＭＤからの単一の周波数応答スペクトル）を表わす。図７に示すように、これらの既知のノイズ値は、固有空間に投影されるとクラスター化され、さまざまなノイズ源に対してさまざまに異なるシグネチャ分布を生成する。以下でより詳細に説明するように、このノイズの分類を使用して、ＮＭＤのパフォーマンスを向上させることができる。

上述したように、ＮＭＤ５０３などのネットワークマイクロフォンデバイスは、ＮＭＤの１つまたは複数のマイクロフォンによって捕捉された検出サウンドにおける音声入力の識別および処理に影響を与える種々の調整可能なパラメータを有することができる。検出されたサウンドに含まれるノイズを分類したことに応じて、これらのパラメータの１つまたは複数を変更し、デバイスの性能を向上させることができる。例えば、検出されたサウンドに含まれるノイズを分類することに対応して、処理中のサウンドデータに適用されるゲインを上げたり下げたりする調整をして、音声検出を向上させることができる。ある例では、ＮＭＤは、検出されたサウンドデータのノイズを分類することに基づいて、食洗器が動作していることを検出することができる。これに応答して、ＮＭＤは、ＮＭＤを介して再生される音声のゲインを上げるか、又は音量レベルを上げてもよい。ＮＭＤが、食洗器がもはや実行されていないことを検出すると（例えば、検出されたサウンドデータにおいてそれまで分類されていたノイズをもはや識別しないことにより）、再生が以前の音量レベルに戻るように、ゲインレベルを下げることができる。

もう１つの調整可能なパラメータはノイズ低減であり、例えば、ＮＭＤがサウンドデータまたはサウンドデータストリームを処理してノイズを低減したり、Ｓ／Ｎ比を改善したりする範囲を変更することができる。また、ＮＭＤは、（例えば、図５のＡＥＣ５６４の動作を変更することで）アコースティックエコーキャンセレーション（ＡＥＣ）パラメータを変更したり、音声プロセッサ５６０や他のＮＭＤコンポーネントの他のパラメータを変更したりしてもよい。さらに別の例として、ＮＭＤの空間処理アルゴリズムを変更してもよい。例えば、音声処理パスは、ノイズの少ない環境のためにマイクチャンネルの数を減らすことができる。特に、ＮＭＤが、検出されたサウンドデータに低レベルのノイズが存在すると判断した場合、ＮＭＤの１つまたは複数のマイクをオフにしたり、電源を落としたり、またはその他の方法で破棄して、下流側の処理がそれらのマイクからの入力に依存しないようにすることができる。ある側面では、マイクロフォンチャネルの数を減らすことで、計算資源の需要を減らし、節約することができる。これに関連して、計算機資源を節約することで、これらの資源を他の資源、例えば、ＮＭＤに搭載されているか、または他の方法で結合されている追加のウェークワードエンジンをサポートするために使用することができる。その後、ＮＭＤがノイズレベルの上昇を検出した場合（例えば、ＮＭＤが検出されたサウンドデータの中に特定のノイズを識別した場合）、非活性化されたマイクロフォンの一部またはすべてが再び活性化されることがある。ＮＭＤの１つまたは複数のマイクロフォンの選択的な非活性化に関する詳細な説明は、米国出願第１６／１４７，７１０号に記載されており、参照することによりその全体が本明細書に組み込まれる。

別の調整可能なパラメータは、ウェイクワード検出感度パラメータである。例えば、ウェイクワードエンジン５７０（または追加のウェイクワードエンジン５７１のいずれか）は、音声入力中のウェイクワードを識別するための感度または閾値を調整する１つまたは複数のパラメータを有してもよい。このパラメータを調整することで、分類されたある種のノイズが存在する場合のＮＭＤ性能を向上させることができる。閾値を下げる（または感度を上げる）と、偽陽性の割合が増え、偽陰性の割合が減る。逆に、しきい値を上げる（感度を下げる）と、偽陽性の割合が減り、偽陰性の割合が増える。ウェークワード検出感度パラメータを調整することで、ＮＭＤが経験する特定のノイズ条件に応じて変化する、偽陰性率と偽陽性率の間の適切なトレードオフを達成することがでる。

上記のパラメータに加えて、または代わりに、ある実施形態では、ＮＭＤは、分類されたある種のノイズの存在下で音声入力を検出および処理する際の性能を向上させるために、空間処理アルゴリズムを変更する（例えば、図５の空間プロセッサ５６６の動作を変更する）ことができる。ある実施形態において、空間処理アルゴリズムは、１つまたは複数のマルチチャネルウィナーフィルタ、その他のフィルタ、および／または１つまたは複数のビームフォーミングアルゴリズムを含むことができ、これらの詳細は、例えば、先に参照した米国特許の出願番号１５／９８４，０７３および１６／１４７，７１０に記載されている。１つの可能性として、空間プロセッサ５６６は、音声を他の音から区別するメトリクスをモニタすることができる。このようなメトリクスには、例えば、背景雑音に対する音声帯域内のエネルギーや、音声帯域内のエントロピー（スペクトル構造の測定値）が含まれ、これらは、一般的な背景雑音よりも音声では一般的に低い。ある実装形態では、空間プロセッサ５６６は、音声存在確率を決定するように構成されてもよい。これらの指標に関連する閾値または係数（例えば、特定の帯域内のエネルギー、エントロピーなど）は、分類されたある種のノイズがある場合に音声入力を検出して処理する際のＮＭＤの性能を向上させるために調整することができる。例えば、冷蔵庫のブーンという音がノイズとして識別され、ＮＭＤによって分類される。この分類に対応して、マルチチャネルウィーナーフィルタの空間処理アルゴリズムの１つまたは複数のパラメータを調整して、このノイズの存在下でのＮＭＤのパフォーマンスを向上させることができる。このようなパラメータには、マルチチャンネルウィナーフィルタのノイズ除去部分のスペクトルフロアを反映した最小ゲインを含めることができる。マルチチャンネルウィナーフィルタの他のパラメータを変更することで、ＮＭＤの性能を向上させることができる。

種々の実施形態において、ＮＭＤの性能パラメータは、個々のデバイスの個性に応じて、家庭または環境（例えば、ある家庭内のすべてのＮＭＤを一まとめにした環境）に応じて、または人の密集状態（例えば、所定の地域のすべてのＮＭＤを一まとめにした状態）に応じて調整することができる。詳細は後述するが、１つ以上のＮＭＤ性能パラメータは、サウンドメタデータを用いて導き出されるノイズの分類に基づいて変更することができる。サウンドメタデータは、ＮＭＤの個々のマイクロフォンを介して得られたサウンドデータＳＤから、および／または、ボイスプロセッサ５６０（図５）によって提供されたサウンドデータストリームＳＤＳから得ることができる。サウンドメタデータは、以下を含む：（１）周波数応答データ；（２）エコー・リターン・ロス・エンハンスメント・メジャー（音響エコーキャンセラー（ＡＥＣ）の効果を示す指標）；（３）音声方向の測定値；（４）アービトレーション統計値（例えば、異なるマイクロフォンに関連する空間処理ストリームの信号およびノイズの推定値）、および／または（５）音声スペクトルデータ（すなわち、音響エコーキャンセレーションと空間処理が実行された後に処理された音声出力で評価された周波数応答）。

図８Ａは、ノイズを分類し、ネットワークマイクロフォンデバイスのパフォーマンスを修正するための例示的な方法８００を示す。方法８００は、ブロック８０２で、ＮＭＤがＮＭＤの個々のマイクロフォンによりサウンドを検出する。次に、方法８００はブロック８０４に進み、ＮＭＤは検出されたサウンドを少なくとも第１のバッファに取り込む。例えば、キャプチャしたサウンドをサウンドデータＳＤとしてバッファ（複数可）５６８（図５）に格納する。

ブロック８０６において、ＮＭＤは、サウンドデータに関連するメタデータを少なくとも第２のバッファに取り込む。例えば、サウンドメタデータは、ルックバックバッファ５６９（図５）や、ＮＭＤに関連する他のメモリに格納することができる。上述したように、ユーザのプライバシーを守るため、オリジナルのオーディオコンテンツ（例えば、録音された音声そのもの内容やその他の検出されたサウンドデータそのもの）を明らかにしないサウンドメタデータのみに頼ることが有効である。このようなサウンドメタデータの例としては以下を含む。（１）周波数応答データ；（２）エコー・リターン・ロス・エンハンスメント・メジャー；（３）音声方向の測定値；（４）アービトレーション統計値；（５）音声スペクトルデータ。また、他のサウンドメタデータもキャプチャされ、第２バッファに保存される。

次に、方法８００は、ブロック８０８において、検出された音を分析してトリガイベントを検出する。ある実施形態では、トリガーイベントは、ウェイクワードの検出である。ウェイクワードは、例えば、上述したウェイクワードエンジン５７０（図５）を介して検出することができる。ある実施形態では、トリガーイベントは他の形態をとることができる。例えば、トリガーイベントは、いくつかの指定された特性を有するオーディオ信号（例えば、検出されたオーディオの音量が所定の閾値以上であるオーディオ信号、検出された長さが所定の長さの時間であるオーディオ信号、など）の検出であることができる。

トリガーイベントを検出した後、方法８００は、ブロック８１０において、ＮＭＤを介して音声入力を抽出する。例えば、音声抽出器５７２（図５）は、サウンドデータのストリームを受信し、ネットワークインタフェースを介してリモートＶＡＳまたは他のリモートコンピューティングデバイスにリアルタイムまたはほぼリアルタイムで送信されるようにメッセージにフォーマット（例えば、パケット化）する。

方法８００のブロック８１２では、検出された音の中のノイズを分類するために、サウンドのメタデータを分析する。この分析は、ＮＭＤがローカル（自分自身）で行うこともでき、又は１つ以上のリモートコンピューティングデバイスでリモートに（遠隔的に）行うこともできる。ある実施形態では、ブロック８１２の分析は、ブロック８０８のトリガー・イベント検出と同時に行うことができる。別の実施形態では、ブロック８１２での分析は、ブロック８０８でトリガーイベントが検出された後にのみ行われる。

サウンドメタデータの分析は、サウンドメタデータの１つまたは複数の特徴を、既知のノイズの基準値と比較すること、または既知のノイズのサンプル集団データと比較することができる。例えば、信号レベル、周波数応答スペクトルなどのサウンドメタデータのあらゆる特徴は、ノイズの基準値や、サンプル集団を収集し平均した値と比較することができる。ある実施形態では、サウンドメタデータの分析は、ＮＭＤの集団から寄せ集められた周波数応答スペクトルに対応する固有空間に、周波数応答スペクトルを投影することを含む（図１０～図１３でより詳細に説明する）。少なくともある実施形態では、周波数応答スペクトルを固有空間に投影することは、下流側の分類を容易にするための前処理ステップとして実行できる。ある実施形態では、サウンドメタデータを使用してノイズを分類するため、種々の異なる技術を使用することができ、例えば、決定木を使用した機械学習、またはベイジアン（Ｂａｙｅｓｉａｎ）分類器、ニューラルネットワーク、または他の任意の分類技術を使用することができる。更に、代替的または追加的に、Ｋ－Ｍｅａｎｓクラスタリング、Ｍｅａｎ－Ｓｈｉｆｔクラスタリング、期待値最大化クラスタリング、または他の適切なクラスタリング技術など、さまざまなクラスタリング技術を使用することができる。

ある実施形態では、ノイズ基準サンプルは、制御された条件下でサンプルをキャプチャする（例えば、ＮＭＤに対して異なる位置にあるファンからのオーディオ入力をキャプチャする）ことによって、または既知のノイズ条件を模倣するように設計されたシミュレーションから得ることができる。また、別の方法として、ユーザが入力した情報をもとに、ノイズリファレンスサンプルを取得することもできる。例えば、キッチンのシンクをつける、天井のファンをつけるなど、あらかじめ特定された音を発生させるように、ユーザが（例えば、制御装置１０４を介して）指示され、ＮＭＤ５０３は、発生されるオーディオ入力を記録することができる。ユーザの操作により発生させた異なる条件下でのオーディオ入力をキャプチャすることで、種々のノイズ基準値を取得し、ＮＭＤ５０３にローカルとして、またはコンピューティングデバイスにリモートとして保存することができる。

図８Ｂおよび図８Ｃは、事前に特定されたノイズを生成し、ノイズ測定値をユーザ入力として受信するためのコントローラインタフェースを示す。図８に示すように、特定のＮＭＤ（ここでは「プレーヤーＡ」）について、ユーザはあらかじめ入力された集合リストの中からデバイスの位置を選択することができる。特定の場所（例えば「キッチン」）が選択されると、様々な潜在的なノイズの源が、ユーザによって選択可能なオプションとして表示される。図８Ｂに示すように、「キッチン」に関連するノイズオプションの例は、「蛇口」、「換気扇」、「皿洗い器」、「その他」である。同様に、他の場所については他の関連するノイズオプションがあり、例えば「ガレージ」については、ガレージドアの開閉、ガレージ用の洗濯機等がある。

更に、ユーザが選択したノイズ源に加えて、ある異なる場所に対しては、可能性の高いノイズ源が関連付けされており、用途選択が必要とされない場合もある。例えば、ユーザがＮＭＤの位置としてキッチンを指示した場合、当然に検出されるサウンドとして、油などの食材を切る調理音や、冷蔵庫の扉を閉める音など、キッチンに関連する音が含まれる。同様に、他の位置では、その場所に固有と思われる他の関連ノイズを持つことができ、例えば、子供部屋では子供の声、バスルームではトイレの水流の音などがある。ＮＭＤの位置を特定することで、ユーザは種々の機器で検出されるべきノイズを分類するための追加の関連情報を準備しておくことができる。

図８Ｃでは、ユーザがコントローラインタフェースを介してノイズ源として「蛇口」を選択している。この選択に続いて、ユーザは蛇口をオンにするよう促される。すると、ユーザはノイズの発生を開始したことを示すと（例えば、ユーザが蛇口をひねると）、ＮＭＤはサウンドデータおよび／またはメタデータを収集する。このデータは蛇口によるノイズとして関連付けされるので、このＮＭＤや他の機器において、今後のオーディオ入力に含まれるノイズの分類を助けるために使用することができる。ある実施形態においては、ユーザは、指定された音（例えば、蛇口をひねることによる音）を何回も、そして異なる条件下で繰り返すように促されてもよい。さらに、ノイズ源に関連する追加情報、例えば、ノイズ源が発生されると思われる頻度（「皿洗い器をどのくらいの頻度で動かすか」など）、特定の家電製品のメーカやモデルなどについて、ユーザに質問し応答を受けるようにすることができる。このような情報やその他の関連情報は、図８Ｂおよび図８Ｃに示すように、ユーザがコントローラインタフェースを介してやり取りすることができる。このようにしてオーディオ入力をキャプチャすると、既知のノイズリファレンスとして、ローカルなＮＭＤに、またはリモートのコンピューティングデバイスに保存することができるため、収集した情報はノイズ分類の改善に使用することができる。

図８Ａに戻り、方法８００のブロック８１４において、ＮＭＤの性能はブロック８１２における評価に基づいて修正される。ＮＭＤの修正は、分類されたノイズに応じて様々な形で行われる。例えば、デバイスの修正には、再生音量の調整、固定ゲインの調整、ノイズリダクションパラメータの変更、ウェイクワード検出感度パラメータの変更、空間処理アルゴリズムの調整などが含まれる。ある実施形態においては、ＮＭＤは、特定の分類されたノイズに応じて種々の性能パラメータを変更するように構成することができる。

ブロック８１６では、ブロック８１２で得られた特定のノイズ分類に基づいて、ノイズ分類器を更新することができる。詳細は後述するが、ノイズ分類器は、検出されたサウンドデータやメタデータに含まれるさまざまなタイプのノイズを識別するように構成されたニューラルネットワークやその他の数学的モデルを含むことができる。このようなノイズ分類器は、学習と評価のための利用可能なデータを増やすことで改善することができる。したがって、多数のＮＭＤからノイズデータを取得し、新たなノイズ分類やその他のノイズデータを取得するたびに、ノイズ分類器の更新や修正を行うことができる。また、多数のＮＭＤから収集したデータを用いることで、個々のノイズの相対的な優劣を評価し、ノイズ分類器の更新に利用することができる。ある実施形態では、メタデータがノイズ分類器に有用な追加情報を提供しない場合や、メタデータが異常と思われる場合など、ブロック８１２で得られた分類に基づいてノイズ分類器を更新しない場合もある。

図９は、例示的なノイズ分類およびマイクロフォン適応の機能フローチャート９００である。フローチャート９００は、ＮＭＤ５０３上で発生する機能だけでなく、例えば、以下でより詳細に説明するように、ノイズ分類のためのサウンドメタデータの遠隔評価および処理を行うことができる遠隔コンピューティングデバイス（複数可）１０６ｃ上で発生することができる機能を示している。一例として、リモートコンピューティングデバイス１０６ｃは、１つまたは複数のＳＯＮＯＳＷｉｒｅｌｅｓｓＨｉＦｉＳｙｓｔｅｍのクラウドサーバーを提供する。少なくともある実施形態では、フローチャート９００に描かれた機能のいずれかまたはすべてを、リモートコンピューティングデバイス１０６ｃではなく、ＮＭＤ５０３で実行することができる。

ＮＭＤ５０３から始まり、個々のマイクロフォン２４２ａ～２４２ｎで構成されるアレイは、サウンドを検出し、複数のチャネル（例えば、各マイクロフォンに対応するチャネルを集めた複数のチャンネル）を介して音声プロセッサ５６０にサウンドデータを送る。図５で説明したように、音声プロセッサ５６０は、ルックバックバッファ５６９に加えて、１つまたは複数のバッファ５６８を含むことができる。また、音声処理装置５６０は、ＡＥＣ５６４と空間プロセッサ５６６を含む。マイクロフォン２４２ａ～２４２ｎは、ＮＭＤ５０３が置かれている環境下でサウンドを検出する。一例では、マイクロフォン（複数可）２４２ａ～２４２ｎは、ＮＭＤ５０３に向かって来る１つ以上の方向からのオーディオを検出するように配置されている。マイクロフォン２４２ａ～２４２ｎは、さらに、オーディオ源（例えば、音声、聞き取り可能な音）の位置情報を捕捉するように設定され、および／または識別されたノイズのフィルタリングを支援するよう設定される。

音声プロセッサ５６０は、マイクロフォン２４２a～２４２ｎのそれぞれからのサウンドデータを、所定の時間のインターバルで１つ以上のバッファに格納することができる。例えば、ある実施形態では、音声プロセッサ５６０には、５秒未満、４秒未満、３秒未満、２秒未満、または１秒未満の間、バッファに上書きしつつなどしてサウンドデータを保存する。ある実施形態では、音声プロセッサ５６０は、スライディングウィンドウアプローチを利用して、最新に検出されたサウンドデータを所定の量（すなわち、所定のウィンドウに入る量）だけを少なくとも１つのバッファ５６８に保持される一方、古いサウンドデータはウィンドウから外れるときは上書きされてしまうようにサウンドデータを捕捉するバッファ（例えば、バッファ５６８）を含む。例えば、少なくとも１つのバッファ５６８は、所定の時間にサウンド標本の２０フレームを一時的に保持し、満了時間後に最も古いフレームを廃棄し、その後、新しいフレームをキャプチャし、そのフレームを現に存在する１９個のサウンド標本の最後に追加することができる。

音声プロセッサ５６０は、音データストリームをブロック９０５に出力し、イベントトリガが実行される。ここで、ＮＭＤ５０３は、サウンドデータストリームを評価して、所定のトリガーイベントを検出する。例えば、ブロック９０５でのトリガーイベントの検出は、サウンドデータストリームにおけるウェイクワードの検出（例えば、図５に示すウェイクワードエンジン５７０を使用しての検出）である。ある実施形態では、トリガーイベントは他の形態をとることができる。例えば、トリガーイベントの検出は、何らかの特別な特性を持つオーディオ信号の検出（例えば、所定の閾値を超えるオーディオレベルの検出、所定の時間長さのオーディオ信号の検出など）とすることができる。ブロック９０５でトリガイベントが検出されない場合、音声プロセッサ５６０内で検出されたサウンドデータは、削除、廃棄、または上書きされ、マイクロフォン２４２ａ～２４２ｎは、新たに取得されたサウンドデータを音声プロセッサ５６０に渡し続け、これはブロック９０５でトリガイベントが検出されるまで続けられる。

ブロック９０５でトリガイベントが検出されると、サウンドデータストリームはデバイスの機能としてのブロック９０７に送られる。例えば、ブロック９０５でのトリガーイベントの検出に続いて、ブロック９０７では、複数のＶＡＳのうちの１つを選択することができ、処理された音声をさらなる処理のためにＶＡＳに送信することができ、可聴出力をユーザに提供することができ、関連する再生デバイスに指示を送信することができ、または他の任意の適切な動作を実行することができる。

ブロック９０５においてトリガイベントが検出されると、音声プロセッサ５６０に指示が送られ、音声プロセッサ５６０は、ブロック９０９におけるサウンドメタデータをリモートコンピューティングデバイス１０６ｃに送信することができる。サウンドメタデータ９０９は、マイクロフォン２４２ａ～２４２ｎからのサウンドデータに基づくものである。上述したように、ユーザのプライバシーを守るため、オリジナルのオーディオコンテンツ（例えば、録音された音声入力の内容やその他の検出されたサウンドデータ）を明らかにしないサウンドメタデータのみに頼るようにする。ＮＭＤ５０３は、検出されたサウンドデータから、サウンドメタデータにアクセスしなければ元のサウンドデータを解読できないような方法で、サウンドメタデータを導出することができる。上述したように、サウンドメタデータの例としては、以下を含む。(1)周波数特性データ；（２）エコー・リターン・ロス・エンハンスメント・メジャー（音響エコーキャンセラー（ＡＥＣ）の効果を示す指標）；（３）音声方向の測定値；（４）アービトレーション統計値（例えば、異なるマイクロフォンに関連する空間処理ストリームの信号およびノイズの推定値）、および／または（５）音声スペクトルデータ（すなわち、音響エコーキャンセレーションと空間処理が実行された後に処理された音声出力で評価された周波数応答）。また、検出されたサウンドデータに含まれるノイズを識別および／または分類するために、他のサウンドメタデータが使用しても良い。

ＮＭＤ５０３のブロック９０９から、サウンドメタデータがリモートコンピューティングデバイス１０６ｃのブロック９１１に送信され、そこでクラウド収集が成される。例えば、リモートコンピューティングデバイス１０６ｃは、1つまたは複数のＮＭＤからサウンドメタデータデータを収集することができる。ある実施形態では、リモートコンピューティングデバイス１０６ｃは、ＮＭＤが複数集まった集団からサウンドメタデータを収集することができ、そのような集団からのメタデータは、ノイズを分類し、平均値を導出し、外れ値を識別し、種々にクラス分けされたノイズの存在下でもＮＭＤ５０３の動作を改善するためにＮＭＤ性能パラメータの修正を導くために使用することができる。サウンドメタデータは、サウンドデータから導出されるが、サウンドデータの復元を行わないため、サウンドメタデータのみをリモートコンピューティングデバイス１０６ｃに送信することで、サウンドデータが抽出された実際のオーディオコンテンツを暴露することなく、ＮＭＤの性能を評価することができる。

リモートコンピューティングデバイス１０６ｃのブロック９１３において、サウンドメタデータを分析し、ノイズを分類する。ある実施形態では、サウンドメタデータを分析には、サウンドメタデータの１つまたは複数の特徴を、ノイズの基準値またはサンプル集団の値と比較することを含む。例えば、サウンドメタデータのいずれかの特徴（周波数応答データ、信号レベルなど）は、図１０～図１３で詳細に説明するように、既知のノイズ基準値またはサンプル集団から収集した平均値と比較することができる。ある実施形態では、サウンドメタデータの分析は、リモートコンピューティングデバイス１０６ｃによって実行され評価されるよりも、またはそれとは別に、ブロック９１４に示すように、ＮＭＤによってローカルに実行されても良い。

引き続き図９を参照すると、コンピューティングデバイス１０６ｃのブロック９１５においては、種々のノイズが存在する条件下でも音声入力の検出および処理の改善ができるようにデバイス調整を、その必要性を認識し、モデリングを予測して実行することができる。例えば、仮想テストフレームワークを使って、モンテカルロ法を用いた多数のシミュレーションを行い、現実的にユーザが期待するＮＭＤの性能を提供することができる。種々のノイズ成分（例えば、ノイズの種類（ファン、シンク、トラフィックなど）や、ＮＭＤに対するノイズ源の位置関係などに依存する）が含まれる一連のオーディオ入力に対し、異なる範囲のパラメータ値を持ち、異なる性能が発揮でき、シミュレーション済のＮＭＤで処理することができる。そして、シミュレーション結果に基づいて、最も性能の良いパラメータ値を特定することができる。ある実施形態では、最良の性能が発揮されるパラメータは、少なくとも部分的に、ウェイクワード検出における偽陽性および偽陰性の割合によって決定される。このようにして特定された、性能を左右するパラメータは、実際に用いられるＮＭＤの性能を改善するために使用される。これは、特定の種類のノイズ入力を経験するＮＭＤ（例えば、流水ノイズ、冷蔵庫のノイズ、交通のノイズなどを経験するＮＭＤ）に対してのみ、性能を左右するパラメータを更新することができる。

リモートコンピューティングデバイス１０６ｃのブロック９１７において、ブロック９１３でのノイズ分類および／またはブロック９１５での予測型モデリングに基づいて、ＮＭＤ性能を修正する必要があるかどうかを判断する。修正の必要性がないと判断された場合、プロセスはブロック９１３のデータ解析に戻り、新たに受信したサウンドメタデータの解析を行う。判定ブロック９１７において、修正が必要であると判断された場合は、プロセスはブロック９１９に進み、ＮＭＤの動作調整を実行する。

ブロック９１９では、ＮＭＤの修正は、メタデータの識別された特徴に応じて、いくつかの形態をとることができる。例えば、再生音量の調整、固定ゲインの調整、ノイズリダクションパラメータの調整、ウェイクワード検出感度パラメータの調整、空間処理アルゴリズムの調整などがある。

図７および図１０－図１２は、ＮＭＤによってキャプチャされたオーディオ入力のノイズを分類するために、サウンドメタデータを既知のノイズ基準値と比較するアプローチの一例を示している。上述したように、ある実施形態では、ＮＭＤによってキャプチャされたサウンドメタデータは、周波数応答スペクトルを含むことができ、これはある時間に亙って平均化され、周波数軸に沿って対数的にサンプリングすることができる。

種々のＮＭＤから収集したデータは、可能な周波数応答スペクトルの全体的な分布を示す。各スペクトルは、パワーの線形空間に変換することなく、すべてのスペクトルビンの平均値を差し引くことで正規化することができる。この操作により、スペクトルが垂直方向に変換されます。同じようなノイズ源のスペクトルはすべて同じような形をしているので、すべてのスペクトルはより狭い分布になる。このシンプルな操作により、全体の音量に起因する変動がなくなり、音量に依存しないノイズの分類が可能になる。

図１０は、ファンの速度を変えたり、ＮＭＤからファンまでの距離を変えたりしてファンからのノイズを測定した結果について、類似したスペクトル形状であって垂直方向に変換された複数のスペクトル例を用いて示している。各グループは、特定の構成に対する測定値の分布を示す。この挙動は、ホワイトノイズやピンクノイズなど、よく知られたノイズタイプの挙動と一致しており、ノイズの全体的なスペクトル形状は、絶対的なレベルではなく、スペクトルのスロープによって特定される。このような周波数応答データの全体的な分布を生成するため、ユーザの自宅や制御された条件下で、複数のＮＭＤを介して多くのスペクトルを収集する。

多数のＮＭＤから得られたスペクトルデータには、各測定においては明確に判定できない多種多様な可能性のあるノイズタイプが含まれている。しかし、この多数の測定値を利用して、最も分散の大きい軸を特定することができる主成分分析（ＰＣＡ）により、直交基底（固有空間）を定義することができる。例えば、現実に用いられている多数のＮＭＤから収集した約１，０００万個のスペクトルデータを用いて、マイクロフォンのスペクトルをスペクトルビンごとに平均化した後、上述のように正規化することができる。その後、ＰＣＡを用いて直交基底を定義することができる。図１１は、固有空間を定義するいくつかの基底ベクトルの例を示す。５つの基底ベクトルが例示されているが、ある実施形態においては、基底ベクトルの数は、例えば、２つ、３つ、または４つの基底ベクトル、あるいは代替として、６つ、７つ、８つ、またはそれ以上の基底ベクトルなど、様々なものがある。

この操作により、行列のセットが生成される。
X = USV^T

ここで、Ｘは、すべてのフィールドスペクトルを含む元のベクトル空間である。Ｕはユニタリー行列、Ｓは特異値の対角線行列である。V^Tは最高分散の軸を定義する固有ベクトルの行列である。

これらの固有ベクトル（例えば、図１１に示された基底ベクトル）を用いて、新たに観測されたスペクトルＮは、新たなスペクトルとこの基底との間でドットプロダクトを行う（Ｎ’＝ＮＶ）ことにより、新たな空間に投影することができる。この計算により、各スペクトルの固有値が定義され、それは、これらの固有ベクトルと固有値の任意のサブセットの線形結合として再構成される。図１２は、これらのスペクトルのうち、母集団の分布の変動を最もよく表す固有ベクトルのサブセットを用いて再構成したものを示す。図１２に示すように、観測されたスペクトルでは、複数の離散的な周波数応答値が得られます。再構成されたスペクトルは、基底ベクトル（例えば、図１１に示す基底ベクトル）の組み合わせを表しており、各基底ベクトルの強さは変化し、観測されたスペクトルに最も適合する。このように、再構成されたスペクトルは、観測されたスペクトルとほぼ一致する。動作において、新たに受信した周波数応答スペクトルは、基底ベクトルの線形結合（例えば、図１１に示す基底ベクトル）を用いて再構成することができる。

現実に使用されているＮＭＤが遭遇する可能性のあるすべてのノイズを分類することは、現実的ではない。しかし、上記の固有スペクトルのサブセットにおけるノイズの分布を可視化することができる。図１３は、観測されたフィールドスペクトルの全体的な分布を、最初の２つの固有ベクトル（例えば、図１１に示した基底ベクトルのうち、観測された分散に最も影響を与えた２つのベクトル）の強さとして示したものである。図１３において、「特徴１」は、再構成されたスペクトル（例えば、図１２に示す再構成されたスペクトル）における第１の固有ベクトルの強さであり、「特徴２」は、再構成されたスペクトル（例えば、図１２に示す再構成されたスペクトル）における第２の固有ベクトルの強さである。図１３のプロットでは、２つの特徴量（例えば、再構成されたスペクトルにおける２つの基底ベクトルの強さ）の値を示しているが、追加の特徴量の値を用いてノイズを分類することもできる。例えば、３つ、４つ、５つ、またはそれ以上の特徴を用い、それぞれが再構成されたスペクトルの異なる基底ベクトルの強さに対応する様にしてもよい。新たに観測されたスペクトルを付加的な特徴で評価することで、異なる種類のノイズをより容易に区別することができ、ノイズの分類が向上する。

現場で受ける混在したノイズの分離作業は、絶え間なく続ける必要があり、種々のノイズのクラスターが含まれているので、簡単には識別できない場合がある。これは、どの種類のノイズにおいてもばらつきが小さいので、領域間の識別性が低くなり、特定のノイズ領域を識別することが困難になっている。ノイズの分布は、シミュレーションソフトウェアを使って、記録された既知のノイズのセットを取り込んで、現場と同様の方法でスペクトルを生成することで、正確に表すことが可能であるが、これは制御された再現性の高い方法である。これらの既知のテストサンプルのスペクトルは、フィールドノイズの分布の中でその存在を追跡する「テスト点粒子」として固有空間に投影することができる。図７に示すプロットでは、フィールドの密度分布が等高線で示されており、個々の点はシミュレーションで実行されたテストサンプルで、パラメータ空間の異なる配置を示している。図７に見られるように、ノイズ源の違いによって、固有空間に投影される点のクラスターが異なる。

多数のＮＭＤから収集したデータをこのように分析することで、種々のタイプのノイズの相対的な占有域を特定することができる。さらに、ニューラルネットワークを用いて分類器を構築し、１つ以上のＮＭＤからの収集データのノイズを識別することができる。例えば、ニューラルネットワークは、母集団の固有空間に投影された既知のラベル付きノイズのセットを用い、学習することができる。これらの既知のラベル付けされた種々のノイズは、シミュレーションソフトウェアによって処理され、「アンビエント」、「ファン」、「シンク」、「干渉するスピーチ」などに分類された種々のラベルにグループ化され、多くの種類の典型的なノイズとして表すことができ、それぞれが、例えば、ノイズキャンセルアルゴリズムや他のオーディオ処理アルゴリズムを修正するように、ＮＭＤの性能パラメータを調整するための十分な有益情報を提供することができる。ある実施形態では、分類器を用いて、個別のデバイスについて、そのデバイスが受けるノイズの相対的な寄与をさらに分析することができる。例えば、あるデバイスが平均よりも高いレベルのファンノイズを受ける環境にあれば、そのＮＭＤに合った特定の性能パラメータを用い、高いファンノイズに対応するように変更され、また、別のＮＭＤについては、予想よりも高いレベルのトラフィックノイズを受ける環境にあればそれに対応した別の方法で調整される。

上記の例では、主成分分析を用いて種々のタイプのノイズの分類を実行させているが、分類プロセスは、他の技術やアルゴリズムを使用してもよい。例えば、決定木やベイジアン分類器、ニューラルネットワーク、その他の分類技術を用いた機械学習を採用しても良い。代替的または追加的に、Ｋ－Ｍｅａｎｓクラスタリング、Ｍｅａｎ－Ｓｈｉｆｔクラスタリング、期待値最大化クラスタリング、または他の適切なクラスタリング技術など、さまざまなクラスタリング技術を使用することができる。

結論
以上の説明では、とりわけ、ハードウェア上で実行されるファームウェアおよび／またはソフトウェアを含む、さまざまな例示的なシステム、方法、装置、および製造品を開示した。上記の説明は単なる例示であり、限定的なものと解されるべきではない。例えば、ファームウェア、ハードウェア、および／またはソフトウェアの側面またはコンポーネントのいずれかまたはすべてが、ハードウェアのみ、ソフトウェアのみ、ファームウェアのみ、またはハードウェア、ソフトウェア、および／またはファームウェアの任意の組み合わせで具現化できることが企図されている。したがって、これらの例は、そのようなシステム、方法、装置、および製造品を実装する唯一の方法ではない。

据え置き型の再生装置に関してここで説明した例に加えて、本技術の実施形態は、ヘッドフォン、イヤフォン、または他のインイヤーまたはオーバーイヤー型の再生装置に適用することができる。例えば、このようなインイヤー式またはオーバーイヤー式の再生機器は、再生中にユーザが外部の騒音を感じるのを軽減するためのノイズキャンセリング機能を含むことができる。ある実施形態では、ノイズ分類を使用して、特定の条件下でノイズキャンセルを変調させることができる。例えば、ユーザがノイズキャンセリングヘッドフォンで音楽を聴いている場合、ユーザのドアベルが鳴ると、ノイズキャンセリング機能が一時的に無効になったり、制御能力をダウンしたりすることも可能である。また、ドアベルの音を検知して、再生音量を調整することも可能である。ドアベルの音を検出することで（例えば、受信したサウンドメタデータに基づいてドアベルを正しく分類することで）、ノイズキャンセリングヘッドフォンを装着していてもユーザがドアベルの音を聞くことができるように、ノイズキャンセリング機能を変更することができる。ここで説明したノイズ分類技術に基づいて、ヘッドフォンなどの性能パラメータを調整することにより、さまざまな他のアプローチに使用することができる。

ここでの説明は、例示的な環境、システム、手順、ステップ、論理ブロック、処理、についてなされており、更に他の象徴的に表されたものであって、ネットワークに接続されたデータ処理装置の動作に直接または間接的に類似したものについてなされている。このようなプロセスの説明や表現は、当業者が自分の仕事の本質を最も効果的に他の当業者に伝えるために使用される。ここでの説明を十分に理解できるために、多数の具体的な内容を記載している。しかし、ここで説明した特定の実施形態は、特定の具体的な詳細がなくても実施できることが当業者には理解される。他の例では、よく知られている方法、手順、コンポーネント、および回路は、実施形態の側面を不必要に不明瞭にすることを避けるため、詳細な説明は省略されている。したがって、本開示の範囲は、上述の実施形態の説明ではなく、添付の特許請求の範囲によって特定される。

添付の特許請求の範囲のいずれかが純粋にソフトウェアおよび／またはファームウェアの実装をカバーするように読まれる場合、少なくとも1つの例における要素の少なくとも1つは、ソフトウェアおよび／またはファームウェアを格納する、メモリ、ＤＶＤ、ＣＤ、Ｂｌｕ－ｒａｙ（登録商標）などの有形の非一過性媒体を含むように、ここで明示的に定義される。

本技術は、例えば、以下に説明する様々な側面に従って説明される。本技術の側面の様々な例は、便宜上、番号付きの例（1、2、3など）として説明される。これらは例示であり、本技術を制限するものではない。従属的な例のいずれも、任意の組み合わせで、それぞれの独立した例の中に入れることができる。他の例も同様の方法で示すことができる。

例１：ネットワークマイクロフォンデバイス（ＮＭＤ）の１つ以上のマイクを介してサウンドを検出するステップと、検出されたサウンドに基づいてＮＭＤの第１バッファにサウンドデータを取り込むステップと、ＮＭＤを介してサウンドデータを分析してトリガーイベントを検出するステップと、ＮＭＤの少なくとも第２バッファにサウンドデータに関連するメタデータを取り込むステップと、トリガーイベントを検出した後、サウンドデータ内のノイズを分類するためメタデータを分析するステップと、分類されたノイズに基づいてＮＭＤの少なくとも１つの性能パラメータを修正するステップと、を含む方法。

例２：例１に記載の方法であって、メタデータを分析してサウンドデータ内のノイズを分類するステップは、メタデータを、既知のノイズイベントに関連する参照メタデータと比較することを含む、ことを特徴とする方法。

例３：例２に記載の方法であって、メタデータは、周波数応答スペクトルを含み、メタデータを参照メタデータと比較することが、周波数応答スペクトルを、ＮＭＤの集団から集約された周波数応答スペクトルに対応する固有空間に投影することを含む、ことを特徴とする方法。

例４：例１に記載の方法であって、ＮＭＤの少なくとも１つの性能パラメータを修正するステップは、ＮＭＤのウェイクワード検出感度パラメータを修正すること、ＮＭＤに関連する再生デバイスの再生音量を調整すること、またはＮＭＤのノイズキャンセリングアルゴリズムを修正することのうちの少なくとも１つを含む、ことを特徴とする方法。

例５：例１に記載の方法であって、更に、ＮＭＤを介して、分類されたノイズに対応するデータを、広域ネットワークを介して１つまたは複数のリモートコンピューティングデバイスに送信するステップを含む、ことを特徴とする方法。

例６：例１に記載の方法であって、前記メタデータは、マイクロフォンの周波数応答データ、マイクロフォンのスペクトルデータ、アコースティックエコーキャンセレーション（ＡＥＣ）データ、エコーリターンロスエンハンスメント（ＥＲＬＥ）データ、アービトレーションデータ、信号レベルデータ、または方向検出データのうちの少なくとも１つを含む、ことを特徴とする方法。

例７：例１の方法であって、前記サウンドデータは前記メタデータから導出できないことを特徴とする方法。

例８：ネットワークマイクロフォンデバイス（ＮＭＤ）であって、１つまたは複数のプロセッサと、１つまたは複数のマイクロフォンと、１つまたは複数のプロセッサによって実行可能な命令を格納する有形の非一過性のコンピュータ可読媒体であって、再生デバイスに所定の動作を実行させるものを備えたＮＭＤであり、所定の動作には次のステップを含む：
１つ以上のマイクロフォンを介してサウンドを検出するステップと、検出されたサウンドに基づいてＮＭＤの第１バッファにサウンドデータを取り込むステップと、ＮＭＤを介してサウンドデータを分析してトリガーイベントを検出するステップと、ＮＭＤの少なくとも第２バッファにサウンドデータに関連するメタデータを取り込むステップと、トリガーイベントを検出した後、サウンドデータ内のノイズを分類するためメタデータを分析するステップと、分類されたノイズに基づいてＮＭＤの少なくとも１つの性能パラメータを修正するステップ、
ことを特徴とする再生装置。

例９：例８の再生装置であって、メタデータを分析してサウンドデータ内のノイズを分類するステップは、メタデータを、既知のノイズイベントに関連する参照メタデータと比較することを含む、ことを特徴とする再生装置。

例１０：例９の再生装置であって、メタデータは、周波数応答スペクトルを含み、メタデータを参照メタデータと比較することが、周波数応答スペクトルを、ＮＭＤの集団から集約された周波数応答スペクトルに対応する固有空間に投影することを含む、ことを特徴とする再生装置。

例１１：例８の再生装置であって、ＮＭＤの少なくとも１つの性能パラメータを修正するステップは、ＮＭＤのウェイクワード検出感度パラメータを修正すること、ＮＭＤに関連する再生デバイスの再生音量を調整すること、またはＮＭＤのノイズキャンセリングアルゴリズムを修正することのうちの少なくとも１つを含む、ことを特徴とする再生装置。

例１２：例８の再生装置であって、更に、ＮＭＤを介して、分類されたノイズに対応するデータを、広域ネットワークを介して１つまたは複数のリモートコンピューティングデバイスに送信するステップを含む、ことを特徴とする再生装置。

例１３：例８の再生装置であって、前記メタデータは、マイクロフォンの周波数応答データ、マイクロフォンのスペクトルデータ、アコースティックエコーキャンセレーション（ＡＥＣ）データ、エコーリターンロスエンハンスメント（ＥＲＬＥ）データ、アービトレーションデータ、信号レベルデータ、または方向検出データのうちの少なくとも１つを含む、ことを特徴とする再生装置。

例１４：例８の再生装置であって、前記サウンドデータは前記メタデータから導出できないことを特徴とする再生装置。

例１５：ネットワークマイクロフォン装置（ＮＭＤ）に所定の動作を実行させるために、１つ以上のプロセッサによって実行可能な命令を格納した有形、非一過性のコンピュータ可読媒体であって、所定の動作には次のステップを含む：
１つ以上のマイクロフォンを介してサウンドを検出するステップと、検出されたサウンドに基づいてＮＭＤの第１バッファにサウンドデータを取り込むステップと、ＮＭＤを介してサウンドデータを分析してトリガーイベントを検出するステップと、ＮＭＤの少なくとも第２バッファにサウンドデータに関連するメタデータを取り込むステップと、トリガーイベントを検出した後、サウンドデータ内のノイズを分類するためメタデータを分析するステップと、分類されたノイズに基づいてＮＭＤの少なくとも１つの性能パラメータを修正するステップ、
ことを特徴とする有形、非一過性のコンピュータ可読媒体。

例１６：例１５に記載の有形、非一過性、コンピュータ可読媒体であって、メタデータを分析してサウンドデータ内のノイズを分類するステップは、メタデータを、既知のノイズイベントに関連する参照メタデータと比較することを含む、ことを特徴とする有形、非一過性、コンピュータ可読媒体。

例１７：例１６に記載の有形の非一過性のコンピュータ可読媒体であって、メタデータは、周波数応答スペクトルを含み、メタデータを参照メタデータと比較することが、周波数応答スペクトルを、ＮＭＤの集団から集約された周波数応答スペクトルに対応する固有空間に投影することを含む、ことを特徴とする有形の非一過性のコンピュータ可読媒体。

例１８：実施例１５に記載の有形の非一過性のコンピュータ可読媒体であって、ＮＭＤの少なくとも１つの性能パラメータを修正するステップは、ＮＭＤのウェイクワード検出感度パラメータを修正すること、ＮＭＤに関連する再生デバイスの再生音量を調整すること、またはＮＭＤのノイズキャンセリングアルゴリズムを修正することのうちの少なくとも１つを含む、ことを特徴とする有形の非一過性のコンピュータ可読媒体。

例１９：例８の有形の非一過性のコンピュータ可読媒体であって、更に、ＮＭＤを介して、分類されたノイズに対応するデータを、広域ネットワークを介して１つまたは複数のリモートコンピューティングデバイスに送信するステップを含む、ことを特徴とする有形の非一過性のコンピュータ可読媒体。

例２０：例８の有形の非一過性のコンピュータ可読媒体であって、前記メタデータは、マイクロフォンの周波数応答データ、マイクロフォンのスペクトルデータ、アコースティックエコーキャンセレーション（ＡＥＣ）データ、エコーリターンロスエンハンスメント（ＥＲＬＥ）データ、アービトレーションデータ、信号レベルデータ、または方向検出データのうちの少なくとも１つを含む、ことを特徴とする有形の非一過性のコンピュータ可読媒体。

Claims

ネットワークマイクロフォンデバイス（ＮＭＤ）の１つ以上のマイクロフォンを介してサウンドを検出するステップと、
検出されたサウンドに基づいてＮＭＤの第１バッファにサウンドデータをキャプチャするステップと、
トリガーイベントを検出するためにＮＭＤを介してサウンドデータを分析するステップと、
ＮＭＤの少なくとも第２バッファにサウンドデータに関連するメタデータをキャプチャするステップと、
トリガーイベントを検出した後、サウンドデータ内のノイズを分類するためメタデータの分析を発動するステップと、
分類されたノイズに基づいてＮＭＤの少なくとも１つの性能パラメータを修正するステップと
を含む方法。
請求項１に記載の方法であって、前記サウンドデータは、前記メタデータから導出できないことを特徴とする方法。
請求項１または２に記載の方法であって、サウンドデータ内のノイズを分類するためメタデータを分析することは、メタデータを、既知のノイズイベントに関連する参照メタデータと比較することである、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、メタデータを参照メタデータと比較することは、メタデータをそれぞれのノイズイベントのシグネチャと比較することを含み、ここでシグネチャは、それぞれのノイズイベントにさらされたマイクロフォンデバイスの複数の周波数応答に適用される主成分分析を使用して生成される、ことを特徴とする方法。
請求項４に記載の方法であって、前記複数の周波数応答が、
制御された条件でキャプチャされたサンプル、および
ユーザの入力から得られたサンプル
の少なくとも１つを含む、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、前記メタデータは、周波数応答スペクトルを含む一方、前記メタデータを参照メタデータと比較することは、ＮＭＤの集団から収集された周波数応答スペクトルに対応する固有空間に周波数応答スペクトルを投影することを含む、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、更に、多くのサンプリングフレーム間で平均化された周波数領域の情報にメタデータを限定することによって、メタデータをキャプチャされたサウンドデータから導出するステップを含む、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、更に、
ＮＭＤの位置を示す入力をユーザから受信するステップと、
少なくとも１つのノイズイベントに対する可能性が、示された位置に基づいているだろうとの判断するステップと
を含む、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、更に、
低いレベルのノイズが検出された場合、サウンドデータを分析するために処理されるマイクロフォンのチャンネル数を減らすステップを含む、ことを特徴とする方法。
請求項９に記載の方法であって、マイクロフォンのチャネル数を減らすステップは、１つ以上のマイクロフォンの、チャンネルをオフにする、チャンネルの電源を落とす、又は、チャンネルからの読み取り値を廃棄することである、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、更に、
ノイズが検出されている間に、ＮＭＤの性能パラメータを調整し、ノイズが検出されなくなった後に、ＮＭＤの性能パラメータをノイズが検出される前の状態に戻すステップを含む、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、ＮＭＤの少なくとも１つの性能パラメータを修正するステップは、
前記ＮＭＤのウェイクワード検出感度パラメータを調整すること、
前記ＮＭＤに関連する再生デバイスの再生音量を調整すること、及び
前記ＮＭＤのノイズキャンセリングアルゴリズムを変更すること、
の少なくとも１つを含む、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、更に、
ＮＭＤを介して、分類されたノイズに対応するデータを、ワイドエリアネットワークを通って１つ以上のリモートコンピューティングデバイスに送信するステップ
を含む、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、ＮＭＤの少なくとも１つの性能パラメータを修正するステップは、環境に存在する複数のＮＭＤの少なくとも１つの性能パラメータを修正することをさらに含む、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、前記メタデータは、
マイクロフォンの周波数応答データ、
マイクロフォンのスペクトルデータ、
アコースティックエコーキャンセレーション（ＡＥＣ）データ、
エコーリターンロスエンハンスメント（ＥＲＬＥ）データ、
アービトレーションデータ、
信号レベルデータ、及び
方向検出データ
の少なくとも１つを含む、ことを特徴とする方法。
上述の請求項のいずれかに記載の方法であって、ＮＭＤの少なくとも１つの性能パラメータを修正するステップは、
ＮＭＤまたはリモートデバイスによって、シミュレートされたノイズイベントまたはノイズイベントと音声入力の組合せに適用される種々の性能パラメータを用いて行われる、予測型モデリングを実行することと、
特定のノイズイベントまたは組み合わせされたノイズイベントについて、最適な性能パラメータ値を決定することと、
決定された最適な性能パラメータ値に基づいて、ＮＭＤの性能パラメータを修正すること、
を含む、ことを特徴とする方法。
請求項１６に記載の方法であって、前記予測型モデリングは、既知のノイズのセットでトレーニングされたニューラルネットワークを用いて実行される、ことを特徴とする方法。
ネットワークマイクロフォンデバイス（ＮＭＤ）に、上述の請求項のいずれかの方法を実行させるために、１つ以上のプロセッサによって実行可能な命令を格納した有形、非一時的、コンピュータ可読媒体。
ネットワークマイクロフォンデバイス（ＮＭＤ）であって、
１つ以上のプロセッサと、
１つ以上のマイクロフォンと、
請求項１８に記載の有形、非一時的、コンピュータ可読媒体と
を含む、ネットワークマイクロフォンデバイス。