JP7351937B2

JP7351937B2 - コマンドキーワード調整を伴うネットワークマイクロフォンデバイス

Info

Publication number: JP7351937B2
Application number: JP2021573944A
Authority: JP
Inventors: スミス，コナー; トロメイ，ジョン; ソト，カート
Original assignee: Sonos Inc
Current assignee: Sonos Inc
Priority date: 2019-06-12
Filing date: 2020-06-11
Publication date: 2023-09-27
Anticipated expiration: 2040-06-11
Also published as: JP7692965B2; US10586540B1; JP2023169283A; JP2022536765A; US20230274738A1; US11501773B2; CN114223028A; US20200395013A1; CA3146914A1; WO2020252163A1; EP3984024A1; AU2020290464A1

Description

関連出願の相互参照

本願は、２０１９年６月１２日に出願された「ＮＥＴＷＯＲＫＭＩＣＲＯＰＨＯＮＥＷＩＴＨＣＯＭＭＡＮＤＫＥＹＷＯＲＤＣＯＮＤＩＴＩＯＮＩＮＧ」と題する米国特許出願公開第１６／４３９，００９号明細書の優先権を主張するものであり、その全体は、参照により本明細書に組み込まれる。

本技術は、コンシューマ用品に関し、より詳細には、メディア再生システムまたはその何らかの態様の音声支援（音声アシステッド）制御を対象とする方法、システム、製品、機能、サービス、および他の要素に関する。

ＳＯＮＯＳ，Ｉｎｃ．が新しいタイプの再生システムの開発を開始した２００２年まで、声を出す設定でデジタルオーディオにアクセスして聴取する選択肢は制限されていた。その後、Ｓｏｎｏｓは、２００３年に「ＭｅｔｈｏｄｆｏｒＳｙｎｃｈｒｏｎｉｚｉｎｇＡｕｄｉｏＰｌａｙｂａｃｋｂｅｔｗｅｅｎＭｕｌｔｉｐｌｅＮｅｔｗｏｒｋｅｄＤｅｖｉｃｅｓ」と題する最初の特許出願のうちの１つを出願し、２００５年に販売用の最初のメディア再生システムの提供を開始した。Ｓｏｎｏｓワイヤレスホームサウンドシステムは、人々が１つ以上のネットワーク化された再生デバイスを介して多くの供給元からの音楽を体験することを可能にする。コントローラ（例えば、スマートフォン、タブレット、コンピュータ、音声入力デバイス）にインストールされたソフトウェア制御アプリケーションを介して、ネットワーク化された再生デバイスを有する任意の部屋で、自分が望むものを再生することができる。メディアコンテンツ（例えば、曲、Ｐｏｄｃａｓｔ、ビデオサウンド）は、再生デバイスを有する各部屋が対応する異なるメディアコンテンツを再生できるように、再生デバイスにストリーミングすることができる。さらに、同じメディアコンテンツの同期再生のために部屋を一緒にグループ化することができ、および／または同じメディアコンテンツをすべての部屋で同期して聞くことができる。

本開示の技術の特徴、態様、および利点は、以下の説明、添付の特許請求の範囲、および添付の図面に関連させて、よりよく理解することができる。

本開示の技術の特徴、態様、および利点は、以下に列挙される、続く説明、添付の特許請求の範囲、および添付の図面に関連させて、よりよく理解することができる。当業者は、図面に示された特徴が例示の目的のためであり、その異なるおよび／または追加の特徴および配置を含む変形が可能であることを理解するであろう。
開示された技術の態様に従って構成されたメディア再生システムを有する環境の部分的な破断図である。図１Ａのメディア再生システムおよび１つ以上のネットワークの概略図である。例示的な再生デバイスの機能ブロック図である。図２Ａの再生デバイスの例示的なハウジングの等角図である。例示的な音声入力の図である。本開示の態様による例示的な音の標本を示すグラフである。本開示の態様による例示的な再生デバイスの構成を示す図である。本開示の態様による例示的な再生デバイスの構成を示す図である。本開示の態様による例示的な再生デバイスの構成を示す図である。本開示の態様による例示的な再生デバイスの構成を示す図である。本開示の態様による例示的な再生デバイスの構成を示す図である。本開示の態様による例示的なコントローラデバイスの機能ブロック図である。本開示の態様によるコントローラインターフェースである。本開示の態様によるコントローラインターフェースである。メディア再生システムのメッセージのフロー図である。本開示の態様による第１の例示的なネットワークマイクロフォンデバイスの特定のコンポーネントの機能ブロック図である。本開示の態様による第２の例示的なネットワークマイクロフォンデバイスの特定のコンポーネントの機能ブロック図である。本開示の態様による例示的な状態機械の機能ブロック図である。背景音声に関連する分析されたサウンドメタデータを示す例示的なノイズのグラフを示す。本開示の態様による、例示的なコマンドキーワードおよび関連条件を示す表の第１の部分を示す。本開示の態様による、例示的なコマンドキーワードおよび関連条件を示す表の第２の部分を示す。開示の態様による例示的なメディア再生システムおよびクラウドネットワークを示す概略図である。本開示の態様による例示的なプレイリストを示す表を示す。本開示の態様によるコマンドキーワードに基づいて動作を実行する例示的な方法のフロー図である。本開示の態様によるコマンドキーワードに基づいて動作を実行する例示的な方法のフロー図である。本開示の態様によるコマンドキーワードに基づいて動作を実行する例示的な方法のフロー図である。本開示の態様に従って構成された例示的なＮＭＤの例示的な出力を示す。本開示の態様に従って構成された例示的なＮＭＤの例示的な出力を示す。本開示の態様に従って構成された例示的なＮＭＤの例示的な出力を示す。本開示の態様に従って構成された例示的なＮＭＤの例示的な出力を示す。

図面は例示的な実施形態を説明するためのものであるが、本発明は図面に示された配置および手段に限定されないことを理解されたい。図面において、同一の参照番号は、少なくとも概ね同様の要素を識別する。任意の特定の要素の説明を容易にするために、任意の参照番号の最上位の桁は、その要素が最初に導入される図を指す。例えば、要素１０３ａは、図１Ａに最初に導入され、図１Ａを参照して説明される。

Ｉ．概要
本明細書に記載の例示的な技術は、コマンドを検出するように構成されたウェイクワードエンジンを含む。例示的なネットワークマイクロフォンデバイス（「ＮＭＤ」）は、音声アシスタントサービス（「ＶＡＳ」）を呼び出すウェイクワードエンジンと並行するそのようなウェイクワードエンジンを実装し得る。ＶＡＳウェイクワードエンジンがノンスのウェイクワードに関与し得る一方で、コマンドキーワードエンジンは、「再生」または「スキップ」などのコマンドで呼び出される。

ネットワークマイクロフォンデバイスは、無線オーディオ再生デバイス、イルミネーションデバイス、電化製品、およびホームオートメーション機器（例えば、サーモスタット、ドアロックなど）などのスマートホームデバイスの音声制御を容易にするために使用されてもよい。ＮＭＤは、通常、ＮＭＤの環境に存在する音を検出するように構成されたマイクロフォンアレイなどのマイクロフォンの配列を含むネットワークコンピューティングデバイスである。いくつかの例では、ＮＭＤは、オーディオ再生デバイスなどの別のデバイスの中に実装されてもよい。

そのようなＮＭＤへの音声入力は、通常、ユーザの要求を含む発話が続くウェイクワードを含む。実際には、ウェイクワードは、典型的には、ＮＭＤを「起動」し、特定の音声アシスタントサービス（「ＶＡＳ」）を呼び出して、検出された音における音声入力の意図を解釈させるために使用される所定のノンスワードまたはフレーズである。例えば、ユーザは、他の例の中でも、ＡＭＡＺＯＮ（登録商標）ＶＡＳを呼び出すためにウェイクワード「アレクサ」、グーグル（登録商標）ＶＡＳを呼び出すために「オーケー、グーグル」、ＡＰＰＬＥ（登録商標）ＶＡＳを呼び出すために「ヘイ、シーリー」、ＳＯＮＯＳ（登録商標）によって提供されるＶＡＳを呼び出すために「ヘイ、ソノス」と語ることができる。実際には、ウェイクワードは例えば、ウェイクワード、トリガワード、ウェイクアップワードまたはフレーズと呼ばれることもあり、任意の適切なワード、ワードの組み合わせ（例えば、特定のフレーズ）、および／または他の何らかのオーディオキューの形態をとることができる。

ＮＭＤによって検出された音が特定のウェイクワードを含む音声入力を含むかどうかを識別するために、ＮＭＤは、通常はＮＭＤに搭載されているウェイクワードエンジンを利用することが多い。ウェイクワードエンジンは、１つ以上の識別アルゴリズムを使用して、記録されたオーディオ内の特定のウェイクワードを識別する（すなわち、「スポット」または「検出」する）ように構成されてもよい。そのような識別アルゴリズムは、ウェイクワードを語ることによって生成される周波数および／または時間領域パターンを検出するように訓練されたパターン認識を含むことができる。このウェイクワード識別プロセスは、一般に「キーワードスポッティング」と呼ばれる。実際には、キーワードスポッティングを容易にするために、ＮＭＤは、ＮＭＤのマイクロフォンによって検出された音をバッファリングし、その後、ウェイクワードエンジンを使用して、そのバッファリングされた音を処理して、ウェイクワードが記録されたオーディオに存在するかどうかを判定することができる。

ウェイクワードエンジンが、記録されたオーディオ内にウェイクワードを検出すると、ＮＭＤは、音声入力が含まれているであろう音をＮＭＤが検出したことを示すウェイクワードイベント（すなわち、「ウェイクワードトリガ」）が発生したと判定することができる。ウェイクワードイベントの発生により、通常、ＮＭＤは、検出された音に関係する追加の処理を実行する。ＶＡＳウェイクワードエンジンでは、これらの追加の処理には、ウェイクワードが識別されたことを示す警報（例えば、可聴チャイムおよび／または光インジケータ）を出力するなどの可能な追加のプロセスの他、バッファから検出されたサウンドデータを抽出することを含むことができる。検出された音を抽出することは、特定のフォーマットに従って検出された音のストリームを読み出してパッケージングすることと、パッケージングされたサウンドデータを、解釈のために、適切なＶＡＳに送信することとを含むことができる。

次に、ウェイクワードエンジンによって識別されたウェイクワードに対応するＶＡＳは、通信ネットワークを介してＮＭＤから送信されたサウンドデータを受信する。ＶＡＳは、従来、音声入力（例えば、ＡＭＡＺＯＮのＡＬＥＸＡ、ＡＰＰＬＥのＳＩＲＩ、ＭＩＣＲＯＳＯＦＴのＣＯＲＴＡＮＡ、ＧｏｏｇｌｅのＡＳＳＩＳＴＡＮＴなど）を処理するように構成された１つ以上のクラウドサーバを使用して実装されたリモートサービスの形態をとる。場合によっては、ＶＡＳの特定のコンポーネントおよび機能は、ローカルデバイスおよびリモートデバイスにわたって分散されてもよい。

ＶＡＳが検出されたサウンドデータを受信すると、ＶＡＳはそのデータを処理し、これは音声入力を識別すること、および音声入力に取り込まれたワードの意図を判定することを含む。次いで、ＶＡＳは、判定された意図にしたがって何らかの命令でＮＭＤに応答を返すことができる。その命令に基づいて、ＮＭＤは、１つ以上のスマートデバイスにアクションを実行させることができる。例えば、ＮＭＤは、他の例の中でも、ＶＡＳからの命令に従って、再生デバイスに特定の曲を再生させたり、イルミネーションデバイスをオン／オフさせたりしてもよい。場合によっては、ＮＭＤ、またはＮＭＤを備えたメディアシステム（例えば、ＮＭＤを備えた再生デバイスを有するメディア再生システム）は、複数のＶＡＳと相互作用するように構成されてもよい。実際には、ＮＭＤは、ＮＭＤによって検出された音において識別された特定のウェイクワードに基づいて、１つのＶＡＳを別のものよりも選択していくことができる。

従来のウェイクワードエンジンの１つの課題は、「誤りのウェイクワード」のトリガによって引き起こされる誤検知を起こしやすいことである。ＮＭＤのコンテキストにおける誤検知は、一般に、誤ってＶＡＳを呼び出す検出された音入力を指す。ＶＡＳウェイクワークエンジンでは、実際にＮＭＤにウェイクワードを語ろうとするユーザがいない場合でも、誤検知がＶＡＳを呼び出すことが可能である。

例えば、ウェイクワードエンジンが、ＮＭＤの環境で再生されているオーディオ（例えば、音楽、ポットキャストなど）から、検出された音のウェイクワードを識別すると、誤検知が発生する可能性がある。この出力オーディオは、ＮＭＤの近傍の再生デバイスから再生されることも、ＮＭＤ自体によって再生されることもある。例えば、ＮＭＤの近くで、コマーシャル広告のＡＭＡＺＯＮのＡＬＥＸＡのサービスの音声が出力された場合、コマーシャル中の「Ａｌｅｘａ」というワードが誤検知を誘発する可能性がある。誤検知を引き起こす出力オーディオ内のワードまたはフレーズは、本明細書では「誤りのウェイクワード」と呼ばれることがある。

他の例では、実際のウェイクワードに音声的に類似するワードは、誤検知を引き起こす。例えば、ＮＭＤの近傍でコマーシャルとしてＬＥＸＵＳ（登録商標）自動車の音声が発せられると、「レクサス」というワードは音声的に「アレクサ」に類似しているため、誤検知を引き起こす誤りのウェイクワードとなる可能性がある。他の例として、人が会話においてＶＡＳウェイクワードまたは音声的に類似したワードを語るときに誤検知が発生する可能性がある。

誤検知の発生は、望ましくない。なぜなら、否定的な結果、中でも、ＮＭＤに追加のリソースを消費させたり、オーディオの再生を中断させたりする可能性があるためである。一部のＮＭＤ、例えば、ＡＭＡＺＯＮＦＩＲＥＴＶリモートまたはＡＰＰＬＥＴＶリモートなどの場合は、ＶＡＳを呼び出すためにボタン押下を必要とすることによって誤検知を回避することができるようになっている。実際には、ＶＡＳウェイクワードエンジンによって生成される誤検知の影響は、検出されたサウンドデータを処理し、検出されたサウンドデータが認識可能な音声入力を含まないと判断するＶＡＳによって、部分的に軽減されることが多い。

ＶＡＳを呼び出す所定のノンス（一回限りの使い捨て）のウェイクワードとは対照的に、コマンドを呼び出すキーワード（本明細書では「コマンドキーワード」と呼ばれる）は、再生コマンドなどのコマンド自体として機能するワードまたはワードの組み合わせ（例えば、フレーズ）であり得る。いくつかの実装形態では、コマンドキーワードは、ウェイクワードとコマンド自体の両方として機能することができる。すなわち、コマンドキーワードエンジンが、記録されたオーディオ内のコマンドキーワードを検出すると、ＮＭＤは、コマンドキーワードイベントが発生したと判定し、検出されたキーワードに対応するコマンドを応答して実行することができる。例えば、コマンドキーワード「一時停止」の検出に基づいて、ＮＭＤは再生を一時停止させる。コマンドキーワードエンジンの１つの利点は、記録されたオーディオが処理のために必ずしもＶＡＳに送信される必要がないことであり、これは、他の可能な利点の中でも、音声入力に対するより迅速な応答、ならびにユーザのプライバシーの増強をもたらし得る。以下に説明するいくつかの実装形態では、検出されたコマンドキーワードイベントは、音声入力のローカル自然言語処理などの１つ以上の後続のアクションを引き起こすことができる。いくつかの実装形態では、コマンドキーワードイベントは、そのような動作を引き起こす前に検出されなければならない１つ以上の他の条件のうちの１つの条件であり得る。

本明細書に記載の例示的な技術によれば、コマンドキーワードを検出した後、例示的なＮＭＤは、検出されたコマンドキーワードに対応する特定の条件が満たされた場合にのみ、コマンドキーワードイベントを生成する（および、検出されたコマンドキーワードに対応するコマンドを実行する）ことができる。例えば、コマンドキーワード「スキップ」を検出した後、例示的なＮＭＤは、スキップを実行すべきであることを示す特定の再生条件が満たされた場合にのみ、コマンドキーワードイベントを生成する（また、次のトラックにスキップする）。これらの再生条件は、例えば、（ｉ）メディアアイテムが再生されているという第１状態、（ｉｉ）キューがアクティブであるという第２状態、および（ｉｉｉ）再生されているメディアアイテムに後続するメディアアイテムをキューが含むという第３状態を含むことができる。これらの条件のいずれかが満たされない場合、コマンドキーワードイベントは生成されない（また、スキップが実行されない）。

コマンドキーワードイベントを生成する前に、（ａ）コマンドキーワードの検出、および（ｂ）検出されたコマンドキーワードに対応する特定の条件の両方を要求することによって、誤検知の発生率を低減することができる。例えば、ＴＶオーディオを再生するとき、ダイアログまたは他のＴＶオーディオは、ＴＶオーディオ入力がアクティブである（かつキューではない）ので、「スキップ」のコマンドキーワードに対して誤検知を生成する可能性がない。さらに、ＮＭＤは、制御デバイスゲートの状態に関する条件が整えば、ウェイクワードイベントを生成するので、コマンドキーワードを（ＮＭＤを音声入力受信可能状態にするためにボタンの押下を要求するのではなく）絶えず受信可能状態にしておく。

キーワードイベントを調整する態様は、ＶＡＳウェイクワードエンジンおよび他の従来のノンスのウェイクワードエンジンにも適用可能であり得る。例えば、そのような調整は、別様には誤検知になりやすい可能性があるコマンドキーワードエンジンに加えて、実用的な他のウェイクワードエンジンを可能にすることができる。例えば、ＮＭＤは、ストリーミングオーディオサービスに固有の特定のウェイクワードをサポートするストリーミングオーディオサービスウェイクワードエンジンを含むことができる。例えば、ストリーミングオーディオサービスのウェイクワードを検出した後、例示的なＮＭＤは、特定のストリーミングオーディオサービスが満たされた場合にのみ、ストリーミングオーディオサービスのウェイクワードイベントを生成する。これらの再生条件は、例えば、他の例の中でも、（ｉ）ストリーミングオーディオサービスへのアクティブなサブスクリプション、および（ｉｉ）キュー内のストリーミングオーディオサービスからのオーディオトラックを含むことができる。

さらに、コマンドキーワードは、単一のワードまたはフレーズであってもよい。フレーズは、一般に、より多くのシラブルを含み、これは、一般に、コマンドキーワードをより固有のものにし、コマンドキーワードエンジンによる識別をより容易にする。したがって、場合によっては、フレーズであるコマンドキーワードは、誤検知検出の傾向が低くなり得る。さらに、フレーズを使用することにより、より多くの意図をコマンドキーワードに組み込むことができる。例えば、「順方向にスキップ」というコマンドキーワードは、スキップが、前のトラックに戻るのではなく、キューにおいて次のトラックに進むべきであるということをシグナリングする。

さらに、ＮＭＤは、ローカル自然言語ユニット（ＮＬＵ）を含むことができる。多種多様な音声入力を認識することができる１つ以上のクラウドサーバに実装されたＮＬＵとは対照的に、例示的なローカルＮＬＵは、比較的小さなキーワードのライブラリ（例えば、１万のワードおよびフレーズ）を認識することができ、これにより、ＮＭＤに対する実用的な実装が容易になる。コマンドキーワードエンジンが、音声入力のコマンドキーワードを検出した後にコマンドキーワードイベントを生成すると、ローカルＮＬＵは、音声入力の音声発話部分を処理して、ライブラリからキーワードを探し、見つかったキーワードから意図を判定することができる。

音声入力の音声発話部分がライブラリからの少なくとも１つのキーワードを含む場合、ＮＭＤは、少なくとも１つのキーワードに対応する１つ以上のパラメータに従って、コマンドキーワードに対応するコマンドを実行することができる。言い換えれば、キーワードは、コマンドキーワードに対応するコマンドを変更またはカスタマイズすることができる。例えば、コマンドキーワードエンジンは、「再生」をコマンドキーワードとして検出するように構成されてもよく、ローカルＮＬＵライブラリは、「低音量」というフレーズを含むことができる。次いで、ユーザが音声入力として「音楽を低音量で再生して」と語った場合、コマンドキーワードエンジンは、「再生」のコマンドキーワードイベントを生成し、キーワード「低音量」を「再生」コマンドのパラメータとして使用する。したがって、ＮＭＤは、この音声入力に基づいて再生するだけでなく、音量も下げる。

例示的な技術は、ライブラリ内のキーワードをメディア再生システムのユーザにカスタマイズすることを含む。例えば、ＮＭＤは、メディア再生システムに設定された名前（例えば、ゾーン名、スマートデバイス名、ユーザ名）を使用して、ライブラリをポピュレートする（充足する）ことができる。さらに、ＮＭＤは、お気に入り再生リスト、インターネットラジオ局などの名前をローカルＮＬＵライブラリにポピュレートする（集める）ことができる。そのようなカスタマイズは、ローカルＮＬＵが音声コマンドでユーザをより効率的に支援することを可能にする。このようなカスタマイズはまた、ローカルＮＬＵライブラリのサイズを制限することができるため、有利であり得る。

ローカルＮＬＵの１つの可能な利点は、プライバシーの向上である。音声発話をローカルで処理することにより、ユーザは音声記録をクラウドに（例えば、音声アシスタントサービスのサーバに）送信することを回避することができる。さらに、いくつかの実装形態では、ＮＭＤは、ローカルエリアネットワークを使用して、ネットワークに接続された再生デバイスおよび／またはスマートデバイスを発見することができ、これにより、このデータをクラウドに提供することを回避することができる。また、ユーザの好みおよびカスタマイズは、家庭内のＮＭＤに対してローカルのままで、おそらくオプションのバックアップとしてクラウドを使用するだけであってもよい。他の利点も同様に可能である。

上述したように、例示的な技術はコマンドキーワードに関連していた。第１の例示的な実装形態は、ネットワークインターフェースと、１つ以上のプロセッサと、音を検出するように構成された少なくとも１つのマイクロフォンと、少なくとも１つのスピーカと、少なくとも１つのマイクロフォンによって検出された音を表す入力サウンドデータを受信し、ウェイクワードエンジンが入力サウンドデータのＶＡＳウェイクワードを検出したときに音声アシスタントサービス（ＶＡＳ）のウェイクワードイベントを生成するように構成されたウェイクワードエンジンであって、ＶＡＳウェイクワードイベントが生成されたときに、少なくとも１つのマイクロフォンによって検出された音を表すサウンドデータを、音声アシスタントサービスの１つ以上のサーバに、デバイスがストリーミングする、ウェイクワードエンジンと、少なくとも１つのマイクロフォンにより検出された音を表す入力サウンドデータを受信し、（ａ）第２のウェイクワードエンジンが、入力サウンドデータにおいて、第２のウェイクワードエンジンによってサポートされている複数のコマンドキーワードのうちの１つを検出し、（ｂ）検出されたコマンドキーワードに対応する１つ以上の再生条件が満たされているとき、コマンドキーワードイベントを生成するように構成された、コマンドキーワードエンジンであって、複数のコマンドキーワードのうちの各コマンドキーワードは、それぞれの再生コマンドである、コマンドキーワードエンジンとを含むデバイスを含む。デバイスは、コマンドキーワードエンジンを介して、第１のコマンドキーワードを検出し、第１のコマンドキーワードに対応する１つ以上の再生条件が満たされているかどうかを判定する。（ａ）第１のコマンドキーワードを検出することと、（ｂ）第１のコマンドキーワードに対応する１つ以上の再生条件が満たされていると判定することとに基づいて、デバイスは、コマンドキーワードエンジンを介して、第１のコマンドキーワードに対応するコマンドキーワードイベントを生成する。コマンドキーワードイベントに応答して、１つ以上の再生条件が満たされていると判定するのに応じて、デバイスは、第１のコマンドキーワードに対応する第１の再生コマンドを実行する。

第２の例示的な実装形態は、ネットワークインターフェースと、１つ以上のプロセッサと、音を検出するように構成された少なくとも１つのマイクロフォンと、少なくとも１つのスピーカと、少なくとも１つのマイクロフォンによって検出された音を表す入力サウンドデータを受信し、ウェイクワードエンジンが入力サウンドデータのＶＡＳウェイクワードを検出したときに音声アシスタントサービス（ＶＡＳ）のウェイクワードイベントを生成するように構成されたウェイクワードエンジンであって、ＶＡＳウェイクワードイベントが生成されたときに、少なくとも１つのマイクロフォンによって検出された音を表すサウンドデータを、音声アシスタントサービスの１つ以上のサーバに、デバイスがストリーミングする、ウェイクワードエンジンと、少なくとも１つのマイクロフォンにより検出された音を表す入力サウンドデータを受信するように構成された、コマンドキーワードエンジンとを含むデバイスを含む。デバイスは、コマンドキーワードエンジンを介して、デバイスによってサポートされる複数のコマンドキーワードのうちの１つである第１のコマンドキーワードを検出し、ローカル自然言語ユニット（ＮＬＵ）を介して、少なくとも１つのキーワードに基づいて意図を判定する。第１のコマンドキーワードイベントを検出して意図を判定した後、デバイスは、判定された意図に従って第１のコマンドキーワードに対応する第１の再生コマンドを実行する。

本明細書で説明されるいくつかの実施形態は、「ユーザ」および／または他のエンティティなどの所与の行為者によって実行される機能を指すことができるが、この説明は説明のみを目的としていることを理解されたい。特許請求の範囲は、特許請求の範囲自体の文言によって明示的に必要とされない限り、任意のそのような例示的行為者による行為を必要とすると解釈されるべきではない。

さらに、本明細書では、いくつかの機能は、別の要素または機能「に基づいて」または「に応答して」実行されるものとして説明される。「に基づく」は、１つの要素または機能が別の機能または要素に関連していることを理解されたい。「応答して」が、１つの要素または機能が別の機能または要素の必要な結果であることを理解されたい。簡潔にするために、機能リンクが存在する場合、機能は一般に別の機能に基づくものとして説明される。しかしながら、そのような開示は、いずれかのタイプの機能的関係を開示するものとして理解されるべきである。

ＩＩ．動作環境の例
図１Ａおよび図１Ｂは、ここに開示された１つまたは複数の実施形態が実施され得るメディア再生システム１００（または「ＭＰＳ１００」）の構成例を示す。まず、図１Ａを参照すると、図示されているＭＰＳ１００は、複数の部屋と空間を有する例示的な家庭環境に関連付けられており、これらは総称して「家庭環境」、「スマートホーム」、または「環境１０１」とも言う。環境１０１は、マスターバスルーム１０１ａ、マスターベッドルーム１０１ｂ（ここでは「ニックの部屋」と呼ぶ）、セカンドベッドルーム１０１ｃ、ファミリールームまたはデン１０１ｄ、オフィス１０１ｅ、リビングルーム１０１ｆ、ダイニングルーム１０１ｇ、キッチン１０１ｈ、および屋外パティオ１０１ｉを含み、いくつかの部屋、スペース、および／または再生ゾーンを有する家庭からなる。以下では、家庭環境の下での特定の実施形態や例を説明するが、ここで説明する技術は他のタイプの環境でも実施可能である。いくつかの実施形態では、例えば、ＭＰＳ１００は、１つ以上の商業環境（例えば、レストラン、モール、空港、ホテル、小売店などの店舗）、１つ以上の車両（例えば、スポーツユーティリティビークル、バス、車、船、ボート、飛行機）、複数の環境（例えば、家庭環境と車両環境の組み合わせ）、および／または、マルチゾーンオーディオが望ましいと思われる別の適切な環境で実施することができる。

これらの部屋や空間の中で、ＭＰＳ１００は１つ以上のコンピューティングデバイスを含む。図１Ａおよび図１Ｂを一緒に参照すると、そのようなコンピューティングデバイスは、再生デバイス１０２（再生デバイス１０２ａ～１０２ｏとして個別に識別される）、ネットワークマイクロフォンデバイス１０３（「ＮＭＤ」１０３ａ～１０２ｉとして個別に識別される）、およびコントローラデバイス１０４ａおよび１０４ｂ（総称して「コントローラデバイス１０４」）を含むことができる。図１Ｂを参照すると、家庭環境は、１つまたは複数のスマートイルミネーションデバイス１０８（図１Ｂ）、スマートサーモスタット１１０、およびローカルコンピューティングデバイス１０５（図１Ａ）などの、ローカルネットワークデバイスを有する、追加および／または他のコンピューティングデバイスを含んでもよい。以下に説明する実施形態では、様々な再生装置１０２のうち１つ以上は携帯型の再生装置として構成されてもよく、他は据置型の再生装置として構成されてもよい。例えば、ヘッドフォン１０２ｏ（図１Ｂ）は携帯型の再生装置であり、本棚に設置された再生装置１０２ｄは据置型の装置であってもよい。別の例として、パティオの再生装置１０２ｃは、バッテリ駆動の装置であってもよく、これにより、壁のコンセントなどに接続されていない状態で、環境１０１内の様々な場所や、環境１０１外に持ち運ぶことができる。

なお、図１Ｂを参照すると、ＭＰＳ１００の様々な再生装置、ネットワークマイクロフォン、およびコントローラ装置１０２～１０４および／または他のネットワーク装置は、ネットワークルータ１０９を含むＬＡＮなどのネットワーク１１１を介して、ポイントツーポイント接続および／または有線および／または無線である他の接続を介して、互いに組合せ（ｃｏｕｐｌｅ）されてもよい。例えば、デン１０１ｄ（図１Ａ）にある再生装置１０２ｊは、「左」の装置として指定されることがあり、同じくデン１０１ｄにあり、「右」の装置として指定されることがある再生装置１０２ａとポイントツーポイントで接続されることがある。関連する実施形態では、左再生装置１０２ｊは、ネットワーク１１１を介したポイントツーポイント接続および／または他の接続を介して、「前」の装置として指定されることがある再生装置１０２ｂなどの他のネットワーク装置と通信してもよい。

図１Ｂにさらに示すように、ＭＰＳ１００は、ワイドエリアネットワーク（「ＷＡＮ」）１０７を介して１つまたは複数のリモートコンピューティングデバイス１０６に組合せされてもよい。いくつかの実施形態では、各リモートコンピューティングデバイス１０６は、１つまたは複数のクラウドサーバの形態をとってもよい。リモートコンピューティングデバイス１０６は、様々な方法で環境１０１のコンピューティングデバイスと対話するように構成されてもよい。例えば、リモートコンピューティングデバイス１０６は、家庭環境１０１において、オーディオなどのメディアコンテンツのストリーミングおよび／または再生制御を容易にするように構成されてもよい。

いくつかの実装では、様々な再生デバイス、ＮＭＤ、および／またはコントローラデバイス１０２～１０４は、ＶＡＳに関連する少なくとも１つのリモートコンピューティングデバイス、およびメディアコンテンツサービス（「ＭＣＳ」）に関連する少なくとも１つのリモートコンピューティングデバイスに通信可能に組合せされてもよい。例えば、図１Ｂの例示された例では、リモートコンピューティングデバイス１０６は、ＶＡＳ１９０に関連付けられており、リモートコンピューティングデバイス１０６ｂは、ＭＣＳ１９２に関連付けられている。図１Ｂの例では、分かりやすくするために、単一のＶＡＳ１９０と単一のＭＣＳ１９２のみを示しているが、ＭＰＳ１００は、複数の異なるＶＡＳおよび／またはＭＣＳに組合せされていてもよい。いくつかの実装では、ＶＡＳは、ＡＭＡＺＯＮ（登録商標）、ＧＯＯＧＬＥ（登録商標）、ＡＰＰＬＥ（登録商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）、ＳＯＮＯＳ（登録商標）、または他の音声アシスタントプロバイダーの１つまたは複数によって運営されてもよい。いくつかの実装では、ＭＣＳは、ＳＰＯＴＩＦＹ（登録商標）、ＰＡＮＤＯＲＡ（登録商標）、ＡＭＡＺＯＮＭＵＳＩＣ（登録商標）、または他のメディアコンテンツサービスの１つまたは複数によって運営されてもよい。

図１Ｂにさらに示すように、リモートコンピューティングデバイス１０６は、メディア再生機能の遠隔促進、デバイスおよびシステムのステータス情報の管理、ＭＰＳ１００のデバイスと１つまたは複数のＶＡＳおよび／またはＭＣＳとの間の通信の指示など、特定の動作を実行するように構成されたリモートコンピューティングデバイス１０６ｃをさらに含む。一例では、リモートコンピューティングデバイス１０６ｃは、１つまたは複数のＳＯＮＯＳＷｉｒｅｌｅｓｓＨｉＦｉＳｙｓｔｅｍのクラウドサーバを提供する。

様々な実装において、再生デバイス１０２の１つまたは複数は、オンボード（例えば、統合された）ネットワークマイクロフォンデバイスの形態をとるか、またはそれを含むことができる。例えば、再生装置１０２ａ～ｅは、それぞれＮＭＤ１０３ａ～ｅを含む、またはそれに対応するものを備えている。なお、ここでは、ＮＭＤを搭載した再生機を、特に断りのない限り、再生機またはＮＭＤと呼ぶ。いくつかのケースでは、ＮＭＤ１０３のうちの１つまたは複数が、スタンドアロン型のデバイスであってもよい。例えば、ＮＭＤ１０３ｆおよび１０３ｇは、スタンドアロン型の装置であってもよい。単体のＮＭＤでは、スピーカや関連電子機器など、再生機器に含まれる部品や機能が省略されている場合がある。例えば、このような場合、スタンドアロンのＮＭＤは、音声出力を行わないか、出力できても限られた音声出力（例えば、比較的低品質の音声出力）を行う。

ＭＰＳ１００の様々な再生装置およびネットワークマイクロフォンデバイス１０２および１０３は、それぞれ固有の名前と関連付けされていてもよく、この名前は、これらのデバイスの１つまたは複数のセットアップ中などに、ユーザによってそれぞれのデバイスに割り当てられてもよい。例えば、図１Ｂの図示例に示すように、再生装置１０２ｄが物理的に本棚の上に位置していることから、ユーザは「本棚」という名前を付けてもよい。同様に、ＮＭＤ１０３ｆは、キッチン１０１ｈ（図１Ａ）のアイランドカウンター上に物理的に位置しているため、「アイランド」という名称を割り当ててもよい。再生装置の中には、ゾーンや部屋に応じた名前が割り当ててもよく、例えば、再生装置１０２ｅ、１０２ｌ、１０２ｍ、１０２ｎには、それぞれ「ベッドルーム」、「ダイニングルーム」、「リビングルーム」、「オフィス」という名前を付けても良い。さらに、特定の再生装置は、機能的に記述的な名前を持つことができる。例えば、再生装置１０２ａと１０２ｂには、それぞれ「右」と「前」という名前が割り当てられるが、これは、これら２つの装置が、デン１０１ｄ（図１Ａ）のゾーンでのメディア再生時に、特定のオーディオチャンネルを提供するように構成されているからである。パティオの再生装置１０２ｃは、バッテリ駆動であること、および／または、環境１０１の異なる領域に容易に持ち運び可能であることから、ポータブルと名前を付けられてもよい。他の命名規則も可能である。

上述したように、ＮＭＤは、ＮＭＤの周辺にいる人の会話の音声と背景雑音が混ざった音など、環境からの音を検出し、処理することができる。例えば、ＮＭＤが環境中で音を検出すると、ＮＭＤは検出された音を処理して、その音がＮＭＤを、最終的には特定のＶＡＳを意図した音声入力を含むスピーチを含んでいるかどうかを判断することができる。例えば、ＮＭＤは、音声に特定のＶＡＳに関連するウェイクワードが含まれているかどうかを識別することができる。

図１Ｂの例示された例では、ＮＭＤ１０３は、ネットワーク１１１およびルータ１０９を介してネットワーク上でＶＡＳ１９０と対話するように構成されている。ＶＡＳ１９０とのインタラクションは、例えば、ＮＭＤが検出した音の中に潜在的なウェイクワードを識別したときに開始される。この識別により、ウェイクワードイベントが発生し、ＮＭＤが検出した音データをＶＡＳ１９０へ送信することが開始される。いくつかの実施形態では、ＭＰＳ１００の様々なローカルネットワークデバイス１０２～１０５（図１Ａ）および／またはリモートコンピューティングデバイス１０６ｃは、選択されたＶＡＳに関連するリモートコンピューティングデバイスと様々なフィードバック、情報、命令、および／または関連データを交換してもよい。このような情報の交換は、音声入力を含む送信メッセージに関連している場合もあれば、独立している場合もある。ある実施形態では、リモートコンピューティングデバイス（複数可）およびＭＰＳ１００は、ここに記載されているような通信パスを介して、および／または、２０１７年２月２１日に出願され、「ＶｏｉｃｅＣｏｎｔｒｏｌｏｆａＭｅｄｉａＰｌａｙｂａｃｋＳｙｓｔｅｍ」と題された米国出願第１５／４３８，７４９号に記載されているメタデータ交換チャネルを使用して、データを交換してもよい。米国出願第１５／４３８，７４９号を参照することにより、その内容の全ては、本願明細書の中に含まれるものとする。

サウンドデータのストリームを受信すると、ＶＡＳ１９０は、ＮＭＤからのデータストリームに音声入力があるかどうかを判断し、ある場合にはＶＡＳ１９０は、音声入力に含まれる用語の意図も判断する。ＶＡＳ１９０は、次に、リスポンスをＭＰＳ１００に返送するが、このリスポンスは、ウェイクワードイベントを引き起こしたＮＭＤに直接送信する。このリスポンスは、ＶＡＳ１９０が音声入力に意図が存在すると判断した事に基づいて行われる。一例として、ＶＡＳ１９０が「ビートルズのヘイジュードを再生（ＰｌａｙＨｅｙＪｕｄｅｂｙＴｈｅＢｅａｔｌｅｓ）」という命令を伴う音声入力を受信したことに応答して、ＶＡＳ１９０は、音声入力の基本的な意図が再生を開始することであると判断し、さらに音声入力の意図が特定の曲“ヘイジュード（ＨｅｙＪｕｄｅ）”を再生することであると判断してもよい。これらの決定の後、ＶＡＳ１９０は、コンテンツ（すなわち、曲「ヘイジュード（ＨｅｙＪｕｄｅ）」）を取得するためのコマンドを特定のＭＣＳ１９２に送信してもよく、そのＭＣＳ１９２は、続いて、このコンテンツをＭＰＳ１００に直接、またはＶＡＳ１９０を介して間接的に提供（例えば、ストリーム提供）する。いくつかの実施形態では、ＶＡＳ１９０は、ＭＰＳ１００にコマンドを送信し、ＭＰＳ１００自身がＭＣＳ１９２からコンテンツを取得する様にしてもよい。

ある実施形態においては、互いに近接して配置された二つ以上のＮＭＤによって検出された音声に音声入力が識別された場合、ＮＭＤは、互いの仲裁処理を行うことができる。例えば、環境１０１（図１Ａ）にあるＮＭＤ搭載の再生装置１０２ｄは、リビングルームにあるＮＭＤ搭載の再生装置１０２ｍと近接しており、両装置１０２ｄ、１０２ｍは少なくとも同時に同じ音を検出することがある。このような場合、どのデバイスがリモートＶＡＳに検知したサウンドデータを送信する責任があるかについて、仲裁が必要になる。ＮＭＤ間の仲裁の例は、例えば、先に説明した米国出願第１５／４３８，７４９号明細書に記載されている。

ある実施形態では、ＮＭＤは、ＮＭＤを含まない再生デバイスと、指定により、又はデフォルトにより関連付けされていてもよい。例えば、キッチン１０１ｈ（図１Ａ）にあるアイランドＮＭＤ１０３ｆを、アイランドＮＭＤ１０３ｆと比較的近い場所にあるダイニングルームの再生装置１０２ｌに割り当ててもよい。実際、ＮＭＤからの音声入力をリモートＶＡＳが受けたことに応答して、ＮＭＤは、割り当てられている再生装置にオーディオを生成させるように指示しても良い。ここで、ユーザが特定の曲、アルバム、プレイリストなどを再生するコマンドを話したことに応じてＮＭＤからＶＡＳに音声入力が送られる。ＮＭＤや再生装置を指定装置またはデフォルト装置として割り当てることについての詳細は、例えば、先に説明した米国特許出願明細書に記載されている。

例示的なＭＰＳ１００の異なる構成要素に関連するさらなる側面、および異なる構成要素がどのように相互作用してユーザにメディア体験を提供するかについては、以下のセクションに記載されている。ここでの議論は一般的に例示のＭＰＳ１００に言及しているが、ここで説明する技術は、特に上述の家庭環境内でのアプリケーションに限定されるものではない。例えば、ここに記載の技術は、再生装置、ネットワークマイクロフォン、および／またはコントローラ装置１０２～１０４のいずれかをより多くまたはより少なく構成した他の家庭環境の構成においても有用である。例えば、ここに記載の技術は、単一の再生装置１０２および／または単一のＮＭＤ１０３を有する環境内で利用することができる。かかる場合、ネットワーク１１１（図１Ｂ）を廃止し、単一の再生装置１０２および／または単一のＮＭＤ１０３が、リモートコンピューティング装置１０６～ｄと直接通信してもよい。ある実施形態では、通信ネットワーク（例えば、ＬＴＥネットワーク、５Ｇネットワークなど）が、ＬＡＮとは独立して、様々な再生装置、ネットワークマイクロフォン、および／またはコントローラ装置１０２～１０４と通信してもよい。

ａ．再生装置及びネットワークマイクロフォンデバイスの例
図２Ａは、図１Ａおよび図１ＢのＭＰＳ１００の再生装置１０２の１つの特定の側面を示す機能ブロック図である。図示されているように、再生装置１０２は、それぞれが以下でさらに詳細に説明される様々な構成要素を含み、再生装置１０２の様々な構成要素は、システムバス、通信ネットワーク、又は何らかの他の接続機構を介して、互いに動作可能に組合せされている。図２Ａの図示された例では、再生装置１０２は、図１Ａに示されたＮＭＤ１０３の一例の様に、ＮＭＤの機能をサポートするコンポーネントを含むため、「ＮＭＤ搭載」再生装置と呼ぶことがある。

図示されているように、再生装置１０２は、少なくとも１つのプロセッサ２１２を含み、このプロセッサは、メモリ２１３に格納された命令に従って入力データを処理するように構成されたクロック駆動型コンピューティングコンポーネントであってもよい。メモリ２１３は、プロセッサ２１２によって実行可能な命令を格納するように構成され、有形で、非一過性の、コンピュータ可読媒体である。例えば、メモリ２１３は、特定の機能を実現するためにプロセッサ２１２によって実行可能なソフトウェアコード２１４をロードすることができるデータストレージである。

一例では、これらの機能は、再生装置１０２（他の再生装置であってもよい）が、オーディオソースからオーディオデータを取得する機能を含む。別の例では、機能は、再生装置１０２が、音声データ、検出されたサウンドデータ（例えば、音声入力に対応する）、および／または他の情報を、少なくとも１つのネットワークインターフェース２２４を介して、ネットワーク上の別の装置に送信することを含む。さらに別の例では、機能は、再生装置１０２が、１つまたは複数の他の再生装置に、再生装置１０２と同期して音声を再生させることを含んでもよい。さらに別の例では、機能は、再生装置１０２が１つ以上の他の再生装置とペアリングまたはその他の方法で結合することを可能にし、マルチチャネルオーディオ環境を作成することを含む。他にも多数の機能例が考えられるが、そのうちのいくつかを以下に説明する。

上述したように、特定の機能には、再生装置１０２が１つ以上の他の再生装置とオーディオコンテンツの再生を同期させることを含む。同期再生時には、リスナーは、同期再生機器によるオーディオコンテンツの再生間の時間差を認識できない。２００４年４月４日に出願された米国特許第８，２３４，３９５号の明細書は、「独立したクロックを持つ複数のデジタルデータ処理装置間で動作を同期させるシステムおよび方法（Ｓｙｓｔｅｍａｎｄｍｅｔｈｏｄｆｏｒｓｙｎｃｈｒｏｎｉｚｉｎｇｏｐｅｒａｔｉｏｎｓａｍｏｎｇａｐｌｕｒａｌｉｔｙｏｆｉｎｄｅｐｅｎｄｅｎｔｌｙｃｌｏｃｋｅｄｄｉｇｉｔａｌｄａｔａｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ）」という発明の名称であり、再生機器間でのオーディオ再生の同期化に関するいくつかの例をより詳細に説明している。

オーディオの再生を容易にするため、再生デバイス１０２は、再生デバイス１０２がオーディオをレンダリングする前にオーディオを処理するように構成されたオーディオ処理コンポーネント２１６を含む。このため、オーディオ処理コンポーネント２１６は、１つまたは複数のデジタル－アナログコンバータ（「ＤＡＣ」）、１つまたは複数のオーディオ前処理コンポーネント、１つまたは複数のオーディオエンハンスメントコンポーネント、１つまたは複数のデジタルシグナルプロセッサ（「ＤＳＰ」）などを含んでいる。いくつかの実施形態では、オーディオ処理コンポーネント２１６の１つまたは複数は、プロセッサ２１２のサブコンポーネントであってもよい。オーディオ処理コンポーネント２１６は、アナログおよび／またはデジタルのオーディオを受信し、処理し、またはその他の方法で意図的に変更して、再生用のオーディオ信号を生成する。

生成されたオーディオ信号は、次に、増幅のために１つまたは複数の増幅器２１７に送られ、増幅器２１７に動作可能に組合された１つまたは複数のスピーカ２１８を介して再生される。オーディオ増幅器２１７は、オーディオ信号を、１つ以上のスピーカ２１８を駆動するためのレベルに増幅するように構成されたコンポーネントを含んでもよい。

スピーカ２１８の各々は、それぞれトランスデューサ（例えば、「ドライバ」）を含んでいてもよいし、スピーカ群としてのスピーカ２１８は、１つ以上のドライバを有するエンクロージャを含む完全なスピーカシステムを含んでいてもよい。スピーカ２１８の特定のドライバは、例えば、サブウーファ（例えば、低周波用）、ミッドレンジドライバ（例えば、中周波用）、および／またはツイータ（例えば、高周波用）を含んでもよい。あるケースでは、トランスデューサは、オーディオ増幅器群２１７のそれぞれの対応するオーディオ増幅器によって駆動されてもよい。いくつかの実施形態では、再生装置は、スピーカ２１８を含まず、代わりに、再生装置を外部スピーカに接続するためのスピーカインターフェースを含んでもよい。特定の実施形態では、再生装置は、スピーカ２１８もオーディオ増幅器２１７も含まず、代わりに、再生装置を外部のオーディオ増幅器またはオーディオビジュアル受信機に接続するためのオーディオインターフェース（図示せず）を含んでもよい。

再生装置１０２による再生のためにオーディオ信号を生成することに加えて、オーディオ処理コンポーネント２１６は、再生のために、ネットワークインターフェース２２４を介して、１つまたは複数の他の再生装置に送信されるオーディオを処理するように構成されてもよい。例示的なシナリオでは、再生装置１０２によって処理および／または再生されるオーディオコンテンツは、再生装置１０２のオーディオラインインインターフェース（例えば、自動検出３．５ｍｍオーディオラインイン接続）を介して（図示せず）、または後述するようにネットワークインターフェース２２４を介してなど、外部ソースから受信されてもよい。

図示されているように、少なくとも１つのネットワークインターフェース２２４は、１つ以上の無線インターフェース２２５および／または１つ以上の有線インターフェース２２６の形態をとることができる。無線インターフェースは、再生装置１０２が通信プロトコル（例えば、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇモバイル通信規格等を含む任意の無線規格）に従って他の装置（例えば、他の再生装置（複数可）、ＮＭＤ（複数可）、および／またはコントローラ装置（複数可））と無線通信するためのネットワークインターフェース機能を提供してもよい。有線インターフェースは、再生装置１０２が通信プロトコル（例えば、ＩＥＥＥ８０２．３）に従って他の装置と有線接続で通信するためのネットワークインターフェース機能を提供してもよい。図２Ａに示すネットワークインターフェース２２４は、有線および無線の両方のインターフェースを含むが、再生装置１０２は、いくつかの実施形態において、無線インターフェースのみ、または、有線インターフェースのみを含んでもよい。

一般的に、ネットワークインターフェース２２４は、再生装置１０２と、データネットワーク上の１つ以上の他の装置との間のデータフローを容易にする。例えば、再生装置１０２は、１つまたは複数の他の再生装置、ＬＡＮ内のネットワーク装置、および／またはインターネットなどのＷＡＮを介したオーディオコンテンツソースから、データネットワークを介してオーディオコンテンツを受信するように構成されてもよい。一例では、再生装置１０２によって送受信されるオーディオコンテンツおよびその他の信号は、インターネットプロトコル（ＩＰ）ベースのソースアドレスおよびＩＰベースのデスティネーションアドレスからなるデジタルパケットデータの形態で送信されてもよい。このような場合、ネットワークインターフェース２２４は、再生装置１０２に向けられたデータが再生装置１０２によって適切に受信および処理されるように、デジタルパケットデータを解析するように構成されてもよい。

図２Ａに示すように、再生装置１０２は、１つまたは複数のマイクロフォン２２２に動作可能に組合される音声処理コンポーネント２２０も含む。マイクロフォン２２２は、再生装置１０２の環境における音（すなわち、音響波でありサウンドとも言う）を検出するように構成されており、その音は音声処理コンポーネント２２０に提供される。より具体的には、各マイクロフォン２２２は、音を検出し、その検出された音をデジタル信号またはアナログ信号に変換するように構成され、更に、以下でより詳細に説明するように、検出された音に基づいて、音声処理コンポーネント２２０に様々な機能を実行させる。ある実施形態では、マイクロフォン２２２は、複数のマイクロフォンが集まったアレイ（例えば、６個のマイクロフォンのアレイ）として配置されている。また、ある実施形態では、再生装置１０２は、６つ以上のマイクロフォン（例えば、８つのマイクロフォンまたは１２のマイクロフォン）または６つ以下のマイクロフォン（例えば、４つのマイクロフォン、２つのマイクロフォン、または単一のマイクロフォン）を含む。

動作において、音声処理コンポーネント２２０は、一般に、マイクロフォン２２２を介して受信された音を検出および処理し、検出された音の中で潜在的な音声入力を識別し、検出された音データを抽出するように構成され、これにより、ＶＡＳ１９０（図１Ｂ）などのＶＡＳにより検出された音データの中で識別された音声入力を処理できるようにする。音声処理コンポーネント２２０は、種々のコンポーネントを含み、例えば、１つまたは複数のアナログ－デジタル変換器、音響エコーキャンセラ（「ＡＥＣ」）、空間プロセッサ（例えば、１つまたは複数のマルチチャネルＷｉｅｎｅｒフィルタ、１つまたは複数の他のフィルタ、および／または１つまたは複数のビームフォーマコンポーネント）、１つまたは複数のバッファ（例えば。１つまたは複数の円形バッファ）、１つまたは複数のウェイクワードエンジン、１つまたは複数の音声抽出器、および／または１つまたは複数の音声処理コンポーネント（例えば、特定のユーザ又はある世帯における複数の特定のユーザの音声を認識することができるコンポーネント）などを含む。例示的な実施形態では、音声処理コンポーネント２２０は、１つまたは複数のＤＳＰまたは１つまたは複数のＤＳＰ用のモジュールを含む。この点において、特定の音声処理コンポーネント２２０は、特定の機能を実現するために修正またはその他の方法で調整される特定のパラメータ（例えば、ゲインおよび／またはスペクトルパラメータ）を有することもできる。いくつかの実施形態では、音声処理コンポーネント２２０の１つまたは複数は、プロセッサ２１２のサブコンポーネントであってもよい。

図２Ａにさらに示すように、再生装置１０２は、パワーコンポーネント２２７も含む。パワーコンポーネント２２７は、少なくとも外部パワーインターフェース２２８を含み、再生装置１０２をコンセントやその他の外部電源に物理的に接続する電源ケーブルなどを介して、電源（図示せず）に組合されてもよい。パワーコンポーネントとして他に、例えば、電力を設定するトランス、コンバータなどがある。

いくつかの実施形態では、再生装置１０２のパワーコンポーネント２２７は、外部電源への物理的な接続なしに再生装置１０２に電力を供給するように構成された内部パワーソース２２９（例えば、１つまたは複数の電池）をさらに含んでもよい。内部パワーソース２２９を備える場合、再生装置１０２は、外部パワーソースに依存せずに動作することができる。いくつかのそのような実施形態では、外部パワーソースインターフェース２２８は、内部パワーソース２２９の充電を容易にするように構成されてもよい。前述したように、内部パワーソースを備えた再生装置を、ここでは「ポータブル再生装置」と呼ぶことがある。一方、外部パワーソースを利用して動作する再生装置を「据え置き型再生装置」と呼ぶが、実際には家庭内などで移動可能である。

再生装置１０２は、ユーザインターフェース２４０をさらに含み、それによりユーザインタラクションが容易にされ、さらに、１つまたは複数のコントローラ装置１０４により容易にされたユーザインタラクションと連動するようにしてもよい。様々な実施形態において、ユーザインターフェース２４０は、１つ以上の物理的なボタンを含むものもあれば、ユーザの直接入力が可能な、タッチセンシティブなスクリーン（複数可）および／または表面（複数可）が提供されるグラフィカルインターフェースをサポートするものもある。ユーザインターフェース２４０は、視覚的および／または音声的なフィードバックを提供するライト（例えば、ＬＥＤ）およびスピーカのうちの１つまたは複数をさらに含んでもよい。

例として、図２Ｂは、再生装置１０２のハウジング２３０を示し、ハウジング２３０の上部分２３４にコントロールエリア２３２の形でユーザインターフェースを含む。コントロールエリア２３２には、オーディオの再生やボリュームレベルなどをコントロールするためのボタン２３６ａ～ｃが含まれている。また、コントロールエリア２３２には、マイクロフォン２２２をオン状態とオフ状態のいずれかに切り替えるためのボタン２３６ｄが設けられている。

図２Ｂにさらに示すように、コントロールエリア２３２は、ハウジング２３０の上面部２３４に形成された開口部によって少なくとも部分的に囲まれており、それを介してマイクロフォン２２２（図２Ｂでは見えない）が再生装置１０２の環境下で音を受信する。マイクロフォン２２２は、再生装置１０２に対して１つまたは複数の方向からの音を検出するように、ハウジング２３０の上面部２３４または他の領域に沿っておよび／またはその中の様々な位置に配置されてもよい。

例示として、ソノス株式会社（ＳＯＮＯＳ，Ｉｎｃ．）は、ここに開示された特定の実施形態を実施することができる特定の再生装置を販売しており、それらは、「ＰＬＡＹ：１」、「ＰＬＡＹ：３」、「ＰＬＡＹ：５」、「ＰＬＡＹＢＡＲ」、「ＣＯＮＮＥＣＴ：ＡＭＰ」、「ＰＬＡＹＢＡＳＥ」、「ＢＥＡＭ」、「ＣＯＮＮＥＣＴ」、および「ＳＵＢ」を含む。過去、現在、および／または未来に出される他の再生装置が、ここで開示される例示的な実施形態の再生装置を実施するために追加的または代替的に使用されてもよい。さらに、再生装置は、図２Ａまたは２Ｂに示された例や、ソノス製品の提供に限定されない。例えば、再生装置は、有線または無線のヘッドフォンセットを含むか、またはそのような形態をとってもよく、ネットワークインターフェースなどを介してＭＰＳ１００の一部として動作してもよい。別の例として、再生装置は、個人用モバイルメディア再生装置のためのドッキングステーションを含むか、それと相互作用することができる。さらに別の例では、再生装置は、テレビや照明器具など、屋内外で使用される他の機器や部品と一体化が可能である。

図２Ｃは、ＮＭＤまたはＮＭＤ搭載再生デバイスによって処理され得る例示的な音声入力２８０の図である。音声入力２８０は、キーワード部分２８０ａおよび発話部分２８０ｂを含むことができる。キーワード部分２８０ａは、ウェイクワードまたはコマンドキーワードを含むことができる。ウェイクワードの場合、キーワード部分２８０ａは、ウェイクワードを引き起こす検出された音に対応する。発話部分２８０ｂは、キーワード部分２８０ａに続くユーザの要求を潜在的に含む検出された音に対応する。発話部分２８０ｂは、キーワード部分２８０ａによって引き起こされたイベントに応答して、ＮＭＤによって検出されたサウンドデータ内の任意のワードの存在を識別するために処理することができる。様々な実装形態において、基礎となる意図は、発話部分２８０ｂにおけるワードに基づいて決定することができる。特定の実装形態では、基礎となる意図はまた、キーワード部分がコマンドキーワードを含む場合など、キーワード部分２８０ａ内の特定のワードに基づいてもよく、または少なくとも部分的に基づいてもよい。いずれの場合でも、ワードは、１つ以上のコマンド、ならびに特定のコマンドおよび特定のキーワードに対応することができる。音声発話部分２８０ｂにおけるキーワードは、例えば、ＭＰＳ１００における特定のデバイスまたはグループを識別するワードであってもよい。例えば、図示の例では、音声発話部分２８０ｂのキーワードは、リビングルームおよびダイニングルーム（図１Ａ）などの、音楽が再生されることになる１つ以上のゾーンを識別する１つ以上のワードであってもよい。場合によっては、発話部分２８０ｂは、図２Ｃに示すように、ユーザが語ったワード間の検出された一時停止すなわちポーズ（例えば、語っていない期間）などの追加情報を含むことができる。一時停止は、発話部分２８０ｂ内でユーザによって語られた別個のコマンド、キーワード、または他の情報の位置を画定することができる。

特定のコマンドの基準に基づいて、ＮＭＤおよび／またはリモートＶＡＳは、音声入力の１つ以上のコマンドを識別した結果として作用させることができる。コマンド基準は、とりわけ、音声入力の中に特定のキーワードを含めることに基づいてもよい。それに加えて、またはその代わりに、コマンドのコマンド基準は、１つ以上の特定のコマンドの識別と併せて、１つ以上の制御状態変数および／またはゾーン状態変数の識別を含んでもよい。制御状態変数は、例えば、音量のレベルを識別するインジケータ、１つ以上のデバイスに関連付けられたキュー、およびデバイスがキューを再生しているか、一時停止しているかなどの再生状態を含むことができる。ゾーン状態変数は、例えば、あるとすれば、どのゾーンプレイヤがグループ化されているかを識別するインジケータを含むことができる。

いくつかの実装形態では、ＭＰＳ１００は、キーワード部分２８０ａにおいてウェイクワードなどの特定のキーワードを検出すると、再生しているオーディオコンテンツの音量を一時的に低減するように構成される。ＭＰＳ１００は、音声入力２８０を処理した後に音量を復元することができる。そのようなプロセスは、ダッキングと呼ぶことができ、その例は、参照によりその全体が本明細書に組み込まれる米国特許出願公開第１５／４３８，７４９号明細書に開示されている。

図２Ｄは、例示的な音の標本を示す。この例では、音の標本は、図２Ａのキーワード部分２８０ａ内のスポットされたウェイクワードまたはコマンドキーワードに関連付けられたサウンドデータストリーム（例えば、１つ以上のオーディオフレーム）に対応する。図示されているように、例示的な音の標本は、（ｉ）（時刻ｔ_０とｔ_１の間）プレロール部分（事象前）と称され得る、ウェイクワードまたはコマンドワードが語られる直前、（ｉｉ）（時刻ｔ_１とｔ_２の間）ウェイクメータ部分と称され得る、ウェイクワードまたはコマンドワードが発せられている間、および／または（ｉｉｉ）（時刻ｔ_２とｔ_３の間）ポストロール部分（事象後）と称され得る、ウェイクワードまたはコマンドワードが語られた後の、ＮＭＤの環境において検出された音を含む。他の音の標本も可能である。様々な実装形態において、音の標本の態様は、さらなる処理のために、メル／スペクトル特徴を所与の言語モデルの音素にマッピングすることを目的とする音響モデルに従って評価することができる。例えば、自動音声認識（ＡＳＲ）は、コマンド－キーワード検出のためのそのようなマッピングを含むことができる。対照的に、ウェイクワード検出エンジンは、特定のウェイクワードと、ＶＡＳを呼び出す下流の動作とを識別するように正確に調整され得る（例えば、再生デバイスによって処理された音声入力におけるノンスワードのみを対象とすることによって）。

コマンドキーワード検出のＡＳＲは、広範囲のキーワード（例えば、５、１０、１００、１，０００、１万のキーワード）に対応するように調整することができる。コマンドキーワード検出は、ウェイクワード検出とは対照的に、コマンドワードイベントがいつ発生したかをＡＳＲと共に判定するオンボードなローカルＮＬＵにＡＳＲ出力を供給することを含んでもよい。後述するいくつかの実装形態では、ローカルＮＬＵは、特定の音声入力によって生成されたＡＳＲ出力の１つ以上の他のキーワードに基づいて意図を判定してもよい。これらのまたは他の実装形態では、再生デバイスは、再生デバイスが環境条件（例えば、低バックグラウンドノイズ）などの特定の条件が満たされたと判定したときにのみ、検出されたコマンドキーワードイベントに作用し得る。

ｂ．再生装置の構成例
図３Ａ～３Ｅは、再生装置の例示的な構成を示す。最初に図３Ａを参照すると、いくつかの例示的な実施形態では、単一の再生装置がゾーンに属してもよい。例えば、パティオの再生装置１０２ｃ（図１Ａ）は、ゾーンＡに属していてもよい。以下に説明するいくつかの実施形態では、複数の再生機器を「結合（ｂｏｎｄ）」して「結合ペア」を形成し、それらが一緒になって１つのゾーンを形成することができる。例えば、図３Ａで「ベッド１」と名付けられた再生装置１０２ｆ（図１Ａ）と、図３Ａで「ベッド２」と名付けられた再生装置１０２ｇ（図１Ａ）とを結合して、ゾーンＢを形成してもよい。結合された再生装置のそれぞれは、異なる再生責任（例えば、チャンネル責任）を持つ。後述する別の実施形態では、複数の再生装置を統合して１つのゾーンを形成することができる。統合された再生装置１０２ｄ、１０２ｍには、特に異なる再生責任が割り当てられていなくてもよい。すなわち、統合された再生装置１０２ｄ、１０２ｍは、同期してオーディオコンテンツを再生することは勿論であるが、それぞれが統合されていない場合と同様にオーディオコンテンツを再生してもよい。

制御のために、ＭＰＳ１００の各ゾーンは、単一のユーザインターフェース（「ＵＩ」）エンティティとして表されてもよい。例えば、コントローラデバイス１０４によって表示されるように、ゾーンＡは、「ポータブル」という名前の単一のエンティティとして提供されてもよく、ゾーンＢは、「ステレオ」という名前の単一のエンティティとして提供されてもよく、ゾーンＣは、「リビングルーム」という名前の単一のエンティティとして提供されてもよい。

様々な実施形態において、ゾーンは、そのゾーンが属する場を再生装置の１つの名前として引き継いでもよい。例えば、ゾーンＣは、（図のように）リビングルームを再生装置１０２ｍの名前として引き継いでもよい。別の例では、ゾーンＣは代わりに本棚を再生装置１０２ｄの名前として名乗ってもよい。さらなる例では、ゾーンＣは、本棚にある再生装置１０２ｄとリビングルームにある再生装置１０２ｍを何らかの形で組み合わせた名前を取ることができる。選択される名前は、コントローラデバイス１０４での入力を介してユーザが選択することができる。いくつかの実施形態では、ゾーンには、そのゾーンに属する再生装置とは異なる名前が与えられることがある。例えば、図３ＡのゾーンＢには「ステレオ」という名前が付けられているが、ゾーンＢにはこの名前を持つ再生装置はない。一例では、ゾーンＢは、構成デバイスである「ベッド１」と「ベッド２」で構成された「ステレオ」という名前の単一デバイスを表す単一のＵＩエンティティである。ある実施形態では、ベッド１の再生装置は、マスターベッドルーム１０１ｈ（図１Ａ）にある再生装置１０２ｆであってもよく、ベッド２の再生装置は、同じくマスターベッドルーム１０１ｈ（図１Ａ）にある再生装置１０２ｇであってもよい。

上述したように、結合された再生装置は、特定のオーディオチャネルの再生責任など、異なる再生責任を持つ場合がある。例えば、図３Ｂに示すように、ベッド１およびベッド２のデバイス１０２ｆおよび１０２ｇは、オーディオコンテンツのステレオ効果を生成または強化するように結合されてもよい。この例では、ベッド１の再生装置１０２ｆは、左チャンネルのオーディオコンポーネントを再生するように構成されていてもよく、ベッド２の再生装置１０２ｇは、右チャンネルのオーディオコンポーネントを再生するように構成されていてもよい。いくつかの実施形態では、このようなステレオ結合は、「ペアリング」とも呼ばれる。

さらに、結合されるように構成された再生装置は、追加および／または異なるそれぞれのスピーカドライバを有することができる。図３Ｃに示すように、「前」という名前の再生装置１０２ｂは、「サブ」という名前の再生装置１０２ｋと結合してもよい。なお、「前」の再生装置１０２ｂは、中～高域の範囲をレンダリングしてもよく、「サブ」の再生装置１０２ｋは、例えばサブウーファのように低域をレンダリングしてもよい。結合が解かれた時には、「前」の再生装置１０２ｂは、フルレンジの周波数をレンダリングするように構成されていてもよい。別の例として、図３Ｄでは、「前」と「サブ」の再生装置１０２ｂと１０２ｋが、それぞれ右と左の再生装置１０２ａと１０２ｊとさらに結合している様子を示している。いくつかの実施形態では、右および左の再生装置１０２ａおよび１０２ｊは、ホームシアターシステムのサラウンドまたは「サテライト」チャネルを形成してもよい。結合された再生装置１０２ａ、１０２ｂ、１０２ｊ、１０２ｋは、単一のゾーンＤを形成してもよい（図３Ａ）。

いくつかの実施形態では、再生デバイスは「マージ（ｍｅｒｇｅｄ）」されることもある。結合された再生装置とは異なり、マージされた再生装置は、再生責任が割り当てられておらず、それぞれの再生装置の可能な範囲でオーディオコンテンツのフルレンジをレンダリングする。それにもかかわらず、マージされた複数の再生装置は、単一のＵＩエンティティ（すなわち、上述したようにゾーン）として提供されることがある。例えば、図３Ｅでは、リビングルームの再生装置１０２ｄと１０２ｍがマージされており、これらの再生装置がゾーンＣの単一のＵＩエンティティとして提供されることになる。ある実施形態では、再生装置１０２ｄおよび１０２ｍは、同期してオーディオを再生してもよく、その間、それぞれの再生装置１０２ｄおよび１０２ｍがレンダリング可能な範囲でオーディオコンテンツのフルレンジを出力する。

いくつかの実施形態では、スタンドアロンのＮＭＤがそれ自体でゾーンに加わっていてもよい。例えば、図１ＡのＮＭＤ１０３ｈは、「クローゼット」と名付けられ、図３ＡにおいてゾーンＩを形成する。また、ＮＭＤは他のデバイスと結合したり、マージしたりして、ゾーンを形成することもできる。例えば、“アイランド”と名付けられたＮＭＤデバイス１０３ｆは、再生装置１０２ｉキッチンと結合され、これらは共に“キッチン”と名付けられてゾーンＦを形成してもよい。ＮＭＤや再生装置を指定装置またはデフォルト装置として割り当てることについての詳細は、例えば、先に説明した米国特許出願第１５／４３８，７４９号明細書に記載されている。いくつかの実施形態では、スタンドアロンのＮＭＤはゾーンに割り当てられない場合がある。

個々の装置、結合された装置、および／またはマージされた装置で構成されるゾーンに含まれる複数の再生装置は、同期してオーディオを再生する再生装置の集合体であるセットを形成するように配置される。このような再生装置のセットは、「グループ」、「ゾーングループ」、「シンクログループ」、または「再生グループ」と呼ばれることがある。コントローラデバイス１０４を介して提供される入力に応答して、複数の再生装置は、動的にグループ化の形成（グループ化）およびグループ化の解除（グループ解除）が成され、オーディオコンテンツを同期再生する新しいまたは異なるグループを形成する。例えば、図３Ａを参照すると、ゾーンＡはゾーンＢとグループ化され、２つのゾーンの再生装置を含むゾーングループを形成することができる。別の例として、ゾーンＡは、１つ以上の他のゾーンＣ～Ｉとグループ化されてもよい。ゾーンＡ～Ｉは、多数の方法でグループ化されたり、グループ解除されたりする。例えば、ゾーンＡ～Ｉのうち、３つ、４つ、５つ、またはそれ以上（例えば、すべて）のゾーンをグループ化してもよい。グループ化された場合、ゾーンにある個々の再生装置や結合された再生装置は、先に説明した米国特許第８，２３４，３９５号明細書に記載されているように、互いに同期してオーディオを再生することができる。グループ化された再生装置や結合された再生装置は、ポータブル再生装置とステーショナリー再生装置の間の関連付けの例であり、係る関連付けは、上述したように、トリガーイベントに応じて引き起こされ、以下でより詳細に説明する。

様々な実施形態において、環境内のゾーンには特定の名前が割り当てられてもよく、その名前は、ゾーングループ内のゾーンのデフォルトの名前であってもよいし、図３Ａに示すように「ダイニングルーム＋キッチン」のようにゾーングループ内のゾーンの名前の組み合わせであってもよい。ある実施形態では、ゾーングループには、図３Ａにも示されているように、「ニックの部屋」のように、ユーザによって選択された固有の名前が与えられてもよい。「ニックの部屋」という名前は、ゾーングループのための以前の名前として元々あった「マスターベッドルーム」という部屋名に変えて、ユーザが選んだ名前である。

図２Ａにおいて、特定のデータは、１つまたは複数の状態変数としてメモリ２１３に格納されてもよい。変数は、定期的に更新され、再生ゾーン、再生装置（複数可）、および／またはそれに関連するゾーングループの状態を記述するために使用される。また、メモリ２１３には、ＭＰＳ１００の他の装置の状態に関連するデータが含まれていてもよい。係る関連するデータは、１つまたは複数の装置がシステムに関連する最新のデータを持つように、装置間で随時共有されてもよい。

いくつかの実施形態では、再生装置１０２のメモリ２１３は、状態に関連付けられた様々な変数タイプのインスタンス（時事変化する状態）を格納してもよい。変数のインスタンスは、タイプに対応した識別子（タグなど）を付けて保存することができる。例えば、特定の識別子としては、ゾーンにある再生装置を識別するための第１のタイプ「ａ１」、ゾーン内で結合状態にある再生装置を識別するための第２のタイプ「ｂ１」、およびゾーンが属するゾーングループを識別するための第３のタイプ「ｃ１」であってもよい。関連する例として、図１Ａでは、「パティオ」と名付けられた装置に対応する識別子は、「パティオ」は特定のゾーンにある唯一の再生装置であり、いずれのゾーングループに含まれないことを示す。「リビングルーム」に対応する識別子は、「リビングルーム」が他のゾーンとグループ化されておらず、結合された再生装置１０２ａ、１０２ｂ、１０２ｊ、１０２ｋを含むことを示す。「ダイニングルーム」に対応する識別子は、「ダイニングルーム」が「ダイニングルーム＋キッチン」グループの一部であり、デバイス１０３ｆと１０２ｉが結合されていることを示す。「キッチン」に対応する識別子は、「キッチン」が「ダイニングルーム＋キッチン」のゾーングループの一部であるので、同一または類似の情報を示す。その他のゾーン変数と識別子の例を以下に示す。

さらに別の例では、ＭＰＳ１００は、図３Ａに示すように、エリアに対応する識別子など、ゾーンやゾーングループとは異なる関連性を表す変数または識別子を含んでもよい。エリアには、ゾーングループのクラスタや、ゾーングループに属さないゾーンが含まれることがある。例えば、図３Ａには、「第１エリア」と名付けられた第１のエリアと、「第２エリア」と名付けられた第２のエリアが示されている。第１エリアには、「パティオ」「デン」「ダイニング」「キッチン」「バスルーム」のゾーンとゾーングループがある。第２エリアには、「バスルーム」「ニックの部屋」「ベッドルーム」「リビングルーム」のゾーンとゾーングループがある。ある実施形態では、「エリア」を使って、ゾーンのクラスタや、１つ以上のゾーンを共有するゾーングループのクラスタや、ゾーングループの別のクラスタを呼び出すことができる。この場合、このエリアは、他のゾーングループとゾーンを共有しないゾーングループとは異なる。エリアを実施するための技術のさらなる例は、次の米国特許出願の明細書に記載されている。２０１７年８月２１日に出願された米国出願第１５／６８２，５０６号で、発明の名称は「名前に基づく部屋の関連づけ（ＲｏｏｍＡｓｓｏｃｉａｔｉｏｎＢａｓｅｄｏｎＮａｍｅ）」、および２００７年９月１１日に出願された米国特許第８，４８３，８５３号で、発明の名称は「マルチゾーンメディアシステムにおけるグループ化の制御と操作（Ｃｏｎｔｒｏｌｌｉｎｇａｎｄｍａｎｉｐｕｌａｔｉｎｇｇｒｏｕｐｉｎｇｓｉｎａｍｕｌｔｉ－ｚｏｎｅｍｅｄｉａｓｙｓｔｅｍ）」である。これらの各出願の内容は、参照することにより、その全体が本明細書に取り込まれるものとする。いくつかの実施形態では、ＭＰＳ１００は「エリア」を用いない場合もあり、その場合、システムはエリアに関連する変数を保存しない。

メモリ２１３は、他のデータを格納するようにさらに構成されてもよい。そのようなデータは、再生装置１０２によってアクセス可能なオーディオソース、または再生装置（またはいくつかの他の再生装置（複数可））が関連付けられ得る再生キューに関係してもよい。後述する実施形態では、メモリ２１３は、音声入力を処理する際に特定のＶＡＳを選択するためのコマンドデータのセットを格納するように構成されている。動作中、図１Ａの環境における１つまたは複数の再生ゾーンは、それぞれ異なるオーディオコンテンツを再生してもよい。例えば、あるユーザが「パティオ」ゾーンで焼き肉をしながら、再生装置１０２ｃで再生されるヒップホップ音楽を聴いている一方、別のユーザが「キッチン」ゾーンで料理の準備をしながら、再生装置１０２ｉで再生されるクラシック音楽を聴いている場合が考えられる。別の例では、ある再生ゾーンと別の再生ゾーンとが同期して同じオーディオコンテンツを再生している場合がある。

例えば、ユーザは「オフィス」ゾーンにいて、そこでは、再生装置１０２ｎが「パティオ」ゾーンで再生装置１０２ｃが再生しているのと同じヒップホップ音楽を再生している場合がある。このような場合、再生装置１０２ｃおよび１０２ｎは、ユーザが異なる再生ゾーン間を移動しながら、シームレスに（または少なくとも実質的にシームレスに）大音量で再生されているオーディオコンテンツを楽しむことができるように、同期してヒップホップを再生することができる。再生ゾーン間の同期は、先に説明した米国特許第８，２３４，３９５号に記載された再生装置間の同期と同様の方法で実現することができる。

上述したように、ＭＰＳ１００のゾーン構成は、動的に変更されてもよい。このように、ＭＰＳ１００は、多数の構成をサポートしてもよい。例えば、ユーザが１つまたは複数の再生装置を物理的にあるゾーンに又はあるゾーンから移動させた場合、ＭＰＳ１００はその変更に対応するために再構成される。例えば、ユーザが再生装置１０２ｃを「パティオ」ゾーンから「オフィス」ゾーンに物理的に移動させた場合、「オフィス」ゾーンには再生装置１０２ｃと１０２ｎの両方が含まれることとなる。場合によっては、ユーザは、例えば、１つのコントローラデバイス１０４および／または音声入力を用いて、移動した再生デバイス１０２ｃを「オフィス」ゾーンのものとペアリングまたはグループ化し、さらに「オフィス」ゾーン内の再生装置の名前を変更することができる。別の例として、１つまたは複数の再生装置１０２が、まだ再生ゾーンではない家庭環境の特定の空間に移動された場合、移動された再生装置（複数可）は、名前が変更されるか、または特定の空間の再生ゾーンに関連付けられてもよい。

さらに、ＭＰＳ１００の異なる複数の再生ゾーンを動的に組み合わせてゾーングループにしたり、独立した再生ゾーンに分割したりすることができる。例えば、「ダイニングルーム」ゾーンと「キッチン」ゾーンは、再生装置１０２ｉと１０２ｌが同期してオーディオコンテンツをレンダリングするように、ディナーパーティーのためのゾーングループにまとめてもよい。別の例として、「デン」ゾーンにある結合済の再生装置を、（ｉ）「テレビ」ゾーンと（ｉｉ）別の「リスニング」ゾーンに分けてもよい。「テレビ」ゾーンには、「前」の再生装置１０２ｂが含まれていてもよい。「リスニング」ゾーンには、上述したように、グループ化、ペア化、またはマージ化された右、左、サブの再生装置１０２ａ、１０２ｊ、１０２ｋが含まれていてもよい。このように「デン」ゾーンを分割することで、あるユーザはリビングルーム空間のあるエリアである「リスニング」ゾーンで音楽を聴き、別のユーザはリビングルーム空間の別のエリアでテレビを見ることができる。関連する例では、ユーザは、ＮＭＤ１０３ａまたは１０３ｂ（図１Ｂ）のいずれかを利用して、「テレビ」ゾーンと「リスニング」ゾーンに分離される前の「デン」ゾーンを制御することができる。分離されると、「リスニング」ゾーンは、例えば、ＮＭＤ１０３ａの近傍にいるユーザが制御し、「テレビ」ゾーンは、例えば、ＮＭＤ１０３ｂの近傍にいるユーザにより制御される。しかし、上述したように、ＮＭＤ１０３のいずれかをＭＰＳ１００の様々な再生装置および他の装置を制御するように構成されてもよい。

ｃ．コントローラデバイスの例
図４は、図１ＡのＭＰＳ１００のコントローラデバイス１０４のうちの選択された１つの例を示す機能ブロック図である。このようなコントローラデバイスは、ここでは「コントロールデバイス」または「コントローラ」と呼ぶ。図４に示すコントローラデバイスは、プロセッサ４１２、プログラムソフトウェア４１４を格納するメモリ４１３、少なくとも１つのネットワークインターフェース４２４、および１つまたは複数のマイクロフォン４２２など、上述したネットワークデバイスの特定のコンポーネントと一般的に類似したコンポーネントを含む。一例として、コントローラデバイスは、ＭＰＳ１００の専用コントローラであってもよい。別の例では、コントローラデバイスは、例えば、ｉＰｈｏｎｅ（登録商標）、ｉＰａｄ（登録商標）、その他のスマートフォン、タブレット、ネットワークデバイス（例えば、ＰＣやＭａｃ（登録商標）などのネットワークコンピュータ）など、メディア再生システムのコントローラーアプリケーションソフトウェアがインストールされているネットワークデバイスであってもよい。

コントローラデバイス１０４のメモリ４１３は、ＭＰＳ１００および／またはシステム１００のユーザに関連するコントローラアプリケーションソフトウェアおよび他のデータを格納するように構成されてもよい。メモリ４１３には、ＭＰＳ１００のユーザアクセス、制御、および／または構成を容易にするなど、特定の機能を実現するためにプロセッサ４１２によって実行可能なソフトウェア４１４の命令が格納されてもよい。コントローラデバイス１０４は、上述したように、無線インターフェースの形態をとってもよいネットワークインターフェース４２４を介して、他のネットワークデバイスと通信するように構成されている。

一例では、システム情報（例えば、状態変数など）は、ネットワークインターフェース４２４を介して、コントローラデバイス１０４と他のデバイスとの間で通信されてもよい。例えば、コントローラデバイス１０４は、再生デバイス、ＮＭＤ、または他のネットワークデバイスから、ＭＰＳ１００における再生ゾーンの構成やゾーングループの構成に係る情報を受信してもよい。同様に、コントローラデバイス１０４は、そのようなシステム情報を、ネットワークインターフェース４２４を介して再生装置や他のネットワーク装置に送信してもよい。いくつかの例では、他のネットワークデバイスは、別のコントローラデバイスであってもよい。

また、コントローラ装置１０４は、ネットワークインターフェース４２４を介して、音量調整や音声再生制御などの再生装置制御コマンドを再生装置に通信してもよい。上述したように、ＭＰＳ１００の構成に対する変更は、コントローラデバイス１０４を使用するユーザによっても実行され得る。構成の変更には、１つまたは複数の再生装置をゾーンに追加／削除すること、１つまたは複数のゾーンをゾーングループに追加／削除すること、結合またはマージされたプレーヤーを形成すること、１つまたは複数の再生装置を結合またはマージされた再生装置から分離することなどが含まれる。

図４に示すように、コントローラデバイス１０４は、一般的に、ＭＰＳ１００のユーザアクセスおよび制御を容易にするように構成されたユーザインターフェース４４０も含む。ユーザインターフェース４４０は、図５Ａおよび図５Ｂに示すコントローラインターフェース５４０ａや５４０ｂのような、様々なグラフィカルなコントローラインターフェースを提供するように構成されたタッチスクリーンディスプレイまたは他の物理的インターフェースを含んでもよい。図５Ａおよび図５Ｂを合わせて参照すると、コントローラインターフェース５４０ａおよび５４０ｂは、再生制御領域５４２、再生ゾーン領域５４３、再生ステータス領域５４４、再生キュー領域５４６、およびソース領域５４８を含む。図示されているユーザインターフェースは、図４に示されているコントローラデバイスのようなネットワークデバイス上に提供され、ＭＰＳ１００のようなメディア再生システムを制御するためにユーザによってアクセスされる可能性のあるインターフェースの一例である。メディア再生システムへの同様な制御アクセスを提供するために、様々なフォーマット、スタイル、およびインタラクティブなシーケンスの他のユーザインターフェースが、１つまたは複数のネットワークデバイスに実装されてもよい。

再生制御領域５４２（図５Ａ）は、選択されると、選択された再生ゾーンまたはゾーングループ内の再生デバイスに、再生または一時停止、早送り、巻き戻し、次へのスキップ、前へのスキップ、シャッフルモードの開始／終了、リピートモードの開始／終了、クロスフェードモードの開始／終了などを行わせるため、選択可能なアイコン（例えば、タッチまたはカーソルを使用する方法による）を含んでもよい。また、再生制御領域５４２は、選択されると、他の可能性も含めて、イコライゼーション設定および／または再生音量を変更する選択可能なアイコンを含んでもよい。

再生ゾーン領域５４３（図５Ｂ）は、ＭＰＳ１００内の再生ゾーンの現状を含んでもよい。また、再生ゾーン領域５４３は、図示のように、「ダイニングルーム＋キッチン」ゾーングループなどのゾーングループの現状を含んでもよい。

いくつかの実施形態では、再生ゾーンのグラフィカルな表示は、結合ゾーンの生成、ゾーングループの生成、ゾーングループの分離、ゾーングループの名前の変更など、ＭＰＳ１００の再生ゾーンを管理または設定するための追加の選択可能なアイコンを含めても良い。

例えば、図示のように、「グループ」アイコンが、再生ゾーンのグラフィカルな枠のそれぞれの中に提供されてもよい。ゾーンを示すグラフィカルな枠の中にある「グループ」アイコンを選択すると、ＭＰＳ１００内の他のゾーンがオプションとして表れ、１つまたは複数のゾーンが選択可能となり、そのゾーンとグループ化される。選択したゾーンはそのゾーンとグループ化され、そのゾーンの再生装置と、選択したゾーンの再生装置は、同期してオーディオコンテンツを再生するように構成される。同様に、ゾーングループを示すグラフィカルな枠の中に「グループ」アイコンが表示されてもよい。この場合、「グループ」アイコンを選択すると、ゾーングループ内にあるゾーンがオプションとして現れ、その中のゾーンを解除するため選択すると、ゾーングループから１つまたは複数のゾーンを削除することができる。また、ユーザインターフェースを介して、ゾーンをグループ化したり、グループ解除したりするための他のインタラクションや実装も可能である。再生ゾーン領域５４３（図５Ｂ）における再生ゾーンの表示は、再生ゾーンまたはゾーングループの構成が変更されると、動的に更新される。

再生状況領域５４４（図５Ａ）は、選択された再生ゾーンまたはゾーングループにおいて、現在再生されている、以前に再生された、または次に再生される予定のオーディオコンテンツのグラフィカルな表示を含むことができる。選択された再生ゾーンまたはゾーングループは、コントローラインターフェース上の再生ゾーン領域５４３および／または再生ステータス領域５４４内において、視覚的に区別される。グラフィカルな表示には、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラックの長さ、および／または、ユーザが知っておくと便利なその他の関連情報が含まれ、コントローラインターフェースを介してＭＰＳ１００を制御する際に便利である。

再生キュー領域５４６は、選択された再生ゾーンまたはゾーングループと関連する再生キューの形でオーディオコンテンツのグラフィカルな表示を含んでもよい。ある実施形態では、各再生ゾーンまたはゾーングループは、再生キューと関連付けられており、その再生キューは、再生ゾーンまたはゾーングループによる再生のためのゼロまたは複数のオーディオアイテムに対応する情報を含む。例えば、再生キュー内の各オーディオアイテムは、ユニフォームリソース識別子（ＵＲＩ）、ユニフォームリソースロケータ（ＵＲＬ）、または他の識別子を含んでいてもよく、他の識別子は、再生ゾーンまたはゾーングループ内の再生装置で用いられ、ローカルオーディオコンテンツソースまたはネットワークオーディオコンテンツソースからオーディオアイテムを検索および／または取得し、これらはその後、再生装置によって再生される。

ある例では、プレイリストが再生キューに追加されることがあり、この場合、プレイリスト内の各オーディオアイテムに対応する情報が再生キューに追加されることがある。別の例では、再生キュー内のオーディオアイテムは、プレイリストとして保存されてもよい。別の例では、再生キューは、空であるか、または、充足されてはいるが「使用されていない」ことがあり、この場合は、再生ゾーンまたはゾーングループが、再生時間が有限の個別のオーディオアイテムではなく、停止されるまで再生し続けることができるインターネットラジオなどの連続的にストリーミングされるオーディオコンテンツを再生しているときである。更に別の例では、再生キューは、インターネットラジオおよび／または他のストリーミングオーディオコンテンツアイテムを含むことができ、再生ゾーンまたはゾーングループがそれらのアイテムを再生しているときには「使用中」となる。他の例も可能である。

再生ゾーンまたはゾーングループが「グループ化」または「グループ解除」された場合、影響を受けた再生ゾーンまたはゾーングループに関連付けられた再生キューは、クリアまたは再関連付けされてもよい。例えば、第１の再生キューを含む第１の再生ゾーンと、第２の再生キューを含む第２の再生ゾーンとがグループ化された場合、確立された新たなゾーングループは、最初は空の再生キューを有するか、第１の再生キューからのオーディオアイテムを含む再生キュー（第２の再生ゾーンが第１の再生ゾーンに追加された場合）を有するか、第２の再生キューからのオーディオアイテムを含む再生キュー（第１の再生ゾーンが第２の再生ゾーンに追加された場合）を有するか、または第１と第２の両方の再生キューからのオーディオアイテムの組み合わせを有する関連再生キューを有してもよい。また、その後、確立されたゾーングループがグループ解除された場合、結果として得られた第１再生ゾーンは、以前の第１再生キューと再び関連付けされるか、空とされるか、または確立されたゾーングループがグループ解除される前に確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新しい再生キューと関連付けされてもよい。同様に、結果として得られた第２再生ゾーンは、以前の第２再生キューと再び関連付けされるか、空の再生キューとされるか、または確立されたゾーングループがグループ解除される前に確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新しい再生キューと関連付けされてもよい。他の例も可能である。

図５Ａおよび５Ｂにおいて、再生キュー領域６４６（図５Ａ）におけるオーディオコンテンツのグラフィカルな表示は、トラックタイトル、アーティスト名、トラックの長さ、および／または再生キュー内のオーディオコンテンツに関連する他の関連情報を含んでもよい。ある例では、オーディオコンテンツのグラフィカルな表示は、再生キューおよび／または再生キューで示されるオーディオコンテンツの管理および／または操作するための追加の選択可能なアイコンを表示するために選択子があってもよい。例えば、表示されたオーディオコンテンツは、再生キューから削除されたり、再生キュー内の別の位置に移動されたり、すぐに再生されるように選択されたり、現在再生中のオーディオコンテンツの後に再生されるように選択されたりすることが可能である。再生ゾーンまたはゾーングループに関連付けられた再生キューは、再生ゾーンまたはゾーングループ内の１つまたは複数の再生装置、再生ゾーンまたはゾーングループに属さない再生装置、および／または他の指定された機器のメモリに格納されてもよい。このような再生キューによる再生は、１つまたは複数の再生装置が、キューのメディアアイテムを、シーケンシャルまたはランダムな順序で再生する。

ソース領域５４８は、対応するＶＡＳに関連付けられた選択可能なオーディオコンテンツソースおよび／または選択可能な音声アシスタントのグラフィカルな表示を含んでもよい。ＶＡＳは選択的に割り当てられてもよい。いくつかの例では、ＡＭＡＺＯＮ（登録商標）のアレクサ（Ａｌｅｘａ）（登録商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）のコルタナ（Ｃｏｒｔａｎａ）（登録商標）などの複数のＶＡＳが、同じＮＭＤによって起動可能であってもよい。ある実施形態では、ユーザはＶＡＳを１つまたは複数のＮＭＤに独占的に割り当てることができる。例えば、ユーザは、図１Ａに示すリビングルームのＮＭＤ１０２ａおよび１０２ｂの一方または両方に第１のＶＡＳを割り当て、キッチンのＮＭＤ１０３ｆに第２のＶＡＳを割り当ててもよい。その他の例も可能である。

ｄ．オーディオコンテンツソースの例
ソース領域５４８内のオーディオソースは、選択された再生ゾーンまたはゾーングループによってオーディオコンテンツが取得され、再生され得るオーディオコンテンツソースである。ゾーンまたはゾーングループ内の１つまたは複数の再生装置は、利用可能なさまざまなオーディオコンテンツソースからオーディオコンテンツを（例えば、オーディオコンテンツに対応するＵＲＩまたはＵＲＬに従って）再生のために取得するように構成されている。ある例では、オーディオコンテンツは、再生装置によって、対応するオーディオコンテンツソースから直接（例えば、ラインイン接続を介して）取得され得る。別の例では、オーディオコンテンツは、１つまたは複数の他の再生装置またはネットワーク装置を介してネットワーク上の再生装置に提供される。以下で詳しく説明するように、ある実施形態では、オーディオコンテンツは、１つまたは複数のメディアコンテンツサービスによって提供され得る。

オーディオコンテンツソースの例としては、図１のＭＰＳ１００などのメディア再生システムにおける１つまたは複数の再生デバイスのメモリ、１つまたは複数のネットワークデバイス（例えば、コントローラデバイス、ネットワーク対応パーソナルコンピュータ、またはネットワーク接続ストレージ（「ＮＡＳ」））上のローカル音楽ライブラリ、インターネットを介してオーディオコンテンツを提供するストリーミングオーディオサービス（例えば、クラウドベースの音楽サービス）、または再生デバイスまたはネットワークデバイス上のラインイン入力接続を介してメディア再生システムに接続されたオーディオソースが挙げられ、他のものも可能である。

ある実施形態では、オーディオコンテンツソースは、図１ＡのＭＰＳ１００などのメディア再生システムから追加または削除されてもよい。ある例では、１つ以上のオーディオコンテンツソースが追加、削除、または更新されるたびに、オーディオアイテムの索引付けが実行される。オーディオアイテムの索引付けは、メディア再生システム内の再生装置がアクセス可能なネットワーク上で共有されているすべてのフォルダ／ディレクトリ内の識別可能なオーディオアイテムをスキャンすること、メタデータ（例えば、タイトル、アーティスト、アルバム、トラックの長さなど）と、見つかった識別可能な各オーディオアイテムのＵＲＩまたはＵＲＬ等の他の関連情報からなるオーディオコンテンツデータベースを生成すること、または更新すること、を含む。また、オーディオコンテンツソースを管理・維持するための他の例も考えられる。

図６は、ＭＰＳ１００のデバイス間のデータ交換を示すメッセージのフロー図である。ステップ６５０ａにおいて、ＭＰＳ１００は、制御デバイス１０４を介して、選択されたメディアコンテンツ（例えば、１つ以上の曲、アルバム、プレイリスト、Ｐｏｄｃａｓｔ、ビデオ、ステーション）の表示を受信する。選択されたメディアコンテンツは、例えば、メディア再生システムに接続された１つ以上のデバイス（例えば、図１Ｃのオーディオソース１０５）にローカルに格納されたメディアアイテムおよび／または１つ以上のメディアサービスサーバ（図１Ｂのリモートコンピューティングデバイス１０６のうちの１つ以上）に格納されたメディアアイテムを含むことができる。選択されたメディアコンテンツの表示の受信に応答して、制御デバイス１０４は、再生デバイス１０２の再生キューに選択されたメディアコンテンツを追加するためにメッセージ６５１ａを再生デバイス１０２（図１Ａ～図１Ｃ）に送信する。

ステップ６５０ｂにおいて、再生デバイス１０２は、メッセージ６５１ａを受信し、再生のために選択されたメディアコンテンツを再生キューに追加する。

ステップ６５０ｃにおいて、制御デバイス１０４は、選択されたメディアコンテンツを再生するコマンドに対応する入力を受信する。選択されたメディアコンテンツを再生するコマンドに対応する入力を受信したことに応答して、制御デバイス１０４は、再生デバイス１０２に選択されたメディアコンテンツを再生させるメッセージ６５１ｂを再生デバイス１０２に送信する。メッセージ６５１ｂの受信に応答して、再生デバイス１０２は、選択されたメディアコンテンツを要求するメッセージ６５１ｃをコンピューティングデバイス１０６に送信する。コンピューティングデバイス１０６は、メッセージ６５１ｃの受信に応答して、要求されたメディアコンテンツに対応するデータ（例えば、オーディオデータ、ビデオデータ、ＵＲＬ、ＵＲＩ）を含むメッセージ６５１ｄを送信する。

ステップ６５０ｄにおいて、再生デバイス１０２は、要求されたメディアコンテンツに対応するデータを有するメッセージ６５１ｄを受信し、関連するメディアコンテンツを再生する。

ステップ６５０ｅにおいて、再生デバイス１０２は、任意選択的に、選択されたメディアコンテンツを再生することを１つ以上の他のデバイスに行わせる。一例では、再生デバイス１０２は、２人以上のプレーヤーの結合ゾーンのうちの１つである（図１Ｍ）。再生デバイス１０２は、選択されたメディアコンテンツを受信し、メディアコンテンツの全部または一部を結合ゾーン内の他のデバイスに送信することができる。別の例では、再生デバイス１０２は、グループのコーディネータであり、グループ内の１つ以上の他のデバイスからタイミング情報を送受信するように構成される。グループ内の他の１つ以上のデバイスは、コンピューティングデバイス１０６から選択されたメディアコンテンツを受信し、再生デバイス１０２からのメッセージに応答して選択されたメディアコンテンツの再生を開始することができ、それにより、グループ内のすべてのデバイスが、選択されたメディアコンテンツを同期して再生する。

ＩＩＩ．例示的なコマンドキーワードイベント
図７Ａおよび図７Ｂは、本開示の実施形態に従って構成されたＮＭＤ７０３ａおよびＮＭＤ７０３の態様を示す機能ブロック図である。ＮＭＤ７０３ａおよびＮＭＤ７０３ｂは、ＮＭＤ７０３と総称される。ＮＭＤ７０３は、ＮＭＤ１０３と概ね同様であってもよく、同様のコンポーネントを含んでもよい。以下でより詳細に説明するように、ＮＭＤ７０３ａ（図７Ａ）は、音声入力を表すデータを音声アシスタントサービスに必ずしも送信することなく、特定の音声入力をローカルで処理するように構成される。しかしながら、ＮＭＤ７０３ａは、音声アシスタントサービスを使用して他の音声入力を処理するようにも構成されている。ＮＭＤ７０３ｂ（図７Ｂ）は、音声アシスタントサービスを使用して音声入力を処理するように構成されており、ローカルＮＬＵまたはコマンドキーワードの検出が制限されていてもいなくてもよい。

図７Ａを参照すると、ＮＭＤ７０３は、音声取り込みコンポーネント（「ＶＣＣ」）７６０と、ＶＡＳウェイクワードエンジン７７０ａと、音声抽出器７７３とを含む。ＶＡＳウェイクワードエンジン７７０ａおよび音声抽出器７７３は、ＶＣＣ７６０に動作可能に結合される。ＮＭＤ７０３ａは、ＶＣＣ７６０に動作可能に結合されたコマンドキーワードエンジン７７１ａをさらに備える。

ＮＭＤ７０３は、上述したようにマイクロフォン７２０および少なくとも１つのネットワークインターフェース７２０をさらに含み、明確にするために図７Ａには示されていないオーディオ増幅器、ユーザインターフェースなどの他のコンポーネントも含むことができる。ＮＭＤ７０３ａのマイクロフォン７２０は、ＮＭＤ７０３の環境からの検出された音Ｓ_ＤをＶＣＣ７６０に提供するように構成される。検出された音Ｓ_Ｄは、１つ以上のアナログ信号またはデジタル信号の形態をとることができる。例示的な実装形態では、検出された音Ｓ_Ｄは、ＶＣＣ７６０に供給されるそれぞれのチャネル７６２に関連する複数の信号から構成されてもよい。

各チャネル７６２は、特定のマイクロフォン７２０に対応することができる。例えば、６つのマイクロフォンを有するＮＭＤは、６つの対応するチャネルを有することができる。検出された音Ｓ_Ｄの各チャネルは、他のチャネルと特定の類似性を有することができるが、特定の点で異なっていてもよく、これは、他のチャネルのマイクロフォンに対する所与のチャネルの対応するマイクロフォンの位置に起因し得る。例えば、検出された音Ｓ_Ｄの１つ以上のチャネルは、他のチャネルよりも大きい音声対背景ノイズの信号対ノイズ比（「ＳＮＲ」）を有することができる。

図７Ａにさらに示すように、ＶＣＣ７６０は、ＡＥＣ７６３、空間プロセッサ７６４、および１つ以上のバッファ７６８を含む。動作中、ＡＥＣ７６３は、検出された音Ｓ_Ｄを受信し、エコーを抑制するためにおよび／または別様には検出された音Ｓ_Ｄの質を改善するために、音をフィルタリングまたは処理する。次いで、その処理された音は、空間プロセッサ７６４に渡され得る。

空間プロセッサ７６４は、典型的には、検出された音Ｓ_Ｄを分析し、音声の振幅（例えば、デシベルレベル）、周波数スペクトル、方向性などの特定の特性を識別するように構成される。一点では、空間プロセッサ７６４は、上述したように、検出された音Ｓ_Ｄの構成チャネル７６２の類似性および相違に基づいて、潜在的なユーザの語りから検出された音Ｓ_Ｄの周囲ノイズをフィルタリングまたは抑制するのを補助することができる。１つの可能性として、空間プロセッサ７６４は、語りを他の音と区別するメトリックを監視することができる。そのようなメトリックは、例えば、背景ノイズに対する音声帯域内のエネルギー、および音声帯域内のエントロピー（スペクトル構造の尺度）を含むことができ、これは通常、最も一般的な背景ノイズよりも、語りにおいて低い。いくつかの実装形態では、空間プロセッサ７６４は、語りの存在する確率を決定するように構成されてもよく、そのような機能の例は、参照によりその全体が本明細書に組み込まれる、「ＬｉｎｅａｒＦｉｌｔｅｒｉｎｇｆｏｒＮｏｉｓｅ－ＳｕｐｐｒｅｓｓｅｄＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ」と題する、２０１８年５月１８日に出願された米国特許出願公開第１５／９８４，０７３号明細書に開示されている。

動作中、そのうちの１つ以上がメモリ２１３（図２Ａ）の一部であってもよく、またはそれとは別個であってもよい１つ以上のバッファ７６８は、検出された音Ｓ_Ｄに対応するデータを取り込む。より具体的には、１つ以上のバッファ７６８は、上流のＡＥＣ７６４および空間プロセッサ７６６によって処理された検出されたサウンドデータを取り込む。

次いで、ネットワークインターフェース７２４は、この情報を、ＭＰＳ１００に関連付けられ得るリモートサーバへ提供し得る。一態様では、付加的バッファ７６９に格納された情報は、いかなる語りの内容も明示せず、代わりに、検出された音自体の特定の固有の特徴を暗示する。関連する態様では、情報は、プライバシーの懸念を必ずしも含意することなく、ＭＰＳ１００の様々なコンピューティングデバイスのようなコンピューティングデバイス間で通信され得る。実際には、ＭＰＳ１００は、この情報を使用して、後述するような感度調整を含む音声処理アルゴリズムを適合させ、微調整することができる。いくつかの実装形態では、付加的バッファは、例えば、２０１８年５月２５日に出願された「ＤｅｔｅｒｍｉｎｉｎｇａｎｄＡｄａｐｔｉｎｇｔｏＣｈａｎｇｅｓｉｎＭｉｃｒｏｐｈｏｎｅＰｅｒｆｏｒｍａｎｃｅｏｆＰｌａｙｂａｃｋＤｅｖｉｃｅｓ」と題する米国特許出願公開第１５／９８９，７１５号明細書２０１８年９月２５日に出願された、「ＶｏｉｃｅＤｅｔｅｃｔｉｏｎＯｐｔｉｍｉｚａｔｉｏｎＢａｓｅｄｏｎＳｅｌｅｃｔｅｄＶｏｉｃｅＡｓｓｉｓｔａｎｔＳｅｒｖｉｃｅ」と題する米国特許出願公開第１６／１４１，８７５号明細書、および２０１８年９月２１日に出願された米国特許出願公開第１６／１３８，１１１号明細書、発明の名称「ＶｏｉｃｅＤｅｔｅｃｔｉｏｎＯｐｔｉｍｉｚａｔｉｏｎＵｓｉｎｇＳｏｕｎｄＭｅｔａｄａｔａ」に開示されているルックバックバッファと同様の機能を包含する、または含むことができる。これらは、参照によりその全体が本明細書に組み込まれる。

任意のイベントで、検出されたサウンドデータは、マイクロフォン７２０によって検出された音のデジタル表現（すなわち、サウンドデータストリーム）Ｓ_ＤＳを形成する。実際には、サウンドデータストリームＳ_ＤＳは様々な形態をとることができる。１つの可能性として、サウンドデータストリームＳ_ＤＳは、各々が１つ以上の音のサンプルを含むことができるフレームから構成することができる。フレームは、ＮＭＤ７０３のＶＡＳウェイクワードエンジン７７０および音声抽出器７７３などの下流のコンポーネントによるさらなる処理のために、１つ以上のバッファ７６８からストリーミング（すなわち、読み出し）されてもよい。

いくつかの実装形態では、少なくとも１つのバッファ７６８は、スライディングウィンドウ方式を利用して検出されたサウンドデータを取り込み、最後に取り込まれた検出されたサウンドデータの所与の量（すなわち、所与のウィンドウ）が、少なくとも１つのバッファ７６８に保持される一方で、古い検出されたサウンドデータは、ウィンドウの外側にあるときに上書きされる。例えば、少なくとも１つのバッファ７６８は、所与の時間に２０フレームの音の標本を一時的に保持し、有効期限後に最も古いフレームを破棄し、次いで、音の標本の１９前のフレームに追加される新しいフレームを取り込むことができる。

実際には、サウンドデータストリームＳ_ＤＳがフレームで構成される場合、フレームは、様々な特性を有する様々な形態を取り得る。１つの可能性として、フレームは、サンプリングレート（例えば、４４，１００Ｈｚ）に基づくことができる特定の解像度（例えば、１６ビットの解像度）を有するオーディオフレームの形態をとることができる。追加的または代替的に、フレームは、他の例の中でも、周波数応答、パワー入力レベル、ＳＮＲ、マイクロフォンチャネル識別、および／または所与の音の標本の他の情報を示すメタデータなど、フレームが定める所与の音の標本に対応する情報を、含むことができる。したがって、いくつかの実施形態では、フレームは、音の一部（例えば、所与の音の標本の１つ以上のサンプル）、および音の一部に関するメタデータを含むことができる。他の実施形態では、フレームは、音の一部（例えば、所与の音の標本の１つ以上のサンプル）、または音の一部に関するメタデータを含むのみにすることができる。

いずれの場合も、ＮＭＤ７０３の下流のコンポーネントは、サウンドデータストリームＳ_ＤＳを処理することができる。例えば、ＶＡＳウェイクワードエンジン７７０は、サウンドデータストリームＳ_ＤＳ（例えば、ストリーミングされた音のフレーム）に、１つ以上の識別アルゴリズムを適用して、検出された音Ｓ_Ｄの潜在的なウェイクワードをスポットするように構成される。この処理は、自動音声認識と称されてもよい。ＶＡＳウェイクワードエンジン７７０ａおよびコマンドキーワードエンジン７７１ａは、それぞれのウェイクワードに対応する異なる識別アルゴリズムを適用し、検出された音Ｓ_Ｄのウェイクワードの検出に基づいて、異なるイベントをさらに生成する。

例示的なウェイクワード検出アルゴリズムは、オーディオを入力として受け入れ、ウェイクワードがオーディオに存在するかどうかの表示を提供する。多くの第一者および第三者のウェイクワード検出アルゴリズムが知られており、市販されている。例えば、音声サービスのオペレータは、第三者のデバイスで使用するためにアルゴリズムを利用可能にすることができる。あるいは、アルゴリズムは、特定のウェイクワードを検出するように訓練されてもよい。

例えば、ＶＡＳウェイクワードエンジン７７０ａが潜在的なＶＡＳウェイクワードを検出すると、ＶＡＳワークワードエンジン７７０ａは、「ＶＡＳウェイクワードイベント」（「ＶＡＳウェイクワードトリガ」とも呼ばれる）の表示を提供する。図７Ａの図示の例では、ＶＡＳウェイクワードエンジン７７０ａは、ＶＡＳウェイクワードイベントの発生を示す信号Ｓ_ＶＷを、音声抽出器７７３に出力する。

複数のＶＡＳの実装形態では、ＮＭＤ７０３は、ＶＡＳセレクタ７７４（破線で示す）を含み、ＶＡＳセレクタ７７４は、所与のウェイクワードが、ＶＡＳウェイクワードエンジン７７０ａおよび少なくとも１つの付加的なＶＡＳウェイクワードエンジン７７０ｂ（破線で示す）などの特定のウェイクワードエンジン（および対応するウェイクワードトリガ）によって識別されたときに、音声抽出器７７３による抽出を指示すると共に、サウンドデータストリームＳ_ＤＳを適切なＶＡＳへの送信を指示する。そのような実装形態では、ＮＭＤ７０３は、複数の異なるＶＡＳウェイクワードエンジンおよび／または複数の異なる音声抽出器を含み、それぞれはそれぞれに対応したＶＡＳによってサポートされる。

上記の説明と同様に、各ＶＡＳウェイクワードエンジン７７０は、入力として、１つ以上のバッファ７６８からサウンドデータストリームＳ_ＤＳを受信し、識別アルゴリズムを適用して、適切なＶＡＳに対するウェイクワードトリガを引き起こすように構成され得る。したがって、一例として、ＶＡＳウェイクワードエンジン７７０ａは、ウェイクワード「アレクサ（Ａｌｅｘａ）」を識別し、「アレクサ」がスポットされたときにＮＭＤ７０３ａにＡＭＡＺＯＮＶＡＳを呼び出すように構成されてもよい。別の例として、ウェイクワードエンジン７７０ｂは、「オーケー、グーグル」というウェイクワードを識別し、「オーケー、グーグル」がスポットされたときにＮＭＤ５２０にＧｏｏｇｌｅＶＡＳを呼び出すように構成されてもよい。単一のＶＡＳの実装形態では、ＶＡＳセレクタ７７４は省いてもよい。

ＶＡＳウェイクワードイベントに応答して（例えば、ウェイクワードイベントを示す信号Ｓ_ＶＷに応答して）、音声抽出器７７３は、サウンドデータストリームＳ_ＤＳを受信してフォーマット（例えば、パケット化する）するように構成される。例えば、音声抽出器７７３は、サウンドデータストリームＳ_ＤＳのフレームをメッセージにパケット化する。音声抽出器７７３は、リアルタイムまたはほぼリアルタイムで音声入力を含み得るこれらのメッセージＭ_Ｖを、ネットワークインターフェース７２４を介してリモートＶＡＳに送信またはストリーミングする。

ＶＡＳは、ＮＭＤ７０３から送信されたメッセージＭ_Ｖに含まれるサウンドデータストリームＳ_ＤＳを処理するように構成される。より具体的には、ＮＭＤ７０３ａは、サウンドデータストリームＳ_ＤＳに基づいて音声入力７８０を識別するように構成される。図２Ｃに関連して説明したように、音声入力７８０は、キーワード部分および発話部分を含むことができる。キーワード部分は、ウェイクワードイベントを引き起こした際に、検出された音に対応するか、または特定の再生条件などの１つ以上の特定の条件が満たされたときに、コマンドキーワードイベントをもたらす。例えば、音声入力７８０がＶＡＳウェイクワードを含む場合、キーワード部分は、ウェイクワードエンジン７７０ａにウェイクワードイベント信号Ｓ_ＶＷを音声抽出器７７３へ出力させた際に、検出された音に対応する。この場合の発話部分は、キーワード部分に続くユーザの要求を潜在的に含む、検出された音に対応する。

ＶＡＳウェイクワードイベントが発生すると、ＶＡＳは、最初にサウンドデータストリームＳ_ＤＳの中のキーワード部分を処理して、ＶＡＳウェイクワードの存在を検証することができる。場合によっては、ＶＡＳは、キーワード部分が誤りのウェイクワード（例えば、「Ａｌｅｘａ」というワードがターゲットのＶＡＳウェイクワードである場合の「Ｅｌｅｃｔｉｏｎ」というワード）を含むと判断することができる。そのような場合、ＶＡＳは、ＮＭＤ７０３ａに、サウンドデータの抽出を停止するようにＮＭＤ７０３ａに指示する応答を、送信することができ、これにより、音声抽出器７７３は、検出されたサウンドデータのＶＡＳへのさらなるストリーミングを停止する。ＶＡＳウェイクワードエンジン７７０ａは、別の潜在的なＶＡＳウェイクワードを見つけるまで、音の標本の監視を再開または継続することができ、別のＶＡＳウェイクワードイベントにつながる。いくつかの実装形態では、ＶＡＳはキーワード部分を処理も受信もしないが、代わりに発話部分のみを処理する。

いずれの場合も、ＶＡＳは発話部分を処理して、検出されたサウンドデータの任意のワードの存在を識別し、これらのワードから基礎となる意図を判定する。ワードは、１つ以上のコマンド、ならびに特定のキーワードに対応することができる。キーワードは、例えば、ＭＰＳ１００の特定のデバイスまたはグループを識別する音声入力のワードであってもよい。例えば、図示の例では、キーワードは、リビングルームおよびダイニングルーム（図１Ａ）などの、音楽が再生されることになる１つ以上のゾーンを識別する１つ以上のワードであってもよい。

ワードの意図を判定するために、ＶＡＳは、典型的には、ＭＰＳ１００のＶＡＳ（図示せず）および／または１つ以上のデータベース（図示せず）に関連する１つ以上のデータベースと通信する。そのようなデータベースは、自然言語処理および／または他の処理のための様々なユーザのデータ、分析、カタログ、および他の情報を格納することができる。いくつかの実装形態では、そのようなデータベースは、音声入力処理に基づくニューラルネットワークの適応学習およびフィードバックのために更新することができる。場合によっては、発話部分は、図２Ｃに示すように、ユーザが語ったワード間の検出された一時停止（例えば、語っていない期間）などの追加情報を含むことができる。一時停止は、発話部分内でユーザによって語られた別個のコマンド、キーワード、または他の情報の位置を画定することができる。

音声入力を処理した後、ＶＡＳは、音声入力から判定された意図に基づいて、１つ以上のアクションを実行するための命令を伴う応答を、ＭＰＳ１００に送信してもよい。例えば、音声入力に基づいて、ＶＡＳは、他の作用の中でも、再生デバイス１０２のうちの１つ以上での再生を開始し、これらの再生デバイス１０２のうちの１つ以上を制御し（例えば、音量を上げる／下げる、デバイスをグループ化する／グループ化を解除するなど）、または特定のスマートデバイスをオン／オフにするように、ＭＰＳ１００に指示することができる。ＶＡＳから応答を受信した後、ＮＭＤ７０３のウェイクワードエンジン７７０ａは、上述したように、別の潜在的なウェイクワードを見つけるまで、サウンドデータストリームＳ_ＤＳ１の監視を再開または継続することができる。

一般に、ＶＡＳウェイクワードエンジン７７０ａなどの特定のＶＡＳウェイクワードエンジンが適用する１つ以上の識別アルゴリズムは、検出されたサウンドストリームＳ_ＤＳの特定の特性を分析し、それらの特性を特定のＶＡＳウェイクワードエンジンの１つ以上の特定のＶＡＳウェイクワードの対応する特性と比較するように構成される。例えば、ウェイクワードエンジン７７０ａは、エンジンの１つ以上のウェイクワードのスペクトル特性と一致する検出されたサウンドストリームＳ_ＤＳのスペクトル特性をスポットするために、１つ以上の識別アルゴリズムを適用することができ、それによって、検出された音Ｓ_Ｄが、特定のＶＡＳウェイクワードを含む音声入力を含むと判定する。

いくつかの実装形態では、１つ以上の識別アルゴリズムは、第三者識別アルゴリズム（すなわち、ＮＭＤ７０３ａを提供する会社以外の会社によって開発されたものである）であってもよい。例えば、音声サービスのオペレータ（例えば、ＡＭＡＺＯＮ）は、第三者デバイス（例えば、ＮＭＤ１０３）で使用するためにそれぞれのアルゴリズム（例えば、ＡＭＡＺＯＮのＡＬＥＸＡに対応する識別アルゴリズム）を利用可能にすることができ、それは次いで、特定の音声アシスタントサービスの１つ以上のウェイクワードを識別するように訓練される。追加的または代替的に、１つ以上の識別アルゴリズムは、必ずしも所与の音声サービスに固有ではない特定のウェイクワードを識別するように開発および訓練された第一者識別アルゴリズムであってもよい。他の可能性も存在する。

上述したように、ＮＭＤ７０３ａはまた、ＶＡＳウェイクワードエンジン７７０ａと並列のコマンドキーワードエンジン７７１ａを含む。ＶＡＳウェイクワードエンジン７７０ａと同様に、コマンドキーワードエンジン７７１ａは、１つ以上のウェイクワードに対応する１つ以上の識別アルゴリズムを適用することができる。「コマンドキーワードイベント」は、検出された音Ｓ_Ｄにおいて特定のコマンドキーワードが識別されたときに発生する。通常はＶＡＳウェイクワードとして利用されるノンスワードとは対照的に、コマンドキーワードは、起動ワードとコマンド自体の両方として機能する。例えば、例示的なコマンドキーワードは、他の例の中でも、再生コマンド（例えば、「再生する」、「一時停止する」、「スキップする」など）、ならびに制御コマンド（「オンにする」）に対応することができる。適切な条件下で、ＮＭＤ７０３ａは、これらのコマンドキーワードのうちのいずれかを検出することに基づいて、対応するコマンドを実行する。

コマンドキーワードエンジン７７１ａは、自動音声認識装置７７２を採用することができる。ＡＳＲ７７２は、サウンドデータストリームＳ_ＤＳの音に基づいて、ワードに対応するテキストなどの音声またはフェノミックの表現を、テキストに出力するように、構成される。例えば、ＡＳＲ７７２は、サウンドデータストリームＳ_ＤＳにおいて表された話し言葉を、音声入力７８０をテキストとして表す１つ以上の文字列に転記することができる。コマンドキーワードエンジン７７１は、後述するように、特定のキーワードを、コマンドキーワードイベントを呼び出すためのコマンドキーワードであると識別するローカル自然言語ユニット（ＮＬＵ）７７９に、ＡＳＲ出力（Ｓ_ＡＳＲとラベル付けされる）を供給することができる。

上述したように、いくつかの例示的な実装形態では、ＮＭＤ７０３ａは、自然言語処理を実行するように構成され、それは、本明細書では自然言語ユニット（ＮＬＵ）７７９と呼ばれるオンボード自然言語プロセッサを使用して、実行することができる。ローカルＮＬＵ７７９は、コマンドキーワードエンジン７７１ａのＡＳＲ７７２のテキストの出力を分析して、音声入力７８０のキーワードをスポット（すなわち、検出または識別）するように構成される。図７Ａでは、この出力は信号Ｓ_ＡＳＲとして示されている。ローカルＮＬＵ７７９は、各コマンドおよび／またはパラメータに対応するキーワード（すなわち、ワードまたはフレーズ）のライブラリを含む。

一態様において、ローカルＮＬＵ７７９のライブラリは、コマンドキーワードを含む。ローカルＮＬＵ７７９が信号Ｓ_ＡＳＲに含まれるコマンドキーワードを識別すると、コマンドキーワードエンジン７７１ａは、コマンドキーワードイベントを生成し、そのコマンドキーワードに対応する１つ以上の条件が満たされたと仮定して、信号Ｓ_ＡＳＲのコマンドキーワードに対応するコマンドを実行する。

また、ローカルＮＬＵ７７９のライブラリには、キーワードとして、パラメータに対応するものを含んでいてもよい。次いで、ローカルＮＬＵ７７９は、音声入力７８０の一致したキーワードから、含まれるべき意図を判定してもよい。例えば、ローカルＮＬＵが再生コマンドと共にキーワード「ＤａｖｉｄＢｏｗｉｅ」および「ｋｉｔｃｈｅｎ」のマッチングを見つけた場合、ローカルＮＬＵ７７９は、キッチン１０１ｈにおける再生デバイス１０２ｉでＤａｖｉｄＢｏｗｉｅを再生する意図を判定し得る。クラウドベースのＶＡＳによる音声入力７８０の処理とは対照的に、ローカルベースでの、ＮＬＵ７７９による音声入力７８０のローカル処理は、比較的に簡単な構成で済む場合がある。なぜなら、ＮＬＵ７７９が、ＶＡＳが一般にアクセスするような、より大きなサウンドデータベースや、比較的に大きな処理能力を有する処理部に、アクセスしないためである。

いくつかの例においては、ローカルＮＬＵ７７９が、それぞれのキーワードに対応する１つ以上のスロットにより意図を判定し得る。例えば、キッチンの例におけるＤａｖｉｄＢｏｗｉｅの再生を振り返って参照すると、音声入力を処理するとき、ローカルＮＬＵ７７９は、意図が音楽を再生することである（例えば、ｉｎｔｅｎｔ＝ｐｌａｙＭｕｓｉｃ）と判定し得ると同時に、第１スロットにより、ＤａｖｉｄＢｏｗｉｅがターゲットコンテンツであると判定し（例えば、ｓｌｏｔ１＝ＤａｖｉｄＢｏｗｉｅ）、第２スロットにより、Ｋｉｔｃｈｅｎ１０１ｈがターゲットの再生デバイスであると判定する（例えば、ｓｌｏｔ２＝キッチン）。ここで、意図（「ｐｌａｙＭｕｓｉｃ」）は、コマンドキーワードに基づいており、スロットは、意図を特定のターゲットコンテンツおよび再生デバイスに限定するパラメータである。

いくつかの例において、コマンドキーワードエンジン７７１ａは、コマンドキーワードイベントの発生を示す信号Ｓ_ＣＷをローカルＮＬＵ７７９に出力する。コマンドキーワードイベントに応答（例えば、コマンドキーワードイベントを示す信号Ｓ_ＣＷに応答）して、ローカルＮＬＵ７７９は、信号Ｓ_ＡＳＲを受信して処理するように構成される。特に、ローカルＮＬＵ７７９は、信号Ｓ_ＡＳＲ内のワードを精査し、ローカルＮＬＵ７７９のライブラリのキーワードと一致するキーワードを見つける。

ローカル自動音声認識は、多少の誤りが予想される。例では、ＡＳＲ７７２は、話し言葉をテキストに転記するときに信頼度スコアを生成することができ、それは音声入力７８０の話し言葉がそのワードの音声パターンにどれだけ近いかを示す。いくつかの実装形態では、コマンドキーワードイベントの生成は、所与のコマンドキーワードの信頼度スコアに基づく。例えば、コマンドキーワードエンジン７７１ａは、所与の音の信頼度スコアが所与の閾値（例えば、０～１のスケールでの０．５は、所与の音声がコマンドキーワードではないであろうとの可能性が高いことを示す）を超えれば、コマンドキーワードイベントを生成することができる。逆に、所与の音の信頼度スコアが所与の閾値以下である場合、コマンドキーワードエンジン７７１ａは、コマンドキーワードイベントを生成しない。

同様に、キーワードマッチングを実行する際にいくらかのエラーが予想される。例では、ローカルＮＬＵは、意図を判定するときに信頼度スコアを生成することができ、これは、信号Ｓ_ＡＳＲの転写されたワードがローカルＮＬＵのライブラリの対応するキーワードにどれだけ近いかを示す。いくつかの実装形態では、判定された意図に従って動作を実行することは、信号Ｓ_ＡＳＲにおいて一致したキーワードの信頼度スコアに基づく。例えば、ＮＭＤ７０３は、所与の音の信頼度スコアが所与の閾値（例えば、０～１のスケールでの５は、所与の音がコマンドキーワードではないことよりも可能性が高いことを示す）を超えるときに、決定された意図に従って動作を実行してもよい。逆に、所与の意図の信頼度スコアが所与の閾値以下である場合、ＮＭＤ７０３は、決定された意図に従った動作を実行しない。

上述したように、いくつかの実装形態では、フレーズをコマンドキーワードとして使用することができ、この場合は、追加の音節でもって、一致する（または一致しない）の判断をする必要がある。例えば、「音楽を再生して」というフレーズは、「再生」よりも、多くの音節を有しているので、より多くの音のパターンの一致が必要となる。したがって、フレーズであるコマンドキーワードは、一般に、誤り難いウェイクワードになり得る。

上述したように、ＮＭＤ７０３ａは、検出されたコマンドキーワードに対応する特定の条件が満たされた場合にのみ、コマンドキーワードイベントを生成する（また、検出されたコマンドキーワードに対応するコマンドを実行する）。これらの条件は、誤検知コマンドキーワードイベントの発生率を下げることを目的としている。例えば、コマンドキーワード「スキップ」を検出した後、ＮＭＤ７０３ａは、スキップを実行すべきであることを示す特定の再生条件が満たされた場合にのみ、コマンドキーワードイベントを生成する（すなわち、次のトラックにスキップする）。これらの再生条件は、例えば、（ｉ）メディアアイテムが再生されているという第１状態、（ｉｉ）キューがアクティブであるという第２状態、および（ｉｉｉ）現在再生されているメディアアイテムに続くメディアアイテムがキューに含まれているという第３状態を含むことができる。これらの条件のいずれかが満たされていない場合、コマンドキーワードイベントは生成されない（すなわち、スキップが実行されない）。

ＮＭＤ７０３ａは、適切な条件が満たされているかどうかの判定を容易にするための１つ以上の状態機械７７５ａを含む。状態機械７７５ａは、検出されたコマンドキーワードに対応する１つ以上の条件が満たされたかどうかに基づいて、第１状態と第２状態との間を移行する。特に、１つ以上の特定の条件を必要とする特定のコマンドに対応する所与のコマンドキーワードについて、状態機械７７５ａは、１つ以上の特定の条件が満たされたときに第１状態に移行し、１つ以上の特定の条件のうちの少なくとも１つの条件が満たされないときに第２状態に移行する。

例示的な実装形態では、コマンド条件は、状態変数に示される状態に基づく。上述したように、ＭＰＳ１００のデバイスは、それぞれのデバイスの状態を記述する状態変数を格納することができる。例えば、再生デバイス１０２は、現在再生（または一時停止）しているオーディオコンテンツ、音量レベル、ネットワーク接続状態などの再生デバイス１０２の状態を示す状態変数を格納し得る。これらの状態変数は更新され（例えば、定期的に、またはイベントに基づいて（すなわち、状態変数の状態が変化すると））、ＮＭＤ７０３を含むＭＰＳ１００のデバイス間で状態変数をさらに共有することができる。

同様に、ＮＭＤ７０３は、これらの状態変数を（再生デバイスに実装されることによって、またはスタンドアローンＮＭＤとして）維持してもよい。状態機械７７５ａは、これらの状態変数に示される状態を監視し、適切な状態変数に示される状態がコマンド条件を満たすことを示すか否かを判定する。これらの判定に基づいて、状態機械７７５ａは、上述したように、第１状態と第２状態との間を移行する。

いくつかの実装形態では、コマンドキーワードエンジン７７１は、状態機械を介して特定の条件が満たされない限り、無効にすることができる。例えば、状態機械７７５ａの第１状態および第２状態は、コマンドキーワードエンジン７７１ａへの有効化／無効化トグルとして動作し得る。特に、特定のコマンドキーワードに対応する状態機械７７５ａが第１状態にある間、状態機械７７５ａは、特定のコマンドキーワードのコマンドキーワードエンジン７７１ａを有効にする。逆に、特定のコマンドキーワードに対応する状態機械７７５ａが第２状態にある間、状態機械７７５ａは、特定のコマンドキーワードのコマンドキーワードエンジン７７１ａを無効にする。これにより、無効化されたコマンドキーワードエンジン７７１ａは、サウンドデータストリームＳ_ＤＳの解析を中止する。少なくとも１つのコマンド条件が満たされない場合、ＮＭＤ７０３ａは、コマンドキーワードエンジン７７１ａがコマンドキーワードを検出したときに、コマンドキーワードイベントの生成を抑制してもよい。生成の抑制は、コマンドキーワードエンジン７７１ａからの出力がコマンドキーワードイベントを生成することをゲーティング、ブロック、または防止することを含むことができる。あるいは、生成を抑制することは、ＮＭＤ７０３がＡＳＲ７７２へのサウンドデータストリームＳ_ＤＳの供給を停止することを含んでもよい。このような抑制により、少なくとも１つのコマンド条件が満たされていない場合に、検出されたコマンドキーワードに対応するコマンドが実行されることが防止される。そのような実施形態では、コマンドキーワードエンジン７７１ａは、状態機械７７５ａが第１状態にある間、サウンドデータストリームＳ_ＤＳの分析を継続することができるが、コマンドキーワードイベントは無効にされる。

他の例示的な条件は、音声活動検出器（「ＶＡＤ」）７６５の出力に基づくことができる。ＶＡＤ７６５は、サウンドデータストリームＳ_ＤＳにおける音声活動の存在（または欠如）を検出するように構成される。特に、ＶＡＤ７６５は、音声入力７８０（図２Ｄ）のプレロール部分（事象前）に相当するフレームにおいて、音声活動が環境内に存在していたかどうかを判定するために、音声入力７８０のキーワード部分の前の特定の時間ウィンドウにおいて、１つ以上の音声検出アルゴリズムで解析することができる。

ＶＡＤ７６５は、任意の適切な音声活動検出アルゴリズムを利用し得る。例示的な音声検出アルゴリズムは、所与のフレームが音声活動に相当する１つ以上の特徴または質を含むかどうかを判定することと、それらの特徴または質が雑音から枝分かれしたものであり、所与の程度まで大きくなっているかどうか（例えば、値が所与のフレームの閾値を超えているかどうか）をさらに判定することを含む。いくつかの例示的な音声検出アルゴリズムは、特徴または質を識別する前にフレームのノイズをフィルタリングまたは低減することを含む。

いくつかの例では、ＶＡＤ７６５は、音声活動が環境に存在しているかどうかを、１つ以上のメトリックに基づいて判定することができる。例えば、ＶＡＤ７６５は、音声活動を含むフレームと、音声活動を含まないフレームとを区別するように、構成することができる。ＶＡＤが音声活動を有すると判定するフレームは、それが近接場であるか遠距離場であるかにかかわらず、語りによって引き起こされ得る。この例およびその他では、ＶＡＤ７６５は、音声活動を示す音声入力７８０の事象前部分のフレームのカウント値を決定することができる。このカウント値が閾値パーセントまたはフレーム数を超えた場合、ＶＡＤ７６５は、音声活動が環境に存在していることを示す信号を出力するか、または状態変数をそのような値に設定するように構成され得る。そのようなカウント値に加えて、またはその代わりに、他のメトリックも同様に使用することができる。

環境内に音声活動が存在することは、音声入力がＮＭＤ７３に与えられていることを示すことができる。したがって、音声活動が環境に存在しないことをＶＡＤ７６５が示すとき（おそらくＶＡＤ７６５によって設定された状態変数によって示されるであろう）、これはコマンドキーワードのコマンド条件のうちの１つとして構成され得る。この条件が満たされると（すなわち、ＶＡＤ７６５は、音声活動が環境に存在していることを示す）、状態機械７７５ａは、第１状態に移行し、コマンドキーワードに基づいてコマンドを実行することを可能にする。もちろん、コマンドキーワード以外の他の条件が満たされていることが必要である。

さらに、いくつかの実装形態では、ＮＭＤ７０３はノイズ分類器７６６を含むことができる。ノイズ分類器７６６は、サウンドメタデータ（周波数応答、信号レベルなど）を決定し、様々なノイズ源に対応するサウンドメタデータのサインを識別するように構成される。ノイズ分類器７６６は、検出されたサウンドデータまたはメタデータの異なるタイプのノイズを識別するように構成されたニューラルネットワークまたは他の数学モデルを含むことができる。ノイズの１つの分類は、語り（例えば、遠距離場音声）であり得る。別の分類は、背景音声などの特定の種類の語りであってもよく、その例は図８を参照してより詳細に説明される。背景音声は、ＶＡＤ７６５によって検出される音声に似た活動のより一般的な音声活動（例えば、ケイデンス（抑揚）、一時停止、または他の特性）などの他の種類の音声に似た活動と、区別することができる。

例えば、サウンドメタデータを分析することは、サウンドメタデータの１つ以上の特徴を既知のノイズ基準値または既知のノイズを有するサンプル母集団データと比較することを含むことができる。例えば、信号レベル、周波数応答スペクトルなどのサウンドメタデータの任意の特徴は、ノイズ基準値またはサンプルの母集団にわたって収集および平均化された値と、比較することができる。いくつかの例では、サウンドメタデータを分析することは、ＮＭＤの集合からの集約された周波数応答スペクトルに対応する固有空間に、周波数応答スペクトルを投影することを含む。さらに、周波数応答スペクトルを固有空間に投影することは、下流の分類を容易にするための前処理ステップとして実行することができる。

様々な実施形態において、サウンドメタデータを使用してノイズを分類するための任意の数の異なる技術、例えば、決定木を使用する機械学習、またはベイジアン分類器、ニューラルネットワーク、または任意の他の分類技術を使用することができる。代替的または追加的に、様々なクラスタリング技術、例えばＫ平均クラスタリング、平均シフトクラスタリング、期待値最大化クラスタリング、または任意の他の適切なクラスタリング技術を使用することができる。ノイズを分類する技術は、参照によりその全体が本明細書に組み込まれる、２０１８年１２月２０日に出願され、「ＯｐｔｉｍｉｚａｔｉｏｎｏｆＮｅｔｗｏｒｋＭｉｃｒｏｐｈｏｎｅＤｅｖｉｃｅｓＵｓｉｎｇＮｏｉｓｅＣｌａｓｓｉｆｉｃａｔｉｏｎ」と題する、米国特許出願公開第１６／２２７，３０８号明細書に開示されている１つ以上の技術を含むことができる。

図８は、第１プロット８８２ａおよび第２プロット８８２ｂを示す。第１プロット８８２ａおよび第２プロット８８２ｂは、背景音声に関する解析後のサウンドメタデータを示す。プロットに示されるこれらのサインは、主成分分析（ＰＣＡ）を使用して生成される。様々なＮＭＤから収集されたデータは、可能性のある周波数応答スペクトルの全体的な分布を提供する。一般に、主成分を分析すれば、すべてのフィールドデータにおける変化を直交座標系で表すことができる。図８のプロット図に示される輪郭が固有空間を反映する。プロット内の各ドットは、固有空間に投影される既知のノイズの値（例えば、確認されているノイズ源に向けられたＮＭＤからの単一周波数の応答スペクトル）を表す。図８に見られるように、これらの既知のノイズの値は、固有空間に投影されたときにクラスタ化する。この例では、図８のプロットは４つのベクトル解析を表しており、各ベクトルはそれぞれの特徴に対応する。これらの特徴は、集合的に見て、背景音声を表すサインである。

図７Ａに戻って説明すると、いくつかの実装形態では、付加的バッファ７６９（破線で示す）は、上流側にあるＡＥＣ７６３および空間プロセッサ７６４によって処理され、検出された音Ｓ_Ｄに関する情報（例えば、メタデータまど）を格納することができる。この付加的バッファ７６９は、「サウンドメタデータバッファ」と称されてもよい。このようなサウンドメタデータは、例えば、以下を含む。（１）周波数応答データ、（２）エコーリターンロス増強測定値、（３）音声方向測定値、（４）アービトレーション統計、および／または（５）音声スペクトルデータ。例示的な実装形態では、ノイズ分類器７６６は、バッファ７６９にあるサウンドメタデータを分析して、検出された音Ｓ_Ｄのノイズを分類することができる。

上述したように、音の一つの分類としては、遠距離場における音声および／またはＮＭＤ７０３を煩わすことがない会話を示す音声などの背景音声であってもよい。ノイズ分類器７６６は、背景音声が環境に存在していることを示す信号を出力したり、状態変数を設定することができる。音声入力７８０の事象前部分において音声活動（すなわち、語り）があっても、それはＮＭＤ７０３に向けられておらず、環境内での会話音声である可能性があることを示す。例えば、世帯のメンバーが、ＮＭＤ７０３に「プレイ（再生して）」というコマンドキーワードを指示することを意図せずに、「あの子たちはもうすぐプレイ（遊び）の約束に行かないと」というようなことを言うかもしれない。

さらに、ノイズ分類器が、環境内に背景音声が存在することを示す場合、この条件は、コマンドキーワードエンジン７７１ａを無効にすることができる。いくつかの実装形態では、（おそらくノイズ分類器７６６によって設定された状態変数によって示されるように）背景音声が環境に存在しないという条件は、コマンドキーワードのコマンド条件のうちの１つとして構成される。したがって、状態機械７７５ａは、背景音声が環境に存在していることをノイズ分類器７６６が示すとき、第１状態に移行しない。

さらに、ノイズ分類器７６６は、背景音声が環境に存在しているかどうかを、１つ以上のメトリックに基づいて判定することができる。例えば、ノイズ分類器７６６は、音声入力７８０の事象前部分のフレームのカウント値でもって背景音声を示すことを決定することができる。このカウント値が閾値パーセントまたはフレーム数を超えた場合、ノイズ分類器７６６は、信号を出力するか、状態変数を設定して、背景音声が環境に存在していることを示すように構成され得る。そのようなカウント値に加えて、またはその代わりに、他のメトリックも同様に使用することができる。

例示的な実装形態では、ＮＭＤ７０３ａは、複数のコマンドキーワードをサポートすることができる。そのようなサポートを容易にするために、コマンドキーワードエンジン７７１ａは、それぞれのコマンドキーワードに対応する複数の識別アルゴリズムを実装することができる。あるいは、ＮＭＤ７０３ａは、それぞれのコマンドキーワードを識別するように構成された付加的なコマンドキーワードエンジン７７１ｂを実装してもよい。さらに、ローカルＮＬＵ７７９のライブラリは、複数のコマンドキーワードを含み、信号Ｓ_ＡＳＲにおいてこれらのコマンドキーワードに対応するテキストパターンを検索するように構成されてもよい。

さらに、コマンドキーワードは、異なる条件を必要とする場合がある。例えば、「スキップ」はメディアアイテムが再生されているという条件を必要とし、「再生」はメディアアイテムが再生されていないという反対の条件を必要とする場合がある。このように、「スキップ」のための条件は「再生」のための条件とは異なる場合がある。これらのそれぞれの条件を容易にするために、ＮＭＤ７０３ａは、コマンドキーワード毎に対応する状態機械７７５ａを実装することができる。あるいは、ＮＭＤ７０３ａは、コマンドキーワード毎のそれぞれに対応可能な一つの状態機械７７５ａを実装してもよい。他の例も同様に可能である。

いくつかの例示的な実装形態では、ＶＡＳウェイクワードエンジン７７０ａは、特定の条件が満たされたときにＶＡＳウェイクワードイベントを生成する。ＮＭＤ７０３ｂは、状態機械７７５ａと同様の状態機械７７５ｂを含む。状態機械７７５ｂは、ＶＡＳウェイクワードに対応する１つ以上の条件が満たされたかどうかに基づいて、第１状態と第２状態との間を移行する。

例えば、いくつかの例では、ＶＡＳウェイクワードエンジン７７０ａは、ＶＡＳウェイクワードイベントが検出される前に背景音声が環境内に存在しなかった場合にのみ、ＶＡＳウェイクワードイベントを生成することができる。音声活動が環境に存在するかどうかの表示は、ノイズ分類器７６６からもたらされ得る。上述したように、ノイズ分類器７６６は、信号を出力するか、または状態変数を設定して、環境に遠距離場音声が存在することを示すように構成することができる。さらに、ＶＡＳウェイクワードエンジン７７０ａは、音声活動が環境に存在している場合にのみ、ＶＡＳウェイクワードイベントを生成することができる。上述したように、ＶＡＤ７６５は、音声活動が環境に存在していることを示すため、信号を出力するか、または状態変数を設定するように構成されてもよい。

例示すると、図７Ｂに示すように、ＶＡＳウェイクワードエンジン７７０ａは状態機械７７５ｂに接続されている。状態機械７７５ｂが第１状態のままである場合は、１つ以上の条件が満たされたときであり、その条件の1つには環境に音声活動が存在しないという条件を含み得る。状態機械７７５ｂが第１状態にあるとき、ＶＡＳウェイクワードエンジン７７０ａは有効にされ、ＶＡＳウェイクワードイベントが生成できる状態にある。もし、１つ以上の条件のいずれかが満たされない場合、状態機械７７５ｂは第２状態に移行し、これにより、ＶＡＳウェイクワードエンジン７７０ａが無効にされる。

さらに、ＮＭＤ７０３は、１人以上のユーザがＮＭＤ７０３に近接しているか否かを示す信号を出力する１つ以上のセンサを含んでもよい。例示的なセンサとして、温度センサ、赤外線センサ、撮像センサ、および／または静電容量センサや、他のセンサを含む。ＮＭＤ７０３は、そのようなセンサからの出力を使用して、１人以上のユーザがＮＭＤ７０３に近接しているか否かを示す１つ以上の状態変数を設定することができる。次いで、状態機械７７５ｂは、その有無を状態機械７７５ｂの条件としてもよい。例えば、状態機械７７５ｂは、少なくとも１人のユーザがＮＭＤ７０３に近接しているときに、ＶＡＳウェイクワードエンジンおよび／またはコマンドキーワードエンジン７７１ａを有効にすることができる。

例示的な状態機械の動作を説明するために、図７Ｃは、１つ以上のコマンド条件を必要とする例示的なコマンドキーワードのための状態機械７７５の動作を示すブロック図である。７７７ａにおいて、状態機械７７５は、すべてのコマンド条件が満たされている間、第１状態７７８ａのままである。状態機械７７５が第１状態７７８ａのままである（すなわち、全コマンド条件が満たされている）間、ＮＭＤ７０３ａは、コマンドキーワードがコマンドキーワードエンジン７７１ａによって検出されると、コマンドキーワードイベントを生成する。

７７７ｂにおいて、いずれかのコマンド条件が満たされない場合、状態機械７７５は第２状態７７８ｂに移行する。７７７ｃにおいて、状態機械７７５は、いずれかのコマンド条件が満たされなければ、第２状態７７８ｂのままである。状態機械７７５が第２状態７７８ｂにある間は、ＮＭＤ７０３ａは、たとえコマンドキーワードがコマンドキーワードエンジン７７１ａによって検出されたとしても、コマンドキーワードイベントの動作に移らない。

再び図７Ａを参照すると、いくつかの例では、１つ以上の追加のコマンドキーワードエンジン７７１ｂは、カスタムコマンドキーワードエンジンを含んでもよい。ストリーミングオーディオサービスなどのクラウドサービスプロバイダは、サービス固有のコマンドキーワードをスポットするように構成された識別アルゴリズムで予め構成されたカスタムキーワードエンジンを、提供することができる。これらのサービス固有のコマンドキーワードは、サービスにアクセスする際に使用されるカスタムサービス機能および／またはカスタム名のためのコマンドを含むことができる。

例えば、ＮＭＤ７０３ａは、特定のストリーミングオーディオサービス（例えば、アップルミュージック）コマンドキーワードエンジン７７１ｂを含むことができる。この特定のコマンドキーワードエンジン７７１ｂは、特定のストリーミングオーディオサービスに固有のコマンドキーワードを検出し、ストリーミングオーディオサービスウェイクワードイベントを生成するように、構成することができる。例えば、１つのコマンドキーワードは、特定のストリーミングオーディオサービスの中の１人または複数の「友達」の再生履歴から生成されたカスタムプレイリストを再生するコマンドに対応する「ＦｒｉｅｎｄｓＭｉｘ」であってもよい。

カスタムコマンドキーワードエンジン７７１ｂは、一般に、ＶＡＳウェイクワードエンジン７７０ａがカスタムコマンドキーワードエンジン７７１ｂよりも複雑であるため、ＶＡＳウェイクワードエンジン７７０ａよりも誤りのウェイクワードが比較的発生しやすい可能性がある。これを軽減するために、カスタムコマンドキーワードは、カスタムコマンドキーワードイベントを生成する前に１つ以上の条件が満たされることを必要とする場合がある。さらに、いくつかの実装形態では、誤検知の発生率を低減するために、カスタムコマンドキーワードエンジン７７１ｂをＮＭＤ７０３ａに含めるための要件として、複数の条件が課される場合がある。

これらのカスタムコマンドキーワード条件は、サービス固有の条件を含むことができる。例えば、プレミアム機能またはプレイリストに対応するコマンドキーワードは、条件としてサブスクリプションを必要とする場合がある。別の例として、特定のストリーミングオーディオサービスに対応するカスタムコマンドキーワードは、再生キュー内のそのストリーミングオーディオサービスからのメディアアイテムを必要とする場合がある。他の条件も同様に可能である。

カスタムコマンドキーワード条件に基づいてカスタムコマンドキーワードエンジンをゲーティングするために、ＮＭＤ７０３ａは、各カスタムコマンドキーワードに対応する付加的な状態機械７７５ａを有することができる。あるいは、ＮＭＤ７０３ａは、カスタムコマンドキーワードごとにそれぞれの状態を有する状態機械７７５ａを実装してもよい。他の例も同様に可能である。これらのカスタムコマンド条件は、ＭＰＳ１００内のデバイスによって維持される状態変数に依存してもよく、また、ストリーミングオーディオサービスなどのクラウドサービスのユーザアカウントの状態を表す状態変数または他のデータ構造に依存してもよい。

図９Ａおよび図９Ｂは、例示的なコマンドキーワードおよび対応する条件を示す表９８５を示す。図に示すように、例示的なコマンドキーワードは、同様の意図を有し、同様の条件を必要とする同族を含むことができる。例えば、「次の」コマンドキーワードは、「スキップ」および「早送り」の同族を有し、それぞれが適切な条件下でスキップコマンドを呼び出す。表９８５に示される条件は例示的なものである。様々な実装形態は、異なる条件を使用することができる。

図７Ａを再び参照すると、例示的な実施形態では、ＶＡＳウェイクワードエンジン７７０ａおよびコマンドキーワードエンジン７７１ａは、様々な形態をとることができる。例えば、ＶＡＳウェイクワードエンジン７７０ａおよびコマンドキーワードエンジン７７１ａは、ＮＭＤ７０３ａおよび／またはＮＭＤ７０３ｂのメモリ（例えば、図１Ｆのメモリ１１２ｂ）に格納される１つ以上のモジュールの形態をとってもよい。別の例として、ＶＡＳウェイクワードエンジン７７０ａおよびコマンドキーワードエンジン７７１ａは、汎用プロセッサもしくは専用プロセッサ、またはこれらのモジュールの形態をとってもよい。この点において、複数のウェイクワードエンジン７７０および７７１は、ＮＭＤ７０３ａの同じコンポーネントの一部であってもよく、または各ウェイクワードエンジン７７０および７７１は、特定のウェイクワードエンジン専用のコンポーネントの形態をとってもよい。他の可能性も存在する。

誤検知をさらに低減するために、コマンドキーワードエンジン７７１ａは、ＶＡＳウェイクワードエンジン７７０ａと比較して相対的に低い感度を利用することができる。実際には、ウェイクワードエンジンは、変更可能な感度レベル設定を含むことができる。感度レベルは、検出されたサウンドストリームＳ_ＤＳ１で識別されたワードと、一致すると考えられるウェイクワードエンジンの１つ以上の特定のウェイクワード（すなわち、ＶＡＳウェイクワードまたはコマンドキーワードイベントをトリガする）との間の類似度を定義することができる。言い換えれば、感度レベルは、一例として、検出されたサウンドストリームＳ_ＤＳ２のスペクトル特性が、ウェイクワードトリガとなるエンジンの１つ以上のウェイクワードのスペクトル特性にどれだけ近くなければならないかを定義する。

この点において、感度レベルは、一般に、ＶＡＳウェイクワードエンジン７７０ａおよびコマンドキーワードエンジン７７１ａが識別する誤検知の数を制御する。例えば、ＶＡＳウェイクワードエンジン７７０ａが、ウェイクワード「Ａｌｅｘａ」を比較的高い感度で識別するように構成されている場合、「Ｅｌｅｃｔｉｏｎ」または「Ｌｅｘｕｓ」という誤りのウェイクワードであっても、ウェイクワードエンジン７７０ａは、ウェイクワード「Ａｌｅｘａ」の存在にフラグを立て得る。対照的に、コマンドキーワードエンジン７７１ａが比較的低い感度で構成されている場合、「ｍａｙ」または「ｄａｙ」という誤りのウェイクワードは、コマンドキーワードエンジン７７１ａに、コマンドキーワード「Ｐｌａｙ」の存在にフラグを立てさせない。

実際には、感度レベルは様々な形態をとることができる。例示的な実装形態では、感度レベルは、ウェイクワードエンジンがその特定のウェイクワードの検出された音を分析しているときにウェイクワードイベントをトリガするかトリガしないかの間を分ける線として機能するウェイクワードエンジンの最小信頼度（すなわち、確率）のレベルを定義する信頼度の閾値の形態をとる。これに関して、より高い感度レベルは、より低い信頼度閾値（およびより多くの誤検知）に対応し、より低い感度レベルは、より高い信頼度閾値（およびより少ない誤検知）に対応する。例えば、ウェイクワードエンジンの信頼度閾値を下げることが、実際の特定のウェイクワードである可能性がより低いワードをそれが識別するときに、ウェイクワードイベントをトリガするように構成し、一方で信頼度閾値を上げると、実際の特定のウェイクワードである可能性がより高いワードを識別するときに、ウェイクワードイベントをそれがトリガするようにエンジンを構成する。例の中で、コマンドキーワードエンジン７７１ａの感度レベルは、より多くのもの、またはコマンドキーワードをスポットする際の信頼度スコア、および／または意図を判定する際の信頼度スコアなどのいっそう多い信頼度スコアに基づいてもよい。感度レベルの他の例も可能である。

例示的な実装形態では、特定のウェイクワードエンジンの感度レベルパラメータ（例えば、感度の範囲）を更新することができ、これは様々な方法で行うことができる。１つの可能性として、所与のウェイクワードエンジンのＶＡＳまたは他の第三者プロバイダは、所与のＶＡＳウェイクワードエンジン７７０ａのための１つ以上の感度レベルパラメータを修正するウェイクワードエンジンの更新を、ＮＭＤ７０３に提供することができる。対照的に、コマンドキーワードエンジン７７１ａの感度レベルパラメータは、ＮＭＤ７０３ａの製造業者によって、または別のクラウドサービス（例えば、カスタムウェイクワードエンジン７７１ｂの場合）によって、構成されてもよい。

特に、特定の例では、ＮＭＤ７０３ａは、音声入力７８０を処理するときに、コマンドキーワードが含まれていれば、検出された音Ｓ_Ｄを表す任意のデータ（例えば、メッセージＭ_Ｖ）をＶＡＳに送信することを取り止める。ローカルＮＬＵ７７９を含む実装形態では、ＮＭＤ７０３ａは、音声入力７８０の（キーワードのワード部分に加えて）音声発話部分が存在していても、音声入力７８０の音声発話部分をＶＡＳに送信することなく、処理することができる。したがって、（コマンドキーワードを伴う）音声入力７８０をＮＭＤ７０３に語り掛けても、ＶＡＳを使用してすべての音声入力を処理する類のＮＭＤと比較して、プライバシーを高めることができる。

上述したように、ローカルＮＬＵ７７９のライブラリのキーワードは、パラメータに対応する。これらのパラメータは、検出されたコマンドキーワードに対応するコマンドを実行するように定めることができる。音声入力７８０においてキーワードが認識されると、検出されたコマンドキーワードに対応するコマンドが、検出されたキーワードに対応するパラメータに従って実行される。

例えば、例示的な音声入力７８０は、「音楽を低音量で再生」であってもよく、ここで、「再生」はコマンドキーワード部分（再生コマンドに対応する）であり、「音楽を低音量で再生」は音声発話部分であってもよい。この音声入力７８０を解析するとき、ＮＬＵ７７９は、「低音量」が、ある（小）音量レベルを表すパラメータに対応するライブラリのキーワードであることを認識し得る。したがって、ＮＬＵ７７９は、この低い音量レベルで再生する意図を決定してもよい。次いで、「再生」に対応する再生コマンドを実行するとき、このコマンドは、ある音量レベルを表すパラメータに従って実行される。

第２の例では、別の例示的な音声入力７８０は、「キッチンでお気に入りを再生して」であってもよく、ここでも「再生」はコマンドキーワード部分（再生コマンドに対応する）であり、「キッチンでお気に入りを」は音声発話部分である。この音声入力７８０を分析すると、ＮＬＵ７７９は、「お気に入り」および「キッチン」がそのライブラリ内のキーワードと一致することを認識し得る。特に、「お気に入り」は、特定のオーディオコンテンツ（すなわち、ユーザのお気に入りのオーディオトラックを含む特定のプレイリスト）を表す第１パラメータに対応し、一方、「キッチン」は、再生コマンドのターゲット（すなわち、キッチン１０１ｈゾーン）を表す第２パラメータに対応する。したがって、ＮＬＵ７７９は、キッチン１０１ｈゾーンでこの特定のプレイリストを再生する意図を判定してもよい。

第３の例では、さらなる例示的な音声入力７８０は、「音量アップ」であってもよく、「音量」はコマンドキーワード部分（音量調整コマンドに対応する）であり、「アップ」は音声発話部分であってもよい。この音声入力７８０を解析するとき、ＮＬＵ７７９は、「アップ」が、ある音量上昇を表すパラメータ（例えば、１００ポイントスケール上で１０ポイントの増加）に対応するライブラリのキーワードであることを認識し得る。したがって、ＮＬＵ７７９は、音量を上げる意図を判定してもよい。次いで、「音量」に対応する音量調整コマンドを実行する場合、このコマンドは、一定の音量上昇を表すパラメータに従って実行される。

例では、特定のコマンドキーワードは、ローカルＮＬＵ７７９のライブラリ内において、そのキーワードのサブセットのキーワードと機能的にリンクされているので、分析を促進することができる。例えば、コマンドキーワード「スキップ」は、キーワード「早送り」および「巻き戻し」と機能的にリンクされており、更にそれらの同族にもリンクされていてもよい。したがって、ある音声入力７８０においてコマンドキーワード「スキップ」が検出された場合、その音声入力７８０の音声発話部分の分析をローカルＮＬＵ７７９で行う場合、（音声入力７８０に、ローカルＮＬＵ７７９のライブラリ内のキーワードと一致するキーワードが含まれているか否かを判定するのではなく）音声入力７８０に、機能的にリンクされたキーワードと一致するキーワードが含まれているか否かを判定することを含んでもよい。非常に少ないキーワードがチェックされるので、この分析はライブラリの完全な検索よりも相対的に迅速である。対照的に、「Ａｌｅｘａ」などのノンスのＶＡＳウェイクワードは、付随する音声入力の範囲に関する指示を提供しない。

コマンドキーワードのみでは対応するコマンドを実行するのに十分な情報を提供しないため、いくつかのコマンドは１つ以上のパラメータを必要とする場合がある。例えば、コマンドキーワード「音量」は、「音量」のみの発声では意図が不明確であるため、音量の増減を指定するパラメータを必要とする場合がある。別の例として、コマンドキーワード「グループ」は、グループ化するターゲットデバイスを識別する２つ以上のパラメータを必要とする場合がある。

したがって、いくつかの例示的な実装形態では、音声入力７８０内に含まれる所与のコマンドキーワードが、コマンドキーワードエンジン７７１ａによって検出されると、ローカルＮＬＵ７７９は、音声入力７８０が、必要なパラメータに対応するライブラリ内のキーワードと一致するキーワードを含むかどうかを判定することができる。音声入力７８０に必要なパラメータと一致するキーワードが含まれる場合、ＮＭＤ７０３ａは、キーワードによって指定されたパラメータに従って（所与のコマンドキーワードに対応する）コマンドの実行に進む。

しかしながら、音声入力７８０がコマンドに必要なパラメータと一致するキーワードを含む場合であっても、ＮＭＤ７０３ａは、パラメータを提供するようにユーザに促すことができる。例えば、ひとつの例では、ＮＭＤ７０３ａは、「コマンドを聞きましたが、さらに多くの情報が必要です」または「お手伝いが必要ですか？」などの可聴問合せプロンプトを再生することができる。あるいは、ＮＭＤ７０３ａは、制御アプリケーション（例えば、制御デバイス１０４のソフトウェアコンポーネント１３２ｃ）を介してユーザのパーソナルデバイスに問合わせプロンプトを送信してもよい。

さらなる例では、ＮＭＤ７０３ａは、検出されたコマンドキーワードに対して、カスタマイズされた可聴プロンプトを、再生することができる。例えば、音量調整コマンド（例えば、「音量」）に対応するコマンドキーワードを検出した後、可聴プロンプトは、「音量を上げますか、下げしますか」などの、より具体的な要求を含むことができる。別の例として、コマンドキーワード「グループ」に対応するグループ化コマンドの場合、可聴プロンプトは「どのデバイスをグループ化しますか」であってもよい。そのような特定の可聴プロンプトのサポートは、比較的限られた数のコマンドキーワード（例えば、１００未満）をサポートすることによって実用的にすることができるが、他の実装形態は、追加のメモリおよび処理能力を必要とするというトレードオフを伴いながらも、より多くのコマンドキーワードをサポートすることができる。

追加の例では、音声発話部分が１つ以上の必須のパラメータに対応するキーワードを含まない場合、ＮＭＤ７０３ａは、１つ以上のデフォルトパラメータに従って、対応するコマンドを実行することができる。例えば、再生コマンドが、再生するためのターゲット再生デバイス１０２を示すキーワードを含まない場合、ＮＭＤ７０３ａは、ＮＭＤ７０３ａ自身による再生（例えば、ＮＭＤ７０３ａがある再生デバイス１０２内に実装されている）、または、１つ以上の関連付けられた再生デバイス１０２での再生（例えば、ＮＭＤ７０３ａと同じ部屋またはゾーン内の再生デバイス１０２）をデフォルトで行ってもよい。さらに、いくつかの例では、ユーザは、グラフィカルユーザインターフェース（例えば、ユーザインターフェース４３０）または音声ユーザインターフェースを使用して、デフォルトのパラメータを構成することができる。例えば、グループ化コマンドがグループ化すべき再生デバイス１０２を指定しない場合、ＮＭＤ７０３ａは、同期グループを形成するように２つ以上の予め設定されたデフォルト再生デバイス１０２に指示することをデフォルトとしてもよい。デフォルトのパラメータは、データストレージ（例えば、メモリ１１２ｂ（図１Ｆ））に格納され、キーワードが特定のパラメータを除外しているとＮＭＤ７０３ａが判定した場合にアクセスされてもよい。他の例も同様に可能である。

場合によっては、ＮＭＤ７０３ａは、ローカルＮＬＵ７７９が音声入力７８０を処理できない場合（例えば、ローカルＮＬＵがライブラリのキーワードとの一致を見つけることができない場合、またはローカルＮＬＵ７７９が意図に関して低い信頼度スコアを有する場合）、音声入力７８０をＶＡＳに送信する。例では、音声入力７８０の送信をトリガするために、ＮＭＤ７０３ａは、上述したように、音声抽出器７７３にサウンドデータストリームＳ_Ｄを処理させるブリッジングイベントを生成することができる。すなわち、ＮＭＤ７０３ａは、ＶＡＳウェイクワードがＶＡＳウェイクワードエンジン７７０ａによって検出されることなく（代わりに、音声入力７８０を処理することができないＮＬＵ７７９、ならびに音声入力７８０のコマンドキーワードに基づいて）、音声抽出器７７３をトリガするためのブリッジングイベントを生成する。

音声入力７８０をＶＡＳに送信する（例えば、メッセージＭ_Ｖを介して）前に、ＮＭＤ７０３ａは、音声入力７８０をＶＡＳに送信することの確認を、ユーザから取得し得る。例えば、ＮＭＤ７０３ａは、音声入力を「申し訳ありませんが、理解できませんでした。Ａｌｅｘａに聞いてもよいですか」などのデフォルトまたは別様に構成されたＶＡＳに送信するために、可聴プロンプトを再生することができる。別の例では、ＮＭＤ７０３ａは、「お手伝いが必要ですか？」などのＶＡＳ音声（すなわち、特定のＶＡＳに関連付けられているとほとんどのユーザにとって既知である音声）を使用して、可聴プロンプトを再生することができる。そのような例では、ブリッジングイベントの生成（および音声抽出器７７３にトリガーをかけること）は、ユーザからの第２の肯定的な音声入力７８０を条件とする。

特定の例示的な実装形態では、ローカルＮＬＵ７７９は、必ずしもコマンドキーワードエンジン７７１ａによって（すなわち、直接）コマンドキーワードイベントが生成されることなく、信号Ｓ_ＡＳＲを処理することができる。すなわち、自動音声認識７７２は、サウンドデータストリームＳ_Ｄに対して自動音声認識を実行するように構成されてもよく、ローカルＮＬＵ７７９は、コマンドキーワードイベントを受けることなくキーワードを照合するための処理をする。音声入力７８０のキーワードが、コマンドに対応するキーワード（場合によっては、１つ以上のパラメータに対応する１つ以上のキーワードを含む）と一致することが分かった場合、ＮＭＤ７０３ａは、１つ以上のパラメータに従ってコマンドを実行する。

さらに、そのような例では、ローカルＮＬＵ７７９は、特定の条件が満たされた場合にのみ信号Ｓ_ＡＳＲを直接処理することができる。特に、いくつかの実施形態では、ローカルＮＬＵ７７９は、状態機械７７５ａが第１状態にあるときにのみ信号Ｓ_ＡＳＲを処理する。特定の条件は、環境に背景音声がないことに対応する条件を含むことができる。背景音声が環境に存在しているかどうかの表示は、ノイズ分類器７６６からもたらされ得る。上述したように、ノイズ分類器７６６は、環境に遠距離場音声が存在することを示す信号を出力するか、または状態変数を設定するように構成することができる。さらに、環境の音声活動に対応する別の条件があってもよい。ＶＡＤ７６５は、音声活動が環境に存在していることを示す信号を出力するか、または状態変数を設定するように構成されてもよい。同様に、直接的処理の手法を用いたコマンドの誤検知検出の発生率は、状態機械７７５ａによって決定された条件を使用して緩和することができる。

いくつかの例では、ローカルＮＬＵ７７９のライブラリは、個々のユーザに対して部分的にカスタマイズされる。第１の観点では、ライブラリは、ＮＭＤの家庭内にあるデバイス（例えば、環境１０１内の家庭（図１Ａ））にカスタマイズすることができる。例えば、ローカルＮＬＵのライブラリは、ＭＰＳ１００の再生デバイス１０２のゾーン名など、家庭内のデバイスの名前に対応するキーワードを含むことができる。第２の観点では、ライブラリは、家庭内のデバイスのユーザにカスタマイズすることができる。例えば、ローカルＮＬＵ７７９のライブラリは、ユーザの好みのプレイリスト、アーティスト、アルバムなどの名前または他の識別子に対応するキーワードを含んでもよい。次に、ユーザは、コマンドキーワードエンジン７７１ａおよびローカルＮＬＵ７７９に音声入力を指示するときに、これらの名前または識別子を参照することができる。

例示的な実装形態では、ＮＭＤ７０３ａは、ローカルＮＬＵ７７９のライブラリをネットワーク１１１（図１Ｂ）内でローカルに集めることができる。上述したように、ＮＭＤ７０３ａは、ネットワーク１１１に接続されたデバイス（例えば、再生デバイス１０４）のそれぞれの状態を示す状態変数を維持するか、またはこれにアクセスすることができる。これらの状態変数は、各種デバイスの名称を含んでもよい。例えば、キッチン１０１ｈは、ゾーン名「キッチン（Ｋｉｔｃｈｅｎ）」が割り当てられた再生デバイス１０１ｂを含んでもよい。ＮＭＤ７０３ａは、これらの名称を状態変数から読み出し、それらをキーワードとして認識するようにローカルＮＬＵ７７９を学習させることによって、ローカルＮＬＵ７７９のライブラリにそれらを含めることができる。所与の名前のキーワードエントリは、その後、関連付けられたパラメータの対応するデバイスに関連付けられ得る（例えば、ＭＡＣアドレスまたはＩＰアドレスなどのデバイスの識別子によって）。次いで、ＮＭＤ７０３ａは、パラメータを使用して制御コマンドをカスタマイズし、そのコマンドを特定の装置に指示することができる。

さらなる例では、ＮＭＤ７０３ａは、ネットワーク１１１に接続されたデバイスを発見することによって、ライブラリを集めることができる。例えば、ＮＭＤ７０３ａは、ユニバーサルプラグアンドプレイ（ＵＰｎＰ）またはゼロ構成ネットワーキングなどのデバイスの発見のために構成されたプロトコルに従って、ネットワーク１１１を介して発見要求を送信することができる。次いで、ネットワーク１１１にあるデバイスは、発見要求に応答し、デバイス名、識別子、アドレスなどを表すデータを交換して、ネットワーク１１１を介した通信および制御を促進することができる。ＮＭＤ７０３ａは、これらの名称を交換されたメッセージから読み出し、それらをキーワードとして認識するようにローカルＮＬＵ７７９の学習を行うことによって、ローカルＮＬＵ７７９のライブラリにそれらを含めることができる。

さらなる例では、ＮＭＤ７０３ａは、クラウドを使用してライブラリに集めることができる。説明すると、図１０は、ＭＰＳ１００およびクラウドネットワーク９０２の概略図である。クラウドネットワーク９０２は、メディア再生システム制御サーバ９０６ａ、ストリーミングオーディオサービスサーバ９０６ｂ、およびＩｏＴクラウドサーバ９０６ｃとして別々に識別されるクラウドサーバ９０６を含む。ストリーミングオーディオサービスサーバ９０６ｂは、異なるストリーミングオーディオサービスのクラウドサーバを表すことができる。同様に、ＩｏＴクラウドサーバ９０６ｃは、ＭＰＳ１００のスマートデバイス９９０をサポートする異なるクラウドサービスに対応するクラウドサーバを表すことができる。

１つ以上の通信リンク９０３ａ、９０３ｂ、９０３ｃ（以下、「リンク９０３」と称す）は、ＭＰＳ１００とクラウドサーバ９０６とを通信可能に接続する。リンク９０３は、１つ以上の有線ネットワークおよび１つ以上の無線ネットワーク（例えば、インターネット）を含むことができる。さらに、ネットワーク１１１（図１Ｂ）と同様に、ネットワーク９１１は、リンク９０３と、ＭＰＳ１００のデバイス（例えば、再生デバイス１０２、ＮＭＤ１０３および７０３ａ、制御デバイス１０４、および／またはスマートデバイス９９０のうちの１つ以上）の少なくとも一部とを、通信可能に結合する。

いくつかの実装形態では、メディア再生システム制御サーバ９０６ａは、ローカルＮＬＵ７７９のライブラリを充足することを、ＮＭＤ７０３ａ（ＭＰＳ１００内のＮＭＤ７０３ａ（図７Ａ）のうちの１つ以上を表す）を用いて容易にする。例では、メディア再生システム制御サーバ９０６ａは、ローカルＮＬＵ７７９のライブラリを充足する要求を表すデータを、ＮＭＤ７０３ａから受信してもよい。この要求に基づいて、メディア再生システム制御サーバ９０６ａは、ユーザに固有のキーワードを取得するために、ストリーミングオーディオサービスサーバ９０６ｂおよび／またはＩｏＴクラウドサーバ９０６ｃと通信することができる。

いくつかの例では、メディア再生システム制御サーバ９０６ａは、ユーザ固有のキーワードを取得するために、ユーザアカウントおよび／またはユーザプロファイルを利用してもよい。上述したように、ＭＰＳ１００のユーザは、ユーザプロファイルを設定して、ＭＰＳ１００内の設定および他の情報を定義することができる。次いで順次、ユーザプロファイルは、１つ以上のストリーミングオーディオサービスのユーザアカウントに登録されて、そのようなサービスからＭＰＳ１００の再生デバイス１０２へストリーミングオーディオを容易にすることができる。

これらの登録されたストリーミングオーディオサービスの使用を通じて、ストリーミングオーディオサービスサーバ９０６ｂは、使用履歴またはユーザの入力のいずれかを介して（例えば、保存されたメディアアイテムまたはお気に入りを指定するユーザの入力を介して）、ユーザの保存されたまたは好みのプレイリスト、アーティスト、アルバム、トラックなどを示すデータを収集することができる。このデータは、ストリーミングオーディオサービスサーバ９０６ｂのデータベースに格納されて、カスタムのプレイリスト、推奨、および同様の機能などのストリーミングオーディオサービスの特定の機能をユーザに提供することを容易にすることができる。適切な条件下（例えば、ユーザの許可を受け取った後で）で、ストリーミングオーディオサービスサーバ９０６ｂは、リンク９０３ｂを介してメディア再生システム制御サーバ９０６ａと、そのデータを共有することができる。

したがって、諸実施例において、メディア再生システム制御サーバ９０６ａは、ユーザの保存されたまたは好みのプレイリスト、アーティスト、アルバム、トラック、ジャンルなどを示すデータを維持するか、またはそのデータにアクセスすることができる。ユーザが複数のストリーミングオーディオサービスにユーザプロファイルを登録している場合、保存されているデータは、２つ以上のストリーミングオーディオサービスからの保存されたプレイリスト、アーティスト、アルバム、トラックなどを含むことができる。さらに、メディア再生システム制御サーバ９０６ａは、自身のサービスの使用によって生成されたデータへのアクセスを有するのみのストリーミングオーディオサービスと比較して、複数のストリーミングオーディオサービスからのデータを集約することによって、ユーザの好みのプレイリスト、アーティスト、アルバム、トラックなどのより完全に近い理解へと発展させることができる。

さらに、いくつかの実装形態では、ストリーミングオーディオサービスサーバ９０６ｂから共有されるデータに加えて、メディア再生システム制御サーバ９０６ａは、ユーザの許可を受信した後に、リンク９０３ａを介してＭＰＳ１００から使用データを収集することができる。これは、ゾーンに基づいてユーザの保存されたメディアアイテムまたは好みのメディアアイテムを示すデータを含むことができる。異なる部屋では、異なる種類の音楽が好ましい場合がある。例えば、ユーザは、キッチン１０１ｈでアップビートな音楽を好み、オフィス１０１ｅで集中できるように、より滑らかな音楽を好む場合がある。

メディア再生システム制御サーバ９０６ａは、ユーザの保存済みまたは好みのプレイリスト、アーティスト、アルバム、トラックなどを示すデータを使用して、音声入力を介してＮＭＤ７０３ａに再生コマンドを提供するときにユーザが参照する可能性が高いプレイリスト、アーティスト、アルバム、トラックなどの名称を、識別することができる。次いで、これらの名称を表すデータをリンク９０３ａおよびネットワーク９０４を介してＮＭＤ７０３ａに送信し、次いでキーワードとしてローカルＮＬＵ７７９のライブラリに追加することができる。例えば、メディア再生システム制御サーバ９０６ａは、ＮＭＤ７０３ａに命令を送信して、ローカルＮＬＵ７７９のライブラリのキーワードとして、特定の名前を含めることができる。あるいは、ＮＭＤ７０３ａ（またはＭＰＳ１００の別のデバイス）は、音声入力を介してＮＭＤ７０３ａに再生コマンドを提供するときにユーザが参照する可能性が高いプレイリスト、アーティスト、アルバム、トラックなどの名前を識別し、次いでこれらの名前をローカルＮＬＵ７７９のライブラリに含め得る。

このようなカスタマイズにより、同様の音声入力は、音声入力がローカルＮＬＵ７７９によって処理される場合、ＶＡＳによる処理と比較して異なる動作が実行されることになり得る。例えば、「Ａｌｅｘａ、オフィスで私のお気に入りを再生して」という第１の音声入力は、ＶＡＳウェイクワード（「Ａｌｅｘａ」）を含んでいるため、ＶＡＳウェイクワードイベントをトリガすることができる。「オフィスで私のお気に入りを再生して」という第２の音声入力は、コマンドキーワード（「再生」）を含むので、コマンドキーワードをトリガすることができる。したがって、第１の音声入力はＮＭＤ７０３ａによってＶＡＳに送信され、対して第２の音声入力はローカルＮＬＵ７７９によって処理される。

これらの音声入力はほぼ同一であるが、異なる操作を引き起こし得る。特に、ＶＡＳは、その能力の限りにおいて、オフィス１０１ｅの再生デバイス１０２ｆのキューに追加するオーディオトラックの第１のプレイリストを決定し得る。同様に、ローカルＮＬＵ７７９は、第２の音声入力におけるキーワード「お気に入り」および「キッチン」を認識し得る。これにより、ＮＭＤ７０３ａは、＜ｆａｖｏｒｉｔｅｓｐｌａｙｌｉｓｔ＞と＜ｋｉｔｃｈｅｎ１０１ｈｚｏｎｅ＞のパラメータで「再生」の音声コマンドを実行し、これにより、オーディオトラックの第２のプレイリストがオフィス１０１ｅの再生デバイス１０２ｆのキューに追加される。しかしながら、オーディオトラックの第２のプレイリストは、複数のストリーミングオーディオサービスからのユーザの保存されたまたは好ましいプレイリスト、アーティスト、アルバム、およびトラックを示すデータ、および／またはメディア再生システム制御サーバ９０６ａによって収集された使用データを描画することができるため、オーディオトラックの第２のプレイリストは、ユーザのお気に入りのオーディオトラックのより完全に近いおよび／またはより正確な収集を含むことができる。対照的に、ＶＡＳは、第１のプレイリストを決定するときに、ユーザの保存されたまたは好ましいプレイリスト、アーティスト、アルバム、およびトラックのその比較的限定された概念を利用することができる。

説明すると、図１１は、同様の音声入力に基づいて決定されるが、異なる処理がなされる第１および第２のプレイリストのそれぞれのコンテンツを示す表１１００を示す。特に、第１のプレイリストはＶＡＳによって決定され、一方、第２のプレイリストは、ＮＭＤ７０３ａによって（おそらくはメディア再生システム制御サーバ９０６ａと連携して）決定される。図示のように、両方のプレイリストはユーザのお気に入りを含むことを意図しているが、２つのプレイリストは、異なるアーティストおよびジャンルからのオーディオコンテンツを含む。特に、第２のプレイリストは、オフィス１０１ｅの再生デバイス１０２ｆの使用と、複数のストリーミングオーディオサービスとのユーザの対話とに従って構成され、第１のプレイリストは、ＶＡＳとの複数のユーザの対話に基づく。結果として、第２のプレイリストは、ユーザがオフィス１０１ｅで聴くことを好む音楽のタイプ（例えば、インディーロックおよびフォーク）に一層適合され、一方、第１のプレイリストは、全体としてのＶＡＳとの対話を一層代表的に表す。

家庭は、複数のユーザを含むことができる。２人以上のユーザは、ＭＰＳ１００を用いて自分達自身のそれぞれのユーザプロファイルを構成することができる。各ユーザプロファイルは、それぞれのユーザプロファイルに関連付けられた１つ以上のストリーミングオーディオサービスの独自のユーザアカウントを有することができる。さらに、メディア再生システム制御サーバ９０６ａは、各ユーザの保存されたまたは好みのプレイリスト、アーティスト、アルバム、トラック、ジャンルなどを示すデータを維持するかまたはそのデータにアクセスすることができ、このデータは、そのユーザのユーザプロファイルに関連付けられ得る。

様々な例において、ユーザプロファイルに対応する名前は、ローカルＮＬＵ７７９のライブラリに集められる。これは、特定のユーザの保存されたまたは好ましいプレイリスト、アーティスト、アルバム、トラック、またはジャンルの参照を容易にすることができる。例えば、「パティオでアンのお気に入りを再生して」という音声入力がローカルＮＬＵ７７９によって処理されると、ローカルＮＬＵ７７９は、「アン」が特定のユーザに対応する格納されたキーワードと一致すると判定し得る。次いで、その音声入力に対応する再生コマンドを実行するとき、ＮＭＤ７０３ａは、その特定のユーザのお気に入りのオーディオトラックのプレイリストをパティオ１０１ｉの再生デバイス１０２ｃのキューに追加する。

場合によっては、音声入力は特定のユーザに対応するキーワードを含まないかもしれないが、複数のユーザプロファイルがＭＰＳ１００によって構成される。場合によっては、ＮＭＤ７０３ａは、音声認識を使用してコマンドを実行する際に使用するユーザプロファイルを決定し得る。あるいは、ＮＭＤ７０３ａは、特定のユーザプロファイルにデフォルト設定してもよい。さらに、ＮＭＤ７０３ａは、特定のユーザプロファイルを識別しなかった音声入力に対応するコマンドを実行するときに、複数のユーザプロファイルから好みを使用することができる。例えば、ＮＭＤ７０３ａは、ＭＰＳ１００に登録された各ユーザプロファイルから、好ましいまたは保存されたオーディオトラックを含むお気に入り再生リストを決定することができる。

ＩｏＴクラウドサーバ９０６ｃは、スマートデバイス９９０にサポートするクラウドサービスを提供するように構成することができる。スマートデバイス９９０は、ライト、サーモスタット、カメラ、セキュリティシステム、機器などの様々な「スマート」インターネット接続デバイスを含むことができる。例えば、ＩｏＴクラウドサーバ９０６ｃは、スマートサーモスタットをサポートするクラウドサービスを提供することができ、これにより、ユーザは、スマートフォンのアプリまたはウェブサイトを介して、インターネットによりスマートサーモスタットを制御することができる。

したがって、例では、ＩｏＴクラウドサーバ９０６ｃは、デバイス名、設定、および構成など、ユーザのスマートデバイス９９０に関連するデータを維持するか、またはそれにアクセスすることができる。適切な条件下（例えば、ユーザの許可を受け取った後で）で、ＩｏＴクラウドサーバ９０６ｃは、リンク９０３ｃを介して、メディア再生システム制御サーバ９０６ａおよび／またはＮＭＤ７０３ａと、そのデータを共有することができる。例えば、スマートサーモスタットクラウドサービスを提供するＩｏＴクラウドサーバ９０６ｃは、そのようなキーワードを表すデータをＮＭＤ７０３ａに提供することができ、これは、温度に対応するキーワードを、ローカルＮＬＵ７７９のライブラリに集めることを促進する。

さらに、場合によっては、ＩｏＴクラウドサーバ９０６ｃはまた、それらの対応するスマートデバイス９９０の制御に固有のキーワードを提供することもできる。例えば、スマートサーモスタットをサポートするクラウドサービスを提供するＩｏＴクラウドサーバ９０６ｃは、他の例の中でも、「気温」、「より暖かい」、または「より涼しい」など、サーモスタットの音声制御に対応するキーワードのセットを提供することができる。このようなキーワードを表すデータは、ＩｏＴクラウドサーバ９０６ｃからリンク９０３およびネットワーク９０４を介して、ＮＭＤ７０３ａに送信されてもよい。

上述したように、一部の家庭は、ＮＭＤ７０３ａよりも多くを含んでもよい。例示的な実装形態では、２つ以上のＮＭＤ７０３ａは、それぞれのローカルＮＬＵ７７９のライブラリを同期または更新することができる。例えば、第１のＮＭＤ７０３ａおよび第２のＮＭＤ７０３ａは、場合によってはネットワーク（例えば、ネットワーク９０４）を使用して、それぞれのローカルＮＬＵ７７９のライブラリを表すデータを共有してもよい。このような共有は、他の可能な利点の中でも、ＮＭＤ７０３ａが音声入力に同様に応答し得ることを促進することができる。

いくつかの実施形態では、上記のコンポーネントのうちの１つ以上は、マイクロフォン７２０と連携して動作して、ＭＰＳ１００のユーザアカウントに関連付けられ得るユーザの音声プロファイルを、検出および格納することができる。いくつかの実施形態では、音声プロファイルは、コマンド情報またはデータテーブルのセットに格納された変数として格納され、および／またはそれらと比較されてもよい。音声プロファイルは、ユーザの音声のトーンまたは周波数の態様、および／またはユーザの他の固有の態様を含むことができ、例えば以前に参照した米国特許出願公開第１５／４３８，７４９号明細書に記載されているものがある。

いくつかの実施形態では、上述したコンポーネントのうちの１つ以上は、マイクロフォン７２０と連携して動作して、家庭環境でのユーザの位置を、および／またはＮＭＤ１０３のうちの１つ以上の位置を基準として、決定することができる。ユーザの位置または近接性を判定するための技術は、以前に参照した米国特許出願公開第１５／４３８，７４９号明細書、２０１１年１２月２９日に出願された「ＳｏｕｎｄＦｉｅｌｄＣａｌｉｂｒａｔｉｏｎＵｓｉｎｇＬｉｓｔｅｎｅｒＬｏｃａｌｉｚａｔｉｏｎ」と題する米国特許第９，０８４，０５８号明細書、および２０１２年８月３１日に出願された「ＡｃｏｕｓｔｉｃＯｐｔｉｍｉｚａｔｉｏｎ」と題する米国特許第８，９６５，０３３号明細書に開示されている１つ以上の技術を含むことができる。これらの出願の各々は、その全体が本明細書に参照により組み込まれる。

ＩＶ．例示的なコマンドキーワード技法
図１２は、コマンドキーワードイベントに基づいて第１の再生コマンドを実行するための例示的な方法１２００を示すフロー図である。方法１１００は、ＮＭＤ７０３ａ（図７Ａ）の特徴を含むことができるＮＭＤ１０３ｓ（図１Ａ）などのネットワークマイクロフォンデバイスよって実行することができる。いくつかの実装形態では、ＮＭＤは、再生デバイス１０２ｒ（図１Ｇ）によって示されるように、再生デバイスの中に実装される。

方法１２００のブロック１２０２は、（ｉ）ウェイクワードイベントおよび（ｉｉ）第１のコマンドキーワードイベントについて入力サウンドデータストリームをモニタ、すなわち監視することを含む。例えば、ＮＭＤ７０３ａのＶＡＳウェイクワードエンジン７７０ａは、サウンドデータストリームＳ_ＤＳに１つ以上のウェイクワードを識別するアルゴリズムを適用してもよい（図７Ａ）。さらに、コマンドキーワードエンジン７７０は、図７Ａに関連して上述したように、おそらくはＡＳＲ７７２およびローカルＮＬＵ７７９を使用して、コマンドキーワードについてサウンドデータストリームＳ_ＤＳをモニタすることができる。

方法１２００のブロック１２０４は、ウェイクワードイベントを検出することを含む。ウェイクワードイベントの検出は、ＮＭＤ７０３ａのＶＡＳウェイクワードエンジン７７０ａによって、マイクロフォン７２０を介して、検出される第１の音であって、ウェイクワードを有する第１の音声入力を含む様な音声を検出することである。ＶＡＳウェイクワードエンジン７７０ａは、識別アルゴリズムを使用して、第１の音声入力におけるそのようなウェイクワードを検出することができる。

方法１２００のブロック１２０６は、第１の音声入力に対応するサウンドデータを音声アシスタントサービスの１つ以上のリモートサーバへストリーミングすることを含む。例えば、音声抽出器７７３は、サウンドデータストリームＳ_ＤＳ（図７Ａ）から第１音声入力の少なくとも一部（例えば、ウェイクワード部分および／または音声発話部分）を抽出してもよい。次いで、ＮＭＤ７０３は、この抽出されたデータを、ネットワークインターフェース７２４を介して音声アシスタントサービスの１つ以上のリモートサーバにストリーミングしてもよい。

方法１２００のブロック１２０８は、第１のコマンドキーワードイベントを検出することを含む。例えば、第２の音を検出した後、ＮＭＤ７０３ａのコマンドキーワードエンジン７７１ａは、第２の音における第２の音声入力に対応するサウンドデータストリームＳ_Ｄの第１のコマンドキーワードを検出し得る。他の例も同様に可能である。

方法１２００のブロック１２１０は、第１のコマンドキーワードに対応する１つ以上の再生条件が満たされているか否かを判定することを含む。第１のコマンドキーワードに対応する１つ以上の再生条件が満たされているかどうかを判定することは、状態機械の状態を判定することを含むことができる。例えば、ＮＭＤ７０３ａの状態機械７７５は、第１のコマンドキーワードに対応する１つ又はそれ以上存在する再生条件が満たされたときに第１状態に移行し、第１のコマンドキーワードに対応する１つ又はそれ以上存在する再生条件のうちの少なくとも１つの条件が満たされていないときに第２の状態に移行し得る（図７Ｃ）。例示的な再生条件を表９８５（図９Ａおよび図９Ｂ）に示す。

方法１２００のブロック１２１２は、第１のコマンドキーワードに対応する第１の再生コマンドを実行することを含む。例えば、ＮＭＤ７０３ａは、第１のコマンドキーワードイベントを検出し、第１のコマンドキーワードに対応する１つ以上の再生条件が満たされていると判定することに基づいて、第１の再生コマンドを実行してもよい。例において、第１の再生コマンドを実行することは、ターゲット再生デバイスに第１の再生コマンドを実行させるコマンドを実行するための１つ以上の命令を生成することを含むことができる。

例において、第１の再生コマンドを実行するための目標となる再生デバイス１０２は、直接的（明示的）または間接的（暗黙）に定義され得る。例えば、目標となるターゲット再生デバイス１０２は、（例えば、ゾーンまたはゾーングループ名を参照することによって）１つ以上の再生デバイスの名称に対する音声入力７８０における参照によって直接的に定義されてもよい。あるいは、音声入力は、１つ以上の再生デバイスの名前へのいかなる参照も含まず、代わりに、ＮＭＤ７０３ａに関連付けられた再生デバイス１０２を間接的に参照してもよい。ＮＭＤ７０３ａに関連付けられた再生デバイス１０２は、ＮＭＤ７０３ｄ（図１Ｂ）を実装する再生デバイス１０２ｄによって示されるように、ＮＭＤ１０３ａを実装する再生デバイス、または、関連付けられるように構成された再生デバイス（例えば、再生デバイス１０２がＮＭＤ７０３ａと同じ部屋またはエリアにある場合）を含むことができる。

例において、第１の再生動作を実行することは、１つ以上の命令を、１つ以上のネットワークを介して送信することを含むことができる。例えば、ＮＭＤ７０３ａは、図６に示すメッセージ交換と同様に、トランスポート制御（図１０）などの命令を実行するために、ネットワーク９０３を介して１つ以上の再生デバイス１０２にローカルに命令を送信することができる。さらに、ＮＭＤ７０３ａは、リンク９０３（図１０）を介して再生するためにターゲット再生デバイス１０２に１つ以上のオーディオトラックをストリーミングするように、ストリーミングオーディオサービスサービス９０６ｂに要求を送信することができる。あるいは、命令は、１つ以上のソフトウェアまたはハードウェアコンポーネント（例えば、再生デバイス１０２の電子機器１１２）に内部的に（例えば、ローカルバスまたは他の相互接続システムを介して）提供されてもよい。

さらに、命令を送信することは、ローカルおよびクラウドベースの動作の両方を含むことができる。例えば、ＮＭＤ７０３ａは、ネットワーク９０３を介してローカルにある１つ以上の再生デバイス１０２に命令を送信し、再生キューに１つ以上のオーディオトラックを追加させることができる。次に、１つ以上の再生デバイス１０２からストリーミングオーディオサービスサービス９０６ｂに要求を送信し、リンク９０３を介して再生するためにターゲット再生デバイス１０２に１つ以上のオーディオトラックをストリーミングさせることができる。他の例も同様に可能である。

図１３は、コマンドキーワードイベントに基づいて、１つ以上のパラメータに応じて第１の再生コマンドを実行する例示的な方法１３００を示すフロー図である。方法１１００と同様に、方法１３００は、ＮＭＤ７０３ａ（図７Ａ）の特徴と同様の特徴を含むＮＭＤ１２０（図１Ａ）などのネットワークマイクロフォンデバイスによって実行することができる。いくつかの実装形態では、ＮＭＤは、再生デバイス１０２ｒ（図１Ｇ）によって示されるように、再生デバイスの中に実装される。

方法１３００のブロック１３０２は、（ｉ）ウェイクワードイベントおよび（ｉｉ）第１のコマンドキーワードイベントについて入力サウンドデータストリームをモニタすることを含む。例えば、ＮＭＤ７０３ａのＶＡＳウェイクワードエンジン７７０ａは、サウンドデータストリームＳ_ＤＳに１つ以上のウェイクワードを識別するアルゴリズムを適用してもよい（図７Ａ）。さらに、コマンドキーワードエンジン７７０は、図７Ａに関連して上述したように、おそらくはＡＳＲ７７２およびローカルＮＬＵ７７９を使用して、コマンドキーワードについてサウンドデータストリームＳ_ＤＳをモニタすることができる。

方法１３００のブロック１３０４は、ウェイクワードイベントを検出することを含む。ウェイクワードイベントの検出は、ＮＭＤ７０３ａのＶＡＳウェイクワードエンジン７７０ａによって、マイクロフォン７２０を介して、検出される第１の音であって、ウェイクワードを有する第１の音声入力を含む様な音声を検出することである。ＶＡＳウェイクワードエンジン７７０ａは、識別アルゴリズムを使用して、第１の音声入力におけるそのようなウェイクワードを検出することができる。

方法１３００のブロック１３０６は、第１の音声入力に対応するサウンドデータを音声アシスタントサービスの１つ以上のリモートサーバへストリーミングすることを含む。例えば、音声抽出器７７３は、サウンドデータストリームＳ_ＤＳ（図７Ａ）から第１音声入力の少なくとも一部（例えば、ウェイクワード部分および／または音声発話部分）を抽出してもよい。次いで、ＮＭＤ７０３は、この抽出されたデータを、ネットワークインターフェース７２４を介して音声アシスタントサービスの１つ以上のリモートサーバにストリーミングしてもよい。

方法１３００のブロック１３０８は、第１のコマンドキーワードイベントを検出することを含む。例えば、第２の音を検出した後、ＮＭＤ７０３ａのコマンドキーワードエンジン７７１ａは、第２の音における第２の音声入力に対応するサウンドデータストリームＳ_Ｄ内の第１のコマンドキーワードを検出することができる（図７Ａ）。さらに、ローカルＮＬＵ７７９は、第２の音声入力が、ローカルＮＬＵ７７９のライブラリに含まれるキーワードの内の少なくとも１つのキーワードを含むことを検出し得る。例えば、ローカルＮＬＵ７７９は、音声入力が、ローカルＮＬＵ７７９のライブラリに含まれるキーワードのいずれかと一致するようなキーワードが含まれるかを判定し得る。ローカルＮＬＵ７７９は、信号Ｓ_ＡＳＲを分析して音声入力のキーワードをスポットする（すなわち、検出または識別する）ように構成される。

方法１３００のブロック１３１０は、少なくとも１つのキーワードに基づいて意図を判定することを含む。例えば、ローカルＮＬＵ７７９は、第２の音声入力における１つ以上のキーワードから意図を判定してもよい。上述したように、ローカルＮＬＵ７７９のライブラリのキーワードは、パラメータに対応する。音声入力のキーワードは、特定のゾーンで特定のオーディオコンテンツを再生するなどの意図を示すことができる。

方法１３００のブロック１３１２は、決定された意図に従って第１の再生コマンドを実行することを含む。いくつかの例において、第１の再生コマンドを実行することが、判定された意図にしたがってコマンドを実行するための１つ以上の命令を生成することを含んでもよく、これにより、ターゲット再生デバイスに、音声入力の音声発話部分におけるパラメータによってカスタマイズされた第１の再生コマンドを実行させる。ブロック１２１２（図１２）に関連して上述したように、第１の再生コマンドを実行するターゲット再生デバイス１０２は、直接的または間接的に定義され得る。さらに、第１の再生動作を実行することは、１つ以上のネットワークを介して１つ以上の命令を送信することを含んでもよく、または命令を内的に（例えば、デバイスコンポーネントを再生するために）提供することを含んでもよい。

図１４は、コマンドキーワードに対応するコマンドキーワードイベントに基づいて、１つ以上のパラメータに応じて第１の再生コマンドを実行する例示的な方法１４００を示すフロー図である。コマンドキーワードイベントは、特定の条件が満たされたときにのみ生成されてもよい。第１状態は、コマンドキーワードが検出されたときに環境に背景音声が存在しなかったことである。

方法１２００および１３００と同様に、方法１４００は、ＮＭＤ７０３ａ（図７Ａ）の特徴を含むことができるＮＭＤ１２０（図１Ａ）などのネットワークマイクロフォンデバイスによって実行することができる。いくつかの実装形態では、ＮＭＤは、再生デバイス１０２ｒ（図１Ｇ）によって示されるように、再生デバイスの中に実装される。

方法１４００のブロック１４０２は、１つ以上のマイクロフォンを介して音を検出することを含む。例えば、ＮＭＤ７０３は、マイクロフォン７２０（図７Ａ）を介して音を検出することができる。さらに、ＮＭＤ７０３は、検出された音をＶＣＣ７６０の１つ以上のコンポーネントを用いて処理してもよい。

方法１４００のブロック１４０４は、（ｉ）検出された音が音声入力を含み、（ｉｉ）検出された音が背景音声を除外し、（ｉｉｉ）音声入力がコマンドキーワードを含むと判定することを行う。

例えば、検出された音が音声入力を含むかどうかを判定するために、音声活動検出器７６５は、検出された音を分析して、サウンドデータストリームＳ_ＤＳ（図７Ａ）における音声活動の存在（または欠如）を判定することができる。さらに、検出された音が背景音声を含まないかどうかを判定するために、ノイズ分類器７６６は、検出された音に対応するサウンドメタデータを分析し、サウンドメタデータが背景音声に対応する特徴を含むかどうかを判定することができる。

さらに、音声入力がコマンドキーワードを含むかどうかを判定するために、コマンドキーワードエンジン７７１ａは、サウンドデータストリームＳ_ＤＳを解析することができる（図７Ａ）。特に、ＡＳＲ７７２は、サウンドデータストリームＳ_ＤＳをテキスト（例えば、信号Ｓ_ＡＳＲ）に転記することができ、ローカルＮＬＵ７７９は、コマンドキーワードに一致するワードが転記されたテキスト内にあると判定することができる。他の例では、コマンドキーワードエンジン７７１ａは、サウンドデータストリームＳ_ＤＳ上で１つ以上のキーワード識別アルゴリズムを使用することができる。他の例も同様に可能である。

方法１４００のブロック１４０６は、コマンドキーワードに対応する再生機能を実行することを含む。例えば、ＮＭＤは、（ｉ）検出された音が音声入力を含む、（ｉｉ）検出された音が背景音声を含まない、および（ｉｉｉ）音声入力がコマンドキーワードを含む、という判定に基づいて、再生機能を実行することができる。図１２および図１３のブロック１２１２および１３１２はそれぞれ、再生機能を実行する例を提供する。

Ｖ．例示的な実施例
図１５Ａ、図１５Ｂ、図１５Ｃ、および図１５Ｄは、本開示の態様に従って構成された例示的なＮＭＤからの例示的な入力および出力を示す。

図１５Ａは、ＮＭＤのウェイクワードエンジンが３つのコマンドキーワード（「再生」、「停止」、「再開」）を検出するように構成される第１のシナリオを示す。この場合、ローカルＮＬＵは無効化される。このシナリオでは、ユーザがＮＭＤに音声入力の「再生」を語り、それにより、コマンドキーワードのうちの１つ（例えば、再生に対応するコマンドキーワードイベント）の新たな認識がトリガされる。

さらに、音声活動検出器（ＶＡＤ）およびノイズ分類器は、音声入力の事象前部分の１５０個のフレームを分析している。図示されるように、ＶＡＤは、１５０個の事象前フレームのうちの１４０個のフレームにおいて音声を検出しており、これは、検出された音に音声入力が存在し得ることを示している。さらに、ノイズ分類器は、１１個のフレームに周囲ノイズ、１２７個のフレームに背景音声、および１２個フレームにファンノイズを検出している。このＮＭＤでは、ノイズ分類器は、各フレームにおいて支配的なノイズの源を分類している。これは、背景音声が存在していることを示す。その結果、ＮＭＤは、検出されたコマンドキーワードの「再生」をトリガしないと判定している。

図１５Ｂは、ＮＭＤのウェイクワードエンジンがコマンドキーワード（「再生する」）ならびにそのコマンドキーワードの２つの同族（「何かを再生する」および「曲を再生して」）を検出するように構成されている第２のシナリオを示す。ここでもローカルＮＬＵは無効化される。この第２のシナリオでは、ユーザがＮＭＤに音声入力として「何かを再生して」を語り、それにより、コマンドキーワードのうちの１つの新たな認識がトリガされる。

さらに、音声活動検出器（ＶＡＤ）およびノイズ分類器は、音声入力の事象前部分の１５０個のフレームを分析している。図示されるように、ＶＡＤは、１５０個の事象前フレームのうちの８７個のフレームにおいて音声を検出しており、これは、検出された音に音声入力が存在し得ることを示している。さらに、ノイズ分類器は、１８個のフレームに周囲ノイズ、８個のフレームに背景音声、および１２４個のフレームにファンノイズを検出している。これは、背景音声が存在しないことを示す。上記を考慮して、ＮＭＤは、検出されたコマンドキーワード「再生」をトリガすることを判定する。

図１５Ｃは、ＮＭＤのウェイクワードエンジンが３つのコマンドキーワード（「再生」、「停止」、「再開」）を検出するように構成される第３のシナリオを示す。ローカルＮＬＵは有効にされる。この第３のシナリオでは、ユーザは「キッチンでビートルズの曲を再生して」という音声入力をＮＭＤに語っており、これによりコマンドキーワードのうちの１つ（例えば、再生に対応するコマンドキーワードイベント）の新しい認識がトリガされる。

図示のように、ＡＳＲは音声入力を「キッチンでビートルズの曲を再生して」と転写している。ＡＳＲを実行する際に何らかのエラー（例えば、「ビートルズ（ｂｅｅｔｌｅｓ）」）が予想される。ここで、ローカルＮＬＵは、「ビートルズ（ｂｅｅｔｌｅｓ）」というキーワードを、ローカルＮＬＵライブラリ内の「ビートルズ（ＴｈｅＢｅａｔｌｅｓ）」と一致させている。ローカルＮＬＵライブラリでは、このアーティストを再生コマンドに対するコンテンツパラメータとして設定している。さらに、ローカルＮＬＵはまた、キーワード「ｋｉｔｃｈｅｎ」をローカルＮＬＵライブラリ内の「ｋｉｔｃｈｅｎ」に一致させており、これは、再生コマンドに対するターゲットパラメータとしてキッチンゾーンを設定する。ローカルＮＬＵは、意図の判定に対して、０．６３４２８２３１９４８２７３４４３という信頼度スコアを生成した。

ここでも同様に、音声活動検出器（ＶＡＤ）およびノイズ分類器は、音声入力の事象前部分の１５０個のフレームを分析している。図示のように、ノイズ分類器は、１４２個のフレームに周囲ノイズ、８個のフレームに背景音声、および０個のフレームにファンノイズを検出している。これは、背景音声が存在しないことを示す。ＶＡＤは、１５０個の事象前フレームのうちの１１２個のフレームにおいて音声を検出しており、これは、音声入力が検出された音に存在し得ることを示している。ここで、ＮＭＤは、検出されたコマンドキーワード「再生」をトリガすることを判定する。

さらに、音声活動検出器（ＶＡＤ）およびノイズ分類器は、音声入力の事象前部分の１５０個のフレームを分析している。図示されるように、ＶＡＤは、１５０個の事象前フレームのうちの１４０個のフレームにおいて音声を検出しており、これは、音声入力が検出された音に存在し得ることを示している。さらに、ノイズ分類器は、１１個のフレームに周囲ノイズ、１２７個のフレームに背景音声、および１２個のフレームにファンノイズを検出した。これは、背景音声が存在していることを示す。その結果、ＮＭＤは、検出されたコマンドキーワードの「再生」をトリガしないと判定している。

図１５Ｄは、ＮＭＤのキーワードエンジンがいずれのコマンドキーワードをスポットするようにも構成されていない第４のシナリオを示す。むしろ、キーワードエンジンはＡＳＲを実行し、ＡＳＲの出力をローカルＮＬＵに渡す。ローカルＮＬＵは有効にされ、コマンドおよびパラメータの両方に対応するキーワードを検出するように構成される。第４のシナリオでは、ユーザが「オフィスで何かの音楽を再生して」という音声入力をＮＭＤに語っている。

図示のように、ＡＳＲは音声入力を「オフィスに何かの音楽をかけて」と転写している。ここで、ローカルＮＬＵは、再生コマンドに対応するローカルＮＬＵライブラリのキーワード「かける」を「再生」に一致させている。さらに、ローカルＮＬＵはまた、キーワード「オフィス」を、再生コマンドに対するターゲットパラメータとしてオフィスゾーンを設定するローカルＮＬＵライブラリ内の「オフィス」に一致させている。ローカルＮＬＵは、キーワードマッチングに対して、０．１４６２０４９４８４２５２９２９７という信頼度スコアを生成した。いくつかの例では、この低い信頼度スコアにより、ＮＭＤは音声入力を受け付けなくなる（例えば、この信頼度スコアが５などの閾値を下回る場合）。

結論
以上の説明では、とりわけ、ハードウェア上で実行されるファームウェアおよび／またはソフトウェアを含む、さまざまな例示的なシステム、方法、装置、および製造品を開示した。上記の説明は単なる例示であり、限定的なものと解されるべきではない。例えば、ファームウェア、ハードウェア、および／またはソフトウェアの側面またはコンポーネントのいずれかまたはすべてが、ハードウェアのみ、ソフトウェアのみ、ファームウェアのみ、またはハードウェア、ソフトウェア、および／またはファームウェアの任意の組み合わせで具現化できることが企図されている。したがって、これらの例は、そのようなシステム、方法、装置、および製造品を実装する唯一の方法ではない。

ここでの説明は、例示的な環境、システム、手順、ステップ、論理ブロック、処理、についてなされており、更に他の象徴的に表されたものであって、ネットワークに接続されたデータ処理装置の動作に直接または間接的に類似したものについてなされている。このようなプロセスの説明や表現は、当業者が自分の仕事の本質を最も効果的に他の当業者に伝えるために使用される。ここでの説明を十分に理解できるために、多数の具体的な内容を記載している。しかし、ここで説明した特定の実施形態は、特定の具体的な詳細がなくても実施できることが当業者には理解される。他の例では、よく知られている方法、手順、コンポーネント、および回路は、実施形態の側面を不必要に不明瞭にすることを避けるため、詳細な説明は省略されている。したがって、本開示の範囲は、上述の実施形態の説明ではなく、添付の特許請求の範囲によって特定される。

添付の特許請求の範囲のいずれかが純粋にソフトウェアおよび／またはファームウェアの実装をカバーするように読まれる場合、少なくとも１つの例における要素の少なくとも１つは、ソフトウェアおよび／またはファームウェアを格納する、メモリ、ＤＶＤ、ＣＤ、Ｂｌｕ－ｒａｙ（登録商標）などの有形の非一過性媒体を含むように、ここで明示的に定義される。

本技術は、例えば、以下に説明する様々な側面に従って説明される。本技術の側面の様々な例は、便宜上、番号付きの例（１、２、３など）として説明される。これらは例示であり、本技術を制限するものではない。従属的な例のいずれも、任意の組み合わせで、それぞれの独立した例の中に入れることができる。他の例も同様の方法で示すことができる。

実施例１：ネットワークインターフェースと、音を検出するように構成された少なくとも１つのマイクロフォンとを備える再生デバイスによって実行される方法であって、方法は、（ｉ）ウェイクワードイベント、および（ｉｉ）第１のコマンドキーワードイベントについて、少なくとも１つのマイクロフォンによって検出された音を表す入力サウンドデータストリームを監視すること；ウェイクワードイベントを検出することであって、ウェイクワードイベントを検出することが、１つ以上のマイクロフォンを介して第１の音を検出した後に、検出された第１の音がウェイクワードを含む第１の音声入力を含むと判定することを含む、検出すること；ネットワークインターフェースを介して、第１の音声入力の少なくとも一部に対応するサウンドデータを、音声アシスタントサービスの１つ以上のリモートサーバにストリーミングすること；第１のコマンドキーワードイベントを検出することであって、第１のコマンドキーワードイベントを検出することが、１つ以上のマイクロフォンを介して第２の音を検出した後、検出された第２の音が第１のコマンドキーワードを含む第２の音声入力を含むと判定することを含み、第１のコマンドキーワードは、再生デバイスによってサポートされる複数のコマンドキーワードのうちの１つである、検出すること；第１のコマンドキーワードに対応する１つ以上の再生条件が満たされていると判定すること；および第１のコマンドキーワードイベントを検出し、第１のコマンドキーワードに対応する１つ以上の再生条件が満たされていると判定したことに応答して、第１のコマンドキーワードに対応する第１の再生コマンドを実行することを含む、方法。

実施例２：第１のコマンドキーワードイベントを検出した後で、後続の第１のコマンドキーワードイベントを検出することであって、後続の第１のコマンドキーワードイベントを検出することが、少なくとも１つのマイクロフォンを介して第３の音を検出した後で、第３の音が第１のコマンドキーワードを含む第３の音声入力を含むと判定することを含む、検出すること；第１のコマンドキーワードに対応する１つ以上の再生条件のうちの少なくとも１つの再生条件が満たされていないと判定すること；および少なくとも１つの再生条件が満たされないと判定したことに応答して、第１のコマンドキーワードに対応する第１の再生コマンドの実行を取り止めることをさらに含む、実施例１に記載の方法。

実施例３：第２のコマンドキーワードイベントを検出することであって、第２のコマンドキーワードイベントを検出することは、少なくとも１つのマイクロフォンを介して第３の音を検出した後で、第３の音が、検出された第３の音の第２のコマンドキーワードを含む第３の音声入力を含むと判定することを含む、検出すること；第２のコマンドキーワードに対応する１つ以上の再生条件が満たされていると判定すること；および第２のコマンドキーワードイベントを検出し、第２のコマンドキーワードに対応する１つ以上の再生条件が満たされていると判定したことに応答して、第２のコマンドキーワードに対応する第２の再生コマンドを実行することをさらに含む、実施例１および２のいずれかに記載の方法。

実施例４：第２のコマンドキーワードに対応する１つ以上の再生条件のうちの少なくとも１つの再生条件は、第１のコマンドキーワードに対応する１つ以上の再生条件のうちの再生条件ではない、実施例３に記載の方法。

実施例５：第１のコマンドキーワードはスキップコマンドであり、第１のコマンドキーワードに対応する１つ以上の再生条件は、（ｉ）メディアアイテムが再生デバイスで再生されているという第１状態、（ｉｉ）再生デバイスでキューがアクティブであるという第２状態、および（ｉｉｉ）キューは、再生デバイスで再生されているメディアアイテムに後続するメディアアイテムを含むという第３状態を含み、第１のコマンドキーワードに対応する第１の再生コマンドを実行することは、再生デバイスで再生されているメディアアイテムに続いてメディアアイテムを再生するためにキュー内で順方向にスキップすることを含む、実施例１から４のいずれかに記載の方法。

実施例６：第１のコマンドキーワードは一時停止コマンドであり、第１のコマンドキーワードに対応する１つ以上の再生条件は、オーディオコンテンツが再生デバイスで再生されているという条件を含み、第１のコマンドキーワードに対応する第１の再生コマンドを実行することは、再生デバイスでのオーディオコンテンツの再生を一時停止することを含む、実施例１から４のいずれかに記載の方法。

実施例７：第１のコマンドキーワードは音量増加コマンドであり、第１のコマンドキーワードに対応する１つ以上の再生条件は、オーディオコンテンツが再生デバイスで再生されているという条件と、再生デバイスの音量レベルが最大音量レベルではないという第２状態とを含み、第１のコマンドキーワードに対応する第１の再生コマンドを実行することは、再生デバイスでの音量レベルを増加させることを含む、実施例１から４のいずれかに記載の方法。

実施例８：第１のコマンドキーワードに対応する１つ以上の再生条件は、検出された第１の音に背景音声がないという第１状態を含む、実施例１から８のいずれかに記載の方法。

実施例９：実施例１から８のいずれか１つに記載の方法を再生デバイスに実行させるために１つ以上のプロセッサによって実行可能な命令を格納した、有形の非一時的コンピュータ可読媒体。

実施例１０：再生デバイスであって、スピーカ、ネットワークインターフェース、音を検出するように構成された１つ以上のマイクロフォン、１つ以上のプロセッサ、および１つ以上のプロセッサによって実行可能な命令が格納され、再生デバイスに実施例１から８のいずれかに記載の方法を実行させる有形、無形のコンピュータ可読媒体を含む、再生デバイス。

実施例１１：ネットワークインターフェースと、音を検出するように構成された少なくとも１つのマイクロフォンとを備える再生デバイスによって実行される方法であって、方法は、（ｉ）ウェイクワードイベント、および（ｉｉ）第１のコマンドキーワードイベントについて、少なくとも１つのマイクロフォンによって検出された音を表す入力サウンドデータストリームを監視すること；ウェイクワードイベントを検出することであって、ウェイクワードイベントを検出することが、１つ以上のマイクロフォンを介して第１の音を検出した後に、検出された第１の音がウェイクワードを含む第１の音声入力を含むと判定することを含む、検出すること；ネットワークインターフェースを介して、第１の音声入力の少なくとも一部に対応するサウンドデータを、音声アシスタントサービスの１つ以上のリモートサーバにストリーミングすること；第１のコマンドキーワードイベントを検出することであって、第１のコマンドキーワードイベントを検出することが、１つ以上のマイクロフォンを介して第２の音声を検出した後、検出された第２の音声が第１のコマンドキーワードと少なくとも１つのキーワードを含む第２の音声入力を含むと判定することを含み、第１のコマンドキーワードは、再生デバイスによってサポートされる複数のコマンドキーワードのうちの１つであり、第１のコマンドキーワードは、第１の再生コマンドに対応する、検出すること；ローカル自然言語ユニット（ＮＬＵ）を介して、少なくとも１つのキーワードに基づく意図を決定することであって、ＮＬＵは、少なくとも１つのキーワードを含む事前に決定されたキーワードのライブラリを含む、決定すること；および（ａ）第１のコマンドキーワードイベントを検出し、（ｂ）意図を決定した後、決定された意図に従って第１の再生コマンドを実行することを含む、方法。

実施例１２：第２のコマンドキーワードイベントを検出することであって、第２のコマンドキーワードイベントを検出することは、少なくとも１つのマイクロフォンを介して第３の音を検出した後に、第３の音が第２のコマンドキーワードを含む第３の音声入力を含むと判定することを含む、検出すること；第２のコマンドキーワードを含む第３の音声入力が、所定のキーワードのライブラリからの少なくとも１つの他のキーワードを含まないと判定すること；および第２のコマンドキーワードを含む第３の音声入力が所定のキーワードのライブラリからの少なくとも１つのキーワードを含まないと判定した後に、音声アシスタントサービスの１つ以上のリモートサーバによる処理のために、第２のコマンドキーワードを含む音声入力の少なくとも一部を表すサウンドデータを音声アシスタントサービスの１つ以上のサーバにストリーミングすることをさらに含む、実施例１１に記載の方法。

実施例１３：第２コマンドキーワードを処理するために音声アシスタントサービスを呼び出すための確認を要求する音声プロンプトを再生すること；および音声プロンプトを再生した後に、第２のコマンドキーワードを処理するために音声アシスタントサービスを呼び出すための確認を表すデータを受信することであって、第２のコマンドキーワードを含む音声入力の少なくとも一部を表すサウンドデータを音声アシスタントサービスの１つ以上のサーバにストリーミングすることは、音声アシスタントサービスを呼び出すための確認を表すデータを受信した後にのみ行われる、受診すること、をさらに含む、実施例１２に記載の方法。

実施例１４：第２のコマンドキーワードイベントを検出することであって、第２のコマンドキーワードイベントを検出することは、少なくとも１つのマイクロフォンを介して第３の音を検出した後に、第３の音が第２のコマンドキーワードを含む第３の音声入力を含むと判定することを含む、検出すること；第２のコマンドキーワードを含む第３の音声入力が、所定のキーワードのライブラリからの少なくとも１つの他のキーワードを含まないと判定すること；および第２のコマンドキーワードを含む第３の音声入力が所定のキーワードのライブラリからの少なくとも１つのキーワードを含まないと判定した後に、１つ以上のデフォルトのパラメータに従って第１の再生コマンドを実行することをさらに含む、実施例１０から１３のいずれかに記載の方法。

実施例１５：検出された第２の音における少なくとも１つのキーワードのうちの第１のキーワードは、メディア再生システムの第１のゾーンに対応するゾーン名を表し、決定された意図に従って第１の再生コマンドを実行することは、第１のゾーンにおいて第１の再生コマンドを実行するための１つ以上の命令を送信することを含み、メディア再生システムは、再生デバイスを含む、実施例１０から１４のいずれかに記載の方法。

実施例１６：メディア再生システム内のそれぞれのゾーンに対応するゾーン名を有する所定のキーワードのライブラリをポピュレートすることであって、各ゾーンが１つ以上のそれぞれの再生デバイスを備える、ポピュレートすることをさらに含み、所定のキーワードのライブラリは、メディア再生システムの第１のゾーンに対応するゾーン名がポピュレートされる、実施例１０から１５のいずれかに記載の方法。

実施例１７：ネットワークインターフェースを介して、ローカルエリアネットワークに接続されたスマートホームデバイスを発見すること、およびローカルエリアネットワークで発見されたそれぞれのスマートホームデバイスに対応する名前で所定のキーワードのライブラリをポピュレートすることをさらに含む、実施例１０から１６のいずれかに記載の方法。

実施例１８：メディア再生システムが再生デバイスを備え、メディア再生システムが１つ以上のユーザプロファイルに登録され、機能が、１つ以上のユーザプロファイルによってお気に入りとして指定されたプレイリストに対応する名前を有する所定のキーワードのライブラリをポピュレートすることをさらに含む、実施例１０から１７のいずれかに記載の方法。

実施例１９：１つ以上のユーザプロファイルのうちの第１のユーザプロファイルは、第１のストリーミングオーディオサービスのユーザアカウントおよび第２のストリーミングオーディオサービスのユーザアカウントに関連付けられており、プレイリストは、第１のストリーミングオーディオサービスのユーザアカウントによってお気に入りとして指定された第１のストリーミングオーディオサービスの第１のプレイリストと、第１のストリーミングオーディオサービスおよび第２のストリーミングオーディオサービスからのオーディオトラックを含む第２のプレイリストとを含む、実施例１８に記載の方法。

実施例２０：第１のコマンドキーワードを検出することが、第１のコマンドキーワードに対応する１つ以上の再生条件が満たされていると判定することをさらに含む、実施例１０から１６のいずれかに記載の方法。

実施例２１：第１のコマンドキーワードに対応する１つ以上の再生条件は、検出された第１の音に背景音声がないという第１状態を含む、実施例２０に記載の方法。

実施例２２：実施例１０から２１のいずれか１つに記載の方法を再生デバイスに実行させるために１つ以上のプロセッサによって実行可能な命令を格納した、有形の非一時的コンピュータ可読媒体。

実施例２３：再生デバイスであって、スピーカ、ネットワークインターフェース、音を検出するように構成された１つ以上のマイクロフォン、１つ以上のプロセッサ、および１つ以上のプロセッサによって実行可能な命令が格納され、再生デバイスに実施例１０から２１のいずれかに記載の方法を実行させる有形、無形のコンピュータ可読媒体を含む、再生デバイス。

実施例２４：ネットワークインターフェースと、音を検出するように構成された少なくとも１つのマイクロフォンとを備える再生デバイスによって実行される方法であって、方法が、１つ以上のマイクロフォンを介して音を検出すること；（ｉ）検出された音が音声入力を含み、（ｉｉ）検出された音が背景音声を含まず、（ｉｉｉ）音声入力がコマンドキーワードを含むと判定すること；および（ｉ）検出された音が音声入力を含み、（ｉｉ）検出された音が背景音声を除外し、（ｉｉｉ）音声入力がコマンドキーワードを含むと判定したことに応答して、コマンドキーワードに対応する再生機能を実行することを含む、方法。

実施例２５：検出された音が第１の検出された音であり、方法が、少なくとも１つのマイクロフォンを介して第２の音を検出すること、検出された第２の音がウェイクワードを含むと判定すること；および検出された第２の音がウェイクワードを含むと判定した後、再生デバイスのネットワークインターフェースを介して、音声アシスタントサービスの１つ以上のリモートサーバに、検出された第２の音における音声入力をストリーミングすることをさらに含む、実施例２４に記載の方法。

実施例２６：検出された第２の音に背景音声がないと判定することが、検出された音に対応するサウンドメタデータを決定すること；およびサウンドメタデータを分析して、複数のサインから選択された１つ以上の特定のサインに従って検出された音を分類することであって、複数のサインの各サインはノイズ源に関連付けられ、複数のサインのうちのサインの少なくとも１つは背景音声を示す背景音声サインである、分類すること、を含む、実施例２４および実施例２５のいずれかに記載の方法。

実施例２７：サウンドメタデータを分析することが、検出された音に関連するフレームを、背景の音声シグナチャ以外の特定の音声シグナチャを有するものとして分類すること；および背景の音声シグナチャで分類されたフレームがあれば、背景の音声シグナチャ以外のシグナチャで分類されたフレームの数と比較すること、を含む、実施例２６に記載の方法。

実施例２８：検出された音に音声入力があると判定することが、検出された音の音声活動を検出することを含む、実施例２４および実施例２５のいずれか１つに記載の方法。

実施例２９：検出された音における音声活動を検出することが、検出された音に関連付けられた第１のフレームの数を音声を含むものとして判定すること；および第１のフレームの数を、（ａ）検出された音に関連し、（ｂ）音声を示さない第２のフレームの数と比較すること、を含む、実施例２８に記載の方法。

実施例３０：第１のフレームは、近距離音声活動に応答して生成された１つ以上のフレームと、遠距離音声活動に応答して生成された１つ以上のフレームとを含む、実施例２９に記載の方法。

実施例３１：実施例２４から３０のいずれか１つに記載の方法を再生デバイスに実行させるために１つ以上のプロセッサによって実行可能な命令を格納した、有形の非一時的コンピュータ可読媒体。

実施例３２：再生デバイスであって、音を検出するように構成された１つ以上のマイクロフォン、１つ以上のプロセッサ、および１つ以上のプロセッサによって実行可能な命令が格納され、再生デバイスに実施例２４から３０のいずれかに記載の方法を実行させる有形、無形のコンピュータ可読媒体を含む、再生デバイス。

Claims

音を検出するように構成された少なくとも１つのマイクロフォンと、前記少なくとも１つのマイクロフォンによって検出された前記音を表す入力サウンドデータを受信するように構成された第１および第２のウェイクワードエンジンとを備える再生デバイスによって実行されるべき方法であって、
前記第１のウェイクワードエンジンが、前記入力サウンドデータ内において音声アシスタントサービス（ＶＡＳ）ウェイクワードを検出したとき、前記再生デバイスにより、前記少なくとも１つのマイクロフォンで検出された前記音を表すサウンドデータを、ＶＡＳの１つ以上のサーバに向かってストリーミングさせるように作用する、ＶＡＳウェイクワードイベントを生成する様に構成され、前記方法は、
前記第２のウェイクワードエンジンにより、前記サウンドデータ内の複数のコマンドワードのうちの第１のコマンドワードを検出すること、ここで、前記複数のコマンドワードの各々は、種々の再生コマンドに対応する、
前記検出された第１のコマンドワードに対応する１つ以上の再生条件が満たされていると判定された場合に、前記第２のウェイクワードエンジンにより、前記検出された第１のコマンドワードに対応するコマンドワードイベントを生成すること、および
前記コマンドワードイベントに応答して、前記第１のコマンドワードに対応する第１の再生コマンドを実行すること、を含む、方法。
前記再生デバイスは、前記第１のコマンドワードに対応する前記１つ以上の再生条件が満たされたときに第１状態に移行し、前記第１のコマンドワードに対応する前記１つ以上の再生条件のうちの少なくとも１つの再生条件が満たされていないときに第２状態に移行するように構成された状態機械をさらに備え、前記第１のコマンドワードに対応する前記１つ又はそれ以上の再生条件が満たされていると判定することは、前記状態機械が前記第１状態にあると判定することを含む、請求項１に記載の方法。
前記再生デバイスは、前記複数のコマンドワードの各コマンドワードに対応する追加の状態機械をさらに備え、各追加の状態機械は、前記それぞれのコマンドワードに対応する１つ以上の再生条件が満たされたときに前記第１状態に移行し、前記それぞれのコマンドワードに対応する前記１つ以上の再生条件の少なくとも１つの再生条件が満たされないときに第２状態に移行するように構成される、請求項２に記載の方法。
前記検出された第１のコマンドワードに対応する１つ以上の再生条件のうちの少なくとも１つの再生条件が満たされていないと判定された場合、前記検出された第１のコマンドワードに対応するコマンドワードイベントの生成を抑制することをさらに含む、請求項１から３のいずれかに記載の方法。
前記少なくとも１つのマイクロフォンによって検出された音を表すサウンドデータをバッファに格納すること、
前記第１のウェイクワードエンジンが第１のＶＡＳウェイクワードを検出したときに、前記第１のウェイクワードエンジンにより、前記検出された第１のＶＡＳウェイクワードに対応するＶＡＳウェイクワードイベントを生成すること、および
前記第１のコマンドワードに対応する前記コマンドワードイベントに応答して、ネットワークインターフェースを介して、前記音声アシスタントサービスの前記１つ以上のサーバに、前記バッファされたサウンドデータの一部であって、（ｉ）前記第１のＶＡＳウェイクワードに先行する所定時間分の前記バッファされたサウンドデータと、（ｉｉ）前記第１のＶＡＳウェイクワードの後に続く音声を表す、バッファされたサウンドデータとを、ストリーミングすることをさらに含む、請求項１から４のいずれかに記載の方法。
前記再生デバイスは、前記少なくとも１つのマイクロフォンによって検出された前記音を表す入力サウンドデータを受信するように構成された第３のウェイクワードエンジンをさらに備え、
前記方法は、更に、
前記第３のウェイクワードエンジンにより、前記第３のウェイクワードエンジンによってサポートされる複数のオーディオサービスウェイクワードのうちの特定のストリーミングオーディオサービスウェイクワードを検出すること、ここで複数のオーディオサービスウェイクワードは、それぞれのストリーミングオーディオサービスコマンドに対応する、
前記特定のストリーミングオーディオサービスウェイクワードに対応する１つ以上のストリーミングオーディオサービス条件が満たされていると判定された場合に、
前記第３のウェイクワードエンジンにより、前記特定のストリーミングオーディオサービスウェイクワードに対応するストリーミングオーディオサービスウェイクワードイベントを生成すること、および
前記ストリーミングオーディオサービスウェイクワードイベントに応答して、前記特定のストリーミングオーディオサービスウェイクワードに対応する特定のストリーミングオーディオサービスコマンドを実行することを含む、請求項１から５のいずれかに記載の方法。
サウンドデータは、第１の音声入力であり、第１の音声入力は、前記第１のコマンドワードおよび第１の音声発話を含み、
前記方法は、
前記コマンドワードイベントに応答して、ローカル自然言語ユニット（ＮＬＵ）を介して、前記第１の音声発話が、所定のキーワードのライブラリからの少なくとも１つのキーワードを含むかどうかを判定することをさらに含み、
前記第１の音声発話が１つ以上の特定のキーワードを含むときに、前記第１の再生コマンドを実行することは、前記第１の音声発話内の前記１つ以上の特定のキーワードに対応する１つ以上のパラメータに従って前記第１の再生コマンドを実行することを含む、請求項１から６のいずれかに記載の方法。
前記第１の音声発話が、前記所定のキーワードのライブラリからの少なくとも１つのキーワードを含まない場合、
音声アシスタントサービスの１つ以上のサーバで処理されるために、音声アシスタントサービスの１つ以上のサーバに第１の音声入力を表すサウンドデータをストリーミングすること、および
前記音声アシスタントサービスへの第２の音声入力のための音声プロンプトを再生し、
音声アシスタントサービスの１つ以上のサーバで処理されるために、音声アシスタントサービスの１つ以上のサーバに第２の音声入力を表すサウンドデータをストリーミングすること、および
１つ以上のデフォルトのパラメータに従って第１の再生コマンドを実行することをさらに含む、請求項７に記載の方法。
１つ以上の特定のキーワードのうちの第１のキーワードは、メディア再生システムの第１のゾーンに対応するゾーン名を表し、
前記１つ以上のパラメータに従って前記第１の再生コマンドを実行することは、前記第１のゾーンにおいて前記第１の再生コマンドを実行するための１つ以上の命令を送信することを含む、請求項８に記載の方法。
所定のキーワードのライブラリを、メディア再生システム内のそれぞれのゾーンに対応するゾーン名で充足すること、ここで各ゾーンが１つ以上のそれぞれの再生デバイスを備える、をさらに含み、
所定のキーワードのライブラリには、前記メディア再生システムの第１のゾーンに対応するゾーン名が充足される、請求項７から９のいずれか一項に記載の方法。
ネットワークインターフェースを介して、ローカルエリアネットワークに接続されたスマートホームデバイスを検出すること、および
前記ローカルエリアネットワークで検出されたそれぞれのスマートホームデバイスに対応する名前で前記所定のキーワードのライブラリを充足すること
をさらに含む、請求項７から１０のいずれか一項に記載の方法。
メディア再生システムが登録されている前記１つ以上のユーザプロファイルによってお気に入りとして指定されたプレイリストに対応する名前を、所定のキーワードのライブラリに充足することをさらに含む、請求項７から１１のいずれか一項に記載の方法。
前記第１の再生コマンドが所与のパラメータを必要とすると判定すること、
前記所与のパラメータに対応するキーワードを含む第２の音声入力を提供するために音声プロンプトを再生すること、ここで、前記第２の音声入力は第２の音声発話を含む、
前記ローカルＮＬＵを介して、前記第２の音声発話が前記所与のパラメータに対応する前記キーワードを含むかどうかを判定すること、および
前記第２の音声発話が前記所与のパラメータに対応する前記キーワードを含む場合、所与のパラメータに従って前記第１の再生コマンドを実行すること、をさらに含む、請求項７から１２のいずれか一項に記載の方法。
請求項１から１３のいずれかに記載の方法を、再生デバイスに実行させるために１つ以上のプロセッサによって実行可能な命令を格納した、非一時的コンピュータ可読媒体。
再生デバイスであって、
ネットワークインターフェース、
１つ以上のプロセッサ、
音を検出するように構成された少なくとも１つのマイクロフォン、
少なくとも１つのスピーカ、
第１および第２のウェイクワードエンジン、および
前記１つ以上のプロセッサによって実行可能な命令が格納され、前記再生デバイスに請求項１から１３のいずれかに記載の方法を実行させるデータストレージを含む、再生デバイス。