JP6963673B2

JP6963673B2 - ウェイクワード検出の抑制

Info

Publication number: JP6963673B2
Application number: JP2020506725A
Authority: JP
Inventors: ジョナサン・ピー・ラング
Original assignee: ソノズインコーポレイテッド
Priority date: 2017-08-07
Filing date: 2018-08-06
Publication date: 2021-11-10
Anticipated expiration: 2038-08-06
Also published as: EP3665562A1; AU2023203687A1; AU2018312989B2; US11380322B2; US20200075010A1; WO2019032462A1; US20240321271A1; US10475449B2; AU2018312989A1; CA3140979C; CN111194439A; KR102315053B1; US11900937B2; CN111194439B; CA3072492C; CA3140979A1; EP4040285A1; CN116954545A; JP2020530585A; CA3072492A1

Description

関連出願の参照

本願は、２０１７年８月７日に出願された米国特許出願第１５／６７０，３６１号に基づく優先権を主張しており、参照によりその開示内容全体を本願明細書の一部とする。

本開示は、消費財に関し、更に具体的には、メディア再生を対象とする方法、システム、製品、機能、サービス、及び他の要素、又はその一部の態様に関する。

音声を出している状況でデジタルオーディオにアクセスして聴取するための選択肢は、２００３年までは限られていたが、この年、ＳＯＮＯＳ，Ｉｎｃ．は、最初の特許出願「ＭｅｔｈｏｄｆｏｒＳｙｎｃｈｒｏｎｉｚｉｎｇＡｕｄｉｏＰｌａｙｂａｃｋｂｅｔｗｅｅｎＭｕｌｔｉｐｌｅＮｅｔｗｏｒｋｅｄＤｅｖｉｃｅｓ（複数のネットワーク装置間でオーディオ再生を同期させる方法）」を申請し、２００５年にメディア再生システムの販売を開始した。ＳｏｎｏｓＷｉｒｅｌｅｓｓＨｉＦｉＳｙｓｔｅｍにより、１つ又は複数のネットワーク再生装置を介して、多くのソースから音楽を体験することが可能となる。スマートフォン、タブレット、又はコンピュータにインストールされたソフトウェア制御アプリケーションにより、ネットワーク再生装置を有する任意の部屋で、希望するものを再生することができる。加えて、コントローラを使用して、例えば、再生装置のある部屋毎に異なる曲をストリーミングすること、部屋をグループ化して同期再生すること、又は同じ曲を全ての部屋で同期して聴くことができる。

デジタルメディアへの関心が高まり続けていることを考えると、リスニング体験を更に向上させるために、消費者がアクセス可能な技術を開発する必要性は、引き続き存在している。

本開示技術の特徴、態様、及び利点は、以下の記載、添付の特許請求の範囲、及び添付図面により、更に良く理解され得る。

特定の実施形態を実施可能なメディア再生システム構成例を示す図再生装置の例の機能ブロック図制御装置の例の機能ブロック図コントローラインタフェースの例を示す図処理システムの例を示す図本明細書に記載の態様による複数のネットワーク装置の例を示す図本明細書に記載の態様によるネットワークマイクロホン装置の機能ブロック図１つ又は複数のＮＭＤのウェイク応答を無効にするフローの例を示す図ＮＭＤにウェイクワードを無視させるメッセージの例を示す図ＮＭＤにウェイクワードを無視させる命令の例を示す図ＮＭＤにウェイクワードを無視させる命令の例を示す図ＮＭＤにウェイクワードを無視させる命令の例を示す図ＮＭＤにウェイクワードを無視させる命令の例を示す図１つ又は複数のＮＭＤのウェイク応答を無効にするフローの例を示す図１つ又は複数のＮＭＤのウェイク応答を無効にするフローの例を示す図ウェイク応答を抑制するフローの例を示す図

図面は、例示的な実施形態を説明することを目的としているが、本発明は、図面に示した配置及び手段に限定されないと理解される。

Ｉ．概要
ネットワークマイクロホン装置（ＮＭＤ）は、音声制御により住居を制御するために使用し得る。ＮＭＤは、例えば、マイクロホンを介して音声入力を受信可能なＳＯＮＯＳ（登録商標）再生装置、サーバ、若しくはシステム、又はその一部となり得る。一部の例において、再生装置は、ＳＯＮＯＳ（登録商標）再生装置である。更に、ＮＭＤは、マイクロホンを介して音声入力を受信可能な別の装置、サーバ、又はシステム（例えば、例として特にＡＭＡＺＯＮ（登録商標）ＥＣＨＯ（登録商標）、ＡＰＰＬＥ（登録商標）ＩＰＨＯＮＥ（登録商標）、又はその一部となり得る。出典を明記することによりその開示内容全体を本願明細書の一部とする２０１７年２月２１日提出の米国出願第１５／４３８，７４９号「メディア再生システムの音声制御」には、音声対応の家庭用アーキテクチャの例が記載されている。音声制御は、再生装置、無線照明装置、サーモスタット、ドアロック、ホームオートメーション等の「スマート」ホームでの様々な装置、及びその他の例にとって有益となり得る。

一部の実施において、ＮＭＤにより検出された音声入力は、処理のために音声サービスに送られる。ＮＭＤは、再生装置と共に、音声サービスへのマイクロホン／スピーカインタフェースとして動作し得る。音声入力はＮＭＤのマイクロホンにより検出され、処理のために特定の音声サービスに送信される。音声サービスは、その後、音声入力のコマンド又は他の結果を返し得る。

ウェイクワードの発話により、音声サービスを呼び出し得る。例えば、ＡＭＡＺＯＮ（登録商標）音声サービスに問い合わせる場合、ユーザは、ウェイクワード「Ａｌｅｘａ」を話した後、音声入力を行い得る。他の例には、ＧＯＯＧＬＥ（登録商標）音声サービスに問い合わせるための「Ｏｋ、Ｇｏｏｇｌｅ」、及びＡＰＰＬＥ音声サービスに問い合わせるための「Ｈｅｙ、Ｓｉｒｉ」が含まれる。ウェイクワード及び音声サービスには他の例が存在する。ウェイクワードを検出すると、ＮＭＤは、ウェイクワードに続く音声コマンドを、マイクロホンを介して聞くことにより応答し得る。この応答は、本明細書においてＮＭＤの「ウェイク応答」と呼ばれる。

状況によっては、ウェイクワードを含む音声コンテンツを再生することで、ＮＭＤのウェイク応答が誤ってトリガされる場合がある。多くの音声サービスのウェイクワードは、既存言語の語彙から選択された既存の単語である。例えば、幾つかの一般的な音声サービスでは、特定の名前をウェイクワードとして用いている（例えば「Ａｌｅｘａ」及び「Ｓｉｒｉ」）。したがって、状況によっては、特に、トークショー、映画、テレビ番組、ポッドキャスト、インターネットストリーミングビデオ等の記録済み音声コンテンツに、ウェイクワード又は類似するものが含まれ得る。このような音声コンテンツをＮＭＤの範囲内で再生すると、ＮＭＤが誤ってトリガされる恐れがあり、これは、音声コンテンツの楽しみを妨げる等、多くの理由で望ましくない場合がある。

例えば、テレビは特定の音声サービスのコマーシャルを再生する場合がある。コマーシャル中、俳優又は女優は、恐らくは音声サービスを呼び出す様子を示すために、音声サービスのウェイクワードを話す可能性がある。テレビと同じ部屋にあるＮＭＤは、テレビからの音声出力を検出し、ＮＭＤがコマーシャル内のウェイクワードを検出した時に音声サービスを呼び出す可能性がある。これは、望ましくない場合がある。更に、コマーシャルは、多くのテレビで同時に再生され得るため、コマーシャルは同時に多くのＮＭＤをトリガする恐れがあり、音声サービスへの要求が望ましくない形で急増し得る。

コマーシャルにより誤ってトリガされるのを避けるために、音声サービスの運営者は、ウェイクワードを含むコマーシャルの（複数の）部分をマークし、これらのマークされた（複数の）部分を無視するようにＮＭＤをプログラムし得る。例えば、運営者は、音声サービスのコマーシャルにトーン音又は他の音声マーカをミックスし、この音声マーカと共に検出されるウェイクワードを無視するようにＮＭＤをプログラムし得る。この実施は、このマーカを音声サービスの運営者が音声コンテンツに埋め込むことが可能な音声サービスのコマーシャル等、限られた場合に有用となり得る。しかしながら、この実施は、音声サービスの運営者が制御できない他の殆どの音声コンテンツに関しては有用ではない。

本明細書に記載の技術の例は、音声コンテンツが再生装置により聞き取り可能に再生される前に、再生装置による再生対象の音声コンテンツを処理することと、音声コンテンツが１つ又は複数のウェイクワードを含むかを判断することと、及び再生装置により再生された際に、ウェイクワードを無視するにように１つ又は複数のＮＭＤに通知することと、を含み得る。このようにして、当該手法は、ＮＭＤの誤ったトリガ動作の防止を支援し得る。特に、このような技術は、再生装置による再生の対象となる任意の記録済み音声コンテンツに適用可能である。

例えば、再生装置は、再生用の音声コンテンツを受信し得る。音声コンテンツを再生する前に、再生装置は、音声コンテンツをメモリ（例えばバッファ）に記憶し、音声コンテンツに対してウェイクワード検出アルゴリズムを実行する。音声コンテンツにおいてウェイクワードが検出された場合、再生装置（ＮＭＤ自体であってもよい）は、再生装置が最終的に音声コンテンツを再生する際に、１つ又は複数のＮＭＤにこれらのウェイクワードを無視させる。

他の例として、ＮＭＤは、再生装置による再生に指定された音声コンテンツを受信してもよい。音声コンテンツが再生装置により再生される前に、ＮＭＤは、音声コンテンツに対してウェイクワード検出アルゴリズムを実行し得る。音声コンテンツにおいてウェイクワードが検出された場合、ＮＭＤは、最終的に再生装置により再生された際に、そのＮＭＤ（及び場合により近傍の他のＮＭＤ）がこれらのウェイクワードを無視するようし得る。

ＮＭＤは、様々な技術の何れかを用いてウェイクワードを無視し得る。一部の場合において、例として特に、恐らくはウェイクワードの聞き取りを停止するようにＮＭＤに指示すること、ＮＭＤのマイクロホンアレイを一定期間無効にすること、又は再生装置の方向にリスニングＮＵＬＬ（ｌｉｓｔｅｎｉｎｇＮＵＬＬ）を作成することにより、再生装置により再生される際にウェイクワードを検出しないようにＮＭＤを指示し得る。又は、ＮＭＤは、最初はウェイクワードの検出を進めるものの、恐らくは特定の期間中、ウェイクワードを無視すること、又は特定の期間中、記録された音声を全て無視することにより、ウェイクワードの検出に応じて音声サービスを呼び出すようにプログラムされたウェイク応答を抑制するように指示し得る。

再生装置が音声コンテンツを聞き取り可能に再生する前に音声コンテンツを処理する場合、処理装置（再生装置又はＮＭＤ等）は、記録済み音声コンテンツ内でウェイクワードが含まれるセクションを判断することもできる。これらのセクションは、ウェイクワードの開始時間及び停止時間等、音声コンテンツ内の期間により定義することができる（例えば、ポッドキャストのウェイクワードが３３：５２．５４３に開始し、３３：５４．０１３に終了する）。音声コンテンツが再生される際には、近傍のＮＭＤに、これらの期間中、ウェイクワードを無視するように指示することができる。

他の例として、処理装置は、音声コンテンツ（又は音声コンテンツの一部）内のウェイクワードの数をカウントし得る。例えば、コマーシャルの音声コンテンツを処理している再生装置は、そのコマーシャル内でウェイクワードの４つのインスタンスを検出する場合がある。その後、再生装置は、カウントと等しい数のウェイクワードを検出するまでウェイクワードを無視するように（例えば、次の４つのウェイクワードを無視するように）、再生装置近傍のＮＭＤに指示し得る。

他の例において、処理装置は、記録済み音声コンテンツに音声トーン又は他のマーカを動的に挿入して、音声コンテンツで検出されたウェイクワードを指定し得る。その後、音声コンテンツが再生装置により再生される際に、ウェイクワードと共に音声マーカを検出するＮＭＤには、ウェイクワードのインスタンスを無視するように指示することができる。再生装置の可聴範囲内（ｉｎａｕｄｉｂｌｅｒａｎｇｅｏｆｔｈｅｐｌａｙｂａｃｋｄｅｖｉｃｅ）の複数のＮＭＤは、それぞれウェイクワードを検出し、関連する音声マーカを検出することに応じて、ウェイクワードを無視し得る。

技術の例は、１つ又は複数のＮＭＤのウェイク応答を無効にすることを含み得る。第１の実施は、ネットワークインタフェースを介して、再生装置による再生用の音声コンテンツを表すデータを受信することと、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、１つ又は複数の音声サービス用の１つ又は複数のウェイクワードを検出することと、を含み得る。第１の実施は、更に、再生装置により音声コンテンツを再生中に、１つ又は複数のネットワークマイクロホン装置において検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることを含み、ここで、ウェイク応答が有効とされた時、特定のウェイクワードに対する所定のネットワークマイクロホン装置のウェイク応答により、当該所定のネットワークマイクロホン装置は、マイクロホンを介して、特定のウェイクワードに続く音声コマンドを聞き取る。第１の実施は、更に、１つ又は複数のスピーカを介して音声コンテンツを再生することを含み得る。

第２の実施は、ネットワークインタフェースを介して、再生装置による再生用の音声コンテンツを表すデータを受信することを含み得る。第２の実施は、更に、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、１つ又は複数の音声サービス用の１つ又は複数のウェイクワードを検出することを含み得る。第２の実施は、更に、再生装置により音声コンテンツを再生中に、検出された１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にすることと、再生装置が音声コンテンツを再生している間に、マイクロホンを介して、再生された音声コンテンツを検出することと、を含み得る。

第３の実施は、計算システムのインタフェースを介して、１つ又は複数の再生装置による再生用の音声コンテンツを受信することを含み得る。第３の実施は、更に、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、１つ又は複数の音声サービス用の１つ又は複数のウェイクワードを検出することを含み得る。第３の実施は、更に、再生装置により音声コンテンツを再生中に、１つ又は複数のネットワークマイクロホン装置において検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることを含み得る。

第４の実施は、ネットワークインタフェースを介して、１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にする命令を受信することを含み得る。第４の実施は、更に、マイクロホンを介して、１つ又は複数の再生装置により再生されている音声コンテンツを検出することを含み得る。第４の実施は、更に、検出された音声コンテンツが１つ又は複数のウェイクワードを含むことを判断することと、受信した命令に応じて、検出された音声コンテンツ内の１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にすることと、を含み得る。

これらの実施の例のそれぞれは、特に、方法、実施を実行するように構成された装置、実施を実行するように構成された装置のシステム、又は実施を実行するために１つ又は複数のプロセッサにより実行可能な命令を含む非一時的コンピュータ読み取り可能媒体として実現し得る。本開示が、本明細書に記載の特徴例の組み合わせを含む他の多数の実施形態を含むことは、当業者に理解されよう。更に、技術を例示するために所定の装置により実行されるものとして記載された動作例は、本明細書に記載の装置を含む任意の適切な装置により実行され得る。更にまた、任意の装置は、他の装置に、本明細書に記載の動作の何れかを実行させ得る。

本明細書に記載の一部の例は、「ユーザ」及び／又は他の実体等、所定の主体により実行される機能を示す場合があるが、この記載は、説明の目的のみを有することを理解されたい。特許請求の範囲自体に明示的に必要であることが記載されていない限り、こうした任意の主体例による行動が必要であると解釈されるべきではない。

ＩＩ．動作環境の例
図１は、本明細書に開示した１つ又は複数の実施形態を実現又は実施し得るメディア再生システム１００の構成例を示す。図示したメディア再生システム１００は、例えば、主寝室、オフィス、ダイニングルーム、及びリビングルーム等の幾つかの部屋及び空間を有する例示的な住居環境に関連する。図１の例に示すように、メディア再生システム１００は、再生装置１０２、１０４、１０６、１０８、１１０、１１２、１１４、１１６、１１８、１２０、１１２、及び１２４と、制御装置１２６及び１２８と、有線又は無線ネットワークルータ１３０とを含む。図１には、ＮＭＤ１３２及び１３４も存在する。

例示したメディア再生システム１００の様々な構成要素、及びユーザにメディア体験を提供するために様々な構成要素がどのように相互作用するかに関しては、以下の節で更に説明している。本明細書の説明は、全般的に、例示したメディア再生システム１００を示すものとなり得るが、本明細書に記載の技術は、特に、図１に示した住居環境内の用途に限定されない。例えば、本明細書に記載の技術は、例えばレストラン、モール、又は空港等の商業施設、スポーツユーティリティビークル（ＳＵＶ）等の車両、バス又は客車、船舶、飛行機等、マルチゾーンオーディオが望まれる環境において有用となり得る。

ａ．再生装置の例
図２は、図１のメディア再生システム１００の再生装置１０２乃至１２４の１つ又は複数として構成可能な再生装置２００の例の機能ブロック図を示す。再生装置２００は、プロセッサ２０２、ソフトウェアコンポーネント２０４、メモリ２０６、オーディオ処理コンポーネント２０８、オーディオアンプ２１０、スピーカ２１２、並びに無線インタフェース２１６及び有線インタフェース２１８を含むネットワークインタフェース２１４を含み得る。一例において、再生装置２００は、スピーカ２１２を含まず、再生装置２００を外部スピーカに接続するためのスピーカインタフェースを含んでもよい。他の例において、再生装置２００は、スピーカ２１２もオーディオアンプ２１０も含まず、再生装置２００を外部のオーディオアンプ又はＡＶレシーバに接続するための音声インタフェースを含んでもよい。

一例において、プロセッサ２０２は、メモリ２０６に記憶された命令により入力データを処理するように構成されたクロック駆動計算コンポーネントにし得る。メモリ２０６は、プロセッサ２０２により実行可能な命令を記憶するように構成された有形のコンピュータ可読媒体にし得る。例えば、メモリ２０６は、特定の機能を達成するためにプロセッサ２０２により実行可能なソフトウェアコンポーネント２０４の１つ又は複数をロードできるデータストレージにし得る。一例において、機能は、再生装置２００が音源又は別の再生装置から音声データを取得することを含み得る。他の例において、機能は、再生装置２００が音声データをネットワーク上の別の装置又は再生装置に送信することを含み得る。更に他の例において、機能は、マルチチャネルオーディオ環境を作成するために、再生装置２００を１つ又は複数の再生装置とペアリングすることを含み得る。

特定の機能は、再生装置２００が音声コンテンツの再生を他の１つ又は複数の再生装置と同期させることを含み得る。同期再生中、再生装置２００と１つ又は複数の他の再生装置とによる音声コンテンツの再生の間で、時間遅延差を聴取者が知覚できないことが好ましい。出典を明記することによりその開示内容全体を本願明細書の一部とする米国特許第８，２３４，３９５号「独立してクロックされる複数のデジタルデータ処理装置間で動作を同期するためのシステム及び方法」には、再生装置間のオーディオ再生を同期する幾つかの例が更に詳細に記載されている。

メモリ２０６は、更に、再生装置２００がその一部である１つ又は複数のゾーン及び／又はゾーングループ、再生装置２００がアクセス可能な音源、又は再生装置２００（又は他の何らかの再生装置）と関連し得る再生キュー等、再生装置２００に関連するデータを記憶するように構成可能である。データは、周期的に更新されると共に再生装置２００の状態を記述するために使用される１つ又は複数の状態変数として記憶し得る。メモリ２０６は、メディアシステムの他の装置の状態に関連すると共に１つ又は複数の装置がシステムに関連付けられた最新のデータを有するように装置間で随時共有されるデータを含んでもよい。他の実施形態も可能である。

オーディオ処理コンポーネント２０８は、１つ又は複数のデジタル／アナログ変換器（ＤＡＣ）、オーディオ前処理コンポーネント、オーディオ強化コンポーネント、又はデジタル信号プロセッサ（ＤＳＰ）等を含み得る。一実施形態において、オーディオ処理コンポーネント２０８の１つ又は複数は、プロセッサ２０２のサブコンポーネントにし得る。一例において、音声コンテンツは、音声信号を生成するために、オーディオ処理コンポーネント２０８により処理及び／又は意図的に変更され得る。生成された音声信号は、その後、増幅及びスピーカ２１２を介した再生のためにオーディオアンプ２１０に提供され得る。特に、オーディオアンプ２１０は、スピーカ２１２の１つ又は複数を駆動するためのレベルまで音声信号を増幅するように構成された装置を含み得る。スピーカ２１２は、個別のトランスデューサ（例えば、「ドライバ」）、又は１つ以上のドライバを有するエンクロージャを含む完全なスピーカシステムを含み得る。スピーカ２１２の特定のドライバは、例えば、サブウーハ（例えば、低周波用）、ミッドレンジドライバ（例えば、中周波用）、及び／又はツイータ（例えば、高周波用）を含み得る。場合により、１つ又は複数のスピーカ２１２内の各トランスデューサは、オーディオアンプ２１０の個々の対応するオーディオアンプにより駆動される。再生装置２００による再生用にアナログ信号を生成することに加え、オーディオ処理コンポーネント２０８は、再生のために１つ又は複数の他の再生装置に送信される音声コンテンツを処理するように構成可能である。

再生装置２００により処理及び／又は再生される音声コンテンツは、外部のソースから、オーディオラインイン入力接続（例えば、自動検出３．５ｍｍオーディオラインイン接続）又はネットワークインタフェース２１４等を介して受信してもよい。

ネットワークインタフェース２１４は、再生装置２００とデータネットワーク上の１つ又は複数の他の装置との間のデータフローを容易にするように構成可能である。したがって、再生装置２００は、再生装置２００と通信する１つ又は複数の他の再生装置、ローカルエリアネットワーク内のネットワーク装置、又はインターネット等のワイドエリアネットワーク上の音声コンテンツソースから、データネットワークを介して音声コンテンツを受信するように構成可能である。一例において、再生装置２００により送受信される音声コンテンツ及び他の信号は、インターネットプロトコル（ＩＰ）に基づく送信元アドレス及びＩＰに基づく宛先アドレスを含むデジタルパケットデータの形態で送信し得る。このような場合、ネットワークインタフェース２１４は、再生装置２００宛てのデータが再生装置２００により適切に受信及び処理されるように、デジタルパケットデータを解析するように構成可能である。

図示したように、ネットワークインタフェース２１４は、無線インタフェース２１６及び有線インタフェース２１８を含み得る。無線インタフェース２１６は、再生装置２００が他の装置（例えば、再生デバイス２００が関連付けられたデータネットワーク内の他の再生装置、スピーカ、レシーバ、ネットワーク装置、制御装置）と、通信プロトコル（例えば、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇ移動体通信規格等を含む任意の無線規格）に従って、無線通信するためのネットワークインタフェース機能を提供し得る。有線インタフェース２１８は、再生装置２００が、通信プロトコル（例えば、ＩＥＥＥ８０２．３）に従って、他の装置と有線接続を介して通信するためのネットワークインタフェース機能を提供し得る。図２に示したネットワークインタフェース２１４は、無線インタフェース２１６及び有線インタフェース２１８を共に含むが、一部の実施形態において、ネットワークインタフェース２１４は、無線インタフェースのみ又は有線インタフェースのみを含み得る。

一例において、再生装置２００と他の１つの再生装置は、音声コンテンツの２つの別個の音声成分を再生するためにペアリングされる。例えば、再生装置２００は、左チャネル音声成分を再生するように構成され、他方の再生装置は、右チャネル音声成分を再生するように構成され、これにより音声コンテンツのステレオ効果を生成又は強化し得る。ペアリングした再生装置（「結合再生装置」ともいう）は、更に、他の再生装置と同期して音声コンテンツを再生し得る。

他の例において、再生装置２００は、１つ又は複数の他の再生装置と音響的に統合し、単一の統合再生装置を形成し得る。統合再生装置は、音声コンテンツを再生可能な追加のスピーカドライバを有し得ることから、未統合の再生装置又はペアリングされた再生装置とは異なる形で音声を処理及び再生するように構成可能である。例えば、再生装置２００が低周波数レンジの音声コンテンツを再生するように設計された再生装置（即ち、サブウーハ）である場合、再生装置２００は、フル周波数レンジの音声コンテンツを再生するように設計された再生装置と統合し得る。このような場合、フル周波数レンジ再生装置は、低周波再生装置２００と統合された時、低周波レンジ再生装置２００が音声コンテンツの低周波数成分を再生する一方で、音声コンテンツの中及び高周波数成分のみを再生するように構成可能である。統合再生装置は、更に、単一の再生装置又は更に別の統合再生装置とペアリングされ得る。

例えば、ＳＯＮＯＳ，Ｉｎｃ．は、「ＰＬＡＹ：１」、「ＰＬＡＹ：３」、「ＰＬＡＹ：５」、「ＰＬＡＹＢＡＲ」、「ＣＯＮＮＥＣＴ：ＡＭＰ」、「ＣＯＮＮＥＣＴ」、及び「ＳＵＢ」を含む特定の再生装置を現在販売している（又はしていた）。他の任意の過去、現在、及び／又は将来の再生装置を追加として又は代替として用いて、本明細書に開示した実施形態例の再生装置を実施してもよい。加えて、再生装置は、図２に示す例又はＳＯＮＯＳが提供する製品に限定されないと理解される。例えば、再生装置は、有線又は無線ヘッドフォンを含み得る。他の例において、再生装置は、個人用モバイルメディア再生装置用のドッキングステーションを含む場合、又はそれと相互作用する場合がある。更に他の例において、再生装置は、テレビ、照明器具、又は屋内若しくは屋外で使用する他の何らかの装置等、別の装置又はコンポーネントに統合されてもよい。

ｂ．再生ゾーン構成の例
図１のメディア再生システム１００を再び参照すると、環境は、それぞれ１つ又は複数の再生装置を有する１つ又は複数の再生ゾーンを有し得る。メディア再生システム１００は、１つ又は複数の再生ゾーンで構築され、その後１つ又は複数のゾーンを追加又は削除し得ることで、図１に示す構成例となってもよい。各ゾーンには、オフィス、浴室、主寝室、寝室、キッチン、ダイニングルーム、リビングルーム、バルコニー等、異なる部屋又は空間に応じて名前を付けてもよい。一例において、単一の再生ゾーンは、複数の部屋又は空間を含み得る。他の事例において、単一の部屋又は空間は、複数の再生ゾーンを含み得る。

図１に示すように、バルコニー、ダイニングルーム、キッチン、浴室、オフィス、寝室ゾーンには、それぞれ１つの再生装置があり、リビングルーム及び主寝室ゾーンには、それぞれ複数の再生装置がある。リビングルームゾーンにおいて、再生装置１０４、１０６、１０８、及び１１０は、個々の再生装置として、１つ又は複数の結合再生装置として、１つ又は複数の統合再生装置として、又はそれらの任意の組み合わせとして、音声コンテンツを同期して再生するように構成可能である。同様に、主寝室の場合、再生装置１２２及び１２４は、個々の再生装置として、結合再生装置として、又は統合再生装置として、音声コンテンツを同期して再生するように構成可能である。

一例において、図１の環境内の１つ又は複数の再生ゾーンは、それぞれ異なる音声コンテンツを再生し得る。例えば、あるユーザがバルコニーゾーンで網焼きをしつつ再生装置１０２で再生されているヒップホップ音楽を聴いている一方、別のユーザは、キッチンゾーンで食べ物の準備をしつつ再生装置１１４で再生されているクラシック音楽を聴いている場合がある。他の例において、再生ゾーンでは、別の再生ゾーンと同期して同じ音声コンテンツを再生し得る。例えば、オフィスゾーンにユーザがいて、オフィスゾーンでは、バルコニーゾーンで再生装置１０２により再生されているものと同じロック音楽を再生装置１１８が再生している場合がある。このような場合、再生装置１０２及び１１８は、ユーザが異なる再生ゾーン間を移動しながら、音を出して再生されている音声コンテンツをシームレスに（又は少なくとも実質的にシームレスに）楽しめるように、同期してロック音楽を再生し得る。再生ゾーン間の同期は、前掲の米国特許第８，２３４，３９５号に記載された再生装置間の同期と同様に達成し得る。

上記で示唆したように、メディア再生システム１００のゾーン構成は、動的に修正し得るものであり、一部の実施形態において、メディア再生システム１００は多数の構成をサポートする。例えば、ユーザが１つ又は複数の再生装置をゾーンの外部又は内部に物理的に移動させる場合、メディア再生システム１００は、（複数の）変更に対応するように再構成可能である。例えば、ユーザが再生装置１０２をバルコニーゾーンからオフィスゾーンに物理的に移動させる場合、オフィスゾーンは、これにより再生装置１１８と再生装置１０２の両方を含み得る。再生装置１０２は、オフィスゾーンとペアリング又はグループ化され、及び／又は望ましい場合、制御装置１２６及び１２８等の制御装置を介して名前を変更し得る。一方、１つ又は複数の再生装置が、まだ再生ゾーンになっていない住居環境の特定のエリアに移動された場合、当該特定のエリアに対して新しい再生ゾーンを形成し得る。

更に、メディア再生システム１００の異なる再生ゾーンは、動的に組み合わせてゾーングループとしてよく、又は個々の再生ゾーンに分割してもよい。例えば、ダイニングルームゾーン及びキッチンゾーン１１４を組み合わせて、再生装置１１２及び１１４が同期して音声コンテンツを再生し得るように、ディナーパーティ用のゾーングループにしてもよい。一方、リビングルームゾーンは、リビングルームの空間で音楽を聴きたいユーザと、テレビを観たい別のユーザとがいる場合、再生装置１０４を含むテレビゾーンと、再生装置１０６、１０８、及び１１０を含むリスニングゾーンとに分割し得る。

ｃ．制御装置の例
図３は、メディア再生システム１００の制御装置１２６及び１２８の一方又は両方となるように構成可能な制御装置３００の例の機能ブロック図を示す。制御装置３００はコントローラ３００と呼ばれる場合がある。図示したように、制御装置３００は、プロセッサ３０２、メモリ３０４、ネットワークインタフェース３０６、及びユーザインタフェース３０８を含み得る。一例において、制御装置３００は、メディア再生システム１００の専用コントローラにし得る。他の例において、制御装置３００は、例えば、ｉＰｈｏｎｅ（登録商標）、ｉＰａｄ（登録商標）、又は他の任意のスマートフォン、タブレット、若しくはネットワーク装置（例えば、ＰＣ又はＭａｃ（登録商標）等のネットワークコンピュータ）等、メディア再生システムのコントローラアプリケーションソフトウェアをインストールし得るネットワーク装置であってよい。

プロセッサ３０２は、メディア再生システム１００のユーザアクセス、制御、及び構成を容易にすることに関連する機能を実行するように構成可能である。メモリ３０４は、これらの機能を実行するためにプロセッサ３０２により実行可能な命令を記憶するように構成可能である。メモリ３０４は、更に、メディア再生システムのコントローラアプリケーションソフトウェア、及びメディア再生システム１００とユーザに関連する他のデータを記憶するように構成可能である。

一例において、ネットワークインタフェース３０６は、業界標準（例えば、赤外線、無線、ＩＥＥＥ８０２．３を含む有線規格、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇ移動体通信規格を含む無線規格等）に基づく。ネットワークインタフェース３０６は、制御装置３００がメディア再生システム１００内の他の装置と通信するための手段を提供し得る。一例において、データ及び情報（例えば、状態変数等）は、ネットワークインタフェース３０６を介して制御装置３００と他の装置との間で通信され得る。例えば、メディア再生システム１００における再生ゾーン及びゾーングループ構成は、再生装置又は別のネットワーク装置から制御装置３００により受信し、又は制御装置３００によりネットワークインタフェース３０６を介して別の再生装置又はネットワーク装置に送信し得る。場合により、他のネットワーク装置は、別の制御装置となり得る。

音量制御及びオーディオ再生制御等の再生装置制御コマンドも、制御装置３００からネットワークインタフェース３０６を介して再生装置に通信され得る。上記で示唆したように、メディア再生システム１００の構成の変更は、ユーザが制御装置３００を使用することで実行してもよい。構成の変更は、特に、１つ又は複数の再生装置のゾーンでの追加／削除、１つ又は複数のゾーンのゾーングループでの追加／削除、結合又は統合プレーヤの形成、１つ又は複数の再生装置の結合又は統合されたプレーヤからの分離を含み得る。したがって、制御装置３００は、専用の制御装置であっても、メディア再生システムのコントローラアプリケーションソフトウェアがインストールされたネットワーク装置であっても、コントローラと呼ばれる場合がある。

制御装置３００のユーザインタフェース３０８は、図４に示したコントローラインタフェース４００等のコントローラインタフェースを提供することにより、メディア再生システム１００のユーザアクセス及び制御を容易にするように構成可能である。コントローラインタフェース４００は、再生制御領域４１０、再生ゾーン領域４２０、再生ステータス領域４３０、再生キュー領域４４０、及び音声コンテンツソース領域４５０を含む。図示したユーザインタフェース４００は、図３の制御装置３００（及び／又は図１の制御装置１２６及び１２８）等のネットワーク装置上に設けられると共に、メディア再生システム１００等のメディア再生システムを制御するためにユーザがアクセスし得るユーザインタフェースの一例にすぎない。メディア再生システムへの同等の制御アクセスを提供するように、様々な形式、スタイル、及びインタラクティブなシーケンスの他のユーザインタフェースが、代わりに１つ又は複数のネットワーク装置において実施されてもよい。

再生制御領域４１０は、選択された再生ゾーン又はゾーングループ内の再生装置に、再生又は一時停止、早送り、巻き戻し、次へスキップ、前へスキップ、シャッフルモードの開始／終了、リピートモードの開始／終了、クロスフェードモードの開始／終了を実行させる、（例えば、タッチ又はカーソルの使用により）選択可能なアイコンを含み得る。再生制御領域４１０は、可能なものとして特に、イコライゼーション設定及び再生音量を修正するための選択可能なアイコンを含み得る。

再生ゾーン領域４２０は、メディア再生システム１００内の再生ゾーンを表現したものを含み得る。一部の実施形態において、再生ゾーンのグラフィック表現は、可能なものとして特に、結合ゾーンの作成、ゾーングループの作成、ゾーングループの分離、ゾーングループの名前変更等、メディア再生システムにおいて再生ゾーンの管理又は設定を行う追加の選択可能アイコンを呼び出すために、選択可能にし得る。

例えば、図示したように、「グループ」アイコンを、再生ゾーンのグラフィック表現内に提供し得る。特定のゾーンのグラフィック表現内に提供される「グループ」アイコンは、当該特定のゾーンとグループ化されるメディア再生システム内の１つ又は複数の他のゾーンを選択するオプションを呼び出すために、選択可能にし得る。グループ化されると、特定のゾーンとグループ化されたゾーンの再生装置は、特定のゾーンの再生装置と同期して音声コンテンツを再生するように構成される。同様に、ゾーングループのグラフィック表示内に「グループ」アイコンを提供してもよい。この場合、「グループ」アイコンを選択して、ゾーングループから削除するべきゾーングループ内の１つ又は複数のゾーンを選択解除するオプションを呼び出すことができる。ユーザインタフェース４００等のユーザインタフェースを介してゾーンのグループ化及びグループ化解除を行うための他のインタラクション及び実施も可能である。再生ゾーン領域４２０内の再生ゾーンの表現は、再生ゾーン又はゾーングループの構成が修正された際に動的に更新され得る。

再生ステータス領域４３０は、選択された再生ゾーン又はゾーングループにおいて、現在再生中の音声コンテンツ、以前に再生した音声コンテンツ、又は次に再生予定の音声コンテンツのグラフィック表現を含み得る。選択された再生ゾーン又はゾーングループは、再生ゾーン領域４２０及び／又は再生ステータス領域４３０内等において、ユーザインタフェース上で視覚的に区別され得る。グラフィック表示は、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラック長、及びユーザインタフェース４００を介してメディア再生システムを制御する際にユーザが知っていると有用な他の関連情報を含み得る。

再生キュー領域４４０は、選択された再生ゾーン又はゾーングループに関連する再生キュー内の音声コンテンツのグラフィック表現を含み得る。一部の実施形態において、各再生ゾーン又はゾーングループは、再生ゾーン又はゾーングループにより再生されるゼロ個以上の音声アイテムに対応する情報を含む再生キューに関連付けられる。例えば、再生キュー内の各音声アイテムは、ユニフォームリソース識別子（ＵＲＩ）、ユニフォームリソースロケータ（ＵＲＬ）、又は、恐らくは再生装置による再生用にローカル音声コンテンツソース又はネットワーク音声コンテンツソースから音声アイテムを検索及び／又は取得するために、再生ゾーン又はゾーングループにおいて再生装置が使用し得る他の何らかの識別子を含み得る。

一例では、プレイリストが再生キューに追加される。この場合、プレイリスト内の各音声アイテムに対応する情報が再生キューに追加される。別の例では、再生キュー内の音声アイテムがプレイリストとして記憶される。他の例では、再生キューは空であってよく、又は、再生ゾーン又はゾーングループが、再生時間を有する個別の音声アイテムではなく、停止されるまで再生が継続し得るインターネットラジオ等の連続ストリーミング音声コンテンツを再生している場合、内容を有しても「未使用」とし得る。代替的な実施形態において、再生キューは、インターネットラジオ及び／又は他のストリーミング音声コンテンツのアイテムを含むことが可能であり、再生ゾーン又はゾーングループがこれらのアイテムを再生している時に「使用中」とすることができる。他の例も可能である。

再生ゾーン又はゾーングループが「グループ化」又は「グループ化解除」された際には、影響される再生ゾーン又はゾーングループに関連付けられた再生キューは、消去されても、改めて関連付けされてもよい。例えば、第１の再生キューを含む第１の再生ゾーンが、第２の再生キューを含む第２の再生ゾーンとグループ化される場合、確立されたゾーングループが有し得る関連再生キューは、最初は空であるか、第１の再生キューからの音声アイテムを含むか（第２の再生ゾーンが第１の再生ゾーンに追加された場合等）、第２の再生キューからの音声アイテムを含むか（第１の再生ゾーンが第２の再生ゾーンに追加された場合等）、又は第１及び第２の両方の再生キューからの音声アイテムの組み合わせとなる。その後、確立されたゾーングループがグループ化解除された場合、結果的に生じた第１の再生ゾーンは、以前の第１の再生キューに改めて関連付けられてもよく、又は、空である新しい再生キュー、若しくは確立されたゾーングループのグループ化解除前に、確立されたゾーングループに関連付けられていた再生キューからの音声アイテムを含む新しい再生キューに関連付けられてもよい。同様に、結果的に生じた第２の再生ゾーンは、以前の第２の再生キューに改めて関連付けられてもよく、又は、空である新しい再生キュー、若しくは確立されたゾーングループのグループ化解除前に、確立されたゾーングループに関連付けられていた再生キューからの音声アイテムを含む新しい再生キューに関連付けられてもよい。他の例も可能である。

図４のユーザインタフェース４００を再び参照すると、再生キュー領域４４０内の音声コンテンツのグラフィック表現は、トラックタイトル、アーティスト名、トラック長、及び再生キュー内の音声コンテンツに関連する他の関連情報を含み得る。一例において、音声コンテンツのグラフィック表現は、再生キュー及び／又は再生キュー内に表現された音声コンテンツを管理及び／又は操作する追加の選択可能アイコンを呼び出すために、選択可能にし得る。例えば、表現された音声コンテンツには、可能なものとして特に、再生キューからの削除、再生キュー内の異なる位置への移動、又は直ちに再生されるか現在再生中の音声コンテンツの後に再生するかの選択が実行され得る。再生ゾーン又はゾーングループに関連付けられた再生キューは、再生ゾーン又はゾーングループ内にある１つ又は複数の再生装置、再生ゾーン又はゾーングループ内にない再生装置、及び／又は他の何らかの指定された装置上のメモリに記憶され得る。このような再生キューの再生は、１つ又は複数の再生装置がキューのメディアアイテムを、恐らくは連続した順序又はランダムな順序で、再生することを含み得る。

音声コンテンツソース領域４５０は、選択された再生ゾーン又はゾーングループにより音声コンテンツを取得して再生し得る、選択可能な音声コンテンツソースのグラフィック表現を含み得る。音声コンテンツソースに関しては、以下の節で説明する。

ｄ．音声コンテンツソースの例
前述のように、ゾーン又はゾーングループ内の１つ又は複数の再生装置は、様々な利用可能な音声コンテンツソースから（例えば、音声コンテンツの対応するＵＲＩ又はＵＲＬに従って）再生音声コンテンツを取得するように構成可能である。一例において、音声コンテンツは、対応する音声コンテンツソース（例えば、ラインイン接続）から直接、再生装置により取得され得る。他の例において、音声コンテンツは、１つ又は複数の他の再生装置又はネットワーク装置を介してネットワーク上で再生装置に提供され得る。

音声コンテンツソースの例は、可能なものとして特に、図１のメディア再生システム１００等のメディア再生システム内の１つ又は複数の再生装置のメモリ、１つ又は複数のネットワーク装置（制御装置、ネットワーク対応パーソナルコンピュータ、又はネットワーク接続ストレージ（ＮＡＳ）等）上のローカル音楽ライブラリ、インターネット（例えばクラウド）を介して音声コンテンツを提供するストリーミングオーディオサービス、又は再生装置若しくはネットワーク装置上でライン入力接続を介してメディア再生システムに接続された音源を含み得る。

一部の実施形態において、音声コンテンツソースは、図１のメディア再生システム１００等のメディア再生システムにおいて定期的に追加又は削除されてもよい。一例において、１つ又は複数の音声コンテンツソースが追加、削除、又は更新された時は常に、音声アイテムのインデキシングを実行し得る。音声アイテムのインデキシングは、メディア再生システム内の再生装置がアクセス可能な、ネットワーク上で共有される全てのフォルダ／ディレクトリ内で特定可能な音声アイテムのスキャニングと、音声コンテンツデータベースの生成又は更新とを含み得る。音声コンテンツデータベースは、メタデータ（例えば、特に、タイトル、アーティスト、アルバム、トラック長）及び見つかった特定可能な音声アイテム毎のＵＲＩ又はＵＲＬといった他の関連情報を含む。音声コンテンツソースを管理及び維持する他の例も可能である。

ｅ．処理システムの例
図５は、オーディオ入力／出力コンポーネント５０２、ウェイクワード検出コンポーネント５０４、及び通知コンポーネント５０６を含む処理システム５００の例の機能ブロック図を示す。動作中、処理システム５００は、記録済み音声コンテンツ内のウェイクワードを検出すると共に、ＮＭＤに、ウェイクワードの検出に対するプログラム済みウェイク応答を無視するか、他の形で抑制するように通知する。様々な実施形態において、処理システム５００は、特に、再生装置、ＮＭＤ、又はクラウドサーバ等の別個の処理装置において実施され得る。一部の実施形態において、処理システム（及び／又はその機能）の様々な構成要素は、複数の装置に分散される。

動作中、オーディオ入力／出力コンポーネント５０２は、入力インタフェースを介して、再生装置による再生のために指定された記録済み音声コンテンツを受信する。例えば、制御装置（図１の制御装置１２６又は１２８等）は、再生装置（例えば、図１の任意の再生装置）に、特定の音声コンテンツの再生を指示し得る。当該指示は、例として特に、恐らくはそのコンテンツを再生装置の再生キューに入れて再生装置に音声コンテンツを取得させること、音声コンテンツのストリーミングを再生装置に送ること、又はアナログ又はデジタルラインインインタフェースを介して再生装置に音声コンテンツを送ることにより行われる。処理システム５００の音声／入力コンポーネント５０２は、音声コンテンツが再生装置により再生される前に、この記録済み音声コンテンツを受信する。

上述したように、一部の例において、処理システム５００は再生装置内で実施される。このような実施形態では、再生装置５００は、再生のため必然的に音声コンテンツへのアクセスを既に有している。例えば、再生装置は、可能なものとして特に、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、及びパーソナルエリアネットワーク（ＰＡＮ）等の１種類以上のネットワーク上のネットワークインタフェースを介して、ネットワークソース（例えば、ストリーミングメディアサービス又はモバイル装置）から音声コンテンツを受信し得る。又は、再生装置は、アナログ（例えば、ＲＣＡ）又はデジタル（例えば、ＴｏｓＬｉｎｋ（登録商標）又はＨＤＭＩ（登録商標））のラインインインタフェースを介して音声コンテンツを受信し得る。

他の例において、処理システム５００は、再生装置とは別のＮＭＤ又は他の処理装置内で実施される。このような実施形態において、処理システム５００は、例として特に、再生装置又は音声コンテンツのソースから、ネットワークインタフェースを介して音声コンテンツを受信し得る。別の例において、ラインインインタフェースが音声コンテンツをＮＭＤに直接提供してもよく、又は、再生装置がラインインインタフェースを介して音声コンテンツを受信し、１つ又は複数のネットワークを介して処理システム５００にコンテンツを中継してもよい。

例えば、処理システム５００は、再生装置の再生キューへのアクセスを有し得る。上述したように、再生キュー内の各音声アイテムは、ユニフォームリソース識別子（ＵＲＩ）、ユニフォームリソースロケータ（ＵＲＬ）、又は、他の何らかの識別子を含み得る。他の何らかの識別子は、恐らくは再生装置による再生用に、ローカル音声コンテンツソース又はネットワーク音声コンテンツソースから音声アイテムを検索及び／又は取得するために、再生ゾーン又はゾーングループにおいて再生装置が使用し得るものである。処理システム５００は、再生装置による再生の前に、このような識別子を同様に用いて、ローカル音声コンテンツソース又はネットワーク音声コンテンツソースから音声コンテンツを取得し得る。

一部の実施において、再生キューは、再生装置のデータストレージに記憶される。他の実施において、再生キューは、クラウドサーバに記憶される。クラウドサーバに記憶された再生キュー（即ち、クラウドキュー）は、再生装置に記憶された再生キューのインスタンス又は表現となる。クラウドキューは、再生装置での再生の現在の状態を表す再生ポインタ又は他のステータス情報を含み得る。

一部の例において、処理システム５００は、受信した音声コンテンツをウェイクワード検出に適したフォーマットに変換し得る。例えば、音声コンテンツがアナログラインインインタフェースを介して音声／入力コンポーネント５０２に提供される場合、処理システム５００は、（例えば、ソフトウェア又はハードウェアに基づくアナログ／デジタル変換器を用いて）アナログ音声をデジタル化し得る。他の例として、受信した音声コンテンツが、分析に適さないデジタル形式で受信された場合、処理システム５００は、その記録を適切なフォーマットにトランスコードし得る。

ウェイクワード検出コンポーネント５０４は、受信した音声コンテンツを分析して、その記録にウェイクワードが存在するかを判断する。ウェイクワード検出コンポーネント５０４は、ウェイクワード検出アルゴリズムを用いて、受信した音声コンテンツを分析し得る。ウェイクワード検出アルゴリズムの例は、音声記録を入力として受け取り、その記録にウェイクワードが存在するかを示すインジケーションを出力として提供する。

一部の実施において、ウェイクワード検出コンポーネント５０４は、マイクロホンを介して記録された音声内のウェイクワードを検出するためにＮＭＤが利用するものと同じアルゴリズムを記録に対して使用し得る。一般的な動作中、ＮＭＤの例は、音声を常に記録し、記録された音声にウェイクワードが含まれているかを判断するために、記録されたオーディオストリームをウェイクワード検出アルゴリズムに提供する。ここで、ＮＭＤのマイクロホンにより記録された音声をウェイクワード検出アルゴリズムに提供する代わりに、ウェイクワード検出コンポーネント５０４は、再生用に指定された、事前に記録済み音声コンテンツを提供する。

分析中、ウェイクワード検出コンポーネント５０４は、更に、受信した音声コンテンツ内で各ウェイクワードが発生する場所を判断する。例えば、ウェイクワード検出コンポーネント５０４は、受信した音声コンテンツを既知の長さのセグメントに分割し得る。次に、ウェイクワード検出コンポーネント５０４は、ウェイクワードが検出されたセグメントを特定することにより、ウェイクワードが発生する記録の場所を判断し得る。例えば、各セグメントの長さが５秒であり、ウェイクワードが第４のセグメントで検出された場合、ウェイクワードは、記録の１５乃至２０秒の間に位置することになる。ウェイクワード検出コンポーネント５０４は、恐らくは１つ又は複数のタイムスタンプ（例えば、ウェイクワードの開始時間を示すタイムスタンプ、及び恐らくはウェイクワードの停止時間を示す別のタイムスタンプ）を使用して、ウェイクワードを含む音声コンテンツの部分を記録し得る。このようなタイムスタンプは、音声記録の開始から、又は音声記録内の別の特定の位置から、それぞれの時間オフセットを定義し得る。一部の例において、ウェイクワード検出コンポーネント５０４は、ウェイクワードが分割され、認識不能な部分となることを避けるために、音声記録を重複するセグメントに分離してもよい。音声記録内のウェイクワードの位置を決定する他の技術を利用することもできる。

例の中で、処理システム５００は、受信した音声コンテンツをメモリにバッファリングし得る。例えば、処理システム５００は、受信した音声コンテンツを先入れ先出しバッファ（例えば、循環バッファ）に記憶し得る。このような実施において、受信した音声の一部は、受信時にバッファに記憶され、受信した音声コンテンツにウェイクワードが含まれるかを判断するために処理されると削除される。

一部の例において、ウェイクワード検出コンポーネント５０４は、受信した音声コンテンツに対して複数のウェイクワード検出アルゴリズムを同時に（又は実質的に同時に）実行する。上述したように、様々な音声サービス（例えば、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）、ＡＰＰＬＥのＳＩＲＩ（登録商標）、又はＭＩＣＲＯＳＯＦＴのＣＯＲＴＡＮＡ（登録商標））では、それぞれの音声サービスの呼び出しに異なるウェイクワードを使用している。複数のサービスをサポートするために、ウェイクワード検出コンポーネント５０４は、受信した音声コンテンツに対して、サポートしている各音声サービス用のウェイクワード検出アルゴリズムを並行して実行し得る。

音声コンテンツ内で１つ又は複数のウェイクワードが検出された場合、通知コンポーネント５０６は、１つ又は複数のＮＭＤ（例えば、図１のＮＭＤ１３２及び／又は１３４）に通知する。この通知により、ＮＭＤは、再生装置がウェイクワードを含む音声コンテンツを再生する過程で、当該ウェイクワードが検出された際に、検出されたウェイクワードを無視する。例えば、通知コンポーネント５０６は、特定のウェイクワード又は特定の数のウェイクワードを無視するように、ネットワークインタフェースを介して１つ又は複数のＮＭＤに命令を送信し得る。

一部の例において、通知コンポーネント５０６は、ウェイクワードが再生装置により再生される際に、ＮＭＤがウェイクワードを検出しないようにしてもよい。例えば、通知コンポーネント５０６は、ある期間に亘り、ウェイクワードの聴取を停止する（例えば、記録された音声の処理を停止する）ようにＮＭＤに指示し得る。又は、通知コンポーネント５０６は、ＮＭＤに対して、一時的に（例えば、ウェイクワードが再生装置により再生されると予想される時間に対応する期間中に）、そのマイクロホンアレイを無効にするように指示し得る。更に他の例として、通知コンポーネント５０６は、ＮＭＤがウェイクワードを検出しないように、再生装置がマイクロホンアレイを使用する方向にリスニングＮＵＬＬを作成するようにＮＭＤに指示し得る。他の例も可能である。

又は、ＮＭＤがウェイクワードを検出し得る一方で、通知コンポーネント５０６は、ＮＭＤに、ウェイクワードの検出に応じて音声サービスを呼び出すプログラム済みウェイク応答を抑制するように指示する。例えば、通知コンポーネント５０６は、特定の期間中、ウェイクワードを無視するように、又は特定の期間中、全ての音声を無視するように、ＮＭＤに指示し得る。他の例も可能である。

他の例として、処理システム５００は、音声コンテンツ（又は音声コンテンツの一部）内のウェイクワードの数をカウントし得る。例えば、処理システム５００は、音声コンテンツの例（例えば、テレビ番組）において３つのウェイクワードを検出する場合がある。上述したように、このようなインスタンスは、異なる音声サービスの異なるウェイクワードを含め、ウェイクワードの任意の組み合わせを含み得る。次に、処理システム５００は、カウントと等しい数のウェイクワードを検出するまでウェイクワードを無視するように（例えば、次の３つのウェイクワードを無視するように）、近傍のＮＭＤに指示し得る。

他の例において、処理システム５００は、記録済み音声コンテンツに音声トーン又は他のマーカを動的に挿入して、音声コンテンツで検出されたウェイクワードを指定し得る。その後、音声コンテンツが再生装置により再生される際に、ウェイクワードと共に音声マーカを検出するＮＭＤには、ウェイクワードのインスタンスを無視するように指示することができる。複数のＮＭＤが再生装置の可聴範囲内にある場合、ウェイクワードを検出する各ＮＭＤは、関連する音声マーカを検出することに応じて、ウェイクワードを無視し得る。場合により、音声マーカは、人間の可聴範囲外（例えば、２０ｋＨｚ超）の音声周波数で構成されるため、人間の聴取者は、挿入されたトーンに気付かない。

一部の実施において、処理システム５００は、音声コンテンツのソースと再生装置との間の媒介として動作する。例えば、処理システム５００が音声マーカを用いてＮＭＤに通知する実施において、処理システムは、再生装置による再生に指定された音声コンテンツを修正する。このような実施形態において、処理システム５００は、音源から音声コンテンツを受信し（例えば、ネットワーク又はラインインインタフェースを介して）、音声コンテンツを分析し、恐らくはネットワークインタフェースを介して、修正された音声コンテンツを再生のため再生装置に提供し得る。

又は、上述したように、処理システム５００は、再生装置自体において実施される。このような場合、音声コンテンツを分析した後、再生装置は、音声コンテンツの再生に進み得る。更に、上述したように、場合によっては、再生装置は、（例えば、ゾーングループ、ステレオペア、又はサラウンドサウンド構成において）１つ又は複数の追加の再生装置と同期して音声コンテンツを再生するように構成可能である。このような状況において、再生装置は、恐らくはネットワークインタフェースを介して、１つ又は複数の追加の再生装置に（場合より修正された）音声コンテンツを提供し得る。

他の例において、処理システム５００は、ＮＭＤにおいて実施される。このような場合、処理システム５００は、ＮＭＤ自体に、再生時に音声コンテンツのウェイクワードを無視させ得る。更に、ＮＭＤは、ウェイクワードを無視するように他のＮＭＤに指示し得る。例えば、ＮＭＤ１３２は、ウェイクワードを無視するようにＮＭＤ１３４に指示し得る。更に、ＮＭＤが再生装置（例えば、再生装置１０４）において実施される場合、ＮＭＤ／再生装置は、他のＮＭＤ（これらも再生装置において実施されている場合がある）にウェイクワードを無視するように指示し得る。

ｆ．複数のネットワーク装置の例
図６は、音声制御に基づいてオーディオ再生体験を提供するように構成可能な複数の装置６００の例を示す。図６に示した装置が例示のみを目的とし、異なる及び／又は追加の装置を含む変形が可能となり得ることは、当業者に理解されよう。図示したように、複数の装置６００は、計算装置６０４、６０６、６０８と、ネットワークマイクロホン装置（ＮＭＤ）６１２、６１４、６１６と、再生装置（ＰＢＤ）６３２、６３４、６３６、６３８と、コントローラ装置（ＣＲ）６２２とを含む。

複数の装置６００のそれぞれは、例として特に、ＮＦＣ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット、及びＩＥＥＥ８０２．１１等の１つ又は複数のネットワークプロトコルにより、１種類以上のネットワークを介して、複数の装置において１つ又は複数の他の装置との通信を確立することが可能なネットワーク対応装置にし得る。１種類以上のネットワークは、例えば、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）等である。

図示したように、計算装置６０４、６０６、６０８は、クラウドネットワーク６０２の一部であってよい。クラウドネットワーク６０２は、追加の計算装置を含み得る。一例において、計算装置６０４、６０６、６０８は、異なるサーバであってもよい。他の例において、計算装置６０４、６０６、６０８のうちの２つ以上は、単一のサーバのモジュールであってもよい。同様に、計算装置６０４、６０６、６０８のそれぞれは、１つ又は複数のモジュール又はサーバを含み得る。本明細書での例示の目的を容易にするため、計算装置６０４、６０６、６０８のそれぞれは、クラウドネットワーク６０２内で特定の機能を実行するように構成可能である。例えば、計算装置６０８は、ストリーミング音楽サービス用の音声コンテンツのソースであってもよい。

図示したように、計算装置６０４は、通信経路６４２を介して、ＮＭＤ６１２、６１４、６１６と連動するように構成可能である。ＮＭＤ６１２、６１４、６１６は、１つ又は複数の「スマートホーム」システムの構成要素であってもよい。一例において、ＮＭＤ６１２、６１４、６１６は、図１に示す装置の分布と同様に、住居全体に物理的に分布させ得る。他の例において、ＮＭＤ６１２、６１４、６１６の２つ以上は、物理的に互いに比較的近接して配置され得る。通信経路６４２は、可能なものとして特に、インターネットを含むＷＡＮ、ＬＡＮ、及び／又はＰＡＮ等の１種類以上のネットワークを含み得る。

一例において、ＮＭＤ６１２、６１４、６１６の１つ又は複数は、主に音声検出用に構成された装置である。他の例において、ＮＭＤ６１２、６１４、６１６の１つ又は複数は、様々な主要用途を有する装置の構成要素である。例えば、図２及び３に関連して上述したように、ＮＭＤ６１２、６１４、６１６の１つ又は複数は、再生装置２００のマイクロホン２２０又はネットワーク装置３００のマイクロホン３１０であってもよい。更に、場合により、ＮＭＤ６１２、６１４、６１６の１つ又は複数は、再生装置２００又はネットワーク装置３００であってもよい。一例において、ＮＭＤ６１２、６１４、及び／又は６１６の１つ又は複数は、マイクロホンアレイに配置された複数のマイクロホンを含み得る。

図示したように、計算装置６０６は、通信経路６４４を介してＣＲ６２２及びＰＢＤ６３２、６３４、６３６、６３８と連動するように構成可能である。一例において、ＣＲ６２２は、図２のネットワーク装置２００等のネットワーク装置であってもよい。したがって、ＣＲ６２２は、図４のコントローラインタフェース４００を提供するように構成可能である。同様に、ＰＢＤ６３２、６３４、６３６、６３８は、図３の再生装置３００等の再生装置であってもよい。そのため、ＰＢＤ６３２、６３４、６３６、６３８は、図１に示すように、住居全体に物理的に分布させ得る。例示のために、ＰＢＤ６３６及び６３８を結合ゾーン６３０の一部とする一方、ＰＢＤ６３２及び６３４は、それぞれのゾーンの一部としてもよい。上述したように、ＰＢＤ６３２、６３４、６３６、６３８は、動的に結合、グループ化、結合解除、及びグループ化解除され得る。通信経路６４４は、可能なものとして特に、インターネットを含むＷＡＮ、ＬＡＮ、及び／又はＰＡＮ等の１種類以上のネットワークを含み得る。

一例において、ＮＭＤ６１２、６１４、６１６と同様に、ＣＲ６２２及びＰＢＤ６３２、６３４、６３６、６３８は、１つ又は複数の「スマートホーム」システムの構成要素である。一例において、ＰＢＤ６３２、６３４、６３６、６３８は、ＮＭＤ６１２、６１４、６１６と同じ住居全体に分布させ得る。更に、上記で示唆したように、ＰＢＤ６３２、６３４、６３６、６３８の１つ又は複数は、ＮＭＤ６１２、６１４、６１６の１つ又は複数であってもよい。

ＮＭＤ６１２、６１４、６１６は、ローカルエリアネットワークの一部としてよく、通信経路６４２は、ＮＭＤ６１２、６１４、６１６のローカルエリアネットワークを計算装置６０４にＷＡＮを介して連結するアクセスポイントを含み得る（通信経路は図示せず）。同様に、ＮＭＤ６１２、６１４、６１６のそれぞれは、そのようなアクセスポイントを介して互いに通信し得る。

同様に、ＣＲ６２２及びＰＢＤ６３２、６３４、６３６、６３８は、前節で説明したローカルエリアネットワーク及び／又はローカル再生ネットワークの一部にしてよく、通信経路６４４は、ＣＲ６２２及びＰＢＤ６３２、６３４、６３６、６３８のローカルエリアネットワーク及び／又はローカル再生ネットワークを、計算装置６０６にＷＡＮを介して連結するアクセスポイントを含み得る。そのため、ＣＲ６２２及びＰＢＤ６３２、６３４、６３６、６３８のそれぞれは、このようなアクセスポイントを介してそれぞれと通信し得る。

一例において、通信経路６４２及び６４４は、同じアクセスポイントを備え得る。一例において、ＮＭＤ６１２、６１４、６１６、ＣＲ６２２、及びＰＢＤ６３２、６３４、６３６、６３８のそれぞれは、家庭用の同じアクセスポイントを介してクラウドネットワーク６０２にアクセスし得る。

図６に示すように、ＮＭＤ６１２、６１４、６１６、ＣＲ６２２、及びＰＢＤ６３２、６３４、６３６、６３８のそれぞれは、更に、通信手段６４６を介して他の装置の１つ又は複数と直接通信し得る。本明細書に記載の通信手段６４６は、１種類以上のネットワークを介した、１つ又は複数のネットワークプロトコルによる、装置間の１つ又は複数の通信形態を含んでよく、及び／又は１つ又は複数の他のネットワーク装置を介した通信を含んでよい。例えば、通信手段６４６は、可能なものとして特に、Ｂｌｕｅｔｏｏｔｈ（ＩＥＥＥ８０２．１５）、ＮＦＣ、ワイヤレスダイレクト、及び／又は独自のワイヤレスの１つ又は複数を含み得る。

一例において、ＣＲ６２２は、Ｂｌｕｅｔｏｏｔｈを介してＮＭＤ６１２と通信し、別のローカルエリアネットワークを介してＰＢＤ６３４と通信し得る。他の例において、ＮＭＤ６１４は、別のローカルエリアネットワークを介してＣＲ６２２と通信し、Ｂｌｕｅｔｏｏｔｈを介してＰＢＤ６３６と通信し得る。更に他の例では、ＰＢＤ６３２、６３４、６３６、６３８のそれぞれは、ローカル再生ネットワークを介してスパニングツリープロトコルにより互いに通信し得る一方、ローカル再生ネットワークとは異なるローカルエリアネットワークを介して、ＣＲ６２２とそれぞれ通信する。他の例も可能である。

場合により、ＮＭＤ６１２、６１４、６１６、ＣＲ６２２、及びＰＢＤ６３２、６３４、６３６、６３８間の通信手段は、装置間の通信の種類、ネットワーク条件、及び／又はレイテンシ要求に応じて変化し得る。例えば、ＮＭＤ６１６がＰＢＤ６３２、６３４、６３６、６３８を有する住居に最初に導入される時には、通信手段６４６が使用されてもよい。一例において、ＮＭＤ６１６は、ＮＦＣを介してＰＢＤ６３８に、ＮＭＤ６１６に対応する識別情報を送信し、これに応じて、ＰＢＤ６３８は、ＮＦＣ（又は他の通信形態）を介してＮＭＤ６１６に、ローカルエリアネットワーク情報を送信し得る。しかしながら、ＮＭＤ６１６が住居内で設定されると、ＮＭＤ６１６とＰＢＤ６３８との間の通信手段は、変化し得る。例えば、ＮＭＤ６１６は、その後、通信経路６４２、クラウドネットワーク６０２、及び通信経路６４４を介してＰＢＤ６３８と通信し得る。他の例において、ＮＭＤ及びＰＢＤは、ローカルの通信手段６４６を介して通信しなくてもよい。更に他の例において、ＮＭＤ及びＰＢＤは、主にローカルの通信手段６４６を介して通信してもよい。他の例も可能である。

説明のための例において、ＮＭＤ６１２、６１４、６１６は、音声入力を受信してＰＢＤ６３２、６３４、６３６、６３８を制御するように構成可能である。利用可能な制御コマンドには、可能なものとして特に、再生音量制御、再生トランスポート制御、音楽ソース選択、グループ化等、前述した任意のメディア再生システム制御が含まれ得る。一例において、ＮＭＤ６１２は、音声入力を受信して、ＰＢＤ６３２、６３４、６３６、６３８の１つ又は複数を制御し得る。音声入力の受信に応じて、ＮＭＤ６１２は、通信経路６４２を介して、処理のために音声入力を計算装置６０４に送信し得る。一例において、計算装置６０４は、音声入力を同等のテキストコマンドに変換し、テキストコマンドを解析してコマンドを特定し得る。その後、計算装置６０４は、テキストコマンドを計算装置６０６に送信し得る。他の例において、計算装置６０４は、音声入力を同等のテキストコマンドに変換し、次に、テキストコマンドを計算装置６０６に送信し得る。その後、計算装置６０６は、テキストコマンドを解析して、１つ又は複数の再生コマンドを特定し得る。

例えば、テキストコマンドが「「ゾーン１」の「ストリーミングサービス１」から「アーティスト１」による「トラック１」を再生」である場合、計算装置６０６は、（ｉ）「ストリーミングサービス１」から利用可能な「アーティスト１」による「トラック１」のＵＲＬ、及び（ｉｉ）「ゾーン１」の少なくとも１つの再生装置を特定し得る。この例において、「ストリーミングサービス１」からの「アーティスト１」による「トラック１」のＵＲＬは、計算装置６０８を指すＵＲＬであってよく、「ゾーン１」は、結合ゾーン６３０であってよい。そのため、ＵＲＬ及びＰＢＤ６３６及び６３８の一方又は両方を特定すると、計算装置６０６は、通信経路６４４を介して、ＰＢＤ６３６及び６３８の一方又は両方に対して、特定したＵＲＬを再生のために送信し得る。ＰＢＤ６３６及び６３８の一方又は両方は、これに反応して、受信したＵＲＬに従って計算装置６０８から音声コンテンツを取得し、「ストリーミングサービス１」から「アーティスト１」による「トラック１」の再生を開始し得る。

更に他の例において、計算装置６０４は、ユーザの関連コマンド又は意図を特定する何らかの処理を実行し、音声入力に関連するメディアコンテンツに関する情報を計算装置６０６へ提供し得る。例えば、計算装置６０４は、音声入力の音声テキスト化変換を実行し、音声入力を、コマンド又は意図（例えば、再生、一時停止、停止、音量アップ、音量ダウン、スキップ、次へ、グループ化、グループ化解除）について、どのようにコマンドを実行するかに関する他の情報と共に分析し得る。計算装置６０４又は計算装置６０６は、どのＰＢＤコマンドが計算装置６０４により決定されたコマンド又は意図に対応するかを決定し得る。音声入力及び／又はコマンドの実行に関連する他の情報から決定されたコマンド又は意図は、計算装置６０４から計算装置６０６に送信され得る。計算装置６０４での処理は、アプリケーション、モジュール、アドオンソフトウェア、ネイティブのネットワークマイクロホンシステムのソフトウェアプラットフォームとの統合、及び／又はネイティブのネットワークマイクロホンシステムのソフトウェアプラットフォームにより実行し得る。

上記が単なる説明のための例に過ぎず、他の実施も可能であることは当業者に理解されよう。一例では、複数の装置６００の１つ又は複数により実行される動作は、上述したように、複数の装置６００内の１つ又は複数の他の装置が実行してもよい。例えば、音声入力からテキストコマンドへの変換は、ＮＭＤ６１２、計算装置６０６、ＰＢＤ６３６、及び／又はＰＢＤ６３８等の他の装置又は装置群が、代わりに、部分的に、又は全てを実行してもよい。同様に、ＵＲＬの特定は、ＮＭＤ６１２、計算装置６０４、ＰＢＤ６３６、及び／又はＰＢＤ６３８等の別の装置又は装置群が、代わりに、部分的に、又は全てを実行してもよい。

ｆ．ネットワークマイクロホン装置の例
図７は、図７のＮＭＤ７１２、７１４、７１６の１つ又は複数として構成可能なネットワークマイクロホン装置７００の例の機能ブロック図を示す。図示したように、ネットワークマイクロホン装置７００は、プロセッサ７０２、メモリ７０４、マイクロホンアレイ７０６、ネットワークインタフェース７０８、ユーザインタフェース７１０、ソフトウェアコンポーネント７１２、及びスピーカ７１４を含む。他のネットワークマイクロホン装置の構成及び配置も可能であることは、当業者に理解されよう。例えば、ネットワークマイクロホン装置は、スピーカ７１４を含まなくてもよく、又はマイクロホンアレイ７０６の代わりに単一のマイクロホンを有してもよい。

プロセッサ７０２は、汎用又は専用プロセッサ又はコントローラの形態となり得る１つ又は複数のプロセッサ及び／又はコントローラを含み得る。例えば、プロセッサ７０２は、マイクロホンプロセッサ、マイクロホンコントローラ、特定用途向け集積回路、デジタル信号プロセッサ等を含み得る。メモリ７０４は、これらの機能を実行するためにプロセッサ７０２により実行可能な１つ又は複数のソフトウェアコンポーネントをロード可能なデータストレージであってよい。したがって、メモリ７０４は、１つ又は複数の非一時的コンピュータ読み取り可能媒体を含むことができ、その例には、可能なものとして特に、ランダムアクセスメモリ、レジスタ、キャッシュ等の揮発性記憶媒体と、読み取り専用メモリ、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリ、及び／又は光記憶装置等の不揮発性記憶媒体とが含まれ得る。

マイクロホンアレイ７０６は、ネットワークマイクロホン装置７００の環境内の音を検出するように配置された複数のマイクロホンであってよい。マイクロホンアレイ７０６は、可能なものとして特に、コンデンサマイクロホン、エレクトレットコンデンサマイクロホン、又はダイナミックマイクロホン等、現在公知の又は今後開発される任意の種類のマイクロホンを含み得る。一例において、マイクロホンアレイは、ネットワークマイクロホン装置に対する１つ又は複数の方向からの音声を検出するように配置され得る。マイクロホンアレイ７０６は、周波数範囲の一部に対して感度を有し得る。一例において、マイクロホンアレイ７０６の第１のサブセットは、第１の周波数範囲に対して感度を有し、マイクロホンアレイの第２のサブセットは第２の周波数範囲に対して感度を有し得る。マイクロホンアレイ７０６は、更に、音源（例えば、声、可聴音）の位置情報を取り込むように、及び／又は背景雑音のフィルタリングを支援するように、配置され得る。特に、一部の実施形態において、マイクロホンアレイは、複数のマイクロホンではなく、単一のマイクロホンのみで構成されてもよい。

ネットワークインタフェース７０８は、様々なネットワーク装置間の無線及び／又は有線通信を容易にするように構成可能である。様々なネットワーク装置は、図７に関連して、可能なものとして特に、ＣＲ７２２、ＰＢＤ７３２乃至７３８、クラウドネットワーク７０２内の計算装置７０４乃至７０８、及び他のネットワークマイクロホン装置等である。そのため、ネットワークインタフェース７０８は、これらの機能を達成するための任意の適切な形態にしてよく、その例には、イーサネットインタフェース、シリアルバスインタフェース（例えば、ＦｉｒｅＷｉｒｅ、ＵＳＢ２．０等）、無線通信を容易にするチップセット及びアンテナ、及び／又は有線及び／又は無線通信を提供する他の任意のインタフェースが含まれる。一例において、ネットワークインタフェース７０８は、業界標準（例えば、赤外線、無線、ＩＥＥＥ８０２．３を含む有線規格、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇ移動体通信規格を含む無線規格等）に基づく。

ネットワークマイクロホン装置７００のユーザインタフェース７１０は、ネットワークマイクロホン装置とのユーザのやりとりを容易にするように構成可能である。一例において、ユーザインタフェース７０８は、ユーザがネットワークマイクロホン装置７００に直接入力を行うために、可能なものとして特に、１つ又は複数の物理的なボタン、タッチセンサ式画面及び／又は表面上に設けられたグラフィカルインタフェースを含み得る。ユーザインタフェース７１０は、更に、視覚及び／又は音声フィードバックをユーザに提供する１つ又は複数のライト及びスピーカ７１４を含み得る。一例において、ネットワークマイクロホン装置７００は、更に、スピーカ７７１４を介して音声コンテンツを再生するように構成可能である。

ＩＩＩ．ウェイク応答を無効にする再生装置の技術の例
上述したように、本明細書に記載の実施形態は、ウェイク応答を無効にすることを含み得る。図８は、再生装置が１つ又は複数のＮＭＤのウェイク応答を無効にする実施８００の例を示す。

ａ．再生用の音声コンテンツを表すデータを受信
ブロック８０２において、実施８０２は、再生用の音声コンテンツを表すデータを受信することを含む。例えば、再生装置は、再生装置による再生用の音声コンテンツを受信し得る。再生装置の例には、図１に示した再生装置１０２、１０４、１０６、１０８、１１０、１１２、１１４、１１６、１１８、１２０、１１２、１２４の何れかが含まれ、例えば、図２の再生装置２００に示したように実施され得る。一部の実施において、再生装置は、処理システム（例えば、処理システム５００）を含み、オーディオ音声入力／出力コンポーネント（図５のオーディオ音声入力／出力コンポーネント５０２等）を用いて音声コンテンツを表すデータを受信し得る。

音声コンテンツの例には、多くの音声コンテンツの形態の中で特に、１つ又は複数の音声トラック、トークショー、映画、テレビ番組、ポッドキャスト、インターネットストリーミングビデオが含まれる。音声コンテンツは、映像を伴う音声コンテンツ（例えば、ビデオの音声トラック）又は映像を伴わない音声を含み得る。

再生装置は、例として特に、有線若しくは無線ネットワークインタフェース又はアナログ若しくはデジタルラインインインタフェースである入力インタフェースを介して音声コンテンツを受信し得る。例えば、再生装置は、可能なものとして特に、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）等の１種類以上のネットワーク経由で、ネットワークインタフェースを介してネットワークソースから音声コンテンツを受信し得る。

再生装置は、ローカル又はリモート音源から音声コンテンツを表すデータを受信し得る。例えば、再生装置は、ローカルメディアサーバ又はローカルエリアネットワーク上の他の装置から、媒体（ＣＤ、ＤＶＤ、Ｂｌｕ−Ｒａｙ（登録商標）、フラッシュメモリ、ハードドライブ等）から、又は再生装置自体のデータストレージから、音声コンテンツを受信し得る。媒体は、再生装置により、又は（例えば、ローカルエリアネットワーク経由でネットワークインタフェースを介して）再生装置と通信する他の装置により読み取られる。再生装置は、恐らくは１つ又は複数のクラウドサーバから、音声コンテンツストリームとして音声コンテンツを受信し得る。例えば、再生装置は、ＵＲＬからネットワークインタフェースを介して音声コンテンツストリームを取得し得る。又は、再生装置は、再生装置上又は（例えば、ネットワークインタフェースを介したローカルエリアネットワーク経由で）再生装置と通信する他の装置上のラインインインタフェースから、音声コンテンツを受信し得る。

場合により、再生装置は、恐らくはアナログラインインインタフェースを介して、アナログ形式で音声コンテンツを受信し得る。このような場合、再生装置は、（例えば、ソフトウェア又はハードウェアに基づくアナログ／デジタル変換器を用いて）アナログ音声を処理に適した形式にデジタル化する。又は、再生装置と通信する装置は、アナログ形式で音声コンテンツを受信し、音声コンテンツをデジタル化し、音声コンテンツを表すデータを再生装置に送信し得る。

上述したように、受信した音声コンテンツは、再生装置による再生用に設計されている。例えば、制御装置（図１の制御装置１２６又は１２８等）は、恐らくはそのコンテンツを再生装置の再生キューに入れることにより、特定の音声コンテンツを再生するように再生装置に指示し得る。音声トラック又はその他の音声コンテンツを、このようなキューに入れることにより、恐らくは制御装置又は再生装置自体における制御（例えば、再生／一時停止ボタン）を介して再生が開始された後、再生装置は、音声コンテンツを取得する。再生装置は、ローカル又はリモート音源から音声コンテンツを取得し得る。音声コンテンツの取得は、例として特に、ネットワークインタフェースを介して音声コンテンツストリームを再生装置へ送ることにより、又はアナログ若しくはデジタルラインインインタフェースを介して音声コンテンツを再生装置へ送ることにより行われる。

例の中で、再生装置は、受信した音声コンテンツの少なくとも一部をメモリに記憶し得る。例えば、再生装置は、受信した音声コンテンツを先入れ先出しバッファ（例えば、循環バッファ）にバッファリングし得る。このような実施において、受信した音声の一部は、受信時にバッファに記憶され、受信した音声コンテンツにウェイクワードが含まれるかを再生装置が判断できるように処理されると削除される。

ｂ．音声コンテンツにおいて１つ又は複数のウェイクワードを検出
図８を再び参照すると、ブロック８０４において、実施８００は、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて１つ又は複数のウェイクワードを検出することを含む。例えば、再生装置は、音声コンテンツを表す受信データを分析して、何れかの音声サービス用のウェイクワードが、音声コンテンツの再生時に聞き取り可能に再生されるように音声コンテンツ内で表されているかを判断し得る。上述したように、一部の実施において、再生装置は、処理システム（例えば、処理システム５００）を含み、ウェイクワード検出コンポーネント（図５のウェイクワード検出コンポーネント５０４等）を用いて音声コンテンツ内のウェイクワードを検出し得る。

再生装置は、１つ又は複数のウェイクワード検出アルゴリズムを用いて、受信した音声コンテンツを分析し得る。ウェイクワード検出アルゴリズムの例は、音声記録を入力として受け取り、その記録にウェイクワードが存在するかを示すインジケーションを出力として提供する。多くのファーストパーティ及びサードパーティのウェイクワード検出アルゴリズムが公知であり、市販されている。例えば、音声サービスの運営者は、そのアルゴリズムのサードパーティの装置での使用を可能にし得る。又は、特定のウェイクワードを検出するようにアルゴリズムをトレーニングし得る。

一部の実施において、再生装置は、マイクロホンを介して記録された音声内のウェイクワードを検出するためにＮＭＤが利用するものと同じ又は類似するアルゴリズムを、音声コンテンツを表す受信データに対して使用し得る。このようにして、再生装置は、音声コンテンツがＮＭＤの可聴範囲で再生されたかをＮＭＤが検出するものと同じ又は類似するウェイクワードを、音声コンテンツにおいて検出し得る。しかしながら、ＮＭＤは、通常、変化する環境条件（例えば、場合により騒音の多い住居）において幅広い人間の声で話されたマイクロホン録音音声に対してウェイクワード検出アルゴリズムを実行することを考えると、このような変化の可能性がない受信音声コンテンツに対してウェイクワードアルゴリズムを動作させることは、ウェイクワードの検出において更に効果的となり得る。

分析中、再生装置は、受信した音声コンテンツ内で各ウェイクワードが発生する場所を判断し得る。ウェイクワードを含むと判断された音声コンテンツの部分を特定した後、再生装置は、１つ又は複数のタイムスタンプ（例えば、ウェイクワードの開始時間を示すタイムスタンプ、及び恐らくはウェイクワードの停止時間を示す別のタイムスタンプ）を使用して、これらの音声コンテンツの部分を記録し得る。最終的に、これらのタイムスタンプを使用して、各タイムスタンプに対応するウェイクワードに対する１つ又は複数のＮＭＤのウェイク応答を無効にし得る。

一例において、再生装置は、受信した音声コンテンツを既知の長さのセグメントに分割し得る。次に、再生装置は、ウェイクワードが検出されたセグメントを特定することにより、ウェイクワードを含む音声コンテンツの部分、即ちセグメント、を特定する。例えば、各セグメントの長さが３秒であり、ウェイクワードが第４のセグメントで検出された場合、ウェイクワードは、記録の９乃至１２秒の間に位置することになる。一部の例において、再生装置は、ウェイクワードが分割され、認識不能な部分（例えば、「Ｈｅｙ」を表すセクションと、「Ｓｉｒｉ」を表す別のセグメント）となることを避けるために、音声記録を重複するセグメントに分離してもよい。音声記録内のウェイクワードの位置を決定する他の技術を利用することもできる。

一部の例において、再生装置は、受信した音声コンテンツに対して複数のウェイクワード検出アルゴリズムを同時に（又は実質的に同時に）実行する。上述したように、様々な音声サービス（例えば、ＡＭＡＺＯＮのＡＬＥＸＡ、ＡＰＰＬＥのＳＩＲＩ、又はＭＩＣＲＯＳＯＦＴのＣＯＲＴＡＮＡ）では、それぞれの音声サービスの呼び出しに異なるウェイクワードを使用している。更に、一部の音声サービスでは、ユーザが好きなウェイクワードを選択すること、又はカスタムウェイクワードを設定することができる。複数のサービス（及び／又は異なるウェイクワード）をサポートするために、再生装置は、受信した音声コンテンツに対して、サポートしている各音声サービス用のウェイクワード検出アルゴリズムを並行して実行し得る。例えば、再生装置は、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第１の音声サービス用の少なくとも１つの第１のウェイクワードを検出するために第１の音声サービス用の第１の音声検出アルゴリズムを適用し、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第２の音声サービス用の少なくとも１つの第２のウェイクワードを検出するために第２の音声サービス用の第２の音声検出アルゴリズムを適用し得る。再生装置は、場合によってはそれぞれの音声サービスのために、追加の音声検出アルゴリズムを音声コンテンツに適用してもよい。

ｃ．音声コンテンツの再生中、１つ又は複数のＮＭＤにおいて検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効化
図８では、ブロック８０６において、実施８００は、音声コンテンツの再生中、１つ又は複数のネットワークマイクロホン装置において検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることを含む。例えば、再生装置は、音声コンテンツの再生中、再生装置の可聴範囲内にあるＮＭＤにおいて、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。上述したように、再生装置は、通知コンポーネント（例えば、図５の通知コンポーネント５０６）を含む処理システム５００を実施し、通知コンポーネントを用いて、１つ又は複数のＮＭＤにおいて、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。

上述したように、ＮＭＤのウェイク応答とは、ウェイクワードの検出に対するプログラムされた応答を指す。ウェイク応答が有効な場合、ウェイクワードの検出に応じて、ＮＭＤのウェイク応答により、ＮＭＤは、マイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取る。ＮＭＤは、音声サービスを呼び出して音声コマンドを実行する。しかしながら、ウェイク応答が無効である場合、ＮＭＤは、音声コマンドを聞き取らなくてもよく、音声コマンドを実行するために音声サービスを呼び出さない。

一部の実施において、再生装置自体がＮＭＤを含む（例えば、ＮＭＤ７００が再生装置内で実施される）。このような実施では、再生装置が音声コンテンツを再生している間、再生装置は、検出された１つ又は複数のウェイクワードに対する、自装置のＮＭＤのウェイク応答を無効にする。例えば、再生装置において実施された処理システム５００のインスタンスは、１つ又は複数のウェイクワード及びそれらに対応する再生時間をＮＭＤに通知して、検出された１つ又は複数のウェイクワードに対するＮＭＤのウェイク応答をＮＭＤにおいて無効にする。例えば、処理システムは、例として特に、ウェイク応答を無効にするためにＲＡＭ内のフラグを変更することにより、又は内部通信バスを使用してＮＭＤにメッセージを送ることにより、ＮＭＤに通知し得る。その後、音声コンテンツの再生中、再生装置のＮＭＤは、マイクロホンを介して、再生装置により再生されている音声コンテンツを記録し、記録済み音声コンテンツ内の１つ又は複数のウェイクワードに対するＮＭＤのそれぞれのウェイク応答を無効にする。

実施の例の中で、再生装置は、住居内の全てのネットワークマイクロホン装置において、それぞれのウェイク応答を無効にさせ得る。例えば、図１に示した再生装置１０４は、１つ又は複数のウェイクワードを含む音声コンテンツを再生装置１０４が再生する時に、ＮＭＤ１３２及び１３４において、それぞれのウェイク応答を無効にさせ得る。更に、再生装置１０２又は１０６乃至１２４の何れかがＮＭＤを実施する場合、再生装置１０４は、再生装置１０４が１つ又は複数のウェイクワードを含む音声コンテンツを再生する時に、これらの再生装置において、それぞれのウェイク応答を無効にさせ得る。更に、再生装置１０４自体がＮＭＤを実施する場合、又は制御装置１２６又は１２８がＮＭＤを実施する場合、再生装置１０４は、再生装置１０４が音声コンテンツを再生する時に、これらの装置において、それぞれのウェイク応答を無効にさせ得る。

又は、再生装置は、住居内のＮＭＤのサブセットにおいて、それぞれのウェイク応答を無効にさせ得る。例えば、再生装置は、再生装置の可聴範囲内のＮＭＤにおいて、それぞれのウェイク応答を無効にさせ得る。又は、再生装置は、再生装置に関連付けられたＮＭＤにおいて、それぞれのウェイク応答を無効にさせ得る。

可聴範囲は、任意の適切な技術を用いて判断し得る。一部の実施において、可聴範囲は、再生装置の再生構成に基づいて確立される。例えば、再生装置が１つ又は複数の再生装置との同期再生構成にある場合、これらの再生装置は、当該再生装置の可聴範囲にあると考えられる。したがって、これらの再生装置の何れかがＮＭＤを実施している場合、これらの再生装置のそれぞれのウェイク応答は、無効化される。再生装置は、住居内の再生装置間で同期される１つ又は複数の状態変数に記憶され得る再生装置の構成を参照することにより、このようなＮＭＤが再生装置の可聴範囲内にあることを判断し得る。

他の例において、可聴範囲は、設定手順（例えば、較正手順）中に確立される。このような設定手順中に、住居内のＮＭＤに対して、住居内の再生装置により再生される音声信号（例えば、トーン音）を聞き取るように指示することができる。ＮＭＤがマイクロホンを介して音声信号を検出できる場合、そのＮＭＤは、可聴範囲内にあると考えられる。住居内の再生装置は、異なる音声で音声信号の再生を繰り返すように指示されて、任意の音声レベルで各再生装置の可聴範囲内にあるＮＭＤの組を決定してもよい。較正手順の例には、住居内のＮＭＤによる検出対象となる音声信号の役割も果たし得る較正音の出力が含まれ得る。

例示として、設定手順の例の間、図１の制御装置１２６は、主寝室ゾーン内の再生装置に、音声信号を出力するように指示し得る（即ち、再生装置１２２及び１２４）。殆どの音量レベルでは、この出力は、ＮＭＤ１３４により検出される。しかしながら、音量レベルが上がると、他のＮＭＤも出力を検出し始める。例えば、再生装置１１８及び制御装置１２８は、それぞれＮＭＤを実施し、比較的高い音量レベルで音声信号出力を検出し得る。そのため、設定手順の例により、ＮＭＤ１３４は、特定の音量範囲（例えば、５％乃至１００％）において、再生装置１２２及び１２４の可聴範囲内にあるものとして確立され、再生装置１１８及び制御装置１２８は、特定の更に高い音量範囲（例えば、音量レベル８０％超）において、再生装置１２２及び１２４の可聴範囲内にあるものと見做される。この手順は、住居内の他の再生装置及びＮＭＤに対して繰り返すことができる。

他の例において、ＮＭＤは、既知の物理的近接度に基づいて１つ又は複数の再生装置とペアリングし得る。例えば、図１を再び参照すると、ＮＭＤ１３４は、主寝室ゾーンのＮＭＤとして再生装置１２２及び／又は１２４とペアリングし得る。このようなペアリングは、制御装置１２６又は１２８等の制御装置上のユーザインタフェースを介して構成可能である。他の例として、ＮＭＤ１３２は、ＮＭＤ１３２がキッチンゾーンとペアリングされ、キッチンゾーンがダイニングルーム及び／又はリビングルームゾーンと物理的に近接していることが既知であるという理由から、又はキッチンゾーンがダイニングルーム又はリビングルームゾーンと共にゾーングループを形成しているという理由から、再生装置１０４、１０６、１０８、１１０、１１２、及び／又は１１４とペアリングされてもよい。ＮＭＤが１つ又は複数の再生装置とペアリングされている場合、ＮＭＤは、これらの再生装置の可聴範囲内にあると考えてもよい。

メディア再生システムの再生装置近傍にあるＮＭＤの存在を判断する他の例は、２０１６年４月１４日提出の特許出願第１５／０９８，８６７号「デフォルト再生装置の指定」、２０１６年４月１４日提出の特許出願第１５／０９８，８９２号「デフォルト再生装置」、特許出願第１５／２３７，１３３号「音声応答の再生」、及び２０１６年８月５日提出の特許出願第１５／２２９，８５５号「オーディオ再生装置に対するネットワークマイクロホン装置の方向の決定」において説明されている。これらの出願のそれぞれは、出典を明記することによりその開示内容全体を本願明細書の一部とする。

上記で示唆したように、場合により、再生装置は、恐らくはゾーングループ、ステレオペア、又はサラウンドサウンド構成において、１つ又は複数の追加の再生装置と同期して音声を再生するように構成される。このような構成では、当該再生装置又は１つ又は複数の追加の再生装置の何れかの可聴範囲内の任意のＮＭＤが、これらの同期した再生装置により再生された音声コンテンツ内のウェイクワードに応答して誤ってトリガされると、再生装置の可聴範囲が拡張される場合がある。そのため、再生装置が現在１つ又は複数の追加の再生装置と共に同期再生構成にある場合、再生装置は、可聴範囲内にあるか又はこれらの追加の再生装置と他の形で関連付けられているＮＭＤのそれぞれのウェイク応答を無効にし得る。

一部の実施において、再生装置は、受信した音声コンテンツの再生中に、ネットワークインタフェースを介して、１つ又は複数のＮＭＤに対して１つ又は複数それぞれのウェイク応答を無効にさせる命令を送信することにより、１つ又は複数のＮＭＤにおいて、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる。上述したように、メディア再生システムの様々な装置（例えば、制御装置、再生装置、及びＮＭＤ）は、ローカルエリアネットワークを介して（例えば、図１の有線又は無線ネットワークルータ１３０により形成されたローカルエリアネットワークを介して）相互接続され、住居内の装置間での命令及び他のメッセージのやりとりを許可してもよい。メディア再生システムのこれらの装置は、それぞれシステム内の他の装置からの特定の命令に応答するようにプログラムし得る。

一部の例において、このような命令は、ウェイクワードが再生装置により再生される際に、１つ又は複数のＮＭＤがウェイクワードを検出することを防止する。例えば、再生装置は、１つ又は複数の期間（即ち、恐らくはタイムスタンプにより記録された、ウェイクワードが再生装置により再生される時間に対応する期間）に亘り、ウェイクワードの聞き取りを停止する（例えば、記録された音声の処理を停止する）ように１つ又は複数のＮＭＤに指示し得る。又は、再生装置は、それぞれのマイクロホンを一時的に（例えば、上述した期間中）無効にするように１つ又は複数のＮＭＤに指示し得る。更に他の例として、再生装置は、ＮＭＤがウェイクワードを検出しないように、再生装置がマイクロホンアレイを使用する方向にリスニングＮＵＬＬを作成するように１つ又は複数のＮＭＤに指示し得る。他の例も可能である。例えば、再生装置がウェイクワードを含む音声コンテンツの部分を再生する直前に、再生装置は、ウェイクワードの検出を無効にするように１つ又は複数のＮＭＤに指示する第１のメッセージを送信し得る。その後、再生装置がウェイクワードを含む音声コンテンツの部分を再生した直後に、再生装置は、ウェイクワードの検出を有効にするように１つ又は複数のＮＭＤに指示する第２のメッセージを送信し得る。

例示として、図９は、再生装置が、１つ又は複数のＮＭＤにおいて、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせるために、１つ又は複数のＮＭＤに送信し得るメッセージ９００の例を示す。メッセージ９００は、ＩＥＥＥ８０２．３の仕様（イーサネットパケット及びフレームの構造を指定）等の仕様に準拠したものにし得る。図示したように、メッセージ９００は、ネットワーク上の装置（例えば、特にＮＭＤ、再生装置、及び／又は制御装置）が受信者クロックを同期させるのに用い得る反転ビットのパターンを含むプリアンブル９０２を含む。メッセージ９００は、更に、プリアンブルの終わり（イーサネットパケットの第１のフィールド）とメッセージのイーサネットフレーム部分の始まりとを示すフレームデリミタの開始（ＳＦＤ）９０４を含む。メッセージ９００は、更に、宛先（例えば、ＮＭＤ）及び送信元（例えば、再生装置）を示す宛先アドレス９０６及び送信元アドレス９０８を含む。メッセージ９００は、更に、ペイロード９１０を含む。ペイロード９１０は、ＮＭＤ（即ち、宛先アドレス９０６が示すＮＭＤ）に対して、１つ又は複数のウェイクワードに対するウェイク応答を無効にさせる命令を含む。メッセージ９００は、更に、受信したフレーム内の破損データの検出を可能にする巡回冗長検査値であるフレームチェックシーケンス（ＦＣＳ）９１２を含む。

命令は、２つ以上のイーサネットパケット（例えば、２つ以上のメッセージ９００）を用いて送信し得る。例えば、１つのＮＭＤへの命令は、メッセージ９００の２つ以上のインスタンスのペイロードにわたって分割し得る。更に、複数のＮＭＤへの命令は、それぞれメッセージ９００の１つ又は複数の各インスタンスにおいて送信され得る。他の例も可能である。

例として、図１０Ａ、１０Ｂ、１０Ｃ、１０Ｄは、１つ又は複数のメッセージのペイロード（例えば、メッセージ９００のペイロード９１０）においてＮＭＤに送信される、命令１０００Ａ、１０００Ｂ、１００Ｃ、１００Ｄの例を示す。図１０Ａに示したように、命令１０００Ａは、タイムスタンプ１００４Ａ、１００６Ａ、１００８Ａ、１０１０Ａにより定義される特定の期間中、ＮＭＤにウェイク応答を無効にさせるコマンド１００２Ａを含む。一部の例において、タイムスタンプ１００４Ａ及び１００６Ａは、再生装置が第１のウェイクワードを含む音声コンテンツの部分を再生する期間の開始及び終了をそれぞれ指定する。同様に、タイムスタンプ１００８Ａ及び１０１０Ａは、再生装置が第２のウェイクワードを含む音声コンテンツの部分を再生する期間の開始及び終了をそれぞれ指定し得る。命令１０００Ａは、追加の期間を定義するタイムスタンプを更に含み得る。又は、スタンプ１００４Ａ、１００６Ａ、１００８Ａ、１０１０Ａは、例として特に、音声の特定のフレームの再生時間、送信又は受信装置のシステムクロックに対応する時間、又は、ＮＭＤ及び再生装置の両方が知るグローバルクロックに対応する時間に対応し得る。

図１０Ｂは、座標１００４Ｂ及び１００６Ｂにより定義される特定の方向でＮＭＤにリスニングＮＵＬＬを作成させるコマンド１００２Ｂを含む命令１００Ｂを示す。座標１００４Ｂ及び１００６Ｂは、ＮＭＤに対するそれぞれの再生装置の方向を示す。例えば、図１を再度参照すると、命令１０００Ｂのインスタンスの例は、ＮＭＤ１３４に対する再生装置１２２及び１２４の方向を示す座標１００４Ｂ及び１００６Ｂを含み得る。この例では、座標１００４Ｂ及び１００６Ｂは、再生装置１２２がＮＭＤ１３４に対して０°（即ち、ＮＭＤ１３４の前）であり、再生装置１２２がＮＭＤ１３４に対して左４５°であることを、ＮＭＤ１３４に示し得る。住居内のそれぞれの装置の相対的な位置は、セットアップ又は構成手順により事前に確立することができる。

図１０Ｃ及び１０Ｄは、それぞれ命令１００Ｃ及び１００Ｄを示す。命令１０００Ｃは、受信するＮＭＤにウェイクワードの検出を無効にさせるコマンド１００２Ｃを含む。再生装置は、ウェイクワードを含む音声コンテンツの部分を再生する直前に、このような命令を送信し得る。命令１００Ｄは、受信するＮＭＤにウェイクワードの検出を有効にさせるコマンド１００２Ｄを含む。再生装置は、ウェイクワードを含む音声コンテンツの部分を再生した直後に、このような命令を送信し得る。

更に他の例において、１つ又は複数のＮＭＤは、ウェイクワードを検出し得るが、再生装置は、１つ又は複数のＮＭＤに、そのウェイク応答を抑制するように指示する。例えば、再生装置は、特定の期間中、ウェイクワードを無視するように、又は特定の期間中、全ての音声を無視するように、１つ又は複数のＮＭＤに指示し得る。他の例も可能である。

他の例として、再生装置は、音声コンテンツ（又は音声コンテンツの一部）内のウェイクワードの数をカウントし得る。例えば、再生装置は、音声コンテンツの例において３つのウェイクワードを検出する場合がある。上述したように、このようなインスタンスは、異なる音声サービスの異なるウェイクワードを含め、ウェイクワードの任意の組み合わせを含み得る。次に、再生装置は、カウントと等しい数のウェイクワードを検出するまでウェイクワードを無視するように（例えば、次の３つのウェイクワードを無視するように）、近傍の１つ又は複数のＮＭＤに指示し得る。

又は、再生装置は、音声コンテンツを動的に修正して音声コンテンツのセグメントに音響マーカを組み込むことにより、１つ又は複数のＮＭＤにおいて、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる。例えば、再生装置は、記録済み音声コンテンツに音声トーン又は他のマーカを挿入（例えば、ミックス）し、音声コンテンツ内で検出されるウェイクワードを指定し得る。次に、ウェイクワードに関連する音声マーカを検出した場合（ウェイクワードの直前又はウェイクワードと同時に）、ウェイクワードのインスタンスを無視するように、ＮＭＤに指示すること又はＮＭＤを事前にプログラムすることができる。このような技術を使用することで、再生装置の可聴範囲内にあるＮＭＤを事前に決定又は推定する必要がなくなる。寧ろ、音響マーカが音声コンテンツと共に再生されるため、音声コンテンツを検出する可聴範囲内にある（そのため、このコンテンツにより誤ってトリガされる恐れがある）ＮＭＤは、音響マーカを検出する範囲内にもあり、これに反応して、ウェイク応答を無効にする。複数のＮＭＤが再生装置の可聴範囲内にある場合、ウェイクワードを検出する各ＮＭＤは、関連する音響マーカを検出したことを受け、これに反応してウェイクワードに対するウェイク応答を無効にする。

ｄ．音声コンテンツを再生
図８では、ブロック８０８において、実施８００は、１つ又は複数のスピーカを介して音声コンテンツを再生することを含む。再生装置は、１つ又は複数のオーディオトランスデューサ（例えば、スピーカ）を介して音声コンテンツを再生する。一部の例において、スピーカは、同じハウジング内で再生装置と共に配置される。又は、再生装置は、スピーカジャックを介して、増幅された音声を１つ又は複数の別個のパッシブスピーカに提供し得る。他の例として、再生装置は、ラインレベルの音声をアンプに提供することにより音声コンテンツを再生してもよく、アンプは、その後、スピーカジャックを介して１つ又は複数のパッシブスピーカに増幅された音声を提供する。

上述したように、一部の例において、再生装置は、１つ又は複数の追加の再生装置との同期再生構成となるように構成される。このような場合、音声コンテンツを再生することは、１つ又は複数の追加の再生装置と同期して音声コンテンツを再生することを含む。一部の再生構成（例えば、ステレオペア又はサラウンド）において、再生構成内の各再生装置は、再生構成内の他の再生装置と同期して音声コンテンツの一部を再生する。

一部の実施において、再生装置は、再生のために１つ又は複数の追加の再生装置に音声コンテンツを提供して、その音声コンテンツの当該再生装置との同期再生を容易にする。このような実施形態において、再生装置は、再生装置及び１つ又は複数の追加の再生装置を含む同期グループのグループコーディネータとして動作し得る。グループコーディネータとして、再生装置は、タイミング情報を１つ又は複数の追加の再生装置に追加的に提供し、同期グループスケジューリング同期再生を容易にし得る。再生装置は、ネットワークインタフェースを介して音声コンテンツ及び／又はタイミング情報を提供する。

上述したように、場合により、再生装置は、音声コンテンツを修正して音響マーカを含める。このような実施形態では、再生装置が同期グループ内にある場合、再生装置は、修正された音声コンテンツを同期グループの他の再生装置に提供し得る。同期グループ内の各再生装置は、修正された音声コンテンツを、グループ内の他の再生装置と同期して再生し得る。

例示として、一例において、再生装置１１４及び１２２及び１２４は、音声コンテンツを同期して再生するように構成されたゾーングループ（即ち、キッチン＋主寝室ゾーングループ）内にある。ゾーングループによる再生に指定された音声コンテンツ内のウェイクワードを検出した後、再生装置１１４は、音声コンテンツ内のウェイクワードを指定する音響マーカを含めるように音声コンテンツを修正し得る。その後、再生装置１１４は、修正された音声コンテンツの同期再生を容易にするため、修正された音声コンテンツを再生装置１２２及び／又は１２４に提供し得る。

ＩＶ．ウェイク応答を無効にするＮＭＤの技術の例
上述したように、本明細書に記載の実施形態は、ウェイク応答を無効にすることを含み得る。図１１は、ＮＭＤが１つ又は複数の検出ウェイクワードに対するウェイク応答を無効にする実施１１００の例を示す。

ａ．再生用の音声コンテンツを表すデータを受信
ブロック１１０２において、実施１１００は、記録済み音声コンテンツを表すデータを受信することを含む。例えば、ＮＭＤは、再生装置により再生するための音声コンテンツを受信し得る。ＮＭＤの例には、図１に示したＮＭＤ１３２及び１３４の何れかが含まれ、例えば、図７のＮＭＤ７００として実施される。再生装置の例には、図１に示した再生装置１０２、１０４、１０６、１０８、１１０、１１２、１１４、１１６、１１８、１２０、１１２、１２４の何れかが含まれ、例えば、図２の再生装置２００により表したように実施し得る。ＮＭＤの他の例には、これらの再生装置及び／又は制御装置１２６及び１２８の何れかを含めてよく、これらの装置は、再生又は制御装置としての機能に加えてＮＭＤを実施し得る。ＮＭＤは、処理システム（例えば、処理システム５００）を含み、オーディオ音声入力／出力コンポーネント（図５のオーディオ音声入力／出力コンポーネント５０２等）を使用して音声コンテンツを表すデータを受信し得る。

ＮＭＤは、例として特に有線若しくは無線ネットワークインタフェース又はアナログ若しくはデジタルラインインインタフェースである入力インタフェースを介して、音声コンテンツを受信し得る。例えば、ＮＭＤは、可能なものとして特に、ＷＡＮ、ＬＡＮ、ＰＡＮ等の１種類以上のネットワーク経由で、ネットワークインタフェースを介してネットワークソースから音声コンテンツを受信し得る。

ＮＭＤは、ローカル又はリモート音源から音声コンテンツを表すデータを受信し得る。例えば、ＮＭＤは、ローカルメディアサーバ又はローカルエリアネットワーク上の他の装置から、媒体（ＣＤ、ＤＶＤ、Ｂｌｕ−Ｒａｙ、フラッシュメモリ、ハードドライブ等）から、又はＮＭＤ自体のデータストレージから、音声コンテンツを受信し得る。媒体は、ＮＭＤにより、又はＮＭＤと通信する他の装置（例えば、ローカルエリアネットワーク経由でネットワークインタフェースを介してＮＭＤに接続された再生装置）により読み取られる。

ＮＭＤは、恐らくは１つ又は複数のクラウドサーバから、音声コンテンツストリームとして音声コンテンツを受信し得る。例えば、ＮＭＤは、ＵＲＬからネットワークインタフェースを介して音声コンテンツストリームを取得し得る。又は、ＮＭＤは、ＮＭＤ上又はＮＭＤと通信する他の装置（例えば、ローカルエリアネットワーク経由でネットワークインタフェースを介してＮＭＤに接続された再生装置）上のラインインインタフェースから、音声コンテンツを受信し得る。

場合により、ＮＭＤは、恐らくはアナログラインインインタフェースを介して、アナログ形式で音声コンテンツを受信し得る。このような場合、ＮＭＤは、（例えば、ソフトウェア又はハードウェアに基づくアナログ／デジタル変換器を用いて）アナログ音声を処理に適した形式にデジタル化する。又は、ＮＭＤと通信する装置（例えば、再生装置）は、アナログ形式で音声コンテンツを受信し、音声コンテンツをデジタル化し、音声コンテンツを表すデータを再生装置に送信し得る。

上述したように、受信した音声コンテンツは、再生装置による再生用に設計されている。例えば、制御装置（図１の制御装置１２６又は１２８等）は、恐らくはそのコンテンツを再生装置の再生キューに入れることにより、特定の音声コンテンツを再生するように再生装置に指示し得る。音声トラック又はその他の音声コンテンツを、このようなキューに入れることにより、恐らくは制御装置又は再生装置自体における制御（例えば、再生／一時停止ボタン）を介して再生が開始された後、再生装置は、音声コンテンツを取得する。ＮＭＤは、このキューにアクセスし得る（例えば、キューの内容は、ＬＡＮ又は他のネットワークを介してＮＭＤと共有し得る）。このようなアクセスがあれば、ＮＭＤは、ローカル又はリモート音源から音声コンテンツを取得し得る。音声コンテンツの取得は、例として特に、ネットワークインタフェースを介して音声コンテンツストリームをＮＭＤへ送ることにより、又はアナログ若しくはデジタルラインインインタフェースを介して音声コンテンツを再生装置へ送ることにより行われる。

場合により、受信した音声コンテンツは、２つ以上の再生装置による再生用に設計されている。例えば、２つ以上の再生装置は、同期グループ（ゾーングループ、ステレオペア、又はサラウンドサウンド構成等）となるように構成可能である。特定の音声コンテンツは、この同期グループによる再生用に指定し得る。

例において、処理システム５００は、受信した音声コンテンツの少なくとも一部をメモリに記憶し得る。例えば、処理システム５００は、受信した音声コンテンツを先入れ先出しバッファ（例えば、循環バッファ）にバッファリングし得る。このような実施において、受信した音声の一部は、受信時にバッファに記憶され、受信した音声コンテンツにウェイクワードが含まれるかを再生装置が判断できるように処理されると削除される。

ｂ．音声コンテンツにおいて１つ又は複数のウェイクワードを検出
図１１では、ブロック１１０４において、実施１１００は、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて１つ又は複数のウェイクワードを検出することを含む。例えば、ＮＭＤは、音声コンテンツを表す受信データを分析して、何れかの音声サービス用のウェイクワードが、音声コンテンツの再生時に聞き取り可能に再生されるように音声コンテンツ内で表されているかを判断し得る。上述したように、一部の実施において、ＮＭＤは、処理システム（例えば、処理システム５００）を含み、ウェイクワード検出コンポーネント（図５のウェイクワード検出コンポーネント５０４等）を用いて音声コンテンツ内のウェイクワードを検出され得る。

ＮＭＤは、１つ又は複数のウェイクワード検出アルゴリズムを用いて、受信した音声コンテンツを分析し得る。ウェイクワード検出アルゴリズムの例は、音声記録を入力として受け取り、その記録にウェイクワードが存在するかを示すインジケーションを出力として提供する。多くのファーストパーティ及びサードパーティのウェイクワード検出アルゴリズムが公知であり、市販されている。例えば、音声サービスの運営者は、そのアルゴリズムのサードパーティの装置での使用を可能にし得る。又は、アルゴリズムは、特定のウェイクワードを検出するようにトレーニングされてもよい。

通常の動作において、ＮＭＤは、住居又は他の環境でマイクロホンを介して音（例えば、人間の声）を聞き取り、その音の音声記録にウェイクワード検出アルゴリズムを実行して、音にウェイクワードが含まれていたかを検出する。この処理において、ＮＭＤは、人間の声で話されたウェイクワードを検出するためにＮＭＤにより使用されるものと同じ又は類似のアルゴリズムを使用し得る。但し、アルゴリズムへの入力は、マイクロホンを介して記録された音声ではなく、再生装置による再生用の音声コンテンツとなる。このようにして、ＮＭＤは、音声コンテンツがＮＭＤの可聴範囲内で再生されたかを検出する際と同じ又は類似するウェイクワードを、音声コンテンツにおいて検出し得る。しかしながら、ＮＭＤは、通常、変化する環境条件（例えば、場合により騒音の多い住居）において幅広い人間の声で話されたマイクロホン録音音声に対してウェイクワード検出アルゴリズムを実行することを考えると、このような変化の可能性がない受信音声コンテンツに対してウェイクワードアルゴリズムを動作させることは、ウェイクワードの検出において更に効果的となり得る。

分析中、ＮＭＤは、受信した音声コンテンツ内で各ウェイクワードが発生する場所を判断し得る。ウェイクワードを含むと判断された音声コンテンツの部分を特定した後、ＮＭＤは、１つ又は複数のタイムスタンプ（例えば、ウェイクワードの開始時間を示すタイムスタンプ、及び恐らくはウェイクワードの停止時間を示す別のタイムスタンプ）を使用して、これらの音声コンテンツの部分を記録し得る。最終的に、これらのタイムスタンプを使用して、各タイムスタンプに対応するウェイクワードに対するＮＭＤのウェイク応答を無効にし得る。

一例において、ＮＭＤは、受信した音声コンテンツを既知の長さのセグメントに分割し得る。次に、ＮＭＤは、ウェイクワードが検出されたセグメントを特定することにより、ウェイクワードを含む音声コンテンツの部分、即ちセグメント、を特定する。例えば、各セグメントの長さが４秒であり、ウェイクワードが第６のセグメントで検出された場合、ウェイクワードは、記録の２０乃至２４秒の間に位置することになる。一部の例において、ＮＭＤは、ウェイクワードが分割され、認識不能な部分（例えば、「Ｈｅｙ」を表すセクションと、「Ａｅｌｘａ」を表す別のセグメント）となることを避けるために、音声記録を重複するセグメントに分離してもよい。音声記録内のウェイクワードの位置を決定する他の技術を利用することもできる。

一部の例において、ＮＭＤは、受信した音声コンテンツに対して複数のウェイクワード検出アルゴリズムを同時に実行する。上述したように、様々な音声サービス（例えば、ＡＭＡＺＯＮのＡＬＥＸＡ、ＡＰＰＬＥのＳＩＲＩ、又はＭＩＣＲＯＳＯＦＴのＣＯＲＴＡＮＡ）では、それぞれの音声サービスの呼び出しに異なるウェイクワードを使用している。更に、各音声サービスは、複数のウェイクワード及び／又はカスタムウェイクワードをサポートし得る。複数の音声サービスをサポートするために、ＮＭＤは、音声コンテンツ内で表される可能性のある異なるウェイクワードを検出するように、受信した音声コンテンツに対して、サポートしている各音声サービス用のウェイクワード検出アルゴリズムを並行して実行し得る。例えば、ＮＭＤは、第１の音声サービス用の少なくとも１つの第１のウェイクワードを検出するために第１の音声サービス用の第１の音声検出アルゴリズムを適用し、第２の音声サービス用の少なくとも１つの第２のウェイクワードを検出するために第２の音声サービス用の第２の音声検出アルゴリズムを適用し得る。音声コンテンツが再生装置により再生される前に、ＮＭＤは、恐らくはそれぞれの音声サービスのために、追加の音声検出アルゴリズムを音声コンテンツに適用してもよい。

ｃ．音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するウェイク応答を無効化
図１１では、ブロック１１０６において、実施１１００は、音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するウェイク応答を無効にすることを含む。例えば、ＮＭＤは、音声コンテンツが再生装置により聞き取り可能に再生される時に、音声コンテンツにおいて検出された１つ又は複数のウェイクワードに対するウェイク応答を無効にし得る。

一部の実施において、ＮＭＤは、ウェイクワードが再生装置により再生される際にＮＭＤがウェイクワードを検出しないようにすることで、ウェイク応答を無効にする。例えば、ＮＭＤは、１つ又は複数の期間（即ち、恐らくはタイムスタンプにより記録された、ウェイクワードが再生装置により再生される時間に対応する期間）に亘り、ウェイクワードの聞き取りを停止し得る（例えば、記録された音声の処理を停止する）。又は、ＮＭＤは、マイクロホンを一時的に（例えば、上述した期間中）無効にする。更に他の例として、ＮＭＤは、ＮＭＤがウェイクワードを検出しないように、再生装置がマイクロホンアレイを使用する方向にリスニングＮＵＬＬを作成し得る。他の例も可能である。

更に他の例では、ＮＭＤは、ウェイクワードが再生装置により再生される際にウェイクワードを検出するが、検出されたウェイクワードに対するウェイク応答を抑制する。例えば、ＮＭＤは、特定の期間中、ウェイクワードを無視してよく、又は特定の期間中、全ての音声を無視してもよい。他の例も可能である。

他の例として、ＮＭＤは、音声コンテンツ（又は音声コンテンツの一部）内のウェイクワードの数をカウントし得る。例えば、ＮＭＤは、音声コンテンツの例において３つのウェイクワードを検出する場合がある。上述したように、このようなインスタンスは、異なる音声サービスの異なるウェイクワードを含め、ウェイクワードの任意の組み合わせを含み得る。次に、ＮＭＤは、カウントと等しい数のウェイクワードを検出するまで（例えば、次の３つのウェイクワードを無視することで）、ウェイク応答を無効にし得る。

又は、ＮＭＤは、音声コンテンツを動的に修正して音声コンテンツのセグメントに音響マーカを組み込むことにより、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にし得る。例えば、ＮＭＤは、記録済み音声コンテンツに音声トーン又は他のマーカを挿入（例えば、ミックス）し、音声コンテンツ内で検出されるウェイクワードを指定し得る。このような音声マーカの検出に応じて、ウェイク応答を無効にするようにＮＭＤがプログラムされている場合、その後、ＮＭＤは、再生装置により再生される音声コンテンツ内のウェイクワードを検出した際に、ウェイク応答を自動的に抑制する。

一部の例において、ＮＭＤは、１つ又は複数の追加のマイクロホン装置において、ウェイクワードが再生装置により再生された時に、検出されたウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。例えば、図１を参照すると、ＮＭＤ１３２は、ＮＭＤ１３４において、そのウェイク応答を無効にさせ得る。更に、住居内の再生装置及び／又は制御装置の何れかがＮＭＤを実施してもよく、ＮＭＤ１３２は、これらの再生装置の何れかのウェイク応答を無効にしてもよい。

ＮＭＤは、住居内の特定のＮＭＤの組を無効にし得る。場合により、ウェイク応答が無効にされたＮＭＤの組は、メディア再生システムのゾーン又はゾーングループの構成に基づくものとなる。例えば、ＮＭＤが特定のゾーンに関連付けられている場合（例えば、ＮＭＤ１３２がキッチンゾーンに関連付けられている場合）、ＮＭＤは、同じゾーンに関連付けられている任意のＮＭＤのそれぞれのウェイク応答を無効にさせ得る。これらのＮＭＤは、ＮＭＤを実施する様々な装置（例えば、再生装置）と、専用のＮＭＤとを含むことができる。更に、ＮＭＤが関連付けられた特定のゾーンに、ゾーングループ内の１つ又は複数の追加ゾーンが加わった場合、ＮＭＤは、更に１つ又は複数の追加ゾーンに関連付けられている任意のＮＭＤのそれぞれのウェイク応答を無効にさせ得る。上記のように、ＮＭＤとメディア再生システムのゾーンとの間に関連性が形成され、恐らくは住居の特定の部屋（例えば、キッチンゾーン）での協働を容易にし得る。

又は、ウェイク応答が無効になっている特定の追加ＮＭＤは、ウェイクワードを含む音声コンテンツを再生している再生装置の可聴範囲に基づくものとなる。可聴範囲は、任意の適切な技術を用いて判断し得る。一部の実施では、可聴範囲は、上記のように、ＮＭＤと１つ又は複数のゾーンとの関連性に基づいて確立される。他の例において、可聴範囲は、第ＩＩＩ節で説明したように、設定手順（例えば、較正手順）中に確立される。ゾーン構成及び／又は設定手順により確立された可聴範囲は、１つ又は複数の状態変数として記憶し、ネットワーク（例えば、図１に示した住居内のルータ１３０により確立されたＬＡＮ）内の装置間で共有することができる。このような情報へのアクセスを有することにより、ＮＭＤは、音声コンテンツを再生する再生装置の可聴範囲内にあるＮＭＤの組を決定し、これらのＮＭＤの組のそれぞれのウェイク応答を無効にすることができる。

例示として、一例において、図１のＮＭＤ１３２は、キッチンゾーン内の再生装置１１４による再生用に設計された特定の音声コンテンツ内で１つ又は複数のウェイクワードを検出する。これに応じて、ＮＭＤ１３２は、これらのウェイクワードに対するウェイク応答を無効にする。再生装置１１４もＮＭＤであるため、ＮＭＤ１３２は、再生装置１１４のウェイク応答を無効にする。更に、キッチンゾーンは、ダイニングルームゾーンと共にゾーングループ内にあるため、ＮＭＤ１３２は、同じくＮＭＤである再生装置１１２のウェイク応答も無効にし、これにより、音声コンテンツがキッチンゾーンと同期してダイニングルームゾーンで再生された際に、再生装置１１２のＮＭＤは、誤ってトリガされなくなる。

他の例において、図１のＮＭＤ１３４は、主寝室ゾーン内の再生装置１２２及び１２４による再生用に設計された特定の音声コンテンツ内の１つ又は複数のウェイクワードを検出する。これに応じて、ＮＭＤ１３４は、これらのウェイクワードに対するウェイク応答を無効にする。再生装置１１６は、ＮＭＤを実施しており、現在の音量レベルで再生装置１２２及び１２４の可聴範囲内にあることが事前に確定しているため、ＮＭＤ１３４は、再生装置１１６のウェイク応答も無効にする。ＮＭＤ１３４は、ルータ１３０により形成されたＬＡＮを介してＮＭＤ１３４と共有される１つ又は複数の状態変数から、現在の音量レベルで再生装置１１６が再生装置１２２及び１２４の可聴範囲内にあることを認識している。このような状態変数は、再生装置１２２及び１２４の現在の再生構成（例えば、ステレオペア）、その現在の音量レベル、及びこの再生構成及びこの音量レベルにおいて、どのＮＭＤが、これらの再生装置の可聴範囲内にあると判断されているか等、メディア再生システム１００の様々な側面の状況をＮＭＤ１３４に対して示す。

ＮＭＤは、１つ又は複数の追加のＮＭＤにおいて、任意の適切な技術を用いて、それぞれのウェイク応答を無効にさせ得る。ＮＭＤは、通知コンポーネント（例えば、図５の通知コンポーネント５０６）を含む処理システム５００を実施し、通知コンポーネントを用いて、１つ又は複数のＮＭＤの組において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。

一部の実施において、ＮＭＤは、受信した音声コンテンツの再生中に、ネットワークインタフェースを介して、１つ又は複数のＮＭＤに対して１つ又は複数それぞれのウェイク応答を無効にさせる命令を送信することにより、１つ又は複数の追加のＮＭＤにおいて、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる。上述したように、メディア再生システムの様々な装置（例えば、制御装置、再生装置、及びＮＭＤ）は、ローカルエリアネットワークを介して（例えば、図１の有線又は無線ネットワークルータ１３０により形成されたローカルエリアネットワークを介して）相互接続して、住居内の装置間での命令及び他のメッセージのやりとりを許可し得る。メディア再生システムのこれらの装置は、それぞれシステム内の他の装置からの特定の命令に応答するようにプログラムされ得る。メッセージ及び命令の例は、図９、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄに関連して上述している。

又は、ＮＭＤは、音声コンテンツを修正して音声コンテンツのセグメントに音響マーカを組み込むことにより、１つ又は複数のＮＭＤにおいて、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる。このような技術を使用することで、再生装置の可聴範囲内にあるＮＭＤを事前に決定又は推定する必要がなくなる。寧ろ、音響マーカが音声コンテンツと共に再生されるため、音声コンテンツを検出する可聴範囲内にある（そのため、このコンテンツにより誤ってトリガされる恐れがある）ＮＭＤは、音響マーカを検出する範囲内にもあり、これに反応して、ウェイク応答を無効にする。複数のＮＭＤがＮＭＤの可聴範囲内にある場合、ウェイクワードを検出する各ＮＭＤは、関連する音響マーカを検出したことを受け、これに反応してウェイクワードに対するウェイク応答を無効にする。

ＮＭＤが音声コンテンツを修正するような一部の実施において、ＮＭＤは、再生装置に音声コンテンツを提供する。このような場合、ＮＭＤは、音声コンテンツのソースと再生装置との間の媒介として動作する。再生装置は、受信した音声コンテンツを再生するように構成可能であるため、音声コンテンツを再生装置に送信することにより、再生装置は、音声コンテンツを再生し得る。ＮＭＤは、ネットワークインタフェース等の任意の適切な通信インタフェースを介して、音声コンテンツを再生装置に提供し得る。複数の再生装置が音声コンテンツを再生するように構成されている場合、ＮＭＤは、全ての再生装置に音声コンテンツを提供してもよい。又は、ＮＭＤは、音声コンテンツを再生装置のサブセット（例えば、グループコーディネータ）に送信してよく、再生装置のサブセットは、その後、音声コンテンツをグループ内の他の再生装置に、恐らくは同期再生をスケジュールするタイミング情報と共に配信する。

例示として、一例において、再生装置１１２及び１２４は、音声コンテンツを同期して再生するように構成されたゾーングループ（即ち、キッチン＋ダイニングルームゾーングループ）内にある。ゾーングループによる再生に指定された音声コンテンツ内のウェイクワードを検出した後、ＮＭＤ１３２は、音声コンテンツ内のウェイクワードを指定する音響マーカを含めるように音声コンテンツを修正し得る。その後、再生装置１３２は、修正された音声コンテンツの同期再生を容易にするため、修正された音声コンテンツを再生装置１２２及び／又は１２４に提供し得る。

ｄ．再生された音声コンテンツを検出
ブロック１１０８において、実施１１００は、マイクロホンを介して、再生された音声コンテンツを検出することを含む。例えば、再生装置が１つ又は複数の検出されたウェイクワードを含む音声コンテンツを再生している間に、ＮＭＤは、マイクロホンを介して、再生された音声コンテンツを検出し得る。ＮＭＤのウェイク応答が有効になっている構成において、ウェイクワードを含む再生音声コンテンツの部分を検出することで、ＮＭＤのウェイク応答がトリガされる。しかしながら、ＮＭＤは音声コンテンツ内の１つ又は複数のウェイクワードに対するウェイク応答を無効にしているため、ウェイク応答は、トリガされない。

一部の実施において、再生装置は、ＮＭＤを実施する。このような例において、再生装置は、１つ又は複数のスピーカを介して、受信した音声コンテンツを再生し得る。一部の例において、スピーカは、同じハウジング内でＮＭＤと共に配置される。又は、再生装置は、スピーカジャックを介して、増幅された音声を１つ又は複数の別個のパッシブスピーカに提供し得る。他の例として、再生装置は、ラインレベルの音声をアンプに提供することにより音声コンテンツを再生してもよく、アンプは、その後、スピーカジャックを介して１つ又は複数のパッシブスピーカに増幅された音声を提供する。

一部の例において、ＮＭＤは、１つ又は複数の追加の再生装置と共に同期再生構成となるように構成される。このような場合、音声コンテンツを再生することは、１つ又は複数の追加の再生装置と同期して音声コンテンツを再生することを含む。一部の再生構成（例えば、ステレオペア又はサラウンド）において、再生構成内の各再生装置は、再生構成内の他の再生装置と同期して音声コンテンツの一部を再生する。

上述したように、一部の実施において、ＮＭＤは、再生のために１つ又は複数の再生装置に音声コンテンツを提供する。一部の例において、ＮＭＤは、音声コンテンツを１つ又は複数の再生装置に提供して、その音声コンテンツのＮＭＤとの同期再生を容易にする。このような実施形態において、ＮＭＤは、ＮＭＤ及び１つ又は複数の追加の再生装置を含む同期グループのグループコーディネータとして動作し得る。グループコーディネータとして、ＮＭＤは、タイミング情報を１つ又は複数の追加の再生装置に追加的に提供し、同期グループスケジューリング同期再生を容易にし得る。再生装置は、ネットワークインタフェースを介して音声コンテンツ及び／又はタイミング情報を提供する。

Ｖ．ウェイク応答を無効にするための計算システムの技術の例
上述したように、本明細書に記載の実施形態は、ウェイク応答を無効にすることを含み得る。図１２は、計算システムが音声コンテンツ内の１つ又は複数のウェイクワードに対する１つ又は複数のＮＭＤのウェイク応答を無効にする実施１２００の例を示す。様々な実施形態において、計算システムはクラウドサーバにし得る。又は、計算システムは、ローカル処理装置（例えば、メディア再生システムと同じＬＡＮに接続された装置）にし得る。計算システムは、再生装置又はＮＭＤを実施し得る。

ａ．記録済み音声コンテンツを表すデータを受信
ブロック１２０２において、実施１２００は、記録済み音声コンテンツを表すデータを受信することを含む。例えば、計算システムは、再生装置により再生するための音声コンテンツを受信し得る。再生装置の例には、図１に示した再生装置１０２、１０４、１０６、１０８、１１０、１１２、１１４、１１６、１１８、１２０、１１２、１２４の何れかが含まれ、例えば、図２の再生装置２００に示したように実施し得る。処理システムは、処理システム（例えば、処理システム５００）を含み、オーディオ音声入力／出力コンポーネント（図５のオーディオ音声入力／出力コンポーネント５０２等）を用いて音声コンテンツを表すデータを受信し得る。計算システムは、第ＩＩ、ＩＩＩ、及びＩＶ節で説明した技術等、任意の適切な技術を用いて音声コンテンツを受信し得る。

ｂ．音声コンテンツにおいて１つ又は複数のウェイクワードを検出
図１２では、ブロック１２０４において、実施１２００は、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて１つ又は複数のウェイクワードを検出することを含む。例えば、計算システムは、音声コンテンツを表す受信データを分析して、何れかの音声サービス用のウェイクワードが、音声コンテンツの再生時に聞き取り可能に再生されるように音声コンテンツ内で表されているかを判断する。上述したように、一部の実施において、計算システムは、処理システム（例えば、処理システム５００）を含み、ウェイクワード検出コンポーネント（図５のウェイクワード検出コンポーネント５０４等）を用いて音声コンテンツ内のウェイクワードを検出し得る。計算システムは、第ＩＩ、ＩＩＩ、及びＩＶ節で説明した技術等、任意の適切な技術を用いてウェイクワードを検出し得る。

ｃ．音声コンテンツの再生中、１つ又は複数のＮＭＤにおいて検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効化
図１２では、ブロック１２０６において、実施１２００は、音声コンテンツの再生中、１つ又は複数のネットワークマイクロホン装置において、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることを含む。例えば、計算システムは、再生装置の可聴範囲内にあるＮＭＤにおいて、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。上述したように、計算システムは、通知コンポーネント（例えば、図５の通知コンポーネント５０６）を含む処理システム５００を実施し、通知コンポーネントを用いて、１つ又は複数のＮＭＤにおいて、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。計算システムは、第ＩＩ、ＩＩＩ、及びＩＶ節で説明した技術等、任意の適切な技術を用いて、音声コンテンツの再生中、１つ又は複数のＮＭＤにおいて、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。

ＶＩ．ウェイク応答を抑制する技術の例
上述したように、本明細書に記載の実施形態は、ウェイク応答を抑制することを含み得る。図１３は、ＮＭＤがウェイク応答を無効にする実施１３００の例を示す。

ａ．１つ又は複数のウェイクワードに対するＮＭＤのウェイク応答を無効にする命令を受信
ブロック１３０２において、実施１３００は、１つ又は複数のウェイクワードに対するＮＭＤのウェイク応答を無効にする命令を受信することを含む。例えば、ＮＭＤ（例えば、ＮＭＤ１３２）は、別のＮＭＤ、再生装置、計算システム、又は他の任意の装置から命令を受信し得る。この命令により、ＮＭＤは、１つ又は複数の再生装置による再生に指定された特定の音声コンテンツ内で表される１つ又は複数のウェイクワードに対するウェイク応答を無効にする。

一部の実施において、１つ又は複数のウェイクワードに対するＮＭＤのウェイク応答を無効にするために受信される命令は、暗黙的となる。例えば、例として特に、恐らくはウェイクワードの聞き取りを停止するようにＮＭＤに指示すること、ＮＭＤのマイクロホンアレイを一定期間無効にすること、又は再生装置の方向にリスニングＮＵＬＬを作成することにより、再生装置により再生される際にウェイクワードを検出しないようにＮＭＤに指示することができる。又は、ＮＭＤは、ウェイクワードを検出するが、恐らくは特定の期間中、ウェイクワードを無視すること、又は特定の期間中、記録された音声を全て無視することにより、ウェイクワードの検出に応じて音声サービスを呼び出すプログラム済みウェイク応答を抑制するように指示され得る。第ＩＩ、ＩＩＩ、及びＩＶ節で説明したような任意の適切な命令を用いてＮＭＤに指示することができる。

又は、受信される命令は、暗黙的となる。例えば、上記のように、音声コンテンツは、ウェイクワードを指定する音響マーカを含むように修正される。このような実施において、受信される命令は、音響マーカの形態であってもよい。場合により、受信される命令は、音響マーカが検出された際にＮＭＤのウェイク応答を無効にする命令であってもよい。

ｂ．１つ又は複数の再生装置により再生されている音声コンテンツを検出
図１３では、ブロック１３０４において、実施１３００は、１つ又は複数の再生装置により再生されている音声コンテンツを検出することを含む。例えば、ＮＭＤは、マイクロホンを介して、単一の再生装置により再生されている音声コンテンツを検出し得る。又は、ＮＭＤは、２つ以上の装置により（例えば同期して）再生されている音声コンテンツを検出し得る。

ｃ．検出された音声コンテンツが１つ又は複数のウェイクワードを含むと判断
図１３では、ブロック１３０６において、実施１３００は、検出された音声コンテンツが１つ又は複数のウェイクワードを含むことを判断することを含む。例えば、ＮＭＤは、検出された音声コンテンツに対して１つ又は複数のウェイクワード検出アルゴリズムを実行することにより、検出された音声コンテンツが１つ又は複数のウェイクワードを含むことを判断し得る。一部の例において、ＮＭＤは、検出された音声コンテンツに対して複数のウェイクワード検出アルゴリズム（例えば、場合により異なる音声サービス用である、異なるウェイクワードに対するウェイクワード検出アルゴリズム）を実行し得る。ウェイクワード検出アルゴリズムの例は、本開示全体で説明されている。

ｄ．検出された音声コンテンツ内の１つ又は複数のウェイクワードに対するＮＭＤのウェイク応答を無効化
図１３では、ブロック１３０８において、実施１３００は、検出された音声コンテンツ内の１つ又は複数のウェイクワードに対するＮＭＤのウェイク応答を無効にすることを含む。上述したように、ＮＭＤのウェイク応答とは、ウェイクワードの検出に対するプログラムされた応答を指す。ウェイク応答が有効な場合、ウェイクワードの検出に応じて、ＮＭＤのウェイク応答により、ＮＭＤは、マイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取る。ＮＭＤは、音声サービスを呼び出して音声コマンドを実行する。しかしながら、ウェイク応答が無効である場合、ＮＭＤは、音声コマンドを聞き取らなくてもよく、音声コマンドを実行するために音声サービスを呼び出さない。

ＶＩＩ．結論
上記の説明は、多数の構成要素のうち、ハードウェア上で実行されるファームウェア及び／又はソフトウェアを含む、様々なシステム、方法、装置、及び製品の例を特に開示している。このような例は、単なる例示的なものであり、限定的と見做すべきではないと理解される。例えば、ファームウェア、ハードウェア、及び／又はソフトウェアの態様又は構成要素の何れか又は全ては、ハードウェアのみで、ソフトウェアのみで、ファームウェアのみで、又はハードウェア、ソフトウェア、及び／又はファームウェアの任意の組み合わせにおいて、実施可能であると考えられる。したがって、提示した例は、このようなシステム、方法、装置、及び／又は製品を実現する唯一の方法ではない。

（特徴１）再生装置を介して、再生装置による再生用の音声コンテンツを表すデータを受信することと、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、１つ又は複数の音声サービス用の１つ又は複数のウェイクワードを検出することと、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答であって、有効とされた時、特定のウェイクワードに対する所定のネットワークマイクロホン装置のウェイク応答により、所定のネットワークマイクロホン装置がマイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取るウェイク応答を無効にさせることと、１つ又は複数のスピーカを介して音声コンテンツを再生することと、を含む、方法。

（特徴２）再生装置は、所定のネットワークマイクロホン装置を含み、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、音声コンテンツの再生中に、マイクロホンを介して、再生されている音声コンテンツを記録することと、記録済み音声コンテンツ内の１つ又は複数のウェイクワードに対する所定のネットワークマイクロホン装置のそれぞれのウェイク応答を無効にすることと、を含む、特徴１の方法。

（特徴３）１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、ネットワークインタフェースを介して１つ又は複数のネットワークマイクロホン装置に対して、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することを含む、特徴１の方法。

（特徴４）１つ又は複数のネットワークマイクロホン装置は、住居内のネットワークマイクロホン装置のサブセットであり、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲（ａｕｄｉｂｌｅｖｉｃｉｎｉｔｙｏｆｔｈｅａｕｄｉｏｃｏｎｔｅｎｔ）にあることを判断することと、１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することに応じて、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することと、を含む、特徴２の方法。

（特徴５）１つ又は複数のネットワークマイクロホン装置は、それぞれの再生装置を備え、１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、１つ又は複数のネットワークマイクロホン装置が再生装置と共に同期再生構成内にあることを判断することを含む、特徴４の方法。

（特徴６）１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、１つ又は複数のネットワークマイクロホン装置が再生装置の可聴範囲にあることを判断することを含む、特徴４の方法。

（特徴７）１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、音声コンテンツを再生する前に、音声コンテンツを修正して、それぞれのウェイクワードを表す音声コンテンツのセグメントに音響マーカを組み込むことを含み、音響マーカを検出することにより、１つ又は複数のネットワークマイクロホン装置は、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にする、特徴１の方法。

（特徴８）１つ又は複数のウェイクワードを検出することは、複数のウェイクワード検出アルゴリズムを音声コンテンツに適用することを含み、複数のウェイクワード検出アルゴリズムは、第１の音声サービス用の第１のウェイクワード検出アルゴリズムと、第２の音声サービス用の第２のウェイクワード検出アルゴリズムとを含み、音声コンテンツが再生装置により再生される前に複数のウェイクワード検出アルゴリズムを音声コンテンツに適用することは、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第１の音声サービス用の少なくとも１つの第１のウェイクワードを検出するために第１の音声サービス用の第１のウェイクワード検出アルゴリズムを適用することと、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第２の音声サービス用の少なくとも１つの第２のウェイクワードを検出するために第２の音声サービス用の第２のウェイクワード検出アルゴリズムを適用することと、を含み、第２のウェイクワードは、第１のウェイクワードとは異なるワードである、特徴１の方法。

（特徴９）１つ又は複数のネットワークマイクロホン装置は、第１のネットワークマイクロホン装置及び第２のネットワークマイクロホン装置を含み、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、第１のネットワークマイクロホン装置において、検出された少なくとも１つの第１のウェイクワードに対するそれぞれのウェイク応答を無効にさせることと、第２のネットワークマイクロホン装置において、検出された少なくとも１つの第２のウェイクワードに対するそれぞれのウェイク応答を無効にさせることと、を含む、特徴１の方法。

（特徴１０）音声コンテンツにおいて、１つ又は複数の音声サービス用の１つ又は複数のウェイクワードを検出することは、音声コンテンツ内で特定のウェイクワードの複数のインスタンスを検出することを含み、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、各ネットワークマイクロホン装置が、音声コンテンツ内で検出された特定のウェイクワードの複数のインスタンスの数に等しい数のウェイクワードを検出するまで、１つ又は複数のネットワークマイクロホン装置において、それぞれのウェイク応答を無効にさせることを含む、特徴１の方法。

（特徴１１）特徴１乃至１０の何れかの方法を装置に実行させるために１つ又は複数のプロセッサにより実行可能な命令を記憶した、有形の非一時的コンピュータ読み取り可能媒体。

（特徴１２）特徴１乃至１０の何れかの方法を実行するように構成された装置。

（特徴１３）特徴１乃至１０の何れかの方法を実行するように構成されたメディア再生システム。

（特徴１４）ネットワークマイクロホン装置を介して、再生装置による再生用の音声コンテンツを表すデータを受信することと、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、１つ又は複数の音声サービス用の１つ又は複数のウェイクワードを検出することと、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答であって、有効とされた時、特定のウェイクワードに対するネットワークマイクロホン装置のウェイク応答により、ネットワークマイクロホン装置がマイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取るウェイク応答を無効にすることと、再生装置が音声コンテンツを再生している間に、マイクロホンを介して再生された音声コンテンツを検出することと、を含む方法。

（特徴１５）更に、再生装置に音声コンテンツを再生させるために、ネットワークインタフェースを介して再生装置に対して、音声コンテンツを表すデータを送信することを含む、特徴１４の方法。

（特徴１６）再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にすることは、再生装置に対して音声コンテンツを表すデータを送信する前に、音声コンテンツを修正して、それぞれのウェイクワードを表す音声コンテンツのセグメントに音響マーカを組み込むことを含み、音響マーカを検出することにより、ネットワークマイクロホン装置は、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にする、特徴１５の方法。

（特徴１７）更に、１つ又は複数の追加のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることを含む、特徴１４の方法。

（特徴１８）１つ又は複数の追加のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、ネットワークインタフェースを介して１つ又は複数の追加のネットワークマイクロホン装置に対して、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することを含む、特徴１７の方法。

（特徴１９）前記１つ又は複数の追加のネットワークマイクロホン装置は、住居内のネットワークマイクロホン装置のサブセットであり、１つ又は複数の追加のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することと、１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することに応じて、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することと、を含む、特徴１７の方法。

（特徴２０）１つ又は複数のネットワークマイクロホン装置は、それぞれの再生装置を備え、１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、１つ又は複数のネットワークマイクロホン装置が再生装置と共に同期再生構成内にあることを判断することを含む、特徴１９の方法。

（特徴２１）１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、１つ又は複数のネットワークマイクロホン装置が再生装置の可聴範囲にあることを判断することを含む、特徴１４の方法。

（特徴２２）１つ又は複数のウェイクワードを検出することは、複数のウェイクワード検出アルゴリズムを音声コンテンツに適用することを含み、複数のウェイクワード検出アルゴリズムは、第１の音声サービス用の第１のウェイクワード検出アルゴリズムと、第２の音声サービス用の第２のウェイクワード検出アルゴリズムとを含み、音声コンテンツが再生装置により再生される前に複数のウェイクワード検出アルゴリズムを音声コンテンツに適用することは、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第１の音声サービス用の少なくとも１つの第１のウェイクワードを検出するために第１の音声サービス用の第１のウェイクワード検出アルゴリズムを適用することと、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第２の音声サービス用の少なくとも１つの第２のウェイクワードを検出するために第２の音声サービス用の第２のウェイクワード検出アルゴリズムを適用することと、を含み、第２のウェイクワードは、第１のウェイクワードとは異なるワードである、特徴１４の方法。

（特徴２３）ネットワークマイクロホン装置は、再生装置を備え、方法は、更に、１つ又は複数のスピーカを介して音声コンテンツを再生することを含む、特徴１４の方法。

（特徴２４）特徴１４乃至２３の何れかの方法を装置に実行させるために１つ又は複数のプロセッサにより実行可能な命令を記憶した、有形の非一時的コンピュータ読み取り可能媒体。

（特徴２５）特徴１４乃至２３の何れかの方法を実行するように構成された装置。

（特徴２６）特徴１４乃至２３の何れかの方法を実行するように構成されたメディア再生システム。

（特徴２７）計算システムのインタフェースを介して、１つ又は複数の再生装置による再生用の音声コンテンツを受信することと、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、１つ又は複数の音声サービス用の１つ又は複数のウェイクワードを検出することと、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答であって、有効とされた時、特定のウェイクワードに対する所定のネットワークマイクロホン装置のウェイク応答により、所定のネットワークマイクロホン装置がマイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取るウェイク応答を無効にさせることと、を含む、方法。

（特徴２８）１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、ネットワークインタフェースを介して１つ又は複数のネットワークマイクロホン装置に対して、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することを含む、特徴２７の方法。

（特徴２９）１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することは、１つ又は複数の再生装置がそれぞれのウェイクワードを表す音声コンテンツのセグメントを再生する時間に対応する１つ又は複数の期間中、１つ又は複数のネットワークマイクロホン装置において、それぞれのウェイク応答を無効にさせる命令を送信することを含む、特徴２８の方法。

（特徴３０）１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することは、１つ又は複数の再生装置がそれぞれのウェイクワードを表す音声コンテンツのセグメントを再生する時間に対応する１つ又は複数の期間中、１つ又は複数のネットワークマイクロホン装置において、それぞれのマイクロホンを無効にさせる命令を送信することを含む、特徴２８の方法。

（特徴３１）計算システムは、音声コンテンツ内の特定の数のウェイクワードを検出し、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することは、１つ又は複数のネットワークマイクロホン装置が、音声コンテンツ内で検出された特定の数のウェイクワードに等しい数のウェイクワードを検出するまで、１つ又は複数のネットワークマイクロホン装置において、それぞれのウェイク応答を無効にさせる命令を送信することを含む、特徴２８の方法。

（特徴３２）１つ又は複数のネットワークマイクロホン装置は、住居内のネットワークマイクロホン装置のサブセットであり、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することと、１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することに応じて、１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することと、を含む、特徴２８の方法。

（特徴３３）１つ又は複数のネットワークマイクロホン装置は、それぞれの再生装置を備え、１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、１つ又は複数のネットワークマイクロホン装置が再生装置と共に同期再生構成内にあることを判断することを含む、特徴３２の方法。

（特徴３４）１つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、１つ又は複数のネットワークマイクロホン装置が再生装置の可聴範囲にあることを判断することを含む、特徴３２の方法。

（特徴３５）１つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、１つ又は複数の再生装置が音声コンテンツを再生する前に、音声コンテンツを修正して、それぞれのウェイクワードを表す音声コンテンツのセグメントに音響マーカを組み込み、音響マーカを検出することにより、１つ又は複数のネットワークマイクロホン装置が、再生装置による音声コンテンツの再生中、１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にすることと、１つ又は複数の再生装置による再生のために、修正された音声コンテンツを１つ又は複数の再生装置の少なくとも１つに送信することと、を含む、特徴２７の方法。

（特徴３６）１つ又は複数の再生装置による再生用の音声コンテンツを受信することは、（ａ）インタフェースのネットワークインタフェースを介して、音声コンテンツを表すデータを受信すること、又は（ｂ）インタフェースのアナログインタフェースを介して、音声コンテンツを表すアナログ信号受信すること、を含む特徴３５の方法。

（特徴３７）計算システムは、１つ又は複数の再生装置の特定の再生装置を備え、動作は、更に、音声コンテンツを再生することを含む、特徴２７の方法。

（特徴３８）計算システムは、１つ又は複数のネットワークマイクロホン装置の特定のネットワークマイクロホン装置を備え、動作は、更に、マイクロホンを介して、１つ又は複数の再生装置により再生されている音声コンテンツを検出することを含む、特徴２７の方法。

（特徴３９）特徴２７乃至３８の何れかの方法を装置に実行させるために１つ又は複数のプロセッサにより実行可能な命令を記憶した、有形の非一時的コンピュータ読み取り可能媒体。

（特徴４０）特徴２７乃至３８の何れかの方法を実行するように構成された装置。

（特徴４１）特徴２７乃至３８の何れかの方法を実行するように構成されたメディア再生システム。

（特徴４２）ネットワークマイクロホン装置を介して、１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答であって、有効とされた時、所定のウェイクワードに対するネットワークマイクロホン装置のウェイク応答により、ネットワークマイクロホン装置がマイクロホンを介して所定のウェイクワードに続く音声コマンドを聞き取るウェイク応答を無効にする命令を受信することと、マイクロホンを介して、１つ又は複数の再生装置により再生されている音声コンテンツを検出することと、検出された音声コンテンツが１つ又は複数のウェイクワードを含むと判断することと、検出された音声コンテンツ内の１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にすることと、を含む方法。

（特徴４３）１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にする命令を受信することは、１つ又は複数の再生装置がそれぞれの検出されたウェイクワードに対応する音声コンテンツのセグメントを再生する時間に対応する１つ又は複数の期間中、ウェイク応答を無効にする命令を受信することを含む、特徴４２の方法。

（特徴４４）１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にする命令を受信することは、１つ又は複数の再生装置がそれぞれの検出されたウェイクワードに対応する音声コンテンツのセグメントを再生する時間に対応する１つ又は複数の期間中、マイクロホンを無効にする命令を受信することを含む、特徴４２の方法。

（特徴４５）１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にする命令を受信することは、ネットワークマイクロホン装置が特定の数のウェイクワードに等しい数のウェイクワードを検出するまで、連続するウェイクワードが検出された際にウェイク応答を無効にする命令を受信することを含む、特徴４２の方法。

（特徴４６）１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にする命令を受信することは、音響マーカが検出された際にウェイク応答を無効にする命令を受信することを含み、検出された音声コンテンツ内の１つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にすることは、それぞれの検出されたウェイクワードに対応する、検出された音声コンテンツ内の音響マーカを検出することと、各音響マーカを検出することに応じて、ウェイク応答を無効にすることと、を含む、特徴４２の方法。

（特徴４７）検出された音声コンテンツが１つ又は複数のウェイクワードを含むと判断することは、検出された音声コンテンツに対して、１つ又は複数のウェイクワード検出アルゴリズムを適用することを含む、特徴４２の方法。

（特徴４８）特徴４２乃至４７の何れかの方法を装置に実行させるために１つ又は複数のプロセッサにより実行可能な命令を記憶した、有形の非一時的コンピュータ読み取り可能媒体。

（特徴４９）特徴４２乃至４７の何れかの方法を実行するように構成された装置。

（特徴５０）特徴４２乃至４７の何れかの方法を実行するように構成されたメディア再生システム。

本願明細書は、例示的な環境、システム、手順、ステップ、論理ブロック、処理、及び他のシンボル表現に関して広く示されており、それらは直接的又は間接的にネットワークに接続されるデータ処理装置の動作に類似する。これらの処理の説明及び表現は、一般に、当業者が、その作業の内容を他の当業者に最も効果的に伝えるために使用されるものである。本開示の完全な理解を提供するため、多数の具体的な詳細を述べている。しかしながら、本開示の特定の実施形態が特定の具体的な詳細なしに実施可能であることは、当業者に理解される。他の例では、周知の方法、手順、構成要素、及び回路については、実施形態の態様を不必要に曖昧にすることを避けるために、詳細な説明を省略している。したがって、本開示の範囲は、上記の実施形態よりむしろ添付の記特許請求の範囲により定義される。

添付の特許請求の範囲の何れかが、純粋にソフトウェア及び／又はファームウェアの実施を対象とすると読み取られる場合、少なくとも１つの例の少なくとも１つの要素は、本明細書では、ソフトウェア及び／又はファームウェアを記憶するメモリ、ＤＶＤ、ＣＤ、Ｂｌｕ−ｒａｙ等の有形の非一時的な媒体を含むことが明確に定められている。

Claims

再生装置のための方法であって、
前記再生装置のネットワークインタフェースを介して、前記再生装置による再生用の音声コンテンツを表すデータを受信するステップ、
前記再生装置により前記音声コンテンツを再生する前に、前記音声コンテンツの中に１つ又は複数の音声サービス用の１つ又は複数のウェイクワードを検出するステップ、
１つ又は複数のネットワークマイクロホン装置が前記再生装置の可聴範囲にあることを判断するステップ、
１つ又は複数のネットワークマイクロホン装置が前記音声コンテンツの可聴範囲にあることを判断することに応じて、当該１つ又は複数のネットワークマイクロホン装置における前記検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化するステップ、ここで、ウェイク応答が有効化された場合、所定のネットワークマイクロホン装置における特定のウェイクワードに対するウェイク応答によって、前記所定のネットワークマイクロホン装置がマイクロホンを介して、前記特定のウェイクワードに続く音声コマンドを聞き取る、
前記再生装置の１つ又は複数のスピーカを介して前記音声コンテンツを再生するステップ、を含む、方法。
前記再生装置は、前記所定のネットワークマイクロホン装置を備える、請求項１記載の方法。
前記１つ又は複数のネットワークマイクロホン装置における前記検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化するステップは、
前記音声コンテンツの再生中に、前記１つ又は複数のネットワークマイクロホン装置を介して、再生されている前記音声コンテンツを記録するステップと、
前記所定のネットワークマイクロホン装置における、記録済み前記音声コンテンツ内の前記１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効化するステップと、を含む、請求項１又は２記載の方法。
前記１つ又は複数のネットワークマイクロホン装置における前記検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化するステップは、
前記再生装置の前記ネットワークインタフェースを介して前記１つ又は複数のネットワークマイクロホン装置に対して、前記１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効にさせる命令を送信することを含む、請求項１又は２記載の方法。
前記再生装置の可聴範囲にあると判断された前記１つ又は複数のネットワークマイクロホン装置は、住居内のネットワークマイクロホン装置のサブセットである、請求項１から４のいずれか１項に記載の方法。
特定のネットワークマイクロホン装置が前記音声コンテンツの可聴範囲にあることを判断するステップは、前記特定のネットワークマイクロホン装置が前記再生装置と共に同期再生構成内にあることを判断するステップを含み、ここで、前記特定のネットワークマイクロホン装置は再生装置を備える、請求項１から５のいずれか１項に記載の方法。
前記１つ又は複数のネットワークマイクロホン装置が前記音声コンテンツの可聴範囲にあることを判断するステップは、前記１つ又は複数のネットワークマイクロホン装置が前記再生装置の可聴範囲にあることを判断するステップを含む、請求項１から６のいずれか１項に記載の方法。
前記１つ又は複数のネットワークマイクロホン装置における前記検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化するステップは、
前記音声コンテンツを再生する前に、それぞれのウェイクワードを表す前記音声コンテンツのセグメントに音響マーカを組み込むように前記音声コンテンツを修正するステップを含み、ここで、前記音響マーカを検出することにより、前記１つ又は複数のネットワークマイクロホン装置における前記１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化する、請求項１から７のいずれか１項に記載の方法。
前記１つ又は複数のウェイクワードを検出するステップは、各音声サービスに関連付けられたそれぞれのウェイクワード用の複数のウェイクワード検出アルゴリズムを、前記音声コンテンツに適用するステップを含む、請求項１から８のいずれか１項に記載の方法。
１つ又は複数のウェイクワードを検出するステップは、複数のウェイクワードを検出するステップを含み、
前記１つ又は複数のネットワークマイクロホン装置における前記検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効化するステップは、
第１のネットワークマイクロホン装置において、前記検出された少なくとも１つの第１のウェイクワードに対するそれぞれのウェイク応答を無効にさせるステップと、
第２のネットワークマイクロホン装置において、前記検出された少なくとも１つの第２のウェイクワードに対するそれぞれのウェイク応答を無効にさせるステップと、を含む、請求項９記載の方法。
前記音声コンテンツの中に１つ又は複数の音声サービス用の１つ又は複数のウェイクワードを検出するステップは、前記音声コンテンツ内で特定のウェイクワードの複数のインスタンスを検出するステップを含む、請求項１記載の方法。
前記１つ又は複数のネットワークマイクロホン装置における前記検出された１つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化するステップは、各ネットワークマイクロホン装置が、前記音声コンテンツ内で検出された前記特定のウェイクワードの前記複数のインスタンスの数に等しい数のウェイクワードを検出するまで、前記１つ又は複数のネットワークマイクロホン装置において、それぞれのウェイク応答を無効にさせるステップを含む、請求項１１記載の方法。
再生装置に請求項１から１２のいずれか１項に記載の方法を実行させるために１つ又は複数のプロセッサにより実行可能なプログラムを記憶した有形の非一時的コンピュータ読み取り可能媒体。
ネットワークインタフェースと、
1つ又は複数のプロセッサと、
請求項１３に記載の有形の非一時的コンピュータ読み取り可能媒体と、を備える、再生装置。