JP2020536273A

JP2020536273A - 音干渉キャンセレーション

Info

Publication number: JP2020536273A
Application number: JP2020517935A
Authority: JP
Inventors: サイード・バゲリ・セレシュキ
Original assignee: ソノズインコーポレイテッド
Priority date: 2017-09-28
Filing date: 2018-09-27
Publication date: 2020-12-10
Anticipated expiration: 2038-09-27
Also published as: EP3688752A1; CN111433844A; US20220383846A1; US10621981B2; US20240203415A1; US20190096398A1; US11302326B2; WO2019067720A1; CN111433844B; EP3688752B1; US20200380982A1; US11769505B2; JP6956265B2; EP3882916A1

Abstract

複数の音響エコーキャンセラを備えたシステム。音響環境における第１のオーディオを取り込み、取り込まれた第１のオーディオの内容においてウェイクワードを検出する。ウェイクワードに応答して、かつ、肯定応答音を再生する前に、１つ又は複数のスピーカがオーディオコンテンツを再生しているとき、第１の音キャンセラを起動し、又は、１つ又は複数のスピーカがアイドル状態にあるとき、第２の音キャンセラを起動する。ウェイクワードに応答して、かつ、第１の音キャンセラ及び第２の音キャンセラのいずれかを起動した後で、第１の音キャンセラは、可聴周波数スペクトルの全体においてスピーカ出力をキャンセルするように構成され、第２の音キャンセラは、肯定応答の音が内容を有する周波数帯に対応する識別された周波数帯において、スピーカ出力をキャンセルするように構成される。

Description

関連出願への相互参照
本願は、２０１７年９月２８日に出願された米国特許出願第１５／７１８５２１号の優先権を主張し、その全体は参照によってここに組み込まれる。

技術分野
本開示は、消費財に関し、より詳しくは、メディア再生又はその何らかの態様に関連する方法、システム、製品、機能、サービス、及び他の要素に関する。

ソノズインコーポレイテッドが、「複数のネットワーク化された装置間でオーディオ再生を同期させる方法（Method for Synchronizing Audio Playback between Multiple Networked Devices）と題するその最初の特許出願のうちの１つを出願したとき、発声による設定においてディジタルオーディオにアクセスして聞くためのオプションは、２０２３年までは限定的であり、限定し、２０２５年における販売のためにメディア再生システムを提供し始めた。ソノズの無線ハイファイシステムにより、人々は、１つ又は複数のネットワーク化された再生装置を介して多数のソースから音楽を体験できるようになる。スマートフォン、タブレット、又はコンピュータにインストールされたソフトウェア制御アプリケーションを通じて、人は、ネットワーク化された再生装置を有する任意の部屋において彼又は彼女が望むものを再生することができうる。さらに、コントローラを用いて、例えば、再生装置を備えた各部屋に異なる歌をストリーミングすることができ、同期再生のために複数の部屋をグループ化することができ、又は、同じ歌をすべての部屋で同期して聞くことができる。

ディジタルメディアに対する関心が増大し続けているならば、聴取体験をさらに向上させるための消費者によりアクセス可能な技術を開発することが引き続き必要とされる。

本開示は、音干渉キャンセレーションに係るシステム、方法、及び有形かつ非一時的なコンピュータ可読媒体を提供する。

所定の実施形態が実施されてもよいメディア再生システムの構成を示す。例示的な再生装置の機能ブロック図である。例示的な制御装置の機能ブロック図である。コントローラのインターフェースである。コントローラのインターフェースである。本開示の態様に係る例示的なネットワークマイクロホン装置の機能ブロック図である。本開示の態様に係る例示的な音声入力の図である。本開示の態様に係る例示的な遠隔の計算装置の機能ブロック図である。本開示の態様に係る例示的なネットワークシステムの概略図である。例示的な音響エコーキャンセレーションパイプラインの機能ブロック図である。例示的な音響エコーキャンセレーションパイプラインの機能ブロック図である。例示的な状態機械の機能ブロック図である。音響エコーキャンセレーションを実行する方法の例示的なフロー図を示す。

ここに開示された技術の機能、態様、及び利点は、以下の発明の詳細な説明、添付された特許請求の範囲、及び添付された図面に関連して、よりよく理解されるであろう。

図面は例示的な実施形態を示すためのものであるが、本発明は、図面に示す装置及び手段に限定されないことが理解される。図面において、同じ参照番号は、少なくとも概して同様の構成要素を識別する。任意の特定の構成要素の議論を容易にするために、任意の参照番号の上位数字は、その構成要素が最初に導入される図を示す。例えば、構成要素１１０は、最初に、図１を参照して導入されて議論される。

Ｉ．概要
ネットワークマイクロホン装置（networked microphone device）は、音声制御を用いて世帯を制御するために使用されてもよい。音声制御は、再生装置、無線照明装置、サーモスタット、ドアロック、ホームオートメーション装置、及び他の実施例のような複数のスマート装置のシステムを有する「スマート」ホームにとって有益になりうる。いくつかの実施例では、スマート装置のシステムは、音声入力を検出するように構成された、ネットワークマイクロホン装置を含む。音声アシスタントサービスは、音声入力の処理を促進する。伝統的に、音声アシスタントサービスは、音声入力を受信して処理する遠隔のサーバを含む。音声サービスは、音声入力に対する応答を返してもよい。ここで、応答は、他の実施例の中でもとりわけ、様々なスマートな装置又はオーディオもしくはビデオ情報（例えば天気予報）の制御を含んでもよい。

音声入力は、典型的には、ウェイクワードを有する発話と、それに続くユーザ要求を含む発話とを含む。ウェイクワードは、発話されたとき、特定の音声アシスタンスサービスを呼び出してもよい。例えば、ＡＭＡＺＯＮ（登録商標）の音声アシスタントサービスに問い合わせる際に、ユーザはウェイクワード「Ａｌｅｘａ」を発声してもよい。他の実施例は、ＧＯＯＧＬＥ（登録商標）の音声アシスタントサービスを呼び出すための、「Ｏｋ，Ｇｏｏｇｌｅ」と、ＡＰＰＬＥ（登録商標）の音声アシスタントサービスを呼び出すための「Ｈｅｙ，Ｓｉｒｉ」とを含む。

ウェイクワードを検出したとき、ネットワークマイクロホン装置は、ウェイクワードに続く音声の発話においてユーザ要求が聴取されるまで待機してもよい。いくつかの例では、ユーザ要求は、サードパーティー装置、例えば、スマート照明装置（例えば、ＰＨＩＬＩＰＳＨＵＥ（登録商標）の照明装置）、サーモスタット（例えば、ＮＥＳＴ（登録商標）のサーモスタット）、又はメディア再生装置（例えば、Ｓｏｎｏｓ（登録商標）の再生装置）を制御するコマンドを含んでもよい。例えば、ユーザは、ウェイクワード「Ａｌｅｘａ」と、それに続く発話「居間をオンして」を発声することで、照明装置をオンしてもよい。ユーザは、同じウェイクワードと、それに続く発話「サーモスタットを６８度に設定して」を発声してもよい。ユーザは、特定の歌、アルバム、又は音楽のプレイリストを再生装置に再生させる要求を発話してもよい。

ネットワークマイクロホン装置がウェイクワードを検出するとき、ネットワークマイクロホン装置がウェイクワードを検出したことをユーザに通知することができるように、ネットワークマイクロホン装置は、ウェイクワードの肯定応答をユーザに提供してもよい。いくつかの実施例では、この肯定応答は、光応答によって（例えば、１つ又は複数の発光ダイオードの照明によって、おそらくは、所定の色及び／又はパターンによって）提供される。ウェイクワードの検出に肯定応答するために光応答を用いることの欠点となりうることは、光応答を見るために、ネットワークマイクロホン装置の方向をユーザが見ていなければならないということにある。

代替として、例示的なネットワークマイクロホン装置は、ウェイクワードの検出の肯定応答をオーディオ応答によって提供してもよい。例えば、１つ又は複数のスピーカは、ネットワークマイクロホン装置が取り込んだオーディオにおいてウェイクワードを検出した直後に、可聴な「肯定応答」音（audible "acknowledgement" tone）を再生してもよい。しかしながら、ウェイクワードは、典型的には、ユーザによって話された音声の発話（例えば、音声コマンド又はクエリ）に先行する。そのため、肯定応答音は、ユーザの音声の発話に重なる可能性がある。このオーバーラップが生じると、肯定応答音は、ネットワークマイクロホン装置が音声の発話を取り込む際に干渉する可能性がある。

音声の発話の取り込みにおいて肯定応答音からの干渉を回避又は減少させようとして、ネットワークマイクロホン装置は、ネットワークマイクロホン装置の１つ又は複数のマイクロホンによって取り込まれた信号から肯定応答音の音（sound）を除去するために、音響エコーキャンセラ（Acoustic Echo Canceller：「ＡＥＣ」）を使用してもよい。この除去は、肯定応答音を再生する際に１つ又は複数のスピーカによって生成される音を含む音響環境における他の音に対する音声入力の信号対雑音比を改善し、これにより、より少ないノイズを含む信号を音声アシスタントサービスに提供することを意図している。

例示的な実施例では、ＡＥＣは、ネットワークマイクロホン装置のオーディオ処理パイプライン内に実装される。ＡＥＣへの入力は、１つ又は複数のマイクロホンによって取り込まれた信号と、トランスデューサによって出力されると期待されるアナログオーディオ（例えば肯定応答音）を表す基準信号とを含んでもよい。これらの入力が与えられたとき、ＡＥＣは、基準信号を、最小の誤差を有する取り込まれたマイクロホン信号に変換する伝達関数（すなわち「フィルタ」）を発見しようとする。結果として生じるＡＥＣ出力を反転し、それをマイクロホン信号と混合することにより、１つ又は複数のマイクロホンによって取り込まれた信号からオーディオ出力信号の編集を行う。さらに、ＡＥＣは反復的な処理であり、それにより、ＡＥＣの各反復中の誤差は、ＡＥＣの次の反復のためのフィルタを更新するために使用される。この処理を用いて、連続した複数の反復にわたって、ＡＥＣは、測定された信号から基準信号を有効にキャンセルしたものに「収束」する。

しかしながら、反復的な処理であることにより、ＡＥＣは、測定された信号から基準信号を有効にキャンセルしたものに収束するためにある程度の時間がかかる可能性がある。例えば、例示的なＡＥＣ処理は、音響環境におけるノイズに依存して、収束するまでに７００ミリ秒以上かかる可能性がある。肯定応答音が出力されるときに（おそらくは、装置が音楽などの他のオーディオコンテンツを再生しているので）ＡＥＣが既にアクティブでありかつ安定している（すなわち収束している）場合、ＡＥＣは（他のオーディオコンテンツに加えて）肯定応答音を有効にキャンセルしてもよい。しかしながら、それに代わって、肯定応答音が出力されるときにＡＥＣが非アクティブである（すなわち、アクティブかつ安定ではない）場合、基準信号の長さは数百ミリ秒のみであるかもしれないので、ＡＥＣは、収束してそれによって肯定応答音を有効にキャンセルするのに十分な時間をもたないであろう。

ＡＥＣがアクティブであろうとなかろうと、肯定応答音の有効なキャンセレーションを促進するために、ここで説明した例示的なネットワークマイクロホン装置は、２つの音響エコーキャンセレーション処理を実施してもよい。取り込まれたオーディオにおいてウェイクワードが検出されたとき、ネットワークマイクロホン装置が、１つ又は複数のオーディオドライバを介してオーディオコンテンツ（例えば音楽）を再生している場合、ネットワークマイクロホン装置は第１のＡＥＣを実行し（又は実行し続けて）、取り込まれたオーディオから肯定応答音の音響エコーをキャンセルする。また、第１のＡＥＣは、再生されたオーディオコンテンツの音響エコーをキャンセルする。逆に、取り込まれたオーディオにおいてウェイクワードが検出されたとき、ネットワークマイクロホン装置の１つ又は複数のオーディオドライバがアイドルである場合、ネットワークマイクロホン装置は第２のＡＥＣを起動して、取り込まれたオーディオから肯定応答音の音響エコーをキャンセルする。

第１のＡＥＣと比較して、第２のＡＥＣは大幅に高速に収束するように設計され、それによって、肯定応答音の長さが数百ミリ秒のみである場合であっても、第２のＡＥＣにより肯定応答音を有効にキャンセルすることができる。特に、第２のＡＥＣは、肯定応答音が内容を有する特定の周波数範囲（周波数「ビン」としても知られる）のみから音響エコーをキャンセルすることにより、第１のＡＥＣよりも高速に収束する可能性がある。対照的に、第１のＡＥＣは、可聴周波数スペクトルの全体（例えば、２０Ｈｚ〜２００００Ｈｚ）にわたって音響エコーをキャンセルするように構成される。第１のＡＥＣが処理する周波数範囲の部分集合を処理することによって、第２のＡＥＣは大幅に高速に収束する（例えば、数百ミリ秒のみの長さを有する肯定応答音をキャンセルするのに十分に高速に収束する）可能性がある。実際に、例示的な実施例では、この技術は、スペクトルの全体にわたる音響エコーキャンセレーション処理と比較して、収束レートを９１．４４％増大させた。

ここで説明した例示的な技術は、ネットワークマイクロホン装置において実装された互いに異なる複数の音響エコーキャンセラの間で選択することを含んでもよい。例示的な実施例は、１つ又は複数のマイクロホンを介して、音響環境における第１のオーディオを取り込むステップと、１つ又は複数のスピーカが（ａ）オーディオコンテンツを再生しているか、それとも（ｂ）アイドル状態にあるかを決定するステップと、１つ又は複数のスピーカが（ａ）オーディオコンテンツを再生しているか、それとも（ｂ）アイドル状態にあるかを決定するステップと、可聴周波数スペクトルの全体のうち、検出されたウェイクワードに肯定応答する可聴音（audible tone）が内容を有する周波数帯の集合を識別するステップとを含んでもよい。

例示的な実施例はさらに、音声サービスのためのウェイクワードの検出に応答して、かつ、検出されたウェイクワードに肯定応答して上記１つ又は複数のスピーカにおいて可聴音を再生する前に、（ａ）第１の音キャンセラ（first sound canceller）及び（ｂ）第２の音キャンセラ（second sound canceller）のいずれかを起動するステップを含んでもよい。（ａ）第１の音キャンセラ及び（ｂ）第２の音キャンセラのいずれかを起動するステップは、１つ又は複数のスピーカがオーディオコンテンツを再生しているとき、第１の音キャンセラを起動するステップと、第１の音キャンセラは、可聴周波数スペクトルの全体において１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成され、１つ又は複数のスピーカがアイドル状態にあるとき、第２の音キャンセラの処理を起動するステップと、第２の音キャンセラは、可聴周波数スペクトルの全体のうち、検出されたウェイクワードに肯定応答する可聴音が内容を有する識別された周波数帯において、１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成され、を含んでもよい。

例示的な実施例はまた、音声サービスのためのウェイクワードの検出に応答して、かつ、（ａ）第１の音キャンセラ及び（ｂ）第２の音キャンセラのいずれかを起動した後で、検出されたウェイクワードに肯定応答する可聴音を１つ又は複数のスピーカを介して出力するステップと、１つ又は複数のマイクロホンを介して、音響環境における第２のオーディオを取り込むステップとを含んでもよい。第２のオーディオは、検出されたウェイクワードに肯定応答する可聴音を出力する際に１つ又は複数のスピーカによって生成される音（sound）を含む。実施例は、起動されたオーディオキャンセラを用いて、取り込まれた第２のオーディオから、検出されたウェイクワードに肯定応答する可聴音をキャンセルするステップを含んでもよい。

この例示的な実施例は、他の実施例の中でもとりわけ、方法として、本実施例を実行するように構成された装置として、本実施例を実行するように構成されたシステムとして、本実施例を実行するように１つ又は複数のプロセッサによって実行可能な命令を含む非一時的なコンピュータ可読媒体として実施されてもよい。本開示が、ここで説明した例示的な複数の機能の組み合わせを含む、多数の他の実施形態を含むということは当業者によって理解されるであろう。さらに、ある技術を説明するために所与の装置によって実行されるものとして説明した任意の例示的な動作は、ここで説明した装置を含む、任意の適切な装置によって実行されてもよい。またさらに、任意の装置が、もう１つの装置にここで説明した動作のうちの任意のものを実行させてもよい。

ここで説明したいくつかの実施例は、「ユーザ」及び／又は他のエンティティのような所与の動作主によって実行される機能を参照することがあるが、この記載が説明の目的のみのためにあることが理解されるべきである。請求項は、請求項自体の語句によって明示的に要求されていない限り、そのような任意の例示的な動作主による動作を必要とするように解釈されるべきでない。

ＩＩ．例示的な動作環境
図１は、ここに開示した１つ又は複数の実施形態が実装されてもよいメディア再生システム１００の例示的な構成を示す。図示したようなメディア再生システム１００は、例えば、オフィス、食堂、及び居間のような、いくつかの部屋及び空間を有する例示的なホーム環境に関連付けられている。これらの部屋及び空間内では、メディア再生システム１００は、再生装置１０２（再生装置１０２ａ〜１０２ｌとして個々に識別される）、ネットワークマイクロホン装置１０３（１つ又は複数の「ＮＭＤ」１０３ａ〜１０３ｇとして個々に識別される）、及び制御装置１０４ａ及び１０４ｂ（まとめて「制御装置１０４」と呼ぶ）を含む。ホーム環境は、１つ又は複数のスマート照明装置１０８及びスマートサーモスタット１１０のような他のネットワーク装置を含んでもよい。

メディア再生システム１００の様々な再生、ネットワークマイクロホン及び制御装置１０２−１０４（及び／又は他のネットワーク装置）は、ポイントツーポイント接続を介して、及び／又は、ネットワークルータ１０６を介するローカルエリアネットワーク（ＬＡＮ）を介する他の接続であって、有線及び／又は無線でもよい他の接続を介して、互いに接続されてもよい。例えば、再生装置１０２ｊ（「ＬＥＦＴ」（左）として示す）は、再生装置１０２ａ（「ＲＩＧＨＴ」（右）として示す）を有するポイントツーポイント接続を有してもよい。一実施形態では、ＬＥＦＴ再生装置１０２ｊは、ポイントツーポイント接続を介してＲＩＧＨＴ再生装置１０２ａと通信してもよい。関連する実施形態では、ＬＥＦＴ再生装置１０２ｊは、ポイントツーポイント接続を介して、及び／又は、ＬＡＮを介して他の接続を介して、他のネットワーク装置と通信してもよい。

ネットワークルータ１０６は、ワイドエリアネットワーク（ＷＡＮ）１０７を介して、１つ又は複数の遠隔の計算装置１０５に接続されてもよい。いくつかの実施形態では、１つ又は複数の遠隔の計算装置はクラウドサーバであってもよい。１つ又は複数の遠隔の計算装置１０５は、様々な方法でメディア再生システム１００と相互動作するように構成されてもよい。例えば、１つ又は複数の遠隔の計算装置は、ホーム環境において、オーディオのようなメディアコンテンツのストリーミング及びその再生の制御を促進にするように構成されてもよい。詳細後述する技術の１つの態様において、１つ又は複数の遠隔の計算装置１０５は、メディア再生システム１００のための拡張ＶＡＳ１６０を提供するように構成される。

いくつかの実施形態では、再生装置１０２のうちの１つ又は複数は、オンボード（例えば一体型）のネットワークマイクロホン装置を含んでもよい。例えば、再生装置１０２ａ〜１０２ｅは、対応するＮＭＤ１０３ａ〜１０３ｅをそれぞれ含む。ネットワーク装置を含む再生装置は、明示的に他の呼称で呼ばない限り、ここでは、再生装置又はネットワークマイクロホン装置と言いかえることもある。

いくつかの実施形態では、ＮＭＤ１０３のうちの１つ又は複数は、スタンドアロン型装置であってもよい。例えば、ＮＭＤ１０３ｆ及び１０３ｇは、スタンドアロン型のネットワークマイクロホン装置であってもよい。スタンドアロン型のネットワークマイクロホン装置は、スピーカ又は関連する電子回路のような、典型的には再生装置に含まれる構成要素を省略してもよい。そのような場合、スタンドアロン型のネットワークマイクロホン装置は、オーディオ出力を生成しなくてもよく、又は、限定的なオーディオ出力（例えば、再生装置による出力の品質に比べて相対的に低品質の出力）を生成してもよい。

いくつかの実施形態では、１つ又は複数のネットワークマイクロホン装置は、１つの再生装置に、又は、再生装置のグループに割り当てられてもよい。いくつかの実施形態では、ネットワークマイクロホン装置は、オンボードのネットワークマイクロホン装置を含まない再生装置に割り当てられもよい。例えば、ＮＭＤ１０３ｆは、その近傍における再生装置１０２のうちの１つ又は複数、例えば、台所及び食堂の各空間における再生装置１０２ｉ及び１０２ｌの一方又は両方に割り当てられてもよい。そのような場合では、ＮＭＤ１０３ｆは、それが割り当てられる１つ又は複数の再生装置を介してオーディオを出力してもよい。ネットワークマイクロホン装置の割り当てに関するさらなる詳細事項は、例えば、２０１６年４月１４日に出願された「Default Playback Device Designation（デフォルト再生装置の指定）」と題する米国特許出願第１５／０９８８６７号明細書と、２０１６年４月１４日に出願された「Default Playback Devices（デフォルト再生装置）」と題する米国特許出願第１５／０９８８９２号明細書に記載されている。これらの出願のそれぞれの全体は、参照によってここに組み込まれる。

いくつかの実施形態では、ネットワークマイクロホン装置は、それが特定のＶＡＳのための排他的な専用装置となるように構成されてもよい。一実施例では、居間の空間におけるＮＭＤ１０３ａは、拡張ＶＡＳ１６０のための排他的な専用装置であってもよい。そのような場合、ＮＭＤ１０２ａは、拡張ＶＡＳ１６０以外の他の任意のＶＡＳを呼び出さなくてもよい。関連する実施例では、ＮＭＤ１０３のうちの他のものは、拡張ＶＡＳ１６０と、従来型ＶＡＳのような１つ又は複数の他のＶＡＳとを呼び出すように構成されてもよい。ネットワークマイクロホン装置を再生装置及び／又はＶＡＳに結合して割り当てる他の実施例もまた可能である。いくつかの実施形態では、ＮＭＤ１０３は、特定の方法で結合又は割り当てされなくてもよい。

例示的なメディア再生システム１００の互いに異なる複数の構成要素に関するさらなる態様について、また、ユーザにメディア体験を提供するために互いに異なる複数の構成要素がどのように相互作用しうるかについて、以下のセクションからわかるであろう。ここでの議論は、概して、例示的なメディア再生システム１００を参照しているかもしれなが、ここで説明した技術は、とりわけ、図１に示すようなホーム環境内におけるアプリケーションに限定されるものではない。例えば、ここで説明した技術は、再生装置１０２、ネットワークマイクロホン装置１０３、及び／又は制御装置１０４のうちの任意のものよりも多数又は少数を備える他のホーム環境の構成に有用となりうる。さらに、ここで説明した技術は、マルチゾーンオーディオが所望される可能性がある環境において、例えば、レストラン、モール、又は空港のような商用設定の環境、また、スポーツ多目的車（ＳＵＶ）、バス又は自動車、船又はボート、飛行機のような乗物の環境などにおいて有用となりうる。

ａ．例示的な再生装置
図２は、図１に示す再生装置１０２のうちの選択された１つに係る所定の態様を示す機能ブロック図である。図示するように、そのような再生装置は、プロセッサ２１２と、ソフトウェア構成要素２１４と、メモリ２１６と、オーディオ処理構成要素２１８と、１つ又は複数のオーディオ増幅器２２０と、１つ又は複数のスピーカ２２２と、１つ又は複数の無線インターフェース２３２及び１つ又は複数の有線インターフェース２３４を含むネットワークインターフェース２３０とを含んでもよい。いくつかの実施形態では、再生装置は、スピーカ２２２を含むのではなく、再生装置を外部スピーカに接続するためのスピーカインターフェースを含んでもよい。ある実施形態では、再生装置は、スピーカ２２２もオーディオ増幅器２２２も含まず、再生装置を外部のオーディオ増幅器又はオーディオビジュアル受信機に接続するためのオーディオインターフェースを含む。

再生装置はさらにユーザインターフェース２３６を含んでもよい。ユーザインターフェース２３６は、制御装置１０４のうちの１つ又は複数から独立した又は関連したユーザの対話的動作を促進にしてもよい。さまざまな実施形態では、ユーザインターフェース２３６は、ユーザが直接的に入力を提供するために、他の可能性の中でもとりわけ、物理的ボタン及び／又はグラフィカルインターフェースのうちの１つ又は複数を含む。ここで、グラフィカルインターフェースは、接触感応性を有する１つ又は複数の画面及び／又は表面の上に提供される。ユーザインターフェース２３６は、さらに、ユーザに視覚的及び／又は聴覚的なフィードバックを提供する光源及び１つ又は複数のスピーカのうちの１つ又は複数を含んでもよい。

いくつかの実施形態では、プロセッサ２１２は、メモリ２１６に格納された命令に従って入力データを処理するように構成された、クロック駆動される計算構成要素であってもよい。メモリ２１６は、プロセッサ２１２によって実行可能な命令を格納するように構成された有形物のコンピュータ可読媒体であってもよい。例えば、メモリ２１６は、所定の機能を達成するためにプロセッサ２１２によって実行可能なソフトウェア構成要素２１４のうちの１つ又は複数がロードされうるデータ記憶装置であってもよい。一実施例では、機能は、オーディオソースからオーディオデータを検索する再生装置、又はもう１つの再生装置を含んでもよい。もう１つの実施例では、機能は、ネットワークにおけるもう１つの装置にオーディオデータを送信する再生装置を含んでもよい。さらにもう１つの実施例では、機能は、再生装置を１つ又は複数の他の再生装置と組み合わせてマルチチャンネルオーディオ環境を作成することを含んでもよい。

所定の機能は、再生装置がオーディオコンテンツの再生を１つ又は複数の他の再生装置と同期させることを含んでもよい。同期再生中に、聴取者は、同期した複数の再生装置によるオーディオコンテンツの再生間の時間遅延差を知覚するべきでない。２００４年４月４日に出願された、「System and method for synchronizing operations among a plurality of independently clocked digital data processing devices（複数の独立したクロックで動作するディジタルデータ処理装置間で動作を同期させるシステム及び方法）」と題する米国特許第８２３４３９５号明細書は、複数の再生装置間のオーディオ再生の同期化についていくつかの実施例をさらに詳細に提供し、その全体が参照によってここに組み込まれる。

メモリ２１６は、再生装置に関連付けられたデータを格納するようにさらに構成されてもよい。例えば、メモリは、再生装置がその一部となる１つ又は複数のゾーン及び／又はゾーングループに対応するデータを格納してもよい。ゾーン及び／又はゾーングループのうちの１つ又は複数は、１つ又は複数の装置が位置する部屋又は空間に従って命名されてもよい。例えば、図１に示す居間の空間における再生装置及びネットワークマイクロホン装置は、居間という名を有するゾーングループとして呼ばれてもよい。もう１つの実施例として、食堂の空間における再生装置１０２ｌは、ゾーン「食堂」として命名されてもよい。ゾーン及び／又はゾーングループには、図１に示すように、「ニックの部屋」のような名前が一意的に割り当てられてもよい。

メモリ２１６は、他のデータを格納するようにさらに構成されてもよい。そのようなデータは、再生装置によってアクセス可能な、又は、再生装置（又は他の何らかの１つ又は複数の再生装置）が関連付けられていてもよい再生キューによってアクセス可能なオーディオソースに関連してもよい。メモリ２１６に格納されるデータは、１つ又は複数の状態変数として格納されてもよい。状態変数は、周期的に更新され、再生装置の状態を記述するために使用される。メモリ２１６は、メディアシステムの他の装置の状態に関連付けられたデータであって、装置のうちの１つ又は複数がシステムに関連付けられた最新のデータを有するように装置間で時々に共有されるデータを含んでもよい。
他の実施形態もまた可能である。

オーディオ処理構成要素２１８は、１つ又は複数のディジタル・アナログ変換器（ＤＡＣ）、オーディオ前処理構成要素、オーディオ改善構成要素、又はディジタル信号プロセッサ（ＤＳＰ）などを含んでもよい。いくつかの実施形態では、オーディオ処理構成要素２１８のうちの１つ又は複数は、プロセッサ２１２のサブコンポーネントであってもよい。一実施例では、オーディオコンテンツは、オーディオ信号を生成するように、オーディオ処理構成要素２１８によって処理及び／又は意図的に変更されてもよい。生成されたオーディオ信号は、次いで、増幅及び１つ又は複数のスピーカ２１２を介する再生のために、オーディオ増幅器２１０に提供されてもよい。特に、１つ又は複数のオーディオ増幅器２１０は、複数のスピーカ２１２のうちの１つ又は複数を駆動するレベルまでオーディオ信号を増幅するように構成された装置を含んでもよい。１つ又は複数のスピーカ２１２は、個々のトランスデューサ（例えば「ドライバ」）を含むか、１つ又は複数のドライバを備えたエンクロージャを伴う完全なスピーカーシステムを含んでもよい。１つ又は複数のスピーカ２１２の特定のドライバは、例えば、サブウーファー（例えば低周波用）、ミッドレンジドライバ（例えば中周波用）、及び／又はツイーター（例えば高周波用）を含んでもよい。いくつかの場合には、１つ又は複数のスピーカ２１２における各トランスデューサは、１つ又は複数のオーディオ増幅器２１０の対応する個々のオーディオ増幅器によって駆動されてもよい。再生するためのアナログ信号を生成することに加えて、オーディオ処理構成要素２０８は、再生のために１つ又は複数の他の再生装置に送られるオーディオコンテンツを処理するように構成されてもよい。

再生装置によって処理及び／又は再生されるオーディオコンテンツは、オーディオラインイン入力接続（例えば、自動検出する３．５ｍｍオーディオラインイン接続）又はネットワークインターフェース２３０を介するような外部ソースから受信されてもよい。

ネットワークインターフェース２３０は、データネットワークにおける再生装置及び１つ又は複数の他の装置の間のデータフローを促進するように構成されてもよい。そのため、再生装置は、当該再生装置と通信する１つ又は複数の他の再生装置から、又はローカルエリアネットワーク内のネットワーク装置から、又はインターネットのようなワイドエリアネットワーク上のオーディオコンテンツソースから、データネットワークを介してオーディオコンテンツを受信するように構成されてもよい。一実施例では、再生装置によって送受信されるオーディオコンテンツ及び他の信号は、インターネットプロトコル（ＩＰ）に基づくソースアドレス及びＩＰに基づく宛先アドレスを含むディジタルパケットデータの形式で送信されてもよい。そのような場合において、ネットワークインターフェース２３０は、ある再生装置を宛先とするデータが当該再生装置によって適切に受信されて処理されるように、ディジタルパケットデータを構文解析するように構成されてもよい。

図示するように、ネットワークインターフェース２３０は、１つ又は複数の無線インターフェース２３２と、１つ又は複数の有線インターフェース２３４とを含んでもよい。無線インターフェース２３２は、所定の通信プロトコル（例えば、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇ移動体通信標準などを含む任意の無線標準）に従って、再生装置が他の装置（例えば、再生装置が関連付けられたデータネットワーク内における１つ又は複数の他の再生装置、１つ又は複数のスピーカ、１つ又は複数の受信機、１つ又は複数のネットワーク装置、１つ又は複数の制御装置）と無線通信するためのネットワークインターフェース機能を提供してもよい。１つ又は複数の有線インターフェース２３４は、所定の通信プロトコル（例えばＩＥＥＥ８０２．３）に従って、再生装置が有線接続を介して他の装置と通信するためのネットワークインターフェース機能を提供してもよい。図２に示すネットワークインターフェース２３０は無線インターフェース２３２及び有線インターフェース２３４の両方を含むが、いくつかの実施形態では、ネットワークインターフェース２３０は、１つ又は複数の無線のインターフェースのみ又は１つ又は複数の有線インターフェースのみを含んでもよい。

いくつかの実施形態では、オーディオコンテンツの２つの別個のオーディオ構成要素を再生するために、ある再生装置及びもう１つの再生装置がペアにされてもよい。例えば、居間におけるＬＥＦＴ再生装置１０２ｊが左チャンネルのオーディオ構成要素を再生するように構成されてもよく、その一方、ＲＩＧＨＴ再生装置１０２ａが右チャンネルのオーディオ構成要素を再生するように構成されてもよく、それによって、オーディオコンテンツのステレオ効果を生成又は向上させてもよい。同様に、食堂に指定された再生装置１０２ｌが左チャンネルのオーディオ構成要素を再生するように構成されてもよく、その一方、台所に指定された再生装置１０２ｉが右チャンネルのオーディオ構成要素を再生するように構成されてもよい。ペアになった再生装置は、さらに、他の再生装置と同期してオーディオコンテンツを再生してもよい。ペアになった再生装置を「結合再生装置（bonded playback devices）」と呼ぶこともある。

いくつかの実施形態では、単一の統合された再生装置を形成するために、再生装置のうちの１つ又は複数は、１つ又は複数の他の再生装置と音に関して統合されてもよい。統合された再生装置は、オーディオコンテンツを出力するために使用されてもよい追加の又は異なるスピーカドライバをそれぞれ有する、別個の再生装置を含んでもよい。例えば、統合された装置の低周波数範囲を出力するために、低周波数範囲のオーディオコンテンツを出力するように設計された再生装置（例えば、サブウーファー又は「ＳＵＢ」として指定された再生装置１０２ｋ）は、周波数全体にわたる再生装置（例えば、「ＦＲＯＮＴ」として指定された再生装置１０２ｂ）と統合されてもよい。そのような場合には、周波数全体の再生装置は、低周波数の再生装置と統合されるとき、低周波数の再生装置がオーディオコンテンツの低周波数成分を出力する一方で、オーディオコンテンツの中周波数成分及び高周波数成分のみを出力するように構成されてもよい。統合された再生装置は、１つ又は複数の他の再生装置とペアにされたり統合されたりしてもよい。例えば、図１は、ＳＵＢ再生装置１０２ｋがＦＲＯＮＴ再生装置１０２ｂと統合されてサブウーファーチャンネル及び中央チャンネルを形成し、さらに、ＲＩＧＨＴ再生装置１０２ａ及びＬＥＦＴ再生装置１０２ｊと統合された状態を示す。

先に議論したように、再生装置は、図２に示すように、ＮＭＤ１０３のうちの１つのようなネットワークマイクロホン装置を含んでもよい。ネットワークマイクロホン装置は、プロセッサ２１２、メモリ２１６、１つ又は複数のマイクロホン２２４などのような、再生装置の構成要素のうちの一部又はすべてを共用してもよい。他の実施例では、ネットワークマイクロホン装置は、ネットワークマイクロホン装置の動作の態様のための排他的な専用の構成要素を含む。例えば、ネットワークマイクロホン装置は、遠距離場マイクロホン及び／又は音声処理構成要素を含んでもよく、これらは、いくつかの例では再生装置が含まないことがある。もう１つの実施例では、ネットワークマイクロホン装置は、マイクロホンをイネーブル／ディセーブルするための接触感応性のボタンを含んでもよい。さらにもう１つの実施例では、ネットワークマイクロホン装置は、先に議論したように、スタンドアロン型装置であってもよい。

例示として、ソノズインコーポレイテッドは、現在、「ＰＬＡＹ：１」、「ＰＬＡＹ：３」、「ＰＬＡＹ：５」、「ＰＬＡＹＢＡＲ」、「ＣＯＮＮＥＣＴ：ＡＭＰ」、「ＣＯＮＮＥＣＴ」、及び「ＳＵＢ」を含む所定の再生装置を販売中である（又は販売してきた）。追加的又は代替的に、他の任意の過去、現在、及び／又は未来の再生装置は、ここに開示された例示的な実施形態の再生装置を実装するために使用されてもよい。さらに、再生装置は、図２に示す実施例又はソノズ製品の提供物に限定されないことは理解される。例えば、再生装置は、有線又は無線のヘッドフォンを含んでもよい。もう１つの実施例では、再生装置は、個人の移動メディア再生装置のためのドッキングステーションを含んでもよく、又はそのようなドッキングステーションと相互動作してもよい。さらにもう１つの実施例では、再生装置は、テレビジョン、照明器具、又は屋内もしくは屋外使用のための他の何らかの装置のような、もう１つの装置又は構成要素に一体化されてもよい。

ｂ．例示的な再生ゾーン構成
図１のメディア再生システム１００を再び参照すると、メディア再生システム１００は１つ又は複数の再生ゾーンを有して確立されてもよく、その後、図１に示す例示的な構成に到達するために、再生装置１０２及び／又はネットワーク装置１０３のうちの１つ又は複数が追加又は除去されてもよい。先に議論したように、ゾーン及びゾーングループには、一意的な名前、及び／又は、１つ又は複数の装置が位置する空間に対応する名前が与えられてもよい。

一実施例では、図１の環境における１つ又は複数の再生ゾーンはそれぞれ、互いに異なるオーディオコンテンツを再生してもよい。例えば、ユーザは、バルコニーゾーンにおいてグリル調理しながら、再生装置１０２ｃによって再生されているヒップホップ音楽を聴いていてもよく、その一方、もう１人のユーザは、台所ゾーンにおいて食べ物を準備しながら、再生装置１０２ｉによって再生されているクラシック音楽を聴いていてもよい。もう１つの実施例では、ある再生ゾーンは、もう１つの再生ゾーンと同期して同じオーディオコンテンツを再生してもよい。例えば、ユーザはオフィスゾーンにあって、ここで、再生装置１０２ｄが、バルコニーゾーンにおいて再生装置１０２ｃによって再生されているものと同じヒップホップ音楽を再生していてもよい。そのような場合には、ユーザが、スピーカから再生されているオーディオコンテンツを、異なる再生ゾーン間で移動しながらシームレスに（又は少なくとも実質的にシームレスに）楽しめるように、再生装置１０２ｃ及び１０２ｄはヒップホップを同期して再生していてもよい。前述した米国特許第８２３４３９５号明細書に記載されているように、再生ゾーン間の同期化は再生装置間の同期化と同様の方法で達成されてもよい。

ネットワークマイクロホン装置は、その近傍におけるユーザから音声入力を受けてもよい。ネットワークマイクロホン装置は、ユーザが音声入力を話していることを検出して音声入力を取り込んでもよい。例えば、図１に示す実施例では、ＮＭＤ１０３ａは、居間ゾーン、食堂ゾーン、及び／又は台所ゾーンの近傍においてユーザの音声入力を取り込んでもよい。いくつかの例では、台所におけるＮＭＤ１０４ｆ及び／又は居間における他のＮＭＤ１０４ｂのような、ホーム環境における他のネットワークマイクロホン装置は、同じ音声入力を取り込んでもよい。そのような例では、ＮＭＤ１０３のうちの少数又は最も近接したもののみがユーザの音声入力を処理するように、音声入力を検出するネットワーク装置は互いに調停するように構成されてもよい。音声入力を処理するためにネットワークマイクロホン装置を選択することの他の例は、例えば、２０１６年６月９日に出願された「Dynamic Player Selection for Audio Signal Processing（オーディオ信号処理のための動的なプレーヤ選択）」と題する米国特許出願第１５／１７１１８０号明細書と、２０１６年７月１５日に出願された「Voice Detection by Multiple Devices（複数の装置による音声検出）」と題する米国特許出願第１５／２１１７４８号明細書からわかる。これらの文献のそれぞれの全体は、参照によってここに組み込まれる。ネットワークマイクロホン装置は、詳細後述するように、音声入力に応答して、選択された再生装置１０２及び／又はネットワークマイクロホン装置１０３を制御してもよい。

先に提案したように、メディア再生システム１００のゾーン構成は動的に変更されてもよい。そのため、メディア再生システム１００は多数の構成をサポートしてもよい。例えば、ユーザが１つ又は複数の再生装置をあるゾーンへ、又はあるゾーンから物理的に移動させる場合、メディア再生システム１００は、１つ又は複数の変化に合わせるように再構成されてもよい。例えば、ユーザが再生装置１０２ｃをバルコニーゾーンからオフィスゾーンに物理的に移動させる場合、オフィスゾーンはここで再生装置１０２ｃ及び１０２ｄの両方を含んでもよい。いくつかの場合には、ユーザは、移動された再生装置１０２ｃをオフィスゾーンとペア又はグループ化してもよく、及び／又は、例え制御装置１０４及び／又は音声入力のうちの一方を用いて、オフィスゾーンにおけるプレーヤの名前を変更してもよい。もう１つの実施例として、１つ又は複数の再生装置１０２が、まだ再生ゾーンになっていないホーム環境における特定のエリアに移動される場合、移動された１つ又は複数の再生装置は、その名前が変更されるか、又は、特定のエリアに係る再生ゾーンに関連付けられてもよい。

さらに、メディア再生システム１００の互いに異なる複数の再生ゾーンは、動的に組み合わされてゾーングループにされるか、又は、個々の再生ゾーンに分割されてもよい。例えば、食堂ゾーン及び台所ゾーンが、ディナーパーティーのためのゾーングループへ組み合わせられてもよく、これにより、再生装置１０２ｉ及び１０２ｌがオーディオコンテンツを同期して出力してもよい。もう１つの実施例として、前述の統合されたＴＶ装置のための居間ゾーンで統合された再生装置１０２は、（ｉ）テレビジョンゾーン及び（ｉｉ）別個の聴取ゾーンへ分割されてもよい。テレビジョンゾーンは、ＦＲＯＮＴ再生装置１０２ｂを含んでもよい。聴取ゾーンは、ＲＩＧＨＴ再生装置１０２ａ、ＬＥＦＴ再生装置１０２ｊ、及びＳＵＢ再生装置１０２ｋを含んでもよく、これらは、前述したように、グループ化されてもよく、ペアにされてもよく、又は統合されてもよい。そのような方法で居間ゾーンを分割することにより、あるユーザが居間の空間の１つのエリアにおいて聴取ゾーンの音楽を聴取し、もう１人のユーザが居間の空間のもう１つのエリアにおいてテレビジョンを見ることが可能になりうる。関連する実施例では、ユーザは、テレビジョンゾーン及び聴取ゾーンへ分離される前に居間ゾーンを制御するために、ＮＭＤ１０３ａ及び１０３ｂのいずれかを実装してもよい。いったん分離されると、聴取ゾーンはＮＭＤ１０３ａの近傍におけるユーザによって制御されてもよく、テレビジョンゾーンはＮＭＤ１０３ｂの近傍におけるユーザによって制御されてもよい。しかしながら、前述したように、ＮＭＤ１０３のうちの任意のものが、メディア再生システム１００の様々な再生装置及び他の装置を制御するように構成されてもよい。

ｃ．例示的な制御装置
図３は、図１のメディア再生システム１００の制御装置１０４のうちの選択されたものに係る所定の態様を示す機能ブロック図である。そのような制御装置をコントローラと呼ぶこともある。図３に示す制御装置は、プロセッサ３１２、メモリ３１６、１つ又は複数のマイクロホン３２４、及びネットワークインターフェース３３０のような、上述したネットワーク装置の所定の構成要素に概して類似した構成要素を含んでもよい。一実施例では、制御装置は、メディア再生システム１００のための専用コントローラであってもよい。もう１つの実施例では、制御装置は、例えば、ｉＰｈｏｎｅ（登録商標）、ｉＰａｄ（登録商標）又は他の任意のスマートフォン、タブレット又はネットワーク装置（例えば、ＰＣ又はＭａｃ（登録商標）のようなネットワーキングされたコンピュータ）のような、メディア再生システムのコントローラアプリケーションソフトウェアがインストールされてもよいネットワーク装置であってもよい。

制御装置のメモリ３１６は、コントローラアプリケーションソフトウェアと、メディア再生システム１００及びそのユーザに関連付けられた他のデータとを格納するように構成されてもよい。メモリ３１６には、メディア再生システム１００のユーザアクセス、制御、及び構成を促進することのような所定の機能を達成するためにプロセッサ３１２によって実行可能な１つ又は複数のソフトウェア構成要素３１４がロードされてもよい。制御装置は、前述したように、無線インターフェースのようなネットワークインターフェース３３０を介して他のネットワーク装置と通信する。

一実施例では、（例えば状態変数のような）データ及び情報は、ネットワークインターフェース３３０を介して制御装置及び他の装置の間で伝送されてもよい。例えば、メディア再生システム１００における再生ゾーン及びゾーングループの構成は、制御装置によって、再生装置、ネットワークマイクロホン装置、又はもう１つのネットワーク装置から受信されてもよく、又は、制御装置によって、ネットワークインターフェース３０６を介してもう１つの再生装置又はネットワーク装置に送信されてもよい。いくつかの場合には、他のネットワーク装置はもう１つの制御装置であってもよい。

音量制御及びオーディオ再生制御のような再生装置制御コマンドもまた、制御装置からネットワークインターフェース３３０を介して再生装置に伝送されてもよい。先に提案したように、メディア再生システム１００の構成の変更もまた、ユーザによって制御装置を用いて実行されてもよい。構成の変更は、とりわけ、１つ又は複数の再生装置をゾーンに対して追加／除去すること、１つ又は複数のゾーンをゾーングループに対して追加／除去すること、結合又は統合されたプレーヤを形成すること、結合又は統合されたプレーヤから１つ又は複数の再生装置を分離することを含んでもよい。

制御装置の１つ又は複数のユーザインターフェース３４０は、図４Ａ及び図４Ｂに示すコントローラインターフェース４００ａ及び４００ｂ（まとめて「コントローラインターフェース４４０」）のような１つ又は複数のコントローラインターフェースを提供することにより、メディア再生システム１００のユーザアクセス及び制御を促進するように構成されてもよい。図４Ａ及び図４Ｂをともに参照すると、コントローラインターフェース４４０は、再生制御領域４４２、再生ゾーン領域４４３、再生状態領域４４４、再生キュー領域４４６、及びソース領域４４８を含む。図示するようなユーザインターフェース４００は、図３に示す制御装置のようなネットワーク装置に提供されてもよいユーザインターフェースであって、メディア再生システム１００のようなメディア再生システムを制御するためにユーザによってアクセスされてもよいユーザインターフェースの単なる一例である。メディア再生システムへの同等の制御アクセスを提供するために、代替として、１つ又は複数のネットワーク装置において、変化するフォーマット、スタイル、及び対話型シーケンスを有する他のユーザインターフェースが実装されてもよい。

再生制御領域４４２（図４Ａ）は、選択された再生ゾーン又はゾーングループにおける再生装置を再生又は一時停止、早送り、巻き戻し、次にスキップ、前にスキップ、シャッフルモード開始／終了、リピートモード開始／終了、クロスフェードモード開始／終了させる、（例えば、タッチによって、又はカーソルを用いて）選択可能なアイコンを含んでもよい再生制御領域４４２は、他の可能性の中でもとりわけ、イコライゼーション設定及び再生音量を変更するための選択可能なアイコンを含んでもよい。

再生ゾーン領域４４３（図４Ｂ）は、メディア再生システム１００内における再生ゾーンの表現を含んでもよい。いくつかの実施形態では、再生ゾーンのグラフィカル表現は、他の可能性の中でもとりわけ、結合されたゾーンの作成、ゾーングループの作成、ゾーングループの分離、及びゾーングループの名前の変更のような、メディア再生システムにおける再生ゾーンを管理又は構成するための追加の選択可能なアイコンを画面に表示するために選択可能であってもよい。

例えば、図示するように、再生ゾーンのグラフィカル表現のそれぞれの内部に「グループ」アイコンが提供されてもよい。特定のゾーンのグラフィカル表現の内部に提供された「グループ」アイコンは、特定のゾーンとグループ化されるメディア再生システムにおける１つ又は複数の他のゾーンを選択するためのオプションを画面に表示するために選択可能であってもよい。いったんグループ化されると、特定のゾーンとグループ化されたゾーンにおける再生装置は、特定のゾーンにおける１つ又は複数の再生装置と同期してオーディオコンテンツを再生するように構成される。同様に、ゾーングループのグラフィカル表現の内部に「グループ」アイコンが提供されてもよい。この場合、「グループ」アイコンは、ゾーングループにおける１つ又は複数のゾーンであって、ゾーングループから除去すべきゾーンを選択解除するオプションを画面に表示するために選択可能であってもよい。また、ユーザインターフェース４００のようなユーザインターフェースを介してゾーンをグループ化及びグループ化解除するための他の対話的操作及び実施例も可能である。再生ゾーン領域４４３（図４Ｂ）における再生ゾーンの表現は、再生ゾーン又はゾーングループの構成が変更されるときに動的に更新されてもよい。

再生状態領域４４４（図４Ａ）は、選択された再生ゾーン又はゾーングループにおいて現在再生されているか、以前に再生されたか、次に再生するようにスケジューリングされたオーディオコンテンツのグラフィカル表現を含んでもよい。選択された再生ゾーン又はゾーングループは、再生ゾーン領域４４３及び／又は再生状態領域４４４の内部など、ユーザインターフェースにおいて視覚的に識別されてもよい。グラフィカル表現は、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラック長、及びユーザインターフェース４４０を介してメディア再生システムを制御するときにユーザが知っていることが有用かもしれない他の関連情報を含んでもよい。

再生キュー領域４４６は、選択された再生ゾーン又はゾーングループに関連付けられた再生キューにおけるオーディオコンテンツのグラフィカル表現を含んでもよい。いくつかの実施形態では、各再生ゾーン又はゾーングループは、再生ゾーン又はゾーングループによる再生のための０個又はそれよりも多くのオーディオアイテムに対応する情報を含む再生キューに関連付けられていてもよい。例えば、再生キューにおける各オーディオアイテムは、おそらくは再生装置による再生のために、ローカルのオーディオコンテンツソース又はネットワーク化されたオーディオコンテンツソースからオーディオアイテムを発見及び／又は検索するためのＵＲＩ（uniform resource identifier）、ＵＲＬ（uniform resource locator）、又は再生ゾーン又はゾーングループにおいて再生装置によって使用されうる他の何らかの識別子を備えてもよい。

一実施例では、再生キューにプレイリストが追加されてもよく、その場合、プレイリストにおける各オーディオアイテムに対応する情報が再生キューに追加されてもよい。もう１つの実施例では、再生キューにおけるオーディオアイテムは、プレイリストとして保存されてもよい。さらなる実施例では、所定長さの再生時間を有する個別のオーディオアイテムではなく、停止されるまでは再生し続けてもよいインターネットラジオのような、連続的にストリーミングするオーディオコンテンツを再生ゾーン又はゾーングループが再生しているとき、再生キューは空きであってもよく、又は、占有されているが使用されていない状態にあってもよい。代替の実施形態では、再生キューは、インターネットラジオ及び／又は他のストリーミングオーディオコンテンツアイテムを含んでもよく、再生ゾーン又はゾーングループがそれらのアイテムを再生しているときに「使用中」になってもよい。他の実施例もまた可能である。

再生ゾーン又はゾーングループが「グループ化」又は「グループ化解除」されているとき、影響を受けた再生ゾーン又はゾーングループに関連付けられた再生キューは、クリアされてもよく、又は、再び関連付けされてもよい。例えば、第１の再生キューを含む第１の再生ゾーンが、第２の再生キューを含む第２の再生ゾーンとグループ化される場合、確立されたゾーングループは、最初に空きであり、第１の再生キューからのオーディオアイテムを含み（第２の再生ゾーンが第１の再生ゾーンに追加された場合）、第２の再生キューからのオーディオアイテムを含み（第１の再生ゾーンが第２の再生ゾーンに追加された場合）、又は、第１及び第２の再生キューの両方からのオーディオアイテムの組み合わせを含む、関連付けられた再生キューを有してもよい。続いて、確立されたゾーングループがグループ化解除される場合、結果として生じる第１の再生ゾーンは、以前の第１の再生キューに再び関連付けられてもよく、又は、空きである新たな再生キューに、又は、確立されたゾーングループがグループ化解除される前に確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新たな再生キューに関連付けられてもよい。同様に、結果として生じる第２の再生ゾーンは、以前の第２の再生キューに再び関連付けられてもよく、又は、空きである新たな再生キューに、又は、確立されたゾーングループがグループ化解除される前に確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新たな再生キューに関連付けられてもよい。他の実施例もまた可能である。

図４Ａ及び図４Ｂをなお参照すると、再生キュー領域４４６におけるオーディオコンテンツのグラフィカル表現（図４Ｂ）は、トラックタイトル、アーティスト名、トラック長、及び再生キューにおけるオーディオコンテンツに関連付けられた他の関連情報を含んでもよい。一実施例では、オーディオコンテンツのグラフィカル表現は、再生キュー及び／又はそこに表されたオーディオコンテンツを管理及び／又は操作するための追加の選択可能なアイコンを画面に表示するために選択可能であってもよい。例えば、表されたオーディオコンテンツは、他の可能性の中でもとりわけ、再生キューから除去されてもよく、再生キュー内の異なる位置に移動されてもよく、又は、直ちに再生されるか、もしくは現在再生している任意のオーディオコンテンツの後に再生されるように選択されてもよい。ある再生ゾーン又はゾーングループに関連付けられた再生キューは、当該再生ゾーン又はゾーングループにおける１つ又は複数の再生装置におけるメモリに格納されてもよく、当該再生ゾーン又はゾーングループにはない再生装置におけるメモリに格納されてもよく、及び／又は、他の何らかの指定された装置に格納されてもよい。そのような再生キューの再生は、キューのメディアアイテムを、逐次又はランダムな順序で再生する１つ又は複数の再生装置を含んでもよい。

ソース領域４４８は、対応するＶＡＳに関連付けられた選択可能なオーディオコンテンツソース及び選択可能な音声アシスタントのグラフィカル表現を含んでもよい。ＶＡＳは選択的に割り当てられてもよい。いくつかの実施例では、同じネットワークマイクロホン装置によって、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）及びもう１つの音声サービスのような複数のＶＡＳが呼び出し可能であってもよい。いくつかの実施形態では、ユーザは、先に議論したように、１つのＶＡＳを、１つ又は複数のネットワークマイクロホン装置に排他的に割り当ててもよい。例えば、ユーザは、図１に示す居間の空間におけるＮＭＤ１０２ａ及び１０２ｂの一方又は両方に第１のＶＡＳを割り当て、台所の空間におけるＮＭＤ１０３ｆに第２のＶＡＳを割り当ててもよい。他の実施例もまた可能である。

ｄ．例示的なオーディオコンテンツソース
ソース領域４４８におけるオーディオソースは、選択された再生ゾーン又はゾーングループによってオーディオコンテンツが検索及び再生されうるオーディオコンテンツソースであってもよい。ゾーン又はゾーングループにおける１つ又は複数の再生装置は、さまざまな利用可能なオーディオコンテンツソースから、再生するオーディオコンテンツを（例えば、オーディオコンテンツのための対応するＵＲＩ又はＵＲＬに従って）検索するように構成されてもよい。一実施例では、オーディオコンテンツは、再生装置によって、対応するオーディオコンテンツソースから直接的に（例えばラインイン接続で）検索されてもよい。もう１つの実施例では、オーディオコンテンツは、１つ又は複数の他の再生装置又はネットワークの装置を介してネットワーク上の再生装置に提供されてもよい。

例示的なオーディオコンテンツソースは、他の可能性の中でもとりわけ、図１のメディア再生システム１００のようなメディア再生システムにおける１つ又は複数の再生装置のメモリ、１つ又は複数のネットワーク装置（例えば、制御装置、ネットワーク機能を有するパーソナルコンピュータ、又はネットワーク接続ストレージ（networked-attached storage：ＮＡＳ））におけるローカルミュージックライブラリ、インターネット（例えばクラウド）を介してオーディオコンテンツを提供するストリーミングオーディオサービス、又は、再生装置又はネットワーク装置におけるラインイン入力接続を介してメディア再生システムに接続されたオーディオソースを含んでもよい。

いくつかの実施形態では、オーディオコンテンツソースは、図１のメディア再生システム１００のようなメディア再生システムに対して、定期的に追加又は除去されてもよい。一実施例では、１つ又は複数のオーディオコンテンツソースの追加、除去、又は更新が行われる場合は常に、オーディオアイテムのインデックス付与が実行されてもよい。オーディオアイテムのインデックス付与は、メディア再生システムにおける再生装置によってアクセス可能なネットワークを介して共有されるすべてのフォルダ／ディレクトリにおける識別可能なオーディオアイテムを走査することと、メタデータ（例えば、とりわけ、タイトル、アーティスト、アルバム、トラック長）と、発見された各識別可能なオーディオアイテムのＵＲＩ又はＵＲＬのような、他の関連付けられた情報とを含むオーディオコンテンツデータベースを生成又は更新することと含んでいてもよい。オーディオコンテンツソースを管理及び保持するための他の実施例もまた可能である。

ｅ．例示的なネットワークマイクロホン装置
図５Ａは、本開示の態様に係るＮＭＤ１０３のうちの１つ又は複数に係る追加機能を示す機能ブロック図である。図５Ａに示すネットワークマイクロホン装置は、プロセッサ２１２（図２）、ネットワークインターフェース２３０（図２）、１つ又は複数のマイクロホン２２４、及びメモリ２１６のような、上述したネットワークマイクロホン装置の所定の構成要素に概して類似した構成要素を含んでもよい。明確性のために図示しないが、ネットワークマイクロホン装置は、上で議論したように、スピーカ、増幅器、信号プロセッサのような他の構成要素を含んでもよい。

１つ又は複数のマイクロホン２２４は、ネットワークマイクロホン装置の環境において音（sound）を検出するように構成された複数のマイクロホンであってもよい。一実施例では、１つ又は複数のマイクロホン２２４は、ネットワークマイクロホン装置に対して１つ又は複数の方向からオーディオを検出するように構成されてもよい。１つ又は複数のマイクロホン２２４は、周波数範囲の一部に対して敏感であってもよい。一実施例では、１つ又は複数のマイクロホン２２４のうちの第１の部分集合は第１の周波数範囲に対して敏感であってもよく、一方、１つ又は複数のマイクロホン２２４のうちの第２の部分集合は第２の周波数範囲に対して敏感であってもよい。１つ又は複数のマイクロホン２２４は、さらに、オーディオソース（例えば、音声、可聴な音（sound））の場所情報を取り込むように、及び／又は、背景ノイズのフィルタリングを支援するように構成されてもよい。特に、いくつかの実施形態では、マイクロホン２２４は、複数のマイクロホンではなく単一のマイクロホンを有してもよい。

ネットワークマイクロホン装置は、ウェイクワード検出器５５２、ビームフォーマ５５３、音響エコーキャンセラ（acoustic echo canceller：ＡＥＣ）５５４、及びスピーチ／テキスト変換５５５（例えば、音声からテキストに、及び、テキストから音声に）をさらに含んでもよい。さまざまな実施形態では、ウェイクワード検出器５５２、ビームフォーマ５５３、ＡＥＣ５５４、及びスピーチ／テキスト変換５５５のうちの１つ又は複数は、プロセッサ２１２のサブコンポーネントであってもよく、又は、プロセッサ２１２によって実行可能なメモリ２１６に格納されたソフトウェアとして実装されてもよい。

ウェイクワード検出器５５２は、受信されたオーディオをモニタリング及び解析して、オーディオの中に任意のウェイクワードがあるか否かを決定するように構成される。ウェイクワード検出器５５２は、ウェイクワード検出アルゴリズムを用いて、受信されたオーディオを解析してもよい。ウェイクワード検出器５５２がウェイクワードを検出したとき、ネットワークマイクロホン装置は、受信されたオーディオに含まれる音声入力を処理してもよい。例示的なウェイクワード検出アルゴリズムは、オーディオを入力として受理し、オーディオの中にウェイクワードがあるか否かの表示を提供する。多数のファーストパーティー及びサードパーティーウェイクワード検出アルゴリズムが知られていて、商業的で入手可能である。例えば、音声サービスのオペレータは、それらのアルゴリズムがサードパーティー装置における使用のために利用可能にしてもよい。代替として、アルゴリズムは、所定のウェイクワードを検出するようにトレーニングされてもよい。

いくつかの実施形態では、ウェイクワード検出器５５２は、受信されたオーディオに対して複数のウェイクワード検出アルゴリズムを同時に（又は実質的に同時に）実行する。上で注意したように、異なる音声サービス（例えば、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）、ＡＰＰＬＥのＳＩＲＩ（登録商標）、又はＭＩＣＲＯＳＯＦＴのＣＯＲＴＡＮＡ（登録商標））は各々、それらの各音声サービスを起動するために異なるウェイクワードを使用する。複数のサービスをサポートするために、ウェイクワード検出器５５２は、受信されたオーディオを、各サポートされた音声サービスのウェイクワード検出アルゴリズムに並列に処理させてもよい。

ビームフォーマ５５３及びＡＥＣ５５４は、オーディオ信号を検出し、検出されたオーディオ内の音声入力の態様、例えば、方向、振幅、周波数スペクトルなどを決定するように構成される。例えば、ビームフォーマ５５３及びＡＥＣ５５４は、ネットワークマイクロホン装置と、ネットワークマイクロホン装置に話しかけるユーザとの間のおおよその距離を決定する処理において使用されてもよい。もう１つの実施例では、ネットワークマイクロホン装置は、メディア再生システムにおけるもう１つのネットワークマイクロホン装置に対するユーザの相対的な近接度を検出してもよい。

図５Ｂは、本開示の態様に係る例示的な音声入力の図である。音声入力は、ネットワークマイクロホン装置によって、例えば、図１に示すＮＭＤ１０３のうちの１つ又は複数によって取り込まれてもよい。音声入力は、ウェイクワード部分５５７ａ及び音声発話部分５５７ｂ（まとめて「音声入力５５７」）を含んでもよい。いくつかの実施形態では、ウェイクワード５５７ａは、既知のウェイクワード、例えば、ＡＭＡＺＯＮのＡＬＥＸＡ（登録商標）に関連付けられた「Ａｌｅｘａ」であってもよい。

いくつかの実施形態では、ネットワークマイクロホン装置は、ウェイクワード部分５５７ａを検出したとき、可聴及び／又は可視の応答を出力してもよい。追加又は代替として、ネットワークマイクロホン装置は、音声入力及び／又は一連の音声入力（例えば、マルチターン要求の場合）を処理した後に、可聴及び／又は可視の応答を出力してもよい。

音声発話部分５５７ｂは、例えば、１つ又は複数の発話されたコマンド５５８（第１のコマンド５５８ａ及び第２のコマンド５５８ｂとして個々に識別される）と、１つ又は複数の発話されたキーワード５５９（第１のキーワード５５９ａ及び第２のキーワード５５９ｂとして個々に識別される）とを含んでもよい。一実施例では、第１のコマンド５５７ａは、特定の歌、アルバム、プレイリストなどのような音楽を再生するコマンドであってもよい。この実施例では、キーワード５５９は、図１に示す居間及び食堂のような、音楽が演奏される１つ又は複数のゾーンを識別するワードのうちの１つであってもよい。いくつかの実施例では、音声発話部分５５７ｂは、図５Ｂに示すように、ユーザによって発話されたワード間において検出されたポーズ（例えば非スピーチの期間）のような他の情報を含むことができる。ポーズは、音声発話部分５５７ｂ内においてユーザによって発話された別個のコマンド、キーワード、又は他の情報の場所を区別（demarcate）しうる。

いくつかの実施形態では、メディア再生システム１００は、ウェイクワード部分５５７ａを検出しているときに再生中であるオーディオコンテンツの音量を一時的に低減するように構成される。図５Ｂに示すように、メディア再生システム１００は、音声入力５５７を処理した後に音量を復元してもよい。そのような処理はダッキング（ducking）と呼ばれることもあり、その実施例は、２０１６年９月２７日に出願された「音声対話的操作のためのオーディオ再生設定（Audio Playback Settings for Voice Interaction）」と題する米国特許出願第１５／２７７８１０号明細書に開示され、その全体は参照によってここに組み込まれる。

ｆ．例示的なネットワークシステム
図６は、図１における１つ又は複数の遠隔の計算装置１０５についての追加の詳細事項を示す機能ブロック図である。さまざまな実施形態では、１つ又は複数の遠隔の計算装置１０５は、図１に示すＷＡＮ１０７を介して、ＮＭＤ１０３のうちの１つ又は複数から音声入力を受信してもよい。説明のため、音声入力５５７（図５Ｂ）の選択された通信経路は、図６では矢印によって表される。一実施形態では、１つ又は複数の遠隔の計算装置１０５によって処理された音声入力５５７は、音声発話部分５５７ｂ（図５Ｂ）を含んでもよい。もう１つの実施形態では、処理された音声入力５５７は、音声発話部分５５７ｂ及びウェイクワード５５７ａ（図５Ｂ）の両方を含んでもよい。

１つ又は複数の遠隔の計算装置１０５はシステムコントローラ６１２を含み、システムコントローラ６１２は、１つ又は複数のプロセッサ、意図エンジン６０２、及びメモリ６１６を備える。メモリ６１６は、システムコントローラ６１２によって、及び／又は、再生装置１０２、ネットワークマイクロホン装置１０３、及び／又は制御装置１０４のうちの１つ又は複数によって実行可能な命令を格納するように構成された有形物のコンピュータ可読媒体であってもよい。

意図エンジン６６２は、音声入力を処理し、入力の意図を決定するように構成される。いくつかの実施形態では、意図エンジン６６２は、システムコントローラ６１２のサブコンポーネントであってもよい。意図エンジン６６２は、音声入力を処理するために、１つ又は複数のデータベース、例えば１つ又は複数のＶＡＳデータベース６６４と対話的に動作してもよい。１つ又は複数のＶＡＳデータベース６６４は、メモリ６１６に存在してもよく、又は、再生装置１０２、ネットワークマイクロホン装置１０３、及び／又は制御装置１０４のうちの１つ又は複数のメモリのような他の場所に存在してもよい。いくつかの実施形態では、１つ又は複数のＶＡＳデータベース６６４は、音声入力処理に基づいて適応学習及びフィードバックのために更新されてもよい。１つ又は複数のＶＡＳデータベース６６４は、ＮＬＵに関連した処理及び／又は他の処理のための様々なユーザデータ、分析情報、カタログ、及び他の情報を格納してもよい。

遠隔の計算装置１０５は、フィードバック、情報、命令、及び／又は関連するデータを、様々な再生装置１０２、ネットワークマイクロホン装置１０３、及び／又は制御装置１０４と交換してもよい。そのような交換は、音声入力を含む送信されたメッセージに関連してもよく、又は、そのようなメッセージから独立であってもよい。いくつかの実施形態では、１つ又は複数の遠隔の計算装置１０５及びメディア再生システム１００は、ここで説明するように通信経路を介してデータを交換してもよく、及び／又は、２０１６年４月１８日に出願された「ネットワーク化された再生システム及びネットワーク化されたマイクロホンシステムを伴うメタデータ交換（Metadata exchange involving a networked playback system and a networked microphone system）」と題する米国特許出願第１５／１３１２４４号明細書に記載されるようなメタデータ交換チャネルを用いてデータを交換してもよい。米国特許出願第１５／１３１２４４号明細書の全体が参照によって組み込まれる。

メディア再生システム１００の装置による音声入力の処理は、少なくとも部分的には、１つ又は複数の遠隔の計算装置１０５による音声入力の処理と並列に実行されてもよい。さらに、ネットワークマイクロホン装置のスピーチ／テキスト変換構成要素５５５は、１つ又は複数の遠隔の計算装置１０５からの応答を、１つ又は複数のスピーカを介する可聴な出力のためのスピーチに変換してもよい。

図１は、ここに開示した１つ又は複数の実施形態が実施又は実装されてもよいメディア再生システム１００の例示的な構成を示す。図示したようなメディア再生システム１００は、例えば、主寝室、オフィス、食堂、及び居間のような、いくつかの部屋及び空間を有する例示的なホーム環境に関連付けられている。例えば、メディア再生システム１００は、再生装置１０２（再生装置１０２ａ〜１０２ｌとして個々に識別される）、制御装置１０３ａ及び１０３ｂ（まとめて「制御装置１０３」）、及びネットワークマイクロホン装置１０４（「ＮＭＤ」；ＮＭＤ１０４ａ〜１０４ｇとして個々に識別される）、及び有線又は無線ネットワークルータ１０６を含む。

いくつかの実施例では、対応するＮＭＤ１０４ａ〜１０４ｅをそれぞれ含む再生装置１０２ａ〜１０２ｅのうちの１つのように、１つ又は複数の個々の再生装置１０２は、オンボードの（例えば一体化された）ＮＭＤを有してもよい。いくつかの例では、ＮＭＤは、ＮＭＤ１０４ｆ又はＮＭＤ１０ｆｇのようなスタンドアロン型装置であってもよい。スタンドアロン型ＮＭＤは、スピーカ又は関連する電子回路などの構成要素を省略してもよく、その場合、それは、オーディオ出力を生成しなくてもよく、又は、限られたオーディオ出力（例えば、再生装置による出力の品質に比べて相対的に低品質の出力）を生成してもよい。例えば、再生装置は、スタンドアロン型ＮＭＤより高品質の出力を生成するように、スタンドアロン型ＮＭＤと比較して、より多くのトランスデューサ、より大きなトランスデューサ（例えばウーファー）、及び／又はより強力な増幅器を有してもよい。

いくつかの実施例では、１つ又は複数のＮＭＤは、１つの再生装置に割り当てられてもよく、再生装置のグループに割り当てられてもよく、及び／又は、再生装置の関連付けられた集合に割り当てられてもよい。例えば、ＮＭＤ１０４ｆは、居間において再生装置１０２ａに割り当てられ、及び／又は、台所において再生装置１０２ｉに割り当てられてもよい。そのような実施例では、ＮＭＤは、ＡＭＡＺＯＮ（登録商標）のＡｌｅｘａ（登録商標）のような単一の音声アシスタントサービスに割り当てられてもよく、又は、もう１つの音声アシスタントサービスに割り当てられてもよい。再生装置及びＮＭＤの割り当てに関するさらなる詳細事項は、例えば、２０１６年４月１４日に出願された「デフォルト再生装置の指定（Default Playback Device Designation）」と題する米国特許出願第１５／０９８８６７号明細書、２０１６年４月１４日に出願された「Default Playback Devices（デフォルト再生装置）」と題する米国特許出願第１５／０９８８９２号明細書、「オーディオ応答再生（Audio Response Playback）」と題する米国特許出願第１５／２３７１３３号明細書、及び、２０１６年８月５日に出願された「オーディオ再生装置に対するネットワークマイクロホン装置の方向の決定（Determining Direction of Networked Microphone Device Relative to Audio Playback Device）」と題する米国特許出願第１５／２２９８５５号明細書に記載されている。これらの出願のそれぞれの全体は、参照によってここに組み込まれる。

例示的なメディア再生システム１００の互いに異なる複数の構成要素に関するさらなる議論について、また、ユーザにメディア体験を提供するために互いに異なる複数の構成要素がどのように相互作用しうるかについて、以下のセクションからわかるであろう。ここでの議論は、概して、例示的なメディア再生システム１００を参照しているかもしれないが、ここで説明した技術は、とりわけ、図１に示すようなホーム環境内におけるアプリケーションに限定されるものではない。例えば、ここで説明した技術は、マルチゾーンオーディオが所望される可能性がある環境において、例えば、レストラン、モール、又は空港のような商用設定の環境、また、スポーツ多目的車（ＳＵＶ）、バス又は自動車、船又はボート、飛行機のような乗物の環境などにおいて有用となりうる。

ＩＩＩ．例示的な音響エコーキャンセル技術
ａ．第１の実施例の音響エコーキャンセルパイプライン
上で議論したように、ここで説明したいくつかの実施形態は音響エコーキャンセレーションを含んでいてもよい。図８Ａは、ＮＭＤ１０３ａ〜１０３ｅのようなＮＭＤを含む再生装置の内部に実装されるように構成された音響エコーキャンセレーションパイプライン８００ａの機能ブロック図である。例示として、音響エコーキャンセレーションパイプライン８００ａは、図２の再生装置１０２の内部に実装されるものとして説明される。しかしながら、他の実施例では、音響エコーキャンセレーションパイプライン８００ａは、ＮＭＤ１０３ｆ〜１０３ｇのような、必ずしも再生装置ではないＮＭＤ（例えば、スピーカを含まない装置、又は、音声入力へのオーディオフィードバックを提供するように構成された比較的に低出力のスピーカを含む装置）として実装されてもよい。

動作において、音響エコーキャンセレーションパイプライン８００ａは再生装置１０２がオーディオコンテンツを再生しているときに起動される。上で注意したように、音響エコーキャンセレーションは、ネットワークマイクロホン装置の１つ又は複数のマイクロホンによって取り込まれた信号から音響エコー（すなわち、オーディオ再生及び反射及び／又は音響環境からの他の音響アーティファクトの音（sound））を除去するために使用可能である。有効である場合、音響エコーキャンセレーションは、音響環境内における他の音に関して音声入力の信号対雑音比を改善する。いくつかの実施例では、オーディオ再生が一時停止されたとき、又はさもなければアイドル状態にあるとき、音響エコーキャンセレーションパイプライン８００ａはバイパスされるか、又はさもなければ無効に（ディセーブル）される。

図８Ａに示すように、マイクロホンアレイ２２４は、「測定された信号」を取り込むように構成される。それは音響エコーキャンセレーションパイプライン８００ａへの入力となる。図２及び図５に関して前述したように、マイクロホンアレイ２２４は、１人又は複数人のユーザから音声入力（例えば、ウェイクワード及び／又は発話）を検出しようとして、音響環境内においてオーディオを取り込むように構成可能である。再生装置１０２がスピーカ２２２（図２）を介してオーディオコンテンツを再生するとき、マイクロホンアレイ２２４は、音響環境内において生成されている他の音に加えて、オーディオコンテンツを再生する際にスピーカ２２２によって生成された音を表すオーディオ信号をさらに含むオーディオを取り込む可能性がある。

ブロック８７０ａにおいて、測定された信号は、音響エコーキャンセレーションを行う前に前処理される。測定された信号の前処理は、マイクロホンアレイ信号のアナログディジタル変換を含んでもよい。他の前処理は、他の例の中でもとりわけ、サンプルレート変換、デジッタリング、デインタリービング、又はフィルタリングを含んでもよい。用語「測定された信号」は、概して、任意の前処理の前後におけるマイクロホンアレイ２２４によって取り込まれた信号を表すために使用される。

図８Ａに示すように、音響エコーキャンセレーションパイプライン８００ａへのもう１つの入力は「基準信号」である。基準信号は、スピーカ２２２（図２）によって再生されているオーディオコンテンツを表現することができる。図示するように、基準信号は、オーディオ処理構成要素２１８からルーティングされる。スピーカ２２２によって再生されているオーディオコンテンツをより正確に表現するために、基準信号は、スピーカ２２２の期待されるアナログオーディオ出力を正確に表すオーディオ処理構成要素２１８のオーディオ処理パイプラインにおける地点をソースとする。オーディオ処理パイプラインの各ステージがアーティファクトを導入する可能性があるので、スピーカ２２２の期待されるアナログオーディオ出力を正確に表現するオーディオ処理構成要素２１８のオーディオ処理パイプラインにおける地点は、典型的には、パイプラインの端部の近くにある。

上で注意したように、音響エコーキャンセレーションパイプライン８００ａは例示的に再生装置１０２の内部に図示されるが、音響エコーキャンセレーションパイプライン８００ａは、代替として、図１のＮＭＤ１０３ｆ〜１０３ｇのような専用ＮＭＤの内部に実装されてもよい。そのような実施例では、基準信号は、おそらくは、ネットワークインターフェースを介して、又は、ラインインインターフェースのような他の通信インターフェースを介して、オーディオコンテンツを再生している再生装置からＮＭＤに送られてもよい。

ブロック８７０ｂにおいて、基準信号は、音響エコーキャンセレーションを行う前に前処理される。基準信号の前処理は、他の実施例の中でもとりわけ、サンプルレート変換、デジッタリング、デインタリービング、時間遅延、又はフィルタリングを含んでもよい。用語「測定された信号」は、概して、任意の前処理の前後におけるマイクロホンアレイ２２４によって取り込まれた信号を表すために使用される。

測定された信号及び基準信号を前処理することは、音響エコーキャンセレーションの実行中に混合するために信号を準備する。例えば、オーディオコンテンツは、マイクロホンアレイ２２４がその同じコンテンツの表現を取り込む前にスピーカ２２２によって出力されるので、基準信号に時間遅延が導入されて、測定信号及び基準信号が時間的に整列する。同様に、アナログマイクロホン信号及びオーディオ処理構成要素２１８からの基準信号のアナログディジタル変換の各サンプルレートが互いに異なる可能性があるので、信号の一方又は両方のサンプルレート変換は、信号を同じサンプルレートに、又はさもなければ適合したサンプルレートに変換してもよい。いくつかの実施例では、ブロック８７０ａ及び８７０ｂにおいて、測定された信号及び基準信号を互いに適合させるために、他の同様の前処理が実行される。

ブロック８７１ａにおいて、測定された信号及び基準信号は、短時間フーリエ変換（short-time Fourier transform）領域に変換される。ＳＴＦＴ領域における音響エコーキャンセレーションは、周波数依存性適応フィルタ（Frequency-Dependent Adaptive Filter：ＦＤＡＦ）領域のような他の領域における音響エコーキャンセレーションと比較して、音響エコーキャンセレーションの処理要件を低減させる可能性がある。そのため、ＳＴＦＴ領域において処理することによって、音響エコーキャンセレーションのための追加の技術は現実的になる可能性がある。しかしながら、音響エコーキャンセレーションが例示としてＳＴＦＴ領域において示しているが、代替の実施例では、他の領域（例えばＦＤＡＦ領域）におけるＡＥＣが実装可能である。

当業者が認識するように、ＳＴＦＴは、経時的に変化する信号のローカルセクション（「フレーム」又は「ブロック」と呼ばれる）の正弦波周波数及び位相内容を決定するために用いられる変換である。測定された信号及び基準信号のＳＴＦＴを計算するために、各信号は複数のフレームに分割される。例示的な実施例では、各フレームは１６ミリ秒（ｍｓ）の長さを有する。１６ミリ秒のフレームにおけるサンプル数は、測定された信号及び基準信号のサンプルレートに基づいて変化する可能性がある。

信号ｘ（ｎ）が与えられたとき、信号は次式によってＳＴＦＴ領域に変換される。

ここで、ｋは周波数インデックスであり、ｍはフレームインデックスであり、Ｎはフレームサイズであり、Ｒはフレームシフトサイズであり、ｗ_Ａ［ｎ］はサイズＮの分析ウィンドウであり、ω_Ｎは次式によって表される。

ここで、ＡＥＣ５５４（図５Ａ）を参照すると、ＳＴＦＴ領域に変換された後に、測定された信号及び基準信号は、図８Ａに示すように、ＡＥＣ５５４への入力として提供される。測定された信号に対してＡＥＣ５５４によって実行される音響エコーキャンセレーションは、反復処理である。ＡＥＣの各反復は、基準信号の各フレームを用いて、測定された信号の各フレームを処理する。そのような処理は、基準信号のフレームを適応フィルタ８７２を介して通過させてモデル信号のフレームを生成することを含む。適応フィルタ８７２は、基準信号を測定された信号に最小の誤差で変換するように意図される。言いかえれば、モデル信号は音響エコーの推定値である。

測定された信号から音響エコーをキャンセルするために、測定された信号及びモデル信号は、編集機能８７３に提供される。編集機能８７３は、測定された信号からモデル信号を編集し、それによって、測定された信号から推定音響エコーをキャンセルし、出力信号をもたらす。いくつかの実施例では、編集機能８７３は、インバータ８７４を介してモデル信号を反転することと、反転されたモデル信号に対して測定された信号のフレームをミキサー８７５により混合することとにより、測定された信号からモデル信号を編集する。実際に、この混合は、測定された信号からオーディオ再生（基準信号）を除去し、それによって、測定された信号からエコー（すなわち、オーディオ再生及び関連付けられたアーティファクト）をキャンセルする。代替の実施例では、編集のために他の技術を使用してもよい。

ブロック８７１ｂにおいて、ＡＥＣ５５４の出力信号は、逆ＳＴＦＴを適用することによって逆変換される。逆ＳＴＦＴは次式によって適用される。

ここで、ｗ_ｓ［ｎ］は合成ウィンドウである。

ブロック８７１ｂの後で、出力信号は、ブロック８７７における音声入力処理パイプラインに提供される。音声入力処理は、他の実施例の中でもとりわけ、ウェイクワード検出、音声／スピーチ変換、及び／又は、１つ又は複数の音声発話を音声アシスタントサービスへ送ることを含んでもよい。

ここで、ＡＥＣ５５４の内部の態様に係るさらなる詳細にについて、ブロック８７２において、ＳＴＦＴ領域における基準信号は適応フィルタ８７２を介してわたされる。上で注意したように、適応フィルタ８７２は、基準信号を測定された信号により小さな誤差で変換しようとして、ＡＥＣ５５４の各反復の実行中に適応化する伝達関数である。基準信号のフレームを適応フィルタ８７２を介して通過させることにより、モデル信号のフレームを生成する。モデル信号は、基準信号の音響エコー（すなわち相殺されているオーディオ）を推定したものである。

実施例内では、適応フィルタ８７２はマルチ遅延適応フィルタリングを実装する。例示的なマルチ遅延適応フィルタリングを説明するために、Ｎをマルチ遅延フィルタ（multi-delay filter：ＭＤＦ）のブロックサイズとし、Ｋをブロック数とし、Ｆ_２Ｎを２Ｎ×２Ｎのフーリエ変換行列とし、フレームｍの周波数領域信号は次式によって表される。

ここで、ｄ（ｍ）はモデリングされた信号であり、ｅ（ｍ）はモデリング誤差であり、Ｘ_ｋ（ｍ）は測定された信号である。次いで、ＭＤＦアルゴリズムは次式になる。

ここで、次式のモデル更新を用いる。

ここで、Ｇ_１及びＧ_２は、周波数領域における信号の所定の時間領域部分を選択する行列である。

行列

は、入力パワースペクトル密度行列の対角近似である。パワースペクトル推定値の変動を低減するために、瞬時のパワー推定値をその平滑化されたバージョン

によって置換することができる。ここで、βは平滑化項である。この実施例は、さらに各パーティションμ（ｍ）＝μ_０Ｉについて固定のステップサイズ（各反復中にフィルタがどの程度適応化されるか）を仮定するが、いくつかの実施例では、ステップサイズは変更されてもよい。

適応フィルタ８７２の例示的な実施例は、クロスバンドフィルタリングを実装する。そのようなフィルタリングを説明するために、ｙ［ｎ］を近端の測定された信号とし、これは、近端のスピーチ、及び／又は、音響エコーｄ［ｎ］＝ｈ［ｎ］＊ｘ［ｎ］と混合されたノイズｖ［ｎ］を含む。ここで、ｈ［ｎ］はシステムのインパルス応答であり、ｘ［ｎ］は遠端の基準信号であり、＊は畳み込み演算子である。次式

をｍ番目の基準信号ベクトルとし、次式

を分析ウィンドウベクトルとし、次式

をＮ×Ｎの離散フーリエ変換行列とし、次式

を窓関数を適用した基準信号ベクトルのＤＦＴとする。
ここで、

はアダマール（要素ごと）積演算子であり、｛＊｝^Ｔは転置演算子である。

伝達関数Ｈが与えられたとき、音響エコーはＳＴＦＴ領域において次式で表すことができる。

ここで、

はｍ番目のフレームエコー信号のＤＦＴであり、Ｈ_ｉは、ｉ番目のインパルス応答行列（すなわち、ＡＥＣ５５４のｍ番目の反復に係るフィルタ）であり、

はｍ番目のフレームの基準信号のＤＦＴであり、ＭはＳＴＦＴ領域におけるフィルタ長である。

上述の事項が与えられたとき、ＡＥＣ５５４による音響エコーキャンセレーションは、ＳＴＦＴ領域において次式で表すことができる。

ここで、

は基準信号である。

ここで、

は出力信号である。上で注意したように、編集機能８０８は、測定された信号からモデル信号

を編集する。

ブロック８７６において、更新フィルタが決定される。上で注意したように、最終的には、更新フィルタに対して、ＡＥＣ５５４の現在の反復において使用されるフィルタを乗算することにより、ＡＥＣ５５４の次の反復のためのフィルタを生成する。概して、ＡＥＣ５５４の最初の反復の実行中において、測定された信号からエコーをキャンセルしたものには何らかの誤差が存在する。しかしながら、ＡＥＣ５５４の連続的な反復において、この誤差は低減される。特に、ＡＥＣ５５４の各反復の実行中に、適応フィルタ８７２は、現在の反復からの誤差に基づいて次の反復のために更新される。このように、ＡＥＣ５５４の連続的な反復の実行中に、ＡＥＣ５５４は、数学的には、スピーカ２２２（図２）によるオーディオ再生をキャンセルしたものに収束する。

ＡＥＣ５５４の最初の反復において、適応化がまだ行われていないので、初期フィルタが利用される。いくつかの実施例では、初期フィルタは、無響室におけるスピーカ２２２及びマイクロホン２２４の間の音響結合を表す伝達関数である。いくつかの実施形態では、初期フィルタは、例えば無響室において行われた測定を用いて、生成された伝達関数を備える。生成された伝達関数は、いかなる部屋効果もなしに、スピーカ２２２及びマイクロホン２２４の間の音響結合を表すことができる。任意の音響環境において、そのような初期フィルタを使用してもよい。代替として、再生装置が位置する実際の音響環境により正確に一致する状態において適応フィルタを開始させるために、スピーカ２２２及びマイクロホン２２４の間の音響結合を表す伝達関数は、静かな部屋（例えば、最小のノイズを有する部屋）においてスピーカ２２２によるオーディオ出力を記録するマイクロホン２２４を伴う較正手順の実行中に決定されてもよい。他の初期フィルタが使用されてもよいが、ただし、スピーカ２２２及びマイクロホン２２４の間の音響結合を不十分に表すフィルタは、ＡＥＣ５５４のそれほど最適ではない出発点を提供し、収束するまでにＡＥＣ５５４の追加の反復をもたらす可能性がある。

ＡＥＣ５５４の後続の反復において、適応フィルタ８７２は適応し続けることが可能である。ＡＥＣの各ｎ番目の反復の実行中に、ＡＥＣ５５４の次の反復のために、適応フィルタ８７２のｎ＋１番目のインスタンスが決定される。特に、ＡＥＣ５５４のｎ番目の反復の実行中に、適応フィルタのｎ番目のインスタンスにｎ番目の更新フィルタを乗算することで、適応フィルタのｎ＋１番目のインスタンスを生成する。ｎ番目の更新フィルタは、ｎ番目の反復の実行中におけるフィルタのモデリング誤差に基づく。

説明のため、

を適応フィルタ行列とする。上で注意したように、モデル信号（すなわち、推定された音響エコー）は次式により表すことができる。

適応フィルタ行列は、次式を用いて反復ごとに更新することができる。

ここで、

はフィルタ係数行列のための更新行列であり、

は２Ｋ＋１個の対角バンドを選択する行列であり、Ｐは次式で定義される順列行列である。

Ｋ個のブロックを有するフィルタについて、モデリング精度を改善するために、計算複雑性を非実用的な程度まで増大させることなく、Ｈの主対角項の周りに２Ｋ個の交差項又は２Ｋ個の非対角バンドが追加される。この実施例では、

は２Ｋ＋１個の対角バンドを有する。クロスバンドフィルタの個数を増大させても必ずしもより小さな定常偏差をもたらすわけではないので、行列Ｇは、ＳＴＦＴ領域におけるシステム識別に有用であるクロスバンドフィルタの個数を制限する。

上で注意したように、ｎ番目の更新フィルタは、ｎ番目の反復の実行中におけるフィルタのモデリング誤差に基づく。最小平均二乗アルゴリズムを用いて、更新フィルタは次式で与えられる。

ここで、

はＳＴＦＴ領域における誤差信号ベクトルであり、μ＞０はステップサイズであり、｛＊｝^Ｈはエルミート転置行列である。

最小平均二乗の代替として、ＡＥＣ５５４は、正規化された最小平均二乗アルゴリズム（normalized least mean squares algorithm）を実装して、ノイズに対する頑健さを改善してもよい。ＮＭＬＳアルゴリズムの下では、更新フィルタは次式で与えられる。

ここで、基準信号は、誤差信号が乗算される前に、当該基準信号の信号電力によって正規化される。上で注意したように、ｎ番目の反復の実行中に、更新フィルタにｎ番目の反復のための適応フィルタを乗算して、ｎ＋１番目の反復のための適応フィルタを生成する。上述の実施例が与えられたとき、適応フィルタは次式で表される。

例示的な実施例では、音響エコーキャンセレーションパイプライン８００ａは、マイクロホンにより取り込まれたオーディオが音声サービスへの音声入力として処理される前におけるビームフォーミング、ブラインドソース分離、及び周波数ゲーティングなど、マイクロホンにより取り込まれたオーディオに係る追加のオーディオ処理を含むオーディオ処理パイプラインに統合されてもよい。

ｂ．第２の実施例の音響エコーキャンセルパイプライン
図８Ｂは、２つの音響エコーキャンセラを含む例示的な音響エコーキャンセレーションパイプライン８００ｂの機能ブロック図である。特に、オーディオ処理パイプライン８００ｂは、ＡＥＣ５５４及び音干渉キャンセラ（tone interference canceller：ＴＩＣ）８５４を含む。動作において、オーディオ処理パイプライン８００ｂは、音響エコーをキャンセルするとき、ＡＥＣ５５４又はＴＩＣ８５４のいずれかを実行する。音響エコーキャンセレーションパイプライン８００ａと同様に、音響エコーキャンセレーションパイプライン８００ｂは、図２の再生装置１０２の内部に実装されるように構成される。しかしながら、他の実施例では、音響エコーキャンセレーションパイプライン８００ｂは、ＮＭＤ１０３ｆ〜１０３ｇのような、必ずしも再生装置でないＮＭＤに実装されてもよい。

図８Ｂに示すように、音響エコーキャンセレーションパイプライン８００ｂは、デマルチプレクサ（ｄｅ−ｍｕｘ）８８１ａ、デマルチプレクサ８８１ｂ、及びマルチプレクサ（ｍｕｘ）８８２を利用して、ＡＥＣ５５４及びＴＩＣ８５４の間で切り換える。特に、デマルチプレクサ８８１ａ及びデマルチプレクサ８８１ｂは、ＡＥＣ／ＴＩＣ制御８８３からの制御信号に基づいて、ＡＥＣ５５４及びＴＩＣ８５４のいずれかに、測定された信号（図２のマイクロホンアレイ２２４から）及び基準信号（図２のオーディオ処理構成要素２１８から）をそれぞれルーティングする。同様に、マルチプレクサ８８２は、ＡＥＣ／ＴＩＣ制御８８３からの１つ又は複数の制御信号に基づいて、ＡＥＣ５５４及びＴＩＣ８５４のいずれかから音声入力処理８１４（図８Ａ）への出力をルーティングする。このように、ＡＥＣ５５４及びＴＩＣ８５４のいずれかは、音響エコーをキャンセルするために起動可能である。

ＡＥＣ５５４は、可聴周波数スペクトルの全体において、スピーカ２２２（図２）からオーディオ出力をキャンセルするように構成される。いくつかの実施例では、可聴周波数スペクトルの全体は、ヒトの耳により聴取可能であると一般に考えられる周波数（例えば、２０Ｈｚ〜２００００Ｈｚ）を含む。代替として、ＡＥＣ５５４のいくつかの実施例は、ヒトの発話の範囲内にあると一般にみなされる周波数（例えば、３００Ｈｚ〜３４００Ｈｚ）を含む周波数スペクトルをフィルタリングするように構成される。これらの周波数範囲への小さな調整もまた同様に可能である。そのような周波数範囲にわたるコンテンツを有する音響エコーを、「フルレンジ」の音響エコーと呼ぶ。

ＡＥＣ５５４と同様に、ＴＩＣ８５４は音響エコーキャンセラであり、また、ＴＩＣ８５４は、概して同様の構成要素を含んでもよく、ＡＥＣ５５４と同様の機能を有してもよい。しかしながら、ＡＥＣ５５４とは対照的に、ＴＩＣ８５４は、可聴周波数スペクトルの全体のうち、肯定応答音が内容を有する周波数帯においてスピーカ２２２からオーディオ出力をキャンセルするように構成される。例示的な肯定応答音（being tones）は、比較的に少ない周波数ビンにおけるコンテンツを有する可能性がある。さらに、ユーザ選択可能であるフルレンジのオーディオコンテンツと比較して、可聴周波数スペクトルの全体のうち、与えられた肯定応答音が内容を有する周波数帯は、おそらくは、再生装置１０２によって、又は製造中に、既知になる（例えば、予め決められる）可能性がある。代替として、可聴周波数スペクトルの全体のうち、与えられた肯定応答音が内容を有する周波数帯は、おそらくは肯定応答音をキャンセルするためにＴＩＣ８５４を用いる前に、再生装置によって決定されてもよい。

説明のため、ＡＥＣ５５４に関して前述したように、例示的なフィルタ（例えば適応フィルタ８７２）は、ＳＴＦＴ領域においてフィルタリングしてもよい。所定の周波数帯（周波数「ビン」）をフィルタリングする場合、フィルタは、可聴周波数スペクトルの全体をフィルタリングする場合より短い。例えば、上述の実施例を参照すると、伝達関数Ｈはより短くなる（すなわち、伝達関数内に含まれる要素がより少なくなる）可能性がある。これは、第２の音キャンセレーション処理の複雑さを低減し、ＴＩＣ８５４がＡＥＣ５５４より大幅に速く収束することを可能にする。ここで、ＡＥＣ５５４は、ずっと大きい周波数範囲（すなわち、可聴周波数スペクトルの全体）にわたって音響エコーをキャンセルできるように、より長いフィルタを有する。ＴＩＣ８５４がそのフィルタによってフルレンジの部分集合における音響エコーをキャンセルするように構成されるので、ＴＩＣ８５４によりフルレンジの音響エコーをキャンセルしようとすることは、典型的には、有効な音響エコーキャンセレーションをもたらさないということに注意する。

上で注意したように、ＡＥＣ５５４及びＴＩＣ８５４の間で切り換えることは、ＡＥＣ／ＴＩＣ制御８８３からの１つ又は複数の制御信号に基づいて、デマルチプレクサ８８１ａ、デマルチプレクサ８８１ｂ、及びマルチプレクサ８８２を用いて実行される。この切り換え機構は例示として示される。いくつかの実施例では、等価な切り換えは、ＡＥＣ５５４及びＴＩＣ８５４がプロセッサ（例えば、再生装置１０２（図２）のディジタル信号プロセッサ（digital signal processor：「ＤＳＰ」））において実装される実施例のように、プログラムによって実装される。

図８Ｂにおいて、ＡＥＣ／ＴＩＣ制御８８３は、スピーカ２２２がオーディオコンテンツを再生しているか否かに基づいて、ＡＥＣ５５４及びＴＩＣ８５４の間で切り換えるように、デマルチプレクサ８８１ａ、デマルチプレクサ８８１ｂ、及びマルチプレクサ８８２を動作させる。特に、再生装置１０２がスピーカ２２２を介してオーディオコンテンツを再生し始めるとき、ＡＥＣ／ＴＩＣ制御８８３は、ＡＥＣ５５４を起動して、オーディオコンテンツの再生からの音響エコーをキャンセルする。逆に、スピーカ２２２が非アクティブ（すなわちアイドル）である場合、ＡＥＣ５５４は非アクティブである。従って、スピーカ２２２が非アクティブであり、再生装置１０２が（例えば、図５Ａのウェイクワード検出器５５２を介して）ウェイクワードを検出するとき、ＡＥＣ／ＴＩＣ制御８８３は、ＴＩＣ８５４を起動して、検出されたウェイクワードに肯定応答して再生された可聴音の再生からの音響エコーをキャンセルする。

上で注意したようにで、反復的な処理で、ＡＥＣ５５４は、非アクティブな状態から音響エコーの有効なキャンセレーションに収束するために、ある程度の時間（例えば、処理能力及び実装されたアルゴリズムに依存して７００ミリ秒以上）がかかる。そのため、スピーカ２２２が非アクティブでありかつ再生装置１０２がウェイクワードを検出したとき、ＴＩＣ８５４の代わりにＡＥＣ５５４が起動された場合、ＡＥＣ５５４は、ウェイクワードの直後に（ウェイクワードの検出に肯定応答して）到来する可聴音の音響エコーを有効にキャンセルするように所定時間内に収束することはないであろう。しかしながら、前述したように、ＴＩＣ８５４は、ＡＥＣ５５４より速く収束するように設計され、そのため、典型的には、ウェイクワードに肯定応答する可聴音の音響エコーをキャンセルするように所定時間内に収束することができる。

所定のリセット条件の下で、ＡＥＣ／ＴＩＣリセット８８４は、ＡＥＣ／ＴＩＣ制御８８３の入力状態をリセットする。入力状態は、イベント検出（すなわち、ウェイクワードの検出）と、スピーカ２２２を介するオーディオ再生の有無とを含んでもよい。これにより、ＡＥＣ／ＴＩＣ制御８８３は、もう１つのウェイクワード、又は、再生装置１０２（図２）の再生状態の変化のような新たな入力条件の下で、（ａ）ＡＥＣ５５４及び（ｂ）ＴＩＣ８５４のいずれかを選択できるようになる。

所定の条件において、ＡＥＣ５５４及びＴＩＣ８５４の両方がバイパスされてもよい。すなわち、スピーカ２２２が非アクティブであるとき、キャンセルするべき再生装置１０２のフルレンジ音響エコーが存在しないので、ＡＥＣ５５４もまた非アクティブであってもよい。さらに、ウェイクワードの検出によって起動されるまで、ＴＩＣ８５４もまた非アクティブであってもよい。そのような条件では、（肯定応答音の再生からの、又は、他のオーディオコンテンツの再生からの）キャンセルすべき音響エコーが存在しないので、スピーカ２２２は、（ウェイクワードが検出されるか、オーディオコンテンツの再生が開始されるまで）アイドルのままであると期待され、ＡＥＣ５５４及びＴＩＣ８５４の両方をバイパスすることができる。ＴＩＣ８５４が肯定応答音の音響エコーをキャンセルした後、スピーカ２２２がアイドル状態に戻る場合、ＴＩＣ８５４をバイパスできることに注意する。

ｃ．例示的な状態機械
いくつかの例では、ＡＥＣ／ＴＩＣ制御８８３及びＡＥＣ／ＴＩＣリセット８８４は、状態機械として構成される。図９は、ＡＥＣ５５４及びＴＩＣ８５４の間で選択するための例示的な状態機械９００であって、再生装置１０２（図２）によって実装されるように構成された状態機械９００の機能ブロック図である。図９に示すように、状態機械９００は、ブロック９０２において初期条件で開始する。初期条件において、スピーカ２２２（図２）は非アクティブであり、キャンセルされるべきウェイクワードの肯定応答音は存在しない。これらの状態は、スピーカ２２２がアイドルであることを表す「ｄｒｉｖｅｒｓＩｄｌｅ＝＝Ｔｒｕｅ」、及び、キャンセルされるべきウェイクワードの肯定応答音が存在しないことを表す「ａｃｋＴｏｎｅ＝＝Ｆａｌｓｅ」のような変数として表されてもよい。そのような状態において、ＡＥＣ５５４及びＴＩＣ８５４の両方はバイパスされてもよい。

しかしながら、動作中に、状態は変化する可能性がある。特に、ブロック９０４において、状態機械９００は、スピーカ２２２がアクティブであるか、それもと非アクティブであるかを決定する。いくつかの実施例では、スピーカ２２２がアクティブであるか、それとも非アクティブであるかを決定することは、オーディオ信号がオーディオ再生パイプライン（例えば、おそらくはＤＳＰにおける、オーディオ処理構成要素２１８及び／又はオーディオ増幅器２２０によって実装されたオーディオ再生パイプライン）を通過しているか否かを決定することを含む。代替として、スピーカ２２２がアクティブであるか、それとも非アクティブであるかを決定することは、スピーカ２２２の現在の状態を示すために再生装置１０２によってメモリ２１６（図２）に保持される状態変数（例えば、「ｄｒｉｖｅｒｓＩｄｌｅ」）を参照することを含む。他の実施例も同様に可能である。

スピーカ２２２が非アクティブである場合、状態機械９００はブロック９０６に進み、ここで、状態機械９００は、肯定応答音が再生されようとしているか否かを決定する。肯定応答音が再生されようとしているか否かを決定することは、再生装置１０２によってメモリ２１６に保持される状態変数（例えば、「ａｃｋＴｏｎｅ」）を参照することを含んでもよい。ウェイクワード検出器（例えば、ウェイクワード検出器５５２）は、取り込まれたオーディオにおけるウェイクワードの検出に応答して、ａｃｋＴｏｎｅを「真」を設定してもよい。

しかしながら、スピーカ２２２がアクティブである場合、状態機械９００はブロック９０８ａに進み、ここで、スピーカ２２２によって再生されているオーディオコンテンツの音響エコーをキャンセルするためにＡＥＣ５５４が実行される。上で注意したように、ＡＥＣ５５４は、フルレンジの音響エコーをキャンセルするように構成される。スピーカ２２２が既にアクティブであって他のオーディオコンテンツを再生している間に、ウェイクワード検出器５５２がウェイクワードを検出する（それに肯定応答して再生装置１０２が可聴音を出力する）場合、ＡＥＣ５５４は（おそらくは、オーディオコンテンツの音響エコーに加えて）可聴音の音響エコーをキャンセルする。

再びブロック９０６を参照すると、肯定応答音が再生されようとしている場合（かつ、スピーカ２２２がアイドルである場合）、状態機械９００はブロック９０８ｂに進み、ここで、スピーカ２２２によって音が再生されるとき、肯定応答音の音響エコーをキャンセルするためにＴＩＣ８５４が実行される。肯定応答音を有効にキャンセルするために、ＴＩＣ８５４は、スピーカ２２２によって肯定応答音が再生される前に実行される。例えば、ＴＩＣ８５４は、スピーカ２２２によって肯定応答音が再生されるよりも少なくとも１つフレーム前に起動され、この場合、図８ＡにおいてＡＥＣ５５４を参照して説明したように、ＴＩＣ８５４は、入力信号をフレームごとに処理する音響エコーキャンセレーションアルゴリズムを実装する。いくつかの実施例では、ＴＩＣ８５４は、ＴＩＣ８５４が収束するようにより多数の反復を提供するために、スピーカ２２２によって肯定応答音が再生されるよりも複数フレーム前に起動される。

再生されようとしている肯定応答音が存在しない（また、スピーカ２２２がアイドルである）場合、状態機械９００はブロック９１０に進み、ＡＥＣ５５４及びＴＩＣ８５４の両方をバイパスする。状態機械９００は、次いで、ブロック９０２の初期条件に戻る。状態機械９００はブロック９０２、９０４、９０６、及び９０８をループしてもよく、それにより、スピーカ２２２がアイドルままであってウェイクワードが検出されないとき（例えば、「ｄｒｉｖｅｒｓＩｄｌｅ」＝＝真かつ「ａｃｋＴｏｎｅ」＝＝偽であるとき）、ＡＥＣ５５４及びＴＩＣ８５４をバイパスする。

ブロック９１２ａにおいて、状態機械９００は、ＡＥＣ５５４のリセット条件が発生したか否かを決定してもよい。ブロック９１２ａの例示的なリセット条件は、スピーカ２２２が非アクティブになること（例えば、「ｄｒｉｖｅｒｓＩｄｌｅ」が真に設定されること）、又は、タイマの満了を含む。リセット条件が検出される場合、状態機械９００はブロック９０２に戻る。しかしながら、リセット条件が検出されない場合、状態機械９００はブロック９０８ａに戻ってＡＥＣ５５４を実行し続ける（例えば、オーディオコンテンツの再生が進行中である場合）。

同様に、ブロック９１２ｂにおいて、状態機械９００は、ＴＩＣ８５４のリセットされた条件が生じたか否かを決定してもよい。例えば、ＴＩＣ８５４の例示的なリセット条件は、ＴＩＣ８５４を用いた肯定応答音の音響エコーをキャンセルする処理の完了である。特に、ＴＩＣ８５４が、肯定応答音の音響エコーをキャンセルする処理を完了するとき、適切であれば、ＴＩＣ８５４がアイドル状態に戻る（そしてバイパスされる）ことができるように、ＴＩＣ８５４はブロック９１２ｂにおいてリセットされる。

他のリセット条件はオーディオ再生に関連する。例えば、リセット条件は、スピーカ２２２がアクティブになってオーディオコンテンツを再生する（例えば、「ｄｒｉｖｅｒｓＩｄｌｅ」が偽に設定される）ことであってもよい。そのような状況において、フルレンジの音響エコーをキャンセルするためにＡＥＣ５５４を実行できるように、状態機械９００は初期条件に戻るべきである。代替として、ＴＩＣ８５４は、タイマが満了したときにリセットされてもよい。タイマは、肯定応答音の再生中にオーディオ再生（肯定応答音以外）が開始する場合に、ＴＩＣ８５４の代わりにＡＥＣ８５４が実行されることを可能にするために、ＴＩＣ８５４の長さを制限してもよい。

いくつかのリセット条件は、ユーザ入力に関連する。例えば、肯定応答音の再生は、他の実施例の中でもとりわけ、音声コマンド、制御装置（例えば、図３の制御装置１０４）を介するユーザ入力、又は再生装置１０２に対するユーザ入力を介して停止されてもよい。そのような場合、ＴＩＣ８５４を実行する必要はない。もう１つの実施例として、（ウェイクワードを含む）音声入力は、他の実施例の中でもとりわけ、制御装置を介して、又は、再生装置１０２に対するユーザ入力を介してキャンセルされてもよい。そのような場合、肯定応答音は不必要である。さらなる実施例では、再生装置１０２のマイクロホン２２４はミュートされてもよく、このことは、音声入力のキャンセレーションを意味する。他の実施例も同様に可能である。

ＩＶ．例示的な音響エコーキャンセル
上で議論したように、ここで説明した実施形態は音響エコーキャンセレーションを含んでいてもよい。図１０は例示的な実施例１０００のフロー図であり、これによって、システム（例えば、再生装置１０２、ＮＭＤ１０３、及び／又は制御装置１０４）は、第１の音キャンセラ及び第２の音キャンセラのいずれかを用いて、音響エコーキャンセレーションを実行してもよい。いくつかの実施形態では、実施例１０００は、メモリ（例えば、メモリ２１６及び／又はメモリ３１６）に格納された命令であって、１つ又は複数のプロセッサ（例えば、プロセッサ２１２及び／又はプロセッサ３１２）によって実行可能な命令を備えてもよい。

ａ．音響環境内における第１のオーディオの取り込み
ブロック１００２において、実施例１０００は、音響環境内において第１のオーディオを取り込む。例えば、実施例１０００は、１つ又は複数のマイクロホン（例えば、図２のマイクロホン２２４）を有するＮＭＤを含む再生装置（例えば、図１の再生装置１０２ａ〜１０２ｅ）を介して音響環境内におけるオーディオを取り込むように構成可能である。代替として、実施例１０００は、再生装置とのネットワーク接続を有するＮＭＤ（例えば、図１のＮＭＤ１０２ｆ〜１０２ｇ）を介して音響環境内におけるオーディオを取り込むように構成可能である。

オーディオを取り込むことは、音響環境内におけるオーディオを記録することを含むとともに、アナログディジタル変換のような、記録されたオーディオを処理することを含んでもよい。実施例は、図５Ｂの音声入力５５７のような音声入力を検出しようとしてオーディオを取り込んでもよい。図５Ｂで説明したように、例示的な音声入力５５７は、ウェイクワード部分５５７ａ及び音声発話部分５５７ｂを含んでもよい。いくつかの実施例では、システムによって取り込まれた第１のオーディオは、音声入力５５７のウェイクワード部分５５７ａを含んでもよい。音響環境は、マイクロホンの検出可能な範囲内における音（sound）として定義されてもよい。

いくつかの例では、実施例１０００は、１つ又は複数の再生装置が音響環境内におけるオーディオコンテンツを再生している間、音響環境内におけるオーディオを取り込んでもよい。そのような例では、取り込まれた第１のオーディオは、音響環境におけるオーディオコンテンツの再生によって引き起こされた音響エコーを表すオーディオ信号を含む。取り込まれたオーディオは、音響環境の中に存在する他のノイズを含んでもよい。

ｂ．１つ又は複数のスピーカが（Ａ）オーディオコンテンツを再生しているか、それとも（Ｂ）アイドル状態にあるかの決定
ブロック１００４において、実施例１０００は、１つ又は複数のスピーカがオーディオコンテンツを再生しているのか、それともアイドルであるのかを決定する。例えば、実施例１０００は、再生装置１０２を介してスピーカ２２２がオーディオコンテンツを再生しているのか、それともアイドルであるのかを決定するように構成することができる。スピーカ２２２がオーディオコンテンツを再生しているか否かを決定することは、図９のブロック９０４を参照して説明したように、オーディオ信号が再生装置１０２のオーディオ再生パイプライン（例えば、再生装置１０２のＤＳＰ）を通過しているか否かを決定することを含んでもよい。

代替として、スピーカ２２２がオーディオコンテンツを再生しているか否かを決定することは、図９のブロック９０４を参照して上述したように、実施例１０００が状態変数を参照することを含んでもよい。いくつかの実施例では、再生装置１０２は、メモリ２１６からそのような状態変数を参照してもよい。代替として、ＮＭＤ１０３ａ〜１０３ｆのうちの１つ又は複数は、（例えば、ネットワークインターフェース２３０を用いて）再生装置１０２ａ〜１０２ｌのうちの１つのメモリ２１６からそのような状態変数を参照してもよい。またさらに、ＮＭＤ１０３ａ〜１０３ｆのうちの１つ又は複数は、１つ又は複数の再生装置１０２ａ〜１０２ｌの状態を示す状態変数の表現をメモリ５１６に保持してもよく、メモリ２１６から状態変数を参照してもよい。他の実施例も同様に可能である。

ｃ．ウェイクワードの検出
図１０では、ブロック１００６において、実施例１０００はウェイクワードを検出する。例えば、システムは、取り込まれた第１のオーディオコンテンツ内のウェイクワードを検出してもよい。例示として、実施例１０００は、ＮＭＤ１０３（図５Ａ）のウェイクワード検出器５５２を用いて、取り込まれた第１のオーディオコンテンツ内のウェイクワードを検出してもよい。いくつかの実施例では、ウェイクワードを検出することはイベント検出器をトリガし、このことは、最終的に、実施例１０００に、肯定応答音を出力すること及び／又は音キャンセラを起動することのような、１つ又は複数の応答的機能を実行させる。

ｄ．第１の音キャンセラ（Ａ）及び第２の音キャンセラ（Ｂ）のいずれかの起動
ブロック１００８において、実施例１０００は、第１の音キャンセラ（Ａ）及び第２の音キャンセラ（Ｂ）のいずれかを起動する。例えば、１つ又は複数のスピーカ２２２がオーディオコンテンツを再生しているとき、実施例１０００は、可聴周波数スペクトルの全体において１つ又は複数のスピーカ２２２からのオーディオ出力をキャンセルするように構成された第１の音キャンセラ（例えばＡＥＣ５５４）を起動する。代替として、１つ又は複数のスピーカがアイドルであるとき、実施例１０００は、ウェイクワードの検出に応答して第２の音キャンセラ（例えばＴＩＣ８５４）を起動する。第２の音キャンセラは、可聴周波数スペクトルの全体のうち、検出されたウェイクワードに肯定応答する可聴音が内容を有する周波数帯において、１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成される。

いくつかの例では、実施例１０００は、図８Ｂの音響エコーキャンセレーションパイプライン８００ｂのような音響エコーキャンセレーションパイプラインを含む。そのような例では、実施例１０００は、ＡＥＣ／ＴＩＣ制御８８３からの制御信号に基づいて、第１の音キャンセラ（例えばＡＥＣ５５４）又は第２の音キャンセラ（例えばＴＩＣ８５４）を間で切り換えてもよい。さらに、実施例１０００は、第１の音キャンセラ又は第２の音キャンセラをいつ起動するか、それとも両方の音キャンセラをバイパスするかを決定するために、１つ又は複数の状態機械（例えば、図９の状態機械９００）を実装してもよい。

ｅ．肯定応答音の出力
ブロック１０１０において、実施例１０００は肯定応答音を出力する。例えば、実施例１０００は、ブロック９０６におけるウェイクワードの検出に応答して、再生装置１０２のスピーカ２２２を介して肯定応答音を出力し、それによって、ウェイクワードの検出に肯定応答する。いくつかの実施例では、肯定応答音のディジタル表現（例えばファイル）がメモリ２１６に格納される。代替として、肯定応答音は、ストリーミングコンテンツサービスのサーバのような遠隔の計算システムから、又は、制御装置１０４（図３）からストリーミングされる。

ｆ．音響環境内における第２のオーディオの取り込み
ブロック１０１２において、実施例１０００は、音響環境内における第２のオーディオを取り込む。例えば、実施例１０００は、ブロック１００２に関して前述したように、再生装置又はＮＭＤを介して音響環境内の第２のオーディオを取り込むように構成可能である。オーディオを取り込むことは、音響環境内におけるオーディオを記録することを含むとともに、アナログディジタル変換のような、記録されたオーディオを処理することを含んでもよい。

図５Ｂで説明したように、例示的な音声入力５５７は、ウェイクワード部分５５７ａ及び音声発話部分５５７ｂを含んでもよい。実施例１０００がブロック９０６におけるウェイクワードの検出に応答して肯定応答音を出力する場合、肯定応答音は、ウェイクワード部分５５７ａに続く音声発話部分５５７ｂに重複する可能性がある。そのような重複は、音声発話部分５５７ｂを取り込むこと及び／又は処理することに干渉する可能性がある。そのため、実施例１０００は、ＡＥＣ５５４又はＴＩＣ８５４が取り込まれたオーディオからの肯定応答音の音響エコーをキャンセルすることを可能にした。

ｇ．起動された音キャンセラを用いた、取り込まれた第２のオーディオからの肯定応答音のキャンセル
ブロック１０１４において、実施例１０００は、起動された音キャンセラを用いて、取り込まれた第２のオーディオからの肯定応答音をキャンセルする。特に、実施例１０００は、ブロック１０１４において起動された音キャンセラを用いて、肯定応答音をキャンセルする。一実施例では、実施例１０００は、取り込まれた第２のオーディオ及び肯定応答音を、測定された信号及び基準信号としてＴＩＣ８５４にそれぞれ提供し、次いで、ＴＩＣ８５４は、肯定応答音の音響エコーが除去された出力信号を提供する。もう１つの実施例では、実施例１０００は、取り込まれた第２のオーディオと、（肯定応答音及び再生１０２によって再生されているオーディオコンテンツを含む）合成オーディオ信号とを、測定された信号及び基準信号としてそれぞれＡＥＣ５５４に提供し、ＡＥＣ５５４は、次いで、肯定応答音の音響エコーと、再生１０２によって再生されているオーディオコンテンツの音響エコーとが除去された出力信号を提供する。

ｈ．追加機能
いくつかの実施例では、実施例１０００は追加の機能を実行してもよい。例示のため、いくつかの例示的な機能が提供される。そのような実施例は限定と考えられるべきでない。

いくつかの実施例では、実施例１０００は、可聴周波数スペクトルの全体のうち、検出されたウェイクワードに肯定応答する可聴音が内容を有する周波数帯の集合を識別する。例えば、実施例１０００は、（例えば、離散フーリエ変換を用いて）周波数領域において可聴音のスペクトルコンテンツを測定し、周波数領域における可聴音のスペクトルコンテンツから、可聴音が内容を有する周波数帯の集合を識別する。実施例１０００は、次いで、可聴音が内容を有する周波数ビンの集合のみを処理するように第２の音キャンセラ（例えばＴＩＣ８５４）を構成（例えば指示）してもよい。

そのような実施形態は、肯定応答音が変更可能である実施形態において有用となりうる。肯定応答音が既知かつ静的である場合、第２の音キャンセラ（例えばＴＩＣ８５４）は、可聴音が内容を有する周波数ビンの集合のみを処理するように予め構成可能である。他の実施例も同様に可能である。

上で注意したように、いくつかの実施例では、ウェイクワードを検出することはイベント検出器をトリガする、このことは、最終的に、１つ又は複数の応答的機能を実施例１０００に実行させる。いくつかの実施例では、このイベント検出器は、１つ又は複数のリセットイベントを検出することでリセットされ、これにより、異なる条件が発生する場合に、実施例１０００に異なる音キャンセラを選択させる。リセットイベントを検出することは、
（ｉ）上記起動された音キャンセラを用いて、上記取り込まれた第２のオーディオからの可聴音をキャンセルすることと、
（ｉｉ）上記起動された音キャンセラにおけるタイマの時間が満了することと、
（ｉｉｉ）上記１つ又は複数のスピーカを介してオーディオコンテンツの再生を開始することと、
（ｉｖ）制御インターフェースを介して、上記取り込まれた第１のオーディオの内容において検出されたウェイクワードに対応する音声入力をキャンセルすることと、
（ｖ）上記１つ又は複数のマイクロホンをミュートすることと、

（ｉｖ）上記制御インターフェースを介して上記可聴音を停止することと
のうちの１つを含んでもよい。他の例示的なリセットイベントは、図９のブロック９１２ａ及び９１２ｂに関して説明される。

Ｖ．結論
上述の説明は、とりわけ、様々な例示的なシステム、方法、装置、及び製品を開示する。製品は、他の構成要素の中でもとりわけ、ハードウェアにおいて実行されるファームウェア及び／又はソフトウェアを含む。そのような実施例は単に例示であり、限定と考えられるべきでないことが理解される。例えば、ファームウェア、ハードウェア、及び／又はソフトウェア態様、及び構成要素のうちのいずれか又はすべては、ハードウェアのみで、ソフトウェアのみで、ファームウェアのみで、又はハードウェア、ソフトウェア、及び／又はファームウェアの任意の組み合わせで具体化可能であることが意図される。従って、提示した実施例は、そのようなシステム、方法、装置、及び／又は製品を実装する、ただ一つの方法ではない。

（特徴１）
システムによって実行される方法であって、
上記方法は、
上記１つ又は複数のマイクロホンを介して、音響環境における第１のオーディオを取り込むステップと、
上記１つ又は複数のスピーカが（ａ）オーディオコンテンツを再生しているか、それとも（ｂ）アイドル状態にあるかを決定するステップと、
上記取り込まれた第１のオーディオの内容において、音声サービスのためのウェイクワードを検出するステップと、
可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する周波数帯の集合を識別するステップと、
上記音声サービスのためのウェイクワードの検出に応答して、かつ、上記検出されたウェイクワードに肯定応答して上記１つ又は複数のスピーカにおいて可聴音を再生する前に、（ａ）第１の音キャンセラ及び（ｂ）第２の音キャンセラのいずれかを起動するステップとを含み、
（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップは、
上記１つ又は複数のスピーカがオーディオコンテンツを再生しているとき、上記第１の音キャンセラを起動するステップと、
上記１つ又は複数のスピーカがアイドル状態にあるとき、上記第２の音キャンセラを起動するステップとを含み、
上記第１の音キャンセラは、可聴周波数スペクトルの全体において上記１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成され、
上記第２の音キャンセラは、上記可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する上記識別された周波数帯において、上記１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成され、
上記方法は、
上記音声サービスのためのウェイクワードの検出に応答して、かつ、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動した後で、上記検出されたウェイクワードに肯定応答する可聴音を上記１つ又は複数のスピーカを介して出力するステップと、
上記１つ又は複数のマイクロホンを介して、上記音響環境における第２のオーディオであって、上記検出されたウェイクワードに肯定応答する可聴音を出力する際に上記１つ又は複数のスピーカによって生成される音を含む第２のオーディオを取り込むステップと、
上記起動された音キャンセラを用いて、上記取り込まれた第２のオーディオから上記検出されたウェイクワードに肯定応答する可聴音をキャンセルするステップとを含む。

（特徴２）
特徴１の方法であって、
上記可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する周波数帯の集合を識別するステップは、
周波数領域において上記可聴音のスペクトル内容を測定するステップと、
上記周波数領域における可聴音のスペクトル内容から、上記可聴音が内容を有する周波数帯の集合を識別するステップと、
上記可聴音が内容を有する周波数ビンの集合のみを処理するように上記第２の音キャンセラに指示するステップとを含む。

（特徴３）
特徴３の方法であって、
上記１つ又は複数のマイクロホンによって取り込まれたオーディオは、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかによる処理のために、複数のフレームに分割され、
上記検出されたウェイクワードに肯定応答する可聴音を再生する前に（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップは、上記検出されたウェイクワードに肯定応答する可聴音を上記１つ又は複数のスピーカを介して出力する少なくとも１フレーム前に、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップを含む。

（特徴４）
特徴１の方法であって、
上記取り込まれた第１のオーディオの内容において上記音声サービスのためのウェイクワードを検出するステップは、上記ウェイクワードの検出に応答してイベント検出器をトリガするステップを含み、
上記動作は、リセットイベントを検出したとき、上記イベント検出器をリセットするステップをさらに含む。

（特徴５）
特徴１の方法であって、
リセットイベントを検出することは、
（ｉ）上記起動された音キャンセラを用いて、上記取り込まれた第２のオーディオからの可聴音をキャンセルすることと、
（ｉｉ）上記起動された音キャンセラにおけるタイマの時間が満了することと、
（ｉｉｉ）上記１つ又は複数のスピーカを介してオーディオコンテンツの再生を開始することと、
（ｉｖ）制御インターフェースを介して、上記取り込まれた第１のオーディオの内容において検出されたウェイクワードに対応する音声入力をキャンセルすることと、
（ｖ）上記１つ又は複数のマイクロホンをミュートすることと、
（ｉｖ）上記制御インターフェースを介して上記可聴音を停止することとのうちの少なくとも１つを含む。

（特徴６）
特徴１の方法であって、
上記１つ又は複数のスピーカが（ａ）オーディオコンテンツを再生しているか、それとも（ｂ）アイドル状態にあるかを決定するステップは、上記オーディオコンテンツを表すオーディオ信号を通過させる上記システムのオーディオステージに基づいて、上記１つ又は複数のスピーカが上記オーディオコンテンツを再生していると決定するステップを含む。

（特徴７）
特徴１の方法であって、
上記システムは、ネットワークインターフェース及び上記１つ又は複数のスピーカを備える再生装置と、ネットワークインターフェース、上記１つ又は複数のマイクロホン、上記１つ又は複数のプロセッサ、及び上記１つ又は複数のプロセッサによって実行可能な命令を格納するデータ記憶装置を備えるネットワークマイクロホン装置とを含み、
上記再生装置及び上記ネットワークマイクロホン装置は、上記再生装置のネットワークインターフェースと、上記ネットワークマイクロホン装置のネットワークインターフェースとを介して接続される。

（特徴８）
特徴１の方法であって、上記システムは、上記１つ又は複数のスピーカ及び上記１つ又は複数のマイクロホンが収容されるハウジングを備える再生装置を含む。

（特徴９）
１つ又は複数のプロセッサによって実行可能な命令であって、特徴１〜８のうちのいずれかの方法を装置に実行させる命令を格納した、有形かつ非一時的なコンピュータ可読媒体。

（特徴１０）
特徴１〜８のうちのいずれかの方法を実行するように構成された装置。

（特徴１１）
特徴１〜８のうちのいずれかの方法を実行するように構成されたメディア再生システム。

本明細書は、概して、ネットワークに接続されたデータ処理装置の動作に直接的に又は間接的に類似している、例示的な環境、システム、手順、ステップ、論理ブロック、処理、及び他の記号表現に関して提示される。これらのプロセスの説明及び表現は、典型的には、当業者によって、その仕事の実態を他の当業者に最も有効に伝達するために使用される。多数の特定の詳細事項は、本開示についての詳細な理解を提供するために提示される。しかしながら、所定の特定の詳細事項なしで本開示の所定の実施形態を実施可能であることは当業者に理解される。他の例では、実施形態の態様を不必要にわかりにくくすることを避けるために、公知の方法、手順、構成要素、及び回路については詳述していない。従って、本開示の範囲は、上述下実施形態の説明ではなく、添付した特許請求の範囲によって定義される。

添付された請求項のうちのいずれかが、純粋なソフトウェア及び／又はファームウェアの実装をカバーするように解釈される場合、ここで、少なくとも１つの実施例における少なくとも１つの構成要素は、ソフトウェア及び／又はファームウェアを格納する、メモリ、ＤＶＤ、ＣＤ、ブルーレイなど、有形かつ非一時的な媒体を含むように明示的に定義される。

Claims

１つ又は複数のスピーカと、１つ又は複数のマイクロホンと、１つ又は複数のプロセッサと、データ記憶装置とを備えたシステムであって、
上記データ記憶装置は、上記１つ又は複数のプロセッサによって実行可能な命令であって、上記システムに以下のステップを含む動作を実行させる命令を格納し、
上記動作は、
上記１つ又は複数のマイクロホンを介して、音響環境における第１のオーディオを取り込むステップと、
上記１つ又は複数のスピーカが（ａ）オーディオコンテンツを再生しているか、それとも（ｂ）アイドル状態にあるかを決定するステップと、
上記取り込まれた第１のオーディオの内容において、音声サービスのためのウェイクワードを検出するステップと、
可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する周波数帯の集合を識別するステップと、
上記音声サービスのためのウェイクワードの検出に応答して、かつ、上記検出されたウェイクワードに肯定応答して上記１つ又は複数のスピーカにおいて可聴音を再生する前に、（ａ）第１の音キャンセラ及び（ｂ）第２の音キャンセラのいずれかを起動するステップとを含み、
（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップは、
上記１つ又は複数のスピーカがオーディオコンテンツを再生しているとき、上記第１の音キャンセラを起動するステップと、
上記１つ又は複数のスピーカがアイドル状態にあるとき、上記第２の音キャンセラを起動するステップとを含み、
上記第１の音キャンセラは、可聴周波数スペクトルの全体において上記１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成され、
上記第２の音キャンセラは、上記可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する上記識別された周波数帯において、上記１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成され、
上記動作は、
上記音声サービスのためのウェイクワードの検出に応答して、かつ、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動した後で、上記検出されたウェイクワードに肯定応答する可聴音を上記１つ又は複数のスピーカを介して出力するステップと、
上記１つ又は複数のマイクロホンを介して、上記音響環境における第２のオーディオであって、上記検出されたウェイクワードに肯定応答する可聴音を出力する際に上記１つ又は複数のスピーカによって生成される音を含む第２のオーディオを取り込むステップと、
上記起動された音キャンセラを用いて、上記取り込まれた第２のオーディオから上記検出されたウェイクワードに肯定応答する可聴音をキャンセルするステップとを含むシステム。
上記可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する周波数帯の集合を識別するステップは、
周波数領域において上記可聴音のスペクトル内容を測定するステップと、
上記周波数領域における可聴音のスペクトル内容から、上記可聴音が内容を有する周波数帯の集合を識別するステップと、
上記可聴音が内容を有する周波数ビンの集合のみを処理するように上記第２の音キャンセラに指示するステップとを含む、
請求項１記載のシステム。
上記１つ又は複数のマイクロホンによって取り込まれたオーディオは、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかによる処理のために、複数のフレームに分割され、
上記検出されたウェイクワードに肯定応答する可聴音を再生する前に（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップは、上記検出されたウェイクワードに肯定応答する可聴音を上記１つ又は複数のスピーカを介して出力する少なくとも１フレーム前に、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップを含む、
請求項１記載のシステム。
上記取り込まれた第１のオーディオの内容において上記音声サービスのためのウェイクワードを検出するステップは、上記ウェイクワードの検出に応答してイベント検出器をトリガするステップを含み、
上記動作は、リセットイベントを検出したとき、上記イベント検出器をリセットするステップをさらに含む、
請求項１記載のシステム。
リセットイベントを検出することは、
（ｉ）上記起動された音キャンセラを用いて、上記取り込まれた第２のオーディオからの可聴音をキャンセルすることと、
（ｉｉ）上記起動された音キャンセラにおけるタイマの時間が満了することと、
（ｉｉｉ）上記１つ又は複数のスピーカを介してオーディオコンテンツの再生を開始することと、
（ｉｖ）制御インターフェースを介して、上記取り込まれた第１のオーディオの内容において検出されたウェイクワードに対応する音声入力をキャンセルすることと、
（ｖ）上記１つ又は複数のマイクロホンをミュートすることと、
（ｉｖ）上記制御インターフェースを介して上記可聴音を停止することとのうちの少なくとも１つを含む、
請求項１記載のシステム。
上記１つ又は複数のスピーカが（ａ）オーディオコンテンツを再生しているか、それとも（ｂ）アイドル状態にあるかを決定するステップは、上記オーディオコンテンツを表すオーディオ信号を通過させる上記システムのオーディオステージに基づいて、上記１つ又は複数のスピーカが上記オーディオコンテンツを再生していると決定するステップを含む、
請求項１記載のシステム。
上記システムは、
ネットワークインターフェース及び上記１つ又は複数のスピーカを備える再生装置と、
ネットワークインターフェース、上記１つ又は複数のマイクロホン、上記１つ又は複数のプロセッサ、及び上記１つ又は複数のプロセッサによって実行可能な命令を格納するデータ記憶装置を備えるネットワークマイクロホン装置と、を含み、
上記再生装置及び上記ネットワークマイクロホン装置は、上記再生装置のネットワークインターフェースと、上記ネットワークマイクロホン装置のネットワークインターフェースとを介して接続される、
請求項１記載のシステム。
上記システムは、上記１つ又は複数のスピーカ及び上記１つ又は複数のマイクロホンが収容されるハウジングを備える再生装置を含む、
請求項１記載のシステム。
再生装置を備えるシステムによって実行される方法であって、上記方法は、
１つ又は複数のマイクロホンを介して、音響環境における第１のオーディオを取り込むステップと、
１つ又は複数のスピーカが（ａ）オーディオコンテンツを再生しているか、それとも（ｂ）アイドル状態にあるかを決定するステップと、
上記取り込まれた第１のオーディオの内容において、音声サービスのためのウェイクワードを検出するステップと、
可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する周波数帯の集合を識別するステップと、
上記音声サービスのためのウェイクワードの検出に応答して、かつ、上記検出されたウェイクワードに肯定応答して上記１つ又は複数のスピーカにおいて可聴音を再生する前に、（ａ）第１の音キャンセラ及び（ｂ）第２の音キャンセラのいずれかを起動するステップとを含み、
（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップは、
上記１つ又は複数のスピーカがオーディオコンテンツを再生しているとき、上記第１の音キャンセラを起動するステップと、
上記１つ又は複数のスピーカがアイドル状態にあるとき、上記第２の音キャンセラを起動するステップとを含み、
上記第１の音キャンセラは、可聴周波数スペクトルの全体において上記１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成され、
上記第２の音キャンセラは、上記可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する上記識別された周波数帯において、上記１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成され、
上記方法は、
上記音声サービスのためのウェイクワードの検出に応答して、かつ、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動した後で、上記検出されたウェイクワードに肯定応答する可聴音を上記１つ又は複数のスピーカを介して出力するステップと、
上記１つ又は複数のマイクロホンを介して、上記音響環境における第２のオーディオであって、上記検出されたウェイクワードに肯定応答する可聴音を出力する際に上記１つ又は複数のスピーカによって生成される音を含む第２のオーディオを取り込むステップと、
上記起動された音キャンセラを用いて、上記取り込まれた第２のオーディオから上記検出されたウェイクワードに肯定応答する可聴音をキャンセルするステップとを含む、
方法。
上記可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する周波数帯の集合を識別するステップは、
周波数領域において上記可聴音のスペクトル内容を測定するステップと、
上記周波数領域における可聴音のスペクトル内容から、上記可聴音が内容を有する周波数帯の集合を識別するステップと、
上記可聴音が内容を有する周波数ビンの集合のみを処理するように上記第２の音キャンセラに指示するステップとを含む、
請求項９記載の方法。
上記１つ又は複数のマイクロホンによって取り込まれたオーディオは、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかによる処理のために、複数のフレームに分割され、
上記検出されたウェイクワードに肯定応答する可聴音を再生する前に（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップは、上記検出されたウェイクワードに肯定応答する可聴音を上記１つ又は複数のスピーカを介して出力する少なくとも１フレーム前に、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップを含む、
請求項９記載の方法。
上記取り込まれた第１のオーディオの内容において上記音声サービスのためのウェイクワードを検出するステップは、上記ウェイクワードの検出に応答してイベント検出器をトリガするステップを含み、
上記動作は、リセットイベントを検出したとき、上記イベント検出器をリセットするステップをさらに含む、
請求項９記載の方法。
リセットイベントを検出することは、
（ｉ）上記起動された音キャンセラを用いて、上記取り込まれた第２のオーディオからの可聴音をキャンセルすることと、
（ｉｉ）上記起動された音キャンセラにおけるタイマの時間が満了することと、
（ｉｉｉ）上記１つ又は複数のスピーカを介してオーディオコンテンツの再生を開始することと、
（ｉｖ）制御インターフェースを介して、上記取り込まれた第１のオーディオの内容において検出されたウェイクワードに対応する音声入力をキャンセルすることと、
（ｖ）上記１つ又は複数のマイクロホンをミュートすることと、
（ｉｖ）上記制御インターフェースを介して上記可聴音を停止することとのうちの少なくとも１つを含む、
請求項９記載の方法。
上記１つ又は複数のスピーカが（ａ）オーディオコンテンツを再生しているか、それとも（ｂ）アイドル状態にあるかを決定するステップは、上記オーディオコンテンツを表すオーディオ信号を通過させる上記システムのオーディオステージに基づいて、上記１つ又は複数のスピーカが上記オーディオコンテンツを再生していると決定するステップを含む、
請求項９記載の方法。
１つ又は複数のプロセッサによって実行可能な命令であって、システムに以下のステップを含む動作を実行させる命令を格納した、有形かつ非一時的なコンピュータ可読媒体であって、上記動作は、
１つ又は複数のマイクロホンを介して、音響環境における第１のオーディオを取り込むステップと、
１つ又は複数のスピーカが（ａ）オーディオコンテンツを再生しているか、それとも（ｂ）アイドル状態にあるかを決定するステップと、
上記取り込まれた第１のオーディオの内容において、音声サービスのためのウェイクワードを検出するステップと、
可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する周波数帯の集合を識別するステップと、
上記音声サービスのためのウェイクワードの検出に応答して、かつ、上記検出されたウェイクワードに肯定応答して上記１つ又は複数のスピーカにおいて可聴音を再生する前に、（ａ）第１の音キャンセラ及び（ｂ）第２の音キャンセラのいずれかを起動するステップとを含み、
（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップは、
上記１つ又は複数のスピーカがオーディオコンテンツを再生しているとき、上記第１の音キャンセラを起動するステップと、
上記１つ又は複数のスピーカがアイドル状態にあるとき、上記第２の音キャンセラを起動するステップとを含み、
上記第１の音キャンセラは、可聴周波数スペクトルの全体において上記１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成され、
上記第２の音キャンセラは、上記可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する上記識別された周波数帯において、上記１つ又は複数のスピーカからのオーディオ出力をキャンセルするように構成され、
上記動作は、
上記音声サービスのためのウェイクワードの検出に応答して、かつ、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動した後で、上記検出されたウェイクワードに肯定応答する可聴音を上記１つ又は複数のスピーカを介して出力するステップと、
上記１つ又は複数のマイクロホンを介して、上記音響環境における第２のオーディオであって、上記検出されたウェイクワードに肯定応答する可聴音を出力する際に上記１つ又は複数のスピーカによって生成される音を含む第２のオーディオを取り込むステップと、
上記起動された音キャンセラを用いて、上記取り込まれた第２のオーディオから上記検出されたウェイクワードに肯定応答する可聴音をキャンセルするステップとを含む、
有形かつ非一時的なコンピュータ可読媒体。
上記可聴周波数スペクトルの全体のうち、上記検出されたウェイクワードに肯定応答する可聴音が内容を有する周波数帯の集合を識別するステップは、
周波数領域において上記可聴音のスペクトル内容を測定するステップと、
上記周波数領域における可聴音のスペクトル内容から、上記可聴音が内容を有する周波数帯の集合を識別するステップと、
上記可聴音が内容を有する周波数ビンの集合のみを処理するように上記第２の音キャンセラに指示するステップとを含む、
請求項１５記載の有形かつ非一時的なコンピュータ可読媒体。
上記１つ又は複数のマイクロホンによって取り込まれたオーディオは、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかによる処理のために、複数のフレームに分割され、
上記検出されたウェイクワードに肯定応答する可聴音を再生する前に（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップは、上記検出されたウェイクワードに肯定応答する可聴音を上記１つ又は複数のスピーカを介して出力する少なくとも１フレーム前に、（ａ）上記第１の音キャンセラ及び（ｂ）上記第２の音キャンセラのいずれかを起動するステップを含む、
請求項１５記載の有形かつ非一時的なコンピュータ可読媒体。
上記取り込まれた第１のオーディオの内容において上記音声サービスのためのウェイクワードを検出するステップは、上記ウェイクワードの検出に応答してイベント検出器をトリガするステップを含み、
上記動作は、リセットイベントを検出したとき、上記イベント検出器をリセットするステップをさらに含む、
請求項１５記載の有形かつ非一時的なコンピュータ可読媒体。
リセットイベントを検出することは、
（ｉ）上記起動された音キャンセラを用いて、上記取り込まれた第２のオーディオからの可聴音をキャンセルすることと、
（ｉｉ）上記起動された音キャンセラにおけるタイマの時間が満了することと、
（ｉｉｉ）上記１つ又は複数のスピーカを介してオーディオコンテンツの再生を開始することと、
（ｉｖ）制御インターフェースを介して、上記取り込まれた第１のオーディオの内容において検出されたウェイクワードに対応する音声入力をキャンセルすることと、
（ｖ）上記１つ又は複数のマイクロホンをミュートすることと、
（ｉｖ）上記制御インターフェースを介して上記可聴音を停止することとのうちの少なくとも１つを含む、
請求項１５記載の有形かつ非一時的なコンピュータ可読媒体。
上記１つ又は複数のスピーカが（ａ）オーディオコンテンツを再生しているか、それとも（ｂ）アイドル状態にあるかを決定するステップは、上記オーディオコンテンツを表すオーディオ信号を通過させる上記システムのオーディオステージに基づいて、上記１つ又は複数のスピーカが上記オーディオコンテンツを再生していると決定するステップを含む、
請求項１５記載の有形かつ非一時的なコンピュータ可読媒体。