JP7217572B2

JP7217572B2 - 分散マイクロホンシステムを構成するための方法及びコントローラ

Info

Publication number: JP7217572B2
Application number: JP2021515191A
Authority: JP
Inventors: ジェロームエドゥアルドマエス; デスルイスバルテルマリヌスヴァン; ペーターダイクスラー
Original assignee: Signify Holding BV
Current assignee: Signify Holding BV
Priority date: 2018-09-20
Filing date: 2019-09-03
Publication date: 2023-02-03
Anticipated expiration: 2039-09-03
Also published as: JP2021532697A; ES2922540T3; EP3854109A1; CN112673647B; US20210385574A1; CN112673647A; WO2020057963A1; US11871189B2; EP3854109B1

Description

本発明は、分散マイクロホンシステムを構成する(configure)ための方法、及び該方法を実行するためのコンピュータプログラムプロダクトに関する。本発明はさらに、分散マイクロホンシステムを構成するためのコントローラに関する。

スマートスピーカ及び音声制御システムが、ホームドメインにおいてよく知られている。これらのシステムは、ユーザからのオーディオ入力を聞く１つ以上のマイクロホンデバイス（例えば、スマートスピーカ）を含む。このようなシステムは、ユーザが、発声制御コマンド(spoken control command)を提供することによりデバイスを制御することを可能にする、又は、質問することを可能にし、これに応じて、システムは回答を応え得る。このシステムがネットワークを介して接続される２つのマイクロホンデバイスを含む場合、ユーザコマンド（例えば、「照明をつけて」、「天気予報を教えて」、「卵のゆで方を教えて」）は、これらのデバイスのうちの２つ以上のデバイスによって拾われる可能性がある。この場合、システムは、両方のマイクロホンデバイスにおけるユーザコマンド／質問の音の強さを決定し、システムは、制御コマンドを実行する又は質問に応答するために音の強さが最も大きかったマイクロホンデバイスを選択する。このようなシステムが複数のマイクロホンデバイスを含む場合、ネットワークを介して通信されるデータ量及び必要なコンピューティングリソースが大幅に増加する。

本発明者らは、マイクロホンデバイス（例えば、（家庭／オフィス／屋外）空間に分散されるマイクロホン）の数が増えると、ネットワークトラフィック及びコンピューティングリソースの量も増加することを認識した。斯くして、音声制御システムを例えばオフィス又は屋外環境にスケールアップするために、オーディオデータの通信及び／又は処理のためのネットワークトラフィック及び／又はコンピューティングリソースの量を減らすための追加の手段が必要とされる。それゆえ、本発明の目的は、異なるマイクロホンデバイスからの大量のオーディオデータを処理することができる分散マイクロホンシステムを提供することである。

本発明の第１の態様によれば、前記目的は、ネットワークを介して接続される複数のマイクロホンデバイスを含む分散マイクロホンシステムを構成するための方法であって、当該方法は、
複数のマイクロホンデバイスのうちの第１のマイクロホンデバイスから受ける第１の履歴的な(historical)オーディオデータを分析することと、
複数のマイクロホンデバイスのうちの第２のマイクロホンデバイスから受ける第２の履歴的なオーディオデータを分析することと、
第１の履歴的なオーディオデータ及び第２の履歴的なオーディオデータを比較して、第１の履歴的なオーディオデータと第２の履歴的なオーディオデータとの間の差異を識別することと、
第１の履歴的なオーディオデータと第２の履歴的なオーディオデータとの間の差異に基づいて第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスに優先レベル(priority level)を割り当てることと、
を含み、優先レベルは、それぞれ(respectively)第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスによって録られる将来のオーディオデータを分析するための優先ルール(priority rule)を示す、及び／又は、優先レベルは、それぞれ第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスから将来のオーディオデータをネットワークを介して通信するための通信ルールを示す、方法によって達成される。

本発明者らは、複数のマイクロホンデバイスから受ける履歴的なオーディオデータを分析することにより、マイクロホンデバイスの過去の使用(prior usage)、又は少なくともこれらのマイクロホンデバイスの関連する過去の使用が決定されることができることを認識した。この（関連する）使用に基づいて、オーディオデータを分析するためのネットワークトラフィック及び／又はコンピューティングリソースの量を削減するために、マイクロホンデバイスに優先順位が付けられる。

まず、複数のマイクロホンデバイスからの履歴的なオーディオデータが取得される。履歴的なオーディオデータは、ローカルに（例えば、中央コントローラ、マイクロホンデバイス、ローカルメモリ等に）記憶されてもよく、又は、リモートに記憶され、例えばインターネットを介してアクセス可能であってもよい。複数のマイクロホンデバイスからの履歴的なオーディオデータが分析された後、マイクロホンデバイスからの履歴的なオーディオデータ間の差異が決定される。これらの差異に基づいて、第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイス（及びそれに伴う第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスからの将来のオーディオデータ）に優先レベルが割り当てられる。これらの優先レベルを割り当てることにより、あるマイクロホンデバイスは、他のマイクロホンデバイスと比較して、より高い優先レベル／優先値を有し得る。斯くして、優先レベルを割り当てた後、マイクロホンからの将来のオーディオデータは、優先レベルに基づいて分散マイクシステムによって扱われる。優先レベルは、それぞれのマイクロホンデバイスの将来のオーディオデータを扱うための指示(instruction)を含む１つ以上のルールとして定義されてもよい。優先レベルは、あるマイクロホンデバイスの履歴的なオーディオデータと他のマイクロホンデバイスの履歴的なオーディオデータとの間の差異に基づく当該マイクロホンデバイスによって録られる将来のオーディオデータを分析するための優先ルールを示してもよい。この結果、例えば、第１のマイクロホンデバイスの（将来の）オーディオデータは、他のマイクロホンデバイスの（将来の）オーディオデータよりも先に処理されることになる、又は、より多くの処理リソースが、第１のマイクロホンデバイスの（将来の）オーディオデータに専用のものとされてもよい。追加的又は代替的に、優先レベルは、あるマイクロホンデバイスの履歴的なオーディオデータと他のマイクロホンデバイスの履歴的なオーディオデータとの間の差異に基づく当該マイクロホンデバイスによって録られる将来のオーディオデータを通信するための通信ルールを示してもよい。これは、複数のマイクロホンデバイスからのオーディオデータを処理するために必要とされるコンピューティングリソースが最適化及び／又は低減されるので、有益である。この結果、例えば、第１のマイクロホンデバイスの（将来の）オーディオデータは、別のマイクロホンデバイスの（将来の）オーディオデータよりも先にネットワークを介して通信される、又は、特定のオーディオデータは、限定された形態でネットワークを介して通信される、若しくは全く通信されなくてもよい。これは、複数のマイクロホンデバイスからオーディオデータを通信するために必要とされるネットワークリソース及び／又はネットワークトラフィックが低減されるので、有益である。

通信ルールは、ネットワークを介してそれぞれのマイクロホンデバイスから通信されるオーディオデータの許容数、頻度、レイテンシ、品質及び／又はサイズを定義してもよい。通信ルールは、ネットワークを介して共有される将来のオーディオデータの量を限定してもよい。この限定は、マイクロホンデバイスに対するオーディオデータ共有ルールを制限することによって、例えば、オーディオデータの数及び／又は品質／サイズを減らすことによって実現されてもよい。これは、オーディオデータが共有されるべき方法(way)を制御することを含んでもよい。これは、例えば、マイクロホンデバイスがオーディオデータをローカルに処理し、オーディオデータに関する情報（例えば、会話のテキストトランスクリプト、又は、人が咳をしている、叫んでいる、話している等のコンテキスト関連情報）のみを共有することを示すためのマイクロホンデバイスへの指示を含んでもよい。これは、複数のマイクロホンデバイスからオーディオデータを通信するために必要とされるネットワークリソースが低減されるので、有益である。

方法はさらに、それぞれ第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスに通信ルールを通信することを含んでもよい。方法が、例えば、分散ネットワークシステムの中央コントローラによって実行される実施形態では、中央コントローラは、第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスから将来のオーディオデータを通信するための指示を提供するために通信ルールをそれぞれのマイクロホンデバイスに通信してもよい。通信ルールは、例えば、ネットワークを介して共有される将来のオーディオデータの量を限定してもよい。これは、複数のマイクロホンデバイスから中央コントローラへオーディオデータを通信するために必要とされるネットワークリソース及び／又はネットワークトラフィックが低減されるので、有益である。

第１の履歴的なオーディオデータを分析するステップは、第１の履歴的なオーディオデータにおける異なるタイプのオーディオを識別するために第１の履歴的なオーディオデータを分析することを含んでもよい。第２の履歴的なオーディオデータを分析するステップは、第２の履歴的なオーディオデータにおける異なるタイプのオーディオを識別するために第２の履歴的なオーディオデータを分析することを含んでもよい。方法はさらに、第１の履歴的なオーディオデータの異なるタイプのオーディオを１つ以上のオーディオクラスの第１のセットに分類することと、第２の履歴的なオーディオデータの異なるタイプのオーディオを１つ以上のオーディオクラスの第２のセットに分類することとを含んでもよい。第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスへの優先レベルの割り当てはさらに、それぞれオーディオクラスの第１のセット及びオーディオクラスの第２のセットに基づいてもよい。オーディオクラスは、例えば、背景雑音、（建物／屋外）インフラストラクチャによって発生される非スピーチ(non-speech)オーディオ、ユーザによって発生される非スピーチオーディオ、背景スピーチ(background speech)、音声制御(voice-controlled)デバイスを制御するための音声コマンド(voice command)、音声制御(voice-controlled)サービスを要求するための音声コマンド、及び／又は、音声操作(voice-operated)システム、アシスタント(assistant)又はサービスをトリガするためのウェイクワードを含んでもよい。これにより、異なるマイクロホンデバイスで検出される異なるタイプのオーディオを区別し、それに基づいてマイクロホンデバイスに優先順位を付けることができる。例えば、第１のマイクロホンデバイスが主に背景雑音を録り、第２のマイクロホンデバイスが主にユーザのスピーチを録った場合、第２のマイクロホンにより高い優先レベルで割り当てられてもよい。

第１の履歴的なオーディオデータを分析するステップは、第１のマイクロホンデバイスにおける第１のユーザプレゼンスレベルを識別するために第１の履歴的なオーディオデータを分析することを含んでもよい。第２の履歴的なオーディオデータを分析するステップは、第２のマイクロホンデバイスにおける第２のユーザプレゼンスレベルを識別するために第２の履歴的なオーディオデータを分析することを含んでもよい。第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスへの優先レベルの割り当てはさらに、第１のユーザプレゼンスレベル及び第２のユーザプレゼンスレベルに基づいてもよい。履歴的なユーザプレゼンスレベルは、履歴的なオーディオデータを分析して、ユーザが発生させる音（例えば、足音、声等）又はパーソナルユーザデバイスが発生させる音（例えば、着信音、振動、レンダリングされたオーディオコンテンツ）等、ユーザに関連する音を認識することによって決定されてもよい。例えば、第１のマイクロホンデバイスにおけるユーザプレゼンスが第２のマイクロホンデバイスにおけるユーザプレゼンスよりも高い場合、第１のマイクロホンデバイスに第２のマイクロホンデバイスよりも高い優先レベルが割り当てられてもよい。マイクロホンデバイスにおける履歴的なユーザプレゼンスに基づいて優先レベルを決定することは、存在する人が少なかった（及び今後その可能性が高い）場合のオーディオデータに対してネットワークリソース及び／又はコンピューティングリソースの量を減らすことができるので、有益である。

方法はさらに、
第１の履歴的なオーディオデータ、第２の履歴的なオーディオデータ及び第３の履歴的なオーディオデータに基づいて第１のマイクロホンデバイス、第２のマイクロホンデバイス及び第３のマイクロホンデバイスに対する１人以上のユーザの１つ以上のロケーションを決定することと、
第１のマイクロホンデバイス、第２のマイクロホンデバイス及び第３のマイクロホンデバイスに対するユーザのロケーションに基づいて第１のマイクロホンデバイス、第２のマイクロホンデバイス及び／又は第３のマイクロホンデバイスに優先レベルを割り当てることと、
を含んでもよい。

言い換えれば、優先レベルはさらに、ユーザがエリア内のどこに位置するかに基づいて決定されてもよい。第１のマイクロホンデバイス、第２のマイクロホンデバイス及び第３のマイクロホンデバイスに対するユーザの履歴的なロケーションが比較され、（例えば、三辺測量(trilateration)を使用して）ユーザの正確なロケーションを決定するためにマイクロホンに対するユーザの距離及び方向を決定するためにユーザに関連する音の強度を決定するために使用されてもよい。マイクロホンデバイスにおける履歴的なユーザロケーションに基づいて優先レベルを決定することは、存在する人が少なかった（及び今後その可能性が高い）場合のオーディオデータに対してネットワークリソース及び／又はコンピューティングリソースの量を減らすことができるので、有益である。

方法はさらに、
経時的な１人以上のユーザのロケーションに基づいて第１のマイクロホンデバイス、第２のマイクロホンデバイス及び第３のマイクロホンデバイスに対する経時的な１人以上のユーザの１つ以上の軌跡を決定することと、
さらに１人以上のユーザの１つ以上の軌跡に基づいて第１のマイクロホンデバイス、第２のマイクロホンデバイス及び／又は第３のマイクロホンデバイスに優先レベルを割り当てることと、
を含んでもよい。軌跡は、経時的なユーザの位置を決定することによって決定されてもよい。複数のマイクロホンのオーディオデータが、同様の音（例えば、足音、ユーザの声等）を識別し、それらが同じユーザに由来すると判断するために分析されてもよい。これらのオーディオフラグメントに三辺測量を適用することにより、ある瞬時におけるユーザの位置が決定されることができる。この位置が経時的に変化する場合、これは、ユーザが移動していることを示している。これにより、ユーザの軌跡（及び速度）を検出することができる。複数のユーザの軌跡が、履歴的なオーディオデータが録られた期間にわたり検出されてもよい。軌跡（及び速度）は、マイクロホンデバイスの優先レベルを決定するために使用されてもよい。例えば、１人以上のユーザがめったに通らないロケーション／経路に位置するマイクロホンデバイスは、１人以上のユーザが通ったことがあるロケーション／経路に位置するマイクロホンデバイスよりも低い優先レベルが割り当てられてもよい。

方法はさらに、
第１のマイクロホンデバイス及び第２のマイクロホンデバイスのロケーションを取得することと、
第１のマイクロホンデバイス及び第２のマイクロホンデバイスのそれぞれのロケーションに基づいて第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスに優先レベルを割り当てることと、
を含んでもよい。第１及び第２のマイクロホンデバイスのロケーションは、例えば、あらかじめ定義されてもよく、又は、ロケーションに関する情報が、（屋内／屋外）測位システムから受けられてもよい。ロケーションは、（リモート）メモリから取得されてもよい。何らかのマイクロホンデバイスは、他のロケーションに比べてユーザが発生させるオーディオが検出される可能性が高いロケーションに位置する可能性があるので、マイクロホンデバイスのロケーションに基づいて優先レベルを割り当てることは有益である。

第１の履歴的なオーディオデータを分析するステップは、第１の履歴的なオーディオデータに基づいて１つ以上の第１のユーザアクティビティを識別するために第１の履歴的なオーディオデータを分析することを含んでもよい。第２の履歴的なオーディオデータを分析するステップは、第２の履歴的なオーディオデータに基づいて１つ以上の第２のユーザアクティビティを識別するために第２の履歴的なオーディオデータを分析することを含んでもよい。第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスへの優先レベルの割り当てはさらに、１つ以上の第１のユーザアクティビティ及び１つ以上の第２のユーザアクティビティに基づいてもよい。履歴的なユーザアクティビティは、ユーザアクティビティを示すオーディオフラグメントについてオーディオデータを分析することにより履歴的なオーディオデータから導出されてもよく、優先レベルは、それぞれのマイクロホンデバイスにおける識別されたアクティビティに基づいて割り当てられてもよい。特定のユーザアクティビティについて、オーディオデータの分析は必要ない可能性があるので、マイクロホンデバイスにおけるユーザアクティビティに基づいて優先レベルを決定することは有益である。

方法はさらに、
第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスに関連するプレゼンスセンサからプレゼンス信号を受信することと、
プレゼンス信号に応答してそれぞれ第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスの優先レベルを調整することと、
を含んでもよい。プレゼンスセンサは、１つ以上のマイクロホンデバイスの近傍に位置してもよく、マイクロホンデバイスの優先レベルは、プレゼンスセンサがユーザによってトリガされる場合に調整／オーバールール(overrule)されてもよい。調整された優先レベルは、所定の期間（例えば、１分、１５分、１時間、１日等）の間アクティブであってもよく、又は、調整は、存在が検出される場合に（のみ）アクティブであってもよい。方法はさらに、所定の期間後、及び／又は、存在がプレゼンスセンサによって検出されなくなると、以前の優先レベルに戻ることを含んでもよい。例えば、マイクロホンデバイスが低い優先レベルを有し、該マイクロホンデバイスに関連するプレゼンスセンサがトリガされる場合、優先レベルが上げられてもよい。これは、ユーザが存在しない場合にネットワークリソース及び／又はコンピューティングリソースを節約し、ユーザが存在する場合にシステムの機能性が高められるので、有益である。

方法はさらに、
ネットワークのネットワーク容量のインディケーションを受けることと、
ネットワークのネットワーク容量に基づいて第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスの優先レベルを調整することと、
を含んでもよい。ネットワーク容量（例えば、利用可能な帯域幅）は、現在のネットワークトラフィック量に基づいて変化する可能性がある。ネットワークリソース／コンピューティングリソースと分散マイクロホンシステムの機能性とのバランスを取るために（現在の）ネットワーク容量に基づいて優先レベルを調整することは有益であり得る。

本発明の第２の態様によれば、前記目的は、コンピューティングデバイスのためのコンピュータプログラムプロダクトであって、コンピュータプログラムプロダクトがコンピューティングデバイスの処理ユニットで実行された場合、上述した方法を実行するためのコンピュータプログラムコードを含む、コンピュータプログラムプロダクトにより達成される。

本発明の第３の態様によれば、前記目的は、ネットワークを介して接続される複数のマイクロホンデバイスを含む分散マイクロホンシステムを構成するためのコントローラであって、当該コントローラは、
複数のマイクロホンデバイスのうちの第１のマイクロホンデバイスから第１の履歴的なオーディオデータを受ける、及び、複数のマイクロホンデバイスのうちの第２のマイクロホンデバイスから第２の履歴的なオーディオデータを受けるように構成される通信モジュールと、
第１の履歴的なオーディオデータを分析する、第２の履歴的なオーディオデータを分析する、第１の履歴的なオーディオデータ及び第２の履歴的なオーディオデータを比較して、第１の履歴的なオーディオデータと第２の履歴的なオーディオデータとの間の差異を識別する、及び、第１の履歴的なオーディオデータと第２の履歴的なオーディオデータとの間の差異に基づいて第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスに優先レベルを割り当てるように構成されるプロセッサと、
を含み、優先レベルは、それぞれ第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスによって録られる将来のオーディオデータを分析するための優先ルールを示す、及び／又は、優先レベルは、それぞれ第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスから将来のオーディオデータをネットワークを介して通信するための通信ルールを示す、コントローラによって達成される。

コントローラは、第１のマイクロホンデバイスに含まれてもよく、通信モジュールは、第１のマイクロホンデバイスに含まれるマイクロホンから第１の履歴的なオーディオデータを受けるように構成されてもよい。これは、第１のマイクロホンデバイスが、自身の（及び／又は第２のマイクロホンデバイス）の優先レベルを、両方のマイクロホンデバイスの履歴的なオーディオデータの差異に基づいて決定することを可能にする。これは、優先レベルを決定するための中央コントローラが必要ないので有益である。代替的に、コントローラは、分散マイクロホンシステムの中央コントローラに含まれてもよい。

本発明の第４の態様によれば、前記目的は、
上述したコントローラを含む中央コントローラと、
第１の履歴的なオーディオデータを中央コントローラに通信するように構成される第１のマイクロホンデバイスと、
第２の履歴的なオーディオデータを中央コントローラに通信するように構成される第２のマイクロホンデバイスと、
を含む、システムによって達成される。

システムは、中央コントローラを含む照明システムであってもよく、マイクロホンデバイスは、照明システムの照明デバイス／照明器具に含まれてもよい。照明システムの照明器具は、（オフィス／屋外）空間にわたり均等に分散されることがよくあり、音検出のための良好なカバレッジを提供するので、マイクロホンデバイスを照明システムに組み込むことは有益である。追加的に、照明器具は、マイクロホンデバイスのための電源接続を提供してもよい。

コンピュータプログラムプロダクト、コントローラ及びシステムは、上述した方法と同様及び／又は同一の実施形態及び利点を有し得ることを理解されたい。

開示されたシステム、デバイス及び方法の上記の及び追加の目的、特徴及び利点は、添付の図面を参照して、デバイス及び方法の実施形態の以下の例示的且つ非限定的な詳細な説明を通してよりよく理解されるであろう。
図１は、複数のマイクロホンデバイスと、マイクロホンデバイスを構成するためのコントローラとを含む分散マイクロホンシステムの一実施形態を概略的に示す。図２は、１つのマイクロホンデバイスが、複数のマイクロホンデバイスのうちの１つ以上を構成するためのコントローラを含む、複数のマイクロホンデバイスの一実施形態を概略的に示す。図３ａは、複数のマイクロホンデバイスを含む分散マイクロホンシステムの上面図を概略的に示す。図３ｂは、図３ａの分散マイクシステムの第１のタイプの履歴的なオーディオデータのヒートマップを概略的に示す。図３ｃは、図３ａの分散マイクシステムの第２のタイプの履歴的なオーディオデータのヒートマップを概略的に示す。図４は、ネットワークを介して接続される複数のマイクロホンデバイスを含む分散マイクロホンシステムを構成する方法を概略的に示す。

すべての図は概略的であり、必ずしも縮尺どおりではなく、一般に、本発明を明らかにするために必要な部分のみを示し、他の部分は省略されるか、単に示唆される場合がある。

図１は、複数のマイクロホンデバイス１１０、１２０と、マイクロホンデバイス１１０、１２０を構成するためのコントローラ１００とを含む分散マイクロホンシステムの一実施形態を概略的に示す。コントローラ１００は、第１のマイクロホンデバイス１１０から第１の履歴的なオーディオデータ１１２を受ける、及び、第２のマイクロホンデバイス１２０から第２の履歴的なオーディオデータ１２２を受けるように構成される通信モジュール１０２を含む。コントローラはさらに、第１の履歴的なオーディオデータ１１２を分析する、及び、第２の履歴的なオーディオデータ１２２を分析するように構成されるプロセッサ１０４を含む。プロセッサ１０４はさらに、第１の履歴的なオーディオデータ１１２及び第２の履歴的なオーディオデータ１２２を比較して、第１の履歴的なオーディオデータ１１２と第２の履歴的なオーディオデータ１２２との間の差異を識別するように構成される。プロセッサ１０４はさらに、前記差異に基づいて第１のマイクロホンデバイス１１０に優先レベルを割り当てる及び／又は第２のマイクロホンデバイス１２０に（異なる）優先レベルを割り当てるように構成される。優先レベルは、それぞれ、第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスによって録られる将来のオーディオデータを分析するための優先ルールを示す。追加的又は代替的に、優先レベルは、それぞれ、第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスから将来のオーディオデータをネットワークを介して通信するための通信ルールを示す。

コントローラ１００は、分散マイクロホンシステムの中央コントローラ（図１参照）に含まれ、分散マイクロホンシステムの複数のマイクロホンデバイス１１０、１２０からオーディオデータを受けるように構成されてもよい。代替的に、コントローラ１００は、分散マイクロホンシステムのマイクロホンデバイス１１０（後述の図２参照）に含まれてもよい。

分散マイクロホンシステムは、空間（家庭、オフィス、屋外環境等）にわたり分散される複数のマイクロホンデバイスを含んでもよい。各マイクロホンデバイスは、少なくともマイクロホンと、ネットワークを介してオーディオデータを通信するための通信モジュールとを含む。オーディオデータは、直接又は間接的に、中央コントローラ（図１参照）及び／又はネットワーク内の別のマイクロホンデバイス（図２参照）に通信されてもよい。分散マイクロホンシステムのマイクロホンデバイスの数（少なくとも２つ、３つ、１０等）は、システム要件に依存してもよい。例えば、（オープン）オフィス空間又は屋外空間は、例えば、照明器具又はランプポストに組み込まれてもよい、及び、照明システムの一部であってもよい、マイクロホンデバイスのアレイを含んでもよい。マイクロホンからのオーディオデータは、例えば、照明システムの照明デバイスを制御するために使用されてもよい。

コントローラ１００の通信モジュール１０２は、第１のマイクロホンデバイス１１０及び第２のマイクロホンデバイス１２０から履歴的なオーディオデータを受けるように構成される。履歴的なオーディオデータは、ある期間（例えば、１日、１週間、１ヶ月等）にわたって録られ記憶されるオーディオデータを含む。通信モジュール１０２は、ネットワークを介して（例えば、ＺｉｇＢｅｅ、Ｂｌｕｅｔｏｏｔｈ、Ｔｈｒｅａｄ、Ｅｔｈｅｒｎｅｔ、ＰＬＣ、Ｗｉ－Ｆｉ等を介して）、マイクロホンデバイス１１０、１２０から直接オーディオデータを受け、マイクロホンデバイス１１０、１２０の履歴的なオーディオデータを生成するためにある期間にわたってオーディオデータをメモリ１０６に記憶してもよい。メモリ１０６は、コントローラ１００に含まれてもよく、又は、コントローラ１００からリモートに位置し、ネットワークを介してアクセス可能であってもよい。追加的又は代替的に、マイクロホンデバイスは、履歴的なオーディオデータを生成するためにある期間にわたってそれぞれのオーディオデータを記憶するためのメモリを含んでもよい。マイクロホンデバイスの通信モジュールは、（例えば、コントローラ１００による要求に応じて）履歴的なオーディオデータを直接又は間接的に（例えば、サーバ１３０を介して）共有してもよい。追加的又は代替的に、マイクロホンデバイスは、ある期間にわたってオーディオデータをサーバ１３０に通信／ストリーミングするように構成されてもよく、履歴的なオーディオデータは、サーバ１３０に記憶され、後に（例えば、要求に応じて）コントローラ１００に通信されてもよい。マイクロホンデバイスの履歴的なオーディオデータを取得する上述の例は単なる例であり、当業者は、添付の特許請求の範囲から逸脱することなく、履歴的なオーディオデータを取得するための代替例を設計することができることを理解されたい。

プロセッサ１０４は、マイクロホンデバイス１１０、１２０の履歴的なオーディオデータ１１２、１２２を分析するように構成される。オーディオ信号から情報及び意味(meaning)を抽出するためのオーディオ分析技術（音声認識、自然言語処理、ノイズ検出、パターン認識等）は、当技術分野で知られており、それゆえ詳細には述べられない。プロセッサ１０４はさらに、マイクロホンデバイス１１０、１２０のそれぞれの履歴的なオーディオデータセット１１２、１２２の間の差異を識別するように構成される。これらの差異は、例えば、ある期間にわたり受信された異なるタイプのオーディオのオーディオフラグメントの量に関してもよい。

プロセッサ１０４は、それぞれの履歴的なオーディオデータの間の差異に基づいて第１及び第２のマイクロホンデバイスのうちの少なくとも１つに優先レベルを割り当てるように構成される。優先レベルは、マイクロホンデバイスについての優先ルールを示してもよい。優先ルールは、例えば、異なるマイクロホンデバイスからの将来のオーディオデータを分析する順序(order)／シーケンスを示してもよい。それぞれの履歴的なオーディオデータの差異に基づいて、例えば、第１のマイクロホンデバイス１１０には、高い優先度を示す優先ルールが割り当てられ、第２のマイクロホンデバイス１２０には、低い優先度を示す優先ルールが割り当てられてもよい。その結果、第１のマイクロホンデバイス１１０の将来のオーディオデータは、（例えば、分散マイクロホンシステムの中央コントローラによって）第２のマイクロホンデバイス１２０の将来のオーディオデータよりも先に分析されてもよい。

優先レベルは、ネットワークを介してマイクロホンデバイスから将来のオーディオデータを通信するための通信ルールを示してもよい。通信ルールは、マイクロホンデバイスのデータ共有プラン(data sharing plan)を示してもよく、データ共有プランは、ネットワークを介してマイクロホンデバイスによって通信されることが許可されるオーディオデータ／メッセージの数、頻度、レイテンシ、品質及び／又はサイズに関する指示を含んでもよい。コントローラ１００が分散マイクロホンシステムの中央コントローラに含まれる実施形態では、コントローラ１００は、通信ルールをマイクロホンデバイスに伝達してもよい。コントローラ１００が第１のマイクロホンデバイス１１０（図２参照）に含まれる実施形態では、プロセッサ１０４は、自身のマイクロホンデバイスのための通信ルールを決定し、その後、それに応じてネットワークを介して将来のオーディオデータを通信してもよい。追加的又は代替的に、第１のマイクロホンデバイス１１０のプロセッサ１０４は、履歴的なオーディオデータの間の差異に基づいて第２のマイクロホンデバイス１２０のための通信ルールを決定し、それに応じて第２のマイクロホンデバイスが将来のオーディオデータを通信するように、第２のマイクロホンデバイス１２０に通信ルールを伝達してもよい。

プロセッサ１０４は、例えば、第１の履歴的なオーディオデータ１１２が、第２の履歴的なオーディオデータ１２２に比べてより多くの発声制御コマンド（例えば、照明制御コマンド）を含むことを判断してもよい。プロセッサ１０４はさらに、第２の履歴的なオーディオデータ１２２が、第１の履歴的なオーディオデータ１１２に比べてより多くの背景雑音を含むことを判断してもよい。これらの違いの理由は、第１のマイクロホンデバイス１１０が、空間内で制御可能なデバイスの近くに位置するのに対し、第２のオーディオデバイス１２０が、該空間の隅に位置していることであり得る。結果として、プロセッサ１０４は、第２のマイクロホンデバイス１２０よりも高い優先値を第１のマイクロホンデバイス１１０に割り当ててもよい。第２のマイクロホンデバイス１２０に対する優先レベルは、例えば、ネットワークを介して共有されてもよい第２のマイクロホンデバイス１２０からの将来のオーディオデータの量を限定する通信ルールを示してもよい。例えば、ネットワークを介して第２のマイクロホンデバイス１２０から通信される将来のオーディオデータの数、頻度、品質及び／又はサイズが制限されてもよい。例えば、将来のオーディオデータのパケット／メッセージの数が限定されてもよい、オーディオデータ（例えば、パケット／メッセージ）を通信する頻度が限定されてもよい、オーディオデータを通信するためのレイテンシが増加されてもよい、オーディオの品質／サイズ（例えばビット／秒）が減少されてもよい、等々であってもよい。

別の例では、プロセッサ１０４は、第１の履歴的なオーディオデータ１１２が、第２の履歴的なオーディオデータ１２２に比べてより多くの（例えば、ユーザアクティビティ又はユーザプロファイルを推論するために使用され得る）会話を含むことを判断してもよい。プロセッサ１０４はさらに、第２の履歴的なオーディオデータ１２２が、第１の履歴的なオーディオデータ１１２に比べて、音声操作システム、アシスタント又はサービス（例えば、音声制御デジタルアシスタント）をトリガする（「ウェイクアップする」）ためのより多くのウェイクワード、及び、ユーザの質問／クエリ（例えば、「地球はどのくらい重いのか」、「タイマを１０分に設定して」、「ブロッコリーを買い物リストに追加して」等）を含むより多くのデバイス制御コマンドを含むことを判断してもよい。これらの違いの理由は、第１のマイクロホンデバイス１１０が、空間内の共有エリアに位置するのに対し、第２のオーディオデバイス１２０は、制御されるためにウェイクワードを必要とするスマートスピーカの近くに位置していることであり得る。結果として、プロセッサ１０４は、第２のマイクロホンデバイス１２０とは異なる優先レベルを第１のマイクロホンデバイス１１０に割り当ててもよい。第１のマイクロホンデバイス１１０の優先レベルは、例えば、ユーザプロファイリング及び／又はユーザアクティビティの検出が当該エリアでは必要とされない可能性があるので、将来のオーディオデータのサイズを限定する通信ルールを示してもよく、第２のマイクロホンデバイス１２０の優先レベルは、第２のマイクロホンデバイス１２０が、ウェイクワード及びその後のユーザの質問／クエリの検出を向上させるために高品質の将来のオーディオデータを共有することを可能にする通信ルールを示してもよい。

図２は、複数のマイクロホンデバイス１１０、１２０と、第１のマイクロホンデバイス１１０に含まれるコントローラ１００とを含む分散マイクロホンシステムを示している。コントローラ１００は、第１のマイクロホンデバイス１１０のマイクロホン２０８から第１の履歴的なオーディオデータ１１２を受ける、及び、第２のマイクロホンデバイス１２０から第２の履歴的なオーディオデータ１２２を受けるように構成される通信モジュール１０２を含む。プロセッサ１０４は、第１の履歴的なオーディオデータを内部／外部メモリに記憶してもよい。コントローラ１００はさらに、第１の履歴的なオーディオデータ１１２を分析する、及び、第２の履歴的なオーディオデータ１２２を分析するように構成されるプロセッサ１０４を含む。プロセッサ１０４はさらに、第１の履歴的なオーディオデータ１１２及び第２の履歴的なオーディオデータ１２２を比較して、第１の履歴的なオーディオデータ１１２と第２の履歴的なオーディオデータ１２２との間の差異を識別するように構成される。プロセッサ１０４はさらに、前記差異に基づいて第１のマイクロホンデバイス１１０に優先レベルを割り当てる及び／又は第２のマイクロホンデバイス１２０に（異なる）優先レベルを割り当てるように構成される。プロセッサ１０４は、自身のマイクロホンデバイス１１０のための優先レベルを決定し、該優先レベルを別のマイクロホンデバイス又は分散マイクロホンシステムの中央コントローラに伝達してもよい。追加的又は代替的に、第１のマイクロホンデバイス１１０のプロセッサ１０４は、第２のマイクロホンデバイス１２０のための優先レベルを決定し、ネットワークを介して、該優先レベルを第２のマイクロホンデバイス１２０及び／又は中央コントローラに伝達してもよい。

プロセッサ１０４はさらに、履歴的なオーディオデータ１１２、１２２を分析して、オーディオデータにおける異なるタイプのオーディオを識別し、これらの異なるタイプのオーディオをそれぞれのマイクロホンデバイスごとのオーディオクラスのセットに分類するように構成されてもよい。プロセッサ１０４はさらに、それぞれの履歴的なオーディオデータにおける特定のオーディオクラスの存在に基づいて、及び、任意選択的に、特定のオーディオクラスがそれぞれの履歴的なオーディオデータにおいてどのくらい頻繁に発生するかに基づいて、それぞれのマイクロホンデバイスの優先レベルを決定してもよい。オーディオクラスの例としては、背景雑音／周囲雑音（マイクロホンデバイスによって監視されている音以外のあらゆる音）、人／ユーザによって発生される非スピーチオーディオ（例えば、足音、人の咳、ドアを開く／閉じる、タイピング音等）、（建物／屋外）インフラストラクチャによって発生される非スピーチオーディオ（例えば、（例えば、マイクロホンデバイスと同じ位置にある照明デバイスからの）電源によって、ＨＶＡＣシステムによってもたらされる（サブソニック(subsonic)）オーディオ等）、背景スピーチ（音声制御システム又はサービスに向けられていないスピーチ、例えば、同じ空間に存在する人又は仮想的に存在する人に向けられたスピーチ）、音声制御デバイスを制御するための音声コマンド、音声制御サービスを要求するための音声コマンド（例えば、音声制御サービスによって回答され得るユーザの質問／クエリ）、音声操作システム、アシスタント又はサービスをトリガするためのウェイクワード、等が挙げられる。プロセッサ１０４は、例えば、第１のマイクロホンデバイス１１０の第１のオーディオデータ１１２及び第２のマイクロホンデバイス１２０の第２のオーディオデータ１２２を分析し、第１のオーディオデータ１１２が背景雑音及び／又は背景スピーチのみを含むのに対し、第２のオーディオデータ１２２が音声制御デバイスを制御するための音声コマンド及び／又は音声制御サービスを要求するための音声コマンドを含むことを判断してもよい。この判断に基づいて、プロセッサ１０４は、第２のマイクロホンデバイス１２０に高い優先レベルを設定し、第１のマイクロホンデバイス１１０に低い優先レベルを設定してもよい。

マイクロホンデバイスは、該マイクロホンデバイスが位置する空間に由来するオーディオだけでなく、例えば、隣接する空間に由来するオーディオを録ってもよい。プロセッサ１０４はさらに、単一のマイクロホンデバイスの履歴的なオーディオデータの特性に基づいて、第１の空間内の第１のソースに由来するオーディオと、第１の空間に隣接する第２の空間内の第２のソースに由来するオーディオとを区別するように構成されてもよい。プロセッサ１０４は、当該マイクロホンデバイスのための優先レベルを決定する際に第２の空間からのオーディオを無視するように構成されてもよい。代替的に、プロセッサ１０４は、第１のソースからのオーディオと第２のソースからのオーディオとの間の比率に基づいてマイクロホンデバイスの優先レベルを決定してもよい。例えば、第２の空間からのオーディオしか履歴的なオーディオデータに存在しない／ほとんど第２の空間からのオーディオしか履歴的なオーディオデータに存在しない場合、低い優先レベルが当該マイクロホンデバイスに割り当てられてもよく、その逆もまた然りである。

プロセッサ１０４はさらに、オーディオフラグメントが同じ瞬時に両方のマイクロホンデバイスによって録られる場合、及び、オーディオフラグメント間に十分なレベルの類似性がある場合、第１のマイクロホンデバイス１１０によって録られたオーディオフラグメントは、第２のマイクロホンデバイス１２０によって録られたオーディオフラグメントと同じソースに由来すると判断するように構成されてもよい。この場合、プロセッサ１０４は、オーディオフラグメントが同じソースに由来することを示す、両方のオーディオフラグメントの相関性(correlation)を記憶してもよい。プロセッサ１０４は、例えば、第１のマイクロホンデバイスで録られる音声コマンドが、同じ（履歴的な）瞬時に第２のマイクロホンデバイスによって録られた音声コマンドと同じであることを判断してもよい。

図３ａは、空間内に複数のマイクロホンデバイスＭ１～Ｍ１０を含む分散マイクロホンシステムの一例を示す。図３ａはさらに、コーヒーマシン（Ｍ１の隣）、２つのテーブルのセット（Ｍ４及びＭ９）及びドア（Ｍ１０の隣）を示している。図３ｂは、図３ａのシステムと、ある期間にわたり複数のマイクロホンデバイスＭ１～Ｍ１０によって検出された第１のタイプのオーディオを示すヒートマップとを示し、暗いエリアは、該期間にわたる第１のタイプのオーディオの検出が多いことを示している。図３Ｃは、図３ａのシステムと、ある期間にわたり複数のマイクロホンデバイスＭ１～Ｍ１０によって検出された第２のタイプのオーディオを示すヒートマップとを示し、暗いエリアは、該期間にわたる第２のタイプのオーディオの検出が多いことを示している。第１のタイプのオーディオは、例えば、ユーザによる背景スピーチであってもよい。プロセッサ１０４は、各マイクロホンにおける背景スピーチの量を決定してもよい。これは、図３ｂのヒートマップとして視覚化されている。第２のタイプのオーディオは、例えば、音声制御デバイスのためのユーザの制御コマンドであってもよい。プロセッサ１０４は、各マイクロホンにおける制御コマンドの量を決定してもよい。これは、図３ｃのヒートマップとして視覚化されている。これらの例では、マイクロホンデバイスＭ７及びＭ１０は第１又は第２のタイプのオーディオをほとんど録っていないので、プロセッサ１０４は、これらのマイクロホンデバイスに最も低い優先レベルを割り当ててもよい。プロセッサ１０４はさらに、マイクロホンデバイスＭ１及びＭ２が（コーヒーマシンを制御するための可能性が高い）大量の制御コマンドを録っているので、これらのマイクロホンデバイスに高い優先レベルを割り当ててもよい。また、背景スピーチ（図３ｂ参照）と制御コマンド（図３ｃ参照）とを区別することが重要であり、これは、マイクロホンデバイスＭ１及びＭ２に高い優先レベルを割り当てる別の理由となり得る。プロセッサ１０４はさらに、残りのマイクロホンデバイスは制御コマンドを受けず、単に（入口、コーヒーマシン、及びテーブルにおける）背景スピーチを受けているので、これらのマイクロホンデバイスに中の(medium)優先レベルを割り当ててもよい。代替的に、例えば背景スピーチが無関係である実施形態では、プロセッサ１０４は、残りのマイクロホンデバイスにも低い優先レベルを割り当ててもよい。プロセッサ１０４は、検出されたオーディオのタイプをユーザに伝えるために使用され得るヒートマップを生成するように構成されてもよい。

プロセッサ１０４は、ユーザの存在に基づいてマイクロホンデバイスの優先レベルを決定するように構成されてもよい。プロセッサ１０４は、第１及び第２のマイクロホンデバイスの履歴的なオーディオデータを分析して、それぞれのマイクロホンデバイスにおけるユーザプレゼンスレベル（例えば、ユーザがどのくらいの頻度で存在するか、ユーザがマイクロホンデバイスの検出範囲内にどのくらいの時間滞在するか等）を決定してもよい。この場合、プロセッサ１０４は、それぞれのユーザプレゼンスレベルに基づいてそれぞれの優先レベルを決定してもよい。例えば、履歴的なオーディオデータが録られた期間中に第２のマイクロホンデバイス１２０に比べて第１のマイクロホンデバイス１１０により多くのユーザが存在していた場合、プロセッサ１０４は、第１のマイクロホンデバイス１１０により高い優先レベルを割り当ててもよい。

プロセッサ１０４はさらに、複数のマイクロホンデバイス１１０、１２０に対する１人以上のユーザのロケーションに基づいてマイクロホンデバイスの優先レベルを決定するように構成されてもよい。プロセッサ１０４はさらに、同じ瞬時に検出されたユーザ音の強度を比較することによって複数のマイクロホンデバイス１１０、１２０に対するユーザのロケーションを決定するように構成されてもよい。２つのマイクロホンデバイスで捕捉されるユーザが発生させる音の間の強度の差異を決定することは、ユーザがどのマイクロホンデバイスに最も近かったかを決定／推定するのに十分であり得る。この場合、プロセッサ１０４は、それに基づいてマイクロホンデバイスに優先レベルを割り当ててもよい。例えば、履歴的なオーディオデータが録られた期間中に第２のマイクロホンデバイス１２０に比べて第１のマイクロホンデバイス１１０の近くにより多くのユーザが位置していた場合、プロセッサ１０４は、第１のマイクロホンデバイス１１０により高い優先レベルを割り当ててもよい。追加的に、プロセッサ１０４は、複数のマイクロホンが位置する空間に対するこれら複数のマイクロホンの（予め定められた）ロケーションを示す情報を受けるように構成されてもよい。この情報は、例えば、屋内測位システム、建物情報モデル、マイクロホンデバイス等から得られてもよい。３つ以上のマイクロホンデバイスが、同じユーザが発生させる音を検出する場合、（当技術分野で知られている）三辺測量技術が、当該音をもたらしたユーザのより正確なロケーションを決定するために使用されることができる。

プロセッサ１０４はさらに、これらのマイクロホンデバイスの履歴的なオーディオデータに基づいて少なくとも３つのマイクロホンデバイスに対する経時的な１人以上のユーザの１つ以上の軌跡を決定するように構成されてもよい。複数のマイクロホンのオーディオデータが、同様の音（例えば、足音、ユーザの声等）を識別し、それらが同じユーザに由来すると判断するために分析されてもよい。これらのオーディオフラグメントに三辺測量を適用することにより、ある瞬時におけるユーザの位置が決定されることができる。この位置が経時的に変化する場合、これは、ユーザが移動していることを示している。これにより、ユーザの軌跡（及び速度）を検出することができる。複数のユーザの軌跡が、履歴的なオーディオデータが録られた期間にわたり検出されてもよい。プロセッサ１０４はさらに、１人以上のユーザの１つ以上の軌跡に基づいてマイクロホンデバイスに優先レベルを割り当てるように構成されてもよい。例えば、１人以上のユーザによって通られる頻度が少ないロケーション／経路に位置するマイクロホンデバイスは、１人以上のユーザが通ったことがあるロケーション／経路に位置するマイクロホンデバイスよりも低い優先レベルが割り当てられてもよい。

プロセッサ１０４はさらに、マイクロホンデバイスのロケーションに基づいてマイクロホンデバイスの優先レベルを決定するように構成されてもよい。プロセッサ１０４は、例えば、（屋内）測位システムから、又は、マイクロホンデバイス１１０、１２０のロケーションに関する情報を含むデータベースにアクセスすることによって、第１及び第２のマイクロホンデバイス１１０、１２０のロケーションを取得するように構成されてもよい。ロケーションは、例えば、空間内の座標として定義されてもよい。追加的又は代替的に、ロケーションは、例えば、それぞれのマイクロホンデバイスが設置されている部屋、エリア又は空間のタイプ（例えば、「リビングルーム」、「玄関」、「オープンオフィス空間１」、「交差点」、「歩道」等）を示すように、意味的に(semantically)定義されてもよい。例えば、マイクロホンデバイスが部屋の隅に位置する場合、部屋の中央に位置するマイクロホンデバイスよりも低い優先レベルが該マイクロホンデバイスに割り当てられてもよい。

プロセッサ１０４はさらに、マイクロホンデバイスの意図された／予め定められた機能性に基づいてマイクロホンデバイスの優先レベルを決定するように構成されてもよい。プロセッサ１０４は、複数のマイクロホンデバイス１１０、１２０の意図された／予め定められた機能性を示す情報を取得するように構成されてもよい。この情報は、マイクロホンデバイス、セントラルホーム／オフィス／中央制御システム、モバイルデバイス上で実行されるソフトウェアアプリケーション等から取得されてもよい。第１のマイクロホンデバイス１１０の機能性は、例えば、デバイス（例えば、ランプ、自動販売機等）のための制御コマンドを検出することであってもよい。第２のマイクロホンデバイス１２０の機能性は、ユーザが発生させる音に基づく存在検出であってもよい。プロセッサ１０４は、これらの機能性を取得し、第１のマイクロホンデバイス１１０に第１の優先レベルを割り当てて、制御コマンドを適切に識別するために高品質のオーディオを共有するように第１のマイクロホンデバイス１１０に指示し、第２のマイクロホンデバイス１２０に第２の優先レベルを割り当てて、（ユーザの存在を判断するために高品質のオーディオは必要ないので）低品質のオーディオを共有するように第２のマイクロホンデバイス１２０に指示してもよい。

プロセッサ１０４はさらに、それぞれのマイクロホンデバイス１１０、１２０で検出されるユーザアクティビティに基づいてマイクロホンデバイスの優先レベルを決定するように構成されてもよい。プロセッサ１０４は、履歴的なオーディオデータを分析し、例えば、ユーザ間の会話に基づいて、又は、音楽、ユーザによって発生される非スピーチオーディオ等の他の聴覚タイプ(auditory type)に基づいて、それからユーザアクティビティを取り出してもよい。プロセッサ１０４は、履歴的なオーディオデータを分析し、自然言語処理(Natural Language Processing)技術を使用して、ユーザアクティビティ（例えば、雑談、ビジネスミーティングの会話、夕食の会話等）を識別してもよく、又は、プロセッサ１０４は、非スピーチ音（例えば、人がコンピュータで作業していることを示すタイピング音、人が映画を見ていることを示す映画音、人が音楽を聴いていることを示す音楽等）等を検出してもよい。それぞれのマイクロホンデバイスで検出されるアクティビティに基づいて、プロセッサ１０４は、優先レベルを決定してもよい。例えば、オーディオ検出、通信及び／又は分析を必要とするより多くのアクティビティが、履歴的なオーディオデータが録られた期間中に第２のマイクロホンデバイス１２０に比べて第１のマイクロホンデバイス１１０で識別された場合、プロセッサ１０４は、第１のマイクロホンデバイス１１０により高い優先レベルを割り当ててもよい。

プロセッサ１０４はさらに、マイクロホンデバイス１１０、１２０の優先レベルを動的に更新するように構成されてもよい。プロセッサ１０４は、優先レベルを更新するために履歴的な及び現在のオーディオデータを継続的又は周期的に分析してもよい。プロセッサ１０４はさらに、１つ以上のマイクロホンデバイスに関連するプレゼンスセンサからプレゼンス信号を受信するように構成されてもよい。プレゼンス信号は、ユーザの存在を示す。プレゼンスセンサは、分散マイクロホンシステムの一部であってもよい。プレゼンスセンサは、例えば、人が存在する場合にセンサ信号を生成するためのカメラ、ＰＩＲセンサ、レーダ／ＲＦセンサ等であってもよい。プレゼンスセンサは、（例えば、同じデバイス（例えば、照明器具）に含まれる）マイクロホンデバイスと同じ位置にあってもよい。代替的に、プレゼンスセンサは、関連するマイクロホンデバイスと同じエリアに位置してもよい。プロセッサ１０４は、プレゼンス信号が受信された場合、以前の優先レベルを更新する又は（一時的に）オーバールールするように構成されてもよい。例えば、ユーザが部屋に入る場合、プレゼンスセンサは、ユーザの存在を検出し、ユーザの存在に基づいて該部屋に位置するマイクロホンデバイスの優先レベルを上げてもよい。任意選択的に、プロセッサ１０４は、ある期間後、例えば、存在が検出されなくなると又はタイムアウト期間後、以前の優先レベルに戻してもよい。

プロセッサ１０４はさらに、ネットワーク容量（例えば、ネットワークの帯域幅、ネットワーク負荷、ネットワークのダウンロード速度等）及び／又は所定のネットワーク容量に対するネットワークの利用(network utilization)に基づいてマイクロホンデバイスの優先レベルを（一時的に）調整するように構成されてもよい。プロセッサ１０４は、（例えば、中央コントローラ、中央サーバ、ネットワークルータ等から）ネットワークのネットワーク容量のインディケーションを受け、それに基づいて優先レベル（例えば、通信ルール）を調整／オーバールールするように構成されてもよい。一例では、現在のネットワークの利用が低い可能性があり、したがって、プロセッサ１０４は、マイクロホンデバイスの優先レベルを調整し、該マイクロホンデバイスがネットワークを介して通信されるオーディオデータの数、頻度、品質及び／又はサイズを増加させることを可能にしてもよい。

マイクロホンデバイスの処理ユニットは、その優先レベルを（一時的に）調整／オーバールールするように構成されてもよい。処理ユニットは、例えば、オーディオデータをローカルに処理し、現在のオーディオデータからオーディオイベント（例えば、特定のオーディオクラス又は発声ユーザ入力）を取得／検出し、オーディオイベントに基づいて優先レベルをオーバールールすることを決定するように構成されてもよい。これは、例えば、中央コントローラがマイクロホンデバイスに低い優先レベルを割り当てたかもしれないが、該マイクロホンデバイスが、オーディオデータ（例えば、オーディオイベントを示す情報）を中央コントローラに通信することを可能にし得る。

図４は、ネットワークを介して接続される複数のマイクロホンデバイス１１０、１２０を含む分散マイクロホンシステムを構成するための方法４００のステップを示す。方法は、複数のマイクロホンデバイスのうちの第１のマイクロホンデバイス１１０から受ける第１の履歴的なオーディオデータ４０２を分析する（４０２）ことと、複数のマイクロホンデバイスのうちの第２のマイクロホンデバイス１２０から受ける第２の履歴的なオーディオデータ１２２を分析する（４０４）こととを含む。方法はさらに、第１の履歴的なオーディオデータ１１２及び第２の履歴的なオーディオデータ１２２を比較して（４０６）、第１の履歴的なオーディオデータ１１２と第２の履歴的なオーディオデータ１２２との間の差異を識別する（４０８）ことを含む。方法はさらに、第１の履歴的なオーディオデータと第２の履歴的なオーディオデータとの間の差異に基づいて第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスに優先レベルを割り当てる（４１０）ことを含み、優先レベルは、それぞれ第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスによって録られる将来のオーディオデータを分析するための優先ルールを示す、及び／又は、優先レベルは、それぞれ第１のマイクロホンデバイス及び／又は第２のマイクロホンデバイスから将来のオーディオデータをネットワークを介して通信するための通信ルールを示す。

方法４００は、コンピュータプログラムプロダクトがコントローラ１００のプロセッサ１０４等のコンピューティングデバイスの処理ユニット上で実行された場合、コンピュータプログラムプロダクトのコンピュータプログラムコードによって実行されてもよい。

上述した実施形態は本発明を限定するものではなく、例示するものであり、当業者は添付の特許請求の範囲から逸脱することなく多くの代替的な実施形態を設計できることに留意されたい。

請求項では、括弧内のいかなる参照符号も、その請求項を限定するものとして解釈されるべきではない。動詞「含む（comprise）」及びその活用形の使用は、請求項に記述されたもの以外の要素又はステップが存在することを排除するものではない。要素に先行する冠詞「１つの（ａ）」又は「１つの（ａｎ）」は、複数のそのような要素が存在することを排除するものではない。本発明は、いくつかの個別要素を含むハードウェアによって、及び、好適にプログラムされたコンピュータ又は処理ユニットによって実装されてもよい。いくつかの手段を列挙するデバイスの請求項では、これらの手段のうちのいくつかは、同一のハードウェアのアイテムによって具現化されてもよい。特定の手段が、互いに異なる従属請求項内に列挙されているという単なる事実は、これらの手段の組み合わせが、有利に使用され得ないことを示すものではない。

本発明の態様は、コンピュータにより実行され得るコンピュータ可読記憶デバイスに記憶されたコンピュータプログラム命令の集合体であってもよいコンピュータプログラムプロダクトにおいて、実施されてもよい。本発明の命令は、スクリプト、解釈可能プログラム、ダイナミックリンクライブラリ（ＤＬＬ）又はＪａｖａクラスを含むが、これらに限定されない任意の解釈可能又は実行可能コードメカニズムであってもよい。命令は、完全な実行可能プログラム、部分実行可能プログラム、既存のプログラムに対する修正（例えば更新）、又は既存のプログラムに対する拡張（例えば、プラグイン）として提供され得る。さらに、本発明の処理の一部は、複数のコンピュータ若しくはプロセッサ、又は「クラウド」にわたって分散されてもよい。

コンピュータプログラム命令を格納するのに適した記憶媒体には、ＥＰＲＯＭ、ＥＥＰＲＯＭ及びフラッシュメモリデバイス、内部及び外部ハードディスクドライブ等の磁気ディスク、リムーバブルディスク並びにＣＤ－ＲＯＭディスクを含むが、これらに限定されないすべての形態の不揮発性メモリが含まれる。コンピュータプログラムは、斯様な記憶媒体上で頒布されてもよく、又はＨＴＴＰ、ＦＴＰ、電子メール、又はインターネット等のネットワークに接続されるサーバを介してダウンロード用に提供されてもよい。

Claims

ネットワークを介して接続される複数のマイクロホンデバイスを含む分散マイクロホンシステムを構成するための方法であって、当該方法は、
前記複数のマイクロホンデバイスのうちの第１のマイクロホンデバイスから受ける第１の履歴的なオーディオデータを前記第１の履歴的なオーディオデータにおける異なるタイプのオーディオを識別するために分析することと、
前記複数のマイクロホンデバイスのうちの第２のマイクロホンデバイスから受ける第２の履歴的なオーディオデータを前記第２の履歴的なオーディオデータにおける異なるタイプのオーディオを識別するために分析することと、
前記第１の履歴的なオーディオデータ及び前記第２の履歴的なオーディオデータを比較して、前記第１の履歴的なオーディオデータと前記第２の履歴的なオーディオデータとの間の差異を識別することと、
前記第１の履歴的なオーディオデータと前記第２の履歴的なオーディオデータとの間の差異に基づいて前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスに優先レベルを割り当てることと、
を含み、前記優先レベルは、それぞれ前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスによって録られる将来のオーディオデータを分析するための優先ルールを示す、及び／又は、前記優先レベルは、それぞれ前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスから将来のオーディオデータを前記ネットワークを介して通信するための通信ルールを示す、方法。
前記通信ルールは、前記ネットワークを介してそれぞれのマイクロホンデバイスから通信されるオーディオデータの許容数、頻度、レイテンシ、品質及び／又はサイズを定義する、請求項１に記載の方法。
当該方法は、
前記第１の履歴的なオーディオデータの異なるタイプのオーディオを１つ以上のオーディオクラスの第１のセットに分類することと、
前記第２の履歴的なオーディオデータの異なるタイプのオーディオを１つ以上のオーディオクラスの第２のセットに分類することと、
を含み、前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスへの優先レベルの割り当ては、それぞれオーディオクラスの前記第１のセット及びオーディオクラスの前記第２のセットに基づく、請求項１又は２に記載の方法。
前記オーディオクラスは、
背景雑音、
ユーザによって発生される非スピーチオーディオ、
インフラストラクチャによって発生される非スピーチオーディオ、
背景スピーチ、
音声制御デバイスを制御するための音声コマンド、
音声制御サービスを要求するための音声コマンド、及び／又は、
音声操作システム、アシスタント又はサービスをトリガするためのウェイクワード
を含む、請求項３に記載の方法。
前記第１の履歴的なオーディオデータを分析するステップは、第１のユーザプレゼンスレベルを識別するために前記第１の履歴的なオーディオデータを分析することを含み、前記第２の履歴的なオーディオデータを分析するステップは、第２のユーザプレゼンスレベルを識別するために前記第２の履歴的なオーディオデータを分析することを含み、前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスへの優先レベルの割り当ては、前記第１のユーザプレゼンスレベル及び前記第２のユーザプレゼンスレベルに基づく、請求項１乃至４のいずれか一項に記載の方法。
当該方法は、
前記第１の履歴的なオーディオデータ、前記第２の履歴的なオーディオデータ及び第３の履歴的なオーディオデータに基づいて前記第１のマイクロホンデバイス、前記第２のマイクロホンデバイス及び第３のマイクロホンデバイスに対する１人以上のユーザの１つ以上のロケーションを決定することと、
前記第１のマイクロホンデバイス、前記第２のマイクロホンデバイス及び前記第３のマイクロホンデバイスに対する前記ユーザのロケーションに基づいて前記第１のマイクロホンデバイス、前記第２のマイクロホンデバイス及び／又は前記第３のマイクロホンデバイスに優先レベルを割り当てることと、
を含む、請求項５に記載の方法。
当該方法は、
経時的な１人以上のユーザのロケーションに基づいて前記第１のマイクロホンデバイス、前記第２のマイクロホンデバイス及び前記第３のマイクロホンデバイスに対する経時的な１人以上のユーザの１つ以上の軌跡を決定することと、
前記１人以上のユーザの１つ以上の軌跡に基づいて前記第１のマイクロホンデバイス、前記第２のマイクロホンデバイス及び／又は前記第３のマイクロホンデバイスに優先レベルを割り当てることと、
を含む、請求項６に記載の方法。
当該方法は、
前記第１のマイクロホンデバイス及び前記第２のマイクロホンデバイスのロケーションを取得することと、
前記第１のマイクロホンデバイス及び前記第２のマイクロホンデバイスのそれぞれのロケーションに基づいて前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスに優先レベルを割り当てることと、
を含む、請求項１乃至７のいずれか一項に記載の方法。
前記第１の履歴的なオーディオデータを分析するステップは、前記第１の履歴的なオーディオデータに基づいて１つ以上の第１のユーザアクティビティを識別するために前記第１の履歴的なオーディオデータを分析することを含み、前記第２の履歴的なオーディオデータを分析するステップは、前記第２の履歴的なオーディオデータに基づいて１つ以上の第２のユーザアクティビティを識別するために前記第２の履歴的なオーディオデータを分析することを含み、前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスへの優先レベルの割り当ては、前記１つ以上の第１のユーザアクティビティ及び前記１つ以上の第２のユーザアクティビティに基づく、請求項１乃至８のいずれか一項に記載の方法。
当該方法は、
前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスに関連するプレゼンスセンサからプレゼンス信号を受信することと、
前記プレゼンス信号に応答してそれぞれ前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスの優先レベルを調整することと、
を含む、請求項１乃至９のいずれか一項に記載の方法。
コンピューティングデバイスのためのコンピュータプログラムであって、当該コンピュータプログラムが前記コンピューティングデバイスの処理ユニットで実行された場合、請求項１乃至１０のいずれか一項に記載の方法を実行するためのコンピュータプログラムコードを含む、コンピュータプログラム。
ネットワークを介して接続される複数のマイクロホンデバイスを含む分散マイクロホンシステムを構成するためのコントローラであって、当該コントローラは、
前記複数のマイクロホンデバイスのうちの第１のマイクロホンデバイスから第１の履歴的なオーディオデータを受ける、及び、前記複数のマイクロホンデバイスのうちの第２のマイクロホンデバイスから第２の履歴的なオーディオデータを受けるように構成される通信モジュールと、
前記第１の履歴的なオーディオデータにおける異なるタイプのオーディオを識別するために前記第１の履歴的なオーディオデータを分析する、前記第２の履歴的なオーディオデータにおける異なるタイプのオーディオを識別するために前記第２の履歴的なオーディオデータを分析する、前記第１の履歴的なオーディオデータ及び前記第２の履歴的なオーディオデータを比較して、前記第１の履歴的なオーディオデータと前記第２の履歴的なオーディオデータとの間の差異を識別する、及び、前記第１の履歴的なオーディオデータと前記第２の履歴的なオーディオデータとの間の差異に基づいて前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスに優先レベルを割り当てるように構成されるプロセッサと、
を含み、前記優先レベルは、それぞれ前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスによって録られる将来のオーディオデータを分析するための優先ルールを示す、及び／又は、前記優先レベルは、それぞれ前記第１のマイクロホンデバイス及び／又は前記第２のマイクロホンデバイスから将来のオーディオデータを前記ネットワークを介して通信するための通信ルールを示す、コントローラ。
当該コントローラは、前記第１のマイクロホンデバイスに含まれ、前記通信モジュールは、前記第１のマイクロホンデバイスに含まれるマイクロホンから前記第１の履歴的なオーディオデータを受けるように構成される、請求項１２に記載のコントローラ。
請求項１２に記載のコントローラを含む中央コントローラと、
前記第１の履歴的なオーディオデータを前記中央コントローラに通信するように構成される前記第１のマイクロホンデバイスと、
前記第２の履歴的なオーディオデータを前記中央コントローラに通信するように構成される前記第２のマイクロホンデバイスと、
を含む、システム。
当該システムは、照明システムであり、前記第１のマイクロホンデバイス及び前記第２のマイクロホンデバイスは、それぞれ前記照明システムの第１の照明デバイス及び前記照明システムの第２の照明デバイスに含まれる、請求項１４に記載のシステム。