JP2022542113A

JP2022542113A - 複数装置の起動ワード検出

Info

Publication number: JP2022542113A
Application number: JP2022504624A
Authority: JP
Inventors: アール．ピー．トーマス，マーク; ジェイ．カートライト，リチャード
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-07-30
Filing date: 2020-07-29
Publication date: 2022-09-29
Also published as: US20220351724A1; EP4004907B1; EP4004907A1; CN114207712A; WO2021021960A1

Abstract

オーディオ処理のための装置を選択する方法は、少なくとも第１マイクロフォンを含む第１装置から第１起動ワード信頼指標を受信するステップと、少なくとも第２マイクロフォンを含む第２装置から第２起動ワード信頼指標を受信するステップと、を含んでよい。前記第１及び第２起動ワード信頼指標は、前記第１装置により決定された第１の複数の起動ワード信頼値のうちの第１ローカル最大値、及び前記第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値に対応してよい。前記方法は、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標を比較するステップと、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。

Description

［関連出願］
本願は、米国仮特許出願番号第６２/８８０,１１２号、２０１９年７月３０日出願、及び米国仮特許出願番号第６２/９６４,０１８号、２０２０年１月２１日出願の優先権を主張する。両出願は、参照によりその全体がここに組み込まれる。

［技術分野］
本開示は、環境内の複数の装置の中から、オーディオ処理のための装置を自動的に選択するシステム及び方法に関する。

限定ではなくスマートオーディオ装置を含むオーディオ装置は、広く展開されており、多くの家庭の一般的特徴になりつつある。オーディオ装置の位置を特定する既存のシステム及び方法は利益をもたらすが、改良されたシステム及び方法が望ましいことがある。

［注釈及び用語］
本願明細書では、表現「スマートオーディオ装置」は、単一目的のオーディオ装置又は仮想アシスタント（例えば、接続された仮想アシスタント）であるスマート装置を示すために使用される。単一目的のオーディオ装置は、少なくとも１つのマイクロフォンを含む又はそれに結合された（及び幾つかの例では少なくとも１つのスピーカも含み又はそれに結合された）倣いbに単一目的を達成するために大部分は又は主に設計された装置（例えば、スマートスピーカ、テレビジョン（TV）、又は携帯電話機）である。TVは、標準的に番組素材からオーディオを再生できるが（再生する能力があると考えられるが）、多くの例では、最新のTVは、何らかのオペレーティングシステムを実行し、該オペレーティングシステム上ではテレビを試聴するアプリケーションを含むアプリケーションがローカルに実行する。同様に、携帯電話機におけるオーディオ入力及び出力は、多くのことを行い得るが、これらは該電話機上で実行しているアプリケーションによりサービスされる。この意味で、スピーカ及びマイクロフォンを有する単一目的オーディオ装置は、ローカルアプリケーション及び／又はサービスを実行して、スピーカ及びマイクロフォンを直接使用するよう構成されることが多い。幾つかの単一目的オーディオ装置は、ゾーン又はユーザの構成した領域に渡りオーディオの再生を達成するために一緒にグループ化するよう構成されてよい。

ここで、「仮想アシスタント」（例えば、接続された仮想アシスタント）は、少なくとも１つのマイクロフォンを含み又はそれに結合される（及び任意的に少なくとも１つのスピーカも含み又はそれに結合される）、並びにある意味でクラウド対応であり又はその他の場合に仮想アシスタント自体に又はその上に実装されないアプリケーションのために（仮想アシスタントから離れた）複数の装置を利用する能力を提供し得る装置（例えば、スマートスピーカ、スマートディスプレイ、又は音声アシスタント統合装置）である。仮想アシスタントは、時に、一緒に、例えば非常に離散的且つ条件付きで定義された方法で、動作してよい。例えば、２つ以上の仮想アシスタントは、それらのうちの１つ、つまり起動ワードを聞いたことを最も確信しているものが、ワードに応答するという意味で、一緒に動作してよい。接続された装置は、ある種のコンステレーションを形成してよく、これは、仮想アシスタントであってよい（又はそれを含む又は実装する）１つのメインアプリケーションにより管理されてよい。

ここで、「起動ワード（wakeword）」は、広い意味で使用され、任意の音声（例えば、人間により発話された単語、又は何らかの他の音声）を示し、スマートオーディオ装置は、（スマートオーディオ装置に含まれる又はそれに結合される少なくとも１つのマイクロフォン、又は少なくとも１つの他のマイクロフォンを用いて）音声の検出（「聞こえること」）に応答して起動するよう構成される。この文脈では、「起動する（awake）」ことは、装置が、音声コマンドを待機している（つまり、傾聴している）状態に入ることを示す。

ここで、表現「起動ワード検出器」は、リアルタイム音声（例えば、会話）特徴とトレーニング済みモデルとの間の不整合を連続的に検索するよう構成された装置（又は装置を構成するための命令を含むソフトウェア）を示す。標準的に、起動イベントは、起動ワードが検出される確立が所定の閾値を超えることが起動ワード検出器により決定されるときは常にトリガされる。例えば、閾値は、誤った受容と誤った拒否との率の間の良好な妥協を与えるよう調整される所定の閾値であってよい。起動ワードイベントに続き、装置は、コマンドを傾聴し、受信したコマンドをより大きなより計算集約的な認識器に渡す状態（これは、「起動」状態又は「注意力（attentiveness）」状態と呼ばれてよい）に入り得る。

特許請求の範囲を含む本開示を通じて、「スピーカ」及び「ラウドスピーカ」は、単一のスピーカ供給により駆動される任意の放音トランスデューサ（又はトランスデューサのセット）を示すために同義的に使用される。標準的なヘッドフォンセットは、２つのスピーカを含む。スピーカは、複数のトランスデューサ（例えば、ウーファー及びツイーター）を含むよう実装され、これらの全部は単一の共通のスピーカ供給により駆動される。スピーカ供給は、幾つかの場合には、異なるトランスデューサに結合された異なる回路ブランチで異なる処理を受けてよい。

特許請求の範囲を含む本開示を通じて、信号又はデータに「対して」動作を実行する（例えば、信号又はデータをフィルタリング、スケーリング、変換、又は利得を適用する）という表現は、信号又はデータに、又は信号又はデータの処理済みのバージョンに（例えば、当該動作の実行の前に予備的なフィルタリング又は後処理の行われた信号のバージョン）、直接動作を実行することを示すために広義に使用される。

特許請求の範囲を含む本開示を通じて、表現「システム」は、装置、システム、又はサブシステムを示すために広義に使用される。例えば、デコーダを実装するサブシステムは、デコーダシステムと呼ばれてよく、このようなサブシステムを含むシステムは（例えば、複数の複数の入力に応答してＸ個の出力信号を生成するシステムであり、そのうちサブシステムがＭ個の入力を生成し、他のＸ－Ｍ個の入力は外部ソースから受信される）、デコーダシステムとも呼ばれてよい。

特許請求の範囲を含む本開示を通じて、用語「プロセッサ」は、データ（例えば、オーディオ又はビデオ又は他の画像データ）に対して動作を実行するよう（ソフトウェア又はファームウェアにより）プログラム可能な又はその他の場合構成可能なシステム又は装置を示すために広義に使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ（又は他の構成可能な集積回路又はチップセット）、オーディオ又は他の音声データに対してパイプライン処理を実行するようプログラムされた及び／又はその他の場合に構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサ若しくはコンピュータ、及びプログラム可能なマイクロプロセッサチップ又はチップセットを含む。

本開示の少なくとも幾つかの態様は、方法を介して実装されてよい。幾つかの方法は、少なくとも第１マイクロフォンを含む第１装置から第１起動ワード信頼指標を受信するステップを含んでよい。第１起動ワード信頼指標は、例えば、第１装置により決定された第１の複数の起動ワード信頼値のうちの第１ローカル最大値に対応してよい。幾つかのそのような方法は、少なくとも第２マイクロフォンを含む第２装置から第２起動ワード信頼指標を受信するステップを含んでよい。第２起動ワード信頼指標は、例えば、第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値に対応してよい。幾つかのそのような方法は、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標を比較するステップと、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。

幾つかの例では、方法は、少なくとも第３マイクロフォンを含む第３装置から第３起動ワード信頼指標を受信するステップを含んでよい。第３起動ワード信頼指標は第３装置により決定された第３の複数の起動ワード信頼値のうちの第３ローカル最大値に対応してよい。方法は、前記第３起動ワード信頼指標を前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標と比較するステップと、前記第１起動ワード信頼指標、前記第２起動ワード信頼指標、及び第３起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。

幾つかの実装によると、後続のオーディオ処理は、会話認識処理を含んでよい。幾つかの例では、後続のオーディオ処理は、コマンド認識処理を含んでよい。幾つかのそのような方法は、前記コマンド認識処理に従い、選択された装置を制御するステップ、を更に含んでよい。

幾つかの例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。幾つかのそのような例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。幾つかのそのような実装によると、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。幾つかのそのような例は、前記第１装置、前記第２装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含んでよい。幾つかのそのような例は、前記第１装置、前記第２装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなった後に、前記ローカル最大値決定時間間隔を終了するステップ、を更に含んでよい。

幾つかの例では、第１装置は、第１クロックドメインに従い第１マイクロフォンにより受信されたオーディオデータをサンプリングしてよい。幾つかのそのような例では、第２装置は、第１クロックドメインと異なる第２クロックドメインに従い、第２マイクロフォンにより受信されたオーディオデータをサンプリングしてよい。

幾つかの実装によると、前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行されてよい。代替として又は追加で、前記方法は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成される装置により実行されてよい。しかしながら、幾つかの例では、方法は、後続のオーディオ処理を実行するよう構成されない装置により、少なくとも部分的に実行されてよい。

本開示の少なくとも幾つかの態様は、代替の方法を介して実装されてよい。幾つかの代替の方法は、少なくとも第１マイクロフォンを有する第１マイクロフォンシステムを含む第１装置により、第１起動ワード信頼指標を決定するステップを含んでよい。第１起動ワード信頼指標を決定するステップは、第１マイクロフォンシステムにより、検出した音声に対応する第１オーディオデータを生成するステップと、第１オーディオデータに基づき、第１の複数の起動ワード信頼値を決定するステップと、を含んでよい。第１起動ワード信頼指標を決定するステップは、第１の複数の起動ワード信頼値のうちの第１ローカル最大値を決定するステップと、第１ローカル最大値に基づき第１起動ワード信頼指標を決定するステップと、を含んでよい。

幾つかのそのような方法は、少なくとも第２マイクロフォンを含む第２装置から第２起動ワード信頼指標を受信するステップを含んでよい。第２起動ワード信頼指標は、第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値に対応してよい。幾つかのそのような方法は、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標を比較するステップと、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。

幾つかの例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。幾つかの例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。幾つかの実装によると、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。

幾つかのそのような実装は、前記第１装置、前記第２装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含んでよい。幾つかの例によると、前記ローカル最大値決定時間間隔は、時間Aで開始し、時間（A＋K）、前記第１装置及び前記第２装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間で終了してよい。幾つかの例では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの実装では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの例は、Kの最大値に達した後に、前記ローカル最大値決定時間間隔を終了するステップ、を含んでよい。

幾つかの例では、前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行されてよい。幾つかの実装によると、方法は、第１装置により実行されてよい。

幾つかの実装は、第１装置から第１起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような実装では、前記方法は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成されない装置により実行されてよい。

本願明細書に記載の動作、機能、及び／又は方法のうちの一部又は全部は、１つ以上の非一時的媒体に記憶された命令（例えば、ソフトウェア）に従い１つ以上の装置により実行されてよい。このような非一時的媒体は、ランダムアクセスメモリ（RAM）、読み出し専用メモリ（ROM）、等を含むがこれらに限定されない、本願明細書に記載のようなメモリ装置を含んでよい。したがって、本開示に記載された主題の幾つかの新規な態様は、ソフトウェアを記憶された非一時的媒体に実装されてよい。

例えば、ソフトウェアは、第１起動ワード信頼指標を少なくとも第１マイクロフォンを含む第１装置から受信するステップを含む方法を実行するよう、１つ以上の装置を制御するための命令を含んでよい。第１起動ワード信頼指標は、例えば、第１装置により決定された第１の複数の起動ワード信頼値のうちの第１ローカル最大値に対応してよい。幾つかのそのような方法は、少なくとも第２マイクロフォンを含む第２装置から第２起動ワード信頼指標を受信するステップを含んでよい。第２起動ワード信頼指標は、例えば、第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値に対応してよい。幾つかのそのような方法は、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標を比較するステップと、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。

本開示の少なくとも幾つかの態様は、機器を介して実装されてよい。例えば、１つ以上の装置は、本願明細書に開示した方法を少なくとも部分的に実行する能力があってよい。幾つかの実装では、機器は、インタフェースシステムおよび制御システムを含んでよい。制御システムは、汎用の単一又は複数チッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）、又は他のプログラマブル論理素子、個別ゲート又はトランジスタロジック、個別ハードウェアコンポーネント、又はそれらの組合せのうちの少なくとも１つを含んでよい。

幾つかの例によると、制御システムは、少なくとも第１マイクロフォンを含む第１装置から第１起動ワード信頼指標を受信するよう構成されてよい。第１起動ワード信頼指標は、例えば、第１装置により決定された第１の複数の起動ワード信頼値のうちの第１ローカル最大値に対応してよい。制御システムは、少なくとも第２マイクロフォンを含む第２装置から第２起動ワード信頼指標を受信するよう構成されてよい。第２起動ワード信頼指標は、例えば、第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値に対応してよい。前記制御システムは、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標を比較し、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するよう構成されてよい。

幾つかの例では、制御システムは、少なくとも第３マイクロフォンを含む第３装置から第３起動ワード信頼指標を受信するよう構成されてよい。第３起動ワード信頼指標は第３装置により決定された第３の複数の起動ワード信頼値のうちの第３ローカル最大値に対応してよい。前記制御システムは、前記第３起動ワード信頼指標を前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標と比較し、前記第１起動ワード信頼指標、前記第２起動ワード信頼指標、及び第３起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するよう構成されてよい。

幾つかの実装によると、後続のオーディオ処理は、会話認識処理を含んでよい。幾つかの例では、後続のオーディオ処理は、コマンド認識処理を含んでよい。幾つかの実装では、前記制御システムは、前記コマンド認識処理に従い、選択された装置を制御するよう構成されてよい。

幾つかの実装によると、前記制御システム機能は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行されてよい。代替として又は追加で、前記制御システム機能は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成される装置により実行されてよい。しかしながら、幾つかの例では、制御システム機能は、後続のオーディオ処理を実行するよう構成されない装置により、少なくとも部分的に実行されてよい。

本開示の少なくとも幾つかの態様は、代替の装置を介して実装されてよい。幾つかの代替の機器の制御システムは、少なくとも第１マイクロフォンを有する第１マイクロフォンシステムを含む第１装置により、第１起動ワード信頼指標を決定するよう構成されてよい。第１起動ワード信頼指標を決定することは、第１マイクロフォンシステムにより、検出した音声に対応する第１オーディオデータを生成することと、第１オーディオデータに基づき、第１の複数の起動ワード信頼値を決定することと、を含んでよい。第１起動ワード信頼指標を決定することは、第１の複数の起動ワード信頼値のうちの第１ローカル最大値を決定することと、第１ローカル最大値に基づき第１起動ワード信頼指標を決定することと、を含んでよい。

制御システムは、少なくとも第２マイクロフォンを含む第２装置から第２起動ワード信頼指標を受信するよう構成されてよい。第２起動ワード信頼指標は、第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値に対応してよい。前記制御システムは、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標を比較し、前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するよう構成されてよい。

幾つかのそのような実装は、前記第１装置、前記第２装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始すること、を更に含んでよい。幾つかの例によると、前記ローカル最大値決定時間間隔は、時間Aで開始し、時間（A＋K）、前記第１装置及び前記第２装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間で終了してよい。幾つかの例では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの実装では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの例は、Kの最大値に達した後に、前記ローカル最大値決定時間間隔を終了すること、を含んでよい。

幾つかの例では、前述の動作のうちの少なくとも幾つかは、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行されてよい。幾つかの実装によると、そのような動作は、第１装置により実行されてよい。

幾つかの実装は、第１装置から第１起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような実装では、幾つかの動作は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成されない装置により実行されてよい。

本願明細書に記載の主題の１つ以上の実装の詳細は、添付の図面及び以下の説明において説明される。他の特徴、態様、および利点は、説明、図面、及び特許請求の範囲から明らかになる。以下の図面の相対的寸法は縮尺通りに描かれないことがある。

一例による環境を表す。別の例による環境を表す。３個の装置により決定される起動ワード信頼値の例を示す。本開示の種々の態様を実装可能な機器のコンポーネントの例を示すブロック図である。図３に示したような機器により実行され得る方法の一例の概要を示すフロー図である。ある開示された実施形態による要素（及びそれにより実施される処理ステップ）の例を示すブロック図である。図３に示したような機器により実行され得る方法の別の例の概要を示すフロー図である。

種々の図面において類似する番号および指示は、同様の要素示す。

複数のスマートオーディオ装置で構成される編成されたシステムは、ユーザからの「起動ワード（wakeword）」（以上に定義された）っが検出されるときを決定するよう構成されてよい。そのようなシステムの少なくとも幾つかの装置は、ユーザからのコマンドを傾聴するよう構成されてよい。

図１Aは、オーディオ対話のためのスマートオーディオ装置（装置１．１）のセット、オーディオ出力のためのスピーカ（１．３）、マイクロフォン（１．５）、及び制御可能照明（１．２）、を含むシステムを含む環境（居間空間）の図である。本願の他の図と同様に、図１Aに示される特定の要素及び要素の配置は、単に例として作成された。これらの特徴の必ずしも全部が、種々の開示された実装を実行するために必要ない。例えば、制御可能照明１．２、スピーカ１．３、等は、少なくとも幾つかの開示された実装にとっては任意である。幾つかの例では、マイクロフォン１．５のうちの１つ以上は、装置１．１、照明１．２、又はスピーカ１．３のうちの１つの部分であり、又はそれに関連付けられてよい。代替として又は追加で、マイクロフォン１．５のうちの１つ以上は、環境の別の部分に、例えば、壁に、天井に、家具に、家庭用電化製品に、又は環境の別の装置に、取り付けられてよい。例では、スマートオーディオ装置１．１の各々は、少なくとも１つのマイクロフォン１．５を含む（及び／又はそれと通信するよう構成される）。図１Aのシステムは、本開示の実施形態を実装するよう構成されてよい。種々の方法を用いて、情報は、集合的に図１Aのマイクロフォン１．５から取得され、起動ワードを話したユーザの位置推定を提供するよう構成される装置に提供されてよい。

居間空間（例えば、図１Aのもの）には、人が作業又は活動を行っている又は敷居をまたぐ自然な活動ゾーンのセットが存在する。これらの領域は、本願明細書ではユーザゾーンと呼ばれてよく、幾つかの例では地理的位置の座標又は他のインデックスを指定することなく、ユーザにより定義されてよい。図１Aに示した例では、ユーザゾーンは以下を含んでよい。
１．流し台及び調理領域（居間空間の左上領域）。
２．冷蔵庫ドア（流し台及び調理領域の右）。
３．食堂領域（居間空間の左下領域）。
４．居間空間のオープン領域（流し台及び調理領域及び食堂領域の右）。
５．TVカウチ（オープン領域の右）。
６．TV自体。
７．テーブル。
８．ドア領域又は入り口（生活空間の右上領域）。

幾つかの実施形態によると、音声（例えば、起動ワード又は注意のための他の信号）が生じる又は発生する場所を推定するシステムは、該推定（又はそれに対する複数の仮説）について何らかの確かな信頼を有し得る。例えば、ユーザがシステムの環境のゾーンとゾーンの間の境界近くに居た場合、ユーザの位置の不確かな推定は、ユーザがゾーンの各々に居ることの確かな信頼を含み得る。音声インタフェースの幾つかの従来の実装では、音声アシスタントの音声が一度に１つの位置からのみ発行されることが必要であり、これは単一の位置について単一の選択肢を強制している（例えば、図１Aの８個のスピーカ位置１．１及び１．３のうちの１つ）。しかしながら、簡単な想像上のロールプレイに基づき、（そのような従来の実装では）アシスタントの音声の音源の選択された位置（例えば、アシスタントに含まれる又はそれと通信するよう構成されるスピーカの位置）が、注意を表現するための焦点又は自然なリターン応答である可能性は低い可能性がある。

次に、図１Bを参照して、直接会話１０２を発話するユーザ（１０１）、並びに、スマートオーディオ装置（１０３、１０５、１０７）のセットとオーディオ出力のためのスピーカとマイクロフォンとを含むシステムの例を含む別の環境１００（音響空間）を説明する。システムは、本開示の実施形態に従い構成されてよい。ユーザ１０１（本願明細書では時に話者と呼ばれる）により発話された会話は、起動ワードとしてシステムの要素により認識されてよい。

より具体的には、図１Bの要素は、以下を含む：
１０２：直接ローカル音声（ユーザ１０１により生成される）；
１０３：音声アシスタント装置（１つ以上のラウドスピーカに結合される）；装置１０３は、装置１０５又は装置１０７よりも、ユーザ１０１の近くに位置付けられる。従って、装置１０３は時に「近い」装置と呼ばれ、装置１０５は「中距離」装置と呼ばれてよく、装置１０７は「遠い」装置と呼ばれてよい。
１０４：近い装置１０３内の（又はそれに結合される）複数のマイクロフォン；
１０５：中距離音声アシスタント装置（１つ以上のラウドスピーカに結合される）；
１０６：中距離装置１０５内の（又はそれに結合される）複数のマイクロフォン；
１０７：遠い音声アシスタント装置（１つ以上のラウドスピーカに結合される）；
１０８：遠い装置１０７内の（又はそれに結合される）複数のマイクロフォン；
１０９：家庭用機器（例えば、ランプ）；
１１０：家庭用機器１０９内の（又はそれに結合される）複数のマイクロフォン。幾つかの例では、マイクロフォン１１０の各々は、開示される方法のうちの１つ以上を実施するよう構成される、幾つかの例では装置１０３、１０５、又は１０７のうちの少なくとも１つであってよい装置と通信するよう構成されてよい。

話者１０１は、音響空間内で起動ワードを示す音声１０２を発話し、該音声は近い装置１０３、中距離装置１０５、及び遠い装置１０７により受信される。本例では、装置１０３、１０５、及び１０７の各々は、起動ワード検出器であり（又はそれを含み）、装置１０３、１０５、及び１０７の各々は、起動ワード可能性（起動ワードが装置により検出される確率）が所定の閾値を超えるときを決定するよう構成される。時間が経つにつれ、各装置により決定される起動ワード可能性は、時間の関数としてグラフ化できる。

図２は、３個の装置により決定される起動ワード信頼値の例を示す。図２に示す破線の曲線２０５aは、近い装置１０３により決定された、起動ワード可能性を時間の関数として示す。点線の曲線２０５bは、中距離装置１０５により決定された、起動ワード可能性を時間の関数として示す。実線の曲線２０５cは、遠い装置１０７により決定された、起動ワード可能性を時間の関数として示す。

図２から明らかなように、時間が経つにつれ、装置１０３、１０５、及び１０７の各々により決定される起動ワード可能性は、増大し、次に減少する（例えば、それが装置のうちの関連する１つの履歴バッファに入り及び出るとき）。幾つかの場合には、遠い装置の起動ワード可能性（図２の実線の曲線）は、中距離装置の起動ワード信頼性（図２の点線の曲線）より前に閾値を超え得る。中距離装置の起動ワード信頼性（図２の点線の曲線）は、また、近い装置の起動ワード信頼性（図２の破線の曲線）より前に閾値を超え得る。近い装置の起動ワード信頼性がそのローカル最大値（例えば、図２の関連する曲線の最大の最大値）に達する時間まで、このイベントは通常（従来のアプローチにより）無視され、起動ワード信頼性（起動ワード可能性）が最初に閾値を超えた装置（図２の例では遠い装置）を選択することを優先する。

図１Bに戻ると、システムは、本願明細書に開示されるオー処理のための装置を選択する１つ以上の方法を実施するよう構成される少なくとも１つの装置を含んでよい。例えば、装置１０３、装置１０５、及び／又は装置１０７は、１つ以上のそのような方法を実施するよう構成されてよい。代替として又は追加で、装置１０３、装置１０５、及び／又は装置１０７と通信するよう構成される別の装置が、１つ以上のそのような方法を実施するよう構成されてよい。幾つかの例では、１つ以上の開示された方法は、別のローカル装置（例えば、環境１００内にある装置）により実施されてよいが、他の例では、１つ以上の開示された方法は、環境１００の外部に位置するリモート装置（例えば、サーバ）により実施されてよい。

図３は、本開示の種々の態様を実装可能な機器のコンポーネントの例を示すブロック図である。幾つかの例によると、機器３００は、本願明細書に開示される方法のうちの少なくとも幾つかを実行するよう構成されるスマートオーディオ装置であってよく、又はそれを含んでよい。他の実装では、機器３００は、本願明細書に開示される方法のうちの少なくとも幾つかを実行するよう構成される別の装置であってよく、又はそれを含んでよい。幾つかのそのような実装では、機器３００は、サーバであってよく、又はそれを含んでよい。

本例では、機器３００は、インタフェースシステム３０５および制御システム３１０を含む。インタフェースシステム３０５は、幾つかの実装では、環境内の複数のマイクロフォンの各々から入力を受信するよう構成されてよい。インタフェースシステム３０５は、１つ以上のネットワークインタフェース、及び／又は１つ以上の外部装置インタフェース（例えば、１つ以上のＵＳＢ（universal serial bus）インタフェース）を含んでよい。幾つかの実装によると、インタフェースシステム３０５は、１つ以上の無線インタフェースを含んでよい。インタフェースシステム３０５は、１つ以上のマイクロフォン、１つ以上のスピーカ、ディスプレイシステム、タッチセンサシステム、及び／又はジェスチャセンサシステム、のようなユーザインタフェースを実装する１つ以上の装置を含んでよい。幾つかの例では、インタフェースシステム３０５は、制御システム３１０とメモリシステム、例えば図３に示される任意的メモリシステム３１５との間の１つ以上のインタフェースを含んでよい。しかしながら、制御システム３１０は、メモリシステムを含んでよい。

制御システム３１０は、例えば、汎用の単一または複数チッププロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）、又は他のプログラマブル論理素子、個別ゲートまたはトランジスタロジック、および／または個別ハードウェアコンポーネント、を含んでよい。幾つかの実装では、制御システム３１０の機能は１つより多くの装置に存在してよい。例えば、制御システム３１０の部分は、図１A及び１Bに示された環境のうちの１つの中にある装置に存在してよく、制御システム３１０の別の部分は、サーバ、モバイル装置（例えば、スマートフォン、又はタブレットコンピュータ）のような、環境の外部にある装置の中に存在してよい、等である。インタフェースシステム３０５は、また、幾つかのそのような例では、１つより多くの装置に存在してよい。

幾つかの実装では、制御システム３１０は、本願明細書に開示した方法を少なくとも部分的に実行するよう構成されてよい。幾つかの例によると、制御システム３１０は、例えば本願明細書に開示されたようなオーディオ処理のための装置を選択する方法を実施するよう構成されてよい。幾つかのそのような例では、制御システム３１０は、複数の起動ワード信頼指標の比較に少なくとも部分的に基づき、オーディオ処理のための装置を選択するよう構成されてよい。

本願明細書に記載の方法のうちの一部または全部は、１つ以上の非一時的媒体に記憶された命令（例えば、ソフトウェア）に従い１つ以上の装置により実行されてよい。そのような非一時的媒体は、限定ではないが、RAM（random access memory）装置、ROM（read-only memory）装置、等を含む、本願明細書で説明されたようなメモリ装置を含んでよい。１つ以上の非一時的媒体は、例えば、図３に示される任意的メモリシステム３１５内に、及び／又は制御システム３１０内に、存在してよい。したがって、本開示に記載された主題の種々の新規な態様は、ソフトウェアを記憶された１つ以上の非一時的媒体に実装されてよい。ソフトウェアは、例えば、オーディオデータを処理するよう少なくとも１つの装置を制御するための命令を含んでよい。ソフトウェアは、例えば、図３の制御システム３１０のような制御システムの１つ以上のコンポーネントにより実行可能であってよい。

幾つかの例では、機器３００は、図３に示される任意的なマイクロフォンシステムを含んでよい。任意的なマイクロフォンシステムは、１つ以上のマイクロフォンを含んでよい。幾つかのそのような例によると、機器３００は、スマートオーディオ装置であってよく、又はそれを含んでよい。幾つかのそのような実装では、機器３００は、起動ワード検出器であってよく、又はそれを含んでよい。幾つかの例では、機器３００は、仮想アシスタントであってよく、又はそれを含んでよい。

図４は、図３に示したような機器により実行され得る方法の一例の概要を示すフロー図である。方法４００のブロックは、本願明細書に記載の他の方法度同様に、必ずしも示された順序で実行されない。さらに、このような方法は、図示及び／又は記載のものより多数または少数のブロックを含んでよい。本実装では、方法４００は、オーディオ処理のための装置を選択するステップを含む。幾つかの例によると、方法４００は、オーディオ処理を実行するよう構成される装置により実行されてよい。しかしながら、幾つかの例では、方法４００は、オーディオ処理を実行するよう構成されない装置により実行されてよい。

本例では、ブロック４０５は、少なくとも第１マイクロフォンを含む第１装置から第１起動ワード信頼指標を受信するステップを含む。本例によると、第１起動ワード信頼指標は、第１装置により決定された第１の複数の起動ワード信頼値のうちの第１ローカル最大値に対応してよい。

本実装では、ブロック４１０は、少なくとも第２マイクロフォンを含む第２装置から第２起動ワード信頼指標を受信するステップを含む。本例によると、第２起動ワード信頼指標は、第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値に対応する。本例では、第１装置及び第２装置は、図１A又は図１Bに示される環境であってよい同じ環境内にある。

しかしながら、第１マイクロフォン及び第２マイクロフォンは、特定の実装に基づき、同期マイクロフォンであってよく又はそうでなくてよい。本願明細書で使用されるとき、マイクロフォンは、マイクロフォンにより検出された音声が同じサンプルクロック又は同期サンプルクロックを用いてデジタル方式でサンプリングされる場合、「同期している」と表されてよい。例えば、環境内の複数のマイクロフォンのうちの第１マイクロフォンは、第１サンプルクロックに従いオーディオデータをサンプリングしてよく、複数のマイクロフォンのうちの第２マイクロフォンは、第１サンプルクロックに従いオーディオデータをサンプリングしてよい。

幾つかの代替の実装によると、環境の少なくとも幾つかのマイクロフォン又はマイクロフォンシステムは、「非同期」であってよい。本願明細書で使用されるとき、マイクロフォンは、マイクロフォンにより検出された音声が異なるサンプルクロックを用いてデジタル方式でサンプリングされる場合、「非同期である」と表されてよい。例えば、環境内の複数のマイクロフォンのうちの第１マイクロフォンは、第２サンプルクロックに従いオーディオデータをサンプリングしてよく、複数のマイクロフォンのうちの第２マイクロフォンは、第１サンプルクロックに従いオーディオデータをサンプリングしてよい。幾つかの例では、環境内のマイクロフォンは、ランダムに配置されてよく、或いは、少なくとも、不規則に及び／又は非対称に環境内に分散されてよい。

再び図２を参照すると、曲線２０５aは、第１装置により決定された第１の複数の起動ワード信頼値の例を提供し、曲線２０５bは、第２装置により決定された第２の複数の起動ワード信頼値の例を提供する。ローカル最大値２１０aは、第１装置により決定された第１の複数の起動ワード信頼値のうちの第１ローカル最大値の例を提供し、ローカル最大値２１０bは、第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値の例を提供する。幾つかの例では、ローカル最大値２１０aは、第１起動ワード信頼指標に対応し、ローカル最大値２１０bは、第２起動ワード信頼指標に対応する。

図４に示す例によると、ブロック４１５は、第１起動ワード信頼指標及び第２起動ワード信頼指標を比較するステップを含む。本例では、ブロック４２０は、第１起動ワード信頼指標及び第２起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップを含む。例えば、ブロック４２０は、より高い起動ワード信頼指標を決定した装置を選択するステップを含んでよい。

幾つかの実装によると、後続のオーディオ処理は、会話認識処理であってよく、又はそれを含んでよい。例えば、後続のオーディオ処理は、コマンド認識処理であってよく、又はそれを含んでよい。幾つかの例では、方法４００は、コマンド認識処理に従い、選択された装置を制御するステップを含んでよい。例えば、方法４００は、コマンド認識処理に従い、仮想アシスタントを制御するステップを含んでよい。幾つかのそのような例では、方法４００は、電話呼を開始するよう仮想アシスタントを制御するステップ、インターネット検索を実行するよう仮想アシスタントを制御するステップ、テレビ、音声システム制御部、又は環境内の別の装置のような別の装置に命令を提供するよう仮想アシスタントを制御するステップ、を含んでよい。

幾つかの例では、方法４００は、環境内の２つより多くの装置から、起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような例は、少なくとも第３マイクロフォンを含む第３装置から第３起動ワード信頼指標を受信するステップを含んでよい。第３起動ワード信頼指標は第３装置により決定された第３の複数の起動ワード信頼値のうちの第３ローカル最大値に対応してよい。幾つかのそのような例では、方法４００は、第３起動ワード信頼指標を第１起動ワード信頼指標及び第２起動ワード信頼指標と比較するステップと、第１起動ワード信頼指標、第２起動ワード信頼指標、及び第３起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。

幾つかの例によると、方法４００は、環境内の第１～第Nの装置から、第１N起動ワード信頼指標を受信するステップを含んでよい。第１～第Nの起動ワード信頼指標は、第１～第Nの装置により決定された起動ワード信頼指標のうちの第１～第Nのローカル最大値に対応してよい。幾つかのそのような例では、方法４００は、第１～第Nの起動ワード信頼指標を比較するステップと、第１～第Nの起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。

幾つかの実装では、ブロック４０５及び４１０は、起動ワード信頼値を決定し起動ワード信頼値のうちのローカル最大値を決定するよう構成される第３装置により、第１起動ワード信頼指標及び第２起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような実装では、第３装置は、方法４００の少なくともブロック４１５及び４２０を実行するよう構成されてよい。幾つかの実装では、第３装置はローカル装置であってよい。幾つかのそのような実装では、３個全部の装置は、起動ワード検出器であってよく、又はそれを含んでよい。装置のうちの１つ以上は、仮想アシスタントであってよく、又はそれを含んでよい。しかしながら、他の実装では、第３装置は、サーバのようなリモート装置であってよい。

幾つかの例によると、ローカル最大値は、所定の閾値であってよい起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。例えば、再び図２を参照すると、幾つかのそのような例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値２１５aを超えたという決定の後に決定されてよい。幾つかのそのような例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。

幾つかのそのような実装では、ローカル最大値は、前の起動ワード信頼値が起動ワード検出開始閾値を超えた後に、前のオーディオフレームの起動ワード信頼値と比べたときのオーディオフレームの起動ワード信頼値の減少を検出することにより決定されてよく、前のオーディオフレームは、幾つかの例では、最近のオーディオフレーム、又は最近のオーディオフレームのうちの１つであってよい。例えば、ローカル最大値は、前の起動ワード信頼値が起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。

幾つかのそのような実装によると、幾つかの方法は、第１装置、第２装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始すること、を含んでよい。幾つかのそのような例は、前記第１装置、前記第２装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなった後に、前記ローカル最大値決定時間間隔を終了するステップ、を含んでよい。

例えば、再び図２を参照すると、幾つかのそのような例では、ローカル最大値決定時間間隔は、装置のグループのうちの任意の装置に対応する起動ワード信頼値が起動ワード検出開始閾値２１aを超えたときである開始時間Aで開始されてよい。本例では、遠い装置は、起動ワード信頼値が起動ワード検出開始閾値を超えた最初の装置であり、その時間Aは、曲線２０５cが起動ワード検出開始閾値２１５aを超えたときである。本例によると、閾値２１５bは起動ワード検出終了閾値である。本例では、起動ワード検出終了閾値２１５bは、起動ワード検出開始閾値２１５aより小さい（より低い）。幾つかの代替の例では、起動ワード検出終了閾値２１５bは、起動ワード検出開始閾値２１５aに等しくてよい。更に他の例では、起動ワード検出終了閾値２１５bは、起動ワード検出開始閾値２１５aより大きくてよい。

幾つかの例によると、ローカル最大値決定時間間隔は、グループ内の全部の装置の起動ワード信頼値が起動ワード検出終了閾値２１５bより下に降下した後に、終了してよい。例えば、図２を参照すると、ローカル最大値決定時間間隔は、K個の時間単位に等しくてよく、近い装置の起動ワード信頼値が起動ワード検出終了閾値２１５bより下に降下したとき、時間A+Kで終了してよい。終了時間A+Kまでに、遠い装置及び中距離装置の起動ワード信頼値は、起動ワード検出終了閾値２１５bより下に既に降下している。幾つかの例によると、ローカル最大値決定時間間隔は、グループ内の全部の装置の起動ワード信頼値が起動ワード検出終了閾値２１５bより下に降下したとき、又は最大時間間隔が経過した後、のいずれか先に達したとき、終了してよい。

図５は、ある開示された実施形態による要素（及びそれにより実施される処理ステップ）の例を示すブロック図である。図５に示す例では、複数のマイクロフォン５０１A～５０１Nは、対応する複数の起動ワード検出器５０２A～５０２Nに供給する。幾つかのそのような実装によると、各装置は、マイクロフォン５０１、対応する起動ワード検出器５０２、及び対応するローカル最大値検出器５０３、の少なくとも１つを含む。例えば、起動ワード検出器５０２A～５０２Nは、図１Bの装置１０３、１０５、１０７の起動ワード検出サブシステムの実装であってよい。

本例によると、起動ワード信頼値のシーケンスは、検出器５０２A～５０２Nの各々により決定され、各々のそのようなシーケンスは、複数のローカル最大値検出器５０２A～５０３Nのうちの１つに供給される。幾つかのそのような例では、各々のそのような値は、w_i(n)＝{１…M}であり、ここで、Mは起動ワード検出器５０２の数を表し、iは検出器インデックスを表し、nはフレームインデックスを表す。（検出器５０２A～５０２Nのうちの１つにより決定された）起動ワード信頼性が所定の起動ワード検出開始閾値を超えた後の何からの時間に、起動ワード信頼性は、標準的に下降し始める。例えば、ローカル最大値検出器５０３A～５０３Nのうちの１つは、w_i(n)<w_i(n-k)であることを決定してよく、ここで、kはフレーム番号を表す。１つのそのような実装では、ローカル最大値検出器５０３A～５０３Nのうちの１つは、w_i(n)<w_i(n-１)であることを決定してよい。起動ワード信頼性が下降し始めると、幾つかの実装では、この時点までのローカル最大値信頼値y_iは、記録されてよい。幾つかの実装では、次式の通りであり：

ここで、Nは関連する履歴バッファの長さを表す。

幾つかのそのような実装によると、各々のそのようなローカル最大値信頼値は、装置セレクタを実装するシステムの要素に提供されてよい。図５に示す例では、ローカル最大値検出器５０３A～５０３Nの各々は、ローカル最大値信頼値５０４A～５０４Nのうちの対応する１つを装置セレクタ５０６に提供する。幾つかの例によると、装置セレクタ５０６は、起動ワード検出器５０２A～５０２Nのうちの１つを実装しているローカル装置により実装されてよい。代替の実装では、装置セレクタ５０６は、起動ワード検出器５０２A～５０２Nのうちの１つを実装していないローカル装置、例えば、ラップトップコンピュータ、セルラ電話機、等により実装されてよい。幾つかの例では、装置セレクタ５０６は、クラウドに基づくサービスプロバイダのサーバのようなリモート装置により実装されてよい。

幾つかの例によると、装置の全部が、最大信頼性y_iを生成した後に、最大信頼値y_iのうちの最も大きいものである、最も信頼できる装置のインデックスargmax(y_i)は、後続の会話キャプチャのために選択される。例えば、ユーザに最も近い起動ワード検出器が最大信頼値y_iを生成した場合、この検出器が内部に実装された又はそのために実装されたスマートオーディオ装置は、注意力状態に入れられ（ユーザに適切な注意力指示を明示してよい）。注意力状態では、該装置は、後続の音声コマンドを待機し、次にそのような音声コマンドに応答して、装置は少なくとも１つの所定の動作を実行してよい。

図６は、図３に示したような機器により実行され得る方法の別の例の概要を示すフロー図である。方法６００のブロックは、本願明細書に記載の他の方法度同様に、必ずしも示された順序で実行されない。さらに、このような方法は、図示及び／又は記載のものより多数または少数のブロックを含んでよい。本実装では、方法６００は、オーディオ処理のための装置を選択するステップを含む。本例では、方法６００は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成される装置により実行されてよい。幾つかの例によると、方法６００は、オーディオ処理を実行するよう構成される装置により実行されてよい。しかしながら、幾つかの例では、方法６００は、オーディオ処理を実行するよう構成されない装置により実行されてよい。

本例では、ブロック６０５は、少なくとも第１マイクロフォンを有する第１マイクロフォンシステムを含む第１装置により、第１起動ワード信頼指標を決定するステップを含んでよい。本例では、第１起動ワード信頼指標を決定するステップは、第１マイクロフォンシステムにより、検出された音声に対応する第１オーディオデータを生成するステップを含む。本例によると、第１起動ワード信頼指標を決定するステップは、第１オーディオデータに基づき、第１の複数の起動ワード信頼値を決定するステップと、第１の複数の起動ワード信頼値のうちの第１ローカル最大値を決定するステップと、を含む。本実装では、第１起動ワード信頼指標を決定するステップは、第１ローカル最大値に基づき、第１起動ワード信頼指標を決定するステップを含む。例えば、第１起動ワード信頼指標を決定するステップは、第１ローカル最大値に等しい第１起動ワード信頼指標を生成するステップを含んでよい。

本実装では、ブロック６１０は、少なくとも第２マイクロフォンを含む第２装置から第２起動ワード信頼指標を受信するステップを含む。本例によると、第２起動ワード信頼指標は、第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値に対応する。本例では、第１装置及び第２装置は、図１A又は図１Bに示される環境であってよい同じ環境内にある。

しかしながら、第１マイクロフォン及び第２マイクロフォンは、特定の実装に基づき、同期マイクロフォンであってよく又はそうでなくてよい。幾つかの例によると、環境内の複数のマイクロフォンのうちの第１マイクロフォンは、第２サンプルクロックに従いオーディオデータをサンプリングしてよく、複数のマイクロフォンのうちの第２マイクロフォンは、第１サンプルクロックに従いオーディオデータをサンプリングしてよい。

図６に示す例によると、ブロック６１５は、第１起動ワード信頼指標及び第２起動ワード信頼指標を比較するステップを含む。本例では、ブロック６２０は、第１起動ワード信頼指標及び第２起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップを含む。例えば、ブロック６２０は、より高い起動ワード信頼指標を決定した装置を選択するステップを含んでよい。

幾つかの実装によると、後続のオーディオ処理は、会話認識処理であってよく、又はそれを含んでよい。例えば、後続のオーディオ処理は、コマンド認識処理であってよく、又はそれを含んでよい。幾つかの例では、方法６００は、コマンド認識処理に従い、選択された装置を制御するステップを含んでよい。例えば、方法６００は、コマンド認識処理に従い、仮想アシスタントを制御するステップを含んでよい。幾つかのそのような例では、方法６００は、電話呼を開始するよう仮想アシスタントを制御するステップ、インターネット検索を実行するよう仮想アシスタントを制御するステップ、テレビ、音声システム制御部、又は環境内の別の装置のような別の装置に命令を提供するよう仮想アシスタントを制御するステップ、を含んでよい。

幾つかの例では、方法６００は、環境内の２つより多くの装置から、起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような例は、少なくとも第３マイクロフォンを含む第３装置から第３起動ワード信頼指標を受信するステップを含んでよい。第３起動ワード信頼指標は第３装置により決定された第３の複数の起動ワード信頼値のうちの第３ローカル最大値に対応してよい。幾つかのそのような例では、方法６００は、第３起動ワード信頼指標を第１起動ワード信頼指標及び第２起動ワード信頼指標と比較するステップと、第１起動ワード信頼指標、第２起動ワード信頼指標、及び第３起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。

幾つかの例によると、方法６００は、環境内の第１～第Nの装置から、第１N起動ワード信頼指標を受信するステップを含んでよい。第１～第Nの起動ワード信頼指標は、第１～第Nの装置により決定された起動ワード信頼指標のうちの第１～第Nのローカル最大値に対応してよい。幾つかのそのような例では、方法６００は、第１～第Nの起動ワード信頼指標を比較するステップと、第１～第Nの起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。

幾つかの実装では、方法６００は、起動ワード信頼値を決定し起動ワード信頼値のうちのローカル最大値を決定するよう構成される第３装置により、第１起動ワード信頼指標及び第２起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような実装では、第３装置は、方法４００の少なくともブロック４１５及び４２０を実行するよう構成されてよい。幾つかの実装では、第３装置はローカル装置であってよい。幾つかのそのような実装では、３個全部の装置は、起動ワード検出器であってよく、又はそれを含んでよい。装置のうちの１つ以上は、仮想アシスタントであってよく、又はそれを含んでよい。しかしながら、他の実装では、第３装置は、起動ワード検出器を含まないローカル装置、及び／又は複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成されない装置であってよい。幾つかの代替の実装によると、第３装置は、サーバのようなリモート装置であってよい。

幾つかのそのような方法によると、ローカル最大値決定時間間隔は、時間Aで開始してよく、時間（A+K）で終了してよい。幾つかのそのような方法は、図２を参照して上述された。幾つかの例によると、時間（A＋K）は、第１装置及び第２装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間であってよい。幾つかの例では、時間（A+K）は、第１装置、第２装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなる時間であってよい。幾つかの例では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの実装は、Kの最大値に達した後に、ローカル最大値決定時間間隔を終了するステップを含んでよい。幾つかのそのような実装は、第１装置、第２装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなったかどうかに関係なく、Kの最大値に達した後に、ローカル最大値決定時間間隔を終了するステップを含んでよい。

本開示の特定の実施形態及び適用が本願明細書に記載されたが、当業者に明らかなことに、本願明細書に記載され及び請求される本発明の範囲から逸脱することなく、本願明細書に記載された実施形態及び適用に対する多くの変形が、可能である。

Claims

オーディオ処理のための装置を選択する方法であって、前記方法は、
少なくとも第１マイクロフォンを含む第１装置から、第１起動ワード信頼指標を受信するステップであって、前記第１起動ワード信頼指標は、前記第１装置により決定された第１の複数の起動ワード信頼値のうちの第１ローカル最大値に対応する、ステップと、
少なくとも第２マイクロフォンを含む第２装置から第２起動ワード信頼指標を受信するステップであって、前記第２起動ワード信頼指標は、前記第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値に対応する、ステップと、
前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標を比較するステップと、
前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、
を含む方法。
少なくとも第３マイクロフォンを含む第３装置から、第３起動ワード信頼指標を受信するステップであって、前記第３起動ワード信頼指標は、前記第３装置により決定された第３の複数の起動ワード信頼値のうちの第３ローカル最大値に対応する、ステップと、
前記第３起動ワード信頼指標を前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標を比較するステップと、
前記第１起動ワード信頼指標、前記第２起動ワード信頼指標、及び前記第３起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、
を更に含む請求項１に記載の方法。
前記後続のオーディオ処理は会話認識処理を含む、請求項１又は２に記載の方法。
前記後続のオーディオ処理はコマンド認識処理を含む、請求項１～３のいずれか一項に記載の方法。
前記コマンド認識処理に従い、選択された装置を制御するステップ、を更に含む請求項４に記載の方法。
ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定される、請求項１～５のいずれか一項に記載の方法。
ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定される、請求項６に記載の方法。
ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定され、kは整数である、請求項６に記載の方法。
前記第１装置、前記第２装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含む請求項６～８のいずれか一項に記載の方法。
前記第１装置、前記第２装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなった後に、前記ローカル最大値決定時間間隔を終了するステップ、を更に含む請求項９に記載の方法。
前記第１装置は、第１クロックドメインに従い、前記第１マイクロフォンにより受信したオーディオデータをサンプリングし、
前記第２装置は、前記第１クロックドメインと異なる第２クロックドメインに従い、前記第２マイクロフォンにより受信したオーディオデータをサンプリングする、
請求項１～１０のいずれか一項に記載の方法。
前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行される、請求項１～１１のいずれか一項に記載の方法。
前記方法は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成される装置により実行される、請求項１～１１のいずれか一項に記載の方法。
前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成されない装置により実行される、請求項１～１１のいずれか一項に記載の方法。
オーディオ処理のための装置を選択する方法であって、前記方法は、
少なくとも第１マイクロフォンを有する第１マイクロフォンシステムを含む第１装置により、第１起動ワード信頼指標を決定するステップであって、前記第１起動ワード信頼指標を決定するステップは、
前記第１マイクロフォンシステムにより、検出した音声に対応する第１オーディオデータを生成するステップと、
前記第１オーディオデータに基づき、第１の複数の起動ワード信頼値を決定するステップと、
前記第１の複数の起動ワード信頼値のうちの第１ローカル最大値を決定するステップと、
前記第１ローカル最大値に基づき、前記第１起動ワード信頼指標を決定するステップと、
少なくとも第２マイクロフォンを含む第２装置から第２起動ワード信頼指標を受信するステップであって、前記第２起動ワード信頼指標は、前記第２装置により決定された第２の複数の起動ワード信頼値のうちの第２ローカル最大値に対応する、ステップと、
前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標を比較するステップと、
前記第１起動ワード信頼指標及び前記第２起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、
を含む方法。
ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定される、請求項１５に記載の方法。
ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定される、請求項１５に記載の方法。
ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定され、kは整数である、請求項１５に記載の方法。
前記第１装置、前記第２装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含む請求項１８に記載の方法。
前記ローカル最大値決定時間間隔は、時間Aで開始し、時間（A＋K）、前記第１装置及び前記第２装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間で終了する、請求項１９に記載の方法。
前記ローカル最大値決定時間間隔は、時間Aで開始し、時間（A＋K）、前記第１装置、前記第２装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間で終了する、請求項１９に記載の方法。
前記起動ワード検出終了閾値は、前記起動ワード検出開始閾値以下である、請求項２０又は２１に記載の方法。
Kの最大値に達した後に、前記ローカル最大値決定時間間隔を終了するステップ、を更に含む請求項２０に記載の方法。
前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行される、請求項１５～２３のいずれか一項に記載の方法。
前記方法は前記第１装置により実行される、請求項１５～２４のいずれか一項に記載の方法。
前記第１装置から前記第１起動ワード信頼指標を受信するステップを更に含み、前記方法は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成されない装置により実行される、請求項１５～２４のいずれか一項に記載の方法。
請求項１～２６のいずれか一項に記載の方法を実行するよう構成される機器。
ソフトウェアを記憶している１つ以上の非一時的媒体であって、前記ソフトウェアは、請求項１～２６のいずれか一項に記載の方法を実行するよう１つ以上の装置を制御するための命令を含む、非一時的媒体。