JP2023545981A

JP2023545981A - 動的分類器を使用したユーザ音声アクティビティ検出

Info

Publication number: JP2023545981A
Application number: JP2023520368A
Authority: JP
Inventors: シャハージ・ミルザハサンルー、タハー; アルベス、ロジェリオ・ゲデス; ビッサー、エリック; キム、レフン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2020-10-08
Filing date: 2021-09-17
Publication date: 2023-11-01
Also published as: KR20230084154A; US20220115007A1; US11783809B2; BR112023005828A2; WO2022076963A1; CN116249952A; EP4226371A1

Abstract

デバイスは、命令を記憶するように構成されたメモリと、命令を実行するように構成された１つまたは複数のプロセッサとを含む。１つまたは複数のプロセッサは、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信するための命令を実行するように構成される。１つまたは複数のプロセッサはまた、オーディオデータを動的分類器に提供するための命令を実行するように構成される。動的分類器は、オーディオデータに対応する分類出力を生成するように構成される。１つまたは複数のプロセッサは、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための命令を実行するようにさらに構成される。

Description

関連出願の相互参照
[0001] 本出願は、同一出願人が所有する、２０２０年１０月８日に出願された米国仮特許出願第６３／０８９，５０７号、および２０２１年５月５日に出願された米国非仮特許出願第１７／３０８，５９３号の優先権の利益を主張し、それらの内容全体が参照により本明細書に明確に組み込まれる。

[0002] 本開示は、概して、自己音声アクティビティ検出（self-voice activity detection）に関する。

[0003] 技術の進歩は、より小型でより強力なコンピューティングデバイスをもたらした。たとえば、現在、小型で軽量の、ユーザ（user）によって容易に持ち運ばれる、モバイルフォン（mobile phone）およびスマートフォンなどのワイヤレス電話と、タブレットと、ラップトップコンピュータとを含む、様々なポータブルパーソナルコンピューティングデバイスが存在する。これらのデバイスは、ワイヤレスネットワークを介して音声とデータパケットとを通信することができる。さらに、多くのそのようなデバイスは、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤなど、追加の機能を組み込む。また、そのようなデバイスは、インターネットにアクセスするために使用され得る、ウェブブラウザアプリケーションなど、ソフトウェアアプリケーションを含む、実行可能な命令（instruction）を処理することができる。したがって、これらのデバイスは、かなりの計算能力を含み得る。

[0004] そのようなコンピューティングデバイスは、しばしば、１つまたは複数のマイクロフォン（microphone）からオーディオ信号（audio signal）を受信するための機能を組み込む。たとえば、オーディオ信号は、マイクロフォンによってキャプチャされたユーザスピーチ（user speech）、マイクロフォンによってキャプチャされた外部音（external sound）、またはそれらの組合せを表し得る。例示のために、ヘッドセットデバイス（headset device）は、ユーザのスピーチ（たとえば、ヘッドセットを装着する人によって話されるスピーチ）と他のソース（source）から発生したスピーチとを区別しようとする自己音声アクティビティ検出を含み得る。たとえば、ヘッドセットデバイスを含むシステムがキーワードアクティベーションをサポートするとき、自己音声アクティビティ検出は、近くの人々から発生したスピーチ（「非ユーザスピーチ（non-user speech）」と呼ばれる）に基づいて１つまたは複数の構成要素または動作のアクティベーションが開始される「フォールスアラーム（false alarm）」を低減することができる。そのようなフォールスアラームを低減することは、デバイスの電力消費効率を改善する。しかしながら、ユーザスピーチと非ユーザスピーチとを区別するためにオーディオ信号処理を実行することは電力も消費し、ユーザスピーチと非ユーザスピーチとを区別する際のデバイスの精度を改善するための従来の技法は、デバイスの電力消費量および処理リソース要件も増加させる傾向がある。

[0005] 本開示の一実装形態によれば、デバイス（device）は、命令を記憶するように構成されたメモリ（memory）と、命令を実行するように構成された１つまたは複数のプロセッサ（processor）とを含む。１つまたは複数のプロセッサは、第１のマイクロフォン（first microphone）の第１の出力（first output）に対応する第１のオーディオデータ（first audio data）と、第２のマイクロフォン（second microphone）の第２の出力（second output）に対応する第２のオーディオデータ（second audio data）とを含むオーディオデータ（audio data）を受信するための命令を実行するように構成される。１つまたは複数のプロセッサはまた、オーディオデータを動的分類器（dynamic classifier）に提供するための命令を実行するように構成される。動的分類器は、オーディオデータに対応する分類出力（classification output）を生成するように構成される。１つまたは複数のプロセッサは、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティ（user voice activity）に対応するかどうかを決定するための命令を実行するようにさらに構成される。

[0006] 本開示の別の実装形態によれば、方法は、１つまたは複数のプロセッサにおいて、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することを含む。本方法は、１つまたは複数のプロセッサにおいて、オーディオデータに対応する分類出力を生成するために、オーディオデータを動的分類器に提供することをさらに含む。本方法は、１つまたは複数のプロセッサにおいて、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することも含む。

[0007] 本開示の別の実装形態によれば、非一時的コンピュータ可読媒体（non-transitory computer-readable medium）は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信させる命令を含む。命令はさらに、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、オーディオデータに対応する分類出力を生成するために、オーディオデータを動的分類器に提供させる。命令はまた、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定させる。

[0008] 本開示の別の実装形態によれば、装置は、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信するための手段を含む。本装置は、動的分類器において、オーディオデータに対応する分類出力を生成するための手段をさらに含む。本装置は、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段も含む。

[0009] 本開示の他の態様、利点、および特徴は、以下のセクションを含む本出願全体を検討すれば、明らかになるであろう。

[0010] 本開示のいくつかの例による、自己音声アクティビティ検出を実行するために動作可能なシステムの特定の例示的な態様のブロック図。 [0011] 本開示のいくつかの例による、自己音声アクティビティ検出に関連する動作の例示的な態様の図。 [0012] 本開示のいくつかの例による、自己音声アクティビティ検出を実行するために動作可能なシステムの例示的な態様のブロック図。 [0013] 本開示のいくつかの例による、図１のシステムの構成要素の動作の例示的な態様の図。 [0014] 本開示のいくつかの例による、ユーザ音声アクティビティを検出するための動的分類器を含む集積回路の一例を示す図。 [0015] 本開示のいくつかの例による、ユーザ音声アクティビティを検出するための動的分類器を含むモバイルデバイスの図。 [0016] 本開示のいくつかの例による、ユーザ音声アクティビティを検出するための動的分類器を含むヘッドセットの図。 [0017] 本開示のいくつかの例による、ユーザ音声アクティビティを検出するための動的分類器を含むウェアラブル電子デバイス（wearable electronic device）の図。 [0018] 本開示のいくつかの例による、ユーザ音声アクティビティを検出するための動的分類器を含む音声制御スピーカーシステムの図。 [0019] 本開示のいくつかの例による、ユーザ音声アクティビティを検出するための動的分類器を含むカメラの図。 [0020] 本開示のいくつかの例による、ユーザ音声アクティビティを検出するための動的分類器を含む、仮想現実または拡張現実のヘッドセットなどのヘッドセットの図。 [0021] 本開示のいくつかの例による、ユーザ音声アクティビティを検出するための動的分類器を含むビークル（vehicle）の第１の例の図。 [0022] 本開示のいくつかの例による、ユーザ音声アクティビティを検出するための動的分類器を含むビークルの第２の例の図。 [0023] 本開示のいくつかの例による、図１のデバイスによって実行され得る自己音声アクティビティ検出の方法の特定の実装形態の図。 [0024] 本開示のいくつかの例による、図１のデバイスによって実行され得る自己音声アクティビティ検出の方法の別の特定の実装形態の図。 [0025] 本開示のいくつかの例による、自己音声アクティビティ検出を実行するために動作可能であるデバイスの特定の例示的な例のブロック図。

[0026] １つまたは複数の構成要素または動作のアクティベーションが非ユーザスピーチから生じる「フォールスアラーム」を低減する自己音声アクティビティ検出（「ＳＶＡＤ：self-voice activity detection」）は、フォールスアラームが検出されたとき、そのような構成要素または動作のアクティベーションを防止することによって、デバイスの電力消費効率を改善することができる。しかしながら、ＳＶＡＤ精度を改善するための従来のオーディオ信号処理技法はまた、精度改善技法を実行しながら、デバイスの電力消費量と処理リソースとを増加させる。ＳＶＡＤ処理は、典型的には、デバイスが低電力モード（low-power mode）またはスリープモード（sleep mode）である間でも、継続的に動作しているので、従来のＳＶＡＤ技法を使用してフォールスアラームを低減することによる電力消費量の低減は、ＳＶＡＤ処理自体に関連する電力消費量の増加によって部分的にまたは完全に相殺され得る。

[0027] 動的分類器を使用した自己音声アクティビティ検出のシステムおよび方法が開示される。たとえば、ヘッドセットの実装形態では、オーディオ信号は、ノイズ低減とエコー消去とを実行するためなどに、ユーザの音声をキャプチャするように配置される第１のマイクロフォンから、および外部音をキャプチャするように配置される第２のマイクロフォンから受信され得る。オーディオ信号は、両耳間位相差（「ＩＰＤ：interaural phase difference」）と両耳間強度差（「ＩＩＤ：interaural intensity difference」）とを含む周波数領域特徴セット（frequency domain feature set）を抽出するために処理され得る。

[0028] 動的分類器は、抽出された周波数領域特徴セットを処理し、特徴セットの分類を示す出力を生成する。動的分類器は、ユーザ音声アクティビティに対応する特徴セットと、他のオーディオアクティビティに対応する特徴セットとを区別するために、特徴データ（feature data）の適応クラスタ化（adaptive clustering）と、特徴データ空間の２つの最も識別可能なカテゴリー間の決定境界（decision boundary）の調整とを実行し得る。例示的な例では、動的分類器は、自己組織化マップ（self-organizing map）を使用して実装される。

[0029] 動的分類器は、抽出された特徴セットを使用して、極めて非定常の状況における環境条件、不整合なマイクロフォン、ユーザヘッドセットのフィッティングの変化、異なるユーザ頭部伝達関数（「ＨＲＴＦ：head-related transfer function」）、非ユーザ信号の到来方向（「ＤＯＡ：direction-of-arrival」）追跡、周波数スペクトルにわたるマイクロフォンのノイズフロア、バイアス、および感度、またはそれらの組合せなどの、様々な条件にアクティブに応答し、適応するための識別を可能にする。いくつかの実装形態では、動的分類器は、そのような変動に応答し、使用されるしきい値処理パラメータの数と、顧客によるヘッドセットチューニングの量とを低減または最小化することが可能な適応特徴マッピングを可能にする。いくつかの実装形態では、動的分類器は、同等の精度を提供する従来のＳＶＡＤシステムと比較して、変動する条件の下で高精度で、比較的低い電力消費量で、ユーザ音声アクティビティと他のオーディオアクティビティとの間の効果的な識別を可能にする。

[0030] 本開示の特定の態様が、図面を参照しながら以下で説明される。説明では、共通の特徴は、共通の参照番号によって指定される。本明細書で使用される様々な用語は、特定の実装形態のみについて説明するために使用され、実装形態を限定することを意図するものではない。たとえば、単数形「１つの（ａ、ａｎ）」および「その（ｔｈｅ）」は、別段にコンテキストが明確に示さない限り、複数形も含むことが意図される。さらに、本明細書で説明されるいくつかの特徴は、いくつかの実装形態では単数であり、他の実装形態では複数である。例示のために、図１は、１つまたは複数のプロセッサ（図１の「プロセッサ」１９０）を含むデバイス１０２を示し、このことは、いくつかの実装形態では、デバイス１０２が単一のプロセッサ１９０を含み、他の実装形態では、デバイス１０２が複数のプロセッサ１９０を含むことを示す。本明細書において参照しやすいように、そのような特徴は、一般に、「１つまたは複数の」特徴として導入され、その後、複数の特徴に関係する態様が説明されない限り、単数形で参照される。

[0031] 「備える（ｃｏｍｐｒｉｓｅ、ｃｏｍｐｒｉｓｅｓ、およびｃｏｍｐｒｉｓｉｎｇ）」という用語は、「含む（ｉｎｃｌｕｄｅ、ｉｎｃｌｕｄｅｓ、またはｉｎｃｌｕｄｉｎｇ）」と互換的に使用され得ることがさらに理解され得る。加えて、「ここにおいて（ｗｈｅｒｅｉｎ）」という用語は、「ここで（ｗｈｅｒｅ）」と互換的に使用され得ることが理解されよう。本明細書で使用される「例示的な」は、例、実装形態、および／または態様を示すことがあり、限定するものとして、または選好もしくは好ましい実装形態を示すものとして解釈されるべきでない。本明細書で使用される、構造、構成要素、動作などの要素を変更するために使用される序数用語（たとえば、「第１の」、「第２の」、「第３の」など）は、それ自体によって、別の要素に対するその要素のいかなる優先順位または順序も示すのではなく、むしろ、（序数用語の使用を除いて）同じ名称を有する別の要素からその要素を区別するにすぎない。本明細書で使用される「セット」という用語は、特定の要素の１つまたは複数を指し、「複数」という用語は、特定の要素の複数（たとえば、２つ以上）を指す。

[0032] 本明細書で使用される「結合される」は、「通信可能に結合される」、「電気的に結合される」、または「物理的に結合される」を含むことがあり、同じく（または代替的に）それらの任意の組合せを含み得る。２つのデバイス（または構成要素）は、１つまたは複数の他のデバイス、構成要素、ワイヤ、バス、ネットワーク（たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、またはそれらの組合せ）などを介して直接または間接的に結合される（たとえば、通信可能に結合される、電気的に結合される、または物理的に結合される）ことがある。電気的に結合された２つのデバイス（または構成要素）は、同じデバイスまたは異なるデバイスに含まれてよく、例示的な非限定的な例として、電子回路、１つもしくは複数のコネクタ、または誘導結合を介して接続され得る。いくつかの実装形態では、電気通信などで通信可能に結合された２つのデバイス（または構成要素）は、１つまたは複数のワイヤ、バス、ネットワークなどを介して、直接または間接的に信号（たとえば、デジタル信号またはアナログ信号）を送信および受信し得る。本明細書で使用される「直接結合される」は、介在する構成要素なしに結合される（たとえば、通信可能に結合される、電気的に結合される、または物理的に結合される）２つのデバイスを含み得る。

[0033] 本開示では、「決定する」、「計算する」、「推定する」、「シフトする」、「調整する」などの用語は、１つまたは複数の動作がどのように実行されるかについて説明するために使用され得る。そのような用語が限定的なものと解釈されるべきではなく、同様の動作を実行するために他の技法が利用され得ることに留意されたい。加えて、本明細書で言及される「生成する」、「計算する」、「推定する」、「使用する」、「選択する」、「アクセスする」、および「決定する」は、互換的に使用され得る。たとえば、パラメータ（または信号）を「生成する」、「計算する」、「推定する」、または「決定する」ことは、パラメータ（または信号）をアクティブに生成、推定、計算、または決定することを指すことがあり、あるいは、別の構成要素またはデバイスなどによってすでに生成されたパラメータ（または信号）を使用、選択、またはそれにアクセスすることを指すことがある。

[0034] 図１を参照すると、動的分類器を使用して自己音声アクティビティ検出を実行するように構成されたシステムの特定の例示的な態様が開示され、概して１００と指定される。システム１００は、第１のマイクロフォン１１０と、第２のマイクロフォン１２０と、第２のデバイス１６０とに結合されたデバイス１０２を含む。デバイス１０２は、動的分類器（dynamic classifier）１４０を使用して、マイクロフォン１１０、１２０によってキャプチャされた音の自己音声アクティビティ検出を実行するように構成される。例示のために、デバイス１０２がヘッドセットに対応する実装形態では、第１のマイクロフォン１１０（たとえば、「１次」マイクロフォン）は、デバイス１０２の装着者の口（mouth）に近接して配置されたマイクロフォンなどのデバイス１０２のユーザの発話（utterance）を主にキャプチャするように構成されることがあり、第２のマイクロフォン１２０（たとえば、「２次」マイクロフォン）は、装着者の耳に近接して配置されるなど、周囲音（ambient sound）を主にキャプチャするように構成されることがある。デバイス１０２が、複数の人々の近傍にあり得る（たとえば、図１１を参照しながらさらに説明されるように、マイクロフォンを有するラウドスピーカーを含む）独立型音声アシスタントに対応するときなど、他の実装形態では、デバイス１０２は、人がヘッドセットの実装形態と比較して、１次マイクロフォンから比較的離れる場合であっても、１次マイクロフォンに最も近い人からのスピーチを自己音声アクティビティとして検出するように構成され得る。本明細書で使用される「自己音声アクティビティ検出」という用語は、デバイス１０２のユーザのスピーチ（たとえば、音声または発話）（たとえば、「ユーザ音声アクティビティ」）を、デバイスのユーザから発生しない音（たとえば、「他のオーディオアクティビティ」）と比較して区別することを示すために、「ユーザ音声アクティビティ検出」と互換的に使用される。

[0035] デバイス１０２は、第１の入力インターフェース１１４と、第２の入力インターフェース１２４と、１つまたは複数のプロセッサ１９０と、モデム（modem）１７０とを含む。第１の入力インターフェース１１４は、プロセッサ１９０に結合され、第１のマイクロフォン１１０に結合されるように構成される。第１の入力インターフェース１１４は、第１のマイクロフォン１１０から第１のマイクロフォン出力１１２を受信し、第１のマイクロフォン出力１１２を第１のオーディオデータ１１６としてプロセッサ１９０に提供するように構成される。

[0036] 第２の入力インターフェース１２４は、プロセッサ１９０に結合され、第２のマイクロフォン１２０に結合されるように構成される。第２の入力インターフェース１２４は、第２のマイクロフォン１２０から第２のマイクロフォン出力１２２を受信し、第２のマイクロフォン出力１２２を第２のオーディオデータ１２６としてプロセッサ１９０に提供するように構成される。

[0037] プロセッサ１９０は、モデム１７０に結合され、特徴抽出器（feature extractor）１３０と動的分類器（dynamic classifier）１４０とを含む。プロセッサは、第１のマイクロフォン１１０の第１の出力１１２に対応する第１のオーディオデータ１１６と、第２のマイクロフォン１２０の第２の出力１２２に対応する第２のオーディオデータ１２６とを含むオーディオデータ１２８を受信するように構成される。プロセッサ１９０は、特徴データ１３２を生成するために特徴抽出器１３０においてオーディオデータ１２８を処理するように構成される。

[0038] いくつかの実装形態では、プロセッサ１９０は、特徴データ１３２を生成する前に、第１のオーディオデータ１１６と第２のオーディオデータ１２６とを処理するように構成される。一例では、プロセッサ１９０は、第１のオーディオデータ１１６および第２のオーディオデータ１２６に対して、エコー消去、ノイズ抑制、またはその両方を実行するように構成される。いくつかの実装形態では、プロセッサ１９０は、特徴データ１３２を生成する前に、第１のオーディオデータ１１６と第２のオーディオデータ１２６とを変換領域（transform domain）に変換（たとえば、フーリエ変換）するように構成される。

[0039] プロセッサ１９０は、第１のオーディオデータ１１６および第２のオーディオデータ１２６に基づいて、特徴データ１３２を生成するように構成される。いくつかの態様によれば、特徴データ１３２は、第１のオーディオデータ１１６と第２のオーディオデータ１２６との間の少なくとも１つの両耳間位相差１３４と、第１のオーディオデータ１１６と第２のオーディオデータ１２６との間の少なくとも１つの両耳間強度差１３６とを含む。特定の例では、特徴データ１３２は、複数の周波数（multiple frequencies）についての両耳間位相差（ＩＰＤ）１３４と、複数の周波数についての両耳間強度差（ＩＩＤ）１３６とを含む。

[0040] プロセッサ１９０は、特徴データ１３２の分類出力１４２を生成するために、動的分類器１４０において特徴データ１３２を処理するように構成される。いくつかの実装形態では、動的分類器１４０は、オーディオデータ１２８内で表される音が、第２のマイクロフォン１２０よりも第１のマイクロフォン１１０に近いソースから発生しているかどうかに基づいて、特徴データ１３２のセット（たとえば、サンプル）を適応的にクラスタ化するように構成される。たとえば、動的分類器１４０は、特徴データ１３２のサンプルのシーケンス（sequence）を受信し、ＩＩＤ周波数値およびＩＰＤ周波数値を含む特徴空間内でサンプルを適応的にクラスタ化する（adaptively cluster）ように構成され得る。

[0041] 動的分類器１４０はまた、ユーザ音声アクティビティ（たとえば、ユーザ１８０の発話１８２）に対応する特徴データのセットと、他のオーディオアクティビティに対応する特徴データのセットとを区別するために、特徴空間の２つの最も識別可能なカテゴリー間の決定境界を調整するように構成され得る。例示のために、動的分類器１４０は、着信する特徴データを２つのクラス（たとえば、クラス０またはクラス１）のうちの１つに分類するように構成されることがあり、ここで、２つのクラスのうちの１つは、ユーザ音声アクティビティに対応し、２つのクラスのうちの他方は、他のオーディオアクティビティに対応する。分類出力１４２は、２つの値、すなわち、特徴データ１３２が２つのクラスのうちの一方に対応することを示すための第１の値（たとえば、「０」）、または特徴データ１３２が２つのクラスのうちの他方に対応することを示すための第２の値（たとえば、「１」）のうちの１つを有する単一のビットまたはフラグを含み得る。

[0042] いくつかの実装形態では、動的分類器１４０は、クラスタ化とベクトル量子化とを実行する。たとえば、クラスタ化は、次式のように定義されるクラスタ内２乗和を低減する（たとえば、最小化する）ことを含む。

ここで、Ｃ_iはクラスタｉを表し、ｐ_iはクラスタｉに割り当てられた重みを表し、ｘ_jは特徴空間内のノードｊを表し、μ_iはクラスタｉの重心を表す。クラスタ重みｐ_iは、以前のクラスタ分布などの確率的なもの、各クラスタの可能性に割り当てられた信頼性尺度などの可能性的なもの、または異なるクラスタに向かって何らかの形態の不均一なバイアスを強いる任意の他のファクタによって決定されたものであり得る。ベクトル量子化は、入力ベクトルを、次式によって定義される量子化重みベクトルになるように量子化することによって、誤差を低減する（たとえば、最小化する）ことを含む。

ここで、ｗ_iは、量子化重みベクトルｉを表す。

[0043] いくつかの実装形態では、動的分類器１４０は、特徴データ１３２の新しいサンプルを吸収するために量子化のユニットが競合する競合学習を実行するように構成される。次いで、勝ったユニットは、新しいサンプルの方向に調整される。たとえば、各ユニットの重みベクトルは、分離のためにまたはランダムに初期化され得る。受信された特徴データの新しいサンプルごとに、非限定的な例として、ユークリッド距離または内積類似度などに基づいて、どの重みベクトルが新しいサンプルに最も近いかに関する決定が行われる。新しいサンプルに最も近い重みベクトル（「勝者」または最良のマッチングユニット）は、次いで、新しいサンプルの方向に移動され得る。たとえば、ヘッブ学習では、勝者は、２つのノードへの入力の積に比例して２つのノード間の重みを調整することなどによって、入力とのその相関を強化する。

[0044] いくつかの実装形態では、動的分類器１４０は、シナプス後シート内のローカルクラスタに接続されたシナプス前シート内のローカルクラスタを含み、隣接するニューロン間の相互接続は、相関刺激間の接続を強化するためにヘッブ学習を通して強化される。動的分類器１４０は、入力がシナプス後シートまたはマップ内のあらゆるニューロンに接続されるコホーネン自己組織化マップを含み得る。学習は、吸収の異なるフィールドが入力空間（たとえば、特徴データ空間）の異なる領域に応答するという点で、マップを局所化させる。

[0045] 特定の実装形態では、動的分類器１４０は、自己組織化マップ１４８を含む。自己組織化マップ１４８は、重みベクトルを初期化し、次いで、各入力ｔ（たとえば、特徴データ１３２の各受信されたセット）について、次式に従って勝ったユニット（またはセルもしくはニューロン）を決定することによって動作し、

入力ｘ（ｔ）への最小距離（たとえば、ユークリッド距離）を有するユニットとして勝者ｖ（ｔ）を見つけることがある。勝ったユニットおよびその近傍ユニットの重みは、Δｗ_i（ｔ）＝α（ｔ）ｌ（ｖ，ｉ，ｔ）［ｘ（ｔ）－ｗ_v（ｔ）］などに従って更新され、ここで、Δｗ_i（ｔ）はユニットｉの変化を表し、α（ｔ）は学習パラメータを表し、ｌ（ｖ，ｉ，ｔ）は、ガウス放射基底関数などの、勝ったユニットの周りの近傍関数を表す。いくつかの実装形態では、内積または別のメトリックが、ユークリッド距離の代わりに類似性測度として使用され得る。

[0046] いくつかの実装形態では、動的分類器１４０は、図４を参照しながらさらに説明される、スピーチサンプルのシーケンスに適応するためのコホーネン自己組織化マップの変形態を含む。一例では、動的分類器１４０は、時定数モデル化減衰（「Ｄ」）を有する活性化関数が各ユニットについて定義され、次式のように更新される時間的なコホーネンマップなどに従って、時間的なシーケンス処理を実施することがあり、

勝ったユニットは、最大のアクティビティを有するユニットである。別の例として、動的分類器１４０は、２乗ノルムの代わりに差分ベクトルｙ、すなわちｙ_i（ｔ，γ）＝（１－γ）ｙ_i（ｔ－１，γ）＋γ（ｘ（ｔ）－ｗ_i（ｔ））を使用するリカレント自己組織化マップなどに従って、リカレントネットワークを実装することがあり、ここで、γは０と１との間の値を有する忘却係数（forgetting factor）を表し、勝ったユニットは、次式の通りの最小の差分ベクトルを有するユニットとして決定され、

重みは、Δｗ_i（ｔ）＝α（ｔ）ｌ（ｖ，ｉ，ｔ）［ｘ（ｔ）－ｙ_v（ｔ，γ）］として更新される。

[0047] いくつかの実装形態では、プロセッサ１９０は、特徴データ１３２に基づいて動的分類器１４０のクラスタ化動作（clustering operation）１４４を更新し、動的分類器１４０の分類決定基準（classification decision criterion）１４６を更新するように構成される。たとえば、上記で説明されたように、プロセッサ１９０は、オーディオデータ１２８の着信サンプルに基づいて、クラスタ化と、ユーザ音声アクティビティと他のオーディオアクティビティとの間の決定境界とを適応させるように構成され、動的分類器１４０が、ユーザ１８０の変化する条件、環境、他の条件（たとえば、マイクロフォン配置または調整）、またはそれらの任意の組合せに基づいて動作を調整することを可能にする。

[0048] 動的分類器１４０が自己組織化マップ１４８を含むものとして図示されているが、他の実装形態では、動的分類器１４０は、自己組織化マップ１４８の代わりに、またはそれに加えて、分類出力１４２を生成するための１つまたは複数の他の技法を組み込むことがある。非限定的な例として、動的分類器１４０は、教師なし構成を有する制限付きボルツマンマシン、教師なしオートエンコーダ、ホップフィールドネットワークのオンライン変形形態、オンラインクラスタ化、またはそれらの組合せを含み得る。別の非限定的な例として、動的分類器１４０は、主成分分析を実行する（たとえば、直交方向ベクトルのセットを特徴空間内の特徴ベクトルサンプルに順次適合させるが、ここで、各方向ベクトルは、特徴空間内の方向ベクトル上に投影された特徴ベクトルサンプルの分散を最大化するものとして選択される）ように構成され得る。別の非限定的な例として、動的分類器１４０は、独立成分分析を実行する（たとえば、小成分が互いに統計的に独立した非ガウス信号であると仮定して、特徴空間内の特徴ベクトルサンプルの加法的小成分のセットを決定する）ように構成され得る。

[0049] プロセッサ１９０は、分類出力１４２に少なくとも部分的に基づいて、オーディオデータ１２８がユーザ音声アクティビティに対応するかどうかを決定し、ユーザ音声アクティビティが検出されたかどうかを示すユーザ音声アクティビティインジケータ１５０を生成するように構成される。たとえば、分類出力１４２は、特徴データ１３２が２つのクラス（たとえば、クラス「０」またはクラス「１」）のうちの１つとして分類されるかどうかを示し得るが、分類出力１４２は、どのクラスがユーザ音声アクティビティに対応し、どのクラスが他のオーディオアクティビティに対応するかを示さないことがある。たとえば、動的分類器１４０がどのように初期化されるかと、動的分類器１４０を更新するために使用された特徴データとに基づいて、いくつかの場合には、値「０」を有する分類出力１４２は、ユーザ音声アクティビティを示すが、他の場合には、値「０」を有する分類出力は、他のオーディオアクティビティを示す。プロセッサ１９０は、図２を参照しながらさらに説明されるように、特徴データ１３２の少なくとも１つの値の符号（sign）または大きさ（magnitude）のうちの少なくとも１つにさらに基づいて、２つのクラスのうちのどちらがユーザ音声アクティビティを示すかと、２つのクラスのうちのどちらが他のオーディオアクティビティを示すかとを決定し得る。

[0050] 例示のために、ユーザ１８０の口から第１のマイクロフォン１１０および第２のマイクロフォン１２０への発話１８２の音伝搬は、特徴データ１３２内で検出されることがあり、他のオーディオソースからの音の位相差（phase difference）および信号強度差（signal strength difference）から区別可能であり得る、（発話１８２が第２のマイクロフォン１２０よりも前に第１のマイクロフォン１１０に到着することによる）位相差および信号強度差をもたらす。位相差および信号強度差は、特徴データ１３２内のＩＰＤ１３４およびＩＩＤ１３６から決定され、分類出力１４２をユーザ音声アクティビティまたは他のオーディオアクティビティにマッピングするために使用され得る。プロセッサ１９０は、オーディオデータ１２８がユーザ音声アクティビティに対応するかどうかを示すユーザ音声アクティビティインジケータ１５０を生成し得る。

[0051] いくつかの実装形態では、プロセッサ１９０は、オーディオデータ１２８がユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作（voice command processing operation）１５２を開始するように構成される。例示的な例では、音声コマンド処理動作１５２は、キーワードもしくはキーフレーズ検出、声紋認証、自然言語処理、１つもしくは複数の他の動作、またはそれらの任意の組合せなどの音声アクティベーション動作を含む。別の例として、プロセッサ１９０は、キーワード検出の第１の段階を実行するためにオーディオデータ１２８を処理することがあり、（たとえば、より強力な音声アクティビティ認識とスピーチ認識動作とを含む検出の第２の段階において）音声コマンド処理動作１５２を介してオーディオデータ１２８のさらなる処理を開始する前に、検出されたキーワードが近くの人ではなくデバイス１０２のユーザ１８０によって話されたことを確認するために、ユーザ音声アクティビティインジケータ１５０を使用し得る。

[0052] モデム１７０は、プロセッサ１９０に結合され、ワイヤレス送信などを介して、第２のデバイス１６０との通信を可能にするように構成される。いくつかの例では、モデム１７０は、オーディオデータ１２８が動的分類器１４０に基づくユーザ音声アクティビティに対応するという決定に応答して、第２のデバイス１６０にオーディオデータ１２８を送信するように構成される。たとえば、デバイス１０２が第２のデバイス１６０にワイヤレス結合されたヘッドセットデバイス（たとえば、モバイルフォンまたはコンピュータへのＢｌｕｅｔｏｏｔｈ（登録商標）接続）に対応する実装形態では、デバイス１０２は、第２のデバイス１６０の音声アクティベーションシステム１６２において音声コマンド処理動作１５２を実行するために、第２のデバイス１６０にオーディオデータ１２８を送り得る。この例では、デバイス１０２は、第２のデバイス１６０のより大きい処理リソースおよび電力リソースを使用して実行されるべき、より計算コストが高い処理（たとえば、音声コマンド処理動作１５２）をオフロードする。

[0053] いくつかの実装形態では、デバイス１０２は、１つまたは様々なタイプのデバイスに対応するか、またはそれらに含まれる。例示的な例では、プロセッサ１９０は、第１のマイクロフォン１１０と第２のマイクロフォン１２０とを含むヘッドセットデバイスに統合される。ヘッドセットデバイスは、ユーザ１８０によって装着されたとき、図７を参照しながらさらに説明されるように、第１のマイクロフォン１１０において、第２のマイクロフォン１２０と比較してより大きい強度（greater intensity）およびより少ない遅延（less delay）でユーザ１８０の発話１８２をキャプチャするために、ユーザの口に対して第２のマイクロフォン１２０よりも近くに第１のマイクロフォン１１０を配置する（position）ように構成される。他の例では、プロセッサ１９０は、図６を参照しながら説明されるモバイルフォンもしくはタブレットコンピュータデバイス（tablet computer device）、図８を参照しながら説明されるウェアラブル電子デバイス（wearable electronic device）、図９を参照しながら説明される音声制御スピーカーシステム、図１０を参照しながら説明されるカメラデバイス（camera device）、または図１１を参照しながら説明される仮想現実ヘッドセット（virtual reality headset）、複合現実ヘッドセット（mixed reality headset）、または拡張現実ヘッドセット（augmented reality headset）のうちの少なくとも１つに統合される。別の例示的な例では、プロセッサ１９０は、図１２および図１３を参照しながらさらに説明されるように、第１のマイクロフォン１１０および第２のマイクロフォン１２０も含むビークル（vehicle）に統合される。

[0054] 動作中、第１のマイクロフォン１１０は、ユーザ１８０の発話１８２をキャプチャするように構成され、第２のマイクロフォン１２０は、周囲音（ambient sound）１８６をキャプチャするように構成される。一例では、デバイス１０２のユーザ１８０からの発話１８２は、第１のマイクロフォン１１０および第２のマイクロフォン１２０によってキャプチャされる。第１のマイクロフォン１１０がユーザ１８０の口により近いので、ユーザ１８０のスピーチは、第２のマイクロフォン１２０と比較して、より高い信号強度およびより少ない遅延で第１のマイクロフォン１１０によってキャプチャされる。別の例では、１つまたは複数の音源１８４からの周囲音１８６（たとえば、２人の近くの人の間の会話）が、第１のマイクロフォン１１０および第２のマイクロフォン１２０によってキャプチャされ得る。第１のマイクロフォン１１０および第２のマイクロフォン１２０に対する音源１８４の位置および距離に基づいて、第１のマイクロフォン１１０および第２のマイクロフォン１２０において周囲音１８６をキャプチャすることの間の信号強度差および相対遅延は、ユーザ１８０からの発話１８２に関するものとは異なる。

[0055] 第１のオーディオデータ１１６および第２のオーディオデータ１２６は、エコー消去、ノイズ抑制、周波数領域変換などを実行することによって、プロセッサ１９０において処理される。得られたオーディオデータは、ＩＰＤ１３４とＩＩＤ１３６とを含む特徴データ１３２を生成するために、特徴抽出器１３０において処理される。特徴データ１３２は、分類出力１４２を生成するために動的分類器１４０に入力され、分類出力は、ユーザ音声アクティビティまたは他の音アクティビティのいずれかとしてプロセッサ１９０によって解釈される。プロセッサ１９０は、オーディオデータ１２８がユーザ音声アクティビティに対応することを示すための「０」値、またはオーディオデータ１２８が他のオーディオアクティビティに対応することを示すための「１」値（またはその逆も同様）などの、ユーザ音声アクティビティインジケータ１５０を生成する。

[0056] ユーザ音声アクティビティインジケータ１５０は、デバイス１０２において音声コマンド処理動作１５２を開始すべきかどうかを決定するために使用され得る。代替的に、または追加として、ユーザ音声アクティビティインジケータ１５０は、音声アクティベーションシステム１６２におけるさらなる処理のために第２のデバイス１６０への出力信号１３５（たとえば、オーディオデータ１２８）の生成を開始すべきかどうかを決定するために使用され得る。

[0057] 加えて、分類出力１４２を生成することと併せて、動的分類器１４０は、特徴データ１３２により類似するように勝ったユニットおよびその近隣のユニットの重みを調整すること、クラスタ化動作１４４、分類基準１４６、またはそれらの組合せを更新することなどによって、特徴データ１３２に基づいて更新される。このようにして、動的分類器１４０は、ユーザスピーチの変化、環境の変化、デバイス１０２もしくはマイクロフォン１１０、１２０の特性の変化、またはそれらの組合せに自動的に適応する。

[0058] したがって、システム１００は、従来の自己音声アクティビティ検出技法と比較して、比較的低い複雑度、低い電力消費量、および高い精度で、ユーザ音声アクティビティと他のオーディオアクティビティとを識別するために、動的分類器１４０を使用することによって、自己音声アクティビティ検出の性能を改善する。ユーザおよび環境の変化に自動的に適応することは、ユーザによって実行されるべき較正を低減または削除し、ユーザのエクスペリエンス（user's experience）を向上させることによって、改善された利益を提供する。

[0059] いくつかの実装形態では、プロセッサ１９０は、特徴抽出器１３０によって生成される特徴データ１３２（たとえば、周波数領域データ）の形態でオーディオデータ１２８を動的分類器１４０に提供するが、他の実装形態では、特徴抽出器１３０は省略される。一例では、プロセッサ１９０は、動的分類器１４０にオーディオデータ１２８をオーディオサンプルの時系列として提供し、動的分類器１４０は、分類出力１４２を生成するためにオーディオデータ１２８を処理する。例示的な一実装形態では、動的分類器１４０は、オーディオデータ１２８から周波数領域データを決定し（たとえば、特徴データ１３２を生成し）、分類出力１４２を生成するために、抽出された周波数領域データを使用するように構成される。

[0060] 第１のマイクロフォン１１０および第２のマイクロフォン１２０が、デバイス１０２に結合されているものとして図示されているが、他の実装形態では、第１のマイクロフォン１１０または第２のマイクロフォン１２０の一方または両方は、デバイス１０２に統合され得る。２つのマイクロフォン１１０、１２０が図示されているが、他の実装形態では、ユーザスピーチ（user speech）をキャプチャするように構成された１つもしくは複数の追加のマイクロフォン、環境音（environmental sound）をキャプチャするように構成された１つもしくは複数のマイクロフォン、またはその両方が含まれ得る。システム１００が第２のデバイス１６０を含むものとして図示されているが、他の実装形態では、第２のデバイス１６０は省略されてよく、デバイス１０２は、第２のデバイス１６０において実行されるものとして説明される動作を実行し得る。

[0061] 図２は、図１のデバイス１０２（たとえば、プロセッサ１９０）によって実行され得る自己音声アクティビティ検出に関連する動作２００の例示的な態様の図である。特徴データ２０６を生成するために、入力２０２に対して、特徴抽出（Feature extraction）２０４が実行される。一例では、入力２０２はオーディオデータ１２８に対応し、特徴抽出２０４は特徴抽出器１３０によって実行され、特徴データ２０６は特徴データ１３２に対応する。

[0062] 動的分類器（dynamic classifier）２０８は、分類出力２１０を生成するために、特徴データ２０６に対して演算する。一例では、動的分類器２０８は、動的分類器１４０に対応し、分類出力２１０内の音声アクティベーションクラスについての「自己」対「他の」ラベリングに関する極めて動的な決定境界を有する特徴データ２０６に基づいて、教師なしリアルタイムクラスタ化を実行するように構成される。たとえば、動的分類器２０８は、特徴空間を２つのクラス、すなわち、ユーザ音声アクティビティに関連付けられた一方のクラスと、他の音アクティビティに関連付けられた他方のクラスとに分割され得る。分類出力２１０は、どのクラスが特徴データ２０６に関連付けられるかのバイナリインジケータを含み得る。一例では、分類出力２１０は、分類出力１４２に対応する。

[0063] 自己／他の関連付け動作２１２は、分類出力２１０と検証入力２１６とに基づいて、自己／他のインジケータ２１８を生成する。検証入力２１６は、分類出力２１０のクラスの各々を、ユーザ音声アクティビティ（たとえば、「自己」）または他の音アクティビティ（たとえば、「他」）に関連付ける情報を提供し得る。たとえば、検証入力２１６は、位相差（たとえば、どのマイクロフォンが入力２０２によって表されるオーディオのソースにより近いかを示す、１つまたは複数の特定の周波数範囲にわたるＩＰＤ１３４のうちの１つまたは複数の値）の符号２３０を比較すること、強度差（たとえば、別個のマイクロフォンまでのオーディオのソースの相対距離を示す、１つまたは複数の特定の周波数範囲にわたるＩＩＤ１３６のうちの１つまたは複数の値）の大きさ２３２を比較すること、またはそれらの組合せなどの、少なくとも１つの以前の検証基準（prior verification criterion）２１４に基づいて生成され得る。たとえば、自己／他の関連付けは、「０」の分類出力２１０の値が、１つもしくは複数の関係する周波数範囲において負の符号２３０を示すか、または１つもしくは複数の関係する周波数範囲においてしきい値量よりも小さい大きさ２３２を示すか、またはその両方である特徴データ２０６に対応すると決定することがあり、その結果、「０」が「他」に対応し、「１」が「自己」に対応するように表を埋めることがある。

[0064] 自己／他の関連付け動作２１２は、自己／他のインジケータ２１８（たとえば、ユーザ音声アクティビティを示すための第１の値（たとえば、「０」）を有するか、または他の音アクティビティを示すための第２の値（たとえば、「１」）を有するか、あるいはその逆であるバイナリインジケータ）の生成をもたらす。起動／バージイン制御動作（wakeup/barge-in control operation）２２０は、音声コマンドプロセス２２４への信号２２２を生成するために、自己／他のインジケータ２１８に応答する。たとえば、信号２２２は、入力２０２がユーザ音声アクティビティに対応するとき、さらなる音声コマンド処理を実行するために（たとえば、キーワード検出、音声認証、またはその両方を実行するために）、音声コマンドプロセス２２４が、入力２０２、特徴データ２０６、もしくはその両方に対して実行されるべきであることを示すための第１の値（たとえば、「０」）を有することがあるか、または、入力２０２が他の音アクティビティに対応するとき、音声コマンドプロセス２２４が、音声コマンド処理を実行すべきでないことを示すための第２の値（たとえば、「１」）を有し得る。

[0065] 図１の動的分類器１４０と図２の動的分類器２０８とを参照しながら説明される動的分類は、ユーザが話すときにのみ応答し、他の干渉（たとえば、外部スピーチ）が到着したときには常に応答を抑制し、自己キーワード受容率（「ＳＫＡＲ」：self-keyword acceptance rate）と他のキーワード拒否率（「ＯＫＲＲ」：other keyword rejection rate）とを最大化するという目的で、ＳＶＡＤ精度を改善することを支援する。動的分類を使用することによって、従来のＳＶＡＤ処理に関連する様々な課題が回避されるか、または場合によっては低減される。たとえば、動的分類の実装形態を介して回避または低減される従来のＳＶＡＤ処理の課題は、（厳しい条件下で誤った起動およびバージインを起こし得る）ノイズおよびエコー条件と、マイクロフォンの不整合および感度と、音声アクティベーションエンジン依存性と、異なるユーザ頭部伝達関数（ＨＲＴＦ）と、異なるヘッドセットハードウェア効果と、遮断および分離レベルのユーザの挙動に基づいた変動と、他の音声アクティビティとのユーザの特徴類似性と、音声アクティベーションに対する最終的な悪影響と、ユーザスピーチの開始の応答遅延とを含む。例示のために、従来のＳＶＡＤは、動的分類の動作によって適応され得る、内部／外部のマイクロフォン較正および感度と、干渉スピーチの到来方向と、ヘッドセットフィッティングおよび分離の変動と、特徴の非定常統計量とに大きく依存する。

[0066] 動的分類の使用は、抽出された特徴データ２０６を使用して、極めて非定常の状況における環境条件、不整合なマイクロフォン、ユーザヘッドセットのフィッティングの変化、異なるユーザ頭部伝達関数、非ユーザ信号の到来方向（「ＤＯＡ」）追跡、ならびに、周波数スペクトルにわたるマイクロフォンのノイズフロア、バイアス、および感度などの、様々な条件にアクティブに応答し、適応するための識別を可能にする。動的分類は、そのような変動に応答し、使用されるしきい値処理パラメータの数と、顧客によるヘッドセットチューニングの量とを低減または最小化することが可能な適応特徴マッピングを可能にする。

[0067] 図３は、本開示のいくつかの例による、自己音声アクティビティ検出を実行するために動作可能なシステムの例示的な態様のブロック図であり、プロセッサ１９０は、常時接続電力ドメイン（always-on power domain）３０３と、オンデマンド電力ドメイン（on-demand power domain）などの第２の電力ドメイン（second power domain）３０５とを含む。いくつかの実装形態では、自己音声アクティビティ検出器（self-voice activity detector）３２０の第１の段階３４０およびバッファ３６０は、常時接続モード（always-on mode）で動作するように構成され、自己音声アクティビティ検出器３２０の第２の段階３５０は、オンデマンドモード（on-demand mode）で動作するように構成される。

[0068] 常時接続電力ドメイン３０３は、バッファ３６０と、特徴抽出器１３０と、動的分類器１４０とを含む。バッファ３６０は、自己音声アクティビティ検出器３２０の構成要素による処理のためにアクセス可能であるように、第１のオーディオデータ１１６と第２のオーディオデータ１２６とを記憶するように構成される。

[0069] 第２の電力ドメイン３０５は、自己音声アクティビティ検出器３２０の第２の段階２５０に音声コマンド処理ユニット（voice command processing unit）３７０を含み、アクティベーション回路３３０も含む。いくつかの実装形態では、音声コマンド処理ユニット３７０は、図１の音声コマンド処理動作１５２、または図２の音声コマンドプロセス２２４を実行するように構成される。

[0070] 自己音声アクティビティ検出器３２０の第１の段階２４０は、音声コマンド処理ユニット３７０において音声コマンド処理動作１５２（または音声コマンドプロセス２２４）を開始するために、起動信号（wakeup signal）３２２または割込み（interrupt）３２４のうちの少なくとも１つを生成するように構成される。一例では、起動信号３２２は、音声コマンド処理ユニット３７０をアクティブ化する（activate）ために、第２の電力ドメイン３０５を低電力モード（low-power mode）３３２からアクティブモード（active mode）３３４に遷移させる（transition）ように構成される。いくつかの実装形態では、起動信号３２２、割込み３２４、またはその両方は、図２の信号２２２に対応する。

[0071] たとえば、アクティベーション回路３３０は、電力管理回路、クロック回路、ヘッドスイッチもしくはフットスイッチ回路、バッファ制御回路、またはそれらの任意の組合せを含むか、またはそれらに結合され得る。アクティベーション回路３３０は、第２の段階３５０、第２の電力ドメイン３０５、またはその両方の電源の電圧を選択的に印加または上昇させることなどによって、第２の段階３５０の電源投入を開始するように構成され得る。別の例として、アクティベーション回路３３０は、電源を除去することなく回路動作を防止または有効にするためなどに、第２の段階３５０へのクロック信号を選択的にゲート制御またはゲート制御解除するように構成され得る。

[0072] 自己音声アクティビティ検出器３２０の第２の段階３５０によって生成された検出器出力３５２は、アプリケーション３５４に提供される。アプリケーション３５４は、検出されたユーザスピーチに基づいて、１つまたは複数の動作を実行するように構成され得る。例示のために、アプリケーション３５４は、例示的な非限定的な例として、音声インターフェースアプリケーション、統合アシスタントアプリケーション、ビークルナビゲーションおよびエンターテインメントアプリケーション、またはホームオートメーションシステムに対応し得る。

[0073] 自己音声アクティビティ検出器３２０の第１の段階３４０においてオーディオデータを処理した結果に基づいて第２の段階３５０を選択的にアクティブ化することによって、自己音声アクティビティ検出、音声コマンド処理、またはその両方に関連する全電力消費量が低減され得る。

[0074] 図４は、本開示のいくつかの例による、図１のシステムの構成要素の動作の例示的な態様の図である。特徴抽出器１３０は、第１のフレーム（Ｆ１）４１２、第２のフレーム（Ｆ２）４１４、およびＮ番目のフレーム（ＦＮ）４１６（ここで、Ｎは２よりも大きい整数である）を含む１つまたは複数の追加のフレームとして図示された、オーディオデータ１２８の連続的にキャプチャされたフレームのシーケンスなどの、オーディオデータサンプルのシーケンス４１０を受信するように構成される。特徴抽出器１３０は、第１のセット４２２と、第２のセット４２４と、Ｎ番目のセット４２６を含む１つまたは複数の追加のセットとを含む特徴データのセットのシーケンス４２０を出力するように構成される。

[0075] 動的分類器１４０は、特徴データのセットのシーケンス４２０を受信し、シーケンス４２０における特徴データの以前のセット（たとえば、第１のセット４２２）に少なくとも部分的に基づいて、シーケンス４２０のセット（たとえば、第２のセット４２４）を適応的にクラスタ化するように構成される。説明のための非限定的な例として、動的分類器１４０は、時間的なコホーネンマップまたはリカレント自己組織化マップとして実装され得る。

[0076] 動作中、特徴抽出器１３０は、特徴データの第１のセット４２２を生成するために第１のフレーム４１２を処理し、動的分類器１４０は、分類出力のシーケンス４３０の第１の分類出力（Ｃ１）４３２を生成するために特徴データの第１のセット４２２を処理する。特徴抽出器１３０は、特徴データの第２のセット４２４を生成するために第２のフレーム４１４を処理し、動的分類器１４０は、特徴データの第２のセット４２４に基づいて、および特徴データの第１のセット４２２に少なくとも部分的に基づいて、第２の分類出力（Ｃ２）４３４を生成するために特徴データの第２のセット４２４を処理する。特徴データのＮ番目のセット４２６を生成するために特徴抽出器１３０がＮ番目のフレーム４１６を処理することと、Ｎ番目の分類出力（ＣＮ）４３６を生成するために動的分類器１４０が特徴データのＮ番目のセット４２６を処理することとを含む、そのような処理が続く。Ｎ番目の分類出力４３６は、特徴データのＮ番目のセット４２６に基づき、シーケンス４２０の特徴データの以前のセットのうちの１つまたは複数に少なくとも部分的に基づく。

[0077] 特徴データの１つまたは複数の以前のセットに基づいて動的に分類することによって、動的分類器１４０による分類の精度は、オーディオデータの複数のフレームにわたり得るスピーチ信号について改善され得る。

[0078] 図５は、１つまたは複数のプロセッサ１９０を含む集積回路５０２としてのデバイス１０２の実装形態５００を示す。集積回路５０２はまた、オーディオデータ１２８が処理のために受信されることを可能にするために、１つまたは複数のバスインターフェースなどのオーディオ入力部５０４を含む。集積回路５０２は、ユーザ音声アクティビティインジケータ１５０などの出力信号の送信を可能にするために、バスインターフェースなどの信号出力部５１２も含む。集積回路５０２は、図６に示されるモバイルフォンもしくはタブレット、図７に示されるヘッドセット、図８に示されるウェアラブル電子デバイス、図９に示される音声制御スピーカーシステム、図１０に示されるカメラ、図１１に示される仮想現実ヘッドセット、複合現実ヘッドセット、もしくは拡張現実ヘッドセット、または、図１２もしくは図１３に示されるビークルなどの、マイクロフォンを含むシステム内の構成要素として、自己音声アクティビティ検出の実装を可能にする。

[0079] 図６は、例示的な非限定的な例として、デバイス１０２が電話またはタブレットなどのモバイルデバイス６０２である実装形態６００を示す。モバイルデバイス６０２は、ユーザのスピーチを主にキャプチャするように配置された第１のマイクロフォン１１０と、環境音を主にキャプチャするように配置された複数の第２のマイクロフォン１２０と、ディスプレイスクリーン６０４とを含む。特徴抽出器１３０と動的分類器１４０とを含むプロセッサ１９０の構成要素は、モバイルデバイス６０２に統合され、モバイルデバイス６０２のユーザには概して見えない内部構成要素を示すために破線を使用して図示されている。プロセッサ１９０は特徴抽出器１３０を含むものとして図示されているが、他の実装形態では、図１を参照しながら説明されたように、動的分類器１４０が第１のオーディオデータ１１６および第２のオーディオデータ１２６の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器１３０は省略される。特定の例では、動的分類器１４０は、ユーザ音声アクティビティを検出するように動作し、ユーザ音声アクティビティは、次いで、グラフィカルユーザインターフェースを起動するか、または場合によっては（たとえば、統合「スマートアシスタント」アプリケーションを介して）ディスプレイスクリーン６０４においてユーザのスピーチに関連する他の情報を表示するためなどに、モバイルデバイス６０２において１つまたは複数の動作を実行するように処理される。

[0080] 図７は、デバイス１０２がヘッドセットデバイス７０２である実装形態７００を示す。ヘッドセットデバイス７０２は、ユーザのスピーチを主にキャプチャするように配置された第１のマイクロフォン１１０と、環境音を主にキャプチャするように配置された第２のマイクロフォン１２０とを含む。特徴抽出器１３０と動的分類器１４０とを含む、プロセッサ１９０の構成要素は、ヘッドセットデバイス７０２に統合される。特定の例では、動的分類器１４０は、ユーザ音声アクティビティを検出するように動作し、このことは、ヘッドセットデバイス７０２に、ヘッドセットデバイス７０２において１つもしくは複数の動作を実行させるか、さらなる処理のために図１の第２のデバイス１６０などの第２のデバイス（図示せず）に、ユーザ音声アクティビティに対応するオーディオデータを送信させるか、またはそれらの組合せを行わせ得る。プロセッサ１９０は特徴抽出器１３０を含むものとして図示されているが、他の実装形態では、図１を参照しながら説明されたように、動的分類器１４０が第１のオーディオデータ１１６および第２のオーディオデータ１２６の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器１３０は省略される。

[0081] 図８は、デバイス１０２が、「スマートウォッチ」として図示されるウェアラブル電子デバイス８０２である実装形態８００を示す。特徴抽出器１３０、動的分類器１４０、第１のマイクロフォン１１０、および第２のマイクロフォン１２０は、ウェアラブル電子デバイス８０２に統合される。特定の例では、動的分類器１４０は、ユーザ音声アクティビティを検出するために動作し、ユーザ音声アクティビティは、次いで、グラフィカルユーザインターフェースを起動するか、または場合によってはウェアラブル電子デバイス８０２のディスプレイスクリーン８０４においてユーザのスピーチに関連する他の情報を表示するためなどに、ウェアラブル電子デバイス８０２において１つまたは複数の動作を実行するように処理される。例示のために、ウェアラブル電子デバイス８０２は、ウェアラブル電子デバイス８０２によって検出されたユーザスピーチに基づいて通知を表示するように構成されたディスプレイスクリーンを含み得る。特定の例では、ウェアラブル電子デバイス８０２は、ユーザ音声アクティビティの検出に応答して触覚通知を提供する（たとえば、振動する）触覚デバイスを含む。たとえば、触覚通知は、ユーザによって話されたキーワードの検出を示す表示された通知を見るために、ウェアラブル電子デバイス８０２をユーザに見せることができる。したがって、ウェアラブル電子デバイス８０２は、ユーザの音声アクティビティが検出されたことを、聴覚障害を有するユーザまたはヘッドセットを装着しているユーザに警告することができる。ウェアラブル電子デバイス８０２は特徴抽出器１３０を含むものとして図示されているが、他の実装形態では、図１を参照しながら説明されたように、動的分類器１４０が第１のオーディオデータ１１６および第２のオーディオデータ１２６の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器１３０は省略される。

[0082] 図９は、デバイス１０２がワイヤレススピーカーおよび音声アクティブ化デバイス９０２である実装形態９００である。ワイヤレススピーカーおよび音声アクティブ化デバイス９０２は、ワイヤレスネットワーク接続性を有することができ、アシスタント動作を実行するように構成される。特徴抽出器１３０と動的分類器１４０とを含むプロセッサ１９０、第１のマイクロフォン１１０、第２のマイクロフォン１２０、またはそれらの組合せは、ワイヤレススピーカーおよび音声アクティブ化デバイス９０２に含まれる。プロセッサ１９０は特徴抽出器１３０を含むものとして図示されているが、他の実装形態では、図１を参照しながら説明されたように、動的分類器１４０が第１のオーディオデータ１１６および第２のオーディオデータ１２６の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器１３０は省略される。ワイヤレススピーカーおよび音声アクティブ化デバイス９０２はまた、スピーカー９０４を含む。動作中、動的分類器１４０の動作を介してユーザスピーチとして識別されたバーバルコマンド（verbal command）を受信したことに応答して、ワイヤレススピーカーおよび音声アクティブ化デバイス９０２は、音声アクティベーションシステム１６２（たとえば、統合アシスタントアプリケーション）の実行などを介して、アシスタント動作を実行することができる。アシスタント動作は、温度を調整すること、音楽を再生すること、ライトをオンにすることなどを含むことができる。たとえば、アシスタント動作は、キーワードまたはキーフレーズ（たとえば、「ｈｅｌｌｏａｓｓｉｓｔａｎｔ」）の後にコマンドを受信したことに応答して実行される。

[0083] 例示的な例では、ワイヤレススピーカーおよび音声アクティブ化デバイス９０２が、部屋の壁の近く（たとえば、窓の隣）にあり、第１のマイクロフォン１１０が第２のマイクロフォン１２０と比較して部屋の内部のより近くに配置される（たとえば、第２のマイクロフォンが第１のマイクロフォン１１０よりも壁または窓のより近くに配置され得る）ように配置されたとき、部屋の内部から発生するスピーチは、ユーザ音声アクティビティとして識別され得、部屋の外部から発生する音（たとえば、壁または窓の反対側の人のスピーチ）は、他のオーディオアクティビティとして識別され得る。複数の人々が部屋の中にいる場合があるので、ワイヤレススピーカーおよび音声アクティブ化デバイス９０２は、複数の人々のいずれかからのスピーチをユーザ音声アクティビティとして識別するように構成され得る（たとえば、ワイヤレススピーカーおよび音声アクティブ化デバイス９０２の複数の「ユーザ」が存在することがある）。例示のために、動的分類器１４０は、話している人がワイヤレススピーカーおよび音声アクティブ化デバイス９０２から比較的遠い（たとえば、数メートル）ことがあり、第２のマイクロフォン１２０よりも第１のマイクロフォン１１０に近いときでも、部屋内から発生するスピーチに対応する特徴データを「自己音声」として認識するように構成され得る。スピーチが部屋内の複数の人々から検出されるいくつかの実装形態では、ワイヤレススピーカーおよび音声アクティブ化デバイス９０２（たとえば、動的分類器１４０）は、第１のマイクロフォン１１０に最も近い人からのスピーチを、ユーザ音声アクティビティ（たとえば、最も近いユーザの自己音声）として識別するように構成され得る。

[0084] 図１０は、デバイス１０２がカメラデバイス１００２に対応するポータブル電子デバイスである実装形態１０００を示す。特徴抽出器１３０および動的分類器１４０、第１のマイクロフォン１１０、第２のマイクロフォン１２０、またはそれらの組合せは、カメラデバイス１００２に含まれる。動作中、動的分類器１４０の動作を介してユーザスピーチとして識別されたバーバルコマンドを受信したことに応答して、カメラデバイス１００２は、例示的な例として、画像もしくはビデオキャプチャ設定、画像もしくはビデオ再生設定、または画像もしくはビデオキャプチャ命令を調整するためなどに、話されたユーザコマンドに応答して動作を実行することができる。カメラデバイス１００２は特徴抽出器１３０を含むものとして図示されているが、他の実装形態では、図１を参照しながら説明されたように、動的分類器１４０が第１のオーディオデータ１１６および第２のオーディオデータ１２６の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器１３０は省略される。

[0085] 図１１は、デバイス１０２が、仮想現実（「ＶＲ」）、拡張現実（「ＡＲ」）、または複合現実（「ＭＲ」）ヘッドセットデバイスなどの、エクステンデッドリアリティ（「ＸＲ」）ヘッドセット１１０２に対応するポータブル電子デバイスを含む実装形態１１００を示す。特徴抽出器１３０、動的分類器１４０、第１のマイクロフォン１１０、第２のマイクロフォン１２０、またはそれらの組合せは、ヘッドセット１１０２に統合される。特定の態様では、ヘッドセット１１０２は、ユーザのスピーチを主にキャプチャするように配置された第１のマイクロフォン１１０と、環境音を主にキャプチャするように配置された第２のマイクロフォン１２０とを含む。ユーザ音声アクティビティ検出は、ヘッドセット１１０２の第１のマイクロフォン１１０および第２のマイクロフォン１２０から受信されたオーディオ信号に基づいて実行され得る。ヘッドセット１１０２が装着されている間、拡張現実または仮想現実の画像またはシーンのユーザへの表示を可能にするために、視覚インターフェースデバイスが、ユーザの目の前に配置される。特定の例では、視覚インターフェースデバイスは、オーディオ信号内で検出されたユーザスピーチを示す通知を表示するように構成される。ヘッドセット１１０２は特徴抽出器１３０を含むものとして図示されているが、他の実装形態では、図１を参照しながら説明されたように、動的分類器１４０が第１のオーディオデータ１１６および第２のオーディオデータ１２６の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器１３０は省略される。

[0086] 図１２は、デバイス１０２が、有人もしくは無人の航空デバイス（たとえば、パッケージ配達ドローン）として図示されたビークル１２０２に対応するか、またはビークル１２０２内に統合される実装形態１２００を示す。特徴抽出器１３０、動的分類器１４０、第１のマイクロフォン１１０、第２のマイクロフォン１２０、またはそれらの組合せは、ビークル１２０２に統合される。ユーザ音声アクティビティ検出は、ビークル１２０２の許可されたユーザからの配達命令などについての、ビークル１２０２の第１のマイクロフォン１１０および第２のマイクロフォン１２０から受信されたオーディオ信号に基づいて実行され得る。ビークル１２０２は特徴抽出器１３０を含むものとして図示されているが、他の実装形態では、図１を参照しながら説明されたように、動的分類器１４０が第１のオーディオデータ１１６および第２のオーディオデータ１２６の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器１３０は省略される。

[0087] 図１３は、デバイス１０２が、車（car）として図示されるビークル１３０２に対応するか、またはビークル１３０２内に統合される、別の実装形態１３００を示す。ビークル１３０２は、特徴抽出器１３０と動的分類器１４０とを含むプロセッサ１９０を含む。ビークル１３０２は特徴抽出器１３０を含むものとして図示されているが、他の実装形態では、図１を参照しながら説明されたように、動的分類器１４０が第１のオーディオデータ１１６および第２のオーディオデータ１２６の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器１３０は省略される。ビークル１３０２はまた、第１のマイクロフォン１１０と第２のマイクロフォン１２０とを含む。第１のマイクロフォン１１０は、ビークル１３０２のオペレータ（operator）の発話をキャプチャするように配置される。ユーザ音声アクティビティ検出は、ビークル１３０２の第１のマイクロフォン１１０および第２のマイクロフォン１２０から受信されたオーディオ信号に基づいて実行され得る。いくつかの実装形態では、ユーザ音声アクティビティ検出は、許可された同乗者からの音声コマンド（voice command）などについての、内部マイクロフォン（たとえば、第１のマイクロフォン１１０および第２のマイクロフォン１２０）から受信されたオーディオ信号に基づいて実行され得る。たとえば、ユーザ音声アクティビティ検出は、ビークル１３０２のオペレータからの（たとえば、音量を５に設定するか、または自動運転ビークルの目的地を設定するための親からの）音声コマンドを検出し、別の同乗者の音声（たとえば、音量を１０に設定するための子供からの、または別のロケーションについて議論する他の同乗者からの音声コマンド）を無視するために使用され得る。いくつかの実装形態では、ユーザ音声アクティビティ検出は、ビークルの許可されたユーザなどの、外部マイクロフォン（たとえば、第１のマイクロフォン１１０および第２のマイクロフォン１２０）から受信されたオーディオ信号に基づいて実行され得る。特定の実装形態では、動的分類器１４０の動作を介してユーザスピーチとして識別されるバーバルコマンドを受信したことに応答して、音声アクティベーションシステム１６２は、ディスプレイ１３２０または１つもしくは複数のスピーカー（たとえば、スピーカー１３１０）を介してフィードバックまたは情報を提供することなどによって、出力信号１３５内で検出された１つまたは複数のキーワード（たとえば、「ロック解除」、「エンジン始動」、「音楽再生」、「天気予報の表示」、または別の音声コマンド）に基づいてビークル１３０２の１つまたは複数の動作を開始する。

[0088] 図１４Ａを参照すると、ユーザ音声アクティビティ検出の方法１４００の特定の実装形態が示されている。特定の態様では、方法１４００の１つまたは複数の動作は、図１の特徴抽出器１３０、動的分類器１４０、プロセッサ１９０、デバイス１０２、システム１００、またはそれらの組合せのうちの少なくとも１つによって実行される。

[0089] 方法１４００は、１４０２で、１つまたは複数のプロセッサにおいて、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することを含む。たとえば、図１の特徴抽出器１３０は、図１を参照しながら説明されたように、第１のマイクロフォン１１０の第１の出力に対応する第１のオーディオデータ１１６と、第２のマイクロフォン１２６の第２の出力に対応する第２のオーディオデータ１２６とを含むオーディオデータ１２８を受信する。

[0090] 方法１４００は、１４０４で、１つまたは複数のプロセッサにおいて、第１のオーディオデータと第２のオーディオデータとに基づいて特徴データを生成することを含む。たとえば、図１の特徴抽出器１３０は、図１を参照しながら説明されたように、第１のオーディオデータ１１６と第２のオーディオデータ１２６とに基づいて特徴データ１３２を生成する。別の例では、図１の動的分類器１４０などの動的分類器は、第１のオーディオデータ１１６と第２のオーディオデータ１２６とを受信し、第１のオーディオデータ１１６および第２のオーディオデータ１２６の処理中に特徴データ１３２を抽出するように構成される。

[0091] 方法１４００は、１４０６で、１つまたは複数のプロセッサの動的分類器において、特徴データの分類出力を生成することを含む。たとえば、図１の動的分類器１４０は、図１を参照しながら説明されたように、特徴データ１３２の分類出力１４２を生成する。

[0092] 方法１４００は、１４０８で、１つまたは複数のプロセッサにおいて、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することを含む。たとえば、図１のプロセッサ１９０は、図１を参照しながら説明されたように、分類出力１４２に少なくとも部分的に基づいて、オーディオデータ１２８がユーザ音声アクティビティに対応するかどうかを決定する。

[0093] 方法１４００は、従来の自己音声アクティビティ検出技法と比較して、比較的低い複雑度、低い電力消費量、および高い精度で、ユーザ音声アクティビティと他のオーディオアクティビティとを識別するために、動的分類器１４０を使用することによって、自己音声アクティビティ検出の性能を改善する。ユーザおよび環境の変化に自動的に適応することは、ユーザによって実行されるべき較正を低減または削除し、ユーザのエクスペリエンス（user's experience）を向上させることによって、改善された利益を提供する。

[0094] 図１４Ｂを参照すると、ユーザ音声アクティビティ検出の方法１４５０の特定の実装形態が示されている。特定の態様では、方法１４５０の１つまたは複数の動作は、図１の動的分類器１４０、プロセッサ１９０、デバイス１０２、システム１００、またはそれらの組合せのうちの少なくとも１つによって実行される。

[0095] 方法１４５０は、１４５２で、１つまたは複数のプロセッサにおいて、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することを含む。一例では、図１を参照しながら説明されたように、図１の特徴抽出器１３０は、第１のオーディオデータ１１６と、第２のマイクロフォン１２６の第２の出力に対応する第２のオーディオデータ１２６とを含むオーディオデータ１２８を受信する。

[0096] 方法１４５０は、１４５４で、１つまたは複数のプロセッサにおいて、オーディオデータに対応する分類出力を生成するために、オーディオデータを動的分類器に提供することを含む。一例では、図１の特徴抽出器１３０は、第１のオーディオデータ１１６と第２のオーディオデータ１２６とに基づいて特徴データ１３２を生成し、特徴データ１３２は、図１において説明されたように、図１４Ａの方法１４００に従って、分類出力１４２を生成するために動的分類器１４０によって処理される。別の例では、プロセッサ１９０は、第１のオーディオデータ１１６と第２のオーディオデータ１２６とを動的分類器１４０に提供し、動的分類器１４０は、分類出力１４２を生成するために第１のオーディオデータ１１６と第２のオーディオデータ１２６とを処理する。例示的な一実装形態では、動的分類器１４０は、特徴データ１３２を抽出するために第１のオーディオデータ１１６と第２のオーディオデータ１２６とを処理し、特徴データ１３２に基づいて分類出力１４２を決定する。

[0097] 方法１４５０は、１４５６で、１つまたは複数のプロセッサにおいて、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することを含む。たとえば、図１のプロセッサ１９０は、図１を参照しながら説明されたように、分類出力１４２に少なくとも部分的に基づいて、オーディオデータ１２８がユーザ音声アクティビティに対応するかどうかを決定する。

[0098] 方法１４５０は、従来の自己音声アクティビティ検出技法と比較して、比較的低い複雑度、低い電力消費量、および高い精度で、ユーザ音声アクティビティと他のオーディオアクティビティとを識別するために、動的分類器１４０を使用することによって、自己音声アクティビティ検出の性能を改善する。ユーザおよび環境の変化に自動的に適応することは、ユーザによって実行されるべき較正を低減または削除し、ユーザのエクスペリエンスを向上させることによって、改善された利益を提供する。

[0099] 図１４Ａの方法１４００、図１４Ｂの方法１４５０、またはそれらの組合せは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイス、特定用途向け集積回路（ＡＳＩＣ）、中央処理ユニット（ＣＰＵ）などの処理ユニット、ＤＳＰ、コントローラ、別のハードウェアデバイス、ファームウェアデバイス、またはそれらの任意の組合せによって実装され得る。一例として、図１４Ａの方法１４００、図１４Ｂの方法１４５０、またはそれらの組合せは、図１５を参照しながら説明された、命令を実行するプロセッサによって実行され得る。

[0100] 図１５を参照すると、デバイスの特定の例示的な実装形態のブロック図が示され、概して１５００と指定されている。様々な実装形態では、デバイス１５００は、図１５に図示されているものよりも多いまたは少ない構成要素を有することがある。例示的な実装形態では、デバイス１５００は、デバイス１０２に対応し得る。例示的な実装形態では、デバイス１５００は、図１～図１４Ｂを参照しながら説明された１つまたは複数の動作を実行し得る。

[0101] 特定の実装形態では、デバイス１５００は、プロセッサ１５０６（たとえば、中央処理ユニット（ＣＰＵ））を含む。デバイス１５００は、１つまたは複数の追加のプロセッサ１５１０（たとえば、１つまたは複数のＤＳＰ）を含み得る。特定の態様では、図１のプロセッサ１９０は、プロセッサ１５０６、プロセッサ１５１０、またはそれらの組合せに対応する。プロセッサ１５１０は、ボイスコーダ（「ボコーダ」）エンコーダ１５３６、ボコーダデコーダ１５３８、特徴抽出器１３０、動的分類器１４０、またはそれらの組合せを含む、スピーチおよび音楽コーダデコーダ（コーデック）１５０８を含み得る。

[0102] デバイス１５００は、メモリ１５８６とコーデック１５３４とを含み得る。メモリ１５８６は、特徴抽出器１３０、動的分類器１４０、またはその両方を参照しながら説明された機能を実装するために、１つまたは複数の追加のプロセッサ１５１０（またはプロセッサ１５０６）によって実行可能である命令１５５６を含み得る。デバイス１５００は、トランシーバ１５５０を介してアンテナ１５５２に結合されたモデム１７０を含み得る。

[0103] デバイス１５００は、ディスプレイコントローラ１５２６に結合されたディスプレイ１５２８を含み得る。スピーカー１５９２、第１のマイクロフォン１１０、および第２のマイクロフォン１２０は、コーデック１５３４に結合され得る。コーデック１５３４は、デジタルアナログ変換器（ＤＡＣ）１５０２、アナログデジタル変換器（ＡＤＣ）１５０４、またはその両方を含み得る。特定の実装形態では、コーデック１５３４は、第１のマイクロフォン１１０および第２のマイクロフォン１２０からアナログ信号を受信し、アナログデジタル変換器１５０４を使用してアナログ信号をデジタル信号に変換し、デジタル信号をスピーチおよび音楽コーデック１５０８に提供し得る。スピーチおよび音楽コーデック１５０８は、デジタル信号を処理することがあり、デジタル信号は、特徴抽出器１３０および動的分類器１４０によってさらに処理され得る。特定の実装形態では、スピーチおよび音楽コーデック１５０８は、デジタル信号をコーデック１５３４に提供し得る。コーデック１５３４は、デジタルアナログ変換器１５０２を使用してデジタル信号をアナログ信号に変換することがあり、アナログ信号をスピーカー１５９２に提供し得る。

[0104] 特定の実装形態では、デバイス１５００は、システムインパッケージまたはシステムオンチップデバイス１５２２に含まれ得る。特定の実装形態では、メモリ１５８６、プロセッサ１５０６、プロセッサ１５１０、ディスプレイコントローラ１５２６、コーデック１５３４、およびモデム１７０は、システムインパッケージまたはシステムオンチップデバイス１５２２に含まれる。特定の実装形態では、入力デバイス１５３０および電源１５４４は、システムオンチップデバイス１５２２に結合される。さらに、特定の実装形態では、図１５に示されているように、ディスプレイ１５２８、入力デバイス１５３０、スピーカー１５９２、第１のマイクロフォン１１０、第２のマイクロフォン１２０、アンテナ１５５２、および電源１５４４は、システムオンチップデバイス１５２２の外部にある。特定の実装形態では、ディスプレイ１５２８、入力デバイス１５３０、スピーカー１５９２、第１のマイクロフォン１１０、第２のマイクロフォン１２０、アンテナ１５５２、および電源１５４４の各々は、インターフェース（たとえば、第１の入力インターフェース１１４または第２の入力インターフェース１２４）またはコントローラなどの、システムオンチップデバイス１５２２の構成要素に結合され得る。

[0105] デバイス１５００は、スマートスピーカー、スピーカーバー、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、コンピュータ、タブレット、携帯情報端末、ディスプレイデバイス、テレビジョン、ゲームコンソール、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、デジタルビデオディスク（ＤＶＤ）プレーヤ、チューナー、カメラ、ナビゲーションデバイス、ビークル、ヘッドセット、拡張現実ヘッドセット、仮想現実ヘッドセット、航空ビークル、ホームオートメーションシステム、音声アクティブ化デバイス、ワイヤレススピーカーおよび音声アクティブ化デバイス、ポータブル電子デバイス、車、ビークル、コンピューティングデバイス、通信デバイス、モノのインターネット（ＩｏＴ）デバイス、仮想現実（ＶＲ）デバイス、基地局、モバイルデバイス、またはそれらの任意の組合せを含み得る。

[0106] 説明される実装形態と併せて、装置は、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信するための手段を含む。たとえば、受信するための手段は、第１の入力インターフェース１１４、第２の入力インターフェース１２４、特徴抽出器１３０、動的分類器１４０、プロセッサ１９０、１つもしくは複数のプロセッサ１５１０、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。

[0107] 本装置は、第１のオーディオデータと第２のオーディオデータとに基づいて特徴データを生成するための手段も含む。たとえば、特徴データを生成するための手段は、特徴抽出器１３０、動的分類器１４０、プロセッサ１９０、１つもしくは複数のプロセッサ１５１０、特徴データを生成するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。

[0108] 本装置は、動的分類器において、特徴データの分類出力を生成するための手段をさらに含む。たとえば、分類出力を生成するための手段は、動的分類器１４０、プロセッサ１９０、１つもしくは複数のプロセッサ１５１０、動的分類器において分類出力を生成するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。

[0109] 本装置は、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段も含む。たとえば、決定するための手段は、動的分類器１４０、プロセッサ１９０、１つもしくは複数のプロセッサ１５１０、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。

[0110] 説明される実装形態と併せて、装置は、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信するための手段を含む。たとえば、受信するための手段は、第１の入力インターフェース１１４、第２の入力インターフェース１２４、特徴抽出器１３０、動的分類器１４０、プロセッサ１９０、１つもしくは複数のプロセッサ１５１０、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。

[0111] 本装置は、動的分類器において、オーディオデータに対応する分類出力を生成するための手段をさらに含む。たとえば、分類出力を生成するための手段は、特徴抽出器１３０、動的分類器１４０、プロセッサ１９０、１つもしくは複数のプロセッサ１５１０、動的分類器において分類出力を生成するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。

[0112] 本装置は、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段も含む。たとえば、決定するための手段は、動的分類器１４０、プロセッサ１９０、１つもしくは複数のプロセッサ１５１０、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。

[0113] いくつかの実装形態では、非一時的コンピュータ可読媒体（たとえば、メモリ１５８６などのコンピュータ可読記憶デバイス）は、１つまたは複数のプロセッサ（たとえば、１つまたは複数のプロセッサ１５１０またはプロセッサ１５０６）によって実行されたとき、１つまたは複数のプロセッサに、第１のマイクロフォン（たとえば、第１のマイクロフォン１１０）の第１の出力に対応する第１のオーディオデータ（たとえば、第１のオーディオデータ１１６）と、第２のマイクロフォン（たとえば、第２のマイクロフォン１２０）の第２の出力に対応する第２のオーディオデータ（たとえば、第２のオーディオデータ１２６）とを含むオーディオデータ（たとえば、オーディオデータ１２８）を受信させる命令（たとえば、命令１５５６）を含む。命令はまた、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、オーディオデータに対応する分類出力（たとえば、分類出力１４２）を生成するために、オーディオデータを動的分類器（たとえば、動的分類器１４０）に提供させる。一例では、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、第１のオーディオデータと第２のオーディオデータとに基づいて特徴データ（たとえば、特徴データ１３２）を生成することと、動的分類器において特徴データを処理することとを行わせる。命令はまた、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定させる。

[0114] 本開示は、以下の例を含む。

[0115] 例１．第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することと、第１のオーディオデータと第２のオーディオデータとに基づいて特徴データを生成することと、特徴データの分類出力を生成するために動的分類器において特徴データを処理することと、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを行うように構成された１つまたは複数のプロセッサを備えるデバイス。

[0116] 例２．第１のマイクロフォンと第２のマイクロフォンとをさらに備え、第１のマイクロフォンは、１つまたは複数のプロセッサに結合され、ユーザの発話をキャプチャするように構成され、第２のマイクロフォンは、１つまたは複数のプロセッサに結合され、周囲音をキャプチャするように構成される、例１のデバイス。

[0117] 例３．特徴データは、第１のオーディオデータと第２のオーディオデータとの間の少なくとも１つの両耳間位相差と、第１のオーディオデータと第２のオーディオデータとの間の少なくとも１つの両耳間強度差とを含む、例１のデバイス。

[0118] 例４．１つまたは複数のプロセッサは、特徴データを生成する前に、第１のオーディオデータと第２のオーディオデータとを変換領域に変換するようにさらに構成され、特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、例３のデバイス。

[0119] 例５．動的分類器は、オーディオデータ内で表される音（sound）が、第２のマイクロフォンよりも第１のマイクロフォンに近いソース（source）から発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化するように構成される、例１のデバイス。

[0120] 例６．１つまたは複数のプロセッサは、特徴データに基づいて動的分類器のクラスタ化動作を更新するようにさらに構成される、例１のデバイス。

[0121] 例７．１つまたは複数のプロセッサは、動的分類器の分類決定基準を更新するようにさらに構成される、例１のデバイス。

[0122] 例８．動的分類器は、自己組織化マップを含む、例１のデバイス。

[0123] 例９．動的分類器は、特徴データのセットのシーケンスを受信し、シーケンス内の特徴データの以前のセットに少なくとも部分的に基づいてシーケンスのセットを適応的にクラスタ化するようにさらに構成される、例１のデバイス。

[0124] 例１０．１つまたは複数のプロセッサは、特徴データの少なくとも１つの値の符号または大きさのうちの少なくとも１つにさらに基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するように構成される、例１のデバイス。

[0125] 例１１．１つまたは複数のプロセッサは、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始するようにさらに構成される、例１のデバイス。

[0126] 例１２．１つまたは複数のプロセッサは、音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも１つを生成するように構成される、例１１のデバイス。

[0127] 例１３．１つまたは複数のプロセッサは、動的分類器を含む常時接続電力ドメインと、音声コマンド処理ユニットを含む第２の電力ドメインとをさらに含み、起動信号は、音声コマンド処理ユニットをアクティブ化するために、第２の電力ドメインを低電力モードから遷移させるように構成される、例１２のデバイス。

[0128] 例１４．１つまたは複数のプロセッサに結合されたモデムをさらに備え、モデムは、動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第２のデバイスに送信するように構成される、例１のデバイス。

[0129] 例１５．１つまたは複数のプロセッサは、第１のマイクロフォンと第２のマイクロフォンとを含むヘッドセットデバイスに統合され、ヘッドセットデバイスは、ユーザによって装着されたとき、第１のマイクロフォンにおいて、第２のマイクロフォンと比較してより大きい強度およびより少ない遅延でユーザの発話をキャプチャするために、第１のマイクロフォンを第２のマイクロフォンよりもユーザの口の近くに配置するように構成される、例１のデバイス。

[0130] 例１６．１つまたは複数のプロセッサは、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、または拡張現実ヘッドセットのうちの少なくとも１つに統合される、例１のデバイス。

[0131] 例１７．１つまたは複数のプロセッサは、ビークルに統合され、ビークルは、第１のマイクロフォンと第２のマイクロフォンとをさらに含み、第１のマイクロフォンは、ビークルのオペレータの発話をキャプチャするように配置される、例１のデバイス。

[0132] 例１８．音声アクティビティ検出の方法であって、１つまたは複数のプロセッサにおいて、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することと、１つまたは複数のプロセッサにおいて、第１のオーディオデータと第２のオーディオデータとに基づいて特徴データを生成することと、１つまたは複数のプロセッサの動的分類器において、特徴データの分類出力を生成することと、１つまたは複数のプロセッサにおいて、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを備える方法。

[0133] 例１９．第１のマイクロフォンは、ユーザの発話をキャプチャするように構成され、第２のマイクロフォンは、周囲音をキャプチャするように構成される、例１８の方法。

[0134] 例２０．特徴データは、第１のオーディオデータと第２のオーディオデータとの間の少なくとも１つの両耳間位相差と、第１のオーディオデータと第２のオーディオデータとの間の少なくとも１つの両耳間強度差とを含む、例１８の方法。

[0135] 例２１．特徴データを生成する前に、第１のオーディオデータと第２のオーディオデータとを変換領域に変換することをさらに備え、特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、例２０の方法。

[0136] 例２２．動的分類器によって、オーディオデータ内で表される音が、第２のマイクロフォンよりも第１のマイクロフォンに近いソースから発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化することをさらに備える、例１８の方法。

[0137] 例２３．特徴データに基づいて動的分類器のクラスタ化動作を更新することをさらに備える、例１８の方法。

[0138] 例２４．動的分類器の分類決定基準を更新することをさらに備える、例１８の方法。

[0139] 例２５．動的分類器は、自己組織化マップを含む、例１８の方法。

[0140] 例２６．動的分類器において、特徴データのセットのシーケンスを受信することと、シーケンス内の特徴データの以前のセットに少なくとも部分的に基づいてシーケンスのセットを適応的にクラスタ化することとをさらに備える、例１８の方法。

[0141] 例２７．オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することは、特徴データの少なくとも１つの値の符号または大きさのうちの少なくとも１つにさらに基づく、例１８の方法。

[0142] 例２８．オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始することをさらに備える、例１８の方法。

[0143] 例２９．音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも１つを生成することをさらに備える、例２８の方法。

[0144] 例３０．起動信号は、音声コマンド処理動作を開始するために、電力ドメイン（power domain）を低電力モードから遷移させるように構成される、例２９の方法。

[0145] 例３１．動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第２のデバイスに送信することをさらに備える、例１８の方法。

[0146] 例３２．１つまたは複数のプロセッサは、第１のマイクロフォンと第２のマイクロフォンとを含むヘッドセットデバイスに統合され、ヘッドセットデバイスは、ユーザによって装着されたとき、第１のマイクロフォンにおいて、第２のマイクロフォンと比較してより大きい強度およびより少ない遅延でユーザの発話をキャプチャするために、第１のマイクロフォンを第２のマイクロフォンよりもユーザの口の近くに配置する、例１８の方法。

[0147] 例３３．１つまたは複数のプロセッサは、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、拡張現実ヘッドセット、またはビークルのうちの少なくとも１つに統合される、例１８の方法。

[0148] 例３４．命令を備える非一時的コンピュータ可読媒体であって、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することと、第１のオーディオデータと第２のオーディオデータとに基づいて特徴データを生成することと、特徴データの分類出力を生成するために動的分類器において特徴データを処理することと、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを行わせる、非一時的コンピュータ可読媒体。

[0149] 例３５．第１のマイクロフォンは、ユーザの発話をキャプチャするように構成され、第２のマイクロフォンは、周囲音をキャプチャするように構成される、例３４の非一時的コンピュータ可読媒体。

[0150] 例３６．特徴データは、第１のオーディオデータと第２のオーディオデータとの間の少なくとも１つの両耳間位相差と、第１のオーディオデータと第２のオーディオデータとの間の少なくとも１つの両耳間強度差とを含む、例３４の非一時的コンピュータ可読媒体。

[0151] 例３７．命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサにさらに、特徴データを生成する前に、第１のオーディオデータと第２のオーディオデータとを変換領域に変換させ、特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、例３４の非一時的コンピュータ可読媒体。

[0152] 例３８．命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサにさらに、動的分類器によって、オーディオデータ内で表される音が、第２のマイクロフォンよりも第１のマイクロフォンに近いソースから発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化させる、例３４の非一時的コンピュータ可読媒体。

[0153] 例３９．命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサにさらに、特徴データに基づいて動的分類器のクラスタ化動作を更新させる、例３４の非一時的コンピュータ可読媒体。

[0154] 例４０．命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサにさらに、動的分類器の分類決定基準を更新させる、例３４の非一時的コンピュータ可読媒体。

[0155] 例４１．動的分類器は、自己組織化マップを含む、例３４の非一時的コンピュータ可読媒体。

[0156] 例４２．命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、動的分類器において、特徴データのセットのシーケンスを受信することと、シーケンス内の特徴データの以前のセットに少なくとも部分的に基づいてシーケンスのセットを適応的にクラスタ化することとをさらに行わせる、例３４の非一時的コンピュータ可読媒体。

[0157] 例４３．オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することは、特徴データの少なくとも１つの値の符号または大きさのうちの少なくとも１つにさらに基づく、例３４の非一時的コンピュータ可読媒体。

[0158] 例４４．命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサにさらに、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始させる、例３４の非一時的コンピュータ可読媒体。

[0159] 例４５．命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサにさらに、音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも１つを生成させる、例３４の非一時的コンピュータ可読媒体。

[0160] 例４６．起動信号は、音声コマンド処理動作を開始するために、電力ドメインを低電力モードから遷移させるように構成される、例４５の非一時的コンピュータ可読媒体。

[0161] 例４７．命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサにさらに、動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第２のデバイスに送信させる、例３４の非一時的コンピュータ可読媒体。

[0162] 例４８．１つまたは複数のプロセッサは、第１のマイクロフォンと第２のマイクロフォンとを含むヘッドセットデバイスに統合され、ヘッドセットデバイスは、ユーザによって装着されたとき、第１のマイクロフォンにおいて、第２のマイクロフォンと比較してより大きい強度およびより少ない遅延でユーザの発話をキャプチャするために、第１のマイクロフォンを第２のマイクロフォンよりもユーザの口の近くに配置する、例３４の非一時的コンピュータ可読媒体。

[0163] 例４９．１つまたは複数のプロセッサは、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、拡張現実ヘッドセット、またはビークルのうちの少なくとも１つに統合される、例３４の非一時的コンピュータ可読媒体。

[0164] 例５０．第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信するための手段と、第１のオーディオデータと第２のオーディオデータとに基づいて特徴データを生成するための手段と、動的分類器において特徴データの分類出力を生成するための手段と、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段とを備える装置。

[0165] 例５１．特徴データは、第１のオーディオデータと第２のオーディオデータとの間の少なくとも１つの両耳間位相差と、第１のオーディオデータと第２のオーディオデータとの間の少なくとも１つの両耳間強度差とを含む、例５０の装置。

[0166] 例５２．特徴データの生成前に、第１のオーディオデータと第２のオーディオデータとを変換領域に変換するための手段をさらに備え、特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、例５０の装置。

[0167] 例５３．オーディオデータ内で表される音が、第２のマイクロフォンよりも第１のマイクロフォンに近いソースから発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化するための手段をさらに備える、例５０の装置。

[0168] 例５４．特徴データに基づいて動的分類器のクラスタ化動作を更新するための手段をさらに備える、例５０の装置。

[0169] 例５５．動的分類器の分類決定基準を更新するための手段をさらに備える、例５０の装置。

[0170] 例５６．動的分類器は、自己組織化マップを含む、例５０の装置。

[0171] 例５７．オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始するための手段をさらに備える、例５０の装置。

[0172] 例５８．音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも１つを生成するための手段をさらに備える、例５０の装置。

[0173] 例５９．動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第２のデバイスに送信するための手段をさらに備える、例５０の装置。

[0174] 例６０．オーディオデータを受信するための手段、特徴データを生成するための手段、分類出力を生成するための手段、およびオーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段は、第１のマイクロフォンと第２のマイクロフォンとを含むヘッドセットデバイスに統合され、ヘッドセットデバイスは、ユーザによって装着されたとき、第１のマイクロフォンにおいて、第２のマイクロフォンと比較してより大きい強度およびより少ない遅延でユーザの発話をキャプチャするために、第１のマイクロフォンを第２のマイクロフォンよりもユーザの口の近くに配置する、例５０の装置。

[0175] 例６１．オーディオデータを受信するための手段、特徴データを生成するための手段、分類出力を生成するための手段、およびオーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段は、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、拡張現実ヘッドセット、またはビークルのうちの少なくとも１つに統合される、例５０の装置。

[0176] 例６２．命令を記憶するように構成されたメモリと、１つまたは複数のプロセッサとを含み、１つまたは複数のプロセッサは、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することと、オーディオデータに対応する分類出力を生成するように構成された動的分類器にオーディオデータを提供することと、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを行うために命令を実行するように構成された、デバイス。

[0177] 例６３．第１のマイクロフォンと第２のマイクロフォンとをさらに含み、第１のマイクロフォンは、１つまたは複数のプロセッサに結合され、ユーザの発話をキャプチャするように構成され、第２のマイクロフォンは、１つまたは複数のプロセッサに結合され、周囲音をキャプチャするように構成される、例６２のデバイス。

[0178] 例６４．分類出力は、第１のオーディオデータと第２のオーディオデータとの間の利得差（gain difference）、第１のオーディオデータと第２のオーディオデータとの間の位相差、またはそれらの組合せに基づく、例６２または６３のデバイス。

[0179] 例６５．１つまたは複数のプロセッサは、第１のオーディオデータと第２のオーディオデータとに基づいて特徴データを生成し、特徴データを動的分類器に提供するようにさらに構成され、ここにおいて、分類出力は特徴データに基づく、例６２から６４のいずれか１つのデバイス。

[0180] 例６６．特徴データは、第１のオーディオデータと第２のオーディオデータとの間の少なくとも１つの両耳間位相差と、第１のオーディオデータと第２のオーディオデータとの間の少なくとも１つの両耳間強度差とを含む、例６５のデバイス。

[0181] 例６７．１つまたは複数のプロセッサは、特徴データの少なくとも１つの値の符号または大きさのうちの少なくとも１つにさらに基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するように構成される、例６５または６６のデバイス。

[0182] 例６８．１つまたは複数のプロセッサは、特徴データを生成する前に、第１のオーディオデータと第２のオーディオデータとを変換領域に変換するようにさらに構成され、特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、例６５から６７のいずれか１つのデバイス。

[0183] 例６９．動的分類器は、オーディオデータ内で表される音が、第２のマイクロフォンよりも第１のマイクロフォンに近いソースから発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化するように構成される、例６５から６８のいずれか１つのデバイス。

[0184] 例７０．１つまたは複数のプロセッサは、オーディオデータに基づいて動的分類器のクラスタ化動作を更新するようにさらに構成される、例６２から６９のいずれか１つのデバイス。

[0185] 例７１．１つまたは複数のプロセッサは、動的分類器の分類決定基準を更新するようにさらに構成される、例６２から７０のいずれか１つのデバイス。

[0186] 例７２．動的分類器は、自己組織化マップを含む、例６２から７１のいずれか１つのデバイス。

[0187] 例７３．動的分類器は、オーディオデータのセットのシーケンスを受信し、シーケンス内のオーディオデータの以前のセットに少なくとも部分的に基づいてシーケンスのセットを適応的にクラスタ化するようにさらに構成される、例６２から７２のいずれか１つのデバイス。

[0188] 例７４．１つまたは複数のプロセッサは、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始するようにさらに構成される、例６２から７３のいずれか１つのデバイス。

[0189] 例７５．１つまたは複数のプロセッサは、音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも１つを生成するように構成される、例７４のデバイス。

[0190] 例７６．１つまたは複数のプロセッサは、動的分類器を含む常時接続電力ドメインと、音声コマンド処理ユニットを含む第２の電力ドメインとをさらに含み、起動信号は、音声コマンド処理ユニットをアクティブ化するために、第２の電力ドメインを低電力モードから遷移させるように構成される、例７５のデバイス。

[0191] 例７７．１つまたは複数のプロセッサに結合されたモデムをさらに備え、モデムは、動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第２のデバイスに送信するように構成される、例６２から７６のいずれか１つのデバイス。

[0192] 例７８．１つまたは複数のプロセッサは、第１のマイクロフォンと第２のマイクロフォンとを含むヘッドセットデバイスに統合され、ヘッドセットデバイスは、ユーザによって装着されたとき、第１のマイクロフォンにおいて、第２のマイクロフォンと比較してより大きい強度およびより少ない遅延でユーザの発話をキャプチャするために、第１のマイクロフォンを第２のマイクロフォンよりもユーザの口の近くに配置するように構成される、例６２から７７のいずれか１つのデバイス。

[0193] 例７９．１つまたは複数のプロセッサは、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、または拡張現実ヘッドセットのうちの少なくとも１つに統合される、例６２から７７のいずれか１つのデバイス。

[0194] 例８０．１つまたは複数のプロセッサは、ビークルに統合され、ビークルは、第１のマイクロフォンと第２のマイクロフォンとをさらに含み、第１のマイクロフォンは、ビークルのオペレータの発話をキャプチャするように配置される、例６２から７７のいずれか１つのデバイス。

[0195] 例８１．音声アクティビティ検出の方法であって、１つまたは複数のプロセッサにおいて、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することと、１つまたは複数のプロセッサにおいて、オーディオデータに対応する分類出力を生成するためにオーディオデータを動的分類器に提供することと、１つまたは複数のプロセッサにおいて、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを含む、方法。

[0196] 例８２．分類出力は、第１のオーディオデータと第２のオーディオデータとの間の利得差、第１のオーディオデータと第２のオーディオデータとの間の位相差、またはそれらの組合せに基づく、例８１の方法。

[0197] 例８３．動的分類器は、自己組織化マップを含む、例８１または８２の方法。

[0198] 例８４．オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することは、オーディオデータに対応する特徴データの少なくとも１つの値の符号または大きさのうちの少なくとも１つにさらに基づく、例８１から８３のいずれか１つの方法。

[0199] 例８５．オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始することをさらに含む、例８１から８４のいずれか１つの方法。

[0200] 例８６．音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも１つを生成することをさらに含む、例８５の方法。

[0201] 例８７．動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第２のデバイスに送信することをさらに含む、例８１から８６のいずれか１つの方法。

[0202] 例８８．命令を含む非一時的コンピュータ可読媒体であって、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することと、オーディオデータに対応する分類出力を生成するためにオーディオデータを動的分類器に提供することと、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを行わせる、非一時的コンピュータ可読媒体。

[0203] 例８９．分類出力は、第１のオーディオデータと第２のオーディオデータとの間の利得差、第１のオーディオデータと第２のオーディオデータとの間の位相差、またはそれらの組合せに基づく、例８８の非一時的コンピュータ可読媒体。

[0204] 例９０．第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信するための手段と、動的分類器において、オーディオデータに対応する分類出力を生成するための手段と、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段とを含む装置。

[0205] 例９１．分類出力は、第１のオーディオデータと第２のオーディオデータとの間の利得差、第１のオーディオデータと第２のオーディオデータとの間の位相差、またはそれらの組合せに基づく、例９０の装置。

[0206] 本明細書で開示される実装形態に関して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者はさらに諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップが、概してそれらの機能に関して上記で説明されてきた。そのような機能がハードウェアまたはプロセッサ実行可能命令として実装されるかどうかは、特定の適用例と全体的なシステムに課された設計制約とに依存する。当業者は、説明された機能を特定の適用例ごとに様々な方法で実装し得、そのような実装形態の決定は、本開示の範囲からの逸脱を起こすものと解釈されるべきではない。

[0207] 本明細書で開示された実装形態に関して説明された方法またはアルゴリズムのステップは、直接ハードウェアで具現化されるか、プロセッサによって実行されるソフトウェアモジュールで具現化されるか、またはその２つの組合せで具現化され得る。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読取り専用メモリ（ＲＯＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、または当技術分野で知られている任意の他の形態の非一時的記憶媒体中に存在し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体であり得る。プロセッサおよび記憶媒体は、特定用途向け集積回路（ＡＳＩＣ）中に存在し得る。ＡＳＩＣは、コンピューティングデバイスまたはユーザ端末中に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末中に個別構成要素として存在し得る。

[0208] 開示される態様の上記の説明は、開示される態様を当業者が作成または使用することを可能にするために与えられた。これらの態様への様々な変更は当業者には容易に明らかになり、本明細書で定義された原理は本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲を与えられるべきである。

Claims

命令を記憶するように構成されたメモリと、
１つまたは複数のプロセッサとを備え、前記１つまたは複数のプロセッサは、
第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することと、
前記オーディオデータを動的分類器に提供することと、前記動的分類器は、前記オーディオデータに対応する分類出力を生成するように構成される、
前記分類出力に少なくとも部分的に基づいて、前記オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することと
を行うために前記命令を実行するように構成される、デバイス。
前記第１のマイクロフォンと前記第２のマイクロフォンとをさらに備え、前記第１のマイクロフォンは、前記１つまたは複数のプロセッサに結合され、ユーザの発話をキャプチャするように構成され、前記第２のマイクロフォンは、前記１つまたは複数のプロセッサに結合され、周囲音をキャプチャするように構成される、請求項１に記載のデバイス。
前記分類出力は、前記第１のオーディオデータと前記第２のオーディオデータとの間の利得差、前記第１のオーディオデータと前記第２のオーディオデータとの間の位相差、またはそれらの組合せに基づく、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記第１のオーディオデータと前記第２のオーディオデータとに基づいて特徴データを生成するようにさらに構成され、ここにおいて、前記オーディオデータは、前記特徴データとして前記動的分類器に提供され、前記分類出力は、前記特徴データに基づく、請求項１に記載のデバイス。
前記特徴データは、
前記第１のオーディオデータと前記第２のオーディオデータとの間の少なくとも１つの両耳間位相差と、
前記第１のオーディオデータと前記第２のオーディオデータとの間の少なくとも１つの両耳間強度差と
を含む、請求項４に記載のデバイス。
前記１つまたは複数のプロセッサは、前記特徴データの少なくとも１つの値の符号または大きさのうちの少なくとも１つにさらに基づいて、前記オーディオデータが前記ユーザ音声アクティビティに対応するかどうかを決定するように構成される、請求項４に記載のデバイス。
前記１つまたは複数のプロセッサは、前記特徴データを生成する前に、前記第１のオーディオデータと前記第２のオーディオデータとを変換領域に変換するようにさらに構成され、前記特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、請求項４に記載のデバイス。
前記動的分類器は、前記オーディオデータ内で表される音が、前記第２のマイクロフォンよりも前記第１のマイクロフォンに近いソースから発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化するように構成される、請求項４に記載のデバイス。
前記１つまたは複数のプロセッサは、前記オーディオデータに基づいて前記動的分類器のクラスタ化動作を更新するようにさらに構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記動的分類器の分類決定基準を更新するようにさらに構成される、請求項１に記載のデバイス。
前記動的分類器は、自己組織化マップを含む、請求項１に記載のデバイス。
前記動的分類器は、オーディオデータのセットのシーケンスを受信し、前記シーケンス内のオーディオデータの以前のセットに少なくとも部分的に基づいて前記シーケンスのセットを適応的にクラスタ化するようにさらに構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記オーディオデータが前記ユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始するようにさらに構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも１つを生成するように構成される、請求項１３に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記動的分類器を含む常時接続電力ドメインと、
音声コマンド処理ユニットを含む第２の電力ドメインと、ここにおいて、前記起動信号は、前記音声コマンド処理ユニットをアクティブ化するために前記第２の電力ドメインを低電力モードから遷移させるように構成される、
をさらに含む、請求項１４に記載のデバイス。
前記１つまたは複数のプロセッサに結合されたモデムをさらに備え、前記モデムは、前記動的分類器に基づいた、前記オーディオデータが前記ユーザ音声アクティビティに対応するという決定に応答して、前記オーディオデータを第２のデバイスに送信するように構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記第１のマイクロフォンと前記第２のマイクロフォンとを含むヘッドセットデバイスに統合され、前記ヘッドセットデバイスは、ユーザによって装着されたとき、前記第１のマイクロフォンにおいて、前記第２のマイクロフォンと比較してより大きい強度およびより少ない遅延で前記ユーザの発話をキャプチャするために、前記第１のマイクロフォンを前記第２のマイクロフォンよりも前記ユーザの口の近くに配置するように構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、または拡張現実ヘッドセットのうちの少なくとも１つに統合される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、ビークルに統合され、前記ビークルは、前記第１のマイクロフォンと前記第２のマイクロフォンとをさらに含み、前記第１のマイクロフォンは、前記ビークルのオペレータの発話をキャプチャするように配置される、請求項１に記載のデバイス。
音声アクティビティ検出の方法であって、
１つまたは複数のプロセッサにおいて、第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することと、
前記１つまたは複数のプロセッサにおいて、前記オーディオデータに対応する分類出力を生成するために、前記オーディオデータを動的分類器に提供することと、
前記１つまたは複数のプロセッサにおいて、前記分類出力に少なくとも部分的に基づいて、前記オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することと
を備える、方法。
前記分類出力は、前記第１のオーディオデータと前記第２のオーディオデータとの間の利得差、前記第１のオーディオデータと前記第２のオーディオデータとの間の位相差、またはそれらの組合せに基づく、請求項２０に記載の方法。
前記動的分類器は、自己組織化マップを含む、請求項２０に記載の方法。
前記オーディオデータが前記ユーザ音声アクティビティに対応するかどうかを決定することは、前記オーディオデータに対応する特徴データの少なくとも１つの値の符号または大きさのうちの少なくとも１つにさらに基づく、請求項２０に記載の方法。
前記オーディオデータが前記ユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始することをさらに備える、請求項２０に記載の方法。
前記音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも１つを生成することをさらに備える、請求項２４に記載の方法。
前記動的分類器に基づいた、前記オーディオデータが前記ユーザ音声アクティビティに対応するという決定に応答して、前記オーディオデータを第２のデバイスに送信することをさらに備える、請求項２０に記載の方法。
命令を備える非一時的コンピュータ可読媒体であって、前記命令は、１つまたは複数のプロセッサによって実行されたとき、前記１つまたは複数のプロセッサに、
第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信することと、
前記オーディオデータに対応する分類出力を生成するために、前記オーディオデータを動的分類器に提供することと、
前記分類出力に少なくとも部分的に基づいて、前記オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することと
を行わせる、非一時的コンピュータ可読媒体。
前記分類出力は、前記第１のオーディオデータと前記第２のオーディオデータとの間の利得差、前記第１のオーディオデータと前記第２のオーディオデータとの間の位相差、またはそれらの組合せに基づく、請求項２７に記載の非一時的コンピュータ可読媒体。
第１のマイクロフォンの第１の出力に対応する第１のオーディオデータと、第２のマイクロフォンの第２の出力に対応する第２のオーディオデータとを含むオーディオデータを受信するための手段と、
動的分類器において、前記オーディオデータに対応する分類出力を生成するための手段と、
前記分類出力に少なくとも部分的に基づいて、前記オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段と
を備える装置。
前記分類出力は、前記第１のオーディオデータと前記第２のオーディオデータとの間の利得差、前記第１のオーディオデータと前記第２のオーディオデータとの間の位相差、またはそれらの組合せに基づく、請求項２９に記載の装置。