JP2023545981A - 動的分類器を使用したユーザ音声アクティビティ検出 - Google Patents
動的分類器を使用したユーザ音声アクティビティ検出 Download PDFInfo
- Publication number
- JP2023545981A JP2023545981A JP2023520368A JP2023520368A JP2023545981A JP 2023545981 A JP2023545981 A JP 2023545981A JP 2023520368 A JP2023520368 A JP 2023520368A JP 2023520368 A JP2023520368 A JP 2023520368A JP 2023545981 A JP2023545981 A JP 2023545981A
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- microphone
- processors
- dynamic classifier
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 169
- 238000001514 detection method Methods 0.000 title claims description 41
- 238000000034 method Methods 0.000 claims description 81
- 238000012545 processing Methods 0.000 claims description 68
- 230000004913 activation Effects 0.000 claims description 37
- 230000004044 response Effects 0.000 claims description 25
- 230000003190 augmentative effect Effects 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 7
- 230000000977 initiatory effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 23
- 239000013598 vector Substances 0.000 description 18
- 230000005236 sound signal Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 230000001976 improved effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001242 postsynaptic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 102100024184 Polymerase delta-interacting protein 3 Human genes 0.000 description 1
- 101710142722 Polymerase delta-interacting protein 3 Proteins 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000003518 presynaptic effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3287—Power saving characterised by the action undertaken by switching off individual functional units in the computer system
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/028—Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/07—Applications of wireless loudspeakers or wireless microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
- Emergency Alarm Devices (AREA)
- Traffic Control Systems (AREA)
- Power Sources (AREA)
- Telephone Function (AREA)
Abstract
デバイスは、命令を記憶するように構成されたメモリと、命令を実行するように構成された1つまたは複数のプロセッサとを含む。1つまたは複数のプロセッサは、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信するための命令を実行するように構成される。1つまたは複数のプロセッサはまた、オーディオデータを動的分類器に提供するための命令を実行するように構成される。動的分類器は、オーディオデータに対応する分類出力を生成するように構成される。1つまたは複数のプロセッサは、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための命令を実行するようにさらに構成される。
Description
関連出願の相互参照
[0001] 本出願は、同一出願人が所有する、2020年10月8日に出願された米国仮特許出願第63/089,507号、および2021年5月5日に出願された米国非仮特許出願第17/308,593号の優先権の利益を主張し、それらの内容全体が参照により本明細書に明確に組み込まれる。
[0001] 本出願は、同一出願人が所有する、2020年10月8日に出願された米国仮特許出願第63/089,507号、および2021年5月5日に出願された米国非仮特許出願第17/308,593号の優先権の利益を主張し、それらの内容全体が参照により本明細書に明確に組み込まれる。
[0002] 本開示は、概して、自己音声アクティビティ検出(self-voice activity detection)に関する。
[0003] 技術の進歩は、より小型でより強力なコンピューティングデバイスをもたらした。たとえば、現在、小型で軽量の、ユーザ(user)によって容易に持ち運ばれる、モバイルフォン(mobile phone)およびスマートフォンなどのワイヤレス電話と、タブレットと、ラップトップコンピュータとを含む、様々なポータブルパーソナルコンピューティングデバイスが存在する。これらのデバイスは、ワイヤレスネットワークを介して音声とデータパケットとを通信することができる。さらに、多くのそのようなデバイスは、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤなど、追加の機能を組み込む。また、そのようなデバイスは、インターネットにアクセスするために使用され得る、ウェブブラウザアプリケーションなど、ソフトウェアアプリケーションを含む、実行可能な命令(instruction)を処理することができる。したがって、これらのデバイスは、かなりの計算能力を含み得る。
[0004] そのようなコンピューティングデバイスは、しばしば、1つまたは複数のマイクロフォン(microphone)からオーディオ信号(audio signal)を受信するための機能を組み込む。たとえば、オーディオ信号は、マイクロフォンによってキャプチャされたユーザスピーチ(user speech)、マイクロフォンによってキャプチャされた外部音(external sound)、またはそれらの組合せを表し得る。例示のために、ヘッドセットデバイス(headset device)は、ユーザのスピーチ(たとえば、ヘッドセットを装着する人によって話されるスピーチ)と他のソース(source)から発生したスピーチとを区別しようとする自己音声アクティビティ検出を含み得る。たとえば、ヘッドセットデバイスを含むシステムがキーワードアクティベーションをサポートするとき、自己音声アクティビティ検出は、近くの人々から発生したスピーチ(「非ユーザスピーチ(non-user speech)」と呼ばれる)に基づいて1つまたは複数の構成要素または動作のアクティベーションが開始される「フォールスアラーム(false alarm)」を低減することができる。そのようなフォールスアラームを低減することは、デバイスの電力消費効率を改善する。しかしながら、ユーザスピーチと非ユーザスピーチとを区別するためにオーディオ信号処理を実行することは電力も消費し、ユーザスピーチと非ユーザスピーチとを区別する際のデバイスの精度を改善するための従来の技法は、デバイスの電力消費量および処理リソース要件も増加させる傾向がある。
[0005] 本開示の一実装形態によれば、デバイス(device)は、命令を記憶するように構成されたメモリ(memory)と、命令を実行するように構成された1つまたは複数のプロセッサ(processor)とを含む。1つまたは複数のプロセッサは、第1のマイクロフォン(first microphone)の第1の出力(first output)に対応する第1のオーディオデータ(first audio data)と、第2のマイクロフォン(second microphone)の第2の出力(second output)に対応する第2のオーディオデータ(second audio data)とを含むオーディオデータ(audio data)を受信するための命令を実行するように構成される。1つまたは複数のプロセッサはまた、オーディオデータを動的分類器(dynamic classifier)に提供するための命令を実行するように構成される。動的分類器は、オーディオデータに対応する分類出力(classification output)を生成するように構成される。1つまたは複数のプロセッサは、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティ(user voice activity)に対応するかどうかを決定するための命令を実行するようにさらに構成される。
[0006] 本開示の別の実装形態によれば、方法は、1つまたは複数のプロセッサにおいて、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することを含む。本方法は、1つまたは複数のプロセッサにおいて、オーディオデータに対応する分類出力を生成するために、オーディオデータを動的分類器に提供することをさらに含む。本方法は、1つまたは複数のプロセッサにおいて、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することも含む。
[0007] 本開示の別の実装形態によれば、非一時的コンピュータ可読媒体(non-transitory computer-readable medium)は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信させる命令を含む。命令はさらに、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、オーディオデータに対応する分類出力を生成するために、オーディオデータを動的分類器に提供させる。命令はまた、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定させる。
[0008] 本開示の別の実装形態によれば、装置は、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信するための手段を含む。本装置は、動的分類器において、オーディオデータに対応する分類出力を生成するための手段をさらに含む。本装置は、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段も含む。
[0009] 本開示の他の態様、利点、および特徴は、以下のセクションを含む本出願全体を検討すれば、明らかになるであろう。
[0026] 1つまたは複数の構成要素または動作のアクティベーションが非ユーザスピーチから生じる「フォールスアラーム」を低減する自己音声アクティビティ検出(「SVAD:self-voice activity detection」)は、フォールスアラームが検出されたとき、そのような構成要素または動作のアクティベーションを防止することによって、デバイスの電力消費効率を改善することができる。しかしながら、SVAD精度を改善するための従来のオーディオ信号処理技法はまた、精度改善技法を実行しながら、デバイスの電力消費量と処理リソースとを増加させる。SVAD処理は、典型的には、デバイスが低電力モード(low-power mode)またはスリープモード(sleep mode)である間でも、継続的に動作しているので、従来のSVAD技法を使用してフォールスアラームを低減することによる電力消費量の低減は、SVAD処理自体に関連する電力消費量の増加によって部分的にまたは完全に相殺され得る。
[0027] 動的分類器を使用した自己音声アクティビティ検出のシステムおよび方法が開示される。たとえば、ヘッドセットの実装形態では、オーディオ信号は、ノイズ低減とエコー消去とを実行するためなどに、ユーザの音声をキャプチャするように配置される第1のマイクロフォンから、および外部音をキャプチャするように配置される第2のマイクロフォンから受信され得る。オーディオ信号は、両耳間位相差(「IPD:interaural phase difference」)と両耳間強度差(「IID:interaural intensity difference」)とを含む周波数領域特徴セット(frequency domain feature set)を抽出するために処理され得る。
[0028] 動的分類器は、抽出された周波数領域特徴セットを処理し、特徴セットの分類を示す出力を生成する。動的分類器は、ユーザ音声アクティビティに対応する特徴セットと、他のオーディオアクティビティに対応する特徴セットとを区別するために、特徴データ(feature data)の適応クラスタ化(adaptive clustering)と、特徴データ空間の2つの最も識別可能なカテゴリー間の決定境界(decision boundary)の調整とを実行し得る。例示的な例では、動的分類器は、自己組織化マップ(self-organizing map)を使用して実装される。
[0029] 動的分類器は、抽出された特徴セットを使用して、極めて非定常の状況における環境条件、不整合なマイクロフォン、ユーザヘッドセットのフィッティングの変化、異なるユーザ頭部伝達関数(「HRTF:head-related transfer function」)、非ユーザ信号の到来方向(「DOA:direction-of-arrival」)追跡、周波数スペクトルにわたるマイクロフォンのノイズフロア、バイアス、および感度、またはそれらの組合せなどの、様々な条件にアクティブに応答し、適応するための識別を可能にする。いくつかの実装形態では、動的分類器は、そのような変動に応答し、使用されるしきい値処理パラメータの数と、顧客によるヘッドセットチューニングの量とを低減または最小化することが可能な適応特徴マッピングを可能にする。いくつかの実装形態では、動的分類器は、同等の精度を提供する従来のSVADシステムと比較して、変動する条件の下で高精度で、比較的低い電力消費量で、ユーザ音声アクティビティと他のオーディオアクティビティとの間の効果的な識別を可能にする。
[0030] 本開示の特定の態様が、図面を参照しながら以下で説明される。説明では、共通の特徴は、共通の参照番号によって指定される。本明細書で使用される様々な用語は、特定の実装形態のみについて説明するために使用され、実装形態を限定することを意図するものではない。たとえば、単数形「1つの(a、an)」および「その(the)」は、別段にコンテキストが明確に示さない限り、複数形も含むことが意図される。さらに、本明細書で説明されるいくつかの特徴は、いくつかの実装形態では単数であり、他の実装形態では複数である。例示のために、図1は、1つまたは複数のプロセッサ(図1の「プロセッサ」190)を含むデバイス102を示し、このことは、いくつかの実装形態では、デバイス102が単一のプロセッサ190を含み、他の実装形態では、デバイス102が複数のプロセッサ190を含むことを示す。本明細書において参照しやすいように、そのような特徴は、一般に、「1つまたは複数の」特徴として導入され、その後、複数の特徴に関係する態様が説明されない限り、単数形で参照される。
[0031] 「備える(comprise、comprises、およびcomprising)」という用語は、「含む(include、includes、またはincluding)」と互換的に使用され得ることがさらに理解され得る。加えて、「ここにおいて(wherein)」という用語は、「ここで(where)」と互換的に使用され得ることが理解されよう。本明細書で使用される「例示的な」は、例、実装形態、および/または態様を示すことがあり、限定するものとして、または選好もしくは好ましい実装形態を示すものとして解釈されるべきでない。本明細書で使用される、構造、構成要素、動作などの要素を変更するために使用される序数用語(たとえば、「第1の」、「第2の」、「第3の」など)は、それ自体によって、別の要素に対するその要素のいかなる優先順位または順序も示すのではなく、むしろ、(序数用語の使用を除いて)同じ名称を有する別の要素からその要素を区別するにすぎない。本明細書で使用される「セット」という用語は、特定の要素の1つまたは複数を指し、「複数」という用語は、特定の要素の複数(たとえば、2つ以上)を指す。
[0032] 本明細書で使用される「結合される」は、「通信可能に結合される」、「電気的に結合される」、または「物理的に結合される」を含むことがあり、同じく(または代替的に)それらの任意の組合せを含み得る。2つのデバイス(または構成要素)は、1つまたは複数の他のデバイス、構成要素、ワイヤ、バス、ネットワーク(たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、またはそれらの組合せ)などを介して直接または間接的に結合される(たとえば、通信可能に結合される、電気的に結合される、または物理的に結合される)ことがある。電気的に結合された2つのデバイス(または構成要素)は、同じデバイスまたは異なるデバイスに含まれてよく、例示的な非限定的な例として、電子回路、1つもしくは複数のコネクタ、または誘導結合を介して接続され得る。いくつかの実装形態では、電気通信などで通信可能に結合された2つのデバイス(または構成要素)は、1つまたは複数のワイヤ、バス、ネットワークなどを介して、直接または間接的に信号(たとえば、デジタル信号またはアナログ信号)を送信および受信し得る。本明細書で使用される「直接結合される」は、介在する構成要素なしに結合される(たとえば、通信可能に結合される、電気的に結合される、または物理的に結合される)2つのデバイスを含み得る。
[0033] 本開示では、「決定する」、「計算する」、「推定する」、「シフトする」、「調整する」などの用語は、1つまたは複数の動作がどのように実行されるかについて説明するために使用され得る。そのような用語が限定的なものと解釈されるべきではなく、同様の動作を実行するために他の技法が利用され得ることに留意されたい。加えて、本明細書で言及される「生成する」、「計算する」、「推定する」、「使用する」、「選択する」、「アクセスする」、および「決定する」は、互換的に使用され得る。たとえば、パラメータ(または信号)を「生成する」、「計算する」、「推定する」、または「決定する」ことは、パラメータ(または信号)をアクティブに生成、推定、計算、または決定することを指すことがあり、あるいは、別の構成要素またはデバイスなどによってすでに生成されたパラメータ(または信号)を使用、選択、またはそれにアクセスすることを指すことがある。
[0034] 図1を参照すると、動的分類器を使用して自己音声アクティビティ検出を実行するように構成されたシステムの特定の例示的な態様が開示され、概して100と指定される。システム100は、第1のマイクロフォン110と、第2のマイクロフォン120と、第2のデバイス160とに結合されたデバイス102を含む。デバイス102は、動的分類器(dynamic classifier)140を使用して、マイクロフォン110、120によってキャプチャされた音の自己音声アクティビティ検出を実行するように構成される。例示のために、デバイス102がヘッドセットに対応する実装形態では、第1のマイクロフォン110(たとえば、「1次」マイクロフォン)は、デバイス102の装着者の口(mouth)に近接して配置されたマイクロフォンなどのデバイス102のユーザの発話(utterance)を主にキャプチャするように構成されることがあり、第2のマイクロフォン120(たとえば、「2次」マイクロフォン)は、装着者の耳に近接して配置されるなど、周囲音(ambient sound)を主にキャプチャするように構成されることがある。デバイス102が、複数の人々の近傍にあり得る(たとえば、図11を参照しながらさらに説明されるように、マイクロフォンを有するラウドスピーカーを含む)独立型音声アシスタントに対応するときなど、他の実装形態では、デバイス102は、人がヘッドセットの実装形態と比較して、1次マイクロフォンから比較的離れる場合であっても、1次マイクロフォンに最も近い人からのスピーチを自己音声アクティビティとして検出するように構成され得る。本明細書で使用される「自己音声アクティビティ検出」という用語は、デバイス102のユーザのスピーチ(たとえば、音声または発話)(たとえば、「ユーザ音声アクティビティ」)を、デバイスのユーザから発生しない音(たとえば、「他のオーディオアクティビティ」)と比較して区別することを示すために、「ユーザ音声アクティビティ検出」と互換的に使用される。
[0035] デバイス102は、第1の入力インターフェース114と、第2の入力インターフェース124と、1つまたは複数のプロセッサ190と、モデム(modem)170とを含む。第1の入力インターフェース114は、プロセッサ190に結合され、第1のマイクロフォン110に結合されるように構成される。第1の入力インターフェース114は、第1のマイクロフォン110から第1のマイクロフォン出力112を受信し、第1のマイクロフォン出力112を第1のオーディオデータ116としてプロセッサ190に提供するように構成される。
[0036] 第2の入力インターフェース124は、プロセッサ190に結合され、第2のマイクロフォン120に結合されるように構成される。第2の入力インターフェース124は、第2のマイクロフォン120から第2のマイクロフォン出力122を受信し、第2のマイクロフォン出力122を第2のオーディオデータ126としてプロセッサ190に提供するように構成される。
[0037] プロセッサ190は、モデム170に結合され、特徴抽出器(feature extractor)130と動的分類器(dynamic classifier)140とを含む。プロセッサは、第1のマイクロフォン110の第1の出力112に対応する第1のオーディオデータ116と、第2のマイクロフォン120の第2の出力122に対応する第2のオーディオデータ126とを含むオーディオデータ128を受信するように構成される。プロセッサ190は、特徴データ132を生成するために特徴抽出器130においてオーディオデータ128を処理するように構成される。
[0038] いくつかの実装形態では、プロセッサ190は、特徴データ132を生成する前に、第1のオーディオデータ116と第2のオーディオデータ126とを処理するように構成される。一例では、プロセッサ190は、第1のオーディオデータ116および第2のオーディオデータ126に対して、エコー消去、ノイズ抑制、またはその両方を実行するように構成される。いくつかの実装形態では、プロセッサ190は、特徴データ132を生成する前に、第1のオーディオデータ116と第2のオーディオデータ126とを変換領域(transform domain)に変換(たとえば、フーリエ変換)するように構成される。
[0039] プロセッサ190は、第1のオーディオデータ116および第2のオーディオデータ126に基づいて、特徴データ132を生成するように構成される。いくつかの態様によれば、特徴データ132は、第1のオーディオデータ116と第2のオーディオデータ126との間の少なくとも1つの両耳間位相差134と、第1のオーディオデータ116と第2のオーディオデータ126との間の少なくとも1つの両耳間強度差136とを含む。特定の例では、特徴データ132は、複数の周波数(multiple frequencies)についての両耳間位相差(IPD)134と、複数の周波数についての両耳間強度差(IID)136とを含む。
[0040] プロセッサ190は、特徴データ132の分類出力142を生成するために、動的分類器140において特徴データ132を処理するように構成される。いくつかの実装形態では、動的分類器140は、オーディオデータ128内で表される音が、第2のマイクロフォン120よりも第1のマイクロフォン110に近いソースから発生しているかどうかに基づいて、特徴データ132のセット(たとえば、サンプル)を適応的にクラスタ化するように構成される。たとえば、動的分類器140は、特徴データ132のサンプルのシーケンス(sequence)を受信し、IID周波数値およびIPD周波数値を含む特徴空間内でサンプルを適応的にクラスタ化する(adaptively cluster)ように構成され得る。
[0041] 動的分類器140はまた、ユーザ音声アクティビティ(たとえば、ユーザ180の発話182)に対応する特徴データのセットと、他のオーディオアクティビティに対応する特徴データのセットとを区別するために、特徴空間の2つの最も識別可能なカテゴリー間の決定境界を調整するように構成され得る。例示のために、動的分類器140は、着信する特徴データを2つのクラス(たとえば、クラス0またはクラス1)のうちの1つに分類するように構成されることがあり、ここで、2つのクラスのうちの1つは、ユーザ音声アクティビティに対応し、2つのクラスのうちの他方は、他のオーディオアクティビティに対応する。分類出力142は、2つの値、すなわち、特徴データ132が2つのクラスのうちの一方に対応することを示すための第1の値(たとえば、「0」)、または特徴データ132が2つのクラスのうちの他方に対応することを示すための第2の値(たとえば、「1」)のうちの1つを有する単一のビットまたはフラグを含み得る。
[0042] いくつかの実装形態では、動的分類器140は、クラスタ化とベクトル量子化とを実行する。たとえば、クラスタ化は、次式のように定義されるクラスタ内2乗和を低減する(たとえば、最小化する)ことを含む。
ここで、Ciはクラスタiを表し、piはクラスタiに割り当てられた重みを表し、xjは特徴空間内のノードjを表し、μiはクラスタiの重心を表す。クラスタ重みpiは、以前のクラスタ分布などの確率的なもの、各クラスタの可能性に割り当てられた信頼性尺度などの可能性的なもの、または異なるクラスタに向かって何らかの形態の不均一なバイアスを強いる任意の他のファクタによって決定されたものであり得る。ベクトル量子化は、入力ベクトルを、次式によって定義される量子化重みベクトルになるように量子化することによって、誤差を低減する(たとえば、最小化する)ことを含む。
ここで、wiは、量子化重みベクトルiを表す。
[0043] いくつかの実装形態では、動的分類器140は、特徴データ132の新しいサンプルを吸収するために量子化のユニットが競合する競合学習を実行するように構成される。次いで、勝ったユニットは、新しいサンプルの方向に調整される。たとえば、各ユニットの重みベクトルは、分離のためにまたはランダムに初期化され得る。受信された特徴データの新しいサンプルごとに、非限定的な例として、ユークリッド距離または内積類似度などに基づいて、どの重みベクトルが新しいサンプルに最も近いかに関する決定が行われる。新しいサンプルに最も近い重みベクトル(「勝者」または最良のマッチングユニット)は、次いで、新しいサンプルの方向に移動され得る。たとえば、ヘッブ学習では、勝者は、2つのノードへの入力の積に比例して2つのノード間の重みを調整することなどによって、入力とのその相関を強化する。
[0044] いくつかの実装形態では、動的分類器140は、シナプス後シート内のローカルクラスタに接続されたシナプス前シート内のローカルクラスタを含み、隣接するニューロン間の相互接続は、相関刺激間の接続を強化するためにヘッブ学習を通して強化される。動的分類器140は、入力がシナプス後シートまたはマップ内のあらゆるニューロンに接続されるコホーネン自己組織化マップを含み得る。学習は、吸収の異なるフィールドが入力空間(たとえば、特徴データ空間)の異なる領域に応答するという点で、マップを局所化させる。
[0045] 特定の実装形態では、動的分類器140は、自己組織化マップ148を含む。自己組織化マップ148は、重みベクトルを初期化し、次いで、各入力t(たとえば、特徴データ132の各受信されたセット)について、次式に従って勝ったユニット(またはセルもしくはニューロン)を決定することによって動作し、
入力x(t)への最小距離(たとえば、ユークリッド距離)を有するユニットとして勝者v(t)を見つけることがある。勝ったユニットおよびその近傍ユニットの重みは、Δwi(t)=α(t)l(v,i,t)[x(t)-wv(t)]などに従って更新され、ここで、Δwi(t)はユニットiの変化を表し、α(t)は学習パラメータを表し、l(v,i,t)は、ガウス放射基底関数などの、勝ったユニットの周りの近傍関数を表す。いくつかの実装形態では、内積または別のメトリックが、ユークリッド距離の代わりに類似性測度として使用され得る。
[0046] いくつかの実装形態では、動的分類器140は、図4を参照しながらさらに説明される、スピーチサンプルのシーケンスに適応するためのコホーネン自己組織化マップの変形態を含む。一例では、動的分類器140は、時定数モデル化減衰(「D」)を有する活性化関数が各ユニットについて定義され、次式のように更新される時間的なコホーネンマップなどに従って、時間的なシーケンス処理を実施することがあり、
勝ったユニットは、最大のアクティビティを有するユニットである。別の例として、動的分類器140は、2乗ノルムの代わりに差分ベクトルy、すなわちyi(t,γ)=(1-γ)yi(t-1,γ)+γ(x(t)-wi(t))を使用するリカレント自己組織化マップなどに従って、リカレントネットワークを実装することがあり、ここで、γは0と1との間の値を有する忘却係数(forgetting factor)を表し、勝ったユニットは、次式の通りの最小の差分ベクトルを有するユニットとして決定され、
重みは、Δwi(t)=α(t)l(v,i,t)[x(t)-yv(t,γ)]として更新される。
[0047] いくつかの実装形態では、プロセッサ190は、特徴データ132に基づいて動的分類器140のクラスタ化動作(clustering operation)144を更新し、動的分類器140の分類決定基準(classification decision criterion)146を更新するように構成される。たとえば、上記で説明されたように、プロセッサ190は、オーディオデータ128の着信サンプルに基づいて、クラスタ化と、ユーザ音声アクティビティと他のオーディオアクティビティとの間の決定境界とを適応させるように構成され、動的分類器140が、ユーザ180の変化する条件、環境、他の条件(たとえば、マイクロフォン配置または調整)、またはそれらの任意の組合せに基づいて動作を調整することを可能にする。
[0048] 動的分類器140が自己組織化マップ148を含むものとして図示されているが、他の実装形態では、動的分類器140は、自己組織化マップ148の代わりに、またはそれに加えて、分類出力142を生成するための1つまたは複数の他の技法を組み込むことがある。非限定的な例として、動的分類器140は、教師なし構成を有する制限付きボルツマンマシン、教師なしオートエンコーダ、ホップフィールドネットワークのオンライン変形形態、オンラインクラスタ化、またはそれらの組合せを含み得る。別の非限定的な例として、動的分類器140は、主成分分析を実行する(たとえば、直交方向ベクトルのセットを特徴空間内の特徴ベクトルサンプルに順次適合させるが、ここで、各方向ベクトルは、特徴空間内の方向ベクトル上に投影された特徴ベクトルサンプルの分散を最大化するものとして選択される)ように構成され得る。別の非限定的な例として、動的分類器140は、独立成分分析を実行する(たとえば、小成分が互いに統計的に独立した非ガウス信号であると仮定して、特徴空間内の特徴ベクトルサンプルの加法的小成分のセットを決定する)ように構成され得る。
[0049] プロセッサ190は、分類出力142に少なくとも部分的に基づいて、オーディオデータ128がユーザ音声アクティビティに対応するかどうかを決定し、ユーザ音声アクティビティが検出されたかどうかを示すユーザ音声アクティビティインジケータ150を生成するように構成される。たとえば、分類出力142は、特徴データ132が2つのクラス(たとえば、クラス「0」またはクラス「1」)のうちの1つとして分類されるかどうかを示し得るが、分類出力142は、どのクラスがユーザ音声アクティビティに対応し、どのクラスが他のオーディオアクティビティに対応するかを示さないことがある。たとえば、動的分類器140がどのように初期化されるかと、動的分類器140を更新するために使用された特徴データとに基づいて、いくつかの場合には、値「0」を有する分類出力142は、ユーザ音声アクティビティを示すが、他の場合には、値「0」を有する分類出力は、他のオーディオアクティビティを示す。プロセッサ190は、図2を参照しながらさらに説明されるように、特徴データ132の少なくとも1つの値の符号(sign)または大きさ(magnitude)のうちの少なくとも1つにさらに基づいて、2つのクラスのうちのどちらがユーザ音声アクティビティを示すかと、2つのクラスのうちのどちらが他のオーディオアクティビティを示すかとを決定し得る。
[0050] 例示のために、ユーザ180の口から第1のマイクロフォン110および第2のマイクロフォン120への発話182の音伝搬は、特徴データ132内で検出されることがあり、他のオーディオソースからの音の位相差(phase difference)および信号強度差(signal strength difference)から区別可能であり得る、(発話182が第2のマイクロフォン120よりも前に第1のマイクロフォン110に到着することによる)位相差および信号強度差をもたらす。位相差および信号強度差は、特徴データ132内のIPD134およびIID136から決定され、分類出力142をユーザ音声アクティビティまたは他のオーディオアクティビティにマッピングするために使用され得る。プロセッサ190は、オーディオデータ128がユーザ音声アクティビティに対応するかどうかを示すユーザ音声アクティビティインジケータ150を生成し得る。
[0051] いくつかの実装形態では、プロセッサ190は、オーディオデータ128がユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作(voice command processing operation)152を開始するように構成される。例示的な例では、音声コマンド処理動作152は、キーワードもしくはキーフレーズ検出、声紋認証、自然言語処理、1つもしくは複数の他の動作、またはそれらの任意の組合せなどの音声アクティベーション動作を含む。別の例として、プロセッサ190は、キーワード検出の第1の段階を実行するためにオーディオデータ128を処理することがあり、(たとえば、より強力な音声アクティビティ認識とスピーチ認識動作とを含む検出の第2の段階において)音声コマンド処理動作152を介してオーディオデータ128のさらなる処理を開始する前に、検出されたキーワードが近くの人ではなくデバイス102のユーザ180によって話されたことを確認するために、ユーザ音声アクティビティインジケータ150を使用し得る。
[0052] モデム170は、プロセッサ190に結合され、ワイヤレス送信などを介して、第2のデバイス160との通信を可能にするように構成される。いくつかの例では、モデム170は、オーディオデータ128が動的分類器140に基づくユーザ音声アクティビティに対応するという決定に応答して、第2のデバイス160にオーディオデータ128を送信するように構成される。たとえば、デバイス102が第2のデバイス160にワイヤレス結合されたヘッドセットデバイス(たとえば、モバイルフォンまたはコンピュータへのBluetooth(登録商標)接続)に対応する実装形態では、デバイス102は、第2のデバイス160の音声アクティベーションシステム162において音声コマンド処理動作152を実行するために、第2のデバイス160にオーディオデータ128を送り得る。この例では、デバイス102は、第2のデバイス160のより大きい処理リソースおよび電力リソースを使用して実行されるべき、より計算コストが高い処理(たとえば、音声コマンド処理動作152)をオフロードする。
[0053] いくつかの実装形態では、デバイス102は、1つまたは様々なタイプのデバイスに対応するか、またはそれらに含まれる。例示的な例では、プロセッサ190は、第1のマイクロフォン110と第2のマイクロフォン120とを含むヘッドセットデバイスに統合される。ヘッドセットデバイスは、ユーザ180によって装着されたとき、図7を参照しながらさらに説明されるように、第1のマイクロフォン110において、第2のマイクロフォン120と比較してより大きい強度(greater intensity)およびより少ない遅延(less delay)でユーザ180の発話182をキャプチャするために、ユーザの口に対して第2のマイクロフォン120よりも近くに第1のマイクロフォン110を配置する(position)ように構成される。他の例では、プロセッサ190は、図6を参照しながら説明されるモバイルフォンもしくはタブレットコンピュータデバイス(tablet computer device)、図8を参照しながら説明されるウェアラブル電子デバイス(wearable electronic device)、図9を参照しながら説明される音声制御スピーカーシステム、図10を参照しながら説明されるカメラデバイス(camera device)、または図11を参照しながら説明される仮想現実ヘッドセット(virtual reality headset)、複合現実ヘッドセット(mixed reality headset)、または拡張現実ヘッドセット(augmented reality headset)のうちの少なくとも1つに統合される。別の例示的な例では、プロセッサ190は、図12および図13を参照しながらさらに説明されるように、第1のマイクロフォン110および第2のマイクロフォン120も含むビークル(vehicle)に統合される。
[0054] 動作中、第1のマイクロフォン110は、ユーザ180の発話182をキャプチャするように構成され、第2のマイクロフォン120は、周囲音(ambient sound)186をキャプチャするように構成される。一例では、デバイス102のユーザ180からの発話182は、第1のマイクロフォン110および第2のマイクロフォン120によってキャプチャされる。第1のマイクロフォン110がユーザ180の口により近いので、ユーザ180のスピーチは、第2のマイクロフォン120と比較して、より高い信号強度およびより少ない遅延で第1のマイクロフォン110によってキャプチャされる。別の例では、1つまたは複数の音源184からの周囲音186(たとえば、2人の近くの人の間の会話)が、第1のマイクロフォン110および第2のマイクロフォン120によってキャプチャされ得る。第1のマイクロフォン110および第2のマイクロフォン120に対する音源184の位置および距離に基づいて、第1のマイクロフォン110および第2のマイクロフォン120において周囲音186をキャプチャすることの間の信号強度差および相対遅延は、ユーザ180からの発話182に関するものとは異なる。
[0055] 第1のオーディオデータ116および第2のオーディオデータ126は、エコー消去、ノイズ抑制、周波数領域変換などを実行することによって、プロセッサ190において処理される。得られたオーディオデータは、IPD134とIID136とを含む特徴データ132を生成するために、特徴抽出器130において処理される。特徴データ132は、分類出力142を生成するために動的分類器140に入力され、分類出力は、ユーザ音声アクティビティまたは他の音アクティビティのいずれかとしてプロセッサ190によって解釈される。プロセッサ190は、オーディオデータ128がユーザ音声アクティビティに対応することを示すための「0」値、またはオーディオデータ128が他のオーディオアクティビティに対応することを示すための「1」値(またはその逆も同様)などの、ユーザ音声アクティビティインジケータ150を生成する。
[0056] ユーザ音声アクティビティインジケータ150は、デバイス102において音声コマンド処理動作152を開始すべきかどうかを決定するために使用され得る。代替的に、または追加として、ユーザ音声アクティビティインジケータ150は、音声アクティベーションシステム162におけるさらなる処理のために第2のデバイス160への出力信号135(たとえば、オーディオデータ128)の生成を開始すべきかどうかを決定するために使用され得る。
[0057] 加えて、分類出力142を生成することと併せて、動的分類器140は、特徴データ132により類似するように勝ったユニットおよびその近隣のユニットの重みを調整すること、クラスタ化動作144、分類基準146、またはそれらの組合せを更新することなどによって、特徴データ132に基づいて更新される。このようにして、動的分類器140は、ユーザスピーチの変化、環境の変化、デバイス102もしくはマイクロフォン110、120の特性の変化、またはそれらの組合せに自動的に適応する。
[0058] したがって、システム100は、従来の自己音声アクティビティ検出技法と比較して、比較的低い複雑度、低い電力消費量、および高い精度で、ユーザ音声アクティビティと他のオーディオアクティビティとを識別するために、動的分類器140を使用することによって、自己音声アクティビティ検出の性能を改善する。ユーザおよび環境の変化に自動的に適応することは、ユーザによって実行されるべき較正を低減または削除し、ユーザのエクスペリエンス(user's experience)を向上させることによって、改善された利益を提供する。
[0059] いくつかの実装形態では、プロセッサ190は、特徴抽出器130によって生成される特徴データ132(たとえば、周波数領域データ)の形態でオーディオデータ128を動的分類器140に提供するが、他の実装形態では、特徴抽出器130は省略される。一例では、プロセッサ190は、動的分類器140にオーディオデータ128をオーディオサンプルの時系列として提供し、動的分類器140は、分類出力142を生成するためにオーディオデータ128を処理する。例示的な一実装形態では、動的分類器140は、オーディオデータ128から周波数領域データを決定し(たとえば、特徴データ132を生成し)、分類出力142を生成するために、抽出された周波数領域データを使用するように構成される。
[0060] 第1のマイクロフォン110および第2のマイクロフォン120が、デバイス102に結合されているものとして図示されているが、他の実装形態では、第1のマイクロフォン110または第2のマイクロフォン120の一方または両方は、デバイス102に統合され得る。2つのマイクロフォン110、120が図示されているが、他の実装形態では、ユーザスピーチ(user speech)をキャプチャするように構成された1つもしくは複数の追加のマイクロフォン、環境音(environmental sound)をキャプチャするように構成された1つもしくは複数のマイクロフォン、またはその両方が含まれ得る。システム100が第2のデバイス160を含むものとして図示されているが、他の実装形態では、第2のデバイス160は省略されてよく、デバイス102は、第2のデバイス160において実行されるものとして説明される動作を実行し得る。
[0061] 図2は、図1のデバイス102(たとえば、プロセッサ190)によって実行され得る自己音声アクティビティ検出に関連する動作200の例示的な態様の図である。特徴データ206を生成するために、入力202に対して、特徴抽出(Feature extraction)204が実行される。一例では、入力202はオーディオデータ128に対応し、特徴抽出204は特徴抽出器130によって実行され、特徴データ206は特徴データ132に対応する。
[0062] 動的分類器(dynamic classifier)208は、分類出力210を生成するために、特徴データ206に対して演算する。一例では、動的分類器208は、動的分類器140に対応し、分類出力210内の音声アクティベーションクラスについての「自己」対「他の」ラベリングに関する極めて動的な決定境界を有する特徴データ206に基づいて、教師なしリアルタイムクラスタ化を実行するように構成される。たとえば、動的分類器208は、特徴空間を2つのクラス、すなわち、ユーザ音声アクティビティに関連付けられた一方のクラスと、他の音アクティビティに関連付けられた他方のクラスとに分割され得る。分類出力210は、どのクラスが特徴データ206に関連付けられるかのバイナリインジケータを含み得る。一例では、分類出力210は、分類出力142に対応する。
[0063] 自己/他の関連付け動作212は、分類出力210と検証入力216とに基づいて、自己/他のインジケータ218を生成する。検証入力216は、分類出力210のクラスの各々を、ユーザ音声アクティビティ(たとえば、「自己」)または他の音アクティビティ(たとえば、「他」)に関連付ける情報を提供し得る。たとえば、検証入力216は、位相差(たとえば、どのマイクロフォンが入力202によって表されるオーディオのソースにより近いかを示す、1つまたは複数の特定の周波数範囲にわたるIPD134のうちの1つまたは複数の値)の符号230を比較すること、強度差(たとえば、別個のマイクロフォンまでのオーディオのソースの相対距離を示す、1つまたは複数の特定の周波数範囲にわたるIID136のうちの1つまたは複数の値)の大きさ232を比較すること、またはそれらの組合せなどの、少なくとも1つの以前の検証基準(prior verification criterion)214に基づいて生成され得る。たとえば、自己/他の関連付けは、「0」の分類出力210の値が、1つもしくは複数の関係する周波数範囲において負の符号230を示すか、または1つもしくは複数の関係する周波数範囲においてしきい値量よりも小さい大きさ232を示すか、またはその両方である特徴データ206に対応すると決定することがあり、その結果、「0」が「他」に対応し、「1」が「自己」に対応するように表を埋めることがある。
[0064] 自己/他の関連付け動作212は、自己/他のインジケータ218(たとえば、ユーザ音声アクティビティを示すための第1の値(たとえば、「0」)を有するか、または他の音アクティビティを示すための第2の値(たとえば、「1」)を有するか、あるいはその逆であるバイナリインジケータ)の生成をもたらす。起動/バージイン制御動作(wakeup/barge-in control operation)220は、音声コマンドプロセス224への信号222を生成するために、自己/他のインジケータ218に応答する。たとえば、信号222は、入力202がユーザ音声アクティビティに対応するとき、さらなる音声コマンド処理を実行するために(たとえば、キーワード検出、音声認証、またはその両方を実行するために)、音声コマンドプロセス224が、入力202、特徴データ206、もしくはその両方に対して実行されるべきであることを示すための第1の値(たとえば、「0」)を有することがあるか、または、入力202が他の音アクティビティに対応するとき、音声コマンドプロセス224が、音声コマンド処理を実行すべきでないことを示すための第2の値(たとえば、「1」)を有し得る。
[0065] 図1の動的分類器140と図2の動的分類器208とを参照しながら説明される動的分類は、ユーザが話すときにのみ応答し、他の干渉(たとえば、外部スピーチ)が到着したときには常に応答を抑制し、自己キーワード受容率(「SKAR」:self-keyword acceptance rate)と他のキーワード拒否率(「OKRR」:other keyword rejection rate)とを最大化するという目的で、SVAD精度を改善することを支援する。動的分類を使用することによって、従来のSVAD処理に関連する様々な課題が回避されるか、または場合によっては低減される。たとえば、動的分類の実装形態を介して回避または低減される従来のSVAD処理の課題は、(厳しい条件下で誤った起動およびバージインを起こし得る)ノイズおよびエコー条件と、マイクロフォンの不整合および感度と、音声アクティベーションエンジン依存性と、異なるユーザ頭部伝達関数(HRTF)と、異なるヘッドセットハードウェア効果と、遮断および分離レベルのユーザの挙動に基づいた変動と、他の音声アクティビティとのユーザの特徴類似性と、音声アクティベーションに対する最終的な悪影響と、ユーザスピーチの開始の応答遅延とを含む。例示のために、従来のSVADは、動的分類の動作によって適応され得る、内部/外部のマイクロフォン較正および感度と、干渉スピーチの到来方向と、ヘッドセットフィッティングおよび分離の変動と、特徴の非定常統計量とに大きく依存する。
[0066] 動的分類の使用は、抽出された特徴データ206を使用して、極めて非定常の状況における環境条件、不整合なマイクロフォン、ユーザヘッドセットのフィッティングの変化、異なるユーザ頭部伝達関数、非ユーザ信号の到来方向(「DOA」)追跡、ならびに、周波数スペクトルにわたるマイクロフォンのノイズフロア、バイアス、および感度などの、様々な条件にアクティブに応答し、適応するための識別を可能にする。動的分類は、そのような変動に応答し、使用されるしきい値処理パラメータの数と、顧客によるヘッドセットチューニングの量とを低減または最小化することが可能な適応特徴マッピングを可能にする。
[0067] 図3は、本開示のいくつかの例による、自己音声アクティビティ検出を実行するために動作可能なシステムの例示的な態様のブロック図であり、プロセッサ190は、常時接続電力ドメイン(always-on power domain)303と、オンデマンド電力ドメイン(on-demand power domain)などの第2の電力ドメイン(second power domain)305とを含む。いくつかの実装形態では、自己音声アクティビティ検出器(self-voice activity detector)320の第1の段階340およびバッファ360は、常時接続モード(always-on mode)で動作するように構成され、自己音声アクティビティ検出器320の第2の段階350は、オンデマンドモード(on-demand mode)で動作するように構成される。
[0068] 常時接続電力ドメイン303は、バッファ360と、特徴抽出器130と、動的分類器140とを含む。バッファ360は、自己音声アクティビティ検出器320の構成要素による処理のためにアクセス可能であるように、第1のオーディオデータ116と第2のオーディオデータ126とを記憶するように構成される。
[0069] 第2の電力ドメイン305は、自己音声アクティビティ検出器320の第2の段階250に音声コマンド処理ユニット(voice command processing unit)370を含み、アクティベーション回路330も含む。いくつかの実装形態では、音声コマンド処理ユニット370は、図1の音声コマンド処理動作152、または図2の音声コマンドプロセス224を実行するように構成される。
[0070] 自己音声アクティビティ検出器320の第1の段階240は、音声コマンド処理ユニット370において音声コマンド処理動作152(または音声コマンドプロセス224)を開始するために、起動信号(wakeup signal)322または割込み(interrupt)324のうちの少なくとも1つを生成するように構成される。一例では、起動信号322は、音声コマンド処理ユニット370をアクティブ化する(activate)ために、第2の電力ドメイン305を低電力モード(low-power mode)332からアクティブモード(active mode)334に遷移させる(transition)ように構成される。いくつかの実装形態では、起動信号322、割込み324、またはその両方は、図2の信号222に対応する。
[0071] たとえば、アクティベーション回路330は、電力管理回路、クロック回路、ヘッドスイッチもしくはフットスイッチ回路、バッファ制御回路、またはそれらの任意の組合せを含むか、またはそれらに結合され得る。アクティベーション回路330は、第2の段階350、第2の電力ドメイン305、またはその両方の電源の電圧を選択的に印加または上昇させることなどによって、第2の段階350の電源投入を開始するように構成され得る。別の例として、アクティベーション回路330は、電源を除去することなく回路動作を防止または有効にするためなどに、第2の段階350へのクロック信号を選択的にゲート制御またはゲート制御解除するように構成され得る。
[0072] 自己音声アクティビティ検出器320の第2の段階350によって生成された検出器出力352は、アプリケーション354に提供される。アプリケーション354は、検出されたユーザスピーチに基づいて、1つまたは複数の動作を実行するように構成され得る。例示のために、アプリケーション354は、例示的な非限定的な例として、音声インターフェースアプリケーション、統合アシスタントアプリケーション、ビークルナビゲーションおよびエンターテインメントアプリケーション、またはホームオートメーションシステムに対応し得る。
[0073] 自己音声アクティビティ検出器320の第1の段階340においてオーディオデータを処理した結果に基づいて第2の段階350を選択的にアクティブ化することによって、自己音声アクティビティ検出、音声コマンド処理、またはその両方に関連する全電力消費量が低減され得る。
[0074] 図4は、本開示のいくつかの例による、図1のシステムの構成要素の動作の例示的な態様の図である。特徴抽出器130は、第1のフレーム(F1)412、第2のフレーム(F2)414、およびN番目のフレーム(FN)416(ここで、Nは2よりも大きい整数である)を含む1つまたは複数の追加のフレームとして図示された、オーディオデータ128の連続的にキャプチャされたフレームのシーケンスなどの、オーディオデータサンプルのシーケンス410を受信するように構成される。特徴抽出器130は、第1のセット422と、第2のセット424と、N番目のセット426を含む1つまたは複数の追加のセットとを含む特徴データのセットのシーケンス420を出力するように構成される。
[0075] 動的分類器140は、特徴データのセットのシーケンス420を受信し、シーケンス420における特徴データの以前のセット(たとえば、第1のセット422)に少なくとも部分的に基づいて、シーケンス420のセット(たとえば、第2のセット424)を適応的にクラスタ化するように構成される。説明のための非限定的な例として、動的分類器140は、時間的なコホーネンマップまたはリカレント自己組織化マップとして実装され得る。
[0076] 動作中、特徴抽出器130は、特徴データの第1のセット422を生成するために第1のフレーム412を処理し、動的分類器140は、分類出力のシーケンス430の第1の分類出力(C1)432を生成するために特徴データの第1のセット422を処理する。特徴抽出器130は、特徴データの第2のセット424を生成するために第2のフレーム414を処理し、動的分類器140は、特徴データの第2のセット424に基づいて、および特徴データの第1のセット422に少なくとも部分的に基づいて、第2の分類出力(C2)434を生成するために特徴データの第2のセット424を処理する。特徴データのN番目のセット426を生成するために特徴抽出器130がN番目のフレーム416を処理することと、N番目の分類出力(CN)436を生成するために動的分類器140が特徴データのN番目のセット426を処理することとを含む、そのような処理が続く。N番目の分類出力436は、特徴データのN番目のセット426に基づき、シーケンス420の特徴データの以前のセットのうちの1つまたは複数に少なくとも部分的に基づく。
[0077] 特徴データの1つまたは複数の以前のセットに基づいて動的に分類することによって、動的分類器140による分類の精度は、オーディオデータの複数のフレームにわたり得るスピーチ信号について改善され得る。
[0078] 図5は、1つまたは複数のプロセッサ190を含む集積回路502としてのデバイス102の実装形態500を示す。集積回路502はまた、オーディオデータ128が処理のために受信されることを可能にするために、1つまたは複数のバスインターフェースなどのオーディオ入力部504を含む。集積回路502は、ユーザ音声アクティビティインジケータ150などの出力信号の送信を可能にするために、バスインターフェースなどの信号出力部512も含む。集積回路502は、図6に示されるモバイルフォンもしくはタブレット、図7に示されるヘッドセット、図8に示されるウェアラブル電子デバイス、図9に示される音声制御スピーカーシステム、図10に示されるカメラ、図11に示される仮想現実ヘッドセット、複合現実ヘッドセット、もしくは拡張現実ヘッドセット、または、図12もしくは図13に示されるビークルなどの、マイクロフォンを含むシステム内の構成要素として、自己音声アクティビティ検出の実装を可能にする。
[0079] 図6は、例示的な非限定的な例として、デバイス102が電話またはタブレットなどのモバイルデバイス602である実装形態600を示す。モバイルデバイス602は、ユーザのスピーチを主にキャプチャするように配置された第1のマイクロフォン110と、環境音を主にキャプチャするように配置された複数の第2のマイクロフォン120と、ディスプレイスクリーン604とを含む。特徴抽出器130と動的分類器140とを含むプロセッサ190の構成要素は、モバイルデバイス602に統合され、モバイルデバイス602のユーザには概して見えない内部構成要素を示すために破線を使用して図示されている。プロセッサ190は特徴抽出器130を含むものとして図示されているが、他の実装形態では、図1を参照しながら説明されたように、動的分類器140が第1のオーディオデータ116および第2のオーディオデータ126の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器130は省略される。特定の例では、動的分類器140は、ユーザ音声アクティビティを検出するように動作し、ユーザ音声アクティビティは、次いで、グラフィカルユーザインターフェースを起動するか、または場合によっては(たとえば、統合「スマートアシスタント」アプリケーションを介して)ディスプレイスクリーン604においてユーザのスピーチに関連する他の情報を表示するためなどに、モバイルデバイス602において1つまたは複数の動作を実行するように処理される。
[0080] 図7は、デバイス102がヘッドセットデバイス702である実装形態700を示す。ヘッドセットデバイス702は、ユーザのスピーチを主にキャプチャするように配置された第1のマイクロフォン110と、環境音を主にキャプチャするように配置された第2のマイクロフォン120とを含む。特徴抽出器130と動的分類器140とを含む、プロセッサ190の構成要素は、ヘッドセットデバイス702に統合される。特定の例では、動的分類器140は、ユーザ音声アクティビティを検出するように動作し、このことは、ヘッドセットデバイス702に、ヘッドセットデバイス702において1つもしくは複数の動作を実行させるか、さらなる処理のために図1の第2のデバイス160などの第2のデバイス(図示せず)に、ユーザ音声アクティビティに対応するオーディオデータを送信させるか、またはそれらの組合せを行わせ得る。プロセッサ190は特徴抽出器130を含むものとして図示されているが、他の実装形態では、図1を参照しながら説明されたように、動的分類器140が第1のオーディオデータ116および第2のオーディオデータ126の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器130は省略される。
[0081] 図8は、デバイス102が、「スマートウォッチ」として図示されるウェアラブル電子デバイス802である実装形態800を示す。特徴抽出器130、動的分類器140、第1のマイクロフォン110、および第2のマイクロフォン120は、ウェアラブル電子デバイス802に統合される。特定の例では、動的分類器140は、ユーザ音声アクティビティを検出するために動作し、ユーザ音声アクティビティは、次いで、グラフィカルユーザインターフェースを起動するか、または場合によってはウェアラブル電子デバイス802のディスプレイスクリーン804においてユーザのスピーチに関連する他の情報を表示するためなどに、ウェアラブル電子デバイス802において1つまたは複数の動作を実行するように処理される。例示のために、ウェアラブル電子デバイス802は、ウェアラブル電子デバイス802によって検出されたユーザスピーチに基づいて通知を表示するように構成されたディスプレイスクリーンを含み得る。特定の例では、ウェアラブル電子デバイス802は、ユーザ音声アクティビティの検出に応答して触覚通知を提供する(たとえば、振動する)触覚デバイスを含む。たとえば、触覚通知は、ユーザによって話されたキーワードの検出を示す表示された通知を見るために、ウェアラブル電子デバイス802をユーザに見せることができる。したがって、ウェアラブル電子デバイス802は、ユーザの音声アクティビティが検出されたことを、聴覚障害を有するユーザまたはヘッドセットを装着しているユーザに警告することができる。ウェアラブル電子デバイス802は特徴抽出器130を含むものとして図示されているが、他の実装形態では、図1を参照しながら説明されたように、動的分類器140が第1のオーディオデータ116および第2のオーディオデータ126の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器130は省略される。
[0082] 図9は、デバイス102がワイヤレススピーカーおよび音声アクティブ化デバイス902である実装形態900である。ワイヤレススピーカーおよび音声アクティブ化デバイス902は、ワイヤレスネットワーク接続性を有することができ、アシスタント動作を実行するように構成される。特徴抽出器130と動的分類器140とを含むプロセッサ190、第1のマイクロフォン110、第2のマイクロフォン120、またはそれらの組合せは、ワイヤレススピーカーおよび音声アクティブ化デバイス902に含まれる。プロセッサ190は特徴抽出器130を含むものとして図示されているが、他の実装形態では、図1を参照しながら説明されたように、動的分類器140が第1のオーディオデータ116および第2のオーディオデータ126の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器130は省略される。ワイヤレススピーカーおよび音声アクティブ化デバイス902はまた、スピーカー904を含む。動作中、動的分類器140の動作を介してユーザスピーチとして識別されたバーバルコマンド(verbal command)を受信したことに応答して、ワイヤレススピーカーおよび音声アクティブ化デバイス902は、音声アクティベーションシステム162(たとえば、統合アシスタントアプリケーション)の実行などを介して、アシスタント動作を実行することができる。アシスタント動作は、温度を調整すること、音楽を再生すること、ライトをオンにすることなどを含むことができる。たとえば、アシスタント動作は、キーワードまたはキーフレーズ(たとえば、「hello assistant」)の後にコマンドを受信したことに応答して実行される。
[0083] 例示的な例では、ワイヤレススピーカーおよび音声アクティブ化デバイス902が、部屋の壁の近く(たとえば、窓の隣)にあり、第1のマイクロフォン110が第2のマイクロフォン120と比較して部屋の内部のより近くに配置される(たとえば、第2のマイクロフォンが第1のマイクロフォン110よりも壁または窓のより近くに配置され得る)ように配置されたとき、部屋の内部から発生するスピーチは、ユーザ音声アクティビティとして識別され得、部屋の外部から発生する音(たとえば、壁または窓の反対側の人のスピーチ)は、他のオーディオアクティビティとして識別され得る。複数の人々が部屋の中にいる場合があるので、ワイヤレススピーカーおよび音声アクティブ化デバイス902は、複数の人々のいずれかからのスピーチをユーザ音声アクティビティとして識別するように構成され得る(たとえば、ワイヤレススピーカーおよび音声アクティブ化デバイス902の複数の「ユーザ」が存在することがある)。例示のために、動的分類器140は、話している人がワイヤレススピーカーおよび音声アクティブ化デバイス902から比較的遠い(たとえば、数メートル)ことがあり、第2のマイクロフォン120よりも第1のマイクロフォン110に近いときでも、部屋内から発生するスピーチに対応する特徴データを「自己音声」として認識するように構成され得る。スピーチが部屋内の複数の人々から検出されるいくつかの実装形態では、ワイヤレススピーカーおよび音声アクティブ化デバイス902(たとえば、動的分類器140)は、第1のマイクロフォン110に最も近い人からのスピーチを、ユーザ音声アクティビティ(たとえば、最も近いユーザの自己音声)として識別するように構成され得る。
[0084] 図10は、デバイス102がカメラデバイス1002に対応するポータブル電子デバイスである実装形態1000を示す。特徴抽出器130および動的分類器140、第1のマイクロフォン110、第2のマイクロフォン120、またはそれらの組合せは、カメラデバイス1002に含まれる。動作中、動的分類器140の動作を介してユーザスピーチとして識別されたバーバルコマンドを受信したことに応答して、カメラデバイス1002は、例示的な例として、画像もしくはビデオキャプチャ設定、画像もしくはビデオ再生設定、または画像もしくはビデオキャプチャ命令を調整するためなどに、話されたユーザコマンドに応答して動作を実行することができる。カメラデバイス1002は特徴抽出器130を含むものとして図示されているが、他の実装形態では、図1を参照しながら説明されたように、動的分類器140が第1のオーディオデータ116および第2のオーディオデータ126の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器130は省略される。
[0085] 図11は、デバイス102が、仮想現実(「VR」)、拡張現実(「AR」)、または複合現実(「MR」)ヘッドセットデバイスなどの、エクステンデッドリアリティ(「XR」)ヘッドセット1102に対応するポータブル電子デバイスを含む実装形態1100を示す。特徴抽出器130、動的分類器140、第1のマイクロフォン110、第2のマイクロフォン120、またはそれらの組合せは、ヘッドセット1102に統合される。特定の態様では、ヘッドセット1102は、ユーザのスピーチを主にキャプチャするように配置された第1のマイクロフォン110と、環境音を主にキャプチャするように配置された第2のマイクロフォン120とを含む。ユーザ音声アクティビティ検出は、ヘッドセット1102の第1のマイクロフォン110および第2のマイクロフォン120から受信されたオーディオ信号に基づいて実行され得る。ヘッドセット1102が装着されている間、拡張現実または仮想現実の画像またはシーンのユーザへの表示を可能にするために、視覚インターフェースデバイスが、ユーザの目の前に配置される。特定の例では、視覚インターフェースデバイスは、オーディオ信号内で検出されたユーザスピーチを示す通知を表示するように構成される。ヘッドセット1102は特徴抽出器130を含むものとして図示されているが、他の実装形態では、図1を参照しながら説明されたように、動的分類器140が第1のオーディオデータ116および第2のオーディオデータ126の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器130は省略される。
[0086] 図12は、デバイス102が、有人もしくは無人の航空デバイス(たとえば、パッケージ配達ドローン)として図示されたビークル1202に対応するか、またはビークル1202内に統合される実装形態1200を示す。特徴抽出器130、動的分類器140、第1のマイクロフォン110、第2のマイクロフォン120、またはそれらの組合せは、ビークル1202に統合される。ユーザ音声アクティビティ検出は、ビークル1202の許可されたユーザからの配達命令などについての、ビークル1202の第1のマイクロフォン110および第2のマイクロフォン120から受信されたオーディオ信号に基づいて実行され得る。ビークル1202は特徴抽出器130を含むものとして図示されているが、他の実装形態では、図1を参照しながら説明されたように、動的分類器140が第1のオーディオデータ116および第2のオーディオデータ126の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器130は省略される。
[0087] 図13は、デバイス102が、車(car)として図示されるビークル1302に対応するか、またはビークル1302内に統合される、別の実装形態1300を示す。ビークル1302は、特徴抽出器130と動的分類器140とを含むプロセッサ190を含む。ビークル1302は特徴抽出器130を含むものとして図示されているが、他の実装形態では、図1を参照しながら説明されたように、動的分類器140が第1のオーディオデータ116および第2のオーディオデータ126の処理中に特徴データを抽出するように構成されるときなど、特徴抽出器130は省略される。ビークル1302はまた、第1のマイクロフォン110と第2のマイクロフォン120とを含む。第1のマイクロフォン110は、ビークル1302のオペレータ(operator)の発話をキャプチャするように配置される。ユーザ音声アクティビティ検出は、ビークル1302の第1のマイクロフォン110および第2のマイクロフォン120から受信されたオーディオ信号に基づいて実行され得る。いくつかの実装形態では、ユーザ音声アクティビティ検出は、許可された同乗者からの音声コマンド(voice command)などについての、内部マイクロフォン(たとえば、第1のマイクロフォン110および第2のマイクロフォン120)から受信されたオーディオ信号に基づいて実行され得る。たとえば、ユーザ音声アクティビティ検出は、ビークル1302のオペレータからの(たとえば、音量を5に設定するか、または自動運転ビークルの目的地を設定するための親からの)音声コマンドを検出し、別の同乗者の音声(たとえば、音量を10に設定するための子供からの、または別のロケーションについて議論する他の同乗者からの音声コマンド)を無視するために使用され得る。いくつかの実装形態では、ユーザ音声アクティビティ検出は、ビークルの許可されたユーザなどの、外部マイクロフォン(たとえば、第1のマイクロフォン110および第2のマイクロフォン120)から受信されたオーディオ信号に基づいて実行され得る。特定の実装形態では、動的分類器140の動作を介してユーザスピーチとして識別されるバーバルコマンドを受信したことに応答して、音声アクティベーションシステム162は、ディスプレイ1320または1つもしくは複数のスピーカー(たとえば、スピーカー1310)を介してフィードバックまたは情報を提供することなどによって、出力信号135内で検出された1つまたは複数のキーワード(たとえば、「ロック解除」、「エンジン始動」、「音楽再生」、「天気予報の表示」、または別の音声コマンド)に基づいてビークル1302の1つまたは複数の動作を開始する。
[0088] 図14Aを参照すると、ユーザ音声アクティビティ検出の方法1400の特定の実装形態が示されている。特定の態様では、方法1400の1つまたは複数の動作は、図1の特徴抽出器130、動的分類器140、プロセッサ190、デバイス102、システム100、またはそれらの組合せのうちの少なくとも1つによって実行される。
[0089] 方法1400は、1402で、1つまたは複数のプロセッサにおいて、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することを含む。たとえば、図1の特徴抽出器130は、図1を参照しながら説明されたように、第1のマイクロフォン110の第1の出力に対応する第1のオーディオデータ116と、第2のマイクロフォン126の第2の出力に対応する第2のオーディオデータ126とを含むオーディオデータ128を受信する。
[0090] 方法1400は、1404で、1つまたは複数のプロセッサにおいて、第1のオーディオデータと第2のオーディオデータとに基づいて特徴データを生成することを含む。たとえば、図1の特徴抽出器130は、図1を参照しながら説明されたように、第1のオーディオデータ116と第2のオーディオデータ126とに基づいて特徴データ132を生成する。別の例では、図1の動的分類器140などの動的分類器は、第1のオーディオデータ116と第2のオーディオデータ126とを受信し、第1のオーディオデータ116および第2のオーディオデータ126の処理中に特徴データ132を抽出するように構成される。
[0091] 方法1400は、1406で、1つまたは複数のプロセッサの動的分類器において、特徴データの分類出力を生成することを含む。たとえば、図1の動的分類器140は、図1を参照しながら説明されたように、特徴データ132の分類出力142を生成する。
[0092] 方法1400は、1408で、1つまたは複数のプロセッサにおいて、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することを含む。たとえば、図1のプロセッサ190は、図1を参照しながら説明されたように、分類出力142に少なくとも部分的に基づいて、オーディオデータ128がユーザ音声アクティビティに対応するかどうかを決定する。
[0093] 方法1400は、従来の自己音声アクティビティ検出技法と比較して、比較的低い複雑度、低い電力消費量、および高い精度で、ユーザ音声アクティビティと他のオーディオアクティビティとを識別するために、動的分類器140を使用することによって、自己音声アクティビティ検出の性能を改善する。ユーザおよび環境の変化に自動的に適応することは、ユーザによって実行されるべき較正を低減または削除し、ユーザのエクスペリエンス(user's experience)を向上させることによって、改善された利益を提供する。
[0094] 図14Bを参照すると、ユーザ音声アクティビティ検出の方法1450の特定の実装形態が示されている。特定の態様では、方法1450の1つまたは複数の動作は、図1の動的分類器140、プロセッサ190、デバイス102、システム100、またはそれらの組合せのうちの少なくとも1つによって実行される。
[0095] 方法1450は、1452で、1つまたは複数のプロセッサにおいて、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することを含む。一例では、図1を参照しながら説明されたように、図1の特徴抽出器130は、第1のオーディオデータ116と、第2のマイクロフォン126の第2の出力に対応する第2のオーディオデータ126とを含むオーディオデータ128を受信する。
[0096] 方法1450は、1454で、1つまたは複数のプロセッサにおいて、オーディオデータに対応する分類出力を生成するために、オーディオデータを動的分類器に提供することを含む。一例では、図1の特徴抽出器130は、第1のオーディオデータ116と第2のオーディオデータ126とに基づいて特徴データ132を生成し、特徴データ132は、図1において説明されたように、図14Aの方法1400に従って、分類出力142を生成するために動的分類器140によって処理される。別の例では、プロセッサ190は、第1のオーディオデータ116と第2のオーディオデータ126とを動的分類器140に提供し、動的分類器140は、分類出力142を生成するために第1のオーディオデータ116と第2のオーディオデータ126とを処理する。例示的な一実装形態では、動的分類器140は、特徴データ132を抽出するために第1のオーディオデータ116と第2のオーディオデータ126とを処理し、特徴データ132に基づいて分類出力142を決定する。
[0097] 方法1450は、1456で、1つまたは複数のプロセッサにおいて、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することを含む。たとえば、図1のプロセッサ190は、図1を参照しながら説明されたように、分類出力142に少なくとも部分的に基づいて、オーディオデータ128がユーザ音声アクティビティに対応するかどうかを決定する。
[0098] 方法1450は、従来の自己音声アクティビティ検出技法と比較して、比較的低い複雑度、低い電力消費量、および高い精度で、ユーザ音声アクティビティと他のオーディオアクティビティとを識別するために、動的分類器140を使用することによって、自己音声アクティビティ検出の性能を改善する。ユーザおよび環境の変化に自動的に適応することは、ユーザによって実行されるべき較正を低減または削除し、ユーザのエクスペリエンスを向上させることによって、改善された利益を提供する。
[0099] 図14Aの方法1400、図14Bの方法1450、またはそれらの組合せは、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)、中央処理ユニット(CPU)などの処理ユニット、DSP、コントローラ、別のハードウェアデバイス、ファームウェアデバイス、またはそれらの任意の組合せによって実装され得る。一例として、図14Aの方法1400、図14Bの方法1450、またはそれらの組合せは、図15を参照しながら説明された、命令を実行するプロセッサによって実行され得る。
[0100] 図15を参照すると、デバイスの特定の例示的な実装形態のブロック図が示され、概して1500と指定されている。様々な実装形態では、デバイス1500は、図15に図示されているものよりも多いまたは少ない構成要素を有することがある。例示的な実装形態では、デバイス1500は、デバイス102に対応し得る。例示的な実装形態では、デバイス1500は、図1~図14Bを参照しながら説明された1つまたは複数の動作を実行し得る。
[0101] 特定の実装形態では、デバイス1500は、プロセッサ1506(たとえば、中央処理ユニット(CPU))を含む。デバイス1500は、1つまたは複数の追加のプロセッサ1510(たとえば、1つまたは複数のDSP)を含み得る。特定の態様では、図1のプロセッサ190は、プロセッサ1506、プロセッサ1510、またはそれらの組合せに対応する。プロセッサ1510は、ボイスコーダ(「ボコーダ」)エンコーダ1536、ボコーダデコーダ1538、特徴抽出器130、動的分類器140、またはそれらの組合せを含む、スピーチおよび音楽コーダデコーダ(コーデック)1508を含み得る。
[0102] デバイス1500は、メモリ1586とコーデック1534とを含み得る。メモリ1586は、特徴抽出器130、動的分類器140、またはその両方を参照しながら説明された機能を実装するために、1つまたは複数の追加のプロセッサ1510(またはプロセッサ1506)によって実行可能である命令1556を含み得る。デバイス1500は、トランシーバ1550を介してアンテナ1552に結合されたモデム170を含み得る。
[0103] デバイス1500は、ディスプレイコントローラ1526に結合されたディスプレイ1528を含み得る。スピーカー1592、第1のマイクロフォン110、および第2のマイクロフォン120は、コーデック1534に結合され得る。コーデック1534は、デジタルアナログ変換器(DAC)1502、アナログデジタル変換器(ADC)1504、またはその両方を含み得る。特定の実装形態では、コーデック1534は、第1のマイクロフォン110および第2のマイクロフォン120からアナログ信号を受信し、アナログデジタル変換器1504を使用してアナログ信号をデジタル信号に変換し、デジタル信号をスピーチおよび音楽コーデック1508に提供し得る。スピーチおよび音楽コーデック1508は、デジタル信号を処理することがあり、デジタル信号は、特徴抽出器130および動的分類器140によってさらに処理され得る。特定の実装形態では、スピーチおよび音楽コーデック1508は、デジタル信号をコーデック1534に提供し得る。コーデック1534は、デジタルアナログ変換器1502を使用してデジタル信号をアナログ信号に変換することがあり、アナログ信号をスピーカー1592に提供し得る。
[0104] 特定の実装形態では、デバイス1500は、システムインパッケージまたはシステムオンチップデバイス1522に含まれ得る。特定の実装形態では、メモリ1586、プロセッサ1506、プロセッサ1510、ディスプレイコントローラ1526、コーデック1534、およびモデム170は、システムインパッケージまたはシステムオンチップデバイス1522に含まれる。特定の実装形態では、入力デバイス1530および電源1544は、システムオンチップデバイス1522に結合される。さらに、特定の実装形態では、図15に示されているように、ディスプレイ1528、入力デバイス1530、スピーカー1592、第1のマイクロフォン110、第2のマイクロフォン120、アンテナ1552、および電源1544は、システムオンチップデバイス1522の外部にある。特定の実装形態では、ディスプレイ1528、入力デバイス1530、スピーカー1592、第1のマイクロフォン110、第2のマイクロフォン120、アンテナ1552、および電源1544の各々は、インターフェース(たとえば、第1の入力インターフェース114または第2の入力インターフェース124)またはコントローラなどの、システムオンチップデバイス1522の構成要素に結合され得る。
[0105] デバイス1500は、スマートスピーカー、スピーカーバー、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、コンピュータ、タブレット、携帯情報端末、ディスプレイデバイス、テレビジョン、ゲームコンソール、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、デジタルビデオディスク(DVD)プレーヤ、チューナー、カメラ、ナビゲーションデバイス、ビークル、ヘッドセット、拡張現実ヘッドセット、仮想現実ヘッドセット、航空ビークル、ホームオートメーションシステム、音声アクティブ化デバイス、ワイヤレススピーカーおよび音声アクティブ化デバイス、ポータブル電子デバイス、車、ビークル、コンピューティングデバイス、通信デバイス、モノのインターネット(IoT)デバイス、仮想現実(VR)デバイス、基地局、モバイルデバイス、またはそれらの任意の組合せを含み得る。
[0106] 説明される実装形態と併せて、装置は、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信するための手段を含む。たとえば、受信するための手段は、第1の入力インターフェース114、第2の入力インターフェース124、特徴抽出器130、動的分類器140、プロセッサ190、1つもしくは複数のプロセッサ1510、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信するように構成された1つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。
[0107] 本装置は、第1のオーディオデータと第2のオーディオデータとに基づいて特徴データを生成するための手段も含む。たとえば、特徴データを生成するための手段は、特徴抽出器130、動的分類器140、プロセッサ190、1つもしくは複数のプロセッサ1510、特徴データを生成するように構成された1つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。
[0108] 本装置は、動的分類器において、特徴データの分類出力を生成するための手段をさらに含む。たとえば、分類出力を生成するための手段は、動的分類器140、プロセッサ190、1つもしくは複数のプロセッサ1510、動的分類器において分類出力を生成するように構成された1つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。
[0109] 本装置は、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段も含む。たとえば、決定するための手段は、動的分類器140、プロセッサ190、1つもしくは複数のプロセッサ1510、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するように構成された1つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。
[0110] 説明される実装形態と併せて、装置は、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信するための手段を含む。たとえば、受信するための手段は、第1の入力インターフェース114、第2の入力インターフェース124、特徴抽出器130、動的分類器140、プロセッサ190、1つもしくは複数のプロセッサ1510、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信するように構成された1つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。
[0111] 本装置は、動的分類器において、オーディオデータに対応する分類出力を生成するための手段をさらに含む。たとえば、分類出力を生成するための手段は、特徴抽出器130、動的分類器140、プロセッサ190、1つもしくは複数のプロセッサ1510、動的分類器において分類出力を生成するように構成された1つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。
[0112] 本装置は、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段も含む。たとえば、決定するための手段は、動的分類器140、プロセッサ190、1つもしくは複数のプロセッサ1510、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するように構成された1つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。
[0113] いくつかの実装形態では、非一時的コンピュータ可読媒体(たとえば、メモリ1586などのコンピュータ可読記憶デバイス)は、1つまたは複数のプロセッサ(たとえば、1つまたは複数のプロセッサ1510またはプロセッサ1506)によって実行されたとき、1つまたは複数のプロセッサに、第1のマイクロフォン(たとえば、第1のマイクロフォン110)の第1の出力に対応する第1のオーディオデータ(たとえば、第1のオーディオデータ116)と、第2のマイクロフォン(たとえば、第2のマイクロフォン120)の第2の出力に対応する第2のオーディオデータ(たとえば、第2のオーディオデータ126)とを含むオーディオデータ(たとえば、オーディオデータ128)を受信させる命令(たとえば、命令1556)を含む。命令はまた、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、オーディオデータに対応する分類出力(たとえば、分類出力142)を生成するために、オーディオデータを動的分類器(たとえば、動的分類器140)に提供させる。一例では、命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、第1のオーディオデータと第2のオーディオデータとに基づいて特徴データ(たとえば、特徴データ132)を生成することと、動的分類器において特徴データを処理することとを行わせる。命令はまた、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定させる。
[0114] 本開示は、以下の例を含む。
[0115] 例1.第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することと、第1のオーディオデータと第2のオーディオデータとに基づいて特徴データを生成することと、特徴データの分類出力を生成するために動的分類器において特徴データを処理することと、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを行うように構成された1つまたは複数のプロセッサを備えるデバイス。
[0116] 例2.第1のマイクロフォンと第2のマイクロフォンとをさらに備え、第1のマイクロフォンは、1つまたは複数のプロセッサに結合され、ユーザの発話をキャプチャするように構成され、第2のマイクロフォンは、1つまたは複数のプロセッサに結合され、周囲音をキャプチャするように構成される、例1のデバイス。
[0117] 例3.特徴データは、第1のオーディオデータと第2のオーディオデータとの間の少なくとも1つの両耳間位相差と、第1のオーディオデータと第2のオーディオデータとの間の少なくとも1つの両耳間強度差とを含む、例1のデバイス。
[0118] 例4.1つまたは複数のプロセッサは、特徴データを生成する前に、第1のオーディオデータと第2のオーディオデータとを変換領域に変換するようにさらに構成され、特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、例3のデバイス。
[0119] 例5.動的分類器は、オーディオデータ内で表される音(sound)が、第2のマイクロフォンよりも第1のマイクロフォンに近いソース(source)から発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化するように構成される、例1のデバイス。
[0120] 例6.1つまたは複数のプロセッサは、特徴データに基づいて動的分類器のクラスタ化動作を更新するようにさらに構成される、例1のデバイス。
[0121] 例7.1つまたは複数のプロセッサは、動的分類器の分類決定基準を更新するようにさらに構成される、例1のデバイス。
[0122] 例8.動的分類器は、自己組織化マップを含む、例1のデバイス。
[0123] 例9.動的分類器は、特徴データのセットのシーケンスを受信し、シーケンス内の特徴データの以前のセットに少なくとも部分的に基づいてシーケンスのセットを適応的にクラスタ化するようにさらに構成される、例1のデバイス。
[0124] 例10.1つまたは複数のプロセッサは、特徴データの少なくとも1つの値の符号または大きさのうちの少なくとも1つにさらに基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するように構成される、例1のデバイス。
[0125] 例11.1つまたは複数のプロセッサは、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始するようにさらに構成される、例1のデバイス。
[0126] 例12.1つまたは複数のプロセッサは、音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも1つを生成するように構成される、例11のデバイス。
[0127] 例13.1つまたは複数のプロセッサは、動的分類器を含む常時接続電力ドメインと、音声コマンド処理ユニットを含む第2の電力ドメインとをさらに含み、起動信号は、音声コマンド処理ユニットをアクティブ化するために、第2の電力ドメインを低電力モードから遷移させるように構成される、例12のデバイス。
[0128] 例14.1つまたは複数のプロセッサに結合されたモデムをさらに備え、モデムは、動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第2のデバイスに送信するように構成される、例1のデバイス。
[0129] 例15.1つまたは複数のプロセッサは、第1のマイクロフォンと第2のマイクロフォンとを含むヘッドセットデバイスに統合され、ヘッドセットデバイスは、ユーザによって装着されたとき、第1のマイクロフォンにおいて、第2のマイクロフォンと比較してより大きい強度およびより少ない遅延でユーザの発話をキャプチャするために、第1のマイクロフォンを第2のマイクロフォンよりもユーザの口の近くに配置するように構成される、例1のデバイス。
[0130] 例16.1つまたは複数のプロセッサは、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、または拡張現実ヘッドセットのうちの少なくとも1つに統合される、例1のデバイス。
[0131] 例17.1つまたは複数のプロセッサは、ビークルに統合され、ビークルは、第1のマイクロフォンと第2のマイクロフォンとをさらに含み、第1のマイクロフォンは、ビークルのオペレータの発話をキャプチャするように配置される、例1のデバイス。
[0132] 例18.音声アクティビティ検出の方法であって、1つまたは複数のプロセッサにおいて、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することと、1つまたは複数のプロセッサにおいて、第1のオーディオデータと第2のオーディオデータとに基づいて特徴データを生成することと、1つまたは複数のプロセッサの動的分類器において、特徴データの分類出力を生成することと、1つまたは複数のプロセッサにおいて、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを備える方法。
[0133] 例19.第1のマイクロフォンは、ユーザの発話をキャプチャするように構成され、第2のマイクロフォンは、周囲音をキャプチャするように構成される、例18の方法。
[0134] 例20.特徴データは、第1のオーディオデータと第2のオーディオデータとの間の少なくとも1つの両耳間位相差と、第1のオーディオデータと第2のオーディオデータとの間の少なくとも1つの両耳間強度差とを含む、例18の方法。
[0135] 例21.特徴データを生成する前に、第1のオーディオデータと第2のオーディオデータとを変換領域に変換することをさらに備え、特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、例20の方法。
[0136] 例22.動的分類器によって、オーディオデータ内で表される音が、第2のマイクロフォンよりも第1のマイクロフォンに近いソースから発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化することをさらに備える、例18の方法。
[0137] 例23.特徴データに基づいて動的分類器のクラスタ化動作を更新することをさらに備える、例18の方法。
[0138] 例24.動的分類器の分類決定基準を更新することをさらに備える、例18の方法。
[0139] 例25.動的分類器は、自己組織化マップを含む、例18の方法。
[0140] 例26.動的分類器において、特徴データのセットのシーケンスを受信することと、シーケンス内の特徴データの以前のセットに少なくとも部分的に基づいてシーケンスのセットを適応的にクラスタ化することとをさらに備える、例18の方法。
[0141] 例27.オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することは、特徴データの少なくとも1つの値の符号または大きさのうちの少なくとも1つにさらに基づく、例18の方法。
[0142] 例28.オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始することをさらに備える、例18の方法。
[0143] 例29.音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも1つを生成することをさらに備える、例28の方法。
[0144] 例30.起動信号は、音声コマンド処理動作を開始するために、電力ドメイン(power domain)を低電力モードから遷移させるように構成される、例29の方法。
[0145] 例31.動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第2のデバイスに送信することをさらに備える、例18の方法。
[0146] 例32.1つまたは複数のプロセッサは、第1のマイクロフォンと第2のマイクロフォンとを含むヘッドセットデバイスに統合され、ヘッドセットデバイスは、ユーザによって装着されたとき、第1のマイクロフォンにおいて、第2のマイクロフォンと比較してより大きい強度およびより少ない遅延でユーザの発話をキャプチャするために、第1のマイクロフォンを第2のマイクロフォンよりもユーザの口の近くに配置する、例18の方法。
[0147] 例33.1つまたは複数のプロセッサは、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、拡張現実ヘッドセット、またはビークルのうちの少なくとも1つに統合される、例18の方法。
[0148] 例34.命令を備える非一時的コンピュータ可読媒体であって、命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することと、第1のオーディオデータと第2のオーディオデータとに基づいて特徴データを生成することと、特徴データの分類出力を生成するために動的分類器において特徴データを処理することと、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを行わせる、非一時的コンピュータ可読媒体。
[0149] 例35.第1のマイクロフォンは、ユーザの発話をキャプチャするように構成され、第2のマイクロフォンは、周囲音をキャプチャするように構成される、例34の非一時的コンピュータ可読媒体。
[0150] 例36.特徴データは、第1のオーディオデータと第2のオーディオデータとの間の少なくとも1つの両耳間位相差と、第1のオーディオデータと第2のオーディオデータとの間の少なくとも1つの両耳間強度差とを含む、例34の非一時的コンピュータ可読媒体。
[0151] 例37.命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサにさらに、特徴データを生成する前に、第1のオーディオデータと第2のオーディオデータとを変換領域に変換させ、特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、例34の非一時的コンピュータ可読媒体。
[0152] 例38.命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサにさらに、動的分類器によって、オーディオデータ内で表される音が、第2のマイクロフォンよりも第1のマイクロフォンに近いソースから発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化させる、例34の非一時的コンピュータ可読媒体。
[0153] 例39.命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサにさらに、特徴データに基づいて動的分類器のクラスタ化動作を更新させる、例34の非一時的コンピュータ可読媒体。
[0154] 例40.命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサにさらに、動的分類器の分類決定基準を更新させる、例34の非一時的コンピュータ可読媒体。
[0155] 例41.動的分類器は、自己組織化マップを含む、例34の非一時的コンピュータ可読媒体。
[0156] 例42.命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、動的分類器において、特徴データのセットのシーケンスを受信することと、シーケンス内の特徴データの以前のセットに少なくとも部分的に基づいてシーケンスのセットを適応的にクラスタ化することとをさらに行わせる、例34の非一時的コンピュータ可読媒体。
[0157] 例43.オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することは、特徴データの少なくとも1つの値の符号または大きさのうちの少なくとも1つにさらに基づく、例34の非一時的コンピュータ可読媒体。
[0158] 例44.命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサにさらに、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始させる、例34の非一時的コンピュータ可読媒体。
[0159] 例45.命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサにさらに、音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも1つを生成させる、例34の非一時的コンピュータ可読媒体。
[0160] 例46.起動信号は、音声コマンド処理動作を開始するために、電力ドメインを低電力モードから遷移させるように構成される、例45の非一時的コンピュータ可読媒体。
[0161] 例47.命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサにさらに、動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第2のデバイスに送信させる、例34の非一時的コンピュータ可読媒体。
[0162] 例48.1つまたは複数のプロセッサは、第1のマイクロフォンと第2のマイクロフォンとを含むヘッドセットデバイスに統合され、ヘッドセットデバイスは、ユーザによって装着されたとき、第1のマイクロフォンにおいて、第2のマイクロフォンと比較してより大きい強度およびより少ない遅延でユーザの発話をキャプチャするために、第1のマイクロフォンを第2のマイクロフォンよりもユーザの口の近くに配置する、例34の非一時的コンピュータ可読媒体。
[0163] 例49.1つまたは複数のプロセッサは、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、拡張現実ヘッドセット、またはビークルのうちの少なくとも1つに統合される、例34の非一時的コンピュータ可読媒体。
[0164] 例50.第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信するための手段と、第1のオーディオデータと第2のオーディオデータとに基づいて特徴データを生成するための手段と、動的分類器において特徴データの分類出力を生成するための手段と、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段とを備える装置。
[0165] 例51.特徴データは、第1のオーディオデータと第2のオーディオデータとの間の少なくとも1つの両耳間位相差と、第1のオーディオデータと第2のオーディオデータとの間の少なくとも1つの両耳間強度差とを含む、例50の装置。
[0166] 例52.特徴データの生成前に、第1のオーディオデータと第2のオーディオデータとを変換領域に変換するための手段をさらに備え、特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、例50の装置。
[0167] 例53.オーディオデータ内で表される音が、第2のマイクロフォンよりも第1のマイクロフォンに近いソースから発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化するための手段をさらに備える、例50の装置。
[0168] 例54.特徴データに基づいて動的分類器のクラスタ化動作を更新するための手段をさらに備える、例50の装置。
[0169] 例55.動的分類器の分類決定基準を更新するための手段をさらに備える、例50の装置。
[0170] 例56.動的分類器は、自己組織化マップを含む、例50の装置。
[0171] 例57.オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始するための手段をさらに備える、例50の装置。
[0172] 例58.音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも1つを生成するための手段をさらに備える、例50の装置。
[0173] 例59.動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第2のデバイスに送信するための手段をさらに備える、例50の装置。
[0174] 例60.オーディオデータを受信するための手段、特徴データを生成するための手段、分類出力を生成するための手段、およびオーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段は、第1のマイクロフォンと第2のマイクロフォンとを含むヘッドセットデバイスに統合され、ヘッドセットデバイスは、ユーザによって装着されたとき、第1のマイクロフォンにおいて、第2のマイクロフォンと比較してより大きい強度およびより少ない遅延でユーザの発話をキャプチャするために、第1のマイクロフォンを第2のマイクロフォンよりもユーザの口の近くに配置する、例50の装置。
[0175] 例61.オーディオデータを受信するための手段、特徴データを生成するための手段、分類出力を生成するための手段、およびオーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段は、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、拡張現実ヘッドセット、またはビークルのうちの少なくとも1つに統合される、例50の装置。
[0176] 例62.命令を記憶するように構成されたメモリと、1つまたは複数のプロセッサとを含み、1つまたは複数のプロセッサは、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することと、オーディオデータに対応する分類出力を生成するように構成された動的分類器にオーディオデータを提供することと、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを行うために命令を実行するように構成された、デバイス。
[0177] 例63.第1のマイクロフォンと第2のマイクロフォンとをさらに含み、第1のマイクロフォンは、1つまたは複数のプロセッサに結合され、ユーザの発話をキャプチャするように構成され、第2のマイクロフォンは、1つまたは複数のプロセッサに結合され、周囲音をキャプチャするように構成される、例62のデバイス。
[0178] 例64.分類出力は、第1のオーディオデータと第2のオーディオデータとの間の利得差(gain difference)、第1のオーディオデータと第2のオーディオデータとの間の位相差、またはそれらの組合せに基づく、例62または63のデバイス。
[0179] 例65.1つまたは複数のプロセッサは、第1のオーディオデータと第2のオーディオデータとに基づいて特徴データを生成し、特徴データを動的分類器に提供するようにさらに構成され、ここにおいて、分類出力は特徴データに基づく、例62から64のいずれか1つのデバイス。
[0180] 例66.特徴データは、第1のオーディオデータと第2のオーディオデータとの間の少なくとも1つの両耳間位相差と、第1のオーディオデータと第2のオーディオデータとの間の少なくとも1つの両耳間強度差とを含む、例65のデバイス。
[0181] 例67.1つまたは複数のプロセッサは、特徴データの少なくとも1つの値の符号または大きさのうちの少なくとも1つにさらに基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するように構成される、例65または66のデバイス。
[0182] 例68.1つまたは複数のプロセッサは、特徴データを生成する前に、第1のオーディオデータと第2のオーディオデータとを変換領域に変換するようにさらに構成され、特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、例65から67のいずれか1つのデバイス。
[0183] 例69.動的分類器は、オーディオデータ内で表される音が、第2のマイクロフォンよりも第1のマイクロフォンに近いソースから発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化するように構成される、例65から68のいずれか1つのデバイス。
[0184] 例70.1つまたは複数のプロセッサは、オーディオデータに基づいて動的分類器のクラスタ化動作を更新するようにさらに構成される、例62から69のいずれか1つのデバイス。
[0185] 例71.1つまたは複数のプロセッサは、動的分類器の分類決定基準を更新するようにさらに構成される、例62から70のいずれか1つのデバイス。
[0186] 例72.動的分類器は、自己組織化マップを含む、例62から71のいずれか1つのデバイス。
[0187] 例73.動的分類器は、オーディオデータのセットのシーケンスを受信し、シーケンス内のオーディオデータの以前のセットに少なくとも部分的に基づいてシーケンスのセットを適応的にクラスタ化するようにさらに構成される、例62から72のいずれか1つのデバイス。
[0188] 例74.1つまたは複数のプロセッサは、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始するようにさらに構成される、例62から73のいずれか1つのデバイス。
[0189] 例75.1つまたは複数のプロセッサは、音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも1つを生成するように構成される、例74のデバイス。
[0190] 例76.1つまたは複数のプロセッサは、動的分類器を含む常時接続電力ドメインと、音声コマンド処理ユニットを含む第2の電力ドメインとをさらに含み、起動信号は、音声コマンド処理ユニットをアクティブ化するために、第2の電力ドメインを低電力モードから遷移させるように構成される、例75のデバイス。
[0191] 例77.1つまたは複数のプロセッサに結合されたモデムをさらに備え、モデムは、動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第2のデバイスに送信するように構成される、例62から76のいずれか1つのデバイス。
[0192] 例78.1つまたは複数のプロセッサは、第1のマイクロフォンと第2のマイクロフォンとを含むヘッドセットデバイスに統合され、ヘッドセットデバイスは、ユーザによって装着されたとき、第1のマイクロフォンにおいて、第2のマイクロフォンと比較してより大きい強度およびより少ない遅延でユーザの発話をキャプチャするために、第1のマイクロフォンを第2のマイクロフォンよりもユーザの口の近くに配置するように構成される、例62から77のいずれか1つのデバイス。
[0193] 例79.1つまたは複数のプロセッサは、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、または拡張現実ヘッドセットのうちの少なくとも1つに統合される、例62から77のいずれか1つのデバイス。
[0194] 例80.1つまたは複数のプロセッサは、ビークルに統合され、ビークルは、第1のマイクロフォンと第2のマイクロフォンとをさらに含み、第1のマイクロフォンは、ビークルのオペレータの発話をキャプチャするように配置される、例62から77のいずれか1つのデバイス。
[0195] 例81.音声アクティビティ検出の方法であって、1つまたは複数のプロセッサにおいて、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することと、1つまたは複数のプロセッサにおいて、オーディオデータに対応する分類出力を生成するためにオーディオデータを動的分類器に提供することと、1つまたは複数のプロセッサにおいて、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを含む、方法。
[0196] 例82.分類出力は、第1のオーディオデータと第2のオーディオデータとの間の利得差、第1のオーディオデータと第2のオーディオデータとの間の位相差、またはそれらの組合せに基づく、例81の方法。
[0197] 例83.動的分類器は、自己組織化マップを含む、例81または82の方法。
[0198] 例84.オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することは、オーディオデータに対応する特徴データの少なくとも1つの値の符号または大きさのうちの少なくとも1つにさらに基づく、例81から83のいずれか1つの方法。
[0199] 例85.オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始することをさらに含む、例81から84のいずれか1つの方法。
[0200] 例86.音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも1つを生成することをさらに含む、例85の方法。
[0201] 例87.動的分類器に基づいた、オーディオデータがユーザ音声アクティビティに対応するという決定に応答して、オーディオデータを第2のデバイスに送信することをさらに含む、例81から86のいずれか1つの方法。
[0202] 例88.命令を含む非一時的コンピュータ可読媒体であって、命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することと、オーディオデータに対応する分類出力を生成するためにオーディオデータを動的分類器に提供することと、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することとを行わせる、非一時的コンピュータ可読媒体。
[0203] 例89.分類出力は、第1のオーディオデータと第2のオーディオデータとの間の利得差、第1のオーディオデータと第2のオーディオデータとの間の位相差、またはそれらの組合せに基づく、例88の非一時的コンピュータ可読媒体。
[0204] 例90.第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信するための手段と、動的分類器において、オーディオデータに対応する分類出力を生成するための手段と、分類出力に少なくとも部分的に基づいて、オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段とを含む装置。
[0205] 例91.分類出力は、第1のオーディオデータと第2のオーディオデータとの間の利得差、第1のオーディオデータと第2のオーディオデータとの間の位相差、またはそれらの組合せに基づく、例90の装置。
[0206] 本明細書で開示される実装形態に関して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者はさらに諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップが、概してそれらの機能に関して上記で説明されてきた。そのような機能がハードウェアまたはプロセッサ実行可能命令として実装されるかどうかは、特定の適用例と全体的なシステムに課された設計制約とに依存する。当業者は、説明された機能を特定の適用例ごとに様々な方法で実装し得、そのような実装形態の決定は、本開示の範囲からの逸脱を起こすものと解釈されるべきではない。
[0207] 本明細書で開示された実装形態に関して説明された方法またはアルゴリズムのステップは、直接ハードウェアで具現化されるか、プロセッサによって実行されるソフトウェアモジュールで具現化されるか、またはその2つの組合せで具現化され得る。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ(CD-ROM)、または当技術分野で知られている任意の他の形態の非一時的記憶媒体中に存在し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体であり得る。プロセッサおよび記憶媒体は、特定用途向け集積回路(ASIC)中に存在し得る。ASICは、コンピューティングデバイスまたはユーザ端末中に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末中に個別構成要素として存在し得る。
[0208] 開示される態様の上記の説明は、開示される態様を当業者が作成または使用することを可能にするために与えられた。これらの態様への様々な変更は当業者には容易に明らかになり、本明細書で定義された原理は本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲を与えられるべきである。
Claims (30)
- 命令を記憶するように構成されたメモリと、
1つまたは複数のプロセッサとを備え、前記1つまたは複数のプロセッサは、
第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することと、
前記オーディオデータを動的分類器に提供することと、前記動的分類器は、前記オーディオデータに対応する分類出力を生成するように構成される、
前記分類出力に少なくとも部分的に基づいて、前記オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することと
を行うために前記命令を実行するように構成される、デバイス。 - 前記第1のマイクロフォンと前記第2のマイクロフォンとをさらに備え、前記第1のマイクロフォンは、前記1つまたは複数のプロセッサに結合され、ユーザの発話をキャプチャするように構成され、前記第2のマイクロフォンは、前記1つまたは複数のプロセッサに結合され、周囲音をキャプチャするように構成される、請求項1に記載のデバイス。
- 前記分類出力は、前記第1のオーディオデータと前記第2のオーディオデータとの間の利得差、前記第1のオーディオデータと前記第2のオーディオデータとの間の位相差、またはそれらの組合せに基づく、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記第1のオーディオデータと前記第2のオーディオデータとに基づいて特徴データを生成するようにさらに構成され、ここにおいて、前記オーディオデータは、前記特徴データとして前記動的分類器に提供され、前記分類出力は、前記特徴データに基づく、請求項1に記載のデバイス。
- 前記特徴データは、
前記第1のオーディオデータと前記第2のオーディオデータとの間の少なくとも1つの両耳間位相差と、
前記第1のオーディオデータと前記第2のオーディオデータとの間の少なくとも1つの両耳間強度差と
を含む、請求項4に記載のデバイス。 - 前記1つまたは複数のプロセッサは、前記特徴データの少なくとも1つの値の符号または大きさのうちの少なくとも1つにさらに基づいて、前記オーディオデータが前記ユーザ音声アクティビティに対応するかどうかを決定するように構成される、請求項4に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記特徴データを生成する前に、前記第1のオーディオデータと前記第2のオーディオデータとを変換領域に変換するようにさらに構成され、前記特徴データは、複数の周波数についての両耳間位相差と、複数の周波数についての両耳間強度差とを含む、請求項4に記載のデバイス。
- 前記動的分類器は、前記オーディオデータ内で表される音が、前記第2のマイクロフォンよりも前記第1のマイクロフォンに近いソースから発生しているかどうかに基づいて、特徴データのセットを適応的にクラスタ化するように構成される、請求項4に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記オーディオデータに基づいて前記動的分類器のクラスタ化動作を更新するようにさらに構成される、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記動的分類器の分類決定基準を更新するようにさらに構成される、請求項1に記載のデバイス。
- 前記動的分類器は、自己組織化マップを含む、請求項1に記載のデバイス。
- 前記動的分類器は、オーディオデータのセットのシーケンスを受信し、前記シーケンス内のオーディオデータの以前のセットに少なくとも部分的に基づいて前記シーケンスのセットを適応的にクラスタ化するようにさらに構成される、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記オーディオデータが前記ユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始するようにさらに構成される、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも1つを生成するように構成される、請求項13に記載のデバイス。
- 前記1つまたは複数のプロセッサは、
前記動的分類器を含む常時接続電力ドメインと、
音声コマンド処理ユニットを含む第2の電力ドメインと、ここにおいて、前記起動信号は、前記音声コマンド処理ユニットをアクティブ化するために前記第2の電力ドメインを低電力モードから遷移させるように構成される、
をさらに含む、請求項14に記載のデバイス。 - 前記1つまたは複数のプロセッサに結合されたモデムをさらに備え、前記モデムは、前記動的分類器に基づいた、前記オーディオデータが前記ユーザ音声アクティビティに対応するという決定に応答して、前記オーディオデータを第2のデバイスに送信するように構成される、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記第1のマイクロフォンと前記第2のマイクロフォンとを含むヘッドセットデバイスに統合され、前記ヘッドセットデバイスは、ユーザによって装着されたとき、前記第1のマイクロフォンにおいて、前記第2のマイクロフォンと比較してより大きい強度およびより少ない遅延で前記ユーザの発話をキャプチャするために、前記第1のマイクロフォンを前記第2のマイクロフォンよりも前記ユーザの口の近くに配置するように構成される、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、モバイルフォン、タブレットコンピュータデバイス、ウェアラブル電子デバイス、カメラデバイス、仮想現実ヘッドセット、または拡張現実ヘッドセットのうちの少なくとも1つに統合される、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、ビークルに統合され、前記ビークルは、前記第1のマイクロフォンと前記第2のマイクロフォンとをさらに含み、前記第1のマイクロフォンは、前記ビークルのオペレータの発話をキャプチャするように配置される、請求項1に記載のデバイス。
- 音声アクティビティ検出の方法であって、
1つまたは複数のプロセッサにおいて、第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することと、
前記1つまたは複数のプロセッサにおいて、前記オーディオデータに対応する分類出力を生成するために、前記オーディオデータを動的分類器に提供することと、
前記1つまたは複数のプロセッサにおいて、前記分類出力に少なくとも部分的に基づいて、前記オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することと
を備える、方法。 - 前記分類出力は、前記第1のオーディオデータと前記第2のオーディオデータとの間の利得差、前記第1のオーディオデータと前記第2のオーディオデータとの間の位相差、またはそれらの組合せに基づく、請求項20に記載の方法。
- 前記動的分類器は、自己組織化マップを含む、請求項20に記載の方法。
- 前記オーディオデータが前記ユーザ音声アクティビティに対応するかどうかを決定することは、前記オーディオデータに対応する特徴データの少なくとも1つの値の符号または大きさのうちの少なくとも1つにさらに基づく、請求項20に記載の方法。
- 前記オーディオデータが前記ユーザ音声アクティビティに対応するという決定に応答して、音声コマンド処理動作を開始することをさらに備える、請求項20に記載の方法。
- 前記音声コマンド処理動作を開始するために起動信号または割込みのうちの少なくとも1つを生成することをさらに備える、請求項24に記載の方法。
- 前記動的分類器に基づいた、前記オーディオデータが前記ユーザ音声アクティビティに対応するという決定に応答して、前記オーディオデータを第2のデバイスに送信することをさらに備える、請求項20に記載の方法。
- 命令を備える非一時的コンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信することと、
前記オーディオデータに対応する分類出力を生成するために、前記オーディオデータを動的分類器に提供することと、
前記分類出力に少なくとも部分的に基づいて、前記オーディオデータがユーザ音声アクティビティに対応するかどうかを決定することと
を行わせる、非一時的コンピュータ可読媒体。 - 前記分類出力は、前記第1のオーディオデータと前記第2のオーディオデータとの間の利得差、前記第1のオーディオデータと前記第2のオーディオデータとの間の位相差、またはそれらの組合せに基づく、請求項27に記載の非一時的コンピュータ可読媒体。
- 第1のマイクロフォンの第1の出力に対応する第1のオーディオデータと、第2のマイクロフォンの第2の出力に対応する第2のオーディオデータとを含むオーディオデータを受信するための手段と、
動的分類器において、前記オーディオデータに対応する分類出力を生成するための手段と、
前記分類出力に少なくとも部分的に基づいて、前記オーディオデータがユーザ音声アクティビティに対応するかどうかを決定するための手段と
を備える装置。 - 前記分類出力は、前記第1のオーディオデータと前記第2のオーディオデータとの間の利得差、前記第1のオーディオデータと前記第2のオーディオデータとの間の位相差、またはそれらの組合せに基づく、請求項29に記載の装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063089507P | 2020-10-08 | 2020-10-08 | |
US63/089,507 | 2020-10-08 | ||
US17/308,593 | 2021-05-05 | ||
US17/308,593 US11783809B2 (en) | 2020-10-08 | 2021-05-05 | User voice activity detection using dynamic classifier |
PCT/US2021/071503 WO2022076963A1 (en) | 2020-10-08 | 2021-09-17 | User voice activity detection using dynamic classifier |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023545981A true JP2023545981A (ja) | 2023-11-01 |
JPWO2022076963A5 JPWO2022076963A5 (ja) | 2024-08-29 |
Family
ID=81079407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023520368A Pending JP2023545981A (ja) | 2020-10-08 | 2021-09-17 | 動的分類器を使用したユーザ音声アクティビティ検出 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11783809B2 (ja) |
EP (1) | EP4226371A1 (ja) |
JP (1) | JP2023545981A (ja) |
KR (1) | KR20230084154A (ja) |
CN (1) | CN116249952A (ja) |
BR (1) | BR112023005828A2 (ja) |
WO (1) | WO2022076963A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11776550B2 (en) * | 2021-03-09 | 2023-10-03 | Qualcomm Incorporated | Device operation based on dynamic classifier |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8194882B2 (en) * | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
WO2009151578A2 (en) * | 2008-06-09 | 2009-12-17 | The Board Of Trustees Of The University Of Illinois | Method and apparatus for blind signal recovery in noisy, reverberant environments |
US9210503B2 (en) * | 2009-12-02 | 2015-12-08 | Audience, Inc. | Audio zoom |
WO2011133924A1 (en) * | 2010-04-22 | 2011-10-27 | Qualcomm Incorporated | Voice activity detection |
US20110288860A1 (en) | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
US9147397B2 (en) * | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
KR20150105847A (ko) * | 2014-03-10 | 2015-09-18 | 삼성전기주식회사 | 음성구간 검출 방법 및 장치 |
CN107293287B (zh) * | 2014-03-12 | 2021-10-26 | 华为技术有限公司 | 检测音频信号的方法和装置 |
EP3248393B1 (en) * | 2015-01-22 | 2018-07-04 | Sonova AG | Hearing assistance system |
US9685156B2 (en) | 2015-03-12 | 2017-06-20 | Sony Mobile Communications Inc. | Low-power voice command detector |
US10186277B2 (en) * | 2015-03-19 | 2019-01-22 | Intel Corporation | Microphone array speech enhancement |
US10475471B2 (en) * | 2016-10-11 | 2019-11-12 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications using a neural network |
US10242696B2 (en) * | 2016-10-11 | 2019-03-26 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications |
US9930447B1 (en) * | 2016-11-09 | 2018-03-27 | Bose Corporation | Dual-use bilateral microphone array |
US9843861B1 (en) * | 2016-11-09 | 2017-12-12 | Bose Corporation | Controlling wind noise in a bilateral microphone array |
US10499139B2 (en) * | 2017-03-20 | 2019-12-03 | Bose Corporation | Audio signal processing for noise reduction |
US10249323B2 (en) | 2017-05-31 | 2019-04-02 | Bose Corporation | Voice activity detection for communication headset |
US10264354B1 (en) * | 2017-09-25 | 2019-04-16 | Cirrus Logic, Inc. | Spatial cues from broadside detection |
US10096328B1 (en) * | 2017-10-06 | 2018-10-09 | Intel Corporation | Beamformer system for tracking of speech and noise in a dynamic environment |
US11074906B2 (en) * | 2017-12-07 | 2021-07-27 | Hed Technologies Sarl | Voice aware audio system and method |
US10885907B2 (en) * | 2018-02-14 | 2021-01-05 | Cirrus Logic, Inc. | Noise reduction system and method for audio device with multiple microphones |
US11062727B2 (en) * | 2018-06-13 | 2021-07-13 | Ceva D.S.P Ltd. | System and method for voice activity detection |
EP3675517B1 (en) * | 2018-12-31 | 2021-10-20 | GN Audio A/S | Microphone apparatus and headset |
US10964314B2 (en) * | 2019-03-22 | 2021-03-30 | Cirrus Logic, Inc. | System and method for optimized noise reduction in the presence of speech distortion using adaptive microphone array |
US11328740B2 (en) * | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
US11917384B2 (en) * | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
-
2021
- 2021-05-05 US US17/308,593 patent/US11783809B2/en active Active
- 2021-09-17 WO PCT/US2021/071503 patent/WO2022076963A1/en active Application Filing
- 2021-09-17 JP JP2023520368A patent/JP2023545981A/ja active Pending
- 2021-09-17 BR BR112023005828A patent/BR112023005828A2/pt unknown
- 2021-09-17 CN CN202180067547.1A patent/CN116249952A/zh active Pending
- 2021-09-17 EP EP21790049.7A patent/EP4226371A1/en active Pending
- 2021-09-17 KR KR1020237011211A patent/KR20230084154A/ko active Search and Examination
Also Published As
Publication number | Publication date |
---|---|
KR20230084154A (ko) | 2023-06-12 |
US20220115007A1 (en) | 2022-04-14 |
US11783809B2 (en) | 2023-10-10 |
BR112023005828A2 (pt) | 2023-05-02 |
WO2022076963A1 (en) | 2022-04-14 |
CN116249952A (zh) | 2023-06-09 |
EP4226371A1 (en) | 2023-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423904B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US10818296B2 (en) | Method and system of robust speaker recognition activation | |
US11694710B2 (en) | Multi-stream target-speech detection and channel fusion | |
US20210012770A1 (en) | Multi-modal user interface | |
JP6397158B1 (ja) | 協調的なオーディオ処理 | |
EP3274988A1 (en) | Controlling electronic device based on direction of speech | |
US11437021B2 (en) | Processing audio signals | |
CN111696570B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
JP2020115206A (ja) | システム及び方法 | |
JP2018533051A (ja) | 協調的なオーディオ処理 | |
US11626104B2 (en) | User speech profile management | |
TW202147862A (zh) | 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法 | |
US11776550B2 (en) | Device operation based on dynamic classifier | |
EP4374367A1 (en) | Noise suppression using tandem networks | |
US11783809B2 (en) | User voice activity detection using dynamic classifier | |
CN115331672B (zh) | 设备控制方法、装置、电子设备及存储介质 | |
US20220261218A1 (en) | Electronic device including speaker and microphone and method for operating the same | |
EP4383253A2 (en) | Relevance based source selection for far-field voice systems | |
WO2024059427A1 (en) | Source speech modification based on an input speech characteristic | |
WO2024177842A1 (en) | Speech enhancement using predicted noise | |
Ishi et al. | Sound interval detection of multiple sources based on sound directivity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240821 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240821 |