CN112073862B - 数字处理器、麦克风组件和对关键字进行检测的方法 - Google Patents
数字处理器、麦克风组件和对关键字进行检测的方法 Download PDFInfo
- Publication number
- CN112073862B CN112073862B CN202010498933.3A CN202010498933A CN112073862B CN 112073862 B CN112073862 B CN 112073862B CN 202010498933 A CN202010498933 A CN 202010498933A CN 112073862 B CN112073862 B CN 112073862B
- Authority
- CN
- China
- Prior art keywords
- lkde
- hkde
- key
- data
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000003139 buffering effect Effects 0.000 claims abstract description 20
- 239000000872 buffer Substances 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 12
- 230000002618 waking effect Effects 0.000 claims description 10
- 230000001629 suppression Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 4
- 230000000153 supplemental effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005476 soldering Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3215—Monitoring of peripheral devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/324—Power saving characterised by the action undertaken by lowering clock frequency
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/325—Power saving in peripheral device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3293—Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
- H04R1/083—Special constructions of mouthpieces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Power Sources (AREA)
Abstract
本发明涉及数字处理器、麦克风组件和对关键字进行检测的方法。本公开描述了音频处理器中的关键字检测以及用于其的方法,该音频处理器包括低功率关键字检测引擎LKDE和高功率关键字检测引擎HKDE。在一个实现中,所述LKDE在缓冲来自多个音频源的数据时在来自单一音频源的数据中检测关键字,并且在对关键字进行检测时,将所述HKDE唤醒,以通过对缓冲的来自所述多个源的音频数据进行处理来验证先前检测到的关键字,其中,所述HKDE被配置成以比所述LKDE高的确定度检测键字。
Description
技术领域
本公开总体上涉及可听关键字检测,并且更具体地,涉及实现关键字检测的处理器、麦克风组件和其它系统,以及其中的方法。
背景技术
麦克风经由换能器将声音转换成表示该声音的电信号。通常还已知对电信号进行处理以确定声音是否包括口述关键字。常规的关键字检测处理器因密集信号处理而需要高处理功率,该密集信号处理是为实现良好的真正率(true positive rate(TPR))(例如,实际上说出关键字的检测率)和较低的误接受率(false acceptance rate(FAR))(例如,装置检测到关键字但实际上并未说出该关键字的检测率)而需要的。远场条件和高噪声条件会增加计算负荷和功耗。然而,虽然高功率确定会增加真正率,但是高功率确定利用了大量的电力和处理资源,而且可能不适于这种电力和资源有限的应用,诸如移动应用以及其它电池供电的应用。
发明内容
本发明的一方面涉及一种对音频数据进行处理的数字处理器,所述数字处理器包括:音频数据接口;缓冲器,所述缓冲器联接至所述音频数据接口,并且被配置成对在所述音频数据接口处接收到的数据进行缓冲;低功率关键字检测引擎LKDE,所述低功率关键字检测引擎被配置成,当在所述缓冲器中缓冲在所述音频数据接口处接收到的数据时,所述低功率关键字检测引擎在所述数据中确定关键字的可能存在;高功率关键字检测引擎HKDE,所述高功率关键字检测引擎被配置成,如果所述LKDE确定了关键字的可能存在,则所述高功率关键字检测引擎从低功率睡眠模式唤醒,并且在唤醒之后,通过对所述缓冲器中的数据进行处理来验证由所述LKDE检测到的所述关键字的可能存在,其中,所述HKDE被配置成以比所述LKDE高的确定度检测关键字。
本发明的另一方面涉及一种麦克风组件,所述麦克风组件包括:壳体,所述壳体具有声音端口以及带有电触点的外部装置接口;电声换能器,所述电声换能器设置在所述壳体中,并且被配置成响应于检测到声能而生成电信号;电路,所述电路设置在所述壳体中,并且电联接至所述外部装置接口的触点,所述电路包括:转换器,所述转换器被配置成将所述电信号转换成数字数据;缓冲器,所述缓冲器联接至所述转换器,并且被配置成对所述数字数据进行缓冲;低功率关键字检测引擎LKDE,所述低功率关键字检测引擎被配置成,当在所述缓冲器中缓冲所述数字数据时,在所述数字数据中检测关键字的存在;以及高功率关键字检测引擎HKDE,所述高功率关键字检测引擎被配置成,如果所述LKDE在所述数字数据中检测到关键字,则所述高功率关键字检测引擎从低功率睡眠模式唤醒,并且在唤醒之后,通过对所述缓冲器中的所述数字数据进行处理来验证由所述LKDE检测到的关键字的存在,其中,所述HKDE被配置成以比所述LKDE高的确定度检测关键字。
本发明的又一方面涉及一种在音频处理器中对关键字进行检测的方法,所述方法包括以下步骤:从至少一个源接收音频数据;对所述音频数据进行缓冲;在进行缓冲时使用低功率关键字检测引擎LKDE来确定所述音频数据是否包括关键字;如果所述LKDE检测到关键字,则从低功率睡眠模式唤醒高功率关键字检测引擎HKDE;通过使用所述HKDE对所缓冲的音频数据进行处理来验证由所述LKDE检测到的关键字的存在,其中,所述LKDE被配置成以高于第一阈值的真正率TPR以及低于第二阈值的误接受率FAR确定关键字的存在,所述第一阈值和所述第二阈值是通过最大可接受功耗来约束的,所述最大可接受功耗与用以唤醒所述HKDE的占空比相关联,并且其中,所述HKDE被配置成以比所述LKDE低的FAR检测关键字的存在。
附图说明
根据下面结合附图的描述和所附权利要求,本公开的目的、特征以及优点将变得更加显而易见。附图仅描绘了代表性的实施方式并因此不被认为是对本公开的范围进行限制,附图的描述包括附加的特异性和细节。
图1是实现关键字检测的系统的框图。
图2是处理器中的关键字检测的状态图。
图3是关键字检测流程图。
图4是麦克风组件的截面图。
具体实施方式
本公开描述了具有改进的计算和功率效率、高TPR以及低FAR的用于可听关键字检测的装置和方法。FAR包括:误识别率(FRR)、冒充接受率(imposter acceptance rate(IAR))以及欺骗接受率(spoof acceptance rate(SAR))等。这种关键字检测是在处理器、麦克风以及其它系统中实现的,并且适于移动装置以及其它电池供电的应用。
关键字检测引擎通常包括可在音频处理器(例如,DSP)或其它硬件装置中实现的低功率关键字检测引擎(LKDE)和高功率关键字检测引擎(HKDE)。可以将LKDE和HKDE实现为可由处理器执行的代码(例如,软件、固件……)。LKDE在缓冲音频数据时,确定从至少一个源(例如,麦克风)获得的音频数据是否包含关键字。由LKDE进行的关键字检测可以基于置信度(以该置信度发生检测)或者基于其它标准。例如,当置信水平或因子满足与基准相对的条件时,可以认为已经发生了关键字的检测。这样的基准可以是固定的和/或一个或更多个变化的背景条件,就像背景噪声一样。其它关键字检测方法中的基于置信度对关键字的可能存在进行检测的硬件可实现方案通常是已知的,并且本文中仅在有限的程度上进行了进一步的讨论。
关键字检测引擎还包括高功率关键字检测引擎(HKDE),如果LKDE检测到关键字的可能存在或者在LKDE检测到关键字的可能存在时,就启用该HKDE(例如,从低功率睡眠模式唤醒)。在唤醒之后,HKDE通过对缓冲器中的数据进行处理来验证先前由LKDE检测到的关键字的可能存在。通常HKDE被配置成,以比LKDE高的准确度或确定度来检测关键字。例如,在一个实现中,LKDE以TPR高于第一阈值并且FAR低于第二阈值确定关键字的可能存在,其中,第一阈值和第二阈值是通过最大可接受功耗来约束的,该最大可接受功耗与用以唤醒HKDE的占空比相关联。HKDE被配置成,以比LKDE更低的FAR来检测关键字的可能存在。
为了实现更大的关键字检测准确度,HKDE可以实现与LKDE类似但更复杂的关键字检测技术。另选地,HKDE可以实现与LKDE不同的关键字检测技术。HKDE还可以使用补充处理方案来提高检测准确度或可靠性。例如,HKDE可以使用复杂的数学概率图、定向噪声抑制(例如波束成形)或者其它噪声消除或抑制技术,和/或结合关键字检测算法的其它处理方案。在本公开中,由HKDE进行的关键字验证意味着以比LKDE更高的确定度或准确度检测关键字。
LKDE的存储器、处理以及功率需求通常低于HKDE的存储器、处理以及功率需求。根据本公开的一个方面,与在HKDE操作期间的相对高功率的操作模式相比,由LKDE进行的关键字检测是在相对低功率的操作模式下来执行的。除非由LKDE检测到关键字,否则HKDE通常保持在低功率睡眠模式。在一些实现中,在低功率操作模式下,LKDE始终开启(ON),而HKDE始终关闭(OFF)。根据本公开的相关方面,由HKDE进行的关键字检测是在相对高功率的操作模式下执行的。
在一些实施方式中,在高功率模式(HKDE在该高功率模式期间操作)期间,数据的缓冲和LKDE的操作继续进行。这样的操作确保了对HKDE正在验证先前检测到的关键字时接收到的音频数据中的关键字继续进行检测,并且防止HKDE进行不必要的OFF/ON循环。在唤醒HKDE之后,可以将LKDE的操作限制成固定的或者可变的持续时间,或者LKDE可以连续操作。在尝试了不成功的关键字验证之后,HKDE还可以保持唤醒达指定的持续时间。LKDE和HKDE保持可操作的持续时间通常有所不同,并且可以是背景(例如噪声水平)、连接至补充电力等等的函数。
图1是采用关键字检测的示例系统100的框图。该系统通常包括:第一麦克风101、第二麦克风102、执行关键字检测的第一处理器103以及主机装置处理器104。麦克风101和102生成表示检测到的声音的对应的音频信号110和120,该音频信号被输入至处理器。在另选实施方式中,处理器对来自仅单个麦克风的输入或者来自两个以上麦克风的输入进行处理。由处理器处理的音频信号是数字的。模拟信号到数字数据的转换发生在关键字检测之前,例如发生在数字麦克风或者将模拟信号转换成数字的某一其它装置处。因此,除非另外指定,否则本文中所指的音频信号或数据是数字的(例如,PCM数据)。图3是实现关键字检测系统的示例方法300。在301,处理器至少从至少一个源(例如,图1中的麦克风101)接收音频数据。
在图1中,第一处理器103包括:低功率关键字检测引擎(LKDE)130、缓冲器131以及高功率关键字检测引擎(HKDE)132。虽然分别示出了低功率模块和高功率模块,但是它们仅仅表示由处理器实现的不同功能。可以在执行存储在处理器的存储器装置中的或者与处理器相关联的存储装置中的计算机可执行代码时来实现这样的功能。另选地,可以采用等效硬件或者采用硬件和软件的组合来实现该功能。在一些实施方式中,主机装置104在被处理器103唤醒时,执行其本身的关键字检测引擎,以进一步验证由处理器103检测到的关键字。在其它实现中,主机装置不执行附加的关键字验证。
在图1中,将缓冲器131联接至处理器103的音频数据接口,以将来自一个或更多个麦克风或者其它源的音频数据输入到该处理器中。在图3中,在302,处理器缓冲从一个或更多个源接收到的音频数据。在一些实施方式中,可选地,所述一个或更多个音频信号在进行缓冲之前在压缩模块133中进行压缩,并且在缓冲之后在解压缩模块134中进行解压缩。压缩模块可以是对传入的音频信号进行压缩或者重新格式化以减少所需的缓冲器或存储器资源的任何算法或信号处理装置。类似地,解压缩模块可以是对从缓冲器输出的音频信号进行解压缩或者重新格式化的任何算法或信号处理装置。
该缓冲器具有有限的容量,并且在以先进先出方式覆盖先前存储的数据之前,存储音频数据达指定的时段。在一些实现中,由LKDE进行的关键字检测始终为ON,并且数据被连续缓冲。在其它实现中,LKDE可以暂停,除非被诸如处理器或主机装置的加速、噪声、背景事件等的某一事件唤醒,在该事件之后启用关键字检测直到超时时段到期为止,此后没有检测到进一步的语音或其它启用活动。为此,可以使用声学活动检测器(AAD)或加速度计。然而,在永远在线模式下LKDE进行的连续缓冲和操作将减少未检测关键字的机会。
通常,当在缓冲器中缓冲音频数据时,LKDE确定该音频数据中是否存在关键字,正如图3中的303所示。LKDE基于与对关键字的检测相关联的置信水平是否满足条件来确定关键字是否存在。虽然图3中的处理示出了在进行关键字检测之前发生的缓冲,但是这些步骤可以同时执行或至少在时间上有一定程度的重叠。在一个实施方式中,LKDE针对关键字仅处理一个音频信号(例如,图1中的第一麦克风101的音频信号110)以最小化计算负担和功耗。另选地,LKDE可以基于背景自适应地处理一个以上的音频信号。这种背景例如可以包括:背景噪声高于某一阈值或者处理器或主机装置连接至补充电源(例如,连接至车载充电器)等等。当背景的变化允许时,LKDE可以恢复成仅处理单一音频信号。
通常,在LKDE检测到音频数据中的关键字后,会从睡眠模式唤醒HKDE,正如图3中的304所示。在唤醒时,HKDE在由LKDE进行关键字检测期间,通过对缓冲的数据进行处理来确定或验证先前由LKDE检测到的关键字的可能存在,正如图3中的305所示。在缓冲来自多个源的音频数据的实现中,HKDE通过对来自多个源的缓冲的数据进行处理,来确定先前由LKDE检测到的关键字的可能存在。对来自多个源的数据进行处理使得HKDE与LKDE相比能够实现具有更大准确度的噪声抑制或其它高阶关键字检测。
然而,在一些实现中,可以在没有由LKDE进行在先关键字检测的情况下,基于背景来唤醒HKDE。这样的背景可能是在背景噪声高于LKDE可以检测到关键字的阈值时、或者是在处理器或主机连接至补充电力时、等等情形。因此,在一些情形下,HKDE被从低功率睡眠模式唤醒,并在音频数据中确定关键字的可能存在,而无需首先由LKDE进行检测。HKDE通常通过对来自多个音频源的数据进行处理来执行关键字检测,但是可能存在对来自仅仅一个源的数据进行处理的情形。而且,在其中处理器在HKDE进行关键字检测时唤醒主机装置的实现中,可以在HKDE确定关键字的存在时对音频数据进行缓冲。因此,在唤醒主机装置时,可以将缓冲的数据移植(ported)到主机进行进一步处理(例如,对由HKDE检测到的关键字进行验证、将缓冲的数据拼接成实时数据等)。处理器可以通过(例如,使用噪声检测算法、外部电力检测算法等)对一个或更多个初步条件进行监测来实现该操作模式。在这个实现中,只有在满足初步条件(例如,噪声水平低于阈值、缺少外部电力等)之后才启用LKDE。否则,将启用HKDE而无需由LKDE进行在先关键字检测。
图1示出了从LKDE传送的HKDE唤醒信号,但是在其它实施方式中,可以通过处理器的某一其它电路或算法(例如,噪声分类器或外部电力检测器)向HKDE传送唤醒信号。
在一些实现中,在由HKDE进行关键字验证时,从处理器103向主机装置104传送中断或唤醒信号150。该唤醒信号提示主机从处理器接收并处理实时音频信号。在一些实现中,主机还从处理器接收并处理缓冲的数据。
图2是实现关键字检测的处理器的示意状态图。在第一状态201中,在缓冲音频数据时,LKDE在音频信号中搜索关键字。HKDE处于睡眠模式,在该睡眠模式期间,HKDE不处理音频数据。可以通过施加较慢的时钟速度和/或本领域中已知的其它手段来控制HKDE睡眠模式。在LKDE检测到关键字之后或者在提示将HKDE唤醒的某一其它条件时,进行从第一状态201到第二状态203的第一转换202,本文讨论了该第一转换的示例。在第二状态203中,根据唤醒HKDE的情况,HKDE尝试从一个或更多个音频信号中检测缓冲的数据中的关键字,以验证先前由LKDE检测到的关键字的存在,或者HKDE在缓冲数据时,在来自一个或更多个源的音频数据中检测关键字。在一些实施方式中,当由HKDE进行关键字的验证或检测时,进行从第二状态203到第三状态206的第二转换205。第三状态可以具有比第一状态和第二状态更高的功率水平。如果HKDE无法验证先前由LKDE检测到的关键字,或者无法检测关键字,则处理器将转换(204)回第一状态201。如所建议的那样,在一些实施方式中,在转换回状态201之前,HKDE保持在第二状态203达某一时段。在一些实施方式中,LKDE标识检测到的关键字在缓冲数据中的大概位置,以方便由HKDE进行验证,从而减少了验证所需的时间以及关联的功耗。关键字位置可以通过时间戳或其它标记来指定。处理器可以类似地为主机标识关键字的位置。
在一些实施方式中,第一处理器103具有本地振荡器,从该本地振荡器获得或者导出时钟信号以向处理器提供时钟。另选地,处理器是由外部时钟来提供时钟的。在将处理器与主机装置集成在一起或者处理器与主机装置一起运行的一些实施方式中,当主机睡眠时,处理器是由本地时钟提供时钟,而在唤醒主机装置之后,处理器是由通过主机或其它源提供给该处理器的外部时钟信号来提供时钟的。可以将外部时钟信号施加至处理器的外部接口,或者施加至集成了处理器的装置(例如,麦克风)的外部接口。
通常,可以将执行关键字检测的处理器或其它装置集成在某一装置中,例如麦克风组件、耳戴式听力装置、便携式通信装置、游戏手机、以及许多其它电子或物联网(IoT)装置或主机。
图4描绘了集成有实现关键字检测的处理器的麦克风组件400的截面图,该麦克风组件通常包括电声换能器402,该电声换能器402被联接至设置在壳体410内的电路403。该换能器可以是微机电系统(MEMS)换能器或其它换能器。可以由一个或更多个集成电路来具体实现该电路,例如,具有模拟和数字电路的ASIC以及执行关键字检测的离散数字信号处理器(DSP)。壳体410可以包括:声音端口480,以及具有与电路联接的触点(例如,用于电力、数据、接地、控制、外部信号等)的外部装置接口413。该外部装置接口被配置为表面安装或者以其它方式安装至主机装置(例如,通过回流焊接)。
在图4中,电路经由连接441接收由电声换能器生成的电信号。该电路可以包括:A/D转换器414、缓冲器415、低功率关键字检测引擎(LKDE)416以及高功率关键字检测引擎(HKDE)417。该缓冲器被联接至转换器并且缓冲数字数据。如本文所讨论的,LKDE确定数字数据中是否可能存在关键字。响应于LKDE确定关键字的存在性高于置信水平,将HKDE唤醒。然后,HKDE通过对缓冲器中的缓冲的数字数据进行处理来验证该数字数据中的关键字的存在。如所解释的,HKDE以比LKDE高的确定度检测关键字的存在。
在一个麦克风组件实现中,麦克风组件的接口包括可连接至第二麦克风组件的电触点,其中,该电路被配置成,接收表示由第二麦克风组件生成的第二电信号的数字数据。在这个实现中,LKDE被配置成,当在缓冲器中缓冲表示由换能器402生成的电信号以及第二电信号两者的数字数据时,通过对表示所述电信号或者所述第二电信号中的至多一个电信号的数字数据进行处理,来检测关键字的存在,并且HKDE被配置成,通过对表示来自换能器402的电信号以及来自第二麦克风组件的第二电信号两者的缓冲的数字数据进行处理,来验证关键字的存在。
出于例示和描述的目的,呈现了例示性实施方式的前述描述。该描述不旨在是详尽的或者限于所公开精确形式,而是可以根据上述教导进行修改和改变,或者可以根据所公开实施方式的实践来获取。本发明的范围旨在通过附于此的权利要求及其等同物来限定。
Claims (18)
1.一种对音频数据进行处理的数字处理器,所述数字处理器包括:
音频数据接口;
缓冲器,所述缓冲器联接至所述音频数据接口,并且被配置成对在所述音频数据接口处接收到的数据进行缓冲;
低功率关键字检测引擎LKDE,所述低功率关键字检测引擎被配置成,当在所述缓冲器中缓冲在所述音频数据接口处接收到的数据时,所述低功率关键字检测引擎在所述数据中确定关键字的可能存在;
高功率关键字检测引擎HKDE,所述高功率关键字检测引擎被配置成,如果所述LKDE确定了关键字的可能存在,则所述高功率关键字检测引擎从低功率睡眠模式唤醒,并且在唤醒之后,通过对所述缓冲器中的数据进行处理来验证由所述LKDE检测到的所述关键字的可能存在,
其中,所述HKDE被配置成以比所述LKDE高的确定度检测关键字,
其中,所述LKDE被配置成以高于第一阈值的真正率TPR以及低于第二阈值的误接受率FAR确定关键字的可能存在,其中,所述第一阈值和所述第二阈值是通过最大可接受功耗来约束的,所述最大可接受功耗与用以唤醒所述HKDE的占空比相关联,并且
其中,所述HKDE被配置成以比所述LKDE低的FAR检测关键字的可能存在。
2.根据权利要求1所述的数字处理器,其中,所述LKDE被配置成基于与对所述关键字的检测相关联的置信水平是否满足条件来确定关键字的可能存在。
3.根据权利要求1所述的数字处理器,
所述音频数据接口是多源接口,并且所述缓冲器被配置成对从多个源接收到的数据进行缓冲,
所述LKDE被配置成,当在所述缓冲器中缓冲从多个源接收到的数据时,所述LKDE通过对来自至多单一源的数据进行处理来确定关键字的可能存在;并且
所述HKDE被配置成通过对来自多个源的缓冲的数据进行处理来验证由所述LKDE检测到的关键字的可能存在。
4.根据权利要求3所述的数字处理器,其中,所述HKDE被配置成通过实现空间选择噪声抑制算法来对来自多个源的缓冲的数据进行处理。
5.根据权利要求1所述的数字处理器,其中,所述LKDE被配置成,只有当满足初步条件时,才确定关键字的可能存在,并且其中,所述HKDE被配置成从所述低功率睡眠模式唤醒,并且如果不满足所述初步条件,则当在所述缓冲器中缓冲所述数据时,所述HKDE在在所述音频数据接口处接收到的数据中确定关键字的可能存在。
6.根据权利要求5所述的数字处理器,其中,所述初步条件是噪声水平低于阈值或者向所述数字处理器供应电池电力。
7.根据权利要求3所述的数字处理器,所述数字处理器还包括外部装置接口,其中,所述数字处理器被配置成,只有在所述HKDE验证了所述关键字的存在之后,才向所述外部装置接口提供外部装置唤醒信号、所缓冲的数据、以及来自所述多个源的实时数据。
8.一种麦克风组件,所述麦克风组件包括:
壳体,所述壳体具有声音端口以及带有电触点的外部装置接口;
电声换能器,所述电声换能器设置在所述壳体中,并且被配置成响应于检测到声能而生成电信号;
电路,所述电路设置在所述壳体中,并且电联接至所述外部装置接口的触点,所述电路包括:
转换器,所述转换器被配置成将所述电信号转换成数字数据;
缓冲器,所述缓冲器联接至所述转换器,并且被配置成对所述数字数据进行缓冲;
低功率关键字检测引擎LKDE,所述低功率关键字检测引擎被配置成,当在所述缓冲器中缓冲所述数字数据时,在所述数字数据中检测关键字的存在;以及
高功率关键字检测引擎HKDE,所述高功率关键字检测引擎被配置成,如果所述LKDE在所述数字数据中检测到关键字,则所述高功率关键字检测引擎从低功率睡眠模式唤醒,并且在唤醒之后,通过对所述缓冲器中的所述数字数据进行处理来验证由所述LKDE检测到的关键字的存在,
其中,所述HKDE被配置成以比所述LKDE高的确定度检测关键字,
其中,所述LKDE被配置成以高于第一阈值的真正率TPR以及低于第二阈值的误接受率FAR检测关键字的存在,其中,所述第一阈值和所述第二阈值是通过最大可接受功耗来约束的,所述最大可接受功耗与用以唤醒所述HKDE的占空比相关联,并且
其中,所述HKDE被配置成以比所述LKDE低的FAR检测关键字的存在。
9.根据权利要求8所述的麦克风组件,其中,所述LKDE被配置成基于检测的置信水平是否满足条件来检测关键字的存在。
10.根据权利要求8所述的麦克风组件,
所述外部装置接口包括能连接至第二麦克风组件的电触点,
所述电路被配置成接收表示由第二麦克风组件生成的第二电信号的数字数据,
所述LKDE被配置成,当在所述缓冲器中缓冲表示所述电信号和所述第二电信号两者的数字数据时,通过对表示所述电信号和所述第二电信号中的至多一个电信号的数字数据进行处理来检测关键字的存在,并且
所述HKDE被配置成通过对表示所述电信号和所述第二电信号两者的缓冲的数字数据进行处理来验证关键字的存在。
11.根据权利要求10所述的麦克风组件,其中,所述HKDE被配置成通过实现空间选择噪声抑制算法来对所缓冲的数字数据进行处理。
12.根据权利要求10所述的麦克风组件,
其中,所述LKDE被配置成以高于第一阈值的真正率TPR以及低于第二阈值的误接受率FAR检测关键字的存在,其中,所述第一阈值和所述第二阈值是通过最大可接受功耗来约束的,所述最大可接受功耗与用以唤醒所述HKDE的占空比相关联,并且
其中,所述HKDE被配置成以比所述LKDE低的FAR检测关键字的存在。
13.根据权利要求8所述的麦克风组件,其中,所述电路被配置成,只有在所述HKDE验证了由所述LKDE检测到的关键字的存在之后,所述电路才向所述外部装置接口提供主机装置唤醒信号、所缓冲的数字数据、以及表示所述电信号的实时数字数据。
14.根据权利要求13所述的麦克风组件,所述电路还包括本地振荡器,其中,所述电路被配置成,在所述电路向所述外部装置接口提供所述主机装置唤醒信号之前,所述电路由所述本地振荡器提供时钟。
15.根据权利要求14所述的麦克风组件,所述外部装置接口包括外部时钟触点,其中,所述电路被配置成,在所述电路向所述外部装置接口提供所述主机装置唤醒信号之后,所述电路由在所述外部时钟触点处接收到的外部时钟信号来提供时钟。
16.一种在音频处理器中对关键字进行检测的方法,所述方法包括以下步骤:
从至少一个源接收音频数据;
对所述音频数据进行缓冲;
在进行缓冲时使用低功率关键字检测引擎LKDE来确定所述音频数据是否包括关键字;
如果所述LKDE检测到关键字,则从低功率睡眠模式唤醒高功率关键字检测引擎HKDE;
通过使用所述HKDE对所缓冲的音频数据进行处理来验证由所述LKDE检测到的关键字的存在,
其中,所述LKDE被配置成以高于第一阈值的真正率TPR以及低于第二阈值的误接受率FAR确定关键字的存在,所述第一阈值和所述第二阈值是通过最大可接受功耗来约束的,所述最大可接受功耗与用以唤醒所述HKDE的占空比相关联,并且其中,所述HKDE被配置成以比所述LKDE低的FAR检测关键字的存在。
17.根据权利要求16所述的方法,
从多个源接收音频数据;
在缓冲来自多个源的音频数据时,通过使用所述LKDE对来自至多一个源的音频数据进行处理来确定所述音频数据是否包括关键字;
通过使用所述HKDE对来自多个源的缓冲的数据进行处理来验证关键字的存在。
18.根据权利要求17所述的方法,基于用以检测所述关键字的置信水平是否满足条件来确定所述音频数据是否包括关键字。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201911022998 | 2019-06-10 | ||
IN201911022998 | 2019-06-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112073862A CN112073862A (zh) | 2020-12-11 |
CN112073862B true CN112073862B (zh) | 2023-03-31 |
Family
ID=73657543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010498933.3A Active CN112073862B (zh) | 2019-06-10 | 2020-06-04 | 数字处理器、麦克风组件和对关键字进行检测的方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210005181A1 (zh) |
CN (1) | CN112073862B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11721338B2 (en) * | 2020-08-26 | 2023-08-08 | International Business Machines Corporation | Context-based dynamic tolerance of virtual assistant |
TWI765485B (zh) * | 2020-12-21 | 2022-05-21 | 矽統科技股份有限公司 | 外接式語音喚醒裝置及其控制方法 |
CN114743541B (zh) * | 2022-04-24 | 2023-03-17 | 广东海洋大学 | 一种英语听说学习用互动系统 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9838810B2 (en) * | 2012-02-27 | 2017-12-05 | Qualcomm Technologies International, Ltd. | Low power audio detection |
US10051396B2 (en) * | 2012-09-10 | 2018-08-14 | Nokia Technologies Oy | Automatic microphone switching |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
US9589560B1 (en) * | 2013-12-19 | 2017-03-07 | Amazon Technologies, Inc. | Estimating false rejection rate in a detection system |
WO2015094369A1 (en) * | 2013-12-20 | 2015-06-25 | Intel Corporation | Transition from low power always listening mode to high power speech recognition mode |
US9899021B1 (en) * | 2013-12-20 | 2018-02-20 | Amazon Technologies, Inc. | Stochastic modeling of user interactions with a detection system |
KR102018152B1 (ko) * | 2014-03-31 | 2019-09-04 | 인텔 코포레이션 | 항상-온-항상-청취 음성 인식 시스템을 위한 위치 인식 전력 관리 스킴 |
US10770075B2 (en) * | 2014-04-21 | 2020-09-08 | Qualcomm Incorporated | Method and apparatus for activating application by speech input |
US9734822B1 (en) * | 2015-06-01 | 2017-08-15 | Amazon Technologies, Inc. | Feedback based beamformed signal selection |
US10289819B2 (en) * | 2015-08-12 | 2019-05-14 | Kryptowire LLC | Active authentication of users |
WO2018118744A1 (en) * | 2016-12-19 | 2018-06-28 | Knowles Electronics, Llc | Methods and systems for reducing false alarms in keyword detection |
EP3574499B1 (en) * | 2017-01-26 | 2022-01-05 | Cerence Operating Company | Methods and apparatus for asr with embedded noise reduction |
US10311870B2 (en) * | 2017-05-10 | 2019-06-04 | Ecobee Inc. | Computerized device with voice command input capability |
US10789949B2 (en) * | 2017-06-20 | 2020-09-29 | Bose Corporation | Audio device with wakeup word detection |
US10304475B1 (en) * | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
US10157611B1 (en) * | 2017-11-29 | 2018-12-18 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10601599B2 (en) * | 2017-12-29 | 2020-03-24 | Synaptics Incorporated | Voice command processing in low power devices |
US11264037B2 (en) * | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US20200279558A1 (en) * | 2019-03-01 | 2020-09-03 | DSP Concepts, Inc. | Attention processing for natural voice wake up |
-
2020
- 2020-06-04 US US16/892,693 patent/US20210005181A1/en not_active Abandoned
- 2020-06-04 CN CN202010498933.3A patent/CN112073862B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US20210005181A1 (en) | 2021-01-07 |
CN112073862A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112073862B (zh) | 数字处理器、麦克风组件和对关键字进行检测的方法 | |
EP3219109B1 (en) | Reduced microphone power-up latency | |
US10313796B2 (en) | VAD detection microphone and method of operating the same | |
CN111566730B (zh) | 低功率设备中的语音命令处理 | |
US9799215B2 (en) | Low power acoustic apparatus and method of operation | |
EP3748631B1 (en) | Low power integrated circuit to analyze a digitized audio stream | |
CN107403621B (zh) | 语音唤醒装置及方法 | |
CN106992015B (zh) | 语音激活系统 | |
US9613626B2 (en) | Audio device for recognizing key phrases and method thereof | |
US20170214994A1 (en) | Earbud Control Using Proximity Detection | |
CN107742523B (zh) | 语音信号处理方法、装置以及移动终端 | |
TW201519222A (zh) | 聲音活動偵測裝置和方法 | |
CN108597507A (zh) | 远场语音功能实现方法、设备、系统及存储介质 | |
WO2018118744A1 (en) | Methods and systems for reducing false alarms in keyword detection | |
CN103901782A (zh) | 一种声控方法、电子设备及声控装置 | |
CN113630708A (zh) | 耳机麦克风异常检测的方法、装置、耳机套件及存储介质 | |
US10104472B2 (en) | Acoustic capture devices and methods thereof | |
CN110265007B (zh) | 语音助手系统的控制方法、控制装置及蓝牙耳机 | |
CN113905302B (zh) | 触发提示信息的方法、装置以及耳机 | |
CN110310635B (zh) | 语音处理电路及电子设备 | |
US20220223168A1 (en) | Methods and apparatus for detecting singing | |
US11776538B1 (en) | Signal processing | |
CN110061890B (zh) | 数据传输控制电路、终端设备及数据传输线 | |
CN113628616A (zh) | 音频采集设备、无线耳机以及电子设备系统 | |
CN114143651A (zh) | 用于骨传导耳机的语音唤醒方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |