CN111837179A - 捕获噪声用于模式识别处理的系统和方法 - Google Patents
捕获噪声用于模式识别处理的系统和方法 Download PDFInfo
- Publication number
- CN111837179A CN111837179A CN201980018174.1A CN201980018174A CN111837179A CN 111837179 A CN111837179 A CN 111837179A CN 201980018174 A CN201980018174 A CN 201980018174A CN 111837179 A CN111837179 A CN 111837179A
- Authority
- CN
- China
- Prior art keywords
- audio data
- audio
- speech
- onset
- captured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 title claims description 66
- 238000003909 pattern recognition Methods 0.000 title description 26
- 230000004044 response Effects 0.000 claims abstract description 10
- 239000000872 buffer Substances 0.000 claims description 36
- 238000005070 sampling Methods 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 16
- 230000003139 buffering effect Effects 0.000 claims description 15
- 230000000737 periodic effect Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 230000002618 waking effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 238000012544 monitoring process Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 239000000758 substrate Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000010420 art technique Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000218691 Cupressaceae Species 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
Abstract
示例系统和方法通过以第一间隔周期性地捕获音频数据来捕获音频数据的第一多个部分。实施例检测音频数据中的语音开始。响应于检测到语音开始,系统和方法从周期性地捕获音频数据切换到连续地捕获音频数据。实施例组合音频数据的第一多个捕获部分的至少一个捕获部分与连续捕获的音频数据,以提供连续的音频数据。
Description
相关申请
本申请是于2018年6月22日提交的第16/016,344号美国非临时申请的国际申请,该非临时申请要求于2018年3月12日提交的第62/641,767号美国临时申请的优先权权益,这两个申请都通过引用以其整体并入本文。
技术领域
本主题涉及模式识别解决方案领域。更具体地,但不是作为限制,本主题公开了用于捕获模式识别处理的噪声的技术。
背景
具有“始终开启”或“始终监听”语音接口能力的设备(诸如支持语音的数字助理、智能扬声器和免提接口)传统上需要恒定电力,这要么消耗电池电力,要么需要电源插座。具有语音识别能力的设备的部分可以保持在低功耗模式,直到检测到类似语音的声音,此时短语检测可以确定是否已经说出了特定的单词或短语(即,唤醒短语)。唤醒短语检测的实现导致功耗增加,这是由于设备的部分长时间保持在通电状态(例如,“始终开启”)。
附图简述
在附图的图中,一些实施例通过示例而非限制的方式示出,在附图中:
图1是图示了根据各种实施例的联网音频处理设备的框图;
图2是图示了根据实施例的音频处理设备的部件的框图;
图3是图示了根据实施例的音频处理设备的功率域的框图;
图4是图示根据实施例的周期性捕获音频数据以提供用于语音识别的连续音频数据的方法的流程图;
图5是图示根据实施例的音频数据的周期性捕获的交互式时序图;
图6是示出根据实施例的唤醒短语的最终识别百分比的图表;
图7是图示根据实施例的周期性激活阈值计算的方法的流程图;
图8是图示根据实施例的周期性激活阈值计算的交互式时序图;和
图9是图示根据实施例的电子设备的框图。
详细描述
描述了捕获噪声用于模式识别的系统和方法。在下面的描述中,为了解释的目的,阐述了许多示例和实施例,以提供对所要求保护的主题的深入了解。对于本领域技术人员将明显的是,所要求保护的主题可以在其他实施例中进行实践。现在简要介绍一些实施例,并然后结合从图1开始的其他实施例进行更详细的讨论。
智能扬声器、助听器、声控集线器、手机、白色家电和工业机械都是越来越具备语音接口能力的产品。提供“始终开启”或“始终监听”语音接口能力的系统可以包括多个功率域,每个功率域可以在一个或更多个功耗状态下工作。例如,唤醒短语检测功率域可以保持在低功耗模式,直到语音开始检测功率域检测到类似语音的声音。此时,唤醒短语检测功率域转换到活动模式以执行唤醒短语检测。典型的唤醒短语检测器(WUPD)需要在唤醒短语之前的噪声(例如,前导噪声或背景噪声),以便它可以处理整个唤醒短语并用于噪声统计估计。在现有技术中,系统功率主要由语音开始检测功率域决定,因为它的麦克风必须始终保持开启,它的数字化电路必须始终提供高质量的音频,并且它的存储缓冲器必须始终通电、管理和捕获WUPD的背景噪声。
本文描述的实施例可以通过周期性地捕获背景噪声以供WUPD稍后使用来降低音频处理设备消耗的功率,同时提供与那些持续且重复地捕获背景噪声的设备所提供的语音识别率相当的语音识别率。因此,所公开的音频处理设备的麦克风不需要一直被完全供电,并且语音开始检测器(SOD)可以使用比WUPD所使用的更低质量的音频数据来执行语音开始检测。在实施例中,周期性捕获的背景噪声也可以用于确定是否应该调整麦克风的激活阈值,以避免SOD的不必要的功耗。与现有技术相比,实施例能够以较低的功耗实现“始终开启”或“始终监听”功能。本文将进一步详细描述这些和其他实施例。
下面的详细描述包括对附图的引用,附图构成详细描述的一部分。附图示出根据实施例的图示。这些实施例,其也在本文被称为“示例”,被足够详细地描述以使本领域技术人员能够实践所要求保护的主题的实施例。在不偏离要求保护的内容的情况下,可将实施例组合,可利用其它实施例,或可做出结构的、逻辑的和电气的改变。因此,以下详细描述不应被理解为限制性的,并且范围由所附权利要求及其等同物限定。
图1是示图了根据各种实施例的联网音频处理设备102的框图100。音频处理设备102被示为通过网络114耦合到模式识别应用112和受控设备103。音频处理设备102通过处理分别基于从音频模式源104和噪声源106接收的声波105和107(例如,音频信号)中的一个或更多个生成的音频数据110来促进音频模式识别。如下面将进一步详细描述的,音频处理设备102可以通过确定是否已经说出唤醒短语110.3来促进音频模式识别。在一些实施例中,音频处理设备102还可以识别和/或处理跟随在唤醒短语110.3之后的查询或命令110.4。音频处理设备102不需要耦合到网络114来实现本文描述的实施例。
音频模式源104提供对应于可识别音频模式的声波105。在实施例中,音频模式是由与音频处理设备102相关联的模式识别应用可识别的音频模式和/或预定音频模式。音频模式源104可以是有生命的(例如人类)或无生命的一个物体或更多个物体(例如机器)。
噪声源106提供与可识别的音频模式或声波105不对应的声波107。噪声源106也可以是有生命的或无生命的,并且可以包括来自扬声器、电视、视频游戏、街道交通噪声、人类扬声器、工业或生成外界(ambient)噪声的任何其他噪声源的环境外界噪声。
网络114可以包括一种或更多种类型的有线和/或无线网络,用于将图1的网络节点通信地耦合到另一个网络节点。例如但不限于网络114可以包括无线局域网(WLAN)(例如,符合Wi-Fi(802.11))、PAN(例如,符合Bluetooth SIG标准或Zigbee(IEEE 802.15.4))和互联网。在实施例中,音频处理设备102通过Wi-Fi和互联网通信地耦合到模式识别应用112并且通过蓝牙和/或Wi-Fi耦合到受控设备103。
模式识别应用112操作以识别音频模式并将识别的音频模式与相应的语意相关联。模式识别应用112可以位于在通过链路耦合到网络114的一个或更多个计算设备上,并且使用处理器、存储器、电路、算术逻辑、软件、算法和数据结构来组织和处理可听声音的属性(包括音高、音量、音色、重复声音或节奏声音和/或诸如单词、短语等语言声音)或通过使用其来实现。在一些实施例中,响应于音频处理设备102检测或识别到音频数据110的唤醒短语110.3部分,模式识别应用112识别音频数据110的命令或查询部分110.4。在其他实施例中,模式识别应用112可以在音频处理设备102本身上实现。
在实施例中,模式识别应用112包括自动语音识别(ASR)技术,其识别预定音频模式并且(例如使用数据结构)将它们彼此相关联和/或将它们与相应的语意相关联。模式识别应用112可识别的模式可以促进例如但不限于音乐识别、歌曲识别、人声识别、图像识别和语音识别,或者任何其他感测到的模式。在实施例中,模式识别应用112将其结果提供给音频处理设备102,音频处理设备102可以对命令或查询采取行动。
受控设备103被示为通过链路耦合到网络114。受控设备103可以包括具有能够响应于由音频处理设备102促进的音频模式识别而启动的功能的任何设备。在一些实施例中,音频处理设备基于由模式识别应用112执行的音频模式识别的结果来控制受控设备103。示例受控设备包括白色家电、恒温器、照明设备、自动百叶窗、自动门锁、汽车控件、窗户、工业控件和致动器。如本文所使用的,受控设备可以包括由受控设备103运行的任何逻辑、固件或软件应用。
如上面介绍的,音频处理设备102可以通过处理音频数据110来促进音频模式识别。音频数据被示为包括前导噪声110.1(例如,背景噪声)、语音开始110.2、唤醒短语110.3和查询或命令110.4。前导噪声110.1是对应于声波107的音频数据,并且包括在开始110.2之前的环境中的外界噪声。语音开始110.2、唤醒短语110.3和查询或命令110.4是对应于声波105(例如,要识别的语音)和声波107(例如,外界噪声)的音频数据。语音开始110.2是音频数据110中语音的开端,并且被示为唤醒短语110.3的开端部分或子集。唤醒短语110.2是由用户说出的预定短语(例如,“好的电话”)。在说出唤醒短语110.2之后,用户说出要(例如,由受控设备103)执行的查询或命令110.3(例如,“打开门”)。
为了节省功率,如果音频处理设备102已经检测到语音开始110.2,则音频处理设备102可以仅尝试检测唤醒短语110.3。类似地,只有当音频处理设备102检测到唤醒短语110.3时,才可以尝试命令或查询110.4的语音识别。在先前的“始终监听”解决方案中,音频处理设备102连续地且重复地用前导噪声110.1(例如,250ms的前导噪声)填充其缓冲器,用于估计噪声(例如,外界噪声)和避免短语截短。避免短语截短意味着提供用于唤醒短语检测的唤醒短语110.3,而没有切断或截短唤醒短语110.3的开头的延迟。短语截短会由检测语音开始和唤醒WUPD的延迟引起。因此,与连续且重复地填充缓冲器相关联的先前解决方案的功率域保持在功耗活动模式,而不管是否检测到任何语音开始。估计的噪声帮助音频处理设备102从唤醒短语110.3中去除噪声(例如,外界噪声),用于唤醒短语检测。前导噪声110.1的连续和重复捕获(例如,采样和缓冲)可能涉及显著的功耗,这在电池供电的音频处理设备中可能特别有影响。此外,外界噪声条件的变化会在语音开始检测中触发误报。
在他们对解决这些和其他技术挑战的研究中,发明人确定在一些环境中,噪声统计(例如,基于背景噪声107)通常在相对短的时间段(例如,10-30s)内没有显著变化。可能会出现一些噪声瞬变(例如,汽车喇叭),但这可能会在连续填充的前导噪声缓冲期间(例如,250ms)发生,因为它是较早的短周期。发明人发现,以周期性间隔对噪声进行采样和缓冲可以提供噪声的统计样本,该样本充分表示了在先前技术中连续和重复收集的噪声。发明人还发现,一些截短量(例如,高达10ms)可能不会导致唤醒短语检测率的降低,并且在检测率的任何显著降低之前,可能会出现更大量(例如,10-20ms)的截短。发明人利用他们的发现设计了在本文中描述的发明性的技术系统、装置和方法,这些技术系统、装置和方法有助于具有与先前技术相比的减低功耗的音频模式识别,同时提供至少相当的识别率。
图2是图示了根据实施例的音频处理设备202的部件的框图。音频处理设备202被示为包括功能块,其包括麦克风阵列220、音频接口221、阈值计算模块222、SOD 223、音频接口控件224、缓冲器225、组合器226和WUPD 228。每个功能块可以耦合到总线系统227(例如,I2C,I2S)并且使用硬件(例如电路)、指令(例如软件和/或固件)或者硬件和指令的组合来实现。在一个实施例中,音频处理设备202的一些或全部由集成电路设备中(即,在单个集成电路衬底上)或单个设备封装中的电路实现。在替代实施例中,音频处理设备202的部件分布在多个集成电路设备、设备封装或其他电路中。
麦克风阵列220用于接收声波,诸如图1的105和107。麦克风阵列220的每个麦克风包括将声波能量转换成电子信号或数字信号(例如,音频数据)的换能器或其他机构(例如,包括膜片)。麦克风阵列220可以包括一个或更多个麦克风,并且在本文中有时被称为麦克风220。当声波105和107在公共周期期间被接收时,音频数据包括对应于声波105和107的分量。在一些实施例中,阵列220中的一个或更多个麦克风可以是数字麦克风。麦克风阵列220可以是音频接口221的一部分,或者是音频处理设备202外部但耦合到总线系统227的独立外围设备。在一些实施例中,麦克风阵列可以包括用于激活检测和测量的阈值/滞后设置和/或处理逻辑,以确定麦克风阵列220接收的声波是否满足或超过激活阈值,以及相应的音频数据是否应该被传递到SOD 223进行处理。在各种实施例中,激活的阈值水平可以是声波的能级、振幅、频率或任何其他属性。麦克风阵列220可以耦合到存储激活阈值的存储器,该存储器可以是动态可重编程的(例如,通过阈值计算模块222)。
音频接口221包括处理和分析从麦克风阵列220接收的音频数据的电路。在实施例中,音频接口221数字化电子音频信号。一旦被数字化,音频接口221可以提供信号处理(例如,解调、混合、滤波),以分析或操纵音频数据的属性(例如,相位、波长、频率)。
在一个实施例中,音频接口221包括连接到麦克风阵列220的脉冲密度调制器(PDM)前端。在PDM前端中,PDM基于来自麦克风阵列220的电子信号生成脉冲密度调制比特流。PDM向麦克风220提供确定初始采样率的时钟信号,然后从麦克风220接收表示从环境捕获的音频的数据信号。根据数据信号,PDM生成PDM比特流,并且可以将比特流提供给抽取器,抽取器可以通过提供高质量音频数据或者通过将来自PDM的脉冲密度调制比特流的采样率降低到低质量音频数据来生成提供给总线系统227的音频数据。在替代实施例中,音频数据源是辅助模数转换器(AUX ADC)前端。在辅助ADC前端中,模数转换器将来自麦克风220的模拟信号转换成数字音频信号。数字音频信号可以被提供给抽取器,以通过提供高质量音频数据或者通过将来自ADC的数字音频信号的采样率降低到低质量音频数据来生成提供给总线系统227的音频数据。
音频接口控件224用于控制由音频接口221或麦克风阵列220采样的定时以及由音频接口221或麦克风阵列220采样的采样率。例如,音频接口控件224可以控制提供给SOD223和缓冲器225的音频数据的音频质量(例如,采样率),并且还可以控制这种音频数据应该周期性地或连续地提供给总线系统227的时间。尽管显示为单独的功能块,但是音频接口控件224的功能可以由SOD 223和/或缓冲器225或任何其他功能块来执行。可选地或附加地,音频接口控件224可以位于下面参考图3讨论的一个或更多个功率域中。
SOD 223用于确定从音频接口221接收的音频数据是否是语音开始。SOD 223可以使用本领域普通技术人员已知的任何语音开始检测算法或技术。在实施例中,具有降低的采样率(例如,2-4kHz)的音频数据足以检测语音开始(或其他声音开始事件),同时允许SOD223以较低的频率计时,从而降低SOD 223的功耗和复杂性。在检测到语音开始事件时,SOD223在总线227上断言状态信号,以将WUPD 228从低功耗状态(例如,睡眠状态)唤醒到较高功耗状态(例如,活动状态),从而执行短语检测,这将在下面进一步讨论。
阈值计算模块222监控外界噪声,以动态计算并潜在地重新调整应该触发语音开始检测的音频的激活阈值,以避免SOD 223的不必要的处理。在实施例中,音频接口控件224使音频接口221以周期性间隔向阈值计算模块222提供音频数据(例如,外界噪声)。在实施例中,阈值计算模块222可以将激活阈值水平从低于外界噪声的当前水平重置为高于外界噪声的当前水平。
缓冲器225用于存储周期性采样的前导噪声音频数据。在实施例中,缓冲器225的大小被设置为存储略多于250ms的音频数据(例如,253ms),以适应如下讨论的组合。可选地或附加地,在SOD 223检测到语音开始之后,缓冲器225可以充当通道,以使包括唤醒短语110.3和命令或查询110.4的连续采样的音频数据通过。在实施例中,音频接口控件224使音频接口221以周期性间隔向缓冲器225提供前导噪声。一旦SOD 223检测到类似语音的声音,音频接口控件224就可以使音频接口221向缓冲器连续地提供剩余的音频数据110.2、110.3和110.4。
组合器226用于使用周期性捕获的前导噪声110.1和连续捕获的剩余音频数据110.2、110.3和110.4来生成连续的音频数据。在实施例中,组合器226将最后周期性捕获的音频数据的结束部分与连续捕获的音频数据的开端部分拼接。例如,组合器226可以使用重叠相加操作来将3ms的前导噪声与连续捕获的音频数据重叠。组合器226可以经由总线系统227向WUPD 228输出连续的音频数据。
WUPD 228用于确定由组合器226输出的连续的音频数据是否包括唤醒短语。WUPD228可以包括处理单元,当WUPD 228被激活时,该处理单元执行更高复杂性和更高功率的计算(例如,相对于SOD 223),以确定唤醒单词或短语是否已经被说出。WUPD 228基于记录在缓冲器225中的音频数据(对应于语音开始之前的时间)和在检测到语音开始之后接收的高质量音频数据做出该确定。
图3是图示了根据实施例的音频处理设备300的功率域的框图。根据系统操作的需求,音频处理设备300的功率域可以在不同的时间以不同的功耗模式操作。例如且非限制,功率域可以在活动模式、监控模式或睡眠模式中操作。在实施例中,功率域的活动模式可以具有比监控模式和睡眠模式更高的功耗率。
传感器功率域330被示为包括麦克风阵列和音频接口。在实施例中,当麦克风阵列监听并监控满足或超过激活阈值的音频活动时,传感器功率域330在监控模式下操作。当音频接口对音频数据采样时,传感器功率域330在活动模式下操作。当音频接口以较低的采样率(例如,2-8kHz)采样时,活动模式可以被认为是低质量活动模式,而当音频接口以较高的采样率(例如,大于8kHz)采样时,活动模式可以被认为是高质量活动模式。仅在一个实施例中,传感器功率域330在大约98%的时间内在监控模式下操作,在大约1%的时间内在低质量活动模式下操作,且在大约1%的时间内在高质量活动模式下操作。
SOD功率域340被示为包括SOD和阈值计算模块。在实施例中,当阈值计算模块正在处理音频数据以计算更新的激活阈值时,SOD功率域340在活动模式下操作。当阈值计算模块不处理音频数据时,SOD功率域340在睡眠模式下操作。例如,关于间隔的周期性激活阈值计算,SOD功率域340可以通过占空比在1%(例如,100ms开)的时间的活动模式下操作(例如用于计算),并且在99%(例如,10s关)的时间的睡眠模式下操作(例如在间隔期间)。当SOD功率域340处理音频数据以确定音频数据是否包括类似语音的声音时,它也间歇地在活动模式下操作(例如,由处于激活阈值的音频触发)。将激活阈值更新到高于当前外界噪声的水平可以避免不必要地唤醒SOD来执行语音开始检测。
缓冲器功率域360被示为包括缓冲器和组合器。缓冲器功率域360可以在缓冲器主动填充其缓冲器时在活动模式下操作,并且可以在缓冲器保持存储的音频数据但不主动填充时在睡眠模式下操作。关于间隔的周期性缓冲,缓冲器功率域360可以通过占空比以在1%(例如,250ms开)的时间内在活动模式下操作,并且在99%(25s关)的时间内在睡眠模式下操作。在一些实施例中,当组合器执行拼接操作以将前导噪声与连续传递给WUPD的音频数据组合时,缓冲器功率域360也可以在活动模式下操作。
在实施例中,WUPD功率域380在睡眠模式下操作,直到它被SOD触发进入活动模式以处理用于唤醒短语检测的音频数据。99%的时间,WUPD功率域380在睡眠模式下操作,但是由于SOD的错误触发,仍然可能被错误地唤醒到活动模式。
图4是图示根据实施例的周期性捕获音频数据(例如前导噪声)以提供用于语音识别的连续音频数据的方法的流程图。可以通过包括硬件(电路、专用逻辑电路等)、软件(诸如运行在通用计算系统或专用机上)、固件(嵌入式软件)或它们的任意组合的处理逻辑执行方法400。在各种实施例中,方法400可以如参考图2、图3和图5所示和所述的那样执行。
图5是图示根据实施例的音频数据的周期性捕获的交互式时序图。
例如,在块402处,传感器功率域330和缓冲器功率域360的部件通过以第一间隔周期性地捕获音频数据来捕获音频数据的第一多个部分。参考图5,周期性地捕获音频数据包括以活动模式操作传感器功率域330以采样音频数据,以及以活动模式操作缓冲器功率域以缓冲采样的音频数据。在间隔期间,传感器功率域330可以在较低功耗(例如,与其活动模式相比)的监控模式下操作,并且缓冲器功率域360可以在较低功耗(例如,与其活动模式相比)的睡眠模式下操作。
在实施例中,音频接口控件224可以基于环境的估计噪声特性或音频处理设备的功耗要求来设置或动态调整任一或两个间隔。例如,间隔可以在制造阶段期间基于预期的操作环境和条件进行初始设置。可选地或附加地,音频接口控件224可以在运行时间期间监控噪声幅度、噪声变化、一天中的时间、设备位置、电池功率和/或其他测量值,执行相应的分析,并使用分析结果动态调整间隔以满足性能目标。
在块404处,SOD功率域340的部件检测音频数据中的语音开始。如图5所示,在检测语音开始之前,SOD功率域340可以在睡眠模式下操作。当麦克风阵列220处的音频数据满足或超过激活阈值时,麦克风阵列220唤醒SOD 223以执行语音开始检测算法,从而确定音频数据中是否存在类似语音的信号。
应当注意,SOD 223可以检测音频数据中的语音开始,而不使用音频数据的捕获的多个部分。例如,音频接口可以以第一采样率(例如,16kHz)对周期性捕获的音频数据的音频数据进行采样,同时以小于第一采样率的第二采样率(例如,4kHz)对用于SOD 223分析的音频数据进行采样。在实施例中,SOD 223是低延迟SOD,其能够处理音频数据的多个样本,以检测语音开始并提供信号来唤醒WUPD 228,并足够快地开始连续捕获音频数据,以避免不可接受的截短量。可以选择音频数据样本的数量,以平衡语音开始检测的准确性与由处理引起的延迟。
在块406处,响应于检测到语音开始,传感器功率域330和缓冲器功率域360从周期性地捕获音频数据切换(例如,通过音频接口控件224)到连续地捕获音频数据。参考图5,连续捕获音频数据可以包括连续采样音频数据和连续缓冲采样的音频数据。在实施例中,连续采样和缓冲意味着在活动模式下操作以连续采样和缓冲音频数据,而没有在睡眠模式下操作的任何间隔。连续缓冲还可以包括将缓冲器225用作通道,以将连续采样的音频数据传递到WUPD 228进行处理。
在块408处,缓冲器功率域360的组合器226将音频数据的第一多个捕获部分的至少一个捕获部分与连续捕获的音频数据组合,以提供连续的音频数据。对于一些实施例,组合器226使用重叠相加窗口操作,以将音频数据的最后捕获部分的一端的一部分附加到连续捕获的音频数据的一端的一部分。在各种实施例中,最后捕获部分的一端的一部分在1ms到20ms的范围内,但是可以是更短或更长的持续时间。在一些实施例中,第一多个捕获部分中的至少一个捕获部分是第一多个捕获部分中最近捕获的部分。在其他实施例中,至少一个捕获部分可以包括多个捕获部分的表示,并且组合器226可以使用该表示来生成连续的音频数据。在块410处,WUPD功率域380的部件处理连续的音频数据,以识别连续捕获的音频数据中的语音(例如,唤醒短语)。
图6是示出根据实施例的唤醒短语的最终识别百分比的图表。该图表将通过连续和重复缓冲前导噪声的现有技术实现的识别百分比与通过实施例中描述的周期性缓冲实现的识别百分比进行比较。实施例的识别百分比从干净的SNR到20dB紧密跟踪现有技术的识别百分比,然后在10dB处开始分离。因此,本文描述的周期性缓冲可以提供类似的识别百分比,同时比传统解决方案消耗更少的功率。
在一个实施例中,上述周期性捕获背景噪声的方法可以用于除语音检测之外的应用中。对于这样的应用,传感器输入只能被周期性地捕获以节省功率,直到由开始事件触发更高功率的模式识别操作。例如,可以在使用周期性捕获的图像数据和更高质量的视频流的更高功耗模式识别过程(例如,房间中的活动)之前周期性地捕获图像数据。可以基于模式识别的结果执行进一步的动作,诸如记录音频、视频或静止图像、发送通知等。在替代实施例中,更高功率的模式识别过程可以涉及温度、环境光、环境条件或可以被感测的许多条件或事件中的任何一个的变化。
图7是图示根据实施例的根据实施例的周期性激活阈值计算的方法700的流程图。可以通过包括硬件(电路、专用逻辑电路等)、软件(诸如运行在通用计算系统或专用机上)、固件(嵌入式软件)或它们的任意组合的处理逻辑执行方法700。在各种实施例中,方法700可以由图2、图3和图8的音频处理设备来执行。图8是图示根据实施例的周期性激活阈值计算的交互式时序图。
在块702处,传感器功率域330的部件通过以一定间隔周期性地捕获音频数据来捕获音频数据的多个部分。在块704处,SOD功率域340的阈值计算模块222使用多个捕获部分中的一个或更多个部分来计算激活阈值。传感器功率域330和SOD功率域340可以在活动模式下操作,以分别捕获音频数据的多个部分并计算激活阈值。在间隔期间,各自地,传感器功率域330可以在监控模式下操作,而SOD功率域340可以在睡眠模式下操作。在块706处,SOD功率域340的阈值计算模块222向传感器功率域330的音频接口221或麦克风阵列220提供激活阈值。阈值计算模块222不需要重置麦克风阵列220中的激活阈值。阈值计算模块可以确定最近的外界噪声样本不保证激活阈值的改变。另一方面,阈值计算模块可以基于采样的外界噪声来确定应该更新激活阈值。例如,将激活阈值设置为高于外界噪声的水平可以避免唤醒SOD 223错误地或不必要地为了语音开始而消耗功率来处理仅仅是外界噪声。
图9是图示根据实施例的电子设备900的框图。电子设备900可以完全或部分地包括和/或操作图1的音频处理设备102、音频模式源104、噪声源106和108、受控设备103和110和/或模式识别应用112的示例实施例。电子设备900可以是计算机系统的形式,在该计算机系统中可以执行多组指令,以使电子设备900执行本文讨论的方法中的任何一种或更多种。电子设备900可以作为独立设备运行,或者可以连接(例如联网)到其他机器。在网络化部署中,电子设备900可以在服务器-客户端网络环境中以服务器或客户端机器的身份运行,或者在P2P(或分布式)网络环境中作为对等机器运行。
电子设备900可以是物联网(IoT)设备、服务器计算机、客户端计算机、个人计算机(PC)、平板电脑、机顶盒(STB)、VCH、个人数字助理(PDA)、移动电话、网络设备、网络路由器、交换机或网桥、电视、扬声器、遥控器、监视器、手持多媒体设备、手持视频播放器、手持游戏设备或控制面板,或者能够执行一组指令(有顺序地或以其他方式)的任何其他机器,这些指令指定了该机器要执行的动作。此外,虽然仅示出了单个电子设备900,但是术语“设备”还应被理解为包括单独或共同地执行一组(或多组)指令以执行本文所讨论的方法的任何一种或更多种的任何机器集合。
电子设备900被示为包括处理器902。在实施例中,电子设备900和/或处理器902可以包括处理设备905,诸如由加利福尼亚州圣何塞的Cypress Semiconductor Corporation开发的片上系统处理设备。可选地,电子设备900可以包括本领域的普通技术人员已知的一种或更多种其他处理设备,诸如微处理器或中央处理单元、应用处理器、主控制器、控制器、专用处理器、DSP、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。总线系统901可以包括通信块(未示出),以经由通信接口909和/或总线系统901与内部或外部部件(诸如嵌入式控制器或应用处理器)通信。
电子设备900的部件可位于共同载体衬底上,诸如,例如集成电路(IC)管芯衬底、多芯片模块衬底等。可选地,电子设备900的部件可以是一个或更多个独立的集成电路和/或分立部件。
存储器系统904可以包括易失性存储器和/或非易失性存储器,它们可以通过总线系统901彼此通信。存储器系统904可以包括例如随机存取存储器(RAM)和程序闪存。RAM可以是静态RAM(SRAM),并且程序闪存可以是非易失性储存器,其可用于存储固件(例如,由处理器902可执行以实现本文描述的操作的控制算法)。存储器系统904可以包括指令903,指令903在被执行时施行本文描述的方法。存储器系统904的部分可以被动态分配以提供缓存、缓冲和/或其他基于存储器的功能。
存储器系统904可以包括提供机器可读介质的驱动单元,在该机器可读介质上可以存储一组或更多组指令903(例如,软件),这些指令体现了本文描述的方法或功能的任何一种或更多种。在由电子设备900执行期间,指令903还可以完全地或至少部分地位于在存储器系统904的其他存储器设备内和/或处理器902内,在一些实施例中,电子设备900构成机器可读介质。指令903还可以经由通信接口909在网络上被发送或接收。
虽然机器可读介质在一些实施例中是单个介质,但是术语“机器可读介质”应当被认为包括存储一组或更多组指令的单个介质或多个介质(例如,集中式或分布式的数据库和/或相关联的缓存以及服务器)。术语“机器可读介质”也应当被认为包括能够存储或编码由机器执行的任何一组指令并使机器实施任何一个或更多个本文描述的示例操作的任何介质。术语“机器可读介质”应相应地被理解为包括但不限于固态存储器以及光学和磁性介质。
电子设备900还被示出为包括显示接口906(例如,液晶显示器(LCD)、触摸屏、阴极射线管(CRT)以及对显示技术的软件和硬件支持)、音频接口908(例如,麦克风、扬声器以及对麦克风输入/输出和扬声器输入/输出的软件和硬件支持)。电子设备900还被示出为包括用户接口910(例如,键盘、按钮、开关、触摸板、触摸屏以及对用户接口的软件和硬件支持)。
以上描述旨在是例证性而不是限制性的。例如,上述实施例(或其一个或更多个方面)可以彼此结合使用。在浏览以上描述之后,其他实施例对于本领域的技术人员将是明显的。在本文件中,术语“一个(a)”或“一个(an)”如专利文件中常见的那样用于包括一个或多于一个。在本文件中,术语“或”用于指非排他性的或,因此除非另有说明,否则“A或B”包括“A但不是B”、“B但不是A”以及“A和B”。如果本文件和以引用方式并入的文件之间的用法不一致,则并入的参考文件中的用法应被认为是对本文件用法的补充;对于不可调和的不一致,本文件中的用法将取代任何并入的参考文件中的用法。
虽然参考具体的实施例描述了所要求保护的主题,但显然在不背离所要求保护的更广泛的精神和范围的情况下,可以对这些实施例作出各种修改和改变。因此,说明书和附图被认为是说明性的而不是限制性的。所要求保护的范围应参考所附权利要求连同这些权利要求有权要求的等效物的整个范围来确定。在所附权利要求中,术语“包括(including)”和“其中(in which)”被用作相应术语“包括(comprising)”和“其中(wherein)”的纯英语等同物。此外,在以下权利要求中,术语“包括(including)”和“包括(comprising)”是开放式的;除了在权利要求中的这样的术语之后列出的那些元素之外,还包括其他元素的系统、设备、物品、或过程仍然被认为落入该权利要求的范围内。此外,在以下权利要求中,术语“第一(first)”、“第二(second)”和“第三(third)”等仅用作标签,并不旨在对其对象强加数字要求。
本公开的摘要被提供以符合要求摘要能让读者快速确定技术公开的性质的37C.F.R§1.72(b)。应当理解的是,它将不用于解释或限制权利要求的范围或意义。
Claims (22)
1.一种方法,包括:
通过以第一间隔周期性地捕获音频数据来捕获所述音频数据的第一多个部分;
检测所述音频数据中的语音开始;
响应于检测到所述语音开始,从周期性地捕获所述音频数据切换到连续地捕获所述音频数据;和
将所述音频数据的第一多个部分的至少一个捕获部分与连续捕获的音频数据组合,以提供连续的音频数据。
2.根据权利要求1所述的方法,还包括处理所述连续的音频数据,以识别所述连续捕获的音频数据中的语音。
3.根据权利要求1所述的方法,包括在第一功耗模式下操作至少一个功率域以捕获音频数据的第一多个部分,并且在所述第一间隔期间在第二功耗模式下操作,其中所述第一功耗模式具有比所述第二功耗模式更大的功耗率。
4.根据权利要求3所述的方法,其中,在所述第二功耗模式下操作包括在监控模式下操作传感器功率域和在睡眠模式下操作缓冲器功率域。
5.根据权利要求1所述的方法,其中,周期性地捕获所述音频数据包括以第一采样率采样所述音频数据,并且检测所述语音开始包括以第二采样率采样所述音频数据,其中所述第一采样率大于所述第二采样率。
6.根据权利要求1所述的方法,还包括基于一个或更多个噪声特性或功耗需求来设置或动态调整所述第一间隔。
7.根据权利要求1所述的方法,其中,周期性地捕获所述音频数据包括周期性地采样所述音频数据和周期性地缓冲采样的音频数据,并且连续地捕获所述音频数据包括连续地采样所述音频数据和连续地缓冲采样的音频数据。
8.根据权利要求1所述的方法,其中,所述音频数据的第一多个捕获部分的至少一个捕获部分是所述音频数据的第一多个捕获部分的最近捕获的部分。
9.根据权利要求8所述的方法,其中,所述组合包括将所述音频数据的最近捕获的部分的一端的一部分与所述连续捕获的音频数据的一端的一部分重叠。
10.根据权利要求9所述的方法,其中,最后捕获的部分的一端的一部分小于20ms。
11.根据权利要求1所述的方法,其中,检测所述音频数据中的所述语音开始包括在不使用所捕获的所述音频数据的多个部分的情况下检测所述语音开始。
12.根据权利要求11所述的方法,其中,检测所述音频数据中的所述语音开始包括响应于所述音频数据满足或超过音频接口的激活阈值而唤醒语音开始检测器,并执行语音开始检测算法以确定所述音频数据中存在类似语音的信号。
13.根据权利要求12所述的方法,还包括:
通过以第二间隔周期性地捕获所述音频数据来捕获所述音频数据的第二多个部分;
使用第二多个捕获部分的一个或更多个部分,计算另一个激活阈值;和
向所述音频接口提供所述另一个激活阈值。
14.根据权利要求13所述的方法,包括在第一功耗模式下操作以捕获所述音频数据的第二多个部分并计算所述激活阈值,以及在第二间隔期间在第二功耗模式下操作,其中第一功耗模式的功耗率大于所述第二功耗模式的功耗率。
15.根据权利要求14所述的方法,其中,在所述第二功耗模式下操作包括在监控模式下操作传感器功率域和在睡眠模式下操作语音开始检测功率域。
16.一种音频处理设备,包括:
音频接口、语音开始检测器、缓冲器、组合器以及音频接口控件,,所述音频接口能够操作来采样音频数据,其中响应于所述语音开始检测器在所述音频数据中检测到语音开始,所述音频接口控件能够操作来将所述音频处理设备从以一定间隔周期性地捕获所述音频数据切换到连续地捕获所述音频数据,其中所述组合器能够操作来使用周期性捕获的音频数据中的至少一个捕获部分和连续捕获的音频数据来提供连续的音频数据。
17.根据权利要求16所述的音频处理设备,还包括唤醒短语检测器,所述唤醒短语检测器能够操作来处理所述连续的音频数据,以识别所述连续捕获的音频数据中的唤醒短语。
18.根据权利要求16所述的音频处理设备,其中,所述缓冲器处于所述音频处理设备的缓冲器功率域中,其中在所述间隔期间,所述缓冲器功率域处于睡眠模式。
19.根据权利要求16所述的音频处理设备,其中,所述音频接口被配置为响应于所述音频满足或超过阈值活动水平,向所述语音开始检测器提供所述音频数据,所述音频处理设备还包括阈值计算模块,所述阈值计算模块被配置为周期性地唤醒、打开所述音频接口以收集音频数据、计算更新的阈值活动水平、向所述音频接口提供所述更新的阈值活动水平,并重新进入睡眠模式。
20.一种电子通信设备,包括:
一个或更多个处理器、存储器系统、通信接口和音频处理设备,所述音频处理设备包括:处理音频数据的音频接口、检测所述音频数据中的语音开始的语音开始检测器以及响应于检测到语音开始而将所述存储器系统中的缓冲器从周期性缓冲所述音频数据切换到连续缓冲所述音频数据的音频接口控件和用于使用来自周期性缓冲的音频数据的一部分音频数据来检测连续缓冲的音频数据中的唤醒短语的唤醒短语检测器,其中所述一个或更多个处理器响应于所述唤醒短语的检测使所述通信接口将所述连续缓冲的音频数据无线传输到网络。
21.根据权利要求20所述的电子通信设备,其中,所述音频接口控件被配置为设置或调整所述周期性缓冲的间隔。
22.根据权利要求20所述的电子通信设备,其中,所述音频接口控件被配置为使所述音频接口:向所述语音开始检测器提供具有第一采样率的音频数据,并且向所述缓冲器提供具有第二采样率的音频数据,其中,所述第一采样率小于所述第二采样率。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862641767P | 2018-03-12 | 2018-03-12 | |
US62/641,767 | 2018-03-12 | ||
US16/016,344 | 2018-06-22 | ||
US16/016,344 US10332543B1 (en) | 2018-03-12 | 2018-06-22 | Systems and methods for capturing noise for pattern recognition processing |
PCT/US2019/015211 WO2019177699A1 (en) | 2018-03-12 | 2019-01-25 | Systems and methods for capturing noise for pattern recognition processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111837179A true CN111837179A (zh) | 2020-10-27 |
CN111837179B CN111837179B (zh) | 2024-07-02 |
Family
ID=66996635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980018174.1A Active CN111837179B (zh) | 2018-03-12 | 2019-01-25 | 捕获噪声用于模式识别处理的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US10332543B1 (zh) |
CN (1) | CN111837179B (zh) |
DE (1) | DE112019001297B4 (zh) |
WO (1) | WO2019177699A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10916252B2 (en) * | 2017-11-10 | 2021-02-09 | Nvidia Corporation | Accelerated data transfer for latency reduction and real-time processing |
DE102018211758A1 (de) * | 2018-05-07 | 2019-11-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung, verfahren und computerprogramm zur akustischen überwachung eines überwachungsbereichs |
CN109215679A (zh) * | 2018-08-06 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 基于用户情绪的对话方法和装置 |
TWI713016B (zh) * | 2019-01-03 | 2020-12-11 | 瑞昱半導體股份有限公司 | 語音偵測處理系統與語音偵測方法 |
EP3866157B1 (de) * | 2020-02-13 | 2024-04-03 | Deutsche Telekom AG | Elektronische assistenzvorrichtung und betriebsverfahren |
CN111341302B (zh) * | 2020-03-02 | 2023-10-31 | 苏宁云计算有限公司 | 一种语音流采样率确定方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040166820A1 (en) * | 2001-06-28 | 2004-08-26 | Sluijter Robert Johannes | Wideband signal transmission system |
US20110264447A1 (en) * | 2010-04-22 | 2011-10-27 | Qualcomm Incorporated | Systems, methods, and apparatus for speech feature detection |
US20130223635A1 (en) * | 2012-02-27 | 2013-08-29 | Cambridge Silicon Radio Limited | Low power audio detection |
US20130339028A1 (en) * | 2012-06-15 | 2013-12-19 | Spansion Llc | Power-Efficient Voice Activation |
US20140163978A1 (en) * | 2012-12-11 | 2014-06-12 | Amazon Technologies, Inc. | Speech recognition power management |
US20140222436A1 (en) * | 2013-02-07 | 2014-08-07 | Apple Inc. | Voice trigger for a digital assistant |
US20140270197A1 (en) * | 2013-03-15 | 2014-09-18 | Lakshman Krishnamurthy | Low power audio trigger via intermittent sampling |
US20150256914A1 (en) * | 2014-03-10 | 2015-09-10 | Infineon Technologies Ag | System and Method for a Transducer System with Wakeup Detection |
CN105723451A (zh) * | 2013-12-20 | 2016-06-29 | 英特尔公司 | 从低功率始终侦听模式到高功率语音识别模式的转换 |
US20160196838A1 (en) * | 2015-01-07 | 2016-07-07 | Audience, Inc. | Utilizing Digital Microphones for Low Power Keyword Detection and Noise Suppression |
US9398367B1 (en) * | 2014-07-25 | 2016-07-19 | Amazon Technologies, Inc. | Suspending noise cancellation using keyword spotting |
CN105869637A (zh) * | 2016-05-26 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN106062661A (zh) * | 2014-03-31 | 2016-10-26 | 英特尔公司 | 用于常开常听的语音识别系统的位置感知功率管理方案 |
Family Cites Families (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4038495A (en) * | 1975-11-14 | 1977-07-26 | Rockwell International Corporation | Speech analyzer/synthesizer using recursive filters |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
ES2157420T3 (es) * | 1995-02-15 | 2001-08-16 | British Telecomm | Deteccion de actividad vocal. |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
WO2000058949A1 (en) | 1999-03-25 | 2000-10-05 | Kent Ridge Digital Labs | Low data transmission rate and intelligible speech communication |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
JP3878482B2 (ja) * | 1999-11-24 | 2007-02-07 | 富士通株式会社 | 音声検出装置および音声検出方法 |
US6920424B2 (en) * | 2000-04-20 | 2005-07-19 | International Business Machines Corporation | Determination and use of spectral peak information and incremental information in pattern recognition |
US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
AU2001296459A1 (en) * | 2000-10-02 | 2002-04-15 | Clarity, L.L.C. | Audio visual speech processing |
US7111739B2 (en) * | 2002-07-26 | 2006-09-26 | Sizetec, Inc. | Wet fine particle sizing and separating apparatus |
US7343283B2 (en) * | 2002-10-23 | 2008-03-11 | Motorola, Inc. | Method and apparatus for coding a noise-suppressed audio signal |
US7343284B1 (en) * | 2003-07-17 | 2008-03-11 | Nortel Networks Limited | Method and system for speech processing for enhancement and detection |
US7917356B2 (en) * | 2004-09-16 | 2011-03-29 | At&T Corporation | Operating method for voice activity detection/silence suppression system |
US8775168B2 (en) * | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
US8140325B2 (en) | 2007-01-04 | 2012-03-20 | International Business Machines Corporation | Systems and methods for intelligent control of microphones for speech recognition applications |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
JP5556673B2 (ja) * | 2011-01-11 | 2014-07-23 | 株式会社Jvcケンウッド | 音声信号補正装置、音声信号補正方法及びプログラム |
US8996389B2 (en) * | 2011-06-14 | 2015-03-31 | Polycom, Inc. | Artifact reduction in time compression |
US8862058B2 (en) * | 2011-12-19 | 2014-10-14 | Leigh M. Rothschild | Systems and methods for reducing electromagnetic radiation emitted from a wireless headset |
US9064503B2 (en) * | 2012-03-23 | 2015-06-23 | Dolby Laboratories Licensing Corporation | Hierarchical active voice detection |
US9767828B1 (en) * | 2012-06-27 | 2017-09-19 | Amazon Technologies, Inc. | Acoustic echo cancellation using visual cues |
US20140122078A1 (en) | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
US9256269B2 (en) * | 2013-02-20 | 2016-02-09 | Sony Computer Entertainment Inc. | Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state |
CN104247280A (zh) * | 2013-02-27 | 2014-12-24 | 视听公司 | 话音控制的通信连接 |
US9349386B2 (en) | 2013-03-07 | 2016-05-24 | Analog Device Global | System and method for processor wake-up based on sensor data |
US10297250B1 (en) * | 2013-03-11 | 2019-05-21 | Amazon Technologies, Inc. | Asynchronous transfer of audio data |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9112984B2 (en) * | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR20140135349A (ko) | 2013-05-16 | 2014-11-26 | 한국전자통신연구원 | 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법 |
US20140358552A1 (en) | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
CN106843604B (zh) * | 2013-06-14 | 2019-12-24 | 成都吉锐触摸技术股份有限公司 | 一种实现声波触摸屏多点真实触摸的方法 |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US9460735B2 (en) * | 2013-12-28 | 2016-10-04 | Intel Corporation | Intelligent ancillary electronic device |
US9406313B2 (en) * | 2014-03-21 | 2016-08-02 | Intel Corporation | Adaptive microphone sampling rate techniques |
WO2016007528A1 (en) | 2014-07-10 | 2016-01-14 | Analog Devices Global | Low-complexity voice activity detection |
CN105335955B (zh) * | 2014-07-17 | 2018-04-10 | 株式会社理光 | 对象检测方法和对象检测装置 |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
US10719115B2 (en) | 2014-12-30 | 2020-07-21 | Avago Technologies International Sales Pte. Limited | Isolated word training and detection using generated phoneme concatenation models of audio inputs |
US9478231B1 (en) * | 2015-03-10 | 2016-10-25 | Cadence Design Systems, Inc. | Microphone interface and IP core for always-on system |
US9685156B2 (en) | 2015-03-12 | 2017-06-20 | Sony Mobile Communications Inc. | Low-power voice command detector |
US20160284363A1 (en) * | 2015-03-24 | 2016-09-29 | Intel Corporation | Voice activity detection technologies, systems and methods employing the same |
US9484030B1 (en) * | 2015-12-02 | 2016-11-01 | Amazon Technologies, Inc. | Audio triggered commands |
US10388273B2 (en) * | 2016-08-10 | 2019-08-20 | Roku, Inc. | Distributed voice processing system |
CN106385655B (zh) | 2016-08-31 | 2020-01-14 | 陕西千山航空电子有限责任公司 | 一种音频信号放大滤波方法 |
US10176809B1 (en) * | 2016-09-29 | 2019-01-08 | Amazon Technologies, Inc. | Customized compression and decompression of audio data |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
US10027662B1 (en) * | 2016-12-06 | 2018-07-17 | Amazon Technologies, Inc. | Dynamic user authentication |
US10403279B2 (en) * | 2016-12-21 | 2019-09-03 | Avnera Corporation | Low-power, always-listening, voice command detection and capture |
US10692489B1 (en) * | 2016-12-23 | 2020-06-23 | Amazon Technologies, Inc. | Non-speech input to speech processing system |
US10847149B1 (en) * | 2017-09-01 | 2020-11-24 | Amazon Technologies, Inc. | Speech-based attention span for voice user interface |
JP6844504B2 (ja) * | 2017-11-07 | 2021-03-17 | 株式会社Jvcケンウッド | デジタル音声処理装置、デジタル音声処理方法、及びデジタル音声処理プログラム |
US10649727B1 (en) * | 2018-05-14 | 2020-05-12 | Amazon Technologies, Inc. | Wake word detection configuration |
CN111199733A (zh) * | 2018-11-19 | 2020-05-26 | 珠海全志科技股份有限公司 | 多级识别语音唤醒方法及装置、计算机存储介质及设备 |
CN112259128B (zh) * | 2020-10-21 | 2023-07-28 | 恒玄科技(上海)股份有限公司 | 音频设备及语音识别方法 |
-
2018
- 2018-06-22 US US16/016,344 patent/US10332543B1/en active Active
-
2019
- 2019-01-25 CN CN201980018174.1A patent/CN111837179B/zh active Active
- 2019-01-25 WO PCT/US2019/015211 patent/WO2019177699A1/en active Application Filing
- 2019-01-25 DE DE112019001297.5T patent/DE112019001297B4/de active Active
- 2019-04-16 US US16/386,016 patent/US11264049B2/en active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040166820A1 (en) * | 2001-06-28 | 2004-08-26 | Sluijter Robert Johannes | Wideband signal transmission system |
US20110264447A1 (en) * | 2010-04-22 | 2011-10-27 | Qualcomm Incorporated | Systems, methods, and apparatus for speech feature detection |
US20130223635A1 (en) * | 2012-02-27 | 2013-08-29 | Cambridge Silicon Radio Limited | Low power audio detection |
US20130339028A1 (en) * | 2012-06-15 | 2013-12-19 | Spansion Llc | Power-Efficient Voice Activation |
US20140163978A1 (en) * | 2012-12-11 | 2014-06-12 | Amazon Technologies, Inc. | Speech recognition power management |
US20140222436A1 (en) * | 2013-02-07 | 2014-08-07 | Apple Inc. | Voice trigger for a digital assistant |
US20140270197A1 (en) * | 2013-03-15 | 2014-09-18 | Lakshman Krishnamurthy | Low power audio trigger via intermittent sampling |
CN105723451A (zh) * | 2013-12-20 | 2016-06-29 | 英特尔公司 | 从低功率始终侦听模式到高功率语音识别模式的转换 |
US20150256914A1 (en) * | 2014-03-10 | 2015-09-10 | Infineon Technologies Ag | System and Method for a Transducer System with Wakeup Detection |
CN106062661A (zh) * | 2014-03-31 | 2016-10-26 | 英特尔公司 | 用于常开常听的语音识别系统的位置感知功率管理方案 |
US9398367B1 (en) * | 2014-07-25 | 2016-07-19 | Amazon Technologies, Inc. | Suspending noise cancellation using keyword spotting |
US20160196838A1 (en) * | 2015-01-07 | 2016-07-07 | Audience, Inc. | Utilizing Digital Microphones for Low Power Keyword Detection and Noise Suppression |
CN105869637A (zh) * | 2016-05-26 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111837179B (zh) | 2024-07-02 |
US10332543B1 (en) | 2019-06-25 |
WO2019177699A1 (en) | 2019-09-19 |
DE112019001297B4 (de) | 2023-02-02 |
US20190304486A1 (en) | 2019-10-03 |
US11264049B2 (en) | 2022-03-01 |
DE112019001297T5 (de) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111837179B (zh) | 捕获噪声用于模式识别处理的系统和方法 | |
JP7129422B2 (ja) | 音声コマンドを検出及びキャプチャするシステムと方法 | |
TWI730584B (zh) | 關鍵詞的檢測方法以及相關裝置 | |
CN111223497B (zh) | 一种终端的就近唤醒方法、装置、计算设备及存储介质 | |
CN108551686B (zh) | 音频特征数据的提取及分析 | |
US9549273B2 (en) | Selective enabling of a component by a microphone circuit | |
US9406313B2 (en) | Adaptive microphone sampling rate techniques | |
US20220358909A1 (en) | Processing audio signals | |
US11315591B2 (en) | Voice activity detection method | |
US12014732B2 (en) | Energy efficient custom deep learning circuits for always-on embedded applications | |
JP2016180988A (ja) | モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法 | |
JP2015501450A5 (zh) | ||
CN108733341B (zh) | 一种语音交互方法及装置 | |
CN113132193B (zh) | 智能设备的控制方法、装置、电子设备以及存储介质 | |
WO2022139899A1 (en) | Acoustic signal processing adaptive to user-to-microphone distances | |
US11823707B2 (en) | Sensitivity mode for an audio spotting system | |
US20230223041A1 (en) | Cascade audio spotting system | |
US11776538B1 (en) | Signal processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |