CN117594041A - 用于分级唤醒词语检测的系统、方法和装置 - Google Patents
用于分级唤醒词语检测的系统、方法和装置 Download PDFInfo
- Publication number
- CN117594041A CN117594041A CN202311050398.5A CN202311050398A CN117594041A CN 117594041 A CN117594041 A CN 117594041A CN 202311050398 A CN202311050398 A CN 202311050398A CN 117594041 A CN117594041 A CN 117594041A
- Authority
- CN
- China
- Prior art keywords
- circuit
- buffer
- audio input
- wake
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000001514 detection method Methods 0.000 title description 102
- 239000000872 buffer Substances 0.000 claims abstract description 92
- 230000004044 response Effects 0.000 claims abstract description 31
- 230000003213 activating effect Effects 0.000 claims abstract 4
- 238000012795 verification Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 abstract description 38
- 238000012545 processing Methods 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000003139 buffering effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000001960 triggered effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3215—Monitoring of peripheral devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/325—Power saving in peripheral device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Power Sources (AREA)
Abstract
公开了检测音频信号的系统、方法和装置。方法可以包括在音频前端电路处接收音频输入;使用低功率电路响应于接收到所述音频输入而启动一个或多个缓冲器;以及使用低功率电路识别所述音频输入中包括的语音。方法还可以包括:使用所述低功率电路和高性能电路至少部分地基于所识别的语音识别唤醒词语,所述高性能电路被配置为验证所述低功率电路识别的所述唤醒词语。
Description
技术领域
本公开整体涉及电子装置,更具体而言,涉及由这种电子装置执行的音频信号检测。
背景技术
音频和语音控制能力可以在各种语境中应用于系统和装置中,例如,智能装置和智能电器中。这种智能装置可以包括智能助理,也称为虚拟助理,其被配置为对语音命令作出响应。例如,用户可以提供特定短语,其可以触发智能装置的激活。这样的短语可以包括一个或多个唤醒智能装置的具体的唤醒词语,并且可以令智能装置执行一个或多个操作。用于处理此类唤醒词语的常规技术仍然受到限制,因为它们在以有电力有效的方式识别此类唤醒词语的能力方面受到限制。
附图说明
图1示出了根据一些实施例配置的用于音频信号检测的装置的示例的图示。
图2示出了根据一些实施例配置的用于音频信号检测的系统的示例的图示。
图3示出了根据一些实施例实施的用于音频信号检测的方法的示例的流程图。
图4示出了根据一些实施例实施的用于音频信号检测的方法的另一示例的流程图。
图5示出了根据一些实施例实施的用于音频信号检测的方法的附加示例的流程图。
具体实施方式
在下面的描述中阐述了许多具体细节,以便提供对所给出概念的充分理解。所给出的概念可以无需这些具体细节中的一些或全部而被实践。在其他情况下,为了避免不必要地使所描述概念难以理解,没有详细描述公知的工艺操作。尽管将结合具体示例描述一些概念,但应当理解,这些示例并非意图进行限制。
系统和装置可以被配置为实施语音控制功能,以用于各种目的,例如用于智能装置和智能电器。例如,智能装置可以包括智能助理,也称为虚拟助理,其被配置为对语音命令作出响应。例如,智能装置可能处于休眠状态中,并且可能处于睡眠模式中。响应于检测到可以是特定词语的特定听觉输入,智能装置可以醒来并且收听命令或查询。用于识别这种语音输入和命令的常规技术是受限的,因为它们利用具有高功耗特性的部件,并且还可能包括涉及数据的不安全传输的技术。例如,常规技术可能使用基于云端的资源进行验证操作。
本文公开的实施例提供了在唤醒词语检测中具有降低的功耗和提高的精确度的音频信号检测技术。如下文更详细论述的,这种音频信号检测底层的部件可以在低功率方面和高性能方面之间进行划分,以降低与高性能部件相关联的功耗。此外,用于缓冲所接收的音频数据的缓冲器的操作和配置也可以被配置为实现特定的配置文件(profile)。例如,缓冲器可以被配置为实施提供低功耗的低功率管理配置文件,或者可以被配置为实施提供低延时的性能配置文件。在一些实施例中,这种配置文件可以由用户选择和配置。
图1示出了根据一些实施例配置的用于音频信号检测的装置的示例的图示。如下文将要更详细论述的,诸如装置100的装置可以被配置为执行音频信号检测操作,这可以包括在各种电器和装置,例如智能家用装置使用的唤醒词语检测中。例如,装置100可以包括在微控制器单元(MCU)中,微控制器单元可以包括在可以被配置为实施智能助理的智能装置中。如上所述,这种智能助理可以对唤醒词语或唤醒词语的组合作出响应,例如“好的”或智能助理的名称。如下文将要更详细论述的,可以在低功率部件和高性能部件之间划分与这种唤醒词语检测相关联的操作,以提高这种装置的操作的效率。
在各实施例中,装置100包括低功率电路102,其可以使用低功率电路系统来实现。在各实施例中,低功率电路102具有针对低功率操作配置的第一功率水平。因此,如下文将要更详细论述的,低功率电路102可以包括一个或多个被配置为在第一功率水平下操作的处理器。在各实施例中,基于降低的设计复杂性和降低的资源使用来配置低功率电路102。例如,相对于基于噪声基底的语音发生检测和工作于低维度特征空间中的低复杂性模式识别,低功率电路102可以包括分级的基于能量的活动检测。如下文将要更详细论述的,这种模式识别是利用预测模型来实施的,预测模型可以是受监督的机器学习模型。例如,受监督的机器学习模型可以是使用神经网络和/或诸如决策树的其他机器学习技术来实施的。
如下文将要更详细论述的,低功率电路102可以包括被配置为执行唤醒词语检测操作的处理元件和存储器,所述唤醒词语检测操作包括诸如声音活动检测、语音检测以及唤醒词语检测和识别的操作。应当理解,诸如声音活动检测的操作也可以在其他部件,例如下文更详细论述的音频前端中执行。一旦检测到唤醒词语,就可以将操作切换到高性能电路106以进行后续验证和查询处理,如下文将要更详细论述的。因此,装置100的不同部件管理和处理不同的唤醒词语检测操作提高了装置100的总体功率效率。
装置100还可以包括高性能电路106,高性能电路106可以包括被配置为执行验证操作和查询处理操作的处理元件和存储器。在各实施例中,高性能电路106具有针对高性能操作配置的第二功率水平。因此,如下文将要更详细论述的,高性能电路106可以包括一个或多个被配置为在第二功率水平下操作的处理器。此外,第二功率水平可以高于第一功率水平。
在各实施例中,高性能电路106可以被配置为验证由低功率电路102执行的唤醒词语检测和识别,并且还可以被配置为处理由用户发出的后续查询或命令。这种查询或命令可以是用户输入,例如“关闭客厅的灯”或“现在几点钟”。这种查询或命令可以被接收为唤醒词语之后的音频信号。如下文将要更详细论述的,可以利用高性能电路106的语音识别部件来实施这种验证和查询/命令处理。
如图1中所示,低功率电路102和高性能电路106可以经由接口104彼此通信耦接。因此,接口104可以被配置为在两个域之间提供双向通信。在一个示例中,接口104是用于实施低功率电路102的第一芯片和用于实施高性能电路106的第二芯片之间的接口。如本文所公开的,低功率电路102可以经由第一处理器实施,高性能电路106可以经由第二处理器实施,其中,第一处理器和第二处理器是在同一芯片上实施的不同处理器内核。在这样的实施例中,处理器之间的同步和消息可以由接口104处理,该接口可以是处理器间通信(IPC)接口。在各实施例中,接口104可以包括圆形缓冲器作为低功率电路102和高性能电路106两者共享的共享总线的一部分。IPC接口可以用于避免对圆形缓冲器的访问冲突。
图2示出了根据一些实施例配置的用于音频信号检测的系统的示例的图示。如上文类似论述的,诸如系统200的系统可以被配置为执行音频信号检测操作,这可以包括在各种电器和装置,例如智能家用装置使用的唤醒词语检测中。例如,系统200可以包括音频前端以及在低功率电路和高性能电路中实施的各种部件。
在各实施例中,系统200包括音频前端220,该音频前端可以包括被配置为接收音频信号的各种部件。例如,音频前端220可以包括一个或多个麦克风,例如麦克风222。音频前端220还可以包括模拟部件,例如放大器,以及关联的数字部件,例如模数转换器和先进先出(FIFO)寄存器。在一些实施例中,音频前端220的部件,例如麦克风,可以被配置为在低功耗状态下操作,直到检测到声音活动的指定阈值。在各实施例中,模拟部件还可以包括一个或多个用于声音活动检测的低功率模拟比较器和数字计数器。因此,音频前端220被配置为从实施系统200的环境接收音频信号,并且还被配置为将这种音频信号转换成数字数据流。如上文类似所述,这种音频信号可以包括来自用户的语音或音频命令。因此,可以经由麦克风222检测来自用户的语音,音频前端220可以被配置为监测声信号并且动态地计算并潜在地预调节音频信号的激活阈值,该激活阈值触发语音检测模型,如下文将要更详细论述的。
在各实施例中,系统200包括低功率电路202,其可以使用低功率电路系统来实现。如上文类似论述的,低功率电路202可以包括被配置为执行唤醒词语检测操作的一个或多个部件,所述唤醒词语检测操作包括诸如声音活动检测、语音检测以及唤醒词语检测和识别的操作。例如,低功率电路202可以包括被配置为在所接收的音频信号中检测语音存在的语音检测模块208。因此,语音检测模块208被配置为在环境声音和用户的语音之间进行区分。
在各实施例中,通过经最小值统计跟踪噪声基底和/或监测短期能量演进来进行语音发生检测。语音检测模块208可以包括峰值能量检测器,其可以被配置为参照噪声基底跟踪瞬时能量以识别语音发生。将要认识到,语音检测模块208可以被配置为使用本领域的普通技术人员所知的任何语音发生检测算法或技术。在一些实施例中,在检测到语音发生事件时,语音发生检测模块208向第一词语检测模块212断言状态信号。在各实施例中,在检测操作期间,通过状态机监测各个级,其中检测进展通过指定状态,并且如果过去指定量的时间,还可以利用超时操作实施各个级。
如下文将要更详细论述的,语音检测模块208可以被配置为获得多个样本,并且在缓冲器中,例如缓冲器214之一中存储这种样本。如下文将要更详细论述的,缓冲器可以是脉码调制(PCM)缓冲器,这种PCM缓冲器可以具有基于唤醒词语大小配置的大小。在各实施例中,语音检测模块208经由软件实施。因此,语音检测模块208可以使用低功率电路202中包括的一个或多个处理器,例如处理器230,以及存储器,例如下文更详细论述的存储器210来实施。在另一示例中,语音检测模块208可以使用低功率电路202中包括的专用硬件加速器来实施。
低功率电路202可以包括第一词语检测模块212,其被配置为执行由系统200执行的词语检测的第一级。因此,第一词语检测模块212可以使用专用硬件加速器实施并且可以基于所接收的音频数据与一个或多个所存储的唤醒词语的比较来执行初始词语检测操作。通过这种方式,第一词语检测模块212可以将所接收的音频数据与所存储的对应于唤醒词语的指定音频模式进行比较,并且可以生成指示比较结果的输出。在一个示例中,第一词语检测模块212被配置为对所接收的音频数据执行诸如特征提取的操作,并且在缓冲器214之一中存储所提取的特征。在各实施例中,这样的特征提取将音频数据从时域转换成频域,并且在频域中在所得音频频谱中识别模式。例如,可以将梅尔刻度频率倒谱系数(MFCC)用于特征提取。如下文将要更详细论述的,可以在特征缓冲器中存储特征样本。
低功率电路202可以包括被配置为缓冲所接收的音频数据的缓冲器214。因此,缓冲器214可以被配置为缓冲所接收的音频数据并且当第一词语检测模块212请求这种缓冲的音频数据时向第一词语检测模块212提供这种数据,这可以在第一词语检测模块212被语音检测模块208触发时发生。如下文将要更详细论述的,缓冲器214可以包括时域和频域缓冲器,每个缓冲器214的大小可以基于第一词语检测模块212的要求来配置。
低功率电路202还可以包括存储器210,该存储器可以是被配置为存储软件以及由语音检测模块208和第一词语检测模块212接收和处理的音频数据的本地存储器装置。因此,存储器210可以被配置为存储用于当上述一个或多个模块被实施为软件时实施这种模块的软件。如上所述,低功率电路202可以包括被配置为在第一功率水平下操作的部件。例如,低功率电路202可以至少部分地使用Arm Cortex M33内核实施。
系统200还可以包括高性能电路206,高性能电路206可以包括被配置为执行验证操作和查询处理操作的处理元件和存储器。更具体而言,高性能电路206可以包括一个或多个部件,其被配置为验证由低功率电路202执行的唤醒词语检测和识别,并且还可以被配置为处理由用户发出的后续查询或命令。例如,高性能电路206可以包括第二词语检测模块216,其可以被配置为验证由第一词语检测模块212执行的词语检测。因此,第二词语检测模块216可以被配置为执行额外的唤醒词语检测操作,以提高唤醒词语检测的精确度,并且验证第一词语检测模块212的输出。在各实施例中,第二词语检测模块216可以被配置为执行比第一词语检测模块212更加计算密集型的唤醒词语检测操作。例如,第一词语检测模块212可以被配置为执行基于规则的比较,而第二词语检测模块216可以被配置为执行基于神经网络的推断。在各实施例中,第一词语检测模块212可以被配置为实施机器学习技术,例如一个或多个神经网络。第二词语检测模块216可以被配置为实施利用获得更高精确度的更大模型的机器学习技术,例如神经网络。在一些实施例中,第二词语检测模块216还可以应用一个或多个数字信号处理操作,例如噪声的滤波/减少。在各实施例中,第二词语检测模块216可以经由处理器232和存储器,例如存储器221中存储的软件而实施。在一些实施例中,第二词语检测模块216经由专用处理逻辑,例如硬件加速器中包括的处理逻辑来实施。
高性能电路206还可以包括可以被配置为处理后续音频数据的语音识别模块218。例如,响应于第二词语检测模块216识别出唤醒词语的存在,语音识别模块218可以被触发以处理所接收的音频流中包括的后续音频数据。语音识别模块218可以被配置为比较所接收的音频数据与一个或多个指定的音频模式,以识别一个或多个命令。在各实施例中,高性能电路206被配置为使用亚声音模式识别,其被缝合成词语,接下来用于经由词语和语言建模技术推断意图或语言。亚声音单元的示例是音素和字素。可以使用n元语法或用于自然语言处理任务的神经网络来实施词语和/或语言建模。语音识别模块218还可以被配置为响应于这种命令的识别而执行一个或多个功能调用。例如,响应于识别出关闭用户家中一组灯的命令,语音识别模块218可以向与灯相关联的应用程序发送请求或调用以处理该请求。
如上所述,可以使用预测模型来进行词语检测操作。更具体而言,机器学习模型(可以是受监督机器学习模型)可以用于识别特征数据中的提取模式并且识别音频数据中的词语。因此,这种机器学习模型可以使用学习阶段和推断阶段来生成和实施。在一些实施例中,机器学习模型可以是神经网络。在各实施例中,低功率电路202使用的神经网络可以比高性能电路206使用的神经网络复杂性更低,计算密集性更低。例如,低功率电路202的词语检测模块212可以使用比高性能电路206的词语检测模块216使用的第二神经网络具有更少的神经元和/或特征的第一神经网络。在一些实施例中,第一神经网络可以具有比第二神经网络更少层的神经元或神经元之间的连接。因此,可以基于功率约束来配置神经网络的一个或多个方面,所述功率约束是基于实施神经网络的功率域确定的。
在各实施例中,语音识别模块218可以经由存储器,例如存储器221中存储的软件来实施。在一些实施例中,语音识别模块218经由专用处理逻辑,例如硬件加速器中包括的处理逻辑来实施。如上所述,高性能电路206可以包括被配置为在第二功率水平下操作的部件。例如,高性能电路206可以至少部分地使用Arm Cortex M55内核来实施。
如上文类似所述,低功率电路202和高性能电路206可以经由接口204彼此通信耦接。因此,接口204可以被配置为在两个域之间提供双向通信。在一个示例中,接口204是用于实施低功率电路202的第一芯片和用于实施高性能电路206的第二芯片之间的接口。
图3示出了根据一些实施例实施的用于音频信号检测的方法的示例的流程图。在各实施例中,可以执行诸如方法300的方法以检测音频信号,并且检测各种电器和装置,例如智能家用装置使用的唤醒词语。如下文将要更详细论述的,可以执行方法300以使用低功率和高性能部件执行这种唤醒词语检测和查询/命令处理,如上所述。
方法300可以执行操作302,期间可以接收音频输入。如上文类似所述,音频输入可以从实施智能装置或系统的环境接收。因此,音频输入可以是从这种环境接收的音频信号。还如上所述,音频输入可以包括用户提供的语音命令和语音。
方法300可以执行操作304,期间可以启动缓冲器。因此,响应于在音频前端接收到音频信号,可以启动一个或多个缓冲器以缓冲进入的音频数据。如下文将要更详细论述的,可以基于一个或多个操作偏好响应于不同条件来触发不同缓冲器。因此,本文公开的实施例可以提供缓冲管理,所述缓冲管理被配置为满足一个或多个指定的操作偏好,例如,功率管理配置文件或偏好配置文件。
方法300可以执行操作306,期间可以识别音频信号。因此,根据各实施例,可以处理所接收和缓冲的音频数据以确定是否检测到语音。因此,在操作306期间,可以确定所接收的音频数据是否是非语音数据,或者所接收的音频数据是否包括来自用户的语音和词语。如上文类似所述,这种语音检测可以由智能装置或系统的低功率电路执行。
方法300可以执行操作308,期间可以识别唤醒词语。因此,响应于检测到从用户接收的语音,可以处理所接收和缓冲的音频数据以识别一个或多个唤醒词语的存在。如上文类似所述,唤醒词语的识别可以在两级中发生,其中,第一级由智能装置或系统的低功率电路处理,并且其中,第二级由智能装置或系统的高性能电路处理。因此,唤醒词语的识别和验证可以在低功率和高性能域之间划分,还用于接下来触发查询/命令处理,也如上文类似所述。
图4示出了根据一些实施例实施的用于音频信号检测的方法的另一示例的流程图。在各实施例中,可以执行诸如方法400的方法以检测音频信号,并且检测各种电器和装置,例如智能家用装置使用的唤醒词语。如上文类似所述,这种操作可以被配置为满足一个或多个指定的操作偏好,例如,功率管理配置文件或偏好配置文件。也如上所述,这种配置文件可以被用户识别或选择,或者基于一个或多个配置文件参数。因此,如下文将要更详细论述的,可以执行方法400以实施性能配置文件,并且提高此类音频信号检测操作的性能。
方法400可以执行操作402,期间可以接收音频输入。如上文类似所述,音频输入可以从实施智能装置或系统的环境接收。因此,音频输入可以是从这种环境接收的音频信号。还如上所述,音频输入可以包括用户提供的语音命令和语音。
方法400可以执行操作404,期间可以启动第一缓冲器。在各实施例中,第一缓冲器可以是时域缓冲器,例如PCM缓冲器。在各实施例中,第一缓冲器被配置为缓冲用于初始音频信号检测的数据,这可以在接收唤醒词语之前进行。在各实施例中,第一缓冲器是在音频信号检测之后启动的,并且用于缓冲用于语音发生检测的数据。因此,作为音频输入接收的音频信号可以触发第一缓冲器,并且开始音频数据的缓冲。因此,在操作404期间,时域缓冲器可以开始缓冲所接收的音频数据。
方法400可以执行操作406,期间可以启动第二缓冲器。在各实施例中,第二缓冲器可以是频域缓冲器,例如特征缓冲器。在各实施例中,第二缓冲器被配置为缓冲用于在检测到语音之后进行唤醒词语识别的数据。例如,如上所述,特征缓冲器可以存储可以至少部分地用于唤醒词语检测的提取特征。在各实施例中,在操作406期间,频域缓冲器可以在这种语音被识别之前预先开始缓冲所接收的音频数据,以减小与启动特征缓冲器相关联的延时。因此,为了实施指定更高性能或更低延时的性能配置文件,可以与PCM缓冲器一起启动特征缓冲器,以消除在检测这种语音时后续延时。
在各实施例中,可以基于配置文件参数识别这种性能配置文件。因此,配置文件参数可以确定启动第一和第二缓冲器的定时。更具体而言,配置文件参数可以确定是否应当响应于接收到音频输入而启动第二缓冲器,或者是否应当稍晚启动它,如下文将要更详细论述的。通过这种方式,配置文件参数可以确定是否应当实施性能配置文件,或者是否应当实施低功率或功率管理配置文件。这种配置文件参数可以由用户或另一实体,例如制造商确定,并且可以在低功率电路和高性能电路的配置过程期间设置配置文件参数。
方法400可以执行操作408,期间可以在音频输入中识别语音。因此,根据各实施例,可以处理所接收的音频数据以确定是否检测到语音。因此,在操作408期间,可以确定所接收的音频数据是否是非语音数据,或者所接收的音频数据是否包括来自用户的语音和词语。如上文类似所述,这种语音检测可以由智能装置或系统的低功率电路执行。在一些实施例中,可以响应于确定未执行唤醒词语检测操作而执行操作408。因此,可以执行操作408,使得如果先前的唤醒词语检测操作已经在进行中则不触发它。
方法400可以执行操作410,期间可以识别唤醒词语。因此,响应于检测到从用户接收的语音,可以处理所接收的音频数据以识别一个或多个唤醒词语的存在。如上文类似所述,唤醒词语的识别可以在两级中发生,其中,第一级由智能装置或系统的低功率电路处理,并且其中,第二级由智能装置或系统的高性能电路处理。因此,唤醒词语的识别和验证可以在低功率和高性能域之间划分,还用于接下来触发查询/命令处理,也如上文类似所述。
图5示出了根据一些实施例实施的用于音频信号检测的方法的附加示例的流程图。在各实施例中,可以执行诸如方法500的方法以检测音频信号,并且检测各种电器和装置,例如智能家用装置使用的唤醒词语。如上文类似所述,这种操作可以被配置为满足一个或多个指定的操作偏好,例如,功率管理配置文件或偏好配置文件。因此,如下文将要更详细论述的,可以执行方法500以实施功率管理配置文件,并且提高这种音频信号检测操作的功率效率。
方法500可以执行操作502,期间可以接收音频输入。如上文类似所述,音频输入可以从实施智能装置或系统的环境接收。因此,音频输入可以是从这种环境接收的音频信号。还如上所述,音频输入可以包括用户提供的语音命令和语音。
方法500可以执行操作504,期间可以启动第一缓冲器。如上文类似所述,第一缓冲器可以是时域缓冲器,例如PCM缓冲器,其可以被配置为缓冲用于初始音频信号检测的数据,初始音频信号检测可以发生于接收唤醒词语之前。因此,作为音频输入接收的音频信号可以触发第一缓冲器,并且开始音频数据的缓冲。因此,在操作504期间,时域缓冲器可以开始缓冲所接收的音频数据。
方法500可以执行操作506,期间可以在音频输入中识别语音。因此,根据各实施例,可以处理所接收的音频数据以确定是否检测到语音。因此,在操作506期间,可以确定所接收的音频数据是否是非语音数据,或者所接收的音频数据是否包括来自用户的语音和词语。如上文类似所述,这种语音检测可以由智能装置或系统的低功率电路执行。在一些实施例中,可以响应于确定未执行唤醒词语检测操作而执行操作506。因此,可以执行操作506,使得如果先前的唤醒词语检测操作已经在进行中则不触发它。
方法500可以执行操作508,期间可以启动第二缓冲器。如上文类似所述,第二缓冲器被配置为缓冲用于在检测到语音之后进行唤醒词语识别的数据。这种数据可以包括从音频数据提取的特征,如上文类似所述。在各实施例中,在操作508期间,频域缓冲器可以响应于在操作506期间识别出语音而开始缓冲所接收的音频数据。因此,第二缓冲器在初始信号/噪声检测期间不活动,并且响应于在信号之内识别出语音而被启动。通过响应于识别出语音而触发第二缓冲器,第二缓冲器的活动被约束到唤醒词语检测。因此,为了实施指定降低的功耗的功率配置文件,可以在第一缓冲器之后启动第二缓冲器,以减小第二缓冲器的不必要功耗。
方法500可以执行操作510,期间可以识别唤醒词语。因此,响应于检测到从用户接收的语音,可以处理所接收的音频数据以识别一个或多个唤醒词语的存在。如上文类似所述,唤醒词语的识别可以在两级中发生,其中,第一级由智能装置或系统的低功率电路处理,并且其中,第二级由智能装置或系统的高性能电路处理。因此,唤醒词语的识别和验证可以在低功率和高性能域之间划分,还用于接下来触发查询/命令处理,也如上文类似所述。
在各实施例中,高性能电路执行的验证操作是响应于频域缓冲器变满的。更具体而言,响应于在频域缓冲器中存储了指定量的数据而执行由高性能电路处理的更复杂的推断操作。因此,在频域缓冲器中存储的指定量数据变满之前,高性能电路是不活动的。通过这种方式,可以减少高性能电路在活动状态中消耗功率的时间,并且可以实施功率管理配置文件。
尽管已经出于理解清楚的目的在一定详细程度下描述了前述概念,但将显而易见,在所附权利要求的范围之内可以实践某些变化和修改。应当指出的是,存在很多实施过程、系统和装置的替代方式。因此,这些示例要被视为例示性的而不是限制性的。
Claims (20)
1.一种方法,包括:
在音频前端电路处接收音频输入;
使用低功率电路响应于接收到所述音频输入而启动一个或多个缓冲器;
使用所述低功率电路识别所述音频输入中包括的语音;以及
使用所述低功率电路和高性能电路至少部分地基于所识别的语音识别唤醒词语,所述高性能电路被配置为验证所述低功率电路识别的所述唤醒词语。
2.根据权利要求1所述的方法,其中,识别所述唤醒词语还包括:
使用所述低功率电路识别所述唤醒词语;以及
使用所述高性能电路验证所述唤醒词语的所述识别。
3.根据权利要求1所述的方法,其中,所述低功率电路包括一个或多个具有第一功率水平的处理器,并且其中,所述高性能电路包括一个或多个具有第二功率水平的处理器。
4.根据权利要求3所述的方法,其中,所述第二功率水平大于所述第一功率水平。
5.根据权利要求1所述的方法,其中,启动所述一个或多个缓冲器包括:
响应于接收到所述音频输入而启动时域缓冲器;以及
响应于接收到所述音频输入而启动频域缓冲器。
6.根据权利要求1所述的方法,其中,启动所述一个或多个缓冲器包括:
响应于接收到所述音频输入而启动时域缓冲器;以及
响应于识别所述语音而启动频域缓冲器。
7.根据权利要求6所述的方法,其中,所述时域缓冲器为脉码调制(PCM)缓冲器,并且其中,所述频域缓冲器为特征缓冲器。
8.根据权利要求1所述的方法,还包括:
识别配置文件参数;以及
基于所述配置文件参数确定启动所述一个或多个缓冲器的定时。
9.根据权利要求8所述的方法,其中,所述配置文件参数为性能配置文件参数或低功率配置文件参数。
10.一种系统,包括:
被配置为接收音频输入的音频前端电路;
包括一个或多个处理器的第一电路,所述第一电路的所述一个或多个处理器被配置为:
响应于接收到所述音频输入而启动一个或多个缓冲器;
识别与所述音频输入中包括的语音相关联的音频数据;
至少部分地基于所识别的语音识别唤醒词语;以及
包括一个或多个处理器的第二电路,所述第二电路的所述一个或多个处理器被配置为:
至少部分地基于所识别的语音验证所述唤醒词语的识别。
11.根据权利要求10所述的系统,其中,所述第一电路包括一个或多个具有第一功率水平的处理器,其中,所述第二电路包括一个或多个具有第二功率水平的处理器,并且其中,所述第二功率水平大于所述第一功率水平。
12.根据权利要求11所述的系统,其中,所述第一功率水平表示执行所述唤醒词语的所述识别的第一功率量,并且其中,所述第二功率水平表示执行所述验证的第二功率量。
13.根据权利要求10所述的系统,其中,所述第一电路的所述一个或多个处理器还被配置为:
响应于接收到所述音频输入而启动时域缓冲器;以及
响应于接收到所述音频输入而启动频域缓冲器。
14.根据权利要求10所述的系统,其中,所述第一电路的所述一个或多个处理器还被配置为:
响应于接收到所述音频输入而启动时域缓冲器;以及
响应于识别所述语音而启动频域缓冲器。
15.根据权利要求14所述的系统,其中,所述时域缓冲器为PCM缓冲器,并且其中,所述频域缓冲器为特征缓冲器。
16.一种装置,包括:
第一电路,所述第一电路被配置为:
响应于接收到音频输入而启动一个或多个缓冲器;
识别与所述音频输入中包括的语音相关联的音频数据;
至少部分地基于所识别的语音识别唤醒词语;以及
第二电路,所述第二电路被配置为:
至少部分地基于所识别的语音验证所述唤醒词语的识别。
17.根据权利要求16所述的装置,其中,所述第一电路包括一个或多个具有第一功率水平的处理器,其中,所述第二电路包括一个或多个具有第二功率水平的处理器,并且其中,所述第二功率水平大于所述第一功率水平。
18.根据权利要求17所述的装置,其中,所述第一功率水平表示执行所述唤醒词语的所述识别的第一功率量,并且其中,所述第二功率水平表示执行所述验证的第二功率量。
19.根据权利要求16所述的装置,其中,所述第一电路还被配置为:
响应于接收到所述音频输入而启动时域缓冲器;以及
响应于接收到所述音频输入而启动频域缓冲器。
20.根据权利要求16所述的装置,其中,所述第一电路还被配置为:
响应于接收到所述音频输入而启动时域缓冲器;以及
响应于识别所述语音而启动频域缓冲器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/820,822 US20240062756A1 (en) | 2022-08-18 | 2022-08-18 | Systems, methods, and devices for staged wakeup word detection |
US17/820,822 | 2022-08-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117594041A true CN117594041A (zh) | 2024-02-23 |
Family
ID=89844427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311050398.5A Pending CN117594041A (zh) | 2022-08-18 | 2023-08-18 | 用于分级唤醒词语检测的系统、方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240062756A1 (zh) |
CN (1) | CN117594041A (zh) |
DE (1) | DE102023122057A1 (zh) |
-
2022
- 2022-08-18 US US17/820,822 patent/US20240062756A1/en active Pending
-
2023
- 2023-08-17 DE DE102023122057.8A patent/DE102023122057A1/de active Pending
- 2023-08-18 CN CN202311050398.5A patent/CN117594041A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
DE102023122057A1 (de) | 2024-02-29 |
US20240062756A1 (en) | 2024-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN103811003B (zh) | 一种语音识别方法以及电子设备 | |
US9818407B1 (en) | Distributed endpointing for speech recognition | |
JP6200516B2 (ja) | 発話認識電力管理 | |
JP2019533193A (ja) | 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ | |
CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
CN110838296B (zh) | 录音过程的控制方法、系统、电子设备和存储介质 | |
WO2013188007A1 (en) | Power-efficient voice activation | |
US11308946B2 (en) | Methods and apparatus for ASR with embedded noise reduction | |
CN111599371A (zh) | 语音增加方法、系统、装置及存储介质 | |
CN103543814A (zh) | 信号处理装置以及信号处理方法 | |
CN111179944B (zh) | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 | |
WO2022222045A1 (zh) | 语音信息处理方法及设备 | |
CN113077798B (zh) | 一种居家老人呼救设备 | |
CN112669818B (zh) | 语音唤醒方法及装置、可读存储介质、电子设备 | |
WO2021169711A1 (zh) | 指令执行方法、装置、存储介质及电子设备 | |
CN112951243A (zh) | 语音唤醒方法、装置、芯片、电子设备及存储介质 | |
CN116705033A (zh) | 用于无线智能音频设备的片上系统和无线处理方法 | |
CN117594041A (zh) | 用于分级唤醒词语检测的系统、方法和装置 | |
WO2020102991A1 (zh) | 唤醒设备的方法、装置、存储介质及电子设备 | |
CN114121022A (zh) | 语音唤醒方法、装置、电子设备以及存储介质 | |
US20240062755A1 (en) | Systems, methods, and devices for wakeup word detection with continuous learning | |
TWI748587B (zh) | 聲音事件偵測系統及方法 | |
US11783818B2 (en) | Two stage user customizable wake word detection | |
US20240062745A1 (en) | Systems, methods, and devices for low-power audio signal detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |