CN117594049A - 用于利用持续学习的唤醒词检测的系统、方法和装置 - Google Patents

用于利用持续学习的唤醒词检测的系统、方法和装置 Download PDF

Info

Publication number
CN117594049A
CN117594049A CN202311036377.8A CN202311036377A CN117594049A CN 117594049 A CN117594049 A CN 117594049A CN 202311036377 A CN202311036377 A CN 202311036377A CN 117594049 A CN117594049 A CN 117594049A
Authority
CN
China
Prior art keywords
circuit
wake
accuracy threshold
word detection
specified accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311036377.8A
Other languages
English (en)
Inventor
阿舒托什·潘迪
丹尼尔·沃森
艾当·史密斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cypress Semiconductor Corp
Original Assignee
Cypress Semiconductor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cypress Semiconductor Corp filed Critical Cypress Semiconductor Corp
Publication of CN117594049A publication Critical patent/CN117594049A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3215Monitoring of peripheral devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Electric Clocks (AREA)
  • Power Sources (AREA)
  • Manipulator (AREA)

Abstract

公开了用于利用持续学习的唤醒词检测的系统、方法和装置。系统、方法和装置检测音频信号。方法可以包括:在音频前端电路处接收音频输入,以及使用第一电路、至少部分地基于接收到的音频信号来识别唤醒词。方法还可以包括:至少部分地基于与第一电路相关联的指定的准确度阈值和识别的结果来确定是否应当修改由第一电路执行的识别,指定的准确度阈值至少部分地基于第二电路的语言处理模型来确定。此外,修改可以包括:至少部分地基于确定的结果来调节第一电路的唤醒词检测操作。

Description

用于利用持续学习的唤醒词检测的系统、方法和装置
技术领域
本公开内容总体涉及电子装置,并且更具体地,涉及由这样的电子装置执行的音频信号检测。
背景技术
音频和语音控制能力可以应用于各种背景下的系统和装置,例如智能装置和智能电器。这样的智能装置可以包括被配置成响应语音命令的智能助理(还被称为虚拟助理)。例如,用户可以提供可以触发智能装置的激活的特定短语。这样的短语可以包括唤醒智能装置的一个或更多个特定唤醒词,并且可以使智能装置执行一个或更多个操作。用于处理这样的唤醒词的常规技术仍然受到限制,因为这些常规技术在以功率有效的方式识别这样的唤醒词的能力方面受到限制。
发明内容
根据本发明的实施例,提供了一种方法,包括:在音频前端电路处接收音频输入;使用第一电路、至少部分地基于接收到的音频信号来识别唤醒词;以及至少部分地基于与所述第一电路相关联的指定的准确度阈值和所述识别的结果来确定是否应当修改由所述第一电路执行的所述识别,所述指定的准确度阈值至少部分地基于第二电路的语言处理模型来确定,以及所述修改包括:至少部分地基于所述确定的结果来调节所述第一电路的唤醒词检测操作。
根据本发明的实施例,还提供了一种系统,包括:音频前端电路,其被配置成接收音频输入;包括一个或更多个处理器的第一电路,所述一个或更多个处理器被配置成至少部分地基于接收到的音频输入来识别唤醒词;以及包括一个或更多个处理器的学习模块,所述一个或更多个处理器被配置成:至少部分地基于与所述第一电路相关联的指定的准确度阈值和所述识别的结果来确定是否应当修改由所述第一电路执行的所述识别,所述指定的准确度阈值至少部分地基于第二电路的语言处理模型来确定,所述一个或更多个处理器还被配置成至少部分地基于所述确定的结果来调节所述第一电路的唤醒词检测操作。
根据本发明的实施例,还提供了装置,包括:第一电路,其被配置成至少部分地基于接收到的音频输入来识别唤醒词;以及包括一个或更多个处理器的学习模块,所述一个或更多个处理器被配置成至少部分地基于与所述第一电路相关联的指定的准确度阈值和所述识别的结果来确定是否应当修改由所述第一电路执行的所述识别,所述指定的准确度阈值至少部分地基于第二电路的语言处理模型来确定,所述一个或更多个处理器还被配置成至少部分地基于所述确定的结果来调节所述第一电路的唤醒词检测操作。
附图说明
图1示出了根据一些实施方式配置的用于音频信号检测的装置的示例的图。
图2示出了根据一些实施方式配置的用于音频信号检测的系统的示例的图。
图3示出了根据一些实施方式实现的用于在音频信号检测中持续学习的装置的示例的图。
图4示出了根据一些实施方式实现的用于音频信号检测的方法的另一示例的流程图。
图5示出了根据一些实施方式实现的用于音频信号检测的方法的又一示例的流程图。
具体实施方式
在以下描述中,阐述了许多具体细节以提供对所提出构思的透彻理解。可以在没有这些具体细节中的一些或全部细节的情况下实践所提出的构思。在其他情况下,没有详细描述公知的处理操作,以免不必要地混淆所描述的构思。虽然将结合具体示例来描述一些构思,但是应当理解,这些示例并非旨在是限制性的。
系统和装置可以被配置成实现用于各种目的例如用于智能装置和智能电器的语音控制功能。例如,智能装置可以包括被配置成响应语音命令的智能助理(还被称为虚拟助理)。例如,智能装置可以处于休眠状态并且可以处于休眠模式。响应于检测到可以是特定词语的特定听觉输入,智能装置可以唤醒并监听命令或查询。用于识别这样的语音输入和命令的常规技术受到限制,因为这些常规技术利用具有高功耗特性的部件,并且还可以包括涉及不安全传输的技术,如在向基于云的服务传输数据时可以发生的技术。
本文中公开的实施方式提供在唤醒词检测中具有降低的功耗和提高的准确性的音频信号检测技术。如下面将更详细讨论的,本文中公开的实施方式针对用于唤醒词检测的部件执行学习和配置操作。例如,可以对高性能域的部件进行建模,并且这样的模型可以用于至少部分地基于低功率域的部件的性能来选择性地利用这样的部件。以这种方式,模型的持续学习和训练可以用于控制和增加在这样的唤醒词检测中使用的低功率电路的准确度,并且通过减少由高性能电路执行的验证操作来增加总体功率效率。
图1示出了根据一些实施方式配置的用于音频信号检测的装置的示例的图。如下面将更详细地讨论的,例如装置100的装置可以被配置成执行音频信号检测操作,如可以包括在由各种电器和装置例如智能家居装置使用的唤醒词检测中。例如,装置100可以包括在微控制器单元(MCU)中,该微控制器单元可以包括在可以被配置成实现智能助手的智能装置中。如上面所讨论的,这样的智能助手可以响应唤醒词或唤醒词的组合,例如“OK”或智能助手的名称。如下面将更详细地讨论的,装置100可以被配置成执行低功率和低延迟的持续学习操作以提高唤醒词检测的准确性和功率效率。
在各种实施方式中,装置100包括可以使用低功率电路系统实现的低功率电路102。在各种实施方式中,低功率电路102具有被配置用于低功率操作的第一功率电平。因此,如下面将更详细地讨论的,低功率电路102可以包括被配置成以第一功率电平操作的一个或更多个处理器。在各种实施方式中,基于降低的设计复杂度和降低的资源使用来配置低功率电路102。例如,相对于在低维特征空间中操作的基于底噪声(noise-floor)的语音开始(speech-onset)检测和低复杂度模式识别,低功率电路102可以包括分阶段的基于能量的活动检测。如下面将更详细地讨论的,这样的模式识别使用预测模型来实现,该预测模型可以是监督机器学习模型。例如,可以使用神经网络和/或其他机器学习技术例如决策树来实现监督机器学习模型。
如下面还将更详细地讨论的,低功率电路102可以包括被配置成执行唤醒词检测操作的处理元件和存储器,唤醒词检测操作包括诸如声学活动的检测、语音的检测以及唤醒词的检测和识别的操作。应当理解,也可以在其他部件例如下面更详细讨论的音频前端中执行诸如声学活动检测的操作。如下面将更详细地讨论的,一旦已经检测到唤醒词,就可以将操作移交给高性能电路106以用于随后的验证和查询处理。
装置100还可以包括高性能电路106,高性能电路可以包括被配置成执行验证操作和查询处理操作的处理元件和存储器。在各种实施方式中,高性能电路106具有被配置用于高性能操作的第二功率电平。因此,如下面将更详细地讨论的,高性能电路106可以包括被配置成以第二功率电平操作的一个或更多个处理器。此外,第二功率电平可以高于第一功率电平。
在各种实施方式中,高性能电路106可以被配置成验证由低功率电路102执行的唤醒词检测和识别,并且还可以被配置成处理用户发出的后续查询或命令。这样的查询或命令可以是用户输入,例如“关闭客厅灯”或“现在几点了”。这样的查询或命令可以作为唤醒词之后的音频信号来接收。如下面将更详细地讨论的,可以使用高性能电路106的语音识别部件来实现这样的验证和查询/命令处理。
如图1中所示,低功率电路102和高性能电路106可以经由接口104彼此通信耦合。因此,接口104可以被配置成提供两个域之间的双向通信。在一个示例中,接口104是用于实现低功率电路102的第一芯片与用于实现高性能电路106的第二芯片之间的接口。如本文中所公开的,可以经由第一处理器实现低功率电路102,并且可以经由第二处理器实现高性能电路106,其中,第一处理器和第二处理器是在同一芯片上实现的不同处理器核。在这样的实施方式中,处理器之间的同步和消息可以由接口104来处理,接口104可以是处理器间通信(IPC)接口。在各种实施方式中,接口104可以包括作为可由低功率电路102和高性能电路106两者访问的共享总线的一部分的循环缓冲器。IPC接口可以用于避免对循环缓冲器的访问冲突。
在各种实施方式中,装置100还包括学习模块108,学习模块108被配置成监测由低功率电路102和高性能电路106两者执行的操作,并且还被配置成基于监测到的操作来修改低功率电路102的操作以提高低功率电路102的准确度。因此,高性能电路106的一个或更多个部件可以监测并校正低功率电路102所做出的确定。因此,如下面将更详细地讨论的,可以基于学习模块108所做出的确定来动态地修改和更新由低功率电路102执行的唤醒词检测的操作,从而提高低功率电路102的准确度并且增加装置100的功率效率。
图2示出了根据一些实施方式配置的用于音频信号检测的系统的示例的图。如上面类似地讨论的,诸如系统200的系统可以被配置成执行音频信号检测操作,如可以包括在由各种电器和装置例如智能家居装置所使用的唤醒词检测中。例如,系统200可以包括音频前端以及在低功率电路和高性能电路中实现的各种部件。在各种实施方式中,系统200另外包括被配置成提供用于低功率电路的持续学习和训练的一个或更多个部件。
在各种实施方式中,系统200包括音频前端220,音频前端220可以包括被配置成接收音频信号的各种部件。例如,音频前端220可以包括一个或更多个麦克风,例如麦克风222。音频前端220还可以包括模拟部件例如放大器,以及相关联的数字部件例如模数转换器和先进先出(FIFO)寄存器。在一些实施方式中,音频前端220的部件例如麦克风可以被配置成在低功耗状态下操作,直到检测到指定的声学活动阈值。在各种实施方式中,模拟部件还可以包括用于声学活动检测的一个或更多个低功率模拟比较器和数字计数器。因此,音频前端220被配置成从实现系统200的环境接收音频信号,并且还被配置成将这样的音频信号转换成数字数据流。如上面类似地讨论的,这样的音频信号可以包括来自用户的语音或音频命令。因此,如下面将更详细地讨论的,可以经由麦克风222检测来自用户的语音,并且音频前端220可以被配置成监测声学信号,并且动态地计算并可能重新调节触发语音检测模块的音频信号的活动阈值。
在各种实施方式中,系统200包括可以使用低功率电路系统实现的低功率电路202。如上面类似地讨论的,低功率电路202可以包括被配置成执行唤醒词检测操作的一个或更多个部件,唤醒词检测包括诸如声学活动的检测、语音的检测以及唤醒词的检测和识别的操作。例如,低功率电路202可以包括语音检测模块208,语音检测模块208被配置成检测接收到的音频信号内的语音的存在。因此,语音检测模块208被配置成在环境声音与用户的语音之间进行区分。
在各种实施方式中,通过最小统计跟踪底噪声和/或监测短期能量演变来执行语音开始检测。语音检测模块208可以包括峰值能量检测器,峰值能量检测器可以被配置成针对底噪声跟踪瞬时能量以识别语音开始。应当理解,语音检测模块208可以被配置成使用本领域普通技术人员已知的语音开始检测算法或技术中的任何语音开始检测算法或技术。在一些实施方式中,在检测到语音开始事件时,语音开始检测模块208向第一词语检测模块212断言状态信号。
在各种实施方式中,在检测操作期间,通过状态机来监测阶段,其中检测通过指定状态进行,并且还可以利用在经过指定时间量的情况下的超时操作来实现。在各种实施方式中,经由软件来实现语音检测模块208。因此,可以使用包括在低功率电路202中的一个或更多个处理器(例如,处理器240)以及存储器(例如,下面更详细讨论的存储器210)来实现语音检测模块208。在另一示例中,可以使用包括在低功率电路202中的专用硬件加速器来实现语音检测模块208。
低功率电路202可以包括第一词语检测模块212,第一词语检测模块212被配置成执行由系统200执行的词语检测的第一阶段。因此,可以使用专用硬件加速器来实现第一词语检测模块212,并且第一词语检测模块212可以基于接收到的音频数据与一个或更多个存储的唤醒词的音频数据的比较来执行初始词语检测操作。因此,第一词语检测模块212可以将接收到的音频数据与所存储的与唤醒词相对应的指定音频模式进行比较,并且可以生成标识比较结果的输出。在一个示例中,第一词语检测模块212被配置成对接收到的音频数据执行诸如特征提取的操作,并且将提取的特征存储在缓冲器214之一中。在各种实施方式中,这样的特征提取将音频数据从时域变换到频域,并且在频域中的所得到的音频频谱中识别模式。例如,梅尔频率倒谱系数(MFCC)可以用于特征提取。应当理解,可以使用任何合适的词语检测技术。
低功率电路202可以包括缓冲器214,缓冲器214被配置成缓冲接收到的音频数据。因此,缓冲器214可以被配置成缓冲接收到的音频数据,并且在第一词语检测模块212请求这样的数据的情况下,向第一词语检测单元212提供这样的缓冲的音频数据,如可以在语音检测模块208触发第一词语检测模块212的情况下发生。如下面将更详细地讨论的,缓冲器214的大小可以基于第一词语检测模块212的要求来配置。
低功率电路202还可以包括存储器210,存储器210可以是被配置成存储软件以及由语音检测模块208和第一词语检测模块212接收和处理的音频数据的本地存储装置。因此,存储器210可以被配置成在这样的模块被实现为软件的情况下存储用于实现上面所描述的一个或更多个模块的软件。如上面所讨论的,低功率电路202可以包括被配置成以第一功率电平操作的部件。例如,可以通过至少部分地使用ArmCortexM33核来实现低功率电路202。
系统200还可以包括高性能电路206,高性能电路206可以包括被配置成执行验证操作和查询处理操作的处理元件和存储器。更具体地,高性能电路206可以包括一个或更多个部件,所述一个或更多个部件被配置成对由低功率电路202执行的唤醒词检测和识别进行验证,并且还可以被配置成处理由用户发出的后续查询或命令。例如,高性能电路206可以包括第二词语检测模块216,第二词语检测模块216可以被配置成验证由第一词语检测模块212执行的词语检测。因此,第二词语检测模块216可以被配置成执行附加唤醒词检测操作以增加唤醒词检测的准确度,并且验证第一词语检测模块212的输出。在各种实施方式中,可以经由处理器242和存储在存储器例如存储器221中的软件来实现第二词语检测模块216。在一些实施方式中,经由专用处理逻辑例如包括在硬件加速器中的专用处理逻辑来实现第二词语检测模块216。
在各种实施方式中,第一词语检测模块212可以被配置成实现机器学习技术,例如一个或更多个神经网络。第二词语检测模块216可以被配置成实现利用得到更高准确度的更大的模型的机器学习技术,例如神经网络。在一些实施方式中,第二词语检测模块216还可以应用一个或更多个数字信号处理操作,例如噪声的滤波/降低。
高性能电路206还可以包括语音识别模块218,语音识别模块218可以被配置成处理后续音频数据。例如,响应于第二词语检测模块216识别唤醒词的存在,语音识别模块218可以被触发以处理包括在接收到的音频流中的后续音频数据。语音识别模块218可以被配置成将接收到的音频数据与一个或更多个指定的音频模式进行比较以识别一个或更多个命令。在各种实施方式中,高性能电路206被配置成使用被缝合到词语中并且随后被用于经由词语和语言建模技术来推断意图或语言的亚声学模式识别。亚声学单元的示例是音素和字素。可以使用用于自然语言处理任务的N元语法(n-gram)和/或神经网络来实现词语和/或语言建模。应当理解,可以使用任何合适的语音识别技术。语音识别模块218还可以被配置成响应于这样的命令的识别来执行一个或更多个功能调用。例如,响应于识别到关闭用户家中的一组灯的命令,语音识别模块218可以向与灯相关联的应用发送请求或调用以处理该请求。
如上面所讨论的,预测模型可以用于词语检测操作。更具体地,可以是监督机器学习模型的机器学习模型可以用于识别特征数据中提取的模式,并且可以用于识别音频数据中的词语。因此,可以使用学习阶段和推断阶段来生成和实现这样的机器学习模型。在一些实施方式中,机器学习模型可以是神经网络。在各种实施方式中,低功率电路202所使用的神经网络可以具有比高性能电路206所使用的神经网络更低的复杂度和更少的计算密集度。例如,低功率电路202的词语检测模块212可以使用第一神经网络,第一神经网络具有比高性能电路206的第二词语检测模块216所使用的第二神经网络更少的神经元和/或特征。在一些实施方式中,第一神经网络可以具有比第二神经网络更少的神经元层或神经元之间的连接。因此,可以基于根据其中实现神经网络的功率域所确定的功率约束来配置神经网络的一个或更多个方面。
在各种实施方式中,可以经由存储在存储器例如存储器221中的软件来实现语音识别模块218。在一些实施方式中,经由专用处理逻辑例如包括在硬件加速器中的专用处理逻辑来实现语音识别模块218。如上面所讨论的,高性能电路206可以包括被配置成以第二功率电平操作的部件。例如,可以通过至少部分地使用ArmCortexM55核来实现高性能电路206。
如上面类似地讨论的,低功率电路202和高性能电路206可以经由接口204彼此通信地耦接。因此,接口204可以被配置成提供两个域之间的双向通信。在一个示例中,接口204是用于实现低功率电路202的第一芯片与用于实现高性能电路206的第二芯片之间的接口。
系统200另外包括学习模块230,如上面类似地讨论的,学习模块230被配置成监测低功率电路202和高性能电路206的行为,并且动态地修改低功率电路的操作以提高其准确度。如下面将更详细地讨论的,学习模块230被配置成将第二词语检测模块216映射到第一词语检测模块212的潜在空间。更具体地,学习模块230被配置成监测第一词语检测模块212做出的行为和决定,并且测量和观察潜在空间的表示分离为正分布和负分布,正分布和负分布表示第一词语检测模块212相对于第二词语检测模块216做出的决定所做出的正确和不正确的决定。在各种实施方式中,可以使用多变量高斯混合模型(GMM)对潜在空间进行建模,GMM可以被配置成对更广泛的群体和相关联的分布内的子群体和相关联的统计分布进行建模。应当理解,可以使用任何合适的概率模型。因此,学习模型230可以持续地监测词语检测模型所做的决定,并且可以确定其各自的分布何时已经分离,并且更具体地,确定针对第一词语检测模块212和第二词语检测模块216的定义类是否已经发散和分离。
一旦分布分离到“非模糊”空间中,如可以基于下面所描述的距离估计技术确定的,学习模块230可以采取一个或更多个校正动作,例如将一个或更多个权重应用于第一词语检测模块212做出的决定。此外,如下面将更详细地讨论的,在逐个决策的基础上立即向第一词语检测模块212提供反馈。因此,第一词语检测模块212的性能在操作期间被动态地和即时地改进,并且第一词语检测模块212设置有持续学习性能改进。如本文所使用的,潜在空间可以指与低功率电路202和第一词语检测模块212相关联的压缩或减少的数据空间,并且表示可观察空间。此外,可以基于接收到的音频数据的样本来动态地生成正分布和负分布。下面将参照图3更详细地讨论关于确定分布之间的距离以识别分离的分布的其他细节。
系统200还包括训练模块232,训练模块232可以被配置成向学习模块230和第一词语检测模块212中的一个或更多个提供训练数据。因此,训练模块232可以包括可以向学习模块230和第一词语检测模块212提供初始配置的训练数据集。以这种方式,可以基于包括在训练模块232中的训练数据来执行学习模块230和第一词语检测模块212的初始配置。可以由实体例如制造商或用户在系统200的配置处理期间存储这样的训练数据。在各种实施方式中,用于学习模块230的训练数据包括(例如,由训练模块232利用的)可观察空间中的一个或更多个训练示例到学习模块230操作的潜在空间的映射。学习模块230可以利用与可观察空间中的训练示例相关联的标签和/或任何属性来在潜在空间中生成对应的表示。此外,在系统200的操作期间,第二词语检测模块216充当学习模块230的“老师”,学习模块230进而训练第一词语检测模块212。
图3示出了根据一些实施方式配置的用于音频信号检测中的持续学习的装置的示例的图。在各种实施方式中,诸如装置300的装置可以被配置成执行用于唤醒词检测的部件的学习和配置操作。例如,装置300可以被配置成对高性能域的部件进行建模,并且至少部分地基于低功率域的部件的性能来选择性地利用这样的部件。以这种方式,装置300可以利用持续学习和训练来生成模型,该模型用于至少部分地控制在这样的唤醒词检测中使用的低功率电路,并且提高使用高性能电路的功率效率。
装置300可以包括统计模型304,统计模型304被配置成在低功率域中对高性能域的唤醒词检测模块进行建模或表示,其可以是低功率域的唤醒词检测模块的潜在空间。在各种实施方式中,潜在空间是作为对于用户不直接可用但是由底层模块利用以做出一个或更多个决定的学习模块的内部状态。因此,潜在空间是被配置成表示可观察空间中的数据的数据的紧凑且区别性的表示。在一些实施方式中,统计模型304被配置为分布外(OOD)检测器。因此,统计模型304被配置成对统计分布的一个或更多个类别进行建模,并且确定输入是否表示包括在该分布中或该分布之外的词语。虽然统计模型304被描述为使用各种统计模型和推断,但是应当理解,可以使用任何合适的建模技术。
在各种实施方式中,类别是用户定义的用于标识感兴趣的数据(和不感兴趣的数据)的标签。在本文中公开的系统或装置的配置和/或训练操作期间,可以由实体例如用户或管理员来定义这样的类别。在一些实施方式中,如上面类似地讨论的,这样的标签被提供在可观察空间中,用于在潜在空间中创建针对指定标签的表示。在各种实施方式中,OOD检测器被配置成基于距这样的表示的距离来做出决定。可以使用聚类方法或来自参数模型的统计推断来创建表示。例如,可以使用平均向量统计分布作为表示。距离可以表示为多维潜在空间中的绝对距离、向量范数或最近邻特征。例如,距离计算技术可以包括L2距离计算、可以识别质心的多个最近邻的最近邻计算、最大似然比(MLR)计算或最大后验(MAP)估计。
例如,在L2距离计算中,N维空间中两点之间的距离可以由下面所示出的式1给出:
d(x_i,x_j)=||x_i-–x_j||_2 (1)
此外,x_i可以如下面所示出的由式2表示,并且||.||表示均方根误差计算。
[x_i^1,x_i^2…x_i^N] (2)
MLR计算可以测量观察到的分布属于统计模型304中表示的一个或更多个分布的“机会”。例如,给定模型f(θ),MLR计算可以识别观察到的分布x_i属于f(θ)的机会或概率,并且可以表示为f(θ/x)。如果存在多个模型,则可以获得多个可能性,例如f(θ_1/x)、f(θ_2/x)…,并且可以使用一个或更多个比率来确定观察到的数据与模型的接近度。可以类似地实现MAP估计,其中一些先验信息可以包括在估计中。
因此,可以在潜在空间和可观察空间中生成表示,并且上面讨论的一个或多个距离计算技术可以用于距离计算。应当理解,还可以利用单独关联的其他特性。可以至少部分地基于包括在训练数据中的初始数据集来生成这样的模型,该初始数据集如可以由初始分布310存储和维护,该初始分布310可以已经基于训练阶段期间采集的样本生成并且可以包括数千个音频样本。因此,初始分布310可以由实体例如制造商或用户生成,并且可以已经基于可用的在线词典生成。如上面所讨论的,统计模型304被配置成对包括在高性能电路中的唤醒词检测模块(例如,上面参照图2所讨论的第二词语检测模块216)的行为进行建模。因此,还可以基于从高性能电路的唤醒词检测模块接收到的输入来生成统计模型304。
装置300另外包括更新模块308,更新模块308被配置成响应于从包括在高性能电路中的唤醒词检测模块接收到的输入来更新统计模型304。因此,可以基于唤醒词检测模块所做出的决定来动态地更新统计模型304,以确保统计模型304准确地对高性能电路的唤醒词检测模件的行为进行建模。在各种实施方式中,可以基于在线最大似然估计(在线MLE)技术或在线最大后验(在线MAP)技术来执行这样的更新。可以响应于未包括在现有分布和字典中的新词的识别来执行这样的更新。
装置300还包括模糊度分类模块306,模糊度分类模块306被配置成测量分布的可分离性以确定类别是否已经分离。因此,模糊度分类模块306可以被配置成执行上面讨论的距离计算。在一些实施方式中,可以通过使用被配置成监测分布的期望之间的距离并确定是否存在模糊的多变量高斯混合模型对潜在空间进行建模来确定类别已经分离。如上面所讨论的,可以使用任何合适的技术来确定表示与其相关联的分布之间的距离。分布之间的这样的距离可以被认为是误差余量,并且可以用于确定唤醒词检测模块例如下面讨论的词语检测模块302是否已经偏离了可接受的准确度公差。此外,模糊度分类模块306被配置成对由高功率域中实现的部件例如包括在高性能电路中的唤醒词检测模块以及统计模型304所执行的操作进行过滤和/或约束,从而降低功耗。更具体地,模糊度分类模块306可以被配置成确定包括在低功率电路中的唤醒词检测模块是否在可接受的公差内操作并且因此使用包括在低功率域中的部件,或者确定是否还使用包括在高性能域中的部件来执行附加验证操作。以这种方式,基于至少部分地由模糊度分类模块306做出的确定来选择性地应用高性能域的使用。
装置300可以包括唤醒词检测模块302或耦接至唤醒词检测模块302。如上面所讨论的,唤醒词检测模块302可以被配置成在低功率域中执行词语检测的第一阶段。在一些实施方式中,唤醒词检测模块302可以包括在低功率电路中,并且因此可以被配置成类似于上面参照图2所讨论的第一词语检测模块212。如上面类似地讨论的,唤醒词检测模块302被配置成执行可以至少部分地基于模糊度分类模块306所提供的输入进行调制的唤醒词检测操作。更具体地,如果确定要在可接受的公差之外进行操作,则可以由模糊度分类模块306指示唤醒词检测模块302来触发来自高性能域的唤醒词检测模块的附加验证操作,以使得高性能域的唤醒词检测模块用于验证在低功率域中由唤醒词检测模块302所执行的唤醒词检测操作。
应当理解,模糊度分类模块306可以以各种附加方式修改唤醒词检测模块302的操作。例如,可以基于从模糊度分类模块306接收到的输入来修改由唤醒词检测模块302使用的似然比测试的θ参数。在一个示例中,如果唤醒模糊度分类模块306确定词语检测模块302过于频繁地未能检测到唤醒词,则可以调节θ参数以减小分布之间所需的距离。在另一示例中,如由上面讨论的数据所表示的,唤醒词检测模块302使用的统计模型可能已经由唤醒词决策序列训练和引导。模糊度分类模块306可以修改与特定决策(例如,正确的决策或特定时间段内的决策)相关联的权重,以提高词语检测模块302所使用的统计模型的性能。在又一示例中,多个统计模型可以存储在低功率电路中,并且由唤醒词检测模块302使用。因此,唤醒词检测模块302可以基于模糊度分类模块306设置的一个或更多个权重来识别并利用用于唤醒词检测操作的特定统计模型。以这种方式,模糊度分类模块306可以对词语检测模块302使用的模型进行加权和配置以确保使用最准确的模型。
图4示出了根据一些实施方式实现的用于音频信号检测的方法的示例的流程图。如上面类似地讨论的,可以针对音频信号检测操作执行诸如方法400的方法,如可以包括在由各种电器和装置例如智能家居装置所使用的唤醒词检测中。如下面将更详细地讨论的,方法400可以向这样的音频信号检测操作中所使用的低功率电路提供持续学习和训练。
方法400可以执行操作402,在操作402期间可以接收音频输入。如上面类似地讨论的,可以从实现智能装置或系统的周围环境接收音频输入。因此,音频输入可以是从这样的周围环境接收到的音频信号。同样如上面所讨论的,音频输入可以包括由用户提供的语音命令和语音。
方法400可以执行操作404,在操作404期间可以识别唤醒词。因此,响应于接收到音频输入并检测到从用户接收到的语音,可以处理接收到的音频数据以识别一个或更多个唤醒词的存在。如上面类似地讨论的,唤醒词的识别可以在两个阶段中发生,其中由智能装置或系统的低功率电路处理第一阶段,并且其中由智能装置或系统的高性能电路处理第二阶段。因此,同样如上面类似地讨论的,唤醒词的识别和验证可以在低功率域与高性能域之间划分,并且还用于随后的触发查询/命令处理。
方法400可以执行操作406,在操作406期间可以确定低功率电路是否在指定的准确度阈值内操作。如下面将更详细地讨论的,可以基于低功率电路的唤醒词检测模块的潜在空间的分布的比较来确定指定的准确度阈值。因此,响应于确定两个分布已经发散,可以确定低功率电路在指定的准确度阈值之外操作。
方法400可以执行操作408,在操作408期间可以修改低功率电路。因此,包括在低功率电路中的唤醒词检测模块的操作可以响应于确定其在指定的准确度阈值之外操作而被更新或修改。如下面将更详细地讨论的,对其操作的这样的修改或更新可以包括由低功率电路做出的加权决定,或者使用例如高性能电路来执行附加验证操作。
图5示出了根据一些实施方式实现的用于音频信号检测的方法的另一示例的流程图。如上面类似地讨论的,可以针对音频信号检测操作执行诸如方法500的方法,如可以包括在各种电器和装置例如智能家居装置所使用的唤醒词检测中。如下面将更详细地讨论的,方法500可以向这样的音频信号检测操作中所使用的低功率电路提供持续学习和训练。
方法500可以执行操作502,在操作502期间可以接收音频输入。如上面类似地讨论的,可以从实现智能设备或系统的周围环境接收音频输入。因此,音频输入可以是从这样的周围环境接收到的音频信号。同样如上面所讨论的,音频输入可以包括由用户提供的语音命令和语音。
方法500可以执行操作504,在操作504期间可以在音频输入中识别语音。因此,根据各种实施方式,可以处理接收到的音频数据以确定是否已经检测到语音。因此,在操作504期间,可以确定接收到的音频数据是否仅是环境噪声,或者接收到的语音数据是否包括来自用户的语音和词语。如上面类似地讨论的,这样的语音检测可以由智能装置或系统的低功率电路来执行。在一些实施方式中,可以响应于确定没有执行唤醒词检测操作来执行操作504。因此,可以执行操作504,以使得在先前的唤醒词检测操作已经在进行的情况下,操作504不被触发。
方法500可以执行操作506,在操作506期间可以识别唤醒词。因此,响应于检测到从用户接收到的语音,可以处理接收到的音频数据以识别一个或更多个唤醒词的存在。如上面类似地讨论的,唤醒词的识别可以在两个阶段中发生,其中由智能装置或系统的低功率电路处理第一阶段,并且其中由智能装置或系统的高性能电路处理第二阶段。因此,同样如上面类似地讨论的,唤醒词的识别和验证可以在低功率域与高性能域之间划分,并且还用于随后的触发查询/命令处理。
方法500可以执行操作508,在操作508期间,学习模块可以识别多个分布。如上面类似地讨论的,学习模块被配置成将高性能电路的唤醒词检测模块的行为映射到低功率电路的潜在空间,并且基于这样的潜在空间生成正分布和负分布。因此,在操作508期间,学习模块可以识别这样的分布以及这样的分布之间的间隔或距离。如上面类似地讨论的,学习模块可以使用一个或更多个统计推断来确定潜在空间中的表示与相关联的分布之间的距离。
方法500可以执行操作510,在操作510期间可以确定低功率电路是否在指定的准确度阈值内操作。在各种实施方式中,指定的准确度阈值可以表示指定的正确唤醒词识别的百分比。因此,阈值可以是可接受的误差或准确率,或者任何其他合适的准确度度量。在各种实施方式中,可以基于低功率电路的唤醒词检测模块的潜在空间的分布的比较来确定指定的准确度阈值。如上面类似地讨论的,所确定的距离可以用于确定分布是否分离,以及低功率电路是否在指定的准确度阈值之外操作。因此,响应于确定两个分布已经发散并且是不同的或明确的,可以确定低功率电路在指定的准确度阈值之外操作。
方法500可以执行操作512,在操作512期间可以修改低功率电路。因此,包括在低功率电路中的唤醒词检测模块的操作可以响应于确定其在指定的准确度阈值之外操作而被更新或修改。因此,对其操作的这样的修改或更新可以包括由低功率电路做出的加权决定,或者使用例如高性能电路来执行附加验证操作。以这种方式,可以动态地更新和调节低功率电路的操作以提高在低功率域中做出的决策的准确度。
尽管已经出于理解清楚的目的对前述构思进行了一些详细的描述,但是将明显的是,在所附权利要求的范围内可以实践某些改变和修改。应当注意,存在许多实现过程、系统和装置的可替选的方法。因此,本示例被认为是说明性的而非限制性的。

Claims (20)

1.一种方法,包括:
在音频前端电路处接收音频输入;
使用第一电路、至少部分地基于接收到的音频信号来识别唤醒词;以及
至少部分地基于与所述第一电路相关联的指定的准确度阈值和所述识别的结果来确定是否应当修改由所述第一电路执行的所述识别,所述指定的准确度阈值是至少部分地基于第二电路的语言处理模型来确定的,以及
所述修改包括:至少部分地基于所述确定的结果来调节所述第一电路的唤醒词检测操作。
2.根据权利要求1所述的方法,其中,所述第一电路以第一功率电平操作,并且所述第二电路以第二功率电平操作。
3.根据权利要求2所述的方法,其中,所述第二功率电平高于所述第一功率电平。
4.根据权利要求1所述的方法,其中,所述指定的准确度阈值表示指定的正确唤醒词识别的百分比。
5.根据权利要求4所述的方法,其中,至少部分地基于与所述第一电路相关联的潜在空间中的多个统计分布来确定所述指定的准确度阈值。
6.根据权利要求5所述的方法,其中,至少部分地基于第一分布与第二分布之间的差来确定所述指定的准确度阈值。
7.根据权利要求1所述的方法,其中,所述语言处理模型在与所述第一电路相关联的潜在空间中表示所述第二电路。
8.根据权利要求7所述的方法,其中,基于所述第二电路的一个或更多个唤醒词识别操作来更新所述语言处理模型。
9.根据权利要求1所述的方法,其中,所述修改还包括:
调节与所述第一电路的唤醒词识别操作相关联的一个或更多个权重。
10.一种系统,包括:
音频前端电路,其被配置成接收音频输入;
包括一个或更多个处理器的第一电路,所述一个或更多个处理器被配置成至少部分地基于接收到的音频输入来识别唤醒词;以及
包括一个或更多个处理器的学习模块,所述一个或更多个处理器被配置成:
至少部分地基于与所述第一电路相关联的指定的准确度阈值和所述识别的结果来确定是否应当修改由所述第一电路执行的所述识别,所述指定的准确度阈值是至少部分地基于第二电路的语言处理模型来确定的,
所述一个或更多个处理器还被配置成至少部分地基于所述确定的结果来调节所述第一电路的唤醒词检测操作。
11.根据权利要求10所述的系统,其中,所述第一电路以第一功率电平操作,并且所述第二电路以第二功率电平操作,并且其中,所述第二功率电平高于所述第一功率电平。
12.根据权利要求10所述的系统,其中,所述指定的准确度阈值表示指定的正确唤醒词识别的百分比。
13.根据权利要求12所述的系统,其中,至少部分地基于与所述第一电路相关联的潜在空间中的多个统计分布来确定所述指定的准确度阈值。
14.根据权利要求13所述的系统,其中,至少部分地基于第一分布与第二分布之间的差来确定所述指定的准确度阈值。
15.根据权利要求10所述的系统,其中,所述语言处理模型在与所述第一电路相关联的潜在空间中表示所述第二电路,并且其中,基于所述第二电路的一个或更多个唤醒词识别操作来更新所述语言处理模型。
16.一种装置,包括:
第一电路,其被配置成至少部分地基于接收到的音频输入来识别唤醒词;以及
包括一个或更多个处理器的学习模块,所述一个或更多个处理器被配置成至少部分地基于与所述第一电路相关联的指定的准确度阈值和所述识别的结果来确定是否应当修改由所述第一电路执行的所述识别,所述指定的准确度阈值是至少部分地基于第二电路的语言处理模型来确定的,
所述一个或更多个处理器还被配置成至少部分地基于所述确定的结果来调节所述第一电路的唤醒词检测操作。
17.根据权利要求16所述的装置,其中,所述第一电路以第一功率电平操作,并且所述第二电路以第二功率电平操作,并且其中,所述第二电功率电平高于所述第一功率电平。
18.根据权利要求16所述的装置,其中,所述指定的准确度阈值表示指定的正确唤醒词识别的百分比。
19.根据权利要求18所述的装置,其中,至少部分地基于与所述第一电路相关联的潜在空间中的多个统计分布来确定所述指定的准确度阈值,并且其中,至少部分地基于第一分布与第二分布之间的差来确定所述指定的准确度阈值。
20.根据权利要求16所述的装置,其中,所述语言处理模型在与所述第一电路相关联的潜在空间中表示所述第二电路,并且其中,基于所述第二电路的一个或更多个唤醒词识别操作来更新所述语言处理模型。
CN202311036377.8A 2022-08-18 2023-08-16 用于利用持续学习的唤醒词检测的系统、方法和装置 Pending CN117594049A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/820,820 US20240062755A1 (en) 2022-08-18 2022-08-18 Systems, methods, and devices for wakeup word detection with continuous learning
US17/820,820 2022-08-18

Publications (1)

Publication Number Publication Date
CN117594049A true CN117594049A (zh) 2024-02-23

Family

ID=89844519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311036377.8A Pending CN117594049A (zh) 2022-08-18 2023-08-16 用于利用持续学习的唤醒词检测的系统、方法和装置

Country Status (3)

Country Link
US (1) US20240062755A1 (zh)
CN (1) CN117594049A (zh)
DE (1) DE102023122089A1 (zh)

Also Published As

Publication number Publication date
US20240062755A1 (en) 2024-02-22
DE102023122089A1 (de) 2024-02-29

Similar Documents

Publication Publication Date Title
CN111712874B (zh) 用于确定声音特性的方法、系统、装置和存储介质
CN110289003A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN110534099A (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN109584896A (zh) 一种语音芯片及电子设备
US20120316879A1 (en) System for detecting speech interval and recognizing continous speech in a noisy environment through real-time recognition of call commands
CN110349597B (zh) 一种语音检测方法及装置
CN102024455A (zh) 说话人识别系统及其方法
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
WO2021151310A1 (zh) 语音通话的噪声消除方法、装置、电子设备及存储介质
CN103811001A (zh) 词语验证的方法及装置
US11200903B2 (en) Systems and methods for speaker verification using summarized extracted features
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
CN116547752A (zh) 虚假音频检测
CN110580897B (zh) 音频校验方法、装置、存储介质及电子设备
JP2021081713A (ja) 音声信号を処理するための方法、装置、機器、および媒体
Barkana et al. Environmental noise source classification using neural networks
CN117594049A (zh) 用于利用持续学习的唤醒词检测的系统、方法和装置
CN102237082A (zh) 语音识别系统的自适应方法
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
CN114171009A (zh) 用于目标设备的语音识别方法、装置、设备及存储介质
CN113744734A (zh) 一种语音唤醒方法、装置、电子设备及存储介质
Liu et al. Sound event classification based on frequency-energy feature representation and two-stage data dimension reduction
CN112543390B (zh) 一种幼儿智能音箱及其交互方法
US20240062756A1 (en) Systems, methods, and devices for staged wakeup word detection
US20240062745A1 (en) Systems, methods, and devices for low-power audio signal detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication