CN117133280A - 语音唤醒检测装置及方法 - Google Patents

语音唤醒检测装置及方法 Download PDF

Info

Publication number
CN117133280A
CN117133280A CN202211460599.8A CN202211460599A CN117133280A CN 117133280 A CN117133280 A CN 117133280A CN 202211460599 A CN202211460599 A CN 202211460599A CN 117133280 A CN117133280 A CN 117133280A
Authority
CN
China
Prior art keywords
signal
gain
weight
audio input
wake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211460599.8A
Other languages
English (en)
Inventor
孙良哲
郑尧文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MediaTek Inc
Original Assignee
MediaTek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MediaTek Inc filed Critical MediaTek Inc
Publication of CN117133280A publication Critical patent/CN117133280A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • H03M1/1205Multiplexed conversion systems
    • H03M1/123Simultaneous, i.e. using one converter per channel but with common control or reference circuits for multiple converters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

本发明提供一种语音唤醒检测装置及方法。本发明的语音唤醒检测装置包括麦克风,用于接收音频输入信号,音频输入信号包括语音信号和环境语音信号;第一模数转换器,根据第一增益将音频输入信号转换为第一信号;第二模数转换器,根据第二增益将音频输入信号转换为第二信号;以及控制模块,将乘以第一权重的第一信号和乘以第二权重的第二信号合并为第三信号,并响应于音量值调整第一权重和第二权重,其中第二增益小于第一增益,并且第一权重不同于第二权重。本发明的语音唤醒检测装置及方法可以提高语音唤醒性能。

Description

语音唤醒检测装置及方法
【技术领域】
本发明涉及一种语音唤醒检测装置,尤其涉及一种具有高动态范围(highdynamic range)的语音唤醒检测装置。
【背景技术】
如今,智能手机的功能多种多样。例如,具有语音唤醒功能的智能手机受到大多数消费者的青睐。当智能手机在睡眠模式下检测到用户说出关键字的声音时,智能手机就能识别出该关键字。如果检测到关键字,智能手机会从睡眠模式切换到正常模式。换言之,用户无需按下设备上的功能键即可唤醒智能手机或其他电子设备。
语音识别功能总是应用于便携式设备(例如移动电话),以便用户可以使用语音命令(即,语音信号)来激活便携式设备或控制便携式设备执行某些操作。功能。然而,为了检测语音,便携式设备的麦克风需要始终打开。此外,若要识别接收到的语音,便携式设备的语音唤醒检测模块也必须始终处于开启状态。因此,便携式设备的功耗由于语音识别功能而增加。
【发明内容】
有鉴于此,本发明提供以下技术方案:
本发明提供一种语音唤醒检测装置,包括麦克风,用于接收音频输入信号,其中音频输入信号包括语音信号和环境语音信号;第一模数转换器,用于根据第一增益将音频输入信号转换为第一信号;第二模数转换器,用于根据第二增益将音频输入信号转换为第二信号;以及控制模块,被配置为将乘以第一权重的第一信号和乘以第二权重的第二信号合并为第三信号,并响应于音量值调整第一权重和第二权重,其中第二增益小于第一增益,并且第一权重不同于第二权重。
本发明还提供一种语音唤醒检测装置,包括麦克风,用于接收音频输入信号,其中音频输入信号包括语音信号和环境语音信号;扬声器,被配置为提供音频输出信号作为环境语音信号的至少一部分;控制模块,被配置为响应于音频输出信号的音量值提供可变增益;以及模数转换器,被配置为当音频输出信号的音量值小于或等于第一阈值时,根据具有第一增益值的可变增益将音频输入信号转换为第一信号,其中,控制模块用于根据对应于第一增益值的第一信号提供第二信号。
本发明还提供一种语音唤醒检测方法,用于检测唤醒词,语音唤醒检测方法包括:通过麦克风获取音频输入信号,其中音频输入信号包括语音信号和环境语音信号;根据音量值获得第一权重和第二权重;根据第一增益将音频输入信号转换为第一信号,并将第一信号乘以第一权重;根据第二增益将音频输入信号转换为第二信号,并将第二信号乘以第二权重;将乘以第一权重的第一信号和乘以第二权重的第二信号合并为第三信号;以及分析第三信号以确定唤醒词的语音表示是否存在于第三信号中,其中第一增益不同于第二增益。
本发明的语音唤醒检测装置及方法可以提高语音唤醒性能。
【附图说明】
结合在本说明书中并构成本说明书一部分的附图示出了本发明的实施例,并且与说明书一起用于解释本发明的原理:
图1示出了根据本发明一些实施例的语音唤醒检测装置。
图2示出了根据本发明一些实施例的用于检测唤醒词的语音唤醒检测方法。
图3示出了根据本发明一些实施例的语音唤醒检测装置。
图4示出了根据本发明一些实施例的用于检测唤醒词的语音唤醒检测方法。
【具体实施方式】
在下面的描述中,阐述了许多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本发明的实施例。在其他情况下,未详细示出公知的电路、结构和技术,以免混淆对本说明书的理解。然而,本领域技术人员将理解,可以在没有这种具体细节的情况下实践本发明。具有所包括的描述的本领域技术人员将能够实现适当的功能而无需过度的实验。
以下描述是实施本发明的最佳预期模式。该描述是为了说明本发明的一般原理,不应理解为限制性的。本发明的范围最好通过参考所附权利要求来确定。
描述了实施例的一些变体。在各个视图和说明性实施例中,相同的附图标记用于表示相同的元件。应当理解,可以在所公开的方法之前、期间和/或之后提供额外的操作,并且对于该方法的其他实施例可以替换或消除所描述的一些操作。
图1示出了根据本发明一些实施例的语音唤醒检测装置100。语音唤醒检测装置100是由电池(未示出)供电的便携式装置。在一些实施例中,语音唤醒检测设备100是移动电话、可穿戴设备(例如,无线耳机、智能手表)等。语音唤醒检测装置100包括麦克风10、音频处理电路110和扬声器20。麦克风10用于将麦克风10接收的声音转换成音频输入信号Sin。扬声器20被配置为提供(或播放)具有音量值VOL的音频输出信号Sout。在一些实施例中,语音唤醒检测装置100被配置为根据多媒体数据(或文件)的音频信息产生音频输出信号Sout。当输出音量值VOL过大时,扬声器20播放的音频输出信号Sout可能会被麦克风10接收到。当扬声器20与麦克风10的距离较近时,麦克风10接收到的音频输出信号Sout增加。在这样的实施例中,对应于在麦克风10处接收到的声音的音频输入信号Sin可以包括来自用户的语音信号和环境语音信号(例如,由扬声器20播放的音频输出信号Sout)。为了简化描述,语音唤醒检测装置100内的其他电路和组件被省略。
音频处理电路110包括模数转换器(ADC)120_1和120_2、高动态范围控制模块130、音频前端处理模块140、唤醒词检测模块150、处理器160和音频回放模块170。音频处理电路110内的组件和模块可以在一个或多个集成电路(IC)中实现。处理器160用于控制音频播放模块170提供音频输出信号Sout,以通过扬声器20以输出音量值VOL播放音频输出信号Sout。在一些实施例中,根据存储在语音唤醒检测装置100的存储装置(未示出)中的多媒体数据或无线获得的多媒体数据,音频播放模块170提供音频输出信号Sout。
高动态范围控制模块130被配置为向模数转换器120_1提供信号EN_1和增益Gain_1并且向模数转换器120_2提供信号EN_2和增益Gain_2。当模数转换器120_1被信号EN_1致能时,模数转换器120_1被配置为根据增益Gain_1将来自麦克风10的音频输入信号Sin转换为信号S1。类似地,当模拟数字转换器120_2被信号EN_2致能时,模拟数字转换器120_2被配置为根据增益Gain_2将来自麦克风10的音频输入信号Sin转换为信号S2。换言之,模数转换器120_1为音频输入信号Sin提供第一信号处理路径,而模数转换器120_2为音频输入信号Sin提供第二信号处理路径。在一些实施例中,分配第一信号处理路径以在非播放模式或低音量播放模式下放大音频输入信号Sin,并且分配第二信号处理路径以在高音量播放模式下放大音频输入信号Sin。在一些实施例中,模数转换器120_1和120_2是具有相同电路配置的16位模数转换器,并且信号S1和S2中的每一个是包括一个符号位和十五个幅度位的16位数字信号。
增益Gain_1和增益Gain_2由高动态范围控制模块130设定,增益Gain_1大于增益Gain_2。在一些实施例中,增益Gain_1和增益Gain_2是固定的。例如,增益Gain_1设置为18dB,增益Gain_2设置为0dB。在一些实施例中,增益Gain_1和增益Gain_2是可变的,并且高动态范围控制模块130被配置为响应于音频输出信号Sout的输出音量值VOL而提供可变增益Gain_1和可变Gain_2。在一些实施例中,增益Gain_2是固定的而增益Gain_1是可变的,当输出音量值VOL超过阈值VOLth_out时,高动态范围控制模块130被配置为减小增益Gain_1。
在获得信号S1和S2之后,高动态范围控制模块130被配置为将信号S1与第一权重W1相乘,并将信号S2与第二权重W2相乘,并将信号S1乘以第一权重W1和信号S2乘以第二权重W2组合成为信号S3。在一些实施例中,信号S1和S2被记录在高动态范围控制模块130中。此外,高动态范围控制模块130被配置为将记录的信号S1与第一权重W1相乘,并将记录的信号S2与第二权重W2相乘。
在一些实施例中,第一权重W1或第二权重W2是在时域中应用于信号S1和S2的实部数(real part number)权重。在一些实施例中,第一权重W1或第二权重W2是应用于信号S1和S2的特定频率子带的复权重(complex weight)。也就是说,人类语音通常涵盖从30到10,000Hz的频率,并且大部分能量在200到3500Hz的范围内。复权重可以在不同的语音频域应用不同的值。例如,200至500Hz子带上应用30%,500至1800Hz上应用80%,1800至2500Hz上应用20%。通过对频率子带应用不同的权重值,可以更清晰地捕捉到语音。
在一些实施例中,第一权重Wl和第二权重W2是固定的。在一些实施例中,第一权重W1和第二权重W2是可变的。例如,当输出音量值VOL等于0时(即不播放音频输出信号Sout),第一权重W1和第二权重W2是固定的。当输出音量值VOL大于0时(即通过扬声器20播放音频输出信号Sout),高动态范围控制模块130被配置为响应于输出音量值VOL调整第一权重W1和第二权重W2。当输出音量值VOL小于或等于阈值VOLth_out时,高动态范围控制模块130被配置为调整第一权重W1和第二权重W2(例如,增加第一权重W1和减小第二权重W2)),使得第一权重W1大于第二权重W2。相反,当输出音量值VOL大于阈值VOLth_out时,高动态范围控制模块130被配置为调整第一权重W1和第二权重W2(例如,减小第一权重W1和增大第二权重W2),使得第一权重W1小于第二权重W2。换言之,通过调整第一权重W1和第二权重W2,可以改变信号S3中信号S1和信号S2的组成比。
当输出音量值VOL不超过阈值VOLth_out时(例如,不播放音频输出信号Sout或以小音量播放音频输出信号Sout),第一权重Wl大于第二权重W2,信号S3主要由信号S1组成。反之,当输出音量值VOL超过阈值VOLth_out时,第一权重W1小于第二权重W2,信号S3主要由信号S2构成。
如上所述,增益Gain_1大于增益Gain_2,因此信号S1具有比信号S2更大的幅度。当音频输入信号Sin具有较大幅度时,模数转换器120_1提供的信号S1可能被削波(clipped)(或饱和(saturated))。因此,通过对信号S1使用较低的第一权重W1,可以在音频输入信号Sin具有较大幅度时避免信号S3的失真。
音频前端处理模块140被配置为对信号S3执行优化操作(例如,波束形成(beamforming)、降噪(NR)、声学回声消除(AEC))以获得信号S4。唤醒词检测模块150被配置为分析信号S4以确定唤醒词的语音表示是否存在于信号S4中。唤醒词是用于执行特定应用或操作,例如语音助手的唤醒词。当唤醒词检测模块150识别出唤醒词时,唤醒词检测模块150通知处理器160以执行相应的应用或操作。
在语音唤醒检测装置100中,音频输入信号Sin通过使用具有不同增益(例如,Gain_1和Gain_2)的多个16位模数转换器(例如,120_1和120_2)来放大。相较于传统的具有单一固定增益的模数转换器的语音唤醒检测装置,高动态范围控制模块130能够利用不同的模数转换器对应的权重对音频输入信号Sin进行高动态范围的信号处理。因此,语音唤醒检测装置100可以更准确地执行打断(barge-in)操作(即,在播放期间唤醒),而无需使用耗电的高动态范围模数转换器。
在一些实施例中,语音唤醒检测装置100具有位于语音唤醒检测装置100上不同位置的多个扬声器20和/或多个麦克风10。对于来自每个麦克风10的音频输入信号Sin,高动态范围控制模块130用于根据整个扬声器20的音量值VOL得到第一权重W1和第二权重W2。
图2示出了根据本发明一些实施例的用于检测唤醒词的语音唤醒检测方法200。图2的语音唤醒检测方法200由具有用于音频输入信号的多个信号处理路径的电子设备(例如,图1的语音唤醒检测设备100)执行,并且每个信号处理路径由相应的模数转换器(例如,图1的模数转换器120_1和120_2)提供。在一些实施例中,电子设备由电池供电。
在步骤S210中,电子装置被配置为操作于播放模式,以通过至少一个扬声器提供(或播放)具有音量值VOL的音频输出信号Sout。
在步骤S220中,电子设备被配置为在播放模式下通过麦克风获得音频输入信号Sin。如上所述,音频输入信号Sin可以包括来自用户的语音信号和扬声器播放的音频输出信号Sout。
在步骤S230中,音频输入信号Sin分别通过相应的模数转换器被转换为具有增益Gain_1的信号S1和具有增益Gain_2的信号S2。如上所述,第一信号处理路径中的增益Gain_1大于第二信号处理路径中的增益Gain_2。在一些实施例中,增益Gain_1和增益Gain_2是固定的。在一些实施例中,增益Gain_1和增益Gain_2可以根据音频输出信号Sout的输出音量值VOL进行调整。在一些实施例中,增益Gain_2是固定的,而增益Gain_1是可变的,当输出音量值VOL超过阈值VOLth_out时,增益Gain_1减小。
在步骤S240中,根据音频输出信号Sout的输出音量值VOL获得第一权重W1和第二权重W2。在一些实施例中,当输出音量值VOL小于或等于阈值VOLth_out时,第一权重W1大于第二权重W2,当输出音量值VOL大于阈值VOLth_out时,第一权重W1小于第二权重W2。在一些实施例中,当输出音量值VOL超过阈值VOLth_out时,可以减小第一权重W1并且可以增大第二权重W2,并且当输出音量值VOL不超过阈值VOLth_out时可以增大第一权重W1并且可以减小第二权重W2。在一些实施例中,语音唤醒检测方法200中的步骤S230和S240的顺序可以互换。
在步骤S250中,将在第一信号处理路径中获得的信号S1乘以第一权重W1并且将在第二信号处理路径中获得的信号S2乘以第二权重W2。接着,合并信号S1乘以第一权重W1的值与信号S2乘以第二权重W2的值得到信号S3。
在步骤S260中,分析信号S3以识别唤醒词的语音表示是否存在于信号S3中。在一些实施例中,在分析信号S3之前,对信号S3进行一个或多个预处理操作(例如,NR和AEC)以提高唤醒词识别率。
如果识别出唤醒词的语音表示,则确定电子设备接收到唤醒词对应的音频输入信号Sin,然后电子设备执行唤醒词对应的操作。
图3示出了根据本发明一些实施例的语音唤醒检测装置300。语音唤醒检测装置300是由电池(未示出)供电的便携式装置300。在一些实施例中,语音唤醒检测设备300是移动电话、可穿戴设备(例如,无线耳机、智能手表)等。语音唤醒检测装置300包括麦克风10、音频处理电路310和扬声器20。为了简化描述,语音唤醒检测装置300内的其他电路和部件被省略。
音频处理电路310包括模数转换器320、高动态范围控制模块330、音频前端处理模块340、唤醒词检测模块350、处理器360和音频回放模块370。与图1的音频处理电路110相比,图3的音频处理电路310仅包括单个模数转换器320。在一些实施例中,模数转换器320是16位模数转换器,并且信号S5是包括一个符号位和十五个幅度位的16位数字信号。音频处理电路310内的组件和模块可以在一个或多个IC中实现。
处理器360用于控制音频播放模块370提供音频输出信号Sout,以通过扬声器20以输出音量值VOL播放音频输出信号Sout。模数转换器320用于将来自麦克风10的音频输入信号Sin根据增益Gain_3转换为信号S5,增益Gain_3是可变的。高动态范围控制模块330被配置为响应于音频输出信号Sout的输出音量值VOL,将增益Gain_3提供给模数转换器320。
当输出音量值VOL小于或等于阈值VOLth_out时,高动态范围控制模块330被配置为将增益Gain_3设置为具有较高的增益值(例如,18dB)。相反,当输出音量值VOL大于阈值VOLth_out时,高动态范围控制模块330被配置为设置增益Gain_3具有较低的增益值(例如,0dB)。在一些实施例中,增益Gain_3的默认值是较高的增益值(例如,18dB)。在一些实施例中,高动态范围控制模块330包括被配置为对特定时间段进行计数的定时器(未示出)。当信号S5在特定时间段(例如,≥1秒)内具有较高的音量值(例如,超过阈值VOLth_in)时,高动态范围控制模块330被配置为设置增益Gain_3具有较低的增益值。此外,当信号S5的音量值不超过阈值VOLth_in时,高动态范围控制模块330设定增益Gain_3具有较高的增益值。
此外,高动态范围控制模块330还被配置为根据信号S5将信号S6提供给音频前端处理模块340。音频前端处理模块340被配置为对信号S6进行优化操作(例如,波束形成、NR、AEC等)以获得信号S7。唤醒词检测模块350被配置为分析信号S7以确定唤醒词的语音表示是否存在于信号S7中。当唤醒词检测模块350识别出唤醒词时,唤醒词检测模块350用于通知处理器360以执行相应的应用或操作。
在语音唤醒检测装置300中,通过使用具有可变增益的单个16位模数转换器来放大音频输入信号Sin。与传统的具有固定增益的模数转换器的语音唤醒检测装置相比,高动态范围控制模块330能够利用对应于输出音量值VOL的不同增益对音频输入信号Sin进行高动态范围的信号处理。因此,语音唤醒检测装置300可以更准确地执行打断操作(即,在播放期间唤醒),而无需使用耗电的高动态范围模数转换器。
图4示出了根据本发明一些实施例的用于检测唤醒词的语音唤醒检测方法400。在一些实施例中,图4的语音唤醒检测方法400由具有用于音频输入信号的信号处理路径的电子设备(例如,图3的语音唤醒检测设备300)执行,并且信号处理路径由单个模数转换器(例如,图3的模数转换器320)提供。
在步骤S410中,电子设备被配置为操作于播放模式,以通过至少一个扬声器提供(或播放)具有音量值VOL的音频输出信号Sout。
在步骤S420中,判断音频输出信号Sout的输出音量值VOL是否大于阈值VOLth_out。若输出音量值VOL大于阈值VOLth_out,则根据具有较低增益值的增益Gain_3将音频输入信号Sin转换为信号S5(步骤S450)。
如果输出音量值VOL小于或等于阈值VOLth_out,则确定音频输入信号Sin的输入音量值是否在特定时间段(例如,1秒)大于阈值VOLth_in(步骤S430)。若音频输入信号Sin的输入音量值在特定时间段内大于阈值VOLth_in,则根据具有较低增益值的增益Gain_3将音频输入信号Sin转换为信号S5(步骤S450)。若音频输入信号Sin的输入音量值小于或等于阈值VOLth_in,则根据增益Gain_3将音频输入信号Sin转换为具有较高增益值的信号S5(步骤S440)。
在步骤S460中,分析信号S5以识别唤醒词的语音表示是否存在于信号S5中。在一些实施例中,在分析信号S5之前,对信号S5进行一个或多个预处理操作(例如,NR和AEC),以提高唤醒词识别率。
如果识别出唤醒词的语音表示,则确定电子设备接收到唤醒词对应的音频输入信号Sin,然后电子设备执行唤醒词对应的操作。
在一些实施例中,图4的语音唤醒检测方法400由具有至少两个用于音频输入信号的信号处理路径的电子设备(例如,图1的语音唤醒检测设备100)执行,并且每个信号处理路径由相应的模数转换器(例如,图1的模数转换器120_1和120_2)提供。例如,当音频输出信号Sout的输出音量值VOL大于阈值VOLth_out时(步骤S420)或音频输入信号Sin的输入音量值在特定时间段内大于阈值VOLth_in(步骤S430)),高动态范围控制模块130被配置为提供信号EN_1以禁用模数转换器120_1(即,模数转换器120_1被配置为停止将音频输入信号Sin根据增益Gain_1转换为信号S1),提供讯号EN_2以致能模数转换器120_2(步骤S450)。如上所述,模数转换器120_1的增益Gain_1大于模数转换器120_2的增益Gain_2。因此,来自麦克风10的音频输入信号Sin根据具有较低增益值的增益Gain_2被转换为信号S2,而模数转换器120_1不提供信号S1。接下来,高动态范围控制模块130被配置为仅根据信号S2提供信号S3。接着,分析信号S3以识别唤醒词的语音表示是否存在于信号S3中(步骤S460)。
相反,当音频输出信号Sout的输出音量值VOL小于或等于阈值VOLth_out(步骤S420)并且音频输入信号Sin的输入音量值在特定时间段内小于阈值VOLth_in(步骤S430),高动态范围控制模块130被配置为提供信号EN_2以禁用模数转换器120_2(即,模数转换器120_2被配置为停止根据增益Gain_2将音频输入信号Sin转换成信号S2),并提供信号EN_1以致能模数转换器120_1(步骤S440)。因此,来自麦克风10的音频输入信号Sin被模数转换器120_1根据具有较高增益值的增益Gain_1转换为信号S1,而模数转换器120_2不提供信号S2。接着,高动态范围控制模块130被配置为仅根据信号S1提供信号S3。接着,分析信号S3以识别唤醒词的语音表示是否存在于信号S3中(步骤S460)。
根据实施例中的语音唤醒检测装置和语音唤醒检测方法,通过使用多个增益和/或多个权重来接收音频输入信号Sin并转换为具有高动态范围的数字信号,从而提高语音唤醒性能。
虽然已经通过示例和根据优选实施例描述了本发明,但是应该理解本发明不限于所公开的实施例。相反,它旨在涵盖各种修改和类似的布置(这对于本领域的技术人员来说是显而易见的)。因此,所附权利要求的范围应给予最广泛的解释,以涵盖所有此类修改和类似布置。
呈现以上描述是为了使本领域普通技术人员能够实践在特定应用及其要求的上下文中提供的本发明。对所描述的实施例的各种修改对于本领域技术人员来说将是显而易见的,并且本文定义的一般原理可以应用于其他实施例。因此,本发明不旨在限于所示和描述的特定实施例,而是要符合与本文公开的原理和新颖特征相一致的最宽范围。在以上详细描述中,为了提供对本发明的透彻理解,说明了各种具体细节。然而,本领域的技术人员将理解,可以实践本发明。
如上所述的本发明的实施例可以以各种硬件、软件代码或两者的组合来实现。例如,本发明的一个实施例可以是集成到视频压缩芯片中的一个或多个电路电路或集成到视频压缩软件中以执行本文描述的处理的程序代码。本发明的实施例还可以是要在数字信号处理器(DSP)上执行以执行这里描述的处理的程序代码。本发明还可以涉及由计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(FPGA)执行的许多功能。这些处理器可以被配置为通过执行定义本发明所体现的特定方法的机器可读软件代码或固件代码来执行根据本发明的特定任务。软件代码或固件代码可以以不同的编程语言和不同的格式或样式开发。软件代码也可以针对不同的目标平台进行编译。然而,软件代码的不同代码格式、风格和语言以及配置代码以执行根据本发明的任务的其他方式将不脱离本发明的精神和范围。
本发明可以在不背离其精神或基本特征的情况下以其他特定形式体现。所描述的示例在所有方面都仅被认为是说明性的而不是限制性的。因此,本发明的范围由所附权利要求而不是由前述描述指示。在权利要求的等效含义和范围内的所有变化都应包含在其范围内。

Claims (20)

1.一种语音唤醒检测装置,包括:
麦克风,用于接收音频输入信号,其中该音频输入信号包括语音信号和环境语音信号;
第一模数转换器,用于根据第一增益将该音频输入信号转换为第一信号;
第二模数转换器,用于根据第二增益将该音频输入信号转换为第二信号;以及
控制模块,被配置为将乘以第一权重的该第一信号和乘以第二权重的该第二信号合并为第三信号,并响应于音量值调整该第一权重和该第二权重,
其中该第二增益小于该第一增益,并且该第一权重不同于该第二权重。
2.如权利要求1所述的语音唤醒检测装置,还包括:
扬声器,被配置为提供该环境语音信号的至少一部分。
3.如权利要求1所述的语音唤醒检测装置,其特征在于,该控制模块用于根据该环境语音信号的该音量值启用或禁用该第一模数转换器和第二模数转换器。
4.如权利要求2所述的语音唤醒检测装置,其特征在于,该控制模块用于根据该扬声器或该环境语音信号的该音量值调整该第一权重和该第二权重。
5.如权利要求1所述的语音唤醒检测装置,其特征在于,当该音量值超过阈值时,该第一权重小于该第二权重,当该音量值不超过该阈值时,该第一权重大于该第二权重。
6.如权利要求1所述的语音唤醒检测装置,其特征在于,当该音量值小于或等于阈值时,该控制模块被配置为禁用该第二模数转换器,当该音量值大于该阈值时,该控制模块被配置为禁用该第一模数转换器。
7.如权利要求1所述的语音唤醒检测装置,还包括:
唤醒词检测模块,被配置为分析该第三信号以确定唤醒词的语音表示是否存在于该第三信号中。
8.如权利要求1所述的语音唤醒检测装置,其特征在于,该第二增益具有固定增益值,该第一增益具有可变增益值。
9.如权利要求1所述的语音唤醒检测装置,其特征在于,当该音量值超过阈值时,该控制模块减小该第一增益。
10.如权利要求1所述的语音唤醒检测装置,其特征在于,该第一权重和该第二权重是应用于该音频输入信号的特定频率子带的复权重。
11.一种语音唤醒检测装置,包括:
麦克风,用于接收音频输入信号,其中该音频输入信号包括语音信号和环境语音信号;
扬声器,被配置为提供音频输出信号作为该环境语音信号的至少一部分;
控制模块,被配置为响应于该音频输出信号的音量值提供可变增益;以及
模数转换器,被配置为当该音频输出信号的该音量值小于或等于第一阈值时,根据具有第一增益值的该可变增益将该音频输入信号转换为第一信号,
其中,该控制模块用于根据对应于该第一增益值的该第一信号提供第二信号。
12.如权利要求11所述的语音唤醒检测装置,其中,当该音频输出信号的该音量值大于该第一阈值时,该控制模块被配置为向该模数转换器提供具有第二增益值的该可变增益,该第二增益值小于该第一增益值。
13.如权利要求11所述的语音唤醒检测装置,其特征在于,该控制模块还用于检测该音频输入信号的音量值,当该音频输入信号的该音量值在特定时间段大于第二阈值时,该控制模块用于向该模数转换器提供具有第二增益值的该可变增益,该第二增益值小于该第一增益值。
14.如权利要求13所述的语音唤醒检测装置,其特征在于,该模数转换器根据具有该第二增益值的该可变增益将该音频输入信号转换为该第一信号,该控制模块用于根据对应于该第二增益值的该第一信号提供该第二信号。
15.如权利要求9所述的语音唤醒检测装置,还包括:
唤醒词检测模块,被配置为分析该第二信号以确定唤醒词的语音表示是否存在于该第二信号中。
16.一种语音唤醒检测方法,用于检测唤醒词,该语音唤醒检测方法包括:
通过麦克风获取音频输入信号,其中该音频输入信号包括语音信号和环境语音信号;
根据音量值获得第一权重和第二权重;
根据第一增益将该音频输入信号转换为第一信号,并将该第一信号乘以该第一权重;
根据第二增益将该音频输入信号转换为第二信号,并将该第二信号乘以该第二权重;
将乘以该第一权重的该第一信号和乘以该第二权重的该第二信号合并为第三信号;以及
分析该第三信号以确定该唤醒词的语音表示是否存在于该第三信号中,
其中该第一增益不同于该第二增益。
17.如权利要求16所述的语音唤醒检测方法,还包括:
通过扬声器提供音频输出信号,作为该环境语音信号的至少一部分。
18.如权利要求16所述的语音唤醒检测方法,其特征在于,该第一增益大于该第二增益,其中当该音量值超过阈值时,该第一权重小于该第二权重,并且当该音量值不大于该阈值时,该第一权重大于该第二权重。
19.如权利要求16所述的语音唤醒检测方法,还包括:
根据该音量值调整该第一权重和该第二权重;以及
根据该音量值调整该第一增益和该第二增益,
其中该第一增益大于该第二增益。
20.如权利要求16所述的语音唤醒检测方法,还包括:
当该音量值小于或等于阈值时,停止根据该第二增益将该音频输入信号转换为该第二信号;以及
当该音量值大于该阈值时,停止根据该第一增益将该音频输入信号转换为该第一信号。
CN202211460599.8A 2022-05-26 2022-11-17 语音唤醒检测装置及方法 Pending CN117133280A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/825,250 US20230386451A1 (en) 2022-05-26 2022-05-26 Voice wakeup detecting device and method
US17/825,250 2022-05-26

Publications (1)

Publication Number Publication Date
CN117133280A true CN117133280A (zh) 2023-11-28

Family

ID=88861610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211460599.8A Pending CN117133280A (zh) 2022-05-26 2022-11-17 语音唤醒检测装置及方法

Country Status (3)

Country Link
US (1) US20230386451A1 (zh)
CN (1) CN117133280A (zh)
TW (1) TW202347315A (zh)

Also Published As

Publication number Publication date
TW202347315A (zh) 2023-12-01
US20230386451A1 (en) 2023-11-30

Similar Documents

Publication Publication Date Title
US10824391B2 (en) Audio user interface apparatus and method
US11270696B2 (en) Audio device with wakeup word detection
US10043515B2 (en) Voice activation system
KR101622493B1 (ko) 오디오 피처 데이터의 추출 및 분석
EP3474557A1 (en) Image processing device, operation method of image processing device, and computer-readable recording medium
CN106782591B (zh) 一种在背景噪音下提高语音识别率的装置及其方法
US8781820B2 (en) Multi band audio compressor dynamic level adjust in a communications device
US20160066113A1 (en) Selective enabling of a component by a microphone circuit
US9167333B2 (en) Headset dictation mode
US20170092288A1 (en) Adaptive noise suppression for super wideband music
US9392353B2 (en) Headset interview mode
WO2016086633A1 (zh) 一种自适应调整语音识别率的方法、装置及存储介质
US11437021B2 (en) Processing audio signals
US20180174574A1 (en) Methods and systems for reducing false alarms in keyword detection
CN214226506U (zh) 声音处理电路、电声器件和声音处理系统
CN113194372A (zh) 一种耳机的控制方法、装置及相关组件
GB2526980A (en) Sensor input recognition
CN107370898B (zh) 铃音播放方法、终端及其存储介质
US20230386451A1 (en) Voice wakeup detecting device and method
CN111383632B (zh) 电子设备
GB2553040A (en) Sensor input recognition
CN113763945B (zh) 一种语音唤醒方法、装置、设备及存储介质
US11776538B1 (en) Signal processing
US20240118862A1 (en) Computer system and processing method thereof of sound signal
CN115720317A (zh) 音频信号啸叫检测和抑制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination