CN105704300A - 具数字麦克风的声音唤醒侦测装置及相关方法 - Google Patents

具数字麦克风的声音唤醒侦测装置及相关方法 Download PDF

Info

Publication number
CN105704300A
CN105704300A CN201510909528.5A CN201510909528A CN105704300A CN 105704300 A CN105704300 A CN 105704300A CN 201510909528 A CN201510909528 A CN 201510909528A CN 105704300 A CN105704300 A CN 105704300A
Authority
CN
China
Prior art keywords
sub
key word
audio signal
digital audio
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510909528.5A
Other languages
English (en)
Other versions
CN105704300B (zh
Inventor
孙良哲
郑尧文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MediaTek Inc
Original Assignee
MediaTek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MediaTek Inc filed Critical MediaTek Inc
Publication of CN105704300A publication Critical patent/CN105704300A/zh
Application granted granted Critical
Publication of CN105704300B publication Critical patent/CN105704300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0251Power saving arrangements in terminal devices using monitoring of local events, e.g. events related to user activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72418User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting emergency services
    • H04M1/72421User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting emergency services with automatic activation of emergency service functions, e.g. upon sensing an alarm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Emergency Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephone Function (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

一种声音唤醒侦测装置,运用于一电子产品,该装置包括:一数字麦克风与一应用处理器。数字麦克风根据一子关键词模型参数来辨识一数字声音信号中是否出现一子关键词。当确认出现该子关键词时,产生一第一中断信号,并输出该数字声音信号。应用处理器,选择性地致能以响应该第一中断信号。该应用处理器根据一关键词模型参数来辨识该数字声音信号中是否出现一关键词。当确认出现该关键词时,控制该电子产品由一睡眠状态进入一正常运作状态。

Description

具数字麦克风的声音唤醒侦测装置及相关方法
技术领域
本发明有关于一种侦测器及其控制方法,且特别是有关于一种具数字麦克风的声音唤醒侦测装置及相关方法。
背景技术
现今智能型手机的功能越来越多样化,具声音唤醒功能的智能型手机越来越受到消费者的重视。一般来说,当智能型手机等电子产品进入睡眠状态时,只要用户发出关键词(keyword)的声音,智能型手机即可进行关键词的辨识,并且由睡眠状态进入正常运作状态。换言之,用户无需利用智能型手机或电子产品上其他的功能按键,即可让智能型手机进入正常运作状态。
请参照图1,其所绘示为习知电子产品中的声音唤醒侦测装置示意图。电子产品中的声音唤醒侦测装置100包括:一前端侦测电路(frontenddetectingcircuit)110、一声音辨识处理器(speechrecognitionprocessor)120、以及一主处理器(mainprocessor)130。其中,前端侦测电路110包括一麦克风102与一事件侦测器(eventdetector)104。于睡眠状态时,前端侦测电路110会被供电,使得麦克风102与事件侦测器104持续运作。另外,电子产品由睡眠状态被唤醒的过程需要经过三个侦测程序(detectionphase)。说明如下:
事件侦测器104进行声学事件侦测(acousticeventdetection)。麦克风102为一模拟麦克风,其产生一声音信号Sa至事件侦测器104,而事件侦测器104可侦测声音信号Sa的振幅、信噪比(SNR)或者子频段信噪比(sub-bandSNR)。
当电子产品处于睡眠状态且声音唤醒侦测装置100处于第一侦测程序(firstdetectionphase)时,麦克风102持续地接收外部的声音,并转换为声音信号Sa输入事件侦测器104。当声音信号Sa的振幅大于临限值(threshold)时,事件侦测器104即产生第一中断信号(interrupt)INT1至声音辨识处理器120。
除了侦测声音信号Sa的振幅之外,事件侦测器104也可以侦测声音信号的信噪比(SNR)或者子频段信噪比(sub-bandSNR)。亦即,当声音信号Sa的信噪比(SNR)或者子频段信噪比(sub-bandSNR)大于临限值时,事件侦测器104产生第一中断信号INT1至声音辨识处理器120。
再者,声音辨识处理器120为一种数字信号处理器(DSP),又称为微小处理器(tinyprocessor),其作用在于对声音信号Sa进行语音识别。当第一中断信号INT1尚未动作之前,声音辨识处理器120未被供电,所以无法运作,此时尚处于声音唤醒侦测装置100的第一侦测程序。反之,当第一中断信号INT1动作时,声音辨识处理器120被供电,声音唤醒侦测装置100即由第一侦测程序进入第二侦测程序(seconddetectionphase)并且开始执行声音信号Sa的关键词辨识动作。
于第二侦测程序时,声音辨识处理器120在于辨识声音信号Sa是否为关键词的声音。当声音辨识处理器120接收声音信号Sa后,于进行模拟至数字(analog-to-digital)的转换动作后,即可进行关键词辨识动作。当声音辨识处理器120确认声音信号Sa是关键词的声音,声音辨识处理器120即产生第二中断信号INT2至主处理器130。当主处理器130接收到第二中断信号INT2时,声音唤醒侦测装置100即由第二侦测程序进入第三侦测程序(thirddetectionphase)。
反之,当声音辨识处理器120确认声音信号Sa不是关键词的声音,并不会动作第二中断信号INT2至主处理器130,并且声音辨识处理器120会再次被停止供电。此时,声音唤醒侦测装置100即由第二侦测程序进入第一侦测程序,并且等待前端侦测电路110再次产生第一中断信号INT1。
再者,于第三侦测程序时,主处理器130被供电,并进一步使得智能型手机进入正常运作状态。
由以上的说明可知,习知智能型手机中,于第一侦测程序时,前端侦测器110仅对声音信号Sa进行声音事件的判断,并不会对声音信号Sa进行关键词的辨识。而于第二侦测程序时,声音辨识处理器120才会开始对声音信号Sa进行关键词的辨识。
一般来说,习知声音唤醒侦测装置100中,仅前端侦测电路110运作于第一侦测程序时,消耗的电能最小,大约需要1mA的电流。于前端侦测电路110与声音辨识处理器120同时在运作的第二侦测程序时,电能次之,大约需要6mA的电流。
然而,习知声音唤醒侦测装置100还是存在一些缺点。举例来说,假设智能型手机于睡眠状态时处于吵杂的环境下,麦克风102将持续收到不是关键词的声音,。因此,前端侦测电路110被噪音影响而常常产生第一中断信号INT1。因此,声音唤醒侦测装置100会持续地在第一侦测程序与第二侦测程序之间运作。因此,一整天下来其电能损耗(dayofusepowerconsumption)也是非常可观。
发明内容
本发明的主要目的在于提出一种具数字麦克风的声音唤醒侦测装置及相关方法。当电子装置处于睡眠状态时,提供更准确(accurate)的第一侦测程序,用以有效地降低声音唤醒侦测装置执行第二侦测程序的次数,并降低电子装置的日电能损耗(dayofusepowerconsumption)。
本发明有关于一种声音唤醒侦测装置,运用于一电子产品,该装置包括:一数字麦克风,根据一子关键词模型参数来辨识一数字声音信号中是否出现一子关键词,并且于确认出现该子关键词时,产生一第一中断信号,并输出该数字声音信号;以及一应用处理器,选择性地致能以响应该第一中断信号,该应用处理器根据一关键词模型参数来辨识该数字声音信号中是否出现一关键词,并且于确认出现该关键词时,控制该电子产品由一睡眠状态进入一正常运作状态。
本发明有关于一种数字麦克风,包括:一内部振荡器,产生一频率信号;一模拟数字转换器,将一模拟讲话声音转换成为一数字声音信号;一子关键词判断电路,根据该子关键词模型参数来辨识该数字声音信号中是否出现该子关键词,并且于确认出现该子关键词时,产生该第一中断信号;一先进先出缓冲器,于该第一中断信号产生时,暂存该数字声音信号;以及一第一接口控制模块,输出该第一中断信号以及该数字声音信号至该应用处理器;其中,该模拟数字转换器、该子关键词判断电路、该先进先出缓冲器与该第一接口控制模块根据该频率信号来运作。
本发明有关于一种声音唤醒侦测方法,包括下列步骤:于一电子产品进入一睡眠状态后,利用一数字麦克风来产生一数字声音信号,并根据一子关键词模型参数来辨识该数字声音信号;当该数字声音信号中出现一子关键词的声音时,选择性地致能一应用处理器,并根据一关键词模型参数来辨识该数字声音信号;当该数字声音信号中出现一关键词的声音时,唤醒该电子产品以进入一正常运作状态。
为了对本发明的上述及其他方面有更佳的了解,下文特举较佳实施例,并配合所附图式,作详细说明如下:
附图说明
图1所绘示为习知电子产品中的声音唤醒侦测装置示意图。
图2A与图2B为本发明电子产品中声音唤醒侦测装置的实现概念示意图。
图3所绘示为本发明电子产品中的声音唤醒侦测装置的第一实施例。
图4A至图4C为根据本发明第一实施例声音唤醒侦测装置来实现中的子关键词判断电路。
图5所绘示为本发明电子产品中的声音唤醒侦测装置的第二实施例。
图6A与图6B所绘示为本发明子关键词判断电路示意图
图7所绘示为本发明电子产品中的声音唤醒侦测方法流程图。
具体实施方式
本发明是一种语者相关(speakerdependent)的声音唤醒侦测装置与相关方法。利用训练动作(trainingaction)来建立子关键词模型参数(subwordmodelparameters)以及关键词的模型参数(keywordmodelparameters),分别运用于第一侦测程序以及第二侦测程序。
请参照图2A与图2B,其所绘示为本发明电子产品中声音唤醒侦测装置的实现概念示意图。声音唤醒侦测装置包括一前端侦测电路210、声音辨识处理器220、与一主处理器(mainprocessor,未绘示)。当电子产品于正常运作状态时,利用主处理器来产生关键词模型参数(keywordmodelparameters)232以及子关键词模型参数(subwordmodelparameters)234。当电子产品于于睡眠状态时,子关键词模型参数234即可用于第一侦测程序,而关键词模型参数232即可运用于第二侦测程序。
如图2A所示,于电子产品的正常运作状态时,主处理器可以执行一训练动作(trainingaction),用以接收关键词的声音信号Sa。以下系假设关键词为“Hi-Patent”,且“Hi”为子关键词来进行说明。
于训练动作时,主处理器中的模型参数估算单元(modelparameterestimationunit)230即接收用户所发出关键词“Hi-Patent”的声音信号Sa后,会利用先进行特征撷取动作(featureextracting)以撷取声音信号Sa中的各种声音特征(voicefeature),例如频率、音量、噪音等等特征。接着利用特定的语音识别模型来对声音信号Sa建立关键词模型参数232。基本上,特定的语音识别模型可为隐藏式马可夫模型(HiddenMarkovModel,简称HMM)。当然,本发明并不限定于上述的HMM,也可以是高斯混合模型(GaussianMixtureModel,简称GMM)、支持向量机制(SupportVectorMachine,SVM)模型或者神经网络(NeuralNet)模型等等的其他语音识别模型。
再者,为了要建立子关键词模型参数234,模型参数估算单元230更需要进行分段动作(segmentation)。分段动作系基于关键词“Hi-Patent”的HMM,运用维特比译码算法来分离关键词中的“Hi”与“Patent”。
于分段完成之后,模型参数估算单元230利用获得的“Hi”子关键词,以HMM来建立子关键词模型参数。当然,上述分段动并不限定于将关键词分段为“Hi”以及“Patent”,也可以分段为“Hi-Pa”以及“tent”。
如图2B所示,于电子产品的睡眠状态时且声音唤醒侦测装置处于第一侦测程序时,前端侦测电路210利用子关键词模型参数234先行辨识声音信号Sa中是否有子关键词“Hi”的声音。当前端侦测电路210确认声音信号Sa中有出现子关键词“Hi”的声音后,即产生一第一中断信号INT1至声音辨识处理器220。
再者,声音辨识处理器220为一种数字信号处理器(DSP),又称为微小处理器(tinyprocessor),其作用在于对声音信号Sa进行语音识别。同理,当第一中断信号INT1未动作之前,声音辨识处理器220未被供电,所以无法运作,此时尚处于第一侦测程序。反之,当第一中断信号INT1动作时,声音辨识处理器220被供电后即由第一侦测程序进入第二侦测程序。
于第二侦测程序时,声音辨识处理器220即根据关键词模型参数232来辨识声音信号Sa是否为关键词“Hi-Patent”的声音。当声音辨识处理器220确认声音信号Sa是关键词“Hi-Patent”的声音,声音辨识处理器220即产生第二中断信号INT2至主处理器,并第二侦测程序由进入第三侦测程序。
反之,当声音辨识处理器220辨识声音信号Sa不是关键词“Hi-Patent”的声音,并不会动作第二中断信号INT2至主处理器,并且声音辨识处理器220会再次被停止供电。此时,由第二侦测程序进入第一侦测程序,并且等待前端侦测电路210再次产生第一中断信号INT1。
由以上的说明可知,本发明系于第一侦测程序时,先行进行声音信号Sa中的子关键词辨识。因此,可以有效地降低声音唤醒侦测装置执行第二侦测程序的次数,并降低电子装置的日电能损耗(dayofusepowerconsumption)。
参照图3,其所绘示为本发明电子产品中的声音唤醒侦测装置的第一实施例。电子产品中的声音唤醒侦测装置300包括:前端侦测电路310、声音辨识处理器320、以及主处理器330。其中,前端侦测电路310包括麦克风312、声音解编器(audiocodec)314与子关键词判断电路316。麦克风312产生的模拟的声音信号,经由声音解编器314转换为数字的声音信号Sa。
再者,主处理器330连接至一主存储器334、声音辨识处理器320连接至一子内存322、子关键词判断电路316中有一内嵌内存(embeddedmemory,未绘示)。当然,本发明并不限定于上述内存的连接方式,主存储器334与子内存322也可以分别为主处理器330与声音辨识处理器320中的内嵌内存,而子关键词判断电路316也可以连接一外部内存。
于电子产品的正常运作状态时,使用者可控制主处理器330执行一训练动作。于训练动作时,主处理器330中的模型参数估算单元332即接收用户所发出关键词“Hi-Patent”的声音信号Sa后,利用HMM模型来对声音信号Sa建立关键词模型参数以及子关键词模型参数。训练动作完成后,关键词模型参数以及子关键词模型参数储存于主存储器334。其中,主存储器334可为非挥发式内存(non-volatilememory)。
当电子产品即将进入睡眠状态之前,主存储器334中的关键词模型参数以及子关键词模型参数会被读取并储存于子内存332以及子关键词判断电路316的内嵌内存。
当电子产品进入睡眠状态时,前端侦测电路310会被供电,使得麦克风312、声音解编器314与子关键词判断电路316持续运作。根据本发明的第一实施例,电子产品由睡眠状态被唤醒的过程需要经过三个侦测程序(detectionphase)。说明如下:
在睡眠状态时,前端侦测电路310于第一侦测程序时,利用子关键词模型参数先行辨识声音信号Sa中是否有子关键词“Hi”的声音。当前端侦测电路310确认声音信号Sa中有出现子关键词“Hi”的声音后,即产生一第一中断信号INT1至声音辨识处理器320。
换句话说,于第一侦测程序,子关键词判断电路316会根据子关键词模型参数来辨识声音信号Sa中是否出现子关键词“Hi”的声音。当子关键词判断电路316确认声音信号Sa中出现子关键词“Hi”的声音时,即产生一第一中断信号INT1至声音辨识处理器320,并进入第二侦测程序;反之,当声音信号Sa中未出现子关键词“Hi”的声音时,即维持在第一侦测程序。
再者,声音辨识处理器320为一种数字信号处理器(DSP),又称为微小处理器,其作用在于对声音信号Sa进行语音识别。当第一中断信号INT1未动作之前,声音辨识处理器320未被供电,所以无法运作,此时尚处于第一侦测程序。反之,当第一中断信号INT1动作时,可以选择性地致能声音辨识处理器320以响应第一中断信号INT1,当声音辨识处理器320被供电并致能后即进入第二侦测程序。
于第二侦测程序时,声音辨识处理器320直接接收数字的声音信号Sa并进行辨识。此时,声音辨识处理器320根据关键词模型参数来辨识声音信号Sa是否为关键词“Hi-Patent”的声音。当声音辨识处理器320确认声音信号Sa是关键词“Hi-Patent”的声音,声音辨识处理器320即产生第二中断信号INT2至主处理器330,并第二侦测程序由进入第三侦测程序。
反之,当声音辨识处理器320辨识出声音信号Sa不是关键词“Hi-Patent”的声音,并不会动作第二中断信号INT2至主处理器330,并且声音辨识处理器320会再次被停止供电。此时,由第二侦测程序进入第一侦测程序,并且等待前端侦测电路310再次产生第一中断信号INT1。
再者,于第三侦测程序时,主处理器330被供电,并进一步使得电子产品进入正常运作状态。
由第一实施例的内容可知,当电子产品即将进入睡眠状态之前,主存储器334中的关键词模型参数以及子关键词模型参数会被读取并储存于子内存332以及子关键词判断电路316的内嵌内存。再者,本发明的声音辨识处理器320更可基于环境因素来修改子关键词模型参数。举例来说,声音辨识处理器320由声音信号Sa中获得周围环境的信噪比(SNR)、噪音的形态(noisetype)等等信息后,更进一步地将子关键词模型参数变更为修正的子关键词模型参数(modifiedsubwordmodelparameter)。之后,将修正的子关键词模型参数传递至子关键词判断电路316的内嵌内存。
换言之,本发明的子关键词模型参数也可先经由声音辨识处理器320变更为修正的子关键词模型参数后,再储存于子关键词判断电路316的内嵌内存。如此,于第一侦测程序时将会有更佳的子关键词辨识率。
请参照图4A至图4C,其所绘示为根据本发明第一实施例声音唤醒侦测装置来实现中的子关键词判断电路。子关键词判断电路的处理程序包括二个阶段(stage)。如4A图所示,第一阶段为子段声音动作侦测阶段(sub-bandvoiceactivitydetectionstage,简称sub-bandVADstage)316a;第二阶段为子关键词侦测阶段(subworddetectionstage)316b。
在第一阶段为子段声音动作侦测阶段316a,可以提供例如256ms的声音缓冲器(audiobuffer)以及将0~6KHz频段分为10个子段(sub-band)。当声音动作侦测(VAD)结果指出声音信号Sa中包括声音,例如人类的声音。触发信号Tr会产生并启动子关键词侦测阶段316b。
在子关键词侦测阶段316b时,系利用训练动作所产生的子关键词模型参数来侦测声音信号Sa。亦即,判断声音信号Sa中的说话框架(speechframe)是否符合(match)子关键词模型参数中的子关键词“Hi”。如果于子关键词侦测阶段316b确认声音信号Sa有包含子关键词“Hi”的声音,于子关键词侦测阶段316b即可产生产生第一中断信号INT1。
请参照图4B,其为运用于子段声音动作侦测阶段(VADstage)316a的子段子段声音动作侦测结构(sub-bandVADframework)示意图。基本上,子段声音动作侦测阶段(VADstage)316a中,杂音(noise)以及说话(speech)的准位会持续的被更新。于S1中,多相位滤波器库(polyphasefilterbank),例如QMF滤波器库,系用来侦测声音信号Sa并产生输出值X(n,k)。多相位滤波器库的输出值X(n,k)是用来指示第k子段中第n个框架的数值。
于S2中,根据输出值X(n,k)来定义初始化每个段的杂音参考数值(initialnoisereferencevalue)Nref(k)。并于S3中,根据每个段的杂音参考数值Nref(k)来计算平滑信号(smoothedsignal)S(n,k)。
当每个段的杂音参考数值Nref(k)与平滑信号S(n,k)获得之后,第k子段中第n个框架的信噪比SNR(n,k)即可获得[亦即,SNR(n,k)=S(n,k)-Nref(k)]。换言之,于S4中,系利用信噪比来进行框架基础的声音动作侦测(frame-basedVADbySNR)。接着,根据每个段的杂音参考数值Nref(k)以及信噪比临限值(SNRthreshold,SNRthd)来计算出平均信噪比值(averageSNRvalue,ASNR(n))。其中,于S10中,可进行动态临限值调整并根产生触发临限值(triggerthreshold,Trthd)与信噪比临限值SNRthd。于S4中,当平均信噪比值ASNR(n)大于触发临限值Trthd时,第n框架的声音动作侦测VAD(n)设定为1。反之,当平均信噪比值ASNR(n)小于触发临限值Trthd时,第n框架的声音动作侦测VAD(n)设定为0。
于S5中的说话框架路径(speechframepath)上,于声音动作侦测VAD(n)为1时,说话计数值(speechcount)加1。于S6中,于判断出说话计数值大于触发临限值Trthd时,产生触发信号Tr至子关键词侦测阶段316b。于S7与S8中,于判断出说话计数值大于强制噪音临更新临限值(forcenoiseupdatethreshold)时,杂音参考数值Nref(k)需要被强制更新。
于S9中的噪音框架路径(noiseframepath)上,当声音动作侦测VAD(n)为0时,杂音参考数值Nref(k)应该要更新。
根据上述之说明,信噪比临限值SNRthd以及触发临限值Trthd系基于环境噪音准位(environmentnoiselevel)来进行调整。举例来说,处于较高的环境噪音准位时,需要调低信噪比临限值SNRthd以及触发临限值Trthd。
请参照图4C,其为运用于子关键词侦测阶段316b的子关键词侦测结构(subworddetectionframework)。于P1中,于第n框架时,子关键词侦测阶段316b被触发信号Tr所启动。因此,相关于频域分布(frequencydistribution)以及时域分布(temporaldistribution)的二个向量(vector)会被计算出来。
于P2中,对二个向量进行余弦相似度比较(cosinesimilaritycomparison)用以获得频域以及时域的相似度。亦即,根据子关键词模型参数,将计算出的频域与时域的信息和频率临限值(frequencythresholdfthd)与时域临限值(timethresholdtthd)进行比较后即可选择性地产生第一中断信号INT1。其中,频率临限值fthd与时域临限值tthd是根据不同噪音以及信噪比值来动态的调整临限值。
请参照图5,其所绘示为本发明电子产品中的声音唤醒侦测装置的第二实施例。在第二实施例中,系设计一数字麦克风(digitalmicrophone)来代替前端侦测电路,并且将第一实施例中的主处理器与语音识别处理器整合成为一应用处理器(applicationprocessor)。
电子产品中的声音唤醒侦测装置400包括:数字麦克风410以及应用处理器450。数字麦克风410中包括:内部振荡器(internaloscillator)402、模拟数字转换器(analog-to-digitalconverter,ADC)404、子关键词判断电路406、先进先出缓冲器(first-in-first-outbuffer,FIFObuffer)408与第一接口控制模块(interfacecontrolmodule)409。
数字麦克风410中的内部振荡器402系提供频率信号至数字麦克风410内所有的电路。由于频率信号系由数字麦克风410的内部振荡器402自行供应,不需要接收外部的频率信号,因此可以有效地降低电子产品的电能损耗。再者,模拟数字转换器404用以将模拟讲话声音(analogspeechsound)转换成为数字声音信号Sa。而先进先出缓冲器408可暂存数字声音信号Sa,并且将数字声音信号Sa传递至应用处理器450。
再者,子关键词判断电路406侦测数字声音信号Sa中是否出现子关键词的声音。相同于第一实施例,子关键词判断电路406中有一内嵌内存,用来储存应用处理器450所输出的子关键词模型参数。并且,于判断出数字声音信号Sa已出现子关键词的声音时,子关键词判断电路406可产生第一中断信号INT1至应用电路450。
另外,第一接口控制模块409信号连接至应用处理器450,可控制数字麦克风410中接口传输(interfacetransmission)的启动与关闭。
根据本发明的第二实施例,应用处理器450包括:第二接口控制模块452、用户训练模块(user-trainingmodule)454、关键词辨识模块(keywordrecognitionmodule)456与数字麦克风启动控制模块(D-micactivationcontrolmodule)458。
数字麦克风启动控制模块458可根据电子装置的状态来启动数字麦克风410,并且控制其运作状态。举例来说,数字麦克风启动控制模块458可于电子产品的正常运作状态时,控制数字麦克风410中的子关键词判断电路406被禁能(disable)。或者,数字麦克风启动控制模块458可于电子产品的睡眠状态时,启动数字麦克风410中的所有电路。
用户训练模块454系于电子产品的正常运作状态下由使用者所启动一训练动作。于训练动作时,用户训练模块中的模型参数估算单元(未绘示)即接收用户所发出关键词的数字声音信号Sa后,利用HMM模型来对数字声音信号Sa建立关键词模型参数以及子关键词模型参数。而训练动作完成后,关键词模型参数以及子关键词模型参数即储存于用户训练模块454中的内存(未绘示)。
关键词辨识模块456系于电子产品的睡眠状态下接收到第一中断信号INT1后开始运作。基本上,应用处理器450于睡眠状态接收到第一中断信号INT1时,选择性地被致能以响应第一中断信号INT1,举例而言,启动关键词辨识模块456。当关键词辨识模块456被致能而启动后,关键词辨识模块456开始接收数字声音信号Sa并根据关键词模型参数来辨识数字声音信号Sa是否为关键词的声音。
第二接口控制模块452信号连接至应用处理器数字麦克风410,可控制应用处理器450中接口传输(interfacetransmission)的启动与关闭。
基本上,数字麦克风410与应用处理器450之间的所有信号皆利用第一接口控制模块409与第二接口控制模块452来进行传递。举例来说,应用处理器450可由第二接口控制模块452将子关键词模型参数传递至数字麦克风410中的第一接口控制模块409,并储存于子关键词判断电路406中的内嵌内存(未绘示)。或者,数字麦克风410可由第一接口控制模块409将第一中断信号与数字声音信号Sa传递至应用处理器450中的第二接口控制模块452。
由以上的说明可知,于正常运作状态时,使用者可控制应用处理器450中的用户训练模块454来执行一训练动作。于训练动作后,用户训练模块454即储存关键词模型参数以及子关键词模型参数储存。
当电子产品即将进入睡眠状态之前,应用处理器450将子关键词模型参数传递至数字麦克风410。并且,数字麦克风启动控制模块458进一步地启动数字麦克风410,并进入睡眠状态。
于电子产品进入睡眠状态时,被启动的数字麦克风410内部的子关键词判断电路会持续地判断数字声音信号Sa中是否出现子关键词的声音。
换句话说,于睡眠状态时,数字麦克风410会利用子关键词模型参数先行辨识数字声音信号Sa中是否有子关键词的声音。当数字麦克风410确认数字声音信号Sa中出现子关键词的声音后,即产生第一中断信号INT1至应用处理器450。反之,当数字声音信号Sa中未出现子关键词的声音时,则无法产生第一中断信号INT1至应用处理器450。
再者,当第一中断信号INT1动作时,数字麦克风410中的先进先出缓冲器408开始输出数字声音信号Sa。换句话说,当第一中断信号INT1未动作之前,数字麦克风410中的先进先出缓冲器408可以处于待机状态(idlestate),并未输出数字声音信号Sa。
再者,当第一中断信号INT1主张(assert)时,应用处理器450即选择性地致能以响应第一中断信号INT1。当应用处理器450被致能而开始运作后,关键词辨识模块456接收数字声音信号Sa,并根据关键词模型参数来辨识数字声音信号Sa是否为关键词的声音。当关键词辨识模块456确认数字声音信号Sa是关键词的声音时,即可启动电子产品并进入正常运作状态。
反之,当关键词辨识模块456辨识出数字声音信号Sa不是关键词的声音时,应用处理器450停止运作。此时,应用处理器450需等待数字麦克风410再次产生第一中断信号INT1。
再者,于产生第一中断信号INT1时,先进先出缓冲器408可持续接收数字声音信号Sa,并以于一特定的数据传输率(datarate)传送的数字声音信号Sa至关键词辨识模块456进行辨识。再者,上述第二实施例中所有的模块可由硬件电路来实现,也可以由韧体搭配硬件电路来实现。
请参照图6A与图6B,其所绘示为本发明子关键词判断电路示意图。
如图6A所示,子关键词判断电路406包括:特征撷取电路(featureextractor)520、匹配电路(matchingcircuit)530。其中,特征撷取电路520包括:频谱分析器(spectralanalyzer)522与特征正规器(featurenormalizer)524。
于子关键词判断电路406运作时,频谱分析器522撷取数字声音信号Sa中的信息,并转换为声音特征信号(voicefeaturesignal)Ve,代表声音信号声音Sa的声音特性。接着,特征正规器524将声音特征信号Ve进行正规化(normalize)后,产生正规化声音特征信号(normalizedvoicefeaturesignal)Vn至匹配电路530。
再者,匹配电路530根据内存中预先储存的子关键词模型参数来判断所接收的正规化声音特征信号Vn是否为子关键词“Hi”的声音。当匹配电路530确认数字声音信号Sa中有出现子关键词“Hi”的声音后,即产生第一中断信号INT1。反之,当匹配电路530确认数字声音信号Sa中有未出现子关键词“Hi”的声音后,即不会产生第一中断信号INT1。
基本上,上述匹配电路530系运用匹配算法(matchingalgorithm)来进行判断,匹配算法可为动态程序(dynamicprogramming)算法或者维特比译码(viterbidecoding)算法,并没有限制。
如图6B所示,频谱分析器522利用子频带分析技术(sub-bandanalysis)来截取数字声音信号Sa中的信息,并形成多个向量v1、v2、v3,该些向量即组成声音特征信号Ve。
再者,特征正规器524将向量v1、v2、v3中的音量(volume)、信道系效应(channeleffect)、环境噪音(noiseenvironment)进行正规化后成为向量vn1、vn2、vn3,该些向量即组成正规化声音特征信号Vn。
匹配电路530即根据匹配算法与子关键词模型参数来进一步判断正规化声音特征信号Vn是否包含子关键词“Hi”的声音。
参照图7,其所绘示为本发明电子产品中的声音唤醒侦测方法流程图。当电子装置进入睡眠状态(步骤S610)后,利用数字麦克风来接收接收模拟讲话声音并转换成为数字声音信号,并根据子关键词模型参数来辨识声音信号(步骤S612)。当数字声音信号中尚未出现子关键词的声音时(步骤S614),回到步骤S612。
当数字声音信号中出现子关键词的声音时(步骤S614),启动应用处理器,并根据关键词模型参数来辨识数字声音信号(步骤S616)。
接着,判断声音信号中是否出现关键词的声音。当数字声音信号中尚未出现关键词的声音时(步骤S618),回到步骤S612。
当声音信号中出现关键词的声音时(步骤S618),唤醒电子产品进入正常运作状态(步骤S620)。
根据以上的说明可知,于电子产品的正常运作状态时,使用者可执行一训练动作,并产生关键词的声音至电子产品。而主处理器即可接收用户所发出关键词的声音信号后,进一步建立关键词模型参数以及子关键词模型参数。
而于电子产品进入睡眠状态之前,应用处理器会将子模型参数传递至数字麦克风,供子关键词判断电路来进行辨识。而关键词模型参数则储存于关键词辨识模块中。如此,电子产品于睡眠状态时,即可执行图7的声音唤醒侦测方法流程。
由以上说明可知,本发明提出一种声音唤醒侦测装置与相关方法。于睡眠状态时,先行进行数字声音信号Sa中的子关键词辨识,于确认出数字声音信号Sa中有子关键词的声音之后,才继续进入关键词的辨识。换句话说,本发明可以有效地降低声音唤醒侦测装置执行关键词的辨识的次数,并降低电子装置的日电能损耗(dayofusepowerconsumption)。
综上所述,虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种之更动与润饰。因此,本发明之保护范围当视附的权利要求书所界定者为准。

Claims (27)

1.一种声音唤醒侦测装置,运用于一电子产品,该声音唤醒侦测装置包括:
一数字麦克风,辨识一数字声音信号中是否出现一子关键词,并据以产生一第一中断信号;以及
一应用处理器,选择性地致能以响应该第一中断信号。
2.如权利要求1所述的装置,其中该数字麦克风根据储存于一第一内存中的一子关键词模型参数来辨识该数字声音信号中是否出现该子关键词,并且于确认出现该子关键词时,产生该第一中断信号,并输出该数字声音信号。
3.如权利要求1所述的装置,其中响应该第一中断信号而致能后,该应用处理器辨识该数字声音信号中是否出现一关键词,并且于确认出现该关键词时,产生一第二中断信号以控制该电子产品由一睡眠状态进入一正常运作状态。
4.如权利要求3所述的装置,其中该应用处理器根据储存于一第二内存中的该关键词模型参数来辨识该数字声音信号中是否出现该关键词,并且于确认出现该关键词时,产生该第二中断信号。
5.如权利要求4所述的装置,其中该数字麦克风包括:
一内部振荡器,产生一频率信号;
一模拟数字转换器,将一模拟讲话声音转换成为一数字声音信号;
一子关键词判断电路,根据该子关键词模型参数来辨识该数字声音信号中是否出现该子关键词,并且于确认出现该子关键词时,产生该第一中断信号;
一先进先出缓冲器,于该第一中断信号产生时,暂存该数字声音信号;以及
一第一接口控制模块,输出该第一中断信号以及该数字声音信号至该应用处理器;
其中,该模拟数字转换器、该子关键词判断电路、该先进先出缓冲器与该第一接口控制模块根据该频率信号来运作。
6.如权利要求5所述的装置,其中该子关键词判断电路包括:
一特征撷取电路,撷取该数字声音信号中的信息,并产生一正规化声音特征信号;以及
一匹配电路,根据该子关键词模型参数来判断该正规化声音特征信号中是否出现该子关键词,并且于确认出现该子关键词时,产生该第一中断信号。
7.如权利要求6所述的装置,其中该特征撷取电路包括:
一频谱分析器,截取该数字声音信号中的信息,并形成多个向量,且该些向量组成一声音特征信号;以及
一特征正规器将该些向量进行一正规化后,产生该正规化声音特征信号。
8.如权利要求5所述的装置,其中该应用处理器包括:
一第二接口控制模块,接收该第一接口控制模块的该第一中断信号与该数字声音信号;
一用户训练模块,于该正常运作状态时,根据该数字声音信号产生该关键词模型参数与该子关键词模型参数;
一关键词辨识模块,根据该关键词模型参数来辨识该数字声音信号中是否出现该关键词,并且于确认出现该子关键词时,控制该电子产品由该睡眠状态进入该正常运作状态;以及
一数字麦克风启动控制模块,根据该电子装置的状态来选择性地启动或关闭该数字麦克风。
9.如权利要求5所述的装置,其中该子关键词判断电路包括:一子段声音动作侦测阶段以及一子关键词侦测阶段,且当该数字声音信号中包含声音时,该子段声音动作侦测阶段触发该子关键词侦测阶段。
10.如权利要求9所述的装置,其中该子段声音动作侦测阶段系根据动态更新的噪音与说话准位来侦测该数字声音信号。
11.如权利要求9所述的装置,其中该子关键词侦测阶段系将计算出的频域与时域的信息和一频率临限值与一时域临限值进行比较。
12.一种数字麦克风,运用于一电子装置,该数字麦克风包括:
一内部振荡器,产生一频率信号;
一模拟数字转换器,将一模拟讲话声音转换成为一数字声音信号;以及
一子关键词判断电路,根据一子关键词模型参数来辨识该数字声音信号中是否出现一子关键词。
13.如权利要求12所述的数字麦克风,其中于该子关键词判断电路确认出现该子关键词时,产生一第一中断信号。
14.如权利要求13所述的数字麦克风,更包括
一先进先出缓冲器,于该第一中断信号产生时,暂存该数字声音信号;以及
一第一接口控制模块,输出该第一中断信号以及该数字声音信号至该应用处理器;
其中,该模拟数字转换器、该子关键词判断电路、该先进先出缓冲器与该第一接口控制模块根据该频率信号来运作。
15.如权利要求13所述的数字麦克风,其中该子关键词判断电路包括:
一特征撷取电路,撷取该数字声音信号中的信息,并产生一正规化声音特征信号;以及
一匹配电路,根据该子关键词模型参数来判断该正规化声音特征信号中是否出现该子关键词,并且于确认出现该子关键词时,产生该第一中断信号。
16.如权利要求15所述的数字麦克风,其中该特征撷取电路包括:
一频谱分析器,截取该数字声音信号中的信息,并形成多个向量,且该些向量组成一声音特征信号;以及
一特征正规器将该些向量进行一正规化后,产生该正规化声音特征信号。
17.如权利要求12所述的数字麦克风,其中该子关键词判断电路包括:一子段声音动作侦测阶段以及一子关键词侦测阶段,且当该数字声音信号中包含声音时,该子段声音动作侦测阶段触发该子关键词侦测阶段。
18.如权利要求17所述的数字麦克风,其中该子段声音动作侦测阶段系根据动态更新的噪音与说话准位来侦测该数字声音信号。
19.如权利要求17所述的数字麦克风,其中该子关键词侦测阶段系将计算出的频域与时域的信息和一频率临限值与一时域临限值进行比较。
20.一种声音唤醒侦测方法,包括下列步骤:
当一电子产品进入一睡眠状态后,利用一数字麦克风来产生一数字声音信号;
当该数字声音信号中出现一子关键词的声音时,选择性地致能一应用处理器,并根据一关键词模型参数来辨识该数字声音信号;以及
当该数字声音信号中出现一关键词的声音时,该应用处理器唤醒该电子产品以进入一正常运作状态。
21.如权利要求20所述的方法,其中该数字麦克风根据一子关键词模型参数来辨识该数字声音信号。
22.如权利要求20所述的方法,其中该应用处理器根据一关键词模型参数来辨识该数字声音信号。
23.如权利要求22所述的方法,其中当该数字声音信号中出现该子关键词的声音时,该数字麦克风产生一第一中断信号至该应用处理器,使得该应用处理器选择性地致能以响应该第一中断信号。
24.如权利要求22所述的方法,其中当该数字声音信号中未出现该关键词的声音时,该数字麦克风来继续根据该子关键词模型参数来辨识该数字声音信号。
25.如权利要求22所述的方法,其中于该数字麦克风产生该数字声音信号之后,更包括下列步骤:
撷取该数字声音信号中的信息,并产生一正规化声音特征信号;以及
根据该子关键词模型参数来判断该正规化声音特征信号中是否出现该子关键词。
26.如权利要求25所述的方法,更包括下列步骤:
截取该声音信号中的信息,并形成多个向量,且该些向量组成一声音特征信号;以及
将该些向量进行一正规化后,产生该正规化声音特征信号。
27.如权利要求22所述的方法,更包括下列步骤:
当该电子产品于该正常运作状态下,该应用处理器中的一模型参数估算单元接收一用户所发出该关键词的该数字声音信号后,建立该关键词模型参数以及该子关键词模型参数。
CN201510909528.5A 2014-12-11 2015-12-10 具数字麦克风的声音唤醒侦测装置及相关方法 Active CN105704300B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201462090614P 2014-12-11 2014-12-11
US62/090,614 2014-12-11
US201562117109P 2015-02-17 2015-02-17
US62/117,109 2015-02-17
US14/959,037 US9775113B2 (en) 2014-12-11 2015-12-04 Voice wakeup detecting device with digital microphone and associated method
US14/959,037 2015-12-04

Publications (2)

Publication Number Publication Date
CN105704300A true CN105704300A (zh) 2016-06-22
CN105704300B CN105704300B (zh) 2019-08-09

Family

ID=56111777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510909528.5A Active CN105704300B (zh) 2014-12-11 2015-12-10 具数字麦克风的声音唤醒侦测装置及相关方法

Country Status (2)

Country Link
US (1) US9775113B2 (zh)
CN (1) CN105704300B (zh)

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102394485B1 (ko) * 2013-08-26 2022-05-06 삼성전자주식회사 음성 인식을 위한 전자 장치 및 방법
CN107293287B (zh) * 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
JP6481939B2 (ja) * 2015-03-19 2019-03-13 株式会社レイトロン 音声認識装置および音声認識プログラム
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10228906B2 (en) * 2016-05-30 2019-03-12 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115399B2 (en) * 2016-07-20 2018-10-30 Nxp B.V. Audio classifier that includes analog signal voice activity detection and digital signal voice activity detection
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
KR102623272B1 (ko) * 2016-10-12 2024-01-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN110024281B (zh) * 2016-10-28 2024-05-07 三星电子株式会社 换能器组件和方法
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10186265B1 (en) * 2016-12-06 2019-01-22 Amazon Technologies, Inc. Multi-layer keyword detection to avoid detection of keywords in output audio
US10593328B1 (en) * 2016-12-27 2020-03-17 Amazon Technologies, Inc. Voice control of remote device
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
KR20180083587A (ko) 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
KR102371313B1 (ko) 2017-05-29 2022-03-08 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
KR102443079B1 (ko) 2017-12-06 2022-09-14 삼성전자주식회사 전자 장치 및 그의 제어 방법
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US9972343B1 (en) * 2018-01-08 2018-05-15 Republic Wireless, Inc. Multi-step validation of wakeup phrase processing
KR102530391B1 (ko) * 2018-01-25 2023-05-09 삼성전자주식회사 외부 인터럽트를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10679621B1 (en) 2018-03-21 2020-06-09 Amazon Technologies, Inc. Speech processing optimizations based on microphone array
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) * 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) * 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN111383632B (zh) * 2018-12-28 2023-10-31 北京小米移动软件有限公司 电子设备
KR20200084730A (ko) * 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR102227512B1 (ko) * 2019-01-04 2021-03-12 주식회사 딥엑스 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법, 전자기기를 위한 특정 기능 수행용 학습된 모델, 전자기기를 위한 특정 기능 수행 전용 칩, 전자기기를 위한 특정 기능 수행 전용 칩 동작 방법, 특정 기능 수행을 위한 전자기기, 및 전자기기 특정 기능 수행 시스템
WO2020141696A1 (ko) 2019-01-04 2020-07-09 주식회사 딥엑스 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법 및 동일 기능을 수행하기 위한 학습 모델, 전용 칩 및 전용 칩 동작 방법, 그리고 전자기기와 시스템
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11790902B2 (en) * 2020-02-04 2023-10-17 Amazon Technologies, Inc. Speech-processing system
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN113259793B (zh) * 2020-02-07 2022-12-06 杭州智芯科微电子科技有限公司 智能麦克风及其信号处理方法
KR20210136463A (ko) 2020-05-07 2021-11-17 삼성전자주식회사 전자 장치 및 그 제어 방법
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003026158A1 (en) * 2001-09-14 2003-03-27 Roke Manor Research Limited Single frequency duplex fm transceiver with digital ssb demulator
CN103543814A (zh) * 2012-07-16 2014-01-29 瑞昱半导体股份有限公司 信号处理装置以及信号处理方法
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005055406A1 (en) * 2003-12-01 2005-06-16 Audioasics A/S Microphine with voltage pump
JP4524609B2 (ja) * 2004-10-29 2010-08-18 ソニー株式会社 固体撮像素子、固体撮像素子の駆動方法および撮像装置
KR100744301B1 (ko) 2006-06-01 2007-07-30 삼성전자주식회사 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
WO2012025784A1 (en) 2010-08-23 2012-03-01 Nokia Corporation An audio user interface apparatus and method
US9479275B2 (en) * 2012-06-01 2016-10-25 Blackberry Limited Multiformat digital audio interface
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
US9959865B2 (en) 2012-11-13 2018-05-01 Beijing Lenovo Software Ltd. Information processing method with voice recognition
US10395651B2 (en) 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
US8928505B1 (en) * 2013-03-12 2015-01-06 Semiconductor Components Industries, Llc Method of forming an audio processing system and structure therefor
US9712923B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc VAD detection microphone and method of operating the same
KR102060661B1 (ko) 2013-07-19 2020-02-11 삼성전자주식회사 통신 방법 및 이를 위한 디바이스
US20150112690A1 (en) * 2013-10-22 2015-04-23 Nvidia Corporation Low power always-on voice trigger architecture

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003026158A1 (en) * 2001-09-14 2003-03-27 Roke Manor Research Limited Single frequency duplex fm transceiver with digital ssb demulator
CN103543814A (zh) * 2012-07-16 2014-01-29 瑞昱半导体股份有限公司 信号处理装置以及信号处理方法
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords

Also Published As

Publication number Publication date
CN105704300B (zh) 2019-08-09
US9775113B2 (en) 2017-09-26
US20160171976A1 (en) 2016-06-16

Similar Documents

Publication Publication Date Title
CN105704300A (zh) 具数字麦克风的声音唤醒侦测装置及相关方法
CN105704298A (zh) 声音唤醒侦测装置与方法
KR102335717B1 (ko) 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서
US20230082944A1 (en) Techniques for language independent wake-up word detection
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN106448663B (zh) 语音唤醒方法及语音交互装置
CN103095911B (zh) 一种通过语音唤醒寻找手机的方法及系统
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
WO2017112466A1 (en) Multi-speaker speech separation
EP3274989A1 (en) Method and system of environment sensitive automatic speech recognition
US11308946B2 (en) Methods and apparatus for ASR with embedded noise reduction
US11514926B2 (en) Low power mode for speech capture devices
CN112700782A (zh) 语音处理方法和电子设备
US11848006B2 (en) Method of switching a circuit from an idle state to an active state based on a trigger signal from am always-on circuit
WO2023029615A1 (zh) 语音唤醒的方法、装置、设备、存储介质及程序产品
CN112951243A (zh) 语音唤醒方法、装置、芯片、电子设备及存储介质
US11664012B2 (en) On-device self training in a two-stage wakeup system comprising a system on chip which operates in a reduced-activity mode
CN101350196A (zh) 任务相关的说话人身份确认片上系统及其确认方法
US20210210109A1 (en) Adaptive decoder for highly compressed grapheme model
US11769491B1 (en) Performing utterance detection using convolution
CN112908310A (zh) 一种智能电器中的语音指令识别方法及识别系统
US11783818B2 (en) Two stage user customizable wake word detection
CN113628613A (zh) 两阶段的用户可定制唤醒词检测
KR20240000474A (ko) 신경망에 기반하는 키워드 스포팅 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant