CN106030706B - 话音命令触发的语音增强 - Google Patents

话音命令触发的语音增强 Download PDF

Info

Publication number
CN106030706B
CN106030706B CN201480075790.8A CN201480075790A CN106030706B CN 106030706 B CN106030706 B CN 106030706B CN 201480075790 A CN201480075790 A CN 201480075790A CN 106030706 B CN106030706 B CN 106030706B
Authority
CN
China
Prior art keywords
data
speech
block
trigger phrase
stored data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480075790.8A
Other languages
English (en)
Other versions
CN106030706A (zh
Inventor
R·J·哈特菲尔德
M·佩奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cirrus Logic International Semiconductor Ltd
Original Assignee
Cirrus Logic International Semiconductor Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cirrus Logic International Semiconductor Ltd filed Critical Cirrus Logic International Semiconductor Ltd
Priority to CN202010286430.XA priority Critical patent/CN111508515A/zh
Publication of CN106030706A publication Critical patent/CN106030706A/zh
Application granted granted Critical
Publication of CN106030706B publication Critical patent/CN106030706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

存储代表语音的接收数据,且一个触发检测块检测代表一个触发短语的数据在该接收数据中的存在。作为响应,将代表该触发短语的至少一部分的存储数据的第一部分供应到一个自适配语音增强块,基于该存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数。将该存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,以形成增强的存储数据,其中该存储数据的第二部分与该存储数据的第一部分重叠。第二触发短语检测块检测代表该触发短语的数据在增强的存储数据中的存在。作为响应,从该语音增强块输出增强的语音数据以用于进一步处理,例如语音识别。借助于第一触发短语检测块来执行检测代表该触发短语的数据在该接收数据中的存在;且借助于第二触发短语检测块来执行检测代表该触发短语的数据在增强的存储数据中的存在,且该第二触发短语检测块用与该第一触发短语检测块不同的(通常更严格的)检测标准操作。

Description

话音命令触发的语音增强
本发明涉及处理接收到的语音数据的方法,以及用于实施这样的方法的系统。
已知使用经由因特网访问的远程定位的语音识别算法为移动设备提供自动语音识别(ASR)。此语音识别可以被用来在移动设备上或经由移动设备识别口语命令,例如用于浏览因特网和用于控制特定功能。为了保持电池寿命,这些移动设备以功率节省待机模式度过它们的大部分时间。触发短语可以被用来唤醒设备的主处理器,使得可以在主处理器内和/或通过远程分析服务执行说话人验证(即,说话的人的身份的验证)和/或任何其他语音分析服务。
为了提高ASR服务中的识别率,众所周知,使用多种在传输之前增强音频(即,语音)的信号处理技术,例如,声学回声消除、噪声降低以及多麦克风波束形成。许多这些增强技术是自适配的,换言之,它们动态地修改它们的参数以适配提供麦克风信号的声学环境。当声学环境改变时,花费一个有限的时间段以使这些参数迭代地适配于使由声学环境产生的任何不期望的特征降低到无关紧要的水平的点。这被称为适配时间,并且对许多自适配音频信号处理算法,通常具有一秒的数量级。
声学回声消除(AEC)使用如上文所描述的自适配过程,以通过使用从扬声器的输出导出的参考信号来消除可以被语音麦克风拾取的本地扬声器成分,且使用一个自适配过程以估计从扬声器到麦克风的声学传递函数。此适配可以在来自扬声器的任何信号输出上发生。因此,它不依赖于用户通过麦克风输入的信号。ASR在扬声器操作期间的一些典型用途是音乐回放的话音控制和在免提电话期间的话音控制。对于这些情况,AEC可以在扬声器输出开始的一秒内收敛于环境,且因此,在大多数情况下,在用户开始发出口语命令之前该适配已经达到需要的水平。
相反,自适配噪声降低和多麦克风波束形成是依赖于产生的包含用户的语音的信号的自适配过程。这些自适配过程直到用户的语音存在于来自麦克风的信号中才能够开始使它们的参数适配,并且一旦用户的语音存在,它们花费一个时间段来适配于需要的水平。可能需要这些自适配过程以在声音触发的从待机唤醒之后立即增强语音以用于在ASR中使用。使这些语音识别算法在低功率待机状态下运行也未必可行,因为它们的计算复杂性导致合成设备功率消耗相当大。这的最终结果是不可以有效地增强口语命令的开始,这可能导致ASR服务的结果较差。
根据本发明的第一方面,提供了一种处理代表语音的接收数据的方法,包括:
存储该接收数据;
检测代表一个触发短语的数据在该接收数据中的存在;
响应于所述检测,将代表该触发短语的至少一部分的存储数据的第一部分供应到一个自适配语音增强块;
基于该存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数;
将该存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,以形成增强的存储数据,其中该存储数据的第二部分与该存储数据的第一部分重叠;
检测代表该触发短语的数据在该增强的存储数据中的存在;以及
响应于检测到代表该触发短语的数据在该增强的存储数据中的存在,从该语音增强块输出增强的语音数据以用于进一步处理;
其中借助于第一触发短语检测块来执行检测代表该触发短语的数据在该接收数据中的存在;且
其中借助于第二触发短语检测块来执行检测代表该触发短语的数据在该增强的存储数据中的存在,且其中该第二触发短语检测块用与该第一触发短语检测块不同的检测标准进行操作。
根据本发明的第三方面,提供了一种语音处理器,包括:
一个输入,用于接收代表语音的数据;以及
一个自适配语音增强块,
其中该语音处理器被配置为执行根据第一方面的方法。
根据本发明的第三方面,提供了一种移动设备,包括根据第二方面的语音处理器。
根据本发明的第四方面,提供了一种计算机程序产品,包括计算机可读代码,用于导致一个处理设备执行根据第一方面的方法。
根据本发明的第五方面,提供了一种处理代表语音的接收数据的方法,包括:
在检测到代表一个触发短语的该接收数据的一段时:基于该接收数据的所述段的至少一部分来训练一个自适配语音增强块,以导出用于该自适配语音增强块的参数;将接收数据的所述段传递通过使用所述导出的参数的所述自适配语音增强块,以生成一个增强的数据段;以及试图在增强的数据段中检测所述触发短语。
根据本发明的第六方面,提供了一种处理代表语音的接收数据的方法,包括:
在该接收数据中检测环境噪声水平;
如果该环境噪声水平在第一阈值以上且在高于该第一阈值的第二阈值以下,则对该接收数据执行语音增强过程,且对从该语音增强过程输出的数据执行语音识别过程;
如果该环境噪声水平在该第一阈值以下,则对未通过所述语音增强过程处理的该接收数据执行语音识别过程;以及
如果该环境噪声水平在该第二阈值以上,则省略对该接收数据执行语音识别过程。
根据本发明的第七方面,提供了一种语音处理器,包括:
一个输入,用于接收代表语音的数据;以及
一个自适配语音增强块,
其中该语音处理器被配置为执行根据第六方面的方法。
根据本发明的第八方面,提供了一种移动设备,包括根据第七方面的语音处理器。
根据本发明的第九方面,提供了一种计算机程序产品,包括计算机可读代码,用于导致一个处理设备执行根据第六方面的方法。
根据本发明的第十方面,提供了一种处理代表语音的接收数据的方法,包括:
存储该接收数据;
检测代表第一触发短语的数据在该接收数据中的存在;
响应于所述检测,将代表该第一触发短语的至少一部分的存储数据的第一部分供应到一个自适配语音增强块;
基于该存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数;
将该存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,其中该存储数据的第二部分与该存储数据的第一部分重叠;以及
从该语音增强块输出增强的语音数据。
根据本发明的第十一方面,提供了一种语音处理器,包括:
一个输入,用于接收代表语音的数据;以及
一个自适配语音增强块,
其中该语音处理器被配置为执行根据第十方面的方法。
根据本发明的第十二方面,提供了一种移动设备,包括根据第十一方面的语音处理器。
根据本发明的第十三方面,提供了一种计算机程序产品,包括计算机可读代码,用于导致一个处理设备执行根据第十方面的方法。
这提供的优点是,随着接收的语音数据被存储,该数据的一部分可以被用来训练该语音增强算法,使得适配参数有时间收敛。这些适配参数然后可以被应用到该存储数据,使得已经被有效地增强的数据可以被输出到一个语音处理器。
为了更好地理解本发明,以及示出如何实施本发明,现在将以实施例的方式参考附图,在附图中:
图1示出了根据本发明的一个方面的移动设备;
图2示出了图1的移动设备中的数字信号处理器的一个实施方案的更详细的视图;
图3示出了图2中示出的系统的操作的一个实施例;
图4是示出了图2中示出的系统的操作的一个实施例的流程图;
图5示出了数字信号处理器的一个替代实施方案;
图6示出了图5中示出的系统的操作的一个实施例;
图7是示出了图5中示出的系统的操作的一个实施例的流程图;
图8示出了数字信号处理器的又一个替代实施方案;
图9示出了数字信号处理器的一个替代实施方案;
图10示出了图9中示出的系统的操作的一个实施例;
图11是示出了图9中示出的系统的操作的一个实施例的流程图;以及
图12示出了数字信号处理器的又一个替代实施方案。
具体实施方式
图1示出了系统10,包括具有到服务器14的连接的移动通信设备12。在一个实施方案中,服务器14可以例如包括语音识别引擎,但是将理解的是,在其他情况下可以应用其他类型的语音处理器。在此例示的实施方案中,移动设备12经由空中接口(air interface)连接到广域网36中的服务器14,尽管将理解的是,可以使用其他合适的无线连接或有线连接,或可以在移动设备12内完全地或部分地执行原本通过服务器14执行的处理。移动设备12可以是智能手机或具有其任何功能的任何其他便携式通信设备,诸如,便携式计算机、游戏控制台或智能手表或其他可穿戴设备等。
在所例示的系统中,移动设备12包含音频中枢(audio hub)集成电路16。音频中枢16从一个或多个麦克风18、20接收信号并且通过至少一个扬声器(即,音频输出换能器)22输出信号。在此图中,存在两个麦克风18、20,但是将理解的是,可以仅存在一个麦克风,或可以存在更多个麦克风。音频中枢16还从信号源24接收信号,该信号源诸如是用于存储所记录的声音的存储器或无线电接收机,该信号源在移动设备处于媒体回放模式中时提供信号。这些信号被传递到音频中枢16以通过扬声器22输出。
在所例示的实施例中,音频中枢16包含两个处理块(PB)26、28和一个数字信号处理器(DSP)30。第一处理块26处理从麦克风18、20接收的模拟信号,并且输出适合于在DSP30中进一步处理的数字信号。第二处理块28处理由DSP 30输出的数字信号,并且输出适合于输入到扬声器22内的信号。
DSP 30还被连接到应用处理器(AP)32。此应用处理器在移动设备12内执行多种功能,包括通过无线收发器34在广域网36上发送信号,包括发送信号到服务器14。
将理解的是,许多其他构架是可能的,其中可以如下文所描述的处理接收到的语音数据。
本发明的目的是,用户将发出通过麦克风18、20检测到的语音命令并且通过DSP30处理由这些麦克风输出的相应的语音数据。经处理的信号然后可以被传输到可以例如包括语音识别引擎的服务器14。可以通过服务器14产生一个输出信号,或许给出对初始语音命令中由用户询问的问题的响应。此输出信号可以通过收发器(TRX)34被传输回到移动设备,并且通过数字信号处理器30处理以通过扬声器22输出以被用户听到。将理解的是,除了扬声器以外可以使用另一个用户接口来输出来自服务器14的返回信号,例如,耳机或触觉换能器或显示屏幕。
将理解的是,尽管在优选的实施方案中,应用处理器(AP)32将数据传输到远程定位的服务器14,但是在一些实施方案中,语音识别过程可以在设备12内进行,例如,在应用处理器32内。
图2示出了DSP 30的更详细的功能方块图。将理解的是,可以通过硬件、软件或通过硬件和软件二者的合适的组合执行在此所描述的功能,如通过DSP 30执行的功能。从通过麦克风18生成的信号导出的信号Bin被发送到缓冲器38,该缓冲器可以例如表现为具有向其写数据的存储区域的循环缓冲器的形式,其中当存储器满时,可以重写数据。尽管在此图中仅示出了一个麦克风,但将理解的是,可以使用不止一个麦克风。
如图2中示出的,在通过写指针W指示的存储器位置处将数据写到缓冲器,并且在通过读指针R指示的存储器位置处从缓冲器读数据。
麦克风信号Bin还被发送到低功率触发检测块40,该低功率触发检测块检测信号是否包含代表口语触发短语的数据。
所有输入数据可以被发送到数据缓冲器38和触发检测块40,或可以提供一个信号活动检测块(未例示),使得仅当确定输入信号包含某个最小信号活动时,数据才被发送到缓冲器38和触发检测块40。换句话说,在一些实施方案中,信号活动检测(SAD)块可以导致缓冲器和触发检测(TD)块二者都被去激活,除非在输入信号中检测到至少某个最小信号活动。在一些实施方案中,信号活动检测块可以导致触发检测块被去激活,除非在输入信号中检测到至少某个最小信号活动,但是保持缓冲器激活以连续地缓冲输入数据。连续地缓冲输入信号可以允许在信号活动检测器的响应时间期间到达的输入信号数据被保存以用于稍后使用,例如,以允许触发短语检测使用甚至此最早的数据。
响应于确定信号包含代表口语触发短语的数据,控制块42从触发检测块40接收输出信号TPD。
因此,可以通过将许多语音处理维持在低功率状态中直到通过触发检测块40识别已经说了预定义的触发短语时为止来使总功率消耗最小化。在一些实施方案中,可以通过断开或禁用到相关电路系统的电源来实现低功率状态。在其他实施方案中,可以通过禁用供应到相关电路系统的一个或多个时钟来实现低功率状态。在其他实施方案中,可以通过降低应用的电源电压或通过降低供应到相关电路系统的一个或多个时钟的频率来实现低功率状态。在其他实施方案中,可以通过不对应用到处理器电路系统的某组程序指令排序来实现低功率状态。在具有多个麦克风的系统中,可以通过仅处理来自所述麦克风中的一个的信号来实现低功率状态:此麦克风可以是通过先前设计选择预先指定的或可以是基于先前的信号活动选择的,例如,无论是最后变得安静的麦克风,或先前是最响的信号的麦克风。
控制块42控制时钟控制器44的操作,且还经由缓冲器控制块46控制向缓冲器38和从缓冲器38相应地有顺序地写(WA)和读(RA)数据,如下文更详细地描述的。
从缓冲器38读的数据Bout被传递到语音增强块48。如上文所提及的,语音增强块48可以被维持在掉电状态中,直到响应于确定已经说了预定义的触发短语才通过来自时钟控制器44的信号将其激活。
语音增强块48可以例如执行语音增强功能,诸如,多麦克风波束形成、频谱噪声降低、环境噪声降低或类似功能,并且实际上可以执行多个语音增强功能。当语音增强块48执行响应于用户的语音而适配的至少一个功能时,所例示的系统的操作是特别有利的。
例如,在多麦克风波束形成语音增强功能的情况下,增强采用设定被应用至接收到的信号Bout的多个参数的形式,以生成增强的输出信号Sout。这些参数可以定义将被应用到来自一个或多个麦克风的、在一个或多个频带中的信号(在组合之前或之后)的相对增益和延迟,以提供增强的输出信号。这些参数的所需要的值将取决于说话的人相对于麦克风位置的位置,且因此仅一旦用户开始说话才可以确定它们。
因此,增强块48能够以自适配的方式确定它的操作参数,以优化增强,但是此适配花费有限的时间以达到最优状态。
控制块42控制语音增强块48的自适配功能的操作。这由示出的如被定位成能够中断任何反馈且因此中断适配的开关50概念性地例示,然而实际上可以使用其他已知的中断适配的方法。例如,可以通过将一些适配系数设定为零或通过中断处理器电路系统中的一些程序代码的排序来中断适配。来自语音增强块48的数据的输出Sout由控制块42控制。这由第二开关52概念性地例示,然而实际上可以通过将一个控制信号应用到某个标准数字总线接口来中断传输。同步信号TPsync可以与Sout数据信号并行被发送或被嵌入到与Sout数据信号相同的信道内,如下文更详细地描述的。
图3和图4示出了图2中示出的系统的操作的一个实施例,其中图3示出了多个信号的时间历程(time history),并且图4是一个流程图。图4中示出的过程从步骤102开始,在步骤102中,在该或每个麦克风处接收的声学信号被转换为代表检测到的声音的数字电信号。在步骤104中,这些麦克风信号被存储在缓冲器38内。在图3中,标注Bin的轴示出了在任何给定时间接收和写到缓冲器38内的数据。可以通过由麦克风18记录的增大超过一个阈值的声音水平来激活将数据写到缓冲器38的开始。在其他实施方案中,缓冲器38可以连续地写。随着在该图中示出的时间推移,缓冲器38包含预数据(PD)、触发短语数据(TP)和四个命令字数据段(C、C2、C3、C4),所述预数据代表在用户开始说预定义的触发短语之前通过缓冲器38记录的数据。触发短语的结束发生在时间Tph处。
在图4的过程的步骤106中,触发短语检测块40连续地试图在接收的麦克风信号中检测触发短语。触发短语检测块40不可避免地具有有限的处理时间,且因此实际在时间TTPD处通过触发检测块40检测到触发短语,时间TTPD在Tph处的实际口语触发短语结束之后一个时间间隔Tdd。
触发短语的检测启动了许多过程。首先,缓冲器38的输出Bout被激活,且缓冲器38的读指针R被设定以从自写箭头W的当前位置在时间上退后预定数目的数据点起读。因此,缓冲器的输出是先前存储的数据。
此预定数目的数据点设定了一个时间段的开始时间T0,将从该开始时间读出先前存储的数据。读出的数据将在训练语音增强块48中使用,且因此如果读出的数据包括代表触发短语的所有数据(如图3中的Bin线中的TP示出的)则是有利的。实际上,触发短语的确切持续时间将不是预先已知的,且因此图3示出了如下一个实施例,在该实施例中,写指针W被设定以使得从在实际触发短语TP的开始之前的时间T0开始读出由图3中示出的虚线区域60指示的数据。然而,将理解的是,此预定数目的数据点可以被设定以使得读出的数据的开始恰好与代表触发短语的数据的开始一致,或以使得读出的数据可以通过代表触发短语的数据仅部分地开始。
在图3中例示的实施例中,预定数目的数据点在等于TTPD的时间点T1处结束。换句话说,从读出先前存储的数据用于分析起的时间段在触发短语检测延迟Tdd之后立即结束。在一些实施方案中,此延迟可以被补偿,以使得待被分析的数据在更接近于检测到的触发短语的实际结束TPh的时间点处结束。
其次,如图4的步骤108中示出的,触发短语的检测导致控制块42发送命令“Adapt(适配)”,如图3中示出的,以激活开关50。此“Adapt”命令激活增强块48以开始它的适配。这意味着,使增强块48的参数迭代地适配,使得它们收敛到优选值上,如图3中在标注Coeff的轴上示出的。此适配的过程,在本文中也被称为“训练”增强块,是基于采样的音频数据来优化滤波器和其他算法分量的系数的过程。此收敛通常需要持续一秒的数量级的一段时间的输入数据。
触发短语的检测还提示控制块42发送命令Turbo到时钟控制器44。此命令导致时钟控制器44以比输入数据Bin的采样速率更高的速率生成一个时钟信号。这导致以比实时更快(换言之,比将数据写到缓冲器38的速率更快)的速率从缓冲器38读数据。这还可以减少适配的收敛所需要的实际时间。
从此点向前,从缓冲器38连续地读数据(至少直到确定用户已经停止说话为止)。如可以从图3看到的,保持读缓冲器38的速率比实时更高直到缓冲器38的读箭头R在时间TA处大体上赶上写箭头W为止。这意味着,至此开始,被输入到缓冲器38内的数据在基本上相同时间被输出。在图3中示出的实施例中,这在与命令字C3和C4之间的过渡相同的时间发生,但是这是巧合且不是必须的。
如上文所提及的,在读出于检测到触发短语之前的时间段中存储在缓冲器38内的数据的一部分的时间期间,使增强块48的参数或系数适配。在图3中示出的实施例中,读出的数据包括一直到时间TTPD为止的所有数据。然而,还可能在较早的点处停止读出此数据。例如,可以基于增强块48的参数收敛于合适的值上将花费的时间的预期来设定读出数据的持续时间。
在已经读出在时间TTPD之前存储的选定数据时,换言之,在时间TP处,命令块42使开关50去激活,如图3中在标注Adapt的轴上示出的,且这具有防止增强块48的参数的进一步适配的作用,如图4的步骤110中示出的。在适配期间获得的参数值然后被存储。作为一个替代方案,可能控制增强块48的适配,以使得参数的收敛的速率被大大降低,比如说降低到十分之一或更少(例如,可以减少适配的步长或可以增加适配过程的时间常数)。在任一种情况下,这具有的作用是,在增强块48的使用期间不存在参数的突然改变,参数的突然改变可能倾向于对输出的质量产生不利影响。从测试语音识别功能14对增强块48的系数的改变的灵敏度可以经验地导出用于系数的改变的最大可允许速率。
在时间TP处,还从控制块42发送一个命令以激活第二开关装置52。在图3中在轴SoutEN上示出的此命令过程导致增强块48使用冻结的或仅缓慢收敛的系数以在图4中示出的过程的步骤112中处理数据Bout,且以输出经处理的(换言之,增强的)数据Sout。在步骤114中,将增强的数据作为一个输出传输。
此外,在时间TP处,读箭头R被重置,以使得在那个点之后读出的数据包含在那个点之前读出的数据的至少一部分。因此,在时间TP之前从缓冲器读出以训练语音增强块48的数据和在时间TP之后从缓冲器读出用于通过语音增强块增强的数据之间存在重叠。
在图3中示出的实施例中,读箭头R被重置到它在时间TTPD处被设定的相同的点,以使得在时间TP之后从缓冲器38读出的数据包含在时间T0处开始的、被用来训练语音增强块48的所有数据。在此例示的实施例中,此数据包含整个触发短语TP。然而,取决于语音识别过程的要求,在时间TP之后从缓冲器38读出的数据包含代表触发短语TP的所有数据可能不是必须的,且因此读箭头R可以被重置到任何合适的数据点。
作为重置读箭头R的一个替代方案,在时间TP之前的训练阶段期间从缓冲器38读出的数据的一些或全部可以被临时地存储在一个缓存中,且然后在时间TP之后读出该缓存以被传递通过语音增强块48以用于用适配的参数处理。
在任一种情况下,其后,在时间TP之后仍然以比实时更快的速率再次输出来自缓冲器38的数据。
如图3中在线Bout中示出的,其后读出的数据是存储在缓冲器38内的代表触发短语TP(在此例示的实施例中)所有数据和代表命令字C、C2、C3、C4的数据,之后此数据被传递通过语音增强块48以生成修改的数据TP*、C*、C2*、C3*、C4*。
控制块42还可以确定触发短语TP结束和第一命令字C开始的点,在这种情况下,它可以生成一个同步信号TPsync以在时间TTPS处(在确定触发短语已经被增强块48处理且因此确定代表第一命令字的修改的数据C*即将开始的时间处)通过控制块42发送。
因此,如可以从图3看到的,在标注Sout的轴上,从DSP30输出的数据是经处理的触发短语数据(TP*)和四个经处理的命令字数据段(C*、C2*、C3*和C4*)。此输出的数据因此是经处理的,使得它可以被语音识别引擎或其他语音处理器识别。
图5示出了图1中的DSP30的系统的又一个实施方案。图5中示出的DSP30大部分对应于图2中示出的DSP30,并且这两个图中的对应的特征由相同的参考数字指示,并且将不在本文中进一步描述。
在图5中,从一个或多个麦克风直接地或间接地获得的输入信号Bin被传递到循环缓冲器38、触发检测块40和局部触发检测块54。
如参考图2所讨论的,所有输入数据可以被发送到缓冲器38、触发检测块40和局部触发检测块54,或可以提供一个活动检测块,使得仅当确定输入信号包含某个最小信号活动时,数据才被发送到缓冲器38、触发检测块40和局部触发检测块54。换句话说,在一些实施方案中,信号活动检测块可以导致缓冲器和触发检测块二者都被去激活,除非在输入信号中检测到至少某个最小信号活动。在一些实施方案中,信号活动检测块可以导致触发检测块被去激活,除非在输入信号中检测到至少某个最小信号活动,但是保持缓冲器激活以连续地缓冲输入信号。连续地缓冲输入信号可以允许在信号活动检测器的响应时间期间到达的输入信号数据被保存以用于稍后使用,例如,以允许触发短语检测使用甚至此最早的数据。
局部触发检测块54检测接收的信号是否包含代表口语触发短语的选定部分(即,局部触发短语)的数据,该口语触发短语的选定部分可以被认为是第一触发短语。例如,触发短语的选定部分通常将是通过触发检测块40检测到的触发短语的第一部分。当检测到第一触发短语(即,口语触发短语的选定部分)时,局部触发检测块54发送输出信号TPDP到控制块42。
图6示出了图4中示出的系统的操作的一个实施例,且图7是示出执行的过程的流程图。图7中示出的过程从步骤122开始,在步骤122中,在该或每个麦克风处接收的声学信号被转换为代表检测到的声音的数字电信号。在步骤124中,这些麦克风信号被存储在缓冲器38内。图6中的标注Bin的轴示出了在任何给定时间接收和写到缓冲器38内的数据。可以通过由麦克风18记录的增大超过一个阈值的声音水平来激活将数据写到缓冲器38的开始。在其他实施方案中,缓冲器38可以连续地写。随着在该图中示出时间推移,缓冲器38包含预数据(PD)、触发短语数据(TP)和四个命令字数据段(C、C2、C3、C4),所述预数据代表在用户开始说预定义的触发短语之前通过缓冲器38记录的数据。
如图7的步骤126中示出的,局部触发检测块54连续地试图在接收的信号中检测触发短语的选定部分。在此实施例中,触发短语的选定部分是触发短语的第一部分,且触发短语的选定部分的结束发生在时间Tphp处,尽管在其他实施方案中,触发短语的选定部分可以例如发生在触发短语的中间。局部触发检测块54不可避免地具有有限的处理时间,且因此实际在时间TTPDP处通过局部触发检测块54检测到触发短语的选定部分的结束,时间TTPDP在代表触发短语的选定部分的数据在TPhp处结束之后一段时间间隔Tddp。
触发短语的选定部分的检测启动了许多过程。首先,缓冲器38的输出Bout被激活,且缓冲器38的读指针R被设定以从自写箭头W的当前位置在时间上退后预定数量的数据点起读。因此,缓冲器的输出是先前存储的数据。
此预定数目的数据点设定了在时间T0处开始的时间段,将从时间T0读出先前存储的数据。读出的数据在训练语音增强块48中使用,且因此如果读出的数据包括代表触发短语的所有数据(如图6中的Bin线中的TP示出的)则是有利的。实际上,触发短语的确切持续时间将不是预先已知的,且因此图6示出了如下一个实施例,在该实施例中,写指针W被设定以使得从在实际触发短语TP的开始之前的时间T0开始读出由图6中示出的虚线区域60指示的数据。然而,将理解的是,此预定数目的数据点可以被设定以使得读出的数据的开始恰好与代表触发短语的数据的开始一致,或以使得读出的数据可以仅部分地通过代表触发短语的数据开始。
在图6中例示的实施例中,预定数目的数据点在等于TTPD的时间点T1处结束。换句话说,从读出先前存储的数据用于分析起的时间段在触发短语检测延迟Tdd之后立即结束。在一些实施方案中,此延迟可以被补偿,以使得待被分析的数据在更接近于检测到的触发短语的实际结束TPh的时间点处结束。
其次,局部触发短语的检测导致控制块42发送命令Adapt,如图6中示出的,以激活开关50。因此,在图7中示出的过程的步骤128中,此命令激活增强块48以开始它的适配。这意味着,使增强块48的参数迭代地适配,使得它们收敛到优选值上,如图5中在标注Coeff的轴上示出的。此适配的过程,在本文中也被称为“训练”增强块,是基于采样的音频数据来优化滤波器和其他算法分量的系数的过程。此收敛通常要持续一秒的数量级的一段时间的输入数据。
局部触发短语的检测还提示控制块42发送命令Turbo到时钟控制器44。此“Turbo”命令导致时钟控制器44以比输入数据Bin的采样时钟速率更高的时钟速率生成一个时钟信号。这导致以比实时更快(换言之,比将数据写到缓冲器38的速率更快)的时钟速率从缓冲器38读数据。这还可以减少适配的收敛所需要的实际时间。
从此点向前,从缓冲器38连续地读数据(至少直到确定用户已经停止说话为止)。如可以从图6看到的,保持读缓冲器38的速率比实时更高直到缓冲器38的读箭头R在时间TTA处大体上赶上写箭头W为止。这意味着,至此开始,被输入到缓冲器38内的数据在基本上相同的时间被输出。
整个触发短语的结束发生在时间Tph处。触发检测块40具有有限的处理时间,且因此实际上在时间TTPD通过触发检测块40检测到整个触发短语的结束,时间TTPD在代表触发短语的选定部分的数据在Tph处结束之后一个时间间隔Tdd。
如上文所提及的,在读出于检测到触发短语之前的时间段期间存储在缓冲器38内的数据的一部分的时间期间使增强块48的参数或系数适配。在图6中示出的实施例中,读出的数据包括一直到时间TTPD为止的所有数据。然而,还可以在更早的点处停止读出此数据。例如,可以基于增强块48的参数收敛在合适的值上将花费的时间的预期来设定读出数据的持续时间。
在已经读出在时间TTPD之前存储的选定数据时,换言之,在时间TP处,命令块42使开关50去激活,如图6中在标注Adapt的轴上示出的,且这具有防止增强块48的参数的进一步适配的作用,如图7的步骤130中示出的。适配的参数然后被存储用于进一步使用。作为一个替代方案,可能控制增强块48的适配,以使得参数的收敛的速率被大大降低。在任一种情况下,这具有的作用是,在增强块48的使用期间不存在参数的突然改变,参数的突然改变可能倾向于对输出的质量产生不利影响。从测试语音识别功能14对增强块48的系数的改变的灵敏度可以经验地导出用于系数的改变的最大可允许速率。
在时间TP处,还从控制块42发送命令以激活第二开关52。在图3中的轴SoutEN上示出的此命令过程导致增强块48使用冻结的或仅稍微收敛的系数以处理数据Bout且输出经处理的数据Sout。
此外,在时间TP处,读箭头R被重置,以使得在那个点之后读出的数据包含在那个点之前读出的数据的至少一部分。因此,在时间TP之前从缓冲器读出且被用来训练语音增强块48的数据和在时间TP之后从缓冲器读出用于通过语音增强块增强的数据之间存在重叠。在图6中示出的实施例中,且如图7的步骤132中示出的,读箭头R被重置到时间点T0——其是读箭头R在时间TTPD处被设定的相同的点,以使得在时间TP之后从缓冲器38读出的数据包含被用来训练语音增强块48的所有数据。在此例示的实施例中,此数据包含整个触发短语TP。然而,取决于语音识别过程的要求,在时间TP之后从缓冲器38读出的数据包含代表触发短语TP的所有数据可能不是必须的,且因此读箭头R可以被重置到任何合适的数据点。
其后,在时间TP之后仍然以比实时更快的速率再次输出来自缓冲器38的数据。
如图6中的线Bout中示出的,其后读出的数据是存储在缓冲器38内的代表触发短语TP(在此例示的实施例中)的所有数据和代表命令字C、C2、C3、C4的数据,之后此数据被传递通过语音增强块48以生成修改的数据TP*、C*、C2*、C3*、C4*。
在图7的步骤134中,此增强的数据Sout被传输作为输出。
控制块42还可以确定触发短语TP结束和第一命令字C开始的点,在这种情况下,它可以生成一个同步信号TPsync以在时间TTPS处(在确定触发短语已经被增强块48处理且因此确定代表第一命令字的修改的数据C*即将开始的时间处)通过控制块42发送。
因此,如可以从图6看到的,在标注Sout的轴上,从DSP30输出的数据是经处理的触发短语数据(TP*)和四个经处理的命令字数据段(C*、C2*、C3*和C4*)。此输出的数据因此是经处理的,使得它可以被语音识别引擎或任何其他语音处理器更容易地或更准确地识别。
因此,在图5中示出的且参考图6和图7描述的实施方案中,增强块48的参数的适配比在图2中示出的且参考图3和图4描述的实施方案中更早开始。因此,可能更早开始发送增强的语音数据,减小语音识别系统中的任何处理延迟。
当然,可能的是,接收数据可以包含代表触发短语的选定的第一部分的数据而不包含代表整个触发短语的数据。(用户可以说一个不包含触发短语但是巧合地包含触发短语的选定的第一部分的短语)。因此,当控制块42接收指示已经检测到触发短语的选定部分的信号TPDP时,它监控指示已经检测到整个触发短语的信号TPD的到达。如果从信号TPDP的到达起在预设定的时间内没有生成信号TDP,则可以生成重置信号,以使得增强块48的参数的适配被停止,且没有数据从该增强块输出。在一些实施方案中,触发短语检测器可能能够推断出在此超时消逝之前接收的数据不包含完整的触发字并且可能存在触发短语检测器可以将此传达到控制块(该控制块然后可以立即使增强处理去激活)的信号路径(未例示)。
完整的触发短语的接收的确认也可以被用来使该电路系统或设备的其他零件上电,例如以激活其他处理器核或启用显示屏幕。此外,在一些实施方案中,本地处理器(例如,应用处理器)可以被用来执行一些ASR功能,因此信号TPD可以被用来激活处理器的相关联的零件或将适当的软件加载到它上。
图8示出了图1中的DSP30的系统的又一个实施方案。图8中示出的DSP30大部分对应于图2中示出的DSP30,并且这两个图中的对应的特征由相同的参考数字指示,并且将不在本文中进一步描述。
因此,如图2中,来自一个或多个麦克风18的信号被发送到缓冲器38和触发检测块40,该触发检测块检测该信号是否包含代表口语触发短语的数据。控制块42从触发检测块30接收输出信号TPD且响应于那个信号来控制时钟44,且经由缓冲器控制块46控制缓冲器38的有顺序的读和写。缓冲器38的读输出Bout被传递到语音增强块48。语音增强块48的自适配功能通过开关装置50控制,该开关装置通过控制块42致动。在增强块48中发生的处理的速率通过来自时钟44的输出控制。语音增强块的输出Sout通过第二开关装置52控制,该第二开关装置也通过控制块42致动。同步信号TPsync可以与Sout数据信号并行被发送或被嵌入到与Sout数据信号相同的信道内。
在图8中示出的实施方案中,该系统特别适合于在包含一个媒体回放源诸如图1中描绘的信号源24的设备中使用。来自信号源24的信号Spb被应用到扬声器22以生成引起听者注意的声音。DSP30还包括声学回声消除(AEC)块56,该声学回声消除块被连接以接收信号Spb,且适于生成一个回声消除信号,该回声消除信号意在被添加到从麦克风输入的信号以消除其中的任何回声成分。它是被用作为如上面描述的输入Bin的作为结果的信号。
AEC块56是自适配的,且因此它的参数响应于它接收的信号而被调节。然而,在此例示的实施方案中,在增强处理块48的初始适配期间,或当从增强处理块48输出增强的数据时,或这二者时,通过控制块42生成禁用信号“AECdis”。
当禁用信号AECdis是激活的时,开关58被断开,且因此当增强处理块48在适配于Bout信号和/或处理它时,防止或减慢声学回声消除块56的适配。这仍然允许通过AEC块56执行声学回声消除,但是它暂停该块的参数对声学环境的适配。这具有避免可能由经历适配的AEC块56导致的语音路径中的任何伪像的优点。
将理解的是,此实施方案还可以包括局部触发检测块54的存在,该局部触发检测块以与参考图5、图6和图7所描述的方式大致相同的方式起作用。
图9示出了图1中的DSP30的系统的又一个实施方案。图9中示出的DSP30大部分对应于图5中示出的DSP30,并且这两个图中的对应的特征由相同的参考数字指示,并且将不在本文中进一步描述。
如图9中示出的,DSP30对于存在多个麦克风18、20的情况是特别有用的,所述多个麦克风直接地或间接地产生相应的输入信号Bin1,…,BinN,且这些信号被传递到循环缓冲器38、第一触发检测块70和第二触发检测块72。
如参考图2所描述的,输入数据可以被连续地发送到缓冲器38、第一触发检测块70和第二触发检测块72,或可以提供一个信号活动检测块,使得仅当确定输入信号包含某个最小信号活动时,数据才被发送到缓冲器38、第一触发检测块70和第二触发检测块72或由缓冲器38、第一触发检测块70和第二触发检测块72接收或处理。换句话说,在一些实施方案中,信号活动检测块(未例示)可以导致缓冲器和触发检测块二者都被去激活,除非在输入信号中检测到至少某个最小信号活动。在一些实施方案中,信号活动检测块可以导致触发检测块被去激活,除非在输入信号中检测到至少某个最小信号活动,但是保持缓冲器激活以连续地缓冲输入信号。连续地缓冲输入信号可以允许在信号活动检测器的响应时间期间到达的输入信号数据被保存用于稍后使用,例如,以允许触发短语检测使用甚至此最早的数据。
第一触发检测块70使用相对宽松的检测标准来检测接收数据是否包含代表口语触发短语的数据,意味着第一触发检测块70具有非常高的识别到数据中的触发短语的可能性,但是具有对应地较高的误报(false positive)(换言之,检测到事实上未说的触发短语的存在)的风险。第二触发检测块72也检测接收数据是否包含代表口语触发短语的数据,但是使用相对严格的检测标准,意味着,第二触发检测块72具有较低的产生误报检测的风险。第一触发检测块与第二触发检测块相比可以不那么复杂,且因此当激活时可以消耗较少的功率和/或计算密集性较少。第二触发检测块可以仅在第一触发检测块已经检测到可能的触发短语之后被激活。
来自所有麦克风的信号Bin1,…,BinN可以被传递到第一触发检测块70,但是可以优选的是仅选择麦克风18、20中的一个,且仅供应对应的输入信号到第一触发检测块70。待被选择的麦克风可以被预先指定且被硬连线或被传递通过具有固定的控制输入值的选择器74。替代地,在使用中可以通过未例示的某个附加的电路系统选择麦克风,例如,先前接收最响的话音输入的麦克风、或(借助于某个低频轮询)最近接收最多信号活动的麦克风、或基于如通过某个其他传感器检测的主机设备的定向。
在此例示的实施方案中,语音增强块48表现为波束形成器的形式,该波束形成器从多个麦克风源(其可以有利地是至少有些方向性的,且位于主机设备上使得它们检测来自不同方向的声音)接收数据,且以输入信号的选择和/或组合的形式生成一个输出信号。可以例如通过将不同的权重和定相应用到输入信号来从输入信号获得该输出信号。因此,在中等嘈杂的环境中,输出信号可以加强来自通常指向说话人的一个或多个麦克风的信号,且可以抑制来自指向一个背景噪声源的一个或多个麦克风的信号,以产生一个具有比单独使用任何单个的所述麦克风可实现的更高的信噪比的输出信号。波束形成器也可以将相对时间延迟应用到从麦克风源接收的信号。来自被定向成使得声学信号以某个相对时间延迟到达单独的麦克风的声音源的信号将在应用一个补偿时间延迟且然后将所述信号加起来时增强。来自被定向成使得声学信号以某个时间延迟反相到达单独的麦克风的声音源的信号将在应用一个补偿时间延迟且然后将所述信号加起来时消除,因此对如此定向的声音源提供空值响应。例如,可以将来自移动电话的正面上的两个或更多个麦克风的信号加起来以提供正交于该电话的正面的峰值响应,在当用户注视该电话时用户的声音可能来自的方向上,且以与该电话的面成使背景噪声可能来自用户的头部后面的角度提供空值。通过更改应用到这些麦克风信号的相对延迟,峰值响应的方向可以被调节以更好地与用户的实际方向对齐。
在适配的延迟的值被令人满意地收敛之前,此调节可能需要基于实际接收到的信号在可能地大约一秒的时间跨度期间的适配。对于具有更多个麦克风的系统,每个的相对延迟和权重可以被适配。在一些实施方案中,麦克风中的一些或所有可以被设计具有一个蓄意的方向性以补充由数字处理提供的方向性以有助于来自预期方向的声音的接收。此适配的过程,在本文中也被称为“训练”增强块,是基于采样的音频数据来优化滤波器和其他算法分量的系数的过程。在呈波束形成器的形式的增强块的情况下,训练或适配配置例如波束形成器的方向性。通过使用来自多个麦克风的音频数据来训练算法,可能识别语音源且配置波束形成器的滤波器,使得它们增强来自最响的语音源的方向的音频内容且使来自其他源的音频衰减。
图10示出了图9中示出的系统的操作的一个实施例,且图11是示出执行的过程的流程图。图7中示出的过程从步骤152开始,在步骤152中,在麦克风18、20接收的声学信号被转换为代表检测到的声音的数字电信号Bin1,…,BinN。在步骤154中,这些麦克风信号中的一个或多个被存储在缓冲器38内。图10中的标注Bin的轴示出了在任何给定时间接收和写到缓冲器38内的数据。可以通过由麦克风18记录的增大超过一个阈值的声音水平来激活将数据写到缓冲器38的开始。在其他实施方案中,缓冲器38可以连续地写。随着在图10中示出的时间推移,缓冲器38包含预数据(PD)、触发短语数据(TP)和四个命令字数据段(C、C2、C3、C4),所述预数据代表在用户开始说预定义的触发短语之前通过缓冲器38记录的数据。
如图11的步骤156中示出的,第一触发检测块70连续地试图在一个或多个接收的信号中检测触发短语的选定部分。在此实施例中,触发短语的选定部分是整个触发短语,尽管在其他实施方案中,触发短语的选定部分可以仅是触发短语的一部分,例如,仅是触发短语的第一半部或一小部分,以允许更迅速的响应,或触发短语的第二半部或一小部分,以通过某个在前的更一般的信号活动检测器,允许触发短语检测器的激活中的延迟。第一触发检测块70不可避免地具有有限的处理时间,且因此实际上在时间TTPD1处通过第一触发检测块70检测到触发短语的选定部分的结束且由输出TPD1标记(图10),时间TTPD1在代表触发短语的选定部分(在此实施例中整个触发短语)的数据在TPh处结束之后一个时间间隔Tdd。
如上文所提及的,第一触发检测块70使用相对宽松的检测标准进行它的检测,意味着,它具有非常高的识别到数据中的触发短语的可能性,但是具有重大的误报的风险。
通过第一触发检测块70的检测启动了许多过程。首先,缓冲器38的输出Bout被激活,且缓冲器38的读指针R被设定以从自写箭头W的当前位置在时间上退后某个数量的数据点起读。因此,从时间TTPD1,缓冲器的输出开始输出先前存储的数据:从某个时间TS起的数据,比如说时间TS等于TPhs
在时间TTPD1处,缓冲器38将包含从某个先前时间TBS1(取决于缓冲器的大小)直到TTPD1读的数据。实际上,触发短语的确切持续时间将不是预先已知的,因此为了确保读出的数据包含代表触发短语的所有数据(如图10中的Bin线中的TP示出的),可以读出从TBS1直到TTPD1的所有数据。
然而,在一些实施方案中,第一触发检测块70可以递送以下中的至少一个的良好估计:(a)触发短语的实际结束的时间TPh;或(b)触发短语实际开始的时间TPhs。如图10中例示的,在线Bout上读出的数据因此可以从等于TPhs的时间TS持续到等于TPh的时间TF。因此,在训练语音增强块48中实际使用的数据包含代表触发短语的所有数据(如图10中的Bin线中的TP示出的)且不包含之前的或之后的非触发短语声音数据。
其次,局部触发短语的检测导致控制块42或许通过控制时钟线CK或某个控制线(未例示)来激活增强块48且激活如通过由命令线“Adapt”控制的开关装置50代表的增强块48的适配,如图10中示出的(虽然此开关表现为特殊的程序流的形式,而不是物理开关)。因此,在图11中示出的过程的步骤158中,此命令激活增强块48以开始它的适配。这意味着,使增强块48的参数迭代地适配,使得它们收敛到优选值上,如图10中在标注“Coeff”的轴上示出的。此收敛通常花费一秒的数量级的一段时间。
如上文所讨论的,在此实施例中,增强块48可以是波束形成器,且因此适配的过程涉及选择应用到多个麦克风信号的权重和定相,以生成具有较高信噪比的输出信号。
例如,波束形成器适配算法可以连续地追踪最响的类似话音的信号,以使得波束总是指向此信号。因此,有利的是,用来使波束形成器适配的数据仅包括最可能被用户说的已知的触发短语,而不是也包括在该触发短语之前或之后出现的其他声音,所述其他声音可能包括例如来自其他人或来自附近的电视或公共广播系统的背景语音,该算法可能错误地试图将波束引导朝向所述其他声音。此外,该适配可以被优化朝向触发短语(例如,关于它的可能的频谱)以帮助拒绝同时发生的背景噪声。此外,不处理不相干的采样避免了消耗不必要的功率且可以降低最大处理速度要求。此外,处理时间的任何减少可以减少在过渡时期对连续缓冲的需要,且任何预数据(PD)的早期丢弃可以减少缓冲大小要求。
触发短语或其部分的第一检测还提示控制块42发送命令“Turbo”到时钟控制器44。此“Turbo”命令导致时钟控制器44以比输入数据Bin的采样时钟速率更高的时钟速率生成一个时钟信号。这导致以比实时更快(换言之,比将数据写到缓冲器38的时钟速率更快)的时钟速率从缓冲器38读数据。
从此点向前,从缓冲器38连续地读数据(至少直到确定用户已经停止说话为止)。如可以从图10看到的,保持读缓冲器38的速率比实时更高直到缓冲器38的读箭头R在时间TTA处大体上赶上写箭头W为止。这意味着,至此开始,被输入到缓冲器38内的数据在基本上相同时间被输出。
整个触发短语的结束发生在时间TPh处。第一触发检测块70具有有限的处理时间,且因此实际上在时间TTPD1处通过触发检测块70检测到整个触发短语的结束,时间TTPD1在代表触发短语或其选定部分的数据在TPh处结束之后一个时间间隔Tdd。
如上文所提及的,在读出于检测到触发短语之前的周期期间存储在缓冲器38内的数据的一部分的时间期间使增强块48的参数或系数适配。在图10中示出的实施例中,读出的数据包括一直到时间TPh为止的所有数据。然而,还可以在较早的点处停止读出此数据。例如,可以基于增强块48的参数收敛于合适的值上将花费的时间的预期来设定读出数据的持续时间。
在已经读出在时间TPh之前存储的选定数据时(换言之,在时间TP处),命令块42借助于如图9中结合开关50例示的且如图10中在标注“Adapt”的轴上示出的控制信号Adapt使增强块48的参数的进一步适配去激活,如图11的步骤160中示出的。适配的参数然后被存储用于进一步使用。作为一个替代方案,可能控制增强块48的适配,以使得参数的收敛的速率被大大降低。在任一种情况下,这具有的作用是,在增强块48的使用期间不存在参数的突然改变,参数的突然改变可能倾向于对输出的质量产生不利影响。从测试语音识别功能14对增强块48的系数的改变的灵敏度可以经验地导出用于系数的改变的最大可允许速率。
在时间TP处,读箭头R被重置,以使得在那个点之后从缓冲器38读出的数据包含在那个点之前读出的数据的至少一部分。因此,在时间TP之前从缓冲器读的且被用来训练语音增强块48的数据和在时间TP之后从缓冲器读的用于通过语音增强块增强的数据之间存在重叠。
在图10中示出的实施例中,且如图11的步骤162中示出的,读箭头R被重置到时间点TS——其是读箭头R在时间TTPD1处被设定的相同的点,以使得在时间TP之后从缓冲器38读出的数据包含被用来训练语音增强块48的所有数据。在此例示的实施例中,此数据包含整个触发短语TP。然而,取决于语音识别过程的要求,在时间TP之后从缓冲器38读出的数据包含代表触发短语TP的所有数据可能不是必须的,且因此读箭头R可以被重置到任何合适的数据点。
其后,在时间TP之后仍然以比实时更快的速率再次输出来自缓冲器38的数据。
如图10中在线Bout中示出的,其后从初始时间TS开始到时间TF读出的数据是代表触发短语TP的存储在缓冲器38内的数据的一部分,即,从TPhs到TPh(在此例示的实施例中——在其他实施例中读出的数据还可以包括一些更早或更晚的数据)。
如图9中示出的,语音增强块48的输出被供应到第二触发检测块72的输入。因此,在图11中示出的过程的步骤164中,第二触发检测块72对语音增强块48的由从缓冲器38的存储器读出的数据TP产生的输出TP*执行触发检测过程,其中语音增强块48使用冻结的或仅缓慢收敛的系数。
第二触发检测块72可以被配置以使得它检测它接收的数据中代表特定的触发短语的数据的存在,或可以被配置以使得它在特定的说话人说指定的触发短语时检测代表该指定的触发短语的数据的存在。第二触发检测块72被调谐以使得它具有低错误接受率。因此,第二触发检测块72被配置以使得它具有比第一触发检测块70更严格的检测标准。换言之,存在某些输入信号,所述某些输入信号作为包含触发短语而被第一触发检测块70接受,但是作为不包含触发短语而被第二触发检测块72拒绝。
在此实施方案中,第二触发检测块72受益于它对已经经过语音增强块48且因此已经减小了噪声水平的输入信号TP*起作用的事实。减小的噪声水平还可以使在此块中提供更可靠的说话人识别功能可行,不仅为了核实定义的语音短语的存在而且为了核实说它的人的身份。
第二触发检测块72具有有限的处理时间,且因此仅可能确定在时间TTPD2处存在触发短语,时间TTPD2比增强的数据TP*的结束被传递到第二触发检测块72的时间晚时间Tdd2。如果在图11的步骤164中第二触发检测块72发现触发短语存在,则第二触发检测块72发送信号TPD2到控制块42,且该过程行进到步骤166,且代表命令字C、C2、C3、C4的数据被传递通过语音增强块48以生成修改的数据C*、C2*、C3*、C4*。
在时间TPD2处,(或更确切地稍微更晚,例如,为了允许语音增强块48中的任何处理延迟或传播延迟)还从控制块42发送图10中例示的命令SoutEN,以导致在如通过第二开关52示意性例示的线Sout输出从增强块48输出的增强的数据。在图11的步骤168中,此增强的数据Sout作为一个输出传输。
在此实施例中,如图10中例示的,传输的数据最初在第一命令字的潜在的开始时间(即,在TPh处,在触发短语的结束时)从数据C开始。
可以在开关52之前提供一个缓冲器(例如,先进先出缓冲器),以使得增强的数据的第一部分被存储。此FIFO缓冲器的内容然后仅在第二触发检测块72检测到触发短语的存在的情况下才可以被供应到语音识别系统的输出上,否则可以被丢弃。因此,否则丢弃的增强的触发短语数据TP*还可以被传输以使其可用于下游信号处理。在图9中例示了FIFO缓冲器76,但是为了简化起见,图10未例示此工作模式:在例示的模式中FIFO被有效地旁通。
控制块42还可以确定触发短语TP结束且第一命令字开始的点,在这种情况下,它可以生成一个同步信号TPsync以在时间TTPS处(在确定触发短语已经被增强块48处理且因此确定代表第一命令字的修改的数据C*即将开始的时间处)通过控制块42发送。此特征在增强的触发短语数据(例如,从FIFO)被传输的情况下是有用的。
因此,如可以从图10看到的,在标注Sout的轴上,从DSP30输出的数据包括触发短语数据的增强版本(TP*)和四个经处理的命令字数据段(C*、C2*、C3*和C4*)。因此,此输出的数据已经被处理(例如,被传递通过一个波束形成器),使得它可以被语音识别引擎或任何其他语音处理器更容易地或更准确地识别。
因此,在图9中示出的且参考图10和图11描述的实施方案中,使用增强块(诸如,波束形成器)的优点可以被实现,但是在背景声音不包含语音时通过运行该波束形成器不连续地使用功率,且不需要对将在下游被处理的语音信号执行适配(这具有的缺点是,这样的适配可以导致在语音信号中出现伪像,对自动语音识别系统造成困难)。
因为用宽松的标准调谐第一触发检测块70,在实际上没有说触发短语的情况下,第一触发检测块70将识别接收数据中的触发短语是很可能的。因此,当控制块42接收指示第一触发检测块70已经检测到触发短语的信号TPD1时,它监控指示已经通过使用其更严厉的、更严格的检测标准的第二触发短语检测块72检测到触发短语的信号TPD2的到达。如果在从信号TPD1的到达起的预设定的时间内没有生成信号TPD2,则在图11中示出的过程的步骤170中,可以生成一个重置信号,以使得增强块48的参数的适配被停止,且没有数据从增强块输出。
触发短语的接收的确认还可以被用来使该电路系统或设备的其他零件上电,例如,以激活其他处理器核或启用显示屏幕。此外,在一些实施方案中,本地处理器(例如,应用处理器)可以被用来执行一些ASR功能,因此信号TPD可以被用来激活处理器的相关联的零件或将适当的软件加载到它上。
图12示出了图1中的DSP30的系统的又一个实施方案。图12中示出的DSP30大部分对应于图9中示出的DSP30,并且这两个图中的对应的特征由相同的参考数字指示,并且将不在本文中进一步描述。
因此,如图9中,来自多个麦克风18、20的信号被发送到缓冲器38。还存在第一触发检测块70,该第一触发检测块检测它接收的数据是否代表一个预定的触发短语。控制块42接收来自触发检测块40的输出信号TPD1且响应于那个信号来控制从缓冲器38的有顺序的读。缓冲器38的读输出Bout被传递到语音增强块48,该语音增强块可以表现为自适配波束形成器功能的形式或可以至少包括自适配波束形成器功能。语音增强块48的适配被例示为通过开关装置50控制,该开关装置通过控制块42致动。该语音增强块的输出可以被供应到第二触发短语检测块,该第二触发短语检测块在它检测到增强的语音信号中触发短语的存在时发送输出信号TPD2到控制块42。该语音增强块的输出Sout被控制,如通过第二开关装置52例示的,该第二开关装置也通过控制块42致动。同步信号TPsync可以与Sout数据信号并行被发送或被嵌入在与Sout数据信号相同的信道内。
在图12中,提供了第三开关80,用于控制来自缓冲器38的信号是否被传递到语音增强块48。
此外,提供了信号活动检测块82,用于检测环境噪声水平,且用于生成和发送控制信号到触发短语检测块和控制块42。除了识别沉默或几近沉默之外,信号活动检测块82还表征环境噪声以证实下游语音识别是否会是可能的,且如果是可能的,则证实语音增强是否将在执行语音识别之前提供显著的益处。此表征可以例如使用仅来自多个麦克风中的一个的信号(诸如,Bin1)。该表征可以在一个相当长的时段内进行,其中应用显著的时间迟滞以使得短的沉默间隔或突然的尖锐噪声不导致采取不适当的行动。
信号活动检测块82检测环境噪声是否落入四种类别之一。
如果存在沉默,则下游语音识别系统可以被掉电,由于不存在让它识别的东西,因此可以发送合适的控制信号到它。此外,在一些实施方案中,触发短语检测块可以被掉电或被放置于低功率状态直到一个可用的信号出现为止。
如果噪声水平是低的,则语音识别应很好地工作,因此至少第一触发检测块是激活的,但是语音增强是不必要的且因此增强块可以被旁通且被去激活。还可能期望使至少一些麦克风去激活,节省它们将消耗的功率。
如果噪声水平是非常高的,则语音识别将不会很好地工作,甚至与语音增强一起也不会很好地工作,且因此可以发信号通知语音识别系统以进入低功率状态或掉电。
在中级噪声水平,语音识别将工作,且因此至少第一触发检测块可以是激活的(同时第二触发检测器可以是激活的或可以响应于第一触发检测事件而被激活)。此外,语音增强可能改进下游语音识别的操作,且因此可以使增强块进入以下状态:在该状态中,它是响应于触发短语检测事件(例如,在波束形成器的情况下,从多个麦克风接收信号)可启用的。
关于以图9的DSP为基础的DSP描述了信号活动检测器的操作。类似的操作和控制也可能联合上文公开的其他DSP实施方案。
这些可以被总结如下:
Figure BDA0001081959230000271
(*)响应于上游触发短语检测可启用。
如上文所提及的,信号活动的实际开始和通过信号活动检测块对它的检测之间可能存在时间延迟。如果第一信号实际上是说触发短语的用户,且如果第一触发检测器最初被禁用,则第一触发检测器可能漏掉口语触发短语的开始且未能检测到它。因此,第一触发短语检测器的输入可以表现为通过来自控制块42的一个单独的地址指针控制的缓冲器38的输出的形式,因此恢复延迟的数据流以允许信号活动检测中的延迟。
替代地,可以优选的是,保持第一触发检测器与信号活动检测器永久地并行启用。因为它是一个简单的检测器,所以它可能不消耗很多功率。然而,语音增强块的旁通和禁用仍然可以通过信号活动块控制。
因此,提供了一种在维持系统的低功率操作的同时允许输出增强的数据的语音处理系统。
本领域技术人员将认识到,上文所描述的装置和方法的一些方面(例如,通过处理器执行的计算)可以体现为处理器控制代码,例如,在非易失性载体介质(诸如,磁盘、CD-ROM或DVD-ROM、程序化存储器诸如只读存储器(固件))上或在数据载体(诸如,光学信号载体或电信号载体)上。对于许多应用,本发明的实施方案将被实施在DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上。因此,代码可以包括常规程序代码或微代码或例如用于设立或控制ASIC或FPGA的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如,可再编程逻辑门阵列)的代码。类似地,代码可以包括用于硬件描述语言(诸如,VerilogTM或VHDL(超高速集成电路硬件描述语言))的代码。如本领域技术人员将理解,代码可以被分布在彼此通信的多个耦合的部件之间。在适当的情况下,还可以使用在现场可(再)编程模拟阵列或类似的设备上运行以配置模拟硬件的代码来实施所述实施方案。
应注意,上文提及的实施方案是例示本发明而不是限制本发明,并且在不偏离随附权利要求的范围的情况下,本领域技术人员将能够设计许多替代实施方案。词语“包括”不排除除了在权利要求中列出的那些元件或步骤之外的元件或步骤的存在,“一”或“一个”不排除多个,并且单个特征或其他单元可以实现权利要求中列举的若干个单元的功能。词语“放大”也可以意指“衰减”,即,减少以及增加且反之亦然,且词语“加上”也可以意指“减去”,即,减少以及增加且反之亦然。权利要求中的任何参考数字或参考标注不应被解释为对所述权利要求范围的限制。

Claims (31)

1.一种处理代表语音的接收数据的方法,包括:
存储该接收数据;
检测代表一个触发短语的数据在该接收数据中的存在;
响应于所述检测,将代表该触发短语的至少一部分的存储数据的第一部分供应到一个自适配语音增强块;
基于该存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数;
将该存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,以形成增强的存储数据,其中该存储数据的第二部分与该存储数据的第一部分重叠;
检测代表该触发短语的数据在该增强的存储数据中的存在;以及
响应于检测到代表该触发短语的数据在该增强的存储数据中的存在,从该语音增强块输出增强的语音数据以用于进一步处理;
其中借助于第一触发短语检测块来执行检测代表该触发短语的数据在该接收数据中的存在;且
其中借助于第二触发短语检测块来执行检测代表该触发短语的数据在该增强的存储数据中的存在,且其中该第二触发短语检测块用与该第一触发短语检测块不同的检测标准进行操作。
2.根据权利要求1所述的方法,包括:响应于未能检测到代表该触发短语的数据在该增强的存储数据中的存在,重置该第一触发短语检测块。
3.根据权利要求1或2所述的方法,其中该第二触发短语检测块用比该第一触发短语检测块更严格的检测标准进行操作。
4.根据权利要求1或2所述的方法,包括:
接收并且存储来自多个麦克风的数据;
将从所述麦克风的一个子集接收到的数据供应到该第一触发短语检测块,以用于检测代表该触发短语的数据在接收自所述麦克风的所述子集的数据中的存在;
响应于所述检测,将代表该触发短语的至少一部分的、来自所述多个麦克风的存储数据的第一部分供应到该自适配语音增强块;
基于来自所述多个麦克风的存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数;以及
将来自所述多个麦克风的存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,以形成所述增强的存储数据。
5.根据权利要求4所述的方法,其中该语音增强块是一个波束形成器。
6.根据权利要求1或2所述的方法,其中该存储数据的第一部分是从第一定义的开始点起存储的数据。
7.根据权利要求6所述的方法,其中该存储数据的第二部分是从第二定义的开始点起存储的数据,且该第二定义的开始点晚于该第一定义的开始点。
8.根据权利要求1或2所述的方法,包括将该存储数据的第二部分供应到该语音增强块,并且以比实时更高的速率从该语音增强块输出增强的语音数据。
9.根据权利要求8所述的方法,包括将该存储数据的第二部分供应到该语音增强块,并且以比实时更高的速率从该语音增强块输出增强的语音数据,直到被供应的数据与被存储的数据大体上时间对齐为止。
10.一种语音处理器,包括:
一个输入,用于接收代表语音的数据;以及
一个语音处理块,
其中该语音处理器被配置为执行根据权利要求1到9中的任一项所述的方法。
11.一种语音处理器,包括:
一个输入,用于接收代表语音的数据;以及
一个输出,用于连接到一个语音处理块,
其中该语音处理器被配置为执行根据权利要求1到9中的任一项所述的方法。
12.一种移动设备,包括根据权利要求10或11所述的语音处理器。
13.一种计算机程序产品,包括计算机可读代码,用于导致一个处理设备执行根据权利要求1到9中的任一项所述的方法。
14.一种处理代表语音的接收数据的方法,包括:
存储该接收数据;
检测代表第一触发短语的数据在该接收数据中的存在;
响应于所述检测,将代表该第一触发短语的至少一部分的存储数据的第一部分供应到一个自适配语音增强块;
基于该存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数;
将该存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,其中该存储数据的第二部分与该存储数据的第一部分重叠;以及
从该语音增强块输出增强的语音数据。
15.根据权利要求14所述的方法,其中该第一触发短语是整个触发短语的一部分,该方法包括试图检测该整个触发短语,且
还包括如果检测到该整个触发短语,则将该存储数据的第二部分供应到该自适配语音增强块。
16.根据权利要求14所述的方法,其中该存储数据的第一部分是从第一定义的开始点起存储的数据。
17.根据权利要求16所述的方法,其中该存储数据的第二部分是从第二定义的开始点起存储的数据,且该第二定义的开始点晚于该第一定义的开始点。
18.根据权利要求14、16和17中的一项所述的方法,其中该存储数据的第二部分包括代表整个触发短语的至少一部分的数据。
19.根据权利要求14所述的方法,还包括将来自该语音增强块的输出的增强的语音数据发送到一个语音识别引擎。
20.根据权利要求19所述的方法,包括在单个设备内将来自该语音增强块的该输出的增强的语音数据发送到该语音识别引擎。
21.根据权利要求14到17之一所述的方法,包括将该存储数据的第二部分供应到该语音增强块,并且以比实时更高的速率从该语音增强块输出增强的语音数据。
22.根据权利要求21所述的方法,包括将该存储数据的第二部分供应到该语音增强块,并且以比实时更高的速率从该语音增强块输出增强的语音数据,直到被供应的数据与被存储的数据大体上时间对齐为止。
23.根据权利要求14到17之一所述的方法,还包括对接收的语音数据执行第二自适配语音增强。
24.根据权利要求23所述的方法,还包括在训练该语音增强块的同时禁止该第二自适配语音增强的适配。
25.根据权利要求24所述的方法,还包括在训练该语音增强块之后重新开始该第二自适配语音增强的适配。
26.根据权利要求23所述的方法,其中该第二自适配语音增强是声学回声消除。
27.根据权利要求15所述的方法,其中该存储数据的第二部分包括代表该整个触发短语的至少一部分的数据。
28.一种语音处理器,包括:
一个输入,用于接收代表语音的数据;以及
一个语音处理块,
其中该语音处理器被配置为执行根据权利要求14到27中的任一项所述的方法。
29.一种语音处理器,包括:
一个输入,用于接收代表语音的数据;以及
一个输出,用于连接到一个语音处理块,
其中该语音处理器被配置为执行根据权利要求14到27中的任一项所述的方法。
30.一种移动设备,包括根据权利要求28或29所述的语音处理器。
31.一种计算机程序产品,包括计算机可读代码,用于导致一个处理设备执行根据权利要求14到27中的任一项所述的方法。
CN201480075790.8A 2013-12-18 2014-12-17 话音命令触发的语音增强 Active CN106030706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010286430.XA CN111508515A (zh) 2013-12-18 2014-12-17 话音命令触发的语音增强

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1322349.0 2013-12-18
GB1322349.0A GB2523984B (en) 2013-12-18 2013-12-18 Processing received speech data
PCT/GB2014/053738 WO2015092400A1 (en) 2013-12-18 2014-12-17 Voice command triggered speech enhancement

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010286430.XA Division CN111508515A (zh) 2013-12-18 2014-12-17 话音命令触发的语音增强

Publications (2)

Publication Number Publication Date
CN106030706A CN106030706A (zh) 2016-10-12
CN106030706B true CN106030706B (zh) 2020-05-05

Family

ID=50070964

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201480075790.8A Active CN106030706B (zh) 2013-12-18 2014-12-17 话音命令触发的语音增强
CN202010286430.XA Pending CN111508515A (zh) 2013-12-18 2014-12-17 话音命令触发的语音增强

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202010286430.XA Pending CN111508515A (zh) 2013-12-18 2014-12-17 话音命令触发的语音增强

Country Status (5)

Country Link
US (3) US9779726B2 (zh)
KR (1) KR102327476B1 (zh)
CN (2) CN106030706B (zh)
GB (5) GB2523984B (zh)
WO (1) WO2015092400A1 (zh)

Families Citing this family (205)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9689960B1 (en) * 2013-04-04 2017-06-27 Amazon Technologies, Inc. Beam rejection in multi-beam microphone systems
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US11087379B1 (en) 2015-02-12 2021-08-10 Google Llc Buying products within video content by voice command
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
WO2016161641A1 (zh) * 2015-04-10 2016-10-13 华为技术有限公司 语音识别方法、语音唤醒装置、语音识别装置及终端
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10452339B2 (en) * 2015-06-05 2019-10-22 Apple Inc. Mechanism for retrieval of previously captured audio
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
KR102476600B1 (ko) 2015-10-21 2022-12-12 삼성전자주식회사 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10074364B1 (en) * 2016-02-02 2018-09-11 Amazon Technologies, Inc. Sound profile generation based on speech recognition results exceeding a threshold
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
FR3054362B1 (fr) * 2016-07-22 2022-02-04 Dolphin Integration Sa Circuit et procede de reconnaissance de parole
US10431211B2 (en) * 2016-07-29 2019-10-01 Qualcomm Incorporated Directional processing of far-field audio
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10158902B2 (en) * 2016-09-26 2018-12-18 Amazon Technologies, Inc. Streaming and storing video for audio/video recording and communication devices
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
WO2018097969A1 (en) * 2016-11-22 2018-05-31 Knowles Electronics, Llc Methods and systems for locating the end of the keyword in voice sensing
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN108632439B (zh) * 2017-03-23 2020-07-10 北京小唱科技有限公司 一种移动终端和音频接收设备的通信方法和装置
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10311870B2 (en) * 2017-05-10 2019-06-04 Ecobee Inc. Computerized device with voice command input capability
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10204624B1 (en) * 2017-08-14 2019-02-12 Lenovo (Singapore) Pte. Ltd. False positive wake word
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10546581B1 (en) * 2017-09-08 2020-01-28 Amazon Technologies, Inc. Synchronization of inbound and outbound audio in a heterogeneous echo cancellation system
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
US10110994B1 (en) * 2017-11-21 2018-10-23 Nokia Technologies Oy Method and apparatus for providing voice communication with spatial audio
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10601599B2 (en) 2017-12-29 2020-03-24 Synaptics Incorporated Voice command processing in low power devices
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
EP3680895B1 (en) * 2018-01-23 2021-08-11 Google LLC Selective adaptation and utilization of noise reduction technique in invocation phrase detection
KR102629385B1 (ko) 2018-01-25 2024-01-25 삼성전자주식회사 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10861462B2 (en) 2018-03-12 2020-12-08 Cypress Semiconductor Corporation Dual pipeline architecture for wakeup phrase detection with speech onset detection
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11417351B2 (en) * 2018-06-26 2022-08-16 Google Llc Multi-channel echo cancellation with scenario memory
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
KR102040406B1 (ko) * 2018-07-27 2019-11-05 (주)휴맥스 스마트 디바이스 및 그 제어 방법
US10575085B1 (en) * 2018-08-06 2020-02-25 Bose Corporation Audio device with pre-adaptation
CN108986833A (zh) * 2018-08-21 2018-12-11 广州市保伦电子有限公司 基于麦克风阵列的拾音方法、系统、电子设备及存储介质
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10878811B2 (en) * 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10861444B2 (en) * 2018-09-24 2020-12-08 Rovi Guides, Inc. Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) * 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10811032B2 (en) 2018-12-19 2020-10-20 Cirrus Logic, Inc. Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11380312B1 (en) * 2019-06-20 2022-07-05 Amazon Technologies, Inc. Residual echo suppression for keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
KR20210055347A (ko) 2019-11-07 2021-05-17 엘지전자 주식회사 인공 지능 장치
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
CN112188341B (zh) * 2020-09-24 2024-03-12 江苏紫米电子技术有限公司 一种耳机唤醒方法、装置、耳机及介质
US11657814B2 (en) * 2020-10-08 2023-05-23 Harman International Industries, Incorporated Techniques for dynamic auditory phrase completion
CN112233673A (zh) * 2020-10-10 2021-01-15 广东美的厨房电器制造有限公司 厨房系统的控制方法、厨房系统和计算机可读存储介质
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11783826B2 (en) * 2021-02-18 2023-10-10 Nuance Communications, Inc. System and method for data augmentation and speech processing in dynamic acoustic environments
CN113281727B (zh) * 2021-06-02 2021-12-07 中国科学院声学研究所 一种基于水平线列阵的输出增强的波束形成方法及其系统

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
US6604071B1 (en) * 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity
JP3910898B2 (ja) 2002-09-17 2007-04-25 株式会社東芝 指向性設定装置、指向性設定方法及び指向性設定プログラム
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems
CN100392723C (zh) * 2002-12-11 2008-06-04 索夫塔马克斯公司 在稳定性约束下使用独立分量分析的语音处理系统和方法
US7698136B1 (en) * 2003-01-28 2010-04-13 Voxify, Inc. Methods and apparatus for flexible speech recognition
DE10339973A1 (de) * 2003-08-29 2005-03-17 Daimlerchrysler Ag Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US20070140471A1 (en) * 2004-01-20 2007-06-21 Koninklijke Philips Electronics N.V. Enhanced usage of telephone in noisy surroundings
US7624018B2 (en) * 2004-03-12 2009-11-24 Microsoft Corporation Speech recognition using categories and speech prefixing
CN1965218A (zh) * 2004-06-04 2007-05-16 皇家飞利浦电子股份有限公司 交互式语音识别系统的性能预测
JP5260561B2 (ja) * 2007-03-19 2013-08-14 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚モデルを使用した音声の強調
CN101281745B (zh) * 2008-05-23 2011-08-10 深圳市北科瑞声科技有限公司 一种车载语音交互系统
US8566088B2 (en) * 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
US20100225461A1 (en) * 2009-03-05 2010-09-09 Raja Singh Tuli Apparatus and method for detection of a specified audio signal or gesture
US9049503B2 (en) 2009-03-17 2015-06-02 The Hong Kong Polytechnic University Method and system for beamforming using a microphone array
US8386251B2 (en) * 2009-06-08 2013-02-26 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
EP3610918B1 (en) * 2009-07-17 2023-09-27 Implantica Patent Ltd. Voice control of a medical implant
US8311820B2 (en) * 2010-01-28 2012-11-13 Hewlett-Packard Development Company, L.P. Speech recognition based on noise level
EP2664062B1 (en) * 2011-01-14 2015-08-19 Huawei Technologies Co., Ltd. A method and an apparatus for voice quality enhancement
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
CN102831898B (zh) * 2012-08-31 2013-11-13 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
US9972322B2 (en) * 2016-03-29 2018-05-15 Intel Corporation Speaker recognition using adaptive thresholding

Also Published As

Publication number Publication date
US10755697B2 (en) 2020-08-25
GB2582461A (en) 2020-09-23
GB201322349D0 (en) 2014-02-05
US20170358294A1 (en) 2017-12-14
US20160322045A1 (en) 2016-11-03
GB2523984A (en) 2015-09-16
US9779726B2 (en) 2017-10-03
GB202014524D0 (en) 2020-10-28
CN111508515A (zh) 2020-08-07
GB2582461B (en) 2021-06-09
GB2536836B (en) 2020-07-01
GB201612379D0 (en) 2016-08-31
GB2584379A (en) 2020-12-02
GB202014523D0 (en) 2020-10-28
GB2523984B (en) 2017-07-26
US20190251954A1 (en) 2019-08-15
GB2584264A (en) 2020-11-25
GB2536836A (en) 2016-09-28
GB2584264B (en) 2021-06-09
KR20160099636A (ko) 2016-08-22
GB202006209D0 (en) 2020-06-10
US10319372B2 (en) 2019-06-11
GB2584379B (en) 2021-06-09
CN106030706A (zh) 2016-10-12
WO2015092400A1 (en) 2015-06-25
KR102327476B1 (ko) 2021-11-16

Similar Documents

Publication Publication Date Title
US10755697B2 (en) Voice command triggered speech enhancement
US10102853B2 (en) Monitoring and activating speech process in response to a trigger phrase
US20220093108A1 (en) Speaker identification
US9324322B1 (en) Automatic volume attenuation for speech enabled devices
US11437021B2 (en) Processing audio signals
US20140278394A1 (en) Apparatus and Method for Beamforming to Obtain Voice and Noise Signals
GB2608710A (en) Speaker identification
US20180174574A1 (en) Methods and systems for reducing false alarms in keyword detection
CN112218198A (zh) 便携式设备及其操作方法
US20190355380A1 (en) Audio signal processing
US11894000B2 (en) Authenticating received speech
US20200202843A1 (en) Unwanted keyword detection abatement systems and methods
KR102493866B1 (ko) 디지털 마이크로폰을 가진 오디오 시스템
EP3900389A1 (en) Acoustic gesture detection for control of a hearable device
US11776538B1 (en) Signal processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant