CN109564762A - 远场音频处理 - Google Patents

远场音频处理 Download PDF

Info

Publication number
CN109564762A
CN109564762A CN201780044749.8A CN201780044749A CN109564762A CN 109564762 A CN109564762 A CN 109564762A CN 201780044749 A CN201780044749 A CN 201780044749A CN 109564762 A CN109564762 A CN 109564762A
Authority
CN
China
Prior art keywords
audio signal
signal
sound
treated
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780044749.8A
Other languages
English (en)
Inventor
金莱轩
E·维瑟
A·穆罕默德
I·E·刘
江叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN109564762A publication Critical patent/CN109564762A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种设备包含多个麦克风,以基于远场声学环境的声音生成音频信号。所述设备还包含信号处理系统,用于处理所述音频信号以生成至少一个处理后的音频信号。所述信号处理系统被配置成在以第一操作模式操作时更新一或多个处理参数,并且被配置成在以第二操作模式操作时使用所述一或多个处理参数的静态版本。所述设备进一步包含关键字检测系统,用于基于所述至少一个处理后的音频信号执行关键字检测,以确定所述声音是否包含对应于关键字的话语,并且基于所述关键字检测的结果向所述信号处理系统发送控制信号,以改变所述信号处理系统的操作模式。

Description

远场音频处理
优先权要求
本申请主张2016年7月29日提交的题为“远场音频处理(FAR-FIELD AUDIOPROCESSING)”的共同拥有的美国临时专利申请第62/368,499号和2016年12月21日提交的题为“远场音频处理(FAR-FIELD AUDIO PROCESSING)”的美国非临时专利申请第15/387,411号的优先权,上述申请中的每一个的内容通过引用整体明确地并入本文。
技术领域
本公开一般涉及处理远场声学环境的声音。
背景技术
技术的进步导致了更小、更强大的计算装置。例如,目前存在各种便携式个人计算装置,包含无线电话(例如,移动电话和智能电话)、平板计算机和膝上型计算机,它们小巧、轻便且易于由用户携带。这些装置可以通过无线网络传递语音和数据包。此外,许多此些装置纳入了另外的功能,例如数字静态相机、数字视频相机、数字记录器或音频文件播放器。这些装置中的一些可以处理可执行指令,包含软件应用,例如可以用于访问因特网的网页浏览器应用。因此,这些装置可以包含可观的计算能力。
随着这些装置变得越来越复杂,已经开发出新技术以利用这些装置的计算能力。例如,语音识别(也称为言语识别)技术已被并入到便携式个人计算装置中。语音识别使用户能够通过对计算装置说话来向计算装置提供诸如命令或查询的输入。语音识别使用可观的计算资源,因此需使用可观的电力。因此,对于通常依赖于电池电力的便携式计算装置,已经开发了减少语音识别的电力需求的技术。
例如,语音识别系统可以掉电,直到用户提供输入以使语音识别系统通电。输入可以包含物理输入,例如按压按钮;但是,越来越多的输入包含说出关键字。因此,语音识别可以与关键字检测一起使用,使得用户可以说出关键字以唤醒语音识别系统,然后说出由语音识别系统识别的命令或查询。
关键字检测可以被认为是语音识别的子集;但是,关键字检测是一个更受限制的问题,因此使用更少的处理资源。例如,语音识别系统可以被配置成识别相当不同的语音输入,其可以包含长且非结构化的声音序列,并且被配置成确定对应于语音输入的含义(例如,字)。相反,关键字检测系统可以被配置成检测对应于关键字的特定声音序列(或对应于若干关键字的若干声音序列)。
当与便携式计算装置一起使用时,关键字检测和语音识别的组合可以使用户能够唤醒语音识别系统(使用关键字)并向语音识别系统提供语音输入而不会显著增加便携式计算装置的电力要求。关键字检测和语音识别的组合在便携式计算装置上工作良好的一个原因是此些装置通常非常靠近于用户使用,例如在近场声学环境中。在近场声学环境中,便携式计算装置的麦克风可以非常靠近用户的脸部定位,使得用户的语音(如在麦克风处检测到)比环境声音(例如,噪声)更响亮,从而导致大信噪比(SNR)。另外,在便携式计算装置的背景中通常可以忽略多路径(例如,用户语音的反射声音)。
然而,当使用关键字检测和语音识别的计算装置在远场声学环境中使用时,会出现不同的挑战。例如,计算装置处的SNR可能显著更低,因为计算装置的麦克风可以更远离用户(和/或更靠近噪声源)。另外,相较于用户,麦克风可能更靠近墙壁或其它反射声音源,在这种情况下,反射声音(例如,多路径)可能使处理语音输入具有挑战性。
发明内容
本文描述的特定实施方式有助于在远场环境中处理语音输入(例如,关键字、语音命令等)。例如,一种装置可以包含处理来自多个麦克风的音频信号的信号处理系统。所述装置还可以包含关键字检测系统,其对来自信号处理系统的处理后的音频信号执行关键字检测。关键字检测系统可以基于关键字检测的结果来向信号处理系统提供反馈(例如,控制信号)。例如,信号处理系统可以被配置成在检测到关键字之前以第一操作模式操作,并且在检测到关键字之后以第二操作模式操作(如控制信号所示)。在本实例中,可以优化(或以其它方式配置)第一操作模式以检测来自多个方向的语音输入,以动态地调整参数以考虑改变的声学环境(例如,以调整信号处理参数以考虑嘈杂房间中的变化等),或两者兼而有之。相反,可以优化(或以其它方式配置)第二操作模式以聚焦于从与关键字相同的到达方向接收的声音。在第二操作模式中,信号处理系统还可以或者替代地使用与第一操作模式中的不同的参数来改善对关键字后面的语音输入的检测或识别。
在一个特定实施方式中,一种设备包含多个麦克风以生成多个音频信号,其中所述多个麦克风中的每一个麦克风被配置成基于在麦克风处检测到的远场声学环境的声音来生成所述多个音频信号中的相应音频信号。所述设备还包含信号处理系统,用于处理多个音频信号以生成至少一个处理后的音频信号。所述设备进一步包含关键字检测系统,用于基于至少一个处理后的音频信号来执行关键字检测,以确定声音是否包含对应于关键字的话语,并且基于关键字检测的结果来向信号处理系统发送第一控制信号,以将信号处理系统的操作模式从第一操作模式改变为第二操作模式。响应于检测到与关键字相关联的语音输入的结束,向信号处理系统发送第二控制信号,以使信号处理系统将信号处理系统的操作模式从第二操作模式改变为第一操作模式。
在另一特定实施方式中,一种用于处理远场声学环境的声音的方法包含获得多个音频信号。多个音频信号中的每个音频信号由多个麦克风中的相应麦克风基于在相应麦克风处检测到的远场声学环境的声音来生成。所述方法还包含在信号处理系统处处理多个音频信号以生成至少一个处理后的音频信号,并在关键字检测系统处基于至少一个处理后的音频信号来执行关键字检测,以确定声音是否包含对应于关键字的话语。所述方法进一步包含基于关键字检测的结果来将信号处理系统的操作模式从第一操作模式改变为第二操作模式。所述方法还包含在将信号处理系统的操作模式改变为所述第二操作模式之后并且基于检测到与关键字相关联的语音输入的结束,将信号处理系统的操作模式从第二操作模式改变为第一操作模式。
在另一特定实施方式中,一种用于处理远场声学环境的声音的设备包含用于生成多个音频信号的装置,多个音频信号中的每个音频信号基于远场声学环境的声音来生成。所述设备还包含用于处理多个音频信号以生成至少一个处理后的音频信号的装置,和用于关键字检测以基于至少一个处理后的音频信号来确定声音是否包含对应于关键字的话语的装置。所述设备进一步包含用于改变用于处理多个音频信号的装置的操作模式的装置。用于改变操作模式的装置被配置成基于关键字检测结果来将用于处理多个音频信号的装置的操作模式从第一操作模式改变为第二操作模式。用于改变操作模式的装置还被配置成在将用于处理多个音频信号的装置的操作模式改变为第二操作模式之后,基于检测到与关键字相关联的语音输入的结束,将用于处理多个音频信号的装置的操作模式从第二操作模式改变为第一操作模式。
在另一特定实施方式中,一种非暂时性计算机可读介质存储用于处理远场声学环境的声音的指令。指令可由处理器执行以使处理器执行包含以下的操作:获得多个音频信号。多个音频信号中的每个音频信号由多个麦克风中的相应麦克风基于在相应麦克风处检测到的远场声学环境的声音来生成。所述操作还包含处理多个音频信号以生成至少一个处理后的音频信号,并基于至少一个处理后的音频信号来执行关键字检测,以确定声音是否包含对应于关键字的话语。所述操作进一步包含基于关键字检测的结果来将信号处理系统的操作模式从第一操作模式改变为第二操作模式。所述操作还包含在将信号处理系统的操作模式改变为第二操作模式之后并且基于检测到与关键字相关联的语音输入的结束,将信号处理系统的操作模式从第二操作模式改变为第一操作模式。
在审阅整个申请(包含以下部分:附图说明、具体实施方式和权利要求书)之后,本公开的其它实施方式、优点和特征将变得显而易见。
附图说明
图1是被配置成处理远场声学环境的声音的设备的特定说明性实例的方框图;
图2是示出了图1的设备的特定实施方式的方框图;
图3是示出了图1的设备的另一特定实施方式的方框图;
图4是示出了图1的设备的另一特定实施方式的方框图;
图5是示出了图1的设备的另一特定实施方式的方框图;
图6是示出了图1的设备的另一特定实施方式的方框图;
图7是示出了图1的设备的另一特定实施方式的方框图;
图8是示出了图1的设备的另一特定实施方式的方框图;
图9是示出了图1的设备的特定方面的图;
图10是示出了图1的设备的另一特定方面的图;
图11是示出了图1的设备的另一特定实施方式的方框图;
图12是示出了处理远场声学环境的声音的特定方法的流程图;和
图13是根据图1-12的系统、装置和方法可操作以处理远场声学环境的声音的装置的方框图。
具体实施方式
图1是被配置成处理远场声学环境110的声音的设备100的特定说明性实例的方框图。设备100包含耦合到关键字检测系统122的信号处理系统114。如下面进一步描述,关键字检测系统122被配置成基于关键字检测过程的结果来向信号处理系统114提供控制信号126。控制信号126使信号处理系统114改变信号处理系统114的操作模式。
通常,如本文使用,术语“声学环境”是指设备100周围的物理空间,声音在其中存在并传播。术语“远场”将声学环境110与“近场”声学环境区分开。在近场声学环境中处理声音时,特定目标声音(例如,口头命令或关键字)可能具有显著大于环境声音的幅度,从而导致大信噪比(SNR)。另外,在近场声学环境中,从墙壁或其它物体反射的声音可能具有幅度显著小于目标声音的声音。因此,通常可以忽略反射声音或将其视为噪声。相反,在远场声学环境中,反射声音(例如,目标声音的反射版本)可能具有与目标声音的幅度类似(例如,在几dB内)的幅度。此外,目标声音的SNR在远场声学环境中可能比在近场声学环境中显著更低。特定声学环境是近场声学环境还是远场声学环境取决于一些因素,例如目标声音的频率(或频率范围)、目标声音的幅度以及环境的物理配置或布置等。通常,当目标声音对应于人类语音时,如果目标声音源距离检测目标声音的麦克风约一米以上,则可以将声学环境视为远场声学环境,或者如果目标声音的反射版本难以与目标声音区分(例如,目标声音的能量水平与目标声音的反射版本的能量水平的比率小于阈值)。基于关键字检测来改变信号处理系统114的操作模式使得设备100能够减轻处理来自远场声学环境110的声音108的一些顾虑,如下面进一步描述。
在图1中,设备100包含多个麦克风102,例如第一麦克风104、第二麦克风106、以及一或多个另外的麦克风(未示出)。麦克风102被配置成生成多个音频信号112。例如,多个麦克风102中的每个麦克风可以被配置成基于在麦克风处检测到的远场声学环境110的声音108来生成多个音频信号112中的相应音频信号。举例说明,第一麦克风104可以检测声音108的至少一部分并且可以基于在第一麦克风104处检测到的声音108的部分来生成音频信号112中的第一音频信号。同样地,第二麦克风106可以检测声音108的至少一部分并且可以基于在第二麦克风106处检测到的声音108的部分来生成音频信号112中的第二音频信号。音频信号112可以包含模拟信号、数字信号或两者。例如,如果第一麦克风104是模拟麦克风,则第一麦克风104可以生成模拟音频信号;然而,如果第一麦克风104是数字麦克风(或者如果第一麦克风104包含模拟数字转换器(ADC)电路),则第一麦克风104可以生成数字音频信号。
音频信号112被提供到信号处理系统114。信号处理系统114被配置成处理音频信号112以生成至少一个处理后的音频信号120。例如,如下面进一步说明,信号处理系统114可以使用波束形成、空值形成、噪声消除或其它操作来处理音频信号。信号处理系统114被配置成以至少两种不同的操作模式中的一个操作。例如,当以第一操作模式116操作时,信号处理系统114可以被配置成“监听”(例如,检测)在远场声学环境110中说出的关键字,并且在第二操作模式118中,信号处理系统114可以被配置成在关键字之后“监听”(例如,检测)在远场声学环境110中说出的语音输入。
信号处理系统114当以第一操作模式116操作时可以使用与当以第二操作模式118操作时不同的信号处理参数。例如,如下面更详细描述,第一和第二操作模式116、118可以使用不同的采样率、不同的波束形成器参数、不同的空值形成器参数、不同的噪声消除参数、其它不同的处理参数或其组合。作为另一实例,第一操作模式116可以是自适应模式,第二操作模式可以是静态模式118。举例说明,在第一操作模式16中,信号处理系统114的噪声消除系统可以以自适应模式(例如,通过周期性地或偶尔地更新一组自适应噪声消除参数)操作,并且在第二操作模式118中,噪声消除系统可以以静态模式(例如,通过使用噪声消除参数的静态版本)操作。在一些实施方式中,信号处理系统114当以第一操作模式116操作时可以使用与当以第二操作模式118操作时不同的信号处理子系统。例如,信号处理系统114的波束形成器(图1中未示出)可以在第一操作模式116中是工作的,并且可以在第二操作模式118中是不工作的,或者反之亦然。作为另一实例,信号处理系统114的空值形成器(图1中未示出)可以在第一操作模式116中是工作的,并且可以在第二操作模式118中是不工作的,或者反之亦然。作为又一实例,信号处理系统114的噪声消除系统(图1中未示出)可以在第一操作模式116中是工作的,并且可以在第二操作模式118中是不工作的,或者反之亦然。可替代地或另外地,其它子系统或子系统的组合可以在一种操作模式中是工作的而在另一种操作模式中是不工作的。
在图1中,关键字检测系统122被示出为语音识别系统124的子系统(或其一部分)。在其它实施方式中,关键字检测系统122与语音识别系统124不同。因此,关键字检测系统122可以与语音识别系统124共享至少一些处理资源,如图1所示,或者关键字检测系统122可以使用相较于语音识别系统124不同的处理资源(例如,更低的电力),如图2所示。
关键字检测系统122被配置成基于至少一个处理后的音频信号120来执行关键字检测,以确定声音108是否包含对应于关键字的话语。例如,关键字检测系统122可以使用维特比搜索过程来处理至少一个处理后的音频信号120,以标识对应于关键字的音素的集合(或序列)。当检测到关键字时,关键字检测系统122可以激活语音识别系统124,或者可以以其它方式向语音识别系统124指示已经检测到关键字,使得语音识别系统124做好准备,以处理关键字后面的语音输入。
语音识别系统124被配置成分析处理后的音频信号120以检测关键字后面的语音输入并基于语音输入的内容来发起动作。举例说明,语音输入可以包含执行设备100的功能的命令,并且语音识别系统124可以使设备100执行所述功能。所述功能可以包含软件功能(例如,打开应用、执行搜索、播放媒体内容项等)、硬件功能(例如,打开灯(未示出)或设备100的另一子系统)或其组合(例如,使应用选择可由设备控制的远程装置的控制数据,并使设备的通信接口编码和传输所选择的控制数据)。
另外,基于关键字检测的结果,关键字检测系统122可以向信号处理系统114发送控制信号126。例如,当在处理后的音频信号120中检测到关键字时,关键字检测系统122可以发送控制信号126。控制信号126可以包含与关键字有关的信息(例如,对应于关键字的声音的到达方向)。可替代地或另外地,控制信号126可以通知信号处理系统114改变其操作模式(例如,从第一操作模式116改变为第二操作模式118,或反之亦然)。
在操作中,信号处理系统114可以在第一时间段期间以第一操作模式116操作,在所述第一时间段中没有检测到关键字并且在语音识别系统124处没有接收到语音输入。例如,第一时间段可以对应于设备100正在监测远场声学环境110以检测关键字的待机时段。当以第一操作模式116操作时,信号处理系统114被优化(或以其它方式配置)以在远场声学环境110中检测关键字。例如,在第一操作模式116中,信号处理系统114可以基于远场声学环境110中的环境噪声或干扰,执行自适应信号处理以连续地、周期性地或偶尔地更新信号处理参数。作为另一实例,在第一操作模式116中,信号处理系统114可以使用静态版本的某些信号处理参数,例如波束形成器参数或空值形成器参数,直到确定对应于关键字的声音的到达方向。在本实例中,静态信号处理参数可以有助于将远场声学环境110视为一组相邻或重叠的声音区域(如参考图9和10进一步描述)。因此,选择当以第一操作模式116操作时由信号处理系统114使用的信号处理参数,以改善在远场声学环境110中对关键字的检测。
信号处理系统114可以在第二时间段期间以第二操作模式118操作。第二时间段在检测到关键字时开始,并在检测到关键字后面的语音输入结束时结束。因此,第二时间段可以对应于设备100正在接收和处理语音输入的工作时段。当以第二操作模式118操作时,信号处理系统114被优化(或以其它方式配置)以检测远场声学环境110中的语音输入。例如,在第二操作模式118中,信号处理系统114可以停止更新自适应信号处理参数,并且可以使用在检测到关键字时使用的参数。作为另一实例,在第二操作模式118中,信号处理系统114可以基于对应于关键字的声音的到达方向来修改某些信号处理参数,例如波束形成器参数或空值形成器参数。在本实例中,修改后的信号处理参数可以有助于将语音识别过程聚焦于关键字的源(或多个源)的位置或者从其接收关键字的区或区域。因此,选择当以第二操作模式118操作时由信号处理系统114使用的信号处理参数,以改善在检测到关键字之后对远场声学环境110中的语音输入的识别。
设备100通过从关键字检测系统122向信号处理系统114提供反馈(例如,控制信号126)来有助于远场声学环境110的声音的处理。反馈可以包含指示(或者以其它方式使)信号处理系统114改变操作模式的信号。基于检测到关键字来改变信号处理系统114的操作模式使得信号处理系统114能够使用第一组信号处理参数(或信号处理系统114的第一子系统)来监测远场声学环境110的关键字,并且使用第二组信号处理参数(或信号处理系统114的第二子系统)来接收和处理来自远场声学环境110的语音输入。
图2-4示出了在设备100的其它实施方式中的关键字检测系统122和语音识别系统124的其它布置。例如,如上面在图1中解释,关键字检测系统122被示出为语音识别系统124的子系统或部分。然而,如图2-4所示,关键字检测系统122可以与语音识别系统124不同。
图2示出了图1的设备100的一个特定实施方式,其中关键字检测系统122从信号处理系统114接收处理后的音频信号120并执行关键字检测。在基于处理后的音频信号120检测到关键字之后,关键字检测系统122向语音识别系统124发送处理后的音频信号120的至少一个子集128。处理后的音频信号120的子集128可以包含处理后的音频信号120对应于关键字的部分,或者可以在处理后的音频信号120的对应于关键字的部分后面开始。因此,在图2中,关键字检测系统122和语音识别系统124是设备100的不同系统或部件,并且在关键字检测系统122检测到关键字之后,关键字检测系统122向语音识别系统124提供处理后的音频信号120的至少所述子集128。
除了发送处理后的音频信号120的子集128之外,关键字检测系统122还可以向语音识别系统124发送控制信号130。例如,控制信号130可以使语音识别系统124从待机状态转变为工作状态。可替代地或另外地,控制信号130可以向语音识别系统124提供关于处理后的音频信号120的子集128的信息,例如检测到哪个关键字(哪一组关键字)或处理后的音频信号120的子集128的哪个部分(例如,哪个帧)对应于关键字的开始或结束的指示。
语音识别系统124被配置成处理处理后的音频信号120的子集128以检测关键字后面的语音输入,并基于语音输入的内容来发起动作。另外,在检测到语音输入的结束之后,语音识别系统124可以向关键字检测系统122发送信号132。信号132可以使信号处理系统114改变操作模式。例如,当检测到关键字时,关键字检测系统122可以向信号处理系统114发送控制信号126,并且信号处理系统114可以从以第一操作模式116操作改变为以第二操作模式操作118。在本实例中,当检测到语音输入的结束时,语音识别系统124可以向关键字检测系统122发送信号132。基于信号132,关键字检测系统122可以向信号处理系统114发送第二控制信号126,并且信号处理系统114可以从以第二操作模式118操作改变为以第一操作模式116操作。尽管信号132在图2中被示出为从语音识别系统124发送到关键字检测系统122,但是在其它实施方式中,除了关键字检测系统122以外或取而代之地,可以向设备100的其它子系统或部件发送信号132。举例说明,在一些实施方式中,语音识别系统124向信号处理系统114发送信号132。
图3示出了图1的设备100的另一特定实施方式。在图3中,关键字检测系统122从信号处理系统114接收处理后的音频信号120并执行关键字检测。在基于处理后的音频信号120检测到关键字之后,关键字检测系统122向语音识别系统124发送控制信号130。如上所述,控制信号130可以使语音识别系统124从待机状态转变为工作状态。可替代地或另外地,控制信号130可以向语音识别系统124提供关于处理后的音频信号120的哪个部分(例如,哪个帧)对应于关键字的开始或结束的信息。
语音识别系统124可以从信号处理系统114接收处理后的音频信号120,以检测关键字后面的语音输入,并基于语音输入的内容来发起动作,如上所述。在检测到语音输入的结束之后,语音识别系统124可以向关键字检测系统122(或者向设备100的另一部件或子系统)发送信号132,以使信号处理系统114改变操作模式。
因此,在图3中,关键字检测系统122和语音识别系统124是设备100的不同系统或部件,并且语音识别系统124从信号处理系统114接收处理后的音频信号120。
图4示出了图1的设备100的另一特定实施方式。在图4中,语音识别系统124不是设备100的部件。相反,设备100经由网络136(例如,无线网络、有线网络或混合网络)与语音识别系统124通信。
在图4所示的实施方式中,关键字检测系统122从信号处理系统114接收处理后的音频信号120并执行关键字检测。在基于处理后的音频信号120检测到关键字之后,关键字检测系统122向网络接口134发送控制信号130。
网络接口134可以耦合到信号处理系统114、关键字检测系统122或两者。网络接口134被配置成经由网络136向包含语音识别系统124的语音识别装置发送编码语音输入的信号。例如,在关键字检测系统122检测到关键字之后,关键字检测系统122可以向网络接口134发送控制信号130。基于控制信号130,网络接口134可以编码处理后的音频信号120的至少一个子集以形成数据包138。处理后的音频信号120的经编码的部分可以包含或对应于关键字后面的语音输入。另外,数据包138可以编码控制信号130或基于控制信号130的数据,例如关于由关键字检测系统122检测到的特定关键字的信息。数据包138可以经由网络136被传输到语音识别系统124。
语音识别系统124分析在数据包138中编码的数据,以在处理后的音频信号120中检测关键字后面的语音输入。在检测到语音输入的结束之后,语音识别系统124可以经由网络136向设备100发送一或多个数据包140。数据包140可以使设备100改变信号处理系统114的操作模式。例如,基于数据包140,网络接口可以向关键字检测系统122提供信号132,并且关键字检测系统122可以向信号处理系统114发送第二控制信号126,以改变信号处理系统114的操作模式。尽管信号132在图4中被示出为从网络接口134发送到关键字检测系统122,但是在其它实施方式中,除了关键字检测系统122以外或取而代之地,可以向设备100的其它子系统或部件发送信号132。举例说明,在一些实施方式中,网络接口134向信号处理系统114发送信号132。
语音识别系统124还可以基于语音输入的内容来发起动作。可替代地或另外地,语音识别系统124可以通过编码数据包140中的指示待在设备100处发起的动作的信息来使设备100基于语音输入的内容来发起动作。
图5-7示出了信号处理系统114的各个方面。具体地,图5-7示出了可以包含在信号处理系统114中的各种部件或子系统。图5-7中示出的各种部件或子系统并不旨在是全面的。相反,在其它配置中,信号处理系统114可以包含其它部件或子系统,以有助于处理音频信号112以生成处理后的音频信号120。
在图5-7中,关键字检测系统122和语音识别系统124如参考图3所述布置。在设备100的其它实施方式中,参考图5-7示出和描述的信号处理系统114的各个方面可以与如参考图1、图2或图4所述布置的关键字检测系统122和语音识别系统124一起使用。
图5是示出了图1的设备100的另一特定实施方式的方框图。在图5所示出的实例中,信号处理系统114包含波束形成器142。波束形成器142被配置成基于波束形成器参数144来处理音频信号112以生成目标音频信号146。
在一个特定实施方式中,波束形成器142在信号处理系统114的一个操作模式中是不工作的,并且在信号处理系统114的另一操作模式中是工作的。例如,波束形成器142当信号处理系统114处于第一操作模式116时可以是不工作的,且当信号处理系统114处于第二操作模式118时可以是工作的,或者反之亦然。举例说明,当信号处理系统114处于第一操作模式116并且波束形成器142不工作(例如,处于待机或断电状态)时,信号处理系统114可以向关键字检测系统122发送处理后的音频信号120。由于波束形成器142不工作,处理后的音频信号120对应于从远场声学环境内的多个方向接收到的声音(例如,全向声音)。当关键字检测系统122在处理后的音频信号120中检测到关键字时,关键字检测系统122向信号处理系统114发送控制信号126。控制信号126可以使信号处理系统114激活波束形成器142,以生成目标音频信号146并向语音识别系统124提供目标音频信号146。
在一个特定实施方式中,控制信号126可以包含指示对应于关键字的声音的到达方向的信息。举例说明,处理后的音频信号120可以包含多个麦克风102中的每个麦克风一个的处理后的音频信号(例如,麦克风102与处理后的音频信号120之间可能存在一一对应关系)。在本说明性实例中,关键字检测系统122可以通过指示哪个处理后的音频信号120包含关键字来指示对应于关键字的声音的到达方向。在本实施方式中,可以基于对应于关键字的声音的到达方向来设置(或选择)波束形成器参数144。例如,波束形成器142可以基于控制信号126来设置波束形成器参数144,使得目标音频信号146基于对应于包含关键字的话语的声音的到达方向。在本实施方式中,当语音识别系统124检测到关键字后面的语音输入的结束时,语音识别系统124提供信号132,这使得信号处理系统114停用波束形成器142(例如,恢复以第一操作模式116操作)。
在另一特定实施方式中,波束形成器142在第一操作模式116和第二操作模式118中均是工作的。在本实施方式中,可以在第一操作模式116与第二操作模式118之间改变波束形成器142的功能。
例如,波束形成器142可以在第一操作模式116中使用与在第二操作模式118中不同的波束形成器参数144。举例说明,波束形成器参数144可以包含多组参数(例如,在查找表或其它数据结构中)。在本说明性实例中,可以指定波束形成器参数144的第一组参数以供当以第一操作模式116操作时使用,并且当以第二操作模式118操作时可以使用波束形成器参数144的另外的一或多组参数。可以基于控制信号126来确定当信号处理系统114开始以第二操作模式118操作时使用的特定参数集。
作为另一实例,当信号处理系统114处于第一操作模式116时,波束形成器142可以连续地、定期地或偶尔地更新波束形成器参数144。举例说明,波束形成器142可以动态地更新波束形成器参数144以跟踪特定的声音源,以避免特定的噪声源,或两者兼而有之。在本实例中,当信号处理系统114改变为以第二操作模式118操作时,波束形成器142可以停止更新波束形成器参数144(例如,可以使用静态波束形成器参数)或者可以改变波束形成器参数144更新的速率。由于信号处理系统114基于控制信号126改变为以第二操作模式118操作,并且当关键字检测系统122在处理后的音频信号120中检测到关键字时发送控制信号126,因此由波束形成器142使用的静态波束形成器参数应该指向发出关键字的声音源。因此,应该使用静态波束形成器参数来捕获来自相同声音源的另外的语音输入,并且降低了波束形成器142在语音输入期间由于噪声或干扰而更新波束形成器参数144的可能性。
图6是示出了图1的设备100的另一特定实施方式的方框图。在图6所示的实例中,信号处理系统114包含空值形成器152。空值形成器152被配置成基于空值形成器参数154来处理音频信号112,以生成在与对应于关键字的声音的到达方向对应的方向上具有空值的空值音频信号156。
在一个特定实施方式中,空值形成器152在信号处理系统114的一个操作模式中是不工作的,并且在信号处理系统114的另一操作模式中是工作的。例如,空值形成器152当信号处理系统114处于第一操作模式116时可以是不工作的,且当信号处理系统114处于第二操作模式118时可以是工作的。举例说明,当信号处理系统114处于第一操作模式116并且空值形成器152不工作(例如,处于待机或断电状态)时,信号处理系统114可以向关键字检测系统122发送处理后的音频信号120。由于空值形成器152不工作,处理后的音频信号120对应于音频信号112(例如,从远场声学环境110内的多个方向接收到的声音)。当关键字检测系统122在处理后的音频信号120中检测到关键字时,关键字检测系统122向信号处理系统114发送控制信号126。控制信号126可以使信号处理系统114激活空值形成器152,以生成空值音频信号156,其可以从音频信号112中减去,以生成发送到语音识别系统124的定向的处理后的音频信号158。从音频信号112中减去空值音频信号156导致并非来自关键字的到达方向的声音的去除。
在一个特定实施方式中,控制信号126可以包含指示对应于关键字的声音的到达方向的信息。举例说明,处理后的音频信号120可以包含多个麦克风102中的每个麦克风一个的处理后的音频信号(例如,麦克风102与处理后的音频信号120之间可能存在一一对应关系)。在本说明性实例中,关键字检测系统122可以通过指示哪个处理后的音频信号120包含关键字来指示对应于关键字的声音的到达方向。在本实施方式中,可以基于对应于关键字的声音的到达方向来设置(或选择)空值形成器参数154。例如,空值形成器152可以基于控制信号126来设置空值形成器参数154,使得定向的处理后的音频信号158基于对应于包含关键字的话语的声音的到达方向。在本实施方式中,当语音识别系统124检测到关键字后面的语音输入的结束时,语音识别系统124提供信号132,这使得信号处理系统114停用空值形成器152(例如,恢复以第一操作模式116操作)。
在另一特定实施方式中,空值形成器152在第一操作模式116和第二操作模式118中均是工作的。在本实施方式中,可以在第一操作模式116与第二操作模式118之间改变空值形成器152的功能。
例如,空值形成器152可以在第一操作模式116中使用与在第二操作模式118中不同的空值形成器参数154。举例说明,空值形成器参数154可以包含多组参数(例如,在查找表或其它数据结构中)。在本说明性实例中,可以指定空值形成器参数154的第一组参数以供当以第一操作模式116操作时使用,并且当以第二操作模式118操作时可以使用空值形成器参数154的另外的一或多组参数。可以基于控制信号126来确定当信号处理系统114开始以第二操作模式118操作时使用的特定参数集。
作为另一实例,当信号处理系统114处于第一操作模式116时,空值形成器152可以连续地、定期地或偶尔地更新空值形成器参数154。举例说明,空值形成器152可以动态地更新空值形成器参数154,使得在特定声音源(例如,相对静止的声音源,例如电视)的方向上生成空值。在本实例中,当信号处理系统114改变为以第二操作模式118操作时,空值形成器152可以停止更新空值形成器参数154(例如,可以使用静态空值形成器参数)或者可以改变空值形成器参数154更新的速率。
图7是示出了图1的设备100的另一特定实施方式的方框图。在图7所示的实例中,信号处理系统114包含噪声消除系统166。噪声消除系统166被配置成处理音频信号112,以生成对应于远场声学环境110的噪声分量的噪声信号168,并且从音频信号112中减去噪声信号168。
噪声消除系统166可以包含生成噪声信号168的噪声信号生成器162。噪声信号生成器162可以包含或对应于使用噪声信号生成参数164来从音频信号112滤除(例如,去除或减少)言语和言语类似分量以生成噪声信号168的自适应滤波器。可以基于由噪声信号生成参数164指定的声音特性(例如,频率、幅度、可变性等)来标识言语和言语类似分量。如参考图8进一步解释,在一些实施方式中,可以至少部分地基于对应的声音的到达方向来标识音频信号112的言语和言语类似分量。当噪声信号生成器162包含或对应于自适应滤波器时,可以通过向噪声消除系统166提供处理后的音频信号120(或其一部分)作为反馈信号来至少偶尔地更新或修改噪声信号生成参数164。
在一个特定实施方式中,噪声消除系统166在信号处理系统114的一个操作模式中是不工作的,并且在信号处理系统114的另一操作模式中是工作的。例如,噪声消除系统166当信号处理系统114处于第一操作模式116时可以是不工作的,且当信号处理系统114处于第二操作模式118时可以是工作的。举例说明,当信号处理系统114处于第一操作模式116并且噪声消除系统166不工作(例如,处于待机或断电状态)时,信号处理系统114可以向关键字检测系统122发送处理后的音频信号120。当关键字检测系统122在处理后的音频信号120中检测到关键字时,关键字检测系统122向信号处理系统114发送控制信号126。控制信号126可以使信号处理系统114激活噪声消除系统166,以生成噪声信号168,并且从音频信号112中减去噪声信号168。从音频信号112中减去噪声信号168可以改善对关键字后面的语音输入的检测和处理。
在另一特定实施方式中,噪声消除系统166在第一操作模式116和第二操作模式118中均是工作的。在本实施方式中,可以在第一操作模式116与第二操作模式118之间改变噪声消除系统166的功能。
例如,噪声消除系统166可以在第一操作模式116中使用与在第二操作模式118中不同的噪声信号生成参数164。举例说明,噪声信号生成参数164可以包含多组参数(例如,在查找表或其它数据结构中)。在本说明性实例中,可以指定噪声信号生成参数164的第一组参数以供当以第一操作模式116操作时使用,并且当以第二操作模式118操作时可以使用噪声信号生成参数164的另外的一或多组参数。可以基于控制信号126来确定当信号处理系统114开始以第二操作模式118操作时使用的特定参数集。
作为另一实例,当信号处理系统114处于第一操作模式116时,噪声消除系统166可以连续地、定期地或偶尔地更新噪声信号生成参数164。在本实例中,当信号处理系统114改变为以第二操作模式118操作时,噪声消除系统166可以停止更新噪声信号生成参数164(例如,可以使用静态噪声信号生成参数)或者可以改变噪声信号生成参数164更新的速率。
图8是示出了图1的设备100的另一特定实施方式的方框图。图8的实施方式示出了设备100的各个部件之间的交互。在图8中,为了说明的目的,设备100以参考图3描述的方式布置。也就是说,处理后的音频信号120被示出为由信号处理系统114向关键字检测系统122并向语音识别系统124提供。然而,在其它实施方式(未示出)中,设备100可以以参考图1、图2或图4描述的方式布置。例如,关键字检测系统122可以是语音识别系统124的部件或子系统,如图1所示;关键字检测系统122可以向语音识别系统124提供处理后的音频信号120的子集128或部分,如图2所示;或者语音识别系统124可以是远程语音识别装置的部件,并且编码处理后的音频信号120的至少一部分的数据包138可以经由网络136发送到语音识别系统124,如图4所示。
在图8中,信号处理系统114包含波束形成器142、空值形成器152和噪声信号生成器162。波束形成器142、空值形成器152和噪声信号生成器162中的每一个可以如上所述起作用。例如,波束形成器142可以如参考图5所述起作用,空值形成器152可以如参考图6所述起作用,并且噪声信号生成器162可以如参考图7所述起作用。在图8中,波束形成器142、空值形成器152和噪声信号生成器162通常被布置和互连,以使波束形成器142能够基于音频信号112来生成目标音频信号172,并且使空值形成器152和噪声信号生成器162相互作用以形成噪声信号168,其可从目标音频信号172中减去以形成处理后的音频信号120,如下面更详细描述。
在操作期间,信号处理系统114从麦克风102接收音频信号112。音频信号112可以被路由到波束形成器142和空值形成器152。当没有接收到语音输入时(例如,当自从检测到先前语音输入的结束之后没有在来自远场声学环境110的声音中检测到关键字),信号处理系统114可以以第一操作模式116操作。当正在接收和处理语音输入时(例如,当在来自远场声学环境110的声音中检测到关键字并且没有检测到关键字后面的语音输入的结束),信号处理系统114可以以第二操作模式118操作。
当信号处理系统114以第一操作模式116操作时,波束形成器142可以是不工作的。可替代地,波束形成器142可以是工作的并且可以将第一组波束形成器参数144应用于音频信号112以生成目标音频信号172。例如,第一组波束形成器参数144可以包含静态波束形成器参数,其将远场声学环境110分成多个区域,如参考图9和10进一步描述。在另一实例中,第一组波束形成器参数144可以包含生成多向或全向波束(例如,从大部分或全部远场声学环境110捕获声音的波束)的波束形成器参数。
在又一实例中,第一组波束形成器参数144可以由波束形成器142使用扬声器跟踪过程来动态地生成。举例说明,波束形成器142可以连续地、周期性地、定期地或偶尔地估计到达方向(DOA)(例如,DOA估计174),其指示对应于言语的声音(或具有与言语类似的特性的声音)的到达方向。在本实例中,可以基于DOA估计174来确定第一组波束形成器参数144。因此,目标音频信号172可以编码从对应于DOA估计174的方向接收的声音。如果在远场声学环境中存在多于一个声音源,则波束形成器142可以跟踪多个扬声器,生成对应于多个扬声器的多个DOA估计174,并且生成多个目标音频信号172。
当信号处理系统114以第一操作模式116操作时,空值形成器152可以是不工作的。可替代地,空值形成器152可以是工作的并且可以将第一组空值形成器参数154应用于音频信号112以生成一或多个空值音频信号178。例如,第一组空值形成器参数154可以包含静态空值形成器参数,其在对应于相对静止的已知噪声或干扰源(例如,电视)的方向上的一或多个空值音频信号178中生成空值。
在又一实例中,第一组空值形成器参数154可以由空值形成器152基于DOA估计174来动态地生成。在本实例中,第一组空值形成器参数154可以使空值形成器152在对应于DOA估计174的方向上生成空值。因此,空值音频信号178可以编码从除了对应于DOA估计174的方向之外的方向接收的声音。如果在远场声学环境110中存在多于一个声音源,则波束形成器142可以生成多个DOA估计,并且空值形成器152可以在空值音频信号178中生成多个空值,例如,每个声音源一个空值。
可以向噪声信号生成器162提供空值音频信号178。当信号处理系统114以第一操作模式116操作时,噪声信号生成器162可以是不工作的。例如,可以从目标音频信号172中减去空值音频信号178以形成处理后的音频信号120。可替代地,噪声信号生成器162可以是工作的并且可以将第一组噪声信号生成参数164应用于空值音频信号178以生成噪声信号168。例如,第一组噪声信号生成参数164可以包含静态噪声信号生成参数。在又一实例中,噪声信号生成器162可以在第一操作模式116中用作自适应滤波器。举例说明,第一组噪声信号生成参数164可以由噪声信号生成器162基于反馈信号来动态地生成,所述反馈信号包含处理后的音频信号120的至少一部分。
可以从目标音频信号172中减去噪声信号168以生成处理后的音频信号120。另外,在一些实施方式中,可以向声学环境分析器180提供噪声信号168。声学环境分析器180可以使用噪声信号168来生成描述远场声学环境110的数据。例如,声学环境分析器180可以使用噪声信号168来确定信噪比、噪声类型指示符或其组合。声学环境分析器180可以经由信号184向关键字检测系统122或经由信号182向语音识别系统124发送描述远场声学环境110的数据,或两者兼而有之。关键字检测系统122可以使用描述远场声学环境110的数据来改善关键字检测。例如,关键字检测系统122可以使用描述远场声学环境110的数据来设置(或选择)关键字检测的置信度阈值,选择或修改关键字检测过程等。同样,语音识别系统124可以使用描述远场声学环境110的数据来改善语音识别。例如,语音识别系统124可以使用描述远场声学环境110的数据来设置(或选择)言语的置信度阈值,选择或修改言语识别过程等。
在图8中,向关键字检测系统122并向语音识别系统124提供处理后的音频信号120。在关键字检测系统122检测到关键字之前,语音识别系统124可以是不工作的(例如,处于掉电或待机状态)。响应于在处理后的音频信号120中检测到关键字,关键字检测系统122向语音识别系统124发送信号130。信号130可以激活语音识别系统124。另外,信号130可以指示处理后的音频信号120的包含关键字或在关键字后面的一部分。
关键字检测系统122还可以向信号处理系统114或向信号处理系统114的部件或子系统发送一或多个控制信号。在图8所示的实例中,关键字检测系统122分别向空值形成器152、噪声信号生成器162和波束形成器142发送控制信号186、188、190。在其它实施方式中,关键字检测系统122发送更多的控制信号、更少的控制信号或不同的控制信号。举例说明,关键字检测系统122可以向信号处理系统114发送单个控制信号(例如,图1-7的控制信号126)。可替代地,关键字检测系统122可以向声学环境分析器180或向信号处理系统114的另一部件或子系统发送另外的控制信号(未示出)。另可替代地,关键字检测系统122可以发送控制信号188、190而不发送控制信号186。在本替代方案中,空值形成器152的操作可以在第一操作模式116和第二操作模式118之间保持不变。
控制信号186、188、190使信号处理系统114从以第一操作模式116操作改变为以第二操作模式118操作。当信号处理系统114以第二操作模式118操作时,波束形成器142可以应用静态波束形成器参数,其将远场声学环境110分成多个区域,如参考图9和10进一步描述。在另一实例中,波束形成器142可以应用第二组波束形成器参数144(不同于第一组波束形成器参数144)。第二组波束形成器参数144可以生成指向与包含关键字的话语相关联的声音源的波束。例如,控制信号190可以包含指示对应于关键字的声音的到达方向的信息。在本实例中,可以更新DOA估计174以与对应于关键字的声音的到达方向对应,并且可以生成(或更新)第二组波束形成器参数144以基于DOA估计174来生成波束。因此,在本实例中,目标音频信号172编码从对应于关键字的声音的到达方向接收的声音。
如果波束形成器142使用扬声器跟踪过程,则扬声器跟踪过程可以以第二操作模式118继续或者可以中断(例如,第二组波束形成器参数144可以是静态的)。如果继续以第二操作模式118使用扬声器跟踪过程,则波束形成器142连续地、周期性地、定期地或偶尔地生成或更新DOA估计174,并且基于DOA估计174来确定第二组波束形成器参数144。因此,在接收语音输入时,基于波束形成器参数144生成的波束可以跟踪扬声器。相反,如果在第二操作模式118中未使用扬声器跟踪过程,则DOA估计174和波束在对应于关键字的声音的到达方向上保持固定。
在一些实施方式中,响应于控制信号190,波束形成器142停止以更新波束形成器参数144。举例说明,波束形成器142当以第一操作模式116操作时可以偶尔地更新波束形成器参数144(例如,根据扬声器跟踪过程),并且当以第二操作模式118操作时可以停止(或暂停)更新波束形成器参数144。在本实例中,使用当接收到控制信号190时使用的波束形成器参数144的值,直到接收到另一控制信号以将操作模式改变回第一操作模式116。
目标音频信号172编码从对应于DOA估计174的方向接收的声音。如果在远场声学环境110中存在多于一个声音源(其可以是扬声器)(如参考图10所述),则波束形成器142使用多个DOA估计174来跟踪多个声音源并生成多个目标音频信号172。
当信号处理系统114以第二操作模式118操作时,空值形成器152可以将第二组空值形成器参数154应用于音频信号112以生成一或多个空值音频信号178。例如,控制信号186可以包含指示对应于关键字的声音的到达方向的信息。在本实例中,空值形成器152可以生成(或更新)第二组空值形成器参数154,以基于对应于关键字的声音的到达方向来生成空值。在另一实例中,响应于控制信号186,空值形成器152可以停止更新空值形成器参数154。举例说明,空值形成器152当以第一操作模式116操作时可以偶尔地更新空值形式器参数154,并且当以第二操作模式118操作时可以停止(或暂停)更新空值形成器参数154。在本实例中,使用当接收到控制信号186时使用的空值形成器参数154的值,直到接收到另一控制信号以将操作模式改变回第一操作模式116。
在另一实例中,第二组空值形成器参数154可以由空值形成器152基于DOA估计174来动态地生成。在本实例中,第二组空值形成器参数154使空值形成器152在对应于DOA估计174的方向上生成空值。因此,空值音频信号178编码从对应于DOA估计174的方向以外的方向接收的声音。如果在远场声学环境110中存在多于一个声音源,则波束形成器142可以生成多个DOA估计,并且空值形成器152可以在空值音频信号178中生成多个空值,例如,每个声音源一个空值。
可以向噪声信号生成器162提供空值音频信号178。当信号处理系统114以第二操作模式118操作时,噪声信号生成器162生成噪声信号168,其从目标音频信号172中减去以形成处理后的音频信号120。在一些实施方式中,噪声信号生成器162在第一操作模式116中用作自适应滤波器,并且在第二操作模式118中停止以适应滤波器参数(例如,噪声信号生成参数164)。在此些实施方式中,噪声信号生成器162可以继续使用当接收到控制信号188时使用的噪声信号生成参数164(例如,作为静态噪声信号生成参数),直到接收到另一控制信号以改变回根据第一操作模式116的操作。
在关键字检测系统122检测到关键字之后,语音识别系统124分析处理后的音频信号120的至少一部分以检测关键字后面的语音输入。在检测到语音输入并确定语音输入的内容之后,语音识别系统124可以基于语音输入的内容来发起动作。例如,语音识别系统124可以向另一装置(未示出)或设备100的另一部件发送信号170。信号170可以指示待执行的动作,可以包含与动作相关联的数据,或者两者兼而有之。
在检测到语音输入的结束之后,语音识别系统124可以发送指示已经检测到语音输入的结束的控制信号192。在图8所示的实例中,向关键字检测系统122发送控制信号192。在本实例中,关键字检测系统122可以向信号处理系统114发送一或多个控制信号,以使信号处理系统114恢复根据第一操作模式116处理音频信号112。在其它实例中,除了关键字检测系统122以外或取而代之地,向设备100的一或多个其它部件发送控制信号192。举例说明,可以向信号处理系统114或向信号处理系统114的部件或子系统,例如向波束形成器142、空值形成器152、噪声信号生成器162或其组合,发送控制信号192。
图9是示出了图1的设备100的特定方面的图。在图9中,麦克风102被布置成基本上圆形的阵列。在其它实施方式中,麦克风102可以被布置成具有不同形状或配置的阵列,例如网格、球体等。如下面进一步描述,在图9所示的实施方式中,关键字检测系统122基于检测到一组处理后的音频信号中的特定的处理后的音频信号编码对应于关键字的声音来向信号处理系统114提供到达方向信息。
如参考图1-8所述,麦克风102向信号处理系统114提供音频信号112。在图9中,麦克风102、信号处理系统114或两者被配置成在逻辑上将远场声学环境110分成多个区域。例如,图9示出了6个区域(区域1-6);然而,在其它实施方式中,可以使用多于6个区域、少于6个区域或不同的区域。虽然区域在图9中被示出为大致均匀的尺寸和间隔,但是在其它实施方式中,区域可以具有不同的尺寸或间隔。此外,在某些实施方式中,一些区域可以彼此重叠。
可以通过使用定向麦克风,通过使用波束形成或通过使用两者来划分远场声学环境110以形成区域。例如,在一个特定实施方式中,麦克风102包含定向麦克风,并且每个定向麦克风被定位和定向成检测来自特定方向(例如,来自所述区域中的一个)的声音。当使用定向麦克风时,可以经由不同的信道向信号处理系统114提供音频信号112,例如每个信道一个区域。信道可以在物理上分开(例如,通过使用不同的硬件,例如不同的输入端口、不同的信号线等),或者信道可以以能够检索与不同区域相关的数据的方式复用,例如使用频分复用、时分复用、码分复用等。
在另一实施方式中,麦克风102可以包含全向麦克风。在本实施方式中,可以向信号处理系统114的一个波束形成器或多个波束形成器提供音频信号112以形成区域。例如,信号处理系统114可以包含一组波束形成器(例如,图5和8的波束形成器142),其中每个波束形成器与对应的区域相关联。举例说明,第一波束形成器可以与区域1相关联。第一波束形成器可以接收音频信号112并将第一组波束形成器参数应用于音频信号112以形成第一波束,其被引导以形成区域1(即,限制或排除来自区域1以外的方向的声音)。类似地,第二波束形成器可以与区域2相关联。第二波束形成器可以接收音频信号112并将第二组波束形成器参数应用于音频信号112以形成第二波束,其被引导以形成区域2(即,限制或排除来自区域2以外的方向的声音)。同样地,第三、第四、第五和第六波束形成器可以分别与区域3-6相关联,并且可以形成对应于它们的区域的相应波束。在本实施方式中,每个波束形成器使用的波束形成器参数可以是静态的。例如,在图9所示的实施方式中,每个波束形成器可以使用静态波束形成器参数,其被配置成形成覆盖大约60度的远场声学环境的波束(在感兴趣的范围内,例如在平均房间尺寸内,例如几米或几十米)。
在形成区域(例如,使用波束形成)或以其它方式处理音频信号112之后,信号处理系统114向关键字检测系统122提供定向音频信号300。在一个实施方式中,定向音频信号300对应于或包含图1-8的处理后的音频信号120。以能够单独处理与每个区域相关联的信息(例如,编码声音)的方式向关键字检测系统122提供定向音频信号300。因此,在图9中,定向音频信号300被示出为包含对应于区域1的第一定向音频信号302、对应于区域2的第二定向音频信号304、对应于区域3的第三定向音频信号306、对应于区域4的第四定向音频信号308、对应于区域5的第五定向音频信号310以及对应于区域6的第六定向音频信号312。
在图9所示的实例中,人360存在于区域2中并且提供语音输入362,其包含关键字。同样在图9中,声音源364存在于区域4中。声音源364输出可能干扰检测语音输入362的声音368。其它区域(例如,区域1、3、5和6)是静音或包含噪声源(未示出)。因此,在图9中,第一定向音频信号302包含噪声(例如,编码与其对应的声音),第二定向音频信号304包含目标言语,第三定向音频信号306包含噪声,第四定向音频信号308包含干扰声音,第五定向音频信号310包含噪声,第六定向音频信号312包含噪声。
关键字检测系统122被配置成确定对应于定向音频信号302-312中的每个的置信度度量322-332。每个置信度度量322-332指示对应的定向音频信号302-312编码对应于关键字的声音的可能性。例如,第一置信度度量322指示第一定向音频信号302编码对应于关键字的声音的可能性。同样地,第二置信度度量324指示第二定向音频信号304编码对应于关键字的声音的可能性。可以连续地、定期地、周期性地或偶尔地计算或更新置信度度量。举例说明,可以基于与第一定向音频信号302相关联的采样率来周期性地更新第一置信度度量322。作为另一说明性实例,可以偶尔地更新第一置信度度量322,例如当检测到具有特定特性(例如,幅度或频率)的声音时。
可以将置信度度量322-332中的每一个与置信度阈值进行比较,以检测关键字的存在并估计对应于关键字的声音的到达方向。例如,如图9所示,比较344指示第二置信度度量324大于置信度阈值,其指示第二定向音频信号304可能(例如,具有至少阈值置信度值)编码对应于关键字的声音。图9中的其它比较342、346-352指示在其它定向音频信号302、306-312中没有检测到关键字。因此,关键字检测系统122确定区域2中的话语包含关键字,并且关键字检测系统122将与话语相关联的声音的到达方向354估计为对应于区域2。
基于检测到关键字并估计到达方向,关键字检测系统122向信号处理系统114发送控制信号126。控制信号126可以指示对应于关键字的声音的到达方向354。可替代地或另外地,控制信号126可以指示与包含关键字的声音相关联的区域,例如图9所示的实例中的区域2。
基于控制信号126,信号处理系统114可以改变操作模式。例如,在第二操作模式118中,信号处理系统114可以停止处理或输出与区域1和3-6相关联的定向音频信号302、306-312,因为这些区域不包含对应于关键字的声音。在本实例中,可以向语音识别系统124(图9中未示出)提供第二定向音频信号304以处理关键字后面的语音输入。作为另一实例,在第二操作模式中,信号处理系统114可以继续向关键字检测系统122输出定向音频信号302-312,并且可以同期或同时向语音识别系统124提供第二定向音频信号304。
图10是示出了图1的设备100的另一特定方面的图。除了在麦克风102附近添加了反射源(例如,墙壁370)之外,图10所示的实例与图9所示的实例相同。由于来自墙壁370的反射声音372,远处场声学环境110包含多个可能的目标言语源。如上所述,当处理近场声学环境的声音时,目标言语源(例如,人360)比反射声音源(例如,墙壁370)更靠近麦克风102。因此,反射声音372可以被忽略或视为噪声。然而,在远场声学环境110中,反射声音(例如,墙壁370)可以比目标言语源(例如,人360)更靠近麦克风102。在这种布置中,反射声音372可以具有与目标言语类似的音量,并且因此可能干扰目标言语的接收和处理。
在图10所示的实例中,第一定向音频信号302包含噪声(例如,编码与其对应的声音),第二定向音频信号304包含第一目标言语,第三定向音频信号306包含噪声,第四定向音频信号308包含干扰声音,第五定向音频信号310包含第二目标言语,第六定向音频信号312包含噪声。如上所述,关键字检测系统122确定对应于每个定向音频信号302-312的置信度度量322-332,并将置信度度量322-332与置信度阈值进行比较,以检测关键字的存在并估计对应于关键字的声音的到达方向。
在图10中,比较344指示第二置信度度量324大于置信度阈值,并且比较350指示第五置信度度量330大于置信度阈值。图10中的其它比较342、346、348和352指示在其它定向音频信号302、306、308和312中没有检测到关键字。因此,关键字检测系统122确定区域2和5中的话语包含关键字,并且关键字检测系统122估计两个到达方向354、356。
基于在定向音频信号300中的至少一个中检测到关键字,关键字检测系统122向信号处理系统114发送控制信号126。控制信号126可以指示对应于关键字的声音的到达方向354、356。可替代地或另外地,控制信号126可以标识与包含关键字的声音相关联的区域,例如图10所示的实例中的区域2和5。
基于控制信号126,信号处理系统114可以改变操作模式。例如,在第二操作模式118中,信号处理系统114可以停止处理或输出与区域1、3、4和6相关联的定向音频信号302、306、308和312,因为这些区域不包含对应于关键字的声音。在本实例中,可以向语音识别系统124提供(例如,独立地或单独地)第二定向音频信号304和第五定向音频信号310,以处理关键字后面的语音输入。可替代地,如参考图11进一步描述,可以组合第二定向音频信号304和第五定向音频信号310(例如,以形成耙式输出),并且可以向语音识别系统124提供组合的信号以处理关键字后面的语音输入。作为另一实例,在第二操作模式中,信号处理系统114可以继续向关键字检测系统122输出定向音频信号302-312,并且可以同期或同时向语音识别系统124提供第二定向音频信号304和第五定向音频信号310或耙式输出。
图11是示出了图1的设备100的另一特定实施方式的方框图。在图11中,信号处理系统114包含耦合到波束形成器142的耙组合器202。为清楚起见,从图11中省去了信号处理系统114的其它部件和子系统。然而,在图11所示的实施方式中,信号处理系统114可以包含其它部件和子系统,例如图6和8的空值形成器152、图7和8的噪声信号生成器、图8的声学环境分析器180或其组合。
图11的耙组合器202被配置成基于来自波束形成器142的多个定向音频信号300来形成耙式输出222。耙式输出222(也可以被称为耙式波束形成器输出)组合定向音频信号300中的两个或两个以上。
如参考图10所述,当在远场声学环境110中反射(例如,由墙壁370)语音输入362时,可以在麦克风102处接收语音输入362和反射声音372。在本实例中,波束形成器142可以生成多个波束(其中每个波束对应于定向音频信号300中的一个),使得多个定向音频信号300中的多于一个编码对应于关键字的声音。在图11中,可以使用静态波束形成器参数144来生成多个波束和对应的定向音频信号300。可替代地,波束形成器142可以被配置成更新或修改波束形成器参数144(例如,使用扬声器跟踪过程)以形成多个波束和对应的定向音频信号300。
当关键字检测系统122在定向音频信号300中的多于一个中检测到关键字时,关键字检测系统122可以发送控制信号126,其在图11中指示哪个定向音频信号300包含关键字或与包含关键字的声音相关联的到达方向。举例说明,在图10的实例中,控制信号126可以指示区域2和5包含对应于关键字的声音。
耙组合器202可以处理包含关键字的定向音频信号300(例如,图10的第二定向音频信号304和第五定向音频信号310)以形成耙式输出222。可以向语音识别系统124提供耙式输出222以供分析(例如,确定关键字后面的语音输入的内容)。
耙组合器202使用耙参数204来形成耙式输出222。可以基于控制信号126来设置或修改耙参数204。例如,耙参数204可以指示多少个定向音频信号300待组合(例如,耙的多个耙爪)以及哪些定向音频信号300待组合。
为了形成耙式输出222,耙组合器202使组合的定向音频流相关。例如,耙组合器202可以对组合的定向音频信号进行相位对准(例如,通过延迟定向音频信号中的一或多个)。当对组合的定向音频信号进行组合时,耙组合器202还可以执行其它处理操作,例如均衡。由于组合过程,耙式输出222可以具有大于组合的定向音频流中的任何一个的SNR的信噪比(SNR)。耙式输出222的较大SNR可以改善语音识别系统124的结果的可靠性。
图12是示出了处理远场声学环境的声音的特定方法1200的流程图。方法1200可以由图1-11的设备100或其一部分或子系统执行。例如,方法1200可以由根据参考图1-11描述的实施方式中的一个的信号处理系统114、关键字检测系统122和语音识别系统124的电路和/或处理器执行。
方法1200包含在1202处获得多个音频信号。多个音频信号中的每个音频信号由多个麦克风中的相应麦克风基于在相应麦克风处检测到的远场声学环境的声音来生成。例如,信号处理系统114可以从麦克风102接收音频信号112。在本实例中,信号处理系统114可以直接从麦克风102或经由一或多个中间部件或子系统(例如,通信接口或总线)接收音频信号112。
方法1200还包含在1204处处理多个音频信号以生成至少一个处理后的音频信号。例如,信号处理系统114可以处理音频信号112以生成处理后的音频信号120。如下面进一步描述,处理音频信号112可以包含对音频信号112进行采样或数字化,将波束形成器参数应用于音频信号112,将空值形成器参数应用于音频信号112,对音频信号112执行噪声消除,使用其它技术来处理音频信号112,或其组合。
方法1200还包括在1206处基于至少一个处理后的音频信号执行关键字检测,以确定声音是否包含对应于关键字的话语。例如,关键字检测系统122可以执行关键字检测。在一些实施方式中,关键字检测系统122被配置成检测多个不同的关键字,并且执行关键字检测包含确定关键字中的任何一个(或多个)。
方法1200还包括在1208处基于关键字检测的结果将信号处理系统的操作模式从第一操作模式改变为第二操作模式。例如,信号处理系统114可以被配置成以第一操作模式116或以第二操作模式118操作。信号处理系统114可以被配置成响应于控制信号126,从以第一操作模式116操作改变为以第二操作模式118操作(或反之亦然)。
作为一个特定实例,第一操作模式116可以被优化或以其它方式配置用于在远场声学环境110内检测包含关键字的声音。由于可以从任何方向(或从宽角度范围的方向)接收声音,第一操作模式116可以被配置成有助于检测和处理来自许多不同方向的声音(例如,全向声音)。然而,在本具体实例中,在检测到关键字之后,可以假设关键字后面的语音输入将通常来自与包含关键字的声音相同的到达方向。因此,第二操作模式118可以被优化或以其它方式配置用于检测较窄角度范围中(例如,通常在包含关键字的声音的到达方向上)的声音。
如关于图1-11的各个实施方式所描述,可以单独地或组合地使用多个不同的过程来处理音频信号。例如,在一些实施方式中,信号处理系统包含空值形成器,并且在1204处处理多个音频信号以生成至少一个处理后的音频信号包含基于对应于话语的声音的一部分的到达方向来生成具有空值的一或多个空值音频信号。在这些实施方式中的一些中,在1208处改变信号处理系统的操作模式包含激活或停用空值形成器。在其它实施方式中,在1208处改变信号处理系统的操作模式包含当以第一操作模式操作时更新空值形成器的空值形成器参数,并且当以第二操作模式操作时使用静态空值形成器参数。
在特定实施方式中,信号处理系统包含波束形成器,并且在1204处处理多个音频信号以生成至少一个处理后的音频信号包含基于对应于话语的声音的一部分的到达方向来生成目标音频信号。在这些实施方式中的一些中,在1208处改变信号处理系统的操作模式包含激活或停用波束形成器。在其它实施方式中,在1208处改变信号处理系统的操作模式包含当以第一操作模式操作时更新波束形成器的波束形成器参数,并且当以第二操作模式操作时使用静态波束形成器参数。
在特定实施方式中,信号处理系统包含噪声信号生成器,并且在1204处处理多个音频信号以生成至少一个处理后的音频信号包含生成对应于远场声学环境的噪声分量的噪声信号。在这些实施方式中的一些中,在1208处改变信号处理系统的操作模式包含激活或停用噪声信号生成器。在其它实施方式中,在1208处改变信号处理系统的操作模式包含当以第一操作模式操作时更新噪声信号生成器的噪声信号生成参数,并且当以第二操作模式操作时使用静态噪声信号生成参数。在一些实施方式中,可以向声学环境分析器提供噪声信号,并且声学环境分析器可以基于噪声信号来生成描述远场声学环境的数据。
在一些实施方式中,信号处理系统包含空值形成器和噪声信号生成器。在此些实施方式中,在1204处处理多个音频信号以生成至少一个处理后的音频信号可以包含基于对应于话语的声音的一部分的到达方向来生成(例如,通过空值形成器)具有空值的一或多个空值音频信号。在本实例中,噪声信号生成器可以基于一或多个空值音频信号来生成噪声信号。
作为另一实例,信号处理系统可以包含波束形成器和噪声信号生成器。在本实例中,在1204处处理多个音频信号以生成至少一个处理后的音频信号可以包含基于对应于话语的声音的一部分的到达方向来生成(例如,通过波束形成器)目标音频信号,并从目标音频信号中减去噪声信号以生成至少一个处理后的音频信号。
在特定实施方式中,在1204处处理多个音频信号以生成至少一个处理后的音频信号包含生成多个定向的处理后的音频信号(包含至少一个处理后的音频信号)。多个定向的处理后的音频信号中的每个定向的处理后的音频信号编码来自与对应的方向相关联(例如,与图9和10中的区域中的一个相关联)的远场声学环境的一部分的声音。在此些实施方式中,在1206处执行的关键字检测可以基于多个定向的处理后的音频信号中的每个定向的处理后的音频信号。方法1200还可以包含在关键字检测系统处确定多个定向的处理后的音频信号中的至少一个定向的处理后的音频信号编码对应于话语的声音的一部分,并且从关键字检测系统向信号处理系统发送控制信号。控制信号可以基于哪个定向的处理后的音频信号编码对应于话语的声音的部分来指示对应于话语的声音的部分的到达方向,并且可以基于控制信号来改变信号处理系统的操作模式。
在一些实施方式中,关键字检测系统通过确定每个定向的处理后的音频信号的置信度度量并基于哪个(哪些)置信度度量满足置信度阈值来生成控制信号,基于每个定向的处理后的音频信号来执行关键字检测。在一些此些实施方式中,当信号处理系统以第一操作模式操作时,信号处理系统可以向关键字检测系统提供每个定向的处理后的音频信号。当信号处理系统以第二操作模式操作时,信号处理系统可以向语音识别系统仅提供定向的处理后的音频信号的子集。例如,定向的处理后的音频信号的子集可以对应于与满足置信度阈值的置信度度量相关联的特定定向的处理后的音频信号。
在特定实施方式中,在1204处处理多个音频信号以生成至少一个处理后的音频信号包含当信号处理系统以第一操作模式操作时,在信号处理系统的波束形成器处使用第一波束形成器参数以生成多个定向的处理后的音频信号。在此些实施方式中,在1208处改变信号处理系统的操作模式包含基于与由控制信号指示的对应于话语的声音的部分的到达方向来修改第一波束形成器参数,以生成第二波束形成器参数。当信号处理系统以第二操作模式操作时,可以在波束形成器处使用第二波束形成器参数以生成至少一个定向的处理后的音频信号。此外,在一些此些实施方式中,当信号处理系统以第二操作模式操作时,方法1200可以包含在耙组合器处组合多个定向的处理后的音频信号中的两个或两个以上以基于控制信号来形成耙式波束形成器输出。
在将信号处理系统的操作模式改变为第二操作模式之后,方法1200还包含在1210处基于检测到与关键字相关联的语音输入的结束来将信号处理系统的操作模式从第二操作模式改变为第一操作模式。例如,关键字检测系统122(或语音识别系统124)可以发送第二控制信号以将信号处理系统114的操作模式改变回第一操作模式116。
方法1200还可以包含分析关键字后面的语音输入并基于语音输入的言语内容发起动作。例如,语音识别系统124可以分析语音输入以确定语音输入的言语内容并基于言语内容发起动作(例如,通过发送信号170)。方法1200还可以包含检测语音输入的结束,并且基于检测到语音输入的结束,将信号处理系统的操作模式从第二操作模式改变为第一操作模式。例如,语音识别系统124可以检测语音输入的结束并且通过向信号处理系统114或向关键字检测系统122发送信号,使信号处理系统114从第二操作模式118改变为第一操作模式116。在语音识别系统124远离关键字检测系统122,远离信号处理系统114或两者兼而有之的实施方式中,方法1200可以包含在检测到关键字之后,经由网络向语音识别装置发送编码语音输入的信号。例如,网络接口134可以经由网络136向语音识别系统124发送编码语音输入的数据包138。
参考图13,描绘了装置的特定说明性实例的方框图,所述装置通常被标示为1300。在一些实施方式中,装置1300被配置成便携式的。举例说明,装置1300的电源1344可以包含电池,例如如果装置1300是移动通信装置,则可能是这种情况。在其它实施方式中,装置1300通常被配置成静止的(至少在使用期间)。例如,电源1344可以包含电源线或电源适配器,其被配置成在使用期间耦合到电源插座。举例说明,装置1300可以包含或对应于基站或其它固定位置计算装置,其被配置成作为远场语音助理装置操作。无论装置1300是便携式的还是通常是静止的,装置1300可以包含或对应于图1-11中的任何一或多个的设备100。例如,装置1300包含信号处理系统114和关键字检测系统122。装置1300还可以包含或耦合到麦克风102和语音识别系统124。
在图13中,装置1300包含处理器1306(例如,中央处理单元(CPU))和耦合到处理器1306的存储器1353。处理器1306可以被配置成基于在存储器1353中存储的指令1360来执行一或多个应用。例如,应用可以包含语音助理应用,其可执行以响应于语音输入执行动作。所述动作可以包含例如播放媒体、控制其它装置(例如,家用电器、恒温器或其它“物联网”装置)、执行互联网搜索、提供对简单问题的响应等等。
在图13中,信号处理系统114包含CODEC 1334。CODEC 1334可以包含数字模拟转换器(DAC)电路1302和模拟数字转换器(ADC)电路1304。例如,DAC电路1302可以被配置成从麦克风102接收模拟音频信号(例如,音频信号112)并将模拟音频信号转换为数字信号。在图13所示的实例中,信号处理系统114还包含一或多个处理器1314(例如,数字信号处理器(DSP)),其被配置成执行波束形成器142、空值形成器152、噪声信号生成器162、声学环境分析器180、耙组合器202或其组合的操作。在其它实施方式中,波束形成器142、空值形成器152、噪声信号生成器162、声学环境分析器180和耙组合器202中的一或多个的至少一些操作由处理器1314外部的电路执行,例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程电路。
在图13所示的实例中,关键字检测系统122包含一或多个处理器1312(例如,DSP)。一或多个处理器1312可以被配置成执行关键字检测系统122的操作,例如检测对应于关键字的声音。在其它实施方式中,关键字检测系统122的至少一些操作由处理器1312外部的电路执行,例如ASIC、FPGA或其它可编程电路。
在图13所示的实例中,语音识别系统124包含一或多个处理器1310(例如,DSP)。一或多个处理器1310可以被配置成执行语音识别系统124的操作,例如确定语音输入的言语内容。在其它实施方式中,语音识别系统124的至少一些操作由处理器1310外部的电路执行,例如ASIC、FPGA或其它可编程电路。
尽管图13将信号处理系统114、关键字检测系统122和语音识别系统124中的每一个示出为包含相应处理器;但是在其它实施方式中,可以在信号处理系统114、关键字检测系统122和语音识别系统124中的两个或两个以上之间共享一或多个处理器。举例说明,处理器1314可以执行信号处理操作和关键字检测操作。其它组合也是可能的。
装置1300可以包含网络接口134,以使得能够经由网络136与其它装置(例如,远程语音识别装置或提供内容(例如,媒体)的服务器)进行通信。在图13所示的实例中,网络接口134是无线接口。因此,网络接口134包含耦合到天线1342的收发器1352。
装置1300还可以包含耦合到显示控制器1326的显示器1328。一或多个扬声器1348可以耦合到信号处理系统114以提供可听输出,例如媒体或对语音输入的响应。在一个特定实施方式中,麦克风102包含麦克风阵列。
装置1300的一或多个部件可以经由专用硬件(例如,电路)通过一个(或多个)处理器执行指令以执行一或多个任务或其组合来实现。作为一个实例,存储器1353或处理器1306、处理器1310、处理器1312或处理器1314的一或多个部件可以包含存储器装置,例如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋扭矩转换MRAM(STT-MRAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘或光盘只读存储器(CD-ROM)。存储器装置可以包含指令(例如,指令1360),当由计算机(例如,处理器1306、1310、1312、1314中的一个)执行时,所述指令可以使计算机执行参考图1-12描述的一或多个操作。作为一个实例,存储器1353或处理器1306、1310、1312、1314中的一或多个部件可以包含或对应于包含指令(例如,指令1360)的非暂时性计算机可读介质,当由计算机(例如,CODEC 1334中的处理器、处理器1306和/或处理器1310)执行时,所述指令使计算机执行参考图1-12描述的一或多个操作。
在一个特定方面,装置1300可以包含系统级封装或片上系统装置1322(例如,移动台调制解调器(MSM))或被包含在其中。例如,处理器1306、1310、1312、1314、显示控制器1326、存储器1353、CODEC 1334和网络接口134中的一或多个可以被包含在系统级封装或片上系统装置1322中。在本实例中,输入装置1330(例如,触摸屏和/或小键盘)和电源1344耦合到片上系统装置1322。此外,在图13所示的特定实例中,显示器1328、输入装置1330、扬声器1348、麦克风102、天线1342和电源1344在片上系统装置1322的外部。然而,显示器1328、输入装置1330、扬声器1348、麦克风102、天线1342和电源1344中的每一个可以耦合到片上系统装置1322的部件,例如接口或控制器。
装置1300可以包含或对应于无线电话、移动通信装置、移动电话、智能电话、蜂窝电话、膝上型计算机、台式计算机、计算机、平板计算机、机顶盒、个人数字助理(PDA)、显示装置、电视、游戏机、音乐播放器、收音机、视频播放器、娱乐单元、通信装置、固定位置数据单元、个人媒体播放器、数字视频播放器、数字视频盘(DVD)播放器、调谐器、相机、导航装置、解码器系统、编码器系统或其任何组合。
应当注意,由本文中所揭示的系统和装置的一或多个部件执行的各种功能被描述为由某些部件或模块执行。部件和模块的这种划分仅用于说明。在一个替代实施方式中,由特定部件或模块执行的功能可以被划分成在多个部件或模块之间执行。此外,在一个替代实施方式中,可以将两个或两个以上部件或模块集成到单个部件或模块中。可以使用硬件(例如,FPGA装置、ASIC、DSP、控制器等)、软件(例如,可由处理器执行的指令)或其任何组合来实现每个部件或模块。
结合所描述的实施方式,一种设备包含用于生成多个音频信号的装置,多个音频信号中的每个音频信号基于远场声学环境的声音来生成。例如,用于生成多个音频信号的装置可以包含图1-11和13的麦克风102、被配置成生成音频信号的一或多个装置或其组合。
所述设备还可以包含用于处理多个音频信号以生成至少一个处理后的音频信号的装置。例如,用于处理多个音频信号的装置可以包含信号处理系统114或其部件或子系统,例如波束形成器142、空值形成器152、噪声信号生成器162、CODEC 1334、处理器1314中的一或多个、被配置成处理音频信号的一或多个装置或其组合。
所述设备还可以包含用于关键字检测以基于至少一个处理后的音频信号来确定声音是否包含对应于关键字的话语的装置。例如,用于关键字检测的装置可以包含关键字检测系统122、处理器1312中的一或多个、被配置成在处理后的音频信号中检测关键字的一或多个装置或其组合。
所述设备还可以包含用于改变用于处理多个音频信号的装置(例如,信号处理系统114或其部件或子系统)的操作模式的装置。用于改变操作模式的装置可以被配置成基于关键字检测的结果将用于处理多个音频信号的装置的操作模式从第一操作模式改变为第二操作模式。例如,用于改变操作模式的装置可以包含关键字检测系统122、语音识别系统124、信号处理系统114(或其部件或子系统)、处理器1310和1312中的一或多个、被配置成发送控制信号以改变操作模式的一或多个装置或其组合。
所述设备还可以包含用于基于对应于话语的声音的一部分的到达方向来生成具有空值的空值音频信号的装置。例如,用于生成空值音频信号的装置可以包含信号处理系统114或其部件或子系统,例如空值形成器152、处理器1314中的一或多个、被配置成生成空值音频信号的一或多个装置或其组合。
所述设备还可以包含用于基于对应于话语的声音的一部分的到达方向来生成目标音频信号的装置。例如,用于生成目标音频信号的装置可以包含信号处理系统114或其部件或子系统,例如波束形成器142、处理器1314中的一或多个、被配置成生成目标音频信号的一或多个装置或其组合。
所述设备还可以包含用于生成噪声信号的装置,其中噪声信号对应于远场声学环境的噪声分量。例如,用于生成噪声信号的装置可以包含信号处理系统114或其部件或子系统,例如噪声消除系统166、噪声信号生成器162、处理器1314中的一或多个、被配置成生成噪声信号的一或多个装置或其组合。
所述设备还可以包含用于分析远场声学环境以生成描述远场声学环境的数据的装置。例如,用于分析远场声学环境的装置可以包含信号处理系统114或其部件或子系统,例如声学环境分析器180、处理器1314中的一或多个、被配置成生成描述远场声学环境的数据的一或多个装置或其组合。
所述设备可以包含用于分析关键字后面的语音输入的装置。例如,用于分析语音输入的装置可以包含语音识别系统124、处理器1310中的一或多个、被配置成分析语音输入的一或多个装置或其组合。
所述设备可以包含用于在检测到关键字之后经由网络向语音识别装置发送信号的装置,其中所述信号编码语音输入。例如,用于发送信号的装置可以包含网络接口134、收发器1352、被配置成经由网络传输数据的一或多个装置或其组合。
所述设备可以包含用于通过基于控制信号来组合多个定向的处理后的音频信号中的两个或两个以上来形成耙式输出的装置。例如,用于形成耙式输出的装置可以包含信号处理系统114或其部件或子系统,例如耙组合器202、处理器1314中的一或多个、被配置成形成耙式输出的一或多个装置或其组合。
所属领域的技术人员将进一步了解,结合本文中所揭示的实施例而描述的各个说明性逻辑方框、配置、模块、电路和算法步骤可以实现为电子硬件、由处理装置(例如,硬件处理器)执行的计算机软件或两者的组合。上面已经在功能方面对各个说明性部件、方框、配置、模块、电路和步骤进行了总体描述。将此功能实现为硬件还是可执行软件取决于特定应用和强加于整个系统的设计约束。技术人员可以针对每个特定应用以不同方式实现所描述的功能,但是此些实现决策不应被解释为导致脱离本公开的范围。
结合本文中所揭示的实施例而描述的方法或算法的步骤可以直接体现于硬件中、由处理器执行的软件模块中或两者的组合中。软件模块可以驻留在存储器装置中,例如RAM、MRAM、STT-MRAM、闪存、ROM、PROM、EPROM、EEPROM、寄存器、硬盘、可移动盘或CD-ROM。示范性存储器装置耦合到处理器,使得处理器可以从存储器装置读取信息和向存储器装置写入信息。在替代方案中,存储器装置可以是处理器的组成部分。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在计算装置或用户终端中。在替代方案中,处理器和存储介质可作为分立部件驻留在计算装置或用户终端中。
提供所揭示的实施方式的以上描述是为了使所属领域的技术人员能够制作或使用所揭示的实施方式。对于本领域技术人员来说,对这些实施方式的各种修改是显而易见的,并且在不脱离本公开的范围的情况下,本文中定义的原理可以应用于其它实施方式。因此,本公开并不旨在限于本文中所示出的实施方式,而是与符合由所附权利要求限定的原理和新颖特征的可能的最宽范围相一致。

Claims (30)

1.一种设备,其包括:
多个麦克风,其被配置成生成多个音频信号,所述多个麦克风中的每个麦克风被配置成基于在所述麦克风处检测到的远场声学环境的声音来生成所述多个音频信号中的相应音频信号;
信号处理系统,其被配置成处理所述多个音频信号以生成至少一个处理后的音频信号,所述信号处理系统被配置成在以第一操作模式操作时更新一或多个处理参数,并且被配置成在以第二操作模式操作时使用所述一或多个处理参数的静态版本;和
关键字检测系统,其被配置成基于所述至少一个处理后的音频信号来执行关键字检测,以确定所述声音是否包含对应于关键字的话语,并且基于所述关键字检测的结果来向所述信号处理系统发送控制信号,以将所述信号处理系统的操作模式从所述第一操作模式改变为所述第二操作模式。
2.根据权利要求1所述的设备,其中所述信号处理系统被配置成基于对应于所述话语的所述声音的一部分的到达方向DOA来生成目标音频信号,并且被配置成基于所述关键字检测的结果来向语音识别系统提供所述目标音频信号。
3.根据权利要求1所述的设备,其中所述信号处理系统包含噪声消除系统,其被配置成减少所述远场声学环境的噪声分量。
4.根据权利要求3所述的设备,其中所述一或多个处理参数包含噪声消除参数,并且其中所述噪声消除系统被配置成在以所述第一操作模式操作时使用自适应噪声消除参数,并且被配置成在以所述第二操作模式操作时使用静态噪声消除参数。
5.根据权利要求1所述的设备,其中所述信号处理系统包含波束形成器,其中所述一或多个处理参数包含波束形成参数,并且所述波束形成器被配置成在以所述第一操作模式操作时使用自适应波束形成参数,并且被配置成在以所述第二操作模式操作时使用静态波束形成参数。
6.根据权利要求5所述的设备,其中基于对应于所述话语的所述声音的一部分的到达方向DOA来确定所述静态波束形成参数。
7.根据权利要求1所述的设备,其中所述信号处理系统包含空值形成器,其中所述一或多个处理参数包含空值形成参数,并且所述空值形成器被配置成在以所述第一操作模式操作时使用自适应空值形成参数,并且被配置成在以所述第二操作模式操作时使用静态空值形成参数。
8.根据权利要求7所述的设备,其中所述信号处理系统包含波束形成器,其中所述波束形成器被配置成在以所述第一操作模式操作时和在以所述第二操作模式操作时使用自适应波束形成参数。
9.根据权利要求1所述的设备,其进一步包括声学环境分析器,用于生成描述所述远场声学环境的数据,并且用于向所述关键字检测系统或语音识别系统中的至少一个提供描述所述远场声学环境的所述数据,所述数据基于对应于所述远场声学环境的噪声分量的噪声信号。
10.根据权利要求9所述的设备,其中描述所述远场声学环境的所述数据包含信噪比、噪声类型指示符或其组合。
11.根据权利要求1所述的设备,其进一步包括语音识别系统,用于分析与所述关键字相关联的语音输入,并且用于基于所述语音输入的言语内容发起动作。
12.根据权利要求11所述的设备,其中所述语音识别系统被配置成响应于检测到与所述关键字相关联的所述语音输入的结束,生成第二控制信号,以将所述信号处理系统的操作模式从所述第二操作模式改变为所述第一操作模式。
13.根据权利要求1所述的设备,其进一步包括网络接口,所述网络接口耦合到所述信号处理系统,并且被配置成在所述关键字检测系统检测到所述关键字之后,经由网络向语音识别装置发送编码与所述关键字相关联的语音输入的信号。
14.根据权利要求1所述的设备,其中所述信号处理系统被配置成生成包含所述至少一个处理后的音频信号的多个定向的处理后的音频信号,所述多个定向的处理后的音频信号中的每个定向的处理后的音频信号编码来自所述远场声学环境与对应的方向相关联的一部分的声音,并且其中所述关键字检测系统被配置成基于所述多个定向的处理后的音频信号中的每个定向的处理后的音频信号来执行所述关键字检测。
15.根据权利要求14所述的设备,其中所述关键字检测系统基于确定所述多个定向的处理后的音频信号中的至少一个定向的处理后的音频信号编码对应于所述话语的所述声音的一部分,向所述信号处理系统发送所述控制信号,并且其中所述控制信号基于所述多个定向的处理后的音频信号中的哪个定向的处理后的音频信号编码对应于所述话语的所述声音的所述部分来指示对应于所述话语的所述声音的所述部分的到达方向DOA。
16.根据权利要求15所述的设备,其中所述关键字检测系统被配置成确定所述多个定向的处理后的音频信号中的每个定向的处理后的音频信号的置信度度量,并且其中所述控制信号基于哪些置信度度量满足置信度阈值来生成。
17.根据权利要求16所述的设备,其中所述信号处理系统被配置成在以所述第一操作模式操作时向所述关键字检测系统提供所述多个定向的处理后的音频信号中的每个定向的处理后的音频信号,并且被配置成在以所述第二操作模式操作时向语音识别系统仅提供所述定向的处理后的音频信号的子集。
18.根据权利要求17所述的设备,其中所述定向的处理后的音频信号的所述子集对应于与满足所述置信度阈值的置信度度量相关联的特定定向的处理后的音频信号。
19.根据权利要求14所述的设备,其中所述控制信号基于所述关键字检测的结果来指示对应于所述话语的所述声音的一部分的到达方向DOA。
20.根据权利要求19所述的设备,其中所述信号处理系统包含波束形成器和耦合到所述波束形成器的耙组合器,其中所述波束形成器被配置成生成所述多个定向的处理后的音频信号,并且所述耙组合器被配置成在以所述第二操作模式操作时,组合所述多个定向的处理后的音频信号中的两个或两个以上,以基于所述控制信号来形成耙式波束形成器输出。
21.一种用于处理远场声学环境的声音的方法,所述方法包括:
获得多个音频信号,所述多个音频信号中的每个音频信号由多个麦克风中的相应麦克风基于在所述相应麦克风处检测到的所述远场声学环境的所述声音来生成;
在信号处理系统处,处理所述多个音频信号以生成至少一个处理后的音频信号;
在关键字检测系统处,基于所述至少一个处理后的音频信号来执行关键字检测,以确定所述声音是否包含对应于关键字的话语;和
基于所述关键字检测的结果将所述信号处理系统的操作模式从第一操作模式改变为第二操作模式,其中所述信号处理系统在以所述第一操作模式操作时更新一或多个处理参数,并且在以所述第二操作模式操作时使用所述一或多个处理参数的静态版本。
22.根据权利要求21所述的方法,其进一步包括:在将所述信号处理系统的操作模式改变为所述第二操作模式之后并且基于检测到与所述关键字相关联的语音输入的结束,将所述信号处理系统的操作模式从所述第二操作模式改变为所述第一操作模式。
23.根据权利要求21所述的方法,其进一步包括:基于对应于所述话语的所述声音的一部分的到达方向DOA来生成目标音频信号,并且基于所述关键字检测的结果来向语音识别系统提供所述目标音频信号。
24.根据权利要求21所述的方法,其进一步包括:在检测到所述关键字之后,经由网络向语音识别装置发送编码与所述关键字相关联的语音输入的信号。
25.根据权利要求21所述的方法,其进一步包括:
在所述信号处理系统处,生成包含所述至少一个处理后的音频信号的多个定向的处理后的音频信号,所述多个定向的处理后的音频信号中的每个定向的处理后的音频信号编码来自所述远场声学环境与对应的方向相关联的一部分的声音;和
在所述关键字检测系统处,基于所述多个定向的处理后的音频信号中的每个定向的处理后的音频信号来执行所述关键字检测。
26.根据权利要求25所述的方法,其进一步包括:
在所述关键字检测系统处,确定所述多个定向的处理后的音频信号中的至少一个定向的处理后的音频信号编码对应于所述话语的所述声音的一部分;和
从所述关键字检测系统向所述信号处理系统发送控制信号,所述控制信号基于所述多个定向的处理后的音频信号中的哪个定向的处理后的音频信号编码对应于所述话语的所述声音的所述部分来指示对应于所述话语的所述声音的所述部分的到达方向DOA。
27.根据权利要求26所述的方法,其进一步包括:当所述信号处理系统以所述第二操作模式操作时,组合所述多个定向的处理后的音频信号中的两个或两个以上,以基于所述控制信号来形成耙式输出。
28.一种用于处理远场声学环境的声音的设备,所述设备包括:
用于生成多个音频信号的装置,所述多个音频信号中的每个音频信号基于所述远场声学环境的所述声音来生成;
用于处理所述多个音频信号以生成至少一个处理后的音频信号的装置;
用于关键字检测以基于所述至少一个处理后的音频信号来确定所述声音是否包含对应于关键字的话语的装置;和
用于改变所述用于处理所述多个音频信号的装置的操作模式的装置,所述用于改变操作模式的装置被配置成基于所述用于关键字检测的装置的关键字检测结果将所述用于处理所述多个音频信号的装置的操作模式从第一操作模式改变为第二操作模式,其中所述用于处理所述多个音频信号的装置被配置成在以第一操作模式操作时更新一或多个处理参数,并且被配置成在以所述第二操作模式操作时使用所述一或多个处理参数的静态版本。
29.根据权利要求28所述的设备,其中所述用于处理所述多个音频信号的装置被配置成生成包含所述至少一个处理后的音频信号的多个定向的处理后的音频信号,所述多个定向的处理后的音频信号中的每个定向的处理后的音频信号编码来自所述远场声学环境与对应的方向相关联的一部分的声音,并且其中所述用于关键字检测的装置被进一步配置成确定所述多个定向的处理后的音频信号中的每个定向的处理后的音频信号的置信度度量,并且基于哪些置信度度量满足置信度阈值来生成与改变所述用于处理所述多个音频信号的装置的操作模式相关联的控制信号。
30.一种存储用于处理远场声学环境的声音的指令的非暂时性计算机可读介质,所述指令可由处理器执行以使所述处理器执行包括以下的操作:
获得多个音频信号,所述多个音频信号中的每个音频信号由多个麦克风中的相应麦克风基于在所述相应麦克风处检测到的所述远场声学环境的所述声音来生成;
处理所述多个音频信号以生成至少一个处理后的音频信号;
基于所述至少一个处理后的音频信号来执行关键字检测,以确定所述声音是否包含对应于关键字的话语;和
基于所述关键字检测的结果将信号处理系统的操作模式从第一操作模式改变为第二操作模式,其中所述信号处理系统在以第一操作模式操作时更新一或多个处理参数,并且在以所述第二操作模式操作时使用所述一或多个处理参数的静态版本。
CN201780044749.8A 2016-07-29 2017-06-21 远场音频处理 Pending CN109564762A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662368499P 2016-07-29 2016-07-29
US62/368,499 2016-07-29
US15/387,411 2016-12-21
US15/387,411 US10431211B2 (en) 2016-07-29 2016-12-21 Directional processing of far-field audio
PCT/US2017/038581 WO2018022222A1 (en) 2016-07-29 2017-06-21 Far-field audio processing

Publications (1)

Publication Number Publication Date
CN109564762A true CN109564762A (zh) 2019-04-02

Family

ID=61009974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780044749.8A Pending CN109564762A (zh) 2016-07-29 2017-06-21 远场音频处理

Country Status (4)

Country Link
US (1) US10431211B2 (zh)
EP (1) EP3491645B1 (zh)
CN (1) CN109564762A (zh)
WO (1) WO2018022222A1 (zh)

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10388273B2 (en) * 2016-08-10 2019-08-20 Roku, Inc. Distributed voice processing system
US10375473B2 (en) * 2016-09-20 2019-08-06 Vocollect, Inc. Distributed environmental microphones to minimize noise during speech recognition
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10593328B1 (en) * 2016-12-27 2020-03-17 Amazon Technologies, Inc. Voice control of remote device
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) * 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10354635B2 (en) * 2017-11-01 2019-07-16 Bose Corporation Adaptive nullforming for selective audio pick-up
US11430421B2 (en) * 2017-11-01 2022-08-30 Bose Corporation Adaptive null forming and echo cancellation for selective audio pick-up
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
FR3075427A1 (fr) * 2017-12-18 2019-06-21 Orange Assistant vocal
CN108269567B (zh) * 2018-01-23 2021-02-05 北京百度网讯科技有限公司 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
CN108322855B (zh) * 2018-02-11 2020-11-17 北京百度网讯科技有限公司 用于获取音频信息的方法及装置
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US10586538B2 (en) * 2018-04-25 2020-03-10 Comcast Cable Comminications, LLC Microphone array beamforming control
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) * 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN110738990B (zh) * 2018-07-19 2022-03-25 南京地平线机器人技术有限公司 识别语音的方法和装置
CN110164423B (zh) * 2018-08-06 2023-01-20 腾讯科技(深圳)有限公司 一种方位角估计的方法、设备及存储介质
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
EP3624465B1 (en) * 2018-09-11 2021-03-17 Sonova AG Hearing device control with semantic content
CN109192219B (zh) * 2018-09-11 2021-12-17 四川长虹电器股份有限公司 基于关键词改进麦克风阵列远场拾音的方法
GB201814988D0 (en) * 2018-09-14 2018-10-31 Squarehead Tech As Microphone Arrays
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11315553B2 (en) 2018-09-20 2022-04-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
WO2020068126A1 (en) * 2018-09-28 2020-04-02 Hewlett-Packard Development Company, L.P. Volume adjustments based on ambient sounds and voices
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
CN110491403B (zh) * 2018-11-30 2022-03-04 腾讯科技(深圳)有限公司 音频信号的处理方法、装置、介质和音频交互设备
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10811032B2 (en) * 2018-12-19 2020-10-20 Cirrus Logic, Inc. Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
CN109767769B (zh) * 2019-02-21 2020-12-22 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及空调
WO2020183219A1 (en) * 2019-03-10 2020-09-17 Kardome Technology Ltd. Speech enhancement using clustering of cues
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
CN109949810B (zh) * 2019-03-28 2021-09-07 荣耀终端有限公司 一种语音唤醒方法、装置、设备及介质
CN110085258B (zh) * 2019-04-02 2023-11-14 深圳Tcl新技术有限公司 一种提高远场语音识别率的方法、系统及可读存储介质
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11380312B1 (en) * 2019-06-20 2022-07-05 Amazon Technologies, Inc. Residual echo suppression for keyword detection
EP4005229A2 (en) * 2019-07-30 2022-06-01 Dolby Laboratories Licensing Corporation Acoustic zoning with distributed microphones
WO2021021857A1 (en) * 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Acoustic echo cancellation control for distributed audio devices
US11659332B2 (en) 2019-07-30 2023-05-23 Dolby Laboratories Licensing Corporation Estimating user location in a system including smart audio devices
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
IT201900015506A1 (it) 2019-09-03 2021-03-03 St Microelectronics Srl Procedimento di elaborazione di un segnale elettrico trasdotto da un segnale vocale, dispositivo elettronico, rete connessa di dispositivi elettronici e prodotto informatico corrispondenti
KR102327441B1 (ko) * 2019-09-20 2021-11-17 엘지전자 주식회사 인공지능 장치
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
CN111369999B (zh) * 2020-03-12 2024-05-14 北京百度网讯科技有限公司 一种信号处理方法、装置以及电子设备
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN113849792A (zh) * 2020-06-10 2021-12-28 瑞昱半导体股份有限公司 适于具有锁定功能的电子装置的电子组件及解除锁定方法
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
CN112365899A (zh) * 2020-10-30 2021-02-12 北京小米松果电子有限公司 语音处理方法、装置、存储介质及终端设备
US11462219B2 (en) 2020-10-30 2022-10-04 Google Llc Voice filtering other speakers from calls and audio messages
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN113380247A (zh) * 2021-06-08 2021-09-10 阿波罗智联(北京)科技有限公司 多音区语音唤醒、识别方法和装置、设备、存储介质
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법
CN115527526B (zh) * 2022-11-28 2023-03-31 南方电网数字电网研究院有限公司 端到端远场语音识别系统训练方法、装置、计算机设备
KR102661431B1 (ko) * 2023-11-20 2024-04-26 주식회사 액션파워 분류된 고객 음성 피드백을 생성하는 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049587A1 (en) * 2000-10-23 2002-04-25 Seiko Epson Corporation Speech recognition method, storage medium storing speech recognition program, and speech recognition apparatus
CN1753084A (zh) * 2004-09-23 2006-03-29 哈曼贝克自动系统股份有限公司 使用噪声降低的多通道自适应语音信号处理
CN102968999A (zh) * 2011-11-18 2013-03-13 斯凯普公司 处理音频信号
CN104429100A (zh) * 2012-07-02 2015-03-18 高通股份有限公司 用于环绕声回声降低的系统及方法
US20150379992A1 (en) * 2014-06-30 2015-12-31 Samsung Electronics Co., Ltd. Operating method for microphones and electronic device supporting the same
US9373338B1 (en) * 2012-06-25 2016-06-21 Amazon Technologies, Inc. Acoustic echo cancellation processing based on feedback from speech recognizer

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003296976A1 (en) * 2002-12-11 2004-06-30 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
US8719930B2 (en) * 2010-10-12 2014-05-06 Sonus Networks, Inc. Real-time network attack detection and mitigation infrastructure
US9100734B2 (en) 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
US8650029B2 (en) 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
US10448161B2 (en) 2012-04-02 2019-10-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US20130329908A1 (en) 2012-06-08 2013-12-12 Apple Inc. Adjusting audio beamforming settings based on system state
US9984675B2 (en) 2013-05-24 2018-05-29 Google Technology Holdings LLC Voice controlled audio recording system with adjustable beamforming
GB2523984B (en) 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
US9443516B2 (en) 2014-01-09 2016-09-13 Honeywell International Inc. Far-field speech recognition systems and methods
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US10885900B2 (en) * 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049587A1 (en) * 2000-10-23 2002-04-25 Seiko Epson Corporation Speech recognition method, storage medium storing speech recognition program, and speech recognition apparatus
CN1753084A (zh) * 2004-09-23 2006-03-29 哈曼贝克自动系统股份有限公司 使用噪声降低的多通道自适应语音信号处理
CN102968999A (zh) * 2011-11-18 2013-03-13 斯凯普公司 处理音频信号
US9373338B1 (en) * 2012-06-25 2016-06-21 Amazon Technologies, Inc. Acoustic echo cancellation processing based on feedback from speech recognizer
CN104429100A (zh) * 2012-07-02 2015-03-18 高通股份有限公司 用于环绕声回声降低的系统及方法
US20150379992A1 (en) * 2014-06-30 2015-12-31 Samsung Electronics Co., Ltd. Operating method for microphones and electronic device supporting the same

Also Published As

Publication number Publication date
EP3491645B1 (en) 2020-07-29
US20180033428A1 (en) 2018-02-01
EP3491645A1 (en) 2019-06-05
WO2018022222A1 (en) 2018-02-01
US10431211B2 (en) 2019-10-01

Similar Documents

Publication Publication Date Title
CN109564762A (zh) 远场音频处理
US10249299B1 (en) Tailoring beamforming techniques to environments
US9685171B1 (en) Multiple-stage adaptive filtering of audio signals
US9494683B1 (en) Audio-based gesture detection
EP2508009B1 (en) Device and method for capturing and processing voice
CN105532017B (zh) 用于波束形成以获得语音和噪声信号的装置和方法
US20210219053A1 (en) Multiple-source tracking and voice activity detections for planar microphone arrays
US10957338B2 (en) 360-degree multi-source location detection, tracking and enhancement
US9294860B1 (en) Identifying directions of acoustically reflective surfaces
JP7498560B2 (ja) システム及び方法
JP2020109498A (ja) システム、及び、方法
JP7324753B2 (ja) 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調
CN109599124A (zh) 一种音频数据处理方法、装置及存储介质
US10264354B1 (en) Spatial cues from broadside detection
CN110088834A (zh) 用于语音去混响的多输入多输出(mimo)音频信号处理
US9521486B1 (en) Frequency based beamforming
CN109286875A (zh) 用于定向拾音的方法、装置、电子设备和存储介质
JP2015520884A (ja) ユーザインターフェースを表示するためのシステムおよび方法
US11189303B2 (en) Persistent interference detection
Potamitis et al. An integrated system for smart-home control of appliances based on remote speech interaction.
US11264017B2 (en) Robust speaker localization in presence of strong noise interference systems and methods
CN110249637A (zh) 使用波束形成的音频捕获
CN110140359A (zh) 使用波束形成的音频捕获
CN110140360A (zh) 使用波束形成的音频捕获的方法和装置
CN110517702B (zh) 信号生成的方法、基于人工智能的语音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190402

WD01 Invention patent application deemed withdrawn after publication