CN102893331A - 用于使用头戴式麦克风对来处理语音信号的方法、设备和计算机可读媒体 - Google Patents

用于使用头戴式麦克风对来处理语音信号的方法、设备和计算机可读媒体 Download PDF

Info

Publication number
CN102893331A
CN102893331A CN2011800246260A CN201180024626A CN102893331A CN 102893331 A CN102893331 A CN 102893331A CN 2011800246260 A CN2011800246260 A CN 2011800246260A CN 201180024626 A CN201180024626 A CN 201180024626A CN 102893331 A CN102893331 A CN 102893331A
Authority
CN
China
Prior art keywords
signal
voice
microphone
sound signal
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800246260A
Other languages
English (en)
Other versions
CN102893331B (zh
Inventor
安德烈·古斯塔沃·普奇·舍维茨瓦
埃里克·维瑟
迪内希·拉马克里希南
伊恩·埃尔纳恩·刘
李仁�
布赖恩·莫迈尔
朴勋真
路易斯·D·奥利韦拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN102893331A publication Critical patent/CN102893331A/zh
Application granted granted Critical
Publication of CN102893331B publication Critical patent/CN102893331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Abstract

用于话音通信的噪声消除头戴式耳机含有位于用户的每一耳朵处的麦克风和话音麦克风。所述头戴式耳机在发射路径和接收路径两者上共享所述耳朵麦克风的使用以改善信噪比。

Description

用于使用头戴式麦克风对来处理语音信号的方法、设备和计算机可读媒体
根据35U.S.C.§119主张优先权
本专利申请案主张2010年5月20日申请的题目为“噪声减少/消除和语音增强系统中的多麦克风配置(Multi-Microphone Configurations in Noise Reduction/Cancellation andSpeech Enhancement Systems)”的第61/346,841号临时申请案和2010年6月18日申请的题目为“具有多麦克风阵列配置的噪声消除头戴式耳机(Noise Cancelling Headset withMultiple Microphone Array Configurations)”的第61/356,539号临时申请案的优先权,以上临时申请案转让给本受让人。
技术领域
本发明涉及语音信号的处理。
背景技术
以前在安静的办公室或家庭环境中进行的许多活动当今是在声学上可变的情形中进行,例如汽车、街道或咖啡厅。举例来说,一个人可能希望使用话音通信信道与另一个人通信。所述信道可例如由移动无线手持机或头戴式耳机、步话机、双向无线电、汽车套件或另一通信装置提供。因此,大量的话音通信是在用户被其他人包围的环境中使用移动装置(例如,智能电话、手持机和/或头戴式耳机)来进行,所述环境具有在人们趋于聚集的情况下通常遇到的种类的噪声内容。此噪声往往使得在电话对话的远端的用户分心或烦恼。而且,许多标准自动化商业事务(例如,账户余额或股票报价查询)采用了基于话音辨识的数据查询,且这些系统的准确性可能受到干扰噪声的显著妨碍。
对于其中通信发生于有噪声的环境中的应用,可能期望将所需语音信号与背景噪声分离。可将噪声界定为干扰所需信号或以另外方式使所需信号降级的所有信号的组合。背景噪声可包含产生于声环境内的许多噪声信号,例如其他人的背景对话,以及从所需信号和/或其它信号中的任一者产生的反射和混响。除非所需语音信号与背景噪声分离,否则可能难以可靠且有效地利用所需语音信号。在一个特定实例中,在有噪声的环境中产生语音信号,且使用语音处理方法来将所述语音信号与环境噪声分离。
在移动环境中遇到的噪声可包含多种不同分量,例如竞争性讲话者、音乐、混串音、街道噪声和/或机场噪声。由于此噪声的特征通常是非静止的且接近于用户自己的频率特征,因此所述噪声可能难以使用传统单个麦克风或固定波束成形型方法来抑制。单个麦克风噪声减少技术通常仅抑制静止噪声,且常常在提供噪声抑制的同时带来所需语音的显著降级。然而,基于多麦克风的高级信号处理技术通常能够以实质噪声减少提供优良的话音质量,且可合意地支持用于话音通信的移动装置在有噪声的环境中的使用。
使用头戴式耳机的话音通信可受到近端处环境噪声的存在的影响。所述噪声可减少正发射到远端的信号以及正从远端接收的信号的信噪比(SNR),从而有损智能性且减少网络容量和终端电池寿命。
发明内容
根据一般配置的一种信号处理方法包含:产生基于第一音频信号与第二音频信号之间的关系的话音活动检测信号;以及将所述话音活动检测信号应用于基于第三音频信号的信号以产生语音信号。在此方法中,所述第一音频信号是基于(A)由位于用户的头的横向侧的第一麦克风且(B)响应于所述用户的话音而产生的信号,且所述第二音频信号是基于由位于所述用户的头的另一横向侧的第二麦克风响应于所述用户的所述话音而产生的信号。在此方法中,所述第三音频信号是基于由不同于所述第一和第二麦克风的第三麦克风响应于所述用户的所述话音而产生的信号,且所述第三麦克风位于所述用户的头的冠状面中,所述冠状面比所述第一和第二麦克风中的任一者更靠近所述用户的话音的中心出口点。还揭示具有有形特征的计算机可读存储媒体,所述有形特征致使机器读取所述特征以执行此方法。
根据一般配置的一种用于信号处理的设备包含:用于产生基于第一音频信号与第二音频信号之间的关系的话音活动检测信号的装置;以及用于将所述话音活动检测信号应用于基于第三音频信号的信号以产生语音信号的装置。在此设备中,所述第一音频信号是基于(A)由位于用户的头的横向侧的第一麦克风且(B)响应于所述用户的话音而产生的信号,且所述第二音频信号是基于由位于所述用户的头的另一横向侧的第二麦克风响应于所述用户的所述话音而产生的信号。在此设备中,所述第三音频信号是基于由不同于所述第一和第二麦克风的第三麦克风响应于所述用户的所述话音而产生的信号,且所述第三麦克风位于所述用户的头的冠状面中,所述冠状面比所述第一和第二麦克风中的任一者更靠近所述用户的话音的中心出口点。
根据另一一般配置的一种用于信号处理的设备包含:第一麦克风,其经配置以在所述设备的使用期间位于用户的头的横向侧;第二麦克风,其经配置以在所述设备的所述使用期间位于所述用户的头的另一横向侧;以及第三麦克风,其经配置以在所述设备的所述使用期间位于所述用户的头的冠状面中,所述冠状面比所述第一和第二麦克风中的任一者更靠近所述用户的话音的中心出口点。此设备还包含:话音活动检测器,其经配置以产生基于第一音频信号与第二音频信号之间的关系的话音活动检测信号;以及语音估计器,其经配置以将所述话音活动检测信号应用于基于第三音频信号的信号以产生语音估计。在此设备中,所述第一音频信号是基于在所述设备的所述使用期间由所述第一麦克风响应于所述用户的所述话音而产生的信号;所述第二音频信号是基于在所述设备的所述使用期间由所述第二麦克风响应于所述用户的所述话音而产生的信号;且所述第三音频信号是基于在所述设备的所述使用期间由所述第三麦克风响应于所述用户的所述话音而产生的信号。
附图说明
图1A展示根据一般配置的设备A100的框图。
图1B展示音频预处理级AP10的实施方案AP20的框图。
图2A展示佩戴于头与躯干模拟器(HATS)的相应耳朵上的噪声参考麦克风ML10和MR10的正视图。
图2B展示佩戴于HATS的左耳上的噪声参考麦克风ML10的左侧视图。
图3A展示在设备A100的使用期间在若干位置中的每一者处麦克风MC10的实例的定向的实例。
图3B展示耦合到便携式媒体播放器D400的设备A100的有绳实施方案的典型应用的正视图。
图4A展示设备A100的实施方案A110的框图。
图4B展示语音估计器SE10的实施方案SE20的框图。
图4C展示语音估计器SE20的实施方案SE22的框图。
图5A展示语音估计器SE22的实施方案SE30的框图。
图5B展示设备A100的实施方案A130的框图。
图6A展示设备A100的实施方案A120的框图。
图6B展示语音估计器SE40的框图。
图7A展示设备A100的实施方案A140的框图。
图7B展示耳塞EB10的正视图。
图7C展示耳塞EB10的实施方案EB12的正视图。
图8A展示设备A100的实施方案A150的框图。
图8B展示处于设备A100的有绳实施方案中的耳塞EB10和话音麦克风MC10的实例。
图9A展示语音估计器SE50的框图。
图9B展示耳塞EB10的实例的侧视图。
图9C展示TRRS插头的实例。
图9D展示其中挂机开关SW10集成到绳CD10中的实例。
图9E展示包含插头P10和同轴插头P20的连接器的实例。
图10A展示设备A100的实施方案A200的框图。
图10B展示音频预处理级AP12的实施方案AP22的框图。
图11A展示耳杯EC10的横截面图。
图11B展示耳杯EC10的实施方案EC20的横截面图。
图11C展示耳杯EC20的实施方案EC30的横截面。
图12展示设备A100的实施方案A210的框图。
图13A展示包含设备A100的实施方案的通信装置D20的框图。
图13B和13C展示噪声参考麦克风ML10、MR10和误差麦克风ME10的额外候选位置。
图14A到14D展示在装置D20内可包含的头戴式耳机D100的各种视图。
图15展示在使用中的装置D100的实例的俯视图。
图16A到16E展示在如本文描述的设备A100的实施方案内可使用的装置的额外实例。
图17A展示根据一般配置的方法M100的流程图。
图17B展示方法M100的实施方案M110的流程图。
图17C展示方法M100的实施方案M120的流程图。
图17D展示方法M100的实施方案M130的流程图。
图18A展示方法M100的实施方案M140的流程图。
图18B展示方法M100的实施方案M150的流程图。
图18C展示方法M100的实施方案M200的流程图。
图19A展示根据一般配置的设备MF100的框图。
图19B展示设备MF100的实施方案MF140的框图。
图19C展示设备MF100的实施方案MF200的框图。
图20A展示设备A100的实施方案A160的框图。
图20B展示语音估计器SE50的布置的框图。
图21A展示设备A100的实施方案A170的框图。
图21B展示语音估计器SE40的实施方案SE42的框图。
具体实施方式
有效噪声消除(ANC,也称为有效噪声减少)是通过产生波形来有效地减少环境噪声的技术,所述波形是噪声波的逆形式(例如,具有相同电平和反转的相位),也称为“反相位”或“反噪声”波形。ANC系统大体上使用一个或一个以上麦克风来拾取外部噪声参考信号,从噪声参考信号产生反噪声波形,且通过一个或一个以上扬声器来再生反噪声波形。此反噪声波形与原始噪声波相消地干涉以减少到达用户的耳朵的噪声的电平。
有效噪声消除技术可应用于声音再生装置(例如,头戴受话器)和个人通信装置(例如,蜂窝式电话)以减少来自周围环境的噪声。在这些应用中,ANC技术的使用可在递送有用的声音信号(例如,音乐和远端话音)的同时减少到达耳朵的背景噪声的电平(例如,减少高达二十分贝)。
噪声消除头戴式耳机包含佩戴于用户头上的一对噪声参考麦克风以及经布置以从用户接收声话音信号的第三麦克风。描述用于如下操作的系统、方法、设备和计算机可读媒体:使用来自所述头戴式对的信号来支持用户耳朵处的自动噪声消除,且产生施加到来自第三麦克风的信号的话音活动检测信号。此头戴式耳机可例如用来同时地改善近端SNR和远端SNR,同时使用于噪声检测的麦克风的数目最少。
除非由其上下文明确限制,否则本文中使用术语“信号”来指示其普通意义中的任一者,包含在电线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制,否则本文中使用术语“产生”来指示其普通意义中的任一者,例如计算或以另外方式产生。除非由其上下文明确限制,否则本文中使用术语“计算”来指示其普通意义中的任一者,例如运算、估计、平滑和/或从多个值中进行选择。除非由其上下文明确限制,否则使用术语“获得”来指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非由其上下文明确限制,否则使用术语“选择”来指示其普通意义中的任一者,例如识别、指示、应用和/或使用两者或两者以上的集合中的至少一者且少于全部。在术语“包括”用于本描述和权利要求书中的情况下,其不排除其它元件或操作。术语“基于”(如在“A基于B”中)用以指示其普通意义中的任一者,包含如下情况:(i)“从...导出”(例如,“B是A的前体”),(ii)“至少基于”(例如,“A至少基于B”),以及如果在特定上下文中适当的话,(iii)“等于”(例如,“A等于B”)。类似地,使用术语“响应于”来指示其普通意义中的任一者,包含“至少响应于”。
对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声学敏感面的中心的位置,除非上下文另外指示。对多麦克风音频感测装置的麦克风的“方向”或“定向”的参考指示与所述麦克风的声学敏感平面垂直的方向,除非上下文另外指示。根据特定上下文,术语“通道”有时用以指示信号路径且在其它时候用以指示由此路径载运的信号。除非另外指示,否则术语“系列”用以指示两个或两个以上项目的序列。术语“对数”用以指示以十为基数的对数,但此运算向其它基数的扩展属于本发明的范围内。术语“频率分量”用以指示信号的一组频率或频带当中的一者,例如所述信号的频域表示(例如,如由快速傅立叶变换产生)或所述信号的子带(例如,巴克(Bark)尺度或梅尔(mel)尺度子带)的样本。
除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地既定揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地既定揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考由其特定上下文指示的方法、设备和/或系统来使用。一般地且可互换地使用术语“方法”、“过程”、“程序”和“技术”,除非特定上下文另外指示。也一般地且可互换地使用术语“设备”和“装置”,除非特定上下文另外指示。术语“元件”和“模块”通常用以指示较大配置的一部分。除非由其上下文明确限制,否则本文中使用术语“系统”来指示其普通意义中的任一者,包含“交互以用于共同目的的一组元件”。一个文档的一部分以引用的方式的任何并入也应理解为并入了在所述部分内参考的术语或变量的定义(其中这些定义在所述文档的其它地方出现)以及在所并入的部分中参考的任何图式。
术语“译码器”、“编解码器”和“译码系统”可互换使用以表示包含至少一个编码器和一对应解码器的系统,所述编码器经配置以接收和编码音频信号的帧(可能在一个或一个以上预处理操作之后,例如感知加权和/或其它滤波操作),所述解码器经配置以产生所述帧的经解码表示。此编码器和解码器通常部署于通信链路的相对终端处。为了支持全双工通信,通常在此链路的每一端处部署编码器和解码器两者的实例。
在本描述中,术语“经感测音频信号”表示经由一个或一个以上麦克风接收的信号,且术语“经再生音频信号”表示根据从存储装置检索和/或经由到另一装置的有线或无线连接接收的信息而再生的信号。例如通信或重放装置等音频再生装置可经配置以将经再生音频信号输出到所述装置的一个或一个以上扬声器。替代地,此装置可经配置以将经再生音频信号输出到经由电线或无线地耦合到所述装置的听筒、其它头戴式耳机或外部扬声器。参考用于例如电话等话音通信的收发器应用,经感测音频信号是将由收发器发射的近端信号,且经再生音频信号是由收发器(例如,经由无线通信链路)接收的远端信号。参考例如经记录音乐、视频或话音(例如,经MP3编码的音乐文件、电影、视频剪辑、音频书籍、播客)的重放或此类内容的流式传输等移动音频再生应用,经再生音频信号是正在重放或流式传输的音频信号。
供与蜂窝式电话手持机(例如,智能电话)一起使用的头戴式耳机通常含有用于在用户的一只耳朵处再生远端音频信号的扬声器,以及用于接收用户的话音的主要麦克风。所述扬声器通常佩戴于用户的耳朵处,且所述麦克风布置于头戴式耳机内以在使用期间经安置以在可接受地高的SNR的情况下接收用户的话音。所述麦克风通常位于例如佩戴于用户的耳朵处的外壳内、在从此外壳朝向用户的嘴延伸的吊杆或其它突出部上,或在将音频信号载运到蜂窝式电话和从蜂窝式电话载运音频信号的绳上。头戴式耳机与手持机之间的音频信息(以及可能的控制信息,例如电话挂机状态)的通信可在有线或无线的链路上执行。
所述头戴式耳机还可包含位于用户的耳朵处的一个或一个以上额外的次要麦克风,其可用于改善主要麦克风信号中的SNR。此头戴式耳机通常不包含位于用户的另一只耳朵处的次要麦克风或将其用于此目的。
立体声头戴受话器或耳塞可与便携式媒体播放器一起使用以用于播放经再生立体声媒体内容。此装置包含佩戴于用户的左耳处的扬声器以及以相同方式佩戴于用户的右耳处的扬声器。此装置还可在用户的每一耳朵处包含一对噪声参考麦克风中的相应一者,所述一对噪声参考麦克风经安置以产生环境噪声信号以支持ANC功能。由噪声参考麦克风产生的环境噪声信号通常不用来支持对用户的话音的处理。
图1A展示根据一般配置的设备A100的框图。设备A100包含:第一噪声参考麦克风ML10,其佩戴于用户头部的左侧上以接收声环境噪声且经配置以产生第一麦克风信号MS10;第二噪声参考麦克风MR10,其佩戴于用户头部的右侧上以接收声环境噪声且经配置以产生第二麦克风信号MS20;以及话音麦克风MC10,其由用户佩戴且经配置以产生第三麦克风信号MS30。图2A展示头与躯干模拟器或“HATS”(Bruel and Kjaer,DK)的正视图,其中噪声参考麦克风ML10和MR10佩戴于HATS的相应耳朵上。图2B展示HATS的左侧视图,其中噪声参考麦克风ML10佩戴于HATS的左耳朵上。
麦克风ML10、MR10和MC10中的每一者可具有全向、双向或单向(例如,心形线)的响应。可用于麦克风ML10、MR10和MC10中的每一者的各种类型的麦克风包含(不限于)压电麦克风、动态麦克风和驻极体麦克风。
可预期虽然噪声参考麦克风ML10和MR10可拾取用户的话音的能量,但麦克风信号MS10和MS20中用户的话音的SNR将过低而无法用于话音传输。然而,本文描述的技术基于来自第三麦克风信号MS30的信息,使用此话音信息来改善语音信号的一个或一个以上特性(例如,SNR)。
麦克风MC10布置于设备A100内,使得在设备A100的使用期间,麦克风信号MS30中用户的话音的SNR大于麦克风信号MS10和MS20中的任一者中用户的话音的SNR。替代地或另外,与噪声参考麦克风ML10和MR10中的任一者相比,话音麦克风MC10在使用期间经布置以朝向用户的话音的中心出口点较直接地定向、较靠近中心出口点,和/或位于较靠近中心出口点的冠状面中。用户的话音的中心出口点在图2A和2B中由十字准线指示且经界定为用户头部的中间矢状面中的位置,在所述位置处,用户的上唇和下唇的外表面在说话期间会合。中间冠状面与中心出口点之间的距离通常在从七、八或九到10、11、12、13或14厘米的范围内(例如,80到130mm)。(此处假定点与平面之间的距离是沿着与平面垂直的线所测量。)在设备A100的使用期间,话音麦克风MC10通常位于中心出口点的三十厘米以内。
在设备A100的使用期间话音麦克风MC10的位置的若干不同实例在图2A中由标记的圆展示。在位置A中,话音麦克风MC10安装于帽子或头盔的帽沿中。在位置B中,话音麦克风MC10安装于一副眼镜、护目镜、安全眼镜或其它眼饰物的中间桥中。在位置CL或CR中,话音麦克风MC10安装于一副眼镜、护目镜、安全眼镜或其它眼饰物的左边撑或右边撑中。在位置DL或DR中,话音麦克风MC10安装于包含麦克风ML10和MR10中的对应一者的头戴式耳机外壳的前向部分中。在位置EL或ER中,话音麦克风MC10安装于从佩戴于用户耳朵上的钩朝向用户的嘴延伸的吊杆上。在位置FL、FR、GL或GR中,话音麦克风MC10安装于将话音麦克风MC10以及噪声参考麦克风ML10和MR10中的对应一者电连接到通信装置的绳上。
图2B的侧视图说明所有位置A、B、CL、DL、EL、FL和GL均处于比噪声参考麦克风ML10(例如,如相对于位置FL所说明)更靠近中心出口点的冠状面(即,平行于中间冠状面的平面,如图示)中。图3A的侧视图展示在这些位置中的每一者处麦克风MC10的实例的定向的实例,且说明在位置A、B、DL、EL、FL和GL处的实例中的每一者比麦克风ML10(与图的平面垂直而定向)更直接地朝向中心出口点定向。
图3B展示经由绳CD10耦合到便携式媒体播放器D400的设备A100的有绳实施方案的典型应用的正视图。此装置可经配置以用于重放经压缩音频或视听信息,例如根据标准压缩格式(例如,动画专家组(MPEG)-1音频层3(MP3)、MPEG-4部分14(MP4)、Windows媒体音频/视频的版本(WMA/WMV)(华盛顿雷蒙德市微软公司)、高级音频译码(AAC)、国际电信联盟(ITU)-T H.264或类似格式)编码的文件或流。
设备A100包含音频预处理级,其对麦克风信号MS10、MS20和MS30中的每一者执行一个或一个以上预处理操作以产生第一音频信号AS10、第二音频信号AS20和第三音频信号AS30中的对应一者。此预处理操作可包含(不限于)阻抗匹配、模/数转换、增益控制和/或在模拟和/或数字域中的滤波。
图1B展示包含模拟预处理级P10a、P10b和P10c的音频预处理级AP10的实施方案AP20的框图。在一个实例中,级P10a、P10b和P10c各自经配置以对对应的麦克风信号执行高通滤波操作(例如,具有50、100或200Hz的截止频率)。通常,级P10a和P10b将经配置以分别对第一音频信号AS 10和第二音频信号AS20执行相同功能。
可能期望音频预处理级AP10产生多通道信号作为数字信号,也就是说,作为样本序列。音频预处理级AP20例如包含模/数转换器(ADC)C10a、C10b和C10c,其各自经配置以对对应的模拟信号进行取样。用于声应用的典型取样速率包含8kHz、12kHz、16kHz,和约8到约16kHz的范围内的其它频率,但也可使用高达约44.1、48或192kHz的取样速率。通常,转换器C10a和C10b将经配置以用相同速率分别对第一音频信号AS10和第二音频信号AS20进行取样,同时转换器C10c可经配置以用相同速率或用不同速率(例如,以较高速率)对第三音频信号C10c进行取样。
在此特定实例中,音频预处理级AP20还包含数字预处理级P20a、P20b和P20c,其各自经配置以对对应的经数字化通道执行一个或一个以上预处理操作(例如,频谱成形)。通常,级P20a和P20b将经配置以分别对第一音频信号AS10和第二音频信号AS20执行相同功能,而级P20c可经配置以对第三音频信号AS30执行一个或一个以上不同功能(例如,频谱成形、噪声减少和/或回声消除)。
具体来说注意到,第一音频信号AS10和/或第二音频信号AS20可基于来自两个或两个以上麦克风的信号。举例来说,图13B展示麦克风ML10(和/或MR10)的多个实例可位于用户头部的对应横向侧的若干位置的实例。另外或替代地,第三音频信号AS30可基于来自话音麦克风MC10的两个或两个以上实例(例如,安置于位置EL的主要麦克风以及安置于位置DL的次要麦克风,如图2B中所示)的信号。在这些情况下,音频预处理级AP10可经配置以对多个麦克风信号进行混频和/或执行其它处理操作以产生对应音频信号。
在语音处理应用(例如,话音通信应用,例如电话)中,可能期望对载运语音信息的音频信号的片段执行准确检测。此话音活动检测(VAD)例如在保存语音信息时可为重要的。语音译码器通常经配置以分配比用来对被识别为噪声的片段进行编码的位更多的位来对被识别为语音的片段进行编码,使得载运语音信息的片段的误识别可能降低经解码片段中的所述信息的质量。在另一实例中,噪声减少系统在话音活动检测级未能将低能量无话音语音片段识别为语音的情况下可能激进地衰减这些片段。
其中每一通道是基于由不同麦克风产生的信号的多通道信号通常含有可用于话音活动检测的关于源方向和/或接近度的信息。此多通道VAD操作可例如通过区别含有从特定方向范围(例如,例如用户的嘴等所需声音源的方向)到达的方向性声音的片段与含有漫射声音或从其它方向到达的方向性声音的片段而基于到达方向(DOA)。
设备A100包含话音活动检测器VAD10,其经配置以基于来自第一音频信号AS10的信息与来自第二音频信号AS20的信息之间的关系而产生话音活动检测(VAD)信号VS10。话音活动检测器VAD10通常经配置以处理音频信号AS10和AS20的一系列对应片段中的每一者以指示音频信号AS30的对应片段中是否存在话音活动状态的转变。典型的片段长度是从约五或十毫秒到约四十或五十毫秒,且片段可重叠(例如,与邻近片段重叠25%或50%)或不重叠。在一个特定实例中,将信号AS10、AS20和AS30中的每一者划分为一系列不重叠的片段或“帧”,每一者具有十毫秒的长度。由话音活动检测器VAD10处理的片段也可为由不同操作处理的较大片段的片段(即,“子帧”),或反之亦然。
在第一实例中,话音活动检测器VAD10经配置以通过在时域中使第一音频信号AS10和第二音频信号AS20的对应片段交叉相关来产生VAD信号VS10。话音活动检测器VAD10可经配置以根据例如以下表达式来计算在延迟-d到+d的范围上的交叉相关r(d):
R ( d ) = Σ i = max ( 1 , d + 1 ) min ( N - d , N + d ) x [ i - d ] y [ i ] - - - ( 1 )
R ( d ) = 1 N - 1 Σ i = max ( 1 , d + 1 ) min ( N - d , N + d ) x [ i - d ] y [ i ] , - - - ( 2 )
其中x表示第一音频信号AS10,y表示第二音频信号AS20,且N表示每一片段中的样本数目。
替代于使用如上所示的零填充,表达式(1)和(2)也可经配置以将每一片段处理为环形的或在适当时延伸到前一或后一片段中。在这些情况中的任一者中,话音活动检测器VAD10可经配置以通过根据例如以下表达式对r(d)进行正规化来计算交叉相关:
r ‾ ( d ) = r ( d ) Σ i = 1 N ( x [ i ] - μ x ) 2 Σ i = 1 N ( y [ i ] - μ y ) 2 , - - - ( 3 )
其中μx表示第一音频信号AS10的片段的平均值,且μy表示第二音频信号AS20的片段的平均值。
可能期望配置话音活动检测器VAD10以在零延迟附近的有限范围上计算交叉相关。对于其中麦克风信号的取样速率为八千赫的实例,可能期望VAD在正负一、二、三、四或五个样本的有限范围上使信号交叉相关。在此情况下,每一样本对应于125微秒的时间差(等效地,4.25厘米的距离)。对于其中麦克风信号的取样速率为十六千赫的实例,可能期望VAD在正负一、二、三、四或五个样本的有限范围上使信号交叉相关。在此情况下,每一样本对应于62.5微秒的时间差(等效地,2.125厘米的距离)。
另外或替代地,可能期望配置话音活动检测器VAD10以在所需频率范围上计算交叉相关。举例来说,可能期望配置音频预处理级AP10以提供第一音频信号AS10和第二音频信号AS20作为具有例如从50(或100、200或500)Hz到500(或1000、1200、1500或2000)Hz的范围的带通信号。明确地预期且在此揭示这十九个特定范围实例中的每一者(不包含从500到500Hz的无意义情况)。
在以上交叉相关实例中的任一者中,话音活动检测器VAD10可经配置以产生VAD信号VS10以使得每一片段的VAD信号VS10的状态是基于零延迟下的对应交叉相关值。在一个实例中,话音活动检测器VAD10经配置以产生VAD信号VS10以在零延迟值是针对片段计算出的延迟值当中的最大值的情况下具有指示话音活动的存在的第一状态(例如,高或一),且否则具有指示缺乏话音活动的第二状态(例如,低或零)。在另一实例中,话音活动检测器VAD10经配置以产生VAD信号VS10以在零延迟值高于(替代地,不小于)阈值的情况下具有第一状态,且否则具有第二状态。在此情况下,所述阈值可为固定的,或可基于第三音频信号AS30的对应片段的平均样本值和/或基于在一个或一个以上其它延迟下片段的交叉相关结果。在又一实例中,话音活动检测器VAD10经配置以产生VAD信号VS10以在零延迟值大于(替代地,至少等于)+1样本和-1样本的延迟的对应值当中的最高值的指定比例(例如,0.7或0.8)的情况下具有第一状态,且否则具有第二状态。话音活动检测器VAD10还可经配置以组合两个或两个以上这些结果(例如,使用AND和/或OR逻辑)。
话音活动检测器VAD10可经配置以包含惯性机制以延迟信号VS10中的状态改变。此机制的一个实例是经配置以禁止检测器VAD10将其输出从第一状态切换到第二状态直到检测器继续在若干连续帧(例如,一个、两个、三个、四个、五个、八个、十个、十二个或二十个帧)的拖尾周期上检测到缺乏话音活动为止的逻辑。举例来说,此拖尾逻辑可经配置以致使VAD10继续在最近检测到话音活动之后的某个周期中将片段识别为语音。
在第二实例中,话音活动检测器VAD10经配置以基于在时域中在片段上第一音频信号AS10与第二音频信号AS20的电平(也称为增益)之间的差来产生VAD信号VS10。话音活动检测器VAD10的此实施方案可例如经配置以当一个或两个信号的电平高于阈值(指示信号正在从靠近麦克风的源到达)且所述两个信号的电平大体上相等(指示信号正在从所述两个麦克风之间的位置到达)时指示话音检测。在此情况下,术语“大体上相等”指示在较小信号的电平的5%、10%、15%、20%或25%以内。用于片段的电平量度的实例包含总量值(例如,样本值的绝对值的和)、平均量值(例如,每样本)、RMS振幅、中值量值、峰值量值、总能量(例如,样本值的平方和)以及平均能量(例如,每样本)。为了以电平差技术获得准确结果,可能期望将两个麦克风通道的响应相对于彼此进行校准。
话音活动检测器VAD10可经配置以使用上文描述的时域技术中的一者或一者以上来以相对极少的计算代价来计算VAD信号VS10。在又一实施方案中,话音活动检测器VAD10经配置以针对每一片段的多个子带中的每一者计算VAD信号VS10的此值(例如,基于交叉相关或电平差)。在此情况下,话音活动检测器VAD10可经布置以从一组子带滤波器获得时域子带信号,所述子带滤波器组是根据均匀子带划分或不均匀子带划分(例如,根据巴克(Bark)或梅尔(Mel)尺度)来配置。
在又一实例中,话音活动检测器VAD10经配置以在频域中基于第一音频信号AS10与第二音频信号AS20之间的差而产生VAD信号VS10。一类频域VAD操作是针对所需频率范围中片段的每一频率分量,基于多通道信号的两个通道中的每一者中的频率分量之间的相位差。此VAD操作可经配置以在相位差与频率之间的关系在一宽频率范围(例如500到2000Hz)上一致时(即,当相位差与频率的相关是线性的时)指示话音检测。下文更详细描述此基于相位的VAD操作。另外或替代地,话音活动检测器VAD10可经配置以基于在频域中(例如,在一个或一个以上特定频率范围上)在片段上第一音频信号AS10与第二音频信号AS20的电平之间的差来产生VAD信号VS10。另外或替代地,话音活动检测器VAD10可经配置以基于在频域中(例如,在一个或一个以上特定频率范围上)在片段上第一音频信号AS10与第二音频信号AS20之间的交叉相关来产生VAD信号VS10。可能期望配置频域话音活动检测器(例如,基于相位、基于电平或基于交叉相关的检测器,如上所述)以仅考虑对应于第三音频信号AS30的当前音高估计的倍数的频率分量。
基于通道间增益差的多通道话音活动检测器以及单通道(例如,基于能量的)话音活动检测器通常依赖于来自一宽频率范围(例如,0到4kHz、500到4000Hz、0到8kHz或500到8000Hz范围)的信息。基于到达方向(DOA)的多通道话音活动检测器通常依赖于来自低频率范围(例如,500到2000Hz或500到2500Hz范围)的信息。假定有话音的语音在这些范围中通常具有显著能量内容,那么这些检测器可大体上经配置以可靠地指示有话音的语音的片段。可与本文描述的那些相组合的另一VAD策略是多通道VAD信号,其基于低频率范围(例如,低于900Hz或低于500Hz)中的通道间增益差。此检测器可预期以低错误警报率准确地检测有话音的片段。
话音活动检测器VAD10可经配置以执行且组合来自本文描述的对第一音频信号AS10和第二音频信号AS20的VAD操作中的一者以上的结果,以产生VAD信号VS10。替代地或另外,话音活动检测器VAD10可经配置以对第三音频信号AS30执行一个或一个以上VAD操作,且将来自这些操作的结果与来自本文描述的对第一音频信号AS 10和第二音频信号AS20的VAD操作中的一者或一者以上的结果进行组合以产生VAD信号VS10。
图4A展示设备A100的实施方案A110的框图,其包含话音活动检测器VAD10的实施方案VAD12。话音活动检测器VAD12经配置以接收第三音频信号AS30且也基于对信号AS30的一个或一个以上单通道VAD操作的结果而产生VAD信号VS10。这些单通道VAD操作的实例包含经配置以基于一个或一个以上因数将片段分类为有效(例如,语音)或无效(例如,噪声)的技术,所述因数例如为帧能量、信噪比、周期性、语音和/或残余(例如,线性预测译码残余)的自相关、过零率和/或第一反射系数。此分类可包含将此因数的值或量值与阈值进行比较和/或将此因数的改变的量值与阈值进行比较。替代地或另外,此分类可包含将一个频带中的此因数(例如,能量)的值或量值或此因数的改变的量值与另一频带中的类似值进行比较。可能期望实施此VAD技术以基于多个准则(例如,能量、过零率等)和/或最近VAD决策的记忆来执行话音活动检测。
VAD操作的结果可通过检测器VAD12与来自本文描述的对第一音频信号AS10和第二音频信号AS20的VAD操作中的一者以上的结果相组合,所述VAD操作的一个实例包含将片段的高频带和低频带能量与例如在2010年10月的3GPP2文档C.S0014-D(v3.0)的第4.7章(第4-48到4-55页)中描述的相应阈值进行比较,所述文档的题目为“增强型可变速率编解码器,用于宽带展频数字系统的语音服务选项3、68、70和73(Enhanced Variable Rate Codec,Speech Service Options 3,68,70,and 73for WidebandSpread Spectrum Digital Systems)”(在www-dot-3gpp-dot-org处可在线获得)。2011年4月20日申请的题目为“用于语音特征检测的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR SPEECH FEATURE DETECTION)”的第13/092,502号(代理人案号100839)美国专利申请案(维瑟(Visser)等人)中描述其它实例(例如,检测语音起始和/或截止、比较帧能量与平均能量的比率和/或低频带能量与高频带能量的比率)。
如本文中描述的话音活动检测器VAD10(例如,VAD10、VAD12)的实施方案可经配置以将VAD信号VS10产生为二进制值信号或旗标(即,具有两个可能状态)或多值信号(即,具有两个以上可能状态)。在一个实例中,检测器VAD10或VAD12经配置以通过对二进制值信号执行时间平滑操作(例如,使用一阶IIR滤波器)而产生多值信号。
可能期望配置设备A100以使用VAD信号VS10用于噪声减少和/或抑制。在一个此实例中,VAD信号VS10作为增益控制而应用于第三音频信号AS30(例如,以衰减噪声频率分量和/或片段)。在另一此实例中,VAD信号VS10经应用以计算(例如,更新)对第三音频信号AS30的噪声减少操作(例如,使用已由VAD操作分类为噪声的频率分量或片段)的噪声估计,所述噪声减少操作是基于经更新的噪声估计。
设备A100包含语音估计器SE10,其经配置以根据VAD信号VS30从第三音频信号SA30产生语音信号SS10。图4B展示语音估计器SE10的实施方案SE20的框图,其包含增益控制元件GC10。增益控制元件GC10经配置以将VAD信号VS10的对应状态应用于第三音频信号AS30的每一片段。在一般实例中,将增益控制元件GC10实施为乘法器,且VAD信号VS10的每一状态具有在从零到一的范围中的值。
图4C展示语音估计器SE20的实施方案SE22的框图,其中增益控制元件GC10实施为选择器GC20(例如,对于其中VAD信号VS10为二进制值的情况)。增益控制元件GC20可经配置以通过传递由VAD信号VS10识别为含有话音的片段且仅阻挡由VAD信号VS10识别为噪声的片段(也称为“选通”)来产生语音信号SS10。
通过衰减或移除第三音频信号AS30的被识别为缺乏话音活动的片段,语音估计器SE20或SE22可预期产生含有的噪声总体上少于第三音频信号AS30的语音信号SS10。然而还可预期,此噪声也将存在于第三音频信号AS30的含有话音活动的片段中,且可能期望配置语音估计器SE10以执行一个或一个以上额外操作以减少这些片段内的噪声。
典型环境中的声学噪声可包含混串音噪声、机场噪声、街道噪声、竞争性讲话者的话音和/或来自干扰源(例如,电视机或广播)的声音。因此,此噪声通常是非静止的且可具有接近于用户自身话音的谱的平均谱。根据单通道VAD信号(例如,仅基于第三音频信号AS30的VAD信号)计算的噪声功率参考信号通常仅是近似的静止噪声估计。而且,此计算通常带来噪声功率估计延迟,使得仅可在显著延迟之后执行对应的增益调整。可能期望获得环境噪声的可靠且同时期的估计。
通过使用VAD信号VS10来分类第三音频信号AS30的分量和/或片段,可计算改善的单通道噪声参考(也称为“准单通道”)。此噪声估计可能比其它方法更快地可用,因为其不需要长期估计。此单通道噪声参考也可俘获非静止噪声,这不同于基于长期估计的方法,基于长期估计的方法通常不能支持非静止噪声的移除。此方法可提供快速、准确且非静止的噪声参考。设备A100可经配置以通过用噪声估计的前一状态来平滑当前噪声片段(例如,可能在每一频率分量上使用一级平滑器)来产生噪声估计。
图5A展示语音估计器SE22的实施方案SE30的框图,其包含选择器GC20的实施方案GC22。选择器GC22经配置以基于VAD信号VS10的对应状态而将第三音频信号AS30分离为有噪声的语音片段NSF10的流和噪声片段NF10的流。语音估计器SE30还包含噪声估计器NS10,其经配置以基于来自噪声片段NF10的信息而更新噪声估计NE10(例如,第三音频信号AS30的噪声分量的频谱分布)。
噪声估计器NS10可经配置以将噪声估计NE10计算为噪声片段NF10的时间平均值。噪声估计器NS10可例如经配置以使用每一噪声片段来更新噪声估计。此更新可在频域中通过对频率分量值进行时间平滑来执行。举例来说,噪声估计器NS10可经配置以使用一阶IIR滤波器来用当前噪声片段的对应分量的值更新噪声估计的每一分量的前一值。与仅基于来自第三音频信号AS30的VAD信息的噪声估计相比,此噪声估计可预期提供更可靠的噪声参考。
语音估计器SE30还包含噪声减少模块NR10,其经配置以对有噪声的语音片段NSF10执行噪声减少操作以产生语音信号SS10。在一个此实例中,噪声减少模块NR10经配置以在频域中通过从有噪声的语音帧NSF10减去噪声估计NE10来执行频谱减法操作以产生语音信号SS10。在另一此实例中,噪声减少模块NR10经配置以使用噪声估计NE10来对有噪声的语音帧NSF10执行维纳(Wiener)滤波操作以产生语音信号SS10。
噪声减少模块NR10可经配置以在频域中执行噪声减少操作且在时域中转换所得信号(例如,经由反变换模块)以产生语音信号SS10。在噪声估计器NS10和/或噪声减少模块NR10内可使用的后处理操作(例如,残余噪声抑制、噪声估计组合)的另外实例描述于第61/406,382号美国专利申请案(新等人,2010年10月25日申请)中。
图6A展示设备A100的实施方案A120的框图,其包含话音活动检测器VAD10的实施方案VAD14和语音估计器SE10的实施方案SE40。话音活动检测器VAD14经配置以产生VAD信号VS10的两个版本:如上所述的二进制值信号VS10a,和如上所述的多值信号VS10b。在一个实例中,检测器VAD14经配置以通过对信号VS10a执行时间平滑操作(例如,使用一阶IIR滤波器)且可能执行惯性操作(例如,拖尾)而产生信号VS10b。
图6B展示语音估计器SE40的框图,其包含增益控制元件GC10的实例,其经配置以根据VAD信号VS10b对第三音频信号AS30执行非二进制增益控制以产生语音估计SE10。语音估计器SE40还包含选择器GC20的实施方案GC24,其经配置以根据VAD信号VS10a从第三音频信号AS30产生噪声帧NF10的流。
如上所述,来自麦克风阵列ML10和MR10的空间信息用以产生VAD信号,所述VAD信号经应用以增强来自麦克风MC10的话音信息。还可能期望使用来自麦克风阵列MC10和ML10(或MC10和MR10)的空间信息来增强来自麦克风MC10的话音信息。
在第一实例中,基于来自麦克风阵列MC10和ML10(或MC10和MR10)的空间信息的VAD信号用以增强来自麦克风MC10的话音信息。图5B展示设备A100的此实施方案A130的框图。设备A130包含第二话音活动检测器VAD20,其经配置以基于来自第二音频信号AS20的信息和来自第三音频信号AS30的信息而产生第二VAD信号VS20。检测器VAD20可经配置以在时域中或在频域中操作,且可实施为本文描述的多通道话音活动检测器中的任一者的实例(例如,基于通道间电平差的检测器;基于到达方向的检测器,包含基于相位和基于交叉相关的检测器)。
对于其中使用基于增益的方案的情况,检测器VAD20可经配置以产生VAD信号VS20以当第三音频信号AS30的电平与第二音频信号AS20的电平的比率超过(替代地,不小于)阈值时指示话音活动的存在,且否则指示缺乏话音活动。等效地,检测器VAD20可经配置以产生VAD信号VS20以当第三音频信号AS30的电平的对数与第二音频信号AS20的电平的对数之间的差超过(替代地,不小于)阈值时指示话音活动的存在,且否则指示缺乏话音活动。
对于其中使用基于DOA的方案的情况,检测器VAD20可经配置以产生VAD信号VS20以当片段的DOA接近于麦克风对的在从麦克风MR10到麦克风MC10的方向上的轴线(例如,在所述轴线的十、十五、二十、三十或四十五度以内)时指示话音活动的存在,且否则指示缺乏话音活动。
设备A130还包含话音活动检测器VAD10的实施方案VAD16,其经配置以将VAD信号VS20(例如,使用AND和/或OR逻辑)与来自本文描述的对第一音频信号AS10和第二音频信号AS20的VAD操作中的一者或一者以上的结果相组合(例如,基于时域交叉相关的操作),且可能与来自本文描述的对第三音频信号AS30的一个或一个以上VAD操作的结果相组合,以获得VAD信号VS10。
在第二实例中,来自麦克风阵列MC10和ML10(或MC10和MR10)的空间信息用以增强来自在语音估计器SE10上游的麦克风MC10的话音信息。图7A展示设备A100的此实施方案A140的框图。设备A140包含空间选择性处理(SSP)滤波器SSP10,其经配置以对第二音频信号AS20和第三音频信号AS30执行SSP操作以产生经滤波信号FS10。这些SSP操作的实例包含(不限于)盲源分离、波束成形、空波束成形和方向性掩蔽方案。此操作可例如经配置以使得与第三音频信号AS30的对应帧相比,经滤波信号FS10的话音有效帧包含用户话音的较多能量(和/或来自其它方向性源和/或来自背景噪声的较少能量)。在此实施方案中,语音估计器SE10经布置以接收经滤波信号FS10作为输入来代替第三音频信号AS30。
图8A展示设备A100的实施方案A150的框图,其包含SSP滤波器SSP10的实施方案SSP12,其经配置以产生经滤波噪声信号FN10。滤波器SSP12可例如经配置以使得与第三音频信号AS30的对应帧相比,经滤波噪声信号FN10的帧包含来自方向性噪声源和/或来自背景噪声的较多能量)。设备A150还包含语音估计器SE30的实施方案SE50,其经配置和布置以接收经滤波信号FS10和经滤波噪声信号FN10作为输入。图9A展示语音估计器SE50的框图,其包含选择器GC20的实例,其经配置以根据VAD信号VS10从经滤波信号FS10产生有噪声的语音帧NSF10的流。语音估计器SE50还包含选择器GC24的实例,其经配置和布置以根据VAD信号VS10从经滤波噪声信号FN30产生噪声帧NF10的流。
在基于相位的话音活动检测器的一个实例中,在每一频率分量处应用方向性掩蔽功能以确定所述频率处的相位差是否对应于在所需范围内的方向,且根据在受测频率范围上的此掩蔽的结果来计算相干性测量且将其与阈值进行比较以获得二进制VAD指示。此方法可包含将每一频率处的相位差转换为不依赖于频率的方向指示符,例如到达方向或到达时间差(例如,使得可在所有频率处使用单个方向性掩蔽功能)。或者,此方法可包含将不同的相应掩蔽功能应用于在每一频率处观察到的相位差。
在基于相位的话音活动检测器的另一实例中,基于在受测频率范围中的个别频率分量的到达方向的分布形状(例如,个别DOA经分组在一起的紧密程度)来计算相干性测量。在任一情况下,可能期望仅基于作为当前音高估计的倍数的频率来配置基于相位的话音活动检测器以计算相干性测量。
举例来说,对于待检查的每一频率分量,基于相位的检测器可经配置以将相位估计为对应快速傅立叶变换(FFT)系数的虚数项与FFT系数的实数项的比率的反正切(也称为反切)。
可能期望配置基于相位的话音活动检测器以确定在宽带频率范围上每一对通道之间的方向相干性。此宽带范围可例如从0、50、100或200Hz的低频界限延伸到3、3.5或4kHz(或甚至更高,例如高达7或8kHz或更高)的高频界限。然而,检测器可能不必计算信号的整个带宽上的相位差。举例来说,对于此宽带范围中的许多频带,相位估计可为不实际的或不必要的。所接收波形在极低频率处的相位关系的实际评价通常需要变换器之间的对应较大的间距。因此,麦克风之间的最大可用间距可确立低频界限。另一方面,麦克风之间的距离不应超过最小波长的一半以便避免空间混叠。举例来说,八千赫的取样速率给出从零到四千赫的带宽。4kHz信号的波长为约8.5厘米,因此在此情况下,邻近的麦克风之间的间距不应超过约四厘米。可对麦克风通道进行低通滤波以便移除可能带来空间混叠的频率。
可能期望定目标于特定频率分量或特定频率范围,语音信号(或其它所需信号)在所述特定频率范围上可预期为方向上相干的。可预期例如方向性噪声(例如,来自例如汽车等源)和/或漫射噪声等背景噪声在同一范围上将不是方向上相干的。语音在从四千赫到八千赫的范围中往往具有低功率,因此可能期望在至少此范围上放弃相位估计。举例来说,可能期望在从约七百赫兹到约两千赫的范围上执行相位估计和确定方向相干性。
因此,可能期望配置检测器以针对少于全部的频率分量(例如,针对FFT的少于全部的频率样本)计算相位估计。在一个实例中,检测器针对700Hz到2000Hz的频率范围计算相位估计。对于四千赫带宽信号的128点FFT,700到2000Hz的范围大致对应于从第十个样本到第三十二个样本的23个频率样本。还可能期望配置检测器以仅考虑对应于信号的当前音高估计的倍数的频率分量的相位差。
基于相位的话音活动检测器可经配置以基于来自所计算得的相位差的信息来评估通道对的方向相干性。将多通道信号的“方向相干性”界定为信号的各种频率分量从同一方向到达的程度。对于理想的方向上相干的通道对,
Figure BDA00002424180000181
的值针对所有频率均等于常数k,其中k的值与到达方向θ和到达时间延迟τ相关。可例如通过针对每一频率分量根据其与特定方向一致的程度(例如,由方向性掩蔽功能指示)将所估计的到达方向分级(也可由相位差与频率的比率或由到达时间延迟来指示),且随后组合各种频率分量的分级结果以获得信号的相干性测量,来量化多通道信号的方向相干性。
可能期望产生相干性测量作为经时间平滑的值(例如,使用时间平滑功能计算相干性测量)。可将相干性测量的对比表达为相干性测量的当前值与相干性测量的随着时间的平均值(例如,在最近十个、二十个、五十个或一百个帧上的平均、模式或中值)之间的关系的值(例如,差或比率)。可使用时间平滑功能来计算相干性测量的平均值。基于相位的VAD技术,包含方向相干性的测量的计算和应用,还在例如第2010/0323652A1号和第2011/038489A1号美国公开专利申请案(维瑟(Visser)等人)中描述。
基于增益的VAD技术可经配置以基于每一通道的电平或增益测量的对应值之间的差来指示片段中的话音活动的存在或不存在。此增益测量(可在时域中或在频域中计算)的实例包含总量值、平均量值、RMS振幅、中值量值、峰值量值、总能量以及平均能量。可能期望配置检测器以对增益测量和/或所计算得的差执行时间平滑操作。基于增益的VAD技术可经配置以产生片段级结果(例如,在所需频率范围上)或者针对每一片段的多个子带中的每一者的结果。
通道之间的增益差可用于接近度检测,其可支持较激进的近场/远场区分,例如较好的前方噪声抑制(例如,对在用户前方的干扰性说话者的抑制)。取决于麦克风之间的距离,经平衡的麦克风通道之间的增益差将通常仅在源处于五十厘米或一米以内的情况下出现。
基于增益的VAD技术可经配置以检测当通道的增益之间的差大于阈值时片段是在麦克风阵列的端射方向上来自所需源(例如,以指示话音活动的检测)。替代地,基于增益的VAD技术可经配置以检测当通道的增益之间的差小于阈值时片段是在麦克风阵列的边射方向上来自所需源(例如,以指示话音活动的检测)。所述阈值可试探性地来确定,且可能期望取决于例如信噪比(SNR)、噪声底限等一个或一个以上因数而使用不同的阈值(例如,当SNR较低时使用较高阈值)。基于增益的VAD技术还在例如第2010/0323652A1号美国公开专利申请案(维瑟(Visser)等人)中描述。
图20A展示设备A100的实施方案A160的框图,其包含计算器CL10,计算机CL10经配置以基于来自第一麦克风信号MS10和第二麦克风信号MS20的信息来产生噪声参考N10。计算机CL10可例如经配置以将噪声参考N10计算为第一音频信号AS10与第二音频信号AS20之间的差(例如,通过从信号AS10减去信号AS20,或反之亦然)。设备A160还包含语音估计器SE50的实例,其经布置以接收第三音频信号AS30和噪声参考N10作为输入,如图20B所示,使得选择器GC20经配置以根据VAD信号VS10从第三音频信号AS30产生有噪声的语音帧NSF10的流,且选择器GC24经配置以根据VAD信号VS10从噪声参考N10产生噪声帧NF10的流。
图21A展示设备A100的实施方案A170的框图,其包含如上所述的计算机CL10的实例。设备A170还包含语音估计器SE40的实施方案SE42,如图21B所示,其经布置以接收第三音频信号AS30和噪声参考N10作为输入,使得增益控制元件GC10经配置以根据VAD信号VS10b对第三音频信号AS30执行非二进制增益控制以产生语音估计SE10,且选择器GC24经配置以根据VAD信号VS10a从噪声参考N10产生噪声帧NF10的流。
设备A100还可经配置以在用户的每一耳朵处再生音频信号。举例来说,设备A100可经实施以包含一对耳塞(例如,以如图3B所示佩戴)。图7B展示含有左扬声器LLS10和左噪声参考麦克风ML10的耳塞EB10的实例的正视图。在使用期间,耳塞EB10佩戴于用户的左耳处以将由左扬声器LLS10产生的声信号(例如,来自经由绳CD10接收的信号)引导到用户的耳道中。可能期望耳塞EB10的将声信号引导到用户的耳道中的部分由弹性材料制成或由弹性材料覆盖,例如弹性体(例如,硅酮橡胶),使得其可舒适地佩戴以形成与用户的耳道的密封。
图8B展示处于设备A100的有绳实施方案中的耳塞EB10和话音麦克风MC10的实例。在此实例中,麦克风MC10安装于绳CD10的半刚性电缆部分CB10上,位于距麦克风ML10约三到四厘米的距离处。半刚性电缆CB10可经配置为柔性的且重量轻,但仍足够硬以保持麦克风MC10在使用期间指向用户的嘴。图9B展示耳塞EB10的实例的侧视图,其中麦克风MC10在耳塞处安装于绳CD10的应变释放部分内,使得麦克风MC10在使用期间指向用户的嘴。
设备A100可经配置以完全佩戴于用户的头上。在此情况下,设备A100可经配置以产生语音信号SS10且将其发射到通信装置,且经由有线或无线链路从通信装置接收经再生音频信号(例如,远端通信信号)。替代地,设备A100可经配置以使得处理元件中的一些或全部(例如,话音活动检测器VAD10和/或语音估计器SE10)位于通信装置(其实例包含但不限于蜂窝式电话、智能电话、平板计算机和膝上型计算机)中。在任一情况下,经由有线链路与通信装置的信号传送可通过多触点插头来执行,例如图9C所示的3.5毫米尖端-环-环-套筒(tip-ring-ring-sleeve,TRRS)插头P10。
设备A100可经配置以包含挂机开关SW10(例如,在耳塞或耳杯上),通过所述开关,用户可控制通信装置的挂机和摘机状态(例如,以起始、接听和/或终止电话呼叫)。图9D展示其中挂机开关SW10集成到绳CD10中的实例,且图9E展示包含插头P10和同轴插头P20的连接器的实例,同轴插头P20经配置以将挂机开关SW10的状态传送到通信装置。
作为对耳塞的替代,设备A100可经实施以包含一对耳杯,其通常由将佩戴于用户的头上的带接合。图11A展示耳杯EC10的横截面图,其含有经布置以对用户的耳朵产生声信号(例如,来自无线地或经由绳CD10接收的信号)的右扬声器RLS10,以及经布置以经由耳杯外壳中的声端口接收环境噪声信号的右噪声参考麦克风MR10。耳杯EC10可经配置为压耳式(即,搁置于用户的耳朵上而不包围耳朵)或绕耳式(即,包围用户的耳朵)。
如同常规的有效噪声消除头戴式耳机,麦克风ML10和MR10中的每一者可个别地用来改善相应耳道入口位置处的接收SNR。图10A展示设备A100的此实施方案A200的框图。设备A200包含:ANC滤波器NCL10,其经配置以基于来自第一麦克风信号MS10的信息而产生反噪声信号AN10;以及ANC滤波器NCR10,其经配置以基于来自第二麦克风信号MS20的信息而产生反噪声信号AN20。
ANC滤波器NCL10、NCR10中的每一者可经配置以基于对应的音频信号AS10、AS20而产生对应的反噪声信号AN10、AN20。然而,可能期望反噪声处理路径绕过由数字预处理级P20a、P20b执行的一个或一个以上预处理操作(例如,回声消除)。设备A200包含音频预处理级AP10的此实施方案AP12,其经配置以基于来自第一麦克风信号MS10的信息而产生噪声参考NRF10,且基于来自第二麦克风信号MS20的信息而产生噪声参考NRF20。图10B展示音频预处理级AP12的实施方案AP22的框图,其中噪声参考NRF10、NRF20绕过对应的数字预处理级P20a、P20b。在图10A所示的实例中,ANC滤波器NCL10经配置以基于噪声参考NRF10而产生反噪声信号AN10,且ANC滤波器NCR10经配置以基于噪声参考NRF20而产生反噪声信号AN20。
ANC滤波器NCL10、NCR10中的每一者可经配置以根据任何所需ANC技术而产生对应的反噪声信号AN10、AN20。此ANC滤波器通常经配置以反转噪声参考信号的相位,且还可经配置以均衡频率响应和/或匹配或最小化延迟。可由ANC滤波器NCL10对来自麦克风信号ML10的信息(例如,对第一音频信号AS10或噪声参考NRF10)执行以产生反噪声信号AN10以及由ANC滤波器NCR10对来自麦克风信号MR10的信息(例如,对第二音频信号AS20或噪声参考NRF20)执行以产生反噪声信号AN20的ANC操作的实例包含相位反转滤波操作、最小均方(LMS)滤波操作、LMS的变体或衍生物(例如,滤波x LMS,如第2006/0069566号美国专利申请公开案(Nadjar等人)和其它处所描述)、以及数字虚拟地球算法(例如,如第5,105,377号美国专利(Ziegler)中描述)。ANC滤波器NCL10、NCR10中的每一者可经配置以在时域和/或在变换域(例如,傅立叶变换或其它频域)中执行对应的ANC操作。
设备A200包含音频输出级OL10,其经配置以接收反噪声信号AN10且产生对应的音频输出信号OS10以驱动经配置以佩戴于用户的左耳处的左扬声器LLS10。设备A200包含音频输出级OR10,其经配置以接收反噪声信号AN20且产生对应的音频输出信号OS20以驱动经配置以佩戴于用户的右耳处的右扬声器RLS10。音频输出级OL10、OR10可经配置以通过将反噪声信号AN10、AN20从数字形式转换到模拟形式和/或通过对信号执行任何其它所需音频处理操作(例如,滤波、放大、施加增益因数和/或控制信号的电平)而产生音频输出信号OS10、OS20。音频输出级OL10、OR10中的每一者还可经配置以将对应的反噪声信号AN10、AN20与经再生音频信号(例如,远端通信信号)和/或侧音信号(例如,来自话音麦克风MC10)进行混合。音频输出级OL10、OR10还可经配置以提供与对应扬声器的阻抗匹配。
可能期望将设备A100实施为包含误差麦克风的ANC系统(例如,反馈ANC系统)。图12展示设备A100的此实施方案A210的框图。设备A210包含:左误差麦克风MLE10,其经配置以佩戴于用户的左耳处以接收声误差信号且产生第一误差麦克风信号MS40;以及右误差麦克风MLE10,其经配置以佩戴于用户的右耳处以接收声误差信号且产生第二误差麦克风信号MS50。设备A210还包含音频预处理器级AP12的(例如,AP22的)实施方案AP32,其经配置以对麦克风信号MS40和MS50中的每一者执行如本文描述的一个或一个以上预处理操作(例如,模拟预处理、模/数转换)以产生第一误差信号ES10和第二误差信号ES20中的对应一者。
设备A210包含ANC滤波器NCL10的实施方案NCL12,其经配置以基于来自第一麦克风信号MS10的信息和来自第一误差麦克风信号MS40的信息而产生反噪声信号AN10。设备A210还包含ANC滤波器NCR10的实施方案NCR12,其经配置以基于来自第二麦克风信号MS20的信息和来自第二误差麦克风信号MS50的信息而产生反噪声信号AN20。设备A210还包含:左扬声器LLS10,其经配置以佩戴于用户的左耳处且基于反噪声信号AN10而产生声信号;以及右扬声器RLS10,其经配置以佩戴于用户的右耳处且基于反噪声信号AN20而产生声信号。
可能期望误差麦克风MLE10、MRE10中的每一者安置于由对应扬声器LLS10、RLS10产生的声场内。举例来说,可能期望误差麦克风与扬声器一起安置于一头戴受话器的耳杯或一耳塞的指向耳膜的部分内。可能期望误差麦克风MLE10、MRE10中的每一者位于比对应噪声参考麦克风ML10、MR10更靠近用户的耳道处。还可能期望误差麦克风与环境噪声声学绝缘。图7C展示含有左误差麦克风MLE10的耳塞EB10的实施方案EB12的正视图。图11B展示含有经布置以接收误差信号(例如,经由耳杯外壳中的声端口)的右误差麦克风MRE10的耳杯EC10的实施方案EC20的横截面图。可能期望使麦克风MLE10、MRE10与通过耳塞或耳杯的结构从对应扬声器LLS10、RLS10接收到的机械振动绝缘。
图11C展示还包含话音麦克风MC10的耳杯EC20的实施方案EC30的横截面(例如,在水平平面中或在垂直平面中)。在耳杯EC10的其它实施方案中,麦克风MC10可安装于从耳杯EC10的左实例或右实例延伸的吊杆或其它突出部上。
如本文描述的设备A100的实施方案包含组合了设备A110、A120、A130、A140、A200和/或A210的特征的实施方案。举例来说,设备A100可经实施以包含如本文描述的设备A110、A120和A130中的任两者或两者以上的特征。此组合也可经实施以包含如本文描述的设备A150的特征,或如本文描述的A140、A160和/或A170的特征,和/或如本文描述的设备A200或A210的特征。明确地预期且在此揭示每一此组合。还注意到,例如设备A130、A140和A150等实施方案可基于第三音频信号AS30而继续对语音信号提供噪声抑制,即使在用户选择不佩戴噪声参考麦克风ML10或麦克风ML10从用户的耳朵落下的情况下也是如此。进一步注意到,此处第一音频信号AS10与麦克风ML10之间的关联以及此处第二音频信号AS20与麦克风MR10之间的关联仅是为了方便,且还预期且揭示其中第一音频信号AS10改为与麦克风MR10相关联且第二音频信号AS20改为与麦克风MR10相关联的所有这些情况。
如本文描述的设备A100的实施方案的处理元件(即,并非变换器的元件)可以硬件和/或以硬件与软件和/或固件的组合来实施。举例来说,一个或一个以上(可能全部)这些处理元件可实施于处理器上,所述处理器也经配置以对语音信号SS10执行一个或一个以上其它操作(例如,声译码)。
可将麦克风信号(例如,MS10、MS20、MS30)路由到位于用于音频记录和/或话音通信应用的便携式音频感测装置中的处理芯片,所述便携式音频感测装置例如为电话手持机(例如,蜂窝式电话手持机)或智能电话、有线或无线头戴式耳机(例如,蓝牙头戴式耳机)、手持式音频和/或视频记录器、经配置以记录音频和/或视频内容的个人媒体播放器、个人数字助理(PDA)或其它手持式计算装置,以及笔记型计算机、膝上型计算机、上网本计算机、平板计算机或其它便携式计算装置。
便携式计算装置的类别当前包含具有例如以下名称的装置:膝上型计算机、笔记型计算机、上网本计算机、超便携式计算机、平板计算机、移动因特网装置、智能本或智能电话。一种类型的此装置具有如上所述的板或块配置(例如,在顶部表面上包含触摸屏显示器的平板计算机,例如iPad(加利福尼亚州库珀蒂诺市苹果公司(Apple Inc.,Cupertino,CA))、Slate(加利福尼亚州帕洛阿尔托市惠普公司(Hewlett-Packard Co.,PaloAlto,CA))或Streak(德克萨斯州圆石市戴尔公司(Dell Inc.,Round Rock,TX))),且还可包含滑出键盘。另一类型的此种装置具有包含显示屏的顶部面板和可包含键盘的底部面板,其中所述两个面板可以蛤壳或其它铰接关系连接。
可在如本文描述的设备A100的实施方案内使用的便携式音频感测装置的其它实例包含电话手持机的触摸屏实施方案,例如iPhone(加利福尼亚州库珀蒂诺市苹果公司(Apple Inc.,Cupertino,CA))、HD2(HTC,台湾,ROC)或CLIQ(伊利诺伊州夏姆伯格市摩托罗拉公司(Motorola,Inc.,Schaumberg,IL))。
图13A展示包含设备A100的实施方案的通信装置D20的框图。可经实施以包含本文描述的便携式音频感测装置中的任一者的实例的装置D20包含实施设备A100的处理元件(例如,音频预处理级AP10、话音活动检测器VAD10、语音估计器SE10)的芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组)。芯片/芯片组CS10可包含可经配置以执行设备A100的软件和/或固件部分(例如,作为指令)的一个或一个以上处理器。
芯片/芯片组CS10包含:接收器,其经配置以接收射频(RF)通信信号且解码并再生编码于所述RF信号内的音频信号;和发射器,其经配置以编码基于语音信号SS10的音频信号且发射描述所述经编码的音频信号的RF通信信号。此装置可经配置以经由一种或一种以上编码和解码方案(也被称为“编解码器”)无线地发射和接收话音通信数据。这些编解码器的实例包含:如2007年2月的题目为“增强型可变速率编解码器,用于宽带展频数字系统的语音服务选项3、68和70(Enhanced Variable Rate Codec,SpeechService Options 3,68,and 70for Wideband Spread Spectrum Digital Systems)”的第三代合作伙伴计划2(3GPP2)文档C.S0014-C(v1.0)(在www-dot-3gpp-dot-org处在线可得)中所描述的增强型可变速率编解码器;如2004年1月的题目为“用于宽带展频通信系统的可选模式声码器(SMV)服务选项(Selectable Mode Vocoder(SMV)Service Option forWideband Spread Spectrum Communication Systems)”的3GPP2文档C.S0030-0(v3.0)(在www-dot-3gpp-dot-org处在线可得)中所描述的可选模式声码器语音编解码器;如文档ETSI TS 126 092 V6.0.0(欧洲电信标准协会(ETSI),法国索菲亚安提波利斯企业特投(Sophia Antipolis Cedex,FR),2004年12月)中所描述的自适应多速率(AMR)语音编解码器;和如文档ETSI TS 126 192 V6.0.0(ETSI,2004年12月)中所描述的AMR宽带语音编解码器。
装置D20经配置以经由天线C30接收和发射RF通信信号。装置D20在到天线C30的路径中还可包含双工器和一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入且经由显示器C20显示信息。在此实例中,装置D20还包含一个或一个以上天线C40以支持全球定位系统(GPS)位置服务和/或与例如无线(例如,BluetoothTM)头戴式耳机等外部装置的短程通信。在另一实例中,此通信装置自身为蓝牙头戴式耳机且无小键盘C10、显示器C20和天线C30。
图14A到14D展示装置D20内可包含的头戴式耳机D100的各种视图。装置D100包含载有麦克风ML10(或MR10)和MC10的外壳Z10和从所述外壳延伸且封围扬声器的听筒Z20,所述扬声器经安置以产生进入用户的耳道的声信号(例如,扬声器LLS10或RLS10)。此装置可经配置以经由与例如蜂窝式电话手持机(例如,智能电话)等电话装置进行的有线(例如,经由绳CD10)或无线(例如,使用如由华盛顿州贝尔维尤市蓝牙特殊兴趣小组公司(Bluetooth Special Interest Group,Inc.,Bellevue,WA)发布的BluetoothTM协议的版本)通信来支持半双工或全双工电话。一般来说,如图14A、14B和14D中所示,头戴式耳机的外壳可为矩形或其它细长型的(例如,形状像小型吊杆),或可能较经圆化或甚至为圆形。外壳还可封围住电池和处理器和/或其它处理电路(例如,印刷电路板和安装于其上的组件)且可包含电端口(例如,小型通用串行总线(USB)或用于电池充电的其它端口)和例如一个或一个以上按钮开关和/或LED等用户接口特征。通常,外壳沿其长轴线的长度在1英寸到3英寸的范围内。
图15展示在使用中佩戴于用户的右耳处的装置D100的实例的俯视图。此图还展示也可包含于装置D20内的头戴式耳机D110的实例,其在使用中佩戴于用户的左耳处。载有噪声参考麦克风ML10且可能缺乏话音麦克风的装置D110可经配置以经由有线和/或无线链路与头戴式耳机D100和/或与装置D20内的另一便携式音频感测装置通信。
头戴式耳机还可包含通常可从头戴式耳机拆卸的紧固装置(例如耳钩Z30)。外部耳钩可为可反转的,(例如)以允许用户配置头戴式耳机以便在任一耳朵上使用。或者,可将头戴式耳机的听筒设计为内部紧固装置(例如,耳塞),其可包含可装卸式听筒以允许不同用户使用不同大小(例如,直径)的听筒来更好地配合特定用户的耳道的外部部分。
通常,装置D100的每一麦克风安装于装置内,在外壳中的充当声端口的一个或一个以上小孔后面。图14B到14D展示用于话音麦克风MC10的声端口Z40和用于噪声参考麦克风ML10(或MR10)的声端口Z50的位置。图13B和13C展示噪声参考麦克风ML10、MR10和误差麦克风ME10的额外候选位置。
图16A到16E展示在如本文描述的设备A100的实施方案内可使用的装置的额外实例。图16A展示眼镜(例如,处方眼镜、太阳镜或安全眼镜),其中噪声参考对中的每一麦克风ML10、MR10安装于边撑上且话音麦克风MC10安装于边撑或对应端片上。图16B展示头盔,其中话音麦克风MC10安装于用户的嘴处,且噪声参考对中的每一麦克风ML10、MR10安装于用户的头的对应侧处。图16C到16E展示护目镜(例如,滑雪护目镜)的实例,其中噪声参考对中的每一麦克风ML10、MR10安装于用户的头的对应侧,其中这些实例中的每一者展示话音麦克风MC10的不同对应位置。在如本文描述的设备A100的实施方案内可使用的在便携式音频感测装置的使用期间话音麦克风MC10的放置的额外实例包含(但不限于)以下各者:帽子或礼帽的帽檐或边沿;翻领、胸袋或肩部。
明确地揭示本文揭示的系统、方法和设备的适用性包含且不限于本文揭示和/或图2A到3B、7B、7C、8B、9B、11A到11C和13B到16E中所示的特定实例。在如本文描述的设备A100的实施方案内可使用的便携式计算装置的又一实例是免持汽车套件。此装置可经配置以安装于交通工具的仪表板、挡风玻璃、后视镜、遮光板或另一内表面中或上,或以可装卸方式固定到交通工具的仪表板、挡风玻璃、后视镜、遮光板或另一内表面。此装置可经配置以经由一个或一个以上编解码器(例如上文所列出的实例)无线地发射和接收话音通信数据。或者或另外,此装置可经配置以经由与例如蜂窝式电话手持机等电话装置进行的通信(例如,使用如上文所描述的BluetoothTM协议的版本)来支持半双工或全双工电话。
图17A展示根据一般配置的方法M100的流程图,其包含任务T100和T200。任务T100产生基于第一音频信号与第二音频信号之间的关系的话音活动检测信号(例如,本文参考话音活动检测器VAD10所描述)。第一音频信号是基于由位于用户的头的横向侧的第一麦克风响应于用户的话音而产生的信号。第二音频信号是基于由位于用户的头的另一横向侧的第二麦克风响应于用户的话音而产生的信号。任务T200将话音活动检测信号应用于第三音频信号以产生语音估计(例如,本文参考语音估计器SE10所描述)。第三音频信号是基于由不同于第一和第二麦克风的第三麦克风响应于用户的话音而产生的信号,且第三麦克风位于用户的头的冠状面中,所述冠状面比第一和第二麦克风中的任一者更靠近用户的话音的中心出口点。
图17B展示方法M100的实施方案M110的流程图,其包含任务T100的实施方案T110。任务T110基于第一音频信号与第二音频信号之间的关系且还基于来自第三音频信号的信息而产生VAD信号(例如,本文参考话音活动检测器VAD12所描述)。
图17C展示方法M100的实施方案M120的流程图,其包含任务T200的实施方案T210。任务T210经配置以将VAD信号应用于基于第三音频信号的信号以产生噪声估计,其中语音信号是基于所述噪声估计(例如,本文参考语音估计器SE30所描述)。
图17D展示方法M100的实施方案M130的流程图,其包含任务T400和任务T100的实施方案T120。任务T400基于第一音频信号与第三音频信号之间的关系而产生第二VAD信号(例如,本文参考第二话音活动检测器VAD20所描述)。任务T120基于第一音频信号与第二音频信号之间的关系且基于第二VAD信号而产生VAD信号(例如,本文参考话音活动检测器VAD16所描述)。
图18A展示方法M100的实施方案M140的流程图,其包含任务T500和任务T200的实施方案T220。任务T500对第二和第三音频信号执行SSP操作以产生经滤波信号(例如,本文参考SSP滤波器SSP10所描述)。任务T220将VAD信号应用于经滤波信号以产生语音信号。
图18B展示方法M100的实施方案M150的流程图,其包含任务T500的实施方案T510和任务T200的实施方案T230。任务T510对第二和第三音频信号执行SSP操作以产生经滤波信号和经滤波噪声信号(例如,本文参考SSP滤波器SSP12所描述)。任务T230将VAD信号应用于经滤波信号和经滤波噪声信号以产生语音信号(例如,本文参考语音估计器SE50所描述)。
图18C展示方法M100的实施方案M200的流程图,其包含任务T600。任务T600对基于由第一麦克风产生的信号的信号执行ANC操作以产生第一反噪声信号(例如,本文参考ANC滤波器NCL10所描述)。
图19A展示根据一般配置的设备MF100的框图。设备MF100包含用于产生基于第一音频信号与第二音频信号之间的关系的话音活动检测信号(例如,本文参考话音活动检测器VAD10所描述)的装置F100。第一音频信号是基于由位于用户的头的横向侧的第一麦克风响应于用户的话音而产生的信号。第二音频信号是基于由位于用户的头的另一横向侧的第二麦克风响应于用户的话音而产生的信号。设备MF200还包含用于将话音活动检测信号应用于第三音频信号以产生语音估计(例如,本文参考语音估计器SE10所描述)的装置F200。第三音频信号是基于由不同于第一和第二麦克风的第三麦克风响应于用户的话音而产生的信号,且第三麦克风位于用户的头的冠状面中,所述冠状面比第一和第二麦克风中的任一者更靠近用户的话音的中心出口点。
图19B展示设备MF100的实施方案MF140的框图,其包含用于对第二和第三音频信号执行SSP操作以产生经滤波信号(例如,本文参考SSP滤波器SSP10所描述)的装置F500。设备MF140还包含经配置以将VAD信号应用于经滤波信号以产生语音信号的装置F200的实施方案F220。
图19C展示设备MF100的实施方案MF200的框图,其包含用于对基于由第一麦克风产生的信号的信号执行ANC操作以产生第一反噪声信号(例如,本文参考ANC滤波器NCL10所描述)的装置F600。
本文中所揭示的方法和设备通常可应用于任何收发和/或音频感测应用(尤其是此些应用的移动或其它便携式实例)中。举例来说,本文中所揭示的配置的范围包含驻留于经配置以采用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将理解,具有如本文中所描述的特征的方法和设备可驻留于采用所属领域的技术人员已知的广泛范围的技术的各种通信系统中的任一者中,例如经由有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)传输信道采用IP话音(VoIP)的系统。
明确地预期且特此揭示,本文中所揭示的通信装置可适于在包交换式网络(例如,经布置以根据例如VoIP等协议载运音频传输的有线和/或无线网络)和/或电路交换式网络中使用。还明确地预期且特此揭示,本文中所揭示的通信装置可适于在窄带译码系统(例如,编码约4千赫或5千赫的音频频率范围的系统)中使用和/或在宽带译码系统(例如,编码大于5千赫的音频频率的系统)中使用,所述系统包含全带宽带译码系统和分带宽带译码系统。
提供对所描述配置的前述呈现以使得所属领域的技术人员能够制作或使用本文中所揭示的方法和其它结构。本文中所展示和描述的流程图、框图和其它结构仅为实例,且这些结构的其它变型也属于本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明不希望限于上文所展示的配置,而是应被赋予与本文中以任何方式(包含在所申请的附加权利要求书中)揭示的原理和新颖特征一致的最广范围,所述权利要求书形成原始揭示内容的一部分。
所属领域的技术人员将理解,可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或其任何组合来表示可在以上描述全篇中引用的数据、指令、命令、信息、信号、位和符号。
对于如本文中所揭示的配置的实施方案的重要设计要求可包含使处理延迟和/或计算复杂性(通常以百万指令/秒或MIPS为单位来测量)减到最小,尤其是对于计算密集型应用,例如用于在高于8千赫的取样速率(例如,12kHz、16kHz、44.1kHz、48kHz或192kHz)下的话音通信的应用。
如本文中所描述的多麦克风处理系统的目标可包含:实现10dB到12dB的总噪声减少;在所需说话者移动期间保持话音水平和色彩;获得噪声已被移到背景中的感知而不是激进的噪声移除;语音的去混响;和/或启用后处理(例如,频谱屏蔽和/或基于噪声估计的另一频谱修改操作,例如频谱减法或维纳滤波)的选项以获得较激进的噪声减少。
如本文中所揭示的设备的实施方案(例如,设备A100、A110、A120、A130、A140、A150、A160、A170、A200、A210、MF100、MF104和/或MF200)的各种处理元件可体现于被认为适合于既定应用的任何硬件结构或硬件与软件和/或固件的任何组合中。举例来说,此些元件可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片当中的电子装置和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如晶体管或逻辑门)阵列,且这些元件中的任一者可被实施为一个或一个以上此阵列。这些元件中的任何两者或两者以上或甚至全部可被实施于相同的一个或多个阵列内。所述一个或多个阵列可被实施于一个或一个以上芯片内(例如,实施于包含两个或两个以上芯片的芯片组内)。
本文中所揭示的设备的各种实施方案(例如,设备A100、A110、A120、A130、A140、A150、A160、A170、A200、A210、MF100、MF104和/或MF200)的一个或一个以上处理元件还可部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路))上执行。如本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器,也被称为“处理器”),且这些元件中的任何两者或两者以上或甚至全部可实施于相同的此类一个或多个计算机内。
可将如本文中所揭示的处理器或其它处理装置制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片当中的一个或一个以上电子装置和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如晶体管或逻辑门)阵列,且这些元件中的任一者可被实施为一个或一个以上此阵列。所述一个或多个阵列可被实施于一个或一个以上芯片内(例如,实施于包含两个或两个以上芯片的芯片组内)。这些阵列的实例包含固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC)。如本文中所揭示的处理器或其它处理装置还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器)或其它处理器。有可能使用如本文中所描述的处理器来执行并非与方法M100的实施方案的程序直接相关的任务或执行并非与方法M100的实施方案的程序直接相关的其它指令集,例如与嵌入有所述处理器的装置或系统(例如,音频感测装置)的另一操作相关的任务。还有可能由音频感测装置的处理器执行如本文中所揭示的方法的一部分(例如,任务T200)且在一个或一个以上其它处理器的控制下执行所述方法的另一部分(例如,任务T600)。
所属领域的技术人员将了解,可将结合本文中所揭示的配置而描述的各种说明性模块、逻辑块、电路以及测试和其它操作实施为电子硬件、计算机软件或两者的组合。这些模块、逻辑块、电路和操作可使用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中所揭示的配置的任何组合来实施或执行。举例来说,此配置可至少部分地实施为硬连线电路、实施为制造于专用集成电路中的电路配置,或实施为加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,所述代码是可由逻辑元件阵列(例如,通用处理器或其它数字信号处理单元)执行的指令。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。软件模块可驻留于非暂时性存储媒体中,例如RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM的非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸式盘或CD-ROM或者此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得所述处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器和存储媒体可作为离散组件而驻留于用户终端中。
应注意,本文中所揭示的各种方法(例如,方法M100、M110、M120、M130、M140、M150和M200)可由例如处理器等逻辑元件阵列来执行,且如本文中所描述的设备的各种元件可部分地实施为经设计以在此阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指代包含呈软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,多个模块或系统可组合成一个模块或系统,且一个模块或系统可分成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的元素基本上是用以执行相关任务的代码段,例如例程、程序、对象、组件、数据结构及其类似者。术语“软件”应被理解为包含源代码、汇编语言代码、机器码、二进制码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或指令序列以及此些实例的任何组合。程序或代码段可存储于处理器可读存储媒体中,或可经由传输媒体或通信链路通过体现于载波中的计算机数据信号来传输。
本文中所揭示的方法、方案和技术的实施方案也可有形地体现(例如,在如本文中所列出的一个或一个以上计算机可读存储媒体的有形的计算机可读特征中)为可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可装卸式和非可装卸式存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路或可用以存储所需信息且可被存取的任何其它媒体。计算机数据信号可包含可经由例如电子网络通道、光纤、空气、电磁、RF链路等传输媒体传播的任何信号。可经由例如因特网或企业内部网络等计算机网络来下载代码段。在任何情况下,本发明的范围不应被解释为受这些实施例限制。
本文中所描述的方法的任务中的每一者可直接体现于硬件中、由处理器执行的软件模块中或所述两者的组合中。在如本文中所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)阵列经配置以执行方法的各种任务中的一者、一者以上或甚至全部。任务中的一者或一者以上(可能为全部)还可被实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪存储器卡或其它非易失性存储器卡、半导体存储器芯片等)中的代码(例如,一个或一个以上指令集),所述代码可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。如本文中所揭示的方法的实施方案的任务还可由一个以上此阵列或机器执行。在这些或其它实施方案中,可在用于无线通信的装置(例如,蜂窝式电话)或具有此通信能力的其它装置内执行任务。此装置可经配置以与电路交换式网络和/或包交换式网络通信(例如,使用例如VoIP等一个或一个以上协议)。举例来说,此装置可包含经配置以接收和/或发射经编码的帧的RF电路。
明确地揭示,本文中所揭示的各种方法可由便携式通信装置(例如,手持机、头戴式耳机或便携式数字助理(PDA))执行,且本文中所描述的各种设备可包含于此装置内。典型的实时(例如,在线)应用为使用此移动装置进行的电话对话。
在一个或一个以上示范性实施例中,本文中所描述的操作可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么此些操作可作为一个或一个以上指令或代码存储在计算机可读媒体上或经由计算机可读媒体来传输。术语“计算机可读媒体”包含计算机可读存储媒体与通信(例如,传输)媒体两者。借助于实例而非限制,计算机可读存储媒体可包括存储元件阵列,例如半导体存储器(其可包含但不限于动态或静态RAM、ROM、EEPROM和/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置;和/或磁盘存储装置或其它磁性存储装置。此些存储媒体可存储呈可由计算机存取的指令或数据结构的形式的信息。通信媒体可包括可用以载运呈指令或数据结构的形式的所需程序代码且可由计算机存取的任何媒体,包含促进将计算机程序从一处传送到另一处的任何媒体。而且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波等无线技术从网站、服务器或其它远程源传输软件,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和/或微波等无线技术包含于媒体的定义中。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和Blu-ray DiscTM(加利福尼亚州环球城蓝光光盘协会(Blu-Ray DiscAssociation,Universal City,CA)),其中磁盘通常以磁性方式再生数据,而光盘通过激光以光学方式再生数据。上述各者的组合也应包含在计算机可读媒体的范围内。
如本文中所描述的声信号处理设备可并入到电子装置(例如通信装置)中,所述电子装置接受语音输入以便控制某些操作,或可另外受益于所需噪声与背景噪声的分离。许多应用可受益于增强清楚的所需声音或分离清楚的所需声音与来源于多个方向的背景声音。这些应用可包含并入有例如话音辨识和检测、语音增强和分离、话音启动的控制及其类似者等能力的电子或计算装置中的人机接口。可能需要实施此声信号处理设备以适合于仅提供有限处理能力的装置中。
可将本文中所描述的模块、元件和装置的各种实施方案的元件制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片当中的电子装置和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如晶体管或门)阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可完全或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC)上执行。
有可能使用如本文中所描述的设备的实施方案的一个或一个以上元件来执行并非与所述设备的操作直接相关的任务或执行并非与所述设备的操作直接相关的其它指令集,例如与嵌入有所述设备的装置或系统的另一操作相关的任务。还有可能的是此设备的实施方案的一个或一个以上元件具有共同的结构(例如,用以在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间执行不同元件的操作的电子装置和/或光学装置的布置)。

Claims (40)

1.一种信号处理方法,所述方法包括:
产生基于第一音频信号与第二音频信号之间的关系的话音活动检测信号;以及
将所述话音活动检测信号应用于基于第三音频信号的信号以产生语音信号,
其中所述第一音频信号是基于(A)由位于用户的头的横向侧的第一麦克风且(B)响应于所述用户的话音而产生的信号,且
其中所述第二音频信号是基于由位于所述用户的头的另一横向侧的第二麦克风响应于所述用户的所述话音而产生的信号,且
其中所述第三音频信号是基于由不同于所述第一和第二麦克风的第三麦克风响应于所述用户的所述话音而产生的信号,且
其中所述第三麦克风位于所述用户的头的冠状面中,所述冠状面比所述第一和第二麦克风中的任一者更靠近所述用户的话音的中心出口点。
2.根据权利要求1所述的方法,其中所述应用所述话音活动检测信号包括将所述话音活动检测信号应用于基于所述第三音频信号的所述信号以产生噪声估计,且
其中所述语音信号是基于所述噪声估计。
3.根据权利要求2所述的方法,其中所述应用所述话音活动检测信号包括:
将所述话音活动检测信号应用于基于所述第三音频信号的所述信号以产生语音估计;以及
基于所述噪声估计对所述语音估计执行噪声减少操作以产生所述语音信号。
4.根据权利要求1所述的方法,其中所述方法包括计算(A)基于由所述第一麦克风产生的信号的信号与(B)基于由所述第二麦克风产生的信号的信号之间的差以产生噪声参考,且
其中所述语音信号是基于所述噪声参考。
5.根据权利要求1所述的方法,其中所述方法包括基于所述第二和第三音频信号而执行空间选择性处理操作以产生语音估计,且
其中基于第三音频信号的所述信号是所述语音估计。
6.根据权利要求1所述的方法,其中所述产生所述话音活动检测信号包括计算所述第一与第二音频信号之间的交叉相关。
7.根据权利要求1所述的方法,其中所述方法包括产生基于所述第二音频信号与所述第三音频信号之间的关系的第二话音活动检测信号,且
其中所述话音活动检测信号是基于所述第二话音活动检测信号。
8.根据权利要求1所述的方法,其中所述方法包括对所述第二和第三音频信号执行空间选择性处理操作以产生经滤波信号,且
其中基于第三音频信号的所述信号是所述经滤波信号。
9.根据权利要求1所述的方法,其中所述方法包括:
对基于由所述第一麦克风产生的信号的信号执行第一有效噪声消除操作以产生第一反噪声信号;以及
驱动位于所述用户的头的所述横向侧的扬声器以产生基于所述第一反噪声信号的声信号。
10.根据权利要求9所述的方法,其中所述反噪声信号是基于来自由位于所述用户的头的所述横向侧的误差麦克风产生的声误差信号的信息。
11.一种用于信号处理的设备,所述设备包括:
用于产生基于第一音频信号与第二音频信号之间的关系的话音活动检测信号的装置;以及
用于将所述话音活动检测信号应用于基于第三音频信号的信号以产生语音信号的装置,
其中所述第一音频信号是基于(A)由位于用户的头的横向侧的第一麦克风且(B)响应于所述用户的话音而产生的信号,且
其中所述第二音频信号是基于由位于所述用户的头的另一横向侧的第二麦克风响应于所述用户的所述话音而产生的信号,且
其中所述第三音频信号是基于由不同于所述第一和第二麦克风的第三麦克风响应于所述用户的所述话音而产生的信号,且
其中所述第三麦克风位于所述用户的头的冠状面中,所述冠状面比所述第一和第二麦克风中的任一者更靠近所述用户的话音的中心出口点。
12.根据权利要求11所述的设备,其中所述用于应用所述话音活动检测信号的装置经配置以将所述话音活动检测信号应用于基于所述第三音频信号的所述信号以产生噪声估计,且
其中所述语音信号是基于所述噪声估计。
13.根据权利要求12所述的设备,其中所述用于应用所述话音活动检测信号的装置包括:
用于将所述话音活动检测信号应用于基于所述第三音频信号的所述信号以产生语音估计的装置;以及
用于基于所述噪声估计对所述语音估计执行噪声减少操作以产生所述语音信号的装置。
14.根据权利要求11所述的设备,其中所述设备包括用于计算(A)基于由所述第一麦克风产生的信号的信号与(B)基于由所述第二麦克风产生的信号的信号之间的差以产生噪声参考的装置,且
其中所述语音信号是基于所述噪声参考。
15.根据权利要求11所述的设备,其中所述设备包括用于基于所述第二和第三音频信号而执行空间选择性处理操作以产生语音估计的装置,且
其中基于第三音频信号的所述信号是所述语音估计。
16.根据权利要求11所述的设备,其中所述用于产生所述话音活动检测信号的装置包括用于计算所述第一与第二音频信号之间的交叉相关的装置。
17.根据权利要求11所述的设备,其中所述设备包括用于产生基于所述第二音频信号与所述第三音频信号之间的关系的第二话音活动检测信号的装置,且
其中所述话音活动检测信号是基于所述第二话音活动检测信号。
18.根据权利要求11所述的设备,其中所述设备包括用于对所述第二和第三音频信号执行空间选择性处理操作以产生经滤波信号的装置,且
其中基于第三音频信号的所述信号是所述经滤波信号。
19.根据权利要求11所述的设备,其中所述设备包括:
用于对基于由所述第一麦克风产生的信号的信号执行第一有效噪声消除操作以产生第一反噪声信号的装置;以及
用于驱动位于所述用户的头的所述横向侧的扬声器以产生基于所述第一反噪声信号的声信号的装置。
20.根据权利要求19所述的设备,其中所述反噪声信号是基于来自由位于所述用户的头的所述横向侧的误差麦克风产生的声误差信号的信息。
21.一种用于信号处理的设备,所述设备包括:
第一麦克风,其经配置以在所述设备的使用期间位于用户的头的横向侧;
第二麦克风,其经配置以在所述设备的所述使用期间位于所述用户的头的另一横向侧;
第三麦克风,其经配置以在所述设备的所述使用期间位于所述用户的头的冠状面中,所述冠状面比所述第一和第二麦克风中的任一者更靠近所述用户的话音的中心出口点;
话音活动检测器,其经配置以产生基于第一音频信号与第二音频信号之间的关系的话音活动检测信号;以及
语音估计器,其经配置以将所述话音活动检测信号应用于基于第三音频信号的信号以产生语音估计,
其中所述第一音频信号是基于在所述设备的所述使用期间由所述第一麦克风响应于所述用户的所述话音而产生的信号,且
其中所述第二音频信号是基于在所述设备的所述使用期间由所述第二麦克风响应于所述用户的所述话音而产生的信号,且
其中所述第三音频信号是基于在所述设备的所述使用期间由所述第三麦克风响应于所述用户的所述话音而产生的信号。
22.根据权利要求21所述的设备,其中所述语音估计器经配置以将所述话音活动检测信号应用于基于所述第三音频信号的所述信号以产生噪声估计,且
其中所述语音信号是基于所述噪声估计。
23.根据权利要求22所述的设备,其中所述语音估计器包括:
增益控制元件,其经配置以将所述话音活动检测信号应用于基于所述第三音频信号的所述信号以产生语音估计;以及
噪声减少模块,其经配置以基于所述噪声估计对所述语音估计执行噪声减少操作以产生所述语音信号。
24.根据权利要求21所述的设备,其中所述设备包括计算器,所述计算器经配置以计算(A)基于由所述第一麦克风产生的信号的信号与(B)基于由所述第二麦克风产生的信号的信号之间的差以产生噪声参考,且
其中所述语音信号是基于所述噪声参考。
25.根据权利要求21所述的设备,其中所述设备包括滤波器,所述滤波器经配置以基于所述第二和第三音频信号而执行空间选择性处理操作以产生语音估计,且
其中基于第三音频信号的所述信号是所述语音估计。
26.根据权利要求21所述的设备,其中所述话音活动检测器经配置以基于使所述第一和第二音频信号交叉相关的结果而产生所述话音活动检测信号。
27.根据权利要求21所述的设备,其中所述设备包括第二话音活动检测器,所述第二话音活动检测器经配置以产生基于所述第二音频信号与所述第三音频信号之间的关系的第二话音活动检测信号,且
其中所述话音活动检测信号是基于所述第二话音活动检测信号。
28.根据权利要求21所述的设备,其中所述设备包括滤波器,所述滤波器经配置以对所述第二和第三音频信号执行空间选择性处理操作以产生经滤波信号,且
其中基于第三音频信号的所述信号是所述经滤波信号。
29.根据权利要求21所述的设备,其中所述设备包括:
第一有效噪声消除滤波器,其经配置以对基于由所述第一麦克风产生的信号的信号执行有效噪声消除操作以产生第一反噪声信号;以及
扬声器,其经配置以在所述设备的所述使用期间位于所述用户的头的所述横向侧且产生基于所述第一反噪声信号的声信号。
30.根据权利要求29所述的设备,其中所述设备包含误差麦克风,所述误差麦克风经配置以在所述设备的所述使用期间位于所述用户的头的所述横向侧且比所述第一麦克风更靠近所述用户的所述横向侧的耳道,且
其中所述反噪声信号是基于来自由所述误差麦克风产生的声误差信号的信息。
31.一种具有有形特征的非暂时性计算机可读存储媒体,所述有形特征致使读取所述特征的机器:
产生基于第一音频信号与第二音频信号之间的关系的话音活动检测信号;以及
将所述话音活动检测信号应用于基于第三音频信号的信号以产生语音信号,
其中所述第一音频信号是基于(A)由位于用户的头的横向侧的第一麦克风且(B)响应于所述用户的话音而产生的信号,且
其中所述第二音频信号是基于由位于所述用户的头的另一横向侧的第二麦克风响应于所述用户的所述话音而产生的信号,且
其中所述第三音频信号是基于由不同于所述第一和第二麦克风的第三麦克风响应于所述用户的所述话音而产生的信号,且
其中所述第三麦克风位于所述用户的头的冠状面中,所述冠状面比所述第一和第二麦克风中的任一者更靠近所述用户的话音的中心出口点。
32.根据权利要求31所述的计算机可读存储媒体,其中所述应用所述话音活动检测信号包括将所述话音活动检测信号应用于基于所述第三音频信号的所述信号以产生噪声估计,且
其中所述语音信号是基于所述噪声估计。
33.根据权利要求32所述的计算机可读存储媒体,其中所述应用所述话音活动检测信号包括:
将所述话音活动检测信号应用于基于所述第三音频信号的所述信号以产生语音估计;以及
基于所述噪声估计对所述语音估计执行噪声减少操作以产生所述语音信号。
34.根据权利要求31所述的计算机可读存储媒体,其中所述媒体具有有形特征,所述有形特征致使读取所述特征的机器计算(A)基于由所述第一麦克风产生的信号的信号与(B)基于由所述第二麦克风产生的信号的信号之间的差以产生噪声参考,且
其中所述语音信号是基于所述噪声参考。
35.根据权利要求31所述的计算机可读存储媒体,其中所述媒体具有有形特征,所述有形特征致使读取所述特征的机器基于所述第二和第三音频信号而执行空间选择性处理操作以产生语音估计,且
其中基于第三音频信号的所述信号是所述语音估计。
36.根据权利要求31所述的计算机可读存储媒体,其中所述产生所述话音活动检测信号包括计算所述第一与第二音频信号之间的交叉相关。
37.根据权利要求31所述的计算机可读存储媒体,其中所述媒体具有有形特征,所述有形特征致使读取所述特征的机器产生基于所述第二音频信号与所述第三音频信号之间的关系的第二话音活动检测信号,且
其中所述话音活动检测信号是基于所述第二话音活动检测信号。
38.根据权利要求31所述的计算机可读存储媒体,其中所述媒体具有有形特征,所述有形特征致使读取所述特征的机器对所述第二和第三音频信号执行空间选择性处理操作以产生经滤波信号,且
其中基于第三音频信号的所述信号是所述经滤波信号。
39.根据权利要求31所述的计算机可读存储媒体,其中所述媒体具有有形特征,所述有形特征致使读取所述特征的机器:
对基于由所述第一麦克风产生的信号的信号执行第一有效噪声消除操作以产生第一反噪声信号;以及
驱动位于所述用户的头的所述横向侧的扬声器以产生基于所述第一反噪声信号的声信号。
40.根据权利要求39所述的计算机可读存储媒体,其中所述反噪声信号是基于来自由位于所述用户的头的所述横向侧的误差麦克风产生的声误差信号的信息。
CN201180024626.0A 2010-05-20 2011-05-20 用于使用头戴式麦克风对来处理语音信号的方法和设备 Active CN102893331B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US34684110P 2010-05-20 2010-05-20
US61/346,841 2010-05-20
US35653910P 2010-06-18 2010-06-18
US61/356,539 2010-06-18
US13/111,627 2011-05-19
US13/111,627 US20110288860A1 (en) 2010-05-20 2011-05-19 Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
PCT/US2011/037460 WO2011146903A1 (en) 2010-05-20 2011-05-20 Methods, apparatus, and computer - readable media for processing of speech signals using head -mounted microphone pair

Publications (2)

Publication Number Publication Date
CN102893331A true CN102893331A (zh) 2013-01-23
CN102893331B CN102893331B (zh) 2016-03-09

Family

ID=44973211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180024626.0A Active CN102893331B (zh) 2010-05-20 2011-05-20 用于使用头戴式麦克风对来处理语音信号的方法和设备

Country Status (6)

Country Link
US (1) US20110288860A1 (zh)
EP (1) EP2572353B1 (zh)
JP (1) JP5714700B2 (zh)
KR (2) KR20130042495A (zh)
CN (1) CN102893331B (zh)
WO (1) WO2011146903A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105229737A (zh) * 2013-03-13 2016-01-06 寇平公司 噪声消除麦克风装置
CN105679302A (zh) * 2014-12-08 2016-06-15 哈曼国际工业有限公司 定向声音修改
CN105981409A (zh) * 2014-02-10 2016-09-28 伯斯有限公司 会话辅助系统
CN106028216A (zh) * 2015-03-31 2016-10-12 华硕电脑股份有限公司 音频采集增强方法以及使用所述方法的音频采集系统
CN106303837A (zh) * 2015-06-24 2017-01-04 联芯科技有限公司 双麦克风的风噪检测及抑制方法、系统
CN106535045A (zh) * 2016-11-30 2017-03-22 中航华东光电(上海)有限公司 喉头送话器音频增强处理模块
WO2017075979A1 (zh) * 2015-11-04 2017-05-11 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
CN107409265A (zh) * 2014-12-23 2017-11-28 T·德格雷伊 音频共享方法和系统
CN108674344A (zh) * 2018-03-30 2018-10-19 斑马网络技术有限公司 基于方向盘的语音处理系统及其应用
US10721564B2 (en) 2016-01-18 2020-07-21 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reporoduction
US10764704B2 (en) 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers
US10841728B1 (en) 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing
US11074906B2 (en) 2017-12-07 2021-07-27 Hed Technologies Sarl Voice aware audio system and method
CN113544775A (zh) * 2019-03-06 2021-10-22 缤特力股份有限公司 用于头戴式音频设备的音频信号增强
CN110447073B (zh) * 2017-03-20 2023-11-03 伯斯有限公司 用于降噪的音频信号处理

Families Citing this family (121)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9084062B2 (en) * 2010-06-30 2015-07-14 Panasonic Intellectual Property Management Co., Ltd. Conversation detection apparatus, hearing aid, and conversation detection method
US9142207B2 (en) 2010-12-03 2015-09-22 Cirrus Logic, Inc. Oversight control of an adaptive noise canceler in a personal audio device
US8908877B2 (en) 2010-12-03 2014-12-09 Cirrus Logic, Inc. Ear-coupling detection and adjustment of adaptive response in noise-canceling in personal audio devices
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US9037458B2 (en) 2011-02-23 2015-05-19 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
US8824692B2 (en) * 2011-04-20 2014-09-02 Vocollect, Inc. Self calibrating multi-element dipole microphone
US9214150B2 (en) 2011-06-03 2015-12-15 Cirrus Logic, Inc. Continuous adaptation of secondary path adaptive response in noise-canceling personal audio devices
US9824677B2 (en) 2011-06-03 2017-11-21 Cirrus Logic, Inc. Bandlimiting anti-noise in personal audio devices having adaptive noise cancellation (ANC)
US9076431B2 (en) 2011-06-03 2015-07-07 Cirrus Logic, Inc. Filter architecture for an adaptive noise canceler in a personal audio device
US9318094B2 (en) 2011-06-03 2016-04-19 Cirrus Logic, Inc. Adaptive noise canceling architecture for a personal audio device
US8848936B2 (en) 2011-06-03 2014-09-30 Cirrus Logic, Inc. Speaker damage prevention in adaptive noise-canceling personal audio devices
US8958571B2 (en) 2011-06-03 2015-02-17 Cirrus Logic, Inc. MIC covering detection in personal audio devices
US8948407B2 (en) 2011-06-03 2015-02-03 Cirrus Logic, Inc. Bandlimiting anti-noise in personal audio devices having adaptive noise cancellation (ANC)
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US20130054233A1 (en) * 2011-08-24 2013-02-28 Texas Instruments Incorporated Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels
US9325821B1 (en) * 2011-09-30 2016-04-26 Cirrus Logic, Inc. Sidetone management in an adaptive noise canceling (ANC) system including secondary path modeling
JP5927887B2 (ja) * 2011-12-13 2016-06-01 沖電気工業株式会社 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム
US9142205B2 (en) 2012-04-26 2015-09-22 Cirrus Logic, Inc. Leakage-modeling adaptive noise canceling for earspeakers
US9014387B2 (en) * 2012-04-26 2015-04-21 Cirrus Logic, Inc. Coordinated control of adaptive noise cancellation (ANC) among earspeaker channels
US9319781B2 (en) 2012-05-10 2016-04-19 Cirrus Logic, Inc. Frequency and direction-dependent ambient sound handling in personal audio devices having adaptive noise cancellation (ANC)
US9076427B2 (en) 2012-05-10 2015-07-07 Cirrus Logic, Inc. Error-signal content controlled adaptation of secondary and leakage path models in noise-canceling personal audio devices
US9318090B2 (en) 2012-05-10 2016-04-19 Cirrus Logic, Inc. Downlink tone detection and adaptation of a secondary path response model in an adaptive noise canceling system
US9123321B2 (en) 2012-05-10 2015-09-01 Cirrus Logic, Inc. Sequenced adaptation of anti-noise generator response and secondary path response in an adaptive noise canceling system
US9082387B2 (en) 2012-05-10 2015-07-14 Cirrus Logic, Inc. Noise burst adaptation of secondary path adaptive response in noise-canceling personal audio devices
JP5970985B2 (ja) * 2012-07-05 2016-08-17 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US9135915B1 (en) 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
JP5971047B2 (ja) * 2012-09-12 2016-08-17 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
US9532139B1 (en) 2012-09-14 2016-12-27 Cirrus Logic, Inc. Dual-microphone frequency amplitude response self-calibration
US9313572B2 (en) * 2012-09-28 2016-04-12 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US9438985B2 (en) * 2012-09-28 2016-09-06 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
CN103813241B (zh) * 2012-11-09 2016-02-10 辉达公司 移动电子设备及其音频播放装置
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9107010B2 (en) 2013-02-08 2015-08-11 Cirrus Logic, Inc. Ambient noise root mean square (RMS) detector
US9807495B2 (en) 2013-02-25 2017-10-31 Microsoft Technology Licensing, Llc Wearable audio accessories for computing devices
US9369798B1 (en) 2013-03-12 2016-06-14 Cirrus Logic, Inc. Internal dynamic range control in an adaptive noise cancellation (ANC) system
US9106989B2 (en) 2013-03-13 2015-08-11 Cirrus Logic, Inc. Adaptive-noise canceling (ANC) effectiveness estimation and correction in a personal audio device
US9414150B2 (en) 2013-03-14 2016-08-09 Cirrus Logic, Inc. Low-latency multi-driver adaptive noise canceling (ANC) system for a personal audio device
US9215749B2 (en) 2013-03-14 2015-12-15 Cirrus Logic, Inc. Reducing an acoustic intensity vector with adaptive noise cancellation with two error microphones
US9635480B2 (en) 2013-03-15 2017-04-25 Cirrus Logic, Inc. Speaker impedance monitoring
US9324311B1 (en) 2013-03-15 2016-04-26 Cirrus Logic, Inc. Robust adaptive noise canceling (ANC) in a personal audio device
US9467776B2 (en) 2013-03-15 2016-10-11 Cirrus Logic, Inc. Monitoring of speaker impedance to detect pressure applied between mobile device and ear
US9208771B2 (en) 2013-03-15 2015-12-08 Cirrus Logic, Inc. Ambient noise-based adaptation of secondary path adaptive response in noise-canceling personal audio devices
KR101451844B1 (ko) * 2013-03-27 2014-10-16 주식회사 시그테크 음성활동감지방법 및 그 방법을 채택한 통신장치
US10206032B2 (en) 2013-04-10 2019-02-12 Cirrus Logic, Inc. Systems and methods for multi-mode adaptive noise cancellation for audio headsets
US9066176B2 (en) 2013-04-15 2015-06-23 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation including dynamic bias of coefficients of an adaptive noise cancellation system
US9462376B2 (en) 2013-04-16 2016-10-04 Cirrus Logic, Inc. Systems and methods for hybrid adaptive noise cancellation
US9460701B2 (en) 2013-04-17 2016-10-04 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation by biasing anti-noise level
US9478210B2 (en) 2013-04-17 2016-10-25 Cirrus Logic, Inc. Systems and methods for hybrid adaptive noise cancellation
US9578432B1 (en) 2013-04-24 2017-02-21 Cirrus Logic, Inc. Metric and tool to evaluate secondary path design in adaptive noise cancellation systems
JP6104035B2 (ja) * 2013-04-30 2017-03-29 株式会社Nttドコモ イヤホン及び眼球運動推定装置
US9264808B2 (en) 2013-06-14 2016-02-16 Cirrus Logic, Inc. Systems and methods for detection and cancellation of narrow-band noise
US9392364B1 (en) 2013-08-15 2016-07-12 Cirrus Logic, Inc. Virtual microphone for adaptive noise cancellation in personal audio devices
US9288570B2 (en) 2013-08-27 2016-03-15 Bose Corporation Assisting conversation while listening to audio
US9190043B2 (en) 2013-08-27 2015-11-17 Bose Corporation Assisting conversation in noisy environments
US9666176B2 (en) 2013-09-13 2017-05-30 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation by adaptively shaping internal white noise to train a secondary path
US9620101B1 (en) 2013-10-08 2017-04-11 Cirrus Logic, Inc. Systems and methods for maintaining playback fidelity in an audio system with adaptive noise cancellation
CN104661158A (zh) * 2013-11-25 2015-05-27 华为技术有限公司 立体声耳机、终端及两者的音频信号处理方法
US10382864B2 (en) 2013-12-10 2019-08-13 Cirrus Logic, Inc. Systems and methods for providing adaptive playback equalization in an audio device
US9704472B2 (en) 2013-12-10 2017-07-11 Cirrus Logic, Inc. Systems and methods for sharing secondary path information between audio channels in an adaptive noise cancellation system
US10219071B2 (en) 2013-12-10 2019-02-26 Cirrus Logic, Inc. Systems and methods for bandlimiting anti-noise in personal audio devices having adaptive noise cancellation
US9369557B2 (en) 2014-03-05 2016-06-14 Cirrus Logic, Inc. Frequency-dependent sidetone calibration
US9479860B2 (en) 2014-03-07 2016-10-25 Cirrus Logic, Inc. Systems and methods for enhancing performance of audio transducer based on detection of transducer status
US9648410B1 (en) 2014-03-12 2017-05-09 Cirrus Logic, Inc. Control of audio output of headphone earbuds based on the environment around the headphone earbuds
US9510094B2 (en) 2014-04-09 2016-11-29 Apple Inc. Noise estimation in a mobile device using an external acoustic microphone signal
US9319784B2 (en) 2014-04-14 2016-04-19 Cirrus Logic, Inc. Frequency-shaped noise-based adaptation of secondary path adaptive response in noise-canceling personal audio devices
US9609416B2 (en) 2014-06-09 2017-03-28 Cirrus Logic, Inc. Headphone responsive to optical signaling
US10181315B2 (en) 2014-06-13 2019-01-15 Cirrus Logic, Inc. Systems and methods for selectively enabling and disabling adaptation of an adaptive noise cancellation system
US9478212B1 (en) 2014-09-03 2016-10-25 Cirrus Logic, Inc. Systems and methods for use of adaptive secondary path estimate to control equalization in an audio device
US9775113B2 (en) * 2014-12-11 2017-09-26 Mediatek Inc. Voice wakeup detecting device with digital microphone and associated method
US9779725B2 (en) 2014-12-11 2017-10-03 Mediatek Inc. Voice wakeup detecting device and method
US9552805B2 (en) 2014-12-19 2017-01-24 Cirrus Logic, Inc. Systems and methods for performance and stability control for feedback adaptive noise cancellation
US10796681B2 (en) 2015-02-13 2020-10-06 Harman Becker Automotive Systems Gmbh Active noise control for a helmet
US9531428B2 (en) * 2015-03-03 2016-12-27 Mediatek Inc. Wireless communication calibration system and associated method
WO2016156595A1 (en) * 2015-04-02 2016-10-06 Sivantos Pte. Ltd. Hearing apparatus
US9736578B2 (en) 2015-06-07 2017-08-15 Apple Inc. Microphone-based orientation sensors and related techniques
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
US10026388B2 (en) 2015-08-20 2018-07-17 Cirrus Logic, Inc. Feedback adaptive noise cancellation (ANC) controller and method having a feedback response partially provided by a fixed-response filter
US9578415B1 (en) 2015-08-21 2017-02-21 Cirrus Logic, Inc. Hybrid adaptive noise cancellation system with filtered error microphone signal
KR20170024913A (ko) * 2015-08-26 2017-03-08 삼성전자주식회사 복수의 마이크들을 이용한 잡음 제거 전자 장치 및 잡음 제거 방법
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
JP6536320B2 (ja) 2015-09-28 2019-07-03 富士通株式会社 音声信号処理装置、音声信号処理方法及びプログラム
CN108781331B (zh) * 2016-01-19 2020-11-06 云加速360公司 用于头戴式扬声器的音频增强
US10090005B2 (en) * 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
US10013966B2 (en) 2016-03-15 2018-07-03 Cirrus Logic, Inc. Systems and methods for adaptive active noise cancellation for multiple-driver personal audio device
CN105979464A (zh) * 2016-05-13 2016-09-28 深圳市豪恩声学股份有限公司 电声换能器不良诊断的预处理装置及方法
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
EP3300078B1 (en) * 2016-09-26 2020-12-30 Oticon A/s A voice activitity detection unit and a hearing device comprising a voice activity detection unit
WO2018088450A1 (ja) * 2016-11-08 2018-05-17 ヤマハ株式会社 音声提供装置、音声再生装置、音声提供方法及び音声再生方法
US10564925B2 (en) * 2017-02-07 2020-02-18 Avnera Corporation User voice activity detection methods, devices, assemblies, and components
KR101898911B1 (ko) 2017-02-13 2018-10-31 주식회사 오르페오사운드웍스 인이어 마이크와 아웃이어 마이크 수음특성을 이용한 소음 제거 이어셋 및 소음 제거 방법
CN110603588A (zh) * 2017-02-14 2019-12-20 爱浮诺亚股份有限公司 通信组装中用于用户声音活动检测的方法及其通信组装
US10803857B2 (en) * 2017-03-10 2020-10-13 James Jordan Rosenberg System and method for relative enhancement of vocal utterances in an acoustically cluttered environment
US10313820B2 (en) 2017-07-11 2019-06-04 Boomcloud 360, Inc. Sub-band spatial audio enhancement
KR20200038292A (ko) 2017-08-17 2020-04-10 세렌스 오퍼레이팅 컴퍼니 음성 스피치 및 피치 추정의 낮은 복잡성 검출
JP6755843B2 (ja) * 2017-09-14 2020-09-16 株式会社東芝 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム
KR101953866B1 (ko) 2017-10-16 2019-03-04 주식회사 오르페오사운드웍스 인-이어 마이크로폰을 갖는 이어셋의 음향신호 처리 장치 및 방법
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
WO2019136475A1 (en) * 2018-01-08 2019-07-11 Avnera Corporation Voice isolation system
US10847173B2 (en) * 2018-02-13 2020-11-24 Intel Corporation Selection between signal sources based upon calculated signal to noise ratio
KR101950807B1 (ko) * 2018-02-27 2019-02-21 인하대학교 산학협력단 넥밴드 음향장치 및 넥밴드 음향장치의 음량 조절방법
WO2019186403A1 (en) * 2018-03-29 2019-10-03 3M Innovative Properties Company Voice-activated sound encoding for headsets using frequency domain representations of microphone signals
TWI690218B (zh) 2018-06-15 2020-04-01 瑞昱半導體股份有限公司 耳機
US11854566B2 (en) 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing
KR102046803B1 (ko) * 2018-07-03 2019-11-21 주식회사 이엠텍 청음 보조 시스템
US10629226B1 (en) * 2018-10-29 2020-04-21 Bestechnic (Shanghai) Co., Ltd. Acoustic signal processing with voice activity detector having processor in an idle state
CN113544768A (zh) * 2018-12-21 2021-10-22 诺拉控股有限公司 使用多传感器的语音识别
US10681452B1 (en) * 2019-02-26 2020-06-09 Qualcomm Incorporated Seamless listen-through for a wearable device
CN113748462A (zh) 2019-03-01 2021-12-03 奇跃公司 确定用于语音处理引擎的输入
EP3955589A4 (en) * 2019-04-08 2022-06-15 Sony Group Corporation SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD AND PROGRAM
JP7350092B2 (ja) * 2019-05-22 2023-09-25 ソロズ・テクノロジー・リミテッド 眼鏡デバイス、システム、装置、および方法のためのマイク配置
KR102226132B1 (ko) 2019-07-23 2021-03-09 엘지전자 주식회사 헤드셋 및 그의 구동 방법
US11328740B2 (en) * 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
TWI731391B (zh) * 2019-08-15 2021-06-21 緯創資通股份有限公司 麥克風裝置、電子裝置及其音訊信號處理方法
US11917384B2 (en) * 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
CN113571053A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 语音唤醒方法和设备
US11138990B1 (en) 2020-04-29 2021-10-05 Bose Corporation Voice activity detection
US11670298B2 (en) * 2020-05-08 2023-06-06 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
US11783809B2 (en) 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier
WO2023136385A1 (ko) * 2022-01-17 2023-07-20 엘지전자 주식회사 발화인지를 지원하는 이어버드 및 관련 방법
WO2024087487A1 (zh) * 2022-10-28 2024-05-02 深圳市韶音科技有限公司 一种耳机

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US20050027515A1 (en) * 2003-07-29 2005-02-03 Microsoft Corporation Multi-sensory speech detection system
CN1768555A (zh) * 2003-04-08 2006-05-03 皇家飞利浦电子股份有限公司 用于减少麦克风信号中的干扰噪声信号部分的方法和装置
US20070088544A1 (en) * 2005-10-14 2007-04-19 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
CN1967658A (zh) * 2005-11-14 2007-05-23 北京大学科技开发部 小尺度麦克风阵列语音增强系统和方法
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
WO2009102811A1 (en) * 2008-02-11 2009-08-20 Cochlear Americas Cancellation of bone conducted sound in a hearing prosthesis

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718096A (en) * 1983-05-18 1988-01-05 Speech Systems, Inc. Speech recognition system
US5105377A (en) 1990-02-09 1992-04-14 Noise Cancellation Technologies, Inc. Digital virtual earth active cancellation system
US8452023B2 (en) * 2007-05-25 2013-05-28 Aliphcom Wind suppression/replacement component for use with electronic systems
US7174022B1 (en) * 2002-11-15 2007-02-06 Fortemedia, Inc. Small array microphone for beam-forming and noise suppression
WO2004068464A2 (en) * 2003-01-30 2004-08-12 Aliphcom, Inc. Acoustic vibration sensor
JP4989967B2 (ja) * 2003-07-11 2012-08-01 コクレア リミテッド ノイズ低減のための方法および装置
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP4328698B2 (ja) 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
JP4896449B2 (ja) * 2005-06-29 2012-03-14 株式会社東芝 音響信号処理方法、装置及びプログラム
US7565288B2 (en) * 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
EP2058803B1 (en) * 2007-10-29 2010-01-20 Harman/Becker Automotive Systems GmbH Partial speech reconstruction
US8611554B2 (en) * 2008-04-22 2013-12-17 Bose Corporation Hearing assistance apparatus
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US9202455B2 (en) * 2008-11-24 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
US8315405B2 (en) * 2009-04-28 2012-11-20 Bose Corporation Coordinated ANR reference sound compression
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
CN102474697B (zh) * 2010-06-18 2015-01-14 松下电器产业株式会社 助听器和信号处理方法
US9084062B2 (en) * 2010-06-30 2015-07-14 Panasonic Intellectual Property Management Co., Ltd. Conversation detection apparatus, hearing aid, and conversation detection method
US10230346B2 (en) * 2011-01-10 2019-03-12 Zhinian Jing Acoustic voice activity detection

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
CN1768555A (zh) * 2003-04-08 2006-05-03 皇家飞利浦电子股份有限公司 用于减少麦克风信号中的干扰噪声信号部分的方法和装置
US20050027515A1 (en) * 2003-07-29 2005-02-03 Microsoft Corporation Multi-sensory speech detection system
US20070088544A1 (en) * 2005-10-14 2007-04-19 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
CN1967658A (zh) * 2005-11-14 2007-05-23 北京大学科技开发部 小尺度麦克风阵列语音增强系统和方法
WO2009102811A1 (en) * 2008-02-11 2009-08-20 Cochlear Americas Cancellation of bone conducted sound in a hearing prosthesis

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105229737B (zh) * 2013-03-13 2019-05-17 寇平公司 噪声消除麦克风装置
CN105229737A (zh) * 2013-03-13 2016-01-06 寇平公司 噪声消除麦克风装置
US10379386B2 (en) 2013-03-13 2019-08-13 Kopin Corporation Noise cancelling microphone apparatus
CN105981409A (zh) * 2014-02-10 2016-09-28 伯斯有限公司 会话辅助系统
CN105981409B (zh) * 2014-02-10 2019-06-14 伯斯有限公司 会话辅助系统
CN105679302A (zh) * 2014-12-08 2016-06-15 哈曼国际工业有限公司 定向声音修改
US11095971B2 (en) 2014-12-23 2021-08-17 Hed Technologies Sarl Method and system for audio sharing
US10687137B2 (en) 2014-12-23 2020-06-16 Hed Technologies Sarl Method and system for audio sharing
CN107409265A (zh) * 2014-12-23 2017-11-28 T·德格雷伊 音频共享方法和系统
US10932028B2 (en) 2014-12-23 2021-02-23 Hed Technologies Sarl Method and system for audio sharing
US11778360B2 (en) 2014-12-23 2023-10-03 Hed Technologies Sarl Method and system for audio sharing
US10390122B2 (en) 2014-12-23 2019-08-20 Hed Technologies Sarl Method and system for audio sharing
US10904655B2 (en) 2014-12-23 2021-01-26 Hed Technologies Sarl Method and system for audio sharing
CN106028216A (zh) * 2015-03-31 2016-10-12 华硕电脑股份有限公司 音频采集增强方法以及使用所述方法的音频采集系统
CN106028216B (zh) * 2015-03-31 2019-05-21 华硕电脑股份有限公司 音频采集增强方法以及使用所述方法的音频采集系统
CN106303837A (zh) * 2015-06-24 2017-01-04 联芯科技有限公司 双麦克风的风噪检测及抑制方法、系统
CN106303837B (zh) * 2015-06-24 2019-10-18 联芯科技有限公司 双麦克风的风噪检测及抑制方法、系统
US10586551B2 (en) 2015-11-04 2020-03-10 Tencent Technology (Shenzhen) Company Limited Speech signal processing method and apparatus
US10924614B2 (en) 2015-11-04 2021-02-16 Tencent Technology (Shenzhen) Company Limited Speech signal processing method and apparatus
WO2017075979A1 (zh) * 2015-11-04 2017-05-11 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US10721564B2 (en) 2016-01-18 2020-07-21 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reporoduction
CN106535045A (zh) * 2016-11-30 2017-03-22 中航华东光电(上海)有限公司 喉头送话器音频增强处理模块
CN110447073B (zh) * 2017-03-20 2023-11-03 伯斯有限公司 用于降噪的音频信号处理
US11074906B2 (en) 2017-12-07 2021-07-27 Hed Technologies Sarl Voice aware audio system and method
US11631398B2 (en) 2017-12-07 2023-04-18 Hed Technologies Sarl Voice aware audio system and method
US10764704B2 (en) 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers
CN108674344B (zh) * 2018-03-30 2024-04-02 斑马网络技术有限公司 基于方向盘的语音处理系统及其应用
CN108674344A (zh) * 2018-03-30 2018-10-19 斑马网络技术有限公司 基于方向盘的语音处理系统及其应用
CN113544775A (zh) * 2019-03-06 2021-10-22 缤特力股份有限公司 用于头戴式音频设备的音频信号增强
US11664042B2 (en) 2019-03-06 2023-05-30 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
US11284213B2 (en) 2019-10-10 2022-03-22 Boomcloud 360 Inc. Multi-channel crosstalk processing
US10841728B1 (en) 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing

Also Published As

Publication number Publication date
JP5714700B2 (ja) 2015-05-07
KR20150080645A (ko) 2015-07-09
CN102893331B (zh) 2016-03-09
KR20130042495A (ko) 2013-04-26
JP2013531419A (ja) 2013-08-01
WO2011146903A1 (en) 2011-11-24
US20110288860A1 (en) 2011-11-24
EP2572353A1 (en) 2013-03-27
EP2572353B1 (en) 2016-06-01

Similar Documents

Publication Publication Date Title
CN102893331B (zh) 用于使用头戴式麦克风对来处理语音信号的方法和设备
JP5575977B2 (ja) ボイスアクティビティ検出
CN102947878B (zh) 用于音频均衡的系统、方法、装置和设备
CN103026733B (zh) 用于多麦克风位置选择性处理的系统、方法、设备和计算机可读媒体
KR101337695B1 (ko) 강력한 노이즈 저감을 위한 마이크로폰 어레이 서브세트 선택
CN102047688B (zh) 用于多通道信号平衡的系统、方法和设备
CN103392349B (zh) 用于空间选择性音频增强的方法和设备
CN102461203B (zh) 用于对多信道信号进行基于相位的处理的系统、方法及设备
CN102625946B (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
CN103180900A (zh) 用于话音活动检测的系统、方法和设备
CN102197424A (zh) 用于一致性检测的系统、方法、设备和计算机可读媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant