CN102884575A - 话音活动检测 - Google Patents

话音活动检测 Download PDF

Info

Publication number
CN102884575A
CN102884575A CN2011800233612A CN201180023361A CN102884575A CN 102884575 A CN102884575 A CN 102884575A CN 2011800233612 A CN2011800233612 A CN 2011800233612A CN 201180023361 A CN201180023361 A CN 201180023361A CN 102884575 A CN102884575 A CN 102884575A
Authority
CN
China
Prior art keywords
fragment
voice activity
indication
during
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011800233612A
Other languages
English (en)
Inventor
埃里克·维瑟
伊恩·埃尔纳恩·刘
辛钟元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN102884575A publication Critical patent/CN102884575A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明揭示用于基于跨越音频信号的一频率范围的在时间上一致的能量变化来检测所述信号的话音活动状态的转变的实施方案和应用。

Description

话音活动检测
根据35 U.S.C.§119主张优先权
本专利申请案主张2010年4月22日申请且转让给本受让人的题目为“用于语音特征检测的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR SPEECHFEATURE DETECTION)”的第61/327,009号(代理人案号100839P1)临时申请案的优先权。
技术领域
本发明涉及语音信号的处理。
背景技术
以前在安静的办公室或家庭环境中进行的许多活动当今是在声学上可变的情形中进行,例如汽车、街道或咖啡厅。举例来说,一个人可能希望使用话音通信信道与另一个人通信。所述信道可例如由移动无线手持机或头戴式耳机、步话机、双向无线电、汽车套件或另一通信装置提供。因此,大量的话音通信是在用户被其他人包围的环境中使用移动装置(例如,智能电话、手持机和/或头戴式耳机)来进行,所述环境具有在人们趋于聚集的情况下通常遇到的种类的噪声内容。此噪声往往使得在电话对话的远端的用户分心或烦恼。而且,许多标准自动化商业事务(例如,账户余额或股票报价查询)采用了基于话音辨识的数据查询,且这些系统的准确性可能受到干扰噪声的显著妨碍。
对于其中通信发生于有噪声的环境中的应用,可能期望将所需语音信号与背景噪声分离。可将噪声界定为干扰所需信号或以另外方式使所需信号降级的所有信号的组合。背景噪声可包含产生于声环境内的许多噪声信号,例如其他人的背景对话,以及从所需信号和/或其它信号中的任一者产生的反射和混响。除非所需语音信号与背景噪声分离,否则可能难以可靠且有效地利用所需语音信号。在一个特定实例中,在有噪声的环境中产生语音信号,且使用语音处理方法来将所述语音信号与环境噪声分离。
在移动环境中遇到的噪声可包含多种不同分量,例如竞争性讲话者、音乐、混串音、街道噪声和/或机场噪声。由于此噪声的特征通常是非静止的且接近于用户自己的频率特征,因此所述噪声可能难以使用传统单个麦克风或固定波束成形型方法来模型化。单个麦克风噪声减少技术通常需要主要参数调谐以实现最优性能。举例来说,合适的噪声参考在这些情况下可能并不直接可用,且可能必须间接地导出噪声参考。因此,可能需要基于多个麦克风的高级信号处理来支持用于话音通信的移动装置在有噪声的环境中的使用。
发明内容
根据一般配置的处理音频信号的方法包含针对所述音频信号的第一多个连续片段中的每一者,确定所述片段中存在话音活动。此方法还包含针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者,确定所述片段中不存在话音活动。此方法还包含检测在所述第二多个连续片段当中的不是将在所述第二多者当中出现的第一片段的一个片段期间出现所述音频信号的话音活动状态的转变,以及产生话音活动检测信号,其针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值。在此方法中,针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动。在此方法中,针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动,且针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。还揭示具有存储机器可执行指令的有形结构的计算机可读媒体,所述机器可执行指令在由一个或一个以上处理器执行时致使所述一个或一个以上处理器执行此方法。
根据另一一般配置的用于处理音频信号的设备包含用于针对所述音频信号的第一多个连续片段中的每一者确定所述片段中存在话音活动的装置。此设备还包含用于针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者确定所述片段中不存在话音活动的装置。此设备还包含用于检测在所述第二多个连续片段当中的一个片段期间出现所述音频信号的话音活动状态的转变的装置,以及用于产生话音活动检测信号的装置,所述话音活动检测信号针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值。在此设备中,针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动。在此设备中,针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动。在此设备中,针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。
根据另一配置的用于处理音频信号的设备包含第一话音活动检测器,其经配置以针对所述音频信号的第一多个连续片段中的每一者,确定所述片段中存在话音活动。所述第一话音活动检测器还经配置以针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者,确定所述片段中不存在话音活动。此设备还包含:第二话音活动检测器,其经配置以检测在所述第二多个连续片段当中的一个片段期间出现所述音频信号的话音活动状态的转变;以及信号产生器,其经配置以产生话音活动检测信号,所述话音活动检测信号针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值。在此设备中,针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动。在此设备中,针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动。在此设备中,针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。
附图说明
图1A和1B分别展示高频率谱功率(垂直轴)在时间(水平轴;前后轴指示频率x 100Hz)上的一阶导数的绘图的俯视图和侧视图。
图2A展示根据一般配置的方法M100的流程图。
图2B展示方法M100的应用的流程图。
图2C展示根据一般配置的设备A100的框图。
图3A展示方法M100的实施方案M110的流程图。
图3B展示设备A100的实施方案A110的框图。
图4A展示方法M100的实施方案M120的流程图。
图4B展示设备A100的实施方案A120的框图。
图5A和5B展示在不同噪声环境中且在不同声压级下的同一近端话音信号的谱图。
图6展示与图5A的谱图相关的若干绘图。
图7展示与图5B的谱图相关的若干绘图。
图8展示对非语音脉冲的响应。
图9A展示方法M100的实施方案M130的流程图。
图9B展示方法M130的实施方案M132的流程图。
图10A展示方法M100的实施方案M140的流程图。
图10B展示方法M140的实施方案M142的流程图。
图11展示对非语音脉冲的响应。
图12展示第一立体声语音记录的谱图。
图13A展示根据一般配置的方法M200的流程图。
图13B展示任务TM300的实施方案TM302的框图。
图14A说明方法M200的实施方案的操作的实例。
图14B展示根据一般配置的设备A200的框图。
图14C展示设备A200的实施方案A205的框图。
图15A展示设备A205的实施方案A210的框图。
图15B展示信号产生器SG12的实施方案SG14的框图。
图16A展示信号产生器SG12的实施方案SG16的框图。
图16B展示根据一般配置的设备MF200的框图。
图17到19展示应用于图12的记录的不同话音检测策略的实例。
图20展示第二立体声语音记录的谱图。
图21到23展示图20的记录的分析结果。
图24展示未正规化相位和接近度VAD测试统计的散布绘图。
图25展示基于接近度的VAD测试统计的所跟踪的最小和最大测试统计。
图26展示基于相位的VAD测试统计的所跟踪的最小和最大测试统计。
图27展示经正规化相位和接近度VAD测试统计的散布绘图。
图28展示经正规化相位和接近度VAD测试统计的散布绘图,其中α=0.5。
图29展示经正规化相位和接近度VAD测试统计的散布绘图,其中对于相位VAD统计,α=0.5,且对于接近度VAD统计,α=0.25。
图30A展示阵列R100的实施方案R200的框图。
图30B展示阵列R200的实施方案R210的框图。
图31A展示根据一般配置的装置D10的框图。
图31B展示作为装置D10的实施方案的通信装置D20的框图。
图32A到32D展示头戴式耳机D100的各种视图。
图33展示在使用中的头戴式耳机D100的实例的俯视图。
图34展示在使用中的装置D100的各种标准定向的侧视图。
图35A到35D展示头戴式耳机D200的各种视图。
图36A展示手持机D300的横截面图。
图36B展示手持机D300的实施方案D310的横截面图。
图37展示在使用中的手持机D300的各种标准定向的侧视图。
图38展示手持机D340的各种视图。
图39展示手持机D360的各种视图。
图40A到40B展示手持机D320的视图。
图40C到40D展示手持机D330的视图。
图41A到41C展示便携式音频感测装置的额外实例。
图41D展示根据一般配置的设备MF100的框图。
图42A展示媒体播放器D400的图。
图42B展示播放器D400的实施方案D410的图。
图42C展示播放器D400的实施方案D420的图。
图43A展示汽车套件D500的图。
图43B展示书写装置D600的图。
图44A到44B展示计算装置D700的视图。
图44C到44D展示计算装置D710的视图。
图45展示便携式多麦克风音频感测装置D800的图。
图46A到46D展示会议装置的若干实例的俯视图。
图47A展示指示高频率起始和截止活动的谱图。
图47B列举VAD策略的若干组合。
具体实施方式
在语音处理应用(例如,话音通信应用,例如电话)中,可能期望对载运语音信息的音频信号的片段执行准确检测。此话音活动检测(VAD)例如在保存语音信息时可为重要的。语音译码器(也称为编码器-解码器(编解码器)或声码器)通常经配置以分配比用来对被识别为噪声的片段进行编码的位更多的位来对被识别为语音的片段进行编码,使得载运语音信息的片段的误识别可能降低经解码片段中的所述信息的质量。在另一实例中,噪声减少系统在话音活动检测阶段未能将低能量无话音语音片段识别为语音的情况下可能激进地衰减这些片段。
对宽带(WB)和超宽带(SWB)编解码器的最近关注强调了保存高频语音信息,这对于高质量语音以及可理解性来说可为重要的。辅音通常具有跨越高频范围(例如,从四到八千赫)在时间上大体一致的能量。虽然辅音的高频能量与元音的低频能量相比通常较低,但环境噪声水平在高频中通常较低。
图1A和1B展示经记录语音片段的谱图功率在时间上的一阶导数的实例。在这些图中,可清楚地辨别语音起始(如在较宽高频范围上的若干正值的同时发生所指示)以及语音截止(如在较宽高频范围上的若干负值的同时发生所指示)。
可能期望基于如下原理来执行语音起始和/或截止的检测:相干且可检测的能量改变在语音的起始和截止处在多个频率上发生。可例如通过在所需频率范围(例如,高频范围,例如从四到八kHz)中在若干频率分量上计算能量的一阶时间导数(即,能量随着时间的改变速率)来检测此能量改变。通过将这些导数的振幅与阈值进行比较,可计算每一频率区间的激活指示,且在针对每一时间间隔(例如,针对每一10毫秒帧)的频率范围上组合(例如,平均化)激活指示以获得VAD统计。在此情况下,当大量频带展示在时间上相干的急剧能量增加时可指示语音起始,且当大量频带展示在时间上相干的急剧能量减小时可指示语音截止。此统计在本文中称为“高频语音连续性”。图47A展示谱图,其中概略描绘了归因于起始的相干高频活动以及归因于截止的相干高频活动。
除非由其上下文明确限制,否则本文中使用术语“信号”来指示其普通意义中的任一者,包含在电线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制,否则本文中使用术语“产生”来指示其普通意义中的任一者,例如计算或以另外方式产生。除非由其上下文明确限制,否则本文中使用术语“计算”来指示其普通意义中的任一者,例如运算、估计、平滑和/或从多个值中进行选择。除非由其上下文明确限制,否则使用术语“获得”来指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非由其上下文明确限制,否则使用术语“选择”来指示其普通意义中的任一者,例如识别、指示、应用和/或使用两者或两者以上的集合中的至少一者且少于全部。在术语“包括”用于本描述和权利要求书中的情况下,其不排除其它元件或操作。术语“基于”(如在“A基于B”中)用以指示其普通意义中的任一者,包含如下情况:(i)“从…导出”(例如,“B是A的前体”),(ii)“至少基于”(例如,“A至少基于B”),以及如果在特定上下文中适当的话,(iii)“等于”(例如,“A等于B”或“A与B相同”)。类似地,使用术语“响应于”来指示其普通意义中的任一者,包含“至少响应于”。
对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声学敏感面的中心的位置,除非上下文另外指示。根据特定上下文,术语“通道”有时用以指示信号路径且在其它时候用以指示由此路径载运的信号。除非另外指示,否则术语“系列”用以指示两个或两个以上项目的序列。术语“对数”用以指示以十为基数的对数,但此运算向其它基数的扩展属于本发明的范围内。术语“频率分量”用以指示信号的一组频率或频带当中的一者,例如所述信号的频域表示(例如,如由快速傅立叶变换产生)或所述信号的子带(例如,巴克(Bark)尺度或梅尔(mel)尺度子带)的样本(或“区间”)。
除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地既定揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地既定揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考由其特定上下文指示的方法、设备和/或系统来使用。  一般地且可互换地使用术语“方法”、“过程”、“程序”和“技术”,除非特定上下文另外指示。也一般地且可互换地使用术语“设备”和“装置”,除非特定上下文另外指示。术语“元件”和“模块”通常用以指示较大配置的一部分。除非由其上下文明确限制,否则本文中使用术语“系统”来指示其普通意义中的任一者,包含“交互以用于共同目的的一组元件”。一个文档的一部分以引用的方式的任何并入也应理解为并入了在所述部分内参考的术语或变量的定义(其中这些定义在所述文档的其它地方出现)以及在所并入的部分中参考的任何图式。
可将近场界定为距声音接收器(例如,麦克风或麦克风阵列)小于一个波长的空间区。在此定义下,到所述区的边界的距离随着频率相反地变化。举例来说,在两百、七百和两千赫兹的频率下,到一个波长边界的距离分别为约170、49和17厘米。改为将近场/远场边界视为距麦克风或阵列一个特定距离(例如,距麦克风或距阵列中的一麦克风或距阵列的质心五十厘米,或者距麦克风或距阵列中的一麦克风或距阵列的质心1米或1.5米)可能是有用的。
除非上下文另外指示,否则本文中使用术语“截止”作为术语“起始”的反义词。
图2A展示根据一般配置的方法M100的流程图,其包含任务T200、T300、T400、T500和T600。方法M100通常经配置以在音频信号的一系列片段中的每一者上反复,以指示所述片段中是否存在话音活动状态的转变。典型的片段长度范围是从约五或十毫秒到约四十或五十毫秒,且片段可重叠(例如,邻近的片段重叠25%或50%)或不重叠。在一个特定实例中,将信号划分为一系列不重叠的片段或“帧”,每一者具有十毫秒的长度。由方法M100处理的片段也可为由不同操作处理的较大片段的片段(即,“子帧”),或反之亦然。
任务T200计算片段n的每一频率分量k在所需频率范围上的能量E(k,n)的值(也称为“功率”或“强度”)。图2B展示方法M100的应用的流程图,其中在频域中提供音频信号。此应用包含获得频域信号(例如,通过计算音频信号的快速傅立叶变换)的任务T100。在此情况下,任务T200可经配置以基于对应频率分量的量值来计算能量(例如,作为平方量值)。
在替代实施方案中,方法M100经配置以(例如,从滤波器组)接收音频信号作为多个时域子带信号。在此情况下,任务T200可经配置以基于对应子带的时域样本值的平方和来计算能量(例如,作为和,或作为通过样本数目正规化的和(例如,平均平方值))。子带方案也可用于任务T200的频域实施方案中(例如,通过计算每一子带的能量的值作为子带k中的若干频率区间的平均能量,或作为所述频率区间的平均量值的平方)。在这些时域和频域情况中的任一者中,子带划分方案可为均匀的,使得每一子带具有大体上相同宽度(例如,在约百分之十内)。或者,子带划分方案可为不均匀的,例如超越方案(例如,基于巴克尺度的方案)或对数方案(例如,基于梅尔尺度的方案)。在一个此实例中,一组七个巴克尺度子带的边缘对应于频率20、300、630、1080、1720、2700、4400和7700 Hz。此子带布置可用于具有16 kHz的取样速率的宽带语音处理系统中。在此划分方案的其它实例中,省略较低子带以获得六子带布置,且/或使高频限制从7700Hz增加到8000Hz。不均匀子带划分方案的另一实例是四频带准巴克方案300到510Hz、510到920Hz、920到1480Hz以及1480到4000Hz。此子带布置可用于具有8kHz的取样速率的窄带语音处理系统中。
可能期望任务T200计算能量的值作为时间上经平滑的值。举例来说,任务T200可经配置以根据例如E(k,n)=βEu(k,n)+(1-β)E(k,n-1)的表达式来计算能量,其中Eu(k,n)是如上所述计算的能量的未经平滑的值,E(k,n)和E(k,n-1)分别是当前和先前经平滑的值,且β是平滑因数。平滑因数β的值的范围可为从0(最大平滑,无更新)到1(无平滑),且平滑因数β的典型值(对于起始检测可能不同于截止检测)包含0.05、0.1、0.2、0.25和0.3。
可能期望所需频率范围延伸到高于2000Hz。或者或另外,可能期望所需频率范围包含音频信号的频率范围的上半部的至少一部分(例如,在8kHz下取样的音频信号的从2000到4000Hz的范围的至少一部分,或在16kHz下取样的音频信号的从4000到8000Hz的范围的至少一部分)。在一个实例中,任务T200经配置以在从四到八千赫的范围上计算能量值。在另一实例中,任务T200经配置以在从500Hz到8kHz的范围上计算能量值。
任务T300计算片段的每一频率分量的能量的时间导数。在一个实例中,任务T300经配置以计算能量的时间导数作为每一帧n的每一频率分量k的能量差ΔE(k,n)[例如,根据例如ΔE(k,n)=E(k,n)–E(k,n–1)的表达式]。
可能期望任务T300将ΔE(k,n)计算为在时间上经平滑的值。举例来说,任务T300可经配置以根据例如ΔE(k,n)=α[E(k,n)–E(k,n–1)]+(1–α)[ΔE(k,n–1)]的表达式来计算能量的时间导数,其中α是平滑因数。此时间平滑可帮助增加起始和/或截止检测的可靠性(例如,通过不再强调有噪声的假象)。平滑因数α的值的范围可为从0(最大平滑,无更新)到1(无平滑),且平滑因数α的典型值包含0.05、0.1、0.2、0.25和0.3。对于起始检测,可能期望使用极少平滑或不使用平滑(例如,以允许快速响应)。可能期望基于起始检测结果而改变用于起始和/或截止的平滑因子α和/或β的值。
任务T400产生片段的每一频率分量的活动指示A(k,n)。任务T400可经配置以通过将ΔE(k,n)与激活阈值进行比较来将A(k,n)计算为例如二进制值。
可能期望激活阈值针对语音起始的检测具有正值Tact-on。在一个此实例中,任务T400经配置以根据如下表达式来计算起始激活参数Aon(k,n)
Figure BDA00002379786600092
可能期望激活阈值针对语音截止的检测具有负值Tact-off。在一个此实例中,任务T400经配置以根据如下表达式来计算截止激活参数Aoff(k,n)
Figure BDA00002379786600093
Figure BDA00002379786600094
在另一此实例中,任务T400经配置以根据如下表达式来计算Aoff(k,n)
Figure BDA00002379786600095
Figure BDA00002379786600096
任务T500组合片段n的活动指示以产生片段活动指示S(n)。在一个实例中,任务T500经配置以将S(n)计算为片段的值A(k,n)的和。在另一实例中,任务T500经配置以将S(n)计算为片段的值A(k,n)的经正规化和(例如,平均值)。
任务T600将经组合的活动指示S(n)的值与转变检测阈值Ttx进行比较。在一个实例中,如果S(n)大于(或者不小于)Ttx,那么任务T600指示话音活动状态的转变的存在。对于其中A(k,n)[例如,Aoff(k,n)]的值可能为负的情况,如在以上实例中,如果S(n)小于(或者不大于)转变检测阈值Ttx,那么任务T600可经配置以指示话音活动状态的转变的存在。
图2C展示根据一般配置的设备A100的框图,其包含计算器EC10、微分器DF10、第一比较器CP10、组合器CO10以及第二比较器CP20。设备A100通常经配置以针对音频信号的一系列片段中的每一者产生所述片段中是否存在话音活动状态的转变的指示。计算器EC10经配置以在所需频率范围上计算所述片段的每一频率分量的能量的值(例如,如本文中参考任务T200所描述)。在此特定实例中,变换模块FFT1对多通道信号的通道S10-1的片段执行快速傅立叶变换以对设备A100(例如,计算器EC10)提供频域中的所述片段。微分器DF10经配置以计算所述片段的每一频率分量的能量的时间导数(例如,如本文中参考任务T300所描述)。比较器CP10经配置以产生所述片段的每一频率分量的活动指示(例如,如本文中参考任务T400所描述)。组合器CO10经配置以组合片段的活动指示以产生片段活动指示(例如,如本文中参考任务T500所描述)。比较器CP20经配置以将片段活动指示的值与转变检测阈值进行比较(例如,如本文中参考任务T600所描述)。
图41D展示根据一般配置的设备MF100的框图。设备MF100通常经配置以处理音频信号的一系列片段中的每一者以指示所述片段中是否存在话音活动状态的转变。设备MF100包含用于在所需频率范围上计算片段的每一分量的能量(例如,如本文中参考任务T200所揭示)的装置F200。设备MF100还包含用于计算每一分量的能量的时间导数(例如,如本文中参考任务T300所揭示)的装置F300。设备MF100还包含用于指示每一分量的活动(例如,如本文中参考任务T400所揭示)的装置F400。设备MF100还包含用于组合活动指示(例如,如本文中参考任务T500所揭示)的装置F500。设备MF100还包含用于将经组合活动指示与阈值进行比较(例如,如本文中参考任务T600所揭示)以产生语音状态转变指示TI10的装置F600。
可能期望系统(例如,便携式音频感测装置)执行经配置以检测起始的方法M100的实例以及经配置以检测截止的方法M100的另一实例,其中方法M100的每一实例通常具有不同的相应阈值。或者,可能期望此系统执行将所述实例组合的方法M100的实施方案。图3A展示方法M100的此实施方案M110的流程图,其包含活动指示任务T400的多个实例T400a、T400b、组合任务T500的多个实例T500a、T500b,以及状态转变指示任务T600的多个实例T600a、T600b。图3B展示设备A100的对应实施方案A110的框图,其包含比较器CP10的多个实例CP10a、CP10b、组合器CO10的多个实例CO10a、CO10b,以及比较器CP20的多个实例CP20a、CP20b。
可能期望将如上所述的起始和截止指示组合为单个量度。此经组合起始/截止得分可用以支持对语音活动(例如,近端语音能量的改变)随着时间的准确跟踪,即使在不同的噪声环境和声压级下也是如此。经组合起始/截止得分机制的使用还可使得更容易调谐起始/截止VAD。
可使用如上所述通过任务T500的相应起始和截止实例针对每一片段计算的片段活动指示S(n)的值来计算经组合起始/截止得分Son-off(n)。图4A展示方法M100的此实施方案M120的流程图,其包含频率分量激活指示任务T400和组合任务T500分别的起始和截止实例T400a、T500a和T400b、T500b。方法M120还包含任务T550,其基于由任务T500a(Son(n))和T500b(Soff(n))产生的S(n)的值来计算经组合起始-截止得分Son-off(n)。举例来说,任务T550可经配置以根据例如Son-off(n)=abs(Son(n)+Soff(n))的表达式来计算Son-off(n)。在此实例中,方法M120还包含任务T610,其将Son-off(n)的值与阈值进行比较以产生每一片段n的对应二进制VAD指示。图4B展示设备A100的对应实施方案A120的框图。
图5A、5B、6和7展示可如何使用此经组合起始/截止活动量度来帮助跟踪近端语音能量在时间上的改变的实例。图5A和5B展示在不同噪声环境中和在不同声压级下包含相同近端话音的信号的谱图。图6和7的绘图A分别展示在时域中的图5A和5B的信号(作为振幅对以样本数计的时间的曲线关系)。图6和7的绘图B展示对绘图A的信号执行方法M100的实施方案以获得起始指示信号的结果(作为值对以帧数计的时间的曲线关系)。图6和7的绘图C展示对绘图A的信号执行方法M100的实施方案以获得截止指示信号的结果(作为值对以帧数计的时间的曲线关系)。在绘图B和C中,将对应帧活动指示信号展示为多值信号,将对应激活阈值展示为水平线(在绘图6B和7B中处于约+0.1且在绘图6C和7C中处于约-0.1),且将对应转变指示信号展示为二进制值信号(在绘图6B和7B中具有0和约+0.6的值,且在绘图6C和7C中具有0和约-0.6的值)。图6和7的绘图D展示对绘图A的信号执行方法M120的实施方案以获得经组合起始/截止指示信号的结果(作为值对以帧数计的时间的曲线关系)。图6和7的绘图D的比较证明此检测器在不同噪声环境中和在不同声压级下的一致性能。
例如猛关上的门、落下的板或拍手等非语音声音脉冲也可产生展示在一频率范围上的一致功率改变的响应。图8展示对包含若干非语音脉冲性事件的信号执行起始和截止检测(例如,使用方法M100的对应实施方案或方法M110的实例)的结果。在此图中,绘图A展示时域中的信号(作为振幅对以样本数计的时间的曲线关系),绘图B展示对绘图A的信号执行方法M100的实施方案以获得起始指示信号的结果(作为值对与以帧数计的时间的曲线关系),且绘图C展示对绘图A的信号执行方法M100的实施方案以获得截止指示信号的结果(作为值对以帧数计的时间的曲线关系)。(在绘图B和C中,如参考图6和7的绘图B和C而描述来展示对应的帧活动指示信号、激活阈值和转变指示信号。)图8中的最左边箭头指示对由门猛关引起的不连续的起始(即,在正检测截止时检测到的起始)的检测。图8中的中心和最右边箭头指示由拍手引起的起始和截止检测。可能期望区别这些脉冲性事件与话音活动状态转变(例如,语音起始和截止)。
非语音脉冲性激活可能比语音起始或截止在更宽频率范围上一致,语音起始或截止通常展现相对于时间的能量改变,其仅在约4到8kHz的范围上是连续的。因此,非语音脉冲性事件可能引起经组合活动指示(例如,S(n))具有过高而无法由语音使用的值。可实施方法M100以利用此性质来区别非语音脉冲性事件与话音活动状态转变。
图9A展示包含任务T650的方法M100的此实施方案M130的流程图,所述任务T650将S(n)的值与脉冲阈值Timp进行比较。图9B展示包含任务T700的方法M130的实施方案M132的流程图,所述任务T700在S(n)大于(或者不小于)Timp的情况下超驰任务T600的输出以消除话音活动转变指示。对于其中A(k,n)[例如,Aoff(k,n)]的值可为负(例如,如在以上截止实例中)的此情况,任务T700可经配置以仅在S(n)小于(或者不大于)对应超驰阈值的情况下指示话音活动转变指示。另外或在此过度激活检测的替代方案中,此脉冲抑制可包含对方法M110的修改以将不连续的起始(例如,同一片段中的起始和截止的指示)识别为脉冲性噪声。
也可通过起始的速度来区别非语音脉冲性噪声与语音。举例来说,频率分量中的语音起始或截止的能量往往随着时间比由于非语音脉冲性事件引起的能量更缓慢地改变,且可实施方法M100以利用此性质(例如,另外或在如上所述的过度激活的替代方案中)以区别非语音脉冲性事件与话音活动状态转变。
图10A展示方法M100的实施方案M140的流程图,其包含起始速度计算任务T800以及任务T400、T500和T600分别的实例T410、T510和T620。任务T800针对片段n的每一频率分量k计算起始速度Δ2E(k,n)(即,能量相对于时间的二阶导数)。举例来说,任务T800可经配置以根据例如Δ2E(k,n)=[ΔE(k,n)–ΔE(k,n–1)]的表达式来计算起始速度。
任务T400的实例T410经布置以针对片段n的每一频率分量计算脉冲性激活值Aimp-d2x(k,n)。任务T410可经配置以例如通过将Δ2E(k,n)与脉冲性激活阈值进行比较来将Aimp-d2(k,n)计算为二进制值。在一个此实例中,任务T410经配置以根据如下表达式来计算脉冲性激活参数Aimp-d2(k,n)
Figure BDA00002379786600131
任务T500的实例T510组合片段n的脉冲性活动指示以产生片段脉冲性活动指示Simp-d2(n)。在一个实例中,任务T510经配置以将Simp-d2(n)计算为所述片段的值Aimp-d2(k,n)的和。在另一实例中,任务T510经配置以将Simp-d2(n)计算为所述片段的值Aimp-d2(k,n)的经正规化和(例如,平均值)。
任务T600的实例T620将片段脉冲性活动指示Simp-d2(n)的值与脉冲检测阈值Timp-d2进行比较且在Simp-d2(n)大于(或者不小于)Timp-d2的情况下指示检测到脉冲性事件。图10B展示方法M140的实施方案M142的流程图,其包含任务T700的实例,任务T700经布置以在任务T620指示S(n)大于(或者不小于)Timp-d2的情况下超驰任务T600的输出以消除话音活动转变指示。
图11展示其中语音起始导数技术(例如,方法M140)正确地检测由图8中的三个箭头指示的脉冲的实例。在此图中,绘图A展示时域中的信号(作为振幅对以样本数计的时间),绘图B展示对绘图A的信号执行方法M100的实施方案以获得起始指示信号的结果(作为值对以帧数计的时间的曲线关系),且绘图C展示对绘图A的信号执行方法M140的实施方案以获得脉冲性事件的指示的结果(作为值对以帧数计的时间的曲线关系)。(在绘图B和C中,如参考图6和7的绘图B和C所描述来展示对应的帧活动指示信号、激活阈值和转变指示信号。)在此实例中,脉冲检测阈值Timp-d2具有约0.2的值。
由如本文描述的方法M100的实施方案产生的语音起始和/或截止的指示(或经组合起始/截止得分)可用以改善VAD级的准确性和/或快速地跟踪时间上的能量改变。举例来说,VAD级可经配置以将由方法M100的实施方案产生的话音活动状态的转变的存在或不存在的指示与由一个或一个以上其它VAD技术(例如,使用“与”或“或”逻辑)产生的指示进行组合以产生话音活动检测信号。
其结果可与方法M100的实施方案的结果相组合的其它VAD技术的实例包含经配置以基于一个或一个以上因数将片段分类为有效(例如,语音)或无效(例如,噪声)的技术,所述因数例如为帧能量、信噪比、周期性、语音和/或残余(例如,线性预测译码残余)的自相关、过零率和/或第一反射系数。此分类可包含将此因数的值或量值与阈值进行比较和/或将此因数的改变的量值与阈值进行比较。或者或另外,此分类可包含将一个频带中的此因数(例如,能量)的值或量值或此因数的改变的量值与另一频带中的类似值进行比较。可能期望实施此VAD技术以基于多个准则(例如,能量、过零率等)和/或最近VAD决策的记忆来执行话音活动检测。其结果可与方法M100的实施方案的结果相组合的话音活动检测操作的一个实例包含将片段的高频带和低频带能量与例如在2010年10月的3GPP2文档C.S0014-D(v3.0)的第4.7章(第4-48到4-55页)中描述的相应阈值进行比较,所述文档的题目为“增强型可变速率编解码器,用于宽带展频数字系统的语音服务选项3、68、70和73(Enhanced Variable Rate Codec,Speech Service Options 3,68,70,and 73 forWideband Spread Spectrum Digital Systems)”(在www-dot-3gpp-dot-org处可在线获得)。其它实例包含比较帧能量与平均能量的比率和/或低频带能量与高频带能量的比率。
其中每一通道是基于由麦克风阵列中的一个对应麦克风产生的信号的多通道信号(例如,双通道或立体声信号)通常含有可用于话音活动检测的关于源方向和/或接近度的信息。此多通道VAD操作可例如通过区别含有从特定方向范围(例如,例如用户的嘴等所需声音源的方向)到达的方向性声音的片段与含有漫射声音或从其它方向到达的方向性声音的片段而基于到达方向(DOA)。
一类基于DOA的VAD操作是基于多通道信号的两个通道中的每一者中的频率分量之间的相位差(针对所需频率范围中片段的每一频率分量)。此VAD操作可经配置以在相位差与频率之间的关系在一宽频率范围(例如500到2000Hz)上一致时(即,当相位差与频率的相关是线性的时)指示话音检测。下文更详细描述的此基于相位的VAD操作与方法M100的类似之处在于,点源的存在是由指示符在多个频率上的一致性来指示。另一类基于DOA的VAD操作是基于每一通道中的信号的实例之间的时间延迟(例如,通过在时域中使所述通道交叉相关而确定)。
多通道VAD操作的另一实例是基于多通道信号的通道的电平(也称为增益)之间的差。基于增益的VAD操作可经配置以例如在两个通道的能量的比率超过阈值(指示信号正在从近场源到达且从麦克风阵列的轴方向中的一个所需方向到达)时指示话音检测。此检测器可经配置以在频域中(例如,在一个或一个以上特定频率范围上)或在时域中对信号进行操作。
可能期望将起始/截止检测结果(例如,由方法M100或设备A100或MF100的实施方案产生)与来自基于多通道信号的通道之间的差的一个或一个以上VAD操作的结果进行组合。举例来说,如本文描述的语音起始和/或截止的检测可用以识别通过基于增益和/或基于相位的VAD仍未检测到的语音片段。将起始和/或截止统计并入到VAD决策中还可支持针对单通道和/或多通道(例如,基于增益的或基于相位的)VAD使用减小的拖尾周期。
基于通道间增益差的多通道话音活动检测器以及单通道(例如,基于能量的)话音活动检测器通常依赖于来自一宽频率范围(例如,0到4kHz、500到4000Hz、0到8kHz或500到8000Hz范围)的信息。基于到达方向(DOA)的多通道话音活动检测器通常依赖于来自低频率范围(例如,500到2000Hz或500到2500Hz范围)的信息。假定有话音的语音在这些范围中通常具有显著能量内容,那么这些检测器可大体上经配置以可靠地指示有话音的语音的片段。
然而,无话音的语音的片段通常具有低能量,尤其是与低频率范围中的元音的能量相比。可包含无话音的辅音以及有话音的辅音的无话音部分的这些片段也往往在500到2000 Hz范围中缺乏重要信息。因此,话音活动检测器可能无法将这些片段指示为语音,这可能导致译码低效和/或语音信息损失(例如,通过不适当的译码和/或过于激进的噪声减少)。
可能期望通过将基于由谱图交叉频率连续性指示的语音起始和/或截止的检测(例如,方法M100的实施方案)的语音检测方案与基于例如通道间增益差和/或通道间相位差的相干性等其它特征的检测方案进行组合来获得集成的VAD级。举例来说,可能期望用经配置以跟踪主要出现在高频率中的语音起始和/或截止事件的方法M100的实施方案来补充基于增益和/或基于相位的VAD框架结构。此经组合分类器的个别特征可彼此补充,因为与基于增益和基于相位的VAD相比,起始/截止检测往往对不同频率范围中的不同语音特性敏感。举例来说,500到2000Hz相位敏感VAD与4000到8000Hz高频语音起始/截止检测器的组合允许保存低能量语音特征(例如,在单词的富含辅音的开始处)以及高能量语音特征。可能期望设计经组合检测器来提供从起始到对应截止的连续检测指示。
图12展示近场说话者的多通道记录的谱图,其也包含远场干扰语音。在此图中,顶部的记录是来自靠近用户的嘴的麦克风,且底部的记录是来自较远离用户的嘴的麦克风。来自语音辅音和齿擦音的高频能量在顶部谱图中清楚地可辨别。
为了有效地保存出现在有话音的片段的末尾的低能量语音分量,可能期望例如基于增益或基于相位的多通道话音活动检测器或基于能量的单通道话音活动检测器等话音活动检测器包含惯性机制。此机制的一个实例是经配置以禁止检测器将其输出从有效切换到无效直到检测器继续在若干连续帧(例如,两个、三个、四个、五个、十个或二十个帧)的拖尾周期上检测到无效性为止的逻辑。举例来说,此拖尾逻辑可经配置以致使VAD继续在最近检测之后的某个周期中将片段识别为语音。
可能期望拖尾周期足够长以俘获任何未检测到的语音片段。举例来说,可能期望基于增益或基于相位的话音活动检测器包含约两百毫秒(例如,约二十个帧)的拖尾周期以覆盖由于低能量或在相关频率范围中缺乏信息而被错过的语音片段。然而,如果未检测到的语音在拖尾周期之前结束,或者如果没有低能量语音分量实际上存在,那么拖尾逻辑可能致使VAD在拖尾周期期间传递噪声。
语音截止检测可用以减少在单词末尾处的VAD拖尾周期的长度。如上所述,可能期望提供具有拖尾逻辑的话音活动检测器。在此情况下,可能期望在一布置中将此检测器与语音截止检测器组合以有效地响应于截止检测而终止拖尾周期(例如,通过将拖尾逻辑复位或以另外方式控制经组合检测结果)。此布置可经配置以支持连续检测结果,直到可检测到对应截止为止。在特定实例中,经组合VAD包含具有拖尾逻辑(例如,具有标称200毫秒周期)的增益和/或相位VAD和经布置以每当检测到截止的末尾时便致使经组合检测器停止指示语音的截止VAD。以此方式,可获得自适应拖尾。
图13A展示根据一般配置的方法M200的流程图,其可用以实施自适应拖尾。方法M200包含:任务TM100,其确定在音频信号的第一多个连续片段中的每一者中存在话音活动;以及任务TM200,其确定在所述音频信号的紧跟所述信号中的第一多个连续片段之后的第二多个连续片段中的每一者中不存在话音活动。任务TM100和TM200可例如由如本文描述的单通道或多通道话音活动检测器执行。方法M200还包含方法M100的实例,其检测在第二多个片段当中的一者中的话音活动状态的转变。基于任务TM100、TM200和M100的结果,任务TM300产生话音活动检测信号。
图13B展示任务TM300的实施方案TM302的框图,其包含子任务TM310和TM320。针对第一多个片段中的每一者,且针对第二多个片段中的在其中检测到转变的片段之前出现的每一者,任务TM310产生VAD信号的对应值以指示活动(例如,基于任务TM100的结果)。针对第二多个片段中的在其中检测到转变的片段之后出现的每一者,任务TM320产生VAD信号的对应值以指示缺乏活动(例如,基于任务TM200的结果)。
任务TM302可经配置以使得检测到的转变是截止的开始或者截止的末尾。图14A说明方法M200的实施方案的操作的实例,其中用于转变片段(指示为X)的VAD信号的值可通过设计而选择为0或1。在一个实例中,用于其中检测到截止的末尾的片段的VAD信号值是指示缺乏活动的第一个值。在另一实例中,用于紧跟其中检测到截止的末尾的片段之后的片段的VAD信号值是指示缺乏活动的第一个值。
图14B展示根据一般配置的设备A200的框图,其可用以实施具有自适应拖尾的经组合VAD级。设备A200包含第一话音活动检测器VAD10(例如,如本文描述的单通道检测器或多通道检测器),其可经配置以执行如本文描述的任务TM100和TM200的实施方案。设备A200还包含第二话音活动检测器VAD20,其可经配置以执行如本文描述的语音截止检测。设备A200还包含信号产生器SG10,其可经配置以执行如本文描述的任务TM300的实施方案。图14C展示设备A200的实施方案A205的框图,其中将第二话音活动检测器VAD20实施为设备A100的实例(例如,设备A100、A110或A120)。
图15A展示设备A205的实施方案A210的框图,其包含第一检测器VAD10的实施方案VAD12,所述实施方案VAD12经配置以接收多通道音频信号(在此实例中,在频域中)且产生基于通道间增益差的对应VAD信号V10和基于通道间相位差的对应VAD信号V20。在一个特定实例中,增益差VAD信号V10是基于在从0到8kHz的频率范围上的差,且相位差VAD信号V20是基于从500到2500Hz的频率范围中的差。
设备A210还包含如本文描述的设备A100的实施方案A110,其经配置以接收多通道信号的一个通道(例如,主要通道)且产生对应的起始指示TI10a和对应的截止指示TI10b。在一个特定实例中,指示TI10a和TI10b是基于在510Hz到8kHz的频率范围中的差。(应明确注意,一般来说,经布置以调适多通道检测器的拖尾周期的语音起始和/或截止检测器可在不同于由所述多通道检测器接收的通道的通道上操作。)在特定实例中,起始指示TI10a和截止指示TI10b是基于从500到8000Hz的频率范围中的能量差。设备A210还包含信号产生器SG10的实施方案SG12,其经配置以接收VAD信号V10和V20以及转变指示TI10a和TI10b且产生对应的经组合VAD信号V30。
图15B展示信号产生器SG12的实施方案SG14的框图。此实施方案包含:“或”逻辑OR10,其用于组合增益差VAD信号V10与相位差VAD信号V20以获得经组合多通道VAD信号;拖尾逻辑HO10,其经配置以基于截止指示TI10b对经组合多通道信号强加自适应拖尾周期,以产生经延伸VAD信号;以及“或”逻辑OR20,其用于组合经延伸VAD信号与起始指示TI10a以产生经组合VAD信号V30。在一个实例中,拖尾逻辑HO10经配置以在截止指示TI10b指示截止的末尾时终止拖尾周期。最大拖尾值的特定实例包含用于基于相位的VAD的零个、一个、十个和二十个片段以及用于基于增益的VAD的八个、十个、十二个和二十个片段。应注意,也可实施信号产生器SG10以将拖尾应用于起始指示TI10a和/或截止指示TI10b。
图16A展示信号产生器SG12的另一实施方案SG16的框图,其中改为通过使用“与”逻辑AN10组合增益差VAD信号V10与相位差VAD信号V20来产生经组合多通道VAD信号。信号产生器SG14或SG16的另外实施方案还可包含经配置以延伸起始指示TI10a的拖尾逻辑、用以针对其中起始指示TI10a和截止指示TI10b均为有效的片段超驰话音活动的指示的逻辑,和/或用于在“与”逻辑AN10、“或”逻辑OR10和/或“或”逻辑OR20处的一个或一个以上其它VAD信号的输入。
另外或在自适应拖尾控制的替代方案中,起始和/或截止检测可用以改变另一VAD信号(例如增益差VAD信号V10和/或相位差VAD信号V20)的增益。举例来说,可响应于起始和/或截止指示而将VAD统计(在阈值处理之前)乘以大于一的因数。在一个此实例中,如果针对片段指示起始检测或截止检测,那么将基于相位的VAD统计(例如,相干性测量)乘以大于1的因数ph_mult,且将基于增益的VAD统计(例如,通道电平之间的差)乘以大于1的因数pd_mult。ph_mult的值的实例包含2、3、3.5、3.8、4和4.5。pd_mult的值的实例包含1.2、1.5、1.7和2.0。或者,可响应于在片段中缺乏起始和/或截止检测而使一个或一个以上此统计衰减(例如,乘以小于一的因数)。一般来说,可使用响应于起始和/或截止检测而将统计偏置的任何方法(例如,加上响应于检测的正偏置值或响应于缺乏检测的负偏置值,根据起始和/或截止检测而升高或降低用于测试统计的阈值,和/或以另外方式修改测试统计与对应阈值之间的关系)。
可能期望对已经正规化(例如,如参考以下表达式(N1)到(N4)所描述)的VAD统计执行此乘法且/或在选择此偏置时调整用于VAD统计的阈值。还注意到,可使用方法M100的不同实例来产生起始和/或截止指示以用于此目的,此实例不同于用以产生起始和/或截止指示以用于组合为经组合VAD信号V30的实例。举例来说,方法M100的增益控制实例可在任务T600中使用与方法M100的VAD实例不同的阈值(例如,用于起始的0.01或0.02;用于截止的0.05、0.07、0.09或1.0)。
可与本文描述的那些相组合(例如,通过信号产生器SG10)的另一VAD策略是单通道VAD信号,其可基于帧能量与平均能量的比率和/或基于低频带和高频带能量。可能期望将此单通道VAD检测器朝向高错误警报率偏置。可与本文描述的那些相组合的另一VAD策略是多通道VAD信号,其基于低频率范围(例如,低于900Hz或低于500Hz)中的通道间增益差。此检测器可预期准确地以低错误警报率检测有话音的片段。图47B列出可用以产生经组合VAD信号的VAD策略的组合的若干实例。在此图中,P表示基于相位的VAD,G表示基于增益的VAD,ON表示起始VAD,OFF表示截止VAD,LF表示低频率的基于增益的VAD,PB表示经提升的基于相位的VAD,GB表示经提升的基于增益的VAD,且SC表示单通道VAD。
图16B展示根据一般配置的设备MF200的框图,其可用以实施具有自适应拖尾的经组合VAD级。设备MF200包含用于确定在音频信号的第一多个连续片段中的每一者中存在话音活动的装置FM10,其可经配置以执行如本文描述的任务TM100的实施方案。设备MF200包含用于确定音频信号的紧跟所述信号中的第一多个连续片段之后的第二多个连续片段中的每一者中不存在话音活动的装置FM20,其可经配置以执行如本文描述的任务TM200的实施方案。装置FM10和FM20可例如实施为如本文描述的单通道或多通道话音活动检测器。设备A200还包含用于检测第二多个片段当中的一者中的话音活动状态的转变(例如,用于执行如本文描述的语音截止检测)的装置FM100的实例。设备A200还包含用于产生话音活动检测信号(例如,如本文中参考任务TM300和/或信号产生器SG10所描述)的装置FM30。
组合来自不同VAD技术的结果也可用以减小VAD系统对麦克风放置的敏感性。举例来说,当电话保持在下方(例如,远离用户的嘴)时,基于相位和基于增益的话音活动检测器可能均失效。在此情况下,可能期望经组合检测器更多地依赖于起始和/或截止检测。集成VAD系统也可与音高跟踪相组合。
虽然基于增益和基于相位的话音活动检测器可能在SNR非常低时出问题,但噪声在高频率下通常不是问题,使得起始/截止检测器可经配置以包含拖尾间隔(和/或时间平滑操作),其可在SNR较低时增大(例如,以补偿其它检测器的停用)。基于语音起始/截止统计的检测器也可用以通过填充衰减与增加基于增益/相位的VAD统计之间的间隙来允许较精确的语音/噪声分段,因此使得能够减小用于那些检测器的拖尾周期。
例如拖尾逻辑等惯性方法自身对于保存富含辅音的单词(例如“the”)的发音开始来说不是有效的。语音起始统计可用以在一个或一个以上其它检测器错过的单词开始处检测语音起始。此布置可包含时间平滑和/或拖尾周期以延伸起始转变指示直到可触发另一检测器为止。
对于其中在多通道上下文中使用起始和/或截止检测的大多数情况,对对应于最靠近用户的嘴定位或以另外方式经定位以最直接接收用户话音的麦克风(也称为“靠近说话”或“主要”麦克风)的通道执行此检测可能是足够的。然而,在一些情况下,可能期望对一个以上麦克风执行起始和/或截止检测,例如对双通道实施方案中的两个麦克风执行起始和/或截止检测(例如,针对其中电话经旋转以背向用户的嘴的使用情形)。
图17到19展示应用于图12的记录的不同话音检测策略的实例。这些图的顶部绘图指示时域中的输入信号以及通过组合个别VAD结果中的两者或两者以上而产生的二进制检测结果。这些图的其它绘图中的每一者指示VAD统计的时域波形、用于对应检测器的阈值(由每一绘图中的水平线指示)以及所得的二进制检测决策。
从上到下,图17中的绘图展示(A)使用来自其它绘图的所有检测结果的组合的全局VAD策略;(B)基于麦克风间相位差与500到2500Hz频带上的频率的相关的VAD策略(不具有拖尾);(C)基于由0到8000Hz频带上的麦克风间增益差指示的接近度决策的VAD策略(不具有拖尾);(D)基于由在500到8000Hz频带上的谱图交叉频率连续性指示的语音起始的检测(例如,方法M100的实施方案)的VAD策略;以及(E)基于由500到8000 Hz频带上的谱图交叉频率连续性指示的语音截止的检测(例如,方法M100的另一实施方案)的VAD策略。图17的底部处的箭头指示由基于相位的VAD指示的若干错误肯定的在时间上的位置。
图18与图17的不同之处在于,在图18的顶部绘图中所示的二进制检测结果是通过(在此情况下,使用“或”逻辑)仅组合分别如绘图B和C中所示的基于相位和基于增益的检测结果而获得。在图18的底部处的箭头指示通过基于相位的VAD和基于增益的VAD中的任一者未检测到的语音截止的在时间上的位置。
图19与图17的不同之处在于,在图19的顶部绘图中所示的二进制检测结果是通过(在此情况下,使用“或”逻辑)仅组合分别如绘图B中所示的基于增益的检测结果和如绘图D和E中所示的起始/截止检测结果而获得,且基于相位的VAD和基于增益的VAD两者经配置以包含拖尾。在此情况下,由于图16中指示的多个错误肯定而丢弃来自基于相位的VAD的结果。通过组合语音起始/截止VAD结果与基于增益的VAD结果,基于增益的VAD的拖尾减少,且无需基于相位的VAD。虽然此记录还包含远场干扰语音,但近场语音起始/截止检测器适当地失效而不检测此远场干扰语音,因为远场语音往往缺乏突出的高频信息。
高频信息对于语音可理解性可为重要的。因为空气类似于低通滤波器而作用于行进经过空气的声音,所以由麦克风拾取的高频信息的量将通常随着声源与麦克风之间的距离增加而减小。类似地,低能量语音往往随着所需说话者与麦克风之间的距离增加而变为埋入于背景噪声中。然而,如本文中参考方法M1 00描述的在高频范围上相干的若干能量激活的指示符可用以跟踪近场语音,即使在可能使低频语音特性模糊的噪声的存在下也是如此,因为此高频特征仍可以在经记录的谱中可检测到。
图20展示埋入于街道噪声中的近场语音的多通道记录的谱图,且图21到23展示应用于图20的记录的不同话音检测策略的实例。这些图的顶部绘图指示时域中的输入信号以及通过组合个别VAD结果中的两者或两者以上而产生的二进制检测结果。这些图的其它绘图中的每一者指示VAD统计的时域波形、用于对应检测器的阈值(由每一绘图中的水平线指示)以及所得的二进制检测决策。
图21展示可如何使用语音起始和/或截止检测来补充基于增益和基于相位的VAD的实例。左边的箭头群组指示仅由语音截止VAD检测到的语音截止,且右边的箭头群组指示仅由语音起始VAD检测到的语音起始(在低SNR中发音“to”和“pure”的起始)。
图22说明仅无拖尾的基于相位和基于增益的VAD(绘图B和C)的组合(绘图A)频繁地错失可使用起始/截止统计(绘图D和E)检测到的低能量语音特征。图23的绘图A说明组合来自所有四个个别检测器的结果(图23的绘图B到E,所有检测器上均具有拖尾)支持准确的截止检测,从而允许对基于增益和基于相位的VAD使用较小的拖尾,同时还正确地检测单词起始。
可能期望使用话音活动检测(VAD)操作的结果以用于噪声减少和/或抑制。在一个此实例中,将VAD信号作为增益控制应用于通道中的一者或一者以上(例如,以衰减噪声频率分量和/或片段)。在另一此实例中,应用VAD信号以计算(例如,更新)针对基于经更新噪声估计的多通道信号的至少一个通道上的噪声减少操作的噪声估计(例如,使用已通过VAD操作分类为噪声的频率分量或片段)。此噪声减少操作的实例包含谱减法操作和维纳(Wiener)滤波操作。可与本文揭示的VAD策略一起使用的处理后操作(例如,残余噪声抑制、噪声估计组合)的另外实例在第61/406,382号美国专利申请案(辛(Shin)等人,2010年10月25日申请)中描述。
典型环境中的声学噪声可包含混串音噪声、机场噪声、街道噪声、竞争性讲话者的话音和/或来自干扰源(例如,电视机或广播)的声音。因此,此噪声通常是非静止的且可具有接近于用户自身话音的谱的平均谱。根据单个麦克风信号计算的噪声功率参考信号通常仅是近似的静止噪声估计。而且,此计算通常带来噪声功率估计延迟,使得仅可在显著延迟之后执行子带增益的对应调整。可能期望获得环境噪声的可靠且同时期的估计。
噪声估计的实例包含基于单通道VAD的单通道长期估计以及由多通道BSS滤波器产生的噪声参考。通过使用来自接近度检测操作的(双通道)信息以分类主要麦克风通道的分量和/或片段,可计算单通道噪声参考。此噪声估计可能比其它方法快得多地可用,因为其不需要长期估计。此单通道噪声参考也可俘获非静止噪声,这不同于基于长期估计的方法,基于长期估计的方法通常不能支持非静止噪声的移除。此方法可提供快速、准确且非静止的噪声参考。噪声参考可经平滑(例如,可能在每一频率分量上使用一级平滑器)。接近度检测的使用可使得装置能够使用此方法来抑制附近的瞬态,例如传递到方向性掩蔽功能的前瓣中的汽车噪声声音。
如本文描述的VAD指示可用以支持噪声参考信号的计算。举例来说,当VAD指示指示了一个帧是噪声时,可使用所述帧来更新噪声参考信号(例如,主要麦克风通道的噪声分量的谱分布)。可在频域中例如通过对频率分量值进行时间平滑(例如,通过用当前噪声估计的对应分量的值更新每一分量的先前值)来执行此更新。在一个实例中,维纳滤波器使用噪声参考信号来对主要麦克风通道执行噪声减少操作。在另一实例中,谱减法操作使用噪声参考信号来对主要麦克风通道执行噪声减少操作(例如,通过从主要麦克风通道减去噪声谱)。当VAD指示指示了一个帧不是噪声时,可使用所述帧来更新主要麦克风通道的信号分量的谱分布,所述分布也可由维纳滤波器使用以执行噪声减少操作。所得操作可被视为利用双通道VAD操作的准单通道噪声减少算法。
如上文描述的自适应拖尾可用于声码器上下文中以提供语音片段与噪声之间的更准确区分,同时在语音间隔期间维持连续检测结果。然而,在另一上下文中,可能期望允许VAD结果的较快速转变(例如,以消除拖尾),即使此动作致使VAD结果在同一语音间隔内改变状态也是如此。举例来说,在噪声减少上下文中,可能期望基于话音活动检测器识别为噪声的片段来计算噪声估计,且使用所计算得的噪声估计来对语音信号执行噪声减少操作(例如,维纳滤波或其它谱减法操作)。在此情况下,可能期望配置检测器以获得较准确的分段(例如,基于逐个帧),即使此调谐致使VAD信号在用户正讲话时改变状态也是如此。
方法M100的实施方案可单独地或与一个或一个以上其它VAD技术组合地经配置以针对信号的每一片段产生二进制检测结果(例如,针对话音的高或“1”,否则为低或“0”)。或者,方法M100的实施方案可单独地或与一个或一个以上其它VAD技术组合地经配置以针对每一片段产生一个以上检测结果。举例来说,可使用语音起始和/或截止的检测来获得时间-频率VAD技术,其基于跨越片段的不同频率子带的起始和/或截止连续性来个别地表征所述频带。在此情况下,可使用上文提到的子带划分方案中的任一者(例如,均匀、巴克尺度、梅尔尺度),且可针对每一子带执行任务T500和T600的实例。对于不均匀的子带划分方案,可能期望任务T500的每一子带实例正规化(例如,平均化)针对对应子带的激活的数目,使得(举例来说)任务T600的每一子带实例可使用相同阈值(例如,用于起始的0.7、用于截止的-0.15)。
举例来说,此子带VAD技术可指示给定片段在500到1000Hz频带中载运语音,在1000到1200Hz频带中载运噪声,且在1200到2000 Hz频带中载运语音。可应用这些结果以增加译码效率和/或噪声减少性能。还可能期望此子带VAD技术在各种子带中的每一者中使用独立的拖尾逻辑(以及可能不同的拖尾间隔)。在子带VAD技术中,如本文描述的拖尾周期的调适可在各种子带中的每一者中独立地执行。经组合VAD技术的子带实施方案可包含组合每一个别检测器的子带结果,或者可包含组合来自少于全部检测器(可能仅一个)的子带结果与来自其它检测器的片段级结果。
在基于相位的VAD的一个实例中,在每一频率分量处应用方向性掩蔽功能以确定所述频率处的相位差是否对应于在所需范围内的方向,且根据在受测频率范围上的此掩蔽的结果来计算相干性测量且将其与阈值进行比较以获得二进制VAD指示。此方法可包含将每一频率处的相位差转换为不依赖于频率的方向指示符,例如到达方向或到达时间差(例如,使得可在所有频率处使用单个方向性掩蔽功能)。或者,此方法可包含将不同的相应掩蔽功能应用于在每一频率处观察到的相位差。
在基于相位的VAD的另一实例中,基于在受测频率范围中的个别频率分量的到达方向的分布形状(例如,个别DOA经分组在一起的紧密程度)来计算相干性测量。在任一情况下,可能期望仅基于作为当前音高估计的倍数的频率来在相位VAD中计算相干性测量。
举例来说,对于待检查的每一频率分量,基于相位的检测器可经配置以将相位估计为对应FFT系数的虚数项与FFT系数的实数项的比率的反正切(也称为反切)。
可能期望配置基于相位的话音活动检测器以确定在宽带频率范围上每一对通道之间的方向相干性。此宽带范围可例如从0、50、100或200Hz的低频界限延伸到3、3.5或4kHz(或甚至更高,例如高达7或8 kHz或更高)的高频界限。然而,检测器可能不必计算信号的整个带宽上的相位差。举例来说,对于此宽带范围中的许多频带,相位估计可为不实际的或不必要的。所接收波形在极低频率处的相位关系的实际评价通常需要变换器之间的对应较大的间距。因此,麦克风之间的最大可用间距可确立低频界限。另一方面,麦克风之间的距离不应超过最小波长的一半以便避免空间混叠。举例来说,八千赫的取样速率给出从零到四千赫的带宽。4 kHz信号的波长为约8.5厘米,因此在此情况下,邻近的麦克风之间的间距不应超过约四厘米。可对麦克风通道进行低通滤波以便移除可能带来空间混叠的频率。
可能期望定目标于特定频率分量或特定频率范围,语音信号(或其它所需信号)在所述特定频率范围上可预期为方向上相干的。可预期例如方向性噪声(例如,来自例如汽车等源)和/或漫射噪声等背景噪声在同一范围上将不是方向上相干的。语音在从四千赫到八千赫的范围中往往具有低功率,因此可能期望在至少此范围上放弃相位估计。举例来说,可能期望在从约七百赫兹到约两千赫的范围上执行相位估计和确定方向相干性。
因此,可能期望配置检测器以针对少于全部的频率分量(例如,针对FFT的少于全部的频率样本)计算相位估计。在一个实例中,检测器针对700Hz到2000Hz的频率范围计算相位估计。对于四千赫带宽信号的128点FFT,700到2000Hz的范围大致对应于从第十个样本到第三十二个样本的23个频率样本。还可能期望配置检测器以仅考虑对应于信号的当前音高估计的倍数的频率分量的相位差。
基于相位的检测器可经配置以基于来自所计算得的相位差的信息来评估通道对的方向相干性。将多通道信号的“方向相干性”界定为信号的各种频率分量从同一方向到达的程度。对于理想的方向上相干的通道对,
Figure BDA00002379786600241
的值针对所有频率均等于常数k,其中k的值与到达方向θ和到达时间延迟τ相关。可例如通过针对每一频率分量根据其与特定方向一致的程度(例如,由方向性掩蔽功能指示)将所估计的到达方向分级(也可由相位差与频率的比率或由到达时间延迟来指示),且随后组合各种频率分量的分级结果以获得信号的相干性测量,来量化多通道信号的方向相干性。
可能期望产生相干性测量作为经时间平滑的值(例如,使用时间平滑功能计算相干性测量)。可将相干性测量的对比表达为相干性测量的当前值与相干性测量的随着时间的平均值(例如,在最近十个、二十个、五十个或一百个帧上的平均、模式或中值)之间的关系的值(例如,差或比率)。可使用时间平滑功能来计算相干性测量的平均值。基于相位的VAD技术,包含方向相干性的测量的计算和应用,还在例如第2010/0323652 A1号和第2011/038489 A1号美国公开专利申请案(维瑟(Visser)等人)中描述。
基于增益的VAD技术可经配置以基于每一通道的增益测量的对应值之间的差来指示片段中的话音活动的存在或不存在。此增益测量(可在时域中或在频域中计算)的实例包含总量值、平均量值、RMS振幅、中值量值、峰值量值、总能量以及平均能量。可能期望配置检测器以对增益测量和/或所计算得的差执行时间平滑操作。如上所述,基于增益的VAD技术可经配置以产生片段级结果(例如,在所需频率范围上)或者针对每一片段的多个子带中的每一者的结果。
通道之间的增益差可用于接近度检测,其可支持较激进的近场/远场区分,例如较好的前方噪声抑制(例如,对在用户前方的干扰性说话者的抑制)。取决于麦克风之间的距离,经平衡的麦克风通道之间的增益差将通常仅在源处于五十厘米或一米以内的情况下出现。
基于增益的VAD技术可经配置以检测当通道的增益之间的差大于阈值时片段是来自所需源(例如,以指示话音活动的检测)。所述阈值可试探性地来确定,且可能期望取决于例如信噪比(SNR)、噪声底限等一个或一个以上因数而使用不同的阈值(例如,当SNR较低时使用较高阈值)。基于增益的VAD技术还在第2010/0323652 A1号美国公开专利申请案(维瑟(Visser)等人)中描述。
还应注意,经组合检测器中的个别检测器中的一者或一者以上可经配置以在与所述个别检测器中的另一者不同的时间尺度上产生结果。举例来说,当n小于m时,基于增益的、基于相位的或起始-截止检测器可经配置以针对具有长度n的每一片段产生VAD指示,以与来自经配置以针对具有长度m的每一片段产生VAD指示的基于增益的、基于相位的或起始-截止检测器的结果相组合。
区别语音有效帧与语音无效帧的话音活动检测(VAD)是语音增强和语音译码的重要部分。如上所述,单通道VAD的实例包含基于SNR的VAD、基于似然比的VAD以及基于语音起始/截止的VAD,且双通道VAD技术的实例包含基于相位差的VAD和基于增益差(也称为基于接近度)的VAD。虽然双通道VAD大体上比单通道技术更准确,但其通常高度依赖于麦克风增益失配和/或用户正固持电话的角度。
图24展示针对6 dB SNR的基于接近度的VAD测试统计对基于相位差的VAD测试统计的散布绘图,其中固持角度为与水平方向成-30、-50、-70和-90度。在图24和图27到29中,灰点对应于语音有效帧,而黑点对应于语音无效帧。对于基于相位差的VAD,在此实例中使用的测试统计是所估计DoA在观看方向范围中的频率区间的平均数目(也称为相位相干性测量),且对于基于量值差的VAD,在此实例中使用的测试统计是主要麦克风与次要麦克风之间的对数RMS电平差。图24证明为何固定阈值可能不适合于不同的固持角度。
便携式音频感测装置(例如,头戴式耳机或手持机)的用户在相对于用户的嘴的并非最佳的定向(也称为固持位置或固持角度)上使用装置且/或在装置使用期间改变固持角度是常见的事。此固持角度变化可能不利地影响VAD级的性能。
解决可变的固持角度的一种方法是检测固持角度(例如,使用到达方向(DoA)估计,其可基于相位差或到达时间差(TDOA),和/或麦克风之间的增益差)。可替代地或另外使用的解决可变的固持角度的另一方法是将VAD测试统计正规化。此方法可经实施为具有使VAD阈值成为与固持角度相关的统计的函数的作用,而无需明确地估计固持角度。
对于在线处理,可利用基于最小统计的方法。提出基于最大和最小统计跟踪的VAD测试统计的正规化以最大化区别能力,即使对于其中固持角度变化且麦克风的增益响应未良好匹配的情形也是如此。
先前用于噪声功率谱估计算法的最小统计算法在此处适用于最小和最大经平滑测试统计跟踪。对于最大测试统计跟踪,同一算法用于(20测试统计)的输入。举例来说,最大测试统计跟踪可使用同一算法从最小统计跟踪方法导出,使得可能期望从参考点(例如,20 dB)减去最大测试统计。随后,可使测试统计扭曲以使最小经平滑统计值为零且最大经平滑统计值为一,如下:
Figure BDA00002379786600261
其中St表示输入测试统计,St'表示经正规化测试统计,Smin表示所跟踪的最小经平滑测试统计,SMAX表示所跟踪的最大经平滑测试统计,且ξ表示原始(固定)阈值。应注意,经正规化测试统计St′可归因于平滑而具有在[0,1]范围之外的值。
明确预期且特此揭示,表达式(N1)中所示的决策规则可使用未经正规化测试统计St与自适应阈值来等效地实施,如下:
其中(SMAX-Smin)ξ+Smin表示自适应阈值ξ',其等效于使用固定阈值ξ与经正规化测试统计St′。
虽然基于相位差的VAD通常不受麦克风的增益响应的差影响,但基于增益差的VAD通常对此失配高度敏感。此方案的潜在额外益处在于,经正规化测试统计St′独立于麦克风增益校准。举例来说,如果次要麦克风的增益响应比正常高1dB,那么当前测试统计St以及最大统计SMAX和最小统计Smin将低1 dB。因此,经正规化测试统计St′将相同。
图25展示针对6dB SNR的基于接近度的VAD测试统计的所跟踪最小(黑,下部轨迹)和最大(灰,上部轨迹)测试统计,其中固持角度为与水平方向成-30、-50、-70和-90度。图26展示针对6dB SNR的基于相位的VAD测试统计的所跟踪最小(黑,下部轨迹)和最大(灰,上部轨迹)测试统计,其中固持角度为与水平方向成-30、-50、-70和-90度。图27展示根据等式(N1)正规化的这些测试统计的散布绘图。每一绘图中的两条灰线和三条黑线指示针对两个不同VAD阈值的可能建议(具有一种色彩的所有线的右上侧被视为语音有效帧),所述阈值被设定为针对全部四个固持角度为相同的。
等式(N1)中的正规化的一个问题在于,虽然整个分布经良好正规化,但仅噪声间隔(黑点)的经正规化得分方差针对较窄未经正规化测试统计范围的情况相对增加。举例来说,图27展示黑点群集随着固持角度从-30度改变到-90度而分散。可使用如下的修改来控制此分散:
Figure BDA00002379786600271
或等效地,
Figure BDA00002379786600272
其中0≤α≤1是控制将得分正规化与抑制噪声统计的方差增加之间的折中的参数。应注意,表达式(N3)中的经正规化统计也独立于麦克风增益变化,因为SMAX-Smin将独立于麦克风增益。
α=0的值将带来图27。图28展示针对两种VAD统计应用α=0.5的值所得的一组散布绘图。图29展示针对相位VAD统计应用α=0.5的值且针对接近度VAD统计应用α=0.25的值所得的一组散布绘图。这些图展示对此方案使用固定阈值可针对各种固持角度带来合理稳健的性能。
可将此测试统计正规化(例如,如在以上表达式(N1)或(N3)中)。或者,可调适(例如,如在以上表达式(N2)或(N4)中)对应于经激活(即,展示急剧的能量增加或减小)的频带的数目的阈值。
另外或替代地,参考表达式(N1)到(N4)描述的正规化技术还可用于一个或一个以上其它VAD统计(例如,低频接近度VAD、起始和/或截止检测)。举例来说,可能期望配置任务T300以使用这些技术来将ΔE(k,n)正规化。正规化可增加起始/截止检测对信号电平和噪声非平稳性的稳健性。
对于起始/截止检测,可能期望跟踪ΔE(k,n)的平方的最大值和最小值(例如,以仅跟踪正值)。还可能期望跟踪作为ΔE(k,n)的经削减值的平方(例如,作为针对起始的max[0,ΔE(k,n)]的平方以及针对截止的min[0,ΔE(k,n)]的平方)的最大值。虽然针对起始的ΔE(k,n)的负值以及针对截止的ΔE(k,n)的正值可有用于在最小统计跟踪中跟踪噪声波动,但其在最大统计跟踪中可能较为无用。可预期起始/截止统计的最大值将缓慢减小且快速上升。
一般来说,本文描述的起始和/或截止以及经组合VAD策略(例如,如在方法M100和M200的各种实施方案中)可使用一个或一个以上便携式音频感测装置来实施,所述装置各自具有经配置以接收声信号的两个或两个以上麦克风的阵列R100。可经构造以包含此阵列且用于此VAD策略以用于音频记录和/或话音通信应用的便携式音频感测装置的实例包含电话手持机(例如,蜂窝式电话手持机)、有线或无线头戴式耳机(例如,蓝牙头戴式耳机)、手持式音频和/或视频记录器、经配置以记录音频和/或视频内容的个人媒体播放器、个人数字助理(PDA)或其它手持式计算装置,以及笔记本计算机、膝上型计算机、上网本计算机、平板计算机或其它便携式计算装置。可经构造以包含阵列R100的实例且用于此VAD策略的音频感测装置的其它实例包含机顶盒以及音频和/或视频会议装置。
阵列R100的每一麦克风可具有全向、双向或单向(例如,心形线)的响应。可用于阵列R100中的各种类型的麦克风包含(不限于)压电麦克风、动态麦克风和驻极体麦克风。在用于便携式话音通信的装置(例如手持机或头戴式耳机)中,阵列R100的邻近麦克风之间的中心到中心的间距通常在约1.5cm到约4.5cm的范围中,但在例如手持机或智能电话等装置中更大的间距(例如,高达10cm或15cm)也是可能的,且在例如平板计算机等装置中甚至更大的间距(例如,高达20cm、25cm或30cm或更大)是可能的。在助听器中,阵列R100的邻近麦克风之间的中心到中心的间距可为约4mm或5mm那么小。阵列R100的麦克风可沿一条线布置,或者经布置以使得其中心位于二维形状(例如,三角形)或三维形状的顶点处。然而,一般来说,阵列R100的麦克风可按被认为适合于特定应用的任何配置来安置。举例来说,图38和39各自展示不符合规则多边形的阵列R100的五麦克风实施方案的实例。
在如本文中所描述的多麦克风音频感测装置的操作期间,阵列R100产生多通道信号,其中每一通道是基于所述麦克风中的一个对应麦克风对声环境的响应。一个麦克风可比另一麦克风更直接地接收特定声音,使得对应的通道彼此不同以共同地提供比使用单一麦克风可俘获的表示更完整的对声环境的表示。
可能期望阵列R100对由麦克风产生的信号执行一个或一个以上处理操作以产生多通道信号S10。图30A展示阵列R100的实施方案R200的框图,所述实施方案R200包含经配置以执行一个或一个以上此操作的音频预处理级AP10,所述一个或一个以上此操作可包含(不限于)阻抗匹配、模/数转换、增益控制和/或在模拟域和/或数字域中的滤波。
图30B展示阵列R200的实施方案R210的框图。阵列R210包含音频预处理级AP10的实施方案AP20,所述实施方案AP20包含模拟预处理级P10a和P10b。在一个实例中,级P10a和P10b各自经配置以对相对应的麦克风信号执行高通滤波操作(例如,截止频率为50Hz、100Hz或200Hz)。
可能期望阵列R100将多通道信号产生为数字信号(也就是说,样本序列)。举例来说,阵列R210包含各自经布置以对相对应的模拟通道进行取样的模/数转换器(ADC)C10a和C10b。声应用的典型取样速率包含8kHz、12kHz、16kHz和在约8kHz到约16kHz的范围中的其它频率,但也可使用高达约44kHz或192kHz的取样速率。在此特定实例中,阵列R210还包含各自经配置以对相对应的经数字化通道执行一个或一个以上预处理操作(例如,回音消除、噪声减少和/或谱成形)的数字预处理级P20a和P20b。
明确注意到,可将阵列R100的麦克风更一般地实施为对除声音以外的辐射或发射敏感的变换器。在一个此实例中,将阵列R100的麦克风实施为超声波变换器(例如,对大于15千赫、20千赫、25千赫、30千赫、40千赫或50千赫或更大的声频率敏感的变换器)。
图31A展示根据一般配置的装置D10的框图。装置D10包含本文揭示的麦克风阵列R100的实施方案中的任一者的实例,且本文揭示的音频感测装置中的任一者可实施为装置D10的实例。装置D10还包含设备AP10的实施方案的实例(例如,设备A100、MF100、A200、MF200或经配置以执行本文揭示的方法M100或M200的实施方案中的任一者的实例的任何其它设备的实例),其经配置以处理由阵列R100产生的多通道信号S10。设备AP10可以硬件和/或以硬件与软件和/或固件的组合来实施。举例来说,设备AP10可实施于装置D10的处理器上,所述处理器还可经配置以对信号S10的一个或一个以上通道执行一个或一个以上其它操作(例如,声译码)。
图31B展示作为装置D10的实施方案的通信装置D20的框图。本文中所描述的便携式音频感测装置中的任一者可实施为装置D20的实例,其包含包括设备AP10的芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组)。芯片/芯片组CS10可包含可经配置以执行设备AP10的软件和/或固件部分(例如,作为指令)的一个或一个以上处理器。芯片/芯片组CS10还可包含阵列R100的处理元件(例如,音频预处理级AP10的元件)。芯片/芯片组CS10包含:接收器,其经配置以接收射频(RF)通信信号且解码并再现编码于所述RF信号内的音频信号;和发射器,其经配置以编码基于由设备A10产生的经处理信号的音频信号且发射描述所述经编码的音频信号的RF通信信号。举例来说,芯片/芯片组CS10的一个或一个以上处理器可经配置以对多通道信号的一个或一个以上通道执行如上文所描述的噪声减少操作,使得经编码的音频信号是基于经噪声减少的信号。
装置D20经配置以经由天线C30接收和发射RF通信信号。装置D20在到天线C30的路径中还可包含双工器和一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入且经由显示器C20显示信息。在此实例中,装置D20还包含一个或一个以上天线C40以支持全球定位系统(GPS)位置服务和/或与例如无线(例如,BluetoothTM)头戴式耳机等外部装置的短程通信。在另一实例中,此通信装置自身为蓝牙头戴式耳机且无小键盘C10、显示器C20和天线C30。
图32A到32D展示音频感测装置D10的便携式多麦克风实施方案D100的各种视图。装置D100为无线头戴式耳机,其包含载有阵列R100的双麦克风实施方案的外壳Z10和从所述外壳延伸的听筒Z20。此装置可经配置以经由与例如蜂窝式电话手持机等电话装置进行的通信(例如,使用如由华盛顿州贝尔维尤市蓝牙特殊兴趣小组公司(BluetoothSpecial Interest Group,Inc.,Bellevue,WA)发布的BluetoothTM协议的版本)来支持半双工或全双工电话。一般来说,如图32A、32B和32D中所示,头戴式耳机的外壳可为矩形或其它细长型的(例如,形状像小型吊杆),或可能较经圆化或甚至为圆形。外壳还可封围住电池和处理器和/或其它处理电路(例如,印刷电路板和安装于其上的组件)且可包含电端口(例如,小型通用串行总线(USB)或用于电池充电的其它端口)和例如一个或一个以上按钮开关和/或LED等用户接口特征。通常,外壳沿其长轴线的长度在1英寸到3英寸的范围内。
通常,阵列R100的每一麦克风安装于装置内,在外壳中的充当声端口的一个或一个以上小孔后面。图32B到32D展示用于装置D100的阵列的主要麦克风的声端口Z40和用于装置D100的阵列的次要麦克风的声端口Z50的位置。
头戴式耳机还可包含通常可从头戴式耳机拆卸的紧固装置(例如耳钩Z30)。外部耳钩可为可反转的,(例如)以允许用户配置头戴式耳机以便在任一耳朵上使用。或者,可将头戴式耳机的听筒设计为内部紧固装置(例如,耳塞),其可包含可装卸式听筒以允许不同用户使用不同大小(例如,直径)的听筒来更好地配合特定用户的耳道的外部部分。
图33展示此装置(无线头戴式耳机D100)在使用中的实例的俯视图。图34展示装置D100在使用中的各种标准定向的侧视图。
图35A到35D展示多麦克风便携式音频感测装置D10(无线头戴式耳机的另一实例)的实施方案D200的各种视图。装置D200包含经圆化的椭圆形外壳Z12和可配置为耳塞的听筒Z22。图35A到35D还展示用于装置D200的阵列的主要麦克风的声端口Z42和用于装置D200的阵列的次要麦克风的声端口Z52的位置。有可能可至少部分地封闭(例如,通过用户接口按钮)次要麦克风端口Z52。
图36A展示装置D10的便携式多麦克风实施方案D300(通信手持机)的横截面图(沿中心轴线)。装置D300包含具有主要麦克风MC10和次要麦克风MC20的阵列R100的实施方案。在此实例中,装置D300还包含主要扬声器SP10和次要扬声器SP20。此装置可经配置以经由一种或一种以上编码和解码方案(还被称为“编解码器”)无线地发射和接收话音通信数据。这些编解码器的实例包含:如2007年2月的题目为“增强型可变速率编解码器,用于宽带展频数字系统的语音服务选项3、68和70 (Enhanced VariableRate Codec,Speech Service Options 3,68,and 70 for Wideband Spread Spectrum DigitalSystems)”的第三代合作伙伴计划2(3GPP2)文档  C.S0014-C(v1.0)(在www-dot-3gpp-dot-org处在线可得)中所描述的增强型可变速率编解码器;如2004年1月的题目为“用于宽带展频通信系统的可选模式声码器(SMV)服务选项(Selectable ModeVocoder(SMV)Service Option for Wideband Spread Spectrum Communication Systems)”的3GPP2文档C.S0030-0(v3.0)(在www-dot-3gpp-dot-org处在线可得)中所描述的可选模式声码器语音编解码器;如文档ETSI TS 126 092 V6.0.0(欧洲电信标准协会(ETSI),法国索菲亚安提波利斯企业特投(Sophia Antipolis Cedex,FR),2004年12月)中所描述的自适应多速率(AMR)语音编解码器;和如文档ETSI TS 126 192 V6.0.0(ETSI,2004年12月)中所描述的AMR宽带语音编解码器。在图36A的实例中,手持机D300为掀盖型蜂窝式电话手持机(还被称为“翻盖”手持机)。此多麦克风通信手持机的其它配置包含直板型和滑盖型电话手持机。
图37展示装置D300在使用中的各种标准定向的侧视图。图36B展示装置D300的实施方案D3 10的横截面图,所述实施方案D310包含阵列R100的三麦克风实施方案(包含第三麦克风MC30)。图38和39分别展示装置D10的其它手持机实施方案D340和D360的各种视图。
在阵列R100的四麦克风实例的实例中,麦克风是按大致为四面体的配置来布置,使得一个麦克风定位于顶点由其它三个麦克风(间隔约3厘米)的位置界定的三角形后面(例如,在后面约1厘米)。此阵列的潜在应用包含在扬声器电话模式中操作的手持机,对于所述模式,说话者的嘴与阵列之间的预期距离约为20厘米到30厘米。图40A展示包含阵列R100的此实施方案的装置D10的手持机实施方案D320的正视图,其中四个麦克风MC10、MC20、MC30、MC40是按大致为四面体的配置来布置。图40B展示手持机D320的侧视图,其展示所述手持机内的麦克风MC10、MC20、MC30和MC40的位置。
用于手持机应用的阵列R100的四麦克风实例的另一实例在手持机的正面上(例如,在小键盘的1、7和9位置附近)包含三个麦克风且在背面上(例如,在小键盘的7或9位置后面)包含一个麦克风。图40C展示包含阵列R100的此实施方案的装置D10的手持机实施方案D330的正视图,其中四个麦克风MC10、MC20、MC30、MC40是按“星形”配置来布置。图40D展示手持机D330的侧视图,其展示所述手持机内的麦克风MC10、MC20、MC30和MC40的位置。可用以执行如本文中所描述的起始/截止和/或经组合VAD策略的便携式音频感测装置的其它实例包含手持机D320和D330的触摸屏实施方案(例如,实施为平坦的非折叠块,例如iPhone(加利福尼亚州库珀蒂诺市苹果公司(Apple Inc.,Cupertino,CA))、HD2(HTC,台湾,ROC)或CLIQ(伊利诺伊州夏姆伯格市摩托罗拉公司(Motorola,Inc.,Schaumberg,IL))),其中麦克风是按类似方式布置于触摸屏的外围上。
图41A到41C展示可经实施以包含阵列R100的实例且与如本文中所揭示的VAD策略一起使用的便携式音频感测装置的额外实例。在这些实例中的每一者中,通过开口圆来指示阵列R100的麦克风。图41A展示具有至少一个前定向式麦克风对的眼镜(例如,处方眼镜、太阳镜或安全镜),其中所述对中的一个麦克风在太阳穴上且另一麦克风在所述太阳穴或对应的终端片上。图41B展示头盔,其中阵列R100包含一个或一个以上麦克风对(在此实例中,在嘴处有一对,且在用户头部的每一侧有一对)。图41C展示包含至少一个麦克风对(在此实例中为前对和侧对)的护目镜(例如,滑雪护目镜)。
具有将与如本文中所揭示的切换策略一起使用的一个或一个以上麦克风的便携式音频感测装置的额外放置实例包含(但不限于)以下各者:无边帽或有边帽的帽舌或帽沿;翻领、胸袋、肩膀、上臂(即,肩膀与肘关节之间)、下臂(即,肘关节与手腕之间)、袖口或手表。在所述策略中使用的一个或一个以上麦克风可驻留于例如相机或摄录像机等手持式装置上。
图42A展示音频感测装置D10的便携式多麦克风实施方案D400(媒体播放器)的图。此装置可经配置以用于重放经压缩的音频或视听信息,例如根据标准压缩格式(例如,动画专家小组(MPEG)-1音频层3(MP3)、MPEG-4第14部分(MP4)、Windows媒体音频/视频(WMA/WMV)(华盛顿州雷蒙德市微软公司(Microsoft Corp.,Redmond,WA))的版本、高级音频译码(AAC)、国际电信联盟(ITU)-T H.264或其类似者)编码的文件或串流。装置D400包含安置于装置的正面上的显示屏SC10和扬声器S P10,且阵列R100的麦克风MC10和MC20安置于装置的同一面上(例如,如在此实例中安置于顶面的相对侧上,或安置于正面的相对侧上)。图42B展示装置D400的另一实施方案D410,其中麦克风MC10和MC20安置于装置的相对面上,且图42C展示装置D400的再一实施方案D420,其中麦克风MC10和MC20安置于装置的邻近面上。还可设计媒体播放器以使得较长的轴线在既定使用期间为水平的。
图43A展示多麦克风音频感测装置D10的实施方案D500(免持汽车套件)的图。此装置可经配置以安装于交通工具的仪表板、挡风玻璃、后视镜、遮光板或另一内表面中或上,或以可装卸方式固定到交通工具的仪表板、挡风玻璃、后视镜、遮光板或另一内表面。装置D500包含扬声器85和阵列R100的实施方案。在此特定实例中,装置D500包含阵列R100的实施方案R102 (四个麦克风按线性阵列布置)。此装置可经配置以经由一个或一个以上编解码器(例如上文所列出的实例)无线地发射和接收话音通信数据。或者或另外,此装置可经配置以经由与例如蜂窝式电话手持机等电话装置进行的通信(例如,使用如上文所描述的BluetoothTM协议的版本)来支持半双工或全双工电话。
图43B展示多麦克风音频感测装置D10的便携式多麦克风实施方案D600 (书写装置(例如,钢笔或铅笔))的图。装置D600包含阵列R100的实施方案。此装置可经配置以经由一个或一个以上编解码器(例如上文所列出的实例)无线地发射和接收话音通信数据。或者或另外,此装置可经配置以经由与例如蜂窝式电话手持机和/或无线头戴式耳机等装置进行的通信(例如,使用如上文所描述的BluetoothTM协议的版本)来支持半双工或全双工电话。装置D600可包含一个或一个以上处理器,所述一个或一个以上处理器经配置以执行空间选择性处理操作以降低在由阵列R100产生的信号中的刮擦噪声82的电平,所述刮擦噪声82可由装置D600的尖端跨越绘画表面81(例如,一张纸)的移动引起。
便携式计算装置的类别当前包含具有以下名称的装置,例如膝上型计算机、笔记本计算机、上网本计算机、超便携式计算机、平板计算机、移动因特网装置、智能型笔记本计算机或智能电话。一种类型的此装置具有如上文所描述的板或块配置,且还可包含滑出键盘。图44A到44D展示另一种类型的此装置,其具有包含显示屏的顶部面板和可包含键盘的底部面板,其中所述两个面板可按掀盖或其它铰接关系相连接。
图44A展示装置D10的此实施方案D700的实例的正视图,所述实施方案D700包含在显示屏SC10上方按线性阵列布置于顶部面板PL10上的四个麦克风MC10、MC20、MC30、MC40。图44B展示顶部面板PL10的俯视图,其在另一维度中展示四个麦克风的位置。图44C展示装置D10的此便携式计算实施方案D710的另一实例的正视图,所述便携式计算实施方案D710包含在显示屏SC10上方按非线性阵列布置于顶部面板PL12上的四个麦克风MC10、MC20、MC30、MC40。图44D展示顶部面板PL12的俯视图,其在另一维度中展示四个麦克风的位置,其中麦克风MC10、MC20和MC30安置于面板的正面上且麦克风MC40安置于面板的背面上。
图45展示用于手持式应用的多麦克风音频感测装置D10的便携式多麦克风实施方案D800的图。装置D800包含:触摸屏显示器TS10;用户接口选择控制件UI10 (左侧);用户接口导航控制件UI20 (右侧);两个扬声器S P10和SP20;和阵列R100的实施方案,其包含三个前麦克风MC10、MC20、MC30和一个后麦克风MC40。可使用按钮、轨迹球、棘轮、触摸板、操纵杆和/或其它指向装置等中的一者或一者以上来实施用户接口控制件中的每一者。可在浏览-通话(browse-talk)模式或玩游戏模式下使用的装置D800的典型大小约为15厘米×20厘米。便携式多麦克风音频感测装置D10可类似地实施为在顶表面上包含触摸屏显示器的平板计算机(例如,“板(slate)”,例如iPad(苹果公司(Apple,Inc.))、Slate(加利福尼亚州帕洛阿尔托市惠普公司(Hewlett-Packard Co.,Palo Alto,CA))或Streak(德克萨斯州圆石市戴尔公司(Dell Inc.,Round Rock,TX))),其中阵列R100的麦克风安置于顶表面的边限内和/或安置于平板计算机的一个或一个以上侧表面上。
如本文揭示的VAD策略的应用不限于便携式音频感测装置。图46A到46D展示会议装置的若干实例的俯视图。图46A包含阵列R100的三麦克风实施方案(麦克风MC10、MC20和MC30)。图46B包含阵列R100的四麦克风实施方案(麦克风MC10、MC20、MC30和MC40)。图46C包含阵列R100的五麦克风实施方案(麦克风MC10、MC20、MC30、MC40和MC50)。图46D包含阵列R100的六麦克风实施方案(麦克风MC10、MC20、MC30、MC40、MC50和MC60)。可能需要将阵列R100的麦克风中的每一者定位于规则多边形的对应顶点处。用于再现远端音频信号的扬声器S P10可包含于装置内(例如,如图46A中所示),且/或此扬声器可与装置分开定位(例如,以减少声反馈)。额外远场使用情况的实例包含TV机顶盒(例如,以支持IP话音(VoIP)应用)和游戏控制台(例如,微软Xbox、索尼Playstation、任天堂Wii)。
明确地揭示,本文中所揭示的系统、方法和设备的适用性包含且不限于图31到46D中所展示的特定实例。本文中所揭示的方法和设备通常可应用于任何收发和/或音频感测应用(尤其是此些应用的移动或其它便携式实例)中。举例来说,本文中所揭示的配置的范围包含驻留于经配置以采用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将理解,具有如本文中所描述的特征的方法和设备可驻留于采用所属领域的技术人员已知的广泛范围的技术的各种通信系统中的任一者中,例如经由有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)传输信道采用IP话音(VoIP)的系统。
明确地预期且特此揭示,本文中所揭示的通信装置可适于在包交换式网络(例如,经布置以根据例如VoIP等协议载运音频传输的有线和/或无线网络)和/或电路交换式网络中使用。还明确地预期且特此揭示,本文中所揭示的通信装置可适于在窄带译码系统(例如,编码约4千赫或5千赫的音频频率范围的系统)中使用和/或在宽带译码系统(例如,编码大于5千赫的音频频率的系统)中使用,所述系统包含全带宽带译码系统和分带宽带译码系统。
提供对所描述配置的前述呈现以使得所属领域的技术人员能够制作或使用本文中所揭示的方法和其它结构。本文中所展示和描述的流程图、框图和其它结构仅为实例,且这些结构的其它变型也属于本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明不希望限于上文所展示的配置,而是应被赋予与本文中以任何方式(包含在所申请的附加权利要求书中)揭示的原理和新颖特征一致的最广范围,所述权利要求书形成原始揭示内容的一部分。
所属领域的技术人员将理解,可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或其任何组合来表示可在以上描述全篇中引用的数据、指令、命令、信息、信号、位和符号。
对于如本文中所揭示的配置的实施方案的重要设计要求可包含使处理延迟和/或计算复杂性(通常以百万指令/秒或MIPS为单位来测量)减到最小,尤其是对于计算密集型应用,例如用于在高于8千赫的取样速率(例如,12kHz、16kHz或44kHz)下的话音通信的应用。
如本文中所描述的多麦克风处理系统的目标可包含:实现10dB到12dB的总噪声减少;在所需说话者移动期间保持话音水平和色彩;获得噪声已被移到背景中的感知而不是激进的噪声移除;语音的去混响;和/或启用后处理(例如,谱屏蔽和/或基于噪声估计的另一谱修改操作,例如谱减法或维纳滤波)的选项以获得较激进的噪声减少。
如本文中所揭示的设备的实施方案(例如,设备A100、MF100、A110、A120、A200、A205、A210和/或MF200)的各种元件可体现于被认为适合于既定应用的任何硬件结构或硬件与软件和/或固件的任何组合中。举例来说,此些元件可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片当中的电子装置和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如晶体管或逻辑门)阵列,且这些元件中的任一者可被实施为一个或一个以上此阵列。这些元件中的任何两者或两者以上或甚至全部可被实施于相同的一个或多个阵列内。所述一个或多个阵列可被实施于一个或一个以上芯片内(例如,实施于包含两个或两个以上芯片的芯片组内)。
本文中所揭示的设备的各种实施方案(例如,设备A100、MF100、A110、A120、A200、A205、A210和/或MF200)的一个或一个以上元件还可部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路))上执行。如本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器,还被称为“处理器”),且这些元件中的任何两者或两者以上或甚至全部可实施于相同的此类一个或多个计算机内。
可将如本文中所揭示的处理器或其它处理装置制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片当中的一个或一个以上电子装置和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如晶体管或逻辑门)阵列,且这些元件中的任一者可被实施为一个或一个以上此阵列。所述一个或多个阵列可被实施于一个或一个以上芯片内(例如,实施于包含两个或两个以上芯片的芯片组内)。这些阵列的实例包含固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC)。如本文中所揭示的处理器或其它处理装置还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器)或其它处理器。有可能使用如本文中所描述的处理器来执行并非与选择多通道信号的通道的子组的程序直接相关的任务或执行并非与选择多通道信号的通道的子组的程序直接相关的其它指令集,例如与嵌入有所述处理器的装置或系统(例如,音频感测装置)的另一操作相关的任务。还有可能由音频感测装置的处理器执行如本文中所揭示的方法的一部分(例如,任务T200)且在一个或一个以上其它处理器的控制下执行所述方法的另一部分(例如,任务T600)。
技术人员将了解,可将结合本文中所揭示的配置而描述的各种说明性模块、逻辑块、电路以及测试和其它操作实施为电子硬件、计算机软件或两者的组合。这些模块、逻辑块、电路和操作可使用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中所揭示的配置的任何组合来实施或执行。举例来说,此配置可至少部分地实施为硬连线电路、实施为制造于专用集成电路中的电路配置,或实施为加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,所述代码是可由逻辑元件阵列(例如,通用处理器或其它数字信号处理单元)执行的指令。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。软件模块可驻留于非暂时性存储媒体中,例如RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM的非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸式盘或CD-ROM或者此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得所述处理器可从存储媒体读取信息且将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器和存储媒体可作为离散组件而驻留于用户终端中。
应注意,本文中所揭示的各种方法(例如,方法M100、M110、M120、M130、M132、M140、M142和/或M200)可由例如处理器等逻辑元件阵列来执行,且如本文中所描述的设备的各种元件可部分地实施为经设计以在此阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指代包含呈软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,多个模块或系统可组合成一个模块或系统,且一个模块或系统可分成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的元素基本上是用以执行相关任务的代码段,例如例程、程序、对象、组件、数据结构及其类似者。术语“软件”应被理解为包含源代码、汇编语言代码、机器码、二进制码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或指令序列以及此些实例的任何组合。程序或代码段可存储于处理器可读存储媒体中,或可经由传输媒体或通信链路通过体现于载波中的计算机数据信号来传输。
本文中所揭示的方法、方案和技术的实施方案还可有形地体现(例如,在如本文中所列出的一个或一个以上计算机可读存储媒体的有形的计算机可读特征中)为可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可装卸式和非可装卸式存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路或可用以存储所需信息且可被存取的任何其它媒体。计算机数据信号可包含可经由例如电子网络通道、光纤、空气、电磁、RF链路等传输媒体传播的任何信号。可经由例如因特网或企业内部网络等计算机网络来下载代码段。在任何情况下,本发明的范围不应被解释为受这些实施例限制。
本文中所描述的方法的任务中的每一者可直接体现于硬件中、由处理器执行的软件模块中或所述两者的组合中。在如本文中所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)阵列经配置以执行方法的各种任务中的一者、一者以上或甚至全部。任务中的一者或一者以上(可能为全部)还可被实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪存储器卡或其它非易失性存储器卡、半导体存储器芯片等)中的代码(例如,一个或一个以上指令集),所述代码可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。如本文中所揭示的方法的实施方案的任务还可由一个以上此阵列或机器执行。在这些或其它实施方案中,可在用于无线通信的装置(例如,蜂窝式电话)或具有此通信能力的其它装置内执行任务。此装置可经配置以与电路交换式网络和/或包交换式网络通信(例如,使用例如VoIP等一个或一个以上协议)。举例来说,此装置可包含经配置以接收和/或发射经编码的帧的RF电路。
明确地揭示,本文中所揭示的各种方法可由便携式通信装置(例如,手持机、头戴式耳机或便携式数字助理(PDA))执行,且本文中所描述的各种设备可包含于此装置内。典型的实时(例如,在线)应用为使用此移动装置进行的电话对话。
在一个或一个以上示范性实施例中,本文中所描述的操作可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么此些操作可作为一个或一个以上指令或代码存储在计算机可读媒体上或经由计算机可读媒体来传输。术语“计算机可读媒体”包含计算机可读存储媒体与通信(例如,传输)媒体两者。借助于实例而非限制,计算机可读存储媒体可包括存储元件阵列,例如半导体存储器(其可包含但不限于动态或静态RAM、ROM、EEPROM和/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置;和/或磁盘存储装置或其它磁性存储装置。此些存储媒体可存储呈可由计算机存取的指令或数据结构的形式的信息。通信媒体可包括可用以载运呈指令或数据结构的形式的所需程序代码且可由计算机存取的任何媒体,包含促进将计算机程序从一处传送到另一处的任何媒体。而且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波等无线技术从网站、服务器或其它远程源传输软件,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和/或微波等无线技术包含于媒体的定义中。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和Blu-ray DiscTM(加利福尼亚州环球城蓝光光盘协会(Blu-Ray DiscAssociation,Universal City,CA)),其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。上述各者的组合也应包含在计算机可读媒体的范围内。
如本文中所描述的声信号处理设备可并入到电子装置(例如通信装置)中,所述电子装置接受语音输入以便控制某些操作,或可另外受益于所需噪声与背景噪声的分离。许多应用可受益于增强清楚的所需声音或分离清楚的所需声音与来源于多个方向的背景声音。这些应用可包含并入有例如话音辨识和检测、语音增强和分离、话音启动的控制及其类似者等能力的电子或计算装置中的人机接口。可能需要实施此声信号处理设备以适合于仅提供有限处理能力的装置中。
可将本文中所描述的模块、元件和装置的各种实施方案的元件制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片当中的电子装置和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如晶体管或门)阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可完全或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC)上执行。
有可能使用如本文中所描述的设备的实施方案的一个或一个以上元件来执行并非与所述设备的操作直接相关的任务或执行并非与所述设备的操作直接相关的其它指令集,例如与嵌入有所述设备的装置或系统的另一操作相关的任务。还有可能的是此设备的实施方案的一个或一个以上元件具有共同的结构(例如,用以在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间执行不同元件的操作的电子装置和/或光学装置的布置)。

Claims (48)

1.一种处理音频信号的方法,所述方法包括:
针对所述音频信号的第一多个连续片段中的每一者,确定所述片段中存在话音活动;
针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者,确定所述片段中不存在话音活动;
检测在所述第二多个连续片段当中的不是将在所述第二多者当中出现的第一片段的一个片段期间出现所述音频信号的话音活动状态的转变;以及
产生话音活动检测信号,其针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值,
其中针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动,且
其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动,且
其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。
2.根据权利要求1所述的方法,其中所述方法包括计算在所述第二多个片段当中的所述一个片段期间的第一通道的多个不同频率分量中的每一者的能量的时间导数,且其中所述检测在所述第二多个片段当中的所述一个片段期间出现所述转变是基于所述所计算得的能量的时间导数。
3.根据权利要求2所述的方法,其中所述检测出现所述转变包含针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数,产生所述频率分量是否为活动的对应指示,且
其中所述检测出现所述转变是基于指示所述对应频率分量为活动的所述指示的数目与第一阈值之间的关系。
4.根据权利要求3所述的方法,其中所述方法包括针对在所述音频信号中的所述第一多个连续片段之前出现的片段:
计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数;
针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数,产生所述频率分量是否为活动的对应指示;以及
基于(A)指示所述对应频率分量为活动的所述指示的数目与(B)高于所述第一阈值的第二阈值之间的关系,确定在所述片段期间不出现所述音频信号的话音活动状态的转变。
5.根据权利要求3所述的方法,其中所述方法包括针对在所述音频信号中的所述第一多个连续片段之前出现的片段:
针对在所述片段期间的所述第一通道的多个不同频率分量中的每一者,计算能量相对于时间的二阶导数;
针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量相对于时间的二阶导数,产生所述频率分量是否为脉冲性的对应指示;以及
基于指示所述对应频率分量为脉冲性的所述指示的数目与阈值之间的关系,确定在所述片段期间不出现所述音频信号的话音活动状态的转变。
6.根据权利要求1所述的方法,其中针对所述音频信号的所述第一多个连续片段中的每一者,所述确定所述片段中存在话音活动是基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差,且
其中针对所述音频信号的所述第二多个连续片段中的每一者,所述确定所述片段中不存在话音活动是基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差。
7.根据权利要求6所述的方法,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道的电平与所述第二通道的电平之间的差。
8.根据权利要求6所述的方法,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道中的信号的实例与在所述片段期间的所述第二通道中的所述信号的实例之间的时间差。
9.根据权利要求6所述的方法,其中针对所述第一多者中的每一片段,所述确定所述片段中存在话音活动包括针对在所述片段期间的所述音频信号的第一多个不同频率分量中的每一者,计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者,且
其中针对所述第二多者中的每一片段,所述确定所述片段中不存在话音活动包括针对在所述片段期间的所述音频信号的所述第一多个不同频率分量中的每一者,计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者。
10.根据权利要求9所述的方法,其中所述方法包括计算在所述第二多个片段当中的所述一个片段期间的所述第一通道的第二多个不同频率分量中的每一者的能量的时间导数,且
其中所述检测在所述第二多个片段当中的所述一个片段期间出现所述转变是基于所述所计算得的能量的时间导数,且
其中包含所述第一多个频率分量的频带与包含所述第二多个频率分量的频带分离。
11.根据权利要求9所述的方法,其中针对所述第一多者中的每一片段,所述确定所述片段中存在话音活动是基于指示至少所述多个不同频率分量的到达方向之间的相干性程度的相干性测量的对应值,其中所述值是基于来自所述对应多个所计算得的相位差的信息,且
其中针对所述第二多者中的每一片段,所述确定所述片段中不存在话音活动是基于指示至少所述多个不同频率分量的所述到达方向之间的相干性程度的所述相干性测量的对应值,其中所述值是基于来自所述对应多个所计算得的相位差的信息。
12.一种用于处理音频信号的设备,所述设备包括:
用于针对所述音频信号的第一多个连续片段中的每一者确定所述片段中存在话音活动的装置;
用于针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者确定所述片段中不存在话音活动的装置;
用于检测在所述第二多个连续片段当中的一个片段期间出现所述音频信号的话音活动状态的转变的装置;以及
用于产生话音活动检测信号的装置,所述话音活动检测信号针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值,且
其中针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动,且
其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动,且
其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。
13.根据权利要求12所述的设备,其中所述设备包括用于计算在所述第二多个片段当中的所述一个片段期间的第一通道的多个不同频率分量中的每一者的能量的时间导数的装置,且
其中所述用于检测在所述第二多个片段当中的所述一个片段期间出现所述转变的装置经配置以基于所述所计算得的能量的时间导数来检测所述转变。
14.根据权利要求13所述的设备,其中所述用于检测出现所述转变的装置包含用于针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数产生所述频率分量是否为活动的对应指示的装置,且
其中所述用于检测出现所述转变的装置经配置以基于指示所述对应频率分量为活动的所述指示的数目与第一阈值之间的关系来检测所述转变。
15.根据权利要求14所述的设备,其中所述设备包括:
用于针对在所述音频信号中的所述第一多个连续片段之前出现的片段计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数的装置;
用于针对在所述音频信号中的所述第一多个连续片段之前出现的所述片段的所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数来产生所述频率分量是否为活动的对应指示的装置;以及
用于基于(A)指示所述对应频率分量为活动的所述指示的数目与(B)高于所述第一阈值的第二阈值之间的关系来确定在所述音频信号中的所述第一多个连续片段之前出现的所述片段期间不出现所述音频信号的话音活动状态的转变的装置。
16.根据权利要求14所述的设备,其中所述设备包括:
用于针对在所述音频信号中的所述第一多个连续片段之前出现的片段计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量相对于时间的二阶导数的装置;
用于针对在所述音频信号中的所述第一多个连续片段之前出现的所述片段的所述多个不同频率分量中的每一者且基于所述对应所计算得的能量相对于时间的二阶导数来产生所述频率分量是否为脉冲性的对应指示的装置;以及
用于基于指示所述对应频率分量为脉冲性的所述指示的数目与阈值之间的关系来确定在所述音频信号中的所述第一多个连续片段之前出现的所述片段期间不出现所述音频信号的话音活动状态的转变的装置。
17.根据权利要求12所述的设备,其中针对所述音频信号的所述第一多个连续片段中的每一者,所述用于确定所述片段中存在话音活动的装置经配置以基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差来执行所述确定,且
其中针对所述音频信号的所述第二多个连续片段中的每一者,所述用于确定所述片段中不存在话音活动的装置经配置以基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差来执行所述确定。
18.根据权利要求17所述的设备,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道的电平与所述第二通道的电平之间的差。
19.根据权利要求17所述的设备,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道中的信号的实例与在所述片段期间的所述第二通道中的所述信号的实例之间的时间差。
20.根据权利要求17所述的设备,其中所述用于确定所述片段中存在话音活动的装置包括用于针对所述第一多者中的每一片段且针对所述第二多者中的每一片段并且针对在所述片段期间的所述音频信号的第一多个不同频率分量中的每一者计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差的装置,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者。
21.根据权利要求20所述的设备,其中所述设备包括用于计算在所述第二多个片段当中的所述一个片段期间的所述第一通道的第二多个不同频率分量中的每一者的能量的时间导数的装置,且
其中所述用于检测在所述第二多个片段当中的所述一个片段期间出现所述转变的装置经配置以基于所述所计算得的能量的时间导数来检测出现所述转变,且
其中包含所述第一多个频率分量的频带与包含所述第二多个频率分量的频带分离。
22.根据权利要求20所述的设备,其中所述用于针对所述第一多者中的每一片段确定所述片段中存在话音活动的装置经配置以基于指示至少所述多个不同频率分量的到达方向之间的相干性程度的相干性测量的对应值来确定存在所述话音活动,其中所述值是基于来自所述对应多个所计算得的相位差的信息,且
其中所述用于针对所述第二多者中的每一片段确定所述片段中不存在话音活动的装置经配置以基于指示至少所述多个不同频率分量的所述到达方向之间的相干性程度的所述相干性测量的对应值来确定不存在话音活动,其中所述值是基于来自所述对应多个所计算得的相位差的信息。
23.一种用于处理音频信号的设备,所述设备包括:
第一话音活动检测器,其经配置以确定:
针对所述音频信号的第一多个连续片段中的每一者,所述片段中存在话音活动,以及
针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者,所述片段中不存在话音活动;
第二话音活动检测器,其经配置以检测在所述第二多个连续片段当中的一个片段期间出现所述音频信号的话音活动状态的转变;以及
信号产生器,其经配置以产生话音活动检测信号,所述话音活动检测信号针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值,
其中针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动,且
其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动,且
其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。
24.根据权利要求23所述的设备,其中所述设备包括计算器,所述计算器经配置以计算在所述第二多个片段当中的所述一个片段期间的第一通道的多个不同频率分量中的每一者的能量的时间导数,且
其中所述第二话音活动检测器经配置以基于所述所计算得的能量的时间导数来检测所述转变。
25.根据权利要求24所述的设备,其中所述第二话音活动检测器包含比较器,所述比较器经配置以针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数来产生所述频率分量是否为活动的对应指示,且
其中所述第二话音活动检测器经配置以基于指示所述对应频率分量为活动的所述指示的数目与第一阈值之间的关系来检测所述转变。
26.根据权利要求25所述的设备,其中所述设备包括:
计算器,其经配置以针对在多通道信号中的所述第一多个连续片段之前出现的片段计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数;以及
比较器,其经配置以针对在所述多通道信号中的所述第一多个连续片段之前出现的所述片段的所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数来产生所述频率分量是否为活动的对应指示,
其中所述第二话音活动检测器经配置以基于(A)指示所述对应频率分量为活动的所述指示的数目与(B)高于所述第一阈值的第二阈值之间的关系来确定在所述多通道信号中的所述第一多个连续片段之前出现的所述片段期间不出现所述多通道信号的话音活动状态的转变。
27.根据权利要求25所述的设备,其中所述设备包括:
计算器,其经配置以针对在所述多通道信号中的所述第一多个连续片段之前出现的片段计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量相对于时间的二阶导数;以及
比较器,其经配置以针对在所述多通道信号中的所述第一多个连续片段之前出现的所述片段的所述多个不同频率分量中的每一者且基于所述对应所计算得的能量相对于时间的二阶导数来产生所述频率分量是否为脉冲性的对应指示,
其中所述第二话音活动检测器经配置以基于指示所述对应频率分量为脉冲性的所述指示的数目与阈值之间的关系来确定在所述多通道信号中的所述第一多个连续片段之前出现的所述片段期间不出现所述多通道信号的话音活动状态的转变。
28.根据权利要求23所述的设备,其中所述第一话音活动检测器经配置以针对所述音频信号的所述第一多个连续片段中的每一者基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差来确定所述片段中存在话音活动,且
其中所述第一话音活动检测器经配置以针对所述音频信号的所述第二多个连续片段中的每一者基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差来确定所述片段中不存在话音活动。
29.根据权利要求28所述的设备,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道的电平与所述第二通道的电平之间的差。
30.根据权利要求28所述的设备,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道中的信号的实例与在所述片段期间的所述第二通道中的所述信号的实例之间的时间差。
31.根据权利要求28所述的设备,其中所述第一话音活动检测器包含计算器,所述计算器经配置以针对所述第一多者中的每一片段且针对所述第二多者中的每一片段并且针对在所述片段期间的所述多通道信号的第一多个不同频率分量中的每一者计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者。
32.根据权利要求31所述的设备,其中所述设备包括计算器,所述计算器经配置以计算在所述第二多个片段当中的所述一个片段期间的所述第一通道的第二多个不同频率分量中的每一者的能量的时间导数,且
其中所述第二话音活动检测器经配置以基于所述所计算得的能量的时间导数来检测出现所述转变,且
其中包含所述第一多个频率分量的频带与包含所述第二多个频率分量的频带分离。
33.根据权利要求31所述的设备,其中所述第一话音活动检测器经配置以针对所述第一多者中的每一片段基于指示至少所述多个不同频率分量的到达方向之间的相干性程度的相干性测量的对应值来确定所述片段中存在所述话音活动,其中所述值是基于来自所述对应多个所计算得的相位差的信息,且
其中所述第一话音活动检测器经配置以针对所述第二多者中的每一片段基于指示至少所述多个不同频率分量的所述到达方向之间的相干性程度的所述相干性测量的对应值来确定所述片段中不存在话音活动,其中所述值是基于来自所述对应多个所计算得的相位差的信息。
34.一种具有存储机器可执行指令的有形结构的计算机可读媒体,所述机器可执行指令在由一个或一个以上处理器执行时致使所述一个或一个以上处理器:
针对多通道信号的第一多个连续片段中的每一者且基于在所述片段期间的所述多通道信号的第一通道与在所述片段期间的所述多通道信号的第二通道之间的差,确定所述片段中存在话音活动;
针对在所述多通道信号中的所述第一多个连续片段之后立即出现的所述多通道信号的第二多个连续片段中的每一者且基于在所述片段期间的所述多通道信号的第一通道与在所述片段期间的所述多通道信号的第二通道之间的差,确定所述片段中不存在话音活动;
检测在所述第二多个连续片段当中的不是将在所述第二多者当中出现的第一片段的一个片段期间出现所述多通道信号的话音活动状态的转变;以及
产生话音活动检测信号,其针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值,
其中针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动,且
其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动,且
其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述多通道信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。
35.根据权利要求34所述的媒体,其中所述指令在由所述一个或一个以上处理器执行时致使所述一个或一个以上处理器计算在所述第二多个片段当中的所述一个片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数,且
其中所述检测在所述第二多个片段当中的所述一个片段期间出现所述转变是基于所述所计算得的能量的时间导数。
36.根据权利要求35所述的媒体,其中所述检测出现所述转变包含针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数,产生所述频率分量是否为活动的对应指示,且
其中所述检测出现所述转变是基于指示所述对应频率分量为活动的所述指示的数目与第一阈值之间的关系。
37.根据权利要求36所述的媒体,其中所述指令在由一个或一个以上处理器执行时致使所述一个或一个以上处理器针对在所述多通道信号中的所述第一多个连续片段之前出现的片段:
计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数;
针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数,产生所述频率分量是否为活动的对应指示;以及
基于(A)指示所述对应频率分量为活动的所述指示的数目与(B)高于所述第一阈值的第二阈值之间的关系,确定在所述片段期间不出现所述多通道信号的话音活动状态的转变。
38.根据权利要求36所述的媒体,其中所述指令在由一个或一个以上处理器执行时致使所述一个或一个以上处理器针对在所述多通道信号中的所述第一多个连续片段之前出现的片段:
针对在所述片段期间的所述第一通道的多个不同频率分量中的每一者,计算能量相对于时间的二阶导数;
针对所述多个不同频率分量中的每一者,且基于所述对应所计算得的能量相对于时间的二阶导数,产生所述频率分量是否为脉冲性的对应指示;以及
基于指示所述对应频率分量为脉冲性的所述指示的数目与阈值之间的关系,确定在所述片段期间不出现所述多通道信号的话音活动状态的转变。
39.根据权利要求34所述的媒体,其中针对所述音频信号的所述第一多个连续片段中的每一者,所述确定所述片段中存在话音活动是基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差,且
其中针对所述音频信号的所述第二多个连续片段中的每一者,所述确定所述片段中不存在话音活动是基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差。
40.根据权利要求39所述的媒体,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道的电平与所述第二通道的电平之间的差。
41.根据权利要求39所述的媒体,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道中的信号的实例与在所述片段期间的所述第二通道中的所述信号的实例之间的时间差。
42.根据权利要求39所述的媒体,其中针对所述第一多者中的每一片段,所述确定所述片段中存在话音活动包括针对在所述片段期间的所述多通道信号的第一多个不同频率分量中的每一者,计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者,且其中针对所述第二多者中的每一片段,所述确定所述片段中不存在话音活动包括针对在所述片段期间的所述多通道信号的所述第一多个不同频率分量中的每一者,计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者。
43.根据权利要求42所述的媒体,其中所述指令在由一个或一个以上处理器执行时致使所述一个或一个以上处理器计算在所述第二多个片段当中的所述一个片段期间的所述第一通道的第二多个不同频率分量中的每一者的能量的时间导数,且
其中所述检测在所述第二多个片段当中的所述一个片段期间出现所述转变是基于所述所计算得的能量的时间导数,且
其中包含所述第一多个频率分量的频带与包含所述第二多个频率分量的频带分离。
44.根据权利要求42所述的媒体,其中针对所述第一多者中的每一片段,所述确定所述片段中存在话音活动是基于指示至少所述多个不同频率分量的到达方向之间的相干性程度的相干性测量的对应值,其中所述值是基于来自所述对应多个所计算得的相位差的信息,且
其中针对所述第二多者中的每一片段,所述确定所述片段中不存在话音活动是基于指示至少所述多个不同频率分量的到达方向之间的相干性程度的相干性测量的对应值,其中所述值是基于来自所述对应多个所计算得的相位差的信息。
45.根据权利要求1所述的方法,其中所述方法包括:
计算在所述第一和第二多个片段中的一者的片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数;以及
产生所述第一和第二多者中的一者的所述片段的话音活动检测指示,
其中所述产生所述话音活动检测指示包含将所述片段的测试统计的值与阈值的值进行比较,且
其中所述产生所述话音活动检测指示包含基于所述所计算得的多个能量的时间导数来修改所述测试统计与所述阈值之间的关系,且
其中所述第一和第二多者中的一者的所述片段的所述话音活动检测信号的值是基于所述话音活动检测指示。
46.根据权利要求12所述的设备,其中所述设备包括:
用于计算在所述第一和第二多个片段中的一者的片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数的装置;以及
用于产生所述第一和第二多者中的一者的所述片段的话音活动检测指示的装置,
其中所述用于产生所述话音活动检测指示的装置包含用于将所述片段的测试统计的值与阈值进行比较的装置,且
其中所述用于产生所述话音活动检测指示的装置包含用于基于所述所计算得的多个能量的时间导数来修改所述测试统计与所述阈值之间的关系的装置,且
其中所述第一和第二多者中的一者的所述片段的所述话音活动检测信号的值是基于所述话音活动检测指示。
47.根据权利要求23所述的设备,其中所述设备包括:
第三话音活动检测器,其经配置以计算在所述第一和第二多个片段中的一者的片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数;以及
第四话音活动检测器,其经配置以基于将所述片段的测试统计的值与阈值进行比较的结果来产生所述第一和第二多者中的一者的所述片段的话音活动检测指示,
其中所述第四话音活动检测器经配置以基于所述所计算得的多个能量的时间导数来修改所述测试统计与所述阈值之间的关系,且
其中所述第一和第二多者中的一者的所述片段的所述话音活动检测信号的值是基于所述话音活动检测指示。
48.根据权利要求47所述的设备,其中所述第四话音活动检测器为所述第一话音活动检测器,且
其中所述确定所述片段中存在或不存在话音活动包含产生所述话音活动检测指示。
CN2011800233612A 2010-04-22 2011-04-22 话音活动检测 Pending CN102884575A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US32700910P 2010-04-22 2010-04-22
US61/327,009 2010-04-22
PCT/US2011/033654 WO2011133924A1 (en) 2010-04-22 2011-04-22 Voice activity detection

Publications (1)

Publication Number Publication Date
CN102884575A true CN102884575A (zh) 2013-01-16

Family

ID=44278818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011800233612A Pending CN102884575A (zh) 2010-04-22 2011-04-22 话音活动检测

Country Status (6)

Country Link
US (1) US9165567B2 (zh)
EP (1) EP2561508A1 (zh)
JP (1) JP5575977B2 (zh)
KR (1) KR20140026229A (zh)
CN (1) CN102884575A (zh)
WO (1) WO2011133924A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134440A (zh) * 2014-07-31 2014-11-05 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
CN105208503A (zh) * 2014-06-20 2015-12-30 Gn尔听美公司 用于测试助听器中的方向性的设备
CN105472092A (zh) * 2014-07-29 2016-04-06 小米科技有限责任公司 通话控制方法、装置及移动终端
US9489960B2 (en) 2011-05-13 2016-11-08 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
CN106303837A (zh) * 2015-06-24 2017-01-04 联芯科技有限公司 双麦克风的风噪检测及抑制方法、系统
CN106535045A (zh) * 2016-11-30 2017-03-22 中航华东光电(上海)有限公司 喉头送话器音频增强处理模块
CN106653045A (zh) * 2015-11-02 2017-05-10 It魔力有限公司 从音频信号提取诊断信号的方法及诊断装置
CN107331386A (zh) * 2017-06-26 2017-11-07 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
CN107564544A (zh) * 2016-06-30 2018-01-09 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN108053842A (zh) * 2017-12-13 2018-05-18 电子科技大学 基于图像识别的短波语音端点检测方法
CN109285563A (zh) * 2018-10-15 2019-01-29 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置
CN110753297A (zh) * 2019-09-27 2020-02-04 广州励丰文化科技股份有限公司 一种音频信号的混合处理方法及处理装置
CN110754096A (zh) * 2017-03-20 2020-02-04 伯斯有限公司 检测耳机用户的话音活动的系统和方法
CN115699173A (zh) * 2020-06-16 2023-02-03 华为技术有限公司 语音活动检测方法和装置

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007147077A2 (en) 2006-06-14 2007-12-21 Personics Holdings Inc. Earguard monitoring system
WO2008008730A2 (en) 2006-07-08 2008-01-17 Personics Holdings Inc. Personal audio assistant device and method
US11450331B2 (en) 2006-07-08 2022-09-20 Staton Techiya, Llc Personal audio assistant device and method
US8917894B2 (en) 2007-01-22 2014-12-23 Personics Holdings, LLC. Method and device for acute sound detection and reproduction
WO2008095167A2 (en) 2007-02-01 2008-08-07 Personics Holdings Inc. Method and device for audio recording
US11750965B2 (en) 2007-03-07 2023-09-05 Staton Techiya, Llc Acoustic dampening compensation system
WO2008124786A2 (en) 2007-04-09 2008-10-16 Personics Holdings Inc. Always on headwear recording system
US11317202B2 (en) 2007-04-13 2022-04-26 Staton Techiya, Llc Method and device for voice operated control
US10194032B2 (en) 2007-05-04 2019-01-29 Staton Techiya, Llc Method and apparatus for in-ear canal sound suppression
US11683643B2 (en) 2007-05-04 2023-06-20 Staton Techiya Llc Method and device for in ear canal echo suppression
US11856375B2 (en) 2007-05-04 2023-12-26 Staton Techiya Llc Method and device for in-ear echo suppression
US10009677B2 (en) 2007-07-09 2018-06-26 Staton Techiya, Llc Methods and mechanisms for inflation
US8488799B2 (en) 2008-09-11 2013-07-16 Personics Holdings Inc. Method and system for sound monitoring over a network
US8600067B2 (en) 2008-09-19 2013-12-03 Personics Holdings Inc. Acoustic sealing analysis system
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
US8554350B2 (en) 2008-10-15 2013-10-08 Personics Holdings Inc. Device and method to reduce ear wax clogging of acoustic ports, hearing aid sealing system, and feedback reduction system
WO2010094033A2 (en) 2009-02-13 2010-08-19 Personics Holdings Inc. Earplug and pumping systems
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
EP2586216A1 (en) 2010-06-26 2013-05-01 Personics Holdings, Inc. Method and devices for occluding an ear canal having a predetermined filter characteristic
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
EP3493205B1 (en) 2010-12-24 2020-12-23 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
CN102971789B (zh) * 2010-12-24 2015-04-15 华为技术有限公司 用于执行话音活动检测的方法和设备
US9264804B2 (en) * 2010-12-29 2016-02-16 Telefonaktiebolaget L M Ericsson (Publ) Noise suppressing method and a noise suppressor for applying the noise suppressing method
CN103688245A (zh) 2010-12-30 2014-03-26 安比恩特兹公司 利用一群数据获取装置进行信息处理
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US10356532B2 (en) 2011-03-18 2019-07-16 Staton Techiya, Llc Earpiece and method for forming an earpiece
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
US10362381B2 (en) 2011-06-01 2019-07-23 Staton Techiya, Llc Methods and devices for radio frequency (RF) mitigation proximate the ear
US8909524B2 (en) * 2011-06-07 2014-12-09 Analog Devices, Inc. Adaptive active noise canceling for handset
JP5817366B2 (ja) * 2011-09-12 2015-11-18 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
US8838445B1 (en) * 2011-10-10 2014-09-16 The Boeing Company Method of removing contamination in acoustic noise measurements
US9857451B2 (en) 2012-04-13 2018-01-02 Qualcomm Incorporated Systems and methods for mapping a source location
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP5970985B2 (ja) * 2012-07-05 2016-08-17 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
WO2014039026A1 (en) 2012-09-04 2014-03-13 Personics Holdings, Inc. Occlusion device capable of occluding an ear canal
JP5971047B2 (ja) * 2012-09-12 2016-08-17 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
JP6098149B2 (ja) * 2012-12-12 2017-03-22 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2014123011A (ja) * 2012-12-21 2014-07-03 Sony Corp 雑音検出装置および方法、並びに、プログラム
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
MX346945B (es) * 2013-01-29 2017-04-06 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de refuerzo de frecuencia mediante una operacion de limitacion de energia.
US9454958B2 (en) * 2013-03-07 2016-09-27 Microsoft Technology Licensing, Llc Exploiting heterogeneous data in deep neural network-based speech recognition systems
US9830360B1 (en) * 2013-03-12 2017-11-28 Google Llc Determining content classifications using feature frequency
US10008198B2 (en) * 2013-03-28 2018-06-26 Korea Advanced Institute Of Science And Technology Nested segmentation method for speech recognition based on sound processing of brain
US11170089B2 (en) 2013-08-22 2021-11-09 Staton Techiya, Llc Methods and systems for a voice ID verification database and service in social networking and commercial business transactions
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9167082B2 (en) 2013-09-22 2015-10-20 Steven Wayne Goldstein Methods and systems for voice augmented caller ID / ring tone alias
US10405163B2 (en) * 2013-10-06 2019-09-03 Staton Techiya, Llc Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US9147397B2 (en) * 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US8843369B1 (en) * 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US10360926B2 (en) * 2014-07-10 2019-07-23 Analog Devices Global Unlimited Company Low-complexity voice activity detection
CN105261375B (zh) 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
JP6275606B2 (ja) * 2014-09-17 2018-02-07 株式会社東芝 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
US10413240B2 (en) 2014-12-10 2019-09-17 Staton Techiya, Llc Membrane and balloon systems and designs for conduits
US10242690B2 (en) 2014-12-12 2019-03-26 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
US10515301B2 (en) 2015-04-17 2019-12-24 Microsoft Technology Licensing, Llc Small-footprint deep neural network
US9984154B2 (en) * 2015-05-01 2018-05-29 Morpho Detection, Llc Systems and methods for analyzing time series data based on event transitions
US10709388B2 (en) 2015-05-08 2020-07-14 Staton Techiya, Llc Biometric, physiological or environmental monitoring using a closed chamber
US10418016B2 (en) 2015-05-29 2019-09-17 Staton Techiya, Llc Methods and devices for attenuating sound in a conduit or chamber
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
CN105609118B (zh) * 2015-12-30 2020-02-07 生迪智慧科技有限公司 语音检测方法及装置
US10616693B2 (en) 2016-01-22 2020-04-07 Staton Techiya Llc System and method for efficiency among devices
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
WO2017205558A1 (en) * 2016-05-25 2017-11-30 Smartear, Inc In-ear utility device having dual microphones
US10045130B2 (en) 2016-05-25 2018-08-07 Smartear, Inc. In-ear utility device having voice recognition
US20170347177A1 (en) 2016-05-25 2017-11-30 Smartear, Inc. In-Ear Utility Device Having Sensors
WO2017202680A1 (en) * 2016-05-26 2017-11-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for voice or sound activity detection for spatial audio
EP3290942B1 (en) 2016-08-31 2019-03-13 Rohde & Schwarz GmbH & Co. KG A method and apparatus for detection of a signal
DK3300078T3 (da) * 2016-09-26 2021-02-15 Oticon As Stemmeaktivitetsdetektionsenhed og en høreanordning, der omfatter en stemmeaktivitetsdetektionsenhed
US10242696B2 (en) * 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US9916840B1 (en) * 2016-12-06 2018-03-13 Amazon Technologies, Inc. Delay estimation for acoustic echo cancellation
US10224053B2 (en) * 2017-03-24 2019-03-05 Hyundai Motor Company Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering
US10410634B2 (en) 2017-05-18 2019-09-10 Smartear, Inc. Ear-borne audio device conversation recording and compressed data transmission
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
WO2018226779A1 (en) 2017-06-06 2018-12-13 Google Llc End of query detection
US10582285B2 (en) 2017-09-30 2020-03-03 Smartear, Inc. Comfort tip with pressure relief valves and horn
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
US10405082B2 (en) 2017-10-23 2019-09-03 Staton Techiya, Llc Automatic keyword pass-through system
CN109859744B (zh) * 2017-11-29 2021-01-19 宁波方太厨具有限公司 一种应用于吸油烟机中的语音端点检测方法
CN109859749A (zh) 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
US10885907B2 (en) * 2018-02-14 2021-01-05 Cirrus Logic, Inc. Noise reduction system and method for audio device with multiple microphones
US11638084B2 (en) 2018-03-09 2023-04-25 Earsoft, Llc Eartips and earphone devices, and systems and methods therefor
US11607155B2 (en) 2018-03-10 2023-03-21 Staton Techiya, Llc Method to estimate hearing impairment compensation function
US10817252B2 (en) 2018-03-10 2020-10-27 Staton Techiya, Llc Earphone software and hardware
US10332543B1 (en) * 2018-03-12 2019-06-25 Cypress Semiconductor Corporation Systems and methods for capturing noise for pattern recognition processing
US10951994B2 (en) 2018-04-04 2021-03-16 Staton Techiya, Llc Method to acquire preferred dynamic range function for speech enhancement
US11341987B2 (en) 2018-04-19 2022-05-24 Semiconductor Components Industries, Llc Computationally efficient speech classifier and related methods
US11488590B2 (en) 2018-05-09 2022-11-01 Staton Techiya Llc Methods and systems for processing, storing, and publishing data collected by an in-ear device
CN108648756A (zh) * 2018-05-21 2018-10-12 百度在线网络技术(北京)有限公司 语音交互方法、装置和系统
US11122354B2 (en) 2018-05-22 2021-09-14 Staton Techiya, Llc Hearing sensitivity acquisition methods and devices
US11032664B2 (en) 2018-05-29 2021-06-08 Staton Techiya, Llc Location based audio signal message processing
US11240609B2 (en) 2018-06-22 2022-02-01 Semiconductor Components Industries, Llc Music classifier and related methods
JP6661710B2 (ja) * 2018-08-02 2020-03-11 Dynabook株式会社 電子機器および電子機器の制御方法
US10878812B1 (en) * 2018-09-26 2020-12-29 Amazon Technologies, Inc. Determining devices to respond to user requests
US10789941B2 (en) * 2018-09-28 2020-09-29 Intel Corporation Acoustic event detector with reduced resource consumption
CN113348503B (zh) 2019-01-29 2024-08-06 谷歌有限责任公司 使用结构化音频输出检测回放和/或适应无线扬声器中的未对准的回放
CN110070885B (zh) * 2019-02-28 2021-12-24 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
EP3800640B1 (en) * 2019-06-21 2024-10-16 Shenzhen Goodix Technology Co., Ltd. Voice detection method, voice detection device, voice processing chip and electronic apparatus
WO2021148342A1 (en) 2020-01-21 2021-07-29 Dolby International Ab Noise floor estimation and noise reduction
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant
CN111627453B (zh) * 2020-05-13 2024-02-09 广州国音智能科技有限公司 公安语音信息管理方法、装置、设备及计算机存储介质
US11776562B2 (en) 2020-05-29 2023-10-03 Qualcomm Incorporated Context-aware hardware-based voice activity detection
CN111816216A (zh) * 2020-08-25 2020-10-23 苏州思必驰信息科技有限公司 语音活性检测方法和装置
US11783809B2 (en) * 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier
TR202021840A1 (tr) * 2020-12-26 2022-07-21 Cankaya Ueniversitesi Konuşma sinyali aktivite bölgelerinin belirlenmesini sağlayan yöntem.
TW202226230A (zh) * 2020-12-29 2022-07-01 新加坡商創新科技有限公司 將麥克風信號靜音和取消靜音之方法
GB2606366B (en) * 2021-05-05 2023-10-18 Waves Audio Ltd Self-activated speech enhancement
US12094488B2 (en) * 2022-10-22 2024-09-17 SiliconIntervention Inc. Low power voice activity detector
CN116895281B (zh) * 2023-09-11 2023-11-14 归芯科技(深圳)有限公司 基于能量的语音激活检测方法、装置及芯片

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649055A (en) * 1993-03-26 1997-07-15 Hughes Electronics Voice activity detector for speech signals in variable background noise
CN1623186A (zh) * 2002-01-24 2005-06-01 摩托罗拉公司 用于噪声环境的话音活动检测器和验证器
CN101010722A (zh) * 2004-08-30 2007-08-01 诺基亚公司 音频信号中话音活动的检测
WO2008143569A1 (en) * 2007-05-22 2008-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Improved voice activity detector

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
JP2728122B2 (ja) * 1995-05-23 1998-03-18 日本電気株式会社 無音圧縮音声符号化復号化装置
US5689615A (en) 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
US5774849A (en) 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
DE69716266T2 (de) 1996-07-03 2003-06-12 British Telecommunications P.L.C., London Sprachaktivitätsdetektor
WO2000046789A1 (fr) * 1999-02-05 2000-08-10 Fujitsu Limited Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son
JP3789246B2 (ja) 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
US6570986B1 (en) 1999-08-30 2003-05-27 Industrial Technology Research Institute Double-talk detector
US6535851B1 (en) 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
KR100367700B1 (ko) 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
US7505594B2 (en) * 2000-12-19 2009-03-17 Qualcomm Incorporated Discontinuous transmission (DTX) controller system and method
US6850887B2 (en) 2001-02-28 2005-02-01 International Business Machines Corporation Speech recognition in noisy environments
US7171357B2 (en) 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
GB2379148A (en) 2001-08-21 2003-02-26 Mitel Knowledge Corp Voice activity detection
JP4518714B2 (ja) 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法
FR2833103B1 (fr) * 2001-12-05 2004-07-09 France Telecom Systeme de detection de parole dans le bruit
US7024353B2 (en) 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
US7925510B2 (en) 2004-04-28 2011-04-12 Nuance Communications, Inc. Componentized voice server with selectable internal and external speech detectors
KR100677396B1 (ko) 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
US8219391B2 (en) 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
WO2006104576A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US8315857B2 (en) 2005-05-27 2012-11-20 Audience, Inc. Systems and methods for audio signal analysis and modification
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US20070036342A1 (en) * 2005-08-05 2007-02-15 Boillot Marc A Method and system for operation of a voice activity detector
WO2007028250A2 (en) 2005-09-09 2007-03-15 Mcmaster University Method and device for binaural signal enhancement
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8311814B2 (en) * 2006-09-19 2012-11-13 Avaya Inc. Efficient voice activity detector to detect fixed power signals
EP2089877B1 (en) 2006-11-16 2010-04-07 International Business Machines Corporation Voice activity detection system and method
US8041043B2 (en) 2007-01-12 2011-10-18 Fraunhofer-Gessellschaft Zur Foerderung Angewandten Forschung E.V. Processing microphone generated signals to generate surround sound
JP4854533B2 (ja) 2007-01-30 2012-01-18 富士通株式会社 音響判定方法、音響判定装置及びコンピュータプログラム
JP4871191B2 (ja) 2007-04-09 2012-02-08 日本電信電話株式会社 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
US8321213B2 (en) * 2007-05-25 2012-11-27 Aliphcom, Inc. Acoustic voice activity detection (AVAD) for electronic systems
US8374851B2 (en) 2007-07-30 2013-02-12 Texas Instruments Incorporated Voice activity detector and method
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
JP2009092994A (ja) * 2007-10-10 2009-04-30 Audio Technica Corp 音声会議装置
US8175291B2 (en) 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
WO2010038386A1 (ja) 2008-09-30 2010-04-08 パナソニック株式会社 音判定装置、音検知装置及び音判定方法
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
KR101519104B1 (ko) * 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649055A (en) * 1993-03-26 1997-07-15 Hughes Electronics Voice activity detector for speech signals in variable background noise
CN1623186A (zh) * 2002-01-24 2005-06-01 摩托罗拉公司 用于噪声环境的话音活动检测器和验证器
CN101010722A (zh) * 2004-08-30 2007-08-01 诺基亚公司 音频信号中话音活动的检测
WO2008143569A1 (en) * 2007-05-22 2008-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Improved voice activity detector

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489960B2 (en) 2011-05-13 2016-11-08 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
TWI562132B (en) * 2011-05-13 2016-12-11 Samsung Electronics Co Ltd Noise filling method
US10276171B2 (en) 2011-05-13 2019-04-30 Samsung Electronics Co., Ltd. Noise filling and audio decoding
US9711155B2 (en) 2011-05-13 2017-07-18 Samsung Electronics Co., Ltd. Noise filling and audio decoding
US9773502B2 (en) 2011-05-13 2017-09-26 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
US10109283B2 (en) 2011-05-13 2018-10-23 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
CN105208503A (zh) * 2014-06-20 2015-12-30 Gn尔听美公司 用于测试助听器中的方向性的设备
CN105208503B (zh) * 2014-06-20 2019-08-13 纳特斯医疗有限公司 用于测试助听器中的方向性的设备
CN105472092A (zh) * 2014-07-29 2016-04-06 小米科技有限责任公司 通话控制方法、装置及移动终端
CN104134440B (zh) * 2014-07-31 2018-05-08 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
CN104134440A (zh) * 2014-07-31 2014-11-05 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
CN106303837B (zh) * 2015-06-24 2019-10-18 联芯科技有限公司 双麦克风的风噪检测及抑制方法、系统
CN106303837A (zh) * 2015-06-24 2017-01-04 联芯科技有限公司 双麦克风的风噪检测及抑制方法、系统
CN106653045B (zh) * 2015-11-02 2021-01-22 It魔力有限公司 从音频信号提取诊断信号的方法及诊断装置
CN106653045A (zh) * 2015-11-02 2017-05-10 It魔力有限公司 从音频信号提取诊断信号的方法及诊断装置
CN107564544A (zh) * 2016-06-30 2018-01-09 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN106535045A (zh) * 2016-11-30 2017-03-22 中航华东光电(上海)有限公司 喉头送话器音频增强处理模块
CN110754096A (zh) * 2017-03-20 2020-02-04 伯斯有限公司 检测耳机用户的话音活动的系统和方法
CN107331386B (zh) * 2017-06-26 2020-07-21 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
CN107331386A (zh) * 2017-06-26 2017-11-07 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
CN108053842A (zh) * 2017-12-13 2018-05-18 电子科技大学 基于图像识别的短波语音端点检测方法
CN108053842B (zh) * 2017-12-13 2021-09-14 电子科技大学 基于图像识别的短波语音端点检测方法
CN109285563A (zh) * 2018-10-15 2019-01-29 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置
CN109285563B (zh) * 2018-10-15 2022-05-06 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置
CN110753297A (zh) * 2019-09-27 2020-02-04 广州励丰文化科技股份有限公司 一种音频信号的混合处理方法及处理装置
CN115699173A (zh) * 2020-06-16 2023-02-03 华为技术有限公司 语音活动检测方法和装置

Also Published As

Publication number Publication date
WO2011133924A1 (en) 2011-10-27
JP5575977B2 (ja) 2014-08-20
JP2013525848A (ja) 2013-06-20
US20110264447A1 (en) 2011-10-27
US9165567B2 (en) 2015-10-20
EP2561508A1 (en) 2013-02-27
KR20140026229A (ko) 2014-03-05

Similar Documents

Publication Publication Date Title
CN102884575A (zh) 话音活动检测
CN102763160B (zh) 用于稳健噪声降低的麦克风阵列子组选择
CN102197424B (zh) 用于一致性检测的系统、方法和设备
CN102893331B (zh) 用于使用头戴式麦克风对来处理语音信号的方法和设备
EP2599329B1 (en) System, method, apparatus, and computer-readable medium for multi-microphone location-selective processing
CN103180900B (zh) 用于话音活动检测的系统、方法和设备
CN102947878B (zh) 用于音频均衡的系统、方法、装置和设备
CN104246877B (zh) 用于音频信号处理的系统和方法
CN102625946B (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
TW201132138A (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
Choi et al. Dual-microphone voice activity detection technique based on two-step power level difference ratio
Lee et al. Space-time voice activity detection
Lathoud et al. A Frequency-Domain Silence Noise Model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C05 Deemed withdrawal (patent law before 1993)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130116