CN105185383A

CN105185383A - 用于存在可理解语音时部分保留音乐的方法

Info

Publication number: CN105185383A
Application number: CN201510312430.1A
Authority: CN
Inventors: J.M.基尔希; A.伊耶; R.A.克赖菲尔特
Original assignee: Crown Audio Inc
Current assignee: Harman International Industries Inc; Crown Audio Inc
Priority date: 2014-06-09
Filing date: 2015-06-09
Publication date: 2015-12-23
Anticipated expiration: 2035-06-09
Also published as: US10368164B2; EP2963647A1; US20170223451A1; EP2963647B1; US20150358730A1; US9615170B2; CN105185383B

Abstract

本发明公开一种用于收听装置的音频处理系统，其包括输入装置、语音活动检测器和基于比率的衰减器。所述输入装置被配置来接收发射自环境且包括关注信号的第一音频信号。所述语音活动检测器被配置来响应于第一音频信号生成控制信号。所述基于比率的衰减器被配置来接收所述控制信号且确定所述第一音频信号的信号电平是否超过接收自音频播放装置的音频信号的信号电平达至少目标差。如果是，那么维持所述播放音频信号的音频电平。否则，调整所述播放音频信号的所述音频电平，其中在调整值处，所述第一信号电平超过所述播放信号电平达至少所述目标差。

Description

用于存在可理解语音时部分保留音乐的方法

相关申请案的交叉参考

本申请要求2014年6月9日提交且具有序列号62/009,851的标题是“APPROACHFORPARTIALLYPRESERVINGMUSICINTHEPRESENCEOFINTELLIGIBLESPEECH”的美国临时专利申请的利益。此相关申请的主题是以引用方式由此并入本文中。

技术领域

本公开内容的实施方案大体上涉及音频信号处理，且更具体地说涉及一种用于在存在可理解语音时部分保留音乐的方法。

背景技术

听筒、耳机、耳塞和其它个人收听装置通常是由希望收听特定类型的音频源(诸如音乐、语音或电影原声)且不打扰附近的其它人的个人使用。这些类型的音频源在本文中称作“娱乐”信号，且各自通常被特征化为在持续时间周期内存在的音频信号。通常，这些个人收听装置包括用于插入到音频播放装置的音频输出中的音频插头。音频插头连接到将音频信号从音频播放装置载送到个人收听装置的电缆。为了提供高品质的音频，此类个人收听装置包括通常覆盖整只耳朵或完全密封耳道的扬声器组件。个人收听装置被设计来提供良好的声密封，因而尤其关于低音响应减小音频信号泄漏且改善收听者的体验品质。

上述个人收听装置的一个缺陷是，因为所述装置形成对耳朵的良好声密封，所以大幅减小收听者听到环境声音的能力。结果，收听者可能无法听到来自环境的某些重要声音，诸如迎面而来的车辆的声音、人类语音或警告。发射自环境的这些类型的重要声音在本文中称作“优先权”或“警报”信号，且各自通常被特征化为间歇的音频信号，从而充当中断。

以上问题的一个解决方法是以声音或电子方式混合或组合环境声音(包括存在于环境声音中由一个或多个麦克风检测的任何警报信号)与娱乐信号。收听者然后能够听到娱乐信号和环境声音(包括任何警报信号)两者。但是此类解决方法的一个缺陷是，如果娱乐信号相对于警报信号太响亮，那么警报信号可能无法理解(或甚至可能听不到)。

随着前文说明，用于给收听装置的用户提供娱乐信号和警报信号的更有效技术将是有用的。

发明内容

一个或多个实施方案陈述一种用于收听装置的音频处理系统，其包括输入装置、语音活动检测器和基于比率的衰减器。输入装置被配置来接收发射自环境且包括关注信号的第一音频信号。语音活动检测器被配置来响应于第一音频信号生成第一控制信号。基于比率的衰减器被配置来接收第一控制信号。基于比率的衰减器还被配置来确定与第一音频信号相关的第一信号电平是否超过与接收自音频播放装置的第二音频信号相关的第二信号电平达至少目标差。基于比率的衰减器还被配置来：如果第一信号电平超过第二信号电平达至少目标差时，那么维持第二音频信号的音频电平。基于比率的衰减器还被配置来：如果第一信号电平不超过第二信号电平达至少目标差时，那么使第二音频信号的音频电平从第一值调整到第二值，其中在第二值处，第一信号电平超过第二信号电平达至少目标差。

其它实施方案包括但不限于包括用于执行所公开技术的一个或多个方面的指令的计算机可读介质以及用于执行所公开技术的一个或多个方面的方法。

所公开方法的至少一个优点是，使用所公开的装备有音频处理系统100的收听装置的收听者听到来自音频播放装置的高品质的音频信号加上来自环境声音的某些警报信号，同时相对于警报信号抑制来自环境声音的其它声音。

附图说明

专利或申请文件包括以彩色执行的至少一个图示。具有彩色图示的此专利或专利申请公开案将在请求并支付必要费用之后由专利局提供。

因此可以通过参考实施方案获得可详细了解本发明的实施方案的上文叙述的特征的方式、上文简单概述的本发明的更特定描述，实施方案中的一些是在附图中加以说明。然而，应注意，附图只说明本发明的典型实施方案且因此不应被认为限制其范围，因为本发明可以允许其它同样有效的实施方案。

图1说明被配置来实施各个实施方案的一个或多个方面的音频处理系统；

图2说明根据各个实施方案的由图1的音频处理系统执行的示例性音频闪避功能；

图3陈述说明根据各个实施方案的由图1的音频处理系统执行的音频闪避功能的示例性波形集；且

图4A到4B陈述根据各个实施方案的用于处理娱乐信号和警报信号的方法步骤的流程图。

具体实施方式

在以下描述中，陈述多种具体细节以提供对某些具体实施方案的更完整理解。然而，所属领域技术人员将明白，在不脱离这些具体细节中的一者或多者或在具有额外具体细节的情况下可以实践其它实施方案。

如本文中描述，收听装置中的音频处理系统确定环境声音中何时存在警报信号，且作为响应，智能地衰减或闪避娱乐信号的音频电平以将语音音乐比(VMR)维持在目标值或目标值附近。换句话来说，音频处理系统维持相对恒定的警报信号电平与娱乐信号电平比(AER)。虽然所公开的技术是在个人收听装置的背景下加以描述，但是所述技术也可以施加于其它音频系统，包括但不限于扩音系统。一般来说，娱乐信号电平对应于播放装置上如通过收听者设置的音量设置。警报信号电平对应于环境中存在的关注信号(诸如语音)的强度。在一个实例中且无限制，低警报信号电平可由饭店的轻轻播音的服务器广播桌子已经准备好而引起。如果服务器的广播比顾客、其它服务器或领班的语音轻，那么娱乐信号被更大幅衰减使得可听到服务器的语音。在另一实例中且无限制，低警报信号电平可由骑自行车的伙伴在相距穿戴包括麦克风的耳塞的收听者的一定距离处说话而引起。因为声级归因于声传播而在空间内下降，所以相距收听者20英尺的骑自行车的人听到的声音比相距收听者6英尺的骑自行车的人听到的声音轻。结果，施加于娱乐信号的闪避大小随着娱乐信号的强度增加而增加。然而，施加于娱乐信号的闪避大小随着警报信号的强度增加而降低。

当警报信号实际上存在于环境音频中且足够响亮时，音频处理系统施加智能闪避。因此，如果不存在警报信号或如果在本文中称作潜在警报信号的关注信号处于可忽略电平，那么音频处理系统无需施加闪避于娱乐信号。结果，防止低电平、稳定状态的背景声音(诸如相距较大距离的遥远的安静的谈话)占用闪避系统。现在将更加详细地描述此音频处理系统。

系统概述

图1说明被配置来实施各个实施方案的一个或多个方面的音频处理系统100。如所示，音频处理系统100包括但不限于声音环境处理器130、语音分离器135、环境分离器140、麦克风均方根(RMS)检测器145、音频输入RMS检测器150、语音活动检测器155、基于比率的衰减器165、智能系统监测器160、起音(attack)释放逻辑170、压控放大器175和混音器180。

声音环境处理器130从捕捉发射自环境的声音的一个或多个麦克风接收麦克风(mic)输入信号105。在一些实施方案中，声音环境处理器130以电子方式而非经由一个或多个麦克风接收发射自环境的声音。声音环境处理器130对麦克风输入执行降噪。声音环境处理器130通过消除一个或多个噪声信号(包括但不限于麦克风(mic)嘶嘶声、稳定状态的噪声、极低频声音(诸如交通嘈杂声)和其它低电平稳定状态声音)使麦克风输入变得干净且增强麦克风输入，同时使任何潜在警报信号保持完好无损。一般来说，低电平声音是具有低于响度阈值的信号电平的声音。在一些实施方案中，在传输处理信号作为输出之前可以使用门电路来从输入信号消除此类低电平信号。一般来说，稳定状态声音是，相对于信号振幅随时间变化的瞬态声音，信号振幅随时间保持相对恒定的声音。在一个实例中且无限制，怠速汽车的声音可被视为稳定状态声音，而加速汽车或发动引擎的汽车的声音将不会被视为稳定状态声音。在另一实例中且无限制，歌剧演唱的声音可被视为稳定状态声音，而说话的声音将不会被视为稳定状态声音。在又另一实例中且无限制，极慢的交响乐的声音可被视为稳定状态声音，而相对较快的打击乐的声音将不会被视为稳定状态声音。潜在警报信号包括并非低电平稳定状态声音的声音，诸如人类语音或汽车喇叭。声音环境处理器130将高保真度降噪信号传输到混音器180。声音环境处理器130还将控制信号传输到语音分离器135、环境分离器140和麦克风RMS检测器145。在一些实施方案中，传输到语音分离器135、环境分离器140和麦克风RMS检测器145的控制信号中的每一者可以是同一信号的相同副本。控制信号可以是被传输到混音器180的降噪音频的较低保真度版本。

语音分离器135从声音环境处理器130接收控制信号。语音分离器135提取存在于所接收控制信号中的任何潜在警报信号，诸如语音。在一些实施方案中，语音分离器135通过施加带通滤波器然后施加RMS检测器以检测语音信号和其它瞬态信号来执行此功能。在一些实施方案中，语音分离器135可以确定500Hz到3,000Hz的范围中的音频能量被认为是潜在警报信号。在这些实施方案中，来自语音分离器135的输出可以是500Hz到3,000Hz的范围中的音频能量的RMS电平。如果此频率范围中的音频的RMS电平超过给出的阈值，那么语音分离器135可以确定存在潜在警报信号。语音分离器135将控制信号传输到语音活动检测器155。

环境分离器140是从声音环境处理器130接收控制信号的选用模块。环境分离器140比较麦克风输入的RMS电平与阈值电平以检测行进通过声音环境处理器130的环境信号，诸如交通噪声、施工噪声和其它背景噪声。在一些实施方案中，环境分离器140经由特征提取方法执行此功能。环境分离器140将控制信号传输到语音活动检测器155。

麦克风RMS检测器145从语音分离器135接收控制信号。麦克风RMS检测器145检测接收自语音分离器135的经处理麦克风输入信号的均方根(RMS)电平。麦克风RMS检测器145以log(dB单位)域计算经处理麦克风输入信号的能量。在一些实施方案中，麦克风RMS检测器145可以采用替代信号电平测量技术而非检测信号的RMS电平。在一个实例中且无限制，麦克风RMS检测器145采用更加复杂的心理声学信号电平测量技术。麦克风RMS检测器145将对应于经检测麦克风RMS电平的控制信号传输到基于比率的衰减器165。

音频输入RMS检测器150经由音频输入110从音频播放装置接收娱乐信号。音频输入RMS检测器150检测经由音频输入110接收的娱乐信号的均方根(RMS)电平。音频输入RMS检测器150以log(dB单位)域计算娱乐信号的能量。在一些实施方案中，音频RMS检测器150可以采用替代信号电平测量技术而非检测信号的RMS电平。在一个实例中且无限制，音频RMS检测器150采用更加复杂的心理声学信号电平测量技术。音频输入RMS检测器150将对应于经计算娱乐信号输入RMS电平的控制信号传输到基于比率的衰减器165。

语音活动检测器155从语音分离器135、环境分离器140和智能系统监测器160接收控制信号。语音活动检测器155分析来自语音分离器135和环境分离器140的所接收控制信号，且比较所述两个控制信号与闪避器阈值(duckerthreshold)115以检测警报信号的存在，且如果存在警报信号，那么是否闪避经由音频输入110接收的娱乐音频。在一些实施方案中，闪避器阈值115可以经由用户控制设置。语音活动检测器155确定当接收自语音分离器135的控制信号超过闪避器阈值115时存在警报信号。当存在环境分离器140时，语音活动检测器155还确定当接收自语音分离器135的控制信号包括环境分离器140不会将其识别为环境信号的警报信号时存在警报信号。结果，语音活动检测器155减小更响亮的低频稳定状态声音被错误地分类为警报信号的可能性。

在一些实施方案中，如果语音活动检测器155确定存在警报信号，那么语音活动检测器155可以基于来自语音分离器135的信号与闪避器阈值115的比率计算控制信号。如果语音活动检测器155确定不存在警报信号，那么语音活动检测器155可以将此控制信号设置为1(即，单位增益)，以禁止闪避音频输入110。如本文中进一步讨论，当语音活动检测器155确定不再存在警报信号时，语音活动155在接收自智能系统监测器160的闪避保持信号期间继续施加闪避。语音活动检测器155将控制信号传输到智能系统监测器160和基于比率的衰减器165。

智能系统监测器160从语音活动检测器155接收控制信号。智能系统监测器160基于所接收的控制信号确定闪避的持续时间和闪避速度。作为一个实例且无限制，人类语音的音量可改变，其中人类语音的一些部分可较为响亮，而人类语音的其它部分较轻。此外，单词之间或短暂停顿期间将不存在人类语音。在此类情况中，在语音期间可多次施加和取消音频闪避。结果，音频输入110上存在的娱乐信号将快速连续地被闪避且从闪避释放，从而使收听者体验不满意。智能系统监测器160可有效地施加保持时间以在麦克风输入105处不再存在警报信号之后维持闪避功能达阈值持续时间。结果，将在短的间隔内(诸如单词或短暂停顿之间)维持闪避，但是当检测到相对较长停顿时将释放闪避。

在一些实施方案中，智能系统监测器160可以确定闪避的持续时间可以是零，造成无闪避。智能系统监测器160生成识别应何时施加闪避保持时间的控制信号。智能系统监测器160将控制信号传输到语音活动检测器155和起音/释放逻辑170。智能系统监测器160视情况将控制信号传输到基于比率的衰减器165。

基于比率的衰减器165从麦克风RMS检测器145和音频输入RMS检测器150接收RMS音频电平。基于比率的衰减器165还从语音活动检测器155且视情况从智能系统监测器160接收控制信号。基于比率的衰减器165确定施加于经由音频输入110接收的娱乐信号的增益降低的大小。基于比率的衰减器165接收语音音乐比(VMR)120，其指定音频输入110相对于麦克风输入105闪避的目标电平。在一些实施方案中，VMR120可以经由用户控制设置。例如且无限制，如果VMR120被设置为-30dB且施加闪避，那么基于比率的衰减器165设置音频输入110处接收的信号的衰减，使得音频输入110的电平相对于麦克风输入105是至少-30dB。如果来自智能系统监测器160的控制信号指示施加闪避保持时间，那么基于比率的衰减器165维持最近的闪避电平直到取消闪避保持为止。在闪避保持时间期间，基于比率的衰减器165既不增加也不降低闪避电平。基于比率的衰减器165生成指示音频输入110信号被闪避的大小的控制信号。一般来说，基于比率的衰减器165经由衰减而非放大来修改娱乐信号的电平，因此娱乐信号的增益不会超过单位1。基于比率的衰减器165将此控制信号传输到起音/释放逻辑170。

起音/释放逻辑170从智能系统监测器160和基于比率的衰减器165接收控制信号。基于这些控制信号，起音/释放逻辑170施加平滑功能于由闪避引起的增益降低，以防止非所需地调制经由音频输入110接收的娱乐信号。在一些实施方案中，起音/释放逻辑170可以采用不对称起音和释放曲线(profile)，诸如相对较快起音曲线和相对较慢释放曲线。当检测到新的警报信号时，起音/释放逻辑170施加快速起音以快速地闪避音频输入110信号以避免截断警报信号的开始，且从而保留语音的可理解性。当不再检测到警报信号时，起音/释放逻辑170施加相对较慢释放以避免突然改变娱乐信号。

此外，在一些实施方案中，起音/释放逻辑170可以施加滞后逻辑以防止在接合闪避器时非所需地调制娱乐信号。经由此滞后逻辑，当音频闪避接近目标闪避电平时，基于接收自智能系统监测器160的控制信号，起音/释放逻辑170采用较慢的起音/较慢的释放曲线。此控制信号指示警报信号最近是否出现或消失在麦克风输入105信号中，或关注信号是否存在达阈值持续时间。如果警报信号最近出现或消失，那么起音/释放逻辑170施加快速起音/慢释放曲线。另一方面，如果警报信号存在达阈值时间周期，那么起音/释放逻辑170施加较慢起音/较慢释放曲线。较慢起音/较慢释放曲线仍然对应于接收自麦克风输入105和音频输入110的RMS电平的变化，但是相对于快速起音/慢释放曲线处于较慢响应速率。起音/释放逻辑170将平滑化增益控制信号传输到压控放大器175。

压控放大器175从起音/释放逻辑170接收平滑化增益控制信号。压控放大器175经由音频输入110接收娱乐信号。压控放大器175施加平滑化增益控制信号于娱乐信号以生成闪避娱乐信号。当施加音频闪避时，压控放大器175在经由音频输入110接收的娱乐信号相对较响亮时或当经由麦克风输入105接收的警报信号相对较轻时施加更大衰减于娱乐信号。当没有施加音频闪避时，压控放大器175传递经由音频输入110接收的娱乐信号而不进行衰减。压控放大器175将所得闪避娱乐信号传递到混音器180。

混音器180从声音环境处理器130接收降噪麦克风音频且从压控放大器175接收闪避娱乐信号。混音器180混合或组合两个接收的音频信号以生成输出信号。在一些实施方案中，混音器180可以对两个音频信号执行简单加法或乘法混合。在其它实施方案中，混音器180可以对两个音频信号执行任何技术上可行的混合或组合功能。混音器180经由音频输出125将输出信号传输到一个或多个扬声器。

在各个实施方案中，音频处理系统100可以被实施为状态机、中央处理单元(CPU)、数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或被配置来处理数据且执行软件应用的任何装置或结构。在一些实施方案中，图1中说明的方框中的一者或多者可以被离散模拟或数字电路实施。在一个实例中且无限制，压控放大器175和混音器180可被模拟组件实施。音频处理系统100可以与移动计算机、安装仪表盘的装置、个人数字助理、移动电话、穿戴式装置、移动装置或适用于实践本发明的一个或多个实施方案的任何其它装置相关。音频处理系统100可以被配置来如本文中进一步描述般实施智能音频处理系统100。此音频处理系统100可以任何技术上可行的形状因子实施，包括但不限于具有态势感知(例如经由麦克风)的听筒或耳塞、广播系统、可中断折返(IFB)系统或传呼系统。

音频处理系统的操作

图2说明根据各个实施方案的由图1的音频处理系统100执行的示例性音频闪避功能200。如所示且无限制，音频闪避功能200叠加到3轴坐标系统上，其中所述三个轴包括语音电平轴210、音乐电平轴220和所需音乐增益轴230。

语音电平轴210包括可忽略语音212、较轻语音214、正常语音216和呐喊218的离散电平。类似地，音乐电平轴220包括极强(极响亮)音乐222、普通音乐224、极弱(极轻柔)音乐226和无声(无音乐)228的离散电平。虽然语音电平轴210和音乐电平轴220上指示离散电平，但是这些轴均是连续的且包括如所示的离散电平之间的值。所需音乐增益轴230指示用于基于如语音电平轴210上所示的语音电平和如音乐电平轴220上所示的音乐电平施加于导入音乐信号的乘法因子。所需音乐增益轴230上的值1指示导入音乐乘以1，所需音乐增益轴230上的值0.9指示导入音乐乘以0.9，所需音乐增益轴230上的值0.8指示导入音乐乘以0.8，以此类推。如所示，1.0的“单位1”增益(暗红色)指示输入音乐信号没有衰减，且0.0的“零”增益(暗蓝色)指示输入音乐信号大幅衰减(例如，30dB)。

遵循对应于可忽略语音电平的线段240(0)，所需音乐增益是1，而无关于音乐电平。线段240(0)指示当语音电平可忽略时音乐信号没有衰减。因此，收听者只听到音乐信号。

遵循对应于较轻语音电平的线段240(1)，当音乐电平极强时，所需音乐增益近似为0.18。所需音乐增益随着音乐电平降低而增加直到当不存在音乐信号时所需音乐增益是1为止。线段240(1)指示极强音乐信号被大幅衰减以保证在极响亮的音乐中可听到较轻的语音电平。较低音乐电平保证较低衰减，且当不存在音乐信号时(诸如在歌曲之间的无音间隙期间)不需要衰减。在一个实施方案中，当不存在音乐信号时，先前闪避电平可以被维持达阈值时间周期以防止歌曲之间的闪避电平发生改变。

遵循对应于正常语音电平的线段240(2)，当音乐电平极强时，所需音乐增益近似为0.32。所需音乐增益随着音乐电平降低而增加直到当不存在音乐信号时所需音乐增益是1为止。线段240(2)指示极强音乐信号被适中地衰减以保证在极响亮的音乐中可听到正常的语音电平。较低音乐电平保证较低衰减，且当不存在音乐信号时不需要衰减。

遵循对应于极响亮的语音电平(诸如呐喊)的线段240(3)，当音乐电平极强时，所需音乐增益近似为0.50。所需音乐增益随着音乐电平降低而增加直到当不存在音乐信号时所需音乐增益是1为止。线段240(3)指示极强音乐信号被稍微地衰减以保证在极响亮的音乐中可听到响亮的语音电平。较低音乐电平保证较低衰减，且当不存在音乐信号时不需要衰减。

图2中说明的音频闪避功能200使所需音乐增益以语音电平和音乐电平两者为基础以适应音乐电平与语音电平的各个组合。一般来说，所需音乐增益随着音乐电平降低而增加。所需音乐增益随着语音电平从可忽略增加直到检测到较轻语音为止保持恒定。所需音乐电平然后急剧降低到相对较低电平且然后随着语音电平从较轻语音增加到极响亮语音而逐渐增加。

图3陈述说明根据各个实施方案的由图1的音频处理系统100执行的音频闪避功能的示例性波形集300。如所示且无限制，波形集300包括输入语音波形310、输入音乐波形320和输出音乐波形330。这三个波形叠加到2轴坐标系统上。垂直轴340指示音频电压电平(以dBu为单位)，其是以近似0.775VRMS为参照的电压的均方根(RMS)测量。水平轴350指示时间(以秒为单位)。

如由输入音乐波形320所示的输入音乐电平在时间间隔t＝0到t＝30期间开始于-16dBu。输入音乐电平在时间间隔t＝30到t＝60期间降低到-35dBu。输入音乐电平在时间间隔t＝60到t＝90期间进一步降低到-75dBu。

在时间间隔t＝0到t＝5期间，输入语音波形310指示不存在语音(近似-90dBu输入电平)。在此周期期间，不发生闪避，且输出音乐波形330的电平保持在输入音乐波形320的电平。在时间周期t＝5到t＝10期间，输入语音波形310指示存在-15dBu的电平的语音。输入音乐电平被闪避到比语音电平低11dB的电平。因为输入音乐电平为-16dBu(低于输入语音电平)，所以输出音乐波形330的电平被闪避10dB到-26dBu。在时间周期t＝10到t＝20期间，不存在语音(近似-90dBu输入电平)，且释放闪避功能，从而允许输出音乐电平恢复到-16dBu电平。在时间周期t＝20到t＝25期间，输入语音波形310指示存在-27dBu的较轻电平的语音。输入音乐电平被闪避22dB到比语音电平低11dB的电平，或-38dBu。

在时间间隔t＝25到t＝35期间，输入语音波形310指示不存在语音(近似-90dBu输入电平)。在此周期期间，不发生闪避，且输出音乐波形330的电平恢复到输入音乐波形320的电平。在时间t＝30处，输入音乐电平和对应地输出音乐电平降低到-35dBu。在时间周期t＝35到t＝40期间，输入语音波形310指示存在-15dBu的电平的语音。因为输入音乐电平已经比语音电平低11dB以上，所以不发生闪避。在时间周期t＝40到t＝50期间，不存在语音(近似-90dBu输入电平)，且输出音乐电平保持在-35dBu的输入音乐电平。在时间周期t＝50到t＝55期间，输入语音波形310指示存在-27dBu的较轻电平的语音。输入音乐电平被闪避到比语音电平低11dB的电平。因为输入音乐电平是-35dBu(低于输入语音电平)，所以输出音乐波形330的电平被闪避3dB到-38dBu。

在时间间隔t＝55到t＝65期间，输入语音波形310指示不存在语音(近似-90dBu输入电平)。在此周期期间，不发生闪避，且输出音乐波形330的电平恢复到输入音乐波形320的电平。在时间t＝60处，输入音乐电平和对应地输出音乐电平降低到-75dBu。在时间周期t＝65到t＝70期间，输入语音波形310指示存在-15dBu的电平的语音。因为输入音乐电平已经比语音电平低11dB以上，所以不发生闪避。在时间周期t＝70到t＝80期间，不存在语音(近似-90dBu输入电平)，且输出音乐电平保持在-75dBu的输入音乐电平。在时间周期t＝80到t＝85期间，输入语音波形310指示存在-27dBu的较轻电平的语音。再次，输入音乐电平已经比语音电平低11dB以上，且不发生闪避。最后，在时间周期t＝85到t＝90期间，不存在语音(近似-90dBu输入电平)，且输出音乐电平保持在-75dBu的输入音乐电平。

注意，输出音乐波形330指示t＝5、t＝20和t＝50处施加闪避时的快速起音时间，如由相对较短的下降时间说明。输出音乐波形330指示t＝10、t＝25和t＝55处释放闪避时的较慢释放时间，如由较长的上升时间说明。快速起音功能允许语音信号快速地行进通过收听装置以避免截断语音信号的初始部分。长的释放功能允许音频闪避慢慢地释放，从而给收听者提供较不刺耳的体验，且允许在完全释放闪避功能之前的语音期间存在短的间隙和停顿。

图4A到4B陈述根据各个实施方案的用于处理娱乐信号和警报信号的方法步骤的流程图。虽然方法步骤是结合图1到3的系统加以描述，但是所属领域技术人员将了解，被配置来以任何次序执行方法步骤的任何系统均是在本公开内容的范围内。

如所示，方法400开始于步骤402处，其中声音环境处理器130经由麦克风输入105接收环境声音且经由音频输入110接收娱乐信号。环境声音表示收听者的环境中存在的声音。娱乐信号表示由收听者选择的音乐或其它音频，诸如来自音频播放装置的音乐。在步骤404处，声音环境处理器130对环境声音执行降噪以消除来自麦克风输入105信号的低电平稳定状态的声音，诸如交通噪声和低电平麦克风嘶嘶声。在步骤406处，麦克风RMS检测器145计算经由语音分离器135接收的语音分离声音的RMS电平。在步骤408处，音频输入RMS检测器150计算经由音频输入110接收的娱乐信号的RMS电平。

在步骤410处，语音分离器135检测到麦克风输入信号中存在潜在警报信号，诸如人类语音。在一些实施方案中，语音分离器135可以通过施加第一带通滤波器于麦克风输入信号以生成滤波麦克风输入信号来执行此功能。语音分离器135可以计算与滤波麦克风输入信号相关的RMS电平。如果此RMS超过阈值电平，那么麦克风输入信号中可以存在警报信号。

在步骤412处，环境分离器140检测到麦克风输入信号中存在环境噪声，诸如背景施工噪声或背景谈话噪声。如果环境噪声太响亮或不规则而不能被降噪滤波，那么此环境声音可以仍然存在于麦克风输入信号中。在一些实施方案中，环境分离器140可以通过施加第二带通滤波器于麦克风输入信号以生成滤波麦克风输入信号来执行此功能。环境分离器140可以计算与滤波麦克风输入信号相关的RMS电平。第一和第二带通滤波器可以具有相同频率响应，但是环境RMS检测的响应时间可能慢于麦克风输入RMS检测的响应时间。

在步骤414处，语音活动检测器155确定潜在警报信号(诸如语音或人类语音)的RMS电平是否超过环境声音的RMS电平。如果关注信号的RMS电平不超过环境声音的RMS电平，那么方法400进行到上述步骤402。另一方面，如果关注信号的RMS电平超过环境声音的RMS电平，那么方法400进行到步骤414，其中语音活动检测器155确定潜在警报信号(诸如语音或人类语音)的RMS电平是否超过闪避器阈值电平。如果关注信号的RMS电平不超过闪避器阈值电平，那么方法400进行到上文描述的步骤402。另一方面，如果关注信号的RMS电平超过闪避器阈值电平，那么方法400进行到步骤418，其中基于比率的衰减器165确定麦克风输入105的RMS电平是否超过音频输入110的RMS电平达至少目标差，诸如语音音乐比(VMR)。在一些实施方案中，目标差可以是固定值。在其它实施方案中，目标差可以是用户可调的，或可以取决于娱乐信号电平或警报信号电平。如果麦克风输入105的RMS电平超过音频输入110的RMS电平达至少VMR，那么方法400进行到上述步骤402。另一方面，如果麦克风输入105的RMS电平不超过音频输入110的RMS电平达至少目标差，那么方法400进行到步骤420，其中基于比率的衰减器165计算音频输入110的降低大小使得麦克风输入105的RMS电平等于音频输入的RMS电平加上目标差。

在步骤422处，起音/释放逻辑170施加起音/释放曲线于音频输入110。在一些实施方案中，起音/释放逻辑170可以在首先检测到警报信号的存在或消除时施加快速起音/慢释放曲线。起音/释放逻辑170可以在警报信号存在达最小持续时间时施加较慢起音/较慢释放曲线。在步骤424处，压控放大器175基于先前步骤中确定的闪避电平衰减音频输入110。在步骤426处，混音器180组合经降噪麦克风输入和经衰减音频输入。

在步骤428处，智能系统监测器160确定麦克风输入105中不再存在警报信号。在步骤430处，智能系统监测器160将音频输入110的音频电平维持在衰减电平达最小持续时间。在步骤432处，在经过最小持续时间之后，智能系统监测器160使音频输入110的音频电平增加到经预调整电平。方法400然后进行到上述步骤402。在各个实施方案中，方法400的步骤可以连续循环执行直到发生某些事件(诸如包括音频处理系统100的装置断电)为止。

总之，音频处理系统100组合环境声音和娱乐信号(诸如来自音频播放装置的音乐)，从而允许收听者在环境声音中存在警报信号(诸如语音)时继续听到相对于环境声音电平有所降低的娱乐信号。基于娱乐信号和警报信号的电平，音频处理系统100将娱乐信号衰减或闪避到只足以保证警报信号可理解且娱乐信号衰减程度不大于所必需程度。音频处理系统100通常经由用户控制接收目标语音音乐比(VMR)。音频处理系统100将娱乐信号衰减到刚好足以维持此目标VMR比。在无最终用户输入或介入的情况下，音频处理系统100智能地自动检测嘈杂、响亮且复杂的声音环境中存在警报信号。

本文中描述的方法的至少一个优点是，使用所公开的装备有音频处理系统100的收听装置的收听者听到来自音频播放装置的高品质音频信号加上来自环境声音的某些警报信号，同时相对于警报信号抑制来自环境声音的其它声音。只有当环境声音中存在警报信号时才降低娱乐信号，且只降低到听到警报信号所必需的程度。结果，收听者听到来自环境的警报信号连同相对于先前方法有所改善的娱乐信号，从而为收听者产生更好品质的音频体验。

各个实施方案的描述是为了说明目的而呈现，但是不旨在详尽或限于所公开的实施方案。在不脱离所述实施方案的范围和精神的情况下，所属领域一般技术人员将明白许多修改和变动。

本实施方案的方面可以体现为一种系统、方法或计算机程序产品。因此，本公开内容的方面可以呈完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微码等等)或组合通常在本文中可以全部称作“电路”“模块”或“系统”的软件和硬件方面的实施方案的形式。此外，本公开内容的方面可以呈以其上体现有计算机可读程序代码的一个或多个计算机可读介质体现的计算机程序产品的形式。

可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是(例如，但不限于)电子、磁、光学、电磁、红外线或半导体系统、设备或装置或前述各项的任何合适组合。计算机可读存储介质的更多具体实例(非详尽列表)将包括以下各项：具有一根或多根电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述各项的任何合适组合。在此文件的背景中，计算机可读存储介质可以是可包括或存储由指令执行系统、设备或装置使用或结合指令执行系统、设备或装置一起使用的程序的任何有形介质。

根据本公开内容的实施方案，上文参考方法、设备(系统)和计算机程序产品的流程图说明和/或方框图描述本公开内容的方面。将了解，可通过计算机程序指令实施流程图说明和/或方框图的每一方框和流程图说明和/或方框图中的方框的组合。可以将这些计算机程序指令提供到通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器，使得经由计算机或其它可编程数据处理设备的处理器执行的指令能够实施流程图和/或方框图一个或多个方框中指定的功能/动作。此类处理器可以是(但不限于)通用处理器、专用处理器、特定应用处理器或现场可编程。

附图中的流程图和方框图说明根据本公开内容的各个实施方案的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在这方面，流程图或方框图中的每一方框可以表示代码的模块、区段或部分，其包括用于实施所指定的逻辑功能的一个或多个可执行指令。还应注意在一些替代实施方式中，方框中注明的功能可以不按附图中注明的次序发生。例如且无限制，取决于所涉及的功能性，连续展示的两个方框实际上可以实质上同时执行或方框有时可以按相反次序执行。还将注意，方框图和/或流程图说明中的每一方框和方框图和/或流程图说明中的方框的组合可由专用的基于硬件的系统实施，所述系统执行所指定的功能或动作或专用硬件和计算机指令的组合。

虽然前文是针对本公开内容的实施方案，但是在不脱离本公开内容的基本范围的情况可以设想出本公开内容的其它和进一步实施方案，且本公开内容的范围是由以下权利要求确定。

Claims

1.一种音频处理系统，其包括：

输入装置，其被配置来接收发射自环境且包括关注信号的第一音频信号；

语音活动检测器，其被配置来响应于所述第一音频信号生成第一控制信号；和

基于比率的衰减器，其被配置来：

接收所述第一控制信号，

确定与所述第一音频信号相关的第一信号电平是否超过与接收自音频播放装置的第二音频信号相关的第二信号电平达至少目标差，且

如果所述第一信号电平超过所述第二信号电平达至少目标差，那么维持所述第二音频信号的音频电平，且

如果所述第一信号电平不超过所述第二信号电平达至少所述目标差，那么使所述第二音频信号的所述音频电平从第一值调整为第二值，其中在所述第二值处，所述第一信号电平超过所述第二信号电平达至少所述目标差。

2.根据权利要求1所述的音频处理系统，其还包括声音环境分析器，所述声音环境分析器被配置来对所述第一音频信号执行一个或多个降噪操作以从所述第一音频信号消除噪声信号。

3.根据权利要求1所述的音频处理系统，其还包括语音分离器，所述语音分离器被配置来：

施加第一带通滤波器于所述第一音频信号以生成第一滤波音频信号；

计算与所述第一滤波音频信号相关的第三信号电平；且

基于所述第三信号电平生成第二控制信号。

4.根据权利要求3所述的音频处理系统，其还包括环境分离器，所述环境分离器被配置来：

施加第二带通滤波器于所述第一音频信号以生成第二滤波音频信号；

计算与所述第二滤波音频信号相关的第四信号电平；且

基于所述第四信号电平生成第三控制信号。

5.根据权利要求4所述的音频处理系统，其中所述第一带通滤波器和所述第二带通滤波器具有实质上相同频率范围。

6.根据权利要求4所述的音频处理系统，其中所述语音活动检测器还被配置来：

从所述语音分离器接收所述第二控制信号；

从所述环境分离器接收所述第三控制信号；且

当所述第二控制信号超过所述第三控制信号和闪避器阈值中的至少一个时确定所述第一音频信号中存在所述关注信号。

7.根据权利要求1所述的音频处理系统，其还包括：

第一信号电平检测器，其被配置来计算所述第一信号电平；和

第二信号电平检测器，其被配置来计算所述第二信号电平。

8.根据权利要求1所述的音频处理系统，其还包括智能系统监测器，所述智能系统监测器被配置来：

确定已调整所述第二音频信号的所述音频电平；

随后确定所述第一音频信号中不再存在所述关注信号；

将所述第二音频信号的所述音频电平维持在所述第二电平处达阈值持续时间；且

在经过所述阈值持续时间之后，使所述第二音频信号的所述音频电平增加到所述第一电平。

9.根据权利要求1所述的音频处理系统，其还包括起音/释放逻辑，所述起音/释放逻辑被配置来：

当首先检测到所述关注信号的存在或消除时施加第一起音/释放曲线于所述第二音频信号；且

当检测到所述关注信号的存在达阈值持续时间时施加第二起音/释放曲线于所述第二音频信号。

10.根据权利要求1所述的音频处理系统，其中所述基于比率的衰减器还被配置来生成指示所述第二音频电平将要被调整的大小的第二控制信号，且还包括压控放大器，所述压控放大器被配置来基于所述第二控制信号衰减所述第二音频信号以生成第三音频信号。

11.根据权利要求1所述的音频处理系统，其还包括混音器，所述混音器被配置来：

组合所述第一音频信号与所述第三音频信号以生成输出信号；且

将所述输出信号传输到扬声器。

12.一种用于处理娱乐信号和警报信号的方法，所述方法包括：

接收发射自环境且包括关注信号的第一音频信号；

检测所述第一音频信号中存在关注信号；

确定与所述第一音频信号相关的第一信号电平是否超过与接收自音频播放装置的第二音频信号相关的第二信号电平达至少目标差，和

13.根据权利要求12所述的方法，其还包括：

计算与所述第一滤波音频信号相关的第三信号电平；

计算与所述第二滤波音频信号相关的第四信号电平；和

当所述第三信号电平超过所述第二信号电平和闪避器阈值中的至少一个时确定所述第一音频信号中存在所述关注信号。

14.根据权利要求13所述的方法，其中所述第一带通滤波器和所述第二带通滤波器具有实质上相同频率范围。

15.根据权利要求12所述的方法，其中所述第一信号电平超过所述第二信号电平达至少所述目标差，且所述方法还包括：

确定所述第二信号电平已从第三值增加到第四值；

确定在所述第四值处，所述第一信号电平不超过所述第二信号电平达至少所述目标差；和

使所述第二音频信号的所述音频电平从第五值调整到第六值，其中在所述第六值处，所述第一信号电平超过所述第二信号电平达至少所述目标差。

16.根据权利要求12所述的方法，其中所述第一信号电平不超过所述第二信号电平达至少所述目标差，且所述方法还包括：

确定所述第一信号电平已从第三值增加到第四值；

确定在所述第四值处，所述第一信号电平超过所述第二信号电平达至少所述目标差；和

使所述第二音频信号的所述音频电平从所述第二值调整到所述第一值。

17.根据权利要求12所述的方法，其中所述第一信号电平不超过所述第二信号电平达至少所述目标差，且所述方法还包括：

确定所述第一信号电平已从第三值下降到第四值；和

使所述第二音频信号的所述音频电平从所述第二值调整到第五值，其中在所述第五值处，所述第一信号电平超过所述第二信号电平达至少所述目标差。