CN112470219A

CN112470219A - 压缩机目标曲线以避免增强噪声

Info

Publication number: CN112470219A
Application number: CN201980048767.2A
Authority: CN
Inventors: 王忠进; A·P·雷利; M·W·梅森
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2018-07-25
Filing date: 2019-07-18
Publication date: 2021-03-09
Anticipated expiration: 2039-07-18
Also published as: EP3827429A4; EP3827429A1; US11894006B2; US20210233548A1; CN112470219B; WO2020020043A1

Abstract

提供回放期间的音频信号处理，以使得低于指定阈值响度电平的音频信号被处理以避免使得不想要的背景噪声能够被听到。从回放音量控制器/调节器(101)接收n声道音频；将音频的电平与阈值电平进行比较；如果该电平大于阈值电平，则根据针对专业制作的音频进行调谐的第一动态范围控制(DRC)压缩曲线，以第一增益量处理音频；如果该电平小于或等于阈值电平，则根据第二DRC压缩曲线以第二增益量处理音频，该第二DRC压缩曲线被设计成避免增强不想要的背景噪声。将增益应用于音频后，音频被发送到下游设备。

Description

压缩机目标曲线以避免增强噪声

相关申请的交叉引用

本申请要求于2018年7月25日提交的美国临时专利申请号62/703,023的优先权，其全部内容通过引用合并于此。

技术领域

本说明书一般地涉及音频信号处理，尤其涉及响度控制、自动增益控制(AGC)和动态范围控制(DRC)。

背景技术

音频的电平和动态范围受追踪、混合、控制和编码的记录过程影响。回放期间，电平和动态范围还会受到听者的声学环境、周边噪声电平、回放设施的质量以及听者的个人喜好的影响。

发明内容

本文公开的实施例针对回放期间的音频信号的处理，使得处理低于指定阈值响度电平的音频信号被处理以避免使得不想要的背景噪声能被听到。

在一个实施例中，从回放音量控制器/调节器接收n声道音频。将音频电平与阈值电平进行比较。如果该电平大于阈值电平，则根据针对专业制作的音频而调整的第一动态范围控制(DRC)压缩曲线，以第一增益量处理音频。如果该电平小于或等于阈值电平，则根据第二DRC压缩曲线以第二增益量处理音频，该第二DRC压缩曲线旨在避免增强不想要的背景噪声。将增益应用于音频后，音频被发送到下游设备。

在一个实施例中，接收音频信号并且确定音频信号的频谱带。确定频谱带的偏度并且至少部分地基于该偏度来估计音频信号的噪声基底。至少部分地基于偏度和听觉场景分析(ASA)事件值来确定噪声可能性值。ASA事件值指示一个或多个频谱带中频谱内容的变化。噪声可能性值用于确定该音频信号中是否存在不想要的噪声。根据确定音频信号中存在不想要的噪声，调整自动增益控制(AGC)或动态范围控制(DRC)中的多个参数或之一，并将AGC或DRC中的至少一者应用于音频信号，以避免增加不想要的噪声。

本文公开的特定实施例提供以下优点中的一个或多个。所公开的实施例限制了由回放音量控制器/调节器提供的n声道音频的AGC和/或DRC处理，使得压缩增强不被应用于低于指定阈值电平的信号。在一个实施例中，将阈值电平设置为低于在典型的收听环境中可以合理预期听到专业制作的内容的最安静的信号电平。低于该阈值电平，目标增益为零(无增强)。由于在典型的收听环境中听不到低于阈值的信号，因此没有必要主动去除这些信号。作为回放音量控制器/调节器一部分的增益滤波和平滑机制不受n声道音频的DRC和AGC处理限制的影响。所产生的输出音频具有均匀且一致的音量，具有声音平衡，并且没有可听见的副效应或不想要的背景噪声，无论该音频是否是专业制作的。

附图说明

通过以下参考附图的详细描述，本公开的实施例的上述和其他目的、特征和优点将变得更加可理解。在附图中，将以示例且非限制性的方式示出本公开的几个示例实施例，

其中：

图1是根据实施例的避免增强不想要的噪声的回放音量控制器/调节器系统的框图。

图2A是根据实施例的包括噪声信号识别和分类系统的回放音量控制器/调节器系统的框图。

图2B是根据实施例的图2A的噪声/噪声电平检测器的框图。

图3是根据实施例的输出响度对输入响度的曲线图，示出了AGC和DRC对信号响度的影响。

图4是根据实施例的图1的DRC增强和DRC削减分量的曲线图，归一化到操作点附近的零增益。

图5是根据实施例的图2的DRC增益曲线的变型，示出了在低信号电平下的额外拐点，其被引入以避免增强不想要的背景噪声。

图6是根据实施例的图5的DRC增益曲线的变型，示出了为避免增强背景噪声而引入的低信号电平处的两个额外拐点。

图7是根据实施例的应用DRC压缩机曲线以避免增强不想要的背景噪声的过程的流程图。

图8是根据实施例的用于实现参考图1至图7描述的特征和过程的系统架构。

具体实施方式

现在将参考附图中示出的各种示例实施例来描述本公开的原理。应当理解，对这些实施例的描绘仅是为了使本领域技术人员能够更好地理解和进一步实施本发明，而不意图以任何方式限制本发明的范围。

在附图中，以框图、流程图和其他图示出了本公开的各种实施例。流程图或框图中的每个框可以表示模块、程序或代码的一部分，其包含用于执行指定的逻辑功能的一个或多个可执行指令。尽管以用于执行方法步骤的特定顺序示出了这些框，但是不一定严格按照所示顺序来执行它们。例如，取决于相应操作的性质，它们可以相反顺序执行或同时执行。还应该注意的是框图和/或流程图中的每个框及其组合可以通过用于执行指定功能/操作的基于专用软件或基于硬件的系统来实现，或者可以由专用硬件和计算机指令的组合来实现。

除非上下文清楚地另外要求，否则在整个说明书和权利要求书中，词语“包括”，“包含”等应理解为包含性含义，而不是排他性或穷举性含义；也就是说，在“包括但不限于”的意义上。使用单数或复数的词也分别包括复数或单数。另外，词语“在此”，“在此之下”，“在上方”，“在下方”和类似含义的词语整体上是指本申请，而不是本申请的任何特定部分。当单词“或”用于指两个或多个项的列表时，该词涵盖该单词的以下所有解释：列表中的任何项、列表中的所有项以及列表中项的任意组合。

概述

在音频记录环境中，声音以一定的声压电平(SPL)产生，并使用具有特定灵敏度特性的麦克风进行记录，这些灵敏度特性是特定于频率或方向的。麦克风记录的信号电平也会受到与产生声音的物体之间距离的影响。可以根据峰值来测量信号电平，但是更常见和实用的是，它以标准刻度(SPL的分贝)分贝(dB)的形式记录为SPL。在此对数刻度上，空气中的0dB SPL或20μPa对应于人类听力的可接受阈值。海平面的上限是大气压191dB SPL，这会震耳欲聋。例如，在100米处的喷气发动机可能高达140dB SPL。1米处的正常通话通常约为40-60dB SPL。

当在同一环境中记录多个声音，或者分别记录后混合在一起时，最安静的声音和最响的声音之间的电平差称为动态范围。在完全安静的环境中，可以预期听到的动态声音范围要比在许多普通的收听环境中舒适地听到的声音动态范围大得多，在这种情况下，扬声器系统的功能不足以产生极高的声压级且背景周边噪声不足以显示出较安静的声音。任何比周边声音安静的声音都会被该声音掩盖。

多年来，音频处理社区内部已经开发了DRC或动态处理技术，这些技术可使静音的声音足够响亮以在收听环境中听到，响亮的声音足够安静以使人感到舒适，防止有限范围扬声器系统中的失真并确保平均音量电平是听者喜欢的。通常将平均音量电平设置为人类对话电平，因为人类对话电平是在大多数记录情况下的稳定的参考音量电平，并且人类期望对话会在现实电平发生。

动态处理有许多困难，因为人类的听觉是复杂且非线性的。响度感与频率有关，并且已经观察到，较大的声音将掩盖频率附近的较安静的声音。普遍使用的一种特别复杂且成功的动态处理系统是Dolby

其细节在例如美国专利号8,144,881和8,437,482中进行了描述。

大多数动态处理系统，包括Dolby

已被设计成处理包括电影院音轨或商业音乐记录的专业制作的记录。在将这些记录作为完成的记录交付给消费者之前，通常会仔细追踪、编辑、处理和控制这些记录。这些记录中的每一个声音都是故意存在的，并且创作者旨在使用理想的再现设施在理想的收听环境中听到声音。因此，当音频被压缩时，最低电平的记录信号被增强并且最高电平的记录信号在记录介质的极限处(称为“满刻度”)被减小。

所公开的实施例解决的问题是，用户再现未由敏感的专业设施制作，也未由专业声音工程师编辑和控制的记录变得越来越普遍。这些信号的共同特征是不想要的背景噪声。例如，当在舞台上专业地记录电影演员时，背景噪声非常低，麦克风的声学和电子增益很高，因此记录中几乎没有背景噪声。相比之下，当记者采访街道上感兴趣的人时，或者当播客制作人记录要发布到社交媒体上的讨论时，他们可能会使用噪声电平相对较高的麦克风，并捕获周边室内噪声，例如室内空调噪声。在该记录中，这种周边噪声可能实际上是听不见的，尤其是在类似空调的环境中收听时。但是，如果记录是由动态范围压缩系统处理的，那么安静的背景噪声将被放大。这种放大会将背景噪声提高到不再听不见的电平，甚至会变得不愉快或令人讨厌，因为它的电平将更接近语音分量的电平。

解决该问题的先前尝试集中在识别输入信号中的噪声并明确抑制(门控)噪声，以便将压缩机增益应用于静音，从而导致静音。这是对自动执行专业的控制工程师将进行的信号处理的尝试。但是，这种方法有两个问题。例如，在实践中和理论上都难以进行自动噪声检测。此外，检测算法通常会有一些延迟，导致在抑制噪声和当噪声过渡为信号时释放门两者时，门控应用得太晚。这些门效应通常是可感知的并且令人不愉快的。还尝试了门控的更复杂的替代方案(如，例如谱减法)，但是这些替代方案还具有不想要的声学效果，包括可听和音调失真。

代替检测和抑制噪声，所公开的实施例限制了AGC和/或DRC处理，使得压缩增强不应用于低于指定阈值电平的信号。将该电平设置为低于可以在典型房间(即，未经处理的房间)合理预期听到专业制作的内容的最安静的信号电平。低于该电平，目标增益为零(无增强)。由于在典型的收听环境中听不到信号，因此没有必要主动去除低于阈值的信号。如Dolby

等压缩和调节系统的一部分的增益滤波和平滑机制仍将使过渡平滑，以确保音频中没有明显的不连续性。

在实施例中，如果期望继续使用AGC处理来提高极其安静的信号的电平，对于低于低电平拐点的信号，将DRC增益设置为AGC增益的倒数，以避免AGC处理导致的噪声放大。

在实施例中，在最小跟随器机制下，在观察到的音频信号的历史上，动态地计算阈值，低于该阈值被认为是不想要的噪声。

在另一个实施例中，阈值是常数，其通过点对点(adhoc)调谐从经验上确定以适当地区分想要的信号和不想要的信号而确定。

在另一个实施例中，基于响度调节器已被调谐为专业制作的音频的假设，使用音频输入是专业制作的电影内容(例如，具有5.1或更多的声道)或指示专业制作的特殊元数据的知识来使该新阈值机制无效或失效。

在另一个实施例中，使用信号识别和分类系统来区分不想要的噪声和想要的音频信号，并调整DRC压缩曲线中一个或多个低电平拐点的位置以及应当应用于低于该(多个)拐点的音频信号的增益量。

在另一个实施例中，使用语音活动检测器(VAD)来检测音频信号中的语音。检测到的语音用于选择DRC压缩曲线，以避免增强不想要的背景噪声。

示例系统

图1是根据实施例的避免增强不想要的噪声的回放音量控制器/调节器系统100的框图。系统100包括回放音量控制器101、AGC 102、DRC 103、约束/组合模块104、增益调节器105、音频质量检测器106、以及可选地DRC压缩曲线选择器107和存储设备108(例如，闪存)。

n声道音频被输入到回放音量控制器/调节器101。在实施例中，回放音量控制器/调节器101是Dolby

回放音量控制器/调节器101被设计用于使音量电平均匀，以提供一致的音量电平，同时保持音频的声音平衡，而没有可听见的副效应，例如失真。回放音量控制器/调节器101的输出被输入到AGC 102和DRC 103中。

AGC 102在逐样本的基础上提高或降低音频的增益，以使音频响度保持在给定的静态目标(以下称为“AGC目标”电平)上。DRC 103通过在保持或扩大音频的较安静段的输出音量电平的同时降低(压缩)音频的较大段的输出音量电平，从而根据DRC压缩曲线来减小音频的动态范围。AGC 102和DRC 103的输出被输入到约束/组合模块104中。

约束/组合模块104约束并组合由AGC 102和DRC 103输出的增益，如参考图3所述。约束/组合模块104的输出是增益，其由增益调节器105应用到n声道音频以削减或增强n声道音频，其中n是大于零的正整数。

在实施例中，将n声道音频输入到音频质量检测器106，该音频质量检测器106确定音频是否是专业制作的(例如，没有不想要的背景噪声)。例如，音频质量检测器106确定n声道音频是否具有指示多声道(例如，环绕声)记录的两个或更多个声道(n>2)，例如，5.1或更高，其通常是由专业音频工程师为电影应用创建的环绕声格式。在另一个实施例中，音频的元数据用于确定音频的质量。音频质量检测器106的输出是指示音频质量的信号、布尔值或数据。基于该输出，DRC压缩曲线选择器107从存储设备108检索合适的DRC压缩曲线，并将其发送到DRC 103，从而根据所选择的DRC压缩曲线将压缩应用于音频。例如，如果音频是专业制作的，则根据图4所示的DRM压缩曲线来压缩音频。然而，如果该音频不是专业制作的，则根据图5和图6所示的DRM压缩曲线之一来压缩音频。如本文所使用的，“DRC压缩曲线”包括向下和向上压缩，其中向下压缩减小高于阈值电平的响亮声音，而安静的声音保持不受影响，并且向上压缩增加低于阈值电平的声音的响度，同时保持响亮的声音不受影响。

噪声/噪声电平检测器示例

图2A是根据实施例的包括噪声信号识别和分类系统的回放音量控制器/调节器系统200的框图。系统200包括用于提供噪声信号识别和分类的回放音量控制器/调节器101、AGC 102、DRC 103、约束/组合模块104、增益调节器105和噪声/噪声电平检测器201。回放音量控制器/调节器101、AGC 102、DRC 103、约束/组合模块104和增益调节器105的操作如图1所示，不再赘述。在实施例中，系统200还包括音频质量检测器106、选择器107和存储设备108，其操作如参考图1所述。

在实施例中，噪声/噪声电平检测器201从回放音量控制器/调节器101接收n声道音频和听觉场景分析(ASA)事件值，并使用最小跟随器机制和噪声可能性值确定音频信号的噪声基底，以识别错误的噪声检测。使用噪声/噪声电平201检测器的输出来确定是否将AGC和/或DRC应用于回放音量控制器/调节器的输出，并设置阈值电平，低于该阈值电平不应用压缩增强。

图2B是根据实施例的图2A的噪声/噪声电平检测器201的框图。噪声/噪声电平检测器201包括频谱偏度模块202、噪声可能性模块203、噪声基底追踪模块204、噪声权重模块205和加权噪声可能性模块206。

频谱偏度模块202基于音频信号的频谱带计算频谱偏度。在实施例中，计算跨频谱带的平均能量的均值和标准偏差，并将其用于计算谱幅度的第三矩。作为频谱偏度，第三矩量化了音频频谱的形状。

在实施例中，噪声可能性模块203基于音频频谱的偏度和由回放音量控制器/调节器101提供的ASA事件值来确定噪声可能性值。在实施例中，如美国专利号8,144,881(“’881专利”)中所述确定ASA事件值。如’881专利中所述，可以通过将时域音频信号划分为时间间隔或块，然后使用滤波器组或时频变换诸如快速傅里叶变换(FFT)将每个块中的数据转换到频域，来实现听觉事件检测。每个块的频谱内容的幅度可以被归一化以消除或减小幅度变化的影响。每个结果频域表示形式提供了特定块中音频的频谱内容的指示。比较连续块的频谱内容，并且可以采用大于阈值的变化来指示听觉事件的时间开始或时间结束。

优选地，归一化频域数据。频域数据需要归一化的程度给出了幅度的指示。因此，如果该程度的变化超过预定阈值，则也可以采用该变化来指示事件边界。可以将谱变化和幅度变化导致的事件起点和终点进行“或”运算，以便识别出每种变化类型导致的事件边界。

在实施例中，噪声/噪声电平检测器201使用以下逻辑来确定噪声可能性值(noise_possibility)。

根据上述逻辑，计数器("counter")被初始化为零。如果ASA事件值小于event_threshold，频谱偏度小于skewness_threshold，并且ASA事件值小于最后一帧ASA事件值，则计数器加1。否则，计数器不增加。如果counter大于counter_threshold，则noise_possibility值等于最后一个帧的noise_possibility值乘以第一平滑因子(smooth_factor1)加上1减去smooth_factor1乘以整数1。否则，noise_possibility值等于最后一帧noise_possibility值乘以第二平滑因子(smooth_factor2)。在实施例中，counter_threshold对应时间是约0.1s，这对于回放是可接受的延迟。可以根据经验确定和调整上述阈值和平滑因子。在一个实施例中，可以对noise_possibility值进行加权以减少误报，如下面进一步详细描述的。

在实施例中，噪声基底追踪模块204追踪音频信号的噪声基底。估计的噪声基底用于设置阈值电平，低于该阈值电平不执行压缩增强。噪声基底也用于运算权重计算的信噪比(SNR)值，如以下进一步详细描述。传统的最小跟踪算法(在本文中，也称为“最小跟随器”)通常会估计音乐或电影内容的本底噪声过高。一种改进的解决方案跟踪每个频谱带的最小值作为噪声基底，并在检测到重置标志时重置该最小值。用于计算和重置最小值的逻辑如下。

当音频内容从专业制作的内容切换到非专业制作的内容(例如，移动记录的内容)时，条件语句(ASA事件值<track_back_asa_threshold和偏度<track_back_skewness_threshold)允许快速追踪噪声基底。通常在回放专业内容或暂停/停止内容回放时重置每个带的最小值。在这段时间里，内容更像是静音。重置操作允许在切换内容场景中快速追踪噪声基底。在实施例中，每个带的最小值被用作阈值，低于该阈值不执行压缩增强，如参考图1所述。可以凭经验确定上述因子f1和f2以及阈值。

在实施例中，噪声权重计算模块205确定在低频带(例如，大约100Hz)和高频带(例如，大约1kHz)之间的能量差。对于大多数非专业制作的内容，不想要的噪声包络具有稳定的滚降。对于专业制作的内容中的预期噪声，滚降是不稳定的。

在实施例中，通过diff_energy＝低频带能量–高频带能量，来给出低频带和高频带的差(diff_energy)。使用S形函数S(·)，使用以下逻辑来确定第一噪声权重(noise_weight1)：noise_weight1＝S((diff_energy-diff_threshold)*k1)，其中diff_threshold是调谐参数，k1是用来控制开关速度的因子。

在实施例中，噪声权重模块205基于音频信号的SNR来确定第二噪声权重(noise_weight2)。SNR是确定内容是专业还是非专业的有用度量，特别是SNR可用于确定低质量内容或高质量内容中是否存在噪声。在实施例中，SNR被确定为音频信号的当前响度除以噪声基底追踪模块204输出的最小追踪噪声响度的比率。使用S形函数S(·)，使用以下逻辑来确定noise_weight2：noise_weight2＝S((SNR-snr_threshold)*)k2)，其中snr_threshold是调谐参数，k2是用于控制开关速度的因子。

加权的noise_possibility值(noise_possibility_w)由下式给出：noise_possibility_w＝noise_possibility*noise_weight1*noise_weight2，用于减少误报噪声检测。

在实施例中，检测到的噪声历史被用作长时间机制，以进一步减少对专业制作的内容的误报噪声检测。播放具有几秒钟非常低电平背景声音_例如电视雪花声、旧转盘噪声等_的专业制作内容时，仍会出现误报噪声检测。以下逻辑为noise_possibility值确定第三噪声权重(noise_weight3)，如下所示：

在实施例中，fade_factor用于减小噪声可能性，并且是根据经验确定的。时间段N和因子f3、f4和f5是凭经验确定的。如果条件(noise_count*f1<non_noise_count)为真，则认为该内容是专业制作的内容。

DRM压缩曲线示例

图3是根据实施例的输出响度对输入响度的曲线图，示出了AGC和DRC对输出音频响度的影响。虚线301示出了在没有AGC和DRC处理的情况下音频信号的输入响度(logsone，宋)和输出响度(log sone，宋)之间的线性关系。AGC曲线302示出了应用于低于AGC目标电平303的信号的渐进增益(“AGC增强”)以及应用于具有高于AGC目标电平303的电平的信号的渐进衰减(“AGC削减”)。DRC曲线304围绕AGC目标303定义了带305，在该带上信号未发生变化，但比第一阈值T2响亮的信号会被应用衰减(“DRC削减”)，且比第二阈值T1安静的信号会被应用增益(“DRC增强”)。对于所有输入电平，此结果输出电平比原始输入音频信号更接近AGC目标电平303。

图4是示出根据实施例的图3的DRC增强和DRC削减分量的DRC曲线图，归一化到操作点附近的零增益。如图所示，随着输入信号的响度增加，应用不同的拐点(例如，硬拐点或软拐点)。例如，对于低于T1的输入响度，将最大增强拐点应用于音频信号；对于T1和T2之间的输入响度，将低增强拐点应用于音频信号；对于T2和T3之间的输入响度，将低零拐点应用于音频信号；对于T3和T4之间的输入响度，不执行DRC处理；对于T4和T5之间的输入响度，将高零拐点应用于音频信号；对于T5和T6之间的输入响度，将低削减拐点应用于音频信号；对于大于T6的输入响度，将最大削减拐点应用于音频信号。从图4可以看出，低于T1的信号被增强。如果音频包含背景噪声(例如空调噪声)，则最大增强拐点会增加噪声，从而放大噪声，使听者可以听到。为了解决这个问题，将额外的拐点添加到图4的DRC曲线，如图5所示。

图5是根据实施例的图2的DRC增益曲线的变型，示出了在低信号电平下的额外拐点，其被引入以避免增强背景噪声。如图所示，没有将增益(增强)应用于响度低于T1的输入信号，以避免压缩增强不想要的背景噪声。在所示的实施例中，低于T1有轻微的渐进的信号增强，因此较安静的信号仍被略微增强。斜坡的斜率可以凭经验确定。在实施例中，将电平阈值T1设置为低于可以在典型房间(即，未经处理的房间)合理预期听到专业制作的内容的最安静的信号电平。低于该电平，目标增益为零(无增强)，或者目标增益为斜坡以提供渐进增强。注意，没有必要主动去除低于阈值的背景噪声(例如，使用滤波)，因为在典型的收听环境中，如果没有增强，背景噪声是不能被听到的。作为在回放音量控制器/调节器101(例如，Dolby

)中应用的压缩和调节系统的一部分的增益滤波和平滑机制仍然可以工作以平滑过渡，以确保音频中没有明显的不连续性。

在实施例中，如果期望继续使用AGC处理来提高非常安静的信号的电平，则针对低于低电平拐点500的信号，将DRC增益设置为由AGC 102提供的增益的倒数，以避免增强不想要的背景噪声。

在实施例中，使用最小跟随器机制在所观察信号的历史上动态地计算阈值电平，低于该阈值电平，输入音频被认为包括不想要的背景噪声。例如，音频信号由滤波器组(例如，改进的离散余弦变换(MDCT)、正交镜像滤波器(QMF))处理，以产生多个子带，然后参考图2B的噪声基底追踪模块204所描述的，计算跨子带随时间的平均最小能量(最低非零能量)，并将其用于计算阈值电平。

在实施例中，阈值电平是通过点对点(ad hoc)调谐凭经验确定的常数，以使用参考音频适当地区分想要的音频信号和不想要的背景噪声。

在实施例中，关于音频是专业制作的电影音频内容(例如，具有5.1或更多声道)或指示专业制作的特殊元数据的知识用于选择默认DRC压缩曲线，该默认DRC压缩曲线被设计用于专业制作的音频。

在实施例中，语音活动检测器(VAD)(未示出)用于检测音频中的语音。检测到的语音用于选择DRC压缩机曲线——诸如例如图5和图6示出的DRC压缩曲线中的一个，以避免增加不想要的背景噪声。在实施例中，VAD和音频质量检测器一起使用以确定要将哪个DRC压缩曲线应用于音频。

图6是根据实施例的图5的DRC增益曲线的变型，示出了为避免增强背景噪声而引入的两个额外的低信号电平处的拐点601、602。在该实施例中，响度低于T1的输入信号不被增强，并且响度在T1和T2之间的输入信号沿斜坡被逐渐增强到最大增益。该斜坡有助于避免输出大而突然的跳跃。

示例过程

图7是根据实施例的应用压缩机目标曲线以避免增强不想要的背景噪声的过程700的流程图。处理器700可以由例如参考图8描述的硬件架构800来实现。

过程700开始于接收n声道音频(701)。在实施例中，n声道音频由诸如Dolby

的回放音量控制器/调节器输出，该音量控制器/调节器使音频的音量均匀以提供一致的音量，同时保持音频的声音平衡而无可听见的副效应，例如失真。

过程700继续通过将音频与阈值电平(702)进行比较。在实施例中，阈值电平是根据经验确定的常数(例如，从满量程在-30dB至-60dB的范围内)。在实施例中，使用信号识别和分类来确定阈值，诸如参考图2描述的噪声电平检测器201。在实施例中，最小跟随器机制用于确定阈值电平，该阈值电平使用跨子带的平均最小能量来计算阈值电平。

过程700继续确定音频是否是专业制作的；例如，在实施例中，基于具有三个或更多声道的任何混音很可能是专业制作的环绕声音频的假设，对声道数进行计数以查看声道数是否超过两个声道。在实施例中，检查音频的元数据以确定音频是否是专业制作的。

根据输入音频是专业制作的，用为专业制作的音频设计的DRC压缩曲线处理音频(705)，诸如图4所示的DRC压缩曲线，由于在专业录音中对不想要的背景噪声进行增强的风险较低，该曲线不包括额外的拐点。这允许回放音量控制器/调节器101按照为专业制作的音频诸如多通道格式(例如5.1或更高)的电影内容而设计的那样进行操作。另外，根据输入音频不是专业制作的并且电平大于阈值(704)，用图4所示的DRC压缩曲线来处理音频。

根据输入音频不是专业制作的并且其电平小于阈值电平，使用被设计为避免在非专业录音中增强不想要的背景噪声的DRC压缩曲线处理音频(706)，诸如图5或6所示的DRC压缩曲线，它们分别包括一个或两个额外的拐点，以降低会增强音频中不想要的背景噪声诸如空调噪声的风险。在其他实施例中，可以使用多于两个拐点。

图8是根据实施例的用于实现参考图1至图7描述的特征和过程的硬件架构。架构800可以在任何电子设备中实现，包括但不限于：桌面型计算机、消费者音频/视频(AV)设施、无线电广播设施、移动设备(例如，智能电话、平板计算机、膝上型计算机、可穿戴设备)。在所示的示例实施例中，架构800用于智能电话，并且包括处理器801、外设接口802、音频子系统803、扬声器804、麦克风805、传感器806(例如，加速度计、陀螺仪、气压计、磁力计、相机)、位置处理器807(例如，GNSS接收器)、无线通信子系统808(例如，WiFi、蓝牙、蜂窝)和I/O子系统809，其包括触摸控制器810和其他输入控制器811、触摸表面812和其他输入/控制设备813。具有更多或更少组件的其他架构也可以用于实现所公开的实施例。

存储器接口814耦合到处理器801、外设接口802和存储器815(例如，闪存、RAM、ROM)。存储器815存储计算机程序指令和数据，包括但不限于：操作系统指令816、通信指令817、GUI指令818、传感器处理指令819、电话指令820、电子消息传递指令821、web浏览指令822、音频处理指令823、GNSS/导航指令824和应用/数据825。音频处理指令823包括用于执行参考图1至图7描述的音频处理的指令。

可以在用于处理数字或数字化音频文件的适当的基于计算机的声音处理网络环境中实现本文描述的系统的各方面。自适应音频系统的部分可以包括一个或多个网络，该网络包括任何期望数量的单个机器，包括一个或多个路由器(未示出)，这些路由器用于缓冲和路由在计算机之间传输的数据。这样的网络可以建立在各种不同的网络协议上，并且可以是因特网、广域网(WAN)、局域网(LAN)或其任意组合。

组件、块、过程或其他功能组件中的一个或多个可以通过控制系统的基于处理器的运算设备的执行的计算机程序来实现。还应当注意，根据它们的行为、寄存器传送、逻辑组件和/或其他特性而言，可以使用硬件、固件和/或各种机器可读或计算机可读介质中包含的数据和/或指令的任意数量的组合来描述本文公开的各种功能。可以体现这种格式化的数据和/或指令的计算机可读介质包括但不限于各种形式的物理(非暂时性)非易失性存储介质，例如光学、磁性或半导体存储介质。

尽管已经通过示例的方式并且根据特定实施例描述了一种或多种实施方式，但是应当理解，一种或多种实施例不限于所公开的实施例。相反，本发明旨在涵盖对本领域技术人员显而易见的各种修改和类似布置。因此，所附权利要求的范围应被赋予最宽泛的解释，以涵盖所有这样的修改和类似的布置。

Claims

1.一种处理音频信号的方法，包括：

从回放音量控制器/调节器接收音频；

将所述音频的电平与阈值电平进行比较；

根据所述电平大于所述阈值电平，

根据第一动态范围控制(DRC)压缩曲线处理所述音频，所述第一DRC压缩曲线指示要应用于所述音频的第一增益量；

根据所述电平小于或等于所述阈值电平，

根据第二DRC压缩曲线处理所述音频，所述第二DRC压缩曲线指示要应用于所述音频的第二增益量，其中，所述第二增益量不同于所述第一增益量；以及

将所述音频发送到下游设备。

2.根据权利要求1所述的方法，其中，所述第二增益量为零。

3.根据权利要求1所述的方法，还包括：

确定所述音频是否是专业制作的；

根据所述音频是专业制作的或所述电平高于所述阈值电平，

根据所述第一DRC压缩曲线增强或削减所述音频；和

根据所述电平不是专业制作的并且所述电平小于或等于所述阈值电平，

根据所述第二DRC压缩曲线增强或削减所述音频。

4.根据权利要求1所述的方法，其中，所述阈值电平是常数。

5.根据权利要求4所述的方法，其中，所述阈值电平在满量程的约-30dB至约-60dB的范围内。

6.根据权利要求1所述的方法，还包括：在观察到的音频信号的历史上使用最小跟随器机制动态地计算所述阈值电平。

7.根据权利要求6所述的方法，其中，在观察到的音频信号的历史上使用最小跟随器机制动态地计算所述阈值电平，还包括：

计算所述音频的频率谱，所述频率谱具有多个子带；

计算随着时间的推移跨所述子带的平均最小能量；和

至少部分地基于所述平均最小能量来计算所述阈值。

8.根据权利要求2所述的方法，其中，确定所述音频是否是专业制作的，还包括，确定所述音频的声道的数量是否大于两个。

9.根据权利要求2所述的方法，其中，确定所述音频信号是否是专业制作的还包括从所述音频的元数据确定所述音频信号是否是专业制作的。

10.根据权利要求1所述的方法，还包括：

使用信号识别和分类，在所述音频中对不想要的噪声与想要的信号进行判别；和

基于所述判别，调节在所述第一或所述第二DRC压缩曲线中一个或多个拐点的位置，以及当所述电平低于所述一个或多个拐点时应用于所述音频的增益量。

11.根据权利要求1所述的方法，其中，所述下游设备包括音频处理器、存储设备或输出设备中的至少一个。

12.根据权利要求1所述的方法，其中，在所述第二DRC压缩曲线中低于低电平拐点处，所述第二增益量被设置为应用于所述音频的自动增益控制(AGC)增益的倒数，以避免由所述AGC增强不想要的噪声。

13.根据权利要求1所述的方法，还包括：

使用语音活动检测器(VAD)检测所述音频信号中的语音，并至少部分地使用所述检测到的语音来选择所述第二DRC压缩曲线。

14.一种方法，包括：

接收音频；

确定所述音频的频谱带；

确定所述频谱带的偏度；

至少部分基于所述偏度来估计噪声基底；

至少部分地基于所述偏度和听觉场景分析(ASA)事件值来确定噪声可能性值，所述ASA事件值指示一个或多个频谱带中频谱内容的变化；

使用所述噪声可能性值来确定所述音频信号中是否存在不想要的噪声；

根据确定所述音频信号中存在不想要的噪声，

调整自动增益控制(AGC)或动态范围控制(DRC)中的至少一项的多个参数或之一；和

将所述AGC或所述DRC中的至少一项应用于所述音频信号，以避免增强所述不想要的噪声。

15.根据权利要求14所述的方法，进一步包括：

至少部分地基于所述音频信号的高频和低频的差异来确定第一噪声权重；

通过将所述第一噪声权重应用于所述噪声可能性值来确定加权噪声可能性值；

使用所述加权噪声可能性值来确定所述音频信号中是否存在不想要的噪声；

根据确定所述音频信号中存在不想要的噪声，

调整自动增益控制(AGC)或动态范围控制(DRC)中的至少一项的多个参数或之一；以及

16.根据权利要求15所述的方法，还包括：

基于所述音频信号的当前响度与所估计的噪声基底之比确定第二噪声权重；以及

通过将所述第一噪声权重和所述第二噪声权重应用于所述噪声可能性值来确定所述加权噪声可能性值。

17.根据权利要求16所述的方法，还包括：

至少部分地基于检测到的噪声历史来确定第三噪声权重；

通过将所述第一噪声权重、所述第二噪声权重和所述第三噪声权重应用于所述噪声可能性值来确定所述加权噪声可能性值。

18.根据权利要求14所述的方法，其中，所述ASA事件值是由回放音量控制器/调节器生成的。

19.一种系统，包括：

一个或多个处理器；和

非暂时性计算机可读介质，其存储计算机指令，当所述计算机指令由所述一个或多个处理器执行时，使所述一个或多个处理器执行前述权利要求1至18中任一项的操作。

20.一种非暂时性计算机可读介质，其存储计算机指令，当所述计算机指令由一个或多个处理器执行时，使所述一个或多个处理器执行前述权利要求1至18中任一项的操作。