CN108711435A

CN108711435A - 一种面向响度的高效音频控制方法

Info

Publication number: CN108711435A
Application number: CN201810541159.2A
Authority: CN
Inventors: 陈明义; 杨晓静; 王艳艳
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-10-26

Abstract

本发明阐述了一种面向响度的高效音频控制方法。随着数字电视技术的发展，越来越清晰的视频带给观众一场新的视觉体验，不一致的音频响度又使得观众不得不频繁使用遥控器调整音量。为了解决响度差异问题，提出了一种面向响度的高效音频控制方法解决方案，设计了多参数融合的响度控制算法。基于响度的音频AGC算法是对数字音频信号进行响度自动增益控制，测量输入音频响度，结合用户设置的目标响度、动态范围、背景响度测量时间等参数，确定动态增益，最后处理音频信号。有效地将输出音频的响度控制在目标范围内，并且包括噪声在内的背景音不被提升，响度控制速度快，输出音频稳定平衡不生硬，满足人们的听觉感知需要。

Description

一种面向响度的高效音频控制方法

所属技术领域

本发明属于音频控制领域，涉及一种面向响度的高效音频控制方法。

背景技术

随着模拟电视向数字电视的过渡，不同电视频道间伴音响度差异大的问题引起了全球范围内的广泛关注。在我国有线数字电视向数字化转移的过程中，电视节目伴音响度不一致的问题更为明显，用户对此抱怨很大。在听音环境中，某个节目的总响度必须保持为合适的响度，如果在多个节目或多个频道之间响度有明显的变化，让听众感到不适、甚至惊吓，观众就不得不经常地使用遥控器将音量调整到某一合适的听音电平。根据欧洲的一项调查表明，当响度变化增加3个响度单位或者下降6个响度单位时，观众按动遥控器的概率为50％，当响度变化增加5个响度单位或者下降8个响度单位时，观众按动遥控器的概率为90％以上。事实上，这已经在很大程度上影响到电视节目播出的效果。近些年来，整个音频行业对响度技术投入了越来越多的关注。音乐唱片的响度竞争、广告商业片的响度跳变以及节目间和频道间的声音忽大忽小等诸多问题，正逐渐被重视。

响度是声音的强度，但不同于客观的物理量电平。它是主观量，是人耳对声音强弱的主观判断，与信号的电平、频率成份、持续时间相关，却也与听音者个人以及听音环境有关。声压级、频率成分、持续时间是影响声音响度的主要因素，而一些生理、心理因素的差别，人们年龄、文化背景、性格等差异也会带来人们对于响度判断的差异。电平相同的信号，若频率不同，响度也会不同。因此，衡量响度的量度不同于客观量度的物理量电平，也就是说电平是客观的，而响度是主观的。

在国外，一些广播电视公司使用了杜比公司提出的元数据方案。在国内，如果广电行业所有的音频制作都遵循这一标准，那么该方法不失为一套比较完美的方法，但是从目前我国广电行业的运作模式和实际情况来看，要想大规模地全部采用杜比数字的音频标准和制作尚有一定的困难，主要原因是目前节目制作调音师的水平不齐，支持杜比数字的设备比较少。因此该方案对目前大规模迫切需求改善音频质量的广电行业来说还不适用。

改善中国广电行业的音频响度差异现状刻不容缓，所以国内相关研究人员陆续提出多种不同的方案，主要有音频AGC处理方案和响度控制器方案，AGC方案主要有基于电平和能量两种。

基于电平的音频AGC方案中最典型的就是三电平法。(参考文献：张博,刘艳竹.基于AGC方案的音频信号处理方法及FPGA实现[J].电子科技,2014(12):155-157.)三电平法可以实现以下基本的性能要求：

(1)峰值门限以上的输入音频稳定在峰值门限之下输出；

(2)处于峰值门限和提升门限之间的输入音频在不影响听感的前提下尽量还原输出；

(3)处于噪音门限和提升门限之间的输入音频稳定在提升门限之上输出；

(4)噪音门限以下的输入音频不增益，持续低于噪音门限的输入音频可以选择静音输出；

三电平方案由于只是依据音频的幅值来对音频信号进行一定的方案处理，并没有从能量、过零率、响度等能够充分反映音频信号特点的角度来采取相应的方案处理，因此方案具有一定的局限性，同时采用三电平法存在对音频信号处理反应速度慢的缺点，而且不能很有效的控制噪声。

基于能量的音频AGC综合能量和峰值、过零率计算增益大小。音频信号的能量随时间的变化比较明显，对短时能量的分析可以有效反映音频信号的变化特点。短时能量可以有效判断音频信号即时功率，帧内峰值可以有效判断音频信号的振幅，短时过零率可以粗略估计音频信号的频谱特征。提取音频的短时能量、帧内峰值和短时过零率，判断音频当前的状态，音频的增益处理取决于音频的状态，融合生成增益因子，具体按照以下多种规则实现：

(1)当该帧音频的帧内峰值较大，而短时能量较小时，说明音频正处于音质不丰富且不稳定的时期，比如人说话一开始时所发出的辅音或发声器物的振动未达到稳定的状态。在这种情况时可以迅速改变增益因子，进行增益或压缩。

(2)当该帧音频的帧内峰值较小，而短时能量较大时，短时过零率小于人耳敏感频带值，说明音频正处于含有丰富信息的基音带，如人说话时发出的稳定的基音或者发声器物的振动达到了时域包络稳定的状态，人耳对这种状态中声音增益的改变非常敏感。增益因子一般在音频达到这种状态时就不再变化，避免破坏音质的稳定，使人耳听觉感受察觉到增益的变化。

(3)当该帧音频的帧内峰值和短时能量都较小时，要稳定提升增益因子；当该帧的帧内峰值和短时能量都较大时，要稳定压缩增益因子。

基于能量的音频AGC根据音频的状态进行不同的处理。该方案借助过零率估计信号频率，通过能量、峰值、过零率综合考虑考虑了信号电平、功率、频率对声音强度的影响，延时时间也比较短，但是在噪声处理上效果不理想，小噪声、背景声被放大，严重影响听觉感受。

响度控制器方案是一种长时响度控制。ITU的响度测量标准中，把音频划分成许多连续的音频片段，每个片段时长为400毫秒，所以长时响度控制方案以400毫秒甚至更长的达到秒级别的音频片段为处理单位，对音频中响度小的部分进行提升，响度大的部分进行衰减，使得该片段内音频响度与目标响度达到一致。但是该方案会破坏音频的动态范围，处理后音频的音域被缩窄，延时比较长，而且处理单元间没有过度，带来新的响度差异问题，使声音效果大打折扣。

综合分析以上方案可以得出，基于电平或能量的音频AGC方案能够快速的自动增益控制音频的响度，但不能有效地抑制噪声，导致噪声或对音频响度贡献很小的背景音被放大，使得处理后的音频变嘈杂。与AGC方案近乎相反的是，响度控制器方案，综合考虑信号的电平、频率、持续时间甚至心理因素对响度的影响，不放大噪声和背景音，但是影响了音频的动态范围，最大的缺点是延时过长，对于广播电台来讲影响不大，可是如果应用于广播电视的播出，难以实现过长时间音视频的缓存，过大的延时会导致节目的声音和画面严重不吻合。

发明内容

本发明提出了一种面向响度的高效的音频控制方案，弥补了基于电平或能量的音频AGC放大噪声和背景音的缺陷，克服响度控制器方案延时过长的困难，以更符合观众主观听觉感受的响度为依据，通过自动增益控制的快速处理方式，把电视节目音频的响度调整到目标范围，不把音频中的噪声和背景音放大，并且延时时间足够小，可以满足电视节目处理后音频和画面同步播出的基本要求，最终给观众带来音频响度稳定且均衡的听觉体验。

面向响度的高效的音频控制方案是自动增益控制方案，是一种根据输入音频响度水平自动动态调整增益的机制，最终把音频输出的响度控制目标响度水平，响度控制方案的好坏直接反映在观众对处理后音频的听觉感受。

响度AGC方案的基本思想是音频输入后先进入响度测量，然后根据测量响度和目标响度的差异确定增益，另外方案在设计上还增加了一些可调参数，确保在达到响度控制目的的同时，观众在听觉感受上也不会有不舒适。

所述音频AGC方案处理流程，是在音频输入后首先进入响度测量模块，然后根据用户设定的帧长、目标响度、动态范围、背景测量时间、噪声门限、压扩比计算动态增益，对输入音频进行响度控制模块；最后，限幅处理之后将音频输出。

所述响度测量模块，是根据双声道音频响度测量方法，测量得到出输入的音频响度。

其中，所述双声道音频响度测量方法，是根据K-加权滤波器、均方计算、信道加权、求和、选通计算得到响度。K-加权滤波器由前置滤波器和RLB(revisionary low-frequencyB，修正的低频B曲线)滤波器级联组成，前置滤波器的作用是为了说明有输入信号的头部的声学效应，这里，将人的头部模拟成一个固定球体，RLB滤波器则提供信号频谱含量的感觉加权，各个通道采用相同的前置滤波器和RLB滤波器，根据信号到达的角度对最终的响度值进行加权，然后求和，从而提供一个合成的响度测量。信道加权用于考虑到从收听者后面到达的声音可能感觉要比从收听者前面到达的声音响亮的情况。

所述帧长，是指经过数字化的音频信号实际上是一个时变信号，为了能对音频信号进行分析，可以假设音频信号在几十毫秒的时间内是平稳的。为了得到短时音频信号，要对音频信号分帧处理，分帧是连续的。为避免响度控制系统处理后因音频分帧延迟带来的的画音不同步现象，此时方案将分帧定为20毫秒。

所述目标响度，是根据EBU R.128-2011标准规定，节目的整体响度应当标准化至-23.0LKFS，允许有不超过±1LU的偏差，而ITU目标响度建议值为-24LKFS。中国结合了国际上比较流行的响度标准，制定了《电视节目音频制作的响度规范》，该文件规定目标响度为-24LKFS，允许有不超过±2LU的偏差。

所述动态范围，是在目标响度的基础上，音频输出的响度范围。方案中动态可设置为0LU、±1LU、±2LU、±3LU，假设目标响度为-24LKFS，动态范围是±2LU，则输出响度的范围是-26LKFS到-22LKFS。

所述背景测量时间，是指对观众响度判断没有影响的部分。包括底噪、静音、垫乐等这些对于响度几乎没有贡献的背景成分，却会拉低响度平均值影响响度对齐的一致性。EBU的专家在R128中就提出了利用前景声和背景声之间的响度差对二者实行分离的方法，所以就有了响度测量方案中相对门限的计算方法。要得到有效的相对门限，就必须有一定时间的累积，所以方案设置了响度背景测量时间参数，测量该时间内的整体响度，减掉10LKFS之后的数值作为当前的相对门限，低于该门限的音频(背景音)不被提升。

所述噪声门限，虽然响度测量方案中有绝对、相对两级响度门限，但难免有音频段声音较小，利用计算出来的相对门限无法将背景噪音筛选掉，所以设置噪声响度门限，在相对门限失效是控制噪声不被提升。

所述压扩比，是指在分帧处理音频时，每一帧的音频响度不同，那么增益也不相同。在音频响度快速变化时，增益也会有比较大的变化，此时就容易导致输出音频响度有明显的高低变化，影响人们的听觉感受，所以设置压扩比，控制音频响度提升和压缩的速度，避免对输出效果产生不良影响。

所述响度控制模块，是通过测量出的输入音频的响度和即将输出的目标响度，计算出二者的响度差值，再根据响度差异以及上述所述的参数共同确定增益大小，以此增益去处理音频数据，最后输出。

有益效果

本发明提出了一种一种面向响度的高效的音频控制方案，解决了广播电视行业广泛存在的响度问题，并且克服以往解决方案的不足。再测量出响度后，根据帧长，目标响度、动态范围、响度背景测量时间和噪声响度门限计算出所期望的输出响度的最大值和最小值，当输入响度大于所期望输出响度的最大值时，计算出响度差值，然后根据压扩比计算出作用于输入响度的增益值，并作用于输入音频信号；当输入响度小于所期望输出响度的最小值时，计算出响度差值，然后根据压扩比计算出作用于输入响度的增益值，并作用于输入音频信号；当输入响度位于所期望输出响度的最大值和最小值的中间时，增益值为1。这种面向响度的控制方法达到了自动增益控制的效果，大大减少了控制处理时间，解决了基于能量的AGC中噪声被提升的问题，很好的保持原音频的高低音结构，而且还加入了用户可调参数，使得应用场景更广阔。有效地将音频响度控制在目标范围内，输出音频稳定平衡，满足人们的听觉感知需要。

附图说明

图1是音频AGC方案框图

图2是音频响度测量方案简略框图

图3是实例中响度AGC方案处理前后时域波形图

图4是实例中响度AGC方案处理前后响度图

表1是实例中音频响度控制前后响度数据

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

本发明的实例是采用MATLAB对该音频响度控制方案进行仿真。在仿真中输入一段声音忽大忽小的音频，先进行响度测量，再设置帧长20毫秒、目标响度-24LKFS、动态范围0、响度背景测量时间1秒、响度噪声门限-45LKFS、压扩比1.2，对输出响度进行控制。

根据图1所示的音频AGC方案框图，具体实施步骤如下：

步骤A.响度测量

测量间隔T内过滤输入信号的幂和均方计量如下：

整个测量间隔T内的响度定义为：

其中G_i是单个声道的加权系数。

为计算选通响度测量值，间隔T被分为一套叠加的选通块间隔。一个选通块是持续T_g＝400ms的连续音频采样(至最近的采样)。每一选通块的叠加须为选通块持续时间的75％。

间隔T中第i个输入声道第j个选通块的幂和均方为：

其中step＝1-叠加

及

第j个选通块响度定义为：

对选通门限Γ，有一套选通块指标J_g＝{j:l_j＞Γ}，其中选通块响度高于选通门限。J_g中的元素数为|J_g|。

因此，测量间隔T的被选通响度定义为：

用两级程序进行被选通测量：首先用绝对门限，然后用相对门限。通过使用绝对门限Γ_a＝-70LKFS测量响度的方法计算相对门限Γ，然后再从中减去10，因此，

其中：

J_g＝{j:l_j＞Γ_a}

Γ_a＝-70LKFS

然后采用Γ_r，计算被选通响度：

其中：

J_g＝{j:l_j＞Γ_r}

步骤B.响度控制

响度AGC方案作用于双声道立体声，左声道、右声道的加权系数都是1，假设输入为y_i,输出为y_o,输入音频的响度为L，输出响度即目标响度为L_tar,目标响度是已知的，响度差值为d,所以：

L＝-0.691+10log₁₀y_i ²

L_tar＝-0.691+10log₁₀y_o ²

d＝L_tar-L

由方程(8)、(9)、(10)联合推导出：

综上，可以得出增益gain的计算公式为：

方案的响度控制方式是根据音频的测试响度与目标响度的响度差异确定增益大小，以此增益去处理音频数据，最后输出。

步骤C.参数设置

方案在达到响度控制目的的基础上，还设置了用户可调参数，包括帧长、目标响度、动态范围、噪声响度门限、响度背景测量时间、压扩比六个参数，以更好的适用于不同的应用场景。

(1)帧长

经过数字化的音频信号实际上是一个时变信号，为了能对音频信号进行分析，可以假设音频信号在几十毫秒的时间内是平稳的。为了得到短时音频信号，要对音频信号分帧处理，分帧是连续的。为避免响度控制系统处理后因音频分帧延迟带来的的画音不同步现象，此时方案将分帧定为20毫秒。

(2)目标响度

EBU R.128-2011标准规定，节目的整体响度应当标准化至-23.0LKFS，允许有不超过±1LU的偏差，而ITU目标响度建议值为-24LKFS。中国结合了国际上比较流行的响度标准，制定了《电视节目音频制作的响度规范》，该文件规定目标响度为-24LKFS，允许有不超过±2LU的偏差。

(3)动态范围

动态范围是在目标响度的基础上，音频输出的响度范围。方案中动态可设置为0LU、±1LU、±2LU、±3LU，假设目标响度为-24LKFS，动态范围是±2LU，则输出响度的范围是-26LKFS到-22LKFS。

(4)响度背景测量时间

科研人员很早就发现，人对响度的判断，与其注意力有关。音频中吸引人们注意力的部分称为前景音，对观众响度判断没有影响的部分称为背景音。前景音包含对白、音乐以及关键音效，它们是主观响度的主要成分；而底噪、静音、垫乐等背景成分，对于响度几乎没有贡献，却会拉低响度平均值影响响度对齐的一致性。EBU的专家在R128中就提出了利用前景声和背景声之间的响度差对二者实行分离的方法，所以就有了响度测量方案中相对门限的计算方法。

要得到有效的相对门限，就必须有一定时间的累积，所以方案设置了响度背景测量时间参数，测量该时间内的整体响度，减掉10LKFS之后的数值作为当前的相对门限，低于该门限的音频(背景音)不被提升。

(5)噪声响度门限

虽然响度测量方案中有绝对、相对两级响度门限，但难免有音频段声音较小，利用计算出来的相对门限无法将背景噪音筛选掉，所以设置噪声响度门限，在相对门限失效是控制噪声不被提升。

(6)压扩比

在分帧处理音频时，每一帧的音频响度不同，那么增益也不相同。在音频响度快速变化时，增益也会有比较大的变化，此时就容易导致输出音频响度有明显的高低变化，影响人们的听觉感受，所以设置压扩比，控制音频响度提升和压缩的速度，避免对输出效果产生不良影响。

从经过响度AGC方案处理后的数字音频输出来看，低于目标响度的音频被提升，高于目标响度的音频被压缩，同时，低于相对门限的音频不被提升，也就是背景音不提升。图3的时域波形图和图4的响度图都表明音频得到有效的控制，实际的听觉感受也达到了令人满意的效果。表1中显示了音频控制前后的选通块响度数据，目标响度为-24LKFS，数据显示响度控制方案有效地将响度调整到目标响度水平，同时响度低于相对门限的选通块响度没有变化。因为响度测量方案中相邻两个选通块有75％的叠加，所以测量结果会有一些误差。

Claims

1.一种面向响度的高效音频控制方法，其特征在于，所述方案是自动增益控制方案，是一种根据输入音频响度水平自动动态调整增益的机制，最终把音频输出的响度控制目标响度水平，响度控制方案的好坏直接反映在观众对处理后音频的听觉感受。

2.根据权利要求1所述的方法，其特征在于所述是在音频输入后首先进入响度测量模块，然后根据用户设定的帧长、目标响度、动态范围、背景测量时间、噪声门限、压扩比计算动态增益，对输入音频进行响度控制模块；最后，限幅处理之后将音频输出。

3.根据权利要求1所述的方法，所述控制过程如下：

步骤A.响度测量，是根据双声道音频响度测量方法，测量得到出输入的音频响度。

步骤B.参数设置，是所述用户根据需求设置一系列的参数，包括帧长、目标响度、动态范围、背景测量时间、噪声门限、压扩比。

其中，所述帧长，是指经过数字化的音频信号实际上是一个时变信号，为了能对音频信号进行分析，可以假设音频信号在几十毫秒的时间内是平稳的。为了得到短时音频信号，要对音频信号分帧处理，分帧是连续的。为避免响度控制系统处理后因音频分帧延迟带来的的画音不同步现象，此时方案将分帧定为20毫秒。

其中，所述目标响度，是根据EBUR.128-2011标准规定，节目的整体响度应当标准化至-23.0LKFS，允许有不超过±1LU的偏差，而ITU目标响度建议值为-24LKFS。中国结合了国际上比较流行的响度标准，制定了《电视节目音频制作的响度规范》，该文件规定目标响度为-24LKFS，允许有不超过±2LU的偏差。

其中，所述动态范围，是在目标响度的基础上，音频输出的响度范围。方案中动态可设置为0LU、±1LU、±2LU、±3LU，假设目标响度为-24LKFS，动态范围是±2LU，则输出响度的范围是-26LKFS到-22LKFS。

其中，所述背景测量时间，是指对观众响度判断没有影响的部分。包括底噪、静音、垫乐等这些对于响度几乎没有贡献的背景成分，却会拉低响度平均值影响响度对齐的一致性。EBU的专家在R128中就提出了利用前景声和背景声之间的响度差对二者实行分离的方法，所以就有了响度测量方案中相对门限的计算方法。要得到有效的相对门限，就必须有一定时间的累积，所以方案设置了响度背景测量时间参数，测量该时间内的整体响度，减掉10LKFS之后的数值作为当前的相对门限，低于该门限的音频(背景音)不被提升。

其中，所述噪声门限，虽然响度测量方案中有绝对、相对两级响度门限，但难免有音频段声音较小，利用计算出来的相对门限无法将背景噪音筛选掉，所以设置噪声响度门限，在相对门限失效是控制噪声不被提升。

其中，所述压扩比，是指在分帧处理音频时，每一帧的音频响度不同，那么增益也不相同。在音频响度快速变化时，增益也会有比较大的变化，此时就容易导致输出音频响度有明显的高低变化，影响人们的听觉感受，所以设置压扩比，控制音频响度提升和压缩的速度，避免对输出效果产生不良影响。

步骤C.响度控制，是根据是通过测量出的输入音频的响度和即将输出的目标响度，计算出二者的响度差值，再根据响度差异以及上述所述的参数共同确定增益大小，以此增益去处理音频数据，最后输出。