CN110754040A

CN110754040A - 用于处理输入音频信号的装置和对应方法

Info

Publication number: CN110754040A
Application number: CN201880040040.5A
Authority: CN
Inventors: 埃德温·马邦德; 法比安·库奇; 麦克尔·卡特斯莫; 麦克尔·梅尔; 伯恩哈德·诺伊格鲍尔
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2017-04-13
Filing date: 2018-04-10
Publication date: 2020-02-04
Anticipated expiration: 2038-04-10
Also published as: BR112019021377A2; KR20200004319A; JP6833062B2; MX384924B; CA3059618A1; US10886883B2; CA3059618C; EP3389183A1; AR111639A1; MX2019012195A; RU2734741C1; JP2020517179A; WO2018188812A1; EP3610572B1; TWI657436B; ZA201907360B; AU2018253130B2; SG11201909415TA; CN110754040B; AU2018253130A1

Abstract

一种用于处理输入音频信号(100)的装置(1)，包括评估器(10)，评估器(10)用于对输入音频信号(100)的响度进行评估，以确定响度范围(LRA_in)和实际响度值。计算器(11)基于所确定的响度范围(LRA_in)，基于目标响度范围(LRA_des)以及基于所确定的实际响度值来确定压缩器传递函数。计算器(11)还基于所确定的压缩器传递函数来确定至少一个响度范围控制增益。调节器(12)基于输入音频信号(100)以及基于所确定的至少一个响度范围控制增益来提供输出音频信号(101)。计算器(11)被配置为确定压缩器传递函数，使得输出音频信号(101)的平均响度(μ_out)与输入音频信号(100)的平均响度(μ_in)之间的差被最小化。还提供了对应的方法。

Description

用于处理输入音频信号的装置和对应方法

技术领域

本发明涉及一种用于处理输入音频信号的装置。本发明还涉及相应的方法和计算机程序。

背景技术

本发明涉及处理音频信号的领域，更具体地，涉及一种控制音频信号的响度范围的方法，即调节音频信号的响度范围以与期望的目标响度范围匹配。响度范围[1]是音频信号的动态的测量。如在[1]中所阐述的，就本申请的意义而言，响度范围量化了时变的响度测量中的变化。因此，响度范围描述了测量的瞬时响度值的统计分布。

期望针对各种各样的场景控制响度范围，例如：

·使用受音频回放系统性能限制的设备进行回放

·在特殊观看模式下回放，例如深夜模式

·在环境噪声高的环境中回放

·用于实时响度归一化的预处理

这里，能够控制音频信号的响度范围以实现目标响度范围的方法被称为响度范围控制(LRAC)方法。在文献中，大多数方法试图控制音频信号的动态范围，即动态范围控制(DRC)。响度范围的定义是标准化的[1]，而动态范围的定义有时会有所不同。当然，控制动态范围与控制响度范围有关。因此，为简单起见，两者都可以作为LRAC方法处理。

自动增益控制(AGC)代表与控制音频信号的整体电平有关的方法。由于增益通常是时变的，因此这通常导致动态范围的改变，即动态范围通常减小。然而，动态范围的改变量是不可预测的，即，输出信号的动态范围是未知的并且不能以期望的方式进行控制。

当然，应用具有固定的预选传递函数(也称为配置文件)的压缩器的目的是改变音频信号的响度范围。传递函数的选择基于一些预定义的标准，例如观看模式。然而，应用预定义的压缩器传递函数也不能保证在输出端实现目标响度范围。

为了实现期望的目标响度范围，确定给定音频信号的唯一的传递函数。然后将传递函数应用于音频信号以产生响度范围控制的音频。另外，传递函数应设计为在不降低音频信号质量的情况下实现期望的目标响度范围。

在现有技术中，已知不同的方法。

预定义/固定的传递函数：

传递函数是预定义的，并且是基于预期的回放内容(例如电影、新闻、音乐)或基于收听模式(例如深夜模式)进行选择的。

基于参考信号的传递函数：

其他方法[2]提出使用测量的参考信号(例如，收听环境中的背景噪声水平)和回放设备上的音量控制设置的组合。

基于参数的传递函数：

这里，仅基于用户定义的输入参数来设计传递函数。

对于[3]中提出的方法，确定输入音频信号的平均电平和动态范围。基于平均电平和用户对期望的动态范围的设置，计算传递函数并将其应用于输入音频信号。

图1示出了基于滑块的期望动态范围容限和对应的传递函数。在图表的x轴上，输入响度以[dB]为单位，在y轴上，输出响度以[dB]为单位给出。左侧的示例性滑块允许设置影响传递函数的形式的“动态范围容限区域”。输入响度的下部区域达到本底噪声的上限。随后是具有恒定输出响度的部分。在这种情况下，动态范围容限区域对应于期望的动态范围。传递函数的线性部分位于平均信号电平(水平偏移)上，该信号电平是时间相关的，其后是又一个具有恒定输出响度的部分。

在传递函数的计算中不使用测量的动态范围，即，不可以对输入音频信号的动态或响度范围进行专门控制。

在[4]中，对动态扩展进行控制，即与平均响度的平均绝对偏差。如图2所示，使用了具有两个线段的特定压缩器(输出响度与输入响度)。要估计的两个参数是压缩器阈值(由黑点指示)和斜率(即与虚线给出的线性曲线的偏差)。用户将阈值指定为百分数，并使用动态配置文件[dB与百分数]将其转换为dB。斜率是基于以下假设计算的：动态扩展的改变与斜率的改变之间存在线性关系。

其中，S_des和D_des分别为期望的斜率和动态扩展，D_in为测量的动态扩展。

通常，S_min＝D_min＝0，S_max＝1且D_max＝D_in，因此：

然后，通过迭代过程调整传递函数。

首先，将传递函数应用于音频数据的输入直方图或音频数据，以便确定所实现的动态扩展。然后，调整传递函数的斜率，并重复该过程直到实现期望的动态扩展。

通过这种方法进行动态范围控制暗含有两个缺点：

1)仅确定了传递函数的斜率，而未确定其相对于输入/输出电平所构成平面的原点的位置(即偏移)。因此，不能预测所得增益的范围。

2)从初始传递函数获得最终传递函数的迭代过程在计算上非常复杂，并且不一定会导致最佳结果，因为在用户定义的阈值的情况下，初始传递函数的选择限制了可能的最终传递函数的特性。

通过将最终传递函数应用于输入直方图，然后从中近似输出响度，可以计算补偿增益。

发明内容

本发明的目的是提供用于处理输入音频信号的装置和方法，尤其涉及不受现有技术的缺点影响的输出信号的响度。

该目的通过一种用于处理输入音频信号的装置来实现，该装置包括评估器、计算器和调节器。评估器被配置为对输入音频信号的响度进行评估，以确定响度范围和实际响度值。在一个实施例中，针对整个输入音频信号确定响度范围，而在不同的实施例中，针对输入音频信号的给定时段(例如，一帧)确定响度范围。实际响度值是例如输入音频信号的瞬时或短期响度值[6]。应清楚，可以使用指示或提供对输入音频信号的至少一个时段的电平或功率的合适测量的任何测量(例如平均功率)来代替前述实际响度测量。计算器被配置为基于所确定的响度范围，基于目标响度范围以及基于所确定的实际响度值来确定压缩器传递函数。在一些实施例中，压缩器传递函数附加地基于所确定的响度值的统计矩。统计矩是例如根据ITU-R BS.1770[5]的响度值的平均或音频输入的积分门限响度。计算器被配置为基于所确定的压缩器传递函数来确定至少一个响度范围控制增益。调节器被配置为基于输入音频信号以及基于至少一个确定的响度范围控制增益来提供输出音频信号。在不同的实施例中，计算器将响度范围控制增益提供给调节器，以提供输出音频信号。

在一个实施例中，评估器被配置为评估输入音频信号的响度以确定响度值的统计矩。此外，计算器被配置为基于所确定的响度范围，基于目标响度范围以及基于所确定的实际响度值与所确定的响度值的统计矩之间的差来确定压缩器传递函数。

在不同的实施例中，计算器被配置为基于曲线和偏移来确定压缩器传递函数，计算器被配置为基于所确定的响度范围和目标响度范围来确定曲线，并且计算器被配置为基于所确定的响度值的统计矩来确定偏移。

根据实施例，计算器被配置为基于斜率和偏移来确定压缩器传递函数，计算器被配置为基于所确定的响度范围和目标响度范围来确定斜率，并且计算器被配置为基于所确定的响度值的统计矩来确定偏移。

在实施例中，所确定的压缩器传递函数对于整个输入音频信号有效。

根据实施例，评估器被配置为评估整个输入音频信号的响度。

在实施例中，评估器被配置为评估输入音频信号的至少一个时段的响度。

根据实施例，评估器被配置为将瞬时或短期响度值确定为实际响度值。

在实施例中，评估器被配置为将平均响度确定为响度值的统计矩。

在不同的实施例中，评估器被配置为将积分门限响度确定为响度值的统计矩。

根据实施例，计算器被配置为确定压缩器传递函数，使得输出音频信号的平均响度与所确定的输入音频信号的平均响度相等。

在实施例中，计算器被配置为向调节器提供所确定的响度范围控制增益。

在实施例中，计算器被配置为仅在所计算的响度范围控制增益小于或等于最大增益值的情况下向调节器提供所确定的响度范围控制增益。根据实施例，当所确定的响度范围控制增益大于最大增益值时，计算器被配置为向调节器提供最大增益值。在备选实施例中，当所确定的响度范围控制增益大于最大增益值时，计算器不向调节器提供增益，并且调节器假设最大增益值或使用针对这种情况存储的增益。

在另一实施例中，计算器被配置为基于所确定的压缩器传递函数以及基于最大增益值来确定响度范围控制增益，使得所确定的响度范围控制增益小于或等于最大增益值。因此，计算器例如通过计算实际确定的增益值和最大增益值的最小值来确定所确定的要提交给调节器的响度范围控制增益。

根据实施例，通过用户输入来设置最大增益值。在备选实施例中，最大增益值取决于目标响度范围与所确定的输入音频信号的响度范围之间的差。

根据实施例，该装置还包括输入接口，该输入接口被配置为接收目标响度范围的值。因此，用户经由输入接口输入期望的目标响度范围。

该装置以及相应方法的一些其他实施例如下：

在实施例中，评估器被配置为对输入音频信号的响度进行评估，以确定响度范围和平均响度。计算器被配置为计算与目标响度范围与所确定的输入音频信号的响度范围之间的比成比例的斜率值。计算器被配置为根据所确定的输入音频信号的平均响度来计算偏移值(在一个实施例中，该偏移取决于所确定的平均响度乘以1与斜率之差)。计算器被配置为基于线性传递函数来计算响度范围控制数据，所述线性传递函数取决于所计算的偏移值和所计算的斜率值。最终，调节器被配置为基于输入音频信号以及基于响度范围控制数据来提供输出音频信号。

在实施例中，线性传递函数对于整个输入音频信号有效。在该实施例中，一个线性传递函数用于整个输入音频信号，即用于所有响度值。在一个实施例中，除了非常高和/或的低响度值之外，线性传递函数对于整个输入音频信号有效。

根据实施例，评估器被配置为确定整个输入音频信号的响度范围和平均响度。该实施例与输入音频信号的离线处理尤其相关。

在实施例中，评估器被配置为确定输入音频信号的至少一部分的响度范围和平均响度。

根据实施例，计算器被配置为将斜率值计算为比例常数乘以目标响度范围与所确定的输入音频信号的响度范围之间的比的乘积。目标响度范围由用户输入，并且指输出音频信号的响度范围，所确定的响度范围由输入音频信号给出。

在实施例中，比例常数设置为1。因此，斜率值由目标响度范围与所确定的响度范围之间的比给出。

根据实施例，计算器被配置为计算偏移值，使得输出音频信号的平均响度与所确定的输入音频信号的平均响度相等。

在实施例中，计算器被配置为使用以下公式来计算偏移值：a＝μ_in*(1–b).偏移值由a给出，所确定的输入音频信号的平均响度由μ_in表示，b是计算的斜率值。

根据实施例，计算器被配置为提供响度范围控制增益，调节器被配置为将响度范围控制增益应用于输入音频信号。

在实施例中，评估器被配置为确定具有短期持续时间的输入音频信号的帧的输入响度值。计算器被配置为提供与输入音频信号的帧相对应的输出音频信号的帧的输出响度值。此外，计算器被配置为使用以下公式计算输出响度值：N_out(k)＝a+b*N_in(k).其中：N_out(k)是输出响度值，a是偏移值，b是斜率值，N_in(k)是所确定的输入音频信号的对应帧的输入响度值，k是帧的索引。因此，帧是根据其确定例如响度范围和/或平均响度的输入信号的一部分。

根据实施例，计算器被配置为提供响度范围控制增益作为计算的输出音频信号的帧的响度值与所确定的输入音频信号的对应帧的响度值之间的差。

在实施例中，计算器被配置为使用以下公式来提供响度范围控制增益：G(k)＝a+(b-1)*N_in(k)，其中，G(k)是响度范围控制增益，a是计算的偏移值，b是计算的斜率值，N_in(k)是所确定的输入音频信号的帧的输入响度值，k是帧的索引。因此，响度范围控制增益是调节器要使用的响度范围控制数据的示例。

根据实施例，调节器被配置为将响度范围控制增益应用于输入音频信号以提供输出音频信号。

在实施例中，计算器被配置为向调节器提供计算的响度范围控制增益。根据实施例，所提供的计算的响度范围控制增益小于或等于最大增益值。

根据实施例，通过用户输入来设置最大增益值。

在实施例中，最大增益值取决于目标响度范围与所确定的输入音频信号的响度范围之间的差。

根据实施例，计算器被配置为向调节器提供计算的响度范围控制增益。在一个实施例中，所提供的计算的响度范围控制增益大于或等于最小增益值。

在实施例中，评估器被配置为确定输入音频信号的积分响度。此外，计算器被配置为基于所确定的输入音频信号的积分响度和输出信号的目标积分响度来计算补偿增益值。最终，调节器被配置为通过应用补偿增益值来修改输出音频信号的响度。

根据实施例，评估器被配置为确定输入音频信号的积分响度。计算器被配置为基于偏移值、斜率值和所确定的积分响度来计算补偿增益值。调节器被配置为通过应用补偿增益值来修改输出音频信号的响度。

在实施例中，计算器被配置为使用以下公式来计算补偿增益值：G_mu＝a+(b–1)I_in，其中G_mu是补偿增益值，a是偏移值，b是斜率值，I_in是所确定的输入音频信号的积分响度。

该目的还通过一种用于处理输入音频信号的方法来实现。输入音频信号这一表述包括音频信号以及语音信号。

用于处理输入音频信号的方法至少包括以下步骤：

·对输入音频信号的响度进行评估，以确定响度范围和实际响度值，

·基于所确定的响度范围，基于目标响度范围，基于所确定的实际响度值以及基于所确定的响度值的统计矩来确定压缩器传递函数，

·基于所确定的压缩器传递函数来确定至少一个响度范围控制增益，以及

·基于输入音频信号以及基于至少一个所确定的响度范围控制增益来提供输出音频信号。

在不同的实施例中，执行以下步骤：

·对输入音频信号的响度进行评估，以确定响度范围和平均响度，

·计算与目标响度范围与所确定的响度范围之间的比成比例的斜率值，

·根据所确定的平均响度来计算偏移值，

·基于线性传递函数来计算响度范围控制数据，所述线性传递函数取决于所计算的偏移值和所计算的斜率值，以及

·基于输入音频信号以及基于响度范围控制数据来提供输出音频信号。

以上讨论的装置的实施例对于方法也是有效的。

本发明还涉及一种用于在计算机或处理器上运行时执行用于处理输入音频信号的方法的计算机程序。

附图说明

下面将参考附图和附图中描绘的实施例来解释本发明，在附图中：

图1示出了现有技术LRAC的传递函数，

图2示出了现有技术LRAC的不同的传递函数，

图3示出了用于处理输入音频信号的装置的框图，

图4示出了用于处理输入音频信号的方法的步骤的不同框图，

图5示出了具有斜率(图5a)以及具有斜率和偏移(图5b)的传递函数，

图6描绘了电影的一小时音频片段的短期响度直方图(上面的图)和两种不同的传递函数(下面的图)，以及

图7示出了示例性直方图、根据现有技术的不同传递函数和根据本发明的传递函数。

具体实施方式

图1和图2描绘了根据现有技术的传递函数。

图3示出了装置1的示例性实施例，装置1用于处理输入音频信号100并用于提供输出音频信号101。在该示出的实施例中，评估器10对输入音频信号100的响度进行评估，以便确定输入音频信号100的响度范围LRA_in和平均响度μ_in。在该示出的实施例中，评估器10还针对输入音频信号100不同的帧k确定输入音频信号100的积分响度I_in和输入响度值N_in(k)。

将所确定的值提交给计算器11，计算器11还参考用户经由输入接口13输入的期望的目标响度范围LRA_des。

计算器11计算要由调节器12使用的响度范围控制数据，调节器12是响度的调节器，其对输入音频信号100进行处理并提供输出音频信号101。此外，计算器11以响度范围控制增益G(这里也即补偿增益G_mu)的形式提供响度范围控制数据。这是对压缩器传递函数进行确定的结果。

在该实施例中，本发明的LRAC将线性变换应用于输入音频信号100，以便实现对输出音频信号101的响度范围控制。

图4示出了本发明的LRAC的另一实施例的框图。

这些步骤在如下实施例中：

·获取音频，即获取输入音频信号，以下命名为x。

·计算瞬间响度。

·将计算的瞬时响度用于如下步骤：计算取决于用户设置的目标响度的补偿增益。

·将计算的瞬时响度也用于如下步骤：计算短期响度，然后进行如下步骤：确定取决于用户设置的目标响度范围的传递函数。

·将所确定的传递函数提交给上述步骤：计算补偿增益，然后进行下一步骤的LRAC增益计算。

·将LRAC增益和补偿增益在下一步骤中应用于音频，即应用于输入音频信号。

·输出输出音频信号，这里命名为y。

获得输出音频信号y为

y＝g(LRA_in，LRA_des，N_in)x， (3)

其中，g是应用于输入音频信号x的增益，以便控制响度范围。基于输入音频的响度范围LRA_in、期望的目标响度范围LRA_des和在一个时段内的响度测量N_in(例如短期响度或瞬时响度)来获得增益g。这也可以称为实际响度值，该值由评估器确定或通过对输入音频信号的响度进行评估的任何步骤确定。响度测量N_in通常是时变的。在一个实施例中，基于所确定的响度值的统计矩附加地获得增益。统计矩是例如根据ITU-R BS.1770[5]的响度值的平均值或音频输入的积分门限响度。

以dB为单位的增益为

G(LRA_in，LRA_des，N_in)＝10log₁₀(g(LRA_in，LRA_des，N_in))。(4)

在一个实施例中，基于映射函数Q获得增益G，该映射函数Q基于输入音频的响度范围LRA_in、期望的目标响度范围LRA_des和响度测量的统计矩与响度测量之间的差ΔN：

G(LRA_in，LRA_des，N_in)＝Q(LRA_in，LRA_des，ΔN)。 (5)

在一个实施例中，ΔN的实现通过音频输入的平均响度μ_in(或备选地，根据ITU-RBS.1770[5]的音频输入的积分门限响度)与一段时间的响度测量N_in之间的差给出。

ΔN＝μ_in-N_in。

一段时间的响度测量N_in是输入音频信号的一个时段或帧的实际响度值的示例。

在下文中，μ_in在一个示例中是音频输入信号的平均响度。在不同的实施例中，μ_in指根据ITU-R BS.1770[5]的积分门限响度或用于确定长期响度测量的类似规则。通常，μ_in是输入音频信号的响度值的统计矩。

备选地，基于下面的映射函数获得G，该映射函数由曲线K和偏移K_shift叠加而成，其中曲线取决于LRA_in和LRA_des，偏移取决于μ_in：

G(LRA_in，LRA_des，N_in)＝K(LRA_in，LRA_des，N_in)+K_shift(μ_in) (6)

曲线K的合适选择是例如S形函数。等式(6)可以进一步限制为曲线K由斜率S指定的情况：

G(LRA_in，LRA_des，N_in)＝S(LRA_in，LRA_des)N_in+K_shift(μ_in) (7)

可以看出，映射函数由斜率S和偏移K_shift确定。

为了避免低响度值的信号过度放大，随后对增益G进行限制以获得最终增益：

G(LRA_in，LRA_des，N_in)＝min(G(LRA_in，LRA_des，N_in)，G_max) (8)

其中，G_max是最大允许增益。该最大增益可以先验地定义(例如由用户定义)或基于输入音频信号确定。

在下文中，讨论了离线LRAC和在线LRAC的实施例。

在离线版本中，整个输入音频信号均可用。这里，本发明的LRAC基于在逐帧的基础上将线性变换应用于音频信号，以便实现响度范围控制。在这种情况下，曲线是具有确定斜率的直线。

将讨论一些理论上的考虑。

给定具有标准偏差σ_w和均值μ_w的正态分布随机变量w，应用具有斜率b和偏移a的线性传递函数，得到正态分布随机变量：

z＝a+bw, (9)

随机变量z的标准偏差为σ_z＝bσ_w，均值为μ_z＝a+bμ_w。

做出两个假设：

1)响度测量N_in(即，所确定的输入音频信号的实际响度值)是正态分布的随机变量。

2)输入标准偏差和输出标准偏差之比与输入LRA和输出LRA之比成比例，即

其中，ξ是比例常数，可以用于补偿音频信号与模型的偏差。通常，LRA会降低，因此LRA_z<LRA_w。

确定LRAC增益的步骤如下：

首先，时间相关的响度测量N_in(k)(k是音频帧索引)、响度的均值μ_in和输入响度范围(LRA)LRA_in是根据输入音频信号计算的。

选择：

在一个实施例中，设置ξ＝1。

可以使用以下两种示例性方法来计算增益：

方法1

考虑等式(5)，将函数Q定义为

其中

ΔN(k)＝μ_in-N_in(k) (12)

在一个实施例中，归一化项β(k)是时变的。在一个实施例中，以下实现通过下式给出：

其中γ＞0是实数值，参数G_max在一个实施例中是先验地定义的(例如，由用户定义)，或基于输入音频信号确定，例如：

G_max＝|LRA_des-LRA_in|。 (13)

因此，在这种情况下，增益可以通过下式确定：

在备选实施例中，省略归一化参数，即β(k)＝1。

方法2

考虑等式(7)，可以将函数S和K_shift定义为

S(LRA_in，LRA_des)＝b-1 (15)

和

K_shift(μ_in)＝α (16)

其中

a＝(1-b)μ_in。

这确保了μ_out＝μ_in，即，响度处理之前和之后的积分响度之间的差最小。

因此，在这种情况下，增益可以通过下式确定：

G(LRA_in，LRA_des，N_in(k))＝(b-1)N_in(k)+a

在选择a＝(1-b)μ_in和b＝LRA_des/LRA_in的情况下，上述等式可以备选地表示为

G(LRA_in，LRA_des，N_in(k))＝(1-b)ΔN(k) (18)

它对应于一个映射函数，该映射函数取决于输入LRA和输出LRA的比以及输入音频信号的平均响度μ_in与实际响度值(例如，短期响度测量或瞬时响度测量)之间的差ΔN(k)。

然后可以将所确定的增益的值限制为期望的最大值：

G(LRA_in，LRA_des，N_in(k))＝min(G(LRA_in，LRA_des，N_in(k))，G_max) (19)

所确定的响度范围控制增益的应用

逐帧输出信号由下式给出：

y(k)＝g(LRA_in，LRA_des，N_in(k))x(k) (20)

其中

为了进一步减少由于LRAC处理而导致的积分响度的改变，在一个实施例中，通过将变换直接应用于输入积分响度I_in来计算补偿增益，例如如下式所示：

G_mu＝(b-1)I_in+a。 (22)

然后将增益

应用于音频信号y。应用该补偿增益通常使得积分响度偏差小于2LU。

在另一个实施例中，应用变换，输出的短期响度由下式给出：

N_out(k)＝a+b N_in(k)

其中k是帧索引。

根据前述内容，可以计算LRAC增益：

LRAC增益(以dB为单位)计算如下：

G(k)＝N_out(k)-N_in(k)＝a+(b-1)N_in(k)。

在一个实施例中，为了避免对具有低短期响度值的信号的过度放大，随后对增益进行如下限制：

G(k)＝min(G(k)，G_max)，

其中，G_max是最大允许增益。根据实施例，该最大增益是先验定义的，或基于音频信号确定的，例如，

G_max＝|LRA_des-LRA_in|。

为了进一步减少由于LRAC处理而导致的积分响度的改变，在一个实施例中，通过将变换直接应用于输入积分响度I_in来计算补偿增益，如下式所示：

G_mu＝a+(b-1)I_in。

然后将该补偿增益G_mu应用于音频信号。

离线处理的一些方面如下：

如图5所示，利用根据对音频信号的统计分析确定的斜率b和偏移a计算线性传递函数。基于该传递函数计算响度范围控制(LRAC)增益。

线性传递函数的斜率b是输入LRA和用户设置的期望目标LRA的函数。如图5a中所示，基于仅取决于斜率的传递函数计算LRAC增益并将LRAC增益应用于输入音频信号，将实现控制LRA的期望效果。然而，这将导致输入和输出响度之间的显著差异。另外，这将导致对具有低响度水平的片段的过高放大和对具有高响度水平的片段的放大，这可能在经处理的输入音频信号中导致削波或不期望的调制失真。

由斜率b和偏移a的组合得到的传递函数如图5b所示。最终的LRAC增益由该传递函数确定。偏移a确保响度分布的均值被保持，因此所得的输入响度和输出响度之间的差很小。另外，这会自动降低应用于具有低响度水平的片段的增益，并避免放大具有高响度水平的片段，从而避免削波和调制失真。

在一些实施例中，在后期处理步骤中对所确定的LRAC增益进行随后的约束，其确保诸如背景噪声之类的低电平音频不被过度放大。由于偏移a，所获得的增益从一开始就保持在合理的范围内，并且可以先验地定义合适的最大增益。

在图6中示出了电影的音频摘录的短期响度值的示例性直方图和与不同的期望LRA相对应的增益函数。示出了LRA为22.8LU的电影的一小时音频片段的短期响度直方图(上排)。还示出了分别为10LU和15LU的两个期望LRA的传递函数(下排)。

在实施例中，计算响度归一化增益：

应用本发明的LRAC方法可以导致音频的积分响度的改变。可以计算增益以便实现期望的目标积分响度。

如果将期望的目标响度选择为等于输入响度，则可以通过计算测量的输入积分响度I_in与测量或估计的输出积分响度之间的差来获得归一化增益。可以使用输出瞬时响度值来估计输出积分响度，该输出瞬时响度值是通过将变换应用于输入瞬时响度值而获得的。否则，根据估计的或测量的输出积分响度与期望的目标积分响度之间的差来计算归一化增益。

可以从离线版本导出在线LRAC。对于输入LRA和平均响度估计，在线版本考虑了音频信号的时间片段，而不是整个音频信号。在这种情况下，参数变为时间相关的，即a(k)＝(1-b(k))μ_in(k)，其确保输入响度的统计矩等于输出响度的对应统计矩，例如平均响度值：μ_out(k)＝μ_in(k)。此外，b(k)＝ζLRA_des/LRA_in(k)。

因此，两种在线方法为：

方法1

函数Q被定义为：

其中

ΔN(k)＝μ_in(k)-N_in(k) (24)

并且

其中，γ>0是实数值，参数G_max(k)在一个实施例中被定义为时间无关的用户定义参数G_max(k)＝G_max，或者是信号相关的参数G_max(k)＝|LRA_des-LRA_in(k)|。

因此，在这种情况下，增益可以通过下式确定：

方法2

函数S和K_shift(μ_in(k))定义为：

S(LRA_des，LRA_in(k))＝b(k)-1 (26)

和

K_shift(μ_in(k))＝a(k) (27)

然后，LRAC增益计算为：

G(LRA_des，LRA_in(k)，N_in(k))＝(b(k)-1)N_in(k)+a(k) (28)

为避免过度放大，增益随后被约束如下：

G(LRA_des，LRA_in(k)，N_in(k))＝min(G(LRA_desLRA_in(k)，N_in(k))，G_max(k))(29)

在另一实施例中，变换参数计算为：

和

a(k)＝(1-b(k))μ_in(k)，其确保μ_out(k)＝μ_in(k)。

应用变换，输出的短期响度由下式给出：

N_out(k)＝a(k)+b(k)N_in(k)。

然后，LRAC增益计算为：

G(k)＝N_out(k)-N_in(k)＝a(k)+(b(k)-1)N_in(k)

G(k)＝min(G(k)，G_max(k))。

其中，在一个实施例中，G_max(k)是固定的时间无关的用户定义参数G_max(k)＝G_max，在不同的实施例中，G_max(k)是信号相关的参数G_max(k)＝|LRA_des-LRA_in(k)|。因此，在线LRAC考虑了输入音频信号的时间片段，而不是输入音频信号的整个持续时间。

本发明方法的一个实施例包括以下步骤：

1)接收输入音频信号。

2)计算音频帧序列的瞬时响度值或短期响度值(作为实际响度值的示例)。

3)从计算的瞬时响度值或短期响度值的总体确定输入响度范围(LRA)。

4)基于斜率b和偏移a确定压缩器传递函数。根据输入LRA和期望的目标LRA确定斜率b，并根据响度值的统计矩确定偏移a。

备选地：基于输入的LRA、期望的LRA以及瞬时或短期响度值与响度值的统计矩之间的差来确定压缩器传递函数。

备选地：基于曲线和偏移确定压缩器传递函数。根据输入LRA和期望的LRA确定曲线，并根据响度值的统计矩确定偏移。

5)基于所确定的压缩器传递函数来计算时变LRAC增益。

6)通过将LRAC增益应用于输入音频信号的音频样本来确定输出音频信号。

在实施例中，给出以下步骤：基于斜率和偏移确定压缩器传递函数。根据输入LRA和期望的LRA确定斜率，并根据计算的瞬时或短期响度值确定偏移。

实施例包括以下步骤：确定压缩器传递函数的阈值点，在该阈值点以下，传递函数具有与根据输入和期望的输出LRA确定的斜率不同的斜率。这对应于对最小压缩器增益进行约束。

另一个实施例包括以下步骤：确定或定义(启发式)要应用于所计算的LRAC增益的最大增益约束。

在另一个实施例中，包括以下步骤：基于瞬时响度值和LRAC增益，计算响度控制增益以获得输出信号的期望目标响度。通过将LRAC增益和响度控制增益(或两者的组合)应用于输入音频信号的音频样本来确定输出音频信号。

在图7中，在上部的图中示出了示例性直方图。在中间的图中示出了现有技术[4]动态扩展控制方法的传递函数。下部的图给出了根据本发明的传递函数。传递函数在图中以x轴为输入响度，y轴为输出响度进行显示。在所有三个图中标记了平均响度。

[4]中提出的方法需要两个参数，即阈值点和斜率。阈值点(由点和箭头标记)是用户定义的参数，该参数被选择为响度分布的百分数。这意味着针对不同类型的输入音频，阈值(以dB为单位)会改变。然而，如果所选阈值点靠近均值，则可能会引起由于传递函数的非线性部分而导致的音频失真。另外，如果选择高阈值，则将需要较大的斜率以实现期望的动态扩展。然而，斜率是基于输入和期望的动态扩展计算的，并不取决于所选的阈值点。以上考虑表明，根据所选阈值不同，这可能还不够。这就是为什么需要迭代计算斜率的原因。

所提出的发明不需要用户或迭代处理来确定适当的传递函数。所有所需的参数根据输入信号和期望的LRA自动确定。

尽管已经在装置的上下文中描述了一些方面，但清楚的是，这些方面还表示对应方法的描述，其中，块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对对应装置的对应块、项或特征的描述。可以由(或使用)硬件装置(诸如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。

本发明的经传输或编码的信号可以存储在数字存储介质上或可以在诸如无线传输介质或有线传输介质(比如互联网)的传输介质上传输。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以通过使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、Blu-Ray、CD、ROM、PROM和EPROM、EEPROM或闪存)来执行所述实现方案，所述控制信号与可编程计算机系统协作(或能够与之协作)，从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作以便执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是数据载体(或诸如数字存储介质或计算机可读介质的非暂时性存储介质)，包含记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。

因此，本发明方法的另一实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机(例如，以电子方式或以光学方式)传送计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收器可以是例如计算机、移动装置、存储装置等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是，本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

参考文献

[1]EBU Tech Doc 3342Loudness Range:A Descriptor to supplementLoudness Normal ization in accordance with EBU R 128(2016)

[2]US 8,229,125 B2

[3]US 2014/0369527 A1

[4]US 7,848,531 B1

[5]ITU-R,Recommendation ITU-R BS.1770-3.Algorithm to measure audioprogramme loudness and true-peak audio level,08/2012.

[6]EBU Tech Doc 3341 Loudness Metering:‘EBU Mode’metering tosupplement loudness normal isation in accordance with EBU R 128。

Claims

1.一种用于处理输入音频信号(100)的装置(1)，

包括评估器(10)、计算器(11)和调节器(12)，

其中，所述评估器(10)被配置为对所述输入音频信号(100)的响度进行评估，以确定响度范围(LRA_in)和实际响度值，

其中，所述计算器(11)被配置为基于所确定的响度范围(LRA_in)，基于目标响度范围(LRA_des)以及基于所确定的实际响度值来确定压缩器传递函数，

其中，所述计算器(11)被配置为基于所确定的压缩器传递函数来确定至少一个响度范围控制增益，以及

其中，所述调节器(12)被配置为基于所述输入音频信号(100)以及基于所确定的至少一个响度范围控制增益来提供输出音频信号(101)，

其中，所述计算器(11)被配置为确定所述压缩器传递函数，使得所述输出音频信号(101)的平均响度(μ_out)与所述输入音频信号(100)的平均响度(μ_in)之间的差被最小化。

2.根据权利要求1所述的装置(1)，

其中，所述评估器(10)被配置为评估所述输入音频信号(100)的响度以确定响度值的统计矩，

其中，所述计算器(11)被配置为基于所确定的响度范围(LRA_in)，基于所述目标响度范围(LRA_des)以及基于所确定的实际响度值与所确定的响度值的统计矩之间的差来确定所述压缩器传递函数。

3.根据权利要求2所述的装置(1)，

其中，所述计算器(11)被配置为基于曲线和偏移来确定所述压缩器传递函数，

其中，所述计算器(11)被配置为基于所确定的响度范围(LRA_in)和所述目标响度范围(LRA_des)来确定所述曲线，以及

其中，所述计算器(11)被配置为基于所确定的响度值的统计矩来确定所述偏移。

4.根据权利要求2或3中任一项所述的装置(1)，

其中，所述计算器(11)被配置为基于斜率和偏移来确定所述压缩器传递函数，

其中，所述计算器(11)被配置为基于所确定的响度范围(LRA_in)和所述目标响度范围(LRA_des)来确定所述斜率，以及

5.根据权利要求4所述的装置(1)，

其中，所确定的压缩器传递函数对于整个输入音频信号(100)有效。

6.根据权利要求1至5中任一项所述的装置(1)，

其中，所述评估器(10)被配置为评估整个输入音频信号(100)的响度。

7.根据权利要求1至5中任一项所述的装置(1)，

其中，所述评估器(10)被配置为评估所述输入音频信号(100)的至少一个时段的响度。

8.根据权利要求1至7中任一项所述的装置(1)，

其中，所述评估器(10)被配置为将瞬时响度值或短期响度值确定为所述实际响度值。

9.根据权利要求2至8中任一项所述的装置(1)，

其中，所述评估器(10)被配置为将平均响度确定为响度值的统计矩，

或者

其中，所述评估器(10)被配置为将积分门限响度确定为响度值的统计矩。

10.根据权利要求1至9中任一项所述的装置(1)，

其中，所述计算器(11)被配置为确定所述压缩器传递函数，使得所述输出音频信号(101)的平均响度(μ_out)与所述输入音频信号(100)的平均响度(μ_in)相等。

11.根据权利要求1至10中任一项所述的装置(1)，

其中，所述计算器(11)被配置为基于所确定的压缩器传递函数以及基于最大增益值(G_max)来确定所述响度范围控制增益，使得所确定的响度范围控制增益小于或等于所述最大增益值(G_max)。

12.根据权利要求11所述的装置(1)，

其中，所述最大增益值(G_max)由用户输入设置，

或者

其中，所述最大增益值(G_max)取决于所述输入音频信号(100)的所述目标响度范围(LRA_des)与所确定的响度范围(LRA_in)之间的差。

13.根据权利要求1至12中任一项所述的装置(1)，

还包括输入接口(13)，

其中，所述输入接口(13)被配置为接收所述目标响度范围(LRA_des)的值。

14.一种用于处理输入音频信号(100)的方法，

包括：

对所述输入音频信号(100)的响度进行评估，以确定响度范围(LRA_in)和实际响度值，

基于所确定的响度范围(LRA_in)，基于目标响度范围(LRA_des)以及基于所确定的响度值的统计矩来确定压缩器传递函数，

基于所确定的压缩器传递函数来确定至少一个响度范围控制增益，以及

基于所述输入音频信号(100)以及基于所确定的至少一个响度范围控制增益来提供输出音频信号(101)，

其中，确定所述压缩器传递函数，使得所述输出音频信号(101)的平均响度(μ_out)与所述输入音频信号(100)的平均响度(μ_in)之间的差被最小化。

15.一种计算机程序，用于当运行在计算机或处理器上时执行根据权利要求14所述的方法。