CN111183476A

CN111183476A - 基于子窗口序列内的rms功率的音频文件包络

Info

Publication number: CN111183476A
Application number: CN201880064935.2A
Authority: CN
Inventors: 伊曼纽尔·德吕蒂
Original assignee: Sony Europe Ltd
Current assignee: Sony Europe BV United Kingdom Branch
Priority date: 2017-10-06
Filing date: 2018-10-05
Publication date: 2020-05-19
Anticipated expiration: 2038-10-05
Also published as: US11450339B2; EP3692521B1; EP3692521A1; US20200265862A1; WO2019068915A1; CN111183476B

Abstract

一种方法包括基于音频文件的双窗口化分析来确定音频文件的包络。

Description

基于子窗口序列内的RMS功率的音频文件包络

技术领域

本公开总体上涉及音频处理领域，例如，音乐和广播制作、分发和传输。

背景技术

数字音频工作站(DAW)是一种电子装置或软件应用程序，用于录制、编辑和生成音频文件，例如，音乐作品、语音或声音效果。DAW通常提供一个用户接口，允许用户录制、编辑多个录制和轨道，并将其混合成一个最终制作的作品。

音乐制作包括录制、混合和掌握的处理。基于计算机的DAW通常允许音频的多轨道录制，并提供播放、录制和编辑音轨的控制。

现代的基于计算机的DAW支持软件插件，每个插件都有自己的功能，可以扩展DAW的声音处理能力。例如，存在用于均衡、限制和压缩的软件插件。也存在提供音频效果的软件插件，例如，混响和回声。并且存在为DAW提供声源的软件插件，例如，虚拟仪器和采样器。

数字音频处理可能涉及响度评估，尤其是短期响度评估(＝包络评估)。欧洲广播联盟(EBU)(参见参考文献[EBU 2011])研究了广播节目的制作、分发和传输中对音频信号电平的需求。

普遍需要在录制、混合和监控处理中为用户提供更好的计算机实施方式的辅助。

发明内容

根据第一方面，本公开提供了一种方法，包括基于音频文件的双窗口化分析来确定音频文件的包络。

根据另一方面，本公开提供了一种电子装置，包括被配置为基于音频文件的双窗口化分析来确定音频文件的包络的电路。

根据另一方面，本公开提供了一种包括指令的计算机程序，当在处理器上执行时，该指令使得处理器基于音频文件的双窗口化分析来确定音频文件的包络。

在从属权利要求、以下描述和附图中阐述了进一步的方面。

附图说明

通过参考附图的示例来解释实施方式，其中：

图1描述了滑动窗口如何包含信号和背景噪声两者；

图2a示出了在信号和背景噪声之间转换的示例性源音频文件的幅度；

图2b示出了用单窗口化处理方法确定的图2a的源音频文件的包络，其导致转换期间的响度被低估；

图3示意性地描述了包括双窗口化的短期响度评估处理；

图4示意性地描述了包括双窗口化(没有心理声学加权)的短期电平评估处理；

图5示意性地描述了双窗口化处理的第一种可能的实施方式，包括丢弃低响度子窗口，随后是剩余音频的级联和剩余音频的RMS功率的评估；

图6示出了根据图5的关于满量程正弦波在背景噪声之后的序列的实施方式；

图7示意性地描述了双窗口化处理的第二种可能实施方式，其包括丢弃低响度子窗口，随后评估剩余子窗口的平均RMS功率；

图8示意性地描述了双窗口化处理的第三种可能实施方式，其包括使用响度值本身作为系数来评估子窗口化的响度的加权平均值；

图9示出了图8关于满量程正弦波跟随背景噪声的序列的实施方式；

图10以包络跟随器的形式示意性地描述了音频文件的包络评估的示例应用；

图11a-图11c示出了双窗口化处理如何在转换期间降低处理过的音频中的较高响度；

图12示意性地描述了以两个相等电平的轨道相加的形式的音频文件的包络评估的示例应用；

图13示意性地描述了双窗口化处理的实施方式，该处理包括丢弃低响度子窗口，随后是剩余音频的级联和剩余音频的RMS功率的评估，以及锚定时间的评估；

图14示出了根据图13的关于满量程正弦波在背景噪声之后的序列的实施方式；

图15示意性地描述了双窗口化处理的实施方式，包括丢弃低响度子窗口，随后是剩余子窗口的平均RMS功率的评估以及锚定时间的评估；

图16示意性地描述了双窗口化处理的进一步实施方式，包括使用响度值本身作为系数来评估子窗口化的响度的加权平均值以及评估锚定时间；

图17示出了图16关于满量程正弦波在背景噪声之后的序列的实施方式；

图18示出了与分别使用图5、图7和图8的实施方式测量的响度的位置和值相比，利用如关于图13、图15和图16的实施方式所描述的、位于锚点处的双窗口化而测量的响度的位置和值；

图19以包络跟随器的形式示意性地描述了音频文件的包络评估的另一示例应用；以及

图20示意性地描述了用于实施处理的电子装置的实施方式。

具体实施方式

以下实施方式涉及电平和/或响度评估框架，尤其涉及从音频文件中找到窗口(瞬时或短期)电平和/或响度值。

实施方式公开了一种方法，其包括基于音频文件的双窗口化分析来确定音频文件的包络。

该双窗口化分析可以包括对源音频文件进行窗口化，以获得包含音频的窗口序列，并且对窗口序列的每个窗口进行窗口化，以获得每个窗口的相应子窗口序列。

将窗口序列的每个窗口进行窗口化成子窗口，可以产生响度曲线，响度曲线的每个值是从相应的窗口获得的。

将窗口序列的每个窗口进行窗口化成子窗口，可以产生电平曲线，从相应的窗口获得电平曲线的每个值。

上述方法可以例如集成到文件的窗口化的响度评估中。

上述方法可以例如集成到包络跟随器中。

上述方法可以例如应用于自动音频混合框架中。

这些方法可以是计算机实施的方法。例如，这些方法可以实施为软件应用、数字音频工作站(DAW)软件应用等。这些方法也可以实施为软件插件，例如，用于数字音频工作站软件。

这些方法可以例如在电子装置中实施方式，该电子装置包括被配置为执行以上和以下更详细描述的方法的电路。电子装置例如可以是计算机、台式计算机、工作站、数字音频工作站(DAW)等。电子装置也可以是膝上型电脑、平板电脑、智能手机等。电子装置的电路可以包括一个或多个处理器、一个或多个微处理器、专用电路、逻辑电路、存储器(RAM、ROM等)、存储器、输出装置(显示器，例如，液晶、(有机)发光二极管等)、扬声器、接口(例如，触摸屏、无线接口，例如，蓝牙、红外线、音频接口等)等。

响度的窗口化测量

欧洲广播联盟(EBU)为音频内容的窗口化的响度提供规范[EBU 2011]。窗口化的响度或包络的测量包括心理声学加权音频的窗口化，随后评估每个窗口中音频的均方根(RMS)功率。

也可以对未加权的音频执行评估窗口音频的RMS功率的处理，在这种情况下，评估是对窗口功率的评估而不是窗口化的响度的评估。

在窗口内的低电平和高电平音频之间存在转换的情况下，对每个窗口中音频的RMS功率进行窗口化和评估都会导致响度和功率估计的误差。

图1示出了应用于正弦波的窗口化处理。当正弦波开始或结束时，几个窗口(例如，图1中的窗口2和窗口3)包含信号和背景噪声两者。这些窗口的测量电平低于仅包含信号的窗口的测量电平(见图2b)。

图2a示出了具有信号和背景噪声之间的转换的示例性源音频文件的幅度。其显示了背景噪声与满量程正弦波交替出现的示例轨道(“源”)。

图2b示出了用单窗口化处理方法确定的图2a的源音频文件的包络。该图显示了在该示例轨道上执行电平窗口化测量的结果。转换期间的电平被低估。假设操作(例如，包络跟随器)旨在将示例轨道设置为恒定的目标响度，则上述较低的响度值将导致局部较高的增益，并因此在转换期间以较高信号电平的形式产生伪像(参见图11b和下面的相应描述)。

使用较短的窗口将导致上述伪像的衰减。然而，[EBU 2011]规定了窗口长度。用固定的窗口长度来执行诸如“瞬时响度”和“短期响度”等特定测量。

双窗口化处理

如下文更详细描述的使用双窗口化来确定输入音频包络的处理使用以下方法来衰减伪像，同时不改变窗口长度。

图3示意性地描述了涉及双窗口化的响度评估处理。在602中，输入音频61被心理声学加权，以获得加权音频62。在603中，使用双窗口化处理加权音频62，以提供包络(窗口化的响度)63。

图4示意性地描述了在没有心理声学加权的情况下涉及双窗口化的窗口电平评估处理。在603中，使用双窗口化处理输入音频61，以提供包络(窗口化的电平)64。

在图3和图4中，在包络的评估(窗口化的响度和窗口化的电平)中，双窗口化处理可以代替[EBU 2011]中所描述的窗口处理。

图5、图7和图9示意性地描述了用于评估输入音频的包络(窗口化的电平)的双窗口化处理的三种实施方式。

使用标准窗口长度来测量信号响度。每个窗口的内容本身都被窗口化处理为子窗口。在第一和第二种可能的实施方式中，从包络的评估丢弃低级子窗口。在第三种可能的实施方式中，使用加权平均值来将低级子窗口对响度评估的影响最小化。

图5示意性地描述了双窗口化处理的第一种可能的实施方式，包括丢弃低响度子窗口，随后是剩余音频的级联和剩余音频的RMS功率的评估。

在500中，对输入音频50进行窗口化，从而导致包含音频的一系列窗口51。

假设

是输入音频。

假设第n个窗口写成

假设N_window是每个窗口的长度。假设h_window是跳数，其中，h_window＜N_window。

典型值为N_window＝0.1×f_s样本，h_window＝0.05×f_s样本。

第n个窗口

包含音频样本

到

在501中，将每个加权窗口(51)本身进行窗口化，从而形成包含子窗口的窗口序列，该子窗口包含音频。

假设ω(n，ι)是第n个窗口的ι^th子窗口。

假设N_sub是每个子窗口的长度。假设h_sub是跳数，h_sub＜N_sub。

典型值是N_sub＝N_window/16，h_sub是0.5×vN_sub。

ι^th子窗口ω(n，ι)包含值

到

在502中，评估每个子窗口的内容的RMS功率。

在503中，丢弃RMS功率低于手动设置的阈值53的子窗口，从而导致在52中包含子窗口子集的窗口序列54。阈值53可以是信号中背景噪声的响度(见图7中的75)。

在504中，来自每个窗口的子窗口级联到音频窗口56，其仅包含来自RMS功率大于阈值53的子窗口的音频。

假设χ[n，ι]是子窗口ω(n，ι)的RMS功率。

窗口

被定义为RMS功率χ[n，ι]大于阈值T的子窗口ω(n，ι)的级联。

在505中，评估每个窗口56中音频的RMS功率，产生包络59。

包络

的每个元素

被定义为每个

的RMS功率。

图6示出了针对满量程正弦波在背景噪声之后的序列的上述实施方式。每个窗口被分成子窗口。丢弃包含低级音频的子窗口(在图6中，划掉丢弃的子窗口)。RMS功率的评估包括剩余的子窗口。

图7示意性地描述了双窗口化处理的第二种可能实施方式，包括丢弃低响度子窗口，随后评估剩余子窗口的平均RMS功率。

假设

是输入音频。

假设第n个窗口写成

典型值为N_window＝0.1×f_s样本，h_window＝0.05×f_s样本。

第n个窗口

包含音频样本

到

在501中，将每个加权窗口(51)本身进行窗口化，导致包含子窗口的窗口序列，子窗口包含音频。

假设ω(n，ι)是第n个窗口的ι^th子窗。

典型值是N_sub＝N_window/16，h_sub是0.5×vN_sub。

ι^th子窗口ω(n，ι)包含值

到

在502中，评估每个子窗口的内容的RMS功率。

在503中，丢弃RMS功率低于手动设置的阈值53的子窗口，导致在52中包含子窗口子集的窗口序列54。阈值53可以是信号中背景噪声的响度。

在506中，RMS功率值以线性标度表示，并且对于每个窗口，评估剩余子窗口的RMS功率值的平均值。

假设χ[n，ι]是子窗口ω(n，ι)的RMS功率，用线性标度表示。

包络

被评估为

在507中，包络用对数域表示。

在509中，

用对数域表示，

被设置为

图8示意性地描述了双窗口化处理的第三种可能实施方式，其包括使用响度值本身作为系数来评估子窗口化的响度的加权平均值。

根据图8的实施方式类似于图5的实施方式，其中，在503中，丢弃RMS功率低于阈值的子窗口。这相当于给每个子窗口附加一个系数，如果RMS功率低于阈值，则该系数为零，如果RMS功率高于阈值，则该系数为1。然而，根据图8的实施方式，在双窗口化处理中，附加系数不是零或1，而是以线性标度表示的子窗口的RMS功率。

假设

是输入音频。

假设第n个窗口写成

典型值为N_window＝0.1×f_s样本，h_window＝0.05×f_s样本。

第n个窗口

包含音频样本

到

在501中，每个加权窗口(51)本身进行窗口化，从而导致包含子窗口的窗口序列，该子窗口包含音频。

假设ω(n，ι)是第n个窗口的ι^th子窗口。

假设N_sub是每个子窗口的长度。假设h_sub是跳数，其中，h_sub＜N_sub。

典型值是N_sub＝N_window/16，h_sub是0.5×vN_sub。

ι^th子窗口ω(n，ι)包含值

到

在502中，评估每个子窗口的内容的RMS功率。

在508中，将包络的每个值被评估为窗口

中子窗口的RMS值的加权平均值，RMS值本身就是系数。

假设χ[n，ι]是子窗口ω(n，ι)的RMS功率，用线性标度表示。

对于每个n，

被设置为

在509中，

用对数域表示，

被设置为

图9示出了满量程正弦波在背景噪声之后的序列的上述实施方式。每个窗口都被分成子窗口。子窗口的RMS功率值的加权平均值的系数是RMS功率值本身。

示例性的标准窗口长度范围在44kHz中从2^14到2^17样本，分为16个子窗口。

包络跟随器

包络跟随器是一种算法，使音频文件的包络(源包络)与目标包络(可能是目标音频文件的包络)一致，从而生成新的音频文件。

图10示意性地表示包络跟随器。

在700中，从源音频文件70中提取包络(短期电平)，产生源72的包络。

在701中，从源音频文件71中提取包络(短期电平)，产生源73的包络。

两个包络都用对数标度表示。

在702中，从目标包络73中减去源包络72，从而产生将施加于源70的增益74，使得其包络与目标包络73一致。

实际上，由于会导致背景噪声与信号一样大，因此当源仅包含背景噪声时，不应应用增益。在707中，将背景噪声电平75与源包络进行比较。在704中，如果源包络72大于背景噪声电平75，则应用增益。

评估包络的正确性对包络跟随器的性能有影响。

图11a-到11c示出了利用包络跟随器在示例轨道上执行电平的窗口化测量的结果。图11a示出了背景噪声与满量程正弦波交替的示例轨道(“源”)。图11b和图11c示出了在该示例轨道上执行电平的窗口化测量的结果。图11b对应于用单窗口化处理源时的结果电平。图11c对应于用双窗口化处理源时的结果电平。假设包络跟随器旨在将示例轨道设置为恒定的目标电平，在包络评估期间用双窗口化处理替换窗口处理将在背景噪声和满量程正弦波之间的转换期间导致更小的伪像(图11b和图11c)。

混合多轨道

图12示意性地描述了使用上述图10中描述的包络构造处理来混合设置在相同电平的两个音频文件的处理。

根据图12的示例，项目包含两个音轨，轨道A 81和轨道B 82。在801中，将上述图10中描述的包络构造处理应用于轨道A和轨道B。在该处理中，轨道A被用作源音频文件70，轨道B被用作目标音频文件71。如关于图11的处理所述，增益74由轨道A和轨道B确定。所获得的增益G应用于轨道A 81，该轨道如参考图10所描述的那样充当源音频文件70，以获得轨道A’83，作为结果音频文件79。然后，在802中，以常规方式确定轨道A’和轨道B的总和，以获得输出轨道O。

如果项目包含多个轨道，则上述处理可以迭代地应用于项目的一些或所有音轨，以便以自动方式平衡轨道的电平。如果例如项目包含三个轨道，轨道A、轨道B和轨道C，则在第一步骤中，轨道A的响度可以适应于轨道B的响度，以获得轨道A的修改版本，表示为轨道A’，并且轨道A’和轨道B可以以常规方式相加，以获得轨道O，如上面关于图12所述。然后，在第二步骤中，使用上述相同的处理，轨道O的响度可以适应轨道C的响度，以获得轨道O’，轨道O’和轨道C可以以常规方式相加，以获得轨道M，作为混合处理(主声道输出)的结果。可以以模拟方式处理具有三个以上轨道的项目。

锚定时间

下面更详细描述的图13、图15和图16示意性地描述了用于评估输入音频的包络(窗口电平)的双窗口化处理的实施方式的三个额外实施方式。这些额外实施方式分别基于图5、图7和图8的实施方式。在这些额外实施方式中，为每个窗口评估锚定时间。锚定时间指定各个窗口的时间。在第一和第二可能的实施方式中(图13和图15)，锚定时间被评估为剩余子窗口的平均位置。在第三实施方式中(图16)，锚定时间被评估为子窗口的加权平均位置，权重是子窗口的响度，以线性标度表示。

在所有三种实施方式中，输出信号响度是一条曲线，其横坐标是一系列锚定时间值，其纵坐标是一系列测量的响度。

图13示意性地描述了双窗口化处理的实施方式，该处理包括丢弃低响度子窗口，接下来是剩余音频的级联，和剩余音频的RMS功率的评估，以及锚定时间的评估。

该实施方式的步骤500、501、502和503与图5的实施方式相同，因此省略描述。这些步骤500、501、502和503导致包含52中子窗口子集的窗口序列54，其中，已经丢弃RMS功率低于手动设置阈值53的子窗口。

在504中，来自每个窗口的子窗口级联到音频窗口56，音频窗口56仅包含来自RMS功率大于阈值53的子窗口的音频。

在505中，评估每个窗口56中音频的RMS功率(响度)，标注为

包络

的每个元素

被定义为每个

的RMS功率。

在506中，为每个第n个窗口54评估锚定时间57。锚定时间57是相应窗口内剩余子窗口的平均位置。标注为

如下评估该锚定时间57。首先，每个子窗口ω(n，ι)的锚定时间τ(n，ι)被定义为每个ω(n，ι)中样本的中间位置。锚定时间

被定义为在

中剩余的子窗口的锚定时间的平均值。如果丢弃所有子窗口，则锚定时间

被定义为窗口

的中间位置。

在510和512中，输出包络被定义为响度序列，即在相应时间

发置的值

响度值

(58)构成输出包络59的横坐标，锚定时间

(57)构成输出包络(59)的纵坐标。

图14示出了根据图13的在一个序列上的实施方式，其中，满量程正弦波在背景噪声之后。图14中显示了窗口1、窗口2、窗口3和窗口4的四个示例锚定时间。锚定时间57是如上面关于图13所述的子窗口位置的平均值。在窗口1的情况下，丢弃所有子窗口。因此，锚定时间被定义为窗口的中间位置。

图15示意性地描述了双窗口化处理的实施方式，包括丢弃低响度子窗口，随后评估剩余子窗口的平均RMS功率和评估锚定时间。

该实施方式的步骤500、501、502和503与图7的实施方式相同，因此省略描述。这些步骤500、501、502和503导致包含52中子窗口子集的窗口序列54，其中，已经丢弃RMS功率低于手动设置阈值53的子窗口。

假设χ[n，ι]是子窗口ω(n，ι)的RMS功率，用线性标度表示。

对于每个n，表示为

的包络的纵坐标被评估为

ι是在503之后剩余的子窗口的索引。

在507中，响度序列

(58)用对数域表示，其中，

被设置为

在511中，以与图13的实施方式中类似的方式，为每个第n个窗口(51)评估锚定时间(57)。锚定时间再次表示为

如下评估这些锚定时间

(57)：首先，每个子窗口ω(n，ι)的锚定时间τ(n，ι)被定义为每个ω(n，ι)中样本的中间位置。锚定时间

被定义为在

被定义为窗口

的中间位置。

在510和512中，输出包络被定义为在时间

设置的值

(58)是输出包络59的横坐标，

(57)是输出包络59的纵坐标。

图16示意性地描述了双窗口化处理的另一种可能的实施方式，包括使用响度值本身作为系数来评估子窗口化的响度的加权平均值并且评估锚定时间。该实施方式的步骤500、501和502与图8的实施方式相同。在502，评估每个子窗口的内容的RMS功率。

在508中，包络的每个值被评估为窗口

中子窗口的RMS值的加权平均值，RMS值本身就是系数。

假设χ[n，ι]是子窗口ω(n，ι)的RMS功率，用线性标度表示。

对于每个n，

被设置为

在509中，

(58)用对数域表示，

被设置为

在511中，每个第n个窗口(51)额锚定时间(57)被评估为子窗口的加权位置。如在图13和图15的实施方式中，锚定时间被表示为

如下评估锚定时间

被定义为子窗口的锚定时间的加权平均值，其中，权重是每个子窗口的RMS。形式上，

其中，

是逐项或Hadamard乘积。如果所有子窗口的RMS为零，即，如果对于给定的n，∑_ιχ[n，ι]＝0，则锚定时间

被定义为窗口

的中间位置。

在510和512中，输出包络被定义为在时间

设置的值

响度值

(58)构成输出包络59的横坐标，锚定时间

(57)构成输出包络59的纵坐标。

图17示出了图16在序列上的实施方式，其中，满量程正弦波在背景噪声之后。每个锚定时间57是子窗口位置的平均值。在窗口1的情况下，由于所有子窗口的RMS为零，所以锚定时间被定义为窗口的中间位置。

图18示出了与分别使用图5、图7和图8的实施方式(黑色)测量的响度的位置和值相比，利用双窗口化测量的响度的位置和值，如关于图13、图15和图16的实施方式所描述的那样，位于锚点处。细线表示如图13、15和16中描述的使用双窗口化和锚点的响度测量，而粗线表示分别如图5、7和8中描述的使用窗口的响度测量。测量值上方的矩形表示测量的波形(信号和噪声)。从图18可以看出，在使用锚定时间的实施方式的情况下，响度测量更精确。

符合共同时间线的包络跟随器

图19以包络跟随器的形式示意性地描述了音频文件的包络评估的另一示例应用。该实施方式基本上对应于图10的实施方式，因此对于包络跟随器的一般解释，参考图10的描述。图19的实施方式与图10的实施方式的不同之处在于添加了处理710，其中，源包络72和目标包络73符合共同的时间线。实施方式操作710的可能处理包括插值。

实施方式

下面，参考图20描述电子装置130的实施方式。电子装置(此处是计算机930)可以被实施为使得可以基本上用作本文描述的任何类型的音频处理设备或音频处理实体。计算机具有组件931至940，其可以形成电路，例如，音频处理装置的任何一个电路。

使用软件、固件、程序、插件等来执行本文描述的处理的实施方式可以安装在计算机930上，计算机930然后被配置为适合于该实施方式。

计算机930具有CPU 931(中央处理单元)，该CPU 931可以执行本文描述的各种类型的处理和方法，例如，根据存储在只读存储器(ROM)932中、存储在存储器937中并加载到随机存取存储器(RAM)933中、存储在介质940中的程序来执行，该介质940可以插入到相应的驱动器939等中。

CPU 931、ROM 932和RAM 933与总线941相连，总线941又与输入/输出接口934相连。CPU、存储器和存储装置的数量仅仅是示例性的，本领域技术人员将会理解，可以相应地调整和配置计算机930，以满足当其用作基站和用户设备时出现的特定要求。

在输入/输出接口934处，连接了几个组件：输入935、输出936、存储器937、通信接口938和驱动器939，介质940(光盘、数字视频光盘、压缩闪存等)可以插入其中。

输入935可以是指针装置(鼠标、图形表等)、键盘、麦克风、相机、触摸屏等。

输出936可以具有显示器(液晶显示器、阴极射线管显示器、发光二极管显示器等)、扬声器等。

存储器937可以具有硬盘、固态驱动器等。

通信接口938可以适用于例如经由局域网(LAN)、无线局域网(WLAN)、移动电信系统(GSM、UMTS、LTE等)、蓝牙、红外线等进行通信。

应当注意，以上描述仅涉及计算机930的示例配置。替代配置可以用额外的或其他传感器、存储装置、接口等来实施方式。例如，通信接口938可以支持除了提到的WLAN、GSM、UMTS和LTE之外的其他无线接入技术。

在一些实施方式中，当在计算机和/或处理器和/或电路上执行时，本文描述的方法还被实施为使计算机和/或处理器和/或电路执行该方法的计算机程序。在一些实施方式中，还提供了在其中存储计算机程序产品的非暂时性计算机可读记录介质，当该计算机程序产品由处理器/电路(例如，上述处理器/电路)执行时，促使执行本文描述的方法。

应当认识到，实施方式描述了具有方法步骤的示例性顺序的方法。然而，仅出于说明的目的给出方法步骤的特定顺序，不应被解释为具有约束力。

还应当注意，将图20的控制或电路划分为单元931至940仅仅是为了说明的目的，并且本公开不限于特定单元中的任何特定功能划分。例如，至少部分电路可以由相应的编程处理器、现场可编程门阵列(FPGA)、专用电路等实施方式。

如果没有另外规定，本说明书中描述的和所附权利要求中要求的所有单元和实体可以被实施为集成电路逻辑，例如，在芯片上实施方式，并且如果没有另外规定，由这些单元和实体提供的功能可以由软件实施方式。

就至少部分地使用软件控制的数据处理设备来实施方式上述公开的实施方式而言，应当理解，提供这种软件控制的计算机程序和提供这种计算机程序的传输、存储或其他介质被设想为本公开的各方面。

注意，本技术也可以如下所述进行配置：

(1)一种方法，包括基于音频文件的双窗口化分析(603)来确定音频文件(50)的包络(59、63、64)。

(2)根据(1)所述的方法，其中，所述双窗口化分析(603)包括对所述源音频文件进行窗口化(500)，以获得包含音频的窗口序列(51)，并且对所述窗口序列(51)的每个窗口进行窗口化(501)，以获得每个窗口(51)的相应子窗口序列(52)。

(3)根据(2)所述的方法，其中，从窗口(51)的序列确定包络(59、63、64)包括丢弃响度低于阈值(53)的子窗口(52)，并通过剩余音频评估每个窗口(51)的响度。

(4)根据(2)所述的方法，其中，从窗口(51)的序列确定包络(56)包括为每个窗口确定每个窗口(51)中子窗口(52)的响度的加权平均值，其中，系数是子窗口(52)的响度值。

(5)根据(1)至(4)中任一项所述的方法，还包括根据源音频文件(31)确定响度曲线(59)。

(6)根据(1)至(5)中任一项所述的方法，其中，所述方法应用于包络评估框架中。

(7)根据(1)至(6)中任一项所述的方法，其中，所述方法应用于包络跟随器框架中。

(8)根据(1)至(7)中任一项所述的方法，其中，所述方法应用于自动音频混合框架中。

(9)根据(1)至(7)中任一项所述的方法，还包括确定每个窗口的锚定时间(57)，并且将输出包络(91)确定为在相应锚定时间(57)设置的响度值(58)的序列。

(10)根据(9)所述的方法，其中，锚定时间(57)被评估为子窗口的平均位置。

(11)根据(9)所述的方法，其中，锚定时间(57)被评估为子窗口的加权平均位置，所述权重是以线性标度表示的子窗口的响度。

(12)一种电子装置，包括被配置为基于音频文件的双窗口化分析(603)来确定音频文件(50)的包络(59、63、64)的电路。

(13)一种包括指令的计算机程序，所述指令在处理器上执行时使得处理器基于音频文件的双窗口化分析来确定音频文件的包络。

(14)一种存储指令的计算机可读介质，所述指令在处理器上执行时使得处理器基于音频文件的双窗口化分析来确定音频文件的包络。

(15)一种电子装置，包括被配置为执行根据(1)至(11)中任一项所述的方法的电路。

(16)一种包括指令的计算机程序，所述指令在处理器上执行时使得处理器执行根据(1)至(11)中任一项所述的方法。

(17)一种存储指令的计算机可读介质，所述指令在处理器上执行时使得处理器执行根据(1)至(11)中任一项所述的方法。

参考文献

[EBU 2011]EBU-TECH 3341 Loudness metering：‘EBU mode’metering tosupplement loudness normalisation in accordance with EBU R 128.”，EBU/UER，August 2011。

Claims

1.一种方法，包括基于音频文件的双窗口化分析来确定音频文件的包络。

2.根据权利要求1所述的方法，其中，所述双窗口化分析包括对源音频文件进行窗口化，以获得包含音频的窗口序列，并且对所述窗口序列的每个窗口进行窗口化，以获得所述每个窗口的相应子窗口序列。

3.根据权利要求2所述的方法，其中，从所述窗口序列确定所述包络包括：丢弃响度低于阈值的子窗口，并通过剩余音频来评估所述每个窗口的响度。

4.根据权利要求2所述的方法，其中，从所述窗口序列确定所述包络包括：为所述每个窗口确定在所述每个窗口中的所述子窗口的响度的加权平均值，其中，系数是所述子窗口的响度值。

5.根据权利要求1所述的方法，还包括根据源音频文件确定响度曲线。

6.根据权利要求1所述的方法，其中，所述方法被应用于包络评估框架中。

7.根据权利要求1所述的方法，其中，所述方法被应用于包络跟随器框架中。

8.根据权利要求1所述的方法，其中，所述方法被应用于自动音频混合框架中。

9.根据权利要求1所述的方法，还包括：确定每个窗口的锚定时间，并且将输出包络确定为在相应锚定时间设置的响度值序列。

10.根据权利要求9所述的方法，其中，锚定时间被评估为子窗口的平均位置。

11.根据权利要求9所述的方法，其中，锚定时间被评估为子窗口的加权平均位置，其中，权重是以线性标度表示的子窗口的响度。

12.一种电子装置，包括电路，所述电路被配置为基于音频文件的双窗口化分析来确定音频文件的包络。

13.一种包括指令的计算机程序，当在处理器上执行时，所述指令使得所述处理器基于音频文件的双窗口化分析来确定音频文件的包络。