CN1981433A

CN1981433A - 自动调整音频信号的音量的方法和系统

Info

Publication number: CN1981433A
Application number: CNA2005800223507A
Authority: CN
Inventors: B·托尔维
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-06-30
Filing date: 2005-06-13
Publication date: 2007-06-13
Also published as: US20080095385A1; JP2008504783A; WO2006003536A1; EP1763923A1

Abstract

本发明描述了一种自动调整音频信号的音量的方法，该方法包括：对输入音频信号(1)的采样进行音量的量度的计算；识别这些音量量度中随时间流逝的多个不同音量线(L₁、L₂、L₃、L₄)；并根据所识别的音量线(L₁、L₂、L₃、L₄)对输入音频信号(1)的采样进行修改，从而给出音量已调整的输出音频信号(5)。

Description

自动调整音频信号的音量的方法和系统

发明领域

本发明涉及一种自动调整音频信号的音量的方法。

本发明还涉及一种自动调整音频信号的音量的系统。

本发明还涉及一种调整音频信号的音量的自动音量控制设备。

背景技术

已经开发了很多致力于控制音频信号的音量级的方法，即自动调平(leveling)或者自动均衡。现有的自动调平特征声称利用压缩/扩展算法实现了自动调平任务，从而提高了音频信号的寂静部分的音量并降低了音频信号尖锐部分的音量。这些算法通常着眼于音乐的音频波形的瞬间幅度，并且通过将适当的增益值应用到输出来修改该幅度，从而对过度或者不足的音量进行补偿。例如，US5892834建议了一种方法，用于限制汽车环境中的CD播放器的输出的音量，借此检查音频信号的瞬间幅度，看其是否超过某一阈值。如果超过该阈值，则音频信号的幅度被衰减，以便给出一个修改后的输出信号。

然而，选择增益增加或者释放的时间(这个时间是增加或者降低增益以达到目标级所用的时间)其自身也带来问题。采用短的增益增加或者释放时间通常导致“泵浦效应”，其是由高、低增益之间快速转换引起的。泵浦效应导致输出信号的声音过渡有一个明显的音量的下降，这导致信号听起来不舒服。采用更长的增益增加时间会在某种程度上降低泵浦效应，但是增益调整功能的性能也因此下降，这是因为接着要花很长的时间去有效放大或者衰减输出信号的音量。在这两种情况中，由于最终的失真，而引起最后的输出信号听起来不舒服。

发明内容

因此，本发明的一个目的是提供一种可以用来自动均衡音频信号的音量级，同时保持音频信号自然，特别是使该信号不失真的方法和系统。

为此，本发明提供一种自动调整音频信号音量的方法，该方法包括：对输入音频信号的采样进行音量量度的计算；识别这些音量量度中随时间流逝的多个不同音量线(loudness line)；并根据所识别的音量线对音频信号的采样进行修改，从而给出音量已调整的输出音频信号。

因此，“音量线”是描述音频信号的音量的音量走向的特征例如持续时间、变化速率等的方法，这些特征通常随时间变化而变化，某些部分音量变大、其他部分变得安静，而剩下的部分的音量基本上保持恒定。这些变大或者变安静或者保持不变的走向可以被描述为音频信号所遵循的走向。

自动调整音频信号的音量的适当系统包括：计算单元，其计算输入音频信号的采样的音量量度；识别单元，其识别音量量度中多个不同的音量线；以及修改单元，其根据所识别的音量线对音频信号的采样进行修改，从而给出音量已调整的输出音频信号。

因此，该方法和系统提供了一种自动调整音频信号音量级的简单方法，为听众提供了音量基本上一致的未失真的音频信号，并避免了听众必须手动调整音量。由于本发明识别音频信号所遵循的音量走向，并据此调整音频信号的音量，因此调整后的输出信号不具有任何现有技术中存在的不期望的泵浦效应。由于节目、商业广告或者音乐节段等之间的明显音量变化的刺耳效应被消除了，并且整个音量级保持基本上恒定，因而听音乐和广播或者电视节目等的体验通过本发明被明显提高。在其他应用中，例如头戴式耳机或者入耳式监控器，自动音量调整可以被用来快速且自动地调整音频信号的音量，使得该音频信号的音量不超过某一阈值，从而保证听众不会由于信号声音过大而遭受听力的损害。

从属权利要求和下面的说明书公开了本发明的特别有益的实施例和特征。

“音频信号”可以是源自任何音频信号源例如天线或者卫星接收机等的任何信号，优选是数字的；输入到例如收音机、电视或者扬声器等设备的音频输入；音乐数据文件；MP3音乐文件等。音频信号还可以由模拟源例如麦克风等产生，并随后通过以常见方式采样被转换成适于作进一步处理的数字格式。

音量是与人耳感知的物理声压级有关的主观量度。已经研究出数种模拟人类的音量感知的复杂数学方法，但是这些方法执行起来非常费时，因而它们不适于实时环境的应用。因此，在本发明一个优选实施例中，对音量与声音能量强烈相关的事实进行了利用，从而采用了计算相对简单的音频信号能量量度，而不采用更复杂的数学模型。在本发明的一个具体的较佳实施例中，利用数字输入信号的采样幅度来计算的均方根(RMS)值被用作音量感知的代表性数学模型。针对若干连续采样计算的RMS值因而是这些采样的代表性音量量度。在这种类型的计算中，利用了采样的幅度的绝对值。除RMS计算之外或者作为RMS的代替，采样的绝对值可以直接被用作音量量度。在此，最好在绝对值计算之后，进行低通滤波，以便平滑输入信号的动态特性。

随着时间的流逝，计算的音量量度的数量会增加。如果在时间轴上描绘这些音量量度，看上去，它们将形成群或者组。一组可以看上去并入了相邻的组，也可以与相邻的组非常明显地分开。本发明的方法优选识别出音量量度的每一个组的不同走向或者音量线。音量量度的组与能够根据音量来相互区分开的音频信号部分对应。例如，音量量度的组可以呈现出跟随着幅度上升或下降的走向，其可以呈现出随着时间的流逝保持或多或少的恒定，或者其可以明显高于或者低于其相邻的组。在一个优选实施例中，一个新的组还可以在用户作出某种动作之后立刻建立，其中这个动作例如通过改变电视的频道、通过转动旋钮或者按压遥控器上合适的按钮来手动改变音量，或者通过将音频收听设备例如MP3播放器转换到另一个磁道，因而通常伴随着音量的即时变化。

本发明的方法利用通过对音量线的特性进行解释而获得的信息来调整音频信号的音量，例如通过调整适当采样的增益来调整音量。为了确定需要调整的增益度，可以预先设定一个基准音量级，或者可以由用户指定一个基准音量级。例如，一些听众喜欢整个音量级都相对安静，而其他听众可能更喜欢始终保持较大的音量。可以限定最大音量级和/或最小音量级，或者其可以足以限定整体的平均音量级。

为了确定将要对输入音频信号的采样作怎样的调整以便给出期望音量的输出音频信号，本发明确定了音量线的特性，例如倾斜度和相对位置。例如，如果一个音量线与前面的音量线相比，其上升得更陡或者所处的位置更高，则表明输入信号的整体音量级已经增加。调整与该组相关的采样的幅度，以便使输出音频信号的相应部分的音量衰减。类似地，如果识别到部分输入音频信号的音量线低于期望的最低音量级，则放大相应的采样，以便使输出音频信号的音量在该部分上增加。

音频采样的衰减或者放大可以保持音量线的倾斜度，或者还可以对其进行补偿。例如，如果音量线表明相应的组音量太大而同时音量在下降，则相应采样可以全部被衰减相同的量，以便在输出音频信号中反映出音量的下降，或者可以利用越来越小的值对增益进行衰减，以便输出音频信号在相应的部分上保持相对恒定的音量级。

在本发明的一个优选实施例中，如果音量量度的值位于一个组的预定容限界限之内，则将该音量量度识别为属于这个组。这个容限界限可以是恒定值，或者可以由用户配置。由于较低的容限界限导致更大数目的不同音量线被识别，而较高的容限界限可能降低识别的音量线的总数。所以，由于较低的界限导致输出音频信号相对应更大的调整量，因而该容限界限可以而被认为是该系统的性能质量的量度。

可以应用大量的已知方法来计算音量量度组的音量线。这些音量线不必是直线，而可以是与该组的走向最匹配的二阶或者更高的曲线。然而，由于越简单的方法计算越快，因此，针对组的音量量度，本发明的优选实施例应用线性插入或者均值计算的技术，以便识别出连续音量量度组内不同的音量线。

本发明可以应用于实时环境，例如自动调整电视音频输出信号或者入耳监控器信号的音量。然而，本发明还可以用于对音频信号进行预扫描，以便可以在收听音频信号之前，计算需要调整的增益值。

在预扫描模式中使用本发明，允许更高的计算准确度，这是因为计算的结果不需要马上被利用。这样的应用的一个示例中，可以预先计算要对便携存储设备、计算机或者便携音频设备上存储的音乐集中的多首歌曲进行的增益调整，以便在播放这些歌曲的过程中，始终保持一个整体音量级。在另一个示例中，可以预先计算要对电视记录中音频内容的音量进行的增益调整，以便听众可以在数天后观看该记录时，能始终享受一个预定的整体音量级。

增益调整值可以与应用这些增益调整值所需的所有信息一起存储，和音频信息存储在一起，或者存储在单独的数据文件中。例如，增益调整的值以及任何相关信息可以被存储在MP3音乐文件的头部，或者以适于随后的应用的格式存储在MP3流本身中。可替换地，增益调整的值以及任何相关的信息可以存储在单独文件中，以某种方式链接到它们将要应用到的音频文件。

在本发明的又一个实施例中，增益调整值可以直接应用到输入音频信号的采样，并存储在修改后的音频文件中。如果输入音频信号由一个音频文件产生，则该音频文件可以保持不变，或者被修改后的音频文件代替。

自动音量调整的系统可以由任何音频处理设备实现，其中这些音频处理设备可以是只用于音量调整的独立设备，并位于例如卫星接收机或者机顶盒和用于自动调整电视音量的扬声器之间。在此，音频处理设备被理解成具有对音频信号来说线性输入、并且具有对该音频信号执行信号处理(优选是数字的)的装置的任何设备。同样，自动调整音量的系统可以作为另一个设备的一部分并入其中，在该设备中，该系统可以自动地为用户保持均等的音量级，该设备位于例如上述的设备或者电话、随身听、入耳监控器或者具有扬声器或者音频线性输出的任何设备中。

在进一步的实现中，自动音量调整系统还可以具有将音量调整之后的信号和/或描述该音量调整的信息存储到内部或者外部存储器中的装置。因此，“自动音量调整系统”将被理解成这样一个系统，其可以对音频输入信号进行处理以便计算出任何所需的音量调整、并应用这些调整以便给出期望输出信号和/或将信息存储到存储器存储设备。

例如，在优选的应用中，自动音量调整系统可以被并入汽车无线电中，使得即使是在不同的广播区域中自动改变电台时，无线电台的音量也保持相对恒定的音量级。在另一应用中，这样一个自动音量调整系统可以并入到电话中，以便通过扬声器的输出音量不超过期望的阈值，从而保证使用该电话的人不用受到电话另一端声音很大的用户的刺耳以及经常是不舒服的影响，或者是被置于暂停状态时不受声音大的音乐的影响。一个将被许多用户所欣赏的应用，是将这样一个自动音量调整设备与电视结合使用，以便商业广告的音量不再超过前面和后面节目内容的音量。

根据本发明的自动音量调整系统或者包括这样一个系统的音频处理设备，可以通过实现软件模块或者计算机程序产品来执行上述的某些处理步骤。这样一个计算机程序产品可以直接装载到例如家庭hi-fi系统、PC、电话、随身听等中的可编程音频处理设备的存储器中。因此，某些用来缓冲输入音频信号、计算RMS值、计算组平均值和过滤调整值的单元可以通过计算机程序模块的形式来实现。由于任何所需的软件或者算法可以被编码在硬件设备的处理器中，因此，可以容易地利用现有的音频处理设备来获得本发明特征的益处。代替地，适当的时候，上述的某些单元同样可以通过硬件模块来实现。

根据本发明，音频信号和其相关的音量线和/或增益调整值可以被存储在存储器设备中。这样一个存储器设备可以是例如CD、硬盘、DVD、记忆棒等。音量线和/或增益调整值可以并入到具有音频信号的数据文件中，或者可以被存储到存储器的单独的扇区或者块中。在这种情况中，最终用来将音频信号呈现成可听声音的音频处理设备不需要包含用于计算音量量度的计算单元和用来识别音量线的识别单元。这个音频处理设备可以从存储器中检索出之前计算的音量线和/或与音频信号相关的增益调整值，并在修改后的信号被传送到扬声器之前，将音量线和增益调整值应用到音频信号，这样已经足够了。

通过结合附图的下面说明，本发明的其他目的和特征将变得明显。然而，应理解附图仅用于图示说明，并不是本发明的限制。

附图说明

图1是根据本发明实施例的自动音量调整系统的框图；

图2示出了按时间描绘的音量量度图；

图3a是音频信号图，按时间描绘出该音频信号的幅度；

图3b是调整后音频信号图，按时间描绘出该调整后音频信号的幅度；

图4是一个框图，示出了采用根据本发明一个实施例的自动音量调整系统的应用；

图5是一个流程图，示出了音频信号的实时处理方法中的步骤；

图6是一个流程图，示出了音频信号的前期处理方法中的步骤；

图7是一个流程图，示出了在音频信号的前期处理过程中，用来确定过渡时间的方法的步骤。

具体实施方式

在下面的附图说明中，相同的附图标记表示相同的对象。

图1是用于自动调整音频信号音量的系统6的简单框图，示出了下述过程中涉及的基本步骤：分析输入音频信号l以便给出音量被调整的音频输出信号5。输入音频信号1可以由例如接收机、数据库等的源9产生，并且是采样后的数字格式。输出音频信号5可以被转送到扬声器10，或者可以被存储在数据库11以便在稍后的时间点上播放。

在第一处理步骤，计算单元2对输入音频信号1的采样的音量量度进行计算。如果系统6正用于实时环境，则音量量度的计算基本上是一个接一个来进行的，或者如果该系统正用于预扫描应用的话，它们可以以并行或者批量的模式来计算。

在这个实施例中，根据

RMS = \frac{1}{N} \sqrt{{Σ_{i = 1}^{N} (x_{i} - \bar{x})}^{2}} - - - (1)

来计算出输入音频信号1的采样的RMS(均方根)，

其中x_i是第i个采样的幅度；

N是RMS被计算的采样的数量。

是所有的x_i的平均值，其由下式给出

\bar{x} = \frac{1}{N} Σ_{i = 1}^{N} x_{i} - - - (2)

N的值是通过用来缓冲输入信号的采样的缓冲器的量以及音频信号的采样速率来确定的。例如，对于0.1s的缓冲器以及44100Hz的采样速率，N将是4410。通常N的通式是

N=Fs·BL，

Fs是以赫兹(Hz)来表示的采样速率；

BL是在以秒来计算的缓冲器的大小。

对于没有DC偏压的普通音频信号(例如音乐)，公式(2)中的平均值

为零，因此，该方程被简化成将这个RMS值所考虑的N个采样的幅度x_i的所有平方值相加，对得到的和开平方根，并除以采样N的数量，如公式(1)所给出的那样。

出于说明的目的，在图2中按照时间描绘出RMS值。图中每一个点表示一个利用多个采样的幅度来计算的RMS值。可以清楚地看出这些点形成群或者组G₁、G₂、G₃、G₄。组G₁、G₂、G₃、G₄可以清楚地相互分离，例如组G₁和G₂，或者一个组可以延伸到另一个组中，例如G₃和G₄。

RMS值被转发到下述的识别单元3，其对每一个RMS值与前一个RMS值的关系进行检查，以便确定当前RMS值是否足够接近前一个。为此，识别单元3将当前RMS值与之前计算的平均值进行比较。如果C_m表示当前组G₁、G₂、G₃、G₄的当前平均值并且C_r是容限的界限或者允许的偏差，则决定归结为检查不等式：

C_m-C_r≤RMS≤C_m+C_r (3)

如果当前RMS值满足这个不等式的话，则其被包括在组G₁、G₂、G₃和G₄中，并相应地更新组G₁、G₂、G₃和G₄的平均值C_m。

可替换地，基于组G₁、G₂、G₃和G₄的目前走向，C_m还可以表示下一个期望的RMS值。

通过应用适当的线性内插或者平均计算技术，识别单元3计算当前组G₁、G₂、G₃和G₄的音量线L₁、L₂、L₃和L₄。组G₁、G₂、G₃和G₄的音量线L₁、L₂、L₃和L₄表示为穿过图2中点群的直线，其是音频信号1的音量随时间的流逝的走向呈现出线性指示。音量线的倾斜度表示音频信号1是变得更安静还是变得更响，或者音频信号1的音量级是否保持不变。音量线y的等式可以被表示为

y(t)＝b+a·t (4)

其中b是组开始时的增益(dB)，

a是音量线的倾斜度，即每秒中增益的变化(dB/s)，

t是时间的量度(s)。

一旦识别到这个信号1的音量线L₁、L₂、L₃和L₄，修改单元4就可以将这个信息应用来修改音频信号1的采样。如果系统工作于实时应用，则修改单元对音频信号的采样执行调整。在预扫描模式中，在计算出所有音量线之后，修改单元4可以首先执行任何调整。修改单元4计算将要被应用到每一个采样的增益，以便在整个输出音频信号5期间保持预定的音量级。将要被应用的按时间变化的增益通过下列方程来计算：

g(t)＝-{y(t)+LT} (5)

其中g是内插增益值(dB)，

LT是阈值(典型地是10dB)。

图3a示出了输入音频信号1，其特征为该信号的整体音量随时间流逝而波动。虚线表示期望的整体音量级L。很明显，部分音频信号明显偏离这个级L。

在对系统6中处理音频信号1和调整输出音频信号5的采样增益之后，最终产生的音频信号5呈现出图3b所示的那样。在此，所应用的增益调整被表示为叠加在音频波形上的不同倾斜度的直线A₁、A₂、A₃和A₄，并且可以看到应用到该信号的幅度上的相应调整。调整后音频输出信号5保持全部的特有形状，但是这个信号5的音量的波动不如输入音频信号1那样明显。

图4的框图示出了实际的应用，其中，自动音量调整系统6被并入到设备7中。电视信号15通过接收器9接收，并且被转发到分离器14，在分离器中，音频信号1被提取出来。音频信号1被传输到自动音量调整设备7，该设备执行上述步骤，以便给出一个音量级随时间的过去而调整的输出音频信号5。输出音频信号的期望音量级可以由用户利用典型的用户接口例如遥控器来指定，在图中未示出。随后将调整后的音频输出信号5在扬声器10上重放给用户。扬声器10可以被并入到电视8中，或者可以与电视8分离。在作为一个时延后的视频信号16被转发到电视8之前，通过分离器14提取的任何视频信号都可以在时延单元17中被时延，以便补偿自动音量调整设备7中发生的任何时延。这个应用对使通常在节目和商业广告之间切换时发生的音量级均衡的情况来说特别有用。均衡后的音量级也将被用户认同，因为不经过均衡的话，他们将很难听到以大声的声音效果和音乐声道为特征的电影中相对比较安静的对话。在这种情况中，自动音量调整设备7自动提高对话中的较安静的部分的音量，如果需要的话，同时降低声音效果或音乐的音量级。用户可以只需享受电影而不必不断地亲自调整音量。

图5-7是流程图，它们更详细地示出了自动音量调整中涉及的处理步骤。流程图还明显示出可以在哪一个单元进行特定的处理步骤。

图5示出了输入音频信号1的实时处理中涉及的步骤。由于RMS值的计算需要多个在先采样，因此输入信号1首先被缓冲到输入缓冲器20(0.1s的数量级或者更小)中。接下来计算单元2对采样进行RMS值的计算，并在块21中将该值与实际的位于识别单元3中的组平均值进行比较。组平均值被初始化成一个常数，例如0.5，但是基本上可以是任何正实数值。块21将新的RMS值与实际的组平均值进行比较。如果新的RMS值与组平均值靠得不够近，则意味着新的组可能正在形成，即音频信号1的音量可能正明显变大或变小。判决模块22检查以查看前一个RMS值是否已经被存储。如果没有，则存储新的RMS值，否则的话，利用存储的以及新的RMS值形成一个新的组以便计算出组平均值，其中组平均值进而又在块28中被存储。这个组平均值现在是新的组的平均值。计算下一个RMS值，并且在块21中将其与这个组平均值进行比较。如果这个RMS值靠近平均值，并且没有存储前一个RMS值，则在块27中更新组平均值。如果前一个RMS值(其是在块26中检查的)被存储，则意味着所存储的单个值明显地偏离了组平均值，但是新的组仍然未建立。此时，在块27中计算组平均值时，所存储的值也和新RMS一起被考虑。在块28中存储更新后的组平均值。

连续更新的组平均值给出了每一个组的音量线L₁、L₂、L₃和L₄的倾斜度。块29中，修改单元4利用这个信息计算出音频增益调整，这个调整是对音量偏离所期望的整体音量级L的任何偏离量进行补偿所需的调整。

利用低通滤波器12对增益调整进行平滑，例如具有规一化0.1截止频率的一阶低通滤波器12。典型地，必须在能提高收听质量的低截止频率和所需的时延长度13之间作一个折衷选择，-滤波器12的截止频率越低，增益随时间的改变越平滑，但是因此所需的时延13更长。在实时应用中，当时延应该被保持得尽可能小时，相应地选择低通滤波器12的截止频率。然而，在系统6可以将输入信号1缓冲执行必需的滤波所需的时间的预扫描应用中，可以选出满意的截止频率值，以便在输出音频信号中给出平滑的增益变化，从而保证最佳的收听体验。

由于计算音频增益调整需要一些时间，因此在块13中，输入音频信号被一系列的缓冲器同时缓冲。当修改单元准备好其音频增益调整时，缓冲器块13的输出在乘法块13中与平滑后的增益相乘，以给出具有调整后的音量级的音频输出信号15。该输出音频信号接着可以被引导到扬声器10。

在预扫描应用中，如图6所示，由于音频延时不再是一个问题，因此输入音频信号1可以被缓冲较长的时间。在此，缓冲器20可以是2秒或者更长时间的数量级。RMS值在计算单元2中计算，并被转发到识别单元3的第一判决块21，其操作已经在图5中描述了。只有块25不同，不同点在于：当识别到新的组时，启动在旧的组和新的组之间定位过渡点的处理。这个处理将在下面进行单独的详细描述。

在这个流程中，修改单元4与前面描述的不同之处在于：其仅在将音频增益调整存储到文件或者数据库11之前，计算它们。音频输入文件1的采样与平滑后音频增益调整31的实际相乘可以在更迟的时间执行。当然，在这个流程图中没有示出的场景中，适当时延后的输入音频信号1的乘法在音频增益调整被平滑之后执行以给出全部调整后音频输出信号也是可行的，其中全部调整后音频输出信号接着可以被存储在文件中。

由于在预扫描模式中，可以利用更多的时间来处理音频文件1，因此可以利用它通过以更高的精度在多个组对之间定位过渡来提高系统6的性能。由于不希望切掉响亮部分的开始部分或结束部分，或者不需要放大安静部分的开始部分或结束部分，因此当音频信号的音量在响亮与安静之间突然变化时，这特别重要。图7中的流程图示出了这个精细化处理。通过使用例如0.1秒的相对较小的缓冲器来缓冲时间t₁和t₂之间的音频输入信号1的提取。导致旧的组的最后一个RMS的缓冲器的开始时间由t₁给出，而导致新的组的第一个RMS的缓冲器的结束时间是t₂。现在，利用较小的缓冲器20精细化搜索，以便有更多数量的采样可以用来计算新的RMS值。识别单元以与前面描述的方式相同的方式工作，除了块25’之外。

象前面那样计算RMS值，在时间t₁开始，并且接着计算前一个组的组平均值，接着利用块21、24、26、27和28更新组平均值。最后，偏离前一组的组平均值的RMS值被块21识别出来，并存储在块23中。当随后的也偏离了前一组的组平均值的RMS的值被块21和22识别时，随后块25’报告过渡时间由用于计算之前存储的RMS值的采样的块的开始时间给出。由此精确定点(pinpoint)的信息可以用于修改单元4以便给出精确的音频增益调整。

虽然已经以优选实施例以及其变化的方式对本发明进行了描述，但是，应理解，可以在不脱离本发明范围的情况下作出许多其他修改和变化。例如，当本方法应用到实时情况时，将是这样的情况：输入音频信号的采样可以连续地进行，即计算连续采样的音量的量度。

需说明的是，增益调整值可以通过利用增益调整函数来产生，其中该函数是通过分析音量线(L₁、L₂、L₃和L₄)来得到。

出于清楚的目的，还应理解，本申请中使用的“一”或“一个”不排除多个，并且“包括”不排除其他步骤或元件。除非特别说明是单个实体外，“单元”可以包括多个块或者设备。

Claims

1、一种自动调整音频信号音量的方法，该方法包括：

对输入音频信号(1)的采样计算音量量度；

识别这些音量量度中随时间流逝的多个不同音量线(L₁、L₂、L₃、L₄)；

根据所识别的音量线(L₁、L₂、L₃、L₄)对输入音频信号(1)的采样进行修改，从而给出音量已调整的输出音频信号(5)。

2、如权利要求1所述的方法，其中，不同的音量线(L₁、L₂、L₃、L₄)在连续的音量量度的组(G₁、G₂、G₃、G₄)中被识别，它们的值的每一个都位于这个组的预定容限界限内。

3、如权利要求2的方法，其中，输入音频信号(1)的采样被修改，以便对连续的音量量度的组(G₁、G₂、G₃、G₄)的音量线(L₁、L₂、L₃、L₄)偏离预定音量级的偏离进行补偿。

4、如权利要求2或3所述的方法，其中，通过将线性或者更高阶的内插或平均计算技术应用到组(G₁、G₂、G₃、G₄)的音量量度上，从而在连续的音量量度的组(G₁、G₂、G₃、G₄)内识别不同的音量线(L₁、L₂、L₃、L₄)。

5、如权利要求2至4中任何一个所述的方法，其中，利用音量量度的相应的组(G₁、G₂、G₃、G₄)的音量线(L₁、L₂、L₃、L₄)计算每一个采样的增益调整的值。

6、如前述的权利要求的任一项所述的方法，其中，输入音频信号(1)的采样的音量量度是通过对输入采样执行均方根计算来计算的。

7、如权利要求1-6在任何一个所述的方法，其中，音量已调整的输出音频信号(5)被存储在音频文件(10)中。

8、一种准备音频信号(1)以用于将来的自动音量调整的方法，其中利用权利要求1-6的方法识别出输入音频信号(1)的音量线(L₁、L₂、L₃、L₄)并且可选地识别增益调整值，并且描述所识别的音量线(L₁、L₂、L₃、L₄)的信息和/或相应的增益调整值被以适合于稍后的应用的格式来存储。

9、如权利要求8的方法，其中，描述所识别的音量线(L₁、L₂、L₃、L₄)的信息和/或增益调整值与输入音频信号(1)一起存储在音频文件(10)中。

10、一种自动调整音频信号的音量的系统(6)，该系统包括：

计算单元(2)，用于计算输入音频信号(1)的采样的音量量度；

识别单元(3)，用于识别音量量度中多个不同的音量线(L₁、L₂、L₃、L₄)；以及

修改单元(4)，用于根据所识别的音量线(L₁、L₂、L₃、L₄)修改输入音频信号(1)的采样，以便给出音量已调整的输出音频信号(5)。

11、一种调整音频信号(1)的音量的音频处理设备(7)，包括根据权利要求10所述的自动音量调整系统。

12、一种音频处理设备(7)，包括：检索单元，用于检索之前识别的音频信号的音量线(L₁、L₂、L₃、L₄)和/或增益调整值；以及修改单元，用于根据所识别的音量线(L₁、L₂、L₃、L₄)对输入音频信号(1)的采样进行修改，以给出音量已调整的输出音频信号(5)。

13、一种可直接装载到可编程音频处理设备(7)的存储器中的计算程序产品，包括：软件代码部分，用于当在音频处理设备(7)上运行所述产品时，执行根据权利要求1至9任一项所述的方法的步骤。

14、一种存储音频文件(10)的存储介质，包括使用根据权利要求8的方法产生的音频输入信号(1)以及描述所识别的音量线(L₁、L₂、L₃、L₄)的信息和/或增益值。

15、一种存储音频文件(10)的存储介质，包括根据利用权利要求7所述的方法产生的已调整音频信号(5)。