发明内容
本发明的一个目的是提供指定主音频节目的衰减的混合元数据,该衰减适于优化当出现主音频节目和相关音频节目的混合时的收听体验。混合元数据优选地在相关音频节目材料不存在于主音频节目中或者不与其混合的情况下规定没有衰减,并且优选地规定渐现和渐隐的衰减以避免主节目响度水平突然变化。
根据本发明的一个方面,通过如下操作对音频信号进行编码:接收代表主音频节目的一个或更多个主音频信号并且接收代表相关音频节目的一个或更多个相关音频信号;将所述一个或更多个主音频信号编码以产生主编码音频信号,并且将所述一个或更多个相关音频信号编码以产生相关编码音频信号;响应主音频节目的估计响度和相关音频节目的估计响度产生音频混合元数据,其中,要从主编码音频信号解码的一个或更多个音频信号和要从相关音频信号解码的一个或更多个音频信号要根据音频混合元数据被混合;以及将主编码音频信号、相关编码音频信号和音频混合元数据组装成输出的编码信号。
根据本发明的另一个方面,通过如下操作对输入的编码信号进行解码:接收输入的编码信号并从其获得主编码音频信号、相关编码音频信号和混合元数据;将主编码音频信号解码以获得一个或更多个主音频信号,并将相关编码音频信号解码以获得一个或更多个相关音频信号;以及根据混合元数据混合一个或更多个主音频信号与一个或更多个相关音频信号以产生输出音频信号,其中,混合元数据是响应由主编码音频信号代表的主音频节目的估计响度和由相关编码音频信号代表的相关音频节目的估计响度而产生的。
根据本发明的又一个方面,提供了一种用于编码音频信号的装置,包括:用于接收代表主音频节目的一个或更多个主音频信号并且接收代表相关音频节目的一个或更多个相关音频信号的部件;用于将所述一个或更多个主音频信号编码以产生主编码音频信号,并且将所述一个或更多个相关音频信号编码以产生相关编码音频信号的部件;用于响应主音频节目的估计响度和相关音频节目的估计响度产生音频混合元数据的部件,其中,要从主编码音频信号解码的一个或更多个音频信号和要从相关编码音频信号解码的一个或更多个音频信号要根据所述音频混合元数据被混合,其中,所述音频混合元数据规定在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减水平;以及用于将主编码音频信号、相关编码音频信号和音频混合元数据组装成输出的编码信号的部件。
在该用于编码音频信号的装置中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,产生所述音频混合元数据并将其组装成所述输出的编码信号。
在该用于编码音频信号的装置中,仅当相关音频节目的估计响度大于阈值量时,产生所述音频混合元数据并将其组装成所述输出的编码信号。
在该用于编码音频信号的装置中,所述音频混合元数据包含如下一组参数中的一个或更多个参数,该组参数规定了在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减的延迟、保持、启动和释放的时间间隔。
在该用于编码音频信号的装置中,所述音频混合元数据规定在混合之前的要从主编码音频信号解码的一个或更多个音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点。
该用于编码音频信号的装置还包括用于响应如下一组参数中的一个或更多个参数和在混合之前的要从主编码音频信号解码的一个或更多个音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点,产生所述混合元数据的部件,其中该组参数规定了在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减的延迟、保持、启动和释放的时间间隔。
根据本发明的再一个方面,提供了一种用于将输入的编码信号解码的装置,包括:用于接收输入的编码信号并从其获得主编码音频信号、相关编码音频信号和混合元数据的部件;用于将主编码音频信号解码以获得一个或更多个主音频信号,并将相关编码音频信号解码以获得一个或更多个相关音频信号的部件,其中,所述混合元数据规定混合之前的所述一个或更多个主音频信号的衰减水平;以及用于根据所述混合元数据混合所述一个或更多个主音频信号与所述一个或更多个相关音频信号以产生输出音频信号的部件,其中,所述混合元数据是响应由主编码音频信号代表的主音频节目的估计响度和由相关编码音频信号代表的相关音频节目的估计响度而产生的。
在该用于将输入的编码信号解码的装置中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,在输入的编码信号中存在所述混合元数据。
在该用于将输入的编码信号解码的装置中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,从输入的编码信号获得所述混合元数据。
在该用于将输入的编码信号解码的装置中,仅当相关音频节目的估计响度大于阈值量时,在输入的编码信号中存在所述混合元数据。
在该用于将输入的编码信号解码的装置中,仅当相关音频节目的估计响度大于阈值量时,从输入的编码信号获得所述混合元数据。
在该用于将输入的编码信号解码的装置中,所述混合元数据包含如下一组参数中的一个或更多个参数,该组参数规定了在混合之前的所述一个或更多个主音频信号的衰减的延迟、保持、启动和释放的时间间隔。
在该用于将输入的编码信号解码的装置中,所述混合元数据规定混合之前的所述一个或更多个主音频信号的两个或更多个衰减水平和所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点。
在该用于将输入的编码信号解码的装置中,所述混合元数据是响应如下一组参数中的一个或更多个参数和在混合之前的所述一个或更多个主音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点而产生的,其中该组参数规定了在混合之前的所述一个或更多个主音频信号的衰减的延迟、保持、启动和释放的时间间隔。
参照以下的讨论和附图可以更好地理解本发明及其优选实施例的各种特征,在附图中,类似的附图标记在几个图中指示类似的要素。以下的讨论和附图的内容仅作为例子被阐述,并且不应被理解为代表对于本发明的范围的限制。
具体实施方式
A.引言
本发明旨在控制通过对编码信号进行解码而获得的主音频节目和一个或更多个相关音频节目的振幅并随后将它们混合在一起以供回放。在一个示例性应用中,一个或更多个主音频信号代表诸如电影的对话和声音效果的主音频节目,并且,一个或更多个相关音频信号代表诸如描述电影的视觉内容的用于视力受损患者的导演评论或叙述的相关音频节目。许多其它的例子是可能的。本发明不限于任何特定类型的音频内容。
可通过各种方式实现本发明。第一类型的实现将本发明的各个方面结合到音频编码系统的发射器和接收器中。分别在图1和图2中示意性地示出第一类型的实现的示例性发射器和接收器。
第二类型的实现仅将本发明的各个方面结合到接收器中。在图3中示意性地示出第二类型的实现的示例性接收器。下文,在讨论了第一类型的实现之后,讨论该第二类型的实现。
B.发射器和接收器
1.发射器
参照图1,发射器10从路径11接收代表主音频节目的一个或更多个主音频信号,并且从路径12接收代表相关音频节目的一个或更多个相关音频信号。
编码器21编码一个或更多个主音频信号以产生主编码音频信号,并且,编码器22编码一个或更多个相关音频信号以产生相关编码音频信号。编码器21和编码器22基本上可使用可能希望的任何类型的编码过程。例如,可以使用分割带感知编码过程,在该分割带感知编码过程中,音频信号被分成频率子带信号,频率子带信号被分析以估计心理声学掩蔽效果,并且,以如下的量化分辨率量化频率子带信号,该量化分辨率适于使得量化噪声水平正好低于所估计的心理声学掩蔽水平。可以使用各种子带滤波器和/或变换以将音频信号分成频率子带信号。可使用的感知编码处理的例子包括在上述的ATSCA/52文献中描述的有时称为AC-3的DolbyDigital和在ISO/IEC标准13818和14496中描述的高级音频编码(AAC)的变型。可以使用无损编码处理,诸如在1996年11月21日公开的国际专利申请公开WO96/37048和在2000年10月12日公开的国际专利申请公开WO00/60746中描述的那些、以及算术编码、霍夫曼编码和常规的脉冲码调制。本发明不需要特定的编码处理。
元数据产生器25响应主音频节目的估计响度和相关音频节目的估计响度产生音频混合元数据。以下描述可实现元数据产生器25的方式。
格式化器27将主编码音频信号、相关编码音频信号和音频混合元数据组装成沿路径31通过的输出编码信号。可按传输编码音频信号和对应于或者代表音频信号的间隔的混合元数据的帧或段来布置输出编码信号。编码的输出信号可诸如在广播应用中那样被直接传输到一个或更多个接收器,或者它可被记录于存储介质上以便随后传输至一个或更多个接收器。
a)元数据产生器
元数据产生器25从主音频节目和相关音频节目的估计响度的分析产生一个或更多个混合参数。音频信号的估计响度可被从人听觉系统的一些数学模型得出或者可被直接从信号振幅计算。许多估计响度的方法是已知的。以下描述一些方法。
(1)估计响度
元数据产生器25基本上可使用可能希望的任何估计响度的方法。方法的选择会影响性能,但实现本发明不需要特定的方法。
在由国际电工委员会(IEC)公开的标题为“Integrating-averagingsoundlevelmeters”的国际标准IEC60804(2000-10)中描述了可被用于计算音频信号的估计响度水平的一种方法。该标准描述了基于频率加权和时间平均声压水平的测量。
在由国际标准化组织公开的标题为“Methodforcalculatingloudnesslevel”的国际标准532(1975)中描述了另一方法。该标准描述了从对于频率子带计算的功率水平的组合获得响度的测量的方法。
在Moore,GlasbergandBaer,“Amodelforthepredictionofthresholds,loudnessandpartialloudness,”J.AudioEng.Soc.,vol.45,no.4,April1997和GlasbergandMoore,“Amodelofloudnessapplicabletotime-varyingsounds,”J.AudioEng.Soc.,vol.50,no.5,May2002中描述了可用于估计响度的心理声学模型的例子。
还另一方法从对于音频信号的间隔的振幅的均方根(RMS)来计算估计响度。经验试验表明,约500毫秒的间隔对于符合上述的DoblyDigitalPlus标准的一种示例性编码系统提供估计响度的有用的测量。
以下的讨论假定使用导出以dB表达的响度的测量的响度计算方法。与0dB对应的基准水平不重要,但是,如果数字音频信号由固定长度数字值代表,那么方便的选择是使0dB与最大可能数字值对应。如果希望的话,可以选择不同的基准水平,这不会影响以下讨论。
(2)分析响度
根据一种实现,元数据产生器25通过向一个或更多个主音频信号应用响度计算方法获得主音频节目的估计响度LM,并且通过向一个或更多个相关音频信号应用响度计算方法获得相关音频节目的估计响度LA。相关音频节目的估计响度与作为主音频节目的估计响度之上的某一阈值量TD的响度水平相比较。
如果相关音频节目的估计响度小于该响度水平,那么元数据产生器元25产生规定发生混合时的主音频节目的衰减水平的参数。
如果相关音频节目的估计响度大于或等于该响度水平,那么元数据产生器25可产生不规定主音频节目的衰减的参数。作为替代方案,当不规定衰减参数时,如果音频编码系统中的接收器被配置为正确地响应,那么元数据产生器25可能不产生任何参数。
该实现可被表达为:
这里,A=主音频节目的衰减的希望水平。
可从经验上导出阈值TD的值。对于上述的示例性编码系统来说,使用TD=23dB的阈值具有良好的效果。
可通过各种方式计算X的值,并且,可从经验上识别适当的值,但没有特别的方式是必需的。对于上述的示例性的编码系统,可从以下的表达式计算衰减水平:
X=LA-LM-TD当LA<LM+TD时(2)
作为替代方案,衰减水平A可以依赖于响度水平。它可被表达为两个或更多个衰减水平以及各对衰减水平之间的一个或更多个拐点。没有特定的一组值对于本发明是关键的。已经有利地用于上述的示例性编码系统的衰减水平和相关拐点的一个集合被依据压缩比来表达。在本例子中,在拐点以下使用2∶1的压缩比,并且,在拐点以上使用3∶1的压缩比。在水平LM+TD之上,拐点是6dB。
在又一实现中,元数据产生器25响应规定衰减延迟的时间间隔ID、衰减保持的时间间隔IH、衰减攻击的时间间隔IA和衰减释放的时间间隔IR的一组参数中的一个或更多个参数来产生衰减参数。这些间隔的特定值对于本发明而言不是关键的。在上述的示例性的编码系统中有利地使用的一组值是ID=0毫秒、IH=200毫秒、IA=320毫秒和IR=640毫秒。
优选地,只有相关音频节目的估计响度比阈值触发水平TT高,上述的实现中的元数据产生器25才产生衰减参数。可从经验上导出该阈值触发水平。在示例性的编码系统中使用的值是TT=-40dB。
作为替代方案,元数据产生器25可产生规定一个或更多个衰减水平、在不规定一个以上的衰减水平的情况下的相关拐点和/或上述的时间间隔中的一个或更多个的一组参数。该组参数构成组装至输出编码信号中的混合元数据。在本替代性实现中,接收器响应包含于混合元数据中的所有参数计算希望的衰减水平。
2.接收器
参照图2,接收器20从路径33接收输入编码信号。例如,可直接从发射器接收或者从存储介质检索输入编码信号。可按传输编码音频信号和对应于或者代表音频信号的间隔的混合元数据的帧或段来布置输入编码信号。去格式化器41从输入编码信号获得主编码音频信号、相关编码音频信号和混合元数据。
解码器43解码主编码音频信号以获得一个或更多个主音频信号,并且,解码器44解码相关编码音频信号以获得一个或更多个相关音频信号。虽然实现本发明不需要特定的解码处理,但该解码处理应是用于产生主编码音频信号和相关编码音频信号的编码处理的互补。例如,如果使用诸如上述情况的处理的感知编码处理以产生编码音频信号,那么适当的解码处理会使用遵循用于量化频率子带信号的量化分辨率的去量化分辨率将频率子带信号去量化,并且将去量化的频率子带信号合成为解码的音频信号。用于适当的解码方法的附加细节在现有技术中是已知的,或者可从以上引用的参考文献获得。
元数据处理器45响应控制混合器48的混合元数据产生控制信号。混合器48通过自适应地混合一个或更多个相关音频信号与其振幅水平响应混合元数据被控制的一个或更多个主音频信号来产生输出音频信号。输出音频信号沿路径51通过以用于回放或可能希望的其它处理。
可通过各种方式实现混合器48,并且,特定的实现不是本发明所必需的。在一种实现中,混合器48使一个或更多个主音频信号衰减由混合元数据规定的量,并然后使衰减后的主音频信号与相关音频信号混合。如果在输入编码信号中不存在混合元数据,那么一个或更多个主音频信号在混合之前不衰减。
在替代性实现中,混合器48响应包含规定一个或更多个衰减水平、在不规定一个以上的衰减水平的情况下的相关拐点和/或上述的时间间隔中的一个或更多个的一组参数的混合元数据。在该替代性实现中,混合器48响应包含于混合元数据中的所有参数计算主音频信号的希望的衰减水平。
C.仅接收器
在图3中示意性地示出的接收器30结合有来自图1所示的发射器10以及图2所示的接收器20的特征。与发射器10或接收器20中的各部件具有相同的附图标记的接收器30中的各部件执行与之相同的功能。
元数据产生器/处理器46总体上执行与以上对于元数据产生器25和元数据处理器45描述的功能相同的功能。通过向从主编码音频信号解码的一个或更多个主音频信号应用响度计算方法获得主音频节目的估计响度LM,并且,通过向从相关编码音频信号解码的一个或更多个相关音频信号应用响度计算方法获得相关音频节目的估计响度LA。如以上对于元数据产生器25描述的那样导出混合元数据参数。
D.实现
结合本发明的各方面的装置可通过包括软件的各种方式实现,该软件被计算机或一些其它设备执行,这些设备包括与和在通用计算机中发现的部件类似的部件耦合的诸如数字信号处理器(DSP)电路的更多的专用部件。图4是可用于实现本发明的多个方面的设备70的示意性框图。处理器72提供计算资源。RAM73是被处理器72用于处理的系统随机存取存储器(RAM)。ROM74代表用于存储操作设备70所需要的程序并且可能用于实施本发明的各方面的诸如只读存储器(ROM)的一些形式的持久存储器。I/O控制75代表用于通过通信信道76、77接收和发送信号的接口电路。在所示的实施例中,所有主要系统部件与可代表多于一个的物理或逻辑总线的总线71连接;但是,总线结构不是实现本发明所需的。
在通过通用计算机系统实现的实施例中,为了与诸如键盘或鼠标和显示器的设备接口连接,以及为了控制具有诸如磁带或盘的存储介质或光学介质的存储设备78,可包括附加的部件。存储介质可被用于记录用于操作系统、技术服务和应用的指令的程序,并且可包含实现本发明的各方面的程序。
可通过按各种方式实现的部件执行实施本发明的各方面所需要的功能,这些方式包括离散逻辑部件、集成电路、一个或更多个ASIC和/或程序控制处理器。实现这些部件的方式对于本发明是不重要的。
可通过诸如基带或从超声到紫外频率的整个频谱的调制通信路径的多种机器可读介质或通过使用包括磁带、卡或盘、光学卡或盘和包含纸的介质上的可检测标记的基本上任何记录技术传输信息的存储介质,来传输本发明的软件实现。