CN103443854B - 用于混合来自两个编码位流的音频节目的元数据的自动配置 - Google Patents

用于混合来自两个编码位流的音频节目的元数据的自动配置 Download PDF

Info

Publication number
CN103443854B
CN103443854B CN201280016111.0A CN201280016111A CN103443854B CN 103443854 B CN103443854 B CN 103443854B CN 201280016111 A CN201280016111 A CN 201280016111A CN 103443854 B CN103443854 B CN 103443854B
Authority
CN
China
Prior art keywords
audio signal
audio
coding
metadata
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280016111.0A
Other languages
English (en)
Other versions
CN103443854A (zh
Inventor
M·D·郝夫曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN103443854A publication Critical patent/CN103443854A/zh
Application granted granted Critical
Publication of CN103443854B publication Critical patent/CN103443854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/18Automatic control in untuned amplifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

音频编码系统使用混合元数据,以控制随后与相关音频节目混合的主音频节目的衰减。通过分析主音频节目和相关音频节目的估计响度来计算衰减的值。

Description

用于混合来自两个编码位流的音频节目的元数据的自动配置
相关申请的交叉引用
本申请要求在2011年4月8日提交的美国专利临时申请No.61/473364的优先权,该美国专利临时申请通过引用而将其全部内容并入此。
技术领域
本发明总体上涉及数字音频编码方法和系统,并且更具体而言,涉及用于混合从两个编码数字位流获得的音频节目的元数据的产生。
背景技术
符合所谓的DolbyDigitalPlus标准的编码信号包含代表主音频节目的数据,并且可包含代表一个或更多个相关音频节目的数据。在由AdvancedTelevisionSystemsCommittee,Inc.(ATSC),Washington,D.C.出版的DocumentA/52,“DigitalAudioCompressionStandard(AC-3,E-AC-3)”,November22,2010中描述了DolbyDigitalPlus标准。相关音频节目可包含不同语言的听觉内容、关于伴随的视觉内容的有声解说或描述伴随的视觉内容的用于视觉受损听者的听觉内容。
在主音频节目及其伴随的视觉内容的回放期间相关音频节目可与主音频节目混合。相关音频节目包含的混合元数据规定了当相关音频节目与主音频节目混合时的主音频节目的衰减量。
Vlaicuetal.“AdvancedAudioforAdvancedIPTVServices”,AESConvention123,October2007,AES,USA,1.October2007描述了将增强AC-3用于增强音频流与主音频流的混合。
发明内容
本发明的一个目的是提供指定主音频节目的衰减的混合元数据,该衰减适于优化当出现主音频节目和相关音频节目的混合时的收听体验。混合元数据优选地在相关音频节目材料不存在于主音频节目中或者不与其混合的情况下规定没有衰减,并且优选地规定渐现和渐隐的衰减以避免主节目响度水平突然变化。
根据本发明的一个方面,通过如下操作对音频信号进行编码:接收代表主音频节目的一个或更多个主音频信号并且接收代表相关音频节目的一个或更多个相关音频信号;将所述一个或更多个主音频信号编码以产生主编码音频信号,并且将所述一个或更多个相关音频信号编码以产生相关编码音频信号;响应主音频节目的估计响度和相关音频节目的估计响度产生音频混合元数据,其中,要从主编码音频信号解码的一个或更多个音频信号和要从相关音频信号解码的一个或更多个音频信号要根据音频混合元数据被混合;以及将主编码音频信号、相关编码音频信号和音频混合元数据组装成输出的编码信号。
根据本发明的另一个方面,通过如下操作对输入的编码信号进行解码:接收输入的编码信号并从其获得主编码音频信号、相关编码音频信号和混合元数据;将主编码音频信号解码以获得一个或更多个主音频信号,并将相关编码音频信号解码以获得一个或更多个相关音频信号;以及根据混合元数据混合一个或更多个主音频信号与一个或更多个相关音频信号以产生输出音频信号,其中,混合元数据是响应由主编码音频信号代表的主音频节目的估计响度和由相关编码音频信号代表的相关音频节目的估计响度而产生的。
根据本发明的又一个方面,提供了一种用于编码音频信号的装置,包括:用于接收代表主音频节目的一个或更多个主音频信号并且接收代表相关音频节目的一个或更多个相关音频信号的部件;用于将所述一个或更多个主音频信号编码以产生主编码音频信号,并且将所述一个或更多个相关音频信号编码以产生相关编码音频信号的部件;用于响应主音频节目的估计响度和相关音频节目的估计响度产生音频混合元数据的部件,其中,要从主编码音频信号解码的一个或更多个音频信号和要从相关编码音频信号解码的一个或更多个音频信号要根据所述音频混合元数据被混合,其中,所述音频混合元数据规定在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减水平;以及用于将主编码音频信号、相关编码音频信号和音频混合元数据组装成输出的编码信号的部件。
在该用于编码音频信号的装置中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,产生所述音频混合元数据并将其组装成所述输出的编码信号。
在该用于编码音频信号的装置中,仅当相关音频节目的估计响度大于阈值量时,产生所述音频混合元数据并将其组装成所述输出的编码信号。
在该用于编码音频信号的装置中,所述音频混合元数据包含如下一组参数中的一个或更多个参数,该组参数规定了在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减的延迟、保持、启动和释放的时间间隔。
在该用于编码音频信号的装置中,所述音频混合元数据规定在混合之前的要从主编码音频信号解码的一个或更多个音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点。
该用于编码音频信号的装置还包括用于响应如下一组参数中的一个或更多个参数和在混合之前的要从主编码音频信号解码的一个或更多个音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点,产生所述混合元数据的部件,其中该组参数规定了在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减的延迟、保持、启动和释放的时间间隔。
根据本发明的再一个方面,提供了一种用于将输入的编码信号解码的装置,包括:用于接收输入的编码信号并从其获得主编码音频信号、相关编码音频信号和混合元数据的部件;用于将主编码音频信号解码以获得一个或更多个主音频信号,并将相关编码音频信号解码以获得一个或更多个相关音频信号的部件,其中,所述混合元数据规定混合之前的所述一个或更多个主音频信号的衰减水平;以及用于根据所述混合元数据混合所述一个或更多个主音频信号与所述一个或更多个相关音频信号以产生输出音频信号的部件,其中,所述混合元数据是响应由主编码音频信号代表的主音频节目的估计响度和由相关编码音频信号代表的相关音频节目的估计响度而产生的。
在该用于将输入的编码信号解码的装置中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,在输入的编码信号中存在所述混合元数据。
在该用于将输入的编码信号解码的装置中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,从输入的编码信号获得所述混合元数据。
在该用于将输入的编码信号解码的装置中,仅当相关音频节目的估计响度大于阈值量时,在输入的编码信号中存在所述混合元数据。
在该用于将输入的编码信号解码的装置中,仅当相关音频节目的估计响度大于阈值量时,从输入的编码信号获得所述混合元数据。
在该用于将输入的编码信号解码的装置中,所述混合元数据包含如下一组参数中的一个或更多个参数,该组参数规定了在混合之前的所述一个或更多个主音频信号的衰减的延迟、保持、启动和释放的时间间隔。
在该用于将输入的编码信号解码的装置中,所述混合元数据规定混合之前的所述一个或更多个主音频信号的两个或更多个衰减水平和所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点。
在该用于将输入的编码信号解码的装置中,所述混合元数据是响应如下一组参数中的一个或更多个参数和在混合之前的所述一个或更多个主音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点而产生的,其中该组参数规定了在混合之前的所述一个或更多个主音频信号的衰减的延迟、保持、启动和释放的时间间隔。
参照以下的讨论和附图可以更好地理解本发明及其优选实施例的各种特征,在附图中,类似的附图标记在几个图中指示类似的要素。以下的讨论和附图的内容仅作为例子被阐述,并且不应被理解为代表对于本发明的范围的限制。
附图说明
图1是包含本发明的各个方面的编码器/发射器的示意性框图。
图2是包含本发明的各个方面并且可与图1所示的音频编码器一起使用的接收器/解码器的一种实现的示意性框图。
图3是包含本发明的各个方面的编码器/解码器的另一种实现的示意性框图。
图4是可被用于实现本发明的各个方面的设备的示意性框图。
具体实施方式
A.引言
本发明旨在控制通过对编码信号进行解码而获得的主音频节目和一个或更多个相关音频节目的振幅并随后将它们混合在一起以供回放。在一个示例性应用中,一个或更多个主音频信号代表诸如电影的对话和声音效果的主音频节目,并且,一个或更多个相关音频信号代表诸如描述电影的视觉内容的用于视力受损患者的导演评论或叙述的相关音频节目。许多其它的例子是可能的。本发明不限于任何特定类型的音频内容。
可通过各种方式实现本发明。第一类型的实现将本发明的各个方面结合到音频编码系统的发射器和接收器中。分别在图1和图2中示意性地示出第一类型的实现的示例性发射器和接收器。
第二类型的实现仅将本发明的各个方面结合到接收器中。在图3中示意性地示出第二类型的实现的示例性接收器。下文,在讨论了第一类型的实现之后,讨论该第二类型的实现。
B.发射器和接收器
1.发射器
参照图1,发射器10从路径11接收代表主音频节目的一个或更多个主音频信号,并且从路径12接收代表相关音频节目的一个或更多个相关音频信号。
编码器21编码一个或更多个主音频信号以产生主编码音频信号,并且,编码器22编码一个或更多个相关音频信号以产生相关编码音频信号。编码器21和编码器22基本上可使用可能希望的任何类型的编码过程。例如,可以使用分割带感知编码过程,在该分割带感知编码过程中,音频信号被分成频率子带信号,频率子带信号被分析以估计心理声学掩蔽效果,并且,以如下的量化分辨率量化频率子带信号,该量化分辨率适于使得量化噪声水平正好低于所估计的心理声学掩蔽水平。可以使用各种子带滤波器和/或变换以将音频信号分成频率子带信号。可使用的感知编码处理的例子包括在上述的ATSCA/52文献中描述的有时称为AC-3的DolbyDigital和在ISO/IEC标准13818和14496中描述的高级音频编码(AAC)的变型。可以使用无损编码处理,诸如在1996年11月21日公开的国际专利申请公开WO96/37048和在2000年10月12日公开的国际专利申请公开WO00/60746中描述的那些、以及算术编码、霍夫曼编码和常规的脉冲码调制。本发明不需要特定的编码处理。
元数据产生器25响应主音频节目的估计响度和相关音频节目的估计响度产生音频混合元数据。以下描述可实现元数据产生器25的方式。
格式化器27将主编码音频信号、相关编码音频信号和音频混合元数据组装成沿路径31通过的输出编码信号。可按传输编码音频信号和对应于或者代表音频信号的间隔的混合元数据的帧或段来布置输出编码信号。编码的输出信号可诸如在广播应用中那样被直接传输到一个或更多个接收器,或者它可被记录于存储介质上以便随后传输至一个或更多个接收器。
a)元数据产生器
元数据产生器25从主音频节目和相关音频节目的估计响度的分析产生一个或更多个混合参数。音频信号的估计响度可被从人听觉系统的一些数学模型得出或者可被直接从信号振幅计算。许多估计响度的方法是已知的。以下描述一些方法。
(1)估计响度
元数据产生器25基本上可使用可能希望的任何估计响度的方法。方法的选择会影响性能,但实现本发明不需要特定的方法。
在由国际电工委员会(IEC)公开的标题为“Integrating-averagingsoundlevelmeters”的国际标准IEC60804(2000-10)中描述了可被用于计算音频信号的估计响度水平的一种方法。该标准描述了基于频率加权和时间平均声压水平的测量。
在由国际标准化组织公开的标题为“Methodforcalculatingloudnesslevel”的国际标准532(1975)中描述了另一方法。该标准描述了从对于频率子带计算的功率水平的组合获得响度的测量的方法。
在Moore,GlasbergandBaer,“Amodelforthepredictionofthresholds,loudnessandpartialloudness,”J.AudioEng.Soc.,vol.45,no.4,April1997和GlasbergandMoore,“Amodelofloudnessapplicabletotime-varyingsounds,”J.AudioEng.Soc.,vol.50,no.5,May2002中描述了可用于估计响度的心理声学模型的例子。
还另一方法从对于音频信号的间隔的振幅的均方根(RMS)来计算估计响度。经验试验表明,约500毫秒的间隔对于符合上述的DoblyDigitalPlus标准的一种示例性编码系统提供估计响度的有用的测量。
以下的讨论假定使用导出以dB表达的响度的测量的响度计算方法。与0dB对应的基准水平不重要,但是,如果数字音频信号由固定长度数字值代表,那么方便的选择是使0dB与最大可能数字值对应。如果希望的话,可以选择不同的基准水平,这不会影响以下讨论。
(2)分析响度
根据一种实现,元数据产生器25通过向一个或更多个主音频信号应用响度计算方法获得主音频节目的估计响度LM,并且通过向一个或更多个相关音频信号应用响度计算方法获得相关音频节目的估计响度LA。相关音频节目的估计响度与作为主音频节目的估计响度之上的某一阈值量TD的响度水平相比较。
如果相关音频节目的估计响度小于该响度水平,那么元数据产生器元25产生规定发生混合时的主音频节目的衰减水平的参数。
如果相关音频节目的估计响度大于或等于该响度水平,那么元数据产生器25可产生不规定主音频节目的衰减的参数。作为替代方案,当不规定衰减参数时,如果音频编码系统中的接收器被配置为正确地响应,那么元数据产生器25可能不产生任何参数。
该实现可被表达为:
这里,A=主音频节目的衰减的希望水平。
可从经验上导出阈值TD的值。对于上述的示例性编码系统来说,使用TD=23dB的阈值具有良好的效果。
可通过各种方式计算X的值,并且,可从经验上识别适当的值,但没有特别的方式是必需的。对于上述的示例性的编码系统,可从以下的表达式计算衰减水平:
X=LA-LM-TD当LA<LM+TD时(2)
作为替代方案,衰减水平A可以依赖于响度水平。它可被表达为两个或更多个衰减水平以及各对衰减水平之间的一个或更多个拐点。没有特定的一组值对于本发明是关键的。已经有利地用于上述的示例性编码系统的衰减水平和相关拐点的一个集合被依据压缩比来表达。在本例子中,在拐点以下使用2∶1的压缩比,并且,在拐点以上使用3∶1的压缩比。在水平LM+TD之上,拐点是6dB。
在又一实现中,元数据产生器25响应规定衰减延迟的时间间隔ID、衰减保持的时间间隔IH、衰减攻击的时间间隔IA和衰减释放的时间间隔IR的一组参数中的一个或更多个参数来产生衰减参数。这些间隔的特定值对于本发明而言不是关键的。在上述的示例性的编码系统中有利地使用的一组值是ID=0毫秒、IH=200毫秒、IA=320毫秒和IR=640毫秒。
优选地,只有相关音频节目的估计响度比阈值触发水平TT高,上述的实现中的元数据产生器25才产生衰减参数。可从经验上导出该阈值触发水平。在示例性的编码系统中使用的值是TT=-40dB。
作为替代方案,元数据产生器25可产生规定一个或更多个衰减水平、在不规定一个以上的衰减水平的情况下的相关拐点和/或上述的时间间隔中的一个或更多个的一组参数。该组参数构成组装至输出编码信号中的混合元数据。在本替代性实现中,接收器响应包含于混合元数据中的所有参数计算希望的衰减水平。
2.接收器
参照图2,接收器20从路径33接收输入编码信号。例如,可直接从发射器接收或者从存储介质检索输入编码信号。可按传输编码音频信号和对应于或者代表音频信号的间隔的混合元数据的帧或段来布置输入编码信号。去格式化器41从输入编码信号获得主编码音频信号、相关编码音频信号和混合元数据。
解码器43解码主编码音频信号以获得一个或更多个主音频信号,并且,解码器44解码相关编码音频信号以获得一个或更多个相关音频信号。虽然实现本发明不需要特定的解码处理,但该解码处理应是用于产生主编码音频信号和相关编码音频信号的编码处理的互补。例如,如果使用诸如上述情况的处理的感知编码处理以产生编码音频信号,那么适当的解码处理会使用遵循用于量化频率子带信号的量化分辨率的去量化分辨率将频率子带信号去量化,并且将去量化的频率子带信号合成为解码的音频信号。用于适当的解码方法的附加细节在现有技术中是已知的,或者可从以上引用的参考文献获得。
元数据处理器45响应控制混合器48的混合元数据产生控制信号。混合器48通过自适应地混合一个或更多个相关音频信号与其振幅水平响应混合元数据被控制的一个或更多个主音频信号来产生输出音频信号。输出音频信号沿路径51通过以用于回放或可能希望的其它处理。
可通过各种方式实现混合器48,并且,特定的实现不是本发明所必需的。在一种实现中,混合器48使一个或更多个主音频信号衰减由混合元数据规定的量,并然后使衰减后的主音频信号与相关音频信号混合。如果在输入编码信号中不存在混合元数据,那么一个或更多个主音频信号在混合之前不衰减。
在替代性实现中,混合器48响应包含规定一个或更多个衰减水平、在不规定一个以上的衰减水平的情况下的相关拐点和/或上述的时间间隔中的一个或更多个的一组参数的混合元数据。在该替代性实现中,混合器48响应包含于混合元数据中的所有参数计算主音频信号的希望的衰减水平。
C.仅接收器
在图3中示意性地示出的接收器30结合有来自图1所示的发射器10以及图2所示的接收器20的特征。与发射器10或接收器20中的各部件具有相同的附图标记的接收器30中的各部件执行与之相同的功能。
元数据产生器/处理器46总体上执行与以上对于元数据产生器25和元数据处理器45描述的功能相同的功能。通过向从主编码音频信号解码的一个或更多个主音频信号应用响度计算方法获得主音频节目的估计响度LM,并且,通过向从相关编码音频信号解码的一个或更多个相关音频信号应用响度计算方法获得相关音频节目的估计响度LA。如以上对于元数据产生器25描述的那样导出混合元数据参数。
D.实现
结合本发明的各方面的装置可通过包括软件的各种方式实现,该软件被计算机或一些其它设备执行,这些设备包括与和在通用计算机中发现的部件类似的部件耦合的诸如数字信号处理器(DSP)电路的更多的专用部件。图4是可用于实现本发明的多个方面的设备70的示意性框图。处理器72提供计算资源。RAM73是被处理器72用于处理的系统随机存取存储器(RAM)。ROM74代表用于存储操作设备70所需要的程序并且可能用于实施本发明的各方面的诸如只读存储器(ROM)的一些形式的持久存储器。I/O控制75代表用于通过通信信道76、77接收和发送信号的接口电路。在所示的实施例中,所有主要系统部件与可代表多于一个的物理或逻辑总线的总线71连接;但是,总线结构不是实现本发明所需的。
在通过通用计算机系统实现的实施例中,为了与诸如键盘或鼠标和显示器的设备接口连接,以及为了控制具有诸如磁带或盘的存储介质或光学介质的存储设备78,可包括附加的部件。存储介质可被用于记录用于操作系统、技术服务和应用的指令的程序,并且可包含实现本发明的各方面的程序。
可通过按各种方式实现的部件执行实施本发明的各方面所需要的功能,这些方式包括离散逻辑部件、集成电路、一个或更多个ASIC和/或程序控制处理器。实现这些部件的方式对于本发明是不重要的。
可通过诸如基带或从超声到紫外频率的整个频谱的调制通信路径的多种机器可读介质或通过使用包括磁带、卡或盘、光学卡或盘和包含纸的介质上的可检测标记的基本上任何记录技术传输信息的存储介质,来传输本发明的软件实现。

Claims (28)

1.一种用于编码音频信号的方法,包括:
接收代表主音频节目的一个或更多个主音频信号并且接收代表相关音频节目的一个或更多个相关音频信号;
将所述一个或更多个主音频信号编码以产生主编码音频信号,并且将所述一个或更多个相关音频信号编码以产生相关编码音频信号;
响应主音频节目的估计响度和相关音频节目的估计响度产生音频混合元数据,其中,要从主编码音频信号解码的一个或更多个音频信号和要从相关编码音频信号解码的一个或更多个音频信号要根据所述音频混合元数据被混合,其中,所述音频混合元数据规定在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减水平;以及
将主编码音频信号、相关编码音频信号和音频混合元数据组装成输出的编码信号。
2.根据权利要求1的方法,其中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,产生所述音频混合元数据并将其组装成所述输出的编码信号。
3.根据权利要求1或2的方法,其中,仅当相关音频节目的估计响度大于阈值量时,产生所述音频混合元数据并将其组装成所述输出的编码信号。
4.根据权利要求1或2的方法,其中,所述音频混合元数据包含如下一组参数中的一个或更多个参数,该组参数规定了在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减的延迟、保持、启动和释放的时间间隔。
5.根据权利要求1或2的方法,其中,所述音频混合元数据规定在混合之前的要从主编码音频信号解码的一个或更多个音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点。
6.根据权利要求1或2的方法,包括响应如下一组参数中的一个或更多个参数和在混合之前的要从主编码音频信号解码的一个或更多个音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点,产生所述混合元数据,其中该组参数规定了在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减的延迟、保持、启动和释放的时间间隔。
7.一种用于将输入的编码信号解码的方法,包括:
接收输入的编码信号并从其获得主编码音频信号、相关编码音频信号和混合元数据;
将主编码音频信号解码以获得一个或更多个主音频信号,并将相关编码音频信号解码以获得一个或更多个相关音频信号,其中,所述混合元数据规定混合之前的所述一个或更多个主音频信号的衰减水平;以及
根据所述混合元数据混合所述一个或更多个主音频信号与所述一个或更多个相关音频信号以产生输出音频信号,其中,所述混合元数据是响应由主编码音频信号代表的主音频节目的估计响度和由相关编码音频信号代表的相关音频节目的估计响度而产生的。
8.根据权利要求7的方法,其中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,在输入的编码信号中存在所述混合元数据。
9.根据权利要求7的方法,其中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,从输入的编码信号获得所述混合元数据。
10.根据权利要求7或8的方法,其中,仅当相关音频节目的估计响度大于阈值量时,在输入的编码信号中存在所述混合元数据。
11.根据权利要求7或8的方法,其中,仅当相关音频节目的估计响度大于阈值量时,从输入的编码信号获得所述混合元数据。
12.根据权利要求7或8的方法,其中,所述混合元数据包含如下一组参数中的一个或更多个参数,该组参数规定了在混合之前的所述一个或更多个主音频信号的衰减的延迟、保持、启动和释放的时间间隔。
13.根据权利要求7或8的方法,其中,所述混合元数据规定混合之前的所述一个或更多个主音频信号的两个或更多个衰减水平和所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点。
14.根据权利要求7或8的方法,其中,所述混合元数据是响应如下一组参数中的一个或更多个参数和在混合之前的所述一个或更多个主音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点而产生的,其中该组参数规定了在混合之前的所述一个或更多个主音频信号的衰减的延迟、保持、启动和释放的时间间隔。
15.一种用于编码音频信号的装置,包括:
用于接收代表主音频节目的一个或更多个主音频信号并且接收代表相关音频节目的一个或更多个相关音频信号的部件;
用于将所述一个或更多个主音频信号编码以产生主编码音频信号,并且将所述一个或更多个相关音频信号编码以产生相关编码音频信号的部件;
用于响应主音频节目的估计响度和相关音频节目的估计响度产生音频混合元数据的部件,其中,要从主编码音频信号解码的一个或更多个音频信号和要从相关编码音频信号解码的一个或更多个音频信号要根据所述音频混合元数据被混合,其中,所述音频混合元数据规定在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减水平;以及
用于将主编码音频信号、相关编码音频信号和音频混合元数据组装成输出的编码信号的部件。
16.根据权利要求15的装置,其中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,产生所述音频混合元数据并将其组装成所述输出的编码信号。
17.根据权利要求15或16的装置,其中,仅当相关音频节目的估计响度大于阈值量时,产生所述音频混合元数据并将其组装成所述输出的编码信号。
18.根据权利要求15或16的装置,其中,所述音频混合元数据包含如下一组参数中的一个或更多个参数,该组参数规定了在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减的延迟、保持、启动和释放的时间间隔。
19.根据权利要求15或16的装置,其中,所述音频混合元数据规定在混合之前的要从主编码音频信号解码的一个或更多个音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点。
20.根据权利要求15或16的装置,包括用于响应如下一组参数中的一个或更多个参数和在混合之前的要从主编码音频信号解码的一个或更多个音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点,产生所述混合元数据的部件,其中该组参数规定了在混合之前的要从主编码音频信号解码的一个或更多个音频信号的衰减的延迟、保持、启动和释放的时间间隔。
21.一种用于将输入的编码信号解码的装置,包括:
用于接收输入的编码信号并从其获得主编码音频信号、相关编码音频信号和混合元数据的部件;
用于将主编码音频信号解码以获得一个或更多个主音频信号,并将相关编码音频信号解码以获得一个或更多个相关音频信号的部件,其中,所述混合元数据规定混合之前的所述一个或更多个主音频信号的衰减水平;以及
用于根据所述混合元数据混合所述一个或更多个主音频信号与所述一个或更多个相关音频信号以产生输出音频信号的部件,其中,所述混合元数据是响应由主编码音频信号代表的主音频节目的估计响度和由相关编码音频信号代表的相关音频节目的估计响度而产生的。
22.根据权利要求21的装置,其中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,在输入的编码信号中存在所述混合元数据。
23.根据权利要求21的装置,其中,仅当相关音频节目的估计响度小于高于主音频节目的估计响度的阈值量时,从输入的编码信号获得所述混合元数据。
24.根据权利要求21或22的装置,其中,仅当相关音频节目的估计响度大于阈值量时,在输入的编码信号中存在所述混合元数据。
25.根据权利要求21或22的装置,其中,仅当相关音频节目的估计响度大于阈值量时,从输入的编码信号获得所述混合元数据。
26.根据权利要求21或22的装置,其中,所述混合元数据包含如下一组参数中的一个或更多个参数,该组参数规定了在混合之前的所述一个或更多个主音频信号的衰减的延迟、保持、启动和释放的时间间隔。
27.根据权利要求21或22的装置,其中,所述混合元数据规定混合之前的所述一个或更多个主音频信号的两个或更多个衰减水平和所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点。
28.根据权利要求21或22的装置,其中,所述混合元数据是响应如下一组参数中的一个或更多个参数和在混合之前的所述一个或更多个主音频信号的两个或更多个衰减水平以及所述两个或更多个衰减水平中的各对衰减水平的一个或更多个拐点而产生的,其中该组参数规定了在混合之前的所述一个或更多个主音频信号的衰减的延迟、保持、启动和释放的时间间隔。
CN201280016111.0A 2011-04-08 2012-04-02 用于混合来自两个编码位流的音频节目的元数据的自动配置 Active CN103443854B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161473346P 2011-04-08 2011-04-08
US61/473,346 2011-04-08
PCT/US2012/031791 WO2012138594A1 (en) 2011-04-08 2012-04-02 Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams

Publications (2)

Publication Number Publication Date
CN103443854A CN103443854A (zh) 2013-12-11
CN103443854B true CN103443854B (zh) 2016-06-08

Family

ID=45955132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280016111.0A Active CN103443854B (zh) 2011-04-08 2012-04-02 用于混合来自两个编码位流的音频节目的元数据的自动配置

Country Status (5)

Country Link
US (1) US9171549B2 (zh)
EP (1) EP2695161B1 (zh)
JP (1) JP5719966B2 (zh)
CN (1) CN103443854B (zh)
WO (1) WO2012138594A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112652316B (zh) * 2013-01-21 2023-09-15 杜比实验室特许公司 利用响度处理状态元数据的音频编码器和解码器
JP6129348B2 (ja) * 2013-01-21 2017-05-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 異なる再生装置を横断するラウドネスおよびダイナミックレンジの最適化
UA112249C2 (uk) 2013-01-21 2016-08-10 Долбі Лабораторіс Лайсензін Корпорейшн Аудіокодер і аудіодекодер з метаданими гучності та границі програми
CN105849801B (zh) 2013-12-27 2020-02-14 索尼公司 解码设备和方法以及程序
US9654076B2 (en) * 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
CN110177290B (zh) 2014-04-27 2021-10-26 Lg电子株式会社 用于发送或接收服务指南分段的方法和设备
CN110364190B (zh) 2014-10-03 2021-03-12 杜比国际公司 个性化音频的智能访问
US10297269B2 (en) * 2015-09-24 2019-05-21 Dolby Laboratories Licensing Corporation Automatic calculation of gains for mixing narration into pre-recorded content
US11380344B2 (en) 2019-12-23 2022-07-05 Motorola Solutions, Inc. Device and method for controlling a speaker according to priority data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0798869A2 (en) * 1996-03-29 1997-10-01 Koninklijke Philips Electronics N.V. Compressed audio signal processing
CN101552007A (zh) * 2004-03-01 2009-10-07 杜比实验室特许公司 多信道音频编码
CN101826071A (zh) * 2004-02-19 2010-09-08 杜比实验室特许公司 用于信号分析和合成的自适应混合变换

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9509831D0 (en) 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
US6360234B2 (en) 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
US7415120B1 (en) * 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
BR9909675A (pt) * 1998-04-14 2001-10-30 Hearing Enhancement Co Llc Controle de volume ajustável de usuário queacomoda a audição
KR100915120B1 (ko) 1999-04-07 2009-09-03 돌비 레버러토리즈 라이쎈싱 코오포레이션 다중-채널 오디오 신호들을 무손실 부호화 및 복호화하기 위한 장치 및 방법
US7266501B2 (en) 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
JP2003333699A (ja) * 2002-05-10 2003-11-21 Pioneer Electronic Corp マトリックス・サラウンドデコード装置
US20050058307A1 (en) 2003-07-12 2005-03-17 Samsung Electronics Co., Ltd. Method and apparatus for constructing audio stream for mixing, and information storage medium
JP2006260611A (ja) 2005-03-15 2006-09-28 Toshiba Corp 情報記憶媒体、情報再生装置、情報再生方法、及びネットワーク通信システム
TW200638335A (en) 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
KR20060131610A (ko) 2005-06-15 2006-12-20 엘지전자 주식회사 기록매체, 오디오 데이터 믹싱방법 및 믹싱장치
EP2328364B1 (en) * 2006-10-13 2020-07-01 Auro Technologies NV A method and encoder for combining digital data sets, a decoding method and decoder for such combined digital data sets and a record carrier for storing such combined digital data set
TWI396187B (zh) 2007-02-14 2013-05-11 Lg Electronics Inc 用於將以物件為主之音訊信號編碼與解碼之方法與裝置
WO2008150141A1 (en) 2007-06-08 2008-12-11 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2009027923A1 (en) 2007-08-31 2009-03-05 Koninklijke Philips Electronics N.V. Conveying auxiliary information in a multiplexed stream
KR101058042B1 (ko) * 2007-09-06 2011-08-19 삼성전자주식회사 멀티스트림 재생장치 및 재생방법
US8615316B2 (en) 2008-01-23 2013-12-24 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR101596504B1 (ko) 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
TWI416505B (zh) 2008-10-29 2013-11-21 Dolby Int Ab 對源自數位聲頻資料之聲頻信號的信號截割提供保護之方法及設備
US8165321B2 (en) * 2009-03-10 2012-04-24 Apple Inc. Intelligent clip mixing
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0798869A2 (en) * 1996-03-29 1997-10-01 Koninklijke Philips Electronics N.V. Compressed audio signal processing
CN101826071A (zh) * 2004-02-19 2010-09-08 杜比实验室特许公司 用于信号分析和合成的自适应混合变换
CN101552007A (zh) * 2004-03-01 2009-10-07 杜比实验室特许公司 多信道音频编码

Also Published As

Publication number Publication date
EP2695161B1 (en) 2014-12-17
EP2695161A1 (en) 2014-02-12
US9171549B2 (en) 2015-10-27
JP5719966B2 (ja) 2015-05-20
US20140025389A1 (en) 2014-01-23
WO2012138594A1 (en) 2012-10-11
CN103443854A (zh) 2013-12-11
JP2014513322A (ja) 2014-05-29

Similar Documents

Publication Publication Date Title
CN103443854B (zh) 用于混合来自两个编码位流的音频节目的元数据的自动配置
EP2109861B1 (en) Audio decoder
CN102754151B (zh) 用于对便携式装置内的音频信号的响度进行非破坏性标准化的系统和方法
CN1926610B (zh) 合成单声道音频信号的方法、音频解码器和编码系统
US9117458B2 (en) Apparatus for processing an audio signal and method thereof
US7719445B2 (en) Method and apparatus for encoding/decoding multi-channel audio signal
EP2278582A2 (en) A method and an apparatus for processing an audio signal
US8041042B2 (en) Method, system, apparatus and computer program product for stereo coding
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
CN101896968A (zh) 音频编码装置及其方法
WO2007011157A1 (en) Virtual source location information based channel level difference quantization and dequantization method
CN105164749A (zh) 多声道音频的混合编码
JP2009502086A (ja) 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法
CN105745703A (zh) 信号编码方法和装置以及信号解码方法和装置
CN103854656B (zh) 音频信号编码装置和方法、传输系统和方法以及解码装置
JP2002261622A (ja) 音響信号符号化装置
CN102855876A (zh) 音频编码器、音频编码方法和程序
CN101136200B (zh) 音频信号转换编码方法与系统
Ferreira et al. Stereo ACC real-time audio communication
CN117476013A (zh) 音频信号的处理方法、装置、存储介质及计算机程序产品
Serizawa et al. A Silence Compression Algorithm for the Multi-Rate Dual-Bandwidth MPEG-4 CELP Standard
KR20070035410A (ko) 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131211

Assignee: Micro whale Technology Co., Ltd.|Suzhou Industrial Park purple cat Information Consulting Co., Ltd.

Assignor: Dolby Laboratories Licensing Corp,|Dolby International AB

Contract record no.: 2017990000214

Denomination of invention: Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams

Granted publication date: 20160608

License type: Common License

Record date: 20170606

EE01 Entry into force of recordation of patent licensing contract