CN105229731A - 根据下混的音频场景的重构 - Google Patents

根据下混的音频场景的重构 Download PDF

Info

Publication number
CN105229731A
CN105229731A CN201480029538.3A CN201480029538A CN105229731A CN 105229731 A CN105229731 A CN 105229731A CN 201480029538 A CN201480029538 A CN 201480029538A CN 105229731 A CN105229731 A CN 105229731A
Authority
CN
China
Prior art keywords
passage
audio object
lower mixed
mixed
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480029538.3A
Other languages
English (en)
Other versions
CN105229731B (zh
Inventor
T·赫冯恩
H·普恩哈根
L·J·萨米尔森
L·维尔莫斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN105229731A publication Critical patent/CN105229731A/zh
Application granted granted Critical
Publication of CN105229731B publication Critical patent/CN105229731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

音频对象与位置元数据相关联。接收到的下混信号包括作为一个或更多个音频对象的线性组合并且与相应位置定位符相关联的下混通道。在第一方面,下混信号、位置元数据和依频率而定的对象增益被接收。通过根据基于位置元数据和位置定位符的系数向下混信号的上混应用对象增益来重构音频对象。在第二方面,音频对象已被与位于对应下混通道的位置定位符处的至少一个声床通道编码在一起。解码系统接收下混信号和音频对象的位置元数据。通过基于对应下混通道的位置定位符从对应下混通道中抑制表示音频对象的内容来重构声床通道。

Description

根据下混的音频场景的重构
相关申请的交叉引用
本申请要求在2013年5月24日提交的美国临时专利申请第61/827,469号的优先权,其通过引用而被整体结合于此。
技术领域
在此公开的本发明一般地涉及音频的编码和解码领域。具体而言,其涉及对包括音频对象的音频场景的编码和解码。
本公开涉及题为“CodingofAudioScenes”并且将HeikoPurnhagen等人称为发明人的与本申请在相同日期提交的美国临时申请第61/827,246号。所引用的申请被包括在附录A中并且在此通过引用而被包括于此。
背景技术
存在用于参数空间音频编码的音频编码系统。例如,MPEG环绕描述了一种用于多通道音频的参数空间编码的系统。MPEGSAOC(空间音频对象编码)描述了一种用于音频对象的参数编码的系统。
在编码器侧,这些系统通常将通道/对象下混为通常是单通道(一个通道)或者立体声(两个通道)下混的下混,并且提取借助于比如层级差异和互相关的参数来描述通道/对象的属性的边信息。下混和边信息然后被编码并发送到解码器侧。在解码器侧,在边信息的参数的控制下根据下混来重构—即近似于(approximate)—通道/对象。
这些系统的缺点是重构通常在数学上是复杂的并且经常必须依赖于关于作为边信息发送的参数所未明确描述的音频内容的属性的假设。这种假设可以例如是:除非互相关参数被发送则通道/对象被看作不相关,或通道/对象的下混被以特定方式生成。
除了以上之外,编码效率在包括网络广播和一对一文件传输两者在内的旨在用于音频分发的应用中作为关键设计因素出现。为了至少在非专业产品中保持文件大小和所需存储器有限,编码效率也有一定相关度。
附图说明
在下文中,将参考附图来描述示例实施例,其上:
图1是接收具有多个音频对象的音频场景(可能还有声床通道(bedchannel))并且输出下混比特流和元数据比特流的音频编码系统的广义框图;
图2示出了用于重构声床通道的方法的细节;更具体地,其是示出不同信号部分的时间频率图,在这些信号部分中信号能量数据被计算以完成维纳型滤波;
图3是音频解码系统的广义框图,该音频解码系统基于下混比特流和元数据比特流来重构音频场景;
图4示出了配置为通过对象增益来编码音频对象的音频编码系统的细节;
图5示出了在考虑到编码失真的同时计算所述对象增益的音频编码系统的细节;
图6示出了下混通道声床通道和音频对象相对于参考收听点的示例虚拟位置;并且
图7示出了特别配置用于重构声床通道和音频对象的混合的音频解码系统。
所有的附图都是示意性的并且一般地示出用来阐明这里的主题的多个部分,而其他部分可以被省略或者仅仅建议。除非另有指示,相似的标号在不同附图中指代相似部分。
具体实施方式
如在这里使用的,音频信号可以指代纯音频信号、视频信号或者多媒体信号的音频部分或者复杂音频对象的音频信号部分,其中音频对象可以进一步包括位置或其他元数据或者可以与位置或其他元数据相关联。本公开一般地涉及用于从音频场景变换为编码该音频场景的比特流(编码)和反过来(解码或者重构)的方法和设备。变换通常与分发相结合,由此解码在比编码晚的时间点和/或在不同的空间位置和/或使用不同的装备而发生。在将被编码的音频场景中,存在至少一个音频对象。音频场景可以被认为分段为频带(例如,B=11个频带,其中的每个都包括多个频率样本)和时间帧(例如包括64个样本),由此一个时间帧的一个频带形成一个时间/频率片(tile)。若干时间帧,例如24个时间帧,可以构成一个超级帧。实现这种时间和频率分段的典型方式是通过加窗时间—频率分析(示例窗口长度:640个样本),包括众所周知的离散谐波变换。
I.概览—通过对象增益的编码
在第一方面内的示例实施例中,提供了用于编码音频场景由此获得比特流的方法。比特流可以被分为下混比特流和元数据比特流。在该示例实施例中,一个时间帧中的几个(或者全部)频带中的信号内容通过联合处理操作而被编码,其中来自一个处理步骤的中间结果在影响多于一个频带的后续步骤中被使用。
音频场景包括多个音频对象。每个音频对象都与位置元数据相关联。通过针对总共M个下混通道中的每个形成音频对象中的一个或更多个音频对象的线性组合来生成下混信号。下混通道与相应位置定位符相关联。
对于每个音频对象,与音频对象相关联的位置元数据和与一些或者全部下混通道相关联的空间定位符被用来计算相关系数。相关系数可以与在下混操作中使用的系数一致,在下混操作中下混通道中的线性组合被形成;可替代地,下混操作使用独立的一组系数。通过收集与音频对象有关的所有非零相关系数,可以将下混信号上混为例如相关系数的向量和M个下混通道的内积(innerproduct)。在每个频带中,由此获得的上混通过依频率而定的对象增益而被调节,该对象增益优选可以根据一个频带的分辨率而被指派不同值。这是通过以被增益重新调节(rescale)的下混信号的上混近似于该频带中的音频对象的方式向对象增益指派值来完成的;因此,即使相关系数被用来控制下混操作,对象增益也可以在频带之间不同以提高编码的保真度。这可以通过比较音频对象和每个频带中的下混信号的上混并且向对象增益指派提供忠实近似的值来完成。由以上编码方法得到的比特流至少对下混信号、位置元数据和对象增益进行编码。
根据以上示例实施例的方法能够利用有限量的数据来编码复杂的音频场景,并且因而在期望高效、特别带宽经济的分发格式的应用中是有利的。
根据以上示例实施例的方法优选从比特流中省略相关系数。相反,应理解,相关系数是在解码器侧基于可以是预定义的下混通道的位置定位符和比特流中的位置元数据来计算的。
在示例实施例中,根据预定义规则来计算相关系数。规则可以是定义如何处理(音频对象的)位置元数据和(下混通道的)位置定位符以获得相关系数的确定性算法。指定算法的相关方面和/或实现处理装备中的算法的指令可以被存储在编码器系统或者执行音频场景编码的其他实体中。在解码器侧存储规则的相同或等效拷贝以使得可以从将被从编码器传输到解码器侧的比特流中省略规则是有利的。
在在先示例实施例的另一发展中,可以基于音频对象的几何位置尤其是其相对于音频对象的几何位置来计算相关系数。计算可以考虑欧几里德距离和/或传播角度。具体而言,可以基于诸如正弦-余弦平移法则(panninglaw)之类的能量保持平移法则(或声像法则(panlaw))来计算相关系数。平移法则尤其是立体声平移法则在本领域中是众所周知的,它们在本领域中用于源定位。平移法则尤其包括关于用于保持恒功率或者视在恒功率的条件的假设,以使得当音频对象改变其位置时响度(或者感知听觉水平)可以被保持相同或者大约如此。
在一个示例实施例中,通过仅使用相对于频率是恒定的输入的模型或算法来计算相关系数。例如,该模型或算法可以仅基于空间元数据和空间定位符来计算相关系数。因此,在每个时间帧中相关系数相对于频率将是恒定的。然而,如果依频率而定的对象增益被使用,则可以以频带分辨率校正下混通道的上混以使得下混通道的上混在每个频带中尽可能忠实地近似于音频对象。
在一个示例实施例中,编码方法通过合成分析方法来确定至少一个音频对象的对象增益。更准确的说,其包括对下混信号进行编码和解码,由此获得修改版本的下混信号。编码版本的下混信号可能已经为了被包括在形成最终编码结果的比特流中的目的而做好准备。在包括将音频场景编码为比特流和将比特流解码为音频场景两者的音频分发系统或音频分发方法中,经编码下混信号的解码优选与解码器侧的对应处理相同或者等效。在这些情形中,目标增益可以被确定以重新调节经重构下混通道的上混(例如,相关系数和经解码的编码下混信号的内积)以使得其忠实地近似于时间帧中的音频对象。这使得可以向目标增益指派使编码引起的失真效果降低的值。
在一个示例实施例中,至少包括下混器、下混编码器、上混系数分析器和元数据编码器的音频编码系统被提供。该音频编码系统被配置为对音频场景进行编码以使得比特流被得到,如在在先段落中说明的。
在一个示例实施例中,提供用于基于包含下混信号和针对每个音频对象的对象增益和与该音频对象相关联的位置元数据的比特流来重构具有音频对象的音频场景的方法。根据该方法,基于位置元数据和下混通道的空间定位符来计算相关系数—其可以说是量化了音频对象和每个下混通道的空间相关度。如在上面讨论和例示的,优选在编码器和解码器侧以统一的方式根据预定规则计算相关系数是有利的。同样地,在解码器侧存储下混通道的空间定位符而非在比特流中传输它们是有利的。一旦相关系数已被计算出,则音频对象根据相关系数而被重构为通过对象增益重新调节的下混信号的上混(例如,相关系数和下混信号的内积)。音频对象然后可以被可选地渲染以供在多通道回放装备中回放。
单独地,根据该示例实施例的解码方法实现了针对基于有限数量的输入数据的针对忠实音频场景重构的高效解码处理。与先前讨论的编码方法一起,其可以被用来定义音频数据的高效分发格式。
在一个示例实施例中,在单个时间帧中没有频率变化的情况下仅基于量(例如,音频对象的位置元数据)来计算相关系数。因此,每个相关系数相对于频率将是恒定的。可以通过使用依频率而定的对象增益来捕捉编码音频对象中的频率变化。
在一个示例实施例中,至少包括元数据解码器、下混解码器、上混系数解码器和上混器的音频解码系统被提供。该音频解码系统被配置为基于比特流来重构音频场景,如在在先段落中说明的。
另外的示例实施例包括:用于执行如在在先段落中描述的编码或解码方法的计算机程序;包括存储用于使可编程处理器执行如在在先段落中描述的编码或解码方法的计算机可读指令的计算机可读介质的计算机程序产品;存储可通过如在在先段落中描述的编码方法得到的比特流的计算机可读介质;存储比特流的计算机可读介质,基于该比特流可以根据如在在先段落中描述的解码方法来重构音频场景。注意到,除非另有陈述,否则在互不相同的权利要求中陈述的特征可以被有利地组合。
II.概览—声床通道的编码
在第二方面内的示例实施例中,提供了一种基于至少包括具有M个下混通道的下混信号来重构音频场景的方法。下混通道与位置定位符—例如,优选通道回放源的虚拟位置或方向—相关联。在音频场景中,存在至少一个音频对象和至少一个声床通道。每个音频对象与指示固定(针对静止音频对象)或瞬时(针对移动音频对象)虚拟位置的位置元数据相关联。声床通道相比之下与下混通道之一相关联并且可被看作在位置上与该下混通道相关联,其在下文中有时将被称作对应下混通道。出于实际目的,因而可以认为声床通道在位置指示符指示的位置(即在下混通道的回放源(例如,扬声器)的优选位置)处被最忠实地渲染。作为另一实际结果,定义比可用下混通道更多的声床通道没有特别优点。总而言之,音频对象的位置可以通过位置元数据来定义并且可能随着时间过去而被修改,而声床通道的位置被绑定到对应的声床通道并且因而随着时间过去是恒定的。
在该示例实施例中假定比特流中的下混信号中的每个通道包括音频对象和声床通道中的一个或更多个的线性组合,其中该线性组合已根据下混系数而被计算出。形成本解码方法的输入的比特流除了下混信号之外还包括与音频对象相关联的位置元数据(解码方法可以在不知道下混系数的情况下完成)或者控制下混操作的下混系数。为了基于其对应下混通道来重构声床通道,所述位置元数据(或者下混系数)被使用以在对应下混通道中抑制表示音频对象的内容。在抑制之后,下混通道仅包含声床通道内容,或者至少由声床通道内容主导。可选地,在这些处理步骤之后,音频对象可以与声床通道一起被重构和渲染,以供在多通道回放装备中回放。
单独地,根据该示例实施例的解码方法实现了基于有限量的输入数据的针对忠实音频场景重构的高效解码处理。与下面将要讨论的编码方法一起,其可以被用来定义音频数据的高效分发格式。
在各种示例实施例中,将被抑制的对象相关内容被显式地(explicitly)重构,以使得其将是可渲染的以供回放。可替代地,通过被设计为返回认为足以执行抑制的不完整表示估计的处理来获得对象相关内容。后者可以是对应下混通道由声床通道内容主导的情况,所以对象相关内容的抑制表示相对小的修改。在显式重构的情况下,以下方法中的一个或更多个可被采用:
a)捕捉N个音频对象中的至少一些的辅助信号是在解码端接收到的,如在最初引用的相关美国临时申请(题为“CodingofAudioScenes”)中详细描述的,这些辅助信号然后可以被从对应下混通道中抑制;
b)重构矩阵是在解码端接收到的,如在最初引用的相关美国临时申请(题为“CodingofAudioScenes”)中详细描述的,该矩阵允许根据M个下混信号重构N个音频对象,同时可能也依赖于辅助通道;
c)解码端接收用于基于下混信号重构音频对象的对象增益,如在第一方面下的本公开中描述的。这些增益可以与从比特流中提取出的下混系数一起使用,或者与基于下混通道的位置定位符和与音频对象相关联的位置元数据计算的下混系数一起使用。
各种示例实施例可以涉及对对象相关内容的不同程度的抑制。一种选项是尽可能多地抑制对象相关内容,优选抑制所有对象相关内容。另一选项是例如通过不完整的抑制操作或者通过被限制为抑制表示比对对应下混通道作出贡献的全部数目的音频对象少的音频对象的内容的抑制操作来抑制总对象相关内容的子集。如果比全部数目少的音频对象被(试图被)抑制,则这些可以尤其根据其能量内容来选择。具体而言,解码方法可以根据递减的能量内容对对象进行排序并且选择最强对象中的使得关于剩余对象相关内容的能量的阈值得到满足那么多的对象进行抑制;阈值可以是对象相关内容的固定最大能量或者可以被表达为在抑制已被执行之后对应下混通道的能量的百分比。另一选项是将听觉掩蔽效应考虑在内。这种方法可以包括抑制在感知上占主导的音频对象,而从较不显著音频对象—尤其是被信号中的其他音频对象掩蔽的音频对象—传出的内容可被留在下混通道中而没有不便。
在一个示例实施例中,来自下混通道的对象相关内容的抑制被伴随以—优选前面是—当下混信号(尤其是对应下混通道)被生成时被应用于音频对象的下混系数的计算(或估计)。该计算基于与对象相关联并且在比特流中接收到的位置元数据,并且还基于对应下混通道的位置定位符。(注意到在该第二方面中,与第一方面不同,假定一旦下混通道的位置定位符和音频对象的位置元数据是已知的就可以得到控制编码器侧的下混操作的下混系数。)如果下混系数曾作为比特流的一部分而被接收到,则明显无需以这种方式计算下混系数。接下来,基于重构的音频对象或者基于下混系数和下混信号来计算音频对象对对应下混通道的贡献的能量或者至少音频对象的子集对对应下混通道的贡献的能量。通过共同考虑音频对象来估计能量,使得统计相关性的影响(通常为减小)被捕捉。可替代地,如果在给定用例中合理地假设音频对象是大体上不相关或者大约不相关的,则每个音频对象的能量被单独地估计。能量估计可以要么基于下混通道和下混系数一起而间接地进行,要么通过首先重构音频对象而直接进行。可以获得每个对象的能量的另一方式是作为传入比特流的一部分。在该阶段之后,对于每个声床通道,可以获得向对应下混通道提供非零贡献的那些音频对象中的至少一个的估计能量,或者共同考虑的两个或更多个作贡献音频对象的总能量的估计。对应下混通道的能量也被估计。然后以至少一个音频对象的估计能量作为另外的输入通过对对应下混通道滤波来重构声床通道。
在一个示例实施例中,上面提到的下混系数的计算优选遵循在编码器和解码器侧以统一方式应用的预定义规则。规则可以是定义如何处理(音频对象的)位置元数据和(下混通道的)位置定位符以获得下混系数的确定性算法。指定算法的相关方面和/或实现处理装备中的算法的指令可以被存储在编码器系统或者执行音频场景编码的其他实体中。在解码器侧存储规则的相同或等效拷贝以使得可以从将被从编码器传输到解码器侧的比特流中省略规则是有利的。
在在先示例实施例的另一发展中,基于音频对象的几何位置尤其是其相对于音频对象的几何位置来计算下混系数。计算可以考虑欧几里德距离和/或传播角度。具体而言,可以基于诸如正弦-余弦平移法则之类的能量保持平移法则(或声像法则)来计算下混系数。如在上面提到的,平移法则尤其是立体声平移法则在本领域中是众所周知的,它们在本领域中尤其用于源定位。平移法则尤其包括关于用于保持恒功率或者视在恒功率的条件的假设,以使得当音频对象改变其位置时感知听觉水平保持不变。
在一个示例实施例中,来自下混通道的对象相关内容的抑制之前是当下混信号—尤其是对应下混通道—被生成时被应用于音频对象的下混系数的计算(或估计)。该计算基于与对象相关联并且在比特流中接收到的位置元数据,并且还基于对应下混通道的位置定位符。如果下混系数曾作为比特流的一部分而被接收到,则明显无需以这种方式计算下混系数。接下来,音频对象—或者至少每个向与将被重构的相关声床通道相关联的下混通道提供非零贡献的音频对象—被重构并且其能量被计算。在该阶段之后,对于每个声床通道,可以获得每个做贡献的音频对象的以及对应下混通道本身的能量。对应下混通道的能量被估计。然后通过重新调节对应下混通道即通过应用比例因数来重构声床通道,该比例因数基于音频对象的能量、对应下混通道的能量以及控制音频对象对对应下混通道的贡献的下混系数。以下是基于对应下混通道的能量(E[Yn])、每个音频对象的能量n=NB+1,...,N)和应用于音频对象的下混系数来计算比例因数hn的一种示例方式。
h n - ( m a x { ϵ , 1 - Σ n = N B + 1 N d m , n 2 E [ S n 2 ] E [ Y n 2 ] } ) γ
在这里,ε≥0和γ∈[0.5,1]是常数。优选的,ε=0并且γ=0.5。在不同的示例实施例中,可以针对相应信号的不同部分来计算能量。基本上,能量的时间分辨率可以是一个时间帧或者时间帧的一部分(细分)。能量可以指代特定频带或者频带的集合,或者整个频率范围,即所有频带的总能量。因此,比例因数hn可以针对每一时间帧具有一个值(即,可以是宽带量,参看图2A),或者针对每一时间/频率片具有一个值(参看图2B)或者针对每一时间帧具有多于一个值,或者针对每一时间/频率片具有多于一个值(参看图2C)。可以有利地针对声床通道重构使用比针对音频对象重构更细的粒度(增加每单位时间的独立值的数目),其中后者可以在针对每一时间/频率片采用一个值的情况下基于对象增益来执行,见第一方面下的上文。类似地,位置元数据具有一个时间帧—即,一个时间/频率片的持续时间—的粒度。一个这种优点是处理瞬时信号内容的提高能力,特别是在音频对象与声床通道之间的关系在短时间尺度上改变的情况下。
在一个示例实施例中,对象相关内容通过时间域或者频率域中的信号减法而被抑制。这种信号减法可以是从对应下混通道的波形中恒增益减去每个音频对象的波形;可替代地,信号减法相当于再一次在每个时间/频率片中以恒增益从对应下混通道的对应变换系数中减去每个音频对象的变换系数。其他示例实施例可以代而依赖于频谱抑制技术,其中声床通道的能谱(或者幅度谱)基本上等于对应下混通道的能谱与经历抑制的各音频对象的能谱的差异。换句话说,频谱抑制技术可以使信号的相位不变但是使其能量衰减。在对信号的时间域或频率域表示起作用的实现方式中,频谱抑制可以要求依时间和/或频率而定的增益。用于确定这种可变增益的技术在本领域是众所周知的并且可以基于相应信号与类似考虑之间的估计相位差。注意到,在本领域中,术语频谱减法有时被用作以上意义的频谱抑制的同义词。
在一个示例实施例中,至少包括下混解码器、元数据解码器和上混器的音频解码系统被提供。该音频解码系统被配置为基于比特流来重构音频场景,如在在先段落中说明的。
在一个示例实施例中,提供了将包括至少一个音频对象和至少一个声床通道的音频场景编码为比特流的方法,该比特流对下混信号和音频对象的位置元数据进行编码。在该示例实施例中,优选一次对至少一个时间/频率片进行编码。通过针对总共M个下混通道中的每个形成音频对象和与相应下混通道相关联的任意声床通道中的一个或更多个的线性组合来生成下混信号。线性组合是根据下混系数形成的,其中将被应用于音频对象的每个这种下混系数是基于下混通道的位置定位符和与音频对象相关联的位置元数据来计算的。该计算优选遵循预定义的规则,如在上面讨论的。
应理解,输出比特流包括足以以在有关用例中认为足够的精度来重构音频对象的数据,所以音频对象可以被从对应的声床通道中抑制。对象相关内容的重构要么是显式的,以使得音频对象在原则上将是可渲染的以供回放,要么是通过返回足以执行抑制的不完整表示的估计处理来完成。特别有利的方法包括:
a)将包含N个音频对象中的至少一些的辅助信号包括在比特流中;
b)将允许根据M个下混信号(以及可选地还根据辅助信号)重构N个音频对象的重构矩阵包括在比特流中;
c)将如在本公开中在第一方面下描述的对象增益包括在比特流中。
根据以上示例实施例的方法能够利用有限量的数据对复杂音频场景—诸如包括可定位的音频对象和静态声床通道的音频场景—进行编码,并且因而在期望高效、尤其是带宽经济的分发格式的应用中是有利的。
在一个示例实施例中,至少包括下混器、下混编码器和元数据编码器的音频编码系统被提供。该音频编码系统被配置为以比特流被得到的方式对音频场景进行编码,如在在先段落中说明的。
另外的示例实施例包括:用于执行如在在先段落中描述的编码或解码方法的计算机程序;包括存储用于使可编程处理器执行如在在先段落中描述的编码或解码方法的计算机可读指令的计算机可读介质的计算机程序产品;存储可通过如在在先段落中描述的编码方法得到的比特流的计算机可读介质;存储比特流的计算机可读介质,基于该比特流可以根据如在在先段落中描述的解码方法来重构音频场景。还注意到,除非另有陈述,否则在互不相同的权利要求中陈述的特征可以被有利地组合。
III.示例实施例
根据最初引用的相关美国临时申请(题为“CodingofAudioScenes”)可以更加充分地理解本发明的技术背景。
图1示意性地示出了音频编码系统100,音频编码系统100接收表示将被编码的音频对象(和声床通道,在一些示例实施例中)的多个音频信号Sn和可以包括位置元数据的可选的渲染元数据(虚线)作为其输入。下混器101通过形成音频对象(和声床通道)的线性组合来产生具有M>1个下混通道的下混信号Y,其中所应用的下混系数可以是变量并且更准确的说受渲染元数据影响。下混信号Y被下混编码器(未示出)编码并且经编码的下混信号YC被包括在来自编码系统1的输出比特流中。适合于该类应用的编码格式是DolbyDigitalPlusTM(或者增强AC-3)格式,尤其是其5.1模式,并且下混编码器可以是DolbyDigitalPlusTM使能的编码器。与此并行,下混信号Y被提供给时间-频率变换102(例如,QMF分析库),时间-频率变换102输出下混信号的频率域表示,其然后被提供给上混系数分析器104。上混系数分析器104还接收音频对象Sn(k,l)的频率域表示,其中k是频率样本的索引(其继而被包括在B频带之一中)并且l是时间帧的索引,其已经被布置在上混系数分析器104的上游的时间-频率变换103准备好。上混系数分析器104确定用于在解码器侧基于下混信号来重构音频对象的上混系数。这样做,上混系数分析器104还可以将渲染元数据考虑在内,如虚线输入箭头指示。上混系数被上混系数编码器106编码。与此并行,下混信号Y和音频对象的相应频率域表示与上混系数和可能的渲染元数据一起被提供给相关分析器105,相关分析器105估计在解码器侧通过采取适当校正措施而希望保持的统计量(例如,互协方差E[Sn(k,l)Sn′(k,l)],n≠n′)。相关分析器105中的估计结果被馈送给相关数据编码器107并且通过比特流复用器108而被与编码上混系数组合为构成编码系统100的输出之一的元数据比特流P。
图4示出了第一方面内的一个示例实施例中的音频编码系统100的细节,更准确的说是上混系数分析器104的内部工作及其与下混器101的关系。在示出的示例实施例中,音频编码系统100接收N个音频对象(并且没有声床通道),并且按照下混信号Y和另一比特流P中的与音频对象相关联的空间元数据和N个对象增益gn来对N个音频对象进行编码。上混系数分析器104包括存储下混通道的空间定位符的存储器401、下混系数计算单元402和对象增益计算单元403。下混系数计算单元402存储用于基于音频编码系统100作为渲染元数据的一部分接收到的空间元数据以及空间定位符来计算下混系数(优选产生与在预期解码系统中存储的对应规则相同的结果)的预定义规则。在正常情形下,这样计算出的下混系数中的每个是小于或者等于一的数,dm,n≤1,m=1,...,M,n=1,...,N,或是小于或等于某一其他绝对常数的数。下混系数也可以遵照能量守恒规则或者平移规则而被计算,这意味着对应用于每个给定音频对象Sn的向量dn=[dn,1dn,2…dn,m]T的统一上限,诸如对于所有n=1,…,N统一是||dn||≤C,其中规格化可以确保||dn||=C。下混系数被提供给下混器101和对象增益计算单元403两者。下混器101的输出可以被写作总和在该示例实施例中,下混系数是宽带量,而对象增益gn可以针对每个频带被指派独立值。对象增益计算单元403将每个音频对象Sn与将被根据解码器侧的上混获得的估计相比较,即
d n T Y = d n T Σ l = 1 N d l S l = Σ l = 1 N ( d n T d l ) S l .
假定对于所有l=1,…,N是||dn||=C,则对于l=n等同是就是说,主导系数将是倍增的Sn。信号然而也可以包括来自其他音频对象的贡献,并且这些另外贡献的影响可能受对象增益gn的适当选择的限制。更准确的说,对象增益计算单元403向对象增益gn指派值以使得在时间/频率片中
S n ≈ g n ( C 2 S n + Σ l = 1 l ≠ n N ( d n T d l ) S l ) .
图5示出了图4中的编码器系统100的另一发展。在这里,(上混系数分析器104内的)对象增益计算单元403被配置为通过将每个音频对象Sn不与下混信号Y的上混相比较而是与恢复下混信号的上混相比较来计算对象增益。恢复下混信号是通过使用下混编码器501的输出来获得的,下混编码器501接收来自下混器101的输出并且利用经编码下混信号来准备比特流。下混编码器501的输出YC被提供给下混解码器502,下混解码器502模仿解码侧的对应下混解码器的动作。当下混编码器501执行有损编码时使用根据图5的编码器系统是有利的,因为这种编码将引入编码噪声(包括量化失真),其可以被对象增益gn在一定程度上补偿。
图3示意性地示出了解码系统300,解码系统300被设计为在解码侧与在图1、4或5中示出的类型中的任一种的编码系统协作。解码系统300接收元数据比特流P和下混比特流Y。基于下混比特流Y,时间-频率变换302(例如,QMF分析库)准备下混信号的频率域表示并且将这提供给上混器304。上混器304中的操作受其从一连串元数据处理组件接收到的上混系数控制。更准确的说,上混系数解码器306对元数据比特流进行解码并且将其输出提供给执行上混系数的内插—以及可能的瞬时控制—的布置。在一些示例实施例中,上混系数的值是在离散的时间点给出的,并且内插可以被用来获得申请中间时间点的值。取决于特定用例中的要求,内插可以是线性、二次、样条或者高阶类型的。所述内插布置包括被配置为使接收到的上混系数延迟合适时间段的缓冲器309以及用于基于当前和先前给出的上混系数值得出中间值的内插器310。与此并行,相关控制数据解码器307对相关分析器105所估计的统计量进行解码并且将解码数据提供给对象相关控制器305。总而言之,下混信号Y在时间-频率变换302中经历时间-频率变换,在上混器304中被上混为表示音频对象的信号,这些信号然后被校正以使得统计特性—如相关分析器105所估计的量所量度量的—与原始编码的音频对象的那些一致。频率-时间变换311提供解码系统300的最终输出,即经解码音频对象的时间域表示,其然后可以被渲染以供回放。
图7示出了音频解码系统300的另一发展,尤其具有重构除了音频对象Sn(n=NB+1,…,N)之外还包括声床通道的音频场景的能力。从传入比特流中,复用器701提取并且解码:下混信号Y,音频对象的能量(n=NB+1,…,N),与音频对象相关联的对象增益gn(n=NB+1,…,N),以及与音频对象相关联的位置元数据(n=NB+1,…,N)。声床通道根据第二方面通过抑制其中的对象相关内容基于其对应下混通道信号而被重构,其中音频对象根据第一方面通过使用基于对象增益确定的上混矩阵U对下混信号进行上混而被重构。下混系数重构单元703使用从相连的存储器702中取回的下混通道的位置定位符(m=1,…M)和位置元数据来根据预定义规则计算、恢复在编码侧使用的下混系数dm,n。由下混系数重构单元703计算的下混系数被用于两个目的。首先,它们被按行乘以对象增益并且被布置为上混矩阵
其然后被提供给上混器705,上混器705将矩阵U的元素应用于下混通道以重构音频对象。与此并行,下混系数在被乘以音频对象的能量之后被从下混系数重构单元703提供给维纳滤波器707。在复用器701与维纳滤波器707的另一输入之间,提供了用于计算与声床通道相关联的每个下混通道的能量(m=1,…,NB)的能量估计器706。基于该信息,维纳滤波器707在常数ε≥0并且0.5≤γ≤1的情况下内部地计算比例因数
h n = ( m a x { ϵ , 1 - Σ n = N B + 1 N d m , n 2 E [ S n 2 ] E [ Y n 2 ] } ) γ , n = 1 , ... , N B ,
并且将此应用于对应下混通道,以将声床通道重构为n=1,…,NB。总而言之,在图7中示出的解码系统输出与全部音频对象和全部声床通道相对应的重构信号,其随后可以被渲染以供在多通道装备中回放。渲染可以另外依赖于与音频对象相关联的位置元数据和与下混通道相关联的位置定位符。
与在图3中示出的基线音频解码系统300相比,可以认为图7中的单元705履行其中的单元302、304和311的职责,单元702、703和704履行单元306、309和310的职责(但是以不同的任务分配),而单元706和707代表在基线系统中不存在的功能,并且与基线系统中的单元305和307相对应的组件未在图7中显式绘出。在图7中示出的示例实施例的变体中,音频对象的能量可以通过计算从上混器705中输出的重构音频对象的能量(n=NB+1,…,N)来估计。这样,以在解码系统中花费的一定量的附加计算能力为代价,传输比特流的比特率可以被降低。
另外,想起下混通道的能量和音频对象(或者重构音频对象)的能量的计算可以以相对于时间/频率的粒度而非相对于音频信号所被分段为的时间/频率片的粒度来执行。粒度相对于与时间/频率片分段(图2B)相等的频率可以更粗糙(如图2A所示),或者相对于时间可以更细(图2C)。在图2中,时间帧被表示为T1、T2、T3,…并且频带被表示为F1、F2、F3,…,而时间/频率片可以通过对(Tl,Fk)来指代。在示出更细时间粒度的图2C中,第二索引被用来指代时间帧的细分,在时间帧T4被细分为四个子帧的示例情况下诸如是T4,1、T4,2、T4,3、T4,4
图7示出了声床通道和音频通道的示例几何结构,其中声床通道被绑定到下混通道的虚拟位置,同时可以定义(并且随着时间过去重新定义)音频对象的位置,其然后被编码为位置元数据。图7(其中(M,N,NB)=(5,7,2))示出了下混通道根据其相应位置定位符的虚拟位置,其与声床通道S1、S2的位置一致。这些声床通道的位置已被表示为但是强调的是它们不一定形成位置元数据的一部分;相反,如上面已经讨论的,传输仅与音频对象相关联的位置元数据是足够的。图7还示出了如位置元数据所表示的音频对象的位置的给定时间点的快照。
IV.等效物、扩展、替代方案和杂项
在研究上面的描述之后,本发明的另外示例实施例对于本领域技术人员而言将变得清楚。尽管本说明书和附图公开了实施例和示例,但是范围不局限于这些具体的示例。在不脱离由所附权利要求限定的范围的情况下,可以做出许多修改和变化。权利要求中出现的任何标号将不会被理解为限制它们的范围。
上文公开的系统和方法可以被实现为软件、固件、硬件或者其组合。在硬件实现方式中,上面的说明书中提到的功能单元之间的任务分割不一定对应于物理单元的分割;相反,一个物理组件可以具有多个功能,而一个任务可以由几个物理组件协作执行。某些组件或所有组件可以实现为由数字信号处理器或微处理器执行的软件,或者实现为硬件或专用集成电路。这类软件可以在计算机可读介质上被分发,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域技术人员所公知的,术语计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性介质和非易失性介质两者、可移除的介质和不可移除的介质两者。计算机存储介质包括但不局限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多用途光盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁性存储器件,或者可用于存储希望的信息且可被计算机访问的任何其他介质。另外,本领域技术人员所公知的是通信介质通常在诸如载波或其他传输机构之类的经调制的数据信号中包含计算机可读指令、数据结构、程序模块或其他数据并包括任何信息传递介质。

Claims (42)

1.一种用于对具有至少多个音频对象的音频场景的时间帧进行编码的方法,该方法包括:
接收N个音频对象(Sn,n=1,…,N)和关联的位置元数据 其中N>1;
生成包括M个下混通道(Ym,m=1,…,M)的下混信号(Y),每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合并且与位置定位符相关联,其中M>1;
针对每个音频对象:
基于与该音频对象相关联的位置元数据和下混通道的位置定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数(dn=(dn,1,…,dn,M));并且
针对每个频带:
以使通过对象增益(gn)重新调节的相关系数和下混信号的内积近似于时间帧中的音频对象的方
式来确定该对象增益;
以及生成包括下混信号、位置元数据和对象增益的比特流。
2.如权利要求1所述的方法,还包括从比特流中省略相关系数。
3.如权利要求1或2所述的方法,其中,相关系数是根据预定义规则来计算的。
4.如权利要求3所述的方法,其中:
位置元数据和位置定位符表示几何位置;并且
相关系数是基于多对几何位置之间的距离来计算的。
5.如权利要求4所述的方法,其中:
相关系数是基于诸如正弦-余弦平移法则之类的能量保持平移法则来计算的。
6.如在前权利要求中的任一个所述的方法,其中,每个相关系数相对于频率是恒定的。
7.如在前权利要求中的任一个所述的方法,其中,下混通道是以相关系数作为权重计算出的N个音频对象中的一个或更多个音频对象的线性组合(Ym=Σndm,nn,m=1,...,M)。
8.如在前权利要求中的任一个所述的方法,其中,不同频带(Fb,b=1,…,B)中的对象增益是独立地确定的(gn=gn(fb),b=1,…,B)。
9.如在前权利要求中的任一个所述的方法,其中:
生成比特流的步骤包括下混信号的有损编码,所述编码与重构处理相关联;并且
至少一个音频对象的对象增益是以使通过该对象增益重新调节的相关系数和重构下混信号的内积近似于时间帧中的音频对象的方式来确定的。
10.一种音频编码系统(100),被配置为将至少包括N>1个音频对象的音频场景的时间帧编码为比特流,
每个音频对象(Sn,n=1,…,N)与位置元数据 相关联,
该系统包括:
下混器(101),用于接收音频对象并且基于其来输出包括M个下混通道(Ym,m=1,…,M)的下混信号,其中M>1,每个下混通道是N个音频对象中的一个或更多个音频对象的线性组合,并且每个下混通道与位置定位符相关联;
下混编码器(501),用于对下混信号进行编码并且将此包括在比特流中;
上混系数分析器(104;402,403),用于接收音频对象的空间元数据和下混通道的空间定位符并且基于其来计算指示出该音频对象和每个下混通道的空间相关度的相关系数(dn=(dn,1,…,dn,M));以及
元数据编码器(106),用于对位置元数据和对象增益进行编码并且将这些包括在比特流中,
其中,上混系数分析器还被配置为,针对音频对象的频带,接收与该音频对象有关的相关系数(dn)和下混信号(Y)并且被配置为基于其以使通过对象增益(gn)重新调节的相关系数和下混信号的内积近似于时间帧的该频带中的音频对象的方式来确定该对象增益。
11.如权利要求10所述的音频编码系统,其中,上混系数分析器存储用于计算相关系数的预定义规则。
12.如权利要求10或11所述的音频编码系统,
其中下混编码器执行有损编码,
该系统还包括用于重构通过下混编码器编码的信号的下混解码器(502),
其中,上混系数分析器被配置为以使通过对象增益重新调节的相关系数和重构下混信号的内积近似于时间帧中的音频对象的方式来确定对象增益。
13.如权利要求10至12中任一个所述的音频编码系统,其中,下混器被配置为应用相关系数来计算下混通道(Ym=Σndm,nSn,m=1,...,M)。
14.一种用于根据比特流来重构具有至少多个音频对象的音频场景的时间帧的方法,该方法包括:
针对N个音频对象中的每个,从该比特流中提取与每个音频对象相关联的位置元数据和对象增益(gn,n=1,…,N),其中N>1;
从该比特流中提取下混信号(Y),该下混信号包括M个下混通道(Ym,m=1,…,M),其中M>1并且每个下混通道与位置定位符相关联;
针对每个音频对象:
基于该音频对象的位置元数据和下混通道的空间定位符来计算指示出该音频对象和每个下混通道的空间相关度的相关系数(dn=(dn,1,…,dn,M));并且
将该音频对象重构为通过对象增益重新调节的相关系数和下混信号的内积
15.如权利要求14所述的方法,其中,相关系数是根据预定义规则来计算的。
16.如权利要求15所述的方法,其中:
位置元数据和位置定位符表示几何位置;并且
相关系数是基于多对几何位置之间的距离来计算的。
17.如权利要求16所述的方法,其中:
相关系数是基于诸如正弦-余弦平移法则之类的能量保持平移法则来计算的。
18.如权利要求14至17中任一个所述的方法,其中,每个相关系数相对于频率是恒定的。
19.如权利要求14至18中任一个所述的方法,其中:
对象增益的值能针对每个频带(Fb,b=1,…,B)独立地指派;并且
音频对象中的至少一个在每个频带中被独立地重构为通过用于该频带的对象增益(gn(Fb))的值重新调节的相关系数和下混信号的内积 ( S ^ n ( f ∈ F b ) = g n ( F b ) × d n T Y ) .
20.如权利要求14至19中任一个所述的方法,还包括根据所述位置元数据来渲染音频对象以供在多通道音频回放装备中回放。
21.一种包括根据权利要求3的编码和根据权利要求15的解码的音频分发方法,其中,用于计算相关系数的相应预定义规则是等效的。
22.一种计算机程序产品,包括具有用于执行如权利要求1至9和14至21中任一个所述的方法的指令的计算机可读介质。
23.一种音频解码系统(300),被配置为基于比特流来重构至少包括多个音频对象的音频场景的时间帧,该系统包括:
元数据解码器(306),用于接收比特流并且针对N个音频对象中的每个从该比特流中提取与每个音频对象相关联的位置元数据和对象增益(gn,n=1,…,N),其中N>1;
下混解码器,用于接收比特流并且从该比特流中提取下混信号(Y),该下混信号包括M个下混通道(Ym,m=1,…,M),其中M>1;
上混系数解码器(306),针对每个下混通道存储关联的位置定位符并且被配置为基于下混通道的空间定位符和音频对象的位置元数据来计算指示出该音频对象和每个下混通道的空间相关度的相关系数(dn=(dn,1,…,dn,M));以及
上混器(304),用于基于相关系数和对象增益来重构音频对象,其中该音频对象被重构为通过对象增益重新调节的相关系数和下混信号的内积 ( S ^ n = g n × d n T Y ) .
24.如权利要求23所述的音频解码系统,其中,上混系数解码器存储用于计算相关系数的预定义规则。
25.一种用于重构具有至少一个音频对象(Sn,n=NB+1,…,N)和至少一个声床通道(Sn,n=1,…,NB)的音频场景的时间/频率片的方法,该至少一个音频对象与位置元数据相关联,该方法包括:
接收比特流;
从该比特流中提取包括M个下混通道的下混信号(Y),每个下混通道包括根据下混系数(dm,n,m=1,…,M,n=1,…,N)的音频对象和声床通道中的一个或更多个的线性组合 ( Y m = Σ n = 1 N d m , n S n , m = 1 , ... , M ) ,
其中NB≤M个声床通道中的每个与对应下混通道相关联;
从该比特流中,进一步提取音频对象的位置元数据或者下混系数;以及
基于与对应下混通道相关联的位置定位符和提取出的音频对象的位置元数据或者基于下混系数,通过从对应下混通道中抑制表示至少一个音频对象的内容来重构声床通道。
26.如权利要求25所述的方法,其中,通过从对应下混通道中抑制表示音频对象的所有内容来重构声床通道。
27.如权利要求25所述的方法,其中,通过从对应下混通道中抑制表示音频对象的全部内容的子集来重构声床通道。
28.如权利要求27所述的方法,其中,通过抑制表示音频对象的真子集的内容来重构声床通道。
29.如权利要求25、27和28中任一个所述的方法,其中,通过抑制表示如下量的音频对象的内容来重构声床通道,所述量是使得表示音频对象的剩余内容的信号能量低于预定义阈值那么多的量。
30.如在前权利要求中的任一个所述的方法,还包括:
基于对应下混通道的位置定位符和位置元数据来计算应用于音频对象的下混系数或者获得从比特流中提取的下混系数;
可选地至少基于下混系数来重构音频对象;
基于重构的音频对象或者基于下混系数和下混信号,估计音频对象对对应下混通道的贡献或者至少音频对象的子集对对应下混通道的贡献的能量 ( E [ ( Σ n ∈ I d m , n S n ) 2 ] , I ⊆ [ N B + 1 , N ] ) ; 以及
针对声床通道(对于某些n=1,…,NB的Sn):
估计对应下混通道的能量以及
将声床通道重构为重新调节版本的对应下混通道其中比例因数(hn)基于贡献的能量和对应下混通道的能量。
31.如在前权利要求中的任一个所述的方法,还包括:
基于对应下混通道的位置定位符和位置元数据来计算应用于音频对象的下混系数或者获得从比特流中提取的下混系数;
可选地至少基于下混系数来重构音频对象;
基于重构的音频对象或者基于下混系数和下混信号来估计至少一个音频对象的能量 ( E [ S n 2 ] , n = N B + 1 , ... , N ) ; 以及
针对声床通道(对于某些n=1,…,NB的Sn):
估计对应下混通道的能量以及
将声床通道重构为重新调节版本的对应下混通道其中比例因数(hn)基于音频对象中的所述至少一个音频对象的估计能量、对应下混通道的能量和控制音频对象对对应下混通道的贡献的下混系数
32.如权利要求31所述的方法,其中,比例因数是由
h _ n = ( m a x { ϵ , 1 - Σ n = N B + 1 N d m , n 2 E [ S n 2 ] E [ Y n 2 ] } ) γ
给出的,其中ε≥0和γ∈[0.5,1]是常数。
33.如权利要求30或31所述的方法,其中,通过对对应下混通道的维纳滤波来重构声床通道。
34.如权利要求30至33中任一个所述的方法,其中,音频对象的贡献的能量或者如果适用的话音频对象的能量和对应下混通道的能量指代时间/频率片,由此比例因数(hn)在时间同步的时间/频率片之间是可变的。
35.如权利要求30至33中任一个所述的方法,其中,音频对象的贡献的能量或者如果适用的话音频对象的能量和对应下混通道的能量指代多个时间同步的时间/频率片,由此比例因数(hn)在时间同步的时间/频率片之间相对于频率是恒定的。
36.如权利要求30至34中任一个所述的方法,其中,音频对象的贡献的能量或者音频对象的能量和/或对应下混通道的能量是利用比一个时间/频率片的持续时间更细的时间分辨率来获得的,由此比例因数在时间/频率片上相对于时间是可变的。
37.如在前权利要求中任一个所述的方法,其中,对表示至少一个音频对象的内容的抑制是通过在时间域或频率域中从对应下混通道中进行音频对象的信号减法来执行的。
38.如权利要求25至36中任一个所述的方法,其中,对表示至少一个音频对象的内容的抑制是使用频谱抑制技术来执行的。
39.一种音频解码系统(300),被配置为基于比特流来重构具有与位置元数据相关联的至少一个音频对象(Sn,n=NB+1,…,N)和至少一个声床通道(Sn,n=1,…,NB)的音频场景的时间/频率片,该系统包括:
下混解码器,用于接收比特流并且从该比特流中提取包括M个下混通道的下混信号(Y),每个下混通道包括根据下混系数(dm,n,m=1,…,M,n=1,…,N)的N个音频对象和声床通道中的一个或更多个的线性组合 ( Y m = Σ n = 1 N d m , n S n , m = 1 , ... , M ) ,
其中NB≤M个声床通道中的每个与对应下混通道相关联;
元数据解码器(306),用于接收比特流并且从该比特流中提取音频对象的位置元数据或者下混系数;以及
上混器(304),用于基于其基于与对应下混通道相关联的位置定位符和提取出的音频对象的位置元数据或者基于下混系数,通过从对应下混通道中抑制表示至少一个音频对象的内容来重构声床通道。
40.一种用于对具有至少一个音频对象和至少一个声床通道的音频场景的时间/频率片进行编码的方法,该方法包括:
接收与位置元数据相关联的至少一个音频对象(Sn,n=NB+1,…,N)和至少一个声床通道(Sn,n=1,…,NB);
生成包括M个下混通道(Ym,m=1,…,M)的下混信号(Y),每个下混通道与位置定位符相关联并且包括根据下混系数(dm,n,m=1,…,M,n=1,…,N)的音频对象和声床通道中的一个或更多个的线性组合 ( Y m = Σ n = 1 N d m , n S n , m = 1 , ... , M ) , 其中NB≤M个声床通道中的每个与对应下混通道相关联;以及
生成包括下混信号和位置元数据或下混系数的比特流,其中:
应用于音频对象的下混系数中的每个是基于下混通道的位置定位符和与音频对象相关联的位置元数据来计算的。
41.一种计算机程序产品,包括具有用于执行如权利要求25至38和40中任一个所述的方法的指令的计算机可读介质。
42.一种音频编码系统(100),被配置为对具有与位置元数据相关联的至少一个音频对象(Sn,n=NB+1,…,N)和至少一个声床通道(Sn,n=1,…,NB)的音频场景的时间/频率片进行编码,该系统包括:
下混器(101),用于接收音频对象和声床通道并且基于其来生成包括M个下混通道(Ym,m=1,…,M)的下混信号(Y),每个下混通道与位置定位符相关联并且包括根据下混系数(dm,n,m=1,…,M,n=1,…,N)的音频对象和声床通道中的一个或更多个的线性组合 ( Y m = Σ n = 1 N d m , n S n , m = 1 , ... , M ) , 其中:
该下混器被配置为基于下混通道的位置定位符和与音频对象相关联的位置元数据来计算将被应用于音频对象的每个下混系数;并且
NB≤M个声床通道中的每个与对应下混通道相关联;
下混编码器(501),用于对下混信号进行编码并且将此包括在比特流中;以及
元数据编码器(106),用于对位置元数据或下混系数进行编码并且将这些包括在比特流中。
CN201480029538.3A 2013-05-24 2014-05-23 根据下混的音频场景的重构 Active CN105229731B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361827469P 2013-05-24 2013-05-24
US61/827,469 2013-05-24
PCT/EP2014/060732 WO2014187989A2 (en) 2013-05-24 2014-05-23 Reconstruction of audio scenes from a downmix

Publications (2)

Publication Number Publication Date
CN105229731A true CN105229731A (zh) 2016-01-06
CN105229731B CN105229731B (zh) 2017-03-15

Family

ID=50771515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480029538.3A Active CN105229731B (zh) 2013-05-24 2014-05-23 根据下混的音频场景的重构

Country Status (5)

Country Link
US (6) US9666198B2 (zh)
EP (2) EP2973551B1 (zh)
CN (1) CN105229731B (zh)
HK (1) HK1216452A1 (zh)
WO (1) WO2014187989A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188424A1 (zh) * 2017-04-12 2018-10-18 华为技术有限公司 多声道信号的编解码方法和编解码器

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014035902A2 (en) * 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation Reflected and direct rendering of upmixed content to individually addressable drivers
BR122020017152B1 (pt) 2013-05-24 2022-07-26 Dolby International Ab Método e aparelho para decodificar uma cena de áudio representada por n sinais de áudio e meio legível em computador não transitório
EP3005353B1 (en) 2013-05-24 2017-08-16 Dolby International AB Efficient coding of audio scenes comprising audio objects
EP2973551B1 (en) 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
KR101760248B1 (ko) 2013-05-24 2017-07-21 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
WO2015006112A1 (en) * 2013-07-08 2015-01-15 Dolby Laboratories Licensing Corporation Processing of time-varying metadata for lossless resampling
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
WO2015017037A1 (en) 2013-07-30 2015-02-05 Dolby International Ab Panning of audio objects to arbitrary speaker layouts
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
EP3127109B1 (en) 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects
US11128978B2 (en) * 2015-11-20 2021-09-21 Dolby Laboratories Licensing Corporation Rendering of immersive audio content
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
EP3547718A4 (en) * 2016-11-25 2019-11-13 Sony Corporation PLAYING DEVICE, PLAY PROCESS, INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
CN111630593B (zh) * 2018-01-18 2021-12-28 杜比实验室特许公司 用于译码声场表示信号的方法和装置
EP3874491B1 (en) 2018-11-02 2024-05-01 Dolby International AB Audio encoder and audio decoder
US11765536B2 (en) 2018-11-13 2023-09-19 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
CA3194876A1 (en) * 2020-10-09 2022-04-14 Franz REUTELHUBER Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension
WO2022179848A2 (en) * 2021-02-25 2022-09-01 Dolby International Ab Audio object processing
EP4396810A1 (en) * 2021-09-03 2024-07-10 Dolby Laboratories Licensing Corporation Music synthesizer with spatial metadata output
CN114363791A (zh) * 2021-11-26 2022-04-15 赛因芯微(北京)电子科技有限公司 串行音频元数据生成方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1910655A (zh) * 2004-01-20 2007-02-07 弗劳恩霍夫应用研究促进协会 构造多通道输出信号或生成下混信号的设备和方法
CN101529501A (zh) * 2006-10-16 2009-09-09 杜比瑞典公司 多声道下混对象编码的增强编码和参数表示
CN101849257A (zh) * 2007-10-17 2010-09-29 弗劳恩霍夫应用研究促进协会 使用下混合的音频编码
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567675B2 (en) 2002-06-21 2009-07-28 Audyssey Laboratories, Inc. System and method for automatic multiple listener room acoustic correction with low filter orders
DE10344638A1 (de) 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0400997D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
GB2415639B (en) 2004-06-29 2008-09-17 Sony Comp Entertainment Europe Control of data processing
CN1981326B (zh) 2004-07-02 2011-05-04 松下电器产业株式会社 音频信号解码装置和方法及音频信号编码装置和方法
JP4828906B2 (ja) * 2004-10-06 2011-11-30 三星電子株式会社 デジタルオーディオ放送でのビデオサービスの提供及び受信方法、並びにその装置
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
KR20070037983A (ko) * 2005-10-04 2007-04-09 엘지전자 주식회사 다채널 오디오 신호의 디코딩 방법 및 부호화된 오디오신호 생성방법
RU2406164C2 (ru) 2006-02-07 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования/декодирования сигнала
BRPI0621485B1 (pt) 2006-03-24 2020-01-14 Dolby Int Ab decodificador e método para derivar sinal de down mix de fone de ouvido, decodificador para derivar sinal de down mix estéreo espacial, receptor, método de recepção, reprodutor de áudio e método de reprodução de áudio
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
ES2380059T3 (es) * 2006-07-07 2012-05-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente
KR101396140B1 (ko) 2006-09-18 2014-05-20 코닌클리케 필립스 엔.브이. 오디오 객체들의 인코딩과 디코딩
WO2008039038A1 (en) 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
EP2337380B8 (en) 2006-10-13 2020-02-26 Auro Technologies NV A method and encoder for combining digital data sets, a decoding method and decoder for such combined digital data sets and a record carrier for storing such combined digital data sets
WO2008046530A2 (en) 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
AU2007328614B2 (en) 2006-12-07 2010-08-26 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8370164B2 (en) 2006-12-27 2013-02-05 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel including information bitstream conversion
AU2008215232B2 (en) 2007-02-14 2010-02-25 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
KR20080082924A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호의 처리 방법 및 장치
KR20080082916A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
RU2439719C2 (ru) 2007-04-26 2012-01-10 Долби Свиден АБ Устройство и способ для синтезирования выходного сигнала
US20100228554A1 (en) 2007-10-22 2010-09-09 Electronics And Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
ES2391801T3 (es) 2008-01-01 2012-11-30 Lg Electronics Inc. Procedimiento y aparato para procesar una señal de audio
WO2009093866A2 (en) 2008-01-23 2009-07-30 Lg Electronics Inc. A method and an apparatus for processing an audio signal
DE102008009025A1 (de) 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
DE102008009024A1 (de) 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals
KR101461685B1 (ko) 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
JP5249408B2 (ja) 2008-04-16 2013-07-31 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
CN102100009B (zh) 2008-07-15 2015-04-01 Lg电子株式会社 处理音频信号的方法和装置
WO2010008198A2 (en) * 2008-07-15 2010-01-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
WO2010087627A2 (en) 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
JP4900406B2 (ja) * 2009-02-27 2012-03-21 ソニー株式会社 情報処理装置および方法、並びにプログラム
ES2524428T3 (es) 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
EP2461321B1 (en) 2009-07-31 2018-05-16 Panasonic Intellectual Property Management Co., Ltd. Coding device and decoding device
US8396576B2 (en) 2009-08-14 2013-03-12 Dts Llc System for adaptively streaming audio objects
KR101613975B1 (ko) * 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
EP3093843B1 (en) 2009-09-29 2020-12-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mpeg-saoc audio signal decoder, mpeg-saoc audio signal encoder, method for providing an upmix signal representation using mpeg-saoc decoding, method for providing a downmix signal representation using mpeg-saoc decoding, and computer program using a time/frequency-dependent common inter-object-correlation parameter value
US9432790B2 (en) 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
JP5758902B2 (ja) 2009-10-16 2015-08-05 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、平均値を用いて、1つ以上の調整されたパラメータを提供する装置、方法およびコンピュータプログラム
TWI431611B (zh) 2009-10-20 2014-03-21 Dolby Int Ab 用以基於下混信號表示型態提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號的位元串流之裝置、使用失真控制發訊之方法、電腦程式與位元串流
JP5645951B2 (ja) 2009-11-20 2014-12-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
BR122019026166B1 (pt) 2010-04-09 2021-01-05 Dolby International Ab sistema decodificador, aparelho e método para emitir um sinal de áudio estereofônico tendo um canal esquerdo e um canal direito e meio legível por computador não transitório
DE102010030534A1 (de) 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
US20120076204A1 (en) * 2010-09-23 2012-03-29 Qualcomm Incorporated Method and apparatus for scalable multimedia broadcast using a multi-carrier communication system
GB2485979A (en) 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding
KR101227932B1 (ko) 2011-01-14 2013-01-30 전자부품연구원 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법
JP2012151663A (ja) 2011-01-19 2012-08-09 Toshiba Corp 立体音響生成装置及び立体音響生成方法
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
WO2013142657A1 (en) 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
CN104520924B (zh) 2012-08-07 2017-06-23 杜比实验室特许公司 指示游戏音频内容的基于对象的音频的编码和呈现
CN104885151B (zh) 2012-12-21 2017-12-22 杜比实验室特许公司 用于基于感知准则呈现基于对象的音频内容的对象群集
BR122021009025B1 (pt) 2013-04-05 2022-08-30 Dolby International Ab Método de decodificação para decodificar dois sinais de áudio e decodificador para decodificar dois sinais de áudio
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS
BR122020017152B1 (pt) 2013-05-24 2022-07-26 Dolby International Ab Método e aparelho para decodificar uma cena de áudio representada por n sinais de áudio e meio legível em computador não transitório
EP2973551B1 (en) 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
KR102280461B1 (ko) 2013-05-24 2021-07-22 돌비 인터네셔널 에이비 오디오 인코더 및 디코더

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1910655A (zh) * 2004-01-20 2007-02-07 弗劳恩霍夫应用研究促进协会 构造多通道输出信号或生成下混信号的设备和方法
CN101529501A (zh) * 2006-10-16 2009-09-09 杜比瑞典公司 多声道下混对象编码的增强编码和参数表示
CN101849257A (zh) * 2007-10-17 2010-09-29 弗劳恩霍夫应用研究促进协会 使用下混合的音频编码
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
STANISLAW GORLOW, ET AL.: "Informed Audio Source Separation Using Linearly Constrained Spatial Filters", 《IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188424A1 (zh) * 2017-04-12 2018-10-18 华为技术有限公司 多声道信号的编解码方法和编解码器
CN108694955A (zh) * 2017-04-12 2018-10-23 华为技术有限公司 多声道信号的编解码方法和编解码器
CN110495105A (zh) * 2017-04-12 2019-11-22 华为技术有限公司 多声道信号的编解码方法和编解码器
US10827297B2 (en) 2017-04-12 2020-11-03 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
US11178505B2 (en) 2017-04-12 2021-11-16 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder
US11832087B2 (en) 2017-04-12 2023-11-28 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder

Also Published As

Publication number Publication date
US11894003B2 (en) 2024-02-06
US9666198B2 (en) 2017-05-30
US10971163B2 (en) 2021-04-06
HK1216452A1 (zh) 2016-11-11
EP2973551A2 (en) 2016-01-20
WO2014187989A3 (en) 2015-02-19
US20190311724A1 (en) 2019-10-10
US10290304B2 (en) 2019-05-14
US11580995B2 (en) 2023-02-14
CN105229731B (zh) 2017-03-15
US20230267939A1 (en) 2023-08-24
US20160111099A1 (en) 2016-04-21
EP3270375B1 (en) 2020-01-15
EP3270375A1 (en) 2018-01-17
WO2014187989A2 (en) 2014-11-27
US20170301355A1 (en) 2017-10-19
EP2973551B1 (en) 2017-05-03
US20240185864A1 (en) 2024-06-06
US20210287684A1 (en) 2021-09-16

Similar Documents

Publication Publication Date Title
CN105229731A (zh) 根据下混的音频场景的重构
US10607629B2 (en) Methods and apparatus for decoding based on speech enhancement metadata
US9715880B2 (en) Methods for parametric multi-channel encoding
JP5485909B2 (ja) オーディオ信号処理方法及び装置
US11264042B2 (en) Apparatus and method for generating an enhanced signal using independent noise-filling information which comprises energy information and is included in an input signal
CN106463121A (zh) 较高阶立体混响信号压缩
MX2007009887A (es) Esquema de codificador/descodificador de multicanal casi transparente o transparente.
JP4538324B2 (ja) 音声信号符号化
CN103534753B (zh) 用于信道间差估计的方法和空间音频编码装置
JP2003323198A (ja) 符号化方法及び装置、復号方法及び装置、並びにプログラム及び記録媒体
EP3648101A1 (en) Encoding and decoding method and encoding and decoding apparatus for stereo signal
Daniel et al. Multichannel audio coding based on minimum audible angles
US8781134B2 (en) Method and apparatus for encoding and decoding stereo audio
CN107945810B (zh) 用于编码和解码hoa或多声道数据的方法和装置
Rose et al. Enhanced accuracy of the tonality measure and control parameter extraction modules in MPEG-4 HE-AAC

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1216452

Country of ref document: HK