CN105393304B - 音频编码和解码方法、介质以及音频编码器和解码器 - Google Patents

音频编码和解码方法、介质以及音频编码器和解码器 Download PDF

Info

Publication number
CN105393304B
CN105393304B CN201480029603.2A CN201480029603A CN105393304B CN 105393304 B CN105393304 B CN 105393304B CN 201480029603 A CN201480029603 A CN 201480029603A CN 105393304 B CN105393304 B CN 105393304B
Authority
CN
China
Prior art keywords
audio object
weighted factor
weighting parameters
audio
decorrelation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480029603.2A
Other languages
English (en)
Other versions
CN105393304A (zh
Inventor
H·普恩哈根
L·维尔莫斯
L·J·萨米尔森
T·赫冯恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Priority to CN201910546611.9A priority Critical patent/CN110223702B/zh
Publication of CN105393304A publication Critical patent/CN105393304A/zh
Application granted granted Critical
Publication of CN105393304B publication Critical patent/CN105393304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开提供了提供较不复杂且更加灵活的对在音频编码系统中引入的去相关的控制的方法、设备和计算机程序产品。根据本公开,这通过计算并使用用于在音频编码系统中引入音频对象的去相关的两个加权因子来实现,一个加权因子用于逼近音频对象,一个加权因子用于去相关音频对象。

Description

音频编码和解码方法、介质以及音频编码器和解码器
相关申请的交叉引用
本申请要求2013年5月24日提交的美国临时专利申请No.61/827,288的优先权,该申请的全部内容在这里以引用的方式被并入。
技术领域
本文中的公开通常涉及音频编码。特别地,本公开涉及使用和计算用于使音频编码系统中的音频对象去相关的加权因子。
本公开涉及与本申请同一天提交的、标题为“Coding of Audio Scenes”、发明人姓名为Heiko Purnhagen等的美国临时申请No.61/827,246。该引用的申请的全部内容在这里以引用的方式被包括在内。
背景技术
在常规的音频系统中,采用基于声道的方法。每个声道可以例如表示一个扬声器或一个扬声器阵列的内容。用于这样的系统的可能的编码方案包括离散多声道编码或参数化编码(诸如MPEG环绕)。
最近,新方法已经被开发。该方法是基于对象的。在采用基于对象的方法的系统中,由音频对象与它们的相关联的位置元数据来表示三维音频场景。这些音频对象在音频信号回放期间在三维场景中四处移动。该系统还可包括所谓的床声道,这些床声道可被描述为直接映射到例如如上所述的常规音频系统的扬声器位置的静止音频对象。在这样的系统的解码器端,可使用下混信号和上混或重构矩阵来重构对象/床声道,其中,通过基于重构矩阵中的对应元素的值构成下混信号的线性组合来重构对象/床声道。
在基于对象的音频系统中(特别是在低目标比特率下)可能引起的问题是,解码的对象/床声道之间的相关性可能大于针对编码的原始对象/床声道的相关性。例如在MPEGSAOC中,解决这样的问题并且改进音频对象的重构的常见方法是在解码器中引入去相关器。在MPEG SAOC中,引入的去相关旨在考虑到音频对象的指定的渲染(即,依赖于连接到音频系统的什么类型的回放单元)来恢复音频对象之间的正确的相关性。
然而,已知的用于基于对象的音频系统的方法对下混信号的数量和对象/床声道的数量敏感,并且还可以是取决于音频对象的渲染的复杂操作。因此需要一种简单且灵活的方法,此方法用于控制在这样的系统中的解码器中引入的去相关的量,从而使得可以改进音频对象的重构。
附图说明
现在将参照附图来描述示例实施例,其中:
图1是根据示例实施例的音频解码系统的概括框图;
图2以举例的方式示出重构矩阵和加权参数被图1的音频解码系统接收所用的格式;
图3是用于产生在音频解码系统中的去相关过程中使用的至少一个加权参数的音频编码器的概括框图;
图4以举例的方式示出用于产生至少一个加权参数的图3的编码器中的一部分的概括框图;
图5a-5c以举例的方式示出在图4的编码器的所述部分中使用的映射函数。
所有附图都是示意性的,并且通常仅示出了为了阐明本公开所必需的部分,而其他部分则可以被省略或者仅被建议。除非另有指示,相同的标号在不同的附图中指代相同的部分。
具体实施方式
鉴于以上,目的是提供一种提供对引入的去相关的不太复杂且更加灵活的控制、从而使得可以改进音频对象的重构的编码器和解码器以及相关联的方法。
I.概述——解码器
根据第一方面,示例实施例提出了用于解码的解码方法、解码器和计算机程序产品。所提出的方法、解码器和计算机程序产品通常可以具有相同的特征和优点。
根据示例实施例,提供了一种用于重构N个音频对象的时间/频率瓦片的方法。所述方法包括以下步骤:接收M个下混信号;接收能够实现从M个下混信号重构N个音频对象的逼近的重构矩阵;将重构矩阵应用于M个下混信号,以便产生N个逼近音频对象;对N个逼近音频对象的至少一个子集进行去相关处理,以便产生至少一个去相关音频对象,由此至少一个去相关音频对象中的每一个对应于N个逼近音频对象中的一个;对于N个逼近音频对象中的不具有对应的去相关音频对象的每个逼近音频对象,通过逼近音频对象来重构音频对象的时间/频率瓦片;并且对于N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象,通过以下步骤来重构音频对象的时间/频率瓦片:接收表示第一加权因子和第二加权因子的至少一个加权参数,用第一加权因子对逼近音频对象进行加权,用第二加权因子对与逼近音频对象对应的去相关音频对象进行加权,并且将加权的逼近音频对象与对应的加权的去相关音频对象组合。
音频编码/解码系统通常例如通过将合适的滤波器组应用于输入音频信号,来将时间-频率空间划分为时间/频率瓦片。时间/频率瓦片通常指时间-频率空间中的与时间间隔和频率子带对应的一部分。时间间隔通常可以对应于音频编码/解码系统中使用的时间帧的持续时间。频率子带通常可以对应于由编码/解码系统中使用的滤波器组定义的一个或若干相邻的频率子带。在频率子带对应于由滤波器组定义的若干相邻的频率子带的情况下,这使得在音频信号的解码过程中可以具有不均匀的频率子带,例如,对于较高频率的音频信号,具有较宽的频率子带。在宽频带的情况下(在该情况下,音频编码/解码系统对整个频率范围进行操作),时间/频率瓦片的频率子带可以对应于整个频率范围。以上方法公开了重构N个音频对象的这样的时间/频率瓦片的步骤。然而,要理解的是,对音频解码系统的每个时间/频率瓦片可以重复所述方法。还要理解的是,若干时间/频率瓦片可以被同时编码。通常,相邻的时间/频率瓦片可以在时间和/或频率上有一些重叠。例如,时间上的重叠可以等效于重构矩阵的元素在时间上的(即,从一个时间间隔到下一个时间间隔)线性插值。然而,本公开是以编码/解码系统的其他部分为目标,并且相邻的时间/频率瓦片之间的时间和/或频率上的任何重叠被留给技术人员去实施。
如本文中所使用的,下混信号是作为一个或多个床声道和/或音频对象的组合的信号。
以上方法提供了一种用于重构N个音频对象的时间/频率瓦片的灵活的且简单的方法,在该方法中,减小了逼近的N个音频对象之间的任何不想要的相关性。通过使用两个加权因子,一个针对逼近音频对象,一个针对去相关音频对象,使得可以灵活地控制被引入的去相关的量的简单的参数化被实现。
而且,所述方法中的简单的参数化不依赖于对重构音频对象进行什么类型的渲染。这的优点是,独立于连接到实现所述方法的音频解码系统的什么类型的回放单元,相同的方法被使用,从而导致较不复杂的音频解码系统。
根据实施例,对于N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象,所述至少一个加权参数包括可以从其中推导出第一加权因子和第二加权因子的单个加权参数。这的优点是,提出了控制在音频解码系统中引入的去相关的量的简单的参数化。该方法使用描述每一对象和时间/频率瓦片的“干”(不是去相关的)贡献和“湿”(去相关的)贡献的混合的单个参数。与使用若干参数(例如,一个描述湿贡献,一个描述干贡献)相比,通过使用单个参数,可以降低所需的比特率。
根据实施例,第一加权因子和第二加权因子的平方和等于一。在这种情况下,所述单个加权参数包括或第一加权因子,或第二加权因子。这可以是实施用于描述每一对象和时间/频率瓦片的干贡献和湿贡献的混合的单个加权因子的简单方式。而且,这意味着重构对象将具有与逼近对象相同的能量。
根据实施例,对N个逼近音频对象的至少一个子集进行去相关处理的步骤包括对N个逼近音频对象中的每一个进行去相关处理,由此N个逼近音频对象中的每一个对应于一个去相关音频对象。这可以进一步减小重构音频对象之间的任何不想要的相关性,因为所有重构音频对象都基于去相关音频对象和逼近音频对象两者。
根据实施例,第一加权因子和第二加权因子是随时间和频率变化的。因此,可以提高音频解码系统的灵活性,因为可以对不同的时间/频率瓦片引入不同的去相关量。这还可以进一步减小重构音频对象之间的任何不想要的相关性,并且提高重构音频对象的质量。
根据实施例,重构矩阵是随时间和频率变化的。因此,音频解码系统的灵活性被提高,因为用于从下混信号重构或逼近音频对象的参数可以针对不同的时间/频率瓦片而变化。
根据另一实施例,重构矩阵和至少一个加权参数一被接收到就被布置在帧中。使用第一格式将重构矩阵布置在帧的第一字段中,并且使用第二格式将所述至少一个加权参数布置在帧的第二字段中,从而使得仅支持第一格式的解码器可以对第一字段中的重构矩阵进行解码,并且丢弃第二字段中的所述至少一个加权参数。因此,可以实现与不实施去相关的解码器的兼容。
根据实施例,所述方法还可以包括接收L个辅助信号,其中,重构矩阵进一步实现从M个下混信号和L个辅助信号对N个音频对象的逼近的重构,并且其中所述方法还包括将重构矩阵应用于M个下混信号和L个辅助信号以便产生N个逼近音频对象。L个辅助信号可以例如包括等于N个音频对象中的将被重构的一个音频对象的L个辅助信号中的至少一个信号。这可以提高特定的重构音频对象的质量。在N个音频对象中的将被重构的一个音频对象表示具有特定重要性的音频信号的一部分(例如,表示纪录片中的说话人语音的音频对象)的情况下,这可能是有利的。根据实施例,L个辅助信号中的至少一个是N个音频对象中的将被重构的至少两个音频对象的组合,从而提供比特率和质量之间的折衷。
根据实施例,M个下混信号跨越超平面,并且其中,L个辅助信号中的至少一个不位于M个下混信号跨越的超平面中。因此,L个辅助信号中的一个或多个辅助信号可以表示不被包括在M个下混信号中的任何一个信号中的信号维度。因此,重构音频对象的质量可以提高。在实施例中,L个辅助信号中的至少一个辅助信号与M个下混信号跨越的超平面正交。因此,L个辅助信号中的一个或多个辅助信号的整个信号表示音频信号的不包括在M个下混信号中的任何一个信号中的部分。这可以提高重构音频对象的质量,同时降低所需的比特率,因为L个辅助信号中的至少一个辅助信号不包括已经存在于M个下混信号中的任何一个信号中的任何信息。
根据示例实施例,提供了一种计算机可读介质,该计算机可读介质包括当在具有处理能力的装置上被执行时适于执行第一方面的任何方法的计算机代码指令。
根据示例实施例,提供了一种用于重构N个音频对象的时间/频率瓦片的装置,该装置包括:第一接收组件,其被配置为接收M个下混信号;第二接收组件,其被配置为接收实现从M个下混信号重构N个音频对象的逼近的重构矩阵;音频对象逼近组件,其被布置在第一接收组件和第二接收组件的下游,并且被配置为将重构矩阵应用于M个下混信号,以便产生N个逼近音频对象;去相关组件,其被布置在音频对象逼近组件的下游,并且被配置为对N个逼近音频对象的至少一个子集进行去相关处理,以便产生至少一个去相关音频对象,由此至少一个去相关音频对象中的每一个对应于N个逼近音频对象中的一个;第二接收组件被进一步配置为针对N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象,接收表示第一加权因子和第二加权因子的至少一个加权参数;以及音频对象重构组件,其被布置在音频对象逼近组件、去相关组件和第二接收组件的下游,并且被配置为:针对N个逼近音频对象中的不具有对应的去相关音频对象的每个逼近音频对象,通过逼近音频对象来重构音频对象的时间/频率瓦片;并且针对N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象,通过以下步骤来重构音频对象的时间/频率瓦片:用第一加权因子对逼近音频对象进行加权,用第二加权因子对与逼近音频对象对应的去相关音频对象进行加权,并且将加权的逼近音频对象与对应的加权的去相关音频对象组合。
II.概述——编码器
根据第二方面,示例实施例提出了用于编码的编码方法、编码器和计算机程序产品。所提出的方法、编码器和计算机程序产品通常可以具有相同的特征和优点。
根据示例实施例,提供了编码器中的用于产生至少一个加权参数的方法,其中,当通过将特定音频对象的加权的解码器侧逼近与解码器侧逼近的特定音频对象的对应的加权的去相关版本组合,来重构该特定频率对象的时间/频率瓦片时,至少一个加权参数将被用在解码器中,所述方法包括以下步骤:接收M个下混信号,这些下混信号是包括所述特定音频对象的至少N个音频对象的组合;接收所述特定音频对象;计算指示所述特定音频对象的能量水平的第一量;计算指示与所述特定音频对象的编码器侧逼近的能量水平对应的能量水平的第二量,所述编码器侧逼近是M个下混信号的组合;基于第一量和第二量来计算所述至少一个加权参数。
以上方法公开了在一个时间/频率瓦片期间针对特定音频对象产生至少一个加权参数的步骤。然而,要理解的是,可以对音频编码/解码系统的每个时间/频率瓦片以及对每个音频对象重复所述方法。
可以指出,音频编码系统中的铺瓦(tiling),即将音频信号/对象划分为时间/频率瓦片,不必与音频解码系统中的铺瓦相同。
还可以指出,所述特定音频对象的解码器侧逼近和所述特定音频对象的编码器侧逼近可以是不同的逼近,或者它们可以是相同的逼近。
为了降低所需要的比特率并且降低复杂度,所述至少一个加权参数可以包括可以从其中推导出第一加权因子和第二加权因子的单个加权参数,第一加权因子用于对所述特定音频对象的解码器侧逼近进行加权,第二加权因子用于对解码器侧逼近的音频对象的去相关版本进行加权。
为了防止能量被添加到解码器侧上的重构音频对象,该重构音频对象包括所述特定音频对象的解码器侧逼近和解码器侧逼近的音频对象的去相关版本,第一加权因子和第二加权因子的平方和可以等于一。在这种情况下,所述单个加权参数可以包括或第一加权因子,或第二加权因子。
根据实施例,计算至少一个加权参数的步骤包括比较第一量和第二量。例如,可以比较逼近的特定音频对象的能量和特定音频对象的能量。
根据示例实施例,对第一量和第二量的比较包括:计算第二量和第一量之间的比率;将该比率提高到α次幂;并且使用被提高到α次幂的比率来计算加权参数。这可以提高编码器的灵活性。参数α可以等于二。
根据示例实施例,被提高到α次幂的比率遵照递增函数,该递增函数将被提高到α次幂的比率映射到所述至少一个加权参数。
根据示例实施例,第一加权因子和第二加权因子是随时间和频率变化的。
根据示例实施例,指示能量水平的第二量对应于所述特定音频对象的编码器侧逼近的能量水平,所述编码器侧逼近是M个下混信号和L个辅助信号的线性组合,下混信号和辅助信号从N个音频对象形成。为了改进解码器侧的音频对象的重构,辅助信号可以被包括在音频编码/解码系统中。
根据示例实施例,L个辅助信号中的至少一个辅助信号可以对应于特别重要的音频对象,诸如表示对话的音频对象。因此,L个辅助信号中的至少一个辅助信号可以等于N个音频对象中的一个。根据进一步的实施例,L个辅助信号中的至少一个辅助信号是N个音频对象中的至少两个的组合。
根据示例实施例,M个下混信号跨越超平面,并且其中,L个辅助信号中的至少一个辅助信号不位于M个下混信号跨越的超平面中。这意味着,L个辅助信号中的至少一个辅助信号表示在产生M个下混信号的过程中丢失的音频对象的信号维度,这可以改进对解码器侧的音频对象的重构。根据进一步的实施例,L个辅助信号中的所述至少一个辅助信号与M个下混信号跨越的超平面正交。
根据示例实施例,提供了一种计算机可读介质,该计算机可读介质包括当其在具有处理能力的装置上被执行时适于执行第二方面的任何方法的计算机代码指令。
根据示例实施例,提供了一种用于产生至少一个加权参数的编码器,其中,当通过将特定音频对象的加权的解码器侧逼近与解码器侧逼近的特定音频对象的对应的加权的去相关版本组合,来重构该特定频率对象的时间/频率瓦片时,所述至少一个加权参数将被用在解码器中,所述装置包括:接收组件,其被配置为接收M个下混信号,这些下混信号是包括所述特定音频对象的至少N个音频对象的组合,该接收组件被进一步配置为接收所述特定音频对象;计算单元,其被配置为:计算指示所述特定音频对象的能量水平的第一量;计算指示与所述特定音频对象的编码器侧逼近的能量水平对应的能量水平的第二量,所述编码器侧逼近是M个下混信号的组合;基于第一量和第二量来计算所述至少一个加权参数。
示例实施例
图1示出了用于重构N个音频对象的音频解码系统100的概括框图。音频解码系统100执行时间/频率分解处理,意味着它对单个的时间/频率瓦片进行操作以重构N个音频对象。在下面,将描述系统100的用于重构N个音频对象的一个时间/频率瓦片的处理。N个音频对象可以是一个或多个音频对象。
系统100包括第一接收组件102,其被配置为接收M个下混信号106。M个下混信号可以是一个或多个下混信号。M个下混信号106可以例如是与已建立的声音解码系统(诸如Dolby Digital Plus、MPEG或AAC)向后兼容的5.1或7.1环绕信号。在其他实施例中,M个下混信号106不向后兼容。第一接收组件102的输入信号可以是比特流130,接收组件可以从比特流130中提取M个下混信号106。
系统100还包括第二接收组件112,其被配置为接收实现从M个下混信号106重构N个音频对象的逼近的重构矩阵104。重构矩阵104也可以被称为上混矩阵。第二接收组件112的输入信号126可以是比特流126,该接收组件可以从比特流126提取重构矩阵104或者其元素,下面将详细地说明附加信息。在音频解码系统100的一些实施例中,第一接收组件102和第二接收组件112被组合在一个单个接收组件中。在一些实施例中,输入信号130、126被组合为一个单个输入信号,所述一个单个输入信号可以是具有使得接收组件102、112可以从一个单个输入信号提取不同信息的格式的比特流。
系统100还可以包括音频对象逼近组件108,其被布置在第一接收组件102和第二接收组件112的下游,并且被配置为将重构矩阵104应用于M个下混信号106以便产生N个逼近音频对象110。更具体地说,音频对象逼近组件108可以执行矩阵运算,在该矩阵运算中,将重构矩阵乘以包括M个下混信号的矢量。重构矩阵104可以是随时间和频率变化的,即,重构矩阵104中的元素的值针对每个时间/频率瓦片可以是不同的。因此,重构矩阵104的元素依赖于哪个时间/频率当前正被处理。
频率k和时隙l处(即,时间/频率瓦片)的逼近的音频对象n例如在音频对象逼近组件108处被计算,例如,对于频带b,b=1,...,B中的所有频率采样k,用来计算,其中,cm,b,n是频带b中的与下混声道Ym目关联的对象n的重构系数。可以指出,重构系数cm,b,n被假定为在时间/频率瓦片上是固定的,但是在进一步的实施例中,该系数在时间/频率瓦片期间可以变化。
系统100还包括被布置在音频对象逼近组件108下游的去相关组件118。去相关组件118被配置为对N个逼近音频对象110的至少一个子集140进行去相关处理,以便产生至少一个去相关音频对象136。换句话说,可以对N个逼近音频对象110中的全部或仅仅一些进行去相关处理。所述至少一个去相关音频对象136中的每一个对应于N个逼近音频对象110中的一个。更确切地说,去相关音频对象136的集合对应于被输入到去相关过程118的逼近音频对象的集合140。所述至少一个去相关音频对象136的目的是减小N个逼近音频对象110之间的不想要的相关性。该不想要的相关性特别是在包括音频解码系统100的音频系统具有低目标比特率时出现。在低目标比特率下,重构矩阵可能是稀疏的。这意味着重构矩阵中的许多元素可能是零。在这种情况下,特定的逼近音频对象110可以基于来自M个下混信号106的单个下混信号或几个下混信号,从而增加了在逼近音频对象110之间引入不想要的相关性的风险。根据一些实施例,去相关组件118对N个逼近音频对象110中的每一个进行去相关处理,由此N个逼近音频对象110中的每一个对应于一个去相关音频对象136。
可以对去相关组件118进行去相关处理的N个逼近音频对象110中的每一个进行不同的去相关处理,例如,通过将白噪声滤波器应用于被去相关的逼近音频对象,或者通过应用任何其他的合适的去相关处理,诸如全通滤波。
进一步的去相关处理的示例可以在以下中找到:MPEG参数化立体声编码工具(其被用在HE-AAC v2中,如ISO/IEC 14496-3以及2004年5月德国柏林AES第116届大会的论文:J.H.Purnhagen,J.L.Liljeryd,“Synthetic ambience inparametric stereo coding”中所描述的那样)、MPEG环绕(ISO/IEC 23003-1)以及MPEGSAOC(ISO/IEC 23003-2)。
为了不引入不想要的相关性,不同的去相关处理是互相去相关的。根据其他实施例,对逼近音频对象110中的若干或全部对象进行相同的去相关处理。
系统100还包括音频对象重构组件128。对象重构组件128被布置在音频对象逼近组件108、去相关组件118和第二接收组件112的下游。对象重构组件128被配置为,针对N个逼近音频对象138中的不具有对应的去相关音频对象136的每个逼近音频对象,通过逼近音频对象138来重构音频对象142的时间/频率瓦片。换句话说,如果某一逼近音频对象138尚未进行去相关处理,则它被简单地重构为由音频对象逼近组件108提供的逼近音频对象110。对象重构组件128被进一步配置为,针对N个逼近音频对象110中的具有对应的去相关音频对象136的每个逼近音频对象,使用去相关音频对象136和对应的逼近音频对象110两者来重构音频对象的时间/频率瓦片。
为了促进该进程,第二接收组件112被进一步配置为针对N个逼近音频对象110中的具有对应的去相关音频对象136的每个逼近音频对象,接收至少一个加权参数132。所述至少一个加权参数132表示第一加权因子116和第二加权因子114。也被称为干因子的第一加权因子116以及也被称为湿因子的第二加权因子116,由湿/干提取器134从所述至少一个加权参数132推导出。第一加权因子116和/或第二加权因子114可以是随时间和频率变化的,即,加权因子116、114的值针对被处理的每个时间/频率瓦片可以是不同的。
在一些实施例中,所述至少一个加权参数132包括第一加权因子116和第二加权因子114。在一些实施例中,所述至少一个加权参数132包括单个加权参数。如果如此,则湿/干提取器134可以从所述单个加权参数132推导出第一加权因子116和第二加权因子114。例如,第一加权因子116和第二加权因子114可以满足某些关系,这些关系允许一旦加权因子中的一个加权因子是已知的,则另一个加权因子就可以被推导。这样的关系的示例可以是,第一加权因子116和第二加权因子114的平方和等于一。因此,如果单个加权参数132包括第一加权因子116,则可以按照一减去平方的第一加权因子116的平方根来推导第二加权因子114,反之亦然。
第一加权因子116用于加权122,即,用于与逼近音频对象110相乘。第二加权因子114用于加权120,即,用于与对应的去相关音频对象136相乘。音频对象重构组件128被进一步配置为例如通过执行求和来组合124加权的逼近音频对象150与对应的加权的去相关音频对象152,以重构对应的音频对象142的时间/频率瓦片。
换句话说,针对每个对象和每个时间/频率瓦片,去相关的量可以由一个加权参数132控制。在湿/干提取器134中,该加权参数132被转换为被应用于逼近对象110的权重因子116(wdry)以及被应用于去相关对象136的权重因子114(wwet)。这些权重因子的平方和为一,即,
这意味着作为求和124的输出的最终对象142具有与对应的去相关对象110相同的能量。
为了使得输入信号126、130可以被不能处理去相关的音频解码器系统解码,即,为了保持与这样的音频解码器的向后兼容性,输入信号126可如图2中所描绘的那样被布置在帧202中。根据该实施例,使用第一格式将重构矩阵104布置在帧202的第一字段中,并且使用第二格式将所述至少一个加权参数132布置在帧202的第二字段中。以这种方式,能够读取第一格式、但不能读取第二格式的解码器仍然可以对重构矩阵104进行解码并且以任何常规的方式使用重构矩阵104来对下混信号106进行上混。帧202的第二字段在这种情况下可以被丢弃。
根据一些实施例,图1中的音频解码系统100可以例如在第一接收组件102处附加地接收L个辅助信号144。可以存在一个或多个这样的辅助信号,即,L≥1。这些辅助信号144可以被包括在输入信号130中。辅助信号144可以以这样的根据以上的向后兼容性得到保持的方式被包括在输入信号130中,即,以使得不能处理辅助信号的解码器系统仍然可以从输入信号130中推导处下混信号106。重构矩阵104可以进一步实现从M个下混信号106和L个辅助信号144重构N个音频对象110的逼近。音频对象逼近组件108因此可以被配置为将重构矩阵104应用于M个下混信号106和L个辅助信号144以便产生N个逼近音频对象110。
辅助信号144的作用是改进在音频对象逼近组件108中对N个音频对象的逼近。根据一个示例,辅助信号144中的至少一个辅助信号等于N个音频对象中的将被重构的一个。在这种情况下,用于重构特定音频对象的重构矩阵104中的矢量将仅包含单个非零参数,例如,具有值一(1)的参数。根据其他示例,L个辅助信号144中的至少一个辅助信号是N个音频对象中的将被重构的至少两个的组合。
在一些实施例中,L个辅助信号可以表示N个音频对象的信号维度,这些信号维度是在从N个音频对象产生M个下混信号106的过程中丢失的信息。这可以通过说明M个下混信号106跨越信号空间中的超平面并且L个辅助信号144不位于该超平面中来进行解释。例如,L个辅助信号144可以与M个下混信号106跨越的超平面正交。仅基于M个下混信号106,只有位于超平面中的信号可以被重构,即,不位于超平面中的音频对象将被超平面中的音频信号逼近。通过在重构中进一步使用L个辅助信号144,不位于超平面中的信号也可以被重构。结果是,可以通过还使用L个辅助信号来改进音频对象的逼近。
图3以举例的方式示出了用于产生至少一个加权参数320的音频编码器300的概括框图。当通过将特定音频对象的加权的解码器侧逼近(图1的标号150)与解码器侧逼近的特定音频对象的对应的加权的去相关版本(图1的标号152)组合(图1的标号124)来重构该特定频率对象的时间/频率瓦片时,所述至少一个加权参数320将被用在解码器(例如上述音频解码系统100)中。
编码器300包括接收组件302,其被配置为接收M个下混信号312,这些下混信号312是包括所述特定音频对象的至少N个音频对象的组合。接收组件302被进一步配置为接收特定音频对象314。在一些实施例中,接收组件302被进一步配置为接收L个辅助信号322。如上所讨论,L个辅助信号322中的至少一个可以等于N个音频对象中的一个,L个辅助信号322中的至少一个可以是N个音频信号中的至少两个的组合,并且L个辅助信号322中的至少一个可以包含不存在于M个下混信号中的任何一个中的信息。
编码器300还包括计算单元304。计算单元304被配置为例如在第一能量计算组件306处计算指示特定音频对象的能量水平的第一量316。第一量316可以被计算为特定音频对象的范数。例如,第一量316可以等于特定音频对象的能量,因此可以用两范数Q1=||S||2来计算,其中,S表示所述特定音频对象。第一量可以可替代地被计算为指示所述特定音频对象的能量的另一量(诸如该能量的平方根)。
计算单元304被进一步配置为计算第二量318,其指示与特定音频对象314的编码器侧逼近的能量水平对应的能量水平。编码器侧逼近可以例如是M个下混信号312的组合,诸如线性组合。可替代地,编码器侧逼近可以是M个下混信号312和L个辅助信号322的组合,诸如线性组合。第二量可以在第二能量计算组件308处被计算。
编码器侧逼近可以例如通过使用非能量匹配的上混矩阵和M个下混信号312来计算。在本说明书的上下文中,通过术语“非能量匹配的”应理解的是,特定音频对象的逼近与该特定音频对象本身是能量不匹配的,即,该逼近与特定音频对象314相比将具有不同的能量水平,通常是更低的能量水平。
可以使用不同的方法产生非能量匹配的上混矩阵。例如,可以使用最小均方差(MMSE)预测方法,该方法至少采取N个音频对象以及M个下混信号312(以及可能地,L个辅助信号322)作为输入。这可以被描述为旨在找到最小化N个音频对象的逼近的均方差的上混矩阵的迭代方法。具体地说,该方法用候选上混矩阵乘以M个下混信号312(以及可能地,L个辅助信号322)来逼近N个音频对象,并且在均方差方面将所述逼近与N个音频对象相比较。最小化均方差的候选上混矩阵被选为被用于定义特定音频对象的编码器侧逼近的上混矩阵。
当使用MMSE方法时,特定音频对象S和逼近音频对象S’之间的预测误差e与S正交。这意味着:
||S′||2+||e||2=||S||2
换句话说,音频对象S的能量等于逼近音频对象的能量和预测误差的能量的和。由于以上关系,预测误差e的能量因此给出了对编码器侧逼近S’的能量的指示。
因此,可以使用特定音频对象的逼近S’或预测误差来计算第二量318。第二量可以被计算为特定音频对象的逼近S’的范数或者预测误差e的范数。例如,第二量可以被计算为2范数(即,Q2=||S′||2或Q2=||e||2)。第二量可以可替代地被计算为指示逼近的特定音频对象的能量的另一量,诸如逼近的特定音频对象的能量的平方根或者预测误差的能量的平方根。
计算单元被进一步配置为用于例如在参数计算组件310处,基于第一量316和第二量318来计算所述至少一个加权参数320。参数计算组件310可以例如通过比较第一量316和第二量318来计算所述至少一个加权参数320。现在将结合图4和图5a-c来详细地说明示例性参数计算组件310。
图4以举例的方式示出了用于产生所述至少一个加权参数320的参数计算组件310的概括框图。参数计算组件310例如在比率计算组件402处,通过计算第二量318和第一量316之间的比率r来比较第一量316和第二量318。然后将该比率提高到α次幂,即:
其中,Q2是第二量318,Q1是第一量316。根据一些实施例,当Q2=||S′||并且中1=||S||时,α等于2,即,比率r是逼近的特定音频对象和特定音频对象的能量的比率。然后例如在映射组件404处使用被提高到α次幂的比率来计算所述至少一个加权参数320。映射组件404使r406遵照递增函数,该递增函数将r映射到所述至少一个加权参数320。图5a-c中举例说明了这样的递增函数。在图5a-c中,水平轴表示r406的值,垂直轴表示加权参数320的值。在该例子中,加权参数320是与图1中的第一加权因子116对应的单个加权参数。
一般地,映射函数的原理是:
如果Q2<<Q1,则第一加权因子接近于0,如果Q2≈Q1,则第一加权因子接近于1。
图5a示出了映射函数502,在该映射函数502中,对于r406的0和1之间的值,r的值将与加权参数312的值相同。对于r的大于1的值,加权参数320的值将为1。
图5b示出了另一映射函数504,在该映射函数504中,对于r406的0和0.5之间的值,加权参数320的值将为0。对于r的大于1的值,加权参数320的值将为1。对于r的0.5和1之间的值,加权参数320的值将为(r-0.5)*2。
图5c示出了概括图5a-b的映射函数的第三替代映射函数506。映射函数506由至少四个参数b1、b2、β1和β2所限定,这些参数可以是针对解码器侧的重构音频对象的最佳感知质量进行调谐的常数。一般地,限制输出音频信号中的去相关的最大量可以是有益的,因为去相关的逼近音频对象的质量通常比逼近音频对象被单独收听时的质量差。将b1设置为大于零直接控制这一点,从而可以确保加权参数320(因此以及图1中的第一加权因子116)在所有情况下都将大于零。将b2设置为小于1具有在音频解码系统100的输出中总是存在最小水平的去相关能量的效果。换句话说,图1中的第二加权因子114将总是大于零。β1隐式地控制在音频解码系统100的输出中添加的去相关的量,但是涉及到不同的动态(与b1相比)。类似地,β2隐式地控制音频解码系统100的输出中的去相关的量。
在期望r的值β1和β2之间的曲面映射函数的情况下,需要至少一个另一参数,该参数可以是常数。
等效、扩展、替代和其他
在研究以上描述之后,本公开的进一步的实施例对于本领域技术人员而言将变得清楚。即使当前的描述和附图公开了实施例和示例,但本公开不限于这些特定示例。在不背离由所附权利要求限定的本公开的范围的情况下,可以做出许多修改和变型。在权利要求中出现的任何引用符号不被理解为限制它们的范围。
另外,通过研究附图、公开内容和所附权利要求,所公开的实施例的变型可以被技术人员在实施本公开中理解和施行。在权利要求中,词语“包括”不排除其他元件或步骤,不定冠词“一”不排除多个。仅仅是某些措施在互相不同的从属权利要求中被记载的事实并不表明这些措施的组合不能用于获益。
上文中所公开的系统和方法可以被实施为软件、固件、硬件或它们的组合。在硬件实施方式中,任务在以上描述中提及的功能单元之间的划分不一定对应于物理单元的划分;相反,一个物理组件可以具有多个功能,并且一个任务可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块、或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且包括任何信息递送介质。

Claims (72)

1.一种用于重构N个音频对象的时间/频率瓦片的方法,包括以下步骤:
接收M个下混信号;
接收重构矩阵,所述重构矩阵实现从所述M个下混信号重构所述N个音频对象的逼近;
将所述重构矩阵应用于所述M个下混信号,以便产生N个逼近音频对象;
对所述N个逼近音频对象的至少一个子集进行去相关处理,以便产生至少一个去相关音频对象,由此所述至少一个去相关音频对象中的每一个对应于所述N个逼近音频对象中的一个;
针对所述N个逼近音频对象中的不具有对应的去相关音频对象的每个逼近音频对象,通过所述逼近音频对象来重构所述音频对象的时间/频率瓦片;和
针对所述N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象,通过以下步骤来重构所述音频对象的时间/频率瓦片:
接收单个加权参数,从所述单个加权参数中能够推导出第一加权因子和第二加权因子;
用第一加权因子对所述逼近音频对象进行加权;
用第二加权因子对与所述逼近音频对象对应的去相关音频对象进行加权;以及
通过执行求和,将加权的逼近音频对象与对应的加权的去相关音频对象组合以用于重构所述逼近音频对象的时间/频率瓦片,由此所述重构的时间/频率瓦片的能量水平等于所述逼近音频对象的对应的时间/频率瓦片的能量水平。
2.根据权利要求1所述的方法,其中,所述第一加权因子和所述第二加权因子的平方和等于一,并且其中,所述单个加权参数包括所述第一加权因子,或所述第二加权因子。
3.根据权利要求1或2所述的方法,其中,对所述N个逼近音频对象的至少一个子集进行去相关处理的步骤包括,对所述N个逼近音频对象中的每一个进行去相关处理,由此所述N个逼近音频对象中的每一个对应于一个去相关音频对象。
4.根据权利要求1或2所述的方法,其中,所述第一加权因子和所述第二加权因子是随时间和频率变化的。
5.根据权利要求1或2所述的方法,其中,所述重构矩阵是随时间和频率变化的。
6.根据权利要求1或2所述的方法,其中,所述重构矩阵和至少一个加权参数在被接收到时被布置在帧中,其中,使用第一格式将所述重构矩阵布置在所述帧的第一字段中,并且使用第二格式将所述至少一个加权参数布置在所述帧的第二字段中,从而使得仅支持第一格式的解码器能够对第一字段中的重构矩阵进行解码并且丢弃第二字段中的所述至少一个加权参数。
7.根据权利要求1或2所述的方法,还包括接收L个辅助信号,其中,所述重构矩阵进一步实现从所述M个下混信号和所述L个辅助信号重构所述N个音频对象的逼近,并且其中,所述方法还包括将所述重构矩阵应用于所述M个下混信号和所述L个辅助信号以便产生所述N个逼近音频对象。
8.根据权利要求7所述的方法,其中,所述L个辅助信号中的至少一个等于所述N个音频对象中的将被重构的一个。
9.根据权利要求7所述的方法,其中,所述L个辅助信号中的至少一个是所述N个音频对象中的将被重构的至少两个的组合。
10.根据权利要求7所述的方法,其中,所述M个下混信号跨越超平面,并且其中,所述L个辅助信号中的至少一个不位于所述M个下混信号跨越的超平面中。
11.根据权利要求10所述的方法,其中,所述L个辅助信号中的至少一个与所述M个下混信号跨越的超平面正交。
12.一种用于重构N个音频对象的时间/频率瓦片的装置,包括:
第一接收组件,所述第一接收组件被配置为接收M个下混信号;
第二接收组件,所述第二接收组件被配置为接收重构矩阵,所述重构矩阵实现从所述M个下混信号重构所述N个音频对象的逼近;
音频对象逼近组件,所述音频对象逼近组件被布置在所述第一接收组件和所述第二接收组件的下游,并且被配置为将所述重构矩阵应用于所述M个下混信号,以便产生N个逼近音频对象;
去相关组件,所述去相关组件被布置在所述音频对象逼近组件的下游,并且被配置为对所述N个逼近音频对象的至少一个子集进行去相关处理,以便产生至少一个去相关音频对象,由此所述至少一个去相关音频对象中的每一个对应于所述N个逼近音频对象中的一个;
所述第二接收组件被进一步配置为针对所述N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象,接收单个加权参数,从所述单个加权参数中能够推导出第一加权因子和第二加权因子;和
音频对象重构组件,所述音频对象重构组件被布置在所述音频对象逼近组件、所述去相关组件和所述第二接收组件的下游,并且被配置为:
针对所述N个逼近音频对象中的不具有对应的去相关音频对象的每个逼近音频对象,通过所述逼近音频对象来重构所述音频对象的时间/频率瓦片;以及
针对所述N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象,通过以下步骤来重构所述音频对象的时间/频率瓦片:
用第一加权因子对所述逼近音频对象进行加权;
用第二加权因子对与所述逼近音频对象对应的去相关音频对象进行加权;和
通过执行求和,将加权的逼近音频对象与对应的加权的去相关音频对象组合以用于重构所述逼近音频对象的时间/频率瓦片,由此所述重构的时间/频率瓦片的能量水平等于所述逼近音频对象的对应的时间/频率瓦片的能量水平。
13.根据权利要求12所述的装置,其中,所述第一加权因子和所述第二加权因子的平方和等于一,并且其中,所述单个加权参数包括所述第一加权因子,或所述第二加权因子。
14.根据权利要求12或13所述的装置,其中,所述去相关组件还被配置为对所述N个逼近音频对象中的每一个进行去相关处理,由此所述N个逼近音频对象中的每一个对应于一个去相关音频对象。
15.根据权利要求12或13所述的装置,其中,所述第一加权因子和所述第二加权因子是随时间和频率变化的。
16.根据权利要求12或13所述的装置,其中,所述重构矩阵是随时间和频率变化的。
17.根据权利要求12或13所述的装置,其中,所述重构矩阵和至少一个加权参数在被接收到时被布置在帧中,其中,使用第一格式将所述重构矩阵布置在所述帧的第一字段中,并且使用第二格式将所述至少一个加权参数布置在所述帧的第二字段中,从而使得仅支持第一格式的解码器能够对第一字段中的重构矩阵进行解码并且丢弃第二字段中的所述至少一个加权参数。
18.根据权利要求12或13所述的装置,其中,所述第一接收组件还被配置为接收L个辅助信号,其中所述重构矩阵进一步实现从所述M个下混信号和所述L个辅助信号重构所述N个音频对象的逼近,并且其中所述音频对象逼近组件还被配置为将所述重构矩阵应用于所述M个下混信号和所述L个辅助信号以便产生所述N个逼近音频对象。
19.根据权利要求18所述的装置,其中,所述L个辅助信号中的至少一个等于所述N个音频对象中的将被重构的一个。
20.根据权利要求18所述的装置,其中,所述L个辅助信号中的至少一个是所述N个音频对象中的将被重构的至少两个的组合。
21.根据权利要求18所述的装置,其中,所述M个下混信号跨越超平面,并且其中,所述L个辅助信号中的至少一个不位于所述M个下混信号跨越的超平面中。
22.根据权利要求21所述的装置,其中,所述L个辅助信号中的至少一个与所述M个下混信号跨越的超平面正交。
23.一种在编码器中用于产生至少一个加权参数的方法,其中,所述至少一个加权参数将在重构特定音频对象的时间/频率瓦片时被使用,所述方法包括以下步骤:
接收M个下混信号,所述下混信号是包括所述特定音频对象的至少N个音频对象的组合;
接收所述特定音频对象;
计算指示所述特定音频对象的能量水平的第一量;
计算指示与所述特定音频对象的编码器侧逼近的能量水平对应的能量水平的第二量,所述编码器侧逼近是所述M个下混信号的组合;
基于所述第一量和所述第二量来计算至少一个加权参数,其中所述至少一个加权参数用于对所述特定音频对象的解码器侧逼近以及所述特定音频对象的解码器侧逼近的去相关版本进行加权。
24.根据权利要求23所述的方法,其中,所述至少一个加权参数包括能够从其中推导出第一加权因子和第二加权因子的单个加权参数,所述第一加权因子用于对所述特定音频对象的解码器侧逼近进行加权,所述第二加权因子用于对解码器侧逼近的音频对象的去相关版本进行加权。
25.根据权利要求24所述的方法,其中,所述第一加权因子和所述第二加权因子的平方和等于一,并且其中,所述单个加权参数包括所述第一加权因子,或所述第二加权因子。
26.根据权利要求23-25中的任何一个所述的方法,其中,计算至少一个加权参数的步骤包括比较所述第一量和所述第二量。
27.根据权利要求26所述的方法,其中,比较所述第一量和所述第二量包括:计算所述第二量和所述第一量之间的比率;将所述比率提高到α次幂;并且使用被提高到α次幂的比率来计算所述加权参数。
28.根据权利要求27所述的方法,其中,α等于二。
29.根据权利要求27所述的方法,其中,被提高到α次幂的比率遵照递增函数,所述递增函数将被提高到α次幂的比率映射到所述至少一个加权参数。
30.根据权利要求23-25中的任何一个所述的方法,其中,第一加权因子和第二加权因子是随时间和频率变化的。
31.根据权利要求23-25中的任何一个所述的方法,其中,指示能量水平的所述第二量对应于所述特定音频对象的编码器侧逼近的能量水平,所述编码器侧逼近是所述M个下混信号和L个辅助信号的线性组合,所述下混信号和所述辅助信号从所述N个音频对象形成。
32.根据权利要求31所述的方法,其中,所述L个辅助信号中的至少一个等于所述N个音频对象中的一个。
33.根据权利要求31所述的方法,其中,所述L个辅助信号中的至少一个是所述N个音频对象中的至少两个的组合。
34.根据权利要求31所述的方法,其中,所述M个下混信号跨越超平面,并且其中,所述L个辅助信号中的至少一个不位于所述M个下混信号跨越的超平面中。
35.根据权利要求34所述的方法,其中,所述L个辅助信号中的所述至少一个与所述M个下混信号跨越的超平面正交。
36.一种用于产生至少一个加权参数的编码器,其中,所述至少一个加权参数将在重构特定音频对象的时间/频率瓦片时被使用,所述编码器包括:
接收组件,所述接收组件被配置为接收M个下混信号,所述下混信号是包括所述特定音频对象的至少N个音频对象的组合,所述接收组件被进一步配置为接收所述特定音频对象;
计算单元,所述计算单元被配置为:
计算指示所述特定音频对象的能量水平的第一量;
计算指示与所述特定音频对象的编码器侧逼近的能量水平对应的能量水平的第二量,所述编码器侧逼近是所述M个下混信号的组合;
基于所述第一量和所述第二量来计算至少一个加权参数,其中所述至少一个加权参数用于对所述特定音频对象的解码器侧逼近以及所述特定音频对象的解码器侧逼近的去相关版本进行加权。
37.根据权利要求36所述的编码器,其中,所述至少一个加权参数包括能够从其中推导出第一加权因子和第二加权因子的单个加权参数,所述第一加权因子用于对所述特定音频对象的解码器侧逼近进行加权,所述第二加权因子用于对解码器侧逼近的音频对象的去相关版本进行加权。
38.根据权利要求37所述的编码器,其中,所述第一加权因子和所述第二加权因子的平方和等于一,并且其中,所述单个加权参数包括所述第一加权因子,或所述第二加权因子。
39.根据权利要求36-38中的任何一个所述的编码器,其中,所述计算单元还被配置为比较所述第一量和所述第二量。
40.根据权利要求39所述的编码器,其中,所述计算单元还被配置为:计算所述第二量和所述第一量之间的比率;将所述比率提高到α次幂;并且使用被提高到α次幂的比率来计算所述加权参数。
41.根据权利要求40所述的编码器,其中,α等于二。
42.根据权利要求40所述的编码器,其中,被提高到α次幂的比率遵照递增函数,所述递增函数将被提高到α次幂的比率映射到所述至少一个加权参数。
43.根据权利要求36-38中的任何一个所述的编码器,其中,第一加权因子和第二加权因子是随时间和频率变化的。
44.根据权利要求36-38中的任何一个所述的编码器,其中,指示能量水平的所述第二量对应于所述特定音频对象的编码器侧逼近的能量水平,所述编码器侧逼近是所述M个下混信号和L个辅助信号的线性组合,所述下混信号和所述辅助信号从所述N个音频对象形成。
45.根据权利要求44所述的编码器,其中,所述L个辅助信号中的至少一个等于所述N个音频对象中的一个。
46.根据权利要求44所述的编码器,其中,所述L个辅助信号中的至少一个是所述N个音频对象中的至少两个的组合。
47.根据权利要求44所述的编码器,其中,所述M个下混信号跨越超平面,并且其中,所述L个辅助信号中的至少一个不位于所述M个下混信号跨越的超平面中。
48.根据权利要求47所述的编码器,其中,所述L个辅助信号中的所述至少一个与所述M个下混信号跨越的超平面正交。
49.一种用于重构N个音频对象的时间/频率瓦片的系统,包括:
用于接收M个下混信号的部件;
用于接收重构矩阵的部件,所述重构矩阵实现从所述M个下混信号重构所述N个音频对象的逼近;
用于将所述重构矩阵应用于所述M个下混信号,以便产生N个逼近音频对象的部件;
用于对所述N个逼近音频对象的至少一个子集进行去相关处理,以便产生至少一个去相关音频对象的部件,由此所述至少一个去相关音频对象中的每一个对应于所述N个逼近音频对象中的一个;
用于针对所述N个逼近音频对象中的不具有对应的去相关音频对象的每个逼近音频对象,通过所述逼近音频对象来重构所述音频对象的时间/频率瓦片的部件;和
用于针对所述N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象,通过以下步骤来重构所述音频对象的时间/频率瓦片的部件:
接收单个加权参数,从所述单个加权参数中能够推导出第一加权因子和第二加权因子;
用第一加权因子对所述逼近音频对象进行加权;
用第二加权因子对与所述逼近音频对象对应的去相关音频对象进行加权;以及
通过执行求和,将加权的逼近音频对象与对应的加权的去相关音频对象组合,用于重构所述逼近音频对象的时间/频率瓦片,由此所述重构的时间/频率瓦片的能量水平等于所述逼近音频对象的对应的时间/频率瓦片的能量水平。
50.根据权利要求49所述的系统,其中,所述第一加权因子和所述第二加权因子的平方和等于一,并且其中,所述单个加权参数包括所述第一加权因子,或所述第二加权因子。
51.根据权利要求49或50所述的系统,其中,用于对所述N个逼近音频对象的至少一个子集进行去相关处理的部件包括,用于对所述N个逼近音频对象中的每一个进行去相关处理的部件,由此所述N个逼近音频对象中的每一个对应于一个去相关音频对象。
52.根据权利要求49或50所述的系统,其中,所述第一加权因子和所述第二加权因子是随时间和频率变化的。
53.根据权利要求49或50所述的系统,其中,所述重构矩阵是随时间和频率变化的。
54.根据权利要求49或50所述的系统,其中,所述重构矩阵和至少一个加权参数在被接收到时被布置在帧中,其中,使用第一格式将所述重构矩阵布置在所述帧的第一字段中,并且使用第二格式将所述至少一个加权参数布置在所述帧的第二字段中,从而使得仅支持第一格式的解码器能够对第一字段中的重构矩阵进行解码并且丢弃第二字段中的所述至少一个加权参数。
55.根据权利要求49或50所述的系统,还包括用于接收L个辅助信号的部件,其中,所述重构矩阵进一步实现从所述M个下混信号和所述L个辅助信号重构所述N个音频对象的逼近,并且其中,所述系统还包括用于将所述重构矩阵应用于所述M个下混信号和所述L个辅助信号以便产生所述N个逼近音频对象的部件。
56.根据权利要求55所述的系统,其中,所述L个辅助信号中的至少一个等于所述N个音频对象中的将被重构的一个。
57.根据权利要求55所述的系统,其中,所述L个辅助信号中的至少一个是所述N个音频对象中的将被重构的至少两个的组合。
58.根据权利要求55所述的系统,其中,所述M个下混信号跨越超平面,并且其中,所述L个辅助信号中的至少一个不位于所述M个下混信号跨越的超平面中。
59.根据权利要求58所述的系统,其中,所述L个辅助信号中的至少一个与所述M个下混信号跨越的超平面正交。
60.一种在编码器中用于产生至少一个加权参数的系统,其中,当重构特定音频对象的时间/频率瓦片时,所述至少一个加权参数将被使用,所述系统包括:
用于接收M个下混信号的部件,所述下混信号是包括所述特定音频对象的至少N个音频对象的组合;
用于接收所述特定音频对象的部件;
用于计算指示所述特定音频对象的能量水平的第一量的部件;
用于计算指示与所述特定音频对象的编码器侧逼近的能量水平对应的能量水平的第二量的部件,所述编码器侧逼近是所述M个下混信号的组合;
用于基于所述第一量和所述第二量来计算至少一个加权参数的部件,其中所述至少一个加权参数用于对所述特定音频对象的解码器侧逼近以及所述特定音频对象的解码器侧逼近的去相关版本进行加权。
61.根据权利要求60所述的系统,其中,所述至少一个加权参数包括能够从其中推导出第一加权因子和第二加权因子的单个加权参数,所述第一加权因子用于对所述特定音频对象的解码器侧逼近进行加权,所述第二加权因子用于对解码器侧逼近的音频对象的去相关版本进行加权。
62.根据权利要求61所述的系统,其中,所述第一加权因子和所述第二加权因子的平方和等于一,并且其中,所述单个加权参数包括所述第一加权因子,或所述第二加权因子。
63.根据权利要求60-62中的任何一个所述的系统,其中,用于计算至少一个加权参数的部件包括用于比较所述第一量和所述第二量的部件。
64.根据权利要求63所述的系统,其中,用于比较所述第一量和所述第二量的部件包括:用于计算所述第二量和所述第一量之间的比率,将所述比率提高到α次幂,并且使用被提高到α次幂的比率来计算所述加权参数的部件。
65.根据权利要求64所述的系统,其中,α等于二。
66.根据权利要求64所述的系统,其中,被提高到α次幂的比率遵照递增函数,所述递增函数将被提高到α次幂的比率映射到所述至少一个加权参数。
67.根据权利要求60-62中的任何一个所述的系统,其中,第一加权因子和第二加权因子是随时间和频率变化的。
68.根据权利要求60-62中的任何一个所述的系统,其中,指示能量水平的所述第二量对应于所述特定音频对象的编码器侧逼近的能量水平,所述编码器侧逼近是所述M个下混信号和L个辅助信号的线性组合,所述下混信号和所述辅助信号从所述N个音频对象形成。
69.根据权利要求68所述的系统,其中,所述L个辅助信号中的至少一个等于所述N个音频对象中的一个。
70.根据权利要求68所述的系统,其中,所述L个辅助信号中的至少一个是所述N个音频对象中的至少两个的组合。
71.根据权利要求68所述的系统,其中,所述M个下混信号跨越超平面,并且其中,所述L个辅助信号中的至少一个不位于所述M个下混信号跨越的超平面中。
72.根据权利要求71所述的系统,其中,所述L个辅助信号中的所述至少一个与所述M个下混信号跨越的超平面正交。
CN201480029603.2A 2013-05-24 2014-05-23 音频编码和解码方法、介质以及音频编码器和解码器 Active CN105393304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910546611.9A CN110223702B (zh) 2013-05-24 2014-05-23 音频解码系统和重构方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361827288P 2013-05-24 2013-05-24
US61/827,288 2013-05-24
PCT/EP2014/060728 WO2014187987A1 (en) 2013-05-24 2014-05-23 Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910546611.9A Division CN110223702B (zh) 2013-05-24 2014-05-23 音频解码系统和重构方法

Publications (2)

Publication Number Publication Date
CN105393304A CN105393304A (zh) 2016-03-09
CN105393304B true CN105393304B (zh) 2019-05-28

Family

ID=50771513

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201480029603.2A Active CN105393304B (zh) 2013-05-24 2014-05-23 音频编码和解码方法、介质以及音频编码器和解码器
CN201910546611.9A Active CN110223702B (zh) 2013-05-24 2014-05-23 音频解码系统和重构方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910546611.9A Active CN110223702B (zh) 2013-05-24 2014-05-23 音频解码系统和重构方法

Country Status (10)

Country Link
US (1) US9818412B2 (zh)
EP (1) EP3005352B1 (zh)
JP (1) JP6248186B2 (zh)
KR (1) KR101761099B1 (zh)
CN (2) CN105393304B (zh)
BR (1) BR112015028914B1 (zh)
ES (1) ES2624668T3 (zh)
HK (1) HK1216453A1 (zh)
RU (1) RU2628177C2 (zh)
WO (1) WO2014187987A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX354832B (es) 2013-10-21 2018-03-21 Dolby Int Ab Estructura de decorrelador para la reconstruccion parametrica de señales de audio.
CN107886960B (zh) * 2016-09-30 2020-12-01 华为技术有限公司 一种音频信号重建方法及装置

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
DE602005022641D1 (de) * 2004-03-01 2010-09-09 Dolby Lab Licensing Corp Mehrkanal-Audiodekodierung
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
CN101014998B (zh) * 2004-07-14 2011-02-23 皇家飞利浦电子股份有限公司 音频通道转换
MX2007003063A (es) 2004-09-17 2007-05-16 Koninkl Philips Electronics Nv Codificacion combinada de audio que minimiza la distorsion perceptual.
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
WO2006060279A1 (en) 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
DE602005017302D1 (de) 2004-11-30 2009-12-03 Agere Systems Inc Synchronisierung von parametrischer raumtonkodierung mit extern bereitgestelltem downmix
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
ES2327158T3 (es) * 2005-07-14 2009-10-26 Koninklijke Philips Electronics N.V. Codificacion y decodificacion de audio.
RU2419249C2 (ru) * 2005-09-13 2011-05-20 Кониклейке Филипс Электроникс Н.В. Аудиокодирование
RU2406164C2 (ru) 2006-02-07 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования/декодирования сигнала
CN101506875B (zh) * 2006-07-07 2012-12-19 弗劳恩霍夫应用研究促进协会 用于组合多个参数编码的音频源的设备和方法
DE602007012730D1 (de) * 2006-09-18 2011-04-07 Koninkl Philips Electronics Nv Kodierung und dekodierung von audio-objekten
US8504376B2 (en) 2006-09-29 2013-08-06 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
DE602007013415D1 (de) * 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
CN101553868B (zh) 2006-12-07 2012-08-29 Lg电子株式会社 用于处理音频信号的方法和装置
KR101149448B1 (ko) 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
US8756066B2 (en) 2007-02-14 2014-06-17 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
DE102007018032B4 (de) * 2007-04-17 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung dekorrelierter Signale
BRPI0809760B1 (pt) 2007-04-26 2020-12-01 Dolby International Ab aparelho e método para sintetizar um sinal de saída
KR101290394B1 (ko) 2007-10-17 2013-07-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다운믹스를 이용한 오디오 코딩
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
TWI441164B (zh) * 2009-06-24 2014-06-11 Fraunhofer Ges Forschung 音訊信號解碼器、用以將音訊信號解碼之方法、以及運用級聯音訊物件處理級之電腦程式
RU2576476C2 (ru) * 2009-09-29 2016-03-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф., Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции
WO2011048067A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multichannel audio signal, methods, computer program and bitstream using a distortion control signaling
BR112012012097B1 (pt) 2009-11-20 2021-01-05 Fraunhofer - Gesellschaft Zur Foerderung Der Angewandten Ten Forschung E.V. aparelho para prover uma representação de sinal upmix com base na representação de sinal downmix, aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais, métodos e fluxo de bits representando um sinal de áudio de multicanais utilizando um parâmetro de combinação linear
CN102792370B (zh) 2010-01-12 2014-08-06 弗劳恩霍弗实用研究促进协会 使用描述有效状态值及区间边界的散列表的音频编码器、音频解码器、编码音频信息的方法及解码音频信息的方法
TWI469136B (zh) * 2011-02-14 2015-01-11 Fraunhofer Ges Forschung 在一頻譜域中用以處理已解碼音訊信號之裝置及方法
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
WO2012125855A1 (en) 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
EP3279895B1 (en) 2011-11-02 2019-07-10 Telefonaktiebolaget LM Ericsson (publ) Audio encoding based on an efficient representation of auto-regressive coefficients
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS
CA3017077C (en) 2013-05-24 2021-08-17 Dolby International Ab Coding of audio scenes

Also Published As

Publication number Publication date
CN110223702A (zh) 2019-09-10
KR101761099B1 (ko) 2017-07-25
JP2016522445A (ja) 2016-07-28
RU2015150066A (ru) 2017-05-26
EP3005352A1 (en) 2016-04-13
US20160111097A1 (en) 2016-04-21
KR20160003083A (ko) 2016-01-08
ES2624668T3 (es) 2017-07-17
CN105393304A (zh) 2016-03-09
US9818412B2 (en) 2017-11-14
WO2014187987A1 (en) 2014-11-27
HK1216453A1 (zh) 2016-11-11
BR112015028914A2 (pt) 2017-08-29
RU2628177C2 (ru) 2017-08-15
JP6248186B2 (ja) 2017-12-13
CN110223702B (zh) 2023-04-11
EP3005352B1 (en) 2017-03-29
BR112015028914B1 (pt) 2021-12-07

Similar Documents

Publication Publication Date Title
CN105518775B (zh) 使用自适应相位校准的多声道降混的梳型滤波器的伪迹消除
CN104285390B (zh) 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
JP6687683B2 (ja) マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
RU2660638C2 (ru) Устройство и способ для улучшенного пространственного кодирования аудиообъектов
BRPI0715559B1 (pt) Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
CN111179956B (zh) 音频信号的参数化重构
CN105659320B (zh) 音频编码器和解码器
CN105874532A (zh) 基于对象的音频编码系统中的通知响度估计的解码器、编码器及方法
EP3201916B1 (en) Audio encoder and decoder
DK3201918T3 (en) DECODING PROCEDURE AND DECODS FOR DIALOGUE IMPROVEMENT
CN105393304B (zh) 音频编码和解码方法、介质以及音频编码器和解码器
TWI792006B (zh) 音訊合成器、訊號產生方法及儲存單元
CN107112020A (zh) 音频信号的参数化混合

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant