CN104160442B - 音频处理 - Google Patents

音频处理 Download PDF

Info

Publication number
CN104160442B
CN104160442B CN201380010478.6A CN201380010478A CN104160442B CN 104160442 B CN104160442 B CN 104160442B CN 201380010478 A CN201380010478 A CN 201380010478A CN 104160442 B CN104160442 B CN 104160442B
Authority
CN
China
Prior art keywords
sound channel
signal
mixed
mixed signal
hybrid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380010478.6A
Other languages
English (en)
Other versions
CN104160442A (zh
Inventor
K·克约尔林
H·普恩哈根
K·J·罗德恩
L·塞勒斯德姆
L·维尔莫斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN104160442A publication Critical patent/CN104160442A/zh
Application granted granted Critical
Publication of CN104160442B publication Critical patent/CN104160442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

用于空间合成的音频处理系统(100)包括上混平台(110),所述上混平台接收经解码的m声道下混信号(X)并基于其输出n声道上混信号(Y),其中2≤m<n。上混平台包括下混修改处理器(120),所述下混修改处理器接收m声道下混信号并输出通过下混信号的交叉混合和非线性处理获得的经修改的下混信号(d1,d2),并且还包括第一混合矩阵(130),所述第一混合矩阵接收下混信号和经修改的下混信号,形成只有下混信号声道和经修改的下混信号声道的n声道线性组合,并且将其输出为n声道上混信号。在实施例中,第一混合矩阵接受对由第一混合矩阵执行的线性组合中的至少一个增益进行控制的一个或更多个混合参数(g,α1,…)。所述增益是次数≤2的多项式。

Description

音频处理
相关申请的交叉引用
本申请要求2012年2月24日提交的美国临时专利申请No.61/603,001和2012年5月11日提交的美国临时专利申请No.61/645,809的优先权,其全文内容通过参考被并入于此。
技术领域
在此公开的发明一般涉及多声道音频代码化(code),并且更精确地涉及用于参数多声道音频编码和解码的技术。
背景技术
已知参数立体声和多声道代码化方法在收听质量(listening quality)方面是可扩展(scalable)和有效的,这使得它们在低比特率应用中尤其具有吸引力。参数代码化方法典型地提供了优秀的代码化效率,但是在被实现时有时候可能包括大量的计算或高度的结构复杂性(中间缓冲器,等等)。这类方法的示例可见EP 1410687B1。
目前的立体声代码化方法可以从它们的带宽效率、计算效率和/或鲁棒性(robustness)的角度来改善。对抗下混(downmix)信号中的缺陷的鲁棒性在依赖会暂时使信号失真的核心代码化装置的应用中尤为相关。但是,在一些现有技术的系统中,下混信号中的误差可以传播和增加。意图用于大范围的装置(其中多功能便携式消费装置可能具有最有限的处理能力)的代码化方法也应该在计算上是节约的,使得不需要指定装置中可用资源(无论是关于瞬间处理能力还是电池放电周期内的能量使用总量)的不合理的份额。有吸引力的代码化方法还可使得能够有至少一种简单而有效的硬件方式的实现。决定这种代码化方法将如何消耗可用的计算、存储和带宽资源(其中它们最有效地为感知的收听质量作出贡献)是一件重要的任务,其可能包括耗时的收听测试。
附图说明
现在将参照附图描述本发明的实施例,其中:
图1是用于执行空间合成(spatial synthesis)的音频处理系统的概括性框图;
图2示出了图1中的系统的细节;
图3与图1类似地示出了用于执行空间合成的音频处理系统;以及
图4示出了用于执行空间分析的音频处理系统。
所有附图都是示意性的,并且只一般性地示出了为了阐明本发明而必要的部分,而其他的部分可以被省略或仅仅被暗示。除非另有说明,否则不同附图中的相同的附图标记指的是相同的部分。
具体实施方式
Ⅰ.综述
本发明的示例性实施例提出了使得能够进行经参数代码化的多声道音频的分析和合成的方法和装置。本发明的示例性实施例提供了空间合成方法、空间分析方法以及用于执行这些方法的装置和计算机程序产品,其特征在独立权利要求中得到阐述。
本发明的第一示例性实施例提供了用于执行空间合成的音频处理系统。该系统包括适于接收经解码的m声道下混信号X以及基于该下混信号X输出n声道上混信号Y的上混平台(upmix stage),其中2≤m<n。上混平台包括:
●下混修改处理器,接收m声道下混信号并输出通过下混信号的交叉混合(crossmix)和非线性处理而获得的经修改的下混信号D;以及
●第一混合矩阵,接收下混信号与经修改的下混信号,形成只有下混信号声道和经修改的下混信号声道的n声道线性组合,并将该线性组合输出作为n声道上混信号。
根据本发明,除了下混信号和经修改的下混信号之外没有其他的信号对上混信号作出贡献。混合矩阵直接对下混信号进行操作,而不是在可能具有中间非线性操作(例如,与解相关有关的处理)的情况下级联混合矩阵。系统的这个结构以及下面将描述的参数化允许在编码器中提供并行的预定义的下混。例如,下混信号不一定如典型地使用帧式(frame-wise)信号自适应的下混的情况一样,通过级联的(和可能是树状结构的)参数提取来获得。作为替代,根据本发明的实施例,下混和参数提取可作为不需要交换任何信息和/或不需要被同步的并行的独立的处理来执行。另外,与其中从中间的估计的声道推导出输出声道的现有技术的参数化方案相比,下面将描述的参数化在对抗下混信号中的缺陷方面更有鲁棒性。作为另一个优点,该参数化可用廉价的硬件(例如,用有限数量的用于中间值的缓冲空间)实现。
第二示例性实施例提供了一种音频处理系统,该音频处理系统用于执行空间分析并且适于例如通过广播、流动、传输或存储将由合成系统解码的经编码的音频数据来与第一示例性实施例合作。该系统包括下混平台和参数提取器。根据本发明,下混平台和参数提取器独立地操作。例如,即使参数提取器产生频率变化的混合参数,下混平台也可对音频信号的时域表示进行操作。这是可能的,因为下混平台执行预定义类型的下混操作,该预定义类型已被参数提取器所知或被传达给参数提取器。因为下混平台在时域中处理信号,所以它可以在基本上无算法延迟的情况下操作。如果下混平台不施加要求能量守恒等的条件的话尤其如此,其否则会必需其上实施该条件的面向块的实现方式,其中下混信号被生成为非零长度的片段。然而,在运用时域下混的实施例中,(n声道)输入和(m声道)输出之间的任何延迟可通过分配充足的处理资源而被减少至基本上为0。
在示例性实施例中,下混信号是2声道立体声信号并且上混信号是5.1声道信号(n=6)。
在示例性实施例中,为了获得上混信号中的空间上的左、右声道(这些声道可被看作是上混信号中的一组声道;它可以是上混信号中的声道的合适的子集)而施加的所有增益是混合参数中的一个或更多个混合参数的多项式,其中每个多项式的次数小于或等于2。这提供了基于混合参数的混合矩阵元素的廉价计算。与其中不能在有限数量的操作中准确地计算出一些矩阵元素的参数化方案(例如矩阵元素是混合参数的三角函数)相比,这方面的改善尤其显著。为该组声道使用作为低次多项式的增益的另一个优点是所述增益将包含这样的项:每个项是至多两个混合参数的乘积。这意味着误差传播的风险低于增益包含作为三个或更多个混合参数的乘积的项的情况。它还意味着具有其中三个或更多个错误的混合参数结构性地合作的项的风险,如例如三个都大于它们的准确值的混合参数的乘积中的情况一样。作为替代,根据本示例性实施例,有不同符号的误差相抵消的可能性增大。在该示例性实施例的特定变体中,为了获得上混信号中的声道而施加的任何增益是至多2次的多项式。
在示例性实施例中,向下混信号中的声道施加的增益以与向经修改的下混信号中的声道施加的增益不同的方式被编码。在该示例性实施例中,向下混信号中的声道施加的增益是混合参数的2次多项式,而向经修改的下混信号中的声道施加的增益是混合参数的0次或1次多项式。通过这种方法,向经修改的下混信号施加的增益不是如该情况那样可控制的,但是也将消耗更少量的带宽或存储空间。相反地,来自其中缺陷(例如,误差、伪迹)会最能听得见的那些声道的贡献(contribution)被除了具有单个混合参数的项之外还包含作为两个混合参数的乘积的项的增益所控制。这允许细粒度的可控性和高级的统计建模。从而,带宽被更加有效地使用。
在之前示例性实施例的进一步发展中,形成施加给经修改的下混信号中的声道的增益的一部分的混合参数被均匀量化。
在示例性实施例中,下混信号中和上混信号中空间对应的声道之间存在直接的关系。空间对应的声道的示例可以为:(1)下混信号中的左声道和上混中的所有左声道(常规左,前置左,中置左,左高度,左环绕,直接左环绕,后置左环绕,左宽);(2)下混信号中的中置声道和上混中的中置声道。该直接关系可以引起下混信号中的声道的变化对上混信号中的空间对应的声道具有独立地可控制的影响。更准确地说,从下混信号中的声道到上混信号中的空间对应的声道的贡献通过按照下面的示例性公式改变独立的混合参数g而单独地可控:
l 1 · · · l p r 1 · · · r p * · · · = g 2 1 0 · · · · · · 1 0 0 1 · · · · · · 0 1 0 0 · · · · · · l 0 r 0 + f ( X , D ; α 1 , α 2 , α 3 , β 1 , β 2 , β 3 , k 1 , k 2 )
其中左手侧代表上混信号,在本示例中所述上混信号包括p≥1个左型声道和p≥1个右型声道以及以“*”指示的任意数量的既没有左型特征也没有右型特征的其它声道。右手侧的第一项中的最后一个因子代表下混信号,并且f是下混信号X和经修改的下混信号D中的声道的n维线性组合(其中函数f可额外地依赖于更多的混合参数,可能包括参数g本身)。类似于之前示例性实施例的效果,参数化的该特定方面代表了,以实现上混信号中的发明人发现是最能听得见的那些方面与高度的可控性相关联为目的消耗可用带宽的有意识的方式;相反地,在已经证实它们更不易被察觉的情况下接受更大的(潜在的)不准确。在本示例性实施例的进一步发展中,与下混信号中的声道具有空间对应性的声道根据然而只可由均匀量化的参数控制的增益,从下混信号X和经修改的下混信号D接收贡献。更为优选地,上述公式中出现的混合参数g被非均匀地量化。作为替代,使用精细的分辨率以减少平均量化误差。例如,混合参数g可关于对数间隔或指数间隔的台阶被量化。上混信号可包括接收来自下混信号X和/或经修改的下混信号D的贡献的其它信号。这些其它信号(例如低频效果或中置声道)可与下混中的信号在空间上不相关。
在示例性实施例中,在比特流中编码的混合参数中的一个控制两个数k1、k2,k1、k2将被称为增益参数。另外,在由第一矩阵执行的线性组合中的一个或更多个增益线性地依赖于这些增益参数中的一个,即每个增益的大小与增益参数中的一个成比例。优选地,施加相关的一个或更多个增益以获得不是左型或右型声道的诸如中置、低频效果、高度等的非横向表征的声道。因为这两个增益参数不是独立地可控制的,所以足以通过一个混合参数将它们编码,这引起带宽节省。发明人已认识到该带宽节省对感知的声音质量没有不利影响。
在示例性实施例中,混合参数是依赖频率的。更准确地说,本系统处理的音频信号共享公共的时间/频率块(tiling),并且混合参数共享公共的时间/频率块。关于频率,信号和参数被分割为频率子带(subband)。音频信号的子带代表了这些子带中的频谱内容,而混合参数的子带控制在由第一混合矩阵执行的线性组合中要被施加给音频信号的频率带的增益。对于给定的时间帧,所有的信号具有一个公共的子带配置,并且所有的混合参数具有一个公共的子带配置。信号的子带配置可以比混合参数的子带配置更细,其中例如一个混合参数子带控制两个或更多个信号子带的增益。在这两个子带配置之间可存在明确定义的映射。子带配置可以是均匀的,只要一个宽带应用于所有带,或者子带配置可以是非均匀的,其中可在心理声学上更为敏感的频率范围内选择更细的频率分辨率。
在包括上述的依赖频率的混合参数的示例性实施例中,有至少一个混合参数,对于该混合参数所有的频率子带关于均匀的分辨率(例如,离散值尺度、离散的等距值尺度或与离散的指数相关联的查找表)被量化。这使基于混合参数填充(populate)第一混合矩阵的操作简化。特别地,均匀的分辨率可为该混合参数的所有频率子带所共有。一般来说,编码方案的选择对频谱效率(例如,比特率与所需的传送带宽的比率)和数据传输格式的其他品质因数有影响。
在示例性实施例中,该系统被配置为用定性地均匀的方式为所有频率子带生成上混信号。特别地,第一混合矩阵的相同的参数化被用于所有频率子带。发明人已认识到,即使该系统不在不同频率范围(即,子带的集合)之间关于它们的定性处理做出区分,由该系统产生的被体验的输出质量也具有竞争力。然而,在混合参数值可能变化的范围内,在频率子带之间存在定量的变化。
在示例性实施例中,音频处理系统、或者至少下混修改处理器和第一混合矩阵对下混信号和上混信号的部分复数频域表示(representation)进行操作。当临界(critical)抽样(只有实数数据)可在心理声学上更加不敏感的频率范围中使用以节省带宽时,超临界的表示(完整的复数数据)可在其他地方使用,从而防止听得见的与混淆(alias)有关的伪迹。为了这个目的,音频处理系统可包括实数到复数的转换平台。
在示例性实施例中,下混修改处理器包括产生中间信号Z的第二混合矩阵和解相关器。解相关器可以是无限脉冲响应滤波器或这种类型的连接的滤波器的布置。解相关器包括伪迹(artifact)衰减器,所述伪迹衰减器被配置为检测中间信号中的声音结尾并基于所检测的声音结尾的位置来衰减经解相关的信号D中的不希望的伪迹。特别地,如果解相关器包括混响单元,不想要的混响尾巴(reverb tail)可用这种方式去除或变为听不见。与伪迹衰减器相关的进一步细节可在例如EP 1410687B1的0016段和EP 1616461B1的0051段找到。因为下混修改处理器执行非线性操作,所以第一矩阵和第二矩阵不能表示为具有关于信号本身为常数的元素的单个矩阵。
在作为用于执行空间分析的音频处理系统的本发明的示例性实施例中,下混平台如建议书ITU-R BS.775中提供的那样施加下混增益。
在示例性实施例中,本发明提供了用于存储或传输音频信号的数据结构,该结构包括m声道下混信号X和一个或更多个混合参数α1、α2、α3、β1、β2、β3、g、k1、k2,并且通过形成只有下混信号声道和经修改的下混信号声道的n声道线性组合和通过将其作为n声道上混信号输出,而易于解码,其中2≤m<n,并且其中经修改的下混信号通过下混信号的交叉混合和非线性处理被获得以及所述一个或更多个混合参数控制线性组合中的至少一个增益。特别地,本发明提供了计算机可读的介质,所述介质存储由上述数据结构构成的信息。
从属权利要求限定了本发明的更多示例性实施例。要注意的是本发明涉及特征的所有组合,即使这些特征是在不同的权利要求中被叙述。
Ⅱ.示例性实施例
图1以框图的形式例示了作为音频处理系统100的本发明的示例性实施例。从比特流P中,音频解码器140提取下混信号X=[l0 r0]T和混合参数α1、α2、α3、β1、β2、β3、g、k1、k2。混合参数以量化的形式被包括在比特流P中的各个混合参数数据字段中。在本公开的一些实例中,已明确表明一些连接线适于传输多声道信号,其中这些线具有交叉线,该交叉线邻近各自数量的声道。在图1中所示的系统中,下混信号X包括2个声道,而下面将要限定的上混信号Y包括6个声道,因此m=2并且n=6。其动作参数地依赖于混合参数的上混平台110接收下混信号。下混修改处理器120通过非线性处理和通过形成下混声道的线性组合来对下混信号进行修改,从而获得经修改的下混信号D=[d1 d2]T。第一混合矩阵130接收下混信号X和经修改的下混信号D,并通过形成下面的线性组合来输出上混信号Y=[lf ls rf rs clfe]T:
l f l s r f r s c lfe = ( g - ( &alpha; 3 + &beta; 3 ) ) ( 1 + &alpha; 1 ) / 2 - ( &alpha; 3 - &beta; 3 ) ( 1 + &alpha; 1 ) / 2 &beta; 1 / 2 0 ( g - ( &alpha; 3 + &beta; 3 ) ) ( 1 - &alpha; 1 ) / 2 - ( &alpha; 3 - &beta; 3 ) ( 1 - &alpha; 1 ) / 2 - &beta; 1 / 2 0 - ( &alpha; 3 + &beta; 3 ) ( 1 + &alpha; 2 ) / 2 ( g - ( &alpha; 3 - &beta; 3 ) ) ( 1 + &alpha; 2 ) / 2 0 &beta; 2 / 2 - ( &alpha; 3 + &beta; 3 ) ( 1 - &alpha; 2 ) / 2 ( g - ( &alpha; 3 - &beta; 3 ) ) ( 1 - &alpha; 2 ) / 2 0 - &beta; 2 / 2 ( &alpha; 3 + &beta; 3 ) k 1 ( &alpha; 3 - &beta; 3 ) k 1 0 0 ( &alpha; 3 + &beta; 3 ) k 2 ( &alpha; 3 - &beta; 3 ) k 2 0 0 &CenterDot; l 0 r 0 d 1 d 2
在上面的线性组合中,混合参数α3对形成自下混信号的中间型(mid-type)信号(与l0+r0成比例)到上混信号中的所有声道的贡献进行控制。混合参数β3对侧型(side-type)信号(与l0-r0成比例)到上混信号中的所有声道的贡献进行控制。因此,在使用情况中,可以合理地预期混合参数α3和β3将具有不同的统计特性,这使得能够进行更有效的代码化。(作为对比,考虑其中独立的混合参数α’、β’控制从下混信号到上混信号中的空间上的左声道和右声道的各自的左声道的贡献和右声道的贡献的参考参数化,要注意的是这类混合参数α’、β’的统计可观察量可能没有显著差异。)
返回到上述公式中所示的线性组合,还要注意的是增益参数k1、k2可以依赖于比特流P中的公共的单个混合参数。
如之前提到的,从经修改的下混信号到上混信号中的空间上的左、右声道的贡献由参数β1(第一经修改的声道对左声道的贡献)和β2(第二经修改的声道对右声道的贡献)分开控制。另外,从下混信号中的每个声道到上混信号中的与它空间对应的声道的贡献可通过改变独立的混合参数g来单独地控制。优选地,g被非均匀地量化以避免大的量化误差。
现在再参照图2,下混修改处理器120在第二混合矩阵121中执行下面的下混声道的线性组合(其为交叉混合):
z 1 z 2 = g - ( &alpha; 3 + &beta; 3 ) - ( &alpha; 3 - &beta; 3 ) - ( &alpha; 3 + &beta; 3 ) g - ( &alpha; 3 - &beta; 3 ) &CenterDot; l 0 r 0
很明显,填充第二混合矩阵的增益参数地依赖于比特流P中编码的混合参数中的一些。由第二混合矩阵121执行的处理导致中间信号Z=(z1,z2),其被供给解相关器122。图1示出了其中解相关器122包括两个可相同地配置(即,响应于相同的输出提供相同的输出)或不同地配置的子解相关器(sub-decorrelator)123、124的实施例。作为这个的替代,图2示出了其中所有与解相关有关的操作由一个单元122执行的实施例,单元122输出初步的经修改的下混信号D’。图2中的下混修改处理器120还包括伪迹衰减器125。在示例性实施例中,如上面所概述的,伪迹衰减器125被配置为检测中间信号Z中的声音结尾并通过基于检测的声音结尾的位置衰减该信号中不希望的伪迹来采取校正动作。该衰减产生从下混修改处理器120中输出的经修改的下混信号D。
图3示出了与图1中所示的第一混合矩阵相似类型的第一混合矩阵130,以及它相关的变换平台301、302和反变换平台311、312、313、314、315、316。因此,位于变换平台301、302上游的信号是时域中的表示,如位于反变换平台311、312、313、314、315、316下游的信号一样。其他的信号是频域表示。其他信号的时间依赖性例如可表达为与信号被分割成的时间块相关的值的块或离散值。要注意的是图3相比于上面的矩阵公式使用替代的标记;例如一个可能具有的对应:XL0~l0,XR0~r0,YL~lf,YLs~ls等等。另外,图3中的标记强调了信号的时域表示XL0(t)和同一信号的频域表示XL0(f)之间的区别。要理解的是频域表示被分割为时间帧;因此,它是时间和频率变量两者的函数。
图4示出了用于生成下混信号X以及对由上混平台110施加的增益进行控制的参数的音频处理系统400。该音频处理系统400典型地位于例如广播或记录设备中的编码器侧,而图1中所示的系统100典型地部署在例如回放设备中的解码器侧。下混平台410基于n声道信号Y产生m声道信号X。优选地,下混平台410对这些信号的时域表示进行操作。参数提取器420通过分析n声道信号Y和考虑下混平台的定量特性与定性特性来产生混合参数α1、α2、α3、β1、β2、β3、g、k1、k2的值。混合参数是频率块值的向量,如图4中的标记所示,并且被进一步分割为时间块。相信本领域技术人员能够运用它们的公知常识和公开可用的技术信息根据混合参数的给定布置(或用给定的编码方案)来实现这种参数提取。在示例性实施例中,下混平台410是时间不变和/或频率不变的。借助时间不变性和/或频率不变性,不需要下混平台410和参数提取器420之间的通信连接,而是参数提取可以独立地进行。这为实现提供了大的余地。它还给出了减少系统的总等待时间(latency)的可能性,因为若干处理步骤可并行地执行。作为一个示例,Dolby Digital Plus格式(或增强的AC-3)可用于对下混信号X进行代码化。
参数提取器420可以通过访问下混规范来获知下混平台410的定量特性和/或定性特性,所述下混规范可指定下列中的一个:增益值的集合,识别为其预定义增益的预定义的下混模式的指示,等等。下混规范可以是预先载入到下混平台410和参数提取器420的每一个中的存储器中的数据记录。作为替代地,下混规范可以经由连接这些单元的通信线从下混平台410传输到参数提取器420。作为其它的替代,下混平台410到参数提取器420的每一个可以从诸如音频处理系统中的存储器(未示出)的公共数据源中或在与输入信号Y相关联的元数据流中访问下混规范。
Ⅲ.等效、扩展、替代方案和杂项
在研究上面的描述之后,本发明的更多实施例对于本领域技术人员而言将变得明白。尽管本说明书和附图公开了实施例和示例,但是本发明不局限于这些具体的示例。在不脱离由所附权利要求限定的本发明的范围的情况下,可以做出许多修改和变化。权利要求中出现的任何附图标记不会理解为限制它们的范围。
上文公开的系统和方法可以被实现为软件、固件、硬件或者其组合。在硬件实现方式中,上面的说明书中提到的功能单元之间的任务分割不一定对应于物理单元的分割;相反,一个物理部件可以具有多个功能,而一个任务可以由若干个物理部件合作执行。某些部件或所有部件可以实现为由数字信号处理器或微处理器执行的软件,或者实现为硬件或专用集成电路。这类软件可以分布在计算机可读的介质上,所述介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域技术人员所公知的,术语计算机存储介质包括以用于存储诸如计算机可读的指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性介质和非易失性介质两者、可移除的介质和不可移除的介质两者。计算机存储介质包括但不局限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多用途光盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁性存储装置,或者可用于存储希望的信息且可被计算机访问的任何其他介质。另外,本领域技术人员所公知的是通信介质典型地在诸如载波或其他传输机构之类的经调制的数据信号中包含计算机可读指令、数据结构、程序模块或其他数据并包括任何信息传递介质。

Claims (25)

1.一种用于执行空间合成的音频处理系统(100),
该音频处理系统包括上混平台(110),所述上混平台用于接收经解码的m声道下混信号(X)并用于基于该经解码的m声道下混信号输出n声道上混信号(Y),其中2≤m<n,所述上混平台包括:
下混修改处理器(120),用于接收m声道下混信号,并用于输出经修改的m声道下混信号(d1,d2;D),所述下混修改处理器适于以非线性的方式处理和交叉混合下混信号;以及
第一混合矩阵(130),用于接收下混信号和经修改的下混信号,所述第一混合矩阵适于执行只有m声道下混信号和经修改的下混信号的n声道线性组合并用于输出n声道上混信号,其中:
第一混合矩阵适于接收用于对由第一混合矩阵执行的线性组合中的至少一个增益进行控制的一个或更多个混合参数(α1、α2、α3、β1、β2、β3、g、k1、k2);并且混合参数具有量化格式;并且其中
n声道上混信号包括作为下混信号和经修改的下混信号两者的线性组合而获得的一组声道;并且其中
在由第一混合矩阵执行的线性组合中,为了获得所述一组声道而施加的所有增益是混合参数中的一个或更多个混合参数的多项式,其中每个多项式的阶数小于或等于2。
2.如权利要求1所述的音频处理系统,其中:
第一混合矩阵适于接收具有量化格式的混合参数;并且其中
在由第一混合矩阵执行的线性组合中,
施加给下混信号中的声道的所有增益是混合参数中的一个或更多个混合参数的多项式,其中每个多项式的阶数等于2。
3.如权利要求1至2中任一权利要求所述的音频处理系统,其中:
第一混合矩阵适于接收具有量化格式的混合参数;以及其中
施加给经修改的下混信号中的声道的所有增益是混合参数中的一个或更多个混合参数的多项式,其中每个多项式的阶数小于或等于1。
4.如权利要求1所述的音频处理系统,其中从下混信号中的声道到上混信号中的空间对应的声道的贡献能借助混合参数(g)单独地控制,并且到下混信号中的相同声道的任何其他贡献能由均匀量化的混合参数(α1、α2、α3、β1、β2、β3)控制。
5.如权利要求1至2中任一权利要求所述的音频处理系统,其中:
混合参数中的一个混合参数对两个增益参数(k1、k2)进行编码;并且
由第一混合矩阵执行的线性组合中的一个或更多个增益线性地依赖于这两个增益参数中的一个。
6.如权利要求1至2中任一权利要求所述的音频处理系统,其中:
上混平台被布置为对下混信号和上混信号的频域表示进行操作;
每个信号和每个混合参数被分割为时间帧并且包括多个频率子带,其中对于每个时间帧所有信号共享第一单个子带配置,并且对于每个时间帧所有混合参数共享第二单个子带配置;并且
第二子带配置限定混合参数的频率子带,所述混合参数的频率子带对在由第一混合矩阵执行的所述线性组合中施加给信号的相关联的频率子带的增益进行控制。
7.如权利要求6所述的音频处理系统,其中混合参数中的至少一个的所有频率子带关于均匀的分辨率被量化。
8.如权利要求7所述的音频处理系统,其中所述均匀的分辨率为混合参数的所有频率子带所共有。
9.如权利要求6所述的音频处理系统,还被配置为借助于第一混合矩阵,以定性地均匀的方式为所有频率子带生成上混信号。
10.如权利要求6所述的音频处理系统,被布置为对下混信号和上混信号的部分复数频域表示进行操作,其中所述部分复数频域表示中的每一个:
-在上频率范围中:包括第一频谱成分,所述第一频谱成分代表在多维空间的第一子空间中表达的对应信号的频谱内容,以及
-在下频率范围中:除了包括所述第一频谱成分外,还包括第二频谱成分,所述第二频谱成分代表在所述多维空间的第二子空间中表达的对应信号的频谱内容,所述第二子空间包括所述多维空间的不包括在第一子空间内的一部分。
11.如权利要求10所述的音频处理系统,其中所述部分复数频域表示中的每一个在上频率范围内被临界采样。
12.如权利要求1至2中任一权利要求所述的音频处理系统,下混修改处理器包括:
第二混合矩阵(121),用于接收m声道下混信号,用于形成下混信号声道的线性组合,并且用于将该线性组合输出为m声道中间信号(Z);以及
解相关器(122),用于接收m声道中间信号并用于输出包括m个经解相关的声道的经修改的下混信号,
其中第二混合矩阵被配置为接受所述一个或更多个混合参数中的至少一个,所述至少一个混合参数控制由第二混合矩阵执行的线性混合中的至少一个系数。
13.如权利要求12所述的音频处理系统,其中解相关器包括m个相同地配置的子解相关器(123、124),每个子解相关器与各自的信号声道相关联。
14.如权利要求12所述的音频处理系统,其中解相关器包括至少一个具有实数值系数的无限脉冲响应格型滤波器,所述无限脉冲响应格型滤波器接收中间信号的声道并且输出经修改的下混信号的声道中的一个。
15.如权利要求12所述的音频处理系统,其中解相关器包括伪迹衰减器(125),所述伪迹衰减器被配置为检测中间信号中的声音结尾,并且响应于其采取校正动作。
16.如权利要求1至2中的任一权利要求所述的音频处理系统,还包括音频解码器(140),所述音频解码器接收对下混信号进行编码的比特流(P),并基于其输出经解码的m声道下混信号。
17.如权利要求1所述的音频处理系统,其中m=2且n=6。
18.一种空间合成方法,包括如下步骤:
在下混修改处理器中通过下混信号的交叉混合和非线性处理来修改m声道下混信号(X)以获得经修改的下混信号(D);以及
在第一混合矩阵中形成下混信号和经修改的下混信号的n声道线性组合,并且将其输出为n声道上混信号(Y),其中2≤m<n;
其中:
在第一混合矩阵中接收一个或更多个混合参数(α1、α2、α3、β1、β2、β3、g、k1、k2)以便对由第一混合矩阵执行的线性组合中的至少一个增益进行控制,并且其中混合参数具有量化格式;其中
n声道上混信号包括作为下混信号和经修改的下混信号两者的线性组合而获得的一组声道;并且其中
在由第一混合矩阵执行的线性组合中,为了获得所述一组声道而施加的所有增益是混合参数中的一个或更多个混合参数的多项式,其中每个多项式的阶数小于或等于2。
19.如权利要求18所述的空间合成方法,其中m=2且n=6。
20.一种用于执行空间分析和空间合成的音频处理系统(400),该音频处理系统包括:
空间分析系统和空间合成系统,
所述空间分析系统包括:
下混平台(410),用于接收n声道输入信号(Y),用于形成n声道信号中的声道的m声道线性组合,并且用于将其输出为m声道输出信号(X),其中2≤m<n;以及
参数提取器(420),用于接收n声道输入信号(Y),并且用于输出一个或更多个混合参数(α1、α2、α3、β1、β2、β3、g、k1、k2),所述混合参数适于对空间合成系统中的至少一个增益进行控制,
其中下混平台和参数提取器在下混平台和参数提取器之间没有信息交换的情况下和/或在下混平台和参数提取器不被同步的情况下并行地操作;以及
所述空间合成系统包括:
上混平台(110),所述上混平台用于接收m声道下混信号(X)并用于基于该m声道下混信号输出n声道上混信号(Y),其中2≤m<n,所述上混平台包括:
下混修改处理器(120),用于接收m声道下混信号,并用于输出经修改的下混信号(d1,d2;D),所述下混修改处理器适于以非线性的方式处理和交叉混合下混信号;以及
第一混合矩阵(130),适于执行m声道下混信号和经修改的下混信号的n声道线性组合并且用于输出n声道上混信号,其中:
第一混合矩阵适于接收用于对由第一混合矩阵执行的线性组合中的所述增益进行控制的一个或更多个混合参数(α1、α2、α3、β1、β2、β3、g、k1、k2),其中混合参数具有量化格式,其中
n声道上混信号包括作为下混信号和经修改的下混信号两者的线性组合而获得的一组声道;并且其中
在由第一混合矩阵执行的线性组合中,为了获得所述一组声道而施加的所有增益是混合参数中的一个或更多个混合参数的多项式,其中每个多项式的阶数小于或等于2。
21.如权利要求20所述的音频处理系统,其中下混平台和参数提取器都能够利用定量地控制下混平台中所述m声道线性组合的形成的下混规范。
22.如权利要求20或21所述的音频处理系统,其中下混平台被布置为对信号的时域表示进行操作。
23.如权利要求20所述的音频处理系统,其中m=2且n=6。
24.一种空间合成设备,包括:
用于在下混修改处理器中通过下混信号的交叉混合和非线性处理来修改m声道下混信号(X)以获得经修改的下混信号(D)的装置;以及
用于在第一混合矩阵中形成下混信号和经修改的下混信号的n声道线性组合,并且将其输出为n声道上混信号(Y)的装置,其中2≤m<n;
用于在第一混合矩阵中接收一个或更多个混合参数(α1、α2、α3、β1、β2、β3、g、k1、k2)以便对由第一混合矩阵执行的线性组合中的至少一个增益进行控制的装置,并且其中混合参数具有量化格式;其中
n声道上混信号包括作为下混信号和经修改的下混信号两者的线性组合而获得的一组声道;并且其中
在由第一混合矩阵执行的线性组合中,为了获得所述一组声道而施加的所有增益是混合参数中的一个或更多个混合参数的多项式,其中每个多项式的阶数小于或等于2。
25.如权利要求24所述的空间合成设备,其中m=2且n=6。
CN201380010478.6A 2012-02-24 2013-02-22 音频处理 Active CN104160442B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261603001P 2012-02-24 2012-02-24
US61/603,001 2012-02-24
US201261645809P 2012-05-11 2012-05-11
US61/645,809 2012-05-11
PCT/EP2013/053610 WO2013124446A1 (en) 2012-02-24 2013-02-22 Audio processing

Publications (2)

Publication Number Publication Date
CN104160442A CN104160442A (zh) 2014-11-19
CN104160442B true CN104160442B (zh) 2016-10-12

Family

ID=47754490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380010478.6A Active CN104160442B (zh) 2012-02-24 2013-02-22 音频处理

Country Status (5)

Country Link
US (1) US9728194B2 (zh)
EP (1) EP2817802B1 (zh)
JP (1) JP6049762B2 (zh)
CN (1) CN104160442B (zh)
WO (1) WO2013124446A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105531761B (zh) * 2013-09-12 2019-04-30 杜比国际公司 音频解码系统和音频编码系统
SG11201602628TA (en) 2013-10-21 2016-05-30 Dolby Int Ab Decorrelator structure for parametric reconstruction of audio signals
KR102486338B1 (ko) * 2014-10-31 2023-01-10 돌비 인터네셔널 에이비 멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩
EP3222059B1 (en) 2015-02-18 2020-04-08 Huawei Technologies Co. Ltd. An audio signal processing apparatus and method for filtering an audio signal
WO2016173659A1 (en) * 2015-04-30 2016-11-03 Huawei Technologies Co., Ltd. Audio signal processing apparatuses and methods
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
EP3622509B1 (en) * 2017-05-09 2021-03-24 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1278996A (zh) * 1997-09-05 2001-01-03 雷克西康公司 5-2-5矩阵编码器和解码器系统
CN101809654A (zh) * 2007-04-26 2010-08-18 杜比瑞典公司 供合成输出信号的装置和方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6768979B1 (en) * 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
US6282631B1 (en) * 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
JP2008514098A (ja) 2004-09-22 2008-05-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャンネルオーディオ制御
SG124306A1 (en) 2005-01-20 2006-08-30 St Microelectronics Asia A system and method for expanding multi-speaker playback
ATE421845T1 (de) * 2005-04-15 2009-02-15 Dolby Sweden Ab Zeitliche hüllkurvenformgebung von entkorrelierten signalen
EP1718103B1 (en) * 2005-04-29 2009-12-02 Harman Becker Automotive Systems GmbH Compensation of reverberation and feedback
JP2006325162A (ja) 2005-05-20 2006-11-30 Matsushita Electric Ind Co Ltd バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置
CN101278598B (zh) * 2005-10-07 2011-05-25 松下电器产业株式会社 音频信号处理装置以及音频信号处理方法
KR101294022B1 (ko) * 2006-02-03 2013-08-08 한국전자통신연구원 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치
WO2009131066A1 (ja) 2008-04-21 2009-10-29 日本電気株式会社 信号分析制御及び信号制御のシステム、装置、方法及びプログラム
ES2592416T3 (es) 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
JP5919683B2 (ja) * 2011-08-29 2016-05-18 ティアック株式会社 マルチトラックレコーダ装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1278996A (zh) * 1997-09-05 2001-01-03 雷克西康公司 5-2-5矩阵编码器和解码器系统
CN101809654A (zh) * 2007-04-26 2010-08-18 杜比瑞典公司 供合成输出信号的装置和方法

Also Published As

Publication number Publication date
EP2817802B1 (en) 2016-12-07
US20160019899A1 (en) 2016-01-21
JP2015506653A (ja) 2015-03-02
EP2817802A1 (en) 2014-12-31
CN104160442A (zh) 2014-11-19
JP6049762B2 (ja) 2016-12-21
US9728194B2 (en) 2017-08-08
WO2013124446A1 (en) 2013-08-29

Similar Documents

Publication Publication Date Title
CN104160442B (zh) 音频处理
CN101930740B (zh) 使用解相关信号的多信道音频信号解码
US20210287684A1 (en) Reconstruction of audio scenes from a downmix
CN102892070B (zh) 多声道下混对象编码的增强编码和参数表示
CN104217724B (zh) 使用自适应混合变换的多声道音频编码比特流的解码
CN107408391B (zh) 解码在至少一个填充元素中具有增强的频谱带复制元数据的音频位流
CN106804023B (zh) 输入声道至输出声道的映射方法、信号处理单元和音频解码器
CN101553868B (zh) 用于处理音频信号的方法和装置
CN1910655B (zh) 构造多通道输出信号或生成下混信号的设备和方法
CN110379434B (zh) 用于参数化多声道编码的方法
CN102257563B (zh) 使用相位值平滑对下混频音频信号进行上混频的装置和方法
CN101925950B (zh) 音频编码器和解码器
CN102834863B (zh) 用于包括通用音频和语音帧的音频信号的解码器
TWI423251B (zh) 加幅聲頻訊號從第一參數界域轉碼至第二參數界域之方法和裝置
CN101356571A (zh) 多声道音频信号的时间与空间成形
CN101868821A (zh) 用于处理信号的方法和装置
CN102577384A (zh) 用相位信息和残差信息进行编码/解码的设备和方法
CN102144392A (zh) 用于多信道编码和解码的方法及设备
CN105144287A (zh) 基于对象的音频编码系统中利用旁路音频对象信号的通知响度估计的解码器、编码器及方法
CN101853660A (zh) 用于双声道提示码编码方案和类似方案的散射声音整形
CN105103225A (zh) 立体声音频编码器和解码器
CN105518775A (zh) 使用自适应相位校准的多声道降混的梳型滤波器的伪迹消除
CN104838442A (zh) 用于反向兼容多重分辨率空间音频对象编码的编码器、译码器及方法
CN101290774B (zh) 音频编码和解码系统
CN101292284A (zh) 编码解码多声道音频信号的方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant