背景技术
很长时间以来,例如在家庭环境中音乐的立体声重现一直很流行。在1970年代,进行了家庭音乐设备的某些四通道实验。
在诸如电影院那样的较大的大厅内,声音的多通道重现存在了很长时间。Dolby Digital
(杜比数字)和其它系统被开发用于在大厅中提供逼真的和感人的声音重现。
这样的多通道系统被引入到家庭影院,并且引起广泛的兴趣。因此,具有五个全范围通道和一个部分范围通道或低频效果(LFE)通道的系统,被称为5.1系统,在现今的市场上是很流行的。也存在其它的系统,诸如2.1、4.1、7.1和甚至8.1系统。
随着SACD和DVD的引入,多通道音频重现具备了基础。许多消费者已经有可能在他们的家中进行多通道重放,而多通道源材料正变得很流行。然而,许多人仍旧只有2通道重现系统,以及传输通常是经由2通道进行的。为此,例如像Dolby Surround
(杜比环绕声)那样的矩阵运算技术被开发,使得有可能经由2通道进行多通道传输。所传送的信号可以通过2通道重现系统直接被重放。当可得到适当的译码器时,多通道重放是可能的。熟知的用于这一用途的译码器是DolbyPro Logic
(I和II),(Kenneth Gundry,“A new active matrix decoderfor surround sound”(环绕声用的新型有源矩阵译码器),见于Proc.AES19
th International Conference on Surround Sound,June 2001)和CircleSurround
(I和II),(美国专利No.6,198,827:5-2-5矩阵系统)。
因为多通道材料的增加的流行性,多通道材料的有效的编码变得越来越重要。矩阵运算减少了对传输所需的音频通道数,从而减小所需带宽或比特率。矩阵技术的额外的优点在于,它与立体声重现系统是后向兼容的。为了进一步减小比特率,可以应用传统的音频编码器来对矩阵运算的立体声信号编码。
减小比特率的另一个可能性是对未经过矩阵运算的所有各个通道编码。这个方法导致较高的比特率,因为必须对五个通道编码而不是两个通道,但空间重建比起通过应用矩阵运算更接近于原始的声音。
在原理上,矩阵运算过程是有损运算。所以,仅根据2通道混合重建成完美的5通道通常是不可能的。这个特性限制了5通道重建的最大感觉质量。
最近,开发了一种把多通道音频编码为2通道立体声音频信号和少量空间参数或编码器信息参数P的系统。因此,这个系统对立体声重现是后向兼容的。所传送的空间参数或编码器信息参数P确定了译码器应当如何根据可得到的二通道立体声下混合信号来重建五通道。由于上混合过程由所传送的参数所控制,5通道重建的感觉质量与没有控制参数的上混合算法(例如,Dolby Pro Logic)相比得到了很大的改进。
总之,三种不同的方法可用来根据提供的二通道混合生成5通道重建:
1)盲重建。这个试图仅仅根据信号特性来估计上混合矩阵,而不用任何提供的信息。
2)矩阵运算技术,例如Dolby Pro Logic。通过应用某个下混合矩阵,由于由所应用的下混合矩阵确定的某些信号特性,从2到5通道的重建可被改进。
3)参数控制的上混合。在这个方法中,编码器信息参数P典型地被存储在比特流的附属部分,保证与通常的重放系统的后向兼容性。然而,这些系统通常是不与矩阵运算系统后向兼容的。
把上述的方法2和3组合成单个系统可能是有趣的。取决于可得到的译码器,这保证最高质量。对于具有诸如Dolby Pro Logic或CircleSurround的矩阵环绕译码器的消费者,重建是按照矩阵运算过程得到的。如果得到这样的译码器,它能够解译传送的参数,则可以得到更高质量的重建。不具有矩阵环绕声译码器或能够解译空间参数的译码器的消费者仍然可以享受立体声后向兼容性。然而,组合方法2和3的一个问题是,实际传送的立体声下混合将被修改。这对使用空间参数的5通道重建又可能具有有害的影响。
发明内容
本发明的目的是提供一种允许把参数化多通道音频编码与矩阵运算编码技术相组合的方法,利用该方法可以实现完全质量的多通道重建而与可得到的译码器无关。
按照本发明,这个目的是通过处理包括第一与第二立体声信号的立体声下混合信号的方法而达到的,该立体声下混合信号与相关的空间参数对N通道音频信号进行编码,该方法包括以下步骤:
把第一与第三信号相加以得到第一输出信号,其中所述第一信号包括由第一复数函数修改的所述第一立体声信号,和其中所述第三信号包括由第三复数函数修改的所述第二立体声信号;以及
把第二与第四信号相加以得到第二输出信号,其中所述第四信号包括由第四复数函数修改的所述第二立体声信号,和其中所述第二信号包括由第二复数函数修改的所述第一立体声信号;
其中所述复数函数是所述空间参数的函数,并且被选择成使得在第一信号与第二信号之间的差值的能量值大于或等于第一与第二信号的总和的能量值,并使得在第四信号与第三信号之间的差值的能量值大于或等于第四与第三信号的总和的能量值。因此,使得能在译码器中进行前/后操控。
这些差信号与和信号的能量值可以是基于2-模方(2-norm)(即,遍及多个样本的平方和)或这些信号的绝对值。另外,这里可以应用其它传统的能量测量值。
在本发明的实施例中,N通道音频信号包括前通道信号和后通道信号,以及所述空间参数包括在立体声下混合中的后通道相对于这里的前通道的贡献的相对贡献的度量。这是因为选择后通道贡献是必须的。
所述第二复数函数的幅度可以小于所述第一复数函数的幅度,以使得能进行左/右后操控,和/或所述第三复数函数的幅度小于所述第四复数函数的幅度。
第二复数函数和/或第三复数函数可以包括基本上等于正或负90度的相移,以防止信号与前通道贡献抵销。
在本发明的另一个实施例中,所述第一函数包括第一与第二函数部分,其中当所述空间参数表明在所述第一立体声信号中的后通道的贡献比起前通道的贡献增加时,所述第二函数部分的输出增加,以及所述第二函数部分包括基本上等于正或负90度的相移。这是为了防止信号与前通道相抵销。另外,所述第四函数可包括第三与第四函数部分,其中当所述空间参数表明在所述第二立体声信号中的后通道的贡献比起前通道的贡献增加时,所述第四函数部分的输出增加,以及所述第四函数部分包括基本上等于正或负90度的相移。
第一函数部分与所述第四函数部分相比较时可以具有相反的正负号。第二函数部分与所述第三函数部分相比较时可以具有相反的正负号。第二函数部分与第四函数部分可以具有相同的正负号,以及第三函数部分与第二函数部分可以具有相同的正负号。
本发明的另一方面,提供了用于按照上述的方法处理立体声信号的装置,以及一个包括这样的装置的编码器。
本发明的另一方面,提供了用于处理包括第一与第二立体声信号的立体声下混合信号的方法,该方法包括按照上述的方法颠倒进行处理操作的步骤。
本发明的另一方面,提供了用于按照上述的处理立体声下混合信号的方法处理立体声下混合信号的装置,以及包括这样的装置的编码器。
本发明的再一个方面,提供了包括这样的编码器设备和这样的译码器设备的音频系统。
具体实施方式
本发明方法能够使得矩阵译码成为可能,而不恶化参数化多通道重建。这是可能的,因为在下混合后在编码器中应用矩阵运算技术,这与通常在下混合以前完成矩阵运算相反。下混合的矩阵运算由空间参数控制。
如果所应用的矩阵是可逆的,则译码器可以根据所传送的编码器信息参数P取消该矩阵运算。
传统上,矩阵运算是施加到原始的N通道输入信号上的。然而,这个方法在这里是不适用的,因为对于N通道正确重建所必须的对这种矩阵运算的求逆通常是不可能的,因为在译码器处可供使用的只有2个通道。因此,本发明的一个特点是用二通道混合的参数控制的修改方案来替代通常被施加到5通道混合的矩阵运算技术。
图1是引用本发明的编码器/译码器的音频系统的框图。在音频系统1中,N通道音频信号被提供给编码器2。编码器2把N通道音频信号变换为立体声通道信号L0和R0以及编码器信息参数P,译码器3通过该编码器信息参数P可以对信息译码和近似地重建原先的N通道信号以供译码器3输出。N通道信号可以是用于5.1系统的信号,包括中心通道、两个前通道、两个环绕通道和低频效果(LFE)通道。
传统上,编码的立体声通道信号L0和R0以及编码器信息参数P以适当的方式,诸如CD、DVD、广播、激光光盘、DBS、数字电缆、互联网或任何其它传输或分发系统,传送或分发给用户,如用图1的圆圈4表示的。由于传送或分发的是左和右立体声信号L0和R0,系统1与大量只能重现立体声信号的接收设备是兼容的。如果接收设备包括参数化多通道译码器,则译码器可以根据在立体声通道L0和R0中的信息和编码器信息参数P来提供它们的估值而对N通道信号译码。
现在,假设一个N通道音频信号,N是大于2的整数,以及其中z1[n],z2[n],...,zN[n]描述N通道的离散时域波形。这N个信号通过使用通常的分段方式、优选地使用重叠分析窗口而被分段。随后,每个分段通过使用复数变换(例如,FFT)而被变换成频域。然而,复数滤波器组结构也可以适用于得到时间/频率片(tile)。这个过程导致输入信号的经分段的子频带表示,被表示为Z1[k],Z2[k],...,ZN[k],其中k表示频率下标。
从这N个通道,产生2个下混合通道,即L0[k]和R0[k]。每个下混合通道是N个输入信号的线性组合:
参数αi和βi被选择成使得由L0[k]和R0[k]组成的立体声信号具有良好的立体声形像。
后处理器5可以对于最终得到的立体声信号进行处理,以使得它主要影响在立体声混合中特定的通道i的贡献。作为处理,可以选择特定的矩阵运算技术。这导致左和右矩阵可兼容的信号L0w[k]和R0w[k]。这些信号连同空间参数一起,被传送到译码器,如图1的圆圈6显示的。用于处理从编码器得到的立体声信号的装置包括后处理器5。按照本发明的编码器设备包括编码器2和后处理器5。
后处理的信号L
0w和R
0w可被提供到传统的立体声接收机(未示出),以用于重放。替换地,后处理的信号L
0w和R
0w可被提供到矩阵译码器(未示出),例如Dolby Pro Logic
译码器或Circle Surround
译码器。再一个可能性是把后处理的信号L
0w和R
0w提供到逆后处理器7,以用于取消后处理器5的处理。最终得到的信号L
0和R
0可以由后处理器7提供给多通道译码器3。用于处理立体声下混合信号的译码器包括逆后处理器7。按照本发明的译码器设备包括译码器3和逆后处理器7。
在译码器3中,N通道信号被重建为如下:
其中是Zi[k]的估值。滤波器C1,Zi和C2,Zi优选地与时间和频率有关,它们的转移函数是根据传送的编码器信息参数P而推导的。
图2显示这个后处理块5可以如何被实施,以使得矩阵译码成为可能。左输入信号L0[k]由第一复数函数g1修改,这导致第一信号L0wL[k],它被馈送到左输出L0w[k]。左输入信号L0[k]还由第二复数函数g2修改,这导致第二信号R0wL[k],它被馈送到右输出R0w[k]。函数g1和g2被选择成使得差值信号L0wL-R0wL具有等于或大于和值信号L0wL+R0wL的能量。这是因为在矩阵译码中,和值信号与差值信号的比值用来执行前/后向控制。当差值信号变为更大时,更多的输入信号被控制到后向。因为这样,当在L0[k]中左后方的贡献增加时,R0wL[k]必须增加。这个控制过程由作为空间参数P的函数的函数g1和g2完成。这些函数被选择成使得当在L0[k]中左后方的贡献增加时,左输入通道的处理量增加。
g2的幅度优选地小于g1的幅度。这允许在译码器中进行左/右后通道控制。
右输入信号R0[k]由第四函数g4修改,这导致第四信号R0wR[k],它被馈送到右输出R0w[k]。右输入信号R0[k]还由第三函数g3修改,这导致第三信号L0wR[k],它被馈送到左输出L0w[k]。函数g3和g4被选择成使得当在R0[k]中的右后方的贡献增加时,右输入通道的处理量增加,以及还使得从R0wR中减去L0wR比起它们的相加导致更大的信号。
g3的幅度优选地小于g4的幅度。这允许在译码器中进行左/右后通道控制。
输出可以藉助于以下的矩阵描述:
参数化多通道编码器在下面描述。应用了以下的公式:
L0[k]=L[k]+Cs[k]
R0[k]=R[k]+Cs[k]
其中Cs[k]是在把LFE通道和中心通道组合后得出的单声道信号。以下的公式对于L[k]和R[k]都成立:
其中Lf是左前通道,Ls是左环绕声通道,Rf是右前通道,Rs是右环绕声通道。常数c1到c4控制下混合过程,以及可以是复数值和/或与时间和频率有关。对于(c1,c3=sqrt(2);c2,c4=1)得到ITU-方式下混合。
在译码器中,执行以下的重建:
其中
是L[k]的估值,
是R[k]的估值以及
是C[k]的估值。参数β和γ在编码器中被确定,以及被传送到译码器,即,它们是编码器信息参数P的子集。另外,信息信号P可包括在相应的前通道与环绕通道之间的(相对)信号电平,即分别是在L
f,L
s与R
f,R
s之间的通道间强度差值(IID)。对于描述在L
f与L
s之间的能量比值的IID
L的一个方便的表示式被给出为:
当这些参数被使用时,图2上的方案可以用图3上的方案替代。为了处理左通道L0[k],仅仅需要确定在左输入通道中前后贡献的参数,它们是参数IIDL和β。为了处理右输入通道,仅仅需要参数IIDR和γ。函数g2现在可以用函数g3替代,但正负号相反。
在图4上,函数g1和g4都被分割成两个并行的函数部分。函数g1被分割成g11和g12。函数g4被分割成g11和-g12。函数部分g12和函数g1的输出信号是后通道的贡献。函数部分g12和函数g3在一个输出中需要以相同的正负号相加,以避免信号抵销,以及在不同的输出中以有相反的正负号。
函数部分g12和函数g3都包含正或负90度的相移。这是为了避免前通道贡献的抵销(函数部分g11的输出)。
图5给出这个方块的更详细的说明。参数wl确定L0[k]的处理量以及参数wr确定R0[k]的处理量。当wl等于0时,L0[k]不用处理,以及当wl等于1时,L0[k]有最大的处理。同样的情形对于wr相对于R0[k]也成立。
以下的归一化的公式对于后处理参数wl和wr成立:
wl=f1(P)
wr=fr(p)
方块Φ-90是执行90度移相的全通滤波器。图5上的方块G1和G2是增益。最终得到的输出是:
其中,
其中:
G1=f1(wl,wr)
G2=f2(wl,wr)
所以函数g1,...,g4用更具体的函数替代:
g1=1-wl+wlΦ-90
g2=-wlΦ-90G1
g3=wrΦ-90G2
g4=1-wr-wrΦ-90
矩阵H的逆矩阵被给出为(如果det(H)≠0):
因此,在矩阵H中使用适当的函数允许矩阵运算处理过程被颠倒。
该颠倒可以在译码器中完成而不必传送附加的信息,因为参数wl和wr可以根据传送的参数来计算。因此,原先的立体声信号将可重新得到,这对于多通道混合的参数译码是必须的。
如果增益G1和G2是在各环绕声道之间的通道间强度差值(IID)的函数,则可以得到更好的结果。在这种情形下,这个IID也必须被传送到译码器。
在给定上述的参数说明后,以下的函数用于后处理运算:
wl=f1(α1)f2(β)
wr=f3(αr)f4(γ)
这里,f1,...,f4可以是任意函数。例如:
全通滤波器Φ-90可以通过在(复数值)频域中执行与复数算子j(j2=-1)的乘法而有效地实现。对于增益G1和G2,wl和wr的函数可被取为如在Circle Surround中完成的那样,但一个其值为的常数也是适用的。这导致矩阵:
这个矩阵的行列式等于:
当wl=wr时,这个行列式的虚部将只等于零。在这种情形下,对于该行列式下式成立:
这个函数对于wl=2/3具有det(H)=1/3的最小值。
因此,对于wl=wr,这个矩阵是可逆的。所以,对于增益 矩阵H总是可逆的,与wl和wr无关。
图6是逆后处理器7的实施例的框图。像后处理那样,求逆可以通过对每个频段进行矩阵乘法而完成:
其中
因此,当可以在译码器中确定g1,...,g4时,就可以确定函数k1,...,k4。函数k1,...,k4是参数组P的函数,如函数g1,...,g4那样。因此为了求逆,需要知道函数g1,...,g4和参数组P。
当矩阵H的行列式不等于零时,即:
det(H)=g1g4-g2g3≠0
矩阵H可以求逆。
这可以通过适当地选择函数g1,...,g4而达到。
本发明的另一个应用是仅仅在译码器侧对立体声信号执行后处理操作(即,在编码器侧不进行后处理)。使用这种方法,译码器可以从未增强的立体声信号生成增强的立体声信号。仅仅在译码器侧的这个后处理操作还可以在编码器中多通道信号被译码成单个(单声道)信号和相关的空间参数的情形下被精心完成。在译码器中,单声道信号首先可以(通过使用空间参数)被变换成立体声信号,此后,这个立体声信号可以如上所述进行后处理。替换地,单声道信号可以由多通道译码器被直接译码。
应当指出,动词“包括”和它的派生物的使用不排除其它单元或步骤,以及不定冠词“一个”的使用不排除多个单元或步骤。而且,在权利要求中的标号并不被看作为限制权利要求的范围。
本发明是参照具体的实施例描述的。然而,本发明并不限于所描述的各种实施例,但可以以不同的方式被修改和组合,正如阅读本技术说明书的本领域技术人员看到的。