CN1981326A

CN1981326A - 音频信号解码装置及音频信号编码装置

Info

Publication number: CN1981326A
Application number: CNA2005800226670A
Authority: CN
Inventors: 张国成; 田中直也; 梁世丰; 津岛峰生
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2004-07-02
Filing date: 2005-06-28
Publication date: 2007-06-13
Anticipated expiration: 2025-06-28
Also published as: US7756713B2; KR20070030796A; KR101120911B1; JP4934427B2; WO2006003891A1; CA2572805C; EP1768107A4; CA2572805A1; CN1981326B; EP1768107B1; JPWO2006003891A1; US20080071549A1; EP1768107A1

Abstract

现有的编码多声道音频信号进行的发明中3个主要的处理为：使用全通滤波器来生成混响信号；以调整强度为目的，在时间和频率轴上分割信号；混合被编码的双声列信号和被编码到固定的横渡频率数的原音信号。这些处理，包含着在本发明中所提及的问题。本发明，提出3个实施方式。通过使用声道间干扰性列动态地调整全通滤波器系数，从而控制混响的扩张；在时间轴上分割信号时，对低频细致地分割，对高频非细致地分割；用比特率控制用于混合的横渡频率，在原音的量化为非细致的情况下，用由声道间干扰性列所决定的比例来混合缩混信号和原音信号。

Description

音频信号解码装置及音频信号编码装置

技术领域

本发明涉及在编码处理时，从音频信号抽出双声列(binauralcue)，生成缩混信号的编码装置，以及解码处理时，把上述双声列附加于上述缩混信号来解码多声道信号的音频信号解码装置。

本发明涉及在进行编码处理中的双声列编码方法，使用QMF(Quadrature Mirror Filter：正交镜像对称滤波器)滤波器组，将多声道音频信号变换为时间-频率(T/F)表现方式。

背景技术

本发明涉及多声道音频信号的编码及解码。本发明的主要目的在于，即使比特率有限制时，也可以一边最大限度地保持数字音频信号在知觉上的品质一边进行该数字音频信号的编码。其有利之处为比特率变低时，可将传送带宽及存储容量变小。

以往，如上所述用于实现降低比特率的方法已经大量存在。

使用“MS(mid-side)立体声”的方法时，立体声声道L及R，以它们的“和”(L+R)以及“差分”(L-R)声道的形式来表现。在这些立体声声道的相关性高的情况下，“差分”信号中包含：比“和”信号少的比特、可非细致量化的重要程度低的信息。在L＝R这样极端的例子中，没有必要发送有关差分信号的信息。

使用“强度立体声”方法时，利用耳朵具有的音响心理学上的特性，对高频区域，与具有频率依赖性的比例因子一起只发送“和”信号，在解码器侧把此比例因子适用于“和”信号，合成L声道及R声道。

使用“双声列编码”的方法时，为了在解码处理中形成缩混信号，而生成双声列。双声列，譬如是声道间强度/强度差(ILD)、声道间相位/延迟差(IPD)、声道间干扰性/相关性(ICC)等。从ILD列能测定相对的信号的强度，从IPD列能测定声音到达两耳为止的时间差，从ICC列能测定类似性。一般，根据强度/强度列及相位/延迟列能控制声音的平衡和定位，根据干扰性/相关性列能控制声音的幅度和扩张。这些列成为一体，成为帮助听者在脑海中构成音响学上的场面的空间上的参数。

图1是示出使用由双声列编码的编码及解码方法的典型的编码解码器的构成的图。在编码处理中，音频信号按每帧被处理。缩混部(500)将左声道L和右声道R进行缩混，生成M＝(L+R)/2。双声列抽出模块(502)，处理L、R以及M，生成双声列。双声列抽出模块(502)通常包括时间-频率变换模块。时间-频率变换模块，将L、R以及M，变换成譬如快速傅立叶变换(FFT：Fast Fourier Transform)，修正离散余弦变换(MDCT：Modified Discrete Cosine Transform)等完全频谱表现方式，或变换成如同QMF等时间和频率的混合表现方式。代替上述方法，也可以取以频谱方式表现的L及R的平均值，从而在进行频谱变换后，从L和R生成M。双声列是可以通过在每个频谱带中分别对以上述方式所表现的L、R及M以每个频谱带为单位进行比较后获得的。

音频编码器(504)编码M信号生成压缩比特流。作为音频编码器的例子，可举出MP3(MPEG-l Audio LayerIII)、AAC(Advanced Audio Codec)等编码器。双声列在(506)中被量化之后，多路复用到已被压缩的M，形成完全的比特流。在解码处理中，多路分配器(508)把M的比特流从双声列信息中分离出来。音频解码器(510)解码M的比特流，复原缩混信号M。多声道合成模块(512)处理该缩混信号及被逆量化了的双声列，复原多声道信号。作为有关现有技术的文献，可列举以下几个文献。

非专利文献1：[1]ISO/IEC 14496-3：2001/FDAM2，“ParametricCoding for high Quality Audio”

专利文献1：[2]WO03/007656A1，“Efficient and ScalableParametric Stereo

Coding for Low Bitrate Application”

专利文献2：[3]WO03/090208A1，“Parametric Representation ofSpatial Audio”

专利文献3：[4]US6252965B1，“Multichannel Spectral MappingAudio Apparatus and Method”

专利文献4：[5]US2003/0219130A1，“Coherence-based AudioCoding and Synthesis”

专利文献5：[6]US2003/0035553A1，“Backwards-CompatiblePerceptual Coding of Spatial Cues”

专利文献6：[7]US2003/0235317A1，“Equalization For AudioMixing”

专利文献7：[8]US2003/0236583A1，“Hybrid Multi-channel/CueCoding/Decoding of Audio Signals”

现有技术[1](参照非专利文献1)中，混合缩混信号和“混响信号”来实现声音的扩张。混响信号是用Shroeder的全通链接(All-passlink)处理缩混信号而得到的。此滤波器的系数，全部在解码处理中被决定。在音频信号包括变化快的特征的情况下，为了消除过度的回音效果，对该混响信号另外进行过渡衰减处理来抑制混响(余音)的扩张。然而如此另外进行过滤处理的话，就会产生更多的计算负担。

现有技术[5](参照专利文献4)中，对ILD列和IPD列插入“随机序列”，从而实现声音的扩散性(即环绕效果)。随机序列由ICC列所控制。

图2是示出以往的标准的时间段的分割方法的图。为了计算ILD列，在现有技术[1]的方法中，把以T/F所表现的L、R及M(被“时间边界线601”所划分)分割为时间段，在每个时间段计算一个ILD。然而，这个方法不能说是完全有效利用了耳朵具有的音响心理学上的特性。

在现有技术[1]中，对缩混信号的全部频谱进行了双声列编码。但是采用这个方法不能够充分实现高比特率且“具有透明感”的音质。根据现有技术[8](参照专利文献7)，在比特率高的情况下，以低于1.5kHz低频来编码原音。但是因为用中间的比特率不能得到最适合的音质，所以用固定的横渡频率(即1.5kHz)不能说是有利的。

发明内容

本发明的目的在于改良现有技术中根据双声列编码的方法。

在本发明的实施方式1中，提出变更对混响的扩张有影响的滤波系数而直接控制混响的扩张。并且，提出通过ICC列及过渡检测模块来控制这些滤波系数。

在实施方式2中，首先把T/F表现方式按频谱方向分割为多个“频段”。使时间边界的最大容许数在每频段都不同，而且对属于高频域的频段，使时间边界的容许数变少。这样做能更细致地进行在低频域的信号的细分化，既能抑制比特率的急剧变化，又能更正确地进行强度调整。

在实施方式3中，提出横渡频率按照比特率而改变。另外，在估计原音的编码由于比特率的限制而非细致地进行的情况下，提出用低频率来混合原音信号和缩混信号。并且为了控制混合的比例，提出使用ICC列。

本发明成功再现了被压缩的原音具有的多声道独特的效果，该原音是在抽出双声列、缩混原音的编码处理中被压缩的。这样使在解码处理中，把上述双声列附加于缩混信号变得可能。

附图说明

图1是示出现有的典型的双声列编码系统的构成的图。

图2是示出针对各种各样的频率段的现有的典型的时间分割方法的图。

图3是示出关于本发明的编码装置构成的方框图。

图4是示出针对各种各样的频率段的时间分割方法的图。

图5是示出关于本发明的实施方式1的解码装置的构成的方框图。

图6是示出关于本发明的实施方式3的解码装置的构成的方框图。

图7是示出有关本发明的实施方式3的编码系统的构成的方框图。

符号说明

100变换模块

102缩混模块

104能量包络分析器(Energy envelope analyzer)

106算出IPDL(b)的模块

108算出IPDR(b)的模块

110算出ICC(b)的模块

200变换模块

202混响生成器

204过渡检测器

206、208相位调整器

210、212混合器2

214、216能量调整器

218反向变换模块

300变换模块

302混响生成器

304过渡检测器

306、308相位调整器

310、312混合器2

314、316能量调整器

318反向变换模块

320低通滤波器

322、324混合器1

326高通滤波器

400频带

402频段0

404频段2

406边界

410缩混部

411AAC编码器

412双声列编码器

413第2编码器

414AAC解码器

415预混部

416信号分离部

417混合部

418声道分离部

419相位调整部

500缩混部

502双声列抽出部

504音频编码器

506多路复用器

508多路分配器

510音频解码器

512多声道合成部

601边界

具体实施方式

(实施方式1)

以下表示的实施方式，仅例举本发明的各种各样的进步性的原理，如果是同行业者很容易理解以下表示的详细说明可以加上种种变化。因此，本发明是仅由权利要求的范围所限制，不被以下详细的具体例子所限制。

并且，在这里虽然例举双声道-单声道的例子，但是本发明不受上述限制。这可以用M个原声道以及N个缩混声道而普遍化。

图3是示出实施方式1的编码装置的构成的方框图。图3示出涉及本发明的编码处理。本实施方式的编码装置包括：变换模块100、缩混模块102、用于L(t，f)和R(t，f)的2个能量包络分析器104、算出左声道的声道间相位列IPDL(b)的模块106、算出右声道的IPDR(b)的模块108以及算出ICC(b)的模块110。变换模块(100)处理以下由时间的函数L(t)和R(t)所示出的原声道。获得各自的时间-频率表现方式L(t，f)和R(t，f)。在这里，t表示时间指标，f表示频率指标。变换模块(100)譬如是指在MPEG Audio Extension 1及2中使用的复数QMF滤波器组等。L(t，f)及R(t，f)含有连续的多个子频带，各子频带表示原信号的窄的频带。QMF滤波器组使低频率子频通过窄的频带，使高频率子频带通过宽的频带，从而能以多个阶层来构成。

缩混模块(102)处理L(t，f)及R(t，f)，生成缩混信号M(t，f)。缩混的方法有很多，本实施方式示出了使用“平均化”的方法。

在本发明中，取代ILD而采用能量列进行强度调整。为了计算能量列，左声道能量包络分析模块(104)进一步处理L(t，f)，生成能量包络EL(l，b)和BorderL。图4是示出用于调整混合后的音频声道信号的能量包络的时间-频率段的分割方法的图。如图4所示，首先将时间-频率表现方式L(t，f)在频率方向上分割为多个频带(400)。各个频带包含多个子频带。利用耳朵具有的音响心理学上的特性，低频带的子频带数比高频带的少。譬如把子频带分为频带时，可以用在音响心理学领域中广为所知的“巴克(Bark)尺度”或“临界频带”。

并且L(t，f)用BorderL在时间方向上被分割为频带(l，b)，对此计算EL(l，b)。在这里，l是时间上区分的指标，b表示频带的指标。BorderL的最适合的配置位置是，估计L(t，f)的能量的变化大，且用解码处理而形成的信号的能量变化大的时间上的位置。

在解码处理中，EL(l，b)用于缩混信号的能量包络在每个频带形成，根据相同的临界频带边界及BorderL来决定其边界。能量EL(l，b)如下定义。

(公式1)

E_{L} (l, b) = \overset{f &Subset; b}{Σ} \overset{t &Subset; l}{Σ} {| L (t, f) |}^{2}

用同样的方法，右声道能量包络分析模块(104)处理R(t，f)，生成ER(l，b)和BorderR。

为了取得左声道的声道间相位列，左声道间相位列算出模块(106)处理L(t，f)及M(t，f)，用以下的公式算出IPDL(b)。

(公式2)

IP D_{L} (b) = &angle; \overset{f &Subset; b}{Σ} \overset{t &Subset; FRAMESIZE}{Σ} L (t, f) M^{*} (t, f)

在这里，M*(t，f)表示M(t，f)的复数共轭。右声道间相位列算出模块(108)，用同样方法算出右声道的声道间相位列IPDR(b)。

(公式3)

{IPD}_{R} (b) = &angle; \overset{f &Subset; b}{Σ} \overset{t &Subset; FRAMESIZE}{Σ} R (t, f) M^{*} (t, f)

最后，在编码处理中为了算出左声道和右声道的声道间干扰性列，模块(110)处理L(t，f)和R(t，f)，用下列公式算出ICC(b)。

(公式4)

ICC (b) = \frac{| \overset{f &Subset; b}{Σ} \overset{t &Subset; FRAMESIZE}{Σ} L (t, f) R^{*} (t, f) |}{\sqrt{\overset{f &Subset; b}{Σ} \overset{t &Subset; FRAMESIZE}{Σ} L (t, f) L^{*} (t, f)} \sqrt{\overset{f &Subset; b}{Σ} \overset{t &Subset; FRAMESIZE}{Σ} R (t, f) R^{*} (t, f)}}

上述双声列全部为编码处理中的副信息的一部分。

图5是示出实施方式1解码装置的构成的方框图。本实施方式1的解码装置包括：变换模块(200)、混响生成器(202)、过渡检测器(204)、相位调整器(206、208)、混合器2(210、212)、能量调整器(214、216)及反向变换模块(218)。图5示出利用如上述所生成的双声列，可估计到的解码处理。变换模块(200)处理缩混信号M(t)，变换成时间-频率表现方式M(t，f)。本实施方式表示的变换模块(200)，是复数QMF滤波器组。

混响生成器(202)处理M(t，f)，生成被称为MD(t，f)的M(t，f)的“扩散版本”。此扩散版本，根据把“回音”插入M(t，f)，而产生更“立体声”的印象(多声道的情况下为“环绕立体声”的印象)。现有技术中，单纯利用延迟或利用分数延迟全通滤波(all-passfiltering)来生成这种混响印象的装置多数存在。本发明，为了得到混响效果使用分数延迟全通滤波。通常使用多个全通滤波器的层叠方式(做为Schroeder的全通链接而众所周知)。

(公式5)

H_{f} (z) = Π_{m = 0}^{m = L - 1} \frac{Q (f, m) z^{- d (m)} - slope (f, m)}{1 - slope (f, m) Q (f, m) z^{- d (m)}}

在这里，L表示链接的数量，d(m)表示各自链接的滤波器的乘方。通常这些被构成为互质数。Q(f，m)表示提高回音密度的分数延迟，slope(f，m)控制混响的衰减率。slope(f，m)越大混响的衰减越小。有关这些参数设计的具体处理为本发明的范围外。在现有的技术中，这些参数不受双声列控制。

现有技术中混响衰减率的控制方法，并不对所有信号的特征最适合。譬如由变化快的信号“尖峰信号波形”构成的信号，为了避免回音效果过剩最好混响少。现有技术中采用过渡衰减装置，另在某种程度上抑制了混响。

最后的问题是，原音是真正的“单声”的情况下(譬如a monospeech)，混响过剩的话，被解码的信号和原音可能听起来有很大差异。为了解决这个问题的现有技术和装置不存在。

本发明，用ICC列适应性地控制slope(f，m)参数。为了应对上述问题，如下述使用new_slope(f，m)来代替slope(f，m)。

(公式6)

H_{f} (z) = Π_{m = 0}^{m = L - 1} \frac{Q (f, m) z^{- d (m)} - new_slope (f, m)}{1 - new_slope (f, m) Q (f, m) z^{- d (m)}}

在这里，new_slope(f，m)作为过渡检测模块(204)的输出函数被定义，ICC(b)被定义如下。

(公式7)

new_slope(f，m)＝slope(f，m)*(1-α·ICC(b))*Tr_flag(b)

在这里a是调谐参数。在信号的对象帧是真正的单声的情况下，评价该帧的右声道和左声道之间的相关性的ICC(b)会变得相当高。为了减少混响，使slope(f，m)根据(1-ICC(b))大幅度地降低。并且相反的情况下也一样。

在信号中的对象帧是由变化急速的信号尖峰信号波所构成的情况下，过渡检测模块(204)为了降低slope(f，m)，将0.1等微小的Tr_flag(b)还给混响生成器。根据这个能减少混响。另一方面，是变化平稳的信号的情况时，过渡检测模块(204)将象0.99那样的大的Tr_flag(b)的值还给混响生成器。根据这个可以保持希望的混响量。能够在解码处理中分析M(t，f)而生成Tr_flag(b)。或也能够在编码处理中生成Tr_flag(b)，并作为副信息发送给解码处理侧。

z区域中被表示的混响信号MD(t，f)，是将M(t，f)和Hf(z)进行卷积运算而生成的(卷积运算是指在z区域中的乘法)。

(公式8)

M_D(z，f)＝M(z，f)*H_f(z)

Lreverb(t，f)和Rreverb(t，f)，分别是将相位IPDL(b)和IPDR(b)通过相位调整模块(206)和(208)附加于MD(t，f)而生成的。通过进行此处理，能够恢复在编码处理中的原音和缩混信号的相位关系。

适用公式如下。

(公式9)

L_reverb(t，f)＝M_D(t，f)*e^IPDL(b)

R_reverb(t，f)＝M_D(f，f)*e^IPDR(b)

在这里被附加的相位，使用以前被处理过的音频帧的相位，在附加它们之前能对它们进行插值。譬如在Lreverb(t，f)的情况下，左声道相位调整模块(208)的公式变更为如下。

(公式10)

L_reverb(t，f)＝M_D(t，f)*a_-2e^{IPDL(fr-2，b)}+α_-1e_{IPDL(fr-1，b)}+α₀e^IPDL(fr，b)}

在这里，a-2，a-1及a0是插值系数，fr表示音频帧的指标。通过插值，能防止Lreverb(t，f)的相位急剧变化，声音全体稳定。

右声道相位调整模块(206)也同样进行插值，从MD(t，从f)生成Rreverb(t，f)。

Lreverb(t，f)和Rreverb(t，f)通过左声道能量调整模块(214)、右声道能源调整模块(216)而形成。通过此形成，使得在由BorderL、BorderR、或(如图4所示)规定的频率段的边界所划分的各种各样的频带中的能量包络，成为和原音的能量包络类似。关于左声道来说明的话，针对频带(l，b)如下计算增益系数GL(l，b)。

(公式11)

G_{L} (l, b) = \sqrt{\frac{E_{L} (l, b)}{\overset{t &Subset; t}{Σ} \overset{f &Subset; b}{Σ} {| L_{reverb} (t, f) |}^{2}}}

其次对于该频带中所有采样，Lreverb(t，f)乘以增益系数。右声道能源调整模块(216)对右声道进行同样的处理。

(公式12)

L_adj(t，f)＝L_reverb(t，f)*G_L(l，b)

R_adj(t，f)＝R_reverb(t，f)*G_R(l，b)

因为Lreverb(t，f)和Rreverb(t，f)不过是人工的混响信号，所以根据情况不同，就将它们直接作为多声道信号使用的话可能不算最合适。而且为了在某种程度上减少混响，调整参数slope(f，m)来配合new_slope(f，m)，但是这不能改变以全通滤波器的顺序所决定的回音的主要成分。本发明在进行能量调整之前，在作为混合模块的左声道混合器2(210)和右声道混合器2(212)中，混合Lreverb(t，f)、Rreverb(t，f)以及缩混信号M(t，f)，来提供扩大控制幅度的选项。混响信号Lreverb(t，f)、Rreverb(t，f)以及缩混信号M(t，f)的比例，由ICC(b)控制，譬如下述。

(公式13)

L_reverb(t，f)＝(1-ICC(b))*L_reverb(t，f)+ICC(b)*M(t，f)

R_reverb(t，f)＝(1-ICC(b))*R_reverb(t，f)+ICC(b)*M(t，f)

ICC(b)表示左声道和右声道间的相关关系。上述公式，在相关性高的情况下，把更多的M(t，f)和Lreverb(t，f)以及Rreverb(t，f)混合。并且相反的情况也一样。

模块(218)将被进行能量调整了的Ladj(t，f)和Radj(t，f)逆变换，生成在时间轴上的信号。在这里采用逆QMF处理。在多阶层QMF的情况下，有必要涉及数阶层进行逆变换处理。

(实施方式2)

实施方式2涉及图3示出的能量包络分析模块(104)。图2示出的分割方法例中，没能利用耳朵具有的音响心理学上的特性。于是本实施方式中如图4所示，利用对高频率的声音灵敏度低这一耳朵的特性，对低频率进行细致分割，对高频率降低分割的精度。

为了实现这个，将L(t，f)的频带，进一步分割为“频段”(402)。图4表示从频段0(402)～频段2(404)为止的3个频段。高频率段，譬如最多只能有1个边界(404)，根据这个该频率段被分割为2部分。为了进一步节减比特数，不允许分割最高频的频率段。在这样的情况下，对此频段利用现有技术中有名的“强度立体声”。分割的精度，越向耳朵的灵敏度变得高的低频段而变得越高。

副信息的一部分也可以成为频段的边界，也可以根据编码的比特率事先定好。但是各频段时间的边界(406)成为副信息BorderL的一部分。

另外，对象帧的第一边界没有必要一定是那个帧开始的边界。可以使连续的2个帧，共有跨过多个帧边界的同一能量包络。在这种情况下，为了使此处理成为可能，需要进行2个音频帧的缓冲。

(实施方式3)

在比特率高的情况下，只是使用混响信号导出多声道信号，不能够获得高比特率所期待的透明度。因此，在实施方式3，进行了非细致量化的差分信号Llf(t)和Rlf(t)与缩混信号分别编码后送到解码装置，并对从缩混信号分离出的音频声道信号和原音声道信号的偏差用解码装置来进行校正。图6是示出实施方式3的解码装置构成的方框图。同图中，虚线围着的部分是信号分离部，它把在混合器1(322，324)进行预混所得的用于对预混声道信号的相位进行调整的Lreverb、Rreverb，在混响生成器(302)中从缩混信号进行分离。此解码装置包括：上述的信号分离部、变换模块(300)、混合器1(322、324)，低通滤波器(320)、混合器2(310、312)、能量调整器(314、316)以及逆变换模块(318)。图6中表示的本实施方式3的解码装置，对进行了非细致量化的多声道信号和在低频域的混响信号进行混合。进行非细致量化是因为比特率有限制。

进行了非细致量化的Llf(t)和Rlf(t)，在作为QMF滤波器组的变换模块(300)中，与缩混信号M(t)一起，被进行时间-频率变换，分别表现为Llf(t，f)和Rlf(t，f)。到达通过低频过滤器(320)决定的某一定的横渡频率fx为止，作为预混模块的左侧混合器1(322)及右侧混合器1(324)，分别把右声道Rlf(t，f)和左声道Llf(t，f)附加于缩混信号M(t，f)进行预混。根据这个，生成预混声道信号LM(t，f)和RM(t，f)。譬如进行下述预混。

(公式14)

L_M(t，f)＝(1-ICC(b))*L_lf(t，f)+ICC(b)*M(t，f)

R_M(t，f)＝(1-ICC(b))*R_lf(t，f)+ICC(b)*M(t，f)

在这里，ICC(b)表示声道间的相关，表示Llf(t，f)和Rlf(t，f)分别与M(t，f)进行混合的比例。譬如，ICC(b)＝1时，ICC(b)表示进行了非细致量化并变换为时间-频率表现方式后的Llf(t，f)和Rlf(t，f)，分别和M(t，f)非常相似。即ICC(b)＝1时，只用M(t，f)就能高精度地复原混合声道信号LM(t，f)和RM(t，f)。

针对比横渡频率fx高频的频域的以后的处理步骤，和图4中示出的实施方式2相同。对Llf(t)和Rlf(t)进行非细致量化的方法之一如下，

(公式15)

L_lf(t)＝L(t)-M(t)

R_lf(t)＝R(t)-M(t)

对Llf(t)和Rlf(t)计算差分信号，只对到应对音响心理学模型而决定的fx为止的主要的频率成分进行编码。为了进一步降低比特率，可以采用规定的量化步骤。另外，上述的公式15，计算Llf(t)＝L(t)-M(t)、Rlf(t)＝R(t)-M(t)作为差分信号，但是本发明不受此限定。譬如代替上述算式15中的M(t)，也可以将分离后的各声道信号减去。即也可以算出Llf(t)＝L(t)-Lreverb(t)、Rlf(t)＝R(t)-Rreverb(t)后，将Llf(t)、Rlf(t)加在分离后的各声道信号中来补正信号的偏差。

低通滤波器(320)及高通滤波器(326)用的横渡频率fx是比特率的函数。在比特率非常低这样的极端情况下，用于进行Llf(t)和Rlf(t)的量化的比特率不充分，因此不能进行混合。譬如fx为零的情况下。在实施方式3中，只针对比fx更高的高频进行双声列编码。

图7是示出包括本实施方式3的编码装置和解码装置的编码系统构成的方框图。实施方式3的编码系统在编码侧包括：缩混部(410)、AAC编码器(411)、双声列编码器(412)和第2编码器(413)；在解码侧包括：AAC解码器(414)、预混部(415)、信号分离部(416)和混合部(417)。信号分离部(416)包括声道分离部(418)和相位调整部(419)。

缩混部(410)譬如与图1表示的缩混部(102)同样。譬如缩混部(410)生成由M(t)＝(L(t)+R(t))/2所表示的缩混信号。这样生成的缩混信号M(t)在AAC编码器(411)中，被进行修正离散余弦(MDCT)变换，以每个子频带为单位被量化，被可变长编码，编入编码位流。

双声列编码器(412)，由QMF将音频声道L(t)、R(t)及M(t)先变换成时间-频率表现方式后，对各自的声道信号进行比较，算出双声列。双声列编码器(412)将算出的双声列编码后使其多路复用为代码串。

并且第2编码器(413)，譬如算出公式15所示的右声道信号R(t)和左声道信号L(t)分别与缩混信号M(t)的差分信号Llf(t)和Rlf(t)，并在非细致地量化后进行编码。第2编码器(413)，不一定必须以与AAC编码器(411)同样的编码形式进行编码。

AAC解码器(414)将用AAC方式编码的缩混信号进行解码之后，把被解码的缩混信号用QMF变换为时间-频率表现方式M(t，f)。

信号分离部(416)包括声道分离部(418)和相位调整部(419)。声道分离部(418)把被双声列编码器(412)编码的双声列参数和被第2编码器(413)编码的差分信号Llf(t)、Rlf(t)解码后，将差分信号Llf(t)、Rlf(t)变换为时间-频率表现方式。此后，声道分离部(418)、譬如按照ICC(b)，对作为AAC解码器(414)的输出的缩混信号M(t，f)和被变换为时间-频率表现方式的差分信号Llf(t，f)、Rlf(t，f)进行预混，将由此得出的预混声道信号LM、RM输出到混合部417。

相位调整部(419)对缩混信号M(t，f)进行了必要的混响成分的生成和附加之后，调整此相位，作为相位调整信号Lrev和Rrev输出到混合部(417)。

混合部(417)关于左声道，将预混声道信号LM和相位调整信号Lrev进行混合，对所得的混合信号进行逆QMF，输出以时间的函数表示的输出信号L″。另外，关于右声道，将预混声道信号RM和相位调整信号Rrev进行混合，对所得到的混合信号进行逆QMF，输出以时间的函数表示的输出信号R″。

并且在对上述图7所示的编码系统中，也可以将左右的差分信号Llf(t)、Rlf(t)做为原音声道信号L(t)、R(t)和根据相位调整得到的输出信号Lrev(t)、Rlf(t)的差分。即也可以做为Llf(t)＝L(t)-Lrev(t)，Rlf(t)＝R(t)-Rrev(t)。

本发明可以适用于家庭剧院系统、车辆音频系统、电子游戏系统等。

Claims

1、一种音频信号解码装置，对缩混多个音频声道信号所得到的缩混声道信号进行解码，得出上述多个音频声道信号，其特征在于，包括：

缩混信号变换单元，把缩混声道信号变换成沿着频率轴被分割了的多个频带中的时间-频率表现方式；

音频声道信号变换单元，把被量化为低比特量的音频声道信号变换为上述时间-频率表现方式；

预混单元，把变换后的上述缩混声道信号和变换后的上述音频声道信号按上述每个频带进行预混，从而生成预混声道信号；

混合单元，把上述缩混声道信号和被生成了的上述预混声道信号按上述每个频带进行混合，从而生成混合声道信号，上述缩混声道信号根据表示音频声道信号间的空间特征的空间音频信息，被进行了规定处理；以及

混合声道信号变换单元，把上述混合声道信号变换为多个上述音频声道信号。

2、根据权利要求1所述的音频信号解码装置，其特征在于，

针对按时间轴方向的边界和频率方向的边界而被划分了的区域，分别给予上述空间音频信息。

3、根据权利要求2所述的音频信号解码装置，其特征在于，

上述时间方向的边界的数量，按频率方向所设定的频段的不同而不同。

4、根据权利要求1所述的音频信号解码装置，其特征在于，

上述空间音频信息进一步包括表示声道间干扰性的成分，

上述混合单元，根据上述表示声道间干扰性的成分所表示的比例来进行混合。

5、根据权利要求4所述的音频信号解码装置，其特征在于，

根据上述空间音频信息的规定处理包括针对缩混信号生成并附加混响成分的处理；

生成混响成分的上述处理，由上述表示声道间干扰性的成分来控制。

6、根据权利要求1所述的音频信号解码装置，其特征在于，

为了在所有频带导出上述混合声道信号的增益系数，算出上述混合声道信号的能量，并将上述增益系数和上述频带中的混合信号相乘。

7、根据权利要求1所述的音频信号解码装置，其特征在于，

到一定的上限频率为止的上述音频声道信号，被量化为低比特量之后，被进行编码。

8、根据权利要求4所述的音频信号解码装置，其特征在于，

上述上限频率，按照编码的比特率而被决定。

9、根据权利要求1所述的音频信号解码装置，其特征在于，

上述预混是对到上述上限频率为止的时间-频率信号进行的预混。

10、根据权利要求1所述的音频信号解码装置，其特征在于，

上述混合是对比上述上限频率更高的频域的时间-频率信号进行的。

11、根据权利要求1所述的音频信号解码装置，其特征在于，

上述缩混信号变换单元以及音频声道信号变换单元是正交镜像对称滤波器(QMF)单元，上述混合声道信号变换单元是逆正交镜像对称滤波器(逆QMF)单元。

12、一种音频信号编码装置，把多个音频声道信号与空间音频信息一起进行编码，上述空间音频信息表示上述音频声道信号间的空间特征，其特征在于，包括：

缩混单元，把多个上述音频声道信号进行缩混，从而生成缩混声道信号；

信号变换单元，把多个上述音频声道信号和被生成了的上述缩混声道信号变换为沿着频率轴被分割了的多个频带中的时间-频率表现方式；

空间音频信息算出单元，在每个规定的时间-频域中，比较多个上述音频声道信号，并算出上述空间音频信息；

第1编码单元，把上述缩混声道信号和上述空间音频信息进行编码；以及

第2编码单元，把多个上述音频声道信号量化为低比特量后，进行编码。

13、根据权利要求12所述的音频信号编码装置，其特征在于，

上述时间-频域的时间边界，被配置在上述音频声道信号及上述缩混声道信号中任一种信号的能量发生急剧变化的时间上的位置。

14、根据权利要求12所述的音频信号编码装置，其特征在于，

上述空间音频信息，按照由上述时间边界和上述频率的边界所划分的每个区域被算出。

15、根据权利要求12所述的音频信号编码装置，其特征在于，

上述空间音频信息中，表示声音传达到两耳的时间差的成分，按照每个音频声道的频带被算出。

16、根据权利要求12所述的音频信号编码装置，其特征在于，

上述空间音频信息中，表示上述音频声道信号间的干扰性的成分，作为上述多个音频声道信号的相关性被算出。

17、一种音频信号解码方法，对缩混多个音频声道信号所得到的缩混声道信号进行解码，得出上述多个音频信号，其特征在于，

把缩混声道信号变换为沿着频率轴被分割了的多个频带中的时间-频率表现方式；

把被量化为低比特量的音频声道信号变换为上述时间-频率表现方式；

把变换后的上述缩混声道信号和变换后的上述音频声道信号按上述每个频带进行预混，从而生成预混声道信号；

把上述缩混声道信号和被生成了的上述预混声道信号按上述每个频带进行混合，从而生成混合声道信号，上述缩混声道信号根据表示音频声道信号间的空间特征的空间音频信息，被进行了规定处理；

把上述混合声道信号变换为多个上述音频声道信号。

18、一种音频信号编码方法，把多个音频声道信号与空间音频信息一起进行编码，上述空间音频信息表示上述音频声道信号间的空间特征，其特征在于，

缩混多个上述音频声道信号从而生成缩混声道信号；

把多个上述音频声道信号和被生成了的上述缩混声道信号，变换为沿着频率轴被分割了的多个频带中的时间-频率表现方式；

在每个规定的时间-频域中，比较多个上述音频声道信号，并算出上述空间音频信息；

将上述缩混声道信号和上述空间音频信息进行编码；

把多个上述音频声道信号量化为低比特量之后，进行编码。

19、一种程序，用于对缩混多个音频声道信号所得到的缩混声道信号进行解码，得出上述多个音频声道信号的音频信号解码装置的程序，使计算机执行下述步骤：

变换步骤，把缩混声道信号变换为沿着频率轴被分割了的多个频带中的时间-频率表现方式；

另一变换步骤，把被量化为低比特量的音频声道信号变换为上述时间-频率表现方式；

预混声道信号生成步骤，把变换后的上述缩混声道信号和变换后的上述音频声道信号按上述每个频带进行预混，生成预混声道信号；

混合声道信号生成步骤，把上述缩混声道信号和被生成了的上述预混声道信号按上述每个频带进行混合，从而生成混合声道信号，上述缩混声道信号根据表示音频声道信号间的空间特征的空间音频信息，被进行了规定处理；以及

又一变换步骤，把上述混合声道信号变换为多个上述音频声道信号。

20、一种程序，用于把多个音频声道信号与空间音频信息一起进行编码的音频信号编码装置的程序，上述空间音频信息表示上述音频声道信号间的空间特征，使计算机执行下述步骤：

缩混声道信号生成步骤，把多个上述音频声道信号进行缩混，从而生成缩混声道信号；

变换步骤，把多个上述音频声道信号和被生成的上述缩混声道信号变换为沿着频率轴被分割了的多个频带中的时间-频率表现方式；

算出步骤，在每个规定的时间-频域中，比较多个上述音频声道信号，并算出上述空间音频信息；

一编码步骤，把上述缩混声道信号和上述空间音频信息进行编码；以及

另一编码步骤，把多个上述音频声道信号量化为低比特量后，进行编码。

21、一种计算机可读取的记录媒体，记录有用于使计算机执行下述步骤的程序：

预混声道信号生成步骤，把变换后的上述缩混声道信号和变换后的上述音频声道信号按每个上述频带进行预混，从而生成预混声道信号；

22、一种计算机可读取的记录媒体，记录有用于使计算机执行下述步骤的程序：