背景技术
本发明涉及多声道音频信号的编码及解码。本发明的主要目的在于,即使比特率有限制时,也可以一边最大限度地保持数字音频信号在知觉上的品质一边进行该数字音频信号的编码。其有利之处为比特率变低时,可将传送带宽及存储容量变小。
以往,如上所述用于实现降低比特率的方法已经大量存在。
使用“MS(mid-side)立体声”的方法时,立体声声道L及R,以它们的“和”(L+R)以及“差分”(L-R)声道的形式来表现。在这些立体声声道的相关性高的情况下,“差分”信号中包含:比“和”信号少的比特、可非细致量化的重要程度低的信息。在L=R这样极端的例子中,没有必要发送有关差分信号的信息。
使用“强度立体声”方法时,利用耳朵具有的音响心理学上的特性,对高频区域,与具有频率依赖性的比例因子一起只发送“和”信号,在解码器侧把此比例因子适用于“和”信号,合成L声道及R声道。
使用“双声列编码”的方法时,为了在解码处理中形成缩混信号,而生成双声列。双声列,譬如是声道间强度/强度差(ILD)、声道间相位/延迟差(IPD)、声道间干扰性/相关性(ICC)等。从ILD列能测定相对的信号的强度,从IPD列能测定声音到达两耳为止的时间差,从ICC列能测定类似性。一般,根据强度/强度列及相位/延迟列能控制声音的平衡和定位,根据干扰性/相关性列能控制声音的幅度和扩张。这些列成为一体,成为帮助听者在脑海中构成音响学上的场面的空间上的参数。
图1是示出使用由双声列编码的编码及解码方法的典型的编码解码器的构成的图。在编码处理中,音频信号按每帧被处理。缩混部(500)将左声道L和右声道R进行缩混,生成M=(L+R)/2。双声列抽出模块(502),处理L、R以及M,生成双声列。双声列抽出模块(502)通常包括时间-频率变换模块。时间-频率变换模块,将L、R以及M,变换成譬如快速傅立叶变换(FFT:Fast Fourier Transform),修正离散余弦变换(MDCT:Modified Discrete Cosine Transform)等完全频谱表现方式,或变换成如同QMF等时间和频率的混合表现方式。代替上述方法,也可以取以频谱方式表现的L及R的平均值,从而在进行频谱变换后,从L和R生成M。双声列是可以通过在每个频谱带中分别对以上述方式所表现的L、R及M以每个频谱带为单位进行比较后获得的。
音频编码器(504)编码M信号生成压缩比特流。作为音频编码器的例子,可举出MP3(MPEG-l Audio LayerIII)、AAC(Advanced Audio Codec)等编码器。双声列在(506)中被量化之后,多路复用到已被压缩的M,形成完全的比特流。在解码处理中,多路分配器(508)把M的比特流从双声列信息中分离出来。音频解码器(510)解码M的比特流,复原缩混信号M。多声道合成模块(512)处理该缩混信号及被逆量化了的双声列,复原多声道信号。作为有关现有技术的文献,可列举以下几个文献。
非专利文献1:[1]ISO/IEC 14496-3:2001/FDAM2,“ParametricCoding for high Quality Audio”
专利文献1:[2]WO03/007656A1,“Efficient and ScalableParametric Stereo
Coding for Low Bitrate Application”
专利文献2:[3]WO03/090208A1,“Parametric Representation ofSpatial Audio”
专利文献3:[4]US6252965B1,“Multichannel Spectral MappingAudio Apparatus and Method”
专利文献4:[5]US2003/0219130A1,“Coherence-based AudioCoding and Synthesis”
专利文献5:[6]US2003/0035553A1,“Backwards-CompatiblePerceptual Coding of Spatial Cues”
专利文献6:[7]US2003/0235317A1,“Equalization For AudioMixing”
专利文献7:[8]US2003/0236583A1,“Hybrid Multi-channel/CueCoding/Decoding of Audio Signals”
现有技术[1](参照非专利文献1)中,混合缩混信号和“混响信号”来实现声音的扩张。混响信号是用Shroeder的全通链接(All-passlink)处理缩混信号而得到的。此滤波器的系数,全部在解码处理中被决定。在音频信号包括变化快的特征的情况下,为了消除过度的回音效果,对该混响信号另外进行过渡衰减处理来抑制混响(余音)的扩张。然而如此另外进行过滤处理的话,就会产生更多的计算负担。
现有技术[5](参照专利文献4)中,对ILD列和IPD列插入“随机序列”,从而实现声音的扩散性(即环绕效果)。随机序列由ICC列所控制。
图2是示出以往的标准的时间段的分割方法的图。为了计算ILD列,在现有技术[1]的方法中,把以T/F所表现的L、R及M(被“时间边界线601”所划分)分割为时间段,在每个时间段计算一个ILD。然而,这个方法不能说是完全有效利用了耳朵具有的音响心理学上的特性。
在现有技术[1]中,对缩混信号的全部频谱进行了双声列编码。但是采用这个方法不能够充分实现高比特率且“具有透明感”的音质。根据现有技术[8](参照专利文献7),在比特率高的情况下,以低于1.5kHz低频来编码原音。但是因为用中间的比特率不能得到最适合的音质,所以用固定的横渡频率(即1.5kHz)不能说是有利的。
具体实施方式
(实施方式1)
以下表示的实施方式,仅例举本发明的各种各样的进步性的原理,如果是同行业者很容易理解以下表示的详细说明可以加上种种变化。因此,本发明是仅由权利要求的范围所限制,不被以下详细的具体例子所限制。
并且,在这里虽然例举双声道-单声道的例子,但是本发明不受上述限制。这可以用M个原声道以及N个缩混声道而普遍化。
图3是示出实施方式1的编码装置的构成的方框图。图3示出涉及本发明的编码处理。本实施方式的编码装置包括:变换模块100、缩混模块102、用于L(t,f)和R(t,f)的2个能量包络分析器104、算出左声道的声道间相位列IPDL(b)的模块106、算出右声道的IPDR(b)的模块108以及算出ICC(b)的模块110。变换模块(100)处理以下由时间的函数L(t)和R(t)所示出的原声道。获得各自的时间-频率表现方式L(t,f)和R(t,f)。在这里,t表示时间指标,f表示频率指标。变换模块(100)譬如是指在MPEG Audio Extension 1及2中使用的复数QMF滤波器组等。L(t,f)及R(t,f)含有连续的多个子频带,各子频带表示原信号的窄的频带。QMF滤波器组使低频率子频通过窄的频带,使高频率子频带通过宽的频带,从而能以多个阶层来构成。
缩混模块(102)处理L(t,f)及R(t,f),生成缩混信号M(t,f)。缩混的方法有很多,本实施方式示出了使用“平均化”的方法。
在本发明中,取代ILD而采用能量列进行强度调整。为了计算能量列,左声道能量包络分析模块(104)进一步处理L(t,f),生成能量包络EL(l,b)和BorderL。图4是示出用于调整混合后的音频声道信号的能量包络的时间-频率段的分割方法的图。如图4所示,首先将时间-频率表现方式L(t,f)在频率方向上分割为多个频带(400)。各个频带包含多个子频带。利用耳朵具有的音响心理学上的特性,低频带的子频带数比高频带的少。譬如把子频带分为频带时,可以用在音响心理学领域中广为所知的“巴克(Bark)尺度”或“临界频带”。
并且L(t,f)用BorderL在时间方向上被分割为频带(l,b),对此计算EL(l,b)。在这里,l是时间上区分的指标,b表示频带的指标。BorderL的最适合的配置位置是,估计L(t,f)的能量的变化大,且用解码处理而形成的信号的能量变化大的时间上的位置。
在解码处理中,EL(l,b)用于缩混信号的能量包络在每个频带形成,根据相同的临界频带边界及BorderL来决定其边界。能量EL(l,b)如下定义。
(公式1)
用同样的方法,右声道能量包络分析模块(104)处理R(t,f),生成ER(l,b)和BorderR。
为了取得左声道的声道间相位列,左声道间相位列算出模块(106)处理L(t,f)及M(t,f),用以下的公式算出IPDL(b)。
(公式2)
在这里,M*(t,f)表示M(t,f)的复数共轭。右声道间相位列算出模块(108),用同样方法算出右声道的声道间相位列IPDR(b)。
(公式3)
最后,在编码处理中为了算出左声道和右声道的声道间干扰性列,模块(110)处理L(t,f)和R(t,f),用下列公式算出ICC(b)。
(公式4)
上述双声列全部为编码处理中的副信息的一部分。
图5是示出实施方式1解码装置的构成的方框图。本实施方式1的解码装置包括:变换模块(200)、混响生成器(202)、过渡检测器(204)、相位调整器(206、208)、混合器2(210、212)、能量调整器(214、216)及反向变换模块(218)。图5示出利用如上述所生成的双声列,可估计到的解码处理。变换模块(200)处理缩混信号M(t),变换成时间-频率表现方式M(t,f)。本实施方式表示的变换模块(200),是复数QMF滤波器组。
混响生成器(202)处理M(t,f),生成被称为MD(t,f)的M(t,f)的“扩散版本”。此扩散版本,根据把“回音”插入M(t,f),而产生更“立体声”的印象(多声道的情况下为“环绕立体声”的印象)。现有技术中,单纯利用延迟或利用分数延迟全通滤波(all-passfiltering)来生成这种混响印象的装置多数存在。本发明,为了得到混响效果使用分数延迟全通滤波。通常使用多个全通滤波器的层叠方式(做为Schroeder的全通链接而众所周知)。
(公式5)
在这里,L表示链接的数量,d(m)表示各自链接的滤波器的乘方。通常这些被构成为互质数。Q(f,m)表示提高回音密度的分数延迟,slope(f,m)控制混响的衰减率。slope(f,m)越大混响的衰减越小。有关这些参数设计的具体处理为本发明的范围外。在现有的技术中,这些参数不受双声列控制。
现有技术中混响衰减率的控制方法,并不对所有信号的特征最适合。譬如由变化快的信号“尖峰信号波形”构成的信号,为了避免回音效果过剩最好混响少。现有技术中采用过渡衰减装置,另在某种程度上抑制了混响。
最后的问题是,原音是真正的“单声”的情况下(譬如a monospeech),混响过剩的话,被解码的信号和原音可能听起来有很大差异。为了解决这个问题的现有技术和装置不存在。
本发明,用ICC列适应性地控制slope(f,m)参数。为了应对上述问题,如下述使用new_slope(f,m)来代替slope(f,m)。
(公式6)
在这里,new_slope(f,m)作为过渡检测模块(204)的输出函数被定义,ICC(b)被定义如下。
(公式7)
new_slope(f,m)=slope(f,m)*(1-α·ICC(b))*Tr_flag(b)
在这里a是调谐参数。在信号的对象帧是真正的单声的情况下,评价该帧的右声道和左声道之间的相关性的ICC(b)会变得相当高。为了减少混响,使slope(f,m)根据(1-ICC(b))大幅度地降低。并且相反的情况下也一样。
在信号中的对象帧是由变化急速的信号尖峰信号波所构成的情况下,过渡检测模块(204)为了降低slope(f,m),将0.1等微小的Tr_flag(b)还给混响生成器。根据这个能减少混响。另一方面,是变化平稳的信号的情况时,过渡检测模块(204)将象0.99那样的大的Tr_flag(b)的值还给混响生成器。根据这个可以保持希望的混响量。能够在解码处理中分析M(t,f)而生成Tr_flag(b)。或也能够在编码处理中生成Tr_flag(b),并作为副信息发送给解码处理侧。
z区域中被表示的混响信号MD(t,f),是将M(t,f)和Hf(z)进行卷积运算而生成的(卷积运算是指在z区域中的乘法)。
(公式8)
MD(z,f)=M(z,f)*Hf(z)
Lreverb(t,f)和Rreverb(t,f),分别是将相位IPDL(b)和IPDR(b)通过相位调整模块(206)和(208)附加于MD(t,f)而生成的。通过进行此处理,能够恢复在编码处理中的原音和缩混信号的相位关系。
适用公式如下。
(公式9)
Lreverb(t,f)=MD(t,f)*eIPDL(b)
Rreverb(t,f)=MD(f,f)*eIPDR(b)
在这里被附加的相位,使用以前被处理过的音频帧的相位,在附加它们之前能对它们进行插值。譬如在Lreverb(t,f)的情况下,左声道相位调整模块(208)的公式变更为如下。
(公式10)
Lreverb(t,f)=MD(t,f)*a-2eIPDL(fr-2,b)+α-1eIPDL(fr-1,b)+α0eIPDL(fr,b)}
在这里,a-2,a-1及a0是插值系数,fr表示音频帧的指标。通过插值,能防止Lreverb(t,f)的相位急剧变化,声音全体稳定。
右声道相位调整模块(206)也同样进行插值,从MD(t,从f)生成Rreverb(t,f)。
Lreverb(t,f)和Rreverb(t,f)通过左声道能量调整模块(214)、右声道能源调整模块(216)而形成。通过此形成,使得在由BorderL、BorderR、或(如图4所示)规定的频率段的边界所划分的各种各样的频带中的能量包络,成为和原音的能量包络类似。关于左声道来说明的话,针对频带(l,b)如下计算增益系数GL(l,b)。
(公式11)
其次对于该频带中所有采样,Lreverb(t,f)乘以增益系数。右声道能源调整模块(216)对右声道进行同样的处理。
(公式12)
Ladj(t,f)=Lreverb(t,f)*GL(l,b)
Radj(t,f)=Rreverb(t,f)*GR(l,b)
因为Lreverb(t,f)和Rreverb(t,f)不过是人工的混响信号,所以根据情况不同,就将它们直接作为多声道信号使用的话可能不算最合适。而且为了在某种程度上减少混响,调整参数slope(f,m)来配合new_slope(f,m),但是这不能改变以全通滤波器的顺序所决定的回音的主要成分。本发明在进行能量调整之前,在作为混合模块的左声道混合器2(210)和右声道混合器2(212)中,混合Lreverb(t,f)、Rreverb(t,f)以及缩混信号M(t,f),来提供扩大控制幅度的选项。混响信号Lreverb(t,f)、Rreverb(t,f)以及缩混信号M(t,f)的比例,由ICC(b)控制,譬如下述。
(公式13)
Lreverb(t,f)=(1-ICC(b))*Lreverb(t,f)+ICC(b)*M(t,f)
Rreverb(t,f)=(1-ICC(b))*Rreverb(t,f)+ICC(b)*M(t,f)
ICC(b)表示左声道和右声道间的相关关系。上述公式,在相关性高的情况下,把更多的M(t,f)和Lreverb(t,f)以及Rreverb(t,f)混合。并且相反的情况也一样。
模块(218)将被进行能量调整了的Ladj(t,f)和Radj(t,f)逆变换,生成在时间轴上的信号。在这里采用逆QMF处理。在多阶层QMF的情况下,有必要涉及数阶层进行逆变换处理。
(实施方式2)
实施方式2涉及图3示出的能量包络分析模块(104)。图2示出的分割方法例中,没能利用耳朵具有的音响心理学上的特性。于是本实施方式中如图4所示,利用对高频率的声音灵敏度低这一耳朵的特性,对低频率进行细致分割,对高频率降低分割的精度。
为了实现这个,将L(t,f)的频带,进一步分割为“频段”(402)。图4表示从频段0(402)~频段2(404)为止的3个频段。高频率段,譬如最多只能有1个边界(404),根据这个该频率段被分割为2部分。为了进一步节减比特数,不允许分割最高频的频率段。在这样的情况下,对此频段利用现有技术中有名的“强度立体声”。分割的精度,越向耳朵的灵敏度变得高的低频段而变得越高。
副信息的一部分也可以成为频段的边界,也可以根据编码的比特率事先定好。但是各频段时间的边界(406)成为副信息BorderL的一部分。
另外,对象帧的第一边界没有必要一定是那个帧开始的边界。可以使连续的2个帧,共有跨过多个帧边界的同一能量包络。在这种情况下,为了使此处理成为可能,需要进行2个音频帧的缓冲。
(实施方式3)
在比特率高的情况下,只是使用混响信号导出多声道信号,不能够获得高比特率所期待的透明度。因此,在实施方式3,进行了非细致量化的差分信号Llf(t)和Rlf(t)与缩混信号分别编码后送到解码装置,并对从缩混信号分离出的音频声道信号和原音声道信号的偏差用解码装置来进行校正。图6是示出实施方式3的解码装置构成的方框图。同图中,虚线围着的部分是信号分离部,它把在混合器1(322,324)进行预混所得的用于对预混声道信号的相位进行调整的Lreverb、Rreverb,在混响生成器(302)中从缩混信号进行分离。此解码装置包括:上述的信号分离部、变换模块(300)、混合器1(322、324),低通滤波器(320)、混合器2(310、312)、能量调整器(314、316)以及逆变换模块(318)。图6中表示的本实施方式3的解码装置,对进行了非细致量化的多声道信号和在低频域的混响信号进行混合。进行非细致量化是因为比特率有限制。
进行了非细致量化的Llf(t)和Rlf(t),在作为QMF滤波器组的变换模块(300)中,与缩混信号M(t)一起,被进行时间-频率变换,分别表现为Llf(t,f)和Rlf(t,f)。到达通过低频过滤器(320)决定的某一定的横渡频率fx为止,作为预混模块的左侧混合器1(322)及右侧混合器1(324),分别把右声道Rlf(t,f)和左声道Llf(t,f)附加于缩混信号M(t,f)进行预混。根据这个,生成预混声道信号LM(t,f)和RM(t,f)。譬如进行下述预混。
(公式14)
LM(t,f)=(1-ICC(b))*Llf(t,f)+ICC(b)*M(t,f)
RM(t,f)=(1-ICC(b))*Rlf(t,f)+ICC(b)*M(t,f)
在这里,ICC(b)表示声道间的相关,表示Llf(t,f)和Rlf(t,f)分别与M(t,f)进行混合的比例。譬如,ICC(b)=1时,ICC(b)表示进行了非细致量化并变换为时间-频率表现方式后的Llf(t,f)和Rlf(t,f),分别和M(t,f)非常相似。即ICC(b)=1时,只用M(t,f)就能高精度地复原混合声道信号LM(t,f)和RM(t,f)。
针对比横渡频率fx高频的频域的以后的处理步骤,和图4中示出的实施方式2相同。对Llf(t)和Rlf(t)进行非细致量化的方法之一如下,
(公式15)
Llf(t)=L(t)-M(t)
Rlf(t)=R(t)-M(t)
对Llf(t)和Rlf(t)计算差分信号,只对到应对音响心理学模型而决定的fx为止的主要的频率成分进行编码。为了进一步降低比特率,可以采用规定的量化步骤。另外,上述的公式15,计算Llf(t)=L(t)-M(t)、Rlf(t)=R(t)-M(t)作为差分信号,但是本发明不受此限定。譬如代替上述算式15中的M(t),也可以将分离后的各声道信号减去。即也可以算出Llf(t)=L(t)-Lreverb(t)、Rlf(t)=R(t)-Rreverb(t)后,将Llf(t)、Rlf(t)加在分离后的各声道信号中来补正信号的偏差。
低通滤波器(320)及高通滤波器(326)用的横渡频率fx是比特率的函数。在比特率非常低这样的极端情况下,用于进行Llf(t)和Rlf(t)的量化的比特率不充分,因此不能进行混合。譬如fx为零的情况下。在实施方式3中,只针对比fx更高的高频进行双声列编码。
图7是示出包括本实施方式3的编码装置和解码装置的编码系统构成的方框图。实施方式3的编码系统在编码侧包括:缩混部(410)、AAC编码器(411)、双声列编码器(412)和第2编码器(413);在解码侧包括:AAC解码器(414)、预混部(415)、信号分离部(416)和混合部(417)。信号分离部(416)包括声道分离部(418)和相位调整部(419)。
缩混部(410)譬如与图1表示的缩混部(102)同样。譬如缩混部(410)生成由M(t)=(L(t)+R(t))/2所表示的缩混信号。这样生成的缩混信号M(t)在AAC编码器(411)中,被进行修正离散余弦(MDCT)变换,以每个子频带为单位被量化,被可变长编码,编入编码位流。
双声列编码器(412),由QMF将音频声道L(t)、R(t)及M(t)先变换成时间-频率表现方式后,对各自的声道信号进行比较,算出双声列。双声列编码器(412)将算出的双声列编码后使其多路复用为代码串。
并且第2编码器(413),譬如算出公式15所示的右声道信号R(t)和左声道信号L(t)分别与缩混信号M(t)的差分信号Llf(t)和Rlf(t),并在非细致地量化后进行编码。第2编码器(413),不一定必须以与AAC编码器(411)同样的编码形式进行编码。
AAC解码器(414)将用AAC方式编码的缩混信号进行解码之后,把被解码的缩混信号用QMF变换为时间-频率表现方式M(t,f)。
信号分离部(416)包括声道分离部(418)和相位调整部(419)。声道分离部(418)把被双声列编码器(412)编码的双声列参数和被第2编码器(413)编码的差分信号Llf(t)、Rlf(t)解码后,将差分信号Llf(t)、Rlf(t)变换为时间-频率表现方式。此后,声道分离部(418)、譬如按照ICC(b),对作为AAC解码器(414)的输出的缩混信号M(t,f)和被变换为时间-频率表现方式的差分信号Llf(t,f)、Rlf(t,f)进行预混,将由此得出的预混声道信号LM、RM输出到混合部417。
相位调整部(419)对缩混信号M(t,f)进行了必要的混响成分的生成和附加之后,调整此相位,作为相位调整信号Lrev和Rrev输出到混合部(417)。
混合部(417)关于左声道,将预混声道信号LM和相位调整信号Lrev进行混合,对所得的混合信号进行逆QMF,输出以时间的函数表示的输出信号L″。另外,关于右声道,将预混声道信号RM和相位调整信号Rrev进行混合,对所得到的混合信号进行逆QMF,输出以时间的函数表示的输出信号R″。
并且在对上述图7所示的编码系统中,也可以将左右的差分信号Llf(t)、Rlf(t)做为原音声道信号L(t)、R(t)和根据相位调整得到的输出信号Lrev(t)、Rlf(t)的差分。即也可以做为Llf(t)=L(t)-Lrev(t),Rlf(t)=R(t)-Rrev(t)。
本发明可以适用于家庭剧院系统、车辆音频系统、电子游戏系统等。