具体实施方式
下面将参照附图对本发明的实施例进行说明。
通过注意到基本帧的时间长度与增强帧的时间长度相同,其中基本帧为编码输入信号,并且增强帧为输入信号与通过对编码输入信号进行解码而获得的信号之间的编码差值,并且这在解调的时候导致了较长的延迟,本发明人提出了本发明。
也就是,本发明的实质是对增强层执行编码,其中增强层帧的时间长度被设成短于基本层帧的时间长度,并且以短延迟、低比特率和高质量对主要包括在背景中叠加有音乐和噪声的语音的信号执行编码。
(实施例1)
图3是示出根据本发明实施例1的声学编码设备的配置的方框图。图3中的声学编码设备100主要由下采样器(downsampler)101、基本层编码器102、本地解码器103、上采样器(upsampler)104、延迟器105、减法器106、分帧器107、增强层编码器108以及多路复用器109构成。
在图3中,下采样器101接收采样率2*FH的输入数据(声学数据),将该输入数据转换成低于采样率2*FH的采样率2*FL,并且将输入数据输出到基本层编码器102。
基本层编码器102以预定基本帧为单位对采样率2*FL的输入数据进行编码,并且将作为编码输入数据的第一编码代码输出到本地解码器103和多路复用器109。例如,基本层编码器102根据CELP编码对输入数据进行编码。
本地解码器103对第一编码代码进行解码,并且将通过解码而获得的解码信号输出到上采样器104。上采样器104将解码信号的采样率增加到2*FH,并且将解码信号输出到减法器106。
延迟器105将输入信号延迟预定的时间,并且将延迟的输入信号输出到减法器106。将该延迟的长度设成与在下采样器101、基本层编码器102、本地解码器103和上采样器104中产生的时间延迟相同的值防止了下一减法处理中的相移。例如,假定该延迟时间是下采样器101、基本层编码器102、本地解码器103和上采样器104上的处理时间的总和。减法器106从输入信号中减去解码信号,并且将减法结果作为剩余信号输出到分帧器107。
分帧器107将剩余信号分成其时间长度比基本帧短的增强帧,并且将分成增强帧的剩余信号输出到增强层编码器108。增强层编码器108对分成增强帧的剩余信号进行编码,并且将通过该编码而获得的第二编码代码输出到多路复用器109。多路复用器109多路复用第一编码代码和第二编码代码,以输出多路复用代码。
接下来,将说明根据本实施例的声学编码设备的操作。这里,将说明对作为采样率2*FH的声学数据的输入信号进行编码的例子。
由下采样器101将输入信号转换成低于采样率2*FH的采样率2*FL。然后,由基本层编码器102对采样率2*FL的输入信号进行编码。由本地解码器103对编码输入信号进行解码,并且生成解码信号。由上采样器104将解码信号转换到高于采样率2*FL的采样率2*FH。
在由延迟器105将输入信号延迟预定的时间之后,将其输出到减法器106。通过减法器106计算通过了延迟器105的输入信号与转换成采样率2*FH的解码信号之间的差值,获得剩余信号。
由分帧器107将剩余信号分成具有短于在基本层编码器102处编码的帧单元的时间长度的帧。由增强层编码器108对划分后的剩余信号进行编码。由多路复用器109多路复用由基本层编码器102生成的编码代码和由增强层编码器108生成的编码代码。
下面将说明由基本层编码器102和增强层编码器108编码的信号。图4示出声学信号的信息分布的例子。在图4中,纵轴表示信息量,而横轴表示频率。图4示出包括在输入信号中的语音信息、背景音乐和背景噪声信息存在于哪个频带内以及它们的量是多少。
如图4所示,语音信息在低频域内具有较多的信息,并且信息量随着频率的增大而减小。另一方面,与语音信息相比,背景音乐和背景噪声信息具有相对较小数量的低频带信息,并且具有较多包括在高频带内的信息。
因此,基本层使用CELP编码高质量地对语音信号进行编码,而增强层高效地对不能被基本层表达的背景音乐和环境声音以及具有比由基本层覆盖的频带高的频率分量的信号进行编码。
图5示出要由基本层和增强层编码的域的例子。在图5中,纵轴表示信息量,而横轴表示频率。图5示出要由基本层编码器102和增强层编码器108编码的信息的域。
基本层编码器102被设计成高效地表达从0到FL的频带内的语音信息,并且可以高质量地对该域中的语音信息进行编码。然而,基本层编码器102在从0到FL的频带内不具有背景音乐和背景噪声信息的高编码质量。
增强层编码器108被设计成覆盖上述基本层编码器102的不足能力和从FL到FH的频带内的信号。因此,组合基本层编码器102和增强层编码器108可以在宽频带内高质量地实现编码。
如图5所示,由于通过基本层编码器102的编码而获得的第一编码代码包括从0到FL的频带内的语音信息,因此有可能至少实现可扩展的功能,由此单独通过第一编码代码获得解码信号。
本实施例中的声学编码设备100将由增强层编码器108编码的帧的时间长度设成足够短于由基本层编码器102编码的帧的时间长度,从而可以缩短在增强层中产生的延迟。
图6示出基本层和增强层的编码的例子。在图6中,横轴表示时间。在图6中,作为第n帧处理从T(n-1)到T(n)的输入信号。基本层编码器102作为第n基本帧对第n帧进行编码,其中第n基本帧是一个基本帧。另一方面,增强层编码器108通过将第n帧分成多个增强帧来对其进行编码。
这里,增强层的帧(增强帧)的时间长度被设成相对于基本层的帧(基本帧)的1/J。在图6中,为方便起见设置J=8,但是本实施例不限于此值,并且可使用满足J≥2的任何整数。
图6中的例子假定J=8,因此八个增强帧对应于一个基本帧。以下,对应于第n基本帧的每个增强帧将被表示为第n增强帧(#j)(j=1到8)。每个增强层的分析帧被设成使两个连续的分析帧以分析帧长度的一半相互重叠,以防止在连续帧之间发生不连续,并使其经历编码处理。例如,在第n增强帧(#1)中,组合帧401和帧402的域成为分析帧。然后,解码侧对通过使用基本层和增强层对上述输入信号进行编码而获得的信号进行解码。
图7示出基本层和增强层的解码的例子。在图7中,横轴表示时间。在解码处理中,生成第n基本帧的解码信号和第n增强帧的解码信号。在增强层中,有可能对与有可能与前一帧进行叠加的部分对应的信号进行解码。在图7中,生成解码信号直到时间501,也就是,直到第n增强帧(#8)的中心位置。
也就是,根据本实施例的声学编码设备,在增强层中产生的延迟对应于时间501到时间502,从而只需基本层的时间长度的1/8。例如,当基本帧的时间长度是20毫秒时,在增强层中新产生的延迟为2.5毫秒。
本例是增强帧的时间长度被设成基本帧的时间长度的1/8的情况,但是一般而言,当增强帧的时间长度被设成基本帧的时间长度的1/J时,在增强层中产生的延迟为1/J,并且有可能根据系统中允许的延迟的长度来设置J。
接下来,将说明执行上述解码的声学解码设备。图8是示出根据本发明实施例1的声学解码设备的配置的方框图。图8中的声学解码设备600主要由多路分解器601、基本层解码器602、上采样器603、增强层解码器604、叠加器605以及加法器606构成。
多路分解器601将由声学编码设备100编码的代码分离成基本层的第一编码代码和增强层的第二编码代码,将第一编码代码输出到基本层解码器602,并且将第二编码代码输出到增强层解码器604。
基本层解码器602对第一编码代码进行解码,以获得具有采样率2*FL的解码信号。基本层解码器602将解码信号输出到上采样器603。上采样器603将采样率2*FL的解码信号转换成具有采样率2*FH的解码信号,并且将转换后的信号输出到加法器606。
增强层解码器604对第二编码代码进行解码,以获得具有采样率2*FH的解码信号。该第二编码代码是在声学编码设备100处通过以具有短于基本帧的时间长度的增强帧为单位对输入信号进行编码而获得的代码。然后,增强层解码器604将该解码信号输出到叠加器605。
叠加器605以由增强层解码器604解码的增强帧为单位重叠该解码信号,并且将重叠的解码信号输出到加法器606。更具体地说,叠加器605将解码信号乘以用于合成的窗口函数,以合成帧长度的一半重叠该解码信号与在前一帧中解码的时域中的信号,并且相加这些信号,以生成输出信号。
加法器606相加由上采样器603上采样的基本层中的解码信号与由叠加器605重叠的增强层中的解码信号,并且输出所得到的信号。
因此,根据本实施例的声学编码设备和声学解码设备,声学编码设备侧以具有短于基本帧的时间长度的增强帧为单位划分剩余信号,并且对划分的剩余信号进行编码,而声学解码设备侧对以具有短于该基本帧的时间长度的时间长度的增强帧为单位而编码的剩余信号进行解码,重叠具有重叠时间区域的部分,从而有可能缩短可引起解码期间的延迟的增强帧的时间长度,并且缩短语音解码中的延迟。
(实施例2)
本实施例将描述使用CELP编码对基本层进行编码的例子。图9是示出根据本发明实施例2的基本层编码器的内部配置的示例方框图。图9示出图3中的基本层编码器102的内部配置。图9中的基本层编码器102主要由LPC分析器701、感觉加权部件702、自适应码本搜索器703、自适应向量增益量化器704、目标向量生成器705、噪声码本搜索器706、噪声向量增益量化器707以及多路复用器708构成。
LPC分析器701计算采样率2*FL的输入信号的LPC系数,并且将这些LPC系数转换成适于量化的参数集,如LSP系数,并且量化该参数集。然后,LPC分析器701将通过该量化而获得的编码代码输出到多路复用器708。
此外,LPC分析器701从编码代码计算量化LSP系数,将LSP系数转换成LPC系数,并且将量化LPC系数输出到自适应码本搜索器703、自适应向量增益量化器704、噪声码本搜索器706和噪声向量增益量化器707。此外,LPC分析器701将量化之前的LPC系数输出到感觉加权部件702。
感觉加权部件702根据由LPC分析器701获得的量化和未量化LPC系数两者,向从下采样器101输出的输入信号分配权重。这旨在执行频谱整形,使得量化失真的频谱被输入信号的频谱包络(spectral envelope)屏蔽。
自适应码本搜索器703使用感觉加权输入信号作为目标信号来搜索自适应码本。通过以基频(pitch)周期重复过去的激励串而获得的信号称作“自适应向量”,并且自适应码本由以预定范围内的基频周期生成的自适应向量构成。
当假定感觉加权输入信号为t(n)时,通过将由LPC系数构成的合成滤波器的冲击响应卷积为具有基频周期的自适应向量而获得的信号为pi(n),自适应码本搜索器703将最小化表达式(1)中的评价函数D的自适应向量的基频周期i作为参数输出到多路复用器708。
其中N表示向量长度。表达式(1)中的第一项与基频周期i无关,因此自适应码本搜索器703仅计算第二项。
自适应向量增益量化器704量化与自适应向量相乘的自适应向量增益。自适应向量增益β以下面表达式(2)表达,并且自适应向量增益量化器704对该自适应向量增益β进行标量量化,并且将通过该量化而获得的代码输出到多路复用器708。
目标向量生成器705从输入信号减去自适应向量的影响,生成要在噪声码本搜索器706和噪声向量增益量化器707中使用的目标向量,并且输出这些目标向量。在目标向量生成器705中,如果假定pi(n)是通过将合成滤波器的脉冲响应卷积为由表达式1表达的评价函数D最小时的自适应向量而获得的信号,并且βq是由表达式2表达的自适应向量β进行标量量化时的量化值,则以下面表达式(3)表达目标向量t2(n):
t2(n)=t(n)-βq·p1(n) …(3)
噪声码本搜索器706使用目标向量t2(n)和量化LPC系数搜索噪声码本。例如,随机噪声或者使用大量语音数据库学习的信号可以用于噪声码本搜索器706中的噪声码本。此外,为噪声码本搜索器706提供的噪声码本可以如同代数码本一样,由具有预定非常小数目的幅度l的脉冲的向量表达。该代数码本的特征在于能够通过小量的计算确定脉冲位置和脉冲正负号(极性)的最佳组合。
当假定目标向量是t2(n),并且通过将合成滤波器的脉冲响应卷积为对应于代码j的噪声向量而获得的信号是cj(n)时,噪声码本搜索器706将最小化下面表达式(4)的评价函数D的噪声向量的索引j输出到多路复用器708。
噪声向量增益量化器707量化与噪声向量相乘的噪声向量增益。噪声向量增益量化器707使用下面示出的表达式(5)计算噪声向量增益γ,并且标量量化该噪声向量增益γ,并且将其输出到多路复用器708。
多路复用器708多路复用量化LPC系数、自适应向量、自适应向量增益、噪声向量以及噪声向量增益的编码代码,并且它将多路复用结果输出到本地解码器103和多路复用器109。
下一步,将说明解码侧。图10是示出根据本发明实施例2的基本层解码器的内部配置的示例方框图。图10示出图8中的基本层解码器602的内部配置。图10中的基本层解码器602主要由多路分解器801、激励生成器802和合成滤波器803构成。
多路分解器801将从多路分解器601输出的第一编码代码分离为量化LPC系数、自适应向量、自适应向量增益、噪声向量以及噪声向量增益的编码代码,并且它将自适应向量、自适应向量增益、噪声向量以及噪声向量增益的编码代码输出到激励生成器802。同样地,多路分解器801将量化LPC系数的编码代码输出到合成滤波器803。
激励生成器802对自适应向量、自适应向量增益、噪声向量以及噪声向量增益的编码代码进行解码,并且它使用下面示出的表达式(6)生成激励向量ex(n):
ex(n)=βq·q(n)+γq·c(n) …(6)
其中q(n)表示自适应向量,βq表示自适应向量增益,c(n)表示噪声向量,而γq表示噪声向量增益。
合成滤波器803从LPC系数的编码代码解码该量化LPC系数,并且使用下面示出的表达式(7)生成合成信号syn(n):
其中αq表示解码LPC系数,并且NP表示LPC系数的阶。合成滤波器803将解码信号syn(n)输出到上采样器603。
这样,根据本实施例的声学编码设备和声学解码设备,发送侧通过对基本层应用CELP编码而对输入信号进行编码,并且接收侧对基本层应用CELP编码的解码方法,从而有可能以低比特率实现高质量基本层。
本实施例的语音编码设备也可以采用在合成滤波器803之后设有后置滤波器的配置,以改善主观质量。图11是示出根据本发明实施例2的基本层解码器的内部配置的示例方框图。然而,与图10相同的组件被分配与图10相同的标号,并且将省略其详细说明。
对于后置滤波器902,可采用各种配置来改善主观质量。一种典型的方法是使用由通过多路分解器801的解码而获得的LPC系数构成的共振峰增强滤波器的方法。共振峰增强滤波器Hf(z)以下面示出的表达式(8)表达:
其中1/A(z)表示由解码的LPC系数构成的合成滤波器,并且γn、γd和μ表示确定滤波器特征的常量。
(实施例3)
该实施例的特征在于使用变换编码,由此将增强层的输入信号变换成频域的系数,然后对变换后的系数进行编码。将利用图12说明根据本实施例的增强层编码器108的基本配置。图12是示出根据本发明实施例3的增强层编码器的内部配置的示例方框图。图12示出图3中的增强层编码器108的内部配置的例子。图12中的增强层编码器108主要由MDCT部件1001和量化器1002构成。
MDCT部件1001对从分帧器107输出的输入信号进行MDCT变换(改进的离散余弦变换),以获得MDCT系数。MDCT变换以分析帧长度的一半完全重叠连续的分析帧。并且MDCT的正交基包括分析帧的第一半的“奇函数”和第二半的“偶函数”。在合成过程中,MDCT变换不产生任何帧边界失真,因为它重叠且相加逆变换后的波形。当执行MDCT时,将输入信号与诸如正弦窗口的窗口函数相乘。当假定一组MDCT系数为X(n)时,可以通过下面示出的表达式(9)计算MDCT系数:
其中X(n)表示通过将输入信号乘以窗口函数而获得的信号。
量化器1002量化由MDCT部件1001计算的MDCT系数。更具体地说,量化器1002对MDCT系数进行标量量化。或者,由多个MDCT系数形成向量,并且对其进行向量量化。尤其当应用标量量化时,上述量化方法往往增大比特率,以便获得足够的质量。为此,当有可能将足够的比特分配给增强层时,该量化方法是有效的。然后,量化器1002将通过对MDCT系数进行量化而获得的代码输出到多路复用器109。
接下来,将说明通过缓和比特率的增大而高效地量化MDCT系数的方法。图13示出MDCT系数的排列的例子。在图13中,横轴表示时间,而纵轴表示频率。
要在增强层中编码的MDCT系数可以如图13所示采用具有时间方向和频率方向的二维矩阵表达。在本实施例中,为一个基本帧设置八个增强帧,因此横轴变成八维,并且纵轴具有与增强帧的长度匹配的维数。在图13中,纵轴以16维表达,但是维数不限于此。
为了为图13中表达的所有MDCT系数获得足够高的SNR,量化需要很多比特。为了避免该问题,本实施例的声学编码设备仅量化包括在预定频带内的MDCT系数,并且不发送有关其它MDCT系数的信息。也就是,量化图13的阴影区域1101内的MDCT系数,而不量化其它MDCT系数。
该量化方法基于这样的概念,即已经在基本层中以足够的质量对要由基本层编码的频带(0到FL)进行了编码,并且该频带具有足够的信息量,因此在增强层中只需对其它频带(例如,FL到FH)进行编码。或者该量化方法基于这样的概念,即编码失真往往在由基本层编码的频带的高频部分中增大,因此只需对由基本层编码的频带的高频部分和未由基本层编码的频带进行编码。
这样,通过仅关心不能被基本层的编码覆盖的域或者不能被基本层的编码覆盖的域以及包括由基本层的编码覆盖的频带的一部分作为编码目标的域,有可能减少要编码的信号,并且实现MDCT系数的高效量化,同时缓和比特率的增大。
接下来,将说明解码侧。
以下,将说明使用改进的离散余弦逆变换(IMDCT)作为从频域变换到时域的方法的情况。图14是示出根据本发明实施例3的增强层解码器的内部配置的示例方框图。图14示出图8中的增强层解码器604的内部配置的例子。图14中的增强层解码器604主要由MDCT系数解码器1201和IMDCT部件1202构成。
MDCT系数解码器1201从由多路分解器601输出的第二编码代码解码该量化MDCT系数。IMDCT部件1202对从MDCT系数解码器1201输出的MDCT系数应用IMDCT,生成时域信号,并且将时域信号输出到叠加器605。
这样,根据本实施例的声学编码设备和声学解码设备,将差值信号从时域变换到频域,对不能被基本层编码覆盖的增强层中的变换信号的频域进行编码,从而能够为诸如音乐的具有较大频谱变化的信号实现高效的编码。
要由增强层编码的频带无需被固定为FL到FH。要在增强层中编码的频带根据基本层的编码方法的特征和包括在输入信号的高频带内的信息量而变化。因此,如实施例2所述,在宽带信号的CELP编码用于基本层并且输入信号是语音的情况下,可推荐将由增强层编码的频带设为6kHz到9kHz。
(实施例4)
人类感觉特征具有屏蔽效应,即当提供特定信号时,其频率接近于该信号的频率的信号不能被听到。本实施例的特征在于基于输入信号找出感觉屏蔽,并且利用感觉屏蔽执行增强层的编码。
图15是示出根据本发明实施例4的声学编码设备的配置的方框图。然而,相同于图3的组件被分配相同于图3的标号,并且将省略其详细描述。图15中的声学编码设备1300包括感觉屏蔽计算部件1301和增强层编码器1302,并且其不同于图3中的声学编码设备之处在于它从输入信号的频谱计算感觉屏蔽,并且量化MDCT系数,使得量化失真降到该屏蔽值之下。
延迟器105将输入信号延迟预定时间,并且将延迟的输入信号输出到减法器106和感觉屏蔽计算部件1301。感觉屏蔽计算部件1301计算表示不能被人类听觉感觉到的频谱的幅度的感觉屏蔽,并且将该感觉屏蔽输出到增强层编码器1302。增强层编码器1302对具有超过感觉屏蔽的频谱的域的差值信号进行编码,并且将差值信号的编码代码输出到多路复用器109。
接下来,将说明感觉屏蔽计算部件1301的详细信息。图16是示出本实施例中的感觉屏蔽计算部件的内部配置的示例方框图。图16中的感觉屏蔽计算部件1301主要由FFT部件1401、巴克(bark)频谱计算器1402、扩频函数(spread function)卷积器1403、音调计算器1404以及感觉屏蔽计算器1405构成。
在图16中,FFT部件1401对从延迟器105输出的输入信号进行傅立叶变换,并且计算傅立叶系数{Re(m),Im(m)}。这里,m表示频率。
巴克频谱计算器1402使用下面示出的表达式(10)计算巴克频谱B(k):
其中P(m)表示通过下面示出的表达式(11)计算的功率频谱:
P(m)=Re2(m)+Im2(m) …(11)
其中Re(m)和Im(m)分别表示具有频率m的复谱的实部和虚部。此外,k对应于巴克频谱的序号,FL(k)和FH(k)分别表示第k个巴克频谱的最小频率(Hz)和最大频率(Hz)。巴克频谱B(k)表示当在巴克标度上以有规律的间隔将频谱分成多个频带时频谱的强度。当以f表达赫兹标度并且以B表达巴克标度时,赫兹标度和巴克标度之间的关系以下面示出的表达式(12)表达:
扩频函数卷积器1403将扩频函数SF(k)卷积到巴克频谱B(k)中,以计算C(k)。
C(k)=B(k)*SF(k) …(13)
音调计算器1404使用下面示出的表达式(14)从能频P(m)计算每个巴克频谱的频谱平坦度SFM(k):
其中μg(k)表示第k巴克频谱的几何平均值,而μa(k)表示第k个巴克频谱的算术平均值。音调计算器1404利用下面示出的表达式(15),从频谱平坦度SFM(k)的分贝值SFM dB(k)计算音调系数α(k):
感觉屏蔽计算器1405利用下面示出的表达式(16),从由音调计算器1404算出的音调系数α(k)计算每个巴克标度的偏移O(k):
O(k)=α(k)·(14.5-k)+(1.0-α(k))·5.5 …(16)
然后,感觉屏蔽计算器1405利用下面示出的表达式(17),从由扩频函数卷积器1403获得的C(k)减去偏移O(k),以计算感觉屏蔽T(k)。
其中Tq(k)表示绝对阈值。该绝对阈值表示作为人类感觉特征而观察到的感觉屏蔽的最小值。感觉屏蔽计算器1405将在巴克标度上表达的感觉屏蔽T(k)变换成赫兹标度M(m),并且将其输出到增强层编码器1302。
利用这样获得的感觉屏蔽M(m),增强层编码器1302对MDCT系数进行编码。图17是示出本实施例的增强层编码器的内部配置的示例方框图。图17中的增强层编码器1302主要由MDCT部件1501和MDCT系数量化器1502构成。
MDCT部件1501将从分帧器107输出的输入信号乘以分析窗口,对输入信号进行MDCT变换(改进的离散余弦变换),以获得MDCT系数。MDCT以分析帧长度的一半重叠连续的分析。并且MDCT的正交基包括分析帧的第一半的奇函数和第二半的偶函数。在合成过程中,MDCT重叠逆变换后的波形,并且相加这些波形,因此不发生帧边界失真。当执行MDCT时,将输入信号与诸如正弦窗口的窗口函数相乘。当假定MDCT系数为X(n)时,根据表达式(9)计算MDCT系数。
MDCT系数量化器1502将从感觉屏蔽计算部件1301输出的感觉屏蔽用于从MDCT部件1501输出的MDCT系数,以将MDCT系数分类成要量化的系数和不要量化的系数,并且仅对要量化的系数进行编码。更具体地说,MDCT系数量化器1502将MDCT系数X(m)与感觉屏蔽M(m)进行比较,并且忽略其强度小于M(m)的MDCT系数X(m),并且从编码目标中排除它们,因为这样的MDCT系数X(m)由于感觉屏蔽效应而不被人类听觉感觉到,并且仅量化其强度大于M(m)的MDCT系数。然后,MDCT系数量化器1502将该量化MDCT系数输出到多路复用器109。
这样,本实施例的声学编码设备利用屏蔽效应的特性,从输入信号的频谱计算感觉屏蔽,在增强层的编码期间执行量化,使得量化失真降到该屏蔽值之下,从而可以减少要量化的MDCT系数的数目,而不导致质量降低,并且以低比特率和高质量实现编码。
上面实施例说明了利用FFT计算感觉屏蔽的方法,但是也有可能利用MDCT而非FFT计算感觉屏蔽。图18是示出本实施例的感觉屏蔽计算部件的内部配置的示例方框图。然而,相同于图16的组件被分配相同于图16的标号,并且将省略其详细说明。
MDCT部件1601使用MDCT系数近似功率频谱P(m)。更具体地说,MDCT部件1601利用下面表达式(18)近似P(m):
P(m)=R2(m) …(18)
其中R(m)表示通过对输入信号进行MDCT变换而获得的MDCT系数。
巴克频谱计算器1402从由MDCT部件1601近似的P(m)计算巴克频谱B(k)。从那时起,根据上述方法计算感觉屏蔽。
(实施例5)
该实施例涉及增强层编码器1302,并且其特征是它涉及一种当超过感觉屏蔽的MDCT系数是量化目标时、高效地对这些MDCT系数的位置信息进行编码的方法。
图19是示出根据本发明实施例5的增强层编码器的内部配置的示例方框图。图19示出图15中的增强层编码器1302的内部配置的例子。图19中的增强层编码器1302主要由MDCT部件1701、量化位置确定部件1702、MDCT系数量化器1703、量化位置编码器1704以及多路复用器1705构成。
MDCT部件1701将从分帧器107输出的输入信号乘以分析窗口,然后对输入信号进行MDCT变换(改进的离散余弦变换),以获得MDCT系数。通过以分析帧长度的一半重叠连续的分析帧来执行MDCT变换,并且使用分析帧的第一半的奇函数和第二半的偶函数的正交基。在合成过程中,MDCT变换重叠逆变换后的波形,并且相加这些波形,因此不发生帧边界失真。当执行MDCT时,将输入信号与诸如正弦窗口的窗口函数相乘。当假定MDCT系数为X(n)时,根据表达式(9)计算MDCT系数。
由MDCT部件1701计算的MDCT系数表示为X(j,m)。这里,j表示增强帧的帧号,而m表示频率。本实施例将说明增强帧的时间长度为基本帧的时间长度的1/8的情况。图20示出MDCT系数的排列的例子。MDCT系数X(j,m)如图20所示,可以在其横轴表示时间而其纵轴表示频率的矩阵上表达。MDCT部件1701将MDCT系数X(j,m)输出到量化位置确定部件1702和MDCT系数量化部件1703。
量化位置确定部件1702比较从感觉屏蔽计算部件1301输出的感觉屏蔽M(j,m)与从MDCT部件1701输出的MDCT系数X(j,m),并且确定要量化哪些位置的MDCT系数。
更具体地说,当满足下面示出的表达式(19)时,量化位置确定部件1702量化X(j,m)。
|X(j,m)|-M(j,m)>0 …(19)
然后,当满足表达式(20)时,量化位置确定部件1702不量化X(j,m)。
|X(j,m)|-M(j,m)≤0 …(20)
然后,量化位置确定部件1702将要量化的MDCT系数X(j,m)的位置信息输出到MDCT系数量化部件1703和量化位置编码器1704。这里,位置信息表示时间j和频率m的组合。
在图20中,由量化位置确定部件1702确定的要量化的MDCT系数X(j,m)的位置以阴影区域表达。在本例中,位置(j,m)=(6,1)、(5,3)、…、(7,15)、(5,16)的MDCT系数X(j,m)是量化目标。
这里,假定通过与增强帧同步来计算感觉屏蔽M(j,m)。然而,由于计算量等的限制,也有可能与基本帧同步来计算感觉屏蔽M(j,m)。在这种情况下,与感觉屏蔽与增强帧同步的情况相比,感觉屏蔽的计算量减至1/8。此外,在这种情况下,首先通过基本帧获得感觉屏蔽,然后将相同的感觉屏蔽用于所有增强帧。
MDCT系数量化部件1703量化在由量化位置确定部件1702确定的位置上的MDCT系数X(j,m)。当执行量化时,MDCT系数量化部件1703使用有关感觉屏蔽M(j,m)的信息,并且执行量化,使得量化误差降到感觉屏蔽M(j,m)之下。当假定量化的MDCT系数为X’(j,m)时,MDCT系数量化部件1703执行量化,使得满足下面示出的表达式(21)。
|X(j,m)-X′(j,m)|≤M(j,m) …(21)
然后,MDCT系数量化部件1703将量化代码输出到多路复用器1705。
量化位置编码器1704对位置信息进行编码。例如,量化位置编码器1704使用游程长度编码方法对位置信息进行编码。量化位置编码器1704在时间轴方向上从最低频率开始扫描,并且以把要编码的系数不连续存在的位置数和要编码的系数连续存在的位置数视作位置信息的方式执行编码。
更具体地说,量化位置编码器1704在j增大的方向上从(j,m)=(1,1)开始扫描,并且使用直到出现要编码的系数为止的位置数作为位置信息执行编码。
在图20中,从(j,m)=(1,1)到成为第一个编码目标的系数的位置(j,m)=(1,6)的距离是5,然后,由于只有一个要编码的系数连续存在,因此要编码的系数连续存在的位置数为1,然后不要编码的系数连续存在的位置数为14。这样,在图20中,表达位置信息的代码是5、1、14、1、4、1、4…、5、1、3。量化位置编码器1704将该位置信息输出到多路复用器1705。多路复用器1705多路复用有关MDCT系数X(j,m)的量化的信息和位置信息,并且将多路复用结果输出到多路复用器109。
接下来,将说明解码侧。图21是示出根据本发明实施例5的增强层解码器的内部配置的示例方框图。图21示出图8中的增强层解码器604的内部配置的例子。图21中的增强层解码器604主要由多路分解器1901、MDCT系数解码器1902、量化位置解码器1903、时间-频率矩阵生成器1904以及IMDCT部件1905构成。
多路分解器1901将从多路分解器601输出的第二编码代码分离为MDCT系数量化信息以及量化位置信息,并且将MDCT系数量化信息输出到MDCT系数解码器1902,并且将量化位置信息输出到量化位置解码器1903。
MDCT系数解码器1902从由多路分解器1901输出的MDCT系数量化信息解码MDCT系数,并且将解码的MDCT系数输出到时间-频率矩阵生成器1904。
量化位置解码器1903从由多路分解器1901输出的量化位置信息解码量化位置信息,并且将解码的量化位置信息输出到时间-频率矩阵生成器1904。该量化位置信息是表示时间-频率矩阵中的解码MDCT系数的位置的信息。
时间-频率矩阵生成器1904使用从量化位置解码器1903输出的量化位置信息和从MDCT系数解码器1902输出的解码MDCT系数生成图20所示的时间-频率矩阵。图20以阴影区域示出存在解码MDCT系数的位置,并且以空白区域示出不存在解码MDCT系数的位置。在空白区域内的位置上,不存在解码MDCT系数,因此,提供0作为解码MDCT系数。
然后,时间-频率矩阵生成器1904针对每个增强帧(j=1到J)将解码MDCT系数输出到IMDCT部件1905。IMDCT部件1905对解码MDCT系数应用IMDCT,生成时域信号,并且将该信号输出到叠加器605。
这样,本实施例的声学编码设备和声学解码设备在增强层中编码的期间将剩余信号从时域变换到频域,然后执行感觉屏蔽,以确定要编码的系数,并且对有关频率和帧号的两维位置信息进行编码,从而可以利用要编码的系数和不要编码的系数的位置是连续的这一事实减少信息量,并且以低比特率和高质量执行编码。
(实施例6)
图22是示出根据本发明实施例6的增强层编码器的内部配置的示例方框图。图22示出图15中的增强层编码器1302的内部配置的例子。然而,相同于图19的组件被分配相同于图19的标号,并且将省略其详细说明。图22中的增强层编码器1302包括分域器2001、量化域确定部件2002、MDCT系数量化部件2003以及量化域编码器2004,并且涉及另一种当超过感觉屏蔽的MDCT系数是量化目标时、高效地对MDCT系数的位置信息进行编码的方法。
分域器2001将由MDCT部件1701获得的MDCT系数X(j,m)分成多个域。这里,域是指多个MDCT系数的位置和集合,并且预先确定为为编码器和解码器共有的信息。
量化域确定部件2002确定要量化的域。更具体地说,当将域表达为S(k)(k=1到K)时,量化域确定部件2002计算这些MDCT系数X(j,m)超过包括在域S(k)中的感觉屏蔽M(m)的量的总和,并且按照该总和的幅度以降序选择K’(K’<K)个域。
图23示出MDCT系数的排列的例子。图23示出域S(k)的例子。图23中的阴影区域表示由量化域确定部件2002确定的要量化的域。在本例中,域S(k)是在时间轴方向上为四维、在频率轴方向上为二维的矩形,并且量化目标是四个域S(6)、S(8)、S(11)和S(14)。
如上所述,量化域确定部件2002根据MDCT系数X(j,m)超过感觉屏蔽M(j,m)的量的总和确定应当量化哪些域S(k)。总和V(k)通过下面表达式(22)来计算:
根据该方法,根据输入信号可以几乎不选择高频域V(k)。因此,代替表达式(22),也有可能使用在下面示出的表达式(23)中表达的、以MDCT系数X(j,m)的强度归一化的方法:
然后,量化域确定部件2002将有关要量化的域的信息输出到MDCT系数量化部件2003和量化域编码器2004。
量化域编码器2004向要量化的域分配代码1,而向其它域分配代码0,并且将这些代码输出到多路复用器1705。在图23的情况下,这些代码为0000、0101、0010、0100。此外,该代码还可使用游程长度编码方法来表达。在这种情况下,所获得的代码是5、1、1、1、2、1、2、1、2。
MDCT系数量化部件2003量化包括在由量化域确定部件2002确定的域中的MDCT系数。作为量化方法,还有可能从包括在域中的MDCT系数构造一个或多个向量,并且执行向量量化。在执行向量量化中,还有可能使用由感觉屏蔽M(j,m)加权的标度。
接下来,将说明解码侧。图24是示出根据本发明实施例6的增强层解码器的内部配置的示例方框图。图24示出图8中的增强层解码器604的内部配置的例子。图24中的增强层解码器604主要由多路分解器2201、MDCT系数解码器2202、量化域解码器2203、时间-频率矩阵生成器2204以及IMDCT部件2205构成。
本实施例的特征在于能够对由实施例6的前述增强层编码器1302生成的编码代码进行解码。
多路分解器2201将从多路分解器601输出的第二编码代码分离为MDCT系数量化信息和量化域信息,将MDCT系数量化信息输出到MDCT系数解码器2202,并将量化域信息输出到量化域解码器2203。
MDCT系数解码器2202根据从多路分解器2201获得的MDCT系数量化信息解码MDCT系数。量化域解码器2203根据从多路分解器2201获得的量化域信息解码量化域信息。该量化域信息是表达各个解码MDCT系数属于时间频率矩阵中的哪个域的信息。
时间-频率矩阵生成器2204使用从量化域解码器2203获得的量化域信息和从MDCT系数解码器2202获得的解码MDCT系数,生成图23所示的时间-频率矩阵。在图23中,以阴影区域表达存在解码MDCT系数的域,而以空白区域表达不存在解码MDCT系数的域。由于不存在解码MDCT系数,因此空白区域提供0作为解码MDCT系数。
然后,时间-频率矩阵生成器2204将每个增强帧(j=1到J)的解码MDCT系数输出到IMDCT部件2205。IMDCT部件2205对解码MDCT系数应用IMDCT,生成时域信号,并且将该信号输出到叠加器605。
这样,本实施例的声学编码设备和声学解码设备以组单元(域)设置存在超过感觉屏蔽的剩余信号的时域和频域的位置信息,从而可以以较少比特表达要编码的域的位置,并且实现低比特率。
(实施例7)
接下来,将参照附图说明实施例7。图25是示出根据本发明实施例7的通信设备的配置的方框图。本实施例的特征在于图25中的信号处理设备2303由实施例1到实施例6所示的前述声学编码设备之一构成。
如图25所示,根据本发明实施例7的通信设备2300包括输入设备2301、A/D转换设备2302和连接到网络2304的信号处理设备2303。
A/D转换设备2302连接到输入设备2301的输出端。信号处理设备2303的输入端连接到A/D转换设备2302的输出端。信号处理设备2303的输出端连接到网络2304。
输入设备2301将可为人耳听见的声波转换为作为电信号的模拟信号,并且将其提供给A/D转换设备2302。A/D转换设备2302将模拟信号转换为数字信号,并且将其提供给信号处理设备2303。信号处理设备2303对所输入的数字信号进行编码,生成代码,并且将该代码输出到网络2304。
这样,根据本发明的本实施例的通信设备可提供能够实现实施例1到6所示效果的声学编码设备,并且高效地以较少比特对声学信号进行编码。
(实施例8)
接下来,将参照附图说明本发明的实施例8。图26是示出根据本发明实施例8的通信设备的配置的方框图。本实施例的特征在于图26中的信号处理设备2303由实施例1到实施例6所示的前述声学解码设备之一构成。
如图26所示,根据本发明实施例8的通信设备2400包括连接到网络2401的接收设备2402、信号处理设备2403、D/A转换设备2404以及输出设备2405。
接收设备2402的输入端连接到网络2401。信号处理设备2403的输入端连接到接收设备2402的输出端。D/A转换设备2404的输入端连接到信号处理设备2403的输出端。输出设备2405的输入端连接到D/A转换设备2404的输出端。
接收设备2402从网络2401接收数字编码声学信号,生成数字接收声学信号,并且将其提供给信号处理设备2403。信号处理设备2403从接收设备2402接收所接收的声学信号,对所接收声学信号应用解码处理,生成数字解码声学信号,并且将其提供给D/A转换设备2404。D/A转换设备2404转换来自信号处理设备2403的数字解码语音信号,生成模拟解码语音信号,并且将其提供给输出设备2405。输出设备2405将作为电信号的模拟解码声学信号转换成空气振动,并且将其作为人耳可听到的声波输出。
这样,本实施例的通信设备可以在通信中实现实施例1到6所示的前述效果,高效地以较少比特对编码声学信号进行解码,从而输出高质量声学信号。
(实施例9)
接下来,将参照附图说明本发明的实施例9。图27是示出根据本发明实施例9的通信设备的配置的方框图。本发明的实施例9的特征在于图27中的信号处理设备2503由实施例1到实施例6所示的前述声学编码部件之一构成。
如图27所示,根据本发明实施例9的通信设备2500包括输入设备2501、A/D转换设备2502、信号处理设备2503、RF调制设备2504以及天线2505。
输入设备2501将可为人耳听见的声波转换为作为电信号的模拟信号,并且将其提供给A/D转换设备2502。A/D转换设备2502将模拟信号转换为数字信号,并且将其提供给信号处理设备2503。信号处理设备2503对所输入的数字信号进行编码,生成编码声学信号,并且将其提供给RF调制设备2504。RF调制设备2504对编码声学信号进行调制,生成调制的编码声学信号,并且将其提供给天线2505。天线2505作为无线电波发送调制的编码声学信号。
这样,本实施例的通信设备可以在无线电通信中实现如实施例1到6所示的效果,并且高效地以较少比特对声学信号进行编码。
本发明适用于使用音频信号的发送设备、发送编码设备或声学信号编码设备。此外,本发明还适用于移动台设备或基站设备。
(实施例10)
接下来,将参照附图说明本发明的实施例10。图28是示出根据本发明实施例10的通信设备的配置的方框图。本发明的实施例10的特征在于图28中的信号处理设备2603由实施例1到实施例6所示的前述声学编码部件之一构成。
如图28所示,根据本发明实施例10的通信设备2600包括天线2601、RF解调设备2602、信号处理设备2603、D/A转换设备2604以及输出设备2605。
天线2601接收作为无线电波的数字编码声学信号,生成作为电信号的数字接收编码声学信号,并且将其提供给RF解调设备2602。RF解调设备2602对来自天线2601的接收编码声学信号进行解调,生成解调的编码声学信号,并且将其提供给信号处理设备2603。
信号处理设备2603从RF解调设备2602接收数字解调编码声学信号,执行解码处理,生成数字解码声学信号,并且将其提供给D/A转换设备2604。D/A转换设备2604转换来自信号处理设备2603的数字解码语音信号,生成模拟解码语音信号,并且将其提供给输出设备2605。输出设备2605将作为电信号的模拟解码声学信号转换成空气振动,并且将其作为人耳可听到的声波输出。
这样,本实施例的通信设备可以在无线电通信中实现如实施例1到6所示的效果,高效地以较少比特对编码声学信号进行解码,从而输出高质量声学信号。
本发明适用于使用音频信号的接收设备、接收解码设备或语音信号解码设备。此外,本发明还适用于移动台设备或基站设备。
此外,本发明不限于上述实施例,而是可以以各种方式修改实现。例如,上述实施例描述了本发明被实现为信号处理设备的情况,但是本发明不限于此,并且该信号处理方法也可通过软件来实现。
例如,有可能预先在ROM(只读存储器)中存储用于执行上述信号处理方法的程序,并且通过CPU(中央处理单元)运行程序。
此外,还有可能在计算机可读存储介质中存储用于执行上述信号处理方法的程序,将存储在存储介质中的程序记录在计算机的RAM(随机存取存储器)中,并且根据该程序操作计算机。
上述说明描述了使用MDCT作为从时域变换到频域的方法的情况,但是本发明不限于此,并且只要是至少提供正交变换,任何方法都是适用的。例如,可使用离散傅立叶变换或离散余弦变换等。
本发明适用于使用音频信号的接收设备、接收解码设备或语音信号解码设备。此外,本发明还适用于移动台设备或基站设备。
从上述说明可以清楚,本发明的声学编码设备和声学编码方法对增强层进行编码,其中增强层中的帧的时间长度被设成短于基本层中的帧的时间长度,从而能够以短延迟、低比特率和高质量对甚至是主要包括背景中叠加有音乐和噪声的语音的信号进行编码。
本申请基于2002年9月6日提交的日本专利申请No.2002-261549,在此将其全文引作参考。
工业适用性
本发明优选地适用于高效地对诸如音乐信号或语音信号的声学信号进行压缩和编码的声学编码设备和通信设备。