CN101273404B

CN101273404B - 语音编码装置以及语音编码方法

Info

Publication number: CN101273404B
Application number: CN2006800353558A
Authority: CN
Inventors: 押切正浩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: III Holdings 12 LLC
Priority date: 2005-09-30
Filing date: 2006-09-29
Publication date: 2012-07-04
Anticipated expiration: 2026-09-29
Also published as: US8396717B2; JPWO2007037361A1; WO2007037361A1; KR20080049085A; BRPI0616624A2; EP1926083A1; CN101273404A; US20090157413A1; RU2008112137A; JP5089394B2; EP1926083A4

Abstract

本发明公开了语音编码装置，即使在将语音信号的低频域的频谱多次复制到高频域的情况下，也保持频谱的能量的连续性，并防止语音质量的恶化。在该语音编码装置(100)中，LPC量化单元(102)进行LPC系数的量化，LPC解码单元(103)对量化后的LPC系数进行解码，逆滤波单元(104)通过使用解码LPC系数所构成的逆滤波器，对输入语音信号的频谱进行平整，频域变换单元(105)对平整后的频谱进行频率分析，第一层编码单元(106)对平整后的频谱的低频域进行编码而生成第一层编码数据，第一层解码单元(107)对第一层编码数据进行解码而生成第一层解码频谱，第二层编码单元(108)使用第一层解码频谱，对平整后的频谱的高频域进行编码。

Description

语音编码装置以及语音编码方法

技术领域

本发明涉及语音编码装置以及语音编码方法。

背景技术

为了有效地利用移动通信系统中的电波资源等，需要以低比特率压缩语音信号。

另一方面，又希望提高通话语音的质量以及实现较高临场感的通话服务。为了实现该目的，不仅需要语音信号的高质量，而且需要能够对语音信号以外的频带更宽的音频信号等信号高质量地进行编码。

对于这样相互矛盾的需求，将多个编码技术分层次地结合起来的研究将很有前途。具体而言，为将第一层和第二层分层次地组合的研究，所述第一层，以适合语音信号的模式用低比特率对输入信号进行编码，所述第二层，以也适合语音以外的信号的模式对输入信号与第一层解码信号的差分信号进行编码。这种分层结构的编码方式具有，即使废弃已编码的比特流的一部分也能够从剩余的信息获得解码信号的特征(可扩展性)，因此被称为可扩展编码。由可扩展编码的这种特性，还可以灵活地应对比特率彼此不同的网络之间的通信。此外，可以说这种特征适合于通过IP协议将多种网络合并的将来的网络环境。

作为以往的可扩展编码，有使用由MPEG-4(Moving Picture Experts Groupphase-4运动图像专家组格式-4)标准化了的技术的编码(例如参照非专利文献1)。在非专利文献1记载的可扩展编码中，在第一层使用适合语音信号的CELP(Code Excited Linear Prediction：码激励线性预测)，在第二层使用作为对从原有信号中减去第一层解码信号所获得的残差信号进行编码的AAC(Advanced Audio Coder：高级音频编码)或TwinVQ(Transform DomainWeighted Interleave Vector Quantization：传输域加权交织矢量量化)这样的变换编码。

另一方面，在变换编码中，存在对频谱高效率地进行编码的技术(例如参照专利文献1)。在专利文献1记载的技术中，将语音信号的频带划分为低频域和高频域两个子带，将低频域的频谱复制到高频域，并将复制后的频谱进行变形而使其成为高频域的频谱。此时，对变形信息以较少的比特数进行编码，从而能够实现低比特率。

非专利文献1：三木弼一编著，MPEG-4 の全て，初版，(株)工業調查会，1998年9月30日，pp.126-127

专利文献1：日本专利申请特表2001-521648号公报

发明内容

发明需要解决的问题

一般地，语音信号或音频信号的频谱用随同频率缓慢地变化的分量(频谱包络)与细微地变化的分量(频谱细微结构)的乘积来表示。作为一个例子，图1表示语音信号的频谱，图2表示频谱包络，图3表示频谱细微结构。该频谱包络(图2)是使用10阶的LPC(Linear Prediction Coding：线性预测编码)系数计算出的频谱包络。从这些图可知，频谱包络(图2)与频谱细微结构(图3)的乘积成为语音信号的频谱(图1)。

这里，在对低频域的频谱进行复制而使其成为高频域的频谱的情况下，在复制目的地的高频域的带宽宽于复制源的低频域的带宽时，将低频域的频谱复制到高频域两次以上。例如，在从图1的低频域(0-FL)将频谱复制到高频域(FL-FH)的情况下，由于在该例中存在FH＝2*FL的关系，所以需要将低频域的频谱复制到高频域两次。如图4所示，这样将低频域的频谱复制到高频域多次后，在复制目的地的频谱的连接部分产生频谱的能量的不连续。发生这样的不连续的原因在于频谱包络。如图2所示，在频谱包络中，频率上升的同时，能量衰减，所以在频谱产生斜率。由于存在这样的频谱的斜率，在将低频域的频谱复制到高频域多次后，发生频谱的能量的不连续，语音质量恶化。可通过增益调整对该不连续进行校正，但是为了通过增益调整而获得充分的效果，需要较多的比特数。

本发明的目的在于提供，即使在将低频域的频谱复制到高频域多次的情况下，也能够保持频谱的能量的连续性，并且防止语音质量的恶化的语音编码装置以及语音编码方法。

解决问题的方案

本发明的语音编码装置采用的结构包括：平整单元，使用具有与语音信号的频谱包络相反的特性的逆滤波器，对所述语音信号的频谱进行平整，以求预测残差信号；频域变换单元，对由所述平整单元得到的预测残差信号进行频率分析，并求残差频谱作为变换系数；第一编码单元，对比所述残差频谱的阈值频率低的频带的低频域的残差频谱进行编码，以求第一层编码数据；第一层解码单元，对由所述第一编码单元得到的第一层编码数据进行解码，以求第一层解码频谱；以及第二编码单元，使用由所述第一层解码单元得到的第一层解码频谱，对比所述残差频谱的所述阈值频率高的频域的高频域的残差频谱进行编码。

发明的有益效果

根据本发明能够保持频谱的能量的连续性，并且防止语音质量的恶化。

附图说明

图1是表示语音信号的频谱(以往)的图；

图2是表示频谱包络(以往)的图；

图3是表示频谱细微结构(以往)的图；

图4是表示将低频域的频谱复制到高频域多次时的频谱(以往)的图；

图5A是本发明的动作原理的说明图(低频域的解码频谱)；

图5B是本发明的动作原理的说明图(通过逆滤波器后的频谱)；

图5C是本发明的动作原理的说明图(高频域的编码)；

图5D是本发明的动作原理的说明图(解码信号的频谱)；

图6是本发明实施方式1的语音编码装置的结构的方框图；

图7是上述语音编码装置的第二层编码单元的结构的方框图；

图8是本发明实施方式1的滤波单元的动作说明图；

图9是本发明实施方式1的语音解码装置的结构的方框图；

图10是上述语音解码装置的第二层解码单元的结构的方框图；

图11是本发明实施方式2的语音编码装置的结构的方框图；

图12是本发明实施方式2的语音解码装置的结构的方框图；

图13是本发明实施方式3的语音编码装置的结构的方框图；

图14是本发明实施方式3的语音解码装置的结构的方框图；

图15是本发明实施方式4的语音编码装置的结构的方框图；

图16是本发明实施方式4的语音解码装置的结构的方框图；

图17是本发明实施方式5的语音编码装置的结构的方框图；

图18是本发明实施方式5的语音解码装置的结构的方框图；

图19是本发明实施方式5的语音编码装置的结构的方框图(变形例1)；

图20是本发明实施方式5的语音编码装置的结构的方框图(变形例2)；

图21是本发明实施方式5的语音解码装置的结构的方框图(变形例1)；

图22是本发明实施方式6的第二层编码单元的结构的方框图；

图23是本发明实施方式6的频谱变形单元的结构的方框图；

图24是本发明实施方式6的第二层解码单元的结构的方框图；

图25是本发明实施方式7的频谱变形单元的结构的方框图；

图26是本发明实施方式8的频谱变形单元的结构的方框图；

图27是本发明实施方式9的频谱变形单元的结构的方框图；

图28是本发明实施方式10的第二层编码单元的结构的方框图；

图29是本发明实施方式10的第二层解码单元的结构的方框图；

图30是本发明实施方式11的第二层编码单元的结构的方框图；

图31是本发明实施方式11的第二层解码单元的结构的方框图；

图32是本发明实施方式12的第二层编码单元的结构的方框图；以及

图33是本发明实施方式12的第二层解码单元的结构的方框图。

具体实施方式

在本发明中，在利用低频域的频谱，对高频域进行编码时，从低频域的频谱中除去频谱包络的影响而使频谱平整，并使用平整后的频谱，对高频域的频谱进行编码。

首先，使用图5A～图5D说明本发明的动作原理。

在图5A～图5D中，将FL作为阈值频率，0-FL为低频域，FL-FH为高频域。

图5A表示通过以往的编码/解码处理所获得的低频域的解码频谱，图5B表示使图5A所示的解码频谱通过具有与频谱包络相反的特性的逆滤波器而获得的频谱。这样，使低频域的解码频谱通过具有与频谱包络相反的特性的逆滤波器，从而使低频域的频谱平整。然后，如图5C所示，将平整后的低频域的频谱复制到高频域多次(这里为两次)，对高频域进行编码。如图5B所示，低频域的频谱已经被平整，所以在高频域的编码中，不会发生上述那样的由频谱包络所引起的频谱的能量的不连续。然后，通过对信号频带被扩展到0-FH的频谱赋予频谱包络，从而获得如图5D所示的解码信号的频谱。

另外，作为高频域的编码方法，能够使用下述方法，将低频域的频谱用于音调滤波器的内部状态，并在频率轴上按从低频至高频进行音调滤波处理来估计频谱的高频域。根据该编码方法，在高频域的编码中，对音调滤波器的滤波信息进行编码即可，从而能够实现低比特率。

下面，参照附图详细地说明本发明的实施方式。

(实施方式1)

在本实施方式中，说明在第一层以及第二层中都进行频域中的编码的情况。此外，在本实施方式中，在进行了低频域的频谱的平整后，反复利用平整后的频谱，对高频域的频谱进行编码。

图6表示本发明实施方式1的语音编码装置的结构。

在图6所示的语音编码装置100中，LPC分析单元101进行输入语音信号的LPC分析，并计算LPC系数α(i)(1≤i≤NP)。这里，NP表示LPC系数的阶数，例如选择10至18。计算出的LPC系数被输入到LPC量化单元102。

LPC量化单元102进行LPC系数的量化。LPC量化单元102从量化效率和稳定性判定的观点，将LPC系数变换为LSP(Line Spectral Pair：线谱对)参数后进行量化。量化后的LPC系数作为编码数据被输入到LPC解码单元103以及复用单元109。

LPC解码单元103对量化后的LPC系数进行解码而生成解码LPC系数α_q(i)(1≤i≤NP)，并将其输出到逆滤波单元104。

逆滤波单元104使用解码LPC系数而构成逆滤波器，并使输入语音信号通过该逆滤波器，从而使输入语音信号的频谱平整。

逆滤波器如式(1)或式(2)所示。式(2)为，利用了用于控制平整的程度的共振抑制系数γ(0＜γ＜1)时的逆滤波器。

A (z) = 1 + Σ_{i = 1}^{NP} α_{q} (i) \cdot z^{- i} . . . (1)

A (z / γ) = 1 + Σ_{i = 1}^{NP} α_{q} (i) \cdot γ^{i} \cdot z^{- i} . . . (2)

于是，在将语音信号s(n)输入到以式(1)表示的逆滤波器时所获得的输出信号e(n)，如式(3)所示。

e (n) = s (n) + Σ_{i = 1}^{NP} α_{q} (i) \cdot s (n - i) . . . (3)

同样，在将语音信号s(n)输入到以式(2)表示的逆滤波器时所获得的输出信号e(n)，如式(4)所示。

e (n) = s (n) + Σ_{i = 1}^{NP} α_{q} (i) \cdot γ^{i} \cdot s (n - i) . . . (4)

因此，通过该逆滤波处理，输入语音信号的频谱被平整。另外，在以下的说明中，将逆滤波单元104的输出信号(频谱被平整过的语音信号)称为预测残差信号。

频域变换单元105对从逆滤波单元104输出的预测残差信号进行频率分析，并求残差频谱作为变换系数。频域变换单元105例如使用MDCT(ModifedDiscrete Cosine Transform：变形离散余弦变换)来将时域的信号变换为频域的信号。残差频谱被输入到第一层编码单元106以及第二层编码单元108。

第一层编码单元106使用TwinVQ等进行残差频谱的低频域的编码，并将通过该编码所获得的第一层编码数据输出到第一层解码单元107以及复用单元109。

第一层解码单元107对第一层编码数据进行解码而生成第一层解码频谱，并将其输出到第二层编码单元108。另外，第一层解码单元107将变换为时域前的第一层解码频谱输出。

第二层编码单元108使用由第一层解码单元107获得的第一层解码频谱，对残差频谱的高频域进行编码，并将由该编码所获得的第二层编码数据输出到复用单元109。第二层编码单元108将第一层解码频谱用于音调滤波器的内部状态，并通过音调滤波处理而对残差频谱的高频域进行估计。此时，第二层编码单元108对残差频谱的高频域进行估计，以便不破坏频谱的谐波结构。此外，第二层编码单元108对音调滤波器的滤波信息进行编码。进而，在第二层编码单元108中，使用其频谱被平整过的残差频谱来对残差频谱的高频域进行估计。因此，即使通过滤波处理而使频谱被递归地反复使用，从而高频域被估计，也能够防止频谱的能量的不连续的发生。因此，根据本实施方式，能够以低比特率而获得高音质。另外，在后面叙述第二层编码单元108的细节。

复用单元109将第一层编码数据、第二层编码数据以及LPC系数编码数据进行复用，生成并输出比特流。

接着，说明第二层编码单元108的细节。图7表示第二层编码单元108的结构。

内部状态设定单元1081从第一层解码单元107输入第一层解码频谱 S1(k)(0≤k＜FL)。内部状态设定单元1081使用该第一层解码频谱来设定由滤波单元1082使用的滤波器的内部状态。

音调系数设定单元1084，根据搜索单元1083的控制，使音调系数T在预先设定的搜索范围T_min～T_max中一点一点地改变，同时将其依次地输出到滤波单元1082。

滤波单元1082基于由内部状态设定单元1081设定的滤波器的内部状态和由音调系数设定单元1084输出的音调系数T，进行第一层解码频谱的滤波，并计算残差频谱的估计值S2′(k)。在后面叙述该滤波处理的细节。

搜索单元1083计算表示了从频域变换单元105输入的残差频谱S2(k)(0≤k＜FH)与从滤波单元1082输入的残差频谱的估计值S2′(k)之间的相似性的参数、即相似程度。每次由音调系数设定单元1084提供音调系数T时进行该相似程度的计算处理，而且使计算出的相似程度为最大的音调系数(最合适的音调系数)T’(T_min～T_max的范围)被输出到复用单元1086。此外，搜索单元1083将使用该音调系数T’而生成的残差频谱的估计值S2′(k)输出到增益编码单元1085。

增益编码单元1085基于从频域变换单元105输入的残差频谱S2(k)(0≤k＜FH)，计算残差频谱S2(k)的增益信息。另外，这里，以下述情况为例进行说明，用每个子带的频谱能量表示该增益信息，并将频带FL≤k＜FH划分为J个子带。此时、第j个子带的频谱能量B(j)用式(5)来表示。在式(5)中，BL(j)表示第j个子带的最小频率，BH(j)表示第j个子带的最大频率。将这样求出的残差频谱的子带信息视为残差频谱的增益信息。

B (j) = Σ_{k = BL (j)}^{BH (j)} S 2 {(k)}^{2} . . . (5)

此外，增益编码单元1085同样地根据式(6)计算残差频谱的估计值S2′(k)的子带信息B’(j)，并根据式(7)计算每个子带的变动量V(j)。

B' (j) = Σ_{k = BL (j)}^{BH (j)} S 2' {(k)}^{2} . . . (6)

V (j) = \sqrt{\frac{B (j)}{B' (j)}} . . . (7)

接着，增益编码单元1085对变动量V(j)进行编码而求编码后的变动量V_q(j)，并将该索引输出到复用单元1086。

复用单元1086将从搜索单元1083输入的最合适的音调系数T’和从增益编码单元1085输入的变动量V(j)的索引进行复用，将其作为第二层编码数据输出到复用单元109。

接着，说明在滤波单元1 082中的滤波处理的细节。图8表示：滤波单元1082使用从音调系数设定单元1084输入的音调系数T，生成频带FL≤k＜FH的频谱的情形。这里，为了方便而将全频带(0≤k＜FH)的频谱称为S(k)，并使用以式(8)表示的滤波函数。在该式中，T表示由音调系数设定单元1084提供的音调系数，而且假设M＝1。

P (z) = \frac{1}{1 - Σ_{i = - M}^{M} β_{i} z^{- T + i}} . . . (8)

第一层解码频谱S1(k)作为滤波器的内部状态被存储在S(k)的0≤k＜FL的频带中。另一方面，通过以下的步骤所求出的残差频谱的估计值S2′(k)被存储在S(k)FL≤k＜FH的频带中。

通过滤波处理，将S2′(k)置换为以式(9)表示的频谱，该频谱为将以比k低T的频率的频谱S(k-T)为中心、离开了相当于i的附近的频谱S(k-T-i)与预定的加权系数β_i相乘所得的频谱β_i·S(k-T-i)全部相加后所得的频谱。然后，从较低的频率(k＝FL)开始，在FL≤k＜FH的范围中依次改变k而进行该运算，从而计算出FL≤k＜FH中的残差频谱的估计值S2′(k)。

S 2' (k) = Σ_{i = - 1}^{1} β_{i} \cdot S (k - T - i) . . . (9)

每次由音调系数设定单元1084提供音调系数T时，在FL≤k＜FH的范围中，对S(k)进行清零后进行以上的滤波处理。也就是说，每次音调系数T发生变化时，计算S(k)，并将其输出到搜索单元1083。

这里，在图8所示的例子中，由于音调系数T的大小比频带FL-FH小，所以递归地使用低频域(0≤k＜FL)的频谱而生成高频域(FL≤k＜FH)的频谱。由于低频域的频谱如上述那样被平整，所以即使在通过滤波处理递归地使用低频域的频谱而生成高频域的频谱的情况下，也不在高频域的频谱中产生能量的不连续。

这样，根据本实施方式，能够防止由于频谱包络的影响而在高频域产生频谱的能量的不连续，并能够改善语音质量。

接着，说明本实施方式的语音解码装置。图9表示本发明实施方式1的语音解码装置的结构。该语音解码装置200接收从图6所示的语音编码装置100发送的比特流。

在图9所示的语音解码装置200中，分离单元201将从图6所示的语音编码装置100接收的比特流分离为第一层编码数据、第二层编码数据以及LPC系数，并将第一层编码数据输出到第一层解码单元202，将第二层编码数据输出到第二层解码单元203，将LPC系数输出到LPC解码单元204。而且，分离单元201将层信息(表示比特流中包含哪层的编码数据的信息)输出到判定单元205。

第一层解码单元202使用第一层编码数据来进行解码处理而生成第一层解码频谱，并将其输出到第二层解码单元203以及判定单元205。

第二层解码单元203使用第二层编码数据和第一层解码频谱，生成第二层解码频谱并输出到判定单元205。另外，在后面叙述第二层解码单元203的细节。

LPC解码单元204将对LPC系数编码数据进行解码所获得的解码LPC系数输出到合成滤波单元207。

这里，语音编码装置100发送包含第一层编码数据和第二层编码数据双方的比特流，但是有时在通信路径的途中第二层编码数据被丢弃。因此，判定单元205基于层信息，判定比特流中是否包含第二层编码数据。然后，在比特流中不包含第二层编码数据时，由于第二层解码单元203不生成第二层解码频谱，所以判定单元205将第一层解码频谱输出到时域变换单元206。但是，在该情况下，为了使次数与包含了第二层编码数据时的解码频谱相一致，判定单元205将第一层解码频谱的次数扩展至FH为止，并使FL-FH的频谱为“0”而输出。另一方面，在比特流中包含第一层编码数据和第二层编码数据双方时，判定单元205将第二层解码频谱输出到时域变换单元206。

时域变换单元206，将从判定单元205输入的解码频谱变换为时域的信号而生成解码残差信号，并输出到合成滤波单元207。

合成滤波单元207使用从LPC解码单元204输入的解码LPC系数α_q(i)(1≤i＜NP)而构成合成滤波器。

合成滤波器H(z)如式(10)或式(11)所示。另外，在式(11)中γ(0＜γ＜1)表示共振抑制系数。

H (z) = \frac{1}{1 + Σ_{i = 1}^{NP} α_{q} (i) \cdot z^{- i}} . . . (10)

H (z) = \frac{1}{1 + Σ_{i = 1}^{NP} α_{q} (i) \cdot γ^{i} \cdot z^{- i}} . . . (11)

然后，若将由时域变换单元206提供的解码残差信号作为e_q(n)输入到合成滤波单元207，则在使用以式(10)表示的合成滤波器时，所输出的解码信号s_q(n)如式(12)所示。

s_{q} (n) = e_{q} (n) - Σ_{i = 1}^{NP} α_{q} (i) \cdot s_{q} (n - i) . . . (12)

同样地，在使用以式(11)表示的合成滤波器时，解码信号s_q(n)如式(13)所示。

s_{q} (n) = e_{q} (n) - Σ_{i = 1}^{NP} α_{q} (i) \cdot γ^{i} \cdot s_{q} (n - i) . . . (13)

接着，说明第二层解码单元203的细节。图10表示第二层解码单元203的结构。

内部状态设定单元2031从第一层解码单元202输入第一层解码频谱。内部状态设定单元2031使用第一层解码频谱S1(k)，设定由滤波单元2033使用的滤波器的内部状态。

另一方面，分离单元2032从分离单元201输入第二层编码数据。分离单元2032将第二层编码数据分离为有关滤波系数的信息(最合适的音调系数T’)和有关增益的信息(变动量V(j)的索引)，并将有关滤波系数的信息输出到滤波单元2033，同时将有关增益的信息输出到增益解码单元2034。

滤波单元2033基于由内部状态设定单元2031设定的滤波器的内部状态和从分离单元2032输入的音调系数T’，进行第一层解码频谱S1(k)的滤波，并计算残差频谱的估计值S2′(k)。在滤波单元2033中，使用式(8)所示的滤波函数。

增益解码单元2034对从分离单元2032输入的增益信息进行解码，并求对变动量V(j)进行编码所获得的变动量V_q(j)。

频谱调整单元2035根据式(14)将从滤波单元2033输入的解码频谱S′(k) 与从增益解码单元2034输入的已解码的每个子带的变动量V_q(j)相乘，从而对解码频谱S′(k)的频带FL≤k＜FH中的频谱形状进行调整，并生成调整后的解码频谱S3(k)。该调整后的解码频谱S3(k)作为第二层解码频谱被输出到判定单元205。

S3(k)＝S′(k)·V_q(j)(BL(j)≤k≤BH(j)，forallj)...(14)

这样，语音解码装置200能够对从图6所示的语音编码装置100发送的比特流进行解码。

(实施方式2)

在本实施方式中，说明在第一层中进行时域中的编码(例如，CELP编码)的情况。而且，在本实施方式中，使用在第一层的编码处理中求得的解码LPC系数进行第一层解码信号的频谱的平整。

图11表示本发明实施方式2的语音编码装置的结构。在图11中，对与实施方式1(图6)相同的结构部分赋予相同的标号，并省略其说明。

在图11所示的语音编码装置300中，下采样单元301对输入语音信号的采样率进行下采样，并将所期望的采样率的语音信号输出到第一层编码单元302。

第一层编码单元302对已下采样为所期望的采样率的语音信号进行编码处理而生成第一层编码数据，并将其输出到第一层解码单元303以及复用单元109。第一层编码单元302例如使用CELP编码。在如CELP编码那样进行LPC系数的编码处理时，第一层编码单元302能够在该编码处理中生成解码LPC系数。因此，第一层编码单元302将在编码处理中生成的第一层解码LPC系数输出到逆滤波单元304。

第一层解码单元303使用第一层编码数据进行解码处理而生成第一层解码信号，并将其输出到逆滤波单元304。

逆滤波单元304使用从第一层编码单元302输入的第一层解码LPC系数而构成逆滤波器，并使第一层解码信号通过该逆滤波器，从而使第一层解码信号的频谱平整。另外，逆滤波器的细节与实施方式1相同，所以省略其说明。而且，在以下的说明中，将逆滤波单元304的输出信号(频谱被平整过的第一层解码信号)称为第一层解码残差信号。

频域变换单元305对从逆滤波单元304输出的第一层解码残差信号进行频率分析而生成第一层解码频谱，并将其输出到第二层编码单元108。

另外，延迟单元306将预定长度的延迟赋予输入语音信号。使该延迟的大小与输入语音信号通过下采样单元301、第一层编码单元302、第一层解码单元303、逆滤波单元304以及频域变换单元305时所产生的时间延迟为相同值。

这样，根据本实施方式，由于使用在第一层的编码处理中求得的解码LPC系数(第一层解码LPC系数)进行第一层解码信号的频谱的平整，所以能够使用第一层编码数据的信息，使第一层解码信号的频谱平整。因此，根据本实施方式，由于不需要LPC系数所需的编码比特，所以能够进行频谱的平整而不增加信息量，该LPC系数为用于使第一层解码信号的频谱平整的系数。

接着，说明本实施方式的语音解码装置。图12表示本发明实施方式2的语音解码装置的结构。该语音解码装置400接收从图11所示的语音编码装置300发送的比特流。

在图12所示的语音解码装置400中，分离单元401将从图11所示的语音编码装置300接收的比特流分离为第一层编码数据、第二层编码数据以及LPC系数编码数据，并将第一层编码数据输出到第一层解码单元402，将第二层编码数据输出到第二层解码单元405，将LPC系数编码数据输出到LPC解码单元407。而且，分离单元401将层信息(表示比特流中包含哪层的编码数据的信息)输出到判定单元413。

第一层解码单元402使用第一层编码数据进行解码处理而生成第一层解码信号，并将其输出到逆滤波单元403以及上采样单元410。而且，第一层解码单元402将在解码处理中生成的第一层解码LPC系数输出到逆滤波单元403。

上采样单元410对第一层解码信号的采样率进行上采样，使其与图11的输入语音信号的采样率相同并输出到低通滤波单元411以及判定单元413。

低通滤波单元411将通过频带设定为0-FL，仅使上采样后的频带0-FL的第一层解码信号通过而生成低频信号，并将其输出到加法单元412。

逆滤波单元403使用从第一层解码单元402输入的第一层解码LPC系数而构成逆滤波器，利用第一层解码信号通过该逆滤波器而生成第一层解码残差信号，并将其输出到频域变换单元404。

频域变换单元404对从逆滤波单元403输出的第一层解码残差信号进行频率分析而生成第一层解码频谱，并将其输出到第二层解码单元405。

第二层解码单元405使用第二层编码数据和第一层解码频谱，生成第二层解码频谱并输出到时域变换单元406。另外，第二层解码单元405的细节与实施方式1的第二层解码单元203(图9)相同，所以省略其说明。

时域变换单元406，将第二层解码频谱变换为时域的信号而生成第二层解码残差信号，并将其输出到合成滤波单元408。

LPC解码单元407将对LPC系数进行解码所获得的解码LPC系数输出到合成滤波单元408。

合成滤波单元408使用从LPC解码单元407输入的解码LPC系数而构成合成滤波器。另外，合成滤波单元408的细节与实施方式1的合成滤波单元207(图9)相同，所以省略其说明。合成滤波单元408与实施方式1相同地生成第二层合成信号s_q(n)，并将其输出到高通滤波单元409。

高通滤波单元409将通过频带设定为FL-FH，仅使频带FL-FH的第二层合成信号通过而生成高频信号，并将其输出到加法单元412。

加法单元412将低频信号与高频信号相加而生成第二层解码信号，并将其输出到判定单元413。

判定单元413基于从分离单元401输入的层信息，判定在比特流中是否包含第二层编码数据，并选择第一层解码信号或第二层解码信号中的任一个作为解码信号而输出。在比特流中不包含第二层编码数据时，判定单元413输出第一层解码信号，在比特流中包含第一层编码数据和第二层编码数据双方时，判定单元413输出第二层解码信号。

另外，低通滤波单元411以及高通滤波单元409被用于减少低频信号与高频信号之间相互造成的影响。因此，在低频信号与高频信号之间相互造成的影响较小时，也可以采用语音解码装置400不使用这些滤波器的结构。在不使用这些滤波器时，由于不需要滤波的运算，所以能够削减运算量。

这样，语音解码装置400能够对从图11所示的语音编码装置300发送的比特流进行解码。

(实施方式3)

第一层音源信号的频谱，与从输入语音信号中去除了频谱包络的影响的预测残差信号的频谱同样地被平整。因此，在本实施方式中，将在第一层的编码处理中求得的第一层激励信号视为频谱被平整过的信号(即，实施方式2中的第一层解码残差信号)来进行处理。

图13表示本发明实施方式3的语音编码装置的结构。在图13中，对与实施方式2(图11)相同的结构部分赋予相同的标号，并省略其说明。

第一层编码单元501对已下采样为所期望的采样率的语音信号进行编码处理而生成第一层编码数据，并将其输出到复用单元109。第一层编码单元501例如使用CELP编码。而且，第一层编码单元501将在编码处理中生成的第一层激励信号输出到频域变换单元502。另外，这里所述的激励信号是指输入到进行CELP编码的第一层编码单元501的内部的合成滤波器(或听觉加权合成滤波器)的信号，也被称为驱动信号。

频域变换单元502对第一层激励信号进行频率分析而生成第一层解码频谱，并将其输出到第二层编码单元108。

另外，使延迟单元503的延迟的大小与输入语音信号通过下采样单元301、第一层编码单元501以及频域变换单元502时产生的时间延迟为相同值。

这样，根据本实施方式，与实施方式2(图11)相比，不需要第一层解码单元303以及逆滤波单元304，所以能够削减运算量。

接着，说明本实施方式的语音解码装置。图14表示本发明实施方式3的语音解码装置的结构。该语音解码装置600接收从图13所示的语音编码装置500发送的比特流。在图14中，对与实施方式2(图12)相同的结构部分赋予相同的标号，并省略其说明。

第一层解码单元601使用第一层编码数据来进行解码处理而生成第一层解码信号，并将其输出到上采样单元410。而且，第一层解码单元601将在解码处理中生成的第一层激励信号输出到频域变换单元602。

频域变换单元602对第一层激励信号进行频率分析而生成第一层解码频谱，并将其输出到第二层解码单元405。

这样，语音解码装置600能够对从图13所示的语音编码装置500发送的比特流进行解码。

(实施方式4)

在本实施方式中，使用在第二层求出的第二层解码LPC系数，使第一层解码信号以及输入语音信号的各个信号的频谱平整。

图15表示本发明实施方式4的语音编码装置700的结构。在图15中，对与实施方式2(图11)相同的结构部分赋予相同的标号，并省略其说明。

第一层编码单元701对已下采样为所期望的采样率的语音信号进行编码处理而生成第一层编码数据，并将其输出到第一层解码单元702以及复用单元109。第一层编码单元701例如使用CELP编码。

第一层解码单元702使用第一层编码数据进行解码处理而生成第一层解码信号，并将其输出到上采样单元703。

上采样单元703对第一层解码信号的采样率进行上采样，使其与输入语音信号的采样率相同，并将其输出到逆滤波单元704。

与逆滤波单元104相同，逆滤波单元704从LPC解码单元103输入解码LPC系数。逆滤波单元704使用解码LPC系数而构成逆滤波器，使上采样后的第一层解码信号通过该逆滤波器，从而使第一层解码信号的频谱平整。另外，在以下的说明中，将逆滤波单元704的输出信号(频谱被平整了的第一层解码信号)称为第一层解码残差信号。

频域变换单元705对从逆滤波单元704输出的第一层解码残差信号进行频率分析而生成第一层解码频谱，并将其输出到第二层编码单元108。

另外，使延迟单元706的延迟的大小与输入语音信号通过下采样单元301、第一层编码单元701、第一层解码单元702、上采样单元703、逆滤波单元704以及频域变换单元705时产生的时间延迟为相同值。

接着，说明本实施方式的语音解码装置。图16表示本发明实施方式4的语音解码装置的结构。该语音解码装置800接收从图15所示的语音编码装置700发送的比特流。在图16中，对与实施方式2(图12)相同的结构部分赋予相同的标号，并省略其说明。

第一层解码单元801使用第一层编码数据进行解码处理而生成第一层解码信号，并将其输出到上采样单元802。

上采样单元802对第一层解码信号的采样率进行上采样，使其与图15的输入语音信号的采样率相同，并将其输出到逆滤波单元803以及判定单元413。

与合成滤波单元408相同，逆滤波单元803从LPC解码单元407输入解码LPC系数。逆滤波单元803使用解码LPC系数而构成逆滤波器，使上采样后的第一层解码信号通过该逆滤波器，从而使第一层解码信号的频谱平整，并将第一层解码残差信号输出到频域变换单元804。

频域变换单元804对从逆滤波单元803输出的第一层解码残差信号进行频率分析而生成第一层解码频谱，并将其输出到第二层解码单元405。

这样，语音解码装置800能够对从图15所示的语音编码装置700发送的比特流进行解码。

这样，根据本实施方式，在语音编码装置中，使用在第二层求出的第二层解码LPC系数，使第一层解码信号以及输入语音信号的各个信号的频谱平整，所以在语音解码装置中，能够使用与语音编码装置共同的LPC系数来求第一层解码频谱。因此，根据本实施方式，在语音解码装置中，在生成解码信号时，不需要进行如实施方式2和3那样的分离为低频域和高频域的处理，所以不需要低通滤波器以及高通滤波器而使装置结构简单，同时能够削减滤波处理的运算量。

(实施方式5)

本实施方式使进行频谱的平整的逆滤波器的共振抑制系数根据输入语音信号的特性自适应地改变，从而控制平整的程度。

图17表示本发明实施方式5的语音编码装置900的结构。在图17中，对与实施方式4(图15)相同的结构部分赋予相同的标号，并省略其说明。

在语音编码装置900中，逆滤波单元904和905用式(2)表示。

特征量分析单元901对输入语音信号进行分析而计算特征量，并将其输出到特征量编码单元902。使用表示共振所产生的语音频谱的强度的参数作为特征量。具体而言，例如，使用相邻的LSP参数之间的距离。一般地，该距离越小，共振的程度越强，与共振频率对应的频谱的能量越大。在出现共振较强的语音区间，由于平整处理，在共振频率附近的频谱过度地被衰减而成为音质恶化的原因。为了防止这种恶化，在出现共振较强的语音区间将上述的共振抑制系数γ(0＜γ＜1)设定得较小来降低平整的程度。由此，能够防止由平整处理所产生的在共振频率附近的频谱的过度衰减，能够抑制语音质量的恶化。

特征量编码单元902将从特征量分析单元901输入的特征量进行编码而生成特征量编码数据，并将其输出到特征量解码单元903以及复用单元906。

特征量解码单元903使用特征量编码数据对特征量进行解码，根据解码特征量决定在逆滤波单元904和905使用的共振抑制系数γ，并将其输出到逆滤波单元904和905。在使用表示周期性的强度的参数作为特征量时，输入语音信号的周期性越强，越增大共振抑制系数γ，输入语音信号的周期性越弱，越减小共振抑制系数γ。这样，通过控制共振抑制系数γ，在有声部分更强地进行频谱的平整，而在无声部分频谱的平整的程度减弱。因此，能够防止在无声部分的过度的频谱的平整，能够抑制语音质量的恶化。

逆滤波单元904和905根据由特征量解码单元903控制的共振抑制系数γ，根据式(2)进行逆滤波处理。

复用单元906将第一层编码数据、第二层编码数据、LPC系数以及特征量编码数据进行复用，生成并输出比特流。

另外，使延迟单元907的延迟的大小与输入语音信号通过下采样单元301、第一层编码单元701、第一层解码单元702、上采样单元703、逆滤波单元905以及频域变换单元705时产生的时间延迟为相同值。

接着，说明本实施方式的语音解码装置。图18表示本发明实施方式5的语音解码装置的结构。该语音解码装置1000接收从图17所示的语音编码装置900发送的比特流。在图18中，对与实施方式4(图16)相同的结构部分赋予相同的标号，并省略其说明。

在语音解码装置1000中，逆滤波单元1003用式(2)表示。

分离单元1001将从图17所示的语音编码装置900接收的比特流分离为第一层编码数据、第二层编码数据、LPC系数编码数据以及特征量编码数据，并将第一层编码数据输出到第一层解码单元801，将第二层编码数据输出到第二层解码单元405，将LPC系数输出到LPC解码单元407，将特征量编码数据输出到特征量解码单元1002。而且，分离单元1001将层信息(表示比特流中包含哪层的编码数据的信息)输出到判定单元413。

与特征量解码单元903(图17)相同，特征量解码单元1002使用特征量编码数据对特征量进行解码，根据解码特征量决定在逆滤波单元1003使用的共振抑制系数γ，并将其输出到逆滤波单元1003。

逆滤波单元1003根据由特征量解码单元1002控制的共振抑制系数γ，根据式(2)进行逆滤波处理。

这样，语音解码装置1000能够对从图17所示的语音编码装置900发送的比特流进行解码。

另外，如上所述，LPC量化单元102(图17)将LPC系数变换为LSP参数后对其进行量化。因此，在本实施方式中，语音编码装置的结构也可以如图19所示。也就是说，在图19所示的语音编码装置1100中，不设置特征量分析单元901，LPC量化单元102计算LSP参数之间的距离并将其输出到特征量编码单元902。

进而，在LPC量化单元102生成解码LSP参数时，语音编码装置的结构也可以如图20所示。也就是说，在图20所示的语音编码装置1300中，不设置特征量分析单元901、特征量编码单元902以及特征量解码单元903，LPC量化单元102生成解码LSP参数，计算解码LSP参数之间的距离并将其输出到逆滤波单元904和905。

另外，对从图20所示的语音编码装置1300发送的比特流进行解码的语音解码装置1400的结构如图21所示。在图21中，LPC解码单元407还从解码LPC系数生成解码LSP参数，计算解码LSP参数之间的距离并将其输出到逆滤波单元1003。

(实施方式6)

在语音信号或音频信号中，经常发生复制源的低频域的频谱的动态范围(频谱的振幅的最大值与最小值之比)大于复制目的地的高频域的频谱的动态范围的情况。在这样的情况下，复制低频域的频谱而使其为高频域的频谱时，在高频域发生频谱的过大的峰值。然后，在将这样具有过大的峰值的频谱变换为时域所获得的解码信号中，发生铃响似的可听见的噪声，其结果，主观质量降低。

对此，为了实现主观质量的改善，提出了将低频域的频谱进行变形而使低频域的频谱的动态范围接近高频域的频谱的动态范围的技术(例如参照，押切，江原，吉田，“ピツチフイルタリングに基づくスペクトル符号化を用いた超広带域スケ-ラブル音声符号化の改善”，2004年秋季音講論集2-4-13，pp.297-298，2004年9月)。在该技术中，需要将表示如何变形了低频域的频谱的变形信息从语音编码装置发送到语音解码装置。

这里，在语音编码装置中对该变形信息进行编码时，在编码候补的数量不够的情况下，即，在低比特率的情况下，发生较大的量化误差。于是，若发生这样的较大的量化误差，则由该量化误差引起而不能充分进行低频域的频谱的动态范围的调整，其结果，有时会导致质量恶化。特别是，在选择了所表示的动态范围大于高频域的频谱的动态范围的编码候补时，在高频域的频谱中容易发生过大的峰值，有时会明显地出现质量恶化。

因此，在本实施方式中，在将使低频域的频谱的动态范围接近高频域的频谱的动态范围的技术适用于上述各个实施方式的情况下，在第二层编码单元108对变形信息进行编码时，与使动态范围变大的编码候补相比，更容易选择使动态范围变小的编码候补。

图22表示本发明实施方式6的第二层编码单元108的结构。在图22中，对与实施方式1(图7)相同的结构部分赋予相同的标号，并省略其说明。

在图22所示的第二层编码单元108中，频谱变形单元1087从第一层解码单元107输入第一层解码频谱S1(k)(0≤k＜FL)，并从频域变换单元1 05输入残差频谱S2(k)(0≤k＜FH)。频谱变形单元1087为了使解码频谱S1(k)的动态范围为适当的动态范围，将解码频谱S1(k)进行变形来改变解码频谱S1(k)的动态范围。然后，频谱变形单元1087将表示如何变形了解码频谱S1(k)的变形信息进行编码后输出到复用单元1086。而且，频谱变形单元1087将变形后的解码频谱(变形解码频谱)S1′(j，k)输出到内部状态设定单元1081。

图23表示频谱变形单元1087的结构。频谱变形单元1087将解码频谱S1(k)进行变形而使解码频谱S1(k)的动态范围接近残差频谱S2(k)的高频域(FL≤k＜FH)的动态范围。而且，频谱变形单元1087对变形信息进行编码，而后将其输出。

在图23所示的频谱变形单元1087中，变形频谱生成单元1101将解码频谱S1(k)进行变形而生成变形解码频谱S1′(j，k)，并将其输出到子带能量计算单元1102。这里，j为用于识别码本1111的各个编码候补(各个变形信息)的索引，变形频谱生成单元1101使用码本1111所包含的各个编码候补(各个变形信息)进行解码频谱S1(k)的变形。这里，列举一例使用指数函数进行频谱的变形的情况。例如，将码本1111所包含的编码候补表示为α(j)时，假设各个编码候补α(j)在0≤α(j)≤1的范围中。因此，变形解码频谱S1′(j，k)如式(15)所示。

S1′(j，k)＝sign(S1(k))·|S1(k)|^a(j) ...(15)

其中，sign()表示返回正或负的符号的函数。因此，编码候补α(j)取越接近于“ 0”的值，变形解码频谱S1′(j，k)的动态范围越小。

子带能量计算单元1102将变形解码频谱S1′(j，k)的频域划分为多个子带，求各个子带的平均能量(子带能量)P1(j，n)，并将其输出到方差计算单元1103。这里，n表示子带序号。

方差计算单元1103为了表示子带能量P1(j，n)的偏差的程度，求子带能量P1(j，n)的方差σ1(j)²。然后，方差计算单元1103将编码候补(变形信息)j 的方差σ1(j)²输出到减法单元1106。

另一方面，子带能量计算单元1104将残差频谱S2(k)的高频域划分为多个子带，求各个子带的平均能量(子带能量)P2(n)，并将其输出到方差计算单元1105。

方差计算单元1105为了表示子带能量P2(n)的偏差的程度，求子带能量P2(n)的方差σ2²，并将其输出到减法单元1106。

减法单元1106从方差σ2²中减去方差σ1(j)²，并将通过该相减所获得的误差信号输出到判定单元1107以及加权误差计算单元1108。

判定单元1107判定误差信号的符号(正或负)，并基于判定结果，决定提供给加权误差计算单元1108的权重(weight)。判定单元1107在误差信号的符号为正时，选择w_pos作为权重，在误差信号的符号为负时，选择w_neg作为权重，并将其输出到加权误差计算单元1108。w_pos和w_neg之间存在式(16)所示的大小关系。

0＜w_pos＜w_neg ...(16)

加权误差计算单元1108，首先计算从减法单元1106输入的误差信号的平方值，接着将从判定单元1107输入的权重w(w_pos或w_neg)乘以误差信号的平方值而计算加权平方误差E，并将其输出到搜索单元1109。加权平方误差E如式(17)所示。

E＝w·(σ2²-σ1(j)²)²

(w＝w_negorw_pos) ...(17)

搜索单元1109控制码本1111而使存储在码本1111的编码候补(变形信息)依次输出到变形频谱生成单元1101，并搜索使加权平方误差E为最小的编码候补(变形信息)。然后，搜索单元1109将使加权平方误差E为最小的编码候补的索引j_opt作为最佳变形信息输出到变形频谱生成单元1110以及复用单元1086。

变形频谱生成单元1110将解码频谱S1(k)进行变形而生成与最佳变形信息j_opt对应的变形解码频谱S1′(j_opt，k)，并将其输出到内部状态设定单元1081。

接着，说明本实施方式的语音解码装置的第二层解码单元203。图24表示本发明实施方式6的第二层解码单元203的结构。在图24中，对与实施方式1(图10)相同的结构部分赋予相同的标号，并省略其说明。

在第二层解码单元203中，变形频谱生成单元2036基于从分离单元2032 输入的最佳变形信息j_opt，将从第一层解码单元202输入的第一层解码频谱S1(k)进行变形而生成变形解码频谱S1′(j_opt，k)，并将其输出到内部状态设定单元2031。也就是说，变形频谱生成单元2036被配置为与语音编码装置端的变形频谱生成单元1110对应，并进行与变形频谱生成单元1110相同的处理。

如上所述，根据误差信号的符号决定在计算加权平方误差时的权重，并且，该权重存在如式(16)所示的关系时，可以进行如下叙述。

也就是说，误差信号为正的情况是指变形解码频谱S1′的偏差的程度小于作为目标值的残差频谱S2的偏差的程度的情况。也就是说，这相当于：在语音解码装置端生成的变形解码频谱S1′的动态范围小于残差频谱S2的动态范围。

另一方面，误差信号为负的情况是指变形解码频谱S1′的偏差的程度大于作为目标值的残差频谱S2的偏差的程度的情况。也就是说，这相当于：在语音解码装置端生成的变形解码频谱S1′的动态范围大于残差频谱S2的动态范围。

因此，如式(16)所示，通过将误差信号为正时的权重w_pos设定得小于误差信号为负时的权重w_neg，从而在平方误差为相同程度的值的情况下，生成动态范围比残差频谱S2的动态范围小的变形解码频谱S1′的编码候补容易被选择。也就是说，抑制动态范围的编码候补被优先地选择。因此，减少了在语音解码装置生成的估计频谱的动态范围大于残差频谱的高频域的动态范围的频度。

这里，在变形解码频谱S1′的动态范围大于作为目标的频谱的动态范围时，在语音解码装置中估计频谱上出现过大的峰值并容易使人的耳朵感觉到质量恶化，与此情况相对，在变形解码频谱S1′的动态范围小于作为目标的频谱的动态范围时，在语音解码装置中估计频谱上不容易出现上述那样的过大的峰值。因此，根据本实施方式，在将使低频域的频谱的动态范围与高频域的频谱的动态范围匹配的技术适用于实施方式1的情况下，能够防止听觉性的音质恶化。

另外，在上述说明中，以一例列举了使用指数函数作为频谱变形方法，但并不限于此，也可以利用其他的频谱变形方法，例如使用了对数函数的频谱变形等。

另外，在上述说明中，说明了使用子带的平均能量的方差的情况，但只要是表示频谱的动态范围的大小的指标，并不限定于子带的平均能量的方差。

(实施方式7)

图25表示本发明实施方式7的频谱变形单元1087的结构。在图25中，对与实施方式6(图23)相同的结构部分赋予相同的标号，并省略其说明。

在图25所示的频谱变形单元1087中，偏差程度计算单元1112-1根据解码频谱S1(k)的低频域的值的分布来计算解码频谱S1(k)的偏差程度，并将其输出到阈值设定单元1113-1和1113-2。具体而言，偏差程度是指解码频谱S1(k)的标准偏差σ1。

阈值设定单元1113-1使用标准偏差σ1求第一阈值TH1，并将其输出到平均频谱计算单元1114-1以及变形频谱生成单元1110。这里，第一阈值TH1是指用于来确定解码频谱S1(k)中振幅比较大的频谱的阈值，使用将标准偏差σ1与预定的常数a相乘所得的值。

阈值设定单元1113-2使用标准偏差σ1求第二阈值TH2，并将其输出到平均频谱计算单元1114-2以及变形频谱生成单元1110。这里，第二阈值TH2是指用于来确定解码频谱S1(k)的低频域中振幅比较小的频谱的阈值，使用将标准偏差σ1与预定的常数b(＜a)相乘所得的值。

平均频谱计算单元1114-1求其振幅比第一阈值TH1大的频谱的平均振幅值(以下，称为第一平均值)，并将其输出到变形矢量计算单元1115。具体而言，平均频谱计算单元1114-1将解码频谱S1(k)的低频域的频谱的值与解码频谱S1(k)的平均值m1加上第一阈值TH1所得的值(m1+TH1)进行比较，确定具有大于该值的值的频谱(步骤1)。接着，平均频谱计算单元1114-1将解码频谱S1(k)的低频域的频谱的值与从解码频谱S1(k)的平均值m1中减去第一阈值TH1所得的值(m1-TH1)进行比较，确定具有小于该值的值的频谱(步骤2)。然后，平均频谱计算单元1114-1求在步骤1和步骤2双方所求得的频谱的振幅的平均值，并将其输出到变形矢量计算单元1115。

平均频谱计算单元1114-2求其振幅比第二阈值TH2小的频谱的平均振幅值(以下，称为第二平均值)，并将其输出到变形矢量计算单元1115。具体而言，平均频谱计算单元1114-2将解码频谱S1(k)的低频域的频谱的值与解码频谱S1(k)的平均值m1加上第二阈值TH2所得的值(m1+TH2)进行比较，确定具有小于该值的值的频谱(步骤1)。接着，平均频谱计算单元1114-2将解码频谱S1(k)的低频域的频谱的值与从解码频谱S1(k)的平均值m1中减去第二阈值TH2所得的值(m1-TH2)进行比较，确定具有大于该值的值的频谱(步骤2)。然后，平均频谱计算单元1114-2求在步骤1和步骤2双方所求得的频谱的振幅的平均值，并将其输出到变形矢量计算单元1115。

另一方面，偏差程度计算单元1112-2根据残差频谱S2(k)的高频域的数值的分布来计算残差频谱S2(k)的偏差程度，并将其输出到阈值设定单元1113-3和1113-4。具体而言，偏差程度是指残差频谱S2(k)的标准偏差σ2。

阈值设定单元1113-3使用标准偏差σ2求第三阈值TH3，并将其输出到平均频谱计算单元1114-3。这里，第三阈值TH3是指用于确定残差频谱S2(k)的高频域中振幅比较大的频谱的阈值，使用将标准偏差σ2与预定的常数c相乘所得的值。

阈值设定单元1113-4使用标准偏差σ2求第四阈值TH4，并将其输出到平均频谱计算单元1114-4。这里，第四阈值TH4是指用于确定残差频谱S2(k)的高频域中振幅比较小的频谱的阈值，使用将标准偏差σ2与预定的常数d(＜c)相乘所得的值。

平均频谱计算单元1114-3求其振幅比第三阈值TH3大的频谱的平均振幅值(以下，称为第三平均值)，并将其输出到变形矢量计算单元1115。具体而言，平均频谱计算单元1114-3将残差频谱S2(k)的高频域的频谱的值与残差频谱S2(k)的平均值m3加上第三阈值TH3所得的值(m3+TH3)进行比较，确定具有大于该值的值的频谱(步骤1)。接着，平均频谱计算单元1114-3将残差频谱S2(k)的高频域的频谱的值与从残差频谱S2(k)的平均值m3中减去第三阈值TH3所得的值(m3-TH3)进行比较，确定具有小于该值的值的频谱(步骤2)。然后，平均频谱计算单元1114-3求在步骤1和步骤2双方所求得的频谱的振幅的平均值，并将其输出到变形矢量计算单元1115。

平均频谱计算单元1114-4求其振幅比第四阈值TH4小的频谱的平均振幅值(以下，称为第四平均值)，并将其输出到变形矢量计算单元1115。具体而言，平均频谱计算单元1114-4将残差频谱S2(k)的高频域的频谱的值与残差频谱S2(k)的平均值m3加上第四阈值TH4所得的值(m3+TH4)进行比较，确定具有小于该值的值的频谱(步骤1)。接着，平均频谱计算单元1114-4将残差频谱S2(k)的高频域的频谱的值与从残差频谱S2(k)的平均值m3中减去第四阈值TH4所得的值(m3-TH4)进行比较，确定具有大于该值的值的频谱(步骤 2)。然后，平均频谱计算单元1114-4求在步骤1和步骤2双方所求得的频谱的振幅的平均值，并将其输出到变形矢量计算单元1115。

变形矢量计算单元1115使用第一平均值、第二平均值、第三平均值以及第四平均值，由以下方式计算变形矢量。

也就是说，变形矢量计算单元1115计算第三平均值与第一平均值之比(以下，称为第一增益)以及第四平均值与第二平均值之比(以下，称为第二增益)，并将第一增益以及第二增益作为变形矢量输出到减法单元1106。以下，将变形矢量表示为g(i)(i＝1，2)。也就是说，g(1)表示第一增益，g(2)表示第二增益。

减法单元1106从变形矢量g(i)中减去属于变形矢量码本1116的编码候补，并将通过该相减所获得的误差信号输出到判定单元1107以及加权误差计算单元1108。以下，将编码候补表示为v(j，i)。其中，j为用于识别变形矢量码本1116的各个编码候补(各个变形信息)的索引。

判定单元1107判定误差信号的符号(正或负)，并基于判定结果，对每个第一增益g(1)和第二增益g(2)决定提供给加权误差计算单元1108的权重(weight)。对于第一增益g(1)，判定单元1107在误差信号的符号为正时，选择w_light作为权重，在误差信号的符号为负时，选择w_heavy作为权重，并将其输出到加权误差计算单元1108。另一方面，对于第二增益g(2)，判定单元1107在误差信号的符号为正时，选择w_heavy作为权重，在误差信号的符号为负时，选择w_light作为权重，并将其输出到加权误差计算单元1108。w_light和w_heavy之间存在式(18)所示的大小关系。

0＜w_light＜w_heavy ...(18)

加权误差计算单元1108，首先计算从减法单元1106输入的误差信号的平方值，接着求误差信号的平方值与每个第一增益g(1)和第二增益g(2)的从判定单元1107输入的权重w(w_light或w_heavy)的积和，从而求加权平方误差E，并将其输出到搜索单元1109。加权平方误差E如式(19)所示。

E = Σ_{i = 1}^{2} w (i) \cdot {(g (i) - v (j, i))}^{2}

(w (i) = w_{light} {orw}_{heavy}) . . . (19)

搜索单元1109控制变形矢量码本1116而使存储在变形矢量码本1116中的编码候补(变形信息)被依次输出到减法单元1106，并搜索使加权平方误差E 为最小的编码候补(变形信息)。然后，搜索单元1109将使加权平方误差E为最小的编码候补的索引j_opt作为最佳变形信息输出到变形频谱生成单元1110以及复用单元1086。

变形频谱生成单元1110使用第一阈值TH1、第二阈值TH2以及最佳变形信息j_opt，将解码频谱S1(k)进行变形，从而生成与最佳变形信息j_opt对应的变形解码频谱S1′(j_opt，k)，并将其输出到内部状态设定单元1081。

变形频谱生成单元1110首先利用最佳变形信息j_opt而生成第三平均值与第一平均值之比的解码值(以下，称为解码第一增益)，以及第四平均值与第二平均值之比的解码值(以下，称为解码第二增益)。

接着，变形频谱生成单元1110比较解码频谱S1(k)的振幅值和第一阈值TH1，确定与第一阈值TH1相比振幅较大的频谱，并将这些频谱与解码第一增益相乘而生成变形解码频谱S1′(j_opt，k)。同样地，变形频谱生成单元1110比较解码频谱S1(k)的振幅值和第二阈值TH2，确定与第二阈值TH2相比振幅较小的频谱，并将这些频谱与解码第二增益相乘而生成变形解码频谱S1′(j_opt，k)。

另外，在解码频谱S1(k)中，对于属于第一阈值TH1和第二阈值TH2之间的区域内的频谱，不存在编码信息。因此，变形频谱生成单元1110使用具有解码第一增益与解码第二增益的中间值的增益。例如，变形频谱生成单元1110从基于解码第一增益、解码第二增益、第一阈值TH1以及第二阈值TH2的特性曲线，求对应某一振幅x的解码增益y，并将该增益乘以解码频谱S1(k)的振幅。也就是，解码增益y为解码第一增益以及解码第二增益的线性插值。

这样，根据本实施方式，能够获得与实施方式6相同的作用和效果。

(实施方式8)

图26表示本发明实施方式8的频谱变形单元1087的结构。在图26中，对与实施方式6(图23)相同的结构部分赋予相同的标号，并省略其说明。

在图26所示的频谱变形单元1087中，校正单元1117从方差计算单元1105输入方差σ2²。

校正单元1117进行减小方差σ2²的值的校正处理，并将其输出到减法单元1106。具体而言，校正单元1117将“0”以上、小于“1”的值乘以方差σ2²。

减法单元1106从校正处理后的方差中减去σ1(j)²，并将通过该相减所获得的误差信号输出到误差计算单元1118。

误差计算单元1118计算从减法单元1106输入的误差信号的平方值(平方误差)，并将其输出到搜索单元1109。

搜索单元1109对码本1111进行控制而使存储在码本1111的编码候补(变形信息)依次输出到变形频谱生成单元1101，并搜索使平方误差为最小的编码候补(变形信息)。然后，搜索单元1109将使平方误差为最小的编码候补的索引j_opt作为最佳变形信息输出到变形频谱生成单元1110以及复用单元1086。

这样，根据本实施方式，通过在校正单元1117的校正处理，在搜索单元1109，进行将校正处理后的方差、即、将值变小的方差作为目标值的编码候补的搜索。因此，在语音解码装置中，由于能够抑制估计频谱的动态范围，从而能够进一步减少上述那样的过大的峰值的发生频度。

另外，在校正单元1117中，也可以根据输入语音信号的特性，改变与方差σ2²相乘的值。使用输入语音信号的音调周期性的强度作为该特性是合适的。也就是说，校正单元1117也可以在输入语音信号的音调周期性较弱时(例如，音调增益较小时)，使与方差σ2²相乘的值为较大的值，在输入语音信号的音调周期性较强时(例如，音调增益较大时)，使与方差σ2²相乘的值为较小的值。通过这样的自适应，仅对音调周期性较强的信号(例如母音部分)，不容易产生过大的频谱峰值，其结果，能够改善听觉性的音质。

(实施方式9)

图27表示本发明实施方式9的频谱变形单元1087的结构。在图27中，对与实施方式7(图25)相同的结构部分赋予相同的标号，并省略其说明。

在图27所示的频谱变形单元1087中，校正单元1117从变形矢量计算单元1115输入变形矢量g(i)。

校正单元1117至少进行以下一个校正处理，即减少第一增益g(1)的值的校正处理以及增大第二增益g(2)的值的校正处理，并将其输出到减法单元1106。具体而言，校正单元1117将“0”以上、小于“1”的值乘以第一增益g(1)，将比“1”大的值乘以第二增益g(2)。

减法单元1106从校正处理后的变形矢量中减去属于变形矢量码本1116的编码候补，并将通过该相减所获得的误差信号输出到误差计算单元1118。

搜索单元1109对变形矢量码本1116进行控制而使存储在变形矢量码本 1116的编码候补(变形信息)依次输出到减法单元1106，并搜索使平方误差为最小的编码候补(变形信息)。然后，搜索单元1109将使平方误差为最小的编码候补的索引j_opt作为最佳变形信息输出到变形频谱生成单元1110以及复用单元1086。

这样，根据本实施方式，通过在校正单元1117的校正处理，在搜索单元1109中，进行将使校正处理后的变形矢量、即、使动态范围变小的变形矢量为目标值的编码候补的搜索。因此，在语音解码装置中，由于能够抑制估计频谱的动态范围，从而能够进一步减少上述那样的过大的峰值的发生频度。

另外，在本实施方式中也与实施方式8相同，也可以在校正单元1117中，根据输入语音信号的特性，改变与变形矢量g(i)相乘的值。与实施方式8相同，通过这样的自适应化，仅对音调周期性较强的信号(例如母音部分)，不容易产生过大的频谱峰值，其结果，能够改善听觉性的音质。

(实施方式10)

图28表示本发明实施方式10的第二层编码单元108的结构。在图28中，对与实施方式6(图22)相同的结构部分赋予相同的标号，并省略其说明。

在图28所示的第二层编码单元108中，频谱变形单元1088从频域变换单元105输入残差频谱S2(k)，并从搜索单元1083输入残差频谱的估计值(估计残差频谱)S2′(k)。

频谱变形单元1088参照残差频谱S2(k)的高频域的动态范围，使估计残差频谱S2′(k)变形，从而使估计残差频谱S2′(k)的动态范围改变。然后，频谱变形单元1088对表示如何地变形了估计残差频谱S2′(k)的变形信息进行编码后输出到复用单元1086。而且，频谱变形单元1088将变形后的估计残差频谱(变形残差频谱)输出到增益编码单元1085。另外，由于频谱变形单元1088的内部结构与频谱变形单元1087相同，所以省略其详细说明。

由于在增益编码单元1085的处理为将实施方式1中的“残差频谱的估计值S2′(k)”读为“变形残差频谱”的处理，所以省略其详细说明。

接着，说明本实施方式的语音解码装置的第二层解码单元203。图29表示本发明实施方式10的第二层解码单元203的结构。在图29中，对与实施方式6(图24)相同的结构部分赋予相同的标号，并省略其说明。

在第二层解码单元203中，变形频谱生成单元2037基于从分离单元2032输入的最佳变形信息j_opt，即，关于变形残差频谱的最佳变形信息j_opt，将从滤波单元2033输入的解码频谱S′(k)进行变形，并将其输出到频谱调整单元2035。也就是说，变形频谱生成单元2037被配置为与语音编码装置端的频谱变形单元1088对应，并进行与频谱变形单元1088相同的处理。

这样，根据本实施方式，由于不仅使解码频谱S1(k)变形而且使估计残差频谱S2′(k)变形，所以能够生成具有更合适的动态范围的估计残差频谱。

(实施方式11)

图30表示本发明实施方式11的第二层编码单元108的结构。在图30中，对与实施方式6(图22)相同的结构部分赋予相同的标号，并省略其说明。

在图30所示的第二层编码单元108中，频谱变形单元1087根据与语音解码装置共享的预定的变形信息，使解码频谱S1(k)变形，从而使解码频谱S1(k)的动态范围改变。然后，频谱变形单元1087将变形解码频谱S1′(j，k)输出到内部状态设定单元1081。

接着，说明本实施方式的语音解码装置的第二层解码单元203。图31表示本发明实施方式11的第二层解码单元203的结构。在图31中，对与实施方式6(图24)相同的结构部分赋予相同的标号，并省略其说明。

在第二层解码单元203中，变形频谱生成单元2036根据与语音编码装置共享的预定的变形信息，即与图30的频谱变形单元1087使用过的预定的变形信息相同的变形信息，使从第一层解码单元202输入的第一层解码频谱S1(k)变形，并将其输出到内部状态设定单元2031。

这样，根据本实施方式，语音编码装置的频谱变形单元1087和语音解码装置的变形频谱生成单元2036根据预先设定的相同的变形信息进行变形处理，所以不需要从语音编码装置将变形信息发送到语音解码装置。这样，与实施方式6相比，根据本实施方式，能够降低比特率。

另外，也可以图28所示的频谱变形单元1088和图29所示的变形频谱生成单元2037根据预先设定的相同的变形信息进行变形处理。由此，能够进一步降低比特率。

(实施方式12)

实施方式10中的第二层编码单元108也可以采用不具有频谱变形单元1087的结构。因此，作为实施方式12，图32表示这种情况下的第二层编码单元108的结构。

而且，在第二层编码单元108不具有频谱变形单元1087的情况下，在语音解码装置中也不需要与频谱变形单元1087对应的变形频谱生成单元2036。因此，作为实施方式12，图33表示这种情况下的第二层解码单元203的结构。

以上说明了本发明实施方式。

另外，实施方式6至12的第二层编码单元108也可以用于实施方式2(图11)、实施方式3(图12)、实施方式4(图15)以及实施方式5(图17)。但是，在实施方式4和5(图15，图17)中，由于在对第一层解码信号进行上采样后进行频域变换，所以第一层解码频谱S1(k)的频域为0≤k＜FH。但是，由于只在进行上采样之后变换到频域，所以在频带FL≤k＜FH中不包含有效的信号分量。因此，在这些实施方式中，也可以将第一层解码频谱S1(k)的频带作为0≤k＜FL来处理。

另外，实施方式6至12的第二层编码单元108也可以用于在实施方式2至5中记载的语音编码装置以外的语音编码装置的第二层中的编码。

另外，在上述实施方式中，在第二层编码单元108内，在复用单元1086将音调系数和索引等进行复用而将其作为第二层编码数据输出后，在复用单元109将第一层编码数据、第二层编码数据以及LPC系数编码数据进行复用而生成比特流，但并不限于此，也可以在第二层编码单元108内不设置复用单元1086，而将音调系数和索引等直接输入到复用单元109并进行与第一层编码数据等的复用。另外，对于第二层解码单元203，将在分离单元201从比特流中分离而生成的第二层编码数据输入到第二层解码单元203内的分离单元2032，在分离单元2032还分离为音调系数和索引等，但不限于此，也可以在第二层解码单元203内不设置分离单元2032，而在分离单元201将比特流直接分离为音调系数和索引等，从而将其输入到第二层解码单元203。

另外，在上述实施方式中，以可扩展编码的层数是2的情况为例进行了说明，但不限于此，本发明也可以适用于具有三层以上的层的可扩展编码。

另外，在上述实施方式中以使用MDCT作为第二层中的变换编码的方式为例进行了说明，但并不限于此，在本发明中也可以使用FFT(快速傅立叶变换)、DFT(离散付立叶变换)、DCT(离散余弦变换)、滤波器组(filter bank)以及小波变换(Wavelet transform)等其他的变换编码方式。

另外，在上述实施方式中以输入信号是语音信号的情况为例进行了说明，但不限于此，本发明也能够适用于音频信号。

另外，将上述实施方式的语音编码装置和语音解码装置配置在移动通信系统所使用的无线通信移动台装置和无线通信基站装置上，能够防止移动通信中的语音质量的恶化。另外，有时无线通信移动台装置被表示为UE，无线通信基站装置被表示为Node B。

另外，在上述实施方式中，以本发明通过硬件构成的情况为例进行了说明，但本发明也可以通过软件来实现。

另外，用于上述实施方式的说明中的各功能块通常被作为集成电路的LSI来实现。这些块既可以被单独地集成为一个芯片，也可以包含一部分或全部地被集成为一个芯片。虽然此处称为LSI，但根据集成程度，可以被称为IC、系统LSI、超大LSI(Super LSI)、或特大LSI(Ultra LSI)。

另外，实现集成电路化的方法不仅限于LSI，也可使用专用电路或通用处理器来实现。也可以使用可在LSI制造后编程的FPGA(Field ProgrammableGate Array：现场可编程门阵列)，或者可重构LSI内部的电路单元的连接和设定的可重构处理器。

再者，随着半导体的技术进步或随之派生的其它技术的出现，如果出现能够替代LSI的集成电路化的新技术，当然可利用该新技术进行功能块的集成化。还存在着适用生物技术等的可能性。

本说明书基于2005年9月30日申请的日本专利申请2005-286533及2006年7月21日申请的日本专利申请2006-199616。其内容全部包含于此。

工业实用性

本发明能够适用于在移动通信系统中使用的无线通信移动台装置和无线通信基站装置等用途。

Claims

1.一种语音编码装置，包括：

平整单元，使用具有与语音信号的频谱包络相反的特性的逆滤波器，对所述语音信号的频谱进行平整，以求预测残差信号；

频域变换单元，对由所述平整单元得到的预测残差信号进行频率分析，并求残差频谱作为变换系数；

第一编码单元，对比所述残差频谱的阈值频率低的频带的低频域的残差频谱进行编码，以求第一层编码数据；

第一层解码单元，对由所述第一编码单元得到的第一层编码数据进行解码，以求第一层解码频谱；以及

第二编码单元，使用由所述第一层解码单元得到的第一层解码频谱，对比所述残差频谱的所述阈值频率高的频域的高频域的残差频谱进行编码。

2.如权利要求1所述的语音编码装置，其中，所述平整单元使用所述语音信号的线性预测编码系数而构成所述逆滤波器。

3.如权利要求1所述的语音编码装置，其中，所述平整单元根据所述语音信号的特征，改变平整的程度。

4.如权利要求3所述的语音编码装置，其中，所述语音信号的共振的程度越强，所述平整单元越降低所述平整的程度。

5.如权利要求1所述的语音编码装置，其中，所述第二编码单元使所述第一层解码频谱变形，并使用变形后的所述第一层解码频谱对所述高频域的残差频谱进行编码。

6.如权利要求5所述的语音编码装置，其中，所述第二编码单元对所述第一层解码频谱进行使所述第一层解码频谱的动态范围接近所述高频域的残差频谱的动态范围的变形。

7.如权利要求6所述的语音编码装置，其中，所述第二编码单元在多个编码候补中，与增大动态范围的编码候补相.比，优先地使用减小动态范围的编码候补，使所述第一层解码频谱变形。

8.如权利要求7所述的语音编码装置，其中，所述第二编码单元进行减小编码候补搜索用的目标值的校正，基于该校正后的目标值，对所述多个编码候补搜索用于对由所述第一层解码频谱进行变形的编码候补。

9.如权利要求5所述的语音编码装置，其中，所述第二编码单元从所述第一层解码频谱估计所述高频域的残差频谱，使估计出的高频域的残差频谱变形，并使用变形后的高频域的残差频谱，对所述语音信号的高频域的残差频谱进行编码。

10.如权利要求1所述的语音编码装置，其中，所述第二编码单元从所述第一层解码频谱估计所述高频域的残差频谱，使估计出的高频域的残差频谱变形，并使用变形后的高频域的残差频谱，对所述语音信号的高频域的残差频谱进行编码。

11.一种无线通信移动台装置，具有权利要求1所述的语音编码装置。

12.一种无线通信基站装置，具有权利要求1所述的语音编码装置。

13.一种语音编码方法，包括：

平整步骤，使用具有与语音信号的频谱包络相反的特性的逆滤波器，对所述语音信号的频谱进行平整，以求预测残差信号；

频域变换步骤，对在所述平整步骤中得到的预测残差信号进行频率分析，并求残差频谱作为变换系数；

第一编码步骤，对比所述残差频谱的阈值频率低的频带的低频域的残差频谱进行编码，以求第一层编码数据；

第一层解码步骤，对在所述第一编码步骤中得到的第一层编码数据进行解码，以求第一层解码频谱；以及

第二编码步骤，使用在所述第一层解码步骤中得到的第一层解码频谱，对比所述残差频谱的所述阈值频率高的频域的高频域的残差频谱进行编码。