CN1947173A

CN1947173A - 分层编码装置及分层编码方法

Info

Publication number: CN1947173A
Application number: CNA2005800125881A
Authority: CN
Inventors: 押切正浩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: III Holdings 12 LLC
Priority date: 2004-04-28
Filing date: 2005-04-22
Publication date: 2007-04-11
Anticipated expiration: 2025-04-22
Also published as: US7949518B2; EP1736965A4; ATE403217T1; BRPI0510513A; US20070233467A1; WO2005106850A1; CN1947173B; KR20070007851A; JPWO2005106850A1; DE602005008574D1; EP1736965B1; JP4679513B2; EP1736965A1

Abstract

公开了一种能够计算出恰当的延迟量，抑制比特率的增加的分层编码装置。在此装置中，第一层编码单元(101)对第n个帧的输入信号进行编码，生成第一层编码符号。第一层解码单元(102)从第一层编码符号生成第一层解码信号，并提供给延迟量计算单元(103)和第二层编码单元(105)。延迟量计算单元(103)使用第一层解码信号和输入信号计算出应赋予输入信号的延迟量，并将计算的延迟量提供给延迟单元(104)。延迟单元(104)用从延迟量计算单元(103)得到的延迟量对输入信号进行延迟后提供给第二层编码单元(105)。第二层编码单元(105)使用第一层解码信号和延迟单元(104)提供的输入信号进行编码。

Description

分层编码装置及分层编码方法

技术领域

本发明涉及分层编码装置及分层编码方法。

背景技术

用低比特率压缩语音信号的语音编码技术，对于诸如有效利用移动通信系统的电波等来说非常重要。而且近些年的趋势是，对通话语音质量的要求在提高，人们希望通话服务能够具有更高的临场感。为此，不仅期望语音信号质量的提高，而且还期望能对诸如音频等更宽频带的非语音信号进行高质量的编码。

这样，需要一种在电波的接收环境较好时实现高质量化，而在接收环境较差时实现低比特率的编码技术。对于这种要求，将多种编码技术分层次地结合起来而使之具有可扩展性的研究将很有前途。可扩展性(或可扩展功能)是指从部分编码符号也能生成解码信号的功能。

图1是表示具有二层结构的分层编码装置10的结构的方框图，作为现有的分层编码(嵌入编码，可扩展编码)装置的一个例子。

将声音数据作为输入信号输入进来，而向下采样单元11生成低采样率的信号。向下采样所得的信号提供给第一层编码单元12，并被编码。第一层编码单元12将所得的编码符号提供给复用单元17，同时也提供给第一层解码单元13。在第一层解码单元13，根据编码符号生成第一层解码信号。接着，向上采样单元14增加第一层解码单元13输出的解码信号的采样率。而延迟单元15向输入信号赋予规定时间的延迟。从延迟单元15输出的输入信号中减去向上采样单元14输出的第一层解码信号而生成残差信号，并将此残差信号提供给第二层编码单元16。第二层编码单元16对残差信号进行编码，向复用单元17输出编码符号。复用单元17将第一层编码符号和第二层编码符号复用后作为编码符号输出。

这个分层编码装置10包括延迟单元15，对输入信号赋予预定的时间延迟。这个延迟单元15的目的是为了校正输入信号与第一层解码信号的时间偏移(相位差)。延迟单元15所校正的相位差产生于向下采样单元11或向上采样单元14的滤波处理过程，以及第一层编码单元12或第一层解码单元13的信号处理过程。用于校正这个相位差的延迟量，即延迟单元15将使用的延迟量，使用预先设定的固定值(固定的采样数)(例如，参照专利文献1、2)。

专利文献1：日本专利公开公报特开平8-46517号

专利文献2：日本专利公开公报特开平8-263096号

发明内容

但是，根据第一层编码单元所使用的编码方法及向上采样单元或向下采样单元所进行的各个处理的技术，延迟单元所应校正的相位差会随着时间而变化。

例如，第一层编码单元采用CELP(符号激励线性预测编码：Code ExcitedLinear Prediction)方式时，为了使听觉上的失真不易被查觉，CELP方式所进行的种种处理很多是基于其相位特性随着时间变化的滤波处理。例如，编码单元中的听觉掩蔽处理、解码单元中的音调增强处理、脉冲扩频处理、噪声后处理、后滤波处理等等都基于其相位特性随着时间变化的滤波处理。另外，并不是所有这些处理都适用于CELP，而是比特率越低，这些处理越适用于CELP。

CELP的这样的处理是通过每隔预定的时间(通常以帧为单位)所求得的输入信号的特性参数来进行的。对于像语音信号一样其特性随着时间而变化的信号，这些参数也随着时间而变化，结果滤波器的相位特性发生变化。因此发生第一层解码信号的相位随着时间而变化的现象。

又，除了CELP以外，在向上采样处理和向下采样处理中，相位也有可能随着时间发生变化。例如，这些采样变换处理所使用的低通滤波器(LPF)采用IIR型滤波器的时候，这个滤波器的特性不再是线性相位特性。因此只要输入信号的频率特性发生变化，相位差就发生变化。而对于具有线性相位特性的FIR型LPF来说，其相位差则是固定的。

如此，对于延迟单元所应校正的相位差随时间而变化的情况，现有的分层编码装置由于在延迟单元根据固定的延迟量校正相位差，因而不能进行恰当的相位校正。

图2和图3是用来比较延迟单元的相位校正恰当时和不恰当时的残差信号的图。

图2表示相位校正恰当时的残差信号。如图所示，相位校正恰当时，通过对输入信号的相位进行D采样数的校正，使之适合于第一层解码信号的相位，而可以使残差信号的振幅值变小。另外，图3表示相位校正不恰当时的残差信号。如图所示，相位校正不恰当时，即使从输入信号直接减去第一层解码信号，相位差也不能被正确地校正过来，所以残差信号的振幅值会变大。

这样，当延迟单元所进行的相位校正不恰当时，就发生残差信号的振幅变大的现象。此时，第二层编码单元(将输入信号与第一层解码信号的相位差视作问题点时)的编码需要庞大的比特。结果导致从第二层编码单元输出的编码符号的比特率增大。

另外，到此为止，虽然为了简化说明，着眼于对输入信号与第一层解码信号的相位差进行校正的延迟单元，但在具有三层以上结构的分层编码中，情况也是一样的。即，当延迟单元所应校正的相位差随时间变化时，如果在延迟单元使用固定的延迟量，则将出现下层的编码单元输出的编码符号的比特率会增大的问题。

因此，本发明的目的是，提供一种能够计算恰当的延迟量，抑制比特率增大的分层编码装置及分层编码方法。

本发明的分层编码装置的结构包括，第M层编码单元，使用下一层的解码信号和输入信号进行第M层编码；延迟单元，设置在所述第M层编码单元的前级，对所述输入信号赋予延迟；计算单元，利用所述下一层的解码信号及所述输入信号的相位差，每隔预定时间计算所述延迟单元应赋予的延迟。

根据本发明，能够计算出恰当的延迟量，抑制比特率的增大。

附图说明

图1是表示现有的分层编码装置的结构的方框图；

图2是表示相位校正恰当时的残差信号的图；

图3是表示相位校正不恰当时的残差信号的图；

图4是表示根据实施方式1的分层编码装置的主要结构的方框图；

图5是表示根据实施方式1的延迟量计算单元内部的主要结构的方框图；

图6是表示语音信号进行处理时的延迟量Dmax的变化状态的图；

图7是表示根据实施方式1的第一层编码单元采用CELP时的结构的图；

图8是表示根据实施方式1的第一层解码单元的结构的图；

图9是表示根据实施方式1的第二层编码单元内部的主要结构的方框图；

图10是表示根据实施方式1的第二层编码单元的另一变化形式的方框图；

图11是表示根据实施方式1的分层解码装置内部的主要结构的方框图；

图12是表示根据实施方式1的第一层解码单元内部的主要结构的方框图；

图13是表示根据实施方式1的第二层解码单元内部的主要结构的方框图；

图14是表示根据实施方式1的第二层解码单元的变化形式的方框图；

图15是表示根据实施方式2的分层编码装置的主要结构的方框图；

图16是表示根据实施方式2的延迟量计算单元内部的主要结构的方框图；

图17是表示根据实施方式3的延迟量计算单元的主要结构的方框图；

图18是表示根据实施方式4的延迟量计算单元的主要结构的方框图；

图19是表示根据实施方式5的分层编码装置的主要结构的方框图；

图20是表示根据实施方式6的分层编码装置的主要结构的方框图；

图21是表示根据实施方式6的延迟量计算单元内部的主要结构的方框图；

图22是表示根据实施方式6的变形相关分析单元所进行的处理的概要的说明图；

图23是表示根据实施方式6的变形相关分析单元所进行的处理的另一变化形式的图；

图24是表示根据实施方式7的延迟量计算单元的主要结构的方框图；以及

图25是表示根据实施方式8的延迟量计算单元的主要结构的方框图。

具体实施方式

以下，参照附图对本发明的实施方式进行详细说明。

(实施方式1)

图4是表示根据本发明的实施方式1的分层编码装置100的主要结构的方框图。

分层编码装置100输入例如声音数据等，用预先设定的采样数将输入信号分割成帧提供给第一层编码单元101。输入信号表示为s(i)时，包括(n-1)·NF≤i＜n·NF范围的输入信号的帧为第n个帧。在此，NF表示帧长。

第一层编码单元101，对第n个帧的输入信号进行编码，将第一层编码符号提供给复用单元106，同时也提供给第一层解码单元102。

第一层解码单元102从第一层编码符号生成第一层解码信号，将此第一层解码信号提供给延迟量计算单元103和第二层编码单元105。

延迟量计算单元103根据第一层解码信号和输入信号计算出应该赋予输入信号的延迟量，将此延迟量提供给延迟单元104。另外，关于延迟量计算单元103，将在后详细描述。

延迟单元104根据延迟量计算单元103所提供的延迟量对输入信号进行延迟后，输出到第二层编码单元105。用D(n)表示延迟量计算单元103提供的延迟量，提供给第二层编码单元105的输入信号可表示为s(i-D(n))。

第二层编码单元105根据第一层解码信号和延迟单元104所提供的输入信号进行编码，将第二层编码符号输出到复用单元106。

复用单元106，对第一层编码单元101所求出的第一层编码符号和第二层编码单元105所求得的第二层编码符号进行复用后，作为输出码输出。

图5是表示延迟量计算单元103内部的主要结构的方框图。

延迟量计算单元103将所输入的输入信号s(i)和第一层解码信号y(i)提供给相关分析单元121。

相关分析单元121计算出输入信号s(i)与第一层解码信号y(i)的相互相关值Cor(D)。相互相关值Cor(D)的定义如下面的公式(1)所示。

〔公式1〕

Cor (D) = Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} s (i - D) \cdot y (i)

…(式1)

或者，也可以使用对各个信号进行能量归一化的下面的公式(2)。

〔公式2〕

Cor (D) = \frac{Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} s (i - D) \cdot y (i)}{\sqrt{Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} s {(i - D)}^{2}} \cdot \sqrt{Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} y {(i)}^{2}}}

…(式2)

此处，D表示延迟量，而在DMIN≤D≤DMAX的范围内计算相互相关值。DMIN和DMAX表示延迟量D可取的最小值和最大值。

另外，虽然此处假设使用(n-1)·NF≤i＜n·NF范围的信号，即第n个帧全体信号，但本发明不限于此，也可使用比帧长还长的或还短的信号计算相互相关值。

再或者，也可以将用D的函数表示的权重w(D)乘以上述公式(1)的右边或上述公式(2)的右边后作为相互相关值Cor(D)使用。此时，公式(1)和公式(2)可表示为公式(3)和公式(4)。

〔公式3〕

Cor (D) = w (D) \cdot Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} s (i - D) \cdot y (i)

…(式3)

〔公式4〕

Cor (D) = w (D) \cdot \frac{Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} s (i - D) \cdot y (i)}{\sqrt{Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} s {(i - D)}^{2}} \cdot \sqrt{Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} y {(i)}^{2}}}

…(式4)

相关分析单元121，将如此算出的相互相关值Cor(D)提供给最大值检测单元122。

最大值检测单元122检测出相关分析单元121所提供的相互相关值Cor(D)中的最大值，并输出此时的延迟量Dmax(计算所得延迟量)

图6是表示语音信号进行处理时的延迟量Dmax的变化状态的图。图6的上部分表示输入语音信号，其横轴表示时间，纵轴表示振幅值。图6的下部分表示根据上述公式(2)计算所得的延迟量的变化，其横轴表示时间，纵轴表示延迟量Dmax。

图6的下部分所示延迟量表示对于第一层编码单元101和第一层解码单元102在理论上所产生的延迟量的相对值。在此图中假设，将输入信号的采样率设为16kHz，且第一层编码单元101采用CELP方式。从图中可知，应该赋予输入信号的延迟量随着时间而变化。再观察，例如时间为0～0.15秒、0.2～0.3秒的部分，即可知在非有声(无声或背景噪声)的部分，延迟量D的变化存在不稳定的倾向。

这样，根据本实施方式，二层结构的分层编码包括，利用输入信号和第一层解码信号动态地(以帧为单位)计算延迟量的延迟量计算单元103。而且，第二层编码单元105使用被赋予了这个动态延迟量的输入信号进行第二层编码。据此，可更加精确地使输入信号的相位和第一层解码信号的相位一致，能够削减第二层编码单元105的比特率。

如果再进一步普遍化，本实施方式在由多层构成的分层编码的第M层编码(M为自然数)中，延迟量计算单元以帧为单位根据输入信号和第M-1层的解码信号求出延迟量，根据这个延迟量对输入信号进行延迟。如此，能够改善输入信号与下层的输出信号的近似性(相位差)，以便可能削减第M层编码单元的比特率。

另外，在本实施方式中，作为例子，对以帧为单位计算延迟量的情况进行了说明，但延迟量的计算时机(计算间隔)并不限于以帧为单位，而是以特定的处理的处理单位时间为基准进行。例如，当第一层编码单元采用CELP方式时，此CELP一般以帧为单位进行LPC分析及编码，所以延迟量的计算也以帧为单位进行。

以下，详细说明上述分层编码装置100的各个部分。

图7是表示第一层编码单元101采用CELP时的结构的图。另外，此处，虽然对采用CELP时的情况予以说明，但在第一层编码单元101采用CELP并不是本发明的必要条件，而是还可以采用其他的方式。

LPC分析单元131求出输入信号的LPC系数。此LPC系数提供给听觉加权滤波器135和听觉加权合成滤波器134用来提高听觉上的质量。与此同时，还提供给LPC量化单元132，LPC量化单元132将LPC系数变换为适合于量化的诸如LSP系数等的参数，再进行量化。由此量化所得的编码符号提供给复用单元144和LPC解码单元133。LPC解码单元133根据编码符号计算出量化后的LSP系数，并变换成LPC系数。如此，得到量化后的LPC系数。这个量化后的LPC系数提供给听觉加权合成滤波器134，并用于自适应码簿136、自适应增益、噪声码簿137、及噪声增益的编码处理。

此处，听觉加权滤波器135可表示为下面的公式(5)。

〔公式5〕

W (z) = \frac{1 - Σ_{i = 1}^{NP} α (i) \cdot {γ_{MA}}^{i} \cdot z^{- i}}{1 - Σ_{i = 1}^{NP} α (i) \cdot {γ_{AR}}^{i} \cdot z^{- i}}

…(式5)

此处，α(i)为LPC系数，NP为LPC系数的次数，γ_AR、γ_MA为控制听觉加权强度的参数。LPC系数是以帧为单位求出的，所以听觉加权滤波器135的特性将以帧为单位变化。

听觉加权滤波器135，根据LPC分析单元131所求得的LPC系数对输入信号进行加权。这是为了调整频谱的形状，使量化失真的频谱被输入信号的频谱包络所掩蔽。

下面，对自适应向量、自适应向量增益、噪声向量、及噪声向量增益的搜索方法给予说明。

自适应码本136，将过去生成的驱动声源信号作为内部状态保存着，能够以所期望的音调周期重复此内部状态而生成自适应向量。音调周期的优选取值范围为60Hz～400Hz之间。另外，噪声码本137将预先保存在存储区域的噪声向量，或像代数结构一样不具有存储区域而是依据特定的规则生成的向量作为噪声向量输出。增益码本143输出将与自适应向量相乘的自适应向量增益以及将与噪声向量相乘的噪声向量增益，乘法器138和乘法器139将各个增益乘以各自的向量。加法器140将被乘以了自适应向量增益的自适应向量和被乘以了噪声向量增益的噪声向量相加而生成驱动声源信号，并提供给听觉加权合成滤波器134。听觉加权合成滤波器可表示为下面的公式(6)。

〔公式6〕

H_{w} (z) = \frac{W (z)}{1 - Σ_{i = 1}^{NP} α^{'} (i) \cdot z^{- i}}

…(式6)

此处，a’(i)表示量化后的LPC系数。

在听觉加权合成滤波器134中，有驱动声源信号通过，并生成听觉加权合成信号，提供给减法器141。减法器141从听觉加权输入信号中减去听觉加权合成信号，并将经过减法运算的信号提供给搜索单元142。搜索单元142，从经过减法运算的信号中，有效地搜索出由经过减法运算的信号所定义的失真为最小的自适应向量、自适应向量增益、噪声向量、以及噪声向量增益的组合，将这些编码符号送给复用单元144。虽然此例所示的结构将自适应向量增益和噪声向量增益视为向量的两个元素而同时决定这两者，但并不限于此方法，也可以是分别独立地决定自适应向量增益和噪声向量增益的结构。

决定了所有的索引之后，在复用单元144中，对索引进行复用而生成编码符号并输出。与此同时，根据此时的索引计算出驱动声源信号，将驱动声源信号提供给自适应码本136以备处理下面的输入信号。

图8是表示第一层编码单元101采用CELP时，对应的第一层解码单元102的结构。第一层解码单元102具有根据第一层编码单元101所求出的编码符号而生成第一层解码信号的功能。

分离单元151从输入的第一层编码符号中分离出编码符号，并分别提供给自适应码本152、噪声码本153、增益码本154、和LPC解码单元156。LPC解码单元156利用编码符号解码出LPC系数，并提供给合成滤波器157和后处理单元158。

接着，自适应码本152、噪声码本153、和增益码本154根据编码符号分别解码出自适应向量q(i)、噪声向量c(i)、自适应向量增益βq、和噪声向量增益γq。增益码本154可表示为以自适应向量增益和噪声向量增益为元素的向量，也可以将自适应向量增益和噪声向量增益分别保存为独立的参数。至于采用何种形式，有赖于第一层编码单元101的增益的构成。

声源生成单元155将自适应向量乘以自适应向量增益，将噪声向量乘以噪声向量增益，并将经乘法运算的各个信号相加而生成驱动声源信号。驱动声源信号表示为ex(i)，可根据下面的公式(7)求出驱动声源信号ex(i)。

〔公式7〕

ex(i)＝β_q·q(i)+γ_q·c(i) …(式7)

为了改善主观上的质量，对上述驱动声源信号进行后处理式的信号处理。此类处理包括，例如，为了改善音质而增强周期性信号的周期性的音调增强处理、削弱脉冲式声源引起的噪声感觉的脉冲扩频处理、削弱背景噪声部分的多余的能量变化的平滑处理等等。由于此类处理的实现基于随时间变动的滤波处理，这将成为输出信号的相位发生变动的原因。

接着，合成滤波器157使用被解码的LPC系数和驱动声源信号ex(i)按照下面的公式(8)，生成合成信号syn(i)。

〔公式8〕

syn (i) = ex (i) + Σ_{j = 1}^{NP} α_{q} (j) \cdot syn (i - j)

…(式8)

此处，α_q表示解码出的LPC系数，NP表示LPC系数的次数。这样解码出的解码信号syn(i)提供给后处理单元158。

后处理单元158可采用改善听觉上的音质的后滤波器处理、或改善背景噪声时的质量的噪声后处理等等。由于此类处理的实现基于随时间变动的滤波处理，这将成为输出信号的相位发生变动的原因。

另外，虽然此处说明的结构为，第一层解码单元102包括后处理单元158的结构，但也可采用不包括此类后处理单元的结构。

图9是表示第二层编码单元105内部的主要结构的方框图。

输入经延迟单元104进行延迟处理的输入信号，并从第一层解码单元102输入第一层解码信号。减法器161从输入信号中减去第一层解码信号，所得残差信号提供给时域编码单元162。时域编码单元162对此残差信号进行编码，生成第二层编码符号并输出。另外，此处还可采用如CELP一样基于LPC系数和驱动声源信号模型的编码方式。

图10是表示图9所示的第二层编码单元105的另一变化形式(第二层编码单元105a)的方框图。这个第二层编码单元105a的特征在于，其采用将输入信号和第一层解码信号变换到频域，并在频域进行编码的方法。

从延迟单元104输入经延迟处理的输入信号，由频域变换单元163变换为输入频谱并提供给频域编码单元164。另外，从第一层解码单元102输入第一层解码信号，由频域变换单元165变换为第一层解码频谱，并提供给频域编码单元164。频域编码单元164利用频域变换单元163、165所提供的输入频谱和第一层解码频谱进行编码，而生成第二层编码符号并输出。另外，频域编码单元164也可采用通过听觉掩蔽降低听觉失真的编码方式。

下面，详细说明利用上述分层编码装置100所生成的编码信息进行解码的分层解码装置170的各个部分。

图11是表示分层解码装置170内部的主要结构的方框图。

分层解码装置170输入编码符号。分离单元171对所输入的编码符号进行分离，生成用于第一层解码单元172的编码符号和用于第二层解码单元173的编码符号。第一层解码单元172利用分离单元171所得到的编码符号生成第一层解码信号，将此解码信号提供给第二层解码单元173。另外，第一层解码信号还直接被输出到分层解码装置170的外部。如此，在有必要输出第一层解码单元172生成的第一层解码信号的时候，可以使用这个输出。

第二层解码单元173由分离单元171提供分离出的第二层编码符号，并由第一层解码单元172提供所得到的第一层解码信号。第二层解码单元173进行后述的解码处理并输出第二层解码信号。

根据这个结构，在需要第一层解码单元172所生成的第一层解码信号的时候，可以直接输出之。另外，在有必要输出第二层解码单元173所生成的更高质量的输出信号的时候，也可输出之。至于输出哪一个解码信号，有赖于应用程序及用户的设定或判断结果。

图12所示方框图表示当第一层编码单元101采用CELP时的第一层解码单元172内部的主要结构。第一层解码单元172具有利用第一层编码单元101所生成的编码符号生成第一层解码信号的功能。

第一层解码单元172的分离单元181从所输入的第一层编码符号中分离出编码符号，分别提供给自适应码本182、噪声码本183、增益码本184、和LPC解码单元186。LPC解码单元186利用将提供的编码符号解码出LPC系数，并提供给合成滤波器187和后处理单元188。

接着，自适应码本182、噪声码本183、和增益码本184利用编码符号中分别解码出自适应向量q(i)、噪声向量c(i)、自适应向量增益βq、和噪声向量增益γq。增益码本184可表示为以自适应向量增益和噪声向量增益为元素的向量，也可以将自适应向量增益和噪声向量增益分别保存为独立的参数。至于采用何种形式，有赖于第一层编码单元101的增益的构成。

声源生成单元185，将自适应向量乘以自适应向量增益，并将噪声向量乘以噪声向量增益，并将经乘法运算的各个信号相加而生成驱动声源信号。驱动声源信号表示为ex(i)，可根据下面的公式(9)求出驱动声源信号ex(i)。

〔公式9〕

ex(i)＝β_q·q(i)+γ_q·c(i) …(式9)

为了改善主观上的质量，也可对上述驱动声源信号进行后处理式的信号处理。此类处理包括，例如，为了改善音质而增强周期性信号的周期性的音调增强处理、削弱脉冲式声源引起的噪声感觉的脉冲扩频处理、削弱背景噪声部分的多余的能量变化的平滑处理等等。

接着，在合成滤波器187利用被解码的LPC系数和驱动声源信号ex(i)，按照下面的公式(10)生成合成信号syn(i)。

〔公式10〕

syn (i) = ex (i) + Σ_{j = 1}^{NP} α_{q} (j) \cdot syn (i - j)

…(式10)

此处，α_q表示解码出的LPC系数，NP表示LPC系数的次数。这样解码出的解码信号syn(i)提供给后处理单元188。另外，后处理单元188有时也可采用改善听觉上的音质的后滤波器处理、或根据背景噪声改善质量的噪声后处理等等。并且，虽然此处说明了第一层解码单元172包含后处理单元188时的结构，但也可采用不包括此类后处理单元的结构。

图13是表示第二层解码单元173内部的主要结构的方框图。

从分离单元181输入第二层编码符号，时域解码单元191生成第二层解码残差信号。另外，当第二层编码单元105采用如CELP一样基于LPC系数和驱动声源模型的编码方式时，在第二层解码单元173中进行解码处理并生成信号。

加法器192将所输入的第一层解码信号和时域解码单元191所提供的第二层解码残差信号相加而生成第二层解码信号并输出。

图14是表示图13所示的第二层解码单元173的另一变化形式(第二层解码单元173a)的方框图。

这个第二层解码单元173a的特征在于，可对当第二层编码单元105将输入信号和第一层解码信号变换到频域并在频域进行编码时所生成的第二层编码符号进行解码。

输入第一层解码信号，由频域变换单元193生成第一层解码频谱并提供给频域解码单元194。另外，频域解码单元194输入第二层编码符号。

频域解码单元194，根据第二层编码符号和第一层解码频谱生成第二层解码频谱并输出给时域变换单元195。此处，频域解码单元194将进行与第二层编码单元105所进行的频域编码处理相对应的解码处理而生成第二层解码频谱。另外，这里所设想的解码处理为，与利用听觉掩蔽来降低听觉失真的编码方式相对应的解码处理。

时域变换单元195，将所得到的第二层解码频谱变换为时域信号，生成第二层解码信号并输出。此处，可根据需要进行适当的开窗及重叠相加等处理来避免帧之间发生的中断。

(实施方式2)

根据本发明的实施方式2的分层编码装置200，包括检测输入信号的有声部分的结构，当判断为有声部分时，根据由延迟量计算单元求出的延迟量D对输入信号进行延迟，而当判断为非有声(无声或背景噪声)部分时，使用预先设定的延迟量Dc对输入信号进行延迟而不进行自适应延迟控制。

如图6的下部分所示，在非有声的部分，延迟量计算单元求出的延迟量具有不稳定地变动的倾向。此现象意味着输入信号的延迟量变动频繁，而使用这个信号进行编码则会导致解码信号的质量降低。

因此，本实施方式在非有声的部分，根据预先设定的延迟量Dc对输入信号进行延迟。据此，能够抑制输入信号的延迟量变动频繁的现象，能够防止解码信号的质量降低。

图15是表示根据本实施方式的分层编码装置200的主要结构的方框图。另外，这个分层编码装置200与实施方式1所示的分层编码装置100(参照图4)具有基本相同的结构，对相同的结构元素赋予相同的符号，并省略其说明。

VAD单元201利用输入信号判断(检测)输入信号是有声还是非有声(无声或背景噪声)。具体来说，VAD单元201对于输入信号进行分析，例如求出能量信息或频谱信息等，根据这些信息判断是否有声。或者，也可以利用第一层编码单元101所求出的LPC系数或音调周期、增益信息等进行有声判断。如此求出的判断信息S2提供给延迟量计算单元202。

图16是表示延迟量计算单元202内部的主要结构的方框图。延迟量计算单元202根据VAD单元201所提供的判断信息，当判断为有声时输出最大值检测单元122所求得的延迟量D(n)。反之，判断信息不是有声时，延迟量计算单元202输出预先存储在缓冲器211中的延迟量Dc。

(实施方式3)

根据本发明的实施方式3的分层编码装置内部的延迟量算出单元301利用缓冲器存储着在前一帧(第n-1个帧)求出的延迟量D(n-1)，并将当前帧(第n个帧)中进行相关分析的分析范围限定在D(n-1)附近。即，施加使当前帧所使用的延迟量收敛于前一帧所使用的延迟量中的预定范围内这一限制。据此，可以避免在如图6的下部分那样延迟量D大幅变化时，输出的解码信号中出现不连续的部分，结果发生怪音的现象。

根据本实施方式的分层编码装置具有与实施方式1所示的分层编码装置100(参照图4)基本相同的结构，所以省略其说明。

图17是表示上述延迟量计算单元301的主要结构的方框图。并且，这个延迟量计算单元301和实施方式1所示的延迟量计算单元103也具有基本相同的结构，对相同的结构单元赋予相同的符号，并省略其说明。

缓冲器302保存着在前一帧(第n-1个帧)中求出的延迟量D(n-1)的值，并将此延迟量D(n-1)提供给分析范围决定单元303。分析范围决定单元303决定延迟量的范围并提供给相关分析单元121a，此延迟量用来获得相互相关值以决定当前帧(第n个帧)的延迟量。Rmin和Rmax用来表示当前帧的延迟量D(n-1)的分析范围，Rmin和Rmax可利用前一帧的延迟量D(n-1)，如下面的公式(11)和公式(12)所表示。

〔公式11〕

R_min＝Max(DMIN，D(n-1)-H) …(式11)

〔公式12〕

R_max＝Min(D(n-1)+H，DMAX) …(式12)

此处，DMIN表示Rmin可取的最小值，DMAX表示Rmax可取的最大值，Min()表示输出输入值中的最小值的函数，Max()表示输出输入值中的最大值的函数。另外，H表示对前一帧的延迟量D(n-1)进行搜索的范围。

相关分析单元121a对包含在分析范围决定单元303所提供的分析范围Rmin≤D≤Rmax中的延迟量D进行相关分析而计算出相互相关值Cor(D)，并提供给最大值检测单元122。最大值检测单元122利用相互相关值Cor(D)(此处，Rmin≤D≤Rmax)求出当其为最大时的延迟量D，并将此作为第n个帧的延迟量D(n)而输出。与此同时，将延迟量D(n)提供给缓冲器302，以备下一帧的处理。

另外，本实施方式的结构被施加了如下限制，即，使当前帧所使用的延迟量收敛于前一帧所使用的延迟量中的固定范围内。但也可预先设定标准延迟量，并对此标准延迟量施加限制使之收敛于固定的范围内。

(实施方式4)

根据本发明的实施方式4的分层编码装置在相关分析单元的前级，设置向上采样单元，将输入信号的采样率提高(向上采样)以后，进行与第一层解码信号的相关分析而计算出延迟量。因此，能够求出用小数值表示的高精度的延迟量。

图18是表示根据本实施方式的延迟量计算单元401的主要结构的方框图。而且，这个延迟量计算单元401也具有与实施方式1所示的延迟量计算单元103基本相同的结构。对相同的结构单元赋予相同的符号，并省略其说明。

向上采样单元402对输入信号s(i)进行向上采样，而生成采样率被提高了的信号s’(i)，并向相关分析单元121b提供向上采样后的输入信号s’(i)。以下，作为例子，对采样率提高为U倍时的情形予以说明。

相关分析单元121b使用向上采样后的输入信号s’(i)和第一层解码信号y(i)计算出相互相关值Cor(D)。相互相关值Cor(D)可以根据下面的公式(13)计算。

〔公式13〕

Cor (D) = Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} s^{' (U \cdot i - D) \cdot y (i)}

…(式13)

或者，也可根据下面的公式(14)。

〔公式14〕

Cor (D) = \frac{Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} s^{'} (U \cdot i - D) \cdot y (i)}{\sqrt{Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} s^{'} {(U \cdot i - D)}^{2}} \cdot \sqrt{Σ_{i = (n - 1) \cdot FL}^{n \cdot FL - 1} y {(i)}^{2}}}

…(式14)

再或者，根据上述乘以权重函数w(D)的公式也可以。相关分析单元121b将这样计算出的相互相关值提供给最大值检测单元122b。

最大值检测单元122b求出相互相关值Cor(D)最大时的D，将表示为比例D/U的小数值作为延迟量D(n)而输出。

另外，也可将相关分析单元121b所求出的向上采样后的输入信号s’(i)的相位偏移延迟量D/U而得到的信号直接提供给第二层编码单元105。假设提供给第二层编码单元105的信号为s”(i)，则s”(i)可用下面的公式(15)来表示。

〔公式15〕

s″(i)＝s′(U·i-D) …(式15)

这样，因为在增大了输入信号的采样率之后再计算延迟量，所以能够根据更高精度的延迟量进行处理。再者，如果将向上采样后的输入信号直接提供给第二层编码单元，则不再需要重新进行向上采样处理，能够避免计算量的增大。

(实施方式5)

本实施方式公开一种分层编码装置，即使在提供给第一层编码单元101的输入信号的采样率(采样频率)，即第一层解码单元102的输出信号的采样率与提供给第二层编码单元105的输入信号的采样率不相等时，也能够进行编码。即，根据本发明的实施方式5的分层编码装置，在第一层编码单元101的前级设置向下采样单元501，并在第一层解码单元102的后级设置向上采样单元502。

根据此结构，能够使输入到延迟量计算单元103的两个信号的采样率一致，以对应于在频域轴方向具有可扩展性的频域可扩展性编码。

图19是表示根据本实施方式的分层编码装置500的主要结构的方框图。而且，此分层编码装置500具有与实施方式1所示的分层编码装置100基本相同的结构，对相同的结构单元赋予相同的符号，并省略其说明。

向下采样单元501，降低输入信号的采样率，并提供给第一层编码单元101。假设输入信号的采样率为Fs，提供给第一层编码单元101的输入信号的采样率为Fs1，向下采样单元501进行向下采样处理，使输入信号的采样率从Fs变换为Fs1。

向上采样单元502，提高第一层解码信号的采样率后，将此信号提供给延迟量计算单元103和第二层编码单元105。假设第一层解码单元102所提供的第一层解码信号的采样率为Fs1，提供给延迟量计算单元103和第二层编码单元105的信号的采样率为Fs2，向上采样单元502进行向上采样处理，使第一层解码信号的采样率从Fs1变换为Fs2。

另外，在本实施方式中，采样率Fs与Fs2为相同值。此时，可以适用已在实施方式1至4中所述的各个延迟量计算单元。

(实施方式6)

图20是表示根据本发明的实施方式6的分层编码装置600的主要结构的方框图。分层编码装置600具有与实施方式1所示的分层编码装置100基本相同的结构。对相同的结构单元赋予相同的符号，并省略其说明。

在本实施方式中如同在实施方式5中，提供给第一层编码单元101的输入信号的采样率与提供给第二层编码单元105的输入信号的采样率不相等。根据本实施方式的分层编码装置600虽然在第一层编码单元101的前级设置向下采样单元601，但与实施方式5不同的是，并不在第一层解码单元102的后级设置向上采样单元502。

根据本实施方式，因为无需在第一层编码单元101的后级设置向上采样单元502，所以能够避免此向上采样单元所需的计算量和延迟的增大。

另外，在本实施方式的结构中，第二层编码单元105将利用采样率为Fs的输入信号和采样率为Fs1的第一层解码信号生成第二层编码符号。因此，设置有其操作与实施方式1所示延迟量计算单元103的操作有所不同的延迟量计算单元602。延迟量计算单元602输入采样率为Fs的输入信号和采样率为Fs1的第一层解码信号。

图21是表示延迟量计算单元602内部的主要结构的方框图。

采样率为Fs的输入信号和采样率为Fs1的第一层解码信号提供给变形相关分析单元611。变形相关分析单元611基于采样率Fs与Fs1的关系，利用采样间隔适当的采样值计算出相互相关值。具体地说，进行以下的处理。

假设采样率Fs与Fs1的最小公倍数为G，输入信号的采样间隔U和第一层输出信号的采样间隔V可用下面的公式(16)和公式(17)来表示。

〔公式16〕

U＝G/Fs1 …(式16)

〔公式17〕

V＝G/Fs …(式17)

此时，变形相关分析单元611所求出的相互相关值Cor(D)可用下面的公式(18)表示。

〔公式18〕

Cor (D) = Σ_{i = (n - 1) \cdot FL / V}^{n \cdot FL / V - 1} s (U \cdot i - D) \cdot y (V \cdot i)

…(式18)

或者，也可用下面的公式(19)。

〔公式19〕

Cor (D) = \frac{Σ_{i = (n - 1) \cdot FL / V}^{n \cdot FL / V - 1} s (U \cdot i - D) \cdot y (V \cdot i)}{\sqrt{Σ_{i = (n - 1) \cdot FL / V}^{n \cdot FL / V - 1} s {(U \cdot i - D)}^{2}} \cdot \sqrt{Σ_{i = (n - 1) \cdot FL / V}^{n \cdot FL / V - 1} y {(V \cdot i)}^{2}}}

…(式19)

再或者，也可用如上所述乘以了权重函数w(D)的公式。计算出的相互相关值提供给最大值检测单元122。

图22是表示变形相关分析单元611所进行的处理的概要的说明图。而且，此处所示处理的条件是，输入信号的采样率Fs为16kHz，第一层解码信号的采样率Fs1为8kHz。

采样率为上述条件时，最小公倍数G将为16000，所以输入信号的采样间隔U和第一层输出信号的采样间隔V分别为U＝2，V＝1。因此，依据此采样间隔关系，计算出如图所示的相互相关值。

图23是表示变形相关分析单元611所进行的处理的另一变化形式的图。而且，此处所示处理的条件是，输入信号的向上采样率Fs为24kHz，第一层解码信号的采样率Fs1为16kHz。

采样率为上述条件时，最小公倍数G将为48000，所以输入信号的采样间隔U和第一层输出信号的采样间隔V分别为U＝3，V＝2。因此，依据此采样间隔关系，计算出如图所示的相互相关值。

(实施方式7)

根据本发明的实施方式7的分层编码装置内部的延迟量计算单元701利用缓冲器存储着在前一帧所求得的延迟量D(n-1)，并将当前帧中进行相关分析的分析范围限定在D(n-1)附近。因此，能够避免在如图6的下部分所示延迟量D大幅变化时，输入信号中出现不连续的部分，结果发生怪音的现象。

图24是表示上述延迟量计算单元701的主要结构的方框图。而且，这个延迟量计算单元701具有与实施方式3所示的延迟量计算单元301基本相同的结构。对相同的结构单元赋予相同的符号，并省略其说明。又，变形相关分析单元611a具有与实施方式6所示的变形相关分析单元611相同的功能。

缓冲器302存储着前一帧(第n-1个帧)中求出的延迟量D(n-1)的值，并将此延迟量D(n-1)提供给分析范围决定单元303。分析范围决定单元303决定延迟量的范围并提供给相关分析单元611a，此延迟量用来解相互相关值以决定当前帧(第n个帧)的延迟量。Rmin和Rmax表示当前帧的延迟量D(n)的分析范围，可利用前一帧的延迟量D(n-1)，表示为下面的公式(20)和公式(21)。

〔公式20〕

R_min＝Max(DMIN，D(n-1)-H) …(式20)

〔公式21〕

R_max＝Min(D(n-1)+H，DMAX) …(式21)

相关分析单元611a对包含在分析范围决定单元303所提供的分析范围Rmin≤D≤Rmax中的延迟量D进行相关分析而计算出相互相关值Cor(D)，并提供给最大值检测单元122。最大值检测单元122从相互相关值Cor(D)(此处，Rmin≤D≤Rmax)中求出当其最大时的延迟量D，并将此作为第n个帧的延迟量D(n)而输出。与此同时，变形相关分析单元611a将延迟量D(n)提供给缓冲器302，以备下一帧的处理。

(实施方式8)

根据本发明的实施方式8的分层编码装置在提高了输入信号的采样率后，再进行与第一层解码信号的相关分析。因此，能够求出用小数值表示的高精度的延迟量。

图25是表示根据本实施方式的延迟量计算单元801的主要结构的方框图。而且，这个延迟量计算单元801具有与实施方式6所示的延迟量计算单元602基本相同的结构，对相同的结构单元赋予相同的符号，并省略其说明。

向上采样单元802对输入信号s(i)进行向上采样，而生成采样率被提高了的信号s’(i)，并向变形相关分析单元611b提供向上采样后的输入信号s’(i)。以下，作为例子，对采样率提高为T倍时的情形予以说明。

变形相关分析单元611b基于向上采样后的输入信号s’(i)的采样率T·Fs与Fs1的关系，利用采样间隔适当的采样值计算出相互相关值。具体地说，进行以下的处理。

假设采样率T·Fs与Fs1的最小公倍数为G，输入信号的采样间隔U和第一层输出信号的采样间隔V可用下面的公式(22)和公式(23)表示。

〔公式22〕

U＝G/Fs1 …(式22)

〔公式23〕

V＝G/(T·Fs) …(式23)

此时，变形相关分析单元611b所求出的相互相关值Cor(D)可用下面的公式(24)表示。

〔公式24〕

Cor (D) = Σ_{i = (n - 1) \cdot FL / V}^{n \cdot FL / V - 1} s^{'} (U \cdot i - D) \cdot y (V \cdot i)

…(式24)

或者，也可用下面的公式(25)。

〔公式25〕

Cor (D) = \frac{Σ_{i = (n - 1) \cdot FL / V}^{n \cdot FL / V - 1} s^{'} (U \cdot i - D) \cdot y (V \cdot i)}{\sqrt{Σ_{i = (n - 1) \cdot FL / V}^{n \cdot FL / V - 1} s^{'} {(U \cdot i - D)}^{2}} \cdot \sqrt{Σ_{i = (n - 1) \cdot FL / V}^{n \cdot FL / V - 1} y {(V \cdot i)}^{2}}}

…(式25)

再或者，也可用如上所述乘以了权重函数w(D)的公式。这样计算出的相互相关值提供给最大值检测单元122b。

以上，说明了根据本发明的各个实施方式。

根据本发明的分层编码装置并不局限于上述各个实施方式，而是可以进行种种修改。例如，可以对各个实施方式进行组合后实施之。

根据本发明的分层编码装置可以装载在移动通信系统中的通信终端装置或基站装置中。据此，可以提供具有上述作用和效果的通信终端装置和基站装置。

另外，此处，虽然对层数为2的情形进行了说明，但层数并不限于此，本发明也可适用于层数为2以上的分层编码。

又，此处，虽然说明了为了校正输入信号与第一层解码信号的相位差而控制输入信号的相位的方法，但也可相反地为了校正两个信号的相位差而控制第一层解码信号的相位。此时，需要对表示如何控制了第一层解码信号的相位的信息进行编码，并传输给解码单元。

又，上述各个实施方式所使用的噪声码本有时也称为固定码本、概率码本(stochastic codebook)、或随机码本(random codebook)。

又，此处，虽然以用硬件实现本发明的情形为例进行了说明，但本发明也可用软件实现。例如，可以用编程语言记述根据本发明的分层编码方法的算法，将此程序存储于内存中，通过用信息处理单元执行，可以实现与本发明的分层编码装置相同的功能。

另外，用来说明上述各实施方式的各功能模块，典型地由集成电路LSI(大规模集成电路)来实现。这些功能块既可以分别实行单芯片化，也可以包括其中一部分或者全部而实行单芯片化。

这里，虽然称作LSI，但根据集成度的不同每个功能块也可以称为IC(集成电路)、系统LSI(系统大规模集成电路)、超LSI(超大规模集成电路)、极大LSI(极大规模集成电路)。

另外，集成电路化的技术不仅限于LSI，也可以使用专用电路或通用处理器来实现。制造LSI后，也可以利用能够编程的FPGA(Field ProgrammableGate Array，现场可编程门阵列)，或可以利用将LSI内部的电路块连接或设定重新配置的可重配置处理器(Reconfigurable Processor)。

再有，如果随着半导体技术的进步或者其他技术的派生，出现了替换LSI集成电路的技术，当然，也可以利用该技术来实现功能块的集成化。也有应用生物工程学技术等的可能性。

本说明书基于2004年4月28日申请的日本专利申请特愿第2004-134519号。该全部内容包括此处作参考。

工业实用性

根据本发明的分层编码装置及分层编码方法适用于移动通信系统等。

Claims

1、一种分层编码装置，包括：

第M层编码单元，使用下一层的解码信号以及输入信号进行第M层编码；

延迟单元，设置在所述第M层编码单元的前级，向所述输入信号赋予延迟；以及

计算单元，根据所述下一层的解码信号与所述输入信号的相位差，以预定时间为单位计算所述延迟单元应赋予的延迟。

2、如权利要求1所述的分层编码装置，其中，所述计算单元以所述第M层的下一层的编码处理单位时间为单位，计算所述延迟单元应赋予的延迟。

3、如权利要求1所述的分层编码装置，还包括：

判断单元，判断所述输入信号是否为有声；其中，

所述计算单元，在所述输入信号被判断为有声时，以预定时间为单位计算所述延迟单元应赋予的延迟，而在所述输入信号被判断为非有声时，以预先设定的固定值作为所述延迟单元应赋予的延迟。

4、如权利要求1所述的分层编码装置，其中，所述计算单元计算所述延迟单元应赋予的延迟，使之相对于上次计算出的延迟收敛于固定范围内。

5、如权利要求1所述的分层编码装置，其中，所述计算单元在预先设定的预定范围内，计算所述延迟单元应赋予的延迟。

6、如权利要求1所术的分层编码装置，其特征在于，所述计算单元预先对所述输入信号进行向上采样处理以提高所计算的延迟的精确度。

7、如权利要求1所述的分层编码装置，其中，所述计算单元包括相关单元，当所述下一层的解码信号的采样数与所述输入信号的采样数不相等时，与向采样数较少的信号对齐后，使用采样数较多的信号的一部分采样进行两个信号的相关计算；

所述计算单元根据所述相关单元的相关结果，计算所述延迟单元应赋予的延迟。

8、一种通信终端装置，包括如权利要求1所述的分层编码装置。

9、一种基站装置，包括如权利要求1所述的分层编码装置。

10、一种分层编码方法，包括：

第M层编码步骤，使用下一层的解码信号和输入信号进行第M层编码；

延迟步骤，向所述输入信号赋予延迟；以及

计算步骤，根据所述下一层的解码信号与所述输入信号的相位差，以预定时间为单位计算所述延迟步骤应赋予的延迟。