CN101615396B

CN101615396B - 语音编码设备、以及语音解码设备

Info

Publication number: CN101615396B
Application number: CN2009101575912A
Authority: CN
Inventors: 佐藤薰; 森井利幸
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: III Holdings 12 LLC
Priority date: 2003-04-30
Filing date: 2004-04-30
Publication date: 2012-05-09
Anticipated expiration: 2024-04-30
Also published as: US20080033717A1; CA2524243A1; KR20060022236A; EP1619664B1; CN1795495A; US7299174B2; WO2004097796A1; EP1619664A4; CA2524243C; US7729905B2; US20060173677A1; CN101615396A; CN100583241C; KR101000345B1; EP1619664A1

Abstract

本发明提供语音编码设备、语音解码设备及其方法。语音编码设备包括：基本层编码器(101)，编码输入信号而生成第一编码信息；基本层解码器(102)，解码第一编码信息而生成第一解码信号，同时生成作为表示语音或声音所具有的长期相关性的信息的长期预测信息；加法器(103)，获取作为所述输入信号与所述第一解码信号之间的差值的残差信号；扩充层编码器(104)，根据长期预测信息，利用从先前长期预测信号序列中取出的长期预测信号和由所述加法器获取的所述残差信号，计算长期预测系数，编码长期预测系数而生成第二编码信息。因此，可以以少量计算和少量编码信息实现可伸缩编码。

Description

语音编码设备、以及语音解码设备

本申请是申请号为200480014149.X、申请日为2004年4月30日、发明名称为“音频编码设备、音频解码设备、音频编码方法和音频解码方法”的发明专利申请的分案申请。

技术领域

本发明涉及用在编码和发送语音和/或声音信号的通信系统中的语音编码设备、语音解码设备及其方法。

背景技术

在数字无线通信、以因特网为代表的分组通信和语音存储等领域中，为了有效地利用无线电信号的传输信道容量和存储媒体，编码/解码语音信号的技术是必不可少的，并且，人们已经开发出许多语音编码/解码方案。在这些系统当中，CELP(码激励线性预测)语音编码/解码方案已经实际用作主流技术。

CELP型语音编码设备根据事先存储的语音模型编码输入语音。更具体地说，CELP型语音编码设备将数字化语音信号划分成大约20ms的帧，一帧一帧地对语音信号进行线性预测分析，获取线性预测系数和线性预测残差矢量，和分开编码线性预测系数和线性预测残差矢量。

为了进行低位速率通信，由于存储的语音模型量是有限的，在传统CELP型语音编码/解码方案中主要存储发声语音模型。

在诸如因特网通信之类发送分组的通信系统中，取决于网络状态，会发生分组丢失，最好，即使部分编码信息丢失了，也可以从其余编码信息部分中解码出语音和声音。类似地，在根据通信容量改变位速率的可变速率通信系统中，当通信容量降低时，最好，通过只发送部分编码信息就可以轻易地减轻通信容量的负担。因此，作为允许利用全部编码信息或部分编码信息解码语音和声音的技术，最近人们把注意力放在可伸缩编码技术上。一些可伸缩编码方案已经按惯例公开。

可伸缩编码系统一般包括基本层和扩充层，这些层构成基本层是最低层的分层结构。在每个层中，编码等于较低层中的输入信号和输出信号之间的差值的残差信号。根据这种构造，可以利用所有层的编码信息或只利用较低层的编码信息解码语音和/或声音信号。

但是，在传统可伸缩编码系统中，CELP型语音编码/解码系统用作基本层和扩充层的编码方案，从而在计算和编码信息两个方面都需要相当大的数量。

发明内容

因此，本发明的目的是提供利用少量计算和编码信息就能够实现可伸缩编码的语音编码设备、语音解码设备及其方法。

上述的目的通过如下的步骤达到：提供进行长期预测的扩充层，利用语音或声音的长期相关性特性对扩充层中的残差信号进行长期预测以便提高解码信号的质量，利用基本层的长期预测信息获取长期预测日志，从而减少计算量。

根据本发明的一个方面提供了一种语音编码设备。所述语音编码设备包括：基本层编码器，用于编码输入信号而生成第一编码信息；基本层解码器，用于解码所述第一编码信息而生成第一解码信号，同时生成作为表示语音所具有的长期相关性的信息的长期预测信息；加法器，用于获取作为所述输入信号与所述第一解码信号之间的差值的残差信号；以及扩充层编码器，用于根据所述长期预测信息获取扩充层的长期预测延迟，从存储在缓冲器中的先前长期预测信号序列中取出倒退相当于所述长期预测延迟的所述长期预测信号，利用所述长期预测信号和由所述加法器获取的所述残差信号，计算长期预测系数，编码所述长期预测系数而生成第二编码信息。

根据本发明的另一个方面提供了一种从上述语音编码设备接收第一编码信息和第二编码信息而解码语音的语音解码设备。所述语音解码设备包括：基本层解码器，用于解码所述第一编码信息而生成第一解码信号，同时生成作为表示语音所具有的长期相关性的信息的长期预测信息；扩充层解码器，用于根据所述长期预测信息获取扩充层的长期预测延迟，从存储在缓冲器中的所述先前长期预测信号序列中取出倒退相当于所述长期预测延迟的所述长期预测信号，解码所述第二编码信息而生成第二解码信号；以及加法器，用于相加所述第一解码信号和所述第二解码信号，并输出作为相加结果的语音信号。

附图简述

图1是例示根据本发明第一实施例的语音编码设备和语音解码设备的配置的方块图；

图2是例示根据上面实施例的基本层编码部分的内部配置的方块图；

图3是说明根据上面实施例的基本层编码部分中的参数确定部分确定从自适应激励码本中生成的信号的处理的图形；

图4是例示根据上面实施例的基本层解码部分的内部配置的方块图；

图5是例示根据上面实施例的扩充层(enhancement layer)编码部分的内部配置的方块图；

图6是例示根据上面实施例的扩充层解码部分的内部配置的方块图；

图7是例示根据本发明第二实施例的扩充层编码部分的内部配置的方块图；

图8是例示根据上面实施例的扩充层解码部分的内部配置的方块图；和

图9是例示根据本发明第三实施例的语音信号发送设备和语音信号接收设备的配置的方块图。

具体实施方式

下面将参照附图具体描述本发明的实施例。在每个实施例中将描述一种情况，在其中，在包括基本层和扩充层的双层语音编码/解码方法的扩充层中进行长期预测的情况。但是，本发明不局限于这样的层结构，本发明可应用于在存在三层或更多层的分层语音编码/解码方法中利用较低层的长期预测信息在较高层中进行长期预测的任何情况。分层语音编码方法指的是在较高层中存在通过长期预测编码残差信号(较低层的输入信号与较低层的解码信号之间的差值)以便输出编码信息的数种语音编码方法和这些语音编码方法构成分层结构。并且，分层语音解码方法指的是在较高层中存在解码残差信号的数种语音解码方法和这些语音解码方法构成分层结构。这里，存在于最低层中的语音/声音编码/解码方法被称作基本层。存在于比基本层高的层中的语音/声音编码/解码方法被称作扩充层。

在本发明的每个实施例中，举例描述基本层进行CELP型语音编码/解码的情况。

(第一实施例)

图1是例示根据本发明第一实施例的语音编码设备和语音解码设备的配置的方块图。

在图1中，语音编码设备100主要包括基本层编码部分101、基本层解码部分102、相加部分103、扩充层编码部分104和多路复用部分105。语音解码设备150主要包括多路分用部分151、基本层解码部分152、扩充层解码部分153和相加部分154。

基本层编码部分101接收语音或声音信号，利用CELP型语音编码方法编码输入信号，并将通过编码获得的基本层编码信息输出到基本层解码部分102和多路复用部分105。

基本层解码部分102利用CELP型语音解码方法解码基本层编码信息，并将通过解码获得的基本层解码信号输出到相加部分103。并且，基本层解码部分102将基音延迟(pitch lag)输出到扩充层编码部分104，作为基本层的长期预测信息。

“长期预测信息”是指示语音或声音信号的长期相关性的信息。“基音延迟”涉及由基本层指定的位置信息，以后会作更详细描述。

相加部分103颠倒从基本层解码部分102输出的基本层解码信号的极性以便与输入信号相加，并且将作为相加结果的残差信号输出到扩充层编码部分104。

扩充层编码部分104利用从基本层解码部分102输出的长期预测信息并从相加部分103输出的残差信号计算长期预测系数，编码长期预测系数，并将通过编码获得的扩充层编码信息输出到多路复用部分105。

多路复用部分105多路复用从基本层编码部分101输出的基本层编码信息和从扩充层编码部分104输出的扩充层编码信息，以便通过传输信道输出到多路分用部分151作为多路复用信息。

多路分用部分151将从语音编码设备100发送的多路复用信息多路分用成基本层编码信息和扩充层编码信息，并将多路分用基本层编码信息输出到基本层解码部分152，同时将多路分用扩充层编码信息输出到扩充层解码部分153。

基本层解码部分152利用CELP型语音解码方法解码基本层编码信息，并将通过解码获得的基本层解码信号输出到相加部分154。并且，基本层解码部分152将基音延迟输出到扩充层解码部分153，作为基本层的长期预测信息。扩充层解码部分153利用长期预测信息解码扩充层编码信息，并将通过解码获得的扩充层解码信号输出到相加部分154。

相加部分154相加从基本层解码部分152输出的基本层解码信号和从扩充层解码部分153输出的扩充层解码信号，并将作为相加结果的语音或声音信号输出到供随后处理用的设备。

下面参照图2的方块图描述图1的基本层编码部分101的内部配置。

将基本层编码部分101的输入信号输入预处理部分200。预处理部分200进行除去DC(直流)成分的高通滤波处理、整形处理以及用以改善后续编码处理的性能的预加强处理，并将经过处理的信号(Xin)输出到LPC(线性预测系数)分析部分201和加法器204。

LPC分析部分201利用Xin进行线性预测分析，并将线性预测的结果(线性预测系数)输出到LPC量化部分202。LPC量化部分202对从LPC分析部分201输出的线性预测系数进行量化处理，并将量化LPC输出到合成滤波器203，同时将代表量化LPC的代码(L)输出到多路复用部分213。

合成滤波器203通过利用基于量化LPC的滤波系数对从如后所述的相加部分210输出的激励矢量进行滤波合成，生成合成信号，并将合成信号输出到加法器204。

加法器204颠倒合成信号的极性，将所得信号与Xin相加，计算误差信号，并将误差信号输出到听觉加权部分211。

自适应激励码本205含有存储在缓冲器中的较早从加法器210输出的激励矢量信号，并且从参数确定部分212输出的信号指定的较早激励矢量信号样本中取出与一个帧相对应的样本，输出到乘法器208。

量化增益生成部分206将参数确定部分212输出的信号指定的自适应激励增益和固定激励增益分别输出到乘法器208和209。

固定激励码本207将具有参数确定部分212输出的信号指定的形状的脉冲激励矢量乘以扩展矢量，并将获得的固定激励矢量输出到乘法器209。

乘法器208将量化增益生成部分206输出的量化自适应激励增益乘以自适应激励码本205输出的自适应激励矢量，并将结果输出到加法器210。乘法器209将量化增益生成部分206输出的量化固定激励增益乘以固定激励码本207输出的固定激励矢量，并将结果输出到加法器210。

加法器210接收分别从乘法器208和209输入的两者都已乘以增益的自适应激励矢量和固定激励矢量，并且以矢量形式将它们相加，并将作为相加结果的激励矢量输出到合成滤波器203和自适应激励码本205。另外，将输入自适应激励码本205的激励矢量存储在缓冲器中。

听觉加权部分211对从加法器204输出的信号进行听觉加权，在听觉加权区中计算Xin与合成信号之间的失真，并将结果输出到参数确定部分212。

参数确定部分212选择分别来自适应激励码本205、固定激励码本207和量化增益生成部分206的使听觉加权部分211输出的编码失真最小的自适应激励矢量、固定激励矢量和量化增益，并将代表选择结果的自适应激励矢量代码(A)、量化增益代码(G)和固定激励矢量代码(F)输出到多路复用部分213。另外，自适应激励矢量代码(A)是与基音延迟相对应的代码。

多路复用部分213从LPC量化部分202接收代表量化LPC的代码(L)，进一步从参照确定部分212接收代表自适应激励矢量的代码(A)、代表固定激励矢量的代码(F)和代表量化增益的代码(G)，并多路复用这几个信息以便作为基本层编码信息输出。

上文是图1的基本编码部分101的内部配置的说明。

下面参照图3，主要描述参数确定部分212确定要从自适应激励码本205中生成的信号的处理。在图3中，缓冲器301是配备在自适应激励码本205中的缓冲器，位置302是自适应激励矢量的取出位置，而矢量303是取出的自适应激励矢量。数值“41”和“296”分别对应于移动取出位置302的范围的下限和上限。

假设指定给代表自适应激励矢量的代码(A)的位数是“8”，移动取出位置302的范围被设置在长度为“256”(例如，从“41”到“296”)的范围上。移动取出位置302的范围可以任意设置。

参数确定部分212在设置的范围内移动取出位置302，和按帧长从每个位置中取出自适应激励矢量303。然后，参数确定部分212获取使听觉加权部分211输出的编码失真最小的取出位置302。

参数确定部分212如此获得的缓冲器中的取出位置302是“基音延迟”。

下面参照图4描述图1的基本层解码部分102(152)的内部配置。

在图4中，输入基本层解码部分102(152)的基本层编码信息由多路分用部分401多路分用，分解成代码(L、G和F)。多路分用LPC代码(L)输出到LPC解码部分402，多路分用自适应激励矢量代码(A)输出到自适应激励码本405，多路分用量化增益代码(G)输出到量化增益生成部分406，而多路分用固定激励矢量代码(F)输出到固定激励码本407。

LPC解码部分402从多路分用部分401输出的代码(L)中解码LPC，并将结果输出到合成滤波器403。

自适应激励码本405从多路分用部分401输出的代码(A)指定的过去激励矢量信号中取出与一个帧相对应的样本作为激励矢量，并将激励矢量输出到乘法器408。并且，自适应激励码本405还将作为长期预测信息的基音延迟输出到扩充层编码部分104(扩充层然解码部分153)。

量化增益生成部分406分别解码多路分用部分401输出的量化增益代码(G)指定的自适应激励矢量增益和固定激励矢量增益，并将结果输出到乘法器408和409。

固定激励码本407生成多路分用部分401输出的代码(F)指定的固定激励矢量，并将结果输出到加法器409。

乘法器408将自适应激励矢量乘以自适应激励矢量增益，并将结果输出到加法器410。乘法器409将固定激励矢量乘以固定激励矢量增益，并将结果输出到加法器410。

加法器410相加分别从乘法器408和409输出的两者都乘以增益的自适应激励矢量和固定激励矢量，生成激励矢量，并将这个激励矢量输出到合成滤波器403和自适应激励码本405。

合成滤波器403利用作为激励信号从加法器410输出的激励矢量和进一步利用在LPC解码部分402中解码的滤波系数进行滤波合成，并将合成信号输出到后处理部分404。

后处理部分404对合成滤波器403输出的信号进行诸如共振峰加强和基音加强之类提高语音的主观质量的处理，以及提高静态噪声的主观质量的其他处理，以便作为基本层解码信号输出。

上文是图1的基本层解码部分102的内部配置的说明。

下面参照图5描述图1的扩充层编码部分104的内部配置。

扩充层编码部分104将残差信号划分成N个样本(N是自然数)的片段，并在将N个样本作为一个帧的假设下，对每个帧进行编码。在下文中，残差信号用e(0)～e(X-1)表示，而经过编码的帧用e(n)～e(n+N-1)表示。这里，X是残差信号的长度，而N对应于帧的长度。n是位于每个帧开头的样本，对应于N的整数倍。另外，从以前生成的信号中预测一些帧的信号的方法叫作长期预测。进行长期预测的滤波器叫作基音滤波器、梳状滤波器等。

在图5中，长期预测延迟指示部分501接收在基本层解码部分102中获得的长期预测信息t，并根据该信息获取扩充层的长期预测延迟T，以便输出到长期预测信号存储器502。另外，当在基本层和扩充层之间出现取样频率差时，从如下方程(1)中获取长期预测延迟T。另外，在方程(1)中，D是扩充层的取样频率，而d是基本层的取样频率。

T＝D×t/d ...方程(1)

长期预测信号存储器502配有存储较早生成的长期预测信号的缓冲器。当假设缓冲器的长度是M时，缓冲器包括以前生成长期预测信号的序列s(n-M-1)～s(n-1)。一旦从长期预测延迟指示部分501接收到长期预测延迟T，长期预测信号存储器502就从存储在缓冲器中的先前长期预测信号序列中取出倒退长期预测延迟T的长期预测信号s(n-T)～s(n-T+N-1)，并将结果输出到长期预测系数计算部分503和长期预测信号生成部分506。并且，长期预测信号存储器502从长期预测信号生成部分506接收长期预测信号s(n)～s(n+N-1)，并通过如下方程(2)更新缓冲器。

\hat{s} (i) = s (i + N) (i = n - M - 1, \cdot \cdot \cdot, n - 1)

s (i) = \hat{s} (i) (i = n - M - 1, \cdot \cdot \cdot, n - 1)

...方程(2)

另外，当长期预测延迟T短于帧长N和长期预测信号存储器502不能取出长期预测信号时，将长期预测延迟T乘以整数，直到T长于帧长N，以便能够取出长期预测信号。否则，重复倒退长期预测延迟T的长期预测信号s(n-T)～s(n-T+N-1)直到要取出的帧长N。

长期预测系数计算部分503接收残差信号e(n)～e(n+N-1)和长期预测信号s(n-T)～s(n-T+N-1)，并将这些信号用在如下方程(3)中，计算长期预测系数β，以便输出到长期预测系数编码部分504。

β = \frac{Σ_{i = 0}^{N - 1} e (n + i) s (n - T + i)}{Σ_{i = 0}^{N - 1} s {(n - T + i)}^{2}}

...方程(3)

长期预测系数编码部分504编码长期预测系数β，并将通过编码获得的扩充层编码信息输出到长期预测系数解码部分505，同时，通过传输信道进一步将信息输出到扩充层解码部分153。另外，作为编码长期预测系数β的方法，通过可伸缩量化等的方法是已知的。

长期预测系数解码部分505解码扩充层编码信息，并将通过解码获得的解码长期预测系数βq输出到长期预测信号生成部分506。

长期预测信号生成部分506接收解码长期预测系数βq和长期预测信号s(n-T)～s(n-T+N-1)作为输入，利用该输入，通过如下方程(4)计算长期预测信号s(n)～s(n+N-1)，并将结果输出到长期预测信号存储器502。

s(n+i)＝β_α×s(n-T+1)(i＝0，…，N-1)...方程(4)

上文是图1的扩充层编码部分104的内部配置的说明。

下面参照图6的方块图描述图1的扩充层解码部分153的内部配置。

在图6中，长期预测延迟指示部分601利用基本层解码部分152输出的长期预测信息获取扩充层的长期预测延迟T，以输出到长期预测信号存储器602。

长期预测信号存储器602配有存储较早生成的长期预测信号的缓冲器。当缓冲器的长度是M时，缓冲器包括较早生成长期预测信号的序列s(n-M-1)～s(n-1)。一旦从长期预测延迟指示部分601接收到长期预测延迟T，长期预测信号存储器602从存储在缓冲器中的先前长期预测信号序列中取出倒退长期预测延迟T的长期预测信号s(n-T)～s(n-T+N-1)，以便输出到长期预测信号生成部分604。并且，长期预测信号存储器602从长期预测信号生成部分604接收长期预测信号s(n)～s(n+N-1)，并通过如上所述的方程(2)更新缓冲器。

长期预测系数解码部分603解码扩充层编码信息，并将通过解码获得的解码长期预测系数βq输出到长期预测信号生成部分604。

长期预测信号生成部分604接收解码长期预测系数βq和长期预测信号s(n-T)～s(n-T+N-1)作为输入，利用该输入，通过如上所述方程(4)计算长期预测信号s(n)～s(n+N-1)，并将结果输出到长期预测信号存储器602和相加部分153，作为扩充层解码信号。

上文是图1的扩充层解码部分153的内部配置的说明。

因此，通过提供进行长期预测的扩充层和利用语音或声音信号的长期相关性特性在扩充层中对残差信号进行长期预测，可以利用较少编码信息编码/解码频率范围宽的语音/声音信号和减少计算量。

此刻，取代编码/解码长期预测延迟，利用基本层的长期预测信息获取长期预测延迟可以减少编码信息。

并且，通过解码基本层编码信息，可以只获取基本层的解码信号，和可以实现用CELP型语音编码/解码方法(可伸缩编码)从部分编码信息中解码语音或声音的功能。

此外，在长期预测中，利用语音或声音的长期相关性从缓冲器中取出与当前帧有最高相关性的帧，以及利用取出帧的信号表达当前帧的信号。但是，在从缓冲器中取出与当前帧有最高相关性的帧的手段中，当不存在诸如基音延迟之类代表语音或声音的长期相关性的信息时，有必要改变从缓冲器中取出帧的取出位置，同时计算取出帖和当前帧的自相关函数，以便搜索有最高相关性的帧，并且，用于搜索的计算量变得相当大。

但是，通过确定唯一使用在基本层编码部分101中获得的基音延迟的取出位置，可以大量地减少一般长期预测所需的计算量。

另外，上面在在本实施例中说明的扩充层长期预测方法中已经描述了从基本层解码部分输出的长期预测信息是基音延迟的情况，但是，本发明不局限于这种情况，只要信息代表语音或声音的长期相关性，就可以将任何信息用作长期预测信息。

并且，在本实施例中描述了长期预测信号存储器502从缓冲器中取出长期预测信号的位置是长期预测延迟T的情况，但是，本发明可应用于这样的位置是长期预测延迟T附近的位置T+α(α是一个微小数字并可任意设置)的情况，即使在长期预测延迟T存在微小误差的情况下，也可以获得与本实施例相同的效果和优点。

例如，长期预测信号存储器502从长期预测延迟指示部分501接收长期预测延迟T，从存储在缓冲器的先前长期预测信号序列中取出倒退T+α的长期预测信号s(n-T-α)～s(n-T-α+N-1)，利用如下方程(5)计算确定值C，获取使确定值C最小的α，并编码这个α。并且，在解码的情况下，长期预测信号存储器602解码α的编码信息，以及利用长期预测延迟T，取出长期预测信号s(n-T-α)～s(n-T-α+N-1)。

C = \frac{[Σ_{i = 0}^{N - 1} e (n + i) s (n - T - α + i)]^{2}}{Σ_{i = 0}^{N - 1} s {(n - T - α + i)}^{2}}

...方程(5)

并且，虽然上面在本实施例中已经描述了利用语音/声音信号进行长期预测的情况，但是，本发明最终可应用于利用诸如MDCT和QMF之类的正交变换将语音/声音信号从时域变换到频域，以及利用变换信号(频率参数)进行长期预测的情况，并且，仍然可以获得与本实施例相同的效果和优点。例如，在利用语音/声音信号的频率参数进行扩充层长期预测的情况下，在图5中，长期预测系数计算部分503重新配备了将长期预测信号s(n-T)～s(n-T+N-1)从时域变换到频域的函数，并重新配备了将残差信号变换成频率参数的另一种函数，并且，长期预测系数生成部分506重新配备了将长期预测信号s(n)～s(n+N-1)从频域逆变换到时域的函数。并且，在图6中，长期预测系数生成部分604重新配备了将长期预测信号s(n)～s(n+N-1)从频域逆变换到时域的功能。

在一般语音/声音编码/解码方法中将用在检错或纠错中的冗余位加入编码信息中并在传输信道上发送包含冗余位的编码信息是常见的。在本发明中可以加权指定给基本层编码部分101输出的编码信息(A)和扩充层编码部分104输出的编码信息(B)的冗余位对编码信息(A)的位指定，以便进行指定。

(第二实施例)

下面参照编码并解码残差信号与长期预测信号之间的差值(长期预测残差信号)的情况描述第二实施例。

除了扩充层编码部分104和扩充层解码部分153的内部配置之外，本实施例的语音编码设备和语音解码设备的配置与图1中的那些相同。

图7是例示根据本实施例的扩充层编码部分104的内部配置的方块图。另外，在图7中，将与图5中相同的标号指定给与图5共同的结构单元，以便省略对它们的描述。

与图5相比，图7中的扩充层编码部分104进一步配有相加部分701、长期预测残差信号编码部分702、编码信息多路复用部分703、长期预测残差信号解码部分704和相加部分705。

长期预测信号生成部分506将计算出的长期预测信号s(n)～s(n+N-1)输出到相加部分701和702。

正如在如下方程(6)中所表达的那样，相加部分701颠倒长期预测信号s(n)～s(n+N-1)的极性，将结果与残差信号e(n)～e(n+N-1)相加，并将作为相加结果的长期预测残差信号p(n)～p(n+N-1)输出到长期预测残差信号编码部分702。

p(n+i)＝e(n+i)-s(n+i)(i＝0，…，N-1)...方程(6)

长期预测残差信号编码部分702编码长期预测残差信号p(n)～p(n+N-1)，并将通过编码获得的编码信息(下文称为“长期预测残差编码信息”)输出到编码信息多路复用部分703和长期预测残差信号解码部分704。另外，长期预测残差信号的编码一般通过矢量量化进行。

下面将进行8位矢量量化的情况用作一个例子描述编码长期预测残差信号p(n)～p(n+N-1)的方法。在这种情况下，在长期预测残差信号编码部分702中预备存储事先生成256种代码矢量的码本。代码矢量CODE(k)(0)～CODE(k)(N-1)是长度为N的矢量。k是代码矢量的索引和取范围从0到255的值。长期预测残差信号编码部分702利用如下方程(7)获取长期预测残差信号p(n)～p(n+N-1)与代码矢量CODE(k)(0)～CODE(k)(N-1)之间的平方误差er。

er = Σ_{i = 0}^{N - 1} {(p (n + i) - {CODE}^{(k)} (i))}^{2}

...方程(7)

然后，长期预测残差信号编码部分702确定使平方误差er最小的k值，作为长期预测残差编码信息。

编码信息多路复用部分703多路复用从长期预测系数编码部分504输入的扩充层编码信息和从长期预测残差信号编码部分702输入的长期预测残差编码信息，和通过传输信道将多路复用信息输出到扩充层解码部分153。

长期预测残差信号解码部分704解码长期预测残差编码信息，并将解码长期预测残差信号pq(n)～pq(n+N-1)输出到相加部分705。

相加部分705相加从长期预测信号生成部分506输入的长期预测信号s(n)～s(n+N-1)和从长期预测残差信号解码部分704输入的解码长期预测残差信号pq(n)～pq(n+N-1)，并将相加结果输出到长期预测信号存储器502。其结果是，长期预测信号存储器502利用如下方程(8)更新缓冲器。

\begin{matrix} \hat{s} (i) = s (i + N) & (i = n - M - 1, \cdot \cdot \cdot, n - N - 1) \\ \hat{s} (i) = s (i + N) + p (i - N) & (i = n - N, \cdot \cdot \cdot, n - 1) \end{matrix}\}

...方程(8)

s (i) = \hat{s} (i) (i = n - M - 1, \cdot \cdot \cdot, n - 1)

上文是根据本实施例的扩充层编码部分104的内部配置的说明。

下面参照图8中的方块图描述根据本发明的扩充层解码部分153的内部配置。另外，在图8中，将与图6中相同的标号指定给与图6共同的结构单元，以便省略对它们的描述。

与图6相比，图8中的扩充层解码部分153进一步配有编码信息多路分用部分801、长期预测残差信号解码部分802和相加部分803。

编码信息多路分用部分801将通过传输信道接收的多路复用编码信息多路分用成扩充层编码信息和长期预测残差编码信息，并将扩充层编码信息输出到长期预测系数解码部分603，将长期预测残差编码信息输出到长期预测残差信号解码部分802。

长期预测残差信号解码部分802解码长期预测残差编码信息，获取解码长期预测残差信号pq(n)～pq(n+N-1)，并将该信号输出到相加部分803。

相加部分803相加从长期预测信号生成部分604输入的长期预测信号s(n)～s(n+N-1)和从长期预测残差信号解码部分802输入的解码长期预测残差信号pq(n)～pq(n+N-1)，并将相加结果输出到长期预测信号存储器602，同时将结果作为扩充层解码信号输出。

上文是根据本实施例的扩充层解码部分153的内部配置的说明。

通过如此编码并解码残差信号与长期预测信号之间的差值(长期预测残差信号)，可以获得质量比前面在第一实施例中所述高的解码信号。

另外，上面在本实施例中已经描述了通过矢量量化编码长期预测残差信号的情况。但是，本发明不局限于这种编码方法，可以利用，例如，形状-增益VQ、分割VQ、变换VQ或多相VQ进行编码。

下面将描述通过在形状方面8个位和在增益方面5个位的13位形状-增益VQ进行编码的情况。在这种情况下，提供了两种码本，形状码本和增益码本。形状码本包括256种形状代码矢量，和形状代码矢量SCODE(k1)(0)～SCODE(k1)(N-1)是长度为N的矢量。k1是形状代码矢量的索引和取范围从0到255的值。增益码本包括32种增益代码，和增益代码GCODE(k2)取标量值。k2是增益代码的索引和取范围从0到31的值。长期预测残差信号编码部分702利用如下方程(9)获取长期预测残差信号p(n)～p(n+N-1)的增益和形状矢量shape(0)～shape(N-1)，和进一步获取增益与增益代码GCODE(k2)之间的增益误差ga iner和形状矢量shape(0)～shape(N-1)与形状代码矢量SCODE(k1)(0)～SCODE(k1)(N-1)之间的平方误差shapeer。

gain = \sqrt{Σ_{i = 0}^{N - 1} p {(n + i)}^{2}}

shape (i) = \frac{p (n + i)}{gain} (i = 0, \cdot \cdot \cdot, N - 1)

...方程(9)

gainer＝|gain-GCODE^(k2)|

shapeer = Σ_{i = 0}^{N - 1} {(shape (i) - {GCODE}^{(k 2)} (i))}^{2}

...方程(10)

然后，长期预测残差信号编码部分702获取使增益误差gainer最小的k2值和使平方误差shapper最小的k1值，并将获得的值确定为长期预测残差编码信息。

下面描述通过8位分割VQ进行编码的情况。在这种情况下，预备了两种码本，第一分割码本和第二分割码本。

第一分割码本包括16种第一分割代码矢量SPCODE(k3)(0)～SPCODE(k3)(N/2-1)，第二分割码本包括16种第二分割代码矢量SPCODE(k4)(0)～SPCODE(k4)(N/2-1)，和每个代码矢量具有N/2的长度。k3是第一分割代码矢量的索引和取范围从0到15的值。k4是第二分割代码矢量的索引和取范围从0到15的值。长期预测残差信号编码部分702利用如下方程(11)将长期预测残差信号p(n)～p(n+N-1)划分成第一分割矢量sp1(0)～sp1(N/2-1)和第二分割矢量s p2(0)～s p2(N/2-1)，并获取第一分割矢量sp1(0)～sp1(N/2-1)与第一分割代码矢量SPCODE(k3)(0)～SPCODE(k3)(N/2-1)之间的平方误差splitter1和第二分割矢量sp2(0)～sp2(N/2-1)与第二分割代码矢量SPCODE(k4)(0)～SPCODE(k4)(N/2-1)之间的平方误差splitter2。

sp₁(i)＝p(n+i)(i＝0，…，N/2-1)

sp₂(i)＝p(n+N/2+i)(i＝0，…，N/2-1)...方程(11)

{spliter}_{1} = Σ_{i = 0}^{N / 2 - 1} {({sp}_{1} (i) - {SPCOD E_{1}}^{(k 3)} (i))}^{2}

{spliter}_{2} = Σ_{i = 0}^{N / 2 - 1} {({sp}_{2} (i) - {SPCOD E_{2}}^{(k 4)} (i))}^{2}

...方程(12)

然后，长期预测残差信号编码部分702获取使平方误差splitter1最小的k3值并使平方误差splitter2最小的k4值，并将获得的值确定为长期预测残差编码信息。

下面描述通过利用离散付里叶变换的8位变换VQ进行编码的情况。在这种情况下，预备了包括256种变换代码矢量的变换码本，和变换代码矢量TCODE(k5)(0)～TCODE(k5)(N/2-1)是长度为N/2的矢量。k5是变换代码矢量的索引和取范围从0到255的值。长期预测残差信号编码部分702利用如下方程(13)对长期预测残差信号p(n)～p(n+N-1)进行离散付里叶变换以获取变换矢量t p(0)～tp(N-1)，以及利用如下方程(14)获取变换矢量tp(0)～tp(N-1)与变换代码矢量TCODE(k5)(0)～TCODE(k5)(N/2-1)之间的平方误差transer。

tp \hat{(i)} = Σ_{i = 0}^{N - 1} p (n + i) e^{- j \frac{2 rσi}{N}} (\hat{i} = 0, \cdot \cdot \cdot, N - 1)

...方程(13)

transfer = Σ_{i = 0}^{N - 1} {(tp (i) - {TCODE}^{(k 5)} (i))}^{2}

...方程(14)

然后，长期预测残差信号编码部分702获取使平方误差transfer最小的k5值，并将获得的值确定为长期预测残差编码信息。

下面描述5个位用于第一阶段和8个位用于第二阶段的13位二相VQ进行编码的情况。在这种情况下，预备了第一阶段码本和第二阶段码本两种码本。第一阶段码本包括32种第一阶段代码矢量PHCODE1(k6)(0)～PHCODE1(k6)(N-1)。第二阶段码本包括256种第二阶段代码矢量PHCODE2(k7)(0)～PHCODE2(k7)(N-1)，并且每个代码矢量具有N/2的长度。k6是第一阶段代码矢量的索引并且取范围从0到31的值。k7是第二阶段代码矢量的索引并且取范围从0到255的值。长期预测残差信号编码部分702利用如下方程(15)获取长期预测残差信号p(n)～p(n+N-1)与第一阶段代码矢量PHCODE1(k6)(0)～PHCODE1(k6)(N-1)之间的平方误差phaseer1，进一步获取使平方误差phaseer1最小的k6值，并将该值确定为Kmax。

{phaseer}_{1} = Σ_{i = 0}^{N - 1} {(p (i) - {PHCOD E_{1}}^{(k 6)} (i))}^{2}

...方程(15)

然后，长期预测残差信号编码部分702利用如下方程(16)获取误差矢量ep(0)～ep(N-1)，获取误差矢量ep(0)～ep(N-1)与第二阶段代码矢量PHCODE2(k7)(0)～PHCODE2(k7)(N-1)之间的平方误差phaseer2，进一步获取使平方误差phaseer2最小的k7值，并将该值和Kmax确定为长期预测残差编码信息。

ep (i) = p (n + i) - {PHCODE}_{1}^{(k \max)} (i) (i = 0, \cdot \cdot \cdot, N - 1)

...方程(16)

{phaseer}_{2} = Σ_{i = 0}^{N - 1} {(ep (i) - {PHCOD E_{2}}^{(k 7)} (i))}^{2}

...方程(17)

(第三实施例)

图9是例示分别含有在第一和第二实施例中描述的语音编码设备和语音解码设备的语音信号发送设备和语音信号接收设备的配置的方块图。

在图9中，通过输入设备902将语音信号901转换成电子信号和输出到A/D转换设备903。A/D转换设备903将从输入设备902输出的(模拟)信号转换成数字信号并将结果输出到语音编码设备904。语音编码设备904装有如图1所示的语音编码设备100，编码从A/D转换设备903输出的数字语音信号，并将编码信息输出到RF调制设备905。RF调制设备905将从语音编码设备904输出的编码信息转换成诸如无线电信号之类传播媒体的信号以便加以发送，并将信号输出到发送天线906。发送天线906发送从RF调制设备905输出的输出信号作为无线电信号(RF信号)。另外，图9中的RF信号907代表从发送天线906发送的无线电信号(RF信号)。语音信号发送设备的配置和操作就是像上述那样。

RF信号908由接收天线909接收，然后，输出到RF解调设备910。另外，图9中的RF信号908代表如果在传播路径上没有出现信号衰减和/或噪声多路复用就与RF信号907相同、由接收天线909接收的无线电信号。

RF解调设备910从接收天线909输出的RF信号中解调语音编码信息，并将结果输出到语音解码设备911。语音解码设备911装有如图1所示的语音解码设备150，从RF解调设备910输出的语音编码信息中解码语音信号，并将结果输出到D/A转换设备912。D/A转换设备912将语音解码设备911输出的数字语音信号转换成模拟电子信号，并将结果输出到输出设备913。

输出设备913将电子信号转换成空气振动并将结果输出成人耳听得见的声音信号。另外，在该图中，标号914表示输出声音信号。语音信号接收设备的配置和操作就是像上述那样。

通过在带有上述语音信号发送设备和语音信号接收设备的无线通信系统中配备基站设备和通信终端设备，可以获得高质量的解码信号。

如上所述，根据本发明，可以利用较少编码信息编码并解码具有宽带宽的语音和声音信号，并可以减少计算量。并且，通过利用基本层的长期预测信息获取长期预测延迟，可以减少编码信息。此外，通过解码基本层编码信息，可以只获取基本层的解码信号，并且在CELP型语音编码/解码方法中，可以实现从部分编码信息(可伸缩编码)中解码语音和声音的功能。

本申请基于2003年4月30日提出的日本专利申请第2003-125665号，特此全文引用，以供参考。

工业应用性

本发明适用于用在编码和发送语音和/或声音信号的通信系统中的语音编码设备和语音解码设备。

Claims

1.语音编码设备，包括：

基本层编码器，用于编码输入信号而生成第一编码信息；

基本层解码器，用于解码所述第一编码信息而生成第一解码信号，同时生成作为表示语音所具有的长期相关性的信息的长期预测信息；

加法器，用于获取作为所述输入信号与所述第一解码信号之间的差值的残差信号；以及

扩充层编码器，用于根据所述长期预测信息获取扩充层的长期预测延迟，从存储在缓冲器中的先前长期预测信号序列中取出倒退相当于所述长期预测延迟的所述长期预测信号，利用所述长期预测信号和由所述加法器获取的所述残差信号，计算长期预测系数，编码所述长期预测系数而生成第二编码信息。

2.如权利要求1所述的语音编码设备，

所述基本层解码器将表示从驱动激励信号样本中取出的自适应激励矢量的取出位置的信息作为长期预测信息。

3.从权利要求1所述的语音编码设备接收第一编码信息和第二编码信息而解码语音的语音解码设备，所述语音解码设备包括：

扩充层解码器，用于根据所述长期预测信息获取扩充层的长期预测延迟，从存储在缓冲器中的所述先前长期预测信号序列中取出倒退相当于所述长期预测延迟的所述长期预测信号，解码所述第二编码信息而生成第二解码信号；以及

加法器，用于相加所述第一解码信号和所述第二解码信号，并输出作为相加结果的语音信号。

4.如权利要求3所述的语音解码设备，