CN1496556A

CN1496556A - 声音编码设备和方法以及声音解码设备和方法

Info

Publication number: CN1496556A
Application number: CNA028061195A
Authority: CN
Inventors: 小泽一范
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-03-07
Filing date: 2002-03-07
Publication date: 2004-05-12
Anticipated expiration: 2022-03-07
Also published as: KR100561018B1; US7680669B2; EP1367565A4; EP1367565A1; CN1293535C; WO2002071394A1; HK1067443A1; CA2440820A1; US20040117178A1; JP2002268686A; JP3582589B2; KR20030076725A

Abstract

在多组位置码书储存电路(450)中提供指明脉冲位置的多组位置码书。根据在自适应码书电路(500)中获得的音调预测信号，在位置码书选择电路(510)中从多组位置码书选出一种类型的位置码书。通过声源量化电路(350)，从所选出的位置码书选出位置，以使声音信号的失真最小。输送自适应码书电路(500)的输出和声源量化电路(350)的输出。因此，即使当编码比特率很低时，也可以以小计算量编码声音信号，同时可以防止声音质量的劣化。

Description

声音编码设备和方法以及声音解码设备和方法

技术领域

本发明涉及在低比特率下以高质量编码声音信号的声音编码设备和方法，以及以高质量对用所述声音编码设备和方法进行编码的声音信号解码的声音解码设备和方法。

背景技术

举例来说，在M.Schroeder和B.Atal的“Code Excited LinearPrediction：High quality speech at very low bit rates”(Proc.ICASSP，pp.937-940，1985)(此后称为参考文献1)和Kleijn等的“Improved speechquality and efficient vector quantization in SELP”(Proc.ICASSP，pp.155-158，1988)(此后称为参考文献2)中描述的CELP(code excited linearpredictive coding，码激励线性预测编码)被认为是用于高效地编码声音信号的系统。

在CELP中，在发送的一侧，通过对声音信号的每一帧(例如，20ms)使用LPC(linear predictive coding，线性预测编码)分析，提取表示声音信号的频谱特征的频谱参数。

接着，将每一帧进一步分成若干子帧(例如，5ms)。基于过去的声源信号，对于每个子帧提取自适应码书中的参数(对应于音调周期(pitchperiod)的延迟参数和增益参数)，由此通过自适应码书对子帧的声音信号进行音调预测。

对于通过音调预测获得的声源信号，从包含预定类型的噪声信号的声源码书(矢量量化码书)中选择最优的声源码矢量，并且计算最优的增益，由此量化声源信号。在声源码矢量的选择中，选择使由所选择的噪声信号合成的信号和剩余信号之间的误差电功率(error electric power)最小的声源码矢量。

此后，指明了所选择的声源码矢量的类型的增益和索引、频谱参数和自适应码书的参数通过复用器被复用并被发送。

当从如上所述的传统的声音信号编码系统的声源码书中选择最优的声源码矢量时，对于每个码矢量必须进行一次滤波或卷积运算。因为此操作被重复进行的次数是储存在码书中的码矢量的数目，所以需要进行大量的计算。例如，如果声音码书的比特数为B，维数为N，设K为在滤波或卷积运算中滤波器或冲击响应长度，则每秒所需的运算量为N×K×2^B×8000/N。举例来说，如果B＝10，N＝40，K＝10，则需要每秒81,920,000次的极大的运算量。

因此，人们已提出了各种减少从声源码书中搜索声源码矢量所需的计算量的方法。在C.Laflamme等的“16 kbps wideband speech codingtechnique based on algebraic CELP”(Proc.ICASSP，pp.13-16，1991)(此后称为参考文献3)中描述的ACELP(argebraic code excited linearprediction，代数码激励线性预测)系统是这些方法中的一种。

在此ACELP系统中，由多个脉冲来表示声源信号，并且每个脉冲由预定的比特数来表示，因此每个脉冲的位置被发送。因为每个脉冲的振幅被限制至+1.0或-1.0，所以可以大幅度地减少脉冲搜索的计算量。

在如上所述的传统的声音信号编码系统中，对于具有8kb/s或更大的编码比特率的声音信号可以获得高声音质量。但是，如果编码比特率小于8kb/s，则每个子帧的脉冲的数量变得不足。因为这使得难以用令人满意的精度来表示声源信号，所以被编码的声音质量会变差。

发明内容

考虑到如上所述传统技术的问题作出了本发明，并且本发明的目的是提供即使编码比特率很低时也能够以小计算量编码声音信号，同时防止声音质量劣化的声音编码设备和方法，和能够以高质量解码由声音编码设备和方法编码的声音信号的声音解码设备和方法。

为了达到上述的目的，本发明的声音编码设备是一种声音编码设备，具有：频谱参数计算装置，用于接收声音信号和计算频谱参数；频谱参数量化装置，用于量化由参数计算装置计算出的频谱参数并输出量化的频谱参数；冲击响应计算装置，用于将来自频谱参数量化装置的输出频谱参数转换成冲击响应；自适应码书装置，用于基于预测声音信号并获得剩余信号的自适应码书从过去的量化的声源信号获得延迟和增益，并且输出延迟和增益，由具有非零振幅的脉冲的组合表示声音信号的声源信号；以及声源量化装置，用于通过使用冲击响应，量化声源信号和声音信号的增益，并且输出量化的声源信号和增益，声音编码设备包括：

位置码书储存装置，用于把多组位置码书储存为多组脉冲位置；

位置码书选择装置，用于基于自适应码书的延迟和增益中的至少一个从多组位置码书中选择一种类型的码书，

通过使用冲击脉冲响应，声源量化装置计算声音信号的失真，并通过选择使失真减小的位置来量化脉冲位置；以及

复用器装置，用于组合来自频谱参数量化装置的输出、来自自适应码书装置的输出和来自声源量化装置的输出，并且输出该组合。

此外，本发明的声音编码设备是一种声音编码设备，具有：频谱参数计算装置，用于接收声音信号和计算频谱参数；频谱参数量化装置，用于量化由参数计算装置计算出的频谱参数并输出量化的频谱参数；冲击响应计算装置，用于将来自频谱参数量化装置的输出频谱参数转换成冲击响应；自适应码书装置，用于基于预测声音信号并获得剩余信号的自适应码书从过去的量化的声源信号获得延迟和增益，并且输出延迟和增益，由具有非零振幅的脉冲的组合表示声音信号的声源信号；以及声源量化装置，用于通过使用冲击响应，量化声源信号和声音信号的增益，并且输出量化的声源信号和增益，声音编码设备包括：

声源量化装置针对储存在由位置码书选择装置所选择的位置码书中的每个位置，读出储存在增益码书中的增益码矢量，量化增益以计算声音信号的失真，并选择性地输出一种使失真减小的位置和增益矢量的组合类型；以及

鉴别装置，用于从声音信号中提取特征，并鉴别和输出模式；

位置码书选择装置，用于如果来自鉴别装置的输出是预定的模式，则基于自适应码书的延迟和增益中的至少一个从多组位置码书中选择一种类型的码书，

如果来自鉴别装置的输出是预定的模式，则声源量化装置针对储存在所选择的码书中的位置，通过使用冲击响应计算声音信号的失真，并且通过从所选择的码书中选择性地输出使失真减小的位置来量化脉冲位置；以及

复用器装置，用于组合来自频谱参数量化装置的输出、来自自适应码书装置的输出、来自声源量化装置的输出和来自鉴别装置的输出，并且输出该组合。

本发明的声音解码设备是一种声音解码设备，包括：

解复用器装置，用于接收关于频谱参数的码、关于自适应码书的码、关于声源信号的码和表示增益的码，并且解复用这些码；

自适应码矢量产生装置，用于通过使用关于自适应码书的码产生自适应码矢量；

位置码书储存装置，用于把多组位置码书储存为脉冲位置组；

位置码书选择装置，用于基于自适应码书的延迟和增益中的至少一个从多组位置码书中选择一种类型的码书；

声源信号重建装置，用于针对由码书选择装置所选择的位置码书，通过使用关于码书的码和关于声源信号的码，产生具有非零振幅的脉冲，并通过使用表示增益的码，把所述的脉冲放大增益倍来产生声源信号；以及

合成滤波器装置，由频谱参数形成以接收声源信号并输出再生信号。

此外，本发明的声音解码设备是一种声音解码设备，包括：

解复用器装置，用于接收关于频谱参数的码、关于自适应码书的码、关于声源信号的码、表示增益的码和表示模式的码，并且解复用这些码；

自适应码矢量产生装置，用于如果表示模式的码是预定的模式，则通过使用关于自适应码书的码产生自适应码矢量；

位置码书选择装置，用于如果表示模式的码是预定的模式，则基于自适应码书的延迟和增益中的至少一个从多组位置码书中选择一种类型的码书；

声源信号重建装置，用于如果表示模式的码是预定的模式，则针对由码书选择装置所选择的位置码书，通过使用关于码书的码和关于声源信号的码，产生具有非零振幅的脉冲，并通过使用表示增益的码，把所述的脉冲放大增益倍来产生声源信号；以及

合成滤波装置，由频谱参数形成以接收声源信号并输出复制信号。

本发明的声音编码方法是一种声音编码方法，具有：频谱参数计算步骤，用于接收声音信号并计算频谱参数；频谱参数量化步骤，用于量化和输出频谱参数；冲击响应计算步骤，用于将量化的频谱参数转换成冲击响应；自适应码书步骤，用于基于预测声音信号和获得剩余信号的自适应码书从过去的量化的声源信号中获得延迟和增益，并输出延迟和增益，由具有非零振幅的脉冲的组合表示声音信号的声源信号；以及声源量化步骤，用于通过使用冲击响应，量化声源信号和声音信号的增益，并输出量化的声源信号和增益，方法包括：

准备位置码书储存装置，位置码书储存装置用于把多组位置码书储存为多组脉冲位置；

位置码书选择步骤，用于基于自适应码书的延迟和增益中的至少一个从多组位置码书中选择一种类型的码书，

通过使用冲击脉冲响应，计算声音信号的失真，和通过选择使在声源量化步骤中的失真减小的位置，量化脉冲位置的步骤；以及

复用步骤，用于组合来自频谱参数量化步骤的输出、来自自适应码书步骤的输出和来自声源量化步骤的输出，并且输出该组合。

此外，本发明的声音编码方法是一种声音编码方法，具有：频谱参数计算步骤，用于接收声音信号并计算频谱参数；频谱参数量化步骤，用于量化和输出频谱参数；冲击响应计算步骤，用于将量化的频谱参数转换成冲击响应；自适应码书步骤，用于基于预测声音信号和获得剩余信号的自适应码书从过去的量化的声源信号中获得延迟和增益，并输出延迟和增益，由具有非零振幅的脉冲的组合表示声音信号的声源信号；以及声源量化步骤，用于通过使用冲击响应，量化声源信号和声音信号的增益，并输出量化的声源信号和增益，方法包括：

针对储存在位置码书选择步骤中所选择的位置码书中的每个位置，读出储存在增益码书中的增益码矢量来量化增益，以计算声音信号的失真，并选择性地输出一种使在声源量化步骤中的失真减小的位置和增益矢量的组合类型的步骤；以及

此外，本发明的声音编码是一种声音编码方法，具有：频谱参数计算步骤，用于接收声音信号并计算频谱参数；频谱参数量化步骤，用于量化和输出频谱参数；冲击响应计算步骤，用于将量化的频谱参数转换成冲击响应；自适应码书步骤，用于基于预测声音信号和获得剩余信号的自适应码书从过去的量化的声源信号中获得延迟和增益，并输出延迟和增益，由具有非零振幅的脉冲的组合表示声音信号的声源信号；以及声源量化步骤，用于通过使用冲击响应，量化声源信号和声音信号的增益，并输出量化的声源信号和增益，方法包括：

鉴别步骤，用于从声音信号中提取特征，并鉴别和输出模式；

位置码书选择步骤，用于如果来自鉴别步骤的输出是预定的模式，则基于自适应码书的延迟和增益中的至少一个从多组位置码书中选择一种类型的码书，

如果来自鉴别步骤的输出是预定的模式，则针对储存在所选择的码书中的位置，通过使用冲击响应计算声音信号的失真，并通过从所选择的码书中选择性地输出使在声源量化步骤中的失真减小的位置，量化脉冲位置的步骤；以及

复用步骤，用于组合来自频谱参数量化步骤的输出、来自自适应码书步骤的输出、来自声源量化步骤的输出和来自鉴别步骤的输出，并且输出该组合。

本发明的声音解码方法是一种声音解码方法，包括：

解复用步骤，用于接收关于频谱参数的码、关于自适应码书的码、关于声源信号的码和表示增益的码，并且解复用这些码；

自适应码矢量产生步骤，用于通过使用关于自适应码书的码产生自适应码矢量；

准备位置码书储存装置，位置码书储存装置用于把多组位置码书储存为脉冲位置组；

位置码书选择步骤，用于基于自适应码书的延迟和增益中的至少一个从多组位置码书中选择一种类型的码书；

声源信号重建步骤，用于针对在码书选择步骤中所选择的位置码书，通过使用关于码书的码和关于声源信号的码，产生具有非零振幅的脉冲，并通过使用表示增益的码，把所述的脉冲放大增益倍来产生声源信号；以及

合成滤波步骤，由频谱参数形成，以接收声源信号并输出再生信号。

此外，本发明的声音解码方法是一种声音解码方法，包括：解复用步骤，用于接收关于频谱参数的码、关于自适应码书的码、关于声源信号的码、表示增益的码和表示模式的码，并且解复用这些码；

自适应码矢量产生步骤，用于如果表示模式的码是预定的模式，则通过使用关于自适应码书的码产生自适应码矢量；

位置码书选择步骤，用于如果表示模式的码是预定的模式，则基于自适应码书的延迟和增益中的至少一个从多组位置码书中选择一种类型的码书；

声源信号重建步骤，用于如果表示模式的码是预定的模式，则针对在码书选择步骤中所选择的位置码书，通过使用关于码书的码和关于声源信号的码，产生具有非零振幅的脉冲，并通过使用表示增益的码，把所述的脉冲放大增益倍来产生声源信号；以及

合成滤波步骤，由频谱参数形成，以接收声源信号并输出复制信号。

附图说明

图1是示出本发明的声音编码设备的第一实施例的方框图；

图2是示出本发明的声音编码设备的第二实施例的方框图；

图3是示出本发明的声音编码设备的第三实施例的方框图；

图4是示出本发明的声音解码设备的一个实施例的方框图；

图5是示出本发明的声音解码设备的另一个实施例的方框图。

具体实施方式

参照附图，下面将描述本发明的实施例。

第一实施例

图1是示出本发明的声音编码设备的第一实施例的方框图。

如图1所示，此实施例包含输入终端100、帧分割电路110、频谱参数计算电路200、频谱参数量化电路210、LSP码书电路211、子帧分割电路120、冲击响应计算电路310、听觉加权电路230、响应信号计算电路240、加权信号计算电路350、减法器235、自适应码书电路500、位置码书选择电路510、多组位置码书储存电路450、声源量化电路357、声源码书351、增益量化电路370、增益码书380和复用器400。

在具有上述结构的声音编码设备中，将声音信号从输入终端100输入，并由帧分割电路110分成若干帧(例如，20ms)。子帧分割电路120将一帧的声音信号分成若干比帧短的子帧(例如，5ms)。

对于至少是一个子帧的声音信号，频谱参数计算电路200通过比子帧的长度长的窗口(例如，24ms)提取声音，并按照预定的阶数(例如，P＝10th阶)计算频谱参数。在此频谱参数的计算中，可以使用公知的LPC分析、Burg分析等。在此实施例中，使用Burg分析。在例如Nakamizo的“Signal Analysis and System Identification”(CORONA，1988，pp.82-87)(此后称为参考文献4)中描述了Burg分析的细节。频谱参数计算器把通过Burg方法计算出的线性预测系数α_i(i＝1，...，10)转换成适于量化或插值的LSP参数。在Sugamura等的标题为“Sound InformationCompression by Line Spectrum vs.(LSP)Sound Analysis Synthesis System”(IECE Trans.，J64-A，pp.599-606，1981)(此后称为参考文献5)的论文中描述了这种从线性预测系数至LSP的转换。举例来说，将通过Burg方法在第二和第四子帧中计算的线性预测系数转换成LSP参数。通过线性插值计算第一和第三子帧中的LSP，并通过逆变换变回线性预测系数。将第一至第四子帧的线性预测系数α_il(i＝1，...，10，l＝1，...，5)输出至听觉加权电路230。此外，将第四子帧的LSP输出至频谱参数量化电路210。

频谱参数量化电路210高效地量化预定的子帧的LSP的参数，并且输出使失真最小的量化值，所述的失真由下式表示：

D_{j} = Σ_{i = 1}^{10} W (i) {[LSP (i) - QLSP {(i)}_{j}]}^{2} - - - (1)

其中LSP(i)、QLSP(i)_j、W(i)分别为量化之前的第i阶LSP、量化后的第j阶结果和加权系数。

在下面的解释中，假设将矢量量化用作量化方法，并且将第四子帧的LSP参数量化。可以将公知的方法用作LSP参数矢量量化方法。例如，在公开号为4-171500的日本专利(此后称为参考文献6)、公开号为4-363000的日本专利(此后称为参考文献7)、公开号为5-6199的日本专利(此后称为参考文献8)和T.Nomura等的标题为“LSP Coding UsingVQ-SVQ With Interpolation in 4.075 kbps M-LCELP Speech Coder”的论文(Proc.Mobile Multimedia Communications，pp.B.2.5，1993)(此后称为参考文献9)中描述了实用的方法。因此，将省略对这些方法的解释。

基于在第四子帧中被量化的LSP参数，频谱参数量化电路210重建第一至第四子帧的LSP参数。在此实施例中，对当前帧的第四子帧的量化的LSP参数和紧邻的上一帧的第四子帧的量化的LSP进行线性插值，由此重建第一至第三子帧的LSP。更具体地说，在选择使得量化前的LSP和量化后的LSP之间的误差电功率最小的一种类型的码矢量以后，通过线性插值可以重建第一至第四子帧的LSP。为了进一步提高性能，可以为使得误差电功率最小的码矢量选择多个候选者，估计每一个候选者的累计失真，并选择使得累计失真最小的一对候选者和插值LSP。在例如公开号为6-222797的日本专利(此后称为参考文献10)中进行了详细描述。

如上所述被重建的第一至第三子帧的那些LSP，和第四子帧的量化的LSP被转换成每个子帧的线性预测系数α’_il(i＝1，...，10，l＝1，...，5)，并被输出至冲击响应计算电路310。此外，表示第四子帧的量化的LSP的码矢量的索引被输出至复用器400。

听觉加权电路230从频谱参数计算电路200接收每个子帧的线性预测系数α_il(i＝1，...，10，l＝1，...，5)，根据参考文献1进行子帧的声音信号的听觉加权，并输出听觉加权信号。

响应信号计算电路240从频谱参数计算电路200接收每个子帧的线性预测系数α_il，并从频谱参数量化电路210接收每个子帧的被量化、插值和重建的线性预测系数α’_il(i＝1，...，10，l＝1，...，5)。通过使用保存的滤波器存储值，通过假设输入信号为0，即d(n)＝0，响应信号计算电路240计算一个子帧的响应信号，并将响应信号输出至减法器235。响应信号x_z(n)由下式表示：

x_{Z} = d (n) - Σ_{i = 1}^{10} α_{i} d (n - i) + Σ_{i = 1}^{10} α_{i} γ^{i} y (n - i) + Σ_{i = 1}^{10} {α^{\cdot}}_{i} γ^{i} x_{Z} (n - i) - - - (2)

其中如果n-i≤0，则x_z(n)＝d(n)。

y(n-i)＝p(N+(n-i)) (3)

x_z＝s_w(N)+(n-i)) (4)

其中N为子帧的长度。γ为控制听觉加权量的加权系数，并具有与下面给出的式(7)相同的值。s_w(n)为来自加权信号计算电路的输出信号，p(n)为作为式(7)的右侧第一项的滤波器的分母的输出信号，。

通过

x_w(n)＝x_w(n)-x_z(n) (5)减法器235从听觉加权信号中减去一个子帧响应信号，并且将x’_w(n)输出至自适应码书电路500。

冲击响应计算电路310计算听觉加权滤波器的冲击响应H_w(n)的预定数目L，冲击响应Hw(n)的z变换可以由下式表示：

H_{w} (z) = \frac{1 - Σ_{i = 1}^{10} α_{i} z^{- i}}{1 - Σ_{i = 1}^{10} α_{i} γ^{i} z^{- i}} \cdot \frac{1}{1 - Σ_{i = 1}^{10} α_{i}^{'} γ^{i} z^{- i}} - - - (6)

并且冲击响应计算电路310将冲击响应H_w(n)输出至自适应码书电路500和声源量化电路357。

自适应码书电路500接收来自增益量化电路370的过去的声源信号V(n)、来自减法器235的输出信号x’_w(n)和来自冲击响应计算电路310的听觉冲击响应H_w(n)。自适应码书电路500计算对应于音调的延迟T，以使由下式表示的失真最小：

D_{T} = Σ_{n = 0}^{N - 1} x_{w}^{'_{2}} (n) - {[Σ_{n = 0}^{N - 1} x_{w}^{'} (n) y_{w} (n - T)]}^{2} / [Σ_{n = 0}^{N - 1} y_{w}^{2} (n^{'} - T)] - - - (7)

其中

y_w(n-T)＝v(n-T)^*h_w(n) (8)

并将表示此延迟的索引输出至复用器400。

在式(8)中，符号^*表示卷积运算。

接着，由下式计算增益β：

β = Σ_{n = 0}^{N - 1} x_{w}^{'} (n) y_{w} (n - T) / Σ_{n = 0}^{N - 1} y_{w}^{2} (n - T) - - - (9)

为了提高女性的话音和小孩的话音的延迟提取的精确性，也可以通过小数样值而不是通过整数样值计算延迟。在P.Kroon等的标题为“Pitchprediction with high temporal resolution”的论文(Proc.ICASSP，pp.661-664，1990)(此后称为参考文献11)中描述了可行的方法。

此外，根据

e_w(n)＝x_w(n)-βv(n-T)^*h_w(n) (10)自适应码书电路500进行音调的预测。

多组位置码书储存电路450事先储存多组脉冲位置码书。例如，当储存四组位置码书时，各组的位置码书如表1至表4所示。

表1

脉冲数	位置组
脉冲数	位置组	第一脉冲第二脉冲第三脉冲	0，20，40，601，21，41，612，22，42，62

第四脉冲	3，23，43，634，24，44，64，5，25，45，65，6，26，46，667，27，47，678，28，48，689，29，49，6910，30，50，7011，31，51，71. . . .19，39，59，79

表2

脉冲数	位置组
脉冲数	位置组	第一脉冲第二脉冲第三脉冲第四脉冲	0，20，40，601，21，41，612，22，42，623，23，43，63. . . .17，37，57，7718，38，58，7819，39，59，79

表3

脉冲数	位置组
脉冲数	位置组	第一脉冲第二脉冲第三脉冲第四脉冲	0，20，40，601，21，41，612，22，42，623，23，43，63

4，24，44，64，11，31，51，71. . . .16，36，56，7617，37，57，7718，38，58，7819，39，59，79

表4

脉冲数	位置组
脉冲数	位置组	第一脉冲第二脉冲第三脉冲第四脉冲	0，20，40，601，21，41，61. . . .15，35，55，7516，36，56，7617，37，57，7718，38，58，7819，39，59，79

位置码书选择电路510接收来自自适应码书电路500的音调预测信号，并在时间上进行平滑。对于被平滑的信号，位置码书选择电路510接收多组位置码书450。对于储存在每个位置码书中的所有脉冲位置，位置码书选择电路510计算与被平滑的信号的相关性，选择使相关性最大的位置码书，并将所选择的位置码书输出至声源量化电路357。

声源量化电路357用M个脉冲表示一个子帧声源信号。

此外，声源量化电路357具有B比特振幅码书或极性码书，用于量化脉冲振幅的M个脉冲。在下面的解释中，将描述当使用极性码书时的操作。此极性码书被储存在声源码书351中。

声源量化电路357读出储存在声源码书351中的每个极性码矢量。声源量化电路357将储存在由位置码书选择电路510选出的位置码书中所有位置应用到每个码矢量，并选择使下面的式(11)最小的码矢量和位置的组合。

D_{k} = Σ_{n = 0}^{N - 1} {[e_{w} (n) - Σ_{i = 1}^{M} {g_{ik}}^{'} h_{w} (n - m_{i})]}^{2} - - - (11)

其中h_w(n)为听觉加权冲击响应。

为了使式(11)最小，只需要获得使下面的式(12)最大的极性码矢量g_ik与位置m_i的组合。

D_{(k, j)} = {[Σ_{n = 0}^{N - 1} e_{w} (n) s_{wk} (m_{i})]}^{2} / Σ_{n = 0}^{N - 1} {s_{wk}}^{2} (m_{i}) - - - (12)

这种组合也可以被选择得使下面的式(13)最大。这进一步减少了计算分子所需的运算量。

D_{(k, j)} = {[Σ_{n = 0}^{N - 1} Φ (n) v_{k} (n)]}^{2} / Σ_{n = 0}^{N - 1} {s_{wk}}^{2} (m_{i}) - - - (13)

其中

Φ (n) = Σ_{i = n}^{N - 1} e_{w} (i) h_{w} (i - n), n = 0, . . ., N - 1 - - - (14)

在完成极性码矢量的搜索后，声源量化电路357将所选出的极性码矢量和位置组的组合输出至增益量化电路370。

增益量化电路370接收来自声源量化电路357的极性码矢量和脉冲位置组的组合。此外，增益量化电路370从增益码书380中读出增益码矢量，并搜索使下面的式(15)最小的增益码矢量。

D_{k} = Σ_{n = 0}^{N - 1} {[x_{w} (n) - {β^{'}}_{t} {v (n - T)}^{*} h_{w} (n) - {G^{'}}_{t} Σ_{i = 1}^{M} {g^{'}}_{ik} h_{w} (n - m_{i})]}^{2} - - - (15)

在此实施例中，将自适应码书的增益和由脉冲表示的声源的增益同时进行矢量量化。将指明所选出的极性码矢量的索引、指明位置的码和指明增益码矢量的索引输出至复用器400。

注意，通过使用声音信号预先学习，也可以储存声源码书。例如在Linde等的标题为“An algorithm for vector quantization design”的论文(IEEE Trans.Commun.，pp.84-95，January，1980)(此后称为参考文献12)中描述了码书学习方法。

加权信号计算电路350接收这些索引，并读出对应于每个索引的码矢量。根据下式

v (n) = {β^{'}}_{t} v (n - T) + {G^{'}}_{t} Σ_{i = 1}^{M} {g^{'}}_{ik} δ (n - m_{i}) - - - (16)

加权信号计算电路350计算驱动声源信号v(n)。

将v(n)输出至自适应码书电路500。

通过使用来自频谱参数计算电路200的输出参数和来自频谱参数量化电路210的输出参数，对于每个子帧根据下式计算响应信号s_w(n)。

s_{w} (n) = v (n) - Σ_{i = 1}^{10} α_{i} v (n - i) + Σ_{i = 1}^{10} α_{i} γ^{i} p (n - i) + Σ_{i = 1}^{10} α_{i} γ^{i} s_{w} (n - i) - - - (17)

将计算出的响应信号s_w(n)输出至响应信号计算电路240。

复用器400复用来自频谱参数量化电路210、自适应码书电路500、声源量化电路357和增益量化电路370的输出，并将复用的信号输出至发送通道。

第二实施例

图2是示出本发明的声音编码设备的第二实施例的方框图。

在此实施例中，与图1中相同的参考数字表示相同的组成元件，其解释将被省略。

声源量化电路357读出储存在声源码书351中的每个极性码矢量，并将储存在由位置码书选择电路510选出的一种类型的位置码书中的所有位置应用到每个码矢量。声源量化电路357选择使式(11)最小的码矢量和位置组的多组组合，并将这些组合输出至增益量化电路377。

增益量化电路377接收来自声源量化电路357的极性码矢量和脉冲位置的多组组合。此外，增益量化电路377从增益码书380中读出增益码矢量，并选择性地输出增益码矢量、极性码矢量和脉冲位置的一种类型的组合，以使式(15)最小。

第三实施例

图3是示出本发明的声音编码设备的第三实施例的方框图。

模式鉴别电路800利用来自帧分割电路的输出信号来提取特征量，并且鉴别每一帧的模式。音调预测增益可以用作所述的特征。模式鉴别电路800在整个帧中将所获得的对于各个子帧的音调预测增益进行平均，将平均值与多个预定的阈值比较，并将所述的值分类为多个预定的模式。举例来说，假设在此实施例中模式类型的数量为2。这些模式0和1分别对应于无声间隔和发声间隔。模式鉴别电路800将模式鉴别信息输出至声源量化电路358、增益量化电路378和复用器400。

声源量化电路358接收来自模式鉴别电路800的模式鉴别信息。在模式1中，声源量化电路358接收由位置码书选择电路515选出的位置码书，读出储存在码书中的所有位置的极性码书，并且选择性地将脉冲位置组和极性码书输出以便使式(11)最小。在模式0中，声源量化电路358读出一种类型的脉冲组的极性码书(例如，表1至表4中示出的脉冲组中的预定的一种)，并且选择性地输出脉冲位置组和极性码书以便使式(11)最小。

增益量化电路378接收来自模式鉴别电路800的模式鉴别信息。增益量化电路378从增益码书380中读出增益码矢量，针对所选择的极性码矢量和位置的组合搜索增益码矢量，以使式(15)最小，并且选择一种使失真最小的增益码矢量、极性码矢量和位置的组合类型。

第四实施例

图4是示出本发明的声音解码设备的一个实施例的方框图。

如图4所示，此实施例包含解复用器505、增益解码电路510、增益码书380、自适应码书520、声源信号重建电路540、声源码书351、位置码书选择电路595、多组位置码书储存电路580、加法器550、合成滤波器560和频谱参数解码电路570。

从所接收的信号中，解复用器505接收指明增益码矢量的索引、指明自适应码书的延迟的索引、声源信号的信息、声源码矢量的索引和频谱参数的索引。解复用器505解复用并输出这些参数。

增益解码电路510接收增益码矢量索引，根据索引从增益码书380中读出增益码矢量，并输出所读出的增益码矢量。

自适应码书电路520接收自适应码书延迟以产生自适应码矢量，用增益码矢量乘以自适应码书的增益，并输出结果。

位置码书选择电路595接收来自适应码书电路520的音调预测信号，并在时间上平滑信号。对于此被平滑的信号，位置码书选择电路595接收多组位置码书580。对于储存在每个位置码书中的所有脉冲位置，位置码书选择电路595计算与被平滑的信号的相关性，选择使相关性最大的位置码书，并将所选择的位置码书输出至声源重建电路540。

声源信号重建电路540从位置码书选择电路595读出所选择的位置码书。

此外，通过使用从声源码书351中读出的增益码矢量和极性码矢量，声源信号重建电路540产生声源脉冲，并且将所产生的声源脉冲输出至加法器550。

通过使用来自适应码书电路520的输出和来自声源重建电路580的输出，根据式(17)，加法器550产生驱动声源信号v(n)，并将该信号输出至自适应码书电路520和合成滤波器电路560。

频谱参数解码电路570进行解码并将频谱参数转换成线性预测系数，并将线性预测系数输出至合成滤波器电路560

合成滤波器电路560接收驱动声源信号v(n)和线性预测系数，并计算和输出再生信号。

第五实施例

图5是示出本发明的声音解码设备的另一个实施例的方框图。

在此实施例中，与图4中相同的参考数字表示相同的组成元件，其解释将被省略。

声源信号重建电路590接收模式鉴别信息。如果此模式鉴别信息是模式1，则声源信号重建电路590从位置码书选择电路595中读出所选择的位置码书。此外，通过使用从声源码书351中读出的增益码矢量和极性码矢量，声源信号重建电路590产生声源脉冲，并且将所产生的声源脉冲输出至加法器550。如果模式鉴别信息是模式0，则通过使用预定的脉冲位置组和增益码矢量，声源信号重建电路590产生声源脉冲，并且将所产生的声源脉冲输出至加法器550。

在上述的实施例中，使用了指明脉冲位置的多组位置码书。基于通过自适应码书获得的音调预测信号，从多个位置码书中选出一种类型的位置码书。基于所选出的位置码书，搜索声音信号失真最小的位置。因此，脉冲位置信息的自由度高于传统的系统。这使得有可能提供一种声音编码系统，与传统的系统比较，尤其当比特率很低时，利用该声音编码系统可提高声音质量。

此外，基于通过自适应码书获得的音调预测信号，从多个位置码书中选出一种类型的位置码书，并且针对储存在位置码书中的各个位置搜索储存在增益码书中的增益码矢量。在最终再生信号的状态下计算声音信号的失真，并选择使此失真减小的位置和增益码矢量的组合。因此，包含增益码矢量的最终再生声音信号上的失真可以减小。所以，可以提供进一步提高了声音质量的声音编码系统。

此外，如果所接收的鉴别码指明是预定的模式，则基于通过自适应码书获得的音调预测信号，从多个位置码书中选出一种类型的位置码书。通过使用储存在该位置码书中的表示位置的码来产生脉冲，把脉冲放大增益倍，由此通过合成滤波器再生声音信号。因此，可以提供一种声音解码系统，当比特率很低时，与传统的系统比较，该声音解码系统提高了声音质量。

从前述的内容来看，有可能提供一种声音编码设备和方法，它们能够以小计算量编码声音信号，同时防止声音质量劣化，并有可能提供一种能够以高质量解码由所述的声音编码设备和方法编码的声音信号的声音解码设备和方法。

Claims

1.一种声音编码设备，具有：频谱参数计算装置，用于接收声音信号和计算频谱参数；频谱参数量化装置，用于量化由所述的参数计算装置计算出的频谱参数并输出所述的量化的频谱参数；冲击响应计算装置，用于将来自所述的频谱参数量化装置的输出频谱参数转换成冲击响应；自适应码书装置，用于基于预测声音信号并获得剩余信号的自适应码书从过去的量化的声源信号获得延迟和增益，并且输出所述的延迟和增益，由具有非零振幅的脉冲的组合表示所述声音信号的声源信号；以及声源量化装置，用于通过使用所述的冲击响应，量化所述的声源信号和所述声音信号的增益，并且输出所述的量化的声源信号和增益，所述声音编码设备包括：

位置码书储存装置，用于把多组位置码书储存为多组所述脉冲的位置；

位置码书选择装置，用于基于所述的自适应码书的所述延迟和增益中的至少一个从所述的多组位置码书中选择一种类型的码书，

通过使用所述的冲击脉冲响应，所述的声源量化装置计算所述的声音信号的失真，并通过选择使失真减小的位置来量化脉冲位置；以及

复用器装置，用于组合来自所述的频谱参数量化装置的输出、来自所述的自适应码书装置的输出和来自所述声源量化装置的输出，并且输出所述的组合。

2.一种声音编码设备，具有：频谱参数计算装置，用于接收声音信号和计算频谱参数；频谱参数量化装置，用于量化由所述的参数计算装置计算出的频谱参数并输出所述的量化的频谱参数；冲击响应计算装置，用于将来自所述的频谱参数量化装置的输出频谱参数转换成冲击响应；自适应码书装置，用于基于预测声音信号并获得剩余信号的自适应码书从过去的量化的声源信号获得延迟和增益，并且输出所述的延迟和增益，由具有非零振幅的脉冲的组合表示所述声音信号的声源信号；以及声源量化装置，用于通过使用所述的冲击响应，量化所述的声源信号和所述声音信号的增益，并且输出所述的量化的声源信号和增益，所述声音编码设备包括：

所述的声源量化装置针对储存在由所述的位置码书选择装置所选择的位置码书中的每个位置，读出储存在增益码书中的增益码矢量，量化增益以计算所述的声音信号的失真，并选择性地输出一种使所述的失真减小的位置和增益矢量的组合类型；以及

3.一种声音编码设备，具有：频谱参数计算装置，用于接收声音信号和计算频谱参数；频谱参数量化装置，用于量化由所述的参数计算装置计算出的频谱参数并输出所述的量化的频谱参数；冲击响应计算装置，用于将来自所述的频谱参数量化装置的输出频谱参数转换成冲击响应；自适应码书装置，用于基于预测声音信号并获得剩余信号的自适应码书从过去的量化的声源信号获得延迟和增益，并且输出所述的延迟和增益，由具有非零振幅的脉冲的组合表示所述声音信号的声源信号；以及声源量化装置，用于通过使用所述的冲击响应，量化所述的声源信号和所述声音信号的增益，并且输出所述的量化的声源信号和增益，所述声音编码设备包括：

鉴别装置，用于从所述的声音信号中提取特征，并鉴别和输出模式；

位置码书选择装置，用于如果来自所述的鉴别装置的输出是预定的模式，则基于所述的自适应码书的所述延迟和增益中的至少一个从所述的多组位置码书中选择一种类型的码书，

如果来自所述的鉴别装置的输出是预定的模式，则所述的声源量化装置针对储存在所选择的码书中的位置，通过使用所述的冲击响应计算所述声音信号的失真，并且通过选择性地输出使失真减小的位置来量化脉冲位置；以及

复用器装置，用于组合来自所述的频谱参数量化装置的输出、来自所述的自适应码书装置的输出、来自所述声源量化装置的输出和来自所述的鉴别装置的输出，并且输出所述的组合。

4.一种声音解码设备，包括：

自适应码矢量产生装置，用于通过使用所述的关于自适应码书的码产生自适应码矢量；

位置码书选择装置，用于基于所述的自适应码书的所述延迟和增益中的至少一个从所述的多组位置码书中选择一种类型的码书；

声源信号重建装置，用于针对由所述的码书选择装置所选择的位置码书，通过使用所述的关于码书的码和关于声源信号的码，产生具有非零振幅的脉冲，并通过使用所述的表示增益的码，把所述的脉冲放大增益倍来产生所述的声源信号；以及

合成滤波器装置，由频谱参数形成以接收所述的声源信号并输出再生信号。

5.一种声音解码设备，包括：

自适应码矢量产生装置，用于如果所述的表示模式的码是预定的模式，则通过使用所述的关于自适应码书的码产生自适应码矢量；

位置码书选择装置，用于如果所述的表示模式的码是预定的模式，则基于所述的自适应码书的所述延迟和增益中的至少一个从所述的多组位置码书中选择一种类型的码书；

声源信号重建装置，用于如果所述的表示模式的码是预定的模式，则针对由所述的码书选择装置所选择的位置码书，通过使用所述的关于码书的码和关于声源信号的码，产生具有非零振幅的脉冲，并通过使用所述的表示增益的码，把所述的脉冲放大增益倍来产生所述的声源信号；以及

合成滤波装置，由频谱参数形成以接收所述的声源信号并输出复制信号。

6.一种声音编码方法，具有：频谱参数计算步骤，用于接收声音信号并计算频谱参数；频谱参数量化步骤，用于量化和输出所述的频谱参数；冲击响应计算步骤，用于将所述的量化的频谱参数转换成冲击响应；自适应码书步骤，用于基于预测声音信号和获得剩余信号的自适应码书从过去的量化的声源信号中获得延迟和增益，并输出所述的延迟和增益，由具有非零振幅的脉冲的组合表示声音信号的声源信号；以及声源量化步骤，用于通过使用所述的冲击响应，量化所述的声源信号和所述声音信号的增益，并输出所述的量化的声源信号和增益，所述方法包括：

准备位置码书储存装置，所述的位置码书储存装置用于把多组位置码书储存为多组所述脉冲的位置；

位置码书选择步骤，用于基于所述的自适应码书的延迟和增益中的至少一个从所述的多组位置码书中选择一种类型的码书；

通过使用所述的冲击脉冲响应，计算所述的声音信号的失真，和通过选择使在所述的声源量化步骤中的失真减小的位置，量化脉冲位置的步骤；以及

复用步骤，用于组合来自所述的频谱参数量化步骤的输出、来自所述的自适应码书步骤的输出和来自所述的声源量化步骤的输出，并且输出所述的组合。

7.一种声音编码方法，具有：频谱参数计算步骤，用于接收声音信号并计算频谱参数；频谱参数量化步骤，用于量化和输出所述的频谱参数；冲击响应计算步骤，用于将所述的量化的频谱参数转换成冲击响应；自适应码书步骤，用于基于预测声音信号和获得剩余信号的自适应码书从过去的量化的声源信号中获得延迟和增益，并输出所述的延迟和增益，由具有非零振幅的脉冲的组合表示声音信号的声源信号；以及声源量化步骤，用于通过使用所述的冲击响应，量化所述的声源信号和所述声音信号的增益，并输出所述的量化的声源信号和增益，所述方法包括：

针对储存在所述的位置码书选择步骤中所选择的位置码书中的每个位置，读出储存在增益码书中的增益码矢量来量化增益，以计算所述的声音信号的失真，并选择性地输出一种使在所述的声源量化步骤中的失真减小的位置和增益矢量的组合类型的步骤；以及

复用步骤，用于组合来自所述的频谱参数量化步骤的输出、来自所述的自适应码书步骤的输出和来自所述声源量化步骤的输出，并且输出所述的组合。

8.一种声音编码方法，具有：频谱参数计算步骤，用于接收声音信号并计算频谱参数；频谱参数量化步骤，用于量化和输出所述的频谱参数；冲击响应计算步骤，用于将所述的量化的频谱参数转换成冲击响应；自适应码书步骤，用于基于预测声音信号和获得剩余信号的自适应码书从过去的量化的声源信号中获得延迟和增益，并输出所述的延迟和增益，由具有非零振幅的脉冲的组合表示声音信号的声源信号；以及声源量化步骤，用于通过使用所述的冲击响应，量化所述的声源信号和所述声音信号的增益，并输出所述的量化的声源信号和增益，所述方法包括：

鉴别步骤，用于从所述的声音信号中提取特征，并鉴别和输出模式；

位置码书选择步骤，用于如果来自所述的鉴别步骤的输出是预定的模式，则基于所述的自适应码书的延迟和增益中的至少一个从所述的多组位置码书中选择一种类型的码书；

如果来自所述的鉴别步骤的输出是预定的模式，则针对储存在所选择的码书中的位置，通过使用所述的冲击响应计算所述声音信号的失真，并通过选择性地输出使在所述的声源量化步骤中的失真减小的位置，量化脉冲位置的步骤；以及

复用步骤，用于组合来自所述的频谱参数量化步骤的输出、来自所述的自适应码书步骤的输出、来自所述声源量化步骤的输出和来自所述的鉴别步骤的输出，并且输出所述的组合。

9.一种声音解码方法，包括：

自适应码矢量产生步骤，用于通过使用所述的关于自适应码书的码产生自适应码矢量；

准备位置码书储存装置，所述的位置码书储存装置用于把多组位置码书储存为脉冲位置组；

位置码书选择步骤，用于基于所述的自适应码书的所述延迟和增益中的至少一个从所述的多组位置码书中选择一种类型的码书；

声源信号重建步骤，用于针对在所述的码书选择步骤中所选择的位置码书，通过使用所述的关于码书的码和关于声源信号的码，产生具有非零振幅的脉冲，并通过使用所述的表示增益的码，把所述的脉冲放大增益倍来产生声源信号；以及

合成滤波步骤，由频谱参数形成，以接收所述的声源信号并输出再生信号。

10.一种声音解码方法，包括：

解复用步骤，用于接收关于频谱参数的码、关于自适应码书的码、关于声源信号的码、表示增益的码和表示模式的码，并且解复用这些码；

自适应码矢量产生步骤，用于如果所述的表示模式的码是预定的模式，则通过使用所述的关于自适应码书的码产生自适应码矢量；

位置码书选择步骤，用于如果所述的表示模式的码是预定的模式，则基于所述的自适应码书的所述延迟和增益中的至少一个从所述的多组位置码书中选择一种类型的码书；

声源信号重建步骤，用于如果所述的表示模式的码是预定的模式，则针对在所述的码书选择步骤中所选择的位置码书，通过使用所述的关于码书的码和关于声源信号的码，产生具有非零振幅的脉冲，并通过使用所述的表示增益的码，把所述的脉冲放大增益倍来产生声源信号；以及

合成滤波步骤，由频谱参数形成，以接收所述的声源信号并输出复制信号。