CN102682778B

CN102682778B - 编码装置以及编码方法

Info

Publication number: CN102682778B
Application number: CN201210096241.1A
Authority: CN
Inventors: 森井利幸; 押切正浩; 山梨智史
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2007-03-02
Filing date: 2008-02-29
Publication date: 2014-10-22
Anticipated expiration: 2028-02-29
Also published as: CN101622665B; RU2462770C2; KR20090117876A; KR101414341B1; CN102682778A; RU2009132937A; MY152167A; EP2120234A1; AU2008222241B2; EP2120234B1; SG179433A1; CN101622665A; AU2008222241A1; BRPI0808202A8; US8306813B2; EP2120234A4; JPWO2008108078A1; WO2008108078A1; JP5241701B2; BRPI0808202A2

Abstract

本发明的编码装置对语音信号进行第一编码得到残差分量，对该残差分量使用MDCT进行正交变换，对经该正交变换所得的频谱使用多个脉冲进行模式化后进行第二编码，该编码装置包括：形状量化单元，检索N个振幅为1的脉冲、M个振幅为0.8的脉冲，并对所述N个振幅为1的脉冲和所述M个振幅为0.8的脉冲的、位置和极性进行编码；以及增益量化单元，基于所述频谱、所述N个振幅为1的脉冲和所述M个振幅为0.8的脉冲，对增益进行编码，其中，N、M为自然数。

Description

编码装置以及编码方法

本申请是申请日为2008年2月29日、申请号为200880006405.9、发明名称为“编码装置以及编码方法”的发明专利申请的分案申请。

技术领域

本发明涉及对语音信号和音频信号进行编码的编码装置以及编码方法。

背景技术

在移动通信中，为了实现电波等的传输路径容量和记录媒体的有效利用，必须对语音和图像的数字信息进行压缩编码，至今为止开发了诸多编码/解码方式。

其中，语音编码技术通过CELP(Code Excited Linear Prediction，码激励线性预测)而大幅提高了其性能，该CELP为对语音的发声机构进行模式化并巧妙地应用矢量量化的基本方式。另外，音频编码等音乐编码技术通过变换编码技术(MPEG标准ACC和MP3等)而大幅提高了其性能。

像CELP那样的语音信号的编码中，使用激励和合成滤波器表示语音信号的情况较多，如果通过解码能够获得其形状类似于作为时序矢量的激励信号的矢量，则能够通过合成滤波器获得与输入语音近似到一定程度的波形，获得听觉上也良好的音质。这是与CELP中使用的代数码本的成功也有关的定性性质。

另一方面，通过ITU-T(International Telecommunication Union-Telecommunication Standardization Sector，国际电信联盟－电信标准化分部)等进行标准化的可扩展编解码中的规格覆盖从以往的语音频带(300Hz～3.4kHz)直到宽带(～7kHz)，比特速率也设定了直到32kbps程度的高速率。因此，宽带的编解码中需要对音乐也进行一定程度的编码，所以，仅通过如CELP那样的、基于人的发声模式的以往的低比特速率语音编码方法，无法对应。因此，在以往推荐的ITU-T标准G.729.1中，对宽带以上的语音的编码采用了音频编解码的编码方式的变换编码。

专利文献1示出了，在对使用谱参数和音调参数(pitch parameter)的频谱(frequency spectrum)的编码方式中，对用谱参数使语音信号通过逆滤波器所得的信号进行正交变换，从而进行编码的技术，以及作为该编码的例子，通过代数结构的码本进行编码的方法。

[专利文献1]日本专利申请特开平10－260698号公报

发明内容

发明要解决的问题

然而，以往的频谱的编码方式中，将有限的比特信息较多地分配给脉冲的位置信息，而不分配给脉冲的振幅信息，并将所有脉冲的振幅设为一定，所以残留编码失真。

本发明的目的为提供编码装置和编码方法，在频谱的编码方式中，能够比以前减少平均的编码失真，并能够获得听觉上良好的音质。

解决问题的方案

本发明的编码装置为以多个固定波形对频谱进行模式化后进行编码的编码装置，该编码装置采用的结构包括：形状量化单元，检索所述固定波形的位置和极性，进行编码；以及增益量化单元，对所述固定波形的增益进行编码，所述形状量化单元在检索所述固定波形的位置时，将在后检索的固定波形的振幅设定为在前检索出的固定波形的振幅以下。

本发明的编码方法为以多个固定波形对频谱进行模式化后进行编码的编码方法，该编码方法包括：形状量化步骤，检索所述固定波形的位置和极性，进行编码；以及增益量化步骤，对所述固定波形的增益进行编码，在所述形状量化步骤中检索所述固定波形的位置时，将在后检索的固定波形的振幅设定为在前检索出的固定波形的振幅以下。

本发明的编码装置对语音信号进行第一编码得到残差分量，对所述残差分量使用MDCT(modified discrete cosine transform)即改进的离散余弦变换进行正交变换，对经所述正交变换所得的频谱使用多个脉冲进行模式化后进行第二编码，所述编码装置包括：形状量化单元，检索N个振幅为1的脉冲、M个振幅为0.8的脉冲，并对所述N个振幅为1的脉冲和所述M个振幅为0.8的脉冲的、位置和极性进行编码；以及增益量化单元，基于所述频谱、所述N个振幅为1的脉冲和所述M个振幅为0.8的脉冲，对增益进行编码，其中，N、M为自然数。

本发明的编码方法对语音信号进行第一编码得到残差分量，对所述残差分量使用MDCT即改进的离散余弦变换进行正交变换，对经所述正交变换所得的频谱使用多个脉冲进行模式化后进行第二编码，所述编码方法包括以下步骤：检索N个振幅为1的脉冲、M个振幅为0.8的脉冲，并对所述N个振幅为1的脉冲和所述M个振幅为0.8的脉冲的、位置和极性进行编码的步骤；以及基于所述频谱、所述N个振幅为1的脉冲和所述M个振幅为0.8的脉冲，对增益进行编码的步骤，其中，N、M为自然数。

发明的效果

根据本发明，通过将在后检索的脉冲的振幅设定为在前检索出的脉冲的振幅以下，在频谱的编码方式中，能够比以前减少平均的编码失真，即使在低比特速率的情况下也能够获得良好的音质。

附图说明

图1是表示本发明的一个实施方式的语音编码装置的结构的方框图。

图2是表示本发明的一个实施方式的语音解码装置的结构的方框图。

图3是表示本发明的一个实施方式的形状量化单元的检索算法的流程图。

图4是表示本发明的一个实施方式的、以形状量化单元中检索出的脉冲表现的谱的例子的图。

具体实施方式

CELP方式等的语音信号的编码中，使用激励和合成滤波器表示语音信号的情况较多，如果通过作为时序矢量的激励信号的解码能够获得类似于语音信号的形状的矢量，则能够通过合成滤波器获得近似于输入语音的波形，获得听觉上也良好的音质。这是也与CELP中使用的代数码本的成功有关的定性性质。

另一方面，频谱(矢量)的编码中，合成滤波器的分量为谱增益，所以与该增益的失真相比，主要在于功率较大的分量的频率(位置)的失真。也就是说，与对具有类似于输入谱的形状的矢量进行解码相比，如果正确地检索较高能量存在的位置，并对该能量所存在的位置的脉冲进行解码，则能够获得听觉上良好的音质。

因此，在频谱的编码中，采用以少数的脉冲对频谱进行编码的模式，并采用在编码对象的频率区间内对脉冲进行开环检索的方式。

在该脉冲的开环检索中，从使失真小的脉冲开始依序选择脉冲，所以越是在后检索的脉冲，其振幅的期待值越小，本发明的发明人鉴于这一点，完成了本发明。也就是说，本发明的特征为，将在后检索的脉冲的振幅设为在前检索出的脉冲的振幅以下。

接下来，利用附图说明本发明的一个实施方式。

图1是表示本实施方式的语音编码装置的结构的方框图。图1所示的语音编码装置包括：LPC分析单元101、LPC量化单元102、逆滤波器103、正交变换单元104、谱编码单元105、以及复用单元106。谱编码单元105包括形状量化单元111和增益量化单元112。

LPC分析单元101对输入语音信号进行线性预测分析，并且将作为分析结果的谱包络参数输出到LPC量化单元102。LPC量化单元102进行从LPC分析单元101输出的谱包络参数(LPC：线性预测系数)的量化处理，将表示量化LPC的代码(code)输出到复用单元106。另外，LPC量化单元102将对表示量化LPC的代码进行解码所得的解码参数输出到逆滤波器103。另外，在参数的量化中，使用矢量量化(VQ)、预测量化、多阶VQ、分离VQ等形态。

逆滤波器103使用解码参数使输入语音通过逆滤波器，将所得的残差分量输出到正交变换单元104。

正交变换单元104对残差分量施加正弦窗等整合窗(overlap window)，使用MDCT进行正交变换，将变换为频域的谱(以下，称为“输入谱”)输出到谱编码单元105。另外，作为正交变换还存在FFT、KLT、小波(wavelet)变换等，虽然它们的使用方法不同，但使用哪一种都能够变换为输入谱。

另外，也有颠倒逆滤波器103和正交变换单元104的处理顺序的情况。也就是说，只要使用逆滤波器的频谱对正交变换后的输入语音进行除法运算(对数轴上进行减法运算)，就能够得到同样的输入谱。

谱编码单元105对输入谱分为谱的形状和增益来进行量化，将所得的量化编码输出到复用单元106。形状量化单元111以少数的脉冲的位置和极性对输入谱的形状进行量化，增益量化单元112对每个频带计算由形状量化单元111检索出的脉冲的增益，对其进行量化。另外，后面叙述形状量化单元111和增益量化单元112的细节。

复用单元106从LPC量化单元102输入了表示量化LPC的代码，从谱编码单元105输入表示量化输入了谱的代码，对这些信息进行复用并输出到传输路径作为编码信息。

图2是表示本实施方式的语音解码装置的结构的方框图。图2所示的语音解码装置包括：分离单元201、参数解码单元202、谱解码单元203、正交变换单元204、以及合成滤波器205。

图2中，分离单元201将编码信息分离为各个代码。表示量化LPC的代码输出到参数解码单元202，输入谱的代码输出到谱解码单元203。

参数解码单元202进行谱包络参数的解码，将解码所得的解码参数输出到合成滤波器205。

谱解码单元203使用与图1所示的谱编码单元105中的编码方法对应的方法对形状矢量和增益进行解码，通过将解码出的形状矢量与解码增益相乘获得解码谱，将解码谱输出到正交变换单元204。

正交变换单元204对从谱解码单元203输出的解码谱进行与图1所示的正交变换单元104的变换处理相反的处理，将变换所得的时序的解码残差信号输出到合成滤波器205。

合成滤波器205使用从参数解码单元202输出的解码参数，使从正交变换单元204输出的解码残差信号通过合成滤波器，获得输出语音。

另外，在颠倒图1的逆滤波器103和正交变换单元104的处理顺序的情况下，图2的语音解码装置中，进行正交变换之前使用解码参数的频谱进行乘法运算(对数轴上进行加法运算)，对所得的谱进行正交变换。

接下来，说明形状量化单元111和增益量化单元112的细节。

形状量化单元111在整个规定的检索区间，以开环逐个地检索脉冲的位置和极性(+-)。

作为检索的基准的式子为下式(1)。另外，式(1)中，E表示编码失真，s_i表示输入谱，g表示最佳增益，δ表示Δ(delta)函数，p表示脉冲的位置，γ_b表示脉冲的振幅，b表示脉冲的编号。形状量化单元111将在后检索的脉冲的振幅设为在前检索出的脉冲的振幅以下。

E = \underset{i}{Σ} {s_{i} - \underset{b}{Σ} {gγ}_{b} δ (i - p_{b})}^{2} \cdot \cdot \cdot (1)

根据上述式(1)，使价值函数(cost function)最小的脉冲的位置为在各个频带中输入谱的绝对值|s_p|为最大的位置，极性为该脉冲的位置的输入谱的值的极性。

本实施方式中，对应于脉冲的检索顺序，预先决定被检索的脉冲的振幅。例如通过以下步骤设定脉冲的振幅。(1)首先，将所有脉冲的振幅设为1.0。另外，作为初始值，将n设为2。(2)少量地逐步减少第n脉冲的振幅，对训练用数据进行编码和解码，搜索性能(S/N比、SD(Spectrum Distance：谱距离)等)呈峰值的值。此时，将第n+1以后的脉冲的振幅都设为与第n脉冲的振幅相同的振幅。(3)将性能最佳时的所有振幅固定，并使n＝n+1。(4)反复进行上述(2)至(3)的处理，直到n为脉冲的个数为止。

以下，以输入谱的矢量长度为64样本(6比特)，且通过5个脉冲对谱进行编码的情况为例子进行说明。在本例子中，为了表示脉冲的位置需要6比特(位置的项(entry)：64)，为了表示极性需要1比特(+-)，所以合计为35比特的信息比特。

图3表示在该例子中的形状量化单元111的检索算法的流程。另外，图3的流程图中使用的标号的内容如下。

c：脉冲的位置

pos[b]：检索结果(位置)

pol[b]：检索结果(极性)

s[i]：输入谱

x：分子项

y：分母项

dn_mx：最大时的分子项

cc_mx：最大时的分母项

dn：已经检索的分子项

cc：已经检索的分母项

b:脉冲的编号

γ[b]：脉冲的振幅

图3中表示，首先检索能量最大的位置并建立脉冲，以不在相同的位置建立两个脉冲的方式，进行下一脉冲的检索的算法(图3中的记号“★”)。另外，图3的算法中，分母y仅依赖于编号b，所以通过预先计算该值，能够简化图3的算法。

图4表示以形状量化单元111中检索出的脉冲表现的谱的例子。另外，图4中示出，从脉冲P1开始依序检索到脉冲P5的情况。如图4所示，本实施方式中，使在后检索出的脉冲的振幅为在前检索出的脉冲的振幅以下。由于预先与脉冲的检索顺序对应地决定被检索的脉冲的振幅，所以不需要使用信息比特来表现振幅，从而能够使全部的信息比特量与将振幅固定时的比特量相同。

增益量化单元112分析解码出的脉冲串和输入谱之间的相关，求理想增益。通过下面的式(2)求理想增益g。另外，在式(2)中，s(i)为输入谱，v(i)为对形状进行解码所得的矢量。

g = \frac{\underset{i}{Σ} s (i) \times v (i)}{\underset{i}{Σ} v (i) \times v (i)} \cdot \cdot \cdot (2)

然后，增益量化单元112求得理想增益之后，通过标量(scalar)量化(SQ)和矢量量化进行编码。在进行矢量量化的情况下，通过预测量化、多阶VQ、分离VQ等，能够高效率地进行编码。另外，由于增益在听觉上成对数地听见，所以如果对增益进行对数变换之后进行SQ、VQ，则能够获得听觉上良好的合成声音。

如上所述，根据本实施方式，通过将在后检索的脉冲的振幅设定为在前检索出的脉冲的振幅以下，从而在频谱的编码方式中，能够比以前减少平均的编码失真，即使在低比特速率的情况下也能够获得良好的音质。

另外，本发明能够应用于将脉冲的振幅分组并进行开环检索的情况，从而实现性能的提高。例如，将全部8个脉冲分组为5个和3个，首先检索5个脉冲，固定该5个脉冲之后再检索剩余的3个脉冲的情况下，将后者的3个脉冲的振幅一样地减小。通过试验已证明：通过将首先检索出的5个脉冲的振幅设为{1.0、1.0、1.0、1.0、1.0}，并将在后检索出的3个脉冲的振幅设为{0.8、0.8、0.8}，与将所有脉冲的振幅都设为“1.0”的情况相比，性能会提高。另外，通过将首先检索出的5个脉冲的振幅都设为“1.0”，无需进行振幅的乘法运算，所以能够抑制运算量。

另外，在本实施方式中，对在形状编码之后进行增益编码的情况进行了说明，但是根据本发明，即使在增益编码之后进行形状编码，也能够获得同样的性能。

另外，在上述实施方式中，以在谱的形状的量化时，设谱的长度为64，将进行检索的脉冲数设为5个的情况为例子进行了说明，但是本发明完全不依赖于上述数值，即使在其他的情况下也能够获得同样的效果。

另外，在上述实施方式中设定了不在相同的位置建立两个脉冲的条件，但是，本发明中，也可以部分性地缓和该条件。例如，如果不进行图3中的s[pos[ｂ]]＝0、dn＝dn_mx、cc＝cc_mx的处理，则能够在相同的位置建立多个脉冲。但是，如果在相同的位置建立多个脉冲，有时振幅会变大，所以需要预先确认各个位置的脉冲的数量，正确地计算分母项。

另外，本实施方式中对正交变换后的谱使用了基于脉冲的编码，但是本发明并不限于此，也可以适用于其他的矢量。例如，在FFT和复数DCT等中对复数矢量适用本发明即可，在小波变换等中对时序的矢量适用本发明即可。另外，本发明也可以适用于CELP的激励波形等时序的矢量。CELP的激励波形的情况下存在合成滤波器，所以只是价值函数变为矩阵运算。但是，存在滤波器时，对于脉冲的检索，开环检索性能不充分，所以需要进行一定程度的闭环检索。在脉冲较多等的情况下，进行波束检索(beam search)等，将运算量抑制得较低也是有效的。

另外，本发明所检索的波形不限于脉冲(impulse)，即使在其他的固定波形(对偶脉冲、三角波、冲击响应的有限波、滤波器的系数、自适应地改变形状的固定波形等)的情况下，也能通过完全相同的方法进行检索，并能够获得相同的效果。

另外，本实施方式中对用于CELP的情况进行了说明，但是本发明并不限于此，即使在其他的编解码的情况下也是有效的。

另外，本发明的信号除了语音信号之外，也可以是音频信号。另外，也可以采用如下结构，即，将本发明适用于LPC预测残差信号以代替输入信号。

另外，本发明的编码装置以及解码装置，可以搭载在移动通信系统的通信终端装置以及基站装置上，由此能够提供具有与上述同样的作用效果的通信终端装置、基站装置以及移动通信系统。

另外，虽然这里以用硬件构成本发明的情况为例进行了说明，但是本发明也可以用软件实现。例如，通过编程语言对本发明的算法进行记述，并在内存中保存该程序并通过信息处理装置来实行，从而能够实现与本发明的编码装置相同的功能。

另外，用于上述实施方式的说明中的各功能块，通常被作为集成电路的LSI来实现。这些块既可以被单独地集成为一个芯片，也可以包含一部分或全部地被集成为一个芯片。

另外，在此虽然称做LSI，但根据集成度的不同也可以称为IC(集成电路)、系统LSI、超LSI、极大LSI等。

另外，实现集成电路化的方法不仅限于LSI，也可使用专用电路或通用处理器来实现。也可以利用LSI制造后能够编程的FPGA(Field ProgrammableGate Array，现场可编程门阵列)，或可以利用可重构LSI内部的电路块连接或设定的可重构处理器(Reconfigurable Processor)。

再有，如果随着半导体技术的进步或者其他技术的派生，出现了替换LSI的集成电路化的技术，当然也可以利用该技术来实现功能块的集成化。还存在着适用生物技术等的可能性。

2007年3月2日提交的日本专利申请第2007-053500号所包含的说明书、说明书附图以及说明书摘要的公开内容，全部引用于本申请。

工业利用性

本发明适合用于对语音信号和音频信号进行编码的编码装置，以及对编码后的信号进行解码的解码装置等。

Claims

1.编码装置，对语音信号进行第一编码得到残差分量，对所述残差分量使用MDCT即改进的离散余弦变换进行正交变换，对经所述正交变换所得的频谱使用多个脉冲模式化后进行第二编码，所述编码装置包括：

形状量化单元，检索N个振幅为1的脉冲、M个振幅为0.8的脉冲，并对所述N个振幅为1的脉冲和所述M个振幅为0.8的脉冲的位置和极性进行编码；以及

增益量化单元，基于所述频谱、所述N个振幅为1的脉冲和所述M个振幅为0.8的脉冲，对增益进行编码，

其中，N、M为自然数。

2.权利要求1所述的编码装置，所述N的值为5，所述M的值小于所述N的值。

3.权利要求1所述的编码装置，所述形状量化单元以不在相同的位置建立两个脉冲的条件下，先检索所述N个振幅为1的脉冲，再检索所述M个振幅为0.8的脉冲。

4.编码方法，对语音信号进行第一编码得到残差分量，对所述残差分量使用MDCT即改进的离散余弦变换进行正交变换，对经所述正交变换所得的频谱使用多个脉冲进行模式化后进行第二编码，所述编码方法包括以下步骤：

检索N个振幅为1的脉冲、M个振幅为0.8的脉冲，并对所述N个振幅为1的脉冲和所述M个振幅为0.8的脉冲的、位置和极性进行编码的步骤；以及

基于所述频谱、所述N个振幅为1的脉冲和所述M个振幅为0.8的脉冲，对增益进行编码的步骤，

其中，N、M为自然数。