CN1898724A

CN1898724A - 语音/乐音编码设备及语音/乐音编码方法

Info

Publication number: CN1898724A
Application number: CNA2004800389917A
Authority: CN
Inventors: 山梨智史; 佐藤薰; 森井利幸
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2003-12-26
Filing date: 2004-12-20
Publication date: 2007-01-17
Also published as: CA2551281A1; JP4603485B2; US20070179780A1; JPWO2005064594A1; WO2005064594A1; EP1688917A1; US7693707B2; KR20060131793A

Abstract

提供了一种语音/乐音编码设备，其能够通过考虑到人的听觉特性进行矢量量化而进行高质量的编码。在该语音/乐音编码设备中，正交转换处理单元(201)将语音/乐音信号从时间分量向频率分量转换。听觉掩蔽特性值计算单元(203)从语音/乐音信号计算听觉掩蔽特性值。矢量量化单元(202)基于听觉掩蔽特性值，改变从预定的码本求得的代码矢量和频率分量之间的距离计算方法，进行矢量量化。

Description

语音/乐音编码设备及语音/乐音编码方法

技术领域

本发明涉及一种语音/乐音编码装置及语音/乐音编码方法，其能够在以互联网络通信为代表的分组通信系统、或移动通信系统等中进行语音/乐音信号的传输。

背景技术

当在以互联网络通信为代表的分组通信系统、或移动通信系统等中传输语音信号时，为提高传输效率，使用压缩和编码技术。到现在为止，已经开发出多种语音编码方式，而在近年开发出的低比特速率语音编码方法中，多数是以下方式：将语音信号分离为谱信息和详细的谱结构信息，并对于分离了的项分别进行压缩和编码。

而且，随着以IP电话为代表的互联网络上的语音通话环境正在得到加强，对于有效地将语音信号压缩并传输的技术，需求越来越高。

特别是有关使用人的听觉掩蔽特性的语音编码的各种方案，正在研究中。所谓听觉掩蔽，是指当存在包含于某频率的较强信号分量时，变得听不到毗连的频率分量的现象，并期望使用这个特性提高质量。

作为与此相关的技术，存在诸如专利文献1中揭示的那样的方法，在矢量量化的距离计算中使用听觉掩蔽特性。

专利文献1中的使用听觉掩蔽特性的语音编码方法是如下的计算方法：在输入的信号的频率分量和码本表示的代码矢量的双方处于听觉掩蔽区域时，将矢量量化时的距离设为0。据此，由于听觉掩蔽区域外的距离的权重相对地变大，从而可以更有效地进行语音编码。

【专利文献1】日本专利特开平8-123490号公报(第3页、第1图)

发明内容

发明所要解决的问题

但是，专利文献1中所示的以往方法只能适用于限定了输入信号及代码矢量的情况，于是音质性能不充分。

本发明是在考虑上述问题的情况下做出的，而且本发明旨在提供一种选择适合于抑制对听觉影响较大的信号恶化的代码矢量的、高质量的语音/乐音编码装置及语音/乐音编码方法。

为解决问题采用的方案

为解决上述课题，本发明的语音/乐音编码装置包括：正交转换处理单元，将语音/乐音信号从时间分量转换成频率分量；听觉掩蔽特性值计算单元，从上述语音/乐音信号求出听觉掩蔽特性值；以及矢量量化单元，基于上述听觉掩蔽特性值，改变从预先设定了的码本求得了的代码矢量和上述频率分量之间的距离计算方法而进行矢量量化。

发明的效果

根据本发明，通过基于听觉掩蔽特性值而改变输入信号和代码矢量之间的距离计算方法而进行量化，可选择适合于抑制对听觉影响较大的信号恶化的代码矢量，从而可以提高输入信号的再现性、获得良好的解码语音。

附图说明

图1是本发明实施方式1涉及的包含语音/乐音编码装置及语音/乐音解码装置的整个系统的方框结构图；

图2是本发明实施方式1涉及的语音/乐音编码装置的方框结构图；

图3是本发明实施方式1涉及的听觉掩蔽特性值计算单元的方框结构图；

图4是示出本发明实施方式1涉及的临界带宽的结构例子的图；

图5是本发明实施方式1涉及的矢量量化单元的流程图；

图6是说明本发明实施方式1涉及的听觉掩蔽特性值、编码值和修正离散余弦转换(MDCT)系数的相对位置关系的图；

图7是本发明实施方式1涉及的语音/乐音解码装置的方框结构图；

图8是本发明实施方式2涉及的语音/乐音编码装置及语音/乐音解码装置的方框结构图；

图9是本发明实施方式2涉及的码激励线性预测器(CELP)类型语音编码装置的结构概要图；

图10是本发明实施方式2涉及的CELP类型语音解码装置的结构概要图；

图11是本发明实施方式2涉及的增强层编码单元的方框结构图；

图12是本发明实施方式2涉及的矢量量化单元的流程图；

图13是说明本发明实施方式2涉及的听觉掩蔽特性值、编码值和MDCT系数的相对位置关系的图；

图14是本发明实施方式2涉及的解码单元的方框结构图；

图15是本发明实施方式3涉及的语音信号发送装置以及语音信号接收装置的方框结构图；

图16是本发明实施方式1涉及的编码单元的流程图；以及

图17是本发明实施方式1涉及的听觉掩蔽值计算单元的流程图。

具体实施方式

下面，参照附图就本发明实施方式进行详细说明。

(实施方式1)

图1是表示本发明实施方式1涉及的包含语音/乐音编码装置及语音/乐音解码装置的整个系统的结构方框图。

此系统包括：将输入信号编码的语音/乐音编码装置101、传输路径103和对接收的信号进行解码的语音/乐音解码装置105。

另外，传输路径103既可是无线局域网(LAN)或携带式终端的分组通信、蓝牙(Bluetooth)等无线传输路径，也可以是非对称数字用户线(ADSL)、光纤到户(FTTH)等有线传输路径。

语音/乐音编码装置101对输入信号100进行编码，将该结果作为编码信息102输出到传输路径103。

语音/乐音解码装置105通过传输路径103接收编码信息102并执行解码，并且将该结果作为输出信号106而输出。

接着，参照图2的方框图说明语音/乐音编码装置101的结构。在图2中，语音/乐音编码装置101主要包括：正交转换处理单元201，将输入信号100从时间分量转换成频率分量；听觉掩蔽特性值计算单元203，从输入信号100计算出听觉掩蔽特性值；形状码本204，示出索引和标准化了的代码矢量之间的对应；增益码本205，对应于形状码本204的标准化了的各代码矢量，并示出其增益；以及矢量量化单元202，使用上述听觉掩蔽特性值、上述形状码本及增益码本，将上述转换成频率分量的输入信号矢量量化。

接着，按照图16流程图的程序，详细说明语音/乐音编码装置101的动作。

首先，就输入信号的采样处理加以说明。语音/乐音编码装置101将输入信号100按每N个采样进行划分(N为自然数)，并将N个采样作为1帧，并逐帧地进行编码。此处，将成为编码对象的输入信号100设为以x_n(n＝0、Λ、N-1)表示。n指示是包括上述被划分了的输入信号的信号要素的第N+1个。

输入信号x_n100被输入到正交转换处理单元201，以及听觉掩蔽特性计算单元203。

接着，正交转换处理单元201对应于上述信号要素在内部具有缓冲器buf_n(n＝0、Λ、N-1)，根据等式(1)分别将0作为初始值而对其进行初始化。

【等式1】

buf_n＝0(n＝0，…，N-1) …(1)

接着，关于正交转换处理(步骤S1601)，就有关正交转换处理单元201的计算程序和向内部缓冲器的数据输出，加以说明。

正交转换处理单元201对输入信号x_n100进行修正离散余弦转换(MDCT)，通过等式(2)求取MDCT系数X_k。

【等式2】

X_{k} = \frac{2}{N} Σ_{n = 0}^{2 N - 1} {x^{'}}_{n} \cos [\frac{(2 n + 1 + N) (2 k + 1) π}{4 N}] (k = 0, \cdot \cdot \cdot, N - 1) - - - (2)

此处，k表示于一个帧中的各采样的下标。正交转换处理单元201通过等式(3)求使输入信号x_n100和缓冲器buf_n结合的矢量的x_n′。

【等式3】

{x^{'}}_{n} = \{\begin{matrix} {buf}_{n} & (n = 0, \cdot \cdot \cdot N - 1) \\ x_{n - N} & (n = N, \cdot \cdot \cdot 2 N - 1) \end{matrix} - - - (3)

接着，正交转换处理单元201通过等式(4)更新缓冲器buf_n。

【等式4】

buf_n＝x_n(n＝0，…N-1) ………(4)

接着，正交转换处理单元201将MDCT系数X_k输出到矢量量化单元202。

接着，参照图3的方框图，就图2的听觉掩蔽特性值计算单元203的结构加以说明。

在图3中，听觉掩蔽特性值计算单元203包括：傅里叶转换单元301，对输入信号进行傅里叶转换；功率谱计算单元302，根据上述傅里叶转换的输入信号计算出功率谱；最小可听阈值计算单元304，从输入信号计算出最小可听阈值；存储缓冲器305，缓冲上述计算出的最小可听阈值；以及听觉掩蔽值计算单元303，从上述算出了的功率谱和上述缓冲了的最小可听阈值计算听觉掩蔽值。

接着，参照图17的流程图，就有关上述配置的听觉掩蔽特性值计算单元203的听觉掩蔽特性值计算处理(步骤S1602)的动作，加以说明。

另外，关于听觉掩蔽特性值的计算方法，已经披露在Johnston等的论文(J.Johnston，″Estimation of perceptual entropy using noise maskingcriteria)″，in Proc.ICASSP-88，May 1988，pp.2524-2527)中。

首先，就有关傅里叶转换处理(步骤S1701)说明傅里叶转换单元301的动作。

傅里叶转换单元301把输入信号x_n100作为输入，并将其通过等式(5)，转换为频域的信号F_k。此处，e为自然对数的底数，k为一个帧中的各采样的下标。

【等式5】

F_{k} = Σ_{n = 0}^{N - 1} x_{n} e^{- j \frac{2 πkn}{N}} (k = 0, \cdot \cdot \cdot, N - 1) - - - (5)

接着，傅里叶转换单元301将获得了的F_k输出到功率谱计算单元302。

接着，就功率谱计算处理(步骤S1702)加以说明。

功率谱计算单元302，将从上述傅里叶转换单元301输出了的频域的信号F_k作为输入，通过等式(6)求F_k的功率谱P_k。其中，k是于一个帧的各采样的下标。

【等式6】

P_{k} = {({F_{k}}^{Re})}^{2} + {({F_{k}}^{Im})}^{2} (k = 0, \cdot \cdot \cdot, N - 1) - - - (6)

另外，在等式(6)中，F_k ^Re为频域信号F_k的实部，功率谱计算单元302通过等式(7)求F_k ^Re。

【等式7】

{F_{k}}^{Re} = Σ_{n = 0}^{N - 1} [x_{n} \cos (\frac{2 πkn}{N})] (k = 0, \cdot \cdot \cdot, N - 1) - - - (7)

此处，F_k ^Im是频域信号F_k的虚部，功率谱计算单元302通过等式(8)求F_k ^Im。

【等式8】

{F_{k}}^{Im} = - Σ_{n = 0}^{N - 1} [x_{n} \sin (\frac{2 πkn}{N})] (k = 0, \cdot \cdot \cdot, N - 1) - - - (8)

接着，功率谱计算单元302将所获得的功率谱Pk输出到听觉掩蔽值计算单元303。

接着，就最小可听阈值计算处理(步骤S1703)加以说明。

最小可听阈值计算单元304仅在第一帧，通过等式(9)求最小可听阈值ath_k。

【等式9】

{ath}_{k} = {3.64 (k / 100)}^{- 0.8} - {6.5 e}^{- 0.6 {(k / 100 - 3.3)}^{2}} + 10^{- 3} {(k / 100)}^{4} (k = 0, \cdot \cdot \cdot, N - 1) - - - (9)

接着，就有关向存储缓冲器的存储处理(步骤S1704)加以说明。

最小可听阈值计算单元304，将最小可听阈值ath_k输出到存储缓冲器305。存储缓冲器305将输入了的最小可听阈值ath_k，输出到听觉掩蔽值计算单元303。所谓最小可听阈值ath_k是基于人的听觉对于各频率分量而定，而等于或小于ath_k的分量是在听觉上无法知觉的值。

接着，关于听觉掩蔽值计算处理(步骤S1705)，就听觉掩蔽值计算单元303的动作加以说明。

听觉掩蔽值计算单元303输入从功率谱计算单元302输出的功率谱P_k，并按m的临界带宽分割功率光P_k。此处，所谓临界带宽，是指即使增加带域噪音，掩蔽其中心频率的纯音的量也不增加的限界的带宽。又如，图4示出临界带宽的结构例。在图4中，m是临界带宽的总数，功率谱P_k按m的临界带宽被分割。另外，i是临界带宽的下标，取0～m-1的值。此外，bh_i和bl_i是各临界带宽i的最小频率下标及最大频率下标。

接着，听觉掩蔽值计算单元303输入从功率谱计算单元302输出了的功率谱P_k，通过等式(10)，求取按每临界带宽计算的功率谱B_i。

【等式10】

B_{i} = Σ_{k = {bl}_{i}}^{{bh}_{i}} P_{k} (i = 0, \cdot \cdot \cdot, m - 1) - - - (10)

接着，听觉掩蔽值计算单元303，通过等式(11)，求取扩展函数SF(t)(Spreading Function)。所谓扩展函数SF(t)，是指用于对于各频率分量计算出该频率分量波及到邻近频率的影响(同时掩蔽效果)的函数。

【等式11】

SF (t) = 15.81139 + 7.5 (t + 0.474) - 17.5 \sqrt{1 + {(t + 0.474)}^{2}} (t = 0, \cdot \cdot \cdot, N_{t} - 1) - - - (11)

此处，N_t为常数，在满足等式(12)的条件的范围内预先设定。

【等式12】

0≤N_t≤m …(12)

接着，听觉掩蔽值计算单元303，通过等式(13)，使用按每个临界带宽相加了的功率谱B_i和扩展函数SF(t)，求常数C_i。

【等式13】

C_{i} = \{\begin{matrix} Σ_{t = N_{T} - i}^{N_{t}} B_{i} \cdot SF (t) & (i < N_{t}) \\ Σ_{t = 0}^{N_{t}} B_{i} \cdot SF (t) & (N_{t} \leq i \leq N - N_{t}) \\ Σ_{t = 0}^{N - i_{t}} B_{i} \cdot SF (t) & (i > {N - N}_{t}) \end{matrix} - - - (13)

接着，听觉掩蔽值计算单元303通过等式(14)求几何平均值μ_i ^g。

【等式14】

μ_{i}^{g} = 10^{\frac{\log (Π_{k = {bh}_{i}}^{{bl}_{i}} P_{k})}{{bl}_{i} - {bh}_{i}}} (i = 0, \cdot \cdot \cdot, m - 1) - - - (14)

接着，听觉掩蔽值计算单元303通过等式(15)求算术平均值μ_i ^a。

【等式15】

μ_{i}^{a} = Σ_{{k = bh}_{i}}^{{bl}_{i}} P_{k} / ({bl}_{i} - {bh}_{i}) (i = 0, \cdot \cdot \cdot, m - 1) - - - (15)

接着，听觉掩蔽值计算单元303通过等式(16)求SFM_i(谱均匀性测量：Spectral Flatness Measure)。

【等式16】

{SFM}_{i} = μ_{i}^{g} / μ_{i}^{a} (i = 0, \cdot \cdot \cdot, m - 1) - - - (16)

接着，听觉掩蔽值计算单元303通过等式(17)求常数α_i。

【等式17】

α_{i} = \min (\frac{10 {\cdot \log}_{10} {SFM}_{i}}{- 60}, 1) (i = 0, \cdot \cdot \cdot, m - 1) - - - (17)

接着，听觉掩蔽值计算单元303通过等式(18)求每个临界带宽的偏移值O_i。

【等式18】

O_i＝α_i·(14.5+i)+5.5·(1-α_i)(i＝0，…，m-1) …(18)

接着，听觉掩蔽值计算单元303通过等式(19)求取在每个临界带宽的听觉掩蔽值T_i。

【等式19】

T_{i} = \sqrt{10^{\log_{10} (C_{i}) - (O_{i} / 10)} / ({bl}_{i} - {bh}_{i})} (i = 0, \cdot \cdot \cdot, m - 1) - - - (19)

接着，听觉掩蔽值计算单元303根据从存储缓冲器305输出的最小可听阈值ath_k，通过等式(20)求听觉掩蔽特性值M_k，并将其输出到矢量量化单元202。

【等式20】

M_k＝max(ath_k，T_i)(k＝bh_i，…，bl_i，i＝0，…，m-1) …(20)

接着，参照图5的处理流程，详细说明在矢量量化单元202中的码本取得处理(步骤S1603)、以及矢量量化处理(步骤S1604)。

矢量量化单元202使用形状码本204及增益码本205，根据从正交转换处理单元201输出的MDCT系数X_k和从上述听觉掩蔽特性值计算单元203输出的听觉掩蔽特性值，进行MDCT系数X_k的矢量量化，将获得了的编码信息102输出到图1的传输路径103。

接着，就码本加以说明。

形状码本204包括：预先创建了的N_j种类、N维的代码矢量code_k ^j(j＝0、Λ、N_j-1，k＝0、Λ、N-1)；而增益码本205包括：预先创建了的N_d种类增益代码gain^d(j＝0、Λ，N_d-1)。

在步骤501中，把0代入在形状码本204的代码矢量下标j中，把充分大的值代入最小误差Dist_MIN中，进行初始化。

步骤502中，从形状码本204读N维的代码矢量code_k ^j(k＝0、Λ、N-1)。

步骤503中，输入从正交转换处理单元201输出的MDCT系数X_k，然后通过等式(21)，求取在步骤502的形状码本204读取的代码矢量code_k ^j(k＝0、Λ、N-1)的增益Gain。

【等式21】

Gain = Σ_{k = 0}^{N - 1} X_{k} {\cdot code}_{k}^{j} / Σ_{k = 0}^{N - 1} {code}_{k}^{j^{2}} - - - (21)

步骤504中，将0代入表示步骤505执行次数的calc_count。

步骤505中，输入从听觉掩蔽特性值计算单元203输出的听觉掩蔽特性值M_k，通过等式(22)求取临时增益temp_k(k＝0、Λ、N-1)。

【等式22】

{temp}_{k} = \{\begin{matrix} {code}_{k}^{j} & ({| code}_{k}^{j} \cdot Gain | &GreaterEqual; M_{k}) \\ 0 & (| {code}_{k}^{j} \cdot Gain | < M_{k}) \end{matrix} (k = 0, \cdot \cdot \cdot, N - 1) - - - (22)

此外，在等式(22)中，当k满足|code_k ^j·Gain|≥M_k的条件时，code_k ^j被代入临时增益temp_k；而当k满足|code_k ^j·Gain|＜M_k的条件时，0被代入临时增益temp_k。

接着，在步骤505中，通过等式(23)求取对于大于或等于听觉掩蔽值的要素的增益Gain。

【等式23】

Gain = Σ_{k = 0}^{N - 1} X_{k} {\cdot temp}_{k} / Σ_{k = 0}^{N - 1} {temp}_{k}^{2} (k = 0, \cdot \cdot \cdot, N - 1) - - - (23)

此处，在对于全部的k临时增益temp_k都为0的情况下，将0代入增益Gain。另外，通过等式(24)，从增益Gain和code_k ^j求取编码值R_k。

【等式24】

R_{k} = Gain {\cdot code}_{k}^{j} (k = 0, \cdot \cdot \cdot, N - 1) - - - (24)

步骤506中，在calc_count上，加上1。

步骤507中，将calc_count和预先确定好的非负整数N_c相比较，当calc_count小于N_c值时，处理流程返回步骤505，当calc_count大于或等于N_c时，前进到步骤508。这样，通过反复求取增益Gain，可将增益Gain收敛到合适的值。

步骤508中，将0代入积累误差Dist，同时，将0代入采样下标k。

接着，在步骤509、511、512及514，关于听觉掩蔽特性值M_k、编码值R_k和MDCT系数X_k间的相对位置关系进行情况区分，对应于情况区分的结果，分别在步骤510、513、515或516进行距离计算。

图6示出根据此相对位置关系的情况区分。在图6中，白圆圈记号(○)表示输入信号的MDCT系数X_k，黑圆圈记号(●)表示编码值R_k。另外，图6所示的内容，示出本发明的特定特征，将在听觉掩蔽特性值计算单元203求出了的听觉掩蔽特性值+M_k～0～-M_k区域，称为听觉掩蔽区域。通过改变输入信号的MDCT系数X_k或编码值R_k存在于该听觉掩蔽区域时的距离计算方法而进行计算，可以获得更接近于听觉的高质量的结果。

此处，参照图6，对于本发明矢量量化时的距离计算方法，加以说明。如图6的“情况1”中所示的那样，输入信号的MDCT系数X_k(○)和编码值R_k(●)的任意一个都不在听觉掩蔽区域，且MDCT系数X_k和编码值R_k的正负号相同时，单纯计算输入信号的MDCT系数X_k(○)和编码值R_k(●)之间的距离D₁₁。又，如图6的“情况3”、“情况4”中表示的那样，输入信号的MDCT系数X_k(○)和编码值R_k(●)的任意一个在听觉掩蔽区域时，将听觉掩蔽区域内的位置校正为M_k值(根据情况有时为-M_k值)，作为D₃₁或D₄₁计算。又，如图6的“情况2”中表示的那样，当输入信号的MDCT系数X_k(○)和编码值R_k(●)跨越听觉掩蔽区域而存在时，将听觉掩蔽区域间的距离计算为β·D₂₃(β为任意系数)。如图6的“情况5”中表示的那样，当输入信号的MDCT系数X_k(○)和编码值R_k(●)都在听觉掩蔽区域内时，将距离D₅₁设定为0而进行计算。

接着，就步骤509～步骤517的各种情况的处理，加以说明。

在步骤509，通过等式(25)的条件表达式判决听觉掩蔽特性值M_k、编码值R_k和MDCT系数X_k间的相对位置关系是否对应于图6的“情况1”。

【等式25】

(|X_k|≥M_k)和(|R_k|≥M_k)和(X_k·R_k≥0) …(25)

等式(25)表示MDCT系数X_k的绝对值、和编码值R_k的绝对值都大于或等于听觉掩蔽特性值M_k，且MDCT系数X_k和编码值R_k的正负号相同的情况。如果听觉掩蔽特性值M_k、MDCT系数X_k、和编码值R_k满足了等式(25)的条件表达式，则处理流程前进到步骤510，如果未满足等式(25)条件表达式时，处理前进到步骤511。

步骤510中，通过等式(26)求编码值R_k和MDCT系数X_k间的误差Dist₁，对积累误差Dist加上误差Dist₁，处理流程前进到步骤517。

【等式26】

Dist₁＝D₁₁

＝|X_k-R_k| …(26)

步骤511中，通过等式(27)的条件表达式判决听觉掩蔽特性值M_k、编码值R_k和MDCT系数X_k间的相对位置关系是否对应于图6的“情况5”。

【等式27】

(|X_k|≥M_k)和(|R_k|≥M_k)和(X_k·R_k＜0) …(27)

等式(27)表示MDCT系数X_k的绝对值、和编码值R_k的绝对值都在小于或等于听觉掩蔽特性值M_k的情况。当听觉掩蔽特性值M_k、MDCT系数X_k和编码值R_k满足了等式(27)中的条件表达式时，将编码值R_k和MDCT系数X_k之间的误差设为0，对积累误差Dist什么也不加，并且处理流程前进到步骤517；而当未满足等式(27)的条件表达式时，处理流程前进到步骤512。

步骤512中，通过等式(28)的条件表达式，判定听觉掩蔽特性值M_k、编码值R_k和MDCT系数X_k的相对位置关系是否对应于图6的“情况2”。

【等式28】

Dist₂＝D₂₁+D₂₂+β*D₂₃ …(28)

等式(28)表示MDCT系数X_k的绝对值、和编码值R_k的绝对值都大于或等于听觉掩蔽特性值M_k，且MDCT系数X_k和编码值R_k的正负号不同的情况。听觉掩蔽特性值M_k、MDCT系数X_k和编码值R_k满足了等式(28)条件表达式时，前进到步骤513；未满足等式(28)条件表达式时，前进到步骤514。

步骤513中，通过等式(29)求编码值R_k和MDCT系数X_k的误差Dist₂，对积累误差Dist加上误差Dist₂，并且处理流程前进到步骤517。

【等式29】

D₂₁＝|X_k|-M_k …(29)

此处，β是对应于MDCT系数X_k、编码值R_k及听觉掩蔽特性值M_k而适当设定的值。设定为1或1以下的值合适，也可以采用根据被验者的评估实验性求得的数值。比如，D₂₁，D₂₂及D₂₃分别通过等式(30)、等式(31)及等式(32)求得。

【等式30】

D₂₂＝|R_k|-M_k …(30)

【等式31】

D₂₃＝M_k·2 …(31)

【等式32】

(|X_k|≥M_k)和(|R_k|＜M_k) …(32)

步骤514中，通过等式(33)的条件表达式，判定听觉掩蔽特性值M_k、编码值R_k和MDCT系数X_k间的相对位置关系是否对应于图6中的“情况3”。

【等式33】

Dist₃＝D₃₁

＝|X_k|-M_k …(33)

等式(33)表示MDCT系数X_k的绝对值为大于或等于听觉掩蔽特性值M_k，且编码值R_k小于听觉掩蔽特性值M_k的情况。当听觉掩蔽特性值M_k、MDCT系数X_k和编码值R_k满足了等式(33)条件表达式时，处理流程前进到步骤515；而当它们不满足等式(33)条件表达式时，处理流程前进到步骤516。

步骤515中，通过等式(34)求编码值R_k和MDCT系数X_k间的误差Dist₃，对积累误差Dist加上误差Dist₃，处理流程前进到步骤517。

【等式34】

(|X_k|＜M_k)和(|R_k|≥M_k) …(34)

步骤516，听觉掩蔽特性值M_k、编码值R_k和MDCT系数X_k间的相对位置关系对应于图6的“情况4”，并满足等式(35)的条件表达式。

【等式35】

(|X_k|＜M_k)和(|R_k|≥M_k) …(35)

等式(35)是表示MDCT系数X_k的绝对值小于听觉掩蔽特性值M_k，且编码值R_k为大于或等于听觉掩蔽特性值M_k的情况。此时，步骤516中，通过等式(36)，求编码值R_k和MDCT系数X_k间的误差Dist₄，对积累误差Dist加上误差Dist₄，处理流程前进到步骤517。

【等式36】

Dist₄＝D₄₁

＝|R_k|-M_k …(36)

步骤517中，对k加上1。

步骤518中，比较N和k，当k为小于N的值时，处理流程返回到步骤509；当k为和N相同的值时，且处理流程前进到步骤519。

步骤519中，比较积累误差Dist和最小误差Dist_MIN，当积累误差Dist为小于最小误差Dist_MIN的值时，处理流程前进到步骤520；而当积累误差Dist大于或等于最小误差Dist_MIN时，且处理流程前进到步骤521。

步骤520中，将积累误差Dist代入最小误差Dist_MIN，将j代入code_index_MIN，将增益Gain代入误差最小增益Dist_MIN，且处理流程前进到步骤521。

在步骤521中，对j加上1。

在步骤522中，比较代码矢量的总数N_j和j，当j为小于N_j的值时，处理流程返回到步骤502。当j大于或等于N_j时，处理流程前进到步骤523。

在步骤523中，从增益码本205读取N_d种的增益编码gain^d(d＝0、Λ、N_d-1)，对于全部的d，通过等式(37)求量化增益误差gainerr^d(d＝0、Λ、N_d-1)。

【等式37】

gainerr^d＝|Gain_MIN-gain^d|(d＝0，…，N_d-1) …(37)

接着，在步骤523中，求取使量化增益误差gainerr^d(d＝0、Λ、N_d-1)成为最小的d，并将求出的d代入gain_index_MIN。

在步骤524中，把积累误差Dist成为最小的代码矢量的下标code_index_MIN和在步骤523求得的gain_index_MIN作为编码信息102，输出到图1的传输路径103，并结束处理。

以上为编码单元101处理过程的说明。

接着，参照图7的详细方框图，就图1的语音/乐音解码装置105加以说明。

形状码本204、增益码本205，分别和在图2所示的相同。

矢量解码单元701将通过传输路径103传输过来的编码信息102作为输入，使用编码信息code_index_MIN和gain_index_MIN，从形状码本204读取代码矢量codek^{code_indexMIN}(k＝0、Λ、N-1)，且从增益码本205读取增益编码gain^{gain_indexMIN}。接着，矢量解码单元701将gain^{gain_indexMIN}乘以codek^{code_indexMIN}(k＝0、Λ、N-1)，将相乘的结果获得的gain^{gain_indexMIN}×codek^{code_indexMIN}(k＝0、Λ、N-1)作为解码MDCT系数，输出到正交转换处理单元702。

正交转换处理单元702在内部具有缓冲器buf_k′，通过等式(38)初始化这个缓冲器。

【等式38】

buf_k′＝0(k＝0，…，N-1) …(38)

接着，将从MDCT系数解码单元701输出的解码MDCT系数gain^{gain_indexMIN}×codek^{code_indexMIN}(k＝0、Λ、N-1)作为输入，通过等式(39)求解码信号Y_n。

【等式39】

y_{n} = \frac{2}{N} Σ_{k = 0}^{2 N - 1} {X^{'}}_{k} \cos [\frac{(2 n + 1 + N) (2 k + 1) π}{4 N}] (n = 0, \cdot \cdot \cdot, N - 1) - - - (39)

此处，X_k′是使解码MDCT系数gain^{gain_indexMIN}×codek^{code_indexMIN}(k＝0、Λ、N-1)和缓冲器buf_k′结合的矢量，并通过等式(40)来求取。

【等式40】

{X^{'}}_{k} = \{\begin{matrix} {buf}^{'}_{k} & (k = 0, \cdot \cdot \cdot N - 1) \\ {gain}^{gain_{index}_{MIN}} \cdot {code}_{k - N}^{{code_index}_{MIN}} & (k = N, \cdot \cdot \cdot 2 N - 1) \end{matrix}, - - - (40)

接着，通过等式(41)更新缓冲器buf_k′。

【等式41】

{buf}^{'}_{k} = {gain}^{{gain_index}_{MIN}} {\cdot code}_{k}^{{code_index}_{MIN}} (k = 0, \cdot \cdot \cdot N - 1) - - - (41)

接着，将解码信号y_n作为输出信号106输出。

这样，通过设置：正交转换处理单元，求输入信号的MDCT系数；听觉掩蔽特性值计算单元，求听觉掩蔽特性值；以及矢量量化单元，进行使用了听觉掩蔽特性值的矢量量化，并根据听觉掩蔽特性值、MDCT系数和量化了的MDCT系数间的相对位置关系，而进行矢量量化的距离计算，可选择适合于抑制对听觉影响较大的信号恶化的代码矢量，从而可以获得更高质量的输出信号。

另外，也可以通过在矢量量化单元202对于从上述情况1到情况5的各距离计算，施加听觉加权滤波器而进行量化。

此外，在本实施方式中，就进行MDCT系数的编码的情况进行了说明，但本发明也可适用于使用傅里叶转换、离散余弦转换(DCT)或者正交镜像滤波器(QMF)等正交转换，进行转换后的信号(频率参数)编码的情况，可获得和本实施方式相同的作用和效果。

还有，在本实施方式中，就通过矢量量化进行编码的情况进行了说明，本发明对编码方法并无限制，也可以例如通过分割矢量量化、多阶段矢量量化进行编码。

此外，语音/乐音编码装置101也可以设定为使计算机执行图16中的流程图所示的进程。

如以上说明了的那样，从输入信号计算出听觉掩蔽特性值，全面考虑输入信号的MDCT系数、编码值和听觉掩蔽特性值的相对位置关系，通过应用合适于人的听觉的距离计算方法，可选择适合于抑制对听觉影响较大的信号恶化的代码矢量，即使在将输入信号以低比特速率解码时，也可以获得更良好的高质量解码语音。

此外，专利文献1中仅揭示了图6的“情况5”，本发明中除此之外，如“情况2”、“情况3”及“情况4”所示的那样，通过对于全部的组合关系采用考虑了听觉掩蔽特性值的距离计算方法，全面考虑输入信号的MDCT系数、编码值及听觉掩蔽特性值的相对位置关系，以应用合适于听觉的距离计算方法，即使在将输入信号以低比特速率量化时，也可以获得更良好的高质量的编码语音。

还有，在本发明是基于这样的事实而做出的：当输入信号的MDCT系数或编码值存在于该听觉掩蔽区域时，或者隔着听觉掩蔽区域而存在时，如果就那样进行距离计算、进行矢量量化，则实际的听觉不同。因此，通过改变矢量量化时的距离计算的方法，可给予更自然的听觉。

(实施方式2)

本发明实施方式2中，就将在实施方式1说明的听觉掩蔽特性值的矢量量化应用于可伸缩性编码(scalable coding)的例子，而加以说明。

以下，本实施方式中，对于以基本层和增强层而构成的两层语音编码和解码方法，在增强层进行使用了听觉掩蔽特性值执行矢量量化的情况，加以说明。

所谓可伸缩性语音编码方法，是指基于频率特性将语音信号分解为多个层并执行编码的方法。具体而言，使用代表下位层的输入信号和下位层的输出信号之间的差的残余信号，计算出各层的信号。在解码方将这些各层的信号相加，并将语音信号解码。通过此技术，除了可以对音质进行灵活控制之外，还可以传输对噪声的抗性较大的语音信号。

本实施方式中，是以基本层执行CELP类型的语音编码和解码的情况为例，加以说明的。

图8是表示使用了本发明实施方式2涉及的MDCT系数矢量量化方法的编码装置及解码装置的结构的方框图。另外，在图8中，编码装置包括基本层编码单元801、基本层解码单元803、以及增强层编码单元805，而解码装置包括基本层解码单元808、增强层解码单元810、及相加单元812。

基本层编码单元801使用CELP类型的语音编码方法对输入信号800进行编码，计算基本层编码信息802的同时，将其经由基本层解码单元803及传输路径807而输出到基本层解码单元808。

基本层解码单元803使用CELP类型的语音解码方法，而对基本层编码信息802进行解码，计算出基本层解码信号804的同时，将其输出到增强层编码单元805。

增强层编码单元805输入从基本层解码单元803输出的基本层解码信号804和输入信号800，通过使用了听觉掩蔽特性值的矢量量化，对输入信号800和基本层解码信号804之间的残余信号进行编码，并通过传输路径807而将通过量化而求得的增强层编码信息806输出到增强层解码单元810。关于增强层编码单元805，在后面还要详细叙述。

基本层解码单元808使用CELP类型的语音解码方法，对基本层编码信息802进行解码，并将通过解码而求得的基本层解码信号809输出到相加单元812。

增强层解码单元810对增强层编码信息806进行解码，并将通过解码而求得的增强层解码信号811输出到相加单元812。

相加单元812将从基本层解码单元808输出了的基本层解码信号809，与从增强层解码单元810输出了的增强层解码信号811相加，并将相加结果的语音/乐音信号作为输出信号813输出。

接着，参照图9的方框图，就基本层编码单元801加以说明。

将基本层编码单元801的输入信号800输入到预处理单元901。预处理单元901进行删除了DC分量的高通滤波器处理和牵涉后续的编码处理的性能改善的波形整形处理和预加重处理，并将这些处理后的信号(Xin)，输出到LPC分析单元902及相加单元905。

LPC分析单元902使用Xin进行线形预测分析，将分析结果(线形预测系数)输出到LPC量化单元903。LPC量化单元903进行从LPC分析单元902输出了的线形预测系数(LPC)的量化处理，在将量化LPC输出到合成滤波器904的同时，将表示量化LPC的代码(L)输出到多路复用单元914输出。

合成滤波器904通过使用根据量化LPC的滤波器系数，对于从后述的相加单元911输出的驱动声源进行滤波器合成而生成合成信号，并将合成信号输出到相加单元905。

相加单元905通过使合成信号的极性反转并再加上Xin，计算出误差信号，并将误差信号输出到听觉加权单元912输出。

自适应声源码本906，将通过相加单元911输出的驱动声源存储在缓冲器中，从根据参数确定单元913输出了的信号被特定的过去的驱动声源中提取一帧的采样作为自适应声源矢量，并将其输出到相乘单元909。

量化增益生成单元907，将根据从参数确定单元913输出的信号指定的量化自适应声源增益和量化固定声源增益，分别输出到相乘单元909和相乘单元910。

固定声源码本908，将通过对具有根据从参数确定单元913输出的信号指定的形状的脉冲声源矢量乘以扩展矢量，并将获得的固定声源矢量输出到相乘单元910。

相乘单元909，将从量化增益生成单元907输出的量化自适应声源增益，乘以从自适应声源码本906输出了的自适应声源矢量，并将相乘结果输出到相加单元911。相乘单元910，将从量化增益生成单元907输出了的量化固定声源增益，乘以从固定声源码本908输出了的固定声源矢量，并将相乘结果输出到相加单元911。

相加单元911具有分别来自相乘单元909和相乘单元910的增益相乘后的自适应声源矢量和固定声源矢量作为输入，并将这些矢量相加，将作为相加结果的驱动声源输出到合成滤波器904及自适应声源码本906。另外，输入到自适应声源码本906的驱动声源被存储在缓冲器中。

听觉加权单元912对于从相加单元905输出了的误差信号进行听觉性加权，并将结果作为编码失真输出到参数确定单元913。

参数确定单元913分别从自适应声源码本906、固定声源码本908和量化增益生成单元907选择将使从听觉加权单元912输出了的编码失真最小的自适应声源矢量、固定声源矢量及量化增益，并将表示选择结果的自适应声源矢量代码(A)、声源增益代码(G)及固定声源矢量代码(F)输出到多路复用单元914。

多路复用单元914具有从LPC量化单元903输入的表示量化LPC的代码(L)；从参数确定单元913输入的表示自适应声源矢量的代码(A)、表示固定声源矢量的代码(F)以及表示量化增益的代码(G)，将这些信息多路复用，并作为基本层编码信息802而输出该多路复用结果。

接着，参照图10就基本层解码单元803(808)加以说明。

在图10，输入到了基本层解码单元803(808)的基本层编码信息802是通过解多路复用单元1001而分离为各个代码(L、A、G、F)。分离了的LPC代码(L)被输出到LPC解码单元1002；分离了的自适应声源矢量代码(A)被输出到自适应声源码本1005；分离了的声源增益代码(G)被输出到量化增益生成单元1006；以及分离了的固定声源矢量代码(F)被输出到固定声源码本1007。

LPC解码单元1002由从解多路复用单元1001输出的代码(L)解码量化LPC，并输出到合成滤波器1003。

自适应声源码本1005从输出自解多路复用单元1001的代码(A)所指定的过去的驱动声源中，提取将1帧大小的采样作为自适应声源矢量，并将其输出到相乘单元1008。

量化增益生成单元1006对从解多路复用单元1001输出了的声源增益代码(G)所指定的量化自适应声源增益和量化固定声源增益进行解码，并将其输出到相乘单元1008及相乘单元1009。

固定声源码本1007生成从解多路复用单元1001输出了的代码(F)所指定的固定声源矢量，并将其输出到相乘单元1009。

相乘单元1008将自适应声源矢量乘以量化自适应声源增益，并将相乘结果输出到相加单元1010。

相乘单元1009将固定声源矢量乘以量化固定声源增益，并将相乘结果输出到相加单元1010。

相加单元1010将从相乘单元1008和相乘单元1009输出的增益相乘后的自适应声源矢量和固定声源矢量相加，生成驱动声源，并将其输出到合成滤波器1003及自适应声源码本1005。

合成滤波器1003使用由LPC解码单元1002解码的滤波器系数，进行从相加单元1010输出了的驱动声源的滤波器合成，并将合成的信号输出到后处理单元1004。

后处理单元1004对于从合成滤波器1003输出的信号，实施诸如共振峰加强或间距加强等改善语音的主观性质量的处理，或者改善稳定噪音的主观性音质的处理等，并将该结果生成的信号作为基本层解码信号804(810)输出。

接着，参照图11就增强层编码单元805加以说明。

图11的增强层编码单元805和图2相比，除了向正交转换处理单元1103输入基本层解码信号804和输入信号800之间的差分信号1102以外，其它都是相同的。在听觉掩蔽特性值计算单元203标注了与图2相同的代码，并省略其说明。

增强层编码单元805和实施方式1的编码单元101一样，将输入信号800按每N个采样进行划分(N为自然数)，将N个采样作为一个帧，并逐帧地进行编码。此处，设定将成为编码对象的输入信号800表示为x_n(n＝0、Λ、N-1)。

输入信号x_n800被输入到听觉掩蔽特性值计算单元203及相加单元1101。另外，从基本层解码单元803输出的基本层解码信号804被输入到相加单元1101和正交转换处理单元1103。

相加单元1101通过等式(42)，求取残余信号1102xresidn(n＝0、Λ、N-1)，并将求得的残余信号xresid_n 1102输出到正交转换处理单元1103。

【等式42】

xresid_n＝x_n-xbase_n(n＝0，…，N-1) …(42)

此处，xbase_n(n＝0、Λ、N-1)是基本层解码信号804。接着，就有关正交转换处理单元1103的处理，加以说明。

正交转换处理单元1103在内部具有基本层解码信号xbase_n804处理时使用的缓冲器bufbase_n(n＝0、Λ、N-1)；和残余信号xresid_n1102处理时使用的缓冲器bufresid_n(n＝0、Λ、N-1)，并将通过等式(43)及等式(44)分别初始化这些缓冲器。

【等式43】

bufbase_n＝0(n＝0，…，N-1) …(43)

【等式44】

bufresid_n＝0(n＝0，…，N-1) …(44)

接着，正交转换处理单元1103，通过对基本层解码信号xbase_n804和残余信号xresid_n1102进行修正离散余弦转换(MDCT)，分别求取基本层正交转换系数xbase_k1104和残余正交转换系数xresid_k1105。此处，基本层正交转换系数xbase_k1104是通过等式(45)而求得的。

【等式45】

{xbase}_{k} = \frac{2}{N} Σ_{n = 0}^{2 N - 1} {xbase}^{'}_{n} \cos [\frac{(2 n + 1 + N) (2 k + 1) π}{4 N}] (k = 0, \cdot \cdot \cdot, N - 1) - - - (45)

此处，xbase_n′是将基本层解码信号xbase_n804和缓冲器bufbase_n结合的矢量，正交转换处理单元1103通过等式(46)求xbase_n′。另外，k是于-个帧中的各采样的下标。

【等式46】

{xbase}^{'}_{n} = \{\begin{matrix} {bufbase}_{n} & (n = 0, \cdot \cdot \cdot N - 1) \\ {xbase}_{n - N} & (n = N, \cdot \cdot \cdot 2 N - 1) \end{matrix}, - - - (46)

接着，正交转换处理单元1103通过等式(47)更新缓冲器bufbase_n。

【等式47】

bufbase_n＝xbase_n(n＝0，…N-1) …(47)

另外，正交转换处理单元1103通过等式(48)求取残余正交转换系数xresid_k1105。

【等式48】

{xresid}_{k} = \frac{2}{N} Σ_{n = 0}^{2 N - 1} {xresid}^{'}_{n} \cos [\frac{(2 n + 1 + N) (2 k + 1) π}{4 N}] (k = 0, \cdot \cdot \cdot, N - 1) - - - (48)

此处，xresid_n′是将残余信号xresid_n1102和缓冲器bufresid_n结合的矢量，正交转换处理单元1103通过等式(49)求xresidn′。此外，k是于一个帧中的各采样的下标。

【等式49】

{xresid}^{'}_{n} = \{\begin{matrix} {bufresid}_{n} & (n = 0, \cdot \cdot \cdot N - 1) \\ {xresid}_{n - N} & (n = N, \cdot \cdot \cdot 2 N - 1) \end{matrix}, - - - (49)

接着，正交转换处理单元1103通过等式(50)更新缓冲器bufresid_n。

【等式50】

bufresid_n＝xresid_n(n＝0，…N-1) …(50)

然后，正交转换处理单元1103将基本层正交转换系数xbase_k1104和残余正交转换系数Xresid_k1105，输出到矢量量化单元1106。

矢量量化单元1106，从正交转换处理单元1103输入基本层正交转换系数xbase_k1104和残余正交转换系数xresid_k1105；从听觉掩蔽特性值计算单元203输入听觉掩蔽特性值M_k 1107；再使用形状码本1108和增益码本1109、根据使用了听觉掩蔽特性值的矢量量化进行残余正交转换系数xresid_k 1105的编码，并输出通过编码而获得的增强层编码信息806。

此处，形状码本1108包括预先创建的N_e种N维代码矢量coderesid_k ^e(e＝0、Λ、N_e-1，k＝0、Λ、N-1)，并且在上述矢量量化单元1106中将残余正交转换系数xresid_k1105矢量量化时使用。

还有，增益码本1109包括预先创建的N_f种残余增益编码gainresid^f(f＝0、Λ、N_f-1)，并且在上述矢量量化单元1106中，将残余正交转换系数xresid_k1105矢量量化时使用。

接着，参照图12，详细说明矢量量化单元1106的处理。步骤1201中，通过将0代入形状码本1108的代码矢量下标e、并将最小误差Dist_MIN代入充分大的值，进行初始化。

步骤1202中，从图11的形状码本1108读取N维的代码矢量coderesid_k ^e(k＝0、Λ、N-1)。

步骤1203中，输入从正交转换处理单元1103输出的残余正交转换系数xresid_k，并通过等式(51)求出在步骤1202读取的代码矢量coderesid_k ^e(k＝0、Λ、N-1)的增益Gainresid。

【等式51】

Gainresid = Σ_{k = 0}^{N - 1} {Xresid}_{k} {\cdot coderesid}_{k}^{e} / Σ_{k = 0}^{N - 1} {coderesid}_{k}^{e^{2}} - - - (51)

步骤1204中，将0代入表示步骤1205的实行次数的calc_count_resid。

步骤1205中，从听觉掩蔽特性值计算单元203输出的听觉掩蔽特性值M_k作为输入，并通过等式(52)求临时增益temp2_k(k＝0、Λ、N-1)。

【等式52】

({temp 2}_{k} =) \{\begin{matrix} {coderesid}_{k}^{e} & ({| codreesid}_{k}^{e} \cdot Gainresid + {Xbase}_{k} | &GreaterEqual; M_{k}) \\ 0 & ({| coderesid}_{k}^{e} \cdot Gainresid + {Xbase}_{k} | < M_{k}) \end{matrix}, (k = 0, \cdot \cdot \cdot, N - 1) - - - (52)

这里，在等式(52)中，当k满足|coderesid_k ^e·Gainresid+xbase_k|≥M_k的条件时，将coderesid_k ^e代入临时增益temp2_k；并且当k满足|coderesid_k ^e·Gainresid+xbase_k|＜M_k的条件时，将0代入temp2_k。这里，k是于1帧的各采样的下标。

接着，在步骤1205中，通过等式(53)求增益Gainresid。

【等式53】

Gainresid = Σ_{k = 0}^{N - 1} {Xresid}_{k} {\cdot temp 2}_{k} / Σ_{k = 0}^{N - 1} {temp 2}_{k}^{2} (k = 0, \cdot \cdot \cdot, N - 1) - - - (53)

此处，当临时增益temp2_k对于全部的k都为0时，将0代入增益Gainresid中。而且，通过等式(54)从增益Gainresid和代码矢量coderesid_k ^e求残余编码值Rresid_k。

【等式54】

{Rresid}_{k} = {Gainresid \cdot coderesid}_{k}^{e} (k = 0, \cdot \cdot \cdot, N - 1) - - - (54)

另外，通过等式(55)从残余编码值Rresid_k和基本层正交转换系数Xbase_k，求加法编码值Rplus_k。

【等式55】

Rplus_k＝Rresid_k+Xbase_k(k＝0，…，N-1) …(55)

步骤1206中，对calc_count_resid加上1。

步骤1207中，比较calc_count_resid和预定的非负整数Nresid_c，并且，如果calc_count_resid为小于Nresid_c的值，则处理流程返回到步骤1205；或者如果calc_count_resid大于或等于Nresid_c，则前进到步骤1208。

步骤1208中，将0代入积累误差Distresid，另外，将0代入k。而且，在步骤1208中，通过等式(56)求加法MDCT系数Xplus_k。

【等式56】

Xplus_k＝Xbase_k+Xresid_k (k＝0，…，N-1) …(56)

接着，在步骤1209、1211、1212及1214中，对听觉掩蔽特性值M_k1107、加法运算编码值Rplus_k和加法MDCT系数Xplus_k间的相对位置关系进行情况区分，对应于情况区分的结果，分别在步骤1210、1213、1215及1216进行距离计算。图13表示根据此相对位置关系的情况区分。在图13中，白圆圈记号(○)表示加法MDCT系数Xplus_k，黑圆圈记号(●)表示Rplus_k。图13的构思方法与在实施方式1的图6中说明的构思方法相同。

步骤1209中，通过等式(57)的条件表达式，确定听觉掩蔽特性值M_k、加法运算编码值Rplus_k和加法运算MDCT系数Xplus_k间的相对位置关系是否符合图13的“情况1”。

【等式57】

(|Xplus_k|≥M_k)and(Rplus_k|≥M_k)and(Xplus_k·Rplus_k≥0) …(57)

等式(57)表示加法MDCT系数Xplus_k的绝对值和加法编码值Rplus_k的绝对值都大于或等于听觉掩蔽特性值M_k，且加法MDCT系数Xplus_k和加法编码值Rplus_k的正负号相同的情况。如果听觉掩蔽特性值M_k、加法MDCT系数Xplus_k和加法编码值Rplus_k满足等式(57)的条件表达式，则处理流程前进到步骤1210；如果它们不满足等式(57)的条件表达式，则处理流程前进到步骤1211。

步骤1210中，通过等式(58)求Rplus_k和加法MDCT系数Xplus_k间的误差Distresid₁，对积累误差Distresid加上误差Distresid₁，处理流程前进到步骤1217。

【等式58】

Distresid₁＝Dresid₁₁

＝|Xresid_k-Rresid_k| …(58)

步骤1211中，通过等式(59)的条件表达式确定听觉掩蔽特性值M_k、加法编码值Rplus_k和加法MDCT系数Xplus_k间的相对位置关系是否符合图13的“情况5”。

【等式59】

(|Xplus_k|＜M_k)和(|Rplus_k|＜M_k) …(59)

等式(59)表示加法MDCT系数Xplus_k的绝对值和加法编码值Rplus_k的绝对值都小于听觉掩蔽特性值M_k的情况。当听觉掩蔽特性值M_k、加法编码值Rplus_k和加法MDCT系数Xplus_k满足等式(59)的条件表达式时，加法编码值Rplus_k和加法MDCT系数Xplus_k间的误差设为0，对积累误差Distresid什么也不加，并且处理流程前进到步骤1217。而当听觉掩蔽特性值M_k、加法编码值Rplus_k和加法MDCT系数Xplus_k不满足等式(59)的条件表达式时，处理流程前进到步骤1212。

步骤1212中，通过等式(60)的条件表达式判决听觉掩蔽特性值M_k、加法编码值Rplus_k和加法MDCT系数Xplus_k间的相对位置关系是否符合图13的“情况2”。

【等式60】

(|Xplus_k|≥M_k)和(|Rplus_k|≥M_k)和(Xplus_k·Rplus_k＜0) …(60)

等式(60)表示加法MDCT系数Xplus_k的绝对值和加法编码值Rplus_k的绝对值都大于或等于听觉掩蔽特性值M_k，且加法MDCT系数Xplus_k和加法编码值Rplus_k的正负号不同的情况。当听觉掩蔽特性值M_k、加法MDCT系数Xplus_k和加法编码值Rplus_k满足了等式(60)的条件表达式时，处理流程前进到步骤1213，当它们不满足等式(60)的条件表达式时，处理流程前进到步骤1214。

步骤1213中，通过等式(61)求加法编码值Rplus_k和加法MDCT系数Xplus_k间的误差Distresid₂，对积累误差Distresid加上误差Distresid₂，并且处理流程前进到步骤1217。

【等式61】

Distresid₂＝Dresid₂₁+Dresid₂₂+β_resid*Dresid₂₃ …(61)

此处，β_resid是根据加法MDCT系数Xplus_k、加法编码值Rplus_k及听觉掩蔽特性值M_k适当设定的值，适合于β_resid的值是1或小于1的值。而且，Dresid₂₁，Dresid₂₂及Dresid₂₃分别通过等式(62)、等式(63)及等式(64)求得。

【等式62】

Dresid₂₁＝|Xplus_k|-M_k …(62)

【等式63】

Dresid₂₂＝|Rplus_k|-M_k …(63)

【等式64】

Dresid₂₃＝M_k·2 …(64)

步骤1214中，通过等式(65)的条件表达式来确定听觉掩蔽特性值M_k、加法编码值Rplus_k和加法MDCT系数Xplus_k间的相对位置关系是否符合图13的“情况3”。

【等式65】

(|Xplus_k|≥M_k)和(|Rplus_k|＜M_k) …(65)

等式(65)表示加法MDCT系数Xplus_k的绝对值大于或等于听觉掩蔽特性值M_k，而加法编码值Rplus_k小于听觉掩蔽特性值M_k的情况。当听觉掩蔽特性值M_k、加法MDCT系数Xplus_k和加法编码值Rplus_k满足了等式(65)的条件表达式时，处理流程前进到步骤1215；当它们不满足等式(65)的条件表达式时，处理流程前进到步骤1216。

步骤1215中，通过等式(66)求取加法编码值Rplus_k和加法MDCT系数Xplus_k间的误差Distresid₃，对积累误差Distresid加上误差Distresid₃，且处理流程前进到步骤1217。

【等式66】

Distresid₃＝Dresid₃₁

＝|Xplus_k|-M_k …(66)

步骤1216中，听觉掩蔽特性值M_k、加法编码值Rplus_k和加法MDCT系数Xplus_k间的相对位置关系符合于图13的“情况4”，且满足等式(67)的条件表达式。

【等式67】

(|Xplus_k|＜M_k)and(|Rplus_k|≥M_k) …(67)

等式(67)表示加法MDCT系数Xplus_k的绝对值小于听觉掩蔽特性值M_k，且加法编码值Rplus_k大于或等于听觉掩蔽特性值M_k的情况。在步骤1216中，通过等式(68)求取加法编码值Rplus_k和加法MDCT系数Xplus_k间的误差Distresid₄，对积累误差Distresid加上误差Distresid₄，且处理流程前进到步骤1217。

【等式68】

Distresid₄＝Dresid₄₁

＝|Rplus_k|-M_k …(68)

步骤1217中，对k加上1。

步骤1218中，比较N和k，如果k为小于N的值，则处理流程返回到步骤1209；如果k大于或等于N，则处理流程前进到步骤1219。

在步骤1219中，比较积累误差Distresid和最小误差Distresid_MIN，并且如果积累误差Distresid为小于最小误差Distresid_MIN的值，则处理流程前进到步骤1220；而如果积累误差Distresid大于或等于最小误差Distresid_MIN，则处理流程前进到步骤1221。

在步骤1220中，将积累误差Distresid代入最小误差Distresid_MIN，将e代入gainresid_indeX_MIN，将增益Distresid代入误差最小增益Distresid_MIN，并且处理流程前进到步骤1221。

步骤1221中，对e加上1。

步骤1222中，比较代码矢量的总数N_e和e，如果e为小于N_e的值，则处理流程返回到步骤1202；如果e大于或等于N_e时，则处理流程前进到步骤1223。

步骤1223中，从图11的增益码本1109读取N_f种残余增益编码gainresid^f(f＝0、Λ、N_f-1)，并通过等式(69)对于全部f求取量化残余增益误差gainresiderr^f(f＝0、Λ、N_f-1)。

【等式69】

gainresiderr^f＝|Gainresid_MIN-gainresid^f|(f＝0，…，N_f-1) …(69)

接着，在步骤1223中，求取使量化残余增益误差gainresiderr^f(f＝0、Λ、N_f-1)成为最小的f，将求得的f代入gainresid_index_MIN。

在步骤1224中，将使得积累误差Distresid成为最小的代码矢量下标的coderesid_index_MIN、及在步骤1223求得的gainresid_index_MIN作为增强层编码信息806，输出到传输路径807，并结束处理。

接着，参照图14的方框图就增强层解码单元810加以说明。形状码本1403以与形状码本1108相同的方式包括N_e种N维代码矢量gainresid_k ^e(e＝0、Λ、Ne-1，k＝0、Λ、N-1)。而且，增益码本1404以与增益码本1109相同的方式包括N_f种残余增益编码gainresid^f(f＝0、Λ、N_f-1)。

矢量解码单元1401将通过传输路径807而传输的增强层编码信息806作为输入，并使用编码信息coderesid_index_MIN和gainresid_index_MIN，从形状码本1403读取代码矢量coderesid_k ^{coderesid_indexMIN}(k＝0、Λ、N-1)，并从增益码本1404读取编码gainresid^{gainresid_indexMIN}。接着，矢量解码单元1401将gainresid^{gainresid_indexMIN}乘以coderesid_k ^{coderesid_indexMIN}(k＝0、Λ、N-1)，将相乘后得到的gainresid^{gainresid_indexMIN}·coderesid_k ^{coderesid_indexMIN}(k＝0、Λ、N-1)，作为解码残余正交转换系数输出到残余正交转换处理单元1402。

接下来，就残余正交转换处理单元1402的处理，加以说明。

残余正交转换处理单元1402，在内部具有缓冲器bufresid_k′，并根据等式(70)对该缓冲器进行初始化。

【等式70】

bufresid′_k＝0(k＝0，…，N-1) …(70)

输入从残余正交转换系数解码单元1401输出的解码残余正交转换系数gainresid^{gainresid_indexMIN}·coderesid_k ^{coderesid_indexMIN}(k＝0、Λ、N-1)，并通过等式(71)求增强层解码信号yresid_n811。

【等式71】

{yresid}_{n} = \frac{2}{N} Σ_{k = 0}^{2 N - 1} {Xresid}^{'}_{k} \cos [\frac{(2 n + 1 + N) (2 k + 1) π}{4 N}] (n = 0, \cdot \cdot \cdot, N - 1) - - - (71)

此处，Xresid_k′是使解码残余正交转换系数gainresid^{gainresid_indexMIN}·coderesid_k ^{coderesid_indexMIN}(k＝0、Λ、N-1)和缓冲器bufresid_k′结合的矢量，通过等式(72)而求得。

【等式72】

{Xresid}^{'}_{k} = \{\begin{matrix} {bufresid}^{'}_{k} & (k = 0, \cdot \cdot \cdot N - 1) \\ {gainresid}^{{gainresid_index}_{MIN}} {\cdot coderesid}_{k - N}^{{coderesid_index}_{MIN}} & (k = N, \cdot \cdot \cdot 2 N - 1) \end{matrix} - - - (72)

接着，通过等式(73)更新缓冲器bufresid_k′。

【等式73】

{bufresid}^{'}_{k} = {gainresid}^{{gainresid_index}_{MIN}} {\cdot coderesid}_{k}^{{coderesid_index}_{MIN}} (k = 0, \cdot \cdot N - 1) - - - (73)

然后，输出增强层解码信号yresid_n811。

另外，本发明关于可伸缩性编码层并无限制，对于大于或等于三层的层级性语音编码和解码方法中的上层进行使用了听觉掩蔽特性值的矢量量化的情况也可适用。

在矢量量化单元1106，也可以通过对于上述情况1到情况5的各距离计算应用听觉加权滤波器而执行量化。

本实施方式中，作为基本层编码单元和解码单元的语音编码和解码方法是以CELP类型的语音编码和解码方法为例进行了说明，但是也可以使用其他语音编码和解码方法。

此外，在本实施方式中，给出了分别发送基本层编码信息和增强层编码信息的例子，但也可以将各层的编码信息复用并发送，并在接收方执行解多路复用，以便将各层的编码信息解码。

这样，即使对于可伸缩性编码方式，也可以通过应用使用本发明的听觉掩蔽特性值的矢量量化，而选择适合于抑制对听觉影响较大的信号恶化的代码矢量，从而可以获得更高质量的输出信号。

(实施方式3)

图15是示出本发明实施方式3的包括上述实施方式1、2中说明了的编码装置及解码装置的语音信号发送装置及语音信号接收装置的结构的方框图。作为更具体性应用，可适用于携带式电话、汽车导航系统等。

图15中，输入装置1502将语音信号1500模拟/数字(A/D)转换为数字信号，并将该信号输出到语音/乐音编码装置1503。语音/乐音编码装置1503安装有图1所示的语音/乐音编码装置101，对从输入装置1502输出的数字信号进行编码，将编码信息输出到RF调制装置1504。RF调制装置1504将从语音/乐音编码装置1503输出的语音编码信息，转换成可在电波等传播介质上传送的信号，并将该信号从发送天线1505送出。发送天线1505将从RF调制装置1504输出的输出信号作为无线电波(RF信号)送出。另外，图中的RF信号1506表示从发送天线1505送出的无线电波(RF信号)。以上是语音信号发送装置的结构及动作。

RF信号1507通过接收天线1508而被接收，并被输出到RF解调装置1509。而且，图中的RF信号1507表示被接收天线1508接收的无线电波，并且只要在传播通路上没有信号的衰减或噪音的重叠，则RF信号1507和RF信号1506完全相同。

RF解调装置1509对来自从接收天线1508输出的RF信号的语音编码信息进行解调，将结果输出到语音/乐音解码装置1510输出。语音/乐音解码装置1510安装有图1所示的语音/乐音解码装置105，并从输出自RF解调装置1509的语音编码信息中解码语音信号，输出装置1511将解码了的数字语音信号数字/模拟(D/A)转换为模拟信号，将电信号转换为空气的振动，并输出可以使人的耳朵听到的音波。

这样，对于语音信号发送装置及语音信号接收装置，也可以获得高质量的输出信号。

本申请是根据2003年12月26日提交的日本专利申请第2003-433160号。该内容全部包含在此作为参考。

【工业适用性】

本发明具有如下优点：通过应用使用了听觉掩蔽特性值的矢量量化，可以选择适合于抑制对听觉影响较大的信号恶化的代码矢量，并可获得更高质量的输出信号的效果。此外，本发明可适用于以互联网通信为代表的分组通信系统、以及诸如移动电话和汽车导航系统等移动通信系统的领域。

Claims

1.一种语音和乐音编码装置，包括：

正交转换处理单元，将语音和乐音信号从时间分量转换到频率分量；

听觉掩蔽特性值计算单元，其从所述语音和乐音信号求出听觉掩蔽特性值；以及

矢量量化单元，其基于所述听觉掩蔽特性值，改变从预先设定了的码本求得的代码矢量和上述频率分量之间的距离计算方法，进行矢量量化。

2.一种语音和乐音编码装置，包括：

基本层编码单元，对语音和乐音信号进行编码，并生成基本层编码信息；

基本层解码单元，对所述基本层编码信息进行解码，并生成基本层解码信号；以及

增强层编码单元，对所述语音和乐音信号与所述基本层解码信号之间的差分信号进行编码，并生成增强层编码信息；

其中，所述增强层编码单元包括：

听觉掩蔽特性值计算单元，其从所述语音和乐音信号中求出听觉掩蔽特性值；

正交转换处理单元，将所述差分信号从时间分量转换为频率分量；以及

矢量量化单元，基于所述听觉掩蔽特性值，改变从预先设定了的码本求得的代码矢量和上述频率分量之间的距离计算方法，进行矢量量化。

3.根据权利要求1的语音和乐音编码装置，其中：

当所述语音和乐音信号的频率分量和所述代码矢量的任一个处于所述听觉掩蔽特性值所指示的听觉掩蔽区域内时，所述矢量量化单元基于所述听觉掩蔽特性值，改变所述语音和乐音信号的频率分量与所述代码矢量间的距离计算方法，进行矢量量化。

4.根据权利要求1的语音和乐音编码装置，其中：

所述矢量量化单元基于从形状码本求得的代码矢量和从增益码本求得了的代码矢量执行矢量量化。

5.根据权利要求1所述的语音和乐音信号编码装置，其中：

所述正交转换处理单元，根据修正离散余弦转换(MDCT)、离散余弦转换(DCT)、傅里叶转换或正交镜像滤波器(QMF)中的任一个，将所述语音和乐音信号从时间分量转换为频率分量。

6.根据权利要求2的语音和乐音编码装置，还包括：

至少一个增强层编码单元，其中所述增强层编码单元对上位增强层编码单元的输入信号与所述上位增强层编码单元所生成的增强层编码信息的解码信号之间的差进行编码，并生成增强层编码信息。

7.根据权利要求2的语音和乐音信号编码装置，其中所述基本层编码单元通过码激励线性预测器类型的语音和乐音信号编码对输入信号进行编码。

8.一种语音和乐音编码方法，包括：

正交转换处理步骤，将语音和乐音信号从时间分量转换为频率分量；

听觉掩蔽特性值计算步骤，从所述语音和乐音信号求出听觉掩蔽特性值；以及

矢量量化步骤，基于所述听觉掩蔽特性值，改变从预定的码本求得的代码矢量和所述频率分量之间的距离计算方法，进行矢量量化。

9.一种语音和乐音编码程序，其使电子计算机起到如下单元的作用：

正交转换处理单元，将语音和乐音信号从时间分量转换为频率分量；

听觉掩蔽特性值计算单元，从所述语音和乐音信号求出听觉掩蔽特性值；以及

矢量量化单元，基于所述听觉掩蔽特性值，改变从预定的码本求得的代码矢量和所述频率分量之间的距离计算方法，进行矢量量化。