CN103999153B

CN103999153B - 用于以带选择的方式量化语音信号的方法和设备

Info

Publication number: CN103999153B
Application number: CN201280062478.6A
Authority: CN
Inventors: 郑奎赫; 李英汉; 洪起烽; 田惠晶; 李寅诚; 姜仁圭; 金洛榕
Original assignee: LG Electronics Inc; Industry Academic Cooperation Foundation of CBNU
Current assignee: LG Electronics Inc; Industry Academic Cooperation Foundation of CBNU
Priority date: 2011-10-24
Filing date: 2012-05-04
Publication date: 2017-03-01
Anticipated expiration: 2032-05-04
Also published as: JP6042900B2; JP2014531063A; US20140303967A1; KR20140088879A; EP2772911A4; CN103999153A; US9390722B2; WO2013062201A1; EP2772911B1; EP2772911A1; KR102052144B1

Abstract

本发明涉及用于以带选择的方式量化语音信号的方法和设备。语音解码方法可以包括逆量化从选择性地量化的语音带产生的语音参数信息，和基于逆量化的语音参数信息执行逆变换。因此，根据本发明，在语音编码/解码中的编码/解码效率可以通过选择性地编码/解码重要信息而提高。

Description

用于以带选择的方式量化语音信号的方法和设备

技术领域

本发明涉及以带选择的方式量化语音信号的方法和使用该方法的设备，尤其是，涉及语音编码/解码方法和设备。

背景技术

在当前的移动通信中主要使用语音通信。由人产生的语音信号可以表示为电模拟信号。有线电话发送模拟信号，并且将发送的电模拟信号再现为语音信号。

随着信息技术的最新发展，与用于发送电模拟信号的现有的模拟系统相比，已经研究能够更加灵活地发送更多信息的方法。因此，语音信号已经从模拟变化到数字。数字语音信号比模拟语音信号需要更宽的带宽用于传输，但是，在诸如信号传输、灵活性、安全性和与其它的系统协作的许多方面具有许多优点。语音压缩技术已经被开发以便补充在数字语音信号中宽的带宽的缺点。语音信号从模拟到数字的变化已经通过语音压缩技术加快，其占据信息通信的重要的部分。

音频编解码器可以取决于在压缩语音信号时对信号建模的方法划分为16kbps或者更小的中速率或者低速率编解码器，以及高速率编解码器。考虑到接收方如何准确地重构原始信号，高速率编解码器使用波形编译系统来压缩语音信号。允许操作这样的编译系统的编解码器称为波形编译器。另一方面，中间速率或者低速率编解码器使用源编译系统去压缩语音信号，因为表示原始信号的比特数量减小。考虑到如何类似于原始信号，接收方使用语音信号产生模型来编译语音信号。采用这样的编译系统的编码器称为声编译器。

发明内容

技术问题

本发明的一个目的是提供一种通过语音信号的频带选择性地执行量化和去量化以便提高语音编码效率的方法。

本发明的另一个目的是提供一种通过语音信号的频带选择性地执行量化和去量化以便提高语音解码效率的方法。

技术方案

根据本发明的一个方面，提供了一种语音解码方法，包括步骤：去量化从选择性地量化的语音带中提取的语音参数信息；和基于去量化的语音参数信息执行逆(inverse)变换。选择性地量化的语音带可以包括：至少一个预先确定的要量化的固定的低频语音带，和至少一个要量化的选择的高频语音带。至少一个选择的高频语音带可以是基于语音带的能量分布信息选择的具有大的能量部分的高频带。基于去量化的语音参数信息执行逆变换的步骤可以包括：通过将不同的码本应用于基于去量化的语音参数信息选择的要量化的语音带来执行逆变换。要量化的语音带可以包括：至少一个预先确定的要量化的固定的低频语音带，和至少一个要量化的选择的高频语音带。通过将不同的码本应用于要量化的语音带执行逆变换的步骤可以包括：基于第一码本和去量化的要量化的低频语音带的语音参数来重构语音信号，以及基于第二码本和去量化的要量化的高频语音带的语音参数来重构语音信号。基于去量化的语音参数信息执行逆变换的步骤可以包括：通过将去量化的舒适噪声电平应用于不要量化的语音带来重构语音信号。选择性地量化的语音带可以包括：预先确定的至少一个要量化的固定的低频语音带，和至少一个要量化的选择的高频语音带。去量化从选择性地量化的语音带中提取的语音参数信息的步骤可以包括：使用分析-合成(AbS)去量化从通过最类似于原始信号的组合选择的要量化的高频语音带和至少一个预先确定的要量化的固定的低频语音带中提取的语音参数信息。基于去量化的语音参数信息执行逆变换的步骤可以包括：使用离散傅里叶逆变换(IDFT)对要量化的高频语音带执行逆变换，并且使用快速傅里叶逆变换(IFFT)对要量化的低频语音带执行逆变换。

根据本发明的另一个方面，提供了一种语音解码器，包括：去量化单元，其去量化从选择性地量化的语音带中提取的语音参数信息；和逆变换单元，其基于通过去量化单元去量化的语音参数信息执行逆变换。选择性地量化的语音带可以包括：至少一个预先确定的要量化的固定的低频语音带，和至少一个要量化的选择的高频语音带。逆变换单元可以通过基于去量化的语音参数信息确定要量化的语音带，并且将不同的码本应用于要量化的语音带来重构语音信号。去量化单元可以使用分析-合成(AbS)去量化从通过最类似于原始信号的组合选择的要量化的高频语音带和至少一个预先确定的要量化的固定的低频语音带中提取的语音参数信息。逆变换单元可以使用离散傅里叶逆变换(IDFT)对要量化的高频语音带执行逆变换，并且可以使用快速傅里叶逆变换(IFFT)对要量化的低频语音带执行逆变换。

有益效果

通过采用以上提及的根据本发明的方面用于以带选择的方式量化语音信号的方法和设备，当量化语音参数信息的时候通过选择地仅仅量化包括重要信息的某些带，能够降低不必要的信息量以提高语音编译效率。也能够通过由AbS选择某些带来重构最接近于时间轴语音信号的信号。

附图说明

图1至4是图示根据本发明实施例的语音编码器和语音解码器的示意图。

图1是图示根据本发明实施例的语音编码器的示意图。

图2是图示根据本发明实施例的执行TCX模式的TCX模式执行单元的示意图。

图3是图示根据本发明实施例的执行CELP模式的CELP模式执行单元的示意图。

图4是图示根据本发明实施例的语音解码器的示意图。

图5至7是图示根据本发明实施例以TCX模式执行编码操作方法的流程图。

图8是图示根据本发明实施例的量化目标带选择方法的示例的示意图。

图9是图示根据本发明实施例标准化量化选择带的线性预测残留信号的处理示例的示意图。

图10是图示根据本发明实施例在插入舒适噪声之前和之后的信号，以示出舒适噪声电平(CN电平)插入的效果的示意图。

图11是图示根据本发明实施例的舒适噪声计算方法的示意图。

图12是图示根据本发明实施例的语音编码器的一部分(TCX模式块的量化单元)的示意图。

图13是图示根据本发明实施例的去量化TCX模式块的处理的流程图。

图14是图示根据本发明实施例的语音编码器的一部分(TCX模式块的去量化单元)的示意图。

图15至20是图示根据本发明实施例使用分析-合成(AbS)方法以TCX模式的编码方法的示意图。

图15是图示根据本发明实施例使用分析-合成(AbS)方法以TCX模式的编码方法的示意图。

图16是图示根据本发明实施例将带选择IDFT应用于AbS结构的方法的示意图。

图17是图示根据本发明实施例在AbS结构的前级(front stage)中执行的带选择IDFT处理的示意图。

图18是图示根据本发明实施例使用AbS结构以TCX模式的编码方法的示意图。

图19是图示根据本发明实施例使用AbS结构的TCX模式块的去量化处理的流程图。

图20是图示根据本发明实施例的语音解码器的一部分(使用AbS结构的TCX模式块的去量化单元)的示意图。

图21、22和23是图示作为在AbS中为了选择上带信号(upper-band)组合作为比较信号的输入语音信号经过听觉识别加权滤波器W(z)情的形的示意图。

具体实施方式

在下文中，将参考附图具体描述本发明的实施例。当确定在本发明中涉及的已知的配置或者功能的详细描述使本发明的大意难以理解的时候，将不进行其详细描述。

如果提及一个元件“连接到”或者“耦合到”另一个元件的时候，应该理解，再一个元件可以插入在其间，以及该元件可以连接或者直接耦合到另一个元件。当在本发明中提及“包括”特定的元件的时候，其不意味着排除除该特定元件以外的元件，而指的是额外的元件可以包括在本发明的实施例，或者本发明的技术精神的范围中。

诸如“第一”和“第二”的术语可用于描述各种元件，但是，元件不受到该术语的限制。该术语仅仅用于区别一个元件与另一个元件。例如，在本发明的技术精神内称作第一元件的元件可以称作第二元件，并且称作第二元件的单元可以类似地称作第一元件。

在本发明的实施例中描述的组成单元被独立地示出以表示不同独特功能。每个组成单元不由单独的硬件或者软件单元构成。也就是说，为了解释便利的目的，组成单元被独立地布置，并且至少两个组成单元可以被组合成单个组成单元，或者单个组成单元可以被分成多个组成单元以执行功能。不脱离本发明的概念，元件被组合和/或分解的实施例属于本发明的范围。

某些元件可以不是用于执行本发明的必要功能的必要元件，而是，可以是仅仅用于改善性能的选择性的元件。本发明可以仅仅通过实施本发明的必要元件，而不是仅仅用于改善性能的元件，来实施，并且仅仅包括除仅用于改善性能的选择性的元件以外的必要元件的结构属于本发明的范围。

图1是图示根据本发明实施例的语音编码器的示意图。

参考图1，语音编码器包括带宽检查单元103、采样和转换单元106、预处理单元109、带划分单元112、线性预测和分析单元115和118、线性预测和量化单元121和124、TCX模式执行单元127、CELP模式执行单元136、模式选择单元151、带预测单元154和补偿增益预测单元157。

图1图示语音编码器的示例。在不脱离本发明的概念的情况下，根据本发明的实施例的语音编码器可以具有别的配置。在图1中图示的组成单元独立地示出以表示不同的独特功能。每个组成单元不由单独的硬件或者软件单元构成。也就是说，为了解释便利的目的，组成单元被独立地布置，并且至少两个组成单元可以被组合成单个组成单元，或者单个组成单元可以被分成多个组成单元以执行功能。不脱离本发明的概念，元件被组合和/或分解的实施例属于本发明的范围。某些元件可以不是用于执行本发明的必要功能的必要元件，而是，可以是仅仅用于改善性能的选择性的元件。例如，可以实施其中取决于语音信号的带宽而从图1中除去不必要的组成单元的语音编码器。这个语音编码器也属于本发明的范围。

本发明可以仅仅通过实施本发明必需的元件，而不是仅仅用于改善性能的元件，来实施，并且仅仅包括除仅用于改善性能的选择性的元件以外的必要元件的结构属于本发明的范围。

带宽检查单元103可以确定输入语音信号的带宽信息。取决于其带宽，语音信号可以划分为具有大约4kHz的带宽并且通常在公共电话交换网(PSTN)中使用的窄带信号，具有大约7kHz的带宽、比窄带语音信号更加自然并且通常在高质量语音或者AM无线电中使用的宽带信号，具有大约14kHz的带宽并且通常在诸如音乐和数字广播这样强调声音质量的领域中使用超宽带信号，和具有大约20kHz的带宽的全频带信号。带宽检查单元103可以将输入语音信号变换到频域，并且可以确定当前的语音信号的带宽。

语音编码器的编码操作可以取决于语音信号的带宽而变化。例如，当输入语音信号是超宽带信号的时候，该输入语音信号被仅仅输入给带划分单元112，并且采样转换单元106不激活。当输入语音信号是窄带信号或者宽带信号的时候，该输入语音信号被仅仅输入给采样转换单元106和带划分单元112，并且其后续的组成单元115、121、157和154不激活。在一些实施例中，当输入语音信号的带宽是固定的时候，带宽检查单元103可以不包括在语音编码器中。

采样转换单元106可以将输入窄带信号或者输入宽带信号改变为恒定的采样速率。例如，当输入窄带信号的采样速率是8kHz的时候，该输入语音信号可以被上采样为12.8kHz以产生上带信号。当输入宽带信号的采样速率是16kHz的时候，该输入语音信号可以被下采样为12.8kHz以产生下带(lower-band)信号。内部采样频率可以是除12.8kHz以外的频率。

预处理单元109可以对具有由采样转换单元106改变的内部采样频率的语音信号执行预处理操作。通过预处理，能够有效地提取语音参数。例如，预处理单元109可以使用高通滤波或者预加重滤波以提取重要的带的频率分量。例如，预处理单元109可以通过取决于语音信号的带宽将截止频率设置为不同，来专注于提取参数所需要的重要的带。预处理单元109可以执行高通滤波以滤除是包括相对次要的信息的频带的非常低的频率。例如，预处理单元109提升输入语音信号的高频带，并且缩放低频带和高频带的能量。通过提升和缩放，可以提高用于线性预测和分析的分辨率。

带划分单元112可以转换输入超宽带信号的采样速率，并且可以将其频带划分为上带和下带。例如，32kHz的语音信号可以被转换为25.6kHz的采样频率。转换为25.6kHz的采样频率的语音信号可以通过12.8kHz被划分为上带和下带。下带可以发送给预处理单元109用于滤波。

线性预测分析单元118可以计算线性预测系数(LPC)。线性预测分析单元118可以建模表示语音信号的频谱的整个形状的共振峰(formant)。线性预测分析单元118可以计算LPC值，以致误差值的均方差(MSE)，该误差值是在原始语音信号和使用由线性预测分析单元118计算的线性预测系数产生的预测语音信号之间的差。各种LPC系数计算方法，诸如自相关方法和协方差方法可用于计算LPC。

线性预测量化单元124可以将从下带语音信号中提取的LPC转换为频域的变换系数，诸如LSP或者LSF，并且可以量化该变换系数。LPC具有宽的动态范围。因此，当LPC被没有任何变化的情况下被发送的时候，压缩率被降低。因此，能够使用变换为频域的变换系数产生具有少量信息的LPC信息。线性预测量化单元124可以量化和编码LPC系数。线性预测量化单元124可以发送线性预测残留信号。线性预测残留信号包括基音(pitch)信息和随机信号，基音信息是使用去量化和变换为时域的LPC而从其中去除共振峰分量的信号。线性预测残留信号可以发送给线性预测量化单元124的后续的级。在上带中，线性预测残留信号可以发送给补偿增益预测单元157。在下带中，在下带中的线性预测残留信号可以发送给TCX模式执行单元127和CELP模式执行单元136。

本发明以下的实施例将描述以变换码激励(TCX)模式或者码激励线性预测(CELP)模式编码窄带信号或者宽带信号的线性预测残留信号的方法。

图2是图示根据本发明实施例执行TCX模式的TCX模式执行单元的示意图。

TCX模式执行单元可以包括TCX变换单元200、TCX量化单元210、TCX逆变换单元220和TCX合成单元230。

TCX变换单元200可以基于变换函数，诸如离散傅里叶变换(DFT)或者修改的离散余弦变换(MDCT)，将输入残留信号变换到频域，并且可以将系数信息变换给TCX量化单元210。

TCX量化单元210可以使用各种量化方法量化由TCX变换单元200变换的变换系数。根据本发明实施例，TCX量化单元210可以取决于频带选择性地执行量化，并且可以使用分析-合成(AbS)方法计算最佳频率组合。本发明的实施例将在下面描述。

TCX逆变换单元220可以基于量化的信息将已经由变换单元变换到频域的线性预测残留信号逆变换为时域的激励信号。

TCX合成单元230可以使用以TCX模式量化的逆变换的线性预测系数值和重构的激励信号计算合成的语音信号。合成的语音信号可以被提供给模式选择单元151，并且以TCX模式重构的语音信号可以以稍后描述的CELP模式量化，并且可以与重构的语音信号相比较。

图3是图示根据本发明实施例执行CELP模式的CELP模式执行单元的示意图。

CELP模式执行单元包括基音检测单元300、自适应码本搜索单元310、固定码本搜索单元320、CELP量化单元330、CELP逆变换单元340和CELP合成单元350。

基音检测单元300可以使用开环方法，诸如自相关方法，基于线性预测残留信号获得基音的周期信息和峰信息。

基音检测单元300可以将合成的语音信号与实际的语音信号比较，并且可以计算基音周期(峰值)。计算的基音信息可以由CELP量化单元量化，并且可以发送给自适应码本搜索单元。自适应码本搜索单元可以基于诸如AbS方法这样的方法来计算基音周期(基音值)。

自适应码本搜索单元310可以例如使用AbS方法，基于量化的基音信息，从线性预测残留信号中计算基音结构。量化的基音信息是基于基音检测单元300产生的。自适应码本搜索单元310可以产生除基音结构以外的随机信号分量。

固定码本搜索单元320可以通过使用码本索引信息和码本增益信息来编码由自适应码本搜索单元310产生的随机信号分量。由固定码本搜索单元320确定的码本索引信息和码本增益信息可以由CELP量化单元330量化。

CELP量化单元330可以量化由如上所述的基音检测单元300、自适应码本搜索单元310，和固定码本搜索单元320确定的基音相关信息和码本相关信息。

CELP逆变换单元340可以使用由CELP量化单元330量化的信息重构激励信号。

CELP合成单元350可以通过对作为以CELP模式量化的逆变换的线性预测残留信号的重构的激励信号执行线性预测的逆处理，基于重构的语音信号和量化的线性预测系数计算合成的语音信号。以CELP模式重构的语音信号可以供应给模式选择单元151，并且可以与以TCX模式重构的语音信号相比较。

模式选择单元151可以将从以TCX模式重构的激励信号产生的TCX重构的语音信号与从以CELP模式重构的激励信号产生的CELP重构的语音信号比较，可以选择更加类似于原始语音信号的信号，并且可以编码有关编码模式的模式信息。选择信息可以发送给带预测单元154。

带预测单元154可以使用从模式选择单元151发送的选择信息和重构的激励信号来产生上带预测激励信号。

补偿增益预测单元157可以将上带预测残留信号与从带预测单元154发送的上带预测激励信号比较，并且可以补偿频谱增益。

图4是图示根据本发明实施例的语音解码器的示意图。

参考图4，语音解码器包括去量化单元401和402、逆变换单元405、第一线性预测和合成单元410、采样转换单元415、后处理滤波单元420和445、带预测单元440、增益补偿单元430、第二线性预测和合成单元435，以及带合成单元440。

去量化单元401和402可以去量化由语音编码器量化的参数信息，并且可以将去量化的参数信息供应给语音解码器的组成单元。

逆变换单元405可以逆变换以TCX模式或者CELP模式编码的语音信息，并且可以重构激励信号。根据本发明实施例，逆变换单元可以仅仅对由语音编码器选择的某些带执行逆变换。本发明的实施例将在下面详细描述。重构的激励信号可以被从第一线性预测和合成单元410以及带预测单元425发送。

第一线性预测和合成单元410可以使用从逆变换单元405发送的激励信号和从语音编码器发送的线性预测系数信息来重构下带语音信号。重构的下带语音信号可以被发送给采样转换单元415和带合成单元440。

带预测单元425可以基于从逆变换单元405发送的重构的激励信号值产生上带预测激励信号。

增益补偿单元430可以基于从带预测单元425发送的上带预测激励信号和从语音编码器发送的补偿增益值来补偿超宽带语音信号的频谱增益。

第二线性预测和合成单元435可以基于从增益补偿单元430发送的补偿的上带预测激励信号值和从语音编码器发送的线性预测系数值来重构上带语音信号。

带合成单元440可以合成从第一线性预测和合成单元410发送的重构的下带语音信号的带和从第二线性预测和合成单元435发送的重构的上带语音信号的带。

采样转换单元415可以再次将内部采样频率值转换为原始采样频率值。

后处理滤波单元420和445例如可以包括去加重滤波器，其可以执行预处理单元(109)中的预加重滤波器的逆滤波。后处理滤波单元可以执行各种后处理操作，诸如，将量化误差减到最小的操作，和恢复(revive)谐振峰和抑制波谷的操作以及滤波操作。

如上所述，在图1和2中图示的语音编码器是本发明的一个示例，可以采用不脱离本发明概念的别的语音编码器结构，并且这样的实施例也包括在本发明的范围中。

在根据本发明实施例的TCX编码方法中，能够通过使用取决于信号的重要程度选择性地执行量化的方法来实现较高的编码效率。

参考图5，计算输入语音信号的目标信号(步骤S500)。目标信号是在时间轴中除去了在语音采样之间的短期相关性的线性预测残留信号。

Aw(z)表示包括经历LPC分析和量化的量化的线性预测系数(LPC)的滤波器。输入信号可以经过Aw(z)滤波器以输出线性预测残留信号。线性预测残留信号可以是要以TCX模式编码的目标信号。

当先前帧被以除TCX模式以外的模式编码的时候，零输入响应(ZIR)被除去(步骤S510)。

例如，当先前帧是以除TCX模式以外的ACELP模式编码的帧的时候，通过加权滤波器和合成滤波器的组合的零输入响应可以从加权信号中除去，以便消除由于先前的输入信号对输出值的影响。

然后，执行自适应加窗(windowing)操作(步骤S520)。

如上所述，线性预测残留信号可以被使用多个方法，诸如TCX和CELP来编码。当使用不同的方法编码连续的帧的时候，可能在帧之间的边界处导致语音质量劣化。因此，当先前帧被以除当前帧的模式以外的模式编码的时候，在帧之间的连续性可以使用加窗操作获得。

随后，执行变换操作(步骤S530)。

加窗的线性预测残留信号可以使用诸如DFT或者MDCT的变换函数从时域信号变换为频域信号。

参考图6，在步骤S530中变换的该性预测残留信号经历频谱预整形和带划分(步骤S600)。

在根据本发明的实施例划分语音信号带的方法中，线性预测残留信号可以取决于频率被划分为下带和上带，并且可以被编码。通过使用划分带的方法，能够取决于带的重要度确定是否执行量化。本发明以下的实施例将描述量化某些固定的低频带，和选择性地量化在较高的高频带中具有大的能量部分的带的方法。要量化的带可以称为要量化的频带，多个固定的低频带可以称为固定的低频带，并且要选择性地量化的多个高频带可以称为选择的高频带。

任意地，频带被划分为高频带和低频带，并且要量化的频带被在划分的频带中选择。因此，不脱离本发明的概念，别的频带划分方法可用于选择频带，并且要量化的频带的数目可以变化。这个实施例也属于本发明的范围。为了解释便利的目的，本发明的以下的实施例将描述DFT被用作变换方法，但是，可以使用别的变换方法(例如，MDCT)。这个实施例也属于本发明的范围。

以TCX模式的目标信号经由频谱预整形被变换为在频域中的系数。为了解释便利的目的，本发明的实施例将描述以12.8kHz的内部采样速率处理20ms(256个采样)的帧部分的序列，但是，具体的值(频率系数的数目和带划分的特征值)可以随帧大小变化而变化。

在频域中的系数可以变换为具有288个采样的频域信号，并且变换的频域信号可以被划分成每个具有8个采样的36个带。频域信号可以经历交替地重新排序和分组实部和虚部的预整形，以便将频域信号划分为每个具有8个采样的36个带。例如，当288个采样经历DFT的时候，采样在频域中被排列为关于Fs/2是对称的，并且因此，要编码的系数可以是144个频域采样。频域系数具有实部和虚部。因此，实部和虚部可以被交替地重新排序用于量化，以便通过8个采样分组288个采样以形成36个带。

表达式1表示划分的频域信号。

<表达式1>

X_n(k)=X(n×8+k)，k=0，...，7n=0，...，35

在这里，四个低频带(X_n(k)n=0，...，3)可以是固定的，并且在32个高频带之中的四个重要的频带可以基于能量分布被选择和定义为量化选择带。最后，量化选择带可以是包括四个低频带和四个高频带的8个频如上所述，要量化的频带的数目是任意的，并且可以变化，有关选择的带的位置的信息可以发送给语音解码器。

图8是图示根据本发明实施例选择要量化的带的方法示例的示意图。

参考图8，在图8的上部分中的横轴表示当原始线性预测残留信号被变换为频域时的频带(800)。如上所述，线性预测残留信号的频率变换系数可以取决于频带被划分成32个带，并且在原始线性预测残留信号的频带中的四个固定的低频带820和四个选择的高频带840的8个频带可以是要量化的选择的频带。在选择8个选择的频带时，除四个固定的低频带以外的32个频带被以能量降序排列，并且8个上频带被选择。

再次参考图6，选择的量化带可以被标准化(步骤S610)。

要量化的频带的总能量可以通过使用表达式2计算每个选择的频带的能量(E(n)n=0，...，7)来计算。

<表达式2>

总能量可以除以选择的采样的数目以计算要最终标准化的增益G。要量化的选择的频带可以除以经由表达式3计算的增益以最终获得标准化的信号M(k)。

<表达式3>

参考图9，图9的上部分图示原始线性预测残留信号的频率变换系数，并且图9的中间部分图示从原始频率变换系数中选择出来的频带。图9的下部分图示选择的带被标准化的线性预测残留信号的频率变换系数。

再次参考图6，通过将带能量值与平均能量值比较，基于选择的码本来量化线性预测残留信号的标准化的频率变换系数(步骤S620)。

可以获得码本的码字和要量化的标准化的信号的最小均方误差(MMSE)以选择码本的索引。

在本发明实施例中，可以使用预先确定的表达式选择不同的码本。要量化的带的能量可以与平均能量相比较。当要量化的频带的能量比平均能量高的时候，选择使用具有高能量的带习得的第一码本，并且当要量化的频带的能量比平均能量低的时候，选择使用具有低能量比的带习得的第二码本。可以基于平均能量与要量化的带的能量的比较选择的码本执行形状矢量量化。表达式4表示带能量及其平均值。

<表达式4>

频谱经历去整形(deshaping)，并且量化的变换系数被逆变换以重构时间轴的线性预测残留信号(步骤S630)。

频谱去整形可以作为以上提及的频谱预整形的逆处理来执行，并且逆变换可以在频谱去整形之后执行。

在时域中的总增益被计算，其是经由量化的线性预测残留信号的逆变换而获得的(步骤S640)。

可以基于经历步骤S520的自适应加窗的线性预测残留信号和逆变换为在步骤S630中计算的量化系数的时间轴预测残留信号计算总增益。

参考图7，在步骤S640中量化的线性预测残留信号再次经历自适应加窗(步骤S700)。

重构的线性预测残留信号可以被自适应地加窗。

加窗的重叠信号被存储以从稍后要发送的信号中去除加窗的重叠信号(步骤S710)。重叠信号与在步骤S520中的下一个帧重叠的部分相同，并且存储的信号在下一个帧的重叠/添加处理(S720)中使用。

在步骤S700中加窗的重构的预测残留信号被重叠/添加到在先前帧中存储的加窗的重叠信号，以去除在帧之间的不连续(步骤S720)。

计算舒适噪声电平(步骤S730)。

舒适噪声可用于提供听觉上改善的声音质量。

图10是图示根据本发明实施例插入舒适噪声电平方法的示意图。

图10的上部分示出没有插入舒适噪声的情形，并且图10的下部分示出插入舒适噪声的情形。舒适噪声可以插入到非量化的带中，并且舒适噪声信息可以发送给语音解码器。在收听语音信号的时候，可以从其中没有插入舒适噪声的信号识别基于量化误差和带不连续的噪声，但是，更加稳定的声音可以从其中插入舒适噪声的信号识别。

因此，每个帧的噪声电平可以经由以下的处理来计算。原始信号X(k)的18个上带被使用计算的增益G被标准化。计算每个标准化的信号的带能量，并且计算所计算的带能量的总能量和平均能量表达式5表示计算带的总能量和平均能量的处理。

<表达式5>

在18个上带中比的阈值高的带能量可以从总能量中排除。在这里，常数0.8是通过实验计算的加权值，并且可以使用别的值。当舒适能量电平过高的时候，具有插入其中噪声的带的影响可能大于量化的带的影响，并且因此，可能不利地影响声音质量。因此，仅仅使用等于或者小于预先确定的阈值的能量确定舒适噪声电平。

图11是图示根据本发明实施例计算舒适噪声电平方法的示意图。

图11的上部分表示18个上频带的信号。图11的中间部分表示18个上频带的阈值和能量值。阈值可以如上所述通过平均能量值乘以任意值来计算，并且能量电平可以仅仅使用比阈值高的频带的能量来确定。

滤波器1/Aw(z)应用于计算的语音信号(量化的线性预测残留信号)以重构语音信号(步骤S740)。

作为在步骤S500中使用的滤波器Aw(z)的倒数的LPC滤波器1/Aw(z)可用于产生重构的语音信号。步骤S730和S740的顺序可以互换，其也属于本发明的范围。

在图12中，为了解释便利的目的，假设在下面描述的操作全部在语音编码器的量化单元中执行。在下面描述的操作可以由语音编码器的其它的组成单元执行，其也属于本发明的范围。

参考图12，语音编码器的量化单元1200可以包括带选择单元1210、标准化单元1220、码本确定单元1230、舒适噪声因子计算单元1240，和量化执行单元1250。

带选择单元1210可以确定经由预先整形的带，并且可以将要选择的带确定为固定的低频带和选择的高频带。

标准化单元1220可以标准化选择的频带。如上所述，要标准化的增益值是基于选择的带的能量和选择的采样的数目来计算的，并且最终获得标准化的信号。

码本确定单元1230可以基于预先确定的确定表达式来确定什么码本应用于带，并且可以计算码本索引信息。

舒适噪声因子计算单元1240可以基于预先确定的频带计算要插入到非选择的带中的噪声电平，并且可以基于计算的噪声电平值计算用于不要量化的带的噪声因子。语音解码器可以基于由语音编码器量化的噪声因子产生重构的线性预测残留信号和合成的语音信号。重构的线性预测残留信号可以用作带预测单元(在图1中由附图标记154指示)的输入。通过使重构的线性预测残留信号经过滤波器1/Aw(z)产生的合成的语音信号可以输入给模式选择单元151，并且可用于选择模式。量化的噪声因子可以被量化和发送，用于在语音解码器中相同信息的产生。

量化执行单元1250可以量化码本索引信息。

图13是图示根据本发明实施例的TCX模式块的去量化处理的流程图。

参考图13，从语音编码器发送的量化的参数信息被去量化(步骤S1300)。

从语音编码器发送的量化的参数信息可以包括增益信息、形状信息、噪声因子信息，和选择的量化带信息。量化的参数信息被去量化。

逆变换基于去量化的参数信息来执行以重构语音信号(步骤S1310)。

基于去量化的参数信息可以确定选择什么频带(步骤S1310-1)，并且作为确定结果选择的频带可以通过对其应用不同的码本而经历逆变换(步骤S1310-2)。基于去量化的舒适噪声电平信息，噪声电平可以被添加到非选择的频带(步骤S1310-3)。

图14是图示根据本发明实施例的语音解码器的一部分(TCX模式块的去量化单元)的示意图。

在图14中，类似于图12，为了解释便利的目的，假设在下面描述的操作全部在语音编码器的量化单元中执行。在下面描述的操作可以由语音编码器的其它的组成单元执行，其也属于本发明的范围。

语音解码器可以包括去量化单元1400和逆变换单元1450。

去量化单元1400可以基于从语音编码器发送的量化的参数信息执行去量化，并且可以提取增益信息、形状信息、噪声因子信息，和选择的量化带信息。

逆变换单元1450可以包括频带确定单元1410、码本应用单元1420，和舒适噪声因子应用单元1430，并且可以基于去量化的语音参数信息重构语音信号。

频带确定单元1410可以确定当前的频带是否是固定的低频带、选择的高频带，或者舒适噪声因子应用于其的频带。

码本应用单元1420可以基于由频带确定单元确定的要量化的频带，和从去量化单元1400发送的码本索引信息将不同的码本应用于固定的低频带或者选择的高频带。

舒适噪声因子应用单元1430可以将去量化的舒适噪声因子应用于对其添加舒适噪声的频带。

以上提及的语音编码器使用固定和量化低频带、取决于带能量选择一些高频带，和量化选择的高频带的方法。但是，在具有作为语音信号的目标信号的能量分布的频带中，选择影响实际的声音质量的带可能更重要。

以TCX模式要量化的实际信号不是听觉上收听的原始信号，而是经过滤波器Aw(z)的残留信号。因此，当能量相似的时候，可以有效地选择实际上影响声音质量的带，并且因此，通过经由LPC合成滤波器1/Aw(z)将要量化的信号合成到实际上收听的信号中，并且检查合成结果，可以提高编译效率。在本发明以下的实施例中，将描述基于候选带和AbS结构的组合选择最佳带的方法。

在图15中的步骤S1500以前的处理与在图5中的步骤S500至S520的处理相同，并且在图15中的步骤S1540之后的处理与在图7中的步骤S700至S740的处理相同。

在根据本发明实施例的语音编码方法中，可以以与在图6中图示的相同的方式基于固定的低频带对低频带执行量化，可以选择和量化在其它的高频带之中具有大的能量部分的候选选择的带。最终选择的高频带是在候选选择的带之中选择的。候选选择的高频带的数目可以大于最终选择的高频带的数目(步骤S1500)。

在步骤S1500中，要量化的频带可以被划分成要标准化的固定的低频带和候选选择的高频带。候选选择的高频带可以被选择为超过最终选择的高频带。在候选选择的高频带中可以找出优化组合作为最终选择的高频带。最终选择的高频带可以在后续的AbS级中被最终量化。

在步骤S1510和S1520的处理中，类似于在图6中的步骤S610和S620的处理，要量化的选择的带被标准化(步骤S1510)，并且通过将带能量值与平均能量值比较，并且选择不同的码本来量化标准化的线性预测残留信号(步骤S1520)。

为了执行分析-合成(AbS)块(步骤S1540)，用于低频带的时域信号经由对四个固定的低频带的逆变换处理获得，并且用于高频带的时域信号经由对候选选择的高频带的带选择逆DFT获得(步骤S1530)。

由于分析-合成(AbS)处理(步骤S1540)是切换和组合候选选择的高频带的处理。具有相对小的计算负荷的IFFT被应用于固定的低频带信号。能够对每个带进行逆变换的带选择逆DFT被应用于需要用于每个带的时域信号的候选选择的高频带。在下面将详细描述步骤S1530的处理。

通过经过IFFT和带选择逆DFT的低频带的信号和候选选择的高频带的信号的组合获得用于量化的线性预测残留信号的时域信号，并且使用AbS计算优化组合(步骤S1540)。

通过经过IFFT和带选择逆DFT的低频带的信号和候选选择的高频带的信号的组合产生的重构的候选线性预测残留信号可以经过滤波器1/Aw(z)，其是存在于AbS块之中的合成滤波器，以产生听得见的信号。这些信号经过听觉加权滤波器以产生重构的语音信号。可以基于通过使作为TCX模式的目标信号的线性预测残留信号不经历量化而获得的语音信号来计算经过听觉加权滤波器的这些信号的信噪比。这个处理可以重复执行候选组合的数目那么多次，以最终将具有最高的信噪比的候选带的组合确定为选择的带。最终选择的高频带的量化的变换系数值是从在步骤S1520中量化的候选选择的高频带的量化的变换系数值中选择出来的。

增益被计算和量化(步骤S1550)。

在步骤S1550中，可以基于时间轴线性预测残留信号和在步骤S1540中合成的线性预测残留信号计算和量化增益值。

在根据本发明实施例的AbS结构中提出的带选择逆变换(BS-IDFT)可以经由组合的带的逆变换将计算负荷最小化。也就是说，通过将具有相对小的计算负荷的IFFT应用于固定的低频带，并且将BS-IDFT应用于候选选择的高频带，以便获得用于每个带的时域信号，在AbS结构的应用中的计算负荷可以降低。表达式6表示根据本发明实施例的离散傅里叶逆变换(IDFT)。

<表达式6>

由于根据本发明的实施例的BS-IDFT是对选择的带的频率分量执行的逆变换。通过使用BS-IDFT，计算负荷可以从k_DFTN²降低到由每个带的采样数目k_带导致的k_带N²。与执行IFFT的情形相比较，由于BS-IDFT仅仅对必需的部分执行，所以计算负荷可以被降低。

图16是图示根据本发明实施例将BS-IDFT应用于AbS结构的方法的示意图。

在根据本发明的实施例的AbS方法中，用于每个候选带的时域信号可以使用在AbS结构之外执行BS-IDFT的方法获得，以便不重复地执行逆变换。

参考图16，对四个固定的低频带执行IFFT(1600)，在AbS块之外对候选选择的高频带执行去量化(S1540)(1620)，并且通过在AbS块内部的候选选择的高频带的时域信号的组合来执行合成(S1540)。通过固定的低频带和候选选择的高频带的组合合成的时域的重构的线性预测残留信号经过滤波器1/Aw(z)以产生重构的语音信号。可以基于重构的语音信号的信噪比和TCX模式的输入信号，即，要量化的时域线性预测信号，来选择具有最佳比的高频带的组合。

通过使输入语音信号经过诸如W(z)的听觉识别加权滤波器获得的信号可以用作用于选择最佳高频带的组合的比较信号，如在图21中图示的。图17是图示根据本发明的实施例在AbS结构的前级中执行的BS-IDFT的示意图。

参考图17，IFFT可以应用于固定的低频带，并且可以对于候选选择的高频带产生将误差最小化的最佳组合。

在图17中，类似地，通过使输入语音信号经过诸如W(z)的听觉识别加权滤波器而获得的信号可以用作用于选择最佳高频带组合的比较信号，如在图22中图示的。类似于图22和23，在图22中图示的AbS单元可以使用输入语音信号，而不是线性预测残留系数信息来选择高频带组合，如在图23中图示的。

图18是图示根据本发明的实施例的语音编码器的一部分的示意图。

参考图18，语音编码器可以包括量化单元1800和逆变换单元1855。量化单元1800可以包括带划分单元1810、标准化单元1820、码本应用单元1830、带组合单元1840、舒适噪声电平计算单元1850、逆变换单元1855、分析-合成单元1860，和量化执行单元1870。

带划分单元1810可以将频带划分为固定的低频带和候选选择的高频带。也就是说，频带可以被划分成要标准化的固定的低频带和候选选择的高频带。通过分析-合成(AbS)单元1860进行组合，所有候选选择的高频带的某些候选选择的高频带可以确定选择为最终选择的高频带。

标准化单元1820可以标准化由带划分单元选择的固定的低频带和候选选择的高频带。如上所述，基于选择的带的能量和选择的采样的数目计算要标准化的增益值，并且最终获得标准化的信号。

码本应用单元1830可以基于预先确定的确定表达式来确定什么码本应用于每个带。码本索引信息可以被发送给量化执行单元1870，并且从而可以被量化。

高频带组合单元1840可以确定选择的高频带的什么组合应当被逆变换单元1855选择。

量化执行单元1870可以量化用于重构线性预测残留信号的语音参数信息，诸如有关选择的带的信息、有关应用于每个带的码本索引的信息，和有关舒适噪声因子的信息。

逆变换单元1855可以通过将IFFT应用于固定的低频带，并且将BS-IDFT应用于候选选择的高频带来执行逆变换。

分析-合成(AbS)单元1860可以通过组合经历BS-IDFT的候选选择的高频带，并且重复地将组合与原始信号比较，来选择最佳选择的高频带组合。最终确定的选择的高频带信息可以发送给量化执行单元1870。

舒适噪声电平计算单元1850可以基于预先确定的频带确定进入非选择的带的噪声电平。基于噪声电平的噪声因子值由量化执行单元1870量化和发送。

图19是图示根据本发明实施例的语音解码方法的流程图。

参考图19，首先，从语音编码器发送的量化的参数信息被去量化(步骤S1900)。

从语音编码器发送的量化的参数信息可以包括增益信息、形状信息、噪声因子信息，和由语音编码器的AbS结构选择为量化目标的选择的量化带信息。量化的参数信息被去量化。

逆变换基于去量化的参数信息来执行(步骤S1910)。

可以基于通过AbS选择为量化目标的选择的量化带信息确定选择什么频带(步骤S1910-1)，并且逆变换可以通过取决于确定结果将不同的码本应用于选择的频带来执行(步骤S1910-2)。噪声电平可以基于去量化的舒适噪声电平信息被添加到非选择的频带(步骤S1910-3)。

图20是图示根据本发明实施例的语音解码器的一部分的示意图。

在图20中，为了解释便利的目的，假设在下面描述的操作全部在语音编码器的量化单元中执行。在下面描述的操作可以由语音编码器的其它的组成单元执行，其也属于本发明的范围。

语音解码器可以包括去量化单元2000和逆变换单元2010。

去量化单元2000可以基于从语音编码器发送的量化的参数信息执行去量化，并且可以提取增益信息、形状信息、噪声因子信息，和由语音编码器的AbS单元所选择的选择的量化频带信息。

逆变换单元2010可以包括频带确定单元2020、码本应用单元2030，和舒适噪声因子应用单元2040。

频带确定单元2020可以确定当前的频带是否是固定的低频带、选择的高频带，或者对其应用舒适噪声因子的频带。

基于由频带确定单元确定的要量化的频带和从去量化单元2000发送的码本索引信息，码本应用单元2030可以将不同的码本应用于固定的低频带或者选择的高频带。

舒适噪声电平应用单元2040可以将去量化的舒适噪声电平应用于对其添加舒适噪声的频带。

图21、22和23图示如上所述输入语音信号经过听觉识别加权滤波器W(z)作为用于选择高频带组合的比较信号的情形。在图21、22和23中的其它的元件与在图16、17和15中图示的是相同的。

如上所述的语音编码和解码方法可以通过如上参考1至4所述的语音编码器和语音解码器的组成单元执行。

虽然本发明已经在上面参考实施例描述，但是本领域技术人员应该理解，不脱离在所附的权利要求书中描述的本发明的精神和范围，本发明可以以各种形式修改和变化。

Claims

1.一种用于语音解码的方法，所述方法包括：

去量化从要量化的至少一个预先确定的固定的低频语音带和要量化的至少一个选择的高频语音带中提取的语音参数信息；和

基于去量化的语音参数信息通过将不同的码本应用于至少一个预先确定的固定的低频语音带和至少一个选择的高频语音带来执行逆变换，

其中，不同的码本是基于所述至少一个预先确定的固定的低频语音带和所述至少一个选择的高频语音带的能量与平均能量之间的比较，

其中，如果所述至少一个预先确定的固定的低频语音带的能量高于所述平均能量，则选择使用具有高能量的带习得的码本，并且如果所述至少一个预先确定的固定的低频语音带的能量低于所述平均能量，则选择使用具有低能量比的带习得的码本，以及

其中，如果所述至少一个选择的高频语音带的能量高于所述平均能量，则选择使用具有高能量的带习得的码本，并且如果所述至少一个选择的高频语音带的能量低于所述平均能量，则选择使用具有低能量比的带习得的码本。

2.根据权利要求1的方法，

其中，至少一个选择的高频语音带是基于语音带的能量分布信息选择的具有大的能量部分的高频带。

3.根据权利要求1的方法，

其中，通过将不同的码本应用于至少一个预先确定的固定的低频语音带和至少一个选择的高频语音带来执行逆变换包括：基于第一码本和要量化的低频语音带的语音参数来重构语音信号，和基于第二码本和要量化的高频语音带的语音参数来重构语音信号。

4.根据权利要求1的方法，

其中，通过将不同的码本应用于至少一个预先确定的固定的低频语音带和至少一个选择的高频语音带来执行逆变换包括：通过将去量化的舒适噪声电平应用于不要量化的语音带来重构语音信号。

5.根据权利要求1的方法，

其中，去量化从要量化的至少一个预先确定的固定的低频语音带和要量化的至少一个选择的高频语音带中提取的语音参数信息包括：使用分析-合成(AbS)去量化从通过最类似于原始信号的组合选择的要量化的高频语音带和至少一个预先确定的要量化的固定的低频语音带中提取的语音参数信息。

6.根据权利要求5的方法，

其中，通过将不同的码本应用于至少一个预先确定的固定的低频语音带和至少一个选择的高频语音带来执行逆变换包括：使用离散傅里叶逆变换(IDFT)对要量化的高频语音带执行逆变换，并且使用快速傅里叶逆变换(IFFT)对要量化的低频语音带执行逆变换。

7.一种用于语音解码的装置，所述装置包括：

去量化单元，所述去量化单元去量化从要量化的至少一个预先确定的固定的低频语音带和要量化的至少一个选择的高频语音带中提取的语音参数信息；和

逆变换单元，所述逆变换单元基于去量化的语音参数信息通过将不同的码本应用于至少一个预先确定的固定的低频语音带和至少一个选择的高频语音带来执行逆变换，

8.根据权利要求7的装置，

其中，所述去量化单元使用分析-合成(AbS)去量化从通过最类似于原始信号的组合选择的要量化的高频语音带和至少一个预先确定的要量化的固定的低频语音带中提取的语音参数信息。

9.根据权利要求7的装置，

其中，所述逆变换单元使用离散傅里叶逆变换(IDFT)对要量化的高频语音带执行逆变换，并且使用快速傅里叶逆变换(IFFT)对要量化的低频语音带执行逆变换。