CN104025189A

CN104025189A - 编码语音信号的方法、解码语音信号的方法，及使用其的装置

Info

Publication number: CN104025189A
Application number: CN201280063395.9A
Authority: CN
Inventors: 李英汉; 郑奎赫; 姜仁圭; 田惠晶; 金洛榕
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2011-10-27
Filing date: 2012-10-29
Publication date: 2014-09-03
Anticipated expiration: 2032-10-29
Also published as: EP2772909A1; CN104025189B; JP6039678B2; KR20140085453A; WO2013062392A1; EP2772909B1; JP2014531064A; US9672840B2; US20140303965A1; EP2772909A4

Abstract

本发明涉及用于编码语音信号的方法、用于解码语音信号的方法，及使用其的装置。根据本发明用于编码语音信号的方法，包括步骤：确定在当前帧中的回波区；基于回波区的位置分配用于当前帧的比特；和使用分配的比特编码当前帧，其中分配比特的步骤包括与回波区不位于其中的分段相比在回波区位于其中的分段中分配更多的比特。

Description

编码语音信号的方法、解码语音信号的方法,及使用其的装置

技术领域

本发明涉及处理语音信号的技术，尤其是，涉及用于在编码语音信号时可变地分配比特以便解决预回波问题的方法和设备。

背景技术

随着网络近期的发展，以及在用户对于高质量服务需求的增加，已经开发用于在通信环境下编码/解码从窄带到宽带或者超宽带的语音信号的方法和设备。

通信带的扩展指的是直至音乐和混合内容几乎所有的声音信号以及语音被包括为编码目标。

因此，基于信号变换的编码/解码方法被重要地使用。

在比特率方面的限制和在通信带方面的限制存在于码激励线性预测(CELP)中，其主要在现有的语音编码/解码中使用，但是，低的比特率已经提供对于对话足够的声音质量。

但是，随着通信技术的近期发展，可用的比特率已经增长，并且已经积极地开发了高质量语音和音频编码器。因此，基于变换的编码/解码技术已经用作除在通信带方面具有限制的CELP以外的技术。

因此，考虑与CELP并行或者作为附加层使用基于变换的编码/解码技术的方法。

发明内容

技术问题

本发明的一个目的是提供一种用于解决可能由于基于变换的编码(变换编码)而发生的预回波问题的方法和设备。

本发明的另一个目的是提供一种方法和设备，用于将固定的帧划分为其中可能发生预回波的分段和另一个分段，并且自适应地分配比特。

本发明的再一个目的是提供一种方法和设备，能够在要发送的比特率是固定的时候，通过将帧划分为预先确定的分段，并且给划分的分段不同地分配比特，来提高编码效率。

问题的解决方案

根据本发明的一个方面，提供了一种语音信号编码方法，包括步骤：确定在当前帧中的回波区；基于回波区的位置给当前帧分配比特；和使用分配的比特编码当前帧，其中分配比特的步骤包括与其中不存在回波区的分段相比对当前帧中存在回波区的分段分配更多的比特。

分配比特的步骤可以包括将当前帧划分为预先确定数目的分段，并且与其中不存在回波区的分段相比对其中存在回波区的分段分配更多的比特。

确定回波区的步骤可以包括在当前帧被划分成许多分段时，如果在分段中的语音信号的能量水平不均匀，则确定回波区存在于当前帧中。此时，当在分段中的语音信号的能量水平不均匀时，可以确定回波区存在于其中能量水平的瞬变存在的分段中。

确定回波区的步骤可以包括当在当前的子帧中的标准化能量从在先前子帧中的标准化能量变化超过阈值的时候，确定回波区存在于当前子帧中。此时，标准化能量可以是通过基于在当前帧的子帧中的能量值之中的最大能量值标准化计算的。

确定回波区的步骤可以包括顺序地搜索当前帧的子帧，并且确定回波区存在于其中标准化能量大于阈值的第一子帧中。

确定回波区的步骤可以包括顺序地搜索当前帧的子帧，并且确定回波区存在于其中标准化能量小于阈值的第一子帧中。

分配比特的步骤可以包括将当前帧划分为预先确定数目的分段，并且基于在分段中的能量水平和取决于是否存在回波区的权重值，分配比特给该分段。

分配比特的步骤可以包括将当前帧划分为预先确定数目的分段，并且使用在预先确定的比特分配模式之中对应于在当前帧中回波区的位置的比特分配模式来分配比特。此时，表示使用的比特分配模式的信息可以被发送给解码器。

根据本发明的另一个方面，提供了一种语音信号解码方法，包括步骤：获得当前帧的比特分配信息；和基于比特分配信息解码语音信号，并且比特分配信息可以是用于在当前帧中的每个分段的比特分配的信息。

比特分配信息可以表示在定义预先确定的比特分配模式的表中用于当前帧的比特分配模式。

比特分配信息可以表示比特被不同地分配给当前帧中存在瞬变分量的分段和其中不存在瞬变分量的分段。

有益效果

根据本发明，通过基于预回波防止或者降低噪声，同时保持总的比特率恒定，能够提供改善的声音质量。

根据本发明，通过与其中不存在基于预回波的噪声的分段相比较，对其中可能发生预回波的分段分配更多的比特以更加真实地执行编码，能够提供改善的声音质量。

根据本发明，考虑到能量分量的水平，通过不同地分配比特，能够取决于能量更加有效地执行编码。

根据本发明，通过提供改善的声音质量，能够实现高质量语音和音频通信服务。

根据本发明，通过实现高质量语音和音频通信服务，能够提供各种额外的服务。

根据本发明，由于可以甚至使用基于变换的语音编码防止或者降低预回波的出现，能够更加有效地利用基于变换的语音编码。

附图说明

图1和2是示意地图示编码器配置示例的示意图。

图3和4是示意地图示对应于在图1和2中图示的编码器的解码器示例的示意图。

图5和6是示意地图示预回波的示意图。

图7是示意地图示块切换方法的示意图。

图8是示意地图示当基本帧被设置为20ms，并且取决于信号特征使用作为具有更大的大小的帧的40ms和80ms的时候，窗类型示例的示意图。

图9是示意地图示在预回波位置和比特分配之间关系的示意图。

图10是示意地图示根据本发明的比特分配方法的示意图。

图11是示意地图示根据本发明在编码器中可变地分配比特方法的流程图。

图12是示意地图示根据本发明具有扩展的结构形式的语音编码器的配置示例的示意图。

图13是示意地图示预回波降低模块的配置的示意图。

图14是示意地图示根据本发明在编码器中可变地分配比特以编码语音信号方法的流程图。

图15是示意地图示根据本发明当在编码语音信号时可变地分配比特的时候，解码编码的语音信号方法的示意图。

具体实施方式

在下文中，本发明的实施例将参考附图具体描述。当确定包含在本发明中的已知的配置或者功能的详细说明使本发明的要点难以理解的时候，将不进行其详细说明。

如果提及第一元件“连接到”或者“耦合到”第二元件，应该理解，第一元件可以直接地连接或者耦合到第二元件，并且可以经由第三元件连接或者耦合到第二元件。

诸如“第一”和“第二”术语可用于区别一个元件与另一个元件。例如，在本发明的技术精神中称作第一元件的元件可以称作第二元件，并且可以执行相同的功能。

可以随着网络技术的发展处理大容量的信号，并且例如，基于码激励线性预测(CELP)的编码/解码(在下文中，为了解释便利的目的称为“CELP编码”和“CELP解码”)，和基于变换的编码/解码(在下文中，为了解释便利的目的称为“变换编码”和“变换解码”)可以并行使用来在可用比特增加的情况下编码/解码语音信号。

图1是示意地图示编码器配置示例的示意图。图1图示并行使用代数码激励线性预测(ACELP)技术和变换码激励(TCX)技术的示例。在图1图示的示例中，语音和音频信号被变换为频率轴，并且然后使用代数矢量量化(AVQ)技术量化。

参考图1，语音编码器100包括带宽检查模块105、采样变化模块125、预处理模块130、带划分模块110、线性预测分析模块115和135、线性预测量化模块140、150和175、变换模块145、反变换模块155和180、基音检测模块160、自适应码本搜索模块165、固定码本搜索模块170、模式选择模块185、带预测模块190，和补偿增益预测模块195。

带宽检查模块105可以确定输入语音信号的带宽信息。取决于其带宽，语音信号可以划分为窄带信号、宽带信号和超宽带信号，窄带信号具有大约4kHz带宽并且通常在公共电话交换网(PSTN)中使用，宽带信号具有大约7kHz带宽并且通常在窄带语音信号更加自然的高质量语音或者AM无线电中使用，超宽带信号具有大约14kHz带宽并且通常在强调声音质量的领域，诸如音乐和数字广播中使用。带宽检查模块105可以将输入语音信号变换为频率域，并且可以确定当前语音信号是否是窄带信号、宽带信号或者超宽带信号。带宽检查模块105可以将输入语音信号变换为频率域，并且可以检查和确定频谱的上带二进制序列(upper-band bins)的存在和/或分量。在输入语音信号的带宽是固定的情况下可以不必单独提供带宽检查模块105。

带宽检查模块105可以取决于输入语音信号的带宽将超宽带信号发送给带划分模块110，并且可以将窄带信号或者宽带信号发送给采样变化模块125。

带划分模块110可以改变输入信号的采样速率，并且将输入信号划分为上带和下带。例如，32kHz的语音信号可以改变为25.6kHz的采样频率，并且可以通过12.8kHz被分成上带和下带。带划分模块110将划分的带的下带信号发送给预处理模块130，并且将上带信号发送给线性预测分析模块115。

采样变化模块125可以接收输入窄带信号或者输入宽带信号，并且可以改变预先确定的采样速率。例如，当输入窄带信号的采样速率是8kHz的时候，输入窄带语音信号可以被上采样为12.8kHz以产生上带信号。当输入宽带信号的采样速率是16kHz的时候，输入宽带语音信号可以被下采样为12.8kHz以产生下带信号。采样变化模块125输出其采样速率已经改变的下带信号。内部采样频率可以是除12.8kHz以外的采样频率。

预处理模块130预处理从采样变化模块125和带划分模块110输出的下带信号。预处理模块130滤波输入信号，以便有效地提取语音参数。参数可以通过取决于语音带宽而不同地设置截止频率并且对于其中聚集次要信息的频带的非常低的频率进行高通滤波，来从重要的带中提取。在另一个示例中，可以通过使用预加重滤波器提升输入信号的高频带缩放在低频区中的能量水平和在高频区中的能量水平。因此，能够提高线性预测分析的分辨率。

线性预测分析模块115和135可以计算线性预测系数(LPC)。线性预测分析模块115和135可以对表示语音信号的频谱的整个形状的共振峰进行建模。线性预测分析模块115和135可以计算LPC值，以便误差值的均方差(MSE)最小，误差是在原始语音信号和使用通过线性预测分析模块135计算的线性预测系数产生的预测语音信号之间的差。诸如自相关方法和协方差方法的各种方法可用于计算LPC。

与用于下带信号的线性预测分析模块135不同，线性预测分析模块115可以提取低阶的LPC。

线性预测量化模块120和140可以变换提取的LPC，以在频率域中产生变换系数，诸如线性频谱对(LSP)或者线性频谱频率(LSF)，并且可以在频率域中量化产生的变换系数。LPC具有大的动态范围。因此，当LPC被没有任何变化地发送的时候，需要许多的比特。因此，可以通过将变换系数变换到频率域并且量化变换系数，以少量的比特(小的压缩度)发送LPC信息。

线性预测量化模块120和140可以使用通过对量化的LPC去量化并变换到时间域所获得的LPC来产生线性预测残留信号。线性预测残留信号可以是从语音信号中去除预测的共振峰分量的信号，并且可以包括基音信息和随机信号。

线性预测量化模块120通过使用量化的LPC滤波原始上带信号产生线性预测残留信号。产生的线性预测残留信号被发送给补偿增益预测模块195，以便利用上带预测激励信号计算补偿增益。

线性预测量化模块140通过使用量化的LPC滤波原始下带信号产生线性预测残留信号。产生的线性预测残留信号被输入给变换模块145和基音检测模块160。

在图1中，变换模块145、量化模块150和反变换模块155可以起执行变换码激励(TCX)模式的TCX模式执行模块的作用。基音检测模块160、自适应码本搜索模块165和固定码本搜索模块170可以起执行码激励的线性预测(CELP)模式的CELP模式执行模块的作用。

变换模块145可以基于变换功能，诸如离散傅里叶变换(DFT)或者快速傅里叶变换(FFT)，将输入线性预测残留信号变换到频率域。变换模块145可以将变换系数信息发送给量化模块150。

量化模块150可以量化由变换模块145产生的变换系数。量化模块150可以使用各种方法执行量化。量化模块150可以取决于频带有选择地执行量化，并且可以使用综合分析(AbS)方法计算最佳频率组合。

反变换模块155可以基于量化的信息执行反变换以在时间域中产生线性预测残留信号的重建的激励信号。

量化，然后反变换的线性预测残留信号，即，重建的激励信号，经由线性预测被重建为语音信号。重建的语音信号被发送给模式选择模块185。以这种方法，以TCX模式重建的语音信号可以与以稍后描述的CELP模式量化和重建的语音信号相比较。

另一方面，在CELP模式中，基音检测模块160可以使用开环方法，诸如自相关方法，计算线性预测残留信号的基音。例如，基音检测模块160可以将合成语音信号与实际的语音信号比较，并且可以计算基音周期和峰值。此时可以使用AbS方法等等。

自适应码本搜索模块165基于由基音检测模块计算的基音信息提取自适应码本索引和增益。自适应码本搜索模块165可以使用AbS方法等等基于自适应码本索引和增益从线性预测残留信号计算基音结构。自适应码本搜索模块165将自适应码本的贡献，例如，从中去除有关基音结构的信息的线性预测残留信号，发送给固定码本搜索模块170。

固定码本搜索模块170可以基于从自适应码本搜索模块165接收的线性预测残留信号提取和编码固定码本索引和增益。此时，用于由固定码本搜索模块170提取固定码本索引和增益的线性预测残留信号可以是从中去除有关基音结构的信息的线性预测残留信号。

量化模块175量化参数，诸如从基音检测模块160输出的基音信息、从自适应码本搜索模块165输出的自适应码本索引和增益，和从固定码本搜索模块170输出的固定码本索引和增益。

反变换模块180可以使用由量化模块175量化的信息产生作为重建的线性预测残留信号的激励信号。语音信号可以基于激励信号经由线性预测的相反处理来重建。

反变换模块180将以CELP模式重建的语音信号发送给模式选择模块185。

模式选择模块185可以比较以TCX模式重建的TCX激励信号和以CELP模式重建的CELP激励信号，并且可以选择更加类似于原始线性预测残留信号的信号。模式选择模块185也可以编码有关选择的激励信号以哪个模式重建的信息。模式选择模块185可以将有关重建的语音信号和激励信号的选择的选择信息发送给带预测模块190。

带预测模块190可以使用从模式选择模块185发送的选择信息和重建的激励信号产生上带的预测激励信号。

补偿增益预测模块195可以比较从带预测模块190发送的上带预测激励信号和从线性预测量化模块120发送的上带预测残留信号，并且可以补偿在频谱中的增益。

另一方面，在图1图示的示例中的组成的模块可以作为单独的模块来操作，或者多个组成的模块可以作为单个模块来操作。例如，量化模块120、140、150和175可以作为单个模块执行操作，或者量化模块120、140、150和175可以作为单独的模块被布置在处理中必需的位置上。

图2是示意地图示编码器配置的另一个示例的示意图。图2图示一个示例，其中经历ACELP编码技术的激励信号被使用修改的离散余弦变换(MDCT)方法变换到频率轴，并且被使用带选择性形状增益编译(BS-SGC)方法，或者阶乘脉冲编译(FPC)方法量化。

参考图2，带宽检查模块205可以确定输入信号(语音信号)是否是窄带(NB)信号、宽带(WB)信号，或者超宽带(SWB)信号。NB信号具有8kHz的采样速率，WB信号具有16kHz的采样速率，并且SWB信号具有32kHz的采样速率。

带宽检查模块205可以将输入信号变换到频率域，并且可以确定在频谱中的上带二进制序列的分量和的存在。

当输入信号是固定的时候，例如，当输入信号被固定为NB信号的时候，编码器300可以不必包括带宽检查模块205。

带宽检查模块205确定输入信号的类型，将NB信号或者WB信号输出给采样变化模块210，并且将SWB信号输出给采样变化模块210或者MDCT模块215。

采样变化模块210执行将输入信号转换为WB信号以输入给核心编码器220的采样过程。例如，当输入信号是NB信号的时候，采样变化模块210上采样输入信号为12.8kHz的采样速率，并且当输入信号是WB信号的时候，下采样输入信号为12.8kHz的采样速率，从而产生12.8kHz的下带信号。当输入信号是SWB信号的时候，采样变化模块210下采样输入信号为12.8kHz的采样速率以产生核心编码器220的输入信号。

预处理模块225可以滤波在输入给核心编码器220的下带信号之中的低频分量，并且可以仅仅将期望的带的信号发送给线性预测分析模块。

线性预测分析模块230可以从由预处理模块225处理的信号中提取线性预测系数(LPC)。例如，线性预测分析模块230可以从输入信号中提取十六阶线性预测系数，并且可以将提取的十六阶线性预测系数发送给量化模块235。

量化模块235量化从线性预测分析模块230发送的线性预测系数。通过将使用原始下带信号的滤波应用于在下带中量化的线性预测系数产生线性预测残留信号。

由量化模块235产生的线性预测残留信号被输入给CELP模式执行模块240。

CELP模式执行模块240使用自相关函数检测输入线性预测残留信号的基音。此时，可以使用诸如一阶开环基音搜索方法、一阶闭环基音搜索方法，和AbS方法的方法。

CELP模式执行模块240可以基于检测的基音的信息提取自适应码本索引和增益。CELP模式执行模块240可以基于除自适应码本的贡献以外的线性预测残留信号的其它分量来提取固定码本索引和增益。

CELP模式执行模块240将经由基音搜索、自适应码本搜索和固定码本搜索提取的线性预测残留信号的参数(诸如，基音、自适应码本索引和增益，和固定码本索引和增益)发送给量化模块245。

量化模块245量化从CELP模式执行模块240发送的参数。

由量化模块245量化的线性预测残留信号的参数可以作为比特流输出，并且可以发送给解码器。由量化模块245量化的线性预测残留信号的参数可以发送给去量化模块250。

去量化模块250使用以CELP模式提取和量化的参数产生重建的激励信号。产生的激励信号被发送给合成和后处理模块255。

合成和后处理模块255合成构成的激励信号和量化的线性预测系数，以产生12.8kHz的合成信号，并且经由上采样重建16kHz的WB信号。

在从合成和后处理模块255输出的信号(12.8kHz)和由采样变化模块210以12.8kHz的采样速率采样的下带信号之间的差信号被输入给MDCT模块260。

MDCT模块260使用MDCT方法变换在从采样变化模块210输出的信号和从合成和后处理模块255输出的信号之间的差信号。

量化模块265可以使用SGC或者FPC量化经历MDCT的信号，并且可以输出对应于窄带或者宽带的比特流。

去量化模块270去量化该量化的信号，并且将下带增强层MDCT系数发送给重要MDCT系数提取模块280。

重要MDCT系数提取模块280使用从MDCT模块275和去量化模块270输入的MDCT系数提取要量化的变换系数。

量化模块285量化提取的MODCT系数并将其输出为对应于超宽带信号的比特流。

图3是示意地图示对应于在图1中图示的语音编码器的语音解码器的示例的示意图。

参考图3，语音解码器300包括去量化模块305和310、带预测模块320、增益补偿模块325、反变换模块315、线性预测合成模块330和335、采样变化模块340、带合成模块350，和后处理滤波模块345和355。

去量化模块305和310从语音编码器接收量化的参数信息，并且去量化接收的信息。

反变换模块315可以反变换TCX编码或者CELP编码的语音信息，并且可以重建激励信号。去量化模块315可以基于从语音编码器接收的参数产生重建的激励信号。此时，去量化模块315可以仅仅对由语音编码器选择的某些带执行反变换。反变换模块315可以将重建的激励信号发送给线性预测合成模块335和带预测模块320。

线性预测合成模块335可以使用从反变换模块315发送的激励信号和从语音编码器发送的线性预测系数重建下带信号。线性预测合成模块335可以将重建的下带信号发送给采样变化模块340和带合成模块350。

带预测模块320可以基于从反变换模块315接收的重建的激励信号产生上带预测的激励信号。

增益补偿模块325可以基于从带预测模块320接收的上带预测的激励信号值和从语音编码器发送的补偿增益值，补偿在超宽带语音信号的频谱中的增益。

线性预测合成模块330可以从增益补偿模块325接收补偿的上带预测激励信号，并且可以基于补偿的上带预测激励信号值和从语音编码器接收的线性预测系数值重建上带信号。

带合成模块350可以从线性预测合成模块335接收重建的下带信号，可以从线性预测合成模块355接收重建的上带信号，并且可以对接收的上带信号和接收的下带信号执行带合成。

采样变化模块340可以将内部采样频率值变换为原始采样频率值。

后处理模块345和355可以执行为重建信号所必需的后处理操作。例如，后处理模块345和355可以包括去加重滤波器，其可以反向滤波在预处理模块中的预加重滤波器。后处理模块345和355可以执行各种各后处理操作，诸如将量化误差减到最小的操作，和恢复频谱的谐振峰并抑制其波谷的操作以及滤波操作。后处理模块345可以输出重建的窄带或者宽带信号，并且后处理模块355可以输出重建的超宽带信号。

图4是示意地图示对应于在图3中图示的语音编码器的语音解码器配置的示例的示意图。

参考图4，包括从语音编码器发送的NB信号或者WB信号的比特流被输入给反变换模块420和线性预测合成模块430。

反变换模块420可以反变换CELP编码的语音信息，并且可以基于从语音编码器接收的参数重建激励信号。反变换模块420可以将重建的激励信号发送给线性预测合成模块430。

线性预测合成模块430可以使用从反变换模块420发送的激励信号和从语音编码器发送的线性预测系数重建下带信号(诸如，NB信号或者WB信号)。

由线性预测合成模块430重建的下带信号(12.8kHz)可以下采样为NB或者上采样为WB。WB信号被输出给后处理/采样变化模块450，或者输出给MDCT模块440。重建的下带信号(12.8kHz)被输出给MDCT模块440。

后处理/采样变化模块450可以滤波重建的信号。后处理操作，诸如降低量化误差、加重峰，和抑制波谷可以使用滤波来执行。

MDCT模块440变换重建的下带信号(12.8kHz)，并且以MDCT方式上采样WB信号(16kHz)，并且将结果信号发送给上MDCT系数产生模块470。

反变换模块495接收NB/WB增强层比特流，并且重建增强层的MDCT系数。由反变换模块495重建的MDCT系数被添加到MDCT模块440的输出信号，并且结果信号被输入给上MDCT系数产生模块470。

去量化模块460通过使用比特流从语音编码器接收量化的SWB信号和参数，并且去量化接收的信息。

去量化的SWB信号和参数被发送给上MDCT系数产生模块470。

上MDCT系数产生模块470从核心解码器410接收合成的12.8kHz信号或者WB信号的MDCT系数，从SWB信号的比特流接收必需的参数，并且产生去量化的SWB信号的MDCT系数。上MDCT系数产生模块470可以取决于信号的音调应用通用模式或者正弦模式，并且可以将额外的正弦模式应用于扩展层的信号。

反MDCT模块480经由产生的MDCT系数的反变换重建信号。

后处理滤波模块490可以对重建的信号执行滤波操作。后处理操作，诸如降低量化误差、加重峰，和抑制波谷可以使用滤波来执行。

由后处理滤波模块490重建的信号和由后处理/采样变化模块450重建的信号可以被合成以重建SWB信号。

另一方面，变换编码/解码技术对于稳定信号具有高的压缩效率。因此，当在比特率方面存在余量的时候，能够提供高质量语音信号和高质量音频信号。

但是，在经由变换使用频率域的编码方法(变换编码)中，与在时间域中执行的编码不同，预回波噪声可能发生。

预回波指的是由于为了在原始信号中的无声区域中编码而进行的变换所产生噪声。因为在变换编码中为了变换到频率域以具有恒定大小的帧为单位执行编码，所以产生预回波。

图5是示意地图示预回波示例的示意图。

图5(a)图示原始信号，并且图5(b)图示通过解码使用变换编码方法编码的信号获得的重建的信号。

如在附图中图示的，可以看到，没有出现在图5(a)图示的原始信号中的信号，即，噪声500，出现在图5(b)图示的变换编码的信号中。

图6是示意地图示预回波的另一个示例的示意图。

图6(a)图示原始信号，并且图6(b)图示通过解码使用变换编码方法编码的信号获得的重建的信号。

参考图6，在图6(a)中图示的原始信号在帧的前一半中没有对应于语音的信号，并且信号集中在帧的后一半。

当在图6(a)图示的信号在频率域中被量化的时候，量化噪声对于每个频率分量沿着频率轴存在，但是沿着时间轴在整个帧上存在。

当原始信号在时间域中沿着时间轴存在的时候，量化噪声可以被原始信号隐藏，并且可能听不到。但是，当如在图6(a)图示的帧的前一半中那样不存在原始信号的时候，噪声，即，预回波失真600，没有隐藏。

也就是说，在频率域中，由于量化噪声沿着频率轴对于每个分量存在，所以量化噪声可以由对应的分量隐藏。但是，在时间域中，由于量化噪声在整个帧上存在，所以噪声可以沿着时间轴在无声分段中暴露。

因为由于变换导致的量化噪声，即，预回波(量化)噪声，可能导致声音质量劣化，必须执行用于将量化噪声减到最小的过程。

在变换编码中，被称为预回波的伪迹在信号能量迅速提高的分段中产生。在信号能量中的快速提高通常在语音信号的开始或者音乐的打击中出现。

当沿着频率轴的量化误差被反变换，然后经历重叠添加过程的时候，预回波沿着时间轴出现。在反变换的时候，量化噪声在整个合成窗上均匀地扩展。

在开始的情况下，在分析帧开始的部分中的能量比在分析帧结束的部分中的能量小得多。由于量化噪声取决于帧的平均能量，所以量化噪声沿着时间轴在整个合成窗上出现。

在具有小的能量的部分中，信噪比是非常小的，并且因此，当量化噪声存在的时候，该量化噪声是人的耳朵听得到的。为了防止这个问题，通过降低在合成窗中在能量迅速提高的部分中的信号，能够降低量化噪声，即，预回波的影响。

此时，在能量迅速变化的帧中具有小的能量的区域，即，预回波可能出现的区域称为回波区。

为了防止预回波，可以使用块切换方法或者时间噪声整形(TNS)方法。在块切换方法中，通过可变地调整帧长度防止预回波。在TNS方法中，基于线性预测编译(LPC)分析的时间-频率对偶性防止预回波。

图7是示意地图示块切换方法的示意图。

在块切换方法中，帧长度被可变地调整。例如，如在图7中图示的，窗包括长窗和短窗。

在不出现预回波的分段中，应用长窗来提高帧长度，然后在其上执行编码。在出现预回波的分段中，应用短窗来减小帧长度，然后在其上执行编码。

因此，甚至当预回波出现时，在对应区域中使用具有短的长度的短窗，并且因此，与使用长窗的情形比较，其中出现由于预回波导致的噪声的分段减小。

当使用块切换方法和使用短窗的时候，其中出现预回波的分段可以减小，但是难以完全去除由于预回波导致的噪声。这是因为预回波可能出现在短窗中。

为了去除可能出现在窗中的预回波，可以使用TNS方法。TNS方法以LPC分析的时间轴/频率轴对偶性为基础。

通常，当LPC分析应用于时间轴的时候，LPC指的是在频率轴中的包络信息，并且激励信号指的是在频率轴中采样的频率分量。当LPC分析应用于频率轴的时候，由于时间-频率对偶性，LPC指的是在时间轴中的包络信息，并且激励信号指的是在时间轴中采样的时间分量。

因此，由于量化误差而出现在激励信号中的噪声最终与在时间轴中的包络信息成比例地重建。例如，在包络信息接近于0的无声分段中，最终产生的噪声接近于0。在语音和音频信号存在的声音分段中，产生相对大的噪声，但是，相对大的噪声可以由信号隐藏。

因此，由于噪声在无声分段中消失，并且噪声在声音分段(语音和音频分段)中隐藏，所以能够提供心理声学上改善的声音质量。

在双向通信中，包括信道延迟和编解码器延迟的总延迟将不大于预先确定的阈值，例如，200ms。但是，在块切换方法中，由于帧是可变的，并且在双向通信中总延迟大于200ms，所以块切换方法不适用于双向通信。

因此，基于TNS的概念使用在时间域中的包络信息降低预回波的方法用于双向通信。

例如，可以考虑通过调整变换解码的信号的电平降低预回波的方法。在这种情况下，在基于预回波的噪声出现的帧中的变换解码的信号的电平被调整为相对小，并且在基于预回波的噪声没有出现的帧中的变换解码的信号的电平被调整为相对大。

如上所述，在变换编码中被称为预回波的伪迹出现在信号能量迅速提高的分段中。因此，通过降低在合成窗中能量迅速提高的部分中的前面信号，能够降低基于预回波的噪声。

确定波区来降低基于预回波的噪声。为了这个目的，使用在反变换时互相重叠的两个信号。

20ms(＝640个采样)的是在先前帧中存储的窗的一半，其可以用作重叠信号的第一信号。M(n)是当前窗的前一半，其可以用作重叠信号的第二信号。

两个信号被如由表达式1表示的级联，以产生1280个采样(＝40ms)的任意信号d^conc _{32_SWB}(n)。

<表达式1>

d_{32_SWB}^{conc} (n) = {\hat{S}}_{32_SWB} (n)

d_{32_SWB}^{conc} (n + 640) = m (n)

由于640个采样存在于每个信号分段中，n＝0、…、639。

产生的d^conc _{32_SWB}(n)被划分成具有40个采样的32个子帧，并且使用用于每个子帧的能量计算时间轴包络E(i)。具有最大能量的子帧可以从E(i)中找到。

使用最大能量值和时间轴包络执行如由表达式2表示的标准化过程。

<表达式2>

r_{E} (i) = \frac{{Max}_{E}}{E (i)}, i = 0, . . ., {Maxidx}_{E} - 1

在这里，i表示子帧的索引，并且Maxind_E表示具有最大能量的子帧的索引。

当r_E(i)的值等于或者大于预先确定的参考值的时候，例如，当r_E(i)>8的时候，对应分段被确定为是回波区，并且衰减函数g_pre(n)应用于该回波区。当衰减函数应用于时域信号的时候，当r_E(i)>16的时候，g_pre(n)被设置为0.2，并且当r_E(i)<8的时候，g_pre(n)被设置为1，并且否则，g_pre(n)被设置为0.5，由此产生最终合成的信号。此时，第一无限冲激响应(IIR)滤波器可用于平滑先前帧的衰减函数和当前帧衰减函数。

为了降低预回波，可以取决于信号特征使用多帧而不是固定帧为单位以执行编码。例如，可以取决于信号特征使用20ms的帧、40ms的帧和80ms的帧。

另一方面，可以考虑应用各种帧大小的方法来解决在变换编码中的预回波的问题，同时取决于信号特征有选择地应用CELP编码和变换编码。

例如，具有20ms的小尺寸的帧可以用作基本帧，并且具有40ms或者80ms的大尺寸的帧可以用于稳定信号。当假设内部采样速率是12.8kHz的时候，20ms是对应于256个采样的大小。

图8是示意地图示当基本帧被设置为20ms，并且取决于信号特征使用具有40ms和80ms较大的大小的帧的时候，窗类型示例的示意图。

图8(a)图示用于20ms基本帧的窗，图8(b)图示用于40ms帧的窗，和图8(c)图示用于80ms帧的窗。

当使用基于变换的TCX和CELP的重叠添加重建最终信号的时候，使用三个类型的窗长度，但是，用于每个长度的四个窗形状可以用于对先前帧的重叠添加。因此，可以取决于信号特征使用总共12个窗。

但是，在预回波可能出现的区域中调整信号电平的方法中，信号电平基于从比特流重建的信号被调整。也就是说，回波区被确定，并且使用由语音解码器重建的信号以由语音编码器分配的比特减小信号。

此时，在语音编码器中分配用于每个帧的固定数目的比特。这个方法是用于以类似于后处理滤波的概念控制预回波的方法。换句话说，例如，在当前帧大小被固定为20ms的时候，分配给20ms帧的比特取决于总的比特率，并且被作为固定值发送。控制预回波的过程由语音解码器基于从语音编码器发送的信息执行。

在这种情况下，预回波的心理学声音的隐藏是有限的，并且这个限制在能量更加迅速变化的攻击信号中是显著的。

在帧大小基于块切换可变地使用的方法中，由于要处理的窗大小取决于信号特征由语音编码器选择，所以预回波可以被有效地降低，但是，难以使用这个方法作为应当具有最小固定站点的双向通信编解码器。例如，当采用其中其中20ms应当作为分组发送并且设置具有80ms大的大小的帧的双向通信的时候，对应于四倍基本分组的比特被分配，并且因此，导致基于此的延迟。

因此，在本发明中，为了有效地控制基于预回波的噪声，可变地分配比特给帧中的比特分配分段的方法用作可以由语音编码器执行的方法。

例如，比特分配可以考虑到预回波可能出现的区域，而不是将固定的比特率应用于现有的帧或者帧的子帧来执行。根据本发明，具有提高的比特率的更多的比特被分配给预回波出现的区域。

由于更多的比特被分配给预回波出现的区域，能够更加充分地执行编码，并且基于预回波降低噪声电平。

例如，当M个子帧被设置用于每个帧，并且比特被分配给相应的子帧的时候，在相关技术中相同量的比特被以相同的比特率分配给M个子帧。相反地，在本发明中，用于其中存在预回波，即，其中存在回波区的子帧的比特率可以被调整为更高。

在本说明书中，为了区别作为信号处理单元的子帧与作为比特分配单元的子帧，作为比特分配单元的M个子帧称为比特分配分段。

为了解释便利的目的，用于每个帧的比特分配分段的数目被假设为2。

图9是示意地图示在预回波的位置和比特分配之间关系的示意图。

图9图示相同的比特率应用于比特分配分段的示例。

当设置两个比特分配分段的时候，语音信号被均匀分布在图9(a)的整个帧上，并且对应于总的比特一半的比特被分别分配给第一比特分配分段910和第二比特分配分段920。

在图9(b)中，预回波存在于第二比特分配分段940中。在图9(b)中，由于第一比特分配分段930是接近于无声分段的分段，所以可以对其分配较少的比特，但是，在相关技术中在其中使用对应于总比特数一半的比特。

在图9(c)中，预回波存在于第一比特分配分段950中。在图9(c)中，由于第二比特分配分段960对应于稳定信号，所以第二比特分配分段可以使用较少的比特来编码，但是，在其中使用对应于总比特数一半的比特。

以这种方法，当与其中存在回波区或者能量迅速增加的分段的位置无关地分配比特的时候，比特效率降低。

在本发明中，当用于每个帧的固定的总比特数分配给比特分配分段的时候，要分配给比特分配比特的比特取决于是否存在回波区而变化。

在本发明中，为了取决于语音信号的特征(例如，回波区的位置)可变地分配比特，使用语音信号的能量信息和其中可能出现基于预回波的噪声的瞬变分量的位置信息。在语音信号中的瞬变分量指的是其中存在具有快速能量变化的瞬变的区域中的分量，例如，在无发声转变为有发声的位置的语音信号分量，或者在有发声转变为无发声的位置的语音信号分量。

图10是示意地图示根据本发明的分配比特的方法的示意图。

如上所述，在本发明中比特分配可以基于语音信号的能量信息和瞬变分量的位置信息可变地执行。

参考图10(a)，由于语音信号位于第二比特分配分段1020中，所以在第一比特分配分段1010中的语音信号的能量小于在第二比特分配分段1020中的语音信号的能量。

当存在其中语音信号的能量小的比特分配分段(例如，无声分段或者包括无发声的分段)的时候，瞬变分量可能存在。在这种情况下，要分配给其中不存在瞬变分量的比特分配分段的比特可以被减少，并且节省的比特可以另外分配给其中存在瞬变分量的比特分配分段。例如，在图10(a)中，要分配给作为无发声分段的第一比特分配分段1010的比特被减到最少，并且节省的比特可以另外分配给第二比特分配分段1020，即，其中存在语音信号的瞬变分量的比特分配分段。

参考图10(b)，瞬变分量存在于第一比特分配分段1030中，并且稳定信号存在于第二比特分配分段1040中。

在这种情况下，在其中存在稳定信号的第二比特分配分段1040中的能量大于在第一比特分配分段1030中的能量。当在比特分配分段中能量不均匀的时候，瞬变分量可能存在，并且更多的比特可以分配给其中存在瞬变分量的比特分配分段。例如，在图10(b)中，要分配给作为稳定信号分段的第二比特分配分段1040的比特可以减少，并且节省的比特可以分配给其中存在语音信号的瞬变分量的第一比特分配分段1030。

图11是示意地图示根据本发明在语音编码器中可变地分配比特的方法的流程图。

参考图11，语音编码器确定在当前帧中是否检测到瞬变(S1110)。在当前帧被划分成M个比特分配分段的时候，语音编码器可以确定在分段中能量是否均匀，并且当能量不均匀的时候可以确定瞬变存在。语音编码器例如可以设置阈值偏移，并且当在分段之间的能量差大于阈值偏移的时候，可以确定瞬变存在于当前帧中。

为了解释便利的目的，当M被假设为2，并且第一比特分配分段的能量和第二比特分配分段的能量相互不同的时候(当在能量值之间存在等于或者大于预先确定的参考值的差的时候)，可以确定瞬变存在于当前帧中。

语音编码器可以取决于是否存在瞬变来选择编码方法。当存在瞬变的时候，语音编码器可以将当前帧划分为比特分配分段(S1120)。

当不存在瞬变的时候，语音编码器可以不将当前帧划分为比特分配分段，而是可以使用整个帧(S1130)。

当使用整个帧的时候，语音编码器将比特分配给整个帧(S1140)。语音编码器可以使用分配的比特来编码在整个帧中的语音信号。

为了解释便利的目的，描述了执行确定使用整个帧的步骤，然后当瞬变不存在的时候，执行分配比特的步骤，但是，本发明不局限于这种配置。例如，当存在瞬变的时候，无需执行确定使用整个帧的步骤，可以对整个帧执行比特分配。

当确定瞬变存在，并且当前帧被划分成多个比特分配分段的时候，语音编码器可以确定瞬变存在于哪个比特分配分段中(S1150)。语音编码器可以对其中存在瞬变的比特分配分段和其中不存在瞬变的比特分配分段不同地分配比特。

例如，在当前帧被划分成两个比特分配分段，并且瞬变存在于第一比特分配分段中的时候，与第二比特分配分段相比，可以给第一比特分配分段分配更多的比特(S1160)。例如，当分配给第一比特分配分段的比特的量是BA_1st，并且分配给第二比特分配分段的比特的量是BA_2nd的时候，BA_1st>BA_2nd建立。

例如，在当前帧被划分成两个比特分配分段，并且瞬变存在于第二比特分配分段中的时候，与第一比特分配分段相比，可以给第二比特分配分段分配更多的比特(S1170)。例如，当分配给第一比特分配分段的比特的量是BA_1st，并且分配给第二比特分配分段的比特的量是BA_2nd的时候，BA_1st<BA_2nd建立。

在当前帧被划分成两个比特分配分段，分配给当前帧的总的比特数目(比特的量)是Bit_budget，分配给第一比特分配分段的比特数目(比特的量)是BA_1st，并且分配给第二比特分配分段的比特数目(比特的量)是BA_2nd的时候，表达式3的关系建立。

<表达式3>

Bit_budget＝BA_1st+BA_2nd

此时，通过考虑瞬变存在于两个比特分配分段的哪个中，并且在两个比特分配分段中语音信号的能量水平是什么，分配给相应的比特分配分段的比特数目可以如由表达式4表示的确定。

<表达式4>

\frac{{Transient}_{1 st} \times {Energy}_{1 st}}{{Transient}_{1 st} \times {Energy}_{1 st} + {Transient}_{2 nd} \times {Energy}_{2 nd}} {Bit}_{budget}^{subframe} = {BA}_{1 st}

\frac{{Transient}_{2 nd} \times {Energy}_{2 nd}}{{Transient}_{1 st} \times {Energy}_{1 st} + {Transient}_{2 nd} \times {Energy}_{2 nd}} {Bit}_{budget}^{subframe} = {BA}_{2 nd}

在表达式4中，Energy_n-th表示在第n个比特分配分段中的语音信号的能量，并且Transient_n-th表示在第n个比特分配分段中的权重常数，并且取决于是否瞬变存在于对应的比特分配分段中而具有不同的值。

表达式5表示确定Transient_n-th值的方法的示例。

<表达式5>

如果瞬变存在于第一比特分配分段中，

Transient_1st＝1.0&Transient_2nd＝0.5

否则，(也就是说，如果瞬变存在于第二比特分配分段中)，

Transient_1st＝0.5&Transient_2nd＝1.0

表达式5表示基于瞬变位置的权重常数Transient被设置为1或者0.5的示例，但是，本发明不局限于这个示例。权重常数Transient可以通过实验等等被设置为不同的值。

另一方面，如上所述，取决于瞬变的位置，也就是说，回波区的位置，可变地分配比特数的方法可以应用于双向通信。

当假设用于双向通信的帧的大小是A ms，并且语音编码器的传输比特率是B kbps的时候，用于变换语音编码器的分析和合成窗的大小是2A ms，并且在语音编码器中用于帧的传输比特率是B×A比特。例如，当帧的大小是20ms的时候，合成窗是40ms，并且用于帧的传输速率是B/50kbits。

当根据本发明的语音编码器用于双向通信的时候，窄带(NB)/宽带(WB)核心应用于下带，并且可以应用所谓的扩展结构的形式，其中编码信息用于供超宽带的上编解码器。

图12是示意地图示具有本发明应用于的扩展结构形式的语音编码器配置示例的示意图。

参考图12，具有扩展结构的语音编码器包括窄带编码模块1215、宽带编码模块1235和超宽带编码模块1260。

窄带信号、宽带信号或者超宽带信号被输入给采样变化模块1205。采样变化模块1205将输入信号改变为内部采样速率12.8kHz，并且输出改变的输入信号。采样变化模块1205的输出通过交换模块被发送给对应于输出信号的带的编码模块。

当输入窄带信号或者宽带信号的时候，采样变化模块1210上采样输入信号为超宽带信号，然后，产生25.6kHz的信号，并且输出上采样的超宽带信号和产生的25.6kHz的信号。当输入超宽带信号的时候，输入信号被下采样为25.6kHz，然后被与超宽带信号一起输出。

下带编码模块1215编码窄带信号，并且包括线性预测模块1220和CELP模块1225。在线性预测模块1220执行线性预测之后，残留信号由CELP模块1225基于CELP编码。

下带编码模块1215的线性预测模块1220和CELP模块1225分别对应于在图1和3中用于基于线性预测编码下带的配置，和用于基于CELP编码下带的配置。

兼容核心模块1230对应于在图1中的核心配置。由兼容核心模块1230重建的信号可以用于在处理超宽带信号的编码模块中编码。参考该图，兼容核心模块1230可以通过兼容的编码处理下带信号，诸如AMR-WB，并且可以使得超宽带编码模块1260去处理上带信号。

宽带编码模块1235编码宽带信号，并且包括线性预测模块1240、CELP模块1250和扩展的层模块1255。线性预测模块1240和CELP模块1250分别对应于在图1和3中用于基于线性预测编码宽带信号的配置，和用于基于CELP编码下带信号的配置。当通过处理附加层提高比特率的时候，扩展层模块1255可以将输入信号编码为更高的声音质量。

宽带编码模块1235的输出可以被反重建，并且可以用于在超宽带编码模块1260中编码。

超宽带编码模块1260编码超宽带信号、变换输入信号，并处理变换系数。

超宽带信号由如在图中图示的通用模式模块1275和正弦模式模块1280编码，并且用于处理信号的模块可以由核心交换模块1265在通用模式模块1275和正弦模式模块1280之间切换。

预回波降低模块1270使用根据本发明以上提及的方法降低预回波。例如，预回波降低模块1270使用输入时域信号和输入变换系数确定回波区，并且可以在其基础上可变地分配比特。

扩展的层模块1285除了基础层之外还处理附加扩展的层(例如，层7或者层8)的信号。

在本发明中，描述了在超宽带编码模块1260中执行在通用模式模块1275和正弦模式模块1280之间核心切换之后，预回波降低模块1270起作用，但是，本发明不局限于这种配置。在预回波降低模块1270执行预回波降低操作之后，可以执行在通用模式模块1275和正弦模式模块1280之间的核心切换。

在图12中图示的预回波降低模块1270可以基于在比特分配分段中的能量不均匀确定在语音信号帧中瞬变存在于哪个比特分配分段中，然后可以将不同的比特数目分配给比特分配分段，如参考图11描述的。

预回波降低模块可以采用基于在帧中子帧的能量水平以子帧为单位确定回波区位置并降低预回波的方法。

图13是示意地图示当在图12中图示的预回波降低模块基于子帧能量确定回波区并降低预回波的时候的配置的示意图。参考图13，预回波降低模块1270包括回波区确定模块1310和比特分配调整模块1360。

回波区确定模块1310包括目标信号产生和帧划分模块1320、能量计算模块1330、包络峰计算模块1340和回波区确定模块1350。

当要由超宽带编码模块处理的帧的大小是2L ms，并且设置M个比特分配分段的时候，每个比特分配分段的大小是2L/M ms。当帧的传输比特率是B kbps的时候，分配给帧的比特量是B×2L比特。例如，当设置L＝10的时候，分配给帧的总的比特量是B/50kbits。

在变换编译中，当前帧被级联到先前帧，并且结果被使用分析窗加窗，并且然后被变换。例如，假设帧的大小是20ms，也就是说，要处理的信号被以20ms为单位输入。然后，当总的帧被一次处理的时候，20ms的当前帧和20ms的先前帧被级联以构成用于MDCT的单个信号单元，并且信号单元被使用分析窗加窗，以及然后被变换。也就是说，分析目标信号被使用用于变换当前帧的先前的帧构成，并且被变换。当假设设置两(＝M)个比特分配分段的时候，先前帧和当前帧的一部分重叠，并且被变换两(＝M)次，以便变换当前帧。也就是说，先前帧的后一半10ms和当前帧的前一半10ms被使用分析窗(例如，对称窗，诸如正弦窗和汉明窗)加窗，并且当前帧的前一半10ms和当前帧的后一半10ms被使用分析窗加窗。

在语音编码器中，当前帧和后续帧可以被级联，并且可以在以分析窗加窗之后变换。

另一方面，目标信号产生和帧划分模块1320基于输入语音信号产生目标信号，并将帧划分为子帧。

输入给超宽带编码模块的信号包括①原始信号的超宽带信号，②经由窄带编码或者宽带编码再次解码的信号，和③在原始信号的宽带信号和解码的信号之间的差信号。

在时间域中输入信号(①、②和③)可以以帧为单位(例如，以20ms为单位)输入，并且被变换以产生变换系数。产生的变换系数由信号处理模块，诸如在超宽带编码模块中的预回波降低模块，来处理。

此时，目标信号产生和帧划分模块1320基于具有超宽带分量的信号①和②产生用于确定是否存在回波区的目标信号。

目标信号d^conc _{32_SWB}(n)可以如由表达式6表示的确定。

<表达式6>

d^conc _{32_SWB}(n)＝信号①–缩放的信号②

在表达式6中，n表示采样位置。信号②的缩放是将信号②的采样速率改变为超宽带信号的采样速率的上采样。

目标信号产生和帧划分模块1320将语音信号帧划分为预先确定数目(例如，N，这里N是整数)的子帧以便确定回波区。子帧可以是采样和/或语音信号处理的处理单元。例如，子帧可以是用于计算语音信号包络的处理单元。当不考虑计算负荷的时候，帧被划分成的子帧越多，可以获得越精确的值。当对于每个子帧处理一个采样，并且超宽带信号的帧长度是20ms的时候，N等于640。

此外，子帧也可以用作用于确定回波区的能量计算单元。例如，在表达式6中的目标信号d^conc _{32_SWB}(n)可用于以子帧为单位计算语音信号能量。

能量计算模块1330使用目标信号计算每个子帧的语音信号能量。为了解释便利的目的，每个帧的子帧N的数目被设置为16。

每个子帧的能量可以使用目标信号d^conc _{32_SWB}(n)由表达式7计算。

<表达式7>

E (i) = Σ_{n = 40 i}^{40 (i + 1) - 1} {[d_{32_SWB}^{conc} (n)]}^{2}, i = 0, . . ., 15

在表达式7中，i表示指示子帧的索引，并且n表示采样号(采样位置)、E(i)对应于在时间域(时间轴)中的包络。

包络峰计算模块1340使用E(i)由表达式8确定在时间域(时间轴)中的包络的峰Max_E。

<表达式8>

{Max}_{E} = \max_{i = 0, . . ., 15} E (i)

换句话说，包络峰计算模块1340查找在帧中的N个子帧之中能量最大的子帧。

回波区确定模块1350标准化在帧中的N个子帧的能量值、将标准化的能量值与参考值比较，并且确定回波区。

可以由表达式9使用由包络峰计算模块1340确定的包络峰，即，在子帧的能量值之中最大的能量值，标准化子帧的能量值。

<表达式9>

Normal_E (i) = \frac{E (i)}{{Max}_{E}}

在这里，Normal_E(i)表示第i个子帧的标准化的能量。

回波区确定模块1350通过将子帧的标准化的能量值与预先确定的参考值(阈值)比较来确定回波区。

例如，回波区确定模块1350将在帧中从第一子帧到最后子帧的子帧的标准化的能量值与预先确定的参考值比较。当第一子帧的标准化的能量值小于参考值的时候，回波区确定模块1350可以确定回波区存在于首先找到具有等于或者大于参考值的标准化的能量值的子帧中。当第一子帧的标准化的能量值大于参考值的时候，回波区确定模块1350可以确定回波区存在于首先找到具有等于或者小于参考值的标准化的能量值的子帧中。

回波区确定模块1350可以以从在帧中最后子帧到第一子帧的、与以上提及的方法中相反的顺序将子帧的标准化的能量值与预先确定的参考值比较。当最后子帧的标准化的能量值小于参考值的时候，回波区确定模块1350可以确定回波区存在于首先找到具有等于或者小于参考值的标准化的能量值的子帧中。当最后子帧的标准化的能量值大于参考值的时候，回波区确定模块1350可以确定回波区存在于首先找到具有等于或者小于参考值的标准化的能量值的子帧中。

在这里，参考值，即，阈值，可以通过实验确定。例如，当阈值是0.128，并且从第一子帧执行比较，以及第一子帧的标准化的能量值小于0.128的时候，在连续地搜索标准化的能量值时，可以确定回波区存在于首先找到具有大于0.128的标准化的能量值的子帧中。

当没有找到满足以上提及的条件的子帧的时候，也就是说，当没有找到标准化的能量值从等于或者小于参考值变化到等于或者大于参考值的子帧，或者标准化的能量值从等于或者大于参考值变化到等于或者小于参考值的子帧的时候，回波区确定模块1350可以确定在当前帧中不存在回波区。

当回波区确定模块1350确定回波区存在的时候，比特分配调整模块1360可以将比特量不同地分配给其中存在回波区的区域和其他区域。

当回波区确定模块1350确定回波区不存在的时候，比特分配调整模块1360的附加比特分配调整可以被旁路，或者可以执行比特分配调整，使得比特被均匀地分配给当前帧，如参考图11描述的。

例如，当确定回波区存在的时候，标准化的时域包络信息，即，Normal_E(i)可以被发送给比特分配调整模块1360。

比特分配调整模块1360基于标准化的时域包络信息分配比特给比特分配分段。例如，比特分配调整模块1360将分配给当前帧的总的比特不同地分配给其中存在回波区的比特分配分段和其中不存在回波区的比特分配分段。

比特分配部分的数目可以取决于用于当前帧的总的比特率被设置为M。当总的比特量(比特率)是足够的时候，比特分配分段和子帧可以被设置为是相同的(M＝N)。但是，由于M条比特分配信息应当发送给语音解码器，所以考虑到计算的信息量和发送的信息量，过大的M对于编码效率可能是不可取的。M等于2的示例以上参考图11描述。

为了解释便利的目的，设置M＝2和N＝32的示例将描述如下。假设在32个子帧之中的第20个子帧的标准化的能量值是1。然后，回波区存在于第二比特分配分段中。当分配给当前帧的总的比特率是C kbps的时候，比特分配调整模块1360可以分配C/3kbps的比特给第一比特分配分段，并且可以分配2C/3kbps的比特给第二比特分配分段。

因此，分配给当前帧的总的比特率被固定为C kbps，但是，更多的比特可以分配给其中存在回波区的第二比特分配分段。

描述两倍的比特被分配给其中存在回波区的比特分配分段，但是，本发明不局限于这种示例。例如，如由表达式4和5表示的，要分配的比特量可以考虑到取决于回波区的存在的权重值和比特分配分段的能量值来调整。

另一方面，当分配给在帧中的比特分配分段的比特量被改变的时候，有关比特分配的信息需要发送给语音解码器。为了解释便利的目的，当假设分配给比特分配分段的比特量是比特分配模式的时候，语音编码器/语音解码器可以构建其中定义比特分配模式的比特分配信息表，并且可以使用该表发送/接收比特分配信息。

语音编码器可以将表示将使用什么比特分配模式的、在比特分配信息表中的索引发送给语音解码器。音解码器可以取决于从语音编码器接收的索引所表示的、比特分配信息表中的比特分配模式对编码的语音信息解码。

表1示出用于发送比特分配信息的比特分配信息表的示例。

[表1]

表1示出比特分配分段的数目是2，并且分配给帧的固定的比特数目是C的示例。当表1用作比特分配信息表，并且0作为比特分配模式由语音编码器发送的时候，表示相同的比特量被分配给两个比特分配分段。当比特分配模式索引的值是0的时候，这指的是回波区不存在。

当比特分配模式索引的值是在1至3的范围内的时候，不同的比特量被分配给两个比特分配分段。在这种情况下，这指的是回波区存在于当前帧中。

表1仅仅示出回波区不存在的情形，或者回波区存在于第二比特分配分段中的情形，但是，本发明不局限于这些情形。例如，如表2所示，比特分配信息表可以考虑到回波区存在于第一比特分配分段中的情形和回波区存在于第二比特分配分段中的情形两者来被构建。

[表2]

表2还示出比特分配分段的数目是2，并且分配给帧的固定的比特数目是C的示例。参考表2，索引0和2表示在回波区存在于第二比特分配分段的情形下的比特分配模式，并且索引1和3表示在回波区存在于第一比特分配分段的情形下的比特分配模式。

当表2用作比特分配信息表，并且回波区不存在于当前帧中的时候，可以不发送比特分配模式索引的值。当不发送比特分配模式索引的时候，语音解码器可以确定整个当前帧用作单个比特分配单元，并且对其分配固定的比特数目C，然后可以执行解码。

当发送比特分配模式索引的值的时候，语音解码器可以基于由发送的索引值表示的、在表2的比特分配信息表中的比特分配模式对当前帧执行解码。

表1和2示出比特分配信息索引被使用两个比特发送的示例。当比特分配信息索引被使用两个比特发送的时候，有关四个模式的信息可以如表1和2所示发送。

如上所述，比特分配模式的信息被使用两个比特发送，但是，本发明不局限于这个示例。例如，比特分配可以使用大于四个的比特分配模式执行，并且有关比特分配模式的信息可以使用大于两个比特的传输比特发送。比特分配可以使用小于四个的比特分配模式执行，并且有关比特分配模式的信息可以使用小于两个比特的传输比特(例如，一比特)发送。

甚至当比特分配信息被使用比特分配信息表发送时，语音编码器可以如上所述确定回波区的位置、可以选择更多的比特被分配给其中存在回波区的比特分配分段的模式，并且可以发送表示选择的模式的索引。

图14是示意地图示根据本发明使得语音编码器可变地执行比特分配和编码语音信号的方法的流程图。

参考图14，语音编码器确定在当前帧中的回波区(S1410)。当执行变换编码的时候，语音编码器将当前帧划分为M个比特分配分段，并且确定是否回波区存在于相应的比特分配分段中。

语音编码器可以确定是否比特分配分段的语音信号能量值在预先确定的范围内是均匀的，并且当在比特分配分段之间存在脱离预先确定的范围的能量差的时候，可以确定回波区存在于当前帧中。在这种情况下，语音编码器可以确定回波区存在于其中存在瞬变分量的比特分配分段中。

语音编码器可以将当前帧划分为N个子帧、可以计算子帧的标准化的能量值，并且当标准化的能量值相对于阈值变化的时候，可以确定回波区存在于对应的子帧中。

当语音信号能量值在预先确定的范围内是均匀的，或者相对于阈值变化的标准化的能量值不存在的时候，语音编码器可以确定在当前帧中不存在回波区。

语音编码器可以考虑到回波区的存在分配编码比特给当前帧(S1420)。语音编码器将分配给当前帧的总的比特数目分配给比特分配分段。语音编码器可以通过分配更多的比特给其中存在回波区的比特分配分段来防止或者降低基于预回波的噪声。此时，分配给当前帧的总的比特数目可以是固定值。

当在步骤S1410中确定回波区不存在的时候，语音编码器可以不必不同地分配比特给从当前帧划分的比特分配分段，而是，可以以帧为单位使用总的比特数目。

语音编码器使用分配的比特执行编码(S1430)。当回波区存在的时候，语音编码器可以执行变换编码，同时使用不同地分配的比特防止或者降低基于预回波的噪声。

语音编码器可以将有关使用的比特分配模式的信息与编码的语音信息一起发送给语音解码器。

图15是示意地图示根据本发明当为了编码语音信号可变地执行比特分配的时候，解码编码的语音信号的方法的示意图。

语音解码器从语音编码器与编码的语音信息一起接收比特分配信息(S1510)。编码的语音信息和有关分配来编码语音信息位的信息可以通过使用比特流来发送。

比特分配信息可以表示是否比特被不同地分配给在当前帧中的分段。比特分配信息也可以表示当已经不同地分配比特的时候，以什么比率来分配比特。

比特分配信息可以是索引信息，并且接收的索引可以表示在应用于当前帧的比特分配信息表中的比特分配模式(比特分配比率或者分配给比特分配分段的比特量)。

语音解码器可以基于比特分配信息对当前帧执行解码(S1520)。当在当前帧中不同地分配比特的时候，语音解码器可以使用比特分配模式解码语音信息。

在以上提及的实施例中，为了容易理解本发明的目的参数值或者设置值在上面被示例，但是，本发明不局限于这些实施例。例如，以上描述的是子帧N的数目是24至32，但是，本发明不局限于这个示例。为了解释便利的目的，以上描述了比特分配分段的数目M是2，但是，本发明不局限于这个示例。为了确定回波区用于与标准化的能量水平比较的阈值可以被确定为由用户设置的任意值或者实验值。以上描述了以20ms的固定帧对于两个比特分配分段的每个执行变换操作，但是，这个示例意图是解释方便，并且本发明不受帧大小、取决于比特分配分段的变换操作的数目等等的限制，并且不限制本发明的技术特征。因此，在本发明中参数值或者设置值可以变化为各种值。

虽然在以上提及的示范的实施例中，方法已经基于包括一系列的步骤或者块的流程图描述，但是本发明不局限于步骤的顺序，而是，某个步骤可以以除如上所述之外的步骤或者顺序或者与如上所述同时地执行。以上提及的实施例可以包括各种示例。例如，以上提及的实施例可以组合，并且这些组合也包括在本发明中。本发明包括基于属于所附的权利要求书的本发明技术精神的各种变化和修改。

Claims

1.一种语音信号编码方法，该方法包括：

确定在当前帧中的回波区；

基于所述回波区的位置分配比特给所述当前帧；和

使用分配的比特编码所述当前帧，

其中，分配比特的步骤包括与其中不存在所述回波区的分段相比对所述当前帧中存在所述回波区的分段分配更多的比特。

2.根据权利要求1的方法，其中，分配比特的步骤包括将所述当前帧划分为预先确定数目的分段，并且与其中不存在所述回波区的分段相比对其中存在所述回波区的分段分配更多的比特。

3.根据权利要求1的方法，其中，确定回波区的步骤包括在所述当前帧被划分成分段时，如果在所述分段中的语音信号的能量水平不均匀，则确定在所述当前帧中存在所述回波区。

4.根据权利要求3的方法，其中，确定回波区的步骤包括当在所述分段中的语音信号的能量水平不均匀的时候，确定所述回波区存在于其中存在所述能量水平的瞬变的分段中。

5.根据权利要求1的方法，其中，确定回波区的步骤包括当在所述当前子帧中的标准化能量从在先前子帧中的标准化能量变化超过阈值的时候，确定在所述当前子帧中存在所述回波区。

6.根据权利要求5的方法，其中，所述标准化能量是通过基于在所述当前帧的子帧中的能量值之中最大的能量值的标准化来计算的。

7.根据权利要求1的方法，其中，确定回波区的步骤包括：

顺序地搜索所述当前帧的子帧，和

确定所述回波区存在于其标准化能量大于阈值的第一子帧中。

8.根据权利要求1的方法，其中，确定回波区的步骤包括：

顺序地搜索所述当前帧的子帧，和

确定所述回波区存在于其标准化能量小于阈值的第一子帧中。

9.根据权利要求1的方法，其中，分配比特的步骤包括：

将所述当前帧划分为预先确定数目的分段，和

基于在所述分段中的能量水平和取决于是否存在所述回波区的权重值，给所述分段分配比特。

10.根据权利要求1的方法，其中，分配比特的步骤包括：

将所述当前帧划分为预先确定数目的分段，和

使用在预先确定的比特分配模式之中与在所述当前帧中所述回波区的位置相对应的比特分配模式来分配比特。

11.根据权利要求1的方法，其中，表示使用的比特分配模式的信息被发送给解码器。

12.一种语音信号解码方法，该方法包括：

获得当前帧的比特分配信息；和

基于所述比特分配信息解码语音信号，

其中，所述比特分配信息是用于在所述当前帧中的每个分段的比特分配的信息。

13.根据权利要求12的方法，其中，所述比特分配信息表示在指定预先确定的比特分配模式的表中用于所述当前帧的比特分配模式。

14.根据权利要求12的方法，其中，所述比特分配信息表示比特被不同地分配给在所述当前帧中在分段之中其中存在瞬变分量的分段和其中不存在瞬变分量的分段。