CN1954365A

CN1954365A - 使用不同编码模型的音频编码

Info

Publication number: CN1954365A
Application number: CNA2004800430555A
Authority: CN
Inventors: 雅里·马基南; 阿里·拉卡尼米; 帕西·奥雅拉
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2004-05-17
Filing date: 2004-05-17
Publication date: 2007-04-25
Anticipated expiration: 2024-05-17
Also published as: WO2005112004A1; US20050261892A1; DE602004008676D1; AU2004319555A1; TWI281981B; JP2007538281A; ATE371926T1; ES2291877T3; EP1747555A1; BRPI0418839A; CA2566372A1; CN1954365B; MXPA06012578A; EP1747555B1; TW200604536A; US8069034B2; DE602004008676T2

Abstract

本发明涉及支持音频信号编码的方法，其中，至少第一和第二编码器模式可用于对音频信号的部分进行编码。所述第一编码器模式能够基于两种不同编码模型进行编码。通过基于取决于特定分析窗口的信号特征的选择规则来选择编码模型。为了避免在切换到所述第一编码器模式后对部分的错误分类，提出仅当接收到用于所述分析窗口的足够部分时才激活所述选择规则。本发明同样地涉及实现本方法的模块2、3，涉及包括所述模块2、3的系统和设备1，以及涉及包括用于实现所提出的方法的软件代码的软件程序产品。

Description

使用不同编码模型的音频编码

技术领域

本发明涉及一种用于支持音频信号编码的方法，其中，至少第一编码器模式和第二编码器模式可用于对所述音频信号的特定部分进行编码。至少第一编码器模式允许基于至少两个不同编码模型而对所述音频信号的特定部分进行编码。在所述第一编码器模式中，通过至少一个选择规则而允许选择用于对音频信号的特定部分进行编码的各个编码模型，其中该选择规则基于对分析窗口中信号特征的分析，所述分析窗口覆盖所述特定部分之前的至少一部分音频信号。本发明同样地涉及对应的模块、对应的电子设备、对应的系统以及对应的软件程序产品。

背景技术

众所周知，对音频信号进行编码以能够进行有效传输和/或音频信号存储。

音频信号可能是语音信号或者诸如音乐的其他类型的音频信号，并且不同的编码模型可能适合于不同类型的音频信号。

一种广泛使用的语音信号编码技术是代数编码激励线性预测(ACELP)编码。ACELP是人类语音产品系统的模型，并且其非常适合用于对语音信号的周期性进行编码。因此，能够以极低的比特率获得高语音质量。例如，自适应多速率宽带(ARM-WB)是基于所述ACELP技术的语音编解码器。例如在技术规范3GPP TS 26.190：＂Speech Codec speech processing functions；AMR Wideband speechcodec；Transcoding functions”V5.1.0(2001-12)中，已经描述了ARM-WB。然而，基于人类语音产品系统的语音编解码器通常对诸如音乐的其他类型音频信号表现很差。

广泛使用的对除语音之外的其他音频信号编码进行编码的技术是变换编码(TCX)。用于音频信号的变换编码的优越性在于其基于知觉掩蔽(perceptual masking)以及频域编码。还能通过为所述变换编码选择适当的编码帧长度而使结果音频信号的质量得到改善。但是，尽管变换编码技术针对除语音之外的音频信号得到较高质量，但其针对周期性语音信号的性能不好。因此，所变换编码的语音的质量通常较低，特别是具有较长TCX帧长度的语音。

扩展的AMR-WB(ARM-WB+)编解码器将立体声音频信号编码为高比特速率的单声道信号，并且为立体声扩展提供一些边信息(side information)。该ARM-WB+编解码器利用ACELP编码和TCX模型，在0Hz至6400Hz的频段内对核心单声道信号进行编码。而所述TCX模型利用了20毫秒、40毫秒或80毫秒的编码帧长度。

由于ACELP模型可能降低音频质量，并且变换编码通常对语音表现很差，尤其当使用较长的编码帧时表现很差，所以不得不根据待编码信号的特性来选择各个最优编码模型。能够以不同的方法实现对实际上使用的编码模型的选择。

在类似移动多媒体服务(MMS)的需要低复杂度技术的系统中，通常使用音乐/语音分类算法来选择最优的编码模型。这些算法基于对音频信号的频率特性和能量的分析，将整个源信号分类为音乐或语音。

如果音频信号仅包括语音或音乐，那么，根据该音乐/语音分类，对整个信号使用同一编码模型将是令人满意的。然而，在许多其他情况下，待编码的音频信号是混合型的音频信号。例如，在音频信号中，语音可以与音乐同时出现，或者语音与音乐在时间上交替出现。

在这些情况中，将整个源信号分类为音乐或语音种类是非常局限的方法。这样，仅能够通过在对该音频信号编码时切换所述编码模型来最大化总体音频质量。也就是说，所述ACELP模型还部分地用于对被分类为语音之外的音频信号的源信号进行编码，而所述TCX模型还部分地用于分类为语音信号的源信号。

扩展AMR-WB(ARM-WB+)编解码器的设计还用于在逐帧的基础上利用混合编码模型对这种混合型音频信号进行编码。

能够以几种方法实现ARM-WB+中编码模型的选择。

在最复杂的方法中，首先以ACELP和TCX模型的所有可能组合来对信号进行编码。然后针对每种组合再次对信号进行合成。接下来，基于该合成的语音信号的质量，选择最优的激励。从特定组合中获得的合成语音的质量可以通过比如确定其信噪比(SNR)来测量。这种合成-分析类型的方法将提供较好的结果。然而，在一些应用中，这是不实用的，因为这具有非常高的复杂度。这样的应用包括例如移动应用。复杂度主要来自于ACELP编码，其是编码器中最复杂的部分。

例如，在如MMS的系统中，全闭环合成-分析方法过于复杂，以至于不能实现。因此，在MMS编码器中采用低复杂度开环方法，用于确定是否选择ACELP编码模型或TCX模型用于对特定帧进行编码。

ARM-WB+提供了两种不同的低复杂度开环方法，用来为每个帧选择各自的编码模型。这两种开环方法评估源信号特征和编码参数，用于选择各个编码模型。

在第一开环方法中，首先，音频信号在每个帧内被分为几个频段，并且分析低频段内的能量与高频段内的能量之间的关系，以及这些频段内的能量水平变化。然后，基于所执行的两种测量，或者基于这些使用不同分析窗口和判决阈值的测量的不同组合，该音频信号中每帧的音频内容被分类为类音乐内容或类语音内容。

在第二开环方法中，即，在还称作模型分类精化的方法中，编码模型的选择基于对该音频信号各帧中的音频内容的平稳(stationary)特性以及周期性的评估。具体来说，通过确定相关性、长时预测(LTP)参数和谱距离测量来评估周期性和平稳特性。

此外，假设采样频率不变，ARM-WB+编解码器还允许在对音频流进行编码期间在ARM-WB模式和扩展模式之间进行切换，其中ARM-WB模式独有地使用ACELP编码模型，而扩展模式使用ACELP编码模型或TCX模型。该采样频率可以是例如16kHz。

所述扩展模式输出比ARM-WB模式的比特速率更高的比特速率。因此，当连接编码端和解码端的网络中的传输条件需要从较高比特速率模式切换为较低比特速率从而降低该网络中的拥塞时，从扩展模式切换到ARM-WB模式将是有益的。为了在移动广播/多播服务(MBMS)中加入新的低端接收机，也需要从较高比特速率模式到较低比特速率模式的改变。

另一方面，当所述网络中传输条件的变化允许从较低比特速率模式切换到较高比特速率模式时，从ARM-WB模式切换到扩展模式可能是有利的。使用较高比特速率模式能获得更好的音频质量。

由于所述核心编解码器针对所述ARM-WB模式和ARM-WB+扩展模式使用同样的采样速率6.4kHz，并且采用至少部分类似的编码技术，所以能够在该频段上平滑地处理从扩展模式到ARM-WB模式的变化，反之亦然。但是，由于ARM-WB模式和扩展模式的核心波段编码处理略微不同，因此在所述模式之间切换时，仍需要当心将所有需要的状态变量和缓冲区从一个算法到另一个算法复制并存储。

此外，必须考虑仅在所述扩展模式中需要编码模型选择。在激活的开环分类方法中，采用了相对较长的分析窗口和数据缓冲区。编码模型的选择采用了具有320ms长度的分析窗口的统计分析，该长度对应于16个长度为20ms的音频信号帧。由于在ARM-WB模式中不必缓存相应的信息，所以不能简单地复制到所述扩展模式算法中。在从ARM-WB切换到ARM-WB+之后，分类算法的数据缓冲区(例如那些用于统计分析的)因此不具有有效信息，或者所述数据缓冲区被复位。因此，在切换之后的前320ms期间，所述编码模型选择算法可能因此不完全适用于当前音频信号，或者没有针对当前音频信号更新。基于非有效缓冲区数据的选择导致了失真的编码模型决策。例如，在选择中ACELP编码模型的权重可能很大，即使该音频信号需要基于TCX模型的编码以便维持音频质量。

这样，由于在从ARM-WB模式切换到扩展模式之后，低复杂编码模型选择执行地较差，所以该编码模型选择不是最佳的。

发明内容

本发明的目的是第一编码模式切换到第二编码模式之后改善编码模型的选择。

提出了一种支持音频编码的方法，其中，至少第一编码器模式和第二编码器模式可用于对所述音频信号的特定部分进行编码。另外，至少第一编码器模式能够基于至少两种不同编码模型，对所述音频信号的特定部分进行编码。在所述第一编码器模式中，通过基于信号特征的至少一个选择规则，使得能够选择用来对音频信号的特定部分进行编码的各编码模型，所述信号特征至少部分地取决于分析窗口，所述分析窗口至少覆盖了所述特定部分之前的一部分音频信号。所提出的方法包括：从所述第二编码器模式切换到第一编码器模式之后，激活至少一个选择规则，作为对接收到与所述分析窗口覆盖的所述音频信号部分至少一样多的音频信号部分的响应。

所述第一编码器模式和第二编码器模式可能但不限于例如ARM-WB+编解码器的扩展模式和ARM-WB模式。因此所述第一编码器可用的编码模型可以是例如ACELP编码模型和TCX模型。

而且，提出了一种支持音频信号编码的模块。该模块包括：第一编码器模式部分，适用于在第一编码器模式中对音频信号的特定部分进行编码；以及第二编码器模式部分，适用于在第二编码器模式中对音频信号的各部分进行编码。该模块还包括切换装置，用于在所述第一编码器模式部分和第二编码器模式部分之间切换。所述编码器模式部分包括编码部分，适用于基于至少两种不同编码模型来对所述音频信号的各部分进行编码。所述第一编码模式部分还包括选择部分，适用于应用至少一个选择规则以选择各编码模型，该编码模型被所述编码部分用来对音频信号的特定部分进行编码。所述至少一个选择规则基于至少部分地取决于分析窗口的信号特征，其中该分析窗口至少覆盖所述特定部分之前的一部分音频信号。所述选择部分适用于由切换装置从第二编码器模式部分切换到第一编码器模式部分之后，激活至少一个选择规则，作为对接收到与所述分析窗口覆盖的所述音频信号部分至少一样多的音频信号部分的响应。

该模型可以是例如编码器或编码器的一部分。

而且，提出了包括这种模块的电子设备。

此外，提出了一种音频编码系统，该系统包括这种模块，以及用于对由这种模块所编码的音频信号进行解码的解码器。

最后，提出了一种软件程序产品，其中存储用于支持音频信号编码的软件代码。至少第一编码器模式和第二编码器模式可用于对所述音频信号的各部分进行编码。至少所述第一编码器模式能够基于至少两种不同编码模型，对音频信号的各部分进行编码。在所述第一编码器模式中，通过基于信号特征的至少一个选择规则，使得能够选择用来对音频信号的特定部分进行编码的各编码模型，所述信号特征取决于分析窗口，该分析窗口覆盖了所述特定部分之前的至少一部分音频信号的分析窗口。当运行在编码器的处理部件中时，该软件代码在从所述第二编码器模式切换到第一编码器模式之后激活至少一个选择规则，作为对接收到与所述分析窗口覆盖的所述音频信号部分至少一样多的音频信号部分的响应。

如果仅在该缓冲区内容被至少更新到各类型选择所需要的程度时激活所述选择，则本发明出自于能够避免编码模型选择所依据的无效缓冲区内容的问题的考虑。因此提出，当选择规则使用由音频信号多个部分上的分析窗口决定的信号特征时，该选择规则仅在接收到分析窗口所需要的所有部分时才适用。应当理解，所述激活可以是所述选择规则自身的一部分。

本发明的优势是其在所述编码器模式切换之后能够改善编码器模型的选择。尤其，其还能够防止音频信号部分的错误分类，从而防止选择不适当的编码模型。

在切换后一些选择规则尚未激活时，优选地，提供了附加的选择规则，其不使用音频信号的当前部分之前的部分的信息。在切换之后以及至少到其他选择规则被激活为止，能够立即应用该进一步的规则。

基于取决于分析窗口的信号特征的至少一个选择规则可以包括单个信号选择规则或多个选择规则。在后面的情况中，相关的分析窗口可以具有不同的长度。因此，可以逐个激活该多个选择规则。

具体来讲，音频信号的部分可以是音频信号帧，例如20ms的音频信号帧。

由至少一个选择规则所得到的信号特征可以完全地或者部分地基于分析窗口。可以理解，单个选择规则所使用的信号特征也可以基于不同的分析窗口。

附图说明

参考以下详细描述并结合附图，本发明的其他目标和特点将变得显而易见。

图1是根据本发明实施例的音频编码系统的示意图；以及

图2是示出了根据在图1系统中所实现的本发明的方法的实施例的流程图。

具体实施方式

图1是根据本发明的实施例的音频编码系统的示意图，其允许软激活选择最佳编码模型时所使用的选择算法。

所述系统包括：第一设备1，其包括AMR-WB+编码器2；以及第二设备21，其包括AMR-WB+解码器22。该第一设备1可以是例如MMS服务器，而第二设备21可以是例如移动电话或一些其他移动设备。

所述AMR-WB+编码器2包括：AMR-WB编码器部分4，其适用于执行纯ACELP编码；以及扩展编码部分5，其适用于执行基于ACELP编码模型或TCX模型的编码。因此所述扩展编码部分5构成了本发明的第一编码器模式部分，并且AMR-WB编码部分4构成了本发明的第二编码器模式部分。

所述AMR-WB+编码器2还包括切换器6，用来将音频信号帧转发到所述AMR-WB编码部分4或者所述扩展编码部分5。

所述扩展编码部分5包括信号特征确定部分11和计数器12。与所述扩展编码部分5相关的切换器6的端子连接到两个输入部分11、12。在所述扩展编码部分5内，将所述信号特征确定部分11的输出和所述计数器12的输出经由第一选择部分13、第二选择部分14、第三选择部分15、验证部分16、精化部分17和最终选择部分18连接到ACELP/TCX编码部分19。

应当理解：所述的部分11到19被设计用来对可由立体声音频信号产生的单声道音频信号进行编码。附加立体声信息可以在未示出的附加立体声扩展部分中产生。还应当注意，所述编码器2还包括未示出的部分。也应当理解：所介绍的部分12到19不必是分离部分，而是可以同等地相互交织或与其他部分交织。

具体地，所述AMR-WB编码部分4、扩展编码部分5和切换器6能够通过在所述编码器2的处理部分3中运行的软件SW来实现，如虚线所示。

现在参考图2的流程图，更详细地描述扩展编码部分5中的处理。

所述编码器2接收已提供给所述第一设备1的音频信号。首先，所述切换器6将所述音频信号提供给所述AMR-WB编码部分4，以获得低输出比特速率，例如因为连接该第一设备1和第二设备21的网络中没有足够的容量。接下来，然而，该网络中的条件改变并允许更高的比特速率。因此，现在由切换器6将该音频信号转发到扩展编码部分5。

在这种切换器的情况下，当接收到第一音频信号帧时，所述计数器12的StatClassCount值被复位为15。以后，每次向扩展编码部分5输入又一个音频信号帧，该计数器12将其StatClassCount值递减1。

此外，所述信号特征确定部分11借助于AMR-WB语音活动性检测器(VAD)滤波器组，为每个输入的音频信号帧确定与各个能量相关的信号特征。

对于每个输入的20ms音频信号帧，在覆盖从0Hz到6400Hz频率范围的十二个非均匀频段的每一个频段中产生信号能量E(n)。然后用每个频段n的能量水平E(n)除以单位为Hz的该频段宽度，以便为每个频段产生归一化的能量水平EN(n)。

接着，一方面使用短窗口std_short(n)，另一方面使用长窗口std_long(n)，对于十二个频段中的每一个频段计算归一化能量水平E_N(n)各自的标准偏差。所述短窗口具有4个音频信号帧的长度，所述长窗口具有16个音频信号帧的长度。也就是说，对于每个频段，来自当前帧的能量水平以及来自在前的4个帧和16个帧的能量水平分别用于推导两个标准偏差值。从缓冲区中获取在前帧的归一化能量水平，在该缓冲区中还存储当前音频信号帧的归一化能量水平以供进一步使用。

然而，如果语音活动性指示器VAD指示当前帧的活动语音，则仅确定所述标准偏差。这就使得所述算法反应较快，尤其在较长的语音停顿后。

现在，针对长窗口和短窗口，在十二个频段上平均所确定的标准偏差，以产生两个标准偏差值stda_short和stda_long，作为当前音频信号帧的第一和第二信号特征。

此外，针对当前音频信号帧，计算低频段内能量和高频段内能量之间的关系。最后，所述信号特征确定部分11将低频段n＝1到7的能量E(n)相加，来获得能量水平LevL。通过将能量水平LevL除以单位为Hz的这些较低频段的总宽度来将所述能量水平LevL归一化。而且，所述信号特征确定部分11将较高频段n＝8到11的能量E(n)相加，来获得能量水平LevH。同样地，通过将能量水平LevH除以单位为Hz的这些较高频段的总宽度来将所述能量水平LevH标准化。最低的频段0不用于这些计算，因为其通常包括非常多的能量，这将导致计算失真，并且使其他频带的贡献太小。接着，所述信号特征确定部分11定义关系LPH＝LevL/LevH。另外，使用LPH值来计算移动平均LPHa，所述LPH值是已经针对当前音频信号帧和针对三个先前音频信号帧确定的。

现在，通过将当前LPHa值与先前七个LPHa值求和，对于当前帧计算能量关系的最后值LPHaF。在该求和中，LPHa的最新值权重略微高于LPHa的旧值。从缓冲区中同等地获取LPHa先前的七个值，在该缓冲区中还存储有当前帧的LPHa值以供进一步使用。所述值LPHaF构成第三信号特征。

所述信号特征确定部分11还针对当前音频信号帧计算滤波器组AVL的能量平均水平。为了计算该值AVL，从十二个频段中的每个频段内的能量E(n)中减去背景噪声的估计值。然后将结果与相应频段的最高频率Hz相乘后相加。该相乘平衡了高频段的影响，其中高频段包含了比较低频段相对较小的能量。所述值AVL构成第四第三信号特征。

最后，所述信号特征确定部分11针对当前帧计算来自所有滤波器组的总能量TotE₀，所述总能量被每个滤波器组的背景噪声估计所降低。该总能量TotE₀也被存储在缓冲区中。所述值TotE₀构成第五信号特征。

现在将所确定的信号特征和计数器值StatClassCount提供给第一选择部分13，其应用了根据下列伪代码的算法，用于为当前帧选择最佳编码模型：

if(StatClassCount＝＝0)

SET TCX_MODE

if(stda_long＜0.4)

SET TCX_MODE

else if(LPHaF＞280)

SET TCX_MODE

else if(stda_long＞＝0.4)

if((5+(1/(stda_long-0.4)))＞LPHaF)

SET TCX_MODE

else if((-90*stda_long+120)＜LPHaF)

SET ACELP_MODE

else

SET UNCERTAIN_MODE

else

headMode＝UNCERTAIN_MODE

可以看出，该算法使用了信号特征stda_long，其基于十六个在前音频信号帧的信息。因此，首先检查在从ARM-WB切换之后是否至少已接收到十七帧。一旦所述计数器12具有的值StatClassCount为0，则就是这样情况。否则，不确定模式立即与当前帧相关联。这确保所述结果不会被无效的缓冲区内容所篡改，而这种篡改将导致信号特征stda_long和LPHaF的错误值。

现在，由第一选择部分13将关于迄今为止所执行的编码模型选择和信号特征的信息转发给第二选择部分14，其应用了根据下列伪代码的算法，用于为当前帧选择最佳编码模型：

if(ACELP_MODE or UNCERTAIN_MODE)and(AVL＞2000)

SET TCX_MODE

if(StatClassCount＜5)

if(UNCERTAIN_MODE)

if(stda_short＜0.2)

SET TCX_MODE

else if(stda_short＞＝0.2)

if((2.5+(1/(stda_short-0.2)))＞LPHaF)

SET TCX_MODE

else if((-90*stda_short+140)＜LPHaF)

SET ACELP_MODE

else

SET UNCERTAIN_MODE

可以看到，这个算法的第二部分使用了信号特征stda_short以及信号特征LPHaF，其中信号特征stda_short基于四个在前音频信号帧的信息，信号特征LPHaF基于十个在前音频信号帧的信息。因此，对于该部分算法，首先需要检查在从AMR-WB切换后是否已经接收到至少十一帧。一旦所述计数器具有值StatClassCount为‘4’，则就是这种情况。这就保证了所述结果不会被无效的缓冲区内容所篡改，而这种篡改将导致错误的信号特征值LPHaF和stda_short。总的来说，该算法已经允许为第十一到十六帧选择编码模型，并且当平均能量水平AVL超过预定值时，甚至还为前十帧选择编码模型。该算法的这部分在图2中未示出。该算法同样适用于第十六帧之后的帧，以精化由第一选择部分13进行的第一选择。

然后，由第二选择部分14将迄今为止完成的编码模型选择和信号特征的信息转发到第三选择部分15，其应用了根据下列用于为当前帧选择最佳编码模型的伪代码的算法，如果该帧的模式仍然不确定：

if(UNCERTAIN_MODE)

if(StatClassCount＜15)

if((TotE₀/TotE_-1)＞25)

SET ACELP_MODE

能够看到，所述伪代码使用了当前音频信号帧中总能量TotE₀与在前音频信号帧中总能量TotE_-1的关系。因此首先检查在从AMR-WB切换之后是否已经接收到至少两帧。一旦所述计数器具有值StatClassCount为‘14’，则就是这种情况。

必须注意，所使用的计数器阈值仅仅是例子，并且可以有多种不同方式的选择。例如，在第二选择部分14中所实现的算法中，可以评估所述信号特征LPH而不是信号特征LPHaF。在此情况下，对应于StatClassCount＜12，检查是否已经接收到五帧即足够。

然后，由第三选择部分15将关于信号特征和迄今为止实现的编码模型选择的信息转发到验证部分16，其使用了根据下列伪代码的算法：

if(TCX_MODE‖UNCERTAIN_MODE))

if(AVL＞2000 and TotE0＜60)

SET ACELP MODE

如果该帧的模式仍然不确定，该算法允许为当前帧选择最佳的编码模型，并验证已经选择的TCX模式是否合适。

同样在验证部分16中处理之后，与当前音频信号帧相关的模式可能仍然是不确定的。

在快速的方法中，现在仅简单地为剩余的UNCERTAIN(不确定)模式帧选择预定的编码模型，即ACELP编码模型或TCX编码模型。

在更精密复杂的方法中，如图2中所示，首先执行进一步的分析。

最后，由所述验证部分16将关于迄今为止完成的编码模型选择的信息转发到精化部分17。该精化部分17应用模型分类精化。如上所述，这是编码模型选择，其取决于音频信号的周期性和平稳特性。通过使用LTP参数观察所述周期性。通过使用归一化的相关性和频谱距离测量来分析所述平稳特性。

由部分13、14、15、16和17进行的分析基于音频信号特征来确定各帧的内容是否可被看作语音或诸如音乐的其他音频内容，并且如果所述分类是可行的话就选择相应的编码模型。部分13、14、15、16实现用于评估特征相关的能量的第一开环方法，而部分17实现用于评估音频信号周期性和平稳特性的第二开环方法。

如果两种不同开环方法已经徒然用于选择TCX模型或ACELP编码模型，那么在一些情况下，很难通过进一步的现有开环算法来选择最佳编码模型。因此在本实施例中，简单的基于计数的分类被用于剩余的不清楚的模式选择。

如果为各个UNCERTAIN模式帧设置了语音活动性指示VADflag，那么，最终选择部分18基于各相邻帧的相关编码模型进行的统计评估而为剩余的UNCERTAIN模式帧选择特定的编码模型。

对于所述统计评估，考虑了UNCERTAIN模式帧所属的当前超级帧(superframe)和该当前超级帧之前的超级帧。超级帧具有80ms的长度，并且包括四个20ms的连续音频帧。所述最终选择部分18通过计数器来对当前超级帧中的帧数以及先前的超级帧中的帧数进行计数，其中已经由在前的选择部分12到17之一为这些超级帧选择了ACELP编码模型。而且，所述最终选择部分18对先前超级帧中的帧数计数，其中已经由在前的选择部分12到17之一为这些超级帧选择了具有40ms或80ms编码帧长度的TCX模型，而且为这些超级帧设置了语音活动性指示，此外，对于这些超级帧，总能量超过预定阈值。通过将音频信号分为不同频段、为所有频段分别确定信号水平(level)并将结果水平相加，可以计算总能量。帧中总能量的预定阈值可以设置为比如60。

在当前超级帧n能够被编码之前，必须对整个当前超级帧完成编码模型的分配。因此，对分配有ACELP编码模型的帧的计数不限于UNCERTAIN模式帧之前的帧。除非所述UNCERTAIN模式帧是当前超级帧中最后帧，否则还考虑为将到来的帧所选择的编码模型。

帧的计算能够由下列伪代码进行概括：

if((prevMode(i)＝＝TCX80 or prevMode(i)＝＝TCX40)and vadFlag_old(i)＝＝1 and TotE_i＞60)

TCXCount＝TCXCount+1

if(prevMode(i)＝＝ACELP_MODE)

ACELPCount＝ACELPCount+1

if(j！＝i)

if(Mode(i)＝＝ACELP_MODE)

ACELPCount＝ACELPCount+1

在该伪代码中，i表示各超级帧中的帧数，并且其具有数值1、2、3、4，而j表示当前超级帧中的当前帧数，prevMode(i)是先前超级帧中第i个20ms帧的模式，并且Mode(i)是当前超级帧中第i个20ms帧的模式。TCX80表示所选择的使用80ms编码帧的TCX模型，而TCX40表示所选择的使用40ms编码帧的TCX模型。VadFlag_old(i)表示先前超级帧中用于第i个帧的语音活动性指示VAD。TotE_i是第i个帧中的总能量。计数器数值TCXCount表示先前超级帧中所选择的长TCX帧数，而计数器数值ACELPCount表示先前和当前超级帧中ACELP帧数。

然后执行如下的统计评估：

如果先前超级帧中编码帧长度为40ms或80ms的长TCX模式帧的计数数目大于3，则为所述UNCERTAIN模式帧同样地选择TCX模型。

否则，如果当前和先前超级帧中ACELP模式帧的计数数目大于1，则为UNCERTAIN模式帧选择ACELP模型。

在所有其他情况时，为UNCERTAIN模式帧选择TCX模型。

针对第j个帧的编码模型Mode(j)的选择可以例如由下列伪代码进行概括：

if(TCXCount＞3)

Mode(j)＝TCX_MODE；

else if(ACELPCount＞1)

Mode(j)＝ACELP_MODE

else

Mode(j)＝TCX_MODE

如果所述计数器值StatClassCount小于12，则仅执行基于计数的方法。这意味着在从ARM-WB切换到扩展模式后，在前四帧(即前4*20ms)中不执行基于计数的分类方法。

如果所述计数器值StatClassCount等于或大于12，并且编码模型仍分类为UNCERTAIN模式，那么选择所述TCX模型。

如果所述语音活动性指示VADFlag未被设置，那么该标记指示静止(silent)周期，所选模式默认是TCX，并且不需要执行任何模式选择算法。

因此所述部分13、14和15构成本发明的至少一个选择部分，而所述部分16、17和18，以及部分14的一部分构成本发明的至少一个进一步的选择部分。

现在，ACELP/TCX编码部分19根据各自所选的编码模型对音频信号的所有帧进行编码。所述TCX模型例如基于采用所选编码帧长度的快速傅利叶变换(FFT)，而所述ACELP编码模型使用例如用于线性预测系数(LPC)激励的固定码书参数和LTP。

然后，编码部分19提供所编码的帧，用于至第二设备21的传输。在所述第二设备21中，解码器22根据需要，利用使用了ARM-WB模式或扩展模式的ACELP编码模型或TCX编码模型对所有接收到的帧进行解码。例如提供所解码的帧，用于供给第二设备21的用户。

总而言之，所提供的实施例实现了选择算法的软激活，其中所提供的选择算法被按序激活，其中与所述选择规则相关的分析缓冲区被完全更新。尽管禁止了一种或多种选择算法，但基于其他不依赖所述缓冲区内容的选择算法来执行选择。

应当注意，所述描述的实施例仅构成本发明的多种可能实施例之一。

Claims

1、一种支持音频信号编码的方法，其中，至少第一编码器模式和第二编码器模式可用于对所述音频信号的特定部分进行编码；其中，至少所述第一编码器模式能够基于至少两种不同编码模型，对所述音频信号的特定部分进行编码；并且其中，通过基于信号特征的至少一个选择规则，使得能够选择用来对音频信号的特定部分进行编码的各编码模型，所述信号特征至少部分地取决于分析窗口，所述分析窗口至少覆盖了所述特定部分之前的一部分音频信号；所述方法包括：从所述第二编码器模式切换到所述第一编码器模式之后，激活至少一个所述选择规则，作为对接收到与所述分析窗口覆盖的所述音频信号部分至少一样多的音频信号部分的响应。

2、根据权利要求1所述的方法，其中，在所述第一编码器模式中，通过至少一个进一步的选择规则还能够允许选择用于对音频信号的特定部分进行编码的各编码模型，其中该进一步的选择规则并不使用所述音频信号的所述特定部分之前的部分的信息，至少在接收到的部分的数目少于分析窗口所覆盖的部分的数目时才应用所述至少一个进一步的选择规则，其中在该分析窗口中为所述至少一个选择规则确定信号特征。

3、根据权利要求1或2所述的方法，其中，基于已从分析窗口中所确定的信号特征的所述至少一个选择规则包括：第一选择规则，其基于较短分析窗口所确定的信号特征，以及第二选择规则，其基于在较长分析窗口中所确定的信号特征，其中，当接收到用于所述较短分析窗口的所述音频信号的足够部分时，激活所述第一选择规则，并且其中，当接收到用于所述较长分析窗口的所述音频信号的足够部分时，激活所述第二选择规则。

4、根据权利要求3的方法，其中，所述音频信号的各部分对应于长度为20ms的各音频信号帧，其中所述较短窗口覆盖需要为其选择编码模型的音频信号帧和四个在前的音频信号帧，并且其中，所述较长窗口覆盖需要为其选择编码模型的音频信号帧和十六个在前的音频信号帧。

5、根据前述权利要求之一所述的方法，其中，所述信号特征包括各分析窗口中能量相关值的标准偏差。

6、根据前述权利要求之一所述的方法，其中，所述第一编码器模式是扩展自适应多速率宽带编解码器的扩展模式，并且能够基于代数编码激励线性预测编码模型进行编码，以及能够基于变换编码模型进行编码；并且其中，所述第二编码器模式是所述扩展自适应多速率宽带编解码器的自适应多速率宽带模式，并且能够基于代数代码激励线性预测编码模型进行编码。

7、根据前述权利要求中任意一项所述的方法，其中，所述部分是所述音频信号的帧或子帧。

8、一种用于支持音频信号编码的模块(2、3)，所述模块(2、3)包括：

第一编码器模式部分(5)，适用于在第一编码器模式中对音频信号的各部分进行编码；

第二编码器模式部分(4)，适用于在第二编码器模式中对音频信号的各部分进行编码；

切换装置(6)，用于在所述第一编码器模式部分(5)和所述第二编码器模式部分(4)之间切换；

编码部分(9)，包括在所述第一编码器模式部分(5)中，其适用于根据至少两种编码模型来对所述音频信号的各部分进行编码；以及

选择部分(13、14、15)，进一步包括在所述第一编码器模式部分(5)中，其适用于应用至少一个选择规则以选择特定的编码模型，该编码模型被所述编码部分(9)用来对音频信号的所述特定部分进行编码，其中，所述至少一个选择规则基于至少部分地取决于分析窗口的信号特征，该分析窗口覆盖所述特定部分之前的至少一部分音频信号；并且其中，所述选择部分(13、14、15)适用于在由所述切换装置(6)从所述第二编码器模式部分(4)切换到所述第一编码器模式部分(5)之后，激活所述至少一个选择规则，作为对接收到与所述分析窗口覆盖的所述音频信号部分至少一样多的音频信号部分的响应。

9、根据权利要求8所述的模块(2、3)，还包括计数器(12)，适用于对所述音频信号的部分的数目进行计数，在从所述第二编码器模式部分(4)切换到所述第一编码器模式部分(5)后将所述音频信号的部分提供给所述第一编码器模式部分(5)。

10、根据权利要求8或9所述的模块(2、3)，其中，所述第一编码器模式部分(5)还包括至少一个进一步的选择部分(16、17、18)，其适用于应用至少一个进一步的选择规则以选择各编码模型，该编码模型由所述编码部分(9)使用，用来对音频信号的特定部分进行编码，其中，所述至少一个进一步的选择规则不使用所述音频信号的所述特定部分之前的部分的信息；并且其中，在从所述第二编码器模式部分(4)切换至所述第一编码器模式部分(5)之后，至少当所述第一编码器部分(5)所接收的部分的数目少于用于所述至少一个选择规则所使用的分析窗口所覆盖的部分的数目时，应用所述至少一个进一步的选择规则，其中所述至少一个选择规则基于分析窗口中信号特征的分析。

11、根据权利要求8至10中任意一项所述的模块(2、3)，其中，所述至少一个选择部分(13、14、15)包括：第一选择部分(14)，其适用于应用基于在较短分析窗口中所确定的信号特征的第一选择规则；和第二选择部分(13)，其适用于应用基于在较长分析窗口中所确定的信号特征的第二选择规则；其中，在从所述第二编码器模式部分(4)切换到所述第一编码器模式部分(5)之后，当所述第一编码器模型部分(5)接收到用于所述较短分析窗口的所述音频信号的足够部分时，激活所述第一选择规则；并且其中，在从所述第二编码器模式部分(4)切换到所述第一编码器模式部分(5)之后，当所述第一编码器模型部分(5)接收到用于所述较长分析窗口的所述音频信号的足够部分时，激活所述第二选择规则。

12、一种支持音频信号编码的电子设备(1)，所述电子设备(2，3)包括：

编码部分(9)，包括在所述第一编码器模式部分(5)中，其适用于根据至少两种不同编码模型来对音频信号的各部分进行编码；以及

选择部分(13、14、15)，进一步包括在所述第一编码器模式部分(5)中，其适用于应用至少一个选择规则以选择特定的编码模型，该编码模型被所述编码部分(9)用来对音频信号的所述特定部分进行编码，其中，所述至少一个选择规则基于至少部分地取决于分析窗口的信号特征，该分析窗口覆盖所述特定部分之前的至少一部分音频信号；并且其中，所述选择部分(13、14、15)适用于通过所述切换装置(6)从所述第二编码器模式部分(4)切换到所述第一编码器模式部分(5)之后，激活所述至少一个选择规则，作为对接收到与所述分析窗口覆盖的所述音频信号部分至少一样多的音频信号部分的响应。

13、根据权利要求12所述的电子设备(1)，还包括计数器(12)，适用于对所述音频信号的部分的数目进行计数，在从所述第二编码器模式部分(4)切换到所述第一编码器模式部分(5)后将所述音频信号的部分提供给所述第一编码器模式部分(5)。

14、根据权利要求12或13所述的电子设备(1)，其中，所述第一编码器模式部分(5)还包括至少一个进一步的选择部分(16、17、18)，其适用于应用至少一个进一步的选择规则以选择各编码模型，该编码模型由所述编码部分(9)使用，用来对音频信号的特定部分进行编码，其中，所述至少一个进一步的选择规则不使用与所述特定部分之前的部分所述音频信号有关的信息；并且其中，在从所述第二编码器模式部分(4)切换至所述第一编码器模式部分(5)之后，至少当所述第一编码器部分(5)所接收的部分的数目少于用于所述至少一个选择规则所使用的分析窗口所覆盖的部分的数目时，应用所述至少一个进一步的选择规则，其中所述至少一个选择规则基于分析窗口中信号特征的分析。

15、根据权利要求12至14中任意一项所述的电子设备(1)，其中，所述至少一个选择部分(13、14、15)包括：第一选择部分(14)，其适用于应用基于在较短分析窗口中所确定的信号特征的第一选择规则；和第二选择部分(13)，其适用于应用基于在较长分析窗口中所确定的信号特征的第二选择规则；其中，在从所述第二编码器模式部分(4)切换到所述第一编码器模式部分(5)之后，当所述第一编码器模型部分(5)接收到用于所述较短分析窗口的所述音频信号的足够部分时，激活所述第一选择规则；并且其中，在从所述第二编码器模式部分(4)切换到所述第一编码器模式部分(5)之后，当所述第一编码器模型部分(5)接收到用于所述较长分析窗口的所述音频信号的足够部分时，激活所述第二选择规则。

16、根据权利要求15所述的电子设备(1)，其中，所述音频信号的各部分对应于长度为20ms的各音频信号帧，其中所述较短窗口覆盖需要为其选择编码模型的音频信号帧和四个在前的音频信号帧，并且其中，所述较长窗口覆盖需要为其选择编码模型的音频信号帧和十六个在前的音频信号帧。

17、根据权利要求12至16中任意一项所述的电子设备(1)，其中，所述第一编码器模式部分(5)还包括信号特征确定部分(11)，其确定各分析窗口中所述音频信号的信号特征，并且将所述信号特征提供给所述选择部分(13、14、15)，所述信号特征包括各分析窗口中能量相关值的标准偏差。

18、根据权利要求12至17中任意一项所述的电子设备(1)，其中，所述第一编码器模式是扩展的自适应多速率宽带编解码器的扩展模式，所述第一编码器模式部分(5)的编码部分(9)适用于基于代数码激励线性预测编码模型以及基于变换编码模型，对音频信号的部分进行编码；并且其中，所述第二编码器模式是所述扩展的自适应多速率宽带编解码器的自适应多速率宽带模式，所述第二编码器模式部分(4)适用于基于代数码激励线性预测编码模型对音频信号的部分进行编码。

19、一种音频编码系统(1、2)，包括根据权利要求8到11中任意一项所述的模块(2、3)以及解码器(20)，该解码器(20)用于对所述模块(2、3)所编码的音频信号进行解码。

20、根据权利要求19所述的音频编码系统(1、2)，还包括第一编码器模式部分(5)，适用于在第一编码器模式中对音频信号的各部分进行编码。

21、根据权利要求19到20中至少一项所述的音频编码系统(1、2)，还包括第二编码器模式部分(4)，适用于在第二编码器模式中对音频信号的各部分进行编码。

22、根据权利要求19到21中至少一项所述的音频编码系统(1、2)，还包括切换装置(6)，用于在所述第一编码器模式部分(5)和所述第二编码器模式部分(4)之间切换。

23、一种软件程序产品，该软件程序产品中存储了用于支持音频信号编码的软件代码，其中，至少第一编码器模式第二编码器模式可用于对所述音频信号的各部分进行编码，其中至少所述第一编码器模式能够基于至少两种不同编码模型，对所述音频信号的各部分进行编码；并且其中，在所述第一编码器模式中，通过基于信号特征的至少一个选择规则，使得能够选择用来对音频信号的特定部分进行编码的各编码模型，所述信号特征取决于下列分析窗口，即覆盖了所述音频信号的所述特定部分之前的至少一部分音频信号的分析窗口，当运行在编码器(2)的处理部分(3)中时，所述软件代码实现以下步骤：

在从所述第二编码器模式切换到所述第一编码器模式之后激活所述至少一个选择规则，作为对接收到与所述分析窗口覆盖的所述音频信号部分至少一样多的音频信号部分的响应。