CN103187066B

CN103187066B - 处理音频帧以在不同编解码器之间转变的方法和装置

Info

Publication number: CN103187066B
Application number: CN201310001449.5A
Authority: CN
Inventors: 乌达·米塔尔; 詹姆斯·P·阿什利
Original assignee: Google Technology Holdings LLC
Current assignee: Google Technology Holdings LLC
Priority date: 2012-01-03
Filing date: 2013-01-04
Publication date: 2016-04-27
Anticipated expiration: 2033-01-04
Also published as: US9043201B2; EP2613316B1; EP2613316A2; EP2613316A3; US20130173259A1; CN103187066A

Abstract

本发明涉及处理音频帧以在不同编解码器之间转变的方法和装置。一种方法（700，800）和装置（100，200）处理音频帧，以在不同的编解码器之间转变。该方法能够包括使用第一编码方法，通过编码帧序列中的第一音频帧来产生（720）编码的输出音频采样的第一帧。该方法能够包括使用第一编码方法形成（730）第一帧的重叠相加的部分。该方法能够包括基于将编码的输出音频采样的第一帧和第一帧的重叠相加的部分组合来生成（740）编码的音频采样的组合第一帧。该方法能够包括基于编码的音频采样的组合第一帧，初始化（760）第二编码方法的状态。该方法能够包括基于第二编码方法的初始化状态构造（770）输出信号。

Description

处理音频帧以在不同编解码器之间转变的方法和装置

相关申请的交叉引用

本申请涉及于2011年7月26日提交的序列号为13/190,517的申请，标题为“MethodandApparatusforAudioCodingandDecoding（音频编码和解码的方法和装置）”，摩托罗拉案号CS38538，并且共同转让给本申请的受让人，其通过引用而合并于此。

技术领域

本公开针对用于处理音频帧以在不同编解码器之间转变的方法和装置。更具体地说，本公开针对当对于音频帧在两种编码模式间切换时的状态更新。

背景技术

在当今社会中使用的通信设备包括移动电话、个人数字助理、便携计算机、膝上型计算机、游戏设备、平板电脑以及各种其他电子通信设备。许多这些设备彼此之间传输音频信号。编解码器用于对音频信号编码和解码以便在这些设备之间传输。某些音频信号被归类为语音信号，其具有更类似语音的特征，典型的有口语词汇。其他音频信号被分类为通用音频信号，其具有更通用的音频特特征，典型的有音乐、声调、背景声、混响语音，以及其他通用的音频特征。

基于适合处理语音信号的源滤波器模型的语音编解码器未能有效地处理通用音频。语音编解码器包括线性预测编码（LPC）编解码器，诸如码激励线性预测（CELP）编解码器。语音编解码器趋于很好地处理语音信号，即使以较低的比特率。相反地，诸如频域变换编解码器的通用音频处理编解码器不能有效地处理语音信号。为了处理语音信号和通用音频信号，分类器或鉴别器以逐帧为基础来确定音频信号是较多地还是较少地类似于语音，并且基于该分类来将信号引导到语音编解码器或者通用音频编解码器。能够这样处理语音信号和通用音频信号的音频信号处理器有时也称为混合编解码器。在某些情形下，混合编解码器可以是可变速率编解码器。例如，它可以以不同的速率编解码不同类型的帧。作为另一个示例，使用变换域编解码的通用音频帧以更高的速率被编解码，与以更低的速率被编解码的类似语音的帧相反。

使用语音模式和通用音频模式分别在语音帧处理和通用音频帧处理之间的转变产生不连续。例如，从语音音频CELP域帧至通用音频变换域帧的转变已经表现出以音频间隔的形成产生不连续性。从变换域至CELP域的转变也导致不利地影响音频质量的可听的不连续性。不连续性的主要原因是CELP编解码器的各种状态的不正确初始化。对质量具有不利影响的一些状态包括LPC合成滤波器状态和自适应码本（ACB）激发状态。

为了避免状态更新的问题，相关技术的编解码器，诸如扩展自适应多速率带宽（AMRWB+）和增强可变速率编解码带宽（EVRC-WB），甚至在音频模式下使用LPC分析，并且在变换域中编解码残差。通过由LPC合成滤波器传送使用逆变换获得的时域残差来由此生成合成输出。该处理本身生成LPC合成滤波器状态和ACB激发状态。然而，通用音频信号通常不遵循LPC模型。因此，在LPC量化上消耗的比特可能导致通用音频信号的性能损耗。

因此，存有用于处理音频帧以在不同编解码器之间转变的方法和装置的机会。

附图说明

为了描述能够获得本公开的优势和特征的方式，将在附图中示出各种实施例。应该理解的是，这些附图仅描绘本公开的典型实施例并且不限制其范围，通过使用附图，将利用另外的特性和细节来描述并解释本公开，在附图中：

图1是根据可能的实施例的混合编码器的示例框图；

图2是根据可能的实施例的混合解码器的示例框图；

图3是根据可能的实施例的在音频核心和语音核心之间相对帧定时的示例图示；

图4是根据可能的实施例的状态生成器的示例框图；

图5是根据可能的实施例的解码器的示例框图；

图6是根据可能的实施例的语音编码器状态存储生成器和语音编码器的示例框图；

图7示出了根据可能的实施例示出的通信设备的操作的示例流程图；

图8示出了根据可能的实施例的通信设备的操作的示例流程图；以及

图9是根据可能的实施例的通信设备的示例框图。

具体实施方式

当在不同的编解码器之间转变音频帧的流时，该流通常需要从一个数字采样率（使得第一编解码器能够处理第一帧）改变到另一数字采样率（使得第二编解码器能够处理下一帧）。此重新采样可能导致音频输出中听起来像轻微的“顿挫”或“暂停”的时间延迟。另外，如果第二编解码器未适当地初始化，则在音频帧的流中在流中间切换编解码器可能产生音频输出失真，诸如点击或弹击。下文描述的方法和装置试图在音频编解码器之间切换时，通过使用组合帧来减少音频输出干扰。该组合帧可以补偿由重新采样所导致的时间延迟，并且可以将第二编解码器初始化以减少通过音频编解码器切换可能导致的音频输出失真。

例如，实施例通过在变换域帧后面的帧中，适当地将码激励线性预测（CELP）编解码器状态初始化，能够改善在通用音频编解码器和语音编解码器之间转变期间的音频质量。尽管某些实施例考虑变换域部分纯粹是变换域并且不使用线性预测编码（LPC）分析和合成的状态，但是即使编解码器使用LPC分析或合成或其他分析或合成，也能够使用这些实施例。而且，实施例能够提供改善的音频至语音转变。尽管语音至音频转变能够具有不同细微差别，但是也可以使用实施例的元件来提供其他改善的转变，诸如两个不同语音模式使用不同类型的滤波器和/或不同采样率的语音至语音转变。

一种方法和装置处理音频帧，以在不同编解码器之间转变。该方法能够包括使用第一编码方法，通过对帧序列中的第一音频帧进行编码来产生编码的输出音频采样的第一帧。能够以第一采样率对编码的输出音频采样。该方法能够包括使用第一编码方法形成第一帧的重叠相加的部分。该方法能够包括基于将编码的输出音频采样的第一帧和第一帧的重叠相加的部分组合来生成编码的音频采样的组合第一帧。该方法能够包括基于编码的音频采样的组合第一帧来初始化第二编码方法的状态。该方法能够包括基于第二编码方法的初始化状态来构造输出信号。

图1是根据可能的实施例的混合编码器100的示例框图。混合编码器100能够对帧的输入流进行编码，其中这些帧的一些可以是语音帧，而其他帧可以是通用音频帧。通用音频帧能够包括除了语音之外的元素、能够更不类似于语音，和/或能够包括非语音元素。能够将混合编码器100合并到执行音频的编码和解码的任何电子设备中。这些设备能够包括蜂窝电话、音乐播放器、家用电话、个人数字助理、膝上型计算机以及能够处理语音音频帧和通用音频帧的其他设备。

混合编码器100能够包括能够处理输入音频信号s(n)的帧的模式选择器110，其中n能够是采样索引。模式选择器110能够接收外部语音和通用音频模式控制信号，并且根据该控制信号选择通用音频编解码器或语音编解码器。模式选择器110还能够从速率确定器（未示出）获得输入，该速率确定器确定当前帧的比特率。例如，当采样率是每秒16kHz个采样时，输入音频信号的帧能够包括音频的320个采样，其与20毫秒的帧时间间隔相对应，虽然任何其他变化也是可能的。当前帧的比特率能够在语音编码方法和通用音频编码方法之间控制所使用的编码方法的类型。比特率还可以影响内部采样率，即，较高比特率可以有助于编码较高的音频带宽，而较低比特率可能更限制于编码较低的带宽。因此，能够支持宽范围比特率的编解码器也可以支持音频带宽的范围和采样频率，其每一个可以以逐帧为基础进行切换。

混合编码器100能够包括能够编码通用音频帧的第一编码器120，诸如对于帧m的编码的比特流，并且能够包括能够编码语音帧的第二编码器130，诸如对于帧m+1的编码的比特流。例如，第二编码器130能够是语音编码器130，语音编码器130基于适合处理语音信号的源-滤波器模型。第一编码器120能够是通用音频编码器120，通用音频编码器120能够基于时域混叠消除（TDAC）使用线性正交重叠变换。又例，语音编码器130能够使用适合处理语音信号的其他编解码器中的LPC类型的CELP编码器。通用音频编码器120能够被实施为修正的离散余弦变换（MDCT）编码器、修正的离散正弦变换（MSCT）编码器、基于不同类型的离散余弦变换（DCT）的MDCT形式、DCT/离散正弦变换（DST）组合，或者其他通用音频编码格式。

第一编码器120和第二编码器130能够具有通过选择开关150耦合到输入音频信号s(n)的输入，选择开关150能够基于由模式选择器110确定的模式来控制。例如，开关150可以由处理器基于从模式选择器110输出的码字来控制。开关150能够选择用于处理语音帧的语音编码器130，并且能够选择用于处理通用音频帧的通用音频编码器120。尽管在混合编码器100中仅示出两种编码器，但是可以通过多个不同类型的编码器编码这些帧。例如，可以选择三个或更多个编码器之一来处理输入音频信号的特定帧。

第一编码器120和第二编码器130的每一个能够产生编码的比特流，并且能够基于由对应的编码器处理的对应的输入音频帧来产生对应的处理的帧。随后编码的比特流能够经由复用器170被存储，或者能够经由复用器170被传输。

语音不连续性可能在从通用音频编码器120转变至语音编码器130时发生。混合编码器100能够包括能够解决不连续性问题的语音编码器状态存储生成器160。例如，基于诸如滤波参数的参数的状态，能够被语音编码器130用来编码语音的帧。语音编码器状态存储生成器160能够处理前导通用音频帧，以生成用于语音编码器130的状态，以便在通用音频和语音之间转变。如上所述，当在不同的编解码器之间转变音频帧的流时，通常该流需要从一个数字采样率改变到另一数字采样率。该采样率改变可能导致在音频输出中能够被听成轻微的“顿挫”或“暂停”的时间延迟。因此，如果第二编解码器未被适当地初始化，则在音频帧的流中在流中间切换编解码可能产生音频输出失真，诸如点击或弹击。语音编码器状态存储器生成器160能够通过处理前导通用音频帧以生成用于语音编码器130的状态，来减少音频输出干扰。这能够补偿由重新采样所导致的时间延迟并且能够减少由编解码器之间的切换可能导致的音频输出失真。

根据一个实施例，第一编码器120能够使用第一编码方法通过对帧序列中的第一音频帧进行编码来产生编码的输出音频采样的第一帧。例如，编码输出音频采样能够是重建的用于帧m的音频能够以第一采样率采样编码的输出音频采样。第一编码器120能够使用第一编码方法以第一帧的重叠相加的(OLA)存储的形式形成重叠相加的部分。能够通过将信号分解成简单的分量、处理这些分量的每一个并且将处理的分量重新组合成最后信号，来生成重叠相加的部分。重叠相加的部分能够基于利用有限冲击响应滤波器评估非常长的信号的离散卷积。例如，重叠相加的延迟能够与由通用音频编码器（或者通用音频解码器）生成的帧的修正的离散余弦变换合成存储部分相对应。重叠相加的部分的时间长度通常能够取决于用于编码的MDCT窗。可以基于预测重新采样延迟来选择MDCT窗。而且，期望的编解码器设计能够确定怎么选择MDCT窗。

混合编码器100能够包括转变音频组合器140。转变音频组合器140能够基于将编码的输出音频采样的第一帧与第一帧的重叠相加的部分组合，来生成编码的音频采样的组合第一帧。当从第一编码方法转变到第二编码方法时，能够使用编码的音频采样的组合第一帧。转变音频组合器140能够基于将第一帧的重叠相加的部分附加到编码的输出音频采样的第一帧，来生成编码的音频采样的组合第一帧。转变音频组合器140还能够通过以第二采样率重新采样编码的音频采样的组合第一帧，来生成编码的音频采样的重新采样的组合第一帧。

语音编码器状态存储生成器160能够是第二编码器状态生成器，其能够基于编码的音频采样的组合第一帧来初始化第二编码方法的状态。第二编码器状态存储生成器160能够基于编码的音频采样的重新采样的组合第一帧，通过输出用于帧m+1的状态存储更新，来初始化诸如语音编码方法的第二编码方法的状态。

第二编码器130能够基于第二编码方法的初始化状态和下一音频输入帧（m+1），来构造输出信号。如果第二编码器130是语音编码器，则第二编码器130能够基于语音编码方法的初始化状态和下一语音输入帧（m+1），来构造编码的语音信号。因此，如果第一编码器120是通用音频编码器并且第二编码器130是语音编码器，则第一输出帧能够是TDAC编码信号，并且下一输出帧能够是CELP编码信号。相反地，如果第一编码器120是语音编码器并且第二编码器130是通用音频编码器，则第一输出帧能够是CELP编码信号，之后是TDAC编码信号的下一输出帧。当在流中间（即，从一个帧至下一帧）改变编码时，混合编码器100能够减少通过切换编码器可能导致的延迟和音频失真。

图2是根据可能的实施例的混合解码器200的示例框图。混合解码器200能够包括解复用器210，其能够从信道或存储介质接收编码的比特流并且能够将比特流传送到适当的解码器。混合解码器200能够包括通用音频解码器220，其能够从信道或存储介质接收诸如用于帧m的编码的比特流的帧。通用音频解码器220能够解码通用音频，并且能够生成重新构造的通用音频输出帧混合解码器200能够包括语音解码器230，其能够接收诸如用于帧m+1的编码的比特流的帧。语音解码器230能够解码语音音频并且能够生成诸如用于帧m+1的重新构造的语音音频输出帧混合解码器200能够包括开关270，其能够选择重新构造的通用音频输出帧或者重新构造的语音音频输出帧以输出重新构造的音频输出信号。

当从通用音频解码器220转变到语音解码器230时，可能发生音频不连续性。混合解码器200能够包括能够解决不连续性问题的语音解码器状态存储生成器260。例如，基于诸如滤波参数的参数的状态，能够被语音解码器230用来解码语音的帧。语音解码器状态存储生成器260能够处理来自通用音频解码器220的前导通用音频帧，以生成用于语音解码器230的状态用于在通用音频和语音之间的转变。

混合解码器200能够包括转变音频组合器240。转变音频组合器240能够基于将编码的输出音频采样的第一帧与第一帧的重叠相加的部分组合，来生成编码的音频采样的组合第一帧。转变音频组合器240能够生成编码的音频采样的组合第一帧以从第一编码方法转变至第二编码方法。转变音频组合器240能够基于将第一帧的重叠相加的部分附加到编码的输出音频采样的第一帧，来生成编码的音频采样的组合第一帧。

更一般地，混合解码器200能够是用于处理音频帧的装置。通用音频解码器220能够是第一解码器220，其被配置成使用第一解码方法通过解码在帧序列中的比特流帧（帧m）产生解码的输出音频采样的第一帧。能够以第一采样率来采样解码输出音频采样。能够将第一解码器220配置成使用第一解码方法形成第一帧的重叠相加的部分。

转换音频组合器240能够基于将解码的输出音频采样的第一帧与第一帧的重叠相加的部分组合，来生成解码的音频采样的组合第一帧。当从第一解码方法转变到第二解码方法时，能够使用解码的音频采样的组合第一帧。转变音频组合器240能够基于将第一帧的重叠相加的部分附加到解码的输出音频采样的第一帧，来生成解码的音频采样的组合第一帧。转变音频组合器240还能够通过以第二采样率将解码的音频采样的组合第一帧重新采样以生成解码的音频采样的重新采样的组合第一帧，来生成解码的音频采样的组合第一帧。

第二解码器状态存储生成器260能够基于来自240的解码的音频采样的组合第一帧，初始化诸如语音解码方法的第二解码方法的状态。例如，第二解码器状态存储生成器260能够基于解码的音频采样的重新采样的组合第一帧，来初始化第二解码方法的状态。

语音解码器230能够基于第二编码方法的初始化状态和下一编码的比特流输入帧(m+1)，来构造输出信号。例如，语音解码器230能够基于语音解码方法的初始化状态，构造可听的语音信号。继续该示例，使用通用音频解码器220能够解码一个编码的比特流输入帧m，并且使用初始化的语音解码器230能够解码随后的编码的比特流输入帧m+1，以产生减少或消除了暂停、点击、弹击或其他失真的流畅可听的音频信号。

图3是根据可能的实施例在音频核心和语音核心之间的相关帧定时300的示例图示。帧定时300能够包括输入语音和音频帧310、音频帧分析和合成窗320、音频编解码输出帧330以及延迟和对齐的通用音频帧340之间的定时。对应的帧具有索引m。帧定时300能够与给定的时间t对齐。从输入语音和音频帧310起的音频编解码输出帧330的延迟能够对应于重叠相加的延迟335。重叠相加的延迟335能够与由诸如通用音频编码器120的通用音频编码器或诸如通用音频解码器220的通用音频解码器生成的诸如帧m-1的帧的修正的离散余弦变换合成存储部分相对应。例如，能够使用编码方法生成或者使用解码方法生成帧m-1的重叠相加的延迟335。延迟和对齐的通用音频帧340的延迟和对齐通用音频帧m-1能够是基于将诸如音频编码输出帧330的帧m的编码的输出音频采样的帧与帧m-1的重叠相加的延迟335的重叠相加的部分组合以去除或消除由重新采样滤波器导致的延迟345，而生成的编码的音频采样的组合帧。

图4是根据可能的实施例的状态生成器260的示例框图。如果第二解码器是语音解码器，则状态生成器260可以生成初始状态，诸如：上采样滤波器状态、去加重滤波器状态、合成滤波器状态以及自适应码本状态。状态生成器260能够基于先前帧m来生成用于帧m+1的诸如语音解码器230的语音解码器的状态。状态生成器260能够包括4/5下采样滤波器401、上采样滤波器状态生成块407、预加重滤波器402、去加重滤波器状态生成块409、LPC分析块403、LPC分析滤波器405、合成滤波器状态生成块411以及自适应码本状态生成块413。

下采样滤波器401能够接收和下采样诸如帧m的重建的音频帧，并且能够接收和下采样对应的重叠相加的（OLA）存储数据。根据由两种编码方法使用的采样频率，其他下采样滤波器可以是4/10、1/2、4/15或1/3下采样滤波器。上采样滤波器状态生成块407能够基于来自401的下采样的帧和OLA存储数据，来确定和输出在第二解码器230的语音解码上采样滤波器的状态。耦合到401的输出的预加重滤波器402能够对重建的下采样音频执行预加重。去加重滤波器状态生成块409能够基于来自402的预加重音频，来确定和输出用于相应的语音解码器去加重滤波器的状态。LPC分析块403能够针对来自402的预加重音频执行LPC，并且将结果输出到第二解码器230。

可选地利用LPC分析块403输出，即A_q(m)，LPC分析滤波器A_q(z)405能够对预加重滤波器402输出进行滤波。合成滤波器状态生成块411能够基于LPC分析滤波器405的输出，来确定和输出用于相应的语音解码器合成滤波器的状态。自适应码本状态生成块413能够基于LPC分析滤波器405的输出，来生成用于相应的语音解码器自适应码本的状态。

图5是根据可能的实施例的解码器230的示例框图。利用来自状态生成器260的状态信息，能够初始化解码器230。解码器230能够包括解复用器501、自适应码本503、固定码本505、诸如码激励线性预测（CELP）滤波器的LPC合成滤波器507、去加重滤波器509以及5/4上采样滤波器511。解复用器501能够解复用编码的比特流，并且能够使用自适应码本503和固定码本505以及诸如A_q,τ,β,k和γ的码本相关参数的最佳集合，以从编码的比特流生成信号u(n)，来重建语音音频信号LPC合成滤波器507能够基于信号u(n)生成合成的信号。去加重滤波器509能够去加重合成滤波器507的输出，并且去加重的信号能够经过例如12.8kHz至16kHz上采样滤波器51。取决于由两种编码方法使用的采样频率，可以使用其他上采样滤波器，诸如4/10、1/2、4/15或1/3上采样滤波器。

根据一个实施例，诸如生成器260的语音解码器状态存储生成器，能够生成语音解码器230将要使用的状态存储，以便在从通用音频编码至语音编码的转变期间通过处理由各种滤波器输出的通用音频帧来解码语音的后续帧。用于滤波器的参数可以与在对应的语音编码器中的相同，或者可以是在语音解码器中使用的互补或反相。例如，滤波器状态生成器407能够将下采样滤波器状态存储提供给滤波器510。滤波器状态生成器409能够将预加重滤波器状态存储提供给滤波器509。LPC分析块403和合成滤波器状态生成器411能够将线性预测系数提供给LPC滤波器507。自适应码本状态生成块413能够将自适应码本状态存储提供给自适应码本503。而且，能够将其他参数和状态存储从状态生成器260提供给语音解码器230。

因此，能够利用来自状态生成器260的块的状态信息来初始化解码器230。该初始化能够在音频编解码器之间切换时通过使用组合帧来减少音频输出干扰。该组合帧可以补偿由重新采样所导致的时间延迟，并且可以初始化第二编解码器，以减少由音频编解码器切换而可能导致的音频输出失真。语音解码器状态存储生成器260的块能够处理来自通用音频解码器220的重叠相加的存储与前导通用音频帧的组合，以生成用于语音解码器230的状态用于在通用音频和语音之间转变。

图6是根据可能的实施例的语音编码器状态存储生成器160和语音编码器130的示例框图。语音编码器状态存储生成器160能够包括4/5下采样滤波器601。语音编码器状态存储生成器160能够包括耦合到下采样滤波器601的输出的预加重滤波器603。语音编码器状态存储生成器160能够包括耦合到预加重滤波器603的输出的LPC分析滤波器605。语音编码器状态存储生成器160能够包括耦合到LPC分析滤波器605的输出并耦合到预加重滤波器603的输出的LPC分析滤波器A_q(z)块607。语音编码器状态存储生成器160能够包括耦合到LPC分析滤波器607的输出和/或耦合到LPC分析滤波器605的输出的零输入响应滤波器状态生成块609。语音编码器状态存储生成器160能够包括耦合到LPC分析滤波器607的输出的自适应码本状态生成块611。

语音编码器130能够包括自适应码本633和加权的合成滤波器零输入响应滤波器H_zir(z)。语音编码器状态存储生成器160能够以初始化状态来初始化语音编码器130。例如，零输入响应滤波器状态生成块609和LPC分析块605能够向加权的合成滤波器零输入响应块631提供初始化状态和/或参数。而且，自适应码本状态生成块611能够向自适应码本633能够提供初始化状态和/或参数。语音编码器状态存储生成器160还能够利用初始化状态和参数来初始化语音编码器130。

图7示出了示例流程图700，流程图700根据可能的实施例示出了诸如包括混合编码器100的设备的通信设备的操作。在710，该流程能够开始。

在720，通过使用第一编码方法编码帧序列中的第一音频帧能够产生编码的输出音频采样的第一帧。能够以第一采样率采样编码的输出音频采样。通过使用通用音频编码方法对帧序列中的第一音频帧进行编码，能够产生编码的输出音频采样的第一帧，其中编码的输出音频采样能够是以第一采样率采样的。

在730中，使用第一编码方法能够形成第一帧的重叠相加的部分。第一帧的重叠相加的部分能够是第一帧的修正的离散余弦变换合成存储部分。

在740，基于将编码的输出音频采样的第一帧和第一帧的重叠相加的部分组合，能够生成编码的音频采样的组合第一帧。基于将第一帧的重叠相加的部分附加到编码的输出音频采样的第一帧，能够生成编码的音频采样的组合第一帧。基于将第一帧的缩放的重叠相加的部分附加到编码的输出音频采样的第一帧，也能够生成组合第一帧。能够生成编码的音频采样的组合第一帧，以补偿由以第二采样率对编码的音频采样的组合第一帧重新采样所导致的延迟。

在750，能够以第二采样率重新采样编码的音频采样的组合第一帧，以生成编码的音频采样的重新采样的组合第一帧。通过以第二采样率将编码的音频采样的组合第一帧下采样，能够重新采样编码的音频采样的组合第一帧，以生成编码的音频采样的下采样的组合第一帧。

在760，能够基于编码的音频采样的组合第一帧初始化第二编码方法的状态。还能够基于编码的音频采样的重新采样的组合第一帧来初始化第二编码方法的状态。还能够通过基于编码的音频采样的重新采样的组合第一帧初始化重新采样滤波器的状态和/或语音编码方法的状态，来初始化第二编码方法的状态。

在770，能够基于第二编码方法的初始化状态和音频输入信号，来构造输出信号。通过基于语音编码方法的初始化状态构造可听的语音信号，能够构造输出信号。还能够通过基于第二编码方法的初始化状态为第一帧之后的第二帧构造输出信号，来构造输出信号。还能够通过基于第二编码方法的初始化状态和音频输出信号构造编码的比特流，来构造输出信号。

在780，流程图700能够结束。根据一些实施例，并非流程图700的所有块都是必需的。此外，流程图700或流程图700的块可以诸如反复地执行多次。例如，流程图700可以从后面的块循环回到前面的块。此外，许多块能够并发地或以并行处理的方式来执行。

图8示出了示例流程图800，流程图800根据可能的实施例示出了诸如包括混合解码器200的设备的通信设备的操作。在810，流程图能够开始。

在820，能够通过使用第一解码方法解码帧序列中的比特流帧来产生解码的输出音频采样的第一帧。能够以第一采样率采样解码的输出音频采样。

在830，能够使用第一解码方法形成第一帧的重叠相加的部分。第一帧的重叠相加的部分能够是第一帧的修正的离散余弦变换合成存储部分。

在840，能够基于将解码的输出音频采样的第一帧和第一帧的重叠相加的部分组合，来生成解码的音频采样的组合第一帧。能够生成解码的音频采样的组合第一帧以补偿当以第二采样率对解码的音频采样的组合第一帧重新采样时产生的时间延迟。能够基于将第一帧的重叠相加的部分附加到解码的输出音频采样的第一帧，来生成解码的音频采样的组合第一帧。还能够基于将第一帧的缩放的重叠相加的部分附加到解码的输出音频采样的第一帧，来生成解码的音频采样的组合第一帧。

在850，能够以第二采样率重新采样解码的音频采样的组合第一帧，以生成解码的音频采样的重新采样的组合第一帧。通过以第二采样率将解码的音频采样的组合第一帧下采样，能够重新采样解码的音频采样的组合第一帧，以生成解码的音频采样的下采样的组合第一帧。

在860，能够基于组合或[微软用户1]解码的音频采样的重新采样的组合第一帧，来初始化第二解码方法的状态。通过基于解码的音频采样的组合第一帧，诸如基于解码的音频采样的下采样的组合第一帧，来初始化语音解码方法，能够将第二解码方法的状态初始化。

在870，能够基于诸如语音编码方法的第二编码方法的初始化状态和音频输出信号s(n+1)，构造输出信号。例如，能够基于第二解码方法的初始化状态，从对于第一帧之后的第二帧重新构造的音频帧构造输出信号。

在880，流程图800能够结束。根据某些实施例，并不是所有的流程图800的块都是必需的。此外，流程图800或流程图800的块可以诸如反复地执行多次。例如，流程图800可以从后面的块循环返回到前面的块。此外，许多块能够并发地或以并行处理的方式来执行。

图9是根据可能的实施例的通信设备900的示例框图。通信设备900能够包括壳体910、位于壳体910内的控制器912、耦合到控制器912的音频输入和输出电路916、耦合到控制器912的显示器980、耦合到控制器912的收发器950、耦合到收发器950的天线955、耦合到控制器912的其他用户接口914以及耦合到控制器912的存储器970。

通信设备900还能够包括第一编解码器920、组合器940、状态生成器960以及第二编解码器930。第一编解码器920能够是编码器、解码器或者编码器和解码器的组合。第二编解码器930能够是编码器、解码器或者编码器和解码器的组合。第一编解码器920、组合器940、状态生成器960和/或第二编解码器930能够被耦合到控制器912、能够驻留在控制器912内、能够驻留在存储器970内、能够是自主的模块、能够是软件、能够是硬件，或者能够是对用于通信设备900的模块有用的其他任何形式。第一编解码器920能够执行通用音频编码器120和/或通用音频解码器220的操作。组合器940能够执行转变音频组合器140和/或转变音频组合器240的功能。状态生成器960能够执行语音编码器状态存储生成器160和/或语音解码器状态存储生成器260的功能。第二编解码器930能够执行语音编码器130和/或语音解码器230的功能。

显示器980能够是液晶显示器（LCD）、发光二极管（LED）显示器、等离子显示器、触摸屏显示器、投影仪或用于显示信息的任何其他装置。其他方法能够用于将信息显现给用户，诸如听觉上通过扬声器或者运动感觉上通过振动器。收发器950可以包括传输器和/或接收器，并且能够传输有线和/或无线通信信号。音频输入和输出电路916能够包括麦克风、扬声器、换能器或其他音频输入和输出电路。用户接口914能够包括键盘、按钮、触摸板、操作杆、附加显示器、触摸屏显示器或用于在用户和电子设备之间提供接口的任何其他设备。存储器970能够包括随机存取存储器、只读存储器、光学存储器、订户识别模块存储器、闪速存储器或任何能够耦合到通信设备的其他存储器。

用户接口914、音频输入输出电路916和/或收发器950能够诸如通过第二编解码器930创建基于第二编码或解码方法的初始化状态构造的输出信号。而且，又或者，存储器970能够存储基于第二编码或解码方法的初始化状态构造的输出信号。

本公开的方法能够在编程的处理器上实施。然而，实施例的操作也可以在非临时性机器可读储存器或通用或专用计算机、编程的微处理器或微控制器及外围集成电路元件、集成电路、诸如离散元件电路、可编程逻辑器件的硬件电子或逻辑电路等上实施，其中在非临时性机器可读储存器上存储有具有多个代码段的程序，这多个代码段包括在流程图中所示的块。总之，在其上驻留有能够实施这些实施例的操作的有限状态机的任何设备可以被用于实施本公开的处理器功能。

尽管已经利用其具体实施例描述了本公开，但是很显然的是，许多替换、修正和变化对本领域的技术人员将是显而易见的。例如，实施例的各种组件可以在其他实施例中被互换、添加或代替。而且，对于公开的实施例的操作来说，并不是每个图的所有元件都是必需的。例如，通过简单地采用独立权利要求的要素，本公开实施例的技术领域的人员将能够制作并使用本公开的教导。因此，如在本文阐述的公开的实施例意图是说明性的而非限制。在不脱离本发明的精神和范围的情形下，能够进行各种修改。

在本文档中，诸如“第一”、“第二”等的相关术语仅用于区别一个实体或动作与另一实体或动作，而非必需要求或暗示在这些实体和动作之间的任何实际这样的关系或顺序。除非另有说明，否则术语“耦合”表示元件可以连接在一起，但并不要求直接连接。例如，元件可以通过一个或更多中介元件连接。此外，通过在元件之间使用物理连接、通过在元件之间使用电信号、通过在元件之间使用射频信号、通过在元件之间使用光学信号、通过在元件之间提供功能性交互，或者通过其他方式将两个元件关联在一起，可以耦合两个元件。而且，诸如“顶端”、“底端”、“前部”、“后部”、“水平”、“垂直”等的关系术语，可以仅用于区分元件相对于彼此的空间取向，而不必表示相对于任何其他物理坐标系的空间取向。术语“包括（comprises）”、“包括（comprising）”或其任何其他变体，旨在涵盖非排他性包含，以便包括元件列表的处理、方法、物件和装置不仅包含那些元件，而且可以包含未明确列出的或这种处理、方法、物件或装置所固有的其他元件。在没有更多限制条件的情况下，元件前面的“一个（a）”、“一个（an）”等不排除在包括该元件的处理、方法、物件或装置中存在另外的相同元件。而且，术语“另一（another）”被定义为至少又一或更多。在此使用的术语“包含（including）”、“具有（having）”等被定义为“包括（comprising）”。

Claims

1.一种用于处理音频帧的方法，包括：

使用第一编码方法，通过对帧序列中的第一音频帧进行编码来产生编码的输出音频采样的第一帧，其中所述编码的输出音频采样是以第一采样率采样的；

使用所述第一编码方法，形成所述第一帧的重叠相加的部分；

基于将所述编码的输出音频采样的第一帧与所述第一帧的所述重叠相加的部分组合，生成编码的音频采样的组合第一帧；

基于所述编码的音频采样的组合第一帧，初始化第二编码方法的状态；以及

基于所述第二编码方法的初始化状态，构造输出信号，

其中，生成组合第一帧包括：

以第二采样率重新采样所述编码的音频采样的组合第一帧，以生成编码的音频采样的重新采样的组合第一帧，

其中，所述初始化包括基于所述编码的音频采样的重新采样的组合第一帧来初始化所述第二编码方法的状态。

2.根据权利要求1所述的方法，其中，所述初始化包括：

基于所述编码的音频采样的重新采样的组合第一帧，初始化至少所述第二编码方法的重新采样滤波器的状态。

3.根据权利要求1所述的方法，其中，基于将所述编码输出音频采样的第一帧与所述第一帧的所述重叠相加的部分组合，生成所述编码的音频采样的组合第一帧，以补偿由于以所述第二采样率重新采样所述编码的音频采样的组合第一帧所造成的延迟。

4.根据权利要求1所述的方法，其中，所述第一帧的所述重叠相加的部分包括所述第一帧的修正的离散余弦变换合成存储部分。

5.根据权利要求1所述的方法，其中，所述第一编码方法是通用音频编码方法，并且所述第二编码方法是语音编码方法。

6.根据权利要求5所述的方法，其中，所述重新采样包括：

以所述第二采样率将所述编码的音频采样的组合第一帧下采样，以生成编码的音频采样的下采样的组合第一帧，

其中，所述初始化包括基于所述编码的音频采样的下采样的组合第一帧来初始化所述语音编码方法的状态。

7.根据权利要求1所述的方法，其中，所述生成组合第一帧包括：

基于将所述第一帧的所述重叠相加的部分附加到所述编码的输出音频采样的第一帧，生成所述编码的音频采样的组合第一帧。

8.根据权利要求1所述的方法，其中，所述构造输出信号包括：

基于所述第二编码方法的所述初始化状态，针对在所述第一帧后面的第二帧，构造所述输出信号。

9.一种用于处理音频帧的方法，包括：

使用第一解码方法，通过对帧序列中的比特流帧进行解码来产生解码的输出音频采样的第一帧，其中所述解码的输出音频采样是以第一采样率采样的；

使用所述第一解码方法，形成所述第一帧的重叠相加的部分；

基于将所述解码的输出音频采样的第一帧与所述第一帧的所述重叠相加的部分组合，生成解码音频采样的组合第一帧，

基于所述解码的音频采样的组合第一帧，初始化第二解码方法的状态；以及

基于所述第二解码方法的初始化状态，构造输出信号，

其中，生成组合第一帧包括：

以第二采样率重新采样所述解码的音频采样的组合第一帧，以生成解码的音频采样的重新采样的组合第一帧，

其中，所述初始化包括基于所述解码的音频采样的重新采样的组合第一帧来初始化所述第二解码方法的状态。

10.根据权利要求9所述的方法，其中，所述初始化包括：

基于所述解码的音频采样的重新采样的组合第一帧，初始化至少所述第二解码方法的重新采样滤波器的状态。

11.根据权利要求9所述的方法，其中，基于将所述解码的输出音频采样的第一帧与所述第一帧的所述重叠相加的部分组合，生成所述解码的音频采样的组合第一帧，以补偿由于以所述第二采样率重新采样所述解码的音频采样的组合第一帧所造成的延迟。

12.根据权利要求9所述的方法，其中，所述第一帧的所述重叠相加的部分包括所述第一帧的修正的离散余弦变换合成存储部分。

13.根据权利要求9所述的方法，其中，所述第一解码方法是通用音频解码方法，所述第二解码方法是语音解码方法，并且所述输出信号是可听的语音信号。

14.根据权利要求13所述的方法，其中，所述重新采样包括：

以所述第二采样率将所述解码的音频采样的组合第一帧下采样，以生成解码的音频采样的下采样组合第一帧，

其中，初始化包括基于所述解码的音频采样的下采样组合第一帧来初始化所述语音解码方法的状态。

15.根据权利要求9所述的方法，其中，所述生成组合第一帧包括：

基于将所述第一帧的所述重叠相加的部分附加到所述解码的输出音频采样的第一帧，生成所述解码的音频采样的组合第一帧。

16.根据权利要求9所述的方法，其中，所述构造输出信号包括：

基于所述第二解码方法的所述初始化状态，针对在所述第一帧后面的第二帧，构造所述输出信号。

17.一种用于处理音频帧的装置，包括：

第一编码器，所述第一编码器被配置成使用第一编码方法，通过对帧序列中的第一音频帧进行编码来产生编码的输出音频采样的第一帧，其中所述编码的输出音频采样是以第一采样率采样的，所述第一编码器还被配置成使用所述第一编码方法形成所述第一帧的重叠相加的部分；

转变音频组合器，所述转变音频组合器被配置成基于将所述编码的输出音频采样的第一帧与所述第一帧的所述重叠相加的部分组合，生成编码的音频采样的组合第一帧；

第二编码器状态生成器，所述第二编码器状态生成器被配置成基于所述编码的音频采样的组合第一帧，初始化第二编码方法的状态；以及

第二编码器，所述第二编码器被配置成基于所述第二编码方法的初始化状态，构造输出信号，

其中，生成组合第一帧包括以第二采样率重新采样所述编码的音频采样的组合第一帧，以生成编码的音频采样的重新采样的组合第一帧，

其中，所述初始化第二编码方法的状态基于所述编码的音频采样的重新采样的组合第一帧来初始化所述第二编码方法的所述状态。

18.根据权利要求17所述的装置，其中，所述第一编码方法是通用音频编码方法，并且所述第二编码方法是语音编码方法。

19.根据权利要求17所述的装置，其中，所述转变音频组合器被配置成基于将所述第一帧的所述重叠相加的部分附加到所述编码的输出音频采样的第一帧，生成所述编码的音频采样的组合第一帧。

20.一种用于处理音频帧的装置，包括：

第一解码器，所述第一解码器被配置成使用第一解码方法，通过将帧序列中的比特流帧解码来产生解码的输出音频采样的第一帧，其中所述解码的输出音频采样是以第一采样率采样的，所述第一解码器还被配置成使用所述第一解码方法形成所述第一帧的重叠相加的部分；

转变音频组合器，所述转变音频组合器被配置成基于将所述解码的输出音频采样的第一帧与所述第一帧的所述重叠相加的部分组合，生成解码的音频采样的组合第一帧；

第二解码器状态生成器，所述第二解码器状态生成器被配置成基于所述解码的音频采样的组合第一帧，初始化第二解码方法的状态；以及

第二解码器，所述第二解码器被配置成基于所述第二解码方法的初始化状态来构造输出信号，

其中，生成组合第一帧包括以第二采样率重新采样所述解码的音频采样的组合第一帧，以生成解码的音频采样的重新采样的组合第一帧，

其中，所述初始化第二编码方法的状态基于所述解码的音频采样的重新采样的组合第一帧来初始化所述第二解码方法的状态。

21.根据权利要求20的所述装置，其中，所述第一解码方法是通用音频解码方法，所述第二解码方法是语音解码方法，并且所述输出信号是可听的语音信号。

22.根据权利要求20所述的装置，其中，所述转变音频组合器被配置成基于将所述第一帧的所述重叠相加的部分附加到所述解码的输出音频采样的第一帧，生成所述解码的音频采样的组合第一帧。