CN106462557A

CN106462557A - 通过内插对音频信号进行重采样用于低延迟编码/解码

Info

Publication number: CN106462557A
Application number: CN201580034893.4A
Authority: CN
Inventors: B.科韦西; S.拉戈
Original assignee: Ao Lanzhi
Current assignee: Ao Lanzhi; Orange SA
Priority date: 2014-06-27
Filing date: 2015-06-25
Publication date: 2017-02-22
Anticipated expiration: 2035-06-25
Also published as: EP3161659A1; PL3161659T3; EP4047492A1; CN106462557B; EP3161659B1; PT3161659T; JP6641302B2; US10510357B2; FR3023036A1; ES2928307T3; KR102304285B1; KR20170024059A; WO2015197989A1; JP2017526950A; US20170133027A1

Abstract

本发明涉及一种用于在音频信号编码或解码操作中对音频信号进行重采样的方法，所述重采样通过大于一阶的内插方法来进行。该方法为使得内插样本是通过计算可能内插值的加权平均值而获得(E702)的，这些可能内插值是在覆盖待内插样本的时间位置的多个区间上计算(E701)的。本发明还涉及一种实现所描述的方法的重采样设备、以及一种包括至少一个设备的编码器和解码器。

Description

通过内插对音频信号进行重采样用于低延迟编码/解码

技术领域

本发明涉及对音频信号进行处理以便对其进行传输或存储。更具体地，本发明涉及在对音频信号进行编码或解码时采样频率的改变。

背景技术

存在许多技术用于压缩(有损耗)音频信号(如语音或音乐)。编码可以直接在输入信号的采样频率上进行，如例如在ITU-T建议G.711或G.729中那样，其中，在8kHz下对输入信号进行采样，并且编码器和解码器在此同一个频率上进行操作。

然而，一些编码方法使用采样频率的变化来例如降低编码的复杂度、根据不同的有待编码的频率子带对编码进行适配、或者对输入信号进行转换以使其与编码器的预定义内部采样频率相对应。

在ITU-T建议G.722中定义的子带编码中，16kHz输入信号被划分成由ADPCM(自适应差分脉冲编码调制)型编码器单独编码的两个子带(在8kHz下进行采样)。这种划分成两个子带是由23阶的具有有限脉冲响应(FIR)的二次模镜像滤波器组来进行的，其理论上产生16毫秒23个样本的分析合成延迟(编码器+解码器)；该滤波器组是与多相实现方式结合使用的。G.722中划分成两个子带使得可以根据其先验感知重要性来以预定方式向这两个子带分配不同的比特率，并且还通过在较低频率上执行两个ADPCM型编码器来降低总体编码复杂度。然而，与直接ADPCM编码相比较，其引起了算法延迟。

已知各种用于通过使用(例如并且以非详尽的方式)FIR(有限脉冲响应)滤波器、IIR(无限脉冲响应)滤波器或多项式内插(包括样条)来改变数字信号的采样频率(又称为重采样)的方法。可以在例如R.W.沙费尔(R.W.Schafer)、L.R罗宾纳(L.R.Rabiner)的文章“Digital Signal Processing Approach to Interpolation(用于插值的数字信号处理法)”电气与电子工程师协会会报，第61卷，第6期，1973年6月，692-702页中找到对常规重采样方法的综述。

FIR(对称型)滤波器的优点在于其简化的实现方式并且——受制于某些条件——在于确保线性相位的可能性。线性相位滤波使得可以保存输入信号的波形，但其还可能伴有可能在瞬态产生前回波型伪信号的时间扩展(振荡)。本方法产生一般大约1到几毫秒的延迟(其是脉冲响应长度的函数)以确保适当的滤波特性(带内纹波、足以消除混叠图像或频谱图像的抑制电平等)。

重采样的另一种替代方案是使用多项式内插技术。多项式内插对于具有接近频率(例如，从16kHz到12.8kHz)的上采样或下采样尤其有效。

针对具有高比率(例如，从32kHz到12.8kHz)的下采样的情况，多项式内插不是最合适的方法，因为其没有消除由于高频造成的混叠(在从32kHz到12.8kHz的下采样的示例中，其涉及从6.4kHz到16kHz的频率)。多项式内插相对于滤波技术的优势是低延迟甚至零延迟、以及还有通常更低的复杂度。如稍后在本发明的实施例中所描述的，内插的使用对于具有短长度(大约10个左右的样本)的向量的重采样而言尤其有利，诸如例如滤波器存储器。

取决于内插的局部或非局部性质并且根据k阶导数的连续性的可能约束，最著名且最广泛使用的多项式内插技术是采用若干种变体的线性内插、抛物线内插、三次内插。

这里，更详细地考虑了所谓的拉格朗日内插的简单情况，其中，从预定义点中标识了多项式曲线的参数。假设，如果待内插的点的数量大于进行内插所严格必需的预定义点的数量，则局部重复这种内插。在现有技术中，更为复杂的技术(诸如与具有k阶连续导数的连续性的约束的分段多项式相对应的内插“样条”或B-样条)是众所周知的；在此不再对这些复杂技术进行回顾，因为本发明与其有所差异。

图1示出了1阶线性内插(o1，虚线)、2阶抛物线内插(o2，不连续线)、3阶三次内插(o3，实线)和4阶内插(o4，点划线)之间的比较。

针对线性内插，两点确定方程为vl(x)＝a1*x+b1的直线。在图1中，使用了在时刻x＝0和x＝1处的点，这些点界定了区间[0，1]。如果这些点的值分别是v(0)和v(1)，则如下获得系数a1和b1：

a1＝v(1)–v(0)

b1＝v(0)

直线的系数a1和b1是通过使用单个加法运算获得的，并且内插样本vl(x)的计算需要加法运算和乘法运算、或乘加运算(MAC)。

针对抛物线内插，三点确定方程为vp(x)＝a2*x²+b2*x+c2的抛物线。在图1中，使用了在时刻x＝-1、x＝0和x＝1处的点，这些点界定了2个区间[-1，0]和[0，1]。如果这些点的值分别是v(-1)、v(0)和v(1)，则如下获得系数a2、b2和c2：

a2＝(v(-1)+v(1))/2–v(0)

b2＝v(1)–v(0)-a2

c2＝v(0)

获得抛物线的系数a2、b2和c2需要4次加法运算和一次乘法运算或者3次加法运算和一次MAC运算。内插样本vp(x)的计算需要2次加法运算和3次乘法运算或者一次乘法运算和2次MAC运算。

针对三次内插，四点确定方程为vc(x)＝a3*x³+b3*x²+c3*x+d3的三次曲线。在图1中，使用了在时刻x＝-1、x＝0、x＝1和x＝2处的点，这些点界定了3个区间[-1，0]、[0，1]和[1，2]。如果这些点的值分别是v(-1)、v(0)、v(1)和v(2)，则如下获得系数a3、b3、c3和d3：

b3＝(v(-1)+v(1))/2–v(0)

a3＝(v(-1)+v(2)–v(0)–v(1)–4*b3)/6

c3＝v(1)–v(0)–b3–a3

d3＝v(0)

获得三次曲线的系数a3、b3、c3和d3需要9次加法运算和3次乘法运算或者7次加法运算、2次MAC运算和一次乘法运算。内插样本vc(x)的计算需要3次加法运算和6次乘法运算或者通过优化需要2次乘法运算和3次MAC运算。

针对4阶内插，5点确定方程为v4(x)＝a4*x⁴+b4*x³+c4*x²+d4*x+e4的4阶曲线。在图1中，使用了在时刻x＝-2、x＝-1、x＝0、x＝1和x＝2处的点，这些点界定了4个区间[-2，-1]、[-1，0]、[0，1]和[1，2]。如果这些点的值分别是v(-2)、v(-1)、v(0)、v(1)和v(2)，则如下获得系数a4、b4、c4、d4和e4：

vt1＝v(-2)+v(2)–2*v(0)

vt2＝v(-1)+v(1)–2*v(0)

vt3＝v(2)–v(-2)

vt4＝v(1)–v(-1)

a4＝(vt1-4*vt2)/24

b4＝(vt3-2*vt4)/12

c4＝(16*vt2-vt1)/24

d4＝(8*vt4-vt3)/12

e4＝v(0)

获得4阶曲线的系数a4、b4、c4、d4和e4需要10次加法运算和10次乘法运算或者6次加法运算、8次MAC运算和2次乘法运算。计算内插样本vc(x)需要4次加法运算和10次乘法运算或者通过优化需要3次乘法运算和4次MAC运算。

为了计算曲线的系数(例如，不失一般性地，三次曲线的系数a3、b3、c3和d3)，推荐考虑4个连续的输入样本如同它们是指数x＝-1、x＝0、x＝1和x＝2的样本以便简化计算。

当执行信号的重采样时，期望知道由这2个点界定的区间内的待重采样的信号的2个已知点之间的信号的值。例如，针对因子2的上采样，需要估计x＝0.5的信号的值。为了进行此估计，仅计算值vl(0.5)、vp(0.5)或vc(0.5)之一。

通过使用线性内插，使用将2个已知的相邻点(用于计算x＝0.5的x＝0和x＝1、以及用于计算x＝1.5的x＝1和x＝2)连接起来的直线。

在2阶内插的情况下，存在在2条可能的抛物线之间的选择，因为确定抛物线的3点界定了2个区间。例如，针对x＝0.5，可以选取将点x＝-1、x＝0和x＝1或者点x＝0、x＝1和x＝2连接起来的曲线。在实验上，有可能检查到2个解决方案将具有相同质量。有利地，为了降低复杂度，有可能使用针对2个区间的单条抛物线；以下在讨论抛物线内插时使用这种简化。

在3阶内插的情况下，三次曲线通过4个输入样本，这些输入样本界定了3个区间，两端的2个区间和一个中心区间。通常并且如在图6呈现的结果中，中心区间[0，1]用于从在时刻x＝-1、0、1和2处的点执行内插。

在4阶内插的情况下，曲线通过5个输入样本，这些输入样本界定了4个区间，两端的2个区间和两个中心区间。在实验上，可以示出使用这两个中心区间之一给出了更好的结果，并且这两个中心区间给出了相同质量。对于抛物线的情况，在此还有可能通过多组2个输入样本进行。

为了比较现有技术的这些内插的性能水平，以12800Hz和32000Hz的采样频率两者生成具有200Hz到6400Hz频率和200Hz音调的一系列正弦曲线。然后，12800Hz的正弦曲线被上采样至32kHz，并且针对每个正弦曲线频率以及针对每种内插方法(其中，通过FIR进行对重采样的延迟补偿)测量信噪比(SNR)。在此重要的是应注意到，内插是通过偏移时刻x0以使得其与以输入频率进行的当前采样相一致来实现的；因此，内插是在没有延迟的情况下完成的。在待重采样的输入信号的边沿处的样本(也就是说，第一样本和最后的样本)被忽略。图2总结了利用线性内插(“线性”)、抛物线或2阶内插(“o2”，通过使用针对2个区间的1条抛物线)、三次或3阶内插(“o3”，通过使用中心区间)、4阶内插(“o4”，通过使用针对2个区间的4阶曲线的2个中心区间)、三次“样条”内插(“样条”，通过使用矩阵实验室“样条”命令)以及由FIR滤波进行的重采样(“FIR”，通过使用矩阵实验室命令“s32＝重采样(s12、5、2、30)”)而获得的结果。结果表明，FIR滤波以更高的复杂度及后续的算法延迟为代价针对高达5500Hz的所有频率给出了更好的拟常SNR(在此通过使用FIR滤波器的脉冲响应来进行补偿，如同其是零相位滤波器)。不同的内插针对低频率具有良好的性能水平，但是SNR随着频率的增加迅速下降。内插阶数越高，结果越好，但是这种改进对于频谱的后半部分是有限的，其中，3阶内插与4阶内插之间的差异并不显著并且针对频谱的最后四分之一不存在。利用三次内插，对于高于2500Hz的频率，SNR小于30dB，此限制对于4阶内插是2800Hz。以更高的复杂度为代价，三次“样条”内插提供了在3500Hz上具有30dB的最佳内插性能水平。在下文中，FIR内插将被视为参考。还针对语音信号(相对于通过FIR获得的参考信号)测量了SNR。利用线性内插获得的信噪比是34.7dB，利用抛物线内插是35.5dB，利用三次内插是38.2dB，利用4阶内插是37.9dB，并且利用三次“样条”内插是41.4dB。因此，可以得出结论，高于3阶的内插是几乎没有意义的，针对真实信号无法测量这种阶数上的增加。以下将不考虑4阶内插的情况。

图3展示了在真实情况下从12800Hz到32000Hz的内插。正方形表示12800Hz的信号的样本，三角形表示通过FIR方法被上采样至32000Hz的信号样本，该方法给出了将在以下被用作基础的参考信号。竖直虚线给出了在32kHz下的采样时刻。将观察到的是，在此示例中，针对2个12.8kHz的输入样本，获得了5个32kHz的输出样本，其中的一个输出样本与输入样本之一相同(其仍需要复制操作)。在12.8kHz的连续输入样本之间的每个区间对两个样本进行内插。因此，有可能估计到的是，针对2个输入样本，不同内插的计算复杂度，通过假设加法、乘法或MAC运算均具有相同的权重(这是针对大多数信号处理处理器、或数字信号处理器(DSP)的情况)：

-线性内插：2条直线、4个内插样本和一个副本：7次运算，即每秒44800次运算。

-抛物线内插：1条抛物线、4个内插样本和一个副本：17次运算，即每秒108800次运算。

-三次内插：2条三次曲线、4个内插样本和一个副本：41次运算，即每秒262400次运算。

可以通过对值x²和x³进行制表(也就是说通过预先计算它们并将它们存储在表格中)来进一步降低这些复杂度。这是可能的，因为总是使用相同的时间索引，例如内插在区间[0，1]内进行。例如，在三次内插中并且在从12800Hz到32000Hz的上采样的示例中，必须仅针对x＝0.2、0.4、0.6和0.8来对这些值进行制表。这可节省每个内插样本一次或两次乘法。因此，针对抛物线内插，复杂度降低至13次运算，即每秒83200次运算，并且针对三次内插，其降低至33次运算，即每秒211200次运算。

在图4中，图3已经完成了对线性内插的展示。通过2个输入样本(正方形标记)之间的直线(由实线和虚线进行展示)的交叉点以及输出采样时刻(竖直虚线)的交叉点给出了上采样信号(圆形标记)的样本。与参考信号(三角形标记)相比，可观察到若干显著的偏差。将注意的是，所使用的不同直线由实线或由虚线交替表示。

采用类似于图4的方式，图5展示了利用针对2个区间计算的抛物线的抛物线内插。最大的误差是在时刻281.5μs处。将注意的是，所使用的不同抛物线由实线或由虚线交替表示。

图6展示了三次内插。利用中心区间获得了由圆形标记展示的内插样本。再一次，观察到相对于参考信号的若干偏差。在此假设在图中所表示的时域外已知输入信号，从而使得边沿处的样本(在此，该两个第一和该两个最后输入样本)可用于内插。将注意的是，所使用的不同三次曲线由实线或由虚线交替表示；将回想起，仅使用了中心区间。

可以看出这些内插可以得到完善。已经表明，内插阶数增加超过3并不是有利的解决方案。从现有技术中已知的是，内插“样条”通常可达到更好的性能水平，但是以更高的复杂度为代价。

发明内容

因此，需要开发一种具有降低的复杂度增加的更为高效的内插解决方案。

本发明改进了来自现有技术的情况。

为此，本发明提出了一种用于在音频解码时对音频信号进行重采样的方法，该重采样通过高于一阶的内插方法来进行。该方法为使得内插样本是通过计算可能内插值的加权平均值而获得的，这些可能内插值是在覆盖待内插样本的时间位置的多个区间上所计算的。

因此，在若干区间上所获得的可能内插值的平均值使得有可能获得接近真实信号值的内插样本值。在复杂度方面，这种加权平均值计算运算成本不高，这使得可能获得降低复杂度增加的更为高效的内插。

下文提及的不同具体实施例可以被单独地或彼此组合地添加至以上所描述的重采样方法中。

在特定实施例中，内插是2阶抛物线型。

在这种情况下，内插样本是通过计算可能内插值的加权平均值而获得的，这些可能内插值是在覆盖待内插样本的时间位置的两个区间上计算的。

这一解决方案给出了与简单三次内插几乎相等但不太复杂的结果。

在本发明的一个实施例中，内插是3阶三次曲线型，并且覆盖待内插样本的时间位置的区间数是3。

这一实施例使得可能具有良好质量的内插，内插样本比通过仅利用中心区间获得的简单三次内插被内插的样本更接近参考信号。因此，质量被提升到可比较的复杂度。

在特定实施例中，针对可能内插值中的每个可能内插值利用同一个权重值来应用加权平均。

这些权重值使得可能获得仍大于拉格朗日多项式内插的性能水平以及特别地更好的信噪比。

在变体实施例中，不同的权重值应用于针对该三个区间的中心区间而计算的内插值并且应用于计算该加权平均值。

如果这些权重之一具有零值，则这一变体针对高频率降低了复杂度并且提高了信噪比性能水平。更一般地，取决于所选定的权重值，性能水平可提升到特定的频区。

在另一变体实施例中，应用于这些可能内插值的权重值是根据该待内插样本的频率标准来确定的。

不考虑待内插的信号的频率，这使得可能具有更好的信噪比性能水平。

在特别适合的实施例中，对包含在FIR类型的重采样滤波器的存储器中的信号执行重采样。

实际上，这种重采样方法特别适于像滤波器存储器的短长度信号向量。

在特定的实施例上下文中，在预测解码与变换解码之间的过渡帧中根据受限的预测解码而解码的样本与根据变换解码而解码的样本之间进行组合的步骤之前，这些内插样本补充该过渡帧中根据该受限的预测解码模式而解码的信号。

根据本发明的重采样适于在两种编码模式之间进行过渡的这种上下文以及当由于重采样造成的延迟可能会导致样本缺乏时。针对这种类型的短长度信号，所提出的内插则是有效的且不太复杂。

本发明目标还在于一种用于在音频信号编码器或解码器中对音频信号进行重采样的设备，该重采样通过高于一阶的内插方法来进行。该设备为使得其包括：

-用于针对覆盖待内插样本的时间位置的多个区间计算可能内插值的模块；以及

-用于通过计算源自该计算模块的这些可能内插值的加权平均值来获得该待内插样本的模块。

这种设备提供了与其所实现的前述方法相同的优点。

本发明目标还在于一种包括至少一个如所述的重采样设备的音频信号编码器和解码器。

本发明的目标在于一种包括代码指令的计算机程序，当这些指令由处理器执行时用于实现如所述的重采样方法的各个步骤。

最后，本发明涉及一种计算机可读存储介质，该计算机可读存储介质合并到或不合并到该重采样设备中、可能地可移除的、存储实现如前述的重采样方法的计算机程序。

附图说明

通过阅读以下仅作为非限制性示例给出并且参照这些附图所作出的描述，本发明的其他特征和优点将变得更清晰明显，在附图中：

-如前所述，图1展示了通过由x轴上表示的时刻的预定义点限定的多项式曲线的表示、来自现有技术的不同类型的内插之间的比较；

-如前所述，图2展示了根据现有技术的不同类型的内插的频率的信噪比的结果；

-如前所述，图3展示了用于由FIR类型的滤波器进行的从12800Hz到32000Hz的重采样的内插；

-如前所述，图4展示了通过FIR类型的内插以及通过来自现有技术的线性类型的内插而获得的样本之间的比较；

-如前所述，图5展示了通过FIR类型的内插以及通过来自现有技术的抛物线类型的内插而获得的样本之间的比较；

-如前所述，图6展示了通过FIR类型的内插以及通过来自现有技术的三次曲线型的内插而获得的样本之间的比较；

-图7以流程图的形式展示了根据本发明的实施例的重采样方法的步骤；

-图8展示了根据本发明的实施例的包括重采样设备的音频信号编码器的示例；

-图9a展示了根据现有技术方法的利用预测编码而编码的信号帧与通过变换而编码的帧之间的过渡；

-图9b展示了利用预测编码而编码的信号帧与通过使用根据本发明的实施例的重采样方法进行变换而编码的帧之间的过渡；

-图10展示了根据本发明的实施例的包括重采样设备的音频信号解码器的示例；

-图11展示了对在待内插区间边沿处的样本进行处理的示例；

-图12展示了通过FIR类型的内插、通过来自现有技术的三次曲线型的内插以及通过根据本发明的实施例的内插而获得的样本之间的比较；

-图13展示了根据来自现有技术的不同类型的内插和根据本发明的第一实施例的内插的频率的信噪比的结果；

-图14展示了根据来自现有技术的不同类型的内插和根据本发明的第二实施例的内插的频率的信噪比的结果；

-图15展示了根据本发明的实施例的重采样设备的硬件表示。

具体实施方式

图7因此展示了根据本发明的实施例的重采样方法的主要步骤。

这种方法的步骤是使用在输入采样频率f_输入上的音频信号(作为输入(x_输入))而实现的。如稍后参照图8和图10所描述的，这种输入信号可以例如是包含在重采样滤波器存储器中具有短长度的信号向量。

在此描述的实施例中，使用了3阶三次曲线型的内插方法。当然，可以使用不同的内插阶数，然而，该阶数大于一。

在步骤E701中，三次内插不仅用在中心区间上而且在3个区间上使用：

-前一个三次曲线的右侧区间(区间[1，2])，

-中心三次曲线的中心区间(区间[0，1])以及

-用于在[0，1]中的时间时刻x上对值进行内插的下一个三次曲线的左侧区间(区间[-1，0])。

获得这三个可能内插值。因为任何情况下每个区间都计算三次曲线的系数，因此这以有限的方式增加了计算复杂度。如果将简化符号(未提及3阶)a_n、b_n、c_n、d_n用于三次曲线的系数(其中，使用了中心区间)、将a_n-1、b_n-1、c_n-1、d_n-1用于前一区间中的三次曲线的系数以及将a_n+1、b_n+1、c_n+1、d_n+1用于下一区间中的三次曲线的系数，则通过以下获得这三个可能内插值：

vcp(x)＝a_n-1*(x+1)³+b_n-1*(x+1)²+c_n-1(x+1)+d_n-1

vcc(x)＝a_n*x³+b_n*x²+c_nx+d_n，以及

vcs(x)＝a_n+1*(x-1)³+b_n+1*(x-1)²+c_n+1(x-1)+d_n+1。

再一次，可对值(x+1)³、(x+1)²、x³、x²、(x-1)³和(x-1)²进行制表以便降低复杂度。

因此，步骤E701在覆盖待内插样本的时间位置的多个区间上计算可能内插值(在此给出的示例中，内插阶数是3)。

在步骤E702中，对这三个可能的内插的加权平均值进行计算以便获得待内插样本。然后获得(x_输出)通过在此描述的内插以输出频率f_输出重采样的输出信号。

因此，通过这3个值的加权和来获得在时刻x(相对于中心三次曲线，因此x在[0，1]中)上被内插的样本值：

Vc3＝pp*vcp(x)+pc*vcc(x)+ps*vcs(x)，其中，在示例性实施例中，加权系数pp、pc和ps处于区间[0，1]中，其中，pp+pc+ps＝1，并且通常pp＝ps＝(1-pc)/2。

例如，可以选择pp＝pc＝ps＝1/3。在此情况下，除以3可以被整合在三次曲线的系数中。

将注意的是，图7中展示的本发明不考虑在输入缓冲器的边沿处的样本x_输入(n)，n＝0……L-1。如稍后在本发明中解释的：

假设可通过知道在前一时刻n＝-1、-2的过去信号值对输出缓冲器(两个第一样本x_输入(n)、n＝0，1之间)开始时的样本进行内插，该前一时刻对于确定第一系数a_-1、b_-1、c-₁、d_-1、a₀、b₀、c₀和d₀是必需的；这些过去样本可并入输入缓冲器中或者单独用在框E701的实现方式中。

根据框E701和E701，不能直接对输出缓冲器(两个最后样本之间和之后，x_输入(n)、n＝L-2，L-1)结束时的样本进行内插，因为对应于时刻n＝L，L+1，通常没有进一步可用的信号，这些时刻对于确定最后的系数a_L-1、b_L-1、c_L-1、d_L-1、a_L、b_L、c_L和d_L是必需的。稍后描述用于处理边沿处样本的不同变体。

因此，图12中通过圆形标记展示了利用pp＝pc＝ps＝1/3进行内插的样本。可注意到，这些内插样本比通过利用图6中展示的中心区间获得的简单三次内插(参见连续线和竖直虚线的交叉点)进行内插的样本更接近参考信号。

图13重复使用图2的元件并且通过与如根据本发明的图7的方法描述的内插相对应的曲线(“o3m”)加以补充。可见，所提出的内插具有仍高于简单三次内插的性能水平，尤其在简单内插的SNR变得至关重要(2500Hz之上)的频区中。这种SNR的增加甚至达到了大约3400Hz频率的14dB。借助于根据本发明的内插方法，30dB的限值是甚至好于通过三次曲线“样条”进行的内插的3600Hz。针对所使用的从12800Hz到32000Hz重采样的示例的情况提出的内插复杂度是每组2个输入样本60次运算，即每秒384000次运算。

借助于根据本发明的解决方案，语音信号的SNR是40dB。为了进行重复，获得的SNR是具有来自现有技术的已知的三次内插的38.2dB以及具有由三次“样条”进行的内插的41.4dB。可见，提出的内插给出了与拉格朗日多项式内插相比更好的SNR。

在本发明的变体中，权重(pp、pc、ps)被设定为其他预定值。在另一示例性实施例中，选择pp＝ps＝0.5和pc＝0，这相当于使用来自2个极值区间的内插的平均值。这将运算的次数降低至47次(即每秒300800次运算)，同时具有显著高于简单三次曲线(拉格朗日)内插的性能水平。针对真实测试信号获得的SNR是40.4dB。如图14示出的(曲线“o3m2”)，这种解决方案比具有三个相同权重的解决方案具有针对低频不是很好但针对高频却更好的性能水平。

在本发明的另一变体中，还将可能使用权重(pp、pc、ps)，这些权重根据标准是可变的。例如，如果待内插的信号主要包含低频，则将使用所提出的第一种解决方案(pp＝pc＝ps＝1/3)，否则将使用第二种(pp＝ps＝0.5和pc＝0)。

本发明的原理可被一般化以用于除3之外的阶数的内插。例如，在抛物线内插的情况下，可以取由2条可能的抛物线给出的2个值的平均值。

在这种情况下，内插样本是通过计算可能内插值的加权平均值来获得的，这些可能内插值是在覆盖待内插样本的时间位置的两个值的区间上计算的。

这一解决方案给出了与仅使用中心区间的简单三次内插几乎相等的结果。

图8展示了根据本发明的实施例的音频编码器的在局部解码器中包括重采样设备的示例。

在此实施例中，借助于交替至少两种编码模式并且其算法延迟适于会话应用(通常≤32ms)的多模技术，兴趣集中在语音、音乐和混合内容信号的统一编码。

在这些统一编码技术中，可能引用现有技术的编码器/解码器(编解码器)，像AMR-WB+编解码器或者更近地MPEG USAC(统一语音音频编码)编解码器。在对算法延迟没有严苛限制的情况下，针对这些编解码器的应用不是会话式的，但是对应于广播和存储服务。统一编码的原则是在至少两种编码模式之间交替：

·针对语音类型的信号：时间模式，在此被标记为LPD(针对线性预测域)，通常为CELP(码激励线性预测)类型；

·针对音乐类型的信号：频率模式，在此被标记为FD(针对频域)，具有通常为MDCT(经修改的离散余弦变换)类型的变换。

以下总结了CELP和MDCT编码的原理。

首先，CELP编码(包括其ACELP变体)是基于源滤波模型的预测编码。通常，滤波器对应于通过线性预测(LPC，线性预测编码)获得的传递函数1/A(z)的全极点滤波器。实际上，合成使用滤波器1/A(z)的量化版本源(也就是说，线性预测滤波器的激励)通常是通过对声带振动进行建模的长期预测而获得的预测与以噪声字典等的代数编码(ACELP)的形式描述的随机(或创新)激励的组合。通过在由滤波器用传递函数W(z)加权的信号域中的平方误差标准的最小化执行对“最优”激励的搜索，该传递函数通常源自具有形式W(z)＝A(z/γ1)/A(z/γ2)或A(z/γ1)/(1-αz^-1)的预测线性滤波器A(z)。

其次，由MDCT变换进行的编码利用时间/频率变换对输入信号进行分析，通常包括不同的步骤：

1.通过在此被称为“MDCT窗口”的窗口对信号进行加权；

2.进行时间混叠(或“时域混叠”)以形成缩减的块(其长度除以2的常规公式中)

3.对缩减的块进行DCT(离散余弦变换)变换。

可对MDCT加窗进行适配，并且可根据比特的分配(例如，通过频率子带)通过各种方法对MDCT系数进行量化。

在使用至少两种编码模式的编解码器中，LPD与FD模式之间的过渡在确保没有切换缺陷的充分的质量中是重要的，已知FD和LPD模式是不同的性质-一个依赖于用重叠进行变换的编码，而另一个使用具有矩形块和滤波器记忆的线性预测编码，该滤波器记忆在每个帧处进行更新。

针对图8中展示的编码器，参照图7描述的重采样方法在局部解码器(可选的)的重采样设备中被实现为用于执行根据本发明的多项式内插，从而在从LPD模式过渡到FD模式的情况下提升切换的质量。稍后参照图10描述相关联的解码器和框800。

在图8展示的此实施例中，考虑了以频率fs＝16、32或48kHz(框810)被采样的输入信号的编码情况(以20ms帧进行工作)。这种编码器处理(单)音频信号并且提供若干比特率(例如，比特率设定为从7.2kbit/s至128kbit/s)。该编码器使用由选择模块811选择的至少两种编码模式，包括：

·LPD模式(编码单元812)，该LPD模式使得两个内部采样频率设定为12.8kHz和16kHz(根据比特率)，该两个内部采样频率需要使用内部频率12.8kHz或16kHz(框815)的输入频率fs的采样；

·FD模式(编码单元813)，该FD模式以输入信号的频率fs进行操作。

针对每个20ms输入帧的比特流被多路复用模块814多路复用。

例如在公布的欧洲专利申请EP 2656343中描述的从LPD编码过渡到FD编码的情况，该欧洲专利申请结合在此以供参考。在这种情况下，如在fs＝16kHz、信号尚未在前一帧(根据CELP模式而编码的帧)中通过FD模式被编码的图9a中展示的，MDCT编码存储器对于待解码的当前帧不可用。在解码器(本地或远程)处，必需在FD类型的当前帧开始时生成阴影区域“TR”的互补信号。这种互补信号必需能够使得“结合”处于通过连续LPD和FD模式解码的信号之间；这种互补信号因此填充“间隙”。将注意到的是，互补信号必须足够长以允许交叉衰落，从而限制从一种模式过渡到另一种模式的缺陷。

在此，通过执行如在申请EP 2656343中描述的经简化的受约束的LPD编码再次将相同的原理应用于信号的传播以便在LPD帧之后的FD类型的过渡帧中填充此缺失信号(标记为TR的区)。将注意到的是，在此展示的MDCT窗口将能够在本发明的变体中被修改而不改变本发明的原理；具体地，在当前帧不是LDP到FD过渡帧时，过渡帧中的MDCT窗口将能够不同于在FD编码模式中“正常”使用的(多个)MDCT窗口。

然而，在图8所展示的编码器中，在受约束的LPD编码/解码(框816)的输入和输出的信号的频率为12.8kHz或16kHz(取决于比特率)；在局部解码的情况下，以12.8kHz或16kHz被解码的信号(通过交叉衰落)在与过渡帧中FD类型编码/解码(框813)的输出处的信号组合之前通常必须以频率fs被重采样，在专利申请EP 2656343中描述了这种交叉衰落的原理。图9b展示了这种情况，其中，LPD编码器的频率是12800Hz并且fs＝32000Hz。当LPD编码器的频率是16000Hz时应用相同的原理。

在此假设重采样块830的fs处的从12.8kHz或16kHz的重采样是通过具有滤波器存储器(mem)的多相FIR滤波来进行的。这种存储器存储由LPD或TR模式以频率12.8kHz或16kHz解码的信号的前一帧的最后样本。这种存储器的长度对应于FIR滤波延迟。由于这种重采样延迟，在此为32kHz的频率fs(源自重采样)处的信号被延迟。这种重采样是有问题的，因为其“放大”了过渡帧中LPD模式与FD模式之间待填充的间隙。因此，其缺乏用于正确实现以频率fs重采样的LPD信号与FD解码信号之间的交叉衰落的样本。然而，在框830的重采样步骤中存储12800Hz或16000Hz的最后输入样本。这些存储的样本时间上对应于与FIR滤波延迟相关的32kHz(图9b中的深灰色区，标记为“INT”)的缺失样本。

根据本发明的内插在此实施例中用于对包含在重采样滤波器(mem)的存储器中的信号进行重采样以便延长在过渡帧开始处源自经简化的LPD编码(框816)的信号，并且因此以32kHz获得能够使得交叉衰落处于LPD合成与FD合成之间的缺失样本。

图10中展示的解码器是在16kHz、32kHz、或48kHz的输出采样频率上操作的(单)音频信号多比特率(其中，比特率设定为从7.2kbit/s至128kbit/s)的解码器。

取决于所接收并解多路复用(框1001)的帧，输出在使用线性预测的CELP类型(1002)的时间解码器(LPD DEC)的输出与频率解码器(FD DEC，1003)的输出之间切换(1004)。将注意的是，LPD解码器的输出通过例如FIR类型的重采样模块1005从内部频率12.8kHz或16kHz被重采样到输出频率fs。

在此，通过执行如在申请EP 2656343中描述的经简化的受约束的LPD解码(框1006)再次将相同的原理应用于延长信号以便在LPD帧之后的FD类型的过渡帧中填充此缺失信号(标记为TR的区)。

这里在图10中所展示的解码器中，受约束的LPD解码(框1006)的输入处和输出处的信号在频率12.8kHz或16kHz(取决于比特率)上，并且根据专利申请EP 2656343中描述的原理，在过渡帧中该信号(通过交叉衰落)在由模块1008与FD类型(框1003)的解码的输出处的信号结合之前必须以频率fs被重采样(通过重采样块1007)。图9b展示了这种情况，其中，不失一般性地，LPD编码器的频率是12800Hz和fs＝32000Hz。

在此假设重采样块1007的从12.8kHz或16kHz到fs的重采样是通过具有滤波器存储器(mem)的多相FIR滤波来进行的。这种存储器存储由LPD或TR模式以频率12.8kHz或16kHz解码的信号的前一帧的最后样本。这种存储器的长度对应于FIR滤波延迟。由于这种重采样延迟，在此为32kHz的频率fs(源自重采样)处的信号被延迟。这种重采样是有问题的，因为其“放大”了过渡帧中LPD模式与FD模式之间待填充的间隙。因此，其缺乏用于正确实现以频率fs重采样的LPD信号与FD解码信号之间的交叉衰落的样本。然而，在框1007的重采样步骤中存储12800Hz或16000Hz的最后输入样本。这些存储的样本时间上对应于与FIR滤波延迟相关的32kHz(图9b中的深灰色区，标记为“INT”)的缺失样本。

根据本发明的内插在此实施例中用于对包含在重采样滤波器(mem)的存储器中的信号进行重采样以便延长在过渡帧开始处源自经简化的受约束的LPD解码(框1006)的信号，并且因此以32kHz获得能够使得交叉衰落处于LPD合成与FD合成之间的缺失样本。

为了重采样包含在重采样滤波器1007的存储器中的信号(mem)，根据本发明的重采样设备800执行高于一阶的内插并且包括模块801，该模块用于针对覆盖待内插样本的时间位置的多个区间计算可能内插值。例如，如针对3阶内插参照图7描述的，计算这些可能内插值。

重采样设备还包括模块802，该模块用于通过计算源自该计算模块801的这些可能内插值的加权平均值来获得该待内插样本。

适当重采样的信号可在1008中经由如在专利申请EP 2656343中描述的交叉衰落与源自模块1003的FD编码的信号相组合。

还必须注意的是，借助于根据本发明提出的内插，不可能覆盖滤波器存储器(mem)的整个时域，如图11展示的。在此附图中，为了简化展示，假设12800kHz的8个样本的滤波器存储器由正方形符号代表。这种存储器的典型长度是12800Hz的12个样本或者16000Hz的15个样本。在图11中，存储器的时域由不连续线矩形900界定。32000Hz的输出样本用三角形代表，在给定时域上具有8*5/2＝20个三角形。还假设2个过去输入样本也是可用的(图中的正方形901)，此处的这种情况是因为它们对应于在过渡区TR(经简化的LPD编码)中解码的信号。因此，可根据本发明的方法对可能的20个中的16个输出样本(图中的实心三角形)进行内插。可通过使用极值右区间、或者根据最后3个输入样本上的抛物线内插、或者通过最后2个输入样本上的线性内插对接下来的两个输出样本(三角形902)进行内插。必须通过使用最后三次曲线、抛物线或直线的延长或者通过对以32kHz被内插的最后样本的值或者以12.8kHz的最后输入样本的值进行重复来对时域(三角形903)的最后两个输出样本进行外插。

在优选实施例中，最后三次曲线的极值右区间用于最后2个输入样本(空心黑色三角形)之间的内插，并且针对外插样本(三角形903)重复最后的内插样本。

图15表示根据本发明的重采样设备1500的示例性硬件实现方式。重采样装置可以是音频信号编码器或解码器的集成部分、或者接收音频信号的设备项的集成部分。

这种类型的设备包括与存储器块BM协同操作的处理器PROC，该存储器块包括存储设备和/或工作存储器MEM。

这类设备包括能够接收采样频率f_输入下的音频信号帧x_输入的输入模块E。这些音频信号帧例如是包含在重采样滤波器的存储器中的信号。

其包括能够传输在采样频率f_输出下的重采样音频信号x_输出的输出模块S。

存储器块可以有利地包括计算机程序，该计算机程序包括多条代码指令，这些指令当被处理器PROC执行时用于实现在本发明的意义内的重采样方法的步骤，并且特别是以下步骤：通过计算可能内插值的加权平均值来获得被内插的样本，这些可能内插值是在覆盖该待内插样本的时间位置的多个区间上计算的。

通常，图7的描述再次覆盖了这种计算机程序的算法的这些步骤。计算机程序还可以被存储在存储介质上，其可以由设备的读取器进行读取或者可以被下载到其存储空间中。

通常，存储器MEM存储实现该方法所必需的所有数据。

Claims

1.一种用于在音频信号解码时对音频信号进行重采样的方法，所述重采样通过高于一阶的内插方法来进行，其特征在于，内插样本是通过计算可能内插值的加权平均值而获得(E702)的，所述可能内插值是在覆盖待内插样本的时间位置的多个区间上计算(E701)的。

2.如权利要求1所述的方法，其特征在于，所述内插是二阶抛物线型。

3.如权利要求1所述的方法，其特征在于，所述内插是3阶三次曲线型，并且在于，覆盖所述待内插样本的时间位置的区间数是3。

4.如权利要求1至3之一所述的方法，其特征在于，所述加权平均值是针对所述可能内插值中的每个可能内插值利用同一个权重值而获得的。

5.如权利要求3所述的方法，其特征在于，不同的权重值应用于针对所述三个区间的中心区间而计算的内插值并且应用于计算所述加权平均值。

6.如权利要求1至3之一所述的方法，其特征在于，应用于所述可能内插值的所述权重值是根据所述待内插样本的频率标准来确定的。

7.如权利要求1所述的方法，其特征在于，对包含在FIR类型的重采样滤波器的存储器中的信号执行重采样。

8.如权利要求7所述的方法，其特征在于，在预测解码与变换解码之间的过渡帧中根据受限的预测解码而解码的样本与根据变换编码而解码的样本之间进行组合的步骤之前，所述内插样本补充所述过渡帧中根据所述受限的预测解码模式而解码的信号。

9.一种用于在音频信号编码器或解码器中对音频信号进行重采样的设备，所述重采样通过高于一阶的内插方法来进行，其特征在于，所述设备包括：

-用于针对覆盖待内插样本的时间位置的多个区间计算可能内插值的模块(801)；以及

-用于通过计算源自所述计算模块的所述可能内插值的加权平均值来获得所述待内插样本的模块(802)。

10.一种音频信号编码器，其特征在于，所述音频信号编码器包括如权利要求9所述的重采样设备。

11.一种音频信号解码器，其特征在于，所述音频信号解码器包括如权利要求9所述的重采样设备。

12.一种包括代码指令的计算机程序，当这些指令由处理器执行时用于实现如权利要求1至8之一所述的重采样方法的步骤。

13.一种处理器可读存储介质，其上存储有包括代码指令的计算机程序，所述指令用于执行如权利要求1至8之一所述的重采样方法的步骤。