CN101308656A

CN101308656A - 音频暂态信号的编解码方法

Info

Publication number: CN101308656A
Application number: CNA200710040779XA
Authority: CN
Inventors: 黄鹤云; 张本好; 李昙; 林福辉
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2007-05-17
Filing date: 2007-05-17
Publication date: 2008-11-19
Also published as: WO2008141579A1

Abstract

本发明公开了一种音频暂态信号的编解码方法，在对暂态信号做变换编码之前，对输入帧的时域采样点进行处理，即加入暂态信号处理；暂态信号处理位于在编码器端进行时－频变换之前的任意位置以及对应的解码器端进行频－时变换之后的任意位置。本发明能够有效减少编解码端的计算复杂度。适用于数字移动通信领域。

Description

音频暂态信号的编解码方法

技术领域

本发明涉及数字移动通信领域，特别是涉及一种音频暂态信号的编解码方法。

背景技术

暂态信号是一种特殊的音频信号，它多存在于有敲打乐器的音频序列中，例如，连续的敲锣打鼓产生的信号可以称之为暂态信号。它的特殊性在于，如果采用常规的变换编码方法例如MDCT(改进型离散余弦变换)等，对其进行编解码的话，会产生预回声现象。这是由于量化比特不够所带来的量化噪声。量化噪声是均匀的扩散到整个时域里，在暂态信号出现之前的那段信号会被量化噪声占据，进而产生了预回声现象。预回声现象一种严重的失真，人耳对此种失真非常敏感。

现有技术中虽然已经有两类经典的技术对暂态信号进行有效的编解码，但是，运算开销都相对常规的变换编解码的方法要大得多。

发明内容

本发明要解决的技术问题是提供一种音频暂态信号的编解码方法，能够有效减少编解码端的计算复杂度。

为解决上述技术问题，本发明的音频暂态信号的编解码方法是采用如下技术方案实现的，在对暂态信号做变换编码之前，对输入帧的时域采样点进行处理，即加入暂态信号处理；暂态信号处理位于在编码器端进行时-频变换之前的任意位置以及对应的解码器端进行频-时变换之后的任意位置。

本发明的方法是对现有技术中的增益修正方法的一种改进。由于增益修正方法对整个暂态信号帧进行了增益的修正，对其精确修正需要的比特数是相当的高的。实际上，由于暂态信号也只是在暂态信号帧的某一小部分出现。因此只需要对一部分时域采样点而不是所有的时域采样点进行增益修正即可。采用本发明既可以减少需要量化的比特数，也可以同时减少编解码端的计算复杂度。

附图说明

下面结合附图与具体实施方式对本发明作进一步详细的说明：

图1是本发明的方法中编码端的控制流程图；

图2是本发明的方法中解码端的控制流程图；

图3是本发明的方法中编码端的暂态信号处理框图；

图4是本发明的方法中解码端的暂态信号处理框图。

具体实施方式

如图1、2所示。本发明的音频暂态信号的编解码方法，其基本思想是在对暂态信号做变换编码之前，对输入帧的时域采样点进行处理，即加入暂态信号处理。暂态信号处理(暂态信号编解码)可以在编码器进行时-频变换之前的任意位置以及对应的解码器进行频-时变换之后的任意位置。

图1、2中，时域处理包括分析滤波器等对输入采样点的处理步骤。时-频变换(或频-时变换)则包括变换编(解)码以及之后的一些频(时)域处理和量化步骤。例如，在MPEG-AAC编码器里，时域处理所包含的步骤。

下面分别从编码器和解码器端对本发明的方法进行说明。

(1)编码器

首先在时域上检测输入帧是否为暂态帧。在这里可以采用任何已知的暂态信号检测方法(例如感知熵)。在本发明的一个实施例中，假定输入帧的采样点为x₁，x₂，....，X_N，同时将其分成L段，用集合A_l，l＝1，2，...，L来表示这种分割。分别计算每段的能量E₀和整帧的平均能量E_I：

E_{0} = Σ_{i = 1}^{N} x_{i}^{2}

E_{l} = \underset{x_{i} &Element; A_{l}}{Σ} x_{i}^{2}

将整帧的平均能量与每段的能量的最大比值同设定的门限值进行比较，当所述的最大比值大于门限值T的时候则输入帧为暂态帧，否则为稳态帧。即：

\max \frac{E_{l}}{E_{0}} > T

预回声信号产生的本质原因是量化噪声扩散到暂态信号出现之前的时间段，并且听觉的前掩蔽不够，所以会导致这些量化噪声为人耳清晰的感觉到，导致了最终的严重失真。

当输入帧被检测为暂态信号的时候，开启暂态信号处理方法。现有技术中有很多对暂态信号的处理方法，例如：

一种典型的处理方法是长短窗切换方法。它在暂态信号出现的时候把其切换到短窗，提高信号的时间分辨率，从而抑制了预回声现象。该方法在很多标准中得以应用并被证明是一种良好的方法。

另一种方法是时域噪声整形方法(Temporal Noise Shaping TNS)。它利用时频的对偶性，从频域里进行线性预测分析，即相当于在时域中进行相应的时域包络整形处理，从而也从一定程度抑制了预回声现象。

比特池方法(Bit Pool)也是一种有效的方法，在可变码率编解码的框架里，利用之前节省下的比特对暂态信号进行编解码，由于比特数的增加，量化噪声随之减少，可以从一定程度上缓解预回声现象。

增益修正(Gain Modification)方法也是一种经典算法。它根据暂态信号的时域采样点计算出某些增益和形状参数，利用这些参数修正时域采样点，达到对预回声现象的抑制作用。

本发明的对暂态信号的处理方法是在增益修正方法基础上的一种改进。由于增益修正方法对整个暂态信号帧进行了增益的修正，对其精确修正需要的比特数是相当高的。实际上，由于暂态信号也只是在暂态信号帧的某一小部分出现。因此只需要对一部分时域采样点而不是所有的时域采样点进行增益修正即可。这样即可以减少需要量化的比特数，也可以同时减少编解码端的计算复杂度。

继续沿用之前的假设，即输入帧的采样点为：x₁，x₂，....，x_N(记为集合C)，其中N是输入帧长度。首先根据输入帧的采样点信号确定哪些采样点(不是所有采样点)需要进行伸缩处理(即增益修正)，即如前面所述的暂态检测步骤。通过这个步骤可以得到一个采样点集合：

A = {x_{i_{1}}, x_{i_{2}}, . . ., x_{i_{N^{'}}}}, 0 < N^{'} < N

其中，i_j∈{1，2，...，N}。

同时将剩下的采样点信号数据记为集合B：

B = {x_{i} &Element; C, x_{i} &NotElement; A, i = 1,2, . . ., N}

一种实施例是检测出暂态信号出现的时刻对应的采样点，假设为i_t，可以设该时刻开始之后的M个采样点是需要进行伸缩处理的采样点，用A₁表示该采样点集合：

A_{1} = {x_{i_{t}}, x_{i_{t} + 1}, . . ., x_{i_{t} + M - 1}}

其中0＜M＜N-i_t+1。

将需要进行伸缩处理的采样点(集合A)进行伸缩处理，即乘以一个乘性参数λ_i，达到对该部分采样点进行伸缩处理的目的。

x_{i_{j}}^{'} = x_{i_{j}} λ_{j}, j = 1,2, . . ., N^{'}

乘性参数λ_j，j＝1，2，...，N′可以通过任意一种方式得到。可以是预先设定的，也可以是根据输入采样点和其他参数(例如采样率、码率等等)自适应计算出来的。

将集合A的数据进行处理以后，把其数据和B集合的数据重新按照C集合原来的顺序进行排列可以得到经过伸缩处理的暂态信号，当作时-频变换编码的输入。实现过程可参见图3所示。

(2)解码器

在解码端，应用暂态信号时域恢复处理模块来恢复时域信号。假设频-时变换以后，可以得到时域的恢复信号采样点：

x′₁，x′₂，....，x′_N。

根据编码端产生的集合A和集合B的情况来进行反伸缩处理：

当i∈{i₁，i₂，...，i_N′}，找到i＝i_j

x_{i_{j}} = \frac{x_{i_{j}}^{'}}{λ_{j}}

否则不进行任何处理。相对于编码端，解码端乘性参数λ_j可以通过任意一种方式得到。它可以是预先设定的，也可以通过对编码端的乘性参数用任何编解码方法得到。根据如上过程产生得到暂态信号处理后的输出x₁，x₂，....，x_N。恢复处理过程可参见图4。

Claims

1、一种音频暂态信号的编解码方法，其特征在于：在对暂态信号做变换编码之前，对输入帧的时域采样点进行处理，即加入暂态信号处理；暂态信号处理位于在编码器端进行时-频变换之前的任意位置以及对应的解码器端进行频-时变换之后的任意位置。

2、根据权利要求1所述的音频暂态信号的编解码方法，其特征在于：在编码器，首先在时域上检测输入帧是否为暂态帧；当输入帧被检测为暂态信号的时候，则进行暂态信号处理。

3、根据权利要求2所述的音频暂态信号的编解码方法，其特征在于：所述暂态信号处理采用长短窗切换方法、时域噪声整形方法、比特池方法、或增益修正方法。

4、根据权利要求2所述的音频暂态信号的编解码方法，其特征在于：所述暂态信号处理的方法是：

首先根据输入帧的采样点信号确定哪些采样点需要进行伸缩处理，根据需要伸缩处理的点得到一个采样点集合A：

A = {x_{i_{1}}, x_{i_{2}}, . . ., x_{i_{N^{'}}}}, 0 {< N}^{'} < N

其中，i_j∈{1，2，...，N}；

将集合A乘以一个乘性参数

λ_{i}, x_{i_{j}}^{'} = x_{i_{j}} λ_{j}, j = 1,2, . . ., N^{'},

达到对该部分采样点进行伸缩处理。

5、根据权利要求4所述的音频暂态信号的编解码方法，其特征在于：同时将剩下的采样点信号数据记为集合B：

B = {x_{i} &Element; C, x_{i} &NotElement; A, i = 1,2, . . ., N}

将集合A的数据进行处理以后，把其数据和集合B的数据重新按照集合C，C＝x₁，x₂，....，x_N原来的顺序进行排列得到经过伸缩处理的暂态信号，当作时-频变换编码的输入。

6、根据权利要求4所述的音频暂态信号的编解码方法，其特征在于：所述乘性参数λ_i，是预先设定的，或者是根据输入采样点自适应计算出来的。

7、根据权利要求1所述的音频暂态信号的编解码方法，其特征在于：在解码器端，应用暂态信号时域恢复处理模块来恢复时域信号，并得到时域的恢复信号采样点：

x′₁，x′₂，....，x′_N。

根据编码端产生的需要伸缩处理的集合A：

A = {x_{i_{1}}, x_{i_{2}}, . . ., x_{i_{N^{'}}}}, 0 < N^{'} < N

其中，i_j∈{1，2，...，N}；

和将剩下的采样点信号数据组成的集合B：

B = {x_{i} &Element; C, x_{i} &NotElement; A, i = 1,2, . . ., N}

的情况，来进行反伸缩处理：

当i∈{i₁，i₂，...，i_N′}，找到i＝i_j

x_{i_{j}} = \frac{x_{i_{j}}^{'}}{λ_{j}}

否则不进行任何处理。