CN1127054C - 用于知觉音频编码的信号处理方法 - Google Patents

用于知觉音频编码的信号处理方法 Download PDF

Info

Publication number
CN1127054C
CN1127054C CN01134558A CN01134558A CN1127054C CN 1127054 C CN1127054 C CN 1127054C CN 01134558 A CN01134558 A CN 01134558A CN 01134558 A CN01134558 A CN 01134558A CN 1127054 C CN1127054 C CN 1127054C
Authority
CN
China
Prior art keywords
sigma
input signal
degree
frame
signal frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN01134558A
Other languages
English (en)
Other versions
CN1357877A (zh
Inventor
陈常谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING FUGUO DIGITAL TECHN Co Ltd
Original Assignee
BEIJING FUGUO DIGITAL TECHN Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING FUGUO DIGITAL TECHN Co Ltd filed Critical BEIJING FUGUO DIGITAL TECHN Co Ltd
Priority to CN01134558A priority Critical patent/CN1127054C/zh
Publication of CN1357877A publication Critical patent/CN1357877A/zh
Application granted granted Critical
Publication of CN1127054C publication Critical patent/CN1127054C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及用于知觉音频编码的信号处理方法,其特征在于评估当前输入信号帧的暂态性程度;根据暂态性程度,排除不恰当的变换配置;评估当前输入信号帧在频域上能量分布的均匀程度;根据频域上能量分布的均匀程度,从候选的变换之中排除那些会导致过度频率重叠噪声的变换配置;原则上,频域能量均匀分布的信号对频率重叠的敏感性较低;根据前一信号帧或子帧的编码失真状态,排除那些不具备恰当时延的变换及参数,以合理地控制编码噪声的扩散。

Description

用于知觉音频编码的信号处理方法
技术领域
本发明涉及用于知觉音频编码的信号处理方法,包括信号处理中数据压缩及信号处理用滤波器,更详细地说,它用于音频信号的解相关,从而提供一个消解冗余度的方法和装置,除此之外,基于心理声学模型,本发明还可用于分离具有不同重要性的信号分量。
背景技术
通常,知觉音频编码器的第一步操作是把输入音频信号从时间域映射到频率域,其基本的思路为:把信号过滤成各频率带上的成分;一旦输入信号在频域上得以表达,心理声学模型就可以用来去除枝节信息;进一步,把各频带上的成份分组。最后,通过合理地分配比特数以表达各组频率参数。由于音频信号展现出强烈的准周期性,这一过程可大大降低数据量、提升编码效率。
最近的几年里,一系列可用于信号成份分离和冗余度提取的时-频域映射算法被开发出来。这些性能各异的方法包括:
(1)Discrete Fourier transform(DFT),
(2)Discrete cosine transform(DCT),
(3)Quadrature mirror filters(QMF),
(4)Pseudo QMF(PQMF),
(5)Modified DCT(MDCT),
(6)Wavelet
上述各种变换具有不同的优缺点,不同的系统均是根据需要选用适当的变换作为其滤波器组的基本构成。
MPEG-1,2 LayersI和II采用了PQMF作为滤波器组。该滤波器组的优点为:结构相对简单、时间分辨率很好。其缺点为:邻近子带之间存在明显的频率重叠;单一频率信号的变化可影响与其相邻的二个子带。2000Hz以下的频带宽度远大于心理声学带宽值,从而无法实现比特数的最优分配。实时运算量偏大。
MPEG-1,2 LayerIII采用了PQMF和MDCT的级联作为其滤波器组。虽然MDCT的引入可提升频率分辨率从而改进编码效率,PQMF在邻近子带之间的频率重叠仍然会导致信号的混迭,频域量化噪声在时间域上的扩散比较严重。
MPEG-2,4 AAC采用了MIDCT作为滤波器组(稳态信号:1024-点MDCT,暂态信号:128-点MIDCT),该滤波器组使用了二种重叠窗形状:SINE和KBD。其优点为:频率分辨率很好;其缺点为:时间分辨率偏低。
MPEG-4 Twin VQ的滤波器组与MPEG-2,4 AAC相似,除此之外,它采用了线性滤波器以白化频谱系数并在量化级之前执行归一化操作。
AC-3的滤波器组对稳态信号使用256-点MDCT,对暂态信号使用128-点MDCT,其块长选择机制比较简单,选择效果为次最优。
ATRAC的滤波器组由前回波增益控制、PQF和MDCT级联而成。它还采用了窗转换机制以根据输入信号的特性调整时频分辨率。
DTS的滤波器组由512-tap32子带PQMF构成。为了进一步提取冗余度,一个线性滤波器可被级联在PQMF之后。
上述所有的系统只采用一种变换配置去压缩表达一个输入信号帧。当一个信号帧包含不同暂态特性的成份时,单一的变换配置不足以满足不同信号子帧对优化压缩的基本需求。
发明内容:
为了提高音频编码的品质,必需消除信号中的不必要信息以及听众觉察不到的成份。滤波器组的使用提供了一种去除冗余信息和枝节数据的最佳途径。根据其功能,本发明目的包括:
(1)优化分离具有不同知觉特性的信号成分。
(2)最小化前回波噪声和由边界之不连续性所导致的听觉块毛刺。
(3)在保持音频信号品质的前提下,最小化数据量。
(4)实现精密抽样(critically sampled)和完全重构或准完全重构(peffectreconstruction,or nearly perfect reconstruction.)
(5)最小化时间延迟和运算量。
为了实现上述目标,一些参数和机制必须被合理地制定。这些参数和机制包括:
(a)重叠窗的形状极其优选机制
(b)重叠窗的长度极其优选机制
在实际运作中,单一的滤波器组不能够满足或基本满足所有的信号成份对上述目标的要求。本发明通过柔性组合多种滤波器及参数以优化表达一个输入信号帧所包含的各种成份。
本发明所提出柔性滤波器组合包括五种变换配置,这五种变换配置为:1024-点MIDCT、512-点MDCT、256-点MDCT、128-点64-子带PQMF以及128-点16-子带WAVELET。显然,这五种变换配置的频率分辨率、时间分辨率、块长、时延以及邻近子带之间频率重叠的程度都不相同。对一输入信号帧,所发明的柔性滤波器组合从上述五种变换及参数之中选择出最恰当的一个或几个;通过分解信号帧,允许不同的信号子帧选用不同的变换及参数从而优化编码效率。
有关的用于知觉音频编码的信号处理方法包括:
(1)评估当前输入信号帧的暂态性程度;
(2)根据暂态性程度,排除不恰当的变换配置;
(3)评估当前输入信号帧在频域上能量分布的均匀程度;
(4)根据频域上能量分布的均匀程度,从候选的变换之中排除那些会导致过度频率重叠噪声的变换配置;原则上,频域能量均匀分布的信号对频率重叠的敏感性较低;
(5)据前一信号帧或子帧的编码失真状态,排除那些不具备恰当时延的变换及参数,以合理地控制编码噪声的扩散。
本发明的信号处理方法为:首先评估当前输入信号帧的暂态程度,对暂态性较大的信号,排除频率分辨率较高的变换配置;接着,评估当前输入信号帧在频域上能量分布的均匀程度,对能量分布较不均匀的信号,排除子带频率重迭较严重的变换;然后,评估前一信号帧的编码失真状态。如果前一信号帧的编码失真较大,排除时延较大的变换,最后,根据输入帧是否存在突跃信号成份,排除具有不恰当块长的变换。
根据上述初步筛选出来的变换之最大块长,把当前输入信号帧分解成等长子帧;对各子帧,判断是否可采用同样块长的候选变换,若不可以,进一步将其分解成2个等长的子帧,对进一步分解后的子帧,判断候选变换之中具有同样块长者是否为最恰当的配置;若不是,再进一步将当前子帧分解成2个等长度子帧;重复这种“判断-分解”的操作,直到合适的变换配置被选择或者子帧长度达到128;每个128样本的子帧必须在64-子带PQMF和16-子带WAVELET之间作出较合理的抉择。
上述输入信号帧暂态性的程度分析方法为: Z = ( Σ j = 1 N | s j - 1 N Σ j = 1 N s j | 2 + λ ) / Σ j = 1 N | s j | 2 + λ
sj为当前帧第j个信号样本;N为帧长,
   λ为大于零小于一的实数;λ的引入是为了突显变化的重要性。
上述输入信号帧在频域上能量分布的均匀性度量判据: F = ( Σ j = 1 N | x j 2 - 1 N Σ j = 1 N x j 2 | α ) / Σ j = 1 N x j 2 · α
xj为输入信号帧经过FFT变换后得到的第j个系数;N为帧长;α为大于一的实数。α的引入是为了强化能量变化的敏感性。
本发明通过提高滤波器组配置的自由度,取得了很高编码效率。所需要的运算量没有增加。由于各种信号成份可采用不同的变换配置,本发明柔性滤波器组合所需要的存储量有一定程度的增加。
附图说明:
图1:本发明的流程框图;
图2:本发明的实现平台的示意图。
具体实施例:
本发明的实现平台如图2所示。一个输入音频信号被以44.1kHz采样。采样信号被划分成帧。每帧由1024个样本组成(约23.22ms)。本发明柔性滤波器配置具有1024-点MDCT、512-点MDCT、256-点MDCT、128-点64-子带PQMF以及128-点16-子带WAVELET。该柔性滤波器组合允许对一个输入信号帧采用多种变换配置;通过分解输入信号帧,不同子帧可选用不同的变换及参数。在几种指定的变换和参数之中确定最适合输入信号帧的配置;采用“判断-等分”的二级优选结构于变换配置的选择,根据当前输入信号帧(1024个样本)之特性,首先判断1024-点MDCT是否最为合适;如果1024-点MDCT不合适,把输入信号帧分解成2个等长的子帧;接着,判断512-点MDCT是否适用于各个512样本子帧;对不适合于512-点MDCT的子帧,进一步将其分解成2个256样本的子帧;然后,判断256-点MDCT是否适用于各个256样本子帧;对不适合于256-点MDCT的子帧,再进一步将其分解成2个128样本子帧;每个128样本子帧必须在64-子带PQMF和16-子带WAVELET之间作出抉择。心理声学模型根据所选定的配置,利用人类听觉系统的掩蔽现象从输入信号帧中去除感觉不到的内容,同时,信号帧被缓存。然后,柔性滤波器组执行时间-频率之间的映射,随后,频谱的量化噪声被暂态成形,最后,预处理过的数据被量化和编码(量化和编码的方法与所选用的变换配置相对应),索引值和枝节信息被打包进比特流。其中柔性滤波器信号变换处理方法的实现细节如以下步骤所描述:步骤1.将输入音频数据分解成帧(1024个样本);步骤2.评估当前输入信号帧的暂态性度量: Z = ( Σ j = 1 1024 [ | s j - 1 1024 Σ j = 1 1024 s j | ] 2 + 0.618 ) / Σ j = 1 1024 | s j | 2 + 0.618 步骤3.根据Z和Ti(I=1,2,3,4,5)之间的相对大小,排除具有不恰当时频分辨率的变换,这里,Ti(I=1,2,3,4,5)为与五种可能的变换配置相对应的阀值。步骤4.评估当前输入信号帧在频域(FFT域)上能量分布的均匀程度。对能量分布较不均匀的信号,排除频率重迭较严重的变换,原则上,16-子带WAVELET和64-子带PQMF的频率重迭比256-点MDCT、5 12-点MDCT和1024-点MDCT严重的多。步骤5.评估前一信号帧的编码失真状态。如果前一信号帧后段的编码失真较大,排除时延较大的变换,原则上,16-子带WAVELET和64-子带PQMF的时延比256-点MDCT、512-点MDCT和1024-点MDCT大的多。步骤6.根据输入帧是否有突跃信号成份,排除具有不恰当块长的变换。原则上,对严重突跃信号不使用256-点MDCT、512-点MDCT和1024点-MDCT。步骤7.根据初步筛选后所剩下的候选变换块长之最大值,把当前输入信号帧分解成等长度子帧。对各个子帧,判断是否可采用同样块长的变换。若不可以,进一步将其分解成2个等长的子帧。对进一步分解后的子帧,判断候选变换之中具有同样块长者是否为最恰当的配置。若不是,再进一步将当前子帧分解成2个等长度子帧。重复这种“选择或分解”的操作,直到合适的变换配置被选择或者子帧长度达到128,每个128样本的子帧必须在64-子带PQMF和16-子带WAVELET之间作出较合理的抉择。步骤8.结束。

Claims (3)

1、一种用于知觉音频编码的信号处理方法,其特征在于
a)评估当前输入信号帧的暂态性程度;
b)根据暂态性程度,排除不恰当的变换配置;
c)评估当前输入信号帧在频域上能量分布的均匀程度;
d)根据频域上能量分布的均匀程度,从候选的变换之中排除那些会导致过
  度频率重叠噪声的变换配置;原则上,频域能量均匀分布的信号对频率
  重叠的敏感性较低;
e)根据前一信号帧或子帧的编码失真状态,排除那些不具备恰当时延的变
  换及参数,以合理地控制编码噪声的扩散。
2、根据权利要求1所述的用于知觉音频编码的信号处理方法,其特征在于输入信号帧暂态性的程度分析方法为: Z = ( Σ j = 1 N | s j - 1 N Σ j = 1 N s j | 2 + λ ) / Σ j = 1 N | s j | 2 + λ
sj为当前帧第j个信号样本;N为帧长,
   λ为大于零小于一的实数;λ的引入是为了突显变化的重要性。
3、根据权利要求1所述的用于知觉音频编码的信号处理方法,其特征在于输入信号帧在频域上能量分布的均匀性度量判据: F = ( Σ j = 1 N | x j 2 - 1 N Σ j = 1 N x j 2 | α ) / Σ j = 1 N x j 2 · α
xj为输入信号帧经过FFT变换后得到的第j个系数;N为帧长;α为大于一的实数,α的引入是为了强化能量变化的敏感性。
CN01134558A 2001-11-02 2001-11-02 用于知觉音频编码的信号处理方法 Expired - Fee Related CN1127054C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN01134558A CN1127054C (zh) 2001-11-02 2001-11-02 用于知觉音频编码的信号处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN01134558A CN1127054C (zh) 2001-11-02 2001-11-02 用于知觉音频编码的信号处理方法

Publications (2)

Publication Number Publication Date
CN1357877A CN1357877A (zh) 2002-07-10
CN1127054C true CN1127054C (zh) 2003-11-05

Family

ID=4672588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01134558A Expired - Fee Related CN1127054C (zh) 2001-11-02 2001-11-02 用于知觉音频编码的信号处理方法

Country Status (1)

Country Link
CN (1) CN1127054C (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368682B (zh) * 2012-03-29 2016-12-07 华为技术有限公司 信号编码和解码的方法和设备

Also Published As

Publication number Publication date
CN1357877A (zh) 2002-07-10

Similar Documents

Publication Publication Date Title
CA2608030C (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN1172293C (zh) 有效频谱包络编码方法及其编解码设备
CN1258171C (zh) 一种用于增强信源解码器的设备
CN101030373B (zh) 使用自适应掩蔽阈值的立体声感知音频编码的系统和方法
CN1135721C (zh) 音频信号编码方法及其有关设备
WO2005096274A1 (fr) Dispositif et procede de codage/decodage audio ameliores
WO2005027094A1 (fr) Procede et dispositif de quantification de vecteur multi-resolution multiple pour codage et decodage audio
US7512539B2 (en) Method and device for processing time-discrete audio sampled values
US6965859B2 (en) Method and apparatus for audio compression
CN1905373A (zh) 一种音频编解码器的实现方法
CN1154084C (zh) 一种基于伪小波滤波的音频编/解码方法
CN1127054C (zh) 用于知觉音频编码的信号处理方法
CN1460992A (zh) 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
CN1318904A (zh) 一种实用的基于小波变换的声音编解码器
CN1123865C (zh) 小波音频编码信号处理中块效应消除方法
CN1471236A (zh) 用于感知音频编码的信号自适应多分辨率滤波器组
AU2011205144B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
Gunjal et al. Traditional Psychoacoustic Model and Daubechies Wavelets for Enhanced Speech Coder Performance
CN1363923A (zh) 一种基于自适应阀值和典型样本预测的块长选择方法
Nosirov et al. The fractal method of compression of broadband audio signals
AU2011221401B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
Mason et al. Combined coding of audio and speech signals using LPC and the discrete wavelet transform
Reyes et al. A new perceptual entropy-based method to achieve a signal adapted wavelet tree in a low bit rate perceptual audio coder
I Hussein Multi Rate Audio Coding Based On Combining Wavelet with DCT Transform
Novacek Wavelet filter bank based wide-band audio coder

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20051209

Pledge (preservation): Preservation

PD01 Discharge of preservation of patent

Pledge (preservation): Preservation

Release effective date: 20060609

PP01 Preservation of patent right

Effective date of registration: 20061102

Pledge (preservation): Preservation

PD01 Discharge of preservation of patent

Date of cancellation: 20090812

Pledge (preservation): Preservation registration

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20031105