CN1363923A - 一种基于自适应阀值和典型样本预测的块长选择方法 - Google Patents
一种基于自适应阀值和典型样本预测的块长选择方法 Download PDFInfo
- Publication number
- CN1363923A CN1363923A CN01134556A CN01134556A CN1363923A CN 1363923 A CN1363923 A CN 1363923A CN 01134556 A CN01134556 A CN 01134556A CN 01134556 A CN01134556 A CN 01134556A CN 1363923 A CN1363923 A CN 1363923A
- Authority
- CN
- China
- Prior art keywords
- subframe
- frame
- local maximum
- peak value
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及音频信号变换编码中的块长选择部件。本发明特别涉及一种音频信号压缩中基于自适应阀值和典型样本预测进行的块长选择方法。所提出的新方法在完全消除前回波噪音的同时取得了很高编码效率。所需要的运算量很小。二种关于突跃信号检测的度量判据被建议。所提议的“局部最大掩蔽分析法”可避免较短块长的过度使用,以优化编码器的率-失真性能。本发明还提出了一个基于亚抽样机制的快速运算方案。
Description
技术领域
本发明涉及音频信号处理中的数据压缩,更详细地说,它用以消除低比特率高品音频信号编解码过程中的前回波噪声(pre-echo);本发明特别涉及一种音频信号压缩中基于自适应阀值和典型样本预测进行的块长选择方法。
现有技术
众所周知,一些线性变换能够导致接近于零的高频系数,换句话说,时域信号包含的大部分信息能够被转换或集中到频域或时频域系数的一个子集中,于是,音频信号压缩技术广泛地采用变换作为提高编码效率的手段;这些音频信号压缩技术包括在下述文献中:(1)R.N.J.Veldhuis,“Bit Rates in Audio Source Coding”,IEEE J.SelectedAreas in Communications,vol.10,pp.86-96,Jan.1992.(2)J.D.Johnston in“Perceptual Transform Coding of Wide-band StereoSignals”,ICASSP’89,Glasgow,Scotland,pp.1993-1996,May 1989.(3)“Information Technology-Coding of Moving Pictures and AssociatedAudio for Digital Storage Media at up to About 1.5 Mbit/s Part 3:Audio(ISO/IEC 11172-3:1993)”.(4)“The MD system description document(Sony Inc.:Sept.1992).(5)“MPEG-2 AAC,ISO/IEC 13818-7:1997(E)”
而目前大部分新近开发的音频信号编解码方案都采用ModifiedDiscrete Cosine Transform(MDCT)作为其滤波器组,MDCT是由Princen和Bradley于1987年提出的(“Subband/Transform Coding Using Filter BankDesigns Based on Time Domain Aliasing Cancellation”,Proceedings of theICASSP 1987,pp 2161-2164),它以重叠块和动态窗把一个信号分解成等长的子带,由于cosine系列函数之特质和编解码过程中的量化噪声,系数重构和反向MDCT的使用会在合成出的突跃信号周围形成波纹,人类听觉系统的后向掩蔽时效远长于前向掩蔽时效,PCM帧的后端通常处于后向掩蔽时效内,因此,突越信号之后的波纹不会被听到,如果前向掩蔽时效不能覆盖PCM帧的前端,突越信号前面的波纹会形成可感知的噪声(如图1所示),这种噪声被称为前回声。
为抑制或消除这种前回声,较小的MDCT块长应被使用以便把突越信号前面的波纹限制在前向掩蔽时效内,由于块长与编码效率成正比,一种自动而精确地选择MDCT块长的算法可消除或抑制前回声并优化编解码器的率失真性能。
在过去的几年里,一些用于抑制或消除前回声的块长选择方法被提出并使用于不同的系统,图2描述了MD系统(ATRAC)中的块长选择方法。该方法是由SONY公司于1992年9月提出的。如图所示,block 3.1检测每个由32点构成的子帧之峰值,连续的子帧之峰值在block 3.2中进行比较,block3.3为决策部分,如果连续子帧的峰值之差大于18dB,短块(mode 1)被选择(由block 3.4所表示),否则,较长块(mode 3或mode 4)被选择(由block 3.5和3.6所表示),以应用于不同的频带,在这一块长选择过程中,邻近PCM子帧之峰值被提取出以用作为波型特征,接着,基于波形特征的分类被执行,显然,特征提取的过程中丢失了大量的波形信息;于是,该方法的选择精度不会很高。换句话说,该方法所选定的具有较大块长的帧数与最佳数之间有较大的偏差;不足或过度地使用短块将导致前回声噪音或编码效率的不必要下降,这种简单方法的使用在很大程度上是基于复杂度之考量。
在MPEG-2 AAC标准中,块长是根据感知熵(perceptual entropy)确定的,感知熵(PE)被定义为能量阀值、静音阀值以及频谱各部分之能量的函数,MPEG-2 AAC先计算与各种块长相对应的PE值,如果长块的PE值较大,短块被使用,否则,较长的块被使用,这一方法建立在心理声学关于稳态/非稳态的概念之上,它是基于全局信息(全部频率系数)的频域解决方案,直接导致前回声的原始时域信号上短暂而显著的变化并没有得到足够的强调和利用,因此,前回声的消除将伴随着编码效率的过度下降;性能代价比不会非常高。
如上所述,在使用块变换的音频编码器时,输入信号在时域上短暂而显著的变化(突跃信号)在前向掩蔽时效不能覆盖PCM帧的前端时会导致前回波噪音;为了抑制或消除这种前回声,较短的块应被使用以便把突跃信号前面的波纹限制在前向掩蔽时效内,然而,较小的块长不可避免地导致频域分辨率的下降、从而降低编码效率,对具有突跃特质的输入信号而言,在编码效率和前回声消除之间存在一个平衡问题。
本发明的内容
本发明的目的在于提供音频信号压缩中基于自适应阀值和典型样本预测进行的块长选择方法,在消除前回波噪音的前提下,最大程度提高优化编码效率。
附图说明
图1:基于MDCT的编解码器中,突跃信号之合成所引起的波纹。
图2:MD(ATRAC)编码器使用的块长选择方法流程。
图3:低复杂度MPEG-2 AAC编码器之框图。
图4:本发明所涉及的操作进程。
图5:本发明的块长选择算法框图。
本发明的具体实现方式
实现本发明目的的技术方案为一种音频信号压缩中基于自适应阀值和典型样本预测进行的块长选择方法,在保持编码效率的前提下完全去除前回波噪声,其特征在于方法由以下步骤所组成:
a)根据所采用的变换之配置,将输入音频数据分解成帧;
b)将上述的帧进一步分解成S个等长的子帧,找出各个子帧上PCM数据绝对值的峰值,在各子帧的峰值中选出那些局部最大点;
c)用上述的局部最大点前面的几个子帧峰值pi来预测位于局部最大点之前d个子帧处的典型样本值,计算当前局部最大点与所预测出的典型样本值之差值和比值;
d)根据所计算出的差值和比值、前面的子帧峰值以及对应于可选块长的一系列自适应阀值,确定与本局部最大点相关联的最佳块长;
e)根据具有特定块长的帧数在总帧数中所占的百分比,调整对应的当前阀值;
f)重复上述操作直到最短的块长被选择或者最后一个局部最大点被达到;
g)在与各个局部最大点相关联的块长中,选出最小者作为本帧之块长。
本发明的进一步特征在于子帧峰值pi预测前面d个子帧处典型样本值的方法:
where S(d)为子幀峰值pi向前延迟d个子幀处的预测样本峰值。
pk为第k个子幀的样本峰值。
N为运算所涉及的子幀数的一半。
本发明所涉及的突跃信号检测的度量判据,上述峰值与所预测出的典型样本值之差值和比值确定如下:
D(d)=pi-S(d)
R(d)=pi/S(d)
本发明最短的块长一种避免过度使用较短块长的方法,“局部最大掩蔽分析法”,被陈述如下:找出当前局部最大点之前的第一个具备后向掩蔽前回波噪声的局部最大峰点,这里的前回波噪声由当前局部最大点所引发;如果在找出的具有后向掩蔽能力的峰点之前存在一个峰值足够小的子帧,即为最短的块长以消除前回声,否则,使用较长块以提高编码效率。
本发明阀值调整方法由以下步骤所构成:
a)计算采用特定块长的帧数占总帧数的百分比;
b)把对应的阀值增加或减少一个步长,以控制对应的百分比,该步长与上述百分比成比例,调整后的阀值为下一输入帧所用。
本发明涉及的各子帧峰值的快速确定法由下述步骤所构成:
a)对一帧PCM信号的绝对值{x0,x1,...,xL)进行亚抽样,在亚抽样版本(M为亚抽样因子)中找出各子帧峰值点;
b)在以各个亚抽样峰值点为中心的(2M-1)-样本邻域中,找出最大者作为原始PCM帧{x0,x1,...,xL}的子帧峰值。
作为一种消除前回声的方案,块长通常在执行变换之前被确定,块长选择的目标为:在消除前回波噪音的前提下,尽可能提高块长,减少运算量,以优化编码效率,运算量是编码效率另一个重要的指标。本发明建立在心理声学关于前向和后向掩蔽时效的理论之上,一个所谓的PCM数据帧被划分成时间上等长的子帧,每个子帧的时长约为前向掩蔽时效的一半(1.5ms),各个子帧上PCM数据绝对值的峰点被找出,从这些峰值点中标识出那些局部最大值。
一个局部最大点前面的几个子帧峰值被用来预测位于当前局部最大点前面d个子帧处之典型样本值,当前局部最大点与预测值之差值和比值被用作检测突跃信号的判据,本发明所提出的“局部最大掩蔽分析法”将心理声学理论用于避免短块的过度使用,从而优化编解码器的率-失真性能,一个亚抽样机制被用来降低寻找子帧峰值之过程所需要的运算量,其它手段包括:确认在帧前端与前向掩蔽时效前端之间是否存在具有较低峰值的子帧。
在应用本发明时,分段操作被执行:根据所采用的变换之配置,把输入音频数据分解成帧,帧进一步被分解成子帧,接着,比较操作被执行以确定各个子帧的峰点。如果一个子帧峰点是局部最大值,其前向延迟d子帧处的典型样本值被线性预测。局部最大值与预测样本值之差值和比值被计算,如果计算出的差值和比值都大于各自的门限,判断存在突跃信号,确认具备后向掩蔽前回声的局部最大峰点,如果在帧前端与前向掩蔽时效前端之间存在一个峰值足够小的子帧,使用较短块以消除前回波噪音,否则,使用较长块以提高编码效率,重复上述块长选择运算直到最短的块长被选择或者最后一个局部最大点被达到,在与各个局部最大点相关联的块长中,选出最小者作为本帧之块长,找寻各子帧峰值的过程能够被简化:搜索亚抽样版本子帧并评测亚抽样峰值的邻域,上述操作的进程如图4所示。
MPEG-2 AAC编码器所涉及的块长决策部件被选作本发明的实现平台,低复杂度MPEG-2 AAC编码器的框架如图3所示,一个输入音频信号被以44.1kHz采样,采样信号被划分成帧,每帧由1024个样本组成(约23.22ms),心理声学模型利用人类听觉系统的掩蔽现象从输入信号帧中去除感觉不到的内容,同时,信号帧被缓存,然后,缓存信号帧的块长被确定。接着,执行MDCT,随后,MDCT频谱的量化噪声被暂态成形,强度偶合模块利用一对声道之间高频段枝节信息的不敏感性以提升率-失真性能;主/从分解(Middle/Side)利用“双耳掩蔽电平压抑”特性以控制噪声和暂态/语音信号的编码。最后,预处理过的数据被量化和编码,索引值和枝节信息被打包进比特流。
MPEG-2 AAC涉及二种可能的块长、长块(2048点)和短块(256点),本发明的实现细节如以下步骤所描述:Step 1.将输入音频数据分解成帧(1024点)。Step 2.进一步把输入帧分解成16个子帧(64点)。找出各个子帧上PCM数据绝对值的峰值。在各子帧的峰值中选出那些局部最大点。Step 3.对一个局部最大点,用其前面的3个子帧峰值来预测相对其前向延迟4个子帧处的典型样本值。计算局部最大点与所预测出的典型样本值之差值和比值。 D(4)=pi-S(4) R(4)=pi/S(4)
where D(4)和R(4)分别是局部最大点与所预测出的典型样本值之差值和比值。Step 4。如果D(4)>Td同时R(4)>TR,判断存在突跃信号。确认具备后向掩蔽前回波噪声能力的局部最大峰点。如果在帧前端与掩蔽峰点前面2.5ms处之间存在一个峰值足够小的子帧,使用较短块以消除前回声。否则,使用较长块以提高编码效率。Step 5.重复上述各步骤直到最短块被选择或者最后一个局部最大点被达到。Step 6.结束上述步骤的流程如图5所示。
本发明完全消除了由突跃信号所引发的前回波噪音,并取得了很高编码效率,所需要的运算量很小。
Claims (6)
1、一种基于自适应阀值和典型样本预测的块长选择方法,在保持编码效率的前提下完全去除前回波噪声,其特征在于方法由以下步骤所组成:
a)根据所采用的变换之配置,将输入音频数据分解成帧;
b)将上述的帧进一步分解成S个等长的子帧,找出各个子帧上PCM数据
绝对值的峰值,在各子帧的峰值中选出那些局部最大点;
c)用上述的局部最大点前面的几个子帧峰值pi来预测位于局部最大点之
前d个子帧处的典型样本值,计算当前局部最大点与所预测出的典型
样本值之差值和比值;
d)根据所计算出的差值和比值、前面的子帧峰值以及对应于可选块长的
一系列自适应阀值,确定与本局部最大点相关联的最佳块长;
e)根据具有特定块长的帧数在总帧数中所占的百分比,调整对应的当前
阀值;
f)重复上述操作直到最短的块长被选择或者最后一个局部最大点被达
到;
g)在与各个局部最大点相关联的块长中,选出最小者作为本帧之块长。
2、根据权利要求1所述的一种基于自适应阀值和典型样本预测的块长选择方法,其特征在于子帧峰值pi预测前面d个子帧处典型样本值的方法:
where S(d)为子幀峰值pi向前延迟d个子幀处的预测样本峰值。
pk为第k个子幀的样本峰值。
N为运算所涉及的子幀数的一半。
3、根据权利要求1所述的一种基于自适应阀值和典型样本预测的块长选择方法,其特征在于所涉及的突跃信号检测的度量判据,上述峰值与所预测出的典型样本值之差值和比值确定如下:D(d)=pi-S(d) R(d)=pi/S(d) 。
4、根据权利要求1所述的一种基于自适应阀值和典型样本预测的块长选择方法,其特征在于一种避免过度使用较短块长的方法,“局部最大掩蔽分析法”,被陈述如下:
a)找出当前局部最大点之前的第一个具备后向掩蔽前回波噪声的局部最
大峰点,这里的前回波噪声由当前局部最大点所引发。
b)如果在找出的具有后向掩蔽能力的峰点之前存在一个峰值足够小的子
帧,即为最短的块长以消除前回声,否则,使用较长块以提高编码效
率。
5、根据权利要求1所述的一种基于自适应阀值和典型样本预测的块长选择方法,其特征在于阀值调整方法由以下步骤所构成:
a)计算采用特定块长的帧数占总帧数的百分比;
b)把对应的阀值增加或减少一个步长,以控制对应的百分比,该步长与上述百分比成比例,调整后的阀值为下一输入帧所用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB01134556XA CN1165036C (zh) | 2001-11-02 | 2001-11-02 | 一种基于自适应阀值和典型样本预测的块长选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB01134556XA CN1165036C (zh) | 2001-11-02 | 2001-11-02 | 一种基于自适应阀值和典型样本预测的块长选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1363923A true CN1363923A (zh) | 2002-08-14 |
CN1165036C CN1165036C (zh) | 2004-09-01 |
Family
ID=4672586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB01134556XA Expired - Fee Related CN1165036C (zh) | 2001-11-02 | 2001-11-02 | 一种基于自适应阀值和典型样本预测的块长选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1165036C (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005086137A1 (fr) * | 2004-03-02 | 2005-09-15 | Beijing E-World Technology Co., Ltd. | Procede de codage/decodage fonde sur la mise en correspondance de modeles et sur l'analyse multi-distinguabilite |
WO2010078816A1 (zh) * | 2008-12-29 | 2010-07-15 | 华为技术有限公司 | 瞬态信号的编码方法和装置、解码方法和装置及处理系统 |
CN102314884A (zh) * | 2011-08-16 | 2012-01-11 | 捷思锐科技(北京)有限公司 | 语音激活检测方法与装置 |
-
2001
- 2001-11-02 CN CNB01134556XA patent/CN1165036C/zh not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005086137A1 (fr) * | 2004-03-02 | 2005-09-15 | Beijing E-World Technology Co., Ltd. | Procede de codage/decodage fonde sur la mise en correspondance de modeles et sur l'analyse multi-distinguabilite |
WO2010078816A1 (zh) * | 2008-12-29 | 2010-07-15 | 华为技术有限公司 | 瞬态信号的编码方法和装置、解码方法和装置及处理系统 |
CN101770776B (zh) * | 2008-12-29 | 2011-06-08 | 华为技术有限公司 | 瞬态信号的编码方法和装置、解码方法和装置及处理系统 |
US8063809B2 (en) | 2008-12-29 | 2011-11-22 | Huawei Technologies Co., Ltd. | Transient signal encoding method and device, decoding method and device, and processing system |
CN102314884A (zh) * | 2011-08-16 | 2012-01-11 | 捷思锐科技(北京)有限公司 | 语音激活检测方法与装置 |
CN102314884B (zh) * | 2011-08-16 | 2013-01-02 | 捷思锐科技(北京)有限公司 | 语音激活检测方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1165036C (zh) | 2004-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7340391B2 (en) | Apparatus and method for processing a multi-channel signal | |
KR100962681B1 (ko) | 오디오신호들의 분류 | |
AU2009267529B2 (en) | Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing | |
US6064954A (en) | Digital audio signal coding | |
CN101030373B (zh) | 使用自适应掩蔽阈值的立体声感知音频编码的系统和方法 | |
KR100346066B1 (ko) | 오디오신호 코딩방법 | |
JP3881943B2 (ja) | 音響符号化装置及び音響符号化方法 | |
US6721700B1 (en) | Audio coding method and apparatus | |
KR102088153B1 (ko) | 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법 | |
KR20070001276A (ko) | 신호 인코딩 | |
AU653969B2 (en) | A method of, system for, coding analogue signals | |
Kroon et al. | Predictive coding of speech using analysis-by-synthesis techniques | |
EP3175457B1 (en) | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals | |
KR100216018B1 (ko) | 배경음을 엔코딩 및 디코딩하는 방법 및 장치 | |
EP1497631B1 (en) | Generating lsf vectors | |
Iwakami et al. | Audio coding using transform‐domain weighted interleave vector quantization (twin VQ) | |
CN1363923A (zh) | 一种基于自适应阀值和典型样本预测的块长选择方法 | |
Sinha et al. | Low bit rate transparent audio compression using a dynamic dictionary and optimized wavelets | |
EP0984433A2 (en) | Noise suppresser speech communications unit and method of operation | |
Ramprashad | Stereophonic CELP coding using cross channel prediction | |
KR0138878B1 (ko) | 보코더용 피치검색 처리시간 단축법 | |
CN1354456A (zh) | 小波音频编码信号处理中块效应消除方法 | |
EP2456236A1 (en) | Constrained filter encoding of polyphonic signals | |
Reyes et al. | A new cost function to select the wavelet decomposition for audio compression | |
Ghahabi et al. | A simple perceptual method for quantizing wavelet packet coefficients of wideband speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right |
Effective date of registration: 20051209 Pledge (preservation): Preservation |
|
PD01 | Discharge of preservation of patent |
Pledge (preservation): Preservation Release effective date: 20060609 |
|
PP01 | Preservation of patent right |
Effective date of registration: 20061102 Pledge (preservation): Preservation |
|
PD01 | Discharge of preservation of patent |
Date of cancellation: 20090812 Pledge (preservation): Preservation registration |
|
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20040901 |