CN101308656A - 音频暂态信号的编解码方法 - Google Patents

音频暂态信号的编解码方法 Download PDF

Info

Publication number
CN101308656A
CN101308656A CNA200710040779XA CN200710040779A CN101308656A CN 101308656 A CN101308656 A CN 101308656A CN A200710040779X A CNA200710040779X A CN A200710040779XA CN 200710040779 A CN200710040779 A CN 200710040779A CN 101308656 A CN101308656 A CN 101308656A
Authority
CN
China
Prior art keywords
transient signal
decoding method
audio
processing
prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200710040779XA
Other languages
English (en)
Inventor
黄鹤云
张本好
李昙
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CNA200710040779XA priority Critical patent/CN101308656A/zh
Priority to PCT/CN2008/071007 priority patent/WO2008141579A1/zh
Publication of CN101308656A publication Critical patent/CN101308656A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种音频暂态信号的编解码方法,在对暂态信号做变换编码之前,对输入帧的时域采样点进行处理,即加入暂态信号处理;暂态信号处理位于在编码器端进行时-频变换之前的任意位置以及对应的解码器端进行频-时变换之后的任意位置。本发明能够有效减少编解码端的计算复杂度。适用于数字移动通信领域。

Description

音频暂态信号的编解码方法
技术领域
本发明涉及数字移动通信领域,特别是涉及一种音频暂态信号的编解码方法。
背景技术
暂态信号是一种特殊的音频信号,它多存在于有敲打乐器的音频序列中,例如,连续的敲锣打鼓产生的信号可以称之为暂态信号。它的特殊性在于,如果采用常规的变换编码方法例如MDCT(改进型离散余弦变换)等,对其进行编解码的话,会产生预回声现象。这是由于量化比特不够所带来的量化噪声。量化噪声是均匀的扩散到整个时域里,在暂态信号出现之前的那段信号会被量化噪声占据,进而产生了预回声现象。预回声现象一种严重的失真,人耳对此种失真非常敏感。
现有技术中虽然已经有两类经典的技术对暂态信号进行有效的编解码,但是,运算开销都相对常规的变换编解码的方法要大得多。
发明内容
本发明要解决的技术问题是提供一种音频暂态信号的编解码方法,能够有效减少编解码端的计算复杂度。
为解决上述技术问题,本发明的音频暂态信号的编解码方法是采用如下技术方案实现的,在对暂态信号做变换编码之前,对输入帧的时域采样点进行处理,即加入暂态信号处理;暂态信号处理位于在编码器端进行时-频变换之前的任意位置以及对应的解码器端进行频-时变换之后的任意位置。
本发明的方法是对现有技术中的增益修正方法的一种改进。由于增益修正方法对整个暂态信号帧进行了增益的修正,对其精确修正需要的比特数是相当的高的。实际上,由于暂态信号也只是在暂态信号帧的某一小部分出现。因此只需要对一部分时域采样点而不是所有的时域采样点进行增益修正即可。采用本发明既可以减少需要量化的比特数,也可以同时减少编解码端的计算复杂度。
附图说明
下面结合附图与具体实施方式对本发明作进一步详细的说明:
图1是本发明的方法中编码端的控制流程图;
图2是本发明的方法中解码端的控制流程图;
图3是本发明的方法中编码端的暂态信号处理框图;
图4是本发明的方法中解码端的暂态信号处理框图。
具体实施方式
如图1、2所示。本发明的音频暂态信号的编解码方法,其基本思想是在对暂态信号做变换编码之前,对输入帧的时域采样点进行处理,即加入暂态信号处理。暂态信号处理(暂态信号编解码)可以在编码器进行时-频变换之前的任意位置以及对应的解码器进行频-时变换之后的任意位置。
图1、2中,时域处理包括分析滤波器等对输入采样点的处理步骤。时-频变换(或频-时变换)则包括变换编(解)码以及之后的一些频(时)域处理和量化步骤。例如,在MPEG-AAC编码器里,时域处理所包含的步骤。
下面分别从编码器和解码器端对本发明的方法进行说明。
(1)编码器
首先在时域上检测输入帧是否为暂态帧。在这里可以采用任何已知的暂态信号检测方法(例如感知熵)。在本发明的一个实施例中,假定输入帧的采样点为x1,x2,....,XN,同时将其分成L段,用集合Al,l=1,2,...,L来表示这种分割。分别计算每段的能量E0和整帧的平均能量EI
E 0 = Σ i = 1 N x i 2 E l = Σ x i ∈ A l x i 2
将整帧的平均能量与每段的能量的最大比值同设定的门限值进行比较,当所述的最大比值大于门限值T的时候则输入帧为暂态帧,否则为稳态帧。即:
max E l E 0 > T
预回声信号产生的本质原因是量化噪声扩散到暂态信号出现之前的时间段,并且听觉的前掩蔽不够,所以会导致这些量化噪声为人耳清晰的感觉到,导致了最终的严重失真。
当输入帧被检测为暂态信号的时候,开启暂态信号处理方法。现有技术中有很多对暂态信号的处理方法,例如:
一种典型的处理方法是长短窗切换方法。它在暂态信号出现的时候把其切换到短窗,提高信号的时间分辨率,从而抑制了预回声现象。该方法在很多标准中得以应用并被证明是一种良好的方法。
另一种方法是时域噪声整形方法(Temporal Noise Shaping TNS)。它利用时频的对偶性,从频域里进行线性预测分析,即相当于在时域中进行相应的时域包络整形处理,从而也从一定程度抑制了预回声现象。
比特池方法(Bit Pool)也是一种有效的方法,在可变码率编解码的框架里,利用之前节省下的比特对暂态信号进行编解码,由于比特数的增加,量化噪声随之减少,可以从一定程度上缓解预回声现象。
增益修正(Gain Modification)方法也是一种经典算法。它根据暂态信号的时域采样点计算出某些增益和形状参数,利用这些参数修正时域采样点,达到对预回声现象的抑制作用。
本发明的对暂态信号的处理方法是在增益修正方法基础上的一种改进。由于增益修正方法对整个暂态信号帧进行了增益的修正,对其精确修正需要的比特数是相当高的。实际上,由于暂态信号也只是在暂态信号帧的某一小部分出现。因此只需要对一部分时域采样点而不是所有的时域采样点进行增益修正即可。这样即可以减少需要量化的比特数,也可以同时减少编解码端的计算复杂度。
继续沿用之前的假设,即输入帧的采样点为:x1,x2,....,xN(记为集合C),其中N是输入帧长度。首先根据输入帧的采样点信号确定哪些采样点(不是所有采样点)需要进行伸缩处理(即增益修正),即如前面所述的暂态检测步骤。通过这个步骤可以得到一个采样点集合:
A = { x i 1 , x i 2 , . . . , x i N &prime; } , 0 < N &prime; < N
其中,ij∈{1,2,...,N}。
同时将剩下的采样点信号数据记为集合B:
B = { x i &Element; C , x i &NotElement; A , i = 1,2 , . . . , N }
一种实施例是检测出暂态信号出现的时刻对应的采样点,假设为it,可以设该时刻开始之后的M个采样点是需要进行伸缩处理的采样点,用A1表示该采样点集合:
A 1 = { x i t , x i t + 1 , . . . , x i t + M - 1 }
其中0<M<N-it+1。
将需要进行伸缩处理的采样点(集合A)进行伸缩处理,即乘以一个乘性参数λi,达到对该部分采样点进行伸缩处理的目的。
x i j &prime; = x i j &lambda; j , j = 1,2 , . . . , N &prime;
乘性参数λj,j=1,2,...,N′可以通过任意一种方式得到。可以是预先设定的,也可以是根据输入采样点和其他参数(例如采样率、码率等等)自适应计算出来的。
将集合A的数据进行处理以后,把其数据和B集合的数据重新按照C集合原来的顺序进行排列可以得到经过伸缩处理的暂态信号,当作时-频变换编码的输入。实现过程可参见图3所示。
(2)解码器
在解码端,应用暂态信号时域恢复处理模块来恢复时域信号。假设频-时变换以后,可以得到时域的恢复信号采样点:
x′1,x′2,....,x′N
根据编码端产生的集合A和集合B的情况来进行反伸缩处理:
当i∈{i1,i2,...,iN′},找到i=ij
x i j = x i j &prime; &lambda; j
否则不进行任何处理。相对于编码端,解码端乘性参数λj可以通过任意一种方式得到。它可以是预先设定的,也可以通过对编码端的乘性参数用任何编解码方法得到。根据如上过程产生得到暂态信号处理后的输出x1,x2,....,xN。恢复处理过程可参见图4。

Claims (7)

1、一种音频暂态信号的编解码方法,其特征在于:在对暂态信号做变换编码之前,对输入帧的时域采样点进行处理,即加入暂态信号处理;暂态信号处理位于在编码器端进行时-频变换之前的任意位置以及对应的解码器端进行频-时变换之后的任意位置。
2、根据权利要求1所述的音频暂态信号的编解码方法,其特征在于:在编码器,首先在时域上检测输入帧是否为暂态帧;当输入帧被检测为暂态信号的时候,则进行暂态信号处理。
3、根据权利要求2所述的音频暂态信号的编解码方法,其特征在于:所述暂态信号处理采用长短窗切换方法、时域噪声整形方法、比特池方法、或增益修正方法。
4、根据权利要求2所述的音频暂态信号的编解码方法,其特征在于:所述暂态信号处理的方法是:
首先根据输入帧的采样点信号确定哪些采样点需要进行伸缩处理,根据需要伸缩处理的点得到一个采样点集合A:
A = { x i 1 , x i 2 , . . . , x i N &prime; } , 0 < N &prime; < N
其中,ij∈{1,2,...,N};
将集合A乘以一个乘性参数 &lambda; i , x i j &prime; = x i j &lambda; j , j = 1,2 , . . . , N &prime; , 达到对该部分采样点进行伸缩处理。
5、根据权利要求4所述的音频暂态信号的编解码方法,其特征在于:同时将剩下的采样点信号数据记为集合B:
B = { x i &Element; C , x i &NotElement; A , i = 1,2 , . . . , N }
将集合A的数据进行处理以后,把其数据和集合B的数据重新按照集合C,C=x1,x2,....,xN原来的顺序进行排列得到经过伸缩处理的暂态信号,当作时-频变换编码的输入。
6、根据权利要求4所述的音频暂态信号的编解码方法,其特征在于:所述乘性参数λi,是预先设定的,或者是根据输入采样点自适应计算出来的。
7、根据权利要求1所述的音频暂态信号的编解码方法,其特征在于:在解码器端,应用暂态信号时域恢复处理模块来恢复时域信号,并得到时域的恢复信号采样点:
x′1,x′2,....,x′N
根据编码端产生的需要伸缩处理的集合A:
A = { x i 1 , x i 2 , . . . , x i N &prime; } , 0 < N &prime; < N 其中,ij∈{1,2,...,N};
和将剩下的采样点信号数据组成的集合B:
B = { x i &Element; C , x i &NotElement; A , i = 1,2 , . . . , N }
的情况,来进行反伸缩处理:
当i∈{i1,i2,...,iN′},找到i=ij
x i j = x i j &prime; &lambda; j
否则不进行任何处理。
CNA200710040779XA 2007-05-17 2007-05-17 音频暂态信号的编解码方法 Pending CN101308656A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNA200710040779XA CN101308656A (zh) 2007-05-17 2007-05-17 音频暂态信号的编解码方法
PCT/CN2008/071007 WO2008141579A1 (fr) 2007-05-17 2008-05-19 Procédé de codage et de décodage de signal audio transitoire

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200710040779XA CN101308656A (zh) 2007-05-17 2007-05-17 音频暂态信号的编解码方法

Publications (1)

Publication Number Publication Date
CN101308656A true CN101308656A (zh) 2008-11-19

Family

ID=40031421

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200710040779XA Pending CN101308656A (zh) 2007-05-17 2007-05-17 音频暂态信号的编解码方法

Country Status (2)

Country Link
CN (1) CN101308656A (zh)
WO (1) WO2008141579A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694773B (zh) * 2009-10-29 2011-06-22 北京理工大学 一种基于tda域的自适应窗切换方法
CN102668374A (zh) * 2009-10-09 2012-09-12 Dts(英属维尔京群岛)有限公司 音频录音的自适应动态范围增强
CN103295577A (zh) * 2013-05-27 2013-09-11 深圳广晟信源技术有限公司 用于音频信号编码的分析窗切换方法和装置
CN103384900A (zh) * 2010-12-23 2013-11-06 法国电信公司 在预测编码与变换编码之间交替的低延迟声音编码
CN104992711A (zh) * 2015-05-27 2015-10-21 东南大学 一种基于移动终端的局域网集群双工语音通信方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5825320A (en) * 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
DE60225130T2 (de) * 2001-05-10 2009-02-26 Dolby Laboratories Licensing Corp., San Francisco Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
CN101228574A (zh) * 2005-09-08 2008-07-23 北京阜国数字技术有限公司 一种控制前回声的编码和解码装置及方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102668374A (zh) * 2009-10-09 2012-09-12 Dts(英属维尔京群岛)有限公司 音频录音的自适应动态范围增强
CN102668374B (zh) * 2009-10-09 2015-09-09 Dts(英属维尔京群岛)有限公司 音频录音的自适应动态范围增强
CN101694773B (zh) * 2009-10-29 2011-06-22 北京理工大学 一种基于tda域的自适应窗切换方法
CN103384900A (zh) * 2010-12-23 2013-11-06 法国电信公司 在预测编码与变换编码之间交替的低延迟声音编码
CN103384900B (zh) * 2010-12-23 2015-06-10 法国电信公司 在预测编码与变换编码之间交替的低延迟声音编码
CN103295577A (zh) * 2013-05-27 2013-09-11 深圳广晟信源技术有限公司 用于音频信号编码的分析窗切换方法和装置
CN103295577B (zh) * 2013-05-27 2015-09-02 深圳广晟信源技术有限公司 用于音频信号编码的分析窗切换方法和装置
CN104992711A (zh) * 2015-05-27 2015-10-21 东南大学 一种基于移动终端的局域网集群双工语音通信方法
CN104992711B (zh) * 2015-05-27 2018-06-15 东南大学 一种基于移动终端的局域网集群双工语音通信方法

Also Published As

Publication number Publication date
WO2008141579A1 (fr) 2008-11-27

Similar Documents

Publication Publication Date Title
KR101168645B1 (ko) 과도 신호 부호화 방법 및 장치, 과도 신호 복호화 방법 및 장치, 및 과도 신호 처리 시스템
KR101437127B1 (ko) 가중 윈도우들을 사용한 저-지연 변환 코딩
KR101586317B1 (ko) 신호 처리 방법 및 장치
CN102368385B (zh) 后向块自适应Golomb-Rice编解码方法及装置
TR200401631T4 (tr) Yüksek frekanslı yeniden yapılandırma yöntemlerini kullanan kodlama sistemlerinin performansının artırılması.
CN101004914B (zh) 声音编码装置和方法
CN101421780B (zh) 用于编码和解码时变信号的方法和设备
JP2002544550A (ja) 符号化されたオーディオ信号中のエラーを隠蔽する方法と装置および符号化されたオーディオ信号を復号化する方法と装置
CN101488344B (zh) 一种量化噪声泄漏控制方法及装置
CN101308655B (zh) 一种音频编解码方法与装置
JP2008511040A5 (zh)
JPH03132228A (ja) 直交変換信号符号化復号化方式
CA2687685A1 (en) Signal encoding using pitch-regularizing and non-pitch-regularizing coding
WO2005034080A3 (en) A method of making a window type decision based on mdct data in audio encoding
CN101308656A (zh) 音频暂态信号的编解码方法
RU2015135352A (ru) Способ и устройство для арифметического кодирования или арифметического декодирования
CN102194458B (zh) 频带复制方法、装置及音频解码方法、系统
Huang et al. Lossless audio compression in the new IEEE standard for advanced audio coding
US10186273B2 (en) Method and apparatus for encoding/decoding an audio signal
RU2651184C1 (ru) Способ обработки речевого/звукового сигнала и устройство
EP3826011A1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
CN103456307B (zh) 音频解码器中帧差错隐藏的谱代替方法及系统
CN101228574A (zh) 一种控制前回声的编码和解码装置及方法
CN101308651B (zh) 音频暂态信号的检测方法
US10332527B2 (en) Method and apparatus for encoding and decoding audio signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20081119