CN1525439A - 广义综合分析语音编码方法和实施该方法的编码器 - Google Patents
广义综合分析语音编码方法和实施该方法的编码器 Download PDFInfo
- Publication number
- CN1525439A CN1525439A CNA2003101161197A CN200310116119A CN1525439A CN 1525439 A CN1525439 A CN 1525439A CN A2003101161197 A CNA2003101161197 A CN A2003101161197A CN 200310116119 A CN200310116119 A CN 200310116119A CN 1525439 A CN1525439 A CN 1525439A
- Authority
- CN
- China
- Prior art keywords
- signal
- frame
- filter
- subframe
- filtering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003786 synthesis reaction Methods 0.000 title description 11
- 238000001914 filtration Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000004458 analytical method Methods 0.000 claims description 49
- 238000009825 accumulation Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims 2
- 238000012986 modification Methods 0.000 abstract description 17
- 230000004048 modification Effects 0.000 abstract description 17
- 230000008569 process Effects 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000035807 sensation Effects 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001373 regressive effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 244000287680 Garcinia dulcis Species 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/13—Residual excited linear prediction [RELP]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
本发明涉及广义综合分析语音编码方法和实施该方法的编码器。提出了一种改进的EX-CELP或RCELP编码方法,其中在编码器端,语音信号在进入时间刻度修改模块之前是感觉加权的信号,然后用与另一处理(例如短期LP滤波)直接或可能组合的相应反向滤波操作把经修改的信号变换到另一域,比如语音或LP短期余项域。在时间刻度修改处理中计算位移函数,使修改信号中每个样本的位置都与修改前的源位置相关联。估计修改信号中对应于源信号子帧边界的样本的位置,以转换滤波器,用于适当间隔处的反向滤波。因此,反向滤波器和经修改的信号之间的同步得以维持。
Description
技术领域
本发明涉及使用广义综合分析语音编码技术的编码方法,尤其涉及称为非严格编码激励线性预测(RCELP)及类似的技术。
背景技术
很大一类的语音编码范例是建立在预测编码的概念之上。预测语音编码器被中低比特速率的通信和存储系统广泛使用。
最通用和实际的预测语音编码方法是线性预测(LP)方法,其中当前信号值由先前传输并解码的信号样本的线性组合所估计。短期(ST)线性预测,与输入信号的频谱形状密切相关,起初被用来进行语音编码。长期(LT)线性预测进一步被引入,以取得语音信号的统一结构,尤其是有声语音片断。
综合分析(AbS)方法提供了一种对短期LP余项进行优化分析和编码的有效手段,它使用长期线性预测和编码本激励搜索。Abs方法是一大系列语音编码器的基础,包括编码激励线性预测(CELP)编码器和自激励声码器(A.Gersho撰写的“语音和音频压缩中的先进技术”(Advances in Speech and Audio Compression),IEEE会刊,第82册,第6号,900-918页,1994年6月)。
随着语音编码技术的进步,编码器处长期LP分析(也称为“间距预测”)和解码器处的长期LP综合已有了发展,起初的方法是用单抽头滤波器,长期LP扩充后包括多抽头滤波器(R.P.Ramachandran and P.Kabal,“语音编码器中的间距滤波器的稳定性和性能分析”(“Stability and Performance Analysis of PitchFilters in Speech Coders”)ASSP上的IEEE学报,第35册,第7号,937-948页,1987年6月)。接下来,引入部分延迟,使用内插滤波器进行过取样和次取样(P.Kroon和B.S.Atal,“高时间分辨率的间距预测”(“Pitch Predictors with HighTemporal Resolution”)ICASSP会刊,第二册,1990年4月,661-664页)。
那些对于起初的单抽头滤波器的扩充是设计为改善对声音语音中声门源产生的LT冗余的获取。LT匹配的越好,LP激励编码就越好,整体性能也越好。匹配精度也可以通过经常刷新LT参数来改善。然而,多抽头LT预测器或LT滤波器的高更新速率要求传输大量的位来表现它们,并会较大地增加位速率。这种开销在低比特速率编码器中是禁止的,于是就需要其它的解决方案。
为了克服上面描述的LT预测方法的一些局限性,引入了广义综合分析编码的概念(W.E.Kleijn等,“广义综合分析编码及将其应用于间距预测”(“GeneralizedAnalysis-by-Synthesis Coding anf its Application to PitchPrediction”)ICASSP会刊,第1册,1992年,337-340页)。在该方法中,源信号在进行编码前先作修改,要求修改后的信号感觉上接近源信号或与源信号相同。对于诸如编码器参数,更精确地说是间距预测参数的修改,要求与指定的间距周期轮廓相匹配。间距轮廓通过基于帧到帧的间距预测参数的内插获得,使用低分辨率来表现间距时滞,间距时滞限制了表现LT预测参数所需要的比特速率。
为了匹配间距轮廓而进行的修改称为时间刻度修改或“时间弯曲”(W.E.Kleijn等,“综合分析语音编码器中的间距预测参数的内插”(“Interpolation ofthe Pitch Predictor Parameters in Analysis-by-Synthesis Speech Coders”),SAP上的IEEE学报,第2册,第1号,第1部分,1994年1月,42-54页)。时间刻度修改过程的目的是使源信号的主要特征对准那些LT预测贡献的激励信号。
RCELP编码器衍生自传统的CELP编码器,通过将上面描述的广义综合分析概念应用到间距参数上而得,这在W.B.Kleijn等的,“RCELP语音编码算法”无线通信欧洲学报,第4册,第5号,1994年9月到10月,第573-582页有描述。
RCELP编码器的主要特征如下所述,类似CELP编码器,短期LP系数首先被估计(一般每帧一次,有时会有中间更新)。帧长度是可变的,典型的,在10ms到30ms之间。在RECLP编码器中,间距周期在帧到帧的基础上被估计,使用一个健壮的间距检测算法。接下来通过帧到帧间距周期的内插获得间距周期轮廓。源信号进行修改以匹配该轮廓。在早先的实施方式中(美国专利号5704003),这种时间刻度修改处理是在短期LP余项信号上进行的,然而,一个较佳的解决方式是使用感觉加权输入信号,将输入信号通过一个感觉加权滤波器进行滤波而获得,就如J.Thyssen等在“ITU-T 4kbits/s语音编码标准候选方案”(“A candidate fpr the ITU-T4kbits/s Speech Coding Standard”),ICASSP会刊第2册,美国犹他洲盐湖城,2001年5月,第681-684页或Yang Gao在“EX-CELP:一种语音编码范例”(“EX-CELP:A Speech Coding Paradigm”),ICASSP会刊第2册,美国犹他洲盐湖城,2001年5月,第689-693页中所做的。
修改后的语音信号接下来被使用反向预处理滤波器的反向滤波所获得,接下来的编码操作和那些在传统CELP编码中进行的操作相同。
需要注意的是,修改的输入信号可以精确地计算,这取决于进行时间刻度修改之前进行的滤波的种类,以及按照时间修改模块适合于CELP编码器的结构。
当用于CELP编码器的固定编码本查找的感觉加权滤波器采用A(z)/A(z/γ)的形式时,其中A(z)是LP滤波器而γ是加权因子,则在目标计算中仅包括一个递归滤波器。仅仅余项信号才是编码本查询所需要的。在RCELP编码的情况下,如果时间刻度修改是在该余项信号上进行的,就可能不需要对修改的源信号的计算。具有A(z/γ1)/A(z/γ2)形式的感觉加权滤波器,其加权因子为γ1和γ2,可以提供较好的性能,尤其是自适应感觉滤波器,例如,具有γ1和γ2变量,如美国专利号5845244中所公开的。当这种加权滤波器使用在CELP处理中时,目标估计引入了两个递归滤波器。
在很多CELP结构(比如,R.Salami等人,“CS-ACELP设计和描述:通行质量8kb/s语音编码器”(“Design and description of CS-ACELP:a toll quality 8kb/sspeech coder”)语音和音频处理的IEEE学报,第6册,第2号,1998年3月),中间滤波器处理向LP综合滤波器提供当前余项信号和存储的过去的加权错误信号。输入信号包括在余项计算和帧处理的结尾处的错误信号更新。
在RCELP的情况下,该方法的直接实施方式提出了计算修改的源输入的需要。然而,也可以衍生出等价的方法,就不需要修改的输入信号。如果时间刻度修改应用于余项信号,则基于使用修改的余项信号,或者如果时间刻度修改应用于加权语音,则基于修改的加权输入。
实践中,大多数RCELP编码器并不真正使用上面表现的结构来计算修改的源信号。
图1示出已知的RCELP编码器的框图。线性预测编码(LPC)分析模块1首先处理输入音频信号S,以提供LPC参数给模块2用来计算预处理滤波器3的系数,预处理滤波器3的传递函数是F(z)。滤波器3接收输入信号S并提供预处理信号FS给间距分析模块4。间距参数估计由模块5进行处理以产生间距轨迹。
经滤波的输入FS还被提供给时间刻度修改模块6,模块6根据由模块5获得的间距轨迹来提供经滤波的信号MFS。使用具有传递函数F(z)-1的滤波器7的反向滤波应用于修改的滤波信号MFS以提供经修改的输入信号MS,MS被提供给常规CELP编码器8。
由多路复用器9集合的RCELP编码器的数字输出流Φ一般包括LPC参数的量化数据和由模块1和4计算的间距时滞、编码器8获得的CELP编码本索引、也是由编码器8获得的与LT预测和CELP激励相关的增益的量化数据。
作为直接反向滤波函数7的替代,可以将经修改的滤波信号转化到可以执行的其它域。这种观点适用于这里讨论的现有技术和下面将要公开的本发明。例如,该领域可以是余项域,反向处理滤波F(z)-1和其它处理一起使用,比如CELP编码器的短期LP滤波。为了更直接的领会这个问题,接下来讨论精确计算经修改的输入信号的情况,即,当明确使用反向预处理滤波器7时。
在大多数AbS语音编码方法中,语音处理在一般长度为5ms到30ms的语音帧上进行,该长度对应于短期LP分析周期。在一帧内,假定信号是稳定的,与该帧相关的参数也是恒定的。这对于F(z)滤波器一般也成立,因此它的系数逐帧地被更新。应该认识到,在一个帧中,LP分析可以进行不止一次,滤波器F(z)也可以逐子帧地改变。例如在使用LP滤波器的帧内内插的情况时。
下面,词语“块”将对应于预处理滤波器参数的更新周期。熟悉本领域的人员将认识到这种“块”可以一般包括一个LP分析帧、一个这种LP分析帧的子帧,等等,这取决于编解码器的结构。
与线性滤波器相关的增益被定义为其输出信号能量与其输入信号能量的比率。很清楚,线性滤波器的高增益对应于反向线性滤波器的低增益,反之亦然。
可能会发生为两个连续块计算的预处理滤波器3具有明显不同的增益,而两个块内源语音S的能量却近似。由于滤波器增益是不同的,因此两个块经滤波的信号FS的能量也会明显不同。如果没有时间刻度修改,具有较高能量的经滤波的块的所有样本将被较低增益的反向线性滤波器7进行反向滤波,具有较低能量的经滤波的块的所有样本将被较高增益的反向线性滤波器7进行反向滤波。在这种情况下,经修改信号MS的能量轮廓正确地反映了输入语音S的能量轮廓。
然而,时间刻度修改会导致接近块的边界处,包括多个样本的第一块的一部分可能会位移到相邻的第二块。第一块该部分中的样本将由计算第二块的反向滤波器进行滤波,该滤波器可能具有明显不同的增益。如果具有高能量的经修改的滤波信号MFS的样本被提供给一个具有高增益而非低增益的反向滤波器7,则经修改的信号内会突然出现能量增长。收听者感觉到这种能量增长,认为这是不良的“滴答”噪声。
图2说明了这个问题,N表示块号,gd(N)是块N的预处理滤波器3的增益,gi(N)=1/gd(N)是块N的反向滤波器7的增益。
本发明的目的是提供一种避免上述讨论的反向预处理滤波器(清楚地或不清楚地表示的)和时间刻度修改的信号之间的失配。
发明内容
本发明用于使用EX-CELP或RCELP类型方法的语音编解码器的编码器端,其中输入信号由时间刻度修改处理进行修改。时间刻度修改应用于输入信号的感觉加权的型式。然后,经修改的滤波信号被转化到其它域,比如回到语音域或余项域,这些域直接或间接地使用相应的反向滤波器,例如与其它滤波器相结合。
本发明通过调整上述到其它域的转化中所涉及的反向滤波器更新的定时,从而消除了由于时间刻度修改的语音和反向滤波器参数更新的失调而造成的影响。
在时间刻度修改过程中,最好计算时间位移函数以定位经修改的滤波信号内的块边界,块边界处会发生反向滤波器参数更新。时间刻度修改过程将这些块边界相对于它们在到来的滤波信号内的位置而进行移位。时间位移函数估计对应于源信号块边界的经修改的滤波信号中的样本位置,以便在大多数适当位置上更新反向预处理滤波器参数。通过更新这些位置处的滤波器参数,可以维持反向滤波器和时间刻度修改的滤波信号之间的同步,并且能消除当经修改的滤波信号被转化到其它域时所造成的影响。
本发明提出一种语音编码方法,包括以下步骤:
—分析输入音频信号从而为音频信号的每个连续块确定相应的一组滤波器参数;
—对用所确定的滤波器参数组为每个块定义的感觉加权滤波器中的输入信号进行滤波以产生感觉加权的信号;
—根据间距信息来修改感觉加权信号的时间刻度以产生经修改的滤波信号;
—定位经修改的滤波信号内的块边界;以及
—处理经修改的滤波信号以获得编码参数。
后续处理包括对应于感觉加权滤波器的反向滤波操作。反向滤波操作由在已定位的块边界处更新的连续滤波器参数组所定义。
在该方法一实施例中,分析输入信号的步骤包括在连续信号帧上实现的线性预测分析,每个帧由p个(p≥1)连续子帧组成。于是,每个“块”就包括这些子帧之一。于是定位块边界的步骤包括:为每个帧确定p+1个值的数组,用于在经修改的滤波信号内定位其p个子帧的边界。
线性预测分析最好通过分析集中到该子帧上的窗函数而应用于p个子帧中的每一个,分析输入信号的步骤还包括:对于当前帧,通过非对称前向分析窗函数进行前向线性预测分析,该非对称前向分析窗函数的支持不会相对于另一分析窗函数的支持预先扩展,该另一分析窗函数以当前帧中最后一子帧为中心,且最大值与位于所述最后一子帧中心前的时间位置处对齐。根据为缺少帧结尾的当前帧所确定的数组的第(p+1)个值,最好在由所述第(p+1)个值定位的块边界处更新反向滤波操作,所述第(p+1)个值要由从前向分析所确定的一组滤波器系数来定义。
本发明的另一方面涉及语音编码器,它具有适用于实施这里所述方法的装置。
附图说明
图1,前面已讨论,是根据现有技术的RCELP编码器框图;
图2,前面已讨论,是说明图1所述类型的某RCELP编码器中遇到的“滴答噪声”的时序图;
图3是类似于图2的图,它说明了按照本发明的RCELP编码器的操作;
图4是按照本发明的RCELP编码器的示例框图;
图5是说明本发明特定实施例中所使用的分析窗口的时序图。
具体实施方式
图3说明了如何减轻图2中显现的失配问题。
替代与输入信号的帧或子帧长度有关的恒定长度的反向滤波块,而是应用了可变长度的反向滤波。反向滤波器F(z,N+1)取代反向滤波器F(z,N)所处的边界取决于时间刻度修改过程。如果T0表明滤波信号FS中帧N+1的第一样本的位置,则在时间刻度修改之前,滤波信号中的相应样本位置在图3中被标记为T1。该位置T1作为时间修改过程的输出被提供。在所提出的方法中,在反向滤波过程期间,在样本T1而非样本T0处用下一个反向滤波器F(z,N+1)-1取代反向滤波器F(z,N)-1。因此,每个样本都由与用于产生该样本的感觉加权预处理滤波器对应的滤波器进行反向滤波,以降低增益失配的风险。
如果观察到一个向左的位移(T1<T0),则T1后经修改的信号中的样本必须要用对应于输入信号的下一帧的反向滤波器进行滤波。通常,由于LPC分析阶段中进行了前向分析,因此该滤波器的良好近似是已知的。在这种情况下使用从前向分析产生的滤波器避免了在使用本发明时引入任何附加时延。
如同4所示,编码器中实现了RCELP方法的这些改进。考虑到图1所示的已知结构,改动发生在时间刻度修改和反向滤波模块16、17中。由于其它元件1-5和8-9基本上与已知RCELP相同,因此用相同的标号表示它们。
如图,图4所示按照本发明的编码器可以是具有下列特征的低比特速率的窄带语音编码器:
—帧长度为20ms,即,8kHz的取样速率下的160个样本;
—每个帧分成p=3个子帧(块),分别有52、53和54个样本,前向窗有90个样本。图4说明了用于LPC分析模块1中的各种分析窗。垂直的实线是帧边界,而垂直的虚线是子帧边界。对称的实曲线对应于子帧分析窗,而非对称的虚曲线表示前向部分的分析窗。该前向分析窗与关于该帧第三子帧的分析窗具有同样的支撑,但是它集中在前向区域上(即,其最大值预先与下一帧第一子帧的中心对齐);
—LPC分析模块1使用10阶的短期LP模型来表示信号的频谱包络。为每个子帧计算相应的LP滤波器A(z);
—预处理滤波器3是形式为F(z)=A(z/γ1)/A(z/γ2)的自适应感觉加权滤波器,其中
其中ai是未量化的10阶LP滤波器的系数。感觉加权的数量由γ1和γ2控制,它们取决于信号的频谱形状,例如在美国专利号5845244中所描述的。
已经指出,信号降级的原因之一是两个连续感觉加权滤波器的增益间的差异。差异越大,声音降级的风险就越大。尽管即使在使用非自适应加权滤波器(即,恒定值γ1和γ2)时也会出现显著的增益变化,然而由于γ1和γ2的值会快速地变化,因此自适应加权滤波器增加了两个连续滤波器的增益明显不同的概率,这会导致从一帧到下一帧的明显增益变化。因此,所提出的发明在使用自适应加权滤波器时特别受到关注。
加权的语音通过用感觉滤波器3对输入信号S进行滤波而获得,感觉滤波器3的系数由ai、γ1和γ2所定义,并且在源子帧的边界处进行更新,即,在数字样本位置0、53、106和160处。模块4对加权语音的LT分析包括根据每帧是否是稳定有声来分类。对于稳定有声的帧而言,间距轨迹由模块5计算,模块5线性内插了对应于该帧的最后样本的间距值以及前一帧结尾处的间距值。对于非稳定的帧而言,间距轨迹可以被设为某恒定的间距值。
如果需要的话,时间刻度修改模块16可能根据间距周期对于加权语音进行时间刻度修改,就像RCELP编码器内常有的情况。在两个间距脉冲之间的低能量区域内选择两个周期间的边界。然后,通过按照给定的间距轨迹对前面加权的语言进行分数LT滤波而计算给定周期的目标信号。经修改的加权应该与该目标信号相匹配。加权语音的时间刻度修改包括两个步骤。第一步中,移动加权语音的脉冲以匹配目标信号的脉冲。通过使目标信号和加权语音间的标准化的互相关最大来确定最佳位移值。第二步中,位于给出脉冲前的和最后两个脉冲之间的样本,在加权语音上进行时间刻度修改。这些样本的位置作为第一步骤中位移操作的函数而被成比例地压缩或扩展。累积的时延基于所获得的本地位移值而更新,并被保存在每个子帧的结尾处。
时间刻度修改模块16的输出为(1)时间刻度修改的加权语音信号MFS和(2)用数组i0表示的经修改的子帧边界,数组i0有p+1=4个项i0[0]、i0[1]、i0[2]、i0[3]。这些经修改的子帧边界用所保存的累积时延来计算,约束条件为:0≤i0[0]<i0[1]<i0[2]<i0[3]≤160。如果累积时延均为0,则源边界位置不变,即,i0[0]=0,i0[1]=53,i0[2]=106,i0[3]=159。
在所述实施例中,用传递函数为F(z)-1=A(z/γ2)/A(z/γ1)的反向滤波器17返回语音域,其中系数γ1和γ2以下列方式在数组i0给出的样本位置处改变:
—对于样本位置0到i0[0]-1而言,使用前一帧第三子帧的滤波器系数。因此,第三子帧的滤波器需要至少多被保存一帧的持续时间;
—对于样本位置i0[0]到i0[1]-1而言,使用当前帧的第一子帧的滤波器系数;
—对于样本位置i0[1]到i0[2]-1而言,使用当前帧的第二子帧的滤波器系数;
—对于样本位置i0[2]到i0[3]-1而言,使用当前帧的第三子帧的滤波器系数;以及
—对于样本位置i0[3]到159(如果i0[3]<160)而言,使用对应于前向分析窗的滤波器系数。因此,该滤波器模型是下一帧第一子帧的滤波器良好近似,因为它们是在以同一子帧为中心的分析窗上进行计算的。使用这种近似来防止引入附加时延。否则,需要54个额外的样本对下一帧的第一子帧作出LP分析。
因而,加权语音的每一部分都由正确的滤波器17进行反向滤波,滤波器17即分析所使用的滤波器的反向滤波器。这避免了由滤波器增益失配而造成的突然能量脉冲(如图2所示)。
Claims (16)
1.一种语音编码方法,包括以下步骤:
分析输入音频信号从而为该音频信号的每个连续块确定一组相应的滤波器参数;
对用所确定的滤波器参数组为每个块定义的感觉加权滤波器中的输入信号进行滤波以产生感觉加权的信号;
根据间距信息修改感觉加权信号的时间刻度以产生经修改的滤波信号;
在经修改的滤波信号内定义块边界;以及
处理经修改的滤波信号以获得编码参数,
其特征在于所述处理包括对应于感觉加权滤波器的反向滤波操作,且其中反向滤波操作由已在所定位的块边界处更新的连续滤波器参数组所定义。
2.如权利要求1所述的方法,其特征在于,所述感觉加权滤波器是自适应的感觉加权滤波器。
3.如权利要求2所述的方法,其特征在于,所述感觉加权滤波器的传递函数形式为A(z/γ1)/A(z/γ2),其中A(z)是在分析输入信号的所述步骤中估计的线性预测滤波器的传递函数,而γ1和γ2是用于控制感觉加权数量的自适应系数。
4.如权利要求1所述的方法,其特征在于,定位块边界的所述步骤包括累积来自应用于感觉加权信号的每个块的样本的时间刻度修改的时延,以及在该块的结尾处保存累积时延值从而在经修改的滤波信号内定位块边界。
5.如权利要求1所述的方法,其特征在于,分析输入信号的所述步骤包括在连续信号帧进行线性预测分析,每个帧由p个连续子帧组成,其中p是不小于1的整数,每个所述块就包括所述子帧之一,且其中定位块边界的所述步骤包括,对于每个帧,确定具有p+1个值的数组,用于在经修改的滤波信号内定位所述帧的p个子帧的边界。
6.如权利要求5所述的方法,其特征在于,所述线性预测方法通过以所述子帧为中心的分析窗函数应用于每个子帧,
其中,所述分析输入信号的步骤还包括,对于当前帧,通过非对称前向分析窗函数进行前向线性预测分析,该非对称前向分析窗函数的支持不会相对于另一分析窗函数的支持预先扩展,该另一分析窗函数以当前帧中最后一子帧为中心,且最大值与位于所述最后一子帧中心前的时间位置处对齐,
且其中根据为缺少帧结尾的当前帧而确定的数组的第(p+1)个值,反向滤波操作在由所述第(p+1)个值定位的块边界上进行更新,所述第(p+1)个值要由从前向分析确定的一组滤波器系数来定义。
7.如权利要求6所述的方法,其特征在于,所述前向分析窗函数的最大值与当前帧后面一帧的第一子帧的中心对齐。
8.如权利要求1所述的方法,其特征在于,在处理经修改的滤波信号的步骤中获得的编码参数包括CELP编码参数。
9.一种语音编码器,包括:
分析输入音频信号从而为音频信号的每个连续块确定一组相应滤波器参数的装置;
用所确定的滤波器参数组为每个块定义的感觉加权滤波器,用于对输入信号进行滤波并产生感觉加权的信号;
根据间距信息修改感觉加权信号的时间刻度以产生经修改的滤波信号的装置;
在经修改的滤波信号内定义块边界的装置;以及
处理经修改的滤波信号以获得编码参数的装置;
其中所述处理包括对应于感觉加权滤波器的反向滤波操作,且其中反向滤波操作由在已定位的块边界处更新的连续滤波器参数组所定义。
10.如权利要求9所述的语音编码器,其特征在于,所述感觉加权滤波器是自适应的感觉加权滤波器。
11.如权利要求10所述的语音编码器,其特征在于,所述该感觉加权滤波器的传递函数形式为A(z/γ1)/A(z/γ2),其中A(z)是由用于分析输入信号的步骤所估计的线性预测滤波器的传递函数,而γ1和γ2是用于控制感觉加权数量的自适应系数。
12.如权利要求9所述的语音编码器,其特征在于,所述定位块边界的装置包括:累积从应用于感觉加权信号的每一块的样本的时间刻度修改产生的时延、以及在块结尾处保存累积时延值从而在经修改的滤波信号内定位块边界的装置。
13.如权利要求9所述的语音编码器,其特征在于,所述分析输入信号的装置包括在连续信号帧上进行线性预测分析的装置,每个帧都由p个连续子帧组成,其中p是不小于1的整数,每个所述块都包括所述子帧之一,且其中所述定位块边界的装置包括:为每个帧确定p+1个值的数组的装置,用于在经修改的滤波信号内定位所述帧的p个子帧的边界。
14.如权利要求13所述的语音编码器,其特征在于,所述线性预测装置通过以所述子帧为中心的分析窗函数来处理每个子帧,
其中,所述分析输入信号的装置还包括前向线性预测分析装置,它用非对称的前向分析窗函数来处理当前帧,非对称的前向分析窗函数的支持不会相对于另一分析窗函数的支持预先扩展,该另一分析窗函数以当前帧中最后一子帧为中心,且最大值与位于所述最后一子帧中心前的时间位置处对齐,
且其中所述处理经修改的滤波信号的装置根据为缺少当前帧结尾的所述第(p+1)个值,来更新由为当前帧确定的数组的第(p+1)个值定位的块边界处的反向滤波器操作,以便用从前向分析确定的一组滤波器系数来定义更新后的反向滤波操作。
15.如权利要求14所述的语音编码器,其特征在于,所述前向分析窗函数的最大值与当前帧后面一帧的第一子帧的中心对齐。
16.如权利要求9所述的语音编码器,其特征在于,通过处理经修改的滤波信号的装置获得的编码参数包括CELP编码参数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/294,923 US20040098255A1 (en) | 2002-11-14 | 2002-11-14 | Generalized analysis-by-synthesis speech coding method, and coder implementing such method |
US10/294923 | 2002-11-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1525439A true CN1525439A (zh) | 2004-09-01 |
Family
ID=32176196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2003101161197A Pending CN1525439A (zh) | 2002-11-14 | 2003-11-14 | 广义综合分析语音编码方法和实施该方法的编码器 |
Country Status (12)
Country | Link |
---|---|
US (1) | US20040098255A1 (zh) |
EP (1) | EP1420391B1 (zh) |
JP (1) | JP2004163959A (zh) |
KR (1) | KR20040042903A (zh) |
CN (1) | CN1525439A (zh) |
AT (1) | ATE345565T1 (zh) |
BR (1) | BR0305195A (zh) |
CA (1) | CA2448848A1 (zh) |
DE (1) | DE60309651T2 (zh) |
ES (1) | ES2277050T3 (zh) |
HK (1) | HK1067911A1 (zh) |
MX (1) | MXPA03010360A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101385079B (zh) * | 2006-02-14 | 2012-08-29 | 法国电信公司 | 在音频编码/解码中用于知觉加权的设备 |
CN101611440B (zh) * | 2007-01-05 | 2013-02-13 | 法国电信 | 一种使用加权窗的低延时变换编码的方法 |
CN105974416A (zh) * | 2016-07-26 | 2016-09-28 | 四川电子军工集团装备技术有限公司 | 积累互相关包络对齐的8核dsp片上并行实现方法 |
CN106575507A (zh) * | 2014-07-28 | 2017-04-19 | 弗劳恩霍夫应用研究促进协会 | 用于处理音频信号的方法和装置,音频解码器和音频编码器 |
CN113287318A (zh) * | 2018-11-08 | 2021-08-20 | 瑞典爱立信有限公司 | 视频编码器和/或视频解码器中的非对称去块 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BRPI0607646B1 (pt) * | 2005-04-01 | 2021-05-25 | Qualcomm Incorporated | Método e equipamento para encodificação por divisão de banda de sinais de fala |
PL1875463T3 (pl) * | 2005-04-22 | 2019-03-29 | Qualcomm Incorporated | Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia |
US8532984B2 (en) * | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
US8725499B2 (en) * | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
US7987089B2 (en) * | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
US8260609B2 (en) | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US8688437B2 (en) | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
EP2413314A4 (en) * | 2009-03-24 | 2012-02-01 | Huawei Tech Co Ltd | METHOD AND DEVICE FOR SWITCHING ON A SIGNAL DELAY |
KR101445296B1 (ko) * | 2010-03-10 | 2014-09-29 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램 |
US20140114653A1 (en) * | 2011-05-06 | 2014-04-24 | Nokia Corporation | Pitch estimator |
CN104025191A (zh) * | 2011-10-18 | 2014-09-03 | 爱立信(中国)通信有限公司 | 用于自适应多速率编解码器的改进方法和设备 |
US9418671B2 (en) | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
KR102251833B1 (ko) * | 2013-12-16 | 2021-05-13 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU7041791A (en) * | 1989-10-06 | 1991-04-28 | Telefunken Fernseh Und Rundfunk Gmbh | Process for transmitting a signal |
US5327518A (en) * | 1991-08-22 | 1994-07-05 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
US5513297A (en) * | 1992-07-10 | 1996-04-30 | At&T Corp. | Selective application of speech coding techniques to input signal segments |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5574825A (en) * | 1994-03-14 | 1996-11-12 | Lucent Technologies Inc. | Linear prediction coefficient generation during frame erasure or packet loss |
FR2729247A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
FR2734389B1 (fr) * | 1995-05-17 | 1997-07-18 | Proust Stephane | Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme |
US5704003A (en) * | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
US6169970B1 (en) * | 1998-01-08 | 2001-01-02 | Lucent Technologies Inc. | Generalized analysis-by-synthesis speech coding method and apparatus |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US6449590B1 (en) * | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
US6223151B1 (en) * | 1999-02-10 | 2001-04-24 | Telefon Aktie Bolaget Lm Ericsson | Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders |
US6691082B1 (en) * | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
US6842735B1 (en) * | 1999-12-17 | 2005-01-11 | Interval Research Corporation | Time-scale modification of data-compressed audio information |
-
2002
- 2002-11-14 US US10/294,923 patent/US20040098255A1/en not_active Abandoned
-
2003
- 2003-10-30 DE DE60309651T patent/DE60309651T2/de not_active Expired - Fee Related
- 2003-10-30 ES ES03292715T patent/ES2277050T3/es not_active Expired - Lifetime
- 2003-10-30 AT AT03292715T patent/ATE345565T1/de not_active IP Right Cessation
- 2003-10-30 EP EP03292715A patent/EP1420391B1/en not_active Expired - Lifetime
- 2003-11-10 CA CA002448848A patent/CA2448848A1/en not_active Abandoned
- 2003-11-13 MX MXPA03010360A patent/MXPA03010360A/es active IP Right Grant
- 2003-11-13 BR BR0305195-1A patent/BR0305195A/pt not_active IP Right Cessation
- 2003-11-13 JP JP2003384245A patent/JP2004163959A/ja active Pending
- 2003-11-14 CN CNA2003101161197A patent/CN1525439A/zh active Pending
- 2003-11-14 KR KR1020030080724A patent/KR20040042903A/ko not_active Application Discontinuation
-
2004
- 2004-11-19 HK HK04109147A patent/HK1067911A1/xx not_active IP Right Cessation
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101385079B (zh) * | 2006-02-14 | 2012-08-29 | 法国电信公司 | 在音频编码/解码中用于知觉加权的设备 |
CN101611440B (zh) * | 2007-01-05 | 2013-02-13 | 法国电信 | 一种使用加权窗的低延时变换编码的方法 |
CN106575507A (zh) * | 2014-07-28 | 2017-04-19 | 弗劳恩霍夫应用研究促进协会 | 用于处理音频信号的方法和装置,音频解码器和音频编码器 |
CN105974416A (zh) * | 2016-07-26 | 2016-09-28 | 四川电子军工集团装备技术有限公司 | 积累互相关包络对齐的8核dsp片上并行实现方法 |
CN105974416B (zh) * | 2016-07-26 | 2018-06-15 | 零八一电子集团有限公司 | 积累互相关包络对齐的8核dsp片上并行实现方法 |
CN113287318A (zh) * | 2018-11-08 | 2021-08-20 | 瑞典爱立信有限公司 | 视频编码器和/或视频解码器中的非对称去块 |
US12003785B2 (en) | 2018-11-08 | 2024-06-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Asymmetric deblocking in a video encoder and/or video decoder |
Also Published As
Publication number | Publication date |
---|---|
US20040098255A1 (en) | 2004-05-20 |
HK1067911A1 (en) | 2005-04-22 |
DE60309651D1 (de) | 2006-12-28 |
KR20040042903A (ko) | 2004-05-20 |
ATE345565T1 (de) | 2006-12-15 |
CA2448848A1 (en) | 2004-05-14 |
JP2004163959A (ja) | 2004-06-10 |
ES2277050T3 (es) | 2007-07-01 |
DE60309651T2 (de) | 2007-09-13 |
EP1420391A1 (en) | 2004-05-19 |
BR0305195A (pt) | 2004-08-31 |
MXPA03010360A (es) | 2005-07-01 |
EP1420391B1 (en) | 2006-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1525439A (zh) | 广义综合分析语音编码方法和实施该方法的编码器 | |
CN101189662B (zh) | 带多级码本和冗余编码的子带话音编解码器 | |
CN101488345B (zh) | 有效编码语音信号的信号修改方法 | |
CN101981615B (zh) | 分级解码结构中数字信号中的传输误差掩盖 | |
RU2459282C2 (ru) | Масштабируемое кодирование речи и аудио с использованием комбинаторного кодирования mdct-спектра | |
CN1120471C (zh) | 语音编码 | |
EP3693963B1 (en) | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms | |
CN1890714B (zh) | 一种优化的复合编码方法 | |
JP4771674B2 (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
CN103493129B (zh) | 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法 | |
US20030004718A1 (en) | Signal modification based on continous time warping for low bit-rate celp coding | |
US20100211386A1 (en) | Method for manufacturing a semiconductor package | |
EP0657874B1 (en) | Voice coder and a method for searching codebooks | |
CN101379551A (zh) | 在语音编解码器中用于有效帧擦除隐蔽的方法和装置 | |
CN102859588A (zh) | 音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法及用于低延迟应用的计算机程序 | |
JPH0990995A (ja) | 音声符号化装置 | |
US6768978B2 (en) | Speech coding/decoding method and apparatus | |
JP2000163096A (ja) | 音声符号化方法及び音声符号化装置 | |
CN101124625A (zh) | 实现介于两种长时预测模型之间最优编码的方法和装置 | |
KR20220045260A (ko) | 음성 정보를 갖는 개선된 프레임 손실 보정 | |
JP3088204B2 (ja) | コード励振線形予測符号化装置及び復号化装置 | |
KR100277096B1 (ko) | 음성압축을 위한 코드워드와 양자화된 이득 선택방법 | |
WO2022147615A1 (en) | Method and device for unified time-domain / frequency domain coding of a sound signal | |
Taniguchi et al. | Principal axis extracting vector excitation coding: high quality speech at 8 kb/s | |
Trancoso | An overview of different trends on CELP coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
C20 | Patent right or utility model deemed to be abandoned or is abandoned |