CN1650156A - 合成分析语音编码器中用于进行语音编码的方法和装置 - Google Patents

合成分析语音编码器中用于进行语音编码的方法和装置 Download PDF

Info

Publication number
CN1650156A
CN1650156A CN02812450.2A CN02812450A CN1650156A CN 1650156 A CN1650156 A CN 1650156A CN 02812450 A CN02812450 A CN 02812450A CN 1650156 A CN1650156 A CN 1650156A
Authority
CN
China
Prior art keywords
code book
signal
voice
scrambler
pulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN02812450.2A
Other languages
English (en)
Other versions
CN100489966C (zh
Inventor
A·P·海基宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN1650156A publication Critical patent/CN1650156A/zh
Application granted granted Critical
Publication of CN100489966C publication Critical patent/CN100489966C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Abstract

本发明公开了一种提高低比特率合成分析(AbS)语音编解码器中编码语音质量的方法。在本发明实施例中,此目的是这样来取得的:通过适当地使编码激励信号的脉冲位置移位,从而放宽语音信号的非平稳爆破语音段的波形匹配的约束条件。通过所述移位得到这样的编码信号:该编码信号的相位信息未精确匹配处于感知上对听者不重要的位置上的原信号。此外,对编码激励信号引入了一种自适应相位扩散技术,以便有效地保持信号特征如原信号的能量扩展度。

Description

合成分析语音编码器中用于进行语音编码的方法和装置
本发明总体上涉及语音和音频信号编码,更具体地说,涉及合成分析编解码器中的一种改进激励建模过程。
语音和音频编码算法在无线通信、多媒体和语音存储系统中得到广泛的应用。既节省传输和存储容量,又使合成信号的质量保持在高水平上,这种需求推动了编码算法的发展。这些要求经常互相茅盾,因此通常必须在容量和质量之间折衷。在电信系统中采用语音编码尤其重要,这是因为在频谱资源相对有限的环境中传送全部语音频谱可能需要大量带宽。因此通过采用语音编码和解码来使用信号压缩技术,这对以低比特率来进行高效的语音传送是绝对必要的。
图1显示了一种用于传送和/或存储数字音频信号以便随后在输出端进行再现的例示过程。将语音信号y(k)输入编码器100以便将该信号编码成原信号的编码数字表示。将所得的比特流发送到通信信道(例如无线信道)或存储媒体110如固态存储器、磁或光存储媒体中。该比特流从信道/存储媒体110输入到解码器120中,由解码器120对其进行解码,以便以输出信号
Figure A0281245000061
的形式再现原信号y(k)。
语音编码算法和系统可以根据所用标准按不同方式来分类。一种对它们进行分类的方式是将其划分成波形编解码器、参数编解码器和混合编解码器。顾名思义,波形编解码器试图尽可能精确地保持正被编码的波形而不必太注意语音信号的特征。波形编解码器还具有相对简单且通常在嘈杂环境中性能好的优点。但是,它们一般需要较高比特率来产生高质量的语音。混合编码器组合利用波形和参数技术,即它们通常采用参数方法来建模,例如用LPC滤波器来对声带建模。然后采用被分类为波形编码的方法对该滤波器的输入信号进行编码。目前,广泛采用混合编解码器以范围在8-12千比特/秒之间的比特率来产生接近无线线路的语音质量。
在许多目前的混合编解码器中,所传送的参数采用合成分析(AbS)方法来加以确定,这种方法使对应于每个可能参数值的重建语音信号和源信号之间的所选择的失真判据最小。因此将这些编解码器称为AbS语音编解码器。作为示例,在典型的AbS编解码器中,从码书中提取候选激励信号,并由LPC滤波器进行滤波,在该LPC滤波器中,计算滤波信号和输入信号之间的误差,以便选择提供最小误差的激励。
在典型的AbS语音编解码器中,输入语音信号按帧进行处理。通常,帧长度为10-30毫秒,也可利用后续帧的5-15毫秒的预测段。在每一帧中,由编码器来确定语音信号的参数化表示。这些参数经过量化,以数字形式通过通信信道传送或存储在存储媒体中。在接收端,解码器根据接收的参数形成表示原信号的合成语音信号。
合成分析语音编解码器的一种重要类型是编码激励线性预测(CELP)语音编解码器,这种语音编解码器广泛用于许多无线数字通信系统。CELP是高效的闭环合成分析编码方法,已经证明,这种编码方法对范围在4-16千比特/秒的低比特率系统非常有效。在CELP编解码器中,将语音分段成若干帧(例如10-30毫秒帧),以便确定最佳线性预测和基频滤波参数组并按帧进行量化。进一步将各语音帧划分成一定数量的子帧(如5毫秒帧),其中,针对每个子帧,搜索激励码书以得到最佳再现原语音信号的量化预测系统的输入向量。
多数AbS编解码器基本的基础结构非常相似。通常它们采用一类线性预测编码(LPC)技术,例如时变基频预测器和LPC滤波器的级联。全极点的LPC滤波器表示为:
1 A ( q , s ) = 1 1 + a 1 ( s ) q - 1 + a 2 ( s ) q - 2 + . . . + a n a ( s ) q - n a , - - - - ( 1 )
其中,q-1是单位延迟算子,s是子帧索引,此滤波器用于对语音信号的短时频谱包络建模。LPC滤波器的阶na通常为8-12。如下形式的基频预测器:
1 B ( q , s ) = 1 1 - b ( s ) q - τ ( s ) - - - - ( 2 )
利用语音的基频周期性来对语音信号频谱的精细结构建模。通常增益b(s)局限于间隔为[0,1.2]的样点,基频滞后τ(s)局限于间隔为[20,140]的样点。(假定采样频率为8000赫兹)。基频预测器也叫做长期预测(LTP)滤波器。
图2显示一种示范性AbS语音编码器简化功能框图。激励信号uc(k)由激励发生器200来产生。激励发生器200通常称为激励码书,其中,将信号与增益g(s)205相乘以形成级联滤波器225的输入信号。由延迟q-τ(s)215和增益b(s)210构成的反馈环路表示LTP滤波器。LTP滤波器对信号的周期性(这种周期性尤其与浊音相关)建模,其中,将之前的周期性语音用作当前子帧中语音的近似,并采用固定的激励如代数码书来对误差进行编码。级联滤波器225的输出信号是合成语音信号
Figure A0281245000082
在此编码器中,通过从原语音信号y(k)中减去该合成语音
Figure A0281245000083
从而计算得到误差信号e(k)。误差最小化过程235用于选择由激励发生器200所提供的最佳激励信号。通常,在所述误差最小化过程之前应用感觉加权滤波器,以便设计所述误差信号的频谱形状,使得误差信号不大听得到。
尽管AbS语音编解码器通常以低比特率提供很好的性能,但它们通常需要较多计算。另一特征就是,在低比特率条件下,例如比特率低于4千比特/秒时,要与原语音信号波形匹配成为进一步提高编码效率的苛刻约束。这一般地适用于对包括浊音、清音和爆破音的语音的编码。尽管已经提出了若干用于改进对浊音建模的解决方案,但至今尚未在对非平稳语音如爆破音建模方面取得实质性的改进。正如本专业的技术人员所知,爆破音和浊音往往是突发性的,例如在诸如/p/、/k/和/t/的闭塞辅音中。这些语音波形尤其难于在现有技术的低比特率AbS编解码器中加以精确地建模,原因在于:由于缺少对原激励作精确建模的比特,故在原信号和编码激励信号之间存在明显的失配。总体波形形状的差异因参数估计方法而使得编码激励的能量比理想激励的能量小得多。这经常导致在较低能级上听起来不自然的合成语音。
图3说明当采用具有较高脉冲群体密度的码书(码书1),即脉冲位置较密的网格时CELP编解码器所得的合成激励。其中还显示了当采用具有较低脉冲群体密度的码书(码书2)时所得的合成激励。在上部图A中,显示了声音/p/的理想激励。在两个码书中,对40个样点的子帧采用了两个正脉冲或负脉冲。各码书的例示脉冲位置和移位分别示于表1和表2中。从底部图C中可以看出,用表2的码书建立的激励信号具有比理想激励(参见上部图)低得多的能级,这是因为可能的脉冲位置与理想激励中的脉冲位置匹配不好。相反,当利用码书1时,能量明显较高,因为脉冲位置与理想激励的非常匹配,如中间的图B所示。对这两个码书而言,每一子帧仅采用了一个脉冲增益,且未采用自适应码书。
  脉冲                        位置
    0  0、2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38
    1  1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39
                                 表1
  脉冲     位置
    0     0、4、8、12、16、20、24、28、32、36
    1     2、6、10、14、18、22、26、30、34、38
                            表2
上述合成激励之间相应的能量差异在采用具有较少脉冲位置的码书时非常明显,这样,较低能量导致不令人满意且几乎听不到的声音。鉴于以上所述,所以需要一种改进的方法,使得AbS语音编解码器能够在包含非平稳语音的语音信号中更精确地产生高质量的语音。
已经作了简要说明,根据本发明的实施例和相关特征,本发明的方法方面提供了一种对语音信号进行编码的方法,其特征在于:在编码器中采用具有第一位置网格的第一激励码书和具有第二位置网格的第二激励码书来对语音信号进行编码,以产生编码的激励信号,其中,所述第一位置网格包含高于所述第二位置网格的脉冲位置群体密度。
在本发明的另一方法方面中,提供了一种将语音信号从发送端传送到接收端的方法,所述方法包括如下这些步骤:在发送端用编码器对语音激励信号进行编码;将该编码激励信号传送到接收端;以及用解码器对该编码激励信号进行解码以在接收端产生合成语音;其中,所述方法的特征在于:在编码器中利用具有第一位置网格的第一激励码书和具有第二位置网格的激励码书对语音激励信号进行编码,以产生编码激励信号,此编码激励信号在解码器中利用第二激励码书进行解码,其中,所述第一位置网格包含高于所述第二位置网格的脉冲位置群体密度。
在本发明的装置方面,提供了一种用于对语音信号进行编码的编码器,其特征在于:所述编码器包括用于对语音信号进行编码的第一激励码书和第二激励码书,其中,述第一激励码书包含高于所述第二激励码书的脉冲位置群体密度。
在本发明的另一装置方面,提供了一种包括用于对语音信号进行解码和编码的语音编解码器的装置,所述装置的特征在于所述装置还包括:用于编码器的第一脉冲码书和用于解码器的第二脉冲码书,其中,所述第一码书包含高于所述第二码书的脉冲位置群体密度。
本发明及其其它目的和优点可以通过参照如下说明,并结合附图而获得最佳的理解,附图中:
图1显示了数字音频信号的示范性传送和/或存储;
图2显示了示范性合成分析(AbS)语音编码器的简化功能框图;
图3显示了用具有不同数量的脉冲位置的码书来生成的激励信号中的能含量的差异;
图4显示了示范性AbS编码过程的示意图;
图5显示了本发明的实施例所建模的理想激励信号;
图6说明示范性理想激励信号的示范性“峰”值轮廓(contour);
图7显示了相位扩散滤波(phase dispersion filtering)对编码激励信号的影响;
图8说明利用了本发明的语音编解码器的示范性装置;以及
图9显示了包含本发明的编解码器的示范性移动终端的基本功能框图。
如前述部分所述,对现有技术的AbS语音编解码器而言,通常难于精确地对包含爆破音或清音的语音段建模。高质量的语音可以凭借对语音信号的更好的理解和有关人类感知特性的丰富知识来获得。例如,人们已知某些类型的编码失真因被信号掩蔽掉而不可感知,利用这一特点并结合信号冗余,就可以低比特率获得改善的语音质量。
图4显示示范性AbS编码过程的示意图。应注意,对每个子帧不一定要执行所有功能部件。举一示例如下:在IS-641语音编解码器中,将每一帧划分成例如四个子帧,每帧确定LPC滤波参数一次;每帧确定开环滞后两次;而每帧确定闭环滞后、LTP增益、激励信号及其增益四次。对IS-641编解码器的更为详尽的讨论参见TIA/EIAIS-641-A(“TDMA蜂窝/PCS-无线接口、增强全速率语音编码器、修订版A”)。
在块410中,根据输入语音信号确定LPC滤波器的系数。通常,对语音信号作加窗处理,将其分成若干分段,并利用例如Levinson-Durbin算法确定LPC滤波器系数。应注意,术语语音信号指从声音信号(如语音或音乐)中获取的任何类型的信号,所述声音信号可以是语音信号本身或数字化信号、残余信号(residual signal)等。在许多编解码器中,通常为每一子帧确定LPC系数。在这种情况下,可以为中间子帧内插系数。在块420中,用A(q,s)来对输入语音滤波,以得到LPC残余信号。随后将LPC残余信号馈送通过LPC滤波器1/A(q,s),以重建原语音信号。因此有时也将其称为理想激励。
在块430中,通过求出使语音或LPC残余信号的自相关值最高的延迟值来确定开环滞后。在块440中,通过从语音信号中减去LPC滤波器的零输入响应来计算用于闭环滞后搜索的目标信号x(k)。这样做是为了将LPC滤波器的初始状态的影响纳入考虑,以便平滑地形成信号。在块450中,通过使目标信号和合成语音信号之间的误差平均平方和最小,这样来搜索闭环滞后和增益。搜索闭环滞后是围绕开环滞后值来进行的。例如,开环滞后值是不用AbS来搜索的估计值,而是围绕该值来搜索闭环滞后。通常,将整数精度用于开环滞后搜索,而可将分数精度用于闭环滞后搜索。详细说明可以在例如前面提到的IS-641规范中找到。
在块460中,通过从闭环滞后搜索的目标信号中减去LTP滤波器的贡献量(contribution),从而计算激励搜索的目标信号x2(k)。然后在块470中通过使目标信号和合成语音信号之间的误差平方和最小来搜索激励信号及其增益。通常,在这一级采用一些启发式规则来避免对码书作穷举式搜索以得到所有可能的激励信号,从而减少搜索时间。在块480中,对编码器中的滤波状态进行更新,以使它们与解码器中的滤波状态保持一致。应注意,编码过程还包括对要传送的参数进行量化,这里为简化起见已省略了对此的讨论。
在现有技术中,通过使目标信号和合成语音信号之间的误差平方和最小来搜索最佳激励序列和LTP增益以及激励序列,
J ( g ( s ) , u c ( s ) ) = | | x 2 ( s ) - x ^ 2 ( s ) | | 2 = | | x 2 ( s ) - g ( s ) H ( s ) u c ( s ) | | 2 , - - - - ( 3 )
其中,x2(s)是搜索范围中的由x2(k)个样点构成的目标向量,
Figure A0281245000132
是对应的合成信号,uc(s)是图2和图3中所示的激励向量。H(s)是LPC滤波器的脉冲响应矩阵,而g(s)是增益。最佳增益可以通过将成本函数对增益的偏导数设为零而得到
g ( s ) = x 2 ( s ) T H ( s ) u c ( s ) u c ( s ) T H ( s ) T H ( s ) u c ( s ) . - - - - ( 4 )
其中,通过将(4)代入(3)就得到下式:
J ( u c ( s ) ) = x 2 ( s ) T x 2 ( s ) - ( x 2 ( s ) T H ( s ) u c ( s ) ) 2 u c ( s ) T H ( s ) T H ( s ) u c ( s ) . - - - - ( 5 )
通常通过使等式(5)的后面一项最大来搜索最佳激励,可以在搜索该激励之前计算x2(s)TH(s)TH(s)。
在本发明中,介绍了一种在合成分析编解码器中于非平稳语音段期间进行激励建模的方法。所述方法利用了声感觉特性,即利用了人类耳朵对语音信号中的精确相位信息不敏感的特性,由此放宽了对编码激励信号的波形匹配约束。最好将此特性应用于非平稳语音或清音中。此外,对编码激励引入自适应相位扩散,以便有效地保持重要的相关信号特征。
在本发明的实施例中,在固定码书激励生成过程中放宽了波形匹配约束条件。在此实施例中,采用了两个脉冲位置码书;码书1和码书2用于导出传送的激励及其增益。只有第一脉冲位置码书用于编码器中,且该码书包含密集位置网格(或脚本(script))。第二码书较为稀疏并包括传送的脉冲位置,它同时用于编码器和解码器中。所传送的激励信号连同相应的增益可以用如下方式来获得。首先,利用码书1来搜索最佳激励信号及其增益。由于码书1具有相对密集的网格,故有效地保持了理想激励信号的形状和能量。其次,通过例如从码书2中找到与从第1个码书中找到的第i个相同脉冲的位置最接近的位置,从而将找到的脉冲位置量化到码书2中的可能位置。因此,可以通过例如对下式求极小值来导出第i个脉冲的量化脉冲位置Q(xi,1)
d ( x i , 1 , Q ( x i , 1 ) ) = min y ij , 2 ∈ C i , 2 | x i , 1 - y ij , 2 | , - - - - ( 6 )
其中xi,1是第一码书1的第i个脉冲的位置,Ci,2包含码书2中第i个脉冲的可能脉冲位置。将利用码书1获得的增益值传送给解码器。应注意,虽然在本说明书中引用了术语脉冲和脉冲位置,但例如也可采用其它类型的表示(如样点、波形、小波)来标记码书中的位置或表示编码信号中的脉冲。应注意,虽然以上引用了脉冲和脉冲位置,但例如也可采用其它类型的表示(如波形、小波)来标记码书中的位置或表示编码信号中的脉冲。
图5显示分别由利用了根据表1和表2的码书1和码书2的本发明的实施例来建模的图3的理想激励。从图中可以看出,利用码书1和码书2的组合比现有技术中仅利用一个码书更有效地保持了理想激励的能量和形状。在这两种情况中,比特率均保持相同。
另一重要方面是编码激励信号的能量扩散。为了模仿理想激励的能量扩散,对编码激励信号引入了自适应滤波机制。存在若干滤波方法可以配合本发明使用。在本实施例中,采用了这样的滤波方法,其中,期望的扩散是通过使编码激励信号的适当的相位分量随机化而得以实现的。有关此滤波机制的更为详细的讨论,感兴趣的读者可以参考R.Hagen、E.Ekudden以及B.Johansson和W.B.Kleijn的“消除CELP中的稀疏激励非自然信号(artifact)”(Proceedings ofIEEE International Conference on Acoustics,Speech,and SignalProcessing,Seattle,May 1998.)
在所述滤波方法中,定义了阈频率,大于该阈频率时,就将相位分量随机化,而小于该阈频率时,相位分量保持不变。已经观测到,仅在解码器中对编码信号执行相位扩散就已取得了高质量信号。在本实施例中,引入了阈频率的自适应方法,以控制扩散量。阈频率可从理想激励信号的“峰”值导出,其中,所述“峰”值定义了帧内的能量扩散。通常针对理想激励r(n)定义的“峰”值P如下式给出:
P = 1 / N Σ n = 0 N - 1 r 2 ( n + 1 ) 1 / N Σ n = 0 N - 1 | r ( n + 1 ) | , - - - - ( 7 )
其中,N是帧长度,根据帧长度可计算“峰”值,r(n)是理想激励信号。
图6说明示范性激励信号的示范性“峰”值轮廓。上部图A显示了理想的激励信号,而底部图B显示了用80个样点的帧,利用等式(7)来生成的相应的“峰”值轮廓。从图中可以看出,所得的值很好地表示了信号峰值特征并与理想激励的一般峰值活动(peakactivity)很好地关联,因为已知明显的峰值活动表示爆破音。
在本实施例中,对编码激励引入了自适应相位扩散,以便更好地保持理想激励的能量扩散。编码语音信号的能量包络的总体形状对于听起来自然的合成语音是重要的。由于人类的感觉特性,已知例如在爆破音期间,对于高质量的语音编码,精确定位信号峰位置或精确表示频谱包络并不是至关重要的。
自适应阈频率在本发明中定义为“峰”值函数,大于自适应阈频率时将相位信息随机化,这种。应注意,可以采用几种方法来定义这种关系。一个但决不意味着唯一的示例是可以定义如下的分段线性函数:
disp thr = &alpha;&pi; , P < P low &alpha;&pi; + ( P - P low ) ( &pi; - &alpha;&pi; ) / ( P high - P low ) , P low &le; P &le; P high , &pi; , P > P high - - - - ( 8 )
其中α∈[0,1]确定阈频率的下界,低于阈频率下界扩散就保持恒定,而Plow和Phigh确定“峰”值范围,在该“峰”值范围之外阈频率保持恒定。
图7显示相位扩散滤波对编码激励信号的影响。除爆破音/p/、/t/和/k/以外,图6所示的理想激励信号是用IS-641编解码器来建模的,其中,配合采用两个固定码书的所述方法,每40个样点用一个增益值。这里应注意,在爆破音期间忽略LTP信息的影响。在上图A中,引入了未经相位扩散而获得的编码激励。下图B显示使用参数值Plow=1.5,Phigh=3和α=0.5的相位扩散激励。为了能够使用所述相位扩散方法,必须将有关阈频率的信息从编码端发送给解码器。在解码器中,使用未扩散或已扩散激励信号来更新所需存储器。由于采用了自适应滤波的创新技术,使得合成语音非常自然,这从图7的B图中可以看出。
图8说明示范性地将本发明的语音编解码器810应用于诸如移动终端之类的装置800中。此外,装置800还可以表示实现了本发明澈语音编解码器810的网络无线基站或语音存储器或者语音传信装置
图9显示了包含本发明的语音编解码器的示范性移动终端的基本功能框图。在传送过程中,用麦克风900来接收用户发出的语音信号并在A/D(模数)转换器905中采样。然后在根据本发明的实施例的语音编码器910中对数字化的语音信号进行编码。在块915中对编码信号执行基频信号处理以提供适当的信道编码。然后将信道编码信号转换为射频信号并通过双工滤波器925从发射机920发射该射频信号。双工滤波器925允许在发射和接收射频信号时均使用天线930。接收到的射频信号由接收支路935进行处理,其中,由根据本发明实施例的解码器940对它们进行解码。解码的语音信号通过D/A(数模)转换器945发送,目的是先转换为模拟信号,再发送到扬声器950以再现合成语音。
本发明旨在提供一种既提高AbS编解码器中的编码语音质量,又不会增加比特率的技术。这是通过放宽对非平稳(爆破音)语音信号或清音语音信号的波形匹配约束条件而得以实现的,所述这些语音信号处于精确的基频信息通常在感知上对听者而言不重要的位置上。应注意,本发明不限于所述的用于检测爆破音的“峰”值方法,还可以成功地采用任何其它合适的方法。作为例子,可以采用测量本地信号质量如变化率或能量的技术。此外,还可以采用利用了标准偏差或相关性的技术来检测爆破音。
尽管本发明已参照其具体的实施例作了说明,但对本专业的技术人员来说,显然可以进行各种变化和修改。具体地说,本发明概念不限应用于语音信号,而是可应用于例如音乐和其它类型的可听声音。因此意图在于,不应对如下权利要求书作限制性的解释,而是应该将其视为包括可从所公开的发明主题导出的各种变化和修改。

Claims (26)

1.一种用于对语音信号进行编码的方法,其特征在于:
在编码器中采用具有第一位置网格的第一激励码书和具有第二位置网格的第二激励码书来对所述语音信号进行编码,以产生编码的激励信号,其中,所述第一位置网格包含高于所述第二位置网格的脉冲位置群体密度。
2.如权利要求1所述的方法,其特征在于:
所述方法由低比特率合成分析语音(AbS)编解码器来实现。
3.如权利要求1所述的方法,其特征在于所述编码包括如下步骤:
利用所述第一激励码书来获得脉冲序列,其中,所述脉冲序列包括位于根据所述第一激励码书的第一组位置上的多个脉冲;以及
使所述第一组位置的脉冲位置移位以获得根据所述第二激励码书的第二组位置。
4.如权利要求1所述的方法,其特征在于:
所述方法应用于所述语音信号的非平稳语音段。
5.如权利要求1所述的方法,其特征在于:
所述方法最好应用于通过监测通常表示非平稳语音的“峰”值等级而加以确定的语音信号的非平稳语音段。
6.如前述权利要求中任意一项所述的方法,其特征在于:
所述第一激励码书的群体密度大约为所述第二激励码书的5至10倍。
7.如前述权利要求中任意一项所述的方法,其特征在于:
所述“峰”值用于计算后续相位随机化的扩散值。
8一种将语音信号从发送端传送到接收端的方法,包括如下这些步骤:
在所述发送端用编码器对语音激励信号进行编码;
将所述编码激励信号传送到所述接收端;以及
用解码器对所述编码激励信号进行解码以在所述接收端产生合成语音;
其中,所述方法的特征在于:在所述编码器中利用具有第一位置网格的第一激励码书和具有第二位置网格的激励码书对所述语音激励信号进行编码,以产生编码激励信号,此编码激励信号在所述解码器中利用所述第二激励码书进行解码,其中,所述第一位置网格包含高于所述第二位置网格的脉冲位置群体密度。
9.如权利要求8所述的方法,其特征在于:
所述方法由低比特率合成分析(AbS)语音编码器来执行。
10.如权利要求8所述的方法,其特征在于:
所述方法应用于所述语音信号的非平稳语音段。
11.如权利要求8所述的方法,其特征在于:
所述方法最好应用于通过监测通常表示非平稳语音的“峰”值等级而加以确定的语音信号的非平稳语音段。
12.如权利要求8所述的方法,其特征在于:
将所述“峰”值或扩散信息从所述编码器传送到所述解码器以便用于所述解码信号的相位随机化。
13.如前述权利要求8所述的方法,其特征在于:
所述第一激励码书的群体密度大约为所述第二激励码书的5至10倍。
14.如权利要求11或12所述的方法,其特征在于:
所述“峰”值用于计算所述解码信号的后续相位随机化的扩散值。
15.一种用于对语音信号进行编码的编码器,其特征在于:
所述编码器包括用于对所述语音信号进行编码的第一激励码书和第二激励码书,其中,所述第一激励码书包含高于所述第二激励码书的脉冲位置群体密度。
16.如权利要求15所述的方法,特征在于:
所述编码器包含在低比特率合成分析(AbS)语音编码器中。
17.如权利要求15所述的编码器,其特征在于所述编码器还包括:
利用所述第一激励码书获得脉冲序列的部件,其中,所述脉冲序列包括位于根据所述第一激励码书的第一组位置上的多个脉冲;以及
使所述第一组位置的脉冲位置移位以获得根据所述第二激励码书的第二组位置的部件。
18.如权利要求15所述的编码器,其特征在于:
所述编码器包括用于检测所述语音信号中非平稳段的部件。
19.如权利要求15所述的编码器,其特征在于:
所述编码器包括用于计算所述语音信号段的“峰”值的部件。
20.如权利要求19所述的编码器,其特征在于:
所述编码器包括用于根据所述“峰”值计算后续相位随机化的扩散值的部件。
21.一种包括用于对语音信号进行编码和解码的语音编解码器的装置,所述装置的特征在于:
所述装置还包括用于所述编码器的第一脉冲码书和用于所述解码器的第二脉冲码书,其中,所述第一码书包含高于所述第二码书的脉冲位置群体密度。
22.如权利要求21所述的装置,其特征在于:
所述装置包括用于检测所述语音信号中非平稳段的部件。
23.如权利要求21所述的装置,其特征在于所述装置还包括:
利用所述第一激励码书来获得脉冲序列的部件,其中,所述脉冲序列包括位于根据所述第一激励码书的第一组位置上的多个脉冲;以及
使所述第一组位置的脉冲位置移位以获得根据所述第二激励码书的第二组位置的部件。
24.如权利要求21所述的装置,其特征在于:
所述装置是移动终端。
25.如权利要求21所述的装置,其特征在于:
所述装置是无线基站。
26.如权利要求21所述的装置,其特征在于:
所述装置是语音存储器或语音通信装置。
CN02812450.2A 2001-06-21 2002-06-05 合成分析语音编码器中用于进行语音编码的方法和装置 Expired - Fee Related CN100489966C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20011329A FI119955B (fi) 2001-06-21 2001-06-21 Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
FI20011329 2001-06-21

Publications (2)

Publication Number Publication Date
CN1650156A true CN1650156A (zh) 2005-08-03
CN100489966C CN100489966C (zh) 2009-05-20

Family

ID=8561469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02812450.2A Expired - Fee Related CN100489966C (zh) 2001-06-21 2002-06-05 合成分析语音编码器中用于进行语音编码的方法和装置

Country Status (5)

Country Link
US (1) US7089180B2 (zh)
EP (1) EP1397655A1 (zh)
CN (1) CN100489966C (zh)
FI (1) FI119955B (zh)
WO (1) WO2003001172A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101523485B (zh) * 2006-10-02 2012-10-10 卡西欧计算机株式会社 音频编码装置、音频解码装置、音频编码方法和音频解码方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7535649B2 (en) * 2004-03-09 2009-05-19 Tang Yin S Motionless lens systems and methods
JP4606264B2 (ja) * 2005-07-19 2011-01-05 三洋電機株式会社 ノイズキャンセラ
GB2436192B (en) * 2006-03-14 2008-03-05 Motorola Inc Speech communication unit integrated circuit and method therefor
US20100049512A1 (en) * 2006-12-15 2010-02-25 Panasonic Corporation Encoding device and encoding method
TW201125376A (en) * 2010-01-05 2011-07-16 Lite On Technology Corp Communicating module, multimedia player and transceiving system comprising the multimedia player
WO2017125563A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for estimating an inter-channel time difference

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US5187745A (en) * 1991-06-27 1993-02-16 Motorola, Inc. Efficient codebook search for CELP vocoders
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3179291B2 (ja) * 1994-08-11 2001-06-25 日本電気株式会社 音声符号化装置
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
US6148282A (en) * 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure
DE69734837T2 (de) * 1997-03-12 2006-08-24 Mitsubishi Denki K.K. Sprachkodierer, sprachdekodierer, sprachkodierungsmethode und sprachdekodierungsmethode
US5970444A (en) * 1997-03-13 1999-10-19 Nippon Telegraph And Telephone Corporation Speech coding method
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
US6418408B1 (en) * 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system
AU2001287973A1 (en) * 2000-09-15 2002-03-26 Conexant Systems, Inc. System for improved use of pitch enhancement with subcodebooks

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101523485B (zh) * 2006-10-02 2012-10-10 卡西欧计算机株式会社 音频编码装置、音频解码装置、音频编码方法和音频解码方法

Also Published As

Publication number Publication date
CN100489966C (zh) 2009-05-20
EP1397655A1 (en) 2004-03-17
FI20011329A0 (fi) 2001-06-21
WO2003001172A1 (en) 2003-01-03
FI119955B (fi) 2009-05-15
FI20011329A (fi) 2002-12-22
US20030055633A1 (en) 2003-03-20
US7089180B2 (en) 2006-08-08

Similar Documents

Publication Publication Date Title
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
CN1154086C (zh) Celp转发
US10431233B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
CN104025189B (zh) 编码语音信号的方法、解码语音信号的方法,及使用其的装置
CN101061535A (zh) 用于人工扩展语音信号的带宽的方法和装置
CN101371296B (zh) 用于编码和解码信号的设备和方法
Gibson Speech compression
CN1552059A (zh) 分布式语音识别系统中语音识别的方法和设备
CN1265217A (zh) 在语音通信系统中语音增强的方法和装置
CN102985969A (zh) 编码装置、解码装置和编码方法、解码方法
CN105359211A (zh) 语音处理的清音/浊音判决
US6687667B1 (en) Method for quantizing speech coder parameters
CN1192357C (zh) 用于语音编码的自适应规则
CN100489966C (zh) 合成分析语音编码器中用于进行语音编码的方法和装置
CN106463140B (zh) 具有语音信息的改进型帧丢失矫正
US9390722B2 (en) Method and device for quantizing voice signals in a band-selective manner
Sun et al. Speech compression
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
Gournay et al. A 1200 bits/s HSX speech coder for very-low-bit-rate communications
Li et al. Basic audio compression techniques
US20210210106A1 (en) Speech Coding Using Time-Varying Interpolation
KR100309873B1 (ko) 코드여기선형예측부호화기에서무성음검출에의한부호화방법
Liang et al. A new 1.2 kb/s speech coding algorithm and its real-time implementation on TMS320LC548

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090520

Termination date: 20100605