CN101388214B - 一种变速率的声码器及其编码方法 - Google Patents
一种变速率的声码器及其编码方法 Download PDFInfo
- Publication number
- CN101388214B CN101388214B CN2008102102150A CN200810210215A CN101388214B CN 101388214 B CN101388214 B CN 101388214B CN 2008102102150 A CN2008102102150 A CN 2008102102150A CN 200810210215 A CN200810210215 A CN 200810210215A CN 101388214 B CN101388214 B CN 101388214B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- frame
- signal frame
- digital audio
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
本发明提出一种新的变速率码激励线性预测编码器和编码方法,其话音激活检测针对编码帧对应的合成数字话音,并且保持编码方和译码方采用一致的激励信号,根据合成数字话音帧的话音激活检测结果确定编码速率从而提高了检测的效率和压缩了语音传送速率,所述的改变对变速率码激励线性预测编码器和编码方法作了总体上的更新,即,编码器根据发送帧的类型确定其激励信号使译码器合成的声音信号能准确地反映原始声音的听觉效果。
Description
技术领域
本发明涉及能改变编码速率的码书激励线性预测CELP声码器,具体涉及到对确定声音信号帧编码速率的方法。
背景技术
在线性预测编码(LPC)技术中,应用一个滤波器来去除信号冗余,由此压缩声音信号,LPC滤波器能重现一种频谱包络,以试图模仿人们的声音。
在码分多址(CDMA)和通用移动通信系统(UMTS)的声码器中都使用了码书激励线性预测编码器的技术。
码书激励线性预测(CELP)声码器比早先的LPC技术有两方面的改善,第一,CELP声码器应用一个音调预测滤波器来抽取音调信息,即自适应码书搜索,尝试捕获更多的语音细节;第二,CELP声码器用从一个实际语音波形中产生的残余信号里导出的类噪声信号来激励LPC滤波器。
CELP声码器中包含三大部分:1)短时预测滤波器;2)长时预测滤波器,也称为音调滤波器;以及3)固定码书。第一部分应用线性预测来去除语音信号中的短时冗余,产生自短时预测滤波器的误差(或称为残余信号)变为长时预测滤波器的目标信号。话音信号有一种准周期性的性质,长时预测滤波器从残余信号中抽取出一个音调周期,并去除掉先前一个周期中可预测的信息。在长时和短时滤波之后的残余信号几乎全是类噪声信号。由固定码书搜索从其矢量库中寻找与该类噪声残余信号的最佳匹配,代表最佳匹配的码字便取代该类噪声残余信号进行传输。在代数CELP(ACELP)声码器中,固定码书由少量的非零脉冲组成,非零脉冲由其脉冲的位置和符号(例如+1或-1)来代表。
一种典型的方案中,CELP声码器对划分成帧的输入语音信号的每一帧作一次短时预测滤波器的LPC系数更新。然后,将LPC残余信号划分成子帧,用于长时预测滤波器和固定码书搜索,例如,对于短时预测滤波器,输入语音可以分块成160样本的帧。然后,形成的帧可以分割成40样本的四个子帧。于是,每个子帧由长时预测滤波器和固定码书搜索进行处理,形成的帧也可以分割成53样本、53样本和54样本的3个子帧。
CELP声码器实现压缩的方法是为其三大部分的每一个部分指配一定数目的比特作为输出,它们少于原来语音信号所用的比特数目。声码器的编码速率由指配给其三大部分的比特数目所决定,当一个声码器有多种编码速率就意味着指配给其三大部分的比特数目有多种方式,例如,EVRC(增强型变速率语音编解码器)全速率编码方式下29位的LPC数据分配给短时预测滤波器,21位音调数据分配给长时预测滤波器,120位数据分配给固定码书;,EVRC半速率编码方式下22位的LPC数据分配给短时预测滤波器,16位音调数据分配给长时预测滤波器,42位数据分配给固定码书。
因为语音本身有静默期,可以通过降低这些静默期间的数据速率有效压缩语音数据的传输速率,高通公司的申请号为92101618.9的可变速率声码器的专利就是关于上述方法的一个方案。
目前的可变速率声码器是通过对原始输入声音信号或原始输入声音信号经加权后得到的信号的每一帧进行检测而达到编码速率的变化的,即,检测每个输入声音信号帧确定其是否包含语音(也称为为话音激活检测),当话音激活检测(VAD)的结果是有话音则采用较高的速率编码,例如EVRC的全速率,当检测的结果是无话音时则采用较低的速率编码,例如EVRC的八分之一速率,也就是针对背景噪声的编码速率。
现有的变速率编码器在对话音激活检测的结果是无话音的输入声音信号帧以背景噪声的编码速率编码时只进行短时预测滤波器的LPC系数更新,而不产生音调数据和固定码书的比特输出,代替它们的是表示帧能量数据的比特。
一种典型的包括音调分析和固定码书搜索的CELP声码器如图1所示,输入声音信号帧1输出到LP参数分析器和短时预测滤波器,由LP参数分析器产生LPC系数传送至短时预测滤波器和短时预测合成滤波器,短时预测滤波器的传输函数为A(z),短时预测合成滤波器的传输函数为
其中ai为由LP参数分析器得到的LPC系数,p为预测阶数。短时预测STP滤波器输出的残余信号3到音调分析器和长时预测LTP滤波器,LTP滤波器的传输函数P(z)为1-βz-L,β为基音增益,L为基音延迟,β和L由音调分析器输出的音调数据4所给出,音调数据4还被输出到长时预测合成滤波器,长时预测LTP合成滤波器的传输函数为1/P(z)。固定码书搜索模块接收LTP滤波器输出的残余信号5产生固定码书中的码矢量8和固定码书增益编码6,码矢量8所表示的信号按固定码书增益编码6放大后输出到长时预测合成滤波器,LTP合成滤波器合成激励信号7输出到短时预测合成滤波器,短时预测合成滤波器生成合成语音信号9。
变速率CELP声码器工作在为背景噪声编码的低速率模式时长时预测滤波器和固定码书搜索都不工作,取而代之的是帧能量分析器,图2示出一典型的变速率CELP声码器,其中的编码速率确定模块根据输入声音信号帧1确定编码该帧的编码速率,如果是背景噪声的速率就向帧能量分析器输出输入声音信号帧1,否则就向短时预测滤波器输出输入声音信号帧1。当收到输入声音信号帧1后帧能量分析器计算出输入声音信号帧1的帧能量的数值作为向译码器发送的参数,而STP预测滤波器由于没有输入信号不会有自适应码书参数和固定码书参数要向译码器发送,仅有线性预测LP参数分析器产生的LPC参数需要发送。
发明内容
要解决的技术问题
在现有技术中,为了决定输入声音帧编码速率是采用背景噪声的编码速率还是语音的编码速率所采取的方案是针对输入声音帧或采样输入声音帧经预处理后形成的预处理后的数字话音信号帧进行是否有话音的检测,这种检测原始的加权输入声音帧是否有能被人耳感知的方案有其局限性,因为要给人耳感知的是用CELP的LPC参数、自适应码书参数和固定码书参数解码而成的合成声音信号帧,当原始的加权输入声音帧的检测结果是可以被人耳感知而合成声音信号帧的检测结果是无法被人耳感知时,采用针对语音的编码速率就显得不必要了;当原始的加权输入声音帧的检测结果是不能被人耳感知而合成声音信号帧的检测结果是可以被人耳感知时,采用针对背景噪声的编码速率来编码也不能算合适,因为,给出原始的加权输入声音帧中没有语音信息这一检测结果的针对该原始的加权输入声音帧的检测方案有其局限性。
技术方案
本发明将是否有声音的检测定位在应用LPC参数、自适应码书参数和固定码书参数所产生的合成数字声音信号帧上。
这样对于每个加权输入声音信号帧来说,无论其最后的编码速率是否是背景噪声的编码速率,都要对它进行CELP的三大部分(短时预测滤波器、长时预测滤波器和固定码书)的处理得到LPC参数、自适应码书参数和固定码书参数并根据这些参数获得合成数字声音信号帧,然后对该合成数字声音信号帧作是否有声音的检测,如果检测的结果是无话音则按编码背景噪声的编码速率进行编码,即再对该合成数字声音信号帧进行帧能量分析获得关于帧能量的数值,向译码器发送LPC参数和帧能量数值参数,而不发送自适应码书参数和固定码书参数。
为了使本声码器端的合成数字声音信号帧和解码器解码生成的合成数字声音信号帧有相类似的语音特性,本发明在下面给出能将声码器STP合成滤波器的输入信号与解码器的STP合成滤波器的输入信号保持一致的技术方案,该技术方案就是:
若为当前帧生成的数据包包括的比特表示了LPC参数、自适应码书参数和固定码书参数,即,除了对LPC参数编码之外还将所述的对输入声音信号帧的自适应码书搜索和固定码书搜索所得到的自适应码书参数和固定码书参数编码,则根据所述自适应码书参数(基音增益和基音延迟)确定LTP合成滤波器,并将所述固定码书参数中的固定码书码矢量表示的信号按固定码书参数中的固定码书增益放大后作为该LTP合成滤波器的输入信号,将LTP合成滤波器的输出信号作为当前帧的STP合成滤波器的激励信号;
若当前帧的编码方式是LPC参数和帧能量参数的编码,编码器使其保存的当前帧的激励信号与译码器收到所述LPC参数和帧能量参数的编码后输出到其STP合成滤波器的激励信号一致。
接着,对下一声音信号帧进行线性预测、音调分析(自适应码书搜索)和固定码书搜索得到LPC系数、音调参数((自适应码书参数))和固定码书参数,根据LPC系数确定STP合成滤波器,根据音调参数确定LTP合成滤波器,将下一声音信号帧子帧的固定码书码矢量对应的信号按固定码书增益放大后得到的固定码书激励信号作为LTP合成滤波器的输入信号,LTP合成滤波器根据存储的其对当前帧的固定码书激励信号的响应对该输入信号作出响应,将所述LTP合成滤波器的响应作为STP合成滤波器的激励信号,STP合成滤波器对该激励信号作出响应生成下一声音信号帧的合成数字声音信号,这样,就可以针对当前帧的下一个帧的合成数字声音信号帧进行是否有话音的检测,如果检测的结果是无话音则按较低的编码速率为下一声音信号帧编码,如果检测的结果是有话音则按较高的编码速率为下一声音信号帧编码。
上述较低的编码速率的编码方式可以是只给出LPC系数参数和帧能量参数的方式,也可以是给出LPC参数、自适应码书参数和固定码书参数的方式,只不过在较低的编码速率条件下在一个编码帧中指配给LPC参数、自适应码书参数和固定码书参数的比特数较少而已。
生成下一帧的合成数字声音帧的STP合成滤波器所根据的过去的输出响应也是可以根据需要设置的,例如当STP合成滤波器是10阶的滤波器,它在生成输出信号需要最近的过去输出中的10(滤波器的阶数)个样本。
当当前帧的编码方式是为帧能量参数和LPC系数参数编码时,生成下一帧的合成数字声音帧的STP合成滤波器所根据的过去的输出响应可以是当前帧的合成数字声音帧中的最后的滤波器的阶数个样本点上的值,也可以是由帧能量参数确定的随机信号的滤波器的阶数个样本点上的信号值(这样只要译码器也使用帧能量参数确定的随机信号的值就能达到双方的一致),还有另一种设置的方案就是用原始输入声音信号帧中的最后的滤波器的阶数个样本上信号值来设置滤波器的这一状态变量,即,根据原始输入声音信号帧中的最后的滤波器的阶数个样本上信号值来设置STP合成滤波器所存储的过去的输出信号。
本发明的检测是否有声音的检测对象是合成数字声音帧而不是现有技术所给出的输入声音信号帧,合成数字声音帧虽然是输入声音信号帧经过有损的CELP编码后的译码所得,但这并不意味着合成数字声音帧不适合作为是否有声音的检测的检测对象。
电子工业出版社2004年出版的作者是美国的夸特尔瑞的《离散时间语音信号处理:原理与应用(Discrete-Time Speech Signal Processing:Principle and Practice)》的5.3.4节——Levinson(莱文逊)递归及其相关特性中指出:线性预测所使用的全极点模型和自相关方法会使STP合成滤波器传输函数的所有极点落在单位圆内是最小相位系统;序列的自相关法的解的傅立叶变换的相位函数是失真的;线性预测的自相关引起声门最大相位极点向最小相位极点的转变;建立合成语音波形时,自相关变换造成的相位函数失真可能对语音感知有影响,即,合成数字话音信号的波形和原来数字话音信号的波形的偏离。在该书的5.6节一一基于全极点模型的语音综合中指出:基于线性预测自相关法的合成信号看起来像语音,但同时由于其最小相位特性而失去了绝对相位结构;书中的图5.18中的例子所示,重建语音信号的尖峰比原始信号更为突出,并且,假定为最小相位的理想声门波是时间翻转的,并具有比实际声门波更陡的上升沿。
由于合成数字话音信号在STP合成滤波器极点对应的谐振峰处有较高的能量,在对合成数字话音信号帧进行是否有声音的检测时可以检测其振幅,如果其波形的上升沿和下降沿的幅度都超过或其中之一超过阈值就将该帧判决为有话音,这样,一旦所述的极点所对应的谐振峰反映在波形上的振荡的幅度超过阈值,合成数字话音信号帧就不会在是否有声音的检测时被检测成无声音信号。当出现合成数字话音信号的波峰的尖峰比原始信号更为突出的现象时那些突出的尖峰可以较容易地用与阈值比较的方法被检出。用来与波形的上升沿或下降沿比较的阈值的设定方法不是唯一的,该阈值的确定可以用固定值,也可以和波形波动所在的合成数字话音信号帧有关,比如,可以参考合成数字话音信号帧的信号电平——帧内样本点上的信号值的绝对值的和,也可以参考合成数字话音信号帧的能量或特定的子带的能量。
利用合成数字声音帧的波形的尖峰比原始信号更为突出及上升沿更陡的特性,可以较输入信号帧更方便地检测出上升沿和尖峰,特别是这种基于波形的检测还可以和基于合成数字声音帧能量(或信号电平)的检测相结合,对于波动很频繁但振幅不大的合成数字声音帧用其能量与门限能量(或门限信号电平)比较的方案来检测效果较好,而对波动的振幅较大但不频繁的合成数字声音帧检测上升沿或振幅的方案更为有效。
关于信号帧的能量的计算可以参照现有技术,即,将合成数字声音帧的自相关系数的第一个值Ri(0)来估计其能量,Ri(k)是自相关系数,它的计算式如下,
其中L是每一帧的样本点点数。
在基于合成数字声音帧能量的检测方案中的与信号帧能量相比较的门限能量的计算同样可以参照现有技术,即根据相邻上一帧的帧能量和门限能量来确定当前帧的门限能量。
有益效果
由于采用了先执行线性预测和码书搜索再执行针对合成数字话音进行话音激活检测的方法,即,根据码书搜索和线性预测所生成的激励信号的出现就先于VAD操作,针对激励信号通过线性预测合成滤波器的输出进行VAD,这样,如果原始数字声音帧经过线性预测、自适应码书搜索和固定码书搜索处理后的形成的合成数字信号帧的特征是有话音的,其VAD的结果才是有话音的,译码方收到的包含LPC参数、自适应码书参数和固定码书参数经译码后产生的数字语音信号帧的特征与编码方的该编码速率的用于检测的合成数字语音信号的特征相似;编码方在无法检测到具有活动话音的合成数字信号的情况下才有可能产生没有音调参数的编码帧。
本发明将是否有声音的检测的对象直接定位在非背景噪声编码速率的AMR编码帧所对应的合成数字话音信号帧上,因编码速率降低会造成该编码速率的合成数字话音信号帧的VAD结果趋向于无话音,例如,对于具有一定数量的帧的声音信号来说,使用本发明的方法,编码速率降低会使根据输入信号能量和背景噪声能量的估计值间差值(或输入信号电平和背景噪声电平的估计值间差值)所作的VAD判决的结果为无话音的帧的个数增加。因此,本发明还可以提高CELP编码技术的声音压缩率。
由于采用了先执行线性预测和码书搜索再执行VAD的方法,这样,按自适应码书参数和固定码书参数生成的STP合成滤波器的激励信号的出现就先于VAD操作,码书搜索的操作在执行的次序上先于VAD操作,当VAD的结果是没有话音使得生成合成数字话音信号时产生的激励信号的参数不能再用于下一帧的编码时,就可以有选择地弃用根据自适应码书搜索和固定码书搜索得到的STP合成滤波器的激励信号,而不必再象现有技术那样在编码背景噪声编码速率帧后放弃按非背景噪声编码速率执行线性预测和码书搜索产生的其它参数,由于有了这一方案,为相邻下一输入声音信号帧生成的用于是否有声音检测的合成数字声音信号含有更多的输入声音信号的特征,因为现有技术中,一旦遇到编码帧不包含自适应码书参数和固定码书参数的情况,就不会为对应的输入声音信号帧进行自适应码书搜索和固定码书搜索,此刻编码器丢失了该输入声音信号帧的特征。
在收到包含自适应码书参数和固定码书参数的编码帧后,接收方的译码器与编码器中的语音模式编码模块分别参照一致的的过去样本点上的STP合成滤波器的激励信号,一方使用信道上的收到的编码帧中的参数,另一方使用自己编码到该编码帧中去的参数,分别生成各自子帧的STP合成滤波器的激励信号,所以接收方译码器的STP合成滤波器的激励信号与所述语音编码模块的STP合成滤波器的激励信号完全一致,译码器使用和编码器一致的激励信号使译码产生的合成语音的听觉质量有保证。
本发明的将合成数字话音信号的波峰的幅度同阈值比较的VAD方法可以在预测合成滤波器极点对应的谐振峰反映在波形上的波峰的幅度高于阈值时检出该波峰所在的合成数字话音信号帧。当合成数字话音信号的尖峰比原始信号更为突出这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿或下降沿比原始信号的更大时,上述的将合成数字话音信号的波峰的幅度同阈值比较的方法可以检测出无法通过检测原始信号波形的尖峰而检出的帧。同样,当前面提到的合成数字话音信号的上升沿比原始信号更为陡这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿比原始信号的更大时,本发明的将合成数字话音信号的波峰的上升沿同阈值比较的方法可以检测出原来无法检出的帧。同样,当前面提到的合成数字话音信号的上升沿比原始信号更为陡这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿的斜率比原始信号更大时,将合成数字话音信号的波峰的上升沿的斜率同阈值比较的方法可以检测出原来无法检出的帧。
附图说明
图1是现有技术的典型的包括音调分析和固定码书搜索的CELP声码器。
图2是现有技术的典型的变速率CELP声码器。
图3是根据合成数字声音信号帧将输入声音帧分类成有无语音两类之一并根据这一类别确定编码速率的CELP变速率声码器。
图4是图4所示的是图3的声码器所对应的译码器。
图5是根据合成数字声音信号帧将输入声音帧分类成有12.2kbps、6.7kbps和1.8kbps三类之一并根据这一类别确定该帧编码速率的AMR-NB声码器。
图6是图5的声码器所对应的译码器。
具体实施方式
实施例1,本实施例的声码器是对IS127 EVRC(增强型变速率编解码器)CDMA(码分多址接入)编码器的改进,本实施例的声码器的输入声音帧为20毫秒长160个声音数据样本,意味着所提取的参数以每秒50次的脉冲传送,分割成53样本、53样本和54样本的三个子帧。图3示出一根据合成数字声音信号帧将输入声音帧分类成有无语音两类之一并根据这一类别确定该帧编码速率的变速率声码器,输入声音信号帧1输出到LP参数分析器和短时预测滤波器,由LP参数分析器产生LPC系数参数2传送至短时预测滤波器,产生量化了的LPC系数参数22传送至短时预测合成滤波器,短时预测滤波器的传输函数为A(z)和短时预测合成滤波器的传输函数为H(z)的计算式如下,
m为预测阶数是10。本实施例中对每一帧都有一次LPC计算,分配给LPC参数22的比特的位数是28,LP参数分析器产生ai(i=1,2,...,m),即,LPC系数参数2,LP参数分析器还产生即,LPC系数参数22,是根据由LPC计算得到的LPC系数2再量化编码成的28位LPC参数得到的。
短时预测STP滤波器输出的残余信号3到音调分析器和长时预测LTP滤波器,LTP滤波器的传输函数P(z)为1-βz-L,β为基音增益,L为基音延迟,β和L是由音调分析器根据残余信号3和误差信号66估算出的整个帧的音调数据4,音调分析器产生表征整个帧的L的7个ACB位并输出根据该7个ACB位产生的基音延迟13,以及3个ACBG位以估算第一子帧的自适应码书增益β,另外3个ACBG位估算第二子帧的自适应码书增益β,而且,另有3个ACBG位估算第三子帧的自适应码书增益β,并且音调分析器为这3个子帧的每一个子帧输出根据ACBG位产生的自适应码书增益14,基音延迟13和自适应码书增益14还被输出到长时预测LTP合成滤波器,LTP合成滤波器的传输函数为1/(1-βz-L),β是根据3个ACBG位的量化的子帧的自适应码书增益(自适应码书增益14),L是根据该7个ACB位量化的基音延迟13。
固定码书搜索模块接收LTP滤波器输出的残余信号5计算产生固定码书码矢量8和固定码书增益编码6,固定码书码矢量8中有35个FCB位表示第一子帧的固定码书码矢量,另有35个FCB位表示第二子帧的固定码书码矢量,而且还有35个FCB位表示第三子帧的固定码书码矢量。固定码书码矢量8逐个子帧地输出。固定码书增益编码6也是逐个子帧地输出,表示固定码书增益编码6的比特中有5个FCBG位表示第一子帧的固定码书增益,另有5个FCBG位表示第二子帧的固定码书增益,而且还有5个FCBG位表示第三子帧的固定码书增益。
分配到以上给出的各个参数比特帧(或数据包)内码比特置的总数与运行在全速率8kbps下的声码器有关,总之,该比特帧包括:28个LPC位;7个ACB位;9个ACBG位;105个FCB位;和15个FCBG位,所以,该比特帧内的比特总数为164位,20毫秒164位相当于8.2kbps(千比特每秒)。
长时预测(LTP)合成滤波激励生成模块将固定码书码矢量8所表征的信号按固定码书增益编码6放大后输出信号11输出到长时预测LTP合成滤波器,LTP合成滤波器合成STP合成滤波器的激励信号7输出到短时预测合成滤波器,从图中给出的LTP合成滤波器的框图可知,LTP合成滤波器包含了一个记忆模块——过去的输出信号的存储,该模块将LTP为当前和先前子帧产生的激励信号7存储起来,当收到基音延迟L后输出L个样本点之前的STP合成滤波器的激励信号10,信号10按基音增益β放大后同信号11相加产生STP合成滤波器的激励信号7,短时预测合成滤波器响应激励信号7生成合成语音信号9。
话音激活检测模块接收一个帧的合成语音信号9并检测其中是否有话音,若检测结果有话音其输出的声音类型信号12就是有话音,否则声音类型信号12就是无话音。声音类型信号12输出到参数数据包类型选择模块,该模块根据声音类型信号12的内容选择发送到译码器的参数数据包的类型,参数数据包有两种类型,一种是类型A,该类型的参数数据包包括LPC参数、音调参数和固定码书参数;另一种是类型B,该类型的参数数据包包括LPC参数和帧能量参数。
帧能量分析器接收输入声音信号帧1,计算出帧能量增益并对其进行量化,得到8个FG位的比特表示帧能量增益,帧能量分析器向激励信号更新控制模块输出包含8个FG位的帧能量增益参数16,激励信号更新控制模块在参数数据包类型信号18为类型B时向LTP合成滤波器输出根据帧能量增益参数16对应的量化的帧能量增益给出的伪随机噪声信号17,LTP合成滤波器用该伪随机噪声信号17的信号值代替其过去的输出信号存储中存放的由其生成对应输入声音信号帧1的STP合成滤波器激励信号。
当声音类型信号12是无话音时参数数据包类型选择模块输出参数数据包类型信号18是类型B,即声码器发送的数据包是包括LPC参数和帧能量参数的数据包,此时所有位(LPC和FG)组合成为比特帧(bit frame),在这里分配给LPC的位数是8位(LPC系数2量化编码成8位);当声音类型信号12是有话音的,则参数数据包类型信号18是类型A,即声码器发送的数据包包括了LPC参数、音调参数和固定码书参数,此时所有位(LPC、ACB、ACBG、FCB和FCBG)组合成为比特帧(bit frame)。
图3中的音调分析器(自适应码书搜索装置)搜索基音增益β和基音延迟L是经过开环搜索和闭环搜索得到的,在开环搜索时音调分析器根据残余信号3(e(n))的相关性估算出的整个帧的β和L的开环值,即使下式达到最大的开环值L1及L1处的开环增益β1,
闭环搜索如图3中的虚线所示,即,音调分析器给出开环延迟L1附近的延迟值61(可由7个ACB位表示的)及开环增益β1附近的3个子帧的增益值(可由9个ACBG位表示的),增益信号62包含这3个子帧的增益,LTP合成滤波器将延迟值61处的STP激励信号67按增益信号62中的增益值逐个子帧地放大形成LTP的零激励响应63,零激励响应63作为STP合成滤波器的输入产生合成数字声音帧信号64,输入声音帧1减去合成数字声音帧信号64形成误差信号65,误差信号65经过感知加权滤波器的加权成为加权误差信号66,一旦音调分析器在它搜索的所有延迟值61和增益信号62中增益值的配对中找到均方值最小的加权误差信号66,该信号对应的延迟值61和增益信号62中增益值就分别作为基音延迟13和基音增益14输出,采用先开环搜索再闭环搜索的方法使得要搜索的延迟值和增益值的配对的数目得以减少。
图4所示的是图3的声码器所对应的译码器,声码器为输入声音信号帧生成的参数数据包20输出到参数数据包参数提取模块,参数数据包参数提取模块根据参数数据包20的类型进行参数的提取,类型A的参数数据包的长度大于类型B的长度,靠这一点可以区别类型A的数据包和类型B的数据包,对于类型A的参数数据包参数数据包参数提取模块提取出LPC参数23、基音延迟L——参数14、基音增益β——参数13、固定码书码矢量对应的信号28和固定码书增益26;对于类型B的参数数据包参数数据包参数提取模块提取出LPC参数23和帧能量增益16。这样,在参数数据包20是类型A时,信号28按固定码书增益26放大后成为信号11,长时预测合成滤波器的过去的输出信号的存储模块按照接收到的基音延迟L(参数14)输出长时预测合成滤波器的过去的输出信号30,输出信号30按基音增益β(参数13)放大后与信号11相加成为短时预测合成滤波器的激励信号27,短时合成滤波器是按接收到的LPC参数23给出的LPC系数构成的,短时合成滤波器对激励信号27的响应就是合成声音信号29。在参数数据包20是类型B时,伪随机噪声生成模块按帧能量增益16生成伪高斯白噪声序列37,这样伪高斯白噪声序列37的能量和图3中激励信号更新控制模块产生的伪高斯白噪声序列17的能量相同(是一致的),伪高斯白噪声序列37作为STP合成滤波器的激励信号,STP合成滤波器响应该激励信号的输出就是合成声音信号29,同时该伪高斯白噪声序列还向LTP合成滤波器输出并被存放在过去的输出信号的存储中。事实上,在参数数据包20是类型A时,激励信号27和声码器的激励信号7也是一致的,因为此时基音延迟L-参数14和基音增益β-参数13和声码器方的基音延迟L-参数14和基音增益β-参数13相同,此时的固定码书码矢量对应的信号28和固定码书增益26和声码器方的固定码书码矢量8和固定码书增益编码6一致,只要声码器方的过去的输出信号的存储模块中的存放的STP合成滤波器的激励信号和译码器的一致,声码器的激励信号和译码器的完全一致,因为从初始状态开始双方的过去的输出信号的存储中存放的STP合成滤波器的激励信号都是一致的初始值,所以之后双方的激励信号就是一致的。
由于声码器中存储的STP合成滤波器的激励信号和译码器保存的STP合成滤波器的激励信号一致,这样在音调分析(自适应码书搜索)的闭环搜索时使用的过去的STP合成滤波器的激励信号也就和译码器的一致,自适应码书搜索使用由编码速率确定的存储的STP合成滤波器的激励信号使得译码器的合成数字声音和声码器的一致提高了译码后的声音的质量。
实施例2,本实施例的声码器是对AMR(自适应多速率)编码器的改进,本实施例的声码器的输入声音帧1为20毫秒长160个声音数据样本,意味着所提取的参数以每秒50次的传送,分割成40样本的四个子帧。图5示出一根据合成数字声音信号帧将输入声音帧分类成有12.2kbps、6.7kbps和1.8kbps三类编码速率之一并根据所确定的编码速率编码的变速率AMR声码器,输入声音信号帧1输出到LP参数分析器和短时预测滤波器,由LP参数分析器产生LPC系数参数2传送至短时预测滤波器,产生量化了的LPC系数参数22传送至短时预测合成滤波器,短时预测滤波器的传输函数为A(z),短时预测合成滤波器的传输函数为H(z)
m为预测阶数是10。本实施例中对每一帧都有一次LPC计算,分配给LPC参数22的位数是38,LP参数分析器产生ai(i=1,2,...,m),即,LPC系数参数2,LP参数分析器还产生 即,LPC系数参数22,是根据由LPC计算得到的LPC系数2再量化编码成的38位LPC参数。
短时预测STP滤波器输出的残余信号3到音调分析器和长时预测LTP滤波器,LTP滤波器的传输函数P(z)为1-βz-L,β为基音增益,L为基音延迟,β和L是由音调分析器根据残余信号3估算出的每个子帧的音调数据,音调分析器产生表征第一子帧的基音延迟的9个比特和表征第三子帧的基音延迟的9个比特,音调分析器还产生表征第二子帧的基音延迟的6个比特和表征第四子帧的基音延迟的6个比特;音调分析器产生表征第一子帧的自适应码书增益的4个比特、表征第二子帧的自适应码书增益的4个比特、表征第三子帧的自适应码书增益的4个比特和表征第四子帧的自适应码书增益的4个比特;根据音调分析器产生的表征子帧的基音延迟的比特生成的子帧的基音延迟13被输出到长时预测LTP合成滤波器,根据音调分析器产生的表征子帧的自适应码书增益的比特生成的子帧的自适应码书增益14也被输出到LTP合成滤波器,LTP合成滤波器的传输函数为1/(1-βz-L),β是自适应码书增益14,L是基音延迟13。
固定码书搜索模块接收LTP滤波器输出的残余信号5计算产生固定码书码矢量8和固定码书增益编码6,固定码书码矢量8中有35个比特表示第一子帧的固定码书码矢量,另有35个比特表示第二子帧的固定码书码矢量,还有35个比特表示第三子帧的固定码书码矢量,而且还有35个比特表示第四子帧的固定码书码矢量,固定码书码矢量8逐个子帧地输出。固定码书增益参数也是逐个子帧地输出,表示固定码书增益编码6的比特中有5个比特表示第一子帧的固定码书增益,另有5个比特表示第二子帧的固定码书增益,还有5个比特表示第三子帧的固定码书增益,而且还有5个比特表示第四子帧的固定码书增益,根据这些5个比特表示产生的固定码书增益编码6逐子帧地输出。
分配到以上给出的各个参数比特帧(或数据包)内码比特置的总数与运行在全速率12.2kbps下的AMR声码器有关,总之,该位帧包括:38个LPC位;30个基音延迟位;16个基音增益位;140个固定码书码矢量位;和20个固定码书增益位,所以,该位帧内的位总数为244位,即20毫秒传送244比特相当于12.2kbps。
LTP合成滤波激励生成模块将固定码书码矢量8所表征的信号按固定码书增益编码6放大后成为信号11输出到长时预测LTP合成滤波器,LTP合成滤波器合成STP合成滤波器的激励信号7输出到短时预测合成滤波器,从图中给出的LTP合成滤波器的框图可知,LTP合成滤波器包含了一个记忆模块——过去的输出信号的存储,该模块将LTP为当前和先前子帧产生的激励信号7(或47)存储起来,当收到基音延迟L后输出L个样本点之前的STP合成滤波器的激励信号10,信号10按基音增益β放大后同信号11相加产生STP合成滤波器的激励信号7,短时预测合成滤波器响应激励信号7生成合成语音信号9。
话音激活检测模块接收一个帧的合成语音信号9并检测其中是否有话音并将检测结果-声音类型信号12输出到编码帧类型选择模块,编码帧类型选择模块根据声音类型信号12和之前收到的7个帧的检测结果(声音类型信号12)决定编码帧类型信号18的值。声音类型信号12输出到编码帧类型选择模块,该模块根据声音类型信号12的内容选择发送到译码器的参数数据包的类型,编码帧(参数数据包)有三种类型C、D和E,类型C和D的编码帧包括LPC参数、音调参数(自适应码书参数)和固定码书参数,C和D的区别在于类型C的编码帧的位数是上述的244位而类型D的编码帧的位数是134位,合成语音信号9就是按照类型C的帧生成的;另一种是类型E,该类型的参数数据包包括LPC参数和帧能量参数,编码帧类型选择模块输出的编码帧类型信号18的内容就是三种类型C、D和E之一。
若当前帧的声音类型信号12是有话音编码帧类型信号18就是类型C,若当前帧的声音类型信号12是有话音但前7个帧的检测结果中有有话音则编码帧类型信号18是类型D,若检测结果是无话音且前7个帧的检测结果也都是无话音则编码帧类型信号18是类型E。
帧能量分析器接收输入声音信号帧1,计算出帧能量的对数平均值并对其进行量化,得到6个比特的表示帧能量索引的值。
当编码帧类型信号18是类型E,声码器发送的数据包是包括LPC参数和帧能量索引的数据包,此时所有位(LPC和帧能量索引)组合成为比特帧(bit frame),在这里分配给LPC参数的位数是29位,激励信号更新控制模块在编码帧类型信号18为类型E时向激励信号更新控制模块输出该信号,激励信号更新控制模块产生一个固定的值全为零的信号帧15,LTP合成滤波器用该全零信号帧15的信号值代替其过去的输出信号存储中存放的由其生成对应输入声音信号帧1的STP合成滤波器激励信号。
当参数数据包类型信号18是类型C,声码器发送的编码帧包括了LPC参数、音调参数和固定码书参数,此时所有位组合成为比特帧(bit frame),其中有38个LPC位、30个基音延迟位、16个基音增益位、140个固定码书码矢量位和20个固定码书增益位,也正是这些位被用来产生用于VAD的合成语音信号声音帧9。
当编码帧类型信号18是类型D,声码器发送的编码帧包括了LPC参数、音调参数和固定码书参数,此时所有位组合成为位帧(bit frame),其中有26个LPC位、24个基音延迟位、56个固定码书码矢量位、28个基音增益位和固定码书增益位,由56个码矢量位构成的固定码书码矢量38逐子帧地输出至长时预测合成滤波激励生成模块,收到类型为D的编码帧类型信号18后音调分析器将按类型C量化得到的自适应码书增益48逐子帧地输出到联合量化模块,收到类型为D的编码帧类型信号18后固定码书搜索模块将按类型C量化得到的固定码书增益43和预测固定码书增益47逐子帧地输出至联合量化模块,联合量化模块为每个子帧的按类型C量化得到的自适应码书增益48和按类型C量化得到的固定码书增益43搜索7比特的联合量化矢量表示,根据所述联合量化矢量表示产生并输出量化了的固定码书增益36和量化了的自适应码书增益33,收到类型为D的编码帧类型信号18后音调分析器就将音调参数中的基音延迟量化为上述的24个基音延迟比特,并且根据所述24个基音延迟比特产生量化了的包含四个子帧基音延迟的基音延迟34,基音延迟34逐子帧地输出至LTP合成滤波器,长时预测合成滤波激励生成模块将固定码书码矢量38对应的信号按量化了的固定码书增益36放大后成为信号31输出至长时预测合成滤波器,LTP合成滤波器按基音延迟34重新逐子帧地为当前帧从过去输出信号的存储模块中取出过去的激励信号30,过去的激励信号30按量化了的自适应码书增益33放大后与信号31相加成为当前帧的子帧的激励信号47,当前帧的子帧的激励信号47输出至过去输出信号的存储模块取代原先的激励信号7。
图5中的音调分析器(自适应码书搜索装置)搜索基音增益β和基音延迟L是进行闭环搜索得到的,闭环搜索如图3中的虚线所示,即,音调分析器给出17.5到143个样本点的范围内分辨率为1/6个样本的所有延迟值71和[0.0,1.2]范围的分辨率为0.075的所有增益值72,LTP合成滤波器将延迟值71处的STP激励信号77按增益值72放大形成LTP的零激励(即自激励)响应73,零激励响应73作为STP合成滤波器的输入产生合成数字声音帧信号74,输入声音帧1逐个子帧地与合成数字声音帧信号74相减形成误差信号75,误差信号75经过感知加权滤波器的加权成为加权误差信号76,一旦音调分析器在它搜索的所有延迟值71和增益值72的配对中找到均方值最小的加权误差信号76该信号对应的延迟值71和增益值72就分别作为基音延迟13和基音增益14逐个子帧地输出,在这里,采用分辨率为1/6个样本点的延迟值71使得信号77的生成要将存储的STP合成滤波器的激励信号进行内插。当然,如果采用开环搜索后再闭环搜索的方法可以使用以搜索的延迟值71和增益值72的配对的数目得以减少。
图6所示的是图5的声码器所对应的译码器,声码器为输入声音信号帧生成的编码帧20输出到编码帧参数提取模块,编码帧参数提取模块根据编码帧20的类型进行参数的提取,类型C的参数数据包的长度大于类型D的长度,类型D的参数数据包的长度大于类型E的长度,靠这一点可以区别C、D和E,对于类型C或D的编码帧编码帧参数提取模块提取出LPC参数23、基音延迟L-参数24、基音增益β-参数25、固定码书码矢量对应的信号28和固定码书增益26;对于类型E的编码帧编码帧参数提取模块提取出LPC参数23和帧能量对数索引值16。这样,在编码帧20是类型C或D时,信号28按固定码书增益26放大后成为信号41,长时预测合成滤波器的过去的输出信号的存储模块按照接收到的基音延迟L(参数24)输出长时预测合成滤波器的过去的输出信号40,输出信号40按基音增益β(参数25)放大后成为短时预测合成滤波器的激励信号27,短时合成滤波器是按接收到的LPC参数23给出的LPC系数构成的,短时合成滤波器对激励信号27的响应就是合成声音信号29。在编码帧20是类型E时,伪随机噪声生成模块按帧能量增益16生成伪高斯白噪声序列37,伪随机噪声还生成全零的信号35输出至长时预测合成滤波器的过去的输出信号的存储模块,伪高斯白噪声序列37作为STP合成滤波器的激励信号,STP合成滤波器响应该激励信号的输出就是合成声音信号29,全零的信号35被存放在过去的输出信号的存储中,这样译码器和声码器就拥有一样的当前帧的STP合成滤波器的激励信号的存储。
在编码帧20是类型C或D时,激励信号27和声码器的激励信号7或激励信号47也是一致的,因为此时基音延迟L-参数24和基音增益β-参数25分别与声码器方的基音延迟L(参数信号14或参数信号34)和基音增益β(参数信号13或参数信号33)相同,此时的固定码书码矢量对应的信号28和固定码书增益26和声码器方的固定码书码矢量8(或固定码书码矢量38)和固定码书增益编码6(或固定码书码增益36)一致,只要声码器方的过去的输出信号的存储中的存放的STP合成滤波器的激励信号和译码器的一致,声码器的激励信号和译码器的完全一致,因为从初始状态开始双方的过去的输出信号的存储中存放的STP合成滤波器的激励信号都是一致的初始值,所以之后双方的激励信号就是一致的。
由于上述AMR编码器中存储的STP合成滤波器的激励信号和AMR译码器保存的STP合成滤波器的激励信号一致,这样在音调分析(自适应码书搜索)的闭环搜索时使用的过去的STP合成滤波器的激励信号也就和译码器的一致,自适应码书搜索使用根据编码速率确定的STP合成滤波器的激励信号的存储使得译码器的合成数字声音和声码器的一致,从而提高了译码后的声音的质量。
下面以一个合成数字话音信号帧的样本点上的信号值为例来说明VAD,原来输入信号帧上每个样本点的值被表示为16比特,上述的AMR编码器将其3个最低有效位(比特2-比特0)置0从而形成13比特的数字话音信号,花括号内是按先后顺序表示的由AMR-NB编码器处理后形成的一个合成数字话音信号帧上的样本点上的信号:{-43,42,13,15,7,-41,-1,33,0,-1,1,-6,-5,-176,-32,215,430,186,-81,-74,195,105,19,-29,-72,-29,-46,-235,123,-98,-67,-72,16,39,126,71,-63,53,31,-153,92,136,100,2,17,-45,31,45,-47,-102,-98,-44,8,88,1,-41,118,-52,1,59,32,10,-27,-41,108,-45,-44,55,72,-26,119,-110,-70,-131,43,54,10,-41,-50,16,-15,56,20,13,-13,-1,-3,6,11,9,-44,-119,-134,151,288,104,-229,-39,-6,25,188,61,-73,-27,-233,-137,136,-2,-218,56,43,139,-14,5,-16,246,22,-131,89,76,-97,7,134,9,42,3,-31,-102,-126,-49,-11,-36,-64,-5,144,201,17,42,56,-146,-134,1,-76,-153,-81,22,2,-39,39,80,42,80,31,-30,-41,-52,-75,-16,7,-17},这里的较大的上升沿有:幅度为506的从-176到430一段、幅度为358的-235到123的一段、幅度为407的-119到288的一段、幅度为417的-229到188的一段、幅度为399的-233到136的一段和幅度为327的-126到201的一段,该帧的能量按前述式(1)计算是1446981,该帧的平均幅度是(帧内每个样本点上的信号值的绝对值之和)是10813。
根据该帧的能量确定VAD中上升沿阈值的方案是:将帧的能量1446981平均到每个样本点上的平方根乘5(等于475.5)作为上升沿第一阈值,将帧的能量1446981平均到每个样本点上的平方根乘4(等于360.4)作为上升沿第二阈值,当该帧的大于第一阈值的上升沿的个数在1和2之间且该帧的大于第二阈值的上升沿的个数在2和4之间时该帧的检测结果为有声音,这样该帧因为有506、407和417的上升沿其检测结果就是有声音。
上述的根据上升沿检测是否有声音的方案还可和根据能量检测的方案相结合以根据能量检测方案的不足,在这里用来与第i帧的帧能量比较的帧能量电平阈值Bi的计算式如下:
Bi=min[Ri-1(0),1500000,max(1.00547 Bi-1,Bi-1+1)]
例如当上一合成数字声音帧的能量Ri-1(0)为1450000、上一合成数字声音帧的帧能量电平阈值Bi-1为1440000时,根据花括号内数据所给出的帧的帧能量电平阈值Bi就为1447876.8(大于1446981)无法检测出有声音的结果。
类似的,根据上升沿检测是否有声音的方案还可和根据信号电平检测的方案相结合。
现有技术检测是否有声音的能量或电平检测方法往往根据的是多个子带上的能量或电平,在本发明中也可采用根据合成数字话音信号帧的特定的子带的能量和信号的方案,例如,能量计算部件根据下面的公式确定所述多个子带能量值中的每个子带能量值:
其中L为带通滤波器hbp(n)内的抽头数,Rs(i)为输入信号S(n)的自相关函数,Rhbp为带通滤波器hbp(n)的自相关函数,p是带通滤波器hbp(n)的阶数。根据子带能量和对应的子带能量电平阈值的比较结果可以作出是否有声音的判决,子带能量电平阈值的确定和上述的能量电平阈值的确定方法类似。
关于合成数字话音信号帧的特定的子带的电平,3GPP26094-500的3.3.1节滤波器组与子带电平计算(Filter bank and computation of sub-band levels)给出了一种求子带的电平的方法。
本发明可由本专业的人员进行各种的修改和变更,但其修改和变更均在所附的专利申请要保护的范围内。
Claims (29)
1.一种为输入声音信号帧输出数据包的码激励线性预测CELP编码器,包括,由对所述输入声音信号帧自适应码书进行搜索得到的自适应码书参数所确定的长时预测LTP合成滤波器,用于接收按对所述输入声音信号帧进行固定码书搜索得到的固定码书增益放大所述固定码书搜索得到的固定码书码矢量信号而形成的信号;以及
由对输入声音信号帧进行线性预测得到的线性预测参数所确定的短时预测STP合成滤波器,用于将所述LTP合成滤波器的输出信号作为其激励信号并响应以合成数字声音信号帧;
其特征在于,还包括,声音信号检测部件,用于判断所述合成数字声音信号帧中是否存在声音信号;以及
编码速率及激励信号选择部件,用于根据所述合成数字声音信号帧中是否存在声音信号的判断为所述数据包选择编码速率和选择用于对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索的所述输入声音信号帧的STP合成滤波器的激励信号,即,
在所述判断是存在声音信号时,选择生成包含表示所述自适应码书参数、所述固定码书码矢量和所述固定码书增益的比特的所述数据包,并选择存储所述LTP合成滤波器的所述输出信号用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索;在所述判断是不存在声音信号时,选择生成包含表示所述输入声音信号帧帧能量的比特的所述数据包,并选择存储与该数据包译码后所表示的STP合成滤波器的激励信号一致的STP合成滤波器的激励信号,用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索。
2.一种为输入声音信号帧输出数据包的码激励线性预测CELP编码器,包括,由对所述输入声音信号帧自适应码书进行搜索得到的自适应码书参数所确定的长时预测LTP合成滤波器,用于接收按对所述输入声音信号帧进行固定码书搜索得到的固定码书增益放大所述固定码书搜索得到的固定码书码矢量信号而形成的信号;以及
由对输入声音信号帧进行线性预测得到的线性预测参数所确定的短时预测STP合成滤波器,用于将所述LTP合成滤波器的输出信号作为其激励信号并响应以合成数字声音信号帧;
其特征在于,还包括,声音信号检测部件,用于判断所述合成数字声音信号帧中是否存在声音信号;以及
编码速率及激励信号选择部件,用于根据所述合成数字声音信号帧中是否存在声音信号的判断为所述数据包选择编码速率和选择用于对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索的所述输入声音信号帧的STP合成滤波器的激励信号,即,
在所述判断是存在声音信号时,选择生成包含表示所述自适应码书参数、所述固定码书码矢量和所述固定码书增益的所述数据包,并选择存储所述LTP合成滤波器的所述输出信号用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索;
在所述判断是不存在声音信号时,选择生成包含表示所述输入声音信号帧帧能量的比特的所述数据包或者以较少的比特数表示自适应码书参数和固定码书参数的所述数据包,并且,若选择生成的所述数据包包含了表示帧能量的比特则还选择存储与该数据包译码后所表示的STP合成滤波器的激励信号一致的STP合成滤波器的激励信号,用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索;若选择生成的所述数据包是所述的以较少的比特数表示自适应码书参数和固定码书参数的数据包,则还选择存储根据所述以较少比特数表示的自适应码书参数确定的长时预测LTP合成滤波器对所述以较少比特数表示的固定码书参数所确定的固定码书码矢量表示的信号按所述以较少比特数表示的固定码书参数所确定的固定码书增益放大后的信号的激励的响应,用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索。
3.根据权利要求1或2的编码器,其特征在于,
所述与该数据包译码后所表示的STP合成滤波器的激励信号一致的STP合成滤波器的激励信号是伪随机噪声信号,该伪随机噪声信号的帧能量与所述该数据包译码后所表示的STP合成滤波器的激励信号的帧能量相同。
4.根据权利要求1或2的编码器,其特征在于,
所述与该数据包译码后所表示的STP合成滤波器的激励信号一致的STP合成滤波器的激励信号和所述该数据包译码后所表示的STP合成滤波器的激励信号相同,都是预定的固定信号。
5.根据权利要求1或2的编码器,其特征在于,所述声音信号检测部件包括:
多个子带能量计算部件,用于确定所述合成数字声音信号帧的各频率子带的信号能量;以及
多个子带阈值计算部件,各子带阈值计算部件耦合至所述多个子带能量计算部件中的相应的一个,其中各子带阈值计算部件用于使用所指定的一个频率子带的信号能量来判断在所述合成数字声音信号帧中是否存在声音信号。
6.根据权利要求1或2的编码器,其特征在于,所述声音信号检测部件包括:
多个子带电平计算部件,用于确定所述合成数字声音信号帧的各频率子带的信号电平;以及
多个子带阈值计算部件,各子带阈值计算部件耦合至所述多个子带电平计算部件中的相应的一个,其中各子带阈值计算部件用于使用所指定的一个频率子带的信号电平来判断在所述合成数字声音信号帧中是否存在声音信号。
7.根据权利要求5的编码器,其特征在于,所述声音信号检测部件还包括:
振幅阈值计算部件,该部件根据所述合成数字声音信号帧波形的振幅来判断所述合成数字声音信号帧中是否存在声音信号。
8.根据权利要求5的编码器,其特征在于,所述声音信号检测部件还包括:
上升沿阈值计算部件,该部件根据所述合成数字声音信号帧中的上升沿的幅度来判断所述合成数字声音信号帧中是否存在声音信号。
9.根据权利要求1或2的编码器,其特征在于,所述声音信号检测部件包括:
能量计算部件,用于确定所述合成数字声音信号帧的信号能量;以及
振幅阈值计算部件,该部件根据所述合成数字声音信号帧的信号能量确定振幅阈值,并根据所述合成数字声音信号帧波形中的振幅超过该振幅阈值的个数判断所述合成数字声音信号帧中是否存在声音信号。
10.根据权利要求1或2的编码器,其特征在于,所述声音信号检测部件包括:
能量计算部件,用于确定所述合成数字声音信号帧的信号能量;
上升沿阈值计算部件,上升沿阈值计算部件耦合至所述能量计算部件,用于根据所述合成数字声音信号帧中的上升沿的大小和数量以及所述信号能量来判断在所述合成数字声音信号帧中是否存在声音信号。
11.根据权利要求1或2的编码器,其特征在于,所述声音信号检测部件包括:
多个频率子带能量计算部件,用于确定所述合成数字声音信号帧的多个频率子带的信号能量;以及
上升沿阈值计算部件,上升沿阈值计算部件耦合至所述能量计算部件,用于根据所述合成数字声音信号帧中的上升沿的大小和数量以及所述多个频率子带的信号能量来判断在所述合成数字声音信号帧中是否存在声音信号。
12.根据权利要求1或2的编码器,其特征在于,与所述输入声音信号帧相邻的后一输入声音信号帧的STP合成滤波器根据所述合成数字声音信号帧尾部的若干个样本点上的值生成所述后一输入声音信号帧的合成数字声音帧,所述若干个样本点的个数与所述STP合成滤波器的阶数一致。
13.一种码激励线性预测CELP编码方法,其中:
对输入声音信号帧进行线性预测并用对所述输入声音信号帧进行线性预测得到的线性预测参数确定短时预测STP合成滤波器,对所述输入声音信号帧进行自适应码书搜索和固定码书搜索,根据所述自适应码书搜索得到的自适应码书参数确定长时预测LTP合成滤波器,将所述固定码书搜索得到的固定码书码矢量所表示的信号按所述固定码书搜索得到的固定码书增益放大后作为所述LTP合成滤波器的输入信号,将所述LTP合成滤波器对该输入信号的响应作为所述输入声音信号帧的STP合成滤波器的激励信号,该STP合成滤波器响应以合成数字声音信号,其特征在于,
对所述合成数字声音信号帧进行是否存在声音信号的检测,若检测结果是有声音,为所述输入声音信号帧生成包含表示所述自适应码书参数、所述固定码书码矢量和所述固定码书增益的比特的数据包,并存储所述输入声音信号帧的STP合成滤波器的激励信号用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索;若所述的检测结果是无声音,为所述输入声音信号帧生成包含表示所述输入声音信号帧帧能量的比特的数据包,并使存储的所述输入声音信号帧的STP合成滤波器的激励信号与该数据包译码后的所表示的STP合成滤波器的激励信号一致。
14.一种码激励线性预测CELP编码方法,其中:
对输入声音信号帧进行线性预测并用对所述输入声音信号帧进行线性预测得到的线性预测参数确定短时预测STP合成滤波器,对所述输入声音信号帧进行自适应码书搜索和固定码书搜索,根据所述自适应码书搜索得到的自适应码书参数确定长时预测LTP合成滤波器,将所述固定码书搜索得到的固定码书码矢量所表示的信号按所述固定码书搜索得到的固定码书增益放大后作为所述LTP合成滤波器的输入信号,将所述LTP合成滤波器对该输入信号的响应作为所述输入声音信号帧的STP合成滤波器的激励信号,该STP合成滤波器响应以合成数字声音信号,其特征在于,
对所述合成数字声音信号帧进行是否存在声音信号的检测,若检测结果是有声音,为所述输入声音信号帧生成包含表示所述自适应码书参数、所述固定码书码矢量和所述固定码书增益的比特的数据包,并存储所述输入声音信号帧的STP合成滤波器的激励信号用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索;若所述的检测结果是无声音,为所述输入声音信号帧生成包含表示所述输入声音信号帧帧能量的比特的数据包或为所述输入声音信号帧生成以较少的比特数表示线性预测参数、自适应码书参数和固定码书参数的数据包,以及
若所述的检测结果是无声音且所述生成的数据包包含了表示帧能量的比特则使存储的所述输入声音信号帧的STP合成滤波器的激励信号与该数据包译码后的所表示的STP合成滤波器的激励信号一致;
若所述的检测结果是无声音且所述生成的数据包是所述的以较少的比特数表示线性预测参数、自适应码书参数和固定码书参数的数据包则根据所述以较少比特数表示的自适应码书参数确定长时预测LTP合成滤波器且将所述以较少比特数表示的固定码书参数所确定的固定码书码矢量表示的信号按所述以较少比特数表示的固定码书参数所确定的固定码书增益放大后作为该LTP合成滤波器的输入信号,将该LTP合成滤波器的输出信号作为输入声音信号帧的STP合成滤波器的激励信号并根据存储的该STP合成滤波器的响应对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索。
15.根据权利要求13或14的方法,其特征在于,
所述与该数据包译码后所表示的STP合成滤波器的激励信号一致的STP合成滤波器的激励信号是伪随机噪声信号,该伪随机噪声信号的帧能量与所述该数据包译码后所表示的STP合成滤波器的激励信号的帧能量相同。
16.根据权利要求13或14的方法,其特征在于,
所述与该数据包译码后所表示的STP合成滤波器的激励信号一致的STP合成滤波器的激励信号和所述该数据包译码后所表示的STP合成滤波器的激励信号相同,都是预定的固定信号。
17.根据权利要求13或14的方法,其特征在于,所述对所述合成数字声音信号帧进行是否存在声音信号的检测的步骤包括:
计算所述合成数字声音信号帧的信号能量;以及
使用所述合成数字声音信号帧的信号能量来判断在所述合成数字声音信号帧中是否存在声音信号。
18.根据权利要求13或14的方法,其特征在于,所述对所述合成数字声音信号帧进行是否存在声音信号的检测的步骤包括:
计算所述合成数字声音信号帧的信号电平;以及
使用所述合成数字声音信号帧的信号电平来判断在所述合成数字声音信号帧中是否存在声音信号。
19.根据权利要求13或14的方法,其特征在于,所述对所述合成数字声音信号帧进行是否存在声音信号的检测的步骤包括:
计算所述合成数字声音信号帧的各频率子带的信号能量;以及
使用所述频率子带的信号能量来判断在所述合成数字声音信号帧中是否存在声音信号。
20.根据权利要求13或14的方法,其特征在于,所述对所述合成数字声音信号帧进行是否存在声音信号的检测的步骤包括:
计算所述合成数字声音信号帧的各频率子带的信号电平;以及
使用所述频率子带的信号电平来判断在所述合成数字声音信号帧中是否存在声音信号。
21.根据权利要求17的方法,其特征在于,所述对所述合成数字声音信号帧进行是否存在声音信号的检测的步骤还包括:
使用所述合成数字声音信号帧的波形中的振幅来判断所述合成数字声音信号帧中是否存在声音信号。
22.根据权利要求17的方法,其特征在于,所述对所述合成数字声音信号帧进行是否存在声音信号的检测的步骤还包括:
使用所述合成数字声音信号帧中的上升沿的幅度来判断所述合成数字声音信号帧中是否存在声音信号。
23.根据权利要求22的方法,其特征在于,
所述使用所述合成数字声音信号帧中的上升沿的幅度来判断所述合成数字声音信号帧中是否存在声音信号包括:根据所述合成数字声音信号帧确定一个阈值,根据所述合成数字声音信号帧中的波形的波峰的上升沿的幅度同所述阈值比较的结果来判断所述合成数字声音信号帧中是否存在声音。
24.根据权利要求22的方法,其特征在于,
所述使用所述合成数字声音信号帧中的上升沿的幅度来判断所述合成数字声音信号帧中是否存在声音信号包括:根据所述的合成数字声音信号帧确定幅度阈值和范围,根据所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数是否在所述范围之内来判断所述合成数字声音信号帧中是否存在声音。
25.根据权利要求13或14的方法,其特征在于,所述对所述合成数字声音信号帧进行是否存在声音信号的检测的步骤包括:
根据所述合成数字声音信号帧的信号能量确定振幅阈值;以及
根据所述合成数字声音信号帧的波形中的振幅超过该振幅阈值的波峰或波谷的个数是否在预定的一个范围内来判断所述合成数字声音信号帧中是否存在声音信号。
26.根据权利要求13或14的方法,其特征在于所述对所述合成数字声音信号帧进行是否存在声音信号的检测的步骤包括:
根据所述合成数字声音信号帧的信号能量确定上升沿阈值;以及
根据所述合成数字声音信号帧的波形中的上升沿超过该上升沿阈值的波峰的个数是否在预定的一个范围内来判断所述合成数字声音信号帧中是否存在声音信号。
27.根据权利要求13或14的方法,其特征在于,所述对所述合成数字声音信号帧进行是否存在声音信号的检测的步骤包括:
根据所述合成数字声音信号帧的信号能量来确定若干个上升沿阈值;以及
由所述若干个上升沿阈值划分若干个上升沿幅度的范围;
根据所述合成数字声音信号帧中的波峰的上升沿在所述划分的若干个上升沿幅度的范围中的分布来判断所述合成声音信号帧中是否存在声音信号。
28.据权利要求13或14的方法,其特征在于,所述对所述合成数字声音信号帧进行是否存在声音信号的检测的步骤包括:
根据所述合成数字声音信号帧的多个频率子带的信号能量来确定上升沿阈值,
根据所述合成数字声音信号帧的波形中的上升沿超过该上升沿阈值的波峰的个数是否在预定的一个范围内来判断所述合成数字声音信号帧中是否存在声音信号。
29.根据权利要求13或14的方法,其特征在于,与所述输入声音信号帧相邻的后一输入声音信号帧的STP合成滤波器根据所述合成数字声音信号帧尾部的若干个样本点上的值生成所述后一输入声音信号帧的合成数字声音帧,所述若干个样本点的个数与STP合成滤波器的阶数一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102102150A CN101388214B (zh) | 2007-09-14 | 2008-08-09 | 一种变速率的声码器及其编码方法 |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710045982.6 | 2007-09-14 | ||
CN200710045982 | 2007-09-14 | ||
CN200710172563 | 2007-12-19 | ||
CN200710172562.4 | 2007-12-19 | ||
CN200710172562 | 2007-12-19 | ||
CN200710172563.9 | 2007-12-19 | ||
CN2008102102150A CN101388214B (zh) | 2007-09-14 | 2008-08-09 | 一种变速率的声码器及其编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101388214A CN101388214A (zh) | 2009-03-18 |
CN101388214B true CN101388214B (zh) | 2012-07-04 |
Family
ID=40477584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008102102150A Expired - Fee Related CN101388214B (zh) | 2007-09-14 | 2008-08-09 | 一种变速率的声码器及其编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101388214B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8260220B2 (en) * | 2009-09-28 | 2012-09-04 | Broadcom Corporation | Communication device with reduced noise speech coding |
CN102254562B (zh) * | 2011-06-29 | 2013-04-03 | 北京理工大学 | 一种相邻高低速率编码模式间切换的变速率音频编码方法 |
LT2774145T (lt) * | 2011-11-03 | 2020-09-25 | Voiceage Evs Llc | Nekalbinio turinio gerinimas mažos spartos celp dekoderiui |
EP4343763A2 (en) * | 2014-04-25 | 2024-03-27 | Ntt Docomo, Inc. | Linear prediction coefficient conversion device and linear prediction coefficient conversion method |
CN108109629A (zh) * | 2016-11-18 | 2018-06-01 | 南京大学 | 一种基于线性预测残差分类量化的多描述语音编解码方法和系统 |
CN108134617B (zh) * | 2016-12-06 | 2020-07-31 | 天津希格玛微电子技术有限公司 | 控制信号的处理方法、系统及装置 |
CN112769524B (zh) * | 2021-04-06 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 语音传输方法、装置、计算机设备和存储介质 |
-
2008
- 2008-08-09 CN CN2008102102150A patent/CN101388214B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101388214A (zh) | 2009-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gersho | Advances in speech and audio compression | |
CN100369112C (zh) | 可变速率语音编码 | |
US7191125B2 (en) | Method and apparatus for high performance low bit-rate coding of unvoiced speech | |
EP1164580B1 (en) | Multi-mode voice encoding device and decoding device | |
CN100583242C (zh) | 声音译码方法和声音译码装置 | |
CN101388214B (zh) | 一种变速率的声码器及其编码方法 | |
US6098036A (en) | Speech coding system and method including spectral formant enhancer | |
US6067511A (en) | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech | |
US6119082A (en) | Speech coding system and method including harmonic generator having an adaptive phase off-setter | |
US6081776A (en) | Speech coding system and method including adaptive finite impulse response filter | |
EP1982329B1 (en) | Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus | |
US6138092A (en) | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency | |
EP1145228A1 (en) | Periodic speech coding | |
EP1214706B9 (en) | Multimode speech encoder | |
CN101359978B (zh) | 一种控制变速率多模式宽带编码速率的方法 | |
RU2646357C2 (ru) | Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием информации формирования речевого спектра | |
RU2644123C2 (ru) | Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием детерминированной и шумоподобной информации | |
JP2003525473A (ja) | 閉ループのマルチモードの混合領域の線形予測音声コーダ | |
EP1756807B1 (en) | Audio encoding | |
JP3558031B2 (ja) | 音声復号化装置 | |
CN101572090B (zh) | 一种自适应多速率窄带编码方法及编码器 | |
JP3353852B2 (ja) | 音声の符号化方法 | |
Li et al. | Basic audio compression techniques | |
CN101609683B (zh) | 自适应多速率窄带不连续发送的一种编码器和方法 | |
JP3984048B2 (ja) | 音声/音響信号の符号化方法及び電子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120704 Termination date: 20140809 |
|
EXPY | Termination of patent right or utility model |