CN1134761C - 综合分析语音编码方法 - Google Patents
综合分析语音编码方法 Download PDFInfo
- Publication number
- CN1134761C CN1134761C CNB961917954A CN96191795A CN1134761C CN 1134761 C CN1134761 C CN 1134761C CN B961917954 A CNB961917954 A CN B961917954A CN 96191795 A CN96191795 A CN 96191795A CN 1134761 C CN1134761 C CN 1134761C
- Authority
- CN
- China
- Prior art keywords
- pulse
- subframe
- matrix
- gain
- prime
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 35
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 58
- 230000005284 excitation Effects 0.000 claims abstract description 52
- 238000012804 iterative process Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 49
- 230000007774 longterm Effects 0.000 claims description 36
- 230000004044 response Effects 0.000 claims description 31
- 239000000203 mixture Substances 0.000 claims description 30
- 238000005070 sampling Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 239000002131 composite material Substances 0.000 claims description 7
- 239000004615 ingredient Substances 0.000 claims description 4
- 238000012360 testing method Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 13
- 101100176198 Caenorhabditis elegans nst-1 gene Proteins 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 8
- 230000017105 transposition Effects 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000004904 shortening Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 101100148606 Caenorhabditis elegans pst-1 gene Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- LTXREWYXXSTFRX-QGZVFWFLSA-N Linagliptin Chemical compound N=1C=2N(C)C(=O)N(CC=3N=C4C=CC=CC4=C(C)N=3)C(=O)C=2N(CC#CC)C=1N1CCC[C@@H](N)C1 LTXREWYXXSTFRX-QGZVFWFLSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N ferric oxide Chemical compound O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- KJONHKAYOJNZEC-UHFFFAOYSA-N nitrazepam Chemical compound C12=CC([N+](=O)[O-])=CC=C2NC(=O)CN=C1C1=CC=CC=C1 KJONHKAYOJNZEC-UHFFFAOYSA-N 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
Abstract
为确定短期综合滤波器的系数,对每帧语音信号进行线性预测分析,并且对每个子帧确定一个激发序列,使加到短期综合滤波器的激发序列产生表征语音信号的一个综合信号,激发序列由迭代过程确定,其中,再次迭代逐渐建立对稳矩阵Bn。矩阵Bn再次迭代通过用Ln=Rn·Kn分解模式Bn=Ln·RnT被转置,这里,Ln、Rn是三角矩阵,k是对角线矩阵,矩阵L仅具有在它的应对角线上的1′s。
Description
技术领域
本发明涉及综合分析语音编码。
本申请公司已经在欧洲专利申请第0195487,0347307和0469997号中,特别描述了这种已开发出来的语言编码器。
背景技术
在综合分析语音编码器中,为了获得模型化有声区的变换函数的一个短期综合滤波器的系数,执行语音信号的线性预测。这些系数和参数表示特性的一个激发用于短期综合滤波器的参数一起传递到译码器。在大多数现代的编码器中,为了考虑语言音调的一个长期综合滤波器的特性,也寻找语音信号的长期自相关数。当这个信号是有声的时,这个激发实际上包含可以由过去激发表示,通过语言信号的TP取样延迟并隶属于一个增益gp的一个可预测成份。在译码器中也重新构成这个长期综合滤波器,而且它具有一个形式为1/B(z)的传递函数,其中B(z)=1-gpz-TP。这个激发的剩余不可预测部分称为随机激励。在已知的CELP(“激发编码线性预测”)编码器中,随机激励包括一个预定字典中查找的一个矢量。在已知的MPLPC(“多脉冲线性预测编码”)编码器中,随机激励包括通过编码器查找一定的脉冲数量的位置。通常,CECP编码器对低数据传输速率更适用,但它们比MPLPC编码器执行起来更复杂。
发明内容
本发明的一个目的是建议一个简化随机激励查寻的语音编码方法。
因而本发明一种综合分析语音编码方法,用于一语音信号,所述语音信号被数字化成连续帧,各帧又被分为1st个取样的子帧,1st是正整数,其中,为确定短期综合滤波器(60)的系数,对每个帧进行线性预测分析,并且对每个子帧确定一个激发序列,激发序列具有nc个成分,每个成分与各自独立的增益gp,g(n)相关联,使加到短期综合滤波器的激发序列产生表征语音信号的一个综合信号,激发序列的nc个成分和相关增益,由迭代过程确定,其中,0≤n<nc,且第n次迭代包括:
-确定使量(FP,en-1 T)2/FP·FP T为最大的成分n,其中,FP表示具有1st个元素的一个行矢量,其1st个元素等于在成分n的一个可能值和由短期综合滤波器与感知加权滤波器组成的一个合成滤波器的脉冲响应之间的卷积,en-1表示在n≥1时在第n-1步迭代期间确定的一个目标矢量,e-1=X是一个初始目标矢量;和
-通过求解线性系统gnBn=bn,计算形成一个行矢量gn(gn(0),...,gn(n))的n+1个增益,其中Bn是n+1行和n+1列的对称矩阵,其中元素Bn(i,j)在0≤i,j≤n时等于标量积FP(i)·FP(j) T,这里FP(i)和FP(j)分别表示行矢量,它们等于在上述确定的成分i和j与合成滤波器的脉冲响应之间的卷积,并且bn是一个行矢量,其n+1个元素bn(i)在0≤i≤n时分别等于在矢量FP(i)和初始目标矢量X之间的标量积,
其nc个增益与激发序列的nc个成分有关,是在第nc-1步迭代期间计算的,
其特征在于,在0≤n<nc时的第n次迭代过程中,分别计算具有nc行和nc列的三个矩阵L、R和K的第n行,即Bn=Ln·RnT和Ln=Rn·Kn,这里Ln,Rn和Kn表示具有n+1行和n+1列的矩阵,这些行列分别对应上述矩阵L、R和K的第一个n+1行和第一个n+1列,矩阵L和R是下三角矩阵,矩阵K是对角矩阵,并且矩阵L仅在它的主对角线上具有等于1的值,计算矩阵L-1即L的逆矩阵、的第n行,根据关系gn=bn·Kn(Ln -1)T·Ln -1计算n+1个增益,这里Ln -1表示具有n+1行和n+1列的矩阵,其n+1行和n+1列分别对应于逆矩阵L-1的第一个n+1行和第一个n+1列。
这个查找激发的方法限制了要求确定激发序列的计算的复杂性,每个迭代中至多仅可执行一次分隔或转置。在一个MPLPC编码器的情况下,成分可以是脉冲成分。但是,这种查找激发的方法对MPLPC编码器是不可用的。例如,对已知的VSELP编码器是可用的,在这个编码器中,对随机激励的影响是从一个预定字典中选出的矢量(见I.GerSon和M.Jasiuk:“8kb/s的矢量激发总量的线性预测)VSELP(语音编码”,Proc、Int、Conf、声学、语音和信号处理、Albuquerque 1990年,卷1,页461-464)。另外,nc影响可以包括对应由TP取样延迟的过去的激发的影响,这个影响的相应增益gp可在大量迭代期间被重新计算,或者如果确定了n个延迟LTP,则包括n个这种影响。
参照附图,在下面优选的描述中将暴露本发明的另外的特征和优点,但不限于示范的实施例的下列描述,其中:
附图说明
-图1是结合实施本发明的一个语音编码器的一个无线通信站的框图;
-图2是能接收由图1的站产生的一个信号的一个无线通信站的框图;
-图3到6是说明在图1中的语音编码器的开环LTP分析过程的流图;
-图7是说明确定用于图1的语音编码器的加权综合滤波器的脉冲响应过程的一个流图;
-图8到11是说明用于图1的语音编码器的随机激励的查找过程的流图。
具体实施方式
实施本发明的语音编码器可以用于不同类型的依靠一个数字压缩技术的语音传输和/或存储系统。在图1的例子中,移动无线通信站的语音编码器16形成部分。这个语音信号s是以一个典型地等于8KHz的频率取样的数字信号。信号S是从微型电话20接收的放大和滤波的输出信号模拟数字转换器18输出的。转换器18把语音信号s自身被再分为lst取样的nst子帧的连续的帧形式。一个20ns帧典型地包含在8KHz上16比特的1st=40取样的ns=4的子帧。编码器16的上游,语音信号s也可以使用传统的波形处理,如海明滤波。语音编码器16以实际低于语音信号s的数据速率传送一个二进制序列,并且把这个序列用于信道编码器22。信道编码器22的功能是把冗余位引入信号,以便准许任意传送误差的检测和/或纠正。然后,从信道编码器22的输出信号由调制器24调制成一个载频率,并把这个调制信号传送到空气接口上传送。
语音编码器16是一个综合分析编码器。编码器16,一方面,确定表示一个模型化扬声器有声区的短期综合滤波器,另一方面,用于短期综合滤波器的一个激发序列,根据一个感知加权判别式,供给一个综合信号构造一个语音信号s的估计值。
短期合成滤波器有一个公式1/A(z)的转换函数,其中:
由模块26确定的系数ai,它用于语音信号s的短期线性预测分析。ai ′s是语音信号s的线性预测的系数。线性预测的阶q典型地为10阶。可以由模块26用于短期线性预测的方法在语音编码领域是很知名的。例如,模块26执行Durbin-LevinS0n算法(见J.Makhoul:“线性预测:一个指导评论”,PR0c、IEEE,卷63,4号,1975年4月,P561-580)、获得的系数ai提供给把它们转换成线状谱参数(LSP)的一个模块28。综合分析语音编码器中,频繁地使用由LSP参数预测参数ai的表示。LSP参数是以降序范围内的cos(2πfi)的q计算,q归一化线状谱率(LSF)fi(`1≤i≤q)是为了复数的计算exp(2πjfi),i=1,3,…,q-1,q+1和fq+1=0.5,是由Q(z)=A(z)+z(-q+1)·A(z-1)定义的多项式Q(z)的根,以及复数的计算exp(2πjfi),i=0,2,4…q和f0=0,是由Q*(z)=A(z)+z(-q+1)·A(z-1)定义的多项式Q*(z)的根。
用契此雪夫多项式的传统方法(见P·kabal和R·PRamachandran:“使用契比雪夫多项式的线状谱频率的计算”,IEEE,Trans,Assp卷34,6号,1986年,P1419-1426),可以由转换模块28获得Lsp参数。这些Lsp参数的量化值,由量化模块30获得,把它传递给用于恢复短期综合滤波器的余数ai的译码器。这个系数ai可以被简单地恢复:
and A(z)=[Q(z)+Q*(z)]/2
为了避免短期综合滤波器的转换函数中的突发变化,Lsp参数在预测参数ai从它们推演出来之前可以插入。这个插入在信号的每个帧的第一子帧上执行。例如,如果LSPt和LSPt-1分别表示为帧t和前一帧t-1的计算的一个LSP参数,那么对帧t的子帧0,1,2,…nst-1,LSPt(0)=0.5LSPt-1+0.5LSP,LSPt(1)=0.25LSPt-1+0.75LSP和LSPt(2)=…=LSPt(nst-1)=LSPt。然后,在插入的LSP参数的基础上,逐子帧地确定1/A(z)滤波器的系数ai。
非量化LSP参数由模块28提供给模块32,用于计算感知加权滤波器34的系数。这个感知加权滤波器34更可取的是具有一个公式为W(z)=A(z/r1)/A(z/r2)的转换函数,其r1和r2是系数,r1>r2>0(如r1=0.9,且r2=0.6)。感知加权滤波器的这个系数在模块28接收的LSP参数的插入之后,由模块32为每个子帧计算出来的。
感知加权滤波器34为确定激发序列,接收语音信号s并传送由模块36,38,40分析的一个感知加权信号SW。短期滤波器的激发序列包括可以由模型化语音音调的一个长期综合滤波器预测的激发,以及一个不可预测的随机激发或更新序列。
模块36在开环回路中执行一个长期预测(LTP),也就是说,它不会直接影响最小化加权误差。在目前的情况下,加权滤波器34介入开环回路分析模块上游,但是,它可以按另一种方式:模块36通过用具有转换函数A(z)的滤波器转移去它的短期相关数,可以直接操作语音信号s,以至信号s、另一方面,模块38和40在闭环回路中操作,也就是说,它们直接影响最小化感知加权误差。
长期综合过滤器具有一个公式1/B(z)的转换函数,B(z)=1-gp·z-TP,其中gp表示一个长期预测增益,TP表示一个长期预测延迟。长期预测延迟可以典型地取位于rmin和rmax之间的值N=256。分数分解率被提供给延迟的量小值,以便避免从话音频率的角度来看具有太多的感性的差别。例如,在rmin=21和33+5/6之间使用一个1/6分解率,在34和47+2/3之间使用一个1/3分解率,在48和88+1/2之间的使用一个1/2分解率,并在89到rmax=142之间的一个整数分解率。这样,每个可能的延迟由位于O和N=1=255间的一个整数索引量化。
长期预测延迟在两个阶段内确定。在第一阶段中,开环回路LTP分析模块36检测语音信号的话音帧,并且为每个话音帧确定一个话音等级MV和一个用于长期预测延迟的查寻间隔。话音帧的话音等级MV可以取三个值:1是用于轻微话音帧;2是用于中度话音帧;3是用于高话音帧。在下面使用的符号中,对非话音帧,取话音等级MV=0。依赖话音等级MV,查寻间隔用其量化索引ZP表示的一个中间值,并在量化索引域中的一个宽度定义查寻间隔。对于轻微或中度话音帧(MV=1或2)的查寻间隔的宽度是N1索引,也就是说,若N1=32,则长期预测延迟的索引将在ZP-16和ZP+15之间寻找。对于高话音帧(MV=3),查寻间隔的宽度是N3的索引,也就是说,若N3=16,长期预测延迟的索引将在ZP-8和ZP+7之间查寻。
一旦一个帧的话音等级MV已经由模块36确定,模块30执行已在前面为这个帧确定的LSP参数的定量。例如,这个定量是矢量的,也就是说,它在于从一个或更多个预定的定量表选择一个定量的参数LSPQ的集合,它表示与由模块28提供的LSP参数集合的一个最小距离。用一种已知的方法,定量表依赖由开环回路分析器36提供给定量模块30的话音等级MV而变化。在前面解析期间,确定用于话音等MV的一个定量表的集合,以便帧的统计特征具有这个等级MV。这些集合被存在实施本发明的编码器和译码器中。模块30传送定量参数LSPQ的集合和可用定量表中的索引Q。
语音编码器16还包括一个模块42,它用计算短期综合滤波器和感知加权滤波器的合成滤波器的脉冲响应。这个合成滤波器具有一个传递函数W(z)/A(z)。在一个子帧期间,计算它的脉冲响应h=(h(0),h(1),…,H(1st-1)),模块42为感知加权滤波器W(z)插入相应的取值,但非定量的LSP参数,也就是说,取值系数是已由模块32计算出来的参数;为综合滤波器1/A(z)取值相应的定量和插入的LSP参数,也就是说,实际上由译码器重新构成的一个参数。
在长期预测延迟TP确定的第二阶段中,闭环回路LTP分析模块38为语音帧(MV=1,2,或3)的每个子帧确定延迟TP。在定量索引域中,由差分值DP表示这个延迟TP的特性,若MV=1或2(N1=32),则定量索引以5位编码,若MV=3(N3=16),则以4位编码。这个延迟TP的索引等于ZP+DP。用一种已知的方法,闭环回路LTP分析在于:在对长期预测延迟T的查寻间隔内,确定延迟TP,这个延迟TP为一个话音帧的每个子帧,最大归-化相关数: 其中X(i)表示已从加权综合滤波的存储器中减去子帧的加权语音信号SW(也就是说:由于它的初始状态,对脉冲响应h已由模块42计算的滤波器的零信号响应),YT(i)表示卷积结果: U(j-1)表示通过T取样延迟,由一个自适应码本的众所周知的技术估计的激发序列的可预测成份。对于比一个子帧长度短的延迟T,U(j-T)的丢失值可以从前面值中推出来。通过外加取样在自适应码本中的信号U(j-1),考虑这个分数延迟。用插入多脉冲滤波器的方法,通过一个系数m获取外加采样。
由模块38对每个子帧可以确定这个长期预测增益gp,通过使用已知的公式: 但是,在本发明的一个优选版本中,增益gP由随机分析模块40计算。
由模块40为每个子帧确定的随机激发是多脉冲类型的。一个lst取样的更新序列包括具有位置P(n)和振幅g(n)的np脉冲。换句话说,脉冲具有一个为1的振幅以及分配有各自独立的增益g(n)。在对非话音帧的子帧不确定LTP延迟的条件下,可以对与这些子帧相关的随机激发取一个更高的脉冲数,例如,若MV=1,2或3,则np=5,若MV=0,则np=6。由模块44确定通过随机分析模块40计算的位置和增益数量。
一个位排序模块46接收对译码器很有用的不同的参数,并且编译指向信道编码器22的二进制序列。这些参数是:
-为每个帧定量的LSP参数的索引Q;
-每个帧的话音MV的等级;
-对每个话音帧的LTP延迟查寻间隔中央的索引ZP;
-一对话音帧的每个子帧的LTP延迟和分配的增益gP的差分索引DP;
-对每个子帧的随机激发的脉冲的位置p(n)和增益g(n)。
这些参数中的一部分在语音再生质量上是特别重要的,或对传输误差是特别敏感的。因此,在编码器中,提供了模块48,此模块接收不同的参数并且把冗余位添加到它们中的一部分中,使检验和/或校正任何传输误差成为可能。例如,当以2位编码的话音等级MV是一个要求高的参数时,它要求对它们尽可能少的误差到达译码器。由于这个原因,冗余位由模块48增加到这个参数中。例如,它可以把一个奇偶位添加到两个MV编码位,并重复出现一次这样获得的三个位。这个冗余的例子可以检测所有单个或成对的误差,并纠正所有单个误差和75%的成对误差。
例如,每20ms帧的二进制数据速率的分配如表I所示。
表I
定数参数 | MV=0 | MV=1或2 | MV=3 |
LSP | 34 | 34 | 34 |
MV+冗余位 | 6 | 6 | 6 |
zp | - | 8 | 8 |
Dp | - | 20 | 16 |
gTP | - | 20 | 24 |
脉冲位置 | 80 | 72 | 72 |
脉冲增益 | 140 | 100 | 100 |
总计 | 260 | 260 | 260 |
在这里考虑的例子中。信道编码器22是用于与移动站无线通信的泛欧系统(GSM)中的编码器。在GSM建议05.03中详细描述的这个信道编码器,它也是为每ms帧产生260位的RPE-LTP类型的13kbit/s语音编码器开发的信道编码器。在监听测试的基础上已确定了每个260位的灵敏度。由源编码器输出的位已被一起分为三个类。在一半给冗余的一个强制长度等于5的生成多项式的基础上,这些类型的第一种IA由卷积编码的50位一起分为一组。在卷积编码之前计算三个奇偶位并添加到类型IA的50位中。第二分类(IB)数目用与前面分类相同的多项式保护到一半水平的132位。第三类(II)包括78个非保护位。在卷积编码应用之后,这些位(每帧456)被隔行扫描。在这些位的主观重要性的基础上实施本发明的新信源编码器的排序模块46,把这些位分配成三类。
能够接收由信源编码器16处理的语音信号的移动无线通信站在图2中图解表示这个移动无线通信站。接收的无线信号是由解调器50处理的所有信号的第一个,然后,由执行调制器24和信道编码器22的双工操作的信道译码器52处理。信道译码器52为语音译码器54提供一个二进制序列,这个二进制序列在无传输误差或所有误差已由信道译码器52纠正时,对应的二进制序列传送给在编码器16上的排序模块46。译码器54包括一个接收这个二进制序列并标识与不同帧和子帧有关的参数的模块56。模块56还执行一些接收参数的检验。特别是,为了检测和/或纠正与这些冗余位有关的参数的误差影响,模块56检查由编码器的模块48插入的冗余位。
对每个被综合的语音帧,译码器的模块58接收话音MV的等级和LSP参数的定量的Q索引。模块38从对应MV值的表中重新获得定量LSP参数,并且,在插入后,把它们转换成用于短期综合滤波器60的系数ai。对每个被综合的语音子帧,脉冲生成器62接收随机激发的np脉冲的位置p(n)。生成器62传送由有关的增益g(n)每个乘以64的单元振幅的脉冲。放大器64的输出用于长期综合滤波器66。这个滤波器66具有一个自适应码本结构。滤波器66的输出取样n存储在自适应码本68的存储器中,以便用于后续子帧。由定量索引ZP和DP计算的与一个子帧有关的延迟TP提供给了自适应码本68,以产生适当的延迟信号U。放大器70放大由长期预测增益延迟的信号。这个长期滤波器66最终包括一个把放大器64和70相加来供给激发序列U的一个加法器72。例如,当已不在编码器上执行LTP分析时,如果MV=0,那么对相应的子帧把一个零预测增益gp加到放大器70上。为形成综合语音信号S′,激发序列用于短期综合滤波器60,并用一种已知的方法,产生的信号还可以提交给一个位置滤波器74,这个滤波器的系数依赖接收的综合参数。为了驱动一个大音量振声器78,在放大之前,译码器54的输出信号S′由转换器76转换为模拟量。
根据本发明的第一个观点,由编码器的模块36实施的开环LTP分析过程将参照3至6加以描述。
在第一阶段90,模块36当前帧的每个子帧st=o,1,…,ns-1,计算并存储位于rmin和rmax之间的整数延迟K的加权语音信号SW的自相关数Cst(k)和延迟能量Gst(k):
每个子帧R0st的能量也可以算为:
在阶段90中,模块36另外还为每个子帧st确定整数延迟Kst,这个整数延迟Kst是通过接纳这些自相关数Cst(k)为负或比一个子帧的能量R0st的一个小分数ε小的延迟K,取子帧st上的长期预测增益的开环估计算Pst(k)的最大值。估计值Pst(k)分贝为单位,表达如下:
Pst(k)=20.log10[ROst/(ROst-Cst 2(k)/Gst(k))]
因此取Rst(k)的最大值相当于取图6所描述的表达式Xst(k)=Cst 2(k)/Gst(k)的最大值。整数延迟Kst是子帧st的整数分解率的基本延迟。阶段90之后是当前帧的全局预测增益的第一开环估计值与典型地位于1和2分贝之间的一个预定门限S0(例如,S0=1.5dB)的比较92。全局预测增益的第一个估计值等于:
其中,R0是帧的总能量(R0=R00+R01+…+R0nst-1),并且,Xst(kst)=Cst 2(kst)/Gs(kst)表示在阶段90确定与子帧st有关的最大值。如图6所示,不需计算这个对数,就能执行比较92。
如果比较92显示预测增益的第一估计值低于门限值S0,那么认为语音信号包含了太少的长期相关数以至于不能被话音化,且当前帧的话音MV等级在阶段94置为0,阶段94在这种情况下,终止由模块36执行的在此帧上的操作。与此对照,如果在阶段92超过了门限S0,当前帧作为话音检测并话音MV等级将可能等于1,2,或3。然后,模块32为每个子帧st计算包含候选延迟的表Ist,以为长期预测延迟构造查寻间隔的中心ZP。
由模块36对一个话音帧的每个子帧st(st在阶段96初始化为0)执行的操作,从等于子帧上以分贝为单位的预测增益的估计值Pst(Kst),开始在阶段90最大化的(典型的β=0.75)一个定义的分数β的以分贝为单位的一个选择门限SEst的判定98。对于话音帧的每个子帧st,模块36为其余的处理过程是在整数分解率中判定基本延迟rbf。这个基本延迟可以置为在阶段90获得的整数Kst。然而它可以依据精确增益,围绕着Kst的分数分解率查寻基本延迟的事实,这样,阶段100在于围绕着在阶段90获得的整数延迟Kst,查寻表达式Cst 2/Gst的最大值的分数延迟。即使整数延迟Kst不在最大分解率使用的域中,也可以用分数延迟的最大分解率(在这里描述的例子中为1/6)执行这个查寻。例如,对-6<δ<6,确定取Cst 2(Kst+δ/6)/Gst(Kst+δ/6)最大值的数Δst,然后,具有最大分解率的基本延迟rbf被置为Kst+Δst/6。对于这个延迟的分数值T,通过从在阶段90为整数延迟存储在存储器的值插入获得的自相关数Cst(T)和延迟能量Gst(T)。显然,与一个子帧相关的基本延迟也可以用从阶段90的分数分解率来确定,并在这帧上的全局预测增益的第一估计值中来考虑。
一旦基本延迟rbf已经为子帧确定了,就执行检验101,检验这个延迟的子多路复用,以便采用预测增益相对高的那些子多路复用(图4),然后,采用的最小子多路复用的多路复用。在阶段102,在表Ist中的地址j和子多路复用的索引m被分别初始化为0和1。在子多路复用rbf/m和最小延迟rmin之间执行比较104。必须要检验子帧rbf/m,看它是否比rmin高。然后,与rbf/m最接近的定量延迟ri的索引值置为整数i(阶段106),然后,在108对正在讨论的子帧与量化延迟ri相应的预测增益Pst(ri)的估计值与在阶段98计算的选择门限SEst作比较
Pst(ri)=20.log10[ROst/[ROst-Cst 2(ri)/Gst(ri)]]其中,在分数延迟的情况下,值Cst和Gst的插入在阶段90为整数延迟计算。若Pst(ri)<SEst,则不考虑延迟ri,在再次为下一个子多路复用执行比较104之前,直接进入增大索引m的阶段110。若测试108显示Pst(ri)≥SEst,则在阶段110增大索引m之前,采用延迟ri并执行阶段112。在阶段112中,在表Ist的地址j的位置上,把索引i存贮在存储器中,值m置为等于采纳的最小子多路复用的索引的整数mo,然后地址j增大一个单元。
当比较104显示rbf/m<rmin时,终止基本延迟的子多路复用的检验。然后,查验那些延迟,它们是跟随在图5中说明的过程之后,前面采用的子多路复用的最小rbf/mo的多路复用。这个检验以多路复用的索引n的初始化开始:n=2。在多路复用n·rbf/mo和最大延迟rmax之间执行一比较116。如果n·rbf/mo>rmax,为确定最小子多路复用的索引mo是否是一个n的整数复用,执行测试118。如果是在rbf子多路复用的检验期间已经查验了延迟n·rbf/mo,并且在再次执行用于下列多路复用的比较116之前,直接进入用于增大索引n的阶段120。若测试118显示mo不是一个n的整数多路复用,则需要检验多路复用n·rbf/mo。与n·rbf/mo接近的定量延迟ri的索引值(阶段122)被置为整数i,然后,在124,预测增益Pst(ri)的估计值与选择门限值CEst相比较。若Pst(ri)<SEst,则不考虑延迟ri,并且直接进入增大索引n的阶段120。若测试124显示Pst(ri)≥SEst,则采用延迟ri,并且在阶段120增大索引n之前,执行阶段126。在阶段126中,在列表Ist中的地址j,上把索引i存贮在存储器中,然后,地址j被增大一个单元。
当比较116显示n·rbf/mo>rmax时,终止最小子多路复用的多路复用的检验。在这一点上,表Ist包含候选延迟的j索引。如果对于下列阶段,需要把表Ist的最大长度限制为jmax,那么这个表Ist的长度jst可以置为min(j·jmax)(阶段128),然后,在阶段130,表Ist可以用增益Cst 2(rIst(j)/Gst 2(rIst(j)),对0≤j<jst的降序排列,以便仅保留产生增益最高值的jst延迟。在查寻LTP延迟的有效性和这个查寻的复杂性之间的拆衷方案的基础上,选择jmax值。典型的jmax值范围是3到5。
一旦已经检验了子多路复用和多路复用,并且已经获取了表Isr(图3),分析模块36就计算确定整个帧上的长期预测增益的一个第二开环估计值的定量rmax,和在阶段132中的索引ZP、ZP0和ZP1一起,详见图6中的步骤。阶段132在于测试长度N1的查寻间隔,以便确定这个帧上的全局预测增益的第二估计值的最大值。测试的间隔是集中在阶段101期间计算的表Ist中包含的候选延迟的那些间隔。阶段132以表Ist中的地址,被初始化为0的阶段136开始。在阶段138,检验索引Ist(j),看它是否已通过测试中心在Ist′(j′)的前面的间隔遇到了这种情况,st′<st且0≤j′<jst,以避免两次测试同一个间隔。若测试138揭示Ist(j)已经在表Ist的st′<st中具有了特性,则在阶段140直接增大地址j,然后,再将它与表Ist的长度jst相比较。如果比较142显示j<jst,用于地址j的新值重新进入阶段138。当比较142显示j=jst时,已经测试了所有与表Ist相关的所有间隔,并且终止阶段132。当测试138为负时,对每个子帧st′,确定最佳延迟的索引I′st的阶段148开始,在Ist(j)的中心间隔上测试,上述最佳延迟是在这个间隔上取长期预测增益的开环估计值Pst(ri)的最大值,也就是说,它把定量增加到Yst′(i)=Cst′2(ri)/Gst′(Ri)的最大值,其中,ri表示对于Ist(j)-N1/2≤i<Ist(j)+N1/2和0≤i<N的索引i的定量延迟。在与一个子帧st′相关的最大化148期间,自相关数Cst′(ri)为负的索引i被置为另一侧,这样是为避免退化这个编码。如果发现位于测试间隔[I(j)-N1/2,i(j)+N1/2]之间i的所有值都变为负的自相关数Cst(Yi),那么选择这个自相关数在绝对值上最小的索引ist′,接着,在150中,确定用于在Ist(j)中心的间隔的全局预测增益的第二估计量的定量Y是根据下列式子计算的: 然后,再与Ymax比较,其中Ymax表示被最大化的值。例如,值Ymax在阶段96中索引st相同的时间被初始化为0。若Y≤Ymax,则直接进入增大索引j的阶段140。如果比较150显示Y>Ymax,那么在阶段140增大地址j之前,执行阶段152。在这个阶段152,索引ZP置为Ist(j),并且索引ZP0和ZP1分别置为在阶段148确定的索引i′st的最小值和最大值。
在与子帧st相关的阶段132的末端,索引st被增大一个单元(阶段154),然后,在阶段156中,与每帧的子帧的数目nst相比较。若st<nst,则重新进入阶段98,以执行与下面子帧相关的操作。当比较156表示st=nst时,索引ZP表示将提供给闭环LTP分析模块28的查寻间隔的中心,ZP0和ZP1是索引,它们之间的不同在于中心在ZP的间隔中的每子帧的最佳延迟上的散布的表征。
在阶段158中,模块36在以分贝为单位表示的:GP=20·log10(R0/R0-Ymax)的这个增益的第二开环估计值的基础上,确定话音MV等级。使用两个其它的门限S1和S2。若GP≤S1,则话音MV等级对当前帧置为1。门限值S1典型地位于3和5dB之间,例如,S1=4dB。若S1<GP<S2,则话音MV等级对当前帧置为2。门限值S2典型地位于5和6dB之间,例如,S2=7dB。若GP>S2,则检验用于当前帧的不同子帧的最佳延迟中的散布。若ZP1-ZP<N3/2且ZP-ZP0≤N3/2,则在ZP中心的长度小的一个间隔足够考虑所有的最佳延迟并且话音等级被置为了(若GP>S2)。否则,若ZP1-ZP≥N3/2或ZP-ZP0>N3/2,话音等级被置为2(若GP>S2)。
用于话音帧的预测延迟查寻间隔中心的索引ZP可以位于0和N-1=255之间,为模块38确定的差分索引DP,若MV=1或2,则范围是从-16到+15,若MV=3(N1=32,N3=16的情况),则范围是从-8+7。因此,在某种情况下,最终确定的延迟TP的索引ZP+DP可能比0小或比255大。这时允许闭环LPT分析等效范围在几个TP延迟上比rmin小或比rmax大。这样,增强了称为病态话音和非话音信号的再生的客观质量(由交换电话网使用的DTMF话音频率或信号频率)。另一种可能性是对查寻间隔,若ZP<16或ZP>240,且MV=1或2,则取延迟的第一个或最后32个定量索引,若ZP<8或ZP>248,且MV=3,则取第一个或最后16个索引。
对于特殊地话音帧减少延迟查寻间隔(典型地对MV=3的16个值,代替对MV=1或2的32个值)的事实,它可能减少根据公式(1)计算的卷积YT(i)的数量,减少由模块38执行的闭环LTP分析的复杂性。另外一个优点是保存差分索引DP的一个编码位。当输出数据速率是恒定的时,这个位可以重新分配给其他参数的编码。特别是,这个补充位可以分配给通过模块40计算的长期预测增益gp。事实上,由于这个参数对于特殊地话音子帧(MV=3)来说是感知的重要,所以依赖一个附加定量位的增益gp上的一个更高精度是可以估计到的。另一种可能性是为延迟TP和/或增益gp提供一个奇偶检验位,使得检测任何影响这些参数的误差成为可能。
参考图3到6,可以对上面描述的开环LTP分析过程的一些修改。
根据这个过程的第一个变化,在与不同的子帧有关的阶段90中执行的第一个最优化由一个覆盖全帧的一个单独的最优化代替。除了在为每个子帧st计算的参数Cst(K)和Gst(K)之外,也为整个帧计算自相关数C(K)和延迟能量G(K):
以取X(K)=C2(K)/G(K)的最大值,rmin≤K≤rmax的整数分解率K确定基本延迟。然后,在阶段92中与S0比较的增益的第一估计值是P(K)=20·log10[R0/[R0-X(K)]]。下一个单个基本延迟以分数分解率rbf在K的左右确定,子多路复用和多路复用的检验101被再次执行,并产生代替nst表Ist的一个单独表I。通过仅在阶段148、150、和152识别子帧,然后,阶段132为这个表I执行一个单独时间。这个变化的实施例具有减少开环分析复杂性的优点。
根据开环LTP分析过程的第二个变化,可能的延迟域[rmin·rmax]被再分为具有如同一长度的nz子间隔(典型地nz=3),并且与不同子帧有关的阶段90中执行的第一最佳值,在每个覆盖全帧的不同子间隔中由nz最佳值替换。这样,以整数分辨率获得nz基本延迟K1′,…, K′nz。在为长期预测增益的第一开环估计值产生最大值的基本延迟K′i之一的基础上,进行话音/非话音的判定(阶段92)。下一步,若此帧是话音,则用与阶段100相同的过程,以分数分解率确定基延迟,但是仅允许延迟的定量值。不执行子多路复用和多路复用的检验101。对于预测增益的第二估计值计算的阶段132,前面确定的nz基本延迟被置为侯选延迟。这个第二变化可能节省了通常根据可能延迟域的再分割考虑的子多路复用和多路复用分类上的检验。
根据开环LTP分析过程的第三个变化,修改阶段132,这是因为在最优化阶段148中,一方面是索引ist被确定为Cst′2(ri)/Gst′(ri),Ist(j)-N1/2≤i<Ist(j)+N1/2,且0≤i<N;另一方面,在同一检验循环的过程中,索引Kst′是在一个减小的间隔Ist(j)-N3/2≤i<Ist(j)+N3/2,且0≤i<N上的这个同一数量的最大值。阶段152也被修改为:索引ZP0和ZP1不再存贮在存储器中,而数量Ymax被定义成与Ymax相同的方式,但参考了减小的长度间隔:
在这个第三变化中,话音模式的判定158常会导致被选择的话音等级MV=3。除了在前面描述的增益GP之外,也考虑相应的Ymax′的LTP增益的一个第三开环估计值Gp′=20log[R0/(R0-Ymax′)]。若Gp≤S,语音等级为MV=1,若Gp′>S2则MV=3,并且若这两个条件都满足,则MV=2。这样通过增大话音等级MV=3的帧的比例,减小了闭环分析的平均复杂性,并且增强了传输误差的健状性。
开环LTP分析过程的第四个变化特别与轻微话音帧(MV=1)有关。这些帧经常对应话音区的一个起始或一个结尾。这些帧常常可以包括从一到三的长期综合过滤器的增益系数为零或者甚至为负的子帧。建议不要在这里讨论的子帧执行闭环LTP分析,以便减小编码的平均复杂性。这可以通过在图6的阶段152中把nst指针存贮在存储器中来执行,nst指针为每个子帧st′指示对应索引ist′的延迟的自相关数Cst′是为负还是很小。一旦表Ist′中已经涉及到了所有间隔,对预测增益为负或者可忽略的子帧可以通过查找nst指针来标识。如果适合,则模块38对相应的子帧不可用。因为对应这些子帧的预测增益在任何情况下,实际为零,这并不影响LTP分析的质量。
本发明的另一个观点是关于用于计算加权综合滤波器的脉冲响应的模块42。为计算对应公式(1)的卷积YT(i),闭环LTP分析模块38在一个子帧期间,需要这个脉冲响应h。为计算后面将见到的卷积,随机分析模块40也需要它。需要计算在一个子帧期间扩展的响应h(典型的1st=40)的事实意味着编码的相对复杂性,特别为了增强移动站的寿命,需要减少这个复杂性。在某种情况下,已经建议了把脉冲响应缩短到比一个子帧长度短的一个长期(例如,缩小为20个取样),但是,这可能降低了编码质量。根据本发明,一方面考虑这个响应的能量分布,而另一方面,考虑正在讨论的由开环LTP分析模块36确定的此帧的话音等级MV,建议缩短脉冲响应h。
例如,由模块42执行的操作是根据图7的流图。脉冲响应是在阶段160中的一个长度Pst比一个子帧长度大并且长得足以确定考虑所有脉冲响应的能量上计算的所有脉冲响应中的第一个(例如,若短期线性预测是基数q=10,对nst=4和1st=40,则pst=60)。脉冲响应的缩短能量也在阶段160中计算:
脉冲响应的成份h(i)和缩短能量Eh(i)可以通过以0初始状态的转换函数W(z)/A(z)的一个滤波器装置滤波一个单元脉冲来获得,以至于通过递归,
Eh(i)=Eh(i-1)+[h(i)]2对于0<i<pst,其中对i<0,用f(i)=h(i)=0;对于i≠0,δ(o)=f(o)=h(o)=Eh(o)=1且δ(i)=0。在表达式(2)中,系数ak是那些包含在感知加权滤波器中的系数,也就是说,插入非定量的线性预测系数,而在表达式(3)中,系数ak是用于综合滤波器的那些系数,也就是说,定量且插入的线性预测系数。
下一步,模块42确定最小长度Lα,以便缩小到Lα取样的脉冲响应的能量Eh(Lα-1)至少等于在Pst取样上估计的它的总能量的一个比例α。α的一个典型值是98%。在阶段162,数Lα被初始化为Pst,并只要Eh(Lα-2)>α·Eh(pst-1)(测试164),在166就减小一个单元。当测试164显示Eh(Lα-2)≤α·Eh(pst-1)时获取查寻的长度Lα。
为了考虑话音等级MV,把一个校正项Δ(MV)加到已经获得的Lα值(阶段(168)中。这个校正项最佳的话音等级的一个递增函数。例如,已获如Δ(o)=-5,Δ(l)=0,Δ(2)=+5和Δ(3)=+7。用这种方法脉冲响应h将采用一种全部为更精确更大的语音的话音等级的方式来确定。若Lα≤nst,则脉冲响的编短长度Lh被置为Lα,否则被置为nst。可以删除掉脉冲响应的剩余取样(h(i)=0,j≥Lh)。
随着脉冲响应的缩短,由闭环LTP分析模块38进行的卷积YT(i)的计算(1)式用下列方式修改:
当脉冲响应被缩短时,获取这些卷积并在自适应码本中缩址,这些卷积表示执行计算的一个重要部分,因此,实际上要求更少的多路复用和加法运算。在不影响编码质量的情况下,产生话音等级MV的脉冲响应的动态缩短,可能减小复杂性。同样的考虑用于由随机分析模块40执行的卷积的计算。当感知加权滤波器具有产生通常比更常用在综合分析编码器中的公式W(z)=A(z)/A(z/r)的脉冲响应大的响应的一个公式W(z)=A(z/r1)/A(z/r2)传送函数,0<r2<r1<1。
本发明的第三个观点是关于用于模型化激发的非预测部分的随机分析模块40。
这里考虑的随机激发是多脉冲类型的。与子帧有关的随机激发由具有位置p(n)和振幅,或增益g(n)(1≤n≤np)的np脉冲来表示。长期预测增益gp也可以在同样处理过程中计算。通常,可以认为与一个子帧有关的激发序列包括分别对应nc增益的nc影响。这些影响是由相关的和总计的增益加权对应短期综合滤波器的激发序列的lst取样矢量。影响之一是可预测的,或者在一个长期综合滤波器具有几个分支(“多分支者调综合滤波器”)情况下的几个影响是可预测的。在此情况下,其余的影响仅包括除振幅为1的一个脉冲之外的D′S的ns矢量。也就是说,若MV=0,则nc=np,并且若MV=1,2,或3,则nc=np+1。
包含增益gp=g(o)计算的多脉冲分析在于:用一种已知的方法,为每个子帧查找位置p(n)(1≤n≤np)和在语音信号和综合信号之间的感知加权平方误差E的最小值的增益g(n)(0≤n≤np),平方误差E如下式给出:
增益是线性系统g·B=b的解。
在上面的符号中:
-X表示由包含不在存储器内的加权语音信号SW的1st取样组成的最初的目标矢量:X=(x(o),x(1),…,x(1st-1)),X(i)′S已在闭环LTP分析期间,如上面指出的计算:
-g表示np+1增益的组合行矢量:g=(g(0)=g,g(1),g(np));
-行矢量Fp(n)(0≤n≤nc)是加权卷积,此加权卷积如成份i(0≤i≤1st),它具有在激发序列的影响n和加权综合滤波器的脉冲响应h之间的卷积结果;
-b表示由在矢量X和行矢量FP(n)之间的nc标量结果组合的行矢量;
-B表示具有nc行和nc列的一个对称矩阵,其中,项Bi,j=FP(i)·FP(j)T(0≤i,j≤nc)等于在前面定义的矢量FP(i)和FP(j)之间的标量结果;
-(·)T表示矩阵变换。
对于随机激发(1≤n≤np=nc-1)的脉冲,矢量矢量FP(n)简单地包括由p(n)取样移位的脉冲响应的矢量。这样,如上面描述的缩短脉冲响应的事实,实际上可能减少用于计算包含这些矢量FP(n)的标量结果的操作量。对于激发的预测影响,矢量FP(o)=YTP具有如成份FP(o)(i)(0≤i≤1st),模块38根据公式(1)或(1′)为选择的长期预测延迟TP计算卷积YTP(i)。若MV=0,影响n=0也是脉冲类型的,并且也需要计算位置P(o)。
取前面定义的最小平方误差E相当于查找取归一相关数b·B-1bT的最大值的位置P(n)的集合,然后,根据g=b·B-1计算增益。
但是,对脉冲位置的彻底查寻要求了太多的计算量。为了减少这个计算量,多脉冲方法通常用于为每个影响连续计算增益和/或脉冲位置的一个辅助最优过程。对于每个影响n(0≤n<nc)根据gn=bn·Bn -1,重新计算所有位置被确定为归一相关数(FP·en-1 T)2/FP·FP T的最大值的所有值的第一个增益gn(o)至gn(n),其中g(n)=(gn(o),…,gn(n),bn=(b(o),…b(n)),并且Bn={Bi,j}0≤Ij≤n,然后,对于下次的迭代计算目标矢量en,使其等于减去由它们各自的多路复用的加权综合信号的影响0到n的初始目标矢量X。上述目标矢量为:
在完成上次迭代nc-1时,增益gnc-1(i)是选择的增益,并且最小平方误差E等于目标矢量enc-1的能量。
上面的方法给出了一个满意的结果,但是要求在每次迭代都要反转的一个矩阵Bn。在他们的文章“多脉冲编码器中的振幅优化和音调预测”,(IEEE Trans在声学、语音和信号处理,37卷,3号,1989年3月,317-327页)中,S.Singhal和B.S Atal建议通过使用科莱斯基(Cholesky)分解:Bn=Mn·Mn t简化Bn矩阵转换的问题,在分解式中,Mn是一个较低级的三角矩阵。因为Bn是具有正数特征值的一个对称矩阵,所以它是可以分解的。这种方法的优点是一个三角矩阵的转换是相对直接的,Bn-1可以通过Bn -1=(Mn -1)T·Mn -1·来获取。
但是,科莱斯基(Cholesky)分解和矩阵Mn的转换要求执行除法和平方根计算,它们是根据计算复杂性要求的操作。本发明建议通过用下列方法:
Bn=Ln·Rn T=Ln·(Ln·Kn -1)T修改矩阵Bn的分解来简化优化的实施。其中,Kn是一个对角矩阵,并且Ln是一个仅在它的主对角线上具有1′s的一个较低级的三角矩阵,(如用上面符号的如Ln=Mn·Kn1/2)。和矩阵Bn的结构有关系的这个矩阵Ln=Rn·Kn,Rn,Kn和Ln-1的每个都是由一行到前面迭代的相应矩阵的简单加法构成矩阵:
在这些情况下,Bn的分解、Ln的反转、获取Bn-1=Kn·(Ln-1)T·L-1和增益的重新计算仅要求每次迭代的一个单一除法和非平方根计算。
与话音帧(MV=1,2或3)的一个子帧有关随机分析现在可以通过如图8到11所示那样地处理。为计算长期预测增益,影响索引n在阶段180被初始化为0,并且矢量FP(o)置为由模块38提供的长期影响YTP。若n>0,则迭代n从最大数量的脉冲n的位置p(n)的判定182开始,上述数量为: 其中,e=(e(o),…,e(1st-1)是在前面迭代期间计算的目标矢量。不同的约束条件可以用于包含在间隔[0,1st]的上述量的最大化域。本发明优选地使用激发子帧被再分为同一长度的ns段(如,对1st=40,ns=10)的一个分解查寻。对于每一脉冲(n=1),在所有子帧中可能的位置P上执行(FP·eT)2/(FP·FP T)的最大化。在迭代n>1时,在所有排除某些段的可能位置上,在阶段182中执行最大化,上述段中的脉冲位置p(1),…,p(n-1)在前面的迭代期间被分别发现。
在当前帧已被检测为非话音的情况下,影响n=0也包括具有位置p(o)的一个脉冲。然后,阶段180仅包括初始化n=0,其后是与阶段182相同的一个最大化阶段,它用于查找具有的目标矢量的初始值的e=e-1=x的p(o)。
需要注意,当影响n=0是可预测的(MV=1,1或3)时,因为闭环LTP分析模块38已经确定由延迟TP特性化的长期影响,通过最大化延迟T查寻间隔内的量(Yt·eT)2/(YT·YT T),它已经执行一个与最大化182相同的类型的操作。当影响LTP的能量很低时,也可能忽略在重新计算增益过程中的这个影响。
在阶段180或182之后,模块40执行包括在矩阵B的分解中的矩阵L、R和K的行n的计算184,这样它可能完成上面定义的矩阵Ln、Rn和Kn。为位于行n和列j的成份矩阵B的分解产生: 然后,可以说对从0到n-1增大的j:
L(n,j)=R(n,j)·K(j)并且,对j=n:
L(n,n) =1
这些关系用于在图9中详述的计算184中。列索引,在阶段186首先被初始化为0。对于列索引j,变量tmp首先被初始化为成份B(n,j)的值,例如:
在阶段188中,整数k另外被初始化为0。然后,在整数k和j之间执行一个比较190。若k<j,项L(n,k)·R(j,k)被加到变量tmp,在再次执行比较190之,整数k被增大一个单元(阶段192)。当比较190显示k=j时,在整数j和n之间执行一个比较194。若j<n,在阶段196中,成份R(n,j)被置为tmp且成份L(n,j)被置为tmp·k(j),然后,为计算下列成份,在返回阶段188之前列索引;增大一个单元。当比较194显示j=n时,计算矩阵k的行n的成份k(n),成份k(n)终止与行n有关的计算184,若tmp≠0(阶段198),则k(n)被置为1/tmp,否则,被置为0。需要注意:为获得k(n)计算184至多仅要求一个除法198。另外,由于避免了被0除,任何的单个的矩阵Bn不会有不稳定性。
参照图8,L,R和K的行n的计算184之后是包含矩阵L的行和列0到n的矩阵Ln的转置200。L是在其主对角线上有1′s的三角矩阵的事实,大大地简化了图10所示的转置。确实,它可以表示为: 对满足0≤j′<n且L-1(n,n)=1,也就是说不必执行除法就可以做转置。另外,作为足以重新计算增益的L-1的行n的成份,关系式(5)的使用可能不需存储全部矩阵L-1,但仅需一个矢量Linv=(Linvlo),…Linv(n-1)),Linv(j′)=L-1(n,j′)的情况下,执行这个转置。在阶段204中,项Linv(j′)被初始化为-L(n,j),并且整数k1被初始化为j′+1。下一个比较206在整数k′和n之间执行。如果k′<n,项L(k′,j′)是从Linv(j′)减去Linv(k′),然后,整数k′在再次执行比较206之前增大一个单元。当比较206显示k′=n时,j与o相比较(测试210)。若j′>0,则整数j减少一个单元(阶段212)并且为计算下面的成份重新进入阶段204。当测试210显示j′=0时,终止转置200。
参照图8,转置200之后是用于下次迭代的再次最优化增益和目标矢量E的计算214。再次最优化的增益的计算也通过对矩阵B采用的分解而大大减化了。这是因为根据: 且g(i)=gn-1(i′)+L-1(n,i′)·gn(n),0≤i′<n,它可能计算出矢量gn=(gn(0),…,gn(n)),和gn Bn=bn的解。计算214详见图11。首先,计算矢量b的成份b(n)为:
bn用于变量tmq的初始值。在阶段216中,索引i也被初始化为0。接着在整数i和n之间执行下一个比较218。若i<n,则把项b(n)·Linv(i)加到变量tmq上并且在返回比较118之前i增大一个单元(阶段220)。当比较218显示i=n时,与影响n相关的增益根据g(n)=tmq·k(n)计算。并且初始化用于计算其它增益和目标矢量的环路(阶段222),取值e=X-g(n)·FP(n)和i’=0。这个环路包括在整数i′和n之间的比较224。若i′<n,则在阶段226,通过把Linv(i′)·g(n)加到在上述的迭代(n-1)中计算的its值上,重新计算增益g(i′),然后从目标矢量e减去矢量g(i′)·FP(i′)。阶段226在返回比较224之前,也包括索引i′的增大。当比较224表示i′=n时,终止增益和目标矢量的计算214。可以看出仅在反转矩阵Ln-1的行n上调用时可能更新增益。
计算214之后是影响的索引n的增加228,然后是在索引n和影响nc的量之间的一个比较230。若n<nc,则重新进入用于下列的迭代阶段182。当在测试230中n=nc时,终止位置和增益的最优化。
对于脉冲的段查寻实质上减少了在随机激发查寻阶段182的过程中估算脉冲位置的量。另外,它允许查找位置的有效定量。在1st=40取样的子帧被分为1s=4取样的ns=10段的典型情况下,若np=5(MV=1,2或3),可能的脉冲位置的集合,取值ns1·1snp/[np!(ns-np)!]=258.048值,或者若np=6(MV=0),则取值为860.160,仅在特定的两个脉冲不能具有相同位置的情况下,若np=5,则以1st!/[np!(1st-np)!]=658.008值替代了,或者若np=6则取值3838.380替代。换句话说,若np=5,则位置可以在18位上而不是20位上被置化,并且若np=6,则它在20位而不是22位上被量化。
每子帧段的数量等于每个随机激发的脉冲量(ns=np),导致对随机激发查寻中的最大简化,和最低的二进制数据速率一样(若1st=40且np=5,则有85=32768个可能位置的集合,若ns=10,则它们在15位而不是18位上可定量)。但是,通过把可能的革新序列的量减小到这一点,编码质量可能会变复非常遭。对一个给定量的脉冲,可以根据编码质量和实施它的简单性之间的一个折衷(和要求的数据速率一样),可以优化段的数量。
依靠在每个占用段中的占用段和脉冲相对位置的次序号的一个分离量化,可以获得ns>np另外展示对传输误差好的健状性的优点,就有关的脉冲位置来说,对于一个脉冲n,段和相对位置prn的次序号Sn分别为由一个段的长度Ls的Pn的欧几里德的除法的商数和余数:p(n)=Snls+prn(0≤Sn<ns,0≤prn<ls)。若ls=2,则每个相对位置都分别以2位量化。在影响这些位中的一位的传输误差事件中,相应的脉冲将仅被稍作移置,并且此误差的感知影响将会得以限制。占用段的次序号由ns=10位的二进制字来标识,每个二进制字对这个占用段置为1,并且对随机激发无脉冲的段置为0。这个可能的二进制字是那些具有一个np的海明权,它们在np=5时的编号为:ns!/[np!(ns-np)!]=252或者当np=6时,编号为210。这个字可以由具有2nb-1<ns!/[np!(ns-np)!]≤2nb,的nb位的一个索引来定量,例如,在计论的例子中,nb=8。例如,如果随机分析已经提供给np=5的脉冲位置4,12,21,34,38,定量为标量的相对位置为0,0,1,2,2,并且表示占用段的二进制字是0101010011,或者当翻译成十进制时为339。
就译码器而论,可能的二进制字被存贮在可读地址是接收的量化索引的定量表中。在这个表中一劳永逸地确定的次序可以被优化,以便影响索引的一位的传输误差(特别是当隔行扫描用于信道编码器22时,更多的频率误差情况),根据一个近似的判别式,平均具有最小的结果。例如,近似判别式是一个ns位的字可以仅由“邻近”位来替换,由一个至多等于门限np=2δ的一个海明距离分离,以便在影响一个单个位索引的传输中的误差的情况下,在有效位置上保护它们的δ之外的所有的脉冲。其它的判别式可以用于替换或补充,例如,若一个由另一个替换并不更改与这些脉冲相应的增益分配的次序,则认为两个字是邻近的。
顺便说明,可以考虑简化的情况,例如,ns=4和np=2,在nb=3位上有6个可能的定量二进制字。在这种情况下,可以检测存在于表II的量化表允许np-1=1,正确地定位为每个影响传送索引的一位的误差保存的脉冲。存在对已知为错的定量索引被接收的情况(6代替2或4;7代替3或5),存在4种误差情况(总数18之外),然后,译码器可以用测量限制失真,例如,可以重复与前面子帧有关的更新序列,以至把可采用的二进制字分配给“可能”的索引(例如,对索引6的1001或1010,以及对索引7的1100或0110,在接收具有二进制误差的6或7的事件中,再次产生np-1=1的正确定位脉冲。
定量索引 | 段占用字 | ||
十进制 | 自然二进制 | 自然二进制 | 十进制 |
012345 | 000001010011100101 | 001101011001110010100110 | 35912106 |
(6)(7) | (110)(111) | (1001或1010)(1100或0110) | (9或10)(12或6) |
表II
在正常情况下,定量表中的字的顺序可以在计算考虑的基础上确定,或若不够充分,通过模拟在计算机上的误差情况(更多地,通过依赖可能误差情况的量的蒙特卡罗型的统计取样)来确定。
为了使占用段定量索引的传输更安全,可以采用由信道编码器22提供的保护的不同类别的优点,特别是当近似判别式不能满足影响索引一位的所有可能误差的情况。这样,排序模块46可以把索引某些量nx位放于最小保护类或非保护类,并且把索引的其余位放于一个更好的保护分类。上述索引的某些量nx位,若它们受一个传输误差影响,则产生一个借误的字,但是这些位满足具有认为满足的可能性的近似判别式。这个方法包括在定量表中的另一种字的顺序。若需要最大化分配给最少保护类的索引的量nx位,则这种排序也可以用模拟的方法最大化。
一种可能性是通过用葛雷编码从0到2ns-1计算编译ns位的字的一个列表开始,并且通过从不具np海明加权的字的列表中删除,获取排序的定量表。这样获得的表是那些两个连续字具有一个np-2的海明距离。如果在这个表中的索引具有用葛雷编码的一个二进制表征,在最不重要位的任何误差使索引产生±1的变化,并且获得由在海明距离上的门限值np-2邻近的一个字替换的实际占用字,在第i个最不重要位中的一个误差也以大约21-i的可能性,引起索引产生±1的变化。通过把用葛雷编码的索引的nx最不重要位放置在非保护分类中,任何影响这些位的一位的传送误差导致由具有至少为(1+1/2+…+1/2nx-1)/nx的邻近字替换的占用字。这个最小可能性对于从1增大到nb的nx,从1降到(2/nb)(1-1/2nb)。影响索引的nb-nx的最重要位的误差更经常地依赖用于它们的信道编码器的保护来纠正。在这种情况下,nx值被选为对误差的健状性(小值)和保护分类的有限尺寸(大值)间的一个拆衷方案。
对于译码器,可能表示段占用的二进制字以增序保存在一个查找表中。存贮在译码器的定量表中的每个地址上的一个索引表,这个索引表具有查找表中这个地址相关的二进制字的次序号。在上面开始的简化例中,在表III中给出了查找表和索引表的内容(用十进制值)。
地址 | 查找表 | 索引表 |
012345 | 35691012 | 015243 |
表III
从随机分析模块提供的np位置演绎出来的段占用字的定量,由定量模块44以二个阶段执行。为了确定被量化的字表中的地址,一个二进制查寻首先在查代表中执行。然后,定量索引在索引表中的定义地址上获得,提供给位排序模块46。
另外,模块44还执行由模块和计算的增益的定量。例如,在间隔[0,1.6]内,为了考虑正是所要的话音帧的这个参数的更高感知的重要性,若MV=1或2,则增益gTP以5位定量;若MV=3,则其以6位定量。对于与随机激发的脉冲相关的增益编码,增益g(1),…,g(np)的最大绝对值Gs是在5位上定量的,例如,在间隔[0,32767]内的几何级数中,取定量32值,并且在间隔[-1,+1]内,若MV=1,2或3,以4位定量每一个相对增益g(1)/Gs,…,g(np)/Gs,若MV=0,则以5位定量。
当Gs的定量位是相对增益的定量索引的最重要位时,它由信道编码器22放置在一个保护分类中。相对增益的定量位以这种方式排序,以便允许它们分配给属于由占用字定位的段的相应脉冲。根据本发明的段查寻还可能有效地保护与增益的最高值对应的脉冲的相对位置。
在np=5和ls=4的情况下,每子帧需要十位定量在段中的脉冲的相对位置。考虑这种情况,其中这10位的S位被放置在一个部分保护或非保护分类(II)中,而另外5位被放置在一个更高保护分类(IB)中。最自然的分配是把每个相对位置的最重要位放置在保护分类IB中,以便任何传送误差管理影响最重要位,并且由此引起对这个相应脉冲的一次取样仅有一个偏移。但是,建议对相对位置的定量以相应增益的绝对值的降序考虑这个脉冲,并且把每个第一两个相对位置的两上定量位和第三个位置的最重要位一起放置在类型IB中。用这种方法,当它们与高增益相关联通时,脉冲的位置被优先保护,它增强了平均质量,特别是对最高程度的话音子帧。
为了重新构成激发的脉冲影响,译码器首先用接收的占用字的定位段;然后,它分配相应的增益;然后,它在增益尺寸的次序的基础上,再把相对位置分配给这个脉冲。
可以理解为上面描述的本发明的不同观点得到特别的改善,并且,可能得以彼此独立地实施它们。结合它们可能产生一个特别有益的性能的编码器。
在前面描述的实施例的说明中,13kbit/s的语音编码器在固定点模式下,要求每秒15兆指令(MipB)的程序,因此,它将通过一个商业的通用数字信号处理器(DSP)编程典型地产生,并对仅要求5Mips程序的译码器也有类似的情况。
Claims (12)
1.一种综合分析语音编码方法,用于一语音信号,所述语音信号被数字化成连续帧,各帧又被分为1st个取样的子帧,1st是正整数,其中,为确定短期综合滤波器(60)的系数,对每个帧进行线性预测分析,并且对每个子帧确定一个激发序列,激发序列具有nc个成分,每个成分与各自独立的增益gp,g(n)相关联,使加到短期综合滤波器的激发序列产生表征语音信号的一个综合信号,激发序列的nc个成分和相关增益,由迭代过程确定,其中,0≤n<nc,且第n次迭代包括:
-确定使量(FP,en-1 T)2/FP·FP T为最大的成分n,其中,FP表示具有1st个元素的一个行矢量,其1st个元素等于在成分n的一个可能值和由短期综合滤波器与感知加权滤波器组成的一个合成滤波器的脉冲响应之间的卷积,en-1表示在n≥1时在第n-1步迭代期间确定的一个目标矢量,e-1=X是一个初始目标矢量;和
-通过求解线性系统gnBn=bn,计算形成一个行矢量gn=(gn(0),...,gn(n))的n+1个增益,其中Bn是n+1行和n+1列的对称矩阵,其中元素Bn(i,j)在0≤i,j≤n时等于标量积FP(i)·FP(j) T,这里FP(i)和FP(j)分别表示行矢量,它们等于在上述确定的成分i和j与合成滤波器的脉冲响应之间的卷积,并且bn是一个行矢量,其n+1个元素bn(i)在0≤i≤n时分别等于在矢量FP(i)和初始目标矢量X之间的标量积,
其nc个增益与激发序列的nc个成分有关,是在第nc-1步迭代期间计算的,
其特征在于,在0≤n<nc时的第n次迭代过程中,分别计算具有nc行和nc列的三个矩阵L、R和K的第n行,即Bn=Ln·RnT和Ln=Rn·Kn,这里Ln,Rn和Kn表示具有n+1行和n+1列的矩阵,这些行列分别对应上述矩阵L、R和K的第一个n+1行和第一个n+1列,矩阵L和R是下三角矩阵,矩阵K是对角矩阵,并且矩阵L仅在它的主对角线上具有等于1的值,计算矩阵L-1即L的逆矩阵的第n行,根据关系gn=bn·Kn(Ln -1)T·Ln -1计算n+1个增益,这里Ln -1表示具有n+1行和n+1列的矩阵,其n+1行和n+1列分别对应于逆矩阵L-1的第一个n+1行和第一个n+1列。
2.根据权利要求1的方法,其特征在于,在0≤n<nc时的第n次迭代过程中,根据下式对于j从0增加到n-1,连续地计算分别位于矩阵R和L的第n行和第j列的项R(n,j)和L(n,j): L(n,J)=R(n,j)·K(j)然后,根据下式计算位于矩阵K的第n行和第n列的项k(n):
以及,当 时K(n)=0。
3.根据权利要求2的方法,其特征在于,在0≤n<nc时的第n次迭代过程中,根据下式对j′从n-1减小到0,计算分别位于逆矩阵L-1的第n行和第j′列的项L-1(n,j′):
或
4.根据权利要求3的方法,其特征在于,在0≤n<nc时的第n次迭代过程中,根据下式计算与第n个成分有关的增益gn(n): 然后,对于位于0和n-1间的i′,根据下式重新计算与i′个成分有关的增益:
gn(i′)=gn-1(i′)+L-1(n,i′)·gn(n)。
5.根据权利要求1到4中的任何一个方法,其特征在于,nc个成分至少包括一个长期成分,该长期成分对应于一个施加有延迟且以前被确定的激发。
6.根据权利要求1的方法,其中,激发序列包括一个由n个脉冲组成的随机激励,计算在子帧中各个脉冲位置和各相关的增益;其特征在于每个子帧被再划分成nc个段,nc是一个至少等于每个随机激励的脉冲数目np的数目;在于连续地确定与子帧有关的随机激励脉冲的位置;以及在于在该子帧的任何位置中寻找第一个脉冲,其随后的脉冲位置从每个含有此前已确定脉冲位置的段中寻找出。
7.根据权利要求6的方法,其特征在于,当每个子帧段的数目nc比每个随机激励脉冲的数目np大时,用不同的方法量化由随机激励的脉冲占用段的序列号和在占用段中对应的脉冲位置。
8.根据权利要求7的方法,其特征在于,用具有ns个位的一个字表示段的占用,其中值为1的位是具有与占用段相同的序列号的位,在定量表中安排可能的占用字,该字由具有nb个位的索引来标志,用2nb-1<ns!/[np!(ns-np)!]≤2nb式来安排,其中nb是正整数,每个子帧中段的个数ns大于每个随机激励的脉冲数目np,ns和np为正数,从而其二进制的各索引中只有一位不同的两个字根据预定的准则是邻近的;和在于,对于每个子帧,都传送占用字的定量表中与随机激励的np个脉冲相对应的索引。
9.根据权利要求7的方法,其特征在于,用具有ns个位的一个字表示段占用,其中值为1的位是具有与占用段相同的序列号的位,在定量表中安排可能的占用字,该字由具有nb个位的索引来标志,以2nb-1<ns!/[np!(ns-np)!]≤2nb式来安排,其中nb是正整数,每个子帧中段的个数ns大于每个随机激励的脉冲数目np,ns和np为正数,从而其二进制的各索引中只有在所规定的nx个有效位中有一位不同的两个字根据预定的准则是邻近的,以及在于,对于每个子帧,都传送占用字的定量表中与随机激励的np个脉冲相对应的索引,同时除了规定的nx个有效位之外防止索引的各位产生传输误差。
10.根据权利要求7的方法,其特征在于,为了检测这个信号的话音帧,执行语音信号的开环分析;在于对话音帧的子帧提供每个随机激励的第一批脉冲和段占用字的第一个定量表;以及在于对非话音帧的子帧提供每个随机激励的第二批脉冲和段占用字的第2个定量表。
11.根据权利要求7到10中的任何一种方法,其特征在于,根据与脉冲有关的增益大小,在一个进行保护以防止传输误差的第一组和一个没有保护的第二组之间分配np个脉冲的相关位置的定量位。
12.根据权利要求11的方法,其特征在于,至少有一个具有较高增益绝对值的脉冲,同具有较低增益绝对值的脉冲相比,其在上述第一组中的相对位置的定量用的位数较多。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR95/00124 | 1995-01-06 | ||
FR9500124A FR2729244B1 (fr) | 1995-01-06 | 1995-01-06 | Procede de codage de parole a analyse par synthese |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1173940A CN1173940A (zh) | 1998-02-18 |
CN1134761C true CN1134761C (zh) | 2004-01-14 |
Family
ID=9474923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB961917954A Expired - Fee Related CN1134761C (zh) | 1995-01-06 | 1996-01-03 | 综合分析语音编码方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US5899968A (zh) |
EP (2) | EP0801789B1 (zh) |
CN (1) | CN1134761C (zh) |
AT (2) | ATE174147T1 (zh) |
AU (1) | AU4490296A (zh) |
DE (2) | DE69601068T2 (zh) |
FR (1) | FR2729244B1 (zh) |
WO (1) | WO1996021219A1 (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI955266A (fi) * | 1995-11-02 | 1997-05-03 | Nokia Telecommunications Oy | Menetelmä ja laitteisto viestien välittämiseksi tietoliikennejärjestelmässä |
JP3134817B2 (ja) * | 1997-07-11 | 2001-02-13 | 日本電気株式会社 | 音声符号化復号装置 |
US6807527B1 (en) * | 1998-02-17 | 2004-10-19 | Motorola, Inc. | Method and apparatus for determination of an optimum fixed codebook vector |
US6810377B1 (en) * | 1998-06-19 | 2004-10-26 | Comsat Corporation | Lost frame recovery techniques for parametric, LPC-based speech coding systems |
US6453289B1 (en) | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US6480822B2 (en) | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US6493665B1 (en) * | 1998-08-24 | 2002-12-10 | Conexant Systems, Inc. | Speech classification and parameter weighting used in codebook search |
US6823303B1 (en) * | 1998-08-24 | 2004-11-23 | Conexant Systems, Inc. | Speech encoder using voice activity detection in coding noise |
US6192335B1 (en) * | 1998-09-01 | 2001-02-20 | Telefonaktieboiaget Lm Ericsson (Publ) | Adaptive combining of multi-mode coding for voiced speech and noise-like signals |
JP3372908B2 (ja) * | 1999-09-17 | 2003-02-04 | エヌイーシーマイクロシステム株式会社 | マルチパルス探索処理方法と音声符号化装置 |
JP4367808B2 (ja) * | 1999-12-03 | 2009-11-18 | 富士通株式会社 | 音声データ圧縮・解凍装置及び方法 |
US6850884B2 (en) * | 2000-09-15 | 2005-02-01 | Mindspeed Technologies, Inc. | Selection of coding parameters based on spectral content of a speech signal |
US6842733B1 (en) | 2000-09-15 | 2005-01-11 | Mindspeed Technologies, Inc. | Signal processing system for filtering spectral content of a signal for speech coding |
US7047188B2 (en) * | 2002-11-08 | 2006-05-16 | Motorola, Inc. | Method and apparatus for improvement coding of the subframe gain in a speech coding system |
CN101320565B (zh) * | 2007-06-08 | 2011-05-11 | 华为技术有限公司 | 感知加权滤波方法及感知加权滤波器 |
US9626982B2 (en) * | 2011-02-15 | 2017-04-18 | Voiceage Corporation | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec |
MY166916A (en) | 2011-04-21 | 2018-07-24 | Samsung Electronics Co Ltd | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for dequantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
CN105513602B (zh) * | 2011-04-21 | 2019-08-06 | 三星电子株式会社 | 用于语音信号或音频信号的解码设备和方法及量化设备 |
US9208134B2 (en) * | 2012-01-10 | 2015-12-08 | King Abdulaziz City For Science And Technology | Methods and systems for tokenizing multilingual textual documents |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8302985A (nl) * | 1983-08-26 | 1985-03-18 | Philips Nv | Multipulse excitatie lineair predictieve spraakcodeerder. |
CA1223365A (en) * | 1984-02-02 | 1987-06-23 | Shigeru Ono | Method and apparatus for speech coding |
NL8500843A (nl) * | 1985-03-22 | 1986-10-16 | Koninkl Philips Electronics Nv | Multipuls-excitatie lineair-predictieve spraakcoder. |
US4831624A (en) * | 1987-06-04 | 1989-05-16 | Motorola, Inc. | Error detection method for sub-band coding |
US4802171A (en) * | 1987-06-04 | 1989-01-31 | Motorola, Inc. | Method for error correction in digitally encoded speech |
CA1337217C (en) * | 1987-08-28 | 1995-10-03 | Daniel Kenneth Freeman | Speech coding |
US5058165A (en) * | 1988-01-05 | 1991-10-15 | British Telecommunications Public Limited Company | Speech excitation source coder with coded amplitudes multiplied by factors dependent on pulse position |
SE463691B (sv) * | 1989-05-11 | 1991-01-07 | Ericsson Telefon Ab L M | Foerfarande att utplacera excitationspulser foer en lineaerprediktiv kodare (lpc) som arbetar enligt multipulsprincipen |
US5060269A (en) * | 1989-05-18 | 1991-10-22 | General Electric Company | Hybrid switched multi-pulse/stochastic speech coding technique |
US5097508A (en) * | 1989-08-31 | 1992-03-17 | Codex Corporation | Digital speech coder having improved long term lag parameter determination |
JP3268360B2 (ja) * | 1989-09-01 | 2002-03-25 | モトローラ・インコーポレイテッド | 改良されたロングターム予測器を有するデジタル音声コーダ |
WO1991006093A1 (en) * | 1989-10-17 | 1991-05-02 | Motorola, Inc. | Digital speech decoder having a postfilter with reduced spectral distortion |
US5073940A (en) * | 1989-11-24 | 1991-12-17 | General Electric Company | Method for protecting multi-pulse coders from fading and random pattern bit errors |
US5097507A (en) * | 1989-12-22 | 1992-03-17 | General Electric Company | Fading bit error protection for digital cellular multi-pulse speech coder |
US5265219A (en) * | 1990-06-07 | 1993-11-23 | Motorola, Inc. | Speech encoder using a soft interpolation decision for spectral parameters |
FI98104C (fi) * | 1991-05-20 | 1997-04-10 | Nokia Mobile Phones Ltd | Menetelmä herätevektorin generoimiseksi ja digitaalinen puhekooderi |
US5253269A (en) * | 1991-09-05 | 1993-10-12 | Motorola, Inc. | Delta-coded lag information for use in a speech coder |
DE9218980U1 (de) * | 1991-09-05 | 1996-08-22 | Motorola Inc., Schaumburg, Ill. | Fehlerschutz für Mehrmoden-Sprachcoder |
TW224191B (zh) * | 1992-01-28 | 1994-05-21 | Qualcomm Inc | |
FI95085C (fi) * | 1992-05-11 | 1995-12-11 | Nokia Mobile Phones Ltd | Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
US5317595A (en) * | 1992-06-30 | 1994-05-31 | Nokia Mobile Phones Ltd. | Rapidly adaptable channel equalizer |
IT1264766B1 (it) * | 1993-04-09 | 1996-10-04 | Sip | Codificatore della voce utilizzante tecniche di analisi con un'eccitazione a impulsi. |
-
1995
- 1995-01-06 FR FR9500124A patent/FR2729244B1/fr not_active Expired - Fee Related
-
1996
- 1996-01-03 CN CNB961917954A patent/CN1134761C/zh not_active Expired - Fee Related
- 1996-01-03 EP EP96901009A patent/EP0801789B1/fr not_active Expired - Lifetime
- 1996-01-03 DE DE69601068T patent/DE69601068T2/de not_active Expired - Fee Related
- 1996-01-03 AT AT96901009T patent/ATE174147T1/de not_active IP Right Cessation
- 1996-01-03 AU AU44902/96A patent/AU4490296A/en not_active Abandoned
- 1996-01-03 WO PCT/FR1996/000005 patent/WO1996021219A1/fr active IP Right Grant
- 1996-01-03 US US08/860,799 patent/US5899968A/en not_active Expired - Fee Related
- 1996-01-05 AT AT96400028T patent/ATE183600T1/de not_active IP Right Cessation
- 1996-01-05 EP EP96400028A patent/EP0721180B1/fr not_active Expired - Lifetime
- 1996-01-05 DE DE69603755T patent/DE69603755T2/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1173940A (zh) | 1998-02-18 |
FR2729244B1 (fr) | 1997-03-28 |
EP0721180A1 (fr) | 1996-07-10 |
FR2729244A1 (fr) | 1996-07-12 |
US5899968A (en) | 1999-05-04 |
DE69601068D1 (de) | 1999-01-14 |
ATE183600T1 (de) | 1999-09-15 |
WO1996021219A1 (fr) | 1996-07-11 |
AU4490296A (en) | 1996-07-24 |
DE69601068T2 (de) | 1999-07-15 |
DE69603755T2 (de) | 2000-07-06 |
DE69603755D1 (de) | 1999-09-23 |
EP0801789B1 (fr) | 1998-12-02 |
ATE174147T1 (de) | 1998-12-15 |
EP0801789A1 (fr) | 1997-10-22 |
EP0721180B1 (fr) | 1999-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1134761C (zh) | 综合分析语音编码方法 | |
CN1173939A (zh) | 综合分析的语音编码方法 | |
CN1173938A (zh) | 综合分析语音编码方法 | |
CN1132154C (zh) | 多信道信号编码和解码 | |
CN1121683C (zh) | 语音编码 | |
CN1123866C (zh) | 一种语音编/解码方法和装置 | |
CN101578508B (zh) | 用于对语音信号中的过渡帧进行编码的方法和设备 | |
US7359855B2 (en) | LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor | |
US8249860B2 (en) | Adaptive sound source vector quantization unit and adaptive sound source vector quantization method | |
KR101999563B1 (ko) | 켈프 코덱에 있어서 여기의 적응 및 고정 기여의 이득을 양자화 하기 위한 장치 및 방법 | |
US6249758B1 (en) | Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals | |
CN1274456A (zh) | 语音编码器 | |
CN1379899A (zh) | 语音可变速率编码方法与设备 | |
US8452590B2 (en) | Fixed codebook searching apparatus and fixed codebook searching method | |
CN1151492C (zh) | 综合-分析线性预测语音编码中的增益量化方法 | |
US20050114123A1 (en) | Speech processing system and method | |
US8200483B2 (en) | Adaptive sound source vector quantization device, adaptive sound source vector inverse quantization device, and method thereof | |
CN1234898A (zh) | 具有改进语音编码器和解码器的发射机 | |
US20100228808A1 (en) | Restrained Vector Quantisation | |
CN1231050A (zh) | 具有改进谐波语音编码器的发射机 | |
CN103081007A (zh) | 量化装置及量化方法 | |
KR20010024943A (ko) | 고정 코드북의 최적 벡터의 빠른 결정 방법 및 장치 | |
US6236961B1 (en) | Speech signal coder | |
JP3194930B2 (ja) | 音声符号化装置 | |
AU2011202622B2 (en) | Fixed codebook searching apparatus and fixed codebook searching method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |