CN1186765C - 2.3kb/s谐波激励线性预测语音编码方法 - Google Patents

2.3kb/s谐波激励线性预测语音编码方法 Download PDF

Info

Publication number
CN1186765C
CN1186765C CNB021566771A CN02156677A CN1186765C CN 1186765 C CN1186765 C CN 1186765C CN B021566771 A CNB021566771 A CN B021566771A CN 02156677 A CN02156677 A CN 02156677A CN 1186765 C CN1186765 C CN 1186765C
Authority
CN
China
Prior art keywords
harmonic
pitch period
interpolation
harmonic amplitude
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB021566771A
Other languages
English (en)
Other versions
CN1424712A (zh
Inventor
鲍长春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CNB021566771A priority Critical patent/CN1186765C/zh
Publication of CN1424712A publication Critical patent/CN1424712A/zh
Application granted granted Critical
Publication of CN1186765C publication Critical patent/CN1186765C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

2.3kb/s谐波激励线性预测语音编码方法属于语音信号处理技术领域。本发明由语音采集系统将所需的语音信号输入计算机处理器中,完成对语音信号处理。该方法特征在于:使用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带,低带对应语音信号的浊音部分,而高带对应语音信号的清音部分,用统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分,在统一的谐波激励模型中引入了一个来自男性讲话者浊音区的固定相位谱,并使用谐波激励模型参数内插方法,减少传统LPC声码器中的噪声后获取合成语音,最后使用一个短时后滤波器增强合成语音的质量。本方法使得语音编码方法对清/浊判决不敏感,使得合成的语音质量自然平滑,无变调现象发生。

Description

2.3kb/s谐波激励线性预测语音编码方法
技术领域
2.3kb/s谐波激励线性预测语音编码方法的技术领域为语音信号处理,其应用范围覆盖如下两个方面:第一,语音信号的数字传输,如数字通信系统、移动无线电、蜂窝电话和保密电话系统等;第二,语音信号的数字存贮,如数字录音电话、语音邮件、语音信箱、电子留言簿、发声字典、多媒体查询系统以及各类电子发声玩具等。
技术背景
随着信息社会和通信技术的高速发展,频率资源愈发显得宝贵。因此,压缩语音信号的传输带宽或降低电话信道的传输码率,一直是人们追求的目标,语音编码在实现这一目标中担当着重要角色。语音编码就是压缩语音信号的数字表示而使表达这些信号所需的比特需求最小的算法。
语音编码目前主要分为三类,即波形编码、参数编码和混合编码。波形编码力图使重建语音波形保持原语音信号的波形形状,它通常将语音信号作为一般的波形信号来处理,它具有适应能力强、话音质量高等优点,但所需要的比特率高,通常能在64~16kb/s的速率上给出高的编码质量,当速率进一步降低时,其性能会迅速下降。参数编码则通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的可懂性,即保持原语音的语意,而重建语音信号的波形同原始语音信号的波形可能会有相当大的差别,但其编码速率很低,可低至2.4kb/s以下。它的主要问题是合成语音质量差,自然度低。混合编码克服了波形编码和参数编码的弱点,同时又结合了它们各自的长处,在4~16kb/s速率上能够得到高质量的合成语音,但当比特率低于4kb/s时很难得到高质量的合成语音。
近十年来,语音编码取得了突飞猛进的发展,在国际标准化工作中堪称为最活跃的领域,就目前的语音编码现状而言,5kb/s以上的技术已经标准化和产品化,已具备比较完善的理论和技术体系,并进入实用阶段。今后重要的研究焦点将逐步转向更低的码率。
目前,2.4kb/s及其以下速率的高质量语音编码是语音编码研究领域最感兴趣的课题之一,这是因为在电信和保密通信中的许多应用和服务迫切需要这些低比特率语音编码方法。在过去的几年中,一些成功的语音编码方法,诸如,波形内插(WI)、多带激励(MBE)、混合激励线性预测(MELP)、谐波+随机激励(HSX)和分裂带LPC(SB-LPC)等方法均产生了具有较高可懂度和自然度的合成语音,这些方法的共同特征是语音信号或线性预测残差信号的谐波成分和类噪声成分的合成模型是独立产生的,语音质量强烈地依赖于这两种成分的正确判别。这对于有调汉语语音来说会产生较严重的变调失真,导致合成语音的自然度下降。
发明内容
本发明使用了统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分,使得语音编码方法对清/浊判决不敏感,使得最终的合成语音质量自然平滑,无变调现象发生。
本发明2.3kb/s谐波激励线性预测语音编码(HE-LPC)方法,是由语音采集系统将所需进行的语音信号输入计算机,在计算机处理器中完成对语音信号的编码过程,该方法包括语音编码和译码两部分,编码方法中基音周期检测采用了一种基于波形相关法的语音信号基音周期检测方法,语音谱参数的量化采用了线谱频率参数一步插值预测矢量量化方法,本发明的特征在于:使用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带,低带对应于语音信号的浊音部分,而高带对应于语音信号的清音部分,浊音激励信号和清音激励信号用统一的谐波模型表示,对于低于分带频率的谐波,其谐波相位用男性讲话者浊音区的固定相位表示,而对于高于分带频率的谐波,其谐波相位用均匀分布的随机数表示;为了获得平滑渐变的激励信号,谐波激励模型中的所有参数均进行线性内插,最后使用一个短时后滤波器增强合成语音的质量。
另外,本发明使用线谱频率参数一步插值预测矢量量化方法减少声道参数的比特率,并在译码端使用一个短时后滤波器增强合成语音的质量。
本发明的技术方案结合图1可见,本发明方法的编码部分主要包括预处理方法、线性预测分析方法、线性预测逆滤波方法、基音检测与浊音度判决方法、残差谐波幅度确定方法、线性预测系数到线谱频率参数的转换方法和参数量化与编码方法。编码器的工作程序如下:
第一步,输入语音经预处理模块去除输入信号的直流成分;
第二步,对去除直流的语音信号加240点哈明窗,窗的中心位于当前帧的右边界,即窗覆盖了前一帧的120个样点和当前帧的120个样点;然后对加窗的语音进行自相关估计,并使用莱文逊-杜宾递归算法获取10阶线性预测系数;最后用0.998k,k=1,…,10乘以线性预测系数来获取30HZ共振峰带宽展宽的线性预测系数;
第三步,将第二步得到的线性预测系数利用常规方法转换成线谱频率参数;
第四步,用一步插值预测矢量量化方法量化线谱频参数;
第五步,当前帧和前一帧量化的线谱频率参数线性内插到当前的4个子帧中,保证线谱频率参数的平滑过渡,每子帧内插的线谱频率参数再变回到线性预测系数,通过逆滤波器求得当前帧的线性预测残差信号。另外,当前帧最后一个子帧内插的线性预测系数用于计算将来帧的40个样点的残差信号,这40个样点将用于当前帧残差谐波幅度的提取;
第六步,利用基于波形相关法的语音信号基音周期检测方法、在去除直流的输入信号上进行基音周期检测和浊音度估计。该方法主要包括四个步骤,第一步为预处理,第二步为相关系数估计,第三步为后处理,第四步为浊音度判决。预处理包括低通滤波和数值滤波二部分,主要是去除共振峰对基音检测的影响。相关系数在三个叠接窗上独立计算,第一个窗覆盖整个当前窗,第二个窗覆盖当前帧的一半样点和将来帧的一半样点,第三个窗覆盖整个将来帧。后处理是为了避免在每个窗内出现基音加倍而采取的措施。
在按上述预处理、相关系数估计和后处理步骤求得三个窗内的最优延迟后,再用下面的阀值和逻辑从三个窗获得的最优延迟中得到当前帧的延迟估计。令(τ1,ρ1),(τ2,ρ2)和(τ3,ρ3)分别为对应三个叠接窗的最优延迟和相关系数,则当前帧最终的基音周期估计
Figure C0215667700141
按如下逻辑获得:
令t1=ρ21,t2=ρ23,t3=ρ12,t4=ρ32
如果t1和t2同时大于1.8或者t3和t4同时大于1.8
τ ^ opt = ( τ 1 + τ 3 ) / 2 , ρ=(ρ13)/2
否则 τ ^ opt = τ 2 , ρ=ρ2这里
Figure C0215667700144
的值为整数,用7比特量化。在8kHz采样率,这种具有1个样点解析的基音检测器已很好满足了本发明中的谐波激励线性预测语音编码法的要求。
在本发明的谐波激励线性预测语音编码法中,无论是何种类型的语音帧都要给出确切的浊音度值pv,这个pv将语音信号分为两个带,pv决定了这两个带的分界频率,在分界频率以下的频谱看作是周期信号频谱,而在分界频率以上的频谱看作是类噪声频谱。这里pv由预处理后的语音信号能量Elpf和相关系数ρ共同确定。如果Elpf小于给定的阀值,则直接令pv等于零,根据听觉分析,设此帧的基音频率为100Hz(80个样点);如果Elpf大于给定的阀值,则pv由ρ确定。为了节省比特数,ρ根据主观听力测试用2比特量化。
第七步,根据上述步骤得到的预测残差信号和基音周期,估计残差谐波。首先,用256点FFT将预测残差信号转换到频域以便求得谐波幅度;其次,用类似于谱包络估计声码器-SEEVOC中的谐波估计方法估计残差谐波幅度。但这里我们使用的基音周期是第六步得到的基音周期而不是SEEVOC方法中使用的平均基音周期,这为实际谐波幅度的估计带来了极大的便利,并提高了谐波估计的准确度。估计完谐波幅度后,要对其进行归一化处理,归一化的目的是为了分离谐波幅度的功率和形状,以便于分别量化,提高量化效率。
由于谐波个数随基音周期变化,所以,谐波幅度谱是变维的。通常,人们使用变维矢量量化技术量化语音信号的谐波幅度,但这将需要巨大的计算量和存贮空间。为此,我们充分利用了线性预测残差谱趋于平坦的特性,通过对残差谐波幅度截断来获取固定的10维矢量。在译码端,高于10维的谐波用译码的10维矢量元素的均值统一表示。这个截断的10维矢量码书用LBG方法训练获得,码书体积为512(9比特码书)。归一化增益用8比特在对数域标量量化。
第八步,将量化的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数进行二进制编码,并将比特流送入信道或存入媒质,供译码器用。
本发明方法的译码部分主要包括参数解码方法、参数内插方法、残差信号重建方法、线谱频率参数到线性预测系数的转换方法、语音合成方法、后滤波和自动增益控制方法;参数内插模块完成基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的内插工作。译码器的工作程序如下:
第一步,参数解码模块根据接收到的比特流,在译码器的5个码书中得到对应的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的实数值;
第二步,根据译码端恢复的谐波幅度和基音周期,用如下的谐波模型重建线性预测残差信号:
e ( n ) = Σ k = 1 L ( n ) A k ( n ) cos ( kφ ( n ) + θ k ( n ) )
其中
这里L(n),pv(n,k)和Ak(n)分别为在样点n处的谐波个数、浊音度和第k个去归一化的谐波幅度。D(k)是一个固定相位谱,它来自于男性讲话者的某帧浊音语音信号,选择男性讲话者是考虑到男性发声具有高的基音周期,它能比女性发声提供更多的谐波成分,从而保证D(k)的维数大于等于给定的最大谐波数。对于低于分带频率的谐波,其谐波相位等于固定值,而对高于分带频率的谐波,其谐波相位是均匀分布的随机数。
令样点n处的基音周期值为P(n),则每个样点处的相位φ(n)可通过如下逐点迭代获得:
φ ( n ) = φ ( n - 1 ) + 2 π P ( n )
为了得到平滑渐变的激励信号e(n),谐波激励模型中用到的基音周期、去归一化谐波幅度和浊音度参数必须内插。即为了重建残差信号e(n),需要知道每个样点处的谐波幅度及其基音周期长度。本发明使用简单的线性内插方法来增样谐波幅度。当在两个等维的谐波幅度间完成增样时,可直接进行内插。然而,当谐波幅度的长度不同和基音周期加倍或减半发生时,还需要额外的处理,以便保证平滑内插。下面描述三种情况下谐波幅度内插和基音周期内插的过程。
(1)等维情况下谐波幅度和基音周期的内插
此时,当前帧和前一帧具有相同的基音周期P,如果用n0和n1表示内插区间分界处的时刻,则可以确定时刻n处的瞬时基音周期P(n,m)和瞬时谐波幅度Ak(n,m)分别为:
P ( n , m ) = ( n 1 - n n 1 - n 0 ) P ( n 0 , m ) + ( n - n 0 n 1 - n 0 ) P ( n 1 , m ) - - - n 0 &le; n &le; n 1 , 0 &le; m < N
Figure C0215667700172
式中N为帧长。内插要在每帧上完成,所以,n1-n0=160。
由于边界点处的谐波幅度具有相同的长度,所以,它们之间内插得到的谐波幅度也具有相同的长度,即基音轮廓为一常数。
(2)不等维情况下谐波幅度和基音周期的内插
一般地,边界点处谐波幅度的长度不同({Ak}的个数不同),基音周期在边界点之间的区间上要变化。在这种情况下,内插前要将短的谐波幅度维数调整到与长的谐波幅度相同,这等价于对短的谐波幅度系数添零。完成添零工作后,即可用等维情况下的内插公式获得瞬时基音周期和瞬时谐波幅度。
由于添零的原因,这种过程得到的内插基音周期值可能和内插的谐波幅度维数不同。为了避免这种不一致性,可将内插的谐波幅度维数截断到和内插的基音周期长度一致。
(3)基音加倍或减半情况下谐波幅度和基音周期的内插
如果当前帧的谐波幅度维数比原来帧的谐波幅度维数长或短很多,则很可能发生了基音加倍或减半,这时本发明使用前后帧基音周期比值因子C作为基音加倍或减半判决准则。如果在帧间基音确实发生了加倍或减半,即比值因子C大于1时,则将较短的谐波幅度和基音周期重复整数倍,使其最大可能地与较长的谐波幅度和基音周期匹配。这等价于在原来的谐波间插入零幅度谐波。插入零幅度谐波后,将谐波幅度和基音周期按不等维情况进行内插即可。
另外,浊音度pv(n)的内插方法和等维情况下基音周期的内插方法相同,谐波数L(n)由内插的后的基音周期得到,即为了增强相位轨迹的准确性,用于相位轨迹φ(n)计算的瞬时基音周期不再取为整数。由于φ(n)是一个不断增大的函数,为防止φ(n)的溢出,当φ(n)值增大到比2π大时,就从φ(n)值中减去2π。根据余弦函数的性质,这不会影响激励信号e(n)的计算。
第三步,将线谱频率参数在四个子帧线性内插,再将4个内插的线谱频率参数转换为线性预测系数,得到了4个子帧的合成滤波器系数。
第四步,将重建的线性预测残差信号e(n)经过全极点合成滤波器,得到合成语音。
第五步,使用传统的短时后滤波器增强合成语音的质量。
第六步,使用自动增益控制技术保证后滤波前后合成语音信号的平均能量不变。
本发明的汉语语音主观测试结果证明,2.3kb/s谐波激励线性预测编码(HE-LPC-Harmonic Excited LinearPredictive Coding)方法产生的合成语音质量优于美国联邦标准的2.4kb/s MELP编码器,并且延时小于MELP编码器,可用于移动通信、短波通信、保密通信、大容量语音存贮设备、多媒体查询系统、IP电话和因特网上的语音邮寄等,可带来可观的经济效益和社会效益。
附图说明
图1 2.3kb/s谐波激励线性预测语音编码方法原理框图
具体实施方案
按图1给出的本发明技术方案的原理框图。输入语音为8kHz采样的线性PCM信号。语音信号的分析帧长为20ms,即帧速率为50Hz。另外,附加有一帧的额外延时用于线性预测分析和基音周期检测。在本发明中,需要量化和编码的参数一共有5个,它们是基音周期、浊音度、前10个归一化的线性预测残差谐波幅度、归一化增益和线谱频率参数。这些参数的量化比特数分配如表1所示。采用前述的编码和译码方法完成本发明。
本发明的实验效果如下:
为了评价2.3kb/s HE-LPC语音编码方法的性能,我们用汉语语音进行了主观A/B听力测试,11名听众比较了2.3kb/s HE-LPC编码器和美国联邦标准2.4kb/s MELP声码器产生的合成语音质量。汉语语音由16个句子组成,其中8句来自男性讲话,另外8句来自女性讲话。测试结果如表2所示。测试结果证明2.3kb/s HE-LPC编码器产生的合成语音质量好于美国联邦标准的2.4kb/s MELP声码器,尤其是对女性讲话者。
    表1  2.3kb/s HE-LPC比特分配方案
    参数     比特/帧     比特率
    线谱频率参数     20     1000
    基音周期     7     350
    归一化增益     8     400
    浊音度     2     100
    残差谐波幅度     9     450
    总数     46     2300
                            表2    主观A/B测试结果
    偏爱2.3kb/s HE-LPC     偏爱2.4kb/s MELP   无偏爱
  女性语音     42.05%     19.32%   38.64%
  男性语音     27.27%     28.41%   44.32%
  所有语音     34.66%     23.86%   41.48%

Claims (3)

1、2.3kb/s谐波激励线性预测语音编码方法,是由语音采集系统将所需进行的语音信号输入计算机,在计算机处理器中完成对语音信号的编码过程,该方法包括语音编码和译码两部分,编码方法中基音周期检测采用了一种基于波形相关法的语音信号基音周期检测方法,语音谱参数的量化采用了线谱频率参数一步插值预测矢量量化方法,本发明的特征在于:用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带,低带对应于语音信号的浊音部分,而高带对应于语音信号的清音部分,浊音激励信号和清音激励信号用统一的谐波模型表示,对于低于分带频率的谐波,其谐波相位用男性讲话者浊音区的固定相位表示,而对于高于分带频率的谐波,其谐波相位用均匀分布的随机数表示;为了获得平滑渐变的激励信号,谐波激励模型中的所有参数均进行线性内插,最后使用一个短时后滤波器增强合成语音的质量;
本发明方法的编码部分主要包括预处理方法、线性预测分析方法、线性预测逆滤波方法、基音检测与浊音度判决方法、残差谐波幅度确定方法、线性预测系数到线谱频率参数的转换方法和参数量化与编码方法;编码器的工作程序如下:
第一步,输入语音经预处理模块去除输入信号的直流成分;
第二步,先对去除直流的语音信号加240点哈明窗,然后对加窗的语音进行自相关估计,最后获取线性预测系数;
第三步,将第二步得到的线性预测系数利用常规方法转换成线谱频率参数;
第四步,用一步插值预测矢量量化方法量化线谱频率参数;
第五步,当前帧和前一帧量化的线谱频率参数线性内插到当前的4个子帧中,每子帧内插的线谱频率参数再变回到线性预测系数,通过逆滤波器求得当前帧的线性预测残差信号,另外,当前帧最后一个子帧内插的线性预测系数用于计算将来帧的残差信号,这个未来帧的残差信号将用于当前帧残差谐波幅度的提取;
第六步,利用基于波形相关法的语音信号基音周期检测方法、在去除直流的输入信号上进行基音周期检测和浊音度估计;该方法的应用中,在按上述预处理、相关系数估计和后处理步骤求得三个窗内的最优延迟后,再用下面的阀值和逻辑从三个窗获得的最优延迟中得到当前帧的延迟估计;令(τ1,ρ1),(τ2,ρ2)和(τ3,ρ3)分别为对应三个叠接窗的最优延迟和相关系数,则当前帧最终的基音周期估计
Figure C021566770003C1
按如下逻辑获得:
令t1=ρ21,t2=ρ23,t3=ρ12,t4=ρ32
如果t1和t2同时大于1.8或者t3和t4同时大于1.8
&tau; ^ opt = ( &tau; 1 + &tau; 3 ) / 2 , ρ=(ρ13)/2
否则 &tau; ^ opt = &tau; 2 , ρ=ρ2
这里 的值为整数,用7比特量化;
在本发明的谐波激励线性预测语音编码法中,无论是何种类型的语音帧都要给出确切的浊音度值pv,这个pv将语音信号分为两个带,pv决定了这两个带的分界频率,在分界频率以下的频谱看作是周期信号频谱,而在分界频率以上的频谱看作是类噪声频谱;这里pv由预处理后的语音信号能量Elpf和相关系数ρ共同确定;如果Elpf小于给定的阀值,则直接令pv等于零,根据常规的听觉测定分析,设此帧的基音频率为100Hz(80个样点);如果Elpf大于给定的阀值,则pv由ρ确定;
第七步,根据上述步骤得到的预测残差信号和基音周期,估计残差谐波;估计完谐波幅度后,对其进行归一化处理,以便于分别量化;
第八步,将量化的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数进行二进制编码,并将比特流送入信道或存入媒质,供译码器用;
本发明方法的译码部分主要包括参数解码方法、参数内插方法、残差信号重建方法、线谱频率参数到线性预测系数的转换方法、语音合成方法、后滤波和自动增益控制方法;参数内插模块完成基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的内插工作;译码器的工作程序如下:
第一步,参数解码模块根据接收到的比特流,在译码器的5个码书中得到对应的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的实数值;
第二步,根据译码端恢复的谐波幅度和基音周期,用如下的谐波模型重建线性预测残差信号:
e ( n ) = &Sigma; k = 1 L ( n ) A k ( n ) cos ( k&phi; ( n ) + &theta; k ( n ) )
其中
Figure C021566770005C2
这里L(n),pv(n,k)和Ak(n)分别为在样点n处的谐波个数、浊音度和第k个去归一化的谐波幅度;D(k)是一个固定相位谱,它来自于男性讲话者的某帧浊音语音信号,从而保证D(k)的维数大于等于给定的最大谐波数,对于低于分带频率的谐波,其谐波相位等于固定值,而对高于分带频率的谐波,其谐波相位是均匀分布的随机数;
令样点n处的基音周期值为P(n),则每个样点处的相位φ(n)可通过如下逐点迭代获得:
&phi; ( n ) = &phi; ( n - 1 ) + 2 &pi; P ( n )
为了重建残差信号e(n),需要知道每个样点处的谐波幅度及其基音周期长度,本发明使用线性内插方法来增样谐波幅度;
第三步,将线谱频率参数在四个子帧线性内插,再将4个内插的线谱频率参数转换为线性预测系数,得到了4个子帧的合成滤波器系数;
第四步,将重建的线性预测残差信号e(n)经过合成滤波器,得到合成语音;
第五步,使用传统的短时后滤波器增强合成语音的质量;
第六步,使用自动增益控制技术保证后滤波前后合成语音信号的平均能量不变。
2、根据权利要求1所述的2.3kb/s谐波激励线性预测语音编码(HE-LPC)方法,其特征在于,所述的编码器的工作程序中:
第二步的具体步骤为:先对去除直流的语音信号加240点哈明窗,窗的中心是位于当前帧的右边界,即窗覆盖了前一帧的120个样点和当前帧的120个样点,然后对加窗的语音进行自相关估计,并使用莱文逊-杜宾递归算法获取10阶线性预测系数,最后用0.998k,k=1,…,10乘以线性预测系数来获取30HZ共振峰带宽展宽的线性预测系数;
第五步中,当前帧最后一个子帧内插的线性预测系数用于计算将来帧的40个样点的残差信号,这40个样点将用于当前帧残差谐波幅度的提取;
第七步估计残差谐波的具体步骤为,首先,用256点FFT将预测残差信号转换到频域以便求得谐波幅度;其次,用类似于谱包络估计声码器-SEEVOC中的谐波估计方法估计残差谐波幅度;
由于谐波个数随基音周期变化,本发明中利用了线性预测残差谱趋于平坦的特性,通过对残差谐波幅度截断来获取固定的10维矢量;在译码端,高于10维的谐波用译码的10维矢量元素的均值统一表示;这个截断的10维矢量码书用LBG方法训练获得,码书体积为512(9比特码书);归一化增益用8比特在对数域标量量化。
3、根据权利要求1所述的2.3kb/s谐波激励线性预测语音编码方法,其特征在于,所述的译码器工作程序中,本发明使用简单的线性内插方法来增样谐波幅度,是指当在两个等维的谐波幅度间完成增样时,可直接进行内插;然而,当谐波幅度的长度不同和基音周期加倍或减半发生时,还需要额外的处理,以便保证平滑内插;下面描述三种情况下谐波幅度内插和基音周期内插的过程:
(1)等维情况下谐波幅度和基音周期的内插
此时,当前帧和前一帧具有相同的基音周期P,如果用n0和n1表示内插区间分界处的时刻,则可以确定时刻n处的瞬时基音周期P(n,m)和瞬时谐波幅度Ak(n,m)分别为:
P ( n , m ) = ( n 1 - n n 1 - n 0 ) P ( n 0 , m ) + ( n - n 0 n 1 - n 0 ) P ( n 1 , m ) - - - n 0 &le; n &le; n 1 , 0 &le; m < N
A k ( n , m ) = ( n 1 - n n 1 - n 0 ) A ( n 0 , m ) + ( n - n 0 n 1 - n 0 ) A ( n 1 , m ) - - - n 0 &le; n &le; n 1 , 0 &le; m < N ,
Figure C021566770007C3
式中N为分析帧长,n1-n0=N;
由于边界点处的谐波幅度具有相同的长度,所以,它们之间内插得到的谐波幅度也具有相同的长度,即基音轮廓为一常数;
(2)不等维情况下谐波幅度和基音周期的内插
在这种情况下,内插前要将短的谐波幅度维数调整到与长的谐波幅度相同,这等价于对短的谐波幅度系数添零;完成添零工作后,即可用等维情况下的内插公式获得瞬时基音周期和瞬时谐波幅度;
为了避免这种过程得到的内插基音周期值可能和内插的谐波幅度维数不同的情况,将内插的谐波幅度维数截断到和内插的基音周期长度一致;
(3)基音加倍或减半情况下谐波幅度和基音周期的内插
如果当前帧的谐波幅度维数比原来帧的谐波幅度维数长或短很多,则很可能发生了基音加倍或减半,这时本发明使用前后帧基音周期比值因子C作为基音加倍或减半判决准则;如果在帧间基音确实发生了加倍或减半,即比值因子C大于1时,则将较短的谐波幅度和基音周期重复整数倍,使其最大可能地与较长的谐波幅度和基音周期匹配;这等价于在原来的谐波间插入零幅度谐波;插入零幅度谐波后,将谐波幅度和基音周期按不等维情况进行内插即可;
另外,浊音度pv(n)的内插方法和等维情况下基音周期的内插方法相同,谐波数L(n)由内插的后的基音周期得到,即
Figure C021566770008C1
为了增强相位轨迹的准确性,用于相位轨迹φ(n)计算的瞬时基音周期不再取为整数;由于φ(n)是一个不断增大的函数,为防止φ(n)的溢出,当φ(n)值增大到比2π大时,就从φ(n)值中减去2π。
CNB021566771A 2002-12-19 2002-12-19 2.3kb/s谐波激励线性预测语音编码方法 Expired - Fee Related CN1186765C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB021566771A CN1186765C (zh) 2002-12-19 2002-12-19 2.3kb/s谐波激励线性预测语音编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB021566771A CN1186765C (zh) 2002-12-19 2002-12-19 2.3kb/s谐波激励线性预测语音编码方法

Publications (2)

Publication Number Publication Date
CN1424712A CN1424712A (zh) 2003-06-18
CN1186765C true CN1186765C (zh) 2005-01-26

Family

ID=4752795

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021566771A Expired - Fee Related CN1186765C (zh) 2002-12-19 2002-12-19 2.3kb/s谐波激励线性预测语音编码方法

Country Status (1)

Country Link
CN (1) CN1186765C (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
UA94041C2 (ru) * 2005-04-01 2011-04-11 Квелкомм Инкорпорейтед Способ и устройство для фильтрации, устраняющей разреженность
CN1971707B (zh) * 2006-12-13 2010-09-29 北京中星微电子有限公司 一种进行基音周期估计和清浊判决的方法及装置
CN1975861B (zh) * 2006-12-15 2011-06-29 清华大学 声码器基音周期参数抗信道误码方法
CN101303858B (zh) * 2007-05-11 2011-06-01 华为技术有限公司 实现基音增强后处理的方法及装置
CN101359978B (zh) * 2007-07-30 2014-01-29 向为 一种控制变速率多模式宽带编码速率的方法
CN101609684B (zh) * 2008-06-19 2012-06-06 展讯通信(上海)有限公司 解码语音信号的后处理滤波器
CN101887727B (zh) * 2010-04-30 2012-04-18 重庆大学 从help编码到melp编码的语音编码数据转换系统及方法
RU2606552C2 (ru) 2011-04-21 2017-01-10 Самсунг Электроникс Ко., Лтд. Устройство для квантования коэффициентов кодирования с линейным предсказанием, устройство кодирования звука, устройство для деквантования коэффициентов кодирования с линейным предсказанием, устройство декодирования звука и электронное устройство для этого
BR112013027093B1 (pt) 2011-04-21 2021-04-13 Samsung Electronics Co., Ltd Método para quantizar, método para decodificar, método para codificar, e meio de gravação legível por computador não transitório
US9135929B2 (en) 2011-04-28 2015-09-15 Dolby International Ab Efficient content classification and loudness estimation
CN102201240B (zh) * 2011-05-27 2012-10-03 中国科学院自动化研究所 基于逆滤波的谐波噪声激励模型声码器
CN102750955B (zh) * 2012-07-20 2014-06-18 中国科学院自动化研究所 基于残差信号频谱重构的声码器
CN104637486B (zh) * 2013-11-07 2017-12-29 华为技术有限公司 一种数据帧的内插方法及装置
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
CN105788601B (zh) * 2014-12-25 2019-08-30 联芯科技有限公司 VoLTE的抖动隐藏方法和装置
US11295753B2 (en) * 2015-03-03 2022-04-05 Continental Automotive Systems, Inc. Speech quality under heavy noise conditions in hands-free communication
CN107102255B (zh) * 2017-05-31 2019-10-08 太原科技大学 单一adc采集通道动态特性测试方法
CN108281150B (zh) * 2018-01-29 2020-11-17 上海泰亿格康复医疗科技股份有限公司 一种基于微分声门波模型的语音变调变嗓音方法
CN109887519B (zh) * 2019-03-14 2021-05-11 北京芯盾集团有限公司 提高语音信道数据传输准确性的方法

Also Published As

Publication number Publication date
CN1424712A (zh) 2003-06-18

Similar Documents

Publication Publication Date Title
CN1186765C (zh) 2.3kb/s谐波激励线性预测语音编码方法
CN1154086C (zh) Celp转发
CN1270292C (zh) 语音带宽扩展装置及语音带宽扩展方法
CN1051392C (zh) 矢量量化器方法
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
CN1432176A (zh) 用于预测量化有声语音的方法和设备
CN101727906B (zh) 高频带信号的编解码方法及装置
CN1285945A (zh) 一种用于对声音编码、同时抑制声学背景噪声的系统和方法
CN1161749C (zh) 保持语言编码中目标比特率的方法和装置
CN103050121A (zh) 线性预测语音编码方法及语音合成方法
CN101030377A (zh) 提高声码器基音周期参数量化精度的方法
CN103325375A (zh) 一种极低码率语音编解码设备及编解码方法
CN104025189A (zh) 编码语音信号的方法、解码语音信号的方法,及使用其的装置
CN101281749A (zh) 可分级的语音和乐音联合编码装置和解码装置
CN102930863B (zh) 一种基于简化自适应内插加权谱模型的语音转换及重构方法
CN106463140B (zh) 具有语音信息的改进型帧丢失矫正
US6253171B1 (en) Method of determining the voicing probability of speech signals
CN103999153B (zh) 用于以带选择的方式量化语音信号的方法和设备
CN101582263B (zh) 语音解码中噪音增强后处理的方法和装置
EP1497631A1 (en) Generating lsf vectors
CN1547193A (zh) 一种用于语音编码的固定码本快速搜索算法
CN1875401B (zh) 在数字语音编码器中执行谐波噪声加权的方法和装置
CN1608285A (zh) 增强的编码语音
CN1622198A (zh) 自适应帧选择线谱频率参数量化方法
CN1244903C (zh) 用于语音编码的线谱对加权量化矢量快速搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050126

Termination date: 20101219