CN1424712A - 2.3kb/s谐波激励线性预测语音编码方法 - Google Patents
2.3kb/s谐波激励线性预测语音编码方法 Download PDFInfo
- Publication number
- CN1424712A CN1424712A CN02156677A CN02156677A CN1424712A CN 1424712 A CN1424712 A CN 1424712A CN 02156677 A CN02156677 A CN 02156677A CN 02156677 A CN02156677 A CN 02156677A CN 1424712 A CN1424712 A CN 1424712A
- Authority
- CN
- China
- Prior art keywords
- harmonic
- pitch period
- interpolation
- harmonic amplitude
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000005284 excitation Effects 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 230000003595 spectral effect Effects 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 23
- 238000013139 quantization Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000011002 quantification Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 230000005526 G1 to G0 transition Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000005086 pumping Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000007796 conventional method Methods 0.000 claims description 2
- 239000012467 final product Substances 0.000 claims description 2
- 230000000737 periodic effect Effects 0.000 claims description 2
- 238000012805 post-processing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000012076 audiometry Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012074 hearing test Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
2.3kb/s谐波激励线性预测语音编码方法属于语音信号处理技术领域。本发明由语音采集系统将所需的语音信号输入计算机处理器中,完成对语音信号处理。该方法特征在于:使用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带,低带对应语音信号的浊音部分,而高带对应语音信号的清音部分,用统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分,在统一的谐波激励模型中引入了一个来自男性讲话者浊音区的固定相位谱,并使用谐波激励模型参数内插方法,减少传统LPC声码器中的噪声后获取合成语音,最后使用一个短时后滤波器增强合成语音的质量。本方法使得语音编码方法对清/浊判决不敏感,使得合成的语音质量自然平滑,无变调现象发生。
Description
技术领域
2.3kb/s谐波激励线性预测语音编码方法的技术领域为语音信号处理,其应用范围覆盖如下两个方面:第一,语音信号的数字传输,如数字通信系统、移动无线电、蜂窝电话和保密电话系统等;第二,语音信号的数字存贮,如数字录音电话、语音邮件、语音信箱、电子留言簿、发声字典、多媒体查询系统以及各类电子发声玩具等。
技术背景
随着信息社会和通信技术的高速发展,频率资源愈发显得宝贵。因此,压缩语音信号的传输带宽或降低电话信道的传输码率,一直是人们追求的目标,语音编码在实现这一目标中担当着重要角色。语音编码就是压缩语音信号的数字表示而使表达这些信号所需的比特需求最小的算法。
语音编码目前主要分为三类,即波形编码、参数编码和混合编码。波形编码力图使重建语音波形保持原语音信号的波形形状,它通常将语音信号作为一般的波形信号来处理,它具有适应能力强、话音质量高等优点,但所需要的比特率高,通常能在64~16kb/s的速率上给出高的编码质量,当速率进一步降低时,其性能会迅速下降。参数编码则通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的可懂性,即保持原语音的语意,而重建语音信号的波形同原始语音信号的波形可能会有相当大的差别,但其编码速率很低,可低至2.4kb/s以下。它的主要问题是合成语音质量差,自然度低。混合编码克服了波形编码和参数编码的弱点,同时又结合了它们各自的长处,在4~16kb/s速率上能够得到高质量的合成语音,但当比特率低于4kb/s时很难得到高质量的合成语音。
近十年来,语音编码取得了突飞猛进的发展,在国际标准化工作中堪称为最活跃的领域,就目前的语音编码现状而言,5kb/s以上的技术已经标准化和产品化,已具备比较完善的理论和技术体系,并进入实用阶段。今后重要的研究焦点将逐步转向更低的码率。
目前,2.4kb/s及其以下速率的高质量语音编码是语音编码研究领域最感兴趣的课题之一,这是因为在电信和保密通信中的许多应用和服务迫切需要这些低比特率语音编码方法。在过去的几年中,一些成功的语音编码方法,诸如,波形内插(WI)、多带激励(MBE)、混合激励线性预测(MELP)、谐波+随机激励(HSX)和分裂带LPC(SB-LPC)等方法均产生了具有较高可懂度和自然度的合成语音,这些方法的共同特征是语音信号或线性预测残差信号的谐波成分和类噪声成分的合成模型是独立产生的,语音质量强烈地依赖于这两种成分的正确判别。这对于有调汉语语音来说会产生较严重的变调失真,导致合成语音的自然度下降。
发明内容
本发明使用了统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分,使得语音编码方法对清/浊判决不敏感,使得最终的合成语音质量自然平滑,无变调现象发生。
本发明2.3kb/s谐波激励线性预测语音编码(HE-LPC)方法,是由语音采集系统将所需进行的语音信号输入计算机,在计算机处理器中完成对语音信号的编码过程,该方法包括语音编码和译码两部分,编码方法中基音周期检测采用了一种基于波形相关法的语音信号基音周期检测方法,语音谱参数的量化采用了线谱频率参数一步插值预测矢量量化方法,本发明的特征在于:使用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带,低带对应于语音信号的浊音部分,而高带对应于语音信号的清音部分,用统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分,在统一的谐波激励模型中引入了一个来自男性讲话者浊音区的固定相位谱,并使用谐波激励模型参数内插方法,得到了平滑自然的合成语音;减少传统LPC声码器中的噪声后获取合成语音,最后使用一个短时后滤波器增强合成语音的质量。
另外,本发明使用线谱频率参数一步插值预测矢量量化方法减少声道参数的比特率,并在译码端使用一个短时后滤波器增强合成语音的质量。
本发明的技术方案结合图1可见,本发明方法的编码部分主要包括预处理方法、线性预测分析方法、线性预测逆滤波方法、基音检测与浊音度判决方法、残差谐波幅度确定方法、线性预测系数到线谱频率参数的转换方法和参数量化与编码方法。编码器的工作程序如下:
第一步,输入语音经预处理模块去除输入信号的直流成分;
第二步,对去除直流的语音信号加240点哈明窗,窗的中心位于当前帧的右边界,即窗覆盖了前一帧的120个样点和当前帧的120个样点;然后对加窗的语音进行自相关估计,并使用莱文逊-杜宾递归算法获取10阶线性预测系数;最后用0.998k,k=1,…,10乘以线性预测系数来获取30HZ共振峰带宽展宽的线性预测系数;
第三步,将第二步得到的线性预测系数利用常规方法转换成线谱频率参数;
第四步,用最新技术中的一步插值预测矢量量化方法量化线谱频参数;
第五步,当前帧和前一帧量化的线谱频率参数线性内插到当前的4个子帧中,保证线谱频率参数的平滑过渡,每子帧内插的线谱频率参数再变回到线性预测系数,通过逆滤波器求得当前帧的线性预测残差信号。另外,当前帧最后一个子帧内插的线性预测系数用于计算将来帧的40个样点的残差信号,这40个样点将用于当前帧残差谐波幅度的提取;
第六步,利用基于波形相关法的语音信号基音周期检测方法这一最新技术、在去除直流的输入信号上进行基音周期检测和浊音度估计。该方法主要包括四个步骤,第一步为预处理,第二步为相关系数估计,第三步为后处理,第四步为浊音度判决。预处理包括低通滤波和数值滤波二部分,主要是去除共振峰对基音检测的影响。相关系数在三个叠接窗上独立计算,第一个窗覆盖整个当前窗,第二个窗覆盖当前帧的一半样点和将来帧的一半样点,第三个窗覆盖整个将来帧。后处理是为了避免在每个窗内出现基音加倍而采取的措施。
在按上述预处理、相关系数估计和后处理步骤求得三个窗内的最优延迟后,再用下面的阀值和逻辑从三个窗获得的最优延迟中得到当前帧的延迟估计。令(τ1,ρ1),(τ2,ρ2)和(τ3,ρ3)分别为对应三个叠接窗的最优延迟和相关系数,则当前帧最终的基音周期估计
按如下逻辑获得:
t1=ρ2/ρ3,t2=ρ2/ρ3,t3=ρ1/ρ2,t4=ρ3/ρ2
If(t1>1.8 and t2>1.8或t3>1.8 and t4>1.8)
Else
在本发明的谐波激励线性预测语音编码法中,无论是何种类型的语音帧都要给出确切的浊音度值pv,这个pv将语音信号分为两个带,pv决定了这两个带的分界频率,在分界频率以下的频谱看作是周期信号频谱,而在分界频率以上的频谱看作是类噪声频谱。这里pv由预处理后的语音信号能量Elpf和相关系数ρ共同确定。如果Elpf小于给定的阀值,则直接令pv等于零,根据听觉分析,设此帧的基音频率为100Hz(80个样点);如果Elpf大于给定的阀值,则pv由ρ确定。为了节省比特数,ρ根据主观听力测试用2比特量化。
第七步,根据上述步骤得到的预测残差信号和基音周期,估计残差谐波。首先,用256点FFT将预测残差信号转换到频域以便求得谐波幅度;其次,用类似于SEEVOC的方法估计残差谐波幅。但这里我们使用的基音周期是第六步得到的基音周期而不是SEEVOC方法中使用的平均基音周期,这为实际谐波幅度的估计带来了极大的便利,并提高了谐波估计的准确度。估计完谐波幅度后,要对其进行归一化处理,归一化的目的是为了分离谐波幅度的功率和形状,以便于分别量化,提高量化效率。
由于谐波个数随基音周期变化,所以,谐波幅度谱是变维的。通常,人们使用变维矢量量化技术量化语音信号的谐波幅度,但这将需要巨大的计算量和存贮空间。为此,我们充分利用了线性预测残差谱趋于平坦的特性,通过对残差谐波幅度截断来获取固定的10维矢量。在译码端,高于10维的谐波用译码的10维矢量元素的均值统一表示。这个截断的10维矢量码书用LBG方法训练获得,码书体积为512(9比特码书)。归一化增益用8比特在对数域标量量化。
第八步,将量化的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数进行二进制编码,并将比特流送入信道或存入媒质,供译码器用。
本发明方法的译码部分主要包括参数解码方法、参数内插方法、残差信号重建方法、线谱频率参数到线性预测系数的转换方法、语音合成方法、后滤波和自动增益控制方法;参数内插模块完成基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的内插工作。译码器的工作程序如下:
第一步,参数解码模块根据接收到的比特流,在译码器的5个码书中得到对应的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的实数值;
第二步,根据译码端恢复的谐波幅度和基音周期,用如下的谐波模型重建线性预测残差信号: 其中这里L(n),pv(n,k)和Ak(n)分别为在样点n处的谐波个数、浊音度和第k个去归一化的谐波幅度。D(k)是一个固定相位谱,它来自于男性讲话者的某帧浊音语音信号,选择男性讲话者是考虑到男性发声具有高的基音周期,它能比女性发声提供更多的谐波成分,从而保证D(k)的维数大于等于给定的最大谐波数。对于低于分带频率的谐波,其谐波相位等于固定值,而对高于分带频率的谐波,其谐波相位是均匀分布的随机数。
令样点n处的基音周期值为P(n),则每个样点处的相位φ(n)可通过如下逐点迭代获得:
为了得到平滑渐变的激励信号e(n),谐波激励模型中用到的基音周期、去归一化谐波幅度和浊音度参数必须内插。即为了重建残差信号e(n),需要知道每个样点处的谐波幅度及其基音周期长度。本发明使用简单的线性内插方法来增样谐波幅度。当在两个等维的谐波幅度间完成增样时,可直接进行内插。然而,当谐波幅度的长度不同和基音周期加倍/减半发生时,还需要额外的处理,以便保证平滑内插。下面描述三种情况下谐波幅度内插和基音周期内插的过程。(1)等维情况下谐波幅度和基音周期的内插
此时,当前帧和前一帧具有相同的基音周期P,如果用n0和n1表示内插区间分界处的时刻,则可以确定时刻n处的瞬时基音周期P(n,m)和瞬时谐波幅度Ak(n,m)分别为: 式中N为帧长。内插要在每帧上完成,所以,n1-n0=160。
由于边界点处的谐波幅度具有相同的长度,所以,它们之间内插得到的谐波幅度也具有相同的长度,即基音轮廓为一常数。(2)不等维情况下谐波幅度和基音周期的内插
一般地,边界点处谐波幅度的长度不同({Ak}的个数不同),基音周期在边界点之间的区间上要变化。在这种情况下,内插前要将短的谐波幅度维数调整到与长的谐波幅度相同,这等价于对短的谐波幅度系数添零。完成添零工作后,即可用等维情况下的内插公式获得瞬时基音周期和瞬时谐波幅度。
由于添零的原因,这种过程得到的内插基音周期值可能和内插的谐波幅度维数不同。为了避免这种不一致性,可将内插的谐波幅度维数截断到和内插的基音周期长度一致。(3)基音加倍/减半情况下谐波幅度和基音周期的内插
如果当前帧的谐波幅度维数比原来帧的谐波幅度维数长或短很多,则很可能发生了基音加倍/减半,这时本发明使用前后帧基音周期比值因子C作为基音加倍/减半判决准则。如果在帧间基音确实发生了加倍/减半(C>1),则将较短的谐波幅度和基音周期重复整数倍,使其最大可能地与较长的谐波幅度和基音周期匹配。这等价于在原来的谐波间插入零幅度谐波。插入零幅度谐波后,将谐波幅度和基音周期按不等维情况进行内插即可。
另外,浊音度pv(n)的内插方法类似于等维情况下基音周期的内插公式,谐波数L(n)由内插的后的基音周期得到,即。为了增强相位轨迹的准确性,用于相位轨迹φ(n)计算的瞬时基音周期不再取为整数。由于φ(n)是一个不断增大的函数,为防止φ(n)的溢出,当φ(n)值增大到比2π大时,就从φ(n)值中减去2π。根据余弦函数的性质,这不会影响激励信号e(n)的计算。
第三步,将线谱频率参数在四个子帧线性内插,再将4个内插的线谱频率参数转换为线性预测系数,得到了4个子帧的合成滤波器系数。
第四步,将重建的线性预测残差信号e(n)经过全极点合成滤波器,得到合成语音。
第五步,使用传统的短时后滤波器增强合成语音的质量。
第六步,使用自动增益控制技术保证后滤波前后合成语音信号的平均能量不变。
本发明的汉语语音主观测试结果证明,2.3kb/s谐波激励线性预测编码(HE-LPC-Harmonic Excited LinearPredictive Coding)方法产生的合成语音质量优于美国联邦标准的2.4kb/s MELP编码器,并且延时小于MELP编码器,可用于移动通信、短波通信、保密通信、大容量语音存贮设备、多媒体查询系统、IP电话和因特网上的语音邮寄等,可带来可观的经济效益和社会效益。
附图说明图12.3kb/s谐波激励线性预测语音编码方法原理框图
具体实施方案
按图1给出的本发明技术方案的原理框图。输入语音为8kHz采样的线性PCM信号。语音信号的分析帧长为20ms,即帧速率为50Hz。另外,附加有一帧的额外延时用于线性预测分析和基音周期检测。在本发明中,需要量化和编码的参数一共有5个,它们是基音周期、浊音度、前10个归一化的线性预测残差谐波幅度、归一化增益和线谱频率参数。这些参数的量化比特数分配如表1所示。采用前述的编码和译码方法完成本发明。
本发明的实验效果如下:
为了评价2.3kb/s HE-LPC语音编码方法的性能,我们用汉语语音进行了主观A/B听力测试,11名听众比较了2.3kb/s HE-LPC编码器和美国联邦标准2.4kb/s MELP声码器产生的合成语音质量。汉语语音由16个句子组成,其中8句来自男性讲话,另外8句来自女性讲话。测试结果如表2所示。测试结果证明2.3kb/s HE-LPC编码器产生的合成语音质量好于美国联邦标准的2.4kb/s MELP声码器,尤其是对女性讲话者。
表1 2.3kb/s HE-LPC比特分配方案
参数 | 比特/帧 | 比特率 |
线谱频率参数 | 20 | 1000 |
基音周期 | 7 | 350 |
归一化增益 | 8 | 400 |
浊音度 | 2 | 100 |
残差谐波幅度 | 9 | 450 |
总数 | 46 | 2300 |
表2 主观A/B测试结果
偏爱2.3kb/s HE-LPC | 偏爱2.4kb/s MELP | 无偏爱 | |
女性语音 | 42.05% | 19.32% | 38.64% |
男性语音 | 27.27% | 28.41% | 44.32% |
所有语音 | 34.66% | 23.86% | 41.48% |
Claims (3)
1、2.3kb/s谐波激励线性预测语音编码方法,是由语音采集系统将所需进行的语音信号输入计算机,在计算机处理器中完成对语音信号的编码过程,该方法包括语音编码和译码两部分,编码方法中基音周期检测采用了一种基于波形相关法的语音信号基音周期检测方法,语音谱参数的量化采用了线谱频率参数一步插值预测矢量量化方法,本发明的特征在于:用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带,低带对应于语音信号的浊音部分,而高带对应于语音信号的清音部分,用统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分,即在该谐波模型中引入了一个来自男性讲话者浊音区的固定相位谱,并使用谐波激励模型参数内插方法,减少传统LPC声码器中的噪声后获取合成语音,最后使用一个短时后滤波器增强合成语音的质量;
本发明方法的编码部分主要包括预处理方法、线性预测分析方法、线性预测逆滤波方法、基音检测与浊音度判决方法、残差谐波幅度确定方法、线性预测系数到线谱频率参数的转换方法和参数量化与编码方法;编码器的工作程序如下:
第一步,输入语音经预处理模块去除输入信号的直流成分;
第二步,先对去除直流的语音信号加240点哈明窗,然后对加窗的语音进行自相关估计,最后获取线性预测系数;
第三步,将第二步得到的线性预测系数利用常规方法转换成线谱频率参数;
第四步,用最新技术中的一步插值预测矢量量化方法量化线谱频率参数;
第五步,当前帧和前一帧量化的线谱频率参数线性内插到当前的4个子帧中,每子帧内插的线谱频率参数再变回到线性预测系数,通过逆滤波器求得当前帧的线性预测残差信号,另外,当前帧最后一个子帧内插的线性预测系数用于计算将来帧的残差信号,这个未来帧的残差信号将用于当前帧残差谐波幅度的提取;
第六步,利用基于波形相关法的语音信号基音周期检测方法这一最新技术、在去除直流的输入信号上进行基音周期检测和浊音度估计;该方法的应用中,在按上述预处理、相关系数估计和后处理步骤求得三个窗内的最优延迟后,再用下面的阀值和逻辑从三个窗获得的最优延迟中得到当前帧的延迟估计;令(τ1,ρ1), (τ2,ρ2)和 (τ3,ρ3)分别为对应三个叠接窗的最优延迟和相关系数,则当前帧最终的基音周期估计
按如下逻辑获得:
t1=ρ2/ρ1,t2=ρ2/ρ3,t3=ρ1/ρ2,t4=ρ3/ρ2
If(t1>1.8 and t2>1.8或t3>1.8 and t4>1.8)
Else 这里
的值为整数,用7比特量化;
在本发明的谐波激励线性预测语音编码法中,无论是何种类型的语音帧都要给出确切的浊音度值pv,这个pv将语音信号分为两个带,pv决定了这两个带的分界频率,在分界频率以下的频谱看作是周期信号频谱,而在分界频率以上的频谱看作是类噪声频谱;这里pv由预处理后的语音信号能量Elpf和相关系数ρ共同确定;如果Elpf小于给定的阀值,则直接令pv等于零,根据常规的听觉测定分析,设此帧的基音频率为100Hz(80个样点);如果Elpf大于给定的阀值,则pv由ρ确定;
第七步,根据上述步骤得到的预测残差信号和基音周期,估计残差谐波;估计完谐波幅度后,对其进行归一化处理,以便于分别量化;
第八步,将量化的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数进行二进制编码,并将比特流送入信道或存入媒质,供译码器用;
本发明方法的译码部分主要包括参数解码方法、参数内插方法、残差信号重建方法、线谱频率参数到线性预测系数的转换方法、语音合成方法、后滤波和自动增益控制方法;参数内插模块完成基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的内插工作;译码器的工作程序如下:
第一步,参数解码模块根据接收到的比特流,在译码器的5个码书中得到对应的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的实数值;
第二步,根据译码端恢复的谐波幅度和基音周期,用如下的谐波模型重建线性预测残差信号: 其中这里L(n),pv(n,k)和Ak(n)分别为在样点n处的谐波个数、浊音度和第k个去归一化的谐波幅度;D(k)是一个固定相位谱,它来自于男性讲话者的某帧浊音语音信号,从而保证D(k)的维数大于等于给定的最大谐波数,对于低于分带频率的谐波,其谐波相位等于固定值,而对高于分带频率的谐波,其谐波相位是均匀分布的随机数;
令样点n处的基音周期值为P(n),则每个样点处的相位φ(n)可通过如下逐点迭代获得:
为了重建残差信号e(n),需要知道每个样点处的谐波幅度及其基音周期长度,本发明使用线性内插方法来增样谐波幅度;
第三步,将线谱频率参数在四个子帧线性内插,再将4个内插的线谱频率参数转换为线性预测系数,得到了4个子帧的合成滤波器系数;
第四步,将重建的线性预测残差信号e(n)经过合成滤波器,得到合成语音;
第五步,使用传统的短时后滤波器增强合成语音的质量;
第六步,使用自动增益控制技术保证后滤波前后合成语音信号的平均能量不变。
2、根据权利要求1所述的2.3kb/s谐波激励线性预测语音编码(HE-LPC)方法,其特征在于,所述的编码器的工作程序中:
第二步的具体步骤为:先对去除直流的语音信号加240点哈明窗,窗的中心是位于当前帧的右边界,即窗覆盖了前一帧的120个样点和当前帧的120个样点,然后对加窗的语音进行自相关估计,并使用莱文逊-杜宾递归算法获取10阶线性预测系数,最后用0.998k,k=1,…,10乘以线性预测系数来获取30HZ共振峰带宽展宽的线性预测系数;
第五步中,当前帧最后一个子帧内插的线性预测系数用于计算将来帧的40个样点的残差信号,这40个样点将用于当前帧残差谐波幅度的提取;
第七步估计残差谐波的具体步骤为,首先,用256点FFT将预测残差信号转换到频域以便求得谐波幅度;其次,用类似于SEEVOC的方法估计残差谐波幅;
由于谐波个数随基音周期变化,本发明中利用了线性预测残差谱趋于平坦的特性,通过对残差谐波幅度截断来获取固定的10维矢量;在译码端,高于10维的谐波用译码的10维矢量元素的均值统一表示;这个截断的10维矢量码书用LBG方法训练获得,码书体积为512(9比特码书);归一化增益用8比特在对数域标量量化。
3、根据权利要求1所述的2.3kb/s谐波激励线性预测语音编码方法,其特征在于,所述的译码器工作程序中,本发明使用简单的线性内插方法来增样谐波幅度,是指当在两个等维的谐波幅度间完成增样时,可直接进行内插;然而,当谐波幅度的长度不同和基音周期加倍/减半发生时,还需要额外的处理,以便保证平滑内插;下面描述三种情况下谐波幅度内插和基音周期内插的过程:(1)等维情况下谐波幅度和基音周期的内插
此时,当前帧和前一帧具有相同的基音周期P,如果用n0和n1表示内插区间分界处的时刻,则可以确定时刻n处的瞬时基音周期P(n,m)和瞬时谐波幅度Ak(n,m)分别为: 式中N为分析帧长,n1-n0=N;
由于边界点处的谐波幅度具有相同的长度,所以,它们之间内插得到的谐波幅度也具有相同的长度,即基音轮廓为一常数;(2)不等维情况下谐波幅度和基音周期的内插
在这种情况下,内插前要将短的谐波幅度维数调整到与长的谐波幅度相同,这等价于对短的谐波幅度系数添零;完成添零工作后,即可用等维情况下的内插公式获得瞬时基音周期和瞬时谐波幅度;
为了避免这种过程得到的内插基音周期值可能和内插的谐波幅度维数不同的情况,将内插的谐波幅度维数截断到和内插的基音周期长度一致;(3)基音加倍/减半情况下谐波幅度和基音周期的内插
如果当前帧的谐波幅度维数比原来帧的谐波幅度维数长或短很多,则很可能发生了基音加倍/减半,这时本发明使用前后帧基音周期比值因子C作为基音加倍/减半判决准则;如果在帧间基音确实发生了加倍/减半(C>1),则将较短的谐波幅度和基音周期重复整数倍,使其最大可能地与较长的谐波幅度和基音周期匹配;这等价于在原来的诣波间插入零幅度谐波;插入零幅度谐波后,将谐波幅度和基音周期按不等维情况进行内插即可;
另外,浊音度pv(n)的内插方法类似于等维情况下基音周期的内插公式,谐波数L(n)由内插的后的基音周期得到,即
;为了增强相位轨迹的准确性,用于相位轨迹φ(n)计算的瞬时基音周期不再取为整数;由于φ(n)是一个不断增大的函数,为防止φ(n)的溢出,当φ(n)值增大到比2π大时,就从φ(n)值中减去2π。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB021566771A CN1186765C (zh) | 2002-12-19 | 2002-12-19 | 2.3kb/s谐波激励线性预测语音编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB021566771A CN1186765C (zh) | 2002-12-19 | 2002-12-19 | 2.3kb/s谐波激励线性预测语音编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1424712A true CN1424712A (zh) | 2003-06-18 |
CN1186765C CN1186765C (zh) | 2005-01-26 |
Family
ID=4752795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB021566771A Expired - Fee Related CN1186765C (zh) | 2002-12-19 | 2002-12-19 | 2.3kb/s谐波激励线性预测语音编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1186765C (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1971707B (zh) * | 2006-12-13 | 2010-09-29 | 北京中星微电子有限公司 | 一种进行基音周期估计和清浊判决的方法及装置 |
CN101887727A (zh) * | 2010-04-30 | 2010-11-17 | 重庆大学 | 从help编码到melp编码的语音编码数据转换系统及方法 |
CN101180677B (zh) * | 2005-04-01 | 2011-02-09 | 高通股份有限公司 | 用于宽频带语音编码的系统、方法和设备 |
CN101303858B (zh) * | 2007-05-11 | 2011-06-01 | 华为技术有限公司 | 实现基音增强后处理的方法及装置 |
CN1975861B (zh) * | 2006-12-15 | 2011-06-29 | 清华大学 | 声码器基音周期参数抗信道误码方法 |
CN102201240A (zh) * | 2011-05-27 | 2011-09-28 | 中国科学院自动化研究所 | 基于逆滤波的谐波噪声激励模型声码器 |
CN101609684B (zh) * | 2008-06-19 | 2012-06-06 | 展讯通信(上海)有限公司 | 解码语音信号的后处理滤波器 |
CN102750955A (zh) * | 2012-07-20 | 2012-10-24 | 中国科学院自动化研究所 | 基于残差信号频谱重构的声码器 |
CN101359978B (zh) * | 2007-07-30 | 2014-01-29 | 向为 | 一种控制变速率多模式宽带编码速率的方法 |
CN103582913A (zh) * | 2011-04-28 | 2014-02-12 | 杜比国际公司 | 有效内容分类及响度估计 |
CN103620676A (zh) * | 2011-04-21 | 2014-03-05 | 三星电子株式会社 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
CN104637486A (zh) * | 2013-11-07 | 2015-05-20 | 华为技术有限公司 | 一种数据帧的内插方法及装置 |
WO2015188627A1 (zh) * | 2014-06-12 | 2015-12-17 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
CN105788601A (zh) * | 2014-12-25 | 2016-07-20 | 联芯科技有限公司 | VoLTE的抖动隐藏方法和装置 |
CN105938714A (zh) * | 2015-03-03 | 2016-09-14 | 大陆汽车系统公司 | 在免提通信中的重噪声条件下改善话音质量 |
US9626979B2 (en) | 2011-04-21 | 2017-04-18 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
CN107102255A (zh) * | 2017-05-31 | 2017-08-29 | 太原科技大学 | 单一adc采集通道动态特性测试方法 |
CN108281150A (zh) * | 2018-01-29 | 2018-07-13 | 上海泰亿格康复医疗科技股份有限公司 | 一种基于微分声门波模型的语音变调变嗓音方法 |
CN109887519A (zh) * | 2019-03-14 | 2019-06-14 | 北京芯盾集团有限公司 | 提高语音信道数据传输准确性的方法 |
-
2002
- 2002-12-19 CN CNB021566771A patent/CN1186765C/zh not_active Expired - Fee Related
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101180676B (zh) * | 2005-04-01 | 2011-12-14 | 高通股份有限公司 | 用于谱包络表示的向量量化的方法和设备 |
CN101180677B (zh) * | 2005-04-01 | 2011-02-09 | 高通股份有限公司 | 用于宽频带语音编码的系统、方法和设备 |
CN1971707B (zh) * | 2006-12-13 | 2010-09-29 | 北京中星微电子有限公司 | 一种进行基音周期估计和清浊判决的方法及装置 |
CN1975861B (zh) * | 2006-12-15 | 2011-06-29 | 清华大学 | 声码器基音周期参数抗信道误码方法 |
CN101303858B (zh) * | 2007-05-11 | 2011-06-01 | 华为技术有限公司 | 实现基音增强后处理的方法及装置 |
CN101359978B (zh) * | 2007-07-30 | 2014-01-29 | 向为 | 一种控制变速率多模式宽带编码速率的方法 |
CN101609684B (zh) * | 2008-06-19 | 2012-06-06 | 展讯通信(上海)有限公司 | 解码语音信号的后处理滤波器 |
CN101887727A (zh) * | 2010-04-30 | 2010-11-17 | 重庆大学 | 从help编码到melp编码的语音编码数据转换系统及方法 |
US9626980B2 (en) | 2011-04-21 | 2017-04-18 | Samsung Electronics Co., Ltd. | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor |
US9626979B2 (en) | 2011-04-21 | 2017-04-18 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
US10224051B2 (en) | 2011-04-21 | 2019-03-05 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
US10229692B2 (en) | 2011-04-21 | 2019-03-12 | Samsung Electronics Co., Ltd. | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor |
CN103620676A (zh) * | 2011-04-21 | 2014-03-05 | 三星电子株式会社 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
CN103620676B (zh) * | 2011-04-21 | 2016-03-09 | 三星电子株式会社 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
US9135929B2 (en) | 2011-04-28 | 2015-09-15 | Dolby International Ab | Efficient content classification and loudness estimation |
CN103582913B (zh) * | 2011-04-28 | 2016-05-11 | 杜比国际公司 | 有效内容分类及响度估计 |
CN103582913A (zh) * | 2011-04-28 | 2014-02-12 | 杜比国际公司 | 有效内容分类及响度估计 |
CN102201240B (zh) * | 2011-05-27 | 2012-10-03 | 中国科学院自动化研究所 | 基于逆滤波的谐波噪声激励模型声码器 |
CN102201240A (zh) * | 2011-05-27 | 2011-09-28 | 中国科学院自动化研究所 | 基于逆滤波的谐波噪声激励模型声码器 |
CN102750955B (zh) * | 2012-07-20 | 2014-06-18 | 中国科学院自动化研究所 | 基于残差信号频谱重构的声码器 |
CN102750955A (zh) * | 2012-07-20 | 2012-10-24 | 中国科学院自动化研究所 | 基于残差信号频谱重构的声码器 |
CN104637486B (zh) * | 2013-11-07 | 2017-12-29 | 华为技术有限公司 | 一种数据帧的内插方法及装置 |
CN104637486A (zh) * | 2013-11-07 | 2015-05-20 | 华为技术有限公司 | 一种数据帧的内插方法及装置 |
WO2015188627A1 (zh) * | 2014-06-12 | 2015-12-17 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
US9799343B2 (en) | 2014-06-12 | 2017-10-24 | Huawei Technologies Co., Ltd. | Method and apparatus for processing temporal envelope of audio signal, and encoder |
US10170128B2 (en) | 2014-06-12 | 2019-01-01 | Huawei Technologies Co., Ltd. | Method and apparatus for processing temporal envelope of audio signal, and encoder |
US10580423B2 (en) | 2014-06-12 | 2020-03-03 | Huawei Technologies Co., Ltd. | Method and apparatus for processing temporal envelope of audio signal, and encoder |
CN105788601A (zh) * | 2014-12-25 | 2016-07-20 | 联芯科技有限公司 | VoLTE的抖动隐藏方法和装置 |
CN105938714A (zh) * | 2015-03-03 | 2016-09-14 | 大陆汽车系统公司 | 在免提通信中的重噪声条件下改善话音质量 |
US11295753B2 (en) | 2015-03-03 | 2022-04-05 | Continental Automotive Systems, Inc. | Speech quality under heavy noise conditions in hands-free communication |
CN105938714B (zh) * | 2015-03-03 | 2022-09-30 | 大陆汽车系统公司 | 在免提通信中的重噪声条件下改善话音质量 |
CN107102255A (zh) * | 2017-05-31 | 2017-08-29 | 太原科技大学 | 单一adc采集通道动态特性测试方法 |
CN107102255B (zh) * | 2017-05-31 | 2019-10-08 | 太原科技大学 | 单一adc采集通道动态特性测试方法 |
CN108281150A (zh) * | 2018-01-29 | 2018-07-13 | 上海泰亿格康复医疗科技股份有限公司 | 一种基于微分声门波模型的语音变调变嗓音方法 |
CN109887519A (zh) * | 2019-03-14 | 2019-06-14 | 北京芯盾集团有限公司 | 提高语音信道数据传输准确性的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1186765C (zh) | 2005-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1186765C (zh) | 2.3kb/s谐波激励线性预测语音编码方法 | |
Geiser et al. | Bandwidth extension for hierarchical speech and audio coding in ITU-T Rec. G. 729.1 | |
DE60128677T2 (de) | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen | |
CN105825861B (zh) | 确定加权函数的设备和方法以及量化设备和方法 | |
CN101057275B (zh) | 矢量变换装置以及矢量变换方法 | |
CN1285945A (zh) | 一种用于对声音编码、同时抑制声学背景噪声的系统和方法 | |
CN101727906B (zh) | 高频带信号的编解码方法及装置 | |
CN103050121A (zh) | 线性预测语音编码方法及语音合成方法 | |
EP1686564A1 (en) | Bandwidth extension of bandlimited acoustic signals | |
CN104025189A (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
CN103325375A (zh) | 一种极低码率语音编解码设备及编解码方法 | |
CN106463140B (zh) | 具有语音信息的改进型帧丢失矫正 | |
CN104517614A (zh) | 基于各子带特征参数值的清浊音判决装置及其判决方法 | |
US6253171B1 (en) | Method of determining the voicing probability of speech signals | |
EP1497631B1 (en) | Generating lsf vectors | |
Bae et al. | On a new enhancement of speech signal using non-uniform sampling and post filter | |
CN103999153B (zh) | 用于以带选择的方式量化语音信号的方法和设备 | |
CN101582263B (zh) | 语音解码中噪音增强后处理的方法和装置 | |
JP2002366195A (ja) | 音声符号化パラメータ符号化方法及び装置 | |
CN1875401B (zh) | 在数字语音编码器中执行谐波噪声加权的方法和装置 | |
Deisher et al. | Speech enhancement using state-based estimation and sinusoidal modeling | |
Shoham | Low complexity speech coding at 1.2 to 2.4 kbps based on waveform interpolation | |
Bae et al. | A study on a new non-uniform speech coding using the components of separated by harmonics and formants frequencies | |
Taniguchi et al. | Principal axis extracting vector excitation coding: high quality speech at 8 kb/s | |
KR0156983B1 (ko) | 음성 부호기 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20050126 Termination date: 20101219 |