CN103050122B - 一种基于melp的多帧联合量化低速率语音编解码方法 - Google Patents

一种基于melp的多帧联合量化低速率语音编解码方法 Download PDF

Info

Publication number
CN103050122B
CN103050122B CN201210551964.6A CN201210551964A CN103050122B CN 103050122 B CN103050122 B CN 103050122B CN 201210551964 A CN201210551964 A CN 201210551964A CN 103050122 B CN103050122 B CN 103050122B
Authority
CN
China
Prior art keywords
lsf
frame
parameter
signal
code book
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210551964.6A
Other languages
English (en)
Other versions
CN103050122A (zh
Inventor
修春娣
苏兆安
刘建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201210551964.6A priority Critical patent/CN103050122B/zh
Publication of CN103050122A publication Critical patent/CN103050122A/zh
Application granted granted Critical
Publication of CN103050122B publication Critical patent/CN103050122B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于MELP的多帧联合量化低速率语音编解码方法,编码端对信号首先采取单帧25ms长度处理,依次提取参数线谱对频率lsf、基音周期pitch、带通清浊vp和增益G,然后以相邻三帧为单位进行联合量化,其中vp采取3维的单码本量化,pitch先对数化后采取依照信号清浊的动态化尺寸的码本量化,G先进行去均值化再单码本量化,lsf只将首帧的和末帧的组成20维矢量进行四级残差矢量量化,解码端对于G、lsf、pitch首先采取解码本处理,然后针对lsf采取插值因子加权的帧间线性预测获得中间帧的lsf,插值因子r求解过程中嵌入了前后相邻五帧信号的清浊信息,充分考虑到了语音信号的频谱连续性和平稳性。因此,本发明有效地将编码速率降低1.2kb/s以下,对于低速率语音编码技术的研究和应用有很大的参考价值。

Description

一种基于MELP的多帧联合量化低速率语音编解码方法
技术领域
本方法涉及到无线通信系统中的一种低速率语音编码方法,特别涉及一种基于混合激励线性预测编码(MELP)的多帧联合量化低速率语音编解码方法,该方法适合无线通信系统在通信条件差、背景噪声复杂的环境下占用极少的频谱资源实现语音信号的可靠传输,属于无线通信技术领域。
技术背景
随着当前无线通信业务的不断扩展和传输数据量的不断增大,未来无线通信系统要求更高的数据传输效率和传输准确率,特别是日常最基本的语音通信。然而当前无线通信频谱资源日渐紧张,通信的电磁环境日渐恶劣,无线语音通信可用信道越来越窄,低速率语音编码作为提高频谱利用率的有效解决方案应运而出。当前无线通信系统广泛地采用基于人体语音发声模型的参数编码方案如混合激励线性预测编码(MELP)、多带激励编码(MBE)、正弦变换编码(STC)和波形内插编码(WI)。四种方案均是以人体发声的数学模型为基础,通过在解码端对语音信号进行分帧处理,以帧为单位进行合成端所需关键性参数如线谱对频率(lsf)、基音周期(pitch)、增益G等的提取,然后进行矢量量化和线性量化,最后将量化结果输出,上述几种方案的差别仅仅在于编码端参数的提取和处理以及解码端语音信号重构时激励信号的构造和选择上。然而,随着当前无线语音通信数据量的不断增大、通信环境的不断恶劣和可用频谱资源的日渐紧张,现有编码方案因其编码速率多在2.4-4.8kb/s已无法满足当前的需求,如何研究设计一种有效的低速率语音编解码方案,使之在有限的信道资源下进行可靠地语音通信成为无线多媒体通信和信号处理领域的技术研究热点之一。
当前国内外的许多专家学者在现有参数编码方案的基础上,提出了进一步降低编码速率的多帧参数联合量化方案,即在解码端以对语音信号的单帧参数提取为基础,依照设定的多帧长度N将相邻的N个单帧的参数联合起来进行统一量化,以线谱对频率参数(lsf)为例,单帧信号的lsf参数为10维矢量,采取四级残差矢量量化,而多帧参数联合量化方案中则将N个单帧的lsf联合组成一个N*10维矢量,统一进行四级残差矢量量化,在解码端通过对量化码本依照量化标号的索引获取恢复后的参数,从而进行语音信号的重构。由此可见编码端对关键性参数的精细量化方案和解码端对参数的精确恢复是参数编码的重点,同时也是本发明的出发点和切入点,如何能够在保证参数量化精确度的同时有效降低传递参数的维数和量化方案的计算复杂度、编解码延时是当前低速率语音编码研究领域的热点。论文《A VARIBLE LOW BIT RATESPEECH CODER BASED ON MELP》和《A 600 BPS MELP VOCODER FOR USE ON HF CHANNELS》中提到的对于语音信号分别采取四帧和六帧的联合量化,文献《一种基于MELP的600b/s极低速率语音编码》中出现的对于语音信号在编码端采取三帧的联合量化,但参数传递时只传递首帧和末帧,解码端对于参数采取硬判决性质的帧间线性插值预测,论文《Joint OptimizationAlgorithm of Multi-parameter Codebook Size Based on Superframe Mode》中对于所有的多帧参数采取基于信号清浊状况的动态化码本量化,都在一定程度了降低编码速率,但是标准语音的主观和客观测试效果显示过多的单帧参数联合导致传递参数维数过多,参数量化过程中进行矢量量化时候所需时间较长,在编码方案延时效应上效果较差;对于多帧参数在解码端过于简单的采取硬性判决下的帧间线性预测导致参数重构失真较大,极易导致倍频信号的干扰,重构信号可懂度较差,这与参数编码以重构信号可懂度为第一目标是不相符的,而多帧信号的所有参数基于清浊情况的动态化尺寸码本量化,导致编码端在参数量化时需要准备数量过多的码本,在具体实现过程中占用存储较大,造成了参数量化的执行效率较低。因此,设计一种基于多帧参数联合量化的采用最佳权值加权的帧间线性预测、计算复杂度和量化效果兼顾优化的低速率语音编解码方案是本发明的研究内容。
发明内容
1、目的:
为了实现在较窄信道和复杂电磁环境下无线通信中可靠地低速率语音编码,将基于参数编码的多帧参数联合量化方案应用到语音压缩编解码系统中,以提高系统的整体通信性能。传统的多帧参数联合量化方案选取的多帧个数随意化严重,存在四帧五帧六帧多种情况,对于关键性参数如线谱对频率lsf采取的是全部保留,组成多维矢量量化N*10维传送,搜索码本时所需时间较长,算法延时无法满足通信基本要求,部分传输方案中采取帧间线性预测,即参数只传递部分,解码端采取硬判决权值加权的帧间线性预测,即首帧和末帧同时为清音或者浊音则权值因子r取值0.5,首帧为浊音,末帧为清音则r取值为0.8,首帧为清音,末帧为浊音则r取值为0.2,这样无法将r与信号的清浊信息进行有效契合,参数恢复失真度较大从而导致信号出现杂波信号干扰;基于信号清浊的参数量化码本尺寸动态化方案,所需存储的量化码本较多,占用存储空间大,同时多个码本搜索计算复杂度高。为了提高多帧参数联合量化方案的编解码性能,本发明的目的是提供一种基于MELP的多帧联合量化低速率语音编解码方法,它是在多帧参数联合量化的基础上,以混合性激励线性预测编码(MELP)为例,针对多帧联合中关键性参数线性插值权值因子取值和基音周期动态化码本量化提出一种新的解决办法,充分考虑到相邻五帧信号的清浊变化与线性预测中插值因子的联系,对于关键参数基音周期pitch依照清浊状态采用动态化尺寸的量化码本进行量化,降低算法计算的复杂度,从多方面提升参数量化的精细度和参数重构的准确度,提高在低码率条件下语音信号编解码的可靠性和频谱利用率,提升无线通信系统的语音通信性能。
2、技术方案:
本发明的主要特征在于:编码端,首先对语音信号进行预处理,去除工频信号的干扰,选取帧长为25ms,进行以帧为单位的关键性参数提取,提取的关键性参数包括线谱对频率lsf、基音周期pitch、增益G、带通信号vp,与传统的MELP/2.4kb/s编码标准相比较,本发明舍弃了主要用于调节重构语音信号自然度的参数傅氏级数幅值Fm和非周期性抖动标志位jitter,然后将相邻三帧信号的参数联合起来组成一个多维的矢量,进行矢量量化,获得量化标号后编码工作完成。解码端:通过量化得到的标号依照量化码本进行索引查询,得到对应的参数数值,其中对于线谱对频率参数lsf需要将前后相邻的连续五帧信号的清浊信息嵌入到线性插值公式中,依照给定的方案选取最合适的插值因子。参数完全恢复后经过合成滤波器得到重构语音信号,完成解码工作。
图1给出的是编码端对参数的提取和量化过程,提取的参数主要包括线谱对频率lsf、基音周期pitch、增益G、带通信号vp。
编码端的基本步骤如下:
步骤一:确定各参数量化所用比特数目,计算编码速率。
步骤二:输入语音信号经过预处理去除工频信号干扰,进行分帧处理,单帧信号时间长度为25ms计算参数,依照图2给出的针对线谱对频率lsf所采用的多级残差进行矢量量化。
步骤三:依照图3给定的线性插值的权值因子r的确定过程进行r的确定。
步骤四:依照图4给定的基音周期量化动态码本尺寸的确定进行不同模式下的码本确定。
步骤五:设定帧数number=1将连续三帧信号的参数进行联合组成超级帧,进行统一矢量量化:线谱对频率参数lsf采取部分传递,只传递第一帧和第三帧,即lsf=(lsf1,lsf3),20维信号;增益参数G=(G1,1,G1,2,G2,1,G2,2,G3,1,G3,2),首先计算均值将增益进行去均值处理然后进行矢量量化,均值进行线性均匀量化;基音周期pitch=(p1,p2,p3),取对数后进行矢量量化,量化码本的尺寸依照三帧信号的清浊动态变化;带通信号的清浊vp中第一子带的清浊vp1作为整帧信号的清浊全部传送,后四个子带的清浊则按顺序组成一个12维的矢量进行矢量量化,量化码本尺寸固定。
步骤六:将之前步骤所得的参数进行7,4汉明码和8,4汉明码的差错控制编码,组成二进制比特流进行传送。
其中,编码端步骤二中所述的“依照图2给出的针对线谱对频率lsf所采用的多级残差进行矢量量化”,其具体实现过程如下:
步骤1:首帧信号的参数lsf1与末帧信号的参数lsf3联合组成量化矢量lsf=(lsf1,lsf3),20维信号,量化次数n设为1.
步骤2:对输入信号进行矢量量化,计算lsf与码本中每一个码矢之间的欧氏距离。计算公式其中lsfi代表输入矢量的第i维上的数值,代表码本中的第j个码矢的第i维上的数值,wi代表权值因子,对所有欧式距离进行比较,最小值对应的标号即为量化结果。
步骤3:判断量化次数是否达到n,满足则量化过程结束,未达到则计算残差信号然后将cancha当作待量化矢量跳回步骤2继续进行。
其中,编码端步骤三中所述的“依照图3给定的线性插值的权值因子r的确定过程进行r的确定”其具体实现过程如下:
步骤1:依照五帧信号的清浊信息即带通信号vp=(v1,v2,v3,v4,v5)进行分类,其中取值为1代表信号是浊音信号,取值为0代表信号为清音信号。特殊情况为当v2=v4=1和v2=v4=0时权值因子r取值为常值0.5。
步骤2:去除上述特殊情况的前提下,依照vp进行分类,具体分类如表1所示。对于特定分类下的插值因子,设定在ri∈(0,1)求解取得最小值的时候ri取值,其中ri代表的是第i维上的插值因子,lsf2_chazhi,i代表插值后得到的中间帧lsf参数第i维数值,分别代表量化恢复的首帧lsf和末帧lsf的第i维数值,lsf2,i代表编码端中间帧最原始的lsf参数,dis代表线性插值所得参数与原始参数之间的失真。具体处理规则如公式1所示:
∂ dis ∂ r 1 = 0 . ∂ dis ∂ r 2 = 0 . . . . . . . . ∂ dis ∂ r 10 = 0 r 1 , r 2 , r 3 , . . . . r 9 , r 10 ∈ ( 0,1 )
公式1:处理规则
对于公式进行化简,得 dis = Σ i = 1 10 ( r i ( lsf 1 , i - lsf 3 , i ) + ( lsf 3 , i - lsf 2 , i ) ) 2 = Σ i = 1 10 r i 2 α i - r i β i + χ i , 依照公式1进行求导化简得公式2,即失真最小时插值因子的取值,其中αiβiχi均为化简过程中所得的常系数值。
∂ dis ∂ r 1 = 2 r 1 α 1 - β 1 = 0 ∂ dis ∂ r 2 = 2 r 2 α 2 - β 2 = 0 . . . . . . . ∂ dis ∂ r 10 = 2 r 10 α 10 - β 10 = 0
公式2:化简求值
步骤3:针对每一种清浊模式求得r取值,在对训练信号满足这一清浊模式的参数进行全部统计之后求平均值获取最优化的取值,其中代表的是当前清浊模式下插值因子第i维上的数值。
其中,编码端步骤四中所述的“依照图4给定的基音周期量化动态码本尺寸的确定进行不同模式下的码本确定”,其具体实现过程如下:
步骤1:首先判断三帧信号的清浊,依照其中浊音信号个数改变量化码本的尺寸,浊音信号个数越多,量化码本的尺寸越大。当三帧信号均为清音信号时,基音周期均为默认值50,此时码本尺寸为1,码本中仅有一个码矢p=(50,50,50)。
步骤2:当三帧信号中仅有一帧信号为浊音时量化码本尺寸统一设定为num1,当三帧中有两帧信号为浊音信号时量化码本尺寸设定为num2
步骤3:当三帧信号均为浊音信号时设定码本量化尺寸为num3,此时将全清音信号时节省下的码本尺寸赋给全浊音信号。所有码本的尺寸关系满足公式对于不同的清浊模式下采用LBG算法训练对应的量化码本。
图5给出的是解码端语音信号的重构,在参数恢复后经过合成滤波器得到重构语音信号。
解码端的基本步骤如下:
步骤一:从获取的比特流中恢复参数量化的标号,并依照对应的量化码本进行索引查询获取初步的参数恢复。参数的初步码本恢复工作完成后进行参数完全性重构,即对于基音周期p依照清浊从不同的码本中进行索引查询;线谱对频率参数采用动态权值加权的帧间线性预测带通清浊vp第一子带清浊直接从码流中解码,后四个子带清浊需要从码本获取;增益参数G在经过码本索引之后进行加均值处理
步骤二:采用上述参数生成的激励信号经过合成滤波器得到重构语音信号,滤波器公式为基于信号清浊情况浊音时激励为周期性脉冲信号,清音时为白噪声信号。
步骤三:重构的语音信号进行增益控制和脉冲整形滤波。
3、优点及功效:
本发明提出的这种基于混合激励线性预测编码(MELP)的多帧参数联合量化方案,不仅解决了编码传输速率高达2.4kb/s的问题,将编码速率有效降低,同时解决了对于线谱对频率lsf的粗糙线性预测问题,通过将前后连续五帧信号的清浊信息嵌入到插值因子取值中,进而进行均方误差最小下的求导,有效地考虑到了语音信号的短时平稳性;编码端对基音周期pitch的量化采取对数化后的三维矢量量化,量化依照三帧信号的清浊信息选取具有不同尺寸的不同码本进行,量化时清音信号基音周期仍按照计算所得数值处理,不设置为默认值50。解码端,首先进行码本索引获取基音周期pitch,然后依照信号的清浊信息将清音信号的pitch设定为默认值50,从而将量化的失真平均分摊到三帧信号中,解决以前因直接将清音信号的pitch设为50后再量化造成的失真较大问题。
因此,本发明适用于语音信号在无线信道上以低编码速率进行传输,特别适用于频谱资源有限、电磁环境复杂的通信条件。本发明基于多帧参数联合量化的低速率语音编解码方案主要有以下几个优点:
(1)多帧参数联合量化,在同等传输速率的条件下提高了信息传输量,编码速率降低明显,有效的提升了无线通信系统的通信性能,具有很大的经济效益。
(2)对于线谱对频率参数lsf只传送首帧的和末帧的对应数值,解码端利用码本解码然后进行对lsf的帧间线性预测,采取了动态插值因子而非之前出现的硬性判决,通过将前后连续五帧信号的清浊信息嵌入到插值因子的确定过程中,充分考虑到语音信号的波形连续性和短时平稳性。
(3)对于基音周期pitch力争尽可能的精细量化,采取尺寸动态变化的码本进行量化,三帧中浊音信号个数越多量化码本的尺寸越大,全部是清音信号的时候则码本尺寸是1,码矢默认值为50。
(4)从编解码方案的流程可以得到,本发明仍然保留了参数编码中对于关键性参数的提取方法和解码端语音信号的线性预测合成重构,保留了参数编码的基本优点,合成语音信号以可懂度为第一目标。
附图说明
图1本发明中采用的语音信号处理流程。
图2针对线谱对频率lsf所采用的多级残差矢量量化流程。
图3线谱对频率lsf采取帧间线性插值时最优权值因子r的获取过程。
图4基音周期pitch量化码本的动态尺寸的确定过程。
图5本发明中采用的解码端的参数恢复和语音信号重构流程。
图6本发明流程框图
图中符号说明如下:
线谱对频率参数量化结果对应的码矢。
np:分配给基音周期量化的比特数目
nvp:分配给整帧信号清浊量化的比特数目
lsf2_chazhi:参数恢复阶段采取帧间线性预测得到的中间帧的线谱对频率参数
E:三帧信号增益参数的均值
r:帧间线性预测中的权值因子
wi:欧氏距离计算中的权值因子
dis:输入矢量与码本中某一码矢之间的欧氏失真距离
cancha:输入矢量与量化结果对应码矢的差值
具体实施方式
下面结合附图1、2、3、4、5,以时长为1min的普通话语音文件为例具体介绍本发明给出的编码方案,语音信号采样率为8KHz,单帧信号时间长度设定为25ms,样点长度为200。见图6,所示,
编码端:
步骤一:设定目标编码速率为0.8kb/s,采取三帧联合量化方案,每三帧信号的参数分配60bit进行量化,码率为60bit/75ms=0.8kb/s,对于参数采取部分传递,传递的参数包括:线谱对频率lsf、基音周期pitch、增益G、带通信号vp,具体的比特分配方案如表1所示。
表1
步骤二:对于输入语音信号进行去工频处理,按设定的帧长25ms分帧,按照图1给定的流程进行直到单帧参数计算阶段,依照混合激励线性预测编码MELP中方法计算各参数。
步骤三:按照图3给出的方案在不同清浊模式下计算最佳权值因子r。特定情况即首帧信号和末帧信号同时为浊音或清音时r=0.5。基于语音信号的短时平稳性和频谱连续性,将前后连续五帧信号的清浊信息嵌入到权值因子中,将五帧信号的剩余清浊模式分为8种,以vp=(11101,11100)为例。首先将首帧lsf1和末帧lsf3联合组成20维矢量,采取四级残差矢量量化,每级比特数为12、9、6、5,然后利用重构中间帧lsf参数:依照公式1求解,得r。对于训练信号中所有符合设定清浊模式的三帧参数进行重复操作,最后进行平均化处理具体的插值因子对应清浊模式取值如表2所示。
表2
步骤四:依照图4流程进行基音周期量化码本尺寸num的动态分配。此时np值为6,nvp值为3,则num需满足公式∑num=23+6=1024。依照之前出现的方案中此时码本的尺寸应为1024,本发明中规定:三帧信号浊音个数小于2则码本尺寸小于1024,大于等于2则码本尺寸大于1024,统计学角度可知三帧中清浊模式出现概率是完全相等的,保证了满足公式∑num=23+6=1024即所有码本尺寸之和为1024。
情况1:三帧信号均为清音,基音周期为默认值50,num=1,码本中码矢为p=(50,50,50)。
情况2:三帧中仅存在一个浊音信号,码本尺寸设定为num=768,对应三种清浊模式vp=(1,0,0)vp=(0,1,0)vp=(0,0,1)。三帧中存在两个浊音信号时,将之前的仅一浊音信号情况下剩余的尺寸个数分配给两浊音信号num=1280,对应三种清浊模式vp=(1,0,1)vp=(1,1,0)vp=(0,1,1)。
情况3:三帧信号均为浊音时,依照公式∑num=23+6=1024得到此时的码本尺寸num=2055。码本尺寸确定,依照LBG算法进行各清浊模式下码本训练。
步骤五:依照图1给定的流程,对于三帧信号的第一子带清浊直接传递,后四个子带的清浊组成一个12维矢量进行矢量量化,由表1得量化码本尺寸为M=25=32,通过对训练序列中所有出现的三帧联合后四子带清浊进行统计,获取统计概率最高的32种清浊模式作为码本中的码矢。线谱对频率lsf=(lsf1,lsf3)四级残差矢量量化,基音周期依照vp选取不同尺寸的码本进行三维矢量量化,增益参数G=(G1,1,G1,2,G2,1,G2,2,G3,1,G3,2),先去均值后3比特矢量量化,均值E采取24=16电平均匀量化,量化范围为统计得到的均值最小值和最大值。
步骤六:对于量化得到的参数前向纠错编码差错控制,组码比特流传输。
解码端:
依照图5给定流程进行解码和语音信号重构工作。
步骤一:参数解码,依照得到的量化标号在对应码本中进行查找,对三帧信号的参数vp,E,G,p进行恢复,增益进行加均值处理基音周期依照三帧信号清浊从具有不同尺寸的量化码本中进行查找,线谱对频率参数只恢复得到了首帧和末帧依照前后连续五帧信号的清浊模式在表中查找对应的最佳插值因子,进行帧间线性预测,恢复中间帧 lsf ~ 2 , i = r ~ i * lsf ~ 1 , i + ( 1 - r ~ i ) * lsf ~ 3 , i .
步骤二:在步骤1参数恢复的基础上,选择激励信号和合成滤波器参数进行语音信号重构。
步骤三:参数解码未完成则跳回步骤1,完成则语音信号重构结束,进行增益调节和自适应谱增强,去除倍频干扰,得到最终的解码信号。
综上所述,本发明提出的一种基于MELP的多帧参数联合量化方案,一方面充分利用了参数编码所需比特数少,重构语音信号可懂度较高的优点,另一方面,借鉴了多帧参数联合量化方案,将多帧的参数联合组成一个N*单帧尺寸的矢量,进行统一量化。本发明的创新之处集中在以下两点:一是在对于线谱对频率lsf采取帧间线性预测时候,采取动态化插值因子加权,基于语音信号的频谱连续性和短时平稳性,将以中间帧为中心,前后连续五帧信号的清浊信息嵌入到插值因子中,摒弃了之前出现的插值因子硬性判决,重构参数失真降低明显;二是基于算法编解码延时、计算复杂度和硬件实现的考虑,对于之前研究文献中出现的所有关键性参数均采取动态化尺寸的码本进行量化的方案进行了改进,依照重要性排序,对于基音周期采取基于清浊信息的动态尺寸码本量化,而带通清浊则采用固定尺寸码本量化,在降低了算法计算复杂度和编解码延时的前提下保证了与之前方案可比拟的重构信号可懂度。因此,本发明在参数编码和多帧联合量化的基础上,充分考虑到了语音信号的实际波形特性和算法的具体实现难易程度,适合应用于无线通信领域特别是卫星信道环境下,对于低速率语音编解码方案的研究具有很大的参考价值。

Claims (1)

1.一种基于MELP的多帧联合量化低速率语音编解码方法,其特征在于:该方法具体步骤如下:
编码端的基本步骤如下:
步骤一:确定各参数量化所用比特数目,计算编码速率;
步骤二:输入语音信号经过预处理去除工频信号干扰,进行分帧处理,单帧信号时间长度为25ms计算参数,依照给出的针对线谱对频率lsf所采用的多级残差进行矢量量化;
步骤三:依照给定的线性插值的权值因子r的确定过程进行r的确定;
步骤四:依照给定的基音周期量化动态码本尺寸的确定进行不同模式下的码本确定;
步骤五:设定帧数number=1将连续三帧信号的参数进行联合组成超级帧,进行统一矢量量化:线谱对频率参数lsf采取部分传递,只传递第一帧和第三帧,即lsf=(lsf1,lsf3),20维信号;增益参数G=(G1,1,G1,2,G2,1,G2,2,G3,1,G3,2),首先计算均值将增益进行去均值处理然后进行矢量量化,均值进行线性均匀量化;基音周期pitch=(p1,p2,p3),取对数后进行矢量量化,量化码本的尺寸依照三帧信号的清浊动态变化;带通信号的清浊vp中第一子带的清浊vp1作为整帧信号的清浊全部传送,后四个子带的清浊则按顺序组成一个12维的矢量进行矢量量化,量化码本尺寸固定;
步骤六:将之前步骤所得的参数进行7,4汉明码和8,4汉明码的差错控制编码,组成二进制比特流进行传送;
解码端的基本步骤如下:
步骤1:从获取的比特流中恢复参数量化的标号,并依照对应的量化码本进行索引查询获取初步的参数恢复,参数的初步码本恢复工作完成后进行参数完全性重构,即对于基音周期p依照清浊从不同的码本中进行索引查询;线谱对频率参数采用动态权值加权的帧间线性预测带通清浊vp第一子带清浊直接从码流中解码,后四个子带清浊需要从码本获取;增益参数G在经过码本索引之后进行加均值处理
步骤2:采用上述参数生成的激励信号经过合成滤波器得到重构语音信号,滤波器公式为基于信号清浊情况浊音时激励为周期性脉冲信号,清音时为白噪声信号;
步骤3:重构的语音信号进行增益控制和脉冲整形滤波;
其中,编码端步骤二中所述的“依照给出的针对线谱对频率lsf所采用的多级残差进行矢量量化”,其具体实现过程如下:
步骤2.1:首帧信号的参数lsf1与末帧信号的参数lsf3联合组成量化矢量lsf=(lsf1,lsf3),20维信号,量化次数n设为1;
步骤2.2:对输入信号进行矢量量化,计算lsf与码本中每一个码矢之间的欧氏距离;计算公式其中lsfi代表输入矢量的第i维上的数值,代表码本中的第j个码矢的第i维上的数值,wi代表权值因子,对所有欧式距离进行比较,最小值对应的标号即为量化结果;
步骤2.3:判断量化次数是否达到n,满足则量化过程结束,未达到则计算残差信号然后将cancha当作待量化矢量跳回步骤2.2继续进行;
其中,编码端步骤三中所述的“依照给定的线性插值的权值因子r的确定过程进行r的确定”其具体实现过程如下:
步骤3.1:依照五帧信号的清浊信息即带通信号vp=(v1,v2,v3,v4,v5)进行分类,其中取值为1代表信号是浊音信号,取值为0代表信号为清音信号,特殊情况为当v2=v4=1和v2=v4=0时权值因子r取值为常值0.5;
步骤3.2:去除上述特殊情况的前提下,依照vp进行分类,具体分类如下表1所示,对于特定分类下的插值因子,设定在ri∈(0,1)求解取得最小值的时候ri取值,其中ri代表的是第i维上的插值因子,lsf2_chazhi,i代表插值后得到的中间帧lsf参数第i维数值,分别代表量化恢复的首帧lsf和末帧lsf的第i维数值,lsf2,i代表编码端中间帧最原始的lsf参数,dis代表线性插值所得参数与原始参数之间的失真;具体处理规则如公式1所示:
∂ dis ∂ r 1 = 0 . ∂ dis ∂ r 2 = 0 . . . . . . . . ∂ dis ∂ r 10 = 0 r 1 , r 2 , r 3 , . . . . r 9 , r 10 ∈ ( 0,1 )
公式1:处理规则
对于公式进行化简,得 dis = Σ i = 1 10 ( r i ( lsf 1 , i - lsf 3 , i ) + ( lsf 3 , i - lsf 2 , i ) ) 2 = Σ i = 1 10 r i 2 α i - r i β i + χ i , 依照公式1进行求导化简得公式2,即失真最小时插值因子的取值,其中αiβiχi均为化简过程中所得的常系数值;
∂ dis ∂ r 1 = 2 r 1 α 1 - β 1 = 0 ∂ dis ∂ r 2 = 2 r 2 α 2 - β 2 = 0 . . . . . . . ∂ dis ∂ r 10 = 2 r 10 α 10 - β 10 = 0
公式2:化简求值
步骤3.3:针对每一种清浊模式求得r取值,在对训练信号满足这一清浊模式的参数进行全部统计之后求平均值获取最优化的取值,其中代表的是当前清浊模式下插值因子第i维上的数值;
表1
其中,编码端步骤四中所述的“依照给定的基音周期量化动态码本尺寸的确定进行不同模式下的码本确定”,其具体实现过程如下:
步骤4.1:首先判断三帧信号的清浊,依照其中浊音信号个数改变量化码本的尺寸,浊音信号个数越多,量化码本的尺寸越大;当三帧信号均为清音信号时,基音周期均为默认值50,此时码本尺寸为1,码本中仅有一个码矢p=(50,50,50);
步骤4.2:当三帧信号中仅有一帧信号为浊音时量化码本尺寸统一设定为num1,当三帧中有两帧信号为浊音信号时量化码本尺寸设定为num2
步骤4.3:当三帧信号均为浊音信号时设定码本量化尺寸为num3,此时将全清音信号时节省下的码本尺寸赋给全浊音信号;所有码本的尺寸关系满足公式对于不同的清浊模式下采用LBG算法训练对应的量化码本。
CN201210551964.6A 2012-12-18 2012-12-18 一种基于melp的多帧联合量化低速率语音编解码方法 Expired - Fee Related CN103050122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210551964.6A CN103050122B (zh) 2012-12-18 2012-12-18 一种基于melp的多帧联合量化低速率语音编解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210551964.6A CN103050122B (zh) 2012-12-18 2012-12-18 一种基于melp的多帧联合量化低速率语音编解码方法

Publications (2)

Publication Number Publication Date
CN103050122A CN103050122A (zh) 2013-04-17
CN103050122B true CN103050122B (zh) 2014-10-08

Family

ID=48062737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210551964.6A Expired - Fee Related CN103050122B (zh) 2012-12-18 2012-12-18 一种基于melp的多帧联合量化低速率语音编解码方法

Country Status (1)

Country Link
CN (1) CN103050122B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103247293B (zh) * 2013-05-14 2015-04-08 中国科学院自动化研究所 一种语音数据的编码及解码方法
CN105118513B (zh) * 2015-07-22 2018-12-28 重庆邮电大学 一种基于混合激励线性预测MELP的1.2kb/s低速率语音编解码方法
CN106935243A (zh) * 2015-12-29 2017-07-07 航天信息股份有限公司 一种基于melp的低比特数字语音矢量量化方法和系统
CN106098072B (zh) * 2016-06-02 2019-07-19 重庆邮电大学 一种基于混合激励线性预测的600bps甚低速率语音编解码方法
CN110415713B (zh) * 2018-04-28 2021-11-09 北京紫光展锐通信技术有限公司 Dmr系统的编码方法及装置、存储介质、数字对讲机
CN112767953B (zh) * 2020-06-24 2024-01-23 腾讯科技(深圳)有限公司 语音编码方法、装置、计算机设备和存储介质
CN117423348B (zh) * 2023-12-19 2024-04-02 山东省计算中心(国家超级计算济南中心) 基于深度学习和矢量预测的语音压缩方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806027A (en) * 1996-09-19 1998-09-08 Texas Instruments Incorporated Variable framerate parameter encoding
CN101030377A (zh) * 2007-04-13 2007-09-05 清华大学 提高声码器基音周期参数量化精度的方法
WO2007149840A1 (en) * 2006-06-21 2007-12-27 Harris Corporation Vocoder and associated method that transcodes between mixed excitation linear prediction (melp) vocoders with different speech frame rates
CN101887727A (zh) * 2010-04-30 2010-11-17 重庆大学 从help编码到melp编码的语音编码数据转换系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806027A (en) * 1996-09-19 1998-09-08 Texas Instruments Incorporated Variable framerate parameter encoding
WO2007149840A1 (en) * 2006-06-21 2007-12-27 Harris Corporation Vocoder and associated method that transcodes between mixed excitation linear prediction (melp) vocoders with different speech frame rates
CN101030377A (zh) * 2007-04-13 2007-09-05 清华大学 提高声码器基音周期参数量化精度的方法
CN101887727A (zh) * 2010-04-30 2010-11-17 重庆大学 从help编码到melp编码的语音编码数据转换系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《改进的MELP低速率语音编码器》;冯晓荣等;《计算机工程与应用》;20111231;第11卷(第47期);全文 *
冯晓荣等.《改进的MELP低速率语音编码器》.《计算机工程与应用》.2011,第11卷(第47期),

Also Published As

Publication number Publication date
CN103050122A (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
CN103050122B (zh) 一种基于melp的多帧联合量化低速率语音编解码方法
KR100283547B1 (ko) 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치
CN103325375B (zh) 一种极低码率语音编解码设备及编解码方法
AU2007206167B8 (en) Apparatus and method for encoding and decoding signal
CN101030377B (zh) 提高声码器基音周期参数量化精度的方法
CN101371295B (zh) 用于编码和解码信号的设备和方法
US10686465B2 (en) Low bit rate signal coder and decoder
CN103050121A (zh) 线性预测语音编码方法及语音合成方法
EP3125241B1 (en) Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
CN101283407A (zh) 变换编码装置和变换编码方法
CN103069483B (zh) 编码装置以及编码方法
CN104025189A (zh) 编码语音信号的方法、解码语音信号的方法,及使用其的装置
CN104978970A (zh) 一种噪声信号的处理和生成方法、编解码器和编解码系统
KR20150070398A (ko) 오디오 신호 인코딩/디코딩 방법 및 오디오 신호 인코딩/디코딩 장치
CN102855878B (zh) 一种窄带语音子带清浊音度参数的量化方法
CN102708871A (zh) 基于条件高斯混合模型的线谱对参数降维量化方法
CN101208741B (zh) 一种适用于数字信号短时相关性模型之间的互用性的方法
CN101847414A (zh) 用于语音编码的方法和设备
CN103946918A (zh) 语音信号编码方法、语音信号解码方法及使用其的装置
KR20050020728A (ko) 음성 처리 시스템, 음성 처리 방법 및 음성 프레임 평가방법
US20060206316A1 (en) Audio coding and decoding apparatuses and methods, and recording mediums storing the methods
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
Tanaka et al. Low-bit-rate speech coding using a two-dimensional transform of residual signals and waveform interpolation
CN102760441B (zh) 一种背景噪声编码/解码装置、方法和通信设备
KR20240012407A (ko) 디코더

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141008

Termination date: 20181218

CF01 Termination of patent right due to non-payment of annual fee