CN103325375B - 一种极低码率语音编解码设备及编解码方法 - Google Patents

一种极低码率语音编解码设备及编解码方法 Download PDF

Info

Publication number
CN103325375B
CN103325375B CN201310224360.5A CN201310224360A CN103325375B CN 103325375 B CN103325375 B CN 103325375B CN 201310224360 A CN201310224360 A CN 201310224360A CN 103325375 B CN103325375 B CN 103325375B
Authority
CN
China
Prior art keywords
module
parameter
sub
sonant
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310224360.5A
Other languages
English (en)
Other versions
CN103325375A (zh
Inventor
江文斌
王月明
陆桢骐
蒋三新
刘佩林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiao Tong University
Original Assignee
Shanghai Jiao Tong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiao Tong University filed Critical Shanghai Jiao Tong University
Priority to CN201310224360.5A priority Critical patent/CN103325375B/zh
Publication of CN103325375A publication Critical patent/CN103325375A/zh
Application granted granted Critical
Publication of CN103325375B publication Critical patent/CN103325375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种改进的基于线性预测参数编码基本原理的极低码率语音编解码设备及编解码方法,充分利用参数的帧内、帧间以及各参数之间的相关性,应用矢量量化技术对编码器的各项参数进行压缩;并在压缩的同时充分利用人耳的听觉感知特性,对各项参数采用不同的加权失真度量进行量化或反量化,从而在不影响人耳听觉质量的前提下对数据进行更高效地压缩。本发明以尽可能低的算法复杂度,在保证语音质量的前提下,实现了能工作在600bps和300bps两种码率的极低码率语音编解码。

Description

一种极低码率语音编解码设备及编解码方法
技术领域
本发明属于信息与信号处理技术领域,主要涉及信号处理和编解码技术,特别涉及一种极低码率语音编解码设备及编解码方法。
背景技术
语音作为人类交流信息的主要手段之一,语音传输一直在通信系统中占据重要的地位。为了提高语音信号数字传输的有效性,通常还要对语音进行压缩编码。语音压缩编码的意义在于去除语音信息中的冗余信息,降低传输比特率或存储空间。语音编码最初发展阶段为16Kbps~64Kbps的波形编码,如脉冲编码调制(Pulse-codemodulation,PCM)、自适应增量调制(Adaptivedeltamodulation,ADM)、自适应差分脉冲编码调制(Adaptivedifferentialpulsecodemodulation,ADPCM)和自适应预测编码(Adaptivepredictivecoding,APC)等;后来,由于线性预测技术的发展,出现了以LPC-10、LPC-10e为典型代表的参数编码低码率语音编码器。近几年来,语音压缩编码技术在各个通信领域的应用越来越深入和广泛,并且编码速率在不断地向低速化发展。
随着通信技术的发展,移动通信和卫星通信等无线通信领域的信道带宽越来越有限。另外,军用短波、超短波通信的信道条件不稳定,系统误码率较高。近几年来,出现了一系列速率范围在4kbps以下的高质量低速率的语音压缩编码算法,主要包括混合激励线性预测算法(Mixedexcitationlinearprediction,MELP)、波形插值算法(Waveforminterpolation,WI)、正弦变换编码算法(Sinusoidaltransformcoding,STC)以及多带激励编码算法(Multi-bandexcitation,MBE)等。美国政府和北约组织先后选定了2.4kbpsMELPe声码器作为标准,又相继开发出1.2kbps和0.6kbps的MELPe声码器。
香农的率失真理论指出了在给定量化失真的条件下,系统能达到的最低量化速率。从语音的角度分析,语音中最基本单元式音素,世界上语音的音素一般大约为128~256个,如果按通常的说话速度,平均每秒发出10个音素。根据信息论的观点,此时的信息率为I=log2(256)10=80bps。从语言的角度来看,把发音看成是以语音的速率来发报文。比如英语,每个字母用7bit编码,每分钟125个英语单词可以认为达到了通信语音速率。如果每个单词平均由7个字母组成,则此时的信息率为I=7×7×125/60≈100bps。因此,一般可以认为对于正常语速的语音进行编码,最低编码速率为100bps左右。
在目前的国际和地区性的低码率语音编码器标准中,美国政府和北约组织的MELPe声码器最低速率为600bps,这与理论极限100bps还有一定的距离。要进一步降低编码速率,主要体现在如下两个方面:
1)挖掘编码器参数之间的相关性
当前的语音编码器一般采用线性预测编码技术(Linearpredictioncoding,LPC),在LPC-10的基本原理上进行改进,传输的参数主要有线谱频率(Linearspectralfrequency,LSF)、基音周期、短时能量、子带清浊音、非周期性标识、残差等等。帧内的参数具有很强的相关性,如线谱频率参数的10个分量之间的相关性;由于语音信号的短时平稳性,帧间参数相关更为明显,极低码率的编码器一般采用3~8帧组成超级帧进行联合量化;各个参数之间也存在一定的相关性,如可以利用线谱频率和短时能量恢复子带清浊音。
2)充分利用人耳的听觉感知特性
在极低速率的语音编码算法中,对语音自然度的要求相对减弱,而希望尽可能地保证话音的可懂度。因此,在对描述语音特征的参数进行量化时,可以利用人耳的听觉特性,将对语音可懂度影响不大的参数信息进行丢弃或者给予相对较低的量化精度。也就是说,在量化特征参数的过程中,更专注于特征参数对人耳听觉质量的影响,而不以降低参数的量化误差为目的。例如,人耳对缓慢变化的基音周期参数的误差敏感度较高,因此,可采用加权的失真度量对基音周期进行矢量量化。
本发明专利充分利用编码器参数之间的各种相关性以及人耳的听觉感知特性,对现有低码率语音编码器进行改进,提出一种能工作在码率为600bps和300bps的极低码率语音编解码设备和方法。
发明内容
本发明针对现有技术存在的上述不足,提供一种改进的基于线性预测参数编码基本原理的极低码率语音编解码设备,充分利用参数的帧内、帧间以及各参数之间的相关性,灵活应用矢量量化技术对编码器的各项参数进行压缩;并在压缩的同时充分利用人耳的听觉感知特性,对各项参数采用不同的加权失真度量进行量化或反量化,从而在不影响人耳听觉质量的前提下对数据进行更高效地压缩。本发明以尽可能低的算法复杂度,在保证语音质量的前提下,实现了能工作在600bps和300bps两种码率的极低码率语音编解码。
本发明通过以下技术方案实现:
一种极低码率语音编解码设备,包括一编码设备和一解码设备,用于语音信号的编解码,编码设备和解码设备包括:
基音周期处理模块,用以接收和处理语音信号中的基音周期参数;
子带清浊音处理模块,用以接收和处理语音信号中的子带清浊音参数;
短时能量处理模块,用以接收和处理语音信号中的短时能量参数;
线性预测系数处理模块,用以接收和处理语音信号中的线性预测系数参数;
模式判决模块,连接基音周期处理模块、子带清浊音处理模块、短时能量处理模块、线性预测系数处理模块,用以根据子带清浊音参数中的子带清浊音数量判决极低码率语音编解码设备的编码模式或解码模式;
其中,在编码设备中,模式判决模块根据子带清浊音参数中的子带清浊音数量,判决极低码率语音编解码设备的编码模式,基音周期处理模块、子带清浊音处理模块、短时能量处理模块、线性预测系数处理模块根据编码模式,分别对基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数分配对应的比特率进行多帧联合量化,编码设备对多帧联合量化后的基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数进行比特流打包,以完成编码;
在解码设备中,模式判决模块根据子带清浊音参数中的子带清浊音数量,判决极低码率语音编解码设备的解码模式,基音周期处理模块、子带清浊音处理模块、短时能量处理模块、线性预测系数处理模块根据解码模式,分别对基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数分配对应的比特率进行反量化,解码设备根据反量化后的子带清浊音参数、短时能量参数、线性预测系数参数进行清浊音联合判决,根据清浊音联合判决模块的清浊音联合判决结果和反量化后的基音周期参数生成激励信号,并对激励信号进行自适应谱增强,突出激励信号的谱共振峰频率处的谱幅度,用以增强激励信号,根据反量化后的线性预测系数参数对增强后的激励信号进行线性预测合成一解码语音信号,并根据反量化后的短时能量参数调整增益,以使解码语音信号与语音信号匹配;
根据子带清浊音参数中的子带清浊音数量判决极低码率语音编解码设备的编码模式或解码模式包括:将语音信号中的多帧组成一超级帧,根据超级帧中的清浊音帧的不同数量,在编码或解码过程中分配给基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数不同的比特率。
较佳的,还包括:
码本模式判决模块,连接模式判决模块,用以根据子带清浊音参数中的子带清浊音数量判决极低码率语音编解码设备的编码模式或解码模式;
码本选择模块,连接码本模式判决模块,用以根据编码模式或解码模式选择对应的码本;
参数帧间预测器,用以根据多帧基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数和一预设的预测系数进行帧间预测,获得一残差;
矢量量化模块,连接参数帧间预测器和码本选择模块,用以根据选择的码本、残差以及预设的权值进行矢量量化,并根据量化的结果进行码本引索。
较佳的,还包括:
码本模式判决模块,连接模式判决模块,用以根据子带清浊音参数中的子带清浊音数量判决极低码率语音编解码设备的编码模式或解码模式;
码本选择模块,连接码本模式判决模块,用以根据编码模式或解码模式选择对应的码本;
去均值模块,用以将多帧基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数的线谱频率系数与一预设的线谱频率系数均值相减,获得动态范围更小的线谱频率系数;
线谱频率帧内预测器,连接去均值模块,根据动态范围更小的线谱频率系数以及一预设的线谱频率帧内系数进行帧内预测,获得一第一残差;
线谱频率帧间预测器,连接线谱频率帧内预测器,根据第一残差和一预设的线谱频率帧间系数进行帧间预测,获得一第二残差;
自适应权值计算模块,用以根据线性预测系数计算线谱频率中各分量的预测滤波器功率谱,不同的分量以不同的系数开方和相乘,得到的结果作为权值;
矢量量化模块,连接线谱频率帧间预测器、码本选择模块、自适应权值计算模块,用以根据选择的码本、残差以及计算得到的权值进行矢量量化,并根据量化的结果进行码本引索。
较佳的,编码设备还包括一反量化模块,连接在子带清浊音多帧联合量化模块与模式判决模块之间,用以将多帧联合量化后的语音信号中的子带清浊音参数进行反量化,传输给模式判决模块,以保持编码设备和解码设备的一致性。
本发明还提供一种改进的基于线性预测参数编码基本原理的极低码率语音编码设备,充分利用参数的帧内、帧间以及各参数之间的相关性,灵活应用矢量量化技术对编码器的各项参数进行压缩;并在压缩的同时充分利用人耳的听觉感知特性,对各项参数采用不同的加权失真度量进行量化,从而在不影响人耳听觉质量的前提下对数据进行更高效地压缩。本发明以尽可能低的算法复杂度,在保证语音质量的前提下,实现了能工作在600bps和300bps两种码率的极低码率语音编解码。
一种极低码率语音编码设备,用于语音信号的编码,包括:
基音周期多帧联合量化模块,用以接收和多帧联合量化语音信号中的基音周期参数;
子带清浊音多帧联合量化模块,用以接收和多帧联合量化语音信号中的子带清浊音参数;
短时能量多帧联合量化模块,用以接收和多帧联合量化语音信号中的短时能量参数;
线性预测系数处理模块,用以接收和多帧联合量化语音信号中的线性预测系数参数;
模式判决模块,连接基音周期多帧联合量化模块、子带清浊音多帧联合量化模块、短时能量多帧联合量化模块、线性预测系数多帧联合量化模块,用以根据子带清浊音参数中的子带清浊音数量判决极低码率语音编码设备的编码模式;
参数提取模块,连接基音周期多帧联合量化模块、子带清浊音多帧联合量化模块、短时能量多帧联合量化模块、线性预测系数多帧联合量化模块,用以接收并提取语音信号中的基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数,分别传输给基音周期多帧联合量化模块、子带清浊音多帧联合量化模块、短时能量多帧联合量化模块、线性预测系数多帧联合量化模块;
反量化模块,连接在子带清浊音多帧联合量化模块与模式判决模块之间,用以将多帧联合量化后的语音信号中的子带清浊音参数进行反量化,传输给模式判决模块。
较佳的,还包括:
码本模式判决模块,连接模式判决模块,用以根据子带清浊音参数中的子带清浊音数量判决极低码率语音编解码设备的编码模式或解码模式;
码本选择模块,连接码本模式判决模块,用以根据编码模式或解码模式选择对应的码本;
参数帧间预测器,用以根据多帧基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数和一预设的预测系数进行帧间预测,获得一残差;
矢量量化模块,连接参数帧间预测器和码本选择模块,用以根据选择的码本、残差以及预设的权值进行矢量量化,并根据量化的结果进行码本引索。
较佳的,还包括:
码本模式判决模块,连接模式判决模块,用以根据子带清浊音参数中的子带清浊音数量判决极低码率语音编解码设备的编码模式或解码模式;
码本选择模块,连接码本模式判决模块,用以根据编码模式或解码模式选择对应的码本;
去均值模块,用以将多帧基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数的线谱频率系数与一预设的线谱频率系数均值相减,获得动态范围更小的线谱频率系数;
线谱频率帧内预测器,连接去均值模块,根据动态范围更小的线谱频率系数以及一预设的线谱频率帧内系数进行帧内预测,获得一第一残差;
线谱频率帧间预测器,连接线谱频率帧内预测器,根据第一残差和一预设的线谱频率帧间系数进行帧间预测,获得一第二残差;
自适应权值计算模块,用以根据线性预测系数计算线谱频率中各分量的预测滤波器功率谱,不同的分量以不同的系数开方和相乘,得到的结果作为权值;
矢量量化模块,连接线谱频率帧间预测器、码本选择模块、自适应权值计算模块,用以根据选择的码本、残差以及计算得到的权值进行矢量量化,并根据量化的结果进行码本引索。
本发明还提供一种改进的基于线性预测参数编码基本原理的极低码率语音解码设备,对应上述的编码设备,充分利用参数的帧内、帧间以及各参数之间的相关性,灵活应用矢量量化技术对编码器的各项参数进行压缩;并在压缩的同时充分利用人耳的听觉感知特性,对各项参数采用不同的加权失真度量进行量化,从而在不影响人耳听觉质量的前提下对数据进行更高效地压缩。本发明以尽可能低的算法复杂度,在保证语音质量的前提下,实现了能工作在600bps和300bps两种码率的极低码率语音编解码。
一种极低码率语音解码设备,用于对一经过编码的第一语音信号进行解码,其特征在于,包括:
基音周期反量化模块,用以接收和反量化第一语音信号中的基音周期参数;
子带清浊音反量化模块,用以接收和反量化第一语音信号中的子带清浊音参数;
短时能量反量化模块,用以接收和反量化第一语音信号中的短时能量参数;
线性预测系数反量化模块,用以接收和反量化第一语音信号中的线性预测系数参数;
模式判决模块,连接基音周期反量化模块、子带清浊音反量化模块、短时能量反量化模块、线性预测系数反量化模块,用以根据反量化后的子带清浊音参数中的子带清浊音数量判决极低码率语音解码设备的解码模式;
清浊音联合判决模块,连接子带清浊音反量化模块、短时能量反量化模块、线性预测系数处理模块,根据反量化后的子带清浊音参数、短时能量参数、线性预测系数参数进行清浊音联合判决;
激励信号生成器,连接清浊音联合判决模块和基音周期反量化模块,根据清浊音联合判决模块的清浊音联合判决结果和反量化后的基音周期参数生成激励信号;
自适应谱增强模块,连接激励信号生成器,根据激励信号进行自适应谱增强,突出激励信号的谱共振峰频率处的谱幅度,用以增强激励信号;
线性预测编码合成滤波器,连接自适应谱增强模块、线性预测系数处理模块、短时能量反量化模块,根据反量化后的线性预测系数参数对增强后的激励信号进行线性预测合成一第二语音信号,并根据反量化后的短时能量参数调整增益,以使第二语音信号与第一语音信号匹配。
较佳的,还包括:
码本模式判决模块,连接模式判决模块,用以根据子带清浊音参数中的子带清浊音数量判决极低码率语音编解码设备的编码模式或解码模式;
码本选择模块,连接码本模式判决模块,用以根据编码模式或解码模式选择对应的码本;
参数帧间预测器,用以根据多帧基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数和一预设的预测系数进行帧间预测,获得一残差;
矢量量化模块,连接参数帧间预测器和码本选择模块,用以根据选择的码本、残差以及预设的权值进行矢量量化,并根据量化的结果进行码本引索。
较佳的,还包括:
码本模式判决模块,连接模式判决模块,用以根据子带清浊音参数中的子带清浊音数量判决极低码率语音编解码设备的编码模式或解码模式;
码本选择模块,连接码本模式判决模块,用以根据编码模式或解码模式选择对应的码本;
去均值模块,用以将多帧基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数的线谱频率系数与一预设的线谱频率系数均值相减,获得动态范围更小的线谱频率系数;
线谱频率帧内预测器,连接去均值模块,根据动态范围更小的线谱频率系数以及一预设的线谱频率帧内系数进行帧内预测,获得一第一残差;
线谱频率帧间预测器,连接线谱频率帧内预测器,根据第一残差和一预设的线谱频率帧间系数进行帧间预测,获得一第二残差;
自适应权值计算模块,用以根据线性预测系数计算线谱频率中各分量的预测滤波器功率谱,不同的分量以不同的系数开方和相乘,得到的结果作为权值;
矢量量化模块,连接线谱频率帧间预测器、码本选择模块、自适应权值计算模块,用以根据选择的码本、残差以及计算得到的权值进行矢量量化,并根据量化的结果进行码本引索;
较佳的,清浊音联合判决模块包括:
清浊音回复算法子模块和联合判决子模块,清浊音恢复算法子模块由线性预测编码倒谱计算、高斯混合模型计算及门限判决三个部分组成,清浊音回复算法子模块根据线性预测编码系数、短时能量两项信息使用高斯混合模型计算出为浊音的概率,然后将此概率与一门限值进行比较,得到恢复的清浊音信息,联合判决模块根据子带清浊音反量化模块的结果和恢复的结果进行联合判决,将子带清浊音反量化模块的结果和恢复的结果按照预设的权值进行相加,得到最终更为准确的清浊音信息和子带清浊音信息。。
本发明另提供一种改进的基于线性预测参数编码基本原理的极低码率语音编解码方法,充分利用参数的帧内、帧间以及各参数之间的相关性,灵活应用矢量量化技术对编码器的各项参数进行压缩;并在压缩的同时充分利用人耳的听觉感知特性,对各项参数采用不同的加权失真度量进行量化,从而在不影响人耳听觉质量的前提下对数据进行更高效地压缩。本发明以尽可能低的算法复杂度,在保证语音质量的前提下,实现了能工作在600bps和300bps两种码率的极低码率语音编解码。
一种极低码率语音编解码方法,包括编码步骤和解码步骤;
编码步骤包括:
S1、将一语音信号中的多帧组成一超级帧,根据超级帧中的清浊音帧的不同数量,决定编码模式;
S2、根据编码模式,对语音信号中的基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数分配对应的比特率进行多帧联合量化;
S3、对多帧联合量化后的基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数进行比特流打包,以完成编码;
解码步骤包括:
S4、对经过编码的语音信号中的多帧联合量化后的子带清浊音数量进行反量化,根据反量化后的子带清浊音数量决定解码模式,以保持编解码的一致性;
S5、根据解码模式,对经过编码的语音信号中的多帧联合量化后的基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数分配对应的比特率进行反量化;
S6、根据反量化后的子带清浊音参数、短时能量参数、线性预测系数参数进行清浊音联合判决;
S7、根据清浊音联合判决模块的清浊音联合判决结果和反量化后的基音周期参数生成激励信号,并对激励信号进行自适应谱增强,突出激励信号的谱共振峰频率处的谱幅度,用以增强激励信号;
S8、根据反量化后的线性预测系数参数对增强后的激励信号进行线性预测合成一解码语音信号,并根据反量化后的短时能量参数调整增益,以使解码语音信号与语音信号匹配。
较佳的,在步骤S2或S5中包括:
根据编码模式或解码模式选择对应的码本;
根据多帧基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数和一预设的预测系数进行帧间预测,获得一残差;
根据选择的码本、残差以及预设的权值进行矢量量化或反量化,并根据量化或反量化的结果进行码本引索。
较佳的,在步骤S2或S5中包括:
根据编码模式或解码模式选择对应的码本;
将多帧基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数的线谱频率系数与一预设的线谱频率系数均值相减,获得动态范围更小的线谱频率系数;
根据动态范围更小的线谱频率系数以及一预设的线谱频率帧内系数进行帧内预测,获得一第一残差;
根据第一残差和一预设的线谱频率帧间系数进行帧间预测,获得一第二残差;
根据线性预测系数计算线谱频率中各分量的预测滤波器功率谱,不同的分量以不同的系数开方和相乘,得到的结果作为权值;
根据选择的码本、残差以及计算得到的权值进行矢量量化或反量化,并根据量化或反量化的结果进行码本引索。
本发明具有以下优点:
1.基于帧间预测的矢量量化方法。在对参数进行多帧联合量化时,对参数进行帧间预测,预测系数采用通过使语音库中所有残差的均方误差最小得到。量化的对象不是各项参数,而是各项参数的预测残差,这不仅有效去除了数据的冗余性,而且减小了数据的动态范围、提高了量化精度。
2.基于帧内预测的矢量量化方法。LSF参数的10维矢量具有很强的帧内相关,在量化时对10维矢量进行帧内预测。LSF参数的帧内预测系数与帧间预测系数,通过联合预测使语音库中所有残差的均方误差最小得到。
3.基于模式的矢量量化方法。该方法利用了清浊音信息与其他参数间的相关性,因为超级帧会有不同数量的清音帧和浊音帧组成,对于清音帧,不需要编码传输基音周期参数。采用单一的编码模式不利于数据的高效压缩,而采用多模式可以根据清浊音帧的数量来决定各参数矢量量化所分配的比特数量,从而达到数据高效压缩的目的。
4.解码端清浊音联合判决方法。该方法引入了线性预测系数和短时能量进行清浊音恢复的算法,利用该算法的结果和清浊音反量化的结果联合判决更为准确的清浊音信息和子带清浊音信息。
附图说明
附图1为本发明的编码设备的结构示意图;
附图2为本发明基于模式的帧间预测矢量量化示意图;
附图3为本发明有线谱平率矢量量化示意图;
附图4为本发明的解码设备的结构示意图;
附图5为本发明清浊音联合判决示意图。
具体实施方式
以下将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整的描述和讨论,显然,这里所描述的仅仅是本发明的一部分实例,并不是全部的实例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了便于对本发明实施例的理解,下面将结合附图以具体实施例为例作进一步的解释说明,且各个实施例不构成对本发明实施例的限定。
本发明的技术方案包括编码器和解码器两大部分:其中编码器包括语音信号预处理模块、基音周期提取模块、子带浊音强度提取模块、短时能量提取模块、线性预测系数提取模块、基音周期多帧联合量化模块、子带浊音多帧联合量化模块、短时能量多帧联合量化模块、线性预测系数多帧联合量化模块以及编码模式判决模块;解码器包括子带清浊音反量化模块、解码模式判决模块、基音周期反量化模块、线性预测系数反量化模块、短时能量反量化模块、清浊音联合判决模块、激励信号生成器、自适应谱增强器、LPC合成滤波器以及语音信号后处理模块。编解码算法中600bps和300bps的技术方案基本一致,区别在于对各项参数进行多帧联合量化的部分。600bps的方案采用4帧组成一个超级帧,而300bps采用8帧组成一个超级帧(在此分别用4帧和8帧只是举例说明,本发明在此不做限制)。
编码器的各个模块具体技术方案为:语音信号预处理模块主要为一个截止频率为100Hz的高通滤波器,主要用于去直流、去除50Hz电源噪声干扰;基音周期提取模块包括截止频率为1000Hz的低通滤波器、自相关分析、基音周期分数插值、残差信号基音周期分析和基音周期倍数检验五个部分组成,用于提取精确的基音周期参数;子带浊音强度提取模块包括通带分别为0~500Hz、500~1000Hz、1000~2000Hz、2000~3000Hz、3000~4000Hz的带通滤波器和时间包络滤波器,以及带通信号基音自相关分析,提取得到的子带浊音强度用于子带清浊音判决;短时能量提取模块在加窗的语音信号上计算信号的均方根值,其结果转换为对数以dB的形式表示;线性预测系数提取模块对语音信号采用Levinson-Durbin递归算法进行自相关分析,提取10阶的线性预测系数,并对系数进行15Hz的带宽扩展;基音周期多帧联合量化模块、子带浊音多帧联合量化模块、短时能量多帧联合量化模块、线性预测系数多帧联合量化模块,这四个模块对获取的参数采用帧间、帧内预测的方法去除冗余信息,对各项参数的残差值进行多级矢量量化编码;编码模式判决模块统计超级帧中的清浊音帧的个数,根据清浊音的数量来决定各个参数进行矢量量化时所分配的比特数量,从而选择不同的码本进行矢量量化。
解码器的各个模块具体技术方案为:子带清浊音反量化模块、基音周期反量化模块、线性预测系数反量化模块、短时能量反量化模块,这四个模块对接收到的各个参数进行矢量量化的反量化解码,得到各项参数的值;解码模式判决模块根据子带清浊音反量化的结果来判定解码模式,子带清浊音、基音周期、线性预测系数这三项参数在矢量量化反量化时根据不同的解码模式选择不同的码本进行解码;清浊音联合判决模块采用子带清浊音反量化的结果,结合线性预测系数和短时能量进行清浊音恢复算法的结果,联合判决更为准确的子带清浊音信息;激励信号生成器由基音周期反量化和清浊音联合判决的两项参数,在五个子带生成混合的激励信号;自适应谱增强器由根据LPC系数自适应变化的十阶零极点滤波器和一个一阶零极点滤波器级联而成,通过突出激励信号谱中共振峰频率处的谱幅度以提高整个短时谱在共振峰处的信噪比;LPC合成滤波器由线性预测系数直接构成,对经过自适应谱增强的激励信号进行线性预测合成,并根据语音的短时能量进行增益调整;语音信号后处理模块包括脉冲散布滤波器和一个截止频率为60Hz的高通滤波器,主要用于降低基音周期附近的峰谷比和去除各种参数量化带来的信号直流分量,以提高合成语音的音质。
编码器,采样率为8kHz、16bit量化的原始语音信号经过预处理模块,滤除100Hz以下的直流、工频信号以及其他干扰信号,作为编码器其他各参数提取模块的输入语音信号。基音周期提取、子带浊音强度提取、短时能量提取、线性预测系数提取,这四个模块根据预处理模块的输出语音信号,分别提取各项语音参数。子带浊音量化模块对子带浊音强度进行多帧联合矢量量化,再进行反量化。编码模式判决模块对反量化后超级帧中的清浊音个数进行统计,根据清浊音的数量来决定基音周期、短时能量、线性预测系数这三个参数进行矢量量化编码时所选择的编码模式。编码模式判决模块是根据量化、再反量化后的清浊音进行判决,而不是在原始提取的清浊进行判决,是为了保持编解码端编解码模式的一致性。基音周期多帧联合量化、短时能量多帧联合量化、线性预测系数多帧联合量化这三个模块根据编解码模式选择不同的码本进行矢量量化,从而分配不同的比特数量。最后,将各个参数的量化结果打包送入信道编码器。
解码器,从信道解码器中得到待解码的各项参数,其反量化的过程为编码端的量化过程的逆过程。从子带清浊音反量化模块得到超级帧的清浊音信息,利用该清浊信息进行解码模式判决得到解码模式。基音周期、线性预测系数、短时能量三个反量化模块根据解码模式选择不同的码本进行矢量量化反量化得到各项参数。清浊音联合判决模块采用子带清浊音反量化的结果,结合线性预测系数和短时能量进行清浊音恢复算法的结果,联合判决更为准确的子带清浊音信息。激励信号生成器由基音周期和子带清浊音信息,在五个子带生成混合的激励信号。自适应谱增强器通过突出激励信号谱共振峰频率处的谱幅度来进行信号增强。LPC合成滤波器对经过自适应谱增强的激励信号进行线性预测合成,并进行增益调整以保证合成语音信号的能量与原始语音信号匹配。信号经过语音信号后处理模块,降低合成语音的蜂鸣声,去除各种参数量化带来的信号直流分量,得到最终的合成语音信号。
如图1所示为本发明的编码器框图,包括参数提取模块101,基音周期多帧联合量化模块102、子带清浊音多帧联合量化模块103、短时能量多帧联合量化模块104、线性预测系数多帧联合量化模块105、反量化模块106以及编码模式判决模块107。其中,参数提取模块101分别与基音周期多帧联合量化模块102、子带清浊音多帧联合量化模块103、短时能量多帧联合量化模块104、线性预测系数多帧联合量化模块105相连,并分别提供基音周期、子带浊音强度、短时能量、线性预测系数这四项参数。子带浊音多帧联合量化模块103与参数提取模块101和反量化模块106相连,103模块接收来自参数提取模块101的子带浊音强度并将其量化,量化后的值由反量化模块106进行反量化,反量化后的子带浊音强度由编码模式判决模块107进行编码模式判决。编码模式判决模块107分别与基音周期多帧联合量化模块102、短时能量多帧联合量化模块104、线性预测系数多帧联合量化模块105相连,并提供编码模式判决的结果。基音周期多帧联合量化模块102、短时能量多帧联合量化模块104、线性预测系数多帧联合量化模块105分别根据编码模式进行多帧联合量化,量化后的结果进行比特流打包,即完成了编码设备的语音编码。
如前所述,本发明的低码率语音编码器能工作在600bps和300bps两种码率。在每种码率情况下,编码器根据超级帧中清浊音的数量来决定编码模式。
在600bps的编码方案中,4帧组成一个超级帧,共分为4种编码模式:模式1为全清音帧、模式2为只有1个浊音帧、模式3为只有1个清音帧、模式4为全浊音帧,具体描述列在表1中,说明部分U代表清音,V代表浊音。针对不同的编码模式每项参数在量化时所分配的比特率不同,在模式2中只有一个浊音帧,只有一个基音周期参数,因此采用标量量化,其他模式和其余参数均采用基于预测的矢量量化方法,具体描述见表2。
编解码模式 清/浊音模式 说明
模式1 全清音帧 {UUUU}
模式2 1个浊音帧 4种,具体略
模式3 1个清音帧 10种,具体略
模式4 全浊音 {VVVV}
表1
表2
在300bps的编码方案中,8帧组成一个超级帧,并将长度为8的超级帧F={f1,f2,f3,f4,f5,f6,f7,f8}分为两个长度为4的子超级帧Fs1={f1,f2,f3,f4}、Fs2={f5,f6,f7,f8}。一共分为4种编码模式:模式1为F中全为清音帧、模式2为F中只有1个浊音帧、模式3为Fs1或Fs2为全清音帧、模式4为Fs1和Fs2中都至少有1个浊音帧,具体描述列在表3中。与600bps的方案一样,针对不同的编码模式每项参数在量化时所分配的比特率不同,具体描述见表4。
表3
表4
如图2所示为本发明基于模式的帧间预测矢量量化示意图,包括码本模式判决模块201、码本选择模块202、参数帧间预测器203、矢量量化模块204。其中码本选择模块202根据模块201判决的编码模式选择相应的码本,然后将码本输出给矢量量化模块204。参数帧间预测器203与矢量量化模块204相连,参数帧间预测器203根据多帧联合参数和预先估计的预测系数进行帧间预测,并将预测后的残差输出给矢量量化模块204。矢量量化模块204根据码本选择模块202的码本、参数帧间预测器203的残差和预设的权值进行矢量量化,量化的结果(码本索引)即为最终的量化值。
如图3所示为LSF矢量量化示意图,其为图2基于模式的帧间预测矢量量化的特例,由去均值模块301、LSF帧内预测器302、LSF帧间预测器303、矢量量化模块304、自适应权重计算模块305组成。去均值模块301将LSF系数矢量与预先统计的LSF均值矢量相减,得到动态范围更小的LSF系数作为LSF帧内预测器模块302的输入。LSF帧内预测器302根据301模块的输出和预先估计的帧内预测系数进行帧内预测,从而去除LSF系数帧内10维矢量间的相关性,得到的残差作为LSF帧间预测器303的输入。LSF帧间预测器303根据LSF帧内预测器302的残差和预先估计的帧间预测系数进行帧间预测,从而去除各帧之间LSF系数的相关性,得到的残差作为模块304的输入。自适应权重计算模块305根据LPC系数计算LSF各分量的预测滤波器功率谱,并在不同的分量以不同的固定系数开方和相乘,得到的结果即为矢量量化模块304进行码本搜索时所用的权值。码本选择过程与图2基于模式的帧间预测矢量量化一致。矢量量化模块304根据LSF帧间预测器303的残差和自适应权重计算模块305的权值进行矢量量化,其量化的结果(码本索引)即为最终的LSF量化值。
如图4所示为解码器总体框图,其中包括子带清浊音反量化模块401、解码模式判决模块402、基音周期反量化模块403、线性预测系数反量化模块404、短时能量反量化模块405、清浊音联合判决模块406、激励信号生成器407、自适应谱增强器408、LPC合成滤波器409以及语音信号后处理模块410。解码模式判决模块402分别与子带清浊音反量化模块401、基音周期反量化模块403、线性预测系数反量化模块404、短时能量反量化模块405相连,解码模式判决模块402根据子带清浊音反量化模块401的清浊音数量来判决解码模式。基音周期反量化模块403、线性预测系数反量化模块404、短时能量反量化模块405分别根据解码模式判决模块402的解码模式选择不同的码本进行解码,分别得到基音周期、线性预测系数、短时能量三项参数。清浊音联合判决模块406分别与子带清浊音反量化模块401、线性预测系数反量化模块404、短时能量反量化模块405相连,并根据这三个模块提供的参数进行清浊音联合判决。激励信号生成器407根据清浊音联合判决模块406的清浊音信息和基音周期反量化模块403的基音周期信息,在五个子带生成混合的激励信号。自适应谱增强器408对激励信号生成器407生成的激励信号进行自适应谱增强,突出激励信号谱共振峰频率处的谱幅度,以达到信号增强的目的。LPC合成滤波器409根据线性预测系数对增强后的激励信号进行线性预测合成,并根据信号的短时能量调整增益,以保证合成的语音信号能量与原始的匹配。语音信号后处理模块410由一个脉冲散布滤波器和一个截止频率为60Hz的高通滤波器组成。脉冲散布滤波器用于降低基音周期附近的峰谷比以降低合成语音的蜂鸣声,高通滤波器用于去除各种参数量化带来的信号直流分量。
图5为本发明的清浊音联合判决示意图,即为图4中所示的清浊音联合判决模块406的详细结构,其中包括清浊音恢复算法模块501、联合判决模块502。清浊音恢复算法模块501由LPC倒谱计算、高斯混合模型计算及门限判决三个子模块组成,如图所示清浊音恢复算法模块501根据LPC系数、短时能量两项信息使用高斯混合模型计算出为浊音的概率,然后将此概率与门限值进行比较,得到恢复的清浊音信息。联合判决模块502根据反量化的结果和恢复的结果进行联合判决,判决的方法为将两项的结果按照一定的权值进行相加,得到最终更为准确的清浊音信息/子带清浊音信息。
以下结合附图对本发明的语音编解码算法工作流程进行详细描述。
图1所示编码端的输入为采样率为8kHz、16bit量化的PCM原始语音信号,经过预处理模块后滤除100Hz以下的直流、工频信号以及其他干扰信号。预处理后的语音信号作为参数提取模块101的输入,参数提取模块101中的四个子模块分别提取基音周期、子带浊音强度、短时能量、线性预测系数四项参数。这四项参数分别对应作为基音周期多帧联合量化模块102、子带浊音多帧联合量化模块103、短时能量多帧联合量化模块104、线性预测系数多帧联合量化模块105的输入。子带浊音多帧联合量化模块103先对子带浊音进行多帧联合量化,然后进行反量化。编码模式判决模块107对反量化后超级帧中的清浊音个数进行统计,根据清浊音的数量来决定编码模式。编码模式判决模块107是根据量化、再反量化后的清浊音进行判决,而不是在原始提取的清浊进行判决,是为了保持编解码端编解码模式的一致性。
基音周期多帧联合量化模块102在对基音周期进行多帧联合矢量量化时采用的是如图2所示的帧间预测矢量量化方法。码本选择模块202根据码本模式判决模块201判决的编码模式选择相应的码本,然后将码本输出给矢量量化模块204。参数帧间预测器203根据多帧联合的基音周期和预先估计的基音周期预测系数进行帧间预测,并将基音周期的预测残差输出给矢量量化模块204。矢量量化模块204根据码本选择模块202的码本、参数帧间预测器203的残差和预设的权值进行矢量量化,量化的结果(码本索引)即为基音周期最终的量化值。
短时能量多帧联合量化模块104在对短时能量进行多帧联合矢量量化的过程与基音多帧联合量化模块102对基音周期的量化过程基本一致,在此不在赘述。
线性预测系数多帧联合量化模块105在对线性预测系数进行多帧联合矢量量化时采用的是如图3所示量化方法。线性预测首先转换为LSF系数,然后由去均值模块301将LSF系数与预先统计的LSF均值相减,得到的差值作为LSF帧间预测器302的输入。LSF帧内预测器302根据去均值模块301的输出和预先估计的帧内预测系数进行帧内预测,得到的残差作为LSF帧间预测器303的输入。LSF帧间预测器303根据LSF帧内预测器302的残差和预先估计的帧间预测系数进行帧间预测,得到的残差作为矢量量化模块304的输入。经过去均值、帧内预测、帧间预测这三步,使得LSF系数的动态范围更小,并有效地去除了LSF系数帧内10维矢量间的相关性和LSF系数各帧之间的相关性。自适应权重计算模块305根据LPC系数计算LSF各分量的预测滤波器功率谱,并在不同的分量以不同的固定系数开方和相乘,得到的结果即为模块304进行码本搜索时所用的权值。矢量量化模块304的工作过程与图2中矢量量化模块204的工作过程基本一致,在此不再赘述。量化的结果(码本索引)即为最终的LSF量化值。
最后,编码器将基音周期多帧联合量化模块102、子带清浊音多帧联合量化模块103、短时能量多帧联合量化模块104、线性预测系数多帧联合量化模块105这四个模块对参数的多帧联合量化结果打包送入信道编码器。
如图4所示的解码器端从信道解码器中得到待解码的各项参数,子带清浊音反量化模块401、解码模式判决模块402、基音周期反量化模块403、线性预测系数反量化模块404、短时能量反量化模块405的反量化的过程为编码端的各项参数量化过程的逆过程。首先从子带清浊音反量化模块401得到超级帧的清浊音信息,然后解码模式判决模块402利用该清浊信息得到解码模式。基音周期反量化模块403、线性预测系数反量化模块404、短时能量反量化模块405分别解码模式选择不同的码本进行解码,分别得到基音周期、线性预测系数、短时能量三项参数。
清浊音联合判决模块406根据子带清浊音反量化模块401的清浊音信息、线性预测系数反量化模块404的线性预测系数、短时能量反量化模块405的短时能量三项参数进行清浊音联合判决,其示意图如图5所示。清浊音恢复算法模块501由LPC倒谱计算、高斯混合模型计算及门限判决三个子模块组成,如图所示清浊音恢复算法模块501根据LPC系数、短时能量两项信息使用高斯混合模型计算出为浊音的概率,然后将此概率与门限值进行比较,得到恢复的清浊音信息。联合判决模块502根据反量化的结果和恢复的结果进行联合判决,判决的方法为将两项的结果按照一定的权值进行相加,得到最终更为准确的清浊音信息/子带清浊音信息。
激励信号生成器407根据清浊音联合判决模块406的清浊音信息和基音周期反量化模块403的基音周期信息,在五个子带生成混合的激励信号。自适应谱增强器408对激励信号生成器模块407生成的激励信号进行自适应谱增强,突出激励信号谱共振峰频率处的谱幅度,以达到信号增强的目的。增强后的激励信号通过LPC合成滤波器409得到合成信号,并根据信号的短时能量调整增益,以保证合成的语音信号能量与原始的匹配。合成的语音信号由后处理模块410进行后处理,先通过脉冲散布滤波器降低基音周期附近的峰谷比,以降低合成语音的蜂鸣声,再通过高通滤波器去除各种参数量化带来的信号直流分量。经过后处理的语音信号即为最终的合成语音。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限与此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (13)

1.一种极低码率语音编解码设备,包括一编码设备和一解码设备,用于语音信号的编解码,其特征在于,所述编码设备和所述解码设备包括:
基音周期处理模块,用以接收和处理所述语音信号中的基音周期参数;
子带清浊音处理模块,用以接收和处理所述语音信号中的子带清浊音参数;
短时能量处理模块,用以接收和处理所述语音信号中的短时能量参数;
线性预测系数处理模块,用以接收和处理所述语音信号中的线性预测系数参数;
模式判决模块,连接所述基音周期处理模块、子带清浊音处理模块、短时能量处理模块、线性预测系数处理模块,用以根据所述子带清浊音参数中的子带清浊音数量判决所述极低码率语音编解码设备的编码模式或解码模式;
其中,在所述编码设备中,所述模式判决模块根据所述子带清浊音参数中的子带清浊音数量,判决所述极低码率语音编解码设备的编码模式,所述基音周期处理模块、子带清浊音处理模块、短时能量处理模块、线性预测系数处理模块根据所述编码模式,分别对所述基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数分配对应的比特率进行多帧联合量化,所述编码设备对多帧联合量化后的所述基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数进行比特流打包,以完成编码;
在所述解码设备中,所述模式判决模块根据所述子带清浊音参数中的子带清浊音数量,判决所述极低码率语音编解码设备的解码模式,所述基音周期处理模块、子带清浊音处理模块、短时能量处理模块、线性预测系数处理模块根据所述解码模式,分别对所述基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数分配对应的比特率进行反量化,所述解码设备根据反量化后的所述子带清浊音参数、短时能量参数、线性预测系数参数进行清浊音联合判决,根据所述清浊音联合判决模块的清浊音联合判决结果和反量化后的所述基音周期参数生成激励信号,并对所述激励信号进行自适应谱增强,突出所述激励信号的谱共振峰频率处的谱幅度,用以增强所述激励信号,根据反量化后的所述线性预测系数参数对增强后的所述激励信号进行线性预测合成一解码语音信号,并根据反量化后的所述短时能量参数调整增益,以使所述解码语音信号与所述语音信号匹配;
所述根据所述子带清浊音参数中的子带清浊音数量判决所述极低码率语音编解码设备的编码模式或解码模式包括:将所述语音信号中的多帧组成一超级帧,根据所述超级帧中的清浊音帧的不同数量,在编码或解码过程中分配给所述基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数不同的比特率。
2.根据权利要求1所述的一种极低码率语音编解码设备,其特征在于,还包括:
码本模式判决模块,连接所述模式判决模块,用以根据所述子带清浊音参数中的子带清浊音数量判决所述极低码率语音编解码设备的编码模式或解码模式;
码本选择模块,连接所述码本模式判决模块,用以根据所述编码模式或解码模式选择对应的码本;
参数帧间预测器,用以根据多帧所述基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数和一预设的预测系数进行帧间预测,获得一残差;
矢量量化模块,连接所述参数帧间预测器和所述码本选择模块,用以根据选择的码本、所述残差以及预设的权值进行矢量量化,并根据量化的结果进行码本引索。
3.根据权利要求1所述的一种极低码率语音编解码设备,其特征在于,还包括:
码本模式判决模块,连接所述模式判决模块,用以根据所述子带清浊音参数中的子带清浊音数量判决所述极低码率语音编解码设备的编码模式或解码模式;
码本选择模块,连接所述码本模式判决模块,用以根据所述编码模式或解码模式选择对应的码本;
去均值模块,用以将多帧所述基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数的线谱频率系数与一预设的线谱频率系数均值相减,获得动态范围更小的线谱频率系数;
线谱频率帧内预测器,连接所述去均值模块,根据所述动态范围更小的线谱频率系数以及一预设的线谱频率帧内系数进行帧内预测,获得一第一残差;
线谱频率帧间预测器,连接所述线谱频率帧内预测器,根据所述第一残差和一预设的线谱频率帧间系数进行帧间预测,获得一第二残差;
自适应权值计算模块,用以根据所述线性预测系数计算线谱频率中各分量的预测滤波器功率谱,不同的分量以不同的系数开方和相乘,得到的结果作为权值;
矢量量化模块,连接所述线谱频率帧间预测器、所述码本选择模块、自适应权值计算模块,用以根据选择的码本、所述残差以及计算得到的权值进行矢量量化,并根据量化的结果进行码本引索。
4.根据权利要求1所述的一种极低码率语音编解码设备,其特征在于,所述编码设备还包括一反量化模块,连接在所述子带清浊音多帧联合量化模块与所述模式判决模块之间,用以将多帧联合量化后的所述语音信号中的子带清浊音参数进行反量化,传输给所述模式判决模块,以保持所述编码设备和所述解码设备的一致性。
5.一种极低码率语音编码设备,用于语音信号的编码,其特征在于,包括:
基音周期多帧联合量化模块,用以接收和多帧联合量化所述语音信号中的基音周期参数;
子带清浊音多帧联合量化模块,用以接收和多帧联合量化所述语音信号中的子带清浊音参数;
短时能量多帧联合量化模块,用以接收和多帧联合量化所述语音信号中的短时能量参数;
线性预测系数处理模块,用以接收和多帧联合量化所述语音信号中的线性预测系数参数;
模式判决模块,连接所述基音周期多帧联合量化模块、子带清浊音多帧联合量化模块、短时能量多帧联合量化模块、线性预测系数多帧联合量化模块,用以根据所述子带清浊音参数中的子带清浊音数量判决所述极低码率语音编码设备的编码模式;
参数提取模块,连接所述基音周期多帧联合量化模块、子带清浊音多帧联合量化模块、短时能量多帧联合量化模块、线性预测系数多帧联合量化模块,用以接收并提取所述语音信号中的基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数,分别传输给所述基音周期多帧联合量化模块、子带清浊音多帧联合量化模块、短时能量多帧联合量化模块、线性预测系数多帧联合量化模块;
反量化模块,连接在所述子带清浊音多帧联合量化模块与所述模式判决模块之间,用以将多帧联合量化后的所述语音信号中的子带清浊音参数进行反量化,传输给所述模式判决模块。
6.根据权利要求5所述的一种极低码率语音编码设备,其特征在于,还包括:
码本模式判决模块,连接所述模式判决模块,用以根据所述子带清浊音参数中的子带清浊音数量判决所述极低码率语音编码设备的编码模式;
码本选择模块,连接所述码本模式判决模块,用以根据所述编码模式选择对应的码本;
参数帧间预测器,用以根据多帧所述基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数和一预设的预测系数进行帧间预测,获得一残差;
矢量量化模块,连接所述参数帧间预测器和所述码本选择模块,用以根据选择的码本、所述残差以及预设的权值进行矢量量化,并根据量化的结果进行码本引索。
7.根据权利要求5所述的一种极低码率语音编码设备,其特征在于,还包括:
码本模式判决模块,连接所述模式判决模块,用以根据所述子带清浊音参数中的子带清浊音数量判决所述极低码率语音编码设备的编码模式;
码本选择模块,连接所述码本模式判决模块,用以根据所述编码模式选择对应的码本;
去均值模块,用以将多帧所述基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数的线谱频率系数与一预设的线谱频率系数均值相减,获得动态范围更小的线谱频率系数;
线谱频率帧内预测器,连接所述去均值模块,根据所述动态范围更小的线谱频率系数以及一预设的线谱频率帧内系数进行帧内预测,获得一第一残差;
线谱频率帧间预测器,连接所述线谱频率帧内预测器,根据所述第一残差和一预设的线谱频率帧间系数进行帧间预测,获得一第二残差;
自适应权值计算模块,用以根据所述线性预测系数计算线谱频率中各分量的预测滤波器功率谱,不同的分量以不同的系数开方和相乘,得到的结果作为权值;
矢量量化模块,连接所述线谱频率帧间预测器、所述码本选择模块、自适应权值计算模块,用以根据选择的码本、所述残差以及计算得到的权值进行矢量量化,并根据量化的结果进行码本引索。
8.一种极低码率语音解码设备,用于对一经过编码的第一语音信号进行解码,其特征在于,包括:
基音周期反量化模块,用以接收和反量化所述第一语音信号中的基音周期参数;
子带清浊音反量化模块,用以接收和反量化所述第一语音信号中的子带清浊音参数;
短时能量反量化模块,用以接收和反量化所述第一语音信号中的短时能量参数;
线性预测系数反量化模块,用以接收和反量化所述第一语音信号中的线性预测系数参数;
解码模式判决模块,连接所述基音周期反量化模块、子带清浊音反量化模块、短时能量反量化模块、线性预测系数反量化模块,用以根据反量化后的所述子带清浊音参数中的子带清浊音数量判决所述极低码率语音解码设备的解码模式;
清浊音联合判决模块,连接所述子带清浊音反量化模块、短时能量反量化模块、线性预测系数处理模块,根据反量化后的所述子带清浊音参数、短时能量参数、线性预测系数参数进行清浊音联合判决;
激励信号生成器,连接所述清浊音联合判决模块和所述基音周期反量化模块,根据所述清浊音联合判决模块的清浊音联合判决结果和反量化后的所述基音周期参数生成激励信号;
自适应谱增强模块,连接所述激励信号生成器,根据所述激励信号进行自适应谱增强,突出所述激励信号的谱共振峰频率处的谱幅度,用以增强所述激励信号;
线性预测编码合成滤波器,连接所述自适应谱增强模块、线性预测系数处理模块、短时能量反量化模块,根据反量化后的所述线性预测系数参数对增强后的所述激励信号进行线性预测合成一第二语音信号,并根据反量化后的所述短时能量参数调整增益,以使所述第二语音信号与所述第一语音信号匹配。
9.根据权利要求8所述的一种极低码率语音解码设备,其特征在于,还包括:
码本模式判决模块,连接所述解码模式判决模块,用以根据所述子带清浊音参数中的子带清浊音数量判决所述极低码率语音解码设备的解码模式;
码本选择模块,连接所述码本模式判决模块,用以根据所述解码模式选择基音周期反量化模块、子带清浊音反量化模块、短时能量反量化模块各自对应的码本。
10.根据权利要求8所述的一种极低码率语音解码设备,其特征在于,所述清浊音联合判决模块包括:
清浊音恢复算法子模块和联合判决子模块,清浊音恢复算法子模块由线性预测编码倒谱计算、高斯混合模型计算及门限判决三个部分组成,清浊音回复算法子模块根据线性预测编码系数、短时能量两项信息使用高斯混合模型计算出为浊音的概率,然后将此概率与一门限值进行比较,得到恢复的清浊音信息,联合判决模块根据所述子带清浊音反量化模块的结果和恢复的结果进行联合判决,将所述子带清浊音反量化模块的结果和恢复的结果按照预设的权值进行相加,得到最终更为准确的清浊音信息和子带清浊音信息。
11.一种极低码率语音编解码方法,其特征在于,包括编码步骤和解码步骤;
所述编码步骤包括:
S1、将一语音信号中的多帧组成一超级帧,根据所述超级帧中的清浊音帧的不同数量,决定编码模式;
S2、根据所述编码模式,对所述语音信号中的基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数分配对应的比特率进行多帧联合量化;
S3、对多帧联合量化后的基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数进行比特流打包,以完成编码;
所述解码步骤包括:
S4、对所述经过编码的语音信号中的多帧联合量化后的子带清浊音数量进行反量化,根据反量化后的子带清浊音数量决定解码模式,以保持编解码的一致性;
S5、根据所述解码模式,对所述经过编码的语音信号中的多帧联合量化后的基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数分配对应的比特率进行反量化;
S6、根据反量化后的所述子带清浊音参数、短时能量参数、线性预测系数参数进行清浊音联合判决;
S7、根据所述清浊音联合判决模块的清浊音联合判决结果和反量化后的所述基音周期参数生成激励信号,并对所述激励信号进行自适应谱增强,突出所述激励信号的谱共振峰频率处的谱幅度,用以增强所述激励信号;
S8、根据反量化后的所述线性预测系数参数对增强后的所述激励信号进行线性预测合成一解码语音信号,并根据反量化后的所述短时能量参数调整增益,以使所述解码语音信号与所述语音信号匹配。
12.根据权利要求11所述的一种极低码率语音编解码方法,其特征在于,在步骤S2或S5中包括:
根据所述编码模式或解码模式选择对应的码本;
根据多帧所述基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数和一预设的预测系数进行帧间预测,获得一残差;
根据选择的码本、所述残差以及预设的权值进行矢量量化或反量化,并根据量化或反量化的结果进行码本引索。
13.根据权利要求11所述的一种极低码率语音编解码方法,其特征在于,在步骤S2或S5中包括:
根据所述编码模式或解码模式选择对应的码本;
将多帧所述基音周期参数、子带清浊音参数、短时能量参数、线性预测系数参数的线谱频率系数与一预设的线谱频率系数均值相减,获得动态范围更小的线谱频率系数;
根据所述动态范围更小的线谱频率系数以及一预设的线谱频率帧内系数进行帧内预测,获得一第一残差;
根据所述第一残差和一预设的线谱频率帧间系数进行帧间预测,获得一第二残差;
根据所述线性预测系数计算线谱频率中各分量的预测滤波器功率谱,不同的分量以不同的系数开方和相乘,得到的结果作为权值;
根据选择的码本、所述第二残差以及计算得到的权值进行矢量量化或反量化,并根据量化或反量化的结果进行码本引索。
CN201310224360.5A 2013-06-05 2013-06-05 一种极低码率语音编解码设备及编解码方法 Active CN103325375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310224360.5A CN103325375B (zh) 2013-06-05 2013-06-05 一种极低码率语音编解码设备及编解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310224360.5A CN103325375B (zh) 2013-06-05 2013-06-05 一种极低码率语音编解码设备及编解码方法

Publications (2)

Publication Number Publication Date
CN103325375A CN103325375A (zh) 2013-09-25
CN103325375B true CN103325375B (zh) 2016-05-04

Family

ID=49194073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310224360.5A Active CN103325375B (zh) 2013-06-05 2013-06-05 一种极低码率语音编解码设备及编解码方法

Country Status (1)

Country Link
CN (1) CN103325375B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854655B (zh) * 2013-12-26 2016-10-19 上海交通大学 一种低码率语音编码器以及解码器
CN104934034B (zh) 2014-03-19 2016-11-16 华为技术有限公司 用于信号处理的方法和装置
CN107452390B (zh) * 2014-04-29 2021-10-26 华为技术有限公司 音频编码方法及相关装置
PL3786949T3 (pl) * 2014-05-01 2022-05-02 Nippon Telegraph And Telephone Corporation Kodowanie sygnału dźwiękowego
WO2015170899A1 (ko) * 2014-05-07 2015-11-12 삼성전자 주식회사 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
CN104077505A (zh) * 2014-07-16 2014-10-01 苏州博联科技有限公司 一种提高16Kbps码率音频数据压缩编码音质方法
CN108109629A (zh) * 2016-11-18 2018-06-01 南京大学 一种基于线性预测残差分类量化的多描述语音编解码方法和系统
WO2019000178A1 (zh) * 2017-06-26 2019-01-03 华为技术有限公司 一种丢帧补偿方法及设备
CN109256143A (zh) * 2018-09-21 2019-01-22 西安蜂语信息科技有限公司 语音参数量化方法、装置、计算机设备和存储介质
CN109448739B (zh) * 2018-12-13 2019-08-23 山东省计算中心(国家超级计算济南中心) 基于分层聚类的声码器线谱频率参数量化方法
CN109346093B (zh) * 2018-12-17 2019-09-03 山东省计算中心(国家超级计算济南中心) 一种低速率声码器子带清浊音参数提取与量化的融合方法
CN112270934B (zh) * 2020-09-29 2023-03-28 天津联声软件开发有限公司 一种nvoc低速窄带声码器的语音数据处理方法
US20230154474A1 (en) * 2021-11-17 2023-05-18 Agora Lab, Inc. System and method for providing high quality audio communication over low bit rate connection
CN114974203B (zh) * 2022-05-16 2024-08-23 山东省科技发展战略研究所 基于声道信息聚类的基音周期矢量多模式量化方法及系统
CN117423348B (zh) * 2023-12-19 2024-04-02 山东省计算中心(国家超级计算济南中心) 基于深度学习和矢量预测的语音压缩方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614686A (zh) * 2004-11-12 2005-05-11 清华大学 一种超帧声道参数矢量量化方法
CN1632863A (zh) * 2004-12-03 2005-06-29 清华大学 一种超帧声道参数平滑和抽取矢量量化的方法
CN101030377A (zh) * 2007-04-13 2007-09-05 清华大学 提高声码器基音周期参数量化精度的方法
CN101261835A (zh) * 2008-04-25 2008-09-10 清华大学 基于超帧模式的多矢量多码本尺寸联合优化方法
CN101295507A (zh) * 2008-04-25 2008-10-29 清华大学 带级间预测的超帧声道参数多级矢量量化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614686A (zh) * 2004-11-12 2005-05-11 清华大学 一种超帧声道参数矢量量化方法
CN1632863A (zh) * 2004-12-03 2005-06-29 清华大学 一种超帧声道参数平滑和抽取矢量量化的方法
CN101030377A (zh) * 2007-04-13 2007-09-05 清华大学 提高声码器基音周期参数量化精度的方法
CN101261835A (zh) * 2008-04-25 2008-09-10 清华大学 基于超帧模式的多矢量多码本尺寸联合优化方法
CN101295507A (zh) * 2008-04-25 2008-10-29 清华大学 带级间预测的超帧声道参数多级矢量量化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Mode-based quantization of LP parameters for very low bit rate vocoder;Ming Zhao, Kun Tang, Huijuan Cui;《IEEE 2002 International Conference on Communications, Circuits and Systems and West Sino Expositions》;20021231;28-31 *
正弦激励线性预测声码器子带清浊音模糊判决;李晔,洪侃,王童,崔慧娟,唐昆.;《清华大学学报(自然科学版》;20080731;1101-1103 *
超低速率语音编码的研究;肖云杰;《上海交通大学硕士论文》;20130501;全文 *
超低速率语音编码算法研究;何洪华;《清华大学硕士论文》;20110501;全文 *

Also Published As

Publication number Publication date
CN103325375A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN103325375B (zh) 一种极低码率语音编解码设备及编解码方法
CN101335000B (zh) 编码的方法及装置
EP1222659B1 (en) Lpc-harmonic vocoder with superframe structure
JP3490685B2 (ja) 広帯域信号の符号化における適応帯域ピッチ探索のための方法および装置
CN102341852B (zh) 滤波语音信号的方法和滤波器
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
US8392178B2 (en) Pitch lag vectors for speech encoding
US8396706B2 (en) Speech coding
CN103050121A (zh) 线性预测语音编码方法及语音合成方法
CA2952888A1 (en) Improving classification between time-domain coding and frequency domain coding
CN105118513A (zh) 一种基于混合激励线性预测MELP的1.2kb/s低速率语音编解码方法
US6687667B1 (en) Method for quantizing speech coder parameters
WO2004090864A2 (en) Method and apparatus for the encoding and decoding of speech
US20020095284A1 (en) System of dynamic pulse position tracks for pulse-like excitation in speech coding
Krishnan et al. EVRC-Wideband: the new 3GPP2 wideband vocoder standard
CN101651752B (zh) 解码的方法及装置
Huo et al. A novel push-to-talk service over Beidou-3 satellite navigation system
Villette et al. A 2.4/1.2 kbps SB-LPC based speech coder: the Turkish NATO STANAG candidate
Zou et al. High quality 0.6/1.2/2.4 kbps multi-band lpc speech coding algorithm
Ma et al. 400bps High-Quality Speech Coding Algorithm
Li et al. A new distortion measure for parameter quantization based on MELP
Zou et al. A 300bps speech coding algorithm based on multi-mode matrix quantization
Ritz et al. Wideband Speech Coding at 4 kbps using Waveform Interpolation
Liang et al. A new 1.2 kb/s speech coding algorithm and its real-time implementation on TMS320LC548
Viswanathan et al. A harmonic deviations linear prediction vocoder for improved narrowband speech transmission

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant