CN102522092A - 一种基于g.711.1的语音带宽扩展的装置和方法 - Google Patents

一种基于g.711.1的语音带宽扩展的装置和方法 Download PDF

Info

Publication number
CN102522092A
CN102522092A CN2011104223861A CN201110422386A CN102522092A CN 102522092 A CN102522092 A CN 102522092A CN 2011104223861 A CN2011104223861 A CN 2011104223861A CN 201110422386 A CN201110422386 A CN 201110422386A CN 102522092 A CN102522092 A CN 102522092A
Authority
CN
China
Prior art keywords
mdct coefficient
module
frame
coefficient
mdct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104223861A
Other languages
English (en)
Other versions
CN102522092B (zh
Inventor
陈喆
殷福亮
赵承勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN2011104223861A priority Critical patent/CN102522092B/zh
Publication of CN102522092A publication Critical patent/CN102522092A/zh
Application granted granted Critical
Publication of CN102522092B publication Critical patent/CN102522092B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于G.711.1的语音带宽扩展的装置和方法。本发明将G.711.1协议中的高频语音码流进一步压缩,将压缩后的数据使用最低有效位的水印嵌入算法嵌入到窄带语音的编码码流中,解码端使用提取出的高频码流合成宽带语音的高频部分,从而得到宽带语音。本发明提供了分层编码的新解决方案,在窄带语音的传输中建立一条隐藏的信道,用于传输分层编码协议中高频信号的编码码流。这样既利用了分层编码得出宽带语音听觉效果好的优势,同时不会改变现有网络的传输速率。经仿真测试,该方法得到的宽带语音引入的高频噪声小,听觉效果跟原始宽带语音相差极小。

Description

一种基于G.711.1的语音带宽扩展的装置和方法
技术领域
本发明涉及语音处理领域,特别涉及一种基于G.711.1的语音带宽扩展的装置和方法。
背景技术
通常,人类语音在50Hz到8kHz频率之间包含了主要的感知能量。然而,目前电话网络中传输语音的带宽小于4kHz,频带被限制在300Hz到3400Hz之间,这种带宽的语音成为窄带语音。窄带语音在保证一定可懂度的同时,降低了对通信带宽的要求,但是由于窄带语音没有原始语音的高频分量,这种语音听起来不够自然。随着技术的发展,在要求语音质量较高的场合,如电话会议,已经开始使用宽带语音通信。在向宽带语音通信的升级过程中,大范围的更换通信设备是既花费高又耗费时间的。在窄带语音向宽带语音过度期间,一个很好的解决方法是使用人工方式进行语音带宽扩展。
多数的带宽扩展方法是基于预测的源-滤波器模型的方法,该方法是根据人类发声器官的特点,构造一个滤波器模型,用语音的窄带部分预测语音的高频分量。这种方法的缺点是预测出的高频分量不够准确,恢复出的宽带语音效果一般。
G.711.1是ITU提出的脉冲编码调制的宽带编解码协议,该协议有四种编码方案,实现了三种比特率的传输形式。在固定电话网中,传输编码码流速率是64kbps,只能使用G.711.1的第一种编码方式,这种方式和G.711协议完全一致。
基于预测的语音带宽扩展是根据窄带语音和宽带语音的相关性,用窄带语音对宽带语音进行预测,从而得到宽带语音。主流的方法有线性映射法、统计映射法和码本映射法。该技术只需在解码端对窄带语音进行处理,不改变通信协议和传输码流的格式和速率。
基于分层编码的语音带宽扩展技术是将宽带语音的高频部分进行参数编码,然后将编码后的数据进行压缩,使用额外的信道进行传输。由于该方法不改变窄带语音的编解码过程,同时增加了高频部分的信息,故得到的宽带语音效果较好。
现有技术的缺点:基于预测的语音带宽扩展技术虽然不改变原有窄带语音编码格式和码流速率,但由于宽带语音的高频部分是通过窄带语音进行预测得到的,所以这种方法得到的宽带语音与原始宽带语音的差别较大,同时会引入较大的高频噪声。基于分层编码的语音带宽扩展技术得到的宽带语音听觉效果较好,但这是以占用额外的通信信道带宽为代价的,在不改变原有网络设备和协议的情况下无法实现。
发明内容
针对现有两种主流带宽扩展方法的不足,本发明提供了一种基于G.711.1的语音带宽扩展的装置和方法。本发明将两者的优势结合在一起,弥补了两种技术的缺点,实现了一种基于G.711.1的语音带宽扩展方法。该方法将G.711.1协议中的高频语音码流进一步压缩,将压缩后的数据使用最低有效位的水印嵌入算法嵌入到窄带语音的编码码流中,解码端使用提取出的高频码流合成宽带语音的高频部分,从而得到宽带语音。
为了达到上述目的,本发明提供的一种基于G.711.1的语音带宽扩展的方法,将采样频率为16KHz的宽带输入语音信号通过一个双通道QMF分析滤波器模块,并降低采样频率,得到0~4KHz的窄带语音和4~8KHz的高频分量;窄带语音通过G.711编码模块产生传输的码流;从高频分量中提取出语音的MDCT系数,对其进行加权和归一化处理,处理后的参数使用矢量量化技术进行压缩,并对增益进行量化;将得到的索引值等信息嵌入到窄带码流中;在解码端提取出高频参数索引,进行参数的恢复、反归一化、反加权处理,得到高频参数恢复出高频分量,进而合成宽带语音。
步骤A. 预处理和QMF分析滤波模块,包括以下子步骤:
步骤A1.预处理模块:为了去除50Hz工频干扰和直流分量,首先将宽带语音通过一个高通滤波器:                                                
Figure 365406DEST_PATH_IMAGE001
经过滤波器后的语音为16KHz采样频率的宽带语音。
步骤A2.使用QMF分析滤波器组将宽带语音分成两个部分:0~8000Hz的窄带语音和8000~16000Hz的高频分量,并分别进行下采样;得到8kHz采样频率的窄带语音和高频分量。
其中,QMF分析滤波器模块使用32阶的FIR滤波器,高通滤波器模块
Figure 145143DEST_PATH_IMAGE002
是由低通滤波器模块
Figure 602669DEST_PATH_IMAGE003
频移得到,也就是使用复正弦序列
Figure 974964DEST_PATH_IMAGE004
调制,即:
Figure 797426DEST_PATH_IMAGE005
步骤B.提取和编码MDCT系数模块,包括以下子步骤:
步骤B1.提取MDCT系数模块:采用G.711.1中的方法,取5ms的高频分量作为一帧,每帧包含40个采样点,使用80个采样点的分析窗进行加窗处理,并进行部分重叠相加;高频分量的MDCT系数定义为:
其中,是分析窗,这里定义为:
   。  
为了减小MDCT系数的动态变换范围,使用归一化参数进行处理;归一化参数计算方法如下:
Figure 112553DEST_PATH_IMAGE009
步骤B2. 编码MDCT系数模块:使用单通道的码本对MDCT参数进行矢量量化,包括以下步骤:
首先,MDCT系数经过加权模块处理,得到加权后的MDCT系数
Figure 866882DEST_PATH_IMAGE010
为均方根因子,使用加权后的MDCT系数进行计算:
Figure 18957DEST_PATH_IMAGE012
归一化MDCT系数计算方法如下:
其中,
Figure 487165DEST_PATH_IMAGE014
是为了避免分母为零而加上的一个数,
Figure 27867DEST_PATH_IMAGE014
使用下面公式计算:
Figure 468076DEST_PATH_IMAGE015
得到归一化MDCT系数后,将40个系数分裂为6个6维矢量,其余4系数个置为0,对每个6维矢量进行矢量量化,码本中码字的个数为64,这样每个矢量用码字的序号表示只需6bit;这样每帧MDCT系数经矢量量化后占用36bit,量化后的增益IHg占8bit,每帧所有信息共使用44bit;一帧窄带信号有40个采样点,平均每个采样点嵌入1bit高频信息,然后将剩余的4bit均匀嵌入到一帧的码流中。
步骤C. 高频语音恢复与宽带语音合成模块,包括以下子步骤:
在解码端首先提取出的MDCT系数和增益的索引,然后使用索引对MDCT系数进行参数解码。
使用MDCT系数索引I(v)在码本中进行搜索,得到40个归一化的系数,前4个系数为0;使用增益索引得到增益值,经过反量化得到均方根因子,使用均方根因子对归一化的MDCT系数进行处理,得到归一化之前的系数:
Figure 95946DEST_PATH_IMAGE017
归一化之前的系数经过反加权处理,即除以对应点的加权系数,得到原始的MDCT系数
Figure 502656DEST_PATH_IMAGE018
。使用原始MDCT系数进行反变换:
Figure 797371DEST_PATH_IMAGE019
其中,
Figure 569018DEST_PATH_IMAGE020
是反变换之后没有加下一帧重叠窗时的时域信号,最终得到的高频部分的时域信号为:
其中,
Figure 464479DEST_PATH_IMAGE022
是重叠的分析窗,
Figure 380745DEST_PATH_IMAGE023
是上一帧没有经过窗函数的时域信号。
步骤D.水印的嵌入与提取模块,包括以下子步骤:
采用最低有效位嵌入算法将MDCT系数的索引和增益索引嵌入到窄带码流的最低位中;由于一帧信号有40个采样点,而嵌入水印的比特数为44bit,首先在每个采样点的最低位嵌入40bit;最后将4bit均匀的嵌入到一帧中的次低位。
提取水印时分别提取码流最低位的信息和4个采样点的次低位信息,从而得到嵌入的44bit MDCT系数。
步骤E.通过QMF合成滤波器组模块将接收的码流进行A律解码,得到8KHz采样频率的低频信号,将低频信号和恢复出的高频信号通过插值的方法将采样频率变为16KHz,分别将其通过低通和高通FIR滤波器;将两信号相加即得到最终16KHz采样频率的宽带信号。
本发明另提供一种基于G.711.1的语音带宽扩展的装置,包括:高通滤波器模块、QMF分析滤波器组模块、提取和编码MDCT模块、高频语音恢复与宽带语音合成模块、水印嵌入与提取模块以及QMF合成滤波器组模块。
所述高通滤波器模块将宽带语音通过一个高通滤波器:
Figure 385610DEST_PATH_IMAGE024
经过滤波器后的语音为16KHz采样频率的宽带语音,用于去除50Hz工频干扰和直流分量,
所述QMF分析滤波器组将宽带语音分成两个部分:0~8000Hz的窄带语音和8000~16000Hz的高频分量,并分别进行下采样;得到8kHz采样频率的窄带语音和高频分量。
其中,QMF分析滤波器模块使用32阶的FIR滤波器,高通滤波器模块
Figure 885861DEST_PATH_IMAGE025
是由低通滤波器模块频移得到,也就是使用复正弦序列调制,即:
Figure 512737DEST_PATH_IMAGE028
所述提取和编码MDCT模块用于提取MDCT系数、编码MDCT系数,具体的:
提取MDCT系数模块:采用G.711.1中的方法,取5ms的高频分量作为一帧,每帧包含40个采样点,使用80个采样点的分析窗进行加窗处理,并进行部分重叠相加;高频分量的MDCT系数定义为:
Figure 500284DEST_PATH_IMAGE029
其中,
Figure 724592DEST_PATH_IMAGE030
是分析窗,这里定义为:
   。  
为了减小MDCT系数的动态变换范围,使用归一化参数进行处理;归一化参数计算方法如下:
Figure 132757DEST_PATH_IMAGE032
编码MDCT系数:使用单通道的码本对MDCT参数进行矢量量化,包括以下步骤:
首先,MDCT系数经过加权处理,得到加权后的MDCT系数
Figure 199381DEST_PATH_IMAGE034
为均方根因子,使用加权后的MDCT系数进行计算:
归一化MDCT系数计算方法如下:
Figure 898533DEST_PATH_IMAGE036
其中,是为了避免分母为零而加上的一个数,
Figure 161204DEST_PATH_IMAGE037
使用下面公式计算:
得到归一化MDCT系数后,将40个系数分裂为6个6维矢量,其余4系数个置为0,对每个6维矢量进行矢量量化,码本中码字的个数为64,这样每个矢量用码字的序号表示只需6bit;这样每帧MDCT系数经矢量量化后占用36bit,量化后的增益IHg占8bit,每帧所有信息共使用44bit;一帧窄带信号有40个采样点,平均每个采样点嵌入1bit高频信息,然后将剩余的4bit均匀嵌入到一帧的码流中。
所述高频语音恢复与宽带语音合成模块在解码端首先提取出的MDCT系数和增益的索引,然后使用索引对MDCT系数进行参数解码。
使用MDCT系数索引I(v)在码本中进行搜索,得到40个归一化的系数,前4个系数为0;使用增益索引得到增益值,经过反量化模块得到均方根因子
Figure 151343DEST_PATH_IMAGE039
,使用均方根因子对归一化的MDCT系数进行处理,得到归一化之前的系数:
Figure 836664DEST_PATH_IMAGE040
归一化之前的系数经过反加权处理,即除以对应点的加权系数,得到原始的MDCT系数;使用原始MDCT系数进行反变换:
Figure 424957DEST_PATH_IMAGE042
其中,
Figure 284329DEST_PATH_IMAGE043
是反变换之后没有加下一帧重叠窗时的时域信号,最终得到的高频部分的时域信号为:
Figure 893165DEST_PATH_IMAGE044
其中,
Figure 427176DEST_PATH_IMAGE045
是重叠的分析窗,是上一帧没有经过窗函数的时域信号。
所述水印的嵌入与提取模块采用最低有效位嵌入算法将MDCT系数的索引和增益索引嵌入到窄带码流的最低位中;由于一帧信号有40个采样点,而嵌入水印的比特数为44bit,首先在每个采样点的最低位嵌入40bit;最后将4bit均匀的嵌入到一帧中的次低位。
提取水印时分别提取码流最低位的信息和4个采样点的次低位信息,从而得到嵌入的44bit MDCT系数。
所述QMF合成滤波器组模块将接收的码流进行A律解码,得到8KHz采样频率的低频信号,将低频信号和恢复出的高频信号通过插值的方法将采样频率变为16KHz,分别将其通过低通和高通FIR滤波器;将两信号相加即得到最终16KHz采样频率的宽带信号。
有益效果:本发明使用G.711.1的高频编解码,通过水印嵌入算法实现高频参数的隐藏传输,在不改变传输码流的前提下实现语音带宽扩展。该方法得到的宽带语音引入的高频噪声小,合成宽带语音的听觉效果更接近原始的宽带语音。听觉效果比窄带语音有了较大的提高。
附图说明
图1 本发明原理框图。
图2 本发明MDCT压缩编码框图。
图3 本发明MDCT系数参数解码框图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。
本实施例提供了分层编码的新解决方案,在窄带语音的传输中建立一条隐藏的信道,用于传输分层编码协议中高频信号的编码码流。这样既利用了分层编码得出宽带语音听觉效果好的优势,同时不会改变现有网络的传输速率。经仿真测试,该方法得到的宽带语音引入的高频噪声小,听觉效果跟原始宽带语音相差极小。
带宽扩展结构框图如图1所示。将采样频率为16KHz的宽带输入语音信号通过一个双通道QMF分析滤波器模块,并通过将采样模块,得到0~4KHz的窄带语音和4~8KHz的高频分量。窄带语音通过G.711编码模块产生传输的码流。从高频分量中提取出语音的MDCT系数,对其进行加权和归一化处理,处理后的参数通过矢量量化模块进行压缩,并对增益进行量化。将得到的索引值等信息嵌入到窄带码流中。在解码端提取出高频参数索引,进行参数的恢复、通过反归一化模块和反加权模块,得到高频参数恢复出高频分量,进而合成宽带语音。
本发明原理框图中涉及的各个模块介绍如下:
1、预处理和QMF滤波器组模块。
为了去除50Hz工频干扰和直流分量,首先将宽带语音通过一个高通滤波器:
Figure DEST_PATH_IMAGE047
经过滤波器后的语音为16KHz采样频率的宽带语音,而电话线上传输的是窄带语音,所以本文参考G711.1协议使用QMF分析滤波器组将宽带语音分成两个部分:0~8000Hz的窄带语音和8000~16000Hz的高频分量,并分别进行下采样。得到8kHz采样频率的窄带语音和高频分量。QMF分析滤波器使用32阶的FIR滤波器模块,高通滤波器模块
Figure 468131DEST_PATH_IMAGE048
是由低通滤波器模块
Figure 626580DEST_PATH_IMAGE026
频移得到,也就是使用复正弦序列
Figure DEST_PATH_IMAGE049
调制,即:
Figure 400501DEST_PATH_IMAGE050
2、提取和编码MDCT系数模块。
提取MDCT系数的方法采用G.711.1中的方法,取5ms的高频分量作为一帧,每帧包含40个采样点,使用80个采样点的分析窗进行加窗处理,并进行部分重叠相加。高频分量的MDCT系数定义为:
Figure DEST_PATH_IMAGE051
其中,
Figure 847048DEST_PATH_IMAGE052
是分析窗,这里定义为:
Figure DEST_PATH_IMAGE053
    。 
为了减小MDCT系数的动态变换范围,使用归一化参数进行处理。归一化参数计算方法如下:
Figure 110539DEST_PATH_IMAGE054
为了使MDCT系数嵌入到窄带码流后对原始语音影响较小,必须对MDCT系数进行压缩编码。在G.711.1协议中,使用双通道共轭结构的码本对MDCT参数进行矢量量化,其编码速率为16kbit/s。窄带码流的速率为64kbit/s,码流中平均每个采样点需要嵌入2bit高频信息。经测试,这样对原始语音的影响过大,违背了水印嵌入隐蔽性的要求。本方案考虑到嵌入水印信息不能过多,使用单通道的码本对MDCT参数进行矢量量化。MDCT压缩编码框图如图2所示。
首先,MDCT系数经过加权处理,得到加权后的MDCT系数
Figure DEST_PATH_IMAGE055
Figure 756284DEST_PATH_IMAGE056
为均方根因子,使用加权后的MDCT系数进行计算:
Figure 2011104223861100002DEST_PATH_IMAGE057
归一化MDCT系数计算方法如下:
Figure 835361DEST_PATH_IMAGE058
其中
Figure DEST_PATH_IMAGE059
是为了避免分母为零而加上的一个数,
Figure 617372DEST_PATH_IMAGE059
使用下面公式计算:
Figure 989448DEST_PATH_IMAGE060
得到归一化MDCT系数后,将40个系数分裂为6个6维矢量(其余4系数个置为0),对每个6维矢量进行矢量量化,码本中码字的个数为64,这样每个矢量用码字的序号表示只需6bit。这样每帧MDCT系数经矢量量化后占用36bit,量化后的增益IHg占8bit,每帧所有信息共使用44bit。一帧窄带信号有40个采样点,平均每个采样点嵌入1bit高频信息,然后将剩余的4bit均匀嵌入到一帧的码流中。
3、高频语音恢复与宽带语音合成模块。
在解码端首先提取出的MDCT系数和增益的索引,然后使用索引对MDCT系数进行参数解码。MDCT系数参数解码框图如图3所示。
使用MDCT系数索引I(v)在码本中进行搜索,得到40个归一化的系数(前4个系数为0)。使用增益索引得到增益值,经过反量化得到均方根因子
Figure DEST_PATH_IMAGE061
,使用均方根因子对归一化的MDCT系数进行处理,得到归一化之前的系数:
Figure 122489DEST_PATH_IMAGE062
归一化之前的系数经过反加权处理,即除以对应点的加权系数,得到原始的MDCT系数
Figure DEST_PATH_IMAGE063
。使用原始MDCT系数进行反变换:
Figure 739677DEST_PATH_IMAGE064
其中,
Figure DEST_PATH_IMAGE065
是反变换之后没有加下一帧重叠窗时的时域信号,最终得到的高频部分的时域信号为:
Figure 704091DEST_PATH_IMAGE066
其中,
Figure DEST_PATH_IMAGE067
是重叠的分析窗,
Figure 247068DEST_PATH_IMAGE068
是上一帧没有经过窗函数的时域信号。
4、水印的嵌入与提取模块。
由于嵌入水印的数量较多,而且电话传输时误码率较低,所以采用最低有效位嵌入算法将MDCT系数的索引和增益索引嵌入到窄带码流的最低位中。由于一帧信号有40个采样点,而嵌入水印的比特数为44bit,可以首先在每个采样点的最低位嵌入40bit。最后将4bit均匀的嵌入到一帧中的次低位。
提取水印时分别提取码流最低位的信息和4个采样点的次低位信息,从而得到嵌入的44bit MDCT系数。
5、QMF合成滤波器组模块。
将接收的码流进行A律解码,得到8KHz采样频率的低频信号,将低频信号和恢复出的高频信号通过插值的方法将采样频率变为16KHz,分别将其通过低通和高通FIR滤波器。将两信号相加即得到最终16KHz采样频率的宽带信号。由于在解码时,将40个归一化MDCT系数的前4个值设为0,所以合成宽带语音中7000~8000Hz频率之间频率成分很小,从而减小了高频部分的噪声。使得听觉效果较好。
小结:本发明利用G.711.1协议中对高频信号的处理,并对参数进行进一步的压缩,使用水印嵌入算法将压缩后的高频参数嵌入到窄带语音的编码码流中。宽带语音的高频部分引入的噪声很小,合成宽带语音的听觉效果有了较大的改善。
以上内容是结合优选技术方案对本发明所做的进一步详细说明,不能认定发明的具体实施仅限于这些说明。对本发明所属技术领域的普通技术人员来说,在不脱离本发明的构思的前提下,还可以做出简单的推演及替换,都应当视为本发明的保护范围。

Claims (2)

1.一种基于G.711.1的语音带宽扩展的方法,将采样频率为16KHz的宽带输入语音信号通过一个双通道QMF分析滤波器模块,并降低采样频率,得到0~4KHz的窄带语音和4~8KHz的高频分量;窄带语音通过G.711编码模块产生传输的码流;使用MDCT系数提取模块从高频分量中提取出语音的MDCT系数,将其通入加权模块和归一化模块进行处理,处理后的参数使用矢量量化模块进行压缩,并对增益进行量化;将得到的索引值等信息嵌入到窄带码流中;在解码端提取出高频参数索引,通入反归一化模块和反加权模块,得到的高频参数通入恢复高频分量模块,进而合成宽带语音;包括以下步骤:
步骤A. 预处理和QMF分析滤波模块,包括以下子步骤:
步骤A1.预处理模块:为了去除50Hz工频干扰和直流分量,首先将宽带语音通过一个高通滤波器:                                                
Figure 896219DEST_PATH_IMAGE001
经过滤波器后的语音为16KHz采样频率的宽带语音;
步骤A2.使用QMF分析滤波器组模块将宽带语音分成两个部分:0~8000Hz的窄带语音和8000~16000Hz的高频分量,并分别通入下采样模块;得到8kHz采样频率的窄带语音和高频分量;
其中,QMF分析滤波器模块使用32阶的FIR滤波器,高通滤波器模块
Figure 242887DEST_PATH_IMAGE002
是由低通滤波器模块
Figure 655414DEST_PATH_IMAGE003
频移得到,也就是使用复正弦序列
Figure 480150DEST_PATH_IMAGE004
调制,即:
Figure 225515DEST_PATH_IMAGE005
B.提取和编码MDCT系数模块,包括以下子步骤:
步骤B1.提取MDCT系数模块:采用G.711.1协议中的方法,取5ms的高频分量作为一帧,每帧包含40个采样点,使用80个采样点的分析窗进行加窗处理,并进行部分重叠相加;高频分量的MDCT系数定义为:
其中,
Figure 642907DEST_PATH_IMAGE007
是分析窗,这里定义为:
Figure 271334DEST_PATH_IMAGE008
   ;  
为了减小MDCT系数的动态变换范围,通入归一化参数模块进行处理;归一化参数计算方法如下:
Figure 369740DEST_PATH_IMAGE009
步骤B2. 编码MDCT系数模块:使用单通道的码本对MDCT参数进行矢量量化,包括以下步骤:
首先,MDCT系数通入加权处理模块,得到加权后的MDCT系数
Figure 995894DEST_PATH_IMAGE010
Figure 946794DEST_PATH_IMAGE011
为均方根因子,使用加权后的MDCT系数进行计算:
归一化MDCT系数计算方法如下:
Figure 331825DEST_PATH_IMAGE013
其中,是为了避免分母为零而加上的一个数,
Figure 800033DEST_PATH_IMAGE014
使用下面公式计算:
Figure 554885DEST_PATH_IMAGE015
得到归一化MDCT系数后,将40个系数分裂为6个6维矢量,其余4系数个置为0,对每个6维矢量通入矢量量化模块进行压缩,码本中码字的个数为64,这样每个矢量用码字的序号表示只需6bit;这样每帧MDCT系数经矢量量化后占用36bit,量化后的增益IHg占8bit,每帧所有信息共使用44bit;一帧窄带信号有40个采样点,平均每个采样点嵌入1bit高频信息,然后将剩余的4bit均匀嵌入到一帧的码流中;
C. 高频语音恢复与宽带语音合成模块,包括以下子步骤:
在解码端首先提取出的MDCT系数和增益的索引,然后使用索引对MDCT系数进行参数解码;
使用MDCT系数索引I(v)在码本中进行搜索,得到40个归一化的系数,前4个系数为0;使用增益索引得到增益值,经过反量化得到均方根因子
Figure 565566DEST_PATH_IMAGE016
,使用均方根因子对归一化的MDCT系数进行处理,得到归一化之前的系数:
Figure 595839DEST_PATH_IMAGE017
归一化之前的系数经过反加权模块,即除以对应点的加权系数,得到原始的MDCT系数
Figure 691971DEST_PATH_IMAGE018
;使用原始MDCT系数通入反变换模块:
Figure 200313DEST_PATH_IMAGE019
其中,
Figure 393397DEST_PATH_IMAGE020
是反变换之后没有加下一帧重叠窗时的时域信号,最终得到的高频部分的时域信号为:
Figure 532254DEST_PATH_IMAGE021
其中,
Figure 679464DEST_PATH_IMAGE022
是重叠的分析窗,
Figure 929180DEST_PATH_IMAGE023
是上一帧没有经过窗函数的时域信号;
步骤D.水印的嵌入与提取,包括以下子步骤:
采用最低有效位嵌入算法将MDCT系数的索引和增益索引嵌入到窄带码流的最低位中;由于一帧信号有40个采样点,而嵌入水印的比特数为44bit,首先在每个采样点的最低位嵌入40bit;最后将4bit均匀的嵌入到一帧中的次低位;
提取水印时分别提取码流最低位的信息和4个采样点的次低位信息,从而得到嵌入的44bit MDCT系数;
E.通过QMF合成滤波器组模块将接收的码流进行A律解码,得到8KHz采样频率的低频信号,将低频信号和恢复出的高频信号通过插值模块将采样频率变为16KHz,分别将其通过低通和高通FIR滤波器;将两信号相加即得到最终16KHz采样频率的宽带信号。
2.一种基于G.711.1的语音带宽扩展的装置,其特征在于,包括:高通滤波器模块、QMF分析滤波器组模块、提取和编码MDCT模块、高频语音恢复与宽带语音合成模块、水印嵌入与提取模块以及QMF合成滤波器组模块;
所述高通滤波器模块将宽带语音通过一个高通滤波器:
Figure 976770DEST_PATH_IMAGE024
经过滤波器后的语音为16KHz采样频率的宽带语音,用于去除50Hz工频干扰和直流分量,
所述QMF分析滤波器组将宽带语音分成两个部分:0~8000Hz的窄带语音和8000~16000Hz的高频分量,并分别进行下采样;得到8kHz采样频率的窄带语音和高频分量;
其中,QMF分析滤波器模块使用32阶的FIR滤波器,高通滤波器模块
Figure 348846DEST_PATH_IMAGE025
是由低通滤波器模块
Figure 419570DEST_PATH_IMAGE026
频移得到,也就是使用复正弦序列
Figure 535293DEST_PATH_IMAGE027
调制,即:
Figure 375073DEST_PATH_IMAGE028
所述提取和编码MDCT模块用于提取MDCT系数、编码MDCT系数,具体的:
提取MDCT系数模块:采用G.711.1中的方法,取5ms的高频分量作为一帧,每帧包含40个采样点,使用80个采样点的分析窗进行加窗处理,并进行部分重叠相加;高频分量的MDCT系数定义为:
Figure 419515DEST_PATH_IMAGE029
其中,
Figure 711956DEST_PATH_IMAGE030
是分析窗,这里定义为:
Figure 631371DEST_PATH_IMAGE031
   ;  
为了减小MDCT系数的动态变换范围,使用归一化参数进行处理;归一化参数计算方法如下:
Figure 387974DEST_PATH_IMAGE032
编码MDCT系数:使用单通道的码本对MDCT参数进行矢量量化,包括以下步骤:
首先,MDCT系数经过加权处理,得到加权后的MDCT系数
Figure 39535DEST_PATH_IMAGE033
Figure 147168DEST_PATH_IMAGE034
为均方根因子,使用加权后的MDCT系数进行计算:
Figure 542378DEST_PATH_IMAGE035
归一化MDCT系数计算方法如下:
其中,
Figure 742994DEST_PATH_IMAGE037
是为了避免分母为零而加上的一个数,使用下面公式计算:
Figure 67982DEST_PATH_IMAGE038
得到归一化MDCT系数后,将40个系数分裂为6个6维矢量,其余4系数个置为0,对每个6维矢量进行矢量量化,码本中码字的个数为64,这样每个矢量用码字的序号表示只需6bit;这样每帧MDCT系数经矢量量化后占用36bit,量化后的增益IHg占8bit,每帧所有信息共使用44bit;一帧窄带信号有40个采样点,平均每个采样点嵌入1bit高频信息,然后将剩余的4bit均匀嵌入到一帧的码流中;
所述高频语音恢复与宽带语音合成模块在解码端首先提取出的MDCT系数和增益的索引,然后使用索引对MDCT系数进行参数解码;
使用MDCT系数索引I(v)在码本中进行搜索,得到40个归一化的系数,前4个系数为0;使用增益索引得到增益值,经过反量化模块得到均方根因子
Figure 736861DEST_PATH_IMAGE039
,使用均方根因子对归一化的MDCT系数进行处理,得到归一化之前的系数:
Figure 58121DEST_PATH_IMAGE040
归一化之前的系数经过反加权处理,即除以对应点的加权系数,得到原始的MDCT系数;使用原始MDCT系数进行反变换:
Figure 107384DEST_PATH_IMAGE042
其中,
Figure 630770DEST_PATH_IMAGE043
是反变换之后没有加下一帧重叠窗时的时域信号,最终得到的高频部分的时域信号为:
Figure 857352DEST_PATH_IMAGE044
其中,是重叠的分析窗,
Figure 701997DEST_PATH_IMAGE046
是上一帧没有经过窗函数的时域信号;
所述水印的嵌入与提取模块采用最低有效位嵌入算法将MDCT系数的索引和增益索引嵌入到窄带码流的最低位中;由于一帧信号有40个采样点,而嵌入水印的比特数为44bit,首先在每个采样点的最低位嵌入40bit;最后将4bit均匀的嵌入到一帧中的次低位;
提取水印时分别提取码流最低位的信息和4个采样点的次低位信息,从而得到嵌入的44bit MDCT系数;
所述QMF合成滤波器组模块将接收的码流进行A律解码,得到8KHz采样频率的低频信号,将低频信号和恢复出的高频信号通过插值的方法将采样频率变为16KHz,分别将其通过低通和高通FIR滤波器;将两信号相加即得到最终16KHz采样频率的宽带信号。
CN2011104223861A 2011-12-16 2011-12-16 一种基于g.711.1的语音带宽扩展的装置和方法 Expired - Fee Related CN102522092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104223861A CN102522092B (zh) 2011-12-16 2011-12-16 一种基于g.711.1的语音带宽扩展的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104223861A CN102522092B (zh) 2011-12-16 2011-12-16 一种基于g.711.1的语音带宽扩展的装置和方法

Publications (2)

Publication Number Publication Date
CN102522092A true CN102522092A (zh) 2012-06-27
CN102522092B CN102522092B (zh) 2013-06-19

Family

ID=46292989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104223861A Expired - Fee Related CN102522092B (zh) 2011-12-16 2011-12-16 一种基于g.711.1的语音带宽扩展的装置和方法

Country Status (1)

Country Link
CN (1) CN102522092B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023630A (zh) * 2013-01-11 2013-04-03 中国人民解放军国防科学技术大学 一种基于脉冲编码调制语音编码的语音流的信息隐藏方法
CN103258543A (zh) * 2013-04-12 2013-08-21 大连理工大学 一种人工语音带宽扩展的方法
CN103280222A (zh) * 2013-06-03 2013-09-04 腾讯科技(深圳)有限公司 音频编码、解码方法及其系统
CN107087069A (zh) * 2017-04-19 2017-08-22 维沃移动通信有限公司 一种语音通话方法及移动终端
CN107993669A (zh) * 2017-11-20 2018-05-04 西南交通大学 基于修改最低有效位数权重的语音内容认证和篡改恢复方法
CN108269584A (zh) * 2013-04-05 2018-07-10 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
CN111670473A (zh) * 2017-12-19 2020-09-15 杜比国际公司 用于统一语音及音频解码基于qmf的谐波移调器改进的方法及设备
WO2022267754A1 (zh) * 2021-06-22 2022-12-29 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1511313A (zh) * 2001-11-14 2004-07-07 ���µ�����ҵ��ʽ���� 编码装置、解码装置及其系统
CN1575492A (zh) * 2001-10-25 2005-02-02 皇家飞利浦电子股份有限公司 利用减少的带宽在传输通道上传输宽带音频信号的方法
EP2133872A1 (en) * 2007-03-30 2009-12-16 Panasonic Corporation Encoding device and encoding method
KR20110091738A (ko) * 2008-12-10 2011-08-12 후아웨이 테크놀러지 컴퍼니 리미티드 신호 인코딩 및 디코딩 방법, 장치 및 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1575492A (zh) * 2001-10-25 2005-02-02 皇家飞利浦电子股份有限公司 利用减少的带宽在传输通道上传输宽带音频信号的方法
CN1511313A (zh) * 2001-11-14 2004-07-07 ���µ�����ҵ��ʽ���� 编码装置、解码装置及其系统
EP2133872A1 (en) * 2007-03-30 2009-12-16 Panasonic Corporation Encoding device and encoding method
KR20110091738A (ko) * 2008-12-10 2011-08-12 후아웨이 테크놀러지 컴퍼니 리미티드 신호 인코딩 및 디코딩 방법, 장치 및 시스템

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023630B (zh) * 2013-01-11 2015-01-21 中国人民解放军国防科学技术大学 一种基于脉冲编码调制语音编码的语音流的信息隐藏方法
CN103023630A (zh) * 2013-01-11 2013-04-03 中国人民解放军国防科学技术大学 一种基于脉冲编码调制语音编码的语音流的信息隐藏方法
CN108269584B (zh) * 2013-04-05 2022-03-25 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
CN108269584A (zh) * 2013-04-05 2018-07-10 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
US11423923B2 (en) 2013-04-05 2022-08-23 Dolby Laboratories Licensing Corporation Companding system and method to reduce quantization noise using advanced spectral extension
CN103258543A (zh) * 2013-04-12 2013-08-21 大连理工大学 一种人工语音带宽扩展的方法
CN103280222A (zh) * 2013-06-03 2013-09-04 腾讯科技(深圳)有限公司 音频编码、解码方法及其系统
CN103280222B (zh) * 2013-06-03 2014-08-06 腾讯科技(深圳)有限公司 音频编码、解码方法及其系统
WO2014194625A1 (en) * 2013-06-03 2014-12-11 Tencent Technology (Shenzhen) Company Limited Systems and methods for audio encoding and decoding
US9607625B2 (en) 2013-06-03 2017-03-28 Tencent Technology (Shenzhen) Company Limited Systems and methods for audio encoding and decoding
CN107087069A (zh) * 2017-04-19 2017-08-22 维沃移动通信有限公司 一种语音通话方法及移动终端
CN107087069B (zh) * 2017-04-19 2020-02-28 维沃移动通信有限公司 一种语音通话方法及移动终端
CN107993669A (zh) * 2017-11-20 2018-05-04 西南交通大学 基于修改最低有效位数权重的语音内容认证和篡改恢复方法
CN107993669B (zh) * 2017-11-20 2021-04-16 西南交通大学 基于修改最低有效位数权重的语音内容认证和篡改恢复方法
CN111670473A (zh) * 2017-12-19 2020-09-15 杜比国际公司 用于统一语音及音频解码基于qmf的谐波移调器改进的方法及设备
WO2022267754A1 (zh) * 2021-06-22 2022-12-29 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN102522092B (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
CN102522092B (zh) 一种基于g.711.1的语音带宽扩展的装置和方法
CN102543086B (zh) 一种基于音频水印的语音带宽扩展的装置和方法
CN1942928B (zh) 用于处理音频信号的模块和方法
CN101577605B (zh) 基于滤波器相似度的语音lpc隐藏和提取算法
CN101512639B (zh) 用于语音/音频发送器和接收器的方法和设备
CN101421780B (zh) 用于编码和解码时变信号的方法和设备
JP5215994B2 (ja) 損失エンコ−ドされたデータ列および無損失拡張データ列を用いた、原信号の無損失エンコードのための方法および装置
CN102272831B (zh) 基于峰值检测的选择性缩放掩码计算
CN104838443B (zh) 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法
KR101061404B1 (ko) 가변 레이트로 오디오를 인코딩 및 디코딩하는 방법
EP3203471B1 (en) Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
CN101261834A (zh) 编码装置及编码方法
JP2010170142A (ja) ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置
CN103187065A (zh) 音频数据的处理方法、装置和系统
WO2010139257A1 (zh) 压缩编码和解码的方法、编码器和解码器以及编码装置
CN108231083A (zh) 一种基于silk的语音编码器编码效率提高方法
CN1193344C (zh) 语音解码器和一种语音解码方法
CN106847297A (zh) 高频带信号的预测方法、编/解码设备
CN112133317B (zh) 一种基于sbc的低传输比特率高质量语音编解码方法
KR20080059657A (ko) 스펙트럼 변화에 기초한 신호 코딩 및 디코딩
CN101393743A (zh) 一种可配置参数的立体声编码装置及其编码方法
CN105957533B (zh) 语音压缩方法、语音解压方法及音频编码器、音频解码器
CA3190884A1 (en) Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
CN101814289A (zh) 低码率dra数字音频多声道编码方法及其系统
CN101388212B (zh) 基于噪声整形的语音编解码方法、编解码装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130619

Termination date: 20151216

EXPY Termination of patent right or utility model