CN1920950A - 一种基于Haar小波提升的特征波形分解与重构方法 - Google Patents

一种基于Haar小波提升的特征波形分解与重构方法 Download PDF

Info

Publication number
CN1920950A
CN1920950A CNA2006101526414A CN200610152641A CN1920950A CN 1920950 A CN1920950 A CN 1920950A CN A2006101526414 A CNA2006101526414 A CN A2006101526414A CN 200610152641 A CN200610152641 A CN 200610152641A CN 1920950 A CN1920950 A CN 1920950A
Authority
CN
China
Prior art keywords
sequence
characteristic wave
decomposition
discrete cosine
cosine transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101526414A
Other languages
English (en)
Other versions
CN1920950B (zh
Inventor
王晶
赵胜辉
匡镜明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN2006101526414A priority Critical patent/CN1920950B/zh
Publication of CN1920950A publication Critical patent/CN1920950A/zh
Application granted granted Critical
Publication of CN1920950B publication Critical patent/CN1920950B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于Haar小波提升的特征波形分解与重构方法,属于语音编码领域,主要用于波形内插(WI)语音编码算法。当前分析帧提取的特征波形在进行分解之前,首先将其离散时间傅里叶级数(DTFS)的幅度谱转化为离散余弦变换(DCT)系数,然后用Haar小波变换的提升方案实现特征波的多级分解与重构,对各级分解参数进行不同方式的量化编码,并利用相位谱间距的均值和基音周期增益判断当前帧的浊音度标志,以决定解码端选择固定相位谱或随机相位谱。Haar小波提升方法能够降低特征波形分解与重构过程的运算复杂度和内存空间,且不引入算法延迟,可使波形内插编码算法在较低速率上获得较为满意的合成音质。

Description

一种基于Haar小波提升的特征波形分解与重构方法
技术领域
本发明涉及语音编码领域,尤其是低速率的特征波形内插语音编码算法,主要是一种基于Haar小波提升的特征波形分解与重构方法。
背景技术
低速率的语音编码领域,编码速率在4kbit/s以下的众多语音编码算法中,波形内插语音编码算法极具潜力,受到普遍关注。它是瑞典皇家理工学院的W.B.Kleijin博士在90年代提出的,先后于1991和1994年提出了原型波形内插(PWI,Prototype Waveform Interpolation)和特征波形内插(CWI,CharacteristicWaveform Interpolation)编码算法,其中CWI算法对清浊音进行统一模型编码,是后来低码率的波形内插语音编码方面的研究重点。我国授权公开号为CN1371512A的专利“增强型波形内插编码器”公开了一种基于CWI算法利用合成分析方法进行编码参数量化的4kbps低速率波形内插编码器。
一般的特征波形内插编码的基本原理是根据内插的基音周期从线性预测残差信号中按一定时间间隔提取出特征波形序列,形成渐变的特征波表面,通过特征波形分解将特征波表面分为快渐变波(REW,Rapidly Evolving Waveform)和慢渐变波(SEW,Slowly Evolving Waveform),分别代表类噪声成分和准周期成分,利用人耳对它们不同的听觉感知特性分别进行降采样量化编码,解码端重构特征波形,并通过内插的方式获得中间未提取的特征波,由内插后基音轨迹得到相位轨迹,用于从二维特征表面得到一维的合成语音信号。W.B.Kleijin提出的CWI算法具体过程可以参考W.B.Kleijin和K.K.Paliwal的语音编码与合成(Elsevier Science B.V.第五章,pp1750207,(1995))。
特征波形的分解和重构及分解参数的量化是特征波形编码算法的重要环节,本发明便是针对这一环节提出了一种基于Haar小波提升的特征波形分解与重构方法,在能够获得较为满意的音质基础上,使得特征波形编码算法的波形分解过程运算复杂度降低,内存空间消耗减少,且不引入算法延迟,有利于实际应用。
传统的波形分解方法是对功率归一化后的离散时间傅里叶级数表示的特征波序列,首先使用线性相位FIR低通滤波器从特征波表面分离出慢渐变波,剩余部分则为快渐变波,然后将分解后的DTFS系数转化为极坐标表示,对慢渐变波幅度谱以较低采样率和较高量化精度编码传输,对快渐变波幅度谱以较高采样率和较低量化精度编码传输,量化技术上多采用变维矢量量化,运算复杂度较高,而线性相位滤波过程将引入一帧的编码延迟。1998年,Eddie L.T.Choy的论文“4kb/s波形内插语音编码器”中基于这种传统的特征波形分解方法实现了一种低速率的CWI编码器。
为了能够对特征波平面进行多分辨率分析,实现灵活、高效的编解码处理,澳大利亚伍伦贡大学Whiper实验室的Chong等研究者利用基音同步小波变换将特征波表面分解为一系列不同分辨率的波形表面,对各个波形表面根据不同感觉特性进行变维矢量量化编码,适合于高质量的语音存储及可分级编码。但是很大的缺点是编解码的总延迟比较大,基于B样条的双正交小波滤波过程运算复杂度较高,用于实时通信较为困难。
Whisper实验室的Lukasiak等人将奇异值分解理论用于特征波形分解,用不同个数的奇异值可以多尺度、灵活的重构特征波表面,对当前帧的特征波表面进行分解不需要额外的算法延迟。但奇异值分解涉及到矩阵变换和计算奇异值、奇异矢量而具有非常高的计算复杂度,且分解后产生了大量的待量化参数,需要比较多的比特数进行量化,当比特率很低时,会丢失特征波表面的很多细节信息。
此外,国内研究人员徐金标等人提出在每一帧内对特征波的离散傅里叶系数求均值,这个均值向量代表了语音信号的慢变化成分,对应慢渐变波,然后用原始特征波谱减去均值得到快渐变波谱。这种求均值分解特征波的方法简单、直接,但是并不能够获得高效的编码结果。
发明内容
本发明要解决波形内插语音编码算法中的特征波形分解与重构过程存在的问题,提供了一种基于Haar小波提升的特征波形分解与重构方法,涉及到特征波形内插语音编码算法的编码端特征波形分解过程和解码端特征波形重构过程,以及分解参数的量化。
本发明解决其技术问题所用的技术方案:这种基于Haar小波提升的特征波形分解与重构方法,是在特征波形内插算法中的编码端,首先将当前分析帧内提取的待分解的特征波形表示成频域的幅度谱和相位谱形式,一般情况是对归一化后的离散时间傅里叶级数表示的特征波通过直角坐标到极坐标的变换获得;然后用离散余弦变换矩阵将不同维数的幅度谱矢量转换为相同维数的离散余弦变换系数矢量,之后对离散余弦变换系数矢量表示的特征波序列采用基于Haar小波变换的提升方案进行多级波形分解,对分解得到的各级的细节部分和最后一级分解的概貌部分,进行不同方式的量化编码传输;在解码端,将解量化的各级离散余弦变换系数矢量采用基于Haar小波变换的提升方案进行多级波形重构,重构得到的特征波序列再通过离散余弦变换的逆矩阵得到相应的幅度谱矢量,最后与适当的相位谱结合恢复出对应原始待分解的特征波形。
本发明用到的技术方案中涉及到用Haar小波变换的提升方案进行特征波的多级分解与重构,该过程采用原位运算,每级分解针对上一级分解得到的概貌信号依次进行分裂、预测和更新三个步骤,每级重构过程包括反更新、反预测和合并三个步骤,重构过程的每个步骤都是分解过程每个步骤的逆变换。
本发明用到的技术方案中涉及到分解参数的量化和解量化,建议采用的方法是:根据人耳对不同分辨率下信号的感知特性不同,对概貌部分要求较高的频率分辨率,其特征波序列采用反离散余弦变换后的感知加权矢量量化方法,首先通过离散余弦逆变换矩阵将待量化的矢量和码本中的码字反变换到相应的幅度谱矢量,然后根据感知加权均方误差最小的原则搜索最佳码字;对分解得到的各级细节部分的频率分辨率要求不高,采用较少比特的一般矢量量化方法或矩阵矢量量化即可。
本发明用到的技术方案中涉及到相位谱的恢复问题,建议采用的方法是:相位谱在编码端不传输,而在解码端通过浊音度标志选择适当的相位模型。其中,浊音度标志表示了当前分析帧的周期性强弱,在编码端由基音周期增益和相位谱矢量间距的均值共同决定,若浊音度较大,则解码端采用固定相位谱(取自于基频较低的老年男子语音的浊音区),若浊音度较小,则采用随机相位。
本发明的另一个方面,提供了一种在编码速率要求较低的场合下,特征波形的表示上分配更少的编码比特的方法:根据小波变换的压缩特性,Haar小波分解的最后一级的概貌部分和细节部分能够恢复出原始特征波序列的大部分能量,解码端可以忽略其它几级分解的细节部分,只需要进行一级提升重构过程,而未恢复的特征波通过线性内插的方式获得。如此可以获得较低的编码速率,且能够保持可接受的编码质量。
本发明有益的效果是:采用Haar小波变换简单,易于实现,虽然其频域特性不及支撑长度较大的其它双正交小波,但对于波形内插编码算法来说也可以获得较好的音质,且其具有最简单的小波提升方案,只需对当前分析帧操作,不引入算法延迟,同时提升方案能够在时域实现小波变换的原位运算,可以节省内存空间。这种基于Haar小波提升的特征波形分解和重构过程有利于波形内插编码算法的实时应用,且能够在较低码率下得到较好的合成语音音质。
附图说明
图1为本发明一种基于Haar小波提升的特征波形分解与重构方法的系统组成框图;
图2为Haar小波提升方案下的特征波三级分解及重构实现框图;
图3所示为Haar小波提升方案下的一级分解具体实现过程;
图4所示为Haar小波提升方案下的一级重构具体实现过程;
图5为Haar小波提升方案下的分解过程原位运算示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步介绍。本发明主要针对特征波形内插语音编码算法中的特征波形分解和重构过程实施的方法,适用于任何需要对特征波表面进行分解和重构的特征波形内插语音编码算法。
例如特征波形内插语音编码算法对输入的窄带8kHz采样的语音进行编解码处理,特征波的提取速率设置为400Hz,即对20ms的一帧语音提取8个特征波形。当前分析帧经过预处理,线性预测分析和基音周期估计后,根据内插后的基音周期从预测残差中每隔2.5ms提取一个特征波形,特征波用离散时间傅里叶级数(DTFS)表示,经过对齐操作和功率归一化后DTFS系数输入到如图1所示的基于Haar小波提升的特征波形分解和重构系统中。
图1所示本发明的方法包括对编码端(1)和解码端(2)的处理以及分解参数的量化(3)。编码端包括特征波的DTFS表示(10)、直角坐标到极坐标系转换(11)、离散余弦变换(12)、特征波的多级分解过程(13)及浊音度标志的判断(14);解码端包括特征波的多级重构过程(23)、离散余弦反变换(22)、极坐标到直角坐标系转换(21),特征波DTFS表示的恢复(20)及相位谱的选择(24)。各个步骤的实施细节:
如图1所示,编码端特征波形的离散时间傅里叶级数(DTFS)系数(10)从直角坐标系转换到极坐标系下的幅度谱和相位谱(11),而在解码端则通过极坐标到直角坐标的转换(21)恢复特征波的离散时间傅里叶级数系数(20):
a)从当前分析帧的语音信号提取出的特征波形用离散时间傅里叶级数表示,并进行对齐和功率归一化,设归一化后的离散时间傅里叶级数系数(10)为Ai j和Bi j,其中i代表第i个特征波提取点,i=1,2,...,I,I为一帧内提取的特征波的个数,j代表离散时间傅里叶级数系数矢量的第j维,j=1,2,...,P(i)/2,P(i)是每个特征波提取点的基音周期(即时域特征波形的长度),符号表示向下取整,则DTFS系数从直角坐标转换到极坐标系(11)下的幅度谱为:
Figure A20061015264100103
极坐标系下的相位谱为:
Figure A20061015264100104
b)解码端通过极坐标到直角坐标(21)的转换恢复特征波的离散时间傅里叶级数的表示(20),极坐标到直角坐标的转换为:
            Aj i=Cj i×cos(θj i)
            Bj i=Cj i×sin(θj i)
如图1所示的浊音度标志由基音周期增益和相位谱间距的均值进行判断(14),这一判断过程的具体步骤为:
a)当前帧提取的每个特征波形的相位谱维数不同,由每个特征波的基音周期P(i)决定,首先把一帧内每个特征波的相位谱调整到相同维数,设最大基音周期为Pmax,则每个特征波相位谱θi通过补零的方式将长度调整到Pmax/2。
b)定义两个相位θ1和θ2之间的距离为:
        D21=[cos(θ2)-cos(θ1)]2+[sin(θ2)-sin(θ1)]2
则补零调整维数后两个相邻特征波相位谱序列
Figure A20061015264100106
Figure A20061015264100107
之间的距离为:
Figure A20061015264100111
c)相位谱间距D的均值为:
E D = Σ i = 2 I D i , i - 1 I - 1
其中I为一帧内提取的特征波形的个数。
d)基音周期增益按照如下表达式求解:
g = min { Σ i = 0 L - T - 1 s ( n ) s ( n + T ) Σ m = 0 L - T - 1 s 2 ( m ) Σ k = 0 L - T - 1 s 2 ( k + T ) , 1.0 }
其中,s为特征波形内插语音编码算法的一帧语音信号,L为分析帧长,T是当前帧估计得到的最佳基音周期。
e)由基音周期增益和相位谱间距的均值判断当前帧的浊音度标志v,方法是与预先设定的门限值比较,其判断的逻辑准则如下:
If(g<0.7和ED>20)或g<0.4或ED>30
  v=0;
Else
  v=1;
其中v=0表示当前帧信号的周期性较弱,亦即浊音度较弱,v=1表示当前帧信号的周期性较强,亦即浊音度较强。
如图1所示,解码端每个特征波的相位谱由浊音度标志v决定,选择固定相位或随机相位(24):当v=0时,相位谱由随机相位替代;当v=1时,相位谱取自于一个基频较低的老年男子语音浊音区的固定相位谱。
如图1所示编码端的离散余弦变换用于将不同维数的特征波幅度谱矢量变换到相同维数(12),解码端通过离散余弦逆变换矩阵反变换到原始特征波幅度谱对应的维数(22),操作细节如下:
a)设X为M×N的离散余弦变换矩阵,N为第i个特征波幅度谱矢量Ci的维数,且有N=P(i)/2,M为调整后的维数,并设置M=Pmin/2,Pmin为最小基音周期,则离散余弦变换矩阵中的元素为:
X m , n = ( 2 N ) 2 Z m cos ( ( 2 ( n - 1 ) + 1 ) π ( m - 1 ) 2 N ) , m = 1,2 , . . . , M ; n = 1,2 , . . . , N
其中,当m≠1时Zm=1;当m=1时Zm=。
b)通过离散余弦变换矩阵,将每个N维的特征波幅度谱Ci变换到相同的维数M,变换过程(12)如下:
设C为N×1列矩阵,代表一个N维的特征波幅度谱Ci,设变换后的矩阵为C′,则变换的表达式为:C′=X×C,C′为M×1的列矩阵,代表当前特征波幅度谱Ci对应的M维的离散余弦变换系数矢量C′i
c)反变换过程(22):通过离散余弦逆变换矩阵,将M维的特征波离散余弦变换系数矢量反变换到N维的特征波幅度谱矢量。首先获得当前帧第i个提取点的基音周期P(i),从而有N=P(i)/2,然后计算离散余弦逆变换矩阵Y=X-1,Y为N×M的矩阵,则反变换公式为C=Y×C′。
图1中编码端的Haar小波提升分解模块(13)和解码端的Haar小波提升重构模块(23),对于每帧提取8个特征波的情况最多可以进行三级分解与重构,实现框图如图2所示三级Haar小波分过程(130、131、132)和三级Haar小波重构过程(232、231、230)。如图3所示为一级Haar小波提升的分解过程(130),对给定的信号sj(对应特征波形幅度谱的离散余弦变换系数序列C′i),将其分解为概貌信号sj+1和细节信号dj+1,其提升方案实现包括三个步骤,即分裂(split)、预测(predict)和更新(update):
a)分裂(1310):该步骤将原信号sj分为两个部分,考虑到信号间的相关性,将信号按其序号的奇、偶分为两个子集evenj+1(偶数序列s2l)和oddj+1(奇数序列s2l+1),该分解方法表示为:(evenj+1,oddj+1):=Split(sj)。
b)预测(1311):如果原信号sj具有局部相关性,则子集evenj+1和oddj+1也具有相关性,可以用一个子集来预测另一个。对一般情况,定义预测算子P,则预测过程写为:dj+1=oddj+1-P(evenj+1)。
式中,P(evenj+1)表示用evenj+1的值的某个组合来预测oddj+1的值。预测误差dj+1表示了信号的细节信息,当信号的相关性较大时,预测将非常有效。在Haar小波变换下,预测是非常简单的,即令dj+1,l=sj,2l+1-sj,2l
c)更新(1312):如图所示sj+1是经分解得到的概貌信号,sj+1的一个重要性质是其均值应该等于原信号sj的均值,并且不随着j变化,所以需要用细节子集dj+1来更新偶序号子集evenj+1,即:sj+1=evenj+1+U(dj+1),式中算子U表示dj+1的某种组合。在Haar小波的情况下,有sj+1=evenj+1+dj+1/2。
若对分解得到的概貌信号sj+1再进行以上三个步骤的分解,那么就可以得到原信号的一个多级分解(130~132)。
如图4所示,为一级Haar小波提升的重构过程(230),用提升方案实现小波分解的最大优点是将小波变换分解成了几个简单的基本步骤,且每个步骤都能很容易找到它的逆变换。重构的过程就是分解的逆过程,也包含三个步骤,即反预测、反更新和合并(merge):
a)反更新(2310):给定概貌信号sj+1和细节信号dj+1,由下式恢复出偶序号序列:evenj+1=sj+1-U(dj+1)。
b)反预测(2311):用反更新计算得出的evenj+1和给定的dj+1,可通过下式预测出奇序号序列:oddj+1=dj+1+P(evenj+1)。
c)合并(2312):通过反更新和反预测步骤,分别获得偶序号序列和奇序号序列,将它们合并即可恢复出原始信号sj,记作:sj=Merge(evenj+1,oddj+1)。
对于Haar小波变换,有最简便的提升算法形式:P=1,U=1/2。分解和重构过程均采用原位运算,节省内存空间,如图5所示。
如图1所示的分解参数的量化和解量化过程(3)根据人耳的听觉感知特性对各级分解得到的概貌和细节部分进行不同方式的矢量量化。对分解得到的各级离散余弦变换系数的量化精度的程度大小为:s3>d3>d2>d1。所用到的码本训练方法为LBG算法,每级信号的量化方式如下:
a)对于第三级分解得到的概貌部分s3,量化方法采用反离散余弦变换后的感知加权矢量量化方法。首先将待量化的矢量和码本中的码字用离散余弦逆变换矩阵进行反变换得到对应的幅度谱矢量,对反变换后的矢量用感知加权均方误差最小的原则进行码本搜索,得到待量化矢量的最佳码字。此量化过程如下:
假设x为待量化的M维行矢量,y为码本中的码字M维行矢量,分别通过离散余弦逆变换N×M矩阵Y进行反变换后得到N维行矢量x’和y’:
      x′=(Y×xT)T;y′=(Y×yT)T(符号T表示矩阵的转置)
码本搜索原则为感知加权均方误差最小,定义感知加权均方误差为:
      d(x′,y′)=(x′-y′)TW(x′-y′)
其中W是感知加权矩阵,为N×N的对角阵,其中对角线的元素wnn是由下式在基频整数倍上计算得到:
w ( z ) = 1 N | G A ( z / γ 1 ) A ^ ( z ) A ( z / γ 2 ) |
G是线性预测残差信号的功率,A(z)是线性预测多项式,
Figure A20061015264100142
是量化的线性预测多项式。加权系数可以取γ1=0.94,γ2=0.6。z=ej2πn/P(i),n=1,2,,,N,N是输入信号带宽内谐波个数,P(i)是当前分析帧第i个提取点特征波的基音周期,N=P(i)/2。非加权情况下则有wnn=1。
c)对于每级分解得到的细节部分d3,d2,d1可以采用较少比特的一般的矢量量化方法和矩阵矢量量化方法。
例如特征波提取速率为400Hz,即每20ms帧提取8个特征波形。则第一级分解的细节部分d1更新速率为200Hz,第二级分解的细节部分d2更新速率为100Hz,第三级分解得到的细节部分d3和概貌部分s3的更新速率为50Hz。对d1每帧4个离散余弦变换系数序列共同用10比特的矩阵矢量量化,d2每帧2个离散余弦变换系数序列共同用8比特的矩阵矢量量化,d3每帧1个离散余弦变换系数序列则用8比特的一般矢量量化方法。对于概貌部分s3每帧用10比特的反离散余弦变换后的感知加权矢量量化。对各级分解所得的概貌及细节部分完全进行编码量化需要的总比特为36比特,特征波形分解参数的码率为1.8kbit/s,此时特征波形内插编码算法可以得到较为满意的合成音质。
在编码速率要求较低的场合,可以只对概貌部分s3和细节部分d3进行量化编码便可以恢复特征波的大部分能量,此时的解码端只需要进行对应最后一级小波分解的第一级小波重构过程,其它未恢复的特征波由一级重构后的特征波序列通过线性内插的方式获得,如此可以获得更低的编码速率,且能够保持可接受的编码质量。

Claims (11)

1.一种基于Haar小波提升的特征波形分解与重构方法,其特征在于:对特征波形内插语音编码算法中当前分析帧提取得到的特征波序列进行操作,在进行特征波形分解之前,首先将特征波的离散时间傅里叶级数(DTFS)系数由直角坐标系转化为极坐标系表示的幅度谱和相位谱,对特征波的幅度谱序列用离散余弦变换(DCT)矩阵变换到相同维数的离散余弦变换系数序列,然后进行Haar小波提升方案下的特征波形分解(对应编码端)与特征波形重构(对应解码端),解码端相位谱的恢复通过当前帧的浊音度标志来选择固定或随机相位,浊音度标志由当前帧的基音周期增益和相位谱间距的均值判断得到。
2.如权利要求1所述的基于Haar小波提升的特征波形分解与重构方法,其特征在于:所述的Haar小波变换的提升方案采用原位运算,每级特征波分解过程包括分裂、预测和更新,每级特征波重构过程包括反更新、反预测和合并。
3.如权利要求1所述的基于Haar小波提升的特征波形分解与重构方法,其特征在于,该方法的主要步骤有:
a)当前分析帧内提取的特征波形的离散时间傅里叶级数,在进行波形分解之前由直角坐标系转换到极坐标系下的幅度谱和相位谱;
b)计算一帧内提取的特征波形序列的相位谱之间的距离,进而得到相位谱间距的均值统计量;
c)由基音周期增益和相位谱间距的均值共同决定当前帧的浊音度标志;
d)将不同维数的特征波幅度谱通过离散余弦变换矩阵变换到相同维数;
e)对变换得到的特征波离散余弦变换系数序列运用Haar小波提升的分解算法进行多级特征波形分解;
f)对各级分解得到的概貌和细节部分的离散余弦变换系数采用不同的量化方法,其中最后一级分解得到的概貌部分用反离散余弦变换后的感知加权矢量量化方法;
g)解码端对解量化的离散余弦变换系数运用Haar小波提升的重构算法进行多级特征波形重构;
h)波形重构后,通过离散余弦逆变换矩阵变换得到特征波幅度谱;
i)特征波相位谱根据浊音度标志选择固定相位谱或随机相位谱;
j)将恢复得到的每个特征波形的幅度谱和相位谱相结合,由极坐标系转换到直角坐标系下的离散时间傅里叶级数系数;
k)在编码速率要求较低的场合,仅传输最后一级分解的概貌和细节部分,而忽略其它各级分解的细节部分。
4.如权利3要求所述的方法,其特征在于,编码端当前分析帧提取的特征波形进行相位对齐和功率归一化后,其离散时间傅里叶级数系数在进行波形分解之前从直角坐标系转换到极坐标系下的幅度谱和相位谱,波形分解只对特征波幅度谱进行,而在解码端则通过极坐标到直角坐标的转换恢复特征波的离散时间傅里叶级数的表示。
5.如权利要求3所述的方法,其特征在于,对当前帧的特征波相位谱序列首先通过补零的方式变换到相同维数,然后求其相互间的距离,并对这些相位谱间距求均值统计量作为浊音度标志判断的参量之一,其中两个相邻的N维特征波相位谱序列
Figure A2006101526410003C1
之间的距离定义为:
D i , i - 1 = Σ j = 1 N { [ cos ( θ ^ j i ) -cos ( θ ^ j i - 1 ) ] 2 + [ sin ( θ ^ j i ) -sin ( θ ^ j i - 1 ) ] 2 }
6.如权利要求3所述的方法,其特征在于,编码端当前分析帧的浊音度标志由基音周期增益和相位谱间距的均值共同决定;解码端当前帧的相位信息由浊音度标志选择固定相位谱或随机相位谱。令g为当前帧的基音周期增益,ED为当前帧提取的相位谱间距的均值,则判断浊音度标志v的逻辑准则如下:
If(g<0.7和ED>20)或g<0.4或ED>30
   v=0;
Else
   v=1;
其中v=0表示当前帧信号的周期性较弱,亦即浊音度较弱,此时相位谱由随机相位替代;v=1表示当前帧信号的周期性较强,亦即浊音度较强,此时相位谱取自于一个基频较低的老年男子语音浊音区的固定相位谱。
7.如权利要求3所述的方法,其特征在于,每个特征波幅度谱矢量的维数不同(由每个提取点的基音周期决定),通过离散余弦变换矩阵变换到相同维数,波形分解过程对离散余弦变换系数序列进行,解码端通过离散余弦逆变换矩阵反变换到原始特征波幅度谱对应的维数,其变换过程可以用矩阵的方式表述为:
正变换:C′=X×C;逆变换:C=Y×C′
其中,C为N×1的列矩阵,代表一个N维的特征波幅度谱,C′为M×1的列矩阵,代表当前特征波幅度谱对应的M维的离散余弦变换系数矢量,X为M×N的离散余弦变换矩阵,矩阵中的元素为:
X m , n = ( 2 N ) 2 Z m cos ( ( 2 ( n - 1 ) + 1 ) π ( m - 1 ) 2 N ) , m = 1,2 , . . . , M ; n = 1,2 , . . . , N
其中,当m≠1时Zm=1;当m=1时Zm=。离散余弦逆变换矩阵Y=X-1,Y为N×M的矩阵。
8.如权利要求3或2所述的方法,其特征在于,用Haar小波提升方案对变换得到的特征波形离散余弦变换系数序列进行多级波形分解,并采用原位运算,每级分解过程包括分裂、预测和更新三个步骤。分裂过程是将当前帧提取的特征波序列按照提取序号的奇、偶分为偶数序列和奇数序列两个子集;预测过程是用偶数序列子集来预测奇数序列子集,得到的预测误差便是分解的细节部分;更新过程是用预测得到的细节部分来更新偶数序列子集得到原特征波序列的概貌部分。用表达式表述Haar小波提升的分解过程为:
设sj为当前帧提取的特征波序列,首先分裂为偶数序列s2l和奇数序列s2l+1;预测得到原序列的细节部分为:dj+1,l=sj,2l+1-sj,2l;更新得到原序列的概貌部分为:sj+1=evenj+1+dj+1/2。
对分解得到的概貌信号sj+1再进行以上三个步骤的分解,就得到原信号的一个多级分解。分解过程采用原位运算。
9.如权利要求3所述的方法,其特征在于,对离散余弦变换系数序列进行多级小波提升分解后得到概貌部分和细节部分进行不同方式的量化,对最后一级分解得到的概貌部分特征波的离散余弦变换系数矢量采用较高精度的感知加权矢量量化方法,而对细节部分的特征波序列则采用较少比特的一般的矢量量化方法或矩阵矢量量化方法。在概貌部分的量化中,首先将待量化的矢量和码本中的码字用离散余弦逆变换矩阵进行反变换得到对应的幅度谱矢量,对反变换后的矢量用感知加权均方误差最小的原则进行码本搜索,得到待量化矢量的最佳码字。
码本搜索原则为感知加权均方误差最小,假设x′和y′分别是经过离散余弦逆变换后的待量化的特征波矢量和码本中的码字,则定义感知加权均方误差为:
                  d(x′,y′)=(x′-y′)TW(x′-y′)
其中W是感知加权矩阵,为N×N的对角阵,其对角线元素wnn是由下式在基频整数倍上计算得到:
w ( z ) = 1 N | G A ( z / γ 1 ) A ^ ( z ) A ( z / γ 2 ) |
其中G是线性预测残差信号的功率,A(z)是线性预测多项式, 是量化的线性预测多项式。z=ej2πn/P(i),n=1,2,,,N,N是输入信号带宽内谐波个数,P(i)是当前分析帧第i个提取点特征波的基音周期,
Figure A2006101526410005C3
10.根据权利要求3所述的方法,其特征在于,在解码端对解量化后的离散余弦变换系数进行Haar小波提升的特征波形重构,并采用原位运算,每级重构过程包括反更新、反预测和合并三个步骤,重构过程的每个步骤都是分解过程每个步骤的逆变换。对于Haar小波提升的重构过程,对应于权利要求8中的分解过程,兼用表达式表述为:
反更新:对解量化得到的特征波序列的概貌信号sj+1和细节信号dj+1,由式子evenj+1=sj+1-dj+1/2恢复出偶序号序列;
反预测:用反更新计算得出的evenj+1和给定的dj+1,通过式子oddj+1=dj+1+evenj+1预测出奇序号序列;
合并:通过反更新和反预测步骤,分别获得偶序号序列和奇序号序列,将它们合并即可恢复出原始的特征波序列sj
11.根据权利要求3所述的方法,其特征在于,在编码速率要求较低的场合,只用最后一级分解的概貌和细节部分恢复特征波表面,而忽略其它几级小波分解的细节部分,此时的解码端只进行对应最后一级小波分解的重构过程,其它未恢复的特征波由一级重构后的特征波序列通过线性内插的方式获得。
CN2006101526414A 2006-09-25 2006-09-25 一种基于Haar小波提升的特征波形分解与重构方法 Expired - Fee Related CN1920950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006101526414A CN1920950B (zh) 2006-09-25 2006-09-25 一种基于Haar小波提升的特征波形分解与重构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101526414A CN1920950B (zh) 2006-09-25 2006-09-25 一种基于Haar小波提升的特征波形分解与重构方法

Publications (2)

Publication Number Publication Date
CN1920950A true CN1920950A (zh) 2007-02-28
CN1920950B CN1920950B (zh) 2010-07-07

Family

ID=37778658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101526414A Expired - Fee Related CN1920950B (zh) 2006-09-25 2006-09-25 一种基于Haar小波提升的特征波形分解与重构方法

Country Status (1)

Country Link
CN (1) CN1920950B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944362A (zh) * 2010-09-14 2011-01-12 北京大学 一种基于整形小波变换的音频无损压缩编码、解码方法
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
CN108111702A (zh) * 2017-12-07 2018-06-01 瑟达智家科技(杭州)有限公司 一种对voip系统语音包丢失自动补偿的方法
CN109102553A (zh) * 2018-06-27 2018-12-28 中国人民解放军战略支援部队航天工程大学 二维重构算法中极坐标系统矩阵计算方法和装置
CN110658053A (zh) * 2019-08-29 2020-01-07 中国空间技术研究院 一种基于小波变换的卫星组件冲击试验条件制定系统及方法
CN111243608A (zh) * 2020-01-17 2020-06-05 中国人民解放军国防科技大学 一种基于深度自编码机低速率语音编码方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
CN101944362A (zh) * 2010-09-14 2011-01-12 北京大学 一种基于整形小波变换的音频无损压缩编码、解码方法
CN101944362B (zh) * 2010-09-14 2012-05-30 北京大学 一种基于整形小波变换的音频无损压缩编码、解码方法
CN108111702A (zh) * 2017-12-07 2018-06-01 瑟达智家科技(杭州)有限公司 一种对voip系统语音包丢失自动补偿的方法
CN108111702B (zh) * 2017-12-07 2020-07-07 杭州闪目科技有限公司 一种对voip系统语音包丢失自动补偿的方法
CN109102553A (zh) * 2018-06-27 2018-12-28 中国人民解放军战略支援部队航天工程大学 二维重构算法中极坐标系统矩阵计算方法和装置
CN109102553B (zh) * 2018-06-27 2020-05-05 中国人民解放军战略支援部队航天工程大学 二维重构算法中极坐标系统矩阵计算方法和装置
CN110658053A (zh) * 2019-08-29 2020-01-07 中国空间技术研究院 一种基于小波变换的卫星组件冲击试验条件制定系统及方法
CN111243608A (zh) * 2020-01-17 2020-06-05 中国人民解放军国防科技大学 一种基于深度自编码机低速率语音编码方法

Also Published As

Publication number Publication date
CN1920950B (zh) 2010-07-07

Similar Documents

Publication Publication Date Title
CN1135721C (zh) 音频信号编码方法及其有关设备
KR100366638B1 (ko) 웨이블릿 변환을 기본으로하여 트리-구조의 벡터 양자화기법을 이용한 영상 부호화 장치 및 부호화 방법
CN1920950A (zh) 一种基于Haar小波提升的特征波形分解与重构方法
CN1968419A (zh) 利用人类视觉特性对图像进行编码及解码的方法和设备
CN101162584A (zh) 使用带宽扩展技术对音频信号编码和解码的方法和设备
CN1739143A (zh) 用于分布式语音识别系统内语音重构的方法和设备
CN104978970A (zh) 一种噪声信号的处理和生成方法、编解码器和编解码系统
CN1310210C (zh) 使用解码信号的特征适配合成频谱分量的音频编码系统
CN103050122B (zh) 一种基于melp的多帧联合量化低速率语音编解码方法
CN103946918A (zh) 语音信号编码方法、语音信号解码方法及使用其的装置
CN102982807B (zh) 用于对语音信号lpc系数进行多级矢量量化的方法和系统
CN1420487A (zh) 1kb/s线谱频率参数的一步插值预测矢量量化方法
CN101754021B (zh) 基于改进小波变换图像压缩方法实现手机移动门户的方法
CN110572682A (zh) 一种嵌入式零树小波图像编码压缩方法
Zhu et al. An improved SPIHT algorithm based on wavelet coefficient blocks for image coding
KR960043907A (ko) 웨이브릿변환을 이용한 영상압축방법
CN115278262A (zh) 一种端到端智能视频编码方法及装置
Ahmed et al. Biomedical Image Processing with Improved SPIHT Algorithm and optimized Curvelet Transform Technique
CN1284136C (zh) 一种超帧声道参数平滑和抽取矢量量化的方法
CN102148993B (zh) 一种小波图像的编码方法和装置
Aloui et al. Optimized speech compression algorithm based on wavelets techniques and its real time implementation on DSP
Emmanuel et al. A review of wavelet-based image processing methods for fingerprint compression in biometric application
CN1708786A (zh) 代码转换机及代码转换方法
KR100768090B1 (ko) 디코딩의 계산량 감소를 위한 파형 인터폴레이션 인코딩장치 및 그 방법
JPH08129400A (ja) 音声符号化方式

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100707

Termination date: 20140925

EXPY Termination of patent right or utility model