发明内容
本发明的目的在于,针对上述问题,提出一种语音线性预测模型的非线性量化方法,以实现时间复杂度低和使用效果好的优点。
为实现上述目的,本发明采用的技术方案是:一种语音线性预测模型的非线性量化方法,包括:
a、线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;
b、非线性去相关步骤:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;
c、计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;
d、标量量化器设计步骤:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器。
进一步地,在步骤a之前,还包括:
线性预测模型的线谱频率参数提取步骤:将线性预测模型通过Chebyshev多项式求根法转化为线谱频率参数。
进一步地,在步骤d之后,还包括:
优化的顺序量化步骤:对变换后的参数实现优化的顺序量化方式,达到控制差错传播的目的。
进一步地,所述对变换后的参数实现优化的顺序量化方式的操作,具体包括:
将步骤b中描述的去相关过程和步骤d中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制。
进一步地,所述将步骤a中描述的去相关过程和步骤d中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制的操作,具体包括:
1)输入:
a)K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
b)如步骤d得到的针对每一个xi的标量量化器;
2)初始化:
a)计数器i=1;
b)K维目标向量
3)执行K次循环,其中第i步循环操作:
a)当i==1时:
取出向量S中的第一个元素s1,将其通过步骤d中描述的标量量化器量化,得到元素放入向量中;
b)当i≠1时:
取出向量S中的第一个元素s1,将通过步骤d中描述的标量量化器量化,得到元素放入向量中;
c)生成新的向量含有S中除s1元素外的所有元素;
d)S=S';
4)输出:
量化后的线谱频率参数差值
进一步地,在步骤a中,所述将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值的操作,具体包括:
利用线谱频率参数的有序特性和有界特性,将其变换为线性谱参数差值,此差值的特征为:有序特性分布在(0,1)开区间内,有序特性加和为1;
所述利用线谱频率参数的有序特性和有界特性,将其变换为线性谱参数差值的操作,具体包括:
1)K维线谱频率参数表示为Y=[y1,y2,...,yK],满足:
0<y1<y2<,…,yK<π;
2)变换后的K+1维线谱频率参数差值为:
进一步地,在步骤b中,所述根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关的操作,具体包括:
利用线谱频率参数差值的统计特性,假设其为中性向量;采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立。
进一步地,所述采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立的操作,具体包括:
1)输入:
K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
2)初始化:
a)计数器i=1;
b)K维目标向量X=[x1,x2,...,xK],例如:
X=[x1,x2,...,xK]=[0,0,...,0];
3)执行K次循环,其中第i步循环操作:
a)将向量S中的第一个元素s1取出,作为元素xi放入向量X中;
b)生成新的向量含有S中除s1元素外的所有元素;
c)对向量S'归一化,具体为
i.s=|S'|,|S'|为S'的一范数;
ii.S'=S'/s;
d)S=S';
4)输出:
X=[x1,x2,...,xK],其中:
xi⊥xj,i≠j,,i=1,2,...K,,j=1,2,...,K。
进一步地,在步骤c中,所述利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布的操作,具体包括:
1)由步骤c得到的去相关后的线谱频率参数差值是有界的;根据此去相关后的线谱频率参数差值,针对每一个元素xi,,i=1,2,...,K训练基于贝塔分布的贝塔混合模型;
2)假设xi服从单一贝塔分布,计算此贝塔分布,使得其与上述步骤1)中根据得到的贝塔混合模型之间的相对熵最小。
进一步地,在步骤d中,所述根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器的操作,具体包括:
采用标量量化的模式取代矢量量化,针对每一维参数xi设计基于贝塔分布的量化器;根据得到的概率密度分布函数计算出量化中心和量化区域,实现最优的标量量化器。
本发明各实施例的语音线性预测模型的非线性量化方法,由于包括:线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;非线性去相关步骤:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;标量量化器设计步骤:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器;能够可靠的实现线性预测模型的量化,降低量化损失,提高量化速度;从而可以克服现有技术中时间复杂度高和使用效果差的缺陷,以实现时间复杂度低和使用效果好的优点。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
针对现有线谱频率参数量化技术中存在的问题,根据本发明实施例,如图1-图4所示,提供了一种语音线性预测模型的非线性量化方法,即基于概率统计模型的非线性的线谱频率参数量化方法。利用该语音线性预测模型的非线性量化方法,能够可靠的实现线性预测模型的量化,降低量化损失,提高量化速度,具有很大的实用价值。
本实施例的语音线性预测模型的非线性量化方法,包括如下步骤:
步骤1:线性预测模型的线谱频率参数提取步骤:将线性预测模型通过Chebyshev多项式求根法转化为线谱频率参数;
步骤2:线谱频率参数变换步骤,即:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;
在步骤2中,线谱频率参数变换步骤中,利用线谱频率参数的①有界特性和②有序特性将其变换为线性谱参数差值,此差值的特征为:①分布在(0,1)开区间内,②加和为1;
在步骤2中,线谱频率参数变换步骤的具体操作过程如下:
1)K维线谱频率参数表示为Y=[y1,y2,...,yK],满足:
0<y1<y2<,…,yK<π;
2)变换后的K+1维线谱频率参数差值为:
步骤3:非线性去相关步骤,即:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;
在步骤3中,利用线谱频率参数差值的统计特性,假设其为中性向量(neutralvector);采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立;具体如下:
1)输入:
K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
2)初始化:
a)计数器i=1;
b)K维目标向量X=[x1,x2,...,xK]=[0,0,...,0];
3)执行K次循环,其中第i步循环操作:
a)将向量S中的第一个元素s1取出,作为元素xi放入向量X中;
b)生成新的向量含有S中除s1元素外的所有元素;
c)对向量S'归一化,具体为
i.s=|S'|,|S'|为S'的一范数;
ii.S'=S'/s;
d)S=S';
4)输出:
X=[x1,x2,...,xK],其中:
xi⊥xj,i≠j,,i=1,2,...K,,j=1,2,...,K;
步骤4:计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;
在步骤4中,根据去相关的线谱频率参数差值的统计特性,计算其边缘密度分布,具体为:
1)由步骤4得到的去相关后的线谱频率参数差值是有界的;根据此去相关后的线谱频率参数差值,针对每一个元素xi,,i=1,2,...,K训练基于贝塔分布(betadistribution)的贝塔混合模型;
2)假设xi服从单一贝塔分布,计算此贝塔分布,使得其与上述步骤1)中根据得到的贝塔混合模型之间的相对熵最小;
步骤5:标量量化器设计步骤,即:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器;
在步骤5中,采用标量量化的模式取代矢量量化,针对每一维参数xi设计基于贝塔分布的量化器;根据得到的概率密度分布函数计算出量化中心和量化区域,实现最优的标量量化器;
步骤6:优化的顺序量化步骤,即:对变换后的参数实现优化的顺序量化方式,达到控制差错传播的目的;
在步骤6中,将步骤3中描述的去相关过程和步骤5中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制,具体如下:
1)输入:
a)K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
b)如步骤5得到的针对每一个xi的标量量化器;
2)初始化:
a)计数器i=1;
b)K维目标向量 例如:
3)执行K次循环,其中第i步循环操作:
a)当i==1时:
取出向量S中的第一个元素s1,将其通过步骤5中描述的标量量化器量化,得到元素放入向量中;
b)当i≠1时:
取出向量S中的第一个元素s1,将通过步骤5中描述的标量量化器量化,得到元素放入向量中;
c)生成新的向量含有S中除s1元素外的所有元素;
d)S=S';
4)输出:
量化后的线谱频率参数差值
下面将结合附图对本发明具体实施方式进行详细说明。
图1是本发明语音线性预测模型的非线性量化方法的流程图,包括以下步骤:
步骤S1:线性预测模型的线谱频率参数提取步骤;
步骤S2:线谱频率参数变换为线谱频率参数差值步骤;
步骤S3:将线谱频率差值通过非线性方法去相关步骤;
步骤S4:计算边际概率分布步骤;
步骤S5:标量量化器设计步骤;
步骤S6:优化的顺序量化步骤,达到控制差错传播的目的。
下面将对每个步骤进行具体的说明:
步骤S1构建以线谱频率参数为根的多项式,将线性预测模型通过Chebyshev多项式求根法转化为线谱频率参数。图2给出了线谱频率参数提取步骤的具体流程,步骤如下:
1)输入:
a)K阶线性预测模型
2)在图2显示的步骤11中,首先构建两个多项式:
P(z)=G(z)+z-(K+1)G(z-1)和Q(z)=G(z)-z-(K+1)G(z-1)。
然后采用Chebyshev多项式求根法求上述两个多项式的零点,得到两组值,分别为Zp=[zp,1,zp,2,...]和Zq=[zq,1,zq,2,...]。将求解所得的值依次放入:
Y=[y1,y2,...,yK]=[zp,1,zq,1,zp,2,zq,2,...]。
3)输出:
a)线谱频率参数Y。
步骤S2实现线谱频率参数变换,将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值。图3给出了线谱频率参数变换步骤的具体流程如下:
1)输入:
a)线谱频率参数Y=[y1,y2,...,yK];
2)在图3显示的步骤21中,将i从1到K+1循环,每次得到的差值如下:
3)输出:
a)线谱频率参数S=[s1,s2,...,sK+1]。
步骤S3将线谱频率差值通过非线性方法去相关,根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关,具体步骤如下:
1)输入:
a)K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
2)初始化:
a)计数器i=1;
b)K维目标向量X=[x1,x2,...,xK];
3)执行K次循环,其中第i步循环操作:
a)将向量S中的第一个元素s1取出,作为元素xi放入向量X中;
b)生成新的向量含有S中除s1元素外的所有元素;
c)对向量S'归一化,具体为
i.s=|S'|,|S'|为S'的一范数;
ii.S'=S'/s;
d)S=S';
4)输出:
a)X=[x1,x2,...,xK],其中xi⊥xj,i≠j,,i=1,2,...K,,j=1,2,...,K。
步骤S4计算边际概率分布,利用去相关的线谱频率参数差值的统计特性,计算每一维差值xi的边缘概率密度分布,其实施方法如图3所示,具体如下:
1)输入:
a)去相关后的第i维线谱频率参数差值的N个样本Xi=[xi,1,xi,2,...,xi,N];
2)图4显示的步骤41中,采用期望—最大化算法,得到贝塔混合模型如下:
上述表示中,
3)图4显示的步骤42中,通过最小化相对熵,获得最优的单个贝塔分布,具体为
4)输出:
最优单个贝塔分布beta(xi;ai,bi)。
步骤S5设计标量量化器,根据得到的边缘概率密度分布函数,针对每一维差值xi设计基于概率密度函数的优化量化器,计算出量化中心,具体如下:
1)输入:
a)概率密度函数beta(xi;ai,bi)
b)量化比特数Ri
2)根据熵编码原理,计算出量化中心的分布为
其中h(xi)是贝塔分布的熵值,定义为:
h(xi)=-∫beta(xi;ai,bi)·log2beta(xi;ai,bi)dxi;
3)输出:
量化中心分布gc(xi)。
步骤S6实现优化的顺序量化,对变换后的参数实现优化的顺序量化方式,达到控制差错传播的目的,并输出量化后的线谱频率参数差值,具体过程如下:
1)输入:
a)K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
b)如步骤S5得到的针对每一个xi的标量量化器;
2)初始化:
a)计数器i=1;
b)K维目标向量
3)执行K次循环,其中第i步循环操作:
a)当i==1时:
取出向量S中的第一个元素s1,将其通过步骤S5中描述的标量量化器量化,得到元素放入向量中;
b)当i≠1时:
取出向量S中的第一个元素s1,将通过步骤S5中描述的标量量化器量化,得到元素放入向量中;
c)生成新的向量含有S中除s1元素外的所有元素;
d)S=S';
4)输出:
量化后的线谱频率参数差值
相对于现有技术而言,本发明上述各实施例的语音线性预测模型的非线性量化方法的有益效果在于,抓住了线谱频率参数的有界和有序特性,通过非线性变换去除参数之间的相关性,采用贝塔分布实现基于概率统计模型的量化,使用优化的顺序量化方法实现线谱频率参数的量化,试验结果验证了本发明的高效性和可靠性,具有很强的实用性。
以上结合附图对所提出的语音线性预测模型的非线性量化方法及各模块的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现,该软件产品存储在一个存储介质中,包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。