CN103632673B - 一种语音线性预测模型的非线性量化方法 - Google Patents

一种语音线性预测模型的非线性量化方法 Download PDF

Info

Publication number
CN103632673B
CN103632673B CN201310538591.3A CN201310538591A CN103632673B CN 103632673 B CN103632673 B CN 103632673B CN 201310538591 A CN201310538591 A CN 201310538591A CN 103632673 B CN103632673 B CN 103632673B
Authority
CN
China
Prior art keywords
line spectral
linear
spectral frequencies
frequencies parameter
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310538591.3A
Other languages
English (en)
Other versions
CN103632673A (zh
Inventor
马占宇
肖波
司中威
郭军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beipost Perception Technology Research Institute Jiangsu Co ltd
Beijing University of Posts and Telecommunications
Original Assignee
WUXI BUPT PERCEPTIVE TECHNOLOGY INDUSTRY INSTITUTE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI BUPT PERCEPTIVE TECHNOLOGY INDUSTRY INSTITUTE Co Ltd filed Critical WUXI BUPT PERCEPTIVE TECHNOLOGY INDUSTRY INSTITUTE Co Ltd
Priority to CN201310538591.3A priority Critical patent/CN103632673B/zh
Publication of CN103632673A publication Critical patent/CN103632673A/zh
Application granted granted Critical
Publication of CN103632673B publication Critical patent/CN103632673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种语音线性预测模型的非线性量化方法,包括:线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;非线性去相关步骤:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;标量量化器设计步骤:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器。本发明所述语音线性预测模型的非线性量化方法,可以克服现有技术中时间复杂度高和使用效果差等缺陷,以实现时间复杂度低和使用效果好的优点。

Description

一种语音线性预测模型的非线性量化方法
技术领域
本发明涉及语音编码技术领域,具体地,涉及一种语音线性预测模型的非线性量化方法。
背景技术
随着互联网技术的深入发展,语音通信技术得到了长足的进步,传输的语音信号已经由窄带信号传播演进到了宽带信号传播。伴随着多媒体应用的不断开发与推广,人们对于在语音通信技术中语音传输质量和实时性的要求越来越高,因此,研究高效可靠的语音通信算法,具有迫切的社会需求。
语音通信中要解决的首要问题是语音的编码。经过数十年的发展,语音编码技术大致可以分为三种方式:波形编码技术、基于参数模型的编码技术和混合编码技术。波形编码技术针对语音波形直接进行量化和传输,不基于声学模型。基于参数模型的编码技术将语音通过线性预测模型分析后,分别传输线性预测模型,边信息和语音能量信息。混合编码技术是上述两者的结合。一般来说,基于参数模型的编码技术是应用较为广泛,性能比较可靠的一类编码技术,其核心在于如何有效可靠的传输线性预测模型,即如何实现模型的有效量化和编码。
线性预测编码技术是语音编码处理中的核心技术。在语音线性预测编码模型的研究中,线谱频率参数是使用较多的一种表示方式,原因在于其频谱敏感区域的分布较为平均,即量化误差对于每一个频段的影响基本一样。早期的线谱频率参数量化研究集中在基于数据的量化器设计上,即获取大量的线谱频率参数并通过Lloyd-Max算法实现矢量量化器。由于数据量有限,此矢量量化器存在严重的过拟合问题。此外,由于矢量量化器的训练时间和量化中心匹配时间随着量化级数的增加呈指数增长,在高速率传输的时候,时间开销较大,复杂度较高。近年来,基于概率密度分布的优化量化吸引了学术界和工业界的大量关注,其原因在于这种方法可以在获得线谱频率参数概率密度分布函数的基础上计算出量化器的量化中心,从而避免了由于数据量有限带来的过拟合问题和训练时间过长的问题。此外,通过统计模型,可以将线谱频率参数之间的相关性去除,得到一组互相独立的参数。在去除记忆优势的基础上,标量量化器可以取代矢量量化其,使得量化中心匹配时间进一步缩短。
然而,传统的基于概率密度分布的优化量化方法主要基于高斯统计模型构建,无法很好的描述线谱频率参数的有界、有序的特性。针对这一问题,有学者提出了有界的高斯混合模型来描述线谱频率参数的上述特性,虽然取得了一些量化性能上的提高,却带来了时间复杂度太高的负面影响,总体效果不尽如人意。
在实现本发明的过程中,发明人发现现有技术中至少存在时间复杂度高和使用效果差等缺陷。
发明内容
本发明的目的在于,针对上述问题,提出一种语音线性预测模型的非线性量化方法,以实现时间复杂度低和使用效果好的优点。
为实现上述目的,本发明采用的技术方案是:一种语音线性预测模型的非线性量化方法,包括:
a、线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;
b、非线性去相关步骤:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;
c、计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;
d、标量量化器设计步骤:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器。
进一步地,在步骤a之前,还包括:
线性预测模型的线谱频率参数提取步骤:将线性预测模型通过Chebyshev多项式求根法转化为线谱频率参数。
进一步地,在步骤d之后,还包括:
优化的顺序量化步骤:对变换后的参数实现优化的顺序量化方式,达到控制差错传播的目的。
进一步地,所述对变换后的参数实现优化的顺序量化方式的操作,具体包括:
将步骤b中描述的去相关过程和步骤d中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制。
进一步地,所述将步骤a中描述的去相关过程和步骤d中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制的操作,具体包括:
1)输入:
a)K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
b)如步骤d得到的针对每一个xi的标量量化器;
2)初始化:
a)计数器i=1;
b)K维目标向量 X ^ = [ x ^ 1 , x ^ 2 , ... , x ^ K ] = [ 0 , 0 , ... , 0 ] ;
3)执行K次循环,其中第i步循环操作:
a)当i==1时:
取出向量S中的第一个元素s1,将其通过步骤d中描述的标量量化器量化,得到元素放入向量中;
b)当i≠1时:
取出向量S中的第一个元素s1,将通过步骤d中描述的标量量化器量化,得到元素放入向量中;
c)生成新的向量含有S中除s1元素外的所有元素;
d)S=S';
4)输出:
量化后的线谱频率参数差值 X ^ = [ x ^ 1 , x ^ 2 , ... , x ^ K ] .
进一步地,在步骤a中,所述将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值的操作,具体包括:
利用线谱频率参数的有序特性和有界特性,将其变换为线性谱参数差值,此差值的特征为:有序特性分布在(0,1)开区间内,有序特性加和为1;
所述利用线谱频率参数的有序特性和有界特性,将其变换为线性谱参数差值的操作,具体包括:
1)K维线谱频率参数表示为Y=[y1,y2,...,yK],满足:
0<y1<y2<,…,yK<π;
2)变换后的K+1维线谱频率参数差值为:
s i = y 1 / &pi; i = 1 ( y i - y i - 1 ) / &pi; 1 < i &le; K ( &pi; - y K ) / &pi; i = K + 1 .
进一步地,在步骤b中,所述根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关的操作,具体包括:
利用线谱频率参数差值的统计特性,假设其为中性向量;采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立。
进一步地,所述采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立的操作,具体包括:
1)输入:
K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
2)初始化:
a)计数器i=1;
b)K维目标向量X=[x1,x2,...,xK],例如:
X=[x1,x2,...,xK]=[0,0,...,0];
3)执行K次循环,其中第i步循环操作:
a)将向量S中的第一个元素s1取出,作为元素xi放入向量X中;
b)生成新的向量含有S中除s1元素外的所有元素;
c)对向量S'归一化,具体为
i.s=|S'|,|S'|为S'的一范数;
ii.S'=S'/s;
d)S=S';
4)输出:
X=[x1,x2,...,xK],其中:
xi⊥xj,i≠j,,i=1,2,...K,,j=1,2,...,K。
进一步地,在步骤c中,所述利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布的操作,具体包括:
1)由步骤c得到的去相关后的线谱频率参数差值是有界的;根据此去相关后的线谱频率参数差值,针对每一个元素xi,,i=1,2,...,K训练基于贝塔分布的贝塔混合模型;
2)假设xi服从单一贝塔分布,计算此贝塔分布,使得其与上述步骤1)中根据得到的贝塔混合模型之间的相对熵最小。
进一步地,在步骤d中,所述根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器的操作,具体包括:
采用标量量化的模式取代矢量量化,针对每一维参数xi设计基于贝塔分布的量化器;根据得到的概率密度分布函数计算出量化中心和量化区域,实现最优的标量量化器。
本发明各实施例的语音线性预测模型的非线性量化方法,由于包括:线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;非线性去相关步骤:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;标量量化器设计步骤:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器;能够可靠的实现线性预测模型的量化,降低量化损失,提高量化速度;从而可以克服现有技术中时间复杂度高和使用效果差的缺陷,以实现时间复杂度低和使用效果好的优点。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明语音线性预测模型的非线性量化方法的流程示意图;
图2为本发明语音线性预测模型的非线性量化方法中线谱频率参数提取的步骤流程图;
图3为本发明语音线性预测模型的非线性量化方法中线谱频率参数变换的步骤流程图;
图4为本发明语音线性预测模型的非线性量化方法中计算边际概率分布的步骤流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
针对现有线谱频率参数量化技术中存在的问题,根据本发明实施例,如图1-图4所示,提供了一种语音线性预测模型的非线性量化方法,即基于概率统计模型的非线性的线谱频率参数量化方法。利用该语音线性预测模型的非线性量化方法,能够可靠的实现线性预测模型的量化,降低量化损失,提高量化速度,具有很大的实用价值。
本实施例的语音线性预测模型的非线性量化方法,包括如下步骤:
步骤1:线性预测模型的线谱频率参数提取步骤:将线性预测模型通过Chebyshev多项式求根法转化为线谱频率参数;
步骤2:线谱频率参数变换步骤,即:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;
在步骤2中,线谱频率参数变换步骤中,利用线谱频率参数的①有界特性和②有序特性将其变换为线性谱参数差值,此差值的特征为:①分布在(0,1)开区间内,②加和为1;
在步骤2中,线谱频率参数变换步骤的具体操作过程如下:
1)K维线谱频率参数表示为Y=[y1,y2,...,yK],满足:
0<y1<y2<,…,yK<π;
2)变换后的K+1维线谱频率参数差值为:
s i = y 1 / &pi; i = 1 ( y i - y i - 1 ) / &pi; 1 < i &le; K ( &pi; - y K ) / &pi; i = K + 1 ;
步骤3:非线性去相关步骤,即:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;
在步骤3中,利用线谱频率参数差值的统计特性,假设其为中性向量(neutralvector);采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立;具体如下:
1)输入:
K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
2)初始化:
a)计数器i=1;
b)K维目标向量X=[x1,x2,...,xK]=[0,0,...,0];
3)执行K次循环,其中第i步循环操作:
a)将向量S中的第一个元素s1取出,作为元素xi放入向量X中;
b)生成新的向量含有S中除s1元素外的所有元素;
c)对向量S'归一化,具体为
i.s=|S'|,|S'|为S'的一范数;
ii.S'=S'/s;
d)S=S';
4)输出:
X=[x1,x2,...,xK],其中:
xi⊥xj,i≠j,,i=1,2,...K,,j=1,2,...,K;
步骤4:计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;
在步骤4中,根据去相关的线谱频率参数差值的统计特性,计算其边缘密度分布,具体为:
1)由步骤4得到的去相关后的线谱频率参数差值是有界的;根据此去相关后的线谱频率参数差值,针对每一个元素xi,,i=1,2,...,K训练基于贝塔分布(betadistribution)的贝塔混合模型;
2)假设xi服从单一贝塔分布,计算此贝塔分布,使得其与上述步骤1)中根据得到的贝塔混合模型之间的相对熵最小;
步骤5:标量量化器设计步骤,即:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器;
在步骤5中,采用标量量化的模式取代矢量量化,针对每一维参数xi设计基于贝塔分布的量化器;根据得到的概率密度分布函数计算出量化中心和量化区域,实现最优的标量量化器;
步骤6:优化的顺序量化步骤,即:对变换后的参数实现优化的顺序量化方式,达到控制差错传播的目的;
在步骤6中,将步骤3中描述的去相关过程和步骤5中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制,具体如下:
1)输入:
a)K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
b)如步骤5得到的针对每一个xi的标量量化器;
2)初始化:
a)计数器i=1;
b)K维目标向量 X ^ = &lsqb; x ^ 1 , x ^ 2 , ... , x ^ K &rsqb; , 例如:
X ^ = &lsqb; x ^ 1 , x ^ 2 , ... , x ^ K &rsqb; = &lsqb; 0 , 0 , ... , 0 &rsqb; ;
3)执行K次循环,其中第i步循环操作:
a)当i==1时:
取出向量S中的第一个元素s1,将其通过步骤5中描述的标量量化器量化,得到元素放入向量中;
b)当i≠1时:
取出向量S中的第一个元素s1,将通过步骤5中描述的标量量化器量化,得到元素放入向量中;
c)生成新的向量含有S中除s1元素外的所有元素;
d)S=S';
4)输出:
量化后的线谱频率参数差值
下面将结合附图对本发明具体实施方式进行详细说明。
图1是本发明语音线性预测模型的非线性量化方法的流程图,包括以下步骤:
步骤S1:线性预测模型的线谱频率参数提取步骤;
步骤S2:线谱频率参数变换为线谱频率参数差值步骤;
步骤S3:将线谱频率差值通过非线性方法去相关步骤;
步骤S4:计算边际概率分布步骤;
步骤S5:标量量化器设计步骤;
步骤S6:优化的顺序量化步骤,达到控制差错传播的目的。
下面将对每个步骤进行具体的说明:
步骤S1构建以线谱频率参数为根的多项式,将线性预测模型通过Chebyshev多项式求根法转化为线谱频率参数。图2给出了线谱频率参数提取步骤的具体流程,步骤如下:
1)输入:
a)K阶线性预测模型 G ( z ) = 1 - &Sigma; k = 1 K a k z - k ;
2)在图2显示的步骤11中,首先构建两个多项式:
P(z)=G(z)+z-(K+1)G(z-1)和Q(z)=G(z)-z-(K+1)G(z-1)。
然后采用Chebyshev多项式求根法求上述两个多项式的零点,得到两组值,分别为Zp=[zp,1,zp,2,...]Zq=[zq,1,zq,2,...]。将求解所得的值依次放入:
Y=[y1,y2,...,yK]=[zp,1,zq,1,zp,2,zq,2,...]。
3)输出:
a)线谱频率参数Y。
步骤S2实现线谱频率参数变换,将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值。图3给出了线谱频率参数变换步骤的具体流程如下:
1)输入:
a)线谱频率参数Y=[y1,y2,...,yK];
2)在图3显示的步骤21中,将i从1到K+1循环,每次得到的差值如下:
s i = y 1 / &pi; i = 1 ( y i - y i - 1 ) / &pi; 1 < i &le; K ( &pi; - y K ) / &pi; i = K + 1 ;
3)输出:
a)线谱频率参数S=[s1,s2,...,sK+1]。
步骤S3将线谱频率差值通过非线性方法去相关,根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关,具体步骤如下:
1)输入:
a)K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
2)初始化:
a)计数器i=1;
b)K维目标向量X=[x1,x2,...,xK];
3)执行K次循环,其中第i步循环操作:
a)将向量S中的第一个元素s1取出,作为元素xi放入向量X中;
b)生成新的向量含有S中除s1元素外的所有元素;
c)对向量S'归一化,具体为
i.s=|S'|,|S'|为S'的一范数;
ii.S'=S'/s;
d)S=S';
4)输出:
a)X=[x1,x2,...,xK],其中xi⊥xj,i≠j,,i=1,2,...K,,j=1,2,...,K。
步骤S4计算边际概率分布,利用去相关的线谱频率参数差值的统计特性,计算每一维差值xi的边缘概率密度分布,其实施方法如图3所示,具体如下:
1)输入:
a)去相关后的第i维线谱频率参数差值的N个样本Xi=[xi,1,xi,2,...,xi,N];
2)图4显示的步骤41中,采用期望—最大化算法,得到贝塔混合模型如下:
f ( x i ) = &Sigma; t = 1 T &omega; t b e t a ( x i ; a t , b t ) = &Sigma; t = 1 T &omega; t &Gamma; ( a t + b t ) &Gamma; ( a t ) &Gamma; ( b t ) x i a t - 1 ( 1 - x i ) b t - 1 ;
上述表示中, &omega; t > 0 , &Sigma; t = 1 T &omega; t = 1.
3)图4显示的步骤42中,通过最小化相对熵,获得最优的单个贝塔分布,具体为
b e t a ( x i ; a i , b i ) = arg min b e t a ( x i ; a i , b i ) &Integral; f ( x i ) log f ( x i ) b e t a ( x i ; a i , b i ) dx i ;
4)输出:
最优单个贝塔分布beta(xi;ai,bi)。
步骤S5设计标量量化器,根据得到的边缘概率密度分布函数,针对每一维差值xi设计基于概率密度函数的优化量化器,计算出量化中心,具体如下:
1)输入:
a)概率密度函数beta(xi;ai,bi)
b)量化比特数Ri
2)根据熵编码原理,计算出量化中心的分布为
其中h(xi)是贝塔分布的熵值,定义为:
h(xi)=-∫beta(xi;ai,bi)·log2beta(xi;ai,bi)dxi
3)输出:
量化中心分布gc(xi)。
步骤S6实现优化的顺序量化,对变换后的参数实现优化的顺序量化方式,达到控制差错传播的目的,并输出量化后的线谱频率参数差值,具体过程如下:
1)输入:
a)K+1维线谱频率参数差值向量S=[s1,s2,...,sK+1];
b)如步骤S5得到的针对每一个xi的标量量化器;
2)初始化:
a)计数器i=1;
b)K维目标向量 X ^ = &lsqb; x ^ 1 , x ^ 2 , ... , x ^ K &rsqb; = &lsqb; 0 , 0 , ... , 0 &rsqb; ;
3)执行K次循环,其中第i步循环操作:
a)当i==1时:
取出向量S中的第一个元素s1,将其通过步骤S5中描述的标量量化器量化,得到元素放入向量中;
b)当i≠1时:
取出向量S中的第一个元素s1,将通过步骤S5中描述的标量量化器量化,得到元素放入向量中;
c)生成新的向量含有S中除s1元素外的所有元素;
d)S=S';
4)输出:
量化后的线谱频率参数差值 X ^ = &lsqb; x ^ 1 , x ^ 2 , ... , x ^ K &rsqb; .
相对于现有技术而言,本发明上述各实施例的语音线性预测模型的非线性量化方法的有益效果在于,抓住了线谱频率参数的有界和有序特性,通过非线性变换去除参数之间的相关性,采用贝塔分布实现基于概率统计模型的量化,使用优化的顺序量化方法实现线谱频率参数的量化,试验结果验证了本发明的高效性和可靠性,具有很强的实用性。
以上结合附图对所提出的语音线性预测模型的非线性量化方法及各模块的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现,该软件产品存储在一个存储介质中,包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音线性预测模型的非线性量化方法,其特征在于,包括:
a、线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;
b、非线性去相关步骤:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;
c、计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;
d、标量量化器设计步骤:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器。
2.根据权利要求1所述的语音线性预测模型的非线性量化方法,其特征在于,在步骤a之前,还包括:
线性预测模型的线谱频率参数提取步骤:将线性预测模型通过Chebyshev多项式求根法转化为线谱频率参数。
3.根据权利要求1或2所述的语音线性预测模型的非线性量化方法,其特征在于,在步骤d之后,还包括:
优化的顺序量化步骤:对变换后的参数实现优化的顺序量化方式,达到控制差错传播的目的。
4.根据权利要求3所述的语音线性预测模型的非线性量化方法,其特征在于,所述对变换后的参数实现优化的顺序量化方式的操作,具体包括:
将步骤a中描述的去相关过程和步骤d中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制。
5.根据权利要求4所述的语音线性预测模型的非线性量化方法,其特征在于,所述将步骤b中描述的去相关过程和步骤d中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制的操作,具体包括:
1)输入:
a)维线谱频率参数差值向量
b)如步骤d得到的针对每一个的标量量化器;
2)初始化:
a)计数器
b)维目标向量
3)执行次循环,其中第步循环操作:
a)当时:
取出向量中的第一个元素,将其通过步骤d中描述的标量量化器量化,得到元素放入向量中;
b)当时:
取出向量中的第一个元素,将通过步骤d中描述的标量量化器量化,得到元素放入向量中;
c)生成新的向量含有中除元素外的所有元素;
d)
4)输出:
量化后的线谱频率参数差值
6.根据权利要求1或2所述的语音线性预测模型的非线性量化方法,其特征在于,在步骤a中,所述将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值的操作,具体包括:
利用线谱频率参数的有序特性和有界特性,将其变换为线性谱参数差值,此差值的特征为:有序特性分布在开区间内,有序特性加和为1;
所述利用线谱频率参数的有序特性和有界特性,将其变换为线性谱参数差值的操作,具体包括:
1)维线谱频率参数表示为,满足:
2)变换后的维线谱频率参数差值为:
7.根据权利要求1或2所述的语音线性预测模型的非线性量化方法,其特征在于,在步骤b中,所述根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关的操作,具体包括:
利用线谱频率参数差值的统计特性,假设其为中性向量;采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立。
8.根据权利要求1或2所述的语音线性预测模型的非线性量化方法,其特征在于,所述采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立的操作,具体包括:
1)输入:
维线谱频率参数差值向量
2)初始化:
a)计数器
b)维目标向量
3)执行次循环,其中第步循环操作:
a)将向量中的第一个元素取出,作为元素放入向量中;
b)生成新的向量含有中除元素外的所有元素;
c)对向量归一化,具体为
i.的一范数;
ii.
d)
4)输出:
,其中:
9.根据权利要求1或2所述的语音线性预测模型的非线性量化方法,其特征在于,在步骤c中,所述利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布的操作,具体包括:
1)由步骤c得到的去相关后的线谱频率参数差值是有界的;根据此去相关后的线谱频率参数差值,针对每一个元素训练基于贝塔分布的贝塔混合模型;
2)假设服从单一贝塔分布,计算此贝塔分布,使得其与上述步骤1)中根据得到的贝塔混合模型之间的相对熵最小。
10.根据权利要求1或2所述的语音线性预测模型的非线性量化方法,其特征在于,在步骤d中,所述根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器的操作,具体包括:
采用标量量化的模式取代矢量量化,针对每一维参数设计基于贝塔分布的量化器;根据得到的概率密度分布函数计算出量化中心和量化区域,实现最优的标量量化器。
CN201310538591.3A 2013-11-05 2013-11-05 一种语音线性预测模型的非线性量化方法 Active CN103632673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310538591.3A CN103632673B (zh) 2013-11-05 2013-11-05 一种语音线性预测模型的非线性量化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310538591.3A CN103632673B (zh) 2013-11-05 2013-11-05 一种语音线性预测模型的非线性量化方法

Publications (2)

Publication Number Publication Date
CN103632673A CN103632673A (zh) 2014-03-12
CN103632673B true CN103632673B (zh) 2016-05-18

Family

ID=50213651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310538591.3A Active CN103632673B (zh) 2013-11-05 2013-11-05 一种语音线性预测模型的非线性量化方法

Country Status (1)

Country Link
CN (1) CN103632673B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6542796B2 (ja) 2014-03-28 2019-07-10 サムスン エレクトロニクス カンパニー リミテッド 線形予測係数量子化方法及びその装置、並びに線形予測係数逆量子化方法及びその装置
CN112927703A (zh) * 2014-05-07 2021-06-08 三星电子株式会社 对线性预测系数量化的方法和装置及解量化的方法和装置
CN106782577A (zh) * 2016-11-11 2017-05-31 陕西师范大学 一种基于混沌时间序列预测模型的语音信号编码和解码方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5253326A (en) * 1991-11-26 1993-10-12 Codex Corporation Prioritization method and device for speech frames coded by a linear predictive coder
CN101149927A (zh) * 2006-09-18 2008-03-26 展讯通信(上海)有限公司 在线性预测分析中确定isf参数的方法
CN101944362A (zh) * 2010-09-14 2011-01-12 北京大学 一种基于整形小波变换的音频无损压缩编码、解码方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5253326A (en) * 1991-11-26 1993-10-12 Codex Corporation Prioritization method and device for speech frames coded by a linear predictive coder
CN101149927A (zh) * 2006-09-18 2008-03-26 展讯通信(上海)有限公司 在线性预测分析中确定isf参数的方法
CN101944362A (zh) * 2010-09-14 2011-01-12 北京大学 一种基于整形小波变换的音频无损压缩编码、解码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A comparative study of LPC parameter representations and quantisation schemes for wideband speech coding;Stephen So,Kuldip K. Paliwal;《Digital Signal Processing》;20070131(第17期);114-137 *
基于相对熵和贝叶斯信息判据的在线分割算法;吴宇,钱旭,周剑鸣;《电声技术》;20130331;第37卷(第3期);49-53 *

Also Published As

Publication number Publication date
CN103632673A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
Cai et al. Deep learning with low precision by half-wave gaussian quantization
US11403528B2 (en) Self-tuning incremental model compression solution in deep neural network with guaranteed accuracy performance
Podili et al. Fast and efficient implementation of convolutional neural networks on FPGA
CN109472353A (zh) 一种卷积神经网络量化电路及量化方法
CN102436820B (zh) 高频带信号编码方法及装置、高频带信号解码方法及装置
CN101944362B (zh) 一种基于整形小波变换的音频无损压缩编码、解码方法
CN109785249A (zh) 一种基于持续性记忆密集网络的图像高效去噪方法
CN103262164B (zh) 叉积增强的基于子带块的谐波换位
CN103632673B (zh) 一种语音线性预测模型的非线性量化方法
CN103957015B (zh) 用于ldpc码解码的非均匀量化编码方法及其在解码器的应用
CN103531205A (zh) 基于深层神经网络特征映射的非对称语音转换方法
CN103928029B (zh) 音频信号编码和解码方法、音频信号编码和解码装置
CN102099855A (zh) 频谱平滑化装置、编码装置、解码装置、通信终端装置、基站装置以及频谱平滑化方法
Hu et al. An image compression and encryption scheme based on deep learning
CN104217726A (zh) 一种无损音频压缩编码方法及其解码方法
CN102867516B (zh) 一种采用高阶线性预测系数分组矢量量化的语音编解方法
Liao et al. Compressing deep neural networks using toeplitz matrix: Algorithm design and fpga implementation
CN102982807B (zh) 用于对语音信号lpc系数进行多级矢量量化的方法和系统
CN105046062A (zh) 一种改进的自适应噪声集合经验模态分解处理方法
CN102185585B (zh) 基于遗传算法的格型数字滤波器
CN106233383A (zh) 频域参数串生成方法、编码方法、解码方法、频域参数串生成装置、编码装置、解码装置、程序以及记录介质
CN104967948B (zh) 基于调幅和调相的数字扬声器驱动方法和装置
CN104202052A (zh) 一种提高信噪比的Sigma-Delta调制器自适应混合优化方法
CN103824561B (zh) 一种语音线性预测编码模型的缺失值非线性估算方法
CN103746672B (zh) 离散系数fir滤波器优化设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 214000 room 801, building 11-4, Hongyi Road, Xinwu District, Wuxi City, Jiangsu Province

Patentee after: Beipost perception Technology Research Institute (Jiangsu) Co.,Ltd.

Address before: 214000 building C, phase II, innovation and R & D building, University Science Park, No. 97, Linghu Avenue, New District, Wuxi City, Jiangsu Province

Patentee before: WUXI BUPT SENSING TECHNOLOGY & INDUSTRY ACADEMY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211013

Address after: 100876 Beijing city Haidian District Xitucheng Road No. 10

Patentee after: Beijing University of Posts and Telecommunications

Address before: 214000 room 801, building 11-4, Hongyi Road, Xinwu District, Wuxi City, Jiangsu Province

Patentee before: Beipost perception Technology Research Institute (Jiangsu) Co.,Ltd.