基于自适应冗余字典的语音信号稀疏表示方法
技术领域
本发明涉及信号处理领域,特别是涉及一种基于自适应冗余字典的语音信号稀疏表示方法,用于稀疏表示语音信号,可应用于语音信号去噪、语音信号特征识别、语音压缩编码和语音压缩感知等领域。
背景技术
传统语音信号去噪方法基于以下假设:在含有噪声的语音信号中,有用信息部分的频率较低,而噪声的频率较高。但是,实际中上述假设条件并不总是成立。一方面,语音中清音帧和过渡帧的有用信息部分含有高频分量;另一方面,噪声虽然以高频成分为主,但也含有低频成分。因此,语音中的有用信息部分和噪声往往在频带上存在重迭,这是造成基于有用信息和噪声频率特性差别的传统语音去噪方法存在缺陷的根本原因。基于语音稀疏分解的去噪方法,将语音中的有用信息部分作为稀疏成分,而将噪声作为语音去除其中稀疏成分后得到的残差,并以此作为语音去噪处理的基础。利用语音的稀疏成分重构语音信号可以有效地消除噪声的影响,获得较高的信噪比,提高语音通话质量,具有应用价值。
在信号处理中,用空间变换有效地表达信号,可提高压缩效率。传统的信号表示是基于“正交基”的展开,如DCT,小波变换等,但这种分解不总能够达到较好的效果,尤其是对时频变化范围很广的信号效果更差。一种更好的信号表示方式应是根据信号的特点,自适应地选择基函数。现有技术中,有提出信号在过完备原子库(或称为冗余字典)上进行稀疏分解的思想,该原子库比通常的完备正交基大得多,在信号所表示的空间中足够密。因此,信号稀疏表示的结果就是信号线性展开中大部分基函数的系数为零,只有少数基函数具有较大的非零系数。这里称基函数为原子,其集合为字典。信号稀疏表示具有由可揭示信号主要特征与内在结构的少量原子来表示信号的优良特性,因此在信号去噪、特征识别、弱信号提取和数据压缩等领域得到了广泛应用。
语音信号稀疏表示的关键问题之一是设计有效的冗余字典。当前,人们提出多种冗余字典,但它们不总能保证信号的稀疏性。井爱雯等人选取可分离Gabor函数作为语音原子库(井爱雯,刘云,“基于MP算法的语音信号稀疏分解”,计算机工程与应用,2009,45(5):144-146),但离散Gabor函数中多个时频参数所得的原子数量巨大,增加了冗余字典的复杂度。Aharon等人提出了K-SVD算法(M.Aharon,M.Elad,A.M.Bruckstein,“The K-SVD:an algorithm fordesigning of overcomplete dictionaries for sparse representation”.IEEETransactions on Signal Processing,2006,54(11):4311-4322.),通过学习、训练大量样本来更新自适应冗余字典,计算量和存储空间巨大。基于模板匹配近似KLT域上的语音信号压缩感知重构算法中(郭海燕,杨震,“基于近似KLT域的语音信号压缩感知”,电子与信息学报,2009,31(12):2948-2952),清音帧信号在近似KLT冗余字典上不具有稀疏性。语音信号稀疏表示的关键问题之二是设计快速有效的稀疏分解算法。目前已有Matching Pursuit(MP)(S.Mallat,Z.Zhang,“Matching pursuit with time-frequency dictionaries”,IEEETransactions on Signal Processing,1993,41(12):3397-3415.),Basis Pursuit(BP)(S.Chen,D.L.Donoho,“Atomic decomposition by basis pursuit”,SIAMJournal on Scientific Computing,1999,20(1):33-61.)和Method of Frames(I.Daubechies,“Time-frequency localization operators:a geometric phase spaceapproach”,IEEE Transactions on Information Theory,1988,34(4):605-612.)等多种算法,但是这些算法都需要进行复杂度较高的优化迭代运算。
发明内容
本发明的目的在于克服上述已有技术的不足,提供一种稀疏性强、稀疏分解效率高的基于自适应冗余字典的语音信号稀疏表示方法。本发明的目的可通过如下解决方案来达到:
一种基于自适应冗余字典的语音信号稀疏表示算法,包括步骤:
1)针对数字语音信号短时自相关函数具有指数衰减的特性,构造基于K-L展开的自适应冗余字典;
2)设计自适应冗余字典的语音信号稀疏表示算法;
所述步骤1)中,假设连续实随机过程{x(t),t∈[0,1]}是二阶矩过程,则其K-L展开式为:
其中系数
正交K-L基
是自相关函数R
x(t,u)的特征函数,
和与之对应的特征值λ∈R满足Fredholm积分方程:
于是,x(t)的N项近似式为
由上述K-L展开定义可知,K-L展开的关键是获得自相关函数的特征值和特征函数。对于一般性问题,通常需要用复杂的数值方法求解积分方程,不利于后续的展开;而对于定义在规则几何域上的一些自相关函数,可以方便地求得其特征问题的解析解。针对平稳随机过程的自相关函数在时延较小时较快衰减的特性,考虑指数衰减型自相关函数Rx(t,u)=rx(0)e-μ|t-u|,其中参数μ反映了衰减速度和rx(0)=var(x(t)),并求解如下的Fredholm积分方程:
获得一组正交特征函数组
加入
构建完备的自适应正交K-L基函数组
离散E中基函数,获得自适应冗余字典:
其中e
n=[e
n(1),…,e
n(i),…e
n(M)]
T,
(i=1,…,M)和e0=[1,…,1]T。
所述步骤2)中,因为数字语音信号短时自相关函数具有指数衰减的特性,所以可以基于冗余字典
自适应选取K个原子对语音信号x∈R
M作非线性逼近:
其中Card(I
K)=K,α=[α(1),…,α(N)]
T为分解系数向量。保留α中绝对值最大的K个α(n)(n∈I
K),并令
可得到稀疏分解向量
和重构语音信号
则逼近绝对误差为
基于自适应冗余字典的语音信号稀疏表示方法具有由可揭示信号主要特征与内在结构的少量原子来表示信号的优良特性,因此广泛应用于语音信号去噪、语音信号特征识别、语音压缩编码和语音压缩感知等领域。
本发明与已有技术相比,具有以下优点:
1、针对短时平稳语音信号自相关函数的指数衰减特性,计算出匹配语音信号特征的自适应冗余字典,确保了语音信号在此字典上的稀疏性。
2、基于非线性逼近的语音信号稀疏分解算法只需使用内积运算,而无需利用优化迭代算法就可稀疏分解语音信号,大大降低了稀疏分解的计算复杂度,提高了稀疏表示效率。
附图说明
图1a~i是清音帧、浊音帧和过渡帧信号的时域波形及分解系数图,其中:
图1(a)清音帧时域波形
图1(b)清音帧稀疏分解系数
图1(c)清音帧DCT域分解系数
图1(d)浊音帧时域波形
图1(e)浊音帧稀疏分解系数
图1(f)浊音帧DCT域分解系数
图1(g)过渡帧时域波形
图1(h)过渡帧稀疏分解系数
图1(i)过渡帧DCT域分解系数;
图2a~c是清音帧、浊音帧和过渡帧信号的信号重构波形图,其中:
图2(a)重构清音帧信号,稀疏度40%
图2(b)重构浊音帧信号,稀疏度15%
图2(c)重构过渡帧信号,稀疏度15%;
图3a、b是女声语音信号及重构信号时域波形图,其中:
图3(a)女声时域波形
图3(b)女声重构信号时域波形,稀疏度14%;
图4a、b是男声语音信号及重构信号时域波形图,其中:
图4(a)男声时域波形
图4(b)男声重构信号时域波形,稀疏度12%。
具体实施方式
一种基于自适应冗余字典的语音信号稀疏表示方法,其特征是包括步骤:
1)针对语音信号的特征,构造基于K-L展开的自适应冗余字典;
2)设计基于K-L展开的自适应冗余字典的语音信号稀疏表示算法;
所述步骤2)中,语音信号稀疏表示算法的过程如下:
21)根据语音信号的短时平稳特征,由短时自相关函数R
x(t,u)=r
x(0)e
-μ|t-u|求解方程
获得一组正交特征函数组
再加入
构建完备的自适应正交K-L基函数组
离散E中基函数,获得自适应冗余字典:
其中e
n=[e
n(1),…,e
n(i),…e
n(M)]
T,
(i=1,…,M)和e0=[1,…,1]T;
22)基于冗余字典
自适应选取K个原子对x∈R
M作非线性逼近:
其中Card(I
K)=K,α=[α(1),…,α(N)]
T为分解系数向量;。保留α中绝对值最大的K个α(n)(n∈I
K),并令
可得到稀疏分解向量
和重构信号
则逼近绝对误差为
(增加定义,下面实验内容有)
下面结合具体实例和附图对本发明进一步说明,但不以此限制本发明的保护范围。
图1为待稀疏表示的一段清音帧、浊音帧和过渡帧信号,它们基于自适应冗余字典的展开系数具有明显的稀疏性,而基于DCT字典的展开系数不具有稀疏性。
图2a、b中分别利用128个,48个和48个原子就可精确重构出原信号,说明语音信号在自适应冗余字典上具有较强的稀疏性,较好的重构精度和较高的计算效率。
图3a、b和图4a、b分别测试女声和男声“大规模集成电路”的语音信号,利用本发明所得的重构信号具有较高的信噪比和较好的重构质量。
实验结果及分析
实验环境为安静环境,对象为两位男性和两位女性。为了说明稀疏分解的质量,定义稀疏度为D=K/M。针对图1,利用基于自适应冗余字典的稀疏表示算法(Signal Sparse Representation algorithm based on Adaptive OvercompleteDictionary,SSRAOD)分别得到3个信号的K=[MD]([·]为取整函数)个系数,然后进行信号重构。清音帧信号的稀疏性弱于浊音帧和过渡帧信号,所以需要较多的原子来重构信号。当D=40%时,可重构出清音帧信号的绝大部分细节特征(图2(a)),逼近绝对误差εK=0.0049。浊音帧信号在D=15%时,εK=0.0114(图2(b)),这说明仅用48个原子就可很好地重构出原信号,达到了稀疏分解的目的。过渡帧信号同时具有清音和浊音信号的特征,当D=15%时,也可精确重构出原信号,εK=0.0105(图2(c))。图2说明SSRAOD具有较高的稀疏度和较好的重构精度,且有较高的计算效率。当D相同时,SSRAOD所花费的计算时间远远少于MP和BP算法。当问题规模较大时,BP算法处理时延较长,且易于陷入局部最优解,产生较大的重构误差。
下面实验针对测试语音分别为女声和男声的“大规模集成电路”,采用矩形窗分帧,帧间无重叠,帧长为320样点/帧,定义重构语音信号平均分段信噪比SegSNR(dB):
其中,Nframe为信号的总帧数。将重构信号按信噪比不大于0dB,0~10dB,10~20dB,20~50dB,大于50dB分别划分为重构质量很差、差、中等、好、很好。表2给出了不同稀疏度对应的信号重构质量,当D越高时,SegSNR越高。为了重构出信号时域波形的细节,女声和男声分别选择D为14%和12%,如图3和图4。通常女性基频明显高于男性,所以女声比男声需要更多原子进行信号重构,以减少重构误差。