CN102881293A

CN102881293A - 一种适用于语音压缩感知的过完备字典构造方法

Info

Publication number: CN102881293A
Application number: CN2012103806383A
Authority: CN
Inventors: 孙林慧; 杨震; 杨真真
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2012-10-10
Filing date: 2012-10-10
Publication date: 2013-01-16

Abstract

本发明公开一种适用于语音压缩感知的过完备字典构造方法，步骤为：首先在训练阶段由大量的训练语音构造过完备的线性预测字典，然后在实测阶段采用随机高斯矩阵作为观测矩阵对语音信号进行CS采样；最后基于前述线性预测字典采用BP算法高质量重构语音信号。此方法不需要测试语音的预测系统，且构造方法简单，语音信号在过完备线性预测字典下呈现良好的稀疏性，基于过完备线性预测字典的语音压缩感知重构信号性能良好，且具有较好的鲁棒性。

Description

一种适用于语音压缩感知的过完备字典构造方法

技术领域

本发明属于信号采样及语音信号处理领域，特别涉及一种适用于语音压缩感知的过完备字典构造新方法。

背景技术

语音是人类最方便直接的交流方式，传统的语音信号处理都基于Nyquist（奈奎斯特）采样定理，首先进行2倍带宽以上的高速采样，然后根据样值之间存在的强相关性再压缩，这一过程浪费了大量的采样资源。Nyquist采样定理是大多数信号采样所遵循的规律，表明了采样频率与信号频谱分布之间的关系，是任何信号精确重构的充分条件，但不一定是必要条件。如何根据语音信号的特殊性，对语音信号重新建模以获得更少的采样但又不影响语音的重构质量，是当前语音信号处理领域中的研究热点。

2004年由Donoho与Candes等人提出的压缩感知（Compressed Sensing，CS）理论是基于信号在某个域的稀疏性建立的线性、非自适应采样的新理论，表明具有稀疏性的压缩感知技术能获得较经典奈氏理论更好的压缩性能，信号的稀疏性或可压缩性是实现压缩重构的必要条件之一。CS理论表明，可以在不丢失逼近原信号所需信息的情况下，用最少的观测数来采样信号，实现信号的降维处理，即直接对信号进行较少采样得到信号的压缩表示，从而在节约采样和传输成本的情况下，达到了在采样的同时进行压缩的目的。CS突破了传统的奈奎斯特采样定理的限制，从传统的信号采样转变成信息采样。只要信号是可压缩的或在某个域上是稀疏的，就可以利用随机观测矩阵直接将这样一个高维信号投影到低维空间上，可以利用这些少量的观测重构原信号。压缩感知重构过程中仅仅考虑了信号的稀疏性先验，而没有考虑任何关于信号结构的信息，通过随机观测包含了重构信号的足够信息。当信号具有稀疏性或可压缩性时，通过采集少量的信号观测值就可实现信号的准确或近似重构。

由于语音信号具有可压缩性，能够用比Nyquist采样速率低很多的速率无失真地采样信号，基于压缩感知进行低速率无失真地采样给信号的采样、存储、传输和处理都带来了巨大的方便。所以CS理论与语音信号处理领域的结合，意味着对传统的基于奈奎斯特均匀采样定律下的语音分析方法的颠覆——用CS理论中的观测来代替传统语音采样值，势必导致采样信号特征根本性的变化，进而影响整个语音信号处理体系。将CS与语音信号相结合来探求语音信号处理领域的各种新方法具有很好的现实意义。CS压缩采样下重构信号性能与采样时采用的观测矩阵和重构时采用的转换矩阵有很大关系，观测矩阵多是高斯随机矩阵，转换矩阵目前绝大部分压缩感知中都应用正交基，少量的利用非正交冗余变换作为语音重构的稀疏表示方法。在观测数相同的情况下，语音表示越稀疏，则重构语音的质量越高，即转换矩阵的选择对信号重构性能来说很重要。语音信号采用离散余弦变换(Discrete Cosine Transform，DCT)基、小波基进行单一尺度的非自适应压缩感知重构时，当观测个数是原数值个数一半及以下时，其重构性能很差，主要因为语音信号在常规正交基下的稀疏性不够好导致重建信号性能较差。构造一种适用于语音压缩感知的过完备字典是语音压缩感知走向实用的关键。语音信号在基于训练码本构造的过完备线性预测（Overcomplete Linear Prediction，OLP）字典下呈现良好的稀疏性，基于过完备线性预测字典的语音压缩感知重建信号性能良好，并且具有较高的鲁棒性。基于此点，本案由此产生。

发明内容

本发明的目的，在于提供一种适用于语音压缩感知的过完备字典构造方法，其预先由训练语音的预测系数聚类构造过完备字典，不需要测试语音的预测系统，且构造方法简单，语音信号在过完备线性预测字典下呈现良好的稀疏性，基于过完备线性预测字典的语音压缩感知重构信号性能良好，且具有较好的鲁棒性。

为了达成上述目的，本发明的解决方案是：

一种适用于语音压缩感知的过完备字典构造方法，包括如下步骤：

（1）在训练阶段由大量的训练语音构造过完备的线性预测字典，包括如下内容：

（11）对同一说话人的训练语音信号进行线性预测分析，得到线性预测系数矢量；

（12）通过聚类算法由大量线性预测系数矢量构造线性预测系数矢量码本；

（13）每个码矢构造一个矩阵，求逆得到相应的线性预测矩阵；

（14）所有的矩阵一起构成过完备的线性预测字典；

（2）在实测阶段采用随机高斯矩阵作为观测矩阵对语音信号进行CS采样；

（3）基于前述线性预测字典采用BP算法高质量重构语音信号。

上述步骤（12）中，采用LBG算法构造矢量码本，具体实现步骤为：

1）设全部线性预测系数矢量a的集合为S，码本大小为J，最大迭代次数为Q，畸变改进阈值为δ；

2）码本初始值：随机选择J个矢量作为码本的初始码字

构成初始码本，迭代次数初值m=1；

3）根据最紧邻准则将S分成J个子集

即当

时，

d (a, b_{l}^{(m - 1)}) \leq d (a, b_{i}^{(m - 1)}),

i≠j；

4）计算总畸变

D^{(m)} {&Sum;}_{l = 1}^{J} \underset{x &Element; S_{l}^{(m)}}{&Sum;} d (a, b_{l}^{(m - 1)});

5）计算畸变改进量的相对值

δ^{(m)} = \frac{Δ D^{(m)}}{D^{(m)}} = \frac{| D^{(m - 1)} - D^{(m)} |}{D^{(m)}};

6）计算新的码本的码字

b_{l}^{(m)} = \frac{1}{N_{l}} \underset{a &Element; S_{li}^{(m)}}{&Sum;} a;

7）判断δ^(m)与δ的大小，若δ^(m)<δ，转入步骤9），否则转入步骤8)；

8）判断m与Q的大小，若m<Q，令m=m+1，转入步骤3），否则转入步骤9）；

9）迭代终止，输出码字，并验证总畸变量。

采用上述方案后，本发明具有以下改进：

（1）本发明提出新的语音线性预测冗余域概念和过完备线性预测字典的构造方法，语音信号在过完备字典下具有良好的稀疏性，提高了语音信号清音的稀疏性，构造转换矩阵方法简单；

（2）针对正交基下语音稀疏性不够好而导致大压缩采样后重构效果差的缺点，利用语音信号帧内样值间的相关性，提出基于训练码本构造过完备线性预测字典的语音压缩感知重构方法，该方法无需准确求解测试语音预测系数，重构语音性能良好；

（3）现实中信号大多在有噪声环境中采集，基于CS对信号采集，其抗噪鲁棒性非常重要。对于含噪语音基于OLP字典采用基追踪去噪方法进行语音压缩感知重构的同时对信号进行了一定的增强，该方法具有非常高的鲁棒性。

附图说明

图1是本发明中基于OLP字典的语音压缩感知采样与重构框图；

图2是本发明中基于OLP字典浊音的过完备重构信号示意图；

图3是本发明中基于OLP字典清音的过完备重构信号示意图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明提供一种适用于语音压缩感知的过完备字典构造方法，包括构造线性预测（Linear Prediction，LP）矩阵、构造过完备的LP字典和语音CS压缩采样与重构三个步骤，下面给出这三个步骤的主要实施方案。

A、构造LP矩阵

采用常规正交基（如傅里叶变换基、DCT基或者小波变换基）低压缩比时重构语音信号无法得到好的性能，主要是语音信号在常规正交基下的稀疏性还不够好所致，因此本发明采用线性预测提高信号的稀疏性。利用语音信号帧内样值间的相关性，通过线性预测使得预测后的信号出现较多的“零”值，从而提高信号的稀疏性，由于信号与预测值之差为线性预测残差信号，因此我们将其稀疏性称为线性预测冗余域的稀疏性。首先构造线性预测矩阵，线性预测是基于信号样值间的相关性，信号的每个样值在某种准则（常用最小均方误差准则）下可以由过去若干个样值的线性组合来逼近，其去掉了语音信号间的相关冗余。设{x(n)|n=1，2，…N}为一帧语音样值序列，其中N表示一帧语音的点数，则语音样值x(n)的p阶线性预测值为：

\hat{x} (n) = a_{1} x (n - 1) + a_{2} x (n - 2) + . . . + a_{p} x (n - p) = {&Sum;}_{i = 1}^{p} a_{i} x (n - i) - - - (1)

式(1)中，p是预测阶数，a_i(i＝1，2，…p)是线性预测系数。原信号与预测信号的误差为：

α (n) = x (n) - \hat{x} (n) = x (n) - {&Sum;}_{i = 1}^{p} a_{i} x (n - i) - - - (2)

通过语音的经典自相关法和协方差法可以求解出线性预测系数a_i(i＝1，2，…p)。自相关法和协方差法求解预测系数都分成两步，首先计算相关矩阵，然后再求解一组线性方程，二者的差别在于自相关法由于使用窗函数来截取，人为地平滑了信号，从而引来误差，所以求得的预测系数精度不高；而协方差法由于没有限制信号的长度，义不采用窗函数，所以精度高，但却没有自相关法稳定。式(2)的矩阵形式表示为：

α = Ψ_{i}^{- 1} x - - - (3)

其中，矢量α＝[α(1)，α(2)，…，α(N)]^T，帧语音信号x＝[x(1)，x(2)，…，x(N)]^T，

帧语音信号x可以通过式(3)获得矢量α。由式(3)，可得：

x＝Ψ_iα (5)

线性预测(LP)矩阵Ψ_i由预测系数构造，信号与Ψ_i相乘去掉了信号自身的相关性，因此称Ψ_i为信号的线性预测冗余矩阵。Ψ_i是满秩可逆的，可以通过正交化得到正交基，但是这里不需要正交化，只要帧语音信号x可以表示为矩阵Ψ_i与冗余系数矢量α的乘积即可，称矢量α为信号x在冗余域的表示，后续称α为线性预测冗余域的矢量。

B、构造过完备的LP字典

为了避免对每帧语音信号求取相应的LP系数，预先对大量训练语音进行LP分析得到LP系数，采用传统的LBG聚类算法由大量的LP系数矢量聚类构造大小为J的LP系数矢量码本，由码本中每个码矢构造一个LP矩阵，LP矩阵联合构造过完备的LP字典；实测阶段，语音信号采用随机高斯矩阵进行CS压缩采样得到观测，观测基于过完备的LP字典采用BP等算法重构语音帧信号，称为基于OLP的语音压缩感知重构方法，其框图如图1所示。

在训练阶段由大量的训练语音构造过完备的LP字典，具体步骤为：

（1）对同一说话人的训练语音信号进行LP分析得到LP系数矢量a；

（2）通过聚类算法由大量LP系数矢量构造大小为J的LP系数矢量码本，码矢b_i，i=1，…，J；

（3）每个码矢由式（4）构造一个矩阵

i=1，…，J；

（4）求逆得到相应的LP矩阵Ψ_i，i=1，…，J；

（5）所有的矩阵一起构成过完备的OLP字典Ψ=[Ψ₁，Ψ₂，…，Ψ_J]。

关于步骤（2）中，聚类算法有很多，采用传统的LBG算法构造矢量码本，具体实现步骤为：

1）全部LP系数矢量a的集合为S，码本大小为J，最大迭代次数为Q，畸变改进阈值为δ；

2）码本初始值：随机选择J个矢量作为码本的初始码字

构成初始码本，迭代次数初值m=1；

3）根据最紧邻准则将S分成J个子集即当

时，

d (a, b_{l}^{(m - 1)}) \leq d (a, b_{i}^{(m - 1)}),

i≠j；

4）计算总畸变

D^{(m)} {&Sum;}_{l = 1}^{J} \underset{x &Element; S_{l}^{(m)}}{&Sum;} d (a, b_{l}^{(m - 1)});

5）计算畸变改进量的相对值

δ^{(m)} = \frac{Δ D^{(m)}}{D^{(m)}} = \frac{| D^{(m - 1)} - D^{(m)} |}{D^{(m)}};

6）计算新的码本的码字

b_{l}^{(m)} = \frac{1}{N_{l}} \underset{a &Element; S_{li}^{(m)}}{&Sum;} a;

9）迭代终止，输出码字，并验证总畸变量。

过完备的LP字典由J个LP矩阵联合构成，字典的大小为N×(N×J)，列数大于行数，J的取值对语音的重构性能有一定影响，J较大，过完备的LP字典包含的矩阵多，重构语音性能佳，但运算量大，所以在实际中需对其进行折中选取。

C、语音CS压缩采样与重构

随机高斯矩阵与大多数转换矩阵不相关，采用随机高斯矩阵作为观测矩阵Φ，OLP字典作为转换矩阵，通过CS采样得到语音信号的M×1维的观测矢量：

y＝Φx （6）

其中，M/N为压缩比，M表示语音的观测数，N表示一帧语音的点数，体现了CS采样和传统的Nyquist采样相比压缩的程度。CS压缩采样得到观测向量后，可以采用多种重构算法（如“基追踪”、“匹配追踪”、“正交匹配追踪”、“贝叶斯压缩传感算法”、“迭代阈值法”、“整体部分最小化法”等）来重构语音，这些算法特点各异，其中基追踪BP算法一般都能找到信号的全局最稀疏解，所求的解更加精确用于CS重构性能好，为了更好地考察OLP字典作为转换矩阵用于CS的重构性能，采用BP算法重构语音。首先在l₁范数下重构冗余域系数，然后再重构语音信号。即采用文献中的方法，基于OLP字典的CS重构问题可等价为式（7）的BP问题：

\hat{α} = \arg \min {| | α | |}_{1} s . t . Ξα = ΦΨα = y, Ψ = [Ψ_{1} {, Ψ}_{2}, . . . Ψ_{L}] - - - (7)

其中，Ψ是OLP字典。式（7）可等价为式（8）所示的线性规划（LinearProgramming）问题：

\begin{matrix} \min_{α} c^{T} x & subject to & Ax = b \end{matrix} - - - (8)

其中，C=(1，…，1)^T，

b=y，x=(u，v)，α=u-v（u，v为未知变量）。采用Matlab优化工具箱中内点法“linprog”求解最优解。

综上，本发明一种适用于语音压缩感知的过完备字典构造方法，具有以下特点：

（1）在压缩感知系统中，当观测矩阵选定后，语音的稀疏表示是影响语音重构质量的关键因素。语音表示越稀疏，则重构语音所需要的观测越少；在观测数相同的情况下，语音表示越稀疏，则重构语音的质量越高，也就是说转换矩阵的选择对信号重构性能来说很重要。语音信号在OLP字典下具有良好的稀疏性，其稀疏性优于在DCT基下的稀疏性。图2和图3分别显示了512点的浊音和清音信号、采用OLP字典在压缩比为0.5的CS采样后重构的系数及语音信号。浊音在OLP字典下呈现良好的稀疏性，清音在OLP字典下呈现一定的稀疏性，即清音在过完备字典基构建的域中是稀疏的，所以可以说CS也适用于清音，可以基于OLP字典实现整段语音的CS方案，基于OLP字典重构信号逼近原信号；

（2）基于CS理论采用OLP字典作为转换矩阵提高了语音CS重构性能。帧长分别取256、512点，压缩比为0.1～0.5，步长为0.05，LBG训练时，训练码本大小J=16，最大迭代次数Q=300，畸变改进阈值δ＝0.0001。帧长分别取256、512时重构信号的平均帧信噪比（AFSNR）和MOS分分别见表1、表2，其中LP、OLP、SLP（从码本中选择转换矩阵）和DCT分别表示LP、OLP、SLP、DCT作为转换矩阵时CS重构的语音，下标表示采用的帧长。不同压缩比下，无论从AFSNR还是MOS角度评价重构语音质量，LP、OLP、SLP、DCT本身而言，压缩比越高，重构性能越好；同一压缩比下，采用OLP字典的CS重构性能接近采用LP矩阵的CS重构性能；同一压缩比下，基于CS采用LP、OLP、SLP重构性能，都远优于采用DCT基对语音信号进行压缩感知重构的性能（尽管DCT具有很强的能量集中的作用，能量主要集中在低频系数，但从重构性能来看，其稀疏性并不是最佳的）；当压缩比大于等于0.3时，采用OLP重构性能优于SLP，说明在OLP字典下语音信号的稀疏性较好。得出结论：基于OLP的压缩感知重构，能够既简单又更有效地恢复出原信号，其重构性能比基于DCT的高出3～8dB，MOS也较优，OLP字典由训练语音训练得到，不需要测试语音的LP系数，不占用实际重构时间。

表1不同转换矩阵下语音压缩感知重构信号的AFSNR（单位：dB）

表2不同转换矩阵下语音压缩感知重构信号的MOS分

（3）对于含噪语音，基于OLP字典采用基追踪去噪方法进行语音压缩感知重构的同时对信号进行了一定的增强。帧长取512点，压缩比取0.5。基于基追踪去噪方法对含噪语音进行重构，噪声为高斯白噪声。当原含噪信号的AFSNR为1.8、6.8、11.8、16.7dB时重构信号的AFSNR分别为4.5，9.1，13.2，16.8dB。可以看出，对于含噪语音基于OLP字典采用基追踪去噪方法进行语音压缩感知重构的同时对信号进行了一定的增强，基于过完备线性预测字典的语音压缩感知具有较好的鲁棒性。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种适用于语音压缩感知的过完备字典构造方法，其特征在于包括如下步骤：

（14）所有的矩阵一起构成过完备的线性预测字典；

2.如权利要求1所述的一种适用于语音压缩感知的过完备字典构造方法，其特征在于：所述步骤（12）中，采用LBG算法构造矢量码本，具体实现步骤为：

2）码本初始值：随机选择J个矢量作为码本的初始码字构成初始码本，迭代次数初值m=1；

3）根据最紧邻准则将S分成J个子集

即当

时，

d (a, b_{l}^{(m - 1)}) \leq d (a, b_{i}^{(m - 1)}),

i≠j；

4）计算总畸变

D^{(m)} = {&Sum;}_{l = 1}^{J} \underset{x &Element; S_{l}^{(m)}}{&Sum;} d (a, b_{l}^{(m - 1)});

5）计算畸变改进量的相对值

δ^{(m)} = \frac{Δ D^{(m)}}{D^{(m)}} = \frac{| D^{(m - 1)} - D^{(m)} |}{D^{(m)}};

6）计算新的码本的码字

b_{l}^{(m)} = \frac{1}{N_{l}} \underset{a &Element; S_{li}^{(m)}}{&Sum;} a;

9）迭代终止，输出码字，并验证总畸变量。