CN106548780A

CN106548780A - 一种语音信号的压缩感知重构方法

Info

Publication number: CN106548780A
Application number: CN201610970186.2A
Authority: CN
Inventors: 孙林慧; 赵城; 薛海双
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2017-03-29
Anticipated expiration: 2036-10-28
Also published as: CN106548780B

Abstract

本发明公开了一种语音信号的压缩感知重构方法，该方法克服了现有语音信号压缩重构技术的不足，提出一种基于平滑l₀(Smooth L0)范数的语音信号压缩重构方法，该方法与传统的语音信号重构方法比较，SL0算法在重构前不需要知道该语音信号的稀疏度，而且具有计算量小、匹配度高、重构时间少等优点。为了达成上述目的，本发明的解决方案是：使用新的平滑L0范数进行语音信号的重构。本发明相比于传统的语音信号重构方法，提出的改进的平滑L0算法采用了最速下降法和梯度投影算法，因此具有计算量小、匹配度高以及重构时间少等优点。

Description

一种语音信号的压缩感知重构方法

技术领域

本发明涉及一种语音信号的压缩感知重构方法，属于语音信号压缩感知技术领域。

背景技术

传统方法中对语音信号的处理都是基于奈奎斯特采样定理的，定理指出采样频率必须大于信号最高频率的两倍，否则在接收端将不能很好的恢复原信号，该定理给出了采样频率与信号频谱分布之间的关系，是任何信号精确重构的充分条件，但不一定是必要条件。如何根据语音信号的特殊性，对语音信号重新建模以获得更少的采样但又不影响语音的重构质量，是当前语音信号处理领域中的研究热点。

2004年由Donoho与Candes等人提出的压缩感知理论是基于信号在某个域的稀疏性建立的线性、非自适应采样的新理论，该理论表明具有稀疏性的压缩感知技术能获得较经典奈奎斯特采样定理更好的压缩性能，信号的稀疏性或可压缩性是实现压缩重构的必要条件之一。语音压缩感知(Compressed Sensing，CS)理论跳出了传统采样的思维模式，不再要求采样率必须高于信号最高频率的两倍。该理论具体包括两个环节，通过观测将满足稀疏特性的信号从高阶矩阵线性投影为低阶，通过重构算法重构出原信号。在此过程中，采样和压缩同时进行，大大减少了采样的复杂度。现阶段压缩感知理论已被广泛应用到语音信号处理的各个方面，比如，语音增强和声源分离等，同时该理论在地质勘探、气象预测、司法、军事等领域有着广泛的应用。

语音压缩感知理论主要包括选取稀疏基、设计观测矩阵和选择重构算法三部分。其中，重构算法是压缩感知最重要的环节，也是本发明研究的重点，因为它直接影响着重构信号的质量。目前，重构算法主要分为三类：基于范数最小化的贪婪算法，如正交匹配追踪(Orthogonal Matching Pursuit，OMP)算法；基于范数最小化的凸优化算法，如基追踪(Basis Pursuit，BP)法；以及它们的组合算法。贪婪算法主要思想是每次迭代时得到的不是精确解，而是选择迭代点的局部最优解逼近原始信号。凸优化算法是把范数的求解问题转换成求解范数，从而解决范数的NP难题。上述两种算法具有如下特征，贪婪算法计算简单、重构效果好，但大部分贪婪算法要求信号的稀疏度是已知的，在实际中比较难以满足。凸优化算法信号重构率高，所需的观测点少，但计算复杂度高，计算速度比较慢。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于平滑(Smooth L0)范数的语音信号压缩重构方法，该方法克服了现有语音信号压缩重构技术的不足，与传统的语音信号重构方法比较，本发明SL0算法在重构前，不需要知道该语音信号的稀疏度，而且具有计算量小、匹配度高、重构时间少等优点。为了达成上述目的，本发明使用新的平滑L0范数进行语音信号的重构。

本发明解决其技术问题所采取的技术方案是：一种语音信号的压缩感知重构方法，该方法包括如下步骤：

步骤1：给定一段.wav格式的语音，采样之后得到时域语音信号x，选取高斯观测矩阵，求得观测向量y，选取离散余弦(discrete cosine transformation，DCT)稀疏基对原语音信号进行稀疏表示，具体包括：

步骤1-1：对一段时域语音信号进行数字化采样，考虑到语音信号的短时平稳特性，对采样后的数字信号进行加窗、分帧，帧长取30ms；

步骤1-2：根据压缩感知理论的指导以及考虑到语音信号的固有特性，固定观测矩阵为高斯观测矩阵，得到每一帧语音信号的观测信号；

步骤1-3：根据压缩感知对信号稀疏性的要求，对每一帧信号进行离散余弦变换，得到信号在离散余弦变换域的表示；

步骤2：本发明采用SL0算法重构原信号，该算法的核心在于选取合适的平滑函数，该步骤将通过实验选择合适的平滑函数，利用梯度投影和最速下降法求解最小范数，具体包括：

步骤2-1：传统的高斯平滑函数表示为考虑到语音信号自身的特点，结合实验，在平滑函数的形式和参数上给出了改进，改进后的平滑函数表示为

步骤2-2：分别利用传统的OMP算法、基于高斯平滑函数以及基于本发明提出的改进的平滑函数的SL0算法分别重构语音信号；

步骤3：对上述三种重构方法恢复出的整段语音作出评价；

分别采用传统的OMP算法、基于高斯平滑函数的SL0重构算法以及基于本发明提出的新的平滑函数的SL0重构算法进行实验，并从重构时间、重构质量两个方面分析方法的优劣，其中，重构质量评估主要从主观、客观两个方面展开。

有益效果：

1、本发明提出的基于平滑(Smooth L0)范数的语音信号压缩重构，具有一定的理论和实践价值，该方法重构前不需要知道该语音信号的稀疏度。

2、本发明相比于传统的语音信号重构方法，提出的平滑L0算法采用了最速下降法和梯度投影算法，因此具有计算量小、匹配度高以及重构时间少等优点。

附图说明

图1是本发明整体的系统框图。

图2是一帧信号各个时期的波形。

图3是方差为0.1时，两种函数对比图。

图4是平均帧信噪比随压缩比的变化情况。

图5是MOS随压缩比的变化情况。

具体实施方式

本发明提供了一种语音信号的压缩感知重构方法，现结合图1给出的压缩感知一般的流程，以及实验中的实验中间结果对本发明的实现过程以及创新之处做详细论述：

步骤1：获得观测信号并求解稀疏解

1.本发明是从中国科学院自动化研究所汉语语音库中选取的一段时长为1s的男性语音“大规模集成电路”，此信号的采样频率为16kHz，每帧信号取256个采样点；

2.选取高斯观测矩阵进行观测，该矩阵的形式如下：

构造一个大小为M×N的矩阵Ψ，其中M是得到观测信号的维数，N是原信号的维数，当Ψ中的每一个元素独立的服从均值为0，方差为1/M的高斯分布时，观测信号可以表示为y＝Ψx；

3.根据压缩感知理论，必须对原语音信号x进行稀疏表示，本发明采用离散余弦变换基对时域信号进行稀疏表示，用Φ表示离散余弦基矩阵，则x＝Φα，其中α是向量x在基Φ下的坐标。

经过上述处理后，观测信号可以表示如下：

其中，被称为压缩矩阵。

把上述方程作为已知条件，根据观测值重构出α，从而求解出原始语音信号x就是接下来的主要任务。

步骤2：重构原信号α

1.新的重构方法的提出

1-A.新方法的理论分析

上面的分析指出，由于M<N，所以式(1)是一个欠定方程，具有无穷多个解。常见的求解该方程的方法有很多，正交匹配追踪算法，基追踪算法等。考虑到上述方法计算比较复杂，而且对信号的先验知识要求较高，本发明提出了一直基于平滑L0范数的重构方法。

该方法的核心思想是用一个平滑的连续函数逼近稀疏向量α＝[α₁,α₂，…,α_i,…,α_n]^T的范数，使得范数最小的解就是所求的最优解。其中，稀疏向量α的范数就是向量α中的非零系数。定义函数：

那么，稀疏向量α的范数可以表示成：

由式(3)可以看出稀疏向量α的范数的不连续性是由不连续函数g引起的。如果用一个近似函数g的平滑连续函数来代替函数g，那么就可以得到范数的平滑估计。

SL0算法中的关键问题是平滑连续函数的选取，如果一个连续函数满足式(4)的形式：

那么此函数可以作为平滑函数来近似逼近范数。因为，根据公式(4)结合公式(2)可以得到：

定义函数那么有：

所以，稀疏向量α的范数可以表示为式(7)的形式。

此时式(1)的求解模型可以转化成式(8)形式的求解模型。

其中，参数σ的大小决定了逼近的程度。当σ＝0时，||α||₀＝n-F_σ(α)，此时式(8)的解就是求解模型式(1)的解。然而，实际中无法使得σ取值到0，因此只能选择一个递减的序列σ₁，σ₂，σ₃，…，求解每一个σ_i值对应的目标函数的最优解，直到σ足够小为止。

1-B.平滑函数的选择

由上面的推导得知平滑函数的选择直接影响到重构的性能，因此该算法的核心内容是平滑函数的选择，常见的平滑函数是高斯平滑函数，如式(9)：

它是一个均值为0，方差为σ的高斯分布，显然满足式(4)。本发明为了充分考虑语音信号在DCT域的分布特性，通过数次的实验验证，在平滑函数的形式以及参数上做出了重大改进，提出了一种新的平滑函数，如式(10)：

为了说明两种平滑函数的差异，图2给出了在方差σ＝0.1时两种函数的曲线，可以看出，本文提出的新的平滑函数比标准高斯函数更“陡峭”，从而在理论上证明了相对于高斯平滑函数，新的平滑函数逼近范数的效果更好。

2.基于改进SL0算法重构原信号α

根据上面的讨论给出使用改进SL0算法重构原信号的具体步骤如下：

2-A.设置初始值，重构信号余量初始值r₀＝0，平滑函数初始参数σ＝1；

2-B.求-F_σ的搜索方向d；

2-C.使用修正的牛顿算法更新重构信号α＝α+μd；

2-D.使用梯度投影算法得到α＝α-Φ^T(ΦΦ^T)^-1(Φα-y)，计算余量r＝y-Φα；

2-E.得到最优近似值

2-F.对求得的α进行离散余弦反变换，得到重构语音信号的时域表示。

图3给出了选取的一帧信号在实验的各个阶段的波形图。

步骤3:基于新的重构算法的语音信号重构效果评估

在MATLAB中，本发明使用了tic、toc函数对重构的时间进行了计算。经计算：在相同环境下，基于本发明提出的平滑函数的SL0算法重构时间为3.2690s，基于标准高斯函数的SL0算法重构时间为3.5128s，传统的OMP算法重构时间为11.6543s。可以看出，SL0算法大大降低了语音重构的时间，而且改进的SL0算法具有更快的计算速度。

在评估语音重构质量方面，本发明从客观和主观两个方面入手。在客观方面，将压缩比分别设置为0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8和0.9，求出不同压缩比下的平均帧信噪比(Average frame signal to noise ratio，AFSNR)。在主观方面，本发明对在不同压缩比情况下重构的语音信号，进行平均意见得分(Mean Opinion Score，MOS)评估。为了描述方便，本发明把使用标准的高斯函数的SL0算法称为GSL0(Smoothed L0Algorithm Basedon Gaussian Function)，把使用本文提出的连续函数作为平滑函数的SL0算法称为NSL0(Smoothed L0 Algorithm Based on New Function)。

1.A客观分析

客观上，本发明使用平均帧信噪比来衡量重构效果。在不同压缩比(M/N)下，根据式(11)求解平均帧信噪比：

其中，x_k是原语音信号的第k帧，是x_k的重构信号，P是语音的总帧数，实验数据记录在表1和图4中。

表1采用不同算法重构后的平均帧信噪比(dB)

M/N	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9
										NSL0	2.1283	7.9892	15.8359	21.1350	27.5223	30.0967	32.4021	37.0664	42.2681
GSL0	2.0139	7.8607	14.7202	20.9624	25.3486	28.8083	31.6657	35.7831	40.4368
										OMP	0.3540	7.2702	13.9522	18.3522	21.8450	24.3081	26.3795	28.9466	31.0045

从表1和图4中看出，随着压缩比的增加，不论使用哪种重构方法，语音的AFSNR都会跟着增加。但是，在相同的压缩比下，基于NSL0算法重构的语音信号的AFSNR要高于基于GSL0算法的，但相差并不是很大。但是，不论是基于NSL0算法还是基于GSL0算法，重构后的语音信号的AFSNR都要明显高于传统的OMP重构模型。因此可以说明，相比传统的OMP算法，本文提出的基于SL0的语音压缩重构算法可以明显提高语音重构的质量。

1.B主观分析

在主观方面，采用PESQ(Perceptual evaluation of speech quality)测试语音的质量，实验得到的PESQ MOS记录在表2和图5中。PESQ MOS是最直观反映语音质量的技术指标，根据ITU P.862规范定义，取值范围为0(最差)～5(最好)。

表2采用不同算法重构的MOS

M/N	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9
										NSL0	0.564	1.539	2.302	3.354	3.844	4.120	4.211	4.269	4.294
GSL0	0.536	1.535	2.301	3.294	3.787	4.104	4.208	4.275	4.290
										OMP	0.386	1.211	1.983	2.746	3.240	3.296	3.531	3.689	3.725

从表2和图5中看出，随着压缩比增加，MOS也会跟着增加。但是，在相同的压缩比下，基于NSL0算法的语音重构信号的MOS和基于GSL0算法的相差无几，但是都要高于基于传统OMP算法的。因此，本文所提出的基于SL0重构模型的MOS要高于传统的OMP重构模型，在主观方面，基于SL0算法重构的语音具有较好的听觉感受。

以上实验结果表明：与传统的OMP重构算法进行比较，本文所采用的基于改进平滑函数的SL0重构方法可以显著提高语音信号的重构质量、减少重构时间。并且，在某些特定的环境下，基于改进平滑函数的SL0重构模型的平均帧信噪比要高于使用标准高斯函数的SL0重构模型。

Claims

1.一种语音信号的压缩感知重构方法，其特征在于，所述方法包括如下步骤：

步骤1：获得观测信号并得到观测信号的稀疏表示，给定一段.wav格式的语音，采样之后得到时域语音信号x，选取高斯观测矩阵，求得观测向量y，选取离散余弦稀疏基对原语音信号进行稀疏表示；

步骤2：采用SL0算法重构原信号，通过实验选择平滑函数，利用梯度投影和最速下降法求解最小范数，所述的平滑函数为：

f_{σ} (α) = 2 / (1 + e^{5 α^{2} / σ^{2}})

步骤3：对整段语音的重构效果作出评价，包括从重构时间和重构质量这两个方面分析上述步骤2中三种方法的优劣，其中，重构质量评估主要从主观、客观这两个方面展开；

步骤3-1.在MATLAB中，使用tic、toc函数对重构的时间进行计算；

步骤3-2.在客观方面，将压缩比分别设置为0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8和0.9，求出不同压缩比下的平均帧信噪比，在主观方面，对在不同压缩比情况下重构的语音信号，进行平均意见得分评估，平均帧信噪比公式为：

A F S N R = \frac{1}{P} Σ_{k = 1}^{P} 10 \log 10 (\frac{| | x_{k} | |_{2}^{2}}{| | x_{k} - {\hat{x}}_{k} | |_{2}^{2}}) .

2.根据权利要求1所述的一种语音信号的压缩感知重构方法，其特征在于，所述步骤1包括：

步骤1-1：对一段时域语音信号进行数字化采样，对采样后的数字信号进行加窗、分帧，帧长取30ms；

步骤1-2：构造一个大小为M×N的矩阵Ψ，其中M是得到观测信号的维数，N是原信号的维数，当Ψ中的每一个元素独立的服从均值为0，方差为1/M的高斯分布时，观测信号表示为y＝Ψx；

步骤1-3：根据压缩感知理论，必须对原语音信号x进行稀疏表示，采用离散余弦变换基对时域信号进行稀疏表示，用Φ表示离散余弦基矩阵，则x＝Φα，其中α是向量x在基Φ下的坐标。

3.根据权利要求1所述的一种语音信号的压缩感知重构方法，其特征在于，所述步骤2包括：

步骤2-1：传统的高斯平滑函数表示为考虑到语音信号自身的特点，结合实验，该步骤作出作出重大改进，在平滑函数的形式和参数上给出了改进，改进后的平滑函数表示为

步骤2-2：分别利用传统的OMP算法、基于高斯平滑函数以及基于本发明提出的改进的平滑函数的SL0算法分别重构语音信号，本发明提出的改进的SL0算法，包括如下步骤：

A.设置初始值，重构信号α＝Ξ^Ty，余量初始值r₀＝0，平滑函数初始参数σ＝1；

B.求-F_σ的搜索方向d；

C.使用修正的牛顿算法更新重构信号α＝α+μd；

D.使用梯度投影算法得到α＝α-Φ^T(ΦΦ^T)^-1(Φα-y)，计算余量r＝y-Φα；

E.得到最优近似值

F.对求得的α进行离散余弦反变换，得到重构语音信号的时域表示。

4.根据权利要求2所述的一种语音信号的压缩感知重构方法，其特征在于：步骤1-1包括对语音信号的分帧、加窗。

5.根据权利要求2所述的一种语音信号的压缩感知重构方法，其特征在于：步骤1-2包括选取高斯观测矩阵作为本发明的观测矩阵。

6.根据权利要求1所述的一种语音信号的压缩感知重构方法，其特征在于：步骤1-3包括选取离散余弦变换基对时域信号进行稀疏表示。

7.根据权利要求1所述的一种语音信号的压缩感知重构方法，其特征在于：步骤3包括从重构时间、重构质量两个方面评价重构算法的优劣，重构质量使用平均帧信噪比和平均帧意见分两个指标。