CN102915735A

CN102915735A - 一种基于压缩感知的含噪语音信号重构方法及装置

Info

Publication number: CN102915735A
Application number: CN2012103571161A
Authority: CN
Inventors: 杨震; 杨真真; 孙林慧
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2012-09-21
Filing date: 2012-09-21
Publication date: 2013-02-06
Anticipated expiration: 2032-09-21
Also published as: CN102915735B

Abstract

本发明公开了一种基于压缩感知的含噪语音信号重构方法，属于信号处理技术领域。本发明首先将传统压缩感知重构的优化问题转化为标准的BCQP问题，降低了求解难度；进一步利用快速梯度投影算法对其进行求解，将共轭性与梯度投影算法相结合，利用已知点处的梯度投影构造一组共轭方向，并沿彼此共轭的方向进行搜索，求出目标函数的极小值，提高了算法收敛速度；并且根据原始含噪语音信号的信噪比估计值自适应地确定最优的正则化参数

，提高了重构信号的信噪比。本发明还公开了一种基于压缩感知的含噪语音信号重构装置，解码端采用本发明的重构方法。相比现有技术，本发明具有更快的收敛速度及更高的重构信号信噪比。

Description

一种基于压缩感知的含噪语音信号重构方法及装置

技术领域

本发明涉及一种语音信号重构方法，尤其涉及一种基于压缩感知的含噪语音信号重构方法及装置，属于信号处理技术领域。

背景技术

传统的信号处理都是基于Nyquist采样定理进行模数转换的，导致实际中采样得到的信号存在很大程度的冗余。如何在保证信号不受损失的情况下，用远低于Nyquist采样定理要求的速率采集信号，同时又不损失信息，能够完全恢复信号，成为信号处理领域的一大革命性任务。在这种情况下，针对具有稀疏特性信号的压缩感知(CS)理论应运而生。

CS理论由Donoho等人于2004年提出，它指出，只要信号是可压缩的或在某个变换域是稀疏的，就可以用一个与变换基不相关的观测矩阵将变换所得的高维信号投影到一个低维空间上，然后通过求解一个优化问题就可以从这些少量的投影中以高概率重构出原信号。在CS理论框架下，采样速率不再取决于信号的带宽，而取决于信息在信号中的结构和内容。

CS理论中的核心问题是信号的重构问题，如何构造稳定、对观测数据要求少、计算复杂度低、收敛速度快、鲁棒性强的重构算法一直是CS理论重构算法研究的目标。在使用优化方法重构信号时，如果对含噪信号采用单一的稀疏性约束原则，就无法有效重构原信号。这时，仍可以采用其它有效的重构信号的方法，不同之处在于重构过程所使用的优化目标函数的形式不同，参数的设置不同，应用不同的优化目标函数信号的重建效果也不尽相同。

目前这个领域已经有一些研究成果。在噪声分布已知的情况下，可以用基追踪(BP)方法对噪声产生抑制作用，这种方法被称为基追踪去噪(BPDN)方法；在信号的稀疏度已知的情况下，可以采用最小绝对收缩与变量选择算子(LASSO)方法对含噪信号进行重构；当信号的稀疏度和噪声的分布均未知时，可以把寻找稀疏解问题归结为有边界约束的二次规划(BCQP)问题，并用梯度投影(GP)算法来有效求解。

语音信号的时变性使得实际采样得到的语音信号也存在很大程度的冗余，采用CS理论对语音信号进行处理成为一大研究热点。目前已有许多学者将CS理论应用于语音信号处理。语音信号作为一种自然信号，采集过程中大多情况下都含有噪声。基于CS理论边压缩边采样含噪语音信号的技术具有很好的实用性。含噪的语音信号在DCT域仍是近似稀疏的，这使得用CS理论来重构含噪语音信号成为可能。

发明内容

本发明所要解决的技术问题在于克服现有含噪语音信号重构方法的不足，提供一种基于压缩感知的含噪语音信号重构方法及装置，能够对CS压缩的含噪语音信号进行快速准确的重构。

本发明具体采用以下技术方案：

一种基于压缩感知的含噪语音信号重构方法，首先对以下优化模型进行求解，

\begin{matrix} \min_{z} & F (z) = \frac{1}{2} z^{T} Bz + c^{T} z \end{matrix}

s.t.z≥0

其中b=A^Ty，

c = τ l_{2 N} + (\begin{matrix} - b \\ b \end{matrix}),

B = (\begin{matrix} A^{T} A & - A^{T} A \\ - A^{T} A & A^{T} A \end{matrix}),

A为压缩感知采样的观测矩阵，y为对所述含噪语音信号进行压缩感知采样得到的观测向量，τ∈[0,∞)为正则化参数，l_2N为其中元素均为1且大小为2N×2N的单位矩阵，N为原始含噪语音信号的维数；然后根据所得的最优解并利用以下公式得到所述压缩感知的含噪语音信号的稀疏系数Θ，

z = (\begin{matrix} u \\ v \end{matrix}),

Θ=u-v；

最后根据得到的稀疏系数Θ进行所述压缩感知的含噪语音信号的重构。

在对上述优化模型求解时，可以采用现有的梯度投影算法。然而，现有梯度投影算法由于在可行域内当前迭代点处的负梯度方向与前一次迭代点处的负梯度方向相互垂直，即其搜索路径成“锯齿”形状，从而存在收敛速度较慢的缺点。为了提升算法收敛速度，提高信号重构的实时性，本发明进一步对梯度投影算法进行了改进，具体如下：

采用快速梯度投影算法进行所述优化模型的求解，具体包括以下步骤：

步骤1、初始化：设置初始迭代值z⁽⁰⁾，初始阈值0≤ε<<1，最小搜索步长α_min，最大搜索步长α_max，初始搜索步长α₀∈[α_min,α_max]，初始迭代次数k=0；

步骤2、计算搜索方向δ^(k)：

δ^{(k)} = \{\begin{matrix} {(z^{(k)} - &dtri; F (z^{(k)}))}_{+} - z^{(k)}, k = 0 \\ {(z^{(k)} - &dtri; F (z^{(k)}))}_{+} - z^{(k)} + α_{k - 1} δ^{(k - 1)}, k &GreaterEqual; 1 \end{matrix},

其中

为F(z)在z^(k)点的梯度；

步骤3、线性搜索：寻找迭代步长λ_k使得F(z^(k)+λ_kδ^(k))最小且λ_k∈[0,1]，计算z^(k+1)=z^(k)+λ_kδ^(k)；

步骤4、更新搜索步长α：计算辅助变量γ^(k)=(δ^(k))^TBδ^(k)，若γ^(K)=0，则α_K=α_max，否则，

α_{k} = mid {α_{\min}, \frac{{(δ^{(k)})}^{T} B &dtri; F (z^{(k + 1)})}{γ^{(k)}}, α_{\max}};

步骤5、判断：若则停止，否则k←k+1，并返回步骤2。

为了在含噪语音信号重构的同时，提高重构信号的信噪比，本发明更近一步地采用正则化参数τ的自适应选择方案，具体如下：

所述正则化参数τ利用以下方法确定：首先估计出原始含噪语音信号的信噪比；然后根据信噪比的估计值，利用预设的信噪比-最优正则化参数的对应关系，确定正则化参数τ的值；所述信噪比-最优正则化参数的对应关系预先通过离线训练得到。

根据本发明的重构方法，还可得到一种基于压缩感知的含噪语音信号重构装置，包括编码端和解码端，所述编码端对原始含噪语音信号进行压缩感知采样并输出观测向量，所述解码端接收编码端输出的观测向量，并利用以上任一技术方案所述方法对原始含噪语音信号进行重构。

相比现有技术，本发明具有更快速的收敛性和更高的信噪比，且在不同噪声强度下具有更高的鲁棒性。

附图说明

图1为本发明的含噪语音信号重构系统的原理框图；

图2为不同噪声强度下重构含高斯白噪声语音的性能；

图3为不同噪声强度下重构含高斯白噪声语音的运行时间。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

为便于公众理解，下面先对压缩感知的基本原理进行简要说明：

任意信号x∈R^N，可以用N×1维基向量

的线性组合来表示

其中，

为投影系数，Θ=Ψ^Tx为投影系数矢量，为正交基。当Θ满足||Θ||₀=K(K<<N)时，称信号x是K-稀疏的，其中||Θ||₀表示向量Θ的零范数，即Θ中非零元素的个数。

若信号x在Ψ域上是K-稀疏的（当x本身是K-稀疏的时，令Ψ=I即可），根据CS理论可以用一个与Ψ不相关的矩阵Φ∈R^M×N(其中M<<N)对信号x进行线性测量，得到观测向量y∈R^M为

y = Φx = ΦΨΘ + e \overset{Δ}{=} AΘ + e - - - (2)

其中，e为噪声，A=ΦΨ称为CS矩阵（或观测矩阵）。当信号在Ψ域稀疏时，重构的方法是通过求解如下最优化问题

\begin{matrix} \min_{Θ} & \frac{1}{2} {| | AΘ - y | |}_{2}^{2} + τ {| | Θ | |}_{1} \end{matrix} - - - (3)

其中τ∈[0,∞)为正则化参数。通过求解该优化问题即可得到稀疏系数Θ，进而可重构出原始语音信号x。

本发明首先将非线性凸优化问题(3)转化为一个有边界约束的二次规划(BCQP)问题：令Θ=u-v，其中u≥0，v≥0，u∈R^N，v∈R^N，u_i=(θ_i)₊，v_i=(-θ_i)₊，(·)₊表示“取正”算子，满足(x)₊=max{0,x}₊，则

其中l_N=[1,1,...,1]，表示长度为N的单位向量。则优化问题(3)可转化为一个BCQP问题

\begin{matrix} \min_{u, v} & \frac{1}{2} {| | A (u - v) - y | |}_{2}^{2} + {τl}_{N}^{T} u + {τl}_{N}^{T} v \end{matrix}

s.t.u≥0 (4)

v≥0

进一步将问题(4)转化为标准的BCQP问题

\begin{matrix} \min_{z} & F (z) = \frac{1}{2} z^{T} Bz + c^{T} z \end{matrix} - - - (5)

s.t.z≥0

其中

z = (\begin{matrix} u \\ v \end{matrix}) &Element; R^{2 N},

b＝A^Ty，

c = τ l_{2 N} + (\begin{matrix} - b \\ b \end{matrix}),

B = (\begin{matrix} A^{T} A & - A^{T} A \\ - A^{T} A & A^{T} A \end{matrix}) - - - (6)

由

得它的梯度为应用迭代法将z^(k)迭代至z^(k+1)有

z^(k+1)=z^(k)+λ_kδ^(k) (7)

其中λ_k为迭代步长。各种算法的不同之处在于迭代步长λ_k及搜索方向δ^(k)的选择。上述式（5）的BCQP问题可利用现有的梯度投影算法进行求解，梯度投影算法的公式为：

δ^{(k)} = {(z^{(k)} - &dtri; F (z^{(k)}))}_{+} - z^{(k)} - - - (8)

为了使得搜索方向在可行域范围内，即使得搜索方向为可行方向，梯度投影算法中的迭代步长λ_k应满足λ_k∈[0,1]且F(z^(k)+λ_kδ^(k))=minF(z^(k)+λδ^(k))，于是可得

λ_{k} = mid {0, - \frac{{(δ^{(k)})}^{T} &dtri; F (z^{(k)})}{{(δ^{(k)})}^{T} B δ^{(k)}}, 1} - - - (9)

一旦λ_k的值确定，根据回溯查找法，即可计算出z^(k+1)。

针对梯度投影(GP)算法在可行域内当前迭代点处的负梯度方向与前一次迭代点处的负梯度方向相互垂直，即GP算法的搜索路径成“锯齿”形状，收敛速度慢的缺点，本发明对其进行了改进，将求解无约束最优化问题的共轭梯度法在约束最优化问题中进行了推广，提出了快速梯度投影(FGP)算法，该算法的基本思想是将共轭性与梯度投影(GP)算法思想相结合，利用已知点处的梯度投影构造一组共轭方向，并沿彼此共轭的方向进行搜索，求出目标函数的极小值，它反应的是一种全局性质，避免了“锯齿”现象，因此加快了整个算法的收敛速度。

利用

与δ^(k)构造下一个搜索方向δ^(k+1)，使δ^(k+1)与δ^(k)关于矩阵B共轭。

可令

δ^{(k + 1)} = {(z^{(k + 1)} - &dtri; F (z^{(k + 1)}))}_{+} - z^{(k + 1)} + α_{k} δ^{(k)} - - - (10)

由δ^(k+1)与δ^(k)关于矩阵B共轭可得，(δ^(k))^TBδ^(k+1)=0，于是可以求得搜索步长为

α_{k} = \frac{{(δ^{(k)})}^{T} B &dtri; F (z^{(k + 1)})}{{(δ^{(k)})}^{T} B δ^{(k)}} - - - (11)

把式(11)代入式(10)得到的搜索方向δ^(k+1)就是与δ^(k)关于矩阵B共轭的方向。

因为进行的是精确线性搜索，所以z^(k)是δ^(k)方向上的精确极小点，于是有

结合式(10)可以得到

即δ^(k)为目标函数下降的方向，故FGP算法的搜索方向为下降方向。

本发明的FGP算法具体包括以下步骤：

步骤2、计算搜索方向δ^(k)：

δ^{(k)} = \{\begin{matrix} {(z^{(k)} - &dtri; F (z^{(k)}))}_{+} - z^{(k)}, k = 0 \\ {(z^{(k)} - &dtri; F (z^{(k)}))}_{+} - z^{(k)} + α_{k - 1} δ^{(k - 1)}, k &GreaterEqual; 1 \end{matrix},

其中

为F(z)在z^(k)点的梯度；

α_{k} = mid {α_{\min}, \frac{{(δ^{(k)})}^{T} B &dtri; F (z^{(k + 1)})}{γ^{(k)}}, α_{\max}};

步骤5、判断：若

则停止，否则k←k+1，并返回步骤2。

利用FGP算法的输出z^(k+1)∈R^2N，根据

z^{(k + 1)} = (\begin{matrix} u^{(k + 1)} \\ v^{(k + 1)} \end{matrix}),

取其前N个元素即为u^(k+1)，后N个元素即为v^(k+1)，再利用Θ^k+1＝u^k+1-v^k+1即可得到优化问题(3)的解，最后根据x=ΨΘ即可重构出原始语音信号。其中步骤3的线性搜索也可表示为：更新迭代步长λ_k，使得式(9)成立，求z^(k+1)=z^(k)+λ_kδ^(k)。

优化问题(3)中的正则化参数τ具有重要用，它是在信号残差和系数稀疏度之间进行折中。现有CS重构算法通常采用经验值(其中||e||₂≤δ)，即参数τ与最大允许误差δ和信号长度N有关；或采用τ=0.1||A^Ty||_∞，即参数τ与CS矩阵A和观测向量y有关。但是对于含噪语音信号，如果取经验值，并不能保证重构信号的性能。我们希望重构含噪语音信号的同时，能够提高重构信号的信噪比，即重构算法同时具有一定的消噪功能。τ的选择对重构语音的信噪比影响很大，如果τ取得合适可以得到比原信号更高信噪比的重构信号，如果τ取得不恰当会导致重构出性能很差的信号。因此，选择合适的参数τ成为含噪信号重构必须要解决的一个问题。对于正则化参数τ的选取，理论上重构信号的信噪比（SNR）是正则化参数τ的函数，可以通过求得使得重构信号的SNR最大的点对应的τ即为最佳的参数。但这必须在采用一系列的不同τ重构完成之后再进行选择，但当语音信号改变时则又要做重复的工作，在实际应用中不是很方便。本发明在FGP算法基础上，进一步采用自适应的思想，根据原含噪信号的噪声程度来自适应选择选择FGP算法中的正则化参数τ（下文称该算法为自适应快速梯度投影算法，简称AFGP算法）。采用膨胀系数的思想预先对大量的含不同噪声程度的语音信号分别用FGP算法进行重构，选择使得重构后的信号的SNR最大的参数τ即为最佳参数，即预先训练好不同噪声程度对应的最佳参数τ，得到信噪比-最优正则化参数的对应关系（可以采用对应曲线或对应表的形式）。在信号重构时，首先利用常用的SNR估计的方法(例如用观测来对原含噪语音的SNR进行估计)估计出原含噪语音信号的信噪比，再根据预先训练好的信噪比-最优正则化参数的对应关系自适应选择FGP算法中的最佳的参数τ，从而有效提高重构信号的信噪比。

根据本发明方法得到的一种含噪语音信号重构系统如图1所示，包括编码端和解码端。编码端对含噪语音信号进行CS压缩采样后得到观测向量并输出至解码端；解码端首先估计出原始含噪语音信号的信噪比，然后根据信噪比的估计值，利用预设的信噪比-最优正则化参数的对应关系，确定正则化参数τ的值，最后用FGP算法重构出DCT系数，进而通过DCT反变换重构出相对高质量的语音信号。

本发明首先将传统压缩感知重构的优化问题转化为标准的BCQP问题，降低了求解难度；进一步利用快速梯度投影算法对其进行求解，提高了算法收敛速度；并且根据原始含噪语音信号的信噪比估计值自适应地确定最优的正则化参数τ，提高了重构信号的信噪比。相比现有技术，本发明具有更快的收敛速度及更高的重构信号信噪比。

为了验证本发明的效果，进行了以下验证实验：

定义信号的压缩比为干净语音信号为数据库中的一男性语音“中央革命根据地”，实验对象为该干净语音加入一定程度的噪声的含噪语音信号，采样频率为16KHZ，帧长为N=480个样点(30ms)。观测矩阵A为服从高斯分布的随机矩阵，稀疏基为DCT正交基，DCT变换公式如下所示

X (k) = \{\begin{matrix} Σ_{i = 0}^{N - 1} \frac{1}{\sqrt{N}} x (i) & k = 0 \\ Σ_{i = 0}^{N - 1} \sqrt{\frac{2}{N}} x (i) \cos \frac{(2 i + 1) kπ}{2 N} & k = 1,2, \cdot \cdot \cdot, N - 1 \end{matrix} - - - (12)

通过DCT获得语音的稀疏系数Θ=(θ₁,θ₂,...,θ_N)^T，其中θ_i=X(i-1)。

含高斯白噪声的浊音信号的DCT系数与干净浊音信号的DCT系数类似，除少数系数数值较大外，其他大多数是小系数，故含高斯白噪声的浊音信号在DCT域是近似稀疏的。对此段信号进行类似分析，可以得到此段含高斯白噪声的语音的帧平均DCT系数除少数系数数值较大外，其他大多数是小系数，即此段语音也是近似稀疏的。故含高斯白噪声的语音信号在DCT域是近似稀疏的。同理得到含destoryeregine噪声、factory1噪声、f16噪声、pink噪声的语音信号在DCT域也是近似稀疏的。故含噪语音信号在DCT域是近似稀疏的，可以用基于CS理论的AFGP算法对含噪语音信号进行重构。

对原干净语音(“中央革命根据地”一段语音)分别加入信噪比为-5dB、0dB、5dB、10dB、15dB的高斯白噪声后采用传统的GP算法和本发明的AFGP算法进行重构，重复试验10次，图2显示了采用SNR(单位为dB)作为衡量它们重构性能指标的结果，从客观评价标准SNR来看，AFGP算法重构含高斯白噪声语音信号的性能比GP算法重构含高斯白噪声语音信号的性能好，原含噪信号的SNR越大，AFGP算法的优越性越明显；且在较低信噪比(原含噪语音信号的SNR为-5dB、0dB、5dB)情况下，两种算法在重构含高斯白噪声语音的同时均能提高原信号的SNR。图3显示了采用运行时间t(单位为S)作为衡量它们收敛速度的指标的结果。AFGP算法重构含高斯白噪声语音信号的运行时间均比GP算法重构含高斯白噪声语音信号的运行时间少。

为了更好的说明GP算法和AFGP算法的效果，对原干净语音（“中央革命根据地”一段语音））分别加入信噪比为-5dB、0dB、5dB、10dB、15dB的高斯白噪声、destoryeregine噪声、factory1噪声、f16噪声、pink噪声后采用GP算法和AFGP算法进行重构，重复试验10次。

表1显示了采用SNR(单位为dB)作为衡量它们重构性能的指标的结果。

表1不同类型噪声不同噪声强度下重构含噪语音的性能

在低信噪比(原含噪语音信号的SNR为-5dB、0dB、5dB)的情况下，基于AFGP算法重构含噪语音性能比基于GP算法重构含噪语音性能都好，且该两种算法在重构语音的同时均能提高原信号的SNR；随着原信号信噪比的增大，AFGP算法、GP算法在重构语音信号的同时提高原信号的信噪比的能力降低，当原语音信号的SNR为10dB时，基于AFGP算法重构语音性能比原含噪语音信号的性能好，基于GP算法重构语音性能比原含噪语音信号的性能差，但基于AFGP算法重构语音性能比基于GP算法重构语音性能仍好；当原语音信号的SNR为15dB时，基于AFGP算法重构语音性能比基于GP算法重构语音性能好，但都比原含噪语音信号的性能差。综上所述，从客观评价标准SNR来看，AFGP算法重构含噪语音信号的性能比GP算法重构含噪语音信号的性能好，且在较低信噪比情况下，两种算法在重构含噪语音的同时均能提高原信号的SNR。

表2显示了采用运行时间t(单位为S)作为衡量它们收敛速度的指标的结果。

表2不同类型噪声不同噪声强度下重构含噪语音的运行时间

在不同噪声强度下，AFGP算法重构含噪语音信号的运行时间与GP算法重构含噪语音信号的运行时间均无太大变化，且AFGP算法重构含噪语音信号的运行时间均比GP算法重构含噪语音信号的运行时间少，即AFGP算法加快了收敛速度。

综上所述，AFGP算法具有快速收敛性和较高的信噪比，且在不同噪声强度下具有较高的鲁棒性。