CN104021797A

CN104021797A - 一种基于频域稀疏约束的语音信号增强方法

Info

Publication number: CN104021797A
Application number: CN201410275813.1A
Authority: CN
Inventors: 余腾龙; 张烨; 吴康锐; 张文全
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2014-06-19
Filing date: 2014-06-19
Publication date: 2014-09-03

Abstract

一种基于频域稀疏约束的语音信号增强方法，(1)以语音信号短时傅里叶变换系数的加权L1范数作为语音去噪的过程的稀疏约束；(2)稀疏约束项与数据保真项通过拉格朗日乘子结合得到代价函数；(3)采用重复加权分裂布雷格曼算法求解代价函数，得到去噪信号。本发明与小波变换需要选取合适母小波及尺度不同，采用短时傅里叶变换将语音信号变换到时频域处理；与一般分裂布雷格曼算法相比重复加权分裂布雷格曼算法针对加权L1范数约束改进了更新迭代的过程，使算法具有自适应的特性，提高了算法的性能；本发明提供的语音增强方法能有效抑制噪声并改善语音信号质量，作为语音信号处理系统的预处理模块发挥重要作用。

Description

一种基于频域稀疏约束的语音信号增强方法

技术领域

本发明属于信号处理技术领域，涉及一种语音信号增强方法。

背景技术

通常，噪声的存在使得语音信号处理系统的性能恶化，但采用语音增强技术作为预处理可以有效抑制噪声的影响。语音增强的主要目标是从带噪语音信号中尽可能地提取原始语音信号，从而改善语音质量。目前常用的语音增强算法主要有：噪声对消法、维纳滤波法、小波去噪法等。这些语音信号处理方法可分为时域和变换域两类。噪声对消法和维纳滤波法属于在时域处理的方法。噪声对消法要求采集背景噪声作为参考噪声，该方法受参考噪声的影响较大。维纳滤波器法是在最下均方误差准则下得到最优滤波器，但巨大的运算量限制了其广泛应用。小波去噪法属于在变换域处理的方法，先选取合适的母小波，再在不同尺度下对语音信号分解，对分解系数采用硬阈值或软阈值等方法去噪，最后通过反变换得到时域的去噪信号。该方法中母小波和阈值的选取对去噪性能影响较大。

发明内容

本发明目的是针对现有语音信号增强方法的不足，提出了一种基于频域稀疏约束的语音信号增强方法。

本发明是通过以下技术方案实现的。

①以语音信号短时傅里叶变换系数的加权L1范数作为语音去噪的过程的稀疏约束；

②稀疏约束项与数据保真项通过拉格朗日乘子结合得到代价函数；

③采用重复加权分裂布雷格曼算法求解代价函数，得到去噪信号。

更进一步，本发明的具体步骤如下：

(1)读取带噪声的单声道语音信号；

(2)设置短时傅里叶变换的各项参数；

(3)利用重复加权分裂布雷格曼算法估计源信号，该算法的代价函数为：

\min_{x} {| | F (x) | |}_{w, 1} + \frac{μ}{2} {| | y - x | |}_{2}^{2}

其中带噪语音信号为y＝x+n，x为源信号，n高斯白噪声，F(x)表示对语音信号x的短时傅里叶变换，||·||_w,1为加权L1范数，如向量z∈R^p，其加权L1范数为w＝[w₁ … w_p]^T∈R^p为加权系数，μ为拉格朗日乘子。

迭代时x，z和b的初值均设为零向量，w初值设为全1向量。

迭代过程如下：

(a)

x^{t + 1} = {\min_{x} \frac{μ}{2} | | y - x | |}_{2}^{2} + \frac{λ}{2} {| | z^{t} - F (x) - b^{t} | |}_{2}^{2}

对上式求导并令导数为零，得到x的迭代公式如下：

x^{t + 1} = \frac{(μy + {λF}^{- 1} (z^{t} - b^{t}))}{μ + λ}

其中F^-1(·)表示短时傅里叶变换的逆变换；

(b)

z^{t + 1} = \min_{z} {| | z | |}_{w, 1} + \frac{λ}{2} {| | z - F (x^{t + 1}) - b^{t} | |}_{2}^{2}

对上式求导并令导数为零，可得到z中每个元素的更新公式为：

z_{j}^{t + 1} = \{\begin{matrix} {(F (x^{t + 1}) + b^{t})}_{j} - \frac{w_{j}}{λ} & {(F (x^{t + 1}) + b^{t})}_{j} > \frac{w_{j}}{λ} \\ 0 & - \frac{w_{j}}{λ} < {(F (x^{t + 1}) + b^{t})}_{j} < \frac{w_{j}}{λ} \\ {(F (x^{t + 1}) + b^{t})}_{j} + \frac{w_{j}}{λ} & {(F (x^{t + 1}) + b^{t})}_{j} < - \frac{w_{j}}{λ} \end{matrix}

(c) b^t+1＝b^t+F(x^t+1)-z^t+1

循环以上(a)(b)(c)步，直到满足停止条件||x^t+1-x^t||₂/||x^t||₂≤ρ后执行步骤(d)更新权值w；

(d)权值w的更新公式为：

w_{j} = \frac{δ}{δ + | z_{j} |}

δ的值取向量z中所有元素的标准差，再在新的权值条件下回到步骤(a)，如此重复直到权值更新后没有变化，则将以上估计的源信号x作为语音增强的结果。

将步骤(3)估计的源信号作为语音增强的结果，并与源信号x比较可得到输出性噪比作为本发明的评价标准。

本发明所述的设置短时傅里叶变换的各项参数，包括窗函数的类型(一般取汉明窗)、窗函数的大小(一般取20-30毫秒)、窗移动步长(一般为窗大小的一半)。

本发明方法与现有语音增强方法相比较，具有如下显著的特点和优点：

(1)与小波变换需要选取合适母小波及尺度不同，本发明采用短时傅里叶变换将语音信号变换到时频域处理。

(2)与一般分裂布雷格曼算法相比重复加权分裂布雷格曼算法针对加权L1范数约束改进了更新迭代的过程，提高了算法的性能。

(3)重复更新代价函数中的权值，使算法具有自适应的特性，从而有效的抑制噪声。

本发明提供的语音增强方法能有效抑制噪声并改善语音信号质量，作为语音信号处理系统的预处理模块发挥重要作用。

附图说明

图1为采用的原始语音信号。

图2为采用的带噪语音信号(信噪比为5分贝)。

图3为采用重复加权分裂布雷格曼算法得到的语音去噪结果。

图4为采用一般分裂布雷格曼算法得到的语音去噪结果。

图5为采用小波去噪法(多贝西5小波)的结果。

具体实施方式

本发明将通过以下实施例作进一步说明。

实施例。

(1)读取信噪比为5分贝的带噪单声道语音信号；

(2)设置短时傅里叶变换的各项参数，窗函数的类型取汉明窗、窗函数的大小取30毫秒、窗移动步长为窗大小的一半；

(3)利用重复加权分裂布雷格曼算法估计源信号，该算法的代价函数为迭代时x，z和b的初值均设为零向量，w初值设为全1向量，λ取1，μ取噪声方差的倒数，即68.02。

迭代过程如下：

(a)

x^{t + 1} = {\min_{x} \frac{μ}{2} | | y - x | |}_{2}^{2} + \frac{λ}{2} {| | z^{t} - F (x) - b^{t} | |}_{2}^{2}

对上式求导并令导数为零，得到x的迭代公式如下

x^{t + 1} = \frac{(μy + {λF}^{- 1} (z^{t} - b^{t}))}{μ + λ}

其中F^-1(·)表示短时傅里叶变换的逆变换；

(b)

z^{t + 1} = \min_{z} {| | z | |}_{w, 1} + \frac{λ}{2} {| | z - F (x^{t + 1}) - b^{t} | |}_{2}^{2}

对上式求导并令导数为零，可得到z中每个元素的更新公式为

z_{j}^{t + 1} = \{\begin{matrix} {(F (x^{t + 1}) + b^{t})}_{j} - \frac{w_{j}}{λ} & {(F (x^{t + 1}) + b^{t})}_{j} > \frac{w_{j}}{λ} \\ 0 & - \frac{w_{j}}{λ} < {(F (x^{t + 1}) + b^{t})}_{j} < \frac{w_{j}}{λ} \\ {(F (x^{t + 1}) + b^{t})}_{j} + \frac{w_{j}}{λ} & {(F (x^{t + 1}) + b^{t})}_{j} < - \frac{w_{j}}{λ} \end{matrix}

(c) b^t+1＝b^t+F(x^t+1)-z^t+1

循环以上(a)(b)(c)步，直到满足停止条件||x^t+1-x^t||₂/||x^t||₂≤0.001后执行步骤(d)更新权值w；

(d)权值w的更新公式为

w_{j} = \frac{δ}{δ + | z_{j} |}

δ的值取向量z中所有元素的标准差，再在新的权值条件下回到步骤(a)，如此重复直到权值更新后没有变化。

(4)将步骤(3)估计的源信号作为语音增强的结果，并与源信号x比较可得到输出性噪比作为本发明的评价标准。

表1给出了本发明方法对语音去噪结果的客观评价指标。为评价各去噪方法的性能，表1中采用了输出信噪比衡量去噪语音的质量。从表1可知，本发明提出的重复加权分裂布雷格曼算法能有效去噪，并优于一般分裂布雷格曼算法和小波去噪法。

表1语音信号去噪性能(输出信噪比，单位分贝)

Claims

1.基于频域稀疏约束的语音信号增强方法，其特征在于：

2.根据权利要求1所述的基于频域稀疏约束的语音信号增强方法，其特征在于：首先，读取带噪声的单声道语音信号；设置短时傅里叶变换的各项参数；然后，利用重复加权分裂布雷格曼算法估计源信号，该算法的代价函数为：

\min_{x} {| | F (x) | |}_{w, 1} + \frac{μ}{2} {| | y - x | |}_{2}^{2}

其中，带噪语音信号为y＝x+n，x为源信号，n高斯白噪声，F(x)表示对语音信号x的短时傅里叶变换，||·||_w,1为加权L1范数，μ为拉格朗日乘子；

迭代时x，z和b的初值均设为零向量，w初值设为全1向量；

迭代过程如下：

(a)

x^{t + 1} = {\min_{x} \frac{μ}{2} | | y - x | |}_{2}^{2} + \frac{λ}{2} {| | z^{t} - F (x) - b^{t} | |}_{2}^{2}

对上式求导并令导数为零，得到x的迭代公式如下：

x^{t + 1} = \frac{(μy + {λF}^{- 1} (z^{t} - b^{t}))}{μ + λ}

其中F^-1(·)表示短时傅里叶变换的逆变换；

(b)

z^{t + 1} = \min_{z} {| | z | |}_{w, 1} + \frac{λ}{2} {| | z - F (x^{t + 1}) - b^{t} | |}_{2}^{2}

z_{j}^{t + 1} = \{\begin{matrix} {(F (x^{t + 1}) + b^{t})}_{j} - \frac{w_{j}}{λ} & {(F (x^{t + 1}) + b^{t})}_{j} > \frac{w_{j}}{λ} \\ 0 & - \frac{w_{j}}{λ} < {(F (x^{t + 1}) + b^{t})}_{j} < \frac{w_{j}}{λ} \\ {(F (x^{t + 1}) + b^{t})}_{j} + \frac{w_{j}}{λ} & {(F (x^{t + 1}) + b^{t})}_{j} < - \frac{w_{j}}{λ} \end{matrix}

(c) b^t+1＝b^t+F(x^t+1)-z^t+1

循环以上(a)(b)(c)步，直到满足停止条件||x^t+1-x^t||₂/||x^t||₂≤ρ后执行步骤(d)更新权值w

(d)权值w的更新公式为：

w_{j} = \frac{δ}{δ + | z_{j} |}