CN101950563B

CN101950563B - 基于分数傅里叶变换的二维维纳滤波的取证语音增强方法

Info

Publication number: CN101950563B
Application number: CN2010102598280A
Authority: CN
Inventors: 包永强; 邹采荣; 赵力; 奚吉; 王开; 魏昕; 唐加能
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2010-08-20
Filing date: 2010-08-20
Publication date: 2012-04-11
Anticipated expiration: 2030-08-20
Also published as: CN101950563A

Abstract

本发明公布了一种基于分数傅里叶变换的二维维纳滤波的取证语音增强方法，包括以下步骤：(1)分数傅里叶变换域；(2)取模；(3)加二维汉明窗；(4)二维维纳滤波；(5)分数傅里叶逆变换；(6)线性合并。本发明在取证语音增强领域具有较高的应用价值和广阔的应用前景。

Description

基于分数傅里叶变换的二维维纳滤波的取证语音增强方法

技术领域

本发明涉及一种语音增强方法，特别涉及一种基于分数傅里叶变换的二维维纳滤波的取证语音增强方法。

背景技术

音频取证是指对录音信号进行获取、分析和评价以作为法庭或其他行政部门认可的证据。音频证据可作为民事或刑事强制调查、行政调查或其他民事事件的一部分。音频取证技术融合了音频数字信号处理领域内的诸多技术如语音识别、说话人识别和语音增强等技术。从上个世纪六十年代开始，特别是1974年的水门事件以后，音频取证技术开始在法庭取证中得到了应用，但是由于当初语音信号处理理论和技术还处于起步发展阶段，音频取证技术的研究一度处于停顿状态，近年来随着语音信号处理技术的日益发展成熟和犯罪手段的不断高技术化，最近几年对音频取证技术的研究得到了语音信号处理人员的广泛关注。

由于取证所用的音频信号经常受到来自噪声、其他声音、紊乱和其他妨碍正常音频取证分析的信号处理手段的影响。而且绝大部分音频信号都来自于采用隐藏的麦克风进行的私下录音，因此信号通常也受到风和其他环境声音的干扰。因此，在分析之前应当采用语音增强技术以提高感知信噪比。通常的语音增强算法大多基于平稳随机噪声理论，不能有效地降低非平稳噪声的影响，分数阶傅里叶变换的旋转特性显示，通过选择合适的分数阶因子a，可以在分数傅里叶变换域上实现语音与噪声的最大分离，也可以通过多次旋转以进一步分离消除噪声。

发明内容

本发明目的是针对现有技术存在的缺陷提供一种基于分数傅里叶变换的二维维纳滤波的取证语音增强方法。

本发明为实现上述目的，采用如下技术方案：

本发明基于分数傅里叶变换的二维维纳滤波的取证语音增强方法，其特征在于包括以下步骤：

(1)分数傅里叶变换域

输入语音序列s(n)的a_i阶分数傅里叶变换算法如下：

S_{a_{i}} (u) = F^{a_{i}} (s (n))

= \{\begin{matrix} \sqrt{\frac{1 - j \cot a_{i}}{2 π}} {&Integral;}_{- \infty}^{+ \infty} \exp (j \frac{u^{2} + n^{2}}{2} \cot a - \frac{jun}{\sin a_{i}}) s (t) dt & a_{i} &NotEqual; mπ \\ s (n) & a_{i} = 2 mπ \\ s (- n) & a_{i} = (2 m &PlusMinus; 1) π \end{matrix}

式中，0＜|p|＜2，i＝1，2，...，16，m为整数，j为虚数单位；

(2)取模

为

的实部，为

的虚部，那么

的模如下：

| S_{a_{i}} (u) | = \sqrt{{(Re (S_{a_{i}} (u)))}^{2} + {(Im (S_{a_{i}} (u)))}^{2}};

(3)二维汉明窗

二维汉明窗h(l，k)：

h (l, k) = (0.54 - 0.46 \cos (\frac{2 πl}{255})) (0.54 - 0.46 \cos (\frac{2 πk}{15})),

上式中l∈[O，255]，k∈[O，15]；

(4)二维维纳滤波

{| \hat{S} (i, j) |}^{2} = {| X (i, j) |}^{2} - {| \hat{N} (i, j) |}^{2} = {| X (i, j) |}^{2} (1 - \frac{{| \hat{N} (i, j) |}^{2}}{{| X (i, j) |}^{2}}),

其中

为目标信号谱的估计幅度，|X(i，j)|为滤波前的目标信号谱的幅度，噪声信号谱的估计幅度。

则可得二维维纳滤波如下：

\hat{S} (i, j) = X (i, j) H (u, v),

= X (i, j) \sqrt{\max (1 - \frac{1}{SNR (u, v)}, β)},

上式中β≥0，以保证传输H(u，v)＞0，

SNR (u, v) = \frac{{| \hat{X} (u, v) |}^{2}}{{| \hat{N} (u, v) |}^{2}},

上式中：

| \hat{X} (u, v) | = Σ_{i = v - 1}^{v + 1} Σ_{j = u - 1}^{j = u + 1} | X (i, j) |,

| \hat{N} (u, v) | = Σ_{i = v - 1}^{v + 1} Σ_{j = u - 1}^{j = u + 1} | N (i, j) |;

(5)分数傅里叶逆变换

为a_i阶分数傅里叶变换域上的估计语音：

＝S_i(u)exp(-jΔθ_i(u))

上式中

分别为a_i阶分数傅里叶变换域上含噪语音、纯净语音的相位谱，Δθ_i(u)为相位误差；

Δθ_i(u)＝ε_iu/sina_i

ε_i为均值较小的随机变量，则有：

{\hat{s}}_{i} (t) = F^{- a_{i}} [S_{i} (u) \exp (- j ω_{i} u)]

= \sqrt{\frac{1 + j \cot a_{i}}{2 π}} {&Integral;}_{- \infty}^{+ \infty} \exp (j \frac{(u^{2} + n^{2}) \cos a_{i} - 2 u (n - ϵ_{i})}{- 2 \sin a_{i}}) S_{i} (u) du,

为

的时域形式。

(6)线性合并

令n′＝n-ε_i，代入上式并化简整理可得：

{\hat{s}}_{i} (n) = RES (\exp (- j \frac{{ϵ_{i}}^{2} \cos^{2} a_{i} + 2 ϵ_{i} t \cos a_{i}}{2 \sin a_{i}})) s (n - ϵ_{i}),

由于ε_i为均值较小的随机变量，则有：

{\hat{S}}_{i} (n) \approx s (n - ϵ_{i}),

那么线性合并后可得：

\hat{s} (n) = \frac{1}{M} Σ_{i = 1}^{M} [s (n - ϵ_{i})],

当信号路数M→∞时，则有：

\hat{s} (n) = E [s (n - ϵ_{i})],

由于语音信号为短时平稳随机过程，则有：

\hat{s} (n) = s (n - τ_{0}),

式中τ₀为时延常数。

本发明的优点和效果在于：

本发明基于分数傅里叶变换的旋转特性提出了分数傅里叶变换域上二维维纳滤波的新方法，理论分析和实验结果表明该模型能够进一步降低非平稳噪声的影响，在分数傅里叶变换域的二维幅度谱上显示的一些非平稳噪声如pink噪声、Volvo汽车噪声和factory噪声呈现一定的分形特性，可以利用这一特性进行降噪或其他语音信号处理。研究表明本发明在取证语音增强领域具有较高的应用价值和广阔的应用前景，从而开启了一维语音二维处理的新途径。

附图说明

图1是分数傅里叶变换域上二维语音增强模型。

图2是分数域纯净语音二维图。

图3是分数域含5dB高斯白噪声语音二维图。

图4是分数域高斯白噪声二维图。

图5是分数域pink噪声二维图。

图6是分数域factory1噪声二维图。

图7是分数域factory2噪声二维图。

图8是分数域volvo噪声二维图。

图9是分数域二维维纳滤波与普通滤波对比1。

图10是分数域二维维纳滤波与普通滤波对比2。

图11是分数域二维维纳滤波与普通滤波对比3。

图12是分数域二维维纳滤波与普通滤波对比4。

具体实施方式

本发明基于分数傅里叶变换的二维维纳滤波的取证语音增强方法，如图1所示，其包括以下步骤：

(1)分数傅里叶变换域；

输入语音序列占s(n)的a_i阶分数傅里叶变换算法如下：

S_{a_{i}} (u) = F^{a_{i}} (s (n))

= \{\begin{matrix} \sqrt{\frac{1 - j \cot a_{i}}{2 π}} {&Integral;}_{- \infty}^{+ \infty} \exp (j \frac{u^{2} + n^{2}}{2} \cot a - \frac{jun}{\sin a_{i}}) s (t) dt & a_{i} &NotEqual; mπ \\ s (n) & a_{i} = 2 mπ \\ s (- n) & a_{i} = (2 m &PlusMinus; 1) π \end{matrix},

式中，

O＜|p|＜2，i＝1，2，...，16，m为整数，j为虚数单位。

(2)取模

令

为

的实部，为

的虚部，那么

的模

| S_{a_{i}} (u) | = \sqrt{{(Re (S_{a_{i}} (u)))}^{2} + {(Im (S_{a_{i}} (u)))}^{2}},

(3)二维汉明窗

图1给出了分数傅里叶变换域上二维语音增强的一般模型，输入语音序列帧长N＝256，50％的帧重叠，经过M(M＝16)个并行的不同阶数的分数傅里叶变换并取模后，进入二维汉明窗。二维汉明窗h(l，k)：

h (l, k) = (0.54 - 0.46 \cos (\frac{2 πl}{255})) (0.54 - 0.46 \cos (\frac{2 πk}{15})),

上式中l∈[0，255]，k∈[0，15]。

(4)二维维纳滤波

分数傅里叶变换域上二维滤波具体推导如下：

{| \hat{S} (i, j) |}^{2} = {| X (i, j) |}^{2} - {| \hat{N} (i, j) |}^{2} = {| X (i, j) |}^{2} (1 - \frac{{| \hat{N} (i, j) |}^{2}}{{| X (i, j) |}^{2}}) \frac{1}{2},

则可得二维维纳滤波如下：

\hat{S} (i, j) = X (i, j) H (u, v),

= X (i, j) \sqrt{\max (1 - \frac{1}{SNR (u, v)}, β)},

上式中β≥0，以保证H(u，v)＞0。

SNR (u, v) = \frac{{| \hat{X} (u, v) |}^{2}}{{| \hat{N} (u, v) |}^{2}},

上式中：

| \hat{X} (u, v) | = Σ_{i = v - 1}^{v + 1} Σ_{j = u - 1}^{j = u + 1} | X (i, j) |,

| \hat{N} (u, v) | = Σ_{i = v - 1}^{v + 1} Σ_{j = u - 1}^{j = u + 1} | N (i, j) |,

(5)分数傅里叶逆变换

为a_i阶分数傅里叶变换域上的估计语音，作如下假设：

＝S_i(u)exp(-jΔθ_i(u))，

上式中

分别为a_i阶分数傅里叶变换域上含噪语音、纯净语音的相位谱，Δθ_i(u)为相位误差，简单分析起见，可令：

Δθ_i(u)＝ε_iu/sina_i，

ε_i为均值较小的随机变量。则有：

{\hat{s}}_{i} (t) = F^{- a_{i}} [S_{i} (u) \exp (- j ϵ_{i} u)],

= \sqrt{\frac{1 + j \cot a_{i}}{2 π}} {&Integral;}_{- \infty}^{+ \infty} \exp (j \frac{(u^{2} + n^{2}) \cos a_{i} - 2 u (n - ϵ_{i})}{- 2 \sin a_{i}}) S_{i} (u) du,

(6)线性合并

令n′＝n-ε_i，代入上式并化简整理可得：

{\hat{s}}_{i} (n) = RES (\exp (- j \frac{{ϵ_{i}}^{2} \cos^{2} a_{i} + 2 ϵ_{i} t \cos a_{i}}{2 \sin a_{i}})) s (n - ϵ_{i}),

由于ε_i为均值较小的随机变量。则有：

{\hat{s}}_{i} (n) \approx s (n - ϵ_{i}),

那么线性合并后可得：

\hat{s} (n) = \frac{1}{M} Σ_{i = 1}^{M} [s (n - ϵ_{i})],

当信号路数M→∞时，则有：

\hat{s} (n) = E [s (n - ϵ_{i})],

由于语音信号为短时平稳随机过程，则有：

\hat{s} (n) = s (n - τ_{0})

式中τ₀为时延常数。

为了分析上提出的分数傅里叶变换域上二维维纳滤波的性能，下面针对不同噪声环境下的语音进行分析。在下面分析中，语音数据为在实验室内录制的青年男女的语音，采样频率是8kHz，量化比特数为8bit。在原始纯净语音上叠加由英国TNO感知学会所属的荷兰RSRE语音研究中心提供的高斯白噪声和非平稳噪声。维纳滤波在平稳噪声环境下可以取得良好的性能，下面将其作为基线系统，将本发明提出的分数傅里叶变换域上二维维纳滤波与之比较。

图2至图8分别给出了分数傅里叶变换域上纯净语音、含噪语音、高斯白噪声、pink噪声、factory1噪声、factory2噪声、volvo噪声的二维幅度谱特性，从图中可以看出高斯白噪声在二维分数傅里叶变换域上其幅度谱也基本呈现出平稳特性，其他噪声则不然，但volvo噪声、factory2噪声呈现出较强的分形特性，factory1噪声、pink噪声也呈现出弱分形特性，关于这一特性可在以后的降噪和其他语音信号处理中加以应用。四种非平稳噪声与含噪语音随着分数阶因子接近1基本趋于集中，高斯白噪声则均匀分布在整个二维平面。

图9中：(a)纯净语音；(b)5dB含噪语音(高斯白噪声)；(c)普通维纳滤波；(d)分数傅里叶变换域二维维纳滤波。从图中可看出，分数傅里叶变换域二维维纳滤波对于高斯白噪声滤波性能要优于普通维纳滤波。

图10中：(a)纯净语音；(b)5dB含噪语音(pink噪声)；(c)普通维纳滤波；(d)分数傅里叶变换域二维维纳滤波。从图中可看出，普通维纳滤波法在语音段波形有些失真，而二维维纳滤波比较接近于原始纯净语音。因此，分数傅里叶变换域二维维纳滤波对于pink噪声滤波性能要优于普通维纳滤波。

图11中：(a)纯净语音；(b)5dB含噪语音(factory1噪声)；(c)普通维纳滤波；(d)分数傅里叶变换域二维维纳滤波。图12中：(a)纯净语音；(b)0dB含噪语音(volvo噪声)；(c)普通维纳滤波；(d)分数傅里叶变换域二维维纳滤波。从图11、图12可看出，普通维纳滤波要比分数域二维维纳滤波波形更失真一些，主要原因不仅是非平稳噪声导致噪声谱估计值与当前噪声谱差异较大，而且由于相位噪声的影响导致时域波形产生随机时延从而导致波形失真较大。

表1给出了分数傅里叶变换域上二维维纳滤波和普通维纳滤波在高斯白噪声、pink噪声、Volvo汽车噪声和factory噪声下的取证语音增强性能比较。从表1中可以看出，分数傅里叶变换域上二维维纳滤波要明显优于普通维纳滤波，其中分数傅里叶变换域上二维维纳滤波对于高斯白噪声效果最好，对于volvo汽车噪声效果其次，对factory噪声的效果最差，实验结果显示，分数傅里叶变换域上二维维纳滤波能够有效的降低非平稳噪声的影响。

表1