CN102314883A

CN102314883A - 一种判断音乐噪声的方法以及语音消噪方法

Info

Publication number: CN102314883A
Application number: CN2010102191043A
Authority: CN
Inventors: 陈伟宾; 王进军; 庞泉晓
Original assignee: BYD Co Ltd
Current assignee: BYD Co Ltd
Priority date: 2010-06-30
Filing date: 2010-06-30
Publication date: 2012-01-11
Anticipated expiration: 2030-06-30
Also published as: CN102314883B

Abstract

本发明提供了一种判断音乐噪声的方法，包括步骤A、对语音进行预处理；步骤B、求频域信号的功率谱；步骤C、选取特定的语音段作为噪声功率谱；步骤D、通过带噪语音以及噪声功率谱进行谱减得到带有音乐噪声的语音功率谱，并将语音还原成时域语音信号；步骤E、通过正态分布计算静音段的均值与方差，并统计各帧的正态输出概率；步骤F、判断音乐噪声。以及一种语音消噪的方法，包括以上所述的判断音乐噪声的方法，还包括步骤G：消除音乐噪声。本发明实施例通过正态分布计算静音段的均值与方差，并统计各帧的正态输出概率判断音乐噪声，并依据判断的结果消除噪声，达到了较准确判断音乐噪声以及清楚噪声的效果。

Description

一种判断音乐噪声的方法以及语音消噪方法

技术领域

本发明属于语音信号处理领域，尤其涉及一种通过算法判断音乐噪声以及消除语音中所带噪声的方法。

背景技术

语音不仅是人与人之间交流的信息载体而且在现代通信系统中扮演着至关重要的角色。由于噪声的干扰，正常语音往往会失去可懂度造成质量下降。通信系统和语音数字信号处理也会由于噪声的存在而产生极大的误差，从而给科研以及产品开发带来不利影响。因此消除噪声干扰、增强语音质量越来越受人们的重视。

消噪的技术包括基于短时谱估计的语音增强算法有幅度谱相减法、功率谱相减法、维纳滤波法、最小均方差法等。

发明内容

本发明为解决尽可能消除音乐噪声的技术问题，提供一种判断音乐噪声的方法以及语音消噪方法。

一种判断音乐噪声的方法，包括

步骤A、对语音进行预处理；

步骤B、求频域信号的功率谱；

步骤C、选取特定的语音段作为噪声功率谱；

步骤D、通过带噪语音以及噪声功率谱进行谱减得到带有音乐噪声的语音功率谱，并将语音还原成时域语音信号；

步骤E、通过正态分布计算静音段的均值与方差，并统计各帧的正态输出概率；

步骤F、判断音乐噪声。

一种语音消噪的方法，包括以上所述的判断音乐噪声的方法，还包括步骤G：消除音乐噪声。

本发明通过正态分布计算静音段的均值与方差，并统计各帧的正态输出概率判断音乐噪声，并依据判断的结果消除噪声，达到了较准确判断音乐噪声以及清楚噪声的效果。

附图说明

图1为本发明实施例判断音乐噪声以及消除噪声的示意图

图2为图1的具体流程示意图

图3为原始语音信号

图4为现有技术谱减算法得到的语音信号

图5为本发明实施例消噪后得到的语音信号

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示本发明实施例的语音消噪方法包括：

步骤A、对语音进行预处理；

步骤B、求频域信号的功率谱；

步骤C、选取特定的语音段作为噪声功率谱；

步骤F、判断音乐噪声。

下面通过图2具体的介绍本发明的实施例。如图2所示，所述步骤A中所述预处理包括依次进行步骤A1分帧、步骤A2加窗、步骤A3预加重。

具体的，步骤A1、分帧遵照每帧256点，帧移为80点的原则。

步骤A2、加窗指将每帧语音数据分别乘以相应的窗系数，窗长为256点。窗系数由下面公式求得：

\underset{k &Element; [0, N]}{H (k)} = 0.54 - 0.46 * \cos (\frac{2 πk}{N - 1}) - - - (7)

其中N为窗长

步骤A3、对语音信号进行预加重，预加重系数为0.9～1之间的值。

预加重的目的是为了提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。通俗的说，预加重部分就是设计数字滤波器，常采用的是：

H(z)＝1-u/z

其中，u取接近于1的值，因此预加重系数常取0.9～1之间的值。其具体实施如下：

x(0)＝(1-0.97)*x(0) (8)

\underset{k &Element; [0, N]}{x (k)} = x (k) - 0.97 * x (k - 1) - - - (9)

其中N为帧长，x(k)表示一帧语音的第k个点。

优选的，所述预加重系数设定为0.97，可以使得信号的频谱变得更加平坦。

所述步骤B求频域语音信号的功率谱包括利用离散傅里叶变换求频域语音信号功率谱，

X (k) = Σ_{n = 0}^{N - 1} x (n) W_{N}^{kn}, (0 \leq k \leq N - 1) - - - (10)

W_N＝exp(-j2πnk/N)

其中N为帧长。

所述步骤C、于步骤B所得频域语音信号功率谱中选取特定的语音段作为噪声功率谱。所述特定的语音段可取[20，100]ms。

优选的，取前[20，30]ms的语音段作为噪声功率谱，可以获得一个较准确的噪声功率谱。

所述步骤D包括：

步骤D1、利用噪声功率谱|D(k)|与语音功率谱|X(k)|求得一帧中各点的谱减系数，即谱减系数为：其中k∈[0，N-1]，N为帧长；

步骤D2、根据谱减系数对语音进行频域谱减：S(k)＝δ_k*X(k)，X(k)为带噪语音频域信号，S(x_n)为谱减后语音频谱；

步骤D3、利用离散逆傅里叶变换后将语音还原到时域；

\hat{x} (k) = \frac{1}{N} Σ_{n = 0}^{N - 1} S (k) * W_{N}^{kn}

(0≤k≤N-1)

W_N＝exp(j2πnk/N)

S(x_n)表示谱减后的语音频谱，

表示时域语音数据，N为帧长；

步骤D4、取

实数部分作为谱减后的语音信号。

具体的，所述步骤E包括：

步骤E1、于谱减后的语音信号中取特定语音段为静音。

具体的，所述步骤E1中取前[20，100]ms的语音段作为静音。优选的，取前[20，30]ms的语音段作为静音。

步骤E2、设静音有L帧，则：

E (k) = \frac{1}{L} Σ_{l = 1}^{L} | \hat{S_{lk}} |,

k∈[0，N-1]

其中E(k)表示L帧中每帧第k个点的均值，

表示第l帧的第k点的时域信号的模；

步骤E3、根据一帧静音中各点的均值求各点的方差：

D (k) = \frac{1}{L} Σ_{l = 1}^{L} E {{(\hat{s_{lk}} - E (k))}^{2}}; k &Element; [0, N - 1]

D(k)表示每帧第k点的方差，

表示第l帧的第k点的时域信号，E(k)表示L帧中每帧第k点的均值；

步骤E4、根据以上求得的均值和方差，求每帧每个点的正态输出概率之和：

P_{l} = Σ_{k = 0}^{N - 1} \frac{1}{\sqrt{2 πD (k)}} * e^{\frac{- {(x_{lk} - E (k))}^{2}}{2 D {(k)}^{2}}}

其中N为帧长；

步骤E5、根据求得的均值和方差，求静音段的帧平均正态输出概率：

P = \frac{1}{L} Σ_{l = 1}^{L} P_{l}

其中N为帧长，P_l表示第l帧的概率之和，N为帧长，x_lk表示第l帧第k个语音点；

步骤F、取系数α与β(α＞β＞1)，当βP＜P_l＜αP时则判断该帧为音乐噪声，否则不是音乐噪声。

根据噪声与语音能力统计实验可得，所述α可选[2.0，3.5]，所述β可选[0.8，1.8]，可以更准确地判断出音乐噪声。

优选的，所述系数α＝3及β＝1.5得到最准确的音乐噪声判断。

步骤G、消除音乐噪声，将判断为音乐噪声部分的能量置为0，这样就得到纯净语音。

本发明实施例提出了一种基于谱减和分布统计的消噪方法，首先用谱减法消除语音噪声，然后利用分布统计规律提炼出产生音乐噪声的语音帧，最后消除音乐噪声以达到好的消噪效果。如图3至图5比较可以看出，原始语音具有大量的噪声，通过谱减法虽然能消除部分的噪声，但是会留下部分音乐噪声。本发明实施例在谱减消噪后通过利用分布统计规律提炼出产生音乐噪声的语音帧，最后消除音乐噪声以达到好的消噪效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种判断音乐噪声的方法，其特征在于，包括

步骤A、对语音进行预处理；

步骤B、求频域信号的功率谱；

步骤C、选取特定的语音段作为噪声功率谱；

步骤F、判断音乐噪声。

2.如权利要求1所述的一种判断音乐噪声的方法，其特征在于所述步骤C中取前[20，100]ms的语音段作为噪声功率谱。

3.如权利要求2所述的一种判断音乐噪声的方法，其特征在于所述步骤C中取前[20，30]ms的语音段作为噪声功率谱。

4.如权利要求1所述的一种判断音乐噪声的方法，其特征在于所述步骤A中预处理包括依次进行步骤A1分帧、步骤A2加窗、步骤A3预加重。

5.如权利要求1所述的一种判断音乐噪声的方法，其特征在于所述步骤D包括：

步骤D1、选取噪声功率谱|D(k)|与语音功率谱|X(k)|求得一帧中各点的谱减系数，即谱减系数为：

其中k∈[0，N-1]，N为帧长；

步骤D2、根据谱减系数对语音进行频域谱减：S(k)＝δ_k*X(k)，X(k)为带噪语音频域信号，S(k)为谱减后的语音频谱；

步骤D3、利用离散逆傅里叶变换将语音还原到时域；

\hat{x} (k) = \frac{1}{N} Σ_{n = 0}^{N - 1} S (k) * W_{N}^{kn}

(0≤k≤N-1)

W_N＝exp(j2πnk/N)

S(k)表示谱减后的语音频谱，

表示时域语音数据，N为帧长；

步骤D4、取实数部分作为谱减后的语音信号。

6.如权利要求5所述的一种判断音乐噪声的方法，其特征在于所述步骤E包括：

步骤E1、于谱减后的语音信号中取特定语音段为静音；

步骤E2、设静音有L帧，则：

E (k) = \frac{1}{L} Σ_{l = 1}^{L} | \hat{S_{lk}} |,

k∈[0，N-1]

其中E(k)表示L帧中每帧第k个点的均值，

表示第l帧的第k点的时域信号的模；

步骤E3、根据一帧静音中各点的均值求各点的方差：

D (k) = \frac{1}{L} Σ_{l = 1}^{L} E {{(\hat{s_{lk}} - E (k))}^{2}};

k∈[0，N-1]

D(k)表示每帧第k点的方差，

P_{l} = Σ_{k = 0}^{N - 1} \frac{1}{\sqrt{2 πD (k)}} * e^{\frac{- {(x_{lk} - E (k))}^{2}}{2 D {(k)}^{2}}}

其中N为帧长；

P = \frac{1}{L} Σ_{l = 1}^{L} P_{l}

其中N为帧长，P_l表示第l帧的概率之和，N为帧长，x_lk表示第l帧第k个语音点。

7.如权利要求6所述的一种判断音乐噪声的方法，其特征在于所述步骤C中取前[20，100]ms的语音段作为静音。

8.如权利要求7所述的一种判断音乐噪声的方法，其特征在于所述步骤C中取前[20，30]ms的语音段作为静音。

9.如权利要求6所述的一种判断音乐噪声的方法，其特征在于还包括步骤F、取系数α与β(α＞β＞1)，当βP_s＜P＜αP时则判断该帧为音乐噪声，否则不是音乐噪声。

10.如权利要求9所述的一种判断音乐噪声的方法，其特征在于所述取系数α＝3与β＝1.5(α＞β＞1)。

11.一种语音消噪的方法，其特征在于包括如权利要求1至10任意一项所述的判断音乐噪声的方法，还包括步骤G：消除音乐噪声。

12.如权利要求11所述的一种判断音乐噪声的方法，其特征在于所述步骤E消除音乐噪声包括将所述音乐噪声部分的能量设置为0。