CN101404160A

CN101404160A - 一种基于音频识别的语音降噪方法

Info

Publication number: CN101404160A
Application number: CNA2008102269515A
Authority: CN
Inventors: 郝红卫; 高玉峰; 温博
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2008-11-21
Filing date: 2008-11-21
Publication date: 2009-04-08
Anticipated expiration: 2028-11-21
Also published as: CN101404160B

Abstract

本发明提出了一种基于音频识别的语音降噪方法，针对复杂噪声环境下的语音通信在接收端进行降噪处理，属于计算机科学技术领域。现有降噪方法多数只适用于噪声平稳环境，对于复杂的噪声环境，特别是突变性噪声频繁等情况难以有效去除。本方法将模式识别思想引入通信语音降噪，把音频信号分成语音和非语音，通过提取语音特征和设计分类器模型，对输入信号进行自动识别，判断音频类型，如果是噪音则去除，如果是语音则予以保留并进一步处理。该方法在取得较好降噪效果的同时满足了实时性要求，可以适用于载人航天试验语音通信、施工现场、战场等其它通信环境复杂的情况，为信号降噪提供了一种思路和方法。

Description

一种基于音频识别的语音降噪方法

技术领域

本发明提出了一种语音降噪方法——基于音频识别的语音降噪，针对复杂噪声环境下的语音通信在接收端进行降噪处理。本方法将模式识别思想引入通信语音降噪，能有效去处混杂在语音信号间歇的不规则突发性噪声，对复杂环境具有较好的适应能力，可以应用于载人航天试验语音通信、施工现场、战场等其它突发性噪声频繁、环境复杂、通信信道干扰较大的情况，为信号降噪提供了一种思路和方法。

背景技术

无线语音降噪技术是指当无线语音信号在传输的过程中被各种各样的噪声干扰后，从噪声背景中提取、增强有用的语音信号，降低噪声干扰的技术，是无线语音通信中确保语音质量的重要技术手段。信号接收端的通信语音降噪主要是指在时域、频域和其他变换域进行信号分析，通过找出语音和噪音的不同之处进行降噪。经常使用的方法主要有设计带通滤波器、噪声补偿算法等，这类方法对于噪声平稳环境效果较好。对于有色噪声，即在某个频带上的信号能量突然变大，通过设置上下门限滤波可以达到去除噪声的目的。然而在许多实际情况中，噪声并不是单一的，往往是多种噪声混杂在一起，这些噪音具有频繁突发性和不确定性的特点。很多噪音能量较大，已经部分或完全覆盖语音信号，即具有噪音的特点，又具有语音的特点，在时域分布上与语音信号能量相当，在频域分布上和语音信号基本一致。例如载人航天试验通信语音中，由于宇宙空间和地球大气层环境的复杂，噪声来源广泛、除背景噪音外，在通话的句与句、字与字之间也含有大量不规则噪音，严重干扰了正常的语音通信。对于这类噪声，设计单一的滤波器显然不能满足降噪要求，如果针对每一种可能的噪声都设计相应的滤波器，不仅使系统复杂性大大提高，而且无法保障滤波器之间的协调互补。因此针对噪声突发性频繁的非平稳噪声环境，传统降噪方法已经不能满足要求，需要研究新的降噪方法。

发明内容

针对实际环境中噪声复杂多变、通话间歇噪声能量强、在时域与频域都与语音信号十分相似的特点，本发明将模式识别中音频识别的思想引入通信语音降噪，提出一种噪音去除方法——基于音频识别的语音降噪方法。其核心思想是把音频信号分成语音和非语音，把可分辨语音内容的信号看作是语音，其余看作是非语音，通过提取音频特征和设计分类器模型，对输入信号进行自动识别，判断音频类型，如果是噪音则去除，如果是语音则予以保留并进一步处理。该方法的主要步骤包括：信号输入及预处理、特征提取、音频信号分类、信号去噪是其中的核心部分，下面详细介绍基于音频识别的语音降噪方法，具体如下：

步骤一.信号输入及预处理：获取原始输入信号，对原始信号进行分帧、加窗处理。

步骤二.特征提取：有效的音频信号特征是识别语音和噪音的关键，提取有效的语音特征可以对复杂的音频信号具有很好的鲁棒性。除了单一特征参数的区分能力外，更重要的是要它们的互补性。本方法主要采用以下特征：

(1)Mel倒谱系数(MFCC)及其一阶差分

人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的，MFCC对频率轴进行不均匀划分，是一种将人耳的听觉感知特性和语音的产生机制相结合的特征参数。标准的MFCC参数只反映了语音参数的静态特性，而人耳对语音的动态特征更为敏感，通常用差分倒谱参数来描述这种动态特性。

(2)子频带能量分布

在一帧音频信号之内，每个子频带的功率谱能量占该帧整个频带的功率普能量的比率是不同的，由此构成一种分布，称之为子频带能量分布。

步骤三.音频信号分类：设计合适的分类器有利于正确识别语音和噪声。设计分类器包括选择适当的分类器模型，根据所选定的特征设计分类器，使用大量的样本确定分类器的参数。分类器的设计必须满足以下条件：当噪声特征与人说话声特征相似度很高时，做最小损失处理(保证有效信息的完整性)。在分类器设计完成之后，就可将其应用于语音和噪声的分类。

根据信号降噪的实时性要求，这里选用K近邻(K-nearest neighbor，KNN)的分类方法。KNN分类法是典型的统计模式识别方法，即使样本是非正态分布，也可以取得较好的分类正确率。首先建立语音和噪音的训练样本库，训练样本用n维特征描述，每个样本代表n维空间的一个点。这样，所有的训练样本都存放在n维模式空间中，当给定一个未知样本时，KNN算法搜索模式空间，找出最接近该未知样本的K个训练样本，这K个训练样本就是未知样本的K个“最近邻”，通常这K个近邻会属于不同的类别，哪个类别中所含近邻数最多，就将未知样本判定为该类别，其中K的大小根据具体应用环境选择。由于此分类算法在训练阶段不需要首先建立模型，只是将训练数据存储进数据库中，几乎没有计算开销，因此时间开销相对来说比较小。

步骤四.信号去噪：根据分类的结果，对信号进行相应处理，保留语音，去除噪声，最终得到高质量的语音信号。

为了提高分类的准确程度，保留更多的语音信息，提出一种二次分类方法对上述语噪识别方法进行改进，当音频信号输入时，为输入设置一定的步长，只有当两次都分类为噪音时才去除重叠的部分。

语音信号特征提取对声音片段长度有一定的要求，过短的声音片段会由于数据量过小而不能充分反映语音特征本质，而过长的声音片段虽然会提高分类的准确率，然而却不能达到实时性的要求。语音信号处理中一般取20ms～30ms为一帧，本发明取10帧为输入单位，时长为0.2s～0.3s，这样即保证了有足够长的声音片断用于提取信号特征，又保证了实时性的要求。在绝大多数情况下，语音信号中一个字的长度要大于5帧，而短促的噪音则有可能小于或等于5帧，所以取5帧为降噪单位。

通过二次分类，能够提高分类准确率，有效去处更多短促的噪音，尽可能完整的保留更多的语音信息，提高了语音信息的完整性，同时在去除噪音和实时性要求方面又达到了较为理想的效果。

附图说明

图1：系统示意图：音频信号输入系统后，经过信号识别输出识别结果。若分类为语音，则经过信号增强后输出；若分类为噪音，则经过信号降噪后输出。

图2：分类器训练：依次读取语音和噪音的样本，提取音频信号特征参数，包括MFCC及其一阶差分、子频带能量等，进行数据归一化操作，分别保存语音、噪音特征向量参数，构成训练样本特征向量矩阵。

图3：系统流程图：首先读取训练样本特征向量矩阵，然后以5帧为步长，10帧为单位作为输入。通过K近邻分类器判断是语音还是噪音，若为噪音且上次分类也判断为噪音，则将两次都判断为噪音的5帧信号置零，其它情况则前进步长帧后重新输入。

图4：信号识别流程图：将音频信号输入后，首先进行预处理，包括分帧、加窗，然后计算其频谱能量并与阈值进行比较，若不超过则说明为静音帧，前进步长帧后重新输入，否则计算其特征参数，包括MFCC及其一阶差分、子频带能量，进行数据归一化后构成特征向量，分别计算与各类别训练样本特征向量的距离，取k个近邻投票分类，得出音频识别结果。

具体实施方式

按照上述发明内容所述方法，具体实施过程如下：

一.建立训练样本库，依次读取语音和噪音的样本，提取音频信号特征参数，构成训练样本特征向量矩阵。

二.获取输入信号后，以20ms为一帧，对原始信号进行分帧，然后加汉明窗处理。以10帧为单位进行第二步处理，每次步长为5帧。

三.特征提取：本方法主要采用Mel倒谱系数(MFCC)及其一阶差分、子频带能量分布，将计算得到的特征参数构成一维特征向量。具体提取过程如下：

(1)Mel倒谱系数(MFCC)及其一阶差分

①对输入的10帧信号进行离散FFT变换，求出频谱平方，即能量谱。

②设计一个有M个滤波器的滤波器组，M取值为(3*log(fs))，fs为采样频率，采用的滤波器为三角滤波器，中心频率为f(m)(m＝1，2，…M)，滤波器组中每个三角滤波器的跨度在Mel标度上是相等的，每个滤波器输出的对数能量为：

S (m) = \ln (Σ_{k = 0}^{N - 1} {| X (k) |}^{2}) H_{m} (k), 0 \leq m < M,

用这M个Mel带通滤波器对输入信号进行滤波。

③将每个滤波器的输出取对数，得到相应频带的对数功率谱，经离散余弦变换得到MFCC系数：

C (n) = Σ_{m = 0}^{M - 1} S (m) \cos (πn (m - 0.5) / M), 0 \leq n < M .

④差分参数的计算采用下面的公式：

d (n) = \frac{1}{\sqrt{Σ_{i = - k}^{k} i^{2}}} Σ_{i = - k}^{k} i \cdot c (n + i) .

这里c和d都表示一帧语音参数，k为常数，通常取2，这时差分参数就称为当前帧的前两帧和后两帧的参数组合。由此式计算得到的差分参数为一阶MFCC参数。

(2)子频带能量分布

第n帧的整个频带的功率谱能量可以表示如下：

E_{n} = {&Integral;}_{0}^{ω_{0}} {| F (ω) |}^{2} dω,

其中F(ω)是快速傅立叶变换函数，ω₀是信号采样频率的一半。每个子频带的子频带能量分布用如下公式表示：

SED (n) = \frac{1}{E_{n}} {&Integral;}_{L_{j}}^{H_{j}} {| F (ω) |}^{2} dω .

四.音频信号分类：根据信号降噪的实时性要求，这里选用K近邻的分类方法。读取训练样本特征向量矩阵，分别计算上一步得到的特征向量与各类别训练样本特征向量的距离，取k个近邻(k取奇数)投票分类，得出音频识别结果。样本之间的距离采用欧几里德距离，即两个点d_i＝(w_i1，w_i2，...，w_in)和d_i＝(w_j1，w_j2，...，w_jn)之间的欧几里德距离为：

sim (d_{i}, d_{j}) = \sqrt{Σ_{k = 1}^{n} {(w_{ik} - w_{jk})}^{2}} .

若为噪音且上次分类也判断为噪音，则将两次都判断为噪音的5帧信号置零，其它情况则前进5帧后重新输入。

五.信号去噪：根据分类结果，将噪声帧时域能量置为零，将语音帧输出。

Claims

1、一种基于音频识别的语音降噪方法，其特征在于：方法包括信号输入及预处理、特征提取、音频信号分类、信号去噪四步骤组成；

步骤一、信号输入及预处理：获取原始输入信号，对原始信号进行分帧、加窗处理；

步骤二、特征提取：采用Mel倒谱系数及其一阶差分、子频带能量分布对音频信号提取有效的语音特征；

步骤三、音频信号分类：选用K近邻分类方法对音频信号进行分类；

步骤四、信号去噪：采用二次分类对语噪识别方法进行改进，当音频信号输入时，为输入设置步长，当两次都分类为噪音时去除重叠的部分。

2、如权利要求1所述的基于音频识别的语音降噪方法，其特征在于所述的步骤四的步长取10帧为输入单位，时长为0.2s～0.3s，降噪单位为5帧。