CN106448661A

CN106448661A - 基于纯净语音与背景噪声两极建模的音频类型检测方法

Info

Publication number: CN106448661A
Application number: CN201610847518.8A
Authority: CN
Inventors: 贺前华; 李洪滔; 蔡梓文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2017-02-22
Anticipated expiration: 2036-09-23

Abstract

本发明提供一种基于纯净语音与背景噪声两极建模的音频类型检测方法，包括步骤：S1、构建纯净语音GMM模型以及纯粹背景噪声GMM模型；S2、计算纯净语音模型自身各高斯混元间的距离，判断高斯混元是否位于特征重叠空间；S3、剔除位于特征重叠空间中的高斯混元，重新构建纯净语音统计模型、纯粹背景噪声统计模型；S4、计算新的纯净语音统计模型、纯粹背景噪声统计模型的概率，以及估算音频样本信噪比；S5、根据计算得到的概率以及估算信噪比，构建特征矢量且利用SVM模型进行判决，将样本判别为纯净语音、背景噪声或含噪声语音。本发明在降低GMM‑SVM运算量的同时，能有效地区分纯净语音、纯净背景噪声和含噪声语音。

Description

基于纯净语音与背景噪声两极建模的音频类型检测方法

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种基于纯净语音与背景噪声两极建模的音频类型检测方法。

背景技术

音频类型检测技术是指利用不同类型音频特征来辨别它们的类型。目前使用得比较多的技术是GMM(Gaussian Mixture Model)模型、HMM(hidden Markov model)模型。而近年出现GMM-SVM的组合方法，利用GMM模型构建超矢量作为特征，使用SVM模型进行软分类，得到不错的效果。GMM-SVM的运算量由GMM的高斯混合度、使用的超矢量维数以及SVM核函数所决定，超矢量的维数一般是GMM所使用的特征维数或高斯混合度，使用后者居多。因此GMM-SVM的运算量很大，对于需要实时处理的应用，对设备有一定的性能要求。背景噪声、带噪语音和纯净语音的分类，一般应用在实时的音频监控中，不同类型的音频有不同的处理策略，例如背景噪声可用于噪声估计建模，而带噪语音需要进行降噪或语音增强等操作，然后再进行下一步处理，在通信质量监控、异常音频事件监控等应用中，分类处理可有效地提高处理质量并降低计算复杂度，比如语音通信质量监控应用中，只有带噪语音需要进行复杂的质量评估。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于纯净语音与背景噪声两极建模的音频类型检测方法，在能够降低GMM-SVM运算量的同时，还能够有效地区分纯净语音、纯净背景噪声和含噪声语音。

为解决上述技术问题，本发明提供如下技术方案：一种基于纯净语音与背景噪声两极建模的音频类型检测方法，包括以下步骤：

S1、构建纯净语音模型以及纯粹背景噪声模型：基于足够的合适训练数据，训练一个N高斯混元的纯净语音模型和一个M高斯混元的背景噪声模型；

S2、计算纯净语音模型自身各高斯混元间的距离，得到N*N的语音模型自距离矩阵；计算纯粹背景噪声模型的自身各高斯混元间的距离，得到M*M的背景噪声模型自距离矩阵；计算纯净语音模型与纯粹背景噪声模型对应各高斯混元间的距离，得到N*M的互距离矩阵；根据上述矩阵以及高斯混元的邻域成分分析，判断高斯混元是否位于特征重叠空间；

S3、剔除位于特征重叠空间中的高斯混元，利用非重叠空间的高斯成分重新构建纯净语音统计模型、纯粹背景噪声统计模型；

S4、计算新的纯净语音统计模型、纯粹背景噪声统计模型的概率，以及估算音频样本信噪比；

S5、根据计算得到的概率以及估算信噪比，构建特征矢量且利用SVM模型进行判决，将样本判别为纯净语音、背景噪声或含噪声语音。

进一步地，所述步骤S2中判断高斯混元是否位于特征重叠空间具体为：对模型内每一高斯混元A统计其σ邻域内的成分构成，即邻域内两种模型各自的高斯混元数量，以此判断高斯混元A是否处于特征重叠空间。

进一步地，所述步骤S3中剔除在特征重叠空间中的高斯混元具体为：

S31、根据纯净语音模型自距离矩阵和互距离矩阵，统计纯净语音模型中高斯混元A与纯净语音模型中其他高斯混元的距离小于阈值的高斯混元数量a₁，以及该高斯混元A与背景噪声模型中高斯混元的距离小于阈值的高斯混元数量b₁，若数量b₁大于数量a₁，则剔除纯净语音模型中的高斯混元A，其中，所述阈值即为σ邻域；

S32、根据背景噪声模型自距离矩阵和互距离矩阵，统计背景噪声模型中高斯混元B与背景噪声模型中其他高斯混元间的距离小于阈值的高斯混元数量a₂以及该高斯混元B与纯净语音模型中高斯混元间的距离小于阈值的高斯混元数量b₂，若数量b₂大于数量a₂，则剔除背景噪声模型中的高斯混元B。

进一步地，所述高斯混元间的距离定义为：

其中，n代表纯净语音模型的第n个高斯混元，m代表背景噪声模型中的第m个高斯混元，i代表高斯混元的第i维，σ_n(i)代表纯净语音模型的第n个高斯混元的第i维的标准差，σ_m(i)代表背景噪声模型的第m个高斯混元的第i维的标准差，μ_n(i)代表纯净语音模型的第n个高斯混元的第i维的均值，μ_m(i)代表背景噪声模型的第m个高斯混元的第i维的均值。

进一步地，所述σ邻域定义如下：

σ＝kd_min

其中，k为经验常数，d_min为该高斯混元到该模型内的其他高斯混元间的最小距离。

进一步地，所述步骤S5，使用纯净语音统计模型的概率p₁、纯粹背景噪声统计模型的概率p₂以及估算信噪比SNR作为SVM模型的输入特征，即有特征矢量ξ：

ξ＝{p₁,p₂,SNR}

利用特征矢量ξ训练背景噪声、带噪语音与纯净语音SVM三分模型，其中，所述估算信噪比定义如下：

其中，ref表示降噪后的语音采样点序列，deg表示原始语音采样点序列，var(ref)代表降噪后的语音采样点序列的方差，var(ref-deg)代表降噪后的语音采样点序列与原始语音采样点序列的差之方差。

采用上述技术方案后，本发明至少具有如下有益效果：

1、本发明利用纯净语音与背景非语音信号的显著感觉差异特征，在传统GMM模型的基础上构建纯净语音统计模型和纯净背景噪声统计模型，然后利用该极端模型对音频样本的评估信息和估算信噪比构建分类器，将音频段分为纯净语音、纯净背景噪声和含噪声语音三类。

2、本发明考虑到，根据统计学原理中的中心极限定理，单一类型音频的特征应近似符合正态分布，单一类型音频在特征空间上应该符合这样一个规律：在该类型的特征区域中，越靠近中心，特征密度越大，换言之越靠近区域边界，特征密度越小。对于两种单一类型音频A和B，假设两者的特征空间有所重叠，在重叠区域中，如果向A的中心移动，则A的特征密度会增大，B的特征密度会减少，如果向B的中心移动，则B的特征密度会增大，A的特征密度会减少。GMM统计模型利用高斯混元描述音频类型特征，因此高斯混元应当符合上述规律。由此，本发明提出高斯混元的邻域概念，通过研究高斯混元的邻域成分构成以得到高斯混元的邻域中背景噪声和纯净语音两种音频的特征密度，确定高斯混元是否位于特征重叠空间。

3、本发明考虑到音频类型检测技术利用不同音频类型的特征差异性进行分类，而不同音频类型的特征共性对音频类型检测起着负面作用。两个模型的特征重叠空间描述的是两类音频的共性，而特征非重叠空间描述的是两类音频的差异性。本发明通过上述邻域的概念，确定特征重叠空间，通过剔除特征重叠空间中的高斯混元，减少了两个模型的共性，保留了两个模型的差异性，构建出两个新的GMM统计模型，因此新的统计模型区分性更强。而由于高斯混元的减少，运算量也相应得到降低。

4、本发明使用的SVM分类器特征矢量，不仅利用了具备频域特性的GMM统计概率，而且结合具备时域特性的估算信噪比，使特征矢量的信息更加完备，特征区分性强，而且特征维度低，运算量少。

附图说明

图1是本发明中背景噪声与纯净语音两极模型的生成以及分类器训练流程图；

图2是本发明中基于纯净语音与背景噪声两极模型评价的音频类型检测方法的识别流程图；

图3是本发明中纯净语音与背景噪声的特征重叠空间示意图。

图4是本发明中纯净语音、背景噪声与含噪语音的若干样本以纯净语音模型概率对数为X轴、以背景噪声模型概率对数为Y轴、以估算信噪比为Z轴的分类器特征矢量空间分布图；

图5是本发明中纯净语音、背景噪声与含噪语音的若干样本以背景噪声模型概率对数为X轴、以纯净语音模型概率对数为Y轴、以估算信噪比为Z轴的分类器特征矢量空间分布图；

图6是本发明中纯净语音、背景噪声与含噪语音的若干样本以估算信噪比为X轴、以背景噪声模型概率对数为Y轴、以纯净语音模型概率对数为Z轴的分类器特征矢量空间分布图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本申请作进一步详细说明。

实施例

图1是本发明中背景噪声与纯净语音两极模型的生成以及分类器训练流程图。所述的方法包括一下步骤：

(1)纯净语音和纯粹背景噪声模型构建：基于足够的合适训练数据训练一个N个高斯混元的纯净语音模型GMM_s和一个M个高斯混元的背景噪声模型GMM_n。

在本实施例中，纯净语音模型的高斯混合数使用256，利用尽量多的说话人、语言内容不同的纯净语音构建一个GMM模型；说话人数不少于20人，男性：女性的比列尽量保持均衡。语言内容也应多样化。从完备性来讲，语言内容应该包含所有基本语音单元。

背景噪声模型的高斯混合数使用512，利用尽可能多的背景噪声样本(类型尽量多)训练一个GMM模型；模型的高斯数根据数据量来定，每一个高斯的平均数据量不少于200(帧)。

(2)纯净语音与背景噪声的特征重叠空间的甄别：通过计算纯净语音与背景噪声两个GMM模型自身各高斯混元的距离和两个模型各高斯混元的距离，得到一个256*256的语音模型自距离矩阵、一个512*512的背景噪声模型自距离矩阵和一个256*512的互距离矩阵，根据三个矩阵以及高斯混元的邻域成分构成，确定高斯混元是否位于特征重叠空间。

高斯混元间的距离定义为：

不同的音频类型具有特征重叠的空间，为了甄别纯净语音与背景噪声的特征重叠空间，对模型内每一高斯混元A统计在其邻域σ内的成分构成，即邻域内两种模型各自的高斯混元数量，以此判断高斯混元A是否处于特征重叠空间。

某模型内的某一个高斯混元的邻域σ定义如下：

σ＝kd_min

其中，k为经验常数，d_min为该高斯混元到该模型内的其他高斯混元的最小距离。在本实例中，经实验调试，选择k为5。

图3是本发明中纯净语音与背景噪声的特征重叠空间示意图。圆和三角形分别代表纯净语音的高斯混元、背景噪声的高斯混元，两者存在重叠的区域，在此重叠区域中的某个高斯混元的邻域σ内，同时存在纯净语音与背景噪声的高斯混元，而在非重叠区域中的某个高斯混元的邻域σ内，只存在该高斯混元所属的模型中的高斯混元。对于任一类而言，该类的高斯混元密度从该类特征区域的边界向区域中心递增，而另一类的高斯混元密度则递减。因此根据高斯混元的邻域成分构成，能够确定高斯混元是否位于特征重叠空间。

(3)纯净语音与背景噪声区分统计模型构建：通过剔除特征重叠空间中的高斯混元，重新计算GMM模型参数，构建纯净语音与背景噪声区分统计模型。根据纯净语音模型自距离矩阵和互距离矩阵，统计纯净语音模型中高斯混元A与纯净语音模型中其他高斯混元的距离小于阈值(即邻域σ)的高斯混元数量a₁以及该高斯混元A与背景噪声模型中高斯混元的距离小于阈值的高斯混元数量b₁，若数量b₁大于数量a₁，则剔除纯净语音模型中的高斯混元A；根据背景噪声模型自距离矩阵和互距离矩阵，统计背景噪声模型中高斯混元B与背景噪声模型中其他高斯混元的距离小于阈值(即邻域σ)的高斯混元数量a₂以及该高斯混元B与纯净语音模型中高斯混元的距离小于阈值的高斯混元数量b₂，若数量b₂大于数量a₂，则剔除背景噪声模型中的高斯混元B。

根据剔除后剩余的高斯混元，重新计算GMM模型的权重，设纯净语音模型与背景噪声模型保留的高斯混元原权重为{a₁,a₂,...a_k}和{b₁,b₂,...b_L}，按下述规律调整各高斯混元的权重：

(4)音频样本信噪比估计：利用语音增强算法得到降噪后的音频，对信噪比进行估计，估算信噪比定义如下：

(5)音频分类器训练：对背景噪声、带噪语音以及纯净语音三类音频计算两个GMM统计模型的概率，并估算样本信噪比，利用两个概率以及信噪比构建特征矢量：

ξ＝{p₁,p₂,SNR}

利用特征矢量ξ训练背景噪声、带噪语音与纯净语音SVM三分模型训练三分SVM模型；

(6)音频样本分类阶段：对待测试音频计算两个统计模型的概率以及估算信噪比，构建特征矢量，利用SVM模型进行判决，将样本判别为纯净语音、背景噪声或含噪声语音。

图4至图6是本发明中在实例中分类器特征矢量空间分布图的不同角度。由几个不同的角度，可以明显看出，背景噪声、带噪语音以及纯净语音三类音频在特征空间中具有自己的独占区域，通过分类器可以有效区分。

图2是本发明中基于背景噪声与纯净语音两极模型的识别流程图。利用训练过程中得到的背景噪声、纯净语音GMM统计模型和SVM三分模型，首先对输入音频计算两个GMM重构模型的概率，并且估算输入音频的信噪比，利用两个概率和信噪比作为特征矢量，利用SVM三分模型对输入音频进行判决。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解的是，在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型，本发明的范围由所附权利要求及其等同范围限定。

Claims

1.一种基于纯净语音与背景噪声两极建模的音频类型检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于纯净语音与背景噪声两极建模的音频类型检测方法，其特征在于，所述步骤S2中判断高斯混元是否位于特征重叠空间具体为：对模型内每一高斯混元A统计其σ邻域内的成分构成，即邻域内两种模型各自的高斯混元数量，以此判断高斯混元A是否处于特征重叠空间。

3.如权利要求1所述的基于纯净语音与背景噪声两极建模的音频类型检测方法，其特征在于，所述步骤S3中剔除在特征重叠空间中的高斯混元具体为：

4.如权利要求1或3所述的基于纯净语音与背景噪声两极建模的音频类型检测方法，其特征在于，所述高斯混元间的距离定义为：

d (n, m) = \underset{i}{Σ} [\frac{σ_{n}^{2} (i) - σ_{m}^{2} (i) + {(μ_{n} (i) - μ_{m} (i))}^{2}}{{σ_{m}}^{2} (i)} + \frac{σ_{m}^{2} (i) - σ_{n}^{2} (i) + {(μ_{m} (i) - μ_{n} (i))}^{2}}{{σ_{n}}^{2} (i)}]

5.如权利要求2或3所述的基于纯净语音与背景噪声两极建模的音频类型检测方法，其特征在于，所述σ邻域定义如下：

σ＝kd_min

6.如权利要求1所述的基于纯净语音与背景噪声两极建模的音频类型检测方法，其特征在于，所述步骤S5，使用纯净语音统计模型的概率p₁、纯粹背景噪声统计模型的概率p₂以及估算信噪比SNR作为SVM模型的输入特征，即有特征矢量ξ：

ξ＝{p₁,p₂,SNR}

S N R = 10 \cdot \log_{10} \frac{var (r e f)}{var (r e f - \deg)}