CN109920434B

CN109920434B - 一种基于会议场景的噪声分类去除方法

Info

Publication number: CN109920434B
Application number: CN201910182462.2A
Authority: CN
Inventors: 张晖; 高财政; 赵海涛; 孙雁飞; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2020-12-15
Anticipated expiration: 2039-03-11
Also published as: CN109920434A

Abstract

本发明提出了一种基于会议场景的噪声分类去除方法，包括以下步骤：步骤（1）：首先根据会议场景下噪声的特点，将会议场景中的非背景噪声分为非目标说话人噪声、会议设备噪声、用户行为噪声、采集设备噪声；步骤（2）：根据不同种类噪声与目标说话人语音之间在时域波形图和语谱图上的区别，利用双MIC降噪方法去除采集设备噪声，利用小波降噪方法去除用户行为噪声，利用SOX降噪方法去除会议设备噪声，利用PCA降噪方法去除非目标说话人噪声，从而去除会议场景下的噪声。本发明的优点是：能有效去除会议场景下的噪声，大大提高声纹识别系统的鲁棒性和准确率。

Description

一种基于会议场景的噪声分类去除方法

技术领域

本发明涉及智能会议技术领域，具体涉及一种基于会议场景的噪声分类去除方法。

背景技术

噪声是无处不在的，在说话人识别系统中，除了目标说话人的声音，外界的一切声音都是噪声，这些噪声若不去除，将会影响声纹识别系统对目标说话人判决的准确率，降低声纹识别系统的鲁棒性和抗干扰能力。

发明内容

本发明的目的是提供一种能有效去除会议场景下的噪声，提高声纹识别系统的鲁棒性和准确率的基于会议场景的噪声分类去除方法。

为实现上述目的，本发明采用了如下技术方案：一种基于会议场景的噪声分类去除方法，包括以下步骤：

步骤（1）：首先根据会议场景下噪声的特点，将会议场景中的非背景噪声分为非目标说话人噪声、会议设备噪声、用户行为噪声、采集设备噪声；

步骤（2）：根据不同种类噪声与目标说话人语音之间在时域波形图和语谱图上的区别，利用双MIC降噪方法去除采集设备噪声，利用小波降噪方法去除用户行为噪声，利用SOX降噪方法去除会议设备噪声，利用PCA降噪方法去除非目标说话人噪声，从而去除会议场景下的噪声。

进一步地，前述的一种基于会议场景的噪声分类去除方法，其中：在步骤（2）中，通过控制变量法得到各类噪声的时域波形图和语谱图。

进一步地，前述的一种基于会议场景的噪声分类去除方法，其中：在步骤（2）中，双MIC降噪方法具体包括以下步骤：

步骤（2.1.1）：先在语音采集设备的上端设置一个用于采集环境噪音的降噪麦克风，并在语音采集设备的下端设置一个用于采集环境噪音及用户语音的采集语音麦克风；

步骤（2.1.2）：然后将降噪麦克风与采集语音麦克风采集的语音信号强度进行对比，分出背景噪声与语音信号，然后将噪声信号清除，语音信号保留。

进一步地，前述的一种基于会议场景的噪声分类去除方法，其中：小波降噪方法去除用户行为噪声方法具体包括以下步骤：

步骤（2.2.1）：采用三层小波变换架构，然后选用合适的阈值函数和阈值去除带噪语音信号中的高频分量；

步骤（2.2.2）：最后对小波变换后的频率分量执行重构信号操作，将噪声信号清除，语音信号保留。

通过上述技术方案的实施，本发明的有益效果是：能有效去除会议场景下的噪声，大大提高声纹识别系统的鲁棒性和准确率。

附图说明

图1为本发明分类噪声去除方法流程图；

图2为目标说话人语音的时域波形图及语谱图。

图3为非目标说话人噪声的时域波形图及语谱图。

图4为会议设备噪声的时域波形图及语谱图。

图5为用户行为噪声的时域波形图及语谱图。

图6为采集设备噪声的时域波形图及语谱图。

图7为USB麦克风录制的语音时域波形图。

图8为本发明所述的双MIC降噪方法中降噪麦克风与采集语音麦克风的位置关系示意图。

图9为手机麦克风录制的语音时域波形图。

图10为本发明所述的小波降噪方法中三层小波变换阈值过滤示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图 1所示，所述的一种基于会议场景的噪声分类去除方法，包括以下步骤：

步骤（1）：采集会议场景下带噪的语音信号，通过人工辨认的方式确认语音信号中的噪声来源，然后分析声纹识别系统各个阶段中引入的噪声来源，根据会议场景下的噪声来源，将会议场景中的非背景噪声分为非目标说话人噪声、会议设备噪声、用户行为噪声、采集设备噪声；

步骤（2）：采用控制变量法，人为制造单一种类的噪声，采集该噪声存在条件下的带噪语音信号，并通过程序得到语音信号的时域波形图和语谱图，从而获得不同种类噪声与目标说话人语音之间在时域波形图和语谱图上的区别，并利用双MIC降噪方法去除采集设备噪声，利用小波降噪方法去除用户行为噪声，利用SOX降噪方法去除会议设备噪声，利用PCA降噪方法去除非目标说话人噪声，从而去除会议场景下的噪声；

其中，分析各类噪声条件下语音信号时域波形图和语谱图的特点并与无噪语音信号时域波形图和语谱图的特点进行比对，具体包括：

一：分析目标说话人语音的时域波形图及语谱图的特点；

从图2可知，图2是目标说话人语音的时域波形图及语谱图，从图中可以看出：在时域波形图中，它在时间轴内有多个峰值，并且峰的形状很饱满，都是陡然生成缓慢结束的。除此之外，峰的幅值都很大也很平均，峰与峰被分割的也非常明显，峰的幅值变化也非常连续；在语谱图中，它形成了非常多的“横纹”与“竖纹”，并且“竖纹”之间的距离非常小，也非常均匀；除此之外，它的能量主要集中在4000Hz以下，并且能量分布的时间间隔非常明显，语音信号的共振峰频率和带宽非常容易被确定，清音与浊音的分隔线也非常明显，基音频率也非常高；

二：分析非目标说话人噪声的时域波形图及语谱图的特点并与目标说话人语音的时域波形图及语谱图的特点进行对比；

从图3可知，图3是非目标说话人噪声的时域波形图及语谱图，从图中可以看出：在时域波形图中，非目标说话人噪声由于其离麦克风的距离较远，所以响度较低，几乎所有的语音信号都在1000以下的幅值范围内；在语谱图中，非目标说话人语音开始之前能量集中在500Hz以下，在语音开始后，语音能量非常高，并且广泛分布在7500Hz以下的频率范围内，同时形成了“竖纹”，而且不同时间范围内的能量分布太过连贯，基本没有断裂点，“竖纹”虽多但并不明显；

三：分析会议设备噪声的时域波形图及语谱图的特点并与目标说话人语音的时域波形图及语谱图的特点进行对比；

从图4可知，图4是会议设备噪声的时域波形图及语谱图，从图中可以看出：在时域波形图中，会议设备噪声的幅值变化非常快，主要集中在2000以下的幅值内，超于2000的幅值不够连续，持续时间非常短，低于2000的幅值变化缓慢且连贯，并具有一定规律性；在语谱图中，会议设备噪声的能量主要集中在1000Hz以下的频率范围内，在其他范围内基本没什么能量存在，并且也未形成任何的“横纹”与“竖纹”，频谱分布相对干净，同时它在不同时间范围内的能量分布非常连贯；

四：分析用户行为噪声的时域波形图及语谱图的特点并与目标说话人语音的时域波形图及语谱图的特点进行对比；

从图5可知，图5是用户行为噪声的时域波形图及语谱图，从图中可以看出：在时域波形图中，用户行为噪声是在稳定噪声的基础上，随着用户行为声音的开始与结束，在波形上显示出非常突兀的几个峰，峰的宽度虽小但幅值偏高，时域能量也非常集中。并且开始与结束的时间点也非常明显，最重要的是峰是陡然形成的，坡度非常大，在峰形成后，幅值陡然下降；在语谱图中，用户行为噪声的能量主要集中在300Hz以下的范围内，形成了两条明显的“竖纹”，并且“竖纹”所包含的能量非常高，同时它在不同时间范围内的能量分布也比较连贯；

五：分析采集设备噪声的时域波形图及语谱图的特点以及与步骤3-1中图进行对比；

从图6可知，图6是采集设备噪声的时域波形图及语谱图，从图中可以看出：在时域波形图中，采集设备噪声是非常稳定的，它的幅值大致维持在400幅值以下的范围内，而且幅值变化不大，基本上趋于平稳，另外，幅值的变化非常连贯，起伏很小，时域能量比较集中；在语谱图中，采集设备噪声的能量主要分布在1000Hz以下的频率范围内，形成了三条比较明显的“竖纹”，每个“竖纹”周围分布的能量都不均匀，频域能量在高频处也有分布，但能量较小，除此之外，采集噪声形成的“横纹”非常明显，分布在低频处；

其中，如图7、图8、图9所示，双MIC降噪方法具体包括以下步骤：

步骤（2.1.2）：然后将降噪麦克风与采集语音麦克风采集的语音信号强度进行对比，分出背景噪声与语音信号，然后将噪声信号清除，语音信号保留；

其中，如图10所示，小波降噪方法去除用户行为噪声方法具体包括以下步骤：

其中，利用PCA降噪的方法去除非目标说话人噪声，假设在特征提取阶段提取了N维的特征，在这N维的特征里，有些是有用信号的特征，有些是噪声的特征，噪声的特征由于和有用信号特征存在一些相关性，导致了本该能量很大的有用信号的特征受相关维度的干扰，能量被削弱，进而特征表述原始信号信息的能力也就随之降低了；通过PCA降维操作后，含有较大能量的维度被保存下来了，这些保留下来的维度之间的相关性特别小，从而起到了增大有用信号特征，降低、甚至舍弃噪声特征的作用，经过PCA降噪可以很好的去除非目标说话人噪声这种不容易去除、但是能量偏低的噪声。

本发明的优点是：能有效去除会议场景下的噪声，大大提高声纹识别系统的鲁棒性和准确率。

Claims

1.一种基于会议场景的噪声分类去除方法，其特征在于：包括以下步骤：

步骤(1)：首先根据会议场景下噪声的特点，将会议场景中的非背景噪声分为非目标说话人噪声、会议设备噪声、用户行为噪声、采集设备噪声；

步骤(2)：根据不同种类噪声与目标说话人语音之间在时域波形图和语谱图上的区别，利用双MIC降噪方法去除采集设备噪声，利用小波降噪方法去除用户行为噪声，利用SOX降噪方法去除会议设备噪声，利用PCA降噪方法去除非目标说话人噪声，从而去除会议场景下的噪声；

其中，通过控制变量法得到各类噪声的时域波形图和语谱图；

其中，双MIC降噪方法具体包括以下步骤：

步骤(2.1.1)：先在语音采集设备的上端设置一个用于采集环境噪音的降噪麦克风，并在语音采集设备的下端设置一个用于采集环境噪音及用户语音的采集语音麦克风；

步骤(2.1.2)：然后将降噪麦克风与采集语音麦克风采集的语音信号强度进行对比，分出背景噪声与语音信号，然后将噪声信号清除，语音信号保留；

其中，小波降噪方法去除用户行为噪声方法具体包括以下步骤：

步骤(2.2.1)：采用三层小波变换架构，然后选用合适的阈值函数和阈值去除带噪语音信号中的高频分量；

步骤(2.2.2)：最后对小波变换后的频率分量执行重构信号操作，将噪声信号清除，语音信号保留。