CN108831440A

CN108831440A - 一种基于机器学习及深度学习的声纹降噪方法及系统

Info

Publication number: CN108831440A
Application number: CN201810375197.5A
Authority: CN
Inventors: 张夏林; 朱文尧; 谢俊; 李宸; 王晋; 赵亚涛; 夏雪
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-11-16

Abstract

本发明提供了一种基于机器学习及深度学习的声纹降噪方法及系统。所述方法包括：采集野外地质工作环境下的环境音样品，对深度学习模型进行大量反复训练，获得训练好的深度语音学习模型。获取特定人说话音频，通过深度语音学习模型进行识别，将音频中的环境音过滤，判断过滤后的语音是否合格，得到经过初步筛查的语音，将初步筛查之后的语音与特定人声纹识别模型进行对比提取，进行降噪，判断降噪后的语音是否纯净，对声纹降噪后的语音进行增强，判断语音是否清晰，之后录入到语音输入系统。本发明能够解决野外地学数据采集时各种嘈杂噪声和环境音干扰情况下导致语音不纯，难以被语音文字识别软件准确识别出文字信息的问题，实现用语音文字识别方式的数据采集，提高野外地学数据采集的效率与准确性。

Description

一种基于机器学习及深度学习的声纹降噪方法及系统

技术领域

本发明属于语音文字识别及声纹降噪领域，涉及到一种基于机器学习及深度学习的声纹降噪方法及系统。

背景技术

地学数据采集过程中的智慧化是建设地学大数据中的一个基础环节，在地质生产的实际过程中占据重要地位。其中地质工作者在野外对地质对象观察和描述的调查数据的采集是重要的组成部分。为了支持地质工作者在野外快速采集观测到的地学数据，以往的地学数据采集系统都很重视数据录入的高效性和便捷性，但传统的文字键盘输入方式在野外条件下，效率低下，可操作性差。为了提高数据输入效率，采用了语音录入和文字识别系统，以期提高数据采集效率。使用中发现在野外使用语音录入系统时，可能存在风声、雨声、动物声等，又或是在钻探现场、采矿场或是油气开采环境下，存在着大量运作的机器噪声，这些噪音跟人声音混合在一起，会大大降低当前语音文字识别系统的文字识别正确率，从而导致当前野外地学数据采集语音录入和文字识别的准确率极低。由于这个问题，使得目前的地学数据采集系统在特殊地质工作环境下的操作效率低，可用性差。

发明内容

针对上述缺点，急需一种尽可能多地去除掉在野外地质工作环境下语音录入时的环境杂音，为提高后期语音文字识别准确率奠定基础的语音录入降噪处理技术。本发明提供了一种基于机器学习及深度学习的声纹降噪方法，用于提野外语音方式采集地学数据时背景噪音大，有效语音难以准确识别的技术难题，包括如下步骤：

S1、获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频；

S2、将步骤S1获取的所述说话音频通过机器学习及深度学习模型进行学习，对说话音频中夹杂的环境音进行识别区分；

S3、将步骤S2中得到的识别过的语音进行过滤，剔除掉该语音中不属于所述特定人说话音频的环境音，得到经过初步筛查的语音；

S4、判断初步筛查的语音信噪比是否达到预设的阈值，若否，则跳转步骤S3，若是，则继续步骤S5；

S5、将步骤S4所述语音与该人声纹识别模型进行对比提取，保留与该人声纹识别模型相符合的语音频率及语谱图像，剔除掉与该人声纹识别模型不符合的语音，得到声纹降噪处理的语音；

S6、判断声纹降噪处理后的语音中的人声纹纯净度是否达到预设的阈值，若否，则跳转步骤S5，若是，则继续步骤S7；

S7、对步骤S6所述声纹降噪后的语音进行增强；

S8、判断经过增强的语音清晰度是否达到预设的阈值，若否，则跳转步骤S7，若是则继续S9；

S9、将步骤S8中获得的结果语音输出到语音文字识别系统，完成后续处理。

在本发明基于机器学习及深度学习的声纹降噪方法中，在步骤S1之前还包括建立机器学习及深度学习模型，具体为，获取大量人说话音频的语音，将语音全部都转换成为波谱图并导入到计算机中，对机器学习及深度学习模型进行大量反复训练，机器学习及深度学习识别区分人说话音频中夹杂的环境音，从而获得训练好的机器学习及深度学习模型。

在本发明基于机器学习及深度学习的声纹降噪方法中，在步骤S5之前还包括建立特定说话人的人声纹识别模型，具体为用已有的该特定说话人的声纹建立声纹语谱图，进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型，经过大量该人声纹数据的反复训练，得到一个声纹识别率高的该人的声纹识别模型。

根据本发明的另一方面，本发明为解决其技术问题，提供了一种基于机器学习及深度学习的声纹降噪系统，包含如下模块：

初始化模块，用于获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频；

机器学习及深度学习处理识别模块，用于将初始化模块中获取的所述说话音频通过机器学习及深度学习模型分别进行学习，对说话音频中夹杂的环境音进行识别区分；

语音过滤模块，用于将机器学习及深度学习处理识别模块得到的识别过的语音进行过滤，剔除掉该语音中不属于所述特定人说话音频的环境音，得到经过初步筛查的语音；

语音过滤判断模块，用于判断过滤后的语音信噪比是否达到预设的阈值，若否，则跳转语音过滤模块，若是，则继续声纹提取模块；

声纹对比提取模块，用于将过滤判断模块中获得的语音与该人声纹识别模型进行对比提取，保留与该人声纹识别模型相符合的语音频率及语谱图像，剔除掉与该人声纹识别模型不符合的语音，得到声纹降噪处理的语音；

语音纯净度判断模块：用于判断提取的人声纹纯净度是否达到预设的阈值，若否，则跳转声纹提取模块，若是，则进行语音增强模块；

语音增强模块，对声纹提取模块中获得的声纹降噪后的语音进行进一步增强；

语音清晰度判断模块，用于判断提取的人声纹纯净度是否达到预设的阈值，若否，则跳转语音增强模块，若是，则继续语音录入模块；

语音输出模块，将语音增强模块中获得的结果语音输出到语音文字识别系统，完成后续处理。

在本发明基于机器学习及深度学习的声纹降噪系统中，在初始化模块之前还包含：

建立机器学习及深度学习模型，具体为，获取大量人在野外嘈杂环境下的说话音频的语音，将语音全部都转换成为波谱图并导入到计算机中，对机器学习及深度学习模型进行大量反复训练，机器学习及深度学习识别区分人说话音频中夹杂的环境音，从而获得训练好的机器学习及深度学习模型。

在本发明所述基于机器学习及深度学习的声纹降噪系统中，在声纹提取模块之前还包括建立特定说话人的声纹识别模型，具体为用已有的该特定说话人的声纹建立声纹语谱图，进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型，经过大量该人声纹数据的反复训练，得到一个声纹识别率较高的该人声纹识别模型；

本发明采用基于机器学习及深度学习的声纹降噪方法及系统，能够有针对性的解决在特定的多种不同高低信噪比的复杂野外地质环境下，使用普通降噪技术或简单语音降噪算法降噪后降噪率较低的问题，从而为后期的地学数据采集的语音文字识别过程提供良好的先决条件，为降低后期地学数据采集过程中的语音文字识别的难度以及大幅度提升后期通过语音方式地学数据采集过程中的语音文字识别的准确率提供技术保障。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例GMM-UBM建立说话人确认系统声纹建模流程图；

图2为本发明实施例MFCC特征向量提取流程图；

图3为本发明实施例声纹识别模型与录入语音对比流程图；

图4为本发明实施例基于机器学习及深度学习的声纹降噪方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实例，对本发明进行进一步详细说明。

完整流程图参见图1。首先，获取机器学习及深度学习模型，主要分为两个步骤。第一步，建立模型，利用大量获得的野外地学环境下采集的自然环境音以及大量的特定人说话的声音语段建立一个机器学习及深度学习模型；第二步，训练模型，将自然环境及特定人说话音频全部都转换成为波谱图的形式并导入到计算机中，通过大量反复训练，机器学习及深度学习区分环境音和特定人说话的语音波谱图。

其次，建立声纹识别模型。每个人独具一格的声纹可以用语谱图观察出来。获取特定说话人的声音声纹，将该人的声纹先进行特征提取操作，用已有的该特定说话人的声纹建立声纹语谱图，进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型。声纹建模方法分为三种类型，分别为：文本相关、文本无关(GMM-UBM、GMM-SVM、GMM-UBM-LFA、i-vector/PLDA)和文本提示。因为不能决定输入的语音内容，因此选择文本无关类型进行声纹建模，从而得到该人的声纹识别模型。本实施例选取GMM-UBM建立说话人确认系统声纹建模，流程图见图2，输入多个说话人声音和测试语音，通过MFCC特征向量提取，经过大量人声纹数据的反复训练和MAP自适应处理及确认决策，得到一个声纹识别率较高的该人声纹识别模型。其中MFCC特征向量提取过程见图3，具体为输入样本音频，给样本音频预加重、分帧、加窗，将处理好的样本音频做傅里叶变换，进行Mel频率滤波，进行Log对数能量，对样本求倒谱，输出MFCC图像。

在野外使用语音录入系统，通过机器学习及深度学习模型对获取的特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频片段转换为波谱图，并进行识别，针对导入模型中的语音，对语音中的环境杂音进行识别，并且进行剔除环境杂音操作，即剔除掉该语音段中不属于人声的环境音。多次循环处理，判断噪声过滤后的语音是否合格，具体为预先设置信噪比，当达到预设的信噪比时，则继续下一步，没达到则继续进行噪声过滤。

将经过过滤合格后的语音与已经建成的该人声纹识别模型进行对比提取，流程图见图4，将输入的声纹与声纹识别模型进行比对，保留与模型相符合的语音频率以及语谱图像，剔除掉与模型不符合的语音，多次循环处理，判断声纹提取的语音是否纯净，具体为预设声纹纯净度阈值，当语音纯净度达到预设阈值时，分析语音语谱图上是否夹杂有该人声音以外的其他杂音，若还有，继续声纹降噪过程，若无，得到的便是经过声纹降噪处理的语音。

最后，对得到的降噪处理后的语音利用语音增强算法，例如：LMS自适应滤波器、LMS自适应限波器和维纳滤波法等，使已经得到的较为纯净的语音中的特定人说话的语音声音进一步增强与清晰化，判断得到的语音是否清晰，判定条件具体为:如果该段语音的语谱图波伏很小，就将其放大；如果该段语音的语谱图有些地方有重叠，就根据算法分离出一个平衡点，使其在该点清晰化。在该平衡点处分贝和清晰度都能保证声音不会太小，又保证语音不会失真。当得到的语音满足判定条件之后，终止循环，将获得的结果语音输出到语音文字识别系统，完成后续文字识别及存储处理。

根据本发明实施例还包含如下模块：

初始化模块，用于获取特定人在野外实地工作环境中在野外实地工作环境中对地质现象和地质认识描述的说话音频；

语音过滤模块，用于将机器学习及深度学习处理识别模块得到的识别过的语音进行过滤，剔除掉该语音中不属于人说话音频的环境音，得到经过初步筛查的语音；

建立机器学习及深度学习模型，具体为，获取大量人说话音频的语音，将语音全部都转换成为波谱图并导入到计算机中，对机器学习及深度学习模型进行大量反复训练，机器学习及深度学习识别区分人说话音频中夹杂的环境音，从而获得训练好的机器学习及深度学习模型。

在本发明所述基于机器学习及深度学习的声纹降噪系统中，在声纹提取模块之前还包括建立特定说话人的人声纹识别模型，具体为用已有的该特定说话人的声纹建立声纹语谱图，进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型，经过大量该人声纹数据的反复训练，得到一个声纹识别率较高的该人声纹识别模型；

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出若干改进和变形，这些均属于本发明的保护之内。

Claims

1.一种基于机器学习及深度学习的声纹降噪方法，其特征在于，包括如下步骤：

S2、将步骤S1获取的所述说话音频通过机器学习及深度学习模型分别进行学习，对说话音频中夹杂的环境音进行识别区分；

S4、判断经过初步筛查的语音信噪比是否达到预设的阈值，若否，则跳转步骤S3，若是，则继续步骤S5；

S7、对步骤S6所述声纹降噪后的语音进行增强；

2.根据权利要求1所述基于机器学习及深度学习的声纹降噪方法，其特征在于，在步骤S1之前还包括建立机器学习及深度学习模型的步骤，具体为，获取大量人在野外嘈杂环境下的说话音频，将音频全部都转换成为波谱图并导入到计算机中，对机器学习及深度学习模型进行大量反复训练，机器学习及深度学习识别区分人说话音频中夹杂的环境音，从而获得训练好的机器学习及深度学习模型。

3.根据权利要求1所述基于机器学习及深度学习的声纹降噪方法，其特征在于，在步骤S5之前还包括建立特定说话人的人声纹识别模型，具体为用已有的该特定说话人的声纹建立声纹语谱图，进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型，经过大量该人声纹数据的反复训练，得到一个声纹识别率高的该人的声纹识别模型。

4.一种基于机器学习及深度学习的声纹降噪系统，其特征在于，包含如下模块：

5.根据权利要求4所述基于机器学习及深度学习的声纹降噪系统，其特征在于，在初始化模块之前还包含：建立机器学习及深度学习模型模块：用于获取大量人在野外嘈杂环境下的说话音频，将语音全部都转换成为波谱图并导入到计算机中，对机器学习及深度学习模型进行大量反复训练，机器学习及深度学习识别区分人说话音频中夹杂的环境音，从而获得训练好的机器学习及深度学习模型。

6.根据权利要求4所述基于机器学习及深度学习的声纹降噪系统，其特征在于，在声纹提取模块之前还包含：建立声纹识别模型模块，用于建立特定说话人的人声纹识别模型，具体为用已有的该特定说话人的声纹建立声纹语谱图，进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型，经过大量该人声纹数据的反复训练，得到一个声纹识别率高的该人声纹识别模型。