CN110047502A

CN110047502A - 噪声环境下层级式语音降噪识别方法及系统

Info

Publication number: CN110047502A
Application number: CN201910314867.7A
Authority: CN
Inventors: 刘嗣平; 陈婉菁; 徐艳艳; 贾宇康; 陈孟达
Original assignee: Guangzhou Jiushi Intelligent Technology Co Ltd
Current assignee: Guangzhou Jiushi Intelligent Technology Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-07-23

Abstract

本发明公开了一种噪声环境下层级式语音降噪识别方法及系统，方法包括如下步骤：设置通话常用的文本，并进行文本的录入；使用设置好的文本建立文本数据库；根据文本进行纯净语音和各类噪声的录制；将纯净语音与各类噪声进行线性组合，建立语音数据库；对带噪语音进行端点检测，检测出有效语音的前端点和后端点，提取出有效语音；将有效语音通过层级式方法训练语音增强深度神经网络；有效语音经过语音增强后再提取其声学特征；使用声学特征训练声学模型；使用文本训练语言模型；利用声学模型和语言模型进行搜索得到最佳的识别结果序列。本发明通过对客户的原始语音的降噪处理，能够提高对客户原始语音的识别准确度。

Description

噪声环境下层级式语音降噪识别方法及系统

技术领域

本发明涉及语音识别领域，特别涉及一种噪声环境下层级式语音降噪识别方法及系统。

背景技术

目前的语音识别技术发展迅速，在实验室环境下，识别效果已经非常理想了。但是，在应用于客服语音中时，说话人的语音并不是纯净的，往往夹杂着日常生活中常见噪声，包括马路，汽车，飞机，火车，地铁，餐厅，酒吧，风声，雨声，菜市场等。在这种情况下，语音识别的效果会在很大程度上降低。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种通过对客户的原始语音的降噪处理，能够提高对客户原始语音的识别准确度的噪声环境下层级式语音降噪识别方法及系统。

本发明解决其技术问题所采用的技术方案是：构造一种噪声环境下层级式语音降噪识别方法，包括如下步骤：

A)设置通话常用的文本，并进行文本的录入；所述文本至少包含常用字、常用词语和有关货币金额类的量词；

B)使用设置好的所述文本建立文本数据库；

C)根据所述文本进行纯净语音和各类噪声的录制；

D)将所述纯净语音与各类噪声进行线性组合，建立语音数据库；

E)对带噪语音进行端点检测，检测出有效语音的前端点和后端点，提取出有效语音；

F)将所述有效语音通过层级式方法训练语音增强深度神经网络；

G)所述有效语音经过语音增强后再提取其声学特征；

H)使用所述声学特征训练声学模型；

I)使用所述文本训练语言模型；

J)利用所述声学模型和语言模型进行搜索得到最佳的识别结果序列。

在本发明所述的噪声环境下层级式语音降噪识别方法中，所述步骤D)进一步包括：

D1)对任意一句纯净语音与各类常见噪声进行线性组合；

D2)控制各类噪声的幅度的取值；

D3)使所述纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况。

在本发明所述的噪声环境下层级式语音降噪识别方法中，所述步骤F)进一步包括：

F1)将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段，每一个阶段相比前一阶段提升输入语音的信噪比；

F2)将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接，作为当前阶段的输入；

F3)所述语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音；

F4)训练完所述语音增强深度神经网络后，所有的语音都先经过所述语音增强深度神经网络实现降噪。

在本发明所述的噪声环境下层级式语音降噪识别方法中，在检测有效语音的前端点和后端点时，事先设定一个能量值阈值，在语音前面连续x帧的能量值低于所述能量值阈值，接下来的y帧的能量值大于所述能量值阈值，则认为能量值增大的地方就是前端点；若连续的x帧的能量值高于所述能量值阈值，接下来的y帧的能量值低于所述能量值阈值，则认为能量值减少的地方就是后端点；其中，所述x和y均为大于0的整数。

本发明还涉及一种实现上述噪声环境下层级式语音降噪识别方法的系统，包括：

文本设置录入单元：用于设置通话常用的文本，并进行文本的录入；所述文本至少包含常用字、常用词语和有关货币金额类的量词；

文本数据库建立单元：用于使用设置好的所述文本建立文本数据库；

录制单元：用于根据所述文本进行纯净语音和各类噪声的录制；

语音数据库建立单元：用于将所述纯净语音与各类噪声进行线性组合，建立语音数据库；

端点检测单元：用于对带噪语音进行端点检测，检测出有效语音的前端点和后端点，提取出有效语音；

训练单元：用于将所述有效语音通过层级式方法训练语音增强深度神经网络；

声学特征提取单元：用于使所述有效语音经过语音增强后再提取其声学特征；

声学模型训练单元：用于使用所述声学特征训练声学模型；

语言模型训练单元：用于使用所述文本训练语言模型；

识别结果序列搜索单元：用于利用所述声学模型和语言模型进行搜索得到最佳的识别结果序列。

在本发明所述的系统中，所述语音数据库建立单元进一步包括：

线性组合模块：用于对任意一句纯净语音与各类常见噪声进行线性组合；

幅度控制模块：用于控制各类噪声的幅度的取值；

覆盖模块：用于使所述纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况。

在本发明所述的系统中，所述训练单元进一步包括：

阶段划分模块：用于将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段，每一个阶段相比前一阶段提升输入语音的信噪比；

拼接模块：用于将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接，作为当前阶段的输入；

学习模块：用于使所述语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音；

降噪模块：用于在训练完所述语音增强深度神经网络后，所有的语音都先经过所述语音增强深度神经网络实现降噪。

在本发明所述的系统中，在检测有效语音的前端点和后端点时，事先设定一个能量值阈值，在语音前面连续x帧的能量值低于所述能量值阈值，接下来的y帧的能量值大于所述能量值阈值，则认为能量值增大的地方就是前端点；若连续的x帧的能量值高于所述能量值阈值，接下来的y帧的能量值低于所述能量值阈值，则认为能量值减少的地方就是后端点；其中，所述x和y均为大于0的整数。

实施本发明的噪声环境下层级式语音降噪识别方法及系统，具有以下有益效果：由由于录音人员根据设置好的文本进行语音以及日常生活中常见噪声的录制；建立语音数据库；语音数据库覆盖纯净语音与噪声种类及其幅度的各种线性组合；对带噪语音进行端点检测，检测出有效语音的前端点和后端点，提取有效语音；将有效语音通过层级式方法训练语音增强深度神经网络；有效语音经过语音增强后再提取其声学特征；使用声学特征训练声学模型；使用文本训练语言模型；利用声学模型和语言模型进行搜索得到最佳的识别结果序列；在与客户进行电话交流的过程中，客户方不可避免地有着各类常见噪声，因此本发明通过对客户的原始语音的降噪处理，能够提高对客户原始语音的识别准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明噪声环境下层级式语音降噪识别方法及系统一个实施例中方法的流程图；

图2为所述实施例中将纯净语音与各类噪声进行线性组合，建立语音数据库的具体流程图；

图3为所述实施例中将有效语音通过层级式方法训练语音增强深度神经网络的具体流程图；

图4为所述实施例中系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明噪声环境下层级式语音降噪识别方法及系统实施例中，其噪声环境下层级式语音降噪识别方法的流程图如图1所示。图1中，该噪声环境下层级式语音降噪识别方法包括如下步骤：

步骤S01设置通话常用的文本，并进行文本的录入：本步骤中，根据通话中的日常用语设置通话常用的文本，并进行文本的录入，该文本至少包含常用字、常用词语和有关货币金额类的量词等。

步骤S02使用设置好的文本建立文本数据库：本步骤中，使用上述步骤S01中设置好的文本建立文本数据库。

步骤S03根据文本进行纯净语音和各类噪声的录制：本步骤中，录音人员根据设置好的文本进行纯净语音和各类噪声的录制。具体而言，根据准备的文本，通过录音人员进行录制的超过3000小时的纯净语句，纯净语句至少包含常用字、常用词语、有关货币金额类的量词等语句，总计达到3000小时。并且，单一地进行生活中常见噪声的录制，至少包含马路、汽车、风声、雨声等。

步骤S04将纯净语音与各类噪声进行线性组合，建立语音数据库：本步骤中，将纯净语音与各类噪声进行线性组合以覆盖多种情况，不仅对噪声的种类进行变量控制，同时也对噪声的幅度进行控制，然后建立语音数据库。

步骤S05对带噪语音进行端点检测，检测出有效语音的前端点和后端点，提取出有效语音：本步骤中，对带噪语音(含噪声的语音)进行端点检测，检测出有效语音的前端点和后端点，然后提取出有效语音。该有效语音也是带噪声的语音。

值得一提的是，本步骤中，当对有效语音的前端点和后端点进行检测时，事先设定一个能量值阈值，在语音前面连续x帧的能量值低于能量值阈值，接下来的y帧的能量值大于能量值阈值，则认为能量值增大的地方就是前端点；若连续的x帧的能量值高于能量值阈值，接下来的y帧的能量值低于能量值阈值，则认为能量值减少的地方就是后端点；其中，x和y均为大于0的整数。

步骤S06将有效语音通过层级式方法训练语音增强深度神经网络：本步骤中，对于经过端点检测后提取的有效语音，将该有效语音通过层级式方法训练语音增强深度神经网络。

步骤S07有效语音经过语音增强后再提取其声学特征：本步骤中，有效语音经过语音增强后，提取其声学特征mfcc。

步骤S08使用声学特征训练声学模型：本步骤中，使用提取的声学特征mfcc训练声学模型，具体就是基于DNN-HMM对语音的声学特征mfcc的后验概率进行建模。

步骤S09使用文本训练语言模型：本步骤中，使用文本训练语言模型，具体是通过计算最大似然估计构造语言模型。

步骤S10利用声学模型和语言模型进行搜索得到最佳的识别结果序列：本步骤中，具体的，将原始语音经过端点检测、语音增强等预处理后，提取声学特征mfcc输入到声学模型，而后语言模型根据声学模型输出的结果，给出概率最大的文字序列，即得到最佳的识别结果序列。本发明的声环境下层级式语音降噪识别方法通过对客户的原始语音的降噪处理，能够提高对客户原始语音的识别准确度。

对于本实施例而言，上述步骤S04还可进一步细化，其细化后的流程图如图2所示。图2中，上述步骤S04进一步包括如下步骤：

步骤S41对任意一句纯净语音与各类常见噪声进行线性组合：本步骤中，对任意一句纯净语音与各类常见噪声进行线性组合，具体是对每一句纯净语音叠加1至n种常见噪声，n为大于1的整数。

步骤S42控制各类噪声的幅度的取值：本步骤中，若噪声的种类完全相同，但其中有噪声的幅度不同，视为两种不同的情形，通过控制单一噪声的幅度，叠加出更多的情况。

步骤S43使纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况：本步骤中，通过上述步骤S41和步骤S42，使纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况，也就是使带噪语音覆盖日常生活中的常见情况。

对于本实施例而言，上述步骤S06还可以进一步细化，其细化后的流程图如图3所示。图3中，该步骤S06进一步包括如下步骤：

步骤S61将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段，每一个阶段相比前一阶段提升输入语音的信噪比：根据语音的时序性特点，选取ConvLSTM作为神经网络结构，该结构将上一层的输出作为下一层的输入，充分利用语音的上下文信息，得到时序关系，其卷积操作也能够提取一定的语音特征，有利于后续的网络学习。本步骤中，将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段，每一个阶段的输入语音的信噪比都比前一阶段的高，具体而言，就是对于语音增强深度神经网络的每一层来说，低层的输入语音的信噪比都比高层的输入语音的信噪比低。

步骤S62将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接，作为当前阶段的输入：本步骤中，对于语音增强深度神经网络的每一层而言，当前层的输入为前一层的输出与原始特征输入的拼接，以减少信息的损失。

步骤S63语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音：神经网络是以有效带噪语音的特征为输入，以比输入具有更高信噪比的带噪语音为中间学习目标，以纯净语音的特征为最终学习目标。本步骤中，语音增强深度神经网络的所有层都被要求学习比输入具有更高信噪比的带噪中间目标语音和纯净语音。以均方对数损失为损失函数，通过BPTT算法对网络参数进行训练更新。

步骤S64训练完语音增强深度神经网络后，所有的语音都先经过语音增强深度神经网络实现降噪：本步骤中，训练完语音增强深度神经网络后，所有的语音都先经过该语音增强深度神经网络，就能有效地实现降噪。通过上述步骤S61至步骤S64，将有效语音按照信噪比递增的方式分阶段；利用每个阶段的带噪语音通过层级式方法训练一个语音增强深度神经网络。

本实施例还涉及一种实现上述噪声环境下层级式语音降噪识别方法的系统，该系统的结构示意图如图4所示。图4中，该系统包括文本设置录入单元1、文本数据库建立单元2、录制单元3、语音数据库建立单元4、端点检测单元5、训练单元6、声学特征提取单元7、声学模型训练单元8、语言模型训练单元9和识别结果序列搜索单元10。

其中，文本设置录入单元1用于设置通话常用的文本，并进行文本的录入；文本至少包含常用字、常用词语和有关货币金额类的量词；文本数据库建立单元2用于使用设置好的文本建立文本数据库；录制单元3用于根据文本进行纯净语音和各类噪声的录制；语音数据库建立单元4用于将纯净语音与各类噪声进行线性组合，建立语音数据库。

端点检测单元5用于对带噪语音进行端点检测，检测出有效语音的前端点和后端点，提取出有效语音；当对有效语音的前端点和后端点进行检测时，事先设定一个能量值阈值，在语音前面连续x帧的能量值低于能量值阈值，接下来的y帧的能量值大于能量值阈值，则认为能量值增大的地方就是前端点；若连续的x帧的能量值高于能量值阈值，接下来的y帧的能量值低于能量值阈值，则认为能量值减少的地方就是后端点；其中，x和y均为大于0的整数。

训练单元6用于将有效语音通过层级式方法训练语音增强深度神经网络；声学特征提取单元7用于使有效语音经过语音增强后再提取其声学特征mfcc；声学模型训练单元8用于使用声学特征mfcc训练声学模型；语言模型训练单元9用于使用文本训练语言模型；识别结果序列搜索单元10用于利用声学模型和语言模型进行搜索得到最佳的识别结果序列。本发明的系统通过对客户的原始语音的降噪处理，能够提高对客户原始语音的识别准确度。

本实施例中，语音数据库建立单元4进一步包括线性组合模块41、幅度控制模块42和覆盖模块43；其中，线性组合模块41用于对任意一句纯净语音与各类常见噪声进行线性组合；幅度控制模块42用于控制各类噪声的幅度的取值；覆盖模块43用于使纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况。

本实施例中，训练单元6进一步包括阶段划分模块61、拼接模块62、学习模块63和降噪模块64；其中，阶段划分模块61用于将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段，每一个阶段相比前一阶段提升输入语音的信噪比；拼接模块62用于将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接，作为当前阶段的输入；学习模块63用于使语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音；降噪模块64用于在训练完语音增强深度神经网络后，所有的语音都先经过语音增强深度神经网络实现降噪。

总之，本发明根据特定准备的文本，通过录音人员进行录制的超过3000句小时的语句，同时录制生活中常见的单一噪声，使二者线性组合建立语音数据库。首先对每句语音进行端点检测得出有效语音，用有效语音和纯净语音的映射通过层级式方法训练语音增强深度神经网络，继而相应地训练声学模型和语言模型，最后利用所训练的声学模型和语言模型搜索得到最佳的识别结果。本发明能够有效地降低通话过程中常见的日常生活噪声对识别语音的影响，使得对说话人的语音识别更加准确。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种噪声环境下层级式语音降噪识别方法，其特征在于，包括如下步骤：

B)使用设置好的所述文本建立文本数据库；

C)根据所述文本进行纯净语音和各类噪声的录制；

G)所述有效语音经过语音增强后再提取其声学特征；

H)使用所述声学特征训练声学模型；

I)使用所述文本训练语言模型；

2.根据权利要求1所述的噪声环境下层级式语音降噪识别方法，其特征在于，所述步骤D)进一步包括：

D1)对任意一句纯净语音与各类常见噪声进行线性组合；

D2)控制各类噪声的幅度的取值；

3.根据权利要求1或2所述的噪声环境下层级式语音降噪识别方法，其特征在于，所述步骤F)进一步包括：

4.根据权利要求1所述的噪声环境下层级式语音降噪识别方法，其特征在于，在检测有效语音的前端点和后端点时，事先设定一个能量值阈值，在语音前面连续x帧的能量值低于所述能量值阈值，接下来的y帧的能量值大于所述能量值阈值，则认为能量值增大的地方就是前端点；若连续的x帧的能量值高于所述能量值阈值，接下来的y帧的能量值低于所述能量值阈值，则认为能量值减少的地方就是后端点；其中，所述x和y均为大于0的整数。

5.一种实现如权利要求1所述的噪声环境下层级式语音降噪识别方法的系统，其特征在于，包括：

声学模型训练单元：用于使用所述声学特征训练声学模型；

语言模型训练单元：用于使用所述文本训练语言模型；

6.根据权利要求5所述的系统，其特征在于，所述语音数据库建立单元进一步包括：

幅度控制模块：用于控制各类噪声的幅度的取值；

7.根据权利要求5或6所述的系统，其特征在于，所述训练单元进一步包括：

8.根据权利要求5所述的系统，其特征在于，在检测有效语音的前端点和后端点时，事先设定一个能量值阈值，在语音前面连续x帧的能量值低于所述能量值阈值，接下来的y帧的能量值大于所述能量值阈值，则认为能量值增大的地方就是前端点；若连续的x帧的能量值高于所述能量值阈值，接下来的y帧的能量值低于所述能量值阈值，则认为能量值减少的地方就是后端点；其中，所述x和y均为大于0的整数。