CN111916060A

CN111916060A - 一种基于谱减的深度学习语音端点检测方法和系统

Info

Publication number: CN111916060A
Application number: CN202010806899.1A
Authority: CN
Inventors: 刘杨; 伍强
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-10
Anticipated expiration: 2040-08-12
Also published as: CN111916060B

Abstract

本发明公开一种基于谱减的深度学习语音端点检测方法和系统，包括如下步骤：生成含噪语音训练数据集，构建训练语音帧信息特征数据集；搭建基于谱减的语音估计，噪声估计和语音状态检测三分支深度学习网络；计算对应原始语音信号信息特征，基于三分支深度学习网络，以信息特征计算前向运算得到语音检测状态概率值；根据语音检测状态概率值，设置阈值，滑动窗口综合打分，检测语音的起止点。本方法利用Bark域特征模拟人耳的听觉效应，通过深度学习优化特征提取，并引进谱减思想构建三分支深度学习网络，综合兼顾噪声情况，同时实现语音增强和语音端点检测，提高含噪语音的端点检测准确率，进一步提高后续语音处理系统效率，能够做到实时检测。

Description

一种基于谱减的深度学习语音端点检测方法和系统

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于谱减的深度学习语音端点检测方法和系统。

背景技术

近十年来，随着人工智能的兴起发展，语音信号处理领域大量引进了深度学习方法，特别是在语音识别，说话人识别，语音合成，语音增强等方面都已经实现了产品落地。但是大多技术都还受限于硬件设备，效率达不到实时处理，无法满足人机智能互动需求。

语音端点检测技术是一种确定语音起始点和结束点，可以有效地消除噪声和静音，从而提取有效语音信号，提高后续语音处理系统效率，是一种必不可少的前端预处理技术。

在语音处理系统中，由于噪声干扰，语音端点检测往往不准确。目前大量的研究都是基于特征设计来优化检测，该方法效率低，受限于单一噪声环境。如何在低信噪比和高复杂的噪声环境进行语音端点检测依然是一个问题。

此外，现有技术CN201910917881.6一种基于深度学习的语音端点检测方法及系统，其采用原始信号作为输入，利于网络分别提取声学特征，时域特征和频域特征，对应的结果再拼接组合，由于输入是原始语音，一般25ms，大约400维，维数很高，在运算的过程中运算效率低，不能做到实时检测。

发明内容

本发明提供了一种基于谱减的深度学习语音端点检测方法和系统，以解决现有技术中由于噪声干扰，语音端点检测往往不准确，以及不能实时检测的问题。

本发明采用的技术方案是：一种基于谱减的深度学习语音端点检测方法，包括如下步骤：

步骤一：随机以不同信噪比叠加干净语音和噪声，生成含噪语音训练数据集，用于模拟含噪语音；并依次计算含噪语音信息特征，干净语音信息特征，噪声语音信息特征，干净语音检测状态，构建训练语音帧信息特征数据集；

步骤二：搭建基于谱减的语音估计，噪声估计和语音状态检测三分支深度学习网络，并训练所述三分支深度学习网络，以实现语音端点检测概率估计；

步骤三：输入原始语音信号，计算对应信息特征，基于三分支深度学习网络，以信息特征计算前向运算得到语音检测状态概率值；

步骤四：根据语音检测状态概率值，设置阈值，滑动窗口综合打分，检测语音的起止点，判断是语音或非语音。

优选地，步骤一中，所述生成含噪语音训练数据集的方法为：先分别计算干净语音和噪声的信噪比大小，然后随机生成一个信噪比值，然后按新信噪比值和原信噪比值的比例叠加干净语音和噪声。

优选地，步骤一中，语音特征提取的方法为：将生成含噪语音进行Bark域频带变换，根据频带范围不同划分18个子带，然后对应子带能量取对数获得倒谱信息，再计算离散余弦变换，最后得到18维BFCC特征，基于BFCC特征，分别进行一次和两次差分计算，分别取前6个，组成12维一二阶BFCC动态分量特征，计算信号的自相关结果，然后取其第二个极值点作为1维基音周期特征，并全部拼接组合成31维语音信息特征。

优选地，步骤二中，训练三分支深度学习网络的方法包括：以训练语音帧信息特征数据集中的含噪语音信息特征为输入，采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态，从而训练三分支深度学习网络，所述三分支深度学习网络分别为语音估计网络、噪声估计网络、语音状态检测网络。

优选地，所述噪声估计网络包括一层门限循环GRU单元结构，损失函数为均方误差；所述语音估计网络包括一层全连接DENSE单元结构和一层门限循环GRU单元结构，损失函数为均方误差；所述语音状态检测网络包括二层全连接DENSE单元结构和一层门限循环GRU单元结构，损失函数为交叉熵。

优选地，实现语音端点检测概率估计的方法包括：三分支深度学习网络结构中包含拼接噪声估计网络输出结果和原始特征，再输入语音估计网络实现谱减思想的语音增强，最后再拼接语音估计网络输出结果和全连接层预处理后的原始特征输出结果。

优选地，步骤四中，判断是语音或非语音的方法包括：滑动窗口，以5帧为窗，利用窗内结果判断，连续5帧都是语音则该段是语音窗，连续3帧是语音则是过渡窗，否则是非语音窗，取第一个语音窗的第一帧作为语音的开始点，取最后一个语音窗或过渡窗的最后一帧作为语音的结束点。

一种基于谱减的深度学习语音端点检测系统，包括：

数据合成模块，用于训练数据生成和语音特征提取，构建训练语音帧信息特征数据集，为后续模块提供输入信息；

网络训练模块，该模块包括三分支深度学习网络，用以分别实现语音估计、噪声估计和语音状态检测三功能，并为后续模块计算网络参数；

网络检测模块，根据输入原始语音信号前向计算，实现语音检测状态概率值；

语音检测模块，根据音检测状态概率值，设置阈值，滑动窗口综合打分，检测语音的起止点，判断是语音或非语音。

优选地，在所述数据合成模块中，随机以不同信噪比叠加干净语音和噪声，生成含噪语音训练数据集，用于模拟含噪语音，并依次计算含噪语音信息特征，干净语音信息特征，噪声语音信息特征，干净语音检测状态，构建训练语音帧信息特征数据集。

优选地，在所述网络训练模块中，搭建基于谱减的语音估计、噪声估计和语音状态检测三分支深度学习网络，以训练语音帧信息特征数据集中含噪语音信息特征为输入，采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态，训练对应三分支深度学习网络，所述三分支深度学习网络分别为语音估计网络、噪声估计网络、语音状态检测网络。

本发明的有益效果是：

(1)本发明利用Bark域特征模拟人耳的听觉效应，通过深度学习优化特征提取，并引进谱减思想构建三分支深度学习网络，综合兼顾噪声情况，同时实现语音增强和语音端点检测，提高含噪语音的端点检测准确率，进一步提高后续语音处理系统效率。

(2)本发明提取了信息特征，仅31维语音信息特征，远少于400维的原始语音，运算效率更高，能做到实时检测。

(3)现有技术中仅对语音状态检测网络进行学习和训练，而本发明之所以构建语音估计网络和噪声估计网络是为了应对低信噪比的情况，复杂的噪声环境会影响语音端点检测，而噪声估计网络引进可以进一步实现语音去噪，抑制噪声，提高信噪比，同时语音估计网络可以实现语音质量优化，提高语音质量，更利于语音端点检测。此本发明构建了三分支深度学习网络，结合了语音增强分支，比常规深度学习网络更利于低信噪比下的语音端点检测。

附图说明

图1为本发明公开的一种基于谱减的深度学习语音端点检测方法流程示意图；

图2为本发明公开的一种基于谱减的深度学习语音端点检测系统结构示意图；

图3为实施例一的语音信息特征；

图4为实施例一的三分支深度学习网络结构；

图5为实施例一的含噪语音SNR＝5；

图6为实施例一的语音端点检测结果；

图7为实施例一的语音起止点结果。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步详细描述，但本发明的实施方式不限于此。

实施例1：

参见图1，一种基于谱减的深度学习语音端点检测方法，包括如下步骤：

步骤一、随机以不同信噪比叠加干净语音和噪声，生成含噪语音训练数据集，用于模拟含噪语音；并依次计算含噪语音信息特征，干净语音信息特征，噪声语音信息特征，干净语音检测状态，构建训练语音帧信息特征数据集。

具体的，先分别计算干净语音和噪声的信噪比大小，然后随机生成一个信噪比值，然后按新信噪比值和原信噪比值的比例叠加干净语音和噪声，生成含噪语音训练数据集。其中，噪声采用noiseX92数据集，并采样到采样率16KHz，与干净语音采样率一致。

将生成含噪语音进行Bark域频带变换，根据频带范围不同划分18个子带，然后对应子带能量取对数获得倒谱信息，再计算离散余弦变换，最后得到18维BFCC特征。基于BFCC特征，分别进行一次和两次差分计算，分别取前6个，组成12维一二阶BFCC动态分量特征，计算信号的自相关结果，然后取其第二个极值点作为1维基音周期特征。并全部拼接组合成31维语音信息特征，如图3。

具体的，以帧长为25ms，采样率为16000Hz的含噪语音为例，原始语音长度约为400维，先进行傅里叶变换得到257维的谱特征，将257维的谱特征经过bark域非线性变换和离散余弦变换得到BFCC特征，再划分符合人耳听觉的18个子带区间，加权求和每个子带得到18维BFCC特征后。进一步为了补充声学特征的动态信息，将18维BFCC特征分别进行一次和两次差分计算并分别取前6个，组成12维一二阶BFCC动态分量特征，利用差值信息来表示前后动态变化过程。最后，对含噪语音进行自相关运算，即本身语音延时处理再与本身语音卷积，提取第二个极值点作为1维基音周期特征。本发明提取了信息特征，仅31维语音信息特征，远少于400维的原始语音，运算效率更高，能做到实时检测。

步骤二、搭建基于谱减的噪声估计，语音估计和语音状态检测三分支深度学习网络，以训练语音帧信息特征数据集中含噪语音信息特征为输入，采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态，从而分别训练语音估计网络、噪声估计网络、语音状态检测网络，以实现语音端点检测概率估计。

噪声估计网络包括一层门限循环GRU单元结构，损失函数为均方误差。语音估计网络包括一层全连接DENSE单元结构和一层门限循环GRU单元结构，损失函数为均方误差。语音状态检测网络包括二层全连接DENSE单元结构和一层门限循环GRU单元结构，损失函数为交叉熵。其中，网络结构中包含拼接噪声估计网络输出结果和原始特征，再输入语音估计网络实现谱减思想的语音增强，最后再拼接语音估计网络输出结果和全连接层预处理后的原始特征输出结果，实现语音端点检测概率估计。网络结构如图4，采用keras训练，迭代周期为100，学习率为0.002，优化器为Adam。现有技术中仅对语音状态检测网络进行学习和训练，而本发明之所以构建语音估计网络和噪声估计网络是为了应对低信噪比的情况，复杂的噪声环境会影响语音端点检测，而噪声估计网络引进可以进一步实现语音去噪，抑制噪声，提高信噪比，同时语音估计网络可以实现语音质量优化，提高语音质量，更利于语音端点检测。此本发明构建了三分支深度学习网络，结合了语音增强分支，比常规深度学习网络更利于低信噪比下的语音端点检测。

步骤三、输入原始语音信号，计算对应信息特征，基于语音估计网络、噪声估计网络以及语音状态检测网络，以信息特征计算前向运算得到语音检测状态概率值，如图5。这里的原始语音信号是指没有经过处理的语音信号。

步骤四、根据语音检测状态概率值，设置阈值，滑动窗口综合打分，检测语音的起止点，判断是语音或非语音。

具体的，根据对应语音概率，从而利用阈值，判断是语音或非语音。进一步，滑动窗口，以5帧为窗，利用窗内结果判断，连续5帧都是语音则该段是语音窗，连续3帧是语音则是过渡窗，否则是非语音窗。取第一个语音窗的第一帧作为语音的开始点，取最后一个语音窗或过渡窗的最后一帧作为语音的结束点，结构如图6、图7。

实施例二

参见图2，一种基于谱减的深度学习语音端点检测系统，包括：

数据合成模块，用于训练数据生成和语音特征提取，构建训练语音帧信息特征数据集，为后续模块提供输入信息。

具体的，随机以不同信噪比叠加干净语音和噪声，生成含噪语音训练数据集，用于模拟含噪语音，并依次计算含噪语音信息特征，干净语音信息特征，噪声语音信息特征，干净语音检测状态，构建训练语音帧信息特征数据集。

网络训练模块，该模块包括训练语音估计网络、噪声估计网络、语音状态检测网络，用以分别实现语音估计、噪声估计和语音状态检测三功能，为后续模块计算网络参数。

具体的，搭建基于谱减的语音估计、噪声估计和语音状态检测三分支深度学习网络。以训练语音帧信息特征数据集中含噪语音信息特征为输入，采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态，训练对应网络参数。

网络检测模块，输入原始语音信号，计算对应信息特征，基于训练网络，以信息特征计算前向运算得到语音检测状态概率值。

该模块导入网络训练模块的参数，根据输入信息前向计算，实现语音检测状态概率值计算功能。

该模块以概率值为输入，实现打分判断功能，输出语音的起止点位置。

每个模块的具体细节信息参考实施例一。

需要说明的是，本实施例中的各模块(或单元)是逻辑意义上的，具体实现时，多个模块(或单元)可以合并成一个模块(或单元)，一个模块(或单元)也可以拆分成多个模块(或单元)。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于谱减的深度学习语音端点检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于谱减的深度学习语音端点检测方法，其特征在于：

步骤一中，生成含噪语音训练数据集的方法为：先分别计算干净语音和噪声的信噪比大小，然后随机生成一个信噪比值，然后按新信噪比值和原信噪比值的比例叠加干净语音和噪声。

3.根据权利要求1或2所述的一种基于谱减的深度学习语音端点检测方法，其特征在于：

步骤一中，语音特征提取的方法为：将生成含噪语音进行Bark域频带变换，根据频带范围不同划分18个子带，然后对应子带能量取对数获得倒谱信息，再计算离散余弦变换，最后得到18维BFCC特征，基于BFCC特征，分别进行一次和两次差分计算，分别取前6个，组成12维一二阶BFCC动态分量特征，计算信号的自相关结果，然后取其第二个极值点作为1维基音周期特征，并全部拼接组合成31维语音信息特征。

4.根据权利要求1所述的一种基于谱减的深度学习语音端点检测方法，其特征在于：

步骤二中，训练三分支深度学习网络的方法包括：以训练语音帧信息特征数据集中的含噪语音信息特征为输入，采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态，从而训练三分支深度学习网络，所述三分支深度学习网络分别为语音估计网络、噪声估计网络、语音状态检测网络。

5.根据权利要求4所述的一种基于谱减的深度学习语音端点检测方法，其特征在于：

所述噪声估计网络包括一层门限循环GRU单元结构，损失函数为均方误差；所述语音估计网络包括一层全连接DENSE单元结构和一层门限循环GRU单元结构，损失函数为均方误差；所述语音状态检测网络包括二层全连接DENSE单元结构和一层门限循环GRU单元结构，损失函数为交叉熵。

6.根据权利要求4或5所述的一种基于谱减的深度学习语音端点检测方法，其特征在于：

实现语音端点检测概率估计的方法包括：三分支深度学习网络结构中包含拼接噪声估计网络输出结果和原始特征，再输入语音估计网络实现谱减思想的语音增强，最后再拼接语音估计网络输出结果和全连接层预处理后的原始特征输出结果。

7.根据权利要求1所述的一种基于谱减的深度学习语音端点检测方法，其特征在于：

步骤四中，判断是语音或非语音的方法包括：滑动窗口，以5帧为窗，利用窗内结果判断，连续5帧都是语音则该段是语音窗，连续3帧是语音则是过渡窗，否则是非语音窗，取第一个语音窗的第一帧作为语音的开始点，取最后一个语音窗或过渡窗的最后一帧作为语音的结束点。

8.一种基于谱减的深度学习语音端点检测系统，其特征在于包括：

9.根据权利要求8所述的一种基于谱减的深度学习语音端点检测系统，其特征在于：

在所述数据合成模块中，随机以不同信噪比叠加干净语音和噪声，生成含噪语音训练数据集，用于模拟含噪语音，并依次计算含噪语音信息特征，干净语音信息特征，噪声语音信息特征，干净语音检测状态，构建训练语音帧信息特征数据集。

10.根据权利要求8或9所述的一种基于谱减的深度学习语音端点检测系统，其特征在于：

在所述网络训练模块中，搭建基于谱减的语音估计、噪声估计和语音状态检测三分支深度学习网络，以训练语音帧信息特征数据集中含噪语音信息特征为输入，采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态，训练对应三分支深度学习网络，所述三分支深度学习网络分别为语音估计网络、噪声估计网络、语音状态检测网络。