CN110706694B

CN110706694B - 一种基于深度学习的语音端点检测方法及系统

Info

Publication number: CN110706694B
Application number: CN201910917881.6A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2022-04-08
Anticipated expiration: 2039-09-26
Also published as: CN110706694A

Abstract

本发明公开了一种基于深度学习的语音端点检测方法及系统，包括：利用收集的音频数据生成样本音频数据；分帧处理样本音频数据，划分处理后得到的待训练语音帧为非噪声语音帧和噪声语音帧，获得训练集；利用训练集训练深度神经网络模型，获得训练后的深度神经网络模型；将端点待检测语音数据输入该训练后的模型，输出该语音数据中的所有非噪声语音帧和噪声语音帧；基于非噪声语音帧和噪声语音帧，获得端点待检测语音数据中的非噪声语音段和噪声语音段，提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引为语音端点。本发明解决了传统语音端点检测技术低信噪比识别准确率低、部分方法识别速度慢和语音特征选取困难的问题。

Description

一种基于深度学习的语音端点检测方法及系统

技术领域

本发明涉及语音信号处理领域，具体地，涉及一种基于深度学习的语音端点检测方法及系统。

背景技术

语音是信息交互的重要方式，语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点，是一种运用在语音前端的处理技术，通过语音端点检测算法提取出含有语音的音频数据，为后期声源定位、语音识别、语音编码等任务提供有效的信息。随着人工智能的发展，人们希望通过“语音”实现人机交互，辨别说话人身份及识别具体语音内容，语音端点检测是其关键环节。在通信领域，需要尽可能地降低信号静音段的数据传输效率以保证接受语音信号的质量，此时准确的信号端点检测也是不可少的。另外，国家安全保密工作中的通信线路监控工作中语音端点检测也起着至关重要的作用，在节约资源成本的同时不影响信息检测。

传统的语音端点检测的主要方法包括：(1)基于单一门限或多门限判决的端点检测方法。该类方法主要通过统计检验某种特征参数(短时能量，过零率，信息熵等)来区分噪音和非噪音。例如：基于短时能量的端点检测方法首先将整段语音划分成语音帧，之后计算语音帧的短时能量，最后判断短时能量是否大于既定阈值。大于阈值的语音帧则判定为非噪音，小于阈值的语音帧则判定为噪音。(2)基于统计模型的语音端点检测方法，主要包括以下步骤：接收输入的待检测语音信号；分帧提取待检测语音信号的第一语音特征信息，并对第一语音特征信息进行抗噪处理以生成待检测语音信号的第二语音特征信息；根据第二语音特征信息和声学模型获得待检测语音信号的识别结果。

传统的语音端点检测方法存在抗噪性差，特征选取困难的问题。在低信噪比的情况下，语音端点检测效果较差，很难识别语音具体所在位置；语音特征众多，比如短时能量，过零率，信息熵，Mel倒谱系数等，选取的语音特征不同得到的效果也有所不同。如何有针对性的选取语音特征并进行分析也是语音端点检测中的一大难题。

发明内容

本发明针对真实复杂情况下的语音，提供了一种传统信号处理和深度学习相结合的智能语音定位检测的方法及系统，旨在解决当前基于传统语音端点检测技术方法低信噪比识别准确率低、部分方法识别速度慢和语音特征选取困难的问题。

为实现上述发明目的，本发明一方面提供了一种语音端点检测的方法，以解决传统技术中端点检测方法抗燥性差和特征提取困难的技术问题。具体的发明内容如下：

步骤1语音数据增强。

步骤1.1收集语音音频数据和噪声音频数据；其中，音帧可能是包含人说话的声音或者是非人说话的声音；包含人说话的声音的语音帧称为语音，不包含人说话的语音帧称为噪声；

步骤1.2对收集的音频数据执行升采样或降采样操作，统一语音音频数据和噪声音频数据的采样率；

步骤1.3随机提取几段语音音频数据和一段噪声音频数据；

步骤1.4使用音频数据融合的方法融合语音音频数据和噪声音频数据,其具体方法即是在噪声音频数据上的随机位置随机加入语音音频数据；

步骤1.5重复上述步骤1.3-1.4，生成大量的样本音频数据。

步骤2分帧和标记样本音频数据。

步骤2.1以预设的单位时间分帧处理样本音频数据，得到待训练语音帧；

步骤2.2判断每个待训练语音帧中是否包含语音；将包含语音的待训练语音帧标记为第一类别即待训练非噪声语音帧，将不包含语音的待训练语音帧划分为第二类别即待训练噪声语音帧；

步骤2.3提取多个待训练非噪声语音帧作为正样本，提取多个待训练噪声语音帧作为负样本，共同构成训练集用于训练深度神经网络模型。

步骤3训练深度神经网络模型。

步骤3.1对训练集中的待训练语音帧执行第一次卷积操作，卷积核数为n1，学习待训练语音帧在时域上声学特征，得到第一个特征向量；

步骤3.2对训练集中的待训练语音帧执行第二次卷积操作，卷积核数为n2，学习待训练语音帧在时域上声学特征，得到第二个特征向量；

步骤3.3对训练集中的待训练语音帧执行第三次卷积操作，卷积核数为n3，学习待训练语音帧在时域上声学特征，得到第三个特征向量；

以上三次卷积操作的卷积核数可根据实际情况进行调整；

步骤3.4将三个不同的特征向量进行特征融合，即拼接三个特征向量；

步骤3.5对特征融合后的特征向量执行卷积操作，学习、提取语音帧的频域特征；

步骤3.6使用LSTM层学习步骤3.5提取的特征向量得到学习后的特征向量；

步骤3.7使用全连接层分类上述学习后的特征向量，输出待训练语音帧属于非噪声语音帧和噪声语音帧的概率值；

步骤3.8比较待训练语音帧属于非噪声语音帧和噪声语音帧的概率值，如果深度神经网络模型输出的属于非噪声语音帧概率值大于属于噪声语音帧的概率值，则认为该语音帧为非噪声语音帧。反之，如果深度神经网络模型给出的属于非噪声语音帧概率值小于属于噪声语音帧的概率值,则认为该语音帧为噪声语音帧。

步骤4合并语音帧。

步骤4.1根据时序顺序依次拼接语音帧；

步骤4.2将连续的非噪声语音帧标记为非噪声语音段，将连续的噪声语音帧标记为噪声语音段；

步骤4.3将两段非噪声语音段之间的单一噪声语音帧标记为噪声语音段，将两噪声语音段之间的单一非噪声语音帧标记为非噪声语音段；

步骤4.4设定合并阈值a和误识别阈值b；阈值a的设定是为了解决实际是连续语音而识别结果非连续语音的问题；阈值b的设定是为了解决单一语音帧误识别问题。

步骤4.5对于整段语音，统计所有两段非噪声语音段之间的采样点数量；如果两段非噪声语音段之间的采样点数量小于合并阈值a，则将两段非噪声语音段中间的噪声语音段标记为非噪声语音段，即合并该噪声语音段相邻的两段非噪声语音段；

步骤4.6对于整段语音，统计所有两段噪声语音段之间的采样点数量；如果两段噪声语音段之间的采样点数量小于合并阈值a，则将两段噪声语音段中间的非噪声语音段标记为噪声语音段，即合并该非噪声语音段相邻的两段噪声语音段。

步骤4.7提取所有的非噪声语音段在整段语音中的起始坐标索引和结束坐标索引。

与本发明中的方法对应，本发明还提供了一种基于深度学习的语音端点检测系统，所述系统包括：

样本生成单元，用于利用收集的音频数据生成样本音频数据；

样本处理单元，用于分帧处理样本音频数据获得待训练语音帧，根据每个待训练语音帧中是否包含语音，将待训练语音帧划分为包含语音的待训练非噪声语音帧和不包含语音的待训练噪声语音帧，若干待训练非噪声语音帧和若干待训练噪声语音帧构成训练集；

模型训练单元，用于利用训练集训练深度神经网络模型，获得训练后的深度神经网络模型；

模型输出单元，用于将端点待检测语音数据输入训练后的深度神经网络模型，训练后的深度神经网络模型输出端点待检测语音数据中的所有非噪声语音帧和噪声语音帧；

语音端点检测结果获得单元，用于基于非噪声语音帧和噪声语音帧，获得端点待检测语音数据中的非噪声语音段和噪声语音段，提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引，获得待检测语音数据的语音端点检测结果。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

本方法及系统有着一定的抗噪性，对各种复杂条件下所获取的语音音频数据的端点检测都有较好的准确率。对于低噪音，语音说话清晰的语音音频数据，能达到95％以上的识别准确率和召回率；对于更加复杂的环境即低信噪比的语音音频数据，也能达到90％以上的准确率和召回率。输出的结果以图片和文字形式显示，其中图片显示整个语音音频数据的语音所在的具体位置，文字显示语音出现的具体时间。

本方法及系统使用深度学神经网络模型自动学习语音数据的特征并检测语音端点，取得了显著的效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1是本发明中一种基于深度学习的语音端点检测方法的流程示意图；

图2是本发明中某段音频数据的端点检测文字结果示意图；

图3是本发明中某段音频数据的真实标记示意图；

图4是本发明中某段音频数据的图片结果示意图；

图5是本发明中一种基于深度学习的语音端点检测系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

请参考图1，是本发明提供的一种基于深度学习的语音端点检测方法实施例的流程图。如图1所示，该语音端点检测方法主要包含模型训练阶段和语音端点检测阶段。其具体的步骤如下：

1.模型训练阶段

收集语音音频数据和噪声音频数据。语音音频数据只包含了人声无其他噪声干扰。噪声音频数据只包含背景噪声，噪声的类型包括但不仅限于白噪声、粉红噪声、工厂噪声、车站噪声。

将收集的语音音频数据和噪声音频数据进行数据增强。具体操作：首先对语音音频数据和噪声音频数据执行下采样或者上采样操作，统一两种音频数据的采样率。其次，随机选择语音音频数据和噪声音频数据进行音频融合，生成一段新的语音音频数据。音频数据中包含了语音音频段和噪声音频段。

分帧处理生成的新语音音频数据。一段语音包含了多段语音帧，每一帧的语音长度可以根据需求自行定义，默认的语音帧的长度为35ms。如果音频的采样率为16000HZ，则每一段语音帧的含有560个采样点。最后将含有语音的语音帧标记为第一类，记作非噪声语音帧，将非语音音频段标记为第二类，记作噪声语音帧。

训练深度神经网络模型。首先随机抽取正样本和负样本，并将正样本和负样本划分成训练集和验证集。其中训练集和验证集的比例保持在8：2。该深度神经网络模型选择交叉熵损失作为模型的目标损失函数，并选择随机梯度下降法训练模型。训练前设置模型训练的次数设置为e,训练的过程将实时监测验证集的损失，并使用早停法监视模型的更新。当深度神经网络模型训练的循环次数等于提前设置的次数e，或者损失停止下降已持续多个循环，则停止训练模型。这时的模型已达到最优，保存模型。

2.检测阶段

收集待测语音音频数据。

对收集的待测语音音频数据执行上采样或者下采样操作，使待测语音音频数据的采样率与训练集中的语音音频数据采样率相同。

分帧处理待测语音音频数据。如果待测语音分帧后的最后一语音帧的采样点个数不足一语音帧，则对最后一语音帧采用补零操作。补零操作则是在不够形成一个语音帧的多个采样点后添加零的操作，进行补零操作后的多个采样点可以形成一个完整的语音帧；如果原待测语音音频数据分帧后的语音帧均为完整的语音帧，则跳过该步骤。

调用、加载已训练好的深度神经网络模型。根据需求的不同，可预先训练多种深度神经网络模型。再根据需求加载不同的深度神经网络模型使用。输入连续的语音帧，对连续的语音帧进行预测。输出的是连续语音帧中每个语音帧的类别，即语音帧属于第一类别(语音)或第二类别(噪声)。

对于预测出的语音帧进行后处理操作。具体操作：将已预测的连续语音帧映射到原语音音频数据上，则可以得到语音与噪声的具体起始、终止坐标点(端点)。之后剔除补零操作在最后一语音帧补充的零。本实施例中，在得到了每一帧语音数据的分类后，再判断语音端点。实际情况中并非出现一帧非静音帧就能认为一段语音开始，也并非出现一帧静音帧就认为一段语音结束，需要根据连续语音帧的帧数来判断一段语音的起始端点和结束端点。本发明设置两阈值：合并阈值a和误识别阈值b。当两段语音之间的采样点小于合并阈值a时，则将两段语音合并成一段语音；当识别出的语音段采样点小于误识别阈值b时，则将该段语音剔除。本发明的一个较佳的实施例中，上述第一阈值a可以取值32000，上述第二阈值b可以取值8000。

本方法最终的结果为语音所在语音音频数据的具体时间位置及可视化的图像。图2为某段语音音频数据经过本方法检测后，语音所在具体时间的文字结果，其中出现的时间段是语音所在的时间端点，而未出现的时间为噪声的时间端点。其中左侧时间为语音的起始时间点，右侧时间表示语音的终止时间点。图3为上述某音频数据的真实标注时间。图4为同一段语音音频数据经过本方法检测后的可视化图片结果展示，纵坐标是语音的幅度值(米)，横坐标是时间(秒)。其中实线线段为该语音音频数据的波形图像，而虚线线段为检测结果，当虚线线段的数值为10000时则表明该语音段为语音，当虚线线段的数值为0时则表明该语音段为噪声。

请参考图5，本发明实施例提供了一种基于深度学习的语音端点检测系统，所述系统与前述方法对应，所述系统包括：

样本处理单元，用于分帧处理样本音频数据获得待训练语音帧，根据每个待训练语音帧中是否包含语音将待训练语音帧划分为包含语音的待训练非噪声语音帧和不包含语音的待训练噪声语音帧，若干待训练非噪声语音帧和若干待训练噪声语音帧构成训练集；

模型训练单元，用于使用训练集训练深度神经网络模型，获得训练后的深度神经网络模型；

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习的语音端点检测方法，其特征在于，所述方法包括：

步骤1：利用收集的音频数据生成样本音频数据；

步骤2：分帧处理样本音频数据获得待训练语音帧，根据待训练语音帧中是否包含语音，将待训练语音帧划分为包含语音的待训练非噪声语音帧和不包含语音的待训练噪声语音帧，若干待训练非噪声语音帧和若干待训练噪声语音帧构成训练集；

步骤3：利用训练集训练深度神经网络模型，获得训练后的深度神经网络模型；

步骤4：将端点待检测语音数据输入训练后的深度神经网络模型，训练后的深度神经网络模型输出端点待检测语音数据中的所有非噪声语音帧和噪声语音帧；

步骤5：基于非噪声语音帧和噪声语音帧，获得端点待检测语音数据中的非噪声语音段和噪声语音段，提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引，获得待检测语音数据的语音端点检测结果；

步骤5.1：根据时序顺序依次拼接训练后的深度神经网络模型输出的语音帧，获得拼接后的语音段；

步骤5.2：将拼接后的语音段中连续的非噪声语音帧标记为非噪声语音段，将拼接后的语音段中连续的噪声语音帧标记为噪声语音段；

步骤5.3：将两段非噪声语音段之间的单一噪声语音帧标记为噪声语音段，将两噪声语音段之间的单一非噪声语音帧标记为非噪声语音段，获得标记后的语音段；

步骤5.4：设定合并阈值a；

步骤5.5：统计标记后的语音段中两段非噪声语音段之间的采样点数量总和，如果两段非噪声语音段之间的采样点数量总和小于合并阈值a，则将标记后的语音段中两段非噪声语音段中间的噪声语音段标记为非噪声语音段，即合并该噪声语音段相邻的两段非噪声语音段；

步骤5.6：统计标记后的语音段中两段噪声语音段之间的采样点数量总和，如果两段噪声语音段之间的采样点数量总和小于合并阈值a，则将标记后的语音段中两段噪声语音段中间的非噪声语音段标记为噪声语音段，即合并该非噪声语音段相邻的两段噪声语音段；

步骤5.7：提取所有的非噪声语音段在整段语音中的起始坐标索引和结束坐标索引，获得待检测语音数据的语音端点检测结果；

步骤5.4还包括设定误识别阈值b，误识别阈值b的用于判别单一语音帧是否为误识别：统计标记后的语音段中两段非噪声语音段之间的采样点数量总和，如果两段非噪声语音段之间的采样点数量总和小于误识别阈值b，则将该段语音剔除。

2.根据权利要求1所述的一种基于深度学习的语音端点检测方法，其特征在于，所述步骤1具体包括：

步骤1.1：收集语音音频数据和噪声音频数据；

步骤1.2：对收集的音频数据执行升采样或降采样操作，统一语音音频数据和噪声音频数据的采样率；

步骤1.3：从收集的音频数据中随机提取若干段语音音频数据和一段噪声音频数据；

步骤1.4：融合提取的语音音频数据和噪声音频数据；

步骤1.5：重复执行若干次步骤1.3-步骤1.4，生成样本音频数据。

3.根据权利要求1所述的一种基于深度学习的语音端点检测方法，其特征在于，所述步骤2具体包括：

步骤2.1：以预设的单位时间分帧处理样本音频数据，得到待训练语音帧；

步骤2.2：判断待训练语音帧中是否包含语音，将包含语音的待训练语音帧标记为第一类别即待训练非噪声语音帧，将不包含语音的待训练语音帧划分为第二类别即待训练噪声语音帧；

步骤2.3：提取若干个待训练非噪声语音帧作为正样本，提取多个待训练噪声语音帧作为负样本，正样本和负样本共同构成训练集。

4.根据权利要求1-3中任意一个所述的一种基于深度学习的语音端点检测方法，其特征在于，所述步骤3具体包括：

步骤3.1：对训练集中的待训练语音帧执行第一次卷积操作，卷积核数为n1，学习待训练语音帧在时域上的声学特征，得到第一个特征向量；

步骤3.2：对训练集中的待训练语音帧执行第二次卷积操作，卷积核数为n2，学习待训练语音帧在时域上的声学特征，得到第二个特征向量；

步骤3.3：对训练集中的待训练语音帧执行第三次卷积操作，卷积核数为n3，学习待训练语音帧在时域上的声学特征，得到第三个特征向量；

步骤3.4：将第一个特征向量至第三个特征向量进行特征融合，获得特征融合后的时域特征向量；

步骤3.5：对特征融合后的时域特征向量执行卷积操作，学习和提取待训练语音帧的频域特征向量；

步骤3.6：使用长短时记忆层学习频域特征向量，获得学习后的特征向量；

步骤3.7：使用全连接层分类学习后的特征向量，获得待训练语音帧属于非噪声语音帧的概率值A，属于噪声语音帧的概率值B；

步骤3.8：对于每个待训练语音帧，若A大于B，则判断该待训练语音帧为非噪声语音帧；若A小于或等于B，则判断该待训练语音帧为噪声语音帧。

5.根据权利要求1-3中任意一个所述的一种基于深度学习的语音端点检测方法，其特征在于，所述步骤2还包括：基于若干待训练非噪声语音帧和若干待训练噪声语音帧生成验证集，利用验证集验证训练后的深度神经网络模型。

6.一种基于深度学习的语音端点检测系统，其特征在于，所述系统包括：

语音端点检测结果获得单元，用于基于非噪声语音帧和噪声语音帧，获得端点待检测语音数据中的非噪声语音段和噪声语音段，提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引，获得待检测语音数据的语音端点检测结果；

所述语音端点检测结果获得单元获得检测结果的过程为：

步骤Ⅰ：根据时序顺序依次进行拼接训练后的深度神经网络模型输出的语音帧，获得拼接后的语音段；

步骤Ⅱ：将拼接后的语音段中连续的非噪声语音帧标记为非噪声语音段，将拼接后的语音段中连续的噪声语音帧标记为噪声语音段；

步骤Ⅲ：将两段非噪声语音段之间的单一噪声语音帧标记为噪声语音段，将两噪声语音段之间的单一非噪声语音帧标记为非噪声语音段，获得标记后的语音段；

步骤Ⅳ：设定合并阈值a和误识别阈值b；阈值a的设定是为了解决实际是连续语音而识别结果非连续语音的问题；阈值b的设定是为了解决单一语音帧误识别问题，如果两段非噪声语音段之间的采样点数量总和小于误识别阈值b，则将该段语音剔除；

步骤Ⅴ：统计标记后的语音段中两段非噪声语音段之间的采样点数量总和，如果两段非噪声语音段之间的采样点数量总和小于合并阈值a，则将标记后的语音段中两段非噪声语音段中间的噪声语音段标记为非噪声语音段，即合并该噪声语音段相邻的两段非噪声语音段；

步骤Ⅵ：统计标记后的语音段中两段噪声语音段之间的采样点数量总和，如果两段噪声语音段之间的采样点数量总和小于合并阈值a，则将标记后的语音段中两段噪声语音段中间的非噪声语音段标记为噪声语音段，即合并该非噪声语音段相邻的两段噪声语音段；

步骤Ⅶ：提取所有的非噪声语音段在整段语音中的起始坐标索引和结束坐标索引，获得待检测语音数据的语音端点检测结果。

7.根据权利要求6所述的一种基于深度学习的语音端点检测系统，其特征在于，模型训练单元的训练过程包括：

步骤a：对训练集中的待训练语音帧执行第一次卷积操作，卷积核数为n1，学习待训练语音帧在时域上的声学特征，得到第一个特征向量；

步骤b：对训练集中的待训练语音帧执行第二次卷积操作，卷积核数为n2，学习待训练语音帧在时域上的声学特征，得到第二个特征向量；

步骤c：对训练集中的待训练语音帧执行第三次卷积操作，卷积核数为n3，学习待训练语音帧在时域上的声学特征，得到第三个特征向量；

步骤d：将第一个特征向量至第三个特征向量进行特征融合，获得特征融合后的时域特征向量；

步骤e：对特征融合后的时域特征向量执行卷积操作，学习和提取待训练语音帧的频域特征向量；

步骤f：使用长短时记忆层学习频域特征向量，获得学习后的特征向量；

步骤g：使用全连接层分类学习后的特征向量，获得待训练语音帧属于非噪声语音帧的概率值A，属于噪声语音帧的概率值B；

步骤h：对于每个待训练语音帧，若A大于B，则判断该待训练语音帧为非噪声语音帧；若其小于或等于B，则判断该待训练语音帧为噪声语音帧。