CN115691473A

CN115691473A - 一种语音端点检测方法、装置和存储介质

Info

Publication number: CN115691473A
Application number: CN202110823185.6A
Authority: CN
Inventors: 何礼
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2023-02-03

Abstract

本发明公开了一种语音端点检测方法、装置和存储介质，所述方法包括：获取第一音频数据；运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率；第一概率表征相应时频点目标语音的存在概率；根据预设的噪声信号对第一频域音频信号进行加噪处理，得到第二频域音频信号；运用第二判别方法判别所述第二频域音频信号，确定第二频域音频信号中每个时频点对应的第二概率；第二概率表征相应时频点目标语音的存在概率；根据每个所述时频点的第一概率和第二概率确定时频点的第三概率；第三概率表征相应时频点最终的目标语音的存在概率；根据每个时频点的第三概率确定帧级的语音存在概率。

Description

一种语音端点检测方法、装置和存储介质

技术领域

本发明涉及语音信号处理技术，尤其涉及一种语音端点检测方法、装置和存储介质。

背景技术

语音是人与人、人与机器之间交互最自然的媒介，噪声的干扰不仅会降低语音交互的质量，还会严重影响如语音识别和说话人识别等系统的性能。语音端点检测是让机器在嘈杂的环境中检测语音在某一时刻是否出现的技术，是很多语音信号系统的预处理步骤，具有十分重要的意义。不同的应用场景由于声学环境不同，需要不同的语音端点检测方法，本提案是针对电话信道场景提出的语音端点检测装置。

以手机等电子设备都配备的语音助手为例，首先通过对麦克风等前端拾音设备捕获的音频信号进行语音识别，然后基于识别文本通过自然语言理解分析用户意图，继而采取相应操作实现与用户的智能交互。然而，为了实现这一功能，语音助手必须首先通过语音端点检测装置准确判断用户说话的开始时间和结束时间，即从一段连续的音频流中区分出语音区和非语音区，继而确定主叫用户说话的开始点和结束点。因此，语音端点检测是与电话信道相关的语音前端处理的必要环节，对后续的交互处理性能表现起着至关重要的作用。

相关技术中提供了几种语音端点检测方法，例如：

基于声学特征的语音端点检测方法，如双门限法、谱熵法和方差法等。根据语音和非语音信号的一些声学特征区分语音和非语音。常用的声学特征包括短时能量、基频、过零率和能量熵等。

基于统计信号处理的语音端点检测方法，如最小统计量和最小均方误差估计等。从局部的观测值和累积的历史信息分布建立模型，分别对语音和背景噪声信号的分布进行模型假设，然后设计统计算法来动态估计模型参数。

基于有监督的语音端点检测方法，如基于深度神经网络的方法。将语音端点检测看成二分类问题，也就是对分帧之后的语音进行二分类的帧级语音/非语音判决，利用大量带标签的带噪语音训练判别模型。

然而上述几种方法分别具有一定缺陷，具体来说：

基于声学特征的语音端点检测方法适合安静的环境，即语音和非语音信号的声学特征差异显著，电话信道由于主叫用户使用场景的随机性，导致其声学环境极其复杂多变，因此该方法不适合用于电话信道场景。

基于统计信号处理的语音端点检测方法在参数更新的过程中，参考了长时的语音上下文信息，所以这种方法在大多数情况下比基于声学特征方法的性能好。统计模型的方法需要建立在噪声平稳等假设之上。因此，当电话信道在平稳噪声的声学环境下(如汽车引擎声、办公室空调声等)时，这个假设基本成立，统计信号方法可以达到较好的语音端点检测效果。但是，当电话信道在非平稳噪声场景下(如街道声、敲击键盘声、关门声等)时，这个假设就无法准确地反映真实的数据分布，导致性能表现较差。

基于有监督的语音端点检测方法利用大量的语音和非语音样本，使用含有大量参数的深度神经网络模型学习真实的数据分布，不依赖任何的先验假设，通常在非平稳噪声环境下相比统计信号方法更具优势。但当训练和测试场景不一致时，模型的泛化性能相比统计信号方法较差。此外，除了上诉平稳噪声和非平稳噪声以外，电话信道声学环境中主叫用户附近其他人可能存在的说话声即人声干扰(如办公室周围同事的说话声等)也需要判断为非语音区，这给神经网络的训练带来了极大的挑战。首先，人声干扰和目标语音具有相似的语音结构，差异远小于语音和噪声的区别，这使得神经网络难以判别人声干扰和目标语音。然后，干扰人声的数量和类型随着声学环境的不同而不同，难以确定神经网络训练模型的代价函数。

发明内容

有鉴于此，本发明的主要目的在于提供一种语音端点检测方法、装置和存储介质。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供了一种语音端点检测方法，所述方法包括：

获取第一音频数据；

运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率；所述第一概率表征相应时频点目标语音的存在概率；

根据预设的噪声信号对所述第一频域音频信号进行加噪处理，得到第二频域音频信号；运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；所述第二概率表征相应时频点目标语音的存在概率；

根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率；所述第三概率表征相应时频点最终的目标语音的存在概率；

根据每个所述时频点的第三概率确定帧级的语音存在概率。

上述方案中，所述运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率，包括：

运用预设的判别模型，判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；

所述预设的判别模型基于深度神经网络对训练集训练得到，所述训练集包括：至少一组训练信号；所述训练信号包括纯净信号和相应纯净信号基于至少一种噪声频域信号按照设定信噪比加噪的带噪信号。

上述方案中，所述预设的噪声信号为所述深度神经网络训练时采用的噪声频域信号；

所述根据预设的噪声信号对所述第一频域音频信号进行加噪处理，得到第二频域音频信号，包括：

运用所述深度神经网络训练时采用的噪声频域信号，对所述第一频域音频信号进行加噪处理，得到第二频域音频信号。

上述方案中，所述根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率，包括：

确定每个所述时频点的所述第一概率和所述第二概率的差值；

比较所述差值与预设差值阈值，根据比较结果确定所述第三概率。

上述方案中，所述根据每个所述时频点的第三概率确定帧级的语音存在概率，包括：

根据每帧音频信号对应的至少一个时频点中每个所述时频点的第三概率，确定每帧音频信号对应的语音存在概率。

上述方案中，所述运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率，包括：

运用统计信号处理针对所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率。

上述方案中，所述方法还包括：

根据每帧音频信号对应的语音存在概率，确定语音端点检测结果。

本发明实施例提供了一种语音端点检测装置，所述装置包括：获取模块、第一处理模块、第二处理模块、第三处理模块、第四处理模块；其中，

所述获取模块，用于获取第一音频数据；

所述第一处理模块，用于运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率；所述第一概率表征相应时频点目标语音的存在概率；

所述第二处理模块，用于根据预设的噪声信号对所述第一频域音频信号进行加噪处理，得到第二频域音频信号；运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；所述第二概率表征相应时频点目标语音的存在概率；

所述第三处理模块，用于根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率；所述第三概率表征相应时频点最终的目标语音的存在概率；

所述第四处理模块，用于根据每个所述时频点的第三概率确定帧级的语音存在概率。

上述方案中，所述第二处理模块，用于运用预设的判别模型，判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；

所述第二处理模块，用于运用所述深度神经网络训练时采用的噪声频域信号，对所述第一频域音频信号进行加噪处理，得到第二频域音频信号。

上述方案中，所述第三处理模块，用于确定每个所述时频点的所述第一概率和所述第二概率的差值；

上述方案中，所述第四处理模块，用于根据每帧音频信号对应的至少一个时频点中每个所述时频点的第三概率，确定每帧音频信号对应的语音存在概率。

上述方案中，所述第一处理模块，用于运用统计信号处理针对所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率。

上述方案中，所述第四处理模块，还用于根据每帧音频信号对应的语音存在概率，确定语音端点检测结果。

本发明实施例提供了一种语音端点检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上任一项所述语音端点检测方法的步骤。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上任一项所述语音端点检测方法的步骤。

本发明实施例所提供的语音端点检测方法、装置和存储介质，获取第一音频数据；运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率；所述第一概率表征相应时频点目标语音的存在概率；根据预设的噪声信号对所述第一频域音频信号进行加噪处理，得到第二频域音频信号；运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；所述第二概率表征相应时频点目标语音的存在概率；根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率；所述第三概率表征相应时频点最终的目标语音的存在概率；根据每个所述时频点的第三概率确定帧级的语音存在概率。如此，采用两种方式联合进行语音端点检测，提高了语音端点检测在电话信道声学环境下的泛化性和鲁棒性；另外，利用了声学掩蔽原理和电话信道场景下音频信号的声学特点，通过噪声信号对复杂场景下电话信道的音频数据进行预加噪，掩蔽相比主叫语音能量较弱的背景噪声和干扰语音，克服了电信场景的随机性和复杂性引起的语音端点检测困难的问题，提高了深度神经网络在电信场景下的泛化性。

附图说明

图1为本发明实施例提供的一种语音端点检测方法的流程示意图；

图2为本发明应用实施例提供的一种语音端点检测方法的流程示意图；

图3(a)为本发明实施例提供的原始音频信号的波形和语谱的对比示意图；

图3(b)为本发明实施例提供的预加噪后的音频信号的波形和语谱的对比示意图；

图4(a)为本发明实施例提供的原始电话录音的波形和语谱的对比示意图；

图4(b)为本发明实施例提供的基于统计信号处理端点检测的波形和语谱的对比示意图；

图4(c)为本发明实施例提供的基于深度神经网络端点检测的波形和语谱的对比示意图；

图4(d)为本发明实施例提供的运用本发明语音端点检测的波形和语谱的对比示意图；

图5为本发明实施例提供的一种语音端点检测装置的结构示意图；

图6为本发明实施例提供的另一种语音端点检测装置的结构示意图。

具体实施方式

本发明实施例提供的方法，获取第一音频数据；运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率；所述第一概率表征相应时频点目标语音的存在概率；根据预设的噪声信号对所述第一频域音频信号进行加噪处理，得到第二频域音频信号；运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；所述第二概率表征相应时频点目标语音的存在概率；根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率；所述第三概率表征相应时频点最终的目标语音的存在概率；根据每个所述时频点的第三概率确定帧级的语音存在概率。

下面结合实施例对本发明再作进一步详细的说明。

图1为本发明实施例提供的一种语音端点检测方法的流程示意图；如图1所示，所述方法可以是应用于电信场景的语音端点检测方法，所述方法包括：

步骤101、获取第一音频数据；

步骤102、运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率；所述第一概率表征相应时频点目标语音的存在概率；

步骤103、根据预设的噪声信号对所述第一频域音频信号进行加噪处理，得到第二频域音频数据；运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；所述第二概率表征相应时频点目标语音的存在概率；

步骤104、根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率；所述第三概率表征相应时频点最终的目标语音的存在概率；

步骤105、根据每个所述时频点的第三概率确定帧级的语音存在概率。

在一些实施例中，所述方法可以应用于终端，如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、穿戴式设备(比如智能手环、智能手表等)、导航装置等；所述终端具有麦克风或语音采集模块。

所述获取第一音频数据，包括：

终端内置的麦克风或语音采集模块采集第一音频数据。

或者，也可以是通过其他通信模块获取第一音频数据，这里不做限定。

在一些实施例中，所述运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率，包括：

运用统计信号处理所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率。

具体来说，可以运用基于统计信号处理的语音端点检测方法，确定所述第一频域音频信号中每个时频点对应的第一概率。提供一种示例，使用最优修正对数谱幅度估计器，基于原始信号、也即所述第一频域音频信号Y(k,l)，计算第一频域音频信号在每个时频点(k,l)上语音的存在概率P₁(k,l)∈(0,1]，记为第一概率；所述第一概率表征对应时频点(k,l)的目标语音的存在概率。

这里仅仅是提供一种确定第一概率的方式，还可以采用其他方法，如上述采用最小统计量和最小均方误差估计等，从局部的观测值和累积的历史信息分布建立模型，分别对语音和背景噪声信号的分布进行模型假设，然后设计统计算法来动态估计模型参数。这里不做限定。

这里，所述方法还包括：

将第一音频数据从模拟音频信号转换为数字音频信号y(t)，其中，t为信号在时域的时间索引；

对第一音频数据进行分帧处理，将第一音频数据划分为以帧为单位的多个音频帧片段；

对多个音频帧片段进行频域变换；所述频域变换可以采用但不限于利用傅里叶变换，将数字音频信号(即时域信号)y(t)转换为频域音频信号Y(k,l)(即得到所述第一频域音频信号)，其中，k和l分别为信号在频域的频点索引和帧索引。

具体地，所述终端还可以具有处理器；可以通过处理器执行上述步骤。

在一些实施例中，所述运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率，包括：

需要说明的是，这里第二频域音频信号是第一频域音频信号通过预加噪获得；可以理解为第二频域音频信号的目标语音和第一频域音频信号的目标语音相同，如此，再运用第一判别方法和第二判别方法分别判别第一频域音频信号和第二频域音频信号，得到第一频率和第二频率，也就是说，每个时频点分别对应有第一频率和第二频率，在结合第一频率和第二频率的情况下得到每个时频点对应的第三频率。这样可以同时利用第一判别方法和第二判别方法的优势，最终提高语音端点检测的效率、准确性等。

具体地，所述方法还包括：生成所述预设的判别模型；具体包括：

运用训练集对深度神经网络训进行训练，得到训练后的深度神经网络模型，作为所述预设的判别模型；

其中，所述训练集包括：至少一组训练信号；所述训练信号包括纯净信号和相应纯净信号基于至少一种噪声频域信号按照设定信噪比加噪的带噪信号；每组训练信号还对应有标签(基于每组训练信号中的纯净信号确定标签)；所述标签用于标记所述带噪信号的频域音频信号的各时频点的目标语音的存在概率。

这里，所述步骤103中，所述预设的噪声信号为所述深度神经网络训练时采用的噪声频域信号；

本发明实施例中，应用于电信场景，通过分析电话信道的声学环境，可以发现主叫用户由于离手机麦克风最近，因而主叫语音能量远高于背景噪声及干扰语音。基于声学掩蔽原理即当多种声音同时存在时，在频域中的每个时频点(k,l)只存在一种声音。因此，本发明实施例中采用已训练(或者说用于深度神经网络训练)的噪声频域信号对第一频域音频信号进行预加噪，掩蔽相比主叫语音能量较弱的背景噪声和干扰语音，得到预加噪的频域音频信号(即所述第二频域音频信号)Y_N(k,l)表示为：Y_N(k,l)＝Y(k,l)+ηN(k,l)；其中，η和N(k,l)分别表示比例因子和噪声频域信号。

如图3(a)所示，原始音频信号中非语音区包含不同的背景噪声及人声干扰，同时主叫语音能量远高于背景噪音；预加噪完成后，背景噪音变为状态相对稳定的平稳噪声，如图3(b)所示。

由于采用了深度神经网络已训练学习过的噪声(即上述预设的噪声信号)进行加噪掩蔽，因此深度神经网络能有效区分主叫语音和电话信道声学环境中不同类型甚至未训练学习到的背景噪声和干扰语音，克服了深度神经网络无法有效区分目标语音和干扰语音的问题，提高了深度神经网络端点检测的泛化性能。

但是，考虑到深度神经网络模型的泛化性能在平稳噪声环境下仍然差于统计信号处理，单独使用时缺乏足够的鲁棒性。因此，本发明实施例中利用基于统计信号处理和基于深度神经网络的语音存在概率计算方法的优势，采用上述第一判别方法(即步骤102中运用统计信号处理的方法)和第二判别方法(即步骤103中运用预设的判别模型的方法)联合判断音频帧是否为语音帧，提高电信场景的语音端点检测装置的鲁棒性和泛化性。

在一些实施例中，所述根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率，包括：

在一些实施例中，所述根据每个所述时频点的第三概率确定帧级的语音存在概率，包括：

具体来说，根据第一概率P₁(k,l)和第二概率P₂(k,l)，联合确定音频帧是否为语音帧。具体采用如下方法：

比较所述差值与预设差值阈值，根据比较结果确定所述第三概率；

其中，P(k,l)为最终的目标语音的存在概率、即第三概率，β∈(0,1)为预设差值阈值，由开发人员基于经验或其他方式试验后设定，可以预先保存在终端内。

当第一概率P₁(k,l)与第二概率P₂(k,l)差值大于阈值β时，非平稳噪声和干扰语音存在的概率较高，此时，采用第二概率P₂(k,l)为最终的语音存在概率能充分利用深度神经网络对非平稳噪声和干扰语音的检测优势；

反之，当第一概率P₁(k,l)与第二概率P₂(k,l)差值小于阈值β时，采用第一概率P₁(k,l)为最终的语音存在概率能充分利用统计信号处理泛化性能好的优势。

然后，基于频点级的语音存在概率P(k,l)计算帧级的语音存在概率R_x(l)：

其中，

其中，α∈(0,1)表示平滑因子，N为每一帧音频信号的频点数量，k和l分别为信号在频域的频点索引和帧索引，S_x(l)表示经过目标语音存在概率P(k,l)增强后的目标语音信号功率谱，S_y(l)表示带噪信号功率谱；

为了减少R_x(l)估计过程中由于数值突变引起的波动，R_x(l)基于迭代平均的方式更新为

最终，基于帧级语音存在概率

得到每一帧语音的端点检测结果：

其中，μ∈(0,1)为阈值，由开发人员基于经验或其他方式试验后设定，可以预先保存在终端内；当

大于阈值μ时，则判定该音频帧为语音帧。

在一些实施例中，所述方法还包括：

即当某帧音频信号对应的语音存在概率大于μ时，则认为该音频帧为语音帧，即该音频信号存在语音，以此实现语音端点检测。

本发明实施例提供的方法应用于电话信道场景，具有显著的声学特点：首先，主叫用户由于距离麦克风最近，语音信号能量远大于背景噪声信号能量。其次，电话信道场景由于其随机性和复杂性，背景噪声通常包含了空调等平稳噪声、敲击键盘等非平稳噪声和主叫用户周围人的说话声等人声干扰。

运用统计信号处理基于噪声平稳的假设，从局部的观测值和累积的历史信息分布建立模型，能够准确判断出平稳噪声声学环境下的语音存在概率，具有良好的鲁棒性和泛化性，但在非平稳噪声环境下会误将非平稳噪声误判为语音。深度神经网络通过学习大量带标签的带噪语音样本，不依赖语音和噪声的分布假设，直接基于训练模型估计语音存在概率，即使在非平稳噪声环境下也能准确估计。但是电话信道场景中频繁出现和主叫语音类似的干扰语音，简单的神经网络模型会将干扰语音误判为主叫语音。因此，单一的方法无法完全适合电话信道场景；而采用本发明实施例提供的方法，首先利用声学掩蔽特性和电话信道音频信号主叫语音信号能量大于背景噪声信号能量的特点，用已参与训练的噪声掩蔽不同类型的背景噪音和人声干扰，并基于统计信号处理和深度神经网络分别计算的语音时频点存在第一概率和第二概率，联合确定音频帧是否为语音帧，提高了语音端点检测装置在电话信道声学环境下的泛化性和鲁棒性。

图2为本发明应用实施例提供的一种语音端点检测方法的流程示意图；如图2所示，所述方法包括：

步骤201、通过麦克风采集音频数据；

所述方法可以应用于终端，如：手机、移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、穿戴式设备(比如智能手环、智能手表等)、导航装置等；所述终端具有麦克风或语音采集模块；这里，通过麦克风可以采集音频数据。

步骤202、将采集的音频数据进行变换得到频域音频信号；

这里，对音频数据进行分帧处理，将音频数据划分为以帧为单位的多个音频帧片段；可以采用但不限于利用傅里叶变换将时域信号y(t)转换为频域音频信号Y(k,l)，其中，k和l分别为信号在频域的频点索引和帧索引。

步骤203、通过基于平稳噪声假设的统计信号处理，确定目标语音存在的第一概率；

具体地，可以但不限于使用最优修正对数谱幅度估计器，基于原始信号、即步骤202得到的频域音频信号Y(k,l)，计算该频域音频信号在每个时频点(k,l)上语音的存在概率P₁(k,l)∈(0,1]，记为第一语音存在概率(相当于上述每个时频点的第一概率)。

步骤204、通过对频域音频信号预加已训练的噪声频域信号，掩蔽相比主叫语音能量较弱的背景噪声及人声干扰；

具体地，通过分析电话信道的声学环境，发现主叫用户由于离手机麦克风最近，因而主叫语音能量远高于背景噪声及干扰语音。基于声学掩蔽原理即当多种声音同时存在时，在频域中的每个时频点(k,l)只存在一种声音。

步骤204中，使用已训练的噪声频域信号对步骤202中的频域音频信号进行预加噪，掩蔽相比主叫语音能量较弱的背景噪声和干扰语音，得到加噪后的频域音频信号Y_N(k,l)表示为Y_N(k,l)＝Y(k,l)+ηN(k,l)；

其中，η和N(k,l)分别表示比例因子和噪声频域信号。

步骤205、运用训练的判别模型对加噪后的频域音频信号判别，确定目标语音存在的第二概率；

这里，针对加噪后的频域音频信号Y_N(k,l)，可以但不限于使用训练的判别模型，判断加噪后的频域音频信号在每个时频点(k,l)上语音的存在概率P₂(k,l)∈(0,1，]记为第二语音存在概率(相当于上述已加噪的频域音频信号的每个时频点的第二概率，同时也是未加噪的频域音频信号在每个时频点上的目标语音存在概率；也即每个时频点对应有第一语音存在概率、第二语音存在概率)。

关于判别模型的训练和预加噪使用的噪声频域信号的说明已在图1所示方法中说明，这里不再赘述。

本发明实施例提供的方法，通过步骤204和步骤205，利用了声学掩蔽原理，基于电话信道主叫语音能量大于背景噪声及干扰语音的特点，用已训练噪声掩蔽不同类型的背景噪音，相比已知端点检测技术更能在准确检测出语音区的同时，有效检测出非语音区。更加适合电话信道场景，解决了在嘈杂的室内、车水马龙的路边等复杂恶劣的电话信道场景下无法有效进行端点检测的问题。

步骤206、根据第一概率和第二概率，联合确定音频帧是否为语音帧。

其中，P(k,l)为最终的语音存在概率，β∈(0,1)为预设差值阈值，由开发人员基于经验或其他方式试验后设定，可以预先保存在终端内。

其中，

其中，α∈(0,1)表示平滑因子，N为每一帧音频信号的频点数量，k和l分别为信号在频域的频点索引和帧索引，S_x(l)表示经过目标语音存在概率P(k,l)增强后的目标语音信号功率谱，S_y(l)表示带噪信号的功率谱。

最终，基于帧级语音存在概率

得到每一帧语音的端点检测结果：

大于阈值μ时，则判定该音频帧为语音帧。

本发明实施例提供的方法，充分利用统计信号处理和深度神经网络的优势，提出的联合进行端点检测的方法，缓解了深度神经网络由于训练样本和实际样本不匹配导致的泛化性能差的问题，拓宽了电话信道相关语音装置在安静场景以外复杂声学环境下的适用性。

本发明实施例提供的方法，适用于电信场景，例如，应用于语音小助理，在人机对话时需要进行语音端点检测，运用上述方法可以准确判断出语音结束时间。

为了更加直观地感受本发明实施例提供的方法相对其他已知端点检测方法在电话信道声学环境下的优势，通过将语音端点检测结果(0/1)与原始音频信号相乘，观察波形图和语谱图的差异，印证优势，如图4所示。

其中，图4(a)中框体内表示正确的语音区，其他为非语音区；

图4(b)-图4(d)中框体内表示端点检测装置检测的语音区，其他为非语音区。

从图4(a)可以发现，原始信号的非语音区包含背景噪声及人声干扰，同时主叫语音能量远高于背景噪音。

图4(b)基于统计信号处理的端点检测虽然能有效检测出语音区，但仅能有效处理属于平稳噪声的非语音区。

图4(c)基于深度神经网络的端点检测虽然相比统计信号处理能处理更多的非平稳噪声，但对于和主叫语音类似的干扰语音则无法有效检测。此外，由于泛化性能不足，语音区的周围某些部分被误判为非语音区。

然而，图4(d)中，采用本发明实施例提供的语音端点检测方法在有效检测出主叫语音的同时，精准检测出非语音区，完全适用于电话信道场景复杂的声学环境。

图5为本发明实施例提供的一种语音端点检测装置的结构示意图；如图5所示，所述装置包括：获取模块、第一处理模块、第二处理模块、第三处理模块、第四处理模块；其中，

所述获取模块，用于获取第一音频数据；

具体地，所述第二处理模块，用于运用预设的判别模型，判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；

具体地，所述预设的噪声信号为所述深度神经网络训练时采用的噪声频域信号；

具体地，所述第三处理模块，用于确定每个所述时频点的所述第一概率和所述第二概率的差值；

具体地，所述第四处理模块，用于根据每帧音频信号对应的至少一个时频点中每个所述时频点的第三概率，确定每帧音频信号对应的语音存在概率。

具体地，所述第一处理模块，用于运用统计信号处理针对所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率。

具体地，所述第四处理模块，还用于根据每帧音频信号对应的语音存在概率，确定语音端点检测结果。

需要说明的是：上述实施例提供的语音端点检测装置在实现相应语音端点检测方法时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与相应方法的实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6为本发明实施例提供的另一种语音端点检测装置的结构示意图，如图6所示，所述装置60包括：处理器601和用于存储能够在所述处理器上运行的计算机程序的存储器602；所述处理器601用于运行所述计算机程序时，执行：获取第一音频数据；运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率；所述第一概率表征相应时频点目标语音的存在概率；根据预设的噪声信号对所述第一频域音频信号进行加噪处理，得到第二频域音频信号；运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；所述第二概率表征相应时频点目标语音的存在概率；根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率；所述第三概率表征相应时频点最终的目标语音的存在概率；根据每个所述时频点的第三概率确定帧级的语音存在概率。

具体来说，所述处理器601用于运行所述计算机程序时，还可以执行如图1所示的方法，与图1所示的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

实际应用时，所述装置60还可以包括：至少一个网络接口603。所述装置60中的各个组件通过总线系统604耦合在一起。可理解，总线系统604用于实现这些组件之间的连接通信。总线系统604除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统604。其中，所述处理器601的个数可以为至少一个。网络接口603用于装置60与其他设备之间有线或无线方式的通信。

本发明实施例中的存储器602用于存储各种类型的数据以支持装置60的操作。

上述本发明实施例揭示的方法可以应用于处理器601中，或者由处理器601实现。处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(DSP，DiGital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器601可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，装置60可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序；所述计算机程序被处理器运行时，执行：获取第一音频数据；运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率；所述第一概率表征相应时频点目标语音的存在概率；根据预设的噪声信号对所述第一频域音频信号进行加噪处理，得到第二频域音频信号；运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；所述第二概率表征相应时频点目标语音的存在概率；根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率；所述第三概率表征相应时频点最终的目标语音的存在概率；根据每个所述时频点的第三概率确定帧级的语音存在概率。

具体来说，所述计算机程序被处理器运行时还可以执行如图1所示的方法，与图1所示的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音端点检测方法，其特征在于，所述方法包括：

获取第一音频数据；

根据每个所述时频点的第三概率确定帧级的语音存在概率。

2.根据权利要求1所述的方法，其特征在于，所述运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设的噪声信号为所述深度神经网络训练时采用的噪声频域信号；

4.根据权利要求1所述的方法，其特征在于，所述根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据每个所述时频点的第三概率确定帧级的语音存在概率，包括：

6.根据权利要求1所述的方法，其特征在于，所述运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种语音端点检测装置，其特征在于，所述装置包括：获取模块、第一处理模块、第二处理模块、第三处理模块、第四处理模块；其中，

所述获取模块，用于获取第一音频数据；

9.一种语音端点检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。