CN110648687A

CN110648687A - 一种活动语音检测方法及系统

Info

Publication number: CN110648687A
Application number: CN201910916351.XA
Authority: CN
Inventors: 卢传泽
Original assignee: Guangzhou Threesome Yibai Educational Technology Co Ltd
Current assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-03
Anticipated expiration: 2039-09-26
Also published as: CN110648687B

Abstract

本发明提供一种活动语音检测方法及系统，该方法为：获取待处理音频数据流，确定每帧待处理音频信号的自相关性特征和功率谱；确定每帧待处理音频信号的后验信噪比和估计先验信噪比；确定每帧待处理音频信号的MMSE增益并进行滤波得到增强信号；比较每帧待处理音频信号与自身对应的增强信号，得到每帧待处理音频信号的判决结果；逐一将每一判决结果缓存至延迟窗口中，基于判决条件、延迟窗口的状态和每个判决结果，输出待处理音频数据流中的活动语音帧。本方案中，根据背景噪声、音频信号的自相关性特征和功率谱，确定每帧音频信号的判决结果。并利用延迟窗口对每个判决结果进行处理，输出音频数据流中的活动语音帧，提高判决活动语音帧的准确性。

Description

一种活动语音检测方法及系统

技术领域

本发明涉及语音数据处理技术领域，具体涉及一种活动语音检测方法及系统。

背景技术

随着科学技术的不断发展，语音识别技术逐渐应用于各个领域中。在对采集得到的待识别音频进行语音识别时，通常需要对待识别音频进行裁剪，将裁剪后得到的活动语音帧作为语音识别的输入。

目的对于待识别音频的裁剪方式为：利用语音活动检测(Voice ActivityDetection，VAD)技术，通过固定的判决逻辑和判决参数阈值提取待识别音频中的活动语音帧。但是不同环境背景下采集得到的待识别音频中的噪声类型不同，采取固定的判决逻辑和判决参数阈值会将噪声误判为活动语音帧，判决活动语音帧的准确性低。

发明内容

有鉴于此，本发明实施例提供一种活动语音检测方法及系统，以解决现有判决活动语音帧方式存在的判决准确性低的问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种活动语音检测方法，所述方法包括：

实时获取待处理音频数据流，所述待处理音频数据流由多帧待处理音频信号构成；

确定每一帧所述待处理音频信号的自相关性特征和功率谱；

基于每一帧所述待处理音频信号的自相关性特征和功率谱，确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比；

基于每一帧所述待处理音频信号的后验信噪比和估计先验信噪比，确定每一帧所述待处理音频信号的最小均方误差MMSE增益，并对每一帧所述待处理音频信号进行滤波得到增强信号；

比较每一帧所述待处理音频信号与自身对应的所述增强信号，得到每一帧所述待处理音频信号的判决结果，所述判决结果用于指示所述待处理音频信号是否为活动语音帧；

逐一将每一帧所述待处理音频信号的判决结果缓存至延迟窗口中，基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果，输出所述待处理音频数据流中的活动语音帧，所述延迟窗口的状态为非语音状态、语音进行状态或语音过渡状态。

优选的，所述基于每一帧所述待处理音频信号的自相关性特征和功率谱，确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比，包括：

基于跟踪局部最小能量算法，估计所述待处理音频数据流的背景噪声；

利用所述背景噪声和每一帧所述待处理音频信号的功率谱，确定每一帧所述待处理音频信号的后验信噪比；

基于每一帧所述待处理音频信号的后验信噪比和前一帧增益后的信噪比通过直接判决算法，确定每一帧所述待处理音频信号的估计先验信噪比。

优选的，所述逐一将所述待处理音频信号缓存至延迟窗口中，基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果，输出所述待处理音频数据流中的活动语音帧，包括：

将当前待处理音频信号缓存至延迟窗口中；

根据所述延迟窗口中缓存的多帧所述待处理音频信号，确定所述延迟窗口的状态；

当所述延迟窗口的状态为非语音状态并且缓存的所述待处理音频信号的帧数为第一阈值，基于每一帧所述待处理音频信号的判决结果，判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的占比是否大于等于预设百分比；

若所述占比大于等于预设百分比，将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出，返回执行缓存这一步骤；

若所述占比小于所述预设百分比，将所述延迟窗口中的第一帧所述待处理音频信号作为非活动语音帧输出，返回执行缓存这一步骤；

当所述延迟窗口的状态为语音进行状态，基于每一帧所述待处理音频信号的判决结果，判断所述当前待处理音频信号是否为活动语音帧；

若所述当前待处理音频信号为活动语音帧，输出所述当前待处理音频信号，并进行连续静音计数，返回执行缓存这一步骤；

若所述当前待处理音频信号为非活动语音帧，静音计数加1，判断所述静音计数是否小于第二阈值；

若所述静音计数小于所述第二阈值，将所述当前待处理音频信号作为活动语音帧输出，返回执行缓存这一步骤；

若所述静音计数大于等于所述第二阈值，将所述延迟窗口的状态设置为语音过渡状态，返回执行缓存这一步骤；

当所述延迟窗口的状态为语音过渡状态时，确定所述延迟窗口中缓存的所述待处理音频信号的帧数是否等于第三阈值；

若所述延迟窗口中缓存的所述待处理音频信号的帧数等于第三阈值，基于每一帧所述待处理音频信号的判决结果，判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量是否大于第四阈值；

若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量大于第四阈值，将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出，返回执行缓存这一步骤；

若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量小于等于第四阈值，将所述延迟窗口的状态设置为非语音状态，返回执行缓存这一步骤。

优选的，所述比较每一帧所述待处理音频信号与自身对应的所述增强信号，得到每一帧所述待处理音频信号的判决结果，包括：

基于所述背景噪声、每一帧所述待处理音频信号与自身对应的所述增强信号，确定每一帧所述待处理音频信号为活动语音帧的概率；

针对每一帧所述待处理音频信号，若所述概率大于阈值，确定所述待处理音频信号为活动语音帧。

本发明实施例第二方面公开一种活动语音检测系统，所述系统包括：

获取单元，用于实时获取待处理音频数据流，所述待处理音频数据流由多帧待处理音频信号构成；

第一确定单元，用于确定每一帧所述待处理音频信号的自相关性特征和功率谱；

第二确定单元，用于基于每一帧所述待处理音频信号的自相关性特征和功率谱，确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比；

第三确定单元，用于基于每一帧所述待处理音频信号的后验信噪比和估计先验信噪比，确定每一帧所述待处理音频信号的最小均方误差MMSE增益，并对每一帧所述待处理音频信号进行滤波得到增强信号；

比较单元，用于比较每一帧所述待处理音频信号与自身对应的所述增强信号，得到每一帧所述待处理音频信号的判决结果，所述判决结果用于指示所述待处理音频信号是否为活动语音帧；

处理单元，用于逐一将每一帧所述待处理音频信号的判决结果缓存至延迟窗口中，基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果，输出所述待处理音频数据流中的活动语音帧，所述延迟窗口的状态为非语音状态、语音进行状态或语音过渡状态。

优选的，所述第二确定单元包括：

估计模块，用于基于跟踪局部最小能量算法，估计所述待处理音频数据流的背景噪声；

第一确定模块，用于利用所述背景噪声和每一帧所述待处理音频信号的功率谱，确定每一帧所述待处理音频信号的后验信噪比；

第二确定模块，用于基于每一帧所述待处理音频信号的后验信噪比和前一帧增益后的信噪比通过直接判决算法，确定每一帧所述待处理音频信号的估计先验信噪比。

优选的，所述处理单元包括：

缓存模块，用于将当前待处理音频信号缓存至延迟窗口中；

状态确定模块，用于根据所述延迟窗口中缓存的多帧所述待处理音频信号，确定所述延迟窗口的状态；

第一判断模块，用于当所述延迟窗口的状态为非语音状态并且缓存的所述待处理音频信号的帧数为第一阈值，基于每一帧所述待处理音频信号的判决结果，判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的占比是否大于等于预设百分比，若所述占比大于等于所述预设百分比，执行第一输出模块，若所述占比小于所述预设百分比，执行第二输出模块；

所述第一输出模块，用于将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出，返回执行所述缓存模块；

所述第二输出模块，用于将所述延迟窗口中的第一帧所述待处理音频信号作为非活动语音帧输出，返回执行所述缓存模块；

第二判断模块，用于当所述延迟窗口的状态为语音进行状态，基于每一帧所述待处理音频信号的判决结果，判断所述当前待处理音频信号是否为活动语音帧，若所述当前待处理音频信号为活动语音帧，执行第三输出模块，若所述当前待处理音频信号为非活动语音帧，执行第三判断模块；

所述第三输出模块，用于输出所述当前待处理音频信号，并进行连续静音计数，返回执行所述缓存模块；

所述第三判断模块，用于静音计数加1，判断所述静音计数是否小于第二阈值，若所述静音计数小于所述第二阈值，执行第四输出模块，若所述静音计数大于等于所述第二阈值，执行第一设置模块；

所述第四输出模块，用于将所述当前待处理音频信号作为活动语音帧输出，返回执行所述缓存模块；

所述第一设置模块，用于将所述延迟窗口的状态设置为语音过渡状态，返回执行所述缓存模块；

第四判断模块，用于当所述延迟窗口的状态为语音过渡状态时，确定所述延迟窗口中缓存的所述待处理音频信号的帧数是否等于第三阈值，若所述延迟窗口中缓存的所述待处理音频信号的帧数等于第三阈值，执行第五判断模块；

所述第五判断模块，用于基于每一帧所述待处理音频信号的判决结果，判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量是否大于第四阈值，若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量大于第四阈值，执行第五输出模块，若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量小于第四阈值，执行第二设置模块；

所述第五输出模块，用于将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出，返回执行所述缓存模块；

所述第二设置模块，用于将所述延迟窗口的状态设置为非语音状态，返回执行所述缓存模块。

优选的，所述比较单元包括：

第一确定模块，用于基于所述背景噪声、每一帧所述待处理音频信号与自身对应的所述增强信号，确定每一帧所述待处理音频信号为活动语音帧的概率；

第二确定模块，用于针对每一帧所述待处理音频信号，若所述概率大于阈值，确定所述待处理音频信号为活动语音帧。

本发明实施例第三方面公开一种电子设备，所述电子设备用于运行程序，其中，所述程序运行时执行如本发明实施例第一方面公开的活动语音检测方法。

本发明实施例第四方面公开一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如本发明实施例第一方面公开的活动语音检测方法。

基于上述本发明实施例提供的一种活动语音检测方法及系统，该方法为：实时获取待处理音频数据流；确定每帧待处理音频信号的自相关性特征和功率谱；基于每帧待处理音频信号的自相关性特征和功率谱，确定每帧待处理音频信号的后验信噪比和估计先验信噪比；基于每帧待处理音频信号的后验信噪比和估计先验信噪比，确定每帧待处理音频信号的最小均方差误差(minimum-mean square error，MMSE)增益，并对每帧待处理音频信号进行滤波得到增强信号；比较每帧待处理音频信号与自身对应的增强信号，得到每帧待处理音频信号的判决结果；逐一将每帧待处理音频信号的判决结果缓存至延迟窗口中，基于预设判决条件、延迟窗口的状态和每帧待处理音频信号的判决结果，输出待处理音频数据流中的活动语音帧。本方案中，根据背景噪声、待处理音频信号的自相关性特征和功率谱，确定每帧待处理音频信号的估计先验信噪比和后验信噪比，以及计算每帧待处理音频信号的MMSE增益。根据MMSE增益对每帧待处理音频信号进行滤波处理得到增强信号，通过比较每帧待处理音频信号与增强信号的大小得到判决结果。并利用延迟窗口对每个判决结果进行处理，输出音频数据流中的活动语音帧，提高判决活动语音帧的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种活动语音检测方法的流程图；

图2为本发明实施例提供的获取估计先验信噪比和后验信噪比的流程图；

图3为本发明实施例提供的获取活动语音帧的流程图；

图4为本发明实施例提供的活动语音检测方法的流程示意图；

图5为本发明实施例提供的一种活动语音检测系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，现有VAD技术都是通过固定的判决逻辑和判决参数阈值提取待识别音频中的活动语音帧。但是不同环境背景下采集得到的待识别音频中的噪声类型不同，采取固定的判决逻辑和判决参数阈值会将噪声误判为活动语音帧，判决活动语音帧的准确性低。

因此本发明实施例提供一种活动语音检测方法及系统，根据背景噪声、音频信号的自相关性特征和功率谱，确定每帧音频信号的判决结果。并利用延迟窗口对每个判决结果进行处理，输出音频数据流中的活动语音帧，以提高判决活动语音帧的准确性。

参见图1，示出了本发明实施例提供的一种活动语音检测方法的流程图，所述活动语音检测方法包括以下步骤：

步骤S101：实时获取待处理音频数据流。

在具体实现步骤S101的过程中，通过电子设备对应的语音采集设备获取待处理音频数据流，例如通过手机的麦克风手机所述待处理音频数据流。

需要说明的是，所述待处理音频数据流由多帧待处理音频信号构成。

步骤S102：确定每一帧所述待处理音频信号的自相关性特征和功率谱。

在具体实现步骤S102的过程中，对每一帧所述待处理音频信号进行时域处理，分析每一帧所述待处理音频信号的自相关性，得到每一帧所述待处理信号的自相关性特征。

对每一帧所述待处理音频信号进行频域处理，例如对每一帧所述待处理音频信号进行离散傅里叶变换(DiscreteFourierTransform，DFT)，得到每一帧所述待处理信号的功率谱。

需要说明的是，在对一帧所述待处理音频信号进行DFT前，需要对该待处理音频信号进行缓冲扩展，将该待处理音频信号扩展上一帧待处理音频信号的部分数据，使该待处理音频信号满足进行DFT所需要的数据长度。例如：对帧大小为10毫秒的待处理音频信号进行DFT，对该待处理音频信号扩展上一帧数据的部分数据，并进行加窗做DFT得到该待处理音频信号的功率谱。

进一步需要说明的是，在对每一帧所述待处理音频信号进行DFT时，仅需要考虑频率响应的量级|Y_k(m)|。其中频率响应的量级|Y_k(m)|的具体内容如公式(1)，在所述公式(1)中，k为第k个频点，m为第m帧，N为预设值，N表示N点离散傅里叶变换。

步骤S103：基于每一帧所述待处理音频信号的自相关性特征和功率谱，确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比。

在具体实现步骤S103的过程中，获取所述待处理音频数据流的背景噪声。基于所述背景噪声和每一帧所述待处理音频信号的功率谱，确定所述待处理音频信号的后验信噪比，利用所述待处理音频信号的后验信噪比和前一帧的增益后的信噪比来确定当前帧的估计先验信噪比。

步骤S104：基于每一帧所述待处理音频信号的后验信噪比和估计先验信噪比，确定每一帧所述待处理音频信号的MMSE增益，并对每一帧所述待处理音频信号进行滤波得到增强信号。

在具体实现步骤S104的过程中，利用每一帧所述待处理音频信号的后验信噪比和估计先验信噪比，计算每一帧所述待处理音频信号的MMSE增益。基于所述MMSE增益，利用SATA-MMSE算法对所述待处理音频信号进行滤波得到增强信号。

步骤S105：比较每一帧所述待处理音频信号与自身对应的所述增强信号，得到每一帧所述待处理音频信号的判决结果。

需要说明的是，所述判决结果用于指示所述待处理音频信号是否为活动语音帧。

进一步需要说明的是，在对所述待处理音频信号进行滤波处理时，需使用MMSE滤波器。而所述MMSE滤波器在对信号进行滤波时，将噪声信号的能量抑制在较低的范围，对带噪语音信号的能量抑制影响较小。

即若所述待处理音频信号为噪声信号，则所述待处理音频信号的增强信号与所述待处理音频信号的比值为一个较小值。

若所述待处理音频信号为活动语音帧，则所述待处理音频信号的增强信号与所述待处理音频信号的比值为一个较大值。

因此，在具体实现步骤S105的过程中，基于所述背景噪声、每一帧所述待处理音频信号与自身对应的所述增强信号，确定每一帧所述待处理音频信号为活动语音帧的概率。例如：增强信号与待处理音频信号的比值越接近1，则该待处理音频信号为活动语音帧的概率就越大。针对每一帧所述待处理音频信号，若所述概率大于阈值，确定所述待处理音频信号为活动语音帧。

为更好解释说明如何判断所述待处理音频信号是否为活动语音帧，通过以下内容进行详细说明。

结合上述公式(1)的内容，通过公式(2)计算所述待处理音频信号的均方根值(rootmean square，RMS)。假设所述增强信号的RMS为gainRms，所述背景噪声的RMS为noiseRms。

所述待处理音频信号为活动语音帧的概率speechPro如公式(3)。

需要说明的是，背景噪声会实时发生变化，为避免由于非平稳背景噪声会致使speechPro偏大，需要为所述公式(3)增加判决准则。所述判决准则如公式(4)，在所述公式(4)中，α、β、ρ、δ和θ为预设经验值，gainSmoothRms为gainRms的帧间平滑。

结合上述公式(4)示出的判决准则，所述待处理音频信号为活动语音帧的概率speechPro调整为公式(5)。

对于每帧所述待处理音频信号，若该待处理音频信号对应的speechPro(m)大于阈值，例如speechPro(m)大于0.72，确定该待处理音频信号为活动语音帧，将该待处理音频信号的状态speechActive(m)设置为1。若该待处理音频信号不是活动语音帧，将该待处理音频信号的状态speechActive(m)设置为0。逐一将每帧所述待处理音频信号的speechActive(m)和powerRms(m)缓存至延迟窗口中。

步骤S106：逐一将每一帧所述待处理音频信号的判决结果缓存至延迟窗口中，基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果，输出所述待处理音频数据流中的活动语音帧。

需要说明的是，在确定每一帧所述待处理音频信号的判决结果后，若单独根据一帧待处理音频信号的判决结果来确定该待处理音频信号是否为活动语音帧的可靠性较低。因此需要逐一将每一帧所述待处理音频信号的判决结果缓存至延迟窗口中，利用所述延迟窗口同时对预设帧数的所述待处理音频信号进行判决，提高判决每一帧所述待处理音频信号是否为活动语音帧的可靠性。

在具体实现步骤S106的过程中，所述延迟窗口的状态为非语音状态、语音进行状态或语音过渡状态。

需要说明的是，用户在说话时，在说话期间通常会出现短暂的停留，例如：用户在说“how are you”的时候，单词发声之间会出现几百毫秒的停顿静音，前述涉及的停顿静音期间也称为发音过渡间隙。

语音进行状态指：当前帧待处理音频信号为活动语音帧。语音过渡状态指：当前帧待处理音频信号为非活动语音帧，但是所述延迟窗口的状态为语音进行状态，且连续为非活动语音帧的待处理音频信号的帧数不超过预设值。

进一步需要说明的是，为满足语音识别系统对输入语音段的需求，需要在输入所述语音识别系统的语音段前添加预设时长的静音段。在所述延迟窗口中设置两段缓存，一段缓存SILENCE_KEEP用于存储静音帧，一段缓存WIN_STAT用于缓存所述待处理音频信号。根据所述缓存WIN_STAT中缓存的所述待处理音频信号对应的判决结果，可确定所述延迟窗口的状态。

在本发明实施例中，根据背景噪声、待处理音频信号的自相关性特征和功率谱，确定每帧待处理音频信号的估计先验信噪比和后验信噪比，以及计算每帧待处理音频信号的MMSE增益。根据MMSE增益对每帧待处理音频信号进行滤波处理得到增强信号，通过比较每帧待处理音频信号与增强信号的大小得到判决结果。并利用延迟窗口对每个判决结果进行处理，输出音频数据流中的活动语音帧，提高判决活动语音帧的准确性。

上述本发明实施例图1步骤S103中涉及的确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比的过程，参见图2，示出了本发明实施例提供的获取估计先验信噪比和后验信噪比的流程图，包括以下步骤：

步骤S201：基于跟踪局部最小能量算法，估计所述待处理音频数据流的背景噪声。

在具体实现步骤S201的过程中，基于每一帧所述待处理音频信号的功率谱，对每一帧所述待处理音频信号的功率进行平滑处理，得到多个平滑值。以保证用户说话期间存在间歇期为前提，预先设置多个时间范围(range)，每一个range中存在多帧所述待处理音频信号。在每一个range内跟踪该range内的最小平滑值，将最小平滑值作为为背景噪声。

需要说明的是，每个range的大小可以不同，例如：range可设置为数百毫秒，也可将range设置为2秒。

进一步需要说明的是，所述最小平滑值为上一个range到本次range中的最小平滑值。即为避免每次在一个range中将第一帧待处理音频信号对应的平滑值更新为最小平滑值，在每一个range开始时比较上一个range中最小平滑值和本次range中的第一个平滑值，从而更新本次range的最小平滑值。

为更好解释说明如何利用跟踪局部最小能量算法确定最小平滑值powerMin_k，通过以下内容进行举例说明。假设每个range中包含N帧所述待处理音频信号，n表示跟踪第n帧所述待处理音频信号对应的平滑值。

当n>1时，所述powerMin_k的跟踪过程如公式(6)和公式(7)。

当n＝1时，所述powerMin_k的跟踪过程如公式(8)和公式(9)。

powerLastMin_k＝powerSmoothed_k (9)

在上述公式(6)至公式(9)中，当n>1时，powerLastMin_k用于更新记录当前range中的最小平滑值，当n＝1时，powerLastMin_k为上一个range对应的最小平滑值。为子带功率的平滑值，具体计算方式如公式(10)。

powerSmoothed_k＝0.8*powerSmoothed_k+0.05*power_k-1+0.1*power_k+0.05*power_k+1 (10)

需要说明的是，通过比较跟踪得到的最小平滑值与当前帧所述待处理音频信号的大小，作为是否需要更新所述背景噪声noise_k的第一特征。所述第一特征如公式(11)。

进一步的，由于人类发音具有pitch特征，即语音的信号波形具有周期性，而噪声信号不具有周期性，通过每一帧所述待处理音频信号的自相关性特征可以确定该待处理音频信号是否具有pitch特征。通过以上内容，设置第二特征用于指示是否需要更新所述背景噪声noise_k。所述第二特征如公式(12)。在所述公式(12)中，所述第二特征取值为1的条件为：当前所述待处理音频信号无周期特征并且之前连续多帧待处理音频信号没有或零星几帧具有周期特征。反之，所述第二特征取值为0。

结合上述公式(11)和公式(12)，当updateNoise2_k＝1时，所述背景噪声noise_k的更新过程如公式(13)。

当updateNoise2_k＝0且updateNoise1_k＝1时，所述背景噪声noise_k的更新过程如公式(14)。

当所述第一特征和第二特征不满足以上情况且noise_k＞power_k时，所述背景噪声noise_k的更新过程如公式(15)。

noise_k＝0.95*noise_k+0.05*power_k (15)

通过以上公式(11)至公式(15)对所述背景噪声进行更新，能有效提升背景噪声的估计准确度。

步骤S202：利用所述背景噪声和每一帧所述待处理音频信号的功率谱，确定每一帧所述待处理音频信号的后验信噪比。

在具体实现步骤S202的过程中，利用所述背景噪声和每一帧所述待处理音频信号的功率谱对应的每一个频点，计算每一帧所述待处理音频信号的后验信噪比。

步骤S203：基于每一帧所述待处理音频信号的后验信噪比和前一帧增益后的信噪比通过直接判决算法，确定每一帧所述待处理音频信号的估计先验信噪比。

在具体实现步骤S203的过程中，利用当前帧待处理音频信号的后验信噪比postSNR_k和上一帧进行MMSE滤波后的待处理音频信号对应的估计先验信噪比oldPriorSNR_k，通过直接判决法计算当前帧待处理音频信号的估计先验信噪比PriorSNR_k，计算过程如公式(16)。

PriorSNR_k＝y*oldPriorSNR_k+(1-y)*max(postSNR_k-1,0) (16)

在所述公式(16)中，oldPriorSNR_k的计算过程如公式(17)，在公式(17)中，H(k,m-1)为滤波器增益。

oldPriorSNR_k(m)＝H(k,m-1)*postSNR_k(m-1) (17)

需要说明的是，前述涉及的滤波器增益采用MMSE滤波器，所述MMSE滤波器对于信噪比小的语音信号增益较小，能有效防止语音信号失真。对于信噪比较大的语音信号增益较大，能有效抑制噪声。所述MMSE滤波器对应的滤波器增益如公式(18)。

在所述公式(18)中，Γ(x)为伽马函数，M(a；c；x)为合流超几何函数，v_k为Υ_k为postSNR_k。

在本发明实施例中，利用跟踪局部最小能量算法，估计待处理音频数据流的背景噪声。根据背景噪声、待处理音频信号的自相关性特征和功率谱，确定每帧待处理音频信号的估计先验信噪比和后验信噪比，以及计算每帧待处理音频信号的MMSE增益。根据MMSE增益对每帧待处理音频信号进行滤波处理得到增强信号，通过比较每帧待处理音频信号与增强信号的大小得到判决结果。并利用延迟窗口对每个判决结果进行处理，输出音频数据流中的活动语音帧，提高判决活动语音帧的准确性。

上述本发明实施例图1步骤S106中涉及的输出所述待处理音频数据流中的活动语音帧的过程，参见图3，示出了本发明实施例提供的获取活动语音帧的流程图，包括以下步骤：

步骤S301：将当前待处理音频信号缓存至延迟窗口中。

在具体实现步骤S301的过程中，逐一将每一帧所述待处理音频信号缓存至所述延迟窗口中。在将当前待处理音频信号缓存至所述延迟窗口中时，根据所述延迟窗口的状态，对所述延迟窗口中所缓存的所有所述待处理音频信号进行相应处理，具体内容详见以下各个步骤的说明。

步骤S302：根据所述延迟窗口中缓存的多帧所述待处理音频信号，确定所述延迟窗口的状态。当所述延迟窗口的状态为非语音状态，执行步骤S303，当所述延迟窗口的状态为语音进行状态，执行步骤S306，当所述延迟窗口的状态为语音过渡状态，执行步骤S311。

在具体实现步骤S302的过程中，根据所述延迟窗口中缓存的多帧所述待处理音频信号对应的判决结果，确定所述延迟窗口的状态，所述延迟窗口的状态为：非语音状态、语音进行状态或语音过渡状态。对于各个状态的说明可参见上述本发明实施例图1步骤S106中相对应的内容。

步骤S303：当所述延迟窗口缓存的所述待处理音频信号的帧数为第一阈值，基于每一帧所述待处理音频信号的判决结果，判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的占比是否大于等于预设百分比。若所述占比大于等于所述预设百分比，执行步骤S304，若所述占比小于所述预设百分比，执行步骤S305。

在具体实现步骤S303的过程中，由前述内容可知，预先判断每一帧所述待处理音频信号是否为活动语音帧，即若一帧待处理音频信号为活动语音帧，该待处理音频信号的状态speechActive为1，若一帧待处理音频信号为非活动语音帧，该待处理音频信号的状态speechActive为0。

若所述延迟窗口中的所述待处理音频信号为活动语音帧的占比大于等于预设百分比，例如：所述延迟窗口中的活动语音帧的占比大于等于50％，并且所述延迟窗口中一阶RMS差大于0的数量大于总数量的一半，则将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出。反之，将所述延迟窗口中的第一帧所述待处理音频信号作为非活动语音帧输出。

步骤S304：将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出。返回执行步骤S301。

步骤S305：将所述延迟窗口中的第一帧所述待处理音频信号作为非活动语音帧输出，返回执行步骤S301。

步骤S306：基于每一帧所述待处理音频信号的判决结果，判断所述当前待处理音频信号是否为活动语音帧。若所述当前待处理音频信号为活动语音帧，执行步骤S307，若所述当前待处理音频信号为非活动语音帧，执行步骤S308。

步骤S307：输出所述当前待处理音频信号，并进行连续静音计数，返回执行步骤S301。

在具体实现步骤S307的过程中，输出所述当前待处理音频信号后，进行静音计数，所述静音计数silCount＝0。

步骤S308：静音计数加1，判断所述静音计数是否小于第二阈值。若所述静音计数大于等于所述第二阈值，执行步骤S309，若所述静音计数小于所述第二阈值，执行步骤S310，

在具体实现步骤S308的过程中，若所述当前待处理音频信号为非活动语音帧，静音计数silCount+1。

步骤S309：将所述延迟窗口的状态设置为语音过渡状态，返回执行步骤S301。

在具体实现步骤S309的过程中，前述涉及的静音计数是用于：在所述延迟窗台的状态为语音进行状态后，通过静音计数确定所述延迟窗口的状态是否切换为语音过渡状态。

在所述延迟窗口的状态为语音进行状态时，如果前述涉及的静音计数等于所述第二阈值，则指明一段语音结束，将所述延迟窗口的状态设置为语音过渡状态。如果静音计数小于所述第二阈值，且后续的待处理音频信号为活动语音帧，则说明前几帧非活动语音帧为一段语音中的静音间隙，例如：一段语音内容为How are you，在每个单词发声之间会存在几百毫秒的静音。

步骤S310：将所述当前待处理音频信号作为活动语音帧输出，返回执行步骤S301。

步骤S311：确定所述延迟窗口中缓存的所述待处理音频信号的帧数是否等于第三阈值。若所述延迟窗口中缓存的所述待处理音频信号的帧数等于第三阈值，执行步骤S312。

步骤S312：基于每一帧所述待处理音频信号的判决结果，判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量是否大于第四阈值。若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量小于等于第四阈值，执行步骤S313，若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量大于第四阈值，执行步骤S314。

在具体实现步骤S312的过程中，当所述延迟窗口中缓存的所述待处理音频信号的帧数等于第三阈值，例如：当所述延迟窗口中缓存5帧所述待处理音频信号，判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量是否大于第四阈值，例如：判断所述延迟窗口中缓存的活动语音帧的数量是否大于3帧。

步骤S313：将所述延迟窗口的状态设置为非语音状态，返回执行步骤S301。

步骤S314：将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出，返回执行步骤S301。

在本发明实施例中，将当前待处理音频信号缓存至延迟窗口中，根据延迟窗口的状态对延迟窗口中缓存的待处理音频信号进行处理，从而剪切出待处理音频数据流中的活动语音帧，提高判决活动语音帧的准确性。利用活动语音帧进行语音识别，能提高语音识别的准确度和有效性。

为更好解释说明上述本发明实施例图1至图3中涉及的内容，通过图4示出的活动语音检测方法的流程示意图进行举例说明，所述图4包括以下步骤：

步骤S401：对待处理音频数据流进行加窗分帧处理，以及对每帧待处理音频信号进行DFT。

步骤S402：计算每帧待处理音频信号的自相关性特征和功率谱。

步骤S403：利用跟踪局部最小功率算法，确定背景噪声。

步骤S404：分别计算每帧待处理音频信号的后验信噪比和估计先验信噪比。

步骤S405：计算每帧待处理音频信号的SATA-MMSE增益，并进行滤波得到增强信号。

步骤S406：确定每帧待处理音频信号为活动语音帧的概率。

步骤S407：逐一将每帧待处理音频信号缓存至延迟窗口，利用延迟窗口确定待处理音频数据流的语音段。

与上述本发明实施例提供的一种活动语音检测方法相对应，参见图5，本发明实施例还提供一种活动语音检测系统的结构框图，所述活动语音检测系统包括：获取单元501、第一确定单元502、第二确定单元503、第三确定单元504、比较单元505和处理单元506。

获取单元501，用于实时获取待处理音频数据流，所述待处理音频数据流由多帧待处理音频信号构成。

第一确定单元502，用于确定每一帧所述待处理音频信号的自相关性特征和功率谱。

第二确定单元503，用于基于每一帧所述待处理音频信号的自相关性特征和功率谱，确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比。

第三确定单元504，用于基于每一帧所述待处理音频信号的后验信噪比和估计先验信噪比，确定每一帧所述待处理音频信号的最小均方误差MMSE增益，并对每一帧所述待处理音频信号进行滤波得到增强信号。

比较单元505，用于比较每一帧所述待处理音频信号与自身对应的所述增强信号，得到每一帧所述待处理音频信号的判决结果，所述判决结果用于指示所述待处理音频信号是否为活动语音帧。

处理单元506，用于逐一将每一帧所述待处理音频信号的判决结果缓存至延迟窗口中，基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果，输出所述待处理音频数据流中的活动语音帧，所述延迟窗口的状态为非语音状态、语音进行状态或语音过渡状态。

优选的，结合图5，本发明示出的所述第二确定单元503包括：估计模块、第一确定模块和第二确定模块。其中各个模块的执行原理如下：

估计模块，用于基于跟踪局部最小能量算法，估计所述待处理音频数据流的背景噪声。

第一确定模块，用于利用所述背景噪声和每一帧所述待处理音频信号的功率谱，确定每一帧所述待处理音频信号的后验信噪比。

优选的，结合图5，本发明实施例示出的所述处理单元506包括：缓存模块、状态确定模块、第一判断模块、第一输出模块、第二输出模块、第二判断模块、第三输出模块、第三判断模块、第四输出模块、第一设置模块、第四判断模块、第五判断模块、第五输出模块和第二设置模块。其中，各个模块的执行原理如下：

缓存模块，用于将当前待处理音频信号缓存至延迟窗口中。

状态确定模块，用于根据所述延迟窗口中缓存的多帧所述待处理音频信号，确定所述延迟窗口的状态。

第一判断模块，用于当所述延迟窗口的状态为非语音状态并且缓存的所述待处理音频信号的帧数为第一阈值，基于每一帧所述待处理音频信号的判决结果，判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的占比是否大于等于预设百分比，若所述占比大于等于所述预设百分比，执行第一输出模块，若所述占比小于所述预设百分比，执行第二输出模块。

所述第一输出模块，用于将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出，返回执行所述缓存模块。

所述第二输出模块，用于将所述延迟窗口中的第一帧所述待处理音频信号作为非活动语音帧输出，返回执行所述缓存模块。

第二判断模块，用于当所述延迟窗口的状态为语音进行状态，基于每一帧所述待处理音频信号的判决结果，判断所述当前待处理音频信号是否为活动语音帧，若所述当前待处理音频信号为活动语音帧，执行第三输出模块，若所述当前待处理音频信号为非活动语音帧，执行第三判断模块。

所述第三输出模块，用于输出所述当前待处理音频信号，并进行连续静音计数，返回执行所述缓存模块。

所述第三判断模块，用于静音计数加1，判断所述静音计数是否小于第二阈值，若所述静音计数小于所述第二阈值，执行第四输出模块，若所述静音计数大于等于所述第二阈值，执行第一设置模块。

所述第四输出模块，用于将所述当前待处理音频信号作为活动语音帧输出，返回执行所述缓存模块。

所述第一设置模块，用于将所述延迟窗口的状态设置为语音过渡状态，返回执行所述缓存模块。

第四判断模块，用于当所述延迟窗口的状态为语音过渡状态时，确定所述延迟窗口中缓存的所述待处理音频信号的帧数是否等于第三阈值，若所述延迟窗口中缓存的所述待处理音频信号的帧数等于第三阈值，执行第五判断模块。

所述第五判断模块，用于基于每一帧所述待处理音频信号的判决结果，判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量是否大于第四阈值，若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量大于第四阈值，执行第五输出模块，若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量小于第四阈值，执行第二设置模块。

所述第五输出模块，用于将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出，返回执行所述缓存模块。

优选的，结合图5，本发明实施例示出的所述比较单元505包括第一确定模块和第二确定模块，各个模块的执行原理如下：

第一确定模块，用于基于所述背景噪声、每一帧所述待处理音频信号与自身对应的所述增强信号，确定每一帧所述待处理音频信号为活动语音帧的概率。

基于上述本发明实施例公开的一种活动语音检测系统，上述各个模块可以通过一种由处理器和存储器构成的电子设备实现。具体为：上述各个模块作为程序单元存储于存储器中，由处理器执行存储在存储器中的上述程序单元来实现活动语音检测。

其中，处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现活动语音检测。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

进一步的，本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行活动语音检测方法。

进一步的，本发明实施例提供了一种电子设备，所述电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现如上任一实施例中示出的活动语音检测方法。

本发明实施例中公开的设备可以是PC、PAD、手机等。

进一步的，本发明实施例还提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现活动语音检测。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如上任一实施例中示出的活动语音检测方法。

综上所述，本发明实施例提供一种活动语音检测方法及系统，该方法为：实时获取待处理音频数据流；确定每帧待处理音频信号的自相关性特征和功率谱；基于每帧待处理音频信号的自相关性特征和功率谱，确定每帧待处理音频信号的后验信噪比和估计先验信噪比；基于每帧待处理音频信号的后验信噪比和估计先验信噪比，确定每帧待处理音频信号的MMSE增益，并对每帧待处理音频信号进行滤波得到增强信号；比较每帧待处理音频信号与自身对应的增强信号，得到每帧待处理音频信号的判决结果；逐一将每帧待处理音频信号的判决结果缓存至延迟窗口中，基于预设判决条件、延迟窗口的状态和每帧待处理音频信号的判决结果，输出待处理音频数据流中的活动语音帧。本方案中，根据背景噪声、待处理音频信号的自相关性特征和功率谱，确定每帧待处理音频信号的估计先验信噪比和后验信噪比，以及计算每帧待处理音频信号的MMSE增益。根据MMSE增益对每帧待处理音频信号进行滤波处理得到增强信号，通过比较每帧待处理音频信号与增强信号的大小得到判决结果。并利用延迟窗口对每个判决结果进行处理，输出音频数据流中的活动语音帧，提高判决活动语音帧的准确性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种活动语音检测方法，其特征在于，所述方法包括：

确定每一帧所述待处理音频信号的自相关性特征和功率谱；

2.根据权利要求1所述的方法，其特征在于，所述基于每一帧所述待处理音频信号的自相关性特征和功率谱，确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比，包括：

3.根据权利要求1所述的方法，其特征在于，所述逐一将所述待处理音频信号缓存至延迟窗口中，基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果，输出所述待处理音频数据流中的活动语音帧，包括：

将当前待处理音频信号缓存至延迟窗口中；

4.根据权利要求3所述的方法，其特征在于，所述比较每一帧所述待处理音频信号与自身对应的所述增强信号，得到每一帧所述待处理音频信号的判决结果，包括：

5.一种活动语音检测系统，其特征在于，所述系统包括：

6.根据权利要求5所述的系统，其特征在于，所述第二确定单元包括：

7.根据权利要求5所述的系统，其特征在于，所述处理单元包括：

缓存模块，用于将当前待处理音频信号缓存至延迟窗口中；

8.根据权利要求5所述的系统，其特征在于，所述比较单元包括：

9.一种电子设备，其特征在于，所述电子设备用于运行程序，其中，所述程序运行时执行如权利要求1-4中任一所述的活动语音检测方法。

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-4中任一所述的活动语音检测方法。