CN111613247A

CN111613247A - 一种基于麦克风阵列的前景语音检测方法及装置

Info

Publication number: CN111613247A
Application number: CN202010291044.XA
Authority: CN
Inventors: 马金龙
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-09-01
Anticipated expiration: 2040-04-14
Also published as: CN111613247B

Abstract

本发明公开了一种基于麦克风阵列的前景语音检测方法及装置，包括：获取经麦克风阵列采集的语音信号；对语音信号进行处理，得到时频域语音信号；基于预设的含噪语音分类模型，得到每一帧时频域语音信号的第一目标语音时频域掩模权值；降噪处理，得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比；计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比；根据第一目标语音时频域掩模权值、第一能量比、第二能量比，得到第二目标语音时频域掩模权值；根据第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测，提高了复杂噪声环境下语音识别系统的可用性。

Description

一种基于麦克风阵列的前景语音检测方法及装置

技术领域

本发明涉及语音检测技术领域，特别涉及一种基于麦克风阵列的前景语音检测方法及装置。

背景技术

对麦克风阵列采集的语音信号中有噪声及目标语音信号，噪声的存在会干扰到目标语音信号唤醒语音设备，比如音箱，现有技术中对语音的检测对目标语音的识别性低，检测不准确，计算量大且复杂度高，不能实现对目标前景语音的检测。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的第一个目的在于提出一种基于麦克风阵列的前景语音检测方法，大幅度提高了复杂噪声环境下语音检测的准确性，降低计算量及复杂度，对目标前景语音的检测效果良好。

本发明的第二个目的在于提出一种基于麦克风阵列的前景语音检测装置。

为达到上述目的，本发明第一方面实施例提出了一种基于麦克风阵列的前景语音检测方法，包括：

获取经所述麦克风阵列采集的语音信号；

对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到时频域语音信号；

根据所述时频域语音信号基于预设的含噪语音分类模型，计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值；

对所述时频域语音信号进行降噪处理，并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比；

根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量，计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比；

根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比，计算得到第二目标语音时频域掩模权值；

根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。

根据本发明第一方面实施例提出的一种基于麦克风阵列的前景语音检测方法，利用麦克风阵列的空域选择特性结合第一目标语音时频域掩模权值与降噪处理前后时频点的能量差异信息及降噪处理后时频域语音信号与预设唤醒平均帧能量，得出了在复杂噪声场景下，鲁棒性更高的第二目标语音时频域掩模权值，大幅度提高了复杂噪声环境下语音检测的准确性，实现了鲁棒性更高的语音检测，降低噪声对语音检测的影响，只对目标语音进行检测，提高了检测效率。

根据本发明的一些实施例，在获取经所述麦克风阵列采集的语音信号之前，还包括：

获取目标人声唤醒语音设备的相关信息；

根据所述相关信息，计算得到预设含噪语音分类模型及预设唤醒平均帧能量。

根据本发明的一些实施例，所述相关信息包括：噪声信息、目标语音信息。

根据本发明的一些实施例，所述深度学习模型包括GMM模型。

根据本发明的一些实施例，所述根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比，计算得到第二目标语音时频域掩模权值，算法包括：

计算第一能量比：

其中，n_i为降噪处理前每一帧时频域语音信号的第一能量；m_i为降噪处理后每一帧时频域语音信号的第二能量；i为总分帧数，i为正整数；

计算第二能量比：

其中，q为预设唤醒平均帧能量；

计算第二目标语音时频域掩模权值：

M＝a_i×b_i×c_i

其中，a_i为第i帧的第一目标语音时频域掩模权值。

为达到上述目的，本发明第二方面实施例提出了一种基于麦克风阵列的前景语音检测装置，包括：

第一获取模块，用于获取经所述麦克风阵列采集的语音信号；

语音信号处理模块，用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到时频域语音信号；

第一计算模块用于：

检测模块，用于根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。

根据本发明第二方面实施例提出的一种基于麦克风阵列的前景语音检测装置，利用麦克风阵列的空域选择特性结合第一目标语音时频域掩模权值与降噪处理前后时频点的能量差异信息及降噪处理后时频域语音信号与预设唤醒平均帧能量，得出了在复杂噪声场景下，鲁棒性更高的第二目标语音时频域掩模权值，大幅度提高了复杂噪声环境下语音检测的准确性，实现了鲁棒性更高的语音检测，降低噪声对语音检测的影响，只对目标语音进行检测，提高了检测效率。

根据本发明的一些实施例，基于麦克风阵列的前景语音检测装置还包括：

第二获取模块，用于获取目标人声唤醒语音设备的相关信息；

第二计算模块，用于根据所述相关信息，计算得到预设含噪语音分类模型及预设唤醒平均帧能量。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图；

图2是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图；

图3是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测装置；

图4是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测装置。

附图标记：

第一获取模块1、语音信号处理模块2、第一计算模块3、检测模块4、第二获取模块5、第二计算模块6。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

下面参考图1至图4来描述本发明实施例提出的一种基于麦克风阵列的前景语音检测方法及装置。

图1是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图；如图1所示，本发明第一方面实施例提出了一种基于麦克风阵列的前景语音检测方法，包括步骤S1-S7：

S1、获取经所述麦克风阵列采集的语音信号；

S2、对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到时频域语音信号；

S3、根据所述时频域语音信号基于预设的含噪语音分类模型，计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值；

S4、对所述时频域语音信号进行降噪处理，并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比；

S5、根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量，计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比；

S6、根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比，计算得到第二目标语音时频域掩模权值；

S7、根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。

上述技术方案的工作原理：获取经麦克风阵列采集的语音信号，语音信号包括噪声信息、目标语音信息；对语音信号进行分帧加窗以及短时傅里叶变换处理，得到时频域语音信号，语音信号进行分帧加窗分为N帧语音信号，每帧长度为20ms-30ms，将分帧后的语音信号看做稳态信号，在时频域简化对语音信号的处理步骤，方便计算。时频域语音信号基于预设的含噪语音分类模型，计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值，即在每一个时频点中目标语音信号存在每一帧时频域语音信号的概率，示例的，若在一帧时频域语音信号中，目标语音信号存在概率为50％，则该帧的第一目标语音时频域掩模权值为50％。进入识别交互后，利用波束形成器对时频域语音信号进行降噪处理，并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比，根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量，计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比，根据第一目标语音时频域掩模权值、第一能量比、第二能量比，计算得到第二目标语音时频域掩模权值，根据第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。

上述技术方案的有益效果：利用麦克风阵列的空域选择特性结合第一目标语音时频域掩模权值与降噪处理前后时频点的能量差异信息及降噪处理后时频域语音信号与预设唤醒平均帧能量，得出了在复杂噪声场景下，鲁棒性更高的第二目标语音时频域掩模权值，根据第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测，有利于为后端的语音识别给出准确的语音活动检测信息，有效减少人声干扰的误识别问题，提高了复杂噪声环境下语音识别系统的可用性语音检测的准确性，实现了鲁棒性更高的语音检测，降低噪声对语音检测的影响，只对目标语音进行检测，提高了检测效率。

图2是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图；如图2所示，在获取经所述麦克风阵列采集的语音信号之前，还包括：

S11、获取目标人声唤醒语音设备的相关信息；

S12、根据所述相关信息，计算得到预设含噪语音分类模型及预设唤醒平均帧能量。

上述技术方案的工作原理：具体的，在一应用场景中，在获取经麦克风阵列采集的语音信号之前，通过目标人声唤醒语音设备，语音设备可以是音箱，根据目标人声唤醒语音设备时的相关信息，经过迭代计算得到预设含噪语音分类模型及预设唤醒平均帧能量，相关信息包括：噪声信息、目标语音信息。含噪语音分类模型为含有噪声和目标语音的分类模型，将噪声及目标语音进行有效分类，对噪声及目标语音的类别进行准确区分。

上述技术方案的有益效果：得到预设预设含噪语音分类模型及预设唤醒平均帧能量，有利于筛除噪声，提高对目标语音检测的准确性。

根据本发明的一些实施例，所述深度学习模型包括GMM模型。

GMM模型，为高斯混合模型。高斯混合模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。

上述技术方案的有益效果：通过已经训练好的GMM模型进行语音检测，更加的方便准确。

计算第一能量比：

计算第二能量比：

其中，q为预设唤醒平均帧能量；

计算第二目标语音时频域掩模权值：

M＝a_i×b_i×c_i

其中，a_i为第i帧的第一目标语音时频域掩模权值。

上述技术方案的有益效果：得到最终的语音信号中每一帧的第二目标语音时频域掩模权值，计算量少、复杂度低，通过预先的深度学习模型，对当前帧的前景语音进行检测，得到当前帧前景语音检测结果。

图3是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测装置；如图3所示，本发明第二方面实施例提出了一种基于麦克风阵列的前景语音检测装置，包括：

第一获取模块1，用于获取经所述麦克风阵列采集的语音信号；

语音信号处理模块2，用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到时频域语音信号；

第一计算模块3用于：

检测模块4，用于根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。

图4是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测装置；如图4所示，基于麦克风阵列的前景语音检测装置还包括：

第二获取模块5，用于获取目标人声唤醒语音设备的相关信息；

第二计算模块6，用于根据所述相关信息，计算得到预设含噪语音分类模型及预设唤醒平均帧能量。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于麦克风阵列的前景语音检测方法，其特征在于，包括：

获取经所述麦克风阵列采集的语音信号；

2.如权利要求1所述的基于麦克风阵列的前景语音检测方法，其特征在于，在获取经所述麦克风阵列采集的语音信号之前，还包括：

获取目标人声唤醒语音设备的相关信息；

3.如权利要求2所述的基于麦克风阵列的前景语音检测方法，其特征在于，所述相关信息包括：噪声信息、目标语音信息。

4.如权利要求1所述的基于麦克风阵列的前景语音检测方法，其特征在于，所述深度学习模型包括GMM模型。

5.如权利要求1所述的基于麦克风阵列的前景语音检测方法，其特征在于，所述根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比，计算得到第二目标语音时频域掩模权值，算法包括：

计算第一能量比：

计算第二能量比：

其中，q为预设唤醒平均帧能量；

计算第二目标语音时频域掩模权值：

M＝a_i×b_i×c_i

其中，a_i为第i帧的第一目标语音时频域掩模权值。

6.一种基于麦克风阵列的前景语音检测装置，其特征在于，包括：

第一计算模块用于：

7.如权利要求6所述的基于麦克风阵列的前景语音检测装置，其特征在于，还包括：