CN111862951A

CN111862951A - 语音端点检测方法及装置、存储介质、电子设备

Info

Publication number: CN111862951A
Application number: CN202010728762.9A
Authority: CN
Inventors: 马路; 赵培; 苏腾荣
Original assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-30
Anticipated expiration: 2040-07-23
Also published as: CN111862951B

Abstract

本发明提供了一种语音端点检测方法及装置、存储介质、电子设备,其中，上述方法包括：使用第一语音端点检测模型对待检测语音信号进行语音端点检测，输出得到待检测语音信号对应的第一检测结果，第一语音端点检测模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据均包括：语音信号和对语音信号进行语音端点检测得到的检测结果；在第一检测结果中指示待检测语音信号存在目标语音信号的情况下，将第一检测结果作为待检测语音信号的信号处理结果；在第一检测结果中指示待检测语音信号未存在目标语音信号的情况下，将待检测语音信号输入到第二语音端点检测模型，输出得到第二检测结果，将第二检测结果作为待检测语音信号的信号处理结果。

Description

语音端点检测方法及装置、存储介质、电子设备

技术领域

本发明涉及语音信号处理领域，具体而言，涉及一种语音端点检测方法及装置。

背景技术

语音信号处理技术是人机交互领域的一项关键技术，而语音端点检测可以实时检测输入的音频信号，只提取出语音段信号，从而降低后端语音唤醒和识别的对无效语音的计算，降低系统功耗，是语音信号处理的关键技术。

针对相关技术中，在复杂的语音环境下，语音端点检测性能下降等问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种语音端点检测方法及装置、存储介质、电子设备，以至少解决相关技术中在复杂的语音环境下，语音端点检测性能下降等问题。

根据本发明的一个实施例，提供了一种语音端点检测方法，包括：使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果，其中，所述第一语音端点检测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：语音信号和对所述语音信号进行语音端点检测得到的检测结果；在所述第一检测结果中指示所述待检测语音信号存在目标语音信号的情况下，将所述第一检测结果作为所述待检测语音信号的信号处理结果；在所述第一检测结果中指示所述待检测语音信号未存在目标语音信号的情况下，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果。

在本发明的一个可选实施例中，使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果，包括：根据所述第一语音端点检测模型确定所述待检测语音信号为目标语音信号的第一概率和所述待检测语音信号为静音信号的第二概率；指示所述第一语音端点检测模型根据所述第一概率和所述第二概率确定所述第一检测结果。

在本发明的一个可选实施例中，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，包括：根据所述第二语音端点检测模型确定所述待检测语音信号为目标语音信号的第三概率和所述待检测语音信号为静音信号的第四概率；指示所述第二语音端点检测模型根据所述第三概率和所述第四概率确定所述第二检测结果。

在本发明的一个可选实施例中，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果之后，所述方法还包括：在所述第二检测结果指示所述待检测语音信号中存在目标语音信号的情况下，将所述第三概率和所述第一概率进行融合处理，以更新所述第二语音端点检测模型中的第一模型参数；在所述第二检测结果指示所述待检测语音信号中存在目标语音信号的情况下，将所述第四概率和所述第二概率进行融合处理，以更新所述第二语音端点检测模型中的第二模型参数。

在本发明的一个可选实施例中，将所述第三概率和所述第一概率进行融合处理，包括：获取所述第三概率对应的第一权重，以及所述第一概率对应的第二权重；根据所述第一权重与所述第三概率的乘积，以及所述第一概率和第二权重的乘积对所述第三概率和所述第一概率进行融合处理。

在本发明的一个可选实施例中，将所述第四概率和所述第二概率进行融合处理，包括：获取所述第四概率对应的第三权重，以及所述第二概率对应的第四权重；根据所述第三权重与所述第四概率的乘积，以及所述第二概率和第四权重的乘积对所述第四概率和所述第二概率进行融合处理。

在本发明的一个可选实施例中所述第一语音端点检测模型包括有监督机器学习模型，所述第二语音端点检测模型包括：无监督机器学习模型。

根据本发明的另一个实施例，提供了一种语音端点检测装置，包括：检测模块，用于使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果，其中，所述第一语音端点检测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：语音信号和对所述语音信号进行语音端点检测得到的检测结果；第一确定模块，用于在所述第一检测结果中指示所述待检测语音信号存在目标语音信号的情况下，将所述第一检测结果作为所述待检测语音信号的信号处理结果；第二确定模块，用于在所述第一检测结果中指示所述待检测语音信号未存在目标语音信号的情况下，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果；在所述第一检测结果中指示所述待检测语音信号存在目标语音信号的情况下，将所述第一检测结果作为所述待检测语音信号的信号处理结果；在所述第一检测结果中指示所述待检测语音信号未存在目标语音信号的情况下，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果，即通过上述技术方案，在进行语音端点检测的过程中，综合使用第一语音端点检测模型和第二语音端点检测模型来确定待检测语音信号的信号处理结果。因此，可以解决在复杂的语音环境下，语音端点检测性能下降等问题，达到了提高语音端点检测时的语音判决能力的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种语音端点检测方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的一种可选的语音端点检测方法的流程图；

图3是根据本发明实施例的一种可选的语音端点检测装置的结构框图；

图4是根据本发明优选实施例的一种可选的语音端点检测过程示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在计算机终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种语音端点检测方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的语音端点检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于计算机终端的语音端点检测方法，图2是根据本发明实施例的一种语音端点检测方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果，其中，所述第一语音端点检测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：语音信号和对所述语音信号进行语音端点检测得到的检测结果；

需要注意的是，待检测语音信号中包含了多个帧的音频信号，上述实施例中是对每一帧音频信号进行检测。

在所述第一检测结果中包含了存在目标语音信号或者不存在目标语音信号的检测结果。

步骤S204，在所述第一检测结果中指示所述待检测语音信号存在目标语音信号的情况下，将所述第一检测结果作为所述待检测语音信号的信号处理结果；

即，如果将所述待检测语音信号判断为存在目标语音信号的情况下，直接将所述第一检测结果作为信号处理结果。

步骤S206，在所述第一检测结果中指示所述待检测语音信号未存在目标语音信号的情况下，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果。

即，如果将所述待检测语音信号判断为不存在语音信号的情况下，则将所述第二检测结果作为信号处理结果作为语音端点检测结果。

通过本发明的上述技术方案，使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果；在所述第一检测结果中指示所述待检测语音信号存在目标语音信号的情况下，将所述第一检测结果作为所述待检测语音信号的信号处理结果；在所述第一检测结果中指示所述待检测语音信号未存在目标语音信号的情况下，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果，即通过上述技术方案，在进行语音端点检测的过程中，综合使用第一语音端点检测模型和第二语音端点检测模型来确定待检测语音信号的信号处理结果。因此，可以解决在复杂的语音环境下，语音端点检测性能下降等问题，达到了提高语音端点检测时的语音判决能力的效果。

在所述第二检测结果中包含了存在语音信号或者存在静音信号的检测结果，其中所述第二检测结果是将所述待检测语音信号输入到所述第二语音端点检测模型后输出的检测结果。

举例来说，上述第一语音端点检测模型采用的是循环神经网络模型(RecurrentNeural Network，RNN)。输入端由一个全连接层接收输入信号特征，之后送入所述循环神经网络完成信号的判断，最后经由一个全连接层完成语音信号存在的概率计算。该概率值可以和设定的阈值进行比较，大于阈值表示存在音频信号，小于阈值表示不存在。

上述第二语音端点检测模型采用的是混合高斯模型(Gaussian Mixture Model,GMM)，在GMM模型中，根据人声的频谱范围进行特征提取后，将输入的频谱分成六个子带(80Hz～250Hz，250Hz～500Hz，500Hz～1K，1K～2K，2K～3K，3K～4K)分别计算这六个子带的能量。GMM模型，对输入的六个子带能量特征首先分别利用语音和噪声的混合高斯模型计算得到语音和静音的概率，根据概率计算得到对数似然比，对数似然比与设定的阈值进行比较，大于阈值判定为语音，小于阈值判定为静音；根据模型的融合计算结果，同时结合RNN模型计算得到的语音概率和静音概率，实时更新混合高斯的模型参数，为下一次迭代做准备。以RNN模型的判定为基准，若RNN模型判定为1(即存在语音)，则VAD(Voice ActivityDetection，语音端点检测)直接输出1；若RNN模型判定结果为0(即不存在语音)，则输出GMM模型的判定结果。如此，虽然有可能造成语音的虚检，但可以最大可能性避免语音漏检。将VAD判定结果和RNN模型计算得到的语音概率和静音概率一起反馈给GMM模型，进行均值和方差等参数的更新。

为了更好地进行检测结果的融合，使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果，包括：根据所述第一语音端点检测模型确定所述待检测语音信号为目标语音信号的第一概率和所述待检测语音信号为静音信号的第二概率；指示所述第一语音端点检测模型根据所述第一概率和所述第二概率确定所述第一检测结果。

具体实施时，将所述待检测语音信号同时输入第一语音端点检测模型和第二语音端点检测模型进行语音端点检测，输出两种结果得到第一检测结果和第二检测结果。如果在所述第一检测结果中存在语音信号时，或者不存在语音信号时，根据两者的检测结果进行模型融合和结果融合，之后再输出最终的检测结果。

基于所述第一语音端点检测模型实现有监督机器学习，通过提前训练可以实现更强的建模能力。基于所述第二语音端点检测模型实现无监督机器学习，通过对音频模型参数的实时更新，可以实现较好的模型更新能力。在上述方法中，通过将两种语音端点检测模型进行融合，每种模型物理意义明确，易于实现。

为了更好地进行检测结果的分类处理，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，包括：根据所述第二语音端点检测模型确定所述待检测语音信号为目标语音信号的第三概率和所述待检测语音信号为静音信号的第四概率；指示所述第二语音端点检测模型根据所述第三概率和所述第四概率确定所述第二检测结果。

具体实施时，将所述待检测语音信号分别输入第一语音端点检测模型或者第二语音端点检测模型进行语音端点检测，输出两种结果得到第一检测结果或者第二检测结果。在一种分类情况下，所述待检测语音信号中仅存在语音信号，即当所述第一检测结果为存在语音信号时，所述语音端点检测的结果为所述第一检测结果。在另一种分类情况下，所述第一检测结果中不存在语音信号时，即当所述第一检测结果为不存在语音信号时，所述语音端点检测的结果为所述第二检测结果。在上述方法中，对于两种结果都出现的情况下，可以最大可能性避免语音漏检。

进一步地，所述第一语音端点检测模型计算结果用于更新所述第二语音端点检测模型计算结果。

进一步地，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果之后，所述方法还包括：在所述第二检测结果指示所述待检测语音信号中存在目标语音信号的情况下，将所述第三概率和所述第一概率进行融合处理，以更新所述第二语音端点检测模型中的第一模型参数；在所述第二检测结果指示所述待检测语音信号中存在目标语音信号的情况下，将所述第四概率和所述第二概率进行融合处理，以更新所述第二语音端点检测模型中的第二模型参数。

进一步地，将所述第三概率和所述第一概率进行融合处理，包括：获取所述第三概率对应的第一权重，以及所述第一概率对应的第二权重；根据所述第一权重与所述第三概率的乘积，以及所述第一概率和第二权重的乘积对所述第三概率和所述第一概率进行融合处理。

进一步地，将所述第四概率和所述第二概率进行融合处理，包括：获取所述第四概率对应的第三权重，以及所述第二概率对应的第四权重；根据所述第三权重与所述第四概率的乘积，以及所述第二概率和第四权重的乘积对所述第四概率和所述第二概率进行融合处理。

进一步地，所述第一语音端点检测模型包括有监督机器学习模型，所述第二语音端点检测模型包括：无监督机器学习模型。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种语音端点检测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的语音端点检测装置的结构框图，如图3所示，该装置包括：

检测模块30，用于使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果，其中，所述第一语音端点检测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：语音信号和对所述语音信号进行语音端点检测得到的检测结果；

第一确认模块32，用于在所述第一检测结果中指示所述待检测语音信号存在目标语音信号的情况下，将所述第一检测结果作为所述待检测语音信号的信号处理结果；

第二确认模块34用于在所述第一检测结果中指示所述待检测语音信号未存在目标语音信号的情况下，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果。

在所述检测模块30中，需要注意的是，待检测语音信号中包含了多个帧的音频信号，上述实施例中是对每一帧音频信号进行检测。

在所述第一确认模块32，还用于根据所述第一语音端点检测模型确定所述待检测语音信号为目标语音信号的第一概率和所述待检测语音信号为静音信号的第二概率；指示所述第一语音端点检测模型根据所述第一概率和所述第二概率确定所述第一检测结果。所述第二确认模块34，还用于在所述待检测语音信号判断为不存在语音信号的情况下，则将所述第二检测结果作为信号处理结果作为语音端点检测结果。

可选地，所述第一确认模块32，还用于根据所述第二语音端点检测模型确定所述待检测语音信号为目标语音信号的第三概率和所述待检测语音信号为静音信号的第四概率；指示所述第二语音端点检测模型根据所述第三概率和所述第四概率确定所述第二检测结果。

在本发明的一个可选实施例中，所述第二确认模块32，还用于在所述第二检测结果指示所述待检测语音信号中存在目标语音信号的情况下，将所述第三概率和所述第一概率进行融合处理，以更新所述第二语音端点检测模型中的第一模型参数；在所述第二检测结果指示所述待检测语音信号中存在目标语音信号的情况下，将所述第四概率和所述第二概率进行融合处理，以更新所述第二语音端点检测模型中的第二模型参数。

上述第二确认模块34，还用于获取所述第三概率对应的第一权重，以及所述第一概率对应的第二权重；根据所述第一权重与所述第三概率的乘积，以及所述第一概率和第二权重的乘积对所述第三概率和所述第一概率进行融合处理。

在本发明的一个可选实施例中，上述第二确认模块34，还用于获取所述第四概率对应的第三权重，以及所述第二概率对应的第四权重；根据所述第三权重与所述第四概率的乘积，以及所述第二概率和第四权重的乘积对所述第四概率和所述第二概率进行融合处理。

在本发明的一个可选实施例中，第一确认模块32使用有监督机器学习模型，第二确认模块34使用无监督机器学习模型。

在本发明的一个可选实施例中，所述第一语音端点检测模型包括有监督机器学习模型，所述第二语音端点检测模型包括：无监督机器学习模型。

有监督机器学习模型是通过监督式学习(Supervised learning)训练出来的模型，监督式学习是机器学习的一种方法，可以由训练资料中学到或建立一个模式(函数/learning model)，并以此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出组成。函数的输出可以是一个连续的值(称为回归分析)，或是预测一个分类标签(称作分类)。

无监督机器学习模型是通过无监督学习(unsupervised learning)训练出来的模型，无监督学习是机器学习的一种方法，没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群。无监督学习的主要运用包含：聚类分析(cluster analysis)、关系规则(association rule)、维度缩减(dimensionality reduce)。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

为了更好的理解上述语音端点检测方法的处理流程，以下结合优选实施例对上述技术方案进行解释说明，但不用于限定本发明实施例的技术方案。

本发明优选实施例可以根据语音信号的具体情况，将两个语音端点检测模型进行融合，可以更好地对实际环境中的语音进行建模和实时更新，从而提高语音判定的准确性。

如图4是根据本发明优选实施例的一种可选的语音端点检测过程示意图，如图4所示，包括以下步骤：

步骤S402，分帧加窗。输入待处理的语音信号(包括语音信号和参考信号)，在经过分帧加窗处理后消除帧边界的频谱不连续。

步骤S404，傅里叶变换。将待处理的输入语音信号变换到频域，便于提取频域特征。

步骤S406，有监督学习模型特征提取。一种可选的网络结构为循环神经网络(Recurrent Neural Network，RNN)模型，一种可选的特征提取过程为，提取22维的Bark频域特征、6个Bark频域特征的一阶和二阶差分、6个与音频的声调特征相关的系数、1个声调周期、1个频谱动态特征，共计42个特征；对于混合高斯模型，提取六个子带能量特征。由于神经网络是采用数据提前训练出来的，训练数据或是人为构造，或是采集于有限场景，与复杂真实情况的数据有一定差别，进而造成其训练出的模型与真实模型有一定差别。此外，由于实际训练中并不能保证数据量和数据种类覆盖所有真实应用场景，所以其在实际应用中也会存在一定的缺陷。所以需要配合GMM模型进行模型融合，既可以利用神经网络更强的建模能力，又可以利用混合高斯模型的参数自适应更新能力，从而可以达到更好的端点检测能力。

需要注意的是，利用循环神经网络的记忆能力可以更好地对时序的语音信号进行建模，特别是噪声环境下具有很好的性能。

步骤S408，RNN模型计算。输入端由一个全连接层接收输入信号特征，之后送入所述循环神经网络完成信号的判断，最后经由一个全连接层完成语音信号存在的概率计算。该概率值可以和设定的阈值进行比较，大于阈值表示存在音频，小于阈值表示不存在。

需要注意的时，一种可选的网络结构为一个全连接层(DENSE)，一个循环神经网络变形(GRU)再接一个全连接层(DENSE)。

步骤S410，无监督学习模型特征提取。一种可选的无监督学习模型为混合高斯(Gaussian Mixture Model,GMM)模型。在GMM模型中，根据人声的频谱范围进行特征提取后，将输入的频谱分成六个子带(80Hz～250Hz，250Hz～500Hz，500Hz～1K，1K～2K，2K～3K，3K～4K)分别计算这六个子带的能量。

步骤S412，GMM模型计算。对输入的六个子带能量特征首先分别利用语音和噪声的混合高斯模型计算得到语音和静音的概率，根据概率计算得到对数似然比，对数似然比与设定的阈值进行比较，大于阈值判定为语音，小于阈值判定为静音；根据模型的融合计算结果，同时结合RNN模型计算得到的语音概率和静音概率，实时更新混合高斯的模型参数，为下一次迭代做准备。

步骤S414，模型结果融合。以RNN模型的判定为基准，若RNN模型判定为1(即存在语音)，则VAD直接输出1；若RNN模型判定结果为0(即不存在语音)，则输出GMM模型的判定结果。如此，虽然有可能造成语音的虚检，但可以最大可能性避免语音漏检。将VAD判定结果和RNN模型计算得到的语音概率和静音概率一起反馈给GMM模型，进行均值和方差等参数的更新。

通过上述步骤，采用混合高斯模型可以根据接收的音频实时更新模型参数，具有较好的更新能力。然而，由于混合高斯模型的建模能力有限，无法实现对语音的精确的建模，特别是复杂的语音环境下，基于混合高斯模型的语音端点检测性能严重下降。所以，采用基于循环神经网络的语音端点检测方法采用循环神经网络对语音进行建模，利用循环神经网络的记忆能力可以更好地实现对时序语音信号的建模，具有更强的建模能力。

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果，其中，所述第一语音端点检测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：语音信号和对所述语音信号进行语音端点检测得到的检测结果；

S2，在所述第一检测结果中指示所述待检测语音信号存在目标语音信号的情况下，将所述第一检测结果作为所述待检测语音信号的信号处理结果；

S3，在所述第一检测结果中指示所述待检测语音信号未存在目标语音信号的情况下，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音端点检测方法，其特征在于，包括：

使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果，其中，所述第一语音端点检测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：语音信号和对所述语音信号进行语音端点检测得到的检测结果；

在所述第一检测结果中指示所述待检测语音信号存在目标语音信号的情况下，将所述第一检测结果作为所述待检测语音信号的信号处理结果；

在所述第一检测结果中指示所述待检测语音信号未存在目标语音信号的情况下，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果。

2.根据权利要求1所述的方法，其特征在于，使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果，包括：

根据所述第一语音端点检测模型确定所述待检测语音信号为目标语音信号的第一概率和所述待检测语音信号为静音信号的第二概率；

指示所述第一语音端点检测模型根据所述第一概率和所述第二概率确定所述第一检测结果。

3.根据权利要求2所述的方法，其特征在于，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，包括：

根据所述第二语音端点检测模型确定所述待检测语音信号为目标语音信号的第三概率和所述待检测语音信号为静音信号的第四概率；

指示所述第二语音端点检测模型根据所述第三概率和所述第四概率确定所述第二检测结果。

4.根据权利要求3所述的方法，其特征在于，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果之后，所述方法还包括：

在所述第二检测结果指示所述待检测语音信号中存在目标语音信号的情况下，将所述第三概率和所述第一概率进行融合处理，以更新所述第二语音端点检测模型中的第一模型参数；

在所述第二检测结果指示所述待检测语音信号中存在目标语音信号的情况下，将所述第四概率和所述第二概率进行融合处理，以更新所述第二语音端点检测模型中的第二模型参数。

5.根据权利要求4所述的方法，其特征在于，将所述第三概率和所述第一概率进行融合处理，包括：

获取所述第三概率对应的第一权重，以及所述第一概率对应的第二权重；

根据所述第一权重与所述第三概率的乘积，以及所述第一概率和第二权重的乘积对所述第三概率和所述第一概率进行融合处理。

6.根据权利要求4所述的方法，其特征在于，将所述第四概率和所述第二概率进行融合处理，包括：

获取所述第四概率对应的第三权重，以及所述第二概率对应的第四权重；

根据所述第三权重与所述第四概率的乘积，以及所述第二概率和第四权重的乘积对所述第四概率和所述第二概率进行融合处理。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述第一语音端点检测模型包括：有监督机器学习模型，所述第二语音端点检测模型包括：无监督机器学习模型。

8.一种语音端点检测装置，其特征在于，包括：

检测模块，用于使用第一语音端点检测模型对待检测语音信号进行语音端点检测，以输出得到所述待检测语音信号对应的第一检测结果，其中，所述第一语音端点检测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：语音信号和对所述语音信号进行语音端点检测得到的检测结果；

第一确定模块，用于在所述第一检测结果中指示所述待检测语音信号存在目标语音信号的情况下，将所述第一检测结果作为所述待检测语音信号的信号处理结果；

第二确定模块，用于在所述第一检测结果中指示所述待检测语音信号未存在目标语音信号的情况下，将所述待检测语音信号输入到第二语音端点检测模型，以输出得到第二检测结果，并将所述第二检测结果作为所述待检测语音信号的信号处理结果。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。