CN111696580A

CN111696580A - 一种语音检测方法、装置、电子设备及存储介质

Info

Publication number: CN111696580A
Application number: CN202010321831.4A
Authority: CN
Inventors: 徐波
Original assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Current assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-09-22
Anticipated expiration: 2040-04-22
Also published as: CN111696580B

Abstract

本发明公开了一种语音检测方法、装置、电子设备及存储介质，其中方法包括：分别按照第一帧长和第二帧长对待测音频进行分帧处理，获得第一音频帧序列和第二音频帧序列；其中，第一帧长小于第二帧长；按照预设的特征提取算法，提取待测音频的音频特征；其中，音频特征包括多分辨率声学特征，多分辨率声学特征根据第一音频帧序列和第二音频帧序列中各个音频帧的耳蜗图特征生成；将音频特征输入预先建立的基于深度神经网络的语音检测模型，获得第一音频帧序列中各个音频帧的概率值；根据第一音频帧序列中各个音频帧的概率值，提取出待测音频中的语音信号。本发明能提升低信噪比下语音检测的准确度。

Description

一种语音检测方法、装置、电子设备及存储介质

技术领域

本发明涉及语音检测技术领域，尤其涉及一种语音检测方法、装置、电子设备及存储介质。

背景技术

随着科技的进步，很多智能产品都具有语音交互功能，与机器的交互实现了打破了键盘、触摸屏的交互方式。而为了智能产品能快速对语音进行响应，往往需要从采集的音频信号中提取出语音信号，针对语音信号进行语义识别等处理，免去对噪声信号进行分析。

现有技术中，对音频信号进行语音检测时，往往是根据语音信号和噪声信号在频谱特性上的区别，对音频信号进行信号处理，检测出音频信号中的语音信号。

但是，实际应用中，采集音频信号的环境很可能是在嘈杂噪声环境中，音频信号的信噪比较低，而现有技术的方案对低信噪比下的音频信号进行语音检测的准确率仍然较低，因此，设计一种能提升低信噪比下语音检测的准确度的语音检测方案是有待解决的技术问题。

发明内容

本发明实施例所要解决的技术问题在于，提供一种语音检测方法、装置、电子设备及存储介质，能够提升低信噪比下语音检测的准确度。

为了解决上述技术问题，第一方面，本发明提供了一种语音检测方法，所述方法包括：

分别按照第一帧长和第二帧长对待测音频进行分帧处理，获得第一音频帧序列和第二音频帧序列；其中，所述第一帧长小于所述第二帧长；

按照预设的特征提取算法，提取所述待测音频的音频特征；其中，所述音频特征包括多分辨率声学特征，所述多分辨率声学特征根据第一音频帧序列和所述第二音频帧序列中各个音频帧的耳蜗图特征生成；

将所述音频特征输入预先建立的基于深度神经网络的语音检测模型，获得所述第一音频帧序列中各个音频帧的概率值；其中，所述语音检测模型预先根据不同信噪比的音频样本进行训练；

根据所述第一音频帧序列中各个音频帧的概率值，提取出所述待测音频中的语音信号。

进一步的，所述方法通过以下步骤生成所述多分辨率声学特征：

计算所述第一音频序列中各个音频帧的耳蜗图特征，获得第一耳蜗图特征；

计算所述第二音频序列中各个音频帧的耳蜗图特征，获得第二耳蜗图特征；

采用第一规格的平方窗对所述第一耳蜗图特征进行平滑处理，获得第三耳蜗图特征；

采用第二规格的平方窗对所述第一耳蜗图特征进行平滑处理，获得第四耳蜗图特征；

根据所述第一耳蜗图特征、所述第二耳蜗图特征、所述第三耳蜗图特征和所述第四耳蜗图特征，生成所述多分辨率声学特征。

进一步的，所述音频特征还包括第一差分特征、第二差分特征、所述待测音频的MFCC特征、所述待测音频的PLP特征中的任意一种或任意组合。

进一步的，所述方法预先通过以下步骤训练所述语音检测模型：

获取若干个不同信噪比的音频样本；其中，每一所述音频样本均由语音信号样本和噪声信号样本混合生成，所述语音信号样本和所述噪声信号样本均分配有对应的样本标签；

按照预设的特征提取算法，提取每一所述音频样本的音频特征，获得每一个音频特征样本；

根据每一所述音频样本对应的音频特征样本和样本标签，对所述语音检测模块进行训练。

进一步的，所述根据所述第一音频帧序列中各个音频帧的概率值，提取出所述待测音频中的语音信号，具体包括：

计算所述第一音频帧序列中第i-N帧至第i+M帧的音频帧的概率值的平均值，获得第一概率值，并根据所述第一概率值确定所述第一音频帧序列中的第i帧音频帧是否为语音信号；

根据所述第一音频帧序列中确定为语音信号的音频帧，提取所述待测音频中的语音信号。

进一步的，所述根据所述第一概率值确定所述第一音频帧序列中的第i帧音频帧是否为语音信号，具体包括：

当所述第一概率值大于概率阈值时，确定所述第一音频帧序列中的第i帧音频帧为语音信号。

进一步的，所述语音检测模型包括基于编码器的神经网络、基于注意力机制的神经网络以及基于解码器的神经网络。

为了解决相应的技术问题，第二方面，本发明提供了一种语音检测装置，所述装置包括：

分帧模块，用于分别按照第一帧长和第二帧长对待测音频进行分帧处理，获得第一音频帧序列和第二音频帧序列；其中，所述第一帧长小于所述第二帧长；

第一提取模块，用于按照预设的特征提取算法，提取所述待测音频的音频特征；其中，所述音频特征包括多分辨率声学特征，所述多分辨率声学特征根据第一音频帧序列和所述第二音频帧序列中各个音频帧的耳蜗图特征生成；

概率值获得模块，用于将所述音频特征输入预先建立的基于深度神经网络的语音检测模型，获得所述第一音频帧序列中各个音频帧的概率值；其中，所述语音检测模型预先根据不同信噪比的音频样本进行训练；

第二提取模块，用于根据所述第一音频帧序列中各个音频帧的概率值，提取出所述待测音频中的语音信号。

为了解决相应技术问题，第三方面，本发明提供了一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面提供的任意一项所述的语音检测方法。

为了解决相应技术问题，第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面提供的任意一项所述的语音检测方法。

上述提供的一种语音检测方法、装置、电子设备及存储介质，能够通过多分辨率声学特征和深度神经网络的语音检测模型更准确地识别出具有表达性的语音信号，提升了低信噪比下语音检测的准确度。

附图说明

图1是本发明提供的一种语音检测方法的一个优选实施例的流程示意图；

图2是本发明提供的提取多分辨率声学特征的一个优选实施例的流程示意图；

图3是本发明提供的多分辨率声学特征的一个优选实施例的示意图；

图4是本发明提供的一种语音检测装置的一个优选实施例的结构示意图；

图5是本发明提供的一种电子设备的一个优选实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

具体的，本发明实施例提供了一种语音检测方法，请参阅图1，图1是本发明提供的一种语音检测方法的一个优选实施例的流程示意图；具体的，所述方法包括：

S100、分别按照第一帧长和第二帧长对待测音频进行分帧处理，获得第一音频帧序列和第二音频帧序列；其中，所述第一帧长小于所述第二帧长；

需要说明的是，从整体来看，音频信号其特性及表征其本质特征的参数均是随时间而变化的，具有时变特性，是一个非平稳态过程，但是音频信号具有短时平稳性，即在短时间范围内(一般认为在10ms～30ms)，其特性基本保持不变，因此，对任何音频信号基于数字信号处理技术进行分析处理时，必须建立在“短时”基础上，需要将音频信号进行分帧处理来提取相应的特性。

在本实施例中，将待测音频分别按照第一帧长和第二帧长进行分帧处理，且帧移相同，得到两种帧长的音频帧序列，即第一音频帧序列和第二音频帧序列。即按照第一帧长、预设帧移获得第一音频帧序列，按照第二帧长、预设帧移获得第二音频帧序列。第一帧长小于第二帧长，例如，第一帧长为25ms，第二帧长为200ms，帧移均为10ms，对待测音频进行分帧处理，获得第一音频帧序列和第二音频帧序列。对于预设帧移下的各个音频帧，例如帧移为10ms，则相邻的音频帧其实只有10ms的信号不同，本申请的第一帧长小于第二帧长，由此，便可通过第一音频帧序列中每一帧音频帧获得待测音频的局部信息，通过第二音频帧序列中每一帧音频帧获得待测音频的全局信息，获得音频信号的上下文局部信息和全局信息，构建出的音频特征能够有利于全方位地对待测音频进行检测。

需要说明的是，语音是由声门激励通过声道产生的，声门激励属于低频，所以语音的能量主要集中在低频，相对于低频来说，高频的能量较低，提升高频分量有助于提高信噪比。因此，为了提高语音检测的准确性，在对待测音频进行分帧处理前，还可以预先进行预加重处理，以提高高频分量。可选的，预加重的公式为：x’[n]＝x[n]-αx[n-1]，其中，x[n]为待测音频中未进行预加重的第n个点，x’[n]为待测音频中进行预加重后的第n个点，0.95<α<0.99，例如可选α＝0.97。预加重处理后，通过窗函数进行分帧处理，得到第一音频帧序列和第二音频帧序列，窗函数可选汉明窗或汉宁窗。

S200、按照预设的特征提取算法，提取所述待测音频的音频特征；其中，所述音频特征包括多分辨率声学特征，所述多分辨率声学特征根据第一音频帧序列和所述第二音频帧序列中各个音频帧的耳蜗图特征生成；

在本实施例中，对待测音频的音频特征进行提取，其中包括多分辨率声学特征，多分辨率声学特征包括第一音频帧序列和第二音频帧序列中各个音频帧的耳蜗图特征。由于人耳就像一个滤波组件，对信号的频率是有选择性的，只让一定频率范围内的信号通过，因此人类听觉只对一定频率范围内的信号有感知，本实施例提取耳蜗图特征，能模拟人类听觉感知处理特点，提取更具有表达力的特征，有利于进行语音信号的提取。同时，相对于现有技术进行语音检测时，基于频谱图提取音频信号的频谱特征，进行语音检测，本申请提取耳蜗图特征构建多分辨率声学特征，能够具有更高的低频分辨率，有利于对低信噪比的音频信号进行语音检测。多分辨率声学特征其有不同分辨率下的耳蜗图特征，高分辨率的耳蜗图特征捕捉局部信息，高分辨率的耳蜗图特征捕捉不同频谱范围的上下文信息。可选的，多分辨率声学特征可包括有1个高分辨率的耳蜗图特征、3个低分辨率的耳蜗图特征。在音频特征提取过程中，需根据实际需要进行时频变换、平滑处理、能量提取、频率筛选、非线性压缩变换等步骤。

S300、将所述音频特征输入预先建立的基于深度神经网络的语音检测模型，获得所述第一音频帧序列中各个音频帧的概率值；其中，所述语音检测模型预先根据不同信噪比的音频样本进行训练；

需要说明的是，概率值用于指示音频帧是语音信号或噪声信号。一般，概率值越大代表相应的音频帧越可能是语音信号，当然也可以根据需要设计为概率值越大代表相应的越可能是噪声信号。

在本实施例中，以包括有多分辨率声学特征的音频特征作为输入，采用深度神经网络的语音检测模型进行分析识别，能提高待测音频的语音检测准确度。

需要说明的是，获得帧长不同的第一音频帧序列和第二音频帧序列，是为了获得待测音频的上下文局部信息和全局信息。而通过音频特征获得的概率值时，由于帧移相同，只需考虑获得第一音频帧序列或第二音频帧序列中各个音频帧的概率值即可，本申请考虑到第一帧长小于第二帧长，获得第一音频帧序列的概率值能够较为准确地提取语音信号，故通过语音检测模型获得第一音频帧序列中各个音频帧的概率值。需要说明的是，用于训练语音检测模块的音频样本中的各个音频帧的长度也应优选与第一帧长相对应。

S400、根据所述第一音频帧序列中各个音频帧的概率值，提取出所述待测音频中的语音信号。

根据第一音频帧序列中各个音频帧的概率值，滤除掉待测音频中的噪声片段，提取出语音信号。

本发明提供的一种语音检测方法，具体实施时，分别按照第一帧长和第二帧长对待测音频进行分帧处理，获得第一音频帧序列和第二音频帧序列；按照预设的特征提取算法，提取待测音频的音频特征；其中，音频特征包括多分辨率声学特征，多分辨率声学特征根据第一音频帧序列和第二音频帧序列中各个音频帧的耳蜗图特征生成；将音频特征输入预先建立的基于深度神经网络的语音检测模型，获得第一音频帧序列中各个音频帧的概率值；根据第一音频帧序列中各个音频帧的概率值，提取出待测音频中的语音信号。

本发明提供的一种语音检测方法，能够通过多分辨率声学特征和深度神经网络的语音检测模型更准确地识别出具有表达性的语音信号，提升了低信噪比下语音检测的准确度。

优选地，如图2所示，所述方法通过以下步骤生成所述多分辨率声学特征：

S201、计算所述第一音频序列中各个音频帧的耳蜗图特征，获得第一耳蜗图特征；

S202、计算所述第二音频序列中各个音频帧的耳蜗图特征，获得第二耳蜗图特征；

S203、采用第一规格的平方窗对所述第一耳蜗图特征进行平滑处理，获得第三耳蜗图特征；

S204、采用第二规格的平方窗对所述第一耳蜗图特征进行平滑处理，获得第四耳蜗图特征；

S205、根据所述第一耳蜗图特征、所述第二耳蜗图特征、所述第三耳蜗图特征和所述第四耳蜗图特征，生成所述多分辨率声学特征。

在本实施例中，多分辨率声学特征结合了4组耳蜗图特征，若耳蜗图特征按包括音频帧在64通道的每一通道下中能量，则第一耳蜗图特征至第四耳蜗图特征均有64维，以64通道为例，则提取的多分辨率声学特征为256维，如图3所示。具体的，将相应的音频帧序列通过64维的滤波器，保留在一定频率范围内的音频信号，频率范围可选[80,5000]Hz，然后计算第一音频帧序列、第二音频帧序列中每一个音频帧在每一个通道中的能量，将能量进行非线性压缩变换(优选底数为10的log函数进行非线性压缩变换)，得到64维的耳蜗图特征。

需要说明的是，第一规格和第二规格可以根据实际情况设置。可选的，第一规格的平方窗为11*11的平方窗(即一个长为11帧、宽为11个子带的平方窗)，第二规格的平方窗为23*23的平方窗(即一个长为23帧、宽为23个子带的平方窗)。

优选地，所述音频特征还包括第一差分特征、第二差分特征、所述待测音频的MFCC特征、所述待测音频的PLP特征中的任意一种或任意组合。

需要说明的是，第一差分特征是指对所述多分辨率声学特征进行一阶差分计算获得的特征，第二差分特征是指对所述多分辨率声学特征进行二阶差分计算获得的特征。MFCC特征是梅尔频率倒谱系数特征，PLP(Perceptual Linear Predict ive)是感知线性预测特征，音频特征还可以包括pitch特征。由于差分计算、MFCC特征、PLP特征等的提取方法在本领域已较为成熟，故在此不赘述例如，通过对相应的音频帧序列进行傅里叶变换、幅度平方、临界频带积分、等响度预加重和压缩、逆傅里叶变换、线性预测等系列操作提取PLP特征。

需要说明的是，音频特征还可以包括上述各种特征(MFCC特征、PLP特征、pitch特征)的一阶差分参数计算获得的特征、二阶差分参数计算获得的特征，获得相应特征对应的delta特征、delta-delta特征。

优选地，所述方法预先通过以下步骤训练所述语音检测模型：

在本实施例中，预先通过混合有语音信号样本和噪声信号样本的音频样本对语音检测模型进行训练，以使语音检测模型通过学习逐渐调整其内部参数，不但优化识别效果。

需要说明的是，语音信号样本是预先收集的纯净的语音信号，噪声信号样本也是预先收集的纯净的噪声信号，相比于随机收集现实生活带噪声的音频作为音频样本后不容易区别音频样本的语音信号和噪声信号，本申请通过人工合成的方式混合出不同信噪比的音频样本，有利于对音频样本中的各个音频帧分配相应样本标签，有利于生成大量的分配有准确的样本标签的音频样本来对语音检测模型进行训练。需要说明的是，收集到语音信号样本后，若语音信号样本中含有无声信号，进一步对语音信号样本中每一帧区分语音信号和无声信号，将更有利于提升语音检测的准确度。

可选的，可选用从TIMIT语料库获取语音信号样本，选用从NOISEX-92语料库获取噪声信号样本。可选的，为了音频样本中的语音信号样本和噪声信号样本比例均匀，可在语音信号样本的前端、后端填充固定长度的无声信号。

优选地，所述根据所述第一音频帧序列中各个音频帧的概率值，提取出所述待测音频中的语音信号，具体包括：

在本实施例中，判断某一帧音频帧时语音信号还是噪声信号时，联合该帧音频帧的前后若干帧音频帧的概率值一起判断。

优选地，所述根据所述第一概率值确定所述第一音频帧序列中的第i帧音频帧是否为语音信号，具体包括：

需要说明的是，当所述第一概率值不大于概率阈值时，可以确定所述第一音频帧序列中的第i帧音频帧为噪声信号，也可以再通过其他步骤进一步对第i帧音频帧进行补充判断，根据最后判断结果确定是否为语音信号。

需要说明的是，若根据第二音频帧序列中每一个所述音频帧的概率值来提取待测音频中的语音信号，也可以相应设置：计算所述第二音频帧序列中第i-N帧至第i+M帧的音频帧的概率值的平均值，获得第二概率值，并根据所述第二概率值确定所述第二音频帧序列中的第i帧音频帧是否为语音信号。

则，确定第二音频帧序列中的第i帧音频帧是否为语音信号时也可以同理设置，具体的，所述根据所述第二概率值确定所述第二音频帧序列中的第i帧音频帧是否为语音信号，具体包括：

当所述第二概率值大于概率阈值时，确定所述第二音频帧序列中的第i帧音频帧为语音信号。

优选地，所述语音检测模型包括基于编码器的神经网络、基于注意力机制的神经网络以及基于解码器的神经网络。

在本实施例中，基于编码器的神经网络主要用于对音频特征进行信息处理生成编码特征向量，然后将编码器特征向量输入基于注意力机制的神经网络。基于注意力机制的神经网络主要用于对编码器特征向量进行信息处理，生成注意力特征向量，然后将注意力特征向量输入基于解码器的神经网络。基于解码器的神经网络主要用于对注意力特征向量进行信息处理，生成解码特征向量。最后语音检测模型根据解码特征向量确定音频帧的概率值。

在语音检测模型训练过程中，各个神经网络对分配有样本标签的音频样本的处理过程如上述类似，但是在获得音频样本最后的概率值，预测出音频样本中各个音频帧的是否为语音信号后，将预测结果与样本标签进行对比，计算交叉熵损失，然后通过反向传播算法将残差损失反向传播到基于解码器的神经网络、基于注意力机制的神经网络、基于编码器的神经网络，利用梯度下降算法动态调整更新各个神经网络的权重参数，直至各个神经网络的权重参数更新变化很小时才停止训练。

需要说明的是，基于编码器的神经网络可选用卷积神经网络CNN、全连接神经网络FNN、长短期记忆网络LSTM或者由CNN、FNN和LSTM构成的组合神经网络。本实施例编码器神经网络参考选用transformer网络结构中的Self-attention编码网络，此时attention中地query，key，value值均对应输入的所述音频特征，通过多隐藏层计算得出编码特征向量。

需要说明的是，基于注意力机制的神经网络可选用transformer网络中的self-attention网络。此时attention中query，key，value值均对应为基于编码器的神经网络输出的编码特征向量，通过多隐藏层计算输出注意力特征向量。

需要说明的是，基于解码器的神经网络可选用transformer网络中的self-attention网络。此时attention中地query，key，value分别对应：样本标签的向量、基于注意力机制的神经网络输出的注意力特征向量、基于注意力机制的神经网络输出的注意力特征向量，通过隐藏层计算循环输出解码特征向量。

实施例二

本发明还提供了一种语音检测装置，请查阅图4，图4是本发明提供的一种语音检测装置的一个优选实施例的结构示意图；具体的，所述装置包括：

分帧模块11，用于分别按照第一帧长和第二帧长对待测音频进行分帧处理，获得第一音频帧序列和第二音频帧序列；其中，所述第一帧长小于所述第二帧长；

第一提取模块12，用于按照预设的特征提取算法，提取所述待测音频的音频特征；其中，所述音频特征包括多分辨率声学特征，所述多分辨率声学特征根据第一音频帧序列和所述第二音频帧序列中各个音频帧的耳蜗图特征生成；

概率值获得模块13，用于将所述音频特征输入预先建立的基于深度神经网络的语音检测模型，获得所述第一音频帧序列中各个音频帧的概率值；其中，所述语音检测模型预先根据不同信噪比的音频样本进行训练；

第二提取模块14，用于根据所述第一音频帧序列中各个音频帧的概率值，提取出所述待测音频中的语音信号。

优选地，所述第一提取模块12包括多分辨率声学特征提取单元，所述多分辨率声学特征提取单元具体用于：

优选地，所述装置还包括训练模块，所述训练模块用于预先通过以下步骤训练所述语音检测模型：

优选地，所述第二提取模块14具体包括：

第一确定单元，用于计算所述第一音频帧序列中第i-N帧至第i+M帧的音频帧的概率值的平均值，获得第一概率值，并根据所述第一概率值确定所述第一音频帧序列中的第i帧音频帧是否为语音信号；

提取单元，用于根据所述第一音频帧序列中确定为语音信号的音频帧，提取所述待测音频中的语音信号。

优选地，当所述第一确定单元根据所述第一概率值确定所述第一音频帧序列中的第i帧音频帧是否为语音信号时，所述第一确定单元具体用于：

本发明提供的一种语音检测装置，能够通过多分辨率声学特征和深度神经网络的语音检测模型更准确地识别出具有表达性的语音信号，提升了低信噪比下语音检测的准确度。

需要说明的是，本发明实施例提供的所述语音检测装置的功能与上述实施例所述语音检测方法的步骤相对应，两者的工作原理和有益效果一一对应，因而不再赘述。

实施例三

本发明还提供了一种电子设备，请参阅图5，图5是本发明提供的一种电子设备的一个优选实施例的结构示意图。具体的，所述电子设备包括处理器10、存储器20以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如实施例一提供的任意一项所述的语音检测方法。

具体的，该电子设备中的处理器、存储器均可以是一个或者多个。

本实施例的电子设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述实施例提供的语音检测方法中的步骤，例如图1所示的步骤S100、分别按照第一帧长和第二帧长对待测音频进行分帧处理，获得第一音频帧序列和第二音频帧序列；其中，所述第一帧长小于所述第二帧长。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能，例如实现分帧模块11，用于分别按照第一帧长和第二帧长对待测音频进行分帧处理，获得第一音频帧序列和第二音频帧序列；其中，所述第一帧长小于所述第二帧长。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元(如图5所示的计算机程序1、计算机程序2、……)，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备中的执行过程。例如，所述计算机程序可以被分帧模块11、第一提取模块12、概率值获得模块13、第二提取模块14，各模块具体功能如下：

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述电子设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例提供的语音检测方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述实施例提供的任一项语音检测方法的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，上述电子设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图5结构示意图仅仅是上述电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

实施例四

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如实施例一提供的任意一项所述的语音检测方法。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种语音检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的语音检测方法，其特征在于，所述方法通过以下步骤生成所述多分辨率声学特征：

3.如权利要求1所述的语音检测方法，其特征在于，所述音频特征还包括第一差分特征、第二差分特征、所述待测音频的MFCC特征、所述待测音频的PLP特征中的任意一种或任意组合。

4.如权利要求1所述的语音检测方法，其特征在于，所述方法预先通过以下步骤训练所述语音检测模型：

5.如权利要求1所述的语音检测方法，其特征在于，所述根据所述第一音频帧序列中各个音频帧的概率值，提取出所述待测音频中的语音信号，具体包括：

6.如权利要求5所述的语音检测方法，其特征在于，所述根据所述第一概率值确定所述第一音频帧序列中的第i帧音频帧是否为语音信号，具体包括：

7.如权利要求1-6任意一项所述的语音检测方法，其特征在于，所述语音检测模型包括基于编码器的神经网络、基于注意力机制的神经网络以及基于解码器的神经网络。

8.一种语音检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的语音检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的语音检测方法。