CN111883181A

CN111883181A - 音频检测方法、装置、存储介质及电子装置

Info

Publication number: CN111883181A
Application number: CN202010617430.3A
Authority: CN
Inventors: 张晓萌; 马路; 赵培; 苏腾荣
Original assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-11-03

Abstract

本发明实施例提供了一种音频检测方法、装置、存储介质及电子装置，其中，该方法包括：获取目标音频的信号特征；使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音，其中，所述第一模型为使用多组数据对初始模型进行机器学习训练后得到的模型，所述多组数据中的每组数据均包括：音频和用于标识音频中是否包括语音的标识信息，所述初始模型包括第一全连接层和第二全连接层。通过本发明，解决了相关技术中存在的对音频中是否存在语音检测不准确的问题，达到准确检测语音的效果。

Description

音频检测方法、装置、存储介质及电子装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种音频检测方法、装置、存储介质及电子装置。

背景技术

语音信号处理技术是当今人机交互领域的一项关键技术，例如，其中包括的语音端点检测就是从连续的语音流中检测出有效的语音段。它包括两个方面：检测出有效语音的起始点，即前端点；检测出有效语音的结束点，即后端点。在语音应用中进行语音的端点检测是很必要的。在存储或传输语音的场景下，从连续的语音流中分离出有效语音，可以降低存储或传输的数据量，简化人机交互。因此，语音端点检测是语音通信、语音识别、语音编码技术中前端处理的必要环节，对后续的语音处理性能表现起着至关重要的作用。

在相关技术中，语音端点检测方法主要采用的是开源工具WebRTC中的端点检测方法。其主要原理是将信号在频谱上进行子带划分为80Hz～250Hz，250Hz～500Hz，500Hz～1K，1K～2K，2K～3K，3K～4K六个频带，分别将计算得到的每个频带能量作为特征；通过假设检验，构建了噪声和语音两个假设，从而对每个子带构建由2个高斯分布组合的噪声和语音的混合高斯分布模型。通过极大似然估计对模型进行自适应学习优化，并通过概率比判决推断。由于常规的基于混合高斯模型的语音端点检测方法，采用混合高斯模型分别语音和噪声进行建模，对于每一帧输入的音频，分别计算语音的概率和噪声的概率，之后计算两种概率的似然比；结果与阈值进行比较，大于阈值判定为语音，小于阈值判定为静音。然而，由于混合高斯模型的建模能力有限，无法实现对语音的精确的建模，特别是复杂的语音环境下，基于混合高斯模型的语音端点检测性能严重下降。

由此可知，在相关技术中存在对音频中是否存在语音检测不准确的问题。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频检测方法、装置、存储介质及电子装置，以至少解决相关技术中存在的对音频中是否存在语音检测不准确的问题。

根据本发明的一个实施例，提供了一种音频检测方法，包括：获取目标音频的信号特征；使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音，其中，所述第一模型为使用多组数据对初始模型进行机器学习训练后得到的模型，所述多组数据中的每组数据均包括：音频和用于标识音频中是否包括语音的标识信息，所述初始模型包括第一全连接层和第二全连接层。

根据本发明的另一个实施例，提供了一种音频检测装置，包括：获取模块，用于获取目标音频的信号特征；检测模块，用于使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音，其中，所述第一模型为使用多组数据对初始模型进行机器学习训练后得到的模型，所述多组数据中的每组数据均包括：音频和用于标识音频中是否包括语音的标识信息，所述初始模型包括第一全连接层和第二全连接层。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述方法实施例中的步骤。

通过本发明，利用第一模型对获取到的目标音频的信号特征进行检测，确定目标音频中是否包括语音，其中，第一模型是使用多组数据对初始模型进行训练得到的模型，由于第一模型时通过利用多组数据训练得到的，可以识别不同环境的音频端点，对环境噪声有更强的鲁棒性，因此，可以解决相关技术中存在的对音频中是否存在语音检测不准确的问题，达到准确检测语音的效果。

附图说明

图1是本发明实施例的一种音频检测方法的移动终端的硬件结构框图；

图2是根据本发明实施例的音频检测方法的流程图；

图3是根据本发明示例性实施例的在使用第一模型对所述信号特征进行检测之前的流程图；

图4是根据本发明示例性实施例的搭建包括所述第一全连接层和所述第二全连接层的所述初始模型的流程图；

图5是根据本发明示例性实施例的获取目标音频的信号特征流程图；

图6是根据本发明示例性实施例的使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音流程图；

图7是根据本发明示例性实施例的分别获取多个所述音频段中包括的信号特征流程图；

图8是根据本发明示例性实施例的获取音频的Fbank特征方法流程图；

图9是根据本发明具体实施例的音频检测方法流程图；

图10是根据本发明实施例的音频检测装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种音频检测方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的音频检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种音频检测方法，图2是根据本发明实施例的音频检测方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取目标音频的信号特征；

步骤S204，使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音，其中，所述第一模型为使用多组数据对初始模型进行机器学习训练后得到的模型，所述多组数据中的每组数据均包括：音频和用于标识音频中是否包括语音的标识信息，所述初始模型包括第一全连接层和第二全连接层。

在上述实施例中，目标音频可以是手动输入的音频或者是通过其他方式输入的音频，还可以是自主采集到的环境中的声音，或者采集到的由其他播放设备播放的音频等，第一模型可以是基于深度神经网络(DeepNeural Networks，简称为DNN)的语音端点检测(Voice Activity Detection，简称为VAD)模型。

在上述实施例中，为了保证训练的有效性，多组数据的准备非常关键。为了使第一模型的检测效果达到最优，具有更好的鲁棒性，多组数据可以是对噪声集和语音集进行叠加后得到的数据，即多组数据中包含更广泛的噪声集和不同的人说话的声音等，当第一模型应用在家居环境时，噪声集可以是以家居环境为主的噪音，语音集可以是家居指令。当第一模型应用在办公环境时，噪声数据库可以是以办公环境为主的噪音，语音集可以是办公指令。此外，第一模型还可以应用在其他环境中，则噪声数据库和语音集即为与该环境对应的噪音和指令。示例性的，当第一模型应用在家居环境时，多组数据可以是包含预定时长的语音集以及噪音集的叠加，预定时长可以是2h10min(该时长仅是一种示例性的实施方式，具体时长可以根据第一模型的应用场景不同，选择不同时长的多组数据，例如，多组数据的时长还可以是2h，2h30min等)，在进行训练之前，可以先将多组数据进行帧的区分，例如，划分10ms为一帧(该取值仅是一种示例性的实施方式，例如，还可以划分8ms为一帧，15ms为一帧)。其中，语音集可以为男女声音录制的智能家居中的指令词，噪音可以为Noisex-92及100种环境噪声。

在上述实施例中，对初始模型进行训练时，为了得到每一帧语音在初始模型上的目标输出值(标准值)，可以提前对多组数据标注好标签(对应于上述标识信息)，即每个语音帧上分别对应非语音(0)或语音(1)，然后，以此状态作为标签，训练一个基于初始模型的第一模型。初始模型的优化目标函数可以采用最小交叉熵(cross-entropy，简称为CE)准则和最小均方误差(mean square error，简称为MSE)准则。其中，多组数据中包括的标识信息可以利用语音标注工具Praat完成，以帧为单位，非语音标为0，语音标为1。由于标注工具在叠加噪音的情况下对语音和非语音的判断存在误差，因此，可以手动修正音频数据的标识信息。

示例性的，上述步骤的执行主体可以是后台处理器，或者其他的具备类似处理能力的设备，还可以是至少集成有音频获取设备以及数据处理设备的机器，其中，音频获取设备可以包括麦克风等音频采集模块，数据处理设备可以包括计算机、手机等终端，但不限于此。

在一个示例性实施例中，在使用第一模型对所述信号特征进行检测之前的流程图可参见附图3，如图3所示，所述方法还包括：

步骤S302，搭建包括所述第一全连接层和所述第二全连接层的所述初始模型；其中，所述第一全连接层用于接收音频的信号特征，所述第二全连接层用于基于所述信号特征确定语音信号存在概率，基于确定的语音存在概率来确定音频中是否包括语音。

在本实施例中，在获取到多组数据后，在初始模型中，可以先进行特征的提取，再由对提取的特征进行综合评定，即，可以由第一全连接层接收音频的信号特征，由第二全连接层基于信号特征检测出每一帧语音信号的存在概率，输出检测结果，初始模型可以依次对每一帧进行类似的处理，然后依次输出每一帧的检测结果。例如，输出的检测结果可以为语音概率以及非语音概率，语音概率和非语音概率可以设置在0-1之间，两个概率之和为1，若语音概率大于等于非语音的概率，则确定音频中包括语音，若语音概率小于非语音概率，则确定音频中不包括语音。

在一个示例性实施例中，搭建包括所述第一全连接层和所述第二全连接层的所述初始模型的流程图可参见附图4，如图4所示，该流程包括：

步骤S402，搭建基于Keras框架的包括所述第一全连接层和所述第二全连接层的所述初始模型，其中，所述第一全连接层中配置有sigmoid激活函数，所述第二全连接层中配置有softmax函数。

在本实施例中，可以搭建基于Keras框架的DNN模型，一共两层全连接层，输入端可以由一个全连接层接收输入信号特征，例如，采用sigmoid激活函数接收输入信号特征，最后可以经由一个全连接层完成语音信号存在概率的计算，例如，采用Softmax函数对输入观察样本的后验概率分布进行建模。利用DNN模型可以从原始数据中学习层次特征的能力，可以在初级特征(FBank)上学习VAD分类模型，避免人为设计特征的困难；另一方面，DNN具有学习各种复杂信号模式的能力，这可以被利用到在同一模型学习多种差异性噪声特性，从而解决传统VAD方法对不同噪声需要分别设计区分性特征的困难。

在一个示例性实施例中，获取目标音频的信号特征流程图可参见附图5，如图5所示，该流程包括：

步骤S502，按照预定时长对所述目标音频进行分段以得到多个音频段，以及分别获取多个所述音频段中包括的信号特征；

使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音流程图可参见附图6，如图6所示，该流程包括：

步骤S602，使用第一模型分别对多个所述音频段中包括的信号特征进行检测，以分别确定多个所述音频段中是否包括语音。

在本实施例中，可以对输入的目标音频按照预定时长进行分段处理，获取每个音频段中的信号特征，利用第一模型分别对多个音频段中包括的信号特征进行检测，确定出多个音频中是否包括语音，其中，预定时长可以为10ms，该取值仅是一种示例性的实施方式，本发明对该时长不做限制，具体可以根据第一模型的应用场景进行设置，例如，还可以设置为5ms，15ms等。

在一个示例性实施例中，分别获取多个所述音频段中包括的信号特征流程图可参见附图7，如图7所示，针对多个所述音频段中包括的任一第一音频段，均执行以下操作，以获取多个所述音频段中包括的信号特征，该操作包括：

步骤S702，获取所述第一音频段的第一Fbank特征及与所述第一音频段相邻的第二音频段的第二Fbank特征；

步骤S704，分别对所述第一Fbank特征及所述第二Fbank特征进行第一处理以得到第一特征信号及第二特征信号；

步骤S706，将所述第一特征信号以及所述第二特征信息确定为所述第一音频段中包括的信号特征。

在本实施例中，获取到第一音频段的Fbank特征以及与第一音频段相邻的第二音频段的Fbank特征后，可以对Fbank特征进行差分处理得到特征信号，将得到的特征信号确定为第一音频段的信号特征，对第一音频段中包括的所有音段均进行上述操作，得到目标音频的信号特征。其中，获取音频的Fbank特征方法流程图可参见附图8，如图8所示，该流程包括：

步骤S802，输入连续语音数据。

步骤S804，分帧。对输入信号(语音信号和参考信号，即语音集和噪声集叠加后的信号，对应于上述目标音频)切分成固定长度的小段，取10ms为一帧。

步骤S806，预增强。将语音信号通过一个高通滤波器，来增强语音信号中的高频部分，并保持在低频到高频的整个频段中，能够使用同样的信噪比求频谱。数学公式如下：

s(n)＝s(n)-k*s(n-1) (1)

其中，s(n)表示当前帧的语音信号，等号左边的s(n)表示增强后的语音信号，等号右边的s(n)表示增强前的语音信号，k是预增强系数，取0.97，n是每一帧的长度。同时，预增强也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，突出高频的共振峰。

步骤S808，加窗。语音在长范围内是不停变动的，没有固定的特性无法做处理，所以将每一帧代入窗函数，其目的是消除各个帧两端可能会造成的信号不连续性。

步骤S810，短时傅里叶变换。为了提取Fbank特征，首先需要将时域信号转换为频域信号。傅里叶变换可以将信号从时域转到频域。

步骤S812，Mel滤波。将能量谱通过一组Mel尺度的三角形滤波器组，Mel带通滤波器可以对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。此外，还可以降低运算量。一帧Fbank特征是Mel滤波之后特征向量的维度为29，或其他维度。

步骤S814，对数运算。取步骤S812结果的对数。它是对纵轴的放缩，可以放大低能量处的能量差异。

在一个示例性实施例中，所述第二音频段包括以下至少之一：位于所述第一音频段之前的且与所述第一音频段相邻的一个或多个音频段；位于所述第一音频段之后的且与所述第一音频段相邻的一个或多个音频段。在本实施例中，第二音频段的可以是与第一音频段相邻的一个或多个音频段，例如，当第二音频段为2个频段时，第二音频段可以包括位于第一音频段之前的且与第一音频段相邻的音频段，和位于第一音频段之后的且与第一音频段相邻的音频段，即，如果对音频段依次编号，当第一音频段为3号，第二音频段包括两个音频段时，第二音频段包括的音频段为2号和4号，当第二音频段包括四个音频段时，第二音频段包括的音频段为1号、2号、4号和5号。

在一个示例性实施例中，分别对所述第一Fbank特征及所述第二Fbank特征进行第一处理以得到第一特征信号及第二特征信号包括：对所述第一Fbank特征进行第一预定次数的差分处理，以得到所述第一特征信号；以及对所述第二Fbank特征进行第二预定次数的差分处理，以得到所述第二特征信号。在本实施例中，第一处理可以为差分处理，第一预定次数可以为1次，2次或3次等，第二预定次数可以为1次，2次或3次等，第一预定次数和第二预定次数可以相同，也可以不同，本发明对第一处理的次数不做限制，具体可以根据应用的场景设置不同的次数，次数越多，得到的特征越准确。标准的倒谱参数FBank只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。例如，当第一模型为深度神经网络模型，第二音频段包括两个音频段，第一预定次数和第二预定次数为2时，一帧FBank的特征是29维(或其他维度)，之后做了两次差分，是29×3；最后联合了前后各一帧的特征，一共3帧，所以，每一帧的特征是29×3×3，共计261个特征，在实际操作时，还可以根据实际情况联合更多帧的特征，例如，联合前边相邻的两帧以及后边相邻的两帧的特征，一共得到的是5帧。

下面结合具体实施例对如何检测音频进行说明，图9是根据本发明具体实施例的音频检测方法流程图，如图9所示，该流程包括：

步骤S902，输入音频。

步骤S904，提取音频的信号特征。

步骤S906，第一全连接层采用sigmoid激活函数接收输入信号特征。

步骤S908，第二全连接层采用Softmax函数计算语音信号存在的概率。

步骤S910，输出为两个0-1之间的概率，概率之和为1。若语音的概率大于非语音的概率则判断为语音，若语音的概率小于非语音的概率则为非语音。

在前述实施例中，第一模型可以采用DNN模型，DNN模型具有一些明显的优势，首先，DNN是一种判别模型，自身便带有区分性，可以更好区分标注类别；其次，DNN在大数据上有非常优异的表现，伴随着数据量的不断增加，高斯混合模型在2000小时左右便会出现性能的饱和，而DNN模型在数据量增加到1万小时以上时还能有性能的提升；另外，DNN模型有更强的对环境噪声的鲁棒性，通过加噪训练等方式，DNN模型在复杂环境下的识别性要优于语音增强算法处理的混合高斯模型。基于DNN的语音端点检测方法采用含多个隐藏层的神经网络对语音进行建模，DNN的输入是传统的语音波形经过加窗、分帧，然后提取出来的频谱特征，如MFCC(梅尔频率倒谱系数)、PLP(分级协议)或更底层的滤波器组(filter bank，FBK)声学特征等。FBK特征多利用Mel滤波器组在功率谱上进行滤波并计算对数能量，然后采用其规整值来表示。与传统的混合高斯模型采用单帧特征作为输入不同，DNN将相邻的若干帧进行拼接来得到一个包含更多信息的输入向量，从而可以达到更好的端点检测能力。

在前述实施例中，采用深度神经网络实现对语音和噪声建模，进而实现对语音的检测，由于基于DNN模型的输入可以采用连续的帧，能够更好地利用上下文的信息。并且，DNN具有分层学习能力和区分性的建模能力，基于大规标注的语料库，能够利用DNN从初级FBank特征中学习多种语音和非语音模式，从而实现帧层次上的语音/非语音判决，进而实现适用于差异化复杂噪声环境中的端点检测。此外，DNN网络结构仅含有两层全连接层，直接将模型的结果输出，模型物理意义明确，算法结构简单，易于实现。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种音频检测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图10是根据本发明实施例的音频检测装置的结构框图，如图10所示，该装置包括：

获取模块1002，用于获取目标音频的信号特征；

检测模块1004，用于使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音，其中，所述第一模型为使用多组数据对初始模型进行机器学习训练后得到的模型，所述多组数据中的每组数据均包括：音频和用于标识音频中是否包括语音的标识信息，所述初始模型包括第一全连接层和第二全连接层。

在上述实施例中，目标音频可以是手动输入的音频或者是通过其他方式输入的音频，还可以是自主采集到的环境中的声音，或者采集到的由其他播放设备播放的音频等，第一模型可以是基于深度神经网络(Deep Neural Networks，简称为DNN)的语音端点检测(Voice Activity Detection，简称为VAD)模型。

在一个示例性实施例中，所述装置可以用于在使用第一模型对所述信号特征进行检测之前，搭建包括所述第一全连接层和所述第二全连接层的所述初始模型；其中，所述第一全连接层用于接收音频的信号特征，所述第二全连接层用于基于所述信号特征确定语音信号存在概率，基于确定的语音存在概率来确定音频中是否包括语音。

在一个示例性实施例中，所述装置可以通过如下方式实现搭建包括所述第一全连接层和所述第二全连接层的所述初始模型：搭建基于Keras框架的包括所述第一全连接层和所述第二全连接层的所述初始模型，其中，所述第一全连接层中配置有sigmoid激活函数，所述第二全连接层中配置有softmax函数。

在一个示例性实施例中，所述获取模块1002可以通过如下方式实现获取目标音频的信号特征：按照预定时长对所述目标音频进行分段以得到多个音频段，以及分别获取多个所述音频段中包括的信号特征；所述检测模块1004可以通过如下方式实现使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音：使用第一模型分别对多个所述音频段中包括的信号特征进行检测，以分别确定多个所述音频段中是否包括语音。

在一个示例性实施例中，所述获取模块1002可以通过如下方式实现分别获取多个所述音频段中包括的信号特征：针对多个所述音频段中包括的任一第一音频段，均执行以下操作，以获取多个所述音频段中包括的信号特征：获取所述第一音频段的第一Fbank特征及与所述第一音频段相邻的第二音频段的第二Fbank特征；分别对所述第一Fbank特征及所述第二Fbank特征进行第一处理以得到第一特征信号及第二特征信号；将所述第一特征信号以及所述第二特征信息确定为所述第一音频段中包括的信号特征。

在一个示例性实施例中，所述第二音频段包括以下至少之一：位于所述第一音频段之前的且与所述第一音频段相邻的一个或多个音频段；位于所述第一音频段之后的且与所述第一音频段相邻的一个或多个音频段。

在一个示例性实施例中，所述获取模块1002可以通过如下方式实现分别对所述第一Fbank特征及所述第二Fbank特征进行第一处理以得到第一特征信号及第二特征信号：对所述第一Fbank特征进行第一预定次数的差分处理，以得到所述第一特征信号；以及对所述第二Fbank特征进行第二预定次数的差分处理，以得到所述第二特征信号。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频检测方法，其特征在于，包括：

获取目标音频的信号特征；

使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音，其中，所述第一模型为使用多组数据对初始模型进行机器学习训练后得到的模型，所述多组数据中的每组数据均包括：音频和用于标识音频中是否包括语音的标识信息，所述初始模型包括第一全连接层和第二全连接层。

2.根据权利要求1所述的方法，其特征在于，在使用第一模型对所述信号特征进行检测之前，所述方法还包括：

搭建包括所述第一全连接层和所述第二全连接层的所述初始模型；

其中，所述第一全连接层用于接收音频的信号特征，所述第二全连接层用于基于所述信号特征确定语音信号存在概率，基于确定的语音存在概率来确定音频中是否包括语音。

3.根据权利要求2所述的方法，其特征在于，搭建包括所述第一全连接层和所述第二全连接层的所述初始模型包括：

搭建基于Keras框架的包括所述第一全连接层和所述第二全连接层的所述初始模型，其中，所述第一全连接层中配置有sigmoid激活函数，所述第二全连接层中配置有softmax函数。

4.根据权利要求1所述的方法，其特征在于，

获取目标音频的信号特征包括：按照预定时长对所述目标音频进行分段以得到多个音频段，以及分别获取多个所述音频段中包括的信号特征；

使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音包括：使用第一模型分别对多个所述音频段中包括的信号特征进行检测，以分别确定多个所述音频段中是否包括语音。

5.根据权利要求4所述的方法，其特征在于，分别获取多个所述音频段中包括的信号特征包括：

针对多个所述音频段中包括的任一第一音频段，均执行以下操作，以获取多个所述音频段中包括的信号特征：

获取所述第一音频段的第一Fbank特征及与所述第一音频段相邻的第二音频段的第二Fbank特征；

分别对所述第一Fbank特征及所述第二Fbank特征进行第一处理以得到第一特征信号及第二特征信号；

将所述第一特征信号以及所述第二特征信息确定为所述第一音频段中包括的信号特征。

6.根据权利要求5所述的方法，其特征在于，所述第二音频段包括以下至少之一：

位于所述第一音频段之前的且与所述第一音频段相邻的一个或多个音频段；

位于所述第一音频段之后的且与所述第一音频段相邻的一个或多个音频段。

7.根据权利要求5所述的方法，其特征在于，分别对所述第一Fbank特征及所述第二Fbank特征进行第一处理以得到第一特征信号及第二特征信号包括：

对所述第一Fbank特征进行第一预定次数的差分处理，以得到所述第一特征信号；以及

对所述第二Fbank特征进行第二预定次数的差分处理，以得到所述第二特征信号。

8.一种音频检测装置，其特征在于，包括：

获取模块，用于获取目标音频的信号特征；

检测模块，用于使用第一模型对所述信号特征进行检测，以确定所述目标音频中是否包括语音，其中，所述第一模型为使用多组数据对初始模型进行机器学习训练后得到的模型，所述多组数据中的每组数据均包括：音频和用于标识音频中是否包括语音的标识信息，所述初始模型包括第一全连接层和第二全连接层。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。