CN112863542B

CN112863542B - 语音检测方法和装置、存储介质及电子设备

Info

Publication number: CN112863542B
Application number: CN202110130723.3A
Authority: CN
Inventors: 张晓萌; 贾基东; 赵培; 苏腾荣
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-10-28
Anticipated expiration: 2041-01-29
Also published as: CN112863542A

Abstract

本发明公开了一种语音检测方法和装置、存储介质及电子设备。其中，该方法包括：将待识别的目标音频数据的音频特征输入循环神经网络模型，以得到识别结果，其中，所述循环神经网络模型用于识别所述目标音频数据中包含的语音帧；在从所述目标音频数据中识别出多个候选语音帧的情况下，获取所述多个候选语音帧中的每个候选语音帧对应的能量信息；根据所述每个候选语音帧对应的能量信息，确定所述每个候选语音帧是否为有效语音帧。本发明解决了语音检测结果准确率低的技术问题。

Description

语音检测方法和装置、存储介质及电子设备

技术领域

本发明涉及语音识别领域，具体而言，涉及一种语音检测方法和装置、存储介质及电子设备。

背景技术

语音信号处理技术是人机交互领域的一项关键技术，语音端点检测就是从连续的语音流中检测出有效的语音段，其中包括，检测出有效语音的起始点即前端点，检测出有效语音的结束点即后端点。在语音识别和信号处理中，检测识别出有效语音，从而在存储或传输语音的场景下，从连续的语音流中分离出有效语音，可以降低存储或传输的数据量，简化人机交互的工作量和繁琐度。因此，语音检测是语音通信、语音识别、语音编码技术中前端处理的必要环节，对后续的语音处理性能表现起着至关重要的作用。

在相关技术中，在进行语音检测时通常采用基于混合高斯模型的语音检测方法，对于每一帧输入的音频，分别计算语音的概率和噪声的概率。但是混合高斯模型的建模能力有限，无法实现对语音的精确的建模，特别是复杂的语音环境下，基于混合高斯模型的语音端点检测性能严重下降，由此导致语音检测准确率较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音检测方法和装置、存储介质及电子设备，以至少解决语音检测结果准确率低的技术问题。

根据本发明实施例的一个方面，提供了一种语音检测方法，包括：将待识别的目标音频数据的音频特征输入循环神经网络模型，以得到识别结果，其中，所述循环神经网络模型用于识别所述目标音频数据中包含的语音帧；在从所述目标音频数据中识别出多个候选语音帧的情况下，获取所述多个候选语音帧中的每个候选语音帧对应的能量信息；根据所述每个候选语音帧对应的多个能量信息，确定所述每个候选语音帧是否为有效语音帧。

可选地，所述获取所述多个候选语音帧中的每个候选语音帧对应的能量信息，包括：获取所述多个候选语音帧中的每个候选语音帧各自对应的第一能量值，并根据所述第一能量值确定第二能量值，其中，所述第一能量值用于表示所述多个候选语音帧中距离所述每个候选语音帧最近、且位于所述每个候选语音帧之前的n个语音帧的平均能量值，所述第二能量值用于表示多个所述第一能量值中的最大能量值，n为正整数、且n小于f，f为所述多个候选语音帧的帧数。

可选地，所述获取所述多个候选语音帧中的每个候选语音帧各自对应的第一能量值，并根据所述第一能量值确定第二能量值，包括：重复执行以下步骤，直至遍历所述多个候选语音帧中的全部候选语音帧：获取所述多个候选语音帧中的第i个候选语音帧对应的第一能量值，其中，i为正整数；比对所述第i个候选语音帧对应的第一能量值与历史最大能量值；在所述第i个候选语音帧对应的第一能量值大于所述历史最大能量值的情况下，将所述历史最大能量值更新为所述第i个候选语音帧对应的第一能量值；在所述第i个候选语音帧对应的第一能量值小于所述历史最大能量值的情况下，保持所述历史最大能量值不变；在遍历所述多个候选语音帧的全部候选语音帧之后，将所述历史最大能量值确定为所述第二能量值。

可选地，所述根据所述每个候选语音帧对应的能量信息，确定所述每个候选语音帧是否为有效语音帧，包括：在所述第i个候选语音帧对应的第一能量值小于a×第二能量值的情况下，确定所述第i个候选语音帧为无效语音帧，其中，0＜a＜1；在所述第i个候选语音帧对应的第一能量值大于或等于a×第二能量值的情况下，确定所述第i个候选语音帧为有效语音帧。

可选地，在将待识别的目标音频数据的信号特征输入循环神经网络模型之前，所述方法还包括：对所述目标音频数据进行分帧处理，得到多个音频帧；对所述多个音频帧分别进行预处理，得到所述多个音频帧中的每个音频帧各自对应的音频特征。

可选地，所述对所述多个音频帧分别进行预处理，得到所述多个音频帧中的每个音频帧各自对应的音频特征包括：对所述每个音频帧进行短时傅里叶变换，得到转换至频域的音频帧；对所述转换至频域的音频帧进行特征提取，得到所述每个音频帧各自对应的音频特征。

可选地，在将待识别的目标音频数据的信号特征输入循环神经网络模型之前，所述方法还包括：根据多个样本音频数据对初始循环神经网络模型进行训练，以得到训练完成后的循环神经网络模型，其中，所述多个样本音频数据包括多个语音数据以及多个噪声数据。

根据本发明实施例的另一方面，还提供了一种语音检测装置，包括：识别模块，用于将待识别的目标音频数据的音频特征输入循环神经网络模型，以得到识别结果，其中，所述循环神经网络模型用于识别所述目标音频数据中包含的语音帧；获取模块，用于在从所述目标音频数据中识别出多个候选语音帧的情况下，获取所述多个候选语音帧中的每个候选语音帧对应的能量信息；确定模块，用于根据所述每个候选语音帧对应的能量信息，确定所述每个候选语音帧是否为有效语音帧。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音检测方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的语音检测方法。

在本发明实施例中，将待识别的目标音频数据的音频特征输入循环神经网络模型，以得到识别结果，其中，所述循环神经网络模型用于识别所述目标音频数据中包含的语音帧；在从所述目标音频数据中识别出多个候选语音帧的情况下，获取所述多个候选语音帧中的每个候选语音帧对应的能量信息；根据所述每个候选语音帧对应的能量信息，确定所述每个候选语音帧是否为有效语音帧。在循环神经网络识别得到候选语音帧后，根据候选语音帧对应的能量信息再次判断候选语音帧是否为有效语音帧，通过结合识别结果和能量信息对候选语音帧进行双重判断从而提高了语音检测准确性，进而解决了语音检测结果准确率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音检测方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的语音检测方法的流程的示意图；

图3是根据本发明实施例的另一种可选的语音检测方法的流程的示意图；

图4是根据本发明实施例的又一种可选的语音检测方法的流程的示意图(一)；

图5是根据本发明实施例的又一种可选的语音检测方法的流程的示意图(二)；

图6是根据本发明实施例的又一种可选的语音检测方法的流程的示意图(三)；

图7是根据本发明实施例的一种可选的语音检测装置的结构示意图；

图8是根据本发明实施例的另一种可选的语音检测装置的结构示意图；

图9是根据本发明实施例的又一种可选的语音检测装置的结构示意图；

图10是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种语音检测方法，可选地，作为一种可选的实施方式，上述语音检测方法可以但不限于应用于如图1所示的环境中。终端设备102通过网络110与服务器112进行交互。

可选地，终端设备102获取音频数据，并将音频数据通过网络110发送给服务器112，服务器112通过网络110接收音频数据，并将音频数据输入用于识别目标音频数据中包含的语音帧的循环神经网络模型，以得到识别结果。在音频数据中识别出语音帧的情况下，获取语音帧对应的能量信息。根据能量信息确定候选语音帧是否为有效语音帧。服务器112将最终的识别结果通过网络110发送给终端设备102，以使终端设备102接收音频数据的识别结果。

可选地，在本实施例中，上述终端设备102可以是配置有具备收集和保存音频数据的设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、移动互联网设备(Mobile Internet Devices，简称为MID)、PAD、台式电脑、智能电视等。上述网络110可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器112可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图2所示，上述语音检测方法包括：

S202，将待识别的目标音频数据的音频特征输入循环神经网络模型，以得到识别结果，其中，所述循环神经网络模型用于识别所述目标音频数据中包含的语音帧；

S204，在从所述目标音频数据中识别出多个候选语音帧的情况下，获取所述多个候选语音帧中的每个候选语音帧对应的能量信息；

S206，根据所述每个候选语音帧对应的能量信息，确定所述每个候选语音帧是否为有效语音帧。

其中，目标音频数据可以但不限于是待识别语音端点的原始音频数据。目标音频数据可以是基于上述终端设备利用具备音频采集功能的客户端或自身语音采集功能获取的音频片段。目标音频数据的格式、数据量在此不作任何限定。

在上述实施例中，循环神经网络模型可以但不限于用于识别输入的音频片段中包括的语音帧。语音帧可以但不限于是包含语音的音频帧。可选地，循环神经网络模型针对输入的目标音频数据中的每一帧音频进行语音帧判断，判断结果为语音帧或非语音帧其中之一。可选地，循环神经网络模型对于判断为语音帧的音频帧识别结果设定为语音帧，判断为非语音帧的音频帧识别结果设定为非语音帧，其中，将循环神经网络模型识别到的语音帧作为候选语音帧。

作为一种可选的实施方式，在将待识别的目标音频数据的信号特征输入循环神经网络模型之前，上述实施例还用于执行以下技术方案：根据多个样本音频数据对初始循环神经网络模型进行训练，以得到训练完成后的循环神经网络模型，其中，所述多个样本音频数据包括多个语音数据以及多个噪声数据。

上述初始循环神经网络模型包括但不限于为基于Keras框架构建的循环神经网络模型。

其中，样本音频数据可以但不限于包括：噪声集合，不同对象语音集合，不同内容语音集合，不同能量语音集合。噪声集合可以但不限于包括：室外环境噪音、家居环境噪音。不同对象语音集合可以但不限于包括：男性语音、女性语音、童声语音、老人语音。不同内容语音集合可以但不限于包括：语音指令、语音唤醒、语音交互。

作为一种可选的实施方式，如图3所示，在将待识别的目标音频数据的信号特征输入循环神经网络模型之前，所述方法还包括：

S302，对所述目标音频数据进行分帧处理，得到多个音频帧；

S304，对所述多个音频帧分别进行预处理，得到所述多个音频帧中的每个音频帧各自对应的音频特征。

在上述实施例中，循环神经网络模型用于根据输入的音频特征计算得到多个音频帧各自对应的语音识别概率，其中，在语音识别概率大于第一阈值的情况下，确定音频帧为语音帧；在语音识别概率小于第一阈值的情况下，确定音频帧为非语音帧。

作为一种可选的实施方式，循环神经网络模型中包括用于对音频帧进行标签标注的语音标注工具。其中，语音标注工具在循环神经网络模型判断当前音频帧为语音帧的情况下，生成“1”标签，对当前帧进行标签标记；在循环神经网络模型判断当前帧为非语音帧的情况下，生成“0”标签，对当前帧进行标签标记。

可选地，循环神经网络模型可以但不限于设置为三层。第一全连接层接收输入的音频数据的音频特征，采用Tanh激活函数；之后利用采用ReLU激活函数的GRU(门控循环单元)层完成对音频特征的判断；最后经由一个全连接层完成语音信号存在概率的计算，其中采用Softmax函数对音频帧的后验概率分布进行建模，并输出概率结果。其中，输出的概率结果为介于0与1之间的概率值，在概率值大于或等于阈值时表示该音频帧为语音帧，小于阈值表示该音频帧为非语音帧。

作为一种可选的实施方式，如图4所示，所述对所述多个音频帧分别进行预处理，得到所述多个音频帧中的每个音频帧各自对应的音频特征包括：

S402，对所述每个音频帧进行短时傅里叶变换，得到转换至频域的音频帧；

S404，对所述转换至频域的音频帧进行特征提取，得到所述每个音频帧各自对应的音频特征。

其中，对所述转换至频域的音频帧进行特征提取，得到所述每个音频帧各自对应的音频特征包括但不限于：提取所述转换至频域的音频帧的22维的Bark频域特征(例如22个BFCC系数)，并计算22维Bark频域特征中的前6个Bark频域特征的一阶和二阶差分，6个与音频的声调特征相关的系数(包括但不限于前6组带的系数)、1个声调周期的系数、1个频谱动态特征(包括但不限于稳定性系数)，共计42个特征。

作为一种可选的实施方式，所述获取所述多个候选语音帧中的每个候选语音帧对应的能量信息，包括：获取所述多个候选语音帧中的每个候选语音帧各自对应的第一能量值，并根据所述第一能量值确定第二能量值，其中，所述第一能量值用于表示所述多个候选语音帧中距离所述每个候选语音帧最近、且位于所述每个候选语音帧之前的n个语音帧的平均能量值，所述第二能量值用于表示多个所述第一能量值中的最大能量值，n为正整数、且n小于f，f为所述多个候选语音帧的帧数。

其中，每个候选语音帧对应的能量信息包括各自对应的第一能量值以及上述第二能量值。

需要说明的是，在上述实施例中，可以设置一个大小为w(w为大于等于1的整数)的滑动窗口，通过滑动窗口的滑动，依次计算出各个候选语音帧对应的第一能量值。例如，以w＝4为例，在计算第5候选语音帧对应的第一能量值时，滑动窗口滑动至包括第1候选语音帧至第4候选语音帧，从而第5候选语音帧对应的第一能量值为第1至第4候选语音帧的平均能量；依次类推，滑动窗口向后滑动至包括第2候选语音帧至第5候选语音帧，从而可以确定出第6候选语音帧对应的第一能量值，即第2至第5候选语音帧的平均能量；直至确定出多个候选语音帧中的最后一个候选语音帧对应的第一能量值。

基于上述实施例，第i个候选语音帧对应的第一能量值可以但不限于利用以下公式计算：

其中，M代表第i个候选语音帧的前w个候选语音帧中包含的能量点

(例如采样点)的总数，|x(m)|代表第i个候选语音帧的前w个候选语音帧中的第m个能量点的能量值的绝对值。

其中，第二能量值可以但不限于利用以下公式计算:

E₂(w)＝MAX[E₁₁(w)，...，E_1f(w)] (2)

其中，f为大于等于1的正整数。

需要说明的是，如图5所示，在上述实施例中，所述获取所述多个候选语音帧中的每个候选语音帧各自对应的第一能量值，并根据所述第一能量值确定第二能量值，包括：重复执行以下步骤，直至遍历所述多个候选语音帧中的全部候选语音帧：

S502，获取所述多个候选语音帧中的第i个候选语音帧对应的第一能量值，其中，i为正整数；

S504，比对所述第i个候选语音帧对应的第一能量值与历史最大能量值；

S506，在所述第i个候选语音帧对应的第一能量值大于所述历史最大能量值的情况下，将所述历史最大能量值更新为所述第i个候选语音帧对应的第一能量值；在所述第i个候选语音帧对应的第一能量值小于所述历史最大能量值的情况下，保持所述历史最大能量值不变。

其中，在遍历所述多个候选语音帧的全部候选语音帧之后，将所述历史最大能量值确定为所述第二能量值。

作为一种可选的实施方式，所述根据所述多个候选语音帧对应的所述多个能量信息，确定所述多个候选语音帧是否为有效语音帧，包括：在所述第i个候选语音帧对应的第一能量值小于a×第二能量值的情况下，确定所述第i个候选语音帧为无效语音帧，其中，0＜a＜1；在所述第i个候选语音帧对应的第一能量值大于或等于a×第二能量值的情况下，确定所述第i个候选语音帧为有效语音帧。

作为一种可选的实施方式，a为预设值。

需要说明的是，在确定所述多个候选语音帧是否为有效语音帧之后，上述实施例还可以执行以下步骤：根据所述多个候选语音帧中的有效语音帧，确定所述目标音频数据中的语音起始点和语音结束点。从而通过上述实施例，可以检测得到目标音频数据中的前端点和后端点，因此提高了语音端点检测的准确率。

以下结合一示例，对上述实施例中的语音检测方法进行解释说明，但不用于限定本发明实施例的技术方案。如图6所示，一个可选实施例提供的语音检测方法，包括以下步骤：

步骤1、数据准备

为了保证训练的有效性，数据集的准备非常关键。为了使循环神经网络RNN模型达到最优，具有更好的鲁棒性，数据集应包含更广泛的噪声集和不同的人说话的声音等(例如以家居环境为主的噪音和相关的语音指令词语)。

可选地，训练数据集包含了205万帧的语音以及噪音的叠加，其中语音为不同地区方言的不同年龄段的男女声音录制的智能家居中的指令词，噪音为Noisex-92噪声库及100种环境噪声。

其中，标签的生成可以利用语音标注工具Praat完成，以帧为单位，非语音标为0，语音标为1；还可以对于标注结果进行修正。

步骤2、特征提取。其中，步骤2具体包括以下步骤：

步骤2.1、分帧。将输入信号切分成固定长度的小段，例如取10ms为一帧。

步骤2.2、对每帧进行短时傅里叶变换。

步骤2.3、对于每帧，提取22维的Bark频域特征、6个Bark频域特征的一阶和二阶差分、6个与音频的声调特征相关的系数、1个声调周期、1个频谱动态特征，共计42个特征。

步骤3、模型搭建及训练。其中，搭建基于Keras框架的初始RNN模型，输入端由一个全连接层接收输入信号特征，采用Tanh激活函数；之后利用RNN中的GRU层完成对信号特征的判断，采用ReLU激活函数；最后经由一个全连接层完成语音信号存在概率的计算，采用Softmax函数对输入观察样本的后验概率分布进行建模。输出的概率值可以和设定的阈值进行比较，大于阈值表示该帧为语音帧，小于阈值表示该帧为非语音帧。

模型训练时，将输入数据的特征和输入数据的标签一同放入初始循环神经网络模型中进行训练，从而得到完成训练后的神经网络模型。

步骤4、能量判别。

由于在真实的环境中，往往会存在许多低于主声源的人声背景噪声，而这些人声的干扰噪声很难进行降噪处理，所以在使用训练完成后的循环神经网络模型对目标音频数据进行识别得到识别结果后，通过增加能量判决的模块来去除识别结果中的无效语音，获得有效语音。

其中，步骤4包括以下步骤：

步骤4.1、计算短时平均能量。基于能量判别的方法采用短时平均幅度来表示能量的变化，第i个候选语音帧对应的第一能量值可以但不限于利用以下公式计算：

其中，M代表第i个候选语音帧的前w个候选语音帧中包含的能量点(例如采样点)的总数，|x(m)|代表第i个候选语音帧的前w个候选语音帧中的第m个能量点的能量值的绝对值。

作为一个可选的实施方式，当i＝1,2，……，w时，可直接设置E₁₁(w)，...，E_1w(w)均为0，即在一个可选的实施方式中，可以从候选语音帧中的第w+1个候选语音帧开始，依次确定各个候选语音帧是否为有效语音帧。

步骤4.2、更新能量的最大值。其中，第二能量值可以但不限于利用以下公式计算:

E₂(w)＝MAX[E₁₁(w)，...，E_1f(w)] (4)

步骤5、RNN模型和能量判别的结果相融合。

以RNN模型的判定为基准，若RNN模型判定为当前帧为静音，则输出为0的语音端点检测(Voice Activity Detection，简称为VAD)结果；若RNN模型判定结果为语音，则继续进行能量判断，若当前语音帧对应的第一能量值小于第二能量值的十分之一，则当前帧为无效语音，即得到为0的VAD检测结果，否则得到为1的VAD检测结果。

通过上述实施例，将RNN和能量判别的方法相结合，既可以利用循环神经网络强大的建模能力，又可以利用相邻若干帧能量的均值来区分有效语音和无效语音，从而可以达到更好的端点检测能力。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施语音检测方法的语音检测装置。如图7所示，该装置包括：

识别模块72，用于将待识别的目标音频数据的音频特征输入循环神经网络模型，以得到识别结果，其中，所述循环神经网络模型用于识别所述目标音频数据中包含的语音帧；

获取模块74，用于在从所述目标音频数据中识别出多个候选语音帧的情况下，获取所述多个候选语音帧中的每个候选语音帧对应的能量信息；

确定模块76，用于根据所述每个候选语音帧对应的能量信息，确定所述每个候选语音帧是否为有效语音帧。

其中，所述获取模块，还用于：获取所述多个候选语音帧中的每个候选语音帧各自对应的第一能量值，并根据所述第一能量值确定第二能量值，其中，所述第一能量值用于表示所述多个候选语音帧中距离所述每个候选语音帧最近、且位于所述每个候选语音帧之前的n个语音帧的平均能量值，所述第二能量值用于表示多个所述第一能量值中的最大能量值，所述多个能量信息包括所述第一能量值和所述第二能量值，n为正整数、且n小于f，f为所述多个候选语音帧的帧数。

在上述实施例中，所述获取模块，还用于：重复执行以下步骤，直至遍历所述多个候选语音帧中的全部候选语音帧：获取所述多个候选语音帧中的第i个候选语音帧对应的第一能量值，其中，i为正整数；比对所述第i个候选语音帧对应的第一能量值与历史最大能量值；在所述第i个候选语音帧对应的第一能量值大于所述历史最大能量值的情况下，将所述历史最大能量值更新为所述第i个候选语音帧对应的第一能量值；在所述第i个候选语音帧对应的第一能量值小于所述历史最大能量值的情况下，保持所述历史最大能量值不变。

其中，所述确定模块，还用于在遍历所述多个候选语音帧的全部候选语音帧之后，将所述历史最大能量值确定为所述第二能量值。

需要说明的是，所述确定模块，还用于：在所述第i个候选语音帧对应的第一能量值小于a×第二能量值的情况下，确定所述第i个候选语音帧为无效语音帧，其中，0＜a＜1；在所述第i个候选语音帧对应的第一能量值大于或等于a×第二能量值的情况下，确定所述第i个候选语音帧为有效语音帧。

在一个可选实施例中，如图8所示，所述装置还包括分帧模块82和预处理模块84，其中：

所述分帧模块，用于对所述目标音频数据进行分帧处理，得到多个音频帧；所述预处理模块，用于对所述多个音频帧分别进行预处理，得到所述多个音频帧中的每个音频帧各自对应的音频特征。

其中，所述预处理模块，还用于：对所述每个音频帧进行短时傅里叶变换，得到转换至频域的音频帧；对所述转换至频域的音频帧进行特征提取，得到所述每个音频帧各自对应的音频特征。

基于上述实施例，如图9所示，所述装置还包括训练模块92，用于根据多个样本音频数据对初始循环神经网络模型进行训练，以得到训练完成后的循环神经网络模型，其中，所述多个样本音频数据包括多个语音数据以及多个噪声数据。

根据本发明实施例的又一个方面，还提供了一种用于实施上述语音检测方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图10所示，该电子设备包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，将待识别的目标音频数据的音频特征输入循环神经网络模型，以得到识别结果，其中，所述循环神经网络模型用于识别所述目标音频数据中包含的语音帧；

S2，在从所述目标音频数据中识别出多个候选语音帧的情况下，获取所述多个候选语音帧中的每个候选语音帧对应的能量信息；

S3，根据所述每个候选语音帧对应的能量信息，确定所述每个候选语音帧是否为有效语音帧。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的语音检测方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音检测方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述语音检测装置中的识别模块72，获取模块74，和确定模块76。此外，还可以包括但不限于上述语音检测装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1008，用于显示上述待处理的订单信息；和连接总线1010，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的又一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述语音检测方面的各种可选实现方式中提供的语音检测方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音检测方法，其特征在于，包括：

将待识别的目标音频数据的音频特征输入循环神经网络模型，以得到识别结果，其中，所述循环神经网络模型用于识别所述目标音频数据中包含的语音帧；

在从所述目标音频数据中识别出多个候选语音帧的情况下，获取所述多个候选语音帧中的每个候选语音帧对应的能量信息；

根据所述每个候选语音帧对应的能量信息，确定所述每个候选语音帧是否为有效语音帧；

其中，所述获取所述多个候选语音帧中的每个候选语音帧对应的能量信息，包括：

获取所述多个候选语音帧中的每个候选语音帧各自对应的第一能量值，并根据所述第一能量值确定第二能量值，其中，所述第一能量值用于表示所述多个候选语音帧中距离所述每个候选语音帧最近、且位于所述每个候选语音帧之前的n个语音帧的平均能量值，所述第二能量值用于表示多个所述第一能量值中的最大能量值，n为正整数、且n小于f，f为所述多个候选语音帧的帧数；

其中，第i个候选语音帧对应的第一能量值利用以下公式计算：

；其中，M代表第i个候选语音帧的前w个候选语音帧中包含的能量点的总数，|x(m)|代表第i个候选语音帧的前w个候选语音帧中的第m个能量点的能量值的绝对值，所述w为大于等于1的整数；

其中，所述获取所述多个候选语音帧中的每个候选语音帧各自对应的第一能量值，并根据所述第一能量值确定第二能量值，包括：

重复执行以下步骤，直至遍历所述多个候选语音帧中的全部候选语音帧：

获取所述多个候选语音帧中的第i个候选语音帧对应的第一能量值，其中，i为正整数；

比对所述第i个候选语音帧对应的第一能量值与历史最大能量值；

在所述第i个候选语音帧对应的第一能量值大于所述历史最大能量值的情况下，将所述历史最大能量值更新为所述第i个候选语音帧对应的第一能量值；

在所述第i个候选语音帧对应的第一能量值小于所述历史最大能量值的情况下，保持所述历史最大能量值不变；

在遍历所述多个候选语音帧的全部候选语音帧之后，将所述历史最大能量值确定为所述第二能量值；

其中，所述根据所述每个候选语音帧对应的能量信息，确定所述每个候选语音帧是否为有效语音帧，包括：

在所述第i个候选语音帧对应的第一能量值小于a×第二能量值的情况下，确定所述第i个候选语音帧为无效语音帧，其中，0＜a＜1；

在所述第i个候选语音帧对应的第一能量值大于或等于a×第二能量值的情况下，确定所述第i个候选语音帧为有效语音帧。

2.根据权利要求1所述的方法，其特征在于，在将待识别的目标音频数据的信号特征输入循环神经网络模型之前，所述方法还包括：

对所述目标音频数据进行分帧处理，得到多个音频帧；

对所述多个音频帧分别进行预处理，得到所述多个音频帧中的每个音频帧各自对应的音频特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述多个音频帧分别进行预处理，得到所述多个音频帧中的每个音频帧各自对应的音频特征包括：

对所述每个音频帧进行短时傅里叶变换，得到转换至频域的音频帧；

对所述转换至频域的音频帧进行特征提取，得到所述每个音频帧各自对应的音频特征。

4.根据权利要求1至3中任一项所述的方法，其特征在于，在将待识别的目标音频数据的信号特征输入循环神经网络模型之前，所述方法还包括：

根据多个样本音频数据对初始循环神经网络模型进行训练，以得到训练完成后的循环神经网络模型，其中，所述多个样本音频数据包括多个语音数据以及多个噪声数据。

5.一种语音检测装置，其特征在于，包括：

识别模块，用于将待识别的目标音频数据的音频特征输入循环神经网络模型，以得到识别结果，其中，所述循环神经网络模型用于识别所述目标音频数据中包含的语音帧；

获取模块，用于在从所述目标音频数据中识别出多个候选语音帧的情况下，获取所述多个候选语音帧中的每个候选语音帧对应的能量信息；

确定模块，用于根据所述每个候选语音帧对应的能量信息，确定所述每个候选语音帧是否为有效语音帧；

所述获取模块，还用于获取所述多个候选语音帧中的每个候选语音帧各自对应的第一能量值，并根据所述第一能量值确定第二能量值，其中，所述第一能量值用于表示所述多个候选语音帧中距离所述每个候选语音帧最近、且位于所述每个候选语音帧之前的n个语音帧的平均能量值，所述第二能量值用于表示多个所述第一能量值中的最大能量值，n为正整数、且n小于f，f为所述多个候选语音帧的帧数；

所述获取模块，还用于：重复执行以下步骤，直至遍历所述多个候选语音帧中的全部候选语音帧：获取所述多个候选语音帧中的第i个候选语音帧对应的第一能量值，其中，i为正整数；比对所述第i个候选语音帧对应的第一能量值与历史最大能量值；在所述第i个候选语音帧对应的第一能量值大于所述历史最大能量值的情况下，将所述历史最大能量值更新为所述第i个候选语音帧对应的第一能量值；在所述第i个候选语音帧对应的第一能量值小于所述历史最大能量值的情况下，保持所述历史最大能量值不变；

所述确定模块，还用于在遍历所述多个候选语音帧的全部候选语音帧之后，将所述历史最大能量值确定为所述第二能量值；

所述确定模块，还用于：在所述第i个候选语音帧对应的第一能量值小于a×第二能量值的情况下，确定所述第i个候选语音帧为无效语音帧，其中，0＜a＜1；在所述第i个候选语音帧对应的第一能量值大于或等于a×第二能量值的情况下，确定所述第i个候选语音帧为有效语音帧；

；其中，M代表第i个候选语音帧的前w个候选语音帧中包含的能量点的总数，|x(m)|代表第i个候选语音帧的前w个候选语音帧中的第m个能量点的能量值的绝对值，所述w为大于等于1的整数。

6.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至4任一项中所述的方法。

7.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至4任一项中所述的方法。