CN110992979B

CN110992979B - 一种检测方法、装置和电子设备

Info

Publication number: CN110992979B
Application number: CN201911207666.3A
Authority: CN
Inventors: 朱紫薇; 潘逸倩; 刘忠亮; 唐文琦
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-04-08
Anticipated expiration: 2039-11-29
Also published as: CN110992979A

Abstract

本发明实施例提供了一种检测方法、装置和电子设备，其中，所述方法包括：获取待检测语音数据；依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成；进而本发明实施例能够对不同长度的音频事件均可以进行拟合，从而提高了检测不同长度音频事件的准确性。

Description

一种检测方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种检测方法、装置和电子设备。

背景技术

在声学监视、健康监控、以及城市声音分析等各种场景中，常常会使用到音频事件检测，以检测出对应的音频事件；例如掌声、笑声、欢呼声、婴儿哭声、狗叫声等等。

现有技术中，通常将基于深度学习的模型深度卷积网络(Convolutional NeuralNetwork，CNN)和深度循环网络(RecurrentNeuralNetwork，RNN)模型进行结合，进行音频事件检测。其中，不同音频事件的长度可能不一致，比如笑声大多数小于4s，而掌声大多数多于4s；且同一音频事件的长度也可能不一致，例如笑声可能为2s，也可能为3s。而CNN的视野小，相对于长度较大音频事件，现有技术对长度较小的音频事件检测的准确率更高。若需要提高对长度较大的音频事件检测的准确率，可以加深CNN，来增加CNN的视野；而不同的视野会影响RNN对音频事件位置的判断，这会影响对长度较小的音频事件的检测。

发明内容

本发明实施例提供一种检测方法，以提高检测不同长度音频事件的准确性。

相应的，本发明实施例还提供了一种检测装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种检测方法，具体包括：获取待检测语音数据；依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成。

可选地，所述初始音频事件检测模型包括第一检测模型和第二检测模型，所述的方法还包括：将所述预设模型整合在所述第一检测模型和第二检测模型之间。

可选地，所述依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息，包括：从所述待检测语音数据中提取初始语音特征；将所述初始语音特征输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征；将所述基础语音特征输入至所述预设模型中进行不同视野的特征提取，得到对应的中级语音特征；将所述中级语音特征输入至所述第二检测模型进行拟合，输出所述待检测语音数据中各帧音频对应的音频事件概率信息；依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息。

可选地，所述将所述初始语音特征输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征，包括：截取多个初始语音特征片段；依次将截取的每个初始语音特征片段输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征。

可选地，所述音频事件概率信息包括多类音频事件的概率；所述依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息，包括：针对所述待检测语音数据中的每一帧音频，对所述帧音频对应的各类音频事件的概率进行滤波；以及依据各类音频事件滤波后的概率，确定所述帧音频对应的目标音频事件；依据所述各帧音频对应的目标音频事件和帧标识，确定所述待检测语音数据的音频事件信息；其中，所述音频事件信息包括音频事件和音频事件对应的起止时间。

可选地，所述依据各类音频事件滤波后的概率，确定所述帧音频对应的目标音频事件，包括：分别将所述帧音频对应的各类音频事件滤波后的概率与对应类音频事件的概率阈值进行比对，确定所述帧音频对应的各类音频事件的预测结果；分别对所述帧音频对应的各类音频事件的预测结果进行滤波，确定所述帧音频对应的目标音频事件。

可选地，所述滤波为中值滤波。

可选地，还包括训练所述目标音频事件检测模型的步骤：收集音频事件数据和其他语音数据；将所述音频事件数据作为正样例和将所述其他语音数据作为负样例，对所述目标音频事件检测模型进行训练。

本发明实施例还公开了一种检测装置，具体包括：获取模块，用于获取待检测语音数据；检测模块，用于依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成。

可选地，所述初始音频事件检测模型包括第一检测模型和第二检测模型，所述的装置还包括：整合模块，用于将所述预设模型整合在所述第一检测模型和第二检测模型之间。

可选地，所述检测模块，包括：初始特征提取子模块，用于从所述待检测语音数据中提取初始语音特征；基础特征提取子模块，用于将所述初始语音特征输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征；中级特征提取子模块，用于将所述基础语音特征输入至所述预设模型中进行不同视野的特征提取，得到对应的中级语音特征；概率信息确定子模块，用于将所述中级语音特征输入至所述第二检测模型进行拟合，输出所述待检测语音数据中各帧音频对应的音频事件概率信息；事件信息确定子模块，用于依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息。

可选地，所述基础特征提取子模块，用于截取多个初始语音特征片段；依次将截取的每个初始语音特征片段输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征。

可选地，所述音频事件概率信息包括多类音频事件的概率；所述事件信息确定子模块，包括：概率滤波单元，用于针对所述待检测语音数据中的每一帧音频，对所述帧音频对应的各类音频事件的概率进行滤波；音频事件确定单元，用于依据各类音频事件滤波后的概率，确定所述帧音频对应的目标音频事件；音频事件信息确定单元，用于依据所述各帧音频对应的目标音频事件和帧标识，确定所述待检测语音数据的音频事件信息；其中，所述音频事件信息包括音频事件和音频事件对应的起止时间。

可选地，所述音频事件确定单元，用于分别将所述帧音频对应的各类音频事件滤波后的概率与对应类音频事件的概率阈值进行比对，确定所述帧音频对应的各类音频事件的预测结果；分别对所述帧音频对应的各类音频事件的预测结果进行滤波，确定所述帧音频对应的目标音频事件。

可选地，所述滤波为中值滤波。

可选地，所述的装置还包括：训练模块，用于收集音频事件数据和其他语音数据；将所述音频事件数据作为正样例和将所述其他语音数据作为负样例，对所述目标音频事件检测模型进行训练。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的检测方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待检测语音数据；依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成。

可选地，所述初始音频事件检测模型包括第一检测模型和第二检测模型，还包含用于进行以下操作的指令：将所述预设模型整合在所述第一检测模型和第二检测模型之间。

可选地，所述滤波为中值滤波。

可选地，还包含用于进行以下训练所述目标音频事件检测模型的指令：收集音频事件数据和其他语音数据；将所述音频事件数据作为正样例和将所述其他语音数据作为负样例，对所述目标音频事件检测模型进行训练。

本发明实施例包括以下优点：

本发明实施例中，可以获取待检测语音数据，然后依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成的，进而本发明实施例能够对不同长度的音频事件均可以进行拟合，从而提高了检测不同长度音频事件的准确性。

附图说明

图1是本发明的一种检测方法实施例的步骤流程图；

图2a是本发明实施例的一种目标音频事件检测模型的结构框图；

图2b是本发明的一种目标音频事件检测训练方法实施例的结构框图；

图3a是本发明的一种检测方法可选实施例的步骤流程图；

图3b是本发明实施例的一种预设模型的结构框图；

图4是本发明的一种检测装置实施例的结构框图；

图5是本发明的一种检测装置可选实施例的结构框图；

图6根据一示例性实施例示出的一种用于检测的电子设备的结构框图；

图7是本发明根据另一示例性实施例示出的一种用于检测的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，通过将可覆盖不同视野的预设模型与初始音频事件检测模型进行整合，对语音数据进行音频事件检测，实现对不同长度的音频事件均的拟合，从而提高检测不同长度音频事件的准确性。

参照图1，示出了本发明的一种检测方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取待检测语音数据。

本发明实施例中，当需要对某一段语音数据进行音频事件检测时，可以获取该段语音数据，并将该段需要进行音频事件检测的语音数据称为待检测语音数据；再执行步骤104，对所述待检测语音数据进行音频事件检测。其中，所述音频事件可以如笑声、掌声、欢呼声、哭声等等，本发明实施例对此不作限制。

步骤104、依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成。

本发明实施例中，可以获取预先已训练的初始音频事件检测模型；然后将初始音频事件检测模型与预设模型进行整合，得到目标音频事件检测模型并对所述目标音频事件检测模型进行训练。其中，所述预设模型可以包括可覆盖不同视野的模型，如Inception模型，本发明实施例对此不作限制。

在获取待检测语音数据后，可以采用训练后的目标音频事件检测模型对所述待处理语音数据进行音频事件检测，确定该待检测语音数据对应的音频事件信息。其中，所述音频事件信息可以包括音频事件和音频事件对应的起止时间；所述音频事件可以为一类或多类，每一类音频事件可以对应一段或多段起止时间。

作为本发明的一个示例，对一段2分钟的演讲中的掌声进行检测；则可以获取该段演讲的录音数据(时长为2分钟)，将该段录音数据确定为待检测语音数据。然后可以依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；例如音频事件信息：音频事件(掌声)，起止时间(10s～15s、40s～45s、80s～85s、90s～95s、110s～120s)。

综上，本发明实施例中，可以获取待检测语音数据，然后依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成的，进而本发明实施例能够对不同长度的音频事件均可以进行拟合，从而提高了检测不同长度音频事件的准确性。

本发明一个可选实施例中，所述初始音频事件检测模型可以包括第一检测模型和第二检测模型，一种将初始音频事件检测模型和覆盖不同视野的预设模型整合的方式可以是：将所述预设模型整合在所述第一检测模型和第二检测模型之间。对应的，目标音频事件检测模型的结构可以为：第一检测模型-预设模型-第二检测模型，即第一检测模型的输出端与预设模型的输入端连接，预设模型的输出端与第二检测模型的输入端连接。如图2a所示。

本发明的一个示例中，所述第一检测模型可以是CNN，第二检测模型可以是RNN。又一个示例中，所述第一检测模型可以是GRU(Gated Recurrent Units，门控循环单元)，第二检测模型可以是RNN。再一个示例中，所述第一检测模型可以是CNN或GLU(Gated LinearUnits，门控线性单元)，第二检测模型可以是BiGRU(双向GRU)；等等，本发明实施例对第一检测模型和第二检测模型不作限制。本发明实施例中，所述预设模型可以是Inception模型，当然也可以是其他可以覆盖不同视野的模型，本发明实施例对预设模型也不作限制。

以下对如何训练目标音频事件检测模型进行说明。

参照图2b，示出了本发明的一种目标音频事件检测模型训练方法实施例的步骤流程图，具体可以包括如下步骤：

步骤202、收集音频事件数据和其他语音数据。

本发明实施例中，可以在通用场景下，收集音频事件数据和其他语音数据，然后采用音频事件数据和其他语音数据对目标音频事件检测模型进行训练。

本发明实施例中，可以预先将音频事件划分为N+1类；其中，第一类至第N类的音频事件中，每一类音频事件可以对应一个音频事件，第N+1类音频事件中包括除第一类至第N类对应的音频事件之外的所有音频事件；其中，N为正整数。其中，所述音频事件数据可以是指包含上述第1～N类中至少一类音频事件的语音数据，所述其他语音数据可以是指包含上述第N+1类音频事件的语音数据，如噪声数据、音乐等，本发明实施例对此不作限制。

步骤204、将所述音频事件数据作为正样例和将所述其他语音数据作为负样例，对所述目标音频事件检测模型进行训练。

本发明实施例中，收集的音频事件数据和其他语音数据均包括多段，每段音频事件数据中可以包括多帧音频，每段其他语音数据也可以包括多帧音频。针对每段音频事件数据，可以从该段音频事件数据中截取设定帧数的一段语音数据作为一个正样例。针对每段其他语音数据，可以从该段其他语音数据中截取设定帧数的一段语音数据作为一个负样例。其中，所述设定帧数可以按照需求设定为400帧，本发明实施例对此不作限制。

然后可以为每个样例的每一帧音频，采用对应音频事件的类标识进行标注；其中，由于一段声音中在同一时间可能存在大量重叠的音频事件，因此一帧音频可以对应至少一个类标识。再采用标注后的正样例和标注后的负样例，对所述目标音频事件检测模型进行训练。

以下以采用一个样例对所述目标音频事件检测模型进行训练为例进行说明。可以先对该样例进行特征特提取，从所述样例中提取初始语音特征；然后将该样例的初始语音特征输入至目标音频事件检测模型，输出该样例中各帧音频对应的音频事件概率信息。其中，所述音频事件概率信息可以包括各类音频事件的概率；例如上述将音频事件划分为了N+1类，则所述音频事件概率信息可以包括N+1类音频事件的概率。再依据各帧音频对应的各类音频事件的概率和对应帧音频的类标识，对所述目标音频检测模型进行反向训练。其中，可以依据各帧音频的类标识，确定各帧音频对应的参考概率，然后将各帧音频对应的各类音频事件的概率和参考概率，代入至损失函数中对所述目标音频检测模型进行反向训练。其中，所述损失函数可以是cross-entropy(交叉熵)，或是multi-label(多标签)，本发明实施例对此不作限制。

然后可以采用训练后的目标音频检测模型对待检测语音数据进行音频事件检测，具体如下：

参照图3，示出了本发明的一种检测方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤302、获取待检测语音数据。

本发明实施例中，可以获取待检测语音数据，然后对待检测语音数据进行音频事件检测，确定对应的音频事件信息；可以参照步骤304-步骤312所述。其中，所述待检测语音数据中包括K帧音频，所述K为正整数。

步骤304、从所述待检测语音数据中提取初始语音特征。

本发明实施例中，可以对所述待检测语音数据进行特征提取，从所述待检测语音数据中提取对应的初始语音特征。例如，对所述待检测语音数据进行快速傅里叶变换，得到所述待检测语音数据对应的频域特征；然后依据所述待检测语音数据的频域特征，确定所述待检测语音数据的初始语音特征。其中，所述待检测语音数据中每帧音频均存在对应的初始语音特征。然后可以采用目标音频事件检测模型对所述待检测语音数据的初始语音特征进行处理，确定所述待检测语音数据对应的音频事件信息；可以参照步骤306-步骤312：

步骤306、将所述初始语音特征输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征。

本发明实施例中，为了便于目标音频事件检测模型处理，可以将所述待检测语音数据对应的初始语音特征截为多个片段，然后分别将每个片段输入至第一检测模型中进行处理。可以参考如下子步骤22-子步骤24：

子步骤22、截取多个初始语音特征片段。

子步骤24、依次将截取的每个初始语音特征片段输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征。

本发明实施例中，可以采用滑窗在所述初始语音特征上进行滑动，从所述初始语音特征上截取多个初始语音特征片段；其中，所述滑窗的长度可以为设定帧数，与上述训练过程中确定正样例或负样例的设定帧数相同。其中，每个初始语音特征片段包括设定帧数帧音频的初始语音特征。

本发明的一个示例中，滑窗在所述初始语音特征上滑动的步长可以小于或等于滑窗的长度；例如滑窗的长度为400帧，滑窗的滑动步长可以是400帧，也可以是300帧，本发明实施例对此不作限制。

本发明实施例中，可以在得到多个初始语音特征片段之后，再依次将截取的每个初始语音特征片段输入至所述第一检测模型中进行处理；此时截取操作和第一检测模型的处理操作是异步的。也可以在从初始语音特征上每截取一个初始语音特征片段之后，将该初始语音特征片段输入至所述第一检测模型中进行处理；此时截取操作和第一检测模型的处理操作是同步的。其中，所述第一检测模型对每个初始语音特征片段进行的处理可以是，对该初始语音特征片段中进行基础特征提取，输出对应的基础语音特征。

步骤308、将所述基础语音特征输入至所述预设模型中进行不同视野的特征提取，得到对应的中级语音特征。

然后可以依次将每段基础语音特征输入至所述预设模型中，由所述预设模型对依次对各段基础语音特征进行不同视野的特征提取，得到对应的中级语音特征。以下以对一段基础语音特征为例进行说明：将一段基础语音特征输入至所述预设模型后，预设模型可以对该段基础语音特征执行多个并行操作；其中，所述多个并行操作可以包括多个卷积运算和池化操作。然后将每一个并行操作输出的特征进行拼接，最终输出对应的中级语音特征至第二检测模型中。

本发明的一个可选实施例中，可以是Inception模型，其模型结构可以参照图3b所示。将一段基础语音特征输入至所述预设模型后，预设模型可以对该段基础语音特征并行的执行3个卷积运算和1个池化操作。其中，第1个并行操作可以包括1次卷积运算，其卷积核可以为1*1，通道数可以为64。第二个并行操作可以包括2次卷积运算，第1次卷积运算的卷积核为1*1，通道数可以为48；第2次卷积运算的卷积核可以为5*5，通道数可以为64。第三个并行操作可以包括3次卷积运算，第1次卷积运算的卷积核可以为1*1，通道数可以为64；第2次卷积运算的卷积核可以为3*5，通道数可以为96；第3次卷积运算的卷积核可以为3*3，通道数可以为96。第三个并行操作可以包括1次池化操作和1次卷积运算，其中，先进行池化操作再进行卷积运算。该池化操作对应核可以为3*3；该卷积运算的卷积核可以为1*1，通道数可以为128。然后可以将每个并行操作输出的特征输入至深度连接模块，最终输出对应的中级语音特征。

步骤310、将所述中级语音特征输入至所述第二检测模型进行拟合，输出所述待检测语音数据中各帧音频对应的音频事件概率信息。

然后可以依次将每段中级语音特征输入至所述第二检测模型后，由所述第二检测模型对每段中级语音特征进行拟合，输出对应的音频事件概率信息。进而可以得到所述待检测语音数据中每一帧音频对应的音频事件概率信息。

步骤312、依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息。

然后可以根据各帧音频对应的音频事件概率信息，确定所述待检测语音数据中存在的音频事件和各类音频事件对应的起止时间。可以参照如下子步骤：

子步骤42、针对对所述待检测语音数据中的每一帧音频，对所述帧音频对应的各类音频事件的概率进行滤波。

本发明实施例中，当滑窗滑动的步长小于滑窗的长度时，每两段相邻的初始语音特征(A和B)具有叠加部分(包括X帧音频对应的初始语音特征)；此时可以计算A中X帧音频的初始语音特征对应音频事件概率信息，与B中X帧音频的初始语音特征对应音频事件概率信息的平均值，得到这X帧音频对应的音频事件概率信息。其中，针对这X帧中的每一帧音频(可以称为第x帧音频)，可以将A中第x帧音频对应的第n类音频事件的概率，与B中第x帧音频对应的第n类音频事件的概率信息进行求平均值的计算，得到第x帧音频对应第n类音频事件的概率信息。其中，x、X和n均为正整数，x的取值范围为1～X，n的取值范围为1～N+1。

以下以对所述待检测语音数据中一帧音频(为了便于描述将该帧称为第m帧)对所述帧音频对应的各类音频事件的概率进行滤波。

其中，待可以从待检测语音数据的K帧音频中，选取包含第m帧在内的连续的M帧音频；然后可以采用这M帧音频对应的各类音频事件的概率，对该第m帧音频对应的各类音频事件的概率进行滤波。其中，对该第m帧音频对应的各类音频事件的概率信息进行滤波可以是中值滤波。对于第m帧音频的第n类音频事件的概率，可以计算这M帧音频的第n类音频事件的概率的平均值；将得到的平均值作为该第m帧音频的第n类音频事件的滤波后的概率。其中，M为正整数，可以按照需求设置如50，具体可以按照需求设置，本发明实施例对此不作限制。

子步骤44、依据各类音频事件滤波后的概率，确定所述帧音频对应的目标音频事件。

由于一段声音中在同一时间可能存在大量重叠的音频事件，因此可以依据每帧音频对应各类音频事件滤波后的概率，确定各帧音频对应的目标音频事件，可以参照如下子步骤442-子步骤444：

子步骤442、分别将所述帧音频对应的各类音频事件滤波后的概率与对应类音频事件的概率阈值进行比对，确定所述帧音频对应的各类音频事件的预测结果。

子步骤444、分别对所述帧音频对应的各类音频事件的预测结果进行滤波，确定所述帧音频对应的目标候选音频事件。

本发明实施例中，可以预先针对每一类音频事件设置对应的概率阈值，其中，不同类音频事件对应的概率阈值可以相同，也可以不同，具体可以按照需求设置，本发明实施例对此不作限制。

其中，针对每一帧音频，可以分别将所述帧音频对应的各类音频事件滤波后的概率与对应类音频事件的概率阈值进行比对，判断各类音频事件滤波后的概率是否大于对应类音频事件的概率阈值。若是，则将滤波后的概率大于或等于概率阈值的这类音频事件对应的预测结果设置为第一预设值；若否，则将滤波后的概率小于概率阈值的这类音频事件对应的预测结果设置为第二预设值。其中，所述第一预设值和第二预设值可以按照需求设置，如第一预设值为1，第二预设值为0，本发明实施例对此不作限制。

以下以确定第m帧音频对应的各类音频事件的预测结果为例进行说明。

针对第m帧音频，可以将第m帧音频的第n类音频事件过滤后的概率与第n类音频事件的概率阈值进行比对；判断第m帧音频的第n类音频事件过滤后的概率是否大于第n类音频事件的概率阈值。若第m帧音频的第n类音频事件过滤后的概率大于或等于第n类音频事件的概率阈值，则将第m帧音频的第n类音频事件的预测结果设置为预测结果。若第m帧音频的第n类音频事件过滤后的概率小于第n类音频事件的概率阈值，则将第m帧音频的第n类音频事件的预测结果设置为第二预设值。例如，N为2，若第m帧音频的第1类音频事件过滤后的概率小于第1类音频事件的概率阈值，则将第m帧音频的第1类音频事件的预测结果设置为0；若第m帧音频的第2类音频事件过滤后的概率大于第1类音频事件的概率阈值，则将第m帧音频的第2类音频事件的预测结果设置为1；若第m帧音频的第3类音频事件过滤后的概率小于第3类音频事件的概率阈值，则将第m帧音频的第3类音频事件的预测结果设置为0。进而得到第m帧音频对应各类音频事件的预测结果为[0,1,0]。

以下以确定第m帧音频对应的目标音频事件为例进行说明。

其中，可以获取包含第m帧在内的M帧音频对应的各类音频事件的预测结果；然后可以采用这M帧音频对应的各类音频事件的预测结果，对该第m帧音频对应的各类音频事件的预测结果进行滤波。其中，可以分别针对第m帧音频对应的各类音频事件的预测结果中每一类音频事件的预测结果进行中值滤波；以下以一个维度为例进行说明。对于第m帧音频对应的第n类音频事件的预测结果，可以基于这M帧音频对应各类音频事件的预测结果，统计第n类音频事件的预测结果为第一预设值的第一音频数量，以及第n类音频事件的预测结果为第二预设值的第二音频数量。若第一音频数量大于第二音频数量，则将第m帧对应的第n类音频事件的预测结果更新为第一预设值；若第一音频数量小于第二音频数量，则将第m帧第n类音频事件的预测结果更新为第二预设值；从而实现对第m帧音频对应的各类音频事件的预测结果进行滤波。例如，M＝5，m＝2，第1帧-第5帧对应各类音频事件的预测结果分别为[0,0,1]、[0,1,0]、[1,1,0]、[1,1,1]和[0,1,1]。针对第一类音频事件，预测结果为0的第二音频数量为3，预测结果为1的第一音频数量为2；则第2帧音频的第1类音频事件的预测结果为0；以此类推，得到第2帧音频对应各类音频事件的预测结果为[0,1,1]。然后可以依据各类音频事件滤波后的预测结果，确定目标音频事件，其中，可以将预测结果为第一预设值的音频事件，确定为目标音频事件。例如，上述示例中，第2帧音频对应各类音频事件的预测结果为[0,1,1]，则可以确定第2帧音频对应的目标音频事件为第2类音频事件和第3类音频事件。

子步骤46、依据所述各帧音频对应的目标音频事件和帧标识，确定所述待检测语音数据的音频事件信息。

本发明实施例中，针对每一类目标音频事件，可以确定具有该目标音频事件的各帧音频的帧标识；并依据具有该目标音频事件的各帧音频的帧标识，确定具有该目标音频事件的各帧音频对应的时间。然后可以依据具有该目标音频事件的各帧音频对应的时间，确定该目标音频事件对应的起止时间；其中，所述目标音频事件对应的起止时间可以包括多段起止时间。然后将该目标音频事件确定为待检测语音数据的音频事件，以及将该目标音频事件对应的起止时间确定为待检测语音数据的该音频事件对应的起止时间。

其次，本发明实施例中，所述初始音频事件检测模型包括第一检测模型和第二检测模型，所述的方法还包括：将所述预设模型整合在所述第一检测模型和第二检测模型之间；进而在所述依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息的过程中，可以从所述待检测语音数据中提取初始语音特征，然后将所述初始语音特征输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征，将所述基础语音特征输入至所述预设模型中进行不同视野的特征提取，得到对应的中级语音特征；再将所述中级语音特征输入至所述第二检测模型进行拟合，输出所述待检测语音数据中各帧音频对应的音频事件概率信息，依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息；从而由第一检测模型提取出基础特征后，再由预设模型进行不同视野的特征提取，便于第二检测模型对不同长度音频事件的拟合，进一步提高了检测不同长度音频事件的准确性。

进一步，本发明实施例中，在依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息的过程中，针对所述待检测语音数据中的每一帧音频，可以对所述帧音频对应的各类音频事件的概率进行滤波，以及依据各类音频事件滤波后的概率，确定所述帧音频对应的目标音频事件；然后再依据所述各帧音频对应的目标音频事件和帧标识，确定所述待检测语音数据的音频事件信息；由于相邻多帧音频对应的各类音频事件的概率的差别较小，进而通过对各帧音频对应的各类音频事件的概率进行滤波，能够避免当相邻多帧中存在与其他帧对应各类音频事件概率相差较大的音频时，影响确定待检测语音数据对应音频事件信息的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种检测装置实施例的结构框图，具体可以包括如下模块：

获取模块402，用于获取待检测语音数据；

检测模块404，用于依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成。

参照图5，示出了本发明的一种检测装置可选实施例的结构框图。

本发明一个可选的实施例中，所述初始音频事件检测模型包括第一检测模型和第二检测模型，所述的装置还包括：

整合模块406，用于将所述预设模型整合在所述第一检测模型和第二检测模型之间。

本发明一个可选的实施例中，所述检测模块404，包括：

初始特征提取子模块4042，用于从所述待检测语音数据中提取初始语音特征；

基础特征提取子模块4044，用于将所述初始语音特征输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征；

中级特征提取子模块4046，用于将所述基础语音特征输入至所述预设模型中进行不同视野的特征提取，得到对应的中级语音特征；

概率信息确定子模块4048，用于将所述中级语音特征输入至所述第二检测模型进行拟合，输出所述待检测语音数据中各帧音频对应的音频事件概率信息；

事件信息确定子模块40410，用于依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息。

本发明一个可选的实施例中，所述基础特征提取子模块4044，用于截取多个初始语音特征片段；依次将截取的每个初始语音特征片段输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征。

本发明一个可选的实施例中，所述音频事件概率信息包括多类音频事件的概率；所述事件信息确定子模块40410，包括：

概率滤波单元404102，用于针对所述待检测语音数据中的每一帧音频，对所述帧音频对应的各类音频事件的概率进行滤波；

音频事件确定单元404104，用于依据各类音频事件滤波后的概率，确定所述帧音频对应的目标音频事件

音频事件信息确定单元404106，用于依据所述各帧音频对应的目标音频事件和帧标识，确定所述待检测语音数据的音频事件信息；其中，所述音频事件信息包括音频事件和音频事件对应的起止时间。

本发明一个可选的实施例中，所述音频事件确定单元404104，用于分别将所述帧音频对应的各类音频事件滤波后的概率与对应类音频事件的概率阈值进行比对，确定所述帧音频对应的各类音频事件的预测结果；分别对所述帧音频对应的各类音频事件的预测结果进行滤波，确定所述帧音频对应的目标音频事件。

本发明一个可选的实施例中，所述滤波为中值滤波。

本发明一个可选的实施例中，所述的装置还包括：

训练模块408，用于收集音频事件数据和其他语音数据；将所述音频事件数据作为正样例和将所述其他语音数据作为负样例，对所述目标音频事件检测模型进行训练。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图6是根据一示例性实施例示出的一种用于检测的电子设备600的结构框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为电子设备600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件614经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件614还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种检测方法，所述方法包括：获取待检测语音数据；依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成。

可选地，所述滤波为中值滤波。

图7是本发明根据另一示例性实施例示出的一种用于检测的电子设备700的结构示意图。该电子设备700可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器上执行存储介质730中的一系列指令操作。

服务器还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘756，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待检测语音数据；依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成。

可选地，所述滤波为中值滤波。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种检测方法、一种检测装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种检测方法，其特征在于，包括：

获取待检测语音数据；

依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；

其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成；所述预设模型用于对输入的基础语音特征执行多个并行操作；所述多个并行操作包括多个卷积运算和池化操作；

其中，所述初始音频事件检测模型包括第一检测模型和第二检测模型，所述的方法还包括：

将所述预设模型整合在所述第一检测模型和第二检测模型之间。

2.根据权利要求1所述的方法，其特征在于，所述依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息，包括：

从所述待检测语音数据中提取初始语音特征；

将所述初始语音特征输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征；

将所述基础语音特征输入至所述预设模型中进行不同视野的特征提取，得到对应的中级语音特征；

将所述中级语音特征输入至所述第二检测模型进行拟合，输出所述待检测语音数据中各帧音频对应的音频事件概率信息；

依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息。

3.根据权利要求2所述的方法，其特征在于，所述将所述初始语音特征输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征，包括：

截取多个初始语音特征片段；

依次将截取的每个初始语音特征片段输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征。

4.根据权利要求2所述的方法，其特征在于，所述音频事件概率信息包括多类音频事件的概率；所述依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息，包括：

针对所述待检测语音数据中的每一帧音频，对所述帧音频对应的各类音频事件的概率进行滤波；

以及依据各类音频事件滤波后的概率，确定所述帧音频对应的目标音频事件；

依据所述各帧音频对应的目标音频事件和帧标识，确定所述待检测语音数据的音频事件信息；

其中，所述音频事件信息包括音频事件和音频事件对应的起止时间。

5.根据权利要求4所述的方法，其特征在于，所述依据各类音频事件滤波后的概率，确定所述帧音频对应的目标音频事件，包括：

分别将所述帧音频对应的各类音频事件滤波后的概率与对应类音频事件的概率阈值进行比对，确定所述帧音频对应的各类音频事件的预测结果；

分别对所述帧音频对应的各类音频事件的预测结果进行滤波，确定所述帧音频对应的目标音频事件。

6.根据权利要求4或5所述的方法，其特征在于，所述滤波为中值滤波。

7.根据权利要求1所述的方法，其特征在于，还包括训练所述目标音频事件检测模型的步骤：

收集音频事件数据和其他语音数据；

将所述音频事件数据作为正样例和将所述其他语音数据作为负样例，对所述目标音频事件检测模型进行训练。

8.一种检测装置，其特征在于，包括：

获取模块，用于获取待检测语音数据；

检测模块，用于依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息；其中，所述目标音频事件检测模型由初始音频事件检测模型和覆盖不同视野的预设模型整合而成；所述预设模型用于对输入的基础语音特征执行多个并行操作；所述多个并行操作包括多个卷积运算和池化操作；

其中，所述初始音频事件检测模型包括第一检测模型和第二检测模型，所述的装置还包括：

整合模块，用于将所述预设模型整合在所述第一检测模型和第二检测模型之间。

9.根据权利要求8所述的装置，其特征在于，所述检测模块，包括：

初始特征提取子模块，用于从所述待检测语音数据中提取初始语音特征；

基础特征提取子模块，用于将所述初始语音特征输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征；

中级特征提取子模块，用于将所述基础语音特征输入至所述预设模型中进行不同视野的特征提取，得到对应的中级语音特征；

概率信息确定子模块，用于将所述中级语音特征输入至所述第二检测模型进行拟合，输出所述待检测语音数据中各帧音频对应的音频事件概率信息；

事件信息确定子模块，用于依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息。

10.根据权利要求9所述的装置，其特征在于，

所述基础特征提取子模块，用于截取多个初始语音特征片段；依次将截取的每个初始语音特征片段输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征。

11.根据权利要求9所述的装置，其特征在于，所述音频事件概率信息包括多类音频事件的概率；所述事件信息确定子模块，包括：

概率滤波单元，用于针对所述待检测语音数据中的每一帧音频，对所述帧音频对应的各类音频事件的概率进行滤波；

音频事件确定单元，用于依据各类音频事件滤波后的概率，确定所述帧音频对应的目标音频事件；

音频事件信息确定单元，用于依据所述各帧音频对应的目标音频事件和帧标识，确定所述待检测语音数据的音频事件信息；其中，所述音频事件信息包括音频事件和音频事件对应的起止时间。

12.根据权利要求11所述的装置，其特征在于，

所述音频事件确定单元，用于分别将所述帧音频对应的各类音频事件滤波后的概率与对应类音频事件的概率阈值进行比对，确定所述帧音频对应的各类音频事件的预测结果；分别对所述帧音频对应的各类音频事件的预测结果进行滤波，确定所述帧音频对应的目标音频事件。

13.根据权利要求11或12所述的装置，其特征在于，所述滤波为中值滤波。

14.根据权利要求8所述的装置，其特征在于，所述的装置还包括：

训练模块，用于收集音频事件数据和其他语音数据；将所述音频事件数据作为正样例和将所述其他语音数据作为负样例，对所述目标音频事件检测模型进行训练。

15.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的检测方法。

16.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待检测语音数据；

其中，所述初始音频事件检测模型包括第一检测模型和第二检测模型，还包含用于进行以下操作的指令：

17.根据权利要求16所述的电子设备，其特征在于，所述依据目标音频事件检测模型对所述待检测语音数据进行音频事件检测，确定所述待检测语音数据对应的音频事件信息，包括：

从所述待检测语音数据中提取初始语音特征；

18.根据权利要求17所述的电子设备，其特征在于，所述将所述初始语音特征输入至所述第一检测模型进行基础特征提取，得到对应的基础语音特征，包括：

截取多个初始语音特征片段；

19.根据权利要求17所述的电子设备，其特征在于，所述音频事件概率信息包括多类音频事件的概率；所述依据所述待检测语音数据中各帧音频对应的音频事件概率信息，确定所述待检测语音数据的音频事件信息，包括：

20.根据权利要求19所述的电子设备，其特征在于，所述依据各类音频事件滤波后的概率，确定所述帧音频对应的目标音频事件，包括：

21.根据权利要求19或20所述的电子设备，其特征在于，所述滤波为中值滤波。

22.根据权利要求16所述的电子设备，其特征在于，还包含用于进行以下训练所述目标音频事件检测模型的指令：

收集音频事件数据和其他语音数据；