CN113645439B

CN113645439B - 事件检测方法及系统、存储介质及电子装置

Info

Publication number: CN113645439B
Application number: CN202110692626.3A
Authority: CN
Inventors: 司马华鹏; 姚奥; 汤毅平
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-07-29
Anticipated expiration: 2041-06-22
Also published as: CN113645439A

Abstract

本申请实施例提供了一种事件检测方法及系统、存储介质及电子装置，属于音频数据识别技术领域，所述方法包括：获取目标区域的音频数据，其中，目标区域为预设的监控区域；根据音频数据与预设的判定条件确定独立事件，并根据独立事件确定完整事件发生的概率；其中，独立事件与判定条件相对应，完整事件包括一个或多个独立事件，完整事件包括一个或多个独立事件。

Description

事件检测方法及系统、存储介质及电子装置

技术领域

本申请涉及音频数据识别技术领域，具体而言，涉及一种事件检测方法及系统、存储介质及电子装置。

背景技术

监控系统是当前安防领域内不可或缺的一部分，诸如校园、医院、商场等场景下，均依赖于监控系统进行监控以避免突发事件的发生，或在突发事件发生时可及时发现并进行处理。

相关技术中，监控系统多基于视频技术实现相应的视频监控，例如，监控摄像头等。上述视频监控设备虽然可以获取监控设备所设置位置发生的全过程事件，但其一方面仅能针对监控设备所设置位置进行相应的监控，而受限于地形复杂性与隐私性，往往在监控场景内存在一定的监控死角，视频监控设备对发生在上述监控死角的事件则无法进行有效的监控；另一方面，大多数监控场景中，视频监控设备仍需监控人员读取监控画面进行判断，而由于监控人员往往并无法全天候工作，故在特殊时段内，仅依靠视频监控设备无法避免突发事件的发生或无法及时进行相应处理。

针对上述视频监控设备的缺陷，相关技术中的部分监控系统集成了音频监控模块，即通过采集监控场景内的音频判断是否有相应的突发事件发生。然而，相关技术中的音频监控模块仅能单一的判断监控场景内是否有事件音的产生，诸如，监控场景内是否存在尖叫声，是否存在哭声，是否存在物品碎裂的声音等，但基于单一的事件音并不能有效的判断突发事件的发生以及突发事件的类型，经常会出现误判的情况。

针对相关技术中，音频监控模块并无法有效识别突发事件的问题，相关技术中尚无有效的解决方案。

发明内容

本申请实施例提供了一种事件检测方法及系统、存储介质及电子装置，以至少解决相关技术中音频监控模块并无法有效识别突发事件的问题。

在本申请的一个实施例中，提出了一种事件检测方法，所述方法包括：

获取目标区域的音频数据，其中，所述目标区域为预设的监控区域；根据所述音频数据与预设的判定条件确定独立事件，并根据所述独立事件确定完整事件发生的概率；其中，所述独立事件与所述判定条件相对应，所述完整事件包括一个或多个所述独立事件。

在本申请的一个实施例中，还提出了一种事件检测系统，运用前述事件检测方法；所述事件检测系统包括：拾音模块，配置为获取目标区域的音频数据，其中，所述目标区域为预设的监控区域；处理模块，配置为根据所述音频数据与预设的判定条件确定独立事件，并根据所述独立事件确定完整事件发生的概率；其中，所述独立事件与所述判定条件相对应，所述完整事件包括一个或多个所述独立事件。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，建立第一神经网络模型与第二神经网络模型，首先通过获取的样本训练数据对其分别进行训练，通过训练完毕的第一神经网络网络与第二神经网络模型，根据所获取的音频数据与预设的判定条件确定独立事件，并根据所述独立事件确定完整事件发生的概率；其中，所述独立事件与所述判定条件相对应，所述完整事件包括一个或多个所述独立事件在音频监控过程中，根据多个独立事件音之间的关联以确定是否存在完整事件发生，可显著改善对于突发事件的识别的准确性，进而一方面在突发事件发生时及时提醒相关人员进行相应的干预处理，以及时避免或中止突发事件的发生；另一方面，可避免单一的独立事件音在无法判断突发事件的实际状况下及向相关人员进行不必要的提醒，进而造成的非必要的人力与时间成本过高的问题。同时，对于部分视频监控存在不便的区域，诸如，阴暗场景，隐私场景，临时场景等，可以灵活且低成本的部署方式提供精准的监控处理。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种事件检测方法的移动终端的硬件结构框图；

图2是根据本申请实施例的事件检测方法的一种可选流程示意图；

图3是根据本申请实施例的事件检测系统的一种可选结构示意图；

图4是根据本申请实施例的卷积神经网络模型训练方法的一种可选的流程示意图；

图5是根据本申请实施例第一神经网络模型的一种可选的结构图；

图6是根据本申请实施例第二神经网络模型一种可选的结构图；

图7是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的一种事件检测方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的事件检测方法与其应用的神经网络模型的训练方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

如图2所示，本申请提供了一种事件检测方法，方法包括:

S202，获取目标区域的音频数据，其中，目标区域为预设的监控区域；

S204，根据音频数据与预设的判定条件确定独立事件，并根据独立事件确定完整事件发生的概率；其中，独立事件与判定条件相对应，完整事件包括一个或多个独立事件。

其中，完整事件指的是获取的音频数据中发生的某一完整事件过程中的完整音频信号；以校园欺凌为示例说明，在视频监控数据中选取某一校园欺凌事件，该校园欺凌事件发生的起始点与结束点之间的音频数据，即为上述完整事件样本音频数据。独立事件是指，即某突发事件发生过程中可能存在的各类独立事件音，即分别为独立事件，独立事件的数量根据实际获取的音频数据确定。

在一实施例中，上述步骤S204可以通过以下方式实现：

S1，根据音频数据与判定条件确定第一独立事件和/或第二独立事件，并根据第一独立事件和/或第二独立事件发生的情况确定完整事件发生的概率；其中，第一独立事件与第一判定条件对应，第二独立事件与第二判定条件对应，完整事件由第一独立事件和/或第二独立事件构成。

需要说明的是，第一独立事件和第二独立事件均为泛指，并不是对其数量上的限定，其数量也可以多个，其用于指示构成一完整事件的不同独立事件，在同一完整事件由两个以上的独立事件构成时，亦可定义其它独立事件为第三独立事件、第四独立事件等。在一可选示例中，可将校园欺凌事件发生过程中的尖叫声定义为第一独立事件，将哭泣声定义为第二独立事件，将打架声定义为第三独立事件，在视频监控数据中分别选取的上述尖叫、哭泣、打架发生的起始点与结束点之间的音频数据，可以分别定义为第一独立事件音、第二独立事件音以及第三独立事件音。

在一实施例中，根据音频数据与判定条件确定第一独立事件和/或第二独立事件，并根据第一独立事件和/或第二独立事件发生的情况确定完整事件发生的概率，可以通过以下步骤实现：

S1，根据音频数据与判定条件确定第一独立事件和/或第二独立事件，并根据第一独立事件确定第一概率值，根据第二独立事件确定第二概率值；其中，第一概率值用于指示第一独立事件存在的情形下，完整事件发生的概率；第二概率值用于指示第二独立事件存在的情形下，完整事件发生的概率；

S2，根据第一概率值和/或第二概率值确定完整事件发生的概率。

需要说明的是，上述第一独立事件与第二独立事件的检测可以通过预先训练的神经网络模型进行检测与识别，将独立事件对应的音频以及该独立事件对应的类型作为样本对神经网络模型进行训练，以令完成训练的神经网络模型可根据音频数据识别对应的独立事件。

在一实施例中，上述根据音频数据与判定条件确定第一独立事件和/或第二独立事件，并根据第一独立事件和/或第二独立事件发生的情况确定完整事件发生的概率，还可以通过以下步骤实现：

S1，根据音频数据确定音频时序信息，其中，音频时序信息用于指示第一独立事件与第二独立事件的时序关系；根据以下对象确定完整事件发生的概率：音频时序信息，第一独立事件发生的情况，第二独立事件发生的情况。

需要说明的是，本申请实施例中涉及的音频时序信息用于指示一次检测过程中第一独立事件与第二独立事件的先后顺序，例如，在时刻1(10:00:01)检测至音频数据，结合判定条件确定发生第一独立事件，在时刻2(10:01:09)检测至音频数据，结合判定条件确定发生第二独立事件，时刻2在时刻1之后，则时序信息指示第二独立事件在第一独立事件之后发生。

对于完整事件发生概率的确定，一方面可根据第一独立事件与第二独立事件进行确定，另一方面还可在第一独立事件与第二独立事件的基础上，根据其发生的前后顺序进一步确定完整事件发生的概率。例如，一个完整事件中根据先验知识，必然是先发生第一独立事件，再发生第二独立事件，则在检测过程中，如检测到第二独立事件发生在第一独立事件之前，则说明完整事件发生的概率相对较低。

在一实施例中，上述根据音频数据与判定条件确定第一独立事件和/或第二独立事件，并根据第一独立事件和/或第二独立事件发生的情况确定完整事件发生的概率，还可以通过以下步骤实现：在完整事件发生的概率大于或等于预设阈值的情形下，输出完整事件的类型。

需要说明的是，在完整事件发生的概率大于或等于预设阈值，例如，70％时，则说明完整事件发生的可能性极大，此时，不仅可以输出完整事件发生的结果，同时可根据前述第一独立事件与第二独立事件确定完整事件发生的类型，并将类型一并输出，进而及时提醒相应人员处理。

经实验，以上实施例中，基于神经网络模型对独立事件的类型进行识别，并根据先验知识以及统计数据所确定的独立事件之间的发生顺序确定完整事件发生的概率的过程，其对于完整事件判断的准确性可达到84％。

虽然上述实施例中的方式可较为准确的判断完整事件发生的可能性，但是，由于上述实施例中的方式依赖于先验知识以及统计数据所确定的独立事件之间发生顺序的顺序规则。故此，上述实施例中的方式在实现过程中，需要预先获得独立事件之间发生顺序的顺序规则，从而造成一方面需要在获取样本数据时，由专业人员对独立事件对应的顺序规则进行预先定义，进而加大的样本预处理的工作量，以及对应的人力与时间成本；另一方面，独立事件对应的顺序规则的确定依赖于极其大量的样本数据，进而造成对样本需求的增加。

本申请实施例在此基础上，进一步提出一种基于神经网络模型识别完整事件发生概率的事件检测方法，以不依赖于先验知识以及统计数据所确定的独立事件对应的顺序规则，并可进一步改善对完整事件发生可能性的识别准确率，具体如下：

在一实施例中，根据音频数据与预设的判定条件确定独立事件，并根据独立事件确定完整事件发生的概率，可以通过以下步骤实现：

S1，根据音频数据与预设的判定条件通过第一神经网络模型与第二神经网络模型确定完整事件发生的概率；其中，第一神经网络模型根据音频数据与判定条件获取独立事件所对应的第一特征向量，其中，第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，第一样本数据包括独立事件音数据和对应的独立事件标签，独立事件标签用于指示独立事件的类型。

如图5所示，第一神经网络模型包括共享网络层和第一分类层，其中第一分类层包括第一独立事件多层感知机分类模块，第二独立事件多层感知机分类模块等N个独立事件多层感知机分类模块。

S2，通过共享网络层获取音频数据的局部特征向量；

S3，通过第一分类层根据音频数据的局部特征向量提取N个独立事件音分别对应的第一特征向量，其中，N为大于0的整数，第一分类层包括N个分类器，每一分类器分别对应一个判定条件；

S4，第二神经网络模型根据第一特征向量确定完整事件发生的概率，并在在完整事件发生的概率大于或等于预设阈值的情形下，输出完整事件的类型，其中，第二神经网络模型为使用第二样本数据训练的卷积神经网络模型，第二样本数据包括完整事件音数据和对应的完整事件标签，完整事件标签用于指示完整事件的类型，完整事件音数据中包含一个或多个独立事件音数据。

如图6所示，第二神经网络模型包括特征编码层、深度学习层和第二分类层。特征编码层包括第一事件多层感知机特征编码模块、第二事件多层感知机特征编码模块等N个事件多层感知机特征编码模块。第二分类层可以通过综合事件多层感知机分类器实现。

S5，通过特征编码层对第一神经网络模型输出的N个独立事件音的第一特征向量进行编码；

S6，通过深度学习层对编码后的N个独立事件音的第一特征向量进行识别，还可根据音频数据确定音频时序信息，其中，音频时序信息用于指示独立事件之间的时序关系；

S7，第二分类层根据第一特征向量的识别结果确定完整事件发生的概率，还可根据独立事件对应的第一特征向量以及音频时序信息确定完整事件发生的概率。

第一神经网络模型还包括第一特征提取层，第二神经网络模型还包括第二特征提取层，其中，

S1，通过第一特征提取层进行第一次特征提取，得到音频数据的第一局部特征向量；其中，第一特征提取层包括多个第一滤波子层，每一第一滤波子层由第一滤波参数构建，第一滤波参数是通过第一样本数据训练得到的，第一局部特征向量用于第一神经网络模型根据音频数据与判定条件获取独立事件所对应的第一特征向量；

S2，通过第二特征提取层进行第二次特征提取，得到音频数据的第二局部特征向量；其中，第二特征提取层包括多个第二滤波子层，每一第二滤波子层由第二滤波参数构建，第二滤波参数是通过第二样本数据训练得到的，第二局部特征向量用于，根据音频数据确定音频时序信息，其中，音频时序信息用于指示独立事件之间的时序关系。

在本实施例中，第一滤波子层与第二滤波子层均采用Gabor卷积层。标准卷积层中，每个卷积层存在约400个参数，Gabor卷积层中，每个卷积层仅有两个参数。以此，在前述构建前述特征提取的过程中，可显著减少特征提取层的参数占比，进而令特征提取的效率以及整体模型的工作效率均得以显著提升。

需要说明的是，上述实施例中，基于第一神经网络模型与第二神经网络模型所确定完整事件发生概率的过程，其完全依赖于模型从样本数据中所学习到的特征，并不依赖于先验知识以及统计数据所确定的独立事件之间发生顺序的顺序规则。因此，一方面，上述实施例中的方式在样本数据的预处理阶段，不需要专业人事对顺序规则的预先确定，减少了样本标注工作的工作量，并可显著改善了实现本申请实施例中的事件检测方法的人力与时间成本；同时，亦无需大量的样本数据以确定顺序规则，故对样本数据的需求同时得以减少。在此基础上，上述实施例的方式还可进一步提升对完整事件发生概率进行判断的准确性；经实验，上述实施例中基于第一神经网络模型与第二神经网络模型所确定完整事件发生概率的准确性可达到96％以上。

可选的实施方式中，所述方法还包括：

S1，通过通信模块输出完整事件的类型至预设用户的用户终端；其中，通信模块的输出可运用前述提及的传输装置106作为载体实现，

S2，通过告警模块在完整事件发生的概率大于或等于预设阈值的情形下，在目标区域生成告警信号。其中，告警模块的输出，包括但不限于与音响、闪光灯同功能性的设备作为载体。

根据本申请实施例的又一个方面，还提供了一种应用前述事件检测方法的系统，如图3所示，所述事件检测系统包括：

拾音模块，配置为获取目标区域的音频数据，其中，所述目标区域为预设的监控区域；

处理模块，配置为根据所述音频数据与预设的判定条件确定独立事件，并根据所述独立事件确定完整事件发生的概率；其中，所述独立事件与所述判定条件相对应，所述完整事件包括一个或多个所述独立事件。

需要说明的是，本申请中的拾音模块可设置为麦克风，但不限于独立的监控设备，也可集成于其他具有拾音功能的硬件设备，如具备语音识别功能的LED大屏等。

需要说明的是，上述处理模块集成于服务器中，处理模块由预先完成训练的第一神经网络模型与第二神经网络模型构成。

在一实施例中，上述事件检测系统包括：

通信模块，配置为判断发生突发事件的情形下，将相应的情况通知监控人员或警务人员以及时干预处理。

在一实施例中，上述事件检测系统包括：

告警模块，包括扬声器或声光告警器，配置为判断发生突发事件的情形下，通过扬声器或声光告警器进行警示。

根据本申请实施例的又一个方面，还提供了事件检测方法的中应用的神经网络模型的训练方法。如图4所示，方法包括：

在根据音频数据与预设的判定条件通过第一神经网络模型与第二神经网络模型确定完整事件发生的概率之前，所述方法还包括：

S402，获取样本数据，通过从已知事件结果的监控视频或影视屏中截取一个完整事件发生片段，并将完整事件以及在此完整事件中先后发生的独立事件作为样本数据。

其中，第一样本数据指的是完整事件样本音频数据以及对应的完整事件类型，第二样本数据指的是独立事件音样本音频数据以及对应的独立事件类型。

S404，使用第一样本数据训练第一初始卷积神经网络模型，得到第一神经网络模型；

S406，使用第二样本数据训练第二初始卷积神经网络模型，得到第二神经网络模型。

可选的实施方式中，使用样本数据训练第一初始卷积神经网络模型和第二初始卷积神经网络模型，得到第一神经网络模型和第二卷积神经网络模型，还可通过以下方式实现：

S1，将第二样本数据对应的局部特征向量输入训练好的第一神经网络模型；

S2，通过第一神经网络模型提取第二样本数据中的独立事件音对应的第三特征向量，并输入第二初始卷积神经网络模型；

S3，将第二初始卷积神经网络模型根据第三特征向量输出的完整事件类型与第二样本数据对应的完整事件标签进行比对，以训练第二初始卷积神经网络模型的参数。

以下通过示例对上述方案进行说明，本申请实施例中涉及的训练用样本音频数据可以包括两类，一类为完整事件样本音频数据，即某突发事件发生过程中的完整音频信号；以校园欺凌为示例说明，可在视频监控数据中选取某一校园欺凌事件，获取该校园欺凌事件发生的起始点与结束点之间的音频数据，并将该音频数据标注为校园欺凌事件，标注后的音频数据即可作为上述完整事件样本音频数据。另一类为独立事件音样本音频数据，即某突发事件发生过程中可能存在的各类独立事件音；上述示例中，可将校园欺凌事件发生过程中的尖叫声定义为第一独立事件音，将哭泣声定义为第二独立事件音，将打架声定义为第三独立事件音，在视频监控数据中分别选取上述尖叫、哭泣、打架发生的起始点与结束点之间的音频数据，并将相应音频数据标注为校园欺凌事件发生过程中的尖叫、哭泣、打架，标注后的音频数据即对应为独立事件音样本音频数据。

举例而言，视频监控拍摄到10:00:00至10:10:00发生校园欺凌事件，期间，在10:02:30至10:02:50发生尖叫，在10:04:15至10:05:30发生哭泣，在10:06:20至10:08:20发生打架，则将10:00:00至10:10:00之间的完整音频作为校园欺凌事件的完整事件样本音频数据，将10:02:30至10:02:50之间的音频作为尖叫的独立事件音样本音频数据，将10:04:11-10:08:20之间的音频作为打架的独立事件音样本音频数据。

以此类推，可通过不同的渠道以获取不同突发事件的音频数据，并分别将该突发事件的音频数据中对应的完整音频数据作为完整事件样本音频数据，将该突发事件的音频数据中每一独立事件音作为独立事件音样本音频数据。

通过独立事件音样本音频数据进行第一神经网络模型的训练，即将独立事件音样本音频数据相应的样本特征作为输入，将该样本特征对应的独立事件标签(尖叫、哭泣、打架等)作为输出，以对第一神经网络模型进行训练，进而令完成训练的第一神经网络模型可对于独立事件音进行分类。第一神经网络模型的训练针对独立事件音的训练，完成训练后的第一神经网络模型为一分类模型，用于对不同的独立事件音进行分类。

通过样本特征对预设的第二神经网络模型进行训练，通过完整事件样本音频数据进行第二神经网络模型的训练，即将完整事件样本音频数据对应的样本特征作为输入，将该样本特征对应的突发事件标签作为输出，以对第二神经网络模型进行训练，进而令完成训练的第二神经网络模型可判断是否有突发事件发生。

需要说明的是，第二神经网络模型与完成训练后的第一神经网络模型共同构成了本发明系统完整的神经网络模型。完成训练后的第一神经网络模型第二神经网络模型的训练过程中不再更新，仅作特征提取用。

第二神经网络模型的训练为针对突发事件的训练，完成训练后的第二神经网络模型用于判断是否发生突发事件。第二神经网络模型的判断机制在于，对于某一突发事件，完成训练后的第一神经网络模型可对该突发事件的完整事件音频中存在的独立事件音进行检测与分类，进而令第二神经网络模型可学习该突发事件的完整事件音频中可能存在的各类独立事件音；在样本量足够的情形下，完成训练的第二神经网络模型即可通过某音频中独立事件音的类型判断相应突发事件发生的概率。

需要说明的是，本实施例中，上述第一神经网络模型与第二神经网络模型均采用交叉熵函数作为loss损失函数，实际操作中，损失函数亦可采用其他函数进行设定。

可选的实施方式中，使用所述样本数据训练第一初始卷积神经网络模型和第二初始卷积神经网络模型，得到所述第一神经网络模型和第二卷积神经网络模型，还可通过以下方式实现：

S1，使用第一样本数据训练第一初始滤波参数，得到第一滤波参数；其中，第一初始神经网络模型包括第一特征提取层，所述第一特征提取层包括多个第一滤波子层，每一所述第一滤波子层由第一滤波参数构建；

S2，通过第二样本数据训练第二初始滤波参数，得到第二滤波参数；所述第二神经网络模型还包括，第二特征提取层，所述第二特征提取层包括多个第二滤波子层，每一所述第二滤波子层由第二滤波参数构建。

根据本申请实施例的又一个方面，通过上述神经网络模型训练方法与事件检测方法的结合应用，本实施例举例完成过程如下：

S2.1，通过预先完成训练的语音识别技术(Voice Activity Detection，简称为VAD)模型对监控场景进行检测，在检测到监控场景由正常状态切换至异常状态时，开启本发明中的突发事件检测系统。

上述S2.1中，VAD模型可根据不同场景部署不同的检测机制，例如，可将静音场景设置为正常状态，将非静音场景设置为异常状态，该机制下，如VAD模型检测到监控场景内出现响动，即开启突发事件检测系统；又例如，可将响度低于预设阈值的环境音设置为正常状态，将响度超过该阈值的环境音设置为异常状态，该机制下，如VAD模型检测到监控场景内的环境音的响度超过阈值，即开启突发事件检测系统。

上述VAD模型可通过音频监控模块中的拾音单元获取的音频进行判断；由于静音检测或单纯的环境音检测的功耗与计算均较低，故上述S2.1可避免突发事件检测系统在无突发事件发生可能性的情形下保持工作，以造成不必要的功耗与计算。上述VAD模型也可由其他具有检测功能的模块或硬件替代，如能量模型，噪音检测器等。

S2.2，通过音频监控模块获取监控场景内的监控音频数据，并对监控音频数据进行特征提取，以得到监控音频特征。

S2.3，通过训练得到的第一神经网络模型对监控音频特征进行检测，以判断是否有独立事件音；如有，则第二神经网络模型进行工作；如没有，则第二神经网络模型不进行工作。

上述S2.3中，由于未发生相应独立事件的情形下，突发事件发生的可能性极低，故以第一神经网络模型是否检测到独立事件音作为第二神经网络模型开始工作的先决条件，可进一步避免不必要的功耗与计算。

S2.4，第二神经网络模型工作的情形下，第二神经网络模型根据第一神经网络模型检测并提取的独立事件音的特征进行判断发生突发事件的概率，当第二神经网络模型确定发生突发事件的概率超过预设阈值时，即判断发生突发事件。

上述S2.4中，第一神经网络模型持续检测监控音频特征中对应的独立事件音，并对检测到的独立事件进行特征提取与编码以送入第二神经网络模型；第二神经网络模型根据相应的独立事件特征计算发生突发事件的概率。

需要说明的是，第二神经网络模型所计算的发生突发事件的概率是根据第一神经网络模型对独立事件音的持续检测而实时变化的；在一示例中，第一神经网络模型在不同时刻依次检测到尖叫、哭泣、打架对应的独立事件音，则第二神经网络模型输出的发生校园欺凌事件在检测到尖叫时为10％，检测到哭泣时为40％，检测到打架时为90％(设定阈值为80％)。

如第二神经网络模型在预设时长内所计算的突发事件发生的概率始终低于阈值，则可判断突发事件暂未发生；在另一示例中，第一神经网络模型在不同时刻依次检测到尖叫与哭泣时，第二神经网络模型对应时刻输出概率依次为10％与40％，但之后的10min中，第一神经网络模型始终未检测到其它独立事件音，则第二神经网络模型可判断校园欺凌事件并未发生，进而第二神经网络模型可停止工作，直至下一次第一神经网络模型重新检测到独立事件音再开启。

S2.5，第二神经网络模型判断发生突发事件后，可通过集成在突发事件检测系统中的通信模块以通知相应的监控人员进行干预，或直接将相应的事件与地点推送至警务人员进行报警，也可通过集成在突发事件检测系统中的告警模块进行告警。

S2.6，如VAD模型检测到监控场景由异常状态恢复至正常状态达到预设时长，如5min，则当前监控场景内无异常状况发生，突发事件检测系统即可关闭工作。

本申请实施例基于上述应用过程，通过两组场景化、具体化的方式对本发明的实现与使用过程进行示例性的说明：

示例性实施例1

本示例性实施例中，以突发事件检测系统部署于校园内隐私场所为例进行说明，主要检测对象为可能发生于隐私场所的校园欺凌事件。突发事件检测系统的处理模块中，第一神经网络模型与第二神经网络模型的训练过程如前述，在此不再赘述。

S1，通过预先完成训练的VAD模型对监控场景进行检测，在检测到监控场景内出现异常响动而由静音状态切换至非静音状态时，开启突发事件检测系统。

S2，通过音频监控模块获取监控场景内的监控音频数据，并对监控音频数据进行特征提取，以得到监控音频特征。

S3，第一神经网络模型对监控音频特征进行检测，在监控音频数据的00:50相应位置检测到尖叫声，相应的第二神经网络模型开启工作。

S4，第一神经网络模型持续对监控音频特征进行检测，在监控音频数据的00:50相应位置检测到尖叫声，第一神经网络模型则对尖叫声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生校园欺凌事件的概率为10％。

S5，第一神经网络在监控音频数据的02:30相应位置检测到哭泣声，第一神经网络模型则对哭泣声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生校园欺凌事件的概率为40％。

S6，第一神经网络在监控音频数据的04:15相应位置检测到打架声；第一神经网络模型则对打架声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生校园欺凌事件的概率为90％。

S7，第二神经网络模型确定发生校园欺凌事件的概率超过预设的阈值80％，即通过通信模块及时通知校园安保人员介入，或可通过告警模块进行声音告警以驱散施暴者。

S8，VAD模型检测到监控场景由之前的非静音状况恢复至静音状态，且恢复时长达到5min，则关闭突发事件检测系统。

示例性实施例2

本示例性实施例中，以突发事件检测系统部署于大宗商品临时存放区域为例进行说明，主要检测对象为该区域可能发生的盗窃事件。突发事件检测系统的处理模块中，第一神经网络模型与第二神经网络模型的训练过程可以参照前述训练过程，以相应的盗窃事件的完整音频以及人员走动、异常开锁、搬运以及相应的独立事件音作为样本音频数据完成训练，在此不再赘述。

S3，第一神经网络模型对监控音频特征进行检测，在监控音频数据的00:10相应位置检测到人员走动声，相应的第二神经网络模型开启工作。

S4，第一神经网络模型持续对监控音频特征进行检测，在监控音频数据的00:10相应位置检测到人员走动声，第一神经网络模型则对人员走动声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生盗窃事件的概率为20％。

S5，第一神经网络在监控音频数据的00:25相应位置检测到异常开锁声，第一神经网络模型则对异常开锁声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生盗窃事件的概率为60％。

S6，第一神经网络在监控音频数据的01:30相应位置检测到搬运声；第一神经网络模型则对搬运声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生盗窃事件的概率为95％。

S7，第二神经网络模型确定发生盗窃事件的概率超过预设的阈值80％，即通过通信模块及时通知仓管人员介入，或可通过告警模块进行声音告警以驱散盗窃者。

根据本申请实施例的又一个方面，还提供了一种用于实施上述事件检测方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图7所示，该电子装置包括存储器702和处理器704，该存储器702中存储有计算机程序，该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取目标区域的音频数据，其中，目标区域为预设的监控区域；

S2，根据音频数据与预设的判定条件确定独立事件，并根据独立事件确定完整事件发生的概率；其中，独立事件与判定条件相对应，完整事件包括一个或多个独立事件。

S1，获取样本数据，通过从已知事件结果的监控视频或影视屏中截取一个完整事件发生片段，并将其先后发生的独立事件对应的标签作为第一样本数据与第二样本数据；

S2，使用第一样本数据训练第一初始卷积神经网络模型，得到所述第一神经网络模型；

S3，使用第二样本数据训练第二初始卷积神经网络模型，得到第二神经网络模型。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图7中所示更多或者更少的组件(如网络接口等)，或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本申请实施例中的事件检测方法与其应用的神经网络模型的训练方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的事件检测方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器702具体可以但不限于用于储存事件检测方法的程序步骤。作为一种示例，如图7所示，上述存储器702中可以但不限于包括上述事件检测方法中的中的拾音模块、通信模块、告警模块等。此外，还可以包括但不限于上述事件检测方法中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置706包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器708，用于显示可疑帐号的告警推送；和连接总线710，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S2，使用所述第一样本数据训练第一初始卷积神经网络模型，得到所述第一神经网络模型；

S3，使用所述第二样本数据训练第二初始卷积神经网络模型，得到所述第二神经网络模型。

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种事件检测方法，其特征在于，包括：

获取目标区域的音频数据，其中，所述目标区域为预设的监控区域；

根据所述音频数据与预设的判定条件确定独立事件，并根据所述独立事件确定完整事件发生的概率；其中，所述独立事件与所述判定条件相对应，所述完整事件包括一个或多个所述独立事件；

其中，所述根据所述音频数据与预设的判定条件确定独立事件，并根据所述独立事件确定完整事件发生的概率，包括：

根据所述音频数据与所述判定条件确定第一独立事件和/或第二独立事件，并根据所述第一独立事件和/或所述第二独立事件发生的情况确定完整事件发生的概率；其中，所述第一独立事件与第一判定条件对应，所述第二独立事件与第二判定条件对应，所述完整事件由所述第一独立事件和/或所述第二独立事件构成；

所述根据所述音频数据与所述判定条件确定第一独立事件和/或第二独立事件，并根据所述第一独立事件和/或所述第二独立事件发生的情况确定完整事件发生的概率，包括：

根据所述音频数据与所述判定条件确定第一独立事件和/或第二独立事件，并根据所述第一独立事件确定第一概率值，根据所述第二独立事件确定第二概率值；其中，所述第一概率值用于指示所述第一独立事件存在的情形下，所述完整事件发生的概率；所述第二概率值用于指示所述第二独立事件存在的情形下，所述完整事件发生的概率；

根据所述第一概率值和/或所述第二概率值确定所述完整事件发生的概率。

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频数据与所述判定条件确定第一独立事件和/或第二独立事件，并根据所述第一独立事件和/或所述第二独立事件发生的情况确定完整事件发生的概率，包括：

根据所述音频数据确定音频时序信息，其中，所述音频时序信息用于指示所述第一独立事件与所述第二独立事件的时序关系；

根据以下对象确定所述完整事件发生的概率：所述音频时序信息，所述第一独立事件是否发生的情况，以及所述第二独立事件是否发生的情况。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述完整事件发生的概率大于或等于预设阈值的情形下，输出所述完整事件的类型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述音频数据与预设的判定条件确定独立事件，并根据所述独立事件确定完整事件发生的概率，包括：

根据音频数据与预设的判定条件通过第一神经网络模型与第二神经网络模型确定完整事件发生的概率；其中，所述第一神经网络模型根据所述音频数据与所述判定条件获取所述独立事件所对应的第一特征向量，其中，所述第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，所述第一样本数据包括独立事件音数据和对应的独立事件标签，所述独立事件标签用于指示所述独立事件的类型；

所述第二神经网络模型根据所述第一特征向量确定所述完整事件发生的概率，并在所述完整事件发生的概率大于或等于预设阈值的情形下，输出所述完整事件的类型，其中，所述第二神经网络模型为使用第二样本数据训练的卷积神经网络模型，所述第二样本数据包括完整事件音数据和对应的完整事件标签，所述完整事件标签用于指示所述完整事件的类型，所述完整事件音数据中包含一个或多个独立事件音数据。

5.根据权利要求4所述的方法，其特征在于，所述第一神经网络模型根据所述音频数据与所述判定条件获取所述独立事件所对应的第一特征向量，包括：

通过共享网络层获取所述音频数据的局部特征向量；

通过第一分类层根据所述音频数据的局部特征向量提取N个独立事件音分别对应的所述第一特征向量，其中，N为大于0的整数，所述第一分类层包括N个分类器，每一分类器分别对应一个判定条件。

6.根据权利要求5所述的方法，其特征在于，所述第二神经网络模型根据所述第一特征向量确定所述完整事件发生的概率，包括：

对所述第一神经网络模型输出的所述N个独立事件音的第一特征向量进行编码；

对编码后的所述N个独立事件音的第一特征向量进行识别；

通过根据第一特征向量的识别结果确定所述完整事件发生的概率。

7.根据权利要求6所述的方法，其特征在于，所述对编码后的所述N个独立事件音的第一特征向量进行识别，包括：

根据所述音频数据确定音频时序信息，其中，所述音频时序信息用于指示所述独立事件之间的时序关系；

根据第一特征向量的识别结果确定所述完整事件发生的概率，包括：

根据所述独立事件对应的第一特征向量以及所述音频时序信息确定所述完整事件发生的概率。

8.根据权利要求4所述的方法，其特征在于，根据所述音频数据与预设的判定条件确定独立事件，并根据所述独立事件确定完整事件发生的概率，包括：

通过第一特征提取层进行第一次特征提取，得到所述音频数据的第一局部特征向量；其中，所述第一特征提取层包括多个第一滤波子层，每一所述第一滤波子层由第一滤波参数构建，所述第一滤波参数是通过第一样本数据训练得到的，所述第一局部特征向量用于所述第一神经网络模型根据所述音频数据与所述判定条件获取所述独立事件所对应的第一特征向量；

通过第二特征提取层进行第二次特征提取，得到所述音频数据的第二局部特征向量；其中，所述第二特征提取层包括多个第二滤波子层，每一所述第二滤波子层由第二滤波参数构建，所述第二滤波参数是通过第二样本数据训练得到的，所述第二局部特征向量至少用于，根据所述音频数据确定音频时序信息，其中，所述音频时序信息用于指示所述独立事件之间的时序关系。

9.根据权利要求8所述的方法，其特征在于，所述第一滤波子层与所述第二滤波子层均采用 Gabor 卷积层。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过通信模块输出所述完整事件的类型至预设用户的用户终端；和/或，

通过告警模块在所述完整事件发生的概率大于或等于预设阈值的情形下，在所述目标区域生成告警信号。

11.根据权利要求4所述的方法，其特征在于，在根据音频数据与预设的判定条件通过第一神经网络模型与第二神经网络模型确定完整事件发生的概率之前，所述方法还包括：

使用所述第一样本数据训练第一初始卷积神经网络模型，得到所述第一神经网络模型；

使用所述第二样本数据训练第二初始卷积神经网络模型，得到所述第二神经网络模型。

12.根据权利要求11所述的方法，其特征在于，所述使用所述第一样本数据训练第一初始卷积神经网络模型，得到所述第一神经网络模型，包括：

将所述第一样本数据对应的局部特征向量输入所述第一初始卷积神经网络模型，其中，所述第一初始卷积神经网络模型包括共享网络层和第一分类层，所述第一分类层包括N个分类器，N为大于0的整数；

通过所述共享网络层将所述第一样本数据处理为所述N个分类器可以识别的第二特征向量，并输入所述第一分类层；

将所述第一分类层根据所述第一样本数据输出的独立事件类型与所述第一样本数据对应的独立事件标签进行比对，以训练所述第一初始卷积神经网络模型的参数。

13.根据权利要求11所述的方法，其特征在于，所述使用所述第二样本数据训练第二初始卷积神经网络模型，得到所述第二神经网络模型，包括：

将所述第二样本数据对应的局部特征向量输入训练好的所述第一神经网络模型；

通过所述第一神经网络模型提取所述第二样本数据中的独立事件音对应的第三特征向量，并输入所述第二初始卷积神经网络模型；

将所述第二初始卷积神经网络模型根据所述第三特征向量输出的完整事件类型与所述第二样本数据对应的完整事件标签进行比对，以训练所述第二初始卷积神经网络模型的参数。

14.根据权利要求11所述的方法，其特征在于，所述使用所述第一样本数据训练第一初始卷积神经网络模型，得到所述第一神经网络模型，包括：

使用第一样本数据训练第一初始滤波参数，得到第一滤波参数；其中，第一初始神经网络模型包括第一特征提取层，所述第一特征提取层包括多个第一滤波子层，每一所述第一滤波子层由第一滤波参数构建；

所述使用所述第二样本数据训练第二初始卷积神经网络模型，得到所述第二神经网络模型，包括：

通过第二样本数据训练第二初始滤波参数，得到第二滤波参数；所述第二神经网络模型还包括，第二特征提取层，所述第二特征提取层包括多个第二滤波子层，每一所述第二滤波子层由第二滤波参数构建。

15.根据权利要求4所述的方法，其特征在于，在根据音频数据与预设的判定条件通过第一神经网络模型与第二神经网络模型确定完整事件发生的概率之前，所述方法还包括：

通过从已知事件结果的监控视频或影视屏中截取一个完整事件发生片段，并将完整事件以及在此完整事件中先后发生的独立事件作为样本数据，其中，所述样本数据包括所述第一样本数据和/或所述第二样本数据。

16.一种事件检测系统，其特征在于，运用权利要求1至15任一项所述的事件检测方法；所述事件检测系统包括：

处理模块，配置为根据所述音频数据与预设的判定条件确定独立事件，并根据所述独立事件确定完整事件发生的概率；其中，所述独立事件与所述判定条件相对应，所述完整事件包括一个或多个所述独立事件;

其中，所述处理模块还配置为：

所述处理模块还配置为：

17.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至15任一项中所述的方法。

18.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至15任一项中所述的方法。