CN113903003B

CN113903003B - 事件发生概率的确定方法、存储介质及电子装置

Info

Publication number: CN113903003B
Application number: CN202111205257.7A
Authority: CN
Inventors: 司马华鹏; 汤毅平; 姚奥
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-07-29
Anticipated expiration: 2041-10-15
Also published as: CN113903003A

Abstract

本申请实施例提供了一种事件发生概率的确定方法、存储介质及电子装置，属于音频数据识别技术领域，所述方法包括：通过拾音设备获取目标区域的音频数据，根据所述音频数据与所述判定条件，确定第一独立事件和/或第二独立事件；在确定发生所述第一独立事件和所述第二独立事件的情况下，通过所述拾音设备分别确定所述第一独立事件的方向信息和所述第二独立事件的方向信息，根据所述第一独立事件确定第一概率值，并根据所述第二独立事件确定第二概率值；根据所述第一独立事件的方向信息和所述第二独立事件的方向信息确定所述第一独立事件和所述第二独立事件的方向偏差；根据第一概率值、第二概率值以及方向偏差确定完整事件发生的概率。

Description

事件发生概率的确定方法、存储介质及电子装置

技术领域

本申请涉及音频数据识别技术领域，具体而言，涉及一种事件发生概率的确定方法、存储介质及电子装置。

背景技术

监控系统是当前安防领域内不可或缺的一部分，诸如校园、医院、商场等场景下，均依赖于监控系统进行监控以避免突发事件的发生，或在突发事件发生时可及时发现并进行处理。

相关技术中，监控系统多基于视频技术实现相应的视频监控，例如，监控摄像头等。上述视频监控设备虽然可以获取监控设备所设置位置发生的全过程事件，但其一方面仅能针对监控设备所设置位置进行相应的监控，而受限于地形复杂性与隐私性，往往在监控场景内存在一定的监控死角，视频监控设备对发生在上述监控死角的事件则无法进行有效的监控；另一方面，大多数监控场景中，视频监控设备仍需监控人员读取监控画面进行判断，而由于监控人员往往并无法全天候工作，故在特殊时段内，仅依靠视频监控设备无法避免突发事件的发生或无法及时进行相应处理。

针对上述视频监控设备的缺陷，相关技术中的部分监控系统集成了音频监控模块，即通过采集监控场景内的音频判断是否有相应的突发事件发生。然而，相关技术中的音频监控模块仅能单一的判断监控场景内是否有事件音的产生，诸如，监控场景内是否存在尖叫声，是否存在哭声，是否存在物品碎裂的声音等，但基于单一的事件音并不能有效的判断突发事件的发生以及突发事件的类型，经常会出现误判的情况。

而且相关技术中的音频监控设备往往仅能单纯的识别音频的发生，但对于音频发生的方向而无法进行综合判断，尤其在城市的户外空间中，由于其可能存在各类不同的声音，故而单纯以音频发生与否作为判断依据在识别准确性上存在极大的不足。

针对相关技术中，在城市户外空间中音频监控模块无法有效识别事件发生的完整过程或情形，进而无法进行相应的预警或处理的技术问题，相关技术中尚无有效的解决方案。

发明内容

本申请实施例提供了一种事件发生概率的确定方法、存储介质及电子装置，以至少解决相关技术中在城市户外空间中音频监控模块无法有效识别事件发生的完整过程或情形，进而无法进行相应的预警或处理的技术问题。

在本申请的一个实施例中，提出了一种事件发生概率的确定方法，所述方法包括：

通过拾音设备获取目标区域的音频数据，其中，所述目标区域为根据所述拾音设备的预设方向和预设距离设置的监控区域；

根据所述音频数据与所述判定条件，确定第一独立事件和/或第二独立事件；其中，所述第一独立事件与第一判定条件对应，所述第二独立事件与第二判定条件对应；

在确定发生所述第一独立事件和所述第二独立事件的情况下，通过所述拾音设备分别确定所述第一独立事件的方向信息和所述第二独立事件的方向信息，其中，所述方向信息用于指示所述第一独立事件或所述第二独立事件发生的位置相对于所述拾音设备的方向；

根据所述第一独立事件确定第一概率值，并根据所述第二独立事件确定第二概率值；其中，所述第一概率值用于指示所述第一独立事件存在的情形下，所述完整事件发生的概率，所述第二概率值用于指示所述第二独立事件存在的情形下，所述完整事件发生的概率；

根据所述第一独立事件的方向信息和所述第二独立事件的方向信息确定所述第一独立事件和所述第二独立事件的方向偏差；

根据所述第一概率值、所述第二概率值以及所述方向偏差确定所述完整事件发生的概率。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，通过拾音设备获取目标区域的音频数据，根据音频数据与判定条件，确定第一独立事件和/或第二独立事件；并结合音频数据的时序信息与方向信息，通过第一神经网络模型与第二神经网络模型输出完整事件发生的概率；结合第一独立事件和第二独立事件的方向偏差，确定完整事件的类型。对于城市户外环境下，通过拾音设备引入方向信息可综合判断独立事件发生的可能以及事件发生的具体位置，还可确定第一独立事件和第二独立事件之间是属于同一完整事件，还是不同的完整事件，以此不仅在识别单一的完整事件时可显著提高准确性，还可对于多个完整事件进行综合判断；解决了在城市户外空间中音频监控模块无法有效识别事件发生的完整过程或情形，进而无法进行相应的预警或处理的技术问题。而且在音频监控过程中，可对特定区域进行监控，避免背景噪声的同时，根据多个独立事件音之间的关联以确定是否存在完整事件发生，可显著改善对于突发事件的识别的准确性，进而一方面在突发事件发生时及时提醒相关人员进行相应的干预处理，以及时避免或中止突发事件的发生；另一方面，可避免单一的独立事件音在无法判断突发事件的实际状况下及向相关人员进行不必要的提醒，进而造成的非必要的人力与时间成本过高的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种事件发生概率的确定方法的移动终端的硬件结构框图；

图2是根据本申请实施例的事件发生概率的确定方法的一种可选的流程示意图；

图3是根据本申请实施例的事件发生概率的确定系统的一种可选的结构示意图；

图4是根据本申请实施例的卷积神经网络模型训练方法的一种可选的流程示意图；

图5是根据本申请实施例第一神经网络模型的一种可选的结构示意图；

图6是根据本申请实施例第二神经网络模型一种可选的结构示意图；

图7是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的一种事件发生概率的确定方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的事件发生概率的确定方法与其应用的神经网络模型的训练方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

如图2所示，本申请实施例提供了一种事件发生概率的确定方法，包括:

S202，通过拾音设备获取目标区域的音频数据，其中，目标区域为根据拾音设备的预设方向和预设距离设置的监控区域；

S204，根据音频数据与判定条件，确定第一独立事件和/或第二独立事件；其中，第一独立事件与第一判定条件对应，第二独立事件与第二判定条件对应；

S206，在确定发生第一独立事件和第二独立事件的情况下，通过拾音设备分别确定第一独立事件的方向信息和第二独立事件的方向信息，其中，方向信息用于指示第一独立事件或第二独立事件发生的位置相对于拾音设备的方向；

S208，根据第一独立事件确定第一概率值，并根据第二独立事件确定第二概率值；其中，第一概率值用于指示第一独立事件存在的情形下，完整事件发生的概率，第二概率值用于指示第二独立事件存在的情形下，完整事件发生的概率；

S210，根据第一独立事件的方向信息和第二独立事件的方向信息确定第一独立事件和第二独立事件的方向偏差；

S212，根据第一概率值、第二概率值以及方向偏差确定完整事件发生的概率。

其中，完整事件指的是获取的音频数据中发生的某一完整事件过程中的完整音频信号；以城市户外空间的路人冲突事件为示例说明，在视频监控数据中选取某一冲突事件，该冲突事件发生的起始点与结束点之间的音频数据，即为上述完整事件样本音频数据。

需要说明的是，第一独立事件和第二独立事件是指，即某突发事件发生过程中可能存在的各类独立事件音，即分别为独立事件，独立事件的数量根据实际获取的音频数据确定。第一独立事件和第二独立事件均为泛指，并不是对其数量上的限定，其数量也可以多个，其用于指示构成一完整事件的不同独立事件，在同一完整事件由两个以上的独立事件构成时，亦可定义其它独立事件为第三独立事件、第四独立事件等。在一可选示例中，可将城市户外空间的路人冲突事件发生过程中的人员吵骂声定义为第一独立事件，将尖叫声定义为第二独立事件，将打架声定义为第三独立事件，在视频监控数据中分别选取的上述吵骂、尖叫、打架发生的起始点与结束点之间的音频数据，可以分别定义为第一独立事件音、第二独立事件音以及第三独立事件音。

方向信息可以通过拾音设备获取，上述拾音设备可以是能够确定声源方向的麦克风阵列。一般来说基于麦克风阵列的声源定位算法划分为三类：一是基于波束形成的方法；二是基于高分辨率谱估计的方法；三是基于声达时延差(TDOA)的方法，本申请实施例对此不做限定。

由于城市户外空间充斥着各种各样的声音，可能在任一方向出现尖叫声或吵骂声，但是并没有上升到肢体冲突的程度，只在特定方向出现打架冲突，此时将独立事件音和方向信息相结合，可以有效判断出特定方向是否存在冲突事件。例如，如果尖叫声和打架声的方向位于两个相反的方向，基本上可以确定尖叫声的方向暂时没有出现肢体冲突。

在一实施例中，上述步骤S212可以通过以下方式实现：

S1，在方向偏差小于第一预设阈值的情况下，获取第一独立事件的距离信息和第二独立事件的距离信息，其中，第一独立事件的距离信息用于指示第一独立事件发生的位置相对于拾音设备的直线距离，第二独立事件的距离信息用于指示第二独立事件发生的位置相对于拾音设备的直线距离；

S2，根据第一独立事件的距离信息和第二独立事件的距离信息确定第一独立事件发生的位置与第二独立事件发生的位置之间的距离偏差；

S3，根据第一概率值、第二概率值、方向偏差以及距离偏差确定完整事件发生的概率。

需要说明的是，拾音设备可以获取到声源的方位信息，此处的方位信息可以包括方向信息和距离信息，其中，方向信息和距离信息可以同时获取，也可以先获取方向信息，在经过方向偏差计算后再决定是否获取距离信息。通过计算获得第一独立事件和第二独立事件间的方向信息获取方向偏差、通过距离信息获取距离偏差后，优先参考方向偏差，第一独立事件和第二独立事件间的方向偏差超过方向偏差阈值，则可直接判断两者不属于同一完整事件；若第一独立事件和第二独立事件间的方向偏差未超过方向偏差阈值，再进一步比较距离偏差是否超过距离偏差阈值，若距离偏差超过阈值，则可判断两者不属于同一完整事件。

上述第一独立事件与第二独立事件的检测和是否属于同一完整事件，可以通过预先训练的神经网络模型进行检测与识别，将第一独立事件与第二独立事件对应的音频以及该独立事件对应的类型作为样本对神经网络模型进行训练，以令完成训练的神经网络模型可根据音频数据识别对应的第一独立事件、第二独立事件和第一独立事件与第二独立事件是否属于同一完整事件。

在一实施例中，上述在确定发生第一独立事件和第二独立事件的情况下，方法还包括：

S1，根据音频数据确定音频时序信息，其中，音频时序信息用于指示第一独立事件与第二独立事件的时序关系；

S2，根据第一概率值、第二概率值、方向偏差以及音频时序信息，确定完整事件发生的概率。

需要说明的是，本申请实施例中涉及的音频时序信息用于指示一次检测过程中第一独立事件与第二独立事件的先后顺序，例如，在时刻1(10:00:01)检测至音频数据，结合判定条件确定发生第一独立事件，在时刻2(10:01:09)检测至音频数据，结合判定条件确定发生第二独立事件，时刻2在时刻1之后，则时序信息指示第二独立事件在第一独立事件之后发生。

对于完整事件发生概率的确定，一方面可根据第一独立事件与第二独立事件进行确定，另一方面还可在第一独立事件与第二独立事件的基础上，根据其发生的前后顺序进一步确定完整事件发生的概率。例如，一个完整事件中根据先验知识，必然是先发生第一独立事件，再发生第二独立事件，则在检测过程中，如检测到第二独立事件发生在第一独立事件之前，则说明完整事件发生的概率相对较低。

可选的实施方式中，上述在根据独立事件和独立事件的方向信息，确定完整事件发生的概率之后，方法还包括：

S1，在完整事件发生的概率大于或等于第二预设阈值的情况下，输出完整事件的类型。

需要说明的是，在完整事件发生的概率大于或等于预设阈值，例如，70％时，则说明完整事件发生的可能性极大，此时，不仅可以输出完整事件发生的结果，同时可根据前述第一独立事件与第二独立事件确定完整事件发生的类型，并将类型一并输出，进而及时提醒相应人员处理。

经实验，以上实施例中，基于神经网络模型对独立事件的类型进行识别，并根据先验知识以及统计数据所确定的独立事件之间的发生顺序确定完整事件发生的概率的过程，其对于完整事件判断的准确性可达到84％。

虽然上述实施例中的方式可较为准确的判断完整事件发生的可能性，但是，由于上述实施例中的方式依赖于先验知识以及统计数据所确定的独立事件之间发生顺序的顺序规则。故此，上述实施例中的方式在实现过程中，需要预先获得独立事件之间发生顺序的顺序规则，从而造成一方面需要在获取样本数据时，由专业人员对独立事件对应的顺序规则进行预先定义，进而加大的样本预处理的工作量，以及对应的人力与时间成本；另一方面，独立事件对应的顺序规则的确定依赖于极其大量的样本数据，进而造成对样本需求的增加。

本申请实施例在此基础上，进一步提出一种基于神经网络模型识别完整事件发生概率的事件发生概率的确定方法，以不依赖于先验知识以及统计数据所确定的独立事件对应的顺序规则，并可进一步改善对完整事件发生可能性的识别准确率，具体如下：

在一实施例中，上述步骤S204可以通过以下方式实现：

S1，通过第一神经网络模型根据音频数据与预设的判定条件获取第一独立事件和/或第二独立事件所对应的第一特征向量，其中，第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，第一神经网络模型包括共享网络层和第一分类层，第一样本数据包括第一独立事件音数据和/或第二独立事件音数据和对应的独立事件的标签，独立事件的标签用于指示独立事件的类型。

如图5所示，第一神经网络模型包括共享网络层和第一分类层，其中第一分类层包括第一独立事件多层感知机分类模块，第二独立事件多层感知机分类模块等N个第一独立事件音数据和/或第二独立事件音多层感知机分类模块。

S2，通过共享网络层获取音频数据的局部特征向量；

S3，通过第一分类层根据音频数据的局部特征向量提取N个第一独立事件音数据和/或第二独立事件音分别对应的第一特征向量，其中，N为大于0的整数，第一分类层包括N个分类器，每一分类器分别对应一个判定条件。

如图6所示，第二神经网络模型包括特征编码层、深度学习层和第二分类层。特征编码层包括第一事件多层感知机特征编码模块、第二事件多层感知机特征编码模块等N个事件多层感知机特征编码模块。第二分类层可以通过综合事件多层感知机分类器实现。

S4，通过第二神经网络模型在第一特征向量的末端拼接第一独立事件和/或第二独立事件对应的方向信息的特征向量，得到第二特征向量；根据第二特征向量确定完整事件发生的概率，并在完整事件发生的概率大于或等于第二预设阈值的情形下，输出所述完整事件的类型，其中，第二神经网络模型为使用第二样本数据训练的卷积神经网络模型，第二样本数据包括完整事件音数据和对应的完整事件标签，完整事件标签用于指示完整事件的类型，完整事件音数据中包含第一独立事件音数据和所述第二独立事件音数据。

需要说明的是，第一特征向量可通过特征编码层对第一神经网络模型输出的N个第一独立事件音数据和/或第二独立事件音的第一特征向量进行编码；

其中，步骤S4还包括：

提取每个第一独立事件音数据和/或第二独立事件音的方向信息对应的方向特征向量；

对第一神经网络模型输出的N个第一独立事件音和/或第二独立事件音的第一特征向量进行编码，将N个第一独立事件音数据和/或第二独立事件音对应的方向特征向量对应拼接在第一特征向量的末端，得到第二特征向量。

第二神经网络模型通过深度学习层对编码后的N个第一独立事件音数据和/或第二独立事件音的第一特征向量进行识别，还可根据音频数据确定音频时序信息，其中，音频时序信息用于指示第一独立事件和/或第二独立事件之间的时序关系。如下步骤所示：

S5，通过第二神经网络模型根据音频数据确定音频时序信息，其中，音频时序信息用于指示第一独立事件和/或第二独立事件之间的时序关系；根据第二特征向量以及音频时序信息确定完整事件发生的概率。

在确定方向偏差小于预设的方向偏差阈值的情况下，还可以考虑距离信息，如下步骤所示：

S6，通过第二神经网络模型在第二特征向量的末端拼接第一独立事件音和/或第二独立事件音数据对应的距离信息的特征向量，得到第三特征向量；

S7，根据第三特征向量确定完整事件发生的概率，并在在完整事件发生的概率大于或等于第二预设阈值的情形下，输出完整事件的类型。

在一实施例中，通过第一神经网络模型根据音频数据与预设的判定条件获取第一独立事件和/或第二独立事件所对应的第一特征向量，通过第二神经网络模型在第一特征向量的末端拼接第一独立事件和/或第二独立事件对应的方向信息的特征向量，得到第二特征向量，还可以通过以下步骤实现：

第一神经网络模型还包括第一特征提取层，第二神经网络模型还包括第二特征提取层，其中，

S1，通过第一特征提取层进行第一次特征提取，得到音频数据的第一局部特征向量；其中，第一特征提取层包括多个第一滤波子层，每一第一滤波子层由第一滤波参数构建，第一滤波参数是通过第一样本数据训练得到的，第一局部特征向量用于第一神经网络模型根据音频数据与判定条件获取第一独立事件和/或第二独立事件所对应的第一特征向量；

S2，通过第二特征提取层进行第二次特征提取，得到音频数据的第二局部特征向量；其中，第二特征提取层包括多个第二滤波子层，每一第二滤波子层由第二滤波参数构建，第二滤波参数是通过第二样本数据训练得到的，第二局部特征向量用于，根据音频数据确定音频时序信息，其中，音频时序信息用于指示第一独立事件和/或第二独立事件之间的时序关系。

在本实施例中，第一滤波子层与第二滤波子层均采用Gabor卷积层。标准卷积层中，每个卷积层存在约400个参数，Gabor卷积层中，每个卷积层仅有两个参数。以此，在前述构建前述特征提取的过程中，可显著减少特征提取层的参数占比，进而令特征提取的效率以及整体模型的工作效率均得以显著提升。

需要说明的是，上述实施例中，基于第一神经网络模型与第二神经网络模型所确定完整事件发生概率的过程，其完全依赖于模型从样本数据中所学习到的特征，并不依赖于先验知识以及统计数据所确定的独立事件之间发生顺序的顺序规则。因此，一方面，上述实施例中的方式在样本数据的预处理阶段，不需要专业人事对顺序规则的预先确定，减少了样本标注工作的工作量，并可显著改善了实现本申请实施例中的事件发生概率的确定方法的人力与时间成本；同时，亦无需大量的样本数据以确定顺序规则，故对样本数据的需求同时得以减少。在此基础上，上述实施例的方式还可进一步提升对完整事件发生概率进行判断的准确性；经实验，上述实施例中基于第一神经网络模型与第二神经网络模型所确定完整事件发生概率的准确性可达到96％以上。

可选的实施方式中，本申请实施例提供的事件发生概率的确定方法还包括：

S1，通过通信模块输出完整事件的类型至预设用户的用户终端；其中，通信模块的输出可运用前述提及的传输装置106作为载体实现，和/或，

S2，通过告警模块在完整事件发生的概率大于或等于预设阈值的情形下，在目标区域生成告警信号，告警信号包括完整事件中的最后一次独立事件的方向信息和/或距离信息，其中，告警模块的输出，包括但不限于与音响、闪光灯同功能性的设备作为载体。

可选的实施方式中，在通过拾音设备获取目标区域的音频数据之前，本申请实施例提供的事件发生概率的确定方法还包括：

确定以拾音设备为圆心，以R为半径的圆形区域为目标区域；或

确定在拾音设备的预设方向和预设距离的区域为目标区域。

根据本申请实施例的又一个方面，还提供了一种应用前述方法的事件发生概率的确定系统，如图3所示，事件发生概率的确定系统包括：

拾音模块(相当于前述拾音设备)，配置为获取目标区域的音频数据，其中，目标区域为预设的监控区域；

处理模块，配置为根据音频数据与预设的判定条件确定独立事件，其中，独立事件与判定条件相对应；在确定发生独立事件的情况下，通过拾音设备确定独立事件的方向信息，其中，方向信息用于指示独立事件发生的位置相对于拾音设备的方向；根据独立事件和独立事件的方向信息，确定完整事件发生的概率，其中，完整事件包括一个或多个独立事件。

需要说明的是，本申请中的拾音模块可设置为麦克风阵列，其可实现声源的定位处理，进而确定音频产生的方向与相对距离。进一步的，麦克风阵列还可包括定向拾音功能，以实现不同的监控需求。但不限于独立的监控设备，也可集成于其他具有拾音功能的硬件设备，如具备语音识别功能的LED大屏等。

需要说明的是，上述处理模块集成于服务器中，处理模块由预先完成训练的第一神经网络模型与第二神经网络模型构成。

在一实施例中，上述事件发生概率确定系统包括：

通信模块，配置为判断发生突发事件的情形下，将相应的情况通知监控人员或警务人员以及时干预处理。

在一实施例中，上述事件发生概率的确定系统包括：

告警模块，包括扬声器或声光告警器，配置为判断发生突发事件的情形下，通过扬声器或声光告警器进行警示。

根据本申请实施例的又一个方面，还提供了事件发生概率确定方法的中应用的神经网络模型的训练方法。如图4所示，方法包括：

S402，获取样本数据，通过从已知事件结果的监控视频或影视屏中截取一个完整事件发生片段，并将完整事件以及在此完整事件中先后发生的第一独立事件和/或第二独立事件作为样本数据。

其中，第一样本数据指的是完整事件样本音频数据以及对应的完整事件类型，第二样本数据指的是第一独立事件和/或第二独立事件的样本音频数据以及对应的第一独立事件和/或第二独立事件类型。

S404，使用第一样本数据训练第一初始卷积神经网络模型，得到第一神经网络模型；

S406，使用第二样本数据训练第二初始卷积神经网络模型，得到第二神经网络模型。

可选的实施方式中，使用样本数据训练第一初始卷积神经网络模型和第二初始卷积神经网络模型，得到第一神经网络模型和第二卷积神经网络模型，还可通过以下方式实现：

S1，将第二样本数据对应的局部特征向量输入训练好的第一神经网络模型；

S2，通过第一神经网络模型提取第二样本数据中的独立事件音对应的特征向量，并输入第二初始卷积神经网络模型；

S3，将第二初始卷积神经网络模型根据特征向量输出的完整事件类型与第二样本数据对应的完整事件标签进行比对，以训练第二初始卷积神经网络模型的参数。

以下通过示例对上述方案进行说明，本申请实施例中涉及的训练用样本音频数据可以包括两类，一类为完整事件样本音频数据，即某突发事件发生过程中的完整音频信号；以仓库盗窃为示例说明，可在视频监控数据中选取某一仓库盗窃事件，获取该盗窃事件发生的起始点与结束点之间的音频数据，并将该音频数据标注为盗窃事件，标注后的音频数据即可作为上述完整事件样本音频数据。另一类为独立事件音样本音频数据，即某突发事件发生过程中可能存在的各类独立事件音；上述示例中，可将仓库盗窃事件发生过程中的走动声定义为第一独立事件音，将异常开锁声定义为第二独立事件音，将搬运声定义为第三独立事件音，在视频监控数据中分别选取上述走动、开锁、搬运发生的起始点与结束点之间的音频数据，并将相应音频数据标注为仓库盗窃事件发生过程中的走动、开锁、搬运，标注后的音频数据即对应为独立事件音样本音频数据。

举例而言，视频或麦克风阵列监控获取到10:00:00至10:10:00发生仓库盗窃事件，期间，在10:02:30至10:02:50发生人员走动，在10:04:15至10:05:30发生异常开锁，在10:06:20至10:08:20发生搬运，则将10:00:00至10:10:00之间的完整音频作为仓库盗窃事件的完整事件样本音频数据，将10:02:30至10:02:50之间的音频作为人员走动的独立事件音样本音频数据，将10:04:11-10:08:20之间的音频作为异常开锁的独立事件音样本音频数据。

以此类推，可通过不同的渠道以获取不同突发事件的音频数据，并分别将该突发事件的音频数据中对应的完整音频数据作为完整事件样本音频数据，将该突发事件的音频数据中每一独立事件音作为独立事件音样本音频数据。

通过独立事件音样本音频数据进行第一神经网络模型的训练，即将独立事件音样本音频数据相应的样本特征作为输入，将该样本特征对应的独立事件标签(走动、开锁、搬运等)作为输出，以对第一神经网络模型进行训练，进而令完成训练的第一神经网络模型可对于独立事件音进行分类。第一神经网络模型的训练针对独立事件音的训练，完成训练后的第一神经网络模型为一分类模型，用于对不同的独立事件音进行分类。

通过样本特征对预设的第二神经网络模型进行训练，通过完整事件样本音频数据进行第二神经网络模型的训练，即将完整事件样本音频数据对应的样本特征作为输入，将该样本特征对应的突发事件标签作为输出，以对第二神经网络模型进行训练，进而令完成训练的第二神经网络模型可判断是否有突发事件发生。

需要说明的是，第二神经网络模型与完成训练后的第一神经网络模型共同构成了本发明系统完整的神经网络模型。完成训练后的第一神经网络模型在第二神经网络模型的训练过程中不再更新，仅作特征提取用。

第二神经网络模型的训练为针对突发事件的训练，完成训练后的第二神经网络模型用于判断是否发生突发事件。第二神经网络模型的判断机制在于，对于某一突发事件，完成训练后的第一神经网络模型可对该突发事件的完整事件音频中存在的独立事件音进行检测与分类，进而令第二神经网络模型可学习该突发事件的完整事件音频中可能存在的各类独立事件音；在样本量足够的情形下，完成训练的第二神经网络模型即可通过某音频中独立事件音的类型判断相应突发事件发生的概率。

需要说明的是，本实施例中，上述第一神经网络模型与第二神经网络模型均采用交叉熵函数作为loss损失函数，实际操作中，损失函数亦可采用其他函数进行设定。

S1，使用第一样本数据训练第一初始滤波参数，得到第一滤波参数；其中，第一初始神经网络模型包括第一特征提取层，第一特征提取层包括多个第一滤波子层，每一第一滤波子层由第一滤波参数构建；

S2，通过第二样本数据训练第二初始滤波参数，得到第二滤波参数；第二神经网络模型还包括，第二特征提取层，第二特征提取层包括多个第二滤波子层，每一第二滤波子层由第二滤波参数构建。

根据本申请实施例的又一个方面，通过上述神经网络模型训练方法与事件发生概率的确定方法的结合应用，本实施例举例完成过程如下：

S2.1，通过预先完成训练的语音识别技术(Voice Activity Detection，简称为VAD)模型对监控场景进行检测，在检测到监控场景由正常状态切换至异常状态时，开启本发明中的突发事件发生概率的确定系统。

上述S2.1中，VAD模型可根据不同场景部署不同的检测机制，例如，可将静音场景设置为正常状态，将非静音场景设置为异常状态，该机制下，如VAD模型检测到监控场景内出现响动，即开启突发事件发生概率的确定系统；又例如，可将响度低于预设阈值的环境音设置为正常状态，将响度超过该阈值的环境音设置为异常状态，该机制下，如VAD模型检测到监控场景内的环境音的响度超过阈值，即开启突发事件发生概率的确定系统。

上述VAD模型可通过音频监控模块中的拾音单元获取的音频进行判断；由于静音检测或单纯的环境音检测的功耗与计算均较低，故上述S2.1可避免突发事件发生概率的确定系统在无突发事件发生可能性的情形下保持工作，以造成不必要的功耗与计算。上述VAD模型也可由其他具有检测功能的模块或硬件替代，如能量模型，噪音检测器等。

S2.2，通过音频监控模块获取监控场景内的监控音频数据，并对监控音频数据进行特征提取，以得到监控音频特征。

S2.3，通过训练得到的第一神经网络模型对监控音频特征进行检测，以判断是否有独立事件音；如有，则第二神经网络模型进行工作；如没有，则第二神经网络模型不进行工作。

上述S2.3中，由于未发生相应独立事件的情形下，突发事件发生的可能性极低，故以第一神经网络模型是否检测到独立事件音作为第二神经网络模型开始工作的先决条件，可进一步避免不必要的功耗与计算。

需要说明的是，针对本方案中城市户外的应用场景，可通过前述麦克风阵列所获取的声源定位信息确定独立事件音的方位，具体而言，在检测到存在独立事件音的同时，通过麦克风阵列获取该独立事件音的方位信息，方位信息包括方向信息与距离信息，前者用于表征独立事件音发生的方向，后者用于表征独立事件音发生的距离。上述方向信息与距离信息在进行特征提取后可拼接于独立事件音的音频特征之后，构成该独立事件音所对应的完整特征。

S2.4，第二神经网络模型工作的情形下，第二神经网络模型根据第一神经网络模型检测并提取的独立事件音的特征进行判断发生突发事件的概率，当第二神经网络模型确定发生突发事件的概率超过预设阈值时，即判断发生突发事件。

上述S2.4中，第一神经网络模型持续检测监控音频特征中对应的独立事件音，并对检测到的独立事件进行特征提取与编码以送入第二神经网络模型；第二神经网络模型根据相应的独立事件特征计算发生突发事件的概率。

需要说明的是，第二神经网络模型所计算的发生突发事件的概率是根据第一神经网络模型对独立事件音的持续检测而实时变化的；在一示例中，第一神经网络模型在不同时刻依次检测到尖叫、哭泣、打架对应的独立事件音，则第二神经网络模型输出的发生校园欺凌事件在检测到尖叫时为10％，检测到哭泣时为40％，检测到打架时为90％(设定阈值为80％)。

如第二神经网络模型在预设时长内所计算的突发事件发生的概率始终低于阈值，则可判断突发事件暂未发生；在另一示例中，第一神经网络模型在不同时刻依次检测到尖叫与哭泣时，第二神经网络模型对应时刻输出概率依次为10％与40％，但之后的10min中，第一神经网络模型始终未检测到其它独立事件音，则第二神经网络模型可判断校园欺凌事件并未发生，进而第二神经网络模型可停止工作，直至下一次第一神经网络模型重新检测至独立事件音再开启。

进一步的，根据前述独立事件音的完整特征中的方向信息与距离信息对应特征，可进一步判断两个独立事件音之间的关联性。例如，第一独立事件音与第二独立事件音发生的方向截然相反，则可认为，虽然第一独立事件音与第二独立事件音在类型上同属于同一完整事件，但由于其发生的方位不同，故实际并不可能同属于同一完整事件，即产生的主体或原因可能并不相同。

在考量上述独立事件音的方向信息与距离信息的过程中，优先考虑方向信息之间的差异，即两个连续的独立事件音之间的方向差距是否超过方向阈值，在两个连续的独立事件音的方向超过阈值的情形下，可直接判断两者并非属于同一完整事件。在两个连续的独立事件音的方向未超过阈值的情形下，可进一步结合距离信息进行判断，即判断第一独立事件音与第二独立事件音之间的直线距离差是否超过距离阈值，在第一独立事件音与第二独立事件音之间的直线距离差超过距离阈值时，可判断两者并非属于同一完整事件。

对于上述属于不同完整事件的独立事件音，可针对第一独立事件音与第二独立事件音分别建立对应的第一列表与第二列表，用于记录第一独立事件音与第二独立事件音可能属于的完整事件，即将与第一独立事件音之间符合类型要求以及方向与距离要求的后续独立事件音记录于第一列表中，将与第二独立事件音之间符合类型要求与方向与距离要求的后续独立事件音记录于第二列表中，进而判断第一独立事件音与第二独立事件音对应的完整事件分别是否发生。

S2.5，第二神经网络模型判断发生突发事件后，可通过集成在突发事件发生概率的确定系统中的通信模块以通知相应的监控人员进行干预，或直接将相应的事件与地点推送至警务人员进行报警，也可通过集成在突发事件发生概率的确定系统中的告警模块进行告警。同时，系统可将完整事件发生的方位向相关人员进行推送，该方位为完整事件中最后一次检索到的独立事件音的方位信息。

S2.6，如VAD模型检测到监控场景由异常状态恢复至正常状态达到预设时长，如5min，则当前监控场景内无异常状况发生，突发事件发生概率的确定系统即可关闭工作。

需要说明的是，在上述麦克风阵列的工作基础上，还可进一步根据麦克风阵列的定向拾音功能设定麦克风阵列的拾音范围，例如，设置麦克风阵列仅监控50米范围内的独立声事件，以此，对于该范围以外的声音可默认为是背景噪声，通过屏蔽该类背景噪声，进而在城市户外环境下避免噪声对音频监控的影响。又例如，可设定麦克风阵列的拾音区域为某一固定区域，如公共区域的出入口，以针对性的监控该区域内是否存在特定事件发生。

示例性实施例1

本示例性实施例中，以突发事件发生概率的确定系统部署于城市户外场所为例进行说明，主要检测对象为可能发生于城市户外场所的暴力冲突事件。突发事件发生概率的确定系统的处理模块中，第一神经网络模型与第二神经网络模型的训练过程如前述，在此不再赘述。

S1，通过预先完成训练的VAD模型对监控场景进行检测，在检测到监控场景内出现异常响动而由静音状态切换至非静音状态时，开启突发事件发生概率的确定系统。

S2，通过音频监控模块获取监控场景内的监控音频数据，并对监控音频数据进行特征提取，以得到监控音频特征。

S3，第一神经网络模型对监控音频特征进行检测，在监控音频数据的00:50相应位置检测到尖叫声，相应的第二神经网络模型开启工作。

S4，第一神经网络模型持续对监控音频特征进行检测，在监控音频数据的00:50相应位置检测到尖叫声，第一神经网络模型则对尖叫声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生城市户外场所的暴力冲突事件的概率为10％。

S5，第一神经网络在监控音频数据的02:30相应位置检测到吵骂声，第一神经网络模型则对吵骂声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生城市户外场所的暴力冲突事件的概率为40％。同时通过拾音设备获取尖叫声和吵骂声的方向，如果方向偏差超过一定范围，第二神经网络模型可以确定二者不属于同一完整事件，可以直接确定完整事件发生的概率小于50％，也可以同时将尖叫声和吵骂声列入两个不同的完整事件的列表。如果方向偏差低于一定范围，则继续步骤S6。

S6，第一神经网络在监控音频数据的04:15相应位置检测到打架声；第一神经网络模型则对打架声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型。同时获取到打架声的方向与尖叫声和哭泣声互相之间的方向偏差低于一定范围，第二神经网络模型以此确定发生城市户外场所的暴力冲突事件的概率为90％。也可以在尖叫声、哭泣声和打架声方向偏差低于一定范围时，获取尖叫声、哭泣声和打架声的距离偏差，在距离偏差也低于一定范围时，第二神经网络模型以此确定发生城市户外场所的暴力冲突事件的概率为90％。

S7，第二神经网络模型确定发生城市户外场所的暴力冲突事件的概率超过预设的阈值80％，即通过通信模块及时通知附近的警务人员介入，或可通过告警模块进行声音告警以驱散施暴者。

S8，VAD模型检测到监控场景由之前的非静音状况恢复至静音状态，且恢复时长达到5min，则关闭突发事件发生概率的确定系统。

示例性实施例2

本示例性实施例中，以突发事件发生概率的确定系统部署于大宗商品临时存放区域为例进行说明，指定其中的一些特定区域作为重点监控的目标区域，此实施例将重点监控区域限定为麦克风阵列布置的重点货物存放区或仓门等特定区域，主要检测对象为该区域可能发生的盗窃事件。突发事件发生概率的确定系统的处理模块中，第一神经网络模型与第二神经网络模型的训练过程可以参照前述训练过程，以相应的盗窃事件的完整音频以及人员走动、异常开锁、搬运以及相应的独立事件音作为样本音频数据完成训练，在此不再赘述。

S1，通过预先完成训练的VAD模型对指定的重点监控场景进行检测，在检测到重点监控场景内出现异常响动而由静音状态切换至非静音状态时，开启突发事件发生概率的确定系统。

S3，第一神经网络模型对监控音频特征进行检测，在监控音频数据的00:10相应位置检测到人员走动声，相应的第二神经网络模型开启工作。

S4，第一神经网络模型持续对监控音频特征进行检测，在监控音频数据的00:10相应位置检测到人员走动声，第一神经网络模型则对人员走动声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，同时拾音设备将方向信息送入第二神经网络模型，检测到的人员走动声在重点监控区域范围内，第二神经网络模型以此确定发生盗窃事件的概率为20％。

S5，第一神经网络在监控音频数据的00:25相应位置检测到异常开锁声，第一神经网络模型则对异常开锁声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，且异常开锁声也在重点监控区域范围内，第二神经网络模型以此确定发生盗窃事件的概率为60％。

S6，第一神经网络在监控音频数据的01:30相应位置检测到搬运声；第一神经网络模型则对搬运声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，且搬运声也在重点监控区域范围内，第二神经网络模型以此确定发生盗窃事件的概率为95％。

S7，第二神经网络模型确定发生盗窃事件的概率超过预设的阈值80％，即通过通信模块及时通知仓管人员介入，或可通过告警模块进行声音告警以驱散盗窃者。

根据本申请实施例的又一个方面，还提供了一种用于实施上述事件发生概率的确定方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图7所示，该电子装置包括存储器702和处理器704，该存储器702中存储有计算机程序，该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，通过拾音设备获取目标区域的音频数据，其中，目标区域为根据拾音设备的预设方向和预设距离设置的监控区域；

S2，根据音频数据与判定条件，确定第一独立事件和/或第二独立事件；其中，第一独立事件与第一判定条件对应，第二独立事件与第二判定条件对应；

S3，在确定发生第一独立事件和第二独立事件的情况下，通过拾音设备分别确定第一独立事件的方向信息和第二独立事件的方向信息，其中，方向信息用于指示第一独立事件或第二独立事件发生的位置相对于拾音设备的方向；

S4，根据第一独立事件确定第一概率值，并根据第二独立事件确定第二概率值；其中，第一概率值用于指示第一独立事件存在的情形下，完整事件发生的概率，第二概率值用于指示第二独立事件存在的情形下，完整事件发生的概率；

S5，根据第一独立事件的方向信息和第二独立事件的方向信息确定第一独立事件和第二独立事件的方向偏差；

S6，根据第一概率值、第二概率值以及方向偏差确定完整事件发生的概率。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图7中所示更多或者更少的组件(如网络接口等)，或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本申请实施例中的事件发生概率的确定方法与其应用的神经网络模型的训练方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的事件发生概率的确定。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器702具体可以但不限于用于储存事件发生概率的确定的程序步骤。作为一种示例，如图7所示，上述存储器702中可以但不限于包括上述事件发生概率的确定系统中的拾音模块、通信模块、告警模块等。此外，还可以包括但不限于上述事件发生概率的确定系统中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置706包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器708，用于显示完整事件的告警推送；和连接总线710，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种事件发生概率的确定方法，其特征在于，包括：

根据所述音频数据与判定条件，确定第一独立事件和/或第二独立事件；其中，所述第一独立事件与第一判定条件对应，所述第二独立事件与第二判定条件对应；

根据所述第一独立事件确定第一概率值，并根据所述第二独立事件确定第二概率值；其中，所述第一概率值用于指示所述第一独立事件存在的情形下，完整事件发生的概率，所述第二概率值用于指示所述第二独立事件存在的情形下，所述完整事件发生的概率；

根据所述第一概率值、所述第二概率值以及所述方向偏差确定所述完整事件发生的概率;

其中，所述完整事件指的是获取的音频数据中发生的某一完整事件过程中的完整音频信号；所述第一独立事件和所述第二独立事件是指，某突发事件发生过程中可能存在的各类独立事件音。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一概率值、所述第二概率值以及所述方向偏差确定所述完整事件发生的概率，包括：

在所述方向偏差小于第一预设阈值的情况下，获取所述第一独立事件的距离信息和所述第二独立事件的距离信息，其中，所述第一独立事件的距离信息用于指示所述第一独立事件发生的位置相对于所述拾音设备的直线距离，所述第二独立事件的距离信息用于指示所述第二独立事件发生的位置相对于所述拾音设备的直线距离；

根据所述第一独立事件的距离信息和所述第二独立事件的距离信息确定所述第一独立事件发生的位置与所述第二独立事件发生的位置之间的距离偏差；

根据所述第一概率值、所述第二概率值、所述方向偏差以及所述距离偏差确定所述完整事件发生的概率。

3.根据权利要求1所述的方法，其特征在于，在确定发生所述第一独立事件和所述第二独立事件的情况下，所述方法还包括：

根据所述音频数据确定音频时序信息，其中，所述音频时序信息用于指示所述第一独立事件与所述第二独立事件的时序关系；

根据所述第一概率值、所述第二概率值、所述方向偏差以及所述音频时序信息，确定所述完整事件发生的概率。

4.根据权利要求1至3任一项所述的方法，其特征在于，在根据所述独立事件和所述独立事件的方向信息，确定完整事件发生的概率之后，所述方法还包括：

在所述完整事件发生的概率大于或等于第二预设阈值的情况下，输出所述完整事件的类型。

5.根据权利要求1所述的方法，其特征在于，所述根据所述音频数据与所述判定条件，确定第一独立事件和/或第二独立事件，包括：

通过第一神经网络模型根据音频数据与预设的判定条件获取所述第一独立事件和/或所述第二独立事件所对应的第一特征向量，其中，所述第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，所述第一神经网络模型包括共享网络层和第一分类层，所述第一样本数据包括所述第一独立事件音数据和/或所述第二独立事件音数据和对应的独立事件的标签，所述独立事件的标签用于指示所述独立事件的类型。

6.根据权利要求5所述的方法，其特征在于，在通过第一神经网络模型根据音频数据与预设的判定条件获取所述第一独立事件和/或所述第二独立事件所对应的第一特征向量之后，所述方法还包括：

通过第二神经网络模型在所述第一特征向量的末端拼接所述第一独立事件和/或所述第二独立事件对应的方向信息的特征向量，得到第二特征向量；

根据所述第二特征向量确定所述完整事件发生的概率，并在所述完整事件发生的概率大于或等于第二预设阈值的情形下，输出所述完整事件的类型，其中，所述第二神经网络模型为使用第二样本数据训练的卷积神经网络模型，所述第二样本数据包括完整事件音数据和对应的完整事件标签，所述完整事件标签用于指示所述完整事件的类型，所述完整事件音数据中包含所述第一独立事件音数据和所述第二独立事件音数据。

7.根据权利要求6所述的方法，其特征在于，在通过第二神经网络模型在所述第一特征向量的末端拼接所述第一独立事件和/或所述第二独立事件对应的方向信息的特征向量，得到第二特征向量之后，所述方法还包括：

通过所述第二神经网络模型在所述第二特征向量的末端拼接所述第一独立事件音和/或所述第二独立事件音数据对应的距离信息的特征向量，得到第三特征向量；

根据所述第三特征向量确定所述完整事件发生的概率，并在在所述完整事件发生的概率大于或等于所述第二预设阈值的情形下，输出所述完整事件的类型。

8.根据权利要求4所述的方法，其特征在于，所述方法还包括：

通过通信模块输出所述完整事件的类型至预设用户的用户终端；和/或，

通过告警模块在所述完整事件发生的概率大于或等于预设阈值的情形下，在所述目标区域生成告警信号，其中，所述告警信号包括所述完整事件中的最后一次独立事件的方向信息和/或距离信息。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8任一项中所述的方法。