CN113920473B

CN113920473B - 完整事件确定方法、存储介质及电子装置

Info

Publication number: CN113920473B
Application number: CN202111207163.3A
Authority: CN
Inventors: 司马华鹏; 汤毅平; 姚奥
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-07-29
Anticipated expiration: 2041-10-15
Also published as: CN113920473A

Abstract

本申请实施例提供了一种完整事件确定方法、存储介质及电子装置，所述方法包括：获取目标区域的音频数据；根据音频数据与预设的判定条件，通过第一神经网络模型确定音频数据中包含的独立事件所对应的第一特征向量；第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，第一神经网络模型包括共享网络层和第一分类层，共享网络层包括A层网络结构，A层网络结构之间共享参数，每一层网络结构包括B层卷积层，在每一层网络结构中，位于中间位置的卷积层的卷积通道数量多于位于输入或输出位置的所述卷积层的卷积通道数量；将第一特征向量输入第二神经网络模型，通过第二神经网络模型确定完整事件发生的概率。

Description

完整事件确定方法、存储介质及电子装置

技术领域

本申请涉及音频数据识别技术领域，具体而言，涉及一种完整事件确定方法、存储介质及电子装置。

背景技术

监控系统是当前安防领域内不可或缺的一部分，诸如校园、医院、商场等场景下，均依赖于监控系统进行监控以避免突发事件的发生，或在突发事件发生时可及时发现并进行处理。

相关技术中，监控系统多基于视频技术实现相应的视频监控，例如，监控摄像头等。上述视频监控设备虽然可以获取监控设备所设置位置发生的全过程事件，但其一方面仅能针对监控设备所设置位置进行相应的监控，而受限于地形复杂性与隐私性，往往在监控场景内存在一定的监控死角，视频监控设备对发生在上述监控死角的事件则无法进行有效的监控；另一方面，大多数监控场景中，视频监控设备仍需监控人员读取监控画面进行判断，而由于监控人员往往并无法全天候工作，故在特殊时段内，仅依靠视频监控设备无法避免突发事件的发生或无法及时进行相应处理。

针对上述视频监控设备的缺陷，相关技术中的部分监控系统集成了音频监控模块，即通过采集监控场景内的音频判断是否有相应的突发事件发生。然而，相关技术中的音频监控模块仅能单一的判断监控场景内是否有事件音的产生，诸如，监控场景内是否存在尖叫声，是否存在哭声，是否存在物品碎裂的声音等，但基于单一的事件音并不能有效的判断突发事件的发生以及突发事件的类型，经常会出现误判的情况。

针对相关技术中，音频监控模块无法有效识别突发事件的问题，相关技术中尚无有效的解决方案。

发明内容

本申请实施例提供了一种完整事件确定方法、存储介质及电子装置，以至少解决相关技术中音频监控模块无法有效识别突发事件的问题。

在本申请的一个实施例中，提出了一种完整事件确定方法，所述方法包括：获取目标区域的音频数据，其中，所述目标区域为预设的监控区域；根据所述音频数据与预设的判定条件，通过第一神经网络模型确定所述音频数据中包含的独立事件所对应的第一特征向量；其中，所述独立事件与所述判定条件对应，所述第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，所述第一样本数据包括独立事件音数据和对应的独立事件标签，所述独立事件标签用于指示所述独立事件的类型，所述第一神经网络模型包括共享网络层和第一分类层，所述共享网络层包括A层网络结构，A层所述网络结构之间共享参数，每一层所述网络结构包括B层卷积层，在每一层所述网络结构中，位于中间位置的所述卷积层的卷积通道数量多于位于输入或输出位置的所述卷积层的卷积通道数量，A、B为大于1的整数，所述第一分类层包括N个分类器，N为大于0的整数，每一分类器分别对应一个判定条件；将所述第一特征向量输入第二神经网络模型，通过所述第二神经网络模型确定完整事件发生的概率，其中，所述第二神经网络模型为使用第二样本数据训练的卷积神经网络模型，所述第二样本数据包括完整事件音数据和对应的完整事件标签，所述完整事件标签用于指示所述完整事件的类型，所述完整事件音数据中包含一个或多个所述独立事件音数据，所述完整事件包括一个或多个所述独立事件。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，获取目标区域的音频数据；根据音频数据与预设的判定条件，通过第一神经网络模型确定音频数据中包含的独立事件所对应的第一特征向量；第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，第一样本数据包括独立事件音数据和对应的独立事件标签，独立事件标签用于指示独立事件的类型，第一神经网络模型包括共享网络层和第一分类层，共享网络层包括A层网络结构，A层网络结构之间共享参数，每一层网络结构包括B层卷积层，在每一层网络结构中，位于中间位置的卷积层的卷积通道数量多于位于输入或输出位置的所述卷积层的卷积通道数量，第一分类层包括N个分类器，N为大于0的整数，每一分类器分别对应一个判定条件；将第一特征向量输入第二神经网络模型，通过第二神经网络模型确定完整事件发生的概率，完整事件包括一个或多个所述独立事件。解决了相关技术中音频监控模块无法有效识别突发事件的问题，通过训练好的第一神经网络模型和第二神经网络模型可以有效对监控场景内的独立事件音进行识别，并根据多个独立事件音的发生概率确定完整事件的发生概率，有效提高针对突发事件的识别效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种完整事件确定方法的移动终端的硬件结构框图；

图2是根据本申请实施例的完整事件确定方法的一种可选流程示意图；

图3是根据本申请实施例的完整事件确定系统的一种可选结构示意图；

图4是根据本申请实施例第一神经网络模型的一种可选的结构图；

图5是根据本申请实施例的一种可选的共享网络层的网络结构示意图；

图6是根据本申请实施例的一种可选的残差块结构示意图；

图7是根据本申请实施例第二神经网络模型一种可选的结构图；

图8是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的一种完整事件确定方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的完整事件确定方法与其应用的神经网络模型的训练方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

如图2所示，本申请提供了一种完整事件确定方法，方法包括：

步骤S202，获取目标区域的音频数据，其中，目标区域为预设的监控区域；

步骤S204，根据音频数据与预设的判定条件，通过第一神经网络模型确定音频数据中包含的独立事件所对应的第一特征向量；其中，独立事件与判定条件对应，第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，第一样本数据包括独立事件音数据和对应的独立事件标签，独立事件标签用于指示独立事件的类型，第一神经网络模型包括共享网络层和第一分类层，共享网络层包括A层网络结构，A层网络结构之间共享参数，每一层网络结构包括B层卷积层，在每一层网络结构中，位于中间位置的卷积层的卷积通道数量多于位于输入或输出位置的卷积层的卷积通道数量，A、B为大于1的整数，第一分类层包括N个分类器，N为大于0的整数，每一分类器分别对应一个判定条件；

步骤S206，将第一特征向量输入第二神经网络模型，通过第二神经网络模型确定完整事件发生的概率，其中，第二神经网络模型为使用第二样本数据训练的卷积神经网络模型，第二样本数据包括完整事件音数据和对应的完整事件标签，完整事件标签用于指示完整事件的类型，完整事件音数据中包含一个或多个独立事件音数据，完整事件包括一个或多个独立事件。

其中，完整事件指的是获取的音频数据中发生的某一完整事件过程中的完整音频信号；以校园欺凌为示例说明，在视频监控数据中选取某一校园欺凌事件，该校园欺凌事件发生的起始点与结束点之间的音频数据，即为上述完整事件样本音频数据。独立事件是指，即某突发事件发生过程中可能存在的各类独立事件音，例如尖叫、吵闹声等即分别为独立事件，独立事件的数量根据实际获取的音频数据确定。

由于音频监控较于视频监控对场景的限制较小，故音频监控设备作为视频监控设备的补充时，往往是将音频监控设备部署于偏远或隐蔽的区域，但上述区域由于场景的限制，通常并没有提前布线的条件，故设置于该处的音频监控设备多采用设备自身搭载的电池进行供电，而相关技术中的音频监控方式在耗能与续航能力上，并不能在上述供电方式下满足音频监控的续航需求。通过对网络模型的结构优化以及网络参数的共享，可以使本申请实施例中的网络模型在偏远区域的耗能得以进一步的控制，从而实现更稳定的监控处理。

在一实施例中，根据音频数据与预设的判定条件，通过第一神经网络模型确定音频数据中包含的独立事件所对应的第一特征向量，可以通过以下步骤实现：

提取音频数据对应的初始特征向量并输入第一神经网络模型；

调整初始特征向量的特征维数后输入共享网络层，通过共享网络层输出音频数据的局部特征向量，其中，初始特征向量的特征维数与待输入的共享网络层的卷积层的卷积通道数量相等；

通过第一分类层根据音频数据的局部特征向量提取N个独立事件音分别对应的第一特征向量。

需要说明的是，输入特征的过程中，调整特征维数，令特征维数与输入的卷积层的卷积通道相等，以令模型中的卷积操作沿着时间维度进行，避免了堆叠许多层以形成更高层次的特征，以此可避免特征在处理过程中的参数堆叠进而造成的模型冗杂。

在一实施例中，通过第二神经网络模型确定完整事件发生的概率，可通过以下步骤实现：

对第一神经网络模型输出的N个独立事件音的第一特征向量进行编码；

根据音频数据确定第一音频时序信息，其中，第一音频时序信息用于指示N个独立事件之间的时序关系；

根据第一特征向量以及第一音频时序信息确定完整事件发生的概率。

需要说明的是，本申请实施例中涉及的音频时序信息用于指示一次检测过程中第一独立事件与第二独立事件的先后顺序，例如，在时刻1(10:00:01)检测至音频数据，结合判定条件确定发生第一独立事件，在时刻2(10:01:09)检测至音频数据，结合判定条件确定发生第二独立事件，时刻2在时刻1之后，则时序信息指示第二独立事件在第一独立事件之后发生。

在一实施例中，在通过第一神经网络模型确定音频数据中包含的独立事件所对应的第一特征向量之前，所述方法还包括：

在网络结构的第一层卷积层的输出和最后一层卷积层的输出之间设置残差块。

传统的残差是在每一层卷积层的输入与输出之间，或是第一层卷积层的输入与最后一层卷积层的输出之间进一步设置残差块，通过将残差块的输出趋向于0以避免模型层数过多时而可能导致的模型训练崩溃。本申请实施例中在网络结构的第一层卷积层的输出和最后一层卷积层的输出之间设置残差块，相当于跳过了第一层卷积层，以在实现残差功能的同时，针对声完整事件确定的需求而改善模型训练的效率以及系统的识别效率。

在一实施例中，根据音频数据与预设的判定条件，通过第一神经网络模型确定音频数据中包含的独立事件所对应的第一特征向量，将第一特征向量输入第二神经网络模型，通过第二神经网络模型确定完整事件发生的概率，包括：

通过第一神经网络模型，根据第一独立事件确定第一概率值，并根据第二独立事件确定第二概率值；其中，第一概率值用于指示第一独立事件存在的情形下，完整事件发生的概率，第二概率值用于指示第二独立事件存在的情形下，完整事件发生的概率；

通过第二神经网络模型，根据第一概率值和/或第二概率值确定完整事件发生的概率。

需要说明的是，第一独立事件和第二独立事件均为泛指，并不是对其数量上的限定，其数量也可以多个，其用于指示构成一完整事件的不同独立事件，在同一完整事件由两个以上的独立事件构成时，亦可定义其它独立事件为第三独立事件、第四独立事件等。在一可选示例中，可将校园欺凌事件发生过程中的尖叫声定义为第一独立事件，将哭泣声或求饶声定义为第二独立事件，将打架声定义为第三独立事件，在视频监控数据中分别选取的上述尖叫、哭泣、打架发生的起始点与结束点之间的音频数据，可以分别定义为第一独立事件音、第二独立事件音以及第三独立事件音。

在一实施例中，通过第二神经网络模型确定完整事件发生的概率，包括：

通过第二神经网络模型，根据音频数据确定第二音频时序信息，其中，第二音频时序信息用于指示第一独立事件与第二独立事件的时序关系；

根据以下对象确定完整事件发生的概率：第二音频时序信息，第一概率值，第二概率值。

需要说明的是，对于完整事件发生概率的确定，一方面可根据第一独立事件与第二独立事件进行确定，另一方面还可在第一独立事件与第二独立事件的基础上，根据其发生的前后顺序进一步确定完整事件发生的概率。例如，一个完整事件中根据先验知识，必然是先发生第一独立事件，再发生第二独立事件，则在检测过程中，如检测到第二独立事件发生在第一独立事件之前，则说明完整事件发生的概率相对较低。

在一实施例中，在通过第二神经网络模型确定完整事件发生的概率之后，所述方法还包括：

在完整事件发生的概率大于或等于第一预设阈值的情况下，输出完整事件的类型。

需要说明的是，在完整事件发生的概率大于或等于预设阈值，例如，70％时，则说明完整事件发生的可能性极大，此时，不仅可以输出完整事件发生的结果，同时可根据前述第一独立事件与第二独立事件确定完整事件发生的类型，并将类型一并输出，进而及时提醒相应人员处理。

经实验，以上实施例中，基于神经网络模型对独立事件的类型进行识别，并根据先验知识以及统计数据所确定的独立事件之间的发生顺序确定完整事件发生的概率的过程，其对于完整事件判断的准确性可达到84％。

在一实施例中，在根据音频数据与预设的判定条件，通过第一神经网络模型确定音频数据中包含的独立事件所对应的第一特征向量之前，所述方法还包括：

在语音激活检测模型检测到音频数据的分贝超过第二预设阈值时，开启第一神经网络模型。

需要说明的是，可以通过预先完成训练的语音活动检测(Voice ActivityDetection,简称为VAD)模型对监控场景进行检测，在检测到监控场景由正常状态切换至异常状态时，开启本申请实施例中的突发完整事件确定系统。

VAD模型可根据不同场景部署不同的检测机制，例如，可将静音场景设置为正常状态，将非静音场景设置为异常状态，该机制下，如VAD模型检测到监控场景内出现响动，即开启突发完整事件确定系统；又例如，可将响度低于预设阈值的环境音设置为正常状态，将响度超过该阈值的环境音设置为异常状态，该机制下，如VAD模型检测到监控场景内的环境音的响度超过阈值，即开启突发完整事件确定系统。

上述VAD模型可通过音频监控模块中的拾音单元获取的音频进行判断；由于静音检测或单纯的环境音检测的功耗与计算均较低，故可避免突发完整事件确定系统在无突发事件发生可能性的情形下保持工作，以造成不必要的功耗与计算。上述VAD模型也可由其他具有检测功能的模块或硬件替代，如能量模型，噪音检测器等。

根据本申请实施例的又一个方面，还提供了一种应用前述完整事件确定方法的系统，如图3所示，所述完整事件确定系统包括：

拾音模块302，配置为获取目标区域的音频数据，其中，目标区域为预设的监控区域；

处理模块304，配置为根据音频数据与预设的判定条件确定独立事件，并根据独立事件确定完整事件发生的概率；其中，独立事件与判定条件相对应，完整事件包括一个或多个独立事件。

需要说明的是，本申请中的拾音模块可设置为麦克风，但不限于独立的监控设备，也可集成于其他具有拾音功能的硬件设备，如具备语音识别功能的LED大屏等。

需要说明的是，上述处理模块集成于服务器中，处理模块由预先完成训练的第一神经网络模型与第二神经网络模型构成。

在一实施例中，上述完整事件确定系统包括：

通信模块306，配置为判断发生突发事件的情形下，将相应的情况通知监控人员或警务人员以及时干预处理。

在一实施例中，上述完整事件确定系统包括：

告警模块308，包括扬声器或声光告警器，配置为判断发生突发事件的情形下，通过扬声器或声光告警器进行警示。

在通过本申请实施例的第一神经网络模型和第二神经网络模型进行完整事件确定之前，需要通过样本数据分别对第一神经网络模型和第二神经网络模型进行训练。训练过程如下：

S1.1，获取训练用样本音频数据。

本申请实施例中，训练用样本音频数据包括两类。一类为完整事件样本音频数据，即某突发事件发生过程中的完整音频信号；以偏远地区发生的抢劫事件为示例说明，可在视频监控数据中选取某一持刀抢劫事件，获取该持刀抢劫发生的起始点与结束点之间的音频数据，并将该音频数据标注为持刀抢劫事件，标注后的音频数据即可作为上述完整事件样本音频数据。另一类为独立事件音样本音频数据，即某突发事件发生过程中可能存在的各类独立事件音；上述示例中，可将持刀抢劫事件发生过程中的尖叫声定义为第一独立事件音，将哭泣声或求饶声定义为第二独立事件音，将涉及到“钱、手机、首饰、值钱的东西”等关键字的劫财声定义为第三独立事件音，在视频监控数据中分别选取上述尖叫、哭泣、劫财发生的起始点与结束点之间的音频数据，并将相应音频数据标注为校园欺凌事件发生过程中的尖叫、哭泣、劫财，标注后的音频数据即对应为独立事件音样本音频数据。

需要说明的是，上述第一、第二、第三独立事件音的发生顺序可以调整，例如，先监测到劫财声，后监测到尖叫、哭泣或求饶，只要满足一定时间范围内的时序要求，也可以判定完整事件的发生。

举例而言，视频监控拍摄到10:00:00至10:10:00发生偏远地区的持刀抢劫事件，期间，在10:02:30至10:02:50发生尖叫，在10:04:15至10:05:30发生哭泣或求饶，在10:06:20至10:08:20发生相关关键词的劫财声，则将10:00:00至10:10:00之间的完整音频作为持刀抢劫事件的完整事件样本音频数据，将10:02:30至10:02:50之间的音频作为尖叫的独立事件音样本音频数据，将10:04:15至10:05:30之间的音频作为哭泣的独立事件音样本音频数据，将10:06:20至10:08:20之间的音频作为劫财的独立事件音样本音频数据。

以此类推，可通过不同的渠道以获取不同突发事件的音频数据，并分别将该突发事件的音频数据中对应的完整音频数据作为完整事件样本音频数据，将该突发事件的音频数据中每一独立事件音作为独立事件音样本音频数据。

S1.2，对完整事件样本音频数据以及独立事件音样本音频数据进行特征提取，以得到对应的样本特征。

S1.3，通过样本特征对预设的第一神经网络模型进行训练。

上述1.3中，通过独立事件音样本音频数据进行第一神经网络模型的训练，即将独立事件音样本音频数据相应的样本特征作为输入，将该样本特征对应的独立事件标签(尖叫、哭泣、劫财声等)作为输出，以对第一神经网络模型进行训练，进而令完成训练的第一神经网络模型可对于独立事件音进行分类。S1.3中，第一神经网络模型的训练针对独立事件音的训练，完成训练后的第一神经网络模型为一分类模型，用于对不同的独立事件音进行分类。

如图4所示，第一神经网络模型包括共享网络层和第一分类层。共享网络层包括A层网络结构，A层网络结构之间共享参数，每一层网络结构包括B层卷积层，在每一层网络结构中，位于中间位置的卷积层的卷积通道数量多于位于输入或输出位置的卷积层的卷积通道数量，A、B为大于1的整数，第一分类层包括N个分类器(例如第一独立事件多层感知机分类模块，第二独立事件多层感知机分类模块等N个独立事件多层感知机分类模块)，N为大于0的整数，每一分类器分别对应一个判定条件。

通常而言，该网络结构可以设置有六层，各层之间参数共享，每一层网络包括多个卷积层，位于中间位置的卷积层的卷积通道的数量多于输入与输出位置的卷积层的卷积通道数量(为方便描述，以下以三个卷积层进行说明，从输入至输出端依次为第一卷积层、第二卷积层与第三卷积层，其中，第二卷积层的卷积通道数量大于第一卷积层与第三卷积层)。

图5是根据本申请实施例的一种可选的共享网络层的网络结构示意图，如图5所示，共享网络层可采用可分离卷积，具体而言，每一网络结构可以包括多层卷积层，包括位于输入位置和输出位置的A卷积层，以及位于输入和输出之间的B卷积层，B卷积层具体可包括多个卷积层，本实施例中可由PW卷积层和DW卷积层构成，其中，位于输入和输出之间的PW卷积层和DW卷积层的数量可以分别是多个，也可以是按照PW-DW-DW-DW-PW的顺序排列的多组。如图5所示的B卷积层中，上述PW卷积层用于对A卷积层输出的特征进行升维(在一可选实施例中，升维倍数可以为6)，并通过DW卷积层进行卷积计算，之后再经由PW卷积层进行降维，并至A卷积层进行特征输出。

通过上述共享网络层中卷积层的设置，将特征的提取与计算在较高维度执行，以此，可采用很少的参数即可实现特征处理，进而令整体网络的体积得以有效控制。不仅如此，上述网络结构避免了单纯的依靠压缩卷积以达到控制参数的目的，在减小网络体积的同时，仍可保持较好的准确性。

与此同时，在输入位置的A卷积层的输出和输出位置的A卷积层的输出之间，还可进一步设置残差块，在可选实施例中，输出位置的A卷积层之后也可以连接归一化层和激活函数层，残差块可以设置在输入位置的A卷积层的输出和激活函数层的输出之间。图6是根据本申请实施例的一种可选的残差块结构示意图，如图6所示，残差块可以由PW卷积层和DW卷积层组成，其中，PW卷积层和DW卷积层的数量可以分别是多个，也可以按照PW-DW-PW的排列方式设置多组，本申请实施例对此不作限定。

上述残差块的设置以及残差块的网络结构，令共享网络模型中的卷积层在不会造成卷积扩展的基础上，实现帮助梯度流过网络，进而使得网络的准确性进一步提升。

以此，通过上述共享网络层中的网络结构，以在显著减少参数量的同时，可达到较好的识别效果。经实际测试，采用上述实施例中的网络模型对某一样本进行声事件识别，其系统识别时间为20ms，识别准确率为96.78％，而采用常规的网络模型作为上述共享网络层，其针对同一样本进行声事件识别，其系统识别时间为300ms，识别准确率为95.63％。显然地，本申请中的网络模型的响应时间更短，参数量更小，进而在偏远地区工作的环境下，可以以更低的能耗进行工作。

S1.4，通过样本特征对预设的第二神经网络模型进行训练。

上述S1.4中，通过完整事件样本音频数据进行第二神经网络模型的训练，即将完整事件样本音频数据对应的样本特征作为输入，将该样本特征对应的突发事件标签作为输出，以对第二神经网络模型进行训练，进而令完成训练的第二神经网络模型可判断是否有突发事件发生。

需要说明的是，第二神经网络模型与上述S1.3中完成训练后的第一神经网络模型共同构成了本申请实施例系统完整的神经网络模型。完成训练后的第一神经网络模型在S1.4的训练过程中不再更新，仅作特征提取用。

S1.4中，第二神经网络模型的训练为针对突发事件的训练，完成训练后的第二神经网络模型用于判断是否发生突发事件。第二神经网络模型的判断机制在于，对于某一突发事件，完成训练后的第一神经网络模型可对该突发事件的完整事件音频中存在的独立事件音进行检测与分类，进而令第二神经网络模型可学习该突发事件的完整事件音频中可能存在的各类独立事件音；在样本量足够的情形下，完成训练的第二神经网络模型即可通过某音频中独立事件音的类型判断相应突发事件发生的概率。

如图7所示，第二神经网络模型包括特征编码层、深度学习层和第二分类层。特征编码层包括第一事件多层感知机特征编码模块、第二事件多层感知机特征编码模块等N个事件多层感知机特征编码模块。第二分类层可以通过综合事件多层感知机分类器实现。

通过特征编码层对第一神经网络模型输出的N个独立事件音的第一特征向量进行编码；

通过深度学习层对编码后的N个独立事件音的第一特征向量进行识别，还可根据音频数据确定音频时序信息，其中，音频时序信息用于指示独立事件之间的时序关系；

第二分类层根据第一特征向量的识别结果确定完整事件发生的概率，还可根据独立事件对应的第一特征向量以及音频时序信息确定完整事件发生的概率。

在一实施例中，上述根据音频数据与判定条件确定第一独立事件和/或第二独立事件，并根据第一独立事件和/或第二独立事件发生的情况确定完整事件发生的概率，还可以通过以下步骤实现：

第一神经网络模型还包括第一特征提取层，第二神经网络模型还包括第二特征提取层，其中，

S1，通过第一特征提取层进行第一次特征提取，得到音频数据的第一局部特征向量；其中，第一特征提取层包括多个第一滤波子层，每一第一滤波子层由第一滤波参数构建，第一滤波参数是通过第一样本数据训练得到的，第一局部特征向量用于第一神经网络模型根据音频数据与判定条件获取独立事件所对应的第一特征向量；

S2，通过第二特征提取层进行第二次特征提取，得到音频数据的第二局部特征向量；其中，第二特征提取层包括多个第二滤波子层，每一第二滤波子层由第二滤波参数构建，第二滤波参数是通过第二样本数据训练得到的，第二局部特征向量用于，根据音频数据确定音频时序信息，其中，音频时序信息用于指示独立事件之间的时序关系。

需要说明的是，本实施例中，上述第一神经网络模型与第二神经网络模型均采用交叉熵函数作为loss损失函数，实际操作中，损失函数亦可采用其他函数进行设定。

在本实施例中，第一滤波子层与第二滤波子层均采用Gabor卷积层。标准卷积层中，每个卷积层存在约400个参数，Gabor卷积层中，每个卷积层仅有两个参数。以此，在前述构建前述特征提取的过程中，可显著减少特征提取层的参数占比，进而令特征提取的效率以及整体模型的工作效率均得以显著提升。

需要说明的是，上述实施例中，基于第一神经网络模型与第二神经网络模型所确定完整事件发生概率的过程，其完全依赖于模型从样本数据中所学习到的特征，并不依赖于先验知识以及统计数据所确定的独立事件之间发生顺序的顺序规则。因此，一方面，上述实施例中的方式在样本数据的预处理阶段，不需要专业人事对顺序规则的预先确定，减少了样本标注工作的工作量，并可显著改善了实现本申请实施例中的完整事件确定方法的人力与时间成本；同时，亦无需大量的样本数据以确定顺序规则，故对样本数据的需求同时得以减少。在此基础上，上述实施例的方式还可进一步提升对完整事件发生概率进行判断的准确性；经实验，上述实施例中基于第一神经网络模型与第二神经网络模型所确定完整事件发生概率的准确性可达到96％以上。

根据本申请实施例的又一个方面，通过上述神经网络模型训练方法与完整事件确定方法的结合应用，本实施例的应用过程可以如下：

S2.1，通过预先完成训练的语音识别技术(Voice Activity Detection，简称为VAD)模型对监控场景进行检测，在检测到监控场景由正常状态切换至异常状态时，开启本申请实施例中的突发完整事件确定系统。

上述S2.1中，VAD模型可根据不同场景部署不同的检测机制，例如，可将静音场景设置为正常状态，将非静音场景设置为异常状态，该机制下，如VAD模型检测到监控场景内出现响动，即开启突发完整事件确定系统；又例如，可将响度低于预设阈值的环境音设置为正常状态，将响度超过该阈值的环境音设置为异常状态，该机制下，如VAD模型检测到监控场景内的环境音的响度超过阈值，即开启突发完整事件确定系统。

上述VAD模型可通过音频监控模块中的拾音单元获取的音频进行判断；由于静音检测或单纯的环境音检测的功耗与计算均较低，故上述S2.1可避免突发完整事件确定系统在无突发事件发生可能性的情形下保持工作，以造成不必要的功耗与计算。上述VAD模型也可由其他具有检测功能的模块或硬件替代，如能量模型，噪音检测器等。

S2.2，通过音频监控模块获取监控场景内的监控音频数据，并对监控音频数据进行特征提取，以得到监控音频特征。

S2.3，通过训练得到的第一神经网络模型对监控音频特征进行检测，以判断是否有独立事件音；如有，则第二神经网络模型进行工作；如没有，则第二神经网络模型不进行工作。

上述S2.3中，由于未发生相应独立事件的情形下，突发事件发生的可能性极低，故以第一神经网络模型是否检测到独立事件音作为第二神经网络模型开始工作的先决条件，可进一步避免不必要的功耗与计算。

S2.4，第二神经网络模型工作的情形下，第二神经网络模型根据第一神经网络模型检测并提取的独立事件音的特征进行判断发生突发事件的概率，当第二神经网络模型确定发生突发事件的概率超过预设阈值时，即判断发生突发事件。

上述S2.4中，第一神经网络模型持续检测监控音频特征中对应的独立事件音，并对检测到的独立事件进行特征提取与编码以送入第二神经网络模型；第二神经网络模型根据相应的独立事件特征计算发生突发事件的概率。

需要说明的是，第二神经网络模型所计算的发生突发事件的概率是根据第一神经网络模型对独立事件音的持续检测而实时变化的；在一示例中，第一神经网络模型在不同时刻依次检测到尖叫、哭泣、打架对应的独立事件音，则第二神经网络模型输出的发生校园欺凌事件在检测到尖叫时为10％，检测到哭泣时为40％，检测到打架时为90％(设定阈值为80％)。

如第二神经网络模型在预设时长内所计算的突发事件发生的概率始终低于阈值，则可判断突发事件暂未发生；在另一示例中，第一神经网络模型在不同时刻依次检测到尖叫与哭泣时，第二神经网络模型对应时刻输出概率依次为10％与40％，但之后的10min中，第一神经网络模型始终未检测到其它独立事件音，则第二神经网络模型可判断校园欺凌事件并未发生，进而第二神经网络模型可停止工作，直至下一次第一神经网络模型重新检测到独立事件音再开启。

S2.5，第二神经网络模型判断发生突发事件后，可通过集成在突发完整事件确定系统中的通信模块以通知相应的监控人员进行干预，或直接将相应的事件与地点推送至警务人员进行报警，也可通过集成在突发完整事件确定系统中的告警模块进行告警。

S2.6，如VAD模型检测到监控场景由异常状态恢复至正常状态达到预设时长，如5min，则当前监控场景内无异常状况发生，突发完整事件确定系统即可关闭工作。

本申请实施例基于上述应用过程，通过两组场景化、具体化的方式对本申请实施例的实现与使用过程进行示例性的说明：

示例性实施例1

本示例性实施例中，以突发完整事件确定系统部署于高速公路旁边的偏远场所为例进行说明，主要检测对象为可能发生于偏远场所的持刀抢劫事件。突发完整事件确定系统的处理模块中，第一神经网络模型与第二神经网络模型的训练过程如前述，在此不再赘述。

S1，通过预先完成训练的VAD模型对监控场景进行检测，在检测到监控场景内出现异常响动而由静音状态切换至非静音状态时，开启突发完整事件确定系统。

S2，通过音频监控模块获取监控场景内的监控音频数据，并对监控音频数据进行特征提取，以得到监控音频特征。

S3，第一神经网络模型对监控音频特征进行检测，在监控音频数据的00:50相应位置检测到尖叫声，相应的第二神经网络模型开启工作。

S4，第一神经网络模型持续对监控音频特征进行检测，在监控音频数据的00:50相应位置检测到尖叫声，第一神经网络模型则对尖叫声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生持刀抢劫事件的概率为10％。

S5，第一神经网络在监控音频数据的02:30相应位置检测到哭泣声或求饶声，第一神经网络模型则对哭泣声或求饶声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生持刀抢劫事件的概率为40％。

S6，第一神经网络在监控音频数据的04:15相应位置检测到涉及到“钱、手机、首饰、值钱的东西”等关键字的劫财声；第一神经网络模型则对打架声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生持刀抢劫事件的概率为90％。

S7，第二神经网络模型确定发生持刀抢劫事件的概率超过预设的阈值80％，即通过通信模块及时通知附近的警务人员介入，或可通过告警模块进行声音告警以驱散劫匪。

S8，VAD模型检测到监控场景由之前的非静音状况恢复至静音状态，且恢复时长达到5min，则关闭突发完整事件确定系统。

示例性实施例2

本示例性实施例中，以突发完整事件确定系统部署于大宗商品临时存放区域为例进行说明，主要检测对象为该区域可能发生的盗窃事件。突发完整事件确定系统的处理模块中，第一神经网络模型与第二神经网络模型的训练过程可以参照前述训练过程，以相应的盗窃事件的完整音频以及人员走动、异常开锁、搬运以及相应的独立事件音作为样本音频数据完成训练，在此不再赘述。

S3，第一神经网络模型对监控音频特征进行检测，在监控音频数据的00:10相应位置检测到人员走动声，相应的第二神经网络模型开启工作。

S4，第一神经网络模型持续对监控音频特征进行检测，在监控音频数据的00:10相应位置检测到人员走动声，第一神经网络模型则对人员走动声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生盗窃事件的概率为20％。

S5，第一神经网络在监控音频数据的00:25相应位置检测到异常开锁声，第一神经网络模型则对异常开锁声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生盗窃事件的概率为60％。

S6，第一神经网络在监控音频数据的01:30相应位置检测到搬运声；第一神经网络模型则对搬运声对应的独立事件音进行特征提取与编码，并送入第二神经网络模型，第二神经网络模型以此确定发生盗窃事件的概率为95％。

S7，第二神经网络模型确定发生盗窃事件的概率超过预设的阈值80％，即通过通信模块及时通知仓管人员介入，或可通过告警模块进行声音告警以驱散盗窃者。

本申请实施例所涉及的完整事件确定系统即可作为独立的音频监控模块运用于安防监控系统中，也可以集成于相应的具有拾音功能的硬件中，以作为硬件功能的扩展。实施例提供的完整事件确定方法可实现以下效果：

1、在音频监控过程中，根据多个独立事件音之间的关联以确定是否存在完整事件发生，可显著改善对于突发事件的识别的准确性，进而一方面在突发事件发生时及时提醒相关人员进行相应的干预处理，以及时避免或中止突发事件的发生；另一方面，可避免单一的独立事件音在无法判断突发事件的实际状况下及向相关人员进行不必要的提醒，进而造成的非必要的人力与时间成本过高的问题。

2、对于部分视频监控存在不便的区域，诸如，阴暗场景，隐私场景，临时场景等，可以灵活且低成本的部署方式提供精准的监控处理。

3、针对偏远区域，可通过对网络模型的结构优化以及网络参数的共享，以令在本方案中的系统在该区域的耗能得以进一步的控制，从而令本方案中的系统可实现更稳定的监控处理。

4、通过唤醒方式的改进，在不必要的情形下避免唤醒系统整体，以进一步控制能耗。

根据本申请实施例的又一个方面，还提供了一种用于实施上述完整事件确定方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图8所示，该电子装置包括存储器802和处理器804，该存储器802中存储有计算机程序，该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取目标区域的音频数据，其中，目标区域为预设的监控区域；

S2，根据音频数据与预设的判定条件，通过第一神经网络模型确定音频数据中包含的独立事件所对应的第一特征向量；其中，独立事件与判定条件对应，第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，第一样本数据包括独立事件音数据和对应的独立事件标签，独立事件标签用于指示独立事件的类型，第一神经网络模型包括共享网络层和第一分类层，共享网络层包括A层网络结构，A层网络结构之间共享参数，每一层网络结构包括B层卷积层，在每一层网络结构中，位于中间位置的卷积层的卷积通道数量多于位于输入或输出位置的卷积层的卷积通道数量，A、B为大于1的整数，第一分类层包括N个分类器，N为大于0的整数，每一分类器分别对应一个判定条件；

S3，将第一特征向量输入第二神经网络模型，通过第二神经网络模型确定完整事件发生的概率，其中，第二神经网络模型为使用第二样本数据训练的卷积神经网络模型，第二样本数据包括完整事件音数据和对应的完整事件标签，完整事件标签用于指示完整事件的类型，完整事件音数据中包含一个或多个独立事件音数据，完整事件包括一个或多个独立事件。

可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图8中所示更多或者更少的组件(如网络接口等)，或者具有与图8所示不同的配置。

其中，存储器802可用于存储软件程序以及模块，如本申请实施例中的完整事件确定方法与其应用的神经网络模型的训练方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的完整事件确定方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器802具体可以但不限于用于储存完整事件确定方法的程序步骤。作为一种示例，如图8所示，上述存储器802中可以但不限于包括上述完整事件确定方法中的中的拾音模块、通信模块、告警模块等。此外，还可以包括但不限于上述完整事件确定方法中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器808，用于显示完整事件的告警推送；和连接总线810，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种完整事件确定方法，其特征在于，包括：

获取目标区域的音频数据，其中，所述目标区域为预设的监控区域；

根据所述音频数据与预设的判定条件，通过第一神经网络模型确定所述音频数据中包含的独立事件所对应的第一特征向量；其中，所述独立事件与所述判定条件对应，所述第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，所述第一样本数据包括独立事件音数据和对应的独立事件标签，所述独立事件标签用于指示所述独立事件的类型，所述第一神经网络模型包括共享网络层和第一分类层，所述共享网络层包括A层网络结构，A层所述网络结构之间共享参数，每一层所述网络结构包括B层卷积层，在每一层所述网络结构中，位于中间位置的所述卷积层的卷积通道数量多于位于输入或输出位置的所述卷积层的卷积通道数量，A、B为大于1的整数，所述第一分类层包括N个分类器，N为大于0的整数，每一分类器分别对应一个判定条件；

将所述第一特征向量输入第二神经网络模型，通过所述第二神经网络模型确定完整事件发生的概率，其中，所述第二神经网络模型为使用第二样本数据训练的卷积神经网络模型，所述第二样本数据包括完整事件音数据和对应的完整事件标签，所述完整事件标签用于指示所述完整事件的类型，所述完整事件音数据中包含一个或多个所述独立事件音数据，所述完整事件包括一个或多个所述独立事件；

其中，所述根据所述音频数据与预设的判定条件，通过第一神经网络模型确定所述音频数据中包含的独立事件所对应的第一特征向量，将所述第一特征向量输入第二神经网络模型，通过所述第二神经网络模型确定完整事件发生的概率，包括：

通过所述第一神经网络模型，根据第一独立事件确定第一概率值，并根据第二独立事件确定第二概率值；其中，所述第一概率值用于指示所述第一独立事件存在的情形下，所述完整事件发生的概率，所述第二概率值用于指示所述第二独立事件存在的情形下，所述完整事件发生的概率；

通过所述第二神经网络模型，根据所述第一概率值和/或所述第二概率值确定所述完整事件发生的概率。

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频数据与预设的判定条件，通过第一神经网络模型确定所述音频数据中包含的独立事件所对应的第一特征向量，包括：

提取所述音频数据对应的初始特征向量并输入所述第一神经网络模型；

调整所述初始特征向量的特征维数后输入所述共享网络层，通过所述共享网络层输出所述音频数据的局部特征向量，其中，所述初始特征向量的特征维数与待输入的所述共享网络层的卷积层的卷积通道数量相等；

通过所述第一分类层根据所述音频数据的局部特征向量提取N个独立事件音分别对应的所述第一特征向量。

3.根据权利要求2所述的方法，其特征在于，所述通过所述第二神经网络模型确定完整事件发生的概率，包括：

对所述第一神经网络模型输出的所述N个独立事件音的第一特征向量进行编码；

根据所述音频数据确定第一音频时序信息，其中，所述第一音频时序信息用于指示N个所述独立事件之间的时序关系；

根据所述第一特征向量以及所述第一音频时序信息确定所述完整事件发生的概率。

4.根据权利要求1所述的方法，其特征在于，在通过第一神经网络模型确定所述音频数据中包含的独立事件所对应的第一特征向量之前，所述方法还包括：

在所述网络结构的第一层所述卷积层的输出和最后一层所述卷积层的输出之间设置残差块。

5.根据权利要求1所述的方法，其特征在于，所述通过所述第二神经网络模型确定完整事件发生的概率，包括：

通过所述第二神经网络模型，根据所述音频数据确定第二音频时序信息，其中，所述第二音频时序信息用于指示所述第一独立事件与所述第二独立事件的时序关系；

根据以下对象确定所述完整事件发生的概率：所述第二音频时序信息，所述第一概率值，所述第二概率值。

6.根据权利要求1至5任一项所述的方法，其特征在于，在通过所述第二神经网络模型确定完整事件发生的概率之后，所述方法还包括：

在所述完整事件发生的概率大于或等于第一预设阈值的情况下，输出所述完整事件的类型。

7.根据权利要求1所述的方法，其特征在于，在根据所述音频数据与预设的判定条件，通过第一神经网络模型确定所述音频数据中包含的独立事件所对应的第一特征向量之前，所述方法还包括：

在语音激活检测模型检测到所述音频数据的分贝超过第二预设阈值时，开启所述第一神经网络模型。

8.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。