CN116186635A

CN116186635A - 基于跨模态注意力机制的事件检测方法、装置及相关介质

Info

Publication number: CN116186635A
Application number: CN202211097944.6A
Authority: CN
Inventors: 陈嘉维; 苏红梅; 周长源; 袁戟
Original assignee: Shenzhen Wanwuyun Technology Co ltd
Current assignee: Shenzhen Wanwuyun Technology Co ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2023-05-30

Abstract

本发明公开了基于跨模态注意力机制的事件检测方法、装置及相关介质，该方法包括：获取事件视频并进行处理得到音频数据和图像数据；再分别对所述音频数据和所述图像数据进行处理得到音频特征和图像特征；分别将所述音频特征和所述图像特征输入到对应的跨模态注意力模块，得到第一高级特征和第二高级特征；对所述第一高级特征和所述第二高级特征进行拼接处理，输出得到最终高级特征；将所述最终高级特征输入到线性分类层进行分类处理得到紧急事件预测结果，最后根据损失函数和所述紧急事件预测结果进行模型优化得到紧急事件检测模型。本发明能够同时兼顾音频和图像两种模态的信息，从而实现在复杂的环境中对紧急事件进行准确预测。

Description

基于跨模态注意力机制的事件检测方法、装置及相关介质

技术领域

本发明涉及紧急事件检测领域，特别涉及一种基于跨模态注意力机制的事件检测方法、装置及相关介质。

背景技术

监控网络拥有监控摄像头，需要大量维护人员通过肉眼去监测多个摄像头下的实时状况；这种方式效率低下且需要较多的人力成本，而现有技术提供了基于摄像头检测的自动检测技术，其虽然解决了效率问题，但由于基于单一的信息来源进行事件检测，导致在复杂的环境下准确性较低，例如只能对图像进行检测，无法对声音进行检测，这种情况下，如出现摄像头死角，就没办法很好的检测到发生的紧急事件，从而导致无法及时通知相关人员。

发明内容

本发明实施例提供了基于跨模态注意力机制的事件检测方法、装置及相关介质，旨在解决技术中的摄像头自动检测技术在复杂的环境下准确性较低的问题。

第一方面，本发明实施例提供了一种基于跨模态注意力机制的紧急事件检测方法，包括：

获取事件视频，对所述事件视频进行音频分离处理得到音频数据，以及对所述事件视频进行抽帧处理得到图像数据；

通过自监督训练音频编码器对所述音频数据进行语音表示得到音频特征；

通过Swin-Transformer模型对所述图像数据进行特征提取得到帧级特征，并对所述帧级特征进行聚合得到特征向量，并通过线性层将所述特征向量降维至与音频特征相同的维度，再通过激活函数进行激活得到图像特征；

将所述音频特征输入到第一跨模态注意力模块，学习从音频到图像的对齐映射关系，得到第一高级特征；将所述图像特征输入到第二跨模态注意力模块，学习从图像到音频的对齐映射关系，得到第二高级特征；

对所述第一高级特征和所述第二高级特征进行拼接处理，并输入至分类网络，输出得到最终高级特征；

将所述最终高级特征输入到线性分类层进行分类处理得到紧急事件预测结果，根据损失函数和所述紧急事件预测结果进行模型优化得到紧急事件检测模型。

第二方面，本发明实施例提供了一种基于跨模态注意力机制的紧急事件检测装置，包括：

视频分离单元，用于获取事件视频，对所述事件视频进行音频分离处理得到音频数据，以及对所述事件视频进行抽帧处理得到图像数据；

音频处理单元，用于通过自监督训练音频编码器对所述音频数据进行语音表示得到音频特征；

图像处理单元，用于通过Swin-Transformer模型对所述图像数据进行特征提取得到帧级特征，并对所述帧级特征进行聚合得到特征向量，并通过线性层将所述特征向量降维至与音频特征相同的维度，再通过激活函数进行激活得到图像特征；

特征处理单元，用于将所述音频特征输入到第一跨模态注意力模块，学习从音频到图像的对齐映射关系，得到第一高级特征；将所述图像特征输入到第二跨模态注意力模块，学习从图像到音频的对齐映射关系，得到第二高级特征；

特征拼接单元，用于对所述第一高级特征和所述第二高级特征进行拼接处理，并输入至分类网络，输出得到最终高级特征；

结果输出单元，用于将所述最终高级特征输入到线性分类层进行分类处理得到紧急事件预测结果，根据损失函数和所述紧急事件预测结果进行模型优化得到紧急事件检测模型。

第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述第一方面的基于跨模态注意力机制的紧急事件检测方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述第一方面的基于跨模态注意力机制的紧急事件检测方法。

本发明实施例通过基于跨模态注意力机制的紧急事件检测方法，对音频数据和图像数据分别进行特征提取得到音频特征和图像特征，并进一步通过跨模态注意力模块对音频特征和图像特征进行融合，同时兼顾音频和图像两种模态的信息，从而实现在复杂的环境中对紧急事件进行准确预测。本发明实施例还提供一种基于跨模态注意力机制的紧急事件检测装置、计算机设备和存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于跨模态注意力机制的紧急事件检测方法的流程示意图；

图2为本发明实施例提供的基于跨模态注意力机制的紧急事件检测方法的另一流程示意图；

图3为本发明实施例提供的第一跨模态注意力模块的工作流程图；

图4为本发明实施例提供的第二跨模态注意力模块的工作流程图；

图5为本发明实施例提供的基于跨模态注意力机制的紧急事件检测装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本发明实施例提供的一种基于跨模态注意力机制的紧急事件检测方法的流程示意图，具体包括：步骤S101～S106。

S101、获取事件视频，对所述事件视频进行音频分离处理得到音频数据，以及对所述事件视频进行抽帧处理得到图像数据；

S102、通过自监督训练音频编码器对所述音频数据进行语音表示得到音频特征；

S103、通过Swin-Transformer模型对所述图像数据进行特征提取得到帧级特征，并对所述帧级特征进行聚合得到特征向量，并通过线性层将所述特征向量降维至与音频特征相同的维度，再通过激活函数进行激活得到图像特征；

S104、将所述音频特征输入到第一跨模态注意力模块，学习从音频到图像的对齐映射关系，得到第一高级特征；将所述图像特征输入到第二跨模态注意力模块，学习从图像到音频的对齐映射关系，得到第二高级特征；

S105、对所述第一高级特征和所述第二高级特征进行拼接处理，并输入至分类网络，输出得到最终高级特征；

S106、将所述最终高级特征输入到线性分类层进行分类处理得到紧急事件预测结果，根据损失函数和所述紧急事件预测结果进行模型优化得到紧急事件检测模型。

具体的，在步骤S101中，结合图2所示，通过监控视频收集多个场景中的紧急事件短视频(Video，即事件视频)，比如急救呼唤等，图2中的视频数据的采集和标注部分即对应获取所述紧急事件短视频；所述紧急事件短视频有多种类型，每一种类型的紧急事件短视频都采集200个，并且分布于不同的时间段，进一步提高检测准确率，并且为了减少数据存储量，设定每个紧急事件短视频的时长为32秒；需要注意的是，这里可以根据数据存储量对应的调整紧急事件短视频的时长，每一种类型的紧急事件短视频采集的数量也不作限定，也同样根据实际情况进行调整；另外，80％的紧急事件短视频用于训练(图2中的训练视频)，20％的紧急事件短视频用于测试(图2中的推理视频)，并且对训练数据进行标注；这里的“标注”意思是给不同的紧急事件短视频打上标签：比如说有n个视频，第一个视频是关于物品丢失的，那么就标注为“物品丢失”，第二个视频是关于孩童丢失哭泣的，那么就标注为“孩童丢失”，以此类推；然后对紧急事件短视频进行音频分离处理得到音频数据，以及对紧急事件短视频进行抽帧处理得到图像数据；所述音频数据可以通过视频编辑工具直接从短视频中分离得到，任何视频编辑工具均可，所述图像数据通过对紧急事件短视频进行抽帧得到(例如一秒抽一帧，共32帧)。

在步骤S102中，通过自监督训练音频编码器对所述音频数据(图2中预处理部分中的Audio)进行语音表示得到音频特征，使用所述自监督训练音频编码器对所述音频数据(原始音频)进行初始化，方便后续使用。

在一实施例中，所述S102包括：

所述通过自监督训练音频编码器对所述音频数据进行语音表示得到音频特征，包括：

按如下公式计算得到所述音频特征：

z∈R^L×d＝f(x)

其中，z表示所述音频特征，R表示实数，L表示所述音频数据的序列长度，d表示所述自监督训练音频编码器的隐藏维度，f(·)表示所述自监督训练音频编码器，x表示所述音频数据，所述自监督训练音频编码器为wav2vec2.0模型。

在本实施例中，wav2vec2.0模型通过对大量所述音频数据进行预训练学习得到语音表示，并且经过预训练后的wav2vec2.0模型可在下游任务上进行微调；wav2vec2.0模型把所述音频数据x直接作为输入，并经过处理后输出所述音频特征z，这里的采样率为16kHZ，当然也可以根据情况对应调节，而输入的所述音频数据为x∈R^L；对于wav2vec2.0模型，如果有更优的模型选择，也可以进行替换；公式中的L和d均为实数(R是数学定义符号，不是自定义的)，x是一个一维的特征，z是一个二维的特征向量，∈代表“属于”的意思；整个公式的意思是：x作为输入，传入f(x)，输出得到z；而z的形状属于L×d，且L和d均为实数。

在步骤S103中，从紧急事件短视频中抽帧得到的所述图像数据(图2中预处理部分中的Video Frames)先通过Swin-Transformer模型进行特征提取得到帧级特征，并对所述帧级特征进行聚合，再通过线性层将特征向量降维，最后进行激活得到图像特征。

在一实施例中，所述S103包括：

所述通过Swin-Transformer模型对所述图像数据进行特征提取得到帧级特征，并对所述帧级特征进行聚合得到特征向量，并通过线性层将所述特征向量降维至与音频特征相同的维度，再通过激活函数进行激活得到图像特征，包括：

按如下公式计算得到所述特征向量：

h∈R^f×D＝n(s(y))

其中，h表示所述特征向量，R表示实数，f表示帧数，D表示NeXtVLAD模型的隐藏维度，s(·)表示Swin-Transformer模型，n(·)表示NeXtVLAD模型，y表示所述图像数据；

按如下公式计算得到所述图像特征：

H∈R^f×d＝ReLU[Linear(h)]

其中，H表示所述图像特征，R表示实数，f表示帧数，d表示输出维度，ReLU表示激活函数，Linear表示线性层。

在本实施例中，抽帧后的所述图像数据尺寸为y∈R^f×w×h×c(f,w,h,c分别表示图片帧数，宽，高，通道数)；所述图像数据经过Swin-Transformer模型和NeXtVLAD模型(NeXtVLAD模型是可将帧级特征聚合成紧凑特征向量的快速有效的网络架构)处理后，输出所述特征向量h；因为输出特征与图像编码器的输出特征维度不一样，为了缓解异质空间的不一致问题，所述特征向量h需要通过线性层(图2中特征融合部分中的Linear)将维度从D降低到d，然后再通过一个激活函数ReLu，最终得到所述图像特征H。

具体的，将图像数据(图像尺寸为H*W*C)输入到Swin-Transformer模型，经过这个模型后，会得到图像数据的深层特征(特征尺寸为H/32*W/32*8C)，这里的H、W、C分别指的是图像数据的高度、宽度、通道数；模型主要有四个模块，依次是：Patch projection层(将图片切分为若干个patch，再把每个patch展为一维)，Linear Embedding层(线性层，降低特征维度)，Swin transformer Block(就是典型的transformer模型)，Patch Merging(一种下采样的方式)；如需做分类任务，则可以再接一个分类层。

在步骤S104中，将所述音频特征输入到第一跨模态注意力模块(图2特征融合部分中的CMA-1)，学习从音频到图像的对齐映射关系，得到第一高级特征；将所述图像特征输入到第二跨模态注意力模块(图2特征融合部分中的CMA-2)，学习从图像到音频的对齐映射关系，得到第二高级特征；具体的，两个跨模态注意力模块应用缩放点积注意力机制可以获得不同模态之间的交互信息，采用上述两个跨模态注意力模块能同时兼顾音频和图像两种模态的信息，有利于在复杂的环境中对紧急事件做出准确预测；例如，在摄像头无法监测到的位置发生紧急事件，此时图像信息无法很好的反映出现场状况，但呐喊求救声仍然有助于对该紧急事件进行合理预测。

在一实施例中，所述S104包括：

所述第一跨模态注意力模块和所述第二跨模态注意力模块的处理过程均包括如下步骤：

对待处理特征进行线性变换处理得到多个注意力头的查询向量Q_i、键向量K_i和值向量V_i；其中，所述待处理特征为音频特征或图像特征；其中i＝[1,2.....h]，h是注意力头的个数；

将所述查询向量Q_i、键向量K_i输入到缩放点积注意力层，计算音频特征和图像特征之间的关联性，得到注意力矩阵A_i；

通过softmax激活函数对所述注意力矩阵A_i进行激活；

将激活后的所述注意力矩阵A_i和值向量V_i进行矩阵乘法，得到第i个注意力头的输出head_i；

对多个所述注意力进行拼接得到多头注意力；

将所述多头注意力输入到前馈神经网络进行特征映射处理，输出得到对应的高级特征。

进一步的，所述将所述多头注意力输入到前馈神经网络进行特征映射处理，输出得到对应的高级特征，包括：

按如下公式计算得到所述第一高级特征或所述第二高级特征：

F＝FFN(M)＝ReLU(MW₁+b₁)W₂+b₂

其中，FFN表示所述前馈神经网络，F表示第一高级特征或所述第二高级特征，M表示所述多头注意力，ReLU表示激活函数，W₁表示第一个线性层的权重，b₁表示第一个线性层的偏差，W₂表示第二个线性层的权重，b₂表示第二个线性层的偏差。

结合图3至图4所示，在本实施例中，在CMA-1中，首先设定所述音频特征z作为查询向量，所述图像特征H作为键向量和值向量；类似的，在CMA-2中，设定所述图像特征H作为查询向量，所述音频特征z作为键向量和值向量；然后将所述音频特征z或所述图像特征H经过线性变换(图3或图4的起始Linear层)来创建第i个注意力头的查询向量(Q_i)，键向量(K_i)，值向量(V_i)；其中i＝[1,2.....h]，h是注意力头的个数，接着将Q_i、K_i输入到缩放点积注意力层，计算所述音频特征和所述图像特征之间的关联性，即注意力矩阵A_i，再经过一个softmax激活函数；最后，对注意力矩阵A_i和值向量(V_i)进行矩阵乘法，得到第i个注意力头的输出head_i。

以第一跨模态注意力模块(CMA-1)为例，其处理过程如下：

第一步，先确定输入Query(Q，查询)，Key(K，键)，Value(V，值)：

Q＝z

K＝H

V＝H

第二步，按如下公式计算得到第i个注意力头的输出head_i：

其中，Attention表示注意力层，Q表示查询向量，K表示键向量，V表示值向量，W表示线性层权重，

表示注意力矩阵A_i，softmax表示激活函数。

具体的，

分别代表Q,K,V分别做了一次线性变换来进行特征提取；同时，因为公式中做的是单头注意力的运算，所以/>

三个矩阵的维度是d_model×d_k，即把Q、K、V的维度从model降为d_k；这里的d_model取值为768(所有头之和)，注意力头的维度为192。

第三步，按如下公式计算得到所述多头注意力：

M＝MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W⁰

其中，M表示所述多头注意力，MultiHead表示多头，Concat表示拼接，head_h表示第h个注意力头，W⁰表示拼接h个注意力头后的线性层。

具体的，首先并行的计算得到h个注意力头的输出head_i，然后再把h个注意力头的输出进行拼接，即沿着维度进行拼接，得到完整的d_model，经过Concat(head₁,…,head_h)之和与W⁰相乘，最后得到所述多头注意力M；需要注意的是，

以及/>

四个均代表代表线性层的权重，∈后面的数字代表的是对应线性层的形状，比如/>

代表/>

是一个二维向量；其中/>

三个，分别代表Q,K,V的注意力线性层，第四个代表拼接h个注意力头后的线性层。

本实施例中设定h＝4，即

具体的，d_k代表单个注意力头中的key的维度，本质上d_k＝d_v＝d_q，只是一般默认d_k＝d_q，所以没写出d_q，h的值可以根据实际情况进行适应性调整，不作限定；在完成多个注意力头缩放点积注意力的计算后，沿着最后一个维度把每一个注意力头head_i拼接起来，最终得到所述多头注意力M的输出，所述多头注意力M经过线性层处理后送入到所述前馈神经网络，此网络能把特征映射到更高维度的空间，从而提高信息的表征性，最后得到所述第一高级特征或所述第二高级特征。

对于第二跨模态注意力模块(CMA-2)，其处理过程与第一跨模态注意力模块(CMA-1)类似，只是第一步的输入如前所述有所不同，其他过程相同。

在一实施例中，所述S105，包括：

所述对所述第一高级特征和所述第二高级特征进行拼接处理得到最终高级特征，包括：

按如下公式计算得到所述最终高级特征：

F＝SeNet[Concat(F₁,F₂)]

其中，SeNet表示所述分类网络模型，F₁表示所述第一高级特征，F₂表示所述第二高级特征，Concat表示拼接，F表示所述最终高级特征。

具体的，经过所述第一跨模态注意力模块和所述第二跨模态注意力模块处理后，分别得到所述第一高级特征F₁和所述第二高级特征F₂；为了有效地检测紧急事件，本实施例通过特征拼接(Concat)的方式(沿着F₁和F₂的序列长度或者帧数进行拼接)来实现融合表征，再经过一个SeNet网络，输出特征F；SeNet网络是一种能把重要通道的特征强化，非重要通道的特征弱化的子结构；SeNet网络对每个输出通道都会预测一个常数权重，并加权到相应的通道上，有利于加强有效特征信息，抑制无效特征信息。

在步骤S106中，将所述最终高级特征输入到线性分类层(图2输出层部分中的Linear)进行分类处理得到紧急事件预测结果，这里的紧急事件预测结果包括紧急事件发生的事件数量；再根据损失函数和所述紧急事件预测结果进行模型优化得到紧急事件检测模型，需要注意的是，这里的得到的紧急事件检测模型为训练阶段(图2输出层部分中的训练步骤)得到的结果，模型优化是所述损失函数和所述紧急事件预测结果进行拟合优化；而对于推理阶段(图2输出层部分中的推理步骤)则直接使用模型优化后得到的紧急事件检测模型，即可预测最终的紧急事件对象；将紧急事件检测模型部署在云端(在部署紧急事件检测模型前均需要进行训练，再投入使用，即推理阶段)，可实现对多个场景的实时监控，从而快速检测到紧急事件现象并触发告警，排除物业行业中的可能出现的一些安全隐患；紧急事件检测模型是在多个场景的紧急事件短视频中训练得到，通过主动学习的标注方法可实现模型快速迭代更新，实现新增场景快速更新；随着场景的增加，紧急事件检测模型的鲁棒性也会随之增强。

在一实施例中，所述S106，包括：

所述损失函数L如下：

L＝αlog_CTC(Y₁|x)+(1-α)log_CE(Y₂|x)

其中，α表示超参数，Y₁表示紧急事件预测结果，Y₂表示标注的事件，x表示所述音频数据，CTC表示CTC损失，CE表示交叉熵损失。

具体的，Y₁＝[y₁,...,y_l]和Y₂＝a，a代表标注事件的标签，l表示所述音频数据的转录文本长度，利用损失函数(图2输出层部分中的CE Loss+CTC Loss)不断对紧急事件检测模型进行优化。

本发明实施例中，在检测到标注范围内的紧急事件后，可根据识别出相应的紧急事件触发告警，并通知相关物业工作人员赶赴现场，对紧急事件进行妥善处理，从而解决告警紧急事件效率低下以及需要较多的人力成本的问题。

结合图5所示，图5为本发明实施例提供的一种基于跨模态注意力机制的紧急事件检测装置的示意性框图，基于跨模态注意力机制的紧急事件检测装置500包括：

视频分离单元501，用于获取事件视频，对所述事件视频进行音频分离处理得到音频数据，以及对所述事件视频进行抽帧处理得到图像数据；

音频处理单元502，用于通过自监督训练音频编码器对所述音频数据进行语音表示得到音频特征；

图像处理单元503，用于通过Swin-Transformer模型对所述图像数据进行特征提取得到帧级特征，并对所述帧级特征进行聚合得到特征向量，并通过线性层将所述特征向量降维至与音频特征相同的维度，再通过激活函数进行激活得到图像特征；

特征处理单元504，用于将所述音频特征输入到第一跨模态注意力模块，学习从音频到图像的对齐映射关系，得到第一高级特征；将所述图像特征输入到第二跨模态注意力模块，学习从图像到音频的对齐映射关系，得到第二高级特征；

特征拼接单元505，用于对所述第一高级特征和所述第二高级特征进行拼接处理，并输入至分类网络，输出得到最终高级特征；

结果输出单元506，用于将所述最终高级特征输入到线性分类层进行分类处理得到紧急事件预测结果，根据损失函数和所述紧急事件预测结果进行模型优化得到紧急事件检测模型。

在本实施例中，在视频分离单元501中处理得到音频数据以及图像数据，音频处理单元502对所述音频数据进行处理得到音频特征，图像处理单元503对所述图像数据进行处理得到图像特征，而特征处理单元504分别对所述音频特征和所述图像特征进行处理得到第一高级特征和第二高级特征，特征拼接单元505对所述第一高级特征和所述第二高级特征进行拼接得到最终高级特征，最后结果输出单元506根据损失函数和所述紧急事件预测结果进行模型优化得到紧急事件检测模型。

在一实施例中，特征处理单元504，包括：

第一处理单元，用于对待处理特征进行线性变换处理得到多个注意力头的查询向量Q_i、键向量K_i和值向量V_i；其中，所述待处理特征为音频特征或图像特征；其中i＝[1,2.....h]，h是注意力头的个数；

第二处理单元，用于将所述查询向量Q_i、键向量K_i输入到缩放点积注意力层，计算音频特征和图像特征之间的关联性，得到注意力矩阵A_i；

第三处理单元，用于通过softmax激活函数对所述注意力矩阵A_i进行激活；

第四处理单元，用于将激活后的所述注意力矩阵A_i和值向量V_i进行矩阵乘法，得到第i个注意力头的输出head_i；

第五处理单元，用于对多个所述注意力进行拼接得到多头注意力；

第六处理单元，用于将所述多头注意力输入到前馈神经网络进行特征映射处理，输出得到对应的高级特征。

进一步的，所述第六处理单元，包括：

第一计算单元，用于计算得到所述第一高级特征或所述第二高级特征：

F＝FFN(M)＝ReLU(MW₁+b₁)W₂+b₂

在一实施例中，特征拼接单元505，包括：

第二计算单元，用于计算得到所述最终高级特征：

F＝SeNet[Concat(F₁,F₂)]

其中，SeNet表示所述分类网络模型，F₁表示所述第一高级特征，F₂表示所述第二高级特征，Concat表示拼接。

在一实施例中，音频处理单元502，包括：

第三计算单元，用于计算得到所述音频特征：

z∈R^L×d＝f(x)

在一实施例中，图像处理单元503，包括：

第四计算单元，用于计算得到所述特征向量：

h∈R^f×D＝n(s(y))

第五计算单元，用于计算得到所述图像特征：

H∈R^f×d＝ReLU[Linear(h)]

在一实施例中，结果输出单元506，包括：

第六计算单元，用于计算得到所述损失函数L公式如下：

L＝αlog_CTC(Y₁|x)+(1-α)log_CE(Y₂|x)

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于跨模态注意力机制的紧急事件检测方法，其特征在于，包括：

2.根据权利要求1所述的基于跨模态注意力机制的紧急事件检测方法，其特征在于，所述第一跨模态注意力模块和所述第二跨模态注意力模块的处理过程均包括如下步骤：

通过softmax激活函数对所述注意力矩阵A_i进行激活；

对多个所述注意力进行拼接得到多头注意力；

3.根据权利要求2所述的基于跨模态注意力机制的紧急事件检测方法，其特征在于，所述将所述多头注意力输入到前馈神经网络进行特征映射处理，输出得到对应的高级特征，包括：

F＝FFN(M)＝ReLU(MW_i+b₁)W₂+b₂

4.根据权利要求1所述的基于跨模态注意力机制的紧急事件检测方法，其特征在于，所述对所述第一高级特征和所述第二高级特征进行拼接处理得到最终高级特征，包括：

按如下公式计算得到所述最终高级特征：

F＝SeNet[Concat(F_t,F₂)]

5.根据权利要求1所述的基于跨模态注意力机制的紧急事件检测方法，其特征在于，所述通过自监督训练音频编码器对所述音频数据进行语音表示得到音频特征，包括：

按如下公式计算得到所述音频特征：

z∈R^Lxd＝f(x)

6.根据权利要求1所述的基于跨模态注意力机制的紧急事件检测方法，其特征在于，所述通过Swin-Transformer模型对所述图像数据进行特征提取得到帧级特征，并对所述帧级特征进行聚合得到特征向量，并通过线性层将所述特征向量降维至与音频特征相同的维度，再通过激活函数进行激活得到图像特征，包括：

按如下公式计算得到所述特征向量：

h∈R^f×D＝n(s(y))

按如下公式计算得到所述图像特征：

H∈R^f×d＝ReLU[Linear(h)]

7.根据权利要求1所述的基于跨模态注意力机制的紧急事件检测方法，其特征在于，所述损失函数L如下：

L＝αlog_CTC(Y₁|x)+(1-α)log_CE(Y₂|X)

8.一种基于跨模态注意力机制的紧急事件检测装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于跨模态注意力机制的紧急事件检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于跨模态注意力机制的紧急事件检测方法。