CN112989977B

CN112989977B - 一种基于跨模态注意力机制的视听事件定位方法及装置

Info

Publication number: CN112989977B
Application number: CN202110235810.5A
Authority: CN
Inventors: 于家硕; 程颖; 冯瑞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2022-09-06
Anticipated expiration: 2041-03-03
Also published as: CN112989977A

Abstract

本发明提供了一种基于跨模态注意力机制的视听事件定位方法及装置，用于对目标音视频中的事件进行识别与定位，其特征在于，包括如下步骤：对目标音视频进行预处理得到图像特征以及音频特征；基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出目标音视频中每一个时刻的事件类别。其中，神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块。跨模态注意力机制模块用于获取视频模态与音频模态间的信息，并使用一个模态的信息处理另一模态的信息，实现模态间的信息交互。单模态自注意力机制模块以及循环神经网络模块用于捕捉模态内的长距离依赖关系。

Description

一种基于跨模态注意力机制的视听事件定位方法及装置

技术领域

本发明属于数据识别领域，具体涉及一种基于跨模态注意力机制的视听事件定位方法及装置。

背景技术

在当前机器学习技术及计算机硬件性能高速提升的情况下，近年来计算机视觉、自然语言处理和语音检测等应用领域取得了突破性进展。而着眼于研究不同模态之间关系的跨模态任务也随之出现，并得到了广泛的研究。

其中，模态是指数据的存在形式，比如文本、音频、图像、视频等不同的文件格式为不同模态。有些数据的存在形式不同，但都是描述同一事物或事件。而在信息检索的需求往往不只是同一事件单一模态的数据，也可能需要其他模态的数据来增强对同一事物或事件的认知，此时就需要跨模态算法来研究不同模态数据之间的联系。跨模态任务能够通过对不同模态之间数据的关联和联系进行研究，从而得到超出两种模态数据本身的信息。

事件/动作识别和定位任务拥有广阔的应用范围，比如对于一段给定的视频，算法可以自动识别出视频中每一秒钟的事件类别，也能对视频中某一事件的起始时间进行定位。同时，该算法也可以应用到实时视频的检测中，比如在视频监控领域中，算法可以实时识别出所监控的场景下发生的事件类别，如检测到异常事件可以第一时间进行报告。事件/动作识别和定位一直被看成一个单模态问题，不管是动作识别，还是时序动作定位，都有多种计算机视觉领域的算法对其进行处理，并取得了比较不错的结果。然而正如之前，如果将视频中的音频信息也考虑进来，把视频中的视觉模态的信息和听觉模态的信息同时结合起来，就能进一步提高识别与定位准确率。

虽然，在当下也存在少数使用多模态信息进行事件/动作识别任务的算法。但是，现有的视听事件定位算法，一般采取注意力机制和传统循环神经网络结合的方式。在这些算法中，注意力机制一般使用的是软注意力机制，而该软注意力机制的效果相对较差。而自注意力机制的效果虽然优秀，但是该自注意力机制无法直接应用到跨模态任务上。

发明内容

为解决上述问题，提供了一种将自注意力机制应用到跨模态任务上的视听事件定位方法及装置，本发明采用了如下技术方案：

本发明提供了一种基于跨模态注意力机制的视听事件定位方法，用于对目标音视频中的事件进行识别与定位，其特征在于，包括如下步骤：步骤S1-1，利用预定的预处理方法对目标音视频进行预处理得到图像特征以及音频特征；步骤S1-2，基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出目标音视频中每一个时刻的事件类别，其中，神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块，跨模态注意力机制模块利用多头注意力机制针对图像特征融合音频特征得到视觉双模态特征，并通过残差结构将视觉双模态特征与图像特征相加得到视觉跨模态特征，跨模态注意力机制模块利用多头注意力机制针对音频特征融合图像特征得到听觉双模态特征，并通过残差结构将听觉双模态特征与音频特征相加得到听觉跨模态特征，单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉，得到对应的视觉自注意力特征以及听觉自注意力特征，循环神经网络模块分别对视觉自注意力特征以及听觉自注意力特征进行长距离依赖关系捕捉，得到对应的视觉特征以及听觉特征，分类模块包括全连接层以及Softmax函数，该分类模块基于视觉特征以及听觉特征进行分类，从而得出目标音视频中每一个时刻的事件类别。

根据本发明提供的一种基于跨模态注意力机制的视听事件定位方法，还可以具有这样的技术特征，其中，在单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉处理前，利用层归一化操作分别对视觉跨模态特征以及听觉跨模态特征进行归一化处理。

根据本发明提供的一种基于跨模态注意力机制的视听事件定位方法，还可以具有这样的技术特征，其中，预处理方法包括如下步骤：步骤S2-1，分别对目标音视频中的视频以及音频进行处理，得到对应的图像序列以及音频序列；步骤S2-2，利用预先训练好的图像特征提取模型从图像序列中提取到图像特征，利用预先训练好的音频特征提取模型从音频序列中提取得到音频特征，步骤S2-1包括如下子步骤：步骤S2-1-1，将视频按照预定的时间间隔分割，得到多个视频片段，从每个视频片段中抽取预定数量的图像帧，从而构成图像序列，步骤S2-1-2，利用梅尔频谱处理音频，从而得到音频序列。

根据本发明提供的一种基于跨模态注意力机制的视听事件定位方法，还可以具有这样的技术特征，其中，图像特征提取模型为VGG-19模型，音频特征提取模型为VGGish模型。

根据本发明提供的一种基于跨模态注意力机制的视听事件定位方法，还可以具有这样的技术特征，其中，循环神经网络模块为LSTM模块。

本发明提供了基于跨模态注意力机制的视听事件定位装置，用于对目标音视频中的事件进行识别与定位，其特征在于，包括如下步骤：预处理部，利用预定的预处理方法对目标音视频进行预处理得到图像特征以及音频特征；识别定位部，基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出目标音视频中每一个时刻的事件类别，其中，神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块，跨模态注意力机制模块利用多头注意力机制针对图像特征融合音频特征得到视觉双模态特征，并通过残差结构将视觉双模态特征与图像特征相加得到视觉跨模态特征，跨模态注意力机制模块利用多头注意力机制针对音频特征融合图像特征得到听觉双模态特征，并通过残差结构将听觉双模态特征与音频特征相加得到听觉跨模态特征，单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉，得到对应的视觉自注意力特征以及听觉自注意力特征，循环神经网络模块分别对视觉自注意力特征以及听觉自注意力特征进行长距离依赖关系捕捉，得到对应的视觉特征以及听觉特征，分类模块包括全连接层以及Softmax函数，该分类模块基于视觉特征以及听觉特征进行分类，从而得出目标音视频中每一个时刻的事件类别。

发明作用与效果

根据本发明的一种基于跨模态注意力机制的视听事件定位方法及装置，由于跨模态注意力机制模块通过多头注意力机制进行视频模态以及音频模态的信息融合从而得到视觉双模态特征以及听觉双模态特征，因此可以捕捉同一时刻两个模态特征信息间的联系，从而生成更具有表现力的表示，从而很好地整合和处理两个模态的信息。

另外，由于通过单模态自注意力机制模块以及循环神经网络模块进行处理，因此能够更加有效地捕捉到特征序列的长距离依赖关系，使得目标音视频序列中每一时间步的特征信息都能有效的作用于任一时间步的特征获取中，从而提高视听事件定位任务的准确率。

除此之外，由于神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块，因此，整体结构简单，没有大量的重复模块的堆积，也没有结构复杂的子模块，同时整个网络的设计模块化，模型构建快速方便，训练过程所消耗的计算量小，从而能够应用的移动设备中。

附图说明

图1为本发明实施例的一种基于跨模态注意力机制的视听事件定位方法的流程图；

图2为本发明实施例的神经网络模型的结构示意图；

图3为本发明实施例的跨模态注意力机制模块工作过程的流程示意图；以及

图4为本发明实施例的视听事件定位方法实验对比图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种基于跨模态注意力机制的视听事件定位方法及装置作具体阐述。

<实施例>

本实施例中一种基于跨模态注意力机制的视听事件定位方法及装置在一张NVIDIA GTX 1080Ti显卡的辅助下实现相应训练与预测功能。

图1为本发明实施例的一种基于跨模态注意力机制的视听事件定位方法的流程图。

如图1所示，一种基于跨模态注意力机制的视听事件定位方法包括如下步骤：

步骤S1-1，利用预定的预处理方法对目标音视频进行预处理得到图像特征以及音频特征。

其中，预处理方法包括如下步骤：

步骤S2-1，分别对目标音视频中的视频以及音频进行处理，得到对应的图像序列以及音频序列。

步骤S2-2，利用预先训练好的图像特征提取模型从图像序列中提取到图像特征，利用预先训练好的音频特征提取模型从音频序列中提取得到音频特征。

步骤S2-1包括如下子步骤：

步骤S2-1-1，将视频按照预定的时间间隔分割，得到多个视频片段，从每个视频片段中抽取预定数量的图像帧，从而构成图像序列。

本实施例中，将视频按照1s的时间间隔分割，得到多个视频片段，从每个视频片段中抽取16帧的图像帧，从而构成图像序列。

另外，步骤S2-1-1中还包括对抽取到的图像帧进行大小归一化处理。

步骤S2-1-2，利用梅尔频谱处理音频，从而得到音频序列。

其中，图像特征提取模型为VGG-19模型，音频特征提取模型为VGGish模型。

本实施例中，VGG-19模型为基于ImageNet数据集预训练得到，VGGish模型为基于AudioSet数据集预训练得到。

步骤S1-2，基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出目标音视频中每一个时刻的事件类别。

图2为本发明实施例的神经网络模型的结构示意图。

如图2所示，神经网络模型包括输入层、跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块。

输入层用于将图像特征以及音频特征对应的维度调节为相同维度。

本实施例中，步骤S1-1输出的图像特征大小为64×10×7×7×512以及音频特征大小为64×10×128。输入层通过输入维度为128，输出维度为512的全连接层FC1对音频特征进行处理，使用输入维度为512，输出维度为512的全连接层FC2、输入维度为49，输出维度为1的全连接层FC3对图像特征进行处理。最后，将音频特征和图像特征统一处理为64×10×512的维度。

跨模态注意力机制模块由自注意力机制修改而来，仍然包括了自注意力机制的Q,K,V矩阵，用于获取模态间的信息，并使用一个模态的信息处理另一模态的信息，实现模态间的信息交互。

单模态自注意力机制模块和循环神经网络模块用于捕捉单模态内的长距离依赖关系。

分类模块包括全连接层以及Softmax函数，用于分类。

图3为本发明实施例的跨模态注意力机制模块工作过程的流程示意图。

如图3所示，跨模态注意力机制模块利用多头注意力机制针对图像特征融合音频特征得到视觉双模态特征，并通过残差结构将视觉双模态特征与图像特征相加得到视觉跨模态特征。

跨模态注意力机制模块利用多头注意力机制针对音频特征融合图像特征得到听觉双模态特征，并通过残差结构将听觉双模态特征与音频特征相加得到听觉跨模态特征。

本实施例中，跨模态注意力机制模块包括了三个尺寸为512×512自注意力机制的Q,K,V矩阵。

输入跨模态注意力机制模块的图像特征以及音频特征先使用QKV矩阵进行放缩点积注意力(Scaled Dot-Product Attention)操作，经过Softmax和dropout函数处理后，得到注意力值。其中，通过多头注意力机制将注意力分为多个头(head)，而每一个头中采用不同的权重，将最后的结果链接在一起。

本实施例中，头的数量设为8，并且将每个头的结果计算完毕后，使用一个512×512的全连接层进行结果集成，从而得到对应的视觉双模态特征以及听觉双模态特征。由于使用的是跨模态注意力机制，因此在每一个模态中，Q矩阵来自原模态，而KV则来自于另一模态，即视频模态中融合了音频信息，音频模态中融合了视频信息。

另外，在单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉处理前，利用层归一化操作分别对视觉跨模态特征以及听觉跨模态特征进行归一化处理。

单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉，得到对应的视觉自注意力特征以及听觉自注意力特征。

其中，单模态自注意力机制模块的QKV矩阵全部来自于当前模态，该单模态自注意力机制能够捕捉单模态内的长距离依赖性，从而整合整个目标音视频的信息。

循环神经网络模块分别对视觉自注意力特征以及听觉自注意力特征进行长距离依赖关系捕捉，得到对应的视觉特征以及听觉特征。

其中，循环神经网络模块为LSTM模块。

本实施例中，LSTM模块中隐藏层数量为2，batch_size为64，隐藏层维度为128，并采用双向模式，即Bi-LSTM，因此能够更好的处理全局数据。

分类模块基于视觉特征以及听觉特征进行分类，从而得出目标音视频中每一个时刻的事件类别。

本实施例中，分类模块中两个全连接层FC4和FC5相堆叠，维度分别为512×64和64×29。通过全连接层FC4和FC5处理后，使用Softmax完成分类，从而生成目标音视频中的每一个时刻属于每种事件类别的概率，概率最高的事件类别即为该时刻最为可能的事件类别。

其中，基于跨模态注意力机制的神经网络模型训练过程包括如下步骤：

步骤S3-1，获取视听事件定位任务相关的视音频，并进行预处理得到训练集。

其中，预处理过程与步骤S1-1中的预处理过程相同。

本实施例中，用来获取训练集的视音频为AVE Dataset。AVE Dataset是AudioSet数据集的一个子集，共含有28个类别的4143个视频，每一个视频含有至少2s长的视听事件。整个数据集含有多个领域的多个事件，能够评价相关模型在各个领域事件的识别表现。每个类别中最少含有60个视频，最多的类别有188个视频。

从AVE Dataset的28个类别的4143个视频中，选择80％进行预处理得到训练集，剩下的20％中一半作为测试集，一半作为验证集。

步骤S3-2，构建基于跨模态注意力机制的神经网络模型作为初始网络模型，并且进行随机初始化。

本实施例中，利用现有的深度学习框架PyTorch，搭建基于跨模态注意力机制的神经网络模型。

步骤S3-3，将训练集中的图像输入初始网络模型进行正向传播，利用该初始网络模型的最后一层模型参数计算出损失误差。

本实例中，使用Multi Label Soft Margin Loss损失函数计算得到损失误差。

步骤S3-4，将损失误差反向传播，从而更新初始网络模型的所有参数。

步骤S3-5，重复步骤S3-3至步骤S3-4直到达到训练完成条件，得到训练好的基于跨模态注意力机制的神经网络模型。

本实施例中，神经网络模型训练时，批次大小为64，迭代次数为300次，学习率设置为0.001，使用Adam优化方法进行优化，每经过15000次反向传播，学习率就会除以10，从而使算法更为细致和准确的进行学习。

本实施例的基于跨模态注意力机制的视听事件定位装置包括预处理部以及识别定位部。本实施例中，基于跨模态注意力机制的视听事件定位装置是基于本发明的基于跨模态注意力机制的视听事件定位装置方法得到的，用于对目标音视频中的事件进行识别与定位，并可应用于嵌入式设备。

预处理部利用预定的预处理方法对目标音视频进行预处理得到图像特征以及音频特征。

识别定位部基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出目标音视频中每一个时刻的事件类别。

图4为本发明实施例的视听事件定位方法实验对比图。

为了验证本发明实施例的基于跨模态注意力机制的视听事件定位方法及装置的效果，与现有的定位方法AVEL、AVSDN以及AVIN在AVE测试集上进行定位准确率的实验对比(如图4所示)。

由图4可知，本发明的基于跨模态注意力机制的视听事件定位方法的定位准确率为76.5％，均高于现有的定位方法，从而证明本发明的视听事件定位方法有效。

实施例作用与效果

根据本实施例提供的基于跨模态注意力机制的视听事件定位方法及装置，由于跨模态注意力机制模块通过多头注意力机制进行视频模态以及音频模态的信息融合从而得到视觉双模态特征以及听觉双模态特征，因此可以捕捉同一时刻两个模态特征信息间的联系，从而生成更具有表现力的表示，从而很好地整合和处理两个模态的信息。

实施例中，由于跨模态注意力机制模块在每一个卷积层后进行层归一化操作，相较于传统的批量归一化操作而言，经过层归一化后的均值与方差更能反映全局的统计分布量，针对样本较少的情境具有较好的效果，也更加适用于本发明的动态的神经网络模型，因此很好的避免了批量均一化的样本过少问题，能够取得表现更好、结果更稳定的神经网络模型。

实施例中，由于预处理时将视频按照1s的时间间隔分割，得到多个视频片段，从每个视频片段中抽取16帧的图像帧，从而构成图像序列，因此减少了后续神经网络模型的计算量，降低复杂度。

实施例中，由于循环神经网络模块为LSTM模块，且采用双向模式，因此能够更好的处理全局数据。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于跨模态注意力机制的视听事件定位方法，用于对目标音视频中的事件进行识别与定位，其特征在于，包括如下步骤：

步骤S1-1，利用预定的预处理方法对所述目标音视频进行预处理得到图像特征以及音频特征；

步骤S1-2，基于所述图像特征以及所述音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出所述目标音视频中每一个时刻的事件类别，

其中，所述神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块，

所述跨模态注意力机制模块利用多头注意力机制针对所述图像特征融合所述音频特征得到视觉双模态特征，并通过残差结构将所述视觉双模态特征与所述图像特征相加得到视觉跨模态特征，

所述跨模态注意力机制模块利用多头注意力机制针对所述音频特征融合所述图像特征得到听觉双模态特征，并通过残差结构将所述听觉双模态特征与所述音频特征相加得到听觉跨模态特征，

所述单模态自注意力机制模块分别对所述视觉跨模态特征以及所述听觉跨模态特征进行单模态片段间关系捕捉，得到对应的视觉自注意力特征以及听觉自注意力特征，所述单模态自注意力机制模块的QKV矩阵全部来自于当前模态，从而能够捕捉单模态内的长距离依赖关系，

所述循环神经网络模块分别对所述视觉自注意力特征以及所述听觉自注意力特征进行长距离依赖关系捕捉，得到对应的视觉特征以及听觉特征，

所述分类模块包括全连接层以及Softmax函数，该分类模块基于所述视觉特征以及所述听觉特征进行分类，从而得出所述目标音视频中每一个时刻的事件类别。

2.根据权利要求1所述的基于跨模态注意力机制的视听事件定位方法，其特征在于：

其中，在所述单模态自注意力机制模块分别对所述视觉跨模态特征以及所述听觉跨模态特征进行单模态片段间关系捕捉处理前，利用层归一化操作分别对所述视觉跨模态特征以及所述听觉跨模态特征进行归一化处理。

3.根据权利要求1所述的基于跨模态注意力机制的视听事件定位方法，其特征在于：

其中，所述预处理方法包括如下步骤：

步骤S2-1，分别对所述目标音视频中的视频以及音频进行处理，得到对应的图像序列以及音频序列；

步骤S2-2，利用预先训练好的图像特征提取模型从所述图像序列中提取到所述图像特征，利用预先训练好的音频特征提取模型从所述音频序列中提取得到所述音频特征，

所述步骤S2-1包括如下子步骤：

步骤S2-1-1，将所述视频按照预定的时间间隔分割，得到多个视频片段，从每个所述视频片段中抽取预定数量的图像帧，从而构成所述图像序列，

步骤S2-1-2，利用梅尔频谱处理所述音频，从而得到所述音频序列。

4.根据权利要求3所述的基于跨模态注意力机制的视听事件定位方法，其特征在于：

其中，所述图像特征提取模型为VGG-19模型，所述音频特征提取模型为VGGish模型。

5.根据权利要求1所述的基于跨模态注意力机制的视听事件定位方法，其特征在于：

其中，所述循环神经网络模块为LSTM模块。

6.一种基于跨模态注意力机制的视听事件定位装置，用于对目标音视频中的事件进行识别与定位，其特征在于，包括如下步骤：

预处理部，利用预定的预处理方法对所述目标音视频进行预处理得到图像特征以及音频特征；

识别定位部，基于所述图像特征以及所述音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出所述目标音视频中每一个时刻的事件类别，