CN115713722A

CN115713722A - 一种多模态第一视角视频分类方法及系统

Info

Publication number: CN115713722A
Application number: CN202310016150.0A
Authority: CN
Inventors: 刘萌; 张风雷; 宋雪萌; 许海振; 郭杰; 王少华
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-02-24
Anticipated expiration: 2043-01-06
Also published as: CN115713722B

Abstract

本发明属于计算机视觉领域，提供了一种多模态第一视角视频分类方法及系统。该方法包括，获取视频数据和视频动作类别，提取视频数据的视觉表示序列和音频表示序列；采用基于联合表示的交叉注意模块，得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列；计算视觉模态的自监督对比损失函数和音频模态的自监督对比损失函数；计算视觉模态的分类预测结果和音频模态的分类预测结果；计算分类预测损失函数；构建联合损失函数，用于联合优化第一视角视频分类网络，得到已训练的第一视角视频分类网络。本发明针对每个模态应用自监督对比学习来增强模态内特征，使这些特征不受与动作有关的干扰因素的影响，提升了动作分类的精准度。

Description

一种多模态第一视角视频分类方法及系统

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种多模态第一视角视频分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着多传感器可穿戴设备的出现，如，GoPro和谷歌Glass，第一视角的音视频录制在极限运动、健康监测、生活记录和家庭自动化等许多领域变得流行起来。因此，计算机视觉领域对收集大规模数据集以及开发新的或调整现有方法以适应第一人称视角场景重新产生了兴趣，尤其是动作分类任务。目前，大多第一视角视频动作分类方法仅考虑视觉模态信息用以区分不同动作，但是它们忽视了音频信息对于第一视角视频动作分类的重要性。第一视角视频中蕴含了丰富的声音，这些声音来自手与物体之间的交互，以及可穿戴麦克风与正在进行的动作的近距离接触。特别地，音频是某些动作(例如，“洗” 和“煎”)以及动作中的对象 (例如，“放盘子”) 的主要鉴别器。有时，声音的时间进展(或变化)可以分离视觉上模糊的动作(例如，“打开水龙头”与“关闭水龙头”)。音频也可以捕捉在可穿戴相机的视野之外，但可以听到的动作(例如，“吃”可以听到但看不到)。由此可见，将音频信息整合到第一视角视频动作分类中是十分必要的。

据前期调研可知，目前有两个基于音频-视觉的第一视角动作分类方法。其中，一个方法采用传统特性融合方式将多个模态特征拼接起来，用于预测最终输出。虽然该融合机制允许低级别模态特征交互，但它未能充分挖掘模态间交互关系，因此性能改善有限。另一个方法，利用基于Transformer的交叉注意来捕捉跨模态关系，但它们未能有效利用视觉和音频间的互补关系。此外，最重要的是，上述方法不能很好地规避背景等干扰因素的影响，容易对发生在不同场景下的同一动作得到不同分类结果。比如，“吃”可能发生在完全不同背景和语境的不同地点。

因此，如何改进多模态学习范式以及利用不同模态间的互补性关系进行第一视角视频动作分类成为一个亟待探究的问题。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种多模态第一视角视频分类方法及系统，其针对每个模态应用自监督对比学习，来增强模态内特征表示，使这些特征不受与动作有关的干扰因素的影响；同时，有效地利用不同模态之间的互补关系进行动作分类，显著提升动作分类的精准度。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种多模态第一视角视频分类方法。

一种多模态第一视角视频分类方法，包括：

获取视频数据，采用已训练的第一视角视频分类网络，得到视频动作类别；

所述第一视角视频分类网络的训练过程包括：获取视频数据和视频动作类别，提取视频数据的视觉表示序列和音频表示序列；基于视觉表示序列和音频表示序列，采用基于联合表示的交叉注意模块，得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列；计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数，计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数；根据联合表示增强的视觉特征表示序列，得到视觉模态的分类预测结果；根据联合表示增强的音频特征表示序列，得到音频模态的分类预测结果；根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别，计算分类预测损失函数；将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加，得到联合损失函数，用于联合优化第一视角视频分类网络，得到已训练的第一视角视频分类网络。

进一步地，所述提取视频数据的视觉表示序列和音频表示序列的过程具体包括：

提取视频数据的视频帧序列，将视频帧序列输入SlowFast网络，得到视觉表示序列；

提取视频数据的音频数据，提取音频数据中Mel波段的log-Mel光谱图序列，将log-Mel光谱图序列输入Auditory SlowFast网络，得到音频表示序列。

进一步地，所述得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列的过程具体包括：

根据视觉表示序列和音频表示序列，计算视觉模态和音频模态的联合表示；

根据视觉模态和音频模态的联合表示，分别计算视觉特征与联合表示的联合相关矩阵和音频特征与联合表示的联合相关矩阵；

根据视觉特征与联合表示的联合相关矩阵和视觉表示序列，计算视觉模态的注意力权值；根据音频特征与联合表示的联合相关矩阵和音频表示序列，计算音频模态的注意力权值；

根据视觉模态的注意力权值和视觉表示序列，计算联合表示增强的视觉特征表示序列；根据音频模态的注意力权值和音频表示序列，计算联合表示增强的音频特征表示序列。

进一步地，计算视觉模态的自监督对比损失函数的具体过程包括：

对联合表示增强的视觉特征表示序列在时间维度上进行平均池化，得到视觉模态的全局特征向量；

对于每个输入的视频数据，随机抽取与该视频数据对应的视频动作类别相同的正样本视频数据和不同的负样本视频数据；

计算正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量；

采用该视频数据视觉模态的全局特征向量、正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量，对视频模态进行对比学习，得到视觉模态的自监督对比损失函数。

进一步地，计算音频模态的自监督对比损失函数的过程具体包括：

对联合表示增强的音频特征表示序列在时间维度上进行平均池化，得到音频模态的全局特征向量；

计算正样本视频数据音频模态的全局特征向量和不同的负样本视频数据音频模态的全局特征向量；

采用该视频数据音频模态的全局特征向量、正样本视频数据音频模态的全局特征向量和不同的负样本视频数据音频模态的全局特征向量，对音频模态进行对比学习，得到音频模态的自监督对比损失函数。

进一步地，所述得到视觉模态的分类预测结果和得到音频模态的分类预测结果的过程具体包括：

将联合表示增强的视觉特征表示序列分别输入动作动词预测分类器和动作名词预测分类器中，得到视觉模态的分类预测结果，所述视觉模态的分类预测结果包括视觉模态动词预测结果和视觉模态名词预测结果；

将联合表示增强的音频特征表示序列分别输入动作动词预测分类器和动作名词预测分类器中，得到音频模态的分类预测结果，所述音频模态的分类预测结果包括：音频模态动词预测结果和音频模态名词预测结果。

进一步地，所述用于联合优化第一视角视频分类网络，得到已训练的第一视角视频分类网络的具体过程包括：

基于联合损失函数，采用Adam优化器进行第一视角视频分类网络的参数优化更新，直到第一视角视频分类网络的参数满足设定的阈值，得到已训练的第一视角视频分类网络。

本发明的第二个方面提供一种多模态第一视角视频分类系统。

一种多模态第一视角视频分类系统，包括：

分类模块，其被配置为：获取视频数据，采用已训练的第一视角视频分类网络，得到视频动作类别；

第一视角视频分类网络训练模块，其被配置为：获取视频数据和视频动作类别，提取视频数据的视觉表示序列和音频表示序列；基于视觉表示序列和音频表示序列，采用基于联合表示的交叉注意模块，得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列；计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数，计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数；根据联合表示增强的视觉特征表示序列，得到视觉模态的分类预测结果；根据联合表示增强的音频特征表示序列，得到音频模态的分类预测结果；根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别，计算分类预测损失函数；将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加，得到联合损失函数，用于联合优化第一视角视频分类网络，得到已训练的第一视角视频分类网络。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的多模态第一视角视频分类方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的多模态第一视角视频分类方法中的步骤。

与现有技术相比，本发明的有益效果是：

（1）本发明依靠基于联合表示的交叉注意融合机制来有效地编码多模态信息，既有助于捕获跨模态间语义关系，还可以大幅减少不同模态间的异质性，从而进一步提高系统性能。

（2）本发明通过应用自监督对比学习增强了各模态内的特征表示能力，确保来自不同的视频的相同动作具有相似的特征表示；

（3）本发明引入集成多模态自监督对比学习和基于联合表示的多模态融合机制的第一视角视频动作分类网络，增强各个模态内部特征表示的同时，加强了多模态互补性信息的挖掘，继而多模态第一视角视频动作分类方法的精准度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一示出的多模态第一视角视频分类方法的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

如图1所示，本实施例提供了一种多模态第一视角视频分类方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

下面将结合本实施例中的附图，对本实施例中的技术方案进行清楚、完整地描述。如图1所示，第一视角视频分类网络的训练过程，包括：

步骤（1）：接收视频数据以及视频动作类别信息，并分别提取视频的视觉表示序列以及音频表示序列；

步骤（2）：基于联合表示的交叉注意模块，获取联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列；

步骤（3）：基于联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列，分别计算视觉模态的自监督对比损失函数

和音频模态的自监督对比损失函数

；

步骤（4）：基于联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列，获取视觉模态的分类预测结果和音频模态的分类预测结果，同时计算分类预测损失函数

；

步骤（5）：将视觉模态的自监督对比损失函数

、音频模态的自监督对比损失函数

、以及分类预测损失函数

相加，用于联合优化第一视角视频分类网络。

本实例的步骤（1）中接收第一视角视频数据以及视频动作类别信息，并分别提取视频的视觉表示序列以及音频表示序列的具体步骤包括：

步骤（1-1）：接收第一视角视频数据，记为

；

步骤（1-2）：对给定第一视角视频数据以每秒30帧的帧率进行视频帧信息提取；然后，将视频帧序列输入到SlowFast网络，得到序列长度为

，特征维度为2048的视觉特征序列，记为

，

；

步骤（1-3）: 对给定的第一视角视频的音频数据，使用Librosa库提取128个Mel波段的log-Mel光谱图序列，并将其输入到Auditory SlowFast网络，得到序列长度为

，特征维度为2048的音频特征序列，记为

，

；

步骤（1-4）：接收第一视角视频动作类别信息，其中，动词类别信息记为

，这里

表示动词数目，

表示第

个时间节点信息对应的动词类别标签；名词类别信息记为

，这里

表示名词数目，

表示第

个时间节点信息对应的名词类别标签。

本实例的步骤（2）中基于联合表示的交叉注意模块，获取联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列的具体步骤包括：

步骤（2-1）：

计算视觉模态和音频模态的联合表示，如下：

,

这里，

表示多模态联合表示；

步骤（2-2）：计算音频特征与联合表示的关联性，如下：

这里，

为待学习参数矩阵，

表示音频特征与联合表示的关联性矩阵，

为激活函数；

步骤（2-3）：计算视觉特征与联合表示的相关性，如下：

这里，

为待学习参数矩阵，

表示视觉特征与联合表示的关联性矩阵，

为激活函数；

两个模态的联合相关矩阵

和

不仅捕捉了模态间语义相关性还捕捉了模态内语义向量的相关性。联合相关矩阵的相关系数较高表明对应的样本在同一模态和其他模态内具有强相关性。因此，本发明所提出的方法能够有效地利用模态间关系以及模态内关系的互补性，从而提高系统性能。

步骤（2-4）：计算音频模态和视觉模态的注意力权值，如下：

这里

,

,

均为可学习的参数矩阵，

为预先定义的参数，

表示音频模态的注意力矩阵，

为视觉模态的注意力矩阵，

为激活函数；

步骤（2-5）：基于音频模态和视觉模态的注意力矩阵，计算联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列：

这里

和

为可学习的参数矩阵，

为联合表示增强的音频特征表示序列，

为联合表示增强的视觉特征表示序列。

本实施例中步骤（3）基于联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列，分别计算视觉模态的自监督对比损失函数

和音频模态的自监督对比损失函数

的具体步骤包括：

步骤（3-1）：由于多模态特征包含了来自整个视频的信息，通过时间维度上进行平均池化，得到每个模态的全局特征向量：

这里

表示时序维度上的平均池化操作，

表示音频全局特征表示，

表示视觉全局特征表示；

步骤（3-2）：对于每个输入视频

，随机抽取动作类别相同的正样本视频，记为

和动作类别不同的负样本视频,记为

。而后分别对每个模态的多模态特征进行对比学习：

这里

表示正样本视频

的音频信息，

表示正样本视频

的全局音频特征表示，

表示负样本视频

的音频信息，

表示负样本视频

的全局音频特征表示，

为由全连接层和ReLU激活函数组成的映射函数，

为预定义的参数，

表示声音模态的对比学习损失函数；

这里

表示正样本视频

的视觉信息，

表示正样本视频

的全局视觉特征表示，

表示负样本视频

的视觉信息，

表示负样本视频

的全局视觉特征表示，

为由全连接层和ReLU激活函数组成的映射函数，

为预定义的参数，

表示视觉模态的对比学习损失函数。

本实施例中步骤（4）基于联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列，获取视觉模态的分类预测结果和音频模态的分类预测结果，同时计算分类预测损失函数

的具体步骤包括：

步骤（4-1）：将联合表示增强的视觉特征表示序列

分别输入到动作动词预测分类器

和动作名词预测分类器

中，得到视觉模态动词预测结果，记为

，以及视觉模态名词预测结果，记为

;注意：这里

和

均有一层全连接层网络和Softmax函数组成；

步骤（4-2）：将联合表示增强的音频特征表示序列

分别输入到动作动词预测分类器

和动作名词预测分类器

中，得到音频模态动词预测结果，记为

，以及音频模态名词预测结果，记为

;

步骤（4-3）：依据视觉和音频模态动名词序列预测结果，计算分类损失函数

：

这里

表示交叉熵损失函数，

表示音频模态动词预测结果

的第

个时间节点对应的预测结果，

表示音频模态名词预测结果

的第

个时间节点对应的预测结果，

表示视觉模态动词预测结果

的第

个时间节点对应的预测结果，

表示视觉模态名词预测结果

的第

个时间节点对应的预测结果。

本实施例中步骤（5）将视觉模态的自监督对比损失函数

、音频模态的自监督对比损失函数

、以及分类预测损失函数

相加，用于联合优化第一视角视频分类网络的具体步骤包括：

步骤（5-1）：计算最终损失函数

：

步骤（5-2）：基于损失函数

，采用Adam优化器进行网络参数优化更新。

实施例二

本实施例提供了一种多模态第一视角视频分类系统。

一种多模态第一视角视频分类系统，包括：

此处需要说明的是，上述分类模块和第一视角视频分类网络训练模块与实施例一中的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的多模态第一视角视频分类方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的多模态第一视角视频分类方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（RandomAccessMemory，RAM）等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态第一视角视频分类方法，其特征在于，包括：

2.根据权利要求1所述的多模态第一视角视频分类方法，其特征在于，所述提取视频数据的视觉表示序列和音频表示序列的过程具体包括：

3.根据权利要求1所述的多模态第一视角视频分类方法，其特征在于，所述得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列的过程具体包括：

4.根据权利要求1所述的多模态第一视角视频分类方法，其特征在于，计算视觉模态的自监督对比损失函数的具体过程包括：

5.根据权利要求1所述的多模态第一视角视频分类方法，其特征在于，计算音频模态的自监督对比损失函数的过程具体包括：

6.根据权利要求1所述的多模态第一视角视频分类方法，其特征在于，所述得到视觉模态的分类预测结果和得到音频模态的分类预测结果的过程具体包括：

7.根据权利要求1所述的多模态第一视角视频分类方法，其特征在于，所述用于联合优化第一视角视频分类网络，得到已训练的第一视角视频分类网络的具体过程包括：

8.一种多模态第一视角视频分类系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的多模态第一视角视频分类方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的多模态第一视角视频分类方法中的步骤。