CN115713722A - 一种多模态第一视角视频分类方法及系统 - Google Patents

一种多模态第一视角视频分类方法及系统 Download PDF

Info

Publication number
CN115713722A
CN115713722A CN202310016150.0A CN202310016150A CN115713722A CN 115713722 A CN115713722 A CN 115713722A CN 202310016150 A CN202310016150 A CN 202310016150A CN 115713722 A CN115713722 A CN 115713722A
Authority
CN
China
Prior art keywords
visual
audio
representation
sequence
joint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310016150.0A
Other languages
English (en)
Other versions
CN115713722B (zh
Inventor
刘萌
张风雷
宋雪萌
许海振
郭杰
王少华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202310016150.0A priority Critical patent/CN115713722B/zh
Publication of CN115713722A publication Critical patent/CN115713722A/zh
Application granted granted Critical
Publication of CN115713722B publication Critical patent/CN115713722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,提供了一种多模态第一视角视频分类方法及系统。该方法包括,获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算视觉模态的自监督对比损失函数和音频模态的自监督对比损失函数;计算视觉模态的分类预测结果和音频模态的分类预测结果;计算分类预测损失函数;构建联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。本发明针对每个模态应用自监督对比学习来增强模态内特征,使这些特征不受与动作有关的干扰因素的影响,提升了动作分类的精准度。

Description

一种多模态第一视角视频分类方法及系统
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种多模态第一视角视频分类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着多传感器可穿戴设备的出现,如,GoPro和谷歌Glass,第一视角的音视频录制在极限运动、健康监测、生活记录和家庭自动化等许多领域变得流行起来。因此,计算机视觉领域对收集大规模数据集以及开发新的或调整现有方法以适应第一人称视角场景重新产生了兴趣,尤其是动作分类任务。目前,大多第一视角视频动作分类方法仅考虑视觉模态信息用以区分不同动作,但是它们忽视了音频信息对于第一视角视频动作分类的重要性。第一视角视频中蕴含了丰富的声音,这些声音来自手与物体之间的交互,以及可穿戴麦克风与正在进行的动作的近距离接触。特别地,音频是某些动作(例如,“洗” 和“煎”)以及动作中的对象 (例如,“放盘子”) 的主要鉴别器。有时,声音的时间进展(或变化)可以分离视觉上模糊的动作(例如,“打开水龙头”与“关闭水龙头”)。音频也可以捕捉在可穿戴相机的视野之外,但可以听到的动作(例如,“吃”可以听到但看不到)。由此可见,将音频信息整合到第一视角视频动作分类中是十分必要的。
据前期调研可知,目前有两个基于音频-视觉的第一视角动作分类方法。其中,一个方法采用传统特性融合方式将多个模态特征拼接起来,用于预测最终输出。虽然该融合机制允许低级别模态特征交互,但它未能充分挖掘模态间交互关系,因此性能改善有限。另一个方法,利用基于Transformer的交叉注意来捕捉跨模态关系,但它们未能有效利用视觉和音频间的互补关系。此外,最重要的是,上述方法不能很好地规避背景等干扰因素的影响,容易对发生在不同场景下的同一动作得到不同分类结果。比如,“吃”可能发生在完全不同背景和语境的不同地点。
因此,如何改进多模态学习范式以及利用不同模态间的互补性关系进行第一视角视频动作分类成为一个亟待探究的问题。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种多模态第一视角视频分类方法及系统,其针对每个模态应用自监督对比学习,来增强模态内特征表示,使这些特征不受与动作有关的干扰因素的影响;同时,有效地利用不同模态之间的互补关系进行动作分类,显著提升动作分类的精准度。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种多模态第一视角视频分类方法。
一种多模态第一视角视频分类方法,包括:
获取视频数据,采用已训练的第一视角视频分类网络,得到视频动作类别;
所述第一视角视频分类网络的训练过程包括:获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;基于视觉表示序列和音频表示序列,采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数,计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数;根据联合表示增强的视觉特征表示序列,得到视觉模态的分类预测结果;根据联合表示增强的音频特征表示序列,得到音频模态的分类预测结果;根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别,计算分类预测损失函数;将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加,得到联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。
进一步地,所述提取视频数据的视觉表示序列和音频表示序列的过程具体包括:
提取视频数据的视频帧序列,将视频帧序列输入SlowFast网络,得到视觉表示序列;
提取视频数据的音频数据,提取音频数据中Mel波段的log-Mel光谱图序列,将log-Mel光谱图序列输入Auditory SlowFast网络,得到音频表示序列。
进一步地,所述得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列的过程具体包括:
根据视觉表示序列和音频表示序列,计算视觉模态和音频模态的联合表示;
根据视觉模态和音频模态的联合表示,分别计算视觉特征与联合表示的联合相关矩阵和音频特征与联合表示的联合相关矩阵;
根据视觉特征与联合表示的联合相关矩阵和视觉表示序列,计算视觉模态的注意力权值;根据音频特征与联合表示的联合相关矩阵和音频表示序列,计算音频模态的注意力权值;
根据视觉模态的注意力权值和视觉表示序列,计算联合表示增强的视觉特征表示序列;根据音频模态的注意力权值和音频表示序列,计算联合表示增强的音频特征表示序列。
进一步地,计算视觉模态的自监督对比损失函数的具体过程包括:
对联合表示增强的视觉特征表示序列在时间维度上进行平均池化,得到视觉模态的全局特征向量;
对于每个输入的视频数据,随机抽取与该视频数据对应的视频动作类别相同的正样本视频数据和不同的负样本视频数据;
计算正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量;
采用该视频数据视觉模态的全局特征向量、正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量,对视频模态进行对比学习,得到视觉模态的自监督对比损失函数。
进一步地,计算音频模态的自监督对比损失函数的过程具体包括:
对联合表示增强的音频特征表示序列在时间维度上进行平均池化,得到音频模态的全局特征向量;
对于每个输入的视频数据,随机抽取与该视频数据对应的视频动作类别相同的正样本视频数据和不同的负样本视频数据;
计算正样本视频数据音频模态的全局特征向量和不同的负样本视频数据音频模态的全局特征向量;
采用该视频数据音频模态的全局特征向量、正样本视频数据音频模态的全局特征向量和不同的负样本视频数据音频模态的全局特征向量,对音频模态进行对比学习,得到音频模态的自监督对比损失函数。
进一步地,所述得到视觉模态的分类预测结果和得到音频模态的分类预测结果的过程具体包括:
将联合表示增强的视觉特征表示序列分别输入动作动词预测分类器和动作名词预测分类器中,得到视觉模态的分类预测结果,所述视觉模态的分类预测结果包括视觉模态动词预测结果和视觉模态名词预测结果;
将联合表示增强的音频特征表示序列分别输入动作动词预测分类器和动作名词预测分类器中,得到音频模态的分类预测结果,所述音频模态的分类预测结果包括:音频模态动词预测结果和音频模态名词预测结果。
进一步地,所述用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络的具体过程包括:
基于联合损失函数,采用Adam优化器进行第一视角视频分类网络的参数优化更新,直到第一视角视频分类网络的参数满足设定的阈值,得到已训练的第一视角视频分类网络。
本发明的第二个方面提供一种多模态第一视角视频分类系统。
一种多模态第一视角视频分类系统,包括:
分类模块,其被配置为:获取视频数据,采用已训练的第一视角视频分类网络,得到视频动作类别;
第一视角视频分类网络训练模块,其被配置为:获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;基于视觉表示序列和音频表示序列,采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数,计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数;根据联合表示增强的视觉特征表示序列,得到视觉模态的分类预测结果;根据联合表示增强的音频特征表示序列,得到音频模态的分类预测结果;根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别,计算分类预测损失函数;将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加,得到联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的多模态第一视角视频分类方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的多模态第一视角视频分类方法中的步骤。
与现有技术相比,本发明的有益效果是:
(1)本发明依靠基于联合表示的交叉注意融合机制来有效地编码多模态信息,既有助于捕获跨模态间语义关系,还可以大幅减少不同模态间的异质性,从而进一步提高系统性能。
(2)本发明通过应用自监督对比学习增强了各模态内的特征表示能力,确保来自不同的视频的相同动作具有相似的特征表示;
(3)本发明引入集成多模态自监督对比学习和基于联合表示的多模态融合机制的第一视角视频动作分类网络,增强各个模态内部特征表示的同时,加强了多模态互补性信息的挖掘,继而多模态第一视角视频动作分类方法的精准度。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一示出的多模态第一视角视频分类方法的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
实施例一
如图1所示,本实施例提供了一种多模态第一视角视频分类方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
获取视频数据,采用已训练的第一视角视频分类网络,得到视频动作类别;
所述第一视角视频分类网络的训练过程包括:获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;基于视觉表示序列和音频表示序列,采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数,计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数;根据联合表示增强的视觉特征表示序列,得到视觉模态的分类预测结果;根据联合表示增强的音频特征表示序列,得到音频模态的分类预测结果;根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别,计算分类预测损失函数;将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加,得到联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。
下面将结合本实施例中的附图,对本实施例中的技术方案进行清楚、完整地描述。如图1所示,第一视角视频分类网络的训练过程,包括:
步骤(1):接收视频数据以及视频动作类别信息,并分别提取视频的视觉表示序列以及音频表示序列;
步骤(2):基于联合表示的交叉注意模块,获取联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列;
步骤(3):基于联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列,分别计算视觉模态的自监督对比损失函数
Figure 881162DEST_PATH_IMAGE001
和音频模态的自监督对比损失函数
Figure 402273DEST_PATH_IMAGE002
步骤(4):基于联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列,获取视觉模态的分类预测结果和音频模态的分类预测结果,同时计算分类预测损失函数
Figure 838939DEST_PATH_IMAGE003
步骤(5):将视觉模态的自监督对比损失函数
Figure 824213DEST_PATH_IMAGE001
、音频模态的自监督对比损失函数
Figure 71654DEST_PATH_IMAGE002
、以及分类预测损失函数
Figure 142379DEST_PATH_IMAGE003
相加,用于联合优化第一视角视频分类网络。
本实例的步骤(1)中接收第一视角视频数据以及视频动作类别信息,并分别提取视频的视觉表示序列以及音频表示序列的具体步骤包括:
步骤(1-1):接收第一视角视频数据,记为
Figure 388595DEST_PATH_IMAGE004
步骤(1-2):对给定第一视角视频数据以每秒30帧的帧率进行视频帧信息提取;然后,将视频帧序列输入到SlowFast网络,得到序列长度为
Figure 228375DEST_PATH_IMAGE005
,特征维度为2048的视觉特征序列,记为
Figure 646718DEST_PATH_IMAGE006
Figure 939159DEST_PATH_IMAGE007
步骤(1-3): 对给定的第一视角视频的音频数据,使用Librosa库提取128个Mel波段的log-Mel光谱图序列,并将其输入到Auditory SlowFast网络,得到序列长度为
Figure 983208DEST_PATH_IMAGE005
,特征维度为2048的音频特征序列,记为
Figure 677494DEST_PATH_IMAGE008
Figure 266739DEST_PATH_IMAGE009
步骤(1-4):接收第一视角视频动作类别信息,其中,动词类别信息记为
Figure 312055DEST_PATH_IMAGE010
,这里
Figure 894215DEST_PATH_IMAGE011
表示动词数目,
Figure 443008DEST_PATH_IMAGE012
表示第
Figure 468733DEST_PATH_IMAGE013
个时间节点信息对应的动词类别标签;名词类别信息记为
Figure 735766DEST_PATH_IMAGE014
,这里
Figure 856038DEST_PATH_IMAGE015
表示名词数目,
Figure 524916DEST_PATH_IMAGE016
表示第
Figure 721542DEST_PATH_IMAGE013
个时间节点信息对应的名词类别标签。
本实例的步骤(2)中基于联合表示的交叉注意模块,获取联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列的具体步骤包括:
步骤(2-1):
计算视觉模态和音频模态的联合表示,如下:
Figure 397243DEST_PATH_IMAGE017
,
Figure 399834DEST_PATH_IMAGE018
这里,
Figure 860903DEST_PATH_IMAGE019
表示多模态联合表示;
步骤(2-2):计算音频特征与联合表示的关联性,如下:
Figure 25168DEST_PATH_IMAGE020
这里,
Figure 453744DEST_PATH_IMAGE021
为待学习参数矩阵,
Figure 932130DEST_PATH_IMAGE022
表示音频特征与联合表示的关联性矩阵,
Figure 310022DEST_PATH_IMAGE023
为激活函数;
步骤(2-3):计算视觉特征与联合表示的相关性,如下:
Figure 97718DEST_PATH_IMAGE024
这里,
Figure 561060DEST_PATH_IMAGE025
为待学习参数矩阵,
Figure 843137DEST_PATH_IMAGE026
表示视觉特征与联合表示的关联性矩阵,
Figure 528065DEST_PATH_IMAGE023
为激活函数;
两个模态的联合相关矩阵
Figure 971816DEST_PATH_IMAGE022
Figure 188034DEST_PATH_IMAGE026
不仅捕捉了模态间语义相关性还捕捉了模态内语义向量的相关性。联合相关矩阵的相关系数较高表明对应的样本在同一模态和其他模态内具有强相关性。因此,本发明所提出的方法能够有效地利用模态间关系以及模态内关系的互补性,从而提高系统性能。
步骤(2-4):计算音频模态和视觉模态的注意力权值,如下:
Figure 251630DEST_PATH_IMAGE027
Figure 541797DEST_PATH_IMAGE028
这里
Figure 218766DEST_PATH_IMAGE029
,
Figure 843652DEST_PATH_IMAGE030
,
Figure 529848DEST_PATH_IMAGE031
均为可学习的参数矩阵,
Figure 674521DEST_PATH_IMAGE032
为预先定义的参数,
Figure 787971DEST_PATH_IMAGE033
表示音频模态的注意力矩阵,
Figure 900152DEST_PATH_IMAGE034
为视觉模态的注意力矩阵,
Figure 62143DEST_PATH_IMAGE035
为激活函数;
步骤(2-5):基于音频模态和视觉模态的注意力矩阵,计算联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列:
Figure 389219DEST_PATH_IMAGE036
Figure 860521DEST_PATH_IMAGE037
这里
Figure 945152DEST_PATH_IMAGE038
Figure 973150DEST_PATH_IMAGE039
为可学习的参数矩阵,
Figure 341684DEST_PATH_IMAGE040
为联合表示增强的音频特征表示序列,
Figure 734619DEST_PATH_IMAGE041
为联合表示增强的视觉特征表示序列。
本实施例中步骤(3)基于联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列,分别计算视觉模态的自监督对比损失函数
Figure 634442DEST_PATH_IMAGE001
和音频模态的自监督对比损失函数
Figure 387503DEST_PATH_IMAGE002
的具体步骤包括:
步骤(3-1):由于多模态特征包含了来自整个视频的信息,通过时间维度上进行平均池化,得到每个模态的全局特征向量:
Figure 361275DEST_PATH_IMAGE042
Figure 987429DEST_PATH_IMAGE043
这里
Figure 295919DEST_PATH_IMAGE044
表示时序维度上的平均池化操作,
Figure 603404DEST_PATH_IMAGE045
表示音频全局特征表示,
Figure 759579DEST_PATH_IMAGE046
表示视觉全局特征表示;
步骤(3-2):对于每个输入视频
Figure 743584DEST_PATH_IMAGE004
,随机抽取动作类别相同的正样本视频,记为
Figure 290103DEST_PATH_IMAGE047
和动作类别不同的负样本视频,记为
Figure 198016DEST_PATH_IMAGE048
。而后分别对每个模态的多模态特征进行对比学习:
Figure 401508DEST_PATH_IMAGE049
这里
Figure 307147DEST_PATH_IMAGE050
表示正样本视频
Figure 403279DEST_PATH_IMAGE047
的音频信息,
Figure 301833DEST_PATH_IMAGE051
表示正样本视频
Figure 432600DEST_PATH_IMAGE047
的全局音频特征表示,
Figure 509141DEST_PATH_IMAGE052
表示负样本视频
Figure 826990DEST_PATH_IMAGE048
的音频信息,
Figure 529235DEST_PATH_IMAGE053
表示负样本视频
Figure 452192DEST_PATH_IMAGE048
的全局音频特征表示,
Figure 761951DEST_PATH_IMAGE054
为由全连接层和ReLU激活函数组成的映射函数,
Figure 754046DEST_PATH_IMAGE055
为预定义的参数,
Figure 807453DEST_PATH_IMAGE002
表示声音模态的对比学习损失函数;
Figure 584916DEST_PATH_IMAGE056
这里
Figure 65576DEST_PATH_IMAGE057
表示正样本视频
Figure 810547DEST_PATH_IMAGE047
的视觉信息,
Figure 339748DEST_PATH_IMAGE058
表示正样本视频
Figure 299614DEST_PATH_IMAGE047
的全局视觉特征表示,
Figure 138126DEST_PATH_IMAGE059
表示负样本视频
Figure 917863DEST_PATH_IMAGE048
的视觉信息,
Figure 250756DEST_PATH_IMAGE060
表示负样本视频
Figure 65128DEST_PATH_IMAGE048
的全局视觉特征表示,
Figure 74541DEST_PATH_IMAGE054
为由全连接层和ReLU激活函数组成的映射函数,
Figure 279257DEST_PATH_IMAGE055
为预定义的参数,
Figure 665108DEST_PATH_IMAGE001
表示视觉模态的对比学习损失函数。
本实施例中步骤(4)基于联合表示增强的视觉特征表示序列、联合表示增强的音频特征表示序列,获取视觉模态的分类预测结果和音频模态的分类预测结果,同时计算分类预测损失函数
Figure 271670DEST_PATH_IMAGE003
的具体步骤包括:
步骤(4-1):将联合表示增强的视觉特征表示序列
Figure 469563DEST_PATH_IMAGE041
分别输入到动作动词预测分类器
Figure 161575DEST_PATH_IMAGE061
和动作名词预测分类器
Figure 164166DEST_PATH_IMAGE062
中,得到视觉模态动词预测结果,记为
Figure 874502DEST_PATH_IMAGE063
,以及视觉模态名词预测结果,记为
Figure 38767DEST_PATH_IMAGE064
;注意:这里
Figure 218076DEST_PATH_IMAGE061
Figure 945729DEST_PATH_IMAGE062
均有一层全连接层网络和Softmax函数组成;
步骤(4-2):将联合表示增强的音频特征表示序列
Figure 323621DEST_PATH_IMAGE040
分别输入到动作动词预测分类器
Figure 862050DEST_PATH_IMAGE061
和动作名词预测分类器
Figure 512343DEST_PATH_IMAGE062
中,得到音频模态动词预测结果,记为
Figure 856736DEST_PATH_IMAGE065
,以及音频模态名词预测结果,记为
Figure 26818DEST_PATH_IMAGE066
;
步骤(4-3):依据视觉和音频模态动名词序列预测结果,计算分类损失函数
Figure 798465DEST_PATH_IMAGE003
Figure 936054DEST_PATH_IMAGE067
这里
Figure 756242DEST_PATH_IMAGE068
表示交叉熵损失函数,
Figure 108726DEST_PATH_IMAGE069
表示音频模态动词预测结果
Figure 238225DEST_PATH_IMAGE065
的第
Figure 676160DEST_PATH_IMAGE013
个时间节点对应的预测结果,
Figure 300039DEST_PATH_IMAGE070
表示音频模态名词预测结果
Figure 507029DEST_PATH_IMAGE066
的第
Figure 807430DEST_PATH_IMAGE013
个时间节点对应的预测结果,
Figure 732660DEST_PATH_IMAGE071
表示视觉模态动词预测结果
Figure 894651DEST_PATH_IMAGE063
的第
Figure 221728DEST_PATH_IMAGE013
个时间节点对应的预测结果,
Figure 427450DEST_PATH_IMAGE072
表示视觉模态名词预测结果
Figure 777660DEST_PATH_IMAGE064
的第
Figure 805659DEST_PATH_IMAGE013
个时间节点对应的预测结果。
本实施例中步骤(5)将视觉模态的自监督对比损失函数
Figure 180051DEST_PATH_IMAGE001
、音频模态的自监督对比损失函数
Figure 635303DEST_PATH_IMAGE002
、以及分类预测损失函数
Figure 207230DEST_PATH_IMAGE003
相加,用于联合优化第一视角视频分类网络的具体步骤包括:
步骤(5-1):计算最终损失函数
Figure 773341DEST_PATH_IMAGE073
Figure 261960DEST_PATH_IMAGE074
步骤(5-2):基于损失函数
Figure 888113DEST_PATH_IMAGE073
,采用Adam优化器进行网络参数优化更新。
实施例二
本实施例提供了一种多模态第一视角视频分类系统。
一种多模态第一视角视频分类系统,包括:
分类模块,其被配置为:获取视频数据,采用已训练的第一视角视频分类网络,得到视频动作类别;
第一视角视频分类网络训练模块,其被配置为:获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;基于视觉表示序列和音频表示序列,采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数,计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数;根据联合表示增强的视觉特征表示序列,得到视觉模态的分类预测结果;根据联合表示增强的音频特征表示序列,得到音频模态的分类预测结果;根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别,计算分类预测损失函数;将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加,得到联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。
此处需要说明的是,上述分类模块和第一视角视频分类网络训练模块与实施例一中的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的多模态第一视角视频分类方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的多模态第一视角视频分类方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多模态第一视角视频分类方法,其特征在于,包括:
获取视频数据,采用已训练的第一视角视频分类网络,得到视频动作类别;
所述第一视角视频分类网络的训练过程包括:获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;基于视觉表示序列和音频表示序列,采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数,计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数;根据联合表示增强的视觉特征表示序列,得到视觉模态的分类预测结果;根据联合表示增强的音频特征表示序列,得到音频模态的分类预测结果;根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别,计算分类预测损失函数;将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加,得到联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。
2.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,所述提取视频数据的视觉表示序列和音频表示序列的过程具体包括:
提取视频数据的视频帧序列,将视频帧序列输入SlowFast网络,得到视觉表示序列;
提取视频数据的音频数据,提取音频数据中Mel波段的log-Mel光谱图序列,将log-Mel光谱图序列输入Auditory SlowFast网络,得到音频表示序列。
3.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,所述得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列的过程具体包括:
根据视觉表示序列和音频表示序列,计算视觉模态和音频模态的联合表示;
根据视觉模态和音频模态的联合表示,分别计算视觉特征与联合表示的联合相关矩阵和音频特征与联合表示的联合相关矩阵;
根据视觉特征与联合表示的联合相关矩阵和视觉表示序列,计算视觉模态的注意力权值;根据音频特征与联合表示的联合相关矩阵和音频表示序列,计算音频模态的注意力权值;
根据视觉模态的注意力权值和视觉表示序列,计算联合表示增强的视觉特征表示序列;根据音频模态的注意力权值和音频表示序列,计算联合表示增强的音频特征表示序列。
4.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,计算视觉模态的自监督对比损失函数的具体过程包括:
对联合表示增强的视觉特征表示序列在时间维度上进行平均池化,得到视觉模态的全局特征向量;
对于每个输入的视频数据,随机抽取与该视频数据对应的视频动作类别相同的正样本视频数据和不同的负样本视频数据;
计算正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量;
采用该视频数据视觉模态的全局特征向量、正样本视频数据视觉模态的全局特征向量和不同的负样本视频数据视觉模态的全局特征向量,对视频模态进行对比学习,得到视觉模态的自监督对比损失函数。
5.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,计算音频模态的自监督对比损失函数的过程具体包括:
对联合表示增强的音频特征表示序列在时间维度上进行平均池化,得到音频模态的全局特征向量;
对于每个输入的视频数据,随机抽取与该视频数据对应的视频动作类别相同的正样本视频数据和不同的负样本视频数据;
计算正样本视频数据音频模态的全局特征向量和不同的负样本视频数据音频模态的全局特征向量;
采用该视频数据音频模态的全局特征向量、正样本视频数据音频模态的全局特征向量和不同的负样本视频数据音频模态的全局特征向量,对音频模态进行对比学习,得到音频模态的自监督对比损失函数。
6.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,所述得到视觉模态的分类预测结果和得到音频模态的分类预测结果的过程具体包括:
将联合表示增强的视觉特征表示序列分别输入动作动词预测分类器和动作名词预测分类器中,得到视觉模态的分类预测结果,所述视觉模态的分类预测结果包括视觉模态动词预测结果和视觉模态名词预测结果;
将联合表示增强的音频特征表示序列分别输入动作动词预测分类器和动作名词预测分类器中,得到音频模态的分类预测结果,所述音频模态的分类预测结果包括:音频模态动词预测结果和音频模态名词预测结果。
7.根据权利要求1所述的多模态第一视角视频分类方法,其特征在于,所述用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络的具体过程包括:
基于联合损失函数,采用Adam优化器进行第一视角视频分类网络的参数优化更新,直到第一视角视频分类网络的参数满足设定的阈值,得到已训练的第一视角视频分类网络。
8.一种多模态第一视角视频分类系统,其特征在于,包括:
分类模块,其被配置为:获取视频数据,采用已训练的第一视角视频分类网络,得到视频动作类别;
第一视角视频分类网络训练模块,其被配置为:获取视频数据和视频动作类别,提取视频数据的视觉表示序列和音频表示序列;基于视觉表示序列和音频表示序列,采用基于联合表示的交叉注意模块,得到联合表示增强的视觉特征表示序列和联合表示增强的音频特征表示序列;计算联合表示增强的视觉特征表示序列对应的视觉模态的自监督对比损失函数,计算联合表示增强的音频特征表示序列对应的音频模态的自监督对比损失函数;根据联合表示增强的视觉特征表示序列,得到视觉模态的分类预测结果;根据联合表示增强的音频特征表示序列,得到音频模态的分类预测结果;根据视觉模态的分类预测结果、音频模态的分类预测结果结合视频动作类别,计算分类预测损失函数;将视觉模态的自监督对比损失函数、音频模态的自监督对比损失函数和分类预测损失函数相加,得到联合损失函数,用于联合优化第一视角视频分类网络,得到已训练的第一视角视频分类网络。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的多模态第一视角视频分类方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的多模态第一视角视频分类方法中的步骤。
CN202310016150.0A 2023-01-06 2023-01-06 一种多模态第一视角视频分类方法及系统 Active CN115713722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310016150.0A CN115713722B (zh) 2023-01-06 2023-01-06 一种多模态第一视角视频分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310016150.0A CN115713722B (zh) 2023-01-06 2023-01-06 一种多模态第一视角视频分类方法及系统

Publications (2)

Publication Number Publication Date
CN115713722A true CN115713722A (zh) 2023-02-24
CN115713722B CN115713722B (zh) 2023-04-25

Family

ID=85236124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310016150.0A Active CN115713722B (zh) 2023-01-06 2023-01-06 一种多模态第一视角视频分类方法及系统

Country Status (1)

Country Link
CN (1) CN115713722B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021092632A2 (en) * 2021-02-26 2021-05-14 Innopeak Technology, Inc. Weakly-supervised text-based video moment retrieval via cross attention modeling
CN112906624A (zh) * 2021-03-12 2021-06-04 合肥工业大学 一种基于音视频多模态时序预测的视频数据特征提取方法
CN113657272A (zh) * 2021-08-17 2021-11-16 山东建筑大学 一种基于缺失数据补全的微视频分类方法及系统
CN113743277A (zh) * 2021-08-30 2021-12-03 上海明略人工智能(集团)有限公司 一种短视频分类方法及系统、设备和存储介质
CN114140708A (zh) * 2021-08-16 2022-03-04 阿里巴巴达摩院(杭州)科技有限公司 视频处理方法、装置及计算机可读存储介质
CN115019237A (zh) * 2022-06-30 2022-09-06 中国电信股份有限公司 多模态情感分析方法、装置、电子设备及存储介质
CN115131700A (zh) * 2022-06-24 2022-09-30 电子科技大学 弱监督音视频内容解析的双路层次化混合模型的训练方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021092632A2 (en) * 2021-02-26 2021-05-14 Innopeak Technology, Inc. Weakly-supervised text-based video moment retrieval via cross attention modeling
CN112906624A (zh) * 2021-03-12 2021-06-04 合肥工业大学 一种基于音视频多模态时序预测的视频数据特征提取方法
CN114140708A (zh) * 2021-08-16 2022-03-04 阿里巴巴达摩院(杭州)科技有限公司 视频处理方法、装置及计算机可读存储介质
CN113657272A (zh) * 2021-08-17 2021-11-16 山东建筑大学 一种基于缺失数据补全的微视频分类方法及系统
CN113743277A (zh) * 2021-08-30 2021-12-03 上海明略人工智能(集团)有限公司 一种短视频分类方法及系统、设备和存储介质
CN115131700A (zh) * 2022-06-24 2022-09-30 电子科技大学 弱监督音视频内容解析的双路层次化混合模型的训练方法
CN115019237A (zh) * 2022-06-30 2022-09-06 中国电信股份有限公司 多模态情感分析方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RUI QIAN ET AL.: "Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models" *
张丽娟: "基于深度多模态特征融合的短视频分类" *

Also Published As

Publication number Publication date
CN115713722B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN109829433B (zh) 人脸图像识别方法、装置、电子设备及存储介质
US20180121733A1 (en) Reducing computational overhead via predictions of subjective quality of automated image sequence processing
CN109522450B (zh) 一种视频分类的方法以及服务器
US11282502B2 (en) Method for utterance generation, smart device, and computer readable storage medium
JP2023537705A (ja) オーディオ・ビジュアル・イベント識別システム、方法、プログラム
Hii et al. Multigap: Multi-pooled inception network with text augmentation for aesthetic prediction of photographs
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN114238690A (zh) 视频分类的方法、装置及存储介质
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
Huu et al. Proposing a recognition system of gestures using MobilenetV2 combining single shot detector network for smart-home applications
CN115114395A (zh) 内容检索及模型训练方法、装置、电子设备和存储介质
CN115879508A (zh) 一种数据处理方法及相关装置
CN111816170A (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及系统
CN112465737B (zh) 图像处理模型训练方法、图像处理方法及图像处理装置
WO2024012360A1 (zh) 一种数据处理方法及相关装置
CN110147464B (zh) 视频推荐方法、装置、电子设备及可读存储介质
CN116881462A (zh) 文本数据处理、文本表示、文本聚类的方法及设备
CN116910201A (zh) 一种对话数据生成方法及其相关设备
CN115713722B (zh) 一种多模态第一视角视频分类方法及系统
CN116561584A (zh) 基于变分量子电路的语音隐私推断方法、装置及存储介质
CN116977885A (zh) 视频文本任务处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant