CN117197708A - 一种基于语言-视觉对比学习的多模态视频行为识别方法 - Google Patents
一种基于语言-视觉对比学习的多模态视频行为识别方法 Download PDFInfo
- Publication number
- CN117197708A CN117197708A CN202310526292.1A CN202310526292A CN117197708A CN 117197708 A CN117197708 A CN 117197708A CN 202310526292 A CN202310526292 A CN 202310526292A CN 117197708 A CN117197708 A CN 117197708A
- Authority
- CN
- China
- Prior art keywords
- video
- language
- network
- frame
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000006399 behavior Effects 0.000 title claims abstract description 11
- 230000000007 visual effect Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000012795 verification Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 24
- 230000003993 interaction Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 abstract 1
- 230000007246 mechanism Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语言视觉对比学习的多模态视频行为识别方法,包括:获取视频数据和其对应标签的语言描述,将语言视频数据集分为训练集和测试集,并对视频数据进行抽帧;使用对比语言图像预训练模型作为基础网络,对该基础网络进行拓展,从而构建基于语言视觉对比学习的视频多模态网络,该视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类;使用训练集中的语言和视频数据对视频多模态网络进行迭代训练从而更新该网络参数,该训练过程包括网络特征的前向传播和误差的反向传播;在每次迭代中更新网络参数,每次迭代中进行训练和验证,根据最优验证集精度保存视频多模态网络的最优权重,使用最优权重初始化视频多模态网络,在测试集上对该网络的性能进行评估。
Description
技术领域
本发明涉及视频行为识别领域,具体涉及一种基于语言视觉对比学习的多模态视频行为识别方法。
背景技术
近年来,基于卷积神经网络或视觉Transformer的视频行为识别模型都取得了极大的发展,被广泛使用。然而,这类模型只关注视觉表示,将类别名称转换为矢量标签以简化训练过程,从而忽略了类别名称的语义信息,导致学习到的特征对训练数据类别的依赖性高、泛化性差。语言视觉对比学习模型的出现给学习泛化性能更强的通用视觉表示带来了希望。这类模型保留类别标签的语言描述作为监督信号,将视觉单模态模型拓展到语言视觉多模态架构,在亿级甚至十亿级别的语言图像对上进行自监督训练,以对比学习的方式同时优化语言和视觉编码器。然而,由于视频中存在时间信息,而且现有的视频数据集的语言描述缺乏,并不能很好地发挥在语言图像数据上预训练的多模态模型的能力。
发明内容
根据现有技术存在的问题,本发明公开了一种基于语言视觉对比学习的多模态视频行为识别方法,具体包括如下步骤:
获取视频数据和其对应标签的语言描述,将语言视频数据集分为训练集和测试集,并对视频数据进行抽帧处理;
使用对比语言图像预训练模型作为基础网络,对该基础网络进行拓展,构建基于语言视觉对比学习的视频多模态网络;所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类;
在所述基础网络的语言分支中插入视觉强化提示模块,用来强化语言特征,在该基础网络的视觉分支中设计两种不同的时序建模方式,其一是在帧级编码器的中间层插入虚拟帧交互模块,其二是在帧级编码器末端插入全局帧融合模块,从而构建出视频多模态网络;
使用训练集中的语言和视频数据对视频多模态网络进行迭代训练从而更新该网络参数,该训练过程包括网络特征的前向传播和误差的反向传播;
在每次迭代中更新网络参数,每次迭代中进行训练和验证,根据最优验证集精度保存视频多模态网络的最优权重,使用最优权重初始化视频多模态网络,在测试集上对该网络的性能进行评估。
进一步的,所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类时:使用余弦相似度的计算过程表示为:
其中:v表示视频特征,表示经过视觉强化提示模块得到的强化语言特征。进一步的,在语言编码器末端插入视觉强化提示模块,使用视觉分支输出的视频类别分词矩阵和视觉分词矩阵/>作为提示信号,通过注意力机制融合其中包含的视觉信息生成两类语言提示/>和/>再对初级语言特征l加权获得强化语言特征/>其计算过程如下:
在视觉分支的帧级编码器中间层插入虚拟帧交互模块时:
每个视频片段包含T个视频帧,虚拟帧交互模块先对每个视频帧的类别分词进行线性变换生成虚拟帧分词,构成虚拟帧分词矩阵再对虚拟帧分词进行时序卷积和虚拟帧分词移位操作,从而对视频的远距离及相邻帧之间的时间依赖进行建模,最后使用残差连接将原始的虚拟帧分词F加入到建模后的虚拟帧分词特征中,其计算过程如下:
在视觉分支中的帧级编码器末端插入全局帧融合模块,将获得的帧级特征集成为视频特征。
由于采用了上述技术方案,本发明提供的一种基于语言视觉对比学习的多模态视频行为识别方法,该方法在帧级编码器中构造了虚拟帧交互模块来显式完成网络中间层的跨帧信息交互,更好地捕获了视频远距离及相邻帧之间的时间依赖信息;在语言分支上构建了视觉强化提示模块,通过注意力机制融合视觉分支输出分词中包含的视觉信息,自动生成适应视频行为识别的语言提示,来强化视频的语言特征;本发明相对于其他方法,在性能上达到了有竞争力的结果,准确率有所提升。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图
图2为本发明中视频多模态网络总体结构图
图3为本发明中视频多模态网络视觉分支结构图
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种基于语言视觉对比学习的多模态视频行为识别方法,具体包括如下步骤:
S1:获取视频及其语言描述,构建语言视频数据集对视频进行抽帧,划分为训练集和测试集,训练集用于模型训练,测试集用于模型测试;
S11:获取视频数据集Kinetics400(K400)及其标签的语言描述,视频数据构成对应的语言描述构成/>将视频数据集分为训练集和测试集;
S12:将语言视频数据集划分为训练集和测试集,训练集用于模型训练,测试集用于模型测试;
S13:对上述视频数据进行片段采样;
S14:使用FFmpeg对采样后的视频片段进行抽帧(帧数为8);
如图2所示:S2:使用对比语言图像预训练模型作为基础网络,对该基础网络进行拓展,构建基于语言视觉对比学习的视频多模态网络,所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类;
S21:视频多模态网络由3个部分构成:视频编码器、语言编码器和视觉强化提示模块。
S22:对于来自语言视频数据集的一个视频片段V及其对应的语言描述L,分别输入视频编码器/>和语言编码器/>中,获得视频特征v和初级语言特征l:
其中,和/>分别是视觉分支输出的类别分词矩阵和视觉分词矩阵,vvis由各帧视觉分词在时间维度上求平均获得。
S23:视觉强化提示模块使用视觉分支输出的视频类别分词矩阵和视觉分词矩阵/>作为提示信号,通过注意力机制融合其中包含的视觉信息生成语言提示,再对初级语言特征l加权获得强化语言特征/>其计算过程如下:
S24:模型使用余弦相似度计算视频特征v和强化语言特征之间的相似性:
如图3所示:S3:在视觉分支中设计了两种不同的时序建模方式,其一是在帧级编码器的中间层插入虚拟帧交互模块,其二是在帧级编码器末端插入全局帧融合模块:
S31:采样帧被划分为互不重叠的块,并映射为块嵌入,对每帧的块嵌入拼接一个可学习的类别分词。
S32:每个视频片段包含T个视频帧,虚拟帧交互模块先对每个视频帧的类别分词进行线性变换生成虚拟帧分词,构成虚拟帧分词矩阵再对虚拟帧分词进行时序卷积(T-Conv)和虚拟帧分词移位(VT-Shift)操作,从而对视频的远距离及相邻帧之间的时间依赖进行建模,最后使用残差连接将原始的虚拟帧分词F加入到建模后的虚拟帧分词特征中,其计算过程如下:
S33:携带跨帧时间交互信息的虚拟帧分词与对应帧的视觉分词/>拼接,共同输入标准的多头自注意力(MHSA)和前馈神经网络(FFN),进行帧内空间建模,时间信息得以进一步的扩散和加强,实现了在网络中间层充分建模视频时序信息的目的,可表示为:
S34:全局帧融合模块使用全局注意力机制将获得的帧级特征集成为视频特征。
S4:使用训练集中的语言和视频数据对视频多模态网络进行迭代训练从而更新该网络参数,该训练过程包括网络特征的前向传播和误差的反向传播;
实施过程中,使用12层的Transformer作为多模态网络的语言编码器,使用ViT-B作为多模态网络的帧级编码器,视觉强化提示模块和全局帧融合模块的层数分别为2和1。每个采样帧都被裁剪为224×224的形状。在K400数据集上训练30个迭代,并将初始学习率设置为8×e-6。
S5:在每次迭代中更新网络参数,每次迭代中进行训练和验证,根据最优验证集精度保存视频多模态网络的最优权重,使用最优权重初始化视频多模态网络,在测试集上对该网络的性能进行评估。
实施过程中,分别采用1clip×1crop和4clips×3crops的策略进行测试。使用Top1识别准确率(%)和模型计算量GFLOPs作为评价标准。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于语言视觉对比学习的多模态视频行为识别方法,其特征在于包括:
获取视频数据和其对应标签的语言描述,将语言视频数据集分为训练集和测试集,并对视频数据进行抽帧处理;
使用对比语言图像预训练模型作为基础网络,对该基础网络进行拓展,构建基于语言视觉对比学习的视频多模态网络;所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类;
在所述基础网络的语言分支中插入视觉强化提示模块,在该基础网络的视觉分支中设计两种不同的时序建模方式,其一是在帧级编码器的中间层插入虚拟帧交互模块,其二是在帧级编码器末端插入全局帧融合模块,从而构建出视频多模态网络;
使用训练集中的语言和视频数据对视频多模态网络进行迭代训练从而更新该网络参数,该训练过程包括网络特征的前向传播和误差的反向传播;
在每次迭代中更新网络参数,每次迭代中进行训练和验证,根据最优验证集精度保存视频多模态网络的最优权重,使用最优权重初始化视频多模态网络,在测试集上对该网络的性能进行评估。
2.根据权利要求1所述的方法,其特征在于:所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类时:使用余弦相似度的计算过程表示为:
其中:v表示视频特征,表示经过视觉强化提示模块得到的强化语言特征。
3.根据权利要求1所述的方法,其特征在于:在语言编码器末端插入视觉强化提示模块,使用视觉分支输出的视频类别分词矩阵和视觉分词矩阵/>作为提示信号,通过注意力机制融合其中包含的视觉信息生成两类语言提示/>和/>再对初级语言特征l加权获得强化语言特征/>其计算过程如下:
4.根据权利要求3所述的方法,其特征在于:在视觉分支的帧级编码器中间层插入虚拟帧交互模块时:
每个视频片段包含T个视频帧,虚拟帧交互模块先对每个视频帧的类别分词进行线性变换生成虚拟帧分词,构成虚拟帧分词矩阵再对虚拟帧分词进行时序卷积和虚拟帧分词移位操作,从而对视频的远距离及相邻帧之间的时间依赖进行建模,最后使用残差连接将原始的虚拟帧分词F加入到建模后的虚拟帧分词特征中,其计算过程如下:
在视觉分支中的帧级编码器末端插入全局帧融合模块,将获得的帧级特征集成为视频特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310526292.1A CN117197708A (zh) | 2023-05-10 | 2023-05-10 | 一种基于语言-视觉对比学习的多模态视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310526292.1A CN117197708A (zh) | 2023-05-10 | 2023-05-10 | 一种基于语言-视觉对比学习的多模态视频行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117197708A true CN117197708A (zh) | 2023-12-08 |
Family
ID=88982440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310526292.1A Pending CN117197708A (zh) | 2023-05-10 | 2023-05-10 | 一种基于语言-视觉对比学习的多模态视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117197708A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709483A (zh) * | 2023-12-15 | 2024-03-15 | 成都考拉悠然科技有限公司 | 用于多模态大语言模型的迭代优化方法及系统 |
-
2023
- 2023-05-10 CN CN202310526292.1A patent/CN117197708A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709483A (zh) * | 2023-12-15 | 2024-03-15 | 成都考拉悠然科技有限公司 | 用于多模态大语言模型的迭代优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN107391646B (zh) | 一种视频图像的语义信息提取方法及装置 | |
CN113516968B (zh) | 一种端到端长时语音识别方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111368545B (zh) | 一种基于多任务学习的命名实体识别方法和装置 | |
CN113936275A (zh) | 一种基于区域特征对齐的无监督域适应语义分割方法 | |
CN113240115B (zh) | 一种生成人脸变化图像模型的训练方法及相关装置 | |
CN117197708A (zh) | 一种基于语言-视觉对比学习的多模态视频行为识别方法 | |
CN116956929B (zh) | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 | |
CN114091466A (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及系统 | |
CN112651324A (zh) | 视频帧语义信息的提取方法、装置及计算机设备 | |
CN115964638A (zh) | 多模态社交数据情感分类方法、系统、终端、设备及应用 | |
Luo et al. | Multi-quartznet: Multi-resolution convolution for speech recognition with multi-layer feature fusion | |
CN117708692A (zh) | 基于双通道图卷积神经网络的实体情感分析方法及系统 | |
CN117058716A (zh) | 基于图像预融合的跨域行为识别方法及装置 | |
CN116738956A (zh) | 一种提示模板生成方法、装置、计算机设备及存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN113160801B (zh) | 语音识别方法、装置以及计算机可读存储介质 | |
CN112530416B (zh) | 语音识别方法、装置、设备和计算机可读介质 | |
CN115408494A (zh) | 一种融合多头注意力对齐的文本匹配方法 | |
CN114595318A (zh) | 一种客服回复质量评价方法及系统 | |
CN113515945B (zh) | 一种获取文本信息的方法、装置、设备及存储介质 | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 | |
CN114911930A (zh) | 一种全局与局部互补的双向注意的视频问答方法与系统 | |
CN113393833A (zh) | 音视频唤醒方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |