CN116226452A - 基于双分支动态蒸馏学习的跨模态视频检索方法及装置 - Google Patents

基于双分支动态蒸馏学习的跨模态视频检索方法及装置 Download PDF

Info

Publication number
CN116226452A
CN116226452A CN202310226304.9A CN202310226304A CN116226452A CN 116226452 A CN116226452 A CN 116226452A CN 202310226304 A CN202310226304 A CN 202310226304A CN 116226452 A CN116226452 A CN 116226452A
Authority
CN
China
Prior art keywords
video
text
branch
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310226304.9A
Other languages
English (en)
Inventor
董建锋
张政
章敏松
陈先客
刘宝龙
王勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202310226304.9A priority Critical patent/CN116226452A/zh
Publication of CN116226452A publication Critical patent/CN116226452A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双分支动态蒸馏学习的跨模态视频检索方法及装置,从一个新的角度来处理跨模态视频检索,即从大规模视觉语言预训练模型中提取泛化知识,并将其转移到任务特定网络。该方法是一个具有动态知识蒸馏的双重学习框架,利用大规模视觉语言模型的知识作为教师来指导学生模型。在知识蒸馏过程中,设计了一个继承分支来吸收教师模型中的知识,同时为了避免大规模预训练模型由于领域差距而导致的性能差异,设计了一个探索分支来探索下游任务的特定属性。本发明提出的网络模型利用双分支结构,能够深度建模文本和对应视频间的相关关系,从而有效解决文本到视频的检索任务。

Description

基于双分支动态蒸馏学习的跨模态视频检索方法及装置
技术领域
本发明涉及视频跨模态检索技术领域,尤其涉及一种基于双分支动态蒸馏学习的跨模态视频检索方法及装置。
背景技术
随着网络视频的爆炸,搜索感兴趣的视频已成为人们日常生活中不可或缺的活动。同时,文本到视频检索,即通过文本查询从大量未标记视频中检索视频,最近引起了越来越多的关注。给定文本查询,跨模态视频检索的任务旨在从一组视频片段中检索具有查询的相关视频。常见解决方案是首先对视频和文本查询进行编码,然后将它们映射到可以直接测量跨模态相似性的公共嵌入空间。目前的工作主要集中在视频编码、文本编码及其跨模态相似性学习。
对于各种跨模态任务,如文本图像检索、视觉问题回答等,越来越多地使用大规模预训练的视觉和语言模型,如对比语言-图像预训练模型(CLIP,contrastive language-image pre-training),并取得较为理想的性能。对于文本到视频检索任务,目前的工作主要集中在特征之上的时间聚合层的学习,这是因为视频主要由图像序列组成,而预训练模型仅对图像-文本对进行训练。因此,直接将以图像-文本训练为主的大规模预训练模型迁移到视频-文本领域,可能会导致数据集上的巨大性能差异。因此,如何有效地将语言-图像预训练大模型的知识转移到跨模态视频检索任务仍然是一个悬而未决的问题。
为此,本发明提出了一个具有动态知识蒸馏的双重学习框架,以将大模型的知识传输到跨模态任务上。具体而言,开发了一个有效的师生网络,其中采用CLIP模型作为教师,并设计了双分支学生模型来获取知识。引入两个学生分支的原因是,由于数据集复杂,CLIP可能会遇到领域差距问题,因此,引入一个继承学生分支以直接吸收特定领域上教师模型的有益知识,而使用另一个探索学生分支仅探索训练数据的任务特定属性。此外,对于人类而言,首先从老师那里学习,一旦形成了自己的初步认知,就会慢慢地进行自我生活的进化学习。因此,设计了一种动态知识蒸馏策略,即继承分支在开始时占据首要位置,而探索分支在训练过程中逐渐变得更加突出。
发明内容
本发明的目的在于针对预训练大模型在应用于下游任务时的性能差异问题,提出一种基于双分支动态蒸馏学习的跨模态视频检索方法及装置。
本发明的目的是通过以下技术方案来实现的:
根据本说明书的第一方面,提供一种基于双分支动态蒸馏学习的跨模态视频检索方法,该方法包括以下步骤:
(1)对查询文本和待检索视频进行特征预提取,得到教师模型的文本特征和视频特征;
(2)对步骤(1)得到的教师模型的文本特征和视频特征进行相似度计算,得到语义相似性分布作为学生模型的继承分支的指导;
(3)对查询文本和待检索视频进行特征预提取,得到学生模型的初始文本特征和初始视频特征;
(4)在学生模型的继承分支上,将步骤(3)得到的初始文本特征进行编码,得到文本特征表示;
(5)在学生模型的继承分支上,将步骤(3)得到的初始视频特征进行特征编码,得到视频特征表示;
(6)将步骤(5)得到的视频特征表示与步骤(4)得到的文本特征表示进行相似度计算,得到继承分支视频逐帧和文本的相似度,并取最大值作为继承分支视频和文本的相似度;
(7)利用步骤(6)得到的视频逐帧和文本的相似度以及视频和文本的相似度,通过公共空间学习算法和动态蒸馏算法来训练继承分支,使其吸收来自教师模型的有益知识;
(8)学生模型的探索分支和继承分支共享相同的网络架构,在经过与继承分支步骤(4)、(5)、(6)相同的特征编码以及相似度计算之后,得到探索分支的视频逐帧和文本的相似度以及视频和文本的相似度;
(9)利用步骤(8)得到的视频逐帧和文本的相似度以及视频和文本的相似度,通过公共空间学习算法来训练探索分支,从而学习跨模态检索任务特定数据集上的知识;
(10)通过步骤(7)、(9)联合训练包括继承分支和探索分支的双分支动态蒸馏学习网络模型,将文本和视频输入到训练好的双分支动态蒸馏网络模型中,实现文本到其相关视频的跨模态检索。
进一步地,步骤(1)中使用不同的预训练模型来提取教师模型文本特征和视频特征,包括:
(1-1)利用预训练的大规模文本特征提取器CLIP模型来提取教师模型文本特征;
(1-2)将视频划分为视频帧序列,利用预训练的大规模图片特征提取器CLIP模型进行视频帧序列的特征提取,得到教师模型视频特征。
进一步地,步骤(2)中,将步骤(1-2)得到的视频逐帧特征序列与步骤(1-1)得到的文本特征输入至教师模型,对于每个视频逐帧特征与文本特征计算余弦相似度,得到语义相似性分布作为学生模型继承分支的指导。
进一步地,步骤(3)中使用不同的预训练模型来提取学生模型文本特征和视频特征,包括:
(3-1)利用预训练的大型文本特征提取器RoBERTa模型提取单词的特征向量集合,得到学生模型初始文本特征;
(3-2)将视频划分为视频帧序列,利用在ImageNet上预训练的2D深度卷积网络ResNet152进行视频帧序列的特征提取,得到学生模型初始视频特征。
进一步地,在步骤(3)中得到的初始文本特征进行编码的方法包括:继承分支利用全连接层以及ReLu激活函数对输入的初始文本特征进行降维,并对降维后的文本特征进行位置嵌入编码后输入到transformer中来捕捉其上下文信息,得到继承分支的文本特征表示。
对在步骤(3)中得到的初始视频特征进行编码的方法包括:继承分支利用全连接层以及ReLu激活函数对输入的初始视频特征进行降维,并对降维后的视频特征进行位置嵌入编码后输入到transformer中来捕捉其上下文信息,并通过全连接层得到继承分支视频的帧尺度特征序列,即继承分支的视频特征表示。
进一步地,步骤(7)中训练继承分支的方法具体为:
以动态蒸馏的方式训练继承分支;通过三元排序损失、对比学习损失来学习视频和文本间的相似度;随着训练的深入,继承分支从教师模型学习到越来越多的知识,动态地调整蒸馏损失的权重,通过动态蒸馏损失来吸收来自教师模型的有益知识。
进一步地,训练继承分支的总损失
Figure BDA0004118580580000031
为:
Figure BDA0004118580580000032
其中,
Figure BDA0004118580580000033
代表继承分支的三元组排序损失,
Figure BDA0004118580580000034
代表继承分支的对比学习损失,
Figure BDA0004118580580000035
代表动态蒸馏损失,λ1为预设权重系数,w为在模型训练期间在线调整的超参数,w=w0g(t),其中w0是初始权重,t表示训练期间的第t个时期,g(t)是衰减函数,包括指数衰减、线性衰减、Sigmoid衰减;所述蒸馏损失
Figure BDA0004118580580000036
的公式为:
Figure BDA0004118580580000037
其中,k表示视频帧数,
Figure BDA0004118580580000038
代表学生模型继承分支中视频每一帧与文本的相似度,
Figure BDA0004118580580000039
代表教师模型中视频每一帧与文本的相似度。
进一步地,步骤(9)中训练探索分支的方法具体为:利用公共空间学习算法训练探索分支,通过三元排序损失和对比学习损失来探索下游任务的特定属性以及学习视频和文本间的相似度。
进一步地,步骤(10)中,所述双分支动态蒸馏学习网络的损失
Figure BDA0004118580580000041
为:
Figure BDA0004118580580000042
其中,
Figure BDA0004118580580000043
代表继承分支的损失,
Figure BDA0004118580580000044
代表探索分支的损失。
根据本说明书的第二方面,提供一种基于双分支动态蒸馏学习的跨模态视频检索装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如第一方面所述的基于双分支动态蒸馏学习的跨模态视频检索方法。
本发明的有益效果是:本发明提供了一种基于双分支动态蒸馏学习的跨模态视频检索方法及装置。方法中视频被表示为帧尺度的特征,将其输入到双分支动态蒸馏学习网络中。双分支动态蒸馏学习网络包括继承分支和探索分支。继承分支计算出视频每一帧与查询文本之间的相似度,并取最大值作为视频和查询文本的相似度。探索分支执行与继承分支相同的操作。最后,使用继承分支相似度和探索分支相似度来联合度量视频与查询文本的相似度。本发明方法利用了双分支动态蒸馏的思想,动态蒸馏有助于处理不同数据集性能高低导致蒸馏效果不佳的问题。由于领域差距,教师模型不能总是在各种数据上表现良好,因此当教师模型表现平平时,继承学生分支可能容易出错。因此,本发明设计了另一个学生分支,称为探索分支,只学习训练集的数据特定属性,而不需要教师模型的任何指导。通过联合训练两分支,可以有效地利用教师模型在表现良好的数据上的优势,同时减轻教师模型性能下降对某些数据的负面影响。与通过参考教师知识来更新其相似性分布的继承分支不同,探索分支被设计为直接从现场训练数据学习数据特定知识。并且本发明模型网络中的继承分支与探索分支对视频表示有着相互辅助的效果,在继承分支对视频理解可能存在不足的情况下,探索分支可以帮助继承分支补充缺失信息。本发明提出的网络模型利用以上的分支结构,能深度建模文本和对应视频间的相关关系,从而有效解决文本到视频的检索任务。
附图说明
图1为本发明提供的一种基于双分支动态蒸馏学习的跨模态视频检索方法示意图。
图2为本发明提供的一种基于双分支动态蒸馏学习的跨模态视频检索装置结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
针对面向实际应用情况的跨模态视频检索的任务,本发明提出了一种基于双分支动态蒸馏学习的跨模态视频检索方法,该方法能有效挖掘视频与其对应文本的相关性。该方法中视频被表示为帧尺度的特征。在对视频转换为帧尺度表示后,将其输入到双分支动态蒸馏网络中。学生模型的继承分支主要吸收来自于大型模型的知识,考虑到由于领域差距,大型模型可能表现平平,进一步开发了一个学生模型的探索分支,以利用任务特定信息的优势。通过以双重学习方式联合训练上述两个分支,模型能够在捕获任务特定属性的同时选择性地从教师模型中获取适当的知识。双分支动态蒸馏学习网络包括继承分支和探索分支,它们分别以继承和探索的方式学习视频表示,并且两个相似性学习分支存在信息互补。继承分支与探索分支同时计算视频和文本的相似度。最后,使用继承分支相似度和探索分支相似度来联合度量视频与查询文本的相似度。
如图1所示,本发明实施例提供的一种基于双分支动态蒸馏学习的跨模态视频检索方法,具体步骤如下:
(1)利用不同的特征提取方法分别提取教师模型视频和文本这两种模态的特征。
(1-1)给定一句由nq个单词所组成的句子,使用对比语言-图像预训练模型(CLIPText Encoder模型)来提取句子的特征向量qt作为文本的初始特征。
(1-2)给定一个视频,首先预先指定间隔为1.5秒的视频帧序列,得到k个视频帧。使用对比语言-图像预训练模型(在WebImageText上预训练的CLIP Image Encoder模型)进行视频帧序列的特征提取,
Figure BDA0004118580580000051
作为视频的初始特征向量集合,
Figure BDA0004118580580000052
表示第k个视频帧的初始特征向量。
(2)将步骤(1-2)中得到的视频逐帧特征序列Ft与步骤(1-1)得到的文本特征表示qt输入至教师模型,进行相似度计算,对于Ft中的每个视频逐帧特征
Figure BDA0004118580580000053
与qt计算余弦相似度,得到语义相似性分布Ct作为学生模型继承分支的指导,即:
Figure BDA0004118580580000054
(3)利用不同的特征提取方法分别提取学生模型视频和文本这两种模态的特征。
(3-1)给定一句由nq个单词所组成的句子,使用预训练的RoBERTa模型来提取单词的特征向量集合
Figure BDA0004118580580000055
作为文本的初始特征,
Figure BDA0004118580580000056
表示第nq个单词的特征向量。
(3-2)给定一个视频,首先预先指定间隔为1.5秒的视频帧序列,得到k个视频帧。使用在ImageNet上预训练的2D深度卷积网络ResNet152进行视频帧序列的特征提取,V={v1,v2,...,vk}作为视频的初始特征向量集合,vk表示第k个视频帧的初始特征向量。
通过上述步骤的特征提取,分别得到了视频和文本的初始特征,接下来需要对其进行更深层次的特征表示。
(4)将步骤(3)中得到的初始文本特征输入到学生模型的继承分支的句子特征表示编码模块进行编码,具体步骤如下:
(4-1)通过全连接层(FC)以及ReLu激活函数将初始文本特征Q进行降维(从768维降维至384维),并对降维后的文本特征进行位置嵌入编码(PE)。
(4-2)将步骤(4-1)中得到的文本特征输入到transformer中来捕捉其上下文信息,在transformer中,文本特征依次通过多头自注意力层以及前馈层,并且上述两编码层都附带了残差连接和层归一化操作,即:
Q′=Transformer(ReLu(FC(Q))+PE)
以上公式中Transformer代表标准transformer模块,PE代表位置嵌入编码模块。
(4-3)通过注意力机制将步骤(4-2)得到的文本特征
Figure BDA0004118580580000061
聚合为单一文本特征向量。使用权重向量w与Q′进行点乘并通过Softmax层,得到nq个权重αq。使用计算出的权重对文本特征Q′进行加权和,得到最终的继承分支的文本特征表示qs,即:
Figure BDA0004118580580000062
其中qi为文本特征向量Q′中的第i个特征值。
(5)将步骤(3)中得到的初始视频特征输入到学生模型的继承分支的视频特征表示编码模块进行编码,具体步骤如下:
(5-1)通过全连接层(FC)以及ReLu激活函数将初始视频特征V进行降维(从3072维降维至384维),并对降维后的视频特征进行位置嵌入编码(PE)。
(5-2)将步骤(5-1)中得到的视频特征输入到与步骤(4-2)中结构相同的transformer中来捕捉其上下文信息,并通过全连接层(FC)得到继承分支视频的帧尺度特征序列,即继承分支的视频特征表示Fs,公式如下:
Fs=FC(Transformer(ReLu(FC(V))+PE))
以上步骤中继承分支和探索分支共享相同的网络架构,句子特征表示编码模块和视频特征表示编码模块所使用的全连接层(FC)、位置嵌入编码(PE)以及transformer模块的结构均相同,但只有全连接层(FC)共享参数,其余都不共享参数。探索分支经过与继承分支相同步骤的编码之后,得到了探索分支的文本特征表示
Figure BDA0004118580580000063
和探索分支的视频特征表示
Figure BDA0004118580580000064
通过以上步骤,得到了继承分支含义文本特征表示
Figure BDA0004118580580000065
探索分支的文本特征表示
Figure BDA0004118580580000066
继承分支的视频特征表示
Figure BDA0004118580580000067
以及探索分支的视频特征表示
Figure BDA0004118580580000068
大规模预训练视觉和语言模型的使用越来越多,例如对比语言-图像预训练模型(CLIP),然而CLIP特征可能会导致不同数据集上的巨大性能差异。所以本发明构建包括继承分支和探索分支的双分支动态蒸馏学习网络模型;通过动态蒸馏的方法,引入了外部大型模型的知识来帮助衡量文本对应视频之间的相似度。通过双分支的方法来捕捉任务特定的属性。该计算方式基于一个假设:人类首先从老师那里学习,一旦形成了自己的初步认知,就会慢慢地进行自我生活的进化学习。因此,设计了一种动态知识蒸馏策略,即继承分支在开始时占据首要位置,而探索分支在训练过程中逐渐变得更加突出。首先检测继承分支视频与文本的相似度,再检测探索分支视频与文本的相似度。并联合考虑继承分支与探索分支视频与文本的相似度作为最终相似度。
(6-1)将步骤(4)中得到的继承分支文本特征
Figure BDA0004118580580000071
与步骤(5)得到的继承分支视频的特征序列
Figure BDA0004118580580000072
进行点乘,计算文本特征表示qs与视频特征序列Fs的余弦相似度作为继承分支文本与视频每一帧的相似度,即相似度集合Cs
Figure BDA0004118580580000073
(6-2)将步骤(6-1)中文本与视频每一帧的相似度取最大值作为继承分支视频与文本的相似度SI(Q,V)即:
Figure BDA0004118580580000074
通过上述步骤得到了继承分支文本与视频逐帧的相似度集合Cs以及视频与文本的相似度SI(Q,V)。接着利用动态蒸馏和公共空间学习算法来吸收教师模型的有益知识以及文本与视频模态之间的相关性。具体步骤如下:
(7)在多示例学习中,有一个包的概念。包可以简单理解为,一个由多个样本组成的集合,若包中的某一个或多个示例为正样本时,则该包为正样本;反之则该包为负样本。基于上述定义,使用在检索任务中被广泛使用的三元组排序损失和对比学习损失来联合约束继承分支和探索分支,三元组排序损失
Figure BDA0004118580580000075
的公式为:
Figure BDA0004118580580000076
其中n为样本数,m为边界常数,其值为0.2,S(·)为相似度函数。q-和v-依次为视频v的文本负样本和文本q的视频负样本。负样本为从小批量数据
Figure BDA0004118580580000077
中抽取的最难负样本。
其次,对比学习损失
Figure BDA0004118580580000078
的公式为:
Figure BDA0004118580580000079
其中
Figure BDA00041185805800000710
代表在小批量数据
Figure BDA00041185805800000716
中视频v所对应的所有文本负样本集合,
Figure BDA00041185805800000711
表示其中第i个文本负样本,
Figure BDA00041185805800000712
代表在小批量数据
Figure BDA00041185805800000717
中文本q所对应的所有视频负样本集合,
Figure BDA00041185805800000713
表示其中第i个视频负样本。
最后,动态蒸馏损失
Figure BDA00041185805800000714
的公式为:
Figure BDA0004118580580000081
其中,DKL表示蒸馏损失函数,Cs代表学生模型中视频每一帧与文本的相似度集合,Ct代表教师模型中视频每一帧与文本的相似度集合。
正如我们所提到的,由于任务特定领域的差距,CLIP教师模型可能在不同数据集上存在巨大的性能差异。在训练开始时,当老师的知识有益时,从老师那里学习更多的知识,而当学生模型变得更强时,从已有数据中逐渐学习更多。具体而言,为了从双分支学习中获得更平衡和更好的蒸馏结果,引入动态蒸馏策略。设计用于在模型训练期间在线调整的超参数w,即w=w0g(t),其中w0是初始权重,t表示训练期间的第t个时期,g(t)是衰减函数。
在这里我们使用了三种不同类型的衰减函数实现了动态蒸馏策略,分别是指数衰减g(t)=kt,线性衰减g(t)=kt+b,Sigmoid衰减
Figure BDA0004118580580000082
其中k表示控制衰减趋势的系数。
训练继承分支时使用的最终的损失
Figure BDA0004118580580000083
为:
Figure BDA0004118580580000084
其中
Figure BDA0004118580580000085
代表继承分支的三元组排序损失,
Figure BDA0004118580580000086
代表继承分支的对比学习损失,
Figure BDA00041185805800000815
代表动态蒸馏损失,λ1为预设权重系数。本实施例中设置λ1=0.04,w0=0.1,g(t)=0.95t来平衡各损失在训练开始时的初始权重。
(8-1)将得到的探索分支文本特征
Figure BDA0004118580580000087
与探索分支视频的特征序列
Figure BDA0004118580580000088
进行点乘,计算文本特征表示qd与视频特征序列Fd的余弦相似度作为探索分支文本与视频每一帧的相似度,即相似度集合Cd
Figure BDA0004118580580000089
(8-2)将步骤(8-1)中文本与视频每一帧的相似度取最大值作为继承分支视频与文本的相似度SE(Q,V)即:
Figure BDA00041185805800000810
(9)通过以上步骤,得到了探索分支文本与视频逐帧的相似度集合Cd以及视频与文本的相似度SE(Q,V),接着利用公共空间学习算法来训练探索分支,来学习长视频和文本间的相似度。同样使用了三元组排序损失和对比学习损失来联合约束探索分支,训练探索分支时使用的最终的损失
Figure BDA00041185805800000811
为:
Figure BDA00041185805800000812
其中
Figure BDA00041185805800000813
代表探索分支的三元组排序损失,
Figure BDA00041185805800000814
代表探索分支的对比学习损失,λ2为预设权重系数。本实施例中设置λ2=0.04来平衡各损失在训练开始时的初始权重。
(10-1)通过步骤(7)、(9)联合训练双分支动态蒸馏学习网络模型,训练双分支动态蒸馏学习网络使用的最终损失
Figure BDA0004118580580000091
为:
Figure BDA0004118580580000092
其中
Figure BDA0004118580580000093
代表继承分支的损失,
Figure BDA0004118580580000094
代表探索分支的损失。通过
Figure BDA0004118580580000095
来联合训练双分支动态蒸馏学习网络模型。
(10-2)通过以上步骤得到了一个训练好的双分支动态蒸馏学习网络模型,其实现文本到其相关视频的跨模态检索的具体步骤如下:输入文本与一组候选视频,对于文本与某一候选视频,计算文本与其继承分支相似度SI(Q,V)以及探索分支相似度SE(Q,V)并进行加权和,作为最终的文本与其相似度S(Q,V),即:
S(Q,V)=(1-β)SI(Q,V)+βSE(Q,V)
其中β为预设权重系数,实验对β的大小进行从0-1的调整后,结果表明β为0.3时网络模型的性能达到最佳。
将文本与所有候选视频的相似度进行排序,取相似度最好的结果作为最终返回的检索结果,以此来实现文本到其相关视频的跨模态检索任务。
与前述基于双分支动态蒸馏学习的跨模态视频检索方法的实施例相对应,本发明还提供了基于双分支动态蒸馏学习的跨模态视频检索装置的实施例。
参见图2,本发明实施例提供的一种基于双分支动态蒸馏学习的跨模态视频检索装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于双分支动态蒸馏学习的跨模态视频检索方法。
本发明基于双分支动态蒸馏学习的跨模态视频检索装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本发明基于双分支动态蒸馏学习的跨模态视频检索装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于双分支动态蒸馏学习的跨模态视频检索方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (10)

1.一种基于双分支动态蒸馏学习的跨模态视频检索方法,其特征在于,包括以下步骤:
(1)对查询文本和待检索视频进行特征预提取,得到教师模型的文本特征和视频特征;
(2)对步骤(1)得到的教师模型的文本特征和视频特征进行相似度计算,得到语义相似性分布作为学生模型的继承分支的指导;
(3)对查询文本和待检索视频进行特征预提取,得到学生模型的初始文本特征和初始视频特征;
(4)在学生模型的继承分支上,将步骤(3)得到的初始文本特征进行编码,得到文本特征表示;
(5)在学生模型的继承分支上,将步骤(3)得到的初始视频特征进行特征编码,得到视频特征表示;
(6)将步骤(5)得到的视频特征表示与步骤(4)得到的文本特征表示进行相似度计算,得到继承分支视频逐帧和文本的相似度,并取最大值作为继承分支视频和文本的相似度;
(7)利用步骤(6)得到的视频逐帧和文本的相似度以及视频和文本的相似度,通过公共空间学习算法和动态蒸馏算法来训练继承分支,使其吸收来自教师模型的有益知识;
(8)学生模型的探索分支和继承分支共享相同的网络架构,在经过与继承分支步骤(4)、(5)、(6)相同的特征编码以及相似度计算之后,得到探索分支的视频逐帧和文本的相似度以及视频和文本的相似度;
(9)利用步骤(8)得到的视频逐帧和文本的相似度以及视频和文本的相似度,通过公共空间学习算法来训练探索分支,从而学习跨模态检索任务特定数据集上的知识;
(10)通过步骤(7)、(9)联合训练包括继承分支和探索分支的双分支动态蒸馏学习网络模型,将文本和视频输入到训练好的双分支动态蒸馏网络模型中,实现文本到其相关视频的跨模态检索。
2.根据权利要求1所述的一种基于双分支动态蒸馏学习的跨模态视频检索方法,其特征在于,步骤(1)中使用不同的预训练模型来提取教师模型文本特征和视频特征,包括:
(1-1)利用预训练的大规模文本特征提取器CLIP模型来提取教师模型文本特征;
(1-2)将视频划分为视频帧序列,利用预训练的大规模图片特征提取器CLIP模型进行视频帧序列的特征提取,得到教师模型视频特征。
3.根据权利要求2所述的一种基于双分支动态蒸馏学习的跨模态视频检索方法,其特征在于,步骤(2)中,将步骤(1-2)得到的视频逐帧特征序列与步骤(1-1)得到的文本特征输入至教师模型,对于每个视频逐帧特征与文本特征计算余弦相似度,得到语义相似性分布作为学生模型继承分支的指导。
4.根据权利要求1所述的一种基于双分支动态蒸馏学习的跨模态视频检索方法,其特征在于,步骤(3)中使用不同的预训练模型来提取学生模型文本特征和视频特征,包括:
(3-1)利用预训练的大型文本特征提取器RoBERTa模型提取单词的特征向量集合,得到学生模型初始文本特征;
(3-2)将视频划分为视频帧序列,利用在ImageNet上预训练的2D深度卷积网络ResNet152进行视频帧序列的特征提取,得到学生模型初始视频特征。
5.根据权利要求1所述的一种基于双分支动态蒸馏学习的跨模态视频检索方法,其特征在于,在步骤(3)中得到的初始文本特征进行编码的方法包括:继承分支利用全连接层以及ReLu激活函数对输入的初始文本特征进行降维,并对降维后的文本特征进行位置嵌入编码后输入到transformer中来捕捉其上下文信息,得到继承分支的文本特征表示。
对在步骤(3)中得到的初始视频特征进行编码的方法包括:继承分支利用全连接层以及ReLu激活函数对输入的初始视频特征进行降维,并对降维后的视频特征进行位置嵌入编码后输入到transformer中来捕捉其上下文信息,并通过全连接层得到继承分支视频的帧尺度特征序列,即继承分支的视频特征表示。
6.根据权利要求1所述的一种基于双分支动态蒸馏学习的跨模态视频检索方法,其特征在于,步骤(7)中训练继承分支的方法具体为:
以动态蒸馏的方式训练继承分支;通过三元排序损失、对比学习损失来学习视频和文本间的相似度;随着训练的深入,继承分支从教师模型学习到越来越多的知识,动态地调整蒸馏损失的权重,通过动态蒸馏损失来吸收来自教师模型的有益知识。
7.根据权利要求6所述的一种基于双分支动态蒸馏学习的跨模态视频检索方法,其特征在于,训练继承分支的总损失
Figure FDA0004118580570000021
为:
Figure FDA0004118580570000022
其中,
Figure FDA0004118580570000023
代表继承分支的三元组排序损失,
Figure FDA0004118580570000024
代表继承分支的对比学习损失,
Figure FDA0004118580570000025
代表动态蒸馏损失,λ1为预设权重系数,w为在模型训练期间在线调整的超参数,w=w0g(t),其中w0是初始权重,t表示训练期间的第t个时期,g(t)是衰减函数,包括指数衰减、线性衰减、Sigmoid衰减;所述蒸馏损失
Figure FDA0004118580570000026
的公式为:
Figure FDA0004118580570000027
其中,k表示视频帧数,
Figure FDA0004118580570000028
代表学生模型继承分支中视频每一帧与文本的相似度,
Figure FDA0004118580570000029
代表教师模型中视频每一帧与文本的相似度。
8.根据权利要求1所述的一种基于双分支动态蒸馏学习的跨模态视频检索方法,其特征在于,步骤(9)中训练探索分支的方法具体为:利用公共空间学习算法训练探索分支,通过三元排序损失和对比学习损失来探索下游任务的特定属性以及学习视频和文本间的相似度。
9.根据权利要求1所述的一种基于双分支动态蒸馏学习的跨模态视频检索方法,其特征在于,步骤(10)中,所述双分支动态蒸馏学习网络的损失
Figure FDA0004118580570000031
为:
Figure FDA0004118580570000032
其中,
Figure FDA0004118580570000033
代表继承分支的损失,
Figure FDA0004118580570000034
代表探索分支的损失。
10.一种基于双分支动态蒸馏学习的跨模态视频检索装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-9中任一项所述的基于双分支动态蒸馏学习的跨模态视频检索方法。
CN202310226304.9A 2023-03-03 2023-03-03 基于双分支动态蒸馏学习的跨模态视频检索方法及装置 Pending CN116226452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310226304.9A CN116226452A (zh) 2023-03-03 2023-03-03 基于双分支动态蒸馏学习的跨模态视频检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310226304.9A CN116226452A (zh) 2023-03-03 2023-03-03 基于双分支动态蒸馏学习的跨模态视频检索方法及装置

Publications (1)

Publication Number Publication Date
CN116226452A true CN116226452A (zh) 2023-06-06

Family

ID=86587164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310226304.9A Pending CN116226452A (zh) 2023-03-03 2023-03-03 基于双分支动态蒸馏学习的跨模态视频检索方法及装置

Country Status (1)

Country Link
CN (1) CN116226452A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076712A (zh) * 2023-10-16 2023-11-17 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN118227831A (zh) * 2024-05-23 2024-06-21 中国科学院自动化研究所 跨模态视频检索方法、装置及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076712A (zh) * 2023-10-16 2023-11-17 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN117076712B (zh) * 2023-10-16 2024-02-23 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN118227831A (zh) * 2024-05-23 2024-06-21 中国科学院自动化研究所 跨模态视频检索方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Liu et al. Learning a recurrent residual fusion network for multimodal matching
CN110046248B (zh) 用于文本分析的模型训练方法、文本分类方法和装置
CN116226452A (zh) 基于双分支动态蒸馏学习的跨模态视频检索方法及装置
Yu et al. Learning from inside: Self-driven siamese sampling and reasoning for video question answering
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
WO2023134082A1 (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN110516530A (zh) 一种基于非对齐多视图特征增强的图像描述方法
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN113326851B (zh) 图像特征提取方法、装置、电子设备及存储介质
CN111460824A (zh) 一种基于对抗迁移学习的无标注命名实体识别方法
CN110619124A (zh) 一种结合注意力机制与双向lstm的命名实体识别方法及系统
CN113963304B (zh) 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN115310560A (zh) 一种基于模态空间同化和对比学习的多模态情感分类方法
CN116229519A (zh) 一种基于知识蒸馏的二维人体姿态估计方法
CN109889923A (zh) 利用结合视频描述的分层自注意力网络总结视频的方法
CN115408558A (zh) 基于多尺度多示例相似度学习的长视频检索方法及装置
CN117315249A (zh) 指代图像分割模型训练和分割方法、系统、设备及介质
CN115758758A (zh) 基于相似性特征约束的逆合成预测方法、介质及设备
CN116109978A (zh) 基于自约束动态文本特征的无监督视频描述方法
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN114648032A (zh) 语义理解模型的训练方法、装置和计算机设备
CN113361656A (zh) 一种特征模型的生成方法、系统、设备及存储介质
Cornia et al. Towards cycle-consistent models for text and image retrieval
CN117611938A (zh) 多模态模型训练方法、装置、设备及存储介质
CN117392488A (zh) 一种数据处理方法、神经网络及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination