CN116052040A - 基于多模态查询向量和置信度的指代视频分割方法 - Google Patents

基于多模态查询向量和置信度的指代视频分割方法 Download PDF

Info

Publication number
CN116052040A
CN116052040A CN202211621709.4A CN202211621709A CN116052040A CN 116052040 A CN116052040 A CN 116052040A CN 202211621709 A CN202211621709 A CN 202211621709A CN 116052040 A CN116052040 A CN 116052040A
Authority
CN
China
Prior art keywords
query vector
features
video
mask
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211621709.4A
Other languages
English (en)
Inventor
刘文印
黄可思
梁达勇
陈俊洪
西木
钟经谋
林大润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202211621709.4A priority Critical patent/CN116052040A/zh
Publication of CN116052040A publication Critical patent/CN116052040A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了基于多模态查询向量和置信度的指代视频分割方法,包括:提取原始视频的视频特征和自然语言描述文本的描述文本特征;基于视频特征和描述文本特征,生成多模态查询向量;对视频特征进行编码,并生成编码器特征;对编码器特征和多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;基于掩码特征和多模态查询向量,生成置信度,并计算新的掩码特征;将新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码;根据损失函数训练模型,最终得到已训练的指代视频分割模型,完成指代视频分割任务。本发明能够让模型理解多模态数据,提高指代视频分割任务的精度,增强其在高度随机的复杂环境下的鲁棒性。

Description

基于多模态查询向量和置信度的指代视频分割方法
技术领域
本发明属于指代视频分割技术领域,尤其涉及基于多模态查询向量和置信度的指代视频分割方法。
背景技术
指代视频分割(Referring Video Segmentation)任务指的是给定的一个视频中某个对象的自然语言描述文本,按照该描述文本对视频中的目标对象进行分割,即输出视频每一帧的描述对象的分割掩码。本任务是一个新兴的多模态任务,它涉及了计算机视觉和自然语言处理两种技术,要求模型能够深刻理解描述文本与视频中对象的关系,并准确输出分割掩码。通过该技术,可以方便地通过文本找到符合的视频帧,可以应用于视频编辑和视频监控领域。相比于指代图像分割任务,视频任务要求更高,需要处理好前后帧的关系,连贯前后帧的信息。
在现有技术中,一种方法是通过早期融合多模态特征,输入到解码器进行对象分割。但过早地融合视频和描述文本的特征,会使模型无法很好地捕获关键的实例级信息,也难以考虑多个帧之间的对象关联,导致场景的变化会影响掩码的生成。另一种方法是利用实例分割模型,分割出每一帧或者关键帧的实例对象并形成候选轨迹,通过与描述文本一一比对,挑选出与之最匹配的那一帧的分割掩码。这样做的好处是大幅提高了精度,但由于过程繁琐,训练复杂度高,模型的计算开销也大幅提高。还有一种方法是在Transformer编码器-解码器结构中,解码器的查询向量采用固定数量的可学习的位置向量,每个向量用于预测一个物体。但这种做法没有对视频特征和描述文本特征进行匹配,且不能适应指代视频分割任务的高随机性。
发明内容
为解决上述技术问题,本发明提出了基于多模态查询向量和置信度的指代视频分割方法,提高任务的分割精度和分割效率。
为实现上述目的,本发明提供了基于多模态查询向量和置信度的指代视频分割方法,包括:
提取原始视频的视频特征和自然语言描述文本的描述文本特征;
基于所述视频特征和所述描述文本特征,生成多模态查询向量;
对所述视频特征进行编码,并生成编码器特征;
对所述编码器特征和所述多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;
基于所述掩码特征和所述多模态查询向量,生成置信度,并计算新的掩码特征;
将所述新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码;
根据损失函数训练模型。
可选地,生成所述多模态查询向量包括:
对所述视频特征进行预处理,获取视觉特征;
利用所述视觉特征和所述描述文本特征,获取所述多模态查询向量的注意力权重;
基于所述注意力权重,获得所述多模态查询向量。
可选地,对所述视频特征进行预处理,获取所述视觉特征包括:
通过卷积层将所述视频特征的特征维度从H×W×C转成H×W×Nq,获得Nq个H×W大小的特征图;其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,Nq为多模态查询向量的个数;展开所述特征图,获得维度为Nq×(HW)的所述视觉特征,HW为特征图的高乘上特征图的宽的积。
可选地,所述第t帧多模态查询向量的注意力权重为:
Figure BDA0004002356310000031
Figure BDA0004002356310000032
其中,at为第t帧多模态查询向量的注意力权重,
Figure BDA0004002356310000033
为第t帧的第n个多模态查询向量的注意力权重,
Figure BDA0004002356310000034
为第t帧第i个词的第n个多模态查询向量的注意力权重,Nq为多模态查询向量的个数,Nl为描述文本的长度。
可选地,所述多模态查询向量为:
Figure BDA0004002356310000035
其中,
Figure BDA0004002356310000036
为第t帧的多模态查询向量,Nq为多模态查询向量的个数,
Figure BDA0004002356310000037
为第t帧的第n个多模态查询向量。
可选地,获取所述预测类别、预测框和掩码特征包括:
将所述视频特征输入Deformable-DETR编码器,获取编码器特征;
将所述编码器特征和所述多模态查询向量输入Deformable-DETR解码器,获取所述预测类别、预测框和掩码特征。
可选地,生成所述置信度包括:
将所述多模态查询向量和所述掩码特征各自经过一个不同的全连接层后,进行拼接;
将拼接结果通过另外两个全连接层生成预设大小的置信度;其中,另外两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。
可选地,获取所述预测类别、预测框和掩码特征后还包括:
设置损失函数,对所述Deformable-DETR解码器进行训练;
所述损失函数为:
Figure BDA0004002356310000041
其中,y为第t帧的真值,
Figure BDA0004002356310000042
为第t帧的预测值。
与现有技术相比,本发明具有如下优点和技术效果:
本发明提出基于多模态查询向量和置信度的指代视频分割方法,指代视频分割模型基于Transformer编码器-解码器结构,并加入多模态查询向量和置信度来提高任务精度。
加入多模态查询向量后,能够让描述文本特征与视觉特征进行细粒度交互,并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象。
而加入置信度计算模块后,该模块可以自适应地给每个多模态查询向量分配一个置信度,该置信度反映多模态查询向量与图像全局信息的吻合程度。模型通过置信度自适应地选择掩码特征,以生成最符合描述文本所指代对象的掩码。
最终本发明通过加入多模态查询向量和置信度来提高模型指代视频分割任务的精度,增强模型在高度随机的复杂环境下的鲁棒性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的指代视频分割方法流程示意图;
图2为本发明实施例的指代视频分割模型框架示意图;
图3为本发明实施例的多模态查询向量生成的流程示意图;
图4为本发明实施例的多模态查询向量生成器结构示意图;
图5为本发明实施例的相同描述文本,不同视频帧的对比示意图;其中,(a)为描述文本的侧重点是“上方”的示意图,(b)为描述文本的侧重点是“大”的示意图;
图6为本发明实施例的置信度计算模块结构示意图;
图7为本发明实施例的模型掩码生成和损失函数计算流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例
本发明提供了基于多模态查询向量和置信度的指代视频分割方法,包括:
提取原始视频的视频特征和自然语言描述文本的描述文本特征;
基于所述视频特征和所述描述文本特征,生成多模态查询向量;
对所述视频特征进行编码,并生成编码器特征;
对所述编码器特征和所述多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;
基于所述掩码特征和所述多模态查询向量,生成置信度,并计算新的掩码特征;
将所述新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码。
进一步地,生成所述多模态查询向量包括:
对所述视频特征进行预处理,获取视觉特征;
利用所述视觉特征和所述描述文本特征,获取所述多模态查询向量的注意力权重;
基于所述注意力权重,获得所述多模态查询向量。
进一步地,对所述视频特征进行预处理,获取所述视觉特征包括:
通过卷积层将所述视频特征的特征维度从H×W×C转成H×W×Nq,获得Nq个H×W大小的特征图。其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,Nq为多模态查询向量的个数;展开所述特征图,获得维度为Nq×(HW)的所述视觉特征,HW为特征图的高乘上特征图的宽的积。
进一步地,获取所述预测类别、预测框和掩码特征包括:
将所述视频特征输入Deformable-DETR编码器,获取编码器特征;
将所述编码器特征和所述多模态查询向量输入Deformable-DETR解码器,获取所述预测类别、预测框和掩码特征。
进一步地,生成所述置信度包括:
将所述多模态查询向量和所述掩码特征各自经过一个不同的全连接层后,进行拼接;
将拼接结果通过另外两个全连接层生成预设大小的置信度;其中,这两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。
进一步地,获取所述预测类别、预测框和掩码特征后还包括:
设置损失函数,对所述Deformable-DETR解码器进行训练;
所述损失函数为:
Figure BDA0004002356310000071
其中,y为第t帧的真值,
Figure BDA0004002356310000072
为第t帧的预测值。
本发明采用基于Transformer编码器-解码器结构的指代视频分割模型。通过加入多模态查询向量和置信度,令描述文本特征与视觉特征进行细粒度交互,并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象,最终提高模型指代视频分割任务的精度,增强指代视频分割在高度随机输入的复杂环境下的鲁棒性。
如图1所示,本实施例共分为以下几个步骤:
1.利用视频骨干网络提取提取原始视频的视频特征,利用自然语言骨干网络提取自然语言描述文本的描述文本特征。
2.利用多模态查询向量生成器,通过输入的视频特征和描述文本特征生成多模态查询向量。
3.视频骨干网络最后阶段的输出作为Deformable-DETR编码器的输入。Deformable-DETR编码器特征和多模态查询向量作为Deformable-DETR解码器的输入。
4.把Deformable-DETR解码器的掩码特征和多模态查询向量输入到置信度计算模块,生成置信度,再与掩码特征进行矩阵相乘,通过掩码生成器,获取根据自然语言描述文本预测的分割掩码。
5.利用损失函数,根据Deformable-DETR解码器的预测类别、预测框和掩码特征来计算损失,并不断训练模型,最终得到已训练的指代视频分割模型。
基于多模态查询向量和置信度的指代视频分割模型框架如图2所示。
(1)提取视频特征和自然语言描述文本特征
利用视频骨干网络提取视频特征。视频骨干网络可以是二维或者三维。比如ResNet、Swin Transformer或Video Swin Transformer。
利用自然语言骨干网络提取自然语言描述文本特征。这里采用RoBERTa,它是BERT的改进版,RoBERTa相比于BERT,采用了动态掩码进行预训练,并删除了NSP任务、改进了优化函数、增加了更多训练数据和时间、采用更大的批量大小和更长的序列长度。
(2)多模态查询向量生成器
在现有的视觉Transformer工作中,Transformer解码器的查询向量通常是一组固定数量的可学习的位置向量,每个向量用于预测一个物体。实验表明,每个查询向量都有自己专门针对的物体种类或位置区域。但这个设计隐含了一个必要的假设:输入图像中的物体是按照某种统计规则分布的。这就与具有高随机性的指代视频分割任务相违背了。因为在指代视频分割任务中,描述文本的对象可以是视频中的任意实例。由于视频内容和描述文本都是不受限制的,所以目标对象及其属性的具有高随机性,对象的属性可以是位置、形态、动作、外表等多种不同属性。
为了解决上述问题,可以利用基于注意力机制的多模态查询向量来寻求突破。注意力机制会在所有元素之间建立直接的交互,这能大幅提高模型对全局语义信息的捕捉能力,以适应高随机性的指代视频分割任务。
本发明提出基于注意力机制的多模态查询向量生成器:它以自然语言描述文本为基础,借助视觉特征,产生多个具有不同权重的多模态查询向量。这些多模态查询向量代表了从不同方面、不同角度对描述文本的多样化理解。
综上所述,加入多模态查询向量生成器后,能够让描述文本特征与视觉特征进行细粒度交互,并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象,最终提高模型指代视频分割任务的精度,增强模型在高度随机的复杂环境下的鲁棒性。
多模态查询向量生成的流程示意图如图3所示:假设提取的视频特征为
Figure BDA0004002356310000101
其中第t帧视频帧的视频特征为
Figure BDA0004002356310000102
为了适应T帧的视觉输入,需要把描述文本特征复制T份,分别对第t帧视频帧生成多模态查询向量
Figure BDA0004002356310000103
最后把一共T组的多模态查询向量输入到Deformable-DETR的解码器中。
多模态查询向量生成器结构示意图如图4所示,它用于生成视频第t帧的多模态查询向量
Figure BDA0004002356310000104
每个
Figure BDA0004002356310000105
具有Nq个多模态查询向量
Figure BDA0004002356310000106
首先,设描述文本特征为
Figure BDA0004002356310000107
其中第t帧描述文本特征为
Figure BDA0004002356310000108
Nl为句子长度,不足用零填充。首先将通过提取的视频特征
Figure BDA0004002356310000109
通过卷积层把特征维度从H×W×C转成H×W×Nq,即得到Nq个H×W大小的特征图。其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,Nq为多模态查询向量的个数。
每个特征图都将参与一个多模态查询向量的生成。接着利用Flatten操作展开特征图,得到维度为Nq×(HW)的视觉特征
Figure BDA00040023563100001010
HW为特征图的高乘上特征图的宽的积,上述操作用公式表达即为:
Figure BDA00040023563100001011
Figure BDA00040023563100001012
接着利用第t帧的视觉特征
Figure BDA0004002356310000111
和描述文本特征
Figure BDA0004002356310000112
来计算注意力权重。分别通过一个不同的全连接层后,设第t帧的视觉特征
Figure BDA0004002356310000113
Figure BDA0004002356310000114
为第t帧第n个视觉特征,Nq为多模态查询向量的个数。设第t帧描述文本特征
Figure BDA0004002356310000115
第i个词对应的描述文本特征为
Figure BDA0004002356310000116
Nl为句子长度。在第t帧,句中第i个词的第n个多模态查询向量的注意力权重
Figure BDA0004002356310000117
Figure BDA0004002356310000118
Figure BDA0004002356310000119
的乘积:
Figure BDA00040023563100001110
其中
Figure BDA00040023563100001111
表示视觉特征的可学习的参数和
Figure BDA00040023563100001112
表示描述文本特征的可学习的参数,σ是Softmax激活函数,用于归一化每个查询的所有单词。第t帧多模态查询向量的注意力权重为:
Figure BDA00040023563100001113
Figure BDA00040023563100001114
其中,at为第t帧多模态查询向量的注意力权重,
Figure BDA00040023563100001115
为第t帧的第n个多模态查询向量的注意力权重,它表示一个句子的某一个注意力权重,使得不同的多模态查询向量可以关注描述文本不同的部分,即有Nq种不同的理解方式。
最后,第t帧的多模态查询向量为:
Figure BDA00040023563100001116
Figure BDA00040023563100001117
其中,
Figure BDA00040023563100001118
为第t帧的多模态查询向量,Nq为多模态查询向量的个数,
Figure BDA00040023563100001119
为第t帧的第n个多模态查询向量。
Figure BDA00040023563100001120
是一个可学习的参数。每个多模态查询向量
Figure BDA00040023563100001121
中,视觉特征对描述文本特征起到了引导的作用。通过对描述文本中不同单词的特征投影进行加权求和,得到多模态查询向量。它会并输入到后续的Transformer解码器中,作为多模态查询向量查询视频特征。
(3)Transformer编码器-解码器
Transformer编码器-解码器模块采用Deformable-DETR。它由DETR改进得到,缓解了DETR的缓慢收敛和高复杂性的问题,结合了可变形卷积的稀疏空间采样的优点和Transformer的关系建模能力。模型的创新点是提出了可变形注意力模块,只关注参考点周围的一小部分关键采样点。该模块可以无需FPN的帮助,很自然地扩展到聚合多尺度特征。在Deformable-DETR中,利用该模块来代替Transformer注意力模块去处理特征图。可变形注意力模块只关注参考点周围的一小部分关键采样点。COCO数据集上,大量的实验表明Deformable-DETR比DETR有更好的性能,而且训练次数减少10倍,证明了该模型的有效性。
(4)置信度计算模块及生成描述对象的分割掩码
指代视频分割任务中,输入视频和自然语言描述文本都是高度随机的。这种高随机性不只体现在描述文本的对象可以是视频中的任意实例这方面,描述对象的属性也具有高随机性。对于同种类对象,其位置、形态、动作和外表等属性不是固定的,还需要结合视频内容来进行理解,对于不同视频帧,同一个描述文本可能会有不同的侧重点和理解角度。如图5中,在相同视频帧中,对于同一个描述文本“在上方的大云朵”,假设分割的对象是上方用橙色标记出来的云朵,那么对于图5中的(a),描述文本的侧重点是“上方”,而图5中的(b)则是“大”。假如没有视频帧,那么描述文本的自注意力将会同时给予“上方”和“大”较高的权重,但结合了视频帧之后,模型可以结合实际情况,从找出实际视频帧的侧重点,如在图5中的(a)中给予“上方”更大的权重。
上述多模态查询向量帮助模型在初期解决任务的随机性问题。而在后期的掩码生成中,Deformable-DETR解码器为每一帧生成了数个多模态查询向量对应的掩码特征,即模型对描述文本所指代的对象有多个角度的理解。但每一帧最终输出的掩码只有一个,为了平衡上述多个掩码特征,帮助模型生成最符合描述文本所指代对象的掩码,本发明提出置信度计算模块。置信度计算模块可以自适应地给每个多模态查询向量分配一个置信度,该置信度反映多模态查询向量与图像全局信息的吻合程度。最终,模型通过置信度自适应地选择掩码特征,以生成最符合描述文本所指代对象的掩码。
置信度计算模块结构图如图6所示,为了精简,省略了Deformable-DETR解码器输出的预测类别和预测框。模型掩码生成和损失函数计算流程图如图7所示。从多模态查询向量生成器得到第t帧的多模态查询向量
Figure BDA0004002356310000131
与Deformable-DETR解码器输出的掩码特征
Figure BDA0004002356310000132
各自经过一个不同的全连接层后,进行拼接,再通过另外两个不同的全连接层生成大小为Nq×1的置信度值
Figure BDA0004002356310000133
它的每个元素表示每条多模态查询向量与它的预测背景的吻合程度,另外两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。最后每个
Figure BDA0004002356310000141
都与相应的置信度值
Figure BDA0004002356310000142
相乘,得到新掩码特征
Figure BDA00040023563100001412
Figure BDA0004002356310000143
最终,通过掩码生成器,获取根据自然语言描述文本预测的分割掩码。掩码生成器包含3个卷积核为3x3的卷积层,用于解码新的掩码特征,并用1个卷积核为1x1的卷积层生成预测的分割掩码。
置信度计算模块算法为:
Figure BDA0004002356310000144
(5)损失函数
Deformable-DETR解码器除了每帧输出掩码特征外,还会输出其预测类别
Figure BDA0004002356310000145
和预测框
Figure BDA0004002356310000146
因此,对于T帧的视频,指代视频分割模型的预测结果为:
Figure BDA0004002356310000147
假设真值为
Figure BDA0004002356310000148
c为one-hot矩阵,视频帧中出现过的对象类别标1,否则标0。损失函数为:
Figure BDA0004002356310000149
Figure BDA00040023563100001410
其中λcls、λbox和λmask是超参数,y为指代视频分割任务的真值,
Figure BDA00040023563100001411
为指代视频分割模型的预测结果。Lcls指Focal loss损失函数,用于解决数据不平衡造成的模型性能问题;Lbox包括L1损失函数和GIoU损失函数;Lmask包括DICE损失函数和Focal loss损失函数。
本实施例提供一种基于多模态查询向量和置信度的指代视频分割方法。指代视频分割模型基于Transformer编码器-解码器结构,并加入多模态查询向量和置信度来提高任务精度和模型鲁棒性。
在指代视频分割方法中,提出了一个利用注意力机制的多模态查询向量生成器:它以自然语言描述文本为基础,借助视觉特征,产生多个具有不同权重的多模态查询向量。这些多模态查询向量代表了从不同方面、不同角度对描述文本的多样化理解。因此,加入多模态查询向量生成器后,能够让描述文本特征与视觉特征进行细粒度交互,并使得模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象。
此外还提出置信度计算模块,该模块可以自适应地给每个多模态查询向量分配一个置信度,该置信度反映多模态查询向量与图像全局信息的吻合程度。模型通过置信度自适应地选择掩码特征,以生成最符合描述文本所指代对象的掩码。
本实施例所提出的模型框架简洁,以Transformer编码器-解码器结构为基础,提供一种基于多模态查询向量和置信度的指代视频分割方法。通过多模态查询向量生成器和置信度计算模块,能够让描述文本特征与视觉特征进行细粒度交互,并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象,最终提高模型指代视频分割任务的精度,增强模型在高度随机的复杂环境下的鲁棒性。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.基于多模态查询向量和置信度的指代视频分割方法,其特征在于,包括:
提取原始视频的视频特征和自然语言描述文本的描述文本特征;
基于所述视频特征和所述描述文本特征,生成多模态查询向量;
对所述视频特征进行编码,并生成编码器特征;
对所述编码器特征和所述多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;
基于所述掩码特征和所述多模态查询向量,生成置信度,并计算新的掩码特征;
将所述新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码。
2.根据权利要求1所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,生成所述多模态查询向量包括:
对所述视频特征进行预处理,获取视觉特征;
利用所述视觉特征和所述描述文本特征,获取所述多模态查询向量的注意力权重;
基于所述注意力权重,获得所述多模态查询向量。
3.根据权利要求2所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,对所述视频特征进行预处理,获取所述视觉特征包括:
通过卷积层将所述视频特征的特征维度从H×W×C转成H×W×Nq,获得Nq个H×W大小的特征图;其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,Nq为多模态查询向量的个数;展开所述特征图,获得维度为Nq×(HW)的所述视觉特征,HW为特征图的高乘上特征图的宽的积。
4.根据权利要求2所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,所述注意力权重为:
Figure FDA0004002356300000021
Figure FDA0004002356300000022
其中,at为第t帧多模态查询向量的注意力权重,
Figure FDA0004002356300000023
为第t帧的第n个多模态查询向量的注意力权重,
Figure FDA0004002356300000024
为第t帧第i个词的第n个多模态查询向量的注意力权重,Nq为多模态查询向量的个数,Nl为描述文本的长度。
5.根据权利要求1所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,所述多模态查询向量为:
Figure FDA0004002356300000025
其中,
Figure FDA0004002356300000026
为第t帧的多模态查询向量,Nq为多模态查询向量的个数,
Figure FDA0004002356300000027
为第t帧的第n个多模态查询向量。
6.根据权利要求1所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,获取所述预测类别、预测框和掩码特征包括:
将所述视频特征输入Deformable-DETR编码器,获取编码器特征;
将所述编码器特征和所述多模态查询向量输入Deformable-DETR解码器,获取所述预测类别、预测框和掩码特征。
7.根据权利要求1所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,生成所述置信度包括:
将所述多模态查询向量和所述掩码特征各自经过一个不同的全连接层后,进行拼接;
将拼接结果通过另外两个全连接层生成预设大小的置信度;其中,另外两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。
8.根据权利要求6所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,获取所述预测类别、预测框和掩码特征后还包括:
设置损失函数,对所述Deformable-DETR解码器进行训练;
所述损失函数为:
Figure FDA0004002356300000031
其中,y为第t帧的真值,
Figure FDA0004002356300000032
为第t帧的预测值。
CN202211621709.4A 2022-12-16 2022-12-16 基于多模态查询向量和置信度的指代视频分割方法 Pending CN116052040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211621709.4A CN116052040A (zh) 2022-12-16 2022-12-16 基于多模态查询向量和置信度的指代视频分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211621709.4A CN116052040A (zh) 2022-12-16 2022-12-16 基于多模态查询向量和置信度的指代视频分割方法

Publications (1)

Publication Number Publication Date
CN116052040A true CN116052040A (zh) 2023-05-02

Family

ID=86124563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211621709.4A Pending CN116052040A (zh) 2022-12-16 2022-12-16 基于多模态查询向量和置信度的指代视频分割方法

Country Status (1)

Country Link
CN (1) CN116052040A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592881A (zh) * 2021-08-03 2021-11-02 深圳思谋信息科技有限公司 图片指代性分割方法、装置、计算机设备和存储介质
US20210383171A1 (en) * 2020-06-05 2021-12-09 Adobe Inc. Unified referring video object segmentation network
CN115035455A (zh) * 2022-06-21 2022-09-09 浙江大学 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210383171A1 (en) * 2020-06-05 2021-12-09 Adobe Inc. Unified referring video object segmentation network
CN113592881A (zh) * 2021-08-03 2021-11-02 深圳思谋信息科技有限公司 图片指代性分割方法、装置、计算机设备和存储介质
CN115035455A (zh) * 2022-06-21 2022-09-09 浙江大学 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HENGHUI DING等: "Vision-Language Transformer and Query Generation for Referring Segmentation", 《PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, pages 16321 - 16330 *
XIZHOU ZHU等: "DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION", 《ARXIV:2010.04159V1 [ CS.CV]》, pages 1 - 12 *

Similar Documents

Publication Publication Date Title
US10691899B2 (en) Captioning a region of an image
WO2020140487A1 (zh) 用于智能设备的人机交互语音识别方法及系统
WO2019232099A1 (en) Neural architecture search for dense image prediction tasks
CN110765966A (zh) 一种面向手写文字的一阶段自动识别与翻译方法
CN111260740A (zh) 一种基于生成对抗网络的文本到图像生成方法
CN105183720A (zh) 基于rnn模型的机器翻译方法和装置
CN114676234A (zh) 一种模型训练方法及相关设备
CN116308754B (zh) 一种银行信贷风险预警系统及其方法
CN111598183A (zh) 一种多特征融合图像描述方法
CN114863407B (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
EP4318313A1 (en) Data processing method, training method for neural network model, and apparatus
US20240046067A1 (en) Data processing method and related device
CN115222998B (zh) 一种图像分类方法
Cui et al. Representation and correlation enhanced encoder-decoder framework for scene text recognition
Han et al. L-Net: lightweight and fast object detector-based ShuffleNetV2
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
Yuan et al. SSoB: searching a scene-oriented architecture for underwater object detection
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN112634174B (zh) 一种图像表示学习方法及系统
CN117197632A (zh) 一种基于Transformer的电镜花粉图像目标检测方法
Qiao et al. Two-Stream Convolutional Neural Network for Video Action Recognition.
CN111339734A (zh) 一种基于文本生成图像的方法
CN116434058A (zh) 基于视觉文本对齐的影像描述生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination