CN116052040A - 基于多模态查询向量和置信度的指代视频分割方法 - Google Patents
基于多模态查询向量和置信度的指代视频分割方法 Download PDFInfo
- Publication number
- CN116052040A CN116052040A CN202211621709.4A CN202211621709A CN116052040A CN 116052040 A CN116052040 A CN 116052040A CN 202211621709 A CN202211621709 A CN 202211621709A CN 116052040 A CN116052040 A CN 116052040A
- Authority
- CN
- China
- Prior art keywords
- query vector
- features
- video
- mask
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 126
- 230000011218 segmentation Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims description 27
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了基于多模态查询向量和置信度的指代视频分割方法,包括:提取原始视频的视频特征和自然语言描述文本的描述文本特征;基于视频特征和描述文本特征,生成多模态查询向量;对视频特征进行编码,并生成编码器特征;对编码器特征和多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;基于掩码特征和多模态查询向量,生成置信度,并计算新的掩码特征;将新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码;根据损失函数训练模型,最终得到已训练的指代视频分割模型,完成指代视频分割任务。本发明能够让模型理解多模态数据,提高指代视频分割任务的精度,增强其在高度随机的复杂环境下的鲁棒性。
Description
技术领域
本发明属于指代视频分割技术领域,尤其涉及基于多模态查询向量和置信度的指代视频分割方法。
背景技术
指代视频分割(Referring Video Segmentation)任务指的是给定的一个视频中某个对象的自然语言描述文本,按照该描述文本对视频中的目标对象进行分割,即输出视频每一帧的描述对象的分割掩码。本任务是一个新兴的多模态任务,它涉及了计算机视觉和自然语言处理两种技术,要求模型能够深刻理解描述文本与视频中对象的关系,并准确输出分割掩码。通过该技术,可以方便地通过文本找到符合的视频帧,可以应用于视频编辑和视频监控领域。相比于指代图像分割任务,视频任务要求更高,需要处理好前后帧的关系,连贯前后帧的信息。
在现有技术中,一种方法是通过早期融合多模态特征,输入到解码器进行对象分割。但过早地融合视频和描述文本的特征,会使模型无法很好地捕获关键的实例级信息,也难以考虑多个帧之间的对象关联,导致场景的变化会影响掩码的生成。另一种方法是利用实例分割模型,分割出每一帧或者关键帧的实例对象并形成候选轨迹,通过与描述文本一一比对,挑选出与之最匹配的那一帧的分割掩码。这样做的好处是大幅提高了精度,但由于过程繁琐,训练复杂度高,模型的计算开销也大幅提高。还有一种方法是在Transformer编码器-解码器结构中,解码器的查询向量采用固定数量的可学习的位置向量,每个向量用于预测一个物体。但这种做法没有对视频特征和描述文本特征进行匹配,且不能适应指代视频分割任务的高随机性。
发明内容
为解决上述技术问题,本发明提出了基于多模态查询向量和置信度的指代视频分割方法,提高任务的分割精度和分割效率。
为实现上述目的,本发明提供了基于多模态查询向量和置信度的指代视频分割方法,包括:
提取原始视频的视频特征和自然语言描述文本的描述文本特征;
基于所述视频特征和所述描述文本特征,生成多模态查询向量;
对所述视频特征进行编码,并生成编码器特征;
对所述编码器特征和所述多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;
基于所述掩码特征和所述多模态查询向量,生成置信度,并计算新的掩码特征;
将所述新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码;
根据损失函数训练模型。
可选地,生成所述多模态查询向量包括:
对所述视频特征进行预处理,获取视觉特征;
利用所述视觉特征和所述描述文本特征,获取所述多模态查询向量的注意力权重;
基于所述注意力权重,获得所述多模态查询向量。
可选地,对所述视频特征进行预处理,获取所述视觉特征包括:
通过卷积层将所述视频特征的特征维度从H×W×C转成H×W×Nq,获得Nq个H×W大小的特征图;其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,Nq为多模态查询向量的个数;展开所述特征图,获得维度为Nq×(HW)的所述视觉特征,HW为特征图的高乘上特征图的宽的积。
可选地,所述第t帧多模态查询向量的注意力权重为:
可选地,所述多模态查询向量为:
可选地,获取所述预测类别、预测框和掩码特征包括:
将所述视频特征输入Deformable-DETR编码器,获取编码器特征;
将所述编码器特征和所述多模态查询向量输入Deformable-DETR解码器,获取所述预测类别、预测框和掩码特征。
可选地,生成所述置信度包括:
将所述多模态查询向量和所述掩码特征各自经过一个不同的全连接层后,进行拼接;
将拼接结果通过另外两个全连接层生成预设大小的置信度;其中,另外两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。
可选地,获取所述预测类别、预测框和掩码特征后还包括:
设置损失函数,对所述Deformable-DETR解码器进行训练;
所述损失函数为:
与现有技术相比,本发明具有如下优点和技术效果:
本发明提出基于多模态查询向量和置信度的指代视频分割方法,指代视频分割模型基于Transformer编码器-解码器结构,并加入多模态查询向量和置信度来提高任务精度。
加入多模态查询向量后,能够让描述文本特征与视觉特征进行细粒度交互,并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象。
而加入置信度计算模块后,该模块可以自适应地给每个多模态查询向量分配一个置信度,该置信度反映多模态查询向量与图像全局信息的吻合程度。模型通过置信度自适应地选择掩码特征,以生成最符合描述文本所指代对象的掩码。
最终本发明通过加入多模态查询向量和置信度来提高模型指代视频分割任务的精度,增强模型在高度随机的复杂环境下的鲁棒性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的指代视频分割方法流程示意图;
图2为本发明实施例的指代视频分割模型框架示意图;
图3为本发明实施例的多模态查询向量生成的流程示意图;
图4为本发明实施例的多模态查询向量生成器结构示意图;
图5为本发明实施例的相同描述文本,不同视频帧的对比示意图;其中,(a)为描述文本的侧重点是“上方”的示意图,(b)为描述文本的侧重点是“大”的示意图;
图6为本发明实施例的置信度计算模块结构示意图;
图7为本发明实施例的模型掩码生成和损失函数计算流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例
本发明提供了基于多模态查询向量和置信度的指代视频分割方法,包括:
提取原始视频的视频特征和自然语言描述文本的描述文本特征;
基于所述视频特征和所述描述文本特征,生成多模态查询向量;
对所述视频特征进行编码,并生成编码器特征;
对所述编码器特征和所述多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;
基于所述掩码特征和所述多模态查询向量,生成置信度,并计算新的掩码特征;
将所述新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码。
进一步地,生成所述多模态查询向量包括:
对所述视频特征进行预处理,获取视觉特征;
利用所述视觉特征和所述描述文本特征,获取所述多模态查询向量的注意力权重;
基于所述注意力权重,获得所述多模态查询向量。
进一步地,对所述视频特征进行预处理,获取所述视觉特征包括:
通过卷积层将所述视频特征的特征维度从H×W×C转成H×W×Nq,获得Nq个H×W大小的特征图。其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,Nq为多模态查询向量的个数;展开所述特征图,获得维度为Nq×(HW)的所述视觉特征,HW为特征图的高乘上特征图的宽的积。
进一步地,获取所述预测类别、预测框和掩码特征包括:
将所述视频特征输入Deformable-DETR编码器,获取编码器特征;
将所述编码器特征和所述多模态查询向量输入Deformable-DETR解码器,获取所述预测类别、预测框和掩码特征。
进一步地,生成所述置信度包括:
将所述多模态查询向量和所述掩码特征各自经过一个不同的全连接层后,进行拼接;
将拼接结果通过另外两个全连接层生成预设大小的置信度;其中,这两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。
进一步地,获取所述预测类别、预测框和掩码特征后还包括:
设置损失函数,对所述Deformable-DETR解码器进行训练;
所述损失函数为:
本发明采用基于Transformer编码器-解码器结构的指代视频分割模型。通过加入多模态查询向量和置信度,令描述文本特征与视觉特征进行细粒度交互,并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象,最终提高模型指代视频分割任务的精度,增强指代视频分割在高度随机输入的复杂环境下的鲁棒性。
如图1所示,本实施例共分为以下几个步骤:
1.利用视频骨干网络提取提取原始视频的视频特征,利用自然语言骨干网络提取自然语言描述文本的描述文本特征。
2.利用多模态查询向量生成器,通过输入的视频特征和描述文本特征生成多模态查询向量。
3.视频骨干网络最后阶段的输出作为Deformable-DETR编码器的输入。Deformable-DETR编码器特征和多模态查询向量作为Deformable-DETR解码器的输入。
4.把Deformable-DETR解码器的掩码特征和多模态查询向量输入到置信度计算模块,生成置信度,再与掩码特征进行矩阵相乘,通过掩码生成器,获取根据自然语言描述文本预测的分割掩码。
5.利用损失函数,根据Deformable-DETR解码器的预测类别、预测框和掩码特征来计算损失,并不断训练模型,最终得到已训练的指代视频分割模型。
基于多模态查询向量和置信度的指代视频分割模型框架如图2所示。
(1)提取视频特征和自然语言描述文本特征
利用视频骨干网络提取视频特征。视频骨干网络可以是二维或者三维。比如ResNet、Swin Transformer或Video Swin Transformer。
利用自然语言骨干网络提取自然语言描述文本特征。这里采用RoBERTa,它是BERT的改进版,RoBERTa相比于BERT,采用了动态掩码进行预训练,并删除了NSP任务、改进了优化函数、增加了更多训练数据和时间、采用更大的批量大小和更长的序列长度。
(2)多模态查询向量生成器
在现有的视觉Transformer工作中,Transformer解码器的查询向量通常是一组固定数量的可学习的位置向量,每个向量用于预测一个物体。实验表明,每个查询向量都有自己专门针对的物体种类或位置区域。但这个设计隐含了一个必要的假设:输入图像中的物体是按照某种统计规则分布的。这就与具有高随机性的指代视频分割任务相违背了。因为在指代视频分割任务中,描述文本的对象可以是视频中的任意实例。由于视频内容和描述文本都是不受限制的,所以目标对象及其属性的具有高随机性,对象的属性可以是位置、形态、动作、外表等多种不同属性。
为了解决上述问题,可以利用基于注意力机制的多模态查询向量来寻求突破。注意力机制会在所有元素之间建立直接的交互,这能大幅提高模型对全局语义信息的捕捉能力,以适应高随机性的指代视频分割任务。
本发明提出基于注意力机制的多模态查询向量生成器:它以自然语言描述文本为基础,借助视觉特征,产生多个具有不同权重的多模态查询向量。这些多模态查询向量代表了从不同方面、不同角度对描述文本的多样化理解。
综上所述,加入多模态查询向量生成器后,能够让描述文本特征与视觉特征进行细粒度交互,并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象,最终提高模型指代视频分割任务的精度,增强模型在高度随机的复杂环境下的鲁棒性。
多模态查询向量生成的流程示意图如图3所示:假设提取的视频特征为其中第t帧视频帧的视频特征为为了适应T帧的视觉输入,需要把描述文本特征复制T份,分别对第t帧视频帧生成多模态查询向量最后把一共T组的多模态查询向量输入到Deformable-DETR的解码器中。
多模态查询向量生成器结构示意图如图4所示,它用于生成视频第t帧的多模态查询向量每个具有Nq个多模态查询向量首先,设描述文本特征为其中第t帧描述文本特征为Nl为句子长度,不足用零填充。首先将通过提取的视频特征通过卷积层把特征维度从H×W×C转成H×W×Nq,即得到Nq个H×W大小的特征图。其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,Nq为多模态查询向量的个数。
接着利用第t帧的视觉特征和描述文本特征来计算注意力权重。分别通过一个不同的全连接层后,设第t帧的视觉特征 为第t帧第n个视觉特征,Nq为多模态查询向量的个数。设第t帧描述文本特征第i个词对应的描述文本特征为Nl为句子长度。在第t帧,句中第i个词的第n个多模态查询向量的注意力权重是和的乘积:
其中,at为第t帧多模态查询向量的注意力权重,为第t帧的第n个多模态查询向量的注意力权重,它表示一个句子的某一个注意力权重,使得不同的多模态查询向量可以关注描述文本不同的部分,即有Nq种不同的理解方式。
最后,第t帧的多模态查询向量为:
其中,为第t帧的多模态查询向量,Nq为多模态查询向量的个数,为第t帧的第n个多模态查询向量。是一个可学习的参数。每个多模态查询向量中,视觉特征对描述文本特征起到了引导的作用。通过对描述文本中不同单词的特征投影进行加权求和,得到多模态查询向量。它会并输入到后续的Transformer解码器中,作为多模态查询向量查询视频特征。
(3)Transformer编码器-解码器
Transformer编码器-解码器模块采用Deformable-DETR。它由DETR改进得到,缓解了DETR的缓慢收敛和高复杂性的问题,结合了可变形卷积的稀疏空间采样的优点和Transformer的关系建模能力。模型的创新点是提出了可变形注意力模块,只关注参考点周围的一小部分关键采样点。该模块可以无需FPN的帮助,很自然地扩展到聚合多尺度特征。在Deformable-DETR中,利用该模块来代替Transformer注意力模块去处理特征图。可变形注意力模块只关注参考点周围的一小部分关键采样点。COCO数据集上,大量的实验表明Deformable-DETR比DETR有更好的性能,而且训练次数减少10倍,证明了该模型的有效性。
(4)置信度计算模块及生成描述对象的分割掩码
指代视频分割任务中,输入视频和自然语言描述文本都是高度随机的。这种高随机性不只体现在描述文本的对象可以是视频中的任意实例这方面,描述对象的属性也具有高随机性。对于同种类对象,其位置、形态、动作和外表等属性不是固定的,还需要结合视频内容来进行理解,对于不同视频帧,同一个描述文本可能会有不同的侧重点和理解角度。如图5中,在相同视频帧中,对于同一个描述文本“在上方的大云朵”,假设分割的对象是上方用橙色标记出来的云朵,那么对于图5中的(a),描述文本的侧重点是“上方”,而图5中的(b)则是“大”。假如没有视频帧,那么描述文本的自注意力将会同时给予“上方”和“大”较高的权重,但结合了视频帧之后,模型可以结合实际情况,从找出实际视频帧的侧重点,如在图5中的(a)中给予“上方”更大的权重。
上述多模态查询向量帮助模型在初期解决任务的随机性问题。而在后期的掩码生成中,Deformable-DETR解码器为每一帧生成了数个多模态查询向量对应的掩码特征,即模型对描述文本所指代的对象有多个角度的理解。但每一帧最终输出的掩码只有一个,为了平衡上述多个掩码特征,帮助模型生成最符合描述文本所指代对象的掩码,本发明提出置信度计算模块。置信度计算模块可以自适应地给每个多模态查询向量分配一个置信度,该置信度反映多模态查询向量与图像全局信息的吻合程度。最终,模型通过置信度自适应地选择掩码特征,以生成最符合描述文本所指代对象的掩码。
置信度计算模块结构图如图6所示,为了精简,省略了Deformable-DETR解码器输出的预测类别和预测框。模型掩码生成和损失函数计算流程图如图7所示。从多模态查询向量生成器得到第t帧的多模态查询向量与Deformable-DETR解码器输出的掩码特征各自经过一个不同的全连接层后,进行拼接,再通过另外两个不同的全连接层生成大小为Nq×1的置信度值它的每个元素表示每条多模态查询向量与它的预测背景的吻合程度,另外两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。最后每个都与相应的置信度值相乘,得到新掩码特征 最终,通过掩码生成器,获取根据自然语言描述文本预测的分割掩码。掩码生成器包含3个卷积核为3x3的卷积层,用于解码新的掩码特征,并用1个卷积核为1x1的卷积层生成预测的分割掩码。
置信度计算模块算法为:
(5)损失函数
Deformable-DETR解码器除了每帧输出掩码特征外,还会输出其预测类别和预测框因此,对于T帧的视频,指代视频分割模型的预测结果为:假设真值为c为one-hot矩阵,视频帧中出现过的对象类别标1,否则标0。损失函数为:
其中λcls、λbox和λmask是超参数,y为指代视频分割任务的真值,为指代视频分割模型的预测结果。Lcls指Focal loss损失函数,用于解决数据不平衡造成的模型性能问题;Lbox包括L1损失函数和GIoU损失函数;Lmask包括DICE损失函数和Focal loss损失函数。
本实施例提供一种基于多模态查询向量和置信度的指代视频分割方法。指代视频分割模型基于Transformer编码器-解码器结构,并加入多模态查询向量和置信度来提高任务精度和模型鲁棒性。
在指代视频分割方法中,提出了一个利用注意力机制的多模态查询向量生成器:它以自然语言描述文本为基础,借助视觉特征,产生多个具有不同权重的多模态查询向量。这些多模态查询向量代表了从不同方面、不同角度对描述文本的多样化理解。因此,加入多模态查询向量生成器后,能够让描述文本特征与视觉特征进行细粒度交互,并使得模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象。
此外还提出置信度计算模块,该模块可以自适应地给每个多模态查询向量分配一个置信度,该置信度反映多模态查询向量与图像全局信息的吻合程度。模型通过置信度自适应地选择掩码特征,以生成最符合描述文本所指代对象的掩码。
本实施例所提出的模型框架简洁,以Transformer编码器-解码器结构为基础,提供一种基于多模态查询向量和置信度的指代视频分割方法。通过多模态查询向量生成器和置信度计算模块,能够让描述文本特征与视觉特征进行细粒度交互,并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象,最终提高模型指代视频分割任务的精度,增强模型在高度随机的复杂环境下的鲁棒性。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.基于多模态查询向量和置信度的指代视频分割方法,其特征在于,包括:
提取原始视频的视频特征和自然语言描述文本的描述文本特征;
基于所述视频特征和所述描述文本特征,生成多模态查询向量;
对所述视频特征进行编码,并生成编码器特征;
对所述编码器特征和所述多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;
基于所述掩码特征和所述多模态查询向量,生成置信度,并计算新的掩码特征;
将所述新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码。
2.根据权利要求1所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,生成所述多模态查询向量包括:
对所述视频特征进行预处理,获取视觉特征;
利用所述视觉特征和所述描述文本特征,获取所述多模态查询向量的注意力权重;
基于所述注意力权重,获得所述多模态查询向量。
3.根据权利要求2所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,对所述视频特征进行预处理,获取所述视觉特征包括:
通过卷积层将所述视频特征的特征维度从H×W×C转成H×W×Nq,获得Nq个H×W大小的特征图;其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,Nq为多模态查询向量的个数;展开所述特征图,获得维度为Nq×(HW)的所述视觉特征,HW为特征图的高乘上特征图的宽的积。
6.根据权利要求1所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,获取所述预测类别、预测框和掩码特征包括:
将所述视频特征输入Deformable-DETR编码器,获取编码器特征;
将所述编码器特征和所述多模态查询向量输入Deformable-DETR解码器,获取所述预测类别、预测框和掩码特征。
7.根据权利要求1所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,生成所述置信度包括:
将所述多模态查询向量和所述掩码特征各自经过一个不同的全连接层后,进行拼接;
将拼接结果通过另外两个全连接层生成预设大小的置信度;其中,另外两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211621709.4A CN116052040A (zh) | 2022-12-16 | 2022-12-16 | 基于多模态查询向量和置信度的指代视频分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211621709.4A CN116052040A (zh) | 2022-12-16 | 2022-12-16 | 基于多模态查询向量和置信度的指代视频分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116052040A true CN116052040A (zh) | 2023-05-02 |
Family
ID=86124563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211621709.4A Pending CN116052040A (zh) | 2022-12-16 | 2022-12-16 | 基于多模态查询向量和置信度的指代视频分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052040A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592881A (zh) * | 2021-08-03 | 2021-11-02 | 深圳思谋信息科技有限公司 | 图片指代性分割方法、装置、计算机设备和存储介质 |
US20210383171A1 (en) * | 2020-06-05 | 2021-12-09 | Adobe Inc. | Unified referring video object segmentation network |
CN115035455A (zh) * | 2022-06-21 | 2022-09-09 | 浙江大学 | 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质 |
-
2022
- 2022-12-16 CN CN202211621709.4A patent/CN116052040A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210383171A1 (en) * | 2020-06-05 | 2021-12-09 | Adobe Inc. | Unified referring video object segmentation network |
CN113592881A (zh) * | 2021-08-03 | 2021-11-02 | 深圳思谋信息科技有限公司 | 图片指代性分割方法、装置、计算机设备和存储介质 |
CN115035455A (zh) * | 2022-06-21 | 2022-09-09 | 浙江大学 | 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质 |
Non-Patent Citations (2)
Title |
---|
HENGHUI DING等: "Vision-Language Transformer and Query Generation for Referring Segmentation", 《PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, pages 16321 - 16330 * |
XIZHOU ZHU等: "DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION", 《ARXIV:2010.04159V1 [ CS.CV]》, pages 1 - 12 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10691899B2 (en) | Captioning a region of an image | |
WO2020140487A1 (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
WO2019232099A1 (en) | Neural architecture search for dense image prediction tasks | |
CN110765966A (zh) | 一种面向手写文字的一阶段自动识别与翻译方法 | |
CN111260740A (zh) | 一种基于生成对抗网络的文本到图像生成方法 | |
CN105183720A (zh) | 基于rnn模型的机器翻译方法和装置 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN116308754B (zh) | 一种银行信贷风险预警系统及其方法 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN114863407B (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
EP4318313A1 (en) | Data processing method, training method for neural network model, and apparatus | |
US20240046067A1 (en) | Data processing method and related device | |
CN115222998B (zh) | 一种图像分类方法 | |
Cui et al. | Representation and correlation enhanced encoder-decoder framework for scene text recognition | |
Han et al. | L-Net: lightweight and fast object detector-based ShuffleNetV2 | |
CN114973222A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
Yuan et al. | SSoB: searching a scene-oriented architecture for underwater object detection | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN112634174B (zh) | 一种图像表示学习方法及系统 | |
CN117197632A (zh) | 一种基于Transformer的电镜花粉图像目标检测方法 | |
Qiao et al. | Two-Stream Convolutional Neural Network for Video Action Recognition. | |
CN111339734A (zh) | 一种基于文本生成图像的方法 | |
CN116434058A (zh) | 基于视觉文本对齐的影像描述生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |