CN114494297B - 处理多种先验知识的自适应视频目标分割方法 - Google Patents
处理多种先验知识的自适应视频目标分割方法 Download PDFInfo
- Publication number
- CN114494297B CN114494297B CN202210105882.2A CN202210105882A CN114494297B CN 114494297 B CN114494297 B CN 114494297B CN 202210105882 A CN202210105882 A CN 202210105882A CN 114494297 B CN114494297 B CN 114494297B
- Authority
- CN
- China
- Prior art keywords
- target
- video
- convolution kernel
- feature map
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 title claims abstract description 14
- 230000003044 adaptive effect Effects 0.000 title claims description 13
- 230000000007 visual effect Effects 0.000 claims abstract description 55
- 238000010586 diagram Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims abstract description 14
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 101150055297 SET1 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了处理多种先验知识的自适应视频目标分割方法。本发明方法首先对含目标掩膜及描述语句的视频进行采样,并利用时空编码器获得时空视觉特征图;然后构建目标先验自适应编码器,将不同形式的先验知识统一编码为目标卷积核;再通过级联目标过滤器使用目标卷积核将时空视觉特征图中的目标与背景相分离,得到目标的概率张量;最后利用Adam算法优化分割网络模型,对包含先验知识的新视频依次通过上述步骤获得目标的预测掩膜。本发明方法提供了端到端的训练模型,既能自适应处理给定的目标掩膜或描述语句等先验知识,还能有效刻画目标先验知识与视频帧外观特征之间的时空关系,有利于更为准确高效地分割视频的重要目标。
Description
技术领域
本发明属于计算机视觉技术领域,尤其是视觉目标分割领域,涉及一种处理多种先验知识的自适应视频目标分割方法。
背景技术
在互联网时代,视频作为信息交换的重要媒介,相比图像数据,为人们生活方式和工作方式的革新带来更大的推动作用。而视频中的前景目标往往是大家最为关注的对象,视频目标分割是指提取视频帧中的感兴趣物体,如前景目标,该类技术近年来得到了快速发展,并广泛应用于视频编辑、影视特效、视频会议等实际领域。
具体地,视频目标分割通过对视频帧的时空关系建模,从而提取视频内的感兴趣物体对应的像素级别标记矩阵,即目标掩膜。该矩阵的元素值表示视频帧的像素类别,其中前景目标像素标为1,其他则为0。在一个视频中往往存在多个物体,一般需要指定其中单个或多个物体作为目标,并提供其先验知识,如目标掩膜。常见的目标先验知识表现形式有两种:视频首帧的真实掩膜和描述目标的语句。相应地,视频目标分割可分为两种:1)半监督视频目标分割:给定视频首帧真实掩膜,获取像素级别的目标类别;2)基于描述语句的视频目标分割:给定目标描述语句,通过语言描述指定目标。在现实应用中,经常遇到多种先验知识交叉的场景,对有些视频给定首帧真实掩膜,而对另一些视频给定目标描述语句,这就需要视频目标分割模型自适应地有效处理多种先验知识。
现有方法需要设计多个不同的算法模型才能够处理不同的目标先验知识。例如,针对半监督视频目标分割,一般利用卷积神经网络提取视频帧的特征表示,采用匹配或在线学习的方式实现分割。其中,基于匹配的方式一般通过计算成对视频帧特征表示的逐像素相似度,并据此从给定真实掩膜中获取逐像素的类别估计,从而判断视频帧的每个像素是否属于目标。而基于在线学习的方法基于给定真实掩膜构建训练样本,利用全卷积神经网络在线学习新输入样本的目标特征表示,有利于判断后续视频帧的目标与背景。此外,针对基于描述语句的视频目标分割同样利用卷积神经网络进行特征提取,并利用预训练语言模型获得描述语句的特征向量,然后设计不同的特征融合模块处理视觉特征与语言特征,输出预测的目标掩膜。
上述方法的不足点主要表现在两方面:1)单一方法无法同时利用不同类型的目标先验知识用于指定视频内的目标对象,在实际应用中无法自适应地接受目标掩膜或描述语句等目标指定信息并完成分割;2)为了在统一框架下实现半监督视频目标分割与基于描述语句的视频目标分割,需要集成多个方法,造成集成模型的复杂度过高且无法进行端到端训练。为了解决上述问题,迫切需要设计能够统一处理多种不同的目标先验知识且能端到端训练的视频目标分割方法。
发明内容
本发明的目的就是针对现有技术的不足,提出了一种处理多种先验知识的自适应视频目标分割方法,利用自适应编码器处理多种不同形式的目标先验知识,并通过刻画视觉帧外观特征与目标先验之间的内在关系将目标准确地从视频帧背景中分离出来,从而满足现实应用中不同目标指定方式下的分割需求。
本发明方法获取含有目标掩膜及描述语句的视频数据集合后,依次进行如下操作:
步骤(1)对视频进行帧采样后获得视频帧序列,将其输入由残差卷积网络与自注意力模块构成的时空编码器,获得时空视觉特征图集合;
步骤(2)构建目标先验自适应编码器,其输入为视频首帧掩膜与描述语句、时空视觉特征图集合,并输出目标卷积核矩阵;
步骤(3)构建级联目标过滤器,将目标卷积核与时空视觉特征图集合作为输入,获得目标概率张量;
步骤(4)将时空编码器、目标先验自适应编码器以及级联目标过滤器合并组成分割网络,使用交叉熵损失函数进行模型优化,获得已训练的目标分割网络;
步骤(5)对新视频进行帧采样后,将视频目标先验知识及帧序列输入已训练的分割网络中,输出新视频对应的预测目标掩膜。
进一步,步骤(1)具体是:
(1-1)对输入视频进行均匀采样,获得视频帧序列t表示视频帧的时刻下标,T为视频帧数目,H为视频帧的高度,W为视频帧的宽度;给定所有视频帧的真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T},其中Pt是维度为H×W的二值矩阵,元素值为1表示对应位置的视频帧像素属于目标,元素值为0表示背景;
(1-2)构建由残差卷积网络与自注意力模块构成的时空编码器,其中残差卷积网络已去除最后的全局池化层与全连接层;
(1-3)将N个连续视频帧{It,It+1,...,It+N-1}依次输入时空编码器中的残差卷积网络,获得视觉特征图集合c表示视觉特征图的通道数,且c1<c2<c3,h和w表示集合中视觉特征图的高度和宽度,且依次为视频帧高度H与宽度W的1/4、1/8与1/16,而视觉特征图F的下标也用于表示高度与宽度的缩放比例;
其中,LN(·)表示层归一化操作,MLP(·)表示两个级联的线性层,softmax(·)表示归一化指数函数,Wq、Wk与Wv均为可学习参数,其维度均为C×c3,C=256,特征矩阵Q、K和V的维度均为(Nh3w3)×C,中间特征矩阵的维度为(Nh3w3)×C,Nh3w3=N×h3×w3;
又进一步,步骤(2)具体是:
(2-1)构建目标先验自适应编码器,具体构成包括:由多个卷积层组成的掩膜编码器、由注意力模块与线性层组成的预训练语言模型、语言嵌入层、目标先验控制层与三个基于注意力机制的目标卷积核生成器;将视频第一帧的掩膜P1∈{0,1}H×W输入由多个卷积层组成的掩膜编码器,获得掩膜特征图具体是:
其中,Conv2D(·)表示卷积核为3×3的2D卷积层,BN(·)表示批归一化操作,ReLU(·)表示线性整流函数,MaxPool(·)表示全局池化操作,Repeat(·)表示复制操作,此处将维度为h3×w3×C的张量复制N次,表示初始掩膜特征图,表示中间掩膜特征图;
(2-2)将视频对应的描述语句,即由多个单词组成的集合{word1,word2,…,worde}输入预训练语言模型BERT,获得语言特征向量其中worde表示描述语句中的第e个单词,C0=768为特征向量的长度。
其中,Linear(·)表示线性层,tanh(·)表示双曲正切函数,Repeat(·)表示复制操作,此处将维度为C的向量复制N×h3×w3次,L′为初始语言特征向量,L″为中间语言特征向量;
Q′=LN(U1)W′q,K′=LN(O)W′k,V′=LN(O)W′v,
再进一步,步骤(3)具体是:
(3-1)构建级联目标过滤器,级联目标过滤器由三个具有相同结构的目标过滤器,以及掩膜预测层组成,目标过滤器由卷积层、双线性上采样组成;
(3-2)将时空视觉特征图集合中和以及初级目标卷积核矩阵输入第一个目标过滤器,获得初级目标过滤特征图具体是:其中,θ1(·)与均表示卷积核大小为3×3的卷积层,并且卷积层的输出通道数均为C,*表示将右侧输入作为卷积核与左侧输入进行1×1卷积操作;
(3-3)将初级目标过滤特征图通过双线性上采样放大特征图分辨率至h2×w2,即与时空视觉特征图集合中以及中级目标卷积核矩阵输入第二个目标过滤器,获得中级目标过滤特征图具体是:其中,θ2(·)与均表示卷积核大小为3×3的卷积层;
(3-4)将中级目标过滤特征图通过双线性上采样放大特征图分辨率至h1×w1,即与时空视觉特征图集合中以及高级目标卷积核矩阵输入第三个目标过滤器,获得高级目标过滤特征图具体是:其中,θ3(·)与均表示卷积核大小为3×3的卷积层;
(3-5)将高级目标过滤特征图输入掩膜预测层,获得目标概率张量其中,ρ(·)表示卷积核大小为3×3的卷积层,其输出通道为1,Up(·)表示通过双线性上采样将分辨率从h1×w1放大至视频帧的分辨率H×W,σ(·)表示Sigmoid函数。
更进一步,步骤(4)具体是:
(4-1)将目标概率张量和真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T}作为输入,利用交叉熵损失函数计算损失值其中,表示输入第n个视频帧第i个像素属于目标的概率值,pn,i表示对应第n个视频帧对应的真实目标掩膜第i个像素类别值,为0或1;
(4-2)通过Adam优化器对时空编码器、目标先验自适应编码器和级联目标过滤器构成的分割网络参数进行优化,其中预训练语言模型BERT不参与优化,优化过程中以0.1为间隔循环调整参数α,0≤α≤0.5,获得训练好的目标分割网络。
还进一步,步骤(5)的具体是:
(5-3)根据给定目标先验知识类型调整分割网络结构:目标先验知识为视频首帧掩膜,则将其按照步骤(2-1),步骤(2-4)~(2-7)以及步骤(3)进行操作,并设置参数α=0.5;目标先验知识为描述语句,则将其按照步骤(2-2)~(2-7)以及步骤(3)进行操作,并设置参数α=0;获得各帧的目标概率张量后,将概率大于0.5的元素值设置为1,否则为0,输出预测目标掩膜
本发明提出了一种处理多种先验知识的自适应视频目标分割方法,该方法具有以下几个特点:1)通过目标先验自适应编码器实现对不同目标先验知识的比例控制,能够处理多种目标先验知识如视频首帧掩膜或描述语句;2)通过级联目标过滤器对视频帧外观特征进行卷积操作,并且卷积核参数来自目标先验知识编码的统一目标卷积核,能够逐步将目标从背景中过滤出来;3)通过设计端到端训练的分割网络,并通过其中目标先验自适应编码器与级联目标过滤器自适应处理不同目标先验知识,实现像素级别的目标提取。
本发明适用于存在多种目标先验知识的视频目标分割场景,有益效果包括:1)利用自适应编码器能够根据不同的目标先验知识类型,自适应调整网络结构实现统一的目标编码;2)利用级联目标过滤器刻画目标先验知识与视频帧外观特征之间的时空关系,从而将目标从视频帧的背景中提取出来;3)在统一的框架下设计能够端到端训练的分割网络,能够自适应处理多种目标先验知识并完成视频目标分割。该方法在视频编辑、影视特效、视频会议等领域具有广阔的应用前景。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,一种处理多种先验知识的自适应视频目标分割方法:首先对视频进行帧采样获得视频帧序列,并使用时空编码器在时空域内捕捉上下文信息,获得时空视觉特征图集合;再将目标先验如视频首帧掩膜或描述语句输入目标先验自适应编码器,将目标先验知识统一编码为目标卷积核,其中通过调整目标先验知识的比例可实现任何单一目标先验的编码;接着通过级联目标过滤器,使用目标卷积核将时空视觉特征图中的目标与背景相分离,获得预测目标掩膜。本发明提出的方法既能自适应实现对给定视频首帧目标掩膜或描述语句的视频目标分割任务,又采用端到端的神经网络结构,从而满足实际应用中不同目标指定方式与端到端模型的需求。
处理多种先验知识的自适应视频目标分割方法,获取含有目标掩膜与描述语句的视频数据集合后,进行如下操作:
步骤(1)对视频进行帧采样后获得视频帧序列,将其输入由残差卷积网络与自注意力模块构成的时空编码器,获得时空视觉特征图集合。具体是:
(1-1)对输入视频以30帧为间隔进行均匀采样,获得视频帧序列t表示视频帧的时刻下标,T为视频帧数目,H为视频帧的高度,W为视频帧的宽度;给定所有视频帧的真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T},其中Pt是维度为H×W的二值矩阵,元素值为1表示对应位置的视频帧像素属于目标,元素值为0表示背景;
(1-2)构建由残差卷积网络与自注意力模块构成的时空编码器,其中残差卷积网络已去除最后的全局池化层与全连接层;
(1-3)将N个连续视频帧{It,It+1,...,It+N-1}依次输入时空编码器中的残差卷积网络,获得视觉特征图集合1<N≤5,c表示视觉特征图的通道数,且c1<c2<c3,h和w表示集合中视觉特征图的高度和宽度,且依次为视频帧高度H与宽度W的1/4、1/8与1/16,而视觉特征图F的下标也用于表示高度与宽度的缩放比例;
其中,LN(·)表示层归一化操作,MLP(·)表示两个级联的线性层,softmax(·)表示归一化指数函数,Wq、Wk与Wv均为可学习参数,其维度均为C×c3,C=256,特征矩阵Q、K和V的维度均为(Nh3w3)×C,中间特征矩阵的维度为(Nh3w3)×C,Nh3w3=N×h3×w3;
步骤(2)构建目标先验自适应编码器,其输入为视频首帧掩膜与描述语句、时空视觉特征图集合,并输出目标卷积核矩阵。具体是:
(2-1)构建目标先验自适应编码器,具体构成包括:由多个卷积层组成的掩膜编码器、由注意力模块与线性层组成的预训练语言模型BERT(Bidirectional EncoderRepresentation from Transformer)、语言嵌入层、目标先验控制层与三个基于注意力机制的目标卷积核生成器;将视频第一帧的掩膜P1∈{0,1}H×W输入由多个卷积层组成的掩膜编码器,获得掩膜特征图具体是:
其中,Conv2D(·)表示卷积核为3×3的2D卷积层,BN(·)表示批归一化操作,ReLU(·)表示线性整流函数,MaxPool(·)表示全局池化操作,Repeat(·)表示复制操作,此处将维度为h3×w3×C的张量复制N次,表示初始掩膜特征图,表示中间掩膜特征图;
(2-2)将视频对应的描述语句,即由多个单词组成的集合{word1,word2,…,worde}输入预训练语言模型BERT,获得语言特征向量其中worde表示描述语句中的第e个单词,C0=768为特征向量的长度。
其中,Linear(·)表示线性层,tanh(·)表示双曲正切函数,Repeat(·)表示复制操作,此处将维度为C的向量复制N×h3×w3次,L′为初始语言特征向量,L″为中间语言特征向量;
Q′=LN(U1)W′q,K′=LN(O)W′k,V′=LN(O)W′v,
步骤(3)构建级联目标过滤器,将目标卷积核与时空视觉特征图集合作为输入,获得目标概率张量。具体是:
(3-1)构建级联目标过滤器,级联目标过滤器由三个具有相同结构的目标过滤器,以及掩膜预测层组成,目标过滤器由卷积层、双线性上采样组成;
(3-2)将时空视觉特征图集合中和以及初级目标卷积核矩阵输入第一个目标过滤器,获得初级目标过滤特征图具体是:其中,θ1(·)与均表示卷积核大小为3×3的卷积层,并且卷积层的输出通道数均为C,*表示将右侧输入作为卷积核与左侧输入进行1×1卷积操作;
(3-3)将初级目标过滤特征图通过双线性上采样放大特征图分辨率至h2×w2,即与时空视觉特征图集合中以及中级目标卷积核矩阵输入第二个目标过滤器,获得中级目标过滤特征图具体是:其中,θ2(·)与均表示卷积核大小为3×3的卷积层;
(3-4)将中级目标过滤特征图通过双线性上采样放大特征图分辨率至h1×w1,即与时空视觉特征图集合中以及高级目标卷积核矩阵输入第三个目标过滤器,获得高级目标过滤特征图具体是:其中,θ3(·)与均表示卷积核大小为3×3的卷积层;
(3-5)将高级目标过滤特征图输入掩膜预测层,获得目标概率张量其中,ρ(·)表示卷积核大小为3×3的卷积层,其输出通道为1,Up(·)表示通过双线性上采样将分辨率从h1×w1放大至视频帧的分辨率H×W,σ(·)表示Sigmoid函数。
步骤(4)将时空编码器、目标先验自适应编码器以及级联目标过滤器合并组成分割网络,使用交叉熵损失函数进行模型优化,获得已训练的目标分割网络。具体是:
(4-1)将目标概率张量和真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T}作为输入,利用交叉熵损失函数计算损失值其中,表示输入第n个视频帧第i个像素属于目标的概率值,pn,i表示对应第n个视频帧对应的真实目标掩膜第i个像素类别值,为0或1;
(4-2)通过Adam优化器对时空编码器、目标先验自适应编码器和级联目标过滤器构成的分割网络参数进行优化,其中预训练语言模型BERT不参与优化,优化过程中以0.1为间隔循环调整参数α,0≤α≤0.5,获得训练好的目标分割网络。
步骤(5)对新视频进行帧采样后,将视频目标先验知识及帧序列输入已训练的分割网络中,输出新视频对应的预测目标掩膜。具体是:
(5-3)根据给定目标先验知识类型调整分割网络结构:目标先验知识为视频首帧掩膜,则将其按照步骤(2-1),步骤(2-4)~(2-7)以及步骤(3)进行操作,并设置参数α=0.5;目标先验知识为描述语句,则将其按照步骤(2-2)~(2-7)以及步骤(3)进行操作,并设置参数α=0;获得各帧的目标概率张量后,将概率大于0.5的元素值设置为1,否则为0,输出预测目标掩膜
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (4)
1.处理多种先验知识的自适应视频目标分割方法,其特征在于,该方法获取含有目标掩膜及描述语句的视频数据集合后,依次进行如下操作:
步骤(1)对视频进行帧采样后获得视频帧序列,将其输入由残差卷积网络与自注意力模块构成的时空编码器,获得时空视觉特征图集合;具体是:
(1-1)对输入视频进行均匀采样,获得视频帧序列t表示视频帧的时刻下标,T为视频帧数目,H为视频帧的高度,W为视频帧的宽度;给定所有视频帧的真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T},其中Pt是维度为H×W的二值矩阵,元素值为1表示对应位置的视频帧像素属于目标,元素值为0表示背景;
(1-2)构建由残差卷积网络与自注意力模块构成的时空编码器,其中残差卷积网络已去除最后的全局池化层与全连接层;
(1-3)将N个连续视频帧{It,It+1,...,It+N-1}依次输入时空编码器中的残差卷积网络,获得视觉特征图集合c表示视觉特征图的通道数,且c1<c2<c3,h和w表示集合中视觉特征图的高度和宽度,且依次为视频帧高度H与宽度W的1/4、1/8与1/16,而视觉特征图F的下标也用于表示高度与宽度的缩放比例;
Q=LN(F1/16)Wq,K=LN(F1/16)Wk,V=LN(F1/16)Wv,
其中,LN(·)表示层归一化操作,MLP(·)表示两个级联的线性层,softmax(·)表示归一化指数函数,Wq、Wk与Wv均为可学习参数,其维度均为C×c3,C=256,特征矩阵Q、K和V的维度均为Nh3w3×C,中间特征矩阵的维度为Nh3w3×C,Nh3w3=N×h3×w3;
步骤(2)构建目标先验自适应编码器,其输入为视频首帧掩膜与描述语句、时空视觉特征图集合,并输出目标卷积核矩阵;具体是:
(2-1)构建目标先验自适应编码器,具体构成包括:由多个卷积层组成的掩膜编码器、由注意力模块与线性层组成的预训练语言模型、语言嵌入层、目标先验控制层与三个基于注意力机制的目标卷积核生成器;将视频第一帧的掩膜P1∈{0,1}H×W输入由多个卷积层组成的掩膜编码器,获得掩膜特征图具体是:
其中,Conv2D(·)表示卷积核为3×3的2D卷积层,BN(·)表示批归一化操作,ReLU(·)表示线性整流函数,MaxPool(·)表示全局池化操作,Repeat(·)表示复制操作,此处将维度为h3×w3×C的张量复制N次,表示初始掩膜特征图,表示中间掩膜特征图;
(2-2)将视频对应的描述语句,即由多个单词组成的集合{word1,word2,…,worde}输入预训练语言模型BERT,获得语言特征向量其中worde表示描述语句中的第e个单词,C0=768为特征向量的长度;
其中,Linear(·)表示线性层,tanh(·)表示双曲正切函数,Repeat(·)表示复制操作,此处将维度为C的向量复制N×h3×w3次,L′为初始语言特征向量,L″为中间语言特征向量;
Q′=LN(U1)W′q,K′=LN(O)W′k,V′=LN(O)W′v,
步骤(3)构建级联目标过滤器,将目标卷积核矩阵与时空视觉特征图集合作为输入,获得目标概率张量;
步骤(4)将时空编码器、目标先验自适应编码器以及级联目标过滤器合并组成分割网络,使用交叉熵损失函数进行模型优化,获得已训练的目标分割网络;
步骤(5)对新视频进行帧采样后,将视频目标先验知识及帧序列输入已训练的分割网络中,输出新视频对应的预测目标掩膜。
2.如权利要求1所述的处理多种先验知识的自适应视频目标分割方法,其特征在于,步骤(3)具体是:
(3-1)构建级联目标过滤器,级联目标过滤器由三个具有相同结构的目标过滤器,以及掩膜预测层组成,目标过滤器由卷积层、双线性上采样组成;
(3-2)将时空视觉特征图集合中和以及初级目标卷积核矩阵输入第一个目标过滤器,获得初级目标过滤特征图具体是:其中,θ1(·)与均表示卷积核大小为3×3的卷积层,并且卷积层的输出通道数均为C,*表示将右侧输入作为卷积核与左侧输入进行1×1卷积操作;
(3-3)将初级目标过滤特征图通过双线性上采样放大特征图分辨率至h2×w2,即与时空视觉特征图集合中以及中级目标卷积核矩阵输入第二个目标过滤器,获得中级目标过滤特征图具体是:其中,θ2(·)与均表示卷积核大小为3×3的卷积层;
(3-4)将中级目标过滤特征图通过双线性上采样放大特征图分辨率至h1×w1,即与时空视觉特征图集合中以及高级目标卷积核矩阵输入第三个目标过滤器,获得高级目标过滤特征图具体是:其中,θ3(·)与均表示卷积核大小为3×3的卷积层;
4.如权利要求3所述的处理多种先验知识的自适应视频目标分割方法,其特征在于,步骤(5)的具体是:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210105882.2A CN114494297B (zh) | 2022-01-28 | 2022-01-28 | 处理多种先验知识的自适应视频目标分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210105882.2A CN114494297B (zh) | 2022-01-28 | 2022-01-28 | 处理多种先验知识的自适应视频目标分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114494297A CN114494297A (zh) | 2022-05-13 |
CN114494297B true CN114494297B (zh) | 2022-12-06 |
Family
ID=81476974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210105882.2A Active CN114494297B (zh) | 2022-01-28 | 2022-01-28 | 处理多种先验知识的自适应视频目标分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494297B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147598B (zh) * | 2022-06-02 | 2023-07-14 | 粤港澳大湾区数字经济研究院(福田) | 目标检测分割方法、装置、智能终端及存储介质 |
CN115442660B (zh) * | 2022-08-31 | 2023-05-19 | 杭州影象官科技有限公司 | 自监督对抗视频摘要提取方法、装置、设备和存储介质 |
CN117152658A (zh) * | 2023-05-10 | 2023-12-01 | 瀚博半导体(上海)有限公司 | 用于视频处理的方法、装置、系统、设备和介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476133A (zh) * | 2020-03-30 | 2020-07-31 | 杭州电子科技大学 | 面向无人驾驶的前背景编解码器网络目标提取方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644429B (zh) * | 2017-09-30 | 2020-05-19 | 华中科技大学 | 一种基于强目标约束视频显著性的视频分割方法 |
CN108596940B (zh) * | 2018-04-12 | 2021-03-30 | 北京京东尚科信息技术有限公司 | 一种视频分割方法和装置 |
CN110555337B (zh) * | 2018-05-30 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 一种指示对象的检测方法、装置以及相关设备 |
US10818014B2 (en) * | 2018-07-27 | 2020-10-27 | Adobe Inc. | Image object segmentation based on temporal information |
CN109165563B (zh) * | 2018-07-27 | 2021-03-23 | 北京市商汤科技开发有限公司 | 行人再识别方法和装置、电子设备、存储介质、程序产品 |
CN110222560B (zh) * | 2019-04-25 | 2022-12-23 | 西北大学 | 一种嵌入相似性损失函数的文本人员搜索方法 |
CN110310293B (zh) * | 2019-07-04 | 2021-08-10 | 北京字节跳动网络技术有限公司 | 人体图像分割方法及设备 |
CN110866938B (zh) * | 2019-11-21 | 2021-04-27 | 北京理工大学 | 一种全自动视频运动目标分割方法 |
CN111738186B (zh) * | 2020-06-28 | 2024-02-02 | 香港中文大学(深圳) | 目标定位方法、装置、电子设备及可读存储介质 |
CN112818955B (zh) * | 2021-03-19 | 2023-09-15 | 北京市商汤科技开发有限公司 | 一种图像分割方法、装置、计算机设备以及存储介质 |
CN113139966B (zh) * | 2021-03-19 | 2022-06-24 | 杭州电子科技大学 | 一种基于贝叶斯记忆的层次级联视频目标分割方法 |
CN112801068B (zh) * | 2021-04-14 | 2021-07-16 | 广东众聚人工智能科技有限公司 | 一种视频多目标跟踪与分割系统和方法 |
CN113538457B (zh) * | 2021-06-28 | 2022-06-24 | 杭州电子科技大学 | 利用多频动态空洞卷积的视频语义分割方法 |
CN113869154B (zh) * | 2021-09-15 | 2022-09-02 | 中国科学院大学 | 根据语言描述的视频动作者分割方法 |
-
2022
- 2022-01-28 CN CN202210105882.2A patent/CN114494297B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476133A (zh) * | 2020-03-30 | 2020-07-31 | 杭州电子科技大学 | 面向无人驾驶的前背景编解码器网络目标提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114494297A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114494297B (zh) | 处理多种先验知识的自适应视频目标分割方法 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN111210435B (zh) | 一种基于局部和全局特征增强模块的图像语义分割方法 | |
Wang et al. | Contextual transformation network for lightweight remote-sensing image super-resolution | |
CN114973049B (zh) | 一种统一卷积与自注意力的轻量视频分类方法 | |
CN113269787A (zh) | 一种基于门控融合的遥感图像语义分割方法 | |
CN113450313B (zh) | 一种基于区域对比学习的图像显著性可视化方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN114898227A (zh) | 一种云图分割方法 | |
CN116630369A (zh) | 基于时空记忆网络的无人机目标跟踪方法 | |
CN111898614B (zh) | 神经网络系统以及图像信号、数据处理的方法 | |
CN116152710A (zh) | 一种基于跨帧实例关联的视频实例分割方法 | |
CN113705575B (zh) | 一种图像分割方法、装置、设备及存储介质 | |
Zhou et al. | Ristra: Recursive image super-resolution transformer with relativistic assessment | |
CN117474817B (zh) | 对合成连续图像进行内容一致化的方法 | |
CN118196405A (zh) | 基于可见光和红外图像特征融合的电力设备语义分割方法 | |
CN117830900A (zh) | 一种无监督视频对象分割方法 | |
Ji et al. | Semantic Segmentation Based on Spatial Pyramid Pooling and Multilayer Feature Fusion | |
Chen et al. | Multi-stage degradation homogenization for super-resolution of face images with extreme degradations | |
CN116543338A (zh) | 一种基于注视目标估计的学生课堂行为检测方法 | |
CN115761476A (zh) | 一种基于稀疏变化自注意力机制的遥感影像变化检测方法 | |
Luo et al. | Super-High-Fidelity Image Compression via Hierarchical-ROI and Adaptive Quantization | |
Gao et al. | Mixed entropy model enhanced residual attention network for remote sensing image compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |