CN111652899B - 一种时空部件图的视频目标分割方法 - Google Patents
一种时空部件图的视频目标分割方法 Download PDFInfo
- Publication number
- CN111652899B CN111652899B CN202010475318.0A CN202010475318A CN111652899B CN 111652899 B CN111652899 B CN 111652899B CN 202010475318 A CN202010475318 A CN 202010475318A CN 111652899 B CN111652899 B CN 111652899B
- Authority
- CN
- China
- Prior art keywords
- space
- time
- target
- feature
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 38
- 238000010586 diagram Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000005096 rolling process Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 5
- 230000000007 visual effect Effects 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种时空部件图的视频目标分割方法,首先使用孪生编码模型,分两个分支:一个分支输入历史帧和掩模捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩模。其次,构建时空部件图,使用图卷积网络,学习时空特征,增强目标的外观和运动模型;并引入通道注意模块,把鲁棒的时空目标模型输出到解码模块。最后,设计平滑精细模块,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。本发明时空部件图模型可生成鲁棒目标外观和运动特征,解决目标遮挡、快速变化及背景杂波问题,进而缓解目标外观变化而导致的视觉目标漂移问题,同时能够提高视频目标分割的性能。
Description
技术领域
本发明涉及一种视频目标分割方法,特别是时空部件图的视频目标分割方法。
背景技术
视频目标分割是在第一帧或参考帧上手动或自动给出特定目标掩模,而后在整个视频序列中的分割这些特定目标。当前方法与实际应用还有很大距离,其中目标遮挡、快速移动、外观变化以及不同实例之间的相似性仍然是主要障碍。文献“Fast video objectsegmentation by reference-guided mask propagation.IEEE on Computer Vision andPattern Recognition,USA,2018:7376-7385”公开了一种视频目标分割方法,使用参考引导的掩模传播方式,将带有标签的参考帧和具有前一帧掩模的当前帧同时用于深度网络,输出目标掩模,取得了一定的效果。但是,该方法使用第一帧中的初始目标掩模来匹配当前帧目标,由于视觉目标分割是变化场景的动态过程,在连续帧中目标外观之间存在很强的时空关系;且简单的叠加参考帧图像和目标掩模、以及当前帧图像和前一帧掩模,没有挖掘两帧图像上空间和时域信息,易导致视觉目标的漂移问题,使得视频目标分割失败。且该方法使用多阶段特征解码方式,但不同的阶段具有不同的识别能力,从而导致不同的一致性表现,使用分割的细节有待提升。
发明内容
本发明的目的是要提供一种时空部件图的视频目标分割方法,解决目标外观变化而导致的视觉目标漂移问题,并解决多阶段特征一致性表现,提高目标分割细节。
为了实现上述技术目的,本发明采用如下技术方案:
一种时空部件图神经网络的视频目标分割方法,包括以下几个步骤:
S1、使用孪生编码模型构建时空孪生编码模块,所述孪生编码模型分两个分支:一个分支输入历史帧和掩模捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩模;
S2,构建时空部件图,使用图卷积网络,学习时空特征,增强目标的外观和运动模型;并引入通道注意模块,把鲁棒的时空目标模型输出到解码模块;
S3,设计平滑精细模块,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。
进一步的,步骤S1具体包括:
S1.1、时空孪生框架有两个分支:第一个分支的输入为一个图像-掩模对即当前帧t帧图像xt和前一帧视频目标的二进制掩模/>的拼接,H和W为图像帧的高度和宽度,与输入的视频图像有关;第二个分支的输入为t-1到t-K的时空历史多帧图像与掩模对,即/>
S1.2、在得到ResNet50中第5阶段的图像特征之后,使用全局卷积模块生成图像特征,即第一个分支的输出为zt和第二个分支的输出为{zt-K,...,zt-1};
其中,h×w是特征尺寸大小,C1为特征的通道数;zt-1与zt-K的维度相同;
S1.3、将这些特征输入到时空部件图卷积网络中,以处理后输出到解码模块。
进一步的,步骤S2具体包括:
S2.1、构建时空部件外观模型
首先,把时空孪生框架中第二个分支的输出{zt-K,...,zt-1}生成为一个时空部件外观模型,在具有N=h×w个部件和K帧上构建了一个无向时空部件图GST=(V,E),这些帧K具有帧内和帧间部件的关系;
其中,V是无向时空部件图中的节点集,V={vkn|k=t-1,...,t-K;n=1,...,N}包含所有K中所有的节点,其中,vkn为一个节点,F(vkn)为特征向量;
E是无向时空部件图中的边集,边集E包含两类边:第一类是空间边ES表示每一帧图像特征中帧内节点之间的关系,表示为ES={vkivkj|1≤i,j≤N,i≠j};
第二类为时序边ET表示帧间节点之间的关系,将连续帧中具有相同位置的部件连接,即ET={vkjv(k+1)j};
基于上述无向时空图,使用图卷积网络对其中节点之间关系进行处理,用图卷积实现,首先,基于无向时空部件图GST关系确定了邻近矩阵A的权重;其次,将邻近矩阵和特征矩阵H(0)表示为图卷积网络的输入,而图卷积网络的输出为更新H(l+1):
其中,Θ是需要训练的特定于层的权重矩阵,I为单位矩阵,ReLU(·)为非线性激活函数;
使用两层图卷积网络,输出矩阵为其中/>最后,通过最大池化聚合了时空部件特征/>
其次,时空部件的图卷积网络模块的输入有两个部分,已经生成了时空部件特征模型zST,而另一个部分为当前帧图像特征模型zt,构建一个无向空间部件图GS,无向空间部件图GS与上述无向时空部件图GST相似,不同之处只在于帧的数量,即无向空间部件图GS的图像帧为1,而无向时空部件图GST的图像帧为K,之后,与上述两层图卷积网络处理步骤相同,获得空间部件特征
S2.2、生成鲁棒统一时空部件外观模型
接下来,将时空部件特征zST和空间部件特征zS进行通道对齐,拼接为一个整体特征,此时,使用全局卷积模块将这个特征的两个部分进行特征匹配,这一模块中所有卷积层的产生的特征图的通道都为256,输出特征为Z;
最后,时空部件外观模型和空间部件外观模型的输出特征具有不同的特性,采用注意机制为所有的特征分配不同的权重,即特征通道选择,用下列非线性变换把特征Z变换为
其中,ψ,fGAP分别表示逐通道乘法、Sigmoid激活函数、ReLU激活函数和全局平均池化;此外,θ1和θ2为卷积层权重,为了优化特征图,使用残差模块提升边缘细节。
进一步的,步骤S3具体包括:
解码模块将步骤S1统一时空目标外观特征作为输入,并与编码模型中的当前帧中生成的特征进行连接,产生图像帧中目标掩码输出;
解码模块包含三个平滑精细模块,再添加一个卷积层和一个Softmax层组成,其中,平滑精细模块有两个输入:
一是从上一阶段特征,进行了两倍上采样;
二是从编码模块相同阶段特征:首先使用3×3卷积层,其作用是将通道数统一为256;中间使用两个残差模块优化特征图,通道注意机制模块合并两个特征图,而通道注意机制模块与步骤S2中特征通道选择的操作相似,不同之处在于两个特征图拼接之后再进行加操作;
接下来,Softmax层之后掩模输出的尺寸为输入图像的0.25倍,每一个目标都有生成一个两通道掩模图,即输出目标掩模。
进一步的,还包括步骤S4模型训练与推理:
S4.1、进行模型训练,使用从静态图像生成的仿真图像对进行网络预训练,把真实图像和目标掩模作为编码模块的K帧图像,而真实图像的仿真图像和目标掩模作为编码模块的下部分输入;
S4.2、在视频目标分割数据集上微调此预训练模型,即使用DAVIS-2016和DAVIS-2017的训练数据集,分辨率为480p;
为了更好地估计训练中在测试时发生的掩模错误传播,将时间窗口大小K设置为3,即使用来自视频的随机时间索引的K+1个连续目标帧,最后一个图像帧作为分割的当前帧;此外,使用最小化交叉熵损失,用Adam优化器以1e-5的学习率训练模型;
S4.3、推理目标分割中,用半监督方式给出了第一帧的真实掩模,依次估计其余帧的掩模,在初始化时,将第一帧重复K次做为参考帧与掩模,K设置为3;
在视频目标分割过程中,使用间隔3来更新参考帧图像与掩模;
此外,对于每个间隔帧,删除一个样本,再添加新的样本。
进一步的,所述基础网络的权重在同一输入的每个网络之间共享。
本发明有益效果,
由于采用了上述方案,构建时空部件图卷积网络,利用历史帧信息,生成时空部件特征;并借助注意机制,构建更好的特征表示。可生成鲁棒目标外观和运动特征,解决目标遮挡、快速变化及背景杂波等问题,进而缓解目标外观变化而导致的视觉目标漂移问题;同时在解码模型,构建平滑精细模块加入注意机制模块,合并多尺度上下文中相邻阶段的特征,处理不同尺度目标的分割,增加目标边缘细节信息,能够提高视频目标分割的性能。
附图说明
图1本发明中时空部件图的视频目标方法框架图。
图2全局卷积模块框架图和残差模块框架图。
具体实施方式
实施例1:主要包括三个部分:时空孪生编码模块、时空部件图神经网络模块以及注意机制的平滑精细解码模块,最后进行模型训练与推理。首先使用孪生编码模型,分两个分支:一个分支输入历史帧和掩模捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩模。其次,构建时空部件图,使用图卷积网络,学习时空特征,增强目标的外观和运动模型;并引入通道注意模块,把鲁棒的时空目标模型输出到解码模块。最后,设计平滑精细模块,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。其特点是包括以下步骤:
(1)时空孪生编码模块
(a)首先,时空孪生框架有两个分支:第一个分支的输入为一个图像-掩模对即当前帧t帧图像xt和前一帧视频目标的二进制掩模/>的拼接,H和W为图像帧的高度和宽度,与输入的视频图像有关;而第二个分支的输入为t-1到t-K的时空历史多帧图像与掩模对,即/>此处K=3。本发明中的两个分支都使用ResNet50做为基础网络,网络的权重在同一输入的每个网络之间共享。
(b)在得到ResNet50中第5阶段(Res 5)的图像特征之后,使用全局卷积模块生成图像特征,即第一个分支的输出为zt和第二个分支的输出为{zt-K,...,zt-1},提升了网络的分类和密集像素定位能力,且可提高处理效率。中h×w是特征尺寸大小,C1为特征的通道数(此处C1设为512)。下一步,将这些特征输入到时空部件图卷积网络中,以处理后输出到解码模块。其中,全局卷积模块先组合1×7+7×1和7×1+1×7的卷积层,即进行加操作,再增加一个残差模块。而残差模块先将特征进行两个ReLU和3×3的卷积,再与原特征进行加操作。
(2)时空部件图神经网络模块
本步骤,将构建一个基于部件(节点)的结构化图表示模型,把zt生成为一个空间目标部件外观模型,同时把{zt-K,...,zt-1}生成为一个时空部件外观模型;之后,通过融合两个外观模型,生成鲁棒的统一时空部件外观模型。具体如下:
(a)构建时空部件外观模型
首先,把{zt-K,...,zt-1}生成为一个时空部件外观模型。在具有N=h×w个部件(节点)和K(即t-K,…,t-1)帧上构建了一个无向时空部件图GST=(V,E),这些帧K具有帧内和帧间部件(节点)的关系。V和E是无向时空部件图中的节点集和边集。其中,节点集V={vkn|k=t-1,...,t-K;n=1,...,N}包含所有K中所有的节点,其中vkn为一个节点,F(vkn)为特征向量。此外,边集E包含两类边:第一类是空间边ES表示每一帧图像特征中帧内节点之间的关系,表示为ES={vkivkj|1≤i,j≤N,i≠j}。鉴于图像中目标部件具有各种变化,会出现各种相互关系,我们采用完全连接图来描述空间关系。第二类为时序边ET表示帧间节点之间的关系,我们将连续帧中具有相同位置的部件(节点)连接,即ET={vkjv(k+1)j}。也可看为一个特定部件随着时间的跟踪轨迹。
基于上述无向时空图,使用图卷积网络对其中节点之间关系进行处理,用图卷积实现。首先,基于图GST关系确定了邻近矩阵A的权重;其次,将邻近矩阵和特征矩阵H(0)表示为图卷积网络的输入,而图卷积网络的输出为更新H(l+1):
其中,Θ是需要训练的特定于层的权重矩阵,I为单位矩阵,ReLU(·)为非线性激活函数。本发明中使用两层图卷积网络,输出矩阵为其中/>此处C2=256。最后,通过最大池化聚合了时空部件特征/>
其次,时空部件的图卷积网络模块的输入有两个部分,已经生成了时空部件特征模型zST,而另一个部分为当前帧图像特征模型zt。构建一个无向空间部件图GS,GS与上述图GST相似,不同之处只在于帧的数量,即GS的图像帧为1,而GST的图像帧为K。之后,与上述两层图卷积网络处理步骤相同,获得空间部件特征
(b)生成鲁棒统一时空部件外观模型
接下来,将时空部件特征zST和空间部件特征zS进行通道对齐,拼接为一个整体特征。此时,使用全局卷积模块将这个特征的两个部分进行特征匹配。这一模块中所有卷积层的产生的特征图的通道都为256,输出特征为Z。
最后,时空部件外观模型和空间部件外观模型的输出特征具有不同的特性,采用注意机制为所有的特征分配不同的权重,即特征通道选择,用下列非线性变换把特征Z变换为
其中,ψ,fGAP分别表示逐通道乘法、Sigmoid激活函数、ReLU激活函数和全局平均池化。此外,θ1和θ2为卷积层权重。为了优化特征图,使用残差模块提升边缘细节。
(3)注意机制的平滑精细解码模块
解码模块将步骤(2)统一时空目标外观特征作为输入,并与编码模型中的当前帧中生成的特征进行连接,产生图像帧中目标掩码输出。根据编码模型中ResNet50特征图的尺寸,可以分为五个阶段,不同的阶段具有不同的识别能力,从而导致不同的一致性表现。在较低的阶段,网络对较精细的空间信息进行编码,但是没有空间上下文指导,且处理的视野较小,使得语义一致性较差。而较高阶段时,处理视野较大,具有很强语义一致性,但预测的空间像素比较粗糙,这样就可以结合其优势,使用平滑精细模块,加入注意机制模块,合并多尺度上下文中相邻阶段的特征。
解码模块包含三个平滑精细模块,再添加一个卷积层和一个Softmax层组成。其中,平滑精细模块有两个输入:一是从上一阶段特征,进行了两倍上采样;二是从编码模块相同阶段特征:首先使用3×3卷积层,其作用是将通道数统一为256。中间使用两个残差模块优化特征图,通道注意机制模块合并两个特征图。而通道注意机制模块与步骤(2)中特征通道选择的操作相似,不同之处在于两个特征图拼接之后再进行加操作。接下来,Softmax层之后掩模输出的尺寸为输入图像的0.25倍,每一个目标都有生成一个两通道掩模图(背景图和前景图),即输出目标掩模。
(4)模型训练与推理
时空部件图的方法模型构建之后,进行训练与推理。首先进行模型训练,使用从静态图像生成的仿真图像对进行网络预训练。把真实图像和目标掩模作为编码模块的K帧图像,此外K=1,而真实图像的仿真图像和目标掩模作为编码模块的下部分输入。之后,在视频目标分割数据集上微调此预训练模型,即使用DAVIS-2016和DAVIS-2017的训练数据集,分辨率为480p。为了更好地估计训练中在测试时发生的掩模错误传播,将时间窗口大小K设置为3,即使用来自视频的随机时间索引的K+1个连续目标帧,最后一个图像帧作为分割的当前帧。此外,使用最小化交叉熵损失,用Adam优化器以1e-5的学习率训练模型。
其次,推理目标分割中,用半监督方式给出了第一帧的真实掩模,依次估计其余帧的掩模。在初始化时,将第一帧重复K次做为参考帧与掩模,K设置为3。在视频目标分割过程中,使用间隔3来更新参考帧图像与掩模,这样可以有效记忆历史信息。此外,对于每个间隔帧,删除一个样本,再添加新的样本。这样可减少编码模块特征计算内存和时间,使得推理更加高效。
Claims (5)
1.一种时空部件图的视频目标分割方法,其特征在于,包括以下几个步骤:
S1、使用孪生编码模型构建时空孪生编码模块,所述孪生编码模型分两个分支:一个分支输入历史帧和掩模捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩模;
S2,构建时空部件图,使用图卷积网络,学习时空特征,增强目标的外观和运动模型;并引入通道注意模块,把鲁棒的时空目标模型输出到解码模块;
S3,设计平滑精细模块,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标;
步骤S2具体包括:
S2.1、构建时空部件外观模型
首先,把时空孪生框架中第二个分支的输出{zt-K,...,zt-1}生成为一个时空部件外观模型,在具有N=h×w个部件和K帧上构建了一个无向时空部件图GST=(V,E),这些帧K具有帧内和帧间部件的关系;
其中,V是无向时空部件图中的节点集,V={vkn|k=t-1,...,t-K;n=1,...,N},包含所有K中所有的节点,其中,vkn为一个节点,F(vkn)为特征向量;
E是无向时空部件图中的边集,边集E包含两类边:第一类是空间边ES,表示每一帧图像特征中帧内节点之间的关系,表示为ES={vkivkj|1≤i,j≤N,i≠j};
第二类为时序边ET,表示帧间节点之间的关系,将连续帧中具有相同位置的部件连接,即ET={vkjv(k+1)j};
基于上述无向时空部件图,使用图卷积网络对其中节点之间关系进行处理,用图卷积实现,首先,基于无向时空部件图GST关系确定了邻近矩阵A的权重;其次,将邻近矩阵和特征矩阵H(0)表示为图卷积网络的输入,而图卷积网络的输出为更新H(l+1):
其中,Θ是需要训练的特定于层的权重矩阵,I为单位矩阵,ReLU(·)为非线性激活函数;
使用两层图卷积网络,输出矩阵为其中/>最后,通过最大池化聚合了时空部件特征/>
其次,时空部件的图卷积网络模块的输入有两个部分,已经生成了时空部件特征模型zST,而另一个部分为当前帧图像特征模型zt,构建一个无向空间部件图GS,无向空间部件图GS与上述无向时空部件图GST相似,不同之处只在于帧的数量,即无向空间部件图GS的图像帧为1,而无向时空部件图GST的图像帧为K,之后,与上述两层图卷积网络处理步骤相同,获得空间部件特征S2.2、生成鲁棒统一时空部件外观模型
接下来,将时空部件特征zST和空间部件特征zS进行通道对齐,拼接为一个整体特征,此时,使用全局卷积模块将这个特征的两个部分进行特征匹配,这一模块中所有卷积层的产生的特征图的通道都为256,输出特征为Z;
最后,时空部件外观模型和空间部件外观模型的输出特征具有不同的特性,采用注意机制为所有的特征分配不同的权重,即特征通道选择,用下列非线性变换把特征Z变换为
其中,ψ,fGAP分别表示逐通道乘法、Sigmoid激活函数、ReLU激活函数和全局平均池化;此外,θ1和θ2为卷积层权重,为了优化特征图,使用残差模块提升边缘细节。
2.根据权利要求1所述的时空部件图的视频目标分割方法,其特征在于:步骤S1具体包括:
S1.1、时空孪生框架有两个分支:第一个分支的输入为一个图像-掩模对即当前帧t帧图像xt和前一帧视频目标的二进制掩模/>的拼接,H和W为图像帧的高度和宽度,与输入的视频图像有关;第二个分支的输入为t-1到t-K的时空历史多帧图像与掩模对,即/>两个分支都使用ResNet50做为基础网络;
S1.2、在得到ResNet50中第5阶段的图像特征之后,使用全局卷积模块生成图像特征,即第一个分支的输出为zt和第二个分支的输出为{zt-K,...,zt-1};
其中,h×w是特征尺寸大小,C1为特征的通道数;zt-1与zt-K的维度相同;
S1.3、将这些特征输入到时空部件图卷积网络中,以处理后输出到解码模块。
3.根据权利要求1所述的时空部件图的视频目标分割方法,其特征在于:步骤S3具体包括:
解码模块将步骤S1统一时空目标外观特征作为输入,并与编码模型中的当前帧中生成的特征进行连接,产生图像帧中目标掩码输出;
解码模块包含三个平滑精细模块,再添加一个卷积层和一个Softmax层组成,其中,平滑精细模块有两个输入:
一是从上一阶段特征,进行了两倍上采样;
二是从编码模块相同阶段特征:首先使用3×3卷积层,其作用是将通道数统一为256;中间使用两个残差模块优化特征图,通道注意机制模块合并两个特征图,而通道注意机制模块与步骤S2中特征通道选择的操作相似,不同之处在于两个特征图拼接之后再进行加操作;
接下来,Softmax层之后掩模输出的尺寸为输入图像的0.25倍,每一个目标都有生成一个两通道掩模图,即输出目标掩模。
4.根据权利要求1所述的时空部件图的视频目标分割方法,其特征在于,还包括步骤S4模型训练与推理:
S4.1、进行模型训练,使用从静态图像生成的仿真图像对进行网络预训练,把真实图像和目标掩模作为编码模块的K帧图像,而真实图像的仿真图像和目标掩模作为编码模块的下部分输入;
S4.2、在视频目标分割数据集上微调此预训练模型,即使用DAVIS-2016和DAVIS-2017的训练数据集,分辨率为480p;
为了更好地估计训练中在测试时发生的掩模错误传播,将时间窗口大小K设置为3,即使用来自视频的随机时间索引的K+1个连续目标帧,最后一个图像帧作为分割的当前帧;此外,使用最小化交叉熵损失,用Adam优化器以1e-5的学习率训练模型;
S4.3、推理目标分割中,用半监督方式给出了第一帧的真实掩模,依次估计其余帧的掩模,在初始化时,将第一帧重复K次做为参考帧与掩模,K设置为3;
在视频目标分割过程中,使用间隔3来更新参考帧图像与掩模;
此外,对于每个间隔帧,删除一个样本,再添加新的样本。
5.根据权利要求2所述的时空部件图的视频目标分割方法,其特征在于,所述基础网络的权重在同一输入的每个网络之间共享。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010475318.0A CN111652899B (zh) | 2020-05-29 | 2020-05-29 | 一种时空部件图的视频目标分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010475318.0A CN111652899B (zh) | 2020-05-29 | 2020-05-29 | 一种时空部件图的视频目标分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652899A CN111652899A (zh) | 2020-09-11 |
CN111652899B true CN111652899B (zh) | 2023-11-14 |
Family
ID=72348878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010475318.0A Active CN111652899B (zh) | 2020-05-29 | 2020-05-29 | 一种时空部件图的视频目标分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652899B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112414401B (zh) * | 2020-11-06 | 2023-02-28 | 北京理工大学 | 基于图神经网络的无人机协同定位系统及方法 |
CN112288755A (zh) * | 2020-11-26 | 2021-01-29 | 深源恒际科技有限公司 | 基于视频的车辆外观部件深度学习分割方法和系统 |
CN112784701B (zh) * | 2021-01-04 | 2023-11-24 | 北京小米松果电子有限公司 | 一种视频语义分割方法、装置及存储介质 |
US11501447B2 (en) * | 2021-03-04 | 2022-11-15 | Lemon Inc. | Disentangled feature transforms for video object segmentation |
CN113160250A (zh) * | 2021-04-23 | 2021-07-23 | 电子科技大学长三角研究院(衢州) | 一种基于ads-b位置先验的机场场面监控视频目标分割方法 |
CN113450276B (zh) * | 2021-06-29 | 2022-07-08 | 苏州科达科技股份有限公司 | 视频图像增强方法及其模型训练方法、相关设备 |
CN113570607B (zh) * | 2021-06-30 | 2024-02-06 | 北京百度网讯科技有限公司 | 目标分割的方法、装置及电子设备 |
CN113610125B (zh) * | 2021-07-23 | 2023-12-22 | 北京航空航天大学 | 一种基于编码器-解码器图神经网络的高光谱分类方法 |
CN113591868B (zh) * | 2021-07-30 | 2023-09-01 | 南开大学 | 一种基于全双工策略的视频目标分割方法及系统 |
CN113570640B (zh) * | 2021-09-26 | 2021-12-10 | 南京智谱科技有限公司 | 一种视频图像处理的方法及装置 |
CN114120202B (zh) * | 2021-12-01 | 2024-04-30 | 中南大学 | 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法 |
CN115880615B (zh) * | 2023-02-17 | 2023-05-09 | 武汉图科智能科技有限公司 | 一种基于细粒度外观表示的在线多目标跟踪方法 |
CN116246075B (zh) * | 2023-05-12 | 2023-07-21 | 武汉纺织大学 | 一种动态信息与静态信息结合的视频语义分割方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119703A (zh) * | 2019-05-07 | 2019-08-13 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN110211146A (zh) * | 2019-05-16 | 2019-09-06 | 中国人民解放军陆军工程大学 | 视交叉仿真的视频前景分割方法及装置 |
CN110942471A (zh) * | 2019-10-30 | 2020-03-31 | 电子科技大学 | 一种基于时空约束的长时目标跟踪方法 |
CN111126126A (zh) * | 2019-10-21 | 2020-05-08 | 武汉大学 | 一种基于图卷积神经网络的视频智能拆条方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10671855B2 (en) * | 2018-04-10 | 2020-06-02 | Adobe Inc. | Video object segmentation by reference-guided mask propagation |
-
2020
- 2020-05-29 CN CN202010475318.0A patent/CN111652899B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119703A (zh) * | 2019-05-07 | 2019-08-13 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN110211146A (zh) * | 2019-05-16 | 2019-09-06 | 中国人民解放军陆军工程大学 | 视交叉仿真的视频前景分割方法及装置 |
CN111126126A (zh) * | 2019-10-21 | 2020-05-08 | 武汉大学 | 一种基于图卷积神经网络的视频智能拆条方法 |
CN110942471A (zh) * | 2019-10-30 | 2020-03-31 | 电子科技大学 | 一种基于时空约束的长时目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111652899A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652899B (zh) | 一种时空部件图的视频目标分割方法 | |
CN109905624B (zh) | 一种视频帧插值方法、装置及设备 | |
CN109410242B (zh) | 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质 | |
CN108765296B (zh) | 一种基于递归残差注意力网络的图像超分辨率重建方法 | |
CN112435282B (zh) | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 | |
US10789691B2 (en) | Information processing apparatus and information processing method | |
CN111259945B (zh) | 引入注意力图谱的双目视差估计方法 | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN110930309B (zh) | 基于多视图纹理学习的人脸超分辨率方法及装置 | |
CN113177882B (zh) | 一种基于扩散模型的单帧图像超分辨处理方法 | |
CN112132023A (zh) | 基于多尺度上下文增强网络的人群计数方法 | |
CN111179167A (zh) | 一种基于多阶段注意力增强网络的图像超分辨方法 | |
CN113994366A (zh) | 用于视频超分辨率的多阶段多参考自举 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN115546505A (zh) | 一种基于深度学习的无监督单目图像深度估计方法 | |
CN115187638A (zh) | 一种基于光流遮罩的无监督单目深度估计方法 | |
CN110264483B (zh) | 一种基于深度学习的语义图像分割方法 | |
CN113096032A (zh) | 一种基于图像区域划分的非均匀一致模糊去除方法 | |
CN117422653A (zh) | 一种基于权重共享和迭代数据优化的低光照图像增强方法 | |
CN115861647A (zh) | 一种基于多尺度全局交叉匹配的光流估计方法 | |
CN112862723B (zh) | 基于伪3d自相关网络的真实图像去噪方法 | |
CN113538505A (zh) | 一种基于深度学习的单张图片的运动估计系统及方法 | |
Zhou et al. | Real-World Image Super-Resolution Via Spatio-Temporal Correlation Network | |
Synthiya Vinothini et al. | Attention-Based SRGAN for Super Resolution of Satellite Images | |
Liu et al. | Perceptual spatial-temporal video compressive sensing network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |