CN116311002A - 一种基于光流信息的无监督视频目标分割方法 - Google Patents
一种基于光流信息的无监督视频目标分割方法 Download PDFInfo
- Publication number
- CN116311002A CN116311002A CN202310570895.1A CN202310570895A CN116311002A CN 116311002 A CN116311002 A CN 116311002A CN 202310570895 A CN202310570895 A CN 202310570895A CN 116311002 A CN116311002 A CN 116311002A
- Authority
- CN
- China
- Prior art keywords
- convolution
- feature
- output
- characteristic
- optical flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000003287 optical effect Effects 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 48
- 238000010586 diagram Methods 0.000 claims description 36
- 238000011176 pooling Methods 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 12
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于光流信息的无监督视频目标分割方法,所述的基于光流的无监督视频目标分割方法,包括以下步骤:首先设计基于光流信息的视频目标分割网络,然后设计伪目标损失函数,确定训练过程中调节参数的策略,最后训练得到无监督视频目标分割模型,该模型可以将输入的视频中运动的目标分割出来。本发明通过改进深度学习算法可以明显提升视频目标分割的性能,提供了一种无监督视频目标分割方法,大大节省了人力,无需人力标注真实标签,可以较为快速的移植到其他视频目标分割任务中。
Description
技术领域
本发明涉及无监督视频目标分割领域,并且更具体地,涉及一种基于光流信息的无监督视频目标分割方法。
背景技术
无监督视频分割任务近年来显示出越来越突出了作用,它的主要目的是在无人为干涉的情况下分割出视频中的主要运动物体。无监督视频分割广泛地被应用于视频推理,视频理解等领域。其中基于像素匹配和传播的算法可以对模型进行端到端的训练,避免了中间结果的影响,但是相似的物体会有相似的特征表现,因此该种方法会造成物体时域上联系失败。因此在无监督领域,在相似特征中寻找出目标的特征表示来引导学习,这是提升无监督视频对象分割的关键。
公开号为CN113139502A的中国专利公开了“无监督视频分割方法”,提出了同时在时空域挖掘同一视频序列中所有视频帧中目标和背景的语义信息来进行目标的定位,来辅助视频目标分割,这种方法确实可以在一定程度上提升视频目标分割的精度,但是同时读取所有视频帧其网络消耗很大,且这些视频存在大量的冗余信息会对目标对象产生干扰。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了一种基于光流信息的无监督视频目标分割方法,其目的在于通过深度学习算法自动实现对视频目标的分割,在没有真实分割标签的条件下提高对视频中目标的分割精度。
为实验上述目的,按照本发明的一个方面,提供了一种基于光流信息的无监督视频目标分割方法,包括以下步骤:
步骤1,构建基于光流信息的视频目标分割网络;
所述的视频目标分割网络包括两条分支,分别为外观特征提取分支和运动特征提取分支,具体是由外观特征模块,运动特征模块,以及共享的多源信息聚合模块和目标解码模块构成,其中外观分支主要用来提取当前帧的空间图像特征,而运动特征提取分支用来提取光流图中的运动信息,多源信息聚合模块用来将外观特征分支和运动特征分支中的信息融合,目标解码模块用来还原特征图信息;两个特征提取分支的输入不同,由外观特征提取模块组成的外观特征提取分支的输入是当前视频帧图片,而由运动特征提取模块组成的运动特征提取分支的输入是前一视频帧与当前视频帧生成的光流图像,如果当前帧是第一帧,那么两个分支的输入都是当前视频帧;
步骤2,使用视频帧数据集和视频帧对应的光流图,训练视频目标分割网络;
步骤3,利用光流图和当前视频帧生成目标伪标签,使用伪标签损失计算网络输出的分割结果与目标伪标签误差;
步骤4,根据伪标签损失误差,通过反向传播更新视频目标分割网络的参数,重复步骤2到步骤4,直至模型收敛;
步骤5,利用训练好的模型实现视频目标分割。
进一步的,所述的视频目标分割网络具体处理流程如下:
外观特征提取分支由4个外观特征模块组成,分别记为M1,M2,M3和M4,运动特征图提取分支也是有4个运动特征模块组成,分别记为N1,N2,N3和N4,以上这些模块都是按照次序执行的;多源信息聚合模块有3个,分别记为D1,D2和D3,目标解码模块有4个,分别记为B1,B2,B3和B4;D1的输入为M4和N4的输出特征图,D2的输入为M3,N3和B1的输出特征图,D3的输入为M2,N2和B2的输出特征图; B1的输入是D1的输出,B2的输入是D2的输出,B3的输入是D3的输出,B4的输入是B3的输出。
进一步的,多源信息聚合模块和目标解码模块的具体流程为:D1的具体流程是先将M4和N4的输出特征图进行特征相加,再进行1×1分组卷积来信息整合;D2的具体流程是先将M3和N3的输出特征图进行特征相加,然后将得到的特征图与B1的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B1输出特征图的通道数;D3的具体流程是将M2和N2的输出特征图进行特征相加,然后将得到的特征图与B2的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B2输出特征图的通道数;B1的具体流程是使用3×3深度卷积对D1的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B2的具体流程是使用3×3深度卷积对D2的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B3的具体流程是使用3×3深度卷积对D3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B4的具体流程是使用3×3深度卷积对B3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积输出通道数为2的特征图其高宽大小为原图大小,用于区分视频目标中的前景与背景。
进一步的,所述步骤2中的光流图的生成方法,在训练过程中使用的是已经生成好的光流图以提升训练的速度,而在应用过程中采用在线生成光流图的方式。
进一步的,所述步骤3中的伪标签损失函数:
公式中Ft代表视频目标分割网络最终的预测特征图,Gt代表根据当前帧和当前帧对应的光流图生成的伪目标标签,n代表当前视频帧的帧数,ε代表伪标签误差的第二部分权重系数,如果当前帧为第一帧,则伪目标标签为初始设定的一个矩形区域。
进一步的,所述外观特征模块的具体构成如下:
每个外观特征模块中包含有多个外形特征提取卷积块,其中的卷积块采用残差结构,有两条分支,第一条分支包括5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支只包括一个3×3平均池化,这两条分支同时处理输入特征图,然后这两条分支的输出进行特征图的相加得到运动特征提取卷积块的最终输出;这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
进一步的,所述运动特征模块的具体构成如下:
每个运动特征模块中包含有多个运动特征提取卷积块,其中的卷积块采用残差结构,有两条分支,第一条分支包括5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支中有两个小分支,其中一个小分支是3×3平均池化,另一个小分支是3×3最大池化,将这两条小分支的进行特征图拼接,然后使用1×1分组卷积输出通道数为1的特征图;将两条主分支输出的特征图进行特征图相乘得到最终输出,有助于网络对特征显著位置的学习,这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
进一步的,所述外观特征模块中卷积块的设置:M1,M2,M3和M4中的第一个外形特征提取卷积块中的5×5卷积和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积和3×3平均池化的步长为1。
进一步的,所述运动特征模块中卷积块的设置:N1,N2,N3和N4中的第一个运动特征提取卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为1。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)首先通过加深网络的深度结合在运动特征提取卷积块中增加对空间信息的提取,有效的提高模型识别的精确度和模型的学习能力。
(2)使用创新的损失函数,使模型训练的更加关注预测目标标签与伪目标标签的平均差异,同时防止了损失过大的情况。
(3)网络训练无需人工标注的真实目标标签,可以节省人工且可以较快的移植到各种视频目标分割任务中。
附图说明
图1 本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的技术方案流程图。
图2本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的网络框架示意图。
图3本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的外形特征提取卷积块示意图。
图4本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的运动特征提取卷积块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种基于光流信息的无监督视频目标分割方法的技术方案,请参见附图1,图1是实施用例提供的一种基于光流信息的无监督视频目标分割方法的技术方案流程图,具体包含如下步骤:
(1)构建基于光流信息的视频目标分割网络;
所述的视频目标分割网络,请参见附图2,图2是实施用例提供的一种基于光流信息的无监督视频目标分割方法的网络框架示意图。其是由两条分支构成,分别为外观特征提取分支和运动特征提取分支;
具体的,视频目标分割网络是由外观特征模块,运动特征模块,多源信息聚合模块和目标解码模块组合构成的。其中两个特征提取分支的输入不同,由外观特征提取模块组成的外观特征提取分支的输入是当前视频帧图片,而由运动特征提取模块组成的运动特征提取分支的输入是前一视频帧与当前视频帧生成的光流图像,如果当前帧是第一帧,那么两个分支的输入都是当前视频帧,这可以使网络不那么依赖于光流图。
具体的,视频目标分割网络具体处理流程如下:外观特征提取分支由4个外观特征模块组成,分别记为M1,M2,M3和M4,运动特征图提取分支也是有4个运动特征模块组成,分别记为N1,N2,N3和N4,以上这些模块都是按照次序执行的。而多源信息聚合模块有3个,分别记为D1,D2和D3,目标解码模块有4个,分别记为B1,B2,B3和B4。这里D1的输入为M4和N4的输出特征图,D2的输入为M3,N3和B1的输出特征图,D3的输入为M2,N2和B2的输出特征图。这里B1的输入是D1的输出,B2的输入是D2的输出,B3的输入是D3的输出,B4的输入是B3的输出。
其中多源信息聚合模块和目标解码模块的具体流程为:D1的具体流程是先将M4和N4的输出特征图进行特征相加,再进行1×1分组卷积来信息整合。D2的具体流程是先将M3和N3的输出特征图进行特征相加,然后将得到的特征图与B1的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B1输出特征图的通道数。D3的具体流程是将M2和N2的输出特征图进行特征相加,然后将得到的特征图与B2的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B2输出特征图的通道数。B1的具体流程是使用3×3深度卷积对D1的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数。B2的具体流程是使用3×3深度卷积对D2的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数。B3的具体流程是使用3×3深度卷积对D3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数。B4的具体流程是使用3×3深度卷积对B3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积输出通道数为2的特征图其高宽大小为原图大小,用于区分视频目标中的前景与背景。
具体的,外观特征模块和运动特征模块的具体构成。主要注意的是外观特征模块M1,M2,M3和M4中的外形特征提取卷积块数量分别为3,3,9和3,运动特征模块N1,N2,N3和N4中的运动特征提取卷积块数量分别也是3,3,9和3。
其中,每个外观特征模块中包含有多个外形特征提取卷积块,请参见附图3,图3是实施例提供的一种基于光流信息的无监督视频目标分割方法的外形特征提取卷积块示意图,其中的卷积块采用残差结构有两条分支,第一条分支由5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支有一个3×3平均池化,这两条分支同时处理输入特征图,然后这两条分支的输出进行特征图的相加得到运动特征提取卷积块的最终输出。这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
其中,每个运动特征模块中包含有多个运动特征提取卷积块,请参见附图4,图4是实施例提供的一种基于光流信息的无监督视频目标分割方法的运动特征提取卷积块示意图。其中的卷积块采用残差结构有两条分支,第一条分支由5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支中有两个小分支,其中一个小分支是3×3平均池化,另一个小分支是3×3最大池化,将这两条小分支的进行特征图拼接,然后使用1×1分组卷积输出通道数为1的特征图。将两条主分支输出的特征图进行特征图相乘得到最终输出,这个有助于网络对特征显著位置的学习,这里的激活函数设置同上。
具体的,外观特征模块和运动特征模块中卷积块的设置如下:M1,M2,M3和M4中的第一个外形特征提取卷积块中的5×5卷积和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积和3×3平均池化的步长为1。N1,N2,N3和N4中的第一个运动特征提取卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为1。
(2)使用视频帧数据集和视频帧对应的光流图,训练视频目标分割网络;
具体的,在训练过程中使用的是已经生成好的光流图以提升训练的速度,而在应用过程中我们采用在线生成光流图的方式。
(3)利用光流图和当前视频帧生成的目标伪标签,使用伪标签损失计算网络输出的分割结果与目标伪标签误差;
具体的,伪标签损失函数如下:
公式中Ft代表视频目标分割网络最终的预测特征图,Gt代表根据当前帧和当前帧对应的光流图生成的伪目标标签,n代表当前视频帧的帧数,ε代表伪标签误差的第二部分权重系数,其中ε通常取值为1.2,如果当前帧为第一帧,则Gt的伪目标标签为初始设定的一个矩形区域,目标区域参数为[Xx,Xy,Xw,Xh],其中Xx和Xy代表矩形区域的左上坐标,Xw和Xh代表矩形区域的高宽信息,Xx,Xy,Xw和Xh通常设置为特征图高宽的四分之一。这个损失函数可以通过超参数的设置有效的通过预测特征图与伪目标标签误差,调节网络参数的学习,提高视频对象分割准确性。
(4)根据伪标签损失误差,通过反向传播更新视频目标分割网络的参数,重复实施用例(2)到(4),直至模型收敛。
(5)利用训练好的模型实现视频目标分割。
本发明提供一种基于光流信息的无监督视频目标分割方法,我们的模型在无需人工标注的视频目标标签情况下,也可以达到不错的模型识别精度。通过上述实施用例方法设计无监督视频目标分割网络,并训练得到的基于光流信息的无监督视频目标分割模型,在现实情况下的验证中,我们的方法在DAVIS 2017 Unsupervised验证集上的平均交并比达到了80.9%,已达到目前的先进水平。
本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (9)
1.一种基于光流信息的无监督视频目标分割方法,其特征在于,包括以下步骤:
步骤1,构建基于光流信息的视频目标分割网络;
所述的视频目标分割网络包括两条分支,分别为外观特征提取分支和运动特征提取分支,具体是由外观特征模块,运动特征模块,以及共享的多源信息聚合模块和目标解码模块构成,其中外观分支主要用来提取当前帧的空间图像特征,而运动特征提取分支用来提取光流图中的运动信息,多源信息聚合模块用来将外观特征分支和运动特征分支中的信息融合,目标解码模块用来还原特征图信息;两个特征提取分支的输入不同,由外观特征提取模块组成的外观特征提取分支的输入是当前视频帧图片,而由运动特征提取模块组成的运动特征提取分支的输入是前一视频帧与当前视频帧生成的光流图像,如果当前帧是第一帧,那么两个分支的输入都是当前视频帧;
步骤2,使用视频帧数据集和视频帧对应的光流图,训练视频目标分割网络;
步骤3,利用光流图和当前视频帧生成目标伪标签,使用伪标签损失计算网络输出的分割结果与目标伪标签误差;
步骤4,根据伪标签损失误差,通过反向传播更新视频目标分割网络的参数,重复步骤2到步骤4,直至模型收敛;
步骤5,利用训练好的模型实现视频目标分割。
2.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述的视频目标分割网络具体处理流程如下:
外观特征提取分支由4个外观特征模块组成,分别记为M1,M2,M3和M4,运动特征提取分支也是有4个运动特征模块组成,分别记为N1,N2,N3和N4,以上这些模块都是按照次序执行的;多源信息聚合模块有3个,分别记为D1,D2和D3,目标解码模块有4个,分别记为B1,B2,B3和B4; D1的输入为M4和N4的输出特征图,D2的输入为M3,N3和B1的输出特征图,D3的输入为M2,N2和B2的输出特征图; B1的输入是D1的输出,B2的输入是D2的输出,B3的输入是D3的输出,B4的输入是B3的输出。
3.如权利要求2所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:多源信息聚合模块和目标解码模块的具体流程为:D1的具体流程是先将M4和N4的输出特征图进行特征相加,再进行1×1分组卷积来信息整合;D2的具体流程是先将M3和N3的输出特征图进行特征相加,然后将得到的特征图与B1的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B1输出特征图的通道数;D3的具体流程是将M2和N2的输出特征图进行特征相加,然后将得到的特征图与B2的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B2输出特征图的通道数;B1的具体流程是使用3×3深度卷积对D1的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B2的具体流程是使用3×3深度卷积对D2的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B3的具体流程是使用3×3深度卷积对D3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B4的具体流程是使用3×3深度卷积对B3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积输出通道数为2的特征图其高宽大小为原图大小,用于区分视频目标中的前景与背景。
4.如权利要求2所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述外观特征模块的具体构成如下:
每个外观特征模块中包含有多个外形特征提取卷积块,其中的卷积块采用残差结构,有两条分支,第一条分支包括5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支只包括一个3×3平均池化,这两条分支同时处理输入特征图,然后这两条分支的输出进行特征图的相加得到运动特征提取卷积块的最终输出;这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
5.如权利要求2所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述运动特征模块的具体构成如下:
每个运动特征模块中包含有多个运动特征提取卷积块,其中的卷积块采用残差结构,有两条分支,第一条分支包括5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支中有两个小分支,其中一个小分支是3×3平均池化,另一个小分支是3×3最大池化,将这两条小分支的进行特征图拼接,然后使用1×1分组卷积输出通道数为1的特征图;将两条主分支输出的特征图进行特征图相乘得到最终输出,有助于网络对特征显著位置的学习,这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
6.如权利要求4所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述外观特征模块中卷积块的设置:M1,M2,M3和M4中的第一个外形特征提取卷积块中的5×5卷积和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积和3×3平均池化的步长为1。
7.如权利要求5所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述运动特征模块中卷积块的设置:N1,N2,N3和N4中的第一个运动特征提取卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为1。
8.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述步骤2中的光流图的生成方法,在训练过程中使用的是已经生成好的光流图以提升训练的速度,而在应用过程中采用在线生成光流图的方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310570895.1A CN116311002B (zh) | 2023-05-19 | 2023-05-19 | 一种基于光流信息的无监督视频目标分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310570895.1A CN116311002B (zh) | 2023-05-19 | 2023-05-19 | 一种基于光流信息的无监督视频目标分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116311002A true CN116311002A (zh) | 2023-06-23 |
CN116311002B CN116311002B (zh) | 2023-08-11 |
Family
ID=86801764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310570895.1A Active CN116311002B (zh) | 2023-05-19 | 2023-05-19 | 一种基于光流信息的无监督视频目标分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311002B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190355128A1 (en) * | 2017-01-06 | 2019-11-21 | Board Of Regents, The University Of Texas System | Segmenting generic foreground objects in images and videos |
CN111259786A (zh) * | 2020-01-14 | 2020-06-09 | 浙江大学 | 一种基于视频的外观和运动信息同步增强的行人重识别方法 |
CN113283438A (zh) * | 2021-03-25 | 2021-08-20 | 北京工业大学 | 基于多源显著性和时空榜样适配的弱监督视频目标分割方法 |
CN116071748A (zh) * | 2023-01-20 | 2023-05-05 | 南京信息工程大学 | 一种基于频域全局滤波的无监督视频目标分割方法 |
-
2023
- 2023-05-19 CN CN202310570895.1A patent/CN116311002B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190355128A1 (en) * | 2017-01-06 | 2019-11-21 | Board Of Regents, The University Of Texas System | Segmenting generic foreground objects in images and videos |
CN111259786A (zh) * | 2020-01-14 | 2020-06-09 | 浙江大学 | 一种基于视频的外观和运动信息同步增强的行人重识别方法 |
CN113283438A (zh) * | 2021-03-25 | 2021-08-20 | 北京工业大学 | 基于多源显著性和时空榜样适配的弱监督视频目标分割方法 |
CN116071748A (zh) * | 2023-01-20 | 2023-05-05 | 南京信息工程大学 | 一种基于频域全局滤波的无监督视频目标分割方法 |
Non-Patent Citations (3)
Title |
---|
HAOFENG LI ET AL: "Motion Guided Attention for Video Salient Object Detection", PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), pages 7274 - 7283 * |
JINGCHUN CHENG ET AL: "SegFlow: Joint Learning for Video Object Segmentation and Optical Flow", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), pages 686 - 695 * |
赵子成: "高效融合运动与表观信息的无监督视频目标分割算法研究", 信息科技, no. 1 * |
Also Published As
Publication number | Publication date |
---|---|
CN116311002B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108986050B (zh) | 一种基于多分支卷积神经网络的图像和视频增强方法 | |
CN109740465B (zh) | 一种基于实例分割神经网络框架的车道线检测算法 | |
CN111915531B (zh) | 一种多层次特征融合和注意力引导的神经网络图像去雾方法 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN111968123B (zh) | 一种半监督视频目标分割方法 | |
CN113313657A (zh) | 一种用于低光照图像增强的非监督学习方法和系统 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN109509156B (zh) | 一种基于生成对抗模型的图像去雾处理方法 | |
CN112164077B (zh) | 基于自下而上路径增强的细胞实例分割方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN111724400A (zh) | 视频自动抠像方法及系统 | |
CN114419102B (zh) | 一种基于帧差时序运动信息的多目标跟踪检测方法 | |
CN117058160A (zh) | 基于自适应特征融合网络的三维医学图像分割方法及系统 | |
CN116188307A (zh) | 适用于全天的图像低照度增强和语义分割联合方法和系统 | |
CN114463721A (zh) | 一种基于空间特征交互的车道线检测方法 | |
CN113947538A (zh) | 一种多尺度高效卷积自注意力单幅图像除雨方法 | |
CN117952846A (zh) | 低光环境下基于视觉增强的红外与可见光图像融合方法 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN116311002B (zh) | 一种基于光流信息的无监督视频目标分割方法 | |
CN116597154A (zh) | 一种图像去噪模型的训练方法及系统 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN110826564A (zh) | 一种复杂场景图像中的小目标语义分割方法及系统 | |
CN116152263A (zh) | 一种基于cm-mlp网络的医学图像分割方法 | |
CN110443248B (zh) | 大幅遥感影像语义分割分块效应消除方法及系统 | |
CN112699878A (zh) | 一种注视点指导的显著目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |