CN116311002B - 一种基于光流信息的无监督视频目标分割方法 - Google Patents

一种基于光流信息的无监督视频目标分割方法 Download PDF

Info

Publication number
CN116311002B
CN116311002B CN202310570895.1A CN202310570895A CN116311002B CN 116311002 B CN116311002 B CN 116311002B CN 202310570895 A CN202310570895 A CN 202310570895A CN 116311002 B CN116311002 B CN 116311002B
Authority
CN
China
Prior art keywords
convolution
output
feature
characteristic
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310570895.1A
Other languages
English (en)
Other versions
CN116311002A (zh
Inventor
余锋
陈钊翔
李会引
姜明华
刘莉
周昌龙
宋坤芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202310570895.1A priority Critical patent/CN116311002B/zh
Publication of CN116311002A publication Critical patent/CN116311002A/zh
Application granted granted Critical
Publication of CN116311002B publication Critical patent/CN116311002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于光流信息的无监督视频目标分割方法,所述的基于光流的无监督视频目标分割方法,包括以下步骤:首先设计基于光流信息的视频目标分割网络,然后设计伪目标损失函数,确定训练过程中调节参数的策略,最后训练得到无监督视频目标分割模型,该模型可以将输入的视频中运动的目标分割出来。本发明通过改进深度学习算法可以明显提升视频目标分割的性能,提供了一种无监督视频目标分割方法,大大节省了人力,无需人力标注真实标签,可以较为快速的移植到其他视频目标分割任务中。

Description

一种基于光流信息的无监督视频目标分割方法
技术领域
本发明涉及无监督视频目标分割领域,并且更具体地,涉及一种基于光流信息的无监督视频目标分割方法。
背景技术
无监督视频分割任务近年来显示出越来越突出了作用,它的主要目的是在无人为干涉的情况下分割出视频中的主要运动物体。无监督视频分割广泛地被应用于视频推理,视频理解等领域。其中基于像素匹配和传播的算法可以对模型进行端到端的训练,避免了中间结果的影响,但是相似的物体会有相似的特征表现,因此该种方法会造成物体时域上联系失败。因此在无监督领域,在相似特征中寻找出目标的特征表示来引导学习,这是提升无监督视频对象分割的关键。
公开号为CN113139502A的中国专利公开了“无监督视频分割方法”,提出了同时在时空域挖掘同一视频序列中所有视频帧中目标和背景的语义信息来进行目标的定位,来辅助视频目标分割,这种方法确实可以在一定程度上提升视频目标分割的精度,但是同时读取所有视频帧其网络消耗很大,且这些视频存在大量的冗余信息会对目标对象产生干扰。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了一种基于光流信息的无监督视频目标分割方法,其目的在于通过深度学习算法自动实现对视频目标的分割,在没有真实分割标签的条件下提高对视频中目标的分割精度。
为实验上述目的,按照本发明的一个方面,提供了一种基于光流信息的无监督视频目标分割方法,包括以下步骤:
步骤1,构建基于光流信息的视频目标分割网络;
所述的视频目标分割网络包括两条分支,分别为外观特征提取分支和运动特征提取分支,具体是由外观特征模块,运动特征模块,以及共享的多源信息聚合模块和目标解码模块构成,其中外观分支主要用来提取当前帧的空间图像特征,而运动特征提取分支用来提取光流图中的运动信息,多源信息聚合模块用来将外观特征分支和运动特征分支中的信息融合,目标解码模块用来还原特征图信息;两个特征提取分支的输入不同,由外观特征提取模块组成的外观特征提取分支的输入是当前视频帧图片,而由运动特征提取模块组成的运动特征提取分支的输入是前一视频帧与当前视频帧生成的光流图像,如果当前帧是第一帧,那么两个分支的输入都是当前视频帧;
步骤2,使用视频帧数据集和视频帧对应的光流图,训练视频目标分割网络;
步骤3,利用光流图和当前视频帧生成目标伪标签,使用伪标签损失计算网络输出的分割结果与目标伪标签误差;
步骤4,根据伪标签损失误差,通过反向传播更新视频目标分割网络的参数,重复步骤2到步骤4,直至模型收敛;
步骤5,利用训练好的模型实现视频目标分割。
进一步的,所述的视频目标分割网络具体处理流程如下:
外观特征提取分支由4个外观特征模块组成,分别记为M1,M2,M3和M4,运动特征图提取分支也是有4个运动特征模块组成,分别记为N1,N2,N3和N4,以上这些模块都是按照次序执行的;多源信息聚合模块有3个,分别记为D1,D2和D3,目标解码模块有4个,分别记为B1,B2,B3和B4;D1的输入为M4和N4的输出特征图,D2的输入为M3,N3和B1的输出特征图,D3的输入为M2,N2和B2的输出特征图; B1的输入是D1的输出,B2的输入是D2的输出,B3的输入是D3的输出,B4的输入是B3的输出。
进一步的,多源信息聚合模块和目标解码模块的具体流程为:D1的具体流程是先将M4和N4的输出特征图进行特征相加,再进行1×1分组卷积来信息整合;D2的具体流程是先将M3和N3的输出特征图进行特征相加,然后将得到的特征图与B1的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B1输出特征图的通道数;D3的具体流程是将M2和N2的输出特征图进行特征相加,然后将得到的特征图与B2的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B2输出特征图的通道数;B1的具体流程是使用3×3深度卷积对D1的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B2的具体流程是使用3×3深度卷积对D2的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B3的具体流程是使用3×3深度卷积对D3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B4的具体流程是使用3×3深度卷积对B3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积输出通道数为2的特征图其高宽大小为原图大小,用于区分视频目标中的前景与背景。
进一步的,所述步骤2中的光流图的生成方法,在训练过程中使用的是已经生成好的光流图以提升训练的速度,而在应用过程中采用在线生成光流图的方式。
进一步的,所述步骤3中的伪标签损失函数:
公式中Ft代表视频目标分割网络最终的预测特征图,Gt代表根据当前帧和当前帧对应的光流图生成的伪目标标签,n代表当前视频帧的帧数,ε代表伪标签误差的第二部分权重系数,如果当前帧为第一帧,则伪目标标签为初始设定的一个矩形区域。
进一步的,所述外观特征模块的具体构成如下:
每个外观特征模块中包含有多个外形特征提取卷积块,其中的卷积块采用残差结构,有两条分支,第一条分支包括5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支只包括一个3×3平均池化,这两条分支同时处理输入特征图,然后这两条分支的输出进行特征图的相加得到运动特征提取卷积块的最终输出;这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
进一步的,所述运动特征模块的具体构成如下:
每个运动特征模块中包含有多个运动特征提取卷积块,其中的卷积块采用残差结构,有两条分支,第一条分支包括5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支中有两个小分支,其中一个小分支是3×3平均池化,另一个小分支是3×3最大池化,将这两条小分支的进行特征图拼接,然后使用1×1分组卷积输出通道数为1的特征图;将两条主分支输出的特征图进行特征图相乘得到最终输出,有助于网络对特征显著位置的学习,这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
进一步的,所述外观特征模块中卷积块的设置:M1,M2,M3和M4中的第一个外形特征提取卷积块中的5×5卷积和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积和3×3平均池化的步长为1。
进一步的,所述运动特征模块中卷积块的设置:N1,N2,N3和N4中的第一个运动特征提取卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为1。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)首先通过加深网络的深度结合在运动特征提取卷积块中增加对空间信息的提取,有效的提高模型识别的精确度和模型的学习能力。
(2)使用创新的损失函数,使模型训练的更加关注预测目标标签与伪目标标签的平均差异,同时防止了损失过大的情况。
(3)网络训练无需人工标注的真实目标标签,可以节省人工且可以较快的移植到各种视频目标分割任务中。
附图说明
图1 本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的技术方案流程图。
图2本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的网络框架示意图。
图3本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的外形特征提取卷积块示意图。
图4本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的运动特征提取卷积块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种基于光流信息的无监督视频目标分割方法的技术方案,请参见附图1,图1是实施用例提供的一种基于光流信息的无监督视频目标分割方法的技术方案流程图,具体包含如下步骤:
(1)构建基于光流信息的视频目标分割网络;
所述的视频目标分割网络,请参见附图2,图2是实施用例提供的一种基于光流信息的无监督视频目标分割方法的网络框架示意图。其是由两条分支构成,分别为外观特征提取分支和运动特征提取分支;
具体的,视频目标分割网络是由外观特征模块,运动特征模块,多源信息聚合模块和目标解码模块组合构成的。其中两个特征提取分支的输入不同,由外观特征提取模块组成的外观特征提取分支的输入是当前视频帧图片,而由运动特征提取模块组成的运动特征提取分支的输入是前一视频帧与当前视频帧生成的光流图像,如果当前帧是第一帧,那么两个分支的输入都是当前视频帧,这可以使网络不那么依赖于光流图。
具体的,视频目标分割网络具体处理流程如下:外观特征提取分支由4个外观特征模块组成,分别记为M1,M2,M3和M4,运动特征图提取分支也是有4个运动特征模块组成,分别记为N1,N2,N3和N4,以上这些模块都是按照次序执行的。而多源信息聚合模块有3个,分别记为D1,D2和D3,目标解码模块有4个,分别记为B1,B2,B3和B4。这里D1的输入为M4和N4的输出特征图,D2的输入为M3,N3和B1的输出特征图,D3的输入为M2,N2和B2的输出特征图。这里B1的输入是D1的输出,B2的输入是D2的输出,B3的输入是D3的输出,B4的输入是B3的输出。
其中多源信息聚合模块和目标解码模块的具体流程为:D1的具体流程是先将M4和N4的输出特征图进行特征相加,再进行1×1分组卷积来信息整合。D2的具体流程是先将M3和N3的输出特征图进行特征相加,然后将得到的特征图与B1的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B1输出特征图的通道数。D3的具体流程是将M2和N2的输出特征图进行特征相加,然后将得到的特征图与B2的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B2输出特征图的通道数。B1的具体流程是使用3×3深度卷积对D1的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数。B2的具体流程是使用3×3深度卷积对D2的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数。B3的具体流程是使用3×3深度卷积对D3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数。B4的具体流程是使用3×3深度卷积对B3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积输出通道数为2的特征图其高宽大小为原图大小,用于区分视频目标中的前景与背景。
具体的,外观特征模块和运动特征模块的具体构成。主要注意的是外观特征模块M1,M2,M3和M4中的外形特征提取卷积块数量分别为3,3,9和3,运动特征模块N1,N2,N3和N4中的运动特征提取卷积块数量分别也是3,3,9和3。
其中,每个外观特征模块中包含有多个外形特征提取卷积块,请参见附图3,图3是实施例提供的一种基于光流信息的无监督视频目标分割方法的外形特征提取卷积块示意图,其中的卷积块采用残差结构有两条分支,第一条分支由5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支有一个3×3平均池化,这两条分支同时处理输入特征图,然后这两条分支的输出进行特征图的相加得到运动特征提取卷积块的最终输出。这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
其中,每个运动特征模块中包含有多个运动特征提取卷积块,请参见附图4,图4是实施例提供的一种基于光流信息的无监督视频目标分割方法的运动特征提取卷积块示意图。其中的卷积块采用残差结构有两条分支,第一条分支由5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支中有两个小分支,其中一个小分支是3×3平均池化,另一个小分支是3×3最大池化,将这两条小分支的进行特征图拼接,然后使用1×1分组卷积输出通道数为1的特征图。将两条主分支输出的特征图进行特征图相乘得到最终输出,这个有助于网络对特征显著位置的学习,这里的激活函数设置同上。
具体的,外观特征模块和运动特征模块中卷积块的设置如下:M1,M2,M3和M4中的第一个外形特征提取卷积块中的5×5卷积和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积和3×3平均池化的步长为1。N1,N2,N3和N4中的第一个运动特征提取卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为1。
(2)使用视频帧数据集和视频帧对应的光流图,训练视频目标分割网络;
具体的,在训练过程中使用的是已经生成好的光流图以提升训练的速度,而在应用过程中我们采用在线生成光流图的方式。
(3)利用光流图和当前视频帧生成的目标伪标签,使用伪标签损失计算网络输出的分割结果与目标伪标签误差;
具体的,伪标签损失函数如下:
公式中Ft代表视频目标分割网络最终的预测特征图,Gt代表根据当前帧和当前帧对应的光流图生成的伪目标标签,n代表当前视频帧的帧数,ε代表伪标签误差的第二部分权重系数,其中ε通常取值为1.2,如果当前帧为第一帧,则Gt的伪目标标签为初始设定的一个矩形区域,目标区域参数为[Xx,Xy,Xw,Xh],其中Xx和Xy代表矩形区域的左上坐标,Xw和Xh代表矩形区域的高宽信息,Xx,Xy,Xw和Xh通常设置为特征图高宽的四分之一。这个损失函数可以通过超参数的设置有效的通过预测特征图与伪目标标签误差,调节网络参数的学习,提高视频对象分割准确性。
(4)根据伪标签损失误差,通过反向传播更新视频目标分割网络的参数,重复实施用例(2)到(4),直至模型收敛。
(5)利用训练好的模型实现视频目标分割。
本发明提供一种基于光流信息的无监督视频目标分割方法,我们的模型在无需人工标注的视频目标标签情况下,也可以达到不错的模型识别精度。通过上述实施用例方法设计无监督视频目标分割网络,并训练得到的基于光流信息的无监督视频目标分割模型,在现实情况下的验证中,我们的方法在DAVIS 2017 Unsupervised验证集上的平均交并比达到了80.9%,已达到目前的先进水平。
本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种基于光流信息的无监督视频目标分割方法,其特征在于,包括以下步骤:
步骤1,构建基于光流信息的视频目标分割网络;
所述的视频目标分割网络包括两条分支,分别为外观特征提取分支和运动特征提取分支,具体是由外观特征模块,运动特征模块,以及共享的多源信息聚合模块和目标解码模块构成,其中外观特征提取分支用来提取当前帧的空间图像特征,而运动特征提取分支用来提取光流图中的运动信息,多源信息聚合模块用来将外观特征分支和运动特征分支中的信息融合,目标解码模块用来还原特征图信息;两个特征提取分支的输入不同,由外观特征提取模块组成的外观特征提取分支的输入是当前视频帧图片,而由运动特征提取模块组成的运动特征提取分支的输入是前一视频帧与当前视频帧生成的光流图像,如果当前帧是第一帧,那么两个分支的输入都是当前视频帧;
所述的视频目标分割网络具体处理流程如下:
外观特征提取分支由4个外观特征模块组成,分别记为M1,M2,M3和M4,运动特征提取分支也是由4个运动特征模块组成,分别记为N1,N2,N3和N4,以上这些模块都是按照次序执行的;多源信息聚合模块有3个,分别记为D1,D2和D3,目标解码模块有4个,分别记为B1,B2,B3和B4; D1的输入为M4和N4的输出特征图,D2的输入为M3,N3和B1的输出特征图,D3的输入为M2,N2和B2的输出特征图; B1的输入是D1的输出,B2的输入是D2的输出,B3的输入是D3的输出,B4的输入是B3的输出;
步骤2,使用视频帧数据集和视频帧对应的光流图,训练视频目标分割网络;
步骤3,利用光流图和当前视频帧生成目标伪标签,使用伪标签损失计算网络输出的分割结果与目标伪标签误差;
步骤4,根据伪标签损失误差,通过反向传播更新视频目标分割网络的参数,重复步骤2到步骤4,直至模型收敛;
步骤5,利用训练好的模型实现视频目标分割。
2.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:多源信息聚合模块和目标解码模块的具体流程为:D1的具体流程是先将M4和N4的输出特征图进行特征相加,再进行1×1分组卷积来信息整合;D2的具体流程是先将M3和N3的输出特征图进行特征相加,然后将得到的特征图与B1的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B1输出特征图的通道数;D3的具体流程是将M2和N2的输出特征图进行特征相加,然后将得到的特征图与B2的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B2输出特征图的通道数;B1的具体流程是使用3×3深度卷积对D1的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B2的具体流程是使用3×3深度卷积对D2的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B3的具体流程是使用3×3深度卷积对D3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B4的具体流程是使用3×3深度卷积对B3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积输出通道数为2的特征图其高宽大小为原图大小,用于区分视频目标中的前景与背景。
3.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述外观特征模块的具体构成如下:
每个外观特征模块中包含有多个外形特征提取卷积块,其中的卷积块采用残差结构,有两条分支,第一条分支包括5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支只包括一个3×3平均池化,这两条分支同时处理输入特征图,然后这两条分支的输出进行特征图的相加得到外观特征提取卷积块的最终输出;这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
4.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述运动特征模块的具体构成如下:
每个运动特征模块中包含有多个运动特征提取卷积块,其中的卷积块采用残差结构,有两条分支,第一条分支包括5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支中有两个小分支,其中一个小分支是3×3平均池化,另一个小分支是3×3最大池化,将这两条小分支的进行特征图拼接,然后使用1×1分组卷积输出通道数为1的特征图;将两条主分支输出的特征图进行特征图相乘得到最终输出,有助于网络对特征显著位置的学习,这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
5.如权利要求3所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述外观特征模块中卷积块的设置:M1,M2,M3和M4中的第一个外形特征提取卷积块中的5×5卷积和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积和3×3平均池化的步长为1。
6.如权利要求4所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述运动特征模块中卷积块的设置:N1,N2,N3和N4中的第一个运动特征提取卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为1。
7.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述步骤2中的光流图的生成方法,在训练过程中使用的是已经生成好的光流图以提升训练的速度,而在应用过程中采用在线生成光流图的方式。
8.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述步骤3中的伪标签损失函数:
;
公式中Ft代表视频目标分割网络最终的预测特征图,Gt代表根据当前帧和当前帧对应的光流图生成的伪目标标签,n代表当前视频帧的帧数,ε代表伪标签误差的第二部分权重系数,如果当前帧为第一帧,则伪目标标签为初始设定的一个矩形区域。
CN202310570895.1A 2023-05-19 2023-05-19 一种基于光流信息的无监督视频目标分割方法 Active CN116311002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310570895.1A CN116311002B (zh) 2023-05-19 2023-05-19 一种基于光流信息的无监督视频目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310570895.1A CN116311002B (zh) 2023-05-19 2023-05-19 一种基于光流信息的无监督视频目标分割方法

Publications (2)

Publication Number Publication Date
CN116311002A CN116311002A (zh) 2023-06-23
CN116311002B true CN116311002B (zh) 2023-08-11

Family

ID=86801764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310570895.1A Active CN116311002B (zh) 2023-05-19 2023-05-19 一种基于光流信息的无监督视频目标分割方法

Country Status (1)

Country Link
CN (1) CN116311002B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259786A (zh) * 2020-01-14 2020-06-09 浙江大学 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN113283438A (zh) * 2021-03-25 2021-08-20 北京工业大学 基于多源显著性和时空榜样适配的弱监督视频目标分割方法
CN116071748A (zh) * 2023-01-20 2023-05-05 南京信息工程大学 一种基于频域全局滤波的无监督视频目标分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11423548B2 (en) * 2017-01-06 2022-08-23 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259786A (zh) * 2020-01-14 2020-06-09 浙江大学 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN113283438A (zh) * 2021-03-25 2021-08-20 北京工业大学 基于多源显著性和时空榜样适配的弱监督视频目标分割方法
CN116071748A (zh) * 2023-01-20 2023-05-05 南京信息工程大学 一种基于频域全局滤波的无监督视频目标分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jingchun Cheng et al.SegFlow: Joint Learning for Video Object Segmentation and Optical Flow.Proceedings of the IEEE International Conference on Computer Vision (ICCV).2017,第686-695页. *

Also Published As

Publication number Publication date
CN116311002A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN108986050B (zh) 一种基于多分支卷积神经网络的图像和视频增强方法
CN112288658B (zh) 一种基于多残差联合学习的水下图像增强方法
KR102235745B1 (ko) 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법
CN111915531A (zh) 一种多层次特征融合和注意力引导的神经网络图像去雾方法
CN111968123B (zh) 一种半监督视频目标分割方法
CN113313657A (zh) 一种用于低光照图像增强的非监督学习方法和系统
CN112435191B (zh) 一种基于多个神经网络结构融合的低照度图像增强方法
CN112164077B (zh) 基于自下而上路径增强的细胞实例分割方法
CN109509156B (zh) 一种基于生成对抗模型的图像去雾处理方法
CN111832453B (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN112508960A (zh) 一种基于改进注意力机制的低精度图像语义分割方法
CN113792606B (zh) 基于多目标追踪的低成本自监督行人重识别模型构建方法
CN111402292B (zh) 基于特征变形误差遮挡检测的图像序列光流计算方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN111696110A (zh) 场景分割方法及系统
US20220083808A1 (en) Method and apparatus for processing images, device and storage medium
CN117058160B (zh) 基于自适应特征融合网络的三维医学图像分割方法及系统
Zheng et al. T-net: Deep stacked scale-iteration network for image dehazing
CN114419102B (zh) 一种基于帧差时序运动信息的多目标跟踪检测方法
CN113947538A (zh) 一种多尺度高效卷积自注意力单幅图像除雨方法
CN116311002B (zh) 一种基于光流信息的无监督视频目标分割方法
CN116993975A (zh) 基于深度学习无监督领域适应的全景相机语义分割方法
CN111291663A (zh) 一种利用时空信息的快速视频目标物体分割方法
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN116152263A (zh) 一种基于cm-mlp网络的医学图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant