CN113283438B - 基于多源显著性和时空榜样适配的弱监督视频目标分割方法 - Google Patents
基于多源显著性和时空榜样适配的弱监督视频目标分割方法 Download PDFInfo
- Publication number
- CN113283438B CN113283438B CN202110322786.9A CN202110322786A CN113283438B CN 113283438 B CN113283438 B CN 113283438B CN 202110322786 A CN202110322786 A CN 202110322786A CN 113283438 B CN113283438 B CN 113283438B
- Authority
- CN
- China
- Prior art keywords
- video
- space
- saliency
- time
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000006978 adaptation Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000002123 temporal effect Effects 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 230000003287 optical effect Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000004888 barrier function Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000012163 sequencing technique Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本发明公开了一种基于多源显著性和时空榜样适配的弱监督视频目标分割方法,属于特征学习和视频目标分割技术领域。该方法首先提取当前视频帧的空间显著性掩码和时间显著性掩码。训练多源显著融合网络对两者进行融合,得到时空显著掩码。随后计算时空契合度并将其进行排序;选择前N个时空契合度结果对应的视频帧作为时空榜样信息。将时空显著掩码作为分割目标伪标签,时空榜样结果作为适配目标,协同优化分割损失和时空榜样适配损失训练目标分割网络。本发明以学习的方法有效融合时空显著性先验知识,通过榜样适配机制提供可靠指导信息,使神经网络学习到相同类别视频中的一致性目标特征,在弱监督视频目标分割任务上取得了更加优秀的效果。
Description
技术领域
本发明涉及深度学习领域和弱监督视频目标分割领域,尤其是涉及到弱监督视频目标分割中的特征表达方法,该方法能够在视频目标分割数据集上得到更加准确的分割结果。
背景技术
随着多媒体监控技术的发展,视频已经成为重要的多媒体信息载体。如何从海量的视频中提取有意义的信息,从而完成动态目标分析和场景解析,已经成为计算机视觉领域的研究热点之一。其中,能够提取视频对应的出色特征表达能够一定程度上帮助计算机对输入场景进行更合理的分析和理解。现有视频目标分割任务给各行各业带来便利的同时,也带来了一定的挑战。由于目前视频数据正在数以万亿级别增长,使用精细标记训练视频目标分割网络会消耗大量资源与时间。例如利用弱标签进行训练完成视频目标分割任务,从而应用于视频监控、场景解析。缺乏精细标签指导的弱监督视频目标分割在过去一些年在相关领域取得了广泛的研究和长足的进展。大量公司和研究机构纷纷投身于该研究方向中,这也意味着该任务已经成为了研究的主流。弱监督视频目标分割任务具有很高的应用价值,在视频监控方面可以帮助筛选显著运动目标;园区巡逻方面可以进行安全监控;在自动驾驶方面可以辅助驾驶。
人类视觉注意力能够被动地被自顶向下的信息所吸引,在视频中该自顶向下信息通常由感知共性目标所指导。与此同时,人类视觉注意力也能够主动的被自底向上的信息所吸引,在视频中该自底向上信息由视差和明显的运动信息所指导。启发于认知心理学,大脑皮层会自动选择相关的刺激信息而过滤不相关的信息。
弱监督视频目标分割旨在只有类别标签的情况下,确认视频序列中存在目标并得到其对应的分割掩码。该任务是视频任务中最为基础也是最为重要的任务之一。该任务遇到最大的挑战在于解决视频任务中出现的遮挡问题,背景杂乱问题以及外观差异性问题。本方法主要解决在仅有类别标签的指导下,进行弱监督视频分割任务。一些相关工作提出使用双路神经网络提取时空信息的方法,将双路网络的输入得分进行加权从而得到最终分割结果。但是上述双路模型在此应用中是分别进行训练的,这导致当空间显著性和时间显著性出现冲突时候模型不能做出正确判断。除此以外,缺少自顶向下的指导会导致当一帧的前景与另一帧的背景特征极为相似的情况下模型不能做出正确判断。其次,一些相关工作提出基于模版匹配的方法解决视频分割问题。虽然模版匹配的方法通过重识别或几种不同的特征匹配的方法解决视频目标分割问题,但是这些方法都需要精细标注为模版的指导才能完成该任务。
基于以上分析,两种对于真实场景的观测驱动了本方法的提出:1)每个源头数据的先验知识都是有选择性有用的。时间和空间数据能够对视频目标分割提供有价值的先验知识。但是直接简单融合时间先验当目标内部区域出现不规则运动时会彰显其其不足之处。2)主要的感兴趣目标会贯穿出现在整个视频序列中。该贯穿视频序列中的共性信息对于模型完成目标分割具有指导意义。因此,本方法所提出的模型启发于生物感受周围环境的感知能力。
发明内容
本发明的目的在于,针对上述已有时空信息和弱标签利用不充分导致视频表达能力的不足,提出了一种基于多源显著性和时空榜样适配的弱监督视频目标分割方法。本发明通过探索多源显著性作为自下而上的线索关注有吸引力区域;通过探索榜样适配机制作为自上而下的线索关注主动注意的区域,来解决弱监督视频目标分割问题。其中多源显著性模块整合了时空显著性信息有助于消除背景干扰并获得适当的被动注意力区域;时空榜样适配模块在弱监督视频目标分割中引入了榜样适配模块获得适当的主动注意力区域。与相关工作相比的优势在于本方法以更合理的方式利用时空知识和类别标签,将时空信息用于选择榜样样本而不是简单对不同视频进行分类。
实现本发明方法的主要思路包含三个阶段,分别为构造时空显著掩码训练目标、构造时空榜样训练目标和训练与测试弱监督目标分割模型。其中构造时空显著掩码训练目标与构造时空榜样训练目标阶段为弱监督目标分割模型构造训练目标做准备。具体来说,首先依次提取同一个视频中的当前帧与下一帧的两个视频帧图像,使用显著性检测网络提取当前视频帧的空间显著性掩码;随后提取视频相邻帧对应的光流,并使用显著性检测方法作用于光流得到时间显著性掩码。使用时间显著性掩码和空间显著性掩码训练多源显著融合网络,得到时空显著掩码训练目标。随后通过时空显著掩码获得时空契合度,并将其进行排序;选择其中前N个时空契合度高的视频帧作为该类别视频序列对应的时空榜样信息,从而得到时空榜样训练目标。最后通过协同优化分割损失、时空榜样适配损失以及辅助损失训练目标分割网络从而得到最终分割结果。
根据上述主要思路,本发明方法的具体实现包括包含三个阶段,分别为构造时空显著掩码训练目标、构造时空榜样训练目标和训练与测试弱监督目标分割模型,构造时空显著掩码训练目标阶段包括:
步骤1:构造数据集
构造数据集,以视频帧和对应的弱标签构造训练弱监督视频目标分割图像集;
步骤2:提取空间显著性掩码
将视频帧输入显著性检测网络,提取视频帧对应的空间显著性掩码;
步骤3:提取时间显著性掩码
将当前视频帧和相邻视频帧输入光流提取网络,生成光流图。随后使用显著性检测方法作用于光流图,得到视频在当前时刻的时间显著性掩码;
步骤4:融合时间和空间显著性掩码,得到时空显著性掩码
使用步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码,训练多源显著融合网络,得到时空显著性掩码;
构造时空榜样训练目标包括:
步骤5:计算视频帧的时空契合度,选择部分视频帧作为时空榜样信息
计算步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码的契合度,并将其进行排序,选择同一个类别视频中前N个时空契合度高的多视频帧作为该类别视频序列对应的时空榜样信息;
步骤6:计算分割损失,更新弱监督视频目标分割网络参数
使用步骤4得到的时空显著性掩码、步骤5得到的时空榜样信息作为弱监督视频监督信息,计算分割损失和时空榜样适配损失训练弱监督目标分割网络。当分割损失和时空榜样适配损失同时达到最小时,弱监督目标分割网络训练完成;
步骤8:输出弱监督视频目标分割结果
针对输入视频帧将其输入弱监督视频目标分割网络进行前向推理,得到最终目标分割结果。
本发明与现有技术相比,具有以下明显的优势和有益效果:本发明提出了一种基于多源显著性和时空榜样适配的弱监督视频目标分割方法。该方法从人类易被视差与明显运动区域所被动吸引且易被共性信息主动吸引出发,通过同时考虑自顶向下与自顶向上信息,协同关注“吸引”与“注意”区域,从而得到理想的弱监督视频分割模型。训练出神经网络提取的特征在弱监督视频目标分割任务上取得了更加优秀的效果。
附图说明
图1为本发明所涉及方法总流程框图;
图2为本发明所涉及算法总架构图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照详细附图,对本发明进一步详细说明。但所描述的实施例子仅旨在便于对本发明的理解,而对其不起任何限定作用。图1是本发明的方法流程图,如图1所示,本方法包括以下几个步骤:
步骤1:构造数据集
本发明所述方法实施过程中的数据库来源于公开视频目标分割标准数据集DAVIS2016。其中DAVIS-2016由50个类别对应的高质量视频序列组成,共有3455个稠密掩码标注的视频帧。构造训练集的视频帧和其对应的弱监督标注为其中It表示视频帧RGB图像,Yt表示It对应的类别标注。
步骤2:提取空间显著性掩码
输入尺寸为c*h*w的视频帧It,其中c=3表示输入的为RGB图像,通过空间显著性先验所提取到的输出尺寸为1*h*w,表示所输出的为单通道图像。将视频帧It输入空间显著性网络得到空间显著性掩码/>
其中σ表示sigmoid函数,up表示双线性采样操作;本发明中涉及的所有空间显著性网络的选择没有限制,均可以采用任意卷积神经网络结构,附表1仅作为实施选用结构。
步骤3:提取时间显著性掩码
首先使用视频中当前帧It和下一帧It+1输入到光流提取网络FlowNet2生成光流图:
其中表示FlowNet2,网络结构如附表2所示。随后最小栅栏距离MBD方法作用于光流图Ot→t+1,通过迭代最小化在光流图Ot→t+1上的最小块路径损失,得到视频在t时刻对应的时间显著性掩码/>具体公式如下:
在此过程中,通过光栅扫描的方法遍历光流图Ot→t+1中的每个像素位置,通过使用每个位置x附近的一半的像素y来迭代最小化在位置x处的距离,从而生成距离图
其中P(y)表示到达y的路径,而<y,x>表示从y到达x的边,表示路径损失函数:
其中Py(x)表示P(y)·<y,x>),和/>表示P(y)的最大和最小值。
步骤4:融合时间和空间显著性掩码,得到时空显著性掩码
当前视频帧It为输入,步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码/>
为训练目标,计算多源融合损失来训练时空显著融合网络其中多源融合损失为:
其中表示多源融合显著区域。随后,通过/>前行推理得到时空显著性掩码/>能够很大程度上过滤掉了运动的背景信息;本发明中涉及的所有时空显著融合网络模型的选择没有限制,均可以采用任意卷积神经网络结构,附表3仅作为实施选用结构。
步骤5:计算视频帧的时空契合度,选择部分视频帧作为时空榜样信息
首先计算和/>之间的IoU(intersection-over-union):
该结果被看作不同源显著区域之间的匹配程度。随后通过不同的视频类别cl来排序该类别中的匹配程度,最终获得排序后的集合从该结合中选择排序前N个样本作为该类别对应的时空榜样。因此对于视频帧It来说,它所对应的N个榜样为:
由此可见,每个类别视频帧对应相同的榜样。在得到时空榜样后,将每个榜样所对应的伪标签分解为前景和背景:
其中为时空榜样样本/>在/>中的索引。
步骤6:计算损失,更新弱监督视频目标分割网络参数
使用步骤4中的时空显著性掩码计算弱监督视频目标分割网络/>的分割损失Lseg和时空榜样适配损失Lada。本发明中涉及的所有弱监督视频目标分割网络的选择没有限制,均可以采用任意卷积神经网络结构,附表4仅作为实施选用结构。
首先,分割损失Lseg如下:
其中为弱监督视频目标分割网络/>的预测结果:
其次,计算时空榜样适配损失Lada,使用对输入图像进行前背景过滤,得到前景/>和背景/>
随后,将生成的和/>输入到特征提取网络/>提取特征,根据所提取的特征计算榜样适配得分:
其中,h表示视频帧从特征提取网络所提取的特征纬度,/>用于计算当前帧和对应榜样之间的前景特征距离,/>用于计算相同帧与相同榜样之间前景和背景之间的特征差异性,本发明中涉及的所有特征提取网络的选择没有限制,均可以采用任意卷积神经网络结构,附表5仅作为实施选用结构。因此,时空榜样适配损失Lada为:
其中N表示视频帧It所对应的榜样数量。当分割损失和时空榜样适配损失同时达到最小时,弱监督目标分割网络训练完成。
步骤7:输出弱监督视频目标分割结果
针对输入视频帧将其输入步骤6训练的弱监督视频目标分割网络进行前向推理,得到最终目标分割结果。
从附表6可以看出,以本发明提出的方法在视频目标分割数据集上有用比最新方法更好的分割效果。
表1
表2
表3
表4
表5
表6
Claims (1)
1.基于多源显著性和时空榜样适配的弱监督视频目标分割方法,其特征包括构造时空显著掩码训练目标、构造时空榜样训练目标,以及训练与测试弱监督目标分割网络:
步骤1:构造数据集
构造训练弱监督视频目标分割图像集,包括视频帧和对应的弱标签;其中,构造的训练集表示为It表示视频帧RGB图像,Yt表示It对应的类别标注;
构造时空显著掩码训练目标阶段包括:
步骤2:提取空间显著性掩码
输入视频帧It,使用空间显著检测器作用于视频帧It提取空间显著性掩码/> 表示视频中空间最显著区域,计算公式如下:
其中σ表示sigmoid函数,up表示双线性采样操作,It表示输入尺寸为c*h*w的视频帧,c=3表示输入的为RGB图像,的尺寸为1*h*w;
步骤3:提取时间显著性掩码
输入视频帧It和It+1提取视频相邻帧对应的光流,使用最小栅栏距离(MBD)作用于光流提取时间显著性掩码 表示视频中运动最明显区域;
步骤4:融合时间和空间显著性掩码,得到时空显著性掩码
以视频帧It为输入,以步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码为训练目标,训练时空显著融合网络/>随后使用训练好的/>对输入It前行推理得到时空显著性掩码/> 能够很大程度上过滤掉了运动的背景信息;
构造时空榜样训练目标阶段包括:
步骤5:计算视频帧的时空契合度,选择部分视频帧作为时空榜样信息
计算步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码/>的契合度,并将其进行排序,选择同一个类别视频中前N个时空契合度高的视频帧作为时空榜样信息;
训练与测试弱监督目标分割网络阶段包括:
步骤6:计算损失,更新弱监督视频目标分割网络参数
使用步骤4得到的时空显著性掩码、步骤5得到的时空榜样信息作为弱监督视频监督信息,计算分割损失和时空榜样适配损失训练弱监督目标分割网络;当分割损失和时空榜样适配损失同时达到最小时,弱监督目标分割网络训练完成;
步骤7:输出弱监督视频目标分割结果
针对输入视频帧,将其输入步骤6训练的弱监督视频目标分割网络进行前向推理,得到最终目标分割结果;
步骤3具体包括以下步骤:
首先将视频帧It和It+1输入到现有光流提取网络FlowNet2生成光流图:
其中表示FlowNet2,随后最小栅栏距离MBD方法作用于光流图Ot→t+1,通过迭代最小化在光流图Ot→t+1上的最小块路径损失,得到视频在t时刻对应的时间显著性掩码/>具体公式如下:
在此过程中,通过光栅扫描的方法遍历光流图Ot→t+1中的每个像素位置,通过使用每个位置x附近的一半的像素y来迭代最小化在位置x处的距离,从而生成距离图
其中P(y)表示到达y的路径,而<y,x>表示从y到达x的边,表示路径损失函数:
其中Py(x)表示P(y)·<y,x>),和/>表示P(y)的最大和最小值;
步骤4具体包括以下步骤:当前视频帧It为输入,步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码/>为训练目标,计算多源融合损失来训练时空显著融合网络/>其中多源融合损失为:
其中表示多源融合显著区域,随后,通过/>前行推理得到时空显著性掩码/> 能够很大程度上过滤掉了运动的背景信息;
步骤5具体包括以下步骤:
首先计算视频It的和/>之间的IoU(intersection-over-union):
该结果被看作时间和空间显著掩码的契合度,随后对相同类别cl中的契合度进行排序,获得排序后的集合选择排序结果的前N个样本作为视频帧It的时空榜样信息,对于视频帧It来说,它前N个契合度所对应的视频帧作为榜样信息/>
在得到时空榜样信息后,每个时空榜样信息所对应的伪标签分解为时空榜样前景和时空榜样背景/>为:
其中为时空榜样样本/>在/>中的索引,而/>表示/>对应的时空显著性掩码;
步骤6具体包括以下步骤:
步骤6:计算损失,更新弱监督视频目标分割网络参数
使用步骤4中的时空显著性掩码计算弱监督视频目标分割网络/>的分割损失Lseg和时空榜样适配损失Lada,其中分割损失Lseg如下:
其中为弱监督视频目标分割网络/>的预测结果:
其中,计算时空榜样适配损失Lada,使用对输入图像进行前背景过滤,得到前景/>和背景/>
随后,将生成的和/>输入到特征提取网络/>提取特征,根据所提取的特征计算榜样适配得分:
其中,h表示视频帧从特征提取网络所提取的特征纬度,/>计算当前帧和对应榜样之间的前景特征距离,/>计算相同帧与相同榜样之间前景和背景之间的特征差异性;因此,时空榜样适配损失Lada为:
其中N表示视频帧It所对应的榜样数量;当分割损失和时空榜样适配损失同时达到最小时,弱监督目标分割网络训练完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322786.9A CN113283438B (zh) | 2021-03-25 | 2021-03-25 | 基于多源显著性和时空榜样适配的弱监督视频目标分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322786.9A CN113283438B (zh) | 2021-03-25 | 2021-03-25 | 基于多源显著性和时空榜样适配的弱监督视频目标分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283438A CN113283438A (zh) | 2021-08-20 |
CN113283438B true CN113283438B (zh) | 2024-03-29 |
Family
ID=77276042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110322786.9A Active CN113283438B (zh) | 2021-03-25 | 2021-03-25 | 基于多源显著性和时空榜样适配的弱监督视频目标分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283438B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114973064A (zh) * | 2022-04-29 | 2022-08-30 | 华为技术有限公司 | 一种伪标签框生成方法、装置及电子设备 |
CN115035378A (zh) * | 2022-08-09 | 2022-09-09 | 中国空气动力研究与发展中心计算空气动力研究所 | 基于时空域特征融合的红外弱小目标的检测方法及装置 |
CN116311002B (zh) * | 2023-05-19 | 2023-08-11 | 武汉纺织大学 | 一种基于光流信息的无监督视频目标分割方法 |
CN116402833B (zh) * | 2023-06-08 | 2023-08-22 | 武汉纺织大学 | 一种基于知识蒸馏的半监督视频目标分割方法 |
CN117788492B (zh) * | 2024-02-28 | 2024-04-26 | 苏州元脑智能科技有限公司 | 视频目标分割方法、系统、电子设备及存储介质 |
CN118072229B (zh) * | 2024-04-18 | 2024-06-28 | 江西财经大学 | 基于层次特征对齐的视频显著目标检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256562A (zh) * | 2018-01-09 | 2018-07-06 | 深圳大学 | 基于弱监督时空级联神经网络的显著目标检测方法及系统 |
CN110458172A (zh) * | 2019-08-16 | 2019-11-15 | 中国农业大学 | 一种基于区域对比度检测的弱监督图像语义分割方法 |
CN110633632A (zh) * | 2019-08-06 | 2019-12-31 | 厦门大学 | 一种基于循环指导的弱监督联合目标检测和语义分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019061658A (ja) * | 2017-08-02 | 2019-04-18 | 株式会社Preferred Networks | 領域判別器訓練方法、領域判別装置、領域判別器訓練装置及びプログラム |
-
2021
- 2021-03-25 CN CN202110322786.9A patent/CN113283438B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256562A (zh) * | 2018-01-09 | 2018-07-06 | 深圳大学 | 基于弱监督时空级联神经网络的显著目标检测方法及系统 |
CN110633632A (zh) * | 2019-08-06 | 2019-12-31 | 厦门大学 | 一种基于循环指导的弱监督联合目标检测和语义分割方法 |
CN110458172A (zh) * | 2019-08-16 | 2019-11-15 | 中国农业大学 | 一种基于区域对比度检测的弱监督图像语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113283438A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113283438B (zh) | 基于多源显著性和时空榜样适配的弱监督视频目标分割方法 | |
Fan et al. | A survey of crowd counting and density estimation based on convolutional neural network | |
Bhalla et al. | A fuzzy convolutional neural network for enhancing multi-focus image fusion | |
CN107273800B (zh) | 一种基于注意机制的卷积递归神经网络的动作识别方法 | |
CN111209810A (zh) | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 | |
CN109670429A (zh) | 一种基于实例分割的监控视频多目标人脸检测方法及系统 | |
CN108921051A (zh) | 基于循环神经网络注意力模型的行人属性识别网络及技术 | |
Cao et al. | EFFNet: Enhanced feature foreground network for video smoke source prediction and detection | |
CN113192124B (zh) | 一种基于孪生网络的图像目标定位方法 | |
Tomar et al. | Crowd analysis in video surveillance: A review | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
Shen et al. | Infrared multi-pedestrian tracking in vertical view via siamese convolution network | |
CN117409481A (zh) | 一种基于2dcnn和3dcnn的动作检测方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Li et al. | Region NMS-based deep network for gigapixel level pedestrian detection with two-step cropping | |
Chen et al. | FET-FGVC: Feature-enhanced transformer for fine-grained visual classification | |
Gan et al. | The deep spatiotemporal network with dual-flow fusion for video-oriented facial expression recognition | |
Wang et al. | Occluded person re-identification based on differential attention siamese network | |
CN112967317B (zh) | 一种动态环境下基于卷积神经网络架构的视觉里程计方法 | |
CN114663953A (zh) | 一种基于面部关键点和深度神经网络的人脸表情识别方法 | |
CN115100740A (zh) | 一种人体动作识别和意图理解方法、终端设备及存储介质 | |
Zhang et al. | Key issues for the construction of salient object datasets with large-scale annotation | |
Li et al. | MULS-Net: A Multilevel Supervised Network for Ship Tracking From Low-Resolution Remote-Sensing Image Sequences | |
Zeng et al. | SwinEFT: a robust and powerful Swin Transformer based Event Frame Tracker | |
Chandankhede et al. | Deep learning technique for serving visually impaired person |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |