CN116189058B - 基于无监督深度学习的视频显著性目标检测方法及系统 - Google Patents

基于无监督深度学习的视频显著性目标检测方法及系统 Download PDF

Info

Publication number
CN116189058B
CN116189058B CN202310197056.XA CN202310197056A CN116189058B CN 116189058 B CN116189058 B CN 116189058B CN 202310197056 A CN202310197056 A CN 202310197056A CN 116189058 B CN116189058 B CN 116189058B
Authority
CN
China
Prior art keywords
video
pseudo
motion
frame
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310197056.XA
Other languages
English (en)
Other versions
CN116189058A (zh
Inventor
黄小明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202310197056.XA priority Critical patent/CN116189058B/zh
Publication of CN116189058A publication Critical patent/CN116189058A/zh
Application granted granted Critical
Publication of CN116189058B publication Critical patent/CN116189058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于无监督深度学习的视频显著性目标检测方法及系统,涉及目标检测技术领域,包括:基于运动完整性和运动可靠性,选择视频帧的最有效运动,生成视频帧的伪标注;基于视频帧的伪标注得分和视频的伪标注得分,挑选高质量的视频帧的伪标注;采用训练数据增强的策略对静止或运动不完整的目标进行处理,获得增强后的数据,构建训练数据集;将训练数据集作为深度神经网络模型的输入进行模型训练,直至损失函数收敛,获取视频显著性目标检测模型并利用该模型获得视频中的显著性目标。本发明无需大量人工标注好的数据,又能发挥神经网络强大的特征学习能力,训练出来的模型能检测明显运动的目标,也能检测静止或运动不明显的目标。

Description

基于无监督深度学习的视频显著性目标检测方法及系统
技术领域
本发明涉及目标检测技术领域,更具体的说是涉及一种基于无监督深度学习的视频显著性目标检测方法及系统。
背景技术
视频中显著性目标检测,就是检测视频中最受人关注的目标,广泛应用于视频内容理解或场景分析任务中,具有广阔的应用价值。
现有视频显著性目标检测方法,主要分为有监督和无监督学习两种方法。有监督学习主要通过深度学习训练模型,但是需要大量人工标注好的数据;无监督学习主要通过传统的方法设计特征和算法,虽然不需要大量数据标注,但是检测性能远远不如基于深度学习的有监督方法。
因此,如何提出一种既不需要大量人工标注好的数据、又能发挥神经网络强大的特征学习能力的无监督深度学习的方法是本领域技术人员亟需解决的技术问题。
发明内容
有鉴于此,本发明提供了一种基于无监督深度学习的视频显著性目标检测方法及系统,不需要任何人工标注就能运用深度学习实现视频中显著性目标检测,检测精度高,可以检测明显运动的目标以及静止或运动不明显的目标。
为了实现上述目的,本发明提供如下技术方案:
一种基于无监督深度学习的视频显著性目标检测方法,包括以下步骤:
基于运动完整性和运动可靠性,选择视频帧的最有效运动;
基于视频帧的最有效运动,生成视频帧的伪标注;
基于视频帧的伪标注得分和视频的伪标注得分,挑选高质量的视频帧的伪标注;
基于视频帧的伪标注,采用训练数据增强的策略对静止或者运动不完整的目标进行处理,获得增强后的数据,并构建训练数据集;
将训练数据集作为深度神经网络模型的输入进行模型训练,直至损失函数收敛时,获取视频显著性目标检测模型;
利用视频显著性目标检测模型进行目标检测,获得视频中的显著性目标。
上述技术方案达到的技术效果为:提出一种无监督深度学习的方法,不需要大量人工标注好的数据,又能发挥神经网络强大的特征学习能力。
可选的,选择视频帧的最有效运动,具体包括以下步骤:
给定视频帧序列{It,t=1...N},通过包括LDOF、FlowNet在内的方法计算前向运动Ft->t+s和后向运动Ft+s->t
基于前向运动Ft->t+s,采用无监督方法MBD检测得到显著性目标St->t+s,将显著性目标St->t+s的面积作为运动完整性得分Ct->t+s
对于当前帧每个像素p,通过前向运动Ft->t+s计算像素p对应于邻近帧It+s的像素q;通过反向运动Ft+s->t计算像素q对应于当前帧It的像素p';根据像素p和p'之间的邻近度,计算像素p运动估计的可靠性,并将所有像素的运动估计可靠性平均值记为Rt->t+s
通过运动完整性得分Ct->t+s和运动可靠性得分Rt->t+s的乘积,得到运动Ft->t+s的有效性得分Et->t+s
改变参数s,计算当前帧和不同的邻近帧之间运动的有效性得分,并将有效性得分最高的运动记为当前帧It的最有效运动。
上述技术方案达到的技术效果为:提出一种最有效运动的选择机制,综合考虑运动的完整性和可靠性两个因素,有助于完整可靠的检测到目标。
可选的,生成视频帧的伪标注,具体包括以下步骤:
对于视频中每一帧图像It,基于选择的视频帧的最有效运动,采用无监督方法MBD和CTR得到两个显著图,两个显著图的显著值均归一化到[0,1]范围内;
基于两个显著图,生成视频帧的伪标注Lt;其中,对于每个像素i,若两个显著图的结果均大于0.5,则视频帧的伪标注为1;若两个显著图的结果均小于0.5,则视频帧的伪标注为0;其他情况表示两个显著图的结果不一致,则视频帧的伪标注为0.5。
可选的,挑选高质量的视频帧的伪标注,具体包括以下步骤:
对于一帧图像伪标注Lt,根据视频帧的伪标注结果中1和0的占比,计算视频帧的伪标注得分;
对视频帧序列{It,t=1...N}中每一帧图像伪标注得分求平均值,得到视频的伪标注得分;
对于一帧图像伪标注Lt,根据视频帧的伪标注得分和所在视频的伪标注得分的乘积,得到最终得分,将最终得分大于预设阈值的伪标注视为高质量的视频帧的伪标注,否则丢弃。
上述技术方案达到的技术效果为:提出一种高质量伪标注生成方法,通过两种方法结果的融合及打分策略,生成高质量的伪标注用于监督深度学习模型训练,可提高显著性目标检测的精度。
可选的,获得增强后的数据,具体包括以下步骤:
对视频中的每一帧图像It,通过包括LDOF、FlowNet在内的方法得到当前帧与下一帧之间的运动图像Nt
基于预设比例随机修改运动图像Nt,将运动图像Nt中某些目标的运动改为和背景一样或将运动图像Nt中目标的某一部分运动改为和背景一样,得到增强后的数据。
上述技术方案达到的技术效果为:针对静止或不完整运动目标的训练数据增强方法,使得训练出来的模型不仅能检测明显运动的目标,也能检测静止或者运动不明显的目标。
可选的,获取视频显著性目标检测模型,具体为:
将图像帧It、高质量的视频帧伪标注Lt、与下一帧之间的运动图像Nt作为深度神经网络模型的输入数据,在模型训练过程中,计算每个像素的损失函数,其中,视频帧伪标注为0.5的像素不参与损失函数计算。
本发明还公开了一种基于无监督深度学习的视频显著性目标检测系统,包括:选择模块、生成模块、挑选模块、增强模块、训练模块、检测模块,且各结构依次相连;
选择模块,基于运动完整性和运动可靠性,选择视频帧的最有效运动;
生成模块,基于视频帧的最有效运动,生成视频帧的伪标注;
挑选模块,基于视频帧的伪标注得分和视频的伪标注得分,挑选高质量的视频帧的伪标注;
增强模块,基于视频帧的伪标注,采用训练数据增强的策略对静止或者运动不完整的目标进行处理,获得增强后的数据,并构建训练数据集;
训练模块,用于将训练数据集作为深度神经网络模型的输入进行模型训练,直至损失函数收敛时,获取视频显著性目标检测模型;
检测模块,用于通过视频显著性目标检测模型进行目标检测,获得视频中的显著性目标。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于无监督深度学习的视频显著性目标检测方法及系统,具有以下有益效果:
(1)本发明不需要任何人工标注,就能够运用深度学习实现视频中的显著性目标检测,并且能够推广到任何应用场景,节省大量的人力物力;
(2)本发明通过最有效运动选择机制和高质量伪真值生成方法,得到可靠的伪真值用于监督模型的训练,可提高视频中显著性目标检测精度;
(3)本发明针对静止或者不完整运动目标的训练数据增强,使模型学习了在没有运动或者运动不完整时也能检测出其中的目标,增强了模型的泛化能力,因此训练出来的模型不仅能检测明显运动的目标,也能很好地检测静止或者运动不明显的目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的基于无监督深度学习的视频显著性目标检测方法的流程图;
图2为本发明提供的最有效运动选择的流程图;
图3为本发明提供的最有效运动选择的示例图;
图4为本发明提供的伪标注生成和高质量伪标注挑选结果的示例图,其中,图4(a)为一帧图像、图4(b)为选择的最有效运动、图4(c)为显著图MBD、图4(d)为显著图CTR、图4(e)为伪标注图;
图5为本发明提供的训练数据增强的示例图,其中,图5(a)为一帧图像、图5(b)为运动图像、图5(c)为伪标注图;
图6为本发明提供的基于无监督深度学习的视频显著性目标检测系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本方法作为一种无监督深度学习的方法,不需要使用大量人工标注好的数据,因此需要设计方法自动生成一个高质量标注,即伪标注,用于指导神经网络学习模型,方法的总体流程如图1所示,包括以下步骤:
基于运动完整性和运动可靠性,选择视频帧的最有效运动;
基于视频帧的最有效运动,生成视频帧的伪标注;
基于视频帧的伪标注得分和视频的伪标注得分,挑选高质量的视频帧的伪标注;
基于视频帧的伪标注,采用训练数据增强的策略对静止或者运动不完整的目标进行处理,获得增强后的数据,并构建训练数据集;
将训练数据集作为深度神经网络模型的输入进行模型训练,直至损失函数收敛时,获取视频显著性目标检测模型;
利用视频显著性目标检测模型进行目标检测,获得视频中的显著性目标。
接下来,对图1所示的基于无监督深度学习的视频显著性目标检测方法的具体流程进行详细阐述。
1、选择视频帧的最有效运动
运动信息被广泛应用于视频显著目标检测中,现有工作大多只考虑相邻两帧之间的运动,但是相邻两帧之间的运动不一定是最有效的,很难检测到完整目标。本方法对每个视频帧选择最有效的运动,具体流程如图2所示。
给定视频帧序列{It,t=1...N},当前帧It和邻近帧It+s之间的运动可以通过现有工作LDOF(大位移光流)、FlowNet等计算,包括前向运动Ft->t+s和后向运动Ft+s->t。过小的运动导致检测的目标不完整,过大的运动导致检测的目标不可靠,若要选择最有效的运动,需要考虑以下两个因素:
(1)运动完整性:本方法基于运动信息寻找显著目标。如果仅有目标的局部运动,就只能检测到目标的一部分区域;如果目标的整体都在运动,就能检测到完整的目标。运动的完整性,就是要判断目标是否整体都在运动,具体地:基于前向运动Ft->t+s,采用无监督方法MBD检测得到显著性目标St->t+s,将显著性目标St->t+s的面积作为运动完整性得分Ct->t+s;运动越完整,检测到的目标面积越大。
(2)运动可靠性:运动估计结果本身的可靠性。根据前向运动Ft->t+s和后向运动Ft +s->t的一致性来计算,具体地:对于当前帧每个像素p,通过前向运动Ft->t+s计算像素p对应于邻近帧It+s的像素q;同时通过反向运动Ft+s->t计算像素q对应于当前帧It的像素p';根据像素p和p'之间的邻近度,计算像素p运动估计的可靠性,并将所有像素的运动估计可靠性平均值记为Rt->t+s
通过运动完整性得分Ct->t+s和运动可靠性得分Rt->t+s的乘积,得到运动Ft->t+s的有效性得分Et->t+s;改变参数s(一般取值-6~6,即前后6帧),计算当前帧和不同的邻近帧之间运动的有效性得分,并将有效性得分最高的运动记为当前帧It的最有效运动。
图3为最有效运动选择的一个具体示例,当前帧和邻近帧之间的运动,刚开始的时候(比如F0->2)运动不明显,显著目标也检测不完整;随着时间的推移,运动区域逐渐增加(比如F0->6),显著目标检测结果也趋于完整;但是随着时间继续推移,由于形变或位移过大,会导致运动估计失败(比如F0->10)。最终,F0->6被选为最有效运动,如图3中红色虚线方框所示。
2、生成视频帧的伪标注
对于视频中每一帧图像It,基于选择的视频帧的最有效运动,采用无监督方法MBD和CTR得到两个显著图,两个显著图的显著值均归一化到[0,1]范围内;
基于两个显著图,生成视频帧的伪标注Lt;其中,对于每个像素i,若两个显著图的结果均大于0.5,则视频帧的伪标注为1;若两个显著图的结果均小于0.5,则视频帧的伪标注为0;其他情况表示两个显著图的结果不一致,则视频帧的伪标注为0.5。
图4展示了视频伪标注生成的例子,其中:图4(a)、图4(b)分别表示一帧图像及选择的最有效运动,图4(c)和图4(d)表示两个监督方法MBD和CTR的显著图,基于这两个显著图结果的一致性生成的伪标注如图4(e)所示,伪标注图中白色、灰色、黑色分别表示1、0.5、0。
3、挑选高质量的视频帧的伪标注
由于得到的伪标注中存在标注错误的情况,需要从中挑选高质量的伪标注,主要考虑两个因素:
(1)视频帧的伪标注得分:对于一帧图像伪标注Lt,根据视频帧的伪标注结果中1和0的占比,计算视频帧的伪标注得分;
(2)视频的伪标注得分:对视频帧序列{It,t=1...N}中每一帧图像伪标注得分求平均值,得到视频的伪标注得分;
对于一帧图像伪标注Lt,根据视频帧的伪标注得分和所在视频的伪标注得分的乘积,得到最终得分,将最终得分大于预设阈值的伪标注视为高质量的视频帧的伪标注,否则丢弃。图4(e)的伪标注图中,第一行伪标注得分较高被视为高质量伪标注,用于后续的模型训练;第二行伪标注得分较低,直接被丢弃。
4、针对静止或者不完整运动目标的训练数据增强
前述基于最有效运动的伪标注生成,比较适合对于运动明显的显著目标检测,但是视频中,也存在一些静止或者运动不完整的目标,为了让模型也能检测到静止或者运动不完整的目标,采用训练数据增强的策略,具体为:
对视频中的每一帧图像It,通过前述方法得到伪标注Lt,通过LDOF、FlowNet等方法得到当前帧与下一帧之间的运动图像Nt;基于预设比例随机修改运动图像Nt,将运动图像Nt中某些目标的运动改为和背景一样或将运动图像Nt中目标的某一部分运动改为和背景一样,得到增强后的数据。
图5展示了训练数据增强的例子,其中:图5(a)为一帧图像、图5(b)为运动图像、图5(c)为伪标注图。第一行是训练数据,其运动图像中有两个明显的目标区域(拖拉机和行人);第二三行是增强后的数据,第二行运动图像中拖拉机没有了明显的运动,第三行中拖拉机和行人都只有不完整的运动。这么数据增强的目的,就是要让模型不是仅仅依赖于运动信息,使模型能在没有运动或者运动不完整时也能检测出其中的目标,增强模型的泛化能力。
5、训练视频显著性目标检测模型
在高质量伪标注的监督下,训练出一个深度神经网络模型,具体为:
将图像帧It、高质量的视频帧伪标注Lt、与下一帧之间的运动图像Nt作为深度神经网络模型的输入数据,在模型训练过程中,计算每个像素的损失函数,其中,视频帧伪标注为0.5的像素不参与损失函数计算。
很多现有的全监督视频显著目标检测的网络模型可以直接使用,仅仅需要做两处改动:将全监督模型中需要用到的像素级人工标注用本方法中生成的高质量伪标注替代;本方法的高质量伪标注中,除了有标注1和0的,还有标注为0.5的,表示该像素标注不确定,因此不参与损失函数的计算。
此外,前述最有效运动选择需要计算当前帧和多个邻近帧之间的运动,时间开销较大。但是这种耗时的步骤,仅仅用于伪标注生成阶段。在网络训练阶段,输入的运动仍然是当前帧与下一帧之间的运动;网络训练好之后,在推理测试阶段,也仍然使用当前帧与下一帧之间的运动,这意味着推理测试阶段不需要为计算帧运动付出很大时间开销。
与图1所述的方法相对应,本发明实施例还提供了一种基于无监督深度学习的视频显著性目标检测系统,用于对图1中方法的具体实现,本发明实施例提供的一种基于无监督深度学习的视频显著性目标检测系统可以应用计算机终端或各种移动设备中,其结构示意图如图6所示,具体包括:选择模块、生成模块、挑选模块、增强模块、训练模块、检测模块,且各结构依次相连;其中,
选择模块,基于运动完整性和运动可靠性,选择视频帧的最有效运动;
生成模块,基于视频帧的最有效运动,生成视频帧的伪标注;
挑选模块,基于视频帧的伪标注得分和视频的伪标注得分,挑选高质量的视频帧的伪标注;
增强模块,基于视频帧的伪标注,采用训练数据增强的策略对静止或者运动不完整的目标进行处理,获得增强后的数据,并构建训练数据集;
训练模块,用于将训练数据集作为深度神经网络模型的输入进行模型训练,直至损失函数收敛时,获取视频显著性目标检测模型;
检测模块,用于通过视频显著性目标检测模型进行目标检测,获得视频中的显著性目标。
本发明不需要任何人工标注,就能够运用深度学习实现视频中的显著性目标检测,并且能够推广到任何应用场景,节省大量的人力物力;通过最有效运动选择机制和高质量伪真值生成方法,得到可靠的伪真值用于监督模型的训练,可提高视频中显著性目标检测精度;针对静止或者不完整运动目标的训练数据增强,使模型学习了在没有运动或者运动不完整时也能检测出其中的目标,增强了模型的泛化能力,因此训练出来的模型不仅能检测明显运动的目标,也能很好地检测静止或者运动不明显的目标。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种基于无监督深度学习的视频显著性目标检测方法,其特征在于,包括以下步骤:
基于运动完整性和运动可靠性,选择视频帧的最有效运动;
基于视频帧的最有效运动,生成视频帧的伪标注;
基于视频帧的伪标注得分和视频的伪标注得分,挑选高质量的视频帧的伪标注;
基于视频帧的伪标注,采用训练数据增强的策略对静止或者运动不完整的目标进行处理,获得增强后的数据,并构建训练数据集;
将训练数据集作为深度神经网络模型的输入进行模型训练,直至损失函数收敛时,获取视频显著性目标检测模型;
利用视频显著性目标检测模型进行目标检测,获得视频中的显著性目标;
选择视频帧的最有效运动,具体包括以下步骤:
给定视频帧序列{It,t=1...N},通过包括LDOF、FlowNet在内的方法计算前向运动Ft ->t+s和后向运动Ft+s->t
基于前向运动Ft->t+s,采用无监督方法MBD检测得到显著性目标St->t+s,将显著性目标St->t+s的面积作为运动完整性得分Ct->t+s
对于当前帧每个像素p,通过前向运动Ft->t+s计算像素p对应于邻近帧It+s的像素q;通过反向运动Ft+s->t计算像素q对应于当前帧It的像素p';根据像素p和p'之间的邻近度,计算像素p运动估计的可靠性,并将所有像素的运动估计可靠性平均值记为Rt->t+s
通过运动完整性得分Ct->t+s和运动可靠性得分Rt->t+s的乘积,得到运动Ft->t+s的有效性得分Et->t+s
改变参数s,计算当前帧和不同的邻近帧之间运动的有效性得分,并将有效性得分最高的运动记为当前帧It的最有效运动;
生成视频帧的伪标注,具体包括以下步骤:
对于视频中每一帧图像It,基于选择的视频帧的最有效运动,采用无监督方法MBD和CTR得到两个显著图,两个显著图的显著值均归一化到[0,1]范围内;
基于两个显著图,生成视频帧的伪标注Lt;其中,对于每个像素i,若两个显著图的结果均大于0.5,则视频帧的伪标注为1;若两个显著图的结果均小于0.5,则视频帧的伪标注为0;其他情况表示两个显著图的结果不一致,则视频帧的伪标注为0.5;
挑选高质量的视频帧的伪标注,具体包括以下步骤:
对于一帧图像伪标注Lt,根据视频帧的伪标注结果中1和0的占比,计算视频帧的伪标注得分;
对视频帧序列{It,t=1...N}中每一帧图像伪标注得分求平均值,得到视频的伪标注得分;
对于一帧图像伪标注Lt,根据视频帧的伪标注得分和所在视频的伪标注得分的乘积,得到最终得分,将最终得分大于预设阈值的伪标注视为高质量的视频帧的伪标注,否则丢弃。
2.根据权利要求1所述的一种基于无监督深度学习的视频显著性目标检测方法,其特征在于,获得增强后的数据,具体包括以下步骤:
对视频中的每一帧图像It,通过包括LDOF、FlowNet在内的方法得到当前帧与下一帧之间的运动图像Nt
基于预设比例随机修改运动图像Nt,将运动图像Nt中某些目标的运动改为和背景一样或将运动图像Nt中目标的某一部分运动改为和背景一样,得到增强后的数据。
3.根据权利要求1所述的一种基于无监督深度学习的视频显著性目标检测方法,其特征在于,获取视频显著性目标检测模型,具体为:
将图像帧It、高质量的视频帧伪标注Lt、与下一帧之间的运动图像Nt作为深度神经网络模型的输入数据,在模型训练过程中,计算每个像素的损失函数,其中,视频帧伪标注为0.5的像素不参与损失函数计算。
4.一种实现如权利要求1所述的基于无监督深度学习的视频显著性目标检测方法的系统,其特征在于,包括:选择模块、生成模块、挑选模块、增强模块、训练模块、检测模块,且各结构依次相连;
选择模块,基于运动完整性和运动可靠性,选择视频帧的最有效运动;
生成模块,基于视频帧的最有效运动,生成视频帧的伪标注;
挑选模块,基于视频帧的伪标注得分和视频的伪标注得分,挑选高质量的视频帧的伪标注;
增强模块,基于视频帧的伪标注,采用训练数据增强的策略对静止或者运动不完整的目标进行处理,获得增强后的数据,并构建训练数据集;
训练模块,用于将训练数据集作为深度神经网络模型的输入进行模型训练,直至损失函数收敛时,获取视频显著性目标检测模型;
检测模块,用于通过视频显著性目标检测模型进行目标检测,获得视频中的显著性目标。
CN202310197056.XA 2023-03-03 2023-03-03 基于无监督深度学习的视频显著性目标检测方法及系统 Active CN116189058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310197056.XA CN116189058B (zh) 2023-03-03 2023-03-03 基于无监督深度学习的视频显著性目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310197056.XA CN116189058B (zh) 2023-03-03 2023-03-03 基于无监督深度学习的视频显著性目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN116189058A CN116189058A (zh) 2023-05-30
CN116189058B true CN116189058B (zh) 2023-10-03

Family

ID=86432543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310197056.XA Active CN116189058B (zh) 2023-03-03 2023-03-03 基于无监督深度学习的视频显著性目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN116189058B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598609A (zh) * 2019-09-02 2019-12-20 北京航空航天大学 一种基于显著性引导的弱监督目标检测方法
CN113221826A (zh) * 2021-05-31 2021-08-06 浙江工商大学 一种基于自监督学习显著性估计像素嵌入的道路检测方法
CN114266927A (zh) * 2021-12-23 2022-04-01 中山大学 一种无监督的显著性目标检测方法、系统、设备及介质
CN115620101A (zh) * 2022-09-06 2023-01-17 北京交通大学 一种基于混合标签的弱监督显著性检测方法及训练策略

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598609A (zh) * 2019-09-02 2019-12-20 北京航空航天大学 一种基于显著性引导的弱监督目标检测方法
CN113221826A (zh) * 2021-05-31 2021-08-06 浙江工商大学 一种基于自监督学习显著性估计像素嵌入的道路检测方法
CN114266927A (zh) * 2021-12-23 2022-04-01 中山大学 一种无监督的显著性目标检测方法、系统、设备及介质
CN115620101A (zh) * 2022-09-06 2023-01-17 北京交通大学 一种基于混合标签的弱监督显著性检测方法及训练策略

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Fast Video Saliency Detection via Maximally Stable Region Motion and Object Repeatability;Xiaoming Huang and Yu-Jin Zhang;《IEEE TRANSACTIONS ON MULTIMEDIA》;第4458-4470页 *
Unsupervised Domain Adaptive Salient Object Detection through Uncertainty-Aware Pseudo-Label Learning;Pengxiang Yan et al;《The Thirty-Sixth AAAI Conference on Artificial Intelligence》;第3000-3008页 *
一种新的鲁棒无监督显著性目标检测方法;刘明明等;《中国科技论文》;第1356-1361页 *

Also Published As

Publication number Publication date
CN116189058A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN1875378A (zh) 图像中的对象检测
CN103460248B (zh) 图像处理方法和装置
Benbihi et al. Elf: Embedded localisation of features in pre-trained cnn
CN110458115B (zh) 一种基于时序的多帧集成目标检测算法
Suin et al. Degradation aware approach to image restoration using knowledge distillation
Agrawal et al. Dense haze removal by nonlinear transformation
CN115761568A (zh) 一种基于YOLOv7网络和Deepsort网络的猕猴检测方法
JP4242796B2 (ja) 画像認識方法及び画像認識装置
CN113365103B (zh) 坏帧自动检测方法、装置、设备、存储介质、程序产品
EP2017788A1 (en) Shielding-object video-image identifying device and method
CN113298707B (zh) 图像帧拼接方法、视频巡检方法、装置、设备及存储介质
CN117336620B (zh) 基于深度学习的自适应视频拼接方法及系统
CN116189058B (zh) 基于无监督深度学习的视频显著性目标检测方法及系统
CN111160340B (zh) 一种运动目标检测方法、装置、存储介质及终端设备
CN116311554A (zh) 基于视频目标检测的学生课堂异常行为识别方法与系统
CN115239551A (zh) 视频增强方法和装置
CN111583341B (zh) 云台像机移位检测方法
CN114926631A (zh) 目标框生成方法、装置、非易失性存储介质及计算机设备
CN114821441A (zh) 联合ads-b信息的基于深度学习的机场场面运动目标识别方法
CN108737814B (zh) 一种基于动态模式分解的视频镜头检测方法
CN113706436A (zh) 一种基于自监督生成对抗学习背景建模的目标检测方法
CN115098731B (zh) 目标关联方法、设备及存储介质
CN112699714B (zh) 一种针对图像的致盲场景检测方法及车载终端
CN117893952B (zh) 基于深度学习的视频马赛克缺陷检测方法
CN117522730A (zh) 图像修复的判别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant