CN116758449A - 一种基于深度学习的视频显著目标检测方法及系统 - Google Patents
一种基于深度学习的视频显著目标检测方法及系统 Download PDFInfo
- Publication number
- CN116758449A CN116758449A CN202310534981.7A CN202310534981A CN116758449A CN 116758449 A CN116758449 A CN 116758449A CN 202310534981 A CN202310534981 A CN 202310534981A CN 116758449 A CN116758449 A CN 116758449A
- Authority
- CN
- China
- Prior art keywords
- attention
- deep learning
- attention mechanism
- model
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000013135 deep learning Methods 0.000 title claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims abstract description 78
- 230000033001 locomotion Effects 0.000 claims abstract description 63
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000010586 diagram Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 230000003287 optical effect Effects 0.000 claims abstract description 19
- 238000011176 pooling Methods 0.000 claims abstract description 19
- 238000012217 deletion Methods 0.000 claims abstract description 11
- 230000037430 deletion Effects 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 4
- 238000004445 quantitative analysis Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004451 qualitative analysis Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 102100030688 Histone H2B type 1-A Human genes 0.000 description 1
- 101001084688 Homo sapiens Histone H2B type 1-A Proteins 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度学习的视频显著目标检测方法及系统,包括:特征提取网络、注意力机制模型、边缘先验模型、空间空洞金字塔池化模型和解码器;通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。本发明解决了现有视频处理中难以快速准确定位显著目标的问题。
Description
技术领域
本发明涉及视频处理技术领域,尤其涉及一种基于深度学习的视频显著目标检测方法及系统。
背景技术
近年来,随着人工智能技术的快速发展以及相关应用的广泛普及,作为人工智能重要应用领域之一的计算机视觉技术迈进了新的发展阶段,其各个方向均不断取得新的突破。简单来说,计算机视觉就是利用摄像机和电脑等相关设备来模拟人类的视觉系统,建立与视觉机制相关的计算方法,试图从图像、视频或者更高维的数据中获取重要的信息,其最终目标就是使机器能够自动处理和理解视觉形式的信号,并具备部分自主适应能力,在复杂场景中能够代替人类去完成指定的视觉场景任务。如今,图像与视频数据日益增加,并且数量庞大、内容复杂,如何高效地从海量视频数据中挖掘出人类可以理解并且需要的信息,已成为计算机视觉领域的一大难题。各在类视觉任务中,基于人类视觉注意力机制的显著性检测可以有效地精炼这些图像与视频数据,因此这一领域越来越受到研究者的关注,并且成为一个研究热点。
如今显著目标检测技术已日渐成熟,广泛应用于图像/视频压缩、视频分割、显著目标检测等各个方面。在显著目标检测中,一般是输入一张图像或者视频,输出相应的显著图或序列,并且显著目标检测可以被认为是一个二分类问题,我们需要识别出图像或视频中的显著目标,根据分类形成边界,从而刻画出完整的目标,目标的轮廓更加完整以及细化说明该检测技术更好。与此同时,显著目标检测又可分为图像显著目标检测和视频显著目标检测,前者作为后者的基础研究,已经取得了较为丰厚的研究成果,但由于视频是由一帧帧的图像序列连接而成,仅仅从图像空间信息中难以完成完整的目标分割,不仅需要引入时间信息,还要将时间和空间信息进行融合才能更好的完成视频显著目标检测任务。一方面是由于标注详细的公开数据集还不是很多,并且数据标注并不完善;另一方面由于视频目标存在运动模式、光照变化以及背景杂乱等各种问题,比之图像更加复杂。因此,视频显著目标检测仍是一个具有挑战的任务,许多研究人员都在进行进一步研究。
视频目标检测任务中最大的困难就是如何保持视频中目标的时空一致性以及如何更准确地定位显著性目标,特别是其边界。视频是由多个有序列关系的图像组成的,该序列关系是一种时间的序列关系,因此其中的目标如果在运动,那么空间位置以及其自身的属性会发生变化,而且这种变化与时间存在紧密的关系,但即使发生了变化,每一帧的发生变化的目标还是属于同一个目标,这就叫做时空一致性,但现有方法对于时空信息的融合利用并不充分,以至于不能准确地识别视频中的显著性目标。与此同时,大多数现有的基于卷积神经网络的方法仍然存在对象边界粗糙的问题。所以将会导致无法准确定位视频中的显著目标。
发明内容
本发明提供一种基于深度学习的视频显著目标检测方法及系统,用以解决现有视频处理中难以快速准确定位显著目标的问题。
本发明提供一种基于深度学习的视频显著目标检测方法,包括:
特征提取网络、注意力机制模型、边缘先验模型、空间空洞金字塔池化模型和解码器;
通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;
通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
根据本发明提供的一种基于深度学习的视频显著目标检测方法,所述注意力机制模型包括:
空间注意力机制、通道注意力机制和混合注意力机制;
通过光流图产生的运动信息对外观特征进行指导,利用所述混合注意力机制进行引导。
根据本发明提供的一种基于深度学习的视频显著目标检测方法,所述注意力机制模型需要对空间注意力和通道注意力进行合理分配,根据分配情况分为空间-通道注意力模块和通道-空间注意力模块;
将运动特征对外观特征进行空间注意力,从运动特征预测出运动显著图,将运动显著图与外观特征逐位相乘;
空间注意力后的外观特征再经过全局平均池化得到一个一维向量,再经过预测出的权重通过Softmax函数进行标准化,在最大程度上进行通道注意力的分配;
引入残差项以减少错误信息,生成新的外观特征。
根据本发明提供的一种基于深度学习的视频显著目标检测方法,所述边缘先验模型是通过第一层级和第二层级的低级信息进行融合形成的;
通过所述边缘先验模型相互加权抑制噪声,将两个特性进行融合从而产生最终的边缘信息。
根据本发明提供的一种基于深度学习的视频显著目标检测方法,所述空间空洞金字塔池化模型在不降采样的情况下,通过不同膨胀率的膨胀卷积增大网络的感受,增强网络获取长期上下文信息的能力。
根据本发明提供的一种基于深度学习的视频显著目标检测方法,所述具有物体准确边界的高分辨率显著图通过设定的评价标准进行定量分析;
根据定量分析结果判断视频显著目标检测结果的优良性。
本发明还提供一种基于深度学习的视频显著目标检测系统,所述系统包括:
初始化模块,用于通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
融合模块,用于通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;
指导模块,用于通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
预测模块,用于所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于深度学习的视频显著目标检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于深度学习的视频显著目标检测方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于深度学习的视频显著目标检测方法。
本发明提供的一种基于深度学习的视频显著目标检测方法及系统,通过将边缘特征与显著目标特征进行一定的融合,融合后的特征利用边缘特征中丰富的边缘信息和位置信息,可以更准确地定位显著性目标,特别是其边界,使得视频中的显著目标检测更加快速准确。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于深度学习的视频显著目标检测方法的流程示意图之一;
图2是本发明提供的一种基于深度学习的视频显著目标检测系统的模块连接示意图;
图3是本发明提供的边缘先验模块工作示意图;
图4是本发明提供的空洞空间金字塔池化模块工作示意图;
图5是本发明提供的定性分析实验示意图;
图6是本发明提供的电子设备的结构示意图。
附图标记:
110:初始化模块;120:融合模块;130:指导模块;140:预测模块。
610:处理器;620:通信接口;630:存储器;640:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的一种基于深度学习的视频显著目标检测方法,包括:
S100、特征提取网络、注意力机制模型、边缘先验模型、空间空洞金字塔池化模型和解码器;
S200、通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
S300、通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;
S400、通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
S500、所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
本发明中引入注意力机制模块并加以改进将运动信息更好的帮助外观信息进行特征提取,以更好融合时空信息;从底层级特征进行一系列权重自适应学习操作生成边缘轮廓图去对高级特征进行指导,即边缘先验模块,使边缘更加清晰。
在一个具体实施例中,先进行数据预处理,为了改进数据的质量,提高模型的性能,需要对数据进行预处理操作,操作如下:首先将图片大小调整为384×384,然后将其进行随机水平翻转,之后再进行0-180度随机旋转,最后再进行归一化。与此同时,本发明采取DAVIS和DAVSOD两个数据集的训练集对整个网络进行混合预训练,以期得到性能更佳的模型结果。
在实验的过程中,先使用ResNet101和ResNet34将外观分支和运动分支分别进行初始化,然后在训练阶段,我们采用Adam优化算法,学习率(learning rate)设置为10-5,动量(momentum)设置为0.9,批大小(batchsize)设置为4,权重衰减(weight decay)设置为0.005,训练回合数(epoch)设置为200,最后损失函数(lossunction)采用BCE loss、SSIMloss以及IOU loss三者相加进行综合评价,以获得更加准确的评估结果。
模型整体框架,基于双流卷积神经网络的视频显著目标检测模型主要采用双流卷积网络框架,分为空间流子网络(Spatial Stream Network)和时间流子网络(TemporalStream Network),且两者都是由卷积神经网络来实现相应功能,前者主要处理静态图像,获取空间信息,属于外观分支;后者根据输入的光流图挖掘相应的运动信息,属于运动分支。因此参考目前性能较好的运动引导注意网络(Motion Guided Attention Network,MGA),在已有基础模型上改进相应的注意力机制模块以及加入边缘先验模块进行指导以改善检测结果边缘模糊问题。模型包括ResNet特征提取网络、注意力机制模块(AM)、边缘先验模块(EP)、空间空洞金字塔池化模块(ASPP)以及解码器(Decorder)。
模型整体是由外观分支、运动分支、边缘模块以及一组连接外观和运动分支的注意力机制模块组成。在外观分支和运动分支中,我们分别使用在ImageNet上已预训练好的特征提取网络ResNet-101和ResNet-34来初始化两个分支网络,之后通过注意力机制将从光流图中提取的运动信息强调外观特征的某些重要位置或元素进行时空融合从而指导显著目标检测任务,与此同时,由低级特征融合产生的边缘特征对任务进行指导,从而弥补边缘缺失的问题。解码器的主要功能是将低级特征与高级特征进行融合,之后再通过注意力机制模块进行一定指导,最后恢复特征图的大小,以预测具有物体准确边界的高分辨率显著图。
ASPP模块输出的高层级特征通过解码器中的1×1卷积“conv-1”降低为256通道,ResNet特征提取网络中的低层级特征也通过解码器中的另一个1×1卷积“conv-2”降低为48通道,从而通过“concat”进行特征拼接,之后的“conv-3”和“conv-4”都是3×3卷积并将通道数降为256,最后通过一个1×1卷积“conv-5”和一个Sigmoid函数预测出单通道显著图。为简便起见,运动分支的解码器使用类似于“conv-3-5”的结构来直接预测其显著图。
所述注意力机制模型包括:
空间注意力机制、通道注意力机制和混合注意力机制;
通过光流图产生的运动信息对外观特征进行指导,利用所述混合注意力机制进行引导。
所述注意力机制模型需要对空间注意力和通道注意力进行合理分配,根据分配情况分为空间-通道注意力模块和通道-空间注意力模块;
将运动特征对外观特征进行空间注意力,从运动特征预测出运动显著图,将运动显著图与外观特征逐位相乘;
空间注意力后的外观特征再经过全局平均池化得到一个一维向量,再经过预测出的权重通过Softmax函数进行标准化,在最大程度上进行通道注意力的分配;
引入残差项以减少错误信息,生成新的外观特征。
本发明中,在视频显著目标检测任务中,我们通过光流图产生的运动信息对外观特征进行指导,这也需要注意力机制进行引导,而注意力机制主要分为空间注意力机制(Spatial Attention)、通道注意力机制(Channel Attention)以及混合注意力机制(Spatial-Channel Attention)这三种,在此模型中主要采用不同种混合注意力机制模块,能够更好的对不同区域进行分配相应的权重,从而达到更有的目标检测效果。
首先考虑一种最简单的注意力模块(AM-m),就是将运动显著图(Sm)和外观特征(fa)逐位相乘,之后再引入残差结构进行逐位相加,最后生成新的外观特征(f′a),其公式如下:
两者相乘可以增强外观特征中显著区域的响应,但因为当运动显著图存在零元素时与外观特征相乘,便会使其失效,所以为了弥补错误一直的外观信息,引入残差结构,很好地解决了这个缺点。其中f′a、fa和Sm的大小分别为C×H×W、C×H×W、H×W,并且将此模块命名为AM-m,AM代表注意力机制(Attention Mechanism),“-m”代表运动显著图是一张地图。
若只考虑空间注意力模块(AM-s),先将运动特征(fm)对外观特征(fa)进行空间注意力,从运动特征预测出运动显著图,再将其与外观特征逐位相乘,最后引入残差项相加即可,公式如下:
由于运动特征是由光流图生成的,光流图并没有原图片那么多的纹理特征,如果直接对运动特征同时实现空间和通道注意力机制,在通道注意力机制的情况下可能会引入额外的噪声,因此只对其进行空间注意力分配。其中f′a、fa和fm的大小分别为C×H×W、C×H×W和C′×H×W,h(·)是1×1卷积,其输出通道分别为1,并且将此模块命名为AM-s,AM代表注意力机制(Attention Mechanism),“-s”代表仅进行空间注意力(Spatial Attention)。
如何实现空间注意力和通道注意力的合理分配也是一大重点,因此根据两者分配不同提出了两种注意力模块,即空间-通道注意力模块(AM-sc)和通道-空间注意力模块(AM-cs)。
AM-sc模块大体来说便是先进行空间注意力分配再进行通道注意力分配。首先将运动特征(fm)对外观特征(fa)进行空间注意力,从运动特征预测出运动显著图,再将其与外观特征逐位相乘;“空间注意力”后的外观特征(f′a)再经过全局平均池化(GAP)得到一个一维向量,此时仅强调通道信息,再经过预测出的权重经由Softmax函数使其标准化,平均值为1,可以最大程度上进行通道注意力的分配,最后再引入残差项以减少错误信息,生成新的外观特征(f″a),其公式如下:
其中f″a、f′a、fa和fm的大小分别为C×H×W、C×H×W、C×H×W和C′×H×W,h(·)和g(·)均是1×1卷积,其输出通道分别为1和C,并且将此模块命名为AM-sc,AM代表注意力机制(Attention Mechanism),“-sc”代表先进行空间注意力(Spatial Attention)后进行通道注意力(Channel Attention)。
AM-cs模块大体来说便是先进行通道注意力分配再进行空间注意力分配。首先将外观特征(fa)进行自我通道注意力分配,再与自己逐位相乘,得到“通道注意力”后的外观特征(f′a);然后将运动特征(fm)对新外观特征(f′a)进行空间注意力,大体操作与AM-sc相似,只是做了一定位置上的调整,其公式如下:
由于操作类似,所以在此并不赘述,并且将此模块命名为AM-cs,AM代表注意力机制(Attention Mechanism),“-cs”代表先进行通道注意力(Channel Attention)后进行空间注意力(Spatial Attention)。
边缘先验模型是通过第一层级和第二层级的低级信息进行融合形成的;
通过所述边缘先验模型相互加权抑制噪声,将两个特性进行融合从而产生最终的边缘信息。
在许多显著目标检测任务中,边缘信息往往都被大家忽视,很多只是单纯的将低级特征与高级特征进行融合,但可能会导致冗余和不一致,因此将第一层和第二层低级信息进行融合,形成边缘先验模块(Edge Prior,EP),如图3所示,进一步对显著目标检测进行相应指导,以得到拥有更好边界的显著目标。
如图3所示,F1和F2分别是由编码器产生的低级特征,其中包含了大量的视觉线索和噪声,其通道数分别为64和256。其中Convi(·)表示3×3卷积块,主要作用是将通道数降为64,从而进行逐位相乘,其公式如下:
该模块主要是通过互相加权来抑制噪声,但与此同时也会抑制有价值的线索,因此我们采用一个方式将两个特性进行融合从而产生最终的边缘信息(FE),可以定义为:
其中Cat(·)表示两个同维特征进行拼接。但因为边缘信息需要对显著检测进行指导,拼接之后通过1×1卷积块恢复原始尺寸,然后还需要一个1×1卷积块将其通道数降为一维,从而生成最终的边缘特征(FE)。
所述空间空洞金字塔池化模型在不降采样的情况下,通过不同膨胀率的膨胀卷积增大网络的感受,增强网络获取长期上下文信息的能力。
空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)的作用主要是在不降采样的情况下,通过不同膨胀率的膨胀卷积增大网络的感受野,从而增强网络获取长期上下文信息的能力。如图4所示,ASPP模块是由5个并行层对输出高级特征进行处理,包括1个1×1卷积层,膨胀率分别为6、12、18的3×3空洞卷积层以及1个全局平均池化层,最后将5个并行层结果进行拼接,最终生成1个单一特征图。
本发明中进行实验验证评估,实验的具体过程为:
评估标准,采用两种最被广泛使用的评价标准:F-measure和MAE以及新被提出的结构性指标S-measure对实验结果进行定量分析。
F-measure又称为F-score,Fβ是基于查准率(Precision)和查全率(Recall)的加权调和平均,是IR(信息检索)领域常用的一个评价标准,常用于评价分类模型的好坏,Fβ公式如下:
对于二分类问题,可将样例根据真实情况和预测结果类别组合划分为真正例(True Positive)、假正例(False Positive)、真反例(True Negative)、假反例(FalseNegative)四种情形,分类结果的“混淆矩阵”如表1所示:
表1
查准率P和查全率R分别定义为:
查准率和查全率是一对矛盾的度量,因此在指标抉择时要有所偏重,即β的选择,因此以前人实践成果为基础设置β2为0.3。
MAE即平均绝对误差(Mean Absolute Error)用来比较模型输出的显著图与ground-truth之间的逐像素绝对值差异,公式如下:
其中(x,y)是该像素点的坐标,W和H分别为整张图片的宽度和高度,Y(x,y)表示ground-truth在(x,y)点处的像素值,表示显著图在(x,y)点处的像素值。
S-measure,前两种评估标准主要是针对像素级的误差,往往忽略了结构上的相似性,因此某实验室于2017年提出了一种基于场景结构的新颖、高效的结构性度量(S-measure),公式如下:
S=α*So+(1-α)*Sr
其中So和Sr分别展示了对象感知和区域感知的结构相似性测量,而α表示对对象和区域地偏重程度,在此取α为0.5。
进行结果分析,定性分析时,本实验在DAVIS、ViSal和SegTrack-v2三个数据集上进行测试,并与其他八种模型进行对比,包括STBP、SGSP、SFLR、SCOM、SCNN、FGRN、MBNM、PDBM,从主观上观察各个模型输出显著图效果,进行可视化对比,如图5所示。其中“video”表示原始图片,中间八个是每个模型生成的显著图,模型名称在图形下方,“ours”表示本文模型生成的显著图,最终与GT图进行对比。
如图5第1行所示,当显著目标单一且背景较为简单时,可看出模型的性能除了前几个以外都还算可以,没有很大区别;但当目标变多或者背景逐渐开始复杂产生干扰时,各个模型开始发生显著变化,如图5第2、3、4行可以看出,本模型在一定程度上还是保持了优异的性能,与GT图的差异很小。
进行定量分析时,本实验仍在DAVIS、ViSal和SegTrack-v2数据集上进行测试,并与其他八种模型进行对比,主要采取三种指标:S-m(S-measure缩写)、maxF(F-measure最大值)以及MAE,前两个指标自然是越大越好,最后一个是误差自然越小越好。
本发明提出模型也是基于深度学习提出的。本文提出模型大部分情况性能最优,极少部分次之以及较好,且在DA VIS数据集上的性能最佳,maxF和S-m都达到了0.9以上,MAE也低于0.02,因此从量的角度上来说该模型具有一定的可行性,能够比较好的检测出各种显著目标。
进行消融实验,如表2所示,在ViSal数据集上分别对AM-s、AM-sc以及AM-cs注意力机制模块进行训练和测试,由数据结果可知混合注意力机制模块比空间注意力机制模块性能更好,因此说明混合注意力机制能够促进显著目标检测的时空一致性。
表2
如表3所示,在DAVIS和SegV2数据集上分别对AM-sc、AM-cs和EP融合模块进行训练和测试,由数据结果可知加入边缘先验模块的模型性能更佳,因此说明此边缘先验模块能够一定程度上解决显著目标检测边缘模糊的问题。
表3
如表4所示,在DAVIS、ViSal和SegV2三个数据集上分别对AM-sc、AM-cs进行训练和测试,由数据结果可知在大部分情况下AM-cs性能更好,因此在一定程度上说明对于此网络来说,先进行通道注意力机制再进行空间注意力机制更好。
表4
在表4中AM-s表示空间注意力机制,AM-sc表示先进行空间注意力机制再进行通道注意力机制,以及AM-cs与AM-sc顺序正好相反,EP代表边缘先验模块,红色表示性能最好。
本发明提供的一种基于深度学习的视频显著目标检测方法,通过将边缘特征与显著目标特征进行一定的融合,融合后的特征利用边缘特征中丰富的边缘信息和位置信息,可以更准确地定位显著性目标,特别是其边界,使得视频中的显著目标检测更加快速准确。
参考图2,本发明还公开了一种基于深度学习的视频显著目标检测系统,所述系统包括:
初始化模块110,用于通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
融合模块120,用于通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;
指导模块130,用于通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
预测模块140,用于所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
通过本发明提供的一种基于深度学习的视频显著目标检测系统,将边缘特征与显著目标特征进行一定的融合,融合后的特征利用边缘特征中丰富的边缘信息和位置信息,可以更准确地定位显著性目标,特别是其边界,使得视频中的显著目标检测更加快速准确。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行一种基于深度学习的视频显著目标检测方法,该方法包括:特征提取网络、注意力机制模型、边缘先验模型、空间空洞金字塔池化模型和解码器;
通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;
通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种基于深度学习的视频显著目标检测方法,该方法包括:特征提取网络、注意力机制模型、边缘先验模型、空间空洞金字塔池化模型和解码器;
通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;
通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的一种基于深度学习的视频显著目标检测方法,该方法包括:特征提取网络、注意力机制模型、边缘先验模型、空间空洞金字塔池化模型和解码器;
通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;
通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于深度学习的视频显著目标检测方法,其特征在于,包括:
特征提取网络、注意力机制模型、边缘先验模型、空间空洞金字塔池化模型和解码器;
通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;
通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
2.根据权利要求1所述的基于深度学习的视频显著目标检测方法,其特征在于,所述注意力机制模型包括:
空间注意力机制、通道注意力机制和混合注意力机制;
通过光流图产生的运动信息对外观特征进行指导,利用所述混合注意力机制进行引导。
3.根据权利要求2所述的基于深度学习的视频显著目标检测方法,其特征在于,所述注意力机制模型需要对空间注意力和通道注意力进行合理分配,根据分配情况分为空间-通道注意力模块和通道-空间注意力模块;
将运动特征对外观特征进行空间注意力,从运动特征预测出运动显著图,将运动显著图与外观特征逐位相乘;
空间注意力后的外观特征再经过全局平均池化得到一个一维向量,再经过预测出的权重通过Softmax函数进行标准化,在最大程度上进行通道注意力的分配;
引入残差项以减少错误信息,生成新的外观特征。
4.根据权利要求1所述的基于深度学习的视频显著目标检测方法,其特征在于,所述边缘先验模型是通过第一层级和第二层级的低级信息进行融合形成的;
通过所述边缘先验模型相互加权抑制噪声,将两个特性进行融合从而产生最终的边缘信息。
5.根据权利要求1所述的基于深度学习的视频显著目标检测方法,其特征在于,所述空间空洞金字塔池化模型在不降采样的情况下,通过不同膨胀率的膨胀卷积增大网络的感受,增强网络获取长期上下文信息的能力。
6.根据权利要求1所述的基于深度学习的视频显著目标检测方法,其特征在于,所述具有物体准确边界的高分辨率显著图通过设定的评价标准进行定量分析;
根据定量分析结果判断视频显著目标检测结果的优良性。
7.一种基于深度学习的视频显著目标检测系统,其特征在于,所述系统包括:
初始化模块,用于通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
融合模块,用于通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;
指导模块,用于通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
预测模块,用于所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于深度学习的视频显著目标检测方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于深度学习的视频显著目标检测方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于深度学习的视频显著目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310534981.7A CN116758449A (zh) | 2023-05-12 | 2023-05-12 | 一种基于深度学习的视频显著目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310534981.7A CN116758449A (zh) | 2023-05-12 | 2023-05-12 | 一种基于深度学习的视频显著目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116758449A true CN116758449A (zh) | 2023-09-15 |
Family
ID=87948634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310534981.7A Pending CN116758449A (zh) | 2023-05-12 | 2023-05-12 | 一种基于深度学习的视频显著目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758449A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649415A (zh) * | 2024-01-30 | 2024-03-05 | 武汉互创联合科技有限公司 | 基于光流图检测的细胞均衡度分析方法 |
-
2023
- 2023-05-12 CN CN202310534981.7A patent/CN116758449A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649415A (zh) * | 2024-01-30 | 2024-03-05 | 武汉互创联合科技有限公司 | 基于光流图检测的细胞均衡度分析方法 |
CN117649415B (zh) * | 2024-01-30 | 2024-04-30 | 武汉互创联合科技有限公司 | 基于光流图检测的细胞均衡度分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019213369B2 (en) | Non-local memory network for semi-supervised video object segmentation | |
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
CN111523410B (zh) | 一种基于注意力机制的视频显著性目标检测方法 | |
CN109583340B (zh) | 一种基于深度学习的视频目标检测方法 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN112597941B (zh) | 一种人脸识别方法、装置及电子设备 | |
CN110807757B (zh) | 基于人工智能的图像质量评估方法、装置及计算机设备 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN112016682B (zh) | 视频表征学习、预训练方法及装置、电子设备、存储介质 | |
CN114764868A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
CN114529622A (zh) | 通过引入自监督复合任务训练生成对抗网络生成高质量图像的方法及装置 | |
CN116758449A (zh) | 一种基于深度学习的视频显著目标检测方法及系统 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
Liu et al. | A novel spatiotemporal attention enhanced discriminative network for video salient object detection | |
Tang et al. | AutoEnhancer: Transformer on U-Net architecture search for underwater image enhancement | |
CN113936235A (zh) | 一种基于质量评估的视频显著性目标检测方法 | |
CN112906800B (zh) | 基于图像组自适应的协同显著性检测方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN112463999A (zh) | 视觉位置识别方法及装置、计算机设备及可读存储介质 | |
CN112348762A (zh) | 一种基于多尺度融合生成对抗网络的单幅图像去雨方法 | |
CN116977200A (zh) | 视频去噪模型的处理方法、装置、计算机设备和存储介质 | |
CN113627342B (zh) | 视频深度特征提取优化的方法、系统、设备及存储介质 | |
CN116977683A (zh) | 对象识别方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |