CN112446292A - 一种2d图像显著目标检测方法及系统 - Google Patents
一种2d图像显著目标检测方法及系统 Download PDFInfo
- Publication number
- CN112446292A CN112446292A CN202011175003.0A CN202011175003A CN112446292A CN 112446292 A CN112446292 A CN 112446292A CN 202011175003 A CN202011175003 A CN 202011175003A CN 112446292 A CN112446292 A CN 112446292A
- Authority
- CN
- China
- Prior art keywords
- pooling
- image
- double
- network
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开提出了一种2D图像显著目标检测方法及系统,包括:获取待检测的视频,从视频中提取同一场景下的2D图像;利用双池化U型网络对无人驾驶场景视频中的2D图像中各帧图像进行显著目标检测;其中,显著目标检测时所述双池化U型网络被配置为:将无人驾驶场景视频中的各帧图像首先进行预处理,进行通道转换与特征细化,得到细化特征图,再通过双线性逐层上采样和卷积操作得到多尺度预测特征图,再经由预测卷积得到多尺度预测图,各层级边输出预测图通过联结与卷积操作获取显著图。其利用双池化通道网络对无人驾驶场景视频中的各帧图像进行显著目标检测,在保障检测准确率的同时,提高了图像处理的速度。
Description
技术领域
本公开属于图像显著目标检测技术领域,尤其涉及一种2D图像显著目标检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
图像显著目标检测,本质是对图片中每一个像素进行显著或非显著预测的二分类,从而得到具有显著目标信息的预测图。图像包含的场景信息往往是多而杂的,而得益于人眼视觉注意机制,人类总能从图像提取最显著也最关键的信息进行处理,从而做出快速而准确的决策。图像显著目标检测是在对人眼视觉注意机制研究的基础上,利用计算机模拟人眼对不同区域的差异性感知来判断某一像素的显著值,借此得到具有显著目标信息的预测图。目前,2D图像显著目标检测,作为诸多视觉领域的前期处理步骤,已广泛应用到了图像分割、图像压缩、图像检索等相关学术研究领域。近几年,随着与之相关的视觉任务研究的应用,2D图像显著目标检测同时也被应用于无人驾驶、水下考古、三维场景重建等实际领域。随着社会现代化进程发展,城市交通问题日益严峻,针对解决城市交通问题的无人驾驶的相关研究与日俱增。无人驾驶是计算机视觉、人工智能、导航定位与传感器等多门学科的综合体,其所处理的实际场景都是极为复杂的,在不断变化的场景中如何去除场景冗余信息,提高无人驾驶的感知、规划与决策效率,一直是该研究领域人员面临的难题。2D图像显著目标检测能够准确定位场景中最关键的区域,辅助无人驾驶技术决策,所以是无人驾驶的关键技术。显著目标检测以车载传感器采集的视觉图像为输入,通过模型算法的处理输出图像显著区域,以备下一阶段处理与决策。传统的2D图像显著目标检测方法,比如:全局对比度计算法,先验融合方法,流行排序法,可以胜任简单场景的显著目标检测,但传统方法设计的对比度特征、场景先验特征并不能适用于无人驾驶所处的户外复杂场景,而且无人驾驶对显著目标检测速度具有较高的要求,以保证整体视觉任务处理的实时性与安全性。随着神经网络引领的人工智能时代的到来,无人驾驶的技术革新正在进行中,在此基础上,基于神经网络的2D图像显著目标检测也将取得前所未有的性能突破。
发明人发现,目前2D图像显著目标检测面临着检测区域边缘模糊、显著目标检测不全面以及背景区域误检等挑战,从而影响了检测精度,另外相关的卷积网络模型在取得高精度的同时,前期需要耗时训练网络,后期检测实时性有待提高。这些难点都是目前2D图像显著目标检测所探讨的热点问题,尤其是检测实时性。
发明内容
为克服上述现有技术的不足,本公开提供了一种2D图像显著目标检测方法,其利用双池化通道网络对无人驾驶场景视频中的各帧图像进行显著目标检测,预处理去除视频图像中存在的大量冗余信息,为下一阶段无人驾驶的感知、规划与决策做准备,在保障检测准确率的同时,提高了图像处理的速度。
为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
第一方面,公开了一种2D图像显著目标检测方法,包括:
获取待检测的视频,从视频中提取同一场景下的2D图像;
利用双池化U型网络对无人驾驶场景视频中的2D图像中各帧图像进行显著目标检测,预处理去除视频图像中采集的大量冗余信息,为下一阶段无人驾驶的感知、规划与决策做准备,;
其中,显著目标检测时所述双池化U型网络被配置为:将无人驾驶场景视频中的各帧图像首先进行预处理获得不同尺度的特征图,不同尺度的特征图通过双池化操作进行通道转换与特征细化,得到细化特征图,再通过双线性逐层上采样和卷积操作得到多尺度预测特征图,再经由预测卷积得到多尺度预测图,最后通过上采样至输入图像大小和逐像素相加得到相应的双池化和融合边输出预测图,各层级边输出预测图通过联结与卷积操作获取显著图。
第二方面,公开了一种2D图像显著目标检测系统,包括:
数据接收模块,被配置为:获取待检测的视频,从视频中提取同一场景下的2D图像;
数据处理模块,被配置为:利用双池化U型网络对无人驾驶场景视频中的2D图像中各帧图像进行显著目标检测;
其中,显著目标检测时所述双池化U型网络将无人驾驶场景视频中的各帧图像首先进行预处理获得不同尺度的特征图,不同尺度的特征图通过双池化操作进行通道转换与特征细化,得到细化特征图,再通过双线性逐层上采样和卷积操作得到多尺度预测特征图,再经由预测卷积得到多尺度预测图,最后通过上采样至输入图像大小和逐像素相加得到相应的双池化和融合边输出预测图,各层级边输出预测图通过联结与卷积操作获取显著图。
以上一个或多个技术方案存在以下有益效果:
本发明利用双池化U型网络对无人驾驶场景视频中的各帧图像进行显著目标检测,在保障检测准确率的同时,提高了图像处理的速度;
本发明的双池化U型网络中的双通道采样与双池化操作能满足检测准确率的需求,不同层级的特征图融合充分利用顶层定位和底层细节信息;
本发明提出的显著目标检测算法能有效为无人驾驶、水下考古等提供帮助,同时满足准确性和实时性要求,能够解决显著目标检测不全面、背景区域误检,计算占用内存大,前期训练耗时的问题。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本发明实施例中显著目标检测方法流程图;
图2是本发明实施例中图像预处理方法示意图;
图3是本发明实施例中双池化U型网络框架示意图;
图4是本发明实施例中网络重要组成部分双池化操作的示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
术语解释:
双池化U型网络:双池化操作,参数少,运行速度快的神经网络。
特征图:具有宽度、高度、通道数三维信息的特征图,(W×H×C)。
预测图/显著图:仅具有宽度、高度信息,通道数为1的结果图,(W×H×1)。
实施例一
本实施例公开了一种2D图像显著目标检测方法,应用于无人驾驶、水下考古、三维场景重建等实际领域。
下面结合图1和无人驾驶所采集图像为例来详细说明:
本实施例的显著目标检测方法,包括:
利用双池化U型网络对驾驶无人驾驶场景视频中的各帧图像进行显著目标检测,去除视频图像中采集的大量冗余信息,为下一阶段无人驾驶的感知、规划与决策做准备。
其中,双池化U型网络的训练过程为:
对训练集中的图像首先进行减均值操作,然后再随机水平翻转进行数据增强,最后作为网络输入训练双池化通道网络;
双池化U型网络主要由自底向上下采样通道、自顶向下上采样通道、通道间双池化操作与通道外边输出操作组成;
在下采样通道中,输入图像经由卷积操作提取原始多尺度特征,在两通道之间,对每一卷积层的原始特征图进行独立的双池化操作,产生相应的细化特征图;
在上采样通道中,自顶层起,上一层级细化特征上采样后与本层级特征图融合,再经由不同的卷积得到通道数为1的双池化多尺度预测图;
在边输出操作中,相同尺度的双池化预测图利用双线性插值还原到输入图像大小,再逐像素相加得到边输出双池化预测图和融合预测图,最后对双池化以及融合后各自的预测图,分别进行连接,卷积细化,得到具有显著目标信息的显著图;
通过监督双池化以及融合后的多特征图,计算各特征图与标签的交叉熵损失,优化双池化U型网络中每个卷积层参数。
将像素点归一化的训练集中的图像输入至双池化U型网络之前还包括:
对训练集中的图像进行随机水平翻转,扩充训练集。
下面结以无人驾驶场景为例来详细说明,双池化U型网络的训练过程为:
具体地,S1:收集无人驾驶的视频,从视频中提取同一场景下的图像,图像大小为任意尺度n×n,对图像进行标注,确定标签,进而形成训练集和测试集。
步骤S1的具体过程为:
S1.1:视频由一系列图像快速变化形成,因此,时间序列上相近的视频帧之间的场景差异是较小的,将视频帧的提取间隔设置为10,得到大量的图像。
S1.2:利用阈值分割算法自动对每一个像素点进行标注,标注出显著目标区域,得到真值图标签。
S2:参考图2,在训练集基础上,对输入图像通过减均值进行归一化操作,之后随机水平翻转相应的图像与标签,从而扩充了训练集,降低模型的检测误差。
从视频中采样的图像通过采样间隔可以消除一部分图像场景的相似性,为了更好地凸显采样图像个体之间的差异和特征,对图像进行减均值操作,减去数据对应维度的统计平均值,消除公共部分。对经过减均值以后的训练集中的图像仅通过随机水平翻转进行数据增强,扩充训练数据集,同时控制网络训练时间,因此本发明对图像进行预处理从而用较少的图像和训练时间达到较好的效果。
步骤S2的具体过程为:
S2.1:计算所有图像像素点的平均值,得到背景模型。
S2.2:每一次训练中都对输入图像进行减均值操作,数据归一化能提高网络的计算准确性。
S2.3:接着对归一化的图像和标注图像进行随机水平翻转,扩充了训练集,最后输入网络,进行场景特征的提取与网络训练。
S3:将预处理之后的道路场景图像的训练集输入到如图3所示的双池化U型网络中进行训练,训练过程中用多层3×3卷积块学习不同尺度的原始特征,将不同尺度的特征图通过双池化操作进行通道转换与特征细化,得到细化特征图,再通过双线性逐层上采样和卷积操作得到多尺度预测特征图,再经由预测卷积得到通道数为1的多尺度预测图,最后通过上采样至输入图像大小和逐像素相加得到相应的双池化和融合边输出预测图,各层级边输出预测图通过联结与卷积操作获取显著图,通过逐步减通道保持速度,通过双池化与卷积操作提高精度,具体为:
步骤S3的具体过程为:
S3.1:在自底向上下采样通道中,经过预处理的输入图像通过2层步长为1,卷积核为3×3,滤波器数为64的卷积层Conv1-1、Conv1-2,不改变图像大小,提取特征图Conv1,大小为n×n×64像素。
S3.2:Conv1通过最大池层下采样,再经由2层卷积Conv2-1、Conv2-2获取特征图Conv2,该最大池化层卷积核设置为2×2,步长为2,特征图Conv2尺寸减半,卷积层卷积核设置为3×3,步长为1,滤波器数为128,特征图Conv2大小为(n/2)×(n/2)×128像素。
S3.3:Conv2通过最大池层下采样,再经由3层卷积Conv3-1、Conv3-2、Conv3-3获取特征图Conv3,该最大池化层卷积核设置为2×2,步长为2,特征图Conv3尺寸减半,卷积层卷积核设置为3×3,步长为1,滤波器数为256,特征图Conv3大小为(n/4)×(n/4)×256像素。
S3.4:与S4.3类似,Conv3通过最大池层和3层卷积Conv4-1、Conv4-2、Conv4-3,获取特征图Conv4,其中仅滤波器数修改为512,Conv4大小为(n/8)×(n/8)×512像素。
S3.5:Conv4通过与S4.4相同的最大池化和卷积操作获取特征图Conv5,大小为(n/16)×(n/16)×512像素。
S3.6:参照图4,将上述提取的多尺度原始特征图通过双池化操作进一步细化特征。双池化由平均池化和最大池化两部分组成,对应图4中的上层特征流和下层特征流。图4中,i取值为2,3,4,5,是考虑到i为1时,最大池化操作与其他层稍有不同,下面对相应操作进行详细描述。
平均池化应用于Conv1-Conv5,提取平均池化细化特征。各层级的平均池化操作均由1层平均池化、4组并列卷积和1组通道转换卷积组成,其中平均池化卷积核设置为2×2,步长为2,经此操作后,特征图W×H尺寸减半,通道数不变,4组并列卷积分别是ConvA1、ConvA2、ConvA3、ConvA4,4组卷积并列,以不同的卷积核大小、步长,处理池化后的特征,1组通道转换卷积ConvA用于联结4组并列卷积产生的4组特征图,转换通道,对应的参数设置为ConvA1卷积核为1×1,步长为1,无填充,ConvA2卷积核为3×3,步长为1,填充为1,ConvA3卷积核为5×5,步长为1,填充为2,ConvA4卷积核为7×7,步长为1,填充为3,滤波器数均为16,ConvA卷积核为1×1,步长为1,无填充,滤波器数为64,以上5组卷积均保持特征图W×H尺寸不变,通道数最终转变为64,获取的相应平均池化细化特征图为A1(n/2×n/2×64)、A2(n/4×n/4×64)、A3(n/8×n/8×64)、A4(n/16×n/16×64)、A5(n/32×n/32×64)。平均池化后与联结后的输出特征图表示如下:
其中,Xi表示在自底向上下采样通道中获取的原始特征图(Conv1-Conv5),AveP()表示平均池化操作,表示平均池化后的特征图,表示平均池化操作(右下角标A代表平均池化,M代表最大池化,AM代表双池化融合)中的卷积核为1×1(右上角标代表卷积核大小,无缺省值)的卷积操作,平均池化操作中的卷积均为设计网络,需要通过训练获取各层权重参数,其他类似符号同理,cat表示特征图之间逐通道联结,代表1层卷积核为1×1的通道转换卷积,Ai表示平均池化操作模块输出特征图。
参照图4,最大池化应用于Conv1-Conv5,提取最大池化细化特征。Conv1层的最大平均池化操作由1层最大池化、2层特征细化卷积(主干网络)和2层通道转换卷积组成,其中池化卷积核设置为2×2,步长为2,经此操作后,特征图W×H尺寸减半,通道数不变,2层特征细化卷积和2层通道转换卷积的卷积核均为3×3,步长为1,填充为1,经过2层特征细化卷积后,特征图W×H尺寸不变,通道数转变为128,经过2层通道转换卷积后,特征图W×H尺寸不变,通道数转变为64,获取最大池化特征图M1,大小为(n/2×n/2×64)。
Conv2-Conv 4层的最大平均池化操作由1层最大池化、3层特征细化卷积(主干网络)和2层通道转换卷积组成,其中各层的卷积核与步长参数设置均与Conv1的设置一致,主干网络卷积和通道转换卷积之间的通道数依据每层级的通道数变化,最终获取最大池化特征图M2(n/4×n/4×64)、M3(n/8×n/8×64)、M4(n/16×n/16×64)。
Conv5层的最大平均池化操作由1层最大池化、3层特征细化卷积(设计网络)和2层通道转换卷积组成,其中各层的卷积核与步长参数设置均与Conv1的设置一致,3层特征细化卷积是在主干网络的基础上改编而成,其权重参数需要在网络训练过程中不断更新得到,2层通道转换卷积将特征图通道数转变为64,获取最大池化特征图M5,大小为(n/32×n/32×64)。
最大池化后与通道转换后的输出特征图表示如下:
其中,Xi表示在自底向上下采样通道中获取的原始特征图(Conv1-Conv5),MaxP()表示最大池化操作,表示最大池化后的特征图,2Conv3 M表示2层卷积核为3×3的卷积操作(左上角标代表主干网络卷积层数,无缺省值,此种卷积操作的参数无须训练,通过直接加载主干网络预训练模型参数获取),3Conv3 M表示3层卷积核为3×3的卷积操作(左下角标代表设计网络的卷积层数,缺省值为1,此种卷积操作的参数在训练过程中通过损失函数不断优化获取),其他类似符号同理,2Chav3 M代表2层卷积核为3×3的通道转换卷积,Mi表示最大池化操作模块输出特征图。
S3.7:在自顶向下上采样通道中,参照图2,将双池化操作产生的细化特征图逐层上采样,还原特征图信息,得到多尺度上采样特征图。
双池化顶层的上采样特征图直接采用细化特征图,非顶层的上采样特征图将上层级上采样的特征图与本层级的细化特征图进行联结,再通过3层上采样卷积细化,卷积核设置为3×3,步长为1,获取双池化多尺度上采样特征图,D1 A/D1 M(n/2×n/2×64)、D2 A/D2 M(n/4×n/4×64)、D3 A/D3 M(n/8×n/8×64)、D4 A/D4 M(n/16×n/16×64)、D5 A/D5 M(n/32×n/32×64)。
其计算公式表示如下:
其中,Up(*,X1)代表双线性上采样,将*代表的特征图上采样至X1大小,X可取A或M,分别代表平均池化与最大池化,cat()代表特征图之间逐通道联结,3Upconv3 X代表3层卷积核为3×3的上采样卷积细化操作,Di X代表双池化多尺度上采样特征图。
S3.8:双池化多尺度上采样特征图通过预测卷积操作产生双池化多尺度预测图。预测卷积不具有非线性层,卷积核为3×3,步长为1,填充为1,其计算公式表示如下:
PrConv3 X代表双池化预测卷积操作,Pri X代表双池化多尺度预测图。
S3.9:参照图2,将双池化多尺度预测图经过双线性上采样至原图大小,获取边输出预测图,再通过逐像素相加将每个层级获取的双池化边输出预测图进行融合,获取融合边输出预测图,其计算公式表示如下:
其中,I表示输入图像,Up(*,I)代表双线性上采样,将*代表的预测图上采样至输入图像I大小,Pi X代表双池化边输出预测图,Pi AM代表双池化融合边输出预测图。
S3.10:参照图2,通过对三类(平均池化、最大池化、双池化融合)五个层级(Conv1-Conv5)的边输出预测图分别进行连接与输出卷积细化操作,获取显著图,显著图大小为n×n×1,其计算公式表示如下:
其中,cat()代表特征图之间逐通道联结,2Conv1 X表示2层卷积核为1×1的设计网络卷积操作,其中最后一层卷积网络不具有非线性层,SX代表双池化或双池化融合的显著图。
S3.11:双池化U型网络通过监督多层级双池化以及融合后的预测图和显著图,计算网络的交叉熵损失,来优化网络,损失计算公式为:
其中,L表示网络总损失,i表示5个层级的预测图和显著图(i=6),取值为1,2…6,αi,βi各个预测图与显著图损失的权重,βi=1,li AM双池化融合边输出预测图与显著图对应的交叉熵损失,li A平均池化边输出预测图与显著图对应的交叉上损失,li M最大池化边输出预测图与显著图对应的交叉上损失。
交叉熵函数公式:
其中G(x,y)∈{0,1}代表(x,y)像素点的真值图标签,S(x,y)代表该像素预测为显著目标的概率值。
最后,对每个测试集进行减均值归一化处理但不进行随机水平翻转处理,利用平均绝对误差指标计算预测误差。
本实施例利用双池化U型网络解决无人驾驶中的显著目标检测问题。从道路视频中提取图像,对图像随机水平翻转,扩大训练集;对图像中的像素点进行减均值归一化,突出每个像素点的特征与像素间的差异;通过自底向上与自顶向下的U型结构,在自底向上阶段,用卷积提取原始特征,在自顶向下阶段,结合卷积和双线性插值还原输入图像的信息,在U型结构之间引入双池化操作对原始特征进行细化与通道降维,在损失计算阶段引入边输出,实现多特征图监督。自底向上与自顶向下的U型结构保证网络的预测准确率,双池化与边输出操作进一步提高准确性,而双池化特征细化时,对原始特征通道进行降维提高了网络运行速度,有效地减少网络参数,节约计算机资源,达到实时性的要求。本发明提出的显著目标检测算法能有效为无人驾驶、水下考古等提供帮助,同时满足准确性和实时性要求,能够解决显著目标检测不全面、背景区域误检,计算占用内存大,前期训练耗时的问题。
实施例子二
该实施例子公开了一种2D图像显著目标检测系统,包括:
数据接收模块,被配置为:获取待检测的视频,从视频中提取同一场景下的2D图像;
数据处理模块,被配置为:利用双池化U型网络对无人驾驶场景视频中的2D图像中各帧图像进行显著目标检测,去除视频图像中采集的大量冗余信息,为下一阶段无人驾驶的感知、规划与决策做准备;
其中,显著目标检测时所述双池化U型网络将无人驾驶场景视频中的各帧图像首先进行预处理获得不同尺度的特征图,不同尺度的特征图通过双池化操作进行通道转换与特征细化,得到细化特征图,再通过双线性逐层上采样和卷积操作得到多尺度预测特征图,再经由预测卷积得到多尺度预测图,最后通过上采样至输入图像大小和逐像素相加得到相应的双池化和融合边输出预测图,各层级边输出预测图通过联结与卷积操作获取显著图。
实施例三
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例子一中的方法的具体步骤。
实施例四
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述实施例子一中的方法的具体步骤。
以上实施例的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。
本领域技术人员应该明白,上述本公开的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种2D图像显著目标检测方法,其特征是,包括:
获取待检测的视频,从视频中提取同一场景下的2D图像;
利用双池化U型网络对无人驾驶场景视频中的2D图像中各帧图像进行显著目标检测,去除视频图像中采集的大量冗余信息,为下一阶段无人驾驶的感知、规划与决策做准备;
其中,显著目标检测时所述双池化U型网络被配置为:
将无人驾驶场景视频中的各帧图像首先进行预处理获得不同尺度的特征图,不同尺度的特征图通过双池化操作进行通道转换与特征细化,得到细化特征图,再通过双线性逐层上采样和卷积操作得到多尺度预测特征图,再经由预测卷积得到多尺度预测图,最后通过上采样至输入图像大小和逐像素相加得到相应的双池化和融合边输出预测图,各层级边输出预测图通过联结与卷积操作获取显著图。
2.如权利要求1所述的一种2D图像显著目标检测方法,其特征是,双池化U型网络为经过优化训练后获得的,优化后获得双池化U型网络中每个卷积层参数。
3.如权利要求2所述的一种2D图像显著目标检测方法,其特征是,双池化U型网络优化训练过程为:
从视频中提取同一场景下的图像,图像大小为任意尺度,对图像进行标注,确定标签,进而形成训练集和测试集;
对训练集中的图像首先进行减均值操作,然后再随机水平翻转进行数据增强,扩充训练集,最后作为网络输入训练双池化通道网络;
对每个测试集进行减均值归一化处理但不进行随机水平翻转处理,利用平均绝对误差指标计算预测误差。
4.如权利要求3所述的一种2D图像显著目标检测方法,其特征是,对图像进行标注,具体为:
利用阈值分割算法自动对每一个像素点进行标注,标注出显著目标区域,得到真值图标签。
5.如权利要求3所述的一种2D图像显著目标检测方法,其特征是,训练双池化通道网络时,双池化U型网络通过监督多层级双池化以及融合后的预测图和显著图,计算网络的交叉熵损失,进行优化网络。
6.如权利要求3所述的一种2D图像显著目标检测方法,其特征是,融合边输出预测图的获取过程为:将双池化多尺度预测图经过双线性上采样至原图大小,获取边输出预测图,再通过逐像素相加将每个层级获取的双池化边输出预测图进行融合,获取融合边输出预测图。
7.一种2D图像显著目标检测系统,其特征是,包括:
数据接收模块,被配置为:获取待检测的视频,从视频中提取同一场景下的2D图像;
数据处理模块,被配置为:利用双池化U型网络对无人驾驶场景视频中的2D图像中各帧图像进行显著目标检测;
其中,显著目标检测时所述双池化U型网络将无人驾驶场景视频中的各帧图像首先进行预处理获得不同尺度的特征图,不同尺度的特征图通过双池化操作进行通道转换与特征细化,得到细化特征图,再通过双线性逐层上采样和卷积操作得到多尺度预测特征图,再经由预测卷积得到多尺度预测图,最后通过上采样至输入图像大小和逐像素相加得到相应的双池化和融合边输出预测图,各层级边输出预测图通过联结与卷积操作获取显著图。
8.如权利要求7所述的一种2D图像显著目标检测系统,其特征是,双池化U型网络主要由自底向上下采样通道、自顶向下上采样通道;
下采样通道中,输入图像经由卷积操作提取原始多尺度特征,在两通道之间,对每一卷积层的原始特征图进行独立的双池化操作,产生相应的细化特征图;
上采样通道中,自顶层起,上一层级细化特征上采样后与本层级特征图融合,再经由不同的卷积得到双池化多尺度预测图。
9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-6任一所述的方法的具体步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-6任一所述的方法的具体步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011175003.0A CN112446292B (zh) | 2020-10-28 | 2020-10-28 | 一种2d图像显著目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011175003.0A CN112446292B (zh) | 2020-10-28 | 2020-10-28 | 一种2d图像显著目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112446292A true CN112446292A (zh) | 2021-03-05 |
CN112446292B CN112446292B (zh) | 2023-04-28 |
Family
ID=74736411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011175003.0A Active CN112446292B (zh) | 2020-10-28 | 2020-10-28 | 一种2d图像显著目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446292B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936299A (zh) * | 2021-10-18 | 2022-01-14 | 微特技术有限公司 | 建筑工地中危险区域检测方法 |
CN114926657A (zh) * | 2022-06-09 | 2022-08-19 | 山东财经大学 | 显著性目标检测方法及系统 |
CN115035403A (zh) * | 2022-05-17 | 2022-09-09 | 三峡大学 | 多通道u型深度网络的高分辨率遥感影像变化检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635882A (zh) * | 2019-01-23 | 2019-04-16 | 福州大学 | 一种基于多尺度卷积特征提取和融合的显著物体检测方法 |
CN109784183A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于级联卷积网络和光流的视频显著性目标检测方法 |
US20190355126A1 (en) * | 2018-05-21 | 2019-11-21 | National Tsing Hua University | Image feature extraction method and saliency prediction method using the same |
CN110503052A (zh) * | 2019-08-27 | 2019-11-26 | 西南交通大学 | 一种基于改进u-net网络的图像语义分割方法 |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
CN111047630A (zh) * | 2019-11-13 | 2020-04-21 | 芯启源(上海)半导体科技有限公司 | 神经网络和基于神经网络的目标检测及深度预测方法 |
CN111738948A (zh) * | 2020-06-19 | 2020-10-02 | 大连理工大学 | 一种基于双U-net的水下图像增强方法 |
-
2020
- 2020-10-28 CN CN202011175003.0A patent/CN112446292B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190355126A1 (en) * | 2018-05-21 | 2019-11-21 | National Tsing Hua University | Image feature extraction method and saliency prediction method using the same |
CN109784183A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于级联卷积网络和光流的视频显著性目标检测方法 |
CN109635882A (zh) * | 2019-01-23 | 2019-04-16 | 福州大学 | 一种基于多尺度卷积特征提取和融合的显著物体检测方法 |
CN110503052A (zh) * | 2019-08-27 | 2019-11-26 | 西南交通大学 | 一种基于改进u-net网络的图像语义分割方法 |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
CN111047630A (zh) * | 2019-11-13 | 2020-04-21 | 芯启源(上海)半导体科技有限公司 | 神经网络和基于神经网络的目标检测及深度预测方法 |
CN111738948A (zh) * | 2020-06-19 | 2020-10-02 | 大连理工大学 | 一种基于双U-net的水下图像增强方法 |
Non-Patent Citations (6)
Title |
---|
GUIBIAO LIAO.ET AL: ""MMNet: Multi-Stage and Multi-Scale Fusion Network for RGB-D Salient Object Detection"", 《PROCEEDING OF THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
JIANG-JIANG LIU.ET AL: ""A Simple Pooling-Based Design for Real-Time Salient Object Detection"", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
MENGYANG FENG.ET AL: ""Attentive Feedback Network for Boundary-Aware Salient Object Detection"", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
O. RONNEBERGER.ET AL: ""U-Net: Convolutional networks for biomedical image segmentation"", 《MEDICAL IMAGE COMPUTING AND COMPUTER-ASSISTED INTERVENTION》 * |
陈琴等: ""基于深度中心邻域金字塔结构的显著目标检测"", 《模式识别与人工智能》 * |
项前: ""基于多模态和多任务学习的显著目标检测方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936299A (zh) * | 2021-10-18 | 2022-01-14 | 微特技术有限公司 | 建筑工地中危险区域检测方法 |
CN115035403A (zh) * | 2022-05-17 | 2022-09-09 | 三峡大学 | 多通道u型深度网络的高分辨率遥感影像变化检测方法 |
CN115035403B (zh) * | 2022-05-17 | 2024-08-06 | 三峡大学 | 多通道u型深度网络的高分辨率遥感影像变化检测方法 |
CN114926657A (zh) * | 2022-06-09 | 2022-08-19 | 山东财经大学 | 显著性目标检测方法及系统 |
CN114926657B (zh) * | 2022-06-09 | 2023-12-19 | 山东财经大学 | 显著性目标检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112446292B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN111047551B (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及系统 | |
CN111126202B (zh) | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 | |
CN108647585B (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN109902600B (zh) | 一种道路区域检测方法 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN111104903B (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 | |
CN111696110B (zh) | 场景分割方法及系统 | |
WO2021218786A1 (zh) | 一种数据处理系统、物体检测方法及其装置 | |
CN109840483B (zh) | 一种滑坡裂缝检测与识别的方法及装置 | |
CN116665176B (zh) | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
WO2024051296A1 (zh) | 一种复杂天气下障碍物检测方法及装置 | |
CN112906631A (zh) | 一种基于视频的危险驾驶行为检测方法和检测系统 | |
CN116704476B (zh) | 一种基于改进Yolov4-tiny算法的交通标志检测方法 | |
CN113297956B (zh) | 一种基于视觉的手势识别方法及系统 | |
CN111832453A (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN110008900A (zh) | 一种由区域到目标的可见光遥感图像候选目标提取方法 | |
CN112270366A (zh) | 基于自适应多特征融合的微小目标检测方法 | |
CN113724286A (zh) | 显著性目标的检测方法、检测设备及计算机可读存储介质 | |
CN117152414A (zh) | 一种基于尺度注意力辅助学习方法的目标检测方法及系统 | |
CN113888505A (zh) | 一种基于语义分割的自然场景文本检测方法 | |
CN112634289B (zh) | 一种基于非对称空洞卷积的快速可行域分割方法 | |
CN116805360B (zh) | 一种基于双流门控渐进优化网络的显著目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |