CN107564009A - 基于深度卷积神经网络的室外场景多目标分割方法 - Google Patents
基于深度卷积神经网络的室外场景多目标分割方法 Download PDFInfo
- Publication number
- CN107564009A CN107564009A CN201710764338.8A CN201710764338A CN107564009A CN 107564009 A CN107564009 A CN 107564009A CN 201710764338 A CN201710764338 A CN 201710764338A CN 107564009 A CN107564009 A CN 107564009A
- Authority
- CN
- China
- Prior art keywords
- characteristic spectrum
- size
- pond
- spectrum
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度卷积神经网络的室外场景多目标分割方法,包括特征提取步骤;特征融合步骤;多尺度池化步骤;上采样步骤:上采样网络由两个卷积层和数据变换层组成,两个卷积层后输出特征谱经数据变换层得到恢复到原输入图像尺寸的特征谱。本发明通过不同特征谱上的特征融合的方式引入足够的上下文信息;再在融合后的特征谱上进行多尺度池化操作得到不同感受野下的全局信息。
Description
技术领域
本发明涉及图像分割技术。
背景技术
现阶段在无人驾驶汽车、智能车技术、智能移动机器人等领域的深度学习技术研究愈演愈热,而在上述领域中目标场景分割技术是关键点之一。场景分割技术对各种场景进行感知和理解,将分割结果输出给导航系统或路径规划系统,以便指导移动设备下一步应该采取何种动作。
图像分割是图像识别和计算机视觉至关重要的预处理,由计算机自动处理分割时,将会遇到各种困难。例如,光照不均匀、噪声的影响、图像中存在不清晰的部分以及阴影等常常引发分割错误。现有基于机器学习的分割算法过分依赖人工提取的特征表达能力,由于室外环境会受到诸如光照、下雨、落叶等因素的影响,整个场景变化复杂,不同的物体会在外观和姿态上变化多样,背景信息也异常丰富,这对于“条件苛刻”不具备通用性的底层视觉特征,往往很难取得很好的分割效果。比如,通过边缘检测来分割图像是一种重要途径,即检测灰度级或者结构具有突变的地方,表明一个区域的终结,也是另一个区域开始的地方。这种不连续性称为边缘。不同的图像灰度不同,边界处一般有明显的边缘,利用此特征可以分割图像。基于边缘分割的最常见的问题是在没有边界的地方出现了边缘以及在实际存在边界的地方没有出现边界,这是由图像噪声或图像中的不适合的信息造成的。近年来,由于深度卷积神经网络的迅速发展,每年都能够在PASCAL VOC和ImageNet等数据集上的成绩取得性能刷新。深度卷积神经网络的监督式端到端逐层特征自学习方式,展示出强大的特征表达能力,与传统的HOG、SIFT等局部特征相比表现出了明显的优越性。基于深度卷积神经网络分割算法的现有模型,会因为顶层特征谱包含的上下文信息不够丰富和全局信息不够充分在场景分割时存在以下几类问题:
1)图片预测结果容易出现误匹配
2)图片含有易混淆的类别时分割结果错误
3)图像中含有不显眼类别时分割结果不精确。
发明内容
本发明所要解决的技术问题是,提供一种能引入足够的上下文信息及不同感受野下的全局信息的多目标分割方法。
本发明为解决上述技术问题所采用的技术方案是,基于深度卷积神经网络的室外场景多目标分割方法,包括以下步骤:
1)特征提取步骤:深度网络将输入原始图像通过多个卷积层加上池化层的组合得到4个不同尺度的特征谱;卷积操作通过点卷积加深度卷积组合实现;
2)特征融合步骤:把特征提取步骤里面的两个不同尺度的特征做融合操作;先将较小尺度的特征谱反卷积恢复到较大尺寸的特征谱的尺寸,再将两个输入谱上相同位置上的元素按照对应位置的滤波器系数进行加权求和得到融合特征谱;
3)多尺度池化步骤:对融合特征谱使用4个不同尺度的池化操作,不同尺度的池化后在每个特征谱上接上一个卷积操作,然后分别用双线性插值的方式恢复到输入的融合特征谱的尺寸大小,最终将4个特征谱进行连接,得到池化输出特征谱;
4)上采样步骤:上采样网络由两个卷积层和数据变换层组成,确定要恢复到的原始图像的高宽与输入谱的高宽相差n倍,先通过两个卷积层将输入谱的通道个数改变为k*n*n。其中k是分类的类别数,之后把输出谱所有通道中n2个通道该谱上的同一位置的像素点重新在一个特征谱中排列成n*n的区域,最终,两个卷积层后输出特征谱经数据变换层得到恢复到原输入图像尺寸的特征谱。
深度卷积神经网络做图像分割的模式就是特征提取+上采样。本发明引入了一种更加有效地特征融合方式,并设计一个更加有效地上采样方式。传统的双线性插值方法是依赖图像邻近像素间的内在关系完成的,计算量大,一定程度上使图片变得模糊。而现有的反卷积插值方法来生成与原始图片大小相同的分割结果图,显然会造成细节丢失。本文提出的上采样网络经过先两个卷积层,使得特征谱图像从低分辨到高分辨的放大过程,插值函数被隐式地包含在前面的卷积层中,可以自动学习到。
本发明的有益效果是,通过不同特征谱上的特征融合的方式引入足够的上下文信息;再在融合后的特征谱上进行多尺度池化操作得到不同感受野下的全局信息。
附图说明
图1:实施例的分割网络流程图。
图2:实施例的上采样网络。
具体实施方式
实施流程如图1所示,步骤如下:
步骤一:对输入的原始图片(大小为480*480)去中心化。根据事先计算出训练数据库中图像RGB三个通道的均值,分别为104.008、116.669、122.675。对每张输入图片的三个通道分别减去对应的均值,这样可以使得模型运行更加稳定。
步骤二:特征提取模块使用13个卷积层加上4个池化pool层的组合完成,得到4个不同尺度的特征谱,尺寸大小为:240*240*128(高*宽*通道数)、120*120*256、60*60*512、30*30*512。卷积层采用的都是核大小为3*3,步长为1的滤波器。滤波器的个数从底层输出开始,随着层数的加深而增加,取值为64、128、256、512(实施例13个卷积层,第1、2层是64个滤波器;第3、4层是128;第5、6、7是256;第8、9、10、11、12、13是512)。前三个pool层的设置为:最大池化max,核大小ksize=3,填充pad=1,步长stride=2。最后一个pool设置为max,kersize=3,pad=1,stride=1。#
然后将标准卷积分解成一个深度卷积和一个点卷积。对于标准卷积,假定输入特征谱F的维度是DF×DF×M,经过标准卷积核得到输出DG×DG×N,卷积核参数量表示为DK×DK×M×N。如果计算代价也用数量表示,应该为DK×DK×M×N×DF×DF。将卷积核进行分解,深度卷积可得到的计算代价为DK×DK×M×DF×DF,点卷积的计算代价M×N×DF×DF,将二者进行比较,可得:
该操作大大地减少了网络的参数数量,从而缩减了网络的运行时间。
步骤三:特征融合模块,将网络特征提取阶段的两个不同尺度的特征谱进行融合,这里选择的特征谱为60*60*512、30*30*512。在这里使用了一种新型的融合方法,在两个不同尺度的特征谱上做融合时,首先把30*30*512接一个反卷积操作恢复到60*60*512大小,然后相同位置的元素在网络中会分别学习到一组参数,根据该参数可以以加权和的形式融合这两个特征谱。使得输出特征谱既包含低层视觉信息,又包含中层或者高层语义信息。解决了分割时普遍存在的误匹配和易混淆问题。
步骤四、将融合后的特征进行金字塔池化,输入上一步骤得到的特征谱,其大小为60*60*512,用4种不同大小的pooling来池化。空间金字塔池化的方式为:输入一张谱时,利用了四种不同大小的刻度,对其进行了划分。本文具体设置为:池化层pool1:平均池化ave,核大小ksize为60,步长stride为60;pool2:ave,ksize=30,stride=30;pool3:ave,ksize=20,tride=20;pool4:ave,ksize=10,stride=10。
得到四个输出谱大小分别为1*1*512、2*2*512、3*3*512、6*6*512。在每个输出谱上接上一个卷积操作,然后分别用双线性插值的方式恢复到60*60*512大小,最后把这四个输出连接到一起得到60*60*2048大小的输出谱,通过这种方式,该特征谱上包含了不同尺度的全局信息,减少了小目标分割结果不准确的问题。
步骤五:上采样操作如图2所示,输入上一步得到的特征谱,通过两个卷积层后输出谱大小为60*60*448。数据变换层确定要恢复的原始图像的高宽与两个卷积层后输出谱高宽相差8倍,则把输出谱60*60*448中448通道中同一位置的像素点,每64个通道该位置的像素点重新在一个图像中排列成8*8的区域,使得通道数压缩8*8倍,图像高宽扩大8倍,即。从而60*60*448的特征谱被重新排列成480*480*7大小的高分辨率图像。7为分割出的不同类别的图像。
Claims (3)
1.基于深度卷积神经网络的室外场景多目标分割方法,其特征在于,包括以下步骤:
1)特征提取步骤:深度网络将原始输入图像通过多个卷积层加上池化层的组合得到4个不同尺度的特征谱;卷积操作通过点卷积加深度卷积组合实现;
2)特征融合步骤:把特征提取步骤里面的两个不同尺度的特征做融合操作;先将较小尺度的特征谱反卷积恢复到较大尺寸的特征谱的尺寸,再将两个输入谱上相同位置上的元素按照对应位置的滤波器系数进行加权求和得到融合特征谱;
3)多尺度池化步骤:对融合特征谱使用4个不同尺度的池化操作,不同尺度的池化后在每个特征谱上接上一个卷积操作,然后分别用双线性插值的方式恢复到输入的融合特征谱的尺寸大小,最终将4个特征谱进行连接,得到池化输出特征谱;
4)上采样步骤:上采样网络由两个卷积层和数据变换层组成,确定要恢复的原始图像的高宽与两个卷积层后输出特征谱高宽相差n倍,则把输出谱按照每n2个通道中同一位置的像素点重新在一个图像中排列成n*n的区域,两个卷积层后输出特征谱经数据变换层得到恢复到原图像尺寸的特征谱。
2.如权利要求1所述方法,其特征在于,特征提取网络由11个卷积层和4个池化层组成;其中卷积层采用核大小为3*3,步长为1的滤波器,滤波器的个数随层数的加深而增加;前三个池化层的设置卷积核大小为3*3,步长为2;最后一个池化层设置卷积核大小为3,步长为1。
3.如权利要求1所述方法,其特征在于,4个不同尺度的池化层,第一个池化层的设置卷积核大小为60*60,步长为60;第二个池化层的设置卷积核大小为30*30,步长为30,第三个池化层的设置卷积核大小为20*20,步长为20,第四个池化层的设置卷积核大小为10*10,步长为10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710764338.8A CN107564009B (zh) | 2017-08-30 | 2017-08-30 | 基于深度卷积神经网络的室外场景多目标分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710764338.8A CN107564009B (zh) | 2017-08-30 | 2017-08-30 | 基于深度卷积神经网络的室外场景多目标分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107564009A true CN107564009A (zh) | 2018-01-09 |
CN107564009B CN107564009B (zh) | 2021-02-05 |
Family
ID=60978240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710764338.8A Active CN107564009B (zh) | 2017-08-30 | 2017-08-30 | 基于深度卷积神经网络的室外场景多目标分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107564009B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460348A (zh) * | 2018-02-12 | 2018-08-28 | 杭州电子科技大学 | 基于三维模型的道路目标检测方法 |
CN108830327A (zh) * | 2018-06-21 | 2018-11-16 | 中国科学技术大学 | 一种人群密度估计方法 |
CN109308458A (zh) * | 2018-08-31 | 2019-02-05 | 电子科技大学 | 一种基于特征谱尺度变换提升小目标检测精度的方法 |
CN110706205A (zh) * | 2019-09-07 | 2020-01-17 | 创新奇智(重庆)科技有限公司 | 一种使用计算机视觉技术检测布匹破洞缺陷的方法 |
CN111209829A (zh) * | 2019-12-31 | 2020-05-29 | 浙江大学 | 基于视觉的移动视体静态中小尺度目标识别方法 |
CN112036408A (zh) * | 2020-07-31 | 2020-12-04 | 北京航空航天大学 | 一种复杂场景底层视觉信息提取方法 |
CN113344884A (zh) * | 2021-06-11 | 2021-09-03 | 广州逅艺文化科技有限公司 | 一种视频图形区域检测及压缩方法、装置及介质 |
US11455802B2 (en) | 2018-03-29 | 2022-09-27 | Beijing Bytedance Network Technology Co. Ltd. | Video feature extraction method and device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956532A (zh) * | 2016-04-25 | 2016-09-21 | 大连理工大学 | 一种基于多尺度卷积神经网络的交通场景分类方法 |
CN105975931A (zh) * | 2016-05-04 | 2016-09-28 | 浙江大学 | 一种基于多尺度池化的卷积神经网络人脸识别方法 |
CN107169421A (zh) * | 2017-04-20 | 2017-09-15 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
-
2017
- 2017-08-30 CN CN201710764338.8A patent/CN107564009B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956532A (zh) * | 2016-04-25 | 2016-09-21 | 大连理工大学 | 一种基于多尺度卷积神经网络的交通场景分类方法 |
CN105975931A (zh) * | 2016-05-04 | 2016-09-28 | 浙江大学 | 一种基于多尺度池化的卷积神经网络人脸识别方法 |
CN107169421A (zh) * | 2017-04-20 | 2017-09-15 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460348A (zh) * | 2018-02-12 | 2018-08-28 | 杭州电子科技大学 | 基于三维模型的道路目标检测方法 |
CN108460348B (zh) * | 2018-02-12 | 2022-04-22 | 杭州电子科技大学 | 基于三维模型的道路目标检测方法 |
US11455802B2 (en) | 2018-03-29 | 2022-09-27 | Beijing Bytedance Network Technology Co. Ltd. | Video feature extraction method and device |
CN108830327B (zh) * | 2018-06-21 | 2022-03-01 | 中国科学技术大学 | 一种人群密度估计方法 |
CN108830327A (zh) * | 2018-06-21 | 2018-11-16 | 中国科学技术大学 | 一种人群密度估计方法 |
CN109308458A (zh) * | 2018-08-31 | 2019-02-05 | 电子科技大学 | 一种基于特征谱尺度变换提升小目标检测精度的方法 |
CN109308458B (zh) * | 2018-08-31 | 2022-03-15 | 电子科技大学 | 一种基于特征谱尺度变换提升小目标检测精度的方法 |
CN110706205A (zh) * | 2019-09-07 | 2020-01-17 | 创新奇智(重庆)科技有限公司 | 一种使用计算机视觉技术检测布匹破洞缺陷的方法 |
CN110706205B (zh) * | 2019-09-07 | 2021-05-14 | 创新奇智(重庆)科技有限公司 | 一种使用计算机视觉技术检测布匹破洞缺陷的方法 |
CN111209829A (zh) * | 2019-12-31 | 2020-05-29 | 浙江大学 | 基于视觉的移动视体静态中小尺度目标识别方法 |
CN111209829B (zh) * | 2019-12-31 | 2023-05-02 | 浙江大学 | 基于视觉的移动视体静态中小尺度目标识别方法 |
CN112036408A (zh) * | 2020-07-31 | 2020-12-04 | 北京航空航天大学 | 一种复杂场景底层视觉信息提取方法 |
CN113344884A (zh) * | 2021-06-11 | 2021-09-03 | 广州逅艺文化科技有限公司 | 一种视频图形区域检测及压缩方法、装置及介质 |
CN113344884B (zh) * | 2021-06-11 | 2024-07-23 | 广州逅艺文化科技有限公司 | 一种视频图形区域检测及压缩方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107564009B (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107564009A (zh) | 基于深度卷积神经网络的室外场景多目标分割方法 | |
CN108416377B (zh) | 柱状图中的信息提取方法及装置 | |
CN110674829B (zh) | 一种基于图卷积注意网络的三维目标检测方法 | |
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
CN111428781A (zh) | 遥感影像地物分类方法及系统 | |
CN111625608B (zh) | 一种基于gan模型根据遥感影像生成电子地图的方法、系统 | |
CN110443842A (zh) | 基于视角融合的深度图预测方法 | |
CN112154451A (zh) | 提取图像中对象的代表性特征的方法、设备和计算机程序 | |
CN104318596B (zh) | 一种动态图片的生成方法以及生成装置 | |
CN108664974A (zh) | 一种基于rgbd图像与全残差网络的语义分割方法 | |
CN108921196A (zh) | 一种改进全卷积神经网络的语义分割方法 | |
CN108764039B (zh) | 神经网络、遥感影像的建筑物提取方法、介质及计算设备 | |
CN104835196B (zh) | 一种车载红外图像彩色化三维重建方法 | |
CN110659664A (zh) | 一种基于ssd的高精度识别小物体的方法 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN112270366B (zh) | 基于自适应多特征融合的微小目标检测方法 | |
CN115205672A (zh) | 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统 | |
CN108470350A (zh) | 折线图中的折线分割方法及装置 | |
CN111640116B (zh) | 基于深层卷积残差网络的航拍图建筑物分割方法及装置 | |
CN109740451A (zh) | 基于重要性加权的道路场景图像语义分割方法 | |
CN114842216A (zh) | 一种基于小波变换的室内rgb-d图像语义分割方法 | |
CN109426825A (zh) | 一种物体封闭轮廓的检测方法和装置 | |
CN116645592A (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN111860208A (zh) | 基于超像素的遥感影像地物分类方法、系统、装置及介质 | |
CN117746130A (zh) | 一种基于遥感影像点状语义标签的弱监督深度学习分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |