CN110633706A - 一种基于金字塔网络的语义分割方法 - Google Patents

一种基于金字塔网络的语义分割方法 Download PDF

Info

Publication number
CN110633706A
CN110633706A CN201910711584.6A CN201910711584A CN110633706A CN 110633706 A CN110633706 A CN 110633706A CN 201910711584 A CN201910711584 A CN 201910711584A CN 110633706 A CN110633706 A CN 110633706A
Authority
CN
China
Prior art keywords
characteristic diagram
pooling
feature
feature map
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910711584.6A
Other languages
English (en)
Other versions
CN110633706B (zh
Inventor
颜成钢
宋家驹
张旗
许瑶江
李明珠
孙垚棋
张继勇
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910711584.6A priority Critical patent/CN110633706B/zh
Publication of CN110633706A publication Critical patent/CN110633706A/zh
Application granted granted Critical
Publication of CN110633706B publication Critical patent/CN110633706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于金字塔网络的语义分割方法。本发明包括如下步骤:1:场景RGB图片经过预训练模型提取出特征图Ⅰ,特征图Ⅰ的大小为输入的场景RGB图片的1/8大小;2:在池化前,记录特征图Ⅰ的最大池化值,然后基于池化和卷积操作,对步骤1提取出的特征图Ⅰ进行4个不同尺度的维度处理,得到4个不同维度的特征图;3:通过上采样层将4个不同维度的特征图合并成池化前相同大小的特征图Ⅱ;4:将步骤3所得到的特征图Ⅱ经过一个编码器和解码器,得到特征图Ⅲ;5:将特征图Ⅲ与特征图Ⅱ合并,生成特征图Ⅳ;6:将步骤5获得的特征图Ⅳ再经过一个卷积层,得到最终输出。本发明提高了算法的检测精度,提高了分割的准确率。

Description

一种基于金字塔网络的语义分割方法
技术领域
本发明属于计算机视觉技术领域,特别地,本发明涉及一种基于金字塔网络的语义分割方法。
背景技术
语义分割的场景分析是计算机视觉中的基本主题。目标是为图像中的每个像素分配一个类别标签。场景解析提供了对场景的完整理解。它预测每个元素的标签,位置和形状。该主题对于自动驾驶,机器人传感等潜在应用具有广泛的兴趣。正是由于语义分割具有重大的应用价值和科研价值,语义分割新方法的提出就显得极为重要。
整体而言,语义分割是一种旨在于场景理解的高难度任务。场景理解作为计算机视觉的核心问题,在从图像提取知识应用数量急剧增长的今天显得尤为重要。这些应用包括:自动驾驶、人机交互、计算机摄影、图像搜索引擎、及增强现实。这些问题在过去已经使用多种计算机视觉及机器学习的方法得以解决。尽管这些方法深受欢迎,但深度学习已经改变了这个局面,许多计算机视觉的问题—包括语义分割—正在被使用深度框架解决,通常是CNNs(Convolutional Neural Networks,卷积神经网络),其能够显著地提高准确率,有时甚至是效率。然而,深度学习相比机器学习及计算机视觉的其他分支还远未成熟。鉴于此,关于深度学习现状的概述及回顾还较少。由于大量的文献的发表,这让研究人员开始研究、紧跟发展趋势变得异常耗时。这让了解语义分割发展趋势,并且合适地解读他们的方案,修正欠佳结果,验证结果变得相对困难。
在计算机视觉领域中,对语义分割结果的新方法的提出都是人们一直以来所追求的事情。因此,在本发明中提出一种新的语义分割方法,可以对场景进行联想,从而大大的提高了分割的正确率,并且在拥有较高分辨率的同时,对于分割结果的边界的定位也能较为准确。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于金字塔网络的语义分割方法。其中输入为一张场景RGB图片,该方法利用卷积神经网络(CNN)、池化(pooling)、空洞卷积、上采样、卷积层进行相互迭代,本发明解决其技术问题是采取以下技术方案实现的:
步骤1:场景RGB图片经过预训练模型(ResNet101)提取出特征图Ⅰ,特征图Ⅰ的大小为输入的场景RGB图片的1/8大小。
步骤2:在池化前,记录特征图Ⅰ的最大池化值,然后基于池化和卷积操作,对步骤1提取出的特征图Ⅰ进行4个不同尺度的维度处理,得到4个不同维度的特征图;
步骤3:通过上采样层将4个不同维度的特征图合并成池化前相同大小的特征图Ⅱ。
步骤4:将步骤3所得到的特征图Ⅱ经过一个编码器和解码器(encoder-decoder过程),得到特征图Ⅲ;
步骤5:将特征图Ⅲ与特征图Ⅱ合并,生成特征图Ⅳ;
步骤6:将步骤5获得的特征图Ⅳ再经过一个卷积层,得到最终输出。
本发明的特点及有益效果:
本发明利用金字塔解析网络进行特征提取,并对其结果进行了较大程度的优化,提高了算法的检测精度,克服了现有技术的不足,可以提取全集特征,进行场景联想,从而提高分割的准确率,并且拥有比较高的分辨率和较为准确的分割边界定位,获得了良好的目标检测结果。
附图说明
图1为步骤1中的部分附图说明。
图2为本发明方法总体流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1所示,一种基于金字塔网络的语义分割方法,具体包括如下步骤:
步骤1:场景RGB图片经过预训练模型(ResNet101)提取出特征图Ⅰ,特征图Ⅰ的大小为输入的场景RGB图片的1/8大小。
步骤2:在池化前,记录特征图Ⅰ的最大池化值,然后基于池化和卷积操作,对步骤1提取出的特征图Ⅰ进行4个不同尺度的维度处理,得到4个不同维度的特征图;
步骤3:通过上采样层将4个不同维度的特征图合并成池化前相同大小的特征图Ⅱ。
步骤4:将步骤3所得到的特征图Ⅱ经过一个编码器和解码器(encoder-decoder过程),得到特征图Ⅲ;
步骤5:将特征图Ⅲ与特征图Ⅱ合并,生成特征图Ⅳ;
步骤6:将步骤5获得的特征图Ⅳ再经过一个卷积层,得到最终输出。
所述的步骤1具体实现方法如下:
对于输入的场景RGB图片,首先通过一个ResNet网络(如图1)提取图像特征图(feature map);为了进一步降低来自不同子区域的上下文信息损失,提出多级全局先验,包含不同尺度和不同子区域的信息,特征图经过不同程度的池化得到融合的带有整体信息的特征。
所述的ResNet网络:以ResNet101为基础进行改进,除了使用后面的softmax分类做loss,额外的在第四阶段添加了一个辅助的loss,两个loss一起传播,使用不同的权重,共同优化参数。这样做有利于快速收敛。同时ResNet网络利用Softmax分类器对多类别目标计算分类得分,利用边界框回归对边框进行调整;利用多任务损失函数对多类别分类器和边界框回归器进行联合优化训练,实现图像分类和目标定位。
所述的Softmax将多分类的输出数值转化为相对概率,更容易理解和比较。
所述的步骤2具体实现方法如下:
特征图Ⅰ经过不同程度的池化得到融合的带有整体信息的特征,并记录特征图Ⅰ的最大池化值(max pooling)。不同尺度的维度处理,得到4个不同维度的特征图;4个不同维度的特征图大小分别为1×1、2×2、3×3和6×6,
池化的过程:把特征图看作一个矩阵,并在这个矩阵上划分出几个不重合的区域,然后在每个区域上计算该区域内特征的均值或最大值,然后用这些均值或最大值参与后续的训练,这个过程就是池化。
采用1×1卷积层对上下文特征进行降维,保持全局特征的权重,如果金字塔的level大小为N,则卷积层后变为1/N;
所述的步骤3通过上采样层将4个不同维度的特征图合并成池化前相同大小的特征图Ⅱ,具体实现方法如下:
(1)将4个不同维度的特征图进行双线性差值(bilinear interpolation)的上采样操作,得到与池化前相同大小的特征图Ⅱ;
双线性插值的上采样操作:图像上采样的主要目的是放大图像,即在原有图像像素的基础上,在像素点值之间采用合适的插值算法插入新的元素;利用原图像中目标点四周的四个真实存在的像素值来共同决定目标图中的一个像素值,其核心思想是在两个方向分别进行一次线性插值。
所述的步骤4:将步骤3所得到的特征图Ⅱ经过一个编码器和解码器(encoder-decoder过程),得到特征图Ⅲ,具体实现如下:
(1)基于VGG16的对称网络结构,且将全卷积层去掉,这样有利于在最深的编码器输出处保留较高分辨率的特征图,使SegNet比其他许多近来的结构显著的小并且训练起来更容易;SegNet的关键部件是解码器网络,由一个对应于每个编码器的解码器层次组成。在不考虑内存的情况下,编码器中的每一层特征层都应该记录下来。但是这种方式在实际应用中是不太现实的,因此提出了另一种存储方式。这种方式只保存max-pooling indices,也就是每个窗口内的最大特征值的位置。在encoder阶段做max-pooling时,将池化索引(pooling indices)记录下来,在解码器上采样(decoder upsamples)使用这些池化索引(pooling indices)得到稀疏的上采样特征图(upsampled maps),再用可训练的解码器滤波器组(trainable filters)进行卷积得到稠密的特征图Ⅲ(feature maps)。在解码网络中重用max-pooling indics有多个实践好处:
1.它改进了边界划分
2.减少了实现端到端训练的参数数量
3.这种upsampling的形式可以仅需要少量的修改而合并到任何编码-解码形式的架构
所述的步骤5:将特征图Ⅲ与特征图Ⅱ合并,生成特征图Ⅳ;具体实现如下:
(1)利用concat函数将解码器中输出的特征图Ⅲ与特征图Ⅱ合并;
所述的concat函数用于实现输入数据的拼接;
步骤6:将步骤5获得的特征图Ⅳ再经过一个卷积层,得到最终输出。

Claims (5)

1.一种基于金字塔网络的语义分割方法,其特征在于包括如下步骤:
步骤1:场景RGB图片经过预训练模型提取出特征图Ⅰ,特征图Ⅰ的大小为输入的场景RGB图片的1/8大小;
步骤2:在池化前,记录特征图Ⅰ的最大池化值,然后基于池化和卷积操作,对步骤1提取出的特征图Ⅰ进行4个不同尺度的维度处理,得到4个不同维度的特征图;
步骤3:通过上采样层将4个不同维度的特征图合并成池化前相同大小的特征图Ⅱ;
步骤4:将步骤3所得到的特征图Ⅱ经过一个编码器和解码器,得到特征图Ⅲ;
步骤5:将特征图Ⅲ与特征图Ⅱ合并,生成特征图Ⅳ;
步骤6:将步骤5获得的特征图Ⅳ再经过一个卷积层,得到最终输出。
2.根据权利要求1所述的一种基于金字塔网络的语义分割方法,其特征在于步骤1所述的ResNet网络:
以ResNet101为基础进行改进,除了使用后面的softmax分类做loss,在第四阶段添加了一个辅助的loss;两个loss一起传播,使用不同的权重,共同优化参数;同时ResNet网络利用Softmax分类器对多类别目标计算分类得分,利用边界框回归对边框进行调整;利用多任务损失函数对多类别分类器和边界框回归器进行联合优化训练。
3.根据权利要求2所述的一种基于金字塔网络的语义分割方法,其特征在于所述的步骤2具体实现方法如下:
特征图Ⅰ经过不同程度的池化得到融合的带有整体信息的特征,并记录特征图Ⅰ的最大池化值;经过不同尺度的维度处理,得到4个不同维度的特征图;4个不同维度的特征图大小分别为1×1、2×2、3×3和6×6;采用1×1卷积层对上下文特征进行降维,保持全局特征的权重,如果金字塔的level大小为N,则卷积层后变为1/N。
4.根据权利要求3所述的一种基于金字塔网络的语义分割方法,其特征在于所述的步骤4具体实现如下:
在编码器阶段做max-pooling时,将池化索引(pooling indices)记录,在解码器进行上采样(decoder upsamples)使用这些池化索引(pooling indices)得到稀疏的上采样特征图(upsampled maps),再用可训练的解码器滤波器组进行卷积得到稠密的特征图Ⅲ。
5.根据权利要求4所述的一种基于金字塔网络的语义分割方法,其特征在于所述的步骤5利用concat函数将解码器中输出的特征图Ⅲ与特征图Ⅱ合并。
CN201910711584.6A 2019-08-02 2019-08-02 一种基于金字塔网络的语义分割方法 Active CN110633706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910711584.6A CN110633706B (zh) 2019-08-02 2019-08-02 一种基于金字塔网络的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910711584.6A CN110633706B (zh) 2019-08-02 2019-08-02 一种基于金字塔网络的语义分割方法

Publications (2)

Publication Number Publication Date
CN110633706A true CN110633706A (zh) 2019-12-31
CN110633706B CN110633706B (zh) 2022-03-29

Family

ID=68970287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910711584.6A Active CN110633706B (zh) 2019-08-02 2019-08-02 一种基于金字塔网络的语义分割方法

Country Status (1)

Country Link
CN (1) CN110633706B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192278A (zh) * 2019-12-31 2020-05-22 北京迈格威科技有限公司 语义分割方法、装置、计算机设备和计算机可读存储介质
CN112163111A (zh) * 2020-09-28 2021-01-01 杭州电子科技大学 一种旋转不变的语义信息挖掘方法
CN114926725A (zh) * 2022-07-18 2022-08-19 中邮消费金融有限公司 一种基于图像分析的线上金融团伙欺诈识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2595116A1 (en) * 2010-05-07 2013-05-22 Telefónica, S.A. Method for generating depth maps for converting moving 2d images to 3d
CN107644426A (zh) * 2017-10-12 2018-01-30 中国科学技术大学 基于金字塔池化编解码结构的图像语义分割方法
US20180240219A1 (en) * 2017-02-22 2018-08-23 Siemens Healthcare Gmbh Denoising medical images by learning sparse image representations with a deep unfolding approach
CN109410185A (zh) * 2018-10-10 2019-03-01 腾讯科技(深圳)有限公司 一种图像分割方法、装置和存储介质
CN109509192A (zh) * 2018-10-18 2019-03-22 天津大学 融合多尺度特征空间与语义空间的语义分割网络
CN109636905A (zh) * 2018-12-07 2019-04-16 东北大学 基于深度卷积神经网络的环境语义建图方法
US10325371B1 (en) * 2019-01-22 2019-06-18 StradVision, Inc. Method and device for segmenting image to be used for surveillance using weighted convolution filters for respective grid cells by converting modes according to classes of areas to satisfy level 4 of autonomous vehicle, and testing method and testing device using the same
US20190223725A1 (en) * 2018-01-25 2019-07-25 Siemens Healthcare Gmbh Machine Learning-based Segmentation for Cardiac Medical Imaging

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2595116A1 (en) * 2010-05-07 2013-05-22 Telefónica, S.A. Method for generating depth maps for converting moving 2d images to 3d
US20180240219A1 (en) * 2017-02-22 2018-08-23 Siemens Healthcare Gmbh Denoising medical images by learning sparse image representations with a deep unfolding approach
CN107644426A (zh) * 2017-10-12 2018-01-30 中国科学技术大学 基于金字塔池化编解码结构的图像语义分割方法
US20190223725A1 (en) * 2018-01-25 2019-07-25 Siemens Healthcare Gmbh Machine Learning-based Segmentation for Cardiac Medical Imaging
CN109410185A (zh) * 2018-10-10 2019-03-01 腾讯科技(深圳)有限公司 一种图像分割方法、装置和存储介质
CN109509192A (zh) * 2018-10-18 2019-03-22 天津大学 融合多尺度特征空间与语义空间的语义分割网络
CN109636905A (zh) * 2018-12-07 2019-04-16 东北大学 基于深度卷积神经网络的环境语义建图方法
US10325371B1 (en) * 2019-01-22 2019-06-18 StradVision, Inc. Method and device for segmenting image to be used for surveillance using weighted convolution filters for respective grid cells by converting modes according to classes of areas to satisfy level 4 of autonomous vehicle, and testing method and testing device using the same

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AHMED H. SHAHIN等: "DEEP CONVOLUTIONAL ENCODER-DECODERS WITH AGGREGATED MULTI-RESOLUTION SKIP CONNECTIONS FOR SKIN LESION SEGMENTATION", 《ARXIV》 *
JINGXIN LIU等: "Bladder Cancer Multi-Class Segmentation in MRI With Pyramid-In-Pyramid Network", 《2019 IEEE 16TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING (ISBI 2019)》 *
廖旋等: "融合分割先验的多图像目标语义分割", 《中国图象图形学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192278A (zh) * 2019-12-31 2020-05-22 北京迈格威科技有限公司 语义分割方法、装置、计算机设备和计算机可读存储介质
CN112163111A (zh) * 2020-09-28 2021-01-01 杭州电子科技大学 一种旋转不变的语义信息挖掘方法
CN114926725A (zh) * 2022-07-18 2022-08-19 中邮消费金融有限公司 一种基于图像分析的线上金融团伙欺诈识别方法

Also Published As

Publication number Publication date
CN110633706B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN113850825B (zh) 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN110738697B (zh) 基于深度学习的单目深度估计方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
Magoulianitis et al. Does deep super-resolution enhance uav detection?
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN110929696A (zh) 一种基于多模态注意与自适应融合的遥感图像语义分割方法
CN110349087B (zh) 基于适应性卷积的rgb-d图像高质量网格生成方法
CN113657388A (zh) 一种融合图像超分辨率重建的图像语义分割方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN112784756B (zh) 人体识别跟踪方法
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN114863539A (zh) 一种基于特征融合的人像关键点检测方法及系统
CN112418235A (zh) 一种基于膨胀最近邻特征增强的点云语义分割方法
CN113837290A (zh) 一种基于注意力生成器网络的无监督非成对图像翻译方法
CN116485867A (zh) 一种面向自动驾驶的结构化场景深度估计方法
CN116402851A (zh) 一种复杂背景下的红外弱小目标跟踪方法
CN116188509A (zh) 一种高效率三维图像分割方法
CN115222998A (zh) 一种图像分类方法
CN111881743A (zh) 一种基于语义分割的人脸特征点定位方法
Cheng et al. A survey on image semantic segmentation using deep learning techniques
CN117237623B (zh) 一种无人机遥感图像语义分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant