CN112329780B - 一种基于深度学习的深度图像语义分割方法 - Google Patents

一种基于深度学习的深度图像语义分割方法 Download PDF

Info

Publication number
CN112329780B
CN112329780B CN202011215611.XA CN202011215611A CN112329780B CN 112329780 B CN112329780 B CN 112329780B CN 202011215611 A CN202011215611 A CN 202011215611A CN 112329780 B CN112329780 B CN 112329780B
Authority
CN
China
Prior art keywords
branch structure
sampling
residual
layer
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011215611.XA
Other languages
English (en)
Other versions
CN112329780A (zh
Inventor
盛伟国
陈浩天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN202011215611.XA priority Critical patent/CN112329780B/zh
Publication of CN112329780A publication Critical patent/CN112329780A/zh
Application granted granted Critical
Publication of CN112329780B publication Critical patent/CN112329780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的深度图像语义分割方法。本发明步骤如下:1:处理数据集并将处理后的数据集输入到ResNet网络模型中。2:将步骤1中处理好的数据集输入到ResNet网络下采样阶段,在下采样编码阶段使用分别训练逐渐融合的方式将RGB图像和深度图像的信息进行融合,得到下采样编码阶段提取到的特征。3:将步骤2中由ResNet网络下采样编码阶段提取到的特征输入到在上采样编码阶段,在上采样编码阶段过程加入强化监督模块,优化语义分割结果,进行更深层的特征提取。4:利用步骤3所训练获得的网络模型进行深度图像语义分割。本发明使特征在深层的网络中不被损耗,在上采样过程加入强化监督模块,优化语义分割结果。

Description

一种基于深度学习的深度图像语义分割方法
技术领域
本发明涉及语义分割技术领域,具体涉及一种基于深度学习的深度图语义分割方法,用于室内环境的识别。
背景技术
语义分割是计算机视觉领域中最重要的任务之一。对场景的理解是机器人实现人工智能并与外界展开交互的关键技术。要让机器人协助人类,甚至独立地完成工作,必须让其具有两种基础能力,其一,是能识别出工作环境中存在什么类型的物体,其二,必须识别出特定类型物体所在的位置。
目前国内外学者所研究的语义分割技术的目标,则是通过单个算法同时完成物体分类及物体检测两种任务,让机器人能快速而准确地获得外界的场景信息。作为实现场景理解的一项关键技术,语义分割算法尝试在像素级别对图像进行分类,即对输入图像中每一个像素位置的所属物体的类别进行分类并标注,从而得到不同类别物体在图像中所在位置的区域分割结果。在典型的语义分割结果的描述,不同颜色的区域分别表述不同的物体类别。可以看出,算法使得机器人能识别出图像中具有什么物体,物体所在的位置,以及物体间具有的空间关系。
语义分割是迈向场景理解的主要步骤。这一直为机器视觉技术的难点,此前一直难以获得较高的分割精确度。而深度学习技术的出现,使得精确语义分割成为可能。自2012年以来,随着深层卷积神经网络的兴起,深层卷积网络已经成为提取图像特征最有效的方法。卷积网络不需要对图像做复杂的预处理,直接输入原图像就能作为网络的输入,最重要的是卷积网络采用误差反向传播,更新网络参数。通过卷积网络提取的图像特征不仅在分类任务上具有很高的分类性能,而且在物体检测和语义分割任务上也具有非常明显的优势。
发明内容
本发明的目的在于解决现有深度图语义分割方法中存在的缺点和不足,提出一种基于深度学习的深度图语义分割方法,以实现准确率更高的深度图语义分割方法。
本发明解决其技术问题所采用的方案是:
一种基于深度学习的深度图像语义分割方法,包括如下步骤:
步骤1:处理数据集并将处理后的数据集输入到ResNet网络模型中。
步骤2:将步骤1中处理好的数据集输入到ResNet网络下采样阶段,在下采样编码阶段使用分别训练逐渐融合的方式将RGB图像和深度图像的信息进行融合,得到下采样编码阶段提取到的特征。
步骤3:将步骤2中由ResNet网络下采样编码阶段提取到的特征输入到在上采样编码阶段,在上采样编码阶段过程加入强化监督模块,优化语义分割结果,进行更深层的特征提取。
步骤4:利用步骤3所训练获得的网络模型进行深度图像语义分割。
本发明有益效果如下:
本发明将优化的带有编码-解码结构的残差网络用于深度图像语义分割模型中。使用特征数量更多的样本作为输入,并加入具有残差结构的网络将网络层数做深,在下采样过程使用分别训练逐渐融合的方式提取图像信息在将网络做深的基础上保留浅层网络中具有的特征,使特征在深层的网络中不被损耗,在上采样过程加入强化监督模块,优化语义分割结果。
附图说明
图1为本发明的整体流程图,整体流程分为4个模块,第一模块为数据输入模块,此模块将预处理好的数据输入到ResNet网络的下采样,此模块使用分别训练逐渐融合的方式提取图像信息。此后将提取到的特征输入ResNet网络的上采样模块,优化语义分割结果。最后输出语义分割的具体结果。
图2为本发明网络结构的结构图,该网络是以ResNet-34为基准的深度神经网络,包括RGB图像训练分支(主要分支)和深度图像训练分支(次要分支)。2个分支单独训练又逐渐融合,即分别训练逐渐融合结构。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1和2所示,一种基于深度学习的深度图语义分割方法,具体包括如下步骤:
步骤1:处理数据集并将处理后的数据集输入到ResNet网络模型中。
1-1数据集主要来源于NYU-DepthV2数据集由Microsoft Kinect的RGB和Depth摄像机记录的各种室内场景的视频序列组成。它具有以下特点:1449张详细标记的RGB和深度图像;来自多个城市的464个不同场景;对每个具体的分类有一个实例号(如1号床、2号床、3号床等)
1-2数据集中的数据进行预处理,删除冗余特征、处理缺失值、去除不合理数据、特征归一化。对于缺失的数据通过着色方案进行了填充。再把带有标签的数据集作为Matlab的.mat文件中。
1-3将处理后的数据集分类标签化,由于原数据集的标签过于细化,场景覆盖了常见的室内环境,包括办公室工作空间、会议室和厨房区域。并且对象之间有所遮挡,所以把数据集通过归并分类的方法,分类成wall、floor、bed、chair等40个类。
步骤2:将步骤1中处理好的数据集输入到ResNet网络下采样阶段,在下采样编码阶段使用分别训练逐渐融合的方式将RGB图像和深度图像的信息进行融合,得到下采样编码阶段提取到的特征。ResNet网络模型包括主要分支结构和次要分支结构,其中主要分支结构包括首个卷积层Conv1、池化层Pool1以及残差层Layer1~Layer4。
2-1主要分支结构的池化层Pool1输出和次要分支结构的池化层Pool1-d输出以元素相加的形式融合,并把融合结果作为主要分支结构的残差层Layer1的输入。
2-2以此类推,主要分支结构的残差层Layer2、Layer3、Layer4和上采样解码阶段的上采样层Trans1输入数据分别来自主要分支结构的残差层Layer1和次要分支结构Layer1-d元素相加的融合、主要分支结构的残差层Layer2和次要分支结构Layer2-d元素相加的融合、主要分支结构的残差层Layer3和次要分支结构Layer3-d元素相加的融合、主要分支结构的残差层Layer4和次要分支结构Layer4-d元素相加的融合;
2-3将所有数据信息汇集到上采样解码阶段的主要分支结构,下采样编码阶段的次要分支结构完结。
步骤3:将步骤2中由ResNet网络下采样编码阶段提取到的特征输入到上采样编码阶段,在上采样编码阶段过程加入强化监督模块,优化语义分割结果,进行更深层的特征提取。
3-1在上采样编码阶段,ResNet网络采用3个跳跃结构保留精细特征用以提高分割精度。但主要分支结构的残差层Layer4之后的结构被带有反残差模块的反卷积层代替。
3-2上采样解码阶段的上采样层Trans2输入是主要分支结构的残差层Layer3与次要分支结构的残差层Layer3-d层信息融合后再与上采样解码阶段的上采样层Trans1的输出信息融合产生的。
上采样解码阶段的上采样层Trans3输入是主要分支结构的残差层Layer2与次要分支结构的残差层Layer2-d层信息融合后再与上采样解码阶段的上采样层Trans2的输出信息融合产生的。
上采样解码阶段的上采样层Trans4输入是主要分支结构的残差层Layer1与次要分支结构的残差层Layer1-d层信息融合后再与上采样解码阶段的上采样层Trans3的输出信息融合产生的。
以此类推,如图2所示,将这种信息融合模式在上采样解码阶段的上采样层Trans1~Trans4贯穿始终,其作用是优化语义推断的分割细节。
3-3最后上采样解码阶段的上采样层Trans4的输出经过反卷积层Final Trans后输出最终数据;
步骤4:利用步骤3所训练获得的网络模型进行深度图像语义分割。
4-1将步骤3中提取出的深层特征用损失函数来衡量模型的表现,损失函数越低代表模型在分割任务中的表现越好。本模型使用交叉熵损失函数对模型进行评价,计算公式为:
其中,P(x=k)为像素点属于正确类别k的概率;K为分类算法中类别的数量;xi为第i个类别的特征值。
4-2.当网络最后一层使用softmax函数时,交叉熵的公式为:
本模型的损失函数是以Conv1~Conv4和最终5个输出结果搭建的5个交叉熵函数之和。
训练ResNet模型时,采用带动量项系数的随机梯度下降方法更新参数。训练初始动量项系数为0.9,学习速率初始为0.002,训练100次后,训练学习速率乘以系数0.9进行衰减。
本发明所提出的结构加入了深度图与RGB图的语义分割的特征,并通过残差结构网络在加深网络层数的同时保留浅层网络中的特征信息,同时通过强化监督模块,最终实现准确率更高的深度图语义分割方法。

Claims (3)

1.一种基于深度学习的深度图像语义分割方法,其特征在于包括如下步骤:
步骤1:处理数据集并将处理后的数据集输入到ResNet网络模型中;
步骤2:将步骤1中处理好的数据集输入到ResNet网络下采样阶段,在下采样编码阶段使用分别训练逐渐融合的方式将RGB图像和深度图像的信息进行融合,得到下采样编码阶段提取到的特征;
步骤3:将步骤2中由ResNet网络下采样编码阶段提取到的特征输入到在上采样编码阶段,在上采样编码阶段过程加入强化监督模块,优化语义分割结果,进行更深层的特征提取;
步骤4:利用步骤3所训练获得的网络模型进行深度图像语义分割;
所述的ResNet网络模型包括主要分支结构和次要分支结构,其中主要分支结构包括首个卷积层Conv1、池化层Pool1以及残差层Layer1~Layer4,具体实现如下:
2-1主要分支结构的池化层Pool1输出和次要分支结构的池化层Pool1-d输出以元素相加的形式融合,并把融合结果作为主要分支结构的残差层Layer1的输入;
2-2以此类推,主要分支结构的残差层Layer2、Layer3、Layer4和上采样解码阶段的上采样层Trans1输入数据分别来自主要分支结构的残差层Layer1和次要分支结构Layer1-d元素相加的融合、主要分支结构的残差层Layer2和次要分支结构Layer2-d元素相加的融合、主要分支结构的残差层Layer3和次要分支结构Layer3-d元素相加的融合、主要分支结构的残差层Layer4和次要分支结构Layer4-d元素相加的融合;
2-3将所有数据信息汇集到上采样解码阶段的主要分支结构,下采样编码阶段的次要分支结构完结;
所述的步骤3具体实现如下:
3-1在上采样编码阶段,ResNet网络采用3个跳跃结构保留精细特征用以提高分割精度;但主要分支结构的残差层Layer4之后的结构被带有反残差模块的反卷积层代替;
3-2上采样解码阶段的上采样层Trans2输入是主要分支结构的残差层Layer3与次要分支结构的残差层Layer3-d层信息融合后再与上采样解码阶段的上采样层Trans1的输出信息融合产生的;
上采样解码阶段的上采样层Trans3输入是主要分支结构的残差层Layer2与次要分支结构的残差层Layer2-d层信息融合后再与上采样解码阶段的上采样层Trans2的输出信息融合产生的;
上采样解码阶段的上采样层Trans4输入是主要分支结构的残差层Layer1与次要分支结构的残差层Layer1-d层信息融合后再与上采样解码阶段的上采样层Trans3的输出信息融合产生的;
以此类推,将这种信息融合模式在上采样解码阶段的上采样层Trans1~Trans4贯穿始终,其作用是优化语义推断的分割细节;
3-3最后上采样解码阶段的上采样层Trans4的输出经过反卷积层Final Trans后输出最终数据。
2.根据权利要求1所述的一种基于深度学习的深度图像语义分割方法,其特征在于步骤1具体实现如下:
1-1数据集主要来源于NYU-Depth V2,数据集由Microsoft Kinect的RGB和Depth摄像机记录的各种室内场景的视频序列组成;
1-2数据集中的数据进行预处理,删除冗余特征、处理缺失值、去除不合理数据、特征归一化;对于缺失的数据通过着色方案进行填充;再把带有标签的数据集作为Matlab的.mat文件中;
1-3将处理后的数据集分类标签化,所以把数据集通过归并分类的方法,分类成40个类。
3.根据权利要求2所述的一种基于深度学习的深度图像语义分割方法,其特征在于所述的步骤4具体实现如下:
4-1将步骤3中提取出的深层特征用损失函数来衡量模型的表现,使用交叉熵损失函数对模型进行评价,计算公式为:
其中,P(x=k)为像素点属于正确类别k的概率;K为分类算法中类别的数量;xi为第i个类别的特征值;
4-2.当网络最后一层使用softmax函数时,交叉熵的公式为:
所述的损失函数是以Conv1~Conv4和最终5个输出结果搭建的5个交叉熵函数之和。
CN202011215611.XA 2020-11-04 2020-11-04 一种基于深度学习的深度图像语义分割方法 Active CN112329780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011215611.XA CN112329780B (zh) 2020-11-04 2020-11-04 一种基于深度学习的深度图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011215611.XA CN112329780B (zh) 2020-11-04 2020-11-04 一种基于深度学习的深度图像语义分割方法

Publications (2)

Publication Number Publication Date
CN112329780A CN112329780A (zh) 2021-02-05
CN112329780B true CN112329780B (zh) 2023-10-27

Family

ID=74324652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011215611.XA Active CN112329780B (zh) 2020-11-04 2020-11-04 一种基于深度学习的深度图像语义分割方法

Country Status (1)

Country Link
CN (1) CN112329780B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052247A (zh) * 2021-03-31 2021-06-29 清华苏州环境创新研究院 基于多标签图像识别的垃圾分类方法及垃圾分类器
CN113111886B (zh) * 2021-04-19 2023-03-24 太原科技大学 一种基于双层残差网络的交通场景图像语义分割方法
CN113255519A (zh) * 2021-05-25 2021-08-13 江苏濠汉信息技术有限公司 一种输电线路危险车辆吊车扬臂识别系统及多目标跟踪方法
CN113516668B (zh) * 2021-06-16 2024-03-29 郑州大学 物联网应用中图像语义分割方法
CN114723951B (zh) * 2022-06-08 2022-11-04 成都信息工程大学 一种用于rgb-d图像分割的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453639A (zh) * 2007-11-29 2009-06-10 展讯通信(上海)有限公司 支持roi区域的多路视频流的编码、解码方法和系统
CN101668205A (zh) * 2009-09-25 2010-03-10 南京邮电大学 基于残差宏块自适应下采样立体视频压缩编码方法
CN103281531A (zh) * 2013-05-10 2013-09-04 北方工业大学 面向hevc的质量可伸缩层间预测编码
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN111598095A (zh) * 2020-03-09 2020-08-28 浙江工业大学 一种基于深度学习的城市道路场景语义分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453639A (zh) * 2007-11-29 2009-06-10 展讯通信(上海)有限公司 支持roi区域的多路视频流的编码、解码方法和系统
CN101668205A (zh) * 2009-09-25 2010-03-10 南京邮电大学 基于残差宏块自适应下采样立体视频压缩编码方法
CN103281531A (zh) * 2013-05-10 2013-09-04 北方工业大学 面向hevc的质量可伸缩层间预测编码
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN111598095A (zh) * 2020-03-09 2020-08-28 浙江工业大学 一种基于深度学习的城市道路场景语义分割方法

Also Published As

Publication number Publication date
CN112329780A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN109118467B (zh) 基于生成对抗网络的红外与可见光图像融合方法
CN111539887B (zh) 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法
CN108804397B (zh) 一种基于少量目标字体的汉字字体转换生成的方法
CN113657388A (zh) 一种融合图像超分辨率重建的图像语义分割方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN115775316A (zh) 基于多尺度注意力机制的图像语义分割方法
CN114972378A (zh) 一种基于掩码注意力机制的脑肿瘤mri图像分割方法
CN115311194A (zh) 一种基于transformer和SE块的CT自动肝脏图像分割方法
CN112699889A (zh) 基于多任务监督的无人驾驶实时道路场景语义分割方法
CN116703947A (zh) 一种基于注意力机制和知识蒸馏的图像语义分割方法
CN114781499B (zh) 一种构建基于ViT模型的密集预测任务适配器的方法
CN116485867A (zh) 一种面向自动驾驶的结构化场景深度估计方法
CN113936034B (zh) 一种结合帧间光流的表观运动联合弱小运动目标检测方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN116543338A (zh) 一种基于注视目标估计的学生课堂行为检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant