CN109086768B - 卷积神经网络的语义图像分割方法 - Google Patents

卷积神经网络的语义图像分割方法 Download PDF

Info

Publication number
CN109086768B
CN109086768B CN201810768753.5A CN201810768753A CN109086768B CN 109086768 B CN109086768 B CN 109086768B CN 201810768753 A CN201810768753 A CN 201810768753A CN 109086768 B CN109086768 B CN 109086768B
Authority
CN
China
Prior art keywords
layer
output
network architecture
segmentation
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810768753.5A
Other languages
English (en)
Other versions
CN109086768A (zh
Inventor
周全
杨文斌
从德春
王雨
卢竞男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810768753.5A priority Critical patent/CN109086768B/zh
Publication of CN109086768A publication Critical patent/CN109086768A/zh
Application granted granted Critical
Publication of CN109086768B publication Critical patent/CN109086768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Abstract

本发明揭示了一种卷积神经网络的语义图像分割方法,通过结合网络架构中部分分层特征融合和全连接的条件随机场处理实现语义图像分割。具体包括步骤:构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型,且模型中每一分层的步长大小,卷积核大小以及输出的特征图个数按规格定制;对网络架构中浅层与深层的信息进行融合,并将融合后的特征进行上采样至原图分辨率大小;对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割。本发明方案的应用,通过不同分层的特征融合,充分利用了各层信息,提高了最终的准确率;结合全连接的CRF对网络输出结果进行后处理,处理了各像素点之间的联系,使得图片分割的结果更加精确和平滑。

Description

卷积神经网络的语义图像分割方法
技术领域
本发明属于语义图像分割领域,具体指采用深度学习的方法去实现语义图像分割。
背景技术
随着深度学习的不断突破,在各领域上得到了广泛应用,比如计算机视觉,语音识别,自然语言处理等。卷积神经网络(CNN)的提出使得深度学习在某种程度上成了一个热词,而全卷积神经网络(FCN)的提出,使得语义图像分割有了很大的突破,语义图像分割可以说是图像理解的基石性技术,在自动驾驶、无人机等应用中举足轻重。众所周知,图像是由许多像素点组成的,而语义图像分割,顾名思义就是对图片中的每一个像素点进行分类,即实现对图片中物体定位,也实现物体识别。在深度学习技术快速发展之前,就已经有了很多作为语义图像分割的技术,比较经典的有Normalized Cut (N-cut)和Grab cut。N-cut提出了一种考虑全局信息的方法来进行图像划分(Graph partitioning)。与 N-cut 一样,Grab cut 同样也是基于图像划分,不过 grab cut 是其改进版本,可以看作迭代式的语义分割算法。Grab cut 利用了图像中的纹理(颜色)信息和边界(反差)信息,只要少量的用户交互操作即可得到比较好的前后背景分割结果。
这些方法没有算法训练阶段,因此往往计算复杂度不高,但是其分割效果并不能让人满意。在计算机视觉步入深度学习时代之后,语义图像分割也步入了一个全新的发展阶段,其中全卷积网络(FCN)的提出可以说是深度学习在语义图像分割任务上的开创性工作,但全卷积网络也存在一些不足:
(1)在一定程度没有很好的利用上下层之间的信息,造成了信息的丢失;
(2)没有考虑到像素点之间的联系。
发明内容
鉴于上述现有技术的不足,本发明的目的旨在提出一种卷积神经网络的语义图像分割方法,利用了网络上下层的信息,也考虑到了图像像素点之间的联系。
本发明实现上述目的的技术解决方案为:卷积神经网络的语义图像分割方法,其特征在于:通过结合网络架构中部分分层特征融合和全连接的条件随机场处理实现语义图像分割。
进一步地,上述语义图像分割方法包括步骤:
构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型,且模型中每一分层的步长大小,卷积核大小以及输出的特征图个数按规格定制;
对网络架构中浅层与深层的信息进行融合,并将融合后的特征进行上采样至原图分辨率大小;
对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割。
进一步地,所述网络架构模型至少含有顺次排列的五个分层,每个分层由池化层及其相关联的卷积层构成,网络架构模型的输出端接一个对应原图分辨率的上采样层,且最末端分层与上采样层之间设有特征融合单元。
更进一步地,上述特征融合单元的运作方式:第四池化层和第五池化层的输出分别接一个卷积层,转变成通道数为21的输出,然后分别接一个对应第三池化层输出分辨率的上采样层;第三池化层的输出接一个卷积层转变成通道数为21的输出,然后把转变通道数后的各输出特征图通过求和的方式进行特征融合。
进一步地,上述优化分割通过能量公式最小化实现,所述能量公式为:
Figure 100002_DEST_PATH_IMAGE002
,其中
Figure 100002_DEST_PATH_IMAGE004
为一元能量项、
Figure 100002_DEST_PATH_IMAGE006
为二元能量项,仅当两个能量项均最小时得到最优的图像分割。
更进一步地,上述一元能量项表示像素点本身,公式为:
Figure 100002_DEST_PATH_IMAGE008
,其中
Figure 100002_DEST_PATH_IMAGE010
是网络架构模型对图片x中的每个像素点
Figure 100002_DEST_PATH_IMAGE012
输出的概率值,
Figure 100002_DEST_PATH_IMAGE014
为图片x中第i个像素点
Figure 381522DEST_PATH_IMAGE012
所对应的标签,当
Figure 374886DEST_PATH_IMAGE010
最大时,一元能量项
Figure 286472DEST_PATH_IMAGE004
最小。
更进一步地,上述二元能量项表示像素点之间的关系,公式为:
Figure 100002_DEST_PATH_IMAGE016
,其中
Figure 100002_DEST_PATH_IMAGE018
Figure 100002_DEST_PATH_IMAGE020
分别代表像素点
Figure 100002_DEST_PATH_IMAGE022
Figure 100002_DEST_PATH_IMAGE024
的位置,
Figure 100002_DEST_PATH_IMAGE026
Figure 100002_DEST_PATH_IMAGE028
代表像素点
Figure 771287DEST_PATH_IMAGE022
Figure 560251DEST_PATH_IMAGE024
点的颜色,
Figure 100002_DEST_PATH_IMAGE030
Figure 100002_DEST_PATH_IMAGE032
分别代表图片x中第i、j个像素点
Figure 849150DEST_PATH_IMAGE012
Figure 100002_DEST_PATH_IMAGE034
所对应的标签,参数
Figure 100002_DEST_PATH_IMAGE036
Figure 100002_DEST_PATH_IMAGE038
用于限制高斯核的尺度,在
Figure 762879DEST_PATH_IMAGE030
不等于
Figure 726418DEST_PATH_IMAGE032
的情况下
Figure 100002_DEST_PATH_IMAGE040
=1,否则
Figure 573152DEST_PATH_IMAGE040
=0。
本发明卷积神经网络的语义图像分割方法的提出并应用,较之于传统此类方法具有显著的进步性:本发明方法一者提出了一种新的网络结构,通过不同层的特征融合,充分地利用了网络的各层信息,在一定程度上提高了最终的准确率;再者结合了全连接的CRF,对网络的输出结果进行后处理,很好地处理了各像素点之间的联系,使得图片分割的结果更加精确和平滑。
附图说明
图1为本发明语义图像分割方法构造的网络架构模型的结构图。
图2为网络架构模型各分层的结构说明。
图3为本发明方法在pascalvoc2012数据集下训练的loss曲线示意图。
图4为基于多原图的定性结果比较。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。
本发明设计者潜心于语义图像分割的研究,总结并针对当前已有技术的不足与弊端,创新提出了一种卷积神经网络的语义图像分割方法,通过结合网络架构中部分分层特征融合和全连接的条件随机场处理实现语义图像分割。其概述性步骤包括:一、构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型,且模型中每一分层的步长大小,卷积核大小以及输出的特征图个数按规格定制;二、对网络架构中浅层与深层的信息进行融合,并将融合后的特征进行上采样至原图分辨率大小;三、对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割。
为更直观地理解,结合图示实施例详细阐述如下。从图1可以知道本发明的整体框架分为网络架构模型和全连接的条件随机场两部分。其中网络架构模型可以命名为DCCNet,从其结构来来看,它由卷积层,池化层,反卷积层,损失函数等几部分组成,至少含有顺次排列的五个分层,每个分层由池化层及其相关联的卷积层构成,且每层的参数(步长大小,卷积核大小以及每层输出的特征图个数)都可以从图2中查找。网络架构模型的输出端接一个对应原图分辨率的上采样层,且最末端分层与上采样层之间设有特征融合单元。
结合该特征融合单元的运作方式,该语义图像分割方法的前半部分操作过程为:(1)首先,将第四池化层和第五池化层的输出,接上一个卷积层使其变成通道数为21的输出,然后分别接上一个上采样层,使图片的分辨率大小与池化层3输出的分辨率大小一致;其中上采样层即反卷积层。(2)把第三池化层的输出后接一个卷积层,使他变成通道数为21的输出,以便于后面进行融合,其中21即为数据集中包含的类别数。(3)把第(1)步和第(2)步中输出特征图通过求和的形式进行特征融合,融合后通过一个上采样层使图片输出分辨率大小与原图分辨率大小一致。
而作为本发明方法的后半部分:对最后一个上采样层的输出,采用全连接的条件随机场进行后处理,处理过程如下:
能量公式:
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE044
最小时,分割结果最优。
从更细化的公式分析来看,上述一元能量项:
Figure DEST_PATH_IMAGE046
其中
Figure 829690DEST_PATH_IMAGE010
是DCCNet对图片x中的每个像素点
Figure 558611DEST_PATH_IMAGE012
输出的概率值,也就是指该像素点分配为各标签(类别)的概率。当
Figure 840688DEST_PATH_IMAGE010
最大时,一元能量项
Figure 869824DEST_PATH_IMAGE004
最小。
而二元能量项:
Figure DEST_PATH_IMAGE048
其中
Figure 536078DEST_PATH_IMAGE018
Figure 486717DEST_PATH_IMAGE020
分别代表像素点
Figure 900381DEST_PATH_IMAGE022
Figure 252865DEST_PATH_IMAGE024
的位置,
Figure 398675DEST_PATH_IMAGE026
Figure 226823DEST_PATH_IMAGE028
代表像素点
Figure 647440DEST_PATH_IMAGE022
Figure 323272DEST_PATH_IMAGE024
点的颜色,参数
Figure 967880DEST_PATH_IMAGE036
Figure 893110DEST_PATH_IMAGE038
用于限制高斯核的尺度,在
Figure 9096DEST_PATH_IMAGE030
不等于
Figure 601752DEST_PATH_IMAGE032
的情况下,则
Figure 886102DEST_PATH_IMAGE040
=1,否则
Figure 501891DEST_PATH_IMAGE040
=0。
对DCCNet的输出,通过全连接的条件随机场进行后处理,可以达到以下目的,(1)两个像素点颜色相似,但位置靠比较远时,分配不同标签。(2)两个像素点位置靠的近,但是颜色不相近,分配不同标签。(3)两个像素点颜色相似,位置靠的近,分配相同标签。对图片中的所有像素点进行同样的操作,就能对图片的整体与局部有一个很好的把握,也同时处理了位置和颜色上的问题,从而使得结果有了进一步提高。
根据图1的网络架构能很好的把握网络的上下层的信息,第三池化层,第四池化层,第五池化层特征的融合,能很好地把握图片的局部与整体特征,而采用全连接的条件随机场进行后处理能很好的处理像素点之间的关系。特征融合和全连接的条件随机场处理结合在一起使得本发明在结果上有了很大的提升。
图3是在pascalvoc2012数据集上训练的loss曲线(本发明所得到的结果都是在pascalvoc2012数据集下进行的),从图中能发现训练从0次迭代到10000次期间loss是下降最快的,从50万降到10万左右,而在接下来的几万次训练中loss下降处于一个缓慢下降的过程,虽然其中有些上下波动,但训练过程的整体趋势loss趋于下降。可知随着训练次数的增加,loss下降越来越缓慢最后趋于收敛,稳定在某个值。从loss曲线可以发现本发明的网络架构设定,网络参数设定都趋于最优,得到训练后的模型是最稳定的。
本发明的模型DCCNet(在pascalVOC2012训练集上进行训练),DCCNet+(在pascalVOC2012训练集加验证集上进行训练)和DCCNet+CRF的MIoU分别为71.4%,73.5% 和75.5%。在很大程度上已经超过了很多先进的模型。下面为mIOU的计算公式:
Figure DEST_PATH_IMAGE050
,其中C数据集中包含的类别(包括背景),
Figure DEST_PATH_IMAGE052
即类别为m的像素点分割成类别n的像素点。
图4是本发明模型与其它模型在定性上的比较,为了便于区别各类物体,对图片中的物体采用一些不同的形状进行标记,从图中可以看出DCCNet与DCCNet+CRF相比于FCN,Deeplab的分割结果,前者在边界上分割的比较好,并且DCCNet和DCCNet+CRF校正了FCN与Deeplab中分割成背景的目标物体,如图4中的第四行图片,FCN与Deeplab把行人分割成了背景,而DCCNet与DCCNet+CRF能正确的把行人分割出来。综上,无论从定量还定性的比较,充分展现了本发明在语义图像分割方面的优越性。通过不同层的特征融合,充分地利用了网络的各层信息,在一定程度上提高了最终的准确率;再者结合了全连接的CRF,对网络的输出结果进行后处理,很好地处理了各像素点之间的联系,使得图片分割的结果更加精确和平滑。
以上详细描述了本发明的优选实施方式,但是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内进行修改或者等同变换,均应包含在本发明的保护范围之内。

Claims (1)

1.卷积神经网络的语义图像分割方法,其特征在于包括步骤:
构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型,且模型中每一分层的步长大小、卷积核大小以及输出的特征图个数按规格定制,所述网络架构模型至少含有顺次排列的五个分层,每个分层由池化层及其相关联的卷积层构成,网络架构模型的输出端接一个对应原图分辨率的上采样层,且最末端分层与上采样层之间设有特征融合单元,所述特征融合单元的运作方式:(1)第四池化层和第五池化层的输出分别接一个卷积层,转变成通道数为21的输出,所述卷积层分别接一个上采样层,使图片的分辨率大小与第三池化层输出的分辨率大小一致;(2)第三池化层的输出接一个卷积层转变成通道数为21的输出;(3)然后把(1)和(2)中各输出的特征图通过求和的方式进行特征融合;将融合后的特征进行上采样至原图分辨率大小;
对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割,所述优化分割通过能量公式最小化实现,所述能量公式为:
Figure DEST_PATH_IMAGE002
,其中
Figure DEST_PATH_IMAGE004
为一元能量项、
Figure DEST_PATH_IMAGE006
为二元能量项,仅当两个能量项均最小时得到最优的图像分割,其中所述一元能量项表示像素点本身,公式为:
Figure DEST_PATH_IMAGE008
,其中
Figure DEST_PATH_IMAGE010
是网络架构模型对图片x中的每个像素点
Figure DEST_PATH_IMAGE012
输出的概率值,
Figure DEST_PATH_IMAGE014
为图片x中第i个像素点
Figure 254360DEST_PATH_IMAGE012
所对应的标签,当
Figure 905922DEST_PATH_IMAGE010
最大时,一元能量项
Figure 154500DEST_PATH_IMAGE004
最小;所述二元能量项表示像素点之间的关系,公式为:
Figure DEST_PATH_IMAGE016
,其中
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
分别代表图片x中第i、j个像素点
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
的位置,
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
分别代表像素点
Figure 330136DEST_PATH_IMAGE022
Figure 613349DEST_PATH_IMAGE024
的颜色,
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
分别代表像素点
Figure DEST_PATH_IMAGE034
所对应的标签,参数
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
用于限制高斯核的尺度,在
Figure 272695DEST_PATH_IMAGE030
不等于
Figure 8570DEST_PATH_IMAGE032
的情况下
Figure DEST_PATH_IMAGE040
=1,否则
Figure 410733DEST_PATH_IMAGE040
=0。
CN201810768753.5A 2018-07-13 2018-07-13 卷积神经网络的语义图像分割方法 Active CN109086768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810768753.5A CN109086768B (zh) 2018-07-13 2018-07-13 卷积神经网络的语义图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810768753.5A CN109086768B (zh) 2018-07-13 2018-07-13 卷积神经网络的语义图像分割方法

Publications (2)

Publication Number Publication Date
CN109086768A CN109086768A (zh) 2018-12-25
CN109086768B true CN109086768B (zh) 2021-10-29

Family

ID=64837783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810768753.5A Active CN109086768B (zh) 2018-07-13 2018-07-13 卷积神经网络的语义图像分割方法

Country Status (1)

Country Link
CN (1) CN109086768B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840914B (zh) * 2019-02-28 2022-12-16 华南理工大学 一种基于用户交互式的纹理分割方法
CN110298841B (zh) * 2019-05-17 2023-05-02 同济大学 一种基于融合网络的图像多尺度语义分割方法及装置
CN110349167A (zh) * 2019-07-10 2019-10-18 北京悉见科技有限公司 一种图像实例分割方法及装置
CN110378438A (zh) * 2019-08-07 2019-10-25 清华大学 标签容错下的图像分割模型的训练方法、装置及相关设备
CN110516678B (zh) * 2019-08-27 2022-05-06 北京百度网讯科技有限公司 图像处理方法和装置
CN111080592B (zh) * 2019-12-06 2021-06-01 广州柏视医疗科技有限公司 一种基于深度学习的肋骨提取方法及装置
CN113469181B (zh) * 2020-03-31 2024-04-05 北京四维图新科技股份有限公司 图像语义分割处理方法、装置及存储介质
CN113033571A (zh) * 2021-03-31 2021-06-25 太原科技大学 基于增强特征融合的交通场景图像语义分割方法
CN113470048B (zh) * 2021-07-06 2023-04-25 北京深睿博联科技有限责任公司 场景分割方法、装置、设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940577B2 (en) * 2015-07-07 2018-04-10 Adobe Systems Incorporated Finding semantic parts in images
CN105740894B (zh) * 2016-01-28 2020-05-29 北京航空航天大学 一种高光谱遥感图像的语义标注方法
CN107680090A (zh) * 2017-10-11 2018-02-09 电子科技大学 基于改进全卷积神经网络的输电线路绝缘子状态识别方法
CN108062756B (zh) * 2018-01-29 2020-04-14 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法

Also Published As

Publication number Publication date
CN109086768A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086768B (zh) 卷积神经网络的语义图像分割方法
US11205271B2 (en) Method and device for semantic segmentation of image
WO2023077816A1 (zh) 边界优化的遥感图像语义分割方法、装置、设备及介质
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN110033008A (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN113240683A (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN112101364A (zh) 基于参数重要性增量学习的语义分割方法
CN113011337A (zh) 一种基于深度元学习的汉字字库生成方法及系统
CN113807340A (zh) 一种基于注意力机制的不规则自然场景文本识别方法
Hamian et al. Semantic segmentation of autonomous driving images by the combination of deep learning and classical segmentation
CN113673482A (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及系统
CN116152554A (zh) 基于知识引导的小样本图像识别系统
CN112418235A (zh) 一种基于膨胀最近邻特征增强的点云语义分割方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN111462132A (zh) 一种基于深度学习的视频物体分割方法及系统
CN117115614B (zh) 户外影像的对象识别方法、装置、设备及存储介质
CN117152438A (zh) 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法
CN115376195B (zh) 训练多尺度网络模型的方法及人脸关键点检测方法
CN116363149A (zh) 一种基于U-Net改进的医学图像分割方法
CN113313700B (zh) 一种基于深度学习的x射线图像交互式分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant