CN109086768A - 卷积神经网络的语义图像分割方法 - Google Patents
卷积神经网络的语义图像分割方法 Download PDFInfo
- Publication number
- CN109086768A CN109086768A CN201810768753.5A CN201810768753A CN109086768A CN 109086768 A CN109086768 A CN 109086768A CN 201810768753 A CN201810768753 A CN 201810768753A CN 109086768 A CN109086768 A CN 109086768A
- Authority
- CN
- China
- Prior art keywords
- layer
- output
- neural networks
- convolutional neural
- network architecture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明揭示了一种卷积神经网络的语义图像分割方法,通过结合网络架构中部分分层特征融合和全连接的条件随机场处理实现语义图像分割。具体包括步骤:构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型,且模型中每一分层的步长大小,卷积核大小以及输出的特征图个数按规格定制;对网络架构中浅层与深层的信息进行融合,并将融合后的特征进行上采样至原图分辨率大小;对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割。本发明方案的应用,通过不同分层的特征融合,充分利用了各层信息,提高了最终的准确率;结合全连接的CRF对网络输出结果进行后处理,处理了各像素点之间的联系,使得图片分割的结果更加精确和平滑。
Description
技术领域
本发明属于语义图像分割领域,具体指采用深度学习的方法去实现语义图像分割。
背景技术
随着深度学习的不断突破,在各领域上得到了广泛应用,比如计算机视觉,语音识别,自然语言处理等。卷积神经网络(CNN)的提出使得深度学习在某种程度上成了一个热词,而全卷积神经网络(FCN)的提出,使得语义图像分割有了很大的突破,语义图像分割可以说是图像理解的基石性技术,在自动驾驶、无人机等应用中举足轻重。众所周知,图像是由许多像素点组成的,而语义图像分割,顾名思义就是对图片中的每一个像素点进行分类,即实现对图片中物体定位,也实现物体识别。在深度学习技术快速发展之前,就已经有了很多作为语义图像分割的技术,比较经典的有Normalized Cut (N-cut)和Grab cut。N-cut提出了一种考虑全局信息的方法来进行图像划分(Graph partitioning)。与 N-cut 一样,Grab cut 同样也是基于图像划分,不过 grab cut 是其改进版本,可以看作迭代式的语义分割算法。Grab cut 利用了图像中的纹理(颜色)信息和边界(反差)信息,只要少量的用户交互操作即可得到比较好的前后背景分割结果。
这些方法没有算法训练阶段,因此往往计算复杂度不高,但是其分割效果并不能让人满意。在计算机视觉步入深度学习时代之后,语义图像分割也步入了一个全新的发展阶段,其中全卷积网络(FCN)的提出可以说是深度学习在语义图像分割任务上的开创性工作,但全卷积网络也存在一些不足:
(1)在一定程度没有很好的利用上下层之间的信息,造成了信息的丢失;
(2)没有考虑到像素点之间的联系。
发明内容
鉴于上述现有技术的不足,本发明的目的旨在提出一种卷积神经网络的语义图像分割方法,利用了网络上下层的信息,也考虑到了图像像素点之间的联系。
本发明实现上述目的的技术解决方案为:卷积神经网络的语义图像分割方法,其特征在于:通过结合网络架构中部分分层特征融合和全连接的条件随机场处理实现语义图像分割。
进一步地,上述语义图像分割方法包括步骤:
构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型,且模型中每一分层的步长大小,卷积核大小以及输出的特征图个数按规格定制;
对网络架构中浅层与深层的信息进行融合,并将融合后的特征进行上采样至原图分辨率大小;
对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割。
进一步地,所述网络架构模型至少含有顺次排列的五个分层,每个分层由池化层及其相关联的卷积层构成,网络架构模型的输出端接一个对应原图分辨率的上采样层,且最末端分层与上采样层之间设有特征融合单元。
更进一步地,上述特征融合单元的运作方式:第四池化层和第五池化层的输出分别接一个卷积层,转变成通道数为21的输出,然后分别接一个对应第三池化层输出分辨率的上采样层;第三池化层的输出接一个卷积层转变成通道数为21的输出,然后把转变通道数后的各输出特征图通过求和的方式进行特征融合。
进一步地,上述优化分割通过能量公式最小化实现,所述能量公式为:,其中为一元能量项、为二元能量项,仅当两个能量项均最小时得到最优的图像分割。
更进一步地,上述一元能量项表示像素点本身,公式为:,其中是网络架构模型对图片x中的每个像素点输出的概率值,为图片x中第i个像素点所对应的标签,当最大时,一元能量项最小。
更进一步地,上述二元能量项表示像素点之间的关系,公式为:,其中和分别代表像素点和的位置,和代表像素点和点的颜色,与分别代表图片x中第i、j个像素点、所对应的标签,参数和用于限制高斯核的尺度,在不等于的情况下=1,否则=0。
本发明卷积神经网络的语义图像分割方法的提出并应用,较之于传统此类方法具有显著的进步性:本发明方法一者提出了一种新的网络结构,通过不同层的特征融合,充分地利用了网络的各层信息,在一定程度上提高了最终的准确率;再者结合了全连接的CRF,对网络的输出结果进行后处理,很好地处理了各像素点之间的联系,使得图片分割的结果更加精确和平滑。
附图说明
图1为本发明语义图像分割方法构造的网络架构模型的结构图。
图2为网络架构模型各分层的结构说明。
图3为本发明方法在pascalvoc2012数据集下训练的loss曲线示意图。
图4为基于多原图的定性结果比较。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。
本发明设计者潜心于语义图像分割的研究,总结并针对当前已有技术的不足与弊端,创新提出了一种卷积神经网络的语义图像分割方法,通过结合网络架构中部分分层特征融合和全连接的条件随机场处理实现语义图像分割。其概述性步骤包括:一、构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型,且模型中每一分层的步长大小,卷积核大小以及输出的特征图个数按规格定制;二、对网络架构中浅层与深层的信息进行融合,并将融合后的特征进行上采样至原图分辨率大小;三、对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割。
为更直观地理解,结合图示实施例详细阐述如下。从图1可以知道本发明的整体框架分为网络架构模型和全连接的条件随机场两部分。其中网络架构模型可以命名为DCCNet,从其结构来来看,它由卷积层,池化层,反卷积层,损失函数等几部分组成,至少含有顺次排列的五个分层,每个分层由池化层及其相关联的卷积层构成,且每层的参数(步长大小,卷积核大小以及每层输出的特征图个数)都可以从图2中查找。网络架构模型的输出端接一个对应原图分辨率的上采样层,且最末端分层与上采样层之间设有特征融合单元。
结合该特征融合单元的运作方式,该语义图像分割方法的前半部分操作过程为:(1)首先,将第四池化层和第五池化层的输出,接上一个卷积层使其变成通道数为21的输出,然后分别接上一个上采样层,使图片的分辨率大小与池化层3输出的分辨率大小一致;其中上采样层即反卷积层。(2)把第三池化层的输出后接一个卷积层,使他变成通道数为21的输出,以便于后面进行融合,其中21即为数据集中包含的类别数。(3)把第(1)步和第(2)步中输出特征图通过求和的形式进行特征融合,融合后通过一个上采样层使图片输出分辨率大小与原图分辨率大小一致。
而作为本发明方法的后半部分:对最后一个上采样层的输出,采用全连接的条件随机场进行后处理,处理过程如下:
能量公式:
,
当最小时,分割结果最优。
从更细化的公式分析来看,上述一元能量项:
,
其中是DCCNet对图片x中的每个像素点输出的概率值,也就是指该像素点分配为各标签(类别)的概率。当最大时,一元能量项最小。
而二元能量项:
,
其中和分别代表像素点和的位置,和代表像素点和点的颜色,参数和用于限制高斯核的尺度,在不等于的情况下,则=1,否则=0。
对DCCNet的输出,通过全连接的条件随机场进行后处理,可以达到以下目的,(1)两个像素点颜色相似,但位置靠比较远时,分配不同标签。(2)两个像素点位置靠的近,但是颜色不相近,分配不同标签。(3)两个像素点颜色相似,位置靠的近,分配相同标签。对图片中的所有像素点进行同样的操作,就能对图片的整体与局部有一个很好的把握,也同时处理了位置和颜色上的问题,从而使得结果有了进一步提高。
根据图1的网络架构能很好的把握网络的上下层的信息,第三池化层,第四池化层,第五池化层特征的融合,能很好地把握图片的局部与整体特征,而采用全连接的条件随机场进行后处理能很好的处理像素点之间的关系。特征融合和全连接的条件随机场处理结合在一起使得本发明在结果上有了很大的提升。
图3是在pascalvoc2012数据集上训练的loss曲线(本发明所得到的结果都是在pascalvoc2012数据集下进行的),从图中能发现训练从0次迭代到10000次期间loss是下降最快的,从50万降到10万左右,而在接下来的几万次训练中loss下降处于一个缓慢下降的过程,虽然其中有些上下波动,但训练过程的整体趋势loss趋于下降。可知随着训练次数的增加,loss下降越来越缓慢最后趋于收敛,稳定在某个值。从loss曲线可以发现本发明的网络架构设定,网络参数设定都趋于最优,得到训练后的模型是最稳定的。
本发明的模型DCCNet(在pascalVOC2012训练集上进行训练),DCCNet+(在pascalVOC2012训练集加验证集上进行训练)和DCCNet+CRF的MIoU分别为71.4%,73.5% 和75.5%。在很大程度上已经超过了很多先进的模型。下面为mIOU的计算公式:
,其中C数据集中包含的类别(包括背景),即类别为m的像素点分割成类别n的像素点。
图4是本发明模型与其它模型在定性上的比较,为了便于区别各类物体,对图片中的物体采用一些不同的形状进行标记,从图中可以看出DCCNet与DCCNet+CRF相比于FCN,Deeplab的分割结果,前者在边界上分割的比较好,并且DCCNet和DCCNet+CRF校正了FCN与Deeplab中分割成背景的目标物体,如图4中的第四行图片,FCN与Deeplab把行人分割成了背景,而DCCNet与DCCNet+CRF能正确的把行人分割出来。综上,无论从定量还定性的比较,充分展现了本发明在语义图像分割方面的优越性。通过不同层的特征融合,充分地利用了网络的各层信息,在一定程度上提高了最终的准确率;再者结合了全连接的CRF,对网络的输出结果进行后处理,很好地处理了各像素点之间的联系,使得图片分割的结果更加精确和平滑。
以上详细描述了本发明的优选实施方式,但是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内进行修改或者等同变换,均应包含在本发明的保护范围之内。
Claims (7)
1.卷积神经网络的语义图像分割方法,其特征在于:通过结合网络架构中部分分层特征融合和全连接的条件随机场处理实现语义图像分割。
2.根据权利要求1所述卷积神经网络的语义图像分割方法,其特征在于包括步骤:
构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型,且模型中每一分层的步长大小,卷积核大小以及输出的特征图个数按规格定制;
对网络架构中浅层与深层的信息进行融合,并将融合后的特征进行上采样至原图分辨率大小;
对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割。
3.根据权利要求2所述卷积神经网络的语义图像分割方法,其特征在于:所述网络架构模型至少含有顺次排列的五个分层,每个分层由池化层及其相关联的卷积层构成,网络架构模型的输出端接一个对应原图分辨率的上采样层,且最末端分层与上采样层之间设有特征融合单元。
4.根据权利要求3所述卷积神经网络的语义图像分割方法,其特征在于:所述特征融合单元的运作方式:第四池化层和第五池化层的输出分别接一个卷积层,转变成通道数为21的输出,然后分别接一个对应第三池化层输出分辨率的上采样层;第三池化层的输出接一个卷积层转变成通道数为21的输出,然后把转变通道数后的各输出特征图通过求和的方式进行特征融合。
5.根据权利要求2所述卷积神经网络的语义图像分割方法,其特征在于:所述优化分割通过能量公式最小化实现,所述能量公式为:
,其中为一元能量项、为二元能量项,仅当两个能量项均最小时得到最优的图像分割。
6.根据权利要求5所述卷积神经网络的语义图像分割方法,其特征在于:所述一元能量项表示像素点本身,公式为:,其中是网络架构模型对图片x中的每个像素点输出的概率值,为图片x中第i个像素点所对应的标签,当最大时,一元能量项最小。
7.根据权利要求5所述卷积神经网络的语义图像分割方法,其特征在于:所述二元能量项表示像素点之间的关系,公式为:
,其中和分别代表像素点和的位置,和代表像素点和点的颜色,与分别代表图片x中第i、j个像素点、所对应的标签,参数和用于限制高斯核的尺度,在不等于的情况下=1,否则=0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810768753.5A CN109086768B (zh) | 2018-07-13 | 2018-07-13 | 卷积神经网络的语义图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810768753.5A CN109086768B (zh) | 2018-07-13 | 2018-07-13 | 卷积神经网络的语义图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086768A true CN109086768A (zh) | 2018-12-25 |
CN109086768B CN109086768B (zh) | 2021-10-29 |
Family
ID=64837783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810768753.5A Active CN109086768B (zh) | 2018-07-13 | 2018-07-13 | 卷积神经网络的语义图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086768B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840914A (zh) * | 2019-02-28 | 2019-06-04 | 华南理工大学 | 一种基于用户交互式的纹理分割方法 |
CN110298841A (zh) * | 2019-05-17 | 2019-10-01 | 同济大学 | 一种基于融合网络的图像多尺度语义分割方法及装置 |
CN110349167A (zh) * | 2019-07-10 | 2019-10-18 | 北京悉见科技有限公司 | 一种图像实例分割方法及装置 |
CN110378438A (zh) * | 2019-08-07 | 2019-10-25 | 清华大学 | 标签容错下的图像分割模型的训练方法、装置及相关设备 |
CN110516678A (zh) * | 2019-08-27 | 2019-11-29 | 北京百度网讯科技有限公司 | 图像处理方法和装置 |
CN111080592A (zh) * | 2019-12-06 | 2020-04-28 | 广州柏视医疗科技有限公司 | 一种基于深度学习的肋骨提取方法及装置 |
CN113033571A (zh) * | 2021-03-31 | 2021-06-25 | 太原科技大学 | 基于增强特征融合的交通场景图像语义分割方法 |
CN113469181A (zh) * | 2020-03-31 | 2021-10-01 | 北京四维图新科技股份有限公司 | 图像语义分割处理方法、装置及存储介质 |
CN113470048A (zh) * | 2021-07-06 | 2021-10-01 | 北京深睿博联科技有限责任公司 | 场景分割方法、装置、设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740894A (zh) * | 2016-01-28 | 2016-07-06 | 北京航空航天大学 | 一种高光谱遥感图像的语义标注方法 |
US20170011291A1 (en) * | 2015-07-07 | 2017-01-12 | Adobe Systems Incorporated | Finding semantic parts in images |
CN107680090A (zh) * | 2017-10-11 | 2018-02-09 | 电子科技大学 | 基于改进全卷积神经网络的输电线路绝缘子状态识别方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
-
2018
- 2018-07-13 CN CN201810768753.5A patent/CN109086768B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170011291A1 (en) * | 2015-07-07 | 2017-01-12 | Adobe Systems Incorporated | Finding semantic parts in images |
CN105740894A (zh) * | 2016-01-28 | 2016-07-06 | 北京航空航天大学 | 一种高光谱遥感图像的语义标注方法 |
CN107680090A (zh) * | 2017-10-11 | 2018-02-09 | 电子科技大学 | 基于改进全卷积神经网络的输电线路绝缘子状态识别方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840914A (zh) * | 2019-02-28 | 2019-06-04 | 华南理工大学 | 一种基于用户交互式的纹理分割方法 |
CN109840914B (zh) * | 2019-02-28 | 2022-12-16 | 华南理工大学 | 一种基于用户交互式的纹理分割方法 |
CN110298841A (zh) * | 2019-05-17 | 2019-10-01 | 同济大学 | 一种基于融合网络的图像多尺度语义分割方法及装置 |
CN110298841B (zh) * | 2019-05-17 | 2023-05-02 | 同济大学 | 一种基于融合网络的图像多尺度语义分割方法及装置 |
CN110349167A (zh) * | 2019-07-10 | 2019-10-18 | 北京悉见科技有限公司 | 一种图像实例分割方法及装置 |
CN110378438A (zh) * | 2019-08-07 | 2019-10-25 | 清华大学 | 标签容错下的图像分割模型的训练方法、装置及相关设备 |
CN110516678B (zh) * | 2019-08-27 | 2022-05-06 | 北京百度网讯科技有限公司 | 图像处理方法和装置 |
US11514263B2 (en) | 2019-08-27 | 2022-11-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing image |
CN110516678A (zh) * | 2019-08-27 | 2019-11-29 | 北京百度网讯科技有限公司 | 图像处理方法和装置 |
CN111080592A (zh) * | 2019-12-06 | 2020-04-28 | 广州柏视医疗科技有限公司 | 一种基于深度学习的肋骨提取方法及装置 |
CN113469181A (zh) * | 2020-03-31 | 2021-10-01 | 北京四维图新科技股份有限公司 | 图像语义分割处理方法、装置及存储介质 |
CN113469181B (zh) * | 2020-03-31 | 2024-04-05 | 北京四维图新科技股份有限公司 | 图像语义分割处理方法、装置及存储介质 |
CN113033571A (zh) * | 2021-03-31 | 2021-06-25 | 太原科技大学 | 基于增强特征融合的交通场景图像语义分割方法 |
CN113470048A (zh) * | 2021-07-06 | 2021-10-01 | 北京深睿博联科技有限责任公司 | 场景分割方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109086768B (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086768A (zh) | 卷积神经网络的语义图像分割方法 | |
CN108961245A (zh) | 基于双通道深度并行卷积网络的图像质量分类方法 | |
CN109685819B (zh) | 一种基于特征增强的三维医学图像分割方法 | |
CN106548208B (zh) | 一种照片图像快速智能风格化方法 | |
CN110378348A (zh) | 视频实例分割方法、设备及计算机可读存储介质 | |
CN110222722A (zh) | 交互式图像风格化处理方法、系统、计算设备及存储介质 | |
CN109902798A (zh) | 深度神经网络的训练方法和装置 | |
Phan et al. | Color orchestra: Ordering color palettes for interpolation and prediction | |
CN106372648A (zh) | 基于多特征融合卷积神经网络的浮游生物图像分类方法 | |
CN106778852A (zh) | 一种修正误判的图像内容识别方法 | |
CN109902912B (zh) | 一种基于性格特征的个性化图像美学评价方法 | |
CN107993238A (zh) | 一种基于注意力模型的头肩部分图像分割方法及装置 | |
CN107330074A (zh) | 基于深度学习和哈希编码的图像检索方法 | |
CN111009041B (zh) | 一种绘画创作方法、装置、终端设备及可读存储介质 | |
CN109344699A (zh) | 基于分层深度卷积神经网络的冬枣病害识别方法 | |
CN109886153A (zh) | 一种基于深度卷积神经网络的实时人脸检测方法 | |
Shi et al. | A benchmark and baseline for language-driven image editing | |
CN111127309A (zh) | 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置 | |
CN111046976A (zh) | 一种基于深度学习的虚拟美甲试戴方法 | |
CN110298841A (zh) | 一种基于融合网络的图像多尺度语义分割方法及装置 | |
CN109523558A (zh) | 一种人像分割方法及系统 | |
CN107506362A (zh) | 基于用户群优化的图像分类仿脑存储方法 | |
CN114758180A (zh) | 一种基于知识蒸馏的轻量化花卉识别方法 | |
CN113838158B (zh) | 一种图像和视频的重构方法、装置、终端设备及存储介质 | |
US20240169501A1 (en) | Dilating object masks to reduce artifacts during inpainting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |