CN108596240A - 一种基于判别特征网络的图像语义分割方法 - Google Patents

一种基于判别特征网络的图像语义分割方法 Download PDF

Info

Publication number
CN108596240A
CN108596240A CN201810357683.4A CN201810357683A CN108596240A CN 108596240 A CN108596240 A CN 108596240A CN 201810357683 A CN201810357683 A CN 201810357683A CN 108596240 A CN108596240 A CN 108596240A
Authority
CN
China
Prior art keywords
network
image
character network
stage
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810357683.4A
Other languages
English (en)
Other versions
CN108596240B (zh
Inventor
桑农
余昌黔
高常鑫
俞刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201810357683.4A priority Critical patent/CN108596240B/zh
Publication of CN108596240A publication Critical patent/CN108596240A/zh
Application granted granted Critical
Publication of CN108596240B publication Critical patent/CN108596240B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于判别特征网络的图像语义分割方法,属于模式识别技术领域。本发明首先将样本集随机分成训练集合,对每个训练集合中的数据进行数据扩增;之后以全卷积网络为基础,分别构建两个子网络:平滑网络和边界网络,并将两个子网络组合成判别特征网络;再将训练集合中的数据输入判别特征网络,并采用正向传播算法和后向传播算法训练网络参数;之后利用交叉熵函数分别计算两个子网络的损失,采用随机梯度下降算法最小化损失函数;最后利用训练后的判别特征网络对待测图片进行分析,预测图像中每个像素所属的类别,形成图像语义分割图输出。本发明方法提出了一种判别特征网络用于,解决了类内不一致和类间差别小的问题。

Description

一种基于判别特征网络的图像语义分割方法
技术领域
本发明属于模式识别技术领域,更具体地,涉及一种基于判别特征网络的图像语义分割方法。
背景技术
图像语义分割是计算机视觉中的基石问题之一,可广泛地应用于场景理解、自动驾驶、可穿戴设备等场景中。所谓图像语义分割,是指对图像中每个像素赋予一个语义标签,即识别出每个像素所属类别,以此同时也能分割出不同物体。最近,随着卷积神经网络的发展,尤其是全卷积网络(FCN)的提出,许多算法都取得了不错的结果。但是,由全卷积网络学习而得的特征仍然存在两种区域难易判别:
(1)类内不一致性区域:某些区域本应该属于相同的语义标签,但是因为表观差异较大从而导致被分配了不一样的语义标签;
(2)类间低区分性区域:某些区域本应该属于不同的语义标签,但是因为表观特征相似从而被分配了相同的语义标签。
所以,如何有效地解决这两个问题是提高算法性能关键。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于判别特征网络的图像语义分割方法,其目的在于提出一种判别特征网络,给每个类别分配一致的语义标签,而不是单独考虑每个像素,把同一类事物视作一个整体,同时考虑类内一致性和类间区分性,它包括平滑网络和边界网络来分别处理类内和类间问题,由此解决类内不一致性和类间低区分性的技术问题。
为实现上述目的,本发明提供了一种基于判别特征网络的图像语义分割方法,所述方法具体包括以下步骤:
(1)以全卷积网络为基础,分别构建两个子网络:平滑网络和边界网络,并将两个子网络组合成判别特征网络;
(2)将样本集随机分成训练集合,对每个训练集合中的数据进行数据扩增;
(3)将训练集合中的数据输入判别特征网络,并采用正向传播算法和后向传播算法训练网络参数;
(4)利用交叉熵函数分别计算两个子网络的损失,采用随机梯度下降算法最小化损失函数,判别特征网络的损失如下:
其中,ls表示平滑网络的损失,lb表示边界网络的损失,λ表示权重参数;
(5)重复步骤(2)-(5),直到当前迭代次数达到迭代次数上限,完成判别特征网络的训练;
(6)利用训练后的判别特征网络对待测图片进行分析,预测图像中每个像素所属的类别,形成图像语义分割图输出。
进一步地,所述步骤(1)中平滑网络由四个stage构成,每个stage对应基础全卷积特征网络的每个stage,每个stage均会通过优化残差模块优化特征并将通道数统一到512,之后再通过通道注意力模块自上而下逐stage连接。
进一步地,所述步骤(1)中边界网络由四个stage构成,边界网络stage之间的连接顺序与平滑网络相反,每个优化残差模块包括一系列串联的卷积层和跨层连接,而每个通道注意力模块结合相邻stage的特征,通过卷积操作和Sigmoid函数计算权重。
进一步地,所述方法步骤(2)中将样本集随机分成训练集合具体为:
将样本集中RGB图片和对应Groundtruth配对,然后随机分成训练集合;所述Groundtruth由RGB图片中每个像素点的类别值构成,尺寸和原图等大。
进一步地,所述方法步骤(2)中对每个训练集合中的数据进行数据扩增具体包括对数据进行随机裁剪、减去图像均值和随机放缩。
进一步地,所述步骤(3)中还包括:利用Softmax函数归一化输出网络的概率,K是输出的通道数,输出图像每个位置的概率如下:
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下技术特征及有益效果:
(1)本发明从宏观的角度重新思考了图像语义分割这个问题,不同于以前的算法从像素的角度出发,我们从类别的角度出发,将这个任务现存的难点归纳为:类内不一致和类间差别小的问题。针对难点本发明提出了一种判别特征网络解决图像语义分割问题,判别特征网络包括平滑网络和边界网络来分别处理类内和类间问题,它提取出更具有判别力的特征,既使得类内更加一致,又增大了类间的差异,从而提升了分割的性能;
(2)平滑网络结合多尺度上下文信息和全局上下文信息,并利用通道注意力模块对特征进行挑选,从而解决类内不一致问题;该网络能利用多层监督信号,有效地逐层优化特征保证提取的特征更具判别力,从而能更好地保证类内一致;其中的通道注意力模块利用上下层特征计算通道间的权重进而对不同特征进行加权从而筛选出我们需要的更具有判别力的特征;
(3)边界网络基于自下而上的结构和多层监督信号来提取出图像中的语义边界,从而解决类间差别小的问题;该网络结合多层的边界信息来提取出需要的语义边界;在此过程中,语义边界两侧的特征差距会被逐渐拉大,进而使得这些特征更具有判别力,从而解决了类间差别小的问题。
附图说明
图1是本发明方法判别特征网络分割算法总流程图;
图2是类内不一致和类间差异小的困难区域说明示意图;
图3是本发明方法实施例的结构示意图;
图4是本发明方法实施例的优化流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先对本发明用到的术语进行解释和说明:
全卷积网络(Fully Convolutional Network):将普通的分类网络最后的全连接层去掉,替换为卷积层,则构成了全卷积网络。
Groundtruth:在图像语义分割中,对图像上每个像素点标注上对应的类别,从而形成的具有语义类别标签的图像。groundtruth与原图尺寸上等大,groundtruth上的值由原图中所含类别值构成。
batch:在图像语义分割的深度卷积神经网络系统中,我们往往采用随机梯度下降来更新网络,每一个batch中的图像被计算损失后就进行后向传播更新梯度,完成网络迭代过程,每个batch中的图像往往是从总的数据集中随机选取固定数量。在图像语义分割网络中,每个batch往往由图像和对应的groundtruth构成。
类内不一致区域:某些区域本应该属于相同的语义标签,但是因为表观差异较大从而导致被分配了不一样的语义标签。
类间低区分性区域:某些区域本应该属于不同的语义标签,但是因为表观特征相似从而被分配了相同的语义标签。
如图1所示,为本发明图像语义分割算法的总流程图,本发明方法具体包括以下步骤:
(1)以全卷积网络为基础,分别构建两个子网络:平滑网络(Smooth Network)和边界网络(Border Network),并将其组合成为完整的判别特征网络(DiscriminativeFeature Network):
其中平滑网络由四个阶段(stage)构成,每个stage对应基础全卷积特征网络的每个stage,每个stage均会通过优化残差模块(Refinement Residual Block)优化特征并将通道数统一到512,之后再通过通道注意力模块(Channel Attention Block)自上而下逐stage连接;
而边界网络同样是由四个stage构成。与平滑网络不同的是,边界网络stage之间的连接顺序与平滑网络相反。每个优化残差模块包括一系列串联的卷积层和跨层连接。而每个通道注意力模块结合相邻stage的特征,通过卷积操作和Sigmoid函数计算权重;
(2)将样本集中的RGB图片和Groundtruth配对然后随机分成训练集合(batch);
(3)对每个batch的数据进行数据扩增,包括步骤:随机裁剪,减去图像均值,随机放缩;
(4)将训练数据输入网络,并采用正向传播算法和后向传播算法训练网络参数;利用Softmax函数归一化输出网络的概率,K是输出的通道数,输出图像每个位置的概率如下:
(5)利用交叉熵函数分别计算两个子网络的损失,采用随机梯度下降算法最小化损失函数,最后的损失如下:
其中,ls表示平滑网络的损失,lb表示边界网络的损失,λ表示权重参数;
(6)重复步骤(2)-(5),直到当前迭代次数达到迭代次数上限,完成深度卷积神经网络的训练。利用训练好的网络,预测测试图像中每个像素所属的类别。
如图2所示,图2(a)-图2(c)为采用全卷积网络(FCN)对图中牛进行语义分割,可以发现牛身上不同颜色的花纹本应该属于相同的语义标签,但是因为表观差异较大从而导致被分配了不一样的语义标签;
图2(d)-图2(e)为采用全卷积网络(FCN)对图中显示器进行语义分割,可以发现显示器和机箱本应该属于不同的语义标签,但是因为表观特征相似从而被分配了相同的语义标签。
如图3所示,图3(a)是算法系统的整体结构图,RGB图片分别经过平滑网络和边界网络,再输出最终的预测结果。其中,图3(c)为平滑网络利用通道注意力模块(ChannelAttention Block),图3(b)为残差优化模块(Residual Refinement Block),用来筛选更具有判别力的特征;边界网络利用显式的边界监督信号和自下而上的结构,来扩大类间特征的的距离,从而增强特征判别力。
如图4所示,平滑网络自上而下地优化每个阶段的输出,输出结果越来越精细,类内预测越来越一致。边界网络自下而上地优化每个阶段的输出,低层输出具有太多无效的边界信息,高层输出更具有更多语义,多次迭代之后,最后输出较好的语义边界从而提取出更具判别力的特征。同时由于多层监督信号的存在,整个训练过程更易收敛,更易优化。
以上内容本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于判别特征网络的图像语义分割方法,其特征在于,所述方法具体包括:
(1)以全卷积网络为基础,分别构建两个子网络:平滑网络和边界网络,并将两个子网络组合成判别特征网络;
(2)将样本集随机分成训练集合,对每个训练集合中的数据进行数据扩增;
(3)将训练集合中的数据输入判别特征网络,并采用正向传播算法和后向传播算法训练网络参数;
(4)利用交叉熵函数分别计算两个子网络的损失,采用随机梯度下降算法最小化损失函数,判别特征网络的损失如下:
其中,ls表示平滑网络的损失,lb表示边界网络的损失,λ表示权重参数;
(5)重复步骤(2)-(5),直到当前迭代次数达到迭代次数上限,完成判别特征网络的训练;
(6)利用训练后的判别特征网络对待测图片进行分析,预测图像中每个像素所属的类别,形成图像语义分割图输出。
2.根据权利要求1所述的一种基于判别特征网络的图像语义分割方法,其特征在于,所述步骤(1)中平滑网络由四个stage构成,每个stage对应基础全卷积特征网络的每个stage,每个stage均会通过优化残差模块优化特征并将通道数统一到512,之后再通过通道注意力模块自上而下逐stage连接。
3.根据权利要求1或2所述的一种基于判别特征网络的图像语义分割方法,其特征在于,所述步骤(1)中边界网络由四个stage构成,边界网络stage之间的连接顺序与平滑网络相反,每个优化残差模块包括一系列串联的卷积层和跨层连接,而每个通道注意力模块结合相邻stage的特征,通过卷积操作和Sigmoid函数计算权重。
4.根据权利要求1所述的一种基于判别特征网络的图像语义分割方法,其特征在于,所述方法步骤(2)中将样本集随机分成训练集合具体为:
将样本集中RGB图片和对应Groundtruth配对,然后随机分成训练集合;所述Groundtruth由RGB图片中每个像素点的类别值构成,尺寸和原图等大。
5.根据权利要求1或4所述的一种基于判别特征网络的图像语义分割方法,其特征在于,所述方法步骤(2)中对每个训练集合中的数据进行数据扩增具体包括对数据进行随机裁剪、减去图像均值和随机放缩。
6.根据权利要求1、3或5所述的一种基于判别特征网络的图像语义分割方法,其特征在于,所述步骤(3)中还包括:利用Softmax函数归一化输出网络的概率,K是输出的通道数,输出图像每个位置的概率如下:
CN201810357683.4A 2018-04-20 2018-04-20 一种基于判别特征网络的图像语义分割方法 Expired - Fee Related CN108596240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810357683.4A CN108596240B (zh) 2018-04-20 2018-04-20 一种基于判别特征网络的图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810357683.4A CN108596240B (zh) 2018-04-20 2018-04-20 一种基于判别特征网络的图像语义分割方法

Publications (2)

Publication Number Publication Date
CN108596240A true CN108596240A (zh) 2018-09-28
CN108596240B CN108596240B (zh) 2020-05-19

Family

ID=63613636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810357683.4A Expired - Fee Related CN108596240B (zh) 2018-04-20 2018-04-20 一种基于判别特征网络的图像语义分割方法

Country Status (1)

Country Link
CN (1) CN108596240B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934219A (zh) * 2019-01-23 2019-06-25 成都数之联科技有限公司 一种判断网络餐饮商家证照缺失的方法
CN110378911A (zh) * 2019-07-11 2019-10-25 太原科技大学 基于候选区域和邻域分类器的弱监督图像语义分割方法
CN111062951A (zh) * 2019-12-11 2020-04-24 华中科技大学 一种基于语义分割类内特征差异性的知识蒸馏方法
CN111723813A (zh) * 2020-06-05 2020-09-29 中国科学院自动化研究所 基于类内判别器的弱监督图像语义分割方法、系统、装置
CN112508025A (zh) * 2020-11-11 2021-03-16 中山大学 一种基于gan的带雾图像语义分割方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAN ZHANG等: "Discriminative Feature Learning for Video Semantic Segmentation", 《 2014 INTERNATIONAL CONFERENCE ON VIRTUAL REALITY AND VISUALIZATION》 *
JONATHAN LONG等: "Fully Convolutional Networks for Semantic Segmentation", 《 2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934219A (zh) * 2019-01-23 2019-06-25 成都数之联科技有限公司 一种判断网络餐饮商家证照缺失的方法
CN109934219B (zh) * 2019-01-23 2021-04-13 成都数之联科技有限公司 一种判断网络餐饮商家证照缺失的方法
CN110378911A (zh) * 2019-07-11 2019-10-25 太原科技大学 基于候选区域和邻域分类器的弱监督图像语义分割方法
CN110378911B (zh) * 2019-07-11 2022-06-21 太原科技大学 基于候选区域和邻域分类器的弱监督图像语义分割方法
CN111062951A (zh) * 2019-12-11 2020-04-24 华中科技大学 一种基于语义分割类内特征差异性的知识蒸馏方法
CN111062951B (zh) * 2019-12-11 2022-03-25 华中科技大学 一种基于语义分割类内特征差异性的知识蒸馏方法
CN111723813A (zh) * 2020-06-05 2020-09-29 中国科学院自动化研究所 基于类内判别器的弱监督图像语义分割方法、系统、装置
CN111723813B (zh) * 2020-06-05 2021-07-06 中国科学院自动化研究所 基于类内判别器的弱监督图像语义分割方法、系统、装置
US11887354B2 (en) 2020-06-05 2024-01-30 Institute Of Automation, Chinese Academy Of Sciences Weakly supervised image semantic segmentation method, system and apparatus based on intra-class discriminator
CN112508025A (zh) * 2020-11-11 2021-03-16 中山大学 一种基于gan的带雾图像语义分割方法
CN112508025B (zh) * 2020-11-11 2023-08-22 中山大学 一种基于gan的带雾图像语义分割方法

Also Published As

Publication number Publication date
CN108596240B (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN108596240A (zh) 一种基于判别特征网络的图像语义分割方法
CN109815886B (zh) 一种基于改进YOLOv3的行人和车辆检测方法及系统
CN108734719A (zh) 一种基于全卷积神经网络的鳞翅目昆虫图像前背景自动分割方法
CN107392925B (zh) 基于超像素编码和卷积神经网络的遥感影像地物分类方法
CN109583425A (zh) 一种基于深度学习的遥感图像船只集成识别方法
CN109583340A (zh) 一种基于深度学习的视频目标检测方法
CN109961049A (zh) 一种复杂场景下香烟品牌识别方法
CN108537239B (zh) 一种图像显著性目标检测的方法
CN106157319A (zh) 基于卷积神经网络的区域和像素级融合的显著性检测方法
CN106650690A (zh) 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法
CN109558806A (zh) 高分遥感图像变化的检测方法和系统
CN105096259A (zh) 深度图像的深度值恢复方法和系统
CN109583345A (zh) 道路识别方法、装置、计算机装置及计算机可读存储介质
CN107358176A (zh) 基于高分遥感影像区域信息和卷积神经网络的分类方法
CN108564588B (zh) 一种基于深度特征和图割法的建成区自动提取方法
CN107066916A (zh) 基于反卷积神经网络的场景语义分割方法
CN108304786A (zh) 一种基于二值化卷积神经网络的行人检测方法
CN103258332A (zh) 一种抗光照变化的运动目标检测方法
CN110390314A (zh) 一种视觉感知方法及设备
CN114820579A (zh) 一种基于语义分割的图像复合缺陷的检测方法及系统
CN106373096A (zh) 一种多特征权值自适应的阴影消除方法
CN107944403A (zh) 一种图像中的行人属性检测方法及装置
CN107392254A (zh) 一种通过联合嵌入从像素中构造图像的语义分割方法
CN108829711A (zh) 一种基于多特征融合的图像检索方法
CN113505670A (zh) 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200519

Termination date: 20210420

CF01 Termination of patent right due to non-payment of annual fee