CN108596240B - 一种基于判别特征网络的图像语义分割方法 - Google Patents
一种基于判别特征网络的图像语义分割方法 Download PDFInfo
- Publication number
- CN108596240B CN108596240B CN201810357683.4A CN201810357683A CN108596240B CN 108596240 B CN108596240 B CN 108596240B CN 201810357683 A CN201810357683 A CN 201810357683A CN 108596240 B CN108596240 B CN 108596240B
- Authority
- CN
- China
- Prior art keywords
- network
- training
- picture
- semantic segmentation
- networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Abstract
本发明公开了一种基于判别特征网络的图像语义分割方法,属于模式识别技术领域。本发明首先将样本集随机分成训练集合,对每个训练集合中的数据进行数据扩增;之后以全卷积网络为基础,分别构建两个子网络:平滑网络和边界网络,并将两个子网络组合成判别特征网络;再将训练集合中的数据输入判别特征网络,并采用正向传播算法和后向传播算法训练网络参数;之后利用交叉熵函数分别计算两个子网络的损失,采用随机梯度下降算法最小化损失函数;最后利用训练后的判别特征网络对待测图片进行分析,预测图像中每个像素所属的类别,形成图像语义分割图输出。本发明方法提出了一种判别特征网络用于,解决了类内不一致和类间差别小的问题。
Description
技术领域
本发明属于模式识别技术领域,更具体地,涉及一种基于判别特征网络的图像语义分割方法。
背景技术
图像语义分割是计算机视觉中的基石问题之一,可广泛地应用于场景理解、自动驾驶、可穿戴设备等场景中。所谓图像语义分割,是指对图像中每个像素赋予一个语义标签,即识别出每个像素所属类别,以此同时也能分割出不同物体。最近,随着卷积神经网络的发展,尤其是全卷积网络(FCN)的提出,许多算法都取得了不错的结果。但是,由全卷积网络学习而得的特征仍然存在两种区域难易判别:
(1)类内不一致性区域:某些区域本应该属于相同的语义标签,但是因为表观差异较大从而导致被分配了不一样的语义标签;
(2)类间低区分性区域:某些区域本应该属于不同的语义标签,但是因为表观特征相似从而被分配了相同的语义标签。
所以,如何有效地解决这两个问题是提高算法性能关键。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于判别特征网络的图像语义分割方法,其目的在于提出一种判别特征网络,给每个类别分配一致的语义标签,而不是单独考虑每个像素,把同一类事物视作一个整体,同时考虑类内一致性和类间区分性,它包括平滑网络和边界网络来分别处理类内和类间问题,由此解决类内不一致性和类间低区分性的技术问题。
为实现上述目的,本发明提供了一种基于判别特征网络的图像语义分割方法,所述方法具体包括以下步骤:
(1)以全卷积网络为基础,分别构建两个子网络:平滑网络和边界网络,并将两个子网络组合成判别特征网络;
(2)将样本集随机分成训练集合,对每个训练集合中的数据进行数据扩增;
(3)将训练集合中的数据输入判别特征网络,并采用正向传播算法和后向传播算法训练网络参数;
(4)利用交叉熵函数分别计算两个子网络的损失,采用随机梯度下降算法最小化损失函数,判别特征网络的损失如下:
其中,ls表示平滑网络的损失,lb表示边界网络的损失,λ表示权重参数;
(5)重复步骤(2)-(5),直到当前迭代次数达到迭代次数上限,完成判别特征网络的训练;
(6)利用训练后的判别特征网络对待测图片进行分析,预测图像中每个像素所属的类别,形成图像语义分割图输出。
进一步地,所述步骤(1)中平滑网络由四个stage构成,每个stage对应基础全卷积特征网络的每个stage,每个stage均会通过优化残差模块优化特征并将通道数统一到512,之后再通过通道注意力模块自上而下逐stage连接。
进一步地,所述步骤(1)中边界网络由四个stage构成,边界网络stage之间的连接顺序与平滑网络相反,每个优化残差模块包括一系列串联的卷积层和跨层连接,而每个通道注意力模块结合相邻stage的特征,通过卷积操作和Sigmoid函数计算权重。
进一步地,所述方法步骤(2)中将样本集随机分成训练集合具体为:
将样本集中RGB图片和对应Groundtruth配对,然后随机分成训练集合;所述Groundtruth由RGB图片中每个像素点的类别值构成,尺寸和原图等大。
进一步地,所述方法步骤(2)中对每个训练集合中的数据进行数据扩增具体包括对数据进行随机裁剪、减去图像均值和随机放缩。
进一步地,所述步骤(3)中还包括:利用Softmax函数归一化输出网络的概率,K是输出的通道数,输出图像每个位置的概率如下:
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下技术特征及有益效果:
(1)本发明从宏观的角度重新思考了图像语义分割这个问题,不同于以前的算法从像素的角度出发,我们从类别的角度出发,将这个任务现存的难点归纳为:类内不一致和类间差别小的问题。针对难点本发明提出了一种判别特征网络解决图像语义分割问题,判别特征网络包括平滑网络和边界网络来分别处理类内和类间问题,它提取出更具有判别力的特征,既使得类内更加一致,又增大了类间的差异,从而提升了分割的性能;
(2)平滑网络结合多尺度上下文信息和全局上下文信息,并利用通道注意力模块对特征进行挑选,从而解决类内不一致问题;该网络能利用多层监督信号,有效地逐层优化特征保证提取的特征更具判别力,从而能更好地保证类内一致;其中的通道注意力模块利用上下层特征计算通道间的权重进而对不同特征进行加权从而筛选出我们需要的更具有判别力的特征;
(3)边界网络基于自下而上的结构和多层监督信号来提取出图像中的语义边界,从而解决类间差别小的问题;该网络结合多层的边界信息来提取出需要的语义边界;在此过程中,语义边界两侧的特征差距会被逐渐拉大,进而使得这些特征更具有判别力,从而解决了类间差别小的问题。
附图说明
图1是本发明方法判别特征网络分割算法总流程图;
图2是类内不一致和类间差异小的困难区域说明示意图;
图3是本发明方法实施例的结构示意图;
图4是本发明方法实施例的优化流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先对本发明用到的术语进行解释和说明:
全卷积网络(Fully Convolutional Network):将普通的分类网络最后的全连接层去掉,替换为卷积层,则构成了全卷积网络。
Groundtruth:在图像语义分割中,对图像上每个像素点标注上对应的类别,从而形成的具有语义类别标签的图像。groundtruth与原图尺寸上等大,groundtruth上的值由原图中所含类别值构成。
batch:在图像语义分割的深度卷积神经网络系统中,我们往往采用随机梯度下降来更新网络,每一个batch中的图像被计算损失后就进行后向传播更新梯度,完成网络迭代过程,每个batch中的图像往往是从总的数据集中随机选取固定数量。在图像语义分割网络中,每个batch往往由图像和对应的groundtruth构成。
类内不一致区域:某些区域本应该属于相同的语义标签,但是因为表观差异较大从而导致被分配了不一样的语义标签。
类间低区分性区域:某些区域本应该属于不同的语义标签,但是因为表观特征相似从而被分配了相同的语义标签。
如图1所示,为本发明图像语义分割算法的总流程图,本发明方法具体包括以下步骤:
(1)以全卷积网络为基础,分别构建两个子网络:平滑网络(Smooth Network)和边界网络(Border Network),并将其组合成为完整的判别特征网络(DiscriminativeFeature Network):
其中平滑网络由四个阶段(stage)构成,每个stage对应基础全卷积特征网络的每个stage,每个stage均会通过优化残差模块(Refinement Residual Block)优化特征并将通道数统一到512,之后再通过通道注意力模块(Channel Attention Block)自上而下逐stage连接;
而边界网络同样是由四个stage构成。与平滑网络不同的是,边界网络stage之间的连接顺序与平滑网络相反。每个优化残差模块包括一系列串联的卷积层和跨层连接。而每个通道注意力模块结合相邻stage的特征,通过卷积操作和Sigmoid函数计算权重;
(2)将样本集中的RGB图片和Groundtruth配对然后随机分成训练集合(batch);
(3)对每个batch的数据进行数据扩增,包括步骤:随机裁剪,减去图像均值,随机放缩;
(4)将训练数据输入网络,并采用正向传播算法和后向传播算法训练网络参数;利用Softmax函数归一化输出网络的概率,K是输出的通道数,输出图像每个位置的概率如下:
(5)利用交叉熵函数分别计算两个子网络的损失,采用随机梯度下降算法最小化损失函数,最后的损失如下:
其中,ls表示平滑网络的损失,lb表示边界网络的损失,λ表示权重参数;
(6)重复步骤(2)-(5),直到当前迭代次数达到迭代次数上限,完成深度卷积神经网络的训练。利用训练好的网络,预测测试图像中每个像素所属的类别。
如图2所示,图2(a)-图2(c)为采用全卷积网络(FCN)对图中牛进行语义分割,可以发现牛身上不同颜色的花纹本应该属于相同的语义标签,但是因为表观差异较大从而导致被分配了不一样的语义标签;
图2(d)-图2(e)为采用全卷积网络(FCN)对图中显示器进行语义分割,可以发现显示器和机箱本应该属于不同的语义标签,但是因为表观特征相似从而被分配了相同的语义标签。
如图3所示,图3(a)是算法系统的整体结构图,RGB图片分别经过平滑网络和边界网络,再输出最终的预测结果。其中,图3(c)为平滑网络利用通道注意力模块(ChannelAttention Block),图3(b)为残差优化模块(Residual Refinement Block),用来筛选更具有判别力的特征;边界网络利用显式的边界监督信号和自下而上的结构,来扩大类间特征的的距离,从而增强特征判别力。
如图4所示,平滑网络自上而下地优化每个阶段的输出,输出结果越来越精细,类内预测越来越一致。边界网络自下而上地优化每个阶段的输出,低层输出具有太多无效的边界信息,高层输出更具有更多语义,多次迭代之后,最后输出较好的语义边界从而提取出更具判别力的特征。同时由于多层监督信号的存在,整个训练过程更易收敛,更易优化。
以上内容本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于判别特征网络的图像语义分割方法,其特征在于,所述方法具体包括:
(1)以全卷积网络为基础,分别构建两个子网络:平滑网络和边界网络,并将两个子网络组合成判别特征网络;
(2)将样本集随机分成训练集合,对每个训练集合中的数据进行数据扩增;
(3)将训练集合中的数据输入判别特征网络,并采用正向传播算法和后向传播算法训练网络参数;
(4)利用交叉熵函数分别计算两个子网络的损失,采用随机梯度下降算法最小化损失函数,判别特征网络的损失如下:
其中,ls表示平滑网络的损失,lb表示边界网络的损失,λ表示权重参数;
(5)重复步骤(2)-(5),直到当前迭代次数达到迭代次数上限,完成判别特征网络的训练;
(6)利用训练后的判别特征网络对待测图片进行分析,预测图像中每个像素所属的类别,形成图像语义分割图输出;
所述步骤(1)中平滑网络由四个stage构成,每个stage对应基础全卷积特征网络的每个stage,每个stage均会通过优化残差模块优化特征并将通道数统一到512,之后再通过通道注意力模块自上而下逐stage连接;
所述步骤(1)中边界网络由四个stage构成,边界网络stage之间的连接顺序与平滑网络相反,每个优化残差模块包括一系列串联的卷积层和跨层连接,而每个通道注意力模块结合相邻stage的特征,通过卷积操作和Sigmoid函数计算权重。
2.根据权利要求1所述的一种基于判别特征网络的图像语义分割方法,其特征在于,所述方法步骤(2)中将样本集随机分成训练集合具体为:
将样本集中RGB图片和对应Groundtruth配对,然后随机分成训练集合;所述Groundtruth由RGB图片中每个像素点的类别值构成,尺寸和原图等大。
3.根据权利要求1或2所述的一种基于判别特征网络的图像语义分割方法,其特征在于,所述方法步骤(2)中对每个训练集合中的数据进行数据扩增具体包括对数据进行随机裁剪、减去图像均值和随机放缩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810357683.4A CN108596240B (zh) | 2018-04-20 | 2018-04-20 | 一种基于判别特征网络的图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810357683.4A CN108596240B (zh) | 2018-04-20 | 2018-04-20 | 一种基于判别特征网络的图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108596240A CN108596240A (zh) | 2018-09-28 |
CN108596240B true CN108596240B (zh) | 2020-05-19 |
Family
ID=63613636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810357683.4A Expired - Fee Related CN108596240B (zh) | 2018-04-20 | 2018-04-20 | 一种基于判别特征网络的图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596240B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934219B (zh) * | 2019-01-23 | 2021-04-13 | 成都数之联科技有限公司 | 一种判断网络餐饮商家证照缺失的方法 |
CN110378911B (zh) * | 2019-07-11 | 2022-06-21 | 太原科技大学 | 基于候选区域和邻域分类器的弱监督图像语义分割方法 |
CN111062951B (zh) * | 2019-12-11 | 2022-03-25 | 华中科技大学 | 一种基于语义分割类内特征差异性的知识蒸馏方法 |
CN111723813B (zh) * | 2020-06-05 | 2021-07-06 | 中国科学院自动化研究所 | 基于类内判别器的弱监督图像语义分割方法、系统、装置 |
CN112508025B (zh) * | 2020-11-11 | 2023-08-22 | 中山大学 | 一种基于gan的带雾图像语义分割方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709568A (zh) * | 2016-12-16 | 2017-05-24 | 北京工业大学 | 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法 |
-
2018
- 2018-04-20 CN CN201810357683.4A patent/CN108596240B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709568A (zh) * | 2016-12-16 | 2017-05-24 | 北京工业大学 | 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法 |
Non-Patent Citations (2)
Title |
---|
Discriminative Feature Learning for Video Semantic Segmentation;Han Zhang等;《 2014 International Conference on Virtual Reality and Visualization》;20140830;322-326 * |
Fully Convolutional Networks for Semantic Segmentation;Jonathan Long等;《 2015 IEEE Conference on Computer Vision and Pattern Recognition》;20150607;3431-3440 * |
Also Published As
Publication number | Publication date |
---|---|
CN108596240A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596240B (zh) | 一种基于判别特征网络的图像语义分割方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN106157319B (zh) | 基于卷积神经网络的区域和像素级融合的显著性检测方法 | |
CN110210539B (zh) | 多级深度特征融合的rgb-t图像显著性目标检测方法 | |
CN109583340B (zh) | 一种基于深度学习的视频目标检测方法 | |
Dornaika et al. | Building detection from orthophotos using a machine learning approach: An empirical study on image segmentation and descriptors | |
WO2018052586A1 (en) | Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks | |
CN112990211B (zh) | 一种神经网络的训练方法、图像处理方法以及装置 | |
CN106446015A (zh) | 一种基于用户行为偏好的视频内容访问预测与推荐方法 | |
CN110826596A (zh) | 一种基于多尺度可变形卷积的语义分割方法 | |
CN110796026A (zh) | 一种基于全局特征拼接的行人重识别方法 | |
CN109002755B (zh) | 基于人脸图像的年龄估计模型构建方法及估计方法 | |
CN106257496B (zh) | 海量网络文本与非文本图像分类方法 | |
CN111639564A (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN111401380A (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
CN113628201A (zh) | 基于深度学习的病理切片分析方法、电子设备及可读存储介质 | |
Li et al. | Coarse-to-fine salient object detection based on deep convolutional neural networks | |
CN114693624A (zh) | 一种图像检测方法、装置、设备及可读存储介质 | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
CN112528788B (zh) | 一种基于域不变特征和时空特征的重识别方法 | |
Chacon-Murguia et al. | Moving object detection in video sequences based on a two-frame temporal information CNN | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
CN115100509B (zh) | 基于多分支块级注意力增强网络的图像识别方法及系统 | |
CN116434010A (zh) | 一种多视图的行人属性识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200519 Termination date: 20210420 |