CN112241965A - 基于深度学习进行超像素生成和图像分割的方法 - Google Patents

基于深度学习进行超像素生成和图像分割的方法 Download PDF

Info

Publication number
CN112241965A
CN112241965A CN202011011878.7A CN202011011878A CN112241965A CN 112241965 A CN112241965 A CN 112241965A CN 202011011878 A CN202011011878 A CN 202011011878A CN 112241965 A CN112241965 A CN 112241965A
Authority
CN
China
Prior art keywords
superpixels
superpixel
pixel
clustering
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011011878.7A
Other languages
English (en)
Inventor
李亮
王凯
李亚军
彭俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011011878.7A priority Critical patent/CN112241965A/zh
Publication of CN112241965A publication Critical patent/CN112241965A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理、深度学习技术领域,为提出一种通过深度学习可以同时产生超像素和图像分割的端到端的方法,将彩色图片通过特征提取、特征聚类、池化、合并操作,从而实现多任务学习,得到超像素和图像分割结果,本发是,基于深度学习进行超像素生成和图像分割的方法,步骤如下:步骤1:特征提取:步骤2:超像素生成:超像素使用聚类算法模块来完成,可微的聚类算法分为两步:计算像素‑超像素关联、更新超像素聚类中心,通过聚类迭代,得到超像素;步骤3:相似度学习:步骤4:超像素合并:最终得到分割好的图像。本发明主要应用于图像处理场合。

Description

基于深度学习进行超像素生成和图像分割的方法
技术领域
本发明属于图像处理、深度学习技术领域,涉及使用深度学习进行超像素生成和图像分割的方法。
背景技术
图像分割旨在将图像划分为大的感知区域,其中每个区域内的像素通常属于具有微小特征差异的相同视觉对象。图像分割是计算机视觉中对象识别和分类的关键步骤。尽管已经提出了大量用于图像分割的算法,但是图像分割仍然是最具挑战性的研究课题之一。随着深度学习的发展,越来越多的方法利用深度学习网络来进行特征学习,高效精确的实现图像分割。
2003年,Ren等人最早提出了超像素这一概念。所谓超像素是指具有相似纹理,颜色,亮度等特征的相邻像素构成的图像块。与图像分割产生的大感知区域不同,超像素将图像分割成小的,规则的和紧凑的区域。它根据像素之间特征相似度将像素分组,在很大程度上降低了后续图像处理任务的复杂度。
近年来超像素在图像分割领域应用更加广泛。虽然很多先进的计算机视觉的算法已经被用于图像分割和超像素生成方面,但是没有端到端实现同时产生超像素和图像分割的算法。因此,如何利用深度学习端到端实现多任务学习,同时产生超像素和图像分割,是本发明亟待解决的技术问题。
发明内容
为克服现有技术的不足,本发明旨在提出一种通过深度学习可以同时产生超像素和图像分割的端到端的方法,将彩色图片通过特征提取、特征聚类、池化、合并操作,从而实现多任务学习,得到超像素和图像分割结果。为此,本发明采取的技术方案是,基于深度学习进行超像素生成和图像分割的方法,步骤如下:
步骤1:特征提取:采用卷积神经网络VGG16进行特征提取,其中选取VGG16网络池化层pool5层之前的网络,不包括pool5,左侧1-5的输出通道分别为32、64、128、256、256;
对提取到的图像特征分别进一步进行卷积操作,来获得不同的特征向量;
步骤2:超像素生成:超像素使用聚类算法模块来完成,可微的聚类算法分为两步:计算像素-超像素关联、更新超像素聚类中心,通过聚类迭代,得到超像素;
步骤3:相似度学习:在步骤2中得到的超像素基础上,对超像素进行超像素池化操作,得到超像素特征
Figure BDA0002697801540000011
然后在相邻超像素特征之间进行相似度计算,计算相似度的规则公式可表示为:
Figure BDA0002697801540000012
步骤4:超像素合并:使用相邻超像素之间的相似性和预设的阈值进行判断,来决定两个相邻超像素是否进行融合,当相邻超像素相似度大于预设的阈值时,将相邻超像素合并,最终,将得到分割好的图像。
步骤2详细步骤如下:
对于在n个像素的图片上获得m个超像素,可微的聚类算法在第t次迭代中表示为以下两个核心步骤:
1)像素-超像素关联:将每个像素与最近的超像素中心相关联,即计算每个像素p与周围超像素i之间的关联,
Figure BDA0002697801540000021
其中,Q∈Rn*m代表像素p和超像素中心
Figure BDA0002697801540000022
直接的关联,Fp是步骤一中提取到的像素p的特征,
Figure BDA0002697801540000023
是第t-1次迭代后得到的超像素中心;
2)更新超像素聚类中心:新的超像素聚类中心由像素特征加权和计算得到:
Figure BDA0002697801540000024
其中
Figure BDA0002697801540000025
是归一化常数。
本发明的特点及有益效果是:
本发明提出了一种通过深度学习可以同时产生超像素和图像分割的端到端的方法,使用本发明所提方法能够同时生成超像素和图像分割,效果良好。
附图说明:
图1为本发明的一种通过深度学习同时产生超像素和图像分割的的端到端的方法整体流程图;
图2为本发明方法中提取特征网络示意图;
图3为本发明实施例中的图像分割结果示意图;(a)原图,(b)分割图。
图4为本发明实施例中的生成超像素示意图。
具体实施方式
本发明提出了一种通过深度学习同时产生超像素和图像分割的的端到端的方法,该方法包括以下步骤:
步骤1:特征提取:本发明于特征提取的网络基于VGG16网络。如图2所示,我们选取了pool5层之前的网络(不包括pool5)。左侧1-5的输出通道分别为32、64、128、256、256。
在多任务学习中,不同水平的任务需要不同图像特征,比如2018年,旷视科技提出的统一感知解析网络(UPerNet)。对于的超像素生成和图像分割两个不同水平任务,我们对上步所得图像特征分别进一步进行卷积操作,来获得不同的特征向量,以满足不同任务的需求。
步骤2:超像素生成:超像素生成任务使用可微的聚类算法模块来完成。可微的聚类算法模块分为两步:计算像素-超像素关联、更新超像素聚类中心。通过聚类迭代,得到超像素;
步骤3:相似度学习:在步骤2中得到的超像素基础上,对超像素进行超像素池化操作,得到超像素特征
Figure BDA0002697801540000026
然后在相邻超像素特征之间进行相似度计算。计算相似度的规则公式可表示为:
Figure BDA0002697801540000031
步骤4:超像素合并:使用相邻超像素之间的相似性和预设的阈值进行判断,来决定两个相邻超像素是否进行融合。当相邻超像素相似度大于预设的阈值时,本算法将相邻超像素合并。最终,将得到分割好的图像。
下面结合附图和具体实施方式对本发明进行详细说明,但本发明的实施范围并不局限于此。
1.本发明的主要贡献在于:首先,本发明为科研人员提供了一种利用深度学习进行生成超像素的方法;其次,为研究人员提供一种利用超像素进行图像分割方法;最后,本项技术首次利用深度学习来端到端生成超像素和图像分割,使整个网络可以轻松集合到其他深度网络结构中,进行后续应用。
本发明一种同时产生超像素和图像分割的的端到端的方法,包括以下步骤:
步骤一、特征提取
本发明中特征提取网络基于VGG16网络。如图2所示,我们选取了pool5层之前的网络(不包括pool5)。左侧1-5的输出通道分别为32、64、128、256、256。
浅层网络可以学习到包含更多细节信息的精细特征,深层网络可以学习到包含全局信息的粗糙特征。因而我们将五层网络提取到的特征连接起来,期望获得更好的结果。由图2所示,我们将左侧五层网络分别进行3*3conv,1*1conv,和L2归一化操作,然后将各层特征连接在一起。
在多任务学习中,不同水平的任务需要不同图像特征,比如2018年,旷视科技提出的统一感知解析网络(UPerNet)。对于的超像素生成和图像分割两个不同水平任务,对上步所得图像特征分别进一步进行卷积操作,来获得不同的特征向量,以满足不同任务的需求。具体来说,对于超像素生成任务,我们使用内核大小为3*3的卷积层获得15维的特征向量。对于图像分割任务,我们首先输入了具有256个输出通道的3*3卷积层,然后使用1*1的卷积内核获得64维的特征向量。如图1所示,我们将得到的特征向量分别输入到后续的可微聚类模块和超像素池化操作中,来进行相应操作。
步骤二、超像素生成:
在步骤一的基础上,将提取到的15维的图像特征向量输入到可微聚类算法模块,根据图像特征向量来进行聚类从而生成超像素。可微聚类算法模块灵感来自于简单线性迭代聚类算法(SLIC),我们假设在n个像素的图片上获得m个超像素,可微的聚类算法模块在第t次迭代中可表示为以下两个核心步骤:
1.像素-超像素关联:将每个像素与最近的超像素中心相关联,即计算每个像素p与周围超像素i之间的关联,
Figure BDA0002697801540000032
其中,Q∈Rn*m代表像素p和超像素中心
Figure BDA0002697801540000033
直接的关联。Fp是步骤一中提取到的像素p的特征。
Figure BDA0002697801540000034
是第t-1次迭代后得到的超像素中心。
2.更新超像素聚类中心:新的超像素聚类中心由像素特征加权和计算得到。
Figure BDA0002697801540000041
其中
Figure BDA0002697801540000042
是归一化常数。
这两个步骤构成了可微的聚类算法模块的核心,在我们的算法中,将迭代次数V设为10。经过聚类之后,我们得到像素-超像素关联Q∈Rn*m。为了得到真实的超像素,我们通过公式3计算像素和超像素的硬关联,从而确定像素p属于哪个超像素。然而,这种硬关联的计算是不可微的。在本发明中,这一步并不参与反向传播。
Figure BDA0002697801540000043
在实验中,我们发现,在所有像素和超像素之间计算像素-超像素关联消耗非常大。作为改进,我们将每个像素仅与周围超像素聚类中心进行距离计算,大大缩短了计算时间。
步骤三、相似度学习:
获得超像素后,我们假设超像素的数量为m。将超像素集合表示为S={S1,S2,…,Sm}。根据图1所示,我们对所得到的超像素进行超像素池化操作,得到对应超像素的特征向量
Figure BDA0002697801540000044
池化操作可以表示如下:
Figure BDA0002697801540000045
其中
Figure BDA0002697801540000046
表示超像素Si区域内的特征向量。我们设定
Figure BDA0002697801540000047
有64维。
Figure BDA0002697801540000048
代表步骤一中得出的超像素Si的第k个像素的特征向量。
相邻超像素的相似度d可以由如下公式获得:
Figure BDA0002697801540000049
其中
Figure BDA00026978015400000410
Figure BDA00026978015400000411
为相邻两个超像素的特征向量。相似度d的范围是(0,1)。d的数值越大,相似度越高。当
Figure BDA00026978015400000412
Figure BDA00026978015400000413
相似时,它接近于1,当
Figure BDA00026978015400000414
Figure BDA00026978015400000415
极度不同的时候,它接近于0。下一步我们将根据相似度判断是否合并超像素。
步骤四、超像素合并:根据相邻超像素之间的相似性d来得到不相似性f,当相邻超像素不相似度f大于预设的阈值T时,本算法将相邻超像素合并。最终,将得到分割好的图像。通过超像素合并,得到最终的图像分割结果。伪代码如下所示,其中M={M1,M2,…,Mm}表示相邻超像素集合,Mi表示与超像素Si相邻的超像素集合。
Figure BDA00026978015400000416
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于深度学习进行超像素生成和图像分割的方法,其特征是,步骤如下:
步骤1:特征提取:采用卷积神经网络VGG16进行特征提取,其中选取VGG16网络池化层pool5层之前的网络,不包括pool5,左侧1-5的输出通道分别为32、64、128、256、256;
对提取到的图像特征分别进一步进行卷积操作,来获得不同的特征向量;
步骤2:超像素生成:超像素使用聚类算法模块来完成,可微的聚类算法分为两步:计算像素-超像素关联、更新超像素聚类中心,通过聚类迭代,得到超像素;
步骤3:相似度学习:在步骤2中得到的超像素基础上,对超像素进行超像素池化操作,得到超像素特征
Figure FDA0002697801530000011
然后在相邻超像素特征之间进行相似度计算,计算相似度的规则公式可表示为:
Figure FDA0002697801530000012
步骤4:超像素合并:使用相邻超像素之间的相似性和预设的阈值进行判断,来决定两个相邻超像素是否进行融合,当相邻超像素相似度大于预设的阈值时,将相邻超像素合并,最终,将得到分割好的图像。
2.如权利要求1所述的基于深度学习进行超像素生成和图像分割的方法,其特征是,步骤2详细步骤如下:
对于在n个像素的图片上获得m个超像素,可微的聚类算法在第t次迭代中表示为以下两个核心步骤:
1)像素-超像素关联:将每个像素与最近的超像素中心相关联,即计算每个像素p与周围超像素i之间的关联,
Figure FDA0002697801530000013
其中,Q∈Rn*m代表像素p和超像素中心
Figure FDA0002697801530000014
直接的关联,Fp是步骤一中提取到的像素p的特征,
Figure FDA0002697801530000015
是第t-1次迭代后得到的超像素中心;
2)更新超像素聚类中心:新的超像素聚类中心由像素特征加权和计算得到:
Figure FDA0002697801530000016
其中
Figure FDA0002697801530000017
是归一化常数。
CN202011011878.7A 2020-09-23 2020-09-23 基于深度学习进行超像素生成和图像分割的方法 Pending CN112241965A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011011878.7A CN112241965A (zh) 2020-09-23 2020-09-23 基于深度学习进行超像素生成和图像分割的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011011878.7A CN112241965A (zh) 2020-09-23 2020-09-23 基于深度学习进行超像素生成和图像分割的方法

Publications (1)

Publication Number Publication Date
CN112241965A true CN112241965A (zh) 2021-01-19

Family

ID=74171310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011011878.7A Pending CN112241965A (zh) 2020-09-23 2020-09-23 基于深度学习进行超像素生成和图像分割的方法

Country Status (1)

Country Link
CN (1) CN112241965A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096961A (zh) * 2019-04-04 2019-08-06 北京工业大学 一种超像素级别的室内场景语义标注方法
CN110517270A (zh) * 2019-07-16 2019-11-29 北京工业大学 一种基于超像素深度网络的室内场景语义分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096961A (zh) * 2019-04-04 2019-08-06 北京工业大学 一种超像素级别的室内场景语义标注方法
CN110517270A (zh) * 2019-07-16 2019-11-29 北京工业大学 一种基于超像素深度网络的室内场景语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KAI WANG ET AL.: ""End-to-end trainable network for superpixel and image segmentation"", 《PATTERN RECOGNITION LETTERS》 *

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
Sun et al. Deep RGB-D saliency detection with depth-sensitive attention and automatic multi-modal fusion
CN111242288B (zh) 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN108898145A (zh) 一种结合深度学习的图像显著目标检测方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN113807355A (zh) 一种基于编解码结构的图像语义分割方法
CN111369565A (zh) 一种基于图卷积网络的数字病理图像的分割与分类方法
Zhang et al. Attention guided contextual feature fusion network for salient object detection
CN110866938B (zh) 一种全自动视频运动目标分割方法
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN112164077B (zh) 基于自下而上路径增强的细胞实例分割方法
CN111401380A (zh) 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法
CN116452410A (zh) 一种基于深度学习的文本引导无掩膜图像编辑方法
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法
Al-Amaren et al. RHN: A residual holistic neural network for edge detection
Ge et al. WGI-Net: A weighted group integration network for RGB-D salient object detection
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Yu et al. MagConv: Mask-guided convolution for image inpainting
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
CN111260659A (zh) 一种基于初始标注点指导的图像交互分割方法
CN113763474B (zh) 一种基于场景几何约束的室内单目深度估算方法
CN112598043B (zh) 一种基于弱监督学习的协同显著性检测方法
CN112241965A (zh) 基于深度学习进行超像素生成和图像分割的方法
CN112164078B (zh) 基于编码器-解码器的rgb-d多尺度语义分割方法
Zheng et al. A novel semantic segmentation algorithm for RGB-D images based on non-symmetry and anti-packing pattern representation model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210119

RJ01 Rejection of invention patent application after publication