CN112419352B - 一种基于轮廓的小样本语义分割方法 - Google Patents
一种基于轮廓的小样本语义分割方法 Download PDFInfo
- Publication number
- CN112419352B CN112419352B CN202011326151.8A CN202011326151A CN112419352B CN 112419352 B CN112419352 B CN 112419352B CN 202011326151 A CN202011326151 A CN 202011326151A CN 112419352 B CN112419352 B CN 112419352B
- Authority
- CN
- China
- Prior art keywords
- semantic
- contour
- image
- segmented
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于数字图像智能处理技术领域,具体为一种基于轮廓的小样本语义分割方法。本发明方法包括:利用深度卷积神经网络提取参考图像和待分割图像各自的特征;使用轮廓生成模块生成待分割图像中较粗糙的物体轮廓;使用轮廓优化模块将较粗糙的物体轮廓优化得到更精细的轮廓;使用标签平均池化操作获取参考图像对应的语义原型;使用区域平均池化操作获取待分割图像中轮廓对应物体的语义原型;比对语义原型进而确定是否属于相同的语义类别。实验结果表明,本发明可以生成精确的分割图,有效解决了小样本语义分割问题。
Description
技术领域
本发明属于数字图像智能处理技术领域,具体涉及一种基于轮廓的小样本语义分割方法。
背景技术
语义分割是指利用算法为图像中的每个像素点分配一个语义类别。小样本语义分割是指在已训练好的语义分割模型可以对未见过的语义类别进行准确的语义分割。
语义分割任务在自动驾驶、机器人、无人安防等领域具有重要的应用价值,近年来卷积神经网络的兴起极大地推动了语义分割方向的发展,语义分割性能在各个公开数据集上不断得到刷新。然而,现有的语义分割方法在处理新场景、新物体类别时,泛化性能差,无法适应真实场景应用。因此,为解决该问题,小样本语义分割成为了近年来学术界的研究热点旨在解决训练好的语义分割模型对于新类别泛化性能弱的缺陷。
全卷积网络(Fully convolutional networks,FCN)[1]是首次将卷积神经网络应用到语义分割中,它将分类网络中的全连接层替换成卷积层,使得网络可以应用到稠密预测任务。近些年,各种各样的分割网络被提出,不断提高着语义分割任务的准确性,极大地推进了语义分割任务的研究。虽然准确性再不断提高,但是语义分割任务有一个致命缺陷却一直没有被解决,即训练好的模型很难被直接应用到新的语义类别上进行分割。如何修改分割网络使其能够被应用到新的语义类别上已经得到了越来越多的关注,
小样本语义分割旨在解决训练好的分割模型无法直接应用到新的语义类别上。Shaban等人[2]提出在小样本语义分割上应用双分支网络,该网络结构包含一个参考分支和一个分割分支。参考分支用于处理参考图像,其目的在于提取处参考图像中的信息来指导分割分支。分割分支便是普通的分割模型。该网络的缺陷是双分支采用了不同的结构,导致模型的参数量很大,很难被训练收敛。Zhang等人[3]提出了SG-One模型,该模型也是一个双分支结构,但是两个分支的网络结构参数是共享的,因此大大减少了模型训练的难度。现有的一些小样本语义分割方法存在物体边缘分割不好和误分类问题,这是由于没有很好的将参考图像和分割图像结合起来。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种更高效、更准确的基于轮廓的小样本语义分割方法。
本发明提出的基于轮廓的小样本语义分割方法,具体步骤如下:
(1)利用深度卷积神经网络提取参考图像和待分割图像各自的特征
采用参数相同的深度卷积神经网络,对参考图像Is和分割图像Iq,分别提取图像特征,分别记为Fs和Fq;这里,参考图像主要用于为待分割图像提供类别参考信息,指导语义分割网络将待分割图像中特定语义类别分割出来;参考图像包含有语义标签信息;
本发明中,深度卷积神经网络采用改进的ResNet-50[4]网络,由于ResNet网络是用于图片分类的,因此本发明需要对网络进行一定程度的修改。具体的修改方法为:去掉ResNet中的第四个块和其后的全局平均池化、全连接层。由于语义分割任务要求语义分割图和原始图像保持相同的分辨率,所以需要保持必要的细节信息,而保持细节信息的唯一选择是减小降采样倍数。然而,当降采样倍数不够时,深度卷积神经网络的感受野不足,会造成物体分割不完整以及物体类别分类错误。为了增加网络的感受野的同时又不降采样,Chen等人[5]提出了空洞卷积。因此,本发明将ResNet-50第三个块中的卷积步长改为1来保持细节信息,同时将普通卷积改为空洞卷积以扩大模型的感受野。
(2)使用轮廓生成模块生成待分割图像中较粗糙的物体轮廓
本发明使用ResNet-50分别提取分割图像的低级别特征、中级别特征和高级别特征。其中低级别特征往往是一些简单的线条和物体的颜色信息,中级别特征则关乎到一些简单的形状信息,如椭圆形,长方形等,而高级别的特征则包含着物体的一些轮廓信息。
轮廓生成模块将深度卷积神经网络提取到的各级特征结合起来,让高级别的特征去指导低级别的特征。高级别的特征蕴涵抽象的轮廓信息,而低级别的特征则分辨率较高,富含丰富的位置细节信息。轮廓生成模块包括:1x1卷积层,Relu激活层,1x1卷积层和sigmoid激活层;本发明先将高级别特征上采样至与低级别特征相同的分辨率,然后二者进行通道合并操作,得到一组新的特征;将新特特征先后送入1x1卷积层,Relu激活层,1x1卷积层和sigmoid激活层,可以得到一张权重图。在权重图中,轮廓位置处的权重值更高,非轮廓处的权重值低。将权重图中值大于0的部分置为1,否则值为0,便可以得到待分割图像中较粗糙的物体轮廓,即粗糙的轮廓图。
(3)使用轮廓优化模块将较粗糙的物体轮廓优化得到更精细的轮廓
轮廓优化模块采用类似于U-Net的网络结构,该网络包括一个编码器、一个中间层、一个解码器和一个输出层;编码器和解码器都包含三个卷积模块,每个卷积模块包含一个卷积层,一个Relu激活层和一个降采样层;中间层包含一个卷积层和一个Relu激活层;输出层采用了1x1的卷积将特征的通道数降为1,然后再经过一个sigmoid激活函数;
本发明用Canny算子处理待分割图像,得到待分割图像对应的梯度图。本发明将梯度图和粗糙的轮廓图叠加后送入轮廓优化模块,经过这些卷积层后,会得到精细的轮廓图。
(4)使用标签平均池化操作获取参考图像对应的语义原型
在模型训练过程中,本发明将参考图片的语义标签下采样至特征图尺寸,然后执行标签平均池化操作,即语义标签图与参考图像对应的特征图进行对应位置的相乘运算,提取出语义标签区域对应的特征,之后对其在空间上进行平均池化操作,便可得到参考图像对应的语义原型,这个语义原型是图像中语义类别的一种抽象表达。
标签平均池化操作的计算公式如下:
其中,(x,y)表示特征图Fs和标签Ls的位置索引,Ps表示参考图像对应的语义原型。
(5)使用区域平均池化操作获取分割图像中轮廓对应物体的语义原型
由于待分割图像是没有标签信息的,但是本发明已经通过轮廓生成模块和轮廓优化模块得到了分割图像中物体的轮廓及位置所在。本发明通过将轮廓内的像素值置为1,轮廓外的像素值置为0,便可以得到一张假的标签信息,本发明将假的标签降采样至特征图大小,然后执行区域平均池化操作,即将假的标签图与待分割图像对应的特征图进行对应位置的相乘运算,之后对其在空间上进行平均池化操作,便可以得到该轮廓内物体对应的语义原型。
假的标签信息生成方法如下:
其中,C表示轮廓内的像素集合。
区域平均池化操作如下:
(6)比对语义原型进而确定是否属于相同的语义类别
由于需要将待分割图像与参考图像中同类别的物体完整的分割出来,因此本发明需要利用余弦相似度去对比提取的两个语义原型,若两者的余弦相似度大于0,则认为两物体属于同一种类别。
余弦相似度的计算方法如下:
本发明的有益效果在于:本发明可以准确的将待分割图像中的物体分割出来,有效的解决了小样本语义分割任务。本发明是基于轮廓来进行语义分割,不需要进行逐像素的比对,因此可以提升语义分割的速度。基于轮廓进行语义分割,可以很好的解决语义分割任务中边缘分割不好的问题。
附图说明
图1为本发明的网络结构图。
图2为本发明的结果直观展示。
具体实施方式
对于一张分割图片Iq,给定一张参考图像Is,需要根据参考图像中的类别将待分割图像中同类别的物体分割出来。具体步骤为:
(1)利用深度卷积神经网络提取参考图像和待分割图像各自的特征
对于参考图像Is和待分割图像Iq,本发明采用参数共享的ResNet-50提取各自对应的特征,分别记为Fs和Fq。
(2)使用轮廓生成模块生成待分割图像中较粗糙的物体轮廓
轮廓生成模块将深度卷积神经网络提取到的各级特征结合起来,让高级别的特征去指导低级别的特征。高级别的特征蕴涵抽象的轮廓信息,而低级别的特征则分辨率较高,富含丰富的位置细节信息。本发明将高级别特征上采样至与低级别特征相同的分辨率,然后二者进行通道合并操作,得到一组新的特征。将新特特征先后送入1x1卷积层,Relu激活层,1x1卷积层和sigmoid激活层,可以得到一张权重图。在权重图中,轮廓位置处的权重值更高,非轮廓处的权重值低。将权重图中值大于0的部分置为1,否则值为0,便可以得到待分割图像中较粗糙的物体轮廓,即粗糙的轮廓图。
(3)使用轮廓优化模块将较粗糙的物体轮廓优化得到更精细的轮廓
本发明采用了类似于U-Net的网络结构去优化物体的轮廓,本发明将轮廓生成模块中生成的粗糙轮廓图和分割图像的梯度图结合起来一起送入到轮廓优化模块,经过执行轮廓优化模块便可以得到优化后的轮廓图。
(4)使用标签平均池化操作获取参考图像对应的语义原型
本发明将参考图片的标签下采样至特征图尺寸,然后执行标签平均池化操作,即语义标签图与参考图像对应的特征图进行对应位置的相乘运算,提取出语义标签区域对应的特征,之后对其在空间上进行平均池化操作,便可得到参考图像对应的语义原型。
(5)使用区域平均池化操作获取分割图像中轮廓对应物体的语义原型
本发明通过将轮廓内的像素值置为1,轮廓外的像素值置为0,便可以得到一张假的标签信息,本发明将假的标签降采样至特征图大小,然后执行区域平均池化操作,即假的标签图与待分割图像对应的特征图进行对应位置的相乘运算,之后对其在空间上进行平均池化操作,便可以得到该轮廓内物体对应的语义原型。
(6)比对语义原型进而确定是否属于相同的语义类别
本发明利用余弦相似度去对比两个语义原型,若两者的余弦相似度大于0,则认为两物体属于同一种类别。
表1为本发明的定量评测结果。第一行为OSLSM的评测结果,第二行是SG-One的评测结果。第三行是本发明的评测结果。其中Mean-IoU评测值越高越好。
图2为本发明的结果展示。第一行是参考图像,第二行是待分割图像,第三行是小样本语义分割领域最新的方法的分割结果,第四行是本发明的结果,第五行是待分割图像的标签。从第四列的结果对比中可以看出,当物体和背景比较相似时,其他方法会将背景识别为物体,导致分割精度不高,而本发明的方法则可以准确的分割出物体。
表1,本发明的定量评测结果
Mean-IoU | |
OSLSM | 40.8% |
SG-One | 46.3% |
Ours | 58.3% |
参考文献
[1]Jonathan Long,Evan Shelhamer,and Trevor Darrell.Fullyconvolutional networks for semantic segmentation.In Proceedings of the IEEEconference on computer vision and pattern recognition,pages 3431–3440,2015.1
[2]Amirreza Shaban,Shray Bansal,Zhen Liu,Irfan Essa,and ByronBoots.One-shot learning for semantic segmentation.arXiv preprint arXiv:1709.03410,2017.2,5
[3]Xiaolin Zhang,Yunchao Wei,Yi Yang,and Thomas S Huang.Sg-one:Similarity guidance network for one-shot semantic segmentation.IEEETransactions on Cybernetics,2020.1,2,3
[4]Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.Deep residuallearning for image recognition.In Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 770–778,2016.1,2,3,5
[5]Liang-Chieh Chen,George Papandreou,Iasonas Kokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:Semantic image segmentation with deep convolutionalnets,atrous convolution,and fully connected crfs.IEEE transactions on patternanalysis and machine intelligence,40(4):834–848,2017.
Claims (4)
1.一种基于轮廓的小样本语义分割方法,其特征在于,具体步骤如下:
(1)利用深度卷积神经网络提取参考图像和待分割图像各自的特征
采用参数相同的深度卷积神经网络,对参考图像Is和分割图像Iq,分别提取图像特征,分别记为Fs和Fq;这里,参考图像用于为待分割图像提供类别参考信息,指导语义分割网络将待分割图像中特定语义类别分割出来;参考图像包含有语义标签信息;
其中,深度卷积神经网络采用改进的ResNet-50网络,即去掉ResNet-50中的第四个块和其后的全局平均池化、全连接层;将ResNet-50第三个块中的卷积步长改为1,来保持细节信息,同时将普通卷积改为空洞卷积,以扩大模型的感受野;
使用改进的ResNet-50网络对分割图像分别提取低级别特征、中级别特征和高级别特征;其中,低级别特征是线条和物体的颜色信息,中级别特征则为形状信息,包括椭圆形,长方形,高级别特征则包含着物体的轮廓信息;
(2)使用轮廓生成模块生成待分割图像中较粗糙的物体轮廓
轮廓生成模块将深度卷积神经网络提取到的各级特征结合起来,让高级别的特征去指导低级别的特征;高级别的特征蕴涵抽象的轮廓信息,而低级别的特征则分辨率较高,富含丰富的位置细节信息;轮廓生成模块包括:1x1卷积层,Relu激活层,1x1卷积层和sigmoid激活层;首先将高级别特征上采样至与低级别特征相同的分辨率,然后二者进行通道合并操作,得到一组新的特征;将新特征先后送入1x1卷积层,Relu激活层,1x1卷积层和sigmoid激活层,得到一张权重图;在权重图中,轮廓位置处的权重值较高,非轮廓处的权重值较低;将权重图中值大于0的部分置为1,否则值为0,得到待分割图像中较粗糙的物体轮廓,即粗糙的轮廓图;
(3)使用轮廓优化模块将较粗糙的物体轮廓优化得到更精细的轮廓
轮廓优化模块采用改进的U-Net的网络结构,该网络包括一个编码器、一个中间层、一个解码器和一个输出层;编码器和解码器都包含三个卷积模块,每个卷积模块包含一个卷积层,一个Relu激活层和一个降采样层;中间层包含一个卷积层和一个Relu激活层;输出层采用1x1的卷积将特征的通道数降为1,然后再经过一个sigmoid激活函数;
采用Canny算子处理待分割图像,得到待分割图像对应的梯度图;将梯度图和粗糙的轮廓图叠加后送入轮廓优化模块,经过这些卷积层后,得到精细的轮廓图;
(4)使用标签平均池化操作获取参考图像对应的语义原型
在模型训练过程中,将参考图片的语义标签下采样至特征图尺寸,然后执行标签平均池化操作,即语义标签图与参考图像对应的特征图进行对应位置的相乘运算,提取出语义标签区域对应的特征,之后对其在空间上进行平均池化操作,得到参考图像对应的语义原型,这个语义原型是图像中语义类别的一种抽象表达;
(5)使用区域平均池化操作获取分割图像中轮廓对应物体的语义原型
由于待分割图像没有标签信息,但是已经通过轮廓生成模块和轮廓优化模块得到了分割图像中物体的轮廓及位置所在;通过将轮廓内的像素值置为1,轮廓外的像素值置为0,得到一张假的标签信息,将假的标签降采样至特征图大小,然后执行区域平均池化操作,即将假的标签图与待分割图像对应的特征图进行对应位置的相乘运算,之后对其在空间上进行平均池化操作,便可以得到该轮廓内物体对应的语义原型;
(6)比对语义原型进而确定是否属于相同的语义类别
为将待分割图像与参考图像中同类别的物体完整的分割出来,需要利用余弦相似度去对比提取的两个语义原型,若两者的余弦相似度大于0,则认为两物体属于同一种类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011326151.8A CN112419352B (zh) | 2020-11-24 | 2020-11-24 | 一种基于轮廓的小样本语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011326151.8A CN112419352B (zh) | 2020-11-24 | 2020-11-24 | 一种基于轮廓的小样本语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112419352A CN112419352A (zh) | 2021-02-26 |
CN112419352B true CN112419352B (zh) | 2022-05-20 |
Family
ID=74777958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011326151.8A Active CN112419352B (zh) | 2020-11-24 | 2020-11-24 | 一种基于轮廓的小样本语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112419352B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569865B (zh) * | 2021-09-27 | 2021-12-17 | 南京码极客科技有限公司 | 一种基于类别原型学习的单样本图像分割方法 |
CN115019036B (zh) * | 2022-05-10 | 2024-02-27 | 西北工业大学 | 一种学习非目标知识的小样本语义分割方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730503B (zh) * | 2017-09-12 | 2020-05-26 | 北京航空航天大学 | 三维特征嵌入的图像对象部件级语义分割方法与装置 |
EP3605453A1 (en) * | 2018-08-03 | 2020-02-05 | Siemens Gamesa Renewable Energy GmbH & Co. KG | Convolutional neural network based inspection of blade-defects of a wind turbine |
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
CN111192245B (zh) * | 2019-12-26 | 2023-04-07 | 河南工业大学 | 一种基于U-Net网络的脑肿瘤分割网络及分割方法 |
CN111583284B (zh) * | 2020-04-22 | 2021-06-22 | 中国科学院大学 | 一种基于混合模型的小样本图像语义分割方法 |
-
2020
- 2020-11-24 CN CN202011326151.8A patent/CN112419352B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112419352A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113807355B (zh) | 一种基于编解码结构的图像语义分割方法 | |
Liu et al. | An attention-based approach for single image super resolution | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
CN109635744A (zh) | 一种基于深度分割网络的车道线检测方法 | |
CN113569865A (zh) | 一种基于类别原型学习的单样本图像分割方法 | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN110781850A (zh) | 道路识别的语义分割系统和方法、计算机存储介质 | |
CN112419352B (zh) | 一种基于轮廓的小样本语义分割方法 | |
CN108230330B (zh) | 一种快速的高速公路路面分割和摄像机定位的方法 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
Zhao et al. | Research on detection method for the leakage of underwater pipeline by YOLOv3 | |
Liu et al. | Analysis of anchor-based and anchor-free object detection methods based on deep learning | |
CN114743126A (zh) | 一种基于图注意力机制网络的车道线标志分割方法 | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN111881914B (zh) | 一种基于自学习阈值的车牌字符分割方法及系统 | |
CN116824330A (zh) | 一种基于深度学习的小样本跨域目标检测方法 | |
CN116596838A (zh) | 一种基于特征感知的元器件表面缺陷检测方法 | |
Guo et al. | Udtiri: An open-source road pothole detection benchmark suite | |
Jadhav et al. | A study on approaches for automatic number plate recognition (anpr) systems | |
CN111160316B (zh) | 一种基于轻量级神经网络的车牌识别方法 | |
CN113065547A (zh) | 基于字符监督信息的弱监督文本检测方法 | |
CN112070722A (zh) | 一种荧光原位杂交细胞核分割方法及系统 | |
Peng et al. | Multitarget Detection in Depth‐Perception Traffic Scenarios | |
Xia et al. | Multi-RPN Fusion-Based Sparse PCA-CNN Approach to Object Detection and Recognition for Robot-Aided Visual System | |
CN117593755B (zh) | 一种基于骨架模型预训练的金文图像识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |