CN112580649B - 一种基于区域上下文关系模块的语义分割方法 - Google Patents

一种基于区域上下文关系模块的语义分割方法 Download PDF

Info

Publication number
CN112580649B
CN112580649B CN202011478891.3A CN202011478891A CN112580649B CN 112580649 B CN112580649 B CN 112580649B CN 202011478891 A CN202011478891 A CN 202011478891A CN 112580649 B CN112580649 B CN 112580649B
Authority
CN
China
Prior art keywords
region
feature
module
model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011478891.3A
Other languages
English (en)
Other versions
CN112580649A (zh
Inventor
刘明皓
杜江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011478891.3A priority Critical patent/CN112580649B/zh
Publication of CN112580649A publication Critical patent/CN112580649A/zh
Application granted granted Critical
Publication of CN112580649B publication Critical patent/CN112580649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明涉及一种基于区域上下文关系模块的语义分割方法,属于遥感图像处理领域。该方法包括以下步骤:S1:遥感图像增强;S2:构建RC‑Module;S3:建立基于RC‑Moudle的遥感图像语义分割模型RC‑Net;S4:MIOU检验与评价。RC‑Moudle是语义分割模型中attention机制的一种衍生,可以让模型针对各个区域周边的上下文关系的学习进行一定程度的导向,让模型学习到各个区域之间的相邻关系,从统计学的角度增加用于模型分类的信息量,从而增加语义分割的分类精度。同时RC‑Module是一个即插即用的模块,它可以和任何现有的语义分割模型进行组合,从而提升模型的精度。

Description

一种基于区域上下文关系模块的语义分割方法
技术领域
本发明属于遥感图像处理领域,涉及一种基于区域上下文关系模块的语义分割方法。
背景技术
语义分割是一项密集预测的任务,它直接对图像的每个像素进行像素级别的预测。目前在遥感图像领域,高分辨率和可获取性极高的特性,极需要一种有效的语义分割模型来对遥感图像进行有效的应用,而注意力机制可以针对性的对语义分割模型的学习过程进行导向,可以让模型学习到遥感图像更精细的特征表示。Long等人于2015年首次将全卷积的技术应用到语义分割领域,第一次从精度上对整个领域进行巨大的提升,其舍弃全连接层的方式被后来的模型持续的学习和借鉴。仅仅2015年一年,,U-Net,FCN,Seg-Net,Deconv-Net,Deeplabv1,Parse-Net,如春笋般层出不穷,将语义分割的可应用性不断提升;在这期间诞生了很多新的技术,如Olaf等人的skip链接,Vijay等人的unpooling,Hyeonwoo的deconv,以及Deeplab系列最让人津津乐道的空洞卷积;而在2017年,Non-Local的作者将NLP中注意力机制的思想成功应用到语义分割领域。注意力机制的出现,为语义分割模型提供了新的研究思路,而模型也就是在注意力机制的基础上进行衍生的。
在使用普通的语义分割模型对图像进行预测分割的时候,在预测区域的边界处很容易出现边界的模糊或者混乱,很多时候甚至出现错误分类,而这种现象是由于模型在学习和提取图像特征的阶段,并没有学习到每一个区域之间的上下文关系;而注意力机制可以有效的解决这个问题。语义分割领域也有很多基于注意力机制进行衍生的分割模型,如CCNet通过设计一种Criss-crossattention模块的方式,导向模型着重学习特征十字骨干的特征,从而在一定程度上学习特征的长程关系;OCRnet通过设计一种对象上下文模块,让模型学习一种对象特征增强的特征图;但这些语义分割模型都没有学习区域之间的上下文关系,所以边界像素分类混乱和边界错误分类的情况依然存在,这种情况可以通过设置导向模型学习区域上下文关系的模块,从而有效解决。
本发明通过考虑各个区域之间的上下文关系的方法来增强模型的分割精度,使用注意力机制的方式,将特征增强和注意力机制导向模型学习的方式相互结合,提出了一种基于区域上下文关系模块的遥感图像语义分割方法,可以在一定程度上提高模型的精度,使模型对各个区域之间边界的精细程度和分类上更加准确。注意力机制的设计,不仅训练速度快,模型的内存占用也很小。RC-Module是一个即插即用的模块,它可以和任意的语义分割模型结合,作为该模型对区域上下文特征的增强模块,从而提升模型的精度。Hengshuang Zhao从信息流的角度设计了一种考虑点和点之间上下文关系的pointwisespatial attention模块用于导向模型学习图像中所有像素之间的影响关系,没有考虑区域之间的完整性,单独的对各个像素进行考虑,很容易形成椒盐模式的预测结果。而OCR-Net采用增强对象特征的方式,让模型对对象的特征进行了导向的学习,将一个对象范围内的特征作为对象特征,解决了椒盐效应,但并没有考虑各个区域之间的上下文关系。本发明基于RC-module构成的语义分割模型进行遥感图像的语义分割,对图像的区域上下文特征进行有效的学习。
发明内容
一种基于区域上下文关系模块的语义分割方法,其特征在于:该方法包括以下步骤:
S1:遥感图像增强;
S2:构建RC-Module;
S3:建立基于RC-Moudle的遥感图像语义分割模型RC-Net;
S4:MIOU检验与评价。
可选的,所述S1具体为:
S11:对图片进行随机的裁剪,生成原始数据集数量相当的额外数据集,并加入原始数据集当中,同时进行模型的训练;
S12:对数据集各个类别的特点进行图像增强方式的选择,若图像中存在草地和土地或其他类似的对颜色特征极为敏感的对象时,将色彩抖动中,颜色的抖动范围降低到0.01,分别设置图像的饱和度,色度,对比度抖动范围为0.2,生成与S11步相同数量的图像代替原有的数据集。
S13:对数据集进行随机的水平和垂直翻转,生成与S12相同数量的数据集。
S14:对数据集进行限度旋转范围为30度的随机旋转,生成与S13相同数量的数据集。
S15:在S14中每一张图像加入高斯噪声与椒盐噪声。
可选的,所述S2具体为:
语义分割的基础架构中会有一个特征提取器,即Backbone,backbone由一系列的卷积和池化操作组成,图像经过backbone进行特征提取并整合为P,区域上下文模块的第一步就是在特征P的基础上生成区域粗糙区域Rsoft,其计算公式如下:
Figure GDA0003693094060000021
其中x代表原始图像,K代表类别数量,f代表一个卷积操作,r代表对应类别的粗糙区域特征。
RC—module在R的基础上,利用自注意力机制的理论,设计了一个自相关模块,用于计算各个区域之间的相关性Wij
Figure GDA0003693094060000031
其中wij代表第j个区域对第i个区域的影响因子
同时,整合像素特征P和粗糙区域Rsot获得各个区域的特征featuresoft-region:
(featuresoft-region)i=unsqueeze(-1)(R_T(Rsoft)*RT′(P)))i,(i∈(0,K))
其中unsqueeze代表在指定位置新增一个维度,R_T是reshape and transpose的缩写;featuresoft-region是一个N*C*K*1的特征图,N代表图片数量,C代表特征通道数,K代表区域数量;
将各区域的相关性Wij作为权重对原来的粗糙区域特征featuresoft-region进行区域相关性的特征增强,获得增强了区域上下文特征的区域特征feature_R:
featur_R=W*featuresoft-region
RC-Module使用注意力机制的思想,设计了一种区域上下文学习模块,最终增强的区域上下文特征的区域特征与像素级特征相结合,形成特征的整合feature_region:
featureregion=R_T1(R_T2(P)*R_T(feature_R))
最后,采取最常用的skip链接方法,将特征整合的特征与pixel特征链接获得经过RC-Module的增强特征F,所以,最后的区域上下文模块计算公式为:
F=cat(feature_region||P)
可选的,所述S3具体为:
DeeplabV3是一个被验证了的效果非常好的多尺度模型,其通过ASPP结构,以多个不同空洞卷积率的方法初步整合了图像的多尺度特征,同时其采用ParseNet的方法,又在全局上使用适应性全局池化,获得了全局的信息,Deeplabv3模型是一个同时考虑多尺度和一定全局上下文关系的有效模型,模型采用DeeplabV3作为模型的特征提取器-Backbone,其中ASpp的特征计算公式为:
Figure GDA0003693094060000032
其中Yi代表ASPP模块的输出,F代表根据不同的d进行的不同的卷积操作,D是一个空洞率集合,ASPP通过集合不同大小空洞率的信息从而达到考虑多尺度信息的目的,其常用的D包含1、6、12和18;
当图像经过特征提取器Deeplabv3的整合后,再接收到RC-Module中进行特征的上下文关系整合,最后通过一个Decoder得到预测结果。
Decoder由两个3x3的深度可分离卷积和一个1x1的普通卷积构成,利用深度可分离卷积的特性,减少普通decoder的计算复杂度;其中普通卷积层的参数计算如下:
P=K*2xCin*Cout
其中P代表总的参数量,K代表卷积核大小,默认使用正方形的卷积核;C代表图像的维度;
深度可分离卷积的参数计算公式如下:
P=K*2xCin+Cin*Cout
很明显,深度可分离卷积的参数量大大减小,同时其计算的复杂度也从远门的O(Cin*Cout)降低到了O(Cin+Cout);这种图像通道的解耦操作,大大减少了模型的计算量。
可选的,所述S4具体为:
Miou(mean intersection over Union,均交并比)的计算公式如下:
Figure GDA0003693094060000041
其中pij表示真实值为i,被预测为j的数量,K+1是类别个数(包含空类)。pii是真正的数量。pij、pji则分别表示假正和假负。
MIOU是IOU多个类别的扩展,IOU是计算两个集合相似度的一种度量,由于语义分割任务的特殊性,使用像素精度的情况下,很容易出现FP数量和FN数量主导整个像素精度,从而导致对模型精度照成错误的估计,而MIOU不会;MIOU是语义分割领域应用最广的评价标注,所以在MIOU评价中,使用MIOU作为精度的度量结果。
本发明通过考虑各个区域之间的上下文关系的方法来增强模型的分割精度,使用注意力机制的方式,将特征增强和注意力机制导向模型学习的方式相互结合,提出了一种基于区域上下文关系模块的遥感图像语义分割方法,可以在一定程度上提高模型的精度,使模型对各个区域之间边界的精细程度和分类上更加准确。注意力机制的设计,不仅训练速度快,模型的内存占用也很小。RC-Module是一个即插即用的模块,它可以和任意的语义分割模型结合,作为该模型对区域上下文特征的增强模块,从而提升模型的精度。Hengshuang Zhao从信息流的角度设计了一种考虑点和点之间上下文关系的pointwisespatial attention模块用于导向模型学习图像中所有像素之间的影响关系,没有考虑区域之间的完整性,单独的对各个像素进行考虑,很容易形成椒盐模式的预测结果。而OCR-Net采用增强对象特征的方式,让模型对对象的特征进行了导向的学习,将一个对象范围内的特征作为对象特征,解决了椒盐效应,但并没有考虑各个区域之间的上下文关系。本发明基于RC-module构成的语义分割模型进行遥感图像的语义分割,对图像的区域上下文特征进行有效的学习。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可从本发明的实践中得到教导。本发明的目标和其他优点可通过下面的说明书来实现和获得。
附图说明
图1为本发明原理图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
图1为本发明原理图。
1技术流程与方法
1.1遥感图像增强技术流程
本发明使用的遥感图像增强技术由五个步骤组成1,具体的执行流程如下。
遥感图像增强的过程如下:(1)对图片进行随机的裁剪,生成原始数据集数量相当的额外数据集,并加入原始数据集当中,同时进行模型的训练;(2)对数据集各个类别的特点进行图像增强方式的选择,若图像中存在草地和土地或其他类似的对颜色特征极为敏感的对象时,将色彩抖动中,颜色的抖动范围降低到0.01,分别设置图像的饱和度,色度,对比度抖动范围为0.2,生成与S11步相同数量的图像代替原有的数据集。(3)对数据集进行随机的水平和垂直翻转,生成与S12相同数量的数据集。(4)对数据集进行限度旋转范围为30度的随机旋转,生成与S13相同数量的数据集。(5)在S14中每一张图像加入高斯噪声与椒盐噪声。
1.2RC-Module的技术流程
本发明提出的RC-module基于自注意力机制和相关性注意力机制的基础上构建。
语义分割的基础架构中会有一个特征提取器,即Backbone,backbone由一系列的卷积和池化操作组成,图像经过backbone进行特征提取并整合为P,区域上下文模块的第一步就是在特征P的基础上生成区域粗糙区域Rsoft,其计算公式如下:
Figure GDA0003693094060000061
其中x代表原始图像,K代表类别数量,f代表一个卷积操作,r代表对应类别的粗糙区域特征。
RC—module在R的基础上,利用自注意力机制的理论,设计了一个自相关模块,用于计算各个区域之间的相关性Wij
Figure GDA0003693094060000062
其中wij代表第j个区域对第i个区域的影响因子
同时,整合像素特征P和粗糙区域Rsot获得各个区域的特征featuresoft-region:
(featuresoft-region)i=unsqueeze(-1)(R_T(Rsoft)*RT′(P)))i,(i∈(0,K))
其中unsqueeze代表在指定位置新增一个维度,R_T是reshape and transpose的缩写;featuresoft-region是一个N*C*K*1的特征图,N代表图片数量,C代表特征通道数,K代表区域数量;
将各区域的相关性Wij作为权重对原来的粗糙区域特征featuresoft-region进行区域相关性的特征增强,获得增强了区域上下文特征的区域特征feature_R:
featur_R=W*featuresoft-region
RC-Module使用注意力机制的思想,设计了一种区域上下文学习模块,最终增强的区域上下文特征的区域特征与像素级特征相结合,形成特征的整合feature_region:
featureregion=R_T1(R_T2(P)*R_T(feature_R))
最后,采取最常用的skip链接方法,将特征整合的特征与pixel特征链接获得经过RC-Module的增强特征F,所以,最后的区域上下文模块计算公式为:
F=cat(feature_region||P)
1.3RC-Net的技术流程
DeeplabV3是一个被验证了的效果非常好的多尺度模型,其通过ASPP结构,以多个不同空洞卷积率的方法初步整合了图像的多尺度特征,同时其采用ParseNet的方法,又在全局上使用适应性全局池化,获得了全局的信息,Deeplabv3模型是一个同时考虑多尺度和一定全局上下文关系的有效模型,因此模型采用DeeplabV3作为模型的特征提取器-Backbone,其中ASpp的特征计算公式为:
Figure GDA0003693094060000071
其中Yi代表ASPP模块的输出,F代表根据不同的d进行的不同的卷积操作,D是一个空洞率集合,ASPP通过集合不同大小空洞率的信息从而达到考虑多尺度信息的目的,其常用的D包含1,6,12,18;
当图像经过特征提取器Deeplabv3的整合后,再接收到RC-Module中进行特征的上下文关系整合,最后通过一个Decoder得到预测结果。
ecoder由两个3x3的深度可分离卷积和一个1x1的普通卷积构成,利用深度可分离卷积的特性,减少普通decoder的计算复杂度;其中普通卷积层的参数计算如下:
P=K*2xCin*Cout
其中P代表总的参数量,K代表卷积核大小,默认使用正方形的卷积核;C代表图像的维度;
深度可分离卷积的参数计算公式如下:
P=K*2xCin+Cin*Cout
很明显,深度可分离卷积的参数量大大减小,同时其计算的复杂度也从远门的O(Cin*Cout)降低到了O(Cin+Cout);这种图像通道的解耦操作,大大减少了模型的计算量。
1.4MIOU检验与评价。
Miou(mean intersection over Union,均交并比)的计算公式如下:
Figure GDA0003693094060000072
其中pij表示真实值为i,被预测为j的数量,K+1是类别个数(包含空类)。pii是真正的数量。pij、pji则分别表示假正和假负。
MIOU是IOU多个类别的扩展,IOU是计算两个集合相似度的一种度量,由于语义分割任务的特殊性,使用像素精度的情况下,很容易出现FP数量和FN数量主导整个像素精度,从而导致对模型精度照成错误的估计,而MIOU不会;MIOU是语义分割领域应用最广的评价标注,所以在MIOU评价中,使用MIOU作为精度的度量结果。
2总结
本发明提出了一种即插即用的RC-Module,在Deeplabv3的基础上设计了一种学习区域上下文关系的RCNet;RCNet是注意力机制的一种衍生,通过单独设计区域特征和增强区域相关性特征的方式获得联合了增强的特征用于最终的语义分割;RCNet是语义分割领域注意力机制的又一映射和发展,相信在未来的研究过程中,RCNet不仅会在遥感图像领域,也会在其他领域得到不错的泛用性。

Claims (1)

1.一种基于区域上下文关系模块的语义分割方法,其特征在于:该方法包括以下步骤:
S1:遥感图像增强;
S2:构建RC-Module;
S3:建立基于RC-Module的遥感图像语义分割模型RC-Net;
S4:MIOU检验与评价;
所述S1具体为:
S11:对图片进行随机的裁剪,生成原始数据集数量相当的额外数据集,并加入原始数据集当中,同时进行模型的训练;
S12:对数据集各个类别的特点进行图像增强方式的选择,若图像中存在草地和土地或其他类似的对颜色特征极为敏感的对象时,将色彩抖动中,颜色的抖动范围降低到0.01,分别设置图像的饱和度、色度和对比度抖动范围为0.2,生成与S11步相同数量的图像代替原有的数据集;
S13:对数据集进行随机的水平和垂直翻转,生成与S12相同数量的数据集;
S14:对数据集进行限度旋转范围为30度的随机旋转,生成与S13相同数量的数据集;
S15:在S14中每一张图像加入高斯噪声与椒盐噪声;
所述S2具体为:
语义分割的基础架构中会有一个特征提取器,即backbone,backbone由一系列的卷积和池化操作组成,图像经过backbone进行特征提取并整合为P,区域上下文模块的第一步就是在特征P的基础上生成区域粗糙区域Rsoft,其计算公式如下:
Figure FDA0003674738840000011
其中x代表原始图像,K代表类别数量,f代表一个卷积操作,r代表对应类别的粗糙区域特征;
RC-module在R的基础上,利用自注意力机制的理论,设计自相关模块,用于计算各个区域之间的相关性Wij
Figure FDA0003674738840000012
其中wij代表第j个区域对第i个区域的影响因子
同时,整合像素特征P和粗糙区域Rsoft获得各个区域的特征featuresoft-region
(featuresoft-region)i=unsqueeze(-1)(R_T(Rsoft)*RT(P)))i,i∈(0,K)
其中unsqueeze代表在指定位置新增一个维度,R_T是reshape and transpose的缩写;featuresoft-region是一个N*C*K*1的特征图,N代表图片数量,C代表特征通道数,K代表区域数量;
将各区域的相关性Wij作为权重对原来的粗糙区域特征featuresoft-region进行区域相关性的特征增强,获得增强了区域上下文特征的区域特征feature_R:
featur_R=W*featuresoft-region
RC-Module使用注意力机制的思想,设计了区域上下文学习模块,增强的区域上下文特征的区域特征与像素级特征相结合,形成特征的整合feature_region:
featureregion=R_T1(R_T2(P)*R_T(feature_R))
采取skip链接方法,将特征整合的特征与pixel特征链接获得经过RC-Module的增强特征F,最后的区域上下文模块计算公式为:
F=cat(feature_region||P)
所述S3具体为:
DeeplabV3是多尺度模型,通过ASPP结构,以多个不同空洞卷积率的方法初步整合图像的多尺度特征,采用ParseNet的方法,在全局上使用适应性全局池化,获得全局的信息,Deeplabv3模型是考虑多尺度和一定全局上下文关系的有效模型,采用DeeplabV3作为模型的特征提取器-Backbone,其中ASpp的特征计算公式为:
Figure FDA0003674738840000021
其中Yi代表ASPP模块的输出,F代表根据不同的d进行的不同的卷积操作,D是一个空洞率集合,ASPP通过集合不同大小空洞率的信息从而达到考虑多尺度信息的目的,D为1、6、12和18;
当图像经过特征提取器Deeplabv3的整合后,再接收到RC-Module中进行特征的上下文关系整合,最后通过一个Decoder得到预测结果;
Decoder由两个3x3的深度可分离卷积和一个1x1的普通卷积构成,利用深度可分离卷积的特性,减少普通decoder的计算复杂度;其中普通卷积层的参数计算如下:
P=K*2xCin*cout
其中P代表总的参数量,K代表卷积核大小,使用正方形的卷积核;C代表图像的维度;
深度可分离卷积的参数计算公式如下:
P=K*2xCin+Cin*Cout
所述S4具体为:
均交并比Miou的计算公式如下:
Figure FDA0003674738840000031
其中pij表示真实值为i,被预测为j的数量,K+1是类别个数,包含空类;pii是真正的数量;pij、pji则分别表示假正和假负。
CN202011478891.3A 2020-12-15 2020-12-15 一种基于区域上下文关系模块的语义分割方法 Active CN112580649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011478891.3A CN112580649B (zh) 2020-12-15 2020-12-15 一种基于区域上下文关系模块的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011478891.3A CN112580649B (zh) 2020-12-15 2020-12-15 一种基于区域上下文关系模块的语义分割方法

Publications (2)

Publication Number Publication Date
CN112580649A CN112580649A (zh) 2021-03-30
CN112580649B true CN112580649B (zh) 2022-08-02

Family

ID=75135153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011478891.3A Active CN112580649B (zh) 2020-12-15 2020-12-15 一种基于区域上下文关系模块的语义分割方法

Country Status (1)

Country Link
CN (1) CN112580649B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380237A (zh) * 2021-06-09 2021-09-10 中国科学技术大学 增强局部依赖关系无监督预训练语音识别模型及训练方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN110197182A (zh) * 2019-06-11 2019-09-03 中国电子科技集团公司第五十四研究所 基于上下文信息和注意力机制的遥感影像语义分割方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257099B (zh) * 2018-01-11 2021-09-10 重庆邮电大学 一种基于视觉对比度分辨率的自适应红外图像增强方法
CN109447994B (zh) * 2018-11-05 2019-12-17 陕西师范大学 结合完全残差与特征融合的遥感图像分割方法
US11179064B2 (en) * 2018-12-30 2021-11-23 Altum View Systems Inc. Method and system for privacy-preserving fall detection
CN110097544A (zh) * 2019-04-25 2019-08-06 武汉精立电子技术有限公司 一种显示面板外观缺陷检测方法
CN111563508B (zh) * 2020-04-20 2023-05-23 华南理工大学 一种基于空间信息融合的语义分割方法
CN111797779A (zh) * 2020-07-08 2020-10-20 兰州交通大学 基于区域注意力多尺度特征融合的遥感图像语义分割方法
CN111932553B (zh) * 2020-07-27 2022-09-06 北京航空航天大学 基于区域描述自注意力机制的遥感图像语义分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN110197182A (zh) * 2019-06-11 2019-09-03 中国电子科技集团公司第五十四研究所 基于上下文信息和注意力机制的遥感影像语义分割方法

Also Published As

Publication number Publication date
CN112580649A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN111310862B (zh) 复杂环境下基于图像增强的深度神经网络车牌定位方法
CN108416250B (zh) 人数统计方法及装置
CN111476292A (zh) 医学图像分类处理人工智能的小样本元学习训练方法
WO2020114378A1 (zh) 视频水印的识别方法、装置、设备及存储介质
CN106611420B (zh) 基于反卷积网络和素描图方向约束的sar图像分割方法
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN109035300B (zh) 一种基于深度特征与平均峰值相关能量的目标跟踪方法
CN110569782A (zh) 一种基于深度学习目标检测方法
CN109902584A (zh) 一种口罩缺陷的识别方法、装置、设备及存储介质
CN109635653A (zh) 一种植物识别方法
CN109165658B (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN112116593A (zh) 一种基于基尼指数的领域自适应语义分割方法
CN110517270B (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN111881731A (zh) 基于人体骨架的行为识别方法、系统、装置及介质
CN109344851A (zh) 图像分类显示方法和装置、分析仪器和存储介质
CN112580649B (zh) 一种基于区域上下文关系模块的语义分割方法
Rout et al. Walsh–Hadamard-kernel-based features in particle filter framework for underwater object tracking
Zhang et al. Visual saliency based object tracking
CN111967399A (zh) 一种基于改进的Faster RCNN行为识别方法
CN113436251B (zh) 一种基于改进的yolo6d算法的位姿估计系统及方法
CN113421268B (zh) 一种基于多层级通道注意力机制deeplabv3+网络的语义分割方法
CN111738237B (zh) 一种基于异构卷积的多核迭代rpn的目标检测方法
CN107423771B (zh) 一种两时相遥感图像变化检测方法
CN112241758A (zh) 用于评估显著性图确定器的设备和方法
CN112950615B (zh) 一种基于深度学习分割网络的甲状腺结节侵袭性预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant