CN111738113B - 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法 - Google Patents

基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法 Download PDF

Info

Publication number
CN111738113B
CN111738113B CN202010521918.6A CN202010521918A CN111738113B CN 111738113 B CN111738113 B CN 111738113B CN 202010521918 A CN202010521918 A CN 202010521918A CN 111738113 B CN111738113 B CN 111738113B
Authority
CN
China
Prior art keywords
road
point
image
semantic
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010521918.6A
Other languages
English (en)
Other versions
CN111738113A (zh
Inventor
李训根
宁波
潘勉
马琪
吕帅帅
张战
周尚超
门飞飞
刘爱林
李子璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010521918.6A priority Critical patent/CN111738113B/zh
Publication of CN111738113A publication Critical patent/CN111738113A/zh
Application granted granted Critical
Publication of CN111738113B publication Critical patent/CN111738113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/182Network patterns, e.g. roads or rivers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法,包括以下步骤:S1,对Massachusetts数据集里面的遥感道路图像进行操作来进行数据集的数据扩增,对数据集里面的遥感道路图像的标签图像进行语义约束角计算的数据预处理操作;S2,使用卷积神经网络提取遥感道路图像的特征图,并在卷积神经网络中加入位置注意力机制和通道注意力机制来计算不同通道和位置的特征权重,让网络模型能够更好的获取不同位置和不同通道的语义信息;S3,设计主损失函数,辅助损失函数来优化网络参数;S4,用训练好的模型在测试样本集上进行测试,经过网络模型的特征提取和特征上采样来得到最终的分割图像。

Description

基于双注意力机制与语义约束的高分辨遥感图像的道路提取 方法
技术领域
本发明属于数字图像处理与机器学习技术领域,具体涉及一种基于双注意力机制模块与语义约束的高分辨遥感图像的道路提取方法。
背景技术
道路作为交通的主要组成部分,在人类各项活动中发挥着不可替代的作用。在现代社会中,道路也是地图和地理信息系统中重要的标识对象。随着交通地理信息系统的建设,道路的自动提取技术随之出现并不断发展。及时而完备的道路交通信息系统,可在交通导航、城市规划、农林及飞行器自动驾驶等诸多领域发挥重要作用。道路作为一种重要的基础设施,在城镇建设、交通运输和军事应用等领域都扮演着重要的角色。随着高分辨率遥感数据的大量投入使用,如何快速、准确地从遥感图像中提取道路信息引起了众多国内外学者的关注。而遥感图像相较于普通图像来说,最大的特点就是超高的分辨率,这就导致遥感图像自身包含的图像语义信息是普通图像的好几千倍,甚至上万倍,其包含的语义信息比普通图像包含的信息多出了几个数量级,遥感图像的语义分为视觉层、对象层和概念层。视觉层即通常所理解的底层,即颜色、纹理和形状等等,这些特征都被称为底层特征语义;对象层即中间层,通常包含了属性特征等,就是某一对象在某一时刻的状态;概念层是高层,是图像表达出的最接近人类理解的东西。通俗点说,比如一张图上有沙子,蓝天,海水等,视觉层是一块块的区分,对象层是沙子、蓝天和海水这些,概念层就是海滩,这是这张图表现出的语义。对于遥感道路图像来说,语义信息是不可或缺的,因为在一张遥感道路图像中所有的道路都存在的一些很具有的特色的共通性。如形状,纹理等,但是一般的网络结构模型都不会着重的去在意这方面的语义信息,所有如何进行有效的融合上下文语义信息是非常重要且关键的步骤。对于遥感道路图像来说,语义信息是不可或缺的,因为在一张遥感道路图像中所有的道路都存在的一些很具有的特色的共通性。如形状,纹理等,但是一般的网络结构模型在图像分割过程中都不会着重的去在意这方面的语义信息,所有如何进行有效的融合上下文语义信息是非常重要且关键的步骤,对于遥感图像来说,如何好好运用这些普通图像不具有的语义信息是一个目标道路提取方法的切入点。
发明内容
鉴于以上存在的技术问题,本发明用于提供一种基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法,该模型在常规的编码-解码网络模型中加入了双注意力机制,利用双注意力机制可以有效结合各个位置和各个通道之间的语义信息,解决了遥感图像语义分割过程中的对于上下文语义信息没有进行有效融合的问题,并且在最后的分割任务中,通过计算语义约束角的Loss,使得分割结果能够根据辅助损失函数进一步规范了道路关键点的语义信息,提升了最后的道路提取结果,提高了遥感图像道路提取的精度。
为解决上述技术问题,本发明采用如下的技术方案:
一种基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法,包括以下步骤:
S1,对Massachusetts数据集里面的遥感道路图像进行包括平移,旋转和水平翻转,HSV变换等操作来进行数据集的数据扩增,对数据集里面的遥感道路图像的标签图像进行语义约束角计算的数据预处理操作;
S2,使用卷积神经网络提取遥感道路图像的特征图,并在卷积神经网络中加入位置注意力机制和通道注意力机制来计算不同通道和位置的特征权重,让网络模型能够更好的获取不同位置和不同通道的语义信息;
S3,设计主损失函数,辅助损失函数来优化网络参数,其中辅助损失函数计算的是语义约束角的损失,并且建立评估指标F1和评估指标MIOU来对模型的输出结果进行评估;
S4,用训练好的模型在测试样本集上进行测试,经过网络模型的特征提取和特征上采样来得到最终的分割图像。
优选地,所述的S1具体步骤为:
S11,先对数据集中的图像进行包括平移,旋转和水平反转的预处理;
S12,再对得到先前处理的图像进行HSV变换操作,HSV变换处理的公式定义如下:
maxt=max(r,g,b)
mint=min(r,g,b)
v=maxt
Figure GDA0004201228950000031
如果r=v,
Figure GDA0004201228950000032
如果g=v,
Figure GDA0004201228950000033
如果b=v,
Figure GDA0004201228950000034
经过上述计算之后,
h=h*60
如果h<0,
h=h+360
其中r,、g、b分别代表红、绿、蓝;h、s、v分别代表色调、饱和度、明度,maxt代表r、g、b中的最大值,mint代表r、g、b中的最小值;
S13,对图像的标签图像进行语义约束角处理:首先对道路的标签图像进行骨架提取算法,采用K3M算法,K3M算法在每次迭代中需要进行六次检查,Phase0,标记出图像中道路的边界;Phase 1,如果该点的邻域中有3个点(非0,以下皆如此,0代表背景,1代表道路)相邻,删除该点;Phase2,如果该点的邻域中有3或4个点相邻,删除该点;Phase3,如果该点的邻域中有3,4,5个点相邻,删除该点;Phase4,如果该点的邻域中有3,4,5,6个点相邻,删除该点;Phase5,如果该点的邻域中有3,4,5,6,7个点相邻,删除该点;Phase 6,剩余的边界点取消标记,如果Phase 5中没有点被修改,停止迭代,否则返回Phase0;
S14,对道路上的每一个道路点进行语义约束角的计算:首先对于每一条连通标签道路,在其骨架图上提取其中的每个道路的交点记[x1,x2,.........,xn],每两个相邻道路交点之间的点记为[p1,p2,......pn],让pi对其相邻的两个交点分别进行方位角和欧式距离的计算,选取欧式距离小的交点的方位角作为该点的选定方位角并作为其语义约束角,方位角的计算如下:
设两个点的坐标分别为[x1,y1],]x2,y2],首先计算坐标增量dx,dy,两个对应坐标分量相减,终点的减始点的dx=x1-x2,dy=y1-y2,若dx,dy中有一个为零时,根据另一个的正负决定方位角(0,90,180,270这四个中的一个),若dx、dy都不为零,则方位角a的定义如下:
Figure GDA0004201228950000041
当dx>0,dy>0时:
a=a;
当dx<0,dy>0时:
a=180-a;
当dx<0,dy<0时:
a=180+a;
当dx>0,dy<0时:
a=360-a。
优选地,所述的S2具体步骤为:
S21,选用Linknet34作为基础卷积神经网络;
S22,在模型中加入通道注意力机制和位置注意力机制:具体地在位置注意力模块中,任一位置的特征的更新是通过图像所有位置上特征的带权聚合进行更新,权重是由两个位置上特征的相似性决定的,也就是说无论两个位置的距离只要他们的特征相似那么就能得到更高的权重,通道注意力模块中也应用了相似的注意力机制来学习任意两个通道映射之间的关系,同样通过所有通道的带权加和来更新某一个通道,也就是说任意两个通道只要他们的特征相似那么就能得到更高的权重,给定一张道路特征图A∈RC×H×W,然后经过一个带有BN层和ReLU层的卷积操作得到两个新的特征B、C,然后将这两个特征reshape到RC ×N,其中N=H×W,然后在B和C的转置上应用一次矩阵乘法,之后应用Softmax层计算位置注意力映射图S∈RN×N,位置注意力机制的定义如下:
Figure GDA0004201228950000051
其中Sij表示第i个位置对第j个位置的影响,两个位置的特征越相似对这个值的影响越大;
同时将道路特征图特征A输入到一个带有BN层和ReLU层的卷积层产生另外一个特征图D,同样reshape到RC×N,然后对D和S的转置应用一次矩阵乘法,reshape为RC×H×W,然后乘上一个因子α,与特征A进行一个逐元素的相加操作得到最终额的输出E,其计算定义如下:
Figure GDA0004201228950000052
其中α初始化为0然后逐渐学习,通过上面这个公式可以看出最终的特征E的每一个位置都是所有位置的特征和原始特征的带权加和得到,因此能够聚合全局语义信息;
高层特征的每一个通道映射可以看做一个类别明确的响应并且不同的语义响应之间互相联系,通过获取不同通道映射之间的相互依赖性可以有效增强特征图对于特定语义的表征能力,因此设计该通道注意力模块,与位置注意力模块不同的是,直接从原始特征A直接计算X,X∈RC×C,首先对特征图A进行reshape操作至RC×N,然后在A与A的转置上应用一次矩阵乘法,最终应用一个Softmax层以获得通道注意力图X,X∈RC×C,其中通道注意力机制的定义如下:
Figure GDA0004201228950000061
其中xji表示了第i个通道对第j个通道的影响,之后对X的转置和A进行一次矩阵乘法然后reshape到RC×H×W,然后乘上一个因子β,然后与原始特征A进行一个逐元素的加和操作得到最终的特征图E,具体地
Figure GDA0004201228950000062
同理,β初始化为0并且逐渐学习,上个公式表明最终输出的每个通道的特征都是所有通道的特征和原始特征图的带权加和,从而增强了通道特征图之间的全局语义依赖,最终增强了特征图的判别能力。
优选地,所述的S3具体步骤为:
S31,选取Dice Cofficient Loss作为模型的主损失函数,其定义如下:
Figure GDA0004201228950000063
其中Pi表示第i张预测图,Gi表示第i张标签图片,N表示Batch Size;
S32,选取Cross EntropyLoss作为模型的辅助损失函数,其定义如下:
Figure GDA0004201228950000071
其中i表示第i个样本,N表示Batch Size,y表示样本预测值的语义约束角,
Figure GDA0004201228950000072
表示样本label值的约束角,其中正类为1,负类为0;
S33,进一步的需要选取判断指标F1 Score和MIOU来判断训练出来的图片与标签图片的相似度。选取F1 Score作为评估指标,F1 Score指标的定义如下:
Figure GDA0004201228950000073
其中precision表示精确率,recall表示召回率,precision和recall的定义如下:
Figure GDA0004201228950000074
Figure GDA0004201228950000075
其中TP为True Positive,代表真阳性:预测为正,实际也为正;
FP为False Positive,代表假阳性:预测为正,实际为负;
FN为False Negative,代表假阴性:预测与负、实际为正;
TN为True Negative,代表真阴性:预测为负、实际也为负;
F1的结果越大,则表示预测图片与所提供的真实标签越为相近;
S34,选取MIOU作为评估指标,MIOU指标就是交并比,在语义分割中作为标准度量一直被人使用,交并比不仅仅在语义分割中使用,在目标检测等方向也是常用的指标之一,计算公式为:
Figure GDA0004201228950000076
其中k+1表示共有k+1个类,从0到k类,其中包含一个空类或者背景,pij表示本属于i类但被预测为j类的像素数量,pji表示本属于j类但被预测为i类的像素数量,pii表示真正预测正确的数量。
优选地,所述的S4具体步骤为:
S41,对模型进行多次训练,合理的调整模型参数,如优化器的选取,学习率的选取等,得到最优的模型;
S42,选取测试图片作为输入图片,经过网络模型的特征提取和特征上采样来得到最终的分割图像。
采用本发明具有如下的有益效果:
(1)本发明实施例采用了双注意力机制模块,相较于普通的卷积神经网络,能够更好的融合不同位置,不同通道的语义信息,从而使得分割的结果能在遥感图像这种比普通图像更加具有多层次预习信息的图像上面进行丰富的语义信息的捕获,提高了网络道路提取结果的精确度。
(2)本发明实施例加入了一个辅助损失函数,通过语义约束角很好的约束了分割结果中道路关键点的位置信息,从而让分割结果受到一定限制,不会在特征提取中任意的产生道路的关键点,反而会让网络会自适应的去判断道路交点在某处位置出现的合理性。较大提高了道路提取的可靠性和精确性。
(3)本发明实施例同时也和其他分割模型进行对比分析,包括U-net、Resnet,并且对这些模型进行相同的训练后得出了评估结构,分别从F1和MIOU指标的情况来看,Resnet模型和传统U-Net模型的性能相对较差,原因在于这两个模型没有有效的利用遥感图像丰富的语义信息,只是单纯的融合了单一范围内的有限语义信息,从而进一步证明本发明实施例的优势。
附图说明
图1为本发明实施例的基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法的步骤流程图;
图2为本发明实施例的基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法的位置注意力机制模块结构示意图;
图3为本发明实施例的基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法的通道注意力机制模块结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明的基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法的步骤流程图,具体实施步骤如下:
S1,对Massachusetts数据集里面的遥感道路图像进行包括平移,旋转和水平翻转,HSV变换等操作来进行数据集的数据扩增,对数据集里面的遥感道路图像的标签图像进行语义约束角计算的数据预处理操作;
具体的,S1具体步骤为:
S11,先对数据集中的图像进行进行平移,旋转和水平反转等预处理;
S12,再对得到先前处理的图像进行HSV变换操作,HSV变换处理的公式定义如下:
maxt=max(r,g,b)
mint=min(r,g,b)
v=maxt
Figure GDA0004201228950000091
如果r=v,
Figure GDA0004201228950000092
如果g=v,
Figure GDA0004201228950000093
如果b=v,
Figure GDA0004201228950000101
经过上述计算之后,
h=h*60
如果h<0,
h=h+360
其中r、g、b分别代表红、绿、蓝;h、s、v分别代表色调、饱和度、明度,maxt代表r、g、b中的最大值,mint代表r、g、b中的最小值;
S13,对图像的标签图像进行语义约束角处理:首先对道路的标签图像进行骨架提取算法,本发明采用的是K3M算法,该算法属于迭代腐蚀边界的一类算法。该类算法的思想是,假定从二值图像中物体的边界处同时开始燃烧,物体就会被逐步细化,但在燃烧过程中要保证满足一定条件的点被保留或者被“烧掉”,以确定燃烧结束后,剩下的最后一像素宽的道路图像为图像的骨架。这些条件的确定没有统一的标准,各个算法采取了不同的方案。一般来讲,为了满足计算的速度要求和算法的准确,迭代中算法会对道路图像边界上某点的3*3邻域内进行检查,判断是否满足要求。K3M算法在每次迭代中需要进行六次检查,Phase0,标记出图像中道路的边界;Phase 1,如果该点的邻域中有3个点(非0,以下皆如此,0代表背景,1代表道路)相邻,删除该点;Phase2,如果该点的邻域中有3或4个点相邻,删除该点;Phase3,如果该点的邻域中有3,4,5个点相邻,删除该点;Phase4,如果该点的邻域中有3,4,5,6个点相邻,删除该点;Phase5,如果该点的邻域中有3,4,5,6,7个点相邻,删除该点;Phase6,剩余的边界点取消标记,如果Phase5中没有点被修改,停止迭代,否则返回Phase0。
S14,对道路上的每一个道路点进行语义约束角的计算:首先对于每一条连通标签道路,在其骨架图上提取其中的每个道路的交点记[x1,x2,.........,xn],每两个相邻道路交点之间的点记为[p1,p2,......pn],让pi对其相邻的两个交点分别进行方位角和欧式距离的计算,选取欧式距离小的交点的方位角作为该点的选定方位角并作为其语义约束角。方位角的计算如下:
设两个点的坐标分别为[x1,y1],[x2,y2],首先计算坐标增量dx,dy,两个对应坐标分量相减,终点的减始点的,dx=x1-x2,dy=y1-y2,若dx,dy中有一个为零时,根据另一个的正负决定方位角(0,90,180,270这四个中的一个),若dx,dy都不为零,则方位角a的定义如下:
Figure GDA0004201228950000111
当dx>0,dy>0时:
a=a;
当dx<0,dy>0时:
a=180-a;
当dx<0,dy<0时:
a=180+a;
当dx>0,dy<0时:
a=360-a;
S2,使用卷积神经网络提取遥感道路图像的特征图,并在卷积神经网络中加入位置注意力机制和通道注意力机制来计算不同通道和位置的特征权重,让网络模型能够更好的获取不同位置和不同通道的语义信息。
具体的,S2具体步骤为:
S21,在具体的实施过程中,本发明实施例选用Linknet34作为基础卷积神经网络,其模型结构为典型encoder-decoder模型,相对于传统模型来说,encoder负责将一张图片的每个像素点,通过复杂的计算过程,映射到某一个高维分布上,而Decoder则是负责将这个高维分布,映射到给定的类别区域,实现了end-to-end的训练过程。
S22,在模型中加入通道注意力机制和位置注意力机制:具体地在位置注意力模块中,任一位置的特征的更新是通过图像所有位置上特征的带权聚合进行更新,权重是由两个位置上特征的相似性决定的,也就是说无论两个位置的距离只要他们的特征相似那么就能得到更高的权重。通道注意力模块中也应用了相似的注意力机制来学习任意两个通道映射之间的关系,同样通过所有通道的带权加和来更新某一个通道,也就是说任意两个通道只要他们的特征相似那么就能得到更高的权重。具体的,如图2所示:给定一张道路特征图A∈RC×H×W,然后经过一个带有BN层和ReLU层的卷积操作得到两个新的特征B,C,然后将这两个特征reshape到RC×N,其中N=H×W,然后在B和C的转置上应用一次矩阵乘法,之后应用Softmax层计算位置注意力映射图S∈RN×N,位置注意力机制的定义如下:
Figure GDA0004201228950000121
其中Sij表示第i个位置对第j个位置的影响,两个位置的特征越相似对这个值的影响越大。
同时将道路特征图特征A输入到一个带有BN层和ReLU层的卷积层产生另外一个特征图D,同样reshape到RC×N,然后对D和S的转置应用一次矩阵乘法,reshape为RC×H×W,然后乘上一个因子α,与特征A进行一个逐元素的相加操作得到最终额的输出E,其计算定义如下:
Figure GDA0004201228950000122
其中α初始化为0然后逐渐学习,通过上面这个公式可以看出最终的特征E的每一个位置都是所有位置的特征和原始特征的带权加和得到,因此能够聚合全局语义信息,位置注意力机制模块如图2所示。
高层特征的每一个通道映射可以看做一个类别明确的响应并且不同的语义响应之间互相联系。通过获取不同通道映射之间的相互依赖性可以有效增强特征图对于特定语义的表征能力,因此设计该通道注意力模块。与位置注意力模块不同的是,直接从原始特征A直接计算X,X∈RC×C。首先对特征图A进行reshape操作至RC×N,然后在A与A的转置上应用一次矩阵乘法,最终应用一个Softmax层以获得通道注意力图X,X∈RC×C,其中通道注意力机制的定义如下:
Figure GDA0004201228950000131
其中xji表示了第i个通道对第j个通道的影响。之后对X的转置和A进行一次矩阵乘法然后reshape到RC×H×W,然后乘上一个因子β,然后与原始特征A进行一个逐元素的加和操作得到最终的特征图E,具体地
Figure GDA0004201228950000132
同理,β初始化为0并且逐渐学习,上个公式表明最终输出的每个通道的特征都是所有通道的特征和原始特征图的带权加和,从而增强了通道特征图之间的全局语义依赖,最终增强了特征图的判别能力。通道注意力机制模块如图3所示。
S3,设计主损失函数,辅助损失函数来优化网络参数,其中辅助损失函数计算的是语义约束角的损失,并且建立评估指标F1和评估指标MIOU,来对模型的输出结果进行评估;
具体的,所述的S3具体步骤为:
S31,选取Dice Cofficient Loss作为模型的主损失函数,其定义如下:
Figure GDA0004201228950000133
其中Pi表示第i张预测图,Gi表示第i张标签图片,N表示Batch Size
S3.2:选取Cross EntropyLoss作为模型的辅助损失函数,其定义如下:
Figure GDA0004201228950000141
其中i表示第i个样本,N表示Batch Size,y表示样本预测值的语义约束角,
Figure GDA0004201228950000142
表示样本label值的约束角,其中正类为1,负类为0。
S33,进一步的我们需要选取判断指标F1 Score和MIOU,来判断训练出来的图片与标签图片的相似度。选取F1 Score作为评估指标,F1 Score指标的定义如下:
Figure GDA0004201228950000143
其中precision表示精确率,recall表示召回率,precision和recall的定义如下:
Figure GDA0004201228950000144
Figure GDA0004201228950000145
其中TP为True Positive,代表真阳性:预测为正,实际也为正;
FP为False Positive,代表假阳性:预测为正,实际为负;
FN为False Negative,代表假阴性:预测与负、实际为正;
TN为True Negative,代表真阴性:预测为负、实际也为负;
F1的结果越大,则表示预测图片与所提供的真实标签越为相近。
S34,选取MIOU作为评估指标,MIOU指标就是大家常说的交并比,在语义分割中作为标准度量一直被人使用。交并比不仅仅在语义分割中使用,在目标检测等方向也是常用的指标之一,计算公式为:
Figure GDA0004201228950000146
其中k+1表示共有k+1个类,从0到k类,其中包含一个空类或者背景,pij表示本属于i类但被预测为j类的像素数量,pji表示本属于j类但被预测为i类的像素数量,pii表示真正预测正确的数量。
S4,用训练好的模型在测试样本集上进行测试,经过网络模型的特征提取和特征上采样来得到最终的分割图像。
具体的,S4具体步骤为:
S41,对模型进行多次训练,合理的调整模型参数,如优化器的选取,学习率的选取等,得到最优的模型。
S42,选取测试图片作为输入图片,经过网络模型的特征提取和特征上采样来得到最终的分割图像。
应当理解,本文所述的示例性实施例是说明性的而非限制性的。尽管结合附图描述了本发明的一个或多个实施例,本领域普通技术人员应当理解,在不脱离通过所附权利要求所限定的本发明的精神和范围的情况下,可以做出各种形式和细节的改变。

Claims (4)

1.一种基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法,其特征在于,包括以下步骤:
S1,对Massachusetts数据集里面的遥感道路图像进行包括平移,旋转和水平翻转,HSV变换等操作来进行数据集的数据扩增,对数据集里面的遥感道路图像的标签图像进行语义约束角计算的数据预处理操作;
S2,使用卷积神经网络提取遥感道路图像的特征图,并在卷积神经网络中加入位置注意力机制和通道注意力机制来计算不同通道和位置的特征权重,让网络模型能够更好的获取不同位置和不同通道的语义信息;
S3,设计主损失函数,辅助损失函数来优化网络参数,其中辅助损失函数计算的是语义约束角的损失,并且建立评估指标F1和评估指标MIOU来对模型的输出结果进行评估;
S4,用训练好的模型在测试样本集上进行测试,经过网络模型的特征提取和特征上采样来得到最终的分割图像;
所述的S1具体步骤为:
S11,先对数据集中的图像进行包括平移,旋转和水平反转的预处理;
S12,再对得到先前处理的图像进行HSV变换操作,HSV变换处理的公式定义如下:
maxt=max(r,g,b)
mint=min(r,g,b)
v=maxt
Figure FDA0004201228940000011
如果r=v,
Figure FDA0004201228940000012
如果g=v,
Figure FDA0004201228940000021
如果b=v,
Figure FDA0004201228940000022
经过上述计算之后,
h=h*60
如果h<0,
h=h+360
其中r,、g、b分别代表红、绿、蓝;h、s、v分别代表色调、饱和度、明度,maxt代表r、g、b中的最大值,mint代表r、g、b中的最小值;
S13,对图像的标签图像进行语义约束角处理:首先对道路的标签图像进行骨架提取算法,采用K3M算法,K3M算法在每次迭代中需要进行六次检查,Phase0,标记出图像中道路的边界;Phase 1,如果该点的邻域中有3个点相邻,其中点为非0,0代表背景,1代表道路,删除该点;Phase2,如果该点的邻域中有3或4个点相邻,删除该点;Phase 3,如果该点的邻域中有3,4,5个点相邻,删除该点;Phase4,如果该点的邻域中有3,4,5,6个点相邻,删除该点;Phase5,如果该点的邻域中有3,4,5,6,7个点相邻,删除该点;Phase 6,剩余的边界点取消标记,如果Phase 5中没有点被修改,停止迭代,否则返回Phase0;
S14,对道路上的每一个道路点进行语义约束角的计算:首先对于每一条连通标签道路,在其骨架图上提取其中的每个道路的交点记[x1,x2,.........,xn],每两个相邻道路交点之间的点记为[p1,p2,......pn],让pi对其相邻的两个交点分别进行方位角和欧式距离的计算,选取欧式距离小的交点的方位角作为该点的选定方位角并作为其语义约束角,方位角的计算如下:
设两个点的坐标分别为[x1,y1],[x2,y2],首先计算坐标增量dx,dy,两个对应坐标分量相减,终点的减始点的dx=x1-x2,dy=y1-y2,若dx,dy中有一个为零时,根据另一个的正负决定方位角,方位角为0,90,180,270这四个中的一个,若dx、dy都不为零,则方位角a的定义如下:
Figure FDA0004201228940000031
当dx>0,dy>0时:
a=a;
当dx<0,dy>0时:
a=180-a;
当dx<0,dy<0时:
a=180+a;
当dx>0,dy<0时:
a=360-a。
2.如权利要求1所述的基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法,其特征在于,所述的S2具体步骤为:
S21,选用Linknet34作为基础卷积神经网络;
S22,在模型中加入通道注意力机制和位置注意力机制:具体地在位置注意力模块中,任一位置的特征的更新是通过图像所有位置上特征的带权加和进行更新,权重是由两个位置上特征的相似性决定的,也就是说无论两个位置的距离只要他们的特征相似那么就能得到更高的权重,通道注意力模块中也应用了相似的注意力机制来学习任意两个通道映射之间的关系,同样通过所有通道的带权加和来更新某一个通道,也就是说任意两个通道只要他们的特征相似那么就能得到更高的权重,给定一张道路特征图A∈RC×H×W,然后经过一个带有BN层和ReLU层的卷积操作得到两个新的特征B、C,然后将这两个特征reshape到RC×N,其中N=H×W,然后在B和C的转置上应用一次矩阵乘法,之后应用Softmax层计算位置注意力映射图S∈RN×N,位置注意力机制的定义如下:
Figure FDA0004201228940000041
其中Sij表示第i个位置对第j个位置的影响,两个位置的特征越相似对这个值的影响越大;
同时将道路特征图特征A输入到一个带有BN层和ReLU层的卷积层产生另外一个特征图D,同样reshape到RC×N,然后对D和S的转置应用一次矩阵乘法,reshape为RC×H×W,然后乘上一个因子α,与特征A进行一个逐元素的相加操作得到最终额的输出E,其计算定义如下:
Figure FDA0004201228940000042
其中α初始化为0然后逐渐学习,通过上面这个公式可以看出最终的特征E的每一个位置都是所有位置的特征和原始特征的带权加和得到,因此能够聚合全局语义信息;
高层特征的每一个通道映射可以看做一个类别明确的响应并且不同的语义响应之间互相联系,通过获取不同通道映射之间的相互依赖性可以有效增强特征图对于特定语义的表征能力,因此设计该通道注意力模块,与位置注意力模块不同的是,通道注意力模块从原始特征A直接计算X,X∈RC×C,首先对特征图A进行reshape操作至RC×N,然后在A与A的转置上应用一次矩阵乘法,最终应用一个Softmax层以获得通道注意力图X,X∈RC×C,其中通道注意力机制的定义如下:
Figure FDA0004201228940000043
其中xji表示了第i个通道对第j个通道的影响,之后对X的转置和A进行一次矩阵乘法然后reshape到RC×H×W,然后乘上一个因子β,然后与原始特征A进行一个逐元素的加和操作得到最终的特征图E,具体地
Figure FDA0004201228940000051
同理,β初始化为0并且逐渐学习,上个公式表明最终输出的每个通道的特征都是所有通道的特征和原始特征图的带权加和,从而增强了通道特征图之间的全局语义依赖,最终增强了特征图的判别能力。
3.如权利要求1所述的基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法,其特征在于,所述的S3具体步骤为:
S31,选取Dice Cofficient Loss作为模型的主损失函数,其定义如下:
Figure FDA0004201228940000052
其中Pi表示第i张预测图,Gi表示第i张标签图片,N表示Batch Size;
S32,选取Cross EntropyLoss作为模型的辅助损失函数,其定义如下:
Figure FDA0004201228940000053
其中i表示第i个样本,N表示Batch Size,y表示样本预测值的语义约束角,
Figure FDA0004201228940000057
表示样本label值的约束角,其中正类为1,负类为0;
S33,进一步的需要选取判断指标F1 Score和MIOU来判断训练出来的图片与标签图片的相似度;选取F1 Score作为评估指标,F1 Score指标的定义如下:
Figure FDA0004201228940000054
其中precision表示精确率,recall表示召回率,precision和recall的定义如下:
Figure FDA0004201228940000055
Figure FDA0004201228940000056
其中TP为True Positive,代表真阳性:预测为正,实际也为正;
FP为False Positive,代表假阳性:预测为正,实际为负;
FN为False Negative,代表假阴性:预测与负、实际为正;
TN为True Negative,代表真阴性:预测为负、实际也为负;
F1的结果越大,则表示预测图片与所提供的真实标签越为相近;
S34:选取MIOU作为评估指标,MIOU指标就是大家常说的交并比,在语义分割中作为标准度量一直被人使用,交并比不仅仅在语义分割中使用,在目标检测等方向也是常用的指标之一,计算公式为:
Figure FDA0004201228940000061
其中k+1表示共有k+1个类,从0到k类,其中包含一个空类或者背景,pij表示本属于i类但被预测为j类的像素数量,pji表示本属于j类但被预测为i类的像素数量,pii表示真正预测正确的数量。
4.如权利要求1所述的基于双注意力机制与语义约束角的高分辨率遥感图像的道路提取方法,其特征在于,所述的S4具体步骤为:
S41,对模型进行多次训练,合理的调整模型参数,如优化器的选取,学习率的选取等,得到最优的模型;
S42,选取测试图片作为输入图片,经过网络模型的特征提取和特征上采样来得到最终的分割图像。
CN202010521918.6A 2020-06-10 2020-06-10 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法 Active CN111738113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010521918.6A CN111738113B (zh) 2020-06-10 2020-06-10 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010521918.6A CN111738113B (zh) 2020-06-10 2020-06-10 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法

Publications (2)

Publication Number Publication Date
CN111738113A CN111738113A (zh) 2020-10-02
CN111738113B true CN111738113B (zh) 2023-07-07

Family

ID=72648614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010521918.6A Active CN111738113B (zh) 2020-06-10 2020-06-10 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法

Country Status (1)

Country Link
CN (1) CN111738113B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489033A (zh) * 2020-12-13 2021-03-12 南通云达信息技术有限公司 基于分类权重的混凝土养护箱的清洁效果的检测方法
CN112750115B (zh) * 2021-01-15 2024-06-04 浙江大学医学院附属邵逸夫医院 一种基于图神经网络的多模态宫颈癌前病变图像识别方法
CN112733800B (zh) * 2021-01-22 2021-10-22 中国科学院地理科学与资源研究所 基于卷积神经网络的遥感图像道路信息提取方法和装置
CN112598007B (zh) * 2021-03-04 2021-05-18 浙江所托瑞安科技集团有限公司 图片训练集的筛选方法、装置、设备和可读存储介质
CN113139627B (zh) * 2021-06-22 2021-11-05 北京小白世纪网络科技有限公司 纵隔肿物识别方法、系统及装置
CN115223193B (zh) * 2022-06-19 2023-07-04 浙江爱达科技有限公司 一种基于病灶特征重要性的胶囊内窥镜图像病灶识别方法
CN116843696B (zh) * 2023-04-27 2024-04-09 山东省人工智能研究院 基于特征相似性和超参数卷积注意力的心脏mri分割方法
CN116563313B (zh) * 2023-07-11 2023-09-19 安徽大学 基于门控融合注意力的遥感影像大豆种植区域分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245665A (zh) * 2019-05-13 2019-09-17 天津大学 基于注意力机制的图像语义分割方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111160311A (zh) * 2020-01-02 2020-05-15 西北工业大学 基于多注意力机制双流融合网络的黄河冰凌语义分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191664B (zh) * 2018-11-14 2024-04-23 京东方科技集团股份有限公司 标签识别网络的训练方法、标签识别装置/方法及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245665A (zh) * 2019-05-13 2019-09-17 天津大学 基于注意力机制的图像语义分割方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111160311A (zh) * 2020-01-02 2020-05-15 西北工业大学 基于多注意力机制双流融合网络的黄河冰凌语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation;Jaehoon Choi et al.;《Computer Vision and Pattern Recognition》;全文 *
基于注意力机制的遥感图像分割模型;刘航;《激光与光电子学进展》;全文 *

Also Published As

Publication number Publication date
CN111738113A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111738113B (zh) 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法
CN111563442B (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
CN111738111B (zh) 基于多分支级联空洞空间金字塔的高分辨遥感图像的道路提取方法
CN111259906B (zh) 含多级通道注意力的条件生成对抗遥感图像目标分割方法
CN113449594B (zh) 一种多层网络组合的遥感影像地类语义分割与面积计算方法
CN107506729B (zh) 一种基于深度学习的能见度检测方法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN111160311A (zh) 基于多注意力机制双流融合网络的黄河冰凌语义分割方法
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN108492298B (zh) 基于生成对抗网络的多光谱图像变化检测方法
CN111652240B (zh) 一种基于cnn的图像局部特征检测与描述方法
Courtial et al. Constraint-based evaluation of map images generalized by deep learning
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN113033432A (zh) 一种基于渐进监督的遥感影像居民区提取方法
CN112329559A (zh) 一种基于深度卷积神经网络的宅基地目标检测方法
CN113989287A (zh) 城市道路遥感图像分割方法、装置、电子设备和存储介质
CN116189139A (zh) 一种基于Transformer的交通标志检测方法
CN114926826A (zh) 场景文本检测系统
CN113378642B (zh) 一种对农村违法占地建筑物进行检测的方法
CN114549909A (zh) 一种基于自适应阈值的伪标签遥感图像场景分类方法
Xiong et al. Pixel-Level patch detection from full-scale asphalt pavement images based on deep learning
CN113704276A (zh) 地图更新方法、装置、电子设备及计算机可读存储介质
CN116665009A (zh) 一种基于多尺度ssd网络的管道漏磁图像检测方法
Babaali et al. A new approach for road extraction using data augmentation and semantic segmentation
CN115497006B (zh) 基于动态混合策略的城区遥感图像变化深度监测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant