CN117423021B - 一种无人机红树林受损影像识别方法 - Google Patents

一种无人机红树林受损影像识别方法 Download PDF

Info

Publication number
CN117423021B
CN117423021B CN202311748373.2A CN202311748373A CN117423021B CN 117423021 B CN117423021 B CN 117423021B CN 202311748373 A CN202311748373 A CN 202311748373A CN 117423021 B CN117423021 B CN 117423021B
Authority
CN
China
Prior art keywords
layer
input end
output end
convolution
multiplier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311748373.2A
Other languages
English (en)
Other versions
CN117423021A (zh
Inventor
朱焱
叶晋良
肖鹤
马觐
刘思雨
杨亭芝
刘婧媛
刘大召
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ocean University
Original Assignee
Guangdong Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ocean University filed Critical Guangdong Ocean University
Priority to CN202311748373.2A priority Critical patent/CN117423021B/zh
Publication of CN117423021A publication Critical patent/CN117423021A/zh
Application granted granted Critical
Publication of CN117423021B publication Critical patent/CN117423021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/188Vegetation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种无人机红树林受损影像识别方法,包括以下步骤:S1、对无人机影像进行正射图像拼接,生成正射图像;S2、利用研究区域影像的栅格化标签对研究区域影像进行切割,得到瓦片数据;S3、将瓦片数据划分为训练集和测试集;S4、对改进OCRNet‑HRNet模型进行训练;S5、将测试集输入至改进OCRNet‑HRNet模型中,完成受损识别。本发明融合了多尺度特征,提升了特征的上下文信息的获取能力,增加了边缘细节的提取能力,从而更好的提取出红树林受损的部分,实现对红树林生态的监测;本发明中通过添加交叉注意力机制模块来提升红树林受损识别的精度。

Description

一种无人机红树林受损影像识别方法
技术领域
本发明属于图像处理技术领域,具体涉及一种无人机红树林受损影像识别方法。
背景技术
海平面上升等自然环境变化可能对海洋生态系统造成破坏。红树林生态系统出现退化现象出现成片死亡现象。主要位于潮沟两侧;死亡及严重退化区红树林群落形态上呈灰白色不规则斑块状。通过人工统计提取红树林受损部分,较费事费力。通过超高分辨率的卫星遥感图像提取红树林受损部分,费用较高且没有较好的识别精度和效果。
发明内容
本发明为了解决现在红树林受损识别精度不高的问题,提出了一种无人机红树林受损影像识别方法。
本发明的技术方案是:一种无人机红树林受损影像识别方法包括以下步骤:
S1、采集红树林生态区的无人机影像,并对无人机影像进行正射图像拼接,生成正射图像;
S2、在正射图像中确定研究区域影像,并利用研究区域影像的栅格化标签对研究区域影像进行切割,得到瓦片数据;
S3、将瓦片数据划分为训练集和测试集;
S4、构建改进OCRNet-HRNet模型,利用训练集对改进OCRNet-HRNet模型进行训练;
S5、将测试集输入至改进OCRNet-HRNet模型中,完成受损识别。
进一步地,改进OCRNet-HRNet模型包括HRNet骨干网络、像素表示层、软对象区域层、乘法器U1、第一交叉注意力机制模块、第二交叉注意力机制模块、物体区域表示层、乘法器U2、像素区域关系层、乘法器U3、物体上下文表示层和增强表示层;
HRNet骨干网络的输入端作为改进OCRNet-HRNet模型的输入端,其第一输出端和像素表示层的输入端连接,其第二输出端和软对象区域层的输入端连接;像素表示层的第一输出端和乘法器U1的第一输入端连接,其第二输出端和乘法器U2的第一输入端连接,其第三输出端和物体上下文表示层的第一输入端连接;软对象区域层的输出端和乘法器U1的第二输入端连接;乘法器U1的输出端和第一交叉注意力机制模块的输入端连接;第一交叉注意力机制模块的输出端和物体区域表示层的输入端连接;物体区域表示层的第一输出端和乘法器U2的第二输入端连接;乘法器U2的输出端和像素区域关系层的输入端连接;像素区域关系层的输出端和乘法器U3的第一输入端连接;物体区域表示层的第二输出端和乘法器U3的第二输入端连接;乘法器U3的输出端和第二交叉注意力机制模块的输入端连接;第二交叉注意力机制模块的输出端和物体上下表示层的第二输入端连接;物体上下文表示层的输出端和增强表示层的输入端连接;增强表示层的输出端作为改进OCRNet-HRNet模型的输出端。
上述进一步方案的有益效果是:在本发明中,通过在OCRNet语义分割模型中添加第一、第二交叉注意力机制模块,增强了无人机图像上的红树林受损区域的特征数据,增加了网络模型对目标区域特征上下文信息的提取能力,提高了受损红树林监测精度。
物体区域表示层主要是存储像素表示层中提取出来的深层像素特征和软对象区域中得到的粗略区域表示经过乘法器U1合并再经过第一交叉注意力机制模块整合多尺度特征后的每个软对象区域的像素表示特征。像素区域关系层存储了通过计算像素和区域对象之间的相似度得到的相似度矩阵,为后边的计算上下文信息提供帮助。增强表示层中存储了在物体上下文表示层中经过合并多重特征后的提取出来的增强特征。
进一步地,像素表示层包括深特征图层、第一卷积层、第一归一化层和第一激活函数层;
深特征图层的输入端作为像素表示层的输入端;第一激活函数层的输出端作为像素表示层的第一输出端、第二输出端和第三输出端;深特征图层的输出端、第一卷积层、第一归一化层和第一激活函数层的输入端依次连接。第一卷积层的卷积核大小为3*3。
上述进一步方案的有益效果是:在本发明中,像素表示层通过深特征图层对经过HRNet骨干网络输出的像素特征经过第一卷积层提取特征,再通过第一归一化层进行特征数据标准化处理并引入第一激活函数进行非线性变换,实现了特征的提取和变换,得到深层的像素特征,从而增强模型的表达能力和拟合能力。
进一步地,软对象区域层包括浅特征图层、第二卷积层、第二归一化层、第二激活函数层和第三卷积层;
浅特征图层的输入端作为软对象区域层的输入端;第二激活函数层的输出端作为软对象区域层的输出端;浅特征图层的输出端、第二卷积层、第二归一化层、第二激活函数层和第三卷积层的输入端依次连接。第二卷积层的卷积核大小为1*1;第三卷积层的卷积核大小为1*1。
上述进一步方案的有益效果是:在本发明中,通过软对象区域层中的第二卷积层对HRNet骨干网络输出的浅特征图层进行卷积操作提取特征,再通过第二归一化层进行特征标准化并引入第二激活函数层进行非线性变换,在经过第三卷积层对特征再进行进一步提纯提取,估测出的一个粗略的语义分割结果,从而提高对小物体模型的检测和分割能力。
进一步地,乘法器U1包括第一reshape层、第一转置层、第二reshape层、第一SoftMax层、第一聚合层和第二转置层;
第一reshape层的输入端作为乘法器U1的第一输入端;第二reshape层的输入端作为乘法器U1的第二输入端;第一reshape层的输出端、第一转置层以及第一聚合层的第一输入端依次连接;第二reshape层的输出端、第一SoftMax层以及第一聚合层的第二输入端依次连接;第一聚合层的输出端和第二转置层的输入端连接;第二转置层的输出端作为乘法器U1的输出端。第一reshape层将像素表示层中的像素特征图的形状(n, c, h, w)调整为(n, c, h*w);第一转置层将其形状(n, c, h*w) 转换为(n, h*w, c);第二reshape层将软对象区域层中的区域信息的形状(n, k, h, w)调整为(n, k, h*w)。第一聚合层将区域信息权重和像素特征进行加权求和得到聚合特征(n, k, c),第二转置层将聚合特征(n, k,c)转换为(n, c, k)。其中,n代表图像批次大小,c代表图像通道数,k代表类别数,h代表图像高度,w代表图像宽度。
第一聚合层的公式为:对于形状为 (B, N, M) 和 (B, M, K) 的两个批次矩阵A 和B:;其中,i∈{1,2,…,B},j∈{1,2,…,N},k∈{1,2,…,K},表 示第 i个样本的第j行和第k列元素。
上述进一步方案的有益效果是:在本发明中,乘法器U1将像素表示层提取出来的深层的像素特征和软对象区域层中得到的粗略区域表示经过改变数组形状,转置操作后进行加权求和操作,将每个软对象区域的权重值分配给对应的像素特征,得到每个软对象区域的像素区域表示,这些表示包含了相关上下文信息,提高了语义分割任务的准确性和性能。
进一步地,第一交叉注意力机制模块包括第四卷积层、第五卷积层、第六卷积层、第二聚合层、第二SoftMax层、第三聚合层和第一加法器A1;
第四卷积层的输入端、第五卷积层的输入端、第六卷积层的输入端和第一加法器A1的第一输入端均作为第一交叉注意力机制模块的输入端;第四卷积层的输出端和第三聚合层的第一输入端连接;第五卷积层的输出端和第六卷积层的输出端分别与第二聚合层的第一输入端和第二输入端一一对应连接;第二聚合层的输出端和第二SoftMax层的输入端连接;第二SoftMax层的输出端和第三聚合层的输入端连接;第三聚合层的输出端和加法器A1的第二输入端连接;加法器A1的输出端作为第一交叉注意力机制模块的输出端。第四卷积层、第五卷积层和第六卷积层的卷积核大小为1*1;第二聚合层对两个卷积结果进行合并组合;第三聚合层对一个卷积结果和经过两个卷积核聚合加SoftMax操作后的结果聚合组合结果;第一加法器A1把以上聚合的结果和原输入模块的对象特征进行合并组合。第一交叉注意力机制模块和第二交叉注意力机制模块结构相同。
上述进一步方案的有益效果是:在本发明中,通过引入交叉注意力机制模块的方式进行多尺度特征的融合,特征分别经过第五卷积层和第六卷积层的卷积提取特征处理后进行特征合并并进行特征标准化处理,然后融合第四卷积层提取的特征然后将结果再通过加法器A1将原特征与融合特征结果进行合并实现最后多尺度特征的融合,提高对上下文信息地提取能力。因此引入交叉注意力机制模块有效地整合不同层级和不同感受野地不同特征,从而实现更加精准的图像分割结果。
进一步地,乘法器U2包括第六卷积层、第三归一化层、第三激活函数层、第七卷积层、第四归一化层、第四激活函数层、第三reshape层、第三转置层、第八卷积层、第五归一化层、第五激活函数层、第九卷积层、第六归一化层、第六激活函数层、第四reshape层、第四聚合层和第三SoftMax层;
第六卷积层的输入端作为乘法器U2的第一输入端;第八卷积层的输入端作为乘法器U2的第二输入端;第六卷积层的输出端、第三归一化层、第三激活函数层、第七卷积层、第四归一化层、第四激活函数层、第三reshape层和第三转置层的输入端依次连接;第八卷积层的输出端、第五归一化层、第五激活函数层、第九卷积层、第六归一化层、第六激活函数层、第四reshape层和第四聚合层的输入端依次连接;第三转置层的输出端和第四聚合层的输出端分别与第三SoftMax层的第一输入端和第二输入端一一对应连接;第三SoftMax层的输出端作为乘法器U2的输出端。第六卷积层、第七卷积层、第八卷积层和第九卷积层卷积核大小为1*1。
上述进一步方案的有益效果是:在本发明中,乘法器U2将像素表示层中的深层像素特征和物体区域表示层中的整合多尺度特征的每个软对象区域的像素表示特征经过卷积等操作分别提取特征后转置合并进行批量矩阵乘法得到相似度矩阵再进行SoftMax标准化处理,得到了像素表示和区域相似度的分布矩阵,用于后续的计算上下文信息的加权求和。
进一步地,乘法器U3包括第一下采样层、第五reshape层、第四转置层、第五聚合层、第五转置层、第六reshape层和第一上采样层;
第五聚合层的第一输入端作为乘法器U3的第一输入端;第一下采样层的输入端作为乘法器U3的第二输入端;第一下采样层的输出端、第五reshape层、第四转置层和第五聚合层的第二输入端依次连接;第五聚合层的输出端、第五转置层、第六reshape层和第一上采样层的输入端依次连接;第一上采样层的输出端作为乘法器U3的输出端。
上述进一步方案的有益效果是:在本发明中,乘法器U3中将像素表示层中的相似度矩阵和经过下采样、变形、转置后的操作提取出来的特征在第五聚合层中进行合并得到上下文信息,然后经过对上下文信息特征的转置、变形操作后。通过上采样对其特征进行提纯并跟新特征。从而实现了像素和区域之间的关系建立,并将上下文信息融合到像素中,提高像素级别的理解能力。
进一步地,物体上下文表示层包括第一Concat层、第十一卷积层、第八归一化层、第八激活函数层和第一Dropout层;
第一Concat层的第一输入端和第二输入端分别作为物体上下文表示层的第一输入端和第二输入端;第一Concat层的输出端、第十一卷积层、第八归一化层、第八激活函数层和第一Dropout层的输入端依次连接;第一Dropout层的输出端作为物体上下文表示层的输出端。第十一卷积层的卷积核大小为1*1。
上述进一步方案的有益效果是:在本发明中,物体上下文表示层将得到的上下文信息特征和像素表示层中的像素特征通过第一Concat层进行融合拼接,并经过卷积提取特征、标准化处理及非线性变换的操作后引入Dropout操作,实现了合并多重特征,并保证了特征多样性的同时,减小了模型的复杂性,提升了模型的性能和泛化能力。
本发明的有益效果是:本发明采集红树林生态保护区的无人机图像,对无人机图像进行正射拼接后,制作受损图像标签进行改进的OCRNet模型的训练,模型中添加的两个交叉注意力机制模块,融合了多尺度特征,提升了特征的上下文信息的获取能力,增加了边缘细节的提取能力,从而更好的提取出红树林受损的部分,实现对红树林生态的监测;本发明中通过添加交叉注意力机制模块来提升红树林受损识别的精度。
附图说明
图1为无人机红树林受损影像识别方法的流程图;
图2为改进OCRNet-HRNet模型的结构图;
图3为像素表示层的结构图;
图4为软对象区域层的结构图;
图5为乘法器U1的结构图;
图6为第一交叉注意力机制模块的结构图;
图7为乘法器U2的结构图;
图8为乘法器U3的结构图;
图9为物体上下文表示层的结构图;
图10为改进OCRNet-HRNet网络模型预训练流程图;
图11为本发明和其他在验证集上的结果对比图;
图12为本发明和其他方法对128*128大小的预测对比图;
图13为本发明和其他方法对256*256大小的预测对比图;
图14为本发明对无人机实拍图片不同尺度目标预测结果图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
如图1所示,本发明提供了一种无人机红树林受损影像识别方法,包括以下步骤:
S1、采集红树林生态区的无人机影像,并对无人机影像进行正射图像拼接,生成正射图像;
S2、在正射图像中确定研究区域影像,并利用研究区域影像的栅格化标签对研究区域影像进行切割,得到瓦片数据;
S3、将瓦片数据划分为训练集和测试集;
S4、构建改进OCRNet-HRNet模型,利用训练集对改进OCRNet-HRNet模型进行训练;
S5、将测试集输入至改进OCRNet-HRNet模型中,完成受损识别。
在本发明实施例中,如图2所示,改进OCRNet-HRNet模型包括HRNet骨干网络、像素表示层、软对象区域层、乘法器U1、第一交叉注意力机制模块、第二交叉注意力机制模块、物体区域表示层、乘法器U2、像素区域关系层、乘法器U3、物体上下文表示层和增强表示层;
HRNet骨干网络的输入端作为改进OCRNet-HRNet模型的输入端,其第一输出端和像素表示层的输入端连接,其第二输出端和软对象区域层的输入端连接;像素表示层的第一输出端和乘法器U1的第一输入端连接,其第二输出端和乘法器U2的第一输入端连接,其第三输出端和物体上下文表示层的第一输入端连接;软对象区域层的输出端和乘法器U1的第二输入端连接;乘法器U1的输出端和第一交叉注意力机制模块的输入端连接;第一交叉注意力机制模块的输出端和物体区域表示层的输入端连接;物体区域表示层的第一输出端和乘法器U2的第二输入端连接;乘法器U2的输出端和像素区域关系层的输入端连接;像素区域关系层的输出端和乘法器U3的第一输入端连接;物体区域表示层的第二输出端和乘法器U3的第二输入端连接;乘法器U3的输出端和第二交叉注意力机制模块的输入端连接;第二交叉注意力机制模块的输出端和物体上下表示层的第二输入端连接;物体上下文表示层的输出端和增强表示层的输入端连接;增强表示层的输出端作为改进OCRNet-HRNet模型的输出端。
在本发明中,通过在OCRNet语义分割模型中添加第一、第二交叉注意力机制模块,增强了无人机图像上的红树林受损区域的特征数据,增加了网络模型对目标区域特征上下文信息的提取能力,提高了受损红树林监测精度。
物体区域表示层主要是存储像素表示层中提取出来的深层像素特征和软对象区域中得到的粗略区域表示经过乘法器U1合并再经过第一交叉注意力机制模块整合多尺度特征后的每个软对象区域的像素表示特征。像素区域关系层存储了通过计算像素和区域对象之间的相似度得到的相似度矩阵,为后边的计算上下文信息提供帮助。增强表示层中存储了在物体上下文表示层中经过合并多重特征后的提取出来的增强特征。
在本发明实施例中,如图3所示,像素表示层包括深特征图层、第一卷积层、第一归一化层和第一激活函数层;
深特征图层的输入端作为像素表示层的输入端;第一激活函数层的输出端作为像素表示层的第一输出端、第二输出端和第三输出端;深特征图层的输出端、第一卷积层、第一归一化层和第一激活函数层的输入端依次连接。第一卷积层的卷积核大小为3*3。
在本发明中,像素表示层通过深特征图层对经过HRNet骨干网络输出的像素特征经过第一卷积层提取特征,再通过第一归一化层进行特征数据标准化处理并引入第一激活函数进行非线性变换,实现了特征的提取和变换,得到深层的像素特征,从而增强模型的表达能力和拟合能力。
在本发明实施例中,如图4所示,软对象区域层包括浅特征图层、第二卷积层、第二归一化层、第二激活函数层和第三卷积层;
浅特征图层的输入端作为软对象区域层的输入端;第二激活函数层的输出端作为软对象区域层的输出端;浅特征图层的输出端、第二卷积层、第二归一化层、第二激活函数层和第三卷积层的输入端依次连接。第二卷积层的卷积核大小为1*1;第三卷积层的卷积核大小为1*1。
在本发明中,通过软对象区域层中的第二卷积层对HRNet骨干网络输出的浅特征图层进行卷积操作提取特征,再通过第二归一化层进行特征标准化并引入第二激活函数层进行非线性变换,在经过第三卷积层对特征再进行进一步提纯提取,估测出的一个粗略的语义分割结果,从而提高对小物体模型的检测和分割能力。
在本发明实施例中,如图5所示,乘法器U1包括第一reshape层、第一转置层、第二reshape层、第一SoftMax层、第一聚合层和第二转置层;
第一reshape层的输入端作为乘法器U1的第一输入端;第二reshape层的输入端作为乘法器U1的第二输入端;第一reshape层的输出端、第一转置层以及第一聚合层的第一输入端依次连接;第二reshape层的输出端、第一SoftMax层以及第一聚合层的第二输入端依次连接;第一聚合层的输出端和第二转置层的输入端连接;第二转置层的输出端作为乘法器U1的输出端。第一reshape层将像素表示层中的像素特征图的形状(n, c, h, w)调整为(n, c, h*w);第一转置层将其形状(n, c, h*w) 转换为(n, h*w, c);第二reshape层将软对象区域层中的区域信息的形状(n, k, h, w)调整为(n, k, h*w)。第一聚合层将区域信息权重和像素特征进行加权求和得到聚合特征(n, k, c),第二转置层将聚合特征(n, k,c)转换为(n, c, k)。其中,n代表图像批次大小,c代表图像通道数,k代表类别数,h代表图像高度,w代表图像宽度。
第一聚合层的公式为:对于形状为 (B, N, M) 和 (B, M, K) 的两个批次矩阵A 和B:;其中,i∈{1,2,…,B},j∈{1,2,…,N},k∈{1,2,…,K},表 示第 i个样本的第j行和第k列元素。
在本发明中,乘法器U1将像素表示层提取出来的深层的像素特征和软对象区域层中得到的粗略区域表示经过改变数组形状,转置操作后进行加权求和操作,将每个软对象区域的权重值分配给对应的像素特征,得到每个软对象区域的像素区域表示,这些表示包含了相关上下文信息,提高了语义分割任务的准确性和性能。
在本发明实施例中,如图6所示,第一交叉注意力机制模块包括第四卷积层、第五卷积层、第六卷积层、第二聚合层、第二SoftMax层、第三聚合层和第一加法器A1;
第四卷积层的输入端、第五卷积层的输入端、第六卷积层的输入端和第一加法器A1的第一输入端均作为第一交叉注意力机制模块的输入端;第四卷积层的输出端和第三聚合层的第一输入端连接;第五卷积层的输出端和第六卷积层的输出端分别与第二聚合层的第一输入端和第二输入端一一对应连接;第二聚合层的输出端和第二SoftMax层的输入端连接;第二SoftMax层的输出端和第三聚合层的输入端连接;第三聚合层的输出端和加法器A1的第二输入端连接;加法器A1的输出端作为第一交叉注意力机制模块的输出端。第四卷积层、第五卷积层和第六卷积层的卷积核大小为1*1;第二聚合层对两个卷积结果进行合并组合;第三聚合层对一个卷积结果和经过两个卷积核聚合加SoftMax操作后的结果聚合组合结果;第一加法器A1把以上聚合的结果和原输入模块的对象特征进行合并组合。第一交叉注意力机制模块和第二交叉注意力机制模块结构相同。
在本发明中,通过引入交叉注意力机制模块的方式进行多尺度特征的融合,特征分别经过第五卷积层和第六卷积层的卷积提取特征处理后进行特征合并并进行特征标准化处理,然后融合第四卷积层提取的特征然后将结果再通过加法器A1将原特征与融合特征结果进行合并实现最后多尺度特征的融合,提高对上下文信息地提取能力。因此引入交叉注意力机制模块有效地整合不同层级和不同感受野地不同特征,从而实现更加精准的图像分割结果。
在本发明实施例中,如图7所示,乘法器U2包括第六卷积层、第三归一化层、第三激活函数层、第七卷积层、第四归一化层、第四激活函数层、第三reshape层、第三转置层、第八卷积层、第五归一化层、第五激活函数层、第九卷积层、第六归一化层、第六激活函数层、第四reshape层、第四聚合层和第三SoftMax层;
第六卷积层的输入端作为乘法器U2的第一输入端;第八卷积层的输入端作为乘法器U2的第二输入端;第六卷积层的输出端、第三归一化层、第三激活函数层、第七卷积层、第四归一化层、第四激活函数层、第三reshape层和第三转置层的输入端依次连接;第八卷积层的输出端、第五归一化层、第五激活函数层、第九卷积层、第六归一化层、第六激活函数层、第四reshape层和第四聚合层的输入端依次连接;第三转置层的输出端和第四聚合层的输出端分别与第三SoftMax层的第一输入端和第二输入端一一对应连接;第三SoftMax层的输出端作为乘法器U2的输出端。第六卷积层、第七卷积层、第八卷积层和第九卷积层卷积核大小为1*1。
在本发明中,乘法器U2将像素表示层中的深层像素特征和物体区域表示层中的整合多尺度特征的每个软对象区域的像素表示特征经过卷积等操作分别提取特征后转置合并进行批量矩阵乘法得到相似度矩阵再进行SoftMax标准化处理,得到了像素表示和区域相似度的分布矩阵,用于后续的计算上下文信息的加权求和。
在本发明实施例中,如图8所示,乘法器U3包括第一下采样层、第五reshape层、第四转置层、第五聚合层、第五转置层、第六reshape层和第一上采样层;
第五聚合层的第一输入端作为乘法器U3的第一输入端;第一下采样层的输入端作为乘法器U3的第二输入端;第一下采样层的输出端、第五reshape层、第四转置层和第五聚合层的第二输入端依次连接;第五聚合层的输出端、第五转置层、第六reshape层和第一上采样层的输入端依次连接;第一上采样层的输出端作为乘法器U3的输出端。
在本发明中,乘法器U3中将像素表示层中的相似度矩阵和经过下采样、变形、转置后的操作提取出来的特征在第五聚合层中进行合并得到上下文信息,然后经过对上下文信息特征的转置、变形操作后。通过上采样对其特征进行提纯并跟新特征。从而实现了像素和区域之间的关系建立,并将上下文信息融合到像素中,提高像素级别的理解能力。
第一下采样层包括第十卷积层、第七归一化层和第七激活函数层;第十卷积层的输入端作为第一下采样层的输入端,第十卷积层的输出端连接第七归一化层的输入端,第七归一化层的输出端连接第七激活函数层的输入端,第七激活函数层的输出端作为第一下采样层的输出端。第一下采样层和第一上采样层的结构相同,处理通道数不同。第十卷积层卷积核大小为1*1。
本发明乘法器U3中将像素表示层中的相似度矩阵和经过下采样、变形和转置后的操作提取出来的特征在第五聚合层中进行合并得到上下文信息,然后经过对上下文信息特征的转置和变形操作后。通过上采样对其特征进行提纯并跟新特征。从而实现了像素和区域之间的关系建立,并将上下文信息融合到像素中,提高像素级别的理解能力。
在本发明实施例中,如图9所示,物体上下文表示层包括第一Concat层、第十一卷积层、第八归一化层、第八激活函数层和第一Dropout层;
第一Concat层的第一输入端和第二输入端分别作为物体上下文表示层的第一输入端和第二输入端;第一Concat层的输出端、第十一卷积层、第八归一化层、第八激活函数层和第一Dropout层的输入端依次连接;第一Dropout层的输出端作为物体上下文表示层的输出端。第十一卷积层的卷积核大小为1*1。
在本发明中,物体上下文表示层将得到的上下文信息特征和像素表示层中的像素特征通过第一Concat层进行融合拼接,并经过卷积提取特征、标准化处理及非线性变换的操作后引入Dropout操作,实现了合并多重特征,并保证了特征多样性的同时,减小了模型的复杂性,提升了模型的性能和泛化能力。
如图10所示,在有限数据下,为了提高网络的收敛速度和防止数据的过拟合,使用ImageNet数据集进行预训练,对网络模型进行微调,并迁移到本文的研究上。
本发明实验的平台为装有Ubuntu 16.04的Linux服务器上运行,处理器为Intel(R)Xeon(R) CPU E5 2673v3,32GB运行内存,显卡为32GB的Tesla V100,PaddlePaddle2.2.2版本,python为3.7.4版本,结合 Paddleseg2.8套件。OCRNet-HRNet以及3个对比模型的超参数设置入下,batch_size设置为16,使用带动量的 SGD优化器、动量大小为 0.9、L2正则化大小为0.0001,学习率衰减策略为多项式衰减,初始学习率为0.0025,衰减率为 0.9,最终学习率为 0,损失函数为交叉熵损失函数。本试验对于每种网络进40000次迭代,迭代训练周期 iters最大值为1000,200次iters之后在验证集上进行评估。
用验证集进行模型评估,用测试集进行泛化能力的评估,与原模型和主流模型对比,得到结果;
如图11所示,本发明的方法和FastCNN、PSPNet、SegNet三个主流网络模型在验证集上进行对比;评价指标为mIoU(计算预测结果和真实标签之间的交并比的平均值,取值范围在0~1之间),Accuracy(计算预测结果和真实标签的像素级别准确率。取值范围在0~1之间),Kappa(用于衡量模型像素真实值和像素预测值两个集合是否具有一致性的指标,取值范围在0~1之间)。
如图12所示,本发明的方法和FastCNN、PSPNet、SegNet三个主流模型对128*128像素大小的预测对比图。
如图13所示,本发明的方法和FastCNN、PSPNet、SegNet三个主流模型对256*256像素大小的预测对比图。
如图14所示,本发明的方法对无人机实拍照片中不同尺度大小照片进行预测。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (6)

1.一种无人机红树林受损影像识别方法,其特征在于,包括以下步骤:
S1、采集红树林生态区的无人机影像,并对无人机影像进行正射图像拼接,生成正射图像;
S2、在正射图像中确定研究区域影像,并利用研究区域影像的栅格化标签对研究区域影像进行切割,得到瓦片数据;
S3、将瓦片数据划分为训练集和测试集;
S4、构建改进OCRNet-HRNet模型,利用训练集对改进OCRNet-HRNet模型进行训练;
S5、将测试集输入至改进OCRNet-HRNet模型中,完成受损识别;
所述改进OCRNet-HRNet模型包括HRNet骨干网络、像素表示层、软对象区域层、乘法器U1、第一交叉注意力机制模块、第二交叉注意力机制模块、物体区域表示层、乘法器U2、像素区域关系层、乘法器U3、物体上下文表示层和增强表示层;
所述HRNet骨干网络的输入端作为改进OCRNet-HRNet模型的输入端,其第一输出端和像素表示层的输入端连接,其第二输出端和软对象区域层的输入端连接;所述像素表示层的第一输出端和乘法器U1的第一输入端连接,其第二输出端和乘法器U2的第一输入端连接,其第三输出端和物体上下文表示层的第一输入端连接;所述软对象区域层的输出端和乘法器U1的第二输入端连接;所述乘法器U1的输出端和第一交叉注意力机制模块的输入端连接;所述第一交叉注意力机制模块的输出端和物体区域表示层的输入端连接;所述物体区域表示层的第一输出端和乘法器U2的第二输入端连接;所述乘法器U2的输出端和像素区域关系层的输入端连接;所述像素区域关系层的输出端和乘法器U3的第一输入端连接;所述物体区域表示层的第二输出端和乘法器U3的第二输入端连接;所述乘法器U3的输出端和第二交叉注意力机制模块的输入端连接;所述第二交叉注意力机制模块的输出端和物体上下表示层的第二输入端连接;所述物体上下文表示层的输出端和增强表示层的输入端连接;所述增强表示层的输出端作为改进OCRNet-HRNet模型的输出端;
所述像素表示层包括深特征图层、第一卷积层、第一归一化层和第一激活函数层;
所述深特征图层的输入端作为像素表示层的输入端;所述第一激活函数层的输出端作为像素表示层的第一输出端、第二输出端和第三输出端;所述深特征图层的输出端、第一卷积层、第一归一化层和第一激活函数层的输入端依次连接;
所述软对象区域层包括浅特征图层、第二卷积层、第二归一化层、第二激活函数层和第三卷积层;
所述浅特征图层的输入端作为软对象区域层的输入端;所述第二激活函数层的输出端作为软对象区域层的输出端;所述浅特征图层的输出端、第二卷积层、第二归一化层、第二激活函数层和第三卷积层的输入端依次连接。
2.根据权利要求1所述的无人机红树林受损影像识别方法,其特征在于,所述乘法器U1包括第一reshape层、第一转置层、第二reshape层、第一SoftMax层、第一聚合层和第二转置层;
所述第一reshape层的输入端作为乘法器U1的第一输入端;所述第二reshape层的输入端作为乘法器U1的第二输入端;所述第一reshape层的输出端、第一转置层以及第一聚合层的第一输入端依次连接;所述第二reshape层的输出端、第一SoftMax层以及第一聚合层的第二输入端依次连接;所述第一聚合层的输出端和第二转置层的输入端连接;所述第二转置层的输出端作为乘法器U1的输出端。
3.根据权利要求1所述的无人机红树林受损影像识别方法,其特征在于,所述第一交叉注意力机制模块包括第四卷积层、第五卷积层、第六卷积层、第二聚合层、第二SoftMax层、第三聚合层和第一加法器A1;
所述第四卷积层的输入端、第五卷积层的输入端、第六卷积层的输入端和第一加法器A1的第一输入端均作为第一交叉注意力机制模块的输入端;所述第四卷积层的输出端和第三聚合层的第一输入端连接;所述第五卷积层的输出端和第六卷积层的输出端分别与第二聚合层的第一输入端和第二输入端一一对应连接;所述第二聚合层的输出端和第二SoftMax层的输入端连接;所述第二SoftMax层的输出端和第三聚合层的输入端连接;所述第三聚合层的输出端和加法器A1的第二输入端连接;所述加法器A1的输出端作为第一交叉注意力机制模块的输出端。
4.根据权利要求1所述的无人机红树林受损影像识别方法,其特征在于,所述乘法器U2包括第六卷积层、第三归一化层、第三激活函数层、第七卷积层、第四归一化层、第四激活函数层、第三reshape层、第三转置层、第八卷积层、第五归一化层、第五激活函数层、第九卷积层、第六归一化层、第六激活函数层、第四reshape层、第四聚合层和第三SoftMax层;
所述第六卷积层的输入端作为乘法器U2的第一输入端;所述第八卷积层的输入端作为乘法器U2的第二输入端;所述第六卷积层的输出端、第三归一化层、第三激活函数层、第七卷积层、第四归一化层、第四激活函数层、第三reshape层和第三转置层的输入端依次连接;所述第八卷积层的输出端、第五归一化层、第五激活函数层、第九卷积层、第六归一化层、第六激活函数层、第四reshape层和第四聚合层的输入端依次连接;所述第三转置层的输出端和第四聚合层的输出端分别与第三SoftMax层的第一输入端和第二输入端一一对应连接;所述第三SoftMax层的输出端作为乘法器U2的输出端。
5.根据权利要求1所述的无人机红树林受损影像识别方法,其特征在于,所述乘法器U3包括第一下采样层、第五reshape层、第四转置层、第五聚合层、第五转置层、第六reshape层和第一上采样层;
所述第五聚合层的第一输入端作为乘法器U3的第一输入端;所述第一下采样层的输入端作为乘法器U3的第二输入端;所述第一下采样层的输出端、第五reshape层、第四转置层和第五聚合层的第二输入端依次连接;所述第五聚合层的输出端、第五转置层、第六reshape层和第一上采样层的输入端依次连接;所述第一上采样层的输出端作为乘法器U3的输出端。
6.根据权利要求1所述的无人机红树林受损影像识别方法,其特征在于,所述物体上下文表示层包括第一Concat层、第十一卷积层、第八归一化层、第八激活函数层和第一Dropout层;
所述第一Concat层的第一输入端和第二输入端分别作为物体上下文表示层的第一输入端和第二输入端;所述第一Concat层的输出端、第十一卷积层、第八归一化层、第八激活函数层和第一Dropout层的输入端依次连接;所述第一Dropout层的输出端作为物体上下文表示层的输出端。
CN202311748373.2A 2023-12-19 2023-12-19 一种无人机红树林受损影像识别方法 Active CN117423021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311748373.2A CN117423021B (zh) 2023-12-19 2023-12-19 一种无人机红树林受损影像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311748373.2A CN117423021B (zh) 2023-12-19 2023-12-19 一种无人机红树林受损影像识别方法

Publications (2)

Publication Number Publication Date
CN117423021A CN117423021A (zh) 2024-01-19
CN117423021B true CN117423021B (zh) 2024-02-23

Family

ID=89530697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311748373.2A Active CN117423021B (zh) 2023-12-19 2023-12-19 一种无人机红树林受损影像识别方法

Country Status (1)

Country Link
CN (1) CN117423021B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852225A (zh) * 2019-10-31 2020-02-28 中国地质大学(武汉) 基于深度卷积神经网络的遥感影像红树林提取方法及系统
CN114882380A (zh) * 2022-07-08 2022-08-09 山东省国土测绘院 一种基于改进hrnet模型的湿地资源遥感识别算法
CN114937206A (zh) * 2022-06-15 2022-08-23 西安电子科技大学 基于迁移学习和语义分割的高光谱图像目标检测方法
CN115393269A (zh) * 2022-07-13 2022-11-25 中国科学院大学 一种基于多模态影像数据的可扩展多层级图神经网络模型
CN116342882A (zh) * 2023-03-24 2023-06-27 石河子大学 一种棉花根系图像自动分割方法、系统及设备
CN116935226A (zh) * 2023-08-01 2023-10-24 西安电子科技大学 一种基于HRNet的改进型遥感图像道路提取方法、系统、设备及介质
CN117011555A (zh) * 2023-10-07 2023-11-07 广东海洋大学 一种基于遥感图像识别的红树林生态检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852225A (zh) * 2019-10-31 2020-02-28 中国地质大学(武汉) 基于深度卷积神经网络的遥感影像红树林提取方法及系统
CN114937206A (zh) * 2022-06-15 2022-08-23 西安电子科技大学 基于迁移学习和语义分割的高光谱图像目标检测方法
CN114882380A (zh) * 2022-07-08 2022-08-09 山东省国土测绘院 一种基于改进hrnet模型的湿地资源遥感识别算法
CN115393269A (zh) * 2022-07-13 2022-11-25 中国科学院大学 一种基于多模态影像数据的可扩展多层级图神经网络模型
CN116342882A (zh) * 2023-03-24 2023-06-27 石河子大学 一种棉花根系图像自动分割方法、系统及设备
CN116935226A (zh) * 2023-08-01 2023-10-24 西安电子科技大学 一种基于HRNet的改进型遥感图像道路提取方法、系统、设备及介质
CN117011555A (zh) * 2023-10-07 2023-11-07 广东海洋大学 一种基于遥感图像识别的红树林生态检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Evaluation of Water Quality for Mangrove Ecosystem Using Artificial Neural Networks;Ru Zhang等;《2018 International Conference on Advanced Mechatronic Systems (ICAMechS)》;20180902;第257-261页 *
基于弱监督学习的交互式图像分割的方法研究;龚磊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20230215(第02期);第I138-1721页 *
柿树叶部病害图像分割与识别系统的设计与实现;贾志达;《中国优秀硕士学位论文全文数据库 农业科技辑》;20230115(第01期);第D046-367页 *

Also Published As

Publication number Publication date
CN117423021A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN111160311B (zh) 基于多注意力机制双流融合网络的黄河冰凌语义分割方法
CN111738124B (zh) 基于Gabor变换和注意力的遥感图像云检测方法
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
CN110135267B (zh) 一种大场景sar图像细微目标检测方法
CN108564097B (zh) 一种基于深度卷积神经网络的多尺度目标检测方法
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN113469088B (zh) 一种无源干扰场景下的sar图像舰船目标检测方法及系统
US20230162522A1 (en) Person re-identification method of integrating global features and ladder-shaped local features and device thereof
CN114821164A (zh) 基于孪生网络的高光谱图像分类方法
CN114926693A (zh) 基于加权距离的sar图像小样本识别方法及装置
Liu et al. CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection
CN115512096A (zh) 基于CNN与Transformer的低分辨率图像分类方法及系统
Lin et al. Semantic segmentation network with multi-path structure, attention reweighting and multi-scale encoding
Zuo et al. A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields
Wani et al. Segmentation of satellite images of solar panels using fast deep learning model
CN114494777A (zh) 一种基于3D CutMix-Transformer的高光谱图像分类方法及系统
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN115546569B (zh) 一种基于注意力机制的数据分类优化方法及相关设备
CN116882486A (zh) 一种迁移学习权重的构建方法和装置及设备
CN117423021B (zh) 一种无人机红树林受损影像识别方法
CN112365508A (zh) 基于视觉注意与残差网络的sar遥感图像水域分割方法
CN117132910A (zh) 一种用于无人机的车辆检测方法、装置及存储介质
CN116188981A (zh) 一种高光谱高空间分辨率遥感影像分类方法及装置
CN115424275A (zh) 一种基于深度学习技术的渔船船牌号识别方法及系统
CN116168235A (zh) 一种基于双分支注意力网络的高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant