CN114359702A - 一种基于Transformer的宅基地遥感图像违建识别方法及系统 - Google Patents

一种基于Transformer的宅基地遥感图像违建识别方法及系统 Download PDF

Info

Publication number
CN114359702A
CN114359702A CN202111435132.3A CN202111435132A CN114359702A CN 114359702 A CN114359702 A CN 114359702A CN 202111435132 A CN202111435132 A CN 202111435132A CN 114359702 A CN114359702 A CN 114359702A
Authority
CN
China
Prior art keywords
remote sensing
homestead
transformer
sensing image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111435132.3A
Other languages
English (en)
Inventor
李琦伟
林海
陈德锋
林继红
邱少健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Novi Aichuang Guangzhou Technology Co ltd
Original Assignee
Novi Aichuang Guangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Novi Aichuang Guangzhou Technology Co ltd filed Critical Novi Aichuang Guangzhou Technology Co ltd
Priority to CN202111435132.3A priority Critical patent/CN114359702A/zh
Publication of CN114359702A publication Critical patent/CN114359702A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及G06K9/00领域,具体为一种基于Transformer的宅基地遥感图像违建识别方法及系统。本发明提供了一种基于Transformer的宅基地遥感图像违建识别方法及系统,通过利用Transformer作为骨干网络的全局自注意力机制捕获农房宅基地,结合Faster RCNN范式进行目标检测与标注,避免识别结果受到遥感图像尺度与检测目标大小变化的影响,有效提高目标提取、定位和判定精确度;解决了传统方法识别准确度不足,人力资源投入大,效率低下,费时费力等问题。为农村违建宅基地的快速准确识别提供了一种新的技术手段,有助于相关管理部门提高工作效率,具有很高的实际应用价值。

Description

一种基于Transformer的宅基地遥感图像违建识别方法及 系统
技术领域
本发明涉及G06K9/00领域,具体为一种基于Transformer的宅基地遥感图像违建识别方法及系统。
背景技术
目前,宅基地违规建设的识别方法主要是通过人工对高分辨率遥感图像的目测比较与标注。近年来,随着机器学习以及深度学习的发展,不少研究人员提出基于相关研究的方法,虽然取得了一定的效果,但是传统的人工对高分辨率遥感图像的目测比较与标注存在人力资源投入大、效率低下、费时费力等问题。
中国专利CN111692978A公开了一种基于多源影像数据的违章建筑识别方法,主要通过卫星图像识别并根据建筑物的本地太阳高度角信息以及建筑物的影子,求解获得建筑物的实际占地面积以及建筑物高度,并与备案信息相对比识别,虽然可以应用于城市建筑违章识别中,但是这种基于像素特征的统计学习或者机器学习方法存在过程复杂,容易因为输入照片特征的变化而出现精度低下的问题。中国专利CN109101984A公开了一种基于卷积神经网络的图像识别方法及装置,虽然一定程度提高了识别准确度,但是基于卷积神经网络的识别系统往往需要经过数次局部的卷积操作之后,经过堆叠的卷积层进行上采样和下采样,最后输出结果;然而农村违建宅基地在卫星或者无人机拍摄的遥感图像中占据很小的面积,多次下采样容易造成特征的丢失,严重影响识别的精度。
因此,提供一种基于Transformer的宅基地遥感图像违建识别方法,充分利用计算机视觉与深度学习方法根据遥感图像精确识别与定位宅基地,解决传统方法下精确度低、人力资源投入大、效率低下、费时费力等问题,满足农村宅基地违建识别领域的实际应用要求,具有重要的现实研究和应用意义。
发明内容
为了解决上述问题,本发明提供了一种基于Transformer的宅基地遥感图像违建识别方法及系统,通过利用Transformer作为骨干网络的全局自注意力机制捕获需要重点关注的区域,即遥感中的宅基地,最后结合Faster RCNN范式进行目标检测与标注。
本发明一方面提供了一种基于Transformer的宅基地遥感图像违建识别方法,至少包括以下步骤:
步骤1:获取农村宅基地的遥感图像;
步骤2:通过获取的遥感图像数据,构建数据集并对数据集进行划分;
步骤3:图像预处理与图像增强;
步骤4:将经过预处理与增强的图像输入到Transformer模型中进行全局自注意力特征提取得到特征图;
步骤5:采用RPN网络通过特征图提出区域提案;
步骤6:收集特征图和区域提案,提取提案特征图;
步骤7:将提案特征图送入分类器进行分类并且得到候选框
步骤8:构建基于Transformer的宅基地遥感图像违建识别系统。
作为一种优选的技术方案,所述步骤1中获取农村宅基地的遥感图像的的方式包括卫星拍摄、航空拍摄以及近景拍摄,可以充分适应不同地区农村的实际情况,结合卫星拍摄、航空拍摄以及近景拍摄以提供全方位、高准确度、高清晰度的农村宅基地遥感图像。
作为一种优选的技术方案,所述步骤2中数据集在机器学习/深度学习流程中进行划分,划分为训练集和测试集;训练集的作用是模型的训练,给予模型输入特征以及真实值,让模型学习其对应关系,在训练的过程中,训练集随机划分得到验证集,所述训练集与验证集的比例为9:1,作用是在模型对训练集进行一次完整的训练之后,验证模型的收敛程度;测试集的作用是在训练结束之后,测试模型的拟合程度。
作为一种优选的技术方案,所述步骤3中图像预处理与图像增强方式至少包括:
(1)将图像重新调整到符合模型输入的大小;
(2)对图像进行几何变换;
(3)对图像进行标准化和归一化;
(4)对图像的属性进行随机调整;
(5)对图像进行随机的遮挡。
优选的,所述方式2中几何变换至少包括平移、翻转和旋转;优选的,所述方式4中随机调整至少包括亮度调整、对比度调整。
本申请在设计及探究过程中发现,通过采用上述方式进行图像预处理和图像增强,使输入的遥感图像符合Transformer模型的要求,另一方面提高了Transformer模型的泛化能力,便于后续特征提取。
作为一种优选的技术方案,所述步骤4中Transformer模型具体为SwinTransformer模型,采用分层和滑窗的设计,引入了计算机视觉先验的局部操作,在不丢失全局信息的同时,更好的提取局部的信息,因此也更加适用于农房宅基地目标检测的任务。
作为一种优选的技术方案,所述Swin Transformer模型经过ImageNet-22K预训练的版本进行微调迁移学习,以求更快的收敛以及达到更好的效果。优选的,在后续的训练中,我们采用AdamW优化器训练模型进行训练;
作为一种优选的技术方案,所述Swin Transformer模型提取特征的过程包括:输入224*224*1的图像,经过四层特征提取块的提取得到最终的特征图,所述特征图的尺寸分别为56*56*4、28*28*8、14*14*16、7*7*32。优选的,所述四层特征提取块中每一层中堆叠数个Swin自注意力模块和多层感知机,输入的图像经过Swin自注意力模块会通过滑窗操作将图片进行分窗、自注意力机制计算、移位和重新组合,通过引入计算机视觉先验,即层次性、局部性和平移不变性,更加适用于目标检测的任务中的特征提取。输入的图像向量与参数权重矩阵Wq,Wk,Wv相乘得到三个矩阵Q,V,K,最后再通过计算得到最后的注意力特征。优选的,所述Swin自注意力模块中引入一个相对位置偏置B,进一步加强了Swin Transformer模型的泛化性能。
所述自注意力机制算法公式如下:
Figure BDA0003381526880000031
其中,Attention(Q,K,V)为自注意力机制的输出结果。Q为查询(query)矩阵,K为键值(key)矩阵,d为K的维度,T表示转置,B表示相对位置偏置,V表示真值(value)矩阵,SoftMax为激活函数。
本申请中采用的多层感知机是简单高效的前馈人工神经网络模型,将输入的多个数据集通过前馈人工神经网络模型映射到单一数据集上进行输出。
作为一种优选的技术方案,所述步骤5中采用RPN网络通过特征图提出区域提案具体分为路径1和路径2;所述路径1为通过softmax激活函数分类锚点获得positive和negative分类;所述路径2为用于计算对应锚点的边框回归偏移量;通过提案层综合positive锚点和对应边框回归偏移量获取精确的提案,同时剔除太小和超出边界的提案,实现目标定位的功能。
作为一种优选的技术方案,所述步骤6具体为:将通过Swin Transformer模型提取的特征图和采用RPN网络获得的区域提案输入ROI Pooling层,通过ROI Pooling层对特征信息进行综合后即可获得提案特征图,之后通过后续的全连接层对获得的提案特征图进行目标类别判定。
所述步骤5、步骤6通过Faster RCNN范式目标检测框架结合Swin Transformer模型有效提高目标提取、定位和判定精确度。
作为一种优选的技术方案,所述步骤7中分类利用已经获得的提案特征图,通过全连接层与softmax激活函数计算并区分每个提案具体是否为农房宅基地,输出概率向量;为了获得精确的农房宅基目标检测框,需要采用边框回归对每个提案的位置偏移量进行再次确定和修正。
作为一种优选的技术方案,所述步骤8中基于Transformer的宅基地遥感图像违建识别系统的构建通过训练好的模型结合差异图计算算法进行构建。
本发明另一方面提供了一种基于Transformer的宅基地遥感图像违建识别系统,所述系统至少包括遥感图像获取与输入模块,图像预处理模块,目标检测模块,目标相似度计算模块,预测结果模块。
所述遥感图像获取与输入模块用于当前宅基地遥感图像的获取并且将其输入到系统之中。
所述图像预处理模块用于输入的遥感图像用与模型训练相同的图像预处理方式对图像进行预处理,确保模型提取的特征可以正确的用于目标检测。
所述目标检测模块用于将经过预处理的遥感图像通过训练好的模型检测途中所有的农房宅基地。
所述目标相似度计算模块用于与过去采集的农房宅基地遥感图像进行差异图相似度计算。
所述预测结果模块用于根据目标相似度计算模块中计算的差异图相似度判断是否具有宅基地违建的情况,并且输出最终的识别结果。
有益效果:
1、本发明提供了一种基于Transformer的宅基地遥感图像违建识别方法及系统,解决了传统方法识别准确度不足,人力资源投入大,效率低下,费时费力等问题。
2、本发明通过利用计算机视觉与深度学习方法根据遥感图像精确的识别与定位宅基地,避免识别结果受到遥感图像尺度与检测目标大小变化的影响,尤其适用于农房宅基地的准确识别。
3、通过利用Transformer作为骨干网络的全局自注意力机制捕获农房宅基地,结合Faster RCNN范式进行目标检测与标注,有效提高目标提取、定位和判定精确度。
4、采用本申请提供的基于Transformer的宅基地遥感图像违建识别方法及系统,与现有数据库中的过去采集的农房宅基地遥感图像进行差异图相似度计算,可以准确判断是否为违规建筑。
5、本申请提供的基于Transformer的宅基地遥感图像违建识别方法及系统,为农村违建宅基地的快速准确识别提供了一种新的技术手段,有助于相关管理部门提高工作效率,具有很高的实际应用价值。
附图说明
图1为本发明基于Transformer的宅基地遥感图像违建识别方法中模型训练的流程图。
图2为本发明基于Transformer的宅基地遥感图像违建识别系统的结构示意图。
具体实施方式
请参阅图1,图1为本发明基于Transformer的宅基地遥感图像违建识别方法中模型训练的流程图。
S10:获取农村宅基地的遥感图像。
获取农村宅基地的方式为卫星拍摄、航空拍摄以及近景拍摄。
S20:通过获取的遥感图像数据,构建数据集,划分训练集和测试集。
S30:图像预处理与图像增强。
图像预处理与图像增强方式为:
(1)将图像重新调整到符合模型输入的大小;
(2)对图像进行平移、翻转和旋转几何变换;
(3)对图像进行标准化和归一化;
(4)对图像的属性(亮度和对比度)进行随机调整;
(5)对图像进行随机的遮挡。
S40:将经过预处理与增强的图像输入到Transformer模型中进行全局自注意力特征提取。
采用Swin Transformer模型,所述Swin Transformer模型经过ImageNet-22K预训练的版本进行微调迁移学习,在后续的训练中采用AdamW优化器训练模型,初始学习率设置为0.0001、权重衰减设置为0.05以及批次大小设置为16;每训练完一批次为一个迭代,每进行S20中的一次完整训练即用验证集进行一次验证并输出实时的精度;设置36次完整训练即结束训练,最后用测试集检测模型的拟合程度。
Swin Transformer模型提取特征的过程包括:输入224*224*1的图像在经过四层特征提取块的提取得到最终的特征图,其尺寸分别为56*56*4、28*28*8、14*14*16、7*7*32。
四层特征提取块中每一层中堆叠数个Swin自注意力模块和多层感知机,输入的图像经过Swin自注意力模块会通过滑窗操作将图片进行分窗、自注意力机制计算、移位和重新组合,通过引入计算机视觉先验,即层次性、局部性和平移不变性。
输入的图像向量与参数权重矩阵Wq,Wk,Wv相乘得到三个矩阵Q,V,K,最后再通过计算得到最后的注意力特征。
优选的,所述Swin自注意力模块中引入一个相对位置偏置B,进一步加强了SwinTransformer模型的泛化性能。
所述自注意力机制算法公式如下:
Figure BDA0003381526880000061
其中,Attention(Q,K,V)为自注意力机制的输出结果。Q为查询(query)矩阵,K为键值(key)矩阵,d为K的维度,T表示转置,B表示相对位置偏置,V表示真值(value)矩阵,SoftMax为激活函数。
本申请中采用的多层感知机是简单高效的前馈人工神经网络模型,将输入的多个数据集通过前馈人工神经网络模型映射到单一数据集上进行输出。
S50:RPN网络通过特征图提出区域提案;
采用RPN网络通过特征图提出区域提案具体分为路径1和路径2;所述路径1为通过softmax激活函数分类锚点获得positive和negative分类;所述路径2为用于计算对应锚点的边框回归偏移量;通过提案层综合positive锚点和对应边框回归偏移量获取精确的提案,同时剔除太小和超出边界的提案,实现目标定位的功能。
S60:收集特征图和区域提案,提取提案特征图;
将通过Swin Transformer模型提取的特征图和采用RPN网络获得的区域提案输入ROI Pooling层,通过ROI Pooling层对特征信息进行综合后即可获得提案特征图,之后通过后续的全连接层对获得的提案特征图进行目标类别判定。
S70:将提案特征图送入分类器进行分类并且得到候选框;
分类部分利用已经获得的提案特征图,通过全连接层与softmax激活函数计算并区分每个提案具体是否为农房宅基地,输出概率向量;为了获得精确的农房宅基目标检测框,采用边框回归对每个提案的位置偏移量进行再次确定和修正。
请参阅图2,图2为本发明基于Transformer的宅基地遥感图像违建识别系统的结构示意图。
所述基于Transformer的宅基地遥感图像违建识别系统的结构系统包括遥感图像获取与输入模块100、图像预处理模块200、目标检测模块300、目标相似度计算模块400、预测结果模块500。
遥感图像获取与输入模块100用于当前宅基地遥感图像的获取并且将其输入到系统之中。
图像预处理模块200用于输入的遥感图像用与模型训练相同的图像预处理方式对图像进行预处理,确保模型提取的特征可以正确的用于目标检测。
目标检测模块300用于将经过预处理的遥感图像通过训练好的模型检测途中所有的农房宅基地。
目标相似度计算模块400用于与过去采集的农房宅基地遥感图像进行差异图相似度计算。
预测结果模块500用于根据400中计算的差异图相似度判断是否具有宅基地违建的情况,并且输出最终的识别结果。

Claims (10)

1.一种基于Transformer的宅基地遥感图像违建识别方法,其特征在于,至少包括以下步骤:
步骤1:获取农村宅基地的遥感图像;
步骤2:通过获取的遥感图像数据,构建数据集并对数据集进行划分;
步骤3:图像预处理与图像增强;
步骤4:将经过预处理与增强的图像输入到Transformer模型中进行全局自注意力特征提取得到特征图;
步骤5:采用RPN网络通过特征图提出区域提案;
步骤6:收集特征图和区域提案,提取提案特征图;
步骤7:将提案特征图送入分类器进行分类并且得到候选框;
步骤8:构建基于Transformer的宅基地遥感图像违建识别系统。
2.根据权利要求1所述的一种基于Transformer的宅基地遥感图像违建识别方法,其特征在于,所述步骤1中获取农村宅基地的遥感图像的的方式包括卫星拍摄、航空拍摄以及近景拍摄。
3.根据权利要求1所述的一种基于Transformer的宅基地遥感图像违建识别方法,其特征在于,所述步骤2中数据集在机器学习或深度学习流程中进行划分,划分为训练集和测试集。
4.根据权利要求1所述的一种基于Transformer的宅基地遥感图像违建识别方法,其特征在于,所述步骤3中图像预处理与图像增强方式至少包括:
(1)将图像重新调整到符合模型输入的大小;
(2)对图像进行几何变换;
(3)对图像进行标准化和归一化;
(4)对图像的属性进行随机调整;
(5)对图像进行随机的遮挡。
5.根据权利要求1所述的一种基于Transformer的宅基地遥感图像违建识别方法,其特征在于,所述步骤4中Transformer模型具体为Swin Transformer模型,采用分层和滑窗的设计,引入了计算机视觉先验的局部操作。
6.根据权利要求1所述的一种基于Transformer的宅基地遥感图像违建识别方法,其特征在于,所述步骤5中采用RPN网络通过特征图提出区域提案具体分为路径1和路径2;所述路径1为通过softmax激活函数分类锚点获得positive和negative分类;所述路径2为用于计算对应锚点的边框回归偏移量;通过提案层综合positive锚点和对应边框回归偏移量获取精确的提案,同时剔除太小和超出边界的提案,实现目标定位的功能。
7.根据权利要求1所述的一种基于Transformer的宅基地遥感图像违建识别方法,其特征在于,所述步骤6具体为:将通过Swin Transformer模型提取的特征图和采用RPN网络获得的区域提案输入ROI Pooling层,通过ROI Pooling层对特征信息进行综合后即可获得提案特征图,之后通过后续的全连接层对获得的提案特征图进行目标类别判定。
8.根据权利要求1所述的一种基于Transformer的宅基地遥感图像违建识别方法,其特征在于,所述步骤7中分类利用已经获得的提案特征图,通过全连接层与softmax激活函数计算并区分每个提案具体是否为农房宅基地,输出概率向量;为了获得精确的农房宅基目标检测框,需要采用边框回归对每个提案的位置偏移量进行再次确定和修正。
9.根据权利要求1所述的一种基于Transformer的宅基地遥感图像违建识别方法,其特征在于,所述步骤8中基于Transformer的宅基地遥感图像违建识别系统的构建通过训练好的模型结合差异图计算算法进行构建。
10.一种采用权利要求1-9任一项所述的一种基于Transformer的宅基地遥感图像违建识别方法的系统,其特征在于,所述系统至少包括遥感图像获取与输入模块,图像预处理模块,目标检测模块,目标相似度计算模块,预测结果模块。
CN202111435132.3A 2021-11-29 2021-11-29 一种基于Transformer的宅基地遥感图像违建识别方法及系统 Pending CN114359702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111435132.3A CN114359702A (zh) 2021-11-29 2021-11-29 一种基于Transformer的宅基地遥感图像违建识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111435132.3A CN114359702A (zh) 2021-11-29 2021-11-29 一种基于Transformer的宅基地遥感图像违建识别方法及系统

Publications (1)

Publication Number Publication Date
CN114359702A true CN114359702A (zh) 2022-04-15

Family

ID=81098237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111435132.3A Pending CN114359702A (zh) 2021-11-29 2021-11-29 一种基于Transformer的宅基地遥感图像违建识别方法及系统

Country Status (1)

Country Link
CN (1) CN114359702A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115346172A (zh) * 2022-08-16 2022-11-15 哈尔滨市科佳通用机电股份有限公司 一种钩提杆复位弹簧丢失和折断检测方法及系统
CN116137023A (zh) * 2023-04-20 2023-05-19 中国民用航空飞行学院 基于背景建模和细节增强的低照度图像增强方法
CN117612023A (zh) * 2023-11-23 2024-02-27 国网江苏省电力有限公司扬州供电分公司 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115346172A (zh) * 2022-08-16 2022-11-15 哈尔滨市科佳通用机电股份有限公司 一种钩提杆复位弹簧丢失和折断检测方法及系统
CN116137023A (zh) * 2023-04-20 2023-05-19 中国民用航空飞行学院 基于背景建模和细节增强的低照度图像增强方法
CN117612023A (zh) * 2023-11-23 2024-02-27 国网江苏省电力有限公司扬州供电分公司 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法

Similar Documents

Publication Publication Date Title
WO2022160771A1 (zh) 基于自适应多尺度特征提取模型的高光谱图像分类方法
CN110705457B (zh) 一种遥感影像建筑物变化检测方法
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN111160440B (zh) 一种基于深度学习的安全帽佩戴检测方法及装置
CN110097053B (zh) 一种基于改进Faster-RCNN的电力设备外观缺陷检测方法
CN114092832B (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
CN114359702A (zh) 一种基于Transformer的宅基地遥感图像违建识别方法及系统
CN110163069B (zh) 用于辅助驾驶的车道线检测方法
CN109800629A (zh) 一种基于卷积神经网络的遥感图像目标检测方法
CN111553201A (zh) 一种基于YOLOv3优化算法的交通灯检测方法
CN110728252B (zh) 一种应用于区域人员运动轨迹监控的人脸检测方法
CN110222767B (zh) 基于嵌套神经网络和栅格地图的三维点云分类方法
CN103778435A (zh) 一种基于视频的行人快速检测方法
CN110675421B (zh) 基于少量标注框的深度图像协同分割方法
CN115953666B (zh) 一种基于改进Mask-RCNN的变电站现场进度识别方法
CN112329559A (zh) 一种基于深度卷积神经网络的宅基地目标检测方法
CN112258490A (zh) 基于光学和红外图像融合的低发射率涂层智能探损方法
CN114863189B (zh) 一种基于大数据的图像智能识别方法
CN111046756A (zh) 高分辨率遥感影像目标尺度特征的卷积神经网络检测方法
CN110991374B (zh) 一种基于rcnn的指纹奇异点检测方法
CN116563205A (zh) 基于小目标检测和改进YOLOv5的麦穗计数检测方法
CN112949510A (zh) 基于Faster R-CNN热红外影像人物探测方法
CN112132157A (zh) 一种基于树莓派的步态人脸融合识别方法
CN104933415A (zh) 一种实时可见光遥感影像云区检测方法
CN115830302B (zh) 一种多尺度特征提取融合配电网设备定位识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination