CN115909187A - 基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质 - Google Patents

基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质 Download PDF

Info

Publication number
CN115909187A
CN115909187A CN202211238074.XA CN202211238074A CN115909187A CN 115909187 A CN115909187 A CN 115909187A CN 202211238074 A CN202211238074 A CN 202211238074A CN 115909187 A CN115909187 A CN 115909187A
Authority
CN
China
Prior art keywords
super
image
remote sensing
transformer
swin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211238074.XA
Other languages
English (en)
Inventor
丰鑫
陈培新
王邵晟
邱少健
潘梓豪
洪楚育
李琦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Novi Aichuang Guangzhou Technology Co ltd
South China Agricultural University
Original Assignee
Novi Aichuang Guangzhou Technology Co ltd
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Novi Aichuang Guangzhou Technology Co ltd, South China Agricultural University filed Critical Novi Aichuang Guangzhou Technology Co ltd
Priority to CN202211238074.XA priority Critical patent/CN115909187A/zh
Publication of CN115909187A publication Critical patent/CN115909187A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质,方法包括:获取指定位置的区域遥感图像x0,对所述遥感图像x0进行训练后得到超分辨率图像数据集s1;对所述超分辨率图像数据集s1进行预处理,并通过预先设立的SwinTransformer模型提取超分辨率图像数据集s1中图片的特征图;将所述特征图输入到特征图金字塔网络,提取多尺度特征;将所述多尺度特征输入区域建议网络RPN推荐感兴趣的区域;将推荐感兴趣的区域利用感兴趣区域池化处理为相同大小;将推荐的推荐感兴趣的区域采用Mask R‑CNN算法对车辆是否违停进行预测判断,并框出违停车辆。本发明能有效解决车辆违章停车监控视野盲区问题。

Description

基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质
技术领域
本发明属于遥感图像目标检测的技术领域,具体涉及一种基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质。
背景技术
随着经济和城镇化建设的快速发展,我国各城市的道路和车辆总量不断增长,车辆违规停放行为也日益增加,对城市道路中车辆违章停车检测已成为城市管理中的一项重要的任务。虽然高清监控摄像头已经在绝大多数路口部署,但每日产生的视频量也越来越庞大,通过人工进行视频实时监控或离线处理既费时又费力,而且容易延误和遗漏,所以急需寻找一种高效的方法满足城市车辆违章停车识别领域的实际应用要求。遥感图像实例分割技术作为一种新兴、快速的检测技术,在城市车辆违章停车检测领域的应用得到了发展。但是,目前的目标检测算法精确度普遍小于本文使用的以Swin Transformer为backbone的目标检测算法。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质,将Swin Transformer应用于遥感图像检测违章停放车辆领域,结合无人机实时巡逻的方式,小成本解决车辆违章停车监控视野盲区问题。
为了达到上述目的,本发明采用以下技术方案:
第一方面,本发明提供了一种基于Transformer和超分辨率遥感图像的违停车辆检测方法,包括下述步骤:
获取指定位置的区域遥感图像x0,对所述遥感图像x0进行训练后得到超分辨率图像数据集s1
对所述超分辨率图像数据集s1进行预处理,并通过预先设立的Swin Transformer模型提取超分辨率图像数据集s1中图片的特征图;所述Swin Transformer模型包括多个Swin Transformer模块,每个Swin Transformer模块用于提取不同尺度的特征信息;所述特征图是通过多个基于窗口的自注意力计算得到;
将所述特征图输入到特征图金字塔网络,提取多尺度特征;
将所述多尺度特征输入区域建议网络RPN推荐感兴趣的区域;
将推荐感兴趣的区域利用感兴趣区域池化处理为相同大小;
将推荐的推荐感兴趣的区域采用Mask R-CNN算法对车辆是否违停进行预测判断,并框出违停车辆。
作为优选的技术方案,所述获取指定位置的区域遥感图像x0,对所述遥感图像x0进行训练后得到超分辨率图像数据集s1,具体为:
对所述遥感图像x0进行图像超分辨率处理,将遥感图像x0输入经过ImageNet预训练的SRGAN网络中,先进行判别器的训练,将生成器的参数固定;
通过双三线性插值生成尺度缩小四倍的低分辨率图像x1,所述低分辨率图像x1通过内含多个残差块的生成器得到超分辨率图像x2
将所述遥感图像x0与超分辨率图像x2分别加上标签1、0后输入内含多个残差块的判别器中进行判别输出,对图像的判别结果与标签计算二值交叉熵损失再进行反向传播更新判别器的参数;
进行多轮判别器的训练后固定判别器的参数,对生成器的进行训练;
将遥感图像x0与超分辨率图像x2分别加上标签1、1后输入内含多个残差块的判别器中进行判别输出,对图像的判别结果与标签计算二值交叉熵损失再进行反向传播更新生成器的参数;
重复多次上述训练操作,训练微调结束后将遥感图像x0进行双三线性插值生成尺度缩小四倍的低分辨率后输入生成器中得到超分辨率图像数据集s1
作为优选的技术方案,所述并通过预先设立的Swin Transformer模型提取超分辨率图像数据集s1中图片的特征图,具体为:
对超分辨率图像数据集s1内遥感图像人工预先设定的禁停局部区域进行感兴趣区域裁剪,得到裁剪图像c1
对所述裁剪图像c1进行图片缩放变换操作并进行标注后得到标注图像c2
对所述标注图像c2使用标签人工标注违停小车构建训练集与测试集;
将训练集导入Swin Transformer模型中进行全局注意力特征提取得到特征图;
取出训练集中的裁剪遥感图像x3进行随机平移、翻转、旋转、裁剪的图像增强操作后进行标准化和归一化,得到归一化图像x4,对所述归一化图像x4做四个阶段的处理,得到特征图。
作为优选的技术方案,所述四个阶段的处理具体为:
通过像素块转换器将归一化图像x4划分为不重合的像素块集合,设定像素块大小,得到对应特征维度的像素块k0
在第一阶段通过向量映射将像素块k0转换为一维的张量数据并使用多个与像素块大小、步长相等的卷积核对每个像素块做不重合卷积,进行线性变换改变向量维度,得到第一矩阵a1
在第一阶段中,包括两个Swin Transformer模块,每个Swin Transformer模块包括第一部分和第二部分;,将第一矩阵a1导入第一阶段的第一个Swin Transformer模块中后使用窗口自注意力计算,将窗口内的第一矩阵a1展开成第一标记图像序列t1
第一标记图像序列t1进入第一个Swin Transformer模块的第一部分,对t1中的每个标记图像序列进行插入层归一化,在通道的维度上进行归一化操作后进行窗口多头自注意力计算,然后进行一次插入层归一化,再导入多层感知机得到第二标记图像序列t2
第二标记图像序列t2进入第一个Swin Transformer模块的第二部分,对t2中每个标记图像进行插入层归一化,在通道的维度上进行归一化操作后进行移动窗口多头自注意力计算,然后进行一次插入层归一化,再导入多层感知机得到第三标记图像序列t3
第三标记图像序列t3导入第一阶段的第二个Swin Transformer模块中重复上述得到t1、t2和t3过程输出第一特征图f1
在第二阶段中将第一特征图f1导入像素块降采样,隔一个点采一个样将临近的像素块合并成一个像素块得到尺寸第二矩阵a2
使用卷积核对第二矩阵a2进行卷积,将通道数减半与卷积神经网络的池化降维操作保持一致,得到第三矩阵a3
第二阶段中包含两个Swin Transformer模块,第三矩阵a3进入第二阶段的SwinTransformer模块并重复第一阶段中Swin Transformer模块内的操作,输出第二特征图f2
第三阶段中包括六个Swin Transformer模块,在第三阶段中将第二特征图f2重复第一特征图f1在第二阶段中Swin Transformer模块内的操作,输出第三特征图f3
第四阶段中包括两个Swin Transformer模块,在第四阶段中第三特征图f3重复第二特征图f2在第三阶段中Swin Transformer模块内的操作,输出第四特征图f4
作为优选的技术方案,底层特征层通过卷积得到与上一层特征层相同的通道数,上层的特征层通过上采样得到与下一层特征层一样的长和宽再进行相加,从而得到了一个融合好的新的特征层。
作为优选的技术方案,所述将所述特征图输入到特征图金字塔网络,提取多尺度特征,具体为:
通过滑动窗口来扫描图像中规划的矩形区域,这些矩形区域相互重叠尽可能地覆盖图像,寻找存在目标的区域;
对每个矩形区域生成两个输出:用于区分前景和背景的区域类别以及拟合目标的边框精度;
再预测出包含了目标的矩形区域,并对其位置和尺寸进行精调,如果有多个预测包含目标的矩形区域互相重叠,则通过非极大值抑制,保留拥有最高前景分数的矩形区域;
推荐预测包含目标的矩形区域。
作为优选的技术方案,所述将推荐的推荐感兴趣的区域采用Mask R-CNN算法对车辆是否违停进行预测判断,具体为:
将一维向量输入到多个神经元的全连接层来进行mask的预测,每个感兴趣区域只对应一个物体,并对其进行实例分割物体检测最终的类别和目标边界框。
第二方面,本发明还提供了一种基于Transformer和超分辨率遥感图像的违停车辆检测系统,包括图像采集模块、特征图提取模块、多尺度特征提取模块、感兴趣区域推荐模块、感兴趣区域处理模块以及违停预测模块;
所述图像采集模块,用于获取指定位置的区域遥感图像x0,对所述遥感图像x0进行训练后得到超分辨率图像数据集s1
所述特征图提取模块,用于对所述超分辨率图像数据集s1进行预处理,并通过预先设立的Swin Transformer模型提取超分辨率图像数据集s1中图片的特征图;所述SwinTransformer模型包括多个Swin Transformer模块,每个Swin Transformer模块用于提取不同尺度的特征信息;所述特征图是通过多个基于窗口的自注意力计算得到;
所述多尺度特征提取模块,用于将所述特征图输入到特征图金字塔网络,提取多尺度特征;
所述感兴趣区域推荐模块,用于将所述多尺度特征输入区域建议网络RPN推荐感兴趣的区域;
所述感兴趣区域处理模块,用于将推荐感兴趣的区域利用感兴趣区域池化处理为相同大小;
所述违停预测模块,用于将推荐的推荐感兴趣的区域采用Mask R-CNN算法对车辆是否违停进行预测判断,并框出违停车辆。
第三方面,本发明还提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于Transformer和超分辨率遥感图像的违停车辆检测方法。
第四方面,本发明还提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于Transformer和超分辨率遥感图像的违停车辆检测方法。
本发明与现有技术相比,具有如下优点和有益效果:
1.本发明在违章停放车辆目标检测中使用SRGAN超分辨率算法对ROI遥感图像进行超分辨率处理,以便识别结果更加准确,使用Swin Transformer算法对图像进行了特征提取,使用Mask R-CNN算法对车辆是否违停进行预测判断并框出。
2.本发明使用了无人机巡查定点拍摄遥感图像,并根据人为划定禁停区域进行ROI区域裁剪。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于Transformer和超分辨率遥感图像的违停车辆检测方法的模型架构图;
图2为本发明实施例每个Swin Transformer的处理过程图;
图3为本发明实施例基于Transformer和超分辨率遥感图像的违停车辆检测方法的流程图;
图4为本发明实施例规范停车的预测图;
图5为本发明实施例不规范停车的预测图;
图6为本发明实施例基于Transformer和超分辨率遥感图像的违停车辆检测系统的方框图;
图7为本发明实施例电子设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
如图1、图3所示,本实施例提供的一种基于Transformer和超分辨率遥感图像的违停车辆检测方法,包括下述步骤:
S1、使用无人机到达某区域指定位置拍摄该区域遥感图像x0,对所述遥感图像x0进行训练后得到超分辨率图像数据集s1
进一步的,对所述遥感图像x0进行训练具体为:
S11、对所述遥感图像x0进行图像超分辨率处理,将遥感图像x0输入经过ImageNet预训练的SRGAN网络中,先进行判别器的训练,将生成器的参数固定;
S12、通过双三线性插值生成尺度缩小四倍的低分辨率图像x1,所述低分辨率图像x1通过内含多个残差块的生成器得到超分辨率图像x2
S13、将所述遥感图像x0与超分辨率图像x2分别加上标签1、0后输入内含多个残差块的判别器中进行判别输出,对图像的判别结果与标签计算二值交叉熵损失再进行反向传播更新判别器的参数;
S14、进行多轮判别器的训练后固定判别器的参数,对生成器的进行训练;
S15、将遥感图像x0与超分辨率图像x2分别加上标签1、1后输入内含多个残差块的判别器中进行判别输出,对图像的判别结果与标签计算二值交叉熵损失再进行反向传播更新生成器的参数;
S16、重复多次上述训练操作,训练微调结束后将遥感图像x0进行双三线性插值生成尺度缩小四倍的低分辨率后输入生成器中得到超分辨率图像数据集s1
S2、对所述超分辨率图像数据集s1进行预处理,并通过Swin Transformer提取超分辨率图像数据集s1中图片的特征图;具体为:
S21、对数据集s1内遥感图像人工预先设定的禁停局部区域进行感兴趣区域裁剪,得到裁剪图像c1
S22、对所述裁剪图像c1进行图片缩放变换操作将图像尺寸变为224*224*3得到标注图像c2
S23、对标注图像c2使用标签人工标注违停车辆构建训练集与测试集;
S24、将训练集导入Swin Transformer模型中进行全局注意力特征提取得到特征图;
S25、取出训练集中的裁剪遥感图像x3进行随机平移、翻转、旋转、裁剪的图像增强操作后进行标准化和归一化,得到归一化图像x4,对归一化图像x4做如下处理:
S26、通过像素块转换器将归一化图像x4划分为不重合的像素块集合,像素块大小为4,得到特征维度为4x4x3=48的像素块k0,3为图片的RGB通道数;
S27、在第一阶段通过向量映射将像素块k0转换为一维的张量数据并使用多个与像素块大小、步长相等的卷积核对每个像素块做不重合卷积,进行线性变换改变向量维度,得到尺寸为56x56x96的第一矩阵a1
S28、第一阶段中包括两个Swin Transformer模块,每个Swin Transformer模块包括第一部分和第二部分;
进一步的,在第一阶段中,将第一矩阵a1导入第一阶段的第一个SwinTransformer模块中(每个Swin Transformer模块中包含第一部分和第二部分)后使用7x7的窗口计算自注意力,将窗口内的矩阵展开成序列长度为49,向量维度为96的第一标记图像序列t1;如图2所示。
S29、第一标记图像序列t1进入第一个Swin Transformer模块的的第一部分,对t1中的每个标记图像序列进行插入层归一化,在通道的维度上进行归一化操作后进行窗口多头自注意力计算,然后进行一次插入层归一化,再导入多层感知机得到第二标记图像序列t2
S210、第二标记图像序列t2进入第一个Swin Transformer模块的第二部分,对t2中每个标记图像进行插入层归一化,在通道的维度上进行归一化操作后进行移动窗口多头自注意力计算,然后进行一次插入层归一化,再导入多层感知机得到第三标记图像序列t3
S211、第三标记图像序列t3导入第一阶段的第二个Swin Transformer模块中重复上述得到t1、t2和t3过程输出尺寸为56x56x96的第一特征图f1
在完成第一阶段的两个Swin Transformer模块的处理后,得到了56x56x96的第一特征图f1,接着,接着以第一特征图f1为输入,继续Swin Transformer模型中第二阶段的处理,具体为:
S212、在第二阶段中将第一特征图f1导入像素块降采样,隔一个点采一个样将临近的像素块合并成一个像素块得到尺寸为28x28x384的第二矩阵a2
S213、使用1x1的卷积核对第二矩阵a2进行卷积,将通道数减半与卷积神经网络的池化降维操作保持一致,得到尺寸为28x28x384的第三矩阵a3
S214、第二阶段中包含两个Swin Transformer模块,同样的,每个SwinTransformer模块包括第一部分和第二部分;在第二阶段中,第三矩阵a3进入SwinTransformer模块重复第一阶段中Swin Transformer模块内的操作,输出尺寸为28x28x192的第二特征图f2
可以理解的是,在第二阶段的处理中,包括了两个Swin Transformer模块,每个Swin Transformer模块均包括第一部分和第二部分,在本阶段的每个Swin Transformer模块均进行第一部分和第二部分的处理,即重复2次上述S29-2211的过程,进而得到第二特征图f2
S215、第三阶段中包括六个Swin Transformer模块,在第三阶段中将第二特征图f2重复第一特征图f1在第二阶段中Swin Transformer模块内的操作,输出14x14x384的第三特征图f3
可以理解的是,在第三阶段的处理中,包括了六个Swin Transformer模块,每个Swin Transformer模块均包括第一部分和第二部分,在本阶段的每个Swin Transformer模块均进行第一部分和第二部分的处理,即重复6次上述S29-2211的过程,进而得到第三特征图f3
S216、第四阶段中包括两个Swin Transformer模块,在第四阶段中第三特征图f3重复第二特征图f2在第三阶段中Swin Transformer模块内的操作,输出尺寸为7x7x768的第四特征图f4
可以理解的是,在第四阶段的处理中,包括了2个Swin Transformer模块,每个Swin Transformer模块均包括第一部分和第二部分,在本阶段的每个Swin Transformer模块均进行第一部分和第二部分的处理,即重复2次上述S29-2211的过程,进而得到第四特征图f4
S3、经过步骤S2得到了特征图后,在这个特征图上使用FPN结构,以最后一层特征为例,其特征图大小为7x7x768,底层特征层通过1*1的卷积得到与上一层特征层相同的通道数,上层的特征层通过上采样得到与下一层特征层一样的长和宽再进行相加,从而得到了一个融合好的新的特征层,从而充分的利用了提取到的各个阶段的特征;
S4、将生成的特征图输入区域建议网络(RPN)进行子网络的选取,具体为:
S41、通过滑动窗口来扫描图像中规划的矩形区域,这些矩形区域相互重叠尽可能地覆盖图像,寻找存在目标的区域。
S42、对每个矩形区域生成两个输出:用于区分前景和背景的区域类别以及拟合目标的边框精度。
S43、再预测出包含了目标的矩形区域,并对其位置和尺寸进行精调,如果有多个预测包含目标的矩形区域互相重叠,则通过非极大值抑制,保留拥有最高前景分数的矩形区域。
S44、推荐预测包含目标的矩形区域。
在一个具体的实施方式中,在每个滑动窗口的点上的初始化的参考区域,每个滑动窗口的点上取得anchor boxes都一样。可以通过sliding window的点的坐标,计算出每个anchor box的具体坐标。每个特征层的k=3k,先确定一个base anchor,如大小为32×32或16×16,保持面积不变使其长宽比为(0.5,1,2)(0.5,1,2),得到3个anchors。
S5、使用感兴趣区域池化解决推荐的矩形区域大小不一的问题,具体为:
裁剪出各尺度特征图中的矩形推荐区域,然后将其重新调整为统一大小的固定尺寸并重塑成一维的向量,便于完成后续网格进行目标检测与实例分割任务;
S6、预测掩码,具体为:
将一维向量输入到1024个神经元的全连接层来进行mask的预测,每个感兴趣区域只对应一个物体,并对其进行实例分割物体检测最终的类别和目标边界框。
示例性的,通过本实施例的技术方案,可以有效的预测违停车辆,图4中矩形框内的车辆为规范停车车辆,图5中矩形框内的车辆为违规停车车辆。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的基于Transformer和超分辨率遥感图像的违停车辆检测方法相同的思想,本发明还提供了基于Transformer和超分辨率遥感图像的违停车辆检测系统,该系统可用于执行上述基于Transformer和超分辨率遥感图像的违停车辆检测方法。为了便于说明,基于Transformer和超分辨率遥感图像的违停车辆检测系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
请参阅图6,在本申请的另一个实施例中,提供了一种基于Transformer和超分辨率遥感图像的违停车辆检测系统100,包括图像采集模块101、特征图提取模块102、多尺度特征提取模块103、感兴趣区域推荐模块104、感兴趣区域处理模块105以及违停预测模块106;
所述图像采集模块101,用于获取指定位置的区域遥感图像x0,对所述遥感图像x0进行训练后得到超分辨率图像数据集s1
所述特征图提取模块102,用于对所述超分辨率图像数据集s1进行预处理,并通过预先设立的Swin Transformer模型提取超分辨率图像数据集s1中图片的特征图;所述SwinTransformer模型包括多个Swin Transformer模块,每个Swin Transformer模块用于提取不同尺度的特征信息;所述特征图是通过多个基于窗口的自注意力计算得到;
所述多尺度特征提取模块103,用于将所述特征图输入到特征图金字塔网络,提取多尺度特征;
所述感兴趣区域推荐模块104,用于将所述多尺度特征输入区域建议网络RPN推荐感兴趣的区域;
所述感兴趣区域处理模块105,用于将推荐感兴趣的区域利用感兴趣区域池化处理为相同大小;
所述违停预测模块106,用于将推荐的推荐感兴趣的区域采用mask r-cnn算法对车辆是否违停进行预测判断,并框出违停车辆。
需要说明的是,本发明的基于Transformer和超分辨率遥感图像的违停车辆检测系统与本发明的基于Transformer和超分辨率遥感图像的违停车辆检测方法一一对应,在上述基于Transformer和超分辨率遥感图像的违停车辆检测方法的实施例阐述的技术特征及其有益效果均适用于基于Transformer和超分辨率遥感图像的违停车辆检测的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述实施例的基于Transformer和超分辨率遥感图像的违停车辆检测系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于Transformer和超分辨率遥感图像的违停车辆检测系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
请参阅图7,在一个实施例中,提供了一种实现基于Transformer和超分辨率遥感图像的违停车辆检测方法的电子设备200,所述电子设备200可以包括第一处理器201、第一存储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序,如基于Transformer和超分辨率遥感图像的违停车辆检测程序203。
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如基于Transformer和超分辨率遥感图像的违停车辆检测程序203的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内的程序或者模块,以及调用存储在所述第一存储器202内的数据,以执行电子设备200的各种功能和处理数据。
图7仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图7示出的结构并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
所述电子设备200中的所述第一存储器202存储的基于Transformer和超分辨率遥感图像的违停车辆检测程序203是多个指令的组合,在所述第一处理器201中运行时,可以实现:
获取指定位置的区域遥感图像x0,对所述遥感图像x0进行训练后得到超分辨率图像数据集s1
对所述超分辨率图像数据集s1进行预处理,并通过预先设立的Swin Transformer模型提取超分辨率图像数据集s1中图片的特征图;所述Swin Transformer模型包括多个Swin Transformer模块,每个Swin Transformer模块用于提取不同尺度的特征信息;所述特征图是通过多个基于窗口的自注意力计算得到;
将所述特征图输入到特征图金字塔网络,提取多尺度特征;
将所述多尺度特征输入区域建议网络RPN推荐感兴趣的区域;
将推荐感兴趣的区域利用感兴趣区域池化处理为相同大小;
将推荐的推荐感兴趣的区域采用mask r-cnn算法对车辆是否违停进行预测判断,并框出违停车辆。
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于Transformer和超分辨率遥感图像的违停车辆检测方法,其特征在于,包括下述步骤:
获取指定位置的区域遥感图像x0,对所述遥感图像x0进行训练后得到超分辨率图像数据集s1
对所述超分辨率图像数据集s1进行预处理,并通过预先设立的Swin Transformer模型提取超分辨率图像数据集s1中图片的特征图;所述Swin Transformer模型包括多个SwinTransformer模块,每个Swin Transformer模块用于提取不同尺度的特征信息;所述特征图是通过多个基于窗口的自注意力计算得到;
将所述特征图输入到特征图金字塔网络,提取多尺度特征;
将所述多尺度特征输入区域建议网络RPN推荐感兴趣的区域;
将推荐感兴趣的区域利用感兴趣区域池化处理为相同大小;
将推荐的推荐感兴趣的区域采用Mask R-CNN算法对车辆是否违停进行预测判断,并框出违停车辆。
2.根据权利要求1所述基于Transformer和超分辨率遥感图像的违停车辆检测方法,其特征在于,所述获取指定位置的区域遥感图像x0,对所述遥感图像x0进行训练后得到超分辨率图像数据集s1,具体为:
对所述遥感图像x0进行图像超分辨率处理,将遥感图像x0输入经过ImageNet预训练的SRGAN网络中,先进行判别器的训练,将生成器的参数固定;
通过双三线性插值生成尺度缩小四倍的低分辨率图像x1,所述低分辨率图像x1通过内含多个残差块的生成器得到超分辨率图像x2
将所述遥感图像x0与超分辨率图像x2分别加上标签1、0后输入内含多个残差块的判别器中进行判别输出,对图像的判别结果与标签计算二值交叉熵损失再进行反向传播更新判别器的参数;
进行多轮判别器的训练后固定判别器的参数,对生成器的进行训练;
将遥感图像x0与超分辨率图像x2分别加上标签1、1后输入内含多个残差块的判别器中进行判别输出,对图像的判别结果与标签计算二值交叉熵损失再进行反向传播更新生成器的参数;
重复多次上述训练操作,训练微调结束后将遥感图像x0进行双三线性插值生成尺度缩小四倍的低分辨率后输入生成器中得到超分辨率图像数据集s1
3.根据权利要求1所述基于Transformer和超分辨率遥感图像的违停车辆检测方法,其特征在于,所述并通过预先设立的Swin Transformer模型提取超分辨率图像数据集s1中图片的特征图,具体为:
对超分辨率图像数据集s1内遥感图像人工预先设定的禁停局部区域进行感兴趣区域裁剪,得到裁剪图像c1
对所述裁剪图像c1进行图片缩放变换操作并进行标注后得到标注图像c2
对所述标注图像c2使用标签人工标注违停小车构建训练集与测试集;
将训练集导入Swin Transformer模型中进行全局注意力特征提取得到特征图;
取出训练集中的裁剪遥感图像x3进行随机平移、翻转、旋转、裁剪的图像增强操作后进行标准化和归一化,得到归一化图像x4,对所述归一化图像x4做四个阶段的处理,得到特征图。
4.根据权利要求3所述根据权利要求1所述基于Transformer和超分辨率遥感图像的违停车辆检测方法,其特征在于,所述四个阶段的处理具体为:
通过像素块转换器将归一化图像x4划分为不重合的像素块集合,设定像素块大小,得到对应特征维度的像素块k0
在第一阶段通过向量映射将像素块k0转换为一维的张量数据并使用多个与像素块大小、步长相等的卷积核对每个像素块做不重合卷积,进行线性变换改变向量维度,得到第一矩阵a1
在第一阶段中,包括两个Swin Transformer模块,每个Swin Transformer模块包括第一部分和第二部分;,将第一矩阵a1导入第一阶段的第一个Swin Transformer模块中后使用窗口自注意力计算,将窗口内的第一矩阵a1展开成第一标记图像序列t1
第一标记图像序列t1进入第一个Swin Transformer模块的第一部分,对t1中的每个标记图像序列进行插入层归一化,在通道的维度上进行归一化操作后进行窗口多头自注意力计算,然后进行一次插入层归一化,再导入多层感知机得到第二标记图像序列t2
第二标记图像序列t2进入第一个Swin Transformer模块的第二部分,对t2中每个标记图像进行插入层归一化,在通道的维度上进行归一化操作后进行移动窗口多头自注意力计算,然后进行一次插入层归一化,再导入多层感知机得到第三标记图像序列t3
第三标记图像序列t3导入第一阶段的第二个Swin Transformer模块中重复上述得到t1、t2和t3过程输出第一特征图f1
在第二阶段中将第一特征图f1导入像素块降采样,隔一个点采一个样将临近的像素块合并成一个像素块得到尺寸第二矩阵a2
使用卷积核对第二矩阵a2进行卷积,将通道数减半与卷积神经网络的池化降维操作保持一致,得到第三矩阵a3
第二阶段中包含两个Swin Transformer模块,第三矩阵a3进入第二阶段的SwinTransformer模块并重复第一阶段中Swin Transformer模块内的操作,输出第二特征图f2
第三阶段中包括六个Swin Transformer模块,在第三阶段中将第二特征图f2重复第一特征图f1在第二阶段中Swin Transformer模块内的操作,输出第三特征图f3
第四阶段中包括两个Swin Transformer模块,在第四阶段中第三特征图f3重复第二特征图f2在第三阶段中Swin Transformer模块内的操作,输出第四特征图f4
5.根据权利要求1所述基于Transformer和超分辨率遥感图像的违停车辆检测方法,其特征在于,底层特征层通过卷积得到与上一层特征层相同的通道数,上层的特征层通过上采样得到与下一层特征层一样的长和宽再进行相加,从而得到了一个融合好的新的特征层。
6.根据权利要求1所述根据权利要求1所述基于Transformer和超分辨率遥感图像的违停车辆检测方法,其特征在于,所述将所述特征图输入到特征图金字塔网络,提取多尺度特征,具体为:
通过滑动窗口来扫描图像中规划的矩形区域,这些矩形区域相互重叠尽可能地覆盖图像,寻找存在目标的区域;
对每个矩形区域生成两个输出:用于区分前景和背景的区域类别以及拟合目标的边框精度;
再预测出包含了目标的矩形区域,并对其位置和尺寸进行精调,如果有多个预测包含目标的矩形区域互相重叠,则通过非极大值抑制,保留拥有最高前景分数的矩形区域;
推荐预测包含目标的矩形区域。
7.根据权利要求1所述根据权利要求1所述基于Transformer和超分辨率遥感图像的违停车辆检测方法,其特征在于,所述将推荐的推荐感兴趣的区域采用Mask R-CNN算法对车辆是否违停进行预测判断,具体为:
将一维向量输入到多个神经元的全连接层来进行mask的预测,每个感兴趣区域只对应一个物体,并对其进行实例分割物体检测最终的类别和目标边界框。
8.基于Transformer和超分辨率遥感图像的违停车辆检测系统,其特征在于,应用于权利要求1-7中任一项所述的基于Transformer和超分辨率遥感图像的违停车辆检测方法,包括图像采集模块、特征图提取模块、多尺度特征提取模块、感兴趣区域推荐模块、感兴趣区域处理模块以及违停预测模块;
所述图像采集模块,用于获取指定位置的区域遥感图像x0,对所述遥感图像x0进行训练后得到超分辨率图像数据集s1
所述特征图提取模块,用于对所述超分辨率图像数据集s1进行预处理,并通过预先设立的Swin Transformer模型提取超分辨率图像数据集s1中图片的特征图;所述SwinTransformer模型包括多个Swin Transformer模块,每个Swin Transformer模块用于提取不同尺度的特征信息;所述特征图是通过多个基于窗口的自注意力计算得到;
所述多尺度特征提取模块,用于将所述特征图输入到特征图金字塔网络,提取多尺度特征;
所述感兴趣区域推荐模块,用于将所述多尺度特征输入区域建议网络RPN推荐感兴趣的区域;
所述感兴趣区域处理模块,用于将推荐感兴趣的区域利用感兴趣区域池化处理为相同大小;
所述违停预测模块,用于将推荐的推荐感兴趣的区域采用Mask R-CNN算法对车辆是否违停进行预测判断,并框出违停车辆。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于Transformer和超分辨率遥感图像的违停车辆检测方法。
10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于Transformer和超分辨率遥感图像的违停车辆检测方法。
CN202211238074.XA 2022-10-11 2022-10-11 基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质 Pending CN115909187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211238074.XA CN115909187A (zh) 2022-10-11 2022-10-11 基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211238074.XA CN115909187A (zh) 2022-10-11 2022-10-11 基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质

Publications (1)

Publication Number Publication Date
CN115909187A true CN115909187A (zh) 2023-04-04

Family

ID=86473473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211238074.XA Pending CN115909187A (zh) 2022-10-11 2022-10-11 基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN115909187A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218580A (zh) * 2023-09-13 2023-12-12 杭州像素元科技有限公司 一种结合多模型的高速公路跨摄像多车辆跟踪方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218580A (zh) * 2023-09-13 2023-12-12 杭州像素元科技有限公司 一种结合多模型的高速公路跨摄像多车辆跟踪方法及系统

Similar Documents

Publication Publication Date Title
CN111080628B (zh) 图像篡改检测方法、装置、计算机设备和存储介质
CN110555433B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
Xu et al. Fast vehicle and pedestrian detection using improved Mask R‐CNN
CN111968064B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN110163188B (zh) 视频处理以及在视频中嵌入目标对象的方法、装置和设备
CN111369581A (zh) 图像处理方法、装置、设备及存储介质
CN112232237B (zh) 车辆流量的监控方法、系统、计算机设备和存储介质
CN115375999B (zh) 应用于危化品车检测的目标检测模型、方法及装置
Parvin et al. Vehicle number plate detection and recognition techniques: a review
Zeng et al. Nlfftnet: A non-local feature fusion transformer network for multi-scale object detection
CN115909187A (zh) 基于Transformer和超分辨率遥感图像的违停车辆检测方法、系统、设备和介质
Cai et al. A comparative study of deep learning approaches to rooftop detection in aerial images
CN112613434A (zh) 道路目标检测方法、装置及存储介质
KC Enhanced pothole detection system using YOLOX algorithm
CN114519819A (zh) 一种基于全局上下文感知的遥感图像目标检测方法
Zhang et al. Efficient object detection method based on aerial optical sensors for remote sensing
Yu et al. SignHRNet: Street-level traffic signs recognition with an attentive semi-anchoring guided high-resolution network
Ghahremani et al. Maritime vessel re-identification: novel VR-VCA dataset and a multi-branch architecture MVR-net
CN116433903A (zh) 实例分割模型构建方法、系统、电子设备及存储介质
Al Awaimri et al. Automatic number plate recognition system for Oman
Lin et al. Deep learning-based lane marking detection using A2-LMDet
CN113192018A (zh) 基于快速分割卷积神经网络的水冷壁表面缺陷视频识别方法
Chniti et al. Designing a Model of Driving Scenarios for Autonomous Vehicles
Rivadeneira et al. Thermal Image Super-Resolution: A Novel Unsupervised Approach
Tan et al. BSIRNet: A road extraction network with bidirectional spatial information reasoning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination