CN112418108B - 一种基于样本重加权的遥感图像多类目标检测方法 - Google Patents

一种基于样本重加权的遥感图像多类目标检测方法 Download PDF

Info

Publication number
CN112418108B
CN112418108B CN202011342048.2A CN202011342048A CN112418108B CN 112418108 B CN112418108 B CN 112418108B CN 202011342048 A CN202011342048 A CN 202011342048A CN 112418108 B CN112418108 B CN 112418108B
Authority
CN
China
Prior art keywords
feature map
detection
frame
convolution
prior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011342048.2A
Other languages
English (en)
Other versions
CN112418108A (zh
Inventor
程塨
司永洁
姚西文
韩军伟
郭雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Shenzhen Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202011342048.2A priority Critical patent/CN112418108B/zh
Publication of CN112418108A publication Critical patent/CN112418108A/zh
Application granted granted Critical
Publication of CN112418108B publication Critical patent/CN112418108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明提供了一种基于样本重加权的遥感图像多类目标检测方法。首先,进行图像数据增广处理和尺度缩放预处理;然后,构建目标检测网络,包括特征提取模块、特征增强模块和检测头部模块,为了实现特征的显著性表达,针对部分特征层级进行特征增强操作;接着,进行网络端到端的训练过程,采用样本重加权策略来引导训练网络更多关注纵横比差异大的目标样本,以此来优化训练模型;最后,实现目标检测过程,将待检测遥感图像输入到训练好的目标检测网络中,得到每个先验框的类别预测值和其坐标偏移量,再使用非极大值抑制来过滤掉针对同一目标的重叠率较高的检测结果。本发明具有较高的遥感图像目标检测精度和速度。

Description

一种基于样本重加权的遥感图像多类目标检测方法
技术领域
本发明属遥感图像处理技术领域,具体涉及一种基于样本重加权的遥感图像多类目标检测方法,可以用于提升遥感图像数据集中纵横比差异较大的目标类别的检测效果。
背景技术
遥感图像目标检测,是遥感大数据信息应用领域中的一项关键技术,高分辨率遥感图像数据和地理信息系统紧密结合,在未来的城市道路规划、工程项目评估以及可再生资源的监测评估等方面将有广阔的发展前景。随着大数据时代的到来以及计算机硬件性能的大幅提高,基于深度学习技术的目标检测算法突破了以往基于手工特征的目标检测技术瓶颈,成为现阶段光学图像目标检测任务的主流方法,并且受到了领域内学者和专家们的广泛关注。
基于深度学习的主流目标检测方法按照anchor(锚框)的产生方式主要分为两大类,一类是以Anchor-Based为核心的通用目标检测算法,最具有代表性的工作是由KaimingHe等人在《Conference and Workshop on Neural Information ProcessingSystems2015》上发表的“Faster R-CNN:Towards Real-Time Object Detection withRegion Proposal Networks”,该方法首先根据任务需求在原始图片上生成一系列密集排列的anchor,这些anchor的尺寸、长宽比和数量都是超参数;接着训练区域建议网络(Region Proposal Network,RPN)来确定anchor内目标是前景或是背景,同时对原始anchor坐标进行初步的回归;最后进行多分类和精细回归任务,该类方法的优点是检测精度比较高,缺点是anchor的设定往往依赖于数据集中目标尺度的分布,这种方法无法自适应的拟合待训练数据集的尺度分布。另一类是以Anchor-Free为核心的通用目标检测算法,比较典型的方法是由Ross Girshick等人在《IEEE Conference on Computer Vision andPattern Recognition 2016》上发表的“You Only Look Once:Unified,Real-Time ObjectDetection”,该检测模型将输入图像分成S×S个网格单元,如果一个目标样本的中心点在某个网格中,则由该网格负责检测这个目标样本,每个网格单元预测B个边界框和每个边界框的confidence(置信度),其中B是根据任务需求设定的超参数,confidence反映了网络模型对该边界框是否含有目标样本的信心,以及边界框位置预测的准确程度,这类方法的优点是运行速度快,可以用于实时系统,缺点是检测精度低,回归范围变化大。
然而,基于深度学习技术的光学遥感图像目标检测算法与自然场景图像下的目标检测任务之间仍存在一定程度上的差异,光学遥感图像成像具有作用距离远、覆盖范围广的特点,因此遥感图像数据集中的目标样本会存在一些极端情况,对于那些可用像素信息少的小目标,在通过卷积神经网络不断地下采样之后,其位置信息丢失严重;部分目标类别的纵横比大,使得网络回归变化范围不可控;有些类别的目标在外观上具有高度的相似性,容易出现误检的情况,这些都是光学遥感图像目标检测任务中亟待解决的难点问题。
发明内容
针对基于深度学习技术的光学遥感图像目标检测任务中显著性特征提取和目标样本纵横比差异大的问题,本发明提出了一种基于样本重加权的遥感图像多类目标检测方法。首先,进行图像数据预处理操作,对原始图像数据进行数据增广处理,再对处理后的图像进行尺度缩放;然后,构建目标检测网络,包括特征提取模块、特征增强模块和检测头部模块,为了实现特征的显著性表达,针对部分特征层级进行特征增强操作;接着,进行网络端到端的训练过程,针对纵横比差异大的目标样本,采用样本重加权的策略来引导训练网络更多的对这类目标样本进行关注,以此来优化训练模型;最后,实现目标检测过程,将待检测遥感图像输入到训练好的目标检测网络中,得到每个先验框的类别预测值和其坐标偏移量,再使用非极大值抑制(Non Maximum Suppression,NMS)来过滤掉针对同一目标的重叠率较高的检测结果。
一种基于样本重加权的遥感图像多类目标检测方法,其特征在于步骤如下:
步骤1,图像数据预处理:首先,对原始遥感图像数据集中的图像进行数据增广处理,然后,对处理后的图像进行尺度缩放,使所有输入图像具有相同的尺寸;
步骤2,构建目标检测网络,包括特征提取模块、特征增强模块和检测头部模块,其中,特征提取模块采用修改后的VGG16网络,即将VGG16的全连接层FC6替换为卷积核为3×3、卷积步长为1、卷积增补为6、空洞卷积率为6的卷积层,将全连接层FC7替换为卷积核为1×1、卷积步长为1的卷积层,输入图像经过特征提取模块得到长宽尺寸依次递减的多尺度特征图{CA1,CA2,CA3,CA4,CA5,CA6,CA7};特征增强模块对{CA1,CA2,CA3,CA4}这4组特征图进行处理,针对特征图{CA1}分别采用3×3和5×5的卷积核进行卷积操作得到{CA13,CA15},并将原特征图{CA1}与卷积后的特征图{CA13,CA15}的对应元素相加,得到融合后的特征图{C'A1},针对特征图{CA2}分别采用3×3和5×5的卷积核进行卷积操作得到{CA23,CA25},并将原特征图{CA2}与卷积后的特征图{CA23,CA25}的对应元素相加,得到融合后的特征图{C'A2};同时,针对特征图{CA3}分别采用1×1和3×3的卷积核进行卷积操作得到{CA31,CA33},并将原特征图{CA3}与卷积后的特征图{CA31,CA33}的对应元素相加,得到融合后的特征图{C'A3},针对特征图{CA4}分别采用1×1和3×3的卷积核进行卷积操作得到{CA41,CA43},并将原特征图{CA4}与卷积后的特征图{CA41,CA43}的对应元素相加,得到融合后的特征图{C'A4};经过特征增强模块获得新的特征图组{C'A1,C'A2,C'A3,C'A4},最终多尺度特征图表示为{C'A1,C'A2,C'A3,C'A4,CA5,CA6,CA7},它们的长宽尺度依次递减;
检测头部模块包括分类分支和回归分支,分类分支为卷积核为3x3、卷积步长为1、卷积增补为1的网络,将多尺度特征图输入到分类分支,输出为该特征图中每个先验框的类别预测值;回归分支为卷积核为3x3、卷积步长为1、卷积增补为1的网络,将多尺度特征图输入到回归分支,输出为该特征图中每个先验框的坐标偏移量;
针对特征图上每个像素点,添加不同尺度和长宽比的先验框,具体如下:
对于特征图C'A1,其先验框尺度设置为input_size×4/100,input_size表示输入图像的尺寸;对于其他特征图,其先验框尺度按以下公式计算得到:
Figure GDA0003477206080000031
其中,m指除C'A1外特征图的个数,这里m=6,sk表示第k个特征图中的先验框的尺度,k=2、3、4、5、6、7依次表示特征图C'A2、C'A3、C'A4、CA5、CA6、CA7,smin表示比例的最小值,smin=0.1,smax表示比例的最大值,smax=0.9;
针对特征图{C'A1,C'A2,CA7}的每个像素点,分别设置4个先验框,其中3个框的长宽比依次设定为1:1、2:1、1:2,另外,在每一组特征图上设置一组尺度信息为
Figure GDA0003477206080000032
且长宽比为1:1的先验框,k=1、2、7,其中,s8=input_szie×106/100;针对特征图{C'A3,C'A4,CA5,CA6}的每个像素点,分别设置6个先验框,其中5个框的长宽比依次设定为1:1、2:1、1:2、1:3、3:1,另外,在每一组特征图上额外设置一组尺度信息为
Figure GDA0003477206080000041
且长宽比为1:1的先验框,k=3、4、5、6;
将所有先验框按照像素点位置映射到输入图像上;
步骤3,对网络进行端到端的训练:将步骤1预处理后的图片输入到步骤2构建的目标检测网络进行训练,当达到设定的训练总次数时,停止训练,得到训练好的目标检测网络;其中,网络训练参数分别设定为:训练总次数设置为24个epoch,初始学习率为2.5e-4,一个批次处理的图片数为8,学习率在epoch为16-22时开始下降,下降速率为0.1,到第23个epoch时,学习率降低为2.5e-6;网络的损失函数设定为:
Figure GDA0003477206080000042
Lcls=F.cross_entropy(clsscore,labels)*scale_weight (3)
Lreg=smooth_l1_loss(bboxpred,bboxtargets)*scale_weight (4)
其中,Ltotal表示总的网络损失,Lcls表示分类损失,Lreg表示回归损失,Ncls表示参与分类损失计算的样本总数,Nreg表示参与回归损失计算的样本总数,
Figure GDA0003477206080000043
表示先验框的归属,根据先验框与Ground Truth框进行匹配的原则确定,若先验框被匹配为正样本,则
Figure GDA0003477206080000044
若先验框被匹配为负样本,则
Figure GDA0003477206080000045
F.cross_entropy(·)表示交叉熵损失,clsscore表示分类分支针对先验框的类别预测值,labels表示先验框与Ground Truth框匹配的标签真值信息,其取值范围为[1,...,K],K表示类别总数,labels=0表示为负样本;smooth_l1_loss(·)用于计算回归损失,bboxpred表示回归分支对先验框预测的坐标偏移量,bboxtargets表示先验框的坐标偏移真值,scale_weight表示匹配为正样本的先验框所属真值信息的纵横比经过归一化之后的结果;
所述的交叉熵损失F.cross_entropy(·)的计算表达式如下:
F.cross_entropy=-[labels*log(clsscore)+(1-labels)*log(1-clsscore)] (5)
在进行上述计算时,labels的信息由[0,K]转换为一个One-hot向量;
所述的回归损失函数smooth_l1_loss(·)的计算表达式如下:
Figure GDA0003477206080000051
所述的scale_weight的计算公式如下:
scale_weight=exp(-scale′)+1 (7)
其中,scale′表示匹配为正样本的先验框的纵横比系数,按照以下公式计算:
Figure GDA0003477206080000052
其中,scale表示匹配为正样本的先验框的宽度与高度之比;
步骤4,目标检测:将待检测遥感图像输入到步骤3训练好的目标检测网络中,得到每个先验框的类别预测值和其坐标偏移量,然后利用归一化指数函数Softmax将类别预测值转换为最终的类别概率得分,具体计算公式如下:
Figure GDA0003477206080000053
其中,σ(z)j代表先验框内目标被预测为类别j的概率得分,其范围为(0,1);j代表类别所对应的序号,j=0,1,…,K,j=0表示为背景;zj和zk代表目标检测网络输出的先验框的类别预测值;
概率得分最大值所对应的类别即为该先验框最终的分类结果;
按照下式计算先验框经过坐标偏移之后得到的检测框位置信息:
Figure GDA0003477206080000054
其中,{blx,bly,brx,bry}表示检测框的位置信息,blx表示检测框左上角x方向的坐标,bly表示检测框左上角y方向的坐标,brx表示检测框右下角x方向的坐标,bry表示检测框右下角y方向的坐标;{tx,ty,tw,th}表示回归分支网络预测得到的坐标偏移量,tx表示在x方向上的偏移量,ty表示在y方向上的偏移量,tw表示宽度尺度因子,th表示高度尺度因子;{px,py,pw,ph}表示先验框的坐标信息,px表示先验框左上角x方向的坐标,py表示先验框左上角y方向的坐标,pw表示先验框的宽度,ph表示先验框的高度;
最后,按以下过程进行目标检测:首先,删除属于背景类的检测框;然后,删除概率得分小于0.02的检测框,如果此时剩余检测框个数大于200,则仅保留概率得分最高的前200个检测框;最后,利用非极大值抑制来过滤针对同一目标的重叠率较高的检测框,剩余检测框即为最终的目标检测结果,具体为:以概率得分最高的检测框为基准框,分别计算其他检测框与基准框的重叠率IoU,并将重叠率IoU大于0.45的检测框的得分置为0;然后以概率得分次高的检测框为基准框,重复上述操作,直至遍历所有检测框完成上述操作后,剩余得分大于零的检测框,即为最终的目标检测结果。
本发明的有益效果是:由于设计了新的目标检测网络,使用训练好的网络模型可以自动地从光学遥感图像中对目标进行定位和分类,具有较高的检测精度和较快的推理速度;由于目标检测网络中包括特征增强模块,该模块可以实现特征的显著性表达,使得检测精度在数据集的不同类别上有提升;由于在网络端到端的训练过程中,采用样本重加权策略来引导训练网络更加关注纵横比差异较大的目标样本,以此来优化训练模型,使得纵横比差异较大目标样本类别的检测精度得到显著提升。
附图说明
图1本发明方法的流程框图;
图2本发明实施例的训练图像;
图3本发明目标检测网络的特征增强模块示意图;
图4本发明的样本重加权示意图;
图5采用本发明方法进行目标检测的结果图像。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于样本重加权的遥感图像多类目标检测方法,构建了新的目标检测网络。为更好地说明本发明,本实施例在硬件环境:Intel(R)Core(TM)i3-8100 CPU计算机、8.0GB内存,显卡型号:Titan X(Pascal),可使用内存为12GB,软件环境:Pycharm2016和Ubuntu 16.04.5LTS下进行实验。实验使用公开光学遥感数据库DIOR,该数据集中有23463幅图像,总共为20个类别标注了192472个水平框实例,每幅图像的像素为800×800。为了验证本发明方法的合理性以及有效性,从数据集中选择11725幅图像作为训练集,选择其余的11738幅图像作为测试集,本发明的部分训练图像如图2所示。
本发明的具体实施过程如下:
1、数据预处理:使用数据增广方法增加待训练样本的多样性,再使用重缩放实现输入图片尺度的合理性。其中,数据增广方法采用文献“Liu Wei,Anguelov Dragomir,Erhan Dumitru,Szegedy Christian,Reed Scott,Fucheng Yang,Berg Alexander C.SSD:Single Shot MultiBox Detector.ECCV,2016”中的方法,具体包括以下过程:
(1)图像度量失真:对原始图片进行色彩亮度、对比度、饱和度等方面的改变,这些改变针对图片中每个像素点进行。首先,给定亮度值Δbrightness,其初始值为32,Δ=random.uniform(-Δbrightness,Δ brightness)表示为一个随机亮度值,在原始图片每一个像素值处加Δ;其次,给定色彩对比度上下限contrastupper、contrastlower,本实施中依次设定为1.5、0.5,α=random.uniform(contrastlower,contrastupper)表示为一个随机色彩对比度值,在原始图片每一个像素值处乘α;接着把图片的颜色空间从BGR转换到HSV,给定色彩饱和度的上下限saturationupper、saturationlower,本实施中依次设定为1.5、0.5,针对图片的S空间,利用β=random.uniform(saturationlower,saturationupper)生成一个随机色彩饱和度,在该图片空间的每一个像素点处乘β;再给定色度值Δhue,其初始值为18,针对图片的H空间,利用Δh=random.uniform(-Δhue,Δhue)产生一个随机色度值,在该图片空间的每一个像素点处加Δh;最后,再把图片的颜色空间从HSV转换到BGR,同时可以打乱图片的通道信息,得到图片新的表征;
(2)随机裁剪:设置5组最小的覆盖率,分别为0.1、0.3、0.5、0.7、0.9,最小的随机裁剪比例表示为:γ=0.3,其中覆盖率是指新生成的图像块(patch)中的目标框与原始图片中Ground Truth框之间的IoU(Intersection over Union),随机裁剪的比例是根据原始输入图片的宽高信息来定义的;
(3)图片扩张:图片的尺度扩张首先定义了扩张比率的上下限ratiomax、ratiomin,本实施中依次设定为4、1,利用ratio=random.uniform(ratiomin,ratiomax)得到一个随机的扩张比率,用该ratio对原始图片进行尺度方面的扩张,使用待训练数据集中的RGB均值来填充扩张过后的图片空间,根据ratio得到新的坐标index,在新扩张图片的index处作为原始图片的覆盖点,其余部分的像素值仍然保持RGB均值;
图片尺度的重新缩放:训练网络的输入图片尺寸要求是512×512,因此采用PIL(Python Imaging Library)库中的image.resize(w,h)函数对原始图片进行尺度缩小操作,使得所有输入到卷积神经网络里的图片具有相同的尺寸,均为512×512。
2、构建目标检测网络:包括特征提取模块、特征增强模块和检测头部模块。
其中,特征提取模块采用修改后的VGG16网络,即将VGG16的全连接层FC6替换为卷积核为3×3、卷积步长为1、卷积增补为6、空洞卷积率为6的卷积层,将全连接层FC7替换为卷积核为1×1、卷积步长为1的卷积层,输入图像经过特征提取模块得到长宽尺度依次递减的多尺度的特征图{CA1,CA2,CA3,CA4,CA5,CA6,CA7},其长宽尺度信息表示为{64×64,32×32,16×16,8×8,4×4,2×2,1×1},该组特征图通道数表示为{512,1024,512,256,256,256,256}。
由特征提取模块得到的特征图的长宽尺度依次递减,特征增强模块对{CA1,CA2,CA3,CA4}这4组特征图进行处理,其网络结构设计如图3所示。针对特征图{CA1}分别采用3×3和5×5的卷积核进行卷积操作得到{CA13,CA15},并将原特征图{CA1}与卷积后的特征图{CA13,CA15}的对应元素相加,得到融合后的特征图{C'A1},针对特征图{CA2}分别采用3×3和5×5的卷积核进行卷积操作得到{CA23,CA25},并将原特征图{CA2}与卷积后的特征图{CA23,CA25}的对应元素相加,得到融合后的特征图{C'A2};同时,针对特征图{CA3}分别采用1×1和3×3的卷积核进行卷积操作得到{CA31,CA33},并将原特征图{CA3}与卷积后的特征图{CA31,CA33}的对应元素相加,得到融合后的特征图{C'A3},针对特征图{CA4}分别采用1×1和3×3的卷积核进行卷积操作得到{CA41,CA43},并将原特征图{CA4}与卷积后的特征图{CA41,CA43}的对应元素相加,得到融合后的特征图{C'A4};经过特征增强模块获得了新的特征图组{C'A1,C'A2,C'A3,C'A4},最终多尺度特征图表示为{C'A1,C'A2,C'A3,C'A4,CA5,CA6,CA7}。
将得到的多尺度特征图{C'A1,C'A2,C'A3,C'A4,CA5,CA6,CA7}送入检测头部模块,检测头部模块包括分类分支和回归分支。
在特征图{C'A1,C'A2,CA7}的每个像素点上分别设置4个先验框,在特征图{C'A3,C'A4,CA5,CA6}的每个像素点上分别设置6个先验框。先验框的尺度设定遵守一个线性递增规则,随着特征图长宽尺度的减小,先验框尺度按照以下公式线性增加。对于第一个特征图{C'A1},其先验框的实际尺度表示为input_size×4/100,input_size表示输入图片的尺寸,本实施例中为512。其他6个特征图中先验框的尺度按以下公式进行计算:
Figure GDA0003477206080000091
其中,m指除C'A1外特征图的个数,这里m=6,sk表示第k个特征图中的先验框的实际尺度,k=2、3、4、5、6、7依次表示特征图C'A2、C'A3、C'A4、CA5、CA6、CA7,smin=0.1表示比例的最小值,smax=0.9表示比例的最大值。按照上述公式计算先验框的尺度,本实施例中多尺度特征图{C'A2,C'A3,C'A4,CA5,CA6,CA7}上的先验框实际尺度依次为:51、133、215、296、378、460,加上{C'A1}的先验框实际尺度信息,最终各个特征图的先验框实际尺度sk,k∈[1,7]依次为:20、51、133、215、296、378、460。针对特征图{C'A1,C'A2,CA7}上的每个像素点,分别设置4个先验框,将其映射到步骤1处理过的图片上,其中3个先验框遵循以下设计规则,在各个特征图上设置先验框的尺度信息依表示为sk,k=1,2,7,针对每一个尺度信息,其长宽比依次设定为1:1、2:1、1:2,另外,在每一组特征图上设置一组尺度信息为
Figure GDA0003477206080000092
k=1,2,7且长宽比为1:1的先验框,其中s8=input_szie×106/100,本实施例中在这3组特征图上设置的第4个先验框的尺度信息分别为32、82、499;针对特征图{C'A3,C'A4,CA5,CA6}上的每个像素点,分别设置6个先验框,将其映射到步骤1处理过的图片上,其中5个先验框遵循以下设计规则,各个特征图上设置先验框的尺度信息表示为sk,k=3,4,5,6,针对每一个尺度信息,其长宽比依次设定为1:1、2:1、1:2、1:3、3:1,另外,在每一组特征图上设置一组尺度信息为
Figure GDA0003477206080000093
k=3,4,5,6且长宽比为1:1的先验框,本实施例中在这4组特征图上设置的第6个先验框的的尺度信息依次为169、252、334、416。
分类分支是卷积核为3x3、卷积步长为1、卷积增补为1的网络,将多尺度特征图输入到分类分支,每一组都分别经过分类分支网络,彼此之间相互独立,输出为该特征图中每个先验框的类别预测值。回归分支是卷积核为3x3、卷积步长为1、卷积增补为1的网络,将多尺度特征图输入到回归分支,每一组都分别经过回归分支网络,彼此之间相互独立,输出为该特征图中每个先验框的坐标偏移量{tx,ty,tw,th},tx表示x方向的偏移量,ty表示y方向的偏移量,tw表示宽度尺度因子,th表示高度尺度因子。分类分支和回归分支同时进行预测,即图像中的一个先验框通过检测头部的卷积运算,最终会得到25个预测值,其中21个预测值(训练数据集中目标类别数20,加入背景类,共21个类别)通过分类分支获得,4个预测值(坐标偏移量)通过回归分支获得。
设先验框的坐标信息为{px,py,pw,ph},其中,px表示先验框左上角x方向的坐标,py表示先验框左上角y方向的坐标,pw表示先验框的宽度信息,ph表示先验框的高度信息;与该先验框匹配的Ground Truth框的坐标信息表示为{Gx,Gy,Gw,Gh},其中Gx表示Ground Truth框左上角x方向的坐标,Gy表示Ground Truth框左上角y方向的坐标,Gw表示Ground Truth框得宽度信息,Gh表示Ground Truth框的高度信息。先验框与Ground Truth框进行匹配的原则是:(1)对每一个Ground Truth框匹配一个与其IoU最大的先验框;(2)对于每一个先验框,找到其与给定图片中所有Ground Truth框之间IoU的最大值,将其与该Ground Truth框进行匹配。当同一个先验框与多个(大于等于2个)Ground Truth框的IoU一样且最大时,每个先验框只能匹配一个类别标签,此时该先验框的类别信息会被后面出现的Ground Truth框的类别标签所覆盖。
回归分支预测每个先验框的坐标偏移量{tx,ty,tw,th},其坐标偏移真值
Figure GDA0003477206080000101
表示为:
Figure GDA0003477206080000102
其中,
Figure GDA0003477206080000103
表示x方向的坐标偏移真值,
Figure GDA0003477206080000104
表示y方向的坐标偏移真值,
Figure GDA0003477206080000105
表示宽度尺度因子,
Figure GDA0003477206080000106
表示高度尺度因子。
3、对网络进行端到端的训练:将步骤1预处理后的图像输入到所构建的目标检测网络进行训练,当达到设定的训练总次数时,停止训练,得到训练好的目标检测网络;其中,网络训练参数分别设定为:训练总次数设置为24个epoch,初始学习率为2.5e-4,一个批次处理的图片数为8,学习率在epoch为16-22时开始下降,下降速率为0.1,到第23个epoch时,学习率降低为2.5e-6;网络的损失函数设定为:
Figure GDA0003477206080000111
Lcls=F.cross_entropy(clsscore,labels)*scale_weight (14)
Lreg=smooth_l1_loss(bboxpred,bboxtargets)*scale_weight (15)
其中,Ltotal表示总的网络损失,Lcls表示分类损失,Lreg表示回归损失,Ncls表示参与分类损失计算的样本总数,Nreg表示参与回归损失计算的样本总数,
Figure GDA0003477206080000112
表示先验框的归属,根据先验框与Ground Truth框进行匹配的原则确定,若IoU>=0.5时,先验框被匹配为正样本,则
Figure GDA0003477206080000113
IoU<0.5时,先验框被匹配为负样本,
Figure GDA0003477206080000114
F.cross_entropy(·)表示交叉熵损失,计算表达式如下:
F.cross_entropy=-[labels*log(clsscore)+(1-labels)*log(1-clsscore)] (16)
其中,clsscore表示分类分支针对先验框的类别预测值,labels表示先验框与GroundTruth框匹配的标签真值信息,其取值范围为[1,...,K],K表示类别总数,本实施中为20,labels=0表示为负样本。在进行上述计算时,labels的信息由[0,K]转换为一个One-hot向量。
smooth_l1_loss(·)用于计算回归损失,计算表达式如下:
Figure GDA0003477206080000115
其中,bboxpred表示回归分支对先验框预测得到的坐标偏移量,bboxtargets表示先验框的坐标偏移真值,scale_weight表示匹配为正样本的先验框所属真值信息的纵横比经过归一化之后的结果,计算公式如下:
scale_weight=exp(-scale′)+1 (18)
其中,scale′表示匹配为正样本的先验框的纵横比系数,按照以下公式计算:
Figure GDA0003477206080000121
其中,scale表示匹配为正样本的先验框的宽度与高度之比。通过上述归一化方法对每个正样本的scale_weight进行限制,损失函数的变化在一个可控的范围内,使模型最终实现收敛。在计算样本的分类损失和回归损失时,加入该样本所匹配到的Ground Truth框的纵横比信息,通过这种样本重加权的方法,让网络侧重于训练纵横比差异较大的目标类别,用于提升这类目标的检测效果。样本重加权模块如图4所示。
4、目标检测:将待检测遥感图像输入到以上训练好的目标检测网络中,得到每个先验框的类别预测值和其坐标偏移量,然后,利用归一化指数函数Softmax将类别预测值转换为最终的类别概率得分,具体计算公式如下:
Figure GDA0003477206080000122
其中,σ(z)j代表先验框内目标被预测为类别j的概率得分,其范围为(0,1);j代表类别所对应的序号,j=0,1,…,20,j=0表示为背景;zj和zk代表目标检测网络输出的检测框的类别预测值;
概率得分最大值所对应的类别即为该先验框最终的分类结果;
按照下式计算先验框经过坐标偏移之后得到的检测框位置信息:
Figure GDA0003477206080000123
其中,{blx,bly,brx,bry}表示检测框的位置信息,blx表示检测框左上角x方向的坐标,bly表示检测框左上角y方向的坐标,brx表示检测框右下角x方向的坐标,bry表示检测框右下角y方向的坐标;
最后,按以下过程进行目标检测:首先,删除属于背景类的检测框;然后,删除概率得分小于0.02的检测框,如果此时剩余检测框个数大于200,则仅保留概率得分最高的前200个检测框;最后,利用非极大值抑制来过滤针对同一目标的重叠率较高的检测框,剩余检测框即为最终的目标检测结果,具体为:以概率得分最高的检测框为基准框,分别计算其他检测框与基准框的重叠率IoU,并将重叠率IoU大于0.45的检测框的得分置为0;然后,以概率得分次高的检测框为基准框,重复上述操作,直至遍历所有检测框完成上述操作后,剩余得分大于零的检测框,即为最终的目标检测结果。采用本发明方法进行目标检测的部分结果图像如图5所示。
选用mAP(mean Average Precision)对本发明方法的有效性进行评估,其定义如下:
Figure GDA0003477206080000131
其中,N代表待训练数据集中所包含的类别总数,本实例中N=20,i代表其中一种目标类别,APi代表该类目标的平均精度值;同时,将本发明所得的检测结果与基于SSD512的目标检测算法进行了对比,对比结果如表1所示,mAP这一评价指标证明了本发明方法的有效性。
表1
方法 mAP
基于SSD512的目标检测算法 68.7%
本发明方法 71.7%

Claims (1)

1.一种基于样本重加权的遥感图像多类目标检测方法,其特征在于步骤如下:
步骤1,图像数据预处理:首先,对原始遥感图像数据集中的图像进行数据增广处理,然后,对处理后的图像进行尺度缩放,使所有输入图像具有相同的尺寸;
步骤2,构建目标检测网络,包括特征提取模块、特征增强模块和检测头部模块,其中,特征提取模块采用修改后的VGG16网络,即将VGG16的全连接层FC6替换为卷积核为3×3、卷积步长为1、卷积增补为6、空洞卷积率为6的卷积层,将全连接层FC7替换为卷积核为1×1、卷积步长为1的卷积层,输入图像经过特征提取模块得到长宽尺寸依次递减的多尺度特征图{CA1,CA2,CA3,CA4,CA5,CA6,CA7};特征增强模块对{CA1,CA2,CA3,CA4}这4组特征图进行处理,针对特征图{CA1}分别采用3×3和5×5的卷积核进行卷积操作得到{CA13,CA15},并将原特征图{CA1}与卷积后的特征图{CA13,CA15}的对应元素相加,得到融合后的特征图{C'A1},针对特征图{CA2}分别采用3×3和5×5的卷积核进行卷积操作得到{CA23,CA25},并将原特征图{CA2}与卷积后的特征图{CA23,CA25}的对应元素相加,得到融合后的特征图{C'A2};同时,针对特征图{CA3}分别采用1×1和3×3的卷积核进行卷积操作得到{CA31,CA33},并将原特征图{CA3}与卷积后的特征图{CA31,CA33}的对应元素相加,得到融合后的特征图{C'A3},针对特征图{CA4}分别采用1×1和3×3的卷积核进行卷积操作得到{CA41,CA43},并将原特征图{CA4}与卷积后的特征图{CA41,CA43}的对应元素相加,得到融合后的特征图{C'A4};经过特征增强模块获得新的特征图组{C'A1,C'A2,C'A3,C'A4},最终多尺度特征图表示为{C'A1,C'A2,C'A3,C'A4,CA5,CA6,CA7},它们的长宽尺度依次递减;
检测头部模块包括分类分支和回归分支,分类分支为卷积核为3x3、卷积步长为1、卷积增补为1的网络,将多尺度特征图输入到分类分支,输出为该特征图中每个先验框的类别预测值;回归分支为卷积核为3x3、卷积步长为1、卷积增补为1的网络,将多尺度特征图输入到回归分支,输出为该特征图中每个先验框的坐标偏移量;
针对特征图上每个像素点,添加不同尺度和长宽比的先验框,具体如下:
对于特征图C'A1,其先验框尺度设置为input_size×4/100,input_size表示输入图像的尺寸;对于其他特征图,其先验框尺度按以下公式计算得到:
Figure FDA0003477206070000021
其中,m指除C'A1外特征图的个数,这里m=6,sk表示第k个特征图中的先验框的尺度,k=2、3、4、5、6、7依次表示特征图C'A2、C'A3、C'A4、CA5、CA6、CA7,smin表示比例的最小值,smin=0.1,smax表示比例的最大值,smax=0.9;
针对特征图{C'A1,C'A2,CA7}的每个像素点,分别设置4个先验框,其中3个框的长宽比依次设定为1:1、2:1、1:2,另外,在每一组特征图上设置一组尺度信息为
Figure FDA0003477206070000022
且长宽比为1:1的先验框,k=1、2、7,其中,s8=input_szie×106/100;针对特征图{C'A3,C'A4,CA5,CA6}的每个像素点,分别设置6个先验框,其中5个框的长宽比依次设定为1:1、2:1、1:2、1:3、3:1,另外,在每一组特征图上额外设置一组尺度信息为
Figure FDA0003477206070000023
且长宽比为1:1的先验框,k=3、4、5、6;
将所有先验框按照像素点位置映射到输入图像上;
步骤3,对网络进行端到端的训练:将步骤1预处理后的图片输入到步骤2构建的目标检测网络进行训练,当达到设定的训练总次数时,停止训练,得到训练好的目标检测网络;其中,网络训练参数分别设定为:训练总次数设置为24个epoch,初始学习率为2.5e-4,一个批次处理的图片数为8,学习率在epoch为16-22时开始下降,下降速率为0.1,到第23个epoch时,学习率降低为2.5e-6;网络的损失函数设定为:
Figure FDA0003477206070000024
Lcls=F.cross_entropy(clsscore,labels)*scale_weight (3)
Lreg=smooth_l1_loss(bboxpred,bboxtargets)*scale_weight (4)
其中,Ltotal表示总的网络损失,Lcls表示分类损失,Lreg表示回归损失,Ncls表示参与分类损失计算的样本总数,Nreg表示参与回归损失计算的样本总数,
Figure FDA0003477206070000025
表示先验框的归属,根据先验框与Ground Truth框进行匹配的原则确定,若先验框被匹配为正样本,则
Figure FDA0003477206070000026
若先验框被匹配为负样本,则
Figure FDA0003477206070000027
F.cross_entropy(·)表示交叉熵损失,clsscore表示分类分支针对先验框的类别预测值,labels表示先验框与Ground Truth框匹配的标签真值信息,其取值范围为[1,...,K],K表示类别总数,labels=0表示为负样本;smooth_l1_loss(·)用于计算回归损失,bboxpred表示回归分支对先验框预测的坐标偏移量,bboxtargets表示先验框的坐标偏移真值,scale_weight表示匹配为正样本的先验框所属真值信息的纵横比经过归一化之后的结果;
所述的交叉熵损失F.cross_entropy(·)的计算表达式如下:
F.cross_entropy=-[labels*log(clsscore)+(1-labels)*log(1-clsscore)] (5)
在进行上述计算时,labels的信息由[0,K]转换为一个One-hot向量;
所述的回归损失函数smooth_l1_loss(·)的计算表达式如下:
Figure FDA0003477206070000031
所述的scale_weight的计算公式如下:
scale_weight=exp(-scale′)+1 (7)
其中,scale′表示匹配为正样本的先验框的纵横比系数,按照以下公式计算:
Figure FDA0003477206070000032
其中,scale表示匹配为正样本的先验框的宽度与高度之比;
步骤4,目标检测:将待检测遥感图像输入到步骤3训练好的目标检测网络中,得到每个先验框的类别预测值和其坐标偏移量,然后利用归一化指数函数Softmax将类别预测值转换为最终的类别概率得分,具体计算公式如下:
Figure FDA0003477206070000033
其中,σ(z)j代表先验框内目标被预测为类别j的概率得分,其范围为(0,1);j代表类别所对应的序号,j=0,1,…,K,j=0表示为背景;zj和zk代表目标检测网络输出的先验框的类别预测值;
概率得分最大值所对应的类别即为该先验框最终的分类结果;
按照下式计算先验框经过坐标偏移之后得到的检测框位置信息:
Figure FDA0003477206070000041
其中,{blx,bly,brx,bry}表示检测框的位置信息,blx表示检测框左上角x方向的坐标,bly表示检测框左上角y方向的坐标,brx表示检测框右下角x方向的坐标,bry表示检测框右下角y方向的坐标;{tx,ty,tw,th}表示回归分支网络预测得到的坐标偏移量,tx表示在x方向上的偏移量,ty表示在y方向上的偏移量,tw表示宽度尺度因子,th表示高度尺度因子;{px,py,pw,ph}表示先验框的坐标信息,px表示先验框左上角x方向的坐标,py表示先验框左上角y方向的坐标,pw表示先验框的宽度,ph表示先验框的高度;
最后,按以下过程进行目标检测:首先,删除属于背景类的检测框;然后,删除概率得分小于0.02的检测框,如果此时剩余检测框个数大于200,则仅保留概率得分最高的前200个检测框;最后,利用非极大值抑制来过滤针对同一目标的重叠率较高的检测框,剩余检测框即为最终的目标检测结果,具体为:以概率得分最高的检测框为基准框,分别计算其他检测框与基准框的重叠率IoU,并将重叠率IoU大于0.45的检测框的得分置为0;然后以概率得分次高的检测框为基准框,重复上述操作,直至遍历所有检测框完成上述操作后,剩余得分大于零的检测框,即为最终的目标检测结果。
CN202011342048.2A 2020-11-25 2020-11-25 一种基于样本重加权的遥感图像多类目标检测方法 Active CN112418108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011342048.2A CN112418108B (zh) 2020-11-25 2020-11-25 一种基于样本重加权的遥感图像多类目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011342048.2A CN112418108B (zh) 2020-11-25 2020-11-25 一种基于样本重加权的遥感图像多类目标检测方法

Publications (2)

Publication Number Publication Date
CN112418108A CN112418108A (zh) 2021-02-26
CN112418108B true CN112418108B (zh) 2022-04-26

Family

ID=74842404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011342048.2A Active CN112418108B (zh) 2020-11-25 2020-11-25 一种基于样本重加权的遥感图像多类目标检测方法

Country Status (1)

Country Link
CN (1) CN112418108B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022193074A1 (zh) * 2021-03-15 2022-09-22 深圳市大疆创新科技有限公司 Rpn网络的后处理方法及装置
CN113326734B (zh) * 2021-04-28 2023-11-24 南京大学 一种基于YOLOv5的旋转目标检测方法
CN113592906B (zh) * 2021-07-12 2024-02-13 华中科技大学 一种基于标注帧特征融合的长视频目标跟踪方法及系统
CN116523704B (zh) * 2023-04-03 2023-12-12 广州市德慷电子有限公司 一种基于大数据的医学实习教学决策方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104950296A (zh) * 2015-06-12 2015-09-30 西安电子科技大学 基于重加权自适应功率剩余的稳健非均匀检测方法
CN111008603A (zh) * 2019-12-08 2020-04-14 中南大学 面向大尺度遥感图像的多类目标快速检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109212502B (zh) * 2018-09-10 2022-12-27 中国航天科工集团八五一一研究所 基于重加权的采样矩阵求逆非均匀检测器的实现方法
CN110287927B (zh) * 2019-07-01 2021-07-27 西安电子科技大学 基于深度多尺度和上下文学习的遥感影像目标检测方法
CN110533084B (zh) * 2019-08-12 2022-09-30 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN111160249A (zh) * 2019-12-30 2020-05-15 西北工业大学深圳研究院 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN111461110B (zh) * 2020-03-02 2023-04-28 华南理工大学 一种基于多尺度图像和加权融合损失的小目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104950296A (zh) * 2015-06-12 2015-09-30 西安电子科技大学 基于重加权自适应功率剩余的稳健非均匀检测方法
CN111008603A (zh) * 2019-12-08 2020-04-14 中南大学 面向大尺度遥感图像的多类目标快速检测方法

Also Published As

Publication number Publication date
CN112418108A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112418108B (zh) 一种基于样本重加权的遥感图像多类目标检测方法
CN111563473B (zh) 基于密集特征融合和像素级注意力的遥感舰船识别方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN110796048B (zh) 一种基于深度神经网络的船舰目标实时检测方法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN114627052A (zh) 一种基于深度学习的红外图像漏气漏液检测方法及系统
CN111753682B (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN116152254B (zh) 工业泄露目标气体检测模型训练方法、检测方法、电子设备
CN117253154B (zh) 一种基于深度学习的集装箱弱小序列号目标检测识别方法
WO2023116632A1 (zh) 基于时空记忆信息的视频实例分割方法和分割装置
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN112381030A (zh) 一种基于特征融合的卫星光学遥感图像目标检测方法
CN115393635A (zh) 一种基于超像素分割以及数据增强的红外小目标检测方法
CN112949635B (zh) 一种基于特征增强和IoU感知的目标检测方法
CN114565824A (zh) 基于全卷积网络的单阶段旋转舰船检测方法
CN114332921A (zh) 基于改进聚类算法的Faster R-CNN网络的行人检测方法
CN113496480A (zh) 一种焊缝图像缺陷的检测方法
CN111126303B (zh) 一种面向智能停车的多车位检测方法
CN116597275A (zh) 一种基于数据增强的高速移动目标识别方法
CN116740572A (zh) 一种基于改进yolox的海上船舰目标检测方法和系统
CN113657225B (zh) 一种目标检测方法
He et al. Building extraction based on U-net and conditional random fields

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant