CN111091105B - 基于新的边框回归损失函数的遥感图像目标检测方法 - Google Patents

基于新的边框回归损失函数的遥感图像目标检测方法 Download PDF

Info

Publication number
CN111091105B
CN111091105B CN201911340541.8A CN201911340541A CN111091105B CN 111091105 B CN111091105 B CN 111091105B CN 201911340541 A CN201911340541 A CN 201911340541A CN 111091105 B CN111091105 B CN 111091105B
Authority
CN
China
Prior art keywords
network
training
candidate
target
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911340541.8A
Other languages
English (en)
Other versions
CN111091105A (zh
Inventor
钱晓亮
林生
王淑娟
邢培旭
曾黎
程塨
姚西文
岳伟超
任航丽
刘向龙
王芳
毋媛媛
吴青娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN201911340541.8A priority Critical patent/CN111091105B/zh
Publication of CN111091105A publication Critical patent/CN111091105A/zh
Application granted granted Critical
Publication of CN111091105B publication Critical patent/CN111091105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明提出了一种基于新的边框回归损失函数的遥感图像目标检测方法,其步骤如下:以高分辨率遥感图像为训练样本训练候选区域生成网络,候选区域生成网络的边框回归损失函数采用新的损失函数;通过训练好的候选区域生成网络得到候选目标框作为目标初始位置训练区域检测网络,区域检测网络的边框回归损失函数采用新的边框回归损失函数;交替训练候选区域生成网络和区域检测网络;共享候选区域生成网络和区域检测网络的主干网络,合并训练后的候选区域生成网络和区域检测网络构建检测模型,获得待检测的高分辨率遥感图像感兴趣目标的位置和类别。本发明通过改进目标检测的边框回归损失函数,能够有效提升高分辨率遥感图像目标检测的精度。

Description

基于新的边框回归损失函数的遥感图像目标检测方法
技术领域
本发明涉及深度学习的技术领域,尤其涉及一种基于新的边框回归损失函数的遥感图像目标检测方法。
背景技术
高分辨率遥感图像目标检测是光学遥感图像处理领域中最重要的任务之一,致力于定位并识别高分遥感图像中的高价值地物目标。随着高分重大专项(国家科技发展中长期规划16个重大专项之一)的实施,我国遥感数据的获取技术发展较快,对遥感大数据的挖掘就成了高分重大专项的关键环节,高分遥感图像目标检测正是遥感大数据挖掘的关键技术之一,也是环境监测、防灾减灾、军事侦察和精确打击等应用的核心问题之一,具有重要的民用和军事应用价值。
高分辨率遥感图像目标检测的方法有多种,依据高分辨率遥感图像目标检测的发展阶段不同可分为基于手工特征和基于数据驱动两大类。由于基于数据驱动的方法具备强大的特征表达能力,因而成为高分辨率遥感图像目标检测领域的主流方法。基于数据驱动的方法根据网络层的深度不同又可分为浅层学习和深度学习两类。其中,基于深度学习的方法比基于浅层学习的方法检测精度高,因而基于深度学习的目标检测方法广泛应用于高分辨率遥感图像的目标检测领域。
基于深度学习的目标检测方法主要包括一阶段方法和两阶段方法。相对于两阶段方法,一阶段方法由于检测精度相对较低,因而在高分辨率遥感图像目标检测领域的应用受到一定的局限。两阶段的目标检测方法包含候选区域生成网络和检测网络两个部分,其中检测网络的边框回归损失函数主要采用Smooth L1损失函数优化边框位置,但此损失函数未能直接优化评价指标,这在一定程度上限制了优化的效果。
发明内容
针对现有高分辨率遥感图像目标检测方法的损失函数未能直接优化评价指标的技术问题,本发明提出一种基于新的边框回归损失函数的遥感图像目标检测方法,可以将损失函数与评价指标直接建立联系,并且在优化过程中能够自适应的改变梯度,从而进一步提升高分辨率遥感图像目标检测的精度。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于新的边框回归损失函数的遥感图像目标检测方法,其步骤如下:
步骤一:训练候选区域生成网络:以带标注的高分辨率遥感图像为训练样本,训练候选区域生成网络,其中候选区域生成网络的边框回归损失函数采用新的损失函数;
步骤二:训练区域检测网络:通过步骤一中训练好的候选区域生成网络得到样本图像的候选目标框,以候选目标框作为目标初始位置来训练区域检测网络,其中区域检测网络的边框回归损失函数采用新的损失函数;
步骤三:交替步骤一训练候选区域生成网络和步骤二训练区域检测网络,周而复始,迭代训练,直至收敛,且训练过程采用随机梯度下降法对网络参数进行优化;
步骤四:测试阶段:共享候选区域生成网络和区域检测网络的主干网络,合并步骤三训练后的候选区域生成网络和区域检测网络构建检测模型,将待检测的高分辨率遥感图像输入检测模型中,获得待检测的高分辨率遥感图像感兴趣目标的位置和类别。所述步骤一中的训练样本来自于数据集NWPU VHR-10和数据集DIOR中的高分辨率遥感图像。
所述候选区域生成网络的训练分别在多个特征层进行;候选区域生成网络的主干网络采用在ImageNet标准数据预训练过的深度模型,其余网络的参数采用服从均值为0、方差为0.01的高斯分布进行随机初始化;区域检测网络与候选区域生成网络共享主干网络,区域检测网络其余部分的参数采用服从均值为0、方差为0.01的高斯分布随机初始化;
在候选区域生成网络训练时,每幅样本图像中训练样本总数为256,正负样本数量比为1:1,当正样本数量少于128时,用负样本填充;其中,正样本包含以下两种:①与真值框的交并比超过0.7的锚框;②与每一个真值框的交并比最大的锚框;负样本包括:在所有与真值框交并比小于0.3的锚框中,取交并比最小的128个锚框;
在区域检测网络训练时,每幅图像中训练样本总数为512,正负样本数量比为1:3,即:正样本为128个,负样本为384个;其中,在所有与真值框的交并比超过0.5的候选区域中选择交并比数值前128名的候选区域作为正样本,在所有与真值框的交并比低于0.5的候选区域中选择交并比数值后384名的候选区域作为负样本。
所述步骤一中的训练样本及训练样本中目标的位置根据宽高比进行预处理:将数据集中不包含有效目标的高分辨率遥感图像舍弃,将带标注的高分辨率遥感图像作为样本图像,根据宽高比从小到大进行排序,选取宽高比在0.5-2.0之间的样本图像,对宽高比小于0.5或大于2.0的样本图像进行裁剪,并将图像的短边设置为800像素,根据宽高比自动调整长边;样本图像中目标的位置同样根据宽高比进行调整。
所述步骤一中训练候选区域生成网络的方法为:
步骤101:将预处理后的高分辨率遥感图像输入特征金字塔主干网络,通过多层卷积、激活和池化操作完成自下向上的特征提取,并通过侧向连接与自上向下的特征进行融合,得到多尺度特征;
步骤102:对融合后的多尺度特征:每个尺度的特征先进行3×3的卷积操作,再分别采用两个1×1的卷积操作得到两个特征图,将得到的两个特征图转化成两个一维向量,分别进行二分类和边框回归;各尺度的所有卷积操作共享卷积核参数。
所述候选区域生成网络的损失函数是二分类损失函数和边框回归损失函数的联合损失,候选区域生成网络的损失函数为:
Figure BDA0002332141700000031
Figure BDA0002332141700000032
Figure BDA0002332141700000033
其中,pi
Figure BDA0002332141700000034
分别表示在单幅样本图像上产生的训练样本中第i个样本被预测为目标的概率和对应的二值真实标签,ti
Figure BDA0002332141700000035
分别表示第i个样本的预测框和对应的真值框,
Figure BDA0002332141700000036
Figure BDA0002332141700000037
分别表示二分类损失函数和边框回归损失函数,i表示训练样本的索引,Ncls和Nreg分别表示训练样本的数量和训练样本中正样本的数量,λ1表示权重系数,
Figure BDA0002332141700000038
表示预测框ti和真值框
Figure BDA0002332141700000039
的通用交并比。
所述通用交并比
Figure BDA00023321417000000310
的定义为:
Figure BDA00023321417000000311
其中,
Figure BDA00023321417000000312
表示预测框ti和真值框
Figure BDA00023321417000000313
的交并比,
Figure BDA00023321417000000314
表示预测框ti和真值框
Figure BDA00023321417000000315
的最小封闭区域面积,
Figure BDA00023321417000000316
表示预测框ti和真值框
Figure BDA00023321417000000317
的并集区域面积;
对于给定的预测框ti和真值框
Figure BDA00023321417000000318
两边界框的交并比
Figure BDA00023321417000000319
为:
Figure BDA00023321417000000320
其中,
Figure BDA00023321417000000321
表示预测框ti和真值框
Figure BDA00023321417000000322
的交集区域面积。
所述步骤二中训练区域检测网络的方法为:
步骤201:候选目标框的生成:以带标注的高分辨率遥感图像为训练样本,将训练样本送入初步训练后的候选区域生成网络中,在候选区域生成网络上产生大量的锚框,然后将超过图像边界的锚框去除,利用softmax分类器计算剩余锚框的得分,筛除掉得分低于设定阈值0.05的锚框;根据得分对剩余的锚框进行非极大值抑制操作,根据锚框得分,从高到低选取2000个锚框作为候选目标框;
步骤202:将得到的候选目标框映射到某一尺度的特征图上:
Figure BDA0002332141700000041
其中,w和h分别表示候选目标框的宽和高,k表示被映射到的特征图尺度次序,k0表示wh=2242的候选目标框被映射到的特征图尺度次序,
Figure BDA0002332141700000042
表示向下取整;
步骤203:确定候选目标框映射到的特征图尺度次序后,将候选目标框映射到其他尺度特征图的同等相对位置;
步骤204:分别对多尺度特征图上的候选目标框进行感兴趣区域池化,将经过池化的多个特征图沿通道方向进行拼接融合,构成多尺度特征融合模块,多尺度特征融合模块的融合方式如下:
Figure BDA0002332141700000043
其中,F表示候选目标框的多尺度融合特征图,Fl表示第l个尺度上的特征图,l=2,3,4,5,
Figure BDA0002332141700000044
表示特征图沿通道方向进行拼接融合;
对F进行7x7的卷积操作,得到一维的特征向量FC1,再对特征向量FC1进行一次全连接操作得到一维的特征向量FC2,依据特征向量FC2分别进行目标分类和边框回归。
所述区域检测网络的损失函数如下:
L(p,u,tu,v)=Lcls(p,u)+λ2·Lloc(tu,v)
其中,p和u分别表示候选区域的预测得分和对应的分类标签,tu和v分别表示基于候选区域的预测边界框和对应的真值框,Lcls(p,u)和Lloc(tu,v)分别表示多类别分类损失函数和新的边框回归损失函数,λ2表示权重参数;
多类别分类损失函数计算如下:
Figure BDA0002332141700000045
其中,k表示每幅样本图像中候选区域的索引,j表示目标类别数,pkj和ukj分别表示第k个候选区域被预测为第j类的概率和对应的标签;
新的边框回归的损失函数定义如下:
Lloc(tu,v)=3×log2-3×log(1+GIoU(tu,v)),
其中,tu,v分别表示最终预测框和真值框;GIoU(tu,v)表示预测框tu和真值框v的通用交并比。
所述步骤三中交替训练步骤为:先训练候选区域生成网络,然后用候选区域生成网络输出的候选目标框训练区域检测网络,接着在区域检测网络的参数基础上训练候选区域生成网络,循环迭代训练,直至收敛。
本发明的有益效果:通过改进高分辨率遥感图像目标检测的边框回归损失函数,能够有效提升高分辨率遥感图像目标检测的精度;能够利用损失函数对评价指标直接进行优化,缓解现有的高分辨率遥感图像目标检测中损失函数未能与评价指标建立直接联系的瓶颈;能够在训练过程中自适应的改变梯度,提高模型的训练效率和训练效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的目标检测的模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于新的边框回归损失函数的高分辨率遥感图像目标检测方法,包含步骤如下:
步骤一:训练候选区域生成网络:以带标注的高分辨率遥感图像为训练样本,训练候选区域生成网络,其中候选区域生成网络的边框回归损失函数采用新的损失函数。
此处候选区域生成网络分别在多个特征层进行;候选区域生成网络的主干网络采用在ImageNet预训练过的深度模型,其余网络参数采用服从均值为0、方差为0.01的高斯分布进行随机初始化。
所述步骤一中训练候选区域生成网络的方法为:
步骤1.1:将带标注的高分辨率遥感图像作为样本图像,根据宽高比对样本图像及目标位置进行预处理:将高分辨率遥感图像数据集不包含有效目标的图像舍弃,将带标注的高分辨率遥感图像作为样本图像,根据宽高比从小到大进行排序,样本图像的宽高比限制在0.5-2.0之间,对宽高比小于0.5或大于2.0的样本图像进行裁剪,并将图像的短边设置为800像素,根据宽高比自动调整长边,其中样本图像中目标的位置也同样根据宽高比进行调整。
训练样本和测试样本均为标注的高分辨率遥感图像数据。本次使用的高分辨率遥感图像数据集是NWPU VHR-10和DIOR,在NWPU VHR-10数据集中,训练集130幅,验证集130幅,测试集390幅;在DIOR数据集中,训练集5862幅,验证集5863幅,测试集11738幅。数据集的具体情况参见表1。
表1两个数据集中每类目标的全部数量
类别 NWPU VHR-10(个数) DIOR(个数)
飞机 757 10104
302 62400
储油罐 655 26414
棒球场 390 5817
网球场 524 12266
篮球场 159 3225
田径场 163 3038
港口 224 5509
124 3967
477 40370
飞机场 / 1327
烟囱 / 1681
水坝 / 1049
高速公路服务区 / 2165
高速公路收费站 / 1298
高尔夫球场 / 1086
天桥 / 3114
体育场 / 1268
火车站 / 1011
风机 / 5363
总数 3775 192472
步骤1.2:将经过步骤1.1预处理后的高分辨率遥感图像输入特征金字塔主干网络,通过多层卷积、激活、池化等操作,完成自下向上的特征提取,并通过侧向连接与自上向下的特征进行融合,得到多尺度特征。
具体实施时,可以通过文献[Lin,T.-Y.;Dollár,P.;Girshick,R.;He,K.;Hariharan,B.;Belongie,S.Feature pyramid networks for object detection.InProceedings of Proceedings of the IEEE conference on computer vision andpattern recognition;pp.2117-2125]的方法实现。
步骤1.3:对步骤1.2融合后的多尺度特征:每个尺度的特征先进行3×3的卷积操作,再分别采用两个1×1的卷积操作得到两个特征图,将得到的两个特征图转化成两个一维向量,分别进行二分类和边框回归;各尺度的所有卷积操作共享卷积核参数。
候选区域生成网络采用反向传播和随机梯度下降的方法进行优化,损失函数是二分类损失函数和边框回归损失函数的联合损失,具体步骤如下:
Figure BDA0002332141700000061
Figure BDA0002332141700000071
Figure BDA0002332141700000072
其中,pi
Figure BDA0002332141700000073
分别表示在单幅样本图像上产生的训练样本中第i个样本被预测为目标的概率和对应的二值真实标签,ti
Figure BDA0002332141700000074
分别表示第i个样本的预测框和对应的真值框,
Figure BDA0002332141700000075
Figure BDA0002332141700000076
分别表示二分类损失函数和边框回归损失函数,i表示训练样本的索引,Ncls和Nreg分别表示训练样本的数量(此处设为256)和训练样本中正样本的数量,λ1表示权重系数(此处设为1),
Figure BDA0002332141700000077
表示预测框ti和真值框
Figure BDA0002332141700000078
的通用交并比。
在候选区域生成网络训练时,每幅样本图像中训练样本总数为256,正负样本数量比为1:1,当正样本数量少于128时,用负样本填充;其中,正样本包含以下两种:①与真值框的交并比超过0.7的锚框;②与每一个真值框的交并比最大的锚框;负样本包括:在所有与真值框交并比小于0.3的锚框中,取交并比最小的128(若正样本数量少于128,则数量为256减去正样本数量)个锚框。
通用交并比
Figure BDA0002332141700000079
的定义如下:
Figure BDA00023321417000000710
其中,
Figure BDA00023321417000000711
表示预测框ti和真值框
Figure BDA00023321417000000712
的交并比,
Figure BDA00023321417000000713
表示预测框ti和真值框
Figure BDA00023321417000000714
的最小封闭区域面积,
Figure BDA00023321417000000715
表示预测框ti和真值框
Figure BDA00023321417000000716
的并集区域面积。
对于给定的预测框ti和真值框
Figure BDA00023321417000000717
两边界框的交并比
Figure BDA00023321417000000718
定义如下:
Figure BDA00023321417000000719
其中,
Figure BDA00023321417000000720
表示预测框ti和真值框
Figure BDA00023321417000000721
的交集区域面积。
步骤二:训练区域检测网络:先将训练样本中样本图像送入步骤一中训练好的候选区域生成网络得到样本图像的候选目标框,以候选目标框作为目标初始位置来训练区域检测网络,其中区域检测网络的边框回归损失函数采用新的损失函数。
候选区域生成网络和区域检测网络共享主干网络,其余网络参数采用服从均值为0、方差为0.01的高斯分布的随机初始化。
所述步骤二的实现方法包括:
步骤2.1:以带标注的高分辨率遥感图像为训练样本,将训练样本送入初步训练后的候选区域生成网络中,在候选区域生成网络上产生大量的锚框,然后将超过图像边界的锚框去除,利用softmax分类器计算剩余锚框的得分,筛除掉得分低于设定阈值0.05的锚框,接着根据得分对剩余的锚框进行非极大值抑制操作,最后在非极大值抑制操作的基础上,根据边框得分,从高到低选取2000个锚框,即候选目标框。
非极大值抑制操作可以通过文献[Girshick,R.;Donahue,J.;Darrell,T.;Malik,J.Rich feature hierarchies for accurate object detection and semanticsegmentation.In Proceedings of Proceedings of the IEEE conference on computervision and pattern recognition;pp.580-587]实现。
步骤2.2:将步骤2.1得到的候选目标框映射到某一尺度的特征图上,具体实现方式如下:
Figure BDA0002332141700000081
其中,w和h分别表示候选目标框的宽和高,k表示被映射到的特征图尺度次序,被映射到第k个尺度的特征图上,k0表示wh=2242的候选目标框被映射到的特征图尺度次序。本发明采用输入层尺寸为224×224的卷积神经网络作为主干网络,
Figure BDA0002332141700000082
表示向下取整。
步骤2.3:根据步骤2.2确定候选目标框映射到的特征图尺度次序后,将候选目标框映射到其他尺度特征图的同等相对位置。
步骤2.4:根据步骤2.3得到的候选目标框,分别对多层特征图上的候选目标框进行感兴趣区域池化,感兴趣区域池化可以通过文献[He,K.;Gkioxari,G.;Dollár,P.;Girshick,R.Mask r-cnn.In Proceedings of Proceedings of the IEEE internationalconference on computer vision;pp.2961-2969]中的方法实现。然后将经过池化的多个特征图沿通道方向进行拼接融合,构成多尺度特征融合模块,具体的融合方式如下:
Figure BDA0002332141700000083
其中,F表示候选目标框的多尺度融合特征图,Fl表示第l个尺度上的特征图,l=2,3,4,5,
Figure BDA0002332141700000084
表示特征图沿通道方向进行拼接融合。
对F进行7x7的卷积操作,得到一维的特征向量FC1,再对特征向量FC1进行一次全连接操作得到一维的特征向量FC2,依据特征向量FC2分别进行目标分类(采用softmax分类器)和边框回归。
区域检测网络的损失函数如下:
L(p,u,tu,v)=Lcls(p,u)+λ2·Lloc(tu,v) (8)
其中,p和u分别表示候选区域的预测得分和对应的分类标签,tu和v分别表示基于候选区域的预测边界框和对应的真值框,Lcls(p,u)和Lloc(tu,v)分别表示多类别分类损失函数和边框回归损失函数,λ2表示权重参数,此处设为10。
在区域检测网络训练时,每幅图像中训练样本总数为512,正负样本数量比为1:3,即:正样本为128个,负样本为384个;其中,在所有与真值框的交并比超过0.5的候选区域中选择交并比数值前128名的候选区域作为正样本,在所有与真值框的交并比低于0.5的候选区域中选择交并比数值后384名的候选区域作为负样本。
多类别分类损失函数具体计算如下:
Figure BDA0002332141700000091
其中,k表示每幅图像中候选区域(以下简称候选区域)的索引,j表示目标类别数,pkj和ukj分别表示第k个候选区域被预测为第j类的概率和对应的标签。
新的边框回归的损失函数定义如下:
Lloc(tu,v)=3×log2-3×log(1+GIoU(tu,v)) (10)
其中,tu,v分别表示最终预测框和真值框。GIoU(tu,v)表示预测框tu和真值框v对应的通用交并比。
步骤三:交替步骤一训练候选区域生成网络和步骤二训练区域检测网络,周而复始,迭代训练,直至收敛,且训练过程采用随机梯度下降法对网络参数进行优化。
所述交替训练步骤为:先训练候选区域生成网络,然后用候选区域生成网络上提取的候选目标框训练区域检测网络,接着在区域检测网络的参数基础上训练候选区域生成网络,周而复始,迭代训练,直至收敛。
随机梯度下降法采用文献[Rumelhart,D.;Hinton,G.;Williams,R.Learningrepresentations by back-propagating errors.Nature 1988,323,696-699]中的方法实现。
当损失函数值降到10-2量级,并且损失函数值变化幅度很小时,模型收敛。
步骤四:测试阶段:共享候选区域生成网络和检测网络的主干网络,合并步骤三训练后的候选区域生成网络和区域检测网络构建检测模型,将待检测的高分辨率遥感图像输入检测模型中,获得待检测的高分辨率遥感图像感兴趣目标的位置和类别。待检测的高分辨率遥感图像为NWPU VHR-10和DIOR。
共享候选区域生成网络和区域检测网络的主干网络,利用候选区域生成网络产生的候选目标框为检测网络提供初始位置,形成端到端的统一整体,即合并后的检测模型。感兴趣目标的位置表示目标的紧凑封闭边界框在图像中的坐标,坐标系以图像左上角为坐标原点,水平向右的方向为x轴,竖直向下的方向为y轴;类别表示目标属于哪一类(如飞机)。
将高分辨率遥感图像送入区域检测网络,通过多层卷积、池化和激活等操作,最后形成两个全连接层,在第二个全连接层后连接一个C(C表示类别数)维的特征向量,最后利用softmax分类器对C维特征向量分类,得分最高的那类则被视为目标的类别;在第二个全连接层后连接一个4C(每类均预测一个边界框)维的特征向量,此4C维特征向量即表示目标所在位置的坐标。
为了验证本发明的检测精度,本发明在硬件环境为E5-2650V4 CPU(2.2GHz 12x2核),512GB内存,8块NVIDIA RTX Titan显卡的工作站进行实验。本发明在NWPU VHR-10和DIOR数据集中分别选取了390幅和11738幅图像进行检测,结果如下:
1)采用本发明可以以较快的速度检测出高分辨率遥感图像中目标的位置及类别,每幅图像的平均检测时间为0.1s左右。
2)在NWPU VHR-10数据集上,采用本发明在评价指标GIoU和IoU上分别获得58.0%和59.2%的平均精度,如表2所示;在DIOR数据集上,采用本发明在评价指标GIoU和IoU上分别获得44.8%和45.7%的平均精度,如表3所示。此外,相对于原始特征金字塔网络,本发明在AP50(度量指标阈值为0.5)和AP75(度量指标阈值为0.75)上有一定的提升,并且AP75提升效果优于AP50的提升效果,说明本发明能够提升高分辨率遥感图像目标检测的定位精度。下面列表中的M1、M2和M3分别表示文献[Ren,S.;He,K.;Girshick,R.;Sun,J.Faster r-cnn:Towards real-time object detection with region proposal networks.InProceedings of Advances in neural information processing systems;pp.91-99]提出的Smooth L1损失函数、本发明提出的多尺度特征融合模块、本发明提出的新的边框回归损失函数(IGIoU loss)。①、②和③分别表示原始的特征金字塔网络、在原始特征金字塔网络中引入多尺度特征融合模块,将原始特征金字塔网络中损失函数改为IGIoU loss。mAP、AP50和AP75分别表示多阈值下平均精度、阈值为0.5时的精度和阈值为0.75时的精度。
表2 NWPU VHR-10高分辨率遥感图像的检测结果
Figure BDA0002332141700000101
表3 DIOR数据集高分辨率遥感图像的检测结果
Figure BDA0002332141700000102
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于新的边框回归损失函数的遥感图像目标检测方法,其特征在于,其步骤如下:
步骤一:训练候选区域生成网络:以带标注的高分辨率遥感图像为训练样本,训练候选区域生成网络,其中候选区域生成网络的边框回归损失函数采用新的损失函数;
步骤二:训练区域检测网络:通过步骤一中训练好的候选区域生成网络得到样本图像的候选目标框,以候选目标框作为目标初始位置来训练区域检测网络,其中区域检测网络的边框回归损失函数采用新的损失函数;
步骤三:交替步骤一训练候选区域生成网络和步骤二训练区域检测网络,周而复始,迭代训练,直至收敛,且训练过程采用随机梯度下降法对网络参数进行优化;
步骤四:测试阶段:共享候选区域生成网络和区域检测网络的主干网络,合并步骤三训练后的候选区域生成网络和区域检测网络构建检测模型,将待检测的高分辨率遥感图像输入检测模型中,获得待检测的高分辨率遥感图像感兴趣目标的位置和类别;
所述候选区域生成网络的损失函数是二分类损失函数和边框回归损失函数的联合损失,候选区域生成网络的损失函数为:
Figure FDA0002668422600000011
Figure FDA0002668422600000012
Figure FDA0002668422600000013
其中,pi
Figure FDA0002668422600000014
分别表示在单幅样本图像上产生的训练样本中第i个样本被预测为目标的概率和对应的二值真实标签,ti
Figure FDA0002668422600000015
分别表示第i个样本的预测框和对应的真值框,
Figure FDA0002668422600000016
Figure FDA0002668422600000017
分别表示二分类损失函数和边框回归损失函数,i表示训练样本的索引,Ncls和Nreg分别表示训练样本的数量和训练样本中正样本的数量,λ1表示权重系数,
Figure FDA0002668422600000018
表示预测框ti和真值框
Figure FDA0002668422600000019
的通用交并比;
所述区域检测网络的损失函数如下:
L(p,u,tu,υ)=Lcls(p,u)+λ2·Lloc(tu,υ)
其中,p和u分别表示候选区域的预测得分和对应的分类标签,tu和v分别表示基于候选区域的预测边界框和对应的真值框,Lcls(p,u)和Lloc(tu,υ)分别表示多类别分类损失函数和新的边框回归损失函数,λ2表示权重参数;
多类别分类损失函数计算如下:
Figure FDA0002668422600000021
其中,N表示每幅样本图像中候选区域的数量,C表示目标类别数,k表示每幅样本图像中候选区域的索引,j表示目标类别的索引,pkj和ukj分别表示第k个候选区域被预测为第j类的概率和对应的标签;
新的边框回归的损失函数定义如下:
Lloc(tu,υ)=3×log2-3×log(1+GIoU(tu,υ)),
其中,tu,v分别表示最终预测框和真值框;GIoU(tu,υ)表示预测框tu和真值框v的通用交并比;
所述通用交并比
Figure FDA0002668422600000022
的定义为:
Figure FDA0002668422600000023
其中,
Figure FDA0002668422600000024
表示预测框ti和真值框
Figure FDA0002668422600000025
的交并比,
Figure FDA0002668422600000026
表示预测框ti和真值框
Figure FDA0002668422600000027
的最小封闭区域面积,
Figure FDA0002668422600000028
表示预测框ti和真值框
Figure FDA0002668422600000029
的并集区域面积;
对于给定的预测框ti和真值框
Figure FDA00026684226000000210
两边界框的交并比
Figure FDA00026684226000000211
为:
Figure FDA00026684226000000212
其中,
Figure FDA00026684226000000213
表示预测框ti和真值框
Figure FDA00026684226000000214
的交集区域面积。
2.根据权利要求1所述的基于新的边框回归损失函数的遥感图像目标检测方法,其特征在于,所述步骤一中的训练样本来自于数据集NWPU VHR-10和数据集DIOR中的高分辨率遥感图像。
3.根据权利要求1或2所述的基于新的边框回归损失函数的遥感图像目标检测方法,其特征在于,所述候选区域生成网络的训练分别在多个特征层进行;候选区域生成网络的主干网络采用在ImageNet标准数据预训练过的深度模型,其余网络的参数采用服从均值为0、方差为0.01的高斯分布进行随机初始化;区域检测网络与候选区域生成网络共享主干网络,区域检测网络其余部分的参数采用服从均值为0、方差为0.01的高斯分布随机初始化;
在候选区域生成网络训练时,每幅样本图像中训练样本总数为256,正负样本数量比为1:1,当正样本数量少于128时,用负样本填充;其中,正样本包含以下两种:①与真值框的交并比超过0.7的锚框;②与每一个真值框的交并比最大的锚框;负样本包括:在所有与真值框交并比小于0.3的锚框中,取交并比最小的128个锚框;
在区域检测网络训练时,每幅图像中训练样本总数为512,正负样本数量比为1:3,即:正样本为128个,负样本为384个;其中,在所有与真值框的交并比超过0.5的候选区域中选择交并比数值前128名的候选区域作为正样本,在所有与真值框的交并比低于0.5的候选区域中选择交并比数值后384名的候选区域作为负样本。
4.根据权利要求3所述的基于新的边框回归损失函数的遥感图像目标检测方法,其特征在于,所述步骤一中的训练样本及训练样本中目标的位置根据宽高比进行预处理:将数据集中不包含有效目标的高分辨率遥感图像舍弃,将带标注的高分辨率遥感图像作为样本图像,根据宽高比从小到大进行排序,选取宽高比在0.5-2.0之间的样本图像,对宽高比小于0.5或大于2.0的样本图像进行裁剪,并将图像的短边设置为800像素,根据宽高比自动调整长边;样本图像中目标的位置同样根据宽高比进行调整。
5.根据权利要求4所述的基于新的边框回归损失函数的遥感图像目标检测方法,其特征在于,所述步骤一中训练候选区域生成网络的方法为:
步骤101:将预处理后的高分辨率遥感图像输入特征金字塔主干网络,通过多层卷积、激活和池化操作完成自下向上的特征提取,并通过侧向连接与自上向下的特征进行融合,得到多尺度特征;
步骤102:对融合后的多尺度特征:每个尺度的特征先进行3×3的卷积操作,再分别采用两个1×1的卷积操作得到两个特征图,将得到的两个特征图转化成两个一维向量,分别进行二分类和边框回归;各尺度的所有卷积操作共享卷积核参数。
6.根据权利要求1所述的基于新的边框回归损失函数的遥感图像目标检测方法,其特征在于,所述步骤二中训练区域检测网络的方法为:
步骤201:候选目标框的生成:以带标注的高分辨率遥感图像为训练样本,将训练样本送入初步训练后的候选区域生成网络中,在候选区域生成网络上产生大量的锚框,然后将超过图像边界的锚框去除,利用softmax分类器计算剩余锚框的得分,筛除掉得分低于设定阈值0.05的锚框;根据得分对剩余的锚框进行非极大值抑制操作,根据锚框得分,从高到低选取2000个锚框作为候选目标框;
步骤202:将得到的候选目标框映射到某一尺度的特征图上:
Figure FDA0002668422600000031
其中,w和h分别表示候选目标框的宽和高,k表示被映射到的特征图尺度次序,k0表示wh=2242的候选目标框被映射到的特征图尺度次序,采用输入层尺寸为224×224的卷积神经网络作为主干网络,
Figure FDA0002668422600000032
表示向下取整;
步骤203:确定候选目标框映射到的特征图尺度次序后,将候选目标框映射到其他尺度特征图的同等相对位置;
步骤204:分别对多尺度特征图上的候选目标框进行感兴趣区域池化,将经过池化的多个特征图沿通道方向进行拼接融合,构成多尺度特征融合模块,多尺度特征融合模块的融合方式如下:
Figure FDA0002668422600000041
其中,F表示候选目标框的多尺度融合特征图,Fl表示第l个尺度上的特征图,l=2,3,4,5,
Figure FDA0002668422600000042
表示特征图沿通道方向进行拼接融合;
对F进行7x7的卷积操作,得到一维的特征向量FC1,再对特征向量FC1进行一次全连接操作得到一维的特征向量FC2,依据特征向量FC2分别进行目标分类和边框回归。
7.根据权利要求6所述的基于新的边框回归损失函数的遥感图像目标检测方法,其特征在于,所述步骤三中交替训练步骤为:先训练候选区域生成网络,然后用候选区域生成网络输出的候选目标框训练区域检测网络,接着在区域检测网络的参数基础上训练候选区域生成网络,循环迭代训练,直至收敛。
CN201911340541.8A 2019-12-23 2019-12-23 基于新的边框回归损失函数的遥感图像目标检测方法 Active CN111091105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911340541.8A CN111091105B (zh) 2019-12-23 2019-12-23 基于新的边框回归损失函数的遥感图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911340541.8A CN111091105B (zh) 2019-12-23 2019-12-23 基于新的边框回归损失函数的遥感图像目标检测方法

Publications (2)

Publication Number Publication Date
CN111091105A CN111091105A (zh) 2020-05-01
CN111091105B true CN111091105B (zh) 2020-10-20

Family

ID=70395895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911340541.8A Active CN111091105B (zh) 2019-12-23 2019-12-23 基于新的边框回归损失函数的遥感图像目标检测方法

Country Status (1)

Country Link
CN (1) CN111091105B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783819B (zh) * 2020-05-08 2024-02-09 国家电网有限公司 小规模数据集上基于感兴趣区域训练改进的目标检测方法
CN111523511B (zh) * 2020-05-08 2023-03-24 中国科学院合肥物质科学研究院 一种用于枸杞采收夹持装置的视频图像枸杞枝条检测方法
CN111597964B (zh) * 2020-05-13 2023-01-20 云南电网有限责任公司电力科学研究院 一种绝缘子图像检测方法
CN111723852B (zh) * 2020-05-30 2022-07-22 杭州迪英加科技有限公司 针对目标检测网络的鲁棒训练方法
CN111652216B (zh) * 2020-06-03 2023-04-07 北京工商大学 基于度量学习的多尺度目标检测模型方法
CN111797697B (zh) * 2020-06-10 2022-08-05 河海大学 基于改进CenterNet的有角度高分遥感图像目标检测方法
CN111783844A (zh) * 2020-06-10 2020-10-16 东莞正扬电子机械有限公司 基于深度学习的目标检测模型训练方法、设备及存储介质
CN111881918B (zh) * 2020-06-11 2022-10-04 中国人民解放军战略支援部队信息工程大学 一种多尺度旋转船舶目标检测算法
CN111797737A (zh) * 2020-06-22 2020-10-20 重庆高新区飞马创新研究院 遥感目标检测方法及装置
CN111881764B (zh) * 2020-07-01 2023-11-03 深圳力维智联技术有限公司 一种目标检测方法、装置、电子设备及存储介质
CN111931572B (zh) * 2020-07-07 2024-01-09 广东工业大学 一种遥感影像的目标检测方法
CN112002131A (zh) * 2020-07-16 2020-11-27 深圳云游四海信息科技有限公司 路内停车行为检测方法及装置
CN112001428B (zh) * 2020-08-05 2021-08-17 中国科学院大学 一种基于特征匹配优化的无锚框目标检测网络训练方法
CN111931915A (zh) * 2020-08-06 2020-11-13 中国科学院重庆绿色智能技术研究院 一种基于diou损失函数的训练网络的方法
CN112084869B (zh) * 2020-08-10 2023-04-07 北京航空航天大学 一种基于紧致四边形表示的建筑物目标检测方法
CN112101277B (zh) * 2020-09-24 2023-07-28 湖南大学 一种图像语义特征约束的遥感目标检测方法
CN112132093B (zh) * 2020-09-30 2024-01-05 湖南省气象科学研究所 高分辨率遥感图像目标检测方法、装置和计算机设备
CN112287977B (zh) * 2020-10-06 2024-02-09 武汉大学 一种基于边界框关键点距离的目标检测方法
CN112395958A (zh) * 2020-10-29 2021-02-23 中国地质大学(武汉) 基于四尺度深浅层特征融合的遥感图像小目标检测方法
CN112465764A (zh) * 2020-11-24 2021-03-09 泰康保险集团股份有限公司 一种图像篡改检测方法和装置
CN112446327B (zh) * 2020-11-27 2022-06-07 中国地质大学(武汉) 一种基于无锚框的遥感图像目标检测方法
CN112528862B (zh) * 2020-12-10 2023-02-10 西安电子科技大学 基于改进的交叉熵损失函数的遥感图像目标检测方法
CN113378829B (zh) * 2020-12-15 2022-09-27 浙江大学 一种基于正负样本均衡的弱监督目标检测方法
CN112712119B (zh) * 2020-12-30 2023-10-24 杭州海康威视数字技术股份有限公司 确定目标检测模型的检测准确率的方法和装置
CN112818840A (zh) * 2021-01-29 2021-05-18 中国科学院微小卫星创新研究院 无人机在线检测系统和方法
CN113011528B (zh) * 2021-04-28 2022-11-01 中国电子科技集团公司第五十四研究所 一种基于上下文和级联结构的遥感图像小目标检测方法
CN113191296A (zh) * 2021-05-13 2021-07-30 中国人民解放军陆军炮兵防空兵学院 一种基于yolov5的任意朝向目标五参数检测方法
CN113177503A (zh) * 2021-05-13 2021-07-27 中国人民解放军陆军炮兵防空兵学院 基于yolov5的任意朝向目标十二参数检测方法
CN113283349A (zh) * 2021-05-28 2021-08-20 中国公路工程咨询集团有限公司 基于目标锚框优选策略的交通基建施工目标监测系统与方法
CN113468968B (zh) * 2021-06-02 2023-04-07 中国地质大学(武汉) 一种基于无锚框的遥感图像旋转目标检测方法
CN113255682B (zh) * 2021-06-04 2021-11-16 浙江智慧视频安防创新中心有限公司 一种目标检测系统、方法、装置、设备及介质
CN113378686B (zh) * 2021-06-07 2022-04-15 武汉大学 一种基于目标中心点估计的两阶段遥感目标检测方法
CN113469025A (zh) * 2021-06-29 2021-10-01 阿波罗智联(北京)科技有限公司 应用于车路协同的目标检测方法、装置、路侧设备和车辆
CN113379738A (zh) * 2021-07-20 2021-09-10 重庆大学 一种基于图像的疫木检测与定位方法及系统
CN113313082B (zh) * 2021-07-28 2021-10-29 北京电信易通信息技术股份有限公司 一种基于多任务损失函数的目标检测方法及系统
CN113744220B (zh) * 2021-08-25 2024-03-26 中国科学院国家空间科学中心 一种基于pynq的无预选框检测系统
CN113780277B (zh) * 2021-09-08 2023-06-30 浙江啄云智能科技有限公司 目标检测模型的训练方法、装置、电子设备及存储介质
CN113870263B (zh) * 2021-12-02 2022-02-25 湖南大学 一种路面缺陷损伤实时监测方法及系统
CN115272242B (zh) * 2022-07-29 2024-02-27 西安电子科技大学 一种基于YOLOv5的光学遥感图像目标检测方法
CN115908897B (zh) * 2022-10-28 2023-09-12 西南交通大学 基于高分辨率遥感影像的高速铁路供电设施智能识别方法
CN115761259B (zh) * 2022-11-14 2023-11-24 湖南大学 基于类别平衡损失函数的厨余垃圾目标检测方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084210B (zh) * 2019-04-30 2022-03-29 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110175993A (zh) * 2019-05-27 2019-08-27 西安交通大学医学院第一附属医院 一种基于FPN的Faster R-CNN肺结核征象检测系统及方法
CN110580445B (zh) * 2019-07-12 2023-02-07 西北工业大学 一种基于GIoU和加权NMS改进的人脸关键点检测方法
CN110533691B (zh) * 2019-08-15 2021-10-22 合肥工业大学 基于多分类器的目标跟踪方法、设备和存储介质
CN110502654A (zh) * 2019-08-26 2019-11-26 长光卫星技术有限公司 一种适用于多源异构遥感数据的目标库生成系统
CN110555834B (zh) * 2019-09-03 2020-09-22 明峰医疗系统股份有限公司 基于深度学习网络的ct坏通道实时检测及重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Object Detection in Remote Sensing Images Based on Improved Bounding Box Regression and Multi-Level Features Fusion;Xiaoliang Qian 等;《remote sensing》;20200101;1-21 *
Refining Proposals with Neighboring Contexts for Temporal Action Detection;Da-shan Guo 等;《2019 IEEE International Conference on Multimedia and Expo》;20190712;1576-1581 *

Also Published As

Publication number Publication date
CN111091105A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN111091105B (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN109145939B (zh) 一种小目标敏感的双通道卷积神经网络语义分割方法
CN108830188B (zh) 基于深度学习的车辆检测方法
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN110276269B (zh) 一种基于注意力机制的遥感图像目标检测方法
CN110136154B (zh) 基于全卷积网络与形态学处理的遥感图像语义分割方法
CN106228125B (zh) 基于集成学习级联分类器的车道线检测方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN110889318B (zh) 利用cnn的车道检测方法和装置
CN110532859A (zh) 基于深度进化剪枝卷积网的遥感图像目标检测方法
CN110728658A (zh) 一种基于深度学习的高分辨率遥感影像弱目标检测方法
CN110879961B (zh) 利用车道模型的车道检测方法和装置
CN109446894B (zh) 基于概率分割及高斯混合聚类的多光谱图像变化检测方法
CN112488025B (zh) 基于多模态特征融合的双时相遥感影像语义变化检测方法
CN106408030A (zh) 基于中层语义属性和卷积神经网络的sar图像分类方法
CN106446834A (zh) 一种基于图像的车型识别方法及装置
CN111950488B (zh) 一种改进的Faster-RCNN遥感图像目标检测方法
CN104182985A (zh) 遥感图像变化检测方法
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
CN113743417A (zh) 语义分割方法和语义分割装置
Li et al. An aerial image segmentation approach based on enhanced multi-scale convolutional neural network
CN107292039B (zh) 一种基于小波聚类的uuv巡岸轮廓构建方法
CN116279592A (zh) 一种用于无人物流车的可行驶区域划分方法
CN111598155A (zh) 一种基于深度学习的细粒度图像弱监督目标定位方法
CN106548195A (zh) 一种基于改进型hog‑ulbp特征算子的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant