CN112070729A - 一种基于场景增强的anchor-free遥感图像目标检测方法及系统 - Google Patents

一种基于场景增强的anchor-free遥感图像目标检测方法及系统 Download PDF

Info

Publication number
CN112070729A
CN112070729A CN202010872866.7A CN202010872866A CN112070729A CN 112070729 A CN112070729 A CN 112070729A CN 202010872866 A CN202010872866 A CN 202010872866A CN 112070729 A CN112070729 A CN 112070729A
Authority
CN
China
Prior art keywords
scene
target
remote sensing
layer
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010872866.7A
Other languages
English (en)
Other versions
CN112070729B (zh
Inventor
刘军民
李世杰
周长胜
高勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010872866.7A priority Critical patent/CN112070729B/zh
Publication of CN112070729A publication Critical patent/CN112070729A/zh
Application granted granted Critical
Publication of CN112070729B publication Critical patent/CN112070729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种基于场景增强的anchor‑free遥感图像目标检测方法及系统,所述方法包括以下步骤:步骤1,通过平衡系数混合增强方式对获取的遥感图像数据集进行线性增强,获得增强后的训练集;步骤2,构建获得基于场景增强的anchor‑free的目标检测模型,通过步骤1得到的训练集对目标检测模型进行训练,直至达到预设的停止条件,获得训练好的目标检测模型;所述训练好的目标检测模型用于遥感图像目标检测。本发明提供了一种更便捷和鲁棒的平衡系数混合增强数据增广方式,利用场景信息增强网络的特征提取能力和类别预测能力,提升了检测精度。

Description

一种基于场景增强的anchor-free遥感图像目标检测方法及 系统
技术领域
本发明属于遥感图像处理及目标检测技术领域,特别涉及一种基于场景增强的anchor-free遥感图像目标检测方法及系统。
背景技术
遥感图像的目标检测是在高分辨率的航空图像中检测存在的目标类别以及给出各个目标的位置信息。近年来,遥感图像领域的目标检测任务获得了越来越多的应用场景;例如,在城市规划、无人机探测、智能监控等。尽管传统检测方法如DPM等在该领域仍然在使用,但基于CNN的深度学习方法已经逐渐获得了主导地位;何凯明等人提出的FasterR-CNN,FPN,MaskR-CNN,约瑟夫提出的YOLOv1,YOLOv2,YOLOv3等算法已经在自然环境图像目标检测领域中获得了巨大的成功,但上述这些算法都是针对自然场景拍摄的图像而设计的CNN网络,将其应用到遥感图像领域时,由于遥感图像背景噪声复杂,遥感图像中物体本身具有类内-多样性、类间-相似性等特性,导致现存的这些方法难以很好地适应遥感图像中的各类目标的检测任务。尤其,它们都是基于先验边界框(anchor-box)的方法,即先人为设定一些不同尺度和大小的候选框作为目标框和预测框的中间媒介来减弱预测的难度,但关于anchor的尺寸、宽高比以及anchor的放置数量等超参数设置往往较为困难,这也使得它们应用在遥感图像上时的检测结果生成不够友好。所以,需要一种不利用anchor-box即anchor-free(无锚框)的方法使其能够满足遥感图像目标检测的特性。
在遥感图像目标检测任务中,由于遥感图像是由空中传感器或者无人机等设备自顶向下拍摄的,其图像特点和在地面垂直拍摄的自然图像有很大差别,遥感图像中的目标特征更加模糊,目标的尺寸更加小,例如飞机,轮船、汽车、风车等。尽管近年来有学者提出了一些anchor-free的方法如CornerNet、CenterNet、FCOS等,但是它们往往仅利用了低水平下局部目标的信息,没有利用高分率图像拥有的更大感受野的场景信息,使得它们的特征提取模块以及类别预测算法有一定的局限性。然而,具有更大感受野的区域往往带有更多的高层语义信息和场景级别的全局信息,所以联合目标局部和场景全局的上下文信息对提升anchor-free目标检测方法十分重要。一些学者也在探索其在目标检测任务中的合理应用,如上下文模型特征金字塔(FPN),其已经获得了一些成果和结论,但其方法都只限定于特定的子任务,难以应用于anchor-free目标检测方法中。
数据增强在图像处理以及深度学习模型中具有重要作用,在目标检测领域,常用的数据增强方法包括水平-垂直翻转、随机剪裁,尺度变换、弹性扭曲等,但它们都只限定于特定的数据集,很难广泛地适应于遥感图像数据集。另外,现存的数据增强方法大多会增加训练集的样本数量,其会导致出现模型训练时间过长以及标签转换复杂等问题。
综上,亟需一种新的基于场景增强的anchor-free遥感图像目标检测方法及系统。
发明内容
本发明的目的在于提供一种基于场景增强的anchor-free遥感图像目标检测方法及系统,以解决上述存在的一个或多个技术问题。本发明提供了一种更便捷和鲁棒的平衡系数混合增强数据增广方式,利用场景信息增强网络的特征提取能力和类别预测能力,提升了检测精度。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于场景增强的anchor-free遥感图像目标检测方法,包括以下步骤:
步骤1,通过平衡系数混合增强方式对获取的遥感图像数据集进行线性增强,获得增强后的训练集;
步骤2,构建获得基于场景增强的anchor-free的目标检测模型,通过步骤1得到的训练集对目标检测模型进行训练,直至达到预设的停止条件,获得训练好的目标检测模型;所述训练好的目标检测模型用于遥感图像目标检测;
其中,基于场景增强的anchor-free的目标检测模型包括:
特征提取子网络,包括:残差结构,所述残差结构为标准残差网络ResNet-50或ResNet-101,用于对遥感图像目标的基本特征进行提取,获得其在3个阶段产生的3个特征层F3,F4,F5
场景增强特征金字塔子网络,包括:
场景上下文提取模块,用于基于特征提取子网络获得的3个特征层F3,F4,F5,获得融合后的特征层;用于获得场景中可能出现的物体的类别信息;
标准特征金字塔结构,用于通过上采样、下采样的融合方式对场景上下文提取模块获得的融合后的特征层进行转换和二次融合,获得包含上下文信息的融合特征层;
联合预测网络,包括:一预测类别的支路和一预测坐标值的支路;用于输入上下文信息的融合特征层,识别出目标。
本发明的进一步改进在于,步骤1中,所述通过平衡系数混合增强方式对获取的遥感图像数据集进行线性增强具体包括:
从遥感图像数据集中随机抽取批量大小的图像样本xi进行随机排列,得到随机排列后的图像样本序列xj,其对应标签分别为yi和yj
将排列后的图像与原来的图像进行平衡系数混合,表达式为,
x*=wxi+(1-w)xj
y*=yi+yj
式中,x*、y*分别表示经过平衡系数混合后的样本图像和对应的标签,w代表混合时的权重,w=0.5。
本发明的进一步改进在于,步骤2的目标检测模型中,所述场景上下文提取模块包括:两个提炼模块,一个自适应全局平均池化层以及一个全连接网络;
其中,提炼模块由一个3*3的空洞卷积层、组归一化层、标准3*3卷积层以及两个非线性激活层组成;
自适应全局平均池化层用于匹配不同的图像输入将其池化到固定的3*3大小以适应全连接层的分类工作;
全连接网络的输出施加有场景中出现的目标多标签类别分类的交叉熵损失。
本发明的进一步改进在于,步骤2中,所述场景上下文提取模块中的全连接网络层的输入以及输出的通道数分别为4608、20;其中,类别数对应于不同的数据集包含的类别总个数。
本发明的进一步改进在于,步骤2中,所述场景上下文提取模块中的提炼模块中,还设置有一条由空洞卷积层和组归一化层构成的残差支路,用于短接原输入和输出。
本发明的进一步改进在于,步骤2中,所述基于特征提取子网络获得的3个特征层F3,F4,F5,获得融合后的特征层的表达式为,
Figure BDA0002651688280000041
式中,S3是场景上下文提取模块中两个提炼模块的输出的信息敏感层,对S3分别进行最大池化操作下采样2、4倍得到S4、S5
Figure BDA0002651688280000042
代表融合后的特征层,
Figure BDA0002651688280000043
表示concatenate通道数叠加。
本发明的进一步改进在于,步骤2中,所述联合预测网络的预测类别的支路和预测坐标值的支路,均由全卷积网络构成;
其中,两个支路分别都含有4个连续的基本卷积块,每个基本卷积块均由卷积层-归一化-非线性激活层构成;预测类别的支路输出维度是数据集总类别个数K,坐标预测维度为4维的向量(t,l,b,r),t,l,b,r分别为包含上下文信息的融合特征层每一个空间位置(x,y)的预测的真实框的坐标相对特征图的中心位置的偏移值;预测的目标值的表达式为,
Figure BDA0002651688280000052
式中,(ymin,xmin,ymax,xmax)分别表示真实标签框的四个坐标值,(t*,l*,b*,r*)表示回归的目标值。
本发明的进一步改进在于,联合预测网络中,将场景上下文提取模块预测出的当前场景下类别存在的概率信息联合到该子网络层中的分类支路中,表达式为,
C=αP+(1-α)τ(T,ε)
Figure BDA0002651688280000051
式中,P表示原始分类支路预测结果,T表示场景中可能出现的类别概率预测结果,τ表示场景级别预测类别出现激活判定方式,ε表示激活阈值,
将两个预测结果以权重α联合后得到联合预测的目标类别出现概率输出C;
其中,在预测类别的支路添加sigmoid激活函数来映射类别概率,在预测坐标值的支路添加exp(x)映射为非负数;
将联合预测输出用于目标检测任务。
本发明的一种基于场景增强的anchor-free遥感图像目标检测系统,包括:
数据增强模块,用于通过平衡系数混合增强方式对获取的遥感图像数据集进行线性增强,获得增强后的训练集;
目标识别模块,用于构建获得基于场景增强的anchor-free的目标检测模型,通过数据增强模块得到的训练集对目标检测模型进行训练,直至达到预设的停止条件,获得训练好的目标检测模型;所述训练好的目标检测模型用于遥感图像目标检测;
其中,基于场景增强的anchor-free的目标检测模型包括:
特征提取子网络,包括:残差结构,所述残差结构为标准残差网络ResNet-50或ResNet-101,用于对遥感图像目标的基本特征进行提取,获得其在3个阶段产生的3个特征层F3,F4,F5
场景增强特征金字塔子网络,包括:
场景上下文提取模块,用于基于特征提取子网络获得的3个特征层F3,F4,F5,获得融合后的特征层;用于获得场景中可能出现的物体的类别信息;
标准特征金字塔结构,用于通过上采样、下采样的融合方式对场景上下文提取模块获得的融合后的特征层进行转换和二次融合,获得包含上下文信息的融合特征层;
联合预测网络,包括:一预测类别的支路和一预测坐标值的支路;用于输入上下文信息的融合特征层,识别出目标。
本发明的进一步改进在于,所述场景上下文提取模块包括:两个提炼模块,一个自适应全局平均池化层以及一个全连接网络;
其中,提炼模块由一个3*3的空洞卷积层、组归一化层、标准3*3卷积层以及两个非线性激活层组成;
自适应全局平均池化层用于匹配不同的图像输入将其池化到固定的3*3大小以适应全连接层的分类工作;
全连接网络的输出施加有场景中出现的目标多标签类别分类的交叉熵损失。
与现有技术相比,本发明具有以下有益效果:
本发明是一种anchor-free目标检测方法,故其解决了因引入anchor-box的方法的超参数设置困难问题,大大减少了模型中的超参数数量,使得模型简化,复杂度降低;本发明使用的平衡系数混合数据增强方式能够对遥感等各类数据集进行线性增广,该增强方式不会扩充数据集样本容量,在提升模型检测能力的同时缩短了训练时间。本发明中,通过提供的场景上下文提取模块,从更大的感受野角度对当前场景中可能出现的目标类别进行预测,可获得具有丰富的高级语义信息特征层,将其融入特征金字塔结构从而构建场景增强的特征金字塔结构,使得遥感图像目标特征表达信息更加准确和全面。本发明中,将场景级别下全局特征与局部特征预测的单个目标类别信息进行联合,从而降低anchor-free在没有anchor-box设置的情况下的预测难度,使得本发明能够很大程度上提高遥感图像目标检测的定位与识别精度。
进一步的,平衡系数数据增强方法能够减少现存的数据增强算法在标签混合方面的计算复杂度,其混合后的图像中目标的特征变得模糊和多样,能够提升模型对微弱特征的提取能力,同时该增强方式也能够有效防止模型过拟合,提高遥感图像中困难样本的识别精度。
进一步的,场景增强的方式中的特征融合方式能够使得模型从局部和全局两个方面学习特征,联合预测方式综合利用了场景背景的有效信息和目标自身以及小范围的两方面的上下文信息。
进一步的,本发明中为增强特征提炼能力,提炼模块中还设置了一条由空洞卷积层和组归一化层构成的残差支路用于短接。
进一步的,本发明的回归方式没有利用anchor-box的中间媒介,由此可以达到anchor-free的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中,场景增强的anchor-free目标检测框架的示意图;
图2是本发明实施例中,平衡系数数据增强示意图;
图3是本发明实施例中,场景上下文提取模块的示意图;
图4是图3中,场景信息提炼模块的示意图;
图5是本发明实施例中,在遥感图像目标检测任务上的检测效果示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
如图1所示,本发明实施例的一种基于场景增强的anchor-free遥感图像目标检测方法,包括如下阶段和步骤:
阶段1:对遥感数据集进行平衡系数混合增强,得到增强后的数据集。具体地,如图2所示,对数据集进行平衡系数增强的具体方法是:从训练数据集中随机抽取batch_size大小的图像样本xi,并对其图像索引进行随机排列,得到随机排列后的新样本序列xj。将其与原图像组合xi进行平衡系数混合,混合方式可描述为公式:
Figure BDA0002651688280000081
其中,x*、y*分别表示经过平衡系数混合后的样本图像和对应的标签,w代表混合时的权重。本发明使用w=0.5即为平衡混合增强方法,其表示对图像采用的相同权重混合增强、标签数据以直接加成的方式进行数据增强。增强后的数据将用于提升模型训练过程收敛速度和模型检测精度。
阶段2:构建基于场景增强的anchor-free目标检测模型,其包括以下4个步骤:
步骤2.1,搭建图像特征提取子网络,如图1中所示,该网络对应搭建的两个版本模型在该子网络上分别包含50、101层残差结构。一个残差结构由两个3*3卷积层、正则化层、ReL U激活层和一个短接连接组成,具体参数对应于标准残差网络ResNet-50以及ResNet-101,其首层均为一个大尺寸的7*7的卷积核用于扩大感受野,Stage3到Stage5残差块的个数分别为3、4、6、3和3、4、23、3。将其用于对遥感图像目标的基本特征提取工作,分别在3个阶段产生3个特征层F3,F4,F5
步骤2.2,搭建场景增强特征金字塔子网络。如图1所示,该网络包含一个场景上下文提取模块和一个标准的特征金字塔(FPN)结构。具体方法是:首先利用一个场景上下文提取模块进行场景级别的特征提取工作,如图3所示,该模块包括两个场景信息提炼板块,一个自适应全局平均池化层以及一个小型全连接网络部分。其中,场景信息提炼模块由一个3*3的空洞卷积层(核数为512)、组归一化层(GroupNorm)、标准3*3卷积层以及两个非线性激活层组成,如图4所示。优选的,为增强其特征提炼能力,其中还设置了一条由空洞卷积层和组归一化层构成的残差支路用于短接。模块中的自适应全局平均池化层被用于匹配不同的图像输入将其池化到固定的大小(3*3)以适应全连接层的分类工作。全连接网络层的输入以及输出的通道数分别为4608(512*3*3)、20(类别数)。其中类别数对应于不同的数据集包含的类别总个数。对该小型全连接网络的输出施加场景中出现的目标多标签类别分类的交叉熵损失(BCE-Loss)。该正则化loss让网络从一个较大感受野范围的视角来预测当前场景可能出现的类别以使得场景信息提炼模块能够提取到丰富的全局上下文信息。从而产生场景信息敏感层S3
步骤2.3,对S3分别进行最大池化操作下采样2、4倍得到S4、S5,其特征图的大小等同于ResNet-50的Stage3、4、5特征层的尺度(如800*800的原始图像输入,其在Stage3的大小为512*100*100),然后将特征提取网络产生的特征层F3,F4,F5与对应的S3,S4,S5进行特征融合,其公式为:
Figure BDA0002651688280000091
其中,
Figure BDA0002651688280000092
代表融合后的特征层,
Figure BDA0002651688280000093
表示concatenate通道数叠加。最后将得到的
Figure BDA0002651688280000094
送入特征金字塔网络(FPN)获得P3-P7从而组成一种场景增强的特征金字塔网络。
步骤2.4,搭建联合预测网络,该网络包含一个预测类别的支路和一个预测坐标值的支路。其将联合场景级别预测出的类别存在性概率信息来达到联合预测的目的。该联合预测子网络层包含两条支路,均由全卷积网络构成。分别都含有4个连续的基本卷积块,每个基本卷积块由卷积层-归一化-非线性激活层构成,预测类别的支路输出维度是数据集总类别个数K,坐标预测维度为4维的向量(t,l,b,r),其中t,l,b,r分别为特征图P3-P7的每一个空间位置(x,y)的预测的真实框的坐标相对特征图的中心位置的偏移值,其预测的目标值的公式是:
Figure BDA0002651688280000102
其中,(ymin,xmin,ymax,xmax)分别表示真实标签框的四个坐标值,(t*,l*,b*,r*)表示回归的目标值,即中心点(x,y)与真实框四条边界的距离。该回归方式没有利用anchor-box的中间媒介,由此可以达到anchor-free的目的。将步骤2.2中场景上下文提取模块预测出的当前场景下类别存在的概率信息T联合到该子网络层中的分类支路中,公式为:
C=αP+(1-α)τ(T,ε)
Figure BDA0002651688280000101
其中,P表示原始预测结果,T表示场景中可能出现的类别概率预测结果。τ表示场景级别预测类别出现激活判定方式,ε表示激活阈值。将两个预测结果以权重α联合后得到联合预测的目标类别出现概率输出C。最后在上述的分类支路添加sigmoid激活函数来映射类别概率,在位置预测支路添加exp(x)映射为非负数。将上述联合预测输出用于目标检测任务。
本发明实施例中,为了验证本发明方法的有效性,进行如下仿真实验。
本发明实施例的仿真实验中,采用NWPU VHR-10和DIOR作为数据集;其中,NWPUVHR-10是包含10类的遥感目标检测数据集,共有800张遥感图像,涉及飞机、轮船、网球场、田径场、车辆、桥梁等;DIOR是更具有挑战性的20个类的数据集,共有23463张光学遥感图像,其中包含类别机场、飞机、车辆、高尔夫球场、立交桥、体育场等。将两个数据集均按4:3:3的比例分为训练集、验证集和测试集。本发明实施例中,在训练时使用训练集训练,验证集调参,测试时使用测试集。使用的训练硬件平台为:Intel CPU i7-9700,内存为32GB,显卡为NVIDIA GTX-1080Ti。本发明使用的软件平台为PyTorch1.1。训练时batch_size=4,学习率为0.001,两个数据集上的迭代次数分别为13K、130K。首先使用ResNet-50和ResNet-101预训练模型初始化特征提取网络;本发明方法中其他网络层初始化方法使用ResNet网络中何凯明初始化方法,归一化层均采用组归一化方法。通过本发明方法中的场景增强特征金字塔后可得到特征图P3-P7和场景下全局视角得到的预测的类别存在概率输出S,然后使用联合预测网络进行类别和位置预测,在训练时场景类别出现激活阈值ε为0.4,联合权重因子α为0.95。测试时ε为0.001,保留类别预测高于0.05的作为候选框集合,最后使用非极大值抑制得到最后的预测结果,其中非极大值抑制的置信度阈值为0.5。
评估时采用目标检测常用的评价指标AP(averageprecision)和MeanAP(meanaveragep recision),其中AP是准确率-召回率曲线覆盖下的面积值,准确率表示总检测目标正确数与总检测目标数的比值,召回率表示总检测正确数与总真实目标数的比值,Mean-AP是所有类AP值的平均值。
表1、表2分别列出了本发明方法和现有的anchor-based方法FasterR-CNN、YOLOv3以及anchor-free的方法FCOS在测试集上的单类AP和Mean-AP指标。
表1.NWPU VHR-10数据集上目标检测的测试结果
Figure BDA0002651688280000111
Figure BDA0002651688280000121
表2.DIOR数据集上目标检测的测试结果
Figure BDA0002651688280000122
Figure BDA0002651688280000131
从表1、表2可得,本发明方法在单类目标(如飞机、船、网球场、篮球场)以及平均精度都比对比方法具有优势,在DIOR数据集上,其获得了13个单类最优的AP值以及最优的mAP,其中涉及的类别包含遥感图像中较难检测的小目标车辆、风车以及大尺度目标类如棒球场、网球场、高速公路收费站、立交桥等,部分可视化结果如图5所示。
本发明实施例的一种基于场景增强的anchor-free遥感图像目标检测系统,包括:
数据增强模块,用于通过平衡系数混合增强方式对获取的遥感图像数据集进行线性增强,获得增强后的训练集;
目标识别模块,用于构建获得基于场景增强的anchor-free的目标检测模型,通过数据增强模块得到的训练集对目标检测模型进行训练,直至达到预设的停止条件,获得训练好的目标检测模型;所述训练好的目标检测模型用于遥感图像目标检测;
其中,基于场景增强的anchor-free的目标检测模型包括:
特征提取子网络,包括:残差结构,所述残差结构为标准残差网络ResNet-50或ResNet-101,用于对遥感图像目标的基本特征进行提取,分别在3个阶段产生3个特征层F3,F4,F5
场景增强特征金字塔子网络,包括:
场景上下文提取模块,用于基于特征提取子网络获得的3个特征层F3,F4,F5,获得融合后的特征层;用于获得场景中可能出现的类别概率预测结果;
标准特征金字塔结构,用于通过上采样、下采样的融合方式对场景上下文提取模块获得的融合后的特征层进行转换和二次融合,获得包含上下文信息的融合特征层;
联合预测网络,包括:一预测类别的支路和一预测坐标值的支路;用于输入上下文信息的融合特征层,识别出目标。
综上所述,本发明方法同时考虑了目标自身周围信息以及场景视角下全局上下文信息来增强目标检测任务,同时采用anchor-free的方法来减少模型在anchor-box上的参数量和复杂度,结合平衡系数数据增强方法,有效的提高了光学遥感图像上多个类别的识别准确度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (10)

1.一种基于场景增强的anchor-free遥感图像目标检测方法,其特征在于,包括以下步骤:
步骤1,通过平衡系数混合增强方式对获取的遥感图像数据集进行线性增强,获得增强后的训练集;
步骤2,构建获得基于场景增强的anchor-free的目标检测模型,通过步骤1得到的训练集对目标检测模型进行训练,直至达到预设的停止条件,获得训练好的目标检测模型;所述训练好的目标检测模型用于遥感图像目标检测;
其中,基于场景增强的anchor-free的目标检测模型包括:
特征提取子网络,包括:残差结构,所述残差结构为标准残差网络ResNet-50或ResNet-101,用于对遥感图像目标的基本特征进行提取,获得其在3个阶段产生的3个特征层F3,F4,F5
场景增强特征金字塔子网络,包括:
场景上下文提取模块,用于基于特征提取子网络获得的3个特征层F3,F4,F5,获得融合后的特征层;用于获得场景中可能出现的物体的类别信息;
标准特征金字塔结构,用于通过上采样、下采样的融合方式对场景上下文提取模块获得的融合后的特征层进行转换和二次融合,获得包含上下文信息的融合特征层;
联合预测网络,包括:一预测类别的支路和一预测坐标值的支路;用于输入上下文信息的融合特征层,识别出目标。
2.根据权利要求1所述的一种基于场景增强的anchor-free遥感图像目标检测方法,其特征在于,步骤1中,所述通过平衡系数混合增强方式对获取的遥感图像数据集进行线性增强具体包括:
从遥感图像数据集中随机抽取批量大小的图像样本xi进行随机排列,得到随机排列后的图像样本序列xj,其对应标签分别为yi和yj
将排列后的图像与原来的图像进行平衡系数混合,表达式为,
x*=wxi+(1-w)xj
y*=yi+yj
式中,x*、y*分别表示经过平衡系数混合后的样本图像和对应的标签,w代表混合时的权重,w=0.5。
3.根据权利要求1所述的一种基于场景增强的anchor-free遥感图像目标检测方法,其特征在于,步骤2的目标检测模型中,所述场景上下文提取模块包括:两个提炼模块,一个自适应全局平均池化层以及一个全连接网络;
其中,提炼模块由一个3*3的空洞卷积层、组归一化层、标准3*3卷积层以及两个非线性激活层组成;
自适应全局平均池化层用于匹配不同的图像输入将其池化到固定的3*3大小以适应全连接层的分类工作;
全连接网络的输出施加有场景中出现的目标多标签类别分类的交叉熵损失。
4.根据权利要求3所述的一种基于场景增强的anchor-free遥感图像目标检测方法,其特征在于,步骤2中,所述场景上下文提取模块中的全连接网络层的输入以及输出的通道数分别为4608、20;其中,类别数对应于不同的数据集包含的类别总个数。
5.根据权利要求3所述的一种基于场景增强的anchor-free遥感图像目标检测方法,其特征在于,步骤2中,所述场景上下文提取模块中的提炼模块中,还设置有一条由空洞卷积层和组归一化层构成的残差支路,用于短接原输入和输出。
6.根据权利要求3所述的一种基于场景增强的anchor-free遥感图像目标检测方法,其特征在于,步骤2中,所述基于特征提取子网络获得的3个特征层F3,F4,F5,获得融合后的特征层的表达式为,
Figure FDA0002651688270000031
式中,S3是场景上下文提取模块中两个提炼模块的输出的信息敏感层,对S3分别进行最大池化操作下采样2、4倍得到S4、S5
Figure FDA0002651688270000032
代表融合后的特征层,
Figure FDA0002651688270000033
表示concatenate通道数叠加。
7.根据权利要求1所述的一种基于场景增强的anchor-free遥感图像目标检测方法,其特征在于,步骤2中,所述联合预测网络的预测类别的支路和预测坐标值的支路,均由全卷积网络构成;
其中,两个支路分别都含有4个连续的基本卷积块,每个基本卷积块均由卷积层-归一化-非线性激活层构成;预测类别的支路输出维度是数据集总类别个数K,坐标预测维度为4维的向量(t,l,b,r),t,l,b,r分别为包含上下文信息的融合特征层每一个空间位置(x,y)的预测的真实框的坐标相对特征图的中心位置的偏移值;预测的目标值的表达式为,
Figure FDA0002651688270000034
式中,(ymin,xmin,ymax,xmax)分别表示真实标签框的四个坐标值,(t*,l*,b*,r*)表示回归的目标值。
8.根据权利要求7所述的一种基于场景增强的anchor-free遥感图像目标检测方法,其特征在于,联合预测网络中,将场景上下文提取模块预测出的当前场景下类别存在的概率信息联合到该子网络层中的分类支路中,表达式为,
Figure FDA0002651688270000035
式中,P表示原始分类支路预测结果,T表示场景中可能出现的类别概率预测结果,τ表示场景级别预测类别出现激活判定方式,ε表示激活阈值,
将两个预测结果以权重α联合后得到联合预测的目标类别出现概率输出C;
其中,在预测类别的支路添加sigmoid激活函数来映射类别概率,在预测坐标值的支路添加exp(x)映射为非负数;
将联合预测输出用于目标检测任务。
9.一种基于场景增强的anchor-free遥感图像目标检测系统,其特征在于,包括:
数据增强模块,用于通过平衡系数混合增强方式对获取的遥感图像数据集进行线性增强,获得增强后的训练集;
目标识别模块,用于构建获得基于场景增强的anchor-free的目标检测模型,通过数据增强模块得到的训练集对目标检测模型进行训练,直至达到预设的停止条件,获得训练好的目标检测模型;所述训练好的目标检测模型用于遥感图像目标检测;
其中,基于场景增强的anchor-free的目标检测模型包括:
特征提取子网络,包括:残差结构,所述残差结构为标准残差网络ResNet-50或ResNet-101,用于对遥感图像目标的基本特征进行提取,获得其在3个阶段产生的3个特征层F3,F4,F5
场景增强特征金字塔子网络,包括:
场景上下文提取模块,用于基于特征提取子网络获得的3个特征层F3,F4,F5,获得融合后的特征层;用于获得场景中可能出现的物体的类别信息;
标准特征金字塔结构,用于通过上采样、下采样的融合方式对场景上下文提取模块获得的融合后的特征层进行转换和二次融合,获得包含上下文信息的融合特征层;
联合预测网络,包括:一预测类别的支路和一预测坐标值的支路;用于输入上下文信息的融合特征层,识别出目标。
10.根据权利要求9所述的一种基于场景增强的anchor-free遥感图像目标检测系统,其特征在于,所述场景上下文提取模块包括:两个提炼模块,一个自适应全局平均池化层以及一个全连接网络;
其中,提炼模块由一个3*3的空洞卷积层、组归一化层、标准3*3卷积层以及两个非线性激活层组成;
自适应全局平均池化层用于匹配不同的图像输入将其池化到固定的3*3大小以适应全连接层的分类工作;
全连接网络的输出施加有场景中出现的目标多标签类别分类的交叉熵损失。
CN202010872866.7A 2020-08-26 2020-08-26 一种基于场景增强的anchor-free遥感图像目标检测方法及系统 Active CN112070729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010872866.7A CN112070729B (zh) 2020-08-26 2020-08-26 一种基于场景增强的anchor-free遥感图像目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010872866.7A CN112070729B (zh) 2020-08-26 2020-08-26 一种基于场景增强的anchor-free遥感图像目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN112070729A true CN112070729A (zh) 2020-12-11
CN112070729B CN112070729B (zh) 2023-07-07

Family

ID=73659457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010872866.7A Active CN112070729B (zh) 2020-08-26 2020-08-26 一种基于场景增强的anchor-free遥感图像目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN112070729B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633231A (zh) * 2020-12-30 2021-04-09 珠海大横琴科技发展有限公司 一种火灾识别的方法和装置
CN112733730A (zh) * 2021-01-12 2021-04-30 中国石油大学(华东) 采油作业现场吸烟人员识别处理方法及系统
CN112819008A (zh) * 2021-01-11 2021-05-18 腾讯科技(深圳)有限公司 实例检测网络的优化方法、装置、介质及电子设备
CN112966747A (zh) * 2021-03-04 2021-06-15 北京联合大学 一种基于无锚框检测网络改进的车辆检测方法
CN113128564A (zh) * 2021-03-23 2021-07-16 武汉泰沃滋信息技术有限公司 一种基于深度学习的复杂背景下典型目标检测方法及系统
CN113221855A (zh) * 2021-06-11 2021-08-06 中国人民解放军陆军炮兵防空兵学院 基于尺度敏感损失与特征融合的小目标检测方法和系统
CN113392960A (zh) * 2021-06-10 2021-09-14 电子科技大学 一种基于混合空洞卷积金字塔的目标检测网络及方法
CN114519819A (zh) * 2022-02-10 2022-05-20 西北工业大学 一种基于全局上下文感知的遥感图像目标检测方法
CN116912290A (zh) * 2023-09-11 2023-10-20 四川都睿感控科技有限公司 一种记忆增强的难易视频运动小目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370648A1 (en) * 2018-05-29 2019-12-05 Google Llc Neural architecture search for dense image prediction tasks
CN110659630A (zh) * 2019-09-17 2020-01-07 深圳龙岗智能视听研究院 一种基于骨架点轨迹动态分析的视频人体异常行为检测方法
CN111027491A (zh) * 2019-12-12 2020-04-17 江西洪都航空工业集团有限责任公司 一种基于无锚点机制的火焰检测方法及装置
CN111126202A (zh) * 2019-12-12 2020-05-08 天津大学 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN111401148A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于改进的多级YOLOv3的道路多目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370648A1 (en) * 2018-05-29 2019-12-05 Google Llc Neural architecture search for dense image prediction tasks
CN110659630A (zh) * 2019-09-17 2020-01-07 深圳龙岗智能视听研究院 一种基于骨架点轨迹动态分析的视频人体异常行为检测方法
CN111027491A (zh) * 2019-12-12 2020-04-17 江西洪都航空工业集团有限责任公司 一种基于无锚点机制的火焰检测方法及装置
CN111126202A (zh) * 2019-12-12 2020-05-08 天津大学 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN111401148A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于改进的多级YOLOv3的道路多目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIROSHI INOUE: "Data Augmentation by Pairing Samples for Images Classification", 《ARXIV》 *
任凤至等: "无定形区特征增强全景分割算法", 《大连民族大学学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633231B (zh) * 2020-12-30 2022-08-02 珠海大横琴科技发展有限公司 一种火灾识别的方法和装置
CN112633231A (zh) * 2020-12-30 2021-04-09 珠海大横琴科技发展有限公司 一种火灾识别的方法和装置
CN112819008A (zh) * 2021-01-11 2021-05-18 腾讯科技(深圳)有限公司 实例检测网络的优化方法、装置、介质及电子设备
CN112733730A (zh) * 2021-01-12 2021-04-30 中国石油大学(华东) 采油作业现场吸烟人员识别处理方法及系统
CN112966747A (zh) * 2021-03-04 2021-06-15 北京联合大学 一种基于无锚框检测网络改进的车辆检测方法
CN113128564B (zh) * 2021-03-23 2022-03-22 武汉泰沃滋信息技术有限公司 一种基于深度学习的复杂背景下典型目标检测方法及系统
CN113128564A (zh) * 2021-03-23 2021-07-16 武汉泰沃滋信息技术有限公司 一种基于深度学习的复杂背景下典型目标检测方法及系统
CN113392960A (zh) * 2021-06-10 2021-09-14 电子科技大学 一种基于混合空洞卷积金字塔的目标检测网络及方法
CN113221855A (zh) * 2021-06-11 2021-08-06 中国人民解放军陆军炮兵防空兵学院 基于尺度敏感损失与特征融合的小目标检测方法和系统
CN114519819A (zh) * 2022-02-10 2022-05-20 西北工业大学 一种基于全局上下文感知的遥感图像目标检测方法
CN114519819B (zh) * 2022-02-10 2024-04-02 西北工业大学 一种基于全局上下文感知的遥感图像目标检测方法
CN116912290A (zh) * 2023-09-11 2023-10-20 四川都睿感控科技有限公司 一种记忆增强的难易视频运动小目标检测方法
CN116912290B (zh) * 2023-09-11 2023-12-15 四川都睿感控科技有限公司 一种记忆增强的难易视频运动小目标检测方法

Also Published As

Publication number Publication date
CN112070729B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN112070729B (zh) 一种基于场景增强的anchor-free遥感图像目标检测方法及系统
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
CN110348376B (zh) 一种基于神经网络的行人实时检测方法
Wang et al. Multiscale visual attention networks for object detection in VHR remote sensing images
CN108596101B (zh) 一种基于卷积神经网络的遥感图像多目标检测方法
CN110276269B (zh) 一种基于注意力机制的遥感图像目标检测方法
CN108764063B (zh) 一种基于特征金字塔的遥感影像时敏目标识别系统及方法
CN113486981B (zh) 基于多尺度特征注意力融合网络的rgb图像分类方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN106504233A (zh) 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN114155481A (zh) 一种基于语义分割的非结构化田间道路场景识别方法及装置
CN109636846B (zh) 基于循环注意力卷积神经网络的目标定位方法
CN111242144B (zh) 电网设备异常的检测方法和装置
CN107967474A (zh) 一种基于卷积神经网络的海面目标显著性检测方法
CN110222604A (zh) 基于共享卷积神经网络的目标识别方法和装置
CN113807464A (zh) 基于改进yolo v5的无人机航拍图像目标检测方法
CN113177560A (zh) 一种普适性轻量级深度学习车辆检测方法
CN110991444A (zh) 面向复杂场景的车牌识别方法及装置
Lu et al. A CNN-transformer hybrid model based on CSWin transformer for UAV image object detection
CN109543617A (zh) 基于yolo目标检测技术的智能车辆运动路况信息的检测方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN111738074A (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN116824335A (zh) 一种基于YOLOv5改进算法的火灾预警方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Junmin

Inventor after: Li Shijie

Inventor after: Zhou Changsheng

Inventor after: Gao Yong

Inventor before: Liu Junmin

Inventor before: Li Shijie

Inventor before: Zhou Changsheng

Inventor before: Gao Yong

GR01 Patent grant
GR01 Patent grant