CN110321923B - 不同尺度感受野特征层融合的目标检测方法、系统及介质 - Google Patents

不同尺度感受野特征层融合的目标检测方法、系统及介质 Download PDF

Info

Publication number
CN110321923B
CN110321923B CN201910388672.7A CN201910388672A CN110321923B CN 110321923 B CN110321923 B CN 110321923B CN 201910388672 A CN201910388672 A CN 201910388672A CN 110321923 B CN110321923 B CN 110321923B
Authority
CN
China
Prior art keywords
bounding box
training
model
predefined
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910388672.7A
Other languages
English (en)
Other versions
CN110321923A (zh
Inventor
滕国伟
张宽
李豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201910388672.7A priority Critical patent/CN110321923B/zh
Publication of CN110321923A publication Critical patent/CN110321923A/zh
Application granted granted Critical
Publication of CN110321923B publication Critical patent/CN110321923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种不同尺度感受野特征层融合的目标检测方法、系统及介质,包括:数据量增加步骤:对带标签的训练数据集进行增量处理,增加训练数据集的数据量,调整训练数据的训练图像尺寸与模型输入尺度相同,获得数据增加后的训练数据集;目标检测网络模型搭建步骤:以经典网络模型作为目标检测器的网络基础,使用密集连接代替特征金字塔网络FPN中的横向连接,获得密集连接FPN目标检测网络模型。本发明改进了现有目标检测模型仅使用部分特征层中的特征信息检测目标对象的缺点,通过FPN密集连接融合多个不同感受野的特征层,可以获得有利于多个尺度范围的对象检测所需的特征信息,提升目标检测器的特征提取能力和目标检测性能。

Description

不同尺度感受野特征层融合的目标检测方法、系统及介质
技术领域
本发明涉及图像中目标对象智能检测和识别领域,具体地,涉及不同尺度感受野特征层融合的目标检测方法、系统及介质。尤其地,涉及一种基于深度学习的不同特征层中特征信息融合的目标检测方法
背景技术
目标检测(Object Detection)是计算机视觉中一个重要的基础研究领域,其主要工作是对图像中感兴趣对象(ROI)在位置定位(Localization),以及对该对象ROI所属类别的分类(Classification)。在卷积神经网络模型(CNN)出现之前,目标检测的主要研究方法是通过手动方式提取图像中目标对象检测所需要的特征信息,而基于深度学习的目标检测器(CNN-based Object Detector)凭借其出色的特征提取能力,迅速成为了目标检测领域新的研究方向。目标检测是人脸识别、行人识别、异常行为监控、无人驾驶以及智能机器人等人工智能相关领域研究和应用的基础。
现有的基于深度学习的目标检测器均是使用以ImageNet分类数据集预训练的网络模型做为模型基础,但是ImageNet图像分类与目标检测存在着明显不同,目标检测不仅需要识别图像中对象的类别,还需要确定对象在图像上的空间位置。VGG16和ResNet等标准图像分类网络中特征层空间分辨率逐渐降低的设计原则并不利目标检测中的位置预测任务,同时经过多次卷积层(Convolution Layer)和池化层(Pooling Layer)下采样的深层特征层虽然获得了有利于图像分类的语义信息和大尺度的感受野,但是下采样时丢失了大量空间信息的特征层并不利于小尺度对象的检测和大尺度对象的边界框回归预测。为了解决目标检测时深层特征层中小尺度对象漏检的问题,FPN使用多层具有不同感受野的特征层检测不同尺度的目标对象,同时为了弥补下采样丢失的空间信息,FPN通过横向连接(Lateral Connectivity)融合浅层的空间信息和深层的空间信息生成具有丰富特征信息的预测特征层。
虽然FPN在一定程度上解决了空间信息丢失的问题,但是极端尺度对象的检测效果仍然不理想,研究发现某一尺度对象检测所需的特征信息不只是分布在其尺度对应的特征层上,同时有大量的相关信息分布在其他特征层上,仅获取单层特征层所包含的特征信息无法满足目标检测的需求。因此如何高效地从具有不同感受野的特征层中获取不同尺度对象检测所需的特征信息是提升现有目标检测器检测性能的关键。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种不同尺度感受野特征层融合的目标检测方法、系统及介质。
根据本发明提供的一种不同尺度感受野特征层融合的目标检测方法,包括:
数据量增加步骤:对带标签的训练数据集进行增量处理,增加训练数据集的数据量,调整训练数据的训练图像尺寸与模型输入尺度相同,获得数据增加后的训练数据集;
目标检测网络模型搭建步骤:以经典网络模型作为目标检测器的网络基础,使用密集连接代替特征金字塔网络FPN中的横向连接,获得密集连接FPN目标检测网络模型;
数据预处理步骤:从获得的数据增加后的训练数据集中获取用于网络模型训练的数据,对这些数据做预处理,获得用于模型训练的正负样本;
模型训练超参数设置步骤:对网络模型的超参数进行设置,输出网络模型的超参数;
模型训练步骤:根据获得的用于模型训练的正负样本、网络模型的超参数,对获得的密集连接FPN目标检测网络模型进行训练,获得训练后的网络模型;
模型性能测试步骤:使用测试数据集评估获得的训练后的网络模型,输出模型的性能评估结果;
目标检测步骤:根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的图片至训练后的网络模型,获得最终目标检测结果;否则,则返回模型训练步骤继续执行。
优选地,所述数据量增加步骤:
所述增量处理包括以下任一种或任多种:裁剪、旋转、翻转、缩放、形变、加噪;
所述目标检测器模型网络搭建步骤:
FPN自底向上传输模块构建步骤:保持网络模型中空间分辨率相对于输入图像下降预设n倍的卷积层之前的网络结构不变,使用空洞卷积代替随后的下采样卷积,保持特征层的空间分辨率与为输入图像的1/n,依次连续选择四个空间分辨率不变的同时感受野增大的特征层{F1,F2,F3,F4},共同构成特征金字塔网络FPN的自底向上传输模块;
FPN自顶向下传输模块构建步骤:使用密集连接代替原本特征金字塔网络FPN中的横向连接,通过密集连接融合所有自底向上传输模块中的所有特征信息,并生成检测不同尺度对象的预测特征层,预测特征层Pi中的特征信息是通过其密集连接融合自底向上传输模块中的特征层{F1,F2,F3,F4}以及当前预测特征层的上一层预测特征层Pi+1得到的,从最顶层P4开始依次迭代,得到检测不同尺度对象的预测特征层{P1,P2,P3,P4};分别与{F1,F2,F3,F4}以对应的预测特征层{P1,P2,P3,P4}共同构成特征金字塔网络FPN的自顶向下传输模块;i表示预测特征层的层数;
预定义边界框检测模块构建步骤:分别使用预测特征层{P1,P2,P3,P4}做多尺度对象检测的边界框回归预测和对象分类预测的输入,得到不同预测特征层像素点处一组预定义边界框的检测结果,所述多尺度对象检测的边界框回归预测和对象分类预测构成用于检测不同预测特征层像素点处一组预定义边界框的预定义边界框检测模块;
目标检测器模型网络获得步骤:将获得的特征金字塔网络FPN的自底向上传输模块、特征金字塔网络FPN的自顶向下传输模块及预定义边界框检测模块进行组合,获得目标检测器模型网络。
优选地,所述数据预处理步骤:
在预测特征层像素点处生成一组尺度和长宽比均不同的预定义边界框,每个预定义边界框对应4个位置参数和分类类别概率;
在模型训练时,将与数据集中对象的边界框真实值重叠率最大的预定义边界框选为正样本,除此之外预定义边界框中与边界框真实值之间的重叠率IoU大于指定阈值的也被选为正样本,其余预定义边界框皆为负样本;所述边界框真实值为所述带标签的训练数据集的标签;
根据边界框内对象的概率排序,从中选出排名靠前的负样本参与模型训练,保持正负样本的比例为预设比例,获得用于模型训练的正负样本;
在训练不同感受野尺度的预测特征层时使用尺度敏感训练策略;
所述尺度敏感训练策略是:为每个不同感受野的预测特征层分配去对应尺度带下的训练样本,当训练预测特征层Pi时,将落在预设尺度范围[li,ui]内的预定义边界框选为当前预测特征层Pi的训练正样本,除训练正样本以外的其他训练样本则认为是当前预测特征层的训练负样本,除当前预测特征层Pi以外的其他预测特征层也是如此。
优选地,所述模型训练超参数设置步骤:
使用多个图形计算能力强的GPU端到端训练,训练时采用同步SGD优化,其中权值衰减设置为预设衰减值,冲量设置为预设冲量,每个批次迭代包含n张训练图像;
训练初始时学习率设置为第一预设学习率,并在经过第一预设次数和第二预设次数迭代后学习率分别下降预设倍数,最终在第三预设次数迭代结束训练,同时在前第四预设次迭代中使用更小的第二预设学习率来预热模型的训练;
模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失:
Figure GDA0002184917860000041
L(x,c,l,g)表示联合损失函数;
N表示表示数据预处理步骤中与边界框真实值匹配的预定义边界框的数量;
Lcls(x,c)表示分类损失函数;
α表示调节分类损失Lcls(x,c)和边界框回归预测损失Lloc(x,l,g)之间权重的权值因子;
Lloc(x,l,g)表示定位损失函数;
边界框回归预测损失Lloc(x,l,g)使用Smooth L1损失函数表示,如下式所示:
Figure GDA0002184917860000042
N表示表示数据预处理步骤中与边界框真实值匹配的预定义边界框的数量;
Pos表示预定义边界框的正样本;
i表示预定义边界框的标记;
j表示边界框真实值的标记;
m∈{cx,cy,w,h}表示边界框的位置参数,cx,cy,w,h分别表示边界框的中心位置的横坐标、纵坐标,以及边界框的长和宽;
m表示边界框的位置参数,包括中心位置(cx,cy),长和宽(w,h);
cx表示边界框中心位置横坐标;
cy表示边界框中心位置纵坐标;
w表示边界框的宽;
h表示边界框的高;
Figure GDA0002184917860000043
表示第i个预定义边界框与第j个边界框真实值是否相匹配,当值为1时表示匹配,并当二者匹配时,将类别标签p赋予该预定义边界框;
SmoothL1表示Smooth L1损失函数;
Figure GDA0002184917860000044
表示边界框回归预测得到的边界框l相对于预定义边界框d的偏移量;
Figure GDA0002184917860000045
表示边界框真实值g与预定义边界框d之间的偏移量,如下式所示:
Figure GDA0002184917860000051
Figure GDA0002184917860000052
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的水平cx相对偏移量;
Figure GDA0002184917860000053
表示第j个边界框真实值g的中心点横坐标cx;
Figure GDA0002184917860000054
表示第i个预定义边界框d的中心点横坐标cx;
Figure GDA0002184917860000055
表示第i个预定义边界框d的宽度w;
Figure GDA0002184917860000056
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的垂直cy相对偏移量;
Figure GDA0002184917860000057
表示第j个边界框真实值g的中心点纵坐标cy;
Figure GDA0002184917860000058
表示第i个预定义边界框d的中心点纵坐标cy;
Figure GDA0002184917860000059
表示第i个预定义边界框d的高度h;
Figure GDA00021849178600000510
表示第j个边界框真实值g与第i个预定义边界框d之间的宽度w相对偏移量;
Figure GDA00021849178600000511
表示第j个边界框真实值g的宽度w;
Figure GDA00021849178600000512
表示第i个预定义边界框d的宽度w
Figure GDA00021849178600000513
表示第j个边界框真实值g与第i个预定义边界框d之间的高度h相对偏移量;
Figure GDA00021849178600000514
表示第j个边界框真实值g的高度h;
Figure GDA00021849178600000515
表示第i个预定义边界框d的高度h;
对象预测损失Lcls(x,c)用softmax损失函数表示:
Figure GDA00021849178600000516
Lcls(x,c)表示对象分类预测的损失函数;
Figure GDA00021849178600000517
表示第i个预定义边界框内包含对象的类别属于第p类的概率置信度;
Figure GDA00021849178600000518
表示第i个预定义边界框内包含对象的类别属于第p类的概率值;
Figure GDA00021849178600000519
表示第i个预定义边界框内包含对象的类别属于第0类的概率置信度,0类表示背景;
Neg表示模型训练时的预定义边界框负样本;
Figure GDA00021849178600000520
表示第i个预定义边界框内包含对象的类别属于第p类的置信度对应的softmax损失值。
优选地,所述模型性能测试步骤:
使用测试数据集评估本发明提出的目标检测模型,使用标准评价指标评估模型性能,其中APIoU和ARIoU分别表示在不同IoU阈值下的检测精度和召回率,当IoU取值为第一阈值时,体现的是检测器的边界框回归能力,当IoU取值为第二阈值时,检验的是检测器的分类能力;
APscale和ARscale分别表示不同尺度范围内对象的检测精度;
所述目标检测步骤:
根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的3通道图片至训练后的网络模型,先根据置信度的阈值滤除分类得分比较低的边界框,最后使用NMS非极大值抑制算法去除重叠度比较高的边界框,获得最终目标检测结果;否则,则返回模型训练步骤继续执行。
根据本发明提供的一种不同尺度感受野特征层融合的目标检测系统,包括:
数据量增加模块:对带标签的训练数据集进行增量处理,增加训练数据集的数据量,调整训练数据的训练图像尺寸与模型输入尺度相同,获得数据增加后的训练数据集;
目标检测网络模型搭建模块:以经典网络模型作为目标检测器的网络基础,使用密集连接代替特征金字塔网络FPN中的横向连接,获得密集连接FPN目标检测网络模型;
数据预处理模块:从获得的数据增加后的训练数据集中获取用于网络模型训练的数据,对这些数据做预处理,获得用于模型训练的正负样本;
模型训练超参数设置模块:对网络模型的超参数进行设置,输出网络模型的超参数;
模型训练模块:根据获得的用于模型训练的正负样本、网络模型的超参数,对获得的密集连接FPN目标检测网络模型进行训练,获得训练后的网络模型;
模型性能测试模块:使用测试数据集评估获得的训练后的网络模型,输出模型的性能评估结果;
目标检测模块:根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的图片至训练后的网络模型,获得最终目标检测结果;否则,则调用模型训练模块。
优选地,所述数据量增加模块:
所述增量处理包括以下任一种或任多种:裁剪、旋转、翻转、缩放、形变、加噪;
所述目标检测器模型网络搭建模块:
FPN自底向上传输模块构建模块:保持网络模型中空间分辨率相对于输入图像下降预设n倍的卷积层之前的网络结构不变,使用空洞卷积代替随后的下采样卷积,保持特征层的空间分辨率与为输入图像的1/n,依次连续选择四个空间分辨率不变的同时感受野增大的特征层{F1,F2,F3,F4},共同构成特征金字塔网络FPN的自底向上传输模块;
FPN自顶向下传输模块构建模块:使用密集连接代替原本特征金字塔网络FPN中的横向连接,通过密集连接融合所有自底向上传输模块中的所有特征信息,并生成检测不同尺度对象的预测特征层,预测特征层Pi中的特征信息是通过其密集连接融合自底向上传输模块中的特征层{F1,F2,F3,F4}以及当前预测特征层的上一层预测特征层Pi+1得到的,从最顶层P4开始依次迭代,得到检测不同尺度对象的预测特征层{P1,P2,P3,P4};分别与{F1,F2,F3,F4}以对应的预测特征层{P1,P2,P3,P4}共同构成特征金字塔网络FPN的自顶向下传输模块;i表示预测特征层的层数;
预定义边界框检测模块构建模块:分别使用预测特征层{P1,P2,P3,P4}做多尺度对象检测的边界框回归预测和对象分类预测的输入,得到不同预测特征层像素点处一组预定义边界框的检测结果,所述多尺度对象检测的边界框回归预测和对象分类预测构成用于检测不同预测特征层像素点处一组预定义边界框的预定义边界框检测模块;
目标检测器模型网络获得模块:将获得的特征金字塔网络FPN的自底向上传输模块、特征金字塔网络FPN的自顶向下传输模块及预定义边界框检测模块进行组合,获得目标检测器模型网络。
优选地,所述数据预处理模块:
在预测特征层像素点处生成一组尺度和长宽比均不同的预定义边界框,每个预定义边界框对应4个位置参数和分类类别概率;
在模型训练时,将与数据集中对象的边界框真实值重叠率最大的预定义边界框选为正样本,除此之外预定义边界框中与边界框真实值之间的重叠率IoU大于指定阈值的也被选为正样本,其余预定义边界框皆为负样本;所述边界框真实值为所述带标签的训练数据集的标签;
根据边界框内对象的概率排序,从中选出排名靠前的负样本参与模型训练,保持正负样本的比例为预设比例,获得用于模型训练的正负样本;
在训练不同感受野尺度的预测特征层时使用尺度敏感训练策略;
所述尺度敏感训练策略是:为每个不同感受野的预测特征层分配去对应尺度带下的训练样本,当训练预测特征层Pi时,将落在预设尺度范围[li,ui]内的预定义边界框选为当前预测特征层Pi的训练正样本,除训练正样本以外的其他训练样本则认为是当前预测特征层的训练负样本,除当前预测特征层Pi以外的其他预测特征层也是如此。
优选地,所述模型训练超参数设置模块:
使用多个图形计算能力强的GPU端到端训练,训练时采用同步SGD优化,其中权值衰减设置为预设衰减值,冲量设置为预设冲量,每个批次迭代包含n张训练图像;
训练初始时学习率设置为第一预设学习率,并在经过第一预设次数和第二预设次数迭代后学习率分别下降预设倍数,最终在第三预设次数迭代结束训练,同时在前第四预设次迭代中使用更小的第二预设学习率来预热模型的训练;
模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失:
Figure GDA0002184917860000081
L(x,c,l,g)表示联合损失函数;
N表示表示数据预处理模块中与边界框真实值匹配的预定义边界框的数量;
Lcls(x,c)表示分类损失函数;
α表示调节分类损失Lcls(x,c)和边界框回归预测损失Lloc(x,l,g)之间权重的权值因子;
Lloc(x,l,g)表示定位损失函数;
边界框回归预测损失Lloc(x,l,g)使用Smooth L1损失函数表示,如下式所示:
Figure GDA0002184917860000082
N表示表示数据预处理模块中与边界框真实值匹配的预定义边界框的数量;
Pos表示预定义边界框的正样本;
i表示预定义边界框的标记;
j表示边界框真实值的标记;
m∈{cx,cy,w,h}表示边界框的位置参数,cx,cy,w,h分别表示边界框的中心位置的横坐标、纵坐标,以及边界框的长和宽;
m表示边界框的位置参数,包括中心位置(cx,cy),长和宽(w,h);
cx表示边界框中心位置横坐标;
cy表示边界框中心位置纵坐标;
w表示边界框的宽;
h表示边界框的高;
Figure GDA0002184917860000083
表示第i个预定义边界框与第j个边界框真实值是否相匹配,当值为1时表示匹配,并当二者匹配时,将类别标签p赋予该预定义边界框;
SmoothL1表示Smooth L1损失函数;
Figure GDA0002184917860000091
表示边界框回归预测得到的边界框l相对于预定义边界框d的偏移量;
Figure GDA0002184917860000092
表示边界框真实值g与预定义边界框d之间的偏移量,如下式所示:
Figure GDA0002184917860000093
Figure GDA0002184917860000094
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的水平cx相对偏移量;
Figure GDA0002184917860000095
表示第j个边界框真实值g的中心点横坐标cx;
Figure GDA0002184917860000096
表示第i个预定义边界框d的中心点横坐标cx;
Figure GDA0002184917860000097
表示第i个预定义边界框d的宽度w;
Figure GDA0002184917860000098
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的垂直cy相对偏移量;
Figure GDA0002184917860000099
表示第j个边界框真实值g的中心点纵坐标cy;
Figure GDA00021849178600000910
表示第i个预定义边界框d的中心点纵坐标cy;
Figure GDA00021849178600000911
表示第i个预定义边界框d的高度h;
Figure GDA00021849178600000912
表示第j个边界框真实值g与第i个预定义边界框d之间的宽度w相对偏移量;
Figure GDA00021849178600000913
表示第j个边界框真实值g的宽度w;
Figure GDA00021849178600000914
表示第i个预定义边界框d的宽度w
Figure GDA00021849178600000915
表示第j个边界框真实值g与第i个预定义边界框d之间的高度h相对偏移量;
Figure GDA00021849178600000916
表示第j个边界框真实值g的高度h;
Figure GDA00021849178600000917
表示第i个预定义边界框d的高度h;
对象预测损失Lcls(x,c)用softmax损失函数表示:
Figure GDA00021849178600000918
Lcls(x,c)表示对象分类预测的损失函数;
Figure GDA00021849178600000919
表示第i个预定义边界框内包含对象的类别属于第p类的概率置信度;
Figure GDA00021849178600000920
表示第i个预定义边界框内包含对象的类别属于第p类的概率值;
Figure GDA0002184917860000101
表示第i个预定义边界框内包含对象的类别属于第0类的概率置信度,0类表示背景;
Neg表示模型训练时的预定义边界框负样本;
Figure GDA0002184917860000102
表示第i个预定义边界框内包含对象的类别属于第p类的置信度对应的softmax损失值;
所述模型性能测试模块:
使用测试数据集评估本发明提出的目标检测模型,使用标准评价指标评估模型性能,其中APIoU和ARIoU分别表示在不同IoU阈值下的检测精度和召回率,当IoU取值为第一阈值时,体现的是检测器的边界框回归能力,当IoU取值为第二阈值时,检验的是检测器的分类能力;
ARscale和ARscale分别表示不同尺度范围内对象的检测精度;
所述目标检测模块:
根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的3通道图片至训练后的网络模型,先根据置信度的阈值滤除分类得分比较低的边界框,最后使用NMS非极大值抑制算法去除重叠度比较高的边界框,获得最终目标检测结果;否则,则调用模型训练模块。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的不同尺度感受野特征层融合的目标检测方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
本发明改进了现有目标检测模型仅使用部分特征层中的特征信息检测目标对象的缺点,通过FPN密集连接融合多个不同感受野的特征层,可以获得有利于多个尺度范围的对象检测所需的特征信息,提升了目标检测器的特征提取能力和目标检测性能。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的一种不同尺度感受野特征层融合的目标检测结构示意图。
图2为本发明提供的使用空洞卷积代替下卷积的FPN自底向上传输模块结构示意图。
图3为本发明提供的密集连接融合多层特征层信息的FPN结构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种不同尺度感受野特征层融合的目标检测方法,包括:
数据量增加步骤:对带标签的训练数据集进行增量处理,增加训练数据集的数据量,调整训练数据的训练图像尺寸与模型输入尺度相同,获得数据增加后的训练数据集;
目标检测网络模型搭建步骤:以经典网络模型作为目标检测器的网络基础,使用密集连接代替特征金字塔网络FPN中的横向连接,获得密集连接FPN目标检测网络模型;
数据预处理步骤:从获得的数据增加后的训练数据集中获取用于网络模型训练的数据,对这些数据做预处理,获得用于模型训练的正负样本;
模型训练超参数设置步骤:对网络模型的超参数进行设置,输出网络模型的超参数;
模型训练步骤:根据获得的用于模型训练的正负样本、网络模型的超参数,对获得的密集连接FPN目标检测网络模型进行训练,获得训练后的网络模型;
模型性能测试步骤:使用测试数据集评估获得的训练后的网络模型,输出模型的性能评估结果;
目标检测步骤:根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的图片至训练后的网络模型,获得最终目标检测结果;否则,则返回模型训练步骤继续执行。
具体地,所述数据量增加步骤:
所述增量处理包括以下任一种或任多种:裁剪、旋转、翻转、缩放、形变、加噪;
所述目标检测器模型网络搭建步骤:
FPN自底向上传输模块构建步骤:保持网络模型中空间分辨率相对于输入图像下降预设n倍的卷积层之前的网络结构不变,使用空洞卷积代替随后的下采样卷积,保持特征层的空间分辨率与为输入图像的1/n,依次连续选择四个空间分辨率不变的同时感受野增大的特征层{F1,F2,F3,F4},共同构成特征金字塔网络FPN的自底向上传输模块;进一步地,n的值为16。
FPN自顶向下传输模块构建步骤:使用密集连接代替原本特征金字塔网络FPN中的横向连接,通过密集连接融合所有自底向上传输模块中的所有特征信息,并生成检测不同尺度对象的预测特征层,预测特征层Pi中的特征信息是通过其密集连接融合自底向上传输模块中的特征层{F1,F2,F3,F4}以及当前预测特征层的上一层预测特征层Pi+1得到的,从最顶层P4开始依次迭代,得到检测不同尺度对象的预测特征层{P1,P2,P3,P4};分别与{F1,F2,F3,F4}以对应的预测特征层{P1,P2,P3,P4}共同构成特征金字塔网络FPN的自顶向下传输模块;i表示预测特征层的层数;
预定义边界框检测模块构建步骤:分别使用预测特征层{P1,P2,P3,P4}做多尺度对象检测的边界框回归预测和对象分类预测的输入,得到不同预测特征层像素点处一组预定义边界框的检测结果,所述多尺度对象检测的边界框回归预测和对象分类预测构成用于检测不同预测特征层像素点处一组预定义边界框的预定义边界框检测模块;
目标检测器模型网络获得步骤:将获得的特征金字塔网络FPN的自底向上传输模块、特征金字塔网络FPN的自顶向下传输模块及预定义边界框检测模块进行组合,获得目标检测器模型网络。
具体地,所述数据预处理步骤:
在预测特征层像素点处生成一组尺度和长宽比均不同的预定义边界框,每个预定义边界框对应4个位置参数和分类类别概率;
在模型训练时,将与数据集中对象的边界框真实值重叠率最大的预定义边界框选为正样本,除此之外预定义边界框中与边界框真实值之间的重叠率IoU大于指定阈值的也被选为正样本,其余预定义边界框皆为负样本;所述边界框真实值为所述带标签的训练数据集的标签;
根据边界框内对象的概率排序,从中选出排名靠前的负样本参与模型训练,保持正负样本的比例为预设比例,获得用于模型训练的正负样本;
在训练不同感受野尺度的预测特征层时使用尺度敏感训练策略;
所述尺度敏感训练策略是:为每个不同感受野的预测特征层分配去对应尺度带下的训练样本,当训练预测特征层Pi时,将落在预设尺度范围[li,ui]内的预定义边界框选为当前预测特征层Pi的训练正样本,除训练正样本以外的其他训练样本则认为是当前预测特征层的训练负样本,除当前预测特征层Pi以外的其他预测特征层也是如此。
具体地,所述模型训练超参数设置步骤:
使用多个图形计算能力强的GPU端到端训练,训练时采用同步SGD优化,其中权值衰减设置为预设衰减值,冲量设置为预设冲量,每个批次迭代包含n张训练图像;
训练初始时学习率设置为第一预设学习率,并在经过第一预设次数和第二预设次数迭代后学习率分别下降预设倍数,最终在第三预设次数迭代结束训练,同时在前第四预设次迭代中使用更小的第二预设学习率来预热模型的训练;
模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失:
Figure GDA0002184917860000131
L(x,c,l,g)表示联合损失函数;
N表示表示数据预处理步骤中与边界框真实值匹配的预定义边界框的数量;
Lcls(x,c)表示分类损失函数;
α表示调节分类损失Lcls(x,c)和边界框回归预测损失Lloc(x,l,g)之间权重的权值因子;
Lloc(x,l,g)表示定位损失函数;
边界框回归预测损失Lloc(x,l,g)使用Smooth L1损失函数表示,如下式所示:
Figure GDA0002184917860000132
N表示表示数据预处理步骤中与边界框真实值匹配的预定义边界框的数量;
Pos表示预定义边界框的正样本;
i表示预定义边界框的标记;
j表示边界框真实值的标记;
m∈{cx,cy,w,h}表示边界框的位置参数,cx,cy,w,h分别表示边界框的中心位置的横坐标、纵坐标,以及边界框的长和宽;
m表示边界框的位置参数,包括中心位置(cx,cy),长和宽(w,h);
cx表示边界框中心位置横坐标;
cy表示边界框中心位置纵坐标;
w表示边界框的宽;
h表示边界框的高;
Figure GDA0002184917860000133
表示第i个预定义边界框与第j个边界框真实值是否相匹配,当值为1时表示匹配,并当二者匹配时,将类别标签p赋予该预定义边界框;
SmoothL1表示Smooth L1损失函数;
Figure GDA0002184917860000134
表示边界框回归预测得到的边界框l相对于预定义边界框d的偏移量;
Figure GDA0002184917860000135
表示边界框真实值g与预定义边界框d之间的偏移量,如下式所示:
Figure GDA0002184917860000141
Figure GDA0002184917860000142
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的水平cx相对偏移量;
Figure GDA0002184917860000143
表示第j个边界框真实值g的中心点横坐标cx;
Figure GDA0002184917860000144
表示第i个预定义边界框d的中心点横坐标cx;
Figure GDA0002184917860000145
表示第i个预定义边界框d的宽度w;
Figure GDA0002184917860000146
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的垂直cy相对偏移量;
Figure GDA0002184917860000147
表示第j个边界框真实值g的中心点纵坐标cy;
Figure GDA0002184917860000148
表示第i个预定义边界框d的中心点纵坐标cy;
Figure GDA0002184917860000149
表示第i个预定义边界框d的高度h;
Figure GDA00021849178600001410
表示第j个边界框真实值g与第i个预定义边界框d之间的宽度w相对偏移量;
Figure GDA00021849178600001411
表示第j个边界框真实值g的宽度w;
Figure GDA00021849178600001412
表示第i个预定义边界框d的宽度w
Figure GDA00021849178600001413
表示第j个边界框真实值g与第i个预定义边界框d之间的高度h相对偏移量;
Figure GDA00021849178600001414
表示第j个边界框真实值g的高度h;
Figure GDA00021849178600001415
表示第i个预定义边界框d的高度h;
对象预测损失Lcls(x,c)用softmax损失函数表示:
Figure GDA00021849178600001416
Lcls(x,c)表示对象分类预测的损失函数;
Figure GDA00021849178600001417
表示第i个预定义边界框内包含对象的类别属于第p类的概率置信度;
Figure GDA00021849178600001418
表示第i个预定义边界框内包含对象的类别属于第p类的概率值;
Figure GDA00021849178600001419
表示第i个预定义边界框内包含对象的类别属于第0类的概率置信度,0类表示背景;
Neg表示模型训练时的预定义边界框负样本;
Figure GDA00021849178600001420
表示第i个预定义边界框内包含对象的类别属于第p类的置信度对应的softmax损失值。
具体地,所述模型性能测试步骤:
使用测试数据集评估本发明提出的目标检测模型,使用标准评价指标评估模型性能,其中APIoU和ARIoU分别表示在不同IoU阈值下的检测精度和召回率,当IoU取值为第一阈值时,体现的是检测器的边界框回归能力,当IoU取值为第二阈值时,检验的是检测器的分类能力;进一步地,第一阈值大于第二阈值。
APscale和ARscale分别表示不同尺度范围内对象的检测精度;
所述目标检测步骤:
根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的3通道图片至训练后的网络模型,先根据置信度的阈值滤除分类得分比较低的边界框,最后使用NMS非极大值抑制算法去除重叠度比较高的边界框,获得最终目标检测结果;否则,则返回模型训练步骤继续执行。
本发明提供的不同尺度感受野特征层融合的目标检测系统,可以通过本发明给的不同尺度感受野特征层融合的目标检测方法的步骤流程实现。本领域技术人员可以将所述不同尺度感受野特征层融合的目标检测方法,理解为所述不同尺度感受野特征层融合的目标检测系统的一个优选例。
根据本发明提供的一种不同尺度感受野特征层融合的目标检测系统,包括:
数据量增加模块:对带标签的训练数据集进行增量处理,增加训练数据集的数据量,调整训练数据的训练图像尺寸与模型输入尺度相同,获得数据增加后的训练数据集;
目标检测网络模型搭建模块:以经典网络模型作为目标检测器的网络基础,使用密集连接代替特征金字塔网络FPN中的横向连接,获得密集连接FPN目标检测网络模型;
数据预处理模块:从获得的数据增加后的训练数据集中获取用于网络模型训练的数据,对这些数据做预处理,获得用于模型训练的正负样本;
模型训练超参数设置模块:对网络模型的超参数进行设置,输出网络模型的超参数;
模型训练模块:根据获得的用于模型训练的正负样本、网络模型的超参数,对获得的密集连接FPN目标检测网络模型进行训练,获得训练后的网络模型;
模型性能测试模块:使用测试数据集评估获得的训练后的网络模型,输出模型的性能评估结果;
目标检测模块:根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的图片至训练后的网络模型,获得最终目标检测结果;否则,则调用模型训练模块。
具体地,所述数据量增加模块:
所述增量处理包括以下任一种或任多种:裁剪、旋转、翻转、缩放、形变、加噪;
所述目标检测器模型网络搭建模块:
FPN自底向上传输模块构建模块:保持网络模型中空间分辨率相对于输入图像下降预设n倍的卷积层之前的网络结构不变,使用空洞卷积代替随后的下采样卷积,保持特征层的空间分辨率与为输入图像的1/n,依次连续选择四个空间分辨率不变的同时感受野增大的特征层{F1,F2,F3,F4},共同构成特征金字塔网络FPN的自底向上传输模块;
FPN自顶向下传输模块构建模块:使用密集连接代替原本特征金字塔网络FPN中的横向连接,通过密集连接融合所有自底向上传输模块中的所有特征信息,并生成检测不同尺度对象的预测特征层,预测特征层Pi中的特征信息是通过其密集连接融合自底向上传输模块中的特征层{F1,F2,F3,F4}以及当前预测特征层的上一层预测特征层Pi+1得到的,从最顶层P4开始依次迭代,得到检测不同尺度对象的预测特征层{P1,P2,P3,P4};分别与{F1,F2,F3,F4}以对应的预测特征层{P1,P2,P3,P4}共同构成特征金字塔网络FPN的自顶向下传输模块;i表示预测特征层的层数;
预定义边界框检测模块构建模块:分别使用预测特征层{P1,P2,P3,P4}做多尺度对象检测的边界框回归预测和对象分类预测的输入,得到不同预测特征层像素点处一组预定义边界框的检测结果,所述多尺度对象检测的边界框回归预测和对象分类预测构成用于检测不同预测特征层像素点处一组预定义边界框的预定义边界框检测模块;
目标检测器模型网络获得模块:将获得的特征金字塔网络FPN的自底向上传输模块、特征金字塔网络FPN的自顶向下传输模块及预定义边界框检测模块进行组合,获得目标检测器模型网络。
具体地,所述数据预处理模块:
在预测特征层像素点处生成一组尺度和长宽比均不同的预定义边界框,每个预定义边界框对应4个位置参数和分类类别概率;
在模型训练时,将与数据集中对象的边界框真实值重叠率最大的预定义边界框选为正样本,除此之外预定义边界框中与边界框真实值之间的重叠率IoU大于指定阈值的也被选为正样本,其余预定义边界框皆为负样本;所述边界框真实值为所述带标签的训练数据集的标签;
根据边界框内对象的概率排序,从中选出排名靠前的负样本参与模型训练,保持正负样本的比例为预设比例,获得用于模型训练的正负样本;
在训练不同感受野尺度的预测特征层时使用尺度敏感训练策略;
所述尺度敏感训练策略是:为每个不同感受野的预测特征层分配去对应尺度带下的训练样本,当训练预测特征层Pi时,将落在预设尺度范围[li,ui]内的预定义边界框选为当前预测特征层Pi的训练正样本,除训练正样本以外的其他训练样本则认为是当前预测特征层的训练负样本,除当前预测特征层Pi以外的其他预测特征层也是如此。
具体地,所述模型训练超参数设置模块:
使用多个图形计算能力强的GPU端到端训练,训练时采用同步SGD优化,其中权值衰减设置为预设衰减值,冲量设置为预设冲量,每个批次迭代包含n张训练图像;
训练初始时学习率设置为第一预设学习率,并在经过第一预设次数和第二预设次数迭代后学习率分别下降预设倍数,最终在第三预设次数迭代结束训练,同时在前第四预设次迭代中使用更小的第二预设学习率来预热模型的训练;
模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失:
Figure GDA0002184917860000171
L(x,c,l,g)表示联合损失函数;
N表示表示数据预处理模块中与边界框真实值匹配的预定义边界框的数量;
Lcls(x,c)表示分类损失函数;
α表示调节分类损失Lcls(x,c)和边界框回归预测损失Lloc(x,l,g)之间权重的权值因子;
Lloc(x,l,g)表示定位损失函数;
边界框回归预测损失Lloc(x,l,g)使用Smooth L1损失函数表示,如下式所示:
Figure GDA0002184917860000172
N表示表示数据预处理模块中与边界框真实值匹配的预定义边界框的数量;
Pos表示预定义边界框的正样本;
i表示预定义边界框的标记;
j表示边界框真实值的标记;
m∈{cx,cy,w,h}表示边界框的位置参数,cx,cy,w,h分别表示边界框的中心位置的横坐标、纵坐标,以及边界框的长和宽;
m表示边界框的位置参数,包括中心位置(cx,cy),长和宽(w,h);
cx表示边界框中心位置横坐标;
cy表示边界框中心位置纵坐标;
w表示边界框的宽;
h表示边界框的高;
Figure GDA0002184917860000181
表示第i个预定义边界框与第j个边界框真实值是否相匹配,当值为1时表示匹配,并当二者匹配时,将类别标签p赋予该预定义边界框;
SmoothL1表示Smooth L1损失函数;
Figure GDA0002184917860000182
表示边界框回归预测得到的边界框l相对于预定义边界框d的偏移量;
Figure GDA0002184917860000183
表示边界框真实值g与预定义边界框d之间的偏移量,如下式所示:
Figure GDA0002184917860000184
Figure GDA0002184917860000185
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的水平cx相对偏移量;
Figure GDA0002184917860000186
表示第j个边界框真实值g的中心点横坐标cx;
Figure GDA0002184917860000187
表示第i个预定义边界框d的中心点横坐标cx;
Figure GDA0002184917860000188
表示第i个预定义边界框d的宽度w;
Figure GDA0002184917860000189
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的垂直cy相对偏移量;
Figure GDA00021849178600001810
表示第j个边界框真实值g的中心点纵坐标cy;
Figure GDA00021849178600001811
表示第i个预定义边界框d的中心点纵坐标cy;
Figure GDA00021849178600001812
表示第i个预定义边界框d的高度h;
Figure GDA00021849178600001813
表示第j个边界框真实值g与第i个预定义边界框d之间的宽度w相对偏移量;
Figure GDA00021849178600001814
表示第j个边界框真实值g的宽度w;
Figure GDA00021849178600001815
表示第i个预定义边界框d的宽度w
Figure GDA00021849178600001816
表示第j个边界框真实值g与第i个预定义边界框d之间的高度h相对偏移量;
Figure GDA00021849178600001817
表示第j个边界框真实值g的高度h;
Figure GDA00021849178600001818
表示第i个预定义边界框d的高度h;
对象预测损失Lcls(x,c)用softmax损失函数表示:
Figure GDA0002184917860000191
Lcls(x,c)表示对象分类预测的损失函数;
Figure GDA0002184917860000192
表示第i个预定义边界框内包含对象的类别属于第p类的概率置信度;
Figure GDA0002184917860000193
表示第i个预定义边界框内包含对象的类别属于第p类的概率值;
Figure GDA0002184917860000194
表示第i个预定义边界框内包含对象的类别属于第0类的概率置信度,0类表示背景;
Neg表示模型训练时的预定义边界框负样本;
Figure GDA0002184917860000195
表示第i个预定义边界框内包含对象的类别属于第p类的置信度对应的softmax损失值;
所述模型性能测试模块:
使用测试数据集评估本发明提出的目标检测模型,使用标准评价指标评估模型性能,其中APIoU和APIoU分别表示在不同IoU阈值下的检测精度和召回率,当IoU取值为第一阈值时,体现的是检测器的边界框回归能力,当IoU取值为第二阈值时,检验的是检测器的分类能力;
APscale和ARscale分别表示不同尺度范围内对象的检测精度;
所述目标检测模块:
根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的3通道图片至训练后的网络模型,先根据置信度的阈值滤除分类得分比较低的边界框,最后使用NMS非极大值抑制算法去除重叠度比较高的边界框,获得最终目标检测结果;否则,则调用模型训练模块。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的不同尺度感受野特征层融合的目标检测方法的步骤。
下面通过优选例,对本发明进行更为具体地说明。
优选例1:
本发明提供一种基于FPN结构的密集连接方法,该方法使用密集连接(DenseConnectivity)代替原本FPN中横向连接,能够融合FPN自底向上传输模块(Bottom-upPath)中所有的特征层,并分别从中获得有利于多个尺度范围的对象检测所需的特征信息,提升目标检测器的特征提取能力和目标检测性能。
为达到上述目的,本发明采用以下技术方案,具体操作步骤如下:
(1)训练数据预处理,使用带标签的训练数据集训练网络模型,通过裁剪、旋转、翻转、缩放、形变和加噪等方式增加训练的数据量,调整训练图像尺寸与模型输入尺度相同;
(2)目标检测器模型网络搭建,以经典网络模型(比如:VGG16和ResNet101等)作为目标检测器的网络基础,构造分别使用不同尺度感受野的特征层预测不同尺度对象的FPN网络结构,使用密集连接代替原本FPN中的横向连接,通过密集连接融合FPN的自底向上传输模块中所有特征层,来充分获取不同尺度对象目标检测所需的特征信息;
(3)预定义边界框匹配策略,在预测特征层像素点处生成一组尺度和长宽比均不同的预定义边界框(Default Dounding Doxes),每个预定义边界框对应4个位置参数(x,y,w,h)和分类类别概率;在模型训练时,将与数据集中对象的边界框真实值(Ground TruthBounding Boxes)预定义边界框选为正样本,其余与真实值边界框之间的重叠率(IoU)大于指定阈值的预定义边界框也选为正样本,剩下的负样本根据边界框内对象的概率排序,从中选出排名靠前的负样本参数模型训练,保持正负样本的比例为1:3;在训练不同感受野尺度的预测特征层时使用尺度敏感训练策略;
(4)模型训练超参数设置,本发明使用多个图形计算能力强的GPU端到端训练端到端训练,训练时采用同步SGD优化,其中权值衰减(Decay)设置为0.0001,冲量(Momentum)设置为0.9,每个批次迭代包含8张训练图像;训练初始时学习率lr设置为0.02,并在经过120k次和160k次迭代后学习率分别下降10倍,最终在第180k次迭代结束训练,同时在前500次迭代中使用更小的学习率lr=0.02×0.3来预热模型的训练;模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失;
(5)模型性能测试,使用测试数据集评估本发明提出的目标检测模型,使用标准评价指标评估模型性能,其中APIoU和ARIoU分别表示在不同IoU阈值下的检测精度和召回率,当IoU取值为0.75时,体现的是检测器的边界框回归能力,当IoU取值为0.5时,检验的是检测器的分类能力;其中APscale和ARscale分别表示不同尺度范围内对象的检测精度;
(6)目标检测模型部署,训练好之后网络模型的输入为一张指定尺度的3通道(RGB)图片,从不同预测特征层上收集不同尺度对象的预测结果,先根据置信度的阈值滤除分类得分比较低的边界框,最后使用NMS非最大一致算法去除重叠度比较高的边界框,得到最终目标检测结果。
上述步骤(2)中,构建密集连接FPN网络模型的具体步骤如下所示:
(2-1)首先保持网络模型中空间分辨率相对于输入图像下降16倍的卷积层之前的网络结构不变,使用空洞卷积(Dilated Convolution)代替随后的下采样卷积,保持特征层的空间分辨率与为输入图像的1/16,依次连续选择四个空间分辨率不变的同时感受野增大的特征层{F1,F2,F3,F4},共同构成FPN的自底向上传输模块;
(2-2)使用密集连接代替原本FPN中的横向连接,通过密集连接融合(Concatenation)所有自底向上传输模块中的所有特征信息,并生成检测不同尺度对象的预测特征层,预测特征层Pi中的特征信息是通过其密集连接融合自底向上传输模块中的特征层{F1,F2,F3,F4}以及当前预测特征层的上一层预测特征层Pi+1得到的,从最顶层P4开始依次迭代,得到检测不同尺度对象的预测特征层{P1,P2,P3,P4};分别与{F1,F2,F3,F4}以对应的预测特征层{P1,P2,P3,P4}共同构成FPN的自顶向下传输模块(Top-down Path);
(2-3)分别使用步骤(2-2)得到的预测特征层{P1,P2,P3,P4}做为不同尺度大小对象检测的边界框回归预测子网络和对象分类预测子网络的输入,得到不同预测特征层像素点处一组预定义边界框的检测结果。
上述步骤(3)中,尺度敏感训练策略是为每个不同感受野的预测特征层分配去对应尺度带下的训练样本,当训练预测特征层Pi时,将落在尺度范围[li,ui]内的预定义边界框选为当前预测特征层Pi的训练正样本,其他则认为是当前预测特征层的训练负样本,其他预测特征层也是如此。
上述步骤(4)中,模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失,该联合损失函数如下:
Figure GDA0002184917860000211
其中N表示步骤(3)中与边界框真实值匹配的预定义边界框的数量,α表示调节分类置信度损失Lcls(x,c)和边界框回归预测损失Lloc(x,l,g)之间权重的权值因子,默认α=0。边界框回归预测损失Lloc(x,l,g)使用Smooth L1损失函数表示,如下式所示:
Figure GDA0002184917860000212
其中
Figure GDA0002184917860000213
为边界框回归预测得到的边界框相对于预定义边界框的偏移量(Offset),其中
Figure GDA0002184917860000214
表示边界框真实值与预定义边界框之间的偏移量,如下式所示:
Figure GDA0002184917860000221
Figure GDA0002184917860000222
对象预测损失Lcls(x,c)用softmax损失函数表示:
Figure GDA0002184917860000223
本发明是对现有FPN目标检测模型的改进,使用空洞卷积代替FPN自底向上传输模块中的下采样卷积,在增加特征层的感受野尺度的同时保持空间分辨率不变小,使用密集连接代替FPN中的横向连接,密集连接能够分别从自底向上传输模块中所有特征层中提取边界框回归的细粒度空间心和从当前预测特征层的上一层预测特征层中获取对象识别所需的高度抽样语义信息,通过训练学习,预测特征层能够通过密集连接从不同的特征层中选择和调制不同尺度对象检测所需的特征信息。
优选例2:
下面结合附图对本发明不同尺度感受野特征层信息融合的目标检测方法的实施方式进行详细说明。
本发明方法以ResNet50网络模型作为目标检测器的基础网络,通过构造密集连接的FPN结构,实现从多层特征层中选择和调制检测不同尺度对象所需的特征信息,其整体网络结构图如附图1所示。本发明提出的目标检测器的训练和部署详细步骤如下:
步骤一:训练数据预处理,使用MS COCO数据集训练目标检测模型,并通过裁剪、旋转、翻转、缩放、形变和加噪等方式增加模型训练的数据量,调整数据集图像尺寸为512×512;
步骤二:搭建目标检测器模型网络,首先保持ResNet50的前4个阶段(Stages){Stage1,Stage2,Stage3,Stage4}的网络结构不变,如附图2(a)(b)(c)所示,在Stage5中使用空洞因子为2、卷积核为3×3的空洞卷积代替原本的卷积核为3×3下采样卷积,保持Stage5的空间分辨率与Stage4相同,同时在Stage5后再增加两个与Stage5结构相同的阶段{Stage6,Stage7};阶段{Stage4,Stage5,Stage6,Stage7}的输入共同构成FPN的自底向上传输模块,使用{F4,F5,F6,F7}表示;
步骤三:使用密集连接代替原本FPN中的横向连接,使用密集连接融合所有自底向上传输模块中的所有特征信息,并生成检测不同尺度对象的预测特征层。以预测特征层P4为例说明特征融合过程,如附图3所示,P4的特征信息是通过其密集连接从特征层{F4,F5,F6,F7}和上一层预测特征层P5中选择和调制得到的,其中F4和P5为主特征层,其他特征层为辅特征层,在特征融合前先使用1×1卷积分别从主特征层{F4,P5}和辅特征层{F5,F6,F7}中抽取通道数为80和32的特征信息,然后以Concatenation的方式融合抽取得到的信息特征,最后同个一个尺度为3×3、通道数为256的卷积层得到预测特征层P4。上述特征层融合过程从最顶层P7开始依次迭代,得到检测不同尺度对象的预测特征层{P4,P5,P6,P7};分别与{F4,F5,F6,F7}以对应的预测特征层{P4,P5,P6,P7}共同构成FPN的自顶向下传输模块(top-downpath);
步骤四:分别使用步骤四得到的预测特征层{P4,P5,P6,P7}做为不同尺度大小对象检测的边界框回归预测子网络和对象分类预测子网络的输入,得到不同预测特征层像素点处一组预定义边界框的检测结果;
步骤五:预定义边界框匹配,在预测特征层像素点处生成6个尺度(1和2)和长宽比(1:1,1:2,2:1)均不同的预定义边界框,每个预定义边界框对应4个位置参数(x,y,w,h)和81个类别概率;在模型训练时,将与数据集中对象的边界框真实值最接近的预定义边界框选为正样本,其余与真实值边界框之间的IoU大于阈值0.5的预定义边界框也选为正样本,剩下的负样本根据边界框内对象的概率排序,从中选出排名靠前的负样本参数模型训练,保持正负样本的比例为1:3;
步骤六:在训练不同感受野尺度的预测特征层时使用尺度敏感训练策略,尺度敏感训练策略是为每个不同感受野的预测特征层分配其对应尺度范围下的训练样本,当训练预测特征层Pi时,则将落在尺度范围[li,ui]内的预定义边界框选为当前预测特征层Pi的训练正样本,其他预定义边界框则认为是当前预测特征层的训练负样本,其他预测特征层也是如此处理;
步骤七:模型训练设置,使用4个NVIDIA 1080Ti GPUs(显存:4×11G)端到端训练本发明提出的目标检测网络模型,训练时采用同步SGD优化,其中权值衰减(Decay)设置为0.0001,冲量(Momentum)设置为0.9,每个批次迭代包含8张训练图像;训练初始时学习率lr设置为0.02,并在经过120k次和160k次迭代后学习率分别下降10倍,最终在第180k次迭代结束训练,同时在前500次迭代中使用更小的学习率lr=0.02×0.3来预热模型的训练;模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失。
步骤八:模型训练时反向优化模型参数的损失函数是边界框回归预测损失和对象类别预测损失的联合损失函数,该联合损失函数如下:
Figure GDA0002184917860000241
其中N表示步骤五中与边界框真实值匹配的预定义边界框的数量,α表示调节分类置信度损失Lcls(x,c)和边界框回归预测损失Lloc(x,l,g)之间权重的权值因子,默认α=0。
边界框回归预测损失Lloc(x,l,g)使用Smooth L1损失函数表示,如下式所示:
Figure GDA0002184917860000242
其中
Figure GDA0002184917860000243
为边界框回归预测得到的边界框相对于预定义边界框的偏移量(offset),其中
Figure GDA0002184917860000244
表示边界框真实值与预定义边界框之间的偏移量,如下式所示:
Figure GDA0002184917860000245
Figure GDA0002184917860000246
对象预测损失Lcls(x,c)用softmax损失函数表示:
Figure GDA0002184917860000247
步骤九:模型性能测试,使用MS COCO测试数据集评估本发明提出的目标检测模型,使用MS COCO标准评价指标评估模型性能,其中ARIoU和ARIoU分别表示在不同IoU阈值下的检测精度和召回率,当IoU取值为0.75时,体现的是检测器的边界框回归能力,当IoU取值为0.5时,体现的是检测器的分类能力;其中APscale和ARscale分别表示不同尺度范围内对象的检测精度和回归率;
步骤十一:目标检测模型部署,训练好之后网络模型的输入为1张尺度为512×512的3通道图片,从不同预测特征层{P4,P5,P6,P7}上收集不同尺度对象的预测结果,先根据置信度的阈值滤除分类得分比较低的边界框,最后使用NMS非最大一致算法去除IoU比较高的边界框,得到最终目标检测结果。
优选例3:
1.一种不同尺度感受野特征层融合的目标检测方法,具体操作步骤如下:
(1)训练数据预处理,使用带标签的训练数据集训练网络模型,通过裁剪、旋转、翻转、缩放、形变和加噪等方式增加训练的数据量,调整训练图像尺寸与模型输入尺度相同;
(2)目标检测器模型网络搭建,以经典网络模型作为目标检测器的网络基础,使用密集连接代替原本特征金字塔网络FPN中的横向连接,通过密集连接融合FPN的自底向上传输模块中所有特征层,来充分获取不同尺度对象目标检测所需的特征信息;
(3)预定义边界框匹配策略,在预测特征层像素点处生成一组尺度和长宽比均不同的预定义边界框,每个预定义边界框对应4个位置参数(x,y,w,h)和分类类别概率;该步骤是从训练数据集中获取用于网络模型训练的数据,并根据本发明的目标检测任务对这些数据做预处理,数据经过预处理之后得到用于模型训练的正负样本。(原始数据不能直接用于模型训练,必须使用经过预处理之后得到的正负样本才能训练模型)
在模型训练时,将与数据集中对象的边界框真实值重叠率最大的预定义边界框选为正样本;除此之外预定义边界框中与边界框真实值(即步骤(1)训练数据集的标签)之间的重叠率(IoU)大于指定阈值的也被选为正样本;其余预定义边界框皆为负样本。根据边界框内对象的概率排序,从中选出排名靠前的负样本参与模型训练,保持正负样本的比例为1:3;
在训练不同感受野尺度的预测特征层时使用尺度敏感训练策略;
(4)模型训练超参数设置,本发明使用多个图形计算能力强的GPU端到端训练,训练时采用同步SGD优化,其中权值衰减(Decay)设置为0.0001,冲量(Momentum)设置为0.9,每个批次迭代包含8张训练图像;训练初始时学习率lr设置为0.02,并在经过120k次和160k次迭代后学习率分别下降10倍,最终在第180k次迭代结束训练,同时在前500次迭代中使用更小的学习率lr=0.02×0.3来预热模型的训练;模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失;此步骤是网络模型超参数的设置,决定模型训练的次数和模型的参数调整的方式。模型训练的超参数设置好之后,就可以用步骤(3)得到的训练数据训练网络模型,训练的过程是实现模型参数的调整(学习)的过程,最终得到能够完成本发明任务的网络模型
(5)模型性能测试,使用测试数据集评估本发明提出的目标检测模型,使用标准评价指标评估模型性能,其中APIoU和ARIoU分别表示在不同IoU阈值下的检测精度和召回率,当IoU取值为0.75时,体现的是检测器的边界框回归能力,当IoU取值为0.5时,检验的是检测器的分类能力;其中APscale和ARscale分别表示不同尺度范围内对象的检测精度;模型性能测试的工作是评估训练好的网络模型的性能好坏,评估网络模型能否满足任务的要求。本步骤的输入是数据集的测试数据集,输出为模型的性能评估结果
(6)训练好之后网络模型的输入为一张指定尺度的3通道(RBG)图片,从不同预测特征层上收集不同尺度对象的预测结果,先根据置信度的阈值滤除分类得分比较低的边界框,最后使用NMS非最大一致算法去除重叠度比较高的边界框,得到最终目标检测结果。
2.根据权利要求1所述的一种不同尺度感受野特征层融合的目标检测方法,其特征在于:所述步骤(2)中,密集连接FPN目标检测网络模型的构建过程如下所示:
(2-1)首先保持网络模型中空间分辨率相对于输入图像下降16倍的卷积层之前的网络结构不变,使用空洞卷积(dilatedconvolution)代替随后的下采样卷积,保持特征层的空间分辨率与为输入图像的1/16,依次从网络模型中连续选择四个空间分辨率不变的同时感受野增大的特征层{F1,F2,F3,F4},共同构成FPN的自底向上传输模块;
(2-2)使用密集连接代替原本FPN中的横向连接,通过密集连接融合(Concatenation)所有自底向上传输模块中的所有特征信息,并生成检测不同尺度对象的预测特征层,预测特征层Pi中的特征信息是通过其密集连接融合自底向上传输模块中的特征层{F1,F2,F3,F4}以及当前预测特征层的上一层预测特征层Pi+1得到的,从最顶层P4开始依次迭代,得到检测不同尺度对象的预测特征层{P1,P2,P3,P4};分别与{F1,F2,F3,F4}以对应的预测特征层{P1,P2,P3,P4}共同构成FPN的自顶向下传输模块(top-downpath);
(2-3)分别使用预测特征层{P1,P2,P3,P4}做多尺度对象检测的边界框回归预测和对象分类预测的输入,得到不同预测特征层像素点处一组预定义边界框的检测结果。
这里的三个步骤是密集连接FPN目标检测网络模型构建的一个过程,三者组合在一起即本发明的网络模型(FPN自底向上传输模块+密集连接+FPN自顶向下传输模块+边界框回归和分类预测)
3.根据权利要求1所述的一种背景帧生成及更新方法,其特征在于:所述步骤(3)中,尺度敏感训练策略是为每个不同感受野的预测特征层分配去对应尺度带下的训练样本,当训练预测特征层Pi时,将落在尺度范围[li,ui]内的预定义边界框选为当前预测特征层Pi的训练正样本,其他则认为是当前预测特征层的训练负样本,其他预测特征层也是如此。
4.根据权利要求1所述的一种背景帧生成及更新方法,其特征在于:所述步骤(4)中,模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失:
Figure GDA0002184917860000261
L(x,c,l,g)表示联合损失函数
N表示表示步骤(3)中与边界框真实值匹配的预定义边界框的数量
Lcls(x,c)表示分类损失函数
α表示调节分类损失Lcls(x,c)和边界框回归预测损失Lloc(x,l,g)之间权重的权值因子;
Lloc(x,l,g)表示定位损失函数
其中N表示步骤(3)中与边界框真实值匹配的预定义边界框的数量,α表示调节分类损失Lcls(x,c)和边界框回归预测损失Lloc(x,l,g)之间权重的权值因子,默认α=0。
边界框回归预测损失Lloc(x,l,g)使用Smooth L1损失函数表示,如下式所示:
Figure GDA0002184917860000271
N表示表示步骤(3)中与边界框真实值匹配的预定义边界框的数量
Pos表示预定义边界框的正样本
i表示预定义边界框的标记
j表示边界框真实值的标记
m∈{cx,cy,w,h}表示边界框的位置参数,cx,cy,w,h分别表示边界框的中心位置的横坐标、纵坐标,以及边界框的长和宽
m表示边界框的位置参数,包括中心位置(cx,cy),长和宽(w,h)
cx表示边界框中心位置横坐标
cy表示边界框中心位置纵坐标
w表示边界框的宽
h表示边界框的高
Figure GDA0002184917860000272
表示第i个预定义边界框与第j个边界框真实值是否相匹配,当值为1时表示匹配,并当二者匹配时,将类别标签p赋予该预定义边界框
SmoothL1表示Smooth L1损失函数
Figure GDA0002184917860000273
表示边界框回归预测得到的边界框l相对于预定义边界框d的偏移量;
Figure GDA0002184917860000274
表示边界框真实值g与预定义边界框d之间的偏移量;
其中
Figure GDA0002184917860000275
为边界框回归预测得到的边界框相对于预定义边界框的偏移量(offset),其中
Figure GDA0002184917860000276
表示边界框真实值与预定义边界框之间的偏移量,如下式所示:
Figure GDA0002184917860000277
Figure GDA0002184917860000278
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的水平cx相对偏移量
Figure GDA0002184917860000281
表示第j个边界框真实值g的中心点横坐标cx
Figure GDA0002184917860000282
表示第i个预定义边界框d的中心点横坐标cx
Figure GDA0002184917860000283
表示第i个预定义边界框d的宽度w
Figure GDA0002184917860000284
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的垂直cy相对偏移量
Figure GDA0002184917860000285
表示第j个边界框真实值g的中心点纵坐标cy
Figure GDA0002184917860000286
表示第i个预定义边界框d的中心点纵坐标cy
Figure GDA0002184917860000287
表示第i个预定义边界框d的高度h
Figure GDA0002184917860000288
表示第j个边界框真实值g与第i个预定义边界框d之间的宽度w相对偏移量
Figure GDA0002184917860000289
表示第j个边界框真实值g的宽度w
Figure GDA00021849178600002810
表示第i个预定义边界框d的宽度w
Figure GDA00021849178600002811
表示第j个边界框真实值g与第i个预定义边界框d之间的高度h相对偏移量
Figure GDA00021849178600002812
表示第j个边界框真实值g的高度h
Figure GDA00021849178600002813
表示第i个预定义边界框d的高度h
对象预测损失Lcls(x,c)用softmax损失函数表示:
Figure GDA00021849178600002814
Lcls(x,c)表示对象分类预测的损失函数
Figure GDA00021849178600002815
表示(上面已经有解释)
Figure GDA00021849178600002816
表示第i个预定义边界框内包含对象的类别属于第p类的概率置信度
Figure GDA00021849178600002817
表示第i个预定义边界框内包含对象的类别属于第p类的概率值
Figure GDA00021849178600002818
表示第i个预定义边界框内包含对象的类别属于第0类(0类表示背景)的概率置信度
Neg表示模型训练时的预定义边界框负样本
Figure GDA00021849178600002819
表示第i个预定义边界框内包含对象的类别属于第p类的置信度对应的softmax损失值
Figure GDA00021849178600002820
表示第i个预定义边界框内包含对象的类别属于第p类的置信度。
在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (8)

1.一种不同尺度感受野特征层融合的目标检测方法,其特征在于,包括:
数据量增加步骤:对带标签的训练数据集进行增量处理,增加训练数据集的数据量,调整训练数据的训练图像尺寸与模型输入尺度相同,获得数据增加后的训练数据集;
目标检测网络模型搭建步骤:以经典网络模型作为目标检测器的网络基础,使用密集连接代替特征金字塔网络FPN中的横向连接,获得密集连接FPN目标检测网络模型;
数据预处理步骤:从获得的数据增加后的训练数据集中获取用于网络模型训练的数据,对这些数据做预处理,获得用于模型训练的正负样本;
模型训练超参数设置步骤:对网络模型的超参数进行设置,输出网络模型的超参数;
模型训练步骤:根据获得的用于模型训练的正负样本、网络模型的超参数,对获得的密集连接FPN目标检测网络模型进行训练,获得训练后的网络模型;
模型性能测试步骤:使用测试数据集评估获得的训练后的网络模型,输出模型的性能评估结果;
目标检测步骤:根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的图片至训练后的网络模型,获得最终目标检测结果;否则,则返回模型训练步骤继续执行;
所述数据量增加步骤:
所述增量处理包括以下任一种或任多种:裁剪、旋转、翻转、缩放、形变、加噪;
所述目标检测器模型网络搭建步骤:
FPN自底向上传输模块构建步骤:保持网络模型中空间分辨率相对于输入图像下降预设n倍的卷积层之前的网络结构不变,使用空洞卷积代替随后的下采样卷积,保持特征层的空间分辨率与为输入图像的1/n,依次连续选择四个空间分辨率不变的同时感受野增大的特征层{F1,F2,F3,F4},共同构成特征金字塔网络FPN的自底向上传输模块;
FPN自顶向下传输模块构建步骤:使用密集连接代替原本特征金字塔网络FPN中的横向连接,通过密集连接融合所有自底向上传输模块中的所有特征信息,并生成检测不同尺度对象的预测特征层,预测特征层Pi中的特征信息是通过其密集连接融合自底向上传输模块中的特征层{F1,F2,F3,F4}以及当前预测特征层的上一层预测特征层Pi+1得到的,从最顶层P4开始依次迭代,得到检测不同尺度对象的预测特征层{P1,P2,P3,P4};分别与{F1,F2,F3,F4}以对应的预测特征层{P1,P2,P3,P4}共同构成特征金字塔网络FPN的自顶向下传输模块;i表示预测特征层的层数;
预定义边界框检测模块构建步骤:分别使用预测特征层{P1,P2,P3,P4}做多尺度对象检测的边界框回归预测和对象分类预测的输入,得到不同预测特征层像素点处一组预定义边界框的检测结果,所述多尺度对象检测的边界框回归预测和对象分类预测构成用于检测不同预测特征层像素点处一组预定义边界框的预定义边界框检测模块;
目标检测器模型网络获得步骤:将获得的特征金字塔网络FPN的自底向上传输模块、特征金字塔网络FPN的自顶向下传输模块及预定义边界框检测模块进行组合,获得目标检测器模型网络。
2.根据权利要求1所述的不同尺度感受野特征层融合的目标检测方法,其特征在于,所述数据预处理步骤:
在预测特征层像素点处生成一组尺度和长宽比均不同的预定义边界框,每个预定义边界框对应4个位置参数和分类类别概率;
在模型训练时,将与数据集中对象的边界框真实值重叠率最大的预定义边界框选为正样本,除此之外预定义边界框中与边界框真实值之间的重叠率IoU大于指定阈值的也被选为正样本,其余预定义边界框皆为负样本;所述边界框真实值为所述带标签的训练数据集的标签;
根据边界框内对象的概率排序,从中选出排名靠前的负样本参与模型训练,保持正负样本的比例为预设比例,获得用于模型训练的正负样本;
在训练不同感受野尺度的预测特征层时使用尺度敏感训练策略;
所述尺度敏感训练策略是:为每个不同感受野的预测特征层分配去对应尺度带下的训练样本,当训练预测特征层Pi时,将落在预设尺度范围[li,ui]内的预定义边界框选为当前预测特征层Pi的训练正样本,除训练正样本以外的其他训练样本则认为是当前预测特征层的训练负样本,除当前预测特征层Pi以外的其他预测特征层也是如此。
3.根据权利要求2所述的不同尺度感受野特征层融合的目标检测方法,其特征在于,所述模型训练超参数设置步骤:
使用多个图形计算能力强的GPU端到端训练,训练时采用同步SGD优化,其中权值衰减设置为预设衰减值,冲量设置为预设冲量,每个批次迭代包含n张训练图像;
训练初始时学习率设置为第一预设学习率,并在经过第一预设次数和第二预设次数迭代后学习率分别下降预设倍数,最终在第三预设次数迭代结束训练,同时在前第四预设次迭代中使用更小的第二预设学习率来预热模型的训练;
模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失:
Figure FDA0002927993330000031
L(x,c,l,g)表示联合损失函数;
N表示表示数据预处理步骤中与边界框真实值匹配的预定义边界框的数量;
Lcls(x,c)表示分类损失函数;
α表示调节分类损失Lcls(x,c)和边界框回归预测损失Lloc(x,l,g)之间权重的权值因子;
Lloc(x,l,g)表示定位损失函数;
边界框回归预测损失Lloc(x,l,g)使用Smooth L1损失函数表示,如下式所示:
Figure FDA0002927993330000032
N表示表示数据预处理步骤中与边界框真实值匹配的预定义边界框的数量;
Pos表示预定义边界框的正样本;
i表示预定义边界框的标记;
j表示边界框真实值的标记;
m∈{cx,cy,w,h}表示边界框的位置参数,cx,cy,w,h分别表示边界框的中心位置的横坐标、纵坐标,以及边界框的长和宽;
m表示边界框的位置参数,包括中心位置(cx,cy),长和宽(w,h);
cx表示边界框中心位置横坐标;
cy表示边界框中心位置纵坐标;
w表示边界框的宽;
h表示边界框的高;
Figure FDA0002927993330000033
表示第i个预定义边界框与第j个边界框真实值是否相匹配,当值为1时表示匹配,并当二者匹配时,将类别标签p赋予该预定义边界框;
SmoothL1表示Smooth L1损失函数;
Figure FDA0002927993330000034
表示边界框回归预测得到的边界框l相对于预定义边界框d的偏移量;
Figure FDA0002927993330000035
表示边界框真实值g与预定义边界框d之间的偏移量,如下式所示:
Figure FDA0002927993330000036
Figure FDA0002927993330000037
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的水平cx相对偏移量;
Figure FDA0002927993330000041
表示第j个边界框真实值g的中心点横坐标cx;
Figure FDA0002927993330000042
表示第i个预定义边界框d的中心点横坐标cx;
Figure FDA0002927993330000043
表示第i个预定义边界框d的宽度w;
Figure FDA0002927993330000044
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的垂直cy相对偏移量;
Figure FDA0002927993330000045
表示第j个边界框真实值g的中心点纵坐标cy;
Figure FDA0002927993330000046
表示第i个预定义边界框d的中心点纵坐标cy;
Figure FDA0002927993330000047
表示第i个预定义边界框d的高度h;
Figure FDA0002927993330000048
表示第j个边界框真实值g与第i个预定义边界框d之间的宽度w相对偏移量;
Figure FDA0002927993330000049
表示第j个边界框真实值g的宽度w;
Figure FDA00029279933300000410
表示第j个边界框真实值g与第i个预定义边界框d之间的高度h相对偏移量;
Figure FDA00029279933300000411
表示第j个边界框真实值g的高度h;
Figure FDA00029279933300000412
表示第i个预定义边界框d的高度h;
对象预测损失Lcls(x,c)用softmax损失函数表示:
Figure FDA00029279933300000413
Lcls(x,c)表示对象分类预测的损失函数;
Figure FDA00029279933300000414
表示第i个预定义边界框内包含对象的类别属于第p类的概率置信度;
Figure FDA00029279933300000415
表示第i个预定义边界框内包含对象的类别属于第p类的概率值;
Figure FDA00029279933300000416
表示第i个预定义边界框内包含对象的类别属于第0类的概率置信度,0类表示背景;
Neg表示模型训练时的预定义边界框负样本;
Figure FDA00029279933300000417
表示第i个预定义边界框内包含对象的类别属于第p类的置信度对应的softmax损失值。
4.根据权利要求3所述的不同尺度感受野特征层融合的目标检测方法,其特征在于,所述模型性能测试步骤:
使用测试数据集评估目标检测模型,使用标准评价指标评估模型性能,其中APIoU和ARIoU分别表示在不同IoU阈值下的检测精度和召回率,当IoU取值为第一阈值时,体现的是检测器的边界框回归能力,当IoU取值为第二阈值时,检验的是检测器的分类能力;
APscale和ARscale分别表示不同尺度范围内对象的检测精度;
所述目标检测步骤:
根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的3通道图片至训练后的网络模型,先根据置信度的阈值滤除分类得分比较低的边界框,最后使用NMS非极大值抑制算法去除重叠度比较高的边界框,获得最终目标检测结果;否则,则返回模型训练步骤继续执行。
5.一种不同尺度感受野特征层融合的目标检测系统,其特征在于,包括:
数据量增加模块:对带标签的训练数据集进行增量处理,增加训练数据集的数据量,调整训练数据的训练图像尺寸与模型输入尺度相同,获得数据增加后的训练数据集;
目标检测网络模型搭建模块:以经典网络模型作为目标检测器的网络基础,使用密集连接代替特征金字塔网络FPN中的横向连接,获得密集连接FPN目标检测网络模型;
数据预处理模块:从获得的数据增加后的训练数据集中获取用于网络模型训练的数据,对这些数据做预处理,获得用于模型训练的正负样本;
模型训练超参数设置模块:对网络模型的超参数进行设置,输出网络模型的超参数;
模型训练模块:根据获得的用于模型训练的正负样本、网络模型的超参数,对获得的密集连接FPN目标检测网络模型进行训练,获得训练后的网络模型;
模型性能测试模块:使用测试数据集评估获得的训练后的网络模型,输出模型的性能评估结果;
目标检测模块:根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的图片至训练后的网络模型,获得最终目标检测结果;否则,则调用模型训练模块;
所述数据量增加模块:
所述增量处理包括以下任一种或任多种:裁剪、旋转、翻转、缩放、形变、加噪;
所述目标检测器模型网络搭建模块:
FPN自底向上传输模块构建模块:保持网络模型中空间分辨率相对于输入图像下降预设n倍的卷积层之前的网络结构不变,使用空洞卷积代替随后的下采样卷积,保持特征层的空间分辨率与为输入图像的1/n,依次连续选择四个空间分辨率不变的同时感受野增大的特征层{F1,F2,F3,F4},共同构成特征金字塔网络FPN的自底向上传输模块;
FPN自顶向下传输模块构建模块:使用密集连接代替原本特征金字塔网络FPN中的横向连接,通过密集连接融合所有自底向上传输模块中的所有特征信息,并生成检测不同尺度对象的预测特征层,预测特征层Pi中的特征信息是通过其密集连接融合自底向上传输模块中的特征层{F1,F2,F3,F4}以及当前预测特征层的上一层预测特征层Pi+1得到的,从最顶层P4开始依次迭代,得到检测不同尺度对象的预测特征层{P1,P2,P3,P4};分别与{F1,F2,F3,F4}以对应的预测特征层{P1,P2,P3,P4}共同构成特征金字塔网络FPN的自顶向下传输模块;i表示预测特征层的层数;
预定义边界框检测模块构建模块:分别使用预测特征层{P1,P2,P3,P4}做多尺度对象检测的边界框回归预测和对象分类预测的输入,得到不同预测特征层像素点处一组预定义边界框的检测结果,所述多尺度对象检测的边界框回归预测和对象分类预测构成用于检测不同预测特征层像素点处一组预定义边界框的预定义边界框检测模块;
目标检测器模型网络获得模块:将获得的特征金字塔网络FPN的自底向上传输模块、特征金字塔网络FPN的自顶向下传输模块及预定义边界框检测模块进行组合,获得目标检测器模型网络。
6.根据权利要求5所述的不同尺度感受野特征层融合的目标检测系统,其特征在于,所述数据预处理模块:
在预测特征层像素点处生成一组尺度和长宽比均不同的预定义边界框,每个预定义边界框对应4个位置参数和分类类别概率;
在模型训练时,将与数据集中对象的边界框真实值重叠率最大的预定义边界框选为正样本,除此之外预定义边界框中与边界框真实值之间的重叠率IoU大于指定阈值的也被选为正样本,其余预定义边界框皆为负样本;所述边界框真实值为所述带标签的训练数据集的标签;
根据边界框内对象的概率排序,从中选出排名靠前的负样本参与模型训练,保持正负样本的比例为预设比例,获得用于模型训练的正负样本;
在训练不同感受野尺度的预测特征层时使用尺度敏感训练策略;
所述尺度敏感训练策略是:为每个不同感受野的预测特征层分配去对应尺度带下的训练样本,当训练预测特征层Pi时,将落在预设尺度范围[li,ui]内的预定义边界框选为当前预测特征层Pi的训练正样本,除训练正样本以外的其他训练样本则认为是当前预测特征层的训练负样本,除当前预测特征层Pi以外的其他预测特征层也是如此。
7.根据权利要求6所述的不同尺度感受野特征层融合的目标检测系统,其特征在于,所述模型训练超参数设置模块:
使用多个图形计算能力强的GPU端到端训练,训练时采用同步SGD优化,其中权值衰减设置为预设衰减值,冲量设置为预设冲量,每个批次迭代包含n张训练图像;
训练初始时学习率设置为第一预设学习率,并在经过第一预设次数和第二预设次数迭代后学习率分别下降预设倍数,最终在第三预设次数迭代结束训练,同时在前第四预设次迭代中使用更小的第二预设学习率来预热模型的训练;
模型训练时反向调参的损失函数是边界框回归预测和对象类别预测的联合损失:
Figure FDA0002927993330000071
L(x,c,l,g)表示联合损失函数;
N表示表示数据预处理模块中与边界框真实值匹配的预定义边界框的数量;
Lcls(x,c)表示分类损失函数;
α表示调节分类损失Lcls(x,c)和边界框回归预测损失Lloc(x,l,g)之间权重的权值因子;
Lloc(x,l,g)表示定位损失函数;
边界框回归预测损失Lloc(x,l,g)使用Smooth L1损失函数表示,如下式所示:
Figure FDA0002927993330000072
N表示表示数据预处理模块中与边界框真实值匹配的预定义边界框的数量;
Pos表示预定义边界框的正样本;
i表示预定义边界框的标记;
j表示边界框真实值的标记;
m∈{cx,cy,w,h}表示边界框的位置参数,cx,cy,w,h分别表示边界框的中心位置的横坐标、纵坐标,以及边界框的长和宽;
m表示边界框的位置参数,包括中心位置(cx,cy),长和宽(w,h);
cx表示边界框中心位置横坐标;
cy表示边界框中心位置纵坐标;
w表示边界框的宽;
h表示边界框的高;
Figure FDA0002927993330000073
表示第i个预定义边界框与第j个边界框真实值是否相匹配,当值为1时表示匹配,并当二者匹配时,将类别标签p赋予该预定义边界框;
SmoothL1表示Smooth L1损失函数;
Figure FDA0002927993330000081
表示边界框回归预测得到的边界框l相对于预定义边界框d的偏移量;
Figure FDA0002927993330000082
表示边界框真实值g与预定义边界框d之间的偏移量,如下式所示:
Figure FDA0002927993330000083
Figure FDA0002927993330000084
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的水平cx相对偏移量;
Figure FDA0002927993330000085
表示第j个边界框真实值g的中心点横坐标cx;
Figure FDA0002927993330000086
表示第i个预定义边界框d的中心点横坐标cx;
Figure FDA0002927993330000087
表示第i个预定义边界框d的宽度w;
Figure FDA0002927993330000088
表示第j个边界框真实值g中心点与第i个预定义边界框d中心点之间的垂直cy相对偏移量;
Figure FDA0002927993330000089
表示第j个边界框真实值g的中心点纵坐标cy;
Figure FDA00029279933300000810
表示第i个预定义边界框d的中心点纵坐标cy;
Figure FDA00029279933300000811
表示第i个预定义边界框d的高度h;
Figure FDA00029279933300000812
表示第j个边界框真实值g与第i个预定义边界框d之间的宽度w相对偏移量;
Figure FDA00029279933300000813
表示第j个边界框真实值g的宽度w;
Figure FDA00029279933300000814
表示第j个边界框真实值g与第i个预定义边界框d之间的高度h相对偏移量;
Figure FDA00029279933300000815
表示第j个边界框真实值g的高度h;
Figure FDA00029279933300000816
表示第i个预定义边界框d的高度h;
对象预测损失Lcls(x,c)用softmax损失函数表示:
Figure FDA00029279933300000817
Lcls(x,c)表示对象分类预测的损失函数;
Figure FDA00029279933300000818
表示第i个预定义边界框内包含对象的类别属于第p类的概率置信度;
Figure FDA00029279933300000819
表示第i个预定义边界框内包含对象的类别属于第p类的概率值;
Figure FDA00029279933300000820
表示第i个预定义边界框内包含对象的类别属于第0类的概率置信度,0类表示背景;
Neg表示模型训练时的预定义边界框负样本;
Figure FDA0002927993330000091
表示第i个预定义边界框内包含对象的类别属于第p类的置信度对应的softmax损失值;
所述模型性能测试模块:
使用测试数据集评估目标检测模型,使用标准评价指标评估模型性能,其中APIoU和ARIoU分别表示在不同IoU阈值下的检测精度和召回率,当IoU取值为第一阈值时,体现的是检测器的边界框回归能力,当IoU取值为第二阈值时,检验的是检测器的分类能力;
APscale和ARscale分别表示不同尺度范围内对象的检测精度;
所述目标检测模块:
根据获得的模型的性能评估结果,判断模型是否训练完成:若是,则输入指定尺度的3通道图片至训练后的网络模型,先根据置信度的阈值滤除分类得分比较低的边界框,最后使用NMS非极大值抑制算法去除重叠度比较高的边界框,获得最终目标检测结果;否则,则调用模型训练模块。
8.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的不同尺度感受野特征层融合的目标检测方法的步骤。
CN201910388672.7A 2019-05-10 2019-05-10 不同尺度感受野特征层融合的目标检测方法、系统及介质 Active CN110321923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910388672.7A CN110321923B (zh) 2019-05-10 2019-05-10 不同尺度感受野特征层融合的目标检测方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910388672.7A CN110321923B (zh) 2019-05-10 2019-05-10 不同尺度感受野特征层融合的目标检测方法、系统及介质

Publications (2)

Publication Number Publication Date
CN110321923A CN110321923A (zh) 2019-10-11
CN110321923B true CN110321923B (zh) 2021-05-04

Family

ID=68118987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910388672.7A Active CN110321923B (zh) 2019-05-10 2019-05-10 不同尺度感受野特征层融合的目标检测方法、系统及介质

Country Status (1)

Country Link
CN (1) CN110321923B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796037B (zh) * 2019-10-15 2022-03-15 武汉大学 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法
CN110880035B (zh) * 2019-11-14 2020-12-01 北京推想科技有限公司 卷积神经网络的训练方法、装置及结节征象识别方法、装置
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111046928B (zh) * 2019-11-27 2023-05-23 上海交通大学 定位精准的单阶段实时通用目标检测器及方法
CN111079623A (zh) * 2019-12-09 2020-04-28 成都睿沿科技有限公司 一种目标检测方法、装置及存储介质
CN111126202B (zh) * 2019-12-12 2022-03-04 天津大学 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN111079638A (zh) * 2019-12-13 2020-04-28 河北爱尔工业互联网科技有限公司 基于卷积神经网络的目标检测模型训练方法、设备和介质
CN111128355B (zh) * 2019-12-20 2024-04-26 创业慧康科技股份有限公司 一种目标事件评估方法及装置
CN111079754A (zh) * 2019-12-26 2020-04-28 上海交通大学 一种基于增强现实眼镜的信息显示方法
CN111126399B (zh) * 2019-12-28 2022-07-26 苏州科达科技股份有限公司 一种图像检测方法、装置、设备及可读存储介质
CN111209829B (zh) * 2019-12-31 2023-05-02 浙江大学 基于视觉的移动视体静态中小尺度目标识别方法
CN111311475A (zh) * 2020-02-21 2020-06-19 广州腾讯科技有限公司 检测模型训练方法、装置、存储介质和计算机设备
CN111310839A (zh) * 2020-02-24 2020-06-19 广州柏视数据科技有限公司 一种钼靶图像中乳头位置的检测方法及系统
CN111598942A (zh) * 2020-03-12 2020-08-28 中国电力科学研究院有限公司 一种用于对电力设施仪表进行自动定位的方法及系统
CN111462051B (zh) * 2020-03-14 2022-09-27 华中科技大学 一种基于深度神经网络的布匹疵点检测方法和系统
CN111507248B (zh) * 2020-04-16 2023-05-26 成都东方天呈智能科技有限公司 一种低分辨热力图的人脸额头区域检测与定位方法及其系统
CN111523494A (zh) * 2020-04-27 2020-08-11 天津中科智能识别产业技术研究院有限公司 一种人体图像检测方法
CN111652288B (zh) * 2020-05-11 2023-08-01 北京航天自动控制研究所 一种基于稠密特征金字塔的改进型ssd小目标检测方法
CN111612065A (zh) * 2020-05-21 2020-09-01 中山大学 一种基于比率自适应池化的多尺度特征物体检测算法
CN112070713A (zh) * 2020-07-03 2020-12-11 中山大学 一种引入attention机制的多尺度目标检测方法
CN111985325B (zh) * 2020-07-15 2023-04-07 国网河南省电力公司 特高压环境评价中的航拍小目标快速识别方法
CN112270216A (zh) * 2020-10-13 2021-01-26 南京佑驾科技有限公司 改进的Densebox目标检测方法、装置及存储介质
CN112418271A (zh) * 2020-10-28 2021-02-26 北京迈格威科技有限公司 一种目标检测方法、装置、系统及存储介质
CN112613359B (zh) * 2020-12-09 2024-02-02 苏州玖合智能科技有限公司 用于人员异常行为检测的神经网络的构建方法
CN112651500B (zh) * 2020-12-30 2021-12-28 深圳金三立视频科技股份有限公司 一种量化模型的生成方法及终端
CN113033638A (zh) * 2021-03-16 2021-06-25 苏州海宸威视智能科技有限公司 一种基于感受野感知的无锚点框目标检测方法
CN112926531B (zh) * 2021-04-01 2023-09-26 深圳市优必选科技股份有限公司 特征信息提取方法、模型训练方法、装置及电子设备
CN113221659B (zh) * 2021-04-13 2022-12-23 天津大学 一种基于不确定感知网络的双光车辆检测方法及装置
CN113221761B (zh) * 2021-05-17 2023-09-05 深圳大学 基于集成式Yolo网络的iPSCs群落检测方法、存储介质及装置
CN113205152B (zh) * 2021-05-24 2023-12-22 西安邮电大学 一种环视融合的特征融合方法
CN114332638B (zh) * 2021-11-03 2023-04-25 中科弘云科技(北京)有限公司 遥感图像目标检测方法、装置、电子设备及介质
CN114943888B (zh) * 2022-03-24 2023-05-30 中国人民解放军海军大连舰艇学院 基于多尺度信息融合的海面小目标检测方法
CN115272648B (zh) * 2022-09-30 2022-12-20 华东交通大学 用于小目标检测的多层级感受野扩展方法与系统
CN115641518B (zh) * 2022-10-09 2023-09-26 山东巍然智能科技有限公司 一种无人机用视图感知网络模型及目标检测方法
CN116596904B (zh) * 2023-04-26 2024-03-26 国网江苏省电力有限公司泰州供电分公司 一种基于自适应尺度感知的输电检测模型构建方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934346A (zh) * 2017-01-24 2017-07-07 北京大学 一种目标检测性能优化的方法
CN108182456A (zh) * 2018-01-23 2018-06-19 哈工大机器人(合肥)国际创新研究院 一种基于深度学习的目标检测模型及其训练方法
CN108416394A (zh) * 2018-03-22 2018-08-17 河南工业大学 基于卷积神经网络的多目标检测模型构建方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109118491A (zh) * 2018-07-30 2019-01-01 深圳先进技术研究院 一种基于深度学习的图像分割方法、系统及电子设备
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN109614985A (zh) * 2018-11-06 2019-04-12 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
CN109647914A (zh) * 2019-01-24 2019-04-19 燕山大学 热轧板带液氮超快冷装置
EP3480786A1 (en) * 2017-11-03 2019-05-08 Siemens Healthcare GmbH Medical image object detection with dense feature pyramid network architecture in machine learning

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190043193A1 (en) * 2017-08-01 2019-02-07 Retina-Ai Llc Systems and Methods Using Weighted-Ensemble Supervised-Learning for Automatic Detection of Retinal Disease from Tomograms

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934346A (zh) * 2017-01-24 2017-07-07 北京大学 一种目标检测性能优化的方法
EP3480786A1 (en) * 2017-11-03 2019-05-08 Siemens Healthcare GmbH Medical image object detection with dense feature pyramid network architecture in machine learning
CN108182456A (zh) * 2018-01-23 2018-06-19 哈工大机器人(合肥)国际创新研究院 一种基于深度学习的目标检测模型及其训练方法
CN108416394A (zh) * 2018-03-22 2018-08-17 河南工业大学 基于卷积神经网络的多目标检测模型构建方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109118491A (zh) * 2018-07-30 2019-01-01 深圳先进技术研究院 一种基于深度学习的图像分割方法、系统及电子设备
CN109614985A (zh) * 2018-11-06 2019-04-12 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN109647914A (zh) * 2019-01-24 2019-04-19 燕山大学 热轧板带液氮超快冷装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Densely Connected Convolutional Networks;Huang, Gao et al;《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition》;20180128;第1-9页 *
Multi-Scale Context Aggregation by Dilated Convolutions;Fisher Yu et al;《Computer Vision and Pattern Recognition》;20160430;第1-13页 *
基于轻量化模型SEM-FPN的多尺度移动目标识别方法研究;金俊波;《万方数据平台》;20181218;第1-71页 *
改进的SSD算法及其对遥感影像小目标检测性能的分析;王俊强等;《光学学报》;20190319(第06期);第373-382页 *

Also Published As

Publication number Publication date
CN110321923A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110321923B (zh) 不同尺度感受野特征层融合的目标检测方法、系统及介质
CN109522966B (zh) 一种基于密集连接卷积神经网络的目标检测方法
CN113034478B (zh) 一种基于深度学习网络的焊缝缺陷识别定位方法、系统
US10282589B2 (en) Method and system for detection and classification of cells using convolutional neural networks
CN108830285B (zh) 一种基于Faster-RCNN的加强学习的目标检测方法
CN107247956B (zh) 一种基于网格判断的快速目标检测方法
CN105590099B (zh) 一种基于改进卷积神经网络的多人行为识别方法
CN108711148B (zh) 一种基于深度学习的轮胎缺陷智能检测方法
Cepni et al. Vehicle detection using different deep learning algorithms from image sequence
CN110222604A (zh) 基于共享卷积神经网络的目标识别方法和装置
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN111738114B (zh) 基于无锚点精确采样遥感图像车辆目标检测方法
CN110490155B (zh) 一种禁飞空域无人机检测方法
CN113223027A (zh) 基于PolarMask的未成熟柿子分割方法及系统
CN115439458A (zh) 基于深度图注意力的工业图像缺陷目标检测算法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN114359245A (zh) 一种工业场景下产品表面缺陷检测方法
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN115147745A (zh) 一种基于城市无人机图像的小目标检测方法
CN114241250A (zh) 一种级联回归目标检测方法、装置及计算机可读存储介质
CN116630301A (zh) 基于超分辨率和YOLOv8的带钢表面小目标缺陷检测方法及系统
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
CN115937736A (zh) 基于注意力和上下文感知的小目标检测方法
CN114170526A (zh) 基于轻量化网络的遥感影像多尺度目标检测识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant