CN113378905A - 一种基于分布距离的小目标检测方法 - Google Patents

一种基于分布距离的小目标检测方法 Download PDF

Info

Publication number
CN113378905A
CN113378905A CN202110623154.6A CN202110623154A CN113378905A CN 113378905 A CN113378905 A CN 113378905A CN 202110623154 A CN202110623154 A CN 202110623154A CN 113378905 A CN113378905 A CN 113378905A
Authority
CN
China
Prior art keywords
target detection
image
frame
small target
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110623154.6A
Other languages
English (en)
Other versions
CN113378905B (zh
Inventor
杨文�
王金旺
徐畅
夏桂松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110623154.6A priority Critical patent/CN113378905B/zh
Publication of CN113378905A publication Critical patent/CN113378905A/zh
Application granted granted Critical
Publication of CN113378905B publication Critical patent/CN113378905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于分布距离的小目标检测方法。本发明构建小目标检测图像数据集;人工标注所述小目标检测数据集中每幅图像的目标标记框以及目标类别;构建基于分布距离的小目标检测网络,将小目标检测数据集作为输入数据,结合小目标检测训练集中的目标类型,构建基于分布距离的小目标检测网络损失函数,通过随机梯度下降算法训练得到优化后的基于分布距离的小目标检测网络,使用优化后的网络检测图片中的小目标。本发明在目标较小的时候,检测性能得到了提升。

Description

一种基于分布距离的小目标检测方法
技术领域
本发明属于图像处理技术领域,特别是涉及一种基于分布距离的小目标检测方法。
背景技术
目标检测是计算机视觉领域的一个重要研究方向,指的是对视觉传感器获取的图像中的目标进行分类和定位。随着深度学习和卷积神经网络的发展,目标检测的性能获得了前所未有的进步。小目标检测或者称之为小尺度目标检测,即小于32*32像素的目标的检测,是目标检测的一个分支,相关算法在遥感,辅助驾驶,灾难救援中有着广泛的应用。
然而,目前小目标检测仍然极具挑战,由于小目标像素少,特征少,易与背景混淆的特性,主流的目标检测算法在小目标检测任务上的性能依然远低于预期水平。小目标检测算法的局限性主要集中在以下方面:目标检测中最常用的度量预测框和标注框之间位置关系的指标,交并比(IoU),对于小目标在图像上的定位误差过于敏感的问题,即预测框微小的像素偏移将会导致IoU的急剧变化;对于基于锚框的两阶段目标检测算法,其一般使用候选区域生成网络(Region Proposal Network,RPN)生成目标的候选区域。在对RPN进行训练时,需要使用正负样本分配模块从预设的一系列具有不同尺寸和长宽比的锚框中挑选出正样本锚框和负样本锚框。具体来说,锚框的类别根据其与标注框之间IoU来决定,当IoU值大于给定正样本阈值时,该锚框是正样本,而当IoU值小于给定负样本阈值时,该锚框是负样本。然而,IoU对小目标的敏感性导致在正负样本分配过程中,很多正样本锚框都被错误的归类为负样本,也就是正负样本的质量不高,进而使得检测器的检测性能较低;对于损失函数,常用的L1 Loss,Smooth L1 Loss,IoU Loss等存在对小目标敏感以及小目标的损失占主导地位的问题;对于非极大值抑制(NMS)操作,IoU对小目标的敏感性导致NMS模块将某些正确的预测框视为冗余矩形框。
国内外提高小目标检测性能的方法主要分为以下几类:基于尺度特征的检测、基于上下文信息的检测、设计更好的训练策略等。其中主流的多尺度特征学习方法包括图像金字塔和特征金字塔。对于图像金字塔,其对输入图像进行缩放,构建一系列不同尺度的图像,并用于训练多个目标检测器。对于特征金字塔,其将卷积神经网络提取的深层特征和浅层特征进行融合,使得浅层特征在具有丰富定位信息的同时具有丰富的语义特征,可以在不带来太多额外开销的情况下显著提高小物体检测精度。基于上下文信息的检测方法主要有Hu等人提出的能够学习目标关系的检测网络,其利用目标的外观特征和几何特征建立能够反映目标间关联模式的关系网络,在一定程度上提高了小目标的检测性能。设计更好训练的策略的方法包括降低分配正负样本时的IoU门限、根据目标的统计特征自动划定IoU门限进而自动选择正样本和负样本的方法等。虽然这些方法一定程度上提高了小目标检测的性能,但是这些方法几乎全部使用IoU作为正负样本分配模块和非极大值抑制模块的度量指标,并没有从本质上解决小目标对IoU非常敏感导致检测器性能下降的问题。
发明内容
本发明的目的在于提供一种基于分布距离的小目标检测方法,该方法解决了IoU度量指标对小目标过于敏感的问题,提高了小目标检测算法的性能。
本发明提供体一种基于分布距离的小目标检测方法,其特征在于,包括以下具体步骤:
步骤1:构建小目标检测图像数据集;
步骤2:人工标注步骤1中所述小目标检测数据集中每幅图像的目标标记框以及目标类别;
步骤3:构建基于分布距离的小目标检测网络,将步骤2中所述小目标检测数据集作为输入数据,结合小目标检测训练集中的目标类型,构建基于分布距离的小目标检测网络损失函数,通过随机梯度下降算法训练得到优化后的基于分布距离的小目标检测网络;
作为优选,步骤1所述小目标检测图像数据集为:
{trains(p,q),s∈[1,S],p∈[1,P],q∈[1,Q]}
其中trains(p,q)表示小目标图像数据集中第s幅图像第p行q列的像素信息,S表示小目标检测数据集中所有图像样本的数量,P为小目标检测数据集中每张图像的像素行数,Q为小目标检测数据集中每张图像的像素列数;
作为优选,步骤2中所述小目标检测数据集中每幅图像的目标标记框坐标为:
Figure BDA0003100851170000031
Figure BDA0003100851170000032
Figure BDA0003100851170000033
其中,S表示小目标检测数据集中所有图片的数量,Ks表示小目标检测图像数据集中第s幅图像中小目标标记框的总数;boxs,k表示小目标检测数据集中第s幅图像中第k个车厢故障标记框的坐标,
Figure BDA0003100851170000034
表示小目标检测数据集中第s幅中第k个目标标记框左上角的坐标,
Figure BDA0003100851170000035
表示小目标检测数据集中第s幅图像中第k个目标标记框左上角的横坐标,
Figure BDA0003100851170000036
表示小目标检测数据集中第s幅图像中第k个目标标记框左上角的纵坐标;
Figure BDA0003100851170000037
表示小目标检测数据集中第s幅图像中第k个目标标记框的尺寸,ws,k表示小目标检测数据集中第s幅图像中第k个目标标记框的宽度,hs,k表示小目标检测数据集中第s幅图像中第k个目标标记框的高度;
步骤2所述小目标检测数据集中每幅图像的目标标记框类别信息为:
labels,k,c,s∈[1,S],k∈[1,K],c∈[1,C]
其中,C为小目标检测数据集中目标类型的总数;labels,k,c表示小目标检测数据集中第s幅图像的第k个目标标记框属于第c种目标类型;
步骤2所述小目标检测的训练集为:
{trains(p,q),(boxs,k,labels,k,c)}
s∈[1,S],p∈[1,P],q∈[1,Q],k∈[1,Ks],c∈]1,C]
其中,trains(p,q)表示基于分布距离的小目标检测网络训练集中第s幅图像第p行第q列的像素信息,boxs,k表示基于分布距离的小目标检测网络训练集中第s幅图像中第k个目标标记框的位置坐标,labels,k,c表示基于分布距离的小目标检测网络训练集中第s幅图像第k个目标标记框属于第c种目标类型;S表示基于分布距离的小目标检测网络训练集中所有图像样本的数量,P为基于分布距离的小目标检测网络训练集中每幅图像的像素行数,N为基于分布距离的小目标检测网络训练集中每幅图像的像素列数,Ks表示基于分布距离的小目标检测网络训练集中第s幅图像中目标标记框的总数,C为基于分布距离的小目标检测网络训练集中的目标类型总数;
作为优选,步骤3中所述基于分布距离的小目标检测网络具体包括:具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络。
所述具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、FastR-CNN网络之间均为串行级联。
所述具有金字塔结构的特征提取网络使用ResNet-50-FPN作为特征提取网络,网络输入为所述步骤2中的小目标检测训练集的单张图片trains(p,q),输出数据为{F1(P1×Q1×C1),F2(P2×Q2×C2),...,FL(PL×QL×CL)}共L种不同尺度的特征图,其中Pi,Qi,Ci分别是第i层特征图的宽度,高度和通道数。
所述基于分布距离的候选区域生成网络的搭建步骤如下:该网络的输入为{F1(P1×Q1×C1),F2(P2×Q2×C2),...,FL(PL×QL×CL)}共L种不同尺度的特征图。首先在特征金字塔第一层F1上以各像素点为中心密集的铺设具有3种长宽比(a,b,c)且面积均为S1的基础锚框,锚框集合记为A1,接着在其他各层Fi上铺设锚框Ai,各层上的锚框边长与基础锚框边长的比值与特征图采样倍率
Figure BDA0003100851170000041
一致。为了训练候选区域生成网络中的分类和回归分支,需要将生成的锚框分为正样本和负样本送入后续网络参与训练。当锚框符合以下两种情况其中之一时,将正样本标签分配给此锚框:
该锚框与某标注框的归一化高斯Wasserstein距离的值是所有锚框中最大的;
该锚框与某标注框的归一化高斯Wasserstein距离值大于人为设定的正样本阈值αp
如果该锚框与所有标注框的归一化高斯Wasserstein距离值均低于人为设定的负样本阈值αn,则将负样本标签分配给该锚框。如果一个锚框既没有分配到正样本标签也没有分配到负样本标签,则该锚框不参与训练。为了更加清晰的说明基于分布距离的正负样本分配算法,其伪代码如图2所示。首先输入标注框集合G,特征金子塔层级L,第i层特征图中的锚框集合Ai,所有锚框集合A,正样本阈值αp,负样本阈值αn。接着,将存放正样本和负样本的集合P、N初始化为空集。然后,对于输入图片中的每一个标注框g,在L层特征金字塔上的每一层,计算标注框g与锚框Ai之间的NWD并将该值存入集合Dg,计算Dg中最大值所对应的锚框索引m,将{Aim}加入正样本集合P。并且,对于锚框集合Ai中的锚框a,判断a和标注框g之间的NWD值是否大于正样本阈值αp,如果大于αp则将a加入正样本集合P;判断a和标注框g之间的NWD是否小于负样本阈值αn,如果小于αn则将a加入负样本集合N。在遍历所有特征金字塔层级,遍历所有标注框后,输出正样本集合P和负样本集合N。
在使用正负样本对网络进行训练后,网络可以预测出图像中大量目标的候选区域矩形框集合B,对应的矩形框的得分集合S,然后使用基于分布距离的非极大值抑制操作删除大量冗余候选区域矩形框。具体的,针对网络输出的某一类别c的矩形框集合
Figure BDA0003100851170000051
对应的矩形框的得分集合
Figure BDA0003100851170000052
选择预测得分最大的矩形框
Figure BDA0003100851170000053
并原始得分,然后计算
Figure BDA0003100851170000054
和其它矩形框
Figure BDA0003100851170000055
的归一化高斯Wasserstein距离值,如果该值大于0.5,说明矩形框
Figure BDA0003100851170000056
Figure BDA0003100851170000057
的相似度过高,
Figure BDA0003100851170000058
的得分设为0,如果该值不大于0.5,则保留原始得分;这样一轮后,再选择剩下矩形框的中得分最大的那个框并保留,然后计算该框和其它矩形框的归一化高斯Wasserstein距离,重复以上过程直到遍历完B中的每一个矩形框,输出经非极大值抑制后保留的矩形框集合B,以及矩形框的分数集合S;
所述Fast R-CNN网络,将候选区域生成网络生成的矩形框集合B进行RoI池化操作,提取矩形框对应区域的特征,紧接着使用该特征对矩形框进行分类和回归,对网络权重进行优化;
具体的,所述步骤3中归一化高斯Wasserstein距离值的计算公式为:
Figure BDA0003100851170000059
其中,NWD表示归一化高斯Wasserstein距离,C为一个归一化常量,用于消除距离的量纲,可以设置为数据集的平均绝对尺度,W2(Na,Nb)2表示二元高斯分布Na和Nb之间的2阶Wasserstein距离,二元高斯分布Ns,k使用矩形框
Figure BDA0003100851170000061
的参数进行建模,其中二元高斯分布的期望为R的中心点坐标(cxs,k,cys,k),中心点坐标的计算公式为:
Figure BDA0003100851170000062
其中,
Figure BDA0003100851170000063
为矩形边框的左上角点的横坐标和纵坐标,ws,k,hs,k分别指该边界框的宽度和高度。
协方差为矩形框的宽度和高度的一半即(ws,k/2,hs,k/2),由此可得W2(Na,Nb)2的计算公式为:
Figure BDA0003100851170000064
其中,(cxa,cya,wa,ha)和(cxb,cyb,wb,cyb)分别表示矩形框A和B的位置参数。
具体的,所述步骤3中基于分布距离的候选区域生成网络,其分类损失函数为交叉熵损失函数:
Figure BDA0003100851170000065
其中,y是目标的类别,p是相应类别的置信度。基于分布距离的候选区域生成网络的回归损失函数为归一化高斯Wasserstein距离损失函数,其计算公式为:
Figure BDA0003100851170000066
其中,W2(Ni,Ns,k)2表示二元高斯分布Ni和Ns,k之间的2阶Wasserstein距离,其计算公式为:
Figure BDA0003100851170000067
其中,ai=(cxi,cyi,wi,hi)和boxs,k=(cxs,k,cys,k,ws,k,hs,k)分别表示锚框和标注框的位置。
所述基于分布距离的候选区域生成网络损失函数为分类与回归损失函数之和:
Figure BDA0003100851170000068
具体的,所述步骤3中Fast R-CNN网络损失函数保留原网络损失函数。
步骤4:将待识别的图像输入优化后的基于分布距离的小目标检测网络中,经过有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、FastR-CNN网络,再经非极大值抑制操作后得到最终识别结果:
{pboxm,n,pclassm,n,c},m∈[1,M],n∈[1,Nm],c∈[1,C]
Figure BDA0003100851170000071
Figure BDA0003100851170000072
其中,l表示待识别图像上的左,t表示待识别图像上的上,r表示待识别图像上的右,b表示待识别图像上的下,M表示待识别的图片数量,Nm表示待识别的第m张图片中的预测框数量,C表示目标类别数量;pboxm,n表示第m个待识别图像中第n个预测框的坐标,
Figure BDA0003100851170000073
表示第m个待识别图像中第n个预测框预测框左上角的横坐标,
Figure BDA0003100851170000074
表示第m个待识别图像中第n个预测框预测框左上角的纵坐标;pwm,n表示第m个待识别图像中第n个预测框预测框的宽度,phm,n表示第m个待识别图像中第n个预测框的高度,pclassm,n,c表示第m个待识别图像中第n个预测框属于类别c的置信度pclassm,n,c∈[0,1]。
本发明提供一种基于分布距离的小目标检测方法,在目标较小的时候,检测性能得到了提升。
附图说明
图1:为本方法的网络结构图;
图2:为基于分布距离的正负样本分配算法的伪代码图;
图3:为基于分布距离的非极大值抑制算法的伪代码图;
图4:为本方法与其他目标检测算法的检测对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
交并比(IoU)因其简便的表达形式与归一化的值域,被广泛的应用在各种目标检测算法中以度量预测框和标注框之间的位置关系。但是当目标较小(小于32*32像素)时,IoU存在敏感的问题,预测框微小的像素偏移会导致IoU的急剧变化,进而恶化目标检测网络各个部分的性能。因此,本发明提出使用归一化高斯Wasserstein距离(NWD)度量预测框和标注框之间的位置关系,该测度具有尺度不变性,并设计了基于分布距离的候选区域生成网络,提高正负样本的分配质量;设计了基于分布距离的非极大值抑制方法,提高了小目标非极大值抑制的质量;设计了基于分布距离的损失函数,引导网络更好的回归,共同提高了小目标检测的准确率。所以,本发明提出一种基于分布距离的小目标检测方法。
下面结合附图对本发明作详细说明。
实施例一
该方法具体包括以下步骤:
步骤1:构建小目标检测图像数据集,该数据集为:
{trains(p,q),s∈[1,S],p∈[1,P],q∈[1,Q]}
其中trains(p,q)表示小目标图像数据集中第s幅图像第p行q列的像素信息,S表示小目标检测数据集中所有图像样本的数量,P为小目标检测数据集中每张图像的像素行数,Q为小目标检测数据集中每张图像的像素列数;
步骤2:人工标注步骤1中所述小目标检测数据集中每幅图像的目标标记框以及目标类别;
步骤2中所述小目标检测数据集中每幅图像的目标标记框坐标为:
Figure BDA0003100851170000081
Figure BDA0003100851170000082
Figure BDA0003100851170000083
其中,S表示小目标检测数据集中所有图片的数量,Ks表示小目标检测图像数据集中第s幅图像中小目标标记框的总数;boxs,k表示小目标检测数据集中第s幅图像中第k个车厢故障标记框的坐标,
Figure BDA0003100851170000084
表示小目标检测数据集中第s幅中第k个目标标记框左上角的坐标,
Figure BDA0003100851170000085
表示小目标检测数据集中第s幅图像中第k个目标标记框左上角的横坐标,
Figure BDA0003100851170000091
表示小目标检测数据集中第s幅图像中第k个目标标记框左上角的纵坐标;
Figure BDA0003100851170000092
表示小目标检测数据集中第s幅图像中第k个目标标记框的尺寸,ws,k表示小目标检测数据集中第s幅图像中第k个目标标记框的宽度,hs,k表示小目标检测数据集中第s幅图像中第k个目标标记框的高度;
步骤2所述小目标检测数据集中每幅图像的目标标记框类别信息为:
labels,k,c,s∈[1,S],k∈[1,K],c∈[1,C]
其中,C为小目标检测数据集中目标类型的总数;labels,k,c表示小目标检测数据集中第s幅图像的第k个目标标记框属于第c种目标类型;
步骤2所述小目标检测的训练集为:
{trains(p,q),(boxs,k,labels,k,c)}
s∈[1,S],p∈[1,P],q∈[1,Q],k∈[1,Ks],c∈[1,C]
其中,trains(p,q)表示基于分布距离的小目标检测网络训练集中第s幅图像第p行第q列的像素信息,boxs,k表示基于分布距离的小目标检测网络训练集中第s幅图像中第k个目标标记框的位置坐标,labels,k,c表示基于分布距离的小目标检测网络训练集中第s幅图像第k个目标标记框属于第c种目标类型;S表示基于分布距离的小目标检测网络训练集中所有图像样本的数量,P为基于分布距离的小目标检测网络训练集中每幅图像的像素行数,N为基于分布距离的小目标检测网络训练集中每幅图像的像素列数,Ks表示基于分布距离的小目标检测网络训练集中第s幅图像中目标标记框的总数,C为基于分布距离的小目标检测网络训练集中的目标类型总数;
步骤3:基于MMDetection目标检测代码框架搭建小目标检测网络模型,将步骤2中所述小目标检测数据集作为输入数据,结合小目标检测训练集中的目标类型,构建基于分布距离的小目标检测网络损失函数,通过随机梯度下降算法训练得到优化后的基于分布距离的小目标检测网络;;
步骤4:在NVIDIA RTX 3090 GPU上,使用训练集对基于分布距离的小目标检测网络模型进行训练,具体的,模型使用随机梯度优化器(SGD),训练12个epoch,权重衰减为0.0001,批大小为4,初始学习率设置为0.005并在第8个和第11个epoch衰减;
具体的,如图1所示,为本发明的算法网络结构图,所述步骤3中,基于分布距离的小目标检测网络模型搭建的步骤为:
具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络。
所述具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、FastR-CNN网络之间均为串行级联。
所述具有金字塔结构的特征提取网络使用ResNet-50-FPN作为特征提取网络,网络输入为所述步骤2中的小目标检测训练集的单张图片trains(p,q),输出数据为{F1(P1×Q1×C1),F2(P2×Q2×C2),...,FL(PL×QL×CL)}共L种不同尺度的特征图,其中Pi,Qi,Ci分别是第i层特征图的宽度,高度和通道数。
所述基于分布距离的候选区域生成网络的搭建步骤如下:该网络的输入为{F1(P1×Q1×C1),F2(P2×Q2×C2),...,FL(PL×QL×CL)}共L种不同尺度的特征图。首先在特征金字塔第一层F1上以各像素点为中心密集的铺设具有3种长宽比(a,b,c)且面积均为S1的基础锚框,锚框集合记为A1,接着在其他各层Fi上铺设锚框Ai,各层上的锚框边长与基础锚框边长的比值与特征图采样倍率
Figure BDA0003100851170000101
一致。为了训练候选区域生成网络中的分类和回归分支,需要将生成的锚框分为正样本和负样本送入后续网络参与训练。当锚框符合以下两种情况其中之一时,将正样本标签分配给此锚框:
该锚框与某标注框的归一化高斯Wasserstein距离的值是所有锚框中最大的;
该锚框与某标注框的归一化高斯Wasserstein距离值大于人为设定的正样本阈值αp
如果该锚框与所有标注框的归一化高斯Wasserstein距离值均低于人为设定的负样本阈值αn,则将负样本标签分配给该锚框。如果一个锚框既没有分配到正样本标签也没有分配到负样本标签,则该锚框不参与训练。为了更加清晰的说明基于分布距离的正负样本分配算法,其伪代码如图2所示。首先输入标注框集合G,特征金子塔层级L,第i层特征图中的锚框集合Ai,所有锚框集合A,正样本阈值αp,负样本阈值αn。接着,将存放正样本和负样本的集合P、N初始化为空集。然后,对于输入图片中的每一个标注框g,在L层特征金字塔上的每一层,计算标注框g与锚框Ai之间的NWD并将该值存入集合Dg,计算Dg中最大值所对应的锚框索引m,将{Aim}加入正样本集合P。并且,对于锚框集合Ai中的锚框a,判断a和标注框g之间的NWD值是否大于正样本阈值αp,如果大于αp则将a加入正样本集合P;判断a和标注框g之间的NWD是否小于负样本阈值αn,如果小于αn则将a加入负样本集合N。在遍历所有特征金字塔层级,遍历所有标注框后,输出正样本集合P和负样本集合N。
在使用正负样本对网络进行训练后,网络可以预测出图像中大量目标的候选区域矩形框集合B,对应的矩形框的得分集合S,然后使用基于分布距离的非极大值抑制操作删除大量冗余候选区域矩形框。具体的,针对网络输出的某一类别c的矩形框集合
Figure BDA0003100851170000111
对应的矩形框的得分集合
Figure BDA0003100851170000112
选择预测得分最大的矩形框
Figure BDA0003100851170000113
并原始得分,然后计算
Figure BDA0003100851170000114
和其它矩形框
Figure BDA0003100851170000115
的归一化高斯Wasserstein距离值,如果该值大于0.5,说明矩形框
Figure BDA0003100851170000116
Figure BDA0003100851170000117
的相似度过高,
Figure BDA0003100851170000118
的得分设为0,如果该值不大于0.5,则保留原始得分;这样一轮后,再选择剩下矩形框的中得分最大的那个框并保留,然后计算该框和其它矩形框的归一化高斯Wasserstein距离,重复以上过程直到遍历完B中的每一个矩形框,输出经非极大值抑制后保留的矩形框集合B,以及矩形框的分数集合S;
所述Fast R-CNN网络,将候选区域生成网络生成的矩形框集合B进行RoI池化操作,提取矩形框对应区域的特征,紧接着使用该特征对矩形框进行分类和回归,对网络权重进行优化;
具体的,所述步骤3中归一化高斯Wasserstein距离值的计算公式为:
Figure BDA0003100851170000119
其中,NWD表示归一化高斯Wasserstein距离,C为一个归一化常量,用于消除距离的量纲,可以设置为数据集的平均绝对尺度,W2(Na,Nb)2表示二元高斯分布Na和Nb之间的2阶Wasserstein距离,二元高斯分布Ns,k使用矩形框
Figure BDA0003100851170000121
的参数进行建模,其中二元高斯分布的期望为R的中心点坐标(cxs,k,cys,k),中心点坐标的计算公式为:
Figure BDA0003100851170000122
其中,
Figure BDA0003100851170000123
为矩形边框的左上角点的横坐标和纵坐标,ws,k,hs,k分别指该边界框的宽度和高度。
协方差为矩形框的宽度和高度的一半即(ws,k/2,hs,k/2),由此可得W2(Na,Nb)2的计算公式为:
Figure BDA0003100851170000124
其中,(cxa,cya,wa,ha)和(cxb,cyb,wb,cyb)分别表示矩形框A和B的位置参数。
具体的,所述步骤3中基于分布距离的候选区域生成网络,其分类损失函数为交叉熵损失函数:
Figure BDA0003100851170000125
其中,y是目标的类别,p是相应类别的置信度。基于分布距离的候选区域生成网络的回归损失函数为归一化高斯Wasserstein距离损失函数,其计算公式为:
Figure BDA0003100851170000126
其中,W2(Ni,Ns,k)2表示二元高斯分布Ni和Ns,k之间的2阶Wasserstein距离,其计算公式为:
Figure BDA0003100851170000127
其中,ai=(cxi,cyi,wi,hi)和boxs,k=(cxs,k,cys,k,ws,k,hs,k)分别表示锚框和标注框的位置。
所述基于分布距离的候选区域生成网络损失函数为分类与回归损失函数之和:
Figure BDA0003100851170000128
具体的,所述步骤3中Fast R-CNN网络损失函数保留原网络损失函数。
步骤5:将待识别的图像输入优化后的基于分布距离的小目标检测网络中,经过有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络,再经非极大值抑制操作后得到最终识别结果:
{pboxm,n,pclassm,n,c},m∈[1,M],n∈[1,Nm],c∈[1,C]
Figure BDA0003100851170000131
Figure BDA0003100851170000132
其中,l表示待识别图像上的左,t表示待识别图像上的上,r表示待识别图像上的右,b表示待识别图像上的下,M表示待识别的图片数量,Nm表示待识别的第m张图片中的预测框数量,C表示目标类别数量;pboxm,n表示第m个待识别图像中第n个预测框的坐标,
Figure BDA0003100851170000133
表示第m个待识别图像中第n个预测框预测框左上角的横坐标,
Figure BDA0003100851170000134
表示第m个待识别图像中第n个预测框预测框左上角的纵坐标;pwm,n表示第m个待识别图像中第n个预测框预测框的宽度,phm,n表示第m个待识别图像中第n个预测框的高度,pclassm,n,c表示第m个待识别图像中第n个预测框属于类别c的置信度pclassm,n,c∈[0,1]。
最终得到的模型性能如下表所示,对比试验以平均准确率AP(AveragePrecision),AP50,APvt,APt,APs作为评价标准,其中AP50是指测试时IoU阈值设为0.5时计算得的AP,APvt指目标大于等于2×2像素并小于8×8像素时的平均准确率,APt指目标大于等于8×8像素并小于16×16像素时的平均准确率,APs指目标大于等于16×16像素并小于32×32像素时的平均准确率。
Figure BDA0003100851170000135
表1模型性能对比结果
由上表可以看出,在基准算法Faster R-CNN的RPN网络中应用NWD进行正负样本分配时,AP指标提升了5.3%,在此基础上,将NWD应用于非极大值抑制模块后,AP指标提升了0.1%,当进一步将NWD应用于损失函数后,AP指标进一步提升了0.3%。总体来说,将NWD应用于RPN的各个模块后,AP指标绝对提升了5.7%,相对提升了51.8%,显著提升了小目标检测精度。
为了直观的区分不同算法对小目标的检测效果,抽取部分算法同张图片的检测效果进行对比分析,如图4所示,左图为基准算法的检测效果,右图为本发明的检测效果,可以看出,本发明的检测效果优于基准算法的检测效果。
应说明的是,以上实施例仅用于说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或同等替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围内。

Claims (5)

1.一种基于分布距离的小目标检测方法,其特征在于,包括以下步骤:
步骤1:构建小目标检测图像数据集;
步骤2:人工标注步骤1中所述小目标检测数据集中每幅图像的目标标记框以及目标类别;
步骤3:构建基于分布距离的小目标检测网络,将步骤2中所述小目标检测数据集作为输入数据,结合小目标检测训练集中的目标类型,构建基于分布距离的小目标检测网络损失函数,通过随机梯度下降算法训练得到优化后的基于分布距离的小目标检测网络;
步骤4:将待识别的图像输入优化后的基于分布距离的小目标检测网络中,输出检测结果。
2.根据权利要求1所述的基于分布距离的小目标检测方法,其特征在于,
步骤1所述小目标检测图像数据集为:
{trains(p,q),s∈[1,S],p∈[1,P],q∈[1,Q]}
其中trains(p,q)表示小目标图像数据集中第s幅图像第p行q列的像素信息,S表示小目标检测数据集中所有图像样本的数量,P为小目标检测数据集中每张图像的像素行数,Q为小目标检测数据集中每张图像的像素列数。
3.根据权利要求1所述的基于分布距离的小目标检测方法,其特征在于,
步骤2中所述小目标检测数据集中每幅图像的目标标记框坐标为:
Figure FDA0003100851160000011
Figure FDA0003100851160000012
Figure FDA0003100851160000013
其中,S表示小目标检测数据集中所有图片的数量,Ks表示小目标检测图像数据集中第s幅图像中小目标标记框的总数;boxs,k表示小目标检测数据集中第s幅图像中第k个车厢故障标记框的坐标,
Figure FDA0003100851160000014
表示小目标检测数据集中第s幅中第k个目标标记框左上角的坐标,
Figure FDA0003100851160000015
表示小目标检测数据集中第s幅图像中第k个目标标记框左上角的横坐标,
Figure FDA0003100851160000016
表示小目标检测数据集中第s幅图像中第k个目标标记框左上角的纵坐标;
Figure FDA0003100851160000017
表示小目标检测数据集中第s幅图像中第k个目标标记框的尺寸,ws,k表示小目标检测数据集中第s幅图像中第k个目标标记框的宽度,hs,k表示小目标检测数据集中第s幅图像中第k个目标标记框的高度;
步骤2所述小目标检测数据集中每幅图像的目标标记框类别信息为:
labels,k,c,s∈[1,S],k∈[1,K],c∈[1,C]
其中,C为小目标检测数据集中目标类型的总数;labels,k,c表示小目标检测数据集中第s幅图像的第k个目标标记框属于第c种目标类型;
步骤2所述小目标检测的训练集为:
{trains(p,q),(boxs,k,labels,k,c)}
s∈[1,S],p∈[1,P],q∈[1,Q],k∈[1,Ks],c∈[1,C]
其中,trains(p,q)表示基于分布距离的小目标检测网络训练集中第s幅图像第p行第q列的像素信息,boxs,k表示基于分布距离的小目标检测网络训练集中第s幅图像中第k个目标标记框的位置坐标,labels,k,c表示基于分布距离的小目标检测网络训练集中第s幅图像第k个目标标记框属于第c种目标类型;S表示基于分布距离的小目标检测网络训练集中所有图像样本的数量,P为基于分布距离的小目标检测网络训练集中每幅图像的像素行数,N为基于分布距离的小目标检测网络训练集中每幅图像的像素列数,Ks表示基于分布距离的小目标检测网络训练集中第s幅图像中目标标记框的总数,C为基于分布距离的小目标检测网络训练集中的目标类型总数。
4.根据权利要求1所述的基于分布距离的小目标检测方法,其特征在于,
步骤3中所述基于分布距离的小目标检测网络具体包括:具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络;
所述具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络之间均为串行级联;
所述具有金字塔结构的特征提取网络使用ResNet-50-FPN作为特征提取网络,网络输入为所述步骤2中的小目标检测训练集的单张图片trains(p,q),输出数据为{F1(P1×Q1×C1),F2(P2×Q2×C2),...,FL(PL×QL×CL)}共L种不同尺度的特征图,其中Pi,Qi,Ci分别是第i层特征图的宽度,高度和通道数;
所述基于分布距离的候选区域生成网络的搭建步骤如下:该网络的输入为{F1(P1×Q1×C1),F2(P2×Q2×C2),...,FL(PL×QL×CL)}共L种不同尺度的特征图;
首先在特征金字塔第一层F1上以各像素点为中心密集的铺设具有3种长宽比(a,b,c)且面积均为S1的基础锚框,锚框集合记为A1,接着在其他各层Fi上铺设锚框Ai,各层上的锚框边长与基础锚框边长的比值与特征图采样倍率
Figure FDA0003100851160000031
一致;
为了训练候选区域生成网络中的分类和回归分支,需要将生成的锚框分为正样本和负样本送入后续网络参与训练;当锚框符合以下两种情况其中之一时,将正样本标签分配给此锚框:
该锚框与某标注框的归一化高斯Wasserstein距离的值是所有锚框中最大的;
该锚框与某标注框的归一化高斯Wasserstein距离值大于人为设定的正样本阈值αp
如果该锚框与所有标注框的归一化高斯Wasserstein距离值均低于人为设定的负样本阈值αn,则将负样本标签分配给该锚框;如果一个锚框既没有分配到正样本标签也没有分配到负样本标签,则该锚框不参与训练;为了更加清晰的说明基于分布距离的正负样本分配算法,其伪代码如图2所示;首先输入标注框集合G,特征金子塔层级L,第i层特征图中的锚框集合Ai,所有锚框集合A,正样本阈值αp,负样本阈值αn;接着,将存放正样本和负样本的集合P、N初始化为空集;然后,对于输入图片中的每一个标注框g,在L层特征金字塔上的每一层,计算标注框g与锚框Ai之间的NWD并将该值存入集合Dg,计算Dg中最大值所对应的锚框索引m,将{Aim}加入正样本集合P;并且,对于锚框集合Ai中的锚框a,判断a和标注框g之间的NWD值是否大于正样本阈值αp,如果大于αp则将a加入正样本集合P;判断a和标注框g之间的NWD是否小于负样本阈值αn,如果小于αn则将a加入负样本集合N;在遍历所有特征金字塔层级,遍历所有标注框后,输出正样本集合P和负样本集合N;
在使用正负样本对网络进行训练后,网络可以预测出图像中大量目标的候选区域矩形框集合B,对应的矩形框的得分集合S,然后使用基于分布距离的非极大值抑制操作删除大量冗余候选区域矩形框;具体的,针对网络输出的某一类别c的矩形框集合
Figure FDA0003100851160000041
对应的矩形框的得分集合
Figure FDA0003100851160000042
选择预测得分最大的矩形框
Figure FDA0003100851160000043
并原始得分,然后计算
Figure FDA0003100851160000044
和其它矩形框
Figure FDA0003100851160000045
的归一化高斯Wasserstein距离值,如果该值大于0.5,说明矩形框
Figure FDA0003100851160000046
Figure FDA0003100851160000047
的相似度过高,
Figure FDA0003100851160000048
的得分设为0,如果该值不大于0.5,则保留原始得分;这样一轮后,再选择剩下矩形框的中得分最大的那个框并保留,然后计算该框和其它矩形框的归一化高斯Wasserstein距离,重复以上过程直到遍历完B中的每一个矩形框,输出经非极大值抑制后保留的矩形框集合B,以及矩形框的分数集合S;
所述Fast R-CNN网络,将候选区域生成网络生成的矩形框集合B进行RoI池化操作,提取矩形框对应区域的特征,紧接着使用该特征对矩形框进行分类和回归,对网络权重进行优化;
具体的,所述步骤3中归一化高斯Wasserstein距离值的计算公式为:
Figure FDA0003100851160000049
其中,NWD表示归一化高斯Wasserstein距离,C为一个归一化常量,用于消除距离的量纲,可以设置为数据集的平均绝对尺度,W2(Na,Nb)2表示二元高斯分布Na和Nb之间的2阶Wasserstein距离,二元高斯分布Ns,k使用矩形框
Figure FDA00031008511600000410
的参数进行建模,其中二元高斯分布的期望为R的中心点坐标(cxs,k,cys,k),中心点坐标的计算公式为:
Figure FDA00031008511600000411
其中,
Figure FDA00031008511600000412
为矩形边框的左上角点的横坐标和纵坐标,ws,k,hs,k分别指该边界框的宽度和高度;
协方差为矩形框的宽度和高度的一半即(ws,k/2,hs,k/2),由此可得W2(Na,Nb)2的计算公式为:
Figure FDA00031008511600000413
其中,(cxa,cya,wa,ha)和(cxb,cyb,wb,cyb)分别表示矩形框A和B的位置参数;
具体的,所述步骤3中基于分布距离的候选区域生成网络,其分类损失函数为交叉熵损失函数:
Figure FDA0003100851160000051
其中,y是目标的类别,p是相应类别的置信度;基于分布距离的候选区域生成网络的回归损失函数为归一化高斯Wasserstein距离损失函数,其计算公式为:
Figure FDA0003100851160000052
其中,W2(Ni,Ns,k)2表示二元高斯分布Ni和Ns,k之间的2阶Wasserstein距离,其计算公式为:
Figure FDA0003100851160000053
其中,ai=(cxi,cyi,wi,hi)和boxs,k=(cxs,k,cys,k,ws,k,hs,k)分别表示锚框和标注框的位置;
所述基于分布距离的候选区域生成网络损失函数为分类与回归损失函数之和:
Figure FDA0003100851160000054
所述步骤3中Fast R-CNN网络损失函数保留原网络损失函数。
5.根据权利要求1所述的基于分布距离的小目标检测方法,其特征在于,
所述步骤4,将待识别的图像输入优化后的基于分布距离的小目标检测网络中,经过有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、FastR-CNN网络,再经非极大值抑制操作后得到最终识别结果:
{pboxm,n,pclassm,n,c},m∈[1,M],n∈[1,Nm],c∈[1,C]
Figure FDA0003100851160000055
Figure FDA0003100851160000056
其中,l表示待识别图像上的左,t表示待识别图像上的上,r表示待识别图像上的右,b表示待识别图像上的下,M表示待识别的图片数量,Nm表示待识别的第m张图片中的预测框数量,C表示目标类别数量;pboxm,n表示第m个待识别图像中第n个预测框的坐标,
Figure FDA0003100851160000061
表示第m个待识别图像中第n个预测框预测框左上角的横坐标,
Figure FDA0003100851160000062
表示第m个待识别图像中第n个预测框预测框左上角的纵坐标;pwm,n表示第m个待识别图像中第n个预测框预测框的宽度,phm,n表示第m个待识别图像中第n个预测框的高度,pclassm,n,c表示第m个待识别图像中第n个预测框属于类别c的置信度pclassm,n,c∈[0,1]。
CN202110623154.6A 2021-06-04 2021-06-04 一种基于分布距离的小目标检测方法 Active CN113378905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110623154.6A CN113378905B (zh) 2021-06-04 2021-06-04 一种基于分布距离的小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110623154.6A CN113378905B (zh) 2021-06-04 2021-06-04 一种基于分布距离的小目标检测方法

Publications (2)

Publication Number Publication Date
CN113378905A true CN113378905A (zh) 2021-09-10
CN113378905B CN113378905B (zh) 2022-06-03

Family

ID=77575730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110623154.6A Active CN113378905B (zh) 2021-06-04 2021-06-04 一种基于分布距离的小目标检测方法

Country Status (1)

Country Link
CN (1) CN113378905B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115308247A (zh) * 2022-10-11 2022-11-08 江苏昭华精密铸造科技有限公司 一种氧化铝粉体除渣质量检测方法
US11881020B1 (en) 2022-11-24 2024-01-23 Nanjing University Of Posts And Telecommunications Method for small object detection in drone scene based on deep learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859382A (zh) * 2010-06-03 2010-10-13 复旦大学 一种基于最大稳定极值区域的车牌检测与识别的方法
CN110728658A (zh) * 2019-09-16 2020-01-24 武汉大学 一种基于深度学习的高分辨率遥感影像弱目标检测方法
CN111767962A (zh) * 2020-07-03 2020-10-13 中国科学院自动化研究所 基于生成对抗式网络的一阶段目标检测方法、系统及装置
US20210064018A1 (en) * 2018-04-09 2021-03-04 Diveplane Corporation Model Reduction and Training Efficiency in Computer-Based Reasoning and Artificial Intelligence Systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859382A (zh) * 2010-06-03 2010-10-13 复旦大学 一种基于最大稳定极值区域的车牌检测与识别的方法
US20210064018A1 (en) * 2018-04-09 2021-03-04 Diveplane Corporation Model Reduction and Training Efficiency in Computer-Based Reasoning and Artificial Intelligence Systems
CN110728658A (zh) * 2019-09-16 2020-01-24 武汉大学 一种基于深度学习的高分辨率遥感影像弱目标检测方法
CN111767962A (zh) * 2020-07-03 2020-10-13 中国科学院自动化研究所 基于生成对抗式网络的一阶段目标检测方法、系统及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈阳: "组合优化理论的红外图像边缘检测", 《激光杂志》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115308247A (zh) * 2022-10-11 2022-11-08 江苏昭华精密铸造科技有限公司 一种氧化铝粉体除渣质量检测方法
CN115308247B (zh) * 2022-10-11 2022-12-16 江苏昭华精密铸造科技有限公司 一种氧化铝粉体除渣质量检测方法
US11881020B1 (en) 2022-11-24 2024-01-23 Nanjing University Of Posts And Telecommunications Method for small object detection in drone scene based on deep learning

Also Published As

Publication number Publication date
CN113378905B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN111091105B (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN107609525B (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN108492272B (zh) 基于注意力模型及多任务神经网络的心血管易损斑块识别方法及系统
CN109882019B (zh) 一种基于目标检测和动作识别的汽车电动尾门开启方法
CN106228125B (zh) 基于集成学习级联分类器的车道线检测方法
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统
CN113065578B (zh) 一种基于双路区域注意力编解码的图像视觉语义分割方法
CN107423760A (zh) 基于预分割和回归的深度学习目标检测方法
CN108492298B (zh) 基于生成对抗网络的多光谱图像变化检测方法
CN113378905B (zh) 一种基于分布距离的小目标检测方法
CN112464911A (zh) 基于改进YOLOv3-tiny的交通标志检测与识别方法
CN106372624A (zh) 人脸识别方法及系统
CN112016605A (zh) 一种基于边界框角点对齐和边界匹配的目标检测方法
CN108256462A (zh) 一种商场监控视频中的人数统计方法
CN111738114A (zh) 基于无锚点精确采样遥感图像车辆目标检测方法
CN111612747A (zh) 产品表面裂缝快速检测方法及检测系统
CN113609895A (zh) 基于改进Yolov3的获取道路交通信息方法
CN113221956A (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN116206112A (zh) 基于多尺度特征融合和sam的遥感图像语义分割方法
CN112163530A (zh) 基于特征增强和样本选择的ssd小目标检测方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN111539456A (zh) 一种目标识别方法及设备
CN115019133A (zh) 基于自训练和标签抗噪的图像中弱目标的检测方法及系统
CN114219936A (zh) 目标检测方法、电子设备、存储介质和计算机程序产品
CN117475428A (zh) 一种三维目标检测方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant