CN111950423B - 一种基于深度学习的实时多尺度密集目标检测方法 - Google Patents

一种基于深度学习的实时多尺度密集目标检测方法 Download PDF

Info

Publication number
CN111950423B
CN111950423B CN202010782530.1A CN202010782530A CN111950423B CN 111950423 B CN111950423 B CN 111950423B CN 202010782530 A CN202010782530 A CN 202010782530A CN 111950423 B CN111950423 B CN 111950423B
Authority
CN
China
Prior art keywords
network
target detection
output
convolution
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010782530.1A
Other languages
English (en)
Other versions
CN111950423A (zh
Inventor
陈初杰
眭海刚
毛泉涌
刘立辉
张永晋
程球
杜鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
CETC 52 Research Institute
Original Assignee
Wuhan University WHU
CETC 52 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU, CETC 52 Research Institute filed Critical Wuhan University WHU
Priority to CN202010782530.1A priority Critical patent/CN111950423B/zh
Publication of CN111950423A publication Critical patent/CN111950423A/zh
Application granted granted Critical
Publication of CN111950423B publication Critical patent/CN111950423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的实时多尺度密集目标检测方法,包括:构建HikNet‑LMS目标检测网络;利用训练数据集对HikNet‑LMS目标检测网络训练至收敛;利用训练后的HikNet‑LMS目标检测网络对输入的视频图像进行多尺度密集目标检测,输出目标检测结果进行实时展示。本发明的基于深度学习的实时多尺度密集目标检测方法,多尺度目标检测的能力强,检测精度高,计算耗时短,实时性强。

Description

一种基于深度学习的实时多尺度密集目标检测方法
技术领域
本申请属于计算机视觉技术领域,具体涉及一种基于深度学习的实时多尺度密集目标检测方法。
背景技术
近年来,随着深度学习技术的迅猛发展以及计算机计算能力的不断提升,目标检测识别技术作为一种典型的深度学习技术应用正越来越多地被应用于如交通监控、安防控制和区域入侵警报等领域,并在这些领域中展现出极大的优越性。
深度学习目标检测识别的方法主要基于卷积神经网络(CNN),因其检测识别准确率与处理速度的优势,应用于各场景任务中。主流算法包括one-stage目标检测、two-stage目标检测和multi-stage目标检测。目前multi-stage目标检测方法由于处理速度限制,应用较少;one-stage目标检测算法的特点是端到端的目标检测,速度较快,但准确率相对不高;two-stage目标检测算法准确率较高,但处理速度相对较慢。
然而,业界现有的目标检测方法主要针对目标物体比较分散独立的场景。在面对诸如人群和交通拥挤路段车辆等密集目标场景下,由于目标之间互相遮挡,导致许多目标特征被覆盖,信息的可辨识度大大降低。同时,密集场景下,待检测目标往往会分布在不同视觉空间中,即目标在图像中呈现不同的距离分布,这便导致了目标尺度大小具有很大的多样性的问题,进一步增加了检测的难度。此外,在一些复杂的检测场景下,目标可能存在被树木、建筑物等遮挡的情况,这些因素造成目标特征被淹没,严重影响对目标检测识别的精确度。现有的目标检测方法,图像特征提取能力弱,在解决多尺度密集目标检测的问题时往往存在大量的漏检和误检,多尺度密集目标检测问题在学术界和工业界均还未达到较高的技术成熟度。
现有的密集目标检测方法,如公开号为CN110807496A的中国专利,其公开了一种基于YOLOv3目标检测网络的方法。该方法主要通过对训练数据集增加预处理的方式,如密集目标样本数据增广、增加边缘信息通道和更改锚点框中心坐标等方法,从而达到密集目标检测召回率的目的。但这种方法本质上对检测方法没有做任何改进,对数据集的依赖性强、泛化能力弱,当检测场景切换时便需要重新对海量数据集进行处理,效率低下。
又如公开号为CN110135422A的中国专利,其公开了一种分步进行的目标检测方法,该方法首先检测整体密集目标区域,然后再在区域中选取每个目标的感兴趣区域进行检测。但这种方法的缺点是分阶段检测耗时较长且该方法没有针对多尺度目标检测问题做相应的设计,多尺度目标检测能力弱。
发明内容
本申请的目的在于提供一种基于深度学习的实时多尺度密集目标检测方法,多尺度目标检测的能力强,检测精度高,计算耗时短,实时性强。
为实现上述目的,本申请所采取的技术方案为:
一种基于深度学习的实时多尺度密集目标检测方法,所述的基于深度学习的实时多尺度密集目标检测方法,包括:
步骤1:构建HikNet-LMS目标检测网络;
所述HikNet-LMS目标检测网络包括基础网络结构和双向多尺度特征融合结构,其中基础网络结构从输入侧到输出侧包括依次连接的卷积层、第一CNN结构、第二CNN结构、HRFB网络结构、第三CNN结构、HRFB网络结构、第四CNN结构、HRFB网络结构、第五CNN结构,所述第三CNN结构、第四CNN结构、第五CNN结构的输出作为双向多尺度特征融合结构的输入,所述双向多尺度特征融合结构的输出作为目标检测结果;
其中,所述HRFB网络结构以Previous Layer网络的输出作为输入,通过三个并排分支结构,其中第一分支包括卷积核为1 x 1的卷积层,第二分支包括依次连接的卷积核为1 x 1的卷积层、卷积核为3 x 3,rate为1的dilated卷积层、卷积核为3 x 3,rate为1的dilated卷积层,第三分支包括依次连接的卷积核为1 x 1的卷积层和卷积核为3 x 3,rate为1的dilated卷积层,最后将这三个分支的输出进行Concat,再通过ReLU激活输出;
步骤2:利用训练数据集对所述HikNet-LMS目标检测网络训练至收敛;
步骤3:利用训练后的HikNet-LMS目标检测网络对输入的视频图像进行多尺度密集目标检测,输出目标检测结果进行实时展示。
以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
作为优选,所述第一CNN结构包括依次连接的一个SepConv(k3x3)网络结构和一个MBConv2(k3x3)网络结构;
所述第二CNN结构包括依次连接的一个SepConv(k3x3)网络结构和两个MBConv2(k3x3)网络结构;
所述第三CNN结构包括依次连接的一个SepConv(k3x3)网络结构和八个MBConv2(k3x3)网络结构;
所述第四CNN结构包括依次连接的一个SepConv(k3x3)网络结构和八个MBConv2(k3x3)网络结构;
所述第五CNN结构包括依次连接的一个SepConv(k3x3)网络结构和四个MBConv2(k3x3)网络结构。
作为优选,所述SepConv(k3x3)网络结构先通过深度可分卷积操作,批处理归一化,再通过激活函数ReLU后输出到卷积核为1x1的卷积层,获取特定的特征图数量;
所述MBConv2(k3x3)网络结构先对输入特征图进行卷积核为1x1的卷积操作,然后进行深度可分卷积操作,批处理归一化,再使用激活函数ReLU进行激活操作,输出特征图数量为输入特征图数量的2倍,最后再由一层卷积核为1x1的卷积操作获取特定的特征图数量。
作为优选,所述双向多尺度特征融合结构包括一个或多个级联的HikFPN网络单元,所述HikFPN网络单元包括三个层次分支,多个HikFPN网络单元级联时各层次分支对应连接;
其中,第一层次分支与第三CNN结构的输出相连,所述第一层次分支的输入P1_in,经过卷积核为3x3的卷积层,再与第二层次分支的中间结果P2_out1相加,再经过卷积核为3x3的卷积层输出,记为P1_out;
其中,第二层次分支与第四CNN结构的输出相连,所述第二层次分支的输入P2_in,与经过上采样操作以后的第三层次分支的输入加权相加,再经过卷积核为3x3的卷积层,输出中间结果P2_out1;P2_out1再与第二层次分支的输入P2_in以及第一层次输出P1_out加权相加,作为最终的第二层次输出,记为P2_out2;
其中,第三层次分支与第五CNN结构的输出相连,所述第三层次分支的输入P3_in,经过卷积核为3x3的卷积层,再与第二层次分支的输出P2_out2相加,再经过卷积核为3x3的卷积层输出,记为P3_out。
作为优选,所述HikFPN网络单元中各层次分支的特征图的输出计算方式如下:
Figure BDA0002620757510000041
Figure BDA0002620757510000042
P1_out=Conv(Conv(P1_in)+P2_out1)
P3_out=Conv(Conv(P3_in)+P2_out2)
其中,P1_in、P2_in、P3_in分别表示第一层次分支、第二层次分支、第三层次分支的输入,P1_out、P2_out2、P3_out分别表示第一层次分支、第二层次分支、第三层次分支的输出,P2_out1表示第二层次分支的中间结果,w1、w2、w′1、w′2、w′3表示特征图对应的权重值,ε为预设值。
作为优选,所述双向多尺度特征融合结构还包括三个卷积层,三个卷积层分别与最末端的HikFPN网络单元的各个层次分支的输出连接。
作为优选,所述步骤2中利用训练数据集对所述HikNet-LMS目标检测网络训练至收敛,包括:
步骤2.1:网络参数随机初始化;
步骤2.2:从训练数据集中选取一个批次的数据作为输入;
步骤2.3:根据构建的HikNet-LMS目标检测网络结构,将选取的训练数据进行一次网络前向传播计算,获得预测值;
步骤2.4:通过预测值与实际值,根据损失函数计算损失函数的值;
步骤2.5:使用反向传播计算参数梯度大小,并利用梯度更新网络参数;
步骤2.6:若达到训练目标,则停止训练;若未达到训练目标,则判断是否达到预设训练次数,若达到训练次数,则停止训练;否则重复步骤2.2到步骤2.6直到训练结束。
与现有技术相比,本申请提供的基于深度学习的实时多尺度密集目标检测方法具有以下有益效果:
(1)构建表征能力强的基础网络结构,带来高精度的密集目标检测能力;
(2)融合双向多尺度特征融合结构,具有强大的多尺度目标检测能力;
(3)网络中大量采用深度可分卷积,压缩模型参数量,深度学习网络模型小,前向推理计算量小,实时性强。
附图说明
图1为本申请的基于深度学习的实时多尺度密集目标检测方法的流程图;
图2为本申请的HikNet-LMS目标检测网络的结构示意图;
图3为本申请HRFB网络结构的结构示意图;
图4为本申请MBConv2(k3x3)网络结构的结构示意图;
图5为本申请SepConv(k3x3)网络结构的结构示意图;
图6为本申请的HikFPN网络单元的结构示意图;
图7为本申请提供的一种目标检测网络训练的流程图;
图8为本申请提供的一种检测识别流程图;
图9为本申请实施例1中不同检测方法输出的对比结果图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
其中一个实施例中,公开了一种基于深度学习的实时多尺度密集目标检测方法,可应用于例如交通监控、安防控制和区域入侵警报等领域,克服多尺度、密集目标检测的难点,并实现实时检测展示。
如图1所示,本实施例的基于深度学习的实时多尺度密集目标检测方法,包括以下步骤:
步骤1:构建HikNet-LMS目标检测网络。
网络构建准则是保持良好的多尺度目标检测识别能力和密集目标检测精度的同时减少网络参数量,缩短算法运算耗时。因此本申请构建的HikNet-LMS目标检测网络如图2所示,包括基础网络结构和双向多尺度特征融合结构,基础网络结构的参数量小、表征能力强,融合双向多尺度特征融合结构,提升了多尺度目标检测能力。
具体的,基础网络结构从输入侧到输出侧包括依次连接的卷积层、第一CNN(卷积神经网络)结构、第二CNN结构、HRFB(Hik Receptive Field Block)网络结构、第三CNN结构、HRFB网络结构、第四CNN结构、HRFB网络结构、第五CNN结构。
本申请中输入侧、输出侧应理解为与数据处理流向对应的输入端、输出端,并且依次连接应理解为按照出现的顺序连接,并各连接之间存在数据的流动。例如依次连接的卷积层、第一CNN结构,应理解为卷积层与第一CNN结构连接,并且卷积层的输出作为第一CNN结构的输入。
其中,基础网络结构中的第三CNN结构、第四CNN结构、第五CNN结构的输出作为双向多尺度特征融合结构的输入,双向多尺度特征融合结构的输出作为目标检测结果。
需要说明的是,这里的作为输入或者作为输出,可以是直接作为输入或者作为输出,也可以是具有中间的数据处理过程。例如双向多尺度特征融合结构的输出作为目标检测结果,可以是取双向多尺度特征融合结构的输出直接作为目标检测结果,也可以是对双向多尺度特征融合结构的输出进行处理后再作为目标检测结果。
如图3所示,基础网络结构中的HRFB网络结构是在现有的RFB网络结构的基础上优化的网络结构。HRFB网络结构以Previous Layer网络(前一层网络)的输出作为输入,通过三个并排分支结构,其中第一分支包括卷积核为1 x 1的卷积层,第二分支包括依次连接的卷积核为1 x 1的卷积层、卷积核为3 x 3,rate为1的dilated卷积层、卷积核为3 x 3,rate为1的dilated卷积层,第三分支包括依次连接的卷积核为1 x 1的卷积层和卷积核为3 x3,rate为1的dilated卷积层,最后将这三个分支的输出进行Concat,再通过ReLU激活输出。在HRFB网络结构中dilated卷积层的使用可有效增大感受野。
HRFB网络结构通过不同尺寸的卷积核构成多分支结构,增加感受野,然后将不同尺寸的卷积层输出进行拼接,达到融合不同特征的目的。本实施例针对密集目标检测,去除原RFB网络结构中不同rate带来的信息丢失影响,提高密集目标检测的检测能力。
需要说明的是,HRFB网络结构包括的Previous Layer、Concat层、ReLU层可采用原来的RFB网络结构中的设计,这里不再进行赘述。
CNN结构在目标检测分类领域具有较多应用,本申请可以采用现有的CNN网络结构实现,但为了使本申请的目标检测网络具有较强的特征表征能力,在一实施例中,构建本申请中的CNN结构如下:
第一CNN结构包括依次连接的一个SepConv(k3x3)网络结构和一个MBConv2(k3x3)网络结构;第二CNN结构包括依次连接的一个SepConv(k3x3)网络结构和两个MBConv2(k3x3)网络结构;第三CNN结构包括依次连接的一个SepConv(k3x3)网络结构和八个MBConv2(k3x3)网络结构;第四CNN结构包括依次连接的一个SepConv(k3x3)网络结构和八个MBConv2(k3x3)网络结构;第五CNN结构包括依次连接的一个SepConv(k3x3)网络结构和四个MBConv2(k3x3)网络结构。
即本申请HikNet-LMS目标检测网络的基础网络结构包括依次连接的卷积层、SepConv(k3x3)网络结构、1x(MBConv2(k3x3)网络结构)、SepConv(k3x3)网络结构、2x(MBConv2(k3x3)网络结构)、HRFB网络结构、SepConv(k3x3)网络结构、8x(MBConv2(k3x3)网络结构)、HRFB网络结构、SepConv(k3x3)网络结构、8x(MBConv2(k3x3)网络结构)、HRFB网络结构、SepConv(k3x3)网络结构、4x(MBConv2(k3x3)网络结构),并且各层网络结构的输入参数[resolution,resolution,channel],其中resolution为图像的分辨率,channel为通道数如图1中所示,为416 x416 x3、416 x416 x32、208 x208 x64……。
基础网络结构的参数量小、表征能力强,并在基础特征网络中加入全新的HRFB结构,进一步提升网络特征表达能力。
如图4所示,MBConv2(k3x3)网络结构包括卷积核为1x1的卷积层(Conv 1x1)、批处理归一化(Batch Normalization,BN)、卷积核为3x3的深度可分卷积层(DeepWiseConv3x3)、激活函数ReLU。
MBConv2(k3x3)网络结构首先对输入特征图进行卷积核为1x1的卷积操作,然后进行深度可分卷积操作,批处理归一化以及使用ReLU进行激活操作,输出特征图数量为输入特征图的2倍,最后再由一层卷积核为1x1的卷积操作获取特定的特征图数量。同时,整个MBConv2(k3x3)网络结构有一个结构输入到输出残差操作(Shortcut Connections)。
本实施例的MBConv2(k3x3)网络结构通过1x1卷积操作和深度可分卷积操作在有效提取深度和空间特征的同时,大大压缩了网络参数数量,减少网络前向推理耗时,能做到实时目标检测。通过残差网络进行残差操作,使得数据流可以跨层流动,增加有效短路径权重,解决梯度消失问题。
如图5所示,SepConv(k3x3)网络结构包括卷积核为3x3的深度可分卷积层、批处理归一化、激活函数ReLU、卷积核为1x1的卷积层。
SepConv(k3x3)网络结构主要实现数据下采样功能,减小特征图大小表征深层数据特征。SepConv(k3x3)结构中先通过深度可分卷积操作,批处理归一化,通过激活函数ReLU后输出到卷积核为1x1的卷积层,获取特定的特征图数量。与MBConv2(k3x3)网络结构相同,SepConv(k3x3)有一个结构输入到输出残差操作,增加有效短路径权重,解决梯度消失问题。
现有的双向多尺度特征融合结构如FPN、PANet等,不同尺度的特征往往只是简单的相加或者拼接(Concatenate),本申请为了更好的融合不同尺度的特征,提出了一种HikFPN特征图金字塔网络结构。
本申请的双向多尺度特征融合结构包括一个或多个级联的HikFPN网络单元,主要对高层特征图进行上采样,并将上采样的结果和自底向上生成的相同大小特征图进行融合,能够有效增强多尺度目标检测能力,解决密集目标检测尺度变化大带来的漏检问题,并且在做不同特征进行融合过程中配给相应的权重平衡不同尺度的特征信息。
如图6所示,本实施例的HikFPN网络单元包括三个层次分支,多个HikFPN网络单元级联时各层次分支对应连接。由于图2中图像大小受限原因,对图2中HikFPN网络单元的结构进行缩减示意,具体的HikFPN网络单元以文字表述为准,并配合图6进行理解。
其中,第一层次分支与第三CNN结构的输出相连,所述第一层次分支的输入P1_in,经过卷积核为3x3的卷积层,再与第二层次分支的中间输出P2_out1相加,再经过卷积核为3x3的卷积层输出,记为P1_out。
其中,第二层次分支与第四CNN结构的输出相连,所述第二层次分支的输入P2_in,与经过上采样操作(Upsample)以后的第三层次分支的输入(即UpsampleConv(P3_in))加权相加,再经过卷积核为3x3的卷积层,输出中间结果P2_out1;P2_out1再与第二层次分支的输入P2_in以及第一层次输出P1_out加权相加,作为最终的第二层次输出,记为P2_out2。
其中,第三层次分支与第五CNN结构的输出相连,所述第三层次分支的输入P3_in,经过卷积核为3x3的卷积层,再与第二层次分支的输出P2_out2相加,再经过卷积核为3x3的卷积层输出,记为P3_out。
由于HikFPN网络单元可能存在多个,因此第一层次分支与第三CNN结构的输出相连,可以是第一层次分支与第三CNN结构的输出直接相连,也可以是第一层次分支与第三CNN结构的输出间接相连,这里主要强调第一层次分支与第三CNN结构的对应关系。
对于单个HikFPN网络单元而言,其各层次分支的特征图的输出计算方式如下:
Figure BDA0002620757510000091
Figure BDA0002620757510000092
P1_out=Conv(Conv(P1_in)+P2_out1)
P3_out=Conv(Conv(P3_in)+P2_out2)
其中,P1_in、P2_in、P3_in分别表示第一层次分支、第二层次分支、第三层次分支的输入,P1_out、P2_out2、P3_out分别表示第一层次分支、第二层次分支、第三层次分支的输出,P2_out1表示第二层次分支的中间结果,w1、w2、w′1、w′2、w′3表示特征图对应的权重值,ε为预设值,通常为一个很小的值,主要用于避免分母为0。
对于多个级联的HikFPN网络单元而言,最首端的HikFPN网络单元直接与基础网络结构连接,即最首端的HikFPN网络单元中的P1_in、P2_in、P3_in分别为P1、P2、P3,其中P1、P2、P3分别是第三CNN结构、第四CNN结构、第五CNN结构的输出;后续的HikFPN网络单元中,前一个HikFPN网络单元个层次分支的输出作为后一个HikFPN网络单元对应层次分支的输入。
为了消除上采样的混叠效应,本申请的双向多尺度特征融合结构还包括三个卷积层,三个卷积层分别与最末端的HikFPN网络单元的各个层次分支的输出连接。这里的最末端应理解为在多个HikFPN网络单元级联时最靠近输出侧的HikFPN网络单元。
容易理解的是,若双向多尺度特征融合结构仅包括一个HikFPN网络单元,则这个HikFPN网络单元既是最首端的HikFPN网络单元,又是最末端的HikFPN网络单元。
HikFPN网络单元与传统的特征融合方法相比主要有两个创新之处:HikFPN网络单元为双向特征融合,传统的特征融合方法多为单向融合;HikFPN网络单元中不同特征进行融合过程中不同尺度的特征信息权重不同,传统特征融合方法只是简单的特征相加或拼接。解决了密集目标场景中目标尺度范围广检测难度大的问题。此外,HikFPN在特征融合之后采用3x3大小的卷积核对每个融合结果进行卷积操作,消除上采样的混叠效应。
本申请中优选的HikNet-LMS目标检测网络中双向多尺度特征融合结构包括两个级联的HikFPN网络单元,最末端HikFPN网络单元的各层次分支连接一个卷积层,并且整个HikNet-LMS目标检测网络具有Predict1、Predict2、Predict3三个输出,每个输出包括了类别和目标框的位置。
本申请的HikNet-LMS目标检测网络,其基础网络结构采用MBConv2(k3x3)网络结构、SepConv(k3x3)网络结构和HRFB网络结构级联的方式进行堆叠,特征表达能力强,能有效解决密集目标检测场景下由于目标相互遮挡带来的漏检问题。同时,由于基础网络结构中的卷积由深度可分卷积操作实现,参数量被大大缩减,计算速度快,每个网络结构自带的残差网络设计在能够进行更深层次的网络设计同时保证网络训练时能够收敛。整个网络对图像进行了5次下采样操作,采用HikFPN网络单元,双向融合多尺度目标特征,解决多尺度检测问题,具有强大的多尺度目标检测和高精度的密集目标检测能力。
步骤2:利用训练数据集对所述HikNet-LMS目标检测网络训练至收敛。
(1)训练数据准备。获取原始图片数据集后,对数据进行标定、增广、扩充得到训练数据集。数据标定采用标定工具对图片中的目标位置和目标类别进行人工标定。标定完成之后进行样本增广,增广方式包括多角度旋转、多角度翻转、随机裁剪和图像拼接。由于HikNet-LMS目标检测网络对样本量需求大、依赖强,增广样本可以有效的提升算法本身的检测识别能力。
需要说明的是,对数据进行标定、增广、扩充等为数据处理领域的常规手段,本申请不对采用的具体方法进行限制。
(2)网络训练。网络结构构建完成以后需要对网络进行训练,得到合适的网络参数用于算法推理计算。网络训练过程的调整优劣直接决定了最终神经网络检测识别的指标好坏。本申请提供的一种目标检测网络训练的流程如图7所示,具体步骤如下:
步骤2.1:网络参数随机初始化。本实施例随机选取0附近的正负随机值作为网络参数的初始值。
步骤2.2:从训练数据集中选取一个批次的数据作为输入。其中批次大小可根据训练平台的硬件计算资源进行选择,如32,64等。
步骤2.3:根据构建的HikNet-LMS目标检测网络结构,将选取的训练数据进行一次网络前向传播计算,获得预测值。
步骤2.4:通过预测值与实际值,根据损失函数计算损失函数的值。
步骤2.5:使用反向传播计算参数梯度大小,并利用梯度更新网络参数。
步骤2.6:若达到训练目标,则停止训练;若未达到训练目标,则判断是否达到预设训练次数,若达到训练次数,则停止训练;否则重复步骤2.2到步骤2.6直到训练结束。
训练部分采用通用的超参数阶段调整策略,根据训练次数对应训练阶段的不同,调整学习率等参数的大小,使网络更好的收敛。同时,在步骤3开始前可以采用实用效果最好的Multi-scale training操作。Muil-scale training在每个训练迭代过程中随机选择一个尺度进行训练,使模型对多尺度的鲁棒性更强。
本申请的目标检测方法直接从算法层面解决密集目标检测问题,对数据集无需做复杂的预处理,适应各种场景,泛化能力强;此外,本方法为端到端的检测方法,并融合多尺度特征数据实时性和多尺度目标检测能力强。
步骤3:利用训练后的HikNet-LMS目标检测网络对输入的视频图像进行多尺度密集目标检测,输出目标检测结果进行实时展示。
由于直接获取的原始视频图像有可能因格式问题无法作为目标检测网络的输入,因此通常需要对获取的原始视频图像进行处理,基于本申请的基于深度学习的实时多尺度密集目标检测方法提供的一种完整的检测识别过程如图8所示:
主要包括:视频图像输入、视频图像解码、图像预处理、加载网络参数和目标检测。首先从视频采集设备获取原始视频码流,然后对原始视频码流进行解析获取图像,然后对图像进行预处理,实现对数据的图片格式的转换、缩放、裁剪等,使之成为合法的算法输入。数据预处理完成以后得到合法的视频图像,然后加载训练好的网络参数对处理好的视频图像进行前向推理计算获得目标检测结果,最后将目标检测结果进行实时展示。
为了进一步提高检测结果的可靠性,在一实施例中,对HikNet-LMS目标检测网络的输出进行处理,排除其中重复和置信度低的类别和目标框的位置,取筛选后的信息作为最终的目标检测结果进行实时展示。
需要说明的是,以上仅为本申请提供的一种检测识别过程,不作为对本申请HikNet-LMS目标检测网络使用的限制,在其他实施例中还可以采用其他流程,例如增加对视频图像如灰度处理的步骤,或者去除图像预处理的步骤等。
本申请的HikNet-LMS目标检测网络,对于最大支持的同时检测识别的目标个数,理论上计算,根据3个特征图输出,每个特征图大小为52 x 52,理论最大同时检测识别的目标个数为52 x 52 x 9=8112个,足够应对实际场景中密集目标检测的问题。此外,HikNet-LMS目标网络结构支持在800 x 600分辨率下的20 x 20到800 x 600目标大小的检测能力,满足多尺度目标的检测需求。
实施例1
采用本申请的HikNet-LMS目标检测网络与现有的YOLOv3检测算法进行对比测试,测试数据集为自建密集目标数据集,测试的GPU为Tesla V100,测试结果记录于表1,输出的检查结果如图9所示。
表1测试结果
方法 网络输入尺寸 处理速度(FPS) 准确率
YOLOv3检测算法 416 x 416 35 90.8%
HikNet-LMS目标检测网络 416 x 416 55 95.7%
由表1的数据可得本申请的HikNet-LMS目标检测网络与YOLOv3检测算法相比,针对密集场景目标检测准确率提高约5个百分点,而处理速度从35fps提高到了55fps。并且对比图9可得,图9左为传统YOLOv3检测算法的输出,图9右为本申请HikNet-LMS目标检测网络的输出,可以看出基于传统YOLOv3检测算法存在明显的漏检,而本申请的方法检测的准确率要高很多,并且漏检少。
本申请中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、次序。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个、三个等,除非另有明确具体的限定。
本申请中,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列单元的系统、产品或设备不必限于清楚地列出的那些单元,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它单元。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于深度学习的实时多尺度密集目标检测方法,其特征在于,所述的基于深度学习的实时多尺度密集目标检测方法,包括:
步骤1:构建HikNet-LMS目标检测网络;
所述HikNet-LMS目标检测网络包括基础网络结构和双向多尺度特征融合结构,其中基础网络结构从输入侧到输出侧包括依次连接的卷积层、第一CNN结构、第二CNN结构、HRFB网络结构、第三CNN结构、HRFB网络结构、第四CNN结构、HRFB网络结构、第五CNN结构,所述第三CNN结构、第四CNN结构、第五CNN结构的输出作为双向多尺度特征融合结构的输入,所述双向多尺度特征融合结构的输出作为目标检测结果;
其中,所述HRFB网络结构以Previous Layer网络的输出作为输入,通过三个并排分支结构,其中第一分支包括卷积核为1x1的卷积层,第二分支包括依次连接的卷积核为1x1的卷积层、卷积核为3x3,rate为1的dilated卷积层、卷积核为3x3,rate为1的dilated卷积层,第三分支包括依次连接的卷积核为1x1的卷积层和卷积核为3x3,rate为1的dilated卷积层,最后将这三个分支的输出进行Concat,再通过ReLU激活输出;
步骤2:利用训练数据集对所述HikNet-LMS目标检测网络训练至收敛;
步骤3:利用训练后的HikNet-LMS目标检测网络对输入的视频图像进行多尺度密集目标检测,输出目标检测结果进行实时展示。
2.如权利要求1所述的基于深度学习的实时多尺度密集目标检测方法,其特征在于,所述第一CNN结构包括依次连接的一个SepConv(k3x3)网络结构和一个MBConv2(k3x3)网络结构;
所述第二CNN结构包括依次连接的一个SepConv(k3x3)网络结构和两个MBConv2(k3x3)网络结构;
所述第三CNN结构包括依次连接的一个SepConv(k3x3)网络结构和八个MBConv2(k3x3)网络结构;
所述第四CNN结构包括依次连接的一个SepConv(k3x3)网络结构和八个MBConv2(k3x3)网络结构;
所述第五CNN结构包括依次连接的一个SepConv(k3x3)网络结构和四个MBConv2(k3x3)网络结构。
3.如权利要求2所述的基于深度学习的实时多尺度密集目标检测方法,其特征在于,所述SepConv(k3x3)网络结构先通过深度可分卷积操作,批处理归一化,再通过激活函数ReLU后输出到卷积核为1x1的卷积层,获取特定的特征图数量;
所述MBConv2(k3x3)网络结构先对输入特征图进行卷积核为1x1的卷积操作,然后进行深度可分卷积操作,批处理归一化,再使用激活函数ReLU进行激活操作,输出特征图数量为输入特征图数量的2倍,最后再由一层卷积核为1x1的卷积操作获取特定的特征图数量。
4.如权利要求1所述的基于深度学习的实时多尺度密集目标检测方法,其特征在于,所述双向多尺度特征融合结构包括一个或多个级联的HikFPN网络单元,所述HikFPN网络单元包括三个层次分支,多个HikFPN网络单元级联时各层次分支对应连接;
其中,第一层次分支与第三CNN结构的输出相连,所述第一层次分支的输入P1_in,经过卷积核为3x3的卷积层,再与第二层次分支的中间结果P2_out1相加,再经过卷积核为3x3的卷积层输出,记为P1_out;
其中,第二层次分支与第四CNN结构的输出相连,所述第二层次分支的输入P2_in,与经过上采样操作以后的第三层次分支的输入加权相加,再经过卷积核为3x3的卷积层,输出中间结果P2_out1;P2_out1再与第二层次分支的输入P2_in以及第一层次输出P1_out加权相加,作为最终的第二层次输出,记为P2_out2;
其中,第三层次分支与第五CNN结构的输出相连,所述第三层次分支的输入P3_in,经过卷积核为3x3的卷积层,再与第二层次分支的输出P2_out2相加,再经过卷积核为3x3的卷积层输出,记为P3_out。
5.如权利要求4所述的基于深度学习的实时多尺度密集目标检测方法,其特征在于,所述HikFPN网络单元中各层次分支的特征图的输出计算方式如下:
Figure FDA0002620757500000021
Figure FDA0002620757500000022
P1_out=Conv(Conv(P1_in)+P2_out1)
P3_out=Conv(Conv(P3_in)+P2_out2)
其中,P1_in、P2_in、P3_in分别表示第一层次分支、第二层次分支、第三层次分支的输入,P1_out、P2_out2、P3_out分别表示第一层次分支、第二层次分支、第三层次分支的输出,P2_out1表示第二层次分支的中间结果,w1、w2、w′1、w′2、w′3表示特征图对应的权重值,ε为预设值。
6.如权利要求4所述的基于深度学习的实时多尺度密集目标检测方法,其特征在于,所述双向多尺度特征融合结构还包括三个卷积层,三个卷积层分别与最末端的HikFPN网络单元的各个层次分支的输出连接。
7.如权利要求1所述的基于深度学习的实时多尺度密集目标检测方法,其特征在于,所述步骤2中利用训练数据集对所述HikNet-LMS目标检测网络训练至收敛,包括:
步骤2.1:网络参数随机初始化;
步骤2.2:从训练数据集中选取一个批次的数据作为输入;
步骤2.3:根据构建的HikNet-LMS目标检测网络结构,将选取的训练数据进行一次网络前向传播计算,获得预测值;
步骤2.4:通过预测值与实际值,根据损失函数计算损失函数的值;
步骤2.5:使用反向传播计算参数梯度大小,并利用梯度更新网络参数;
步骤2.6:若达到训练目标,则停止训练;若未达到训练目标,则判断是否达到预设训练次数,若达到训练次数,则停止训练;否则重复步骤2.2到步骤2.6直到训练结束。
CN202010782530.1A 2020-08-06 2020-08-06 一种基于深度学习的实时多尺度密集目标检测方法 Active CN111950423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010782530.1A CN111950423B (zh) 2020-08-06 2020-08-06 一种基于深度学习的实时多尺度密集目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010782530.1A CN111950423B (zh) 2020-08-06 2020-08-06 一种基于深度学习的实时多尺度密集目标检测方法

Publications (2)

Publication Number Publication Date
CN111950423A CN111950423A (zh) 2020-11-17
CN111950423B true CN111950423B (zh) 2023-01-03

Family

ID=73332957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010782530.1A Active CN111950423B (zh) 2020-08-06 2020-08-06 一种基于深度学习的实时多尺度密集目标检测方法

Country Status (1)

Country Link
CN (1) CN111950423B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464822B (zh) * 2020-11-30 2024-06-11 深圳市捷顺科技实业股份有限公司 一种基于特征增强的头盔佩戴检测方法及系统
CN112566174B (zh) * 2020-12-02 2022-05-03 中国电子科技集团公司第五十二研究所 一种基于深度学习的异常i/q信号识别方法及系统
CN113128564B (zh) * 2021-03-23 2022-03-22 武汉泰沃滋信息技术有限公司 一种基于深度学习的复杂背景下典型目标检测方法及系统
CN113221804B (zh) * 2021-05-25 2023-03-24 城云科技(中国)有限公司 一种基于监控视频的乱堆物料检测方法、装置及应用
CN118196424A (zh) * 2022-12-14 2024-06-14 华为技术有限公司 特征提取单元、特征提取方法及相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509978B (zh) * 2018-02-28 2022-06-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109886066B (zh) * 2018-12-17 2023-05-09 南京理工大学 基于多尺度和多层特征融合的快速目标检测方法
CN110298266B (zh) * 2019-06-10 2023-06-06 天津大学 基于多尺度感受野特征融合的深度神经网络目标检测方法

Also Published As

Publication number Publication date
CN111950423A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111950423B (zh) 一种基于深度学习的实时多尺度密集目标检测方法
CN111126202B (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN110688925B (zh) 基于深度学习的级联目标识别方法及系统
CN110458165B (zh) 一种引入注意力机制的自然场景文本检测方法
CN110533084A (zh) 一种基于自注意力机制的多尺度目标检测方法
CN113392960B (zh) 一种基于混合空洞卷积金字塔的目标检测网络及方法
CN107609602A (zh) 一种基于卷积神经网络的驾驶场景分类方法
CN110348384B (zh) 一种基于特征融合的小目标车辆属性识别方法
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN107832835A (zh) 一种卷积神经网络的轻量化方法及装置
KR20200094622A (ko) 뉴럴 네트워크 학습에 이용될 오토 라벨링된 이미지 중에서 라벨 검수를 위한 샘플 이미지를 획득하는 방법 및 이를 이용한 샘플 이미지 획득 장치
CN112949520B (zh) 一种基于多尺度小样本的航拍车辆检测方法及检测系统
CN112699900A (zh) 一种改进YOLOv4的交通标志识别方法
CN110929685A (zh) 基于混合特征金字塔和混合膨胀卷积的行人检测网络结构
CN111612789A (zh) 一种基于改进的U-net网络的缺陷检测方法
CN116363124B (zh) 一种基于深度学习的钢材表面缺陷检测方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN111582102B (zh) 基于多模态端到端网络的遥感数据精细化分类方法及装置
CN115527096A (zh) 一种基于改进YOLOv5的小目标检测方法
CN116310386A (zh) 基于浅层自适应增强上下文的CenterNet小目标检测方法
CN112818777B (zh) 一种基于密集连接与特征增强的遥感图像目标检测方法
CN117351487A (zh) 一种邻近区域与边缘信息融合的医学图像分割方法、系统
CN115690665B (zh) 一种基于交叉U-Net网络的视频异常检测方法及装置
CN112149518A (zh) 基于began和yolov3模型的松果检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant