CN110503098A - 一种快速实时性轻量级的目标检测方法及设备 - Google Patents

一种快速实时性轻量级的目标检测方法及设备 Download PDF

Info

Publication number
CN110503098A
CN110503098A CN201910806191.3A CN201910806191A CN110503098A CN 110503098 A CN110503098 A CN 110503098A CN 201910806191 A CN201910806191 A CN 201910806191A CN 110503098 A CN110503098 A CN 110503098A
Authority
CN
China
Prior art keywords
layer
size
convolutional
output
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910806191.3A
Other languages
English (en)
Inventor
郭宝龙
黄喆
魏志飞
李�诚
王赓
廖楠楠
贺王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Electronic Science and Technology
Original Assignee
Xian University of Electronic Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Electronic Science and Technology filed Critical Xian University of Electronic Science and Technology
Priority to CN201910806191.3A priority Critical patent/CN110503098A/zh
Publication of CN110503098A publication Critical patent/CN110503098A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明是一种快速实时性轻量级的目标检测方法及设备,适用于大数据下的目标匹配领域、目标快速检测领域、实时性目标监控领域等。一种快速实时性轻量级的目标检测方法及设备,包括(1)对图像中目标的先验框进行聚类;(2)构建基于Darknet的卷积神经网络,进行目标检测;本发明在主干网路中,具有相同特征大小的特征图会被连接起来。这样,全连接层既可以提取浅层特征,又可以提取深层特征。在第一层张量的大小是13×13×18,这个滤波器用来检测大目标。然后通过两个卷积层和一个上采样层,网络得到第二个张量的大小是26×26×18,这个滤波器用来检测中目标。最后,将得到的特征再次经过卷积层和上采样层,特征向量的大小变成52×52×18,用来进行小目标的检测。

Description

一种快速实时性轻量级的目标检测方法及设备
技术领域
本发明是一种快速实时性轻量级的目标检测方法及设备,适用于大数据下的目标匹配领域、目标快速检测领域、实时性目标监控领域等。
背景技术
现有技术的目标检测技术为了匹配人类视觉系统,当输入一张图片,可以区分图片中的前景目标和背景信息、得到图片中的目标类别和物体的形状和位置信息。这些基于深度学习的目标检测算法,首先设计出算法的模型,然后给出一定量的图片对该算法就行训练,通过反向传播不断地迭代算法中的参数,使得损失函数达到收敛,就可以得到最终的最优化权重。检测网络使用上述权重,就可以对一个全新的图片进行特征提取,并得到待检目标的类别以及其在图片中的位置信息等。现有的基于深度学习的目标检测算法主要分为两大类:
(1)“基于候选区域”的目标检测算法:Region-based Convolutional NeuralNetworks (R-CNNs)算法,Spatial Pyramid Pooling Networks (SPP-net)算法,Fast R-CNN算,Faster R-CNN算法以及Region-based Fully Convolutional Networks (R-FPN)算法;“基于候选区域”的目标检测算法的检测都比较耗时,检测速度都比较低。上述算法除了Faster R-CNN算法,都无法实现端对端检测;
(2)“基于回归”的目标检测算法包括:You Only Look Once (YOLO)算法和SingleShot Multibox Detector (SSD)算法。“基于回归”的目标检测算法在速度上得到了很大的提升,但是精度上有所下降;并且对硬件的要求也比较高。
综上,现有的目标检测算法,存在如下缺点:
(1)在嵌入式设备或者低配置的GPU设备上,上述两类目标检测算法很难达到实时性的检测速度。为了更好的模拟实际情况,传统训练网络的层数较深、参数很多、计算代价很大,这样大大增加训练时间。这些算法虽然可以在含有GPU的设备上实时检测目标,但是当他们用于嵌入式设备或者低配置的GPU设备上,由于硬件设备的限制,没法批量处理大量的参数更新,这样会大大降低检测速度;
(2)在目标检测领域中,对“小目标”检测一直是一个难点。第一,大、中目标在图片中像素较多,可以捕捉的特征也很多;但是小目标由于像素很少,其特征信息太少,并且检测中存在池化等减少特征信息的操作,传统算法容易“漏检”,也就是没有捕捉到小目标的信息,而错位的将小目标检测为背景。第二,某些检测方法为了充分得到小目标的信息,容易过度拟合,从而产生“误检”,也就是将一些背景信息误检为小目标信息。
发明内容
本发明旨在针对目标检测中检测精准度低、检测速度慢、对设备硬件条件要求苛刻等缺点,提出一种快速的多尺度目标检测方法,跳连接和多层连接可以充分利用小目标的特征信息,降低漏检率;该轻量级检测方法可以应用在各种便携式设备上,对设施的硬件条件更加宽泛,都可以实时性的目标检测。
本发明的技术方案在于:
一种快速实时性轻量级的目标检测方法,该方法包括:
(1)对图像中目标的先验框进行聚类;
所述聚类为k-means++聚类方法;通过使用聚类算法对图像信息的先验框(anchors)进行聚类,使得算法对特定的数据集更加匹配,提高预测框(bounding box)的检出率;
(2)构建基于Darknet的卷积神经网络,进行目标检测;
该卷积神经网络包括n个卷积层;将图像依次通过对n个卷积层进行卷积操作以提取图像的特征值:第n个卷积层的输出作为第n+1个卷积层的输入,每一次卷积操作后得到一个特征图;将具有相同特征比例尺的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,再进行目标检测。
优选地,一种快速实时性轻量级的目标检测方法,将具有相同特征比例尺13×13×A的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,得到特征值为13×13×18的检测层进行大目标检测;将具有相同特征比例尺26×26×B的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,得到特征值为26×26×18的检测层进行中目标检测;将具有相同特征比例尺52×52×C的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,得到特征值为52×52×18的检测层进行小目标检测。通过多层卷积提取图片的特征信息,进行信息的处理加工。并且将具有相同特征比例尺的部分卷积层进行有机融合,充分利用低层信息,使得该目标检测网络深度学习到待检测目标的各种特征。这样就能准确判断出图片中目标的类别以及目标的尺寸大小。
优选地,一种快速实时性轻量级的目标检测方法,该方法包括:
1) 对图像中目标的先验框进行聚类;
2) 输入RGB图像后,并对其进行归一化处理;
3) 依次构建特征提取层以及检测层;
首先对该RGB图像通过特征提取层进行若干次特征提取,特征提取层包括互相交替的卷积层以及最大池化层,且第D个特征提取层的输出作为第D+1个特征提取层的输入;
再构建检测层,所述检测层均为卷积层;将具有相同特征比例尺的检测层以及特征提取层连接,以特征比例尺为13×13×18的检测层进行大目标的检测;再构建新的检测层,并将其与具有相同特征比例尺的特征提取层连接以构建特征比例尺为26×26×18、52×52×18的检测层,分别用于进行中目标及小目标的检测。
更优选地,一种快速实时性轻量级的目标检测方法,该方法如下:
1) 对图像中目标的先验框进行聚类;
2) 输入RGB图像后,并对其进行归一化处理;
构建特征提取层:
3) 首先通过一个卷积层,卷积核的大小为3×3,步长为1,总共有16个卷积核,输出的特征图大小为416×416×16;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为208×208×16;该步骤的卷积层和最大池化层分别记为卷积神经网络的第1层和第2层;
4) 再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有32个卷积核,输出的特征图大小为208×208×32;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为104×104×32;该步骤的卷积层和最大池化层分别记为卷积神经网络的第3层和第4层;
5) 再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有64个卷积核,输出的特征图大小为104×104×64;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为52×52×64;该步骤的卷积层和最大池化层分别记为网络的第5层和第6层;
6)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有128个卷积核,输出的特征图大小为52×52×128;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为26×26×128;该步骤的卷积层和最大池化层分别记为卷积神经网络的第7层和第8层;
7) 再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有256个卷积核,输出的特征图大小为26×26×256;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为13×13×256;该步骤的卷积层和最大池化层分别记为卷积神经网络的第9层和第10层;
8)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有512个卷积核,输出的特征图大小为13×13×512;接着进入最大池化层,卷积核的大小为2×2,步长为1,输出的特征图大小为13×13×512;该步骤的卷积层和最大池化层分别记为卷积神经网络的第11层和第12层;
构建检测层:
9)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有1024个卷积核,输出的特征图大小为13×13×1024;接着再进入一个卷积层,卷积核的大小为1×1,步长为1,总共有256个卷积核,输出的特征图大小为13×13×256;该步骤的两个卷积层分别记为卷积神经网络的第13层和第14层;
10) 再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有512个卷积核,输出的特征图大小为13×13×512;接着再进入一个卷积层,卷积核的大小为1×1,步长为1,总共有18个卷积核,输出的特征图大小为13×13×18;该步骤的两个卷积层分别记为卷积神经网络的第15层和第16层;以第16层进行对大目标的检测;
11) 将第11层、第12层和第15层进行连接,输出的特征图大小为13×13×1536;然后通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有256个卷积核,输出的特征图大小为13×13×256,该卷积层记为第17层;接着进行上采样,步长为2,得到的输出特征图大小为26×26×256,该步骤记为第18层;
12) 将第18层、第9层和第8层进行连接,输出的特征图大小为26×26×640;然后通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有512个卷积核,输出的特征图大小为26×26×512,该卷积层记为第19层;接着再通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有18个卷积核,输出的特征图大小为26×26×18,该卷积层记为第20层,以第20层进行对中目标的检测;
13)将第9层和第8层进行连接,输出的特征图大小为26×26×384;然后通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有128个卷积核,输出的特征图大小为26×26×128,该卷积层记为第21层;接着进行上采样,步长为2,得到的输出特征图大小为52×52×128,该步骤记为第22层;
14) 将第22层、第7层和第6层进行连接,输出的特征图大小为52×52×320;然后通过一个卷积层,其卷积核的大小为3×3,步长为1,总共有256个卷积核,输出的特征图大小为52×52×256,该卷积层记为第23层;接着再通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有18个卷积核,输出的特征图大小为52×52×18,该卷积层记为第24层,以第24层进行对小目标进行检测。
本算法可以同时预测不同尺寸的检测目标,这样有助于提高检测精度和速度。具体的,第16层卷积层进行对大目标的检测,其检测器大小为13×13×18;第20层卷积层进行对中目标的检测,其检测器大小为26×26×18;第24层卷积层进行对小目标的检测,其检测器大小为52×52×18。
更优选地,所述大目标检测、中目标检测、小目标检测的检测层的特征值的取值规则为M×M×[3×(4+1+1)];其中,M为检测框的尺寸大小,4代表回归的目标检测框的4个尺寸参数,1代表置信度,1说明是有无目标的二分类问题。
一种快速实时性轻量级的目标检测设备,使用如上所述快速实时性轻量级的目标检测方法。
本发明的技术效果在于:
1、本发明提出的实时性目标检测算法通过连接具有特征比例尺的特征图的相关卷积层,显著提高了检测目标的能力;
2、 本发明算法主干网络基于Darknet框架,融合了不同尺度的特征图。在主干网路中,具有相同特征大小的特征图会被连接起来。这样,全连接层既可以提取浅层特征,又可以提取深层特征;其中,浅层特征包括图片的颜色、纹理、几何图形等特征。在第一层张量的大小是13×13×18,这个滤波器用来检测大目标。然后通过两个卷积层和一个上采样层,网络得到第二个张量的大小是26×26×18,这个滤波器用来检测中目标。最后,将得到的特征再次经过卷积层和上采样层,特征向量的大小变成52×52×18,用来进行小目标的检测;
3、使用1×1的卷积层作为瓶颈层可以降低维度,这样针对计算代价较高的层可以减少参数量,加快网络的训练时间,使得检测算法尽快收敛;使用1×1和3×3这样的小卷积核使得网络层数加深,这样会充分应用图片中的特征,相比层数更少的卷积网络检测效果更佳;
4、对于每个卷积对,如[1×1,3×3]和[1×1,5×5],能够扫描图片中的两层网络。单层卷积层只能作为图像的线性分类器,而这样的卷积对却可以拟合图像中更为复杂的模型;在相同尺寸的感受野中叠加更多的卷积,使得不同层的卷积输出结果能够有机结合,这样可以充分利用浅层信息,提取到更加丰富的特征;
5、本发明算法对设备的硬件条件要求十分宽泛,可适用于各种便携式设备上。能够在嵌入式系统或者低配置GPU的设备上更快的进行实时性检测。
附图说明
图1为本发明多尺度的目标检测方法的结构图。
图2为本发明算法的工作流程图。
图3为本发明算法与YOLOv3-tiny算法的检测效果对比图。
图4、图5为本发明在复杂背景下的对多个小目标的检测效果图。
具体实施方式
实施例1
一种快速实时性轻量级的目标检测方法,该方法如下:
(1)对图像中目标的先验框进行聚类;
所述聚类为k-means++聚类方法;通过使用聚类算法对图像信息的先验框(anchors)进行聚类,使得算法对特定的数据集更加匹配,提高预测框(bounding box)的检出率;
在目标识别中,先验框是用来判定预测框的。Faster-RCNN中使用9个anchor来预测框,分别是:128×128、256×256、512×512,分三个尺度变换1:1、1:2和2:1,每个预测2000个框左右,这样检出率大大提高。从YOLOv2开始就增加了anchor机制,在YOLOv3-tiny中会预测6个anchors。在通过聚类VOC数据集得到了6个anchors,分别是:(10,14)、(23,27)、(37,58)、(81,82)、(135,169)、(344,319)。VOC数据集有20类目标,其中大目标包括公交车、自行车等,小目标包括到猫、鸟等,目标大小差距很大;
当使用其他数据集作为训练检测目标,上述anchors并不能完全匹配新数据集中的目标。如果不改变anchors大小,那么先验框的尺寸选取就过于主观,这样会降低检测精度。所以,有必要对数据进行预处理。例如,若使用NWPU*VHR-10数据集,通过k-means++聚类算法,将得到的9个anchors:(22,19)、(46,29)、(39,54)、(86,52)、(71,108)、(139,86)、(106,161)、(231,130)、(289,188)。这样,该算法针对特定的NWPU*VHR-10数据集会提升检测效果;
综上,数据集的预处理极具意义,通过使用k-means++的聚类算法对图像中待检目标的先验框进行聚类,使得算法对特定的数据集更加匹配,提高预测框的检出率。
实施例2
在实施例1的基础上,将具有相同特征比例尺13×13×A的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,得到特征值为13×13×18的检测层进行大目标检测;将具有相同特征比例尺26×26×B的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,得到特征值为26×26×18的检测层进行中目标检测;将具有相同特征比例尺52×52×C的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,得到特征值为52×52×18的检测层进行小目标检测。
图像通过多个卷积层逐步提取底层信息特征和高级语义特征,直接回归得到图像中待检测目标的类别和其相应的尺寸大小,端对端地输出结果。卷积神经网络中包括池化、上采样等操作,旨在减少冗余参数,增强检测速度和效果。训练过程中,由反向传播更新每个卷积层中的参数,以尽可能减少损失函数,如此可得到最优化的权重参数,这样该方法就能够基本拟合待检测目标的特征。在测试过程中,该网络使用这些权重参数对图片中的目标进行快速的实时性检测,直接得到精准的目标类别和尺寸大小。
实施例3
一种快速实时性轻量级的目标检测方法,该方法如下:
1) 对图像中目标的先验框进行聚类;
2) 输入RGB图像后,并对其进行归一化处理;
3) 依次构建特征提取层以及检测层;
首先对该RGB图像通过特征提取层进行若干次特征提取,特征提取层包括互相交替的卷积层以及最大池化层,且第D个特征提取层的输出作为第D+1个特征提取层的输入;
再构建检测层,所述检测层均为卷积层;将具有相同特征比例尺的检测层以及特征提取层连接,以特征比例尺为13×13×18的检测层进行大目标的检测;再构建新的检测层,并将其与具有相同特征比例尺的特征提取层连接以构建特征比例尺为26×26×18、52×52×18的检测层,分别用于进行中目标及小目标的检测。
实施例4
一种快速实时性轻量级的目标检测方法,该方法如下:
1) 对图像中目标的先验框进行聚类;
2) 输入RGB图像后,并对其进行归一化处理;
构建特征提取层:
3) 首先通过一个卷积层,卷积核的大小为3×3,步长为1,总共有16个卷积核,输出的特征图大小为416×416×16;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为208×208×16;该步骤的卷积层和最大池化层分别记为卷积神经网络的第1层和第2层;
4)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有32个卷积核,输出的特征图大小为208×208×32;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为104×104×32;该步骤的卷积层和最大池化层分别记为卷积神经网络的第3层和第4层;
5) 再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有64个卷积核,输出的特征图大小为104×104×64;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为52×52×64;该步骤的卷积层和最大池化层分别记为网络的第5层和第6层;
6) 再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有128个卷积核,输出的特征图大小为52×52×128;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为26×26×128;该步骤的卷积层和最大池化层分别记为卷积神经网络的第7层和第8层;
7)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有256个卷积核,输出的特征图大小为26×26×256;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为13×13×256;该步骤的卷积层和最大池化层分别记为卷积神经网络的第9层和第10层;
8) 再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有512个卷积核,输出的特征图大小为13×13×512;接着进入最大池化层,卷积核的大小为2×2,步长为1,输出的特征图大小为13×13×512;该步骤的卷积层和最大池化层分别记为卷积神经网络的第11层和第12层;
构建检测层:
9)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有1024个卷积核,输出的特征图大小为13×13×1024;接着再进入一个卷积层,卷积核的大小为1×1,步长为1,总共有256个卷积核,输出的特征图大小为13×13×256;该步骤的两个卷积层分别记为卷积神经网络的第13层和第14层;
10) 再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有512个卷积核,输出的特征图大小为13×13×512;接着再进入一个卷积层,卷积核的大小为1×1,步长为1,总共有18个卷积核,输出的特征图大小为13×13×18;该步骤的两个卷积层分别记为卷积神经网络的第15层和第16层;以第16层进行对大目标的检测;
11)将第11层、第12层和第15层进行连接,输出的特征图大小为13×13×1536;然后通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有256个卷积核,输出的特征图大小为13×13×256,该卷积层记为第17层;接着进行上采样,步长为2,得到的输出特征图大小为26×26×256,该步骤记为第18层;
12) 将第18层、第9层和第8层进行连接,输出的特征图大小为26×26×640;然后通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有512个卷积核,输出的特征图大小为26×26×512,该卷积层记为第19层;接着再通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有18个卷积核,输出的特征图大小为26×26×18,该卷积层记为第20层,以第20层进行对中目标的检测;
13) 将第9层和第8层进行连接,输出的特征图大小为26×26×384;然后通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有128个卷积核,输出的特征图大小为26×26×128,该卷积层记为第21层;接着进行上采样,步长为2,得到的输出特征图大小为52×52×128,该步骤记为第22层;
14) 将第22层、第7层和第6层进行连接,输出的特征图大小为52×52×320;然后通过一个卷积层,其卷积核的大小为3×3,步长为1,总共有256个卷积核,输出的特征图大小为52×52×256,该卷积层记为第23层;接着再通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有18个卷积核,输出的特征图大小为52×52×18,该卷积层记为第24层,以第24层进行对小目标进行检测。
本算法可以同时预测不同尺寸的检测目标,这样有助于提高检测精度和速度。具体的,第16层卷积层进行对大目标的检测,其检测器大小为13×13×18;第20层卷积层进行对中目标的检测,其检测器大小为26×26×18;第24层卷积层进行对小目标的检测,其检测器大小为52×52×18。
其中,所述大目标检测、中目标检测、小目标检测的检测层的特征值的取值规则为M×M×[3×(4+1+1)];其中,M为检测框的尺寸大小,4代表回归的目标检测框的4个尺寸参数,1代表置信度,1说明是有无目标的二分类问题。
表1 基于区域检测的各种算法在VOC2007数据集上对小目标的检测精度对照表
表2 各种检测方法在VOC2007数据集上的精度和速度对照表
图3中,编号为3.1,3.3,3.5,3.7为YOLOv3-tiny的检测效果图;编号为3.2,3.4,3.6,3.8为发明算法相应的检测效果图。检测对象包括小船(ship)、桥(bridge)、篮球场(basketball court)、网球场(tennis court)、棒球场(baseball diamond)。不难发现,与本发明算法相比,YOLOv3-tiny算法的检测存在很多“漏检”情况。
图4、图5为本发明的检测效果图。实验对象均为航拍图,检测图片中含有多类中、小目标,且背景复杂,目标间存在重叠的情况;图片按照从上到下从左到右的顺序,检测对象包括(括号内为标签内容):图4中检测目标包括:篮球场(basketball court)、田径场(ground track field)、棒球场(baseball diamond)、网球场(tennis court)。图5中:5.1小船(ship);5.2小汽车(vehicle);5.3、5.4、5.5飞机(airplane);5.6桥(bridge)。
实施例5
一种快速实时性轻量级的目标检测设备,其特征在于:使用如上所述快速实时性轻量级的目标检测方法。本方法对设备的硬件条件要求十分宽泛,可适用于各种便携式设备上。能够在嵌入式系统或者低配置GPU的设备上快速的进行实时性检测。

Claims (6)

1.一种快速实时性轻量级的目标检测方法,其特征在于:
(1)对图像中目标的先验框进行聚类;
所述聚类为k-means++聚类方法;
(2)构建基于Darknet的卷积神经网络,进行目标检测;
该卷积神经网络包括n个卷积层;将图像依次通过对n个卷积层进行卷积操作以提取图像的特征值:第n个卷积层的输出作为第n+1个卷积层的输入,每一次卷积操作后得到一个特征图;将具有相同特征比例尺的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,再进行目标检测。
2.根据权利要求1所述快速实时性轻量级的目标检测方法,其特征在于:将具有相同特征比例尺13×13×A的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,得到特征值为13×13×18的检测层进行大目标检测;将具有相同特征比例尺26×26×B的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,得到特征值为26×26×18的检测层进行中目标检测;将具有相同特征比例尺52×52×C的特征图的相关卷积层连接依次输入至卷积层后再进行上采样,得到特征值为52×52×18的检测层进行小目标检测。
3.根据权利要求2所述快速实时性轻量级的目标检测方法,其特征在于:
1)对图像中目标的先验框进行聚类;
2)输入RGB图像后,并对其进行归一化处理;
3)依次构建特征提取层以及检测层;
首先对该RGB图像通过特征提取层进行若干次特征提取,特征提取层包括互相交替的卷积层以及最大池化层,且第D个特征提取层的输出作为第D+1个特征提取层的输入;
再构建检测层,所述检测层均为卷积层;将具有相同特征比例尺的检测层以及特征提取层连接,以特征比例尺为13×13×18的检测层进行大目标的检测;再构建新的检测层,并将其与具有相同特征比例尺的特征提取层连接以构建特征比例尺为26×26×18、52×52×18的检测层,分别用于进行中目标及小目标的检测。
4.根据权利要求3所述快速实时性轻量级的目标检测方法,其特征在于:
1)对图像中目标的先验框进行聚类;
2)输入RGB图像后,并对其进行归一化处理;
构建特征提取层:
3)首先通过一个卷积层,卷积核的大小为3×3,步长为1,总共有16个卷积核,输出的特征图大小为416×416×16;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为208×208×16;该步骤的卷积层和最大池化层分别记为卷积神经网络的第1层和第2层;
4)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有32个卷积核,输出的特征图大小为208×208×32;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为104×104×32;该步骤的卷积层和最大池化层分别记为卷积神经网络的第3层和第4层;
5)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有64个卷积核,输出的特征图大小为104×104×64;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为52×52×64;该步骤的卷积层和最大池化层分别记为网络的第5层和第6层;
6)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有128个卷积核,输出的特征图大小为52×52×128;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为26×26×128;该步骤的卷积层和最大池化层分别记为卷积神经网络的第7层和第8层;
7)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有256个卷积核,输出的特征图大小为26×26×256;接着进入最大池化层,卷积核的大小为2×2,步长为2,输出的特征图大小为13×13×256;该步骤的卷积层和最大池化层分别记为卷积神经网络的第9层和第10层;
8)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有512个卷积核,输出的特征图大小为13×13×512;接着进入最大池化层,卷积核的大小为2×2,步长为1,输出的特征图大小为13×13×512;该步骤的卷积层和最大池化层分别记为卷积神经网络的第11层和第12层;
构建检测层:
9)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有1024个卷积核,输出的特征图大小为13×13×1024;接着再进入一个卷积层,卷积核的大小为1×1,步长为1,总共有256个卷积核,输出的特征图大小为13×13×256;该步骤的两个卷积层分别记为卷积神经网络的第13层和第14层;
10)再通过一个卷积层,卷积核的大小为3×3,步长为1,总共有512个卷积核,输出的特征图大小为13×13×512;接着再进入一个卷积层,卷积核的大小为1×1,步长为1,总共有18个卷积核,输出的特征图大小为13×13×18;该步骤的两个卷积层分别记为卷积神经网络的第15层和第16层;以第16层进行对大目标的检测;
11)将第11层、第12层和第15层进行连接,输出的特征图大小为13×13×1536;然后通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有256个卷积核,输出的特征图大小为13×13×256,该卷积层记为第17层;接着进行上采样,步长为2,得到的输出特征图大小为26×26×256,该步骤记为第18层;
12)将第18层、第9层和第8层进行连接,输出的特征图大小为26×26×640;然后通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有512个卷积核,输出的特征图大小为26×26×512,该卷积层记为第19层;接着再通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有18个卷积核,输出的特征图大小为26×26×18,该卷积层记为第20层,以第20层进行对中目标的检测;
13)将第9层和第8层进行连接,输出的特征图大小为26×26×384;然后通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有128个卷积核,输出的特征图大小为26×26×128,该卷积层记为第21层;接着进行上采样,步长为2,得到的输出特征图大小为52×52×128,该步骤记为第22层;
14)将第22层、第7层和第6层进行连接,输出的特征图大小为52×52×320;然后通过一个卷积层,其卷积核的大小为3×3,步长为1,总共有256个卷积核,输出的特征图大小为52×52×256,该卷积层记为第23层;接着再通过一个卷积层,其卷积核的大小为1×1,步长为1,总共有18个卷积核,输出的特征图大小为52×52×18,该卷积层记为第24层,以第24层进行对小目标进行检测。
5.根据权利要求4所述快速实时性轻量级的目标检测方法,其特征在于:所述大目标检测、中目标检测、小目标检测的检测层的特征值的取值规则为M×M×[3×(4+1+1)];其中,M为检测框的尺寸大小。
6.一种快速实时性轻量级的目标检测设备,其特征在于:使用如上权利要求1或2或3或4或5所述快速实时性轻量级的目标检测方法。
CN201910806191.3A 2019-08-29 2019-08-29 一种快速实时性轻量级的目标检测方法及设备 Pending CN110503098A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910806191.3A CN110503098A (zh) 2019-08-29 2019-08-29 一种快速实时性轻量级的目标检测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910806191.3A CN110503098A (zh) 2019-08-29 2019-08-29 一种快速实时性轻量级的目标检测方法及设备

Publications (1)

Publication Number Publication Date
CN110503098A true CN110503098A (zh) 2019-11-26

Family

ID=68590260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910806191.3A Pending CN110503098A (zh) 2019-08-29 2019-08-29 一种快速实时性轻量级的目标检测方法及设备

Country Status (1)

Country Link
CN (1) CN110503098A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889841A (zh) * 2019-11-28 2020-03-17 江苏电力信息技术有限公司 一种基于YOLOv3的输电线路鸟类检测算法
CN111626419A (zh) * 2020-07-20 2020-09-04 成都安智杰科技有限公司 卷积神经网络结构、目标检测方法及装置
CN112465794A (zh) * 2020-12-10 2021-03-09 无锡卡尔曼导航技术有限公司 一种基于YOLOv4和嵌入式平台的高尔夫球检测方法
CN113536963A (zh) * 2021-06-25 2021-10-22 西安电子科技大学 基于轻量化yolo网络的sar图像飞机目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460403A (zh) * 2018-01-23 2018-08-28 上海交通大学 一种图像中多尺度特征融合的目标检测方法与系统
CN109325418A (zh) * 2018-08-23 2019-02-12 华南理工大学 基于改进YOLOv3的道路交通环境下行人识别方法
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及系统
CN110175658A (zh) * 2019-06-26 2019-08-27 浙江大学 一种基于YOLOv3深度学习的混凝土裂缝识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460403A (zh) * 2018-01-23 2018-08-28 上海交通大学 一种图像中多尺度特征融合的目标检测方法与系统
CN109325418A (zh) * 2018-08-23 2019-02-12 华南理工大学 基于改进YOLOv3的道路交通环境下行人识别方法
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及系统
CN110175658A (zh) * 2019-06-26 2019-08-27 浙江大学 一种基于YOLOv3深度学习的混凝土裂缝识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HE WANGPENG等: "TF-YOLO: An Improved Incremental Network for Real-Time Object Detection", 《APPLIED SCIENCES》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889841A (zh) * 2019-11-28 2020-03-17 江苏电力信息技术有限公司 一种基于YOLOv3的输电线路鸟类检测算法
CN111626419A (zh) * 2020-07-20 2020-09-04 成都安智杰科技有限公司 卷积神经网络结构、目标检测方法及装置
CN112465794A (zh) * 2020-12-10 2021-03-09 无锡卡尔曼导航技术有限公司 一种基于YOLOv4和嵌入式平台的高尔夫球检测方法
CN113536963A (zh) * 2021-06-25 2021-10-22 西安电子科技大学 基于轻量化yolo网络的sar图像飞机目标检测方法
CN113536963B (zh) * 2021-06-25 2023-08-15 西安电子科技大学 基于轻量化yolo网络的sar图像飞机目标检测方法

Similar Documents

Publication Publication Date Title
Yang et al. Real-time face detection based on YOLO
CN107871124B (zh) 一种基于深度神经网络的遥感图像目标检测方法
CN110276269B (zh) 一种基于注意力机制的遥感图像目标检测方法
CN110503098A (zh) 一种快速实时性轻量级的目标检测方法及设备
WO2021139069A1 (zh) 自适应注意力指导机制的一般性目标检测方法
CN109857889B (zh) 一种图像检索方法、装置、设备及可读存储介质
CN104850845B (zh) 一种基于非对称卷积神经网络的交通标志识别方法
CN111091105A (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN109767427A (zh) 列车轨道扣件缺陷的检测方法
CN112446388A (zh) 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及系统
CN106504233A (zh) 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
CN109117876A (zh) 一种稠密小目标检测模型构建方法、模型及检测方法
CN109948425A (zh) 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN107316001A (zh) 一种自动驾驶场景中小且密集的交通标志检测方法
CN106980858A (zh) 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN109117836A (zh) 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
CN107688808A (zh) 一种快速的自然场景文本检测方法
CN113420607A (zh) 无人机多尺度目标检测识别方法
CN110084093B (zh) 基于深度学习的遥感图像中目标检测与识别的方法及装置
CN106408030A (zh) 基于中层语义属性和卷积神经网络的sar图像分类方法
CN111798417A (zh) 一种基于ssd遥感图像目标检测的方法及装置
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN108520203A (zh) 基于融合自适应多外围框与十字池化特征的多目标特征提取方法
CN105989336A (zh) 基于带权重的解卷积深度网络学习的场景识别方法
Li et al. Anchor-free single stage detector in remote sensing images based on multiscale dense path aggregation feature pyramid network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191126

RJ01 Rejection of invention patent application after publication