CN112307955A - 一种基于ssd红外图像行人检测的优化方法 - Google Patents

一种基于ssd红外图像行人检测的优化方法 Download PDF

Info

Publication number
CN112307955A
CN112307955A CN202011185664.1A CN202011185664A CN112307955A CN 112307955 A CN112307955 A CN 112307955A CN 202011185664 A CN202011185664 A CN 202011185664A CN 112307955 A CN112307955 A CN 112307955A
Authority
CN
China
Prior art keywords
optimization
ssd
detection
network
infrared image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011185664.1A
Other languages
English (en)
Inventor
王智文
冯晶
王宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Science and Technology
Original Assignee
Guangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Science and Technology filed Critical Guangxi University of Science and Technology
Priority to CN202011185664.1A priority Critical patent/CN112307955A/zh
Publication of CN112307955A publication Critical patent/CN112307955A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于SSD红外图像行人检测的优化方法,包括,基于K‑means聚类分析策略对图像中的目标框进行聚类分析;通过迭代分析得到图像检测中最优的k值,并将default boxes的个数设为k;利用IOU重叠度,即两框交集与并集的比值作为优化判别标准,将MoblieNet V2网络替换VGG‑16,构建优化模型;所述优化模型引用所述优化判别标准进行检测优化。本发明采用MobileNet V2(1.4),参数比MobileNet V2网络略高,但精度提高不少,可达到92.5%,而且耗时少比VGG‑16少很多,将VGG‑16替换为轻量级的MobileNet V2(1.4)网络结构进行特征提取,使网络在精度提升的同时更满足实时性需求,由K‑means算法对先验框的个数与长宽比进行调整,使网络更适用于行人检测,优化后的网络检测时间缩短,精度更高。

Description

一种基于SSD红外图像行人检测的优化方法
技术领域
本发明涉及行人检测优化的技术领域,尤其涉及一种基于SSD红外图像行人检测的优化方法。
背景技术
行人检测是指从输入的图像或视频序列中判断是否存在行人,并快速准确地确定其位置。目前行人检测技术已成为计算机视觉研究热点之一,在夜晚情况下,由于光照等条件不理想,可见光摄像机的成像效果较差,影响行人检测的效果。红外成像技术通过捕获物体发出的热量,所以不论白天或者夜晚,都能够获得物体成像信息,形成灰度图像。然而行人兼具刚性和柔性的物体特性,外表易受姿态、视角、遮挡等影响,使得基于红外图像的行人检测依然是一个极具挑战性的研究课题。
当前红外行人图像检测存在的难点和问题可以概括为5个方面,一、红外图像为灰度图像,没有色彩信息,而且图像深度有限,信噪比低,动态范围窄,这样对红外图像中的人体目标进行检测时,就不能像可见光那样通过对皮肤的颜色聚类;二、红外图像层次感差,纹理信息很少,而且边缘模糊,使得红外图像中的人体检测不能像可见光图像那样通过人的一些特征如眼睛、面部特点等对人体进行定位;三、由于红外图像是热成像,图像中存在很多干扰目标,如灯柱、动物、车辆、电器盒、建筑等热源,它们的红外成像比较容易与人体目标混淆;四、红外图像中目标的亮度还与目标表面特征、朝向、辐射波长有关,行人前进方向、服装成分厚重程度等都会对目标亮度产生影响,这些成像特征的不一致性,使得红外图像中人体目标的检测更加困难;五、行人兼具刚性和柔性的物特性,外表易受姿态、视角、遮挡等影响。因此研究红外图像中的人体检测具有重要的学术意义。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:SSD网络采用VGG-16进行特征提取、VGG-16网络参数多、计算量大。
为解决上述技术问题,本发明提供如下技术方案:包括,基于K-means聚类分析策略对图像中的目标框进行聚类分析;通过迭代分析得到图像检测中最优的k值,并将default boxes的个数设为k;利用IOU重叠度,即两框交集与并集的比值作为优化判别标准,将MoblieNet V2网络替换VGG-16,构建优化模型;所述优化模型引用所述优化判别标准进行检测优化。
作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案,其中:进行所述检测优化包括,将红外行人图像输入网络中,经过不同的卷积层提取特征,共生成6个不同尺度的特征图;在每个特征图上生成尺度大小不同的先验框,预测出包含目标的边界框,分别进行检测和分类;通过非极大值抑制生成最终检测结果。
作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案,其中:所述VGG16包括,5组13个卷积层、5个最大池化层和3个全连接层,其中,所述卷积层的步长为1、卷积核为3×3、所述池化层步长为2、大小为2×2;所述MoblieNet V2添加宽度缩放因子α,使得每层网络都变薄,输入通道由D变为αD,输出通道由K变为αK,计算量变为:
F×F×αD×N×N+1×1×αD×αK×N×N
其中,计算量和参数个数缩小为原来的α2
作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案,其中:还包括,所述MoblieNet为轻量级网络,采用深度可分解卷积将一个标准卷积分解为深度卷积和点卷积,其为2D卷积并作为卷积核深度为1的CNN卷积核,每个卷积核只对输入数据的一层做卷积运算,其计算量为:
F×F×D×N×N+1×1×D×K×N×N
其中,F为卷积核的维度,D为输入的深度,N为输入的宽度和高度,K为输出的深度。
作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案,其中:所述IOU重叠度包括,
d(box,centroid)=1-IOU(box,centroid)
聚类目标函数定义如下:
Figure BDA0002751362210000031
其中,box为先验框,truth为真实框,k为先验框个数。
作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案,其中:包括,所述优化模型预测的边界框l是由先验框和真实边界框计算得出的,如下:
lcx=(bcx-dcx)/dw/variance[0] lcy=(bcy-dcy)/dh/variance[1]
lw=log(bw/dw)/variance[2] lh=log(bh/dh)/variance[3]
其中,(dcx,dcy,dw,dh)为先验框参数,(bcx,bcy,bw,bh)为先验框对应的真实边界框参数,variance为超参数,用来调整检测值对l进行缩放。
作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案,其中:还包括,当进行预测时,则反向推导,利用下式解码,
bcx=dw(variance[0]×lcx)+dcx bcy=dh(variance[1]×lcy)+dcy
bw=dwexp(variance[2]×lw) bh=dhexp(variance[3]×lh)
作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案,其中:所述优化模型以损失函数为目标函数,包括,所述损失函数定义为位置误差与置信度误差的加权之和,如下:
Figure BDA0002751362210000032
其中,N是先验框的正样本的数量,c为类别置信度预测值,l为先验框所对应边界框的位置预测值,g为真实边界框的位置参数,α为权重系数。
作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案,其中:还包括,所述位置误差采用Smooth L1 loss定义,如下:
Figure BDA0002751362210000033
Figure BDA0002751362210000034
由于l是编码值,所以计算时要先对g进行编码得到
Figure BDA0002751362210000035
如下:
Figure BDA0002751362210000036
Figure BDA0002751362210000037
其中,d为先验框位置,variance为超参数,用来调整检测值对
Figure BDA0002751362210000038
进行缩放。
作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案,其中:还包括,所述置信误差采用softmax loss计算,如下:
Figure BDA0002751362210000041
其中,
Figure BDA0002751362210000042
为一个参数指标,当
Figure BDA0002751362210000043
时表示第i个预测边界框与第j个真实边界框匹配,并且边界框的类别为p,c为类别置信度预测值,p的概率预测越高,损失越小,概率通过softmax产生。
本发明的有益效果:本发明采用MobileNet V2(1.4),参数比MobileNet V2网络略高,但精度提高不少,可达到92.5%,而且耗时少比VGG-16少很多,将VGG-16替换为轻量级的MobileNet V2(1.4)网络结构进行特征提取,使网络在精度提升的同时更满足实时性需求,由K-means算法对先验框的个数与长宽比进行调整,使网络更适用于行人检测,优化后的网络检测时间缩短,精度更高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的流程示意图;
图2为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的SSD网络结构示意图;
图3为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的SSD网络检测示意图;
图4为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的VGG16网络结构示意图;
图5为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的目标函数变化曲线示意图;
图6为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的Moblie Net V2网络基本卷积单元结构示意图;
图7为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的模型训练流程示意图;
图8为本发明第二个实施例所述的基于SSD红外图像行人检测的优化方法的MAP曲线示意图;
图9为本发明第二个实施例所述的基于SSD红外图像行人检测的优化方法的输入图像示意图;
图10为本发明第二个实施例所述的基于SSD红外图像行人检测的优化方法的检测结果示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1~图7,为本发明的第一个实施例,提供了一种基于SSD红外图像行人检测的优化方法,包括:
S1:基于K-means聚类分析策略对图像中的目标框进行聚类分析。
S2:通过迭代分析得到图像检测中最优的k值,并将default boxes的个数设为k。
S3:利用IOU重叠度,即两框交集与并集的比值作为优化判别标准。参照图5,其中需要说明的是,IOU重叠度包括:
d(box,centroid)=1-IOU(box,centroid)
聚类目标函数定义如下:
Figure BDA0002751362210000061
其中,box为先验框,truth为真实框,k为先验框个数,当k>4时,曲线基本保持平稳,故k选4。
表1:红外行人真实聚类框表。
Figure BDA0002751362210000062
优化模型预测的边界框l是由先验框和真实边界框计算得出的,如下:
lcx=(bcx-dcx)/dw/variance[0] lcy=(bcy-dcy)/dh/variance[1]
lw=log(bw/dw)/variance[2] lh=log(bh/dh)/variance[3]
其中,(dcx,dcy,dw,dh)为先验框参数,(bcx,bcy,bw,bh)为先验框对应的真实边界框参数,variance为超参数,用来调整检测值对l进行缩放;
当进行预测时,则反向推导,利用下式解码,
bcx=dw(variance[0]×lcx)+dcx bcy=dh(variance[1]×lcy)+dcy
bw=dw exp(variance[2]×lw) bh=dhexp(variance[3]×lh)
S4:将MoblieNet V2网络替换VGG-16,构建优化模型。参照图2、图3、图4、图6,本步骤需要说明的是:
VGG16包括,5组13个卷积层、5个最大池化层和3个全连接层,其中,卷积层的步长为1、卷积核为3×3、池化层步长为2、大小为2×2;
MoblieNet V2添加宽度缩放因子α,使得每层网络都变薄,输入通道由D变为αD,输出通道由K变为αK,计算量变为:
F×F×αD×N×N+1×1×αD×αK×N×N
其中,计算量和参数个数缩小为原来的α2
MoblieNet为轻量级网络,采用深度可分解卷积将一个标准卷积分解为深度卷积和点卷积,其为2D卷积并作为卷积核深度为1的CNN卷积核,每个卷积核只对输入数据的一层做卷积运算,其计算量为:
F×F×D×N×N+1×1×D×K×N×N
其中,F为卷积核的维度,D为输入的深度,N为输入的宽度和高度,K为输出的深度。
S5:优化模型引用优化判别标准进行检测优化。其中还需要说明的是,进行检测优化包括:
将红外行人图像输入网络中,经过不同的卷积层提取特征,共生成6个不同尺度的特征图;
在每个特征图上生成尺度大小不同的先验框,预测出包含目标的边界框,分别进行检测和分类;
通过非极大值抑制生成最终检测结果。
优化模型以损失函数为目标函数,包括:
损失函数定义为位置误差与置信度误差的加权之和,如下:
Figure BDA0002751362210000071
其中,N是先验框的正样本的数量,c为类别置信度预测值,l为先验框所对应边界框的位置预测值,g为真实边界框的位置参数,α为权重系数。
位置误差采用Smooth L1 loss定义,如下:
Figure BDA0002751362210000081
Figure BDA0002751362210000082
由于l是编码值,所以计算时要先对g进行编码得到
Figure BDA0002751362210000083
如下:
Figure BDA0002751362210000084
Figure BDA0002751362210000085
其中,d为先验框位置,variance为超参数,用来调整检测值对
Figure BDA0002751362210000086
进行缩放。
置信误差采用softmax loss计算,如下:
Figure BDA0002751362210000087
其中,
Figure BDA0002751362210000088
为一个参数指标,当
Figure BDA0002751362210000089
时表示第i个预测边界框与第j个真实边界框匹配,并且边界框的类别为p,c为类别置信度预测值,p的概率预测越高,损失越小,概率通过softmax产生。
参照图7,本实施例为了加快训练网络的收敛速度,采用COCO数据集上迭代了1万次的权重初始化网络,将原训练集经过图像预处理模块,使图像进行增强得到处理后的图像作为训练集;卷积池化模块包含了MoblieNet V2基础网络以及后续添加的卷积层,主要对训练集图片进行特征采样和降维,feature maps分割计算模块就是对得到的特征映射计算位置偏移、置信度和预定义框的位置,并根据损失函数计算位置损失和置信损失,得到训练结果与实际结果之间的误差;当训练次数没有达到设定的最大值时把误差进行反向传播,从而不断更新权值,当训练次数达到3万次时结束训练。
优选的是,本发明采用MobileNet V2(1.4),参数比MobileNet V2网络略高,但精度提高不少,可达到92.5%,而且耗时少比VGG-16少很多,将VGG-16替换为轻量级的MobileNet V2(1.4)网络结构进行特征提取,使网络在精度提升的同时更满足实时性需求,由K-means算法对先验框的个数与长宽比进行调整,使网络更适用于行人检测,优化后的网络检测时间缩短,精度更高。
实施例2
参照图8、图9和图10,为本发明的第二个实施例,提供了一种基于SSD红外图像行人检测的优化方法的验证,包括:
测试环境:(1)参数配置;
表2:实验设置数据表。
Figure BDA0002751362210000091
网络训练过程中设置冲量常数为0.9,初始学习率为0.0004,多分步策略学习,权值衰减系数为0.0005,beach-size为16,同时通过观察损失函数变化、训练与测试准确率差异等指标调整学习率和正则化系数等超参数。
(2)混淆矩阵;
表3:混淆矩阵数据表。
Figure BDA0002751362210000092
其中,TP(True Positive)表示预测结果为True,真实值为正例,模型预测结果为正例,在目标检测中一般认为IOU>0.5为真正例;FP(False Positive)表示预测结果为False,真实值为反例,模型预测结果为正例,在目标检测中一般认为IOU<0.5为真正例;FN(False Negtive)表示预测结果为False,真实值为正例,模型预测结果为反例,未被检测出的真实边界框;TN(True Negtive)表示预测结果为True,真实值为反例,模型预测结果为反例,在目标检测中一般用不到。
(3)精确率与召回率;
精确率(Precision)又被称为查准率,表示预测值为正例中,有多少真正例被预测出来,利用下式计算:
Figure BDA0002751362210000093
召回率(Recall)表示所有正样本中有多少被预测正确,计算如下:
Figure BDA0002751362210000101
平均精确率AP(Average Precision)是一个0~1之间的数值,可以衡量模型的好坏,包括:
Figure BDA0002751362210000102
Figure BDA0002751362210000103
参照图8,mAP(mean Average Precision)表示平均准确率均值为对所有类别的AP进行平均,本实施例中采用mAP对网络进行评估,根据图8的示意,其为验证集的mAP曲线,可以直观的看出随着训练次数的增加,mAP在不断提升,平均准确率在迭代次数为0到1万次之间曲线变化非常明显,准确率的提升幅度很大,代表模型处于学习阶段,当训练次数达到1万次后,准确率趋于饱和,曲线逐步收敛,将训练好的模型通过测试集测试后平均准确率均值为91.73%。
本实施例中对训练好的网络进行打包,将测试集图像输入训练好的网络模型中对图像中行人目标进行检测,计算出图片中目标的位置偏移、目标类别、预定义框位置,根据预定义框位置和位置偏移量得到目标最终的位置(目标中心、目标长和目标宽),设置黄绿色来绘制目标边框,并给出目标为某一类的概率,当预测概率>50%时认为该目标属于行人。
参照图9和图10,是对测试集图片进行目标检测的效果,其对于3个目标分类为行人的概率分别为93%(机器75%确定该目标为行人)、92%、81%。对输入的图像能预测成功。
由于传统SSD算法的default boxes根据经验确定,而本实施例采用K-means聚类分析算法确定的数值设定default boxes,提高对行人目标的针对性,进一步提升网络对行人目标的检测能力。
参照表4为修改后的候选框与Faster-RCNN和SSD的重叠率对比,修改后的候选框数量减少的同时还提高了重叠率。
表4:候选框生成方案对比表。
Figure BDA0002751362210000104
Figure BDA0002751362210000111
传统的SSD网络采用VGG-16进行特征提取,计算消耗时间长,复杂度高,很难满足实时性要求,而本实施例采用轻量级网络MoblieNet V2(1.4)进行特征提取,既提高了精度,又大大缩短了检测时间,在ImageNet数据集下对VGG-16和MoblieNet网络的Top-1、Toop-5测试精度、参数量与CPU运行时间进行对比,结果如下:
表5:特征提取网络方案对比表。
Figure BDA0002751362210000112
本实施例采用平均准确率mAP)、查全率(recall,R)、检测时间三个指标作为不同算法在红外图像行人目标检测任务上的评判标准,兼顾查准查全两个要求,衡量算法整体性能,更全面评价不同算法针对行人目标的检测性能。
表6:不同模型在数据集中的识别结果对比表。
Figure BDA0002751362210000113
本发明采用MobileNet V2(1.4),参数比MobileNet V2网络略高,但精度提高不少,可达到92.5%,而且耗时少比VGG-16少很多,将VGG-16替换为轻量级的MobileNet V2(1.4)网络结构进行特征提取,使网络在精度提升的同时更满足实时性需求,由K-means算法对先验框的个数与长宽比进行调整,使网络更适用于行人检测,优化后的网络检测时间缩短,精度更高。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于SSD红外图像行人检测的优化方法,其特征在于:包括,
基于K-means聚类分析策略对图像中的目标框进行聚类分析;
通过迭代分析得到图像检测中最优的k值,并将default boxes的个数设为k;
利用IOU重叠度,即两框交集与并集的比值作为优化判别标准;
将MoblieNet V2网络替换VGG-16,构建优化模型;
所述优化模型引用所述优化判别标准进行检测优化。
2.根据权利要求1所述的基于SSD红外图像行人检测的优化方法,其特征在于:进行所述检测优化包括,
将红外行人图像输入网络中,经过不同的卷积层提取特征,共生成6个不同尺度的特征图;
在每个特征图上生成尺度大小不同的先验框,预测出包含目标的边界框,分别进行检测和分类;
通过非极大值抑制生成最终检测结果。
3.根据权利要求1或2所述的基于SSD红外图像行人检测的优化方法,其特征在于:所述VGG16包括,5组13个卷积层、5个最大池化层和3个全连接层,其中,所述卷积层的步长为1、卷积核为3×3、所述池化层步长为2、大小为2×2;
所述MoblieNet V2添加宽度缩放因子α,使得每层网络都变薄,输入通道由D变为αD,输出通道由K变为αK,计算量变为:
F×F×αD×N×N+1×1×αD×αK×N×N
其中,计算量和参数个数缩小为原来的α2
4.根据权利要求3所述的基于SSD红外图像行人检测的优化方法,其特征在于:还包括,
所述MoblieNet为轻量级网络,采用深度可分解卷积将一个标准卷积分解为深度卷积和点卷积,其为2D卷积并作为卷积核深度为1的CNN卷积核,每个卷积核只对输入数据的一层做卷积运算,其计算量为:
F×F×D×N×N+1×1×D×K×N×N
其中,F为卷积核的维度,D为输入的深度,N为输入的宽度和高度,K为输出的深度。
5.根据权利要求4所述的基于SSD红外图像行人检测的优化方法,其特征在于:所述IOU重叠度包括,
d(box,centroid)=1-IOU(box,centroid)
聚类目标函数定义如下:
Figure FDA0002751362200000021
其中,box为先验框,truth为真实框,k为先验框个数。
6.根据权利要求4所述的基于SSD红外图像行人检测的优化方法,其特征在于:包括,
所述优化模型预测的边界框l是由先验框和真实边界框计算得出的,如下:
lcx=(bcx-dcx)/dw/variance[0] lcy=(bcy-dcy)/dh/variance[1]
lw=log(bw/dw)/variance[2] lh=log(bh/dh)/variance[3]
其中,(dcx,dcy,dw,dh)为先验框参数,(bcx,bcy,bw,bh)为先验框对应的真实边界框参数,variance为超参数,用来调整检测值对l进行缩放。
7.根据权利要求6所述的基于SSD红外图像行人检测的优化方法,其特征在于:还包括,
当进行预测时,则反向推导,利用下式解码,
bcx=dw(variance[0]×lcx)+dcx bcy=dh(variance[1]×lcy)+dcy
bw=dwexp(variance[2]×lw) bh=dhexp(variance[3]×lh)
8.根据权利要求7所述的基于SSD红外图像行人检测的优化方法,其特征在于:所述优化模型以损失函数为目标函数,包括,
所述损失函数定义为位置误差与置信度误差的加权之和,如下:
Figure FDA0002751362200000022
其中,N是先验框的正样本的数量,c为类别置信度预测值,l为先验框所对应边界框的位置预测值,g为真实边界框的位置参数,α为权重系数。
9.根据权利要求8所述的基于SSD红外图像行人检测的优化方法,其特征在于:还包括,
所述位置误差采用Smooth L1 loss定义,如下:
Figure FDA0002751362200000023
Figure FDA0002751362200000031
由于l是编码值,所以计算时要先对g进行编码得到
Figure FDA0002751362200000032
如下:
Figure FDA0002751362200000033
Figure FDA0002751362200000034
其中,d为先验框位置,variance为超参数,用来调整检测值对
Figure FDA0002751362200000038
进行缩放。
10.根据权利要求9所述的基于SSD红外图像行人检测的优化方法,其特征在于:还包括,
所述置信误差采用softmax loss计算,如下:
Figure FDA0002751362200000035
其中,
Figure FDA0002751362200000036
为一个参数指标,当
Figure FDA0002751362200000037
时表示第i个预测边界框与第j个真实边界框匹配,并且边界框的类别为p,c为类别置信度预测值,p的概率预测越高,损失越小,概率通过softmax产生。
CN202011185664.1A 2020-10-29 2020-10-29 一种基于ssd红外图像行人检测的优化方法 Pending CN112307955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011185664.1A CN112307955A (zh) 2020-10-29 2020-10-29 一种基于ssd红外图像行人检测的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011185664.1A CN112307955A (zh) 2020-10-29 2020-10-29 一种基于ssd红外图像行人检测的优化方法

Publications (1)

Publication Number Publication Date
CN112307955A true CN112307955A (zh) 2021-02-02

Family

ID=74330821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011185664.1A Pending CN112307955A (zh) 2020-10-29 2020-10-29 一种基于ssd红外图像行人检测的优化方法

Country Status (1)

Country Link
CN (1) CN112307955A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114146283A (zh) * 2021-08-26 2022-03-08 上海大学 一种基于目标检测和ssvep的注意力训练系统及方法
CN114973310A (zh) * 2022-04-06 2022-08-30 国网智慧能源交通技术创新中心(苏州)有限公司 一种基于红外热成像的被动人体定位方法及系统
CN115147796A (zh) * 2022-07-14 2022-10-04 小米汽车科技有限公司 评测目标识别算法的方法、装置、存储介质及车辆

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107760A1 (zh) * 2016-12-16 2018-06-21 北京大学深圳研究生院 一种用于行人检测的协同式深度网络模型方法
CN109492596A (zh) * 2018-11-19 2019-03-19 南京信息工程大学 一种基于K-means聚类和区域推荐网络的行人检测方法及系统
CN109784190A (zh) * 2018-12-19 2019-05-21 华东理工大学 一种基于深度学习的自动驾驶场景关键目标检测提取方法
CN110070074A (zh) * 2019-05-07 2019-07-30 安徽工业大学 一种构建行人检测模型的方法
CN110363211A (zh) * 2018-04-10 2019-10-22 北京四维图新科技股份有限公司 检测网络模型和目标检测方法
CN110472542A (zh) * 2019-08-05 2019-11-19 深圳北斗通信科技有限公司 一种基于深度学习的红外图像行人检测方法及检测系统
CN111626128A (zh) * 2020-04-27 2020-09-04 江苏大学 一种基于改进YOLOv3的果园环境下行人检测方法
CN111709295A (zh) * 2020-05-18 2020-09-25 武汉工程大学 一种基于SSD-MobileNet的实时手势检测和识别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107760A1 (zh) * 2016-12-16 2018-06-21 北京大学深圳研究生院 一种用于行人检测的协同式深度网络模型方法
CN110363211A (zh) * 2018-04-10 2019-10-22 北京四维图新科技股份有限公司 检测网络模型和目标检测方法
CN109492596A (zh) * 2018-11-19 2019-03-19 南京信息工程大学 一种基于K-means聚类和区域推荐网络的行人检测方法及系统
CN109784190A (zh) * 2018-12-19 2019-05-21 华东理工大学 一种基于深度学习的自动驾驶场景关键目标检测提取方法
CN110070074A (zh) * 2019-05-07 2019-07-30 安徽工业大学 一种构建行人检测模型的方法
CN110472542A (zh) * 2019-08-05 2019-11-19 深圳北斗通信科技有限公司 一种基于深度学习的红外图像行人检测方法及检测系统
CN111626128A (zh) * 2020-04-27 2020-09-04 江苏大学 一种基于改进YOLOv3的果园环境下行人检测方法
CN111709295A (zh) * 2020-05-18 2020-09-25 武汉工程大学 一种基于SSD-MobileNet的实时手势检测和识别方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LUIS BARBA-GUAMAN等: "Deep Learning Framework for Vehicle and Pedestrian Detection in Rural Roads on an Embedded GPU", 《ELECTRONICS》 *
刘学等: "改进的SSD红外图像行人检测算法", 《电光与控制》 *
周博文: "基于MobileNetV2的目标检测算法研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张雪芹等: "基于深度学习的驾驶场景关键目标检测与提取", 《华东理工大学学报(自然科学版)》 *
王殿伟等: "改进的YOLOv3红外视频图像行人检测算法", 《西安邮电大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114146283A (zh) * 2021-08-26 2022-03-08 上海大学 一种基于目标检测和ssvep的注意力训练系统及方法
CN114973310A (zh) * 2022-04-06 2022-08-30 国网智慧能源交通技术创新中心(苏州)有限公司 一种基于红外热成像的被动人体定位方法及系统
CN114973310B (zh) * 2022-04-06 2024-06-07 国网智慧能源交通技术创新中心(苏州)有限公司 一种基于红外热成像的被动人体定位方法及系统
CN115147796A (zh) * 2022-07-14 2022-10-04 小米汽车科技有限公司 评测目标识别算法的方法、装置、存储介质及车辆

Similar Documents

Publication Publication Date Title
CN111104898B (zh) 基于目标语义和注意力机制的图像场景分类方法及装置
CN110503630B (zh) 一种基于三维深度学习模型的脑出血分类、定位与预测方法
CN112307955A (zh) 一种基于ssd红外图像行人检测的优化方法
CN106295124B (zh) 多种图像检测技术综合分析基因子图相似概率量的方法
CN110532970B (zh) 人脸2d图像的年龄性别属性分析方法、系统、设备和介质
KR20160101973A (ko) 비제약형 매체에 있어서 얼굴을 식별하는 시스템 및 방법
CN113435282B (zh) 基于深度学习的无人机影像麦穗识别方法
CN109934258B (zh) 特征加权和区域整合的图像检索方法
CN112287839A (zh) 一种基于迁移学习的ssd红外图像行人检测方法
Lan et al. Run: Residual u-net for computer-aided detection of pulmonary nodules without candidate selection
CN109558814A (zh) 一种三维矫正和加权相似性度量学习的无约束人脸验证方法
CN111860587A (zh) 一种用于图片小目标的检测方法
CN115953824B (zh) 一种人脸皮肤图像处理方法及系统
CN114677730A (zh) 活体检测方法、装置、电子设备及存储介质
CN116152439A (zh) 一种基于多视角人体图像的人体三维姿态重建方法及系统
CN109523590B (zh) 一种基于样例的3d图像深度信息视觉舒适度评估方法
CN111354076A (zh) 一种基于嵌入空间的单幅图像三维零件组合式建模方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN112927215A (zh) 一种消化道活检病理切片自动分析方法
CN113111743A (zh) 人员距离探测方法及装置
CN111797795A (zh) 一种基于YOLOv3与SSR的行人检测算法
Yang et al. Intelligent collection of rice disease images based on convolutional neural network and feature matching
CN115311327A (zh) 融合共现统计与fhog梯度特征的目标跟踪方法及系统
CN112651400B (zh) 一种立体内窥镜辅助检测方法、系统、装置及存储介质
CN116012903A (zh) 一种人脸表情自动标注的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination